券商集中交易系統(tǒng)小型機(jī)升級(jí)和選型實(shí)踐_第1頁(yè)
券商集中交易系統(tǒng)小型機(jī)升級(jí)和選型實(shí)踐_第2頁(yè)
券商集中交易系統(tǒng)小型機(jī)升級(jí)和選型實(shí)踐_第3頁(yè)
券商集中交易系統(tǒng)小型機(jī)升級(jí)和選型實(shí)踐_第4頁(yè)
券商集中交易系統(tǒng)小型機(jī)升級(jí)和選型實(shí)踐_第5頁(yè)
已閱讀5頁(yè),還剩4頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶(hù)提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、 券商集中交易系統(tǒng)小型機(jī)升級(jí)和選型實(shí)踐 【摘要】本文描述了某券商集中交易系統(tǒng)浪潮 K1 Power 小型機(jī)升級(jí)過(guò)程的前前后后,從機(jī)器選型到壓力測(cè)試,直至升級(jí)完成。重點(diǎn)分享了機(jī)器選型的過(guò)程以及選型考慮的因素。還分享了上線(xiàn)過(guò)程中遇到的一些實(shí)際問(wèn)題。一、集中交易系統(tǒng)概述券商的交易系統(tǒng)很多,最核心的系統(tǒng)就是集中交易系統(tǒng),又叫訂單系統(tǒng)。有的券商將訂單系統(tǒng)和清算系統(tǒng)進(jìn)行分離。我們公司的集中交易系統(tǒng)是訂單和清算合在一起的。除了在集中交易系統(tǒng)產(chǎn)生的訂單,還有一些子系統(tǒng)也會(huì)產(chǎn)生訂單,在清算時(shí)通過(guò)數(shù)據(jù)上下場(chǎng),同步到集中交易系統(tǒng),然后一起做清算。所以集中交易系統(tǒng)對(duì)性能和可用性要求有兩個(gè)最重要的時(shí)段,一個(gè)是白天的交易

2、時(shí)間,一個(gè)是晚上的清算時(shí)間。在其它時(shí)間一般都是有維護(hù)窗口的。二、升級(jí)到Power9 的背景公司原來(lái)使用的服務(wù)器是IBM Power系統(tǒng)小型機(jī),關(guān)鍵服務(wù)器是P780,輔助服務(wù)器是P750和S824等低端機(jī)器。Power7系列服務(wù)器是2014年上線(xiàn)的,Power8系列是2015年上線(xiàn)的,在上線(xiàn)時(shí)同時(shí)購(gòu)買(mǎi)了五年的維保服務(wù)。首先P780的單機(jī)處理能力,出現(xiàn)性能瓶頸,已經(jīng)不能滿(mǎn)足業(yè)務(wù)需要。在2019年CPU的最高使用率曾經(jīng)達(dá)到過(guò)70%,為了減輕主機(jī)壓力,我們已經(jīng)做了分布式的部署,將部分查詢(xún),登錄的業(yè)務(wù)分到其它的機(jī)器上。其次,由于機(jī)器已經(jīng)購(gòu)買(mǎi)了五年,廠(chǎng)家已經(jīng)停止生產(chǎn)該機(jī)型,購(gòu)買(mǎi)硬件維保成本較高,簡(jiǎn)單的比較

3、一臺(tái)32C P780的五年維保價(jià)格,就已經(jīng)超過(guò)一臺(tái)32C E980服務(wù)器的新購(gòu)買(mǎi)價(jià)格。如果換算成機(jī)器的處理能力,那么這個(gè)價(jià)差會(huì)更大。當(dāng)然價(jià)格的事情由于彈性很大,不是很有說(shuō)服力,這里權(quán)當(dāng)做為一個(gè)參考。再次,我們使用的數(shù)據(jù)庫(kù)軟件DB2 10.1已經(jīng)EOS(End of Service),現(xiàn)在的aix操作系統(tǒng)版本按照計(jì)劃也會(huì)在2022年EOS,從長(zhǎng)遠(yuǎn)考慮,都需要進(jìn)行升級(jí)。在這個(gè)背景下,我們啟動(dòng)了小型機(jī)升級(jí)計(jì)劃。三、服務(wù)器選型考慮服務(wù)器選型我們考慮的最重要因素是單機(jī)的處理能力,響應(yīng)時(shí)間,系統(tǒng)可靠性以及與應(yīng)用的匹配度。1、服務(wù)器型號(hào)的選擇目前 K1 Power 系統(tǒng)服務(wù)器是由浪潮商用機(jī)器有限公司生產(chǎn)的,

4、主要型號(hào)有浪潮K1 Power E980,E950,S924,S922,S914幾種型號(hào)。根據(jù)廠(chǎng)家的介紹,E980專(zhuān)為支持最重要的關(guān)鍵應(yīng)用而設(shè)計(jì),是最強(qiáng)大、可靠、安全且可擴(kuò)展的Power9服務(wù)器。E950專(zhuān)為動(dòng)態(tài)的企業(yè)計(jì)算需求而設(shè)計(jì),緊湊的4路系統(tǒng)可提供卓越的性能、極高的敏捷性和業(yè)界領(lǐng)先的可靠性。S924 面向關(guān)鍵應(yīng)用數(shù)據(jù)的適應(yīng)未來(lái)需求的4U2路服務(wù)器基礎(chǔ)設(shè)備,為關(guān)鍵應(yīng)用負(fù)載提供行業(yè)領(lǐng)先的性?xún)r(jià)比優(yōu)勢(shì)。根據(jù)我們的業(yè)務(wù)特點(diǎn),重點(diǎn)考察浪潮K1 Power E980和浪潮K1 Power E950這兩種機(jī)型。從測(cè)試結(jié)果看,這兩種機(jī)型都能滿(mǎn)足我們的需要。我個(gè)人覺(jué)得E980的優(yōu)勢(shì)在于擴(kuò)展性,可以從單柜,最

5、多擴(kuò)展到4個(gè)柜,CPU數(shù)量最多可以是E950的4倍。在選用多柜服務(wù)器的時(shí)候,一定要對(duì)應(yīng)用進(jìn)行壓力測(cè)試,確保增加CPU數(shù)量可以提高性能。最終我們選擇了E980 44C為主服務(wù)器,E950 44C做為高可用服務(wù)器,S924 20C做為非關(guān)鍵應(yīng)用設(shè)備和備機(jī)。2、服務(wù)器CPU數(shù)量選擇POWER9 CPU 的內(nèi)核數(shù)是可變的,有8核,10核,11核。以滿(mǎn)配的E950為例,CPU數(shù)量可以是32,40,44。隨著核數(shù)的增加,CPU主頻會(huì)降低,參考圖1。8核的CPU提供了最強(qiáng)的單核性能,11核的CPU提供了最大的吞吐量。從表格中可以看到隨著核數(shù)增加,主頻的范圍會(huì)變大,實(shí)際運(yùn)行的最高頻率也會(huì)降低。我們根據(jù)測(cè)試結(jié)果

6、,選擇了11核的CPU,即單機(jī)44C。圖1 CPU核數(shù)與主頻的關(guān)系3、擴(kuò)展柜的選擇我們?cè)谝郧暗姆?wù)器選型中,經(jīng)常會(huì)選用擴(kuò)展柜,這次經(jīng)過(guò)對(duì)服務(wù)器的分析,發(fā)現(xiàn)利用服務(wù)器現(xiàn)有的插槽,就能滿(mǎn)足要求。以E980為例,該服務(wù)器共有8個(gè)PCIE4插槽,一般配置2塊HBA卡連接存儲(chǔ),2塊萬(wàn)兆網(wǎng)卡,2塊千兆網(wǎng)卡,就可以滿(mǎn)足需要了,還有2個(gè)PCIE4插槽用于其他需求。圖2 E980插槽4、啟動(dòng)盤(pán)的選擇浪潮 K1 Power 服務(wù)器支持使用NVME盤(pán)做為啟動(dòng)盤(pán),圖2中部的四個(gè)槽位就是NVME盤(pán)插槽,NVME盤(pán)做為服務(wù)器的啟動(dòng)盤(pán)屬于首次采用,而且 NVME盤(pán)無(wú)法做RAID,與傳統(tǒng)的啟動(dòng)盤(pán)有較大差異。我們最終選用了NV

7、ME盤(pán)做為啟動(dòng)盤(pán),通過(guò)主機(jī)LVM來(lái)對(duì)磁盤(pán)進(jìn)行高可用保護(hù)。使用NVME做為啟動(dòng)盤(pán),也節(jié)約了PCIE4插槽。5、板卡位置調(diào)整從圖3可以看出,每顆CPU對(duì)應(yīng)著自己的槽位。我們對(duì)CPU進(jìn)行了綁定,0、1號(hào)CPU綁定給數(shù)據(jù)庫(kù)使用,2、3號(hào)CPU綁定給應(yīng)用使用。因?yàn)閿?shù)據(jù)庫(kù)對(duì)IO要求最高,所以把HBA卡安裝到在0、1號(hào)CPU對(duì)應(yīng)的槽位中;把網(wǎng)卡安裝到2、3號(hào)CPU對(duì)應(yīng)的槽位中,經(jīng)過(guò)實(shí)際的測(cè)試,經(jīng)過(guò)調(diào)整后的最大性能可以提高3%左右。圖3 E980系統(tǒng)拓?fù)鋱D四、機(jī)器選型測(cè)試在購(gòu)買(mǎi)機(jī)器前,進(jìn)行了選型測(cè)試。主要目的是選擇機(jī)器的配置以及對(duì)系統(tǒng)進(jìn)行優(yōu)化,發(fā)現(xiàn)隱藏的問(wèn)題,這里主要介紹一下選擇機(jī)型的依據(jù)。測(cè)試方法使用我們集

8、中交易系統(tǒng),按照委托查詢(xún)1:5的壓力測(cè)試模型,對(duì)系統(tǒng)進(jìn)行壓力測(cè)試,應(yīng)用和數(shù)據(jù)庫(kù)部署在同一臺(tái)機(jī)器上,CPU按照1:1進(jìn)行了綁定,即一半的CPU綁定給數(shù)據(jù)庫(kù),一半的CPU綁定給應(yīng)用。以數(shù)據(jù)庫(kù)每秒執(zhí)行的sql語(yǔ)句數(shù)做為性能衡量指標(biāo)。從測(cè)試結(jié)果中,我們得到以下一些結(jié)論:1. 機(jī)器的性能和rPerf值正相關(guān)。2. 對(duì)于單柜服務(wù)器,44C服務(wù)器吞吐量大于32C3. CPU數(shù)量相同的情況下,E980機(jī)器略好與E950,符合機(jī)器的rPerf值對(duì)比4. 對(duì)于雙柜的E980,64C服務(wù)器由于CPU過(guò)多,無(wú)法充分利用CPU,實(shí)際測(cè)試的時(shí)候,經(jīng)常會(huì)出現(xiàn)kernel升高的現(xiàn)象。5. 性能最好的服務(wù)器是44C的E980五

9、、升級(jí)方案1、升級(jí)方案本次升級(jí)是對(duì)原有系統(tǒng)進(jìn)行整體的替換,所以實(shí)施起來(lái)比較簡(jiǎn)單,按照原來(lái)的系統(tǒng)架構(gòu)重新部署一份即可,然后進(jìn)行數(shù)據(jù)遷移,系統(tǒng)切換。2、整體架構(gòu)整體架構(gòu)如圖4所示。兩地三中心的部署模式,適當(dāng)利舊了部分Power8系列服務(wù)器。圖4 部署架構(gòu)圖六、實(shí)施中遇到的問(wèn)題及處理辦法1、CPU綁定問(wèn)題根據(jù)廠(chǎng)商專(zhuān)家的說(shuō)法,POWER9 的CPU架構(gòu)設(shè)計(jì)非常合理,使用中是不需要進(jìn)行CPU綁定的,然而根據(jù)我們實(shí)際的測(cè)試結(jié)果,對(duì)CPU進(jìn)行綁定是有利的。這里有個(gè)很重要的原因是當(dāng)CPU數(shù)量過(guò)多時(shí),不是CPU自己通訊有問(wèn)題,而是應(yīng)用對(duì)CPU的調(diào)度會(huì)出現(xiàn)問(wèn)題。所以建議在實(shí)際使用時(shí),至少要測(cè)試一下綁定的效果,然后

10、選擇性能最好模式。2、 CPU運(yùn)行主頻低我們共有4臺(tái)E950機(jī)器,其中三臺(tái)的CPU主頻為3.5GHz,一臺(tái)機(jī)器主頻為3.2GHz。都開(kāi)啟了最大性能模式,后來(lái)發(fā)現(xiàn)是HMC里面配置的參數(shù)不一樣導(dǎo)致的。正確的參數(shù)如下:通過(guò)HMC,勾選E950,登錄ASMI ,進(jìn)入菜單Power Management-Tuning ParametersEnable/Disable workload optimized frequencyCurrent value:Enablenew value: Enable3、CPU線(xiàn)程數(shù)的選擇根據(jù)廠(chǎng)商的說(shuō)明,POWER9 CPU建議使用8線(xiàn)程。由于以前的服務(wù)器是使用的4線(xiàn)程,所以

11、對(duì)這個(gè)還是有疑慮的。從官方材料看,從AIX 7.2 TL3開(kāi)始,SMT8是POWER9平臺(tái)的默認(rèn)設(shè)置,性能比SMT4有26%提升。我們經(jīng)過(guò)實(shí)際測(cè)試,符合預(yù)期,所以最終選擇了SMT8模式。4、AIX 版本選擇對(duì)于AIX 版本選擇,我們一般是按照最佳實(shí)踐來(lái)選的,我們測(cè)試的第一個(gè)版本是7200-03-02,但在測(cè)試過(guò)程中發(fā)現(xiàn)了缺陷IV12633:J2GT THREAD PERFORMANCE ISSUES APPLIES TO AIX 7200-0319/05/10 PTF PECHANGE,該缺陷會(huì)導(dǎo)致CPUkernel使用率變高,該缺陷是在7200-03-03中被修復(fù)的,所以最后選擇7200-0

12、3-03版本。5、LVM遇到存儲(chǔ)故障時(shí),IO中斷時(shí)間過(guò)長(zhǎng)我們?cè)跍y(cè)試雙存儲(chǔ)LVMMirror的時(shí)候,發(fā)現(xiàn)當(dāng)一個(gè)存儲(chǔ)發(fā)生故障時(shí),會(huì)產(chǎn)生IO中斷,需要經(jīng)過(guò)5分鐘才能恢復(fù)正常。經(jīng)過(guò)與實(shí)驗(yàn)室溝通,這個(gè)問(wèn)題在aix 7.2TL3中就是這樣設(shè)計(jì)的,當(dāng)FC鏈路故障時(shí)(如link down),DiskDriver嘗試LUN Reset,如果在限定時(shí)間內(nèi)LUNReset不成功,則認(rèn)為IO失敗。如果LUN Reset等待時(shí)間過(guò)短,在高IO壓力的情況下(同一個(gè)block在同一時(shí)刻發(fā)生多次寫(xiě)IO),發(fā)生FC路徑切換時(shí),有較低概率造成data loss/corruption。為保證數(shù)據(jù)完整性,AIX7200-03-03

13、中延長(zhǎng)了 LUN resetretries的等待時(shí)間。在aix7.2 TL4中,增加了一個(gè)新參數(shù),rw_max_time,最小可以設(shè)置為60,當(dāng)發(fā)生單存儲(chǔ)故障時(shí),IO中斷時(shí)間為60秒。且沒(méi)有數(shù)據(jù)丟失風(fēng)險(xiǎn)。6、機(jī)器時(shí)鐘不準(zhǔn)在機(jī)器運(yùn)行一段時(shí)間后,發(fā)現(xiàn)機(jī)器時(shí)間誤差較大,咨詢(xún)廠(chǎng)家得知,Power8以后的機(jī)器系統(tǒng)時(shí)間誤差會(huì)比Power7以及以前的服務(wù)器大一些,這個(gè)是為了適應(yīng)更高主頻的總線(xiàn)導(dǎo)致的,一天偏差正負(fù)三秒以?xún)?nèi)屬于正常現(xiàn)象。如果對(duì)系統(tǒng)時(shí)間準(zhǔn)確性較為敏感,一般建議配置NTP。7、netstat -an輸出顯示錯(cuò)誤在運(yùn)行netstat -an的時(shí)候,輸出會(huì)有“dropped due to memory

14、allocation failure”。經(jīng)查,這是一個(gè)已知APAR,IJ16586-NETSTAT PRINTS SOME MESSAGES INCORRECTLY。安裝對(duì)應(yīng)補(bǔ)丁即可。七、實(shí)際使用效果及實(shí)踐經(jīng)驗(yàn)總結(jié)1、升級(jí)后的效果升級(jí)后系統(tǒng)CPU使用率大幅度下降,系統(tǒng)響應(yīng)時(shí)間變快,吞吐量大幅提升。這里放了兩張系統(tǒng)運(yùn)行圖,圖5是P780的一天的CPU和IO使用情況,圖6雙E980一天的CPU和IO使用情況,這兩天的業(yè)務(wù)量差不多。CPU的平均使用率從7.9%下降到2.%,CPU的最高使用率從63.3%下降到22.1%,可以說(shuō),通過(guò)硬件升級(jí),現(xiàn)在系統(tǒng)完全可以滿(mǎn)足性能要求。另外一個(gè)重要指標(biāo)就是升級(jí)后,清算時(shí)間縮短了25%。圖5 P780一天運(yùn)行情況圖6 E980一天運(yùn)行情況2、實(shí)踐經(jīng)驗(yàn)總結(jié)在進(jìn)行機(jī)器升級(jí)的時(shí)候,一定要對(duì)新機(jī)器有充分的了解,如果有條件的話(huà),要進(jìn)行充分的測(cè)試。就本次升級(jí)而已,測(cè)試起到了非常重要的作用,機(jī)器型號(hào)

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶(hù)所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶(hù)上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶(hù)上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶(hù)因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論