券商集中交易系統(tǒng)小型機(jī)升級和選型實(shí)踐_第1頁
券商集中交易系統(tǒng)小型機(jī)升級和選型實(shí)踐_第2頁
券商集中交易系統(tǒng)小型機(jī)升級和選型實(shí)踐_第3頁
券商集中交易系統(tǒng)小型機(jī)升級和選型實(shí)踐_第4頁
券商集中交易系統(tǒng)小型機(jī)升級和選型實(shí)踐_第5頁
已閱讀5頁,還剩4頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

1、 券商集中交易系統(tǒng)小型機(jī)升級和選型實(shí)踐 【摘要】本文描述了某券商集中交易系統(tǒng)浪潮 K1 Power 小型機(jī)升級過程的前前后后,從機(jī)器選型到壓力測試,直至升級完成。重點(diǎn)分享了機(jī)器選型的過程以及選型考慮的因素。還分享了上線過程中遇到的一些實(shí)際問題。一、集中交易系統(tǒng)概述券商的交易系統(tǒng)很多,最核心的系統(tǒng)就是集中交易系統(tǒng),又叫訂單系統(tǒng)。有的券商將訂單系統(tǒng)和清算系統(tǒng)進(jìn)行分離。我們公司的集中交易系統(tǒng)是訂單和清算合在一起的。除了在集中交易系統(tǒng)產(chǎn)生的訂單,還有一些子系統(tǒng)也會產(chǎn)生訂單,在清算時通過數(shù)據(jù)上下場,同步到集中交易系統(tǒng),然后一起做清算。所以集中交易系統(tǒng)對性能和可用性要求有兩個最重要的時段,一個是白天的交易

2、時間,一個是晚上的清算時間。在其它時間一般都是有維護(hù)窗口的。二、升級到Power9 的背景公司原來使用的服務(wù)器是IBM Power系統(tǒng)小型機(jī),關(guān)鍵服務(wù)器是P780,輔助服務(wù)器是P750和S824等低端機(jī)器。Power7系列服務(wù)器是2014年上線的,Power8系列是2015年上線的,在上線時同時購買了五年的維保服務(wù)。首先P780的單機(jī)處理能力,出現(xiàn)性能瓶頸,已經(jīng)不能滿足業(yè)務(wù)需要。在2019年CPU的最高使用率曾經(jīng)達(dá)到過70%,為了減輕主機(jī)壓力,我們已經(jīng)做了分布式的部署,將部分查詢,登錄的業(yè)務(wù)分到其它的機(jī)器上。其次,由于機(jī)器已經(jīng)購買了五年,廠家已經(jīng)停止生產(chǎn)該機(jī)型,購買硬件維保成本較高,簡單的比較

3、一臺32C P780的五年維保價格,就已經(jīng)超過一臺32C E980服務(wù)器的新購買價格。如果換算成機(jī)器的處理能力,那么這個價差會更大。當(dāng)然價格的事情由于彈性很大,不是很有說服力,這里權(quán)當(dāng)做為一個參考。再次,我們使用的數(shù)據(jù)庫軟件DB2 10.1已經(jīng)EOS(End of Service),現(xiàn)在的aix操作系統(tǒng)版本按照計劃也會在2022年EOS,從長遠(yuǎn)考慮,都需要進(jìn)行升級。在這個背景下,我們啟動了小型機(jī)升級計劃。三、服務(wù)器選型考慮服務(wù)器選型我們考慮的最重要因素是單機(jī)的處理能力,響應(yīng)時間,系統(tǒng)可靠性以及與應(yīng)用的匹配度。1、服務(wù)器型號的選擇目前 K1 Power 系統(tǒng)服務(wù)器是由浪潮商用機(jī)器有限公司生產(chǎn)的,

4、主要型號有浪潮K1 Power E980,E950,S924,S922,S914幾種型號。根據(jù)廠家的介紹,E980專為支持最重要的關(guān)鍵應(yīng)用而設(shè)計,是最強(qiáng)大、可靠、安全且可擴(kuò)展的Power9服務(wù)器。E950專為動態(tài)的企業(yè)計算需求而設(shè)計,緊湊的4路系統(tǒng)可提供卓越的性能、極高的敏捷性和業(yè)界領(lǐng)先的可靠性。S924 面向關(guān)鍵應(yīng)用數(shù)據(jù)的適應(yīng)未來需求的4U2路服務(wù)器基礎(chǔ)設(shè)備,為關(guān)鍵應(yīng)用負(fù)載提供行業(yè)領(lǐng)先的性價比優(yōu)勢。根據(jù)我們的業(yè)務(wù)特點(diǎn),重點(diǎn)考察浪潮K1 Power E980和浪潮K1 Power E950這兩種機(jī)型。從測試結(jié)果看,這兩種機(jī)型都能滿足我們的需要。我個人覺得E980的優(yōu)勢在于擴(kuò)展性,可以從單柜,最

5、多擴(kuò)展到4個柜,CPU數(shù)量最多可以是E950的4倍。在選用多柜服務(wù)器的時候,一定要對應(yīng)用進(jìn)行壓力測試,確保增加CPU數(shù)量可以提高性能。最終我們選擇了E980 44C為主服務(wù)器,E950 44C做為高可用服務(wù)器,S924 20C做為非關(guān)鍵應(yīng)用設(shè)備和備機(jī)。2、服務(wù)器CPU數(shù)量選擇POWER9 CPU 的內(nèi)核數(shù)是可變的,有8核,10核,11核。以滿配的E950為例,CPU數(shù)量可以是32,40,44。隨著核數(shù)的增加,CPU主頻會降低,參考圖1。8核的CPU提供了最強(qiáng)的單核性能,11核的CPU提供了最大的吞吐量。從表格中可以看到隨著核數(shù)增加,主頻的范圍會變大,實(shí)際運(yùn)行的最高頻率也會降低。我們根據(jù)測試結(jié)果

6、,選擇了11核的CPU,即單機(jī)44C。圖1 CPU核數(shù)與主頻的關(guān)系3、擴(kuò)展柜的選擇我們在以前的服務(wù)器選型中,經(jīng)常會選用擴(kuò)展柜,這次經(jīng)過對服務(wù)器的分析,發(fā)現(xiàn)利用服務(wù)器現(xiàn)有的插槽,就能滿足要求。以E980為例,該服務(wù)器共有8個PCIE4插槽,一般配置2塊HBA卡連接存儲,2塊萬兆網(wǎng)卡,2塊千兆網(wǎng)卡,就可以滿足需要了,還有2個PCIE4插槽用于其他需求。圖2 E980插槽4、啟動盤的選擇浪潮 K1 Power 服務(wù)器支持使用NVME盤做為啟動盤,圖2中部的四個槽位就是NVME盤插槽,NVME盤做為服務(wù)器的啟動盤屬于首次采用,而且 NVME盤無法做RAID,與傳統(tǒng)的啟動盤有較大差異。我們最終選用了NV

7、ME盤做為啟動盤,通過主機(jī)LVM來對磁盤進(jìn)行高可用保護(hù)。使用NVME做為啟動盤,也節(jié)約了PCIE4插槽。5、板卡位置調(diào)整從圖3可以看出,每顆CPU對應(yīng)著自己的槽位。我們對CPU進(jìn)行了綁定,0、1號CPU綁定給數(shù)據(jù)庫使用,2、3號CPU綁定給應(yīng)用使用。因?yàn)閿?shù)據(jù)庫對IO要求最高,所以把HBA卡安裝到在0、1號CPU對應(yīng)的槽位中;把網(wǎng)卡安裝到2、3號CPU對應(yīng)的槽位中,經(jīng)過實(shí)際的測試,經(jīng)過調(diào)整后的最大性能可以提高3%左右。圖3 E980系統(tǒng)拓?fù)鋱D四、機(jī)器選型測試在購買機(jī)器前,進(jìn)行了選型測試。主要目的是選擇機(jī)器的配置以及對系統(tǒng)進(jìn)行優(yōu)化,發(fā)現(xiàn)隱藏的問題,這里主要介紹一下選擇機(jī)型的依據(jù)。測試方法使用我們集

8、中交易系統(tǒng),按照委托查詢1:5的壓力測試模型,對系統(tǒng)進(jìn)行壓力測試,應(yīng)用和數(shù)據(jù)庫部署在同一臺機(jī)器上,CPU按照1:1進(jìn)行了綁定,即一半的CPU綁定給數(shù)據(jù)庫,一半的CPU綁定給應(yīng)用。以數(shù)據(jù)庫每秒執(zhí)行的sql語句數(shù)做為性能衡量指標(biāo)。從測試結(jié)果中,我們得到以下一些結(jié)論:1. 機(jī)器的性能和rPerf值正相關(guān)。2. 對于單柜服務(wù)器,44C服務(wù)器吞吐量大于32C3. CPU數(shù)量相同的情況下,E980機(jī)器略好與E950,符合機(jī)器的rPerf值對比4. 對于雙柜的E980,64C服務(wù)器由于CPU過多,無法充分利用CPU,實(shí)際測試的時候,經(jīng)常會出現(xiàn)kernel升高的現(xiàn)象。5. 性能最好的服務(wù)器是44C的E980五

9、、升級方案1、升級方案本次升級是對原有系統(tǒng)進(jìn)行整體的替換,所以實(shí)施起來比較簡單,按照原來的系統(tǒng)架構(gòu)重新部署一份即可,然后進(jìn)行數(shù)據(jù)遷移,系統(tǒng)切換。2、整體架構(gòu)整體架構(gòu)如圖4所示。兩地三中心的部署模式,適當(dāng)利舊了部分Power8系列服務(wù)器。圖4 部署架構(gòu)圖六、實(shí)施中遇到的問題及處理辦法1、CPU綁定問題根據(jù)廠商專家的說法,POWER9 的CPU架構(gòu)設(shè)計非常合理,使用中是不需要進(jìn)行CPU綁定的,然而根據(jù)我們實(shí)際的測試結(jié)果,對CPU進(jìn)行綁定是有利的。這里有個很重要的原因是當(dāng)CPU數(shù)量過多時,不是CPU自己通訊有問題,而是應(yīng)用對CPU的調(diào)度會出現(xiàn)問題。所以建議在實(shí)際使用時,至少要測試一下綁定的效果,然后

10、選擇性能最好模式。2、 CPU運(yùn)行主頻低我們共有4臺E950機(jī)器,其中三臺的CPU主頻為3.5GHz,一臺機(jī)器主頻為3.2GHz。都開啟了最大性能模式,后來發(fā)現(xiàn)是HMC里面配置的參數(shù)不一樣導(dǎo)致的。正確的參數(shù)如下:通過HMC,勾選E950,登錄ASMI ,進(jìn)入菜單Power Management-Tuning ParametersEnable/Disable workload optimized frequencyCurrent value:Enablenew value: Enable3、CPU線程數(shù)的選擇根據(jù)廠商的說明,POWER9 CPU建議使用8線程。由于以前的服務(wù)器是使用的4線程,所以

11、對這個還是有疑慮的。從官方材料看,從AIX 7.2 TL3開始,SMT8是POWER9平臺的默認(rèn)設(shè)置,性能比SMT4有26%提升。我們經(jīng)過實(shí)際測試,符合預(yù)期,所以最終選擇了SMT8模式。4、AIX 版本選擇對于AIX 版本選擇,我們一般是按照最佳實(shí)踐來選的,我們測試的第一個版本是7200-03-02,但在測試過程中發(fā)現(xiàn)了缺陷IV12633:J2GT THREAD PERFORMANCE ISSUES APPLIES TO AIX 7200-0319/05/10 PTF PECHANGE,該缺陷會導(dǎo)致CPUkernel使用率變高,該缺陷是在7200-03-03中被修復(fù)的,所以最后選擇7200-0

12、3-03版本。5、LVM遇到存儲故障時,IO中斷時間過長我們在測試雙存儲LVMMirror的時候,發(fā)現(xiàn)當(dāng)一個存儲發(fā)生故障時,會產(chǎn)生IO中斷,需要經(jīng)過5分鐘才能恢復(fù)正常。經(jīng)過與實(shí)驗(yàn)室溝通,這個問題在aix 7.2TL3中就是這樣設(shè)計的,當(dāng)FC鏈路故障時(如link down),DiskDriver嘗試LUN Reset,如果在限定時間內(nèi)LUNReset不成功,則認(rèn)為IO失敗。如果LUN Reset等待時間過短,在高IO壓力的情況下(同一個block在同一時刻發(fā)生多次寫IO),發(fā)生FC路徑切換時,有較低概率造成data loss/corruption。為保證數(shù)據(jù)完整性,AIX7200-03-03

13、中延長了 LUN resetretries的等待時間。在aix7.2 TL4中,增加了一個新參數(shù),rw_max_time,最小可以設(shè)置為60,當(dāng)發(fā)生單存儲故障時,IO中斷時間為60秒。且沒有數(shù)據(jù)丟失風(fēng)險。6、機(jī)器時鐘不準(zhǔn)在機(jī)器運(yùn)行一段時間后,發(fā)現(xiàn)機(jī)器時間誤差較大,咨詢廠家得知,Power8以后的機(jī)器系統(tǒng)時間誤差會比Power7以及以前的服務(wù)器大一些,這個是為了適應(yīng)更高主頻的總線導(dǎo)致的,一天偏差正負(fù)三秒以內(nèi)屬于正?,F(xiàn)象。如果對系統(tǒng)時間準(zhǔn)確性較為敏感,一般建議配置NTP。7、netstat -an輸出顯示錯誤在運(yùn)行netstat -an的時候,輸出會有“dropped due to memory

14、allocation failure”。經(jīng)查,這是一個已知APAR,IJ16586-NETSTAT PRINTS SOME MESSAGES INCORRECTLY。安裝對應(yīng)補(bǔ)丁即可。七、實(shí)際使用效果及實(shí)踐經(jīng)驗(yàn)總結(jié)1、升級后的效果升級后系統(tǒng)CPU使用率大幅度下降,系統(tǒng)響應(yīng)時間變快,吞吐量大幅提升。這里放了兩張系統(tǒng)運(yùn)行圖,圖5是P780的一天的CPU和IO使用情況,圖6雙E980一天的CPU和IO使用情況,這兩天的業(yè)務(wù)量差不多。CPU的平均使用率從7.9%下降到2.%,CPU的最高使用率從63.3%下降到22.1%,可以說,通過硬件升級,現(xiàn)在系統(tǒng)完全可以滿足性能要求。另外一個重要指標(biāo)就是升級后,清算時間縮短了25%。圖5 P780一天運(yùn)行情況圖6 E980一天運(yùn)行情況2、實(shí)踐經(jīng)驗(yàn)總結(jié)在進(jìn)行機(jī)器升級的時候,一定要對新機(jī)器有充分的了解,如果有條件的話,要進(jìn)行充分的測試。就本次升級而已,測試起到了非常重要的作用,機(jī)器型號

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論