版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)
文檔簡介
1、 券商集中交易系統(tǒng)小型機升級和選型實踐 【摘要】本文描述了某券商集中交易系統(tǒng)浪潮 K1 Power 小型機升級過程的前前后后,從機器選型到壓力測試,直至升級完成。重點分享了機器選型的過程以及選型考慮的因素。還分享了上線過程中遇到的一些實際問題。一、集中交易系統(tǒng)概述券商的交易系統(tǒng)很多,最核心的系統(tǒng)就是集中交易系統(tǒng),又叫訂單系統(tǒng)。有的券商將訂單系統(tǒng)和清算系統(tǒng)進行分離。我們公司的集中交易系統(tǒng)是訂單和清算合在一起的。除了在集中交易系統(tǒng)產(chǎn)生的訂單,還有一些子系統(tǒng)也會產(chǎn)生訂單,在清算時通過數(shù)據(jù)上下場,同步到集中交易系統(tǒng),然后一起做清算。所以集中交易系統(tǒng)對性能和可用性要求有兩個最重要的時段,一個是白天的交易
2、時間,一個是晚上的清算時間。在其它時間一般都是有維護窗口的。二、升級到Power9 的背景公司原來使用的服務器是IBM Power系統(tǒng)小型機,關(guān)鍵服務器是P780,輔助服務器是P750和S824等低端機器。Power7系列服務器是2014年上線的,Power8系列是2015年上線的,在上線時同時購買了五年的維保服務。首先P780的單機處理能力,出現(xiàn)性能瓶頸,已經(jīng)不能滿足業(yè)務需要。在2019年CPU的最高使用率曾經(jīng)達到過70%,為了減輕主機壓力,我們已經(jīng)做了分布式的部署,將部分查詢,登錄的業(yè)務分到其它的機器上。其次,由于機器已經(jīng)購買了五年,廠家已經(jīng)停止生產(chǎn)該機型,購買硬件維保成本較高,簡單的比較
3、一臺32C P780的五年維保價格,就已經(jīng)超過一臺32C E980服務器的新購買價格。如果換算成機器的處理能力,那么這個價差會更大。當然價格的事情由于彈性很大,不是很有說服力,這里權(quán)當做為一個參考。再次,我們使用的數(shù)據(jù)庫軟件DB2 10.1已經(jīng)EOS(End of Service),現(xiàn)在的aix操作系統(tǒng)版本按照計劃也會在2022年EOS,從長遠考慮,都需要進行升級。在這個背景下,我們啟動了小型機升級計劃。三、服務器選型考慮服務器選型我們考慮的最重要因素是單機的處理能力,響應時間,系統(tǒng)可靠性以及與應用的匹配度。1、服務器型號的選擇目前 K1 Power 系統(tǒng)服務器是由浪潮商用機器有限公司生產(chǎn)的,
4、主要型號有浪潮K1 Power E980,E950,S924,S922,S914幾種型號。根據(jù)廠家的介紹,E980專為支持最重要的關(guān)鍵應用而設(shè)計,是最強大、可靠、安全且可擴展的Power9服務器。E950專為動態(tài)的企業(yè)計算需求而設(shè)計,緊湊的4路系統(tǒng)可提供卓越的性能、極高的敏捷性和業(yè)界領(lǐng)先的可靠性。S924 面向關(guān)鍵應用數(shù)據(jù)的適應未來需求的4U2路服務器基礎(chǔ)設(shè)備,為關(guān)鍵應用負載提供行業(yè)領(lǐng)先的性價比優(yōu)勢。根據(jù)我們的業(yè)務特點,重點考察浪潮K1 Power E980和浪潮K1 Power E950這兩種機型。從測試結(jié)果看,這兩種機型都能滿足我們的需要。我個人覺得E980的優(yōu)勢在于擴展性,可以從單柜,最
5、多擴展到4個柜,CPU數(shù)量最多可以是E950的4倍。在選用多柜服務器的時候,一定要對應用進行壓力測試,確保增加CPU數(shù)量可以提高性能。最終我們選擇了E980 44C為主服務器,E950 44C做為高可用服務器,S924 20C做為非關(guān)鍵應用設(shè)備和備機。2、服務器CPU數(shù)量選擇POWER9 CPU 的內(nèi)核數(shù)是可變的,有8核,10核,11核。以滿配的E950為例,CPU數(shù)量可以是32,40,44。隨著核數(shù)的增加,CPU主頻會降低,參考圖1。8核的CPU提供了最強的單核性能,11核的CPU提供了最大的吞吐量。從表格中可以看到隨著核數(shù)增加,主頻的范圍會變大,實際運行的最高頻率也會降低。我們根據(jù)測試結(jié)果
6、,選擇了11核的CPU,即單機44C。圖1 CPU核數(shù)與主頻的關(guān)系3、擴展柜的選擇我們在以前的服務器選型中,經(jīng)常會選用擴展柜,這次經(jīng)過對服務器的分析,發(fā)現(xiàn)利用服務器現(xiàn)有的插槽,就能滿足要求。以E980為例,該服務器共有8個PCIE4插槽,一般配置2塊HBA卡連接存儲,2塊萬兆網(wǎng)卡,2塊千兆網(wǎng)卡,就可以滿足需要了,還有2個PCIE4插槽用于其他需求。圖2 E980插槽4、啟動盤的選擇浪潮 K1 Power 服務器支持使用NVME盤做為啟動盤,圖2中部的四個槽位就是NVME盤插槽,NVME盤做為服務器的啟動盤屬于首次采用,而且 NVME盤無法做RAID,與傳統(tǒng)的啟動盤有較大差異。我們最終選用了NV
7、ME盤做為啟動盤,通過主機LVM來對磁盤進行高可用保護。使用NVME做為啟動盤,也節(jié)約了PCIE4插槽。5、板卡位置調(diào)整從圖3可以看出,每顆CPU對應著自己的槽位。我們對CPU進行了綁定,0、1號CPU綁定給數(shù)據(jù)庫使用,2、3號CPU綁定給應用使用。因為數(shù)據(jù)庫對IO要求最高,所以把HBA卡安裝到在0、1號CPU對應的槽位中;把網(wǎng)卡安裝到2、3號CPU對應的槽位中,經(jīng)過實際的測試,經(jīng)過調(diào)整后的最大性能可以提高3%左右。圖3 E980系統(tǒng)拓撲圖四、機器選型測試在購買機器前,進行了選型測試。主要目的是選擇機器的配置以及對系統(tǒng)進行優(yōu)化,發(fā)現(xiàn)隱藏的問題,這里主要介紹一下選擇機型的依據(jù)。測試方法使用我們集
8、中交易系統(tǒng),按照委托查詢1:5的壓力測試模型,對系統(tǒng)進行壓力測試,應用和數(shù)據(jù)庫部署在同一臺機器上,CPU按照1:1進行了綁定,即一半的CPU綁定給數(shù)據(jù)庫,一半的CPU綁定給應用。以數(shù)據(jù)庫每秒執(zhí)行的sql語句數(shù)做為性能衡量指標。從測試結(jié)果中,我們得到以下一些結(jié)論:1. 機器的性能和rPerf值正相關(guān)。2. 對于單柜服務器,44C服務器吞吐量大于32C3. CPU數(shù)量相同的情況下,E980機器略好與E950,符合機器的rPerf值對比4. 對于雙柜的E980,64C服務器由于CPU過多,無法充分利用CPU,實際測試的時候,經(jīng)常會出現(xiàn)kernel升高的現(xiàn)象。5. 性能最好的服務器是44C的E980五
9、、升級方案1、升級方案本次升級是對原有系統(tǒng)進行整體的替換,所以實施起來比較簡單,按照原來的系統(tǒng)架構(gòu)重新部署一份即可,然后進行數(shù)據(jù)遷移,系統(tǒng)切換。2、整體架構(gòu)整體架構(gòu)如圖4所示。兩地三中心的部署模式,適當利舊了部分Power8系列服務器。圖4 部署架構(gòu)圖六、實施中遇到的問題及處理辦法1、CPU綁定問題根據(jù)廠商專家的說法,POWER9 的CPU架構(gòu)設(shè)計非常合理,使用中是不需要進行CPU綁定的,然而根據(jù)我們實際的測試結(jié)果,對CPU進行綁定是有利的。這里有個很重要的原因是當CPU數(shù)量過多時,不是CPU自己通訊有問題,而是應用對CPU的調(diào)度會出現(xiàn)問題。所以建議在實際使用時,至少要測試一下綁定的效果,然后
10、選擇性能最好模式。2、 CPU運行主頻低我們共有4臺E950機器,其中三臺的CPU主頻為3.5GHz,一臺機器主頻為3.2GHz。都開啟了最大性能模式,后來發(fā)現(xiàn)是HMC里面配置的參數(shù)不一樣導致的。正確的參數(shù)如下:通過HMC,勾選E950,登錄ASMI ,進入菜單Power Management-Tuning ParametersEnable/Disable workload optimized frequencyCurrent value:Enablenew value: Enable3、CPU線程數(shù)的選擇根據(jù)廠商的說明,POWER9 CPU建議使用8線程。由于以前的服務器是使用的4線程,所以
11、對這個還是有疑慮的。從官方材料看,從AIX 7.2 TL3開始,SMT8是POWER9平臺的默認設(shè)置,性能比SMT4有26%提升。我們經(jīng)過實際測試,符合預期,所以最終選擇了SMT8模式。4、AIX 版本選擇對于AIX 版本選擇,我們一般是按照最佳實踐來選的,我們測試的第一個版本是7200-03-02,但在測試過程中發(fā)現(xiàn)了缺陷IV12633:J2GT THREAD PERFORMANCE ISSUES APPLIES TO AIX 7200-0319/05/10 PTF PECHANGE,該缺陷會導致CPUkernel使用率變高,該缺陷是在7200-03-03中被修復的,所以最后選擇7200-0
12、3-03版本。5、LVM遇到存儲故障時,IO中斷時間過長我們在測試雙存儲LVMMirror的時候,發(fā)現(xiàn)當一個存儲發(fā)生故障時,會產(chǎn)生IO中斷,需要經(jīng)過5分鐘才能恢復正常。經(jīng)過與實驗室溝通,這個問題在aix 7.2TL3中就是這樣設(shè)計的,當FC鏈路故障時(如link down),DiskDriver嘗試LUN Reset,如果在限定時間內(nèi)LUNReset不成功,則認為IO失敗。如果LUN Reset等待時間過短,在高IO壓力的情況下(同一個block在同一時刻發(fā)生多次寫IO),發(fā)生FC路徑切換時,有較低概率造成data loss/corruption。為保證數(shù)據(jù)完整性,AIX7200-03-03
13、中延長了 LUN resetretries的等待時間。在aix7.2 TL4中,增加了一個新參數(shù),rw_max_time,最小可以設(shè)置為60,當發(fā)生單存儲故障時,IO中斷時間為60秒。且沒有數(shù)據(jù)丟失風險。6、機器時鐘不準在機器運行一段時間后,發(fā)現(xiàn)機器時間誤差較大,咨詢廠家得知,Power8以后的機器系統(tǒng)時間誤差會比Power7以及以前的服務器大一些,這個是為了適應更高主頻的總線導致的,一天偏差正負三秒以內(nèi)屬于正?,F(xiàn)象。如果對系統(tǒng)時間準確性較為敏感,一般建議配置NTP。7、netstat -an輸出顯示錯誤在運行netstat -an的時候,輸出會有“dropped due to memory
14、allocation failure”。經(jīng)查,這是一個已知APAR,IJ16586-NETSTAT PRINTS SOME MESSAGES INCORRECTLY。安裝對應補丁即可。七、實際使用效果及實踐經(jīng)驗總結(jié)1、升級后的效果升級后系統(tǒng)CPU使用率大幅度下降,系統(tǒng)響應時間變快,吞吐量大幅提升。這里放了兩張系統(tǒng)運行圖,圖5是P780的一天的CPU和IO使用情況,圖6雙E980一天的CPU和IO使用情況,這兩天的業(yè)務量差不多。CPU的平均使用率從7.9%下降到2.%,CPU的最高使用率從63.3%下降到22.1%,可以說,通過硬件升級,現(xiàn)在系統(tǒng)完全可以滿足性能要求。另外一個重要指標就是升級后,清算時間縮短了25%。圖5 P780一天運行情況圖6 E980一天運行情況2、實踐經(jīng)驗總結(jié)在進行機器升級的時候,一定要對新機器有充分的了解,如果有條件的話,要進行充分的測試。就本次升級而已,測試起到了非常重要的作用,機器型號
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025-2030年中國電視劇行業(yè)并購重組擴張戰(zhàn)略制定與實施研究報告
- 2025-2030年中國消費性服務行業(yè)并購重組擴張戰(zhàn)略制定與實施研究報告
- 2025-2030年中國動力電池行業(yè)并購重組擴張戰(zhàn)略制定與實施研究報告
- 自動坦克模型課程設(shè)計指導書7
- 自動安平水準儀設(shè)計
- 袋鼠爪養(yǎng)護知識培訓課件
- 2024年口語交際教案
- 期刊雜志市場深度調(diào)查及發(fā)展前景研究預測報告
- 2018-2024年中國多肉植物市場深度調(diào)研分析及投資前景研究預測報告
- 春季新銷售風暴
- 2025年湖南出版中南傳媒招聘筆試參考題庫含答案解析
- 2025年度商用廚房油煙機安裝與維護服務合同范本3篇
- 2024年03月恒豐銀行2024年春季招考畢業(yè)生筆試歷年參考題庫附帶答案詳解
- 網(wǎng)絡安全系統(tǒng)運維方案
- ISO 56001-2024《創(chuàng)新管理體系-要求》專業(yè)解讀與應用實踐指導材料之14:“6策劃-6.3變更的策劃”(雷澤佳編制-2025B0)
- 【公開課】同一直線上二力的合成+課件+2024-2025學年+人教版(2024)初中物理八年級下冊+
- 12G614-1砌體填充墻結(jié)構(gòu)構(gòu)造
- 電鍍產(chǎn)品檢驗作業(yè)指導書
- 湖北省武漢市各縣區(qū)鄉(xiāng)鎮(zhèn)行政村村莊村名居民村民委員會明細及行政區(qū)劃代碼
- 路面輪胎模型建立方法swift
- 10KV供配電工程施工組織設(shè)計
評論
0/150
提交評論