下載本文檔
版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
基于混沌工程理念在測(cè)試領(lǐng)域的探索與實(shí)踐順應(yīng)分布式架構(gòu)轉(zhuǎn)型趨勢(shì),工商銀行基于混沌工程理念開展了可靠性測(cè)試實(shí)踐與探索,依托“自研+開源”的方式打造可靠性測(cè)試的工具支撐體系,并通過實(shí)施內(nèi)外雙層管理措施與分級(jí)分類推廣策略,切實(shí)保障了可靠性測(cè)試的落地實(shí)施,顯著提升了分布式服務(wù)架構(gòu)的穩(wěn)定性和業(yè)務(wù)連續(xù)性。近年來,伴隨分布式、云計(jì)算等新興技術(shù)的快速發(fā)展,銀行信息系統(tǒng)正逐步從單體集中式架構(gòu)向分布式架構(gòu)轉(zhuǎn)型,以實(shí)現(xiàn)靈活、高效服務(wù)。順應(yīng)這一趨勢(shì),工商銀行積極響應(yīng)技術(shù)發(fā)展變化,基于分布式、云計(jì)算技術(shù)搭建了全新的開放平臺(tái)核心銀行系統(tǒng),并同步構(gòu)建了較為成熟的分布式服務(wù)架構(gòu)體系。為更好地保證系統(tǒng)穩(wěn)定性和業(yè)務(wù)連續(xù)性,工商銀行基于混沌工程理念在測(cè)試領(lǐng)域開展了深度探索及實(shí)踐。一、運(yùn)用混沌工程原理增強(qiáng)系統(tǒng)穩(wěn)定性截至目前,工商銀行基于分布式架構(gòu)體系,已成功實(shí)現(xiàn)了分布式、服務(wù)化、容器化及DevOps等多項(xiàng)變革,大幅提升了從系統(tǒng)開發(fā)到上線運(yùn)行的便捷性。與此同時(shí),為進(jìn)一步減少故障影響、增強(qiáng)系統(tǒng)穩(wěn)定性,工商銀行于2019年開展了基于混沌工程理念的可靠性測(cè)試,并依托故障演練平臺(tái)實(shí)施了常態(tài)化與專項(xiàng)深度測(cè)試,以夯實(shí)分布式應(yīng)用的高可用服務(wù)能力。1.強(qiáng)化可靠性測(cè)試工具支撐為構(gòu)建混沌工程故障演練工具體系,工商銀行采用“自研+開源”方式打造可視化混沌工程故障演練平臺(tái),提供了故障演練配置管理、性能實(shí)時(shí)查詢、演練結(jié)果分析報(bào)告自動(dòng)生成等多項(xiàng)能力,成功實(shí)現(xiàn)從故障場(chǎng)景設(shè)計(jì)、故障場(chǎng)景注入及撤銷到故障結(jié)果智能分析的一站式服務(wù)?;煦绻こ坦收涎菥毠ぞ唧w系如圖1所示。圖1混沌工程故障演練工具體系一是建設(shè)故障演練平臺(tái),提供故障注入能力。故障演練平臺(tái)屏蔽應(yīng)用底層部署差異性,將物理機(jī)、虛擬機(jī)、容器等多種基礎(chǔ)部署環(huán)境透明化,抽象形成了系統(tǒng)、應(yīng)用、容器三方面故障演練能力,可高效支持CPU滿載、磁盤IO高、數(shù)據(jù)庫(kù)訪問延時(shí)等百余種故障類型演練,并基于園區(qū)、應(yīng)用、節(jié)點(diǎn)提供了分級(jí)分類的故障快速編排能力(如圖2所示),大幅降低了可靠性測(cè)試的操作門檻。圖2分級(jí)分類的故障快速編排能力二是建設(shè)高可用專家?guī)?,提升故障演練精?zhǔn)度。通過生產(chǎn)問題總結(jié)、可靠性測(cè)試實(shí)踐、業(yè)界場(chǎng)景等探索建立高可用測(cè)試模型,高可用專家?guī)旄采w了應(yīng)用層、數(shù)據(jù)庫(kù)層、平臺(tái)層、緩存層、消息中間件層、路由層等六大類70余種測(cè)試案例。在此基礎(chǔ)上,故障演練平臺(tái)根據(jù)被測(cè)試系統(tǒng)的技術(shù)架構(gòu)特點(diǎn),可自動(dòng)匹配高可用專家?guī)斓臏y(cè)試案例,并“一鍵式”生成故障演練測(cè)試任務(wù)。高可用專家?guī)旒軜?gòu)如圖3所示。圖3高可用專家?guī)旒軜?gòu)三是構(gòu)建自動(dòng)化支撐體系,持續(xù)提升故障演練水平。基于故障演練平臺(tái)、性能測(cè)試工具和應(yīng)用監(jiān)控系統(tǒng),工商銀行打造了故障演練自動(dòng)化體系(如圖4所示)。該體系可根據(jù)當(dāng)期版本架構(gòu)變化選取測(cè)試對(duì)象,并獲取測(cè)試對(duì)象穩(wěn)態(tài)時(shí)的TPS、交易響應(yīng)時(shí)間、交易成功率等監(jiān)控指標(biāo),進(jìn)而預(yù)設(shè)自動(dòng)化執(zhí)行目標(biāo);此后,故障演練平臺(tái)調(diào)用性能測(cè)試工具,即可發(fā)起壓力測(cè)試并調(diào)起自動(dòng)化腳本執(zhí)行,同時(shí)基于測(cè)試結(jié)果判斷自動(dòng)化執(zhí)行前后關(guān)鍵指標(biāo)的變化情況,分析系統(tǒng)優(yōu)化提升改進(jìn)方向;最終,通過不斷擴(kuò)大自動(dòng)化執(zhí)行范圍,循環(huán)調(diào)起自動(dòng)化執(zhí)行流程,實(shí)現(xiàn)可持續(xù)與常態(tài)化的高可用服務(wù)守護(hù)。圖4故障演練自動(dòng)化體系2.建立內(nèi)外雙層保障機(jī)制在構(gòu)建基礎(chǔ)性工具后,工商銀行秉持“內(nèi)筑制度流程規(guī)范、外修專項(xiàng)團(tuán)隊(duì)建設(shè)”的原則,創(chuàng)新搭建了分層分類保障機(jī)制,以加速推進(jìn)可靠性測(cè)試工作的落地實(shí)施。一是建立持續(xù)改進(jìn)機(jī)制。面向?qū)嵤┝鞒?,工商銀行通過明確實(shí)施階段、實(shí)施環(huán)境與分工安排,以及完善測(cè)試案例及測(cè)試問題管理系統(tǒng),實(shí)現(xiàn)了對(duì)可靠性測(cè)試的精細(xì)化管理,并在持續(xù)改進(jìn)過程中,以月為周期建立了培訓(xùn)、交流、總結(jié)螺旋上升的持續(xù)改進(jìn)機(jī)制。其中,在培訓(xùn)方面,重點(diǎn)針對(duì)故障演練工具的特點(diǎn)和運(yùn)用方式展開培訓(xùn);在交流方面,定期組織召開可靠性測(cè)試交流會(huì);在總結(jié)方面,不斷將優(yōu)秀經(jīng)驗(yàn)提煉固化到高可用專家?guī)熘?,并針?duì)性優(yōu)化工具或管理流程,避免問題事件再次發(fā)生。二是組建管理和實(shí)施團(tuán)隊(duì)。在團(tuán)隊(duì)建設(shè)方面,工商銀行優(yōu)先組建了由各部門可靠性測(cè)試牽頭人、故障演練平臺(tái)維護(hù)人員共同參與的管理團(tuán)隊(duì),負(fù)責(zé)牽頭組織工具推廣、測(cè)試設(shè)計(jì)和測(cè)試實(shí)施等工作,并組建了由應(yīng)用架構(gòu)師、測(cè)試人員、開發(fā)人員、運(yùn)維人員參與的專項(xiàng)實(shí)施團(tuán)隊(duì)負(fù)責(zé)具體實(shí)施。其中,應(yīng)用架構(gòu)師負(fù)責(zé)根據(jù)應(yīng)用系統(tǒng)的高可用架構(gòu)特點(diǎn),制定本應(yīng)用可靠性測(cè)試的演練方案;測(cè)試人員負(fù)責(zé)根據(jù)演練方案開展具體的實(shí)施工作,并通過監(jiān)控指標(biāo)開展系統(tǒng)容錯(cuò)的結(jié)果分析;開發(fā)人員和運(yùn)維人員負(fù)責(zé)故障發(fā)生后的問題分析和應(yīng)急響應(yīng)?;谏鲜霾渴穑ㄟ^專項(xiàng)管理和具體實(shí)施兩個(gè)團(tuán)隊(duì)的分工協(xié)作,工商銀行切實(shí)保障了可靠性測(cè)試工作的推廣質(zhì)量。3.實(shí)施分級(jí)分類推廣體系基于“分步實(shí)施、分級(jí)提升”的推廣原則,工商銀行按照“先試點(diǎn)再推廣、先重點(diǎn)再全面”的方式逐步推進(jìn)可靠性測(cè)試落地。一是開展試點(diǎn)應(yīng)用,打造先鋒榜樣。2019年,工商銀行優(yōu)先選取業(yè)務(wù)需求多、貼近生產(chǎn)的快捷支付、智能投顧等業(yè)務(wù)線作為試點(diǎn),以系統(tǒng)層、應(yīng)用層、基礎(chǔ)設(shè)施層為入口,針對(duì)性注入服務(wù)提供方與消費(fèi)方節(jié)點(diǎn)異常、注冊(cè)中心集群異常等故障,成功發(fā)現(xiàn)了節(jié)點(diǎn)亞健康缺乏熔斷機(jī)制、超時(shí)時(shí)間過長(zhǎng)無法實(shí)現(xiàn)隔離等問題。二是選取典型應(yīng)用,強(qiáng)化重點(diǎn)領(lǐng)域。工商銀行從故障表現(xiàn)、故障節(jié)點(diǎn)等維度梳理演練場(chǎng)景,選擇生產(chǎn)重點(diǎn)保障應(yīng)用,基于同城雙活、優(yōu)雅啟停、限流、超時(shí)等七種常用的高可用服務(wù)能力,結(jié)合演練場(chǎng)景組合開展了深度專項(xiàng)測(cè)試,全面覆蓋服務(wù)器隔離要求、去單點(diǎn)要求等十余種高可用服務(wù)規(guī)范。基于上述舉措,工商銀行成功發(fā)現(xiàn)并解決了優(yōu)雅啟停響應(yīng)時(shí)間超長(zhǎng)、熔斷未生效等多個(gè)問題,有效保障了重要對(duì)客應(yīng)用的持續(xù)服務(wù)能力。三是面向全量應(yīng)用,開展全面推廣。按照版本研發(fā)節(jié)奏,工商銀行面向當(dāng)期版本涉及改造的分支模塊,以及存量應(yīng)用系統(tǒng)架構(gòu)有變動(dòng)的場(chǎng)景,針對(duì)性設(shè)計(jì)了可靠性測(cè)試方案和測(cè)試案例;同時(shí),組織架構(gòu)師、開發(fā)負(fù)責(zé)人、測(cè)試人員等項(xiàng)目組成員,對(duì)可靠性測(cè)試覆蓋的交易分支、注入故障類型、交易觀察指標(biāo)變化情況等開展專題評(píng)審,并根據(jù)評(píng)審結(jié)論不斷調(diào)整測(cè)試方案和測(cè)試案例,以及適時(shí)修正程序處理邏輯,切實(shí)提升了應(yīng)用系統(tǒng)的持續(xù)對(duì)外服務(wù)能力。二、實(shí)踐成效與后續(xù)展望實(shí)踐中,工商銀行基于混沌工程測(cè)試體系,對(duì)某期版本快捷支付進(jìn)行了可靠性測(cè)試,具體步驟如下:針對(duì)快捷支付鏈路,工商銀行首先開展了面向服務(wù)提供方與服務(wù)消費(fèi)方節(jié)點(diǎn)異常、注冊(cè)中心集群異常的故障設(shè)計(jì),之后按照全鏈路交易流程,實(shí)施了網(wǎng)絡(luò)、硬盤、進(jìn)程破壞等故障注入,并持續(xù)觀察快捷支付鏈路的交易成功率、TPS、交易耗時(shí)變化;同時(shí),為進(jìn)一步完善測(cè)試場(chǎng)景,還制定了交易成功率、TPS在一分鐘內(nèi)恢復(fù)正常等系統(tǒng)穩(wěn)態(tài)指標(biāo)。測(cè)試結(jié)果顯示,服務(wù)消費(fèi)方在亞健康情況下,交易量有所下降,但交易成功率未受影響;服務(wù)提供方在亞健康情況下,交易量下跌一段時(shí)間后能夠自動(dòng)恢復(fù);注冊(cè)中心在亞健康的情況下,交易量與交易成功率均未受影響?;谏鲜鼋Y(jié)論,工商銀行得出如下優(yōu)化思路:對(duì)于服務(wù)消費(fèi)方部分節(jié)點(diǎn)亞健康影響整體交易的情況,選擇增加熔斷機(jī)制,對(duì)服務(wù)調(diào)用成功率在連續(xù)一段時(shí)間內(nèi)下降的服務(wù)節(jié)點(diǎn)進(jìn)行熔斷屏蔽,從而快速恢復(fù)交易。此外,在實(shí)際操作中,當(dāng)開發(fā)人員增加熔斷機(jī)制后,測(cè)試人員還會(huì)再次針對(duì)該場(chǎng)景進(jìn)行復(fù)測(cè),以確保問題得到妥善解決。截至2022年5月底,工商銀行已在超過300個(gè)應(yīng)用系統(tǒng)中開展了基于混沌工程的可靠性測(cè)試,累
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025至2030年中國(guó)環(huán)保硅膠杯墊數(shù)據(jù)監(jiān)測(cè)研究報(bào)告
- 證券投資服務(wù)居間合同范例
- 美容院裝修愛心捐贈(zèng)合同
- 2025年中國(guó)小口塑蓋休閑口杯市場(chǎng)調(diào)查研究報(bào)告
- 2025年中國(guó)吸塵器地刷鎖頭簧片市場(chǎng)調(diào)查研究報(bào)告
- 2025年中國(guó)半自動(dòng)型卷紙包裝機(jī)市場(chǎng)調(diào)查研究報(bào)告
- 2025至2031年中國(guó)螺距刮板行業(yè)投資前景及策略咨詢研究報(bào)告
- 2025至2031年中國(guó)舊鋼軌行業(yè)投資前景及策略咨詢研究報(bào)告
- 快餐店改造承包合同
- 美容護(hù)膚市場(chǎng)居間投資合同
- 2025年工程合作協(xié)議書
- 2025年山東省東營(yíng)市東營(yíng)區(qū)融媒體中心招聘全媒體采編播專業(yè)技術(shù)人員10人歷年高頻重點(diǎn)提升(共500題)附帶答案詳解
- 2025年宜賓人才限公司招聘高頻重點(diǎn)提升(共500題)附帶答案詳解
- KAT1-2023井下探放水技術(shù)規(guī)范
- 垃圾處理廠工程施工組織設(shè)計(jì)
- 駕駛證學(xué)法減分(學(xué)法免分)題庫(kù)及答案200題完整版
- 2024年四川省瀘州市中考英語(yǔ)試題含解析
- 2025屆河南省九師聯(lián)盟商開大聯(lián)考高一數(shù)學(xué)第一學(xué)期期末學(xué)業(yè)質(zhì)量監(jiān)測(cè)模擬試題含解析
- 撫養(yǎng)權(quán)起訴狀(31篇)
- 煙花爆竹零售應(yīng)急預(yù)案
- 新加坡SM1向性測(cè)試模擬試卷
評(píng)論
0/150
提交評(píng)論