智能化運維在銀行基礎(chǔ)軟件升級工程中的探索與實踐_第1頁
智能化運維在銀行基礎(chǔ)軟件升級工程中的探索與實踐_第2頁
智能化運維在銀行基礎(chǔ)軟件升級工程中的探索與實踐_第3頁
智能化運維在銀行基礎(chǔ)軟件升級工程中的探索與實踐_第4頁
智能化運維在銀行基礎(chǔ)軟件升級工程中的探索與實踐_第5頁
已閱讀5頁,還剩1頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

近年來,伴隨著銀行業(yè)務規(guī)模的急劇增長與應用架構(gòu)的分布式改造,銀行IT系統(tǒng)運維面臨著運維效率與復雜度的全面挑戰(zhàn),銀行業(yè)務系統(tǒng)承載平臺的各類基礎(chǔ)軟件急需進行持續(xù)演進與升級。本文基于大型商業(yè)銀行基礎(chǔ)軟件升級工程實踐,嘗試探索了數(shù)字化轉(zhuǎn)型與智能化運維在上述升級工作中的實現(xiàn)方式,以期能有效解決系統(tǒng)環(huán)境差異度大、復雜架構(gòu)下測試覆蓋度不足等運維痛點,繼而深度挖掘運維數(shù)據(jù)價值,提升運維與測試有效度,為傳統(tǒng)運維模式提供轉(zhuǎn)型借鑒與改造模板。一、基礎(chǔ)軟件升級工作現(xiàn)狀分析一般而言,銀行業(yè)務系統(tǒng)基礎(chǔ)軟件升級工作大致可分為測試與投產(chǎn)兩大階段。在測試階段,為降低軟件子系統(tǒng)升級或定期補丁維護的投產(chǎn)風險,通常會在測試環(huán)境進行一系列測試工作,內(nèi)容涉及升級工作需求受理、需求研制、新版軟件介質(zhì)定制與安裝、軟件版本差異影響分析、各類型測試等。同時,根據(jù)應用業(yè)務系統(tǒng)基礎(chǔ)架構(gòu)和業(yè)務類型,測試工作還可進一步劃分為升級流程測試、系統(tǒng)測試、應用功能和性能測試等共性測試內(nèi)容,以及雙活切換測試、補丁測試、清理測試等特性測試。在投產(chǎn)階段,主要工作則是依據(jù)測試階段交付物,進行運維相關(guān)驗證與升級投產(chǎn)流程驗證,如采用自動化方式升級還需開展自動化流程驗證等。針對上述流程,結(jié)合各類型技術(shù)條線的升級項目經(jīng)驗,筆者歸納了當前基礎(chǔ)軟件升級過程中存在的難點問題:一是因環(huán)境配置、資源限制、部署架構(gòu)等原因,導致測試環(huán)境與生產(chǎn)環(huán)境存在基礎(chǔ)性差異,難以真實反映升級后的生產(chǎn)環(huán)境表現(xiàn),且測試場次有效性驗證操作繁瑣、復測率高;二是因信息系統(tǒng)采用集中式與分布式混合的應用架構(gòu),為各平臺軟件升級工作的測試邊界界定帶來極大挑戰(zhàn);三是各類升級運維操作缺少通用化模板與自動化流程,導致運維效率低下;四是面對各類型測試與驗證工作中發(fā)現(xiàn)的功能與性能問題,因缺少智能化數(shù)據(jù)分析方法,存在安全隱患。為解決上述問題,筆者在總結(jié)研究AIOps等智能化運維技術(shù)的基礎(chǔ)上,從數(shù)據(jù)、策略、執(zhí)行等多個維度入手,結(jié)合構(gòu)建運維數(shù)據(jù)倉庫、實現(xiàn)運維操作自動化與數(shù)據(jù)分析智能化等實踐路徑,深入探索了數(shù)字化轉(zhuǎn)型與智能化運維在升級工作中的實現(xiàn)方式。二、運維數(shù)據(jù)倉庫建設實際工作中,通過構(gòu)建基礎(chǔ)軟件升級運維數(shù)據(jù)倉庫,對各類型運維數(shù)據(jù)與配置標準進行規(guī)范化建模,將可構(gòu)建統(tǒng)一的數(shù)據(jù)治理管控平臺,并針對系統(tǒng)平臺的差異化架構(gòu),進行不同模式的數(shù)據(jù)提取。基礎(chǔ)軟件升級運維數(shù)據(jù)倉庫模型如圖1所示。該模型中,數(shù)據(jù)源與運維數(shù)據(jù)倉庫間通過采集模塊連接,可實現(xiàn)實時流與離線批處理方式的數(shù)據(jù)提取。數(shù)據(jù)源主要包含了需人工校驗與定時更新的各類指標與配置規(guī)范數(shù)據(jù)、生產(chǎn)與測試環(huán)境實時監(jiān)控指標、準實時或離線采集的中高階性能指標等三類數(shù)據(jù)。其中,配置規(guī)范數(shù)據(jù)主要用于測試環(huán)境標準化搭建、升級回退流程制定等;測試環(huán)境實時監(jiān)控數(shù)據(jù)與指標規(guī)范是測試環(huán)境性能分析與問題定位的基礎(chǔ)依據(jù);中高階性能指標結(jié)合指標規(guī)范可作為測試場次有效性的評估參考。圖1基礎(chǔ)軟件升級運維數(shù)據(jù)倉庫模型在此基礎(chǔ)上,采集模塊通過Sqoop、Flume等Hadoop體系組件,可將歷史數(shù)據(jù)、基礎(chǔ)軟件版本數(shù)據(jù)、流數(shù)據(jù)、日志數(shù)據(jù)等提取至運維數(shù)據(jù)倉庫大數(shù)據(jù)平臺,同時將各類配置規(guī)范、參數(shù)模型、操作流程等數(shù)據(jù),定期提取至傳統(tǒng)OLTP數(shù)據(jù)庫,實現(xiàn)快速查詢與運維自動化。此外,運維數(shù)據(jù)倉庫通過RestfulAPI接口,還可實現(xiàn)用戶交互與數(shù)據(jù)可視化,并為數(shù)據(jù)挖掘與智能化分析提供原始訓練數(shù)據(jù)。簡而言之,運維數(shù)據(jù)倉庫為實現(xiàn)智能化運維提供了數(shù)據(jù)基礎(chǔ),各類型運維數(shù)據(jù)經(jīng)過規(guī)范化建模,可供下游自動化運維與智能化數(shù)據(jù)分析等模塊使用,并通過機器學習進行規(guī)則提煉和運維策略制定,最終構(gòu)建一體化運維管控機制。三、運維操作自動化在構(gòu)建運維數(shù)據(jù)倉庫的基礎(chǔ)上,結(jié)合運維數(shù)據(jù)倉庫提供的配置規(guī)范、參數(shù)模型和各類操作流程數(shù)據(jù),并對其進行規(guī)范化模型入庫,可實現(xiàn)運維操作自動化功能。自動化運維平臺架構(gòu)如圖2所示。該模式基于SpringBoot+Dubbo微服務方式構(gòu)建平臺Server端,可快速響應應用前端各類自動化運維服務請求。圖2自動化運維平臺架構(gòu)例如,當以一個任務來標示一項運維工作,以作業(yè)來標示完成一項運維工作所需的各關(guān)鍵操作步驟,即可基于任務編排確定各作業(yè)內(nèi)容和前后序限制條件等內(nèi)容,并通過提煉規(guī)范化模型將任務流程入庫。在此過程中,Server端主要由任務執(zhí)行器和數(shù)據(jù)訪問模塊構(gòu)成。其中,數(shù)據(jù)訪問模塊用于實現(xiàn)數(shù)據(jù)庫表的關(guān)系映射與訪問控制;任務執(zhí)行器負責對并發(fā)任務及并行作業(yè)進行資源調(diào)度,管理線程資源,并確認各作業(yè)間關(guān)聯(lián)關(guān)系、把控執(zhí)行進度,以及通過內(nèi)存數(shù)據(jù)庫實現(xiàn)任務和作業(yè)信息的快速入庫與實時查詢。同時,由通信接口模塊負責對各業(yè)務系統(tǒng)平臺的通信訪問接口進行設計。此外,為解決已有銀行IT系統(tǒng)與前端Dashboard通信方法中存在的通信鏈路單一、安全度較低、操作性差等缺陷,平臺中創(chuàng)新性引入了多鏈路模式切換與單雙向通信分離方法、交易級性能采集與運維通信方法等,并支持通過異常捕獲模塊對任務異常狀態(tài)進行排查與診斷,可快速定位問題根源,實現(xiàn)運維任務快速恢復。結(jié)合銀行IT系統(tǒng)基礎(chǔ)軟件升級場景,自動化運維平臺重點實現(xiàn)了包含環(huán)境部署、升級流程、測試實施、版本管控等在內(nèi)的自動化實施與驗證功能。具體而言,在環(huán)境部署方面,平臺通過采集生產(chǎn)環(huán)境配置參數(shù)、脫敏數(shù)據(jù)與鋪底程序,可自動化編排任務,支持從數(shù)據(jù)庫環(huán)境Restore、雙活組件參數(shù)配置、應用程序與數(shù)據(jù)部署等方面構(gòu)建測試環(huán)境,并通過校驗程序驗證環(huán)境基礎(chǔ)功能。在升級流程方面,平臺重點實現(xiàn)了升級回退流程與雙活切換流程的自動化操作。在測試實施方面,平臺通過內(nèi)嵌發(fā)壓工具,實時采集環(huán)境監(jiān)測數(shù)據(jù),可快速出具測試分析報告,并應用測試元數(shù)據(jù)模型,分析確認測試場次有效性。在版本管控方面,平臺通過采集各環(huán)境主機基礎(chǔ)軟件版本,支持對版本差異進行智能化分析與判斷,并可對重要版本變更時點的基礎(chǔ)軟件版本進行自動化備份。四、智能化數(shù)據(jù)分析基于運維數(shù)據(jù)倉庫大數(shù)據(jù)平臺采集的生產(chǎn)日報數(shù)據(jù)與各類測試環(huán)境測試性能數(shù)據(jù),通過數(shù)據(jù)ETL和數(shù)據(jù)標注,運維人員即可在平臺中對歷史數(shù)據(jù)進行挖掘分析,并構(gòu)建應用投產(chǎn)表現(xiàn)預判模型與性能問題定位模型:在投產(chǎn)表現(xiàn)預判方面,利用機器學習算法,通過探尋生產(chǎn)環(huán)境數(shù)據(jù)與測試環(huán)境數(shù)據(jù)的關(guān)聯(lián)性,可構(gòu)建回歸問題,并訓練投產(chǎn)表現(xiàn)預判模型,用于解決因性能測試環(huán)境資源限制因素導致的無法有效反饋應用投產(chǎn)后在生產(chǎn)系統(tǒng)表現(xiàn)的問題。在性能問題定位方面,通過對預處理后的測試環(huán)境性能數(shù)據(jù)進行基于經(jīng)驗閾值的數(shù)據(jù)標注,并將其與歷史問題數(shù)據(jù)結(jié)合,可構(gòu)建分類問題訓練集(數(shù)據(jù)指標涵蓋操作系統(tǒng)、數(shù)據(jù)庫、交易中間件、雙活組件等領(lǐng)域),進而實現(xiàn)性能問題快速定位,降低數(shù)據(jù)分析的繁瑣程度,提升性能分析的準確率。基于上述設計,通過將測試環(huán)境持續(xù)產(chǎn)生的各類指標數(shù)據(jù)流接入離線訓練生成的應用投產(chǎn)表現(xiàn)預判模型與性能問題定位模型,可生成各類報表數(shù)據(jù)與分析報告,從而快速確定測試有效性,實現(xiàn)對測試性能數(shù)據(jù)的有效監(jiān)控與預警。綜上,本文所述智能化運維實踐為后續(xù)生產(chǎn)運維智能

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論