面向分布式轉(zhuǎn)型的異構(gòu)系統(tǒng)運維管理平臺建設(shè)_第1頁
面向分布式轉(zhuǎn)型的異構(gòu)系統(tǒng)運維管理平臺建設(shè)_第2頁
面向分布式轉(zhuǎn)型的異構(gòu)系統(tǒng)運維管理平臺建設(shè)_第3頁
面向分布式轉(zhuǎn)型的異構(gòu)系統(tǒng)運維管理平臺建設(shè)_第4頁
面向分布式轉(zhuǎn)型的異構(gòu)系統(tǒng)運維管理平臺建設(shè)_第5頁
已閱讀5頁,還剩4頁未讀 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

近年來,面對國際形勢變化以及互聯(lián)網(wǎng)企業(yè)架構(gòu)帶來的啟發(fā),商業(yè)銀行紛紛開啟分布式轉(zhuǎn)型,同時其信息系統(tǒng)架構(gòu)也呈現(xiàn)出集中式與分布式并存的特點。在此趨勢下,IT運維團隊不僅要繼續(xù)承擔(dān)傳統(tǒng)集中式大型主機平臺平穩(wěn)運行的運維職責(zé),又要做好未來分布式運維的技術(shù)儲備,尤其在大型主機技術(shù)相對封閉、向分布式技術(shù)棧遷移難度較大的情況下,如何順利實現(xiàn)運維技術(shù)轉(zhuǎn)型成為當(dāng)前面臨的重大挑戰(zhàn)。與此同時,在集中式和分布式并存的復(fù)雜架構(gòu)下,只有讓運維能力具備與運維對象松耦合的可遷移性和普適性,才能更好地適應(yīng)銀行信息系統(tǒng)技術(shù)不斷更迭的現(xiàn)狀和趨勢。針對上述變化,筆者團隊以多年積累的運維經(jīng)驗為基礎(chǔ),總結(jié)提煉了分布式運維管理方法論,并配套搭建異構(gòu)系統(tǒng)運維管理平臺,創(chuàng)新開展了以數(shù)據(jù)統(tǒng)一采集與標(biāo)準(zhǔn)化治理為基礎(chǔ)支撐、以標(biāo)準(zhǔn)化產(chǎn)品組件為控制接口、以即插即用的工具平臺為共享服務(wù)、以運維需求為應(yīng)用場景的落地實踐,逐步推動運維模式從“事件驅(qū)動”向“數(shù)據(jù)驅(qū)動”轉(zhuǎn)變,推動平臺建設(shè)從“需求功能實現(xiàn)”向“通用運維能力沉淀”轉(zhuǎn)變。一、異構(gòu)系統(tǒng)運維管理平臺架構(gòu)設(shè)計面向分布式轉(zhuǎn)型趨勢,筆者團隊將新技術(shù)手段與管理流程優(yōu)化相融合,著力推動以數(shù)據(jù)驅(qū)動的智能運維體系建設(shè),并創(chuàng)新搭建了異構(gòu)系統(tǒng)運維管理平臺(如圖1所示)。該平臺基于多維度運維數(shù)據(jù),在屏蔽底層運維對象復(fù)雜性的基礎(chǔ)上,重點實現(xiàn)了標(biāo)準(zhǔn)化數(shù)據(jù)治理與規(guī)范化接口調(diào)用,旨在迭代推動運維模式向可視化、自動化和智能化轉(zhuǎn)型。平臺設(shè)計重點強調(diào)了三項基本原則:一是相對獨立,即將復(fù)雜的運維能力建設(shè)拆分為相對獨立的服務(wù)建設(shè),通過規(guī)范接口,實現(xiàn)平臺間、模塊間的相互調(diào)用協(xié)作;二是能力復(fù)用,即使每一個開發(fā)過的功能模塊在之后的能力建設(shè)中能夠被最大程度被復(fù)用,進(jìn)而降低成本、縮短時間,實現(xiàn)乘數(shù)效應(yīng);三是閉環(huán)設(shè)計,即通過將人的能力和機器的能力統(tǒng)籌考慮,最終實現(xiàn)數(shù)據(jù)、分析、決策、處置的操作閉環(huán)與事前、事中、事后的流程閉環(huán),并借此持續(xù)推進(jìn)自動化、智能化轉(zhuǎn)型。圖1異構(gòu)系統(tǒng)運維管理平臺架構(gòu)設(shè)計基于上述原則,異構(gòu)系統(tǒng)運維管理平臺重點打造數(shù)據(jù)治理、控制接口、共享服務(wù)、應(yīng)用場景等四大功能模塊,并在其中內(nèi)嵌了“數(shù)據(jù)驅(qū)動、預(yù)防為主、應(yīng)急為輔”的預(yù)防性維護(hù)閉環(huán)流程。其中,數(shù)據(jù)治理功能重在實現(xiàn)對異構(gòu)運維對象數(shù)據(jù)的統(tǒng)一采集、存儲、歸總,控制接口功能重在實現(xiàn)對異構(gòu)運維對象的統(tǒng)一控制操作,共享服務(wù)功能重在將常用的數(shù)據(jù)分析服務(wù)集成為通用工具,應(yīng)用場景則是指根據(jù)事前、事中、事后的應(yīng)急閉環(huán)迭代流程落地具體的運維場景,并以統(tǒng)一門戶全景展示異構(gòu)運維對象的實時狀態(tài)。1.數(shù)據(jù)治理模塊異構(gòu)系統(tǒng)運維管理平臺的運維對象涉及大型主機平臺、AIX平臺、X86平臺等多個并存的異構(gòu)系統(tǒng),每天有大量源數(shù)據(jù)存儲需求,數(shù)據(jù)的類型、格式也千差萬別。對此,筆者團隊首先在數(shù)據(jù)治理模塊中搭載了數(shù)據(jù)字典,并據(jù)此標(biāo)準(zhǔn)化數(shù)據(jù)采集工具,最后基于數(shù)據(jù)倉庫統(tǒng)一存儲的治理策略,搭建了主機性能容量平臺(TDS)、大數(shù)據(jù)平臺(BIGDATA)、配置管理數(shù)據(jù)庫(CMDB)三大平臺作為數(shù)據(jù)治理的主要抓手,建設(shè)標(biāo)準(zhǔn)化的平臺數(shù)據(jù)資源池。以主機性能容量平臺為例,該平臺重點實現(xiàn)了對主機性能指標(biāo)(SMF)數(shù)據(jù)的統(tǒng)一結(jié)構(gòu)化存儲與管理。實踐中,TDS首先是按照系統(tǒng)、存儲、數(shù)據(jù)庫、交易中間件、消息中間件、批量等組件劃分方式,分條目建設(shè)性能指標(biāo)體系,再基于指標(biāo)體系抽取了685個常見的性能指標(biāo)作為采集對象,每一類組件設(shè)計有單獨的采集解析腳本,收集數(shù)據(jù)互不影響,且采集的數(shù)據(jù)會統(tǒng)一落入DB2和MySQL數(shù)據(jù)庫。在此基礎(chǔ)上,作為支持上層應(yīng)用的數(shù)據(jù)資源,該平臺還重點搭載了三個典型應(yīng)用:第一部分是系統(tǒng)的健康檢查,幫助運維人員快速掌握系統(tǒng)運行狀態(tài),發(fā)現(xiàn)潛在的性能問題;第二部分是關(guān)鍵指標(biāo)的容量預(yù)估,通過分析指標(biāo)的長期變化趨勢,提前預(yù)估基礎(chǔ)環(huán)境中的容量問題,做好容量規(guī)劃,保障生產(chǎn)資源的彈性擴容;第三部分是事后問題診斷,通過對底層多維度的指標(biāo)關(guān)聯(lián)挖掘,平臺集成有波動分析、趨勢分析、對比分析等多個分析模型,用于根因的快速分析定位。2.控制接口模塊為實現(xiàn)對異構(gòu)平臺的統(tǒng)一自動化調(diào)用,控制接口模塊中搭載了中國銀行自主研發(fā)的自動化運維管理平臺——MOMA。MOMA通過將常見運維操作進(jìn)行標(biāo)準(zhǔn)化打包,可實現(xiàn)對異構(gòu)運維對象的統(tǒng)一控制,并基于工作流編排、調(diào)度和交互控制等功能,支持用戶在網(wǎng)頁端定義一系列相互關(guān)聯(lián)的指令作業(yè),并按照事先約定的執(zhí)行流程進(jìn)行自動執(zhí)行與實時追蹤,從而實現(xiàn)一套流程、集中控制、重復(fù)使用,顯著降低了管理成本和差錯率。MOMA平臺通過標(biāo)準(zhǔn)化接口實現(xiàn)主機平臺和開源平臺對接,徹底改變了主機平臺的閉源特性,使傳統(tǒng)主機平臺擁有了豐富的可視化界面。同時,在變更任務(wù)的拆分過程中,通過開發(fā)大量能滿足平臺接口調(diào)用規(guī)范的主機平臺作業(yè)流,全面覆蓋了自動化控制、智能判斷等功能,并共同組建了主機自動化運維腳本庫。未來,伴隨著MOMA平臺的演進(jìn)和發(fā)展,主機平臺的自動化運維能力也將不斷提升,而主機接口標(biāo)準(zhǔn)化建設(shè)則為異構(gòu)運維對象的集中自動化調(diào)度鋪平了道路。3.共享服務(wù)模塊基于相對獨立和能力復(fù)用等設(shè)計原則,共享服務(wù)模塊作為對接數(shù)據(jù)與應(yīng)用的通用服務(wù)層,主要負(fù)責(zé)將運維場景常用的展示能力、分析能力、決策能力等集成為即插即用的服務(wù),以避免功能重復(fù)開發(fā)。目前,共享服務(wù)層重點建設(shè)了指標(biāo)展示大屏、時間序列分析平臺(Horae)、主機日志分析平臺、機器學(xué)習(xí)算法庫等作為通用服務(wù)工具。其中,時間序列分析平臺利用統(tǒng)計分析和機器學(xué)習(xí)算法,可對具有規(guī)律性的性能指標(biāo)數(shù)據(jù)進(jìn)行精細(xì)化分析和價值挖掘,從而為上層應(yīng)用場景提供任一性能指標(biāo)數(shù)據(jù)的趨勢預(yù)測和異常檢測服務(wù)。同時,該平臺通過將時間序列分析中常見操作封裝為Horae平臺命令,支持用戶使用配置文件輸入命令和參數(shù)信息來調(diào)用服務(wù)。截至目前,Horae平臺內(nèi)已集成有10余種時間序列分析算法,并支持算法的動態(tài)彈性擴展,能夠很好地覆蓋運維中常見的序列類型。4.應(yīng)用場景模塊應(yīng)用場景模塊通過將團隊門戶作為統(tǒng)一入口,基于對告警、日志、生產(chǎn)問題、性能指標(biāo)等運維數(shù)據(jù)的挖掘分析,實現(xiàn)了包含數(shù)據(jù)、分析、決策、處置在內(nèi)的操作閉環(huán)與覆蓋事前、事中、事后的流程閉環(huán)。例如,該模塊基于告警風(fēng)暴收斂、日志風(fēng)險診斷、容量預(yù)估等功能可實現(xiàn)事前風(fēng)險感知,通過運維知識庫、異常檢測、自動處置等功能大幅提高了事中處置速度,以及結(jié)合問題跟蹤、根因分析等功能實現(xiàn)了事后閉環(huán)迭代。二、異構(gòu)系統(tǒng)運維管理平臺應(yīng)用示例1.告警風(fēng)暴收斂傳統(tǒng)運維方式下,運維團隊通常會根據(jù)重要性和緊急程度從高到低將告警分為紅、橙、黃、藍(lán)四個等級。從告警數(shù)量來看,每天以重要程度較低的藍(lán)色告警居多,因其包含了許多不重要的提示信息,所以很容易被運維人員忽視。鑒于此,告警風(fēng)暴收斂的一項重點工作即在于對藍(lán)色告警進(jìn)行再分級,并最終從海量藍(lán)色告警中篩選出真正有價值的風(fēng)險。藍(lán)色告警再分級如圖2所示。圖2藍(lán)色告警再分級為實現(xiàn)上述目標(biāo),筆者團隊利用機器學(xué)習(xí)算法圍繞告警風(fēng)險指數(shù)展開了統(tǒng)計分析,其核心思想是抽取系統(tǒng)平穩(wěn)運行時出現(xiàn)的藍(lán)色告警歷史數(shù)據(jù)特征,并將其作為風(fēng)險等級較低的正樣本數(shù)據(jù),同時將新出現(xiàn)的藍(lán)色告警與歷史一段時間的正樣本數(shù)據(jù)進(jìn)行比對,當(dāng)一條藍(lán)色告警的發(fā)生次數(shù)、告警內(nèi)容等特征與歷史情況趨同時,說明該告警風(fēng)險等級低,而一旦與歷史情況差別較大時,則說明可能發(fā)生了異常情況,需要重點關(guān)注。基于上述思想,筆者團隊結(jié)合TFIDF文本分析和Kmeans聚類算法,對每條藍(lán)色告警的風(fēng)險指數(shù)進(jìn)行了實時計算,并將其依次分為“99999、1000+、100+、10+、1+”五個風(fēng)險等級,以輔助運維人員合理分配注意力,對風(fēng)險等級高的藍(lán)色告警予以重點關(guān)注,實現(xiàn)精細(xì)化區(qū)分告警風(fēng)險等級的目標(biāo)。結(jié)合實際應(yīng)用來看,偏離歷史一般規(guī)律越多的藍(lán)色告警的風(fēng)險指數(shù)越高,而這一結(jié)果和運維經(jīng)驗相吻合,可有效助力運維人員及時發(fā)現(xiàn)潛在風(fēng)險。2.運維知識庫運維知識庫旨在實現(xiàn)處置方案的快速查找,從而有效提高事中的應(yīng)急速度。按照傳統(tǒng)的文檔庫建設(shè)思路,通常很難保證文檔版本的動態(tài)更新,且使用時也往往需要進(jìn)行復(fù)雜的檢索操作才能定位解決方案。為彌補上述不足,運維知識庫基于“有警必有解”的建設(shè)思路,將告警信息作為知識庫統(tǒng)一入口,點擊任意一條新出現(xiàn)的告警信息,均可鏈接到運維知識庫中針對該告警的具體解釋和處理手段,從而實現(xiàn)了對每一條告警的快速應(yīng)對。此外,為保證運維知識庫的完備性,異構(gòu)系統(tǒng)運維管理平臺利用關(guān)鍵字技術(shù)對告警的關(guān)閉操作和知識庫的錄入操作實施了強關(guān)聯(lián),即工程師想要關(guān)閉告警就必須將解決方案錄入知識庫,從而實現(xiàn)了歷史經(jīng)驗的固化積累;同時,為保證每一條處置方案都能對應(yīng)到可操作層面,還為其專門建立了后評價反饋機制,即由一線值班工程師在實際使用后進(jìn)行評價反饋,將有問題的解決方案登記到問題跟蹤,由二線處理并更新知識庫。3.故障自動處置目前,運維自動化主要指監(jiān)控告警自動化與處置操作自動化兩個方面。傳統(tǒng)運維方式下,告警自動化產(chǎn)生后,通常需人工查找自動化腳本或工具提交執(zhí)行,且事中處置同樣需人和機器協(xié)作完成。對此,異構(gòu)系統(tǒng)運維管理平臺通過內(nèi)嵌自動處置模塊,力求打通監(jiān)控和執(zhí)行環(huán)節(jié),即在無人參與的前提下,根據(jù)告警信息找到對應(yīng)的處置方法自動執(zhí)行。異構(gòu)系統(tǒng)運維管理平臺基于MOMA和主機自帶的自動化工具集,可將日常運維的手工操作轉(zhuǎn)化為由自動化腳本組成的歸檔集成,并針對具有固定處理方式的告警信息,抓取關(guān)鍵字觸發(fā)腳本進(jìn)行自動化處置,從而為日常運維提供了自動化的預(yù)防性維護(hù)能力。以高亮信息處理場景為例,高亮信息是大型主機特有的從路由到終端的提示信息,作為監(jiān)控領(lǐng)域的一大痛點,運維人員每天都需要處理大量的高亮信息,尤其在應(yīng)用批次投產(chǎn)等特殊時段,甚至一天內(nèi)會出現(xiàn)20余萬次,運維人員很容易在高亮風(fēng)暴中忽略關(guān)鍵信息。針對上述難點,當(dāng)利用異構(gòu)系統(tǒng)運維管理平臺的自動處置功能進(jìn)行高亮信息治理后,絕大部分高亮信息實現(xiàn)了系統(tǒng)自動回復(fù),使需要運維人員關(guān)注的高亮信息減少了80%以上,有力提升了運維效率。三、總結(jié)和展望綜上所述,本文介紹了一種面向分布式轉(zhuǎn)型的運維管理方法,并基于此方法建設(shè)了異構(gòu)系統(tǒng)運維管理平臺,不僅為預(yù)防性維護(hù)方法論的落地實現(xiàn)提供了一種可參考的平臺框架,而且為異構(gòu)運維對象的統(tǒng)一管理維護(hù)奠定了能力基礎(chǔ)。與此同時,該方法通過在異構(gòu)系統(tǒng)運維管理平臺中構(gòu)建標(biāo)準(zhǔn)化數(shù)據(jù)資源池,為實現(xiàn)運維數(shù)據(jù)的深度挖掘和多維分析,以及將來引入更多智能分析決策模塊奠定了堅實的數(shù)據(jù)基礎(chǔ)。此外,平臺建

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論