




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領
文檔簡介
1、IT智能運維一體化建設研究與建設案例分析1. 建設背景2(-)建設思路2(-)實現(xiàn)路徑32. 階段一:運維可視化建設3(-)監(jiān)控平臺的實施及擴展4(-)網(wǎng)絡流量智能分析系統(tǒng)4(三)日志集中管理系統(tǒng)53. 階段二:標準化運維建設64. 階段三:自動化運維建設75. 階段四:數(shù)字化運維建設8(-)技術(shù)架構(gòu)8(-)功能架構(gòu)96.階段五:統(tǒng)一運維管理平臺建設10117.總結(jié)6.階段五:統(tǒng)一運維管理平臺建設在完成以上運維管理建設任務的基礎上,下一個任務就是完成運維管理平 臺的建設。根據(jù)某農(nóng)商銀行科技信息系統(tǒng)發(fā)展的現(xiàn)狀,平臺建設的目標定位在 一個能夠整合現(xiàn)有運維管理工具,以CMDB作為底層支撐,各組件有機
2、聯(lián)動的 中輕量級平臺。最終目的是提供更清晰的運維管理流程和任務,更精準全面的 監(jiān)控手段,更智能的預警分析能力。某農(nóng)商銀行統(tǒng)一運維管理平臺功能架構(gòu)將按照下圖進行設計實施:統(tǒng)一門戶平臺數(shù)據(jù)展現(xiàn)平臺統(tǒng)一報表平臺事件管理變更管理配置管理流程管理平臺知識管理,服務服務水平運行管理CMDB集中監(jiān)控平臺問題管理發(fā)布管理1_ _!服務目錄 業(yè)務模fi自動發(fā)現(xiàn)調(diào)和聯(lián)邦AN自動化管理平臺統(tǒng)一扳古平3歷史數(shù)據(jù)分析性能統(tǒng)計分析告警統(tǒng)計分忻批量統(tǒng)計分析IT運維管理框架從邏輯結(jié)構(gòu)上劃分為五個平臺和一個中心配置庫,分別是 數(shù)據(jù)展現(xiàn)平臺,流程管理平臺,集中監(jiān)控平臺,自動化管理平臺,歷史數(shù)據(jù)分 析平臺以及CMDB配置管理核心庫
3、。1、監(jiān)控平臺:構(gòu)建整個IT監(jiān)控架構(gòu),兼顧網(wǎng)絡、主機和業(yè)務系統(tǒng),實現(xiàn)集中 事件管理。2、流程平臺:整合并標準化運維的日常工作,將日常的工作規(guī)范,并透明化。3、展現(xiàn)及報表平臺:建設統(tǒng)一報表平臺和統(tǒng)一門戶平臺將有效增強數(shù)據(jù)利用 和展示效果。4、自動化操作平臺:完成對整個IT操作的集中管控和自動化。5、統(tǒng)一報表平臺:集中存放歷史數(shù)據(jù),提供后期統(tǒng)一分析及規(guī)劃。6、配置管理數(shù)據(jù)庫:記錄完整的、準確的IT環(huán)境中各組件的信息和彼此間的 關(guān)聯(lián)關(guān)系,作為唯一、可信的數(shù)據(jù)源,為周邊系統(tǒng)提供支撐數(shù)據(jù)。7 .總結(jié)在移動化、大數(shù)據(jù)、云計算、人工智能等新技術(shù)的推動下,IT技術(shù)架構(gòu)悄 然變遷,從傳統(tǒng)"IOE架構(gòu)”
4、走向”互聯(lián)網(wǎng)架構(gòu)”?;ヂ?lián)網(wǎng)架構(gòu)所涉及的云計算、敏 捷開放、微服務等元素成倍劇增,使得運維壓力越來越大。這樣的趨勢下,運 維管理模式從ITIL向DevOps演化,運維管理工具也發(fā)生了從ITOM、ITOA到 AIOps的顛覆性變革。某農(nóng)商銀行科技團隊將本著"科技驅(qū)動業(yè)務、科技驅(qū)動 服務、科技驅(qū)動風控”的理念,兼顧歷史與未來需求,滿足運行穩(wěn)定與敏捷發(fā)展 需要,不斷強化自身能力,向智能運維一體化方向不斷努力,走出一條符合中 小金融機構(gòu)特色的運維管理之路。某農(nóng)商銀行高度重視信息化的建設與發(fā)展,不斷引入新的信息科技技術(shù)和 理念,逐步促進銀行服務的形態(tài)和內(nèi)容更新,在服務理念、經(jīng)營模式等多個方 面實
5、現(xiàn)轉(zhuǎn)型升級。伴隨而來的是某農(nóng)商銀行科技信息系統(tǒng)規(guī)模的不斷擴大,虛 擬化、大數(shù)據(jù)、智能化等新技術(shù)的不斷應用,導致IT運維管理的規(guī)模和復雜程 度不斷增加。為了提高某農(nóng)商銀行運維管理能力,增強運維管理效率,實現(xiàn)對 信息科技系統(tǒng)運行的全方位管控,某農(nóng)商銀行不斷學習借鑒前沿的運維管理技 術(shù)理念,并結(jié)合銀行信息科技發(fā)展現(xiàn)狀,研究并實踐出一條符合中小金融機構(gòu) 的智能運維一體化發(fā)展路線,并在此基礎上不斷實踐完善。L建設背景伴隨著某農(nóng)商銀行信息科技的迅猛發(fā)展,早期分散式、粗粒度、低效率的 IT運維管理模式已經(jīng)難以滿足現(xiàn)有規(guī)模大、多層級、全覆蓋的運維管理需求, 迫切需要通過管理和技術(shù)手段來提升運維能力。近年來提出
6、的AIOps表達了 智能運維一體化的先進理念,并在大型的金融和互聯(lián)網(wǎng)機構(gòu)形成了一些成功的 應用案例,但是作為中小金融機構(gòu),從IT規(guī)模、人員配備、投資預算各方面都 難以支撐商業(yè)大型一體化運維管理平臺的實施與應用,所以某農(nóng)商銀行必須走 一條符合自身條件、可行可控,并能夠迭代發(fā)展的AIOps建設之路。(一)建設思路1、流程驅(qū)動運維:借鑒ITIL運維流程標準,定制適合某農(nóng)商銀行實際的運維 管理流程平臺;3、工具驅(qū)動運維:采用運維開發(fā)模式,實現(xiàn)運維任務的自動化、工具化、可視 化;3、數(shù)據(jù)驅(qū)動運維:基于大數(shù)據(jù)采集、存儲、分析技術(shù),對運維數(shù)據(jù)進行全面挖掘和分析,實現(xiàn)數(shù)據(jù)驅(qū)動運維;4、平臺驅(qū)動運維:通過建立統(tǒng)
7、一運維平臺,整合貫通CMDB、流程平臺、監(jiān)控平臺、作業(yè)平臺、數(shù)據(jù)分析處理平臺,形成智能運維一體化解決方案。(二)實現(xiàn)路徑按照以上建設思路,結(jié)合某農(nóng)商銀行的實際情況,將智能運維一體化建設 的實現(xiàn)路徑劃分為五個階段的演進過程。階段一,可視化運維通過對原有監(jiān)控平臺的基礎功能發(fā)掘擴展,并結(jié)合BPC (旁路式業(yè)務性能 監(jiān)控)、Web撥測、統(tǒng)一日志分析審計系統(tǒng)等技術(shù),實現(xiàn)監(jiān)控平臺全方位展示 業(yè)務健康狀態(tài)指標。階段二,標準化運維制定體系化的運維管理制度、規(guī)范運維管理流程,并結(jié)合CMDB配置平 臺,實現(xiàn)資產(chǎn)和運維管理的標準化。階段三,自動化運維采用自動化運維工具和統(tǒng)一作業(yè)平臺,通過運維流程編排、自定義腳本開
8、發(fā),實現(xiàn)批量巡檢、補丁升級、安全加固等不同場景的自動化維護。階段四,數(shù)字化運維通過將所有運維和監(jiān)控所采集的數(shù)據(jù)在大數(shù)據(jù)平臺上進行轉(zhuǎn)換、清洗和管 理,實現(xiàn)數(shù)字化建模,用于支撐運維場景優(yōu)化、故障原因分析和智能決策。 階段五,統(tǒng)一運維管理平臺通過搭建統(tǒng)一運維管理平臺,整合CMDB、流程平臺、作業(yè)平臺、大數(shù)據(jù) 平臺等組件功能,實現(xiàn)各個組件之間的數(shù)據(jù)共享和聯(lián)動,最終實現(xiàn)智能運維一 體化建設。2. 階段一:運維可視化建設運維可視化建設的總體目標,一是實現(xiàn)某農(nóng)商銀行科技信息系統(tǒng)運行狀態(tài) 的多維度展現(xiàn),二是實現(xiàn)對業(yè)務系統(tǒng)故障的精確告警,三是實現(xiàn)運行數(shù)據(jù)的采 集,同時提供接口為后期的大數(shù)據(jù)平臺提供數(shù)據(jù)支撐。為實
9、現(xiàn)上述目標,某農(nóng) 商銀行采用了商用智能監(jiān)控管理中心、開源監(jiān)控平臺、BPC旁路流量分析系統(tǒng) 和日志分析審計系統(tǒng)相結(jié)合的方式。(一) 監(jiān)控平臺的實施及擴展智能監(jiān)控管理中心是下一代業(yè)務智能管理平臺。它以統(tǒng)一的風格提供與網(wǎng) 絡、主機相關(guān)的各類管理、控制、監(jiān)控功能,同時以開放的、組件化的架構(gòu)向 其承載業(yè)務提供分布式、分級式交互管理。智能監(jiān)控管理中心是某農(nóng)商銀行進 行網(wǎng)絡和主機監(jiān)控的統(tǒng)一平臺。某農(nóng)商銀行初期通過智能管理中心實現(xiàn)了對數(shù)據(jù)中心網(wǎng)絡、主機的基礎硬 件、系統(tǒng)容量、性能等基礎指標的監(jiān)控和告警功能,但是針對業(yè)務系統(tǒng)、批量 作業(yè)、應用日志的監(jiān)控告警還需通過人工操作進行。為了實現(xiàn)可視化管理,并 能夠做到業(yè)
10、務系統(tǒng)故障能夠及時準確的在監(jiān)控平臺上統(tǒng)一展現(xiàn),同時各項數(shù)據(jù) 能夠進行統(tǒng)一收集存儲,某農(nóng)商銀行對智能管理中心進行了定制化改造,通過 整合監(jiān)控平臺、應用系統(tǒng)日志、操作系統(tǒng)日志,并結(jié)合自定義腳本程序等方法, 實現(xiàn)了對數(shù)據(jù)中心基礎硬件環(huán)境和業(yè)務系統(tǒng)的統(tǒng)一監(jiān)控管理。所有服務器操作 系統(tǒng)采用Syslog協(xié)議將系統(tǒng)錯誤、應用告警、跑批告警信息等E rror級別信 息,通過監(jiān)控腳本發(fā)送至I告警平臺,Info級別信息,發(fā)送至日志審計。已知 業(yè)務告警均為腳本觸發(fā),觸發(fā)級別為3(Error),經(jīng)過和告警平臺商定,根據(jù)大 屏告警關(guān)鍵字為"JTGL",實現(xiàn)所有告警都會被記錄,并實現(xiàn)有關(guān)鍵字的告警會
11、有額外提示。(二) 網(wǎng)絡流量智能分析系統(tǒng)通過智能管理中心,我們實現(xiàn)了對操作系統(tǒng)、數(shù)據(jù)庫、中間件等IT基礎環(huán) 境的統(tǒng)一監(jiān)控能力,但是無法通過應用系統(tǒng)的實際業(yè)務應用情況對事件進行判 斷和預警,為此我們引入了 BPC產(chǎn)品來進行可視化管理的補充。BPC (Business Performance Center)產(chǎn)品基于先進的協(xié)議解碼技術(shù),將網(wǎng)絡真實數(shù)據(jù)作為客觀實時的數(shù)據(jù)源,經(jīng)處理后,呈現(xiàn)出高價值的業(yè)務可用數(shù)據(jù)源,BPC對網(wǎng)絡真實數(shù)據(jù)的解讀準確率可以達到100%,并自動發(fā)現(xiàn)業(yè)務訪 問與依賴關(guān)系。此外,還可應用于實時風險透視,大大強化了金融企業(yè)的風險 檢測能力。某農(nóng)商銀行采取對數(shù)據(jù)中心核心網(wǎng)絡節(jié)點實時流量
12、進行鏡像,將鏡像流量 導入BPC平臺,并針對特定業(yè)務的交易數(shù)據(jù)流進行分析處理。實現(xiàn)對流量、應 用、節(jié)點、會話四大類數(shù)十種預制報表的自動生成,并支持Netflow、Netstream、Sflow等多種性能數(shù)據(jù)格式。使用特定處理的數(shù)據(jù)能夠建立告警基線,實現(xiàn)異常流量自動告警。并能夠?qū)崿F(xiàn)對故障原因的分析預判和準確定位。整體架構(gòu)如 下圖所示:荻取設備憤像教據(jù),形成分析網(wǎng)絡報文提取符合爭件流 統(tǒng)計借喜.輸出流統(tǒng)計信信解忻網(wǎng)緡設:備報文收更統(tǒng)計妻攵據(jù)至I敬據(jù)庫統(tǒng)計分析數(shù)據(jù),產(chǎn)生 流量報表業(yè)務應用流量分析(三)日志集中管理系統(tǒng)各類網(wǎng)絡設備、操作系統(tǒng)、數(shù)據(jù)庫、中間件及應用系統(tǒng)日志的集中處理, 能夠準確分析某農(nóng)商
13、銀行IT系統(tǒng)的安全、性能、容量、及軟件缺陷,并為優(yōu) 化改進提供可靠依據(jù)。為此某農(nóng)商銀行同時進行了日志分析系統(tǒng)的建設。通過 采購日志分析審計設備,實現(xiàn)了對網(wǎng)絡、主機及應用系統(tǒng)日志的統(tǒng)一收集分析, 并能夠以定制報表形式可視化輸出。通過一體化監(jiān)控平臺、BPC網(wǎng)絡流量分析系統(tǒng)、日志分析審計系統(tǒng)的建設,某 農(nóng)商銀行形成了立體的運維可視化系統(tǒng)。通過這些手段,目前已經(jīng)能夠做到系 統(tǒng)故障的自動化精確告警,大大提高了運維管理效率,并形成了大量的運維數(shù) 據(jù),為后期的大數(shù)據(jù)平臺提供了數(shù)據(jù)來源,為數(shù)字化運維奠定基礎。3. 階段二:標準化運維建設為保障運維工作的質(zhì)量和效率,應制定完善、切實可行的運維管理制度和 規(guī)范,確
14、定各項運維活動的標準流程和相關(guān)職責,使運維人員在制度和流程的 規(guī)范和約束下協(xié)同操作。標準化運維建設的第一步就是建立起適合某農(nóng)商銀行 實際運維情況的管理制度和規(guī)范,結(jié)合此規(guī)范進行運維流程的梳理和開發(fā)。某農(nóng)商銀行在運維流程平臺建立的過程中,充分借鑒了"ITILV3TT服務管 理標準,結(jié)合 某農(nóng)商銀行IT系統(tǒng)現(xiàn)狀和科技人員結(jié)構(gòu),對流程進行了定制改 造,使之更符合某農(nóng)商銀行現(xiàn)階段的運維管理需要。同時,為了使流程平臺具 有開放的定制能力和可擴展能力,某農(nóng)商銀行基于JAVA框架進行了平臺的 自主開發(fā),現(xiàn)已完成事件管理、變更管理、發(fā)布管理、資源環(huán)境管理、機房管 理等基礎流程開發(fā),并在實際工作中得到
15、了充分應用。在完成流程平臺建設的基礎上,某農(nóng)商銀行進一步進行了配置管理平臺的 建設。通過長期的摸索和探討,某農(nóng)商銀行定位CMDB主要提供兩個核心能力 的場景,一是自動化運維場景;二是數(shù)據(jù)化運維場景,這也是我們設計的面向 應用的IT資源的核心框架。傳統(tǒng)的CMDB往往都是面向資源和設備的,但是 站在更高的視角來看,脫離了應用和業(yè)務,其實設備并沒有獨立存在的價值, 所以在建設CMDB時,采用基于最底層的基礎資源視角來向更上層的應用和 業(yè)務進行建設。根據(jù)以上建設思路,某農(nóng)商銀行對各種配置管理產(chǎn)品和軟件進 行了評估測試,確定采用開源軟件、自主定義資源模型、CI元素的方式進行 CMDB建設,逐步建成一套核
16、心IT資源圖譜,能夠和監(jiān)控平臺、流程平臺、作 業(yè)平臺等進行聯(lián)動,并能夠資源自動發(fā)現(xiàn)、自動更新,最終成為整個IT運維基 礎平臺的核心紐帶,貫穿整個運維管理過程。4. 階段三:自動化運維建設對自動化運維體系的需求,是隨著業(yè)務的增長、對運維效率和質(zhì)量的要求 不斷提高而產(chǎn)生的。某農(nóng)商銀行前期服務器的安裝、軟件部署、服務發(fā)布和監(jiān) 控都是通過手動方式來完成的,需要運維人員登錄到服務器上,一臺一臺去管 理和維護。這種非并發(fā)的線性工作方式是制約效率的最大障礙。同時,因為手 動的操作方式過于依賴運維人員的執(zhí)行順序和操作步驟,稍有不慎即可能導致 服務器配置不一致,也就是同一組服務器的配置上出現(xiàn)差異。有時候,這種差
17、 異是很難直接檢查出來的。隨著業(yè)務的發(fā)展,服務器數(shù)量越來越多,某農(nóng)商銀 行開始轉(zhuǎn)向使用腳本工具。確實提升了效率和工程質(zhì)量,但這個方式仍然有很 多問題。第一是腳本的非標準化的問題。不同運維人員寫的腳本在所用的編程 語言、編碼風格和健壯性方面存在巨大差異,同時這些腳本的版本管理也是一 個挑戰(zhàn)。第二是腳本的傳承問題,人員的離職和工作交接,都會導致腳本無法 很好地在運維人員之間傳承和再利用。所以對構(gòu)建自動化運維體系的要求變得 越來越迫切。通過自動化運維體系來實現(xiàn)標準化和提高工程效率,是唯一正確 的選擇。某農(nóng)商銀行根據(jù)目前IT運維管理的主要工作內(nèi)容,將自動化運維管 理分成兩部分,一是日常維護任務的自動化
18、管理,二是數(shù)據(jù)備份恢復的自動化 管理。日常運維任務的自動化管理某農(nóng)商銀行選用Ansible自動化運維工具來實 現(xiàn),并配合 Ansible tower圖形管理工具進行可視化管理。Ansible基于 Python開發(fā),集合了眾多運維工具(Puppet、Chef> Func> Fabric)的優(yōu)點, 實現(xiàn)了批量系統(tǒng)配置、批量程序部署、批量運行命令等功能。Ansible不需要 在遠程主機上安裝Client/Agents,因為它們是基于SSH來和遠程主機通訊的, 所以它不會對生產(chǎn)系統(tǒng)帶來任何安全和性能方面的影響,符合金融行業(yè)對系統(tǒng) 安全穩(wěn)定性的高要求。目前某農(nóng)商銀行已經(jīng)實現(xiàn)按照應用系統(tǒng)劃分的
19、自動化管理群組,根據(jù)不同 應用系統(tǒng)的運維管理任務進行了自動化腳本編排,完成了從整體任務(自動化 巡檢、補丁更新、策略下發(fā))到局部任務(應用系統(tǒng)定制腳本運行、批量檢測) 等多維度的自動化運維管理策略,大大提高了運維管理效率。在自動化備份管理方面,某農(nóng)商銀行已經(jīng)建立完成集中備份管理平臺,通 過集中備份管理軟件實現(xiàn)數(shù)據(jù)庫、應用程序、文件及操作系統(tǒng)的自動備份。同 時,某農(nóng)商銀行通過腳本編排實現(xiàn)了自動化的數(shù)據(jù)庫恢復演練場景,定期對數(shù) 據(jù)庫備份文件進行恢復測試,驗證備份的有效性。5. 階段四:數(shù)字化運維建設數(shù)字化運維的目標是建立一個基于主流大數(shù)據(jù)架構(gòu)的業(yè)務系統(tǒng)大數(shù)據(jù)分 析平臺。平臺具備開放的采集和數(shù)據(jù)管理能力,將數(shù)據(jù)統(tǒng)一整合,支持數(shù)據(jù)的 靈活展現(xiàn)和統(tǒng)計;同時,利用機器學習算法,依據(jù)大數(shù)據(jù)分析模型,實現(xiàn)業(yè)務 系統(tǒng)告警的預測、安全事件分析、交易量預測分析等場景?;诰派态F(xiàn)有環(huán)境,可從集中監(jiān)控平臺、BPC平
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 建筑圍墻地基施工方案
- 戶外步道綠化施工方案
- 二零二五年度文化創(chuàng)意產(chǎn)業(yè)方借款協(xié)議
- 二零二五年度拖欠工資解除勞動合同實務案例范文
- 二零二五年度環(huán)保產(chǎn)業(yè)合作項目終止協(xié)議范本
- 非全日制合同制員工2025年度工作績效評估及獎勵合同
- 二零二五年度辣椒種植基地節(jié)水灌溉技術(shù)合同
- 二零二五年度工業(yè)氣體產(chǎn)業(yè)園區(qū)共建合作協(xié)議
- 二零二五年度醫(yī)院聘用護士勞動合同(護理心理健康)
- 幼兒園保育員聘用合同書(二零二五年度)-幼兒成長記錄合作
- 肇慶市勞動合同
- 云南省地質(zhì)災害群測群防手冊
- 電力施工安全技術(shù)交底記錄表
- (民法典版)離婚登記申請受理回執(zhí)單
- 集團權(quán)屬公司管理制度
- 普通中專畢業(yè)生登記表格模板(共4頁)
- 五金沖壓件作業(yè)指導書
- 電子病歷及病歷信息標準化(第五講)
- 鐵路建設項目工程試驗室管理標準TB104422009
- 汽車吊車吊裝施工方案
- 倉內(nèi)運營方案
評論
0/150
提交評論