銀行業(yè)務系統(tǒng)端到端監(jiān)控一體化解決方案_第1頁
銀行業(yè)務系統(tǒng)端到端監(jiān)控一體化解決方案_第2頁
銀行業(yè)務系統(tǒng)端到端監(jiān)控一體化解決方案_第3頁
銀行業(yè)務系統(tǒng)端到端監(jiān)控一體化解決方案_第4頁
銀行業(yè)務系統(tǒng)端到端監(jiān)控一體化解決方案_第5頁
已閱讀5頁,還剩4頁未讀 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權,請進行舉報或認領

文檔簡介

1、 銀行業(yè)務系統(tǒng)端到端監(jiān)控一體化解決方案 | 周末送資料 1、方案背景隨著業(yè)務的快速發(fā)展,網(wǎng)絡、應用系統(tǒng)自身的復雜度日益增高,同時數(shù)據(jù)中心與分支機構,以及人行、農(nóng)信銀等外部機構的流量及業(yè)務交互量均日益增長,銀行業(yè)務互聯(lián)網(wǎng)化,產(chǎn)生了大量新興的互聯(lián)網(wǎng)類的業(yè)務系統(tǒng),給系統(tǒng)、網(wǎng)絡和應用各條線的運維帶來了巨大壓力。然而當前行內(nèi)運維監(jiān)控系統(tǒng)的建設僅完成了基礎監(jiān)控與管理階段,大多數(shù)監(jiān)控數(shù)據(jù)采用AGENT、SNMP與系統(tǒng)日志等采樣方式獲取,數(shù)據(jù)實時性、精度較低且無法站在全行業(yè)務系統(tǒng)的統(tǒng)一管理視角進行監(jiān)控。一旦業(yè)務系統(tǒng)運行出現(xiàn)問題,各組件的網(wǎng)絡、系統(tǒng)及業(yè)務交易指標相互孤立,難以及時找出問題環(huán)節(jié)。在發(fā)生業(yè)務故障時,

2、時間往往被耗費在低效的排查工作中,其中的主要問題在于:一旦發(fā)生問題,多科室同時開始根據(jù)各自經(jīng)驗診斷;缺乏統(tǒng)一視角的證據(jù)支持,沒有入手點;若無法達成共識,則需要進一步線索進行反復排查。因此,為實現(xiàn)網(wǎng)絡質(zhì)量監(jiān)控、業(yè)務性能監(jiān)控,提高故障定位效率,保障銀行系統(tǒng)業(yè)務連續(xù)性,急需引入先進、有效的網(wǎng)絡及業(yè)務性能管理產(chǎn)品,以及基于Hadoop的運維大數(shù)據(jù)平臺,對所涉及的運維數(shù)據(jù)進行深入挖掘與處理,智能統(tǒng)計分析與預測,以此幫助提高運維人員日常運維工作及故障響應的效率,實現(xiàn)業(yè)務系統(tǒng)端到端全鏈路的實時監(jiān)控,在維護生產(chǎn)系統(tǒng)穩(wěn)定、安全、高效運行的同時,發(fā)揮IT數(shù)據(jù)價值,幫助業(yè)務發(fā)展。2、方案簡介2.1 業(yè)務性能監(jiān)控(B

3、PC)解決方案BPC解決方案基于先進的協(xié)議解碼技術,充分利用可靠的網(wǎng)絡數(shù)據(jù)資源,幫助信息科技部門建立業(yè)務性能管理平臺。以業(yè)務服務為中心,圍繞服務路徑圖,提供交易量、成功率、響應時間、響應率、返回碼五大關鍵指標,并區(qū)分交易類型、交易渠道、或自定義的統(tǒng)計維度,展現(xiàn)業(yè)務服務組件的運行狀態(tài)。實現(xiàn)了應用可用性、性能、負載量的全面可視化。同時能直接查詢?nèi)康慕灰酌骷殘笪模瑢崿F(xiàn)單筆交易級別的監(jiān)控與管理。BPC系統(tǒng)實時產(chǎn)生的全量、實時、可信的業(yè)務交易性能數(shù)據(jù),可幫助運維科室實時監(jiān)控各個系統(tǒng)節(jié)點的性能狀態(tài),快速定位故障點,快速恢復;全量實時的業(yè)務數(shù)據(jù),能實時的對業(yè)務狀況進行分析,幫助銀行業(yè)務的發(fā)展。BPC業(yè)務性

4、能監(jiān)控系統(tǒng)整體架構由數(shù)據(jù)采集層和數(shù)據(jù)處理層二個層次構成,如下圖所示,其原理是由BPC系統(tǒng)服務器網(wǎng)卡直接抓包,實時輸出數(shù)據(jù);解碼引擎對業(yè)務數(shù)據(jù)包進行實時解碼,并且解碼引擎可靈活配置;可以自動發(fā)現(xiàn)節(jié)點之間的連接關系,為業(yè)務路徑配置提供信息;最后由上層交易監(jiān)控系統(tǒng)服務和呈現(xiàn)層進行交易性能指標監(jiān)控、統(tǒng)計輸出、追蹤和告警。其產(chǎn)生有價值的實時業(yè)務數(shù)據(jù)和運維數(shù)據(jù)均可通過RestfulAPI與其他系統(tǒng)或平臺進一步對接,直接產(chǎn)生業(yè)務和管控效益,如風控、用戶行為及畫像、精準營銷等。2.2 網(wǎng)絡性能管理(NPM)解決方案NPM解決方案充分利用網(wǎng)絡數(shù)據(jù)包建立覆蓋重要鏈路、關鍵設備端口、核心服務的全面監(jiān)控視圖,并且按照

5、網(wǎng)絡科室的工作流程組織功能與操作,使其能夠廣泛適用于各種需要場景。以服務為導向的網(wǎng)絡性能管理方法使NPM 能夠直接體現(xiàn)網(wǎng)絡基礎架構對業(yè)務應用的支撐能力,為評估、判定網(wǎng)絡服務質(zhì)量提供可以信賴的數(shù)據(jù)依據(jù)。依托真實的網(wǎng)絡流量,快速發(fā)現(xiàn)、定義應用,梳理服務路徑,并提供數(shù)據(jù)正確性、變更結果驗證能力,大大提升網(wǎng)絡流量的可視化覆蓋率和工作效率。運用先進的數(shù)據(jù)統(tǒng)計分析技術,發(fā)現(xiàn)、告警模擬等功能極大簡化了過去繁冗復雜的操作過程。圍繞業(yè)務的網(wǎng)絡性能監(jiān)控視角,為業(yè)務交易故障的排查,提供了更直觀和統(tǒng)一的監(jiān)控界面,幫助網(wǎng)絡質(zhì)量問題的快速發(fā)現(xiàn)、快速定位。NPM網(wǎng)絡性能監(jiān)控的原理是:從重要線路、設備端口或各業(yè)務系統(tǒng)群鏡像或

6、分光出來的流量經(jīng)過TAP Switch后,可完成匯聚、過濾及等功能,經(jīng)過TAP Switch處理后的流量再進入Smart Probe采集探針,Smart Probe對流量進行存儲和處理,并將處理后的數(shù)據(jù)發(fā)送給NPM Server進行應用梳理、實時監(jiān)控、故障診斷及報表等功能。由于本行為雙數(shù)據(jù)中心運營模式,因此需要考慮NPM的跨中心的擴容,其方法如下:比如以數(shù)據(jù)中心A為主中心,增加數(shù)據(jù)中心B為從中心的監(jiān)控。A中心的拓撲和配置均不變,在B中心部署本地Smart Probe和NPM從服務器,將B中心的流量鏡像到本地Smart Probe,所有網(wǎng)絡數(shù)據(jù)分析在本地NPM從服務器上進行處理并發(fā)送統(tǒng)計結果給A

7、中心的NPM主服務器進行呈現(xiàn)。A、B中心各自獨立處理數(shù)據(jù),互不干擾。2.3 運維大數(shù)據(jù)平臺解決方案本次運維大數(shù)據(jù)平臺的建設,是建立在已完成的生產(chǎn)環(huán)境集中監(jiān)控系統(tǒng)項目建設的基礎上(基礎監(jiān)控及集中事件平臺),在大數(shù)據(jù)分析和智能運維技術日益成熟的背景下,繼續(xù)推進監(jiān)控平臺建設和迭代升級,既能服務于新一代數(shù)據(jù)中心建設,也能更好地推動IT運維管理服務能力不斷提升。其總體目標是建立基于運維大數(shù)據(jù)平臺的實時、歷史性能分析和日志統(tǒng)一查詢、分析平臺,并開展智能運維的建設。通過建立運維大數(shù)據(jù)平臺,來整合所有的基礎性能數(shù)據(jù)、網(wǎng)絡性能數(shù)據(jù)、業(yè)務性能數(shù)據(jù)等結構化指標型數(shù)據(jù),以及事件告警數(shù)據(jù)、應用日志數(shù)據(jù)、系統(tǒng)日志數(shù)據(jù)、網(wǎng)

8、絡報文數(shù)據(jù)等非結構化日志型數(shù)據(jù)等。指標性數(shù)據(jù)通過對接大數(shù)據(jù)的Kalfka消息集群,進入Spark/Storm進行實時流數(shù)據(jù)分析,例如基線分析、單/多指標性能預測、容量預測和策略決策等;日志型數(shù)據(jù)進入ES集群,進行結構化處理、統(tǒng)計分析、單日志/多日志字段分析與關聯(lián)等等;指標性和日志型的歷史數(shù)據(jù)統(tǒng)一存入HDFS中,進一步供大數(shù)據(jù)挖掘,產(chǎn)出例如告警事件與指標性數(shù)據(jù)的關聯(lián),進行智能分析,得出可能的原因,定位告警源;應用/系統(tǒng)日志上下文歷史挖掘分析;告警事件的周期型規(guī)律分析;告警成對成組出現(xiàn)分析;告警相關與因果分析;告警事件與變更流程的關聯(lián)分析等等。運維大數(shù)據(jù)不僅僅是簡單的數(shù)據(jù)集中化和展示,更深層次的目

9、標是數(shù)據(jù)挖掘和分析,以此來推進運維工作的自動化和智能化,甚至將運維數(shù)據(jù)業(yè)務化,推進業(yè)務創(chuàng)新,提高用戶體驗。整個運維大數(shù)據(jù)平臺分為源系統(tǒng)、數(shù)據(jù)加載、計算引擎和應用功能四層架構,如下圖所示:3、一體化監(jiān)控方案架構設計本方案的主要目的在于建立基于業(yè)務系統(tǒng)角度的端到端一體化監(jiān)控系統(tǒng),方案主要涉及業(yè)務性能管理和網(wǎng)絡性能管理、運維大數(shù)據(jù)平臺,以及和原有基礎性能監(jiān)控、集中事件平臺的緊密結合與聯(lián)動。整體方案架構包含物理部署拓撲和功能邏輯架構圖。3.1 物理部署架構設計下面為業(yè)務性能及網(wǎng)絡性能監(jiān)控的物理部署架構圖,分網(wǎng)絡接入層和匯聚層兩個層次對網(wǎng)絡流量報文進行捕獲和深入分析。部署架構設計說明:(1)通過4臺TA

10、P設備獲取 A 和 B 兩個數(shù)據(jù)中心、五個機房相關應用服務器接入交換機的鏡像流量,并進行規(guī)則過濾;(2)通過1臺高性能匯聚TAP來獲取A數(shù)據(jù)中心二層匯聚交換機和核心交換機的鏡像流量,并進行規(guī)則過濾;(3)A主數(shù)據(jù)中心各機房接入層TAP設備的流量共享給匯聚TAP設備;(4)BPC系統(tǒng)的5臺BPC服務器在兩個數(shù)據(jù)中心的每個機房進行分布式部署、解碼和分析,并集中展示;(5)NPM系統(tǒng)在A數(shù)據(jù)中心部署一臺管理端服務器,并在每個數(shù)據(jù)中心各部署一臺NPM探針服務器,通過分布式部署、捕獲數(shù)據(jù),集中監(jiān)控展示的方式,監(jiān)控兩個數(shù)據(jù)中心的各業(yè)務系統(tǒng)的網(wǎng)絡性能;(6)通過雙數(shù)據(jù)中心、多機房分布式部署的方式,端到端的監(jiān)

11、控業(yè)務在各個環(huán)節(jié)的流轉(zhuǎn)情況,實時監(jiān)控,快速定位。下面為運維大數(shù)據(jù)平臺的物理部署拓撲圖,分為三個集群,Hadoop集群、ES日志集群和Kalfka消息集群。物理部署架構設計說明:(1)配置多臺服務器做Hadoop集群,滿足不同應用和系統(tǒng)日志的單系統(tǒng)與跨系統(tǒng)交易日志統(tǒng)計與分析,滿足數(shù)千個基礎監(jiān)控分區(qū)的基礎性能分析與運行性能指標預測等,以及指性能標入庫與歷史日志數(shù)據(jù)入庫的存儲需要。(2)配置多臺服務器做ES集群,承載實時統(tǒng)一日志查詢與分析平臺的任務,滿足數(shù)天至一個月不同需求的日志查詢和分析需求,歷史日志查詢需要從HDFS中將數(shù)據(jù)導入至ES中,進行二次查詢。(3)配置多臺服務器做Kafka集群用于實時

12、的指標型與日志型數(shù)據(jù)流的采集,滿足實時監(jiān)控的需求。3.2 功能邏輯架構設計下面為業(yè)務及網(wǎng)絡性能管理、運維大數(shù)據(jù)平臺及與現(xiàn)有的基礎監(jiān)控和集中事件平臺聯(lián)動的整體功能邏輯架構圖:功能邏輯架構設計說明:(1)網(wǎng)絡流量報文通過TAP設備發(fā)送至NPM服務器和BPC服務器的采集口;NPM系統(tǒng)和BPC系統(tǒng)實時解碼模塊,對網(wǎng)絡原始比特流進行解析,輸出網(wǎng)絡層指標和業(yè)務應用層指標;業(yè)務層和網(wǎng)絡層數(shù)據(jù)分析模塊實時分析性能指標:交易量、業(yè)務成功率、系統(tǒng)響應率、響應時間、交易渠道、交易類型、金額、TCP連接狀態(tài)、丟包狀態(tài)、網(wǎng)絡時延等等指標;(2)NPM和BPC前臺展示模塊從運維角度,可以實時的展示每一個節(jié)點的業(yè)務層和網(wǎng)絡

13、層指標情況,并配置實時告警,做到快速發(fā)現(xiàn)、快速定位、快速恢復;NPM和BPC前臺展示模塊從業(yè)務運營角度,可以對全行交易情況進行實時大屏展示,對業(yè)務交易渠道、交易機構、交易金額、交易量、自定義的統(tǒng)計維度等進行實時分類統(tǒng)計分析;(3)BPC可以在選定的條件中搜索符合條件的交易條目,并通過列表進行展示。在搜索條件欄中,運維人員不僅可以根據(jù)交易類型、服務器IP、交易結果、返回碼等條件進行過濾搜索,還可以以后臺配置輸出的其他業(yè)務字段作為條件(如卡號、流水號等),進行更精確的交易條目搜索,同時,支持對特定敏感字段進行屏蔽或加擾。利用交易追蹤,BPC能夠?qū)σ还P交易經(jīng)過路徑中的每個節(jié)點進行關聯(lián)展示,并能夠同時

14、輸出指定時間段內(nèi)所有交易的關聯(lián)結果,解析每一筆交易在多個業(yè)務節(jié)點中的流轉(zhuǎn)、處理結果、延遲;利用NPM的故障定位,運維人員即可通過實時的告警信息,使用 NPM的鉆取功能迅速定位、分析故障發(fā)生的根本原因,同時,可以在任意位置導出指定的原始數(shù)據(jù)報文,供更深層次的分析或取證使用。(4)業(yè)務性能監(jiān)控和網(wǎng)絡性能監(jiān)控系統(tǒng)對外的接口包括數(shù)據(jù)輸出接口、交易明細輸出、告警接口:數(shù)據(jù)輸出接口可將業(yè)務監(jiān)控系統(tǒng)統(tǒng)計的交易性能數(shù)據(jù)和交易明細數(shù)據(jù)按JSON、CSV、xml等方式實時輸出,提供給第三方系統(tǒng)?;蛘叩谌较到y(tǒng)可以通過RestfulAPI的方式來查詢所產(chǎn)生的統(tǒng)計數(shù)據(jù)、告警數(shù)據(jù)、明細報文數(shù)據(jù)等。告警信息可通過sysl

15、og、socket等方式發(fā)送到第三方事件管理平臺進行集成,統(tǒng)一進行匯總處理。本次實時解析的各系統(tǒng)性能數(shù)據(jù),業(yè)務交易字段等實時推送給運維大數(shù)據(jù)平臺,為實時運維大數(shù)據(jù)分析提供真實可信的數(shù)據(jù)源;業(yè)務交易及網(wǎng)絡性能監(jiān)控產(chǎn)生的告警事件,實時推送到現(xiàn)有集中事件平臺;運維大數(shù)據(jù)平臺產(chǎn)生的告警事件,實時推送到現(xiàn)有集中事件平臺;(5)在集中了性能、配置、日志、事件等運維數(shù)據(jù)的基礎上,以運維大數(shù)據(jù)平臺為核心,開展智能運維在監(jiān)控方面的建設,如單、多指標預測和分析、建議,告警事件自動關聯(lián)知識庫,指導運維人員快速解決問題,結合多類監(jiān)控數(shù)據(jù),進行可能的根因分析,輔助運維人員快速定位故障源,并在告警日志上下文歷史挖掘分析、

16、同類告警周期性規(guī)律分析、告警成對成組出現(xiàn)分析、告警相關與因果分析等等方面,進行智能分析,推進運維工作自動化和智能化;(6)運維大數(shù)據(jù)平臺根據(jù)運維數(shù)據(jù)的實時性,分類獲取不同運維數(shù)據(jù)源數(shù)據(jù),實時型數(shù)據(jù)通過Flume采集至Kafka集群等待消費,例如性能型數(shù)據(jù)和日志型數(shù)據(jù),非實時性數(shù)據(jù)直接落地至Hadoop集群,例如經(jīng)BPC和NPM處理后的網(wǎng)絡報文數(shù)據(jù)和T+1表數(shù)據(jù)。集中監(jiān)控平臺的告警事件為實時型數(shù)據(jù),以該數(shù)據(jù)和時間戳為基準,自動關聯(lián)前幾個小時的各類運維數(shù)據(jù)、基線數(shù)據(jù)和預測數(shù)據(jù),可根據(jù)故障發(fā)生時間點,復原一段時間內(nèi)的系統(tǒng)告警事件、性能、日志、網(wǎng)絡報文等信息,輔助故障分析和快速解決。通過統(tǒng)一的運維大數(shù)據(jù)故障分析界面,還可以進一步鏈接至BPC和NPM的頁面,利用BPC和NPM的單筆業(yè)務精確定位和交易跟蹤功能,更精準的定位故障根源;(7)在各數(shù)據(jù)源數(shù)據(jù)統(tǒng)一接入運維大數(shù)據(jù)平臺后,特別是利

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論