利用大數(shù)據(jù)分析重新定義企業(yè)服務(wù)質(zhì)量頁(yè)_第1頁(yè)
利用大數(shù)據(jù)分析重新定義企業(yè)服務(wù)質(zhì)量頁(yè)_第2頁(yè)
利用大數(shù)據(jù)分析重新定義企業(yè)服務(wù)質(zhì)量頁(yè)_第3頁(yè)
利用大數(shù)據(jù)分析重新定義企業(yè)服務(wù)質(zhì)量頁(yè)_第4頁(yè)
利用大數(shù)據(jù)分析重新定義企業(yè)服務(wù)質(zhì)量頁(yè)_第5頁(yè)
已閱讀5頁(yè),還剩40頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

利用大數(shù)據(jù)分析重新定義企業(yè)服務(wù)質(zhì)量楊振宇yangzy@軟件部技術(shù)顧問(wèn)我們的數(shù)據(jù)從哪里來(lái)?我們要處理什么樣的數(shù)據(jù)?我們要如何處理這些數(shù)據(jù)?基于大數(shù)據(jù)的企業(yè)服務(wù)管理之道案例分享議程:?jiǎn)栴}:除了他,任何人都必須用數(shù)據(jù)來(lái)說(shuō)話!我們的數(shù)據(jù)從哪里來(lái)?End-userexperiencemonitoring—捕捉應(yīng)用或服務(wù)的終端用戶體驗(yàn)Runtimeapplicationarchitecturemodeling—發(fā)現(xiàn)應(yīng)用所依賴(lài)的軟硬件基礎(chǔ)設(shè)施,以及它們之間在運(yùn)行時(shí)的通信關(guān)系。User-definedtransactionflowmonitoring—對(duì)指定交易,在執(zhí)行的過(guò)程中,穿越的各邏輯節(jié)點(diǎn),所占用的資源和響應(yīng)時(shí)間能夠跟蹤Applicationcomponentdeepdive—單一領(lǐng)域,基于應(yīng)用環(huán)境上下文的的深入分析,和問(wèn)題診斷ITOperationAnalytics(ITOA)

—將數(shù)據(jù)整合、格式化、分類(lèi)后,通過(guò)關(guān)聯(lián)和智能分析來(lái)提供更準(zhǔn)確的業(yè)務(wù)管理能力摘自: GARTNER

G00263442(28May2014)數(shù)據(jù)的來(lái)源:企業(yè)業(yè)務(wù)管理的五個(gè)維度6…需要分析很多數(shù)據(jù)并結(jié)合業(yè)務(wù)拓?fù)?,才能識(shí)別問(wèn)題很少有公司是真正以預(yù)防為主的大多數(shù)企業(yè)只是在業(yè)務(wù)中斷時(shí)被動(dòng)應(yīng)對(duì)企業(yè)的信息孤島,分離的工具,以及數(shù)據(jù)的復(fù)雜性及如此浩瀚,加大了診斷故障的難度系統(tǒng)宕機(jī)與變壞將造成數(shù)以百萬(wàn)計(jì)美元的損失,傷害品牌、客戶印象及忠誠(chéng)度管理層從嚴(yán)要求其團(tuán)隊(duì):事先預(yù)防,而不是事后補(bǔ)救IT環(huán)境爆炸性增長(zhǎng)的數(shù)據(jù)(日志通常包含了最準(zhǔn)確、最真實(shí)的關(guān)鍵信息)擁有5000臺(tái)服務(wù)器的企業(yè)每天產(chǎn)生超過(guò)1.3TB的數(shù)據(jù)宕機(jī)成本超過(guò)以往任何時(shí)候關(guān)鍵性業(yè)務(wù)的宕機(jī)會(huì)給企業(yè)造成每小時(shí)數(shù)以百萬(wàn)計(jì)美元的損失:券商

~$5-7百萬(wàn)/每小時(shí),信用卡機(jī)構(gòu)~$2-3百萬(wàn)/每小時(shí),移動(dòng)業(yè)務(wù)服務(wù)提供商~$66萬(wàn)/每小時(shí),民航代理~$9萬(wàn)/每小時(shí)。相對(duì)于迅猛增長(zhǎng)的要求而言,IT員工的水平則在下滑或沒(méi)有起色預(yù)防性管理的時(shí)代已經(jīng)到來(lái)運(yùn)維團(tuán)隊(duì)做不到預(yù)防性管理的主要障礙如果在宕機(jī)前沒(méi)有"預(yù)先診斷"的話,運(yùn)維團(tuán)隊(duì)則只能被動(dòng)應(yīng)對(duì),眼睜睜看著宕機(jī)惡果蔓延有如燒錢(qián)一般...海量數(shù)據(jù),無(wú)法進(jìn)行人工分析現(xiàn)行分析技術(shù)如標(biāo)準(zhǔn)閾值分析法,無(wú)法實(shí)現(xiàn)預(yù)防目的無(wú)法診斷到正在發(fā)生的問(wèn)題(在造成業(yè)務(wù)損失之前)閾值要么定得太高,在完全宕機(jī)之前沒(méi)有足夠的警告閾值要么定得太低,噪音太多,所有一切都忽略掉了傳統(tǒng)業(yè)務(wù)管理與基于IT運(yùn)維分析(ITOA)進(jìn)行業(yè)務(wù)管理的區(qū)別狀態(tài)考察

客戶業(yè)務(wù)系統(tǒng)的應(yīng)用日志包含準(zhǔn)確、詳細(xì)的交易信息,真實(shí)、全面的體現(xiàn)了用戶業(yè)務(wù)系統(tǒng)的狀態(tài)

望聞問(wèn)切

將非結(jié)構(gòu)化的業(yè)務(wù)系統(tǒng)的應(yīng)用日志,通過(guò)大數(shù)據(jù)技術(shù)進(jìn)行高效收集、格式化、索引、分析,將業(yè)務(wù)系統(tǒng)的應(yīng)用性能狀態(tài)準(zhǔn)確、及時(shí)的體現(xiàn)出來(lái),并結(jié)合認(rèn)知技術(shù)、邏輯算法,實(shí)現(xiàn)故障的提前預(yù)警靜態(tài)研究

需要了解被管理業(yè)務(wù)的邏輯拓?fù)洌I(yè)務(wù)模型

通過(guò)監(jiān)控工具獲得性能數(shù)據(jù),獲得KPI數(shù)據(jù),更有效的性能管理需要結(jié)合動(dòng)態(tài)性能基線來(lái)判斷業(yè)務(wù)偏離

先進(jìn)儀器

借助于各種先進(jìn)的儀器,目的是弄清病因、發(fā)現(xiàn)病灶,找準(zhǔn)病位:資源監(jiān)控、模擬交易、用戶真實(shí)交易體驗(yàn)等管理工具基于ITOA方案?jìng)鹘y(tǒng)方案我們要處理什么樣的數(shù)據(jù)?IT運(yùn)維是一種典型大數(shù)據(jù)挑戰(zhàn)典型的大型企業(yè):5000服務(wù)器

+網(wǎng)絡(luò)

+存儲(chǔ)

+中間件,每天產(chǎn)生大約1.3TB的可用性和性能管理數(shù)據(jù)跨國(guó)公司及服務(wù)提供商則擁有超過(guò)20,000服務(wù)器,…每天產(chǎn)生大約4.5TB數(shù)據(jù)Web及移動(dòng)應(yīng)用所要求的研發(fā)與敏捷開(kāi)發(fā),產(chǎn)生的數(shù)據(jù)量則大到難以統(tǒng)計(jì)

APM文摘2013:

75%的高級(jí)IT總監(jiān)對(duì)傳統(tǒng)的管理方式感到不滿意,30%表示他們無(wú)法預(yù)測(cè)潛在的宕機(jī)威脅智慧的基礎(chǔ)設(shè)施帶來(lái)大數(shù)據(jù)的機(jī)遇

典型的企業(yè)產(chǎn)生數(shù)以萬(wàn)計(jì)的工單和服務(wù)申請(qǐng)

來(lái)管理他們核心的資產(chǎn)

–約每天

1TB非結(jié)構(gòu)化數(shù)據(jù)

智能的網(wǎng)絡(luò)資產(chǎn)自身就會(huì)產(chǎn)生大量數(shù)據(jù):電源,溫度,流量

用戶需要提供對(duì)資產(chǎn)性能,可用性及成本管理的洞察和趨勢(shì)運(yùn)維管理的需求與焦點(diǎn)轉(zhuǎn)向敏捷與簡(jiǎn)潔可用性?性能?容量?使用率?構(gòu)成?運(yùn)維和業(yè)務(wù)線需要洞察

…服務(wù)請(qǐng)求故障通知單社交媒體庫(kù)存與資產(chǎn)用戶文檔與技術(shù)文檔運(yùn)維大數(shù)據(jù)的來(lái)源:包括結(jié)構(gòu)化、非結(jié)構(gòu)化數(shù)據(jù)搜索預(yù)測(cè)優(yōu)化…取得洞察力…基于洞察力…提供洞察力網(wǎng)絡(luò)流量與事務(wù)處理日志文件警告/報(bào)警與事件性能指標(biāo)核心文件與內(nèi)存痕跡配置文件我們要如何處理這些數(shù)據(jù)?應(yīng)用性能管理(APM)事件管理Applications|Systems|Workloads|Wireless|Network|Voice|Security|Mainframe|Storage|Assets業(yè)務(wù)成果能力IBM大數(shù)據(jù)平臺(tái)IBM或者第三方解決方案運(yùn)維環(huán)境系統(tǒng)&日志監(jiān)控OptimizeIT應(yīng)用基礎(chǔ)架構(gòu)優(yōu)化Search在海量的數(shù)據(jù)中進(jìn)行快速搜索快速解決問(wèn)題Predict問(wèn)題發(fā)生之前進(jìn)行預(yù)測(cè)主動(dòng)規(guī)避宕機(jī)性能優(yōu)化RaveSPSSInfoSphereBigInsightsWatsonStreamsCloudInsightsIBMSmartCloudAnalyticsIBM持續(xù)對(duì)分析領(lǐng)域進(jìn)行投資,并在此基礎(chǔ)上構(gòu)建運(yùn)維分析能力使用全自動(dòng)的學(xué)習(xí)算法來(lái)定義什么是“正?!薄?/p>

然后采用對(duì)現(xiàn)有條件的實(shí)時(shí)評(píng)估來(lái)預(yù)測(cè)和盡早發(fā)現(xiàn)異常,避免對(duì)業(yè)務(wù)產(chǎn)生實(shí)際影響。挑戰(zhàn):被動(dòng)的對(duì)性能瓶頸進(jìn)行反應(yīng)是不夠的–為了保證重要的業(yè)務(wù)系統(tǒng)24X7小時(shí)可用,必須在問(wèn)題產(chǎn)生影響之前通過(guò)預(yù)測(cè)來(lái)進(jìn)行規(guī)避預(yù)測(cè)適應(yīng)未來(lái)發(fā)展方案靈捷,支持動(dòng)態(tài)的基礎(chǔ)設(shè)施如云計(jì)算,變化不斷支持異構(gòu)方案靈活,易于支持多平臺(tái)及多廠商的性能管理方案利用現(xiàn)有投資不用推倒重來(lái)或替換,利用好現(xiàn)有性能管理方案預(yù)測(cè)性解決方案的理想特征SmartCloudAnalytics–PredictiveInsights提供預(yù)測(cè)分析和自學(xué)習(xí)為檢測(cè)和避免服務(wù)中斷,進(jìn)行實(shí)時(shí)的分析采用先進(jìn)的沃森多變量和單變量分析算法.關(guān)聯(lián)跨多個(gè)域和異構(gòu)數(shù)據(jù)源的指標(biāo)PredictiveInsights觀察行為單個(gè)KPI

分析對(duì)每個(gè)KPI學(xué)習(xí)其歷史的行為當(dāng)KPI偏離其歷史的行為時(shí),認(rèn)為是異常多KPI分析識(shí)別KPI之間的關(guān)系,并按照統(tǒng)計(jì)分析所了解的模式進(jìn)行分組

了解正常的行為模式,并在識(shí)別到行為模式與正常的行為相異時(shí),發(fā)送警告PredictiveInsights觀察因果關(guān)系使用統(tǒng)計(jì)的方法最可能確定哪些KPI有因果關(guān)系識(shí)別大量的數(shù)據(jù)中,KPI之間的因果關(guān)系,并使用他們建立預(yù)測(cè)模型,并使用這些模型來(lái)持續(xù)的探測(cè),預(yù)測(cè)和進(jìn)行異常分析基于

GrangerCausalityTest(格蘭杰因果關(guān)系檢驗(yàn))的方法進(jìn)行實(shí)現(xiàn)由諾貝爾獎(jiǎng)獲得者,經(jīng)濟(jì)學(xué)家CliveGranger提出使用統(tǒng)計(jì)的測(cè)試來(lái)確定因果關(guān)系

對(duì)大量的時(shí)間序列的數(shù)據(jù)進(jìn)行分析,發(fā)現(xiàn)存在于這些數(shù)據(jù)中的因果關(guān)系觀察KPI數(shù)據(jù)的模式PredictiveInsights可以識(shí)別時(shí)間序列數(shù)據(jù)的模式使用算法來(lái)確定數(shù)據(jù)是否是季節(jié)性的PredictiveInsights觀察數(shù)據(jù)每周的模式Webservers在周一和周五會(huì)比較繁忙對(duì)每個(gè)KPI進(jìn)行自動(dòng)的分析KPI可以在季節(jié)性和非季節(jié)性中切換異常顯示(單個(gè)KPI)與異常行為相關(guān)的指標(biāo)會(huì)被繪制成圖形綠色的區(qū)域是正常的行為基線異常的區(qū)域以紅色文字描述異常的行為異常顯示(多個(gè)KPI關(guān)系)自動(dòng)繪制所有的關(guān)聯(lián)指標(biāo)數(shù)據(jù)異常領(lǐng)域紅色顯示文字描述異常的行為針對(duì)大量的時(shí)間序列數(shù)據(jù),找出其中關(guān)鍵的因果關(guān)系并為時(shí)間序列數(shù)據(jù)建立預(yù)測(cè)模型利用該模型進(jìn)行異常診斷和預(yù)測(cè)Application#2availabilityServer3NoofProcessorsServer#1AlertsServer#2MemoryFreeServer#1OutPacketsApplication#1availabilityTradevolume時(shí)間序列數(shù)據(jù)Granger因果邏輯算法

因果/統(tǒng)計(jì)模型多KPI分析(Granger因果邏輯算法)對(duì)于KPI異常偏離的檢測(cè)NetworkPerformanceServerMonitoringMiddlewareMonitoringApplicationMonitoringCustomerExperienceStorageMonitoringPacketsReceivedErrors>20PingResponseTime>100msCountdowntoServiceImpactSwap_Space_UsedMainframeMonitoringGC_Rate>20MB/sTransactionResponseTime>5secsCPUUsed>90%JVMMemoryUsed>10TotalTransactionLocksTotalCriticalAlertsFailed_RequestsAvgMQRespTimeAverageTransmitKB/SecCPU_usedContext_Switches/SecSwap_Space_UsedPage_Faults_per_secJVM_Memory_UsedMethod_Average_Response_TimeGC_RatePingresponsetimePacketsReceivedErrors%_Total_Privileged_Time%_Total_Processor_Time%_Total_User_TimeContext_Switches/SecFile_Control_Operations/SecFile_Data_Operations/SecFile_Read_Operations/SecFile_Write_Operations/SecProcessor_Queue_LengthSystem_Calls/SecProcessor_Queue_Length_ExcessFile_Control_Bytes/Sec_64File_Read_Bytes/Sec_64File_Write_Bytes/Sec_64Total_Wait_TimeConnection_RateQuery_RateAverage_Query_Processing_TimeAverage_Processing_TimePercent_FailedPercent_Slow,Percent_GoodPercent_AvailableAverage_Response_TimeFailed_RequestsTotal_RequestsSlow_RequestsGood_Requests需要花費(fèi)很多時(shí)間來(lái)響應(yīng)故障縮短MTTR提升運(yùn)營(yíng)效率如果沒(méi)有針對(duì)故障的“提前感知”能力,運(yùn)維團(tuán)隊(duì)只能被動(dòng)響應(yīng)故障,令企業(yè)遭受業(yè)務(wù)上的損失…基于認(rèn)知技術(shù)對(duì)于關(guān)鍵業(yè)務(wù)系統(tǒng)異常進(jìn)行預(yù)警的典型業(yè)務(wù)場(chǎng)景TX00101.RespTimeTX00108.TxCountTX00345.RespTimeTX00086.RespTimeTX00221.RespTimeTX00004.RespTimeTX00189.TxCountTX00143.FailRateTX00101.CountTX00004.TxCountTX00350.TxCountTX00078.RespTimeBusyRatioTX00200.FailRateen01.InByteen01.OutBytehdisk001.readhdisk002.writehdisk001.writedb-A.db2lockCountdb-A.bufferpoolHitRatiodb-A.sortOverflowsub-X.RespTimesub-R.RespTimesub-R.TxCountsub-X.TxCounthdisk003.readhdisk004.writeTX00189.RespTimeen03.InByteNode-X.cpuNode-X.memoryTX00004.RespTimesub-X.RespTimeBusyRatio如何確定KPI之間的關(guān)系,找到問(wèn)題根源舉例:指標(biāo)關(guān)系異常(多變量)提前預(yù)警-學(xué)習(xí)指標(biāo)之間的關(guān)系,基于動(dòng)態(tài)閾值和模型實(shí)現(xiàn)異常告警大量數(shù)據(jù)的高級(jí)搜索和文本分析索引、搜索和分析應(yīng)用系統(tǒng)、中間件和基礎(chǔ)設(shè)施的運(yùn)維數(shù)據(jù)在大量日志記錄中進(jìn)行快速搜索和可視化應(yīng)用錯(cuò)誤日志和文檔之間交叉索引搜索預(yù)置豐富的知識(shí)庫(kù)要點(diǎn)高級(jí)搜索和文本分析采用SOLR處理引擎使用預(yù)定義模式和發(fā)現(xiàn)模式搜索日志來(lái)快速定位問(wèn)題在大量日志記錄中快速搜索和可視化應(yīng)用錯(cuò)誤快速下載、安裝和配置加速問(wèn)題隔離,定位和修復(fù)日志分析及時(shí)預(yù)警(少于10秒latency)日志分析及預(yù)警搜索基于大數(shù)據(jù)技術(shù)實(shí)現(xiàn)運(yùn)維數(shù)據(jù)分析的典型業(yè)務(wù)場(chǎng)景基于大數(shù)據(jù)的企業(yè)服務(wù)管理之道SCA(LA)大數(shù)據(jù)存儲(chǔ)、查詢(xún)平臺(tái)SCA(PI)實(shí)時(shí)數(shù)據(jù)處理引擎日志文件WebServiceSocketData集中事件平臺(tái)HADOOPHDFSTEXTAnalyticsKPI指標(biāo)結(jié)構(gòu)化數(shù)據(jù)IBM完整解決方案告警預(yù)測(cè)告警預(yù)測(cè)自學(xué)習(xí)認(rèn)知技術(shù)WATSON算法預(yù)測(cè)偏離SCM(基礎(chǔ)架構(gòu)優(yōu)化)主動(dòng)避免業(yè)務(wù)故障Predic

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論