OnceDI中監(jiān)視系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)_第1頁
OnceDI中監(jiān)視系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)_第2頁
OnceDI中監(jiān)視系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)_第3頁
OnceDI中監(jiān)視系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)_第4頁
OnceDI中監(jiān)視系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)_第5頁
已閱讀5頁,還剩16頁未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

1、OnceDI中監(jiān)視系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)報(bào)告人:吳輝導(dǎo)師:葉丹 高級工程師2011-1-1815 / 21文檔可自由編輯打印n選題依據(jù)及意義n國內(nèi)外研究現(xiàn)狀n研究內(nèi)容與研究方案n工作進(jìn)展與工作計(jì)劃n數(shù)據(jù)集成q數(shù)據(jù)集成是將不同來源與格式的數(shù)據(jù)邏輯上或物理上進(jìn)行集 成的過程1。n ETL (Extract, Transform, Load)qETL完成跨數(shù)據(jù)源的數(shù)據(jù)抽取,并將數(shù)據(jù)經(jīng)過一定的轉(zhuǎn)換, 最終加載到目的端數(shù)據(jù)源,是數(shù)據(jù)集成系統(tǒng)的重要組成部分。抽取轉(zhuǎn)換加載1Wikipedian數(shù)據(jù)集成中間件OnceDIControl CenterExtractDBDI ServerInternetDI Serve

2、rLoad保證正確性和完整性XML網(wǎng)絡(luò)情況復(fù)雜分布式體系結(jié)構(gòu)從全局了解系統(tǒng)情況分布式ETL過程了解整個ETL過程的調(diào)度 執(zhí)行情況和數(shù)據(jù)遷移情況關(guān)心歷史數(shù)據(jù)統(tǒng)計(jì)分析 評估系統(tǒng)性能、輔助決策n ETL Monitoring2qETL過程相關(guān)指標(biāo)執(zhí)行狀態(tài)、執(zhí)行時間、抽取速率、加載速率、吞吐率等“You will want to monitor job status for all job runs initiated by the job scheduler including pending, running, completed, and suspended jobs”q系統(tǒng)基礎(chǔ)設(shè)施性能指標(biāo)CP

3、U使用、內(nèi)存使用、磁盤讀寫速率、網(wǎng)絡(luò)傳輸速率等q數(shù)據(jù)統(tǒng)計(jì)“Users often want to know exactly when a table has been loaded or if any rows were rejected”“capturing the historical data to support trending performance over time. “Be sure to trigger alerts whenever an ETL job takes significantly more or less time to complete than indi

4、cated by the historical record.”2Ralph Kimball, Joe Caserta. The Data Warehouse ETL Toolkit, Practical Techniques for Extracting, Cleaning, Conforming, and Delivering Data.Wiley, 2004n主流ETL工具的監(jiān)控功能q ETL中間件Informatica PowerCenter, Talend, IBM DataStageq數(shù)據(jù)庫附帶ETL工具M(jìn)icrosoft SQL Server Integration Servic

5、e, Oracle Data Integratorq不足:統(tǒng)計(jì)分析功能簡單,大多沒有提供監(jiān)視ETL過程 執(zhí)行進(jìn)度的功能。n其它q 低干擾(Low intrusion) q 可配置監(jiān)視信息流 OnceDI控制流 OnceDI數(shù)據(jù)流監(jiān)視系統(tǒng)的體系結(jié)構(gòu)StudioMonitor ClientMonitor CenterDI ServerMAgentDI ServerControl CenterMAgentRelational DBMAgentXMLMonitor ClientPresentation監(jiān)視系統(tǒng)的體系結(jié)構(gòu)Client.cfgConfigurationData InterfaceData

6、ManagerSessionClient InterfaceMonitor CenterMCenter.cfgData CashCentral ManageraccessDataMAgentAlarmAnalyzerMAgent.cfgHeart Beat CollectorData ProcessorMergerFilterModel HandlerManagerSessionPushPullModel Handler Agent RegisterSessionPreprocessorDispatcher1.監(jiān)視信息的收集和傳輸2.監(jiān)視信息的組織和存儲3.監(jiān)視信息的統(tǒng)計(jì)、分析和展示1.監(jiān)視信

7、息的收集和傳輸目的:通過收集各種監(jiān)視指標(biāo)來反映系統(tǒng)當(dāng)前的行為和狀態(tài)1. ETL indicatorsMeta datanameauthortypeETL過程的執(zhí)行進(jìn)度=C=re=a=te=ti=m=e=S=o=u=r=cetargetT3:開始連接數(shù)據(jù)源;ProgressStart/End timeExtracted/loadedTro4w:s 連接數(shù)據(jù)Pr源oc成es功si;ng rateDetailsT5:開始抽取數(shù)據(jù);Performance & resultsDurationProcessed rowsSTuc6c:es已s/抽fai取led10ro0w0s條;Read/ writeEr

8、rorsT8:關(guān)閉數(shù)據(jù)源;throughput2. Infrastructure indicatorsT9:關(guān)閉數(shù)據(jù)源成功;T10:開始發(fā)送數(shù)據(jù);Meta data of serverCPU number and typeMemory sizeDisk sizePerformanceCPUusageMemory usageVirtual memory sizePage faultDisk read/write rate3. Distributed system:Heart Beatn由MAgent負(fù)責(zé)收集和過濾n傳輸q元數(shù)據(jù)n數(shù)據(jù)量比較小,而且不需要經(jīng)常更新,又有可靠性要求n方案:采用Pull

9、的方式,使用TCP協(xié)議q性能、心跳和進(jìn)度n數(shù)據(jù)量比較大,更新頻繁,不適合用TCP協(xié)議n 方案:Push到Monitor Center,使用UDP協(xié)議n存在的問題高效&可靠?對于ETL的進(jìn)度和結(jié)果信息q是用戶最關(guān)心的指標(biāo),也是統(tǒng)計(jì)分 析的依據(jù)。網(wǎng)絡(luò)環(huán)境復(fù)雜,基于 UDP雖然高效但是不可靠。q數(shù)據(jù)量大,對OnceDI系統(tǒng)網(wǎng)絡(luò)產(chǎn)生 了影響。Monitor CenterUDPentMAgAgentMMAgent如何壓縮 數(shù)據(jù)量n基于模型的監(jiān)視信息還原技術(shù)nETL進(jìn)度信息可以抽象成為一個模型1. 連接數(shù)據(jù)源:T3;2. 連接數(shù)據(jù)源成功:T4;3. 開始抽取數(shù)據(jù):T5;4. 已抽取1000條:T6;5.

10、關(guān)閉數(shù)據(jù)源:T8;6.(1)關(guān)閉數(shù)據(jù)源成功:T9;(2)關(guān)閉數(shù)據(jù)源失敗:T9;7. 開始發(fā)送數(shù)據(jù):T10;123456(1)失敗6(2)執(zhí)行終止7不會導(dǎo)致終止執(zhí)行的錯誤1. 保障可靠性:信息恢復(fù)、順序調(diào)整12131124334(1)4可確定15均已發(fā)生2 235失敗46(1)接收到了652. 壓縮數(shù)據(jù)量:只傳輸關(guān)鍵結(jié)點(diǎn)126(1)76(2)關(guān)鍵結(jié)點(diǎn)34接收方:可還原1556(1)發(fā)送方:只發(fā)送關(guān)鍵結(jié)點(diǎn)6(1) 用戶可根據(jù)需要進(jìn)行配置 n關(guān)鍵問題q模型的構(gòu)建和關(guān)鍵結(jié)點(diǎn)的定義n 可由用戶提供配置文件,Monitor Manager和MAgent均解 析該文件構(gòu)建模型。1q中間結(jié)點(diǎn)的實(shí)例敏感信息的還

11、原策略2n發(fā)送方緩存機(jī)制+關(guān)鍵結(jié)點(diǎn)捎帶3q出現(xiàn)失敗n發(fā)送方緩存機(jī)制 + 動態(tài)關(guān)鍵結(jié)點(diǎn)q關(guān)鍵結(jié)點(diǎn)丟失n超時重傳或使用TCP成為動態(tài) 關(guān)鍵結(jié)點(diǎn)456(1)失敗6(2)72. 監(jiān)視信息的組織和存儲n將當(dāng)前系統(tǒng)的重要指標(biāo)數(shù)據(jù)進(jìn)行持久化,以支持 后續(xù)的統(tǒng)計(jì)分析。n池化的思想管理主存n初步計(jì)劃使用文本型關(guān)系數(shù)據(jù)庫來存儲。n遺留問題:還需要再考慮一下存儲模式設(shè)計(jì)n元數(shù)據(jù)和運(yùn)行時數(shù)據(jù)ETLJOBPKJOBIDname author typecreated_time source targetprocess_belonged sTaskId rTaskId sDIServer tDIServerETLJOB_R

12、UNTIMEPK PKjobid startend durationprocessedRows rejectRows throughput errorssuccessERRORPKidtaskId desc leveltimestampDI ServerPKGUIDname cpumem_size disk_size基于元數(shù)據(jù)的統(tǒng)與某數(shù)據(jù)源關(guān)聯(lián)的所有ETL任務(wù)。(計(jì)報(bào)表)某時段執(zhí)行的ETL任務(wù)。(報(bào)表)基于運(yùn)行結(jié)果的(a) 自T時間以來,系統(tǒng)中所有ETL任統(tǒng)計(jì)務(wù)的活躍情況。(柱狀圖)(b) 某ETL任務(wù)自T時間以來(或最近N次執(zhí)行)產(chǎn)生的錯誤類型的比例。(餅圖)基于性能的統(tǒng)計(jì)(a) 流程/ET

13、L任務(wù)自T時間以來每次的執(zhí)行時間/CPU使用/內(nèi)存使用/缺頁中斷的變化情況。(折線圖/柱狀圖)(b) 某次流程/ETL任務(wù)執(zhí)行時階段的用時比例。(餅圖)(c) 某流程/ETL任務(wù)各次的執(zhí)行時間,結(jié)果,吞吐率等。(報(bào)表)3. 監(jiān)視信息的統(tǒng)計(jì)、分析 和展示n整合系統(tǒng)中的各種監(jiān)視信息,幫助用戶更直觀、更容易 的了解整個系統(tǒng)。n通過基于統(tǒng)計(jì)值的分析,查 找和定位可能存在的瓶頸或 問題。 統(tǒng)計(jì)(2)基于統(tǒng)計(jì)結(jié)果的分析和報(bào)警機(jī)制n發(fā)現(xiàn)問題:對于某個ETL任務(wù),統(tǒng)計(jì)T時刻以來的的 執(zhí)行時間/吞吐率的平均值,當(dāng)正在執(zhí)行的時間超出調(diào) 整范圍時時,報(bào)警。n定位問題:對比該ETL任務(wù)各階段(抽取、傳輸、加 載)和統(tǒng)計(jì)均值,確定問題所在階段。n統(tǒng)計(jì)ETL任務(wù)執(zhí)行時各階段的耗時比例,有助于發(fā)現(xiàn) 系統(tǒng)瓶頸。(3)展

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論