實(shí)現(xiàn)過程–ETL處理框架設(shè)計(jì)課件_第1頁
實(shí)現(xiàn)過程–ETL處理框架設(shè)計(jì)課件_第2頁
實(shí)現(xiàn)過程–ETL處理框架設(shè)計(jì)課件_第3頁
實(shí)現(xiàn)過程–ETL處理框架設(shè)計(jì)課件_第4頁
實(shí)現(xiàn)過程–ETL處理框架設(shè)計(jì)課件_第5頁
已閱讀5頁,還剩18頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

基于DRS實(shí)現(xiàn)的ETL處理過程

—案例分析LeavaySoftware基于DRS實(shí)現(xiàn)的ETL處理過程

—案例分ETL主流實(shí)現(xiàn)方式自主腳本實(shí)現(xiàn)工具軟件實(shí)現(xiàn)現(xiàn)有的ETL工具軟件有:DataStage,Informatica等。提供了一種組件化的ETL處理實(shí)現(xiàn)方式,將ETL處理的各個(gè)環(huán)節(jié)抽象成組件。如數(shù)據(jù)源組件,Transformer組件,Sort組件,Merge組件,Join組件等一系列組件。組件之間按照一定的關(guān)系進(jìn)行ETL處理。ETL處理的開發(fā)、維護(hù)、管理有一套規(guī)范化的軟件進(jìn)行支撐。技術(shù)人員自主開發(fā)整個(gè)ETL處理流程的程序:比如用C、Java、TCL、Shell、存儲(chǔ)過程等開發(fā)一系列腳本實(shí)現(xiàn)數(shù)據(jù)抽取、數(shù)據(jù)清洗、轉(zhuǎn)換過程。按照關(guān)系調(diào)度腳本,以實(shí)現(xiàn)ETL處理過程。腳本的開發(fā)、維護(hù)、管理全部由人工進(jìn)行控制。ETL主流實(shí)現(xiàn)方式自主腳本實(shí)現(xiàn)工具軟件實(shí)現(xiàn)現(xiàn)有的ETL工具軟存在問題預(yù)先ETL處理過程中的各種操作定義成組件,靈活性較差,在遇到組件不能滿足ETL處理需求時(shí),很難快速調(diào)整組件以實(shí)現(xiàn)需求;圖形化的組件雖然降低了軟件的使用難度,但是在系統(tǒng)發(fā)生故障時(shí),難以定位和處理;基于工具的實(shí)現(xiàn)在處理性能上較差,難以調(diào)優(yōu)。程序代碼只能體現(xiàn)其技術(shù)實(shí)現(xiàn)內(nèi)容,很難做到代碼的自描述,規(guī)范化程度低,對(duì)于維護(hù)工作來講有較高的難度;元數(shù)據(jù)需要手工維護(hù),技術(shù)實(shí)現(xiàn)與描述文檔經(jīng)常會(huì)出現(xiàn)不一致。工具軟件實(shí)現(xiàn)自主腳本實(shí)現(xiàn)存在問題預(yù)先ETL處理過程中的各種操作定義成組件,靈活性較差問題分析自主腳本實(shí)現(xiàn)團(tuán)隊(duì)服務(wù)規(guī)范性不足透明度不足質(zhì)量受編程人員水平影響大工具式實(shí)現(xiàn)靈活性不足不能快速解決復(fù)雜的業(yè)務(wù)問題在復(fù)雜的業(yè)務(wù)場景下性能無法保證采用將ETL過程各個(gè)步驟封裝成數(shù)據(jù)對(duì)象的方法。數(shù)據(jù)對(duì)象可隨時(shí)進(jìn)行調(diào)整和優(yōu)化,同時(shí)通過數(shù)據(jù)對(duì)象可規(guī)范ETL處理過程,實(shí)現(xiàn)ETL處理過程的自我描述,提升系統(tǒng)的運(yùn)行質(zhì)量、維護(hù)效率的同時(shí)讓系統(tǒng)變得可管可控、可持續(xù)擴(kuò)展。問題分析自主腳本實(shí)現(xiàn)團(tuán)隊(duì)服務(wù)規(guī)范性不足工具式實(shí)現(xiàn)靈活性不足采基于DRS的ETL處理過程實(shí)現(xiàn)數(shù)據(jù)對(duì)象的功能包括:業(yè)務(wù)數(shù)據(jù)對(duì)象設(shè)計(jì)、技術(shù)數(shù)據(jù)對(duì)象開發(fā)和數(shù)據(jù)對(duì)象流調(diào)度。業(yè)務(wù)數(shù)據(jù)對(duì)象設(shè)計(jì)技術(shù)數(shù)據(jù)對(duì)象開發(fā)數(shù)據(jù)對(duì)象流調(diào)度元模型設(shè)計(jì)元數(shù)據(jù)填充元數(shù)據(jù)血緣分析圖數(shù)據(jù)質(zhì)量規(guī)則設(shè)計(jì)數(shù)據(jù)質(zhì)量規(guī)則制定數(shù)據(jù)質(zhì)量監(jiān)控、告警、處理ETL處理邏輯框架設(shè)計(jì)ETL處理業(yè)務(wù)邏輯實(shí)現(xiàn)ETL處理調(diào)度數(shù)據(jù)質(zhì)量:質(zhì)量規(guī)則預(yù)先設(shè)定,落實(shí)到系統(tǒng)的具體處理過程;靈活的數(shù)據(jù)質(zhì)量規(guī)則設(shè)置,具有獨(dú)立性,不影響已有數(shù)據(jù)的運(yùn)行;中斷式告警模式,規(guī)則出錯(cuò)可中斷數(shù)據(jù)流,防止錯(cuò)誤數(shù)據(jù)擴(kuò)散。元數(shù)據(jù):業(yè)務(wù)元數(shù)據(jù),增強(qiáng)業(yè)務(wù)人員、技術(shù)人員對(duì)后臺(tái)實(shí)現(xiàn)的理解;技術(shù)元數(shù)據(jù),落實(shí)到具體的數(shù)據(jù)處理過程,實(shí)現(xiàn)機(jī)讀與人讀的一致性;業(yè)務(wù)、技術(shù)元數(shù)據(jù)統(tǒng)一管理,更好地保障兩者的一致性。

數(shù)據(jù)處理:用戶自定義的、統(tǒng)一的處理框架,可靈活添加技術(shù)規(guī)范或管理規(guī)范;基于ETL處理框架的開發(fā)模式,開發(fā)只需要按模板填充業(yè)務(wù)相關(guān)的信息,技術(shù)細(xì)節(jié)由DRS統(tǒng)一保障;更容易定位問題、解決問題、消除問題所造成的影響,實(shí)現(xiàn)ETL處理重跑最小代價(jià)?;贒RS的ETL處理過程實(shí)現(xiàn)數(shù)據(jù)對(duì)象的功能包括:業(yè)務(wù)數(shù)據(jù)對(duì)實(shí)現(xiàn)過程–ETL處理框架設(shè)計(jì)ETL處理分五大模塊:數(shù)據(jù)抽取、數(shù)據(jù)清洗、數(shù)據(jù)加載、庫內(nèi)轉(zhuǎn)換、規(guī)則檢查。各模塊可靈活進(jìn)行組合,形成ETL處理流程。關(guān)系型數(shù)據(jù)庫(Oracle、DB2、TD、MySQL等)Hadoop結(jié)構(gòu)化文件非結(jié)化文件(可擴(kuò)展)其他(可擴(kuò)展)抽取清洗加載轉(zhuǎn)換預(yù)先定義清洗函數(shù)文件處理關(guān)系型數(shù)據(jù)庫(Oracle、DB2、TD、MySQL等)Hadoop單表處理多表關(guān)聯(lián)其他規(guī)則內(nèi)置各類數(shù)據(jù)質(zhì)量檢查規(guī)則實(shí)時(shí)告警中斷式告警可復(fù)寫、可擴(kuò)展的標(biāo)準(zhǔn)處理腳本,針對(duì)不同ETL過程,可自主編程實(shí)現(xiàn)實(shí)現(xiàn)過程–ETL處理框架設(shè)計(jì)ETL處理分五大模塊:數(shù)據(jù)抽實(shí)現(xiàn)過程–ETL處理框架設(shè)計(jì)ETL處理各個(gè)功能模塊的設(shè)計(jì)分為屬性和方法兩部分:-元數(shù)據(jù)作為屬性,是進(jìn)行具體ETL處理需要填充的信息;-處理邏輯和質(zhì)量校驗(yàn)功能作為方法,由系統(tǒng)建設(shè)初期定義和實(shí)現(xiàn),并可靈活修改。屬性方法方法調(diào)用屬性在調(diào)度中運(yùn)行,使得元數(shù)據(jù)既可用來描述系統(tǒng),同時(shí)也是系統(tǒng)運(yùn)行的一部分;可擴(kuò)展的屬性和方法,使得系統(tǒng)可應(yīng)對(duì)各種復(fù)雜的場景,且實(shí)現(xiàn)方便快捷。抽取模塊設(shè)計(jì)實(shí)現(xiàn)過程–ETL處理框架設(shè)計(jì)ETL處理各個(gè)功能模塊的設(shè)計(jì)實(shí)現(xiàn)過程–ETL處理框架設(shè)計(jì)將ETL處理的六類業(yè)務(wù)數(shù)據(jù)對(duì)象設(shè)計(jì)落實(shí)到系統(tǒng)中:抽取模型清洗模型加載模型轉(zhuǎn)換模型規(guī)則模型實(shí)現(xiàn)過程–ETL處理框架設(shè)計(jì)將ETL處理的六類業(yè)務(wù)數(shù)據(jù)對(duì)實(shí)現(xiàn)過程–ETL處理框架設(shè)計(jì)ETL處理業(yè)務(wù)數(shù)據(jù)對(duì)象設(shè)計(jì)后,自動(dòng)轉(zhuǎn)換成技術(shù)數(shù)據(jù)對(duì)象。技術(shù)數(shù)據(jù)對(duì)象實(shí)現(xiàn)分為兩部分:屬性填充和方法實(shí)現(xiàn)。方法實(shí)現(xiàn):由技術(shù)實(shí)力較強(qiáng)的開發(fā)人員進(jìn)行設(shè)計(jì),盡可能固化每類模型共性的代碼,一次開發(fā),多次復(fù)用。遇到復(fù)雜場景,可靈活進(jìn)行修改。屬性填充:由開發(fā)人員填寫,主要是ETL處理參數(shù),相關(guān)元數(shù)據(jù)、數(shù)據(jù)質(zhì)量規(guī)則填寫。屬性填充方法實(shí)現(xiàn)系統(tǒng)初期一次完成,多次復(fù)用實(shí)現(xiàn)過程–ETL處理框架設(shè)計(jì)ETL處理業(yè)務(wù)數(shù)據(jù)對(duì)象設(shè)計(jì)后實(shí)現(xiàn)過程–ETL開發(fā)按模板填充相應(yīng)信息,系統(tǒng)自動(dòng)生成ETL過程。填充式的開發(fā)模式:在最大限度上保證了最終開發(fā)的質(zhì)量不受限于基層開發(fā)人員的態(tài)度和能力,同時(shí)降低開發(fā)的人力成本。實(shí)現(xiàn)過程–ETL開發(fā)按模板填充相應(yīng)信息,系統(tǒng)自動(dòng)生成ET實(shí)現(xiàn)過程–ETL開發(fā)抽取模型合并模型加載模型按系統(tǒng)預(yù)先設(shè)定(可隨時(shí)修改),自動(dòng)生成的ETL模型信息:規(guī)則模型實(shí)現(xiàn)過程–ETL開發(fā)抽取模型合并模型加載模型按系統(tǒng)預(yù)先設(shè)實(shí)現(xiàn)過程–ETL開發(fā)系統(tǒng)自動(dòng)生成的ETL數(shù)據(jù)流:實(shí)現(xiàn)過程–ETL開發(fā)系統(tǒng)自動(dòng)生成的ETL數(shù)據(jù)流:實(shí)現(xiàn)過程–ETL運(yùn)行可視化的ETL過程,隨時(shí)掌握系統(tǒng)運(yùn)行動(dòng)態(tài):實(shí)現(xiàn)過程–ETL運(yùn)行可視化的ETL過程,隨時(shí)掌握系統(tǒng)運(yùn)行實(shí)現(xiàn)過程–ETL運(yùn)行ETL處理在運(yùn)行過程的各個(gè)環(huán)節(jié)都可設(shè)置不同的并發(fā)數(shù)和優(yōu)化級(jí)。-

并發(fā)數(shù)的設(shè)置,最大程度地利用系統(tǒng)資源,減少ETL過程不必要的等待時(shí)間。并發(fā)數(shù)控制隊(duì)列管理實(shí)現(xiàn)過程–ETL運(yùn)行ETL處理在運(yùn)行過程的各個(gè)環(huán)節(jié)都可設(shè)實(shí)現(xiàn)過程–ETL運(yùn)行-優(yōu)化級(jí)的設(shè)置,可在資源緊張情況下,優(yōu)先保障重點(diǎn)數(shù)據(jù)的處理。實(shí)現(xiàn)過程–ETL運(yùn)行-優(yōu)化級(jí)的設(shè)置,可在資源緊張情況下ETL處理采用分布式架構(gòu),只需增加處理器或節(jié)點(diǎn),就可以升級(jí)系統(tǒng)并行處理能力。DRSETL服務(wù)器DRSETL代理集群實(shí)現(xiàn)過程–ETL運(yùn)行ETL處理采用分布式架構(gòu),只需增加處理器或節(jié)點(diǎn),就可以升級(jí)實(shí)現(xiàn)過程–數(shù)據(jù)質(zhì)量監(jiān)控內(nèi)置各類數(shù)據(jù)質(zhì)量檢查規(guī)則,并具備可擴(kuò)展性業(yè)務(wù)規(guī)則值域監(jiān)控:通過對(duì)目標(biāo)值與閾值上下限比較來進(jìn)行檢查;波動(dòng)監(jiān)控:通過對(duì)目標(biāo)值不同周期之間的增減幅度與閾值范圍上下限的比較來進(jìn)行檢查;平衡監(jiān)控:通過對(duì)若干個(gè)目標(biāo)值的簡單四則運(yùn)算(加、減、乘、除),來檢驗(yàn)各個(gè)指標(biāo)間潛在的平衡或其他比較關(guān)系?!夹g(shù)規(guī)則記錄數(shù)一致性檢查數(shù)據(jù)類型及格式檢查非規(guī)范編碼檢查……數(shù)據(jù)質(zhì)量規(guī)則庫數(shù)據(jù)質(zhì)量規(guī)則維護(hù)和開發(fā)數(shù)據(jù)質(zhì)量規(guī)則庫(業(yè)務(wù)/技術(shù)規(guī)則)實(shí)現(xiàn)過程–數(shù)據(jù)質(zhì)量監(jiān)控內(nèi)置各類數(shù)據(jù)質(zhì)量檢查規(guī)則,并具備可實(shí)現(xiàn)過程–數(shù)據(jù)質(zhì)量監(jiān)控靈活的數(shù)據(jù)質(zhì)量規(guī)則設(shè)置,具有獨(dú)立性,不影響已有數(shù)據(jù)的運(yùn)行ETL過程任意節(jié)點(diǎn)ETL過程任意節(jié)點(diǎn)之間單個(gè)節(jié)點(diǎn)規(guī)則檢查兩個(gè)節(jié)點(diǎn)之間規(guī)則檢查實(shí)現(xiàn)過程–數(shù)據(jù)質(zhì)量監(jiān)控靈活的數(shù)據(jù)質(zhì)量規(guī)則設(shè)置,具有獨(dú)立實(shí)現(xiàn)過程–數(shù)據(jù)質(zhì)量監(jiān)控采用數(shù)據(jù)對(duì)象流(與元數(shù)據(jù)血緣圖一致)的調(diào)度方式,中斷式告警設(shè)置,可提前發(fā)現(xiàn)數(shù)據(jù)質(zhì)量問題,快速定位錯(cuò)誤數(shù)據(jù),追溯分析錯(cuò)誤原因。AddyourtitleinhereAddyourtitleinhere數(shù)據(jù)對(duì)象流調(diào)度問題定位故障恢復(fù)查看可視化的與元數(shù)據(jù)血緣分析圖一致的數(shù)據(jù)對(duì)象流調(diào)度運(yùn)行監(jiān)控視圖。故障恢復(fù)只需依照數(shù)據(jù)對(duì)象流分析重跑錯(cuò)誤節(jié)點(diǎn)及其影響到的節(jié)點(diǎn),讓數(shù)據(jù)重跑的代價(jià)降到最低。調(diào)度過程,出錯(cuò)節(jié)點(diǎn)影響到的節(jié)點(diǎn)將停止運(yùn)行,避免質(zhì)量問題被擴(kuò)大,可以提前發(fā)現(xiàn)、快速定位問題;同時(shí)查看到詳細(xì)的出錯(cuò)提示和溯源分析,可以快速處理問題數(shù)據(jù)對(duì)象流最小重跑代價(jià)實(shí)現(xiàn)過程–數(shù)據(jù)質(zhì)量監(jiān)控采用數(shù)據(jù)對(duì)象流(與元數(shù)據(jù)血緣圖一致ETL處理的信息和知識(shí)都沉淀在系統(tǒng)中,從而:給業(yè)務(wù)人員、管理人員、技術(shù)人員提供共同溝通的平臺(tái)為各角色提供個(gè)性化界面去了解和掌握系統(tǒng)對(duì)外提供實(shí)時(shí)的業(yè)務(wù)信息和數(shù)據(jù)動(dòng)態(tài)轉(zhuǎn)化為知識(shí)庫,降低系統(tǒng)的學(xué)習(xí)成本通過模型積累業(yè)務(wù)和技術(shù)元數(shù)據(jù)與生產(chǎn)環(huán)境完全一致的數(shù)據(jù)字典和數(shù)據(jù)流實(shí)現(xiàn)過程–知識(shí)沉淀通過模型積累業(yè)務(wù)和技術(shù)元數(shù)據(jù)與生產(chǎn)環(huán)境完全一致的數(shù)據(jù)字典和數(shù)實(shí)時(shí)更新的系統(tǒng)信息,定制化的專業(yè)視角,用戶可隨時(shí)了解系統(tǒng)ETL的詳細(xì)信息,包括接口數(shù)量、數(shù)據(jù)來源、處理步驟、數(shù)據(jù)流向。實(shí)現(xiàn)過程–知識(shí)沉淀實(shí)時(shí)更新的系統(tǒng)信息,定制化的專業(yè)視角,用戶可隨時(shí)了解系統(tǒng)ET效果比對(duì)BeforeAfter運(yùn)行時(shí)長日接口:凌晨0:30-4:00月接口:1-6號(hào)運(yùn)行,每晚10點(diǎn)左右完成日接口:凌晨0:30-3:00,效率提升30%月接口:1-6號(hào)運(yùn)行,每天下午2點(diǎn)前完成,每天減少8小時(shí)業(yè)務(wù)支撐人員體驗(yàn)新需求開始時(shí),參與確認(rèn)數(shù)據(jù)源表后期無法跟進(jìn)和檢查實(shí)現(xiàn)是否與需求一致管控能力差:技術(shù)實(shí)現(xiàn)無文檔新需求開始時(shí),參與確認(rèn)數(shù)據(jù)源表后期可以持續(xù)跟蹤,根據(jù)各種視圖檢查實(shí)現(xiàn)是否與需求一致管控能力強(qiáng):能看到系統(tǒng)中所有模型和數(shù)據(jù)流信息,能實(shí)時(shí)掌握系統(tǒng)運(yùn)行的相關(guān)信息數(shù)據(jù)質(zhì)量出錯(cuò)概率高,錯(cuò)誤原因多樣化人工干預(yù)多出錯(cuò)概率低,主要集中在規(guī)則通不過人工干預(yù)少錯(cuò)誤定位和修復(fù)對(duì)維護(hù)人員要求高,新人學(xué)習(xí)成本高問題的發(fā)現(xiàn)和解決較難固化對(duì)維護(hù)人員要求低,新人學(xué)習(xí)成本低主要出錯(cuò)在檢查規(guī)則,設(shè)定閾值可提前發(fā)現(xiàn)和預(yù)警日常維護(hù)日接口偶爾報(bào)錯(cuò),月接口經(jīng)常報(bào)錯(cuò)處理起來比較復(fù)雜且耗時(shí)多日接口幾乎不報(bào)錯(cuò),月接口錯(cuò)誤主要來自外部數(shù)據(jù)源,處理起來簡單且耗時(shí)少需求上線沒有統(tǒng)一管理,多人同時(shí)上線時(shí)風(fēng)險(xiǎn)較高上線基本不出錯(cuò),風(fēng)險(xiǎn)小需求下線直接修改程序,刪除要下線的接口但下線部分的影響范圍無法確定,會(huì)囤積很多無用的資源不敢釋放

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論