版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認(rèn)領(lǐng)
文檔簡介
基于DRS實現(xiàn)的ETL處理過程
—案例分析LeavaySoftware基于DRS實現(xiàn)的ETL處理過程
—案例分ETL主流實現(xiàn)方式自主腳本實現(xiàn)工具軟件實現(xiàn)現(xiàn)有的ETL工具軟件有:DataStage,Informatica等。提供了一種組件化的ETL處理實現(xiàn)方式,將ETL處理的各個環(huán)節(jié)抽象成組件。如數(shù)據(jù)源組件,Transformer組件,Sort組件,Merge組件,Join組件等一系列組件。組件之間按照一定的關(guān)系進行ETL處理。ETL處理的開發(fā)、維護、管理有一套規(guī)范化的軟件進行支撐。技術(shù)人員自主開發(fā)整個ETL處理流程的程序:比如用C、Java、TCL、Shell、存儲過程等開發(fā)一系列腳本實現(xiàn)數(shù)據(jù)抽取、數(shù)據(jù)清洗、轉(zhuǎn)換過程。按照關(guān)系調(diào)度腳本,以實現(xiàn)ETL處理過程。腳本的開發(fā)、維護、管理全部由人工進行控制。ETL主流實現(xiàn)方式自主腳本實現(xiàn)工具軟件實現(xiàn)現(xiàn)有的ETL工具軟存在問題預(yù)先ETL處理過程中的各種操作定義成組件,靈活性較差,在遇到組件不能滿足ETL處理需求時,很難快速調(diào)整組件以實現(xiàn)需求;圖形化的組件雖然降低了軟件的使用難度,但是在系統(tǒng)發(fā)生故障時,難以定位和處理;基于工具的實現(xiàn)在處理性能上較差,難以調(diào)優(yōu)。程序代碼只能體現(xiàn)其技術(shù)實現(xiàn)內(nèi)容,很難做到代碼的自描述,規(guī)范化程度低,對于維護工作來講有較高的難度;元數(shù)據(jù)需要手工維護,技術(shù)實現(xiàn)與描述文檔經(jīng)常會出現(xiàn)不一致。工具軟件實現(xiàn)自主腳本實現(xiàn)存在問題預(yù)先ETL處理過程中的各種操作定義成組件,靈活性較差問題分析自主腳本實現(xiàn)團隊服務(wù)規(guī)范性不足透明度不足質(zhì)量受編程人員水平影響大工具式實現(xiàn)靈活性不足不能快速解決復(fù)雜的業(yè)務(wù)問題在復(fù)雜的業(yè)務(wù)場景下性能無法保證采用將ETL過程各個步驟封裝成數(shù)據(jù)對象的方法。數(shù)據(jù)對象可隨時進行調(diào)整和優(yōu)化,同時通過數(shù)據(jù)對象可規(guī)范ETL處理過程,實現(xiàn)ETL處理過程的自我描述,提升系統(tǒng)的運行質(zhì)量、維護效率的同時讓系統(tǒng)變得可管可控、可持續(xù)擴展。問題分析自主腳本實現(xiàn)團隊服務(wù)規(guī)范性不足工具式實現(xiàn)靈活性不足采基于DRS的ETL處理過程實現(xiàn)數(shù)據(jù)對象的功能包括:業(yè)務(wù)數(shù)據(jù)對象設(shè)計、技術(shù)數(shù)據(jù)對象開發(fā)和數(shù)據(jù)對象流調(diào)度。業(yè)務(wù)數(shù)據(jù)對象設(shè)計技術(shù)數(shù)據(jù)對象開發(fā)數(shù)據(jù)對象流調(diào)度元模型設(shè)計元數(shù)據(jù)填充元數(shù)據(jù)血緣分析圖數(shù)據(jù)質(zhì)量規(guī)則設(shè)計數(shù)據(jù)質(zhì)量規(guī)則制定數(shù)據(jù)質(zhì)量監(jiān)控、告警、處理ETL處理邏輯框架設(shè)計ETL處理業(yè)務(wù)邏輯實現(xiàn)ETL處理調(diào)度數(shù)據(jù)質(zhì)量:質(zhì)量規(guī)則預(yù)先設(shè)定,落實到系統(tǒng)的具體處理過程;靈活的數(shù)據(jù)質(zhì)量規(guī)則設(shè)置,具有獨立性,不影響已有數(shù)據(jù)的運行;中斷式告警模式,規(guī)則出錯可中斷數(shù)據(jù)流,防止錯誤數(shù)據(jù)擴散。元數(shù)據(jù):業(yè)務(wù)元數(shù)據(jù),增強業(yè)務(wù)人員、技術(shù)人員對后臺實現(xiàn)的理解;技術(shù)元數(shù)據(jù),落實到具體的數(shù)據(jù)處理過程,實現(xiàn)機讀與人讀的一致性;業(yè)務(wù)、技術(shù)元數(shù)據(jù)統(tǒng)一管理,更好地保障兩者的一致性。
數(shù)據(jù)處理:用戶自定義的、統(tǒng)一的處理框架,可靈活添加技術(shù)規(guī)范或管理規(guī)范;基于ETL處理框架的開發(fā)模式,開發(fā)只需要按模板填充業(yè)務(wù)相關(guān)的信息,技術(shù)細節(jié)由DRS統(tǒng)一保障;更容易定位問題、解決問題、消除問題所造成的影響,實現(xiàn)ETL處理重跑最小代價?;贒RS的ETL處理過程實現(xiàn)數(shù)據(jù)對象的功能包括:業(yè)務(wù)數(shù)據(jù)對實現(xiàn)過程–ETL處理框架設(shè)計ETL處理分五大模塊:數(shù)據(jù)抽取、數(shù)據(jù)清洗、數(shù)據(jù)加載、庫內(nèi)轉(zhuǎn)換、規(guī)則檢查。各模塊可靈活進行組合,形成ETL處理流程。關(guān)系型數(shù)據(jù)庫(Oracle、DB2、TD、MySQL等)Hadoop結(jié)構(gòu)化文件非結(jié)化文件(可擴展)其他(可擴展)抽取清洗加載轉(zhuǎn)換預(yù)先定義清洗函數(shù)文件處理關(guān)系型數(shù)據(jù)庫(Oracle、DB2、TD、MySQL等)Hadoop單表處理多表關(guān)聯(lián)其他規(guī)則內(nèi)置各類數(shù)據(jù)質(zhì)量檢查規(guī)則實時告警中斷式告警可復(fù)寫、可擴展的標(biāo)準(zhǔn)處理腳本,針對不同ETL過程,可自主編程實現(xiàn)實現(xiàn)過程–ETL處理框架設(shè)計ETL處理分五大模塊:數(shù)據(jù)抽實現(xiàn)過程–ETL處理框架設(shè)計ETL處理各個功能模塊的設(shè)計分為屬性和方法兩部分:-元數(shù)據(jù)作為屬性,是進行具體ETL處理需要填充的信息;-處理邏輯和質(zhì)量校驗功能作為方法,由系統(tǒng)建設(shè)初期定義和實現(xiàn),并可靈活修改。屬性方法方法調(diào)用屬性在調(diào)度中運行,使得元數(shù)據(jù)既可用來描述系統(tǒng),同時也是系統(tǒng)運行的一部分;可擴展的屬性和方法,使得系統(tǒng)可應(yīng)對各種復(fù)雜的場景,且實現(xiàn)方便快捷。抽取模塊設(shè)計實現(xiàn)過程–ETL處理框架設(shè)計ETL處理各個功能模塊的設(shè)計實現(xiàn)過程–ETL處理框架設(shè)計將ETL處理的六類業(yè)務(wù)數(shù)據(jù)對象設(shè)計落實到系統(tǒng)中:抽取模型清洗模型加載模型轉(zhuǎn)換模型規(guī)則模型實現(xiàn)過程–ETL處理框架設(shè)計將ETL處理的六類業(yè)務(wù)數(shù)據(jù)對實現(xiàn)過程–ETL處理框架設(shè)計ETL處理業(yè)務(wù)數(shù)據(jù)對象設(shè)計后,自動轉(zhuǎn)換成技術(shù)數(shù)據(jù)對象。技術(shù)數(shù)據(jù)對象實現(xiàn)分為兩部分:屬性填充和方法實現(xiàn)。方法實現(xiàn):由技術(shù)實力較強的開發(fā)人員進行設(shè)計,盡可能固化每類模型共性的代碼,一次開發(fā),多次復(fù)用。遇到復(fù)雜場景,可靈活進行修改。屬性填充:由開發(fā)人員填寫,主要是ETL處理參數(shù),相關(guān)元數(shù)據(jù)、數(shù)據(jù)質(zhì)量規(guī)則填寫。屬性填充方法實現(xiàn)系統(tǒng)初期一次完成,多次復(fù)用實現(xiàn)過程–ETL處理框架設(shè)計ETL處理業(yè)務(wù)數(shù)據(jù)對象設(shè)計后實現(xiàn)過程–ETL開發(fā)按模板填充相應(yīng)信息,系統(tǒng)自動生成ETL過程。填充式的開發(fā)模式:在最大限度上保證了最終開發(fā)的質(zhì)量不受限于基層開發(fā)人員的態(tài)度和能力,同時降低開發(fā)的人力成本。實現(xiàn)過程–ETL開發(fā)按模板填充相應(yīng)信息,系統(tǒng)自動生成ET實現(xiàn)過程–ETL開發(fā)抽取模型合并模型加載模型按系統(tǒng)預(yù)先設(shè)定(可隨時修改),自動生成的ETL模型信息:規(guī)則模型實現(xiàn)過程–ETL開發(fā)抽取模型合并模型加載模型按系統(tǒng)預(yù)先設(shè)實現(xiàn)過程–ETL開發(fā)系統(tǒng)自動生成的ETL數(shù)據(jù)流:實現(xiàn)過程–ETL開發(fā)系統(tǒng)自動生成的ETL數(shù)據(jù)流:實現(xiàn)過程–ETL運行可視化的ETL過程,隨時掌握系統(tǒng)運行動態(tài):實現(xiàn)過程–ETL運行可視化的ETL過程,隨時掌握系統(tǒng)運行實現(xiàn)過程–ETL運行ETL處理在運行過程的各個環(huán)節(jié)都可設(shè)置不同的并發(fā)數(shù)和優(yōu)化級。-
并發(fā)數(shù)的設(shè)置,最大程度地利用系統(tǒng)資源,減少ETL過程不必要的等待時間。并發(fā)數(shù)控制隊列管理實現(xiàn)過程–ETL運行ETL處理在運行過程的各個環(huán)節(jié)都可設(shè)實現(xiàn)過程–ETL運行-優(yōu)化級的設(shè)置,可在資源緊張情況下,優(yōu)先保障重點數(shù)據(jù)的處理。實現(xiàn)過程–ETL運行-優(yōu)化級的設(shè)置,可在資源緊張情況下ETL處理采用分布式架構(gòu),只需增加處理器或節(jié)點,就可以升級系統(tǒng)并行處理能力。DRSETL服務(wù)器DRSETL代理集群實現(xiàn)過程–ETL運行ETL處理采用分布式架構(gòu),只需增加處理器或節(jié)點,就可以升級實現(xiàn)過程–數(shù)據(jù)質(zhì)量監(jiān)控內(nèi)置各類數(shù)據(jù)質(zhì)量檢查規(guī)則,并具備可擴展性業(yè)務(wù)規(guī)則值域監(jiān)控:通過對目標(biāo)值與閾值上下限比較來進行檢查;波動監(jiān)控:通過對目標(biāo)值不同周期之間的增減幅度與閾值范圍上下限的比較來進行檢查;平衡監(jiān)控:通過對若干個目標(biāo)值的簡單四則運算(加、減、乘、除),來檢驗各個指標(biāo)間潛在的平衡或其他比較關(guān)系。……技術(shù)規(guī)則記錄數(shù)一致性檢查數(shù)據(jù)類型及格式檢查非規(guī)范編碼檢查……數(shù)據(jù)質(zhì)量規(guī)則庫數(shù)據(jù)質(zhì)量規(guī)則維護和開發(fā)數(shù)據(jù)質(zhì)量規(guī)則庫(業(yè)務(wù)/技術(shù)規(guī)則)實現(xiàn)過程–數(shù)據(jù)質(zhì)量監(jiān)控內(nèi)置各類數(shù)據(jù)質(zhì)量檢查規(guī)則,并具備可實現(xiàn)過程–數(shù)據(jù)質(zhì)量監(jiān)控靈活的數(shù)據(jù)質(zhì)量規(guī)則設(shè)置,具有獨立性,不影響已有數(shù)據(jù)的運行ETL過程任意節(jié)點ETL過程任意節(jié)點之間單個節(jié)點規(guī)則檢查兩個節(jié)點之間規(guī)則檢查實現(xiàn)過程–數(shù)據(jù)質(zhì)量監(jiān)控靈活的數(shù)據(jù)質(zhì)量規(guī)則設(shè)置,具有獨立實現(xiàn)過程–數(shù)據(jù)質(zhì)量監(jiān)控采用數(shù)據(jù)對象流(與元數(shù)據(jù)血緣圖一致)的調(diào)度方式,中斷式告警設(shè)置,可提前發(fā)現(xiàn)數(shù)據(jù)質(zhì)量問題,快速定位錯誤數(shù)據(jù),追溯分析錯誤原因。AddyourtitleinhereAddyourtitleinhere數(shù)據(jù)對象流調(diào)度問題定位故障恢復(fù)查看可視化的與元數(shù)據(jù)血緣分析圖一致的數(shù)據(jù)對象流調(diào)度運行監(jiān)控視圖。故障恢復(fù)只需依照數(shù)據(jù)對象流分析重跑錯誤節(jié)點及其影響到的節(jié)點,讓數(shù)據(jù)重跑的代價降到最低。調(diào)度過程,出錯節(jié)點影響到的節(jié)點將停止運行,避免質(zhì)量問題被擴大,可以提前發(fā)現(xiàn)、快速定位問題;同時查看到詳細的出錯提示和溯源分析,可以快速處理問題數(shù)據(jù)對象流最小重跑代價實現(xiàn)過程–數(shù)據(jù)質(zhì)量監(jiān)控采用數(shù)據(jù)對象流(與元數(shù)據(jù)血緣圖一致ETL處理的信息和知識都沉淀在系統(tǒng)中,從而:給業(yè)務(wù)人員、管理人員、技術(shù)人員提供共同溝通的平臺為各角色提供個性化界面去了解和掌握系統(tǒng)對外提供實時的業(yè)務(wù)信息和數(shù)據(jù)動態(tài)轉(zhuǎn)化為知識庫,降低系統(tǒng)的學(xué)習(xí)成本通過模型積累業(yè)務(wù)和技術(shù)元數(shù)據(jù)與生產(chǎn)環(huán)境完全一致的數(shù)據(jù)字典和數(shù)據(jù)流實現(xiàn)過程–知識沉淀通過模型積累業(yè)務(wù)和技術(shù)元數(shù)據(jù)與生產(chǎn)環(huán)境完全一致的數(shù)據(jù)字典和數(shù)實時更新的系統(tǒng)信息,定制化的專業(yè)視角,用戶可隨時了解系統(tǒng)ETL的詳細信息,包括接口數(shù)量、數(shù)據(jù)來源、處理步驟、數(shù)據(jù)流向。實現(xiàn)過程–知識沉淀實時更新的系統(tǒng)信息,定制化的專業(yè)視角,用戶可隨時了解系統(tǒng)ET效果比對BeforeAfter運行時長日接口:凌晨0:30-4:00月接口:1-6號運行,每晚10點左右完成日接口:凌晨0:30-3:00,效率提升30%月接口:1-6號運行,每天下午2點前完成,每天減少8小時業(yè)務(wù)支撐人員體驗新需求開始時,參與確認(rèn)數(shù)據(jù)源表后期無法跟進和檢查實現(xiàn)是否與需求一致管控能力差:技術(shù)實現(xiàn)無文檔新需求開始時,參與確認(rèn)數(shù)據(jù)源表后期可以持續(xù)跟蹤,根據(jù)各種視圖檢查實現(xiàn)是否與需求一致管控能力強:能看到系統(tǒng)中所有模型和數(shù)據(jù)流信息,能實時掌握系統(tǒng)運行的相關(guān)信息數(shù)據(jù)質(zhì)量出錯概率高,錯誤原因多樣化人工干預(yù)多出錯概率低,主要集中在規(guī)則通不過人工干預(yù)少錯誤定位和修復(fù)對維護人員要求高,新人學(xué)習(xí)成本高問題的發(fā)現(xiàn)和解決較難固化對維護人員要求低,新人學(xué)習(xí)成本低主要出錯在檢查規(guī)則,設(shè)定閾值可提前發(fā)現(xiàn)和預(yù)警日常維護日接口偶爾報錯,月接口經(jīng)常報錯處理起來比較復(fù)雜且耗時多日接口幾乎不報錯,月接口錯誤主要來自外部數(shù)據(jù)源,處理起來簡單且耗時少需求上線沒有統(tǒng)一管理,多人同時上線時風(fēng)險較高上線基本不出錯,風(fēng)險小需求下線直接修改程序,刪除要下線的接口但下線部分的影響范圍無法確定,會囤積很多無用的資源不敢釋放
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- N95醫(yī)用口罩訂貨協(xié)議模板版B版
- 二零二五年度小微企業(yè)貸款合同規(guī)范(含政策扶持)3篇
- 美容院與客戶2025年度美容護理服務(wù)合同集錦4篇
- 2025版城市更新項目宅基地拆遷補償與安置協(xié)議4篇
- 二零二五年度美容院超聲刀美容項目合作協(xié)議4篇
- 二零二五年度多功能打印機租賃及安裝合同范本4篇
- 二零二五年度醫(yī)療廢物處理設(shè)備租賃合同3篇
- 2025年度個人二手房買賣合同附屬設(shè)施設(shè)備移交合同4篇
- 二零二五年度工地食堂綠色環(huán)保食材采購合同4篇
- 2025年復(fù)合材料運輸與質(zhì)量控制合同3篇
- 鋼筋桁架樓承板施工方案
- DL-T5434-2021電力建設(shè)工程監(jiān)理規(guī)范
- 2024年上海核工程研究設(shè)計院股份有限公司招聘筆試沖刺題(帶答案解析)
- 眼的解剖結(jié)構(gòu)與生理功能課件
- 2024年銀行考試-興業(yè)銀行筆試參考題庫含答案
- 泵站運行管理現(xiàn)狀改善措施
- 2024屆武漢市部分學(xué)校中考一模數(shù)學(xué)試題含解析
- SYT 0447-2014《 埋地鋼制管道環(huán)氧煤瀝青防腐層技術(shù)標(biāo)準(zhǔn)》
- 浙教版七年級下冊科學(xué)全冊課件
- 弧度制及弧度制與角度制的換算
- 瓦楞紙箱計算公式測量方法
評論
0/150
提交評論