版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
1、T ongT ech TI-ETL v2產(chǎn)品白皮書北京東方通科技公司2015 年目錄 TOC o 1-5 h z HYPERLINK l bookmark9 o Current Document 1前言1 HYPERLINK l bookmark12 o Current Document 2為什么要用ETL 1 HYPERLINK l bookmark15 o Current Document 2.1業(yè)務(wù)需求1 HYPERLINK l bookmark18 o Current Document IT 需求2 HYPERLINK l bookmark22 o Current Document I
2、T與業(yè)務(wù)一致性要求 2 HYPERLINK l bookmark30 o Current Document 3TI-ETL v2 簡介3 HYPERLINK l bookmark33 o Current Document 3.1產(chǎn)品組成結(jié)構(gòu)3 HYPERLINK l bookmark36 o Current Document 集成開發(fā)工具4 HYPERLINK l bookmark39 o Current Document 服務(wù)器5 HYPERLINK l bookmark42 o Current Document 資源庫5 HYPERLINK l bookmark45 o Current D
3、ocument 統(tǒng)一管理平臺(tái)6 HYPERLINK l bookmark48 o Current Document 3.2產(chǎn)品結(jié)構(gòu)關(guān)系7 HYPERLINK l bookmark55 o Current Document 3.3轉(zhuǎn)換流程和任務(wù)流程8 HYPERLINK l bookmark58 o Current Document 轉(zhuǎn)換流程8 HYPERLINK l bookmark61 o Current Document 3.3.2 任務(wù)流程 9 HYPERLINK l bookmark64 o Current Document 4主要功能和特點(diǎn)10 HYPERLINK l bookmar
4、k67 o Current Document 4.1大數(shù)據(jù)適配10 HYPERLINK l bookmark70 o Current Document 4.2強(qiáng)健的ETL引擎10 HYPERLINK l bookmark73 o Current Document 4.3豐富的系統(tǒng)適配11 HYPERLINK l bookmark76 o Current Document 4.4資源統(tǒng)一存儲(chǔ)11 HYPERLINK l bookmark79 o Current Document 4.5豐富的處理組件 11 HYPERLINK l bookmark82 o Current Document 4.6
5、多種數(shù)據(jù)抽取模式11 HYPERLINK l bookmark85 o Current Document 4.7圖形化操作/調(diào)試/預(yù)覽能力11 HYPERLINK l bookmark88 o Current Document 4.8高效數(shù)據(jù)處理12 HYPERLINK l bookmark91 o Current Document 4.9異?;謴?fù)和數(shù)據(jù)一致性12 HYPERLINK l bookmark94 o Current Document 4.10強(qiáng)大的監(jiān)控管理功能12 HYPERLINK l bookmark97 o Current Document 4.11插件式組件管理和可擴(kuò)展性
6、12 HYPERLINK l bookmark100 o Current Document 4.12國產(chǎn)環(huán)境支持13 HYPERLINK l bookmark103 o Current Document 5成功案例131前言隨著IT應(yīng)用建設(shè)的發(fā)展,數(shù)據(jù)成為了最重要的資源,無論是接地氣的業(yè)務(wù)系統(tǒng)、應(yīng)用軟 件、數(shù)據(jù)中心或是高大上的云/物/移/大/智,均是以數(shù)據(jù)資源為核心,依托發(fā)揮數(shù)據(jù)價(jià)值而存 在和發(fā)展。目前,雖然各行業(yè)IT發(fā)展成熟度不一致,但基本已經(jīng)度過了大批量業(yè)務(wù)系統(tǒng)建設(shè)階段, 業(yè)務(wù)系統(tǒng)也經(jīng)過了幾年的運(yùn)轉(zhuǎn),積累了不同量級(jí)的數(shù)據(jù)資源。但因早起IT業(yè)務(wù)系統(tǒng)的很少跨 部門、跨單位、跨層級(jí)的統(tǒng)一規(guī)劃和建
7、設(shè),導(dǎo)致業(yè)務(wù)系統(tǒng)處于分散、獨(dú)立的狀況,業(yè)務(wù)間數(shù)據(jù) 資源不僅處于煙囪狀態(tài),數(shù)據(jù)資源的一致性和互用性較差,數(shù)據(jù)資源的價(jià)值無法充分發(fā)揮。此外,各行業(yè)自身業(yè)務(wù)也在逐漸多元化和復(fù)雜化,業(yè)務(wù)產(chǎn)生和所需使用的數(shù)據(jù)也就具有不 確定和頻繁變動(dòng)性,導(dǎo)致一旦應(yīng)用發(fā)生變化、新增系統(tǒng)或物理數(shù)據(jù)變動(dòng),一旦無法借助某些手 段適應(yīng)變化,整個(gè)應(yīng)用和數(shù)據(jù)體系均有較大可能不得不隨之修改。數(shù)據(jù)集成是把不同來源、格式、特點(diǎn)性質(zhì)的數(shù)據(jù)在邏輯上或物理上有機(jī)地集中,通過應(yīng)用 間的數(shù)據(jù)有效流通和流通的管理從而達(dá)到集成,主要解決數(shù)據(jù)的分布性、異構(gòu)性、有效性和及 時(shí)性的問題。此外,數(shù)據(jù)集成是個(gè)長期不斷持續(xù)的過程,需要有易用的工具、長期可靠的運(yùn)行
8、環(huán)境、全面有效的監(jiān)控管理共同支撐,而非僅通過工具可以一次性解決的。ETL是數(shù)據(jù)集成領(lǐng)域的落地技術(shù),區(qū)別與傳統(tǒng)數(shù)據(jù)交換,ETL在可完成基本數(shù)據(jù)交換(抽 取、傳輸、裝載)的前提下,對(duì)數(shù)據(jù)的轉(zhuǎn)換(即數(shù)據(jù)的按需加工處理)提供更易用和更強(qiáng)大的 支持,使數(shù)據(jù)在不同業(yè)務(wù)之間流動(dòng)的同時(shí),各業(yè)務(wù)獲取到的數(shù)據(jù)確實(shí)是可有準(zhǔn)確、及時(shí)、有效 應(yīng)用的。TI-ETL是從傳統(tǒng)數(shù)據(jù)交換產(chǎn)品繼續(xù)發(fā)展的產(chǎn)物,有著多年的數(shù)據(jù)集成領(lǐng)域產(chǎn)品研制的積 淀,已在大交通(海/陸/空)、大政府、國防工業(yè)、企業(yè)等行業(yè)核心系統(tǒng)中成功應(yīng)用,輔助眾 多行業(yè)和用戶逐漸發(fā)揮出了數(shù)據(jù)的價(jià)值,提升了 IT支撐業(yè)務(wù)的有效性。2為什么要用ETL2.1業(yè)務(wù)需求IT建
9、設(shè)隨業(yè)務(wù)發(fā)展,業(yè)務(wù)過程以數(shù)據(jù)貫穿,即業(yè)務(wù)有效性的基礎(chǔ)是數(shù)據(jù),且有效性又包 含可獲得性、及時(shí)性、準(zhǔn)確性和一致性。在信息化早起,因信息系統(tǒng)較少、業(yè)務(wù)關(guān)系復(fù)雜度較 低,對(duì)數(shù)據(jù)關(guān)注度也較低。隨著各單位自身的發(fā)展,內(nèi)部組織機(jī)構(gòu)、多級(jí)組織機(jī)構(gòu)建設(shè)愈發(fā)全 面,業(yè)務(wù)關(guān)系也愈發(fā)復(fù)雜,各內(nèi)部組織以及跨不同單位之間均會(huì)因?yàn)闃I(yè)務(wù)關(guān)聯(lián)產(chǎn)生數(shù)據(jù)有效關(guān) 聯(lián)、互用的需求。例如單位內(nèi)人力作為人資管理的職能部門,新人入職、人員在部門間調(diào)動(dòng)、人員崗位晉升 等人員變動(dòng)情況會(huì)影響向財(cái)務(wù)、檔案、信息管理等多個(gè)部門的業(yè)務(wù),包括工資漲降、檔案歸 檔、固定資產(chǎn)關(guān)聯(lián)等等,即人資信息發(fā)生變化時(shí)需要其它同樣存儲(chǔ)了該信息的業(yè)務(wù)部門也能夠 自動(dòng)完成信息
10、變更。例如部委需要從各下級(jí)委辦局匯總數(shù)據(jù),各委辦局業(yè)務(wù)系統(tǒng)可能是分別由不同廠商建設(shè), 雖然是處理同樣的業(yè)務(wù),但業(yè)務(wù)系統(tǒng)存儲(chǔ)數(shù)據(jù)的格式和方式不同。以數(shù)據(jù)項(xiàng)“部門名稱”為 例,有的業(yè)務(wù)系統(tǒng)存儲(chǔ)是的漢字,也的存儲(chǔ)的可能是數(shù)字編碼,此時(shí)雖然數(shù)據(jù)都能匯總到一 起,但數(shù)據(jù)卻無法合并,即使匯總后也可能無法支撐業(yè)務(wù)。IT需求數(shù)據(jù)大多以數(shù)據(jù)庫、文件為存儲(chǔ)載體,數(shù)據(jù)庫和文件又存在多個(gè)品牌和版本,所以業(yè)務(wù)數(shù) 據(jù)往往是分散在不同品牌、版本的數(shù)據(jù)庫和文件中,業(yè)務(wù)系統(tǒng)間能夠按需的互用數(shù)據(jù)則需要通 過IT手段實(shí)現(xiàn)對(duì)不同數(shù)據(jù)源的按需適配、按需采集、按需處理、按需裝載以及通過圖形化界 面操作定義數(shù)據(jù)間的關(guān)系和處理邏輯,實(shí)現(xiàn)一次
11、定義長期有效執(zhí)行,同時(shí)提供全局的可視化監(jiān) 控管理,能夠隨時(shí)掌握業(yè)務(wù)間數(shù)據(jù)交互的有效性。IT與業(yè)務(wù)一致性要求“按需”是業(yè)務(wù)訴求,對(duì)應(yīng)IT則包括了采集、加工處理、裝載、監(jiān)控、運(yùn)維、管理等技 術(shù)要求,以滿足業(yè)務(wù)層面對(duì)可獲得性、及時(shí)性、準(zhǔn)確性、一致性的需求,多以ETL產(chǎn)品和技術(shù) 實(shí)現(xiàn)IT支撐:ETL提供多種數(shù)據(jù)源適配組件,可與多種主流數(shù)據(jù)庫、文件、通信協(xié)議進(jìn)行對(duì)接,保 障采集的全面適配,提供高可獲得性。ETL提供觸發(fā)器、時(shí)間、CDC等多種數(shù)據(jù)采集模式,可根據(jù)業(yè)務(wù)對(duì)及時(shí)性的定義以及 業(yè)務(wù)數(shù)據(jù)存儲(chǔ)的現(xiàn)狀選擇不同模式,并且提供并行等高效處理機(jī)制,提供高及時(shí)性。ETL提供豐富的數(shù)據(jù)加工處理組件達(dá)到100+,且
12、可根據(jù)業(yè)務(wù)規(guī)則靈活拼接處理流程, 提供高準(zhǔn)確性和高一致性。ETL提供基于Web的監(jiān)控管理中心,在滿足核心業(yè)務(wù)需求的同時(shí)提供易用、可視的運(yùn) 維、監(jiān)控、管理、監(jiān)視的統(tǒng)一管理能力。3 TI-ETL v2 簡介東方通數(shù)據(jù)集成產(chǎn)品TI-ETL,提供對(duì)企業(yè)數(shù)據(jù)的集成處理功能。通過TI-ETL產(chǎn)品,用戶 可以從不同結(jié)構(gòu)的數(shù)據(jù)源中抽取數(shù)據(jù)(Extract),對(duì)數(shù)據(jù)進(jìn)行復(fù)雜的加工處理(Transform),最后將數(shù)據(jù)加載到各種存儲(chǔ)結(jié)構(gòu)中(Load)。例如實(shí)現(xiàn)從多個(gè)異構(gòu)的數(shù)據(jù)源 (不同數(shù)據(jù)庫、結(jié)構(gòu)化文件等)抽取數(shù)據(jù),并加工成統(tǒng)一的數(shù)據(jù)格式,最后加載到數(shù)據(jù)倉庫中,供商業(yè)智能(Business Intelligent
13、, BI)等應(yīng)用使用。TI-ETL提供一個(gè)簡單易用的開發(fā)、管理工具,提供覆蓋從數(shù)據(jù)集成邏輯的設(shè)計(jì)、開發(fā)、 調(diào)試、部署,到運(yùn)行、管理、監(jiān)控各個(gè)生命周期不同階段的集成開發(fā)工具。通過TI-ETL可以 實(shí)現(xiàn)對(duì)數(shù)據(jù)集成流程的開發(fā)和部署;通過監(jiān)控和日志功能,可以實(shí)現(xiàn)對(duì)數(shù)據(jù)集成的運(yùn)行過程進(jìn) 行實(shí)時(shí)監(jiān)視,對(duì)集成流程歷史數(shù)據(jù)進(jìn)行分析。TI-ETL提供了一個(gè)強(qiáng)健、高效的數(shù)據(jù)處理引擎,支撐各種復(fù)雜的數(shù)據(jù)轉(zhuǎn)換流程、任務(wù)調(diào) 度流程的高效運(yùn)行。引擎采取異步并行處理的技術(shù),實(shí)現(xiàn)流程中的每個(gè)組件多線程并行高效處 理;支持集群部署方式,允許將轉(zhuǎn)換或轉(zhuǎn)換中的比較耗時(shí)的數(shù)據(jù)處理組件部署在多臺(tái)服務(wù)器上 并發(fā)執(zhí)行,從而將轉(zhuǎn)換的工作分?jǐn)?/p>
14、到多臺(tái)服務(wù)器上,從而提高TIETL的數(shù)據(jù)處理效率。TI-ETL基于Java技術(shù)和標(biāo)準(zhǔn)數(shù)據(jù)庫接口(JDBC、ODBC等),支持部署在各種主流操作系 統(tǒng)和國產(chǎn)操作系統(tǒng)上,支持與各種主流數(shù)據(jù)庫、開源數(shù)據(jù)庫、國產(chǎn)數(shù)據(jù)庫的接入,支持對(duì)各種 結(jié)構(gòu)化/非結(jié)構(gòu)化格式文件的讀寫,以及通過多種協(xié)議與其他應(yīng)用系統(tǒng)的交互。TI-ETL提供大量的任務(wù)組件和轉(zhuǎn)換組件,如多源的數(shù)據(jù)合并、數(shù)據(jù)的路由、數(shù)據(jù)行列轉(zhuǎn) 換、字典表查詢、定時(shí)重啟、循環(huán)調(diào)度、流程告警等,用戶可以通過拖拽方式快速完成各種復(fù) 雜的數(shù)據(jù)集成需求和集成的調(diào)度控制,無需人工編碼,快速構(gòu)建數(shù)據(jù)集成應(yīng)用。TI-ETL提供Web形式的統(tǒng)一管理平臺(tái),用于將分布式網(wǎng)絡(luò)環(huán)境
15、中部署的TI-ETL服務(wù)器運(yùn) 行實(shí)例及運(yùn)行在TI-ETL服務(wù)內(nèi)的任務(wù)流程集中統(tǒng)一管理監(jiān)控。提供功能級(jí)和數(shù)據(jù)集的權(quán)限管 理,可定義的錯(cuò)誤告警機(jī)制,自定義面板等。同時(shí)管理平臺(tái)提供豐富的管理Rest API接口和 方便的管理擴(kuò)展機(jī)制,方便客戶集成統(tǒng)一管理平臺(tái)并擴(kuò)展自己的插件集成到平臺(tái)中。31產(chǎn)品組成結(jié)構(gòu)TI-ETL產(chǎn)品架構(gòu)由集成開發(fā)工具TI-ETL Studio、TI-ETL服務(wù)器、資源庫、統(tǒng)一管理平 臺(tái)四大核心部分組成,如下圖所示。ETL服務(wù)器統(tǒng)一管理平臺(tái)集成開發(fā)工具日志查看日志元數(shù)據(jù)認(rèn)證權(quán)限遠(yuǎn)程管理r _文件資源庫瞄庫元數(shù)據(jù)資源庫1資源庫狀態(tài)監(jiān)控圖:TI-ETL v2產(chǎn)品組成結(jié)構(gòu)集成開發(fā)工具TI
16、-ETL Studio集成開發(fā)工具是一個(gè)集開發(fā)、調(diào)試、配置、部署、執(zhí)行、監(jiān)控、日志、管 理等功能于一體的平臺(tái)。通過該平臺(tái)實(shí)現(xiàn)從數(shù)據(jù)集成需求到實(shí)現(xiàn)的快速轉(zhuǎn)化,并實(shí)現(xiàn)對(duì)整個(gè)生 命周期的管理。開發(fā)/調(diào)試TI-ETL Studio提供大量的任務(wù)組件和轉(zhuǎn)化組件,通過這些組件,以圖形化的方式,實(shí)現(xiàn) 數(shù)據(jù)集成流程的快速編排。TI-ETL Studio還提供了功能強(qiáng)大的調(diào)試預(yù)覽功能,可以在開發(fā)過程中實(shí)現(xiàn)數(shù)據(jù)行級(jí)別的 調(diào)試和預(yù)覽,跟蹤和觀察每一行數(shù)據(jù)經(jīng)過數(shù)據(jù)集成流程中每一個(gè)轉(zhuǎn)化組件進(jìn)行加工處理的結(jié) 果。通過集成開發(fā)工具開發(fā)調(diào)試完成的數(shù)據(jù)集成流程保存到資源庫中統(tǒng)一存儲(chǔ)管理。遠(yuǎn)程管理TI-ETL Studio通過E
17、TL服務(wù)器的遠(yuǎn)程接口,實(shí)現(xiàn)對(duì)服務(wù)器的管理。包括數(shù)據(jù)集成流程的 分布式部署、遠(yuǎn)程執(zhí)行、對(duì)執(zhí)行狀態(tài)的實(shí)時(shí)監(jiān)控、對(duì)執(zhí)行日志進(jìn)行查看和分析。TI-ETL Studio的監(jiān)控管理功能可以對(duì)運(yùn)行中的流程執(zhí)行暫停、開始、停止、解部署等控 制,同時(shí)還可以對(duì)數(shù)據(jù)處理狀態(tài)進(jìn)行實(shí)時(shí)監(jiān)控,包括每個(gè)組件處理的記錄數(shù)、過濾的記錄數(shù), 并且可以得到每個(gè)組件處理數(shù)據(jù)的性能指標(biāo)和整個(gè)集成流程的性能指標(biāo)。TONGTECH CO.P LTD.服務(wù)器TI-ETL服務(wù)器是一個(gè)TI-ETL的邏輯節(jié)點(diǎn),包含對(duì)數(shù)據(jù)集成流程的執(zhí)行能力,并通過HTTP 協(xié)議對(duì)外開放對(duì)服務(wù)器的管理接口。 ETL引擎TI-ETL服務(wù)器包含兩個(gè)執(zhí)行引擎:任務(wù)引擎和轉(zhuǎn)
18、換引擎,分別實(shí)現(xiàn)對(duì)任務(wù)調(diào)度管理的任 務(wù)流程和完成對(duì)實(shí)際數(shù)據(jù)抽取、加工處理、加載的轉(zhuǎn)換流程的執(zhí)行。在TI-ETL服務(wù)器啟動(dòng)時(shí),可以檢查部署在該節(jié)點(diǎn)上的數(shù)據(jù)集成流程,并執(zhí)行配置為“自 動(dòng)重啟動(dòng)”的流程,其他非自動(dòng)重啟動(dòng)的流程需要手工啟動(dòng)。在TI-ETL數(shù)據(jù)流程中,數(shù)據(jù)是以行為單位進(jìn)行處理,如下圖所示,TI-ETL通過兩個(gè)對(duì)象 描述一個(gè)數(shù)據(jù)行:數(shù)據(jù)對(duì)象和元信息對(duì)象。數(shù)據(jù)對(duì)象實(shí)際的行數(shù)據(jù),由一個(gè)或多個(gè)數(shù)據(jù)列(字 段)組成;元信息對(duì)象用于描述數(shù)據(jù)對(duì)象,包括數(shù)據(jù)對(duì)象中每個(gè)列(字段)的類型、長度、格 式等。._血 mid Slrsani JMgla由rtaI 匚配d 1一 1 一 二 V =, 皿_.一 1
19、一Hlul監(jiān)控管理接口TI-ETL服務(wù)器還提供了對(duì)運(yùn)行時(shí)的監(jiān)控和管理功能,這些功能通過Java、HTTP、REST等 多種封裝形式對(duì)外開放。通過這些接口,第三方應(yīng)用可以將監(jiān)控管理功能集成到自己的管理控 制臺(tái)中進(jìn)行統(tǒng)一監(jiān)控管理,實(shí)現(xiàn)對(duì)TI-ETL的遠(yuǎn)程管理,如流程部署、流程控制、轉(zhuǎn)換監(jiān)控、 日志查看等功能。認(rèn)證授權(quán)TI-ETL服務(wù)器提供了完善的認(rèn)證授權(quán)機(jī)制,只有通過認(rèn)證和授權(quán)的用戶,才可以通過監(jiān) 控管理接口實(shí)現(xiàn)對(duì)服務(wù)器的管理和監(jiān)控。資源庫TI-ETL資源庫用于持久化存儲(chǔ)TI-ETL的元數(shù)據(jù),包括ETL服務(wù)器的配置信息、任務(wù)流程 信息、轉(zhuǎn)換流程信息、基礎(chǔ)資源信息(如數(shù)據(jù)庫連接)等。TI-ETL提供
20、基于關(guān)系型數(shù)據(jù)庫和文件系統(tǒng)兩種類型的資源庫。一般文件系統(tǒng)資源庫為本 地庫,在開發(fā)階段使用;基于關(guān)系型數(shù)據(jù)庫的資源庫為共享庫,可以作為開發(fā)庫和生產(chǎn)庫使 用。TI-ETL Studio可以連接多個(gè)資源庫,在數(shù)據(jù)集成的開發(fā)調(diào)試階段,可以將任務(wù)流程、轉(zhuǎn) 換流程和其他資源存儲(chǔ)在開發(fā)庫中。而對(duì)于已經(jīng)完成開發(fā)調(diào)試,進(jìn)入發(fā)布階段的流程,可以方 便的導(dǎo)入到生產(chǎn)庫。TI-ETL服務(wù)器也可以配置一個(gè)或多個(gè)資源庫,并可以根據(jù)部署描述符從資源庫中獲取實(shí) 際的流程信息,根據(jù)這些信息實(shí)例化實(shí)際運(yùn)行的集成流程。資源庫的使用不僅可以方便數(shù)據(jù)集成流程的開發(fā)和管理,還可以有效提高數(shù)據(jù)集成流程的 部署效率。統(tǒng)一管理平臺(tái)TI-ETL統(tǒng)
21、一管理平臺(tái),用于將分布式網(wǎng)絡(luò)環(huán)境中部署的TI-ETL服務(wù)器運(yùn)行實(shí)例集中統(tǒng)一 管理。統(tǒng)一管理平臺(tái),提供對(duì)服務(wù)器、部署在服務(wù)器里的任務(wù)流程、轉(zhuǎn)換流程的運(yùn)行狀態(tài)、運(yùn)行 日志、執(zhí)行性能進(jìn)行查看,遠(yuǎn)程的啟動(dòng)、停止、暫停、恢復(fù)等操作;提供統(tǒng)一的權(quán)限管理功 能,包括用戶、組織機(jī)構(gòu)、角色的定義,以及從功能級(jí)、數(shù)據(jù)級(jí)等對(duì)用戶進(jìn)行細(xì)粒度的授權(quán); 提供錯(cuò)誤告警功能,允許用戶自定義告警規(guī)則,支持從告警對(duì)象、告警類型、告警級(jí)別、告警 信息內(nèi)容等信息中提取關(guān)鍵字定義接受規(guī)則、拒絕規(guī)則,只有符合規(guī)則的告警信息才通知用 戶,并支持用戶自定義告警方式,默認(rèn)為郵件通知;提供對(duì)服務(wù)器所在物理機(jī)器的CPU、內(nèi) 存、硬盤資源、網(wǎng)絡(luò)IO
22、等性能指標(biāo)進(jìn)行實(shí)時(shí)監(jiān)控。統(tǒng)一管理平臺(tái)提供對(duì)分布式環(huán)境下交換拓?fù)涞墓芾?,可?duì)方便直觀的以拓?fù)湫问絹砉芾斫?換節(jié)點(diǎn)以及數(shù)據(jù)交換鏈路。TortfflMP統(tǒng)一管理控制臺(tái)015撲圈管理-返|怒所在的位置:工作臺(tái)= 節(jié)卻域 拓音理三栽拓?fù)銼統(tǒng)一管理平臺(tái),提供自定義面板功能,允許用戶將自己關(guān)注的功能、監(jiān)控對(duì)象等定義在 個(gè)頁面上集中展示,并支持將自定義的面板設(shè)置為平臺(tái)主頁,每次登錄時(shí)直接進(jìn)入到該面板, 非常方便管理人員。默認(rèn)提供ETL監(jiān)控概覽面版,可以對(duì)用戶關(guān)注的對(duì)象資源(服務(wù)器、任 務(wù)、轉(zhuǎn)換等)集中配置到一個(gè)視圖中集中監(jiān)控,如下圖:統(tǒng)一管理平臺(tái)提供基于OSGI技術(shù)的插件管理功能,非常方便地安裝和卸載已有的功
23、能插 件,同時(shí)提供插件開發(fā)機(jī)制和規(guī)范,方便用戶擴(kuò)展開發(fā)自己的插件并集成到平臺(tái)中,集中管理 自己的應(yīng)用。3.2產(chǎn)品結(jié)構(gòu)關(guān)系TI-ETL四大組成部分的關(guān)系如下圖所示。統(tǒng)一管理平臺(tái)7.管理6,監(jiān)控信息41使用TI-ETL的具體開發(fā)步驟如下:開發(fā)人員使用TI-ETL的集成開發(fā)工具,進(jìn)行流程的開發(fā)和調(diào)試工作;開發(fā)調(diào)試完成的流程所有相關(guān)信息,統(tǒng)一存儲(chǔ)到TI-ETL資源庫中,作為團(tuán)隊(duì)資源共 享及運(yùn)行時(shí)引用;開發(fā)調(diào)試完成的流程ID信息(流程引用信息),部署到TI-ETL服務(wù)器上;運(yùn)行時(shí), 根據(jù)流程ID信息從TI-ETL資源庫中獲取流程配置信息;管理人員使用TI-ETL的集成開發(fā)工具提供的監(jiān)控功能,或者通過統(tǒng)一
24、管理平臺(tái)、或 者直接使用監(jiān)控管理接口,從TI-ETL服務(wù)器中獲取流程監(jiān)控信息,或者遠(yuǎn)程控制服 務(wù)器、流程的運(yùn)行狀態(tài)。33轉(zhuǎn)換流程和任務(wù)流程TI-ETL通過轉(zhuǎn)換流程、任務(wù)流程這兩種流程配合,可以完成不同系統(tǒng)間的復(fù)雜的數(shù)據(jù)整 合工作。轉(zhuǎn)換流程轉(zhuǎn)換流程負(fù)責(zé)完成數(shù)據(jù)集成過程中的數(shù)據(jù)抽取、轉(zhuǎn)換、加載工作,轉(zhuǎn)換流程由多個(gè)轉(zhuǎn)換組 件編排而成。轉(zhuǎn)換組件是轉(zhuǎn)換流程的最小處理單元,每個(gè)轉(zhuǎn)換組件完成一個(gè)特殊的數(shù)據(jù)處理任 務(wù),多個(gè)轉(zhuǎn)換組件組成一個(gè)轉(zhuǎn)換流程。正是因?yàn)門I-ETL有豐富的轉(zhuǎn)換組件,使得TI-ETL具備 高水準(zhǔn)的數(shù)據(jù)加工處理能力。TI-ETL提供的轉(zhuǎn)換組件如下圖所示:皿壹靖Access童詢S8 Access
25、#出rg Oracle CDC4lft;電 SQLKQg SSQL?R字典衰查找&故振葛。in查道S數(shù)UEi度程調(diào)用O S3RS記M除* S53W記迎入G S35#記M入I新g海座記應(yīng)作0 S3W記M簌q觸發(fā)H:8星壓板Oracle 慮K執(zhí)行SQUte,文件. Exce皮做忻 畢二ExceUfi出2 XM成件嶙忻 3b XM8件編出 文件內(nèi)容力Dft j文件由取 、文 WfifE CU文件行數(shù)技板 上文本文伸析 文本文件編出溫削:主三Y內(nèi)容過濾 O 件獺 篆終止g 0阻塞,JavaScripSQKtS尺值映射句分組A歹浙分為名列i列多行04!字段值替演字段透猝公杓唳切涇李符M替摸_救值范圍的s
26、asjoic臺(tái)井宣流董找?行銬列計(jì)鼻若3記g井IF記畋?此設(shè)置值力Null晦設(shè)置氟量I : I*DXSDS證&琦日志裙 3icMCz5J畝gcM位序5也哈帝)01 3SCM 量凈ah”,Ai.如臬字段值為NullQ3EJJ檢童列是否存在J檢查文件是否存丘*檢查衰是杏噸4卻作孔蝴I息獲取7袤成畦成S ie%Sb8XI記5成Q BM4E涉18機(jī)St生成|巳議 HTTP客戶M(GET) 硬 HTTP*戶M(PO$T)* JMS好Hj JMS接收(Q TLQgS發(fā)送務(wù)TLQ砌岫5& Web展務(wù)濡用晦低%心唳畋件2從靖集云取記錄%夏制文件到結(jié)臬由復(fù)制記炭暢果 獲,tSSSfi食夏記聚云除a-重復(fù)記錄我(
27、)下圖給出了一個(gè)轉(zhuǎn)換流程的示例,它是將不同的轉(zhuǎn)換組件編排在一起,完成了增量數(shù)據(jù)獲取、數(shù)據(jù)內(nèi)容判斷、過濾、錯(cuò)誤數(shù)據(jù)處理等一系列的數(shù)據(jù)加工過程??詹僮魅蝿?wù)流程任務(wù)流程負(fù)責(zé)整個(gè)數(shù)據(jù)集成過程的調(diào)度和管理,如定時(shí)執(zhí)行、周期執(zhí)行、告警等。任務(wù)流 程一般由轉(zhuǎn)換流程組成,從這一點(diǎn)上講,也可以把任務(wù)流程看作轉(zhuǎn)換流程的調(diào)度者,可以對(duì)多 個(gè)轉(zhuǎn)換流程和其他任務(wù)流程(子流程)進(jìn)行流程編排。當(dāng)然,任務(wù)流程也可以由多個(gè)任務(wù)組件 編排而成。任務(wù)組件就是任務(wù)流程的最小處理單元,如開始組件負(fù)責(zé)啟動(dòng)任務(wù)流程,可以設(shè)定 任務(wù)流程的執(zhí)行方式,如一次性任務(wù),定時(shí)啟動(dòng)的任務(wù),循環(huán)性的任務(wù)等。TI-ETL提供的任務(wù)組件如下圖所示:E渺席空操
28、作,、az曜兼握終止曰MW轉(zhuǎn)換c蛔牛-Q誣蛔牛s蝌牛垣物精證lag(Q TLg件發(fā)送熨TLQX件接收弟使FTP發(fā)送文件 硒 FTP?件 腳本.蚌 SQL可執(zhí)行SHELLS本巨文件畚驟果嬲笏gsd寫入文件E創(chuàng)建f目錄n創(chuàng)建文件2冊(cè)除f文件鼬腺除多個(gè)文件企脂除目錄F成文件e復(fù)制或移加果文件名B復(fù)制文件我比較文件他比較目錄m渤咬件2鰻果備移動(dòng)文件十解壓文件|日融-數(shù)據(jù)判斷Q檢直URL是否敬J檢查茹庫途接是杏可用 力檢查文件/目錄是否存壓 J檢查文件是否存在2 是割走定檢查目錄是否為生瞄檢查表星否存在工具性X$D鴦I3 XSLT已寫日志互嘗xMLma式事5SQL等待文件下圖給出了一個(gè)任務(wù)流程示例,它定
29、義了一個(gè)任務(wù)的啟動(dòng)方式,然后要查看文件目錄是否 存在文件,如果不為空,調(diào)度轉(zhuǎn)換流程完成相應(yīng)的數(shù)據(jù)加工工作,如果出錯(cuò),可以通過郵件任務(wù)組件發(fā)郵件通知維護(hù)人員,如果正常就調(diào)用其他任務(wù)流程的過程。4主要功能和特點(diǎn)41大數(shù)據(jù)適配提供HBase的輸入/輸出轉(zhuǎn)換組件,支持與非關(guān)系型數(shù)據(jù)庫HBase進(jìn)行數(shù)據(jù)交互。提供Hadoop HDFS文件拷貝的任務(wù)組件,支持復(fù)制文件到HDFS和復(fù)制HDFS文件到本地。可連接的數(shù)據(jù)庫類型支持Hadoop Hive,SQL查詢組件支持編寫Hive SQL進(jìn)行數(shù)據(jù)查詢。Apache HbaseApache HadooDApache Hive0.980.944.2強(qiáng)健的ETL引
30、擎提供任務(wù)引擎和轉(zhuǎn)換引擎,支撐各種復(fù)雜的數(shù)據(jù)轉(zhuǎn)換流程、任務(wù)調(diào)度流程的高效運(yùn)行,為 大塊、大批量、異構(gòu)的數(shù)據(jù)的整合提供堅(jiān)實(shí)保障。4.3豐富的系統(tǒng)適配基于標(biāo)準(zhǔn)的JDBC、ODBC接口,實(shí)現(xiàn)對(duì)各種主流數(shù)據(jù)庫系統(tǒng)的支持。如Oracle、DB2、SQL Server、Sybase、InfoMix等主流數(shù)據(jù)庫,MySQL、PostgreSQL等開源數(shù)據(jù)庫,達(dá)夢(mèng)、漢高、 神通、GBase8t、KingBase等國產(chǎn)數(shù)據(jù)庫。提供豐富的數(shù)據(jù)文件抽取和加載組件,支持包括普通文本、CSV、XML、Excel等多種格式 的文件。支持HTTP、JMS、FTP、Web Services等協(xié)議和其他應(yīng)用系統(tǒng)進(jìn)行交互。4.4
31、資源統(tǒng)一存儲(chǔ)資源庫為TI-ETL的元數(shù)據(jù)提供了統(tǒng)一的存儲(chǔ)機(jī)制,并對(duì)元數(shù)據(jù)提供各種管理功能,同時(shí) 資源庫還為TI-ETL的分布式部署提供支撐。4.5豐富的處理組件TI-ETL內(nèi)置大量的任務(wù)組件和轉(zhuǎn)換組件,用戶可以通過拖拽的方式快速完成各種復(fù)雜數(shù) 據(jù)集成需求和集成的調(diào)度控制。提供的轉(zhuǎn)換組件覆蓋數(shù)據(jù)映射、數(shù)據(jù)豐富、數(shù)據(jù)計(jì)算、數(shù)據(jù)驗(yàn) 證、數(shù)據(jù)排序、數(shù)據(jù)合并、數(shù)據(jù)拆分、數(shù)據(jù)生成、數(shù)據(jù)去重、數(shù)據(jù)分組、行列轉(zhuǎn)換等復(fù)雜處 理,提供的任務(wù)組件涵蓋定時(shí)調(diào)度、周期循環(huán)調(diào)度等調(diào)度模式組件、以及數(shù)據(jù)處理的一些前 置、后置檢查操作等。4.6多種數(shù)據(jù)抽取模式支持各種數(shù)據(jù)抽取模式,如全量同步、增量同步CDC(基于觸發(fā)器、基于
32、時(shí)間戳、全表比 對(duì)、基于數(shù)據(jù)庫日志分析)、單向同步、雙向同步、文件目錄同步等?;跀?shù)據(jù)庫日志分析的增量抽取支持?jǐn)?shù)據(jù)庫:Oracle,SqlServer2008, Mysql5。4.7圖形化操作/調(diào)試/預(yù)覽能力通過TI-ETL內(nèi)置的大量組件和TI-ETL Studio的可視化圖形界面,使用人員無需編碼, 既可以靈活、方便地定制出各種數(shù)據(jù)集成流程,又能夠減少手工代碼的錯(cuò)誤,還可以利用調(diào)試 預(yù)覽及時(shí)發(fā)現(xiàn)潛在錯(cuò)誤,提升集成質(zhì)量,并能對(duì)ETL服務(wù)器和資源庫進(jìn)行管理,全面提高集成 速度。4.8高效數(shù)據(jù)處理TI-ETL采用異步并行處理的方式實(shí)現(xiàn)數(shù)據(jù)的高效處理,數(shù)據(jù)在TI-ETL中類似于流水線上 的產(chǎn)品,逐行
33、流經(jīng)流程中的每個(gè)組件,每經(jīng)過一個(gè)組件就被加工成一個(gè)既定格式的中間狀態(tài)。 數(shù)據(jù)經(jīng)過一個(gè)組件的處理后被迅速交給下一個(gè)組件處理,同時(shí)當(dāng)前的組件已經(jīng)開始處理新的數(shù) 據(jù)。TI-ETL提供集群部署方式,允許將轉(zhuǎn)換或轉(zhuǎn)換中的比較耗時(shí)的數(shù)據(jù)處理組件部署在多臺(tái) 服務(wù)器上并發(fā)執(zhí)行,從而將轉(zhuǎn)換的工作分?jǐn)偟蕉嗯_(tái)服務(wù)器上,提高TI-ETL的數(shù)據(jù)處理效率。在某國產(chǎn)一體機(jī)硬件環(huán)境下,TI-ETL的處理效率達(dá)到4.5+萬條/秒。4.9異常恢復(fù)和數(shù)據(jù)一致性任務(wù)流程提供多個(gè)調(diào)度機(jī)制和異?;謴?fù)機(jī)制,在異常后,支持自動(dòng)和手動(dòng)恢復(fù)。異?;謴?fù) 可以保證恢復(fù)的流程從異常點(diǎn)開始重新同步,保證數(shù)據(jù)的最終完整性和一致性。4.10強(qiáng)大的監(jiān)控管理功能提供基于JS+REST技術(shù)規(guī)范的前端界面和后臺(tái)數(shù)據(jù)提供相分離的統(tǒng)一管理平臺(tái),界面風(fēng)格 符合扁平化設(shè)計(jì)潮流。提供對(duì)分布式網(wǎng)絡(luò)環(huán)境中部署的TI-ETL服務(wù)器運(yùn)行實(shí)例集中統(tǒng)一管理,包括對(duì)
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 盤龍區(qū)龍泉育才學(xué)校九年級(jí)上學(xué)期語文9月測試卷
- 白云實(shí)驗(yàn)學(xué)校七年級(jí)上學(xué)期語文期中考試試卷
- 自愿放棄就業(yè)協(xié)議書(2篇)
- 獨(dú)特的裝扮說課稿
- 南京工業(yè)大學(xué)浦江學(xué)院《領(lǐng)導(dǎo)科學(xué)》2022-2023學(xué)年第一學(xué)期期末試卷
- 《楊氏之子》說課稿
- 南京工業(yè)大學(xué)浦江學(xué)院《工程造價(jià)課程設(shè)計(jì)》2023-2024學(xué)年第一學(xué)期期末試卷
- 南京工業(yè)大學(xué)浦江學(xué)院《材料與工藝》2022-2023學(xué)年第一學(xué)期期末試卷
- 管樁技術(shù)合作協(xié)議書(2篇)
- 南京工業(yè)大學(xué)《儀器分析專題》2022-2023學(xué)年第一學(xué)期期末試卷
- 音樂欣賞PPT全套完整教學(xué)課件
- 第二章作物需水量和灌溉用水量
- 深圳航空飛行品質(zhì)監(jiān)控系統(tǒng)(FOQA)需求規(guī)格說明書 V2.0
- 消防員培訓(xùn)匯總課件
- 婦聯(lián)婚姻家庭矛盾糾紛化解工作匯報(bào)總結(jié)報(bào)告4篇
- 六年級(jí)數(shù)學(xué)老師家長會(huì)課件PPT
- 幼兒園課件:時(shí)鐘國王
- WSET二級(jí)及考試習(xí)題集錦
- 醫(yī)藥招商策略
- 數(shù)字媒體藝術(shù)與民族文化傳播智慧樹知到答案章節(jié)測試2023年云南藝術(shù)學(xué)院
- 公司宣傳片拍攝報(bào)價(jià)單模板
評(píng)論
0/150
提交評(píng)論