


下載本文檔
版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)
文檔簡介
1、 ti-etl v2 產(chǎn)品白皮書t ongtechti-etl v2ti-etl v2產(chǎn)品白皮書產(chǎn)品白皮書北京東方通科技公司北京東方通科技公司20152015 年年 ti-etl v2 產(chǎn)品白皮書目目 錄錄1 前言 . 12 為什么要用 etl . 12.1 業(yè)務(wù)需求 . 12.2 it 需求. 22.3 it 與業(yè)務(wù)一致性要求. 23 ti-etl v2 簡介 . 33.1 產(chǎn)品組成結(jié)構(gòu) . 33.1.1 集成開發(fā)工具 . 43.1.2 服務(wù)器 . 53.1.3 資源庫 . 53.1.4 統(tǒng)一管理平臺 . 63.2 產(chǎn)品結(jié)構(gòu)關(guān)系 . 73.3 轉(zhuǎn)換流程和任務(wù)流程 . 83.3.1 轉(zhuǎn)換流程
2、. 83.3.2 任務(wù)流程 . 94 主要功能和特點. 104.1 大數(shù)據(jù)適配 . 104.2 強健的 etl 引擎 . 104.3 豐富的系統(tǒng)適配 . 114.4 資源統(tǒng)一存儲 . 114.5 豐富的處理組件 . 114.6 多種數(shù)據(jù)抽取模式 . 114.7 圖形化操作/調(diào)試/預(yù)覽能力 . 114.8 高效數(shù)據(jù)處理 . 124.9 異常恢復(fù)和數(shù)據(jù)一致性 . 124.10 強大的監(jiān)控管理功能 . 124.11 插件式組件管理和可擴展性 . 124.12 國產(chǎn)環(huán)境支持 . 135 成功案例. 13 ti-etl v2 產(chǎn)品白皮書1 1 前言前言隨著 it 應(yīng)用建設(shè)的發(fā)展,數(shù)據(jù)成為了最重要的資源,
3、無論是接地氣的業(yè)務(wù)系統(tǒng)、應(yīng)用軟件、數(shù)據(jù)中心或是高大上的云/物/移/大/智,均是以數(shù)據(jù)資源為核心,依托發(fā)揮數(shù)據(jù)價值而存在和發(fā)展。目前,雖然各行業(yè) it 發(fā)展成熟度不一致,但基本已經(jīng)度過了大批量業(yè)務(wù)系統(tǒng)建設(shè)階段,業(yè)務(wù)系統(tǒng)也經(jīng)過了幾年的運轉(zhuǎn),積累了不同量級的數(shù)據(jù)資源。但因早起it 業(yè)務(wù)系統(tǒng)的很少跨部門、跨單位、跨層級的統(tǒng)一規(guī)劃和建設(shè),導(dǎo)致業(yè)務(wù)系統(tǒng)處于分散、獨立的狀況,業(yè)務(wù)間數(shù)據(jù)資源不僅處于煙囪狀態(tài),數(shù)據(jù)資源的一致性和互用性較差,數(shù)據(jù)資源的價值無法充分發(fā)揮。此外,各行業(yè)自身業(yè)務(wù)也在逐漸多元化和復(fù)雜化,業(yè)務(wù)產(chǎn)生和所需使用的數(shù)據(jù)也就具有不確定和頻繁變動性,導(dǎo)致一旦應(yīng)用發(fā)生變化、新增系統(tǒng)或物理數(shù)據(jù)變動,一旦
4、無法借助某些手段適應(yīng)變化,整個應(yīng)用和數(shù)據(jù)體系均有較大可能不得不隨之修改。數(shù)據(jù)集成是把不同來源、格式、特點性質(zhì)的數(shù)據(jù)在邏輯上或物理上有機地集中,通過應(yīng)用間的數(shù)據(jù)有效流通和流通的管理從而達到集成,主要解決數(shù)據(jù)的分布性、異構(gòu)性、有效性和及時性的問題。此外,數(shù)據(jù)集成是個長期不斷持續(xù)的過程,需要有易用的工具、長期可靠的運行環(huán)境、全面有效的監(jiān)控管理共同支撐,而非僅通過工具可以一次性解決的。etl 是數(shù)據(jù)集成領(lǐng)域的落地技術(shù),區(qū)別與傳統(tǒng)數(shù)據(jù)交換,etl 在可完成基本數(shù)據(jù)交換(抽取、傳輸、裝載)的前提下,對數(shù)據(jù)的轉(zhuǎn)換(即數(shù)據(jù)的按需加工處理)提供更易用和更強大的支持,使數(shù)據(jù)在不同業(yè)務(wù)之間流動的同時,各業(yè)務(wù)獲取到的
5、數(shù)據(jù)確實是可有準確、及時、有效應(yīng)用的。ti-etl 是從傳統(tǒng)數(shù)據(jù)交換產(chǎn)品繼續(xù)發(fā)展的產(chǎn)物,有著多年的數(shù)據(jù)集成領(lǐng)域產(chǎn)品研制的積淀,已在大交通(海/陸/空)、大政府、國防工業(yè)、企業(yè)等行業(yè)核心系統(tǒng)中成功應(yīng)用,輔助眾多行業(yè)和用戶逐漸發(fā)揮出了數(shù)據(jù)的價值,提升了it 支撐業(yè)務(wù)的有效性。2 2 為什么要用為什么要用 etletl2.12.1 業(yè)務(wù)需求業(yè)務(wù)需求it 建設(shè)隨業(yè)務(wù)發(fā)展,業(yè)務(wù)過程以數(shù)據(jù)貫穿,即業(yè)務(wù)有效性的基礎(chǔ)是數(shù)據(jù),且有效性又包含可獲得性、及時性、準確性和一致性。在信息化早起,因信息系統(tǒng)較少、業(yè)務(wù)關(guān)系復(fù)雜度較低,對數(shù)據(jù)關(guān)注度也較低。隨著各單位自身的發(fā)展,內(nèi)部組織機構(gòu)、多級組織機構(gòu)建設(shè)愈發(fā)全1 ti-e
6、tl v2 產(chǎn)品白皮書面,業(yè)務(wù)關(guān)系也愈發(fā)復(fù)雜,各內(nèi)部組織以及跨不同單位之間均會因為業(yè)務(wù)關(guān)聯(lián)產(chǎn)生數(shù)據(jù)有效關(guān)聯(lián)、互用的需求。例如單位內(nèi)人力作為人資管理的職能部門,新人入職、人員在部門間調(diào)動、人員崗位晉升等人員變動情況會影響向財務(wù)、檔案、信息管理等多個部門的業(yè)務(wù),包括工資漲降、檔案歸檔、固定資產(chǎn)關(guān)聯(lián)等等,即人資信息發(fā)生變化時需要其它同樣存儲了該信息的業(yè)務(wù)部門也能夠自動完成信息變更。例如部委需要從各下級委辦局匯總數(shù)據(jù),各委辦局業(yè)務(wù)系統(tǒng)可能是分別由不同廠商建設(shè),雖然是處理同樣的業(yè)務(wù),但業(yè)務(wù)系統(tǒng)存儲數(shù)據(jù)的格式和方式不同。以數(shù)據(jù)項“部門名稱”為例,有的業(yè)務(wù)系統(tǒng)存儲是的漢字,也的存儲的可能是數(shù)字編碼,此時雖然
7、數(shù)據(jù)都能匯總到一起,但數(shù)據(jù)卻無法合并,即使匯總后也可能無法支撐業(yè)務(wù)。2.22.2 itit 需求需求數(shù)據(jù)大多以數(shù)據(jù)庫、文件為存儲載體,數(shù)據(jù)庫和文件又存在多個品牌和版本,所以業(yè)務(wù)數(shù)據(jù)往往是分散在不同品牌、版本的數(shù)據(jù)庫和文件中,業(yè)務(wù)系統(tǒng)間能夠按需的互用數(shù)據(jù)則需要通過 it 手段實現(xiàn)對不同數(shù)據(jù)源的按需適配、按需采集、按需處理、按需裝載以及通過圖形化界面操作定義數(shù)據(jù)間的關(guān)系和處理邏輯,實現(xiàn)一次定義長期有效執(zhí)行,同時提供全局的可視化監(jiān)控管理,能夠隨時掌握業(yè)務(wù)間數(shù)據(jù)交互的有效性。2.32.3 itit 與業(yè)務(wù)一致性要求與業(yè)務(wù)一致性要求“按需”是業(yè)務(wù)訴求,對應(yīng)it 則包括了采集、加工處理、裝載、監(jiān)控、運維、
8、管理等技術(shù)要求,以滿足業(yè)務(wù)層面對可獲得性、及時性、準確性、一致性的需求,多以etl 產(chǎn)品和技術(shù)實現(xiàn) it 支撐:(1) etl 提供多種數(shù)據(jù)源適配組件,可與多種主流數(shù)據(jù)庫、文件、通信協(xié)議進行對接,保障采集的全面適配,提供高可獲得性。(2) etl 提供觸發(fā)器、時間、cdc 等多種數(shù)據(jù)采集模式,可根據(jù)業(yè)務(wù)對及時性的定義以及業(yè)務(wù)數(shù)據(jù)存儲的現(xiàn)狀選擇不同模式,并且提供并行等高效處理機制,提供高及時性。(3) etl 提供豐富的數(shù)據(jù)加工處理組件達到100+,且可根據(jù)業(yè)務(wù)規(guī)則靈活拼接處理流程,提供高準確性和高一致性。(4) etl 提供基于 web 的監(jiān)控管理中心,在滿足核心業(yè)務(wù)需求的同時提供易用、可視的
9、運維、監(jiān)控、管理、監(jiān)視的統(tǒng)一管理能力。2 ti-etl v2 產(chǎn)品白皮書3 3 ti-etl v2ti-etl v2 簡介簡介東方通數(shù)據(jù)集成產(chǎn)品 ti-etl,提供對企業(yè)數(shù)據(jù)的集成處理功能。通過ti-etl 產(chǎn)品,用戶可以從不同結(jié)構(gòu)的數(shù)據(jù)源中抽取數(shù)據(jù)(extract),對數(shù)據(jù)進行復(fù)雜的加工處理(transform),最后將數(shù)據(jù)加載到各種存儲結(jié)構(gòu)中(load)。例如實現(xiàn)從多個異構(gòu)的數(shù)據(jù)源(不同數(shù)據(jù)庫、結(jié)構(gòu)化文件等)抽取數(shù)據(jù),并加工成統(tǒng)一的數(shù)據(jù)格式,最后加載到數(shù)據(jù)倉庫中,供商業(yè)智能(business intelligent,bi)等應(yīng)用使用。ti-etl 提供一個簡單易用的開發(fā)、管理工具,提供覆蓋
10、從數(shù)據(jù)集成邏輯的設(shè)計、開發(fā)、調(diào)試、部署,到運行、管理、監(jiān)控各個生命周期不同階段的集成開發(fā)工具。通過ti-etl 可以實現(xiàn)對數(shù)據(jù)集成流程的開發(fā)和部署;通過監(jiān)控和日志功能,可以實現(xiàn)對數(shù)據(jù)集成的運行過程進行實時監(jiān)視,對集成流程歷史數(shù)據(jù)進行分析。ti-etl 提供了一個強健、高效的數(shù)據(jù)處理引擎,支撐各種復(fù)雜的數(shù)據(jù)轉(zhuǎn)換流程、任務(wù)調(diào)度流程的高效運行。引擎采取異步并行處理的技術(shù),實現(xiàn)流程中的每個組件多線程并行高效處理;支持集群部署方式,允許將轉(zhuǎn)換或轉(zhuǎn)換中的比較耗時的數(shù)據(jù)處理組件部署在多臺服務(wù)器上并發(fā)執(zhí)行,從而將轉(zhuǎn)換的工作分攤到多臺服務(wù)器上,從而提高tietl 的數(shù)據(jù)處理效率。ti-etl 基于 java 技
11、術(shù)和標準數(shù)據(jù)庫接口(jdbc、odbc 等),支持部署在各種主流操作系統(tǒng)和國產(chǎn)操作系統(tǒng)上,支持與各種主流數(shù)據(jù)庫、開源數(shù)據(jù)庫、國產(chǎn)數(shù)據(jù)庫的接入,支持對各種結(jié)構(gòu)化/非結(jié)構(gòu)化格式文件的讀寫,以及通過多種協(xié)議與其他應(yīng)用系統(tǒng)的交互。ti-etl 提供大量的任務(wù)組件和轉(zhuǎn)換組件,如多源的數(shù)據(jù)合并、數(shù)據(jù)的路由、數(shù)據(jù)行列轉(zhuǎn)換、字典表查詢、定時重啟、循環(huán)調(diào)度、流程告警等,用戶可以通過拖拽方式快速完成各種復(fù)雜的數(shù)據(jù)集成需求和集成的調(diào)度控制,無需人工編碼,快速構(gòu)建數(shù)據(jù)集成應(yīng)用。ti-etl 提供 web 形式的統(tǒng)一管理平臺,用于將分布式網(wǎng)絡(luò)環(huán)境中部署的ti-etl 服務(wù)器運行實例及運行在 ti-etl 服務(wù)內(nèi)的任務(wù)流
12、程集中統(tǒng)一管理監(jiān)控。提供功能級和數(shù)據(jù)集的權(quán)限管理,可定義的錯誤告警機制,自定義面板等。 同時管理平臺提供豐富的管理rest api 接口和方便的管理擴展機制,方便客戶集成統(tǒng)一管理平臺并擴展自己的插件集成到平臺中。3.13.1 產(chǎn)品組成結(jié)構(gòu)產(chǎn)品組成結(jié)構(gòu)ti-etl 產(chǎn)品架構(gòu)由集成開發(fā)工具ti-etl studio、ti-etl 服務(wù)器、資源庫、統(tǒng)一管理平臺四大核心部分組成,如下圖所示。3 ti-etl v2 產(chǎn)品白皮書圖:ti-etl v2 產(chǎn)品組成結(jié)構(gòu).1 集成開發(fā)工具集成開發(fā)工具ti-etl studio 集成開發(fā)工具是一個集開發(fā)、調(diào)試、配置、部署、執(zhí)行、監(jiān)控、日志、管理等功
13、能于一體的平臺。通過該平臺實現(xiàn)從數(shù)據(jù)集成需求到實現(xiàn)的快速轉(zhuǎn)化,并實現(xiàn)對整個生命周期的管理。開開發(fā)發(fā)/ /調(diào)試調(diào)試ti-etl studio 提供大量的任務(wù)組件和轉(zhuǎn)化組件,通過這些組件,以圖形化的方式,實現(xiàn)數(shù)據(jù)集成流程的快速編排。ti-etl studio 還提供了功能強大的調(diào)試預(yù)覽功能,可以在開發(fā)過程中實現(xiàn)數(shù)據(jù)行級別的調(diào)試和預(yù)覽,跟蹤和觀察每一行數(shù)據(jù)經(jīng)過數(shù)據(jù)集成流程中每一個轉(zhuǎn)化組件進行加工處理的結(jié)果。通過集成開發(fā)工具開發(fā)調(diào)試完成的數(shù)據(jù)集成流程保存到資源庫中統(tǒng)一存儲管理。遠遠程管理程管理ti-etl studio 通過 etl 服務(wù)器的遠程接口,實現(xiàn)對服務(wù)器的管理。包括數(shù)據(jù)集成流程的分布式部署、
14、遠程執(zhí)行、對執(zhí)行狀態(tài)的實時監(jiān)控、對執(zhí)行日志進行查看和分析。ti-etl studio 的監(jiān)控管理功能可以對運行中的流程執(zhí)行暫停、開始、停止、解部署等控制,同時還可以對數(shù)據(jù)處理狀態(tài)進行實時監(jiān)控,包括每個組件處理的記錄數(shù)、過濾的記錄數(shù),并且可以得到每個組件處理數(shù)據(jù)的性能指標和整個集成流程的性能指標。4 ti-etl v2 產(chǎn)品白皮書.2 服務(wù)器服務(wù)器ti-etl 服務(wù)器是一個 ti-etl 的邏輯節(jié)點,包含對數(shù)據(jù)集成流程的執(zhí)行能力,并通過http協(xié)議對外開放對服務(wù)器的管理接口。e etltl 引擎引擎ti-etl 服務(wù)器包含兩個執(zhí)行引擎:任務(wù)引擎和轉(zhuǎn)換引擎,分別實現(xiàn)對任務(wù)調(diào)度管理的
15、任務(wù)流程和完成對實際數(shù)據(jù)抽取、加工處理、加載的轉(zhuǎn)換流程的執(zhí)行。在 ti-etl 服務(wù)器啟動時,可以檢查部署在該節(jié)點上的數(shù)據(jù)集成流程,并執(zhí)行配置為“自動重啟動”的流程,其他非自動重啟動的流程需要手工啟動。在 ti-etl 數(shù)據(jù)流程中,數(shù)據(jù)是以行為單位進行處理,如下圖所示,ti-etl 通過兩個對象描述一個數(shù)據(jù)行:數(shù)據(jù)對象和元信息對象。數(shù)據(jù)對象實際的行數(shù)據(jù),由一個或多個數(shù)據(jù)列(字段)組成;元信息對象用于描述數(shù)據(jù)對象,包括數(shù)據(jù)對象中每個列(字段)的類型、長度、格式等。監(jiān)監(jiān)控管理接口控管理接口ti-etl 服務(wù)器還提供了對運行時的監(jiān)控和管理功能,這些功能通過java、http、rest 等多種封裝形式
16、對外開放。通過這些接口,第三方應(yīng)用可以將監(jiān)控管理功能集成到自己的管理控制臺中進行統(tǒng)一監(jiān)控管理,實現(xiàn)對ti-etl 的遠程管理,如流程部署、流程控制、轉(zhuǎn)換監(jiān)控、日志查看等功能。認認證授權(quán)證授權(quán)ti-etl 服務(wù)器提供了完善的認證授權(quán)機制,只有通過認證和授權(quán)的用戶,才可以通過監(jiān)控管理接口實現(xiàn)對服務(wù)器的管理和監(jiān)控。.3 資源庫資源庫ti-etl 資源庫用于持久化存儲ti-etl 的元數(shù)據(jù),包括 etl 服務(wù)器的配置信息、任務(wù)流程信息、轉(zhuǎn)換流程信息、基礎(chǔ)資源信息(如數(shù)據(jù)庫連接)等。5 ti-etl v2 產(chǎn)品白皮書ti-etl 提供基于關(guān)系型數(shù)據(jù)庫和文件系統(tǒng)兩種類型的資源庫。一般文件系
17、統(tǒng)資源庫為本地庫,在開發(fā)階段使用;基于關(guān)系型數(shù)據(jù)庫的資源庫為共享庫,可以作為開發(fā)庫和生產(chǎn)庫使用。ti-etl studio 可以連接多個資源庫,在數(shù)據(jù)集成的開發(fā)調(diào)試階段,可以將任務(wù)流程、轉(zhuǎn)換流程和其他資源存儲在開發(fā)庫中。而對于已經(jīng)完成開發(fā)調(diào)試,進入發(fā)布階段的流程,可以方便的導(dǎo)入到生產(chǎn)庫。ti-etl 服務(wù)器也可以配置一個或多個資源庫,并可以根據(jù)部署描述符從資源庫中獲取實際的流程信息,根據(jù)這些信息實例化實際運行的集成流程。資源庫的使用不僅可以方便數(shù)據(jù)集成流程的開發(fā)和管理,還可以有效提高數(shù)據(jù)集成流程的部署效率。.4 統(tǒng)一管理平臺統(tǒng)一管理平臺ti-etl 統(tǒng)一管理平臺,用于將分布式網(wǎng)
18、絡(luò)環(huán)境中部署的ti-etl 服務(wù)器運行實例集中統(tǒng)一管理。統(tǒng)一管理平臺,提供對服務(wù)器、部署在服務(wù)器里的任務(wù)流程、轉(zhuǎn)換流程的運行狀態(tài)、運行日志、執(zhí)行性能進行查看,遠程的啟動、停止、暫停、恢復(fù)等操作;提供統(tǒng)一的權(quán)限管理功能,包括用戶、組織機構(gòu)、角色的定義,以及從功能級、數(shù)據(jù)級等對用戶進行細粒度的授權(quán);提供錯誤告警功能,允許用戶自定義告警規(guī)則,支持從告警對象、告警類型、告警級別、告警信息內(nèi)容等信息中提取關(guān)鍵字定義接受規(guī)則、拒絕規(guī)則,只有符合規(guī)則的告警信息才通知用戶,并支持用戶自定義告警方式,默認為郵件通知;提供對服務(wù)器所在物理機器的cpu、內(nèi)存、硬盤資源、網(wǎng)絡(luò) io 等性能指標進行實時監(jiān)控。統(tǒng)一管理平
19、臺提供對分布式環(huán)境下交換拓撲的管理,可對方便直觀的以拓撲形式來管理交換節(jié)點以及數(shù)據(jù)交換鏈路。6 ti-etl v2 產(chǎn)品白皮書統(tǒng)一管理平臺,提供自定義面板功能,允許用戶將自己關(guān)注的功能、監(jiān)控對象等定義在一個頁面上集中展示,并支持將自定義的面板設(shè)置為平臺主頁,每次登錄時直接進入到該面板,非常方便管理人員。默認提供etl 監(jiān)控概覽面版,可以對用戶關(guān)注的對象資源(服務(wù)器、任務(wù)、轉(zhuǎn)換等)集中配置到一個視圖中集中監(jiān)控,如下圖:統(tǒng)一管理平臺提供基于 osgi 技術(shù)的插件管理功能,非常方便地安裝和卸載已有的功能插件,同時提供插件開發(fā)機制和規(guī)范,方便用戶擴展開發(fā)自己的插件并集成到平臺中,集中管理自己的應(yīng)用。3
20、.23.2 產(chǎn)品結(jié)構(gòu)關(guān)系產(chǎn)品結(jié)構(gòu)關(guān)系ti-etl 四大組成部分的關(guān)系如下圖所示。7 ti-etl v2 產(chǎn)品白皮書使用 ti-etl 的具體開發(fā)步驟如下:(1) 開發(fā)人員使用 ti-etl 的集成開發(fā)工具,進行流程的開發(fā)和調(diào)試工作;(2) 開發(fā)調(diào)試完成的流程所有相關(guān)信息,統(tǒng)一存儲到ti-etl 資源庫中,作為團隊資源共享及運行時引用;(3) 開發(fā)調(diào)試完成的流程 id 信息(流程引用信息),部署到ti-etl 服務(wù)器上;運行時,根據(jù)流程 id 信息從 ti-etl 資源庫中獲取流程配置信息;(4) 管理人員使用 ti-etl 的集成開發(fā)工具提供的監(jiān)控功能,或者通過統(tǒng)一管理平臺、或者直接使用監(jiān)控管
21、理接口,從ti-etl 服務(wù)器中獲取流程監(jiān)控信息,或者遠程控制服務(wù)器、流程的運行狀態(tài)。3.33.3 轉(zhuǎn)換流程和任務(wù)流程轉(zhuǎn)換流程和任務(wù)流程ti-etl 通過轉(zhuǎn)換流程、任務(wù)流程這兩種流程配合,可以完成不同系統(tǒng)間的復(fù)雜的數(shù)據(jù)整合工作。.1 轉(zhuǎn)換流程轉(zhuǎn)換流程轉(zhuǎn)換流程負責完成數(shù)據(jù)集成過程中的數(shù)據(jù)抽取、轉(zhuǎn)換、加載工作,轉(zhuǎn)換流程由多個轉(zhuǎn)換組件編排而成。轉(zhuǎn)換組件是轉(zhuǎn)換流程的最小處理單元,每個轉(zhuǎn)換組件完成一個特殊的數(shù)據(jù)處理任務(wù),多個轉(zhuǎn)換組件組成一個轉(zhuǎn)換流程。正是因為ti-etl 有豐富的轉(zhuǎn)換組件,使得ti-etl 具備高水準的數(shù)據(jù)加工處理能力。ti-etl 提供的轉(zhuǎn)換組件如下圖所示:8 ti-e
22、tl v2 產(chǎn)品白皮書下圖給出了一個轉(zhuǎn)換流程的示例,它是將不同的轉(zhuǎn)換組件編排在一起,完成了增量數(shù)據(jù)獲取、數(shù)據(jù)內(nèi)容判斷、過濾、錯誤數(shù)據(jù)處理等一系列的數(shù)據(jù)加工過程。.2 任務(wù)流程任務(wù)流程任務(wù)流程負責整個數(shù)據(jù)集成過程的調(diào)度和管理,如定時執(zhí)行、周期執(zhí)行、告警等。任務(wù)流程一般由轉(zhuǎn)換流程組成,從這一點上講,也可以把任務(wù)流程看作轉(zhuǎn)換流程的調(diào)度者,可以對多個轉(zhuǎn)換流程和其他任務(wù)流程(子流程)進行流程編排。當然,任務(wù)流程也可以由多個任務(wù)組件編排而成。任務(wù)組件就是任務(wù)流程的最小處理單元,如開始組件負責啟動任務(wù)流程,可以設(shè)定任務(wù)流程的執(zhí)行方式,如一次性任務(wù),定時啟動的任務(wù),循環(huán)性的任務(wù)等。ti-etl
23、 提供的任務(wù)組件如下圖所示:9 ti-etl v2 產(chǎn)品白皮書下圖給出了一個任務(wù)流程示例,它定義了一個任務(wù)的啟動方式,然后要查看文件目錄是否存在文件,如果不為空,調(diào)度轉(zhuǎn)換流程完成相應(yīng)的數(shù)據(jù)加工工作,如果出錯,可以通過郵件任務(wù)組件發(fā)郵件通知維護人員,如果正常就調(diào)用其他任務(wù)流程的過程。4 4 主要功能和特點主要功能和特點4.14.1 大數(shù)據(jù)適配大數(shù)據(jù)適配提供 hbase 的輸入/輸出轉(zhuǎn)換組件,支持與非關(guān)系型數(shù)據(jù)庫hbase 進行數(shù)據(jù)交互。提供 hadoop hdfs 文件拷貝的任務(wù)組件,支持復(fù)制文件到hdfs 和復(fù)制 hdfs 文件到本地??蛇B接的數(shù)據(jù)庫類型支持hadoop hive,sql 查詢
24、組件支持編寫 hive sql 進行數(shù)據(jù)查詢。apache hbaseapache hbaseapache hadoopapache hadoopapache hiveapache hive 0.982.4.x1.0.0 0.941.2.x1.0.04.24.2 強健的強健的 etletl 引擎引擎提供任務(wù)引擎和轉(zhuǎn)換引擎,支撐各種復(fù)雜的數(shù)據(jù)轉(zhuǎn)換流程、任務(wù)調(diào)度流程的高效運行,為大塊、大批量、異構(gòu)的數(shù)據(jù)的整合提供堅實保障。10 ti-etl v2 產(chǎn)品白皮書4.34.3豐富的系統(tǒng)適配豐富的系統(tǒng)適配基于標準的 jdbc、odbc 接口,實現(xiàn)對各種主流數(shù)據(jù)庫系統(tǒng)的支持。如oracle、db2、sqls
25、erver、sybase、infomix 等主流數(shù)據(jù)庫,mysql、postgresql 等開源數(shù)據(jù)庫,達夢、漢高、神通、gbase8t、kingbase 等國產(chǎn)數(shù)據(jù)庫。提供豐富的數(shù)據(jù)文件抽取和加載組件,支持包括普通文本、csv、xml、excel 等多種格式的文件。支持 http、jms、ftp、web services 等協(xié)議和其他應(yīng)用系統(tǒng)進行交互。4.44.4 資源統(tǒng)一存儲資源統(tǒng)一存儲資源庫為 ti-etl 的元數(shù)據(jù)提供了統(tǒng)一的存儲機制,并對元數(shù)據(jù)提供各種管理功能,同時資源庫還為 ti-etl 的分布式部署提供支撐。4.54.5 豐富的處理組件豐富的處理組件ti-etl 內(nèi)置大量的任務(wù)組
26、件和轉(zhuǎn)換組件,用戶可以通過拖拽的方式快速完成各種復(fù)雜數(shù)據(jù)集成需求和集成的調(diào)度控制。提供的轉(zhuǎn)換組件覆蓋數(shù)據(jù)映射、數(shù)據(jù)豐富、數(shù)據(jù)計算、數(shù)據(jù)驗證、數(shù)據(jù)排序、數(shù)據(jù)合并、數(shù)據(jù)拆分、數(shù)據(jù)生成、數(shù)據(jù)去重、數(shù)據(jù)分組、行列轉(zhuǎn)換等復(fù)雜處理,提供的任務(wù)組件涵蓋定時調(diào)度、周期循環(huán)調(diào)度等調(diào)度模式組件、以及數(shù)據(jù)處理的一些前置、后置檢查操作等。4.64.6 多種數(shù)據(jù)抽取模式多種數(shù)據(jù)抽取模式支持各種數(shù)據(jù)抽取模式,如全量同步、增量同步cdc(基于觸發(fā)器、基于時間戳、全表比對、基于數(shù)據(jù)庫日志分析)、單向同步、雙向同步、文件目錄同步等?;跀?shù)據(jù)庫日志分析的增量抽取支持數(shù)據(jù)庫:oracle,sqlserver2008,mysql5。
27、4.74.7 圖形化操作圖形化操作/ /調(diào)試調(diào)試/ /預(yù)覽能力預(yù)覽能力通過 ti-etl 內(nèi)置的大量組件和 ti-etl studio 的可視化圖形界面,使用人員無需編碼,既可以靈活、方便地定制出各種數(shù)據(jù)集成流程,又能夠減少手工代碼的錯誤,還可以利用調(diào)試預(yù)覽及時發(fā)現(xiàn)潛在錯誤,提升集成質(zhì)量,并能對etl 服務(wù)器和資源庫進行管理,全面提高集成速度。11 ti-etl v2 產(chǎn)品白皮書4.84.8 高效數(shù)據(jù)處理高效數(shù)據(jù)處理ti-etl 采用異步并行處理的方式實現(xiàn)數(shù)據(jù)的高效處理,數(shù)據(jù)在ti-etl 中類似于流水線上的產(chǎn)品,逐行流經(jīng)流程中的每個組件,每經(jīng)過一個組件就被加工成一個既定格式的中間狀態(tài)。數(shù)據(jù)經(jīng)
28、過一個組件的處理后被迅速交給下一個組件處理,同時當前的組件已經(jīng)開始處理新的數(shù)據(jù)。ti-etl 提供集群部署方式,允許將轉(zhuǎn)換或轉(zhuǎn)換中的比較耗時的數(shù)據(jù)處理組件部署在多臺服務(wù)器上并發(fā)執(zhí)行,從而將轉(zhuǎn)換的工作分攤到多臺服務(wù)器上,提高ti-etl 的數(shù)據(jù)處理效率。在某國產(chǎn)一體機硬件環(huán)境下,ti-etl 的處理效率達到 4.5+萬條/秒。4.94.9 異?;謴?fù)和數(shù)據(jù)一致性異常恢復(fù)和數(shù)據(jù)一致性任務(wù)流程提供多個調(diào)度機制和異?;謴?fù)機制,在異常后,支持自動和手動恢復(fù)。異?;謴?fù)可以保證恢復(fù)的流程從異常點開始重新同步,保證數(shù)據(jù)的最終完整性和一致性。4.104.10 強大的監(jiān)控管理功能強大的監(jiān)控管理功能提供基于 js+rest 技術(shù)規(guī)范的前端界面和后臺數(shù)據(jù)提供相分離的統(tǒng)一管理平臺,界面風格符合扁平化設(shè)計潮流。提供對分布式網(wǎng)絡(luò)環(huán)境中部署的ti-etl 服務(wù)器運行實例集中統(tǒng)一管理,包括對服務(wù)器、流程的運行狀態(tài)、運行日志、執(zhí)行性能的查看,以及遠程的啟動、停止、暫停、恢復(fù)等管理操作,支持統(tǒng)一的權(quán)限管理配置、錯誤告警等功能。提供插件管理機制,方便用戶安裝、卸載已有的功能插件,允許用戶自定義自己的功能插件,并集成到統(tǒng)一管理平臺中。提供自定義面板功能,方便用戶在一個視圖中集中展示自己關(guān)注的內(nèi)容。提供 java、http、re
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 車站安全協(xié)議書
- 餐廳受傷協(xié)議書
- 喪葬費賠償協(xié)議書
- 解除三方協(xié)議書
- 高齡泳池協(xié)議書
- 飯?zhí)米赓U協(xié)議書
- 車間保密協(xié)議書
- 做工程出資協(xié)議書
- 隧洞承包協(xié)議書
- 鋼筋買賣協(xié)議書
- 小微企業(yè)安全生產(chǎn)管理工作臺賬全
- 建設(shè)單位施工管理辦法
- 智慧農(nóng)業(yè)種苗管理系統(tǒng)設(shè)計方案
- 人教版八年級物理下冊 實驗題04 機械能的實驗(含答案詳解)
- 失能老人日常生活能力評分表
- 冀教版三至四年級《發(fā)展柔韌性練習》評課稿
- 肺動脈瓣狹窄球囊擴張術(shù)臨床路徑
- 一年級語文繪本《烏鴉面包店》課件PPT
- 消化系統(tǒng)(寵物解剖生理)
- 漢語拼音聲母韻母拼讀全表打印版
- 運動系統(tǒng)病例分析01
評論
0/150
提交評論