




版權說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權,請進行舉報或認領
文檔簡介
1、企業(yè)數(shù)據(jù)集成DI平臺介紹企業(yè)數(shù)據(jù)集成平臺概述企業(yè)數(shù)據(jù)集成功能特性企業(yè)數(shù)據(jù)集成應用場景目錄前言:數(shù)據(jù)集成的定義數(shù)據(jù)集成就是把不同來源、格式、特性的數(shù)據(jù)在邏輯上和物理上有機地集中,從而為企業(yè)應用系統(tǒng)提供全面的數(shù)據(jù)共享。OracleMySQLDB2SybaseXML文件TXT共享庫Excel主題庫主題庫主題庫源數(shù)據(jù)前言:數(shù)據(jù)集成的定義(續(xù))數(shù)據(jù)集成的目的:數(shù)據(jù)統(tǒng)一存儲、統(tǒng)一管理、保證數(shù)據(jù)一致性異構(gòu)系統(tǒng)之間的數(shù)據(jù)共享提供統(tǒng)一的數(shù)據(jù)視圖數(shù)據(jù)集成是IT系統(tǒng)整合的首要任務,是信息整合的基礎通常采用的數(shù)據(jù)集成方式有:聯(lián)邦式、基于中間件模型和數(shù)據(jù)中心、數(shù)據(jù)倉庫服務集成流程集成界面集成數(shù)據(jù)集成應用系統(tǒng)整合前言:當
2、前企業(yè)數(shù)據(jù)集成中遇到的困擾55 快速構(gòu)建流程應用企業(yè)級性能穩(wěn)定性敏捷響應流程優(yōu)化調(diào)整應用系統(tǒng)的管控圖形化、腳本化的數(shù)據(jù)處理模型實現(xiàn)異構(gòu)數(shù)據(jù)源的數(shù)據(jù)處理數(shù)據(jù)集成平臺易學易用二次擴展開發(fā)能力1 快速構(gòu)建數(shù)據(jù)處理模型:對海量數(shù)據(jù)處理能力的需求不斷增加每天要執(zhí)行上千個job,每個job要處理上千萬條數(shù)據(jù)如何應對未知的數(shù)據(jù)異常。3 企業(yè)級性能穩(wěn)定性:模型監(jiān)控管理模型調(diào)度管理自定義作業(yè)管理作業(yè)自動化處理系統(tǒng)管理4 數(shù)據(jù)處理模型的管控:業(yè)務變化與調(diào)整導致數(shù)據(jù)結(jié)構(gòu)不斷變化傳統(tǒng)的手工編碼或存儲過程已經(jīng)無法滿足快速變化的需求2 敏捷響應數(shù)據(jù)結(jié)構(gòu)優(yōu)化調(diào)整:企業(yè)數(shù)據(jù)集成平臺概述企業(yè)數(shù)據(jù)集成功能特性企業(yè)數(shù)據(jù)集成應用場景
3、目錄企業(yè)數(shù)據(jù)集成平臺(DI)的定位與目標7基于元數(shù)據(jù)驅(qū)動的數(shù)據(jù)集成平臺豐富的數(shù)據(jù)處理模式以及數(shù)據(jù)轉(zhuǎn)換功能靈活的二次開發(fā)接口,適應各種數(shù)據(jù)結(jié)構(gòu)支持各種關系數(shù)據(jù)庫、空間數(shù)據(jù)庫、半結(jié)構(gòu)化數(shù)據(jù)、非結(jié)構(gòu)化數(shù)據(jù)強大的ETL管控與統(tǒng)一的作業(yè)調(diào)度與監(jiān)控平臺可作為第三方ETL工具的有效補充打造企業(yè)級數(shù)據(jù)交換平臺提供統(tǒng)一的調(diào)度管理與監(jiān)控平臺自動化作業(yè)生成平臺,提高開發(fā)效率和質(zhì)量產(chǎn)品功能定位產(chǎn)品目標企業(yè)數(shù)據(jù)集成平臺(DI)功能架構(gòu)DI Studio模型設計工具調(diào)度設計工具調(diào)試工具性能監(jiān)控工具Metadata WarehouseDI Server業(yè)務模型引擎任務調(diào)度引擎元數(shù)據(jù)引擎消息構(gòu)建元數(shù)據(jù)解析集群部署元數(shù)據(jù)查找流
4、向控制模型導入異常機制模型導出分布式處理引擎DI Component Library全量抽取定時服務通知服務郵件服務文件驗證邏輯判斷FTP服務文件比較SQL執(zhí)行增量抽取文本抽取批量裝載選擇性裝載JavaScript數(shù)據(jù)合并數(shù)據(jù)映射數(shù)據(jù)拆分數(shù)據(jù)排序數(shù)據(jù)分類數(shù)據(jù)過濾DI Governor模型監(jiān)控管理模型調(diào)度管理模型部署管理作業(yè)自動化系統(tǒng)管理作業(yè)管理企業(yè)數(shù)據(jù)集成平臺(DI)部署結(jié)構(gòu)DBDBXML文件ExcelDI Server1/JVMDI Server2/JVMDI Server3/JVMDI Studio/JVMDI Governor/J2EEDI Metadata Warehouse/DB數(shù)據(jù)
5、中心數(shù)據(jù)源DI Server ClusterDI功能組成-可視化設計界面(Studio)可視化設計界面(Studio)提供了數(shù)據(jù)模型設計、任務調(diào)度設計、運行監(jiān)控管理等一體化的集成開發(fā)環(huán)境10DI功能組成-組件庫組件庫是DI產(chǎn)品的功能組件倉庫,產(chǎn)品預制了幾十種數(shù)據(jù)抽取、轉(zhuǎn)換、裝載的常用組件以及任務調(diào)度組件,提供了企業(yè)數(shù)據(jù)整合中的常用功能業(yè)務模型組件集:對數(shù)據(jù)本身進行操作的組件集合任務調(diào)度組件集:對設計好的數(shù)據(jù)流程進行管理調(diào)度的組件集數(shù)據(jù)抽取組件數(shù)據(jù)轉(zhuǎn)換組件數(shù)據(jù)裝載組件DI功能組成-服務引擎(Server)服務引擎不依賴任何J2EE應用服務器,獨立部署在JVM之上包括業(yè)務模型引擎、任務調(diào)度引擎、元
6、數(shù)據(jù)引擎以及分布式處理引擎它是模型文件解析以及數(shù)據(jù)處理模型運行的平臺JAVA(JVM)DI Server業(yè)務模型引擎任務調(diào)度引擎元數(shù)據(jù)引擎分布式處理引擎DI功能組成-元數(shù)據(jù)倉庫(Metadata Warehouse)DI Server1/JVMDI Studio/JVMMetadataWarehouse(DB)基于關系型數(shù)據(jù)庫用于存儲數(shù)據(jù)處理流程信息(數(shù)據(jù)源、轉(zhuǎn)換規(guī)格、路由條件等)元數(shù)據(jù)建模上傳元數(shù)據(jù)解析構(gòu)建流程實例執(zhí)行企業(yè)數(shù)據(jù)集成平臺功能組成-調(diào)度與管理調(diào)度與管理是一個ETL管控及實施工藝促進平臺,不但可以調(diào)度PrimetonDI提供的ETL工具,更可以調(diào)度其他第三方ETL工具,如:Data
7、stage、Powercenter等調(diào)度與管理提供了一個統(tǒng)一的作業(yè)調(diào)度和監(jiān)控平臺,可調(diào)度多類作業(yè),結(jié)合DIServer打造完整的企業(yè)數(shù)據(jù)整合平臺;于此同時,產(chǎn)品提供了自動化作業(yè)生成工具,可以結(jié)合DI引擎,快速配置出高效的ETL處理模型調(diào)度與管理:模型監(jiān)控管理15提供作業(yè)流和作業(yè)總體監(jiān)控、作業(yè)流和作業(yè)的執(zhí)行日志。在作業(yè)流總體監(jiān)控中,可執(zhí)行啟動、停止、斷點續(xù)跑和重置狀態(tài)等作業(yè)流干預動作。 調(diào)度與管理:模型調(diào)度管理16通過配置作業(yè)執(zhí)行頻率,供計劃調(diào)度使用,頻度可供多個調(diào)度計劃重用;配置日期進行模型調(diào)度 ;模型運行狀態(tài)消息發(fā)送。VIP通道優(yōu)先級發(fā)送的內(nèi)容可以篩選允許帶上附件發(fā)送方式可以是集中發(fā)送,也可
8、以逐個作業(yè)發(fā)送調(diào)度與管理:作業(yè)自動化作業(yè)自動化的意義實施工藝規(guī)范化 規(guī)范了實施技術體系,有利于提高工作效率、控制風險和降低成本提供了靈活簡便的需求管理,使得需求管理更加規(guī)范化高效的開發(fā)過程 自動生成ETL Job,提高開發(fā)效率支持Oracle、DB2、SQL Server等主流數(shù)據(jù)庫支持DataStage等第三方ETL工具,實現(xiàn)腳本自動生成高質(zhì)量的程序代碼內(nèi)置了腳本生成模板,使腳本更加規(guī)范化,提高開發(fā)效率,提升開發(fā)質(zhì)量17作業(yè)自動化:數(shù)據(jù)結(jié)構(gòu)管理18從其他系統(tǒng)導入Mapping管理需要用到的數(shù)據(jù)庫表和字段信息,支持從已有數(shù)據(jù)庫、Excel文件和元數(shù)據(jù)系統(tǒng)導入結(jié)構(gòu)信息。 可以同步數(shù)據(jù)庫表中的字段
9、展現(xiàn)可用數(shù)據(jù)源作業(yè)自動化:映射定義19映射定義用戶定義作業(yè)的映射管理,支持通過Excel制作好后映射后導入和通過系統(tǒng)圖形拖拉方式管理。 也支持導出Excel格式映射定義。映射類型:注釋項,不影響自動化程序生成。作業(yè)自動化:生成DI作業(yè)20作業(yè)自動化:生成存儲過程21將映射定義生成存儲過程腳本,支持Oracle、SQLServer和DB2數(shù)據(jù)庫。源數(shù)據(jù)用戶:填寫存儲過程連接源用到的用戶目標數(shù)據(jù)用戶: 填寫連接目標數(shù)據(jù)使用的用戶日志數(shù)據(jù)用戶: 存儲過程執(zhí)行日志的用戶 臨時用戶: 存儲過程寫臨時表需要的用戶歷史表開始(結(jié)束)字段名稱:拉鏈表A3、I3、D3、C3需要填寫歷史拉鏈表開始和結(jié)束日期字段名
10、稱作業(yè)自動化:生成DataStage作業(yè)22將映射定義生成DataStageJob,生成程序的方式,目前支持:生成XML文件,生成并編譯JOB 調(diào)度與監(jiān)控:系統(tǒng)管理資源監(jiān)控與負載均衡對系統(tǒng)內(nèi)的服務器和邏輯資源進行資源監(jiān)控 對系統(tǒng)內(nèi)的相關服務器和邏輯資源,包括管理服務器、調(diào)度服務器、代理服務器,包括物理服務器的CPU、內(nèi)存、硬盤空間使用情況進行監(jiān)控;對上述邏輯服務器的連接性情況進行監(jiān)控可視化的監(jiān)控界面直觀清晰,易于運維人員及時發(fā)現(xiàn)故障服務器,并及時排除錯誤,保證系統(tǒng)的正常運行閥值設置 對運行中的相關指標值進行閥值設置:如高位警戒值、低位警戒值、監(jiān)控數(shù)據(jù)采集頻度(時間間隔)、代理狀態(tài)采集頻度、HT
11、TP連接超時時間、監(jiān)控歷史保存時間通過這些設置可使監(jiān)控界面色彩豐富,在某些數(shù)值到達臨界值時,起到提醒運維管理員關注的作用負載加權算法 可以自定義加權算法區(qū)別作業(yè)對CPU優(yōu)先和內(nèi)存優(yōu)先系統(tǒng)依據(jù)加權負載值對作業(yè)進行均衡負載,在代理服務器上分擔作業(yè)的運行,從而最大限度的保障系統(tǒng)的可靠運行23閥值設置系統(tǒng)管理:資源監(jiān)控24內(nèi)存占用超限連接失敗,可能是此資源已掉線系統(tǒng)管理:配置25系統(tǒng)管理:作業(yè)導入導出26企業(yè)數(shù)據(jù)集成平臺概述企業(yè)數(shù)據(jù)集成功能特性企業(yè)數(shù)據(jù)集成應用場景目錄功能特性-基于數(shù)據(jù)流的并行處理模型基于數(shù)據(jù)流的數(shù)據(jù)處理模型,最大程度的發(fā)揮各步驟的處理能力;同時支持多實例并行執(zhí)行DI ServerIn
12、stanceInstanceStreamStreamStreamStreamStreamStreamStreamStreamRunningRunningRunningRunningRunningRunningRunningRunningRunning功能特性-基于元數(shù)據(jù)驅(qū)動技術元數(shù)據(jù)數(shù)據(jù)源信息、連接池信息、表結(jié)構(gòu)、字段屬性等業(yè)務元數(shù)據(jù)轉(zhuǎn)換規(guī)則、映射規(guī)則、合并規(guī)則、業(yè)務處理腳本等技術元數(shù)據(jù)與業(yè)務元數(shù)據(jù)的統(tǒng)一存儲保證了ETL流程的可配置、可管理、可優(yōu)化,同時便于明確業(yè)務數(shù)據(jù)的具體來源元數(shù)據(jù)存儲流程實例功能特性-多種異構(gòu)數(shù)據(jù)源支持關系數(shù)據(jù)庫Oracle、MS SQL 、MySQL、DB2、Sybas
13、e空間數(shù)據(jù)庫ArcGIS半結(jié)構(gòu)化數(shù)據(jù)XML、Excel非結(jié)構(gòu)化數(shù)據(jù)TXT、DOC、PDF功能特性-增量數(shù)據(jù)抽取以及數(shù)據(jù)裝載基于觸發(fā)器的增量數(shù)據(jù)抽取優(yōu)點:可靠性強缺點:對源系統(tǒng)有侵入性,需要建立觸發(fā)器基于時間戳的增量數(shù)據(jù)抽取優(yōu)點:速度快,ETL流程簡單缺點:源系統(tǒng)沒有時間戳字段的時候需要更改表結(jié)構(gòu)基于日志文件的增量數(shù)據(jù)抽取優(yōu)點:可靠性強、對源系統(tǒng)沒有影響缺點:受數(shù)據(jù)庫制約,例如Oracle數(shù)據(jù)庫的增量數(shù)據(jù)日志文件只有Oracle的ETL工具可以讀取基于全文比對的增量數(shù)據(jù)抽取優(yōu)點:對源系統(tǒng)沒有影響缺點:面對海量數(shù)據(jù)時有一定的性能問題有條件的數(shù)據(jù)裝載可根據(jù)某字段的值有選擇的進行新增、刪除、修改操作數(shù)
14、據(jù)同步:基于全文比對通過DI 引擎獲取某一時刻源數(shù)據(jù)庫與目標數(shù)據(jù)庫的數(shù)據(jù)快照,然后逐一進行對比,找出新增、刪除、修改的數(shù)據(jù)后進行相應操作。32數(shù)據(jù)同步:基于觸發(fā)器與時間戳基于觸發(fā)器在這種方式下需要在業(yè)務數(shù)據(jù)庫中針對增、刪、改三種操作建立觸發(fā)器,并由觸發(fā)器將變化的數(shù)據(jù)寫入臨時表中,最后由DI從臨時表中讀取數(shù)據(jù),實現(xiàn)增量數(shù)據(jù)抽取基于時間戳這種方式是使用數(shù)據(jù)庫本身的日志系統(tǒng),由DI讀取并解析數(shù)據(jù)庫的日志文件,然后在目標數(shù)據(jù)庫中進行相應操作。33功能特性-數(shù)據(jù)轉(zhuǎn)換1、對數(shù)據(jù)按照某一標識進行拆分2、根據(jù)字段值的不同進行數(shù)據(jù)映射;3、對一份數(shù)據(jù)按照不同類型進行分組4、針對源數(shù)據(jù)庫與目標數(shù)據(jù)庫的字段名稱不同
15、進行字段映射5、將兩份數(shù)據(jù)合并成一份6、將一份數(shù)據(jù)按照某一列的值進行排序7、指定一個邏輯條件進行數(shù)據(jù)的過濾8、對數(shù)據(jù)中涉及到的數(shù)值記錄進行數(shù)學計算9、對兩份數(shù)據(jù)進行全文比對,找出其中的異同10、現(xiàn)有組件無法滿足的需求可以借助JavaScript組件自定義處理,同時可以集成JAVA邏輯代碼功能特性:基于DI實現(xiàn)兩種ETL架構(gòu)同步ETL架構(gòu)異步ETL架構(gòu)35SourceTargetDI ServerSourceTargetDI ServerDI Server網(wǎng)絡傳輸(P2P、FTP、Socket、JMS)DI產(chǎn)品的突出 特色:ETL模型設計與運行提供圖形化設計界面,簡單易用豐富的組建庫,可應對復雜
16、的數(shù)據(jù)整合要求提供可視化監(jiān)控工具,可實時監(jiān)控到數(shù)據(jù)變換的情況跨平臺和豐富的數(shù)據(jù)源支持底層采用數(shù)據(jù)流的方式進行數(shù)據(jù)交換,多引擎并行處理,在大負荷的數(shù)據(jù)整合中仍然有良好的性能 以元數(shù)據(jù)驅(qū)動為核心,對技術層面和業(yè)務層面的元數(shù)據(jù)進行統(tǒng)一存儲提供了JAVA、JS、XML等多種擴展機制,可自定義實現(xiàn)復雜數(shù)據(jù)轉(zhuǎn)換模型36DI產(chǎn)品的突出 特色:ETL調(diào)度與管理開放的調(diào)度引擎,豐富的作業(yè)類型調(diào)度引擎與作業(yè)引擎分離,擴展非常靈活。支持作業(yè)集中調(diào)度或者作業(yè)分組調(diào)度,調(diào)度引擎支持FailOver。支持負載均衡、作業(yè)優(yōu)先級分配及VIP通道支持作業(yè)參數(shù)及參數(shù)傳遞靈活的翻牌支持,包括單個作業(yè)/作業(yè)流翻牌,一組作業(yè)翻牌,定時
17、翻牌和整體翻牌靈活的調(diào)度配置計劃任務:日歷+頻度+時間窗+作業(yè)+消息設置觸發(fā)方式:計劃、事件、作業(yè)依賴、前后置處理、手工觸發(fā)良好的運維體驗Web界面,圖形+表格更直觀強大實用的特色功能內(nèi)置數(shù)據(jù)質(zhì)量檢核組件,形成事前、事中、事后的質(zhì)量管理體系提供資源監(jiān)控、自定義內(nèi)容監(jiān)控和作業(yè)運行性能分析靈活的權限管理和資源安全機制支持作業(yè)自動化,根據(jù)源、目標的Mapping關系,自動生成作業(yè)37PrimetonDI的產(chǎn)品價值38功能強大的ETL處理引擎更簡易的查錯流程靈活的調(diào)度監(jiān)控Job自動化及代碼規(guī)范多種異構(gòu)數(shù)據(jù)源的支持豐富的數(shù)據(jù)處理組件企業(yè)級的高性能數(shù)據(jù)處理能力支持多種數(shù)據(jù)處理模式 提供計劃、事件、手工觸發(fā)機制 Web監(jiān)控界面,運行干預直接 簡單,可監(jiān)控系統(tǒng)資源 可調(diào)度Datastage、Shell、 存儲過程等多類作業(yè)/作業(yè)流監(jiān)控界面按對象粒度從大到小,從作業(yè)流、作業(yè)、返回值、錯誤以及歷史日志逐級查找出錯原因 根據(jù)源、目標映射關系直 接生成Job 統(tǒng)一代碼規(guī)范,優(yōu)化代碼 質(zhì)量PrimetonDI企業(yè)數(shù)據(jù)集成平臺概述企業(yè)數(shù)據(jù)集成功能特性企業(yè)數(shù)據(jù)集成應用場景目錄ETL處理使用PrimetonDI構(gòu)建數(shù)據(jù)倉庫應用OracleMySQLDB2SybaseXML文件TXTExcelData SourcePr
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經(jīng)權益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 代銷意向合同范本
- 二手車線上交易合同范本
- 眾籌股東合同范本6
- 買賣帶表格合同范例
- 加工中心保養(yǎng)合同范本
- 兄弟共同承包土地合同范本
- 辦公電腦合同范本
- 代理執(zhí)行合同范本
- 共同買地皮合同范本
- pc吊裝合同范本
- 6月26國際禁毒日防范青少年藥物濫用禁毒宣傳課件
- 老舊小區(qū)基礎設施環(huán)境改造工程施工質(zhì)量因素的分析及控制方法
- 筑牢安全防線守護平安校園
- “四節(jié)一環(huán)?!钡墓芾泶胧?/a>
- 高考語文一輪復習:文學類文本閱讀之賞析語言、手法(原卷版+解析)
- 2023-2024學年江蘇省淮安市七年級(上)期末英語試卷
- 環(huán)保行業(yè)合同管理制度
- 中國無人機市場分析
- 2025高考數(shù)學專項復習:圓中鬼魅阿波羅尼斯圓(含答案)
- 2024年新課標培訓2022年小學英語新課標學習培訓課件
- 福建省福州市2023-2024學年高一上學期期末質(zhì)量檢測英語試題 含答案
評論
0/150
提交評論