




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
I導(dǎo)讀在數(shù)字化轉(zhuǎn)型的大潮中,企業(yè)面臨的數(shù)據(jù)環(huán)境日益復(fù)雜多變。滴普科技的FastDataDCT產(chǎn)品應(yīng)運(yùn)而生,專注于高效的數(shù)據(jù)集成和管理,以應(yīng)對(duì)多樣化的數(shù)據(jù)挑戰(zhàn)。這款產(chǎn)品結(jié)合了流批一體和湖倉一體架構(gòu),提供了從數(shù)據(jù)集成、分析到價(jià)值實(shí)現(xiàn)的全鏈路服務(wù),極大地提升了數(shù)據(jù)處理的時(shí)效性和靈活性。FastDataDCT憑借在異構(gòu)數(shù)據(jù)源實(shí)時(shí)融合和數(shù)據(jù)倉庫遷移方面的強(qiáng)大優(yōu)勢(shì),有效提高了數(shù)據(jù)利用率和管理效率,減少了數(shù)據(jù)浪費(fèi)。本次分享將深入探討FastDataDCT的架構(gòu)演進(jìn)和實(shí)際應(yīng)用案例,展現(xiàn)其在推動(dòng)各行業(yè)數(shù)字化轉(zhuǎn)型升級(jí)中的重要作用。下面的介紹分為六個(gè)部分:3.技術(shù)架構(gòu)演進(jìn)4.應(yīng)用場(chǎng)景6.Q&A分享嘉賓|劉波滴普科技FastData產(chǎn)品線DataFacts產(chǎn)品負(fù)責(zé)人編輯整理|胡回2.DCT簡介產(chǎn)品概述自2019年起,高德納連續(xù)4年將數(shù)據(jù)編織(數(shù)據(jù)結(jié)構(gòu))列為年度數(shù)據(jù)和分析技術(shù)領(lǐng)域的十大趨勢(shì)之一。高德納認(rèn)為“數(shù)據(jù)結(jié)構(gòu)是數(shù)據(jù)管理的未來”。數(shù)據(jù)架構(gòu)是一種數(shù)據(jù)架構(gòu)思想,包含DataOps數(shù)據(jù)工程,其中通過AI、知識(shí)圖譜等智能技術(shù),實(shí)現(xiàn)主動(dòng)元數(shù)據(jù)治理。DCT(DataCollectionTransform,簡稱DCT)支持關(guān)系型數(shù)據(jù)庫、NoSQL、數(shù)據(jù)倉庫(OLAP)、數(shù)據(jù)湖(lceberg、Hudi)等數(shù)據(jù)源,可用于公有云之間、公有云與私有云之間的數(shù)據(jù)入湖入倉的結(jié)構(gòu)遷移,存量數(shù)據(jù)同步和實(shí)時(shí)數(shù)據(jù)捕獲同步。為企業(yè)實(shí)現(xiàn)數(shù)據(jù)流通,提供簡單、安全和穩(wěn)健的數(shù)據(jù)傳輸保障。Spark在內(nèi)的多引擎資源調(diào)度配置,支持批流一體以及故障轉(zhuǎn)移等復(fù)雜的數(shù)據(jù)傳輸機(jī)制。在復(fù)雜的網(wǎng)絡(luò)環(huán)境和業(yè)務(wù)背景下,DCT提供了穩(wěn)固的數(shù)據(jù)同步解決方目前,DCT已經(jīng)發(fā)展到第四代。其第一代主要關(guān)注于參數(shù)配置;第二代引入了可視化界面,以簡化任務(wù)配置過程;第三代實(shí)現(xiàn)了對(duì)讀取與寫入功能的組件化;而最新一代則新增了流批一體的任務(wù)類型,以進(jìn)一步優(yōu)化數(shù)據(jù)處理效率和彈性。3.產(chǎn)品定位:PB級(jí)數(shù)據(jù)量下高效、穩(wěn)定的數(shù)據(jù)傳輸高速公路在大數(shù)據(jù)領(lǐng)域,特別是在PB級(jí)別的海量數(shù)據(jù)處理中,核心任務(wù)是確保數(shù)據(jù)傳輸?shù)母咝屎头€(wěn)定性。DCT的產(chǎn)品定位就是在PB級(jí)數(shù)據(jù)量下高效、穩(wěn)定的數(shù)據(jù)傳輸高速公路。從源端到目標(biāo)端,DCT構(gòu)建了一條能夠靈活適應(yīng)不同數(shù)據(jù)源的可組庫、大規(guī)模并行處理系統(tǒng)(MPP)及數(shù)據(jù)湖和數(shù)據(jù)倉庫等。系統(tǒng)的核心技術(shù)能力集中在任務(wù)配置、組件管理以及運(yùn)維維護(hù)等關(guān)鍵環(huán)節(jié)。這些能力共同支持了離線數(shù)據(jù)采集、實(shí)時(shí)數(shù)據(jù)采集以及批處理與流處理一體化等多樣化的數(shù)據(jù)任務(wù)類型,確保了數(shù)據(jù)處理流程的靈活性和系統(tǒng)響應(yīng)的及時(shí)性,滿足了復(fù)雜數(shù)據(jù)操作的需求。4.產(chǎn)品價(jià)值產(chǎn)品價(jià)值主要體現(xiàn)在三大方面:異構(gòu)數(shù)據(jù)源的實(shí)時(shí)融合專注于實(shí)現(xiàn)不同數(shù)據(jù)源如Oracle、MySQL、Kafka和Iceberg等的實(shí)時(shí)數(shù)據(jù)融合。包括支持?jǐn)?shù)據(jù)的增量捕獲和異構(gòu)數(shù)據(jù)的語義映射,以便實(shí)現(xiàn)數(shù)據(jù)的即時(shí)入湖。整庫入湖入倉,出湖出倉支持MySQL、Oracle等數(shù)據(jù)源入湖入倉,出湖出倉。快速構(gòu)建湖倉內(nèi)數(shù)據(jù),打通數(shù)據(jù)孤島,實(shí)現(xiàn)數(shù)據(jù)的統(tǒng)一管理和高效利用,為數(shù)據(jù)開發(fā)工程師和數(shù)據(jù)分析人員可以快速建立數(shù)據(jù)模型、構(gòu)建應(yīng)用提供數(shù)據(jù)來源。降本增效降本:多種架構(gòu)簡化場(chǎng)景,簡化軟件架構(gòu)設(shè)計(jì),降低異構(gòu)數(shù)據(jù)融合成本。通過拖拉拽實(shí)現(xiàn)同步鏈路的創(chuàng)建,低代碼,降低學(xué)習(xí)和維護(hù)成本。增效:無代碼任務(wù)構(gòu)建,提升數(shù)據(jù)集成敏捷性。支持組件自定義,提升客戶業(yè)務(wù)創(chuàng)新效率。分布式引擎、組件級(jí)高可用保障,實(shí)時(shí)鏈路穩(wěn)定高容錯(cuò)。5.產(chǎn)品優(yōu)勢(shì)高性能多源異構(gòu)數(shù)據(jù)采集支持從關(guān)系型數(shù)據(jù)庫、NoSQL、OLAP、數(shù)據(jù)湖等多樣的數(shù)據(jù)源進(jìn)行結(jié)構(gòu)化遷移、離線同步以及實(shí)時(shí)同步。批流一體化數(shù)據(jù)采集采用統(tǒng)一的開發(fā)范式,同時(shí)實(shí)施大數(shù)據(jù)的流式和批量計(jì)算,確保數(shù)據(jù)處理的一致性,并簡化了批流采集任務(wù)的配置流程。高可靠性與時(shí)效性通過變更數(shù)據(jù)捕獲(CDC)機(jī)制,實(shí)現(xiàn)日志級(jí)別的數(shù)據(jù)監(jiān)聽,確保數(shù)據(jù)的時(shí)效性。同時(shí),支持?jǐn)帱c(diǎn)續(xù)傳和故障轉(zhuǎn)移,保障數(shù)據(jù)傳輸?shù)母呖煽啃?。組件化插拔式管理提供了組件插拔式管理,用戶可以自定義組件進(jìn)行擴(kuò)展,并支持拖拉拽的任務(wù)配置方式,降低了代碼編寫的需求,使系統(tǒng)易于學(xué)習(xí)和維護(hù)。低成本高效率運(yùn)行系統(tǒng)設(shè)計(jì)為單進(jìn)程任務(wù),最低僅需1G內(nèi)存即可運(yùn)行,降低了成本。同時(shí),支持并行度設(shè)置,有效提高了數(shù)據(jù)傳輸效率。云原生架構(gòu)設(shè)計(jì)系統(tǒng)采用云原生架構(gòu),無需調(diào)整現(xiàn)有架構(gòu),具有強(qiáng)大的兼容性。基于日志的設(shè)計(jì)對(duì)源業(yè)務(wù)無侵入,保障原有業(yè)務(wù)庫的穩(wěn)定運(yùn)行。功能介紹1.產(chǎn)品功能架構(gòu)圖在產(chǎn)品功能架構(gòu)的設(shè)計(jì)上,專注于數(shù)據(jù)湖和數(shù)據(jù)倉的高效數(shù)據(jù)處理流程,包括數(shù)據(jù)的導(dǎo)入與導(dǎo)出操作。Delink、EMR、MRS等平臺(tái)能夠得到良好的支持,系統(tǒng)對(duì)于數(shù)據(jù)湖或湖倉一體化平臺(tái)有很好的兼容性?;A(chǔ)服務(wù)層面提供了數(shù)據(jù)源管理、資源組件管理等核心功能。數(shù)據(jù)傳輸層面數(shù)據(jù)傳輸過程中,任務(wù)類型被細(xì)分為離線、實(shí)時(shí)和流批一體三種模式。數(shù)據(jù)采集模式涵蓋一對(duì)一、多對(duì)一和一對(duì)多三種類型。組件配置方面,將其劃分為讀取組件、轉(zhuǎn)換組件和寫入組件,數(shù)據(jù)映射時(shí)提供字段批量處理、整庫處理和大批量處理等映射規(guī)則。數(shù)據(jù)安全管理方面,實(shí)施了嚴(yán)格的分類分級(jí)、加解密措施,并對(duì)任務(wù)管理進(jìn)行了優(yōu)化,包括前置檢測(cè)、導(dǎo)入導(dǎo)出、斷點(diǎn)續(xù)傳和DDL變更等功能。監(jiān)控告警層面系統(tǒng)支持故障轉(zhuǎn)移,如通過檢查頻率來實(shí)現(xiàn)超時(shí)任務(wù)的故障遷移。任務(wù)執(zhí)行過程中,監(jiān)控大屏能夠?qū)崟r(shí)顯示任務(wù)狀態(tài)、數(shù)據(jù)同步量和資源消耗情況。為確保數(shù)據(jù)質(zhì)量,系統(tǒng)支持與源端進(jìn)行數(shù)據(jù)質(zhì)量校驗(yàn),并結(jié)合告警規(guī)則對(duì)超時(shí)任務(wù)和狀態(tài)進(jìn)行監(jiān)控。此外,系統(tǒng)支持多種消息提醒方式,如短信、釘釘電話、Webhook等,從而快速為下游應(yīng)用提供必要的數(shù)據(jù)支撐。2.產(chǎn)品核心功能資源管理支持界面配置多種計(jì)算、調(diào)度、存儲(chǔ)資源類型。數(shù)據(jù)源管理支持界面配置多種類型數(shù)據(jù)源,測(cè)試連通性。組件管理將ETL能力抽象為“組件”,支持界面管理讀取、轉(zhuǎn)換、寫入組件。任務(wù)配置支持按項(xiàng)目空間&目錄進(jìn)行任務(wù)管理。離線數(shù)據(jù)采集:支持根據(jù)源表生成目標(biāo)表建表SQL等,快速創(chuàng)建目標(biāo)表,支持按時(shí)間周期自動(dòng)調(diào)度全量/增量數(shù)據(jù)采集。DCTOnLocal實(shí)時(shí)數(shù)據(jù)采集:支持通過訂閱數(shù)據(jù)源Binlog等方式,無侵入實(shí)現(xiàn)實(shí)時(shí)增量數(shù)據(jù)采集。批流一體數(shù)據(jù)入湖:支持通過一個(gè)任務(wù)實(shí)現(xiàn)批流一體數(shù)據(jù)入lceberg等數(shù)據(jù)運(yùn)維監(jiān)控實(shí)例日志:支持根據(jù)日志層級(jí),分類查看日志信息,快速定位問題。監(jiān)控告警:支持釘釘、郵箱、短信、電話等多種告警方式。數(shù)據(jù)質(zhì)量:支持界面查看抽取總數(shù)、寫入總數(shù)、運(yùn)行時(shí)長等指標(biāo)進(jìn)行數(shù)據(jù)質(zhì)量管理。3.多引擎調(diào)度這種調(diào)度方法基于我們自主研發(fā)的PSC調(diào)度引擎,利用本地資源進(jìn)行資源調(diào)度,其資源消耗極低。DCTOnYarn這種調(diào)度方法通過隊(duì)列機(jī)制實(shí)現(xiàn)資源隔離,保證了調(diào)度的效率和安全性。SparkOnYarn這種調(diào)度方法采用Spark引擎。在這種情況下,任務(wù)實(shí)際上運(yùn)行在Yarn集群中,確保了高效和穩(wěn)定的運(yùn)行環(huán)境。Delink力,可以應(yīng)對(duì)大量的特征需求。4.擴(kuò)展性-自定義組件DCT統(tǒng)一了數(shù)據(jù)格式標(biāo)準(zhǔn)和組件開發(fā)規(guī)范,支持根據(jù)需求進(jìn)行自定義組件開發(fā),導(dǎo)入到管理界面后即可使用。5.構(gòu)建任務(wù)-組件化配置、零代碼開發(fā)任務(wù)構(gòu)建的過程也非常簡便,采用了模塊化的配置方法。用戶只需通過直觀的拖拽操作,將讀取組件、轉(zhuǎn)換組件和寫入組件按需串聯(lián)起來,即可完成任務(wù)配置。這種設(shè)計(jì)大大簡化了任務(wù)構(gòu)建流程,提高了操作的便捷性和效率。6.離線同步(全量&增量)全量同步:指源表中所有數(shù)據(jù)都傳輸。增量同步:全量同步過程中或同步完成之后,源庫產(chǎn)生的增量數(shù)據(jù),支持通過自定義SQL引用變量獲取。7.實(shí)時(shí)同步采用基于日志的增量數(shù)據(jù)秒級(jí)獲取技術(shù)(CDC),為數(shù)據(jù)倉庫、大數(shù)據(jù)平臺(tái)提供實(shí)時(shí)、準(zhǔn)確的數(shù)據(jù)變化,從而使得客戶可以根據(jù)最新的數(shù)據(jù)進(jìn)行運(yùn)營管理與決策制定。MySQL,通過Binlog方式獲取準(zhǔn)確的數(shù)據(jù),支持5.x及以上多版本,支持只讀庫權(quán)限的同步;支持?jǐn)帱c(diǎn)續(xù)傳。PostgreSQL,支持邏輯流復(fù)制,通過wal2json解析日志獲取準(zhǔn)確的數(shù)據(jù);支持?jǐn)帱c(diǎn)續(xù)傳。Oracle,支持LogMiner讀取數(shù)據(jù)庫日志獲取準(zhǔn)確的數(shù)據(jù);支持?jǐn)帱c(diǎn)續(xù)8.批流一體使用同一套開發(fā)范式來實(shí)現(xiàn)大數(shù)據(jù)的流計(jì)算和批計(jì)算,進(jìn)而保證處理過程與結(jié)果的一致性。降低批流采集任務(wù)配置復(fù)雜度,一次配置,程序自動(dòng)進(jìn)行批和流的數(shù)據(jù)采集,便于任務(wù)管理;批流自動(dòng)切換,可降低資源消耗。9.豐富的監(jiān)控運(yùn)維系統(tǒng)提供了全面的監(jiān)控功能,包括對(duì)每個(gè)實(shí)例的輸入和輸出數(shù)據(jù)量進(jìn)行實(shí)時(shí)監(jiān)控。這不僅限于單個(gè)實(shí)例,還涵蓋了平臺(tái)級(jí)和項(xiàng)目級(jí)的任務(wù)。監(jiān)控內(nèi)容包括數(shù)據(jù)同步趨勢(shì)、資源消耗等關(guān)鍵指標(biāo),所有這些監(jiān)控?cái)?shù)據(jù)都通過一個(gè)可視化界面展現(xiàn)。這種可視化監(jiān)控系統(tǒng)使監(jiān)控過程更加直觀和全面,支持實(shí)例級(jí)的輸入、輸出通過這種直觀的方式呈現(xiàn)監(jiān)控?cái)?shù)據(jù),監(jiān)控人員能夠更清晰地理解和分析監(jiān)控場(chǎng)景,及時(shí)發(fā)現(xiàn)和響應(yīng)任何異常情況,從而保證系統(tǒng)的高效和穩(wěn)定運(yùn)行。10.智能調(diào)度新一代分布式任務(wù)調(diào)度平臺(tái),提供定時(shí)、任務(wù)編排、分布式跑批等功能,具有高可靠、海量任務(wù)、秒級(jí)調(diào)度及可運(yùn)維等能力。工作流調(diào)度方面,平臺(tái)支持可視化工作流進(jìn)行任務(wù)編排,以及支持Cron表達(dá)式和API。資源調(diào)度方面,平臺(tái)能夠監(jiān)控和分配CPU、內(nèi)存和IO資源,同時(shí)設(shè)置任務(wù)的優(yōu)先級(jí),以智能方式分配任務(wù)資源。分布式跑批方面,主要應(yīng)用于離線場(chǎng)景,通過數(shù)據(jù)分片和將任務(wù)分配到不同的工作節(jié)點(diǎn)運(yùn)行,以提高數(shù)據(jù)任務(wù)傳輸?shù)男?。任?wù)監(jiān)控方面,包括監(jiān)控任務(wù)狀態(tài)、執(zhí)行結(jié)果,并支持任務(wù)的重跑設(shè)置。通過這些功能,平臺(tái)確保了任務(wù)的高效、穩(wěn)定執(zhí)行,同時(shí)提升了數(shù)據(jù)處理的效率和可靠性。11.斷點(diǎn)續(xù)傳復(fù),也可基于斷網(wǎng)的定期保存檢查點(diǎn)實(shí)現(xiàn)斷點(diǎn)續(xù)傳,保證數(shù)據(jù)傳輸?shù)姆€(wěn)定性。當(dāng)出現(xiàn)故障,數(shù)據(jù)傳輸中斷,可基于CKP快速恢復(fù)傳輸任務(wù)的數(shù)據(jù),高效解決數(shù)據(jù)質(zhì)量問題。當(dāng)然這有一個(gè)前提就是需要數(shù)據(jù)源支持?jǐn)帱c(diǎn)續(xù)傳機(jī)制。技術(shù)架構(gòu)演進(jìn)1.DCT1.0技術(shù)架構(gòu)DCT1.0的核心功能包括:支持離線和實(shí)時(shí)數(shù)據(jù)同步;讀寫組件插件化;命令行的方式,單進(jìn)程運(yùn)行;支持MySQL、Oracle、SQLServer、Kafka、Hive等數(shù)據(jù)源。2.DCT2.0技術(shù)架構(gòu)DCT2.0架構(gòu)在1.0的基礎(chǔ)之上,進(jìn)行了如下提升:任務(wù)創(chuàng)建和配置支持界面化操作,以拖拉拽的方式進(jìn)行任務(wù)開發(fā);支持?jǐn)?shù)據(jù)源管理、讀寫組件和轉(zhuǎn)換組件的上傳與下載;支持多任務(wù)并行運(yùn)行。3.DCT3.0技術(shù)架構(gòu)DCT3.0架構(gòu)介紹Manger管理端控制創(chuàng)建任務(wù)以及啟動(dòng)停止;可實(shí)時(shí)監(jiān)控MasterNode是否在線。MasterNode主節(jié)點(diǎn)負(fù)責(zé)WorkNode注冊(cè)上線,監(jiān)控,狀態(tài)維護(hù);對(duì)提交的任務(wù)進(jìn)行節(jié)點(diǎn)分配,任務(wù)下發(fā),狀態(tài)監(jiān)控。WorkNode工作節(jié)點(diǎn)負(fù)責(zé)MasterNode上報(bào)所在服務(wù)器節(jié)點(diǎn)的資源相關(guān)信息MasterNode下發(fā)的任務(wù);負(fù)責(zé)PSC啟動(dòng),監(jiān)控上報(bào),結(jié)束、異常處理等整個(gè)完整生命周期。PSC可編程調(diào)度容器執(zhí)行數(shù)據(jù)同步任務(wù)的最小管理單元,包含讀取、轉(zhuǎn)換、寫入組件,共同組成一個(gè)同步任務(wù);由WorkNode負(fù)責(zé)管理整個(gè)任務(wù)的生命周期。DCT3.0架構(gòu)先進(jìn)性支持分布式部署,Manager節(jié)點(diǎn)和WorkNode節(jié)點(diǎn)實(shí)現(xiàn)了無狀態(tài)化,能夠獨(dú)立的橫向擴(kuò)展,支持高可用和彈性擴(kuò)縮容;實(shí)時(shí)查看CPU、內(nèi)存、I/O等資源使用情況;設(shè)定任務(wù)優(yōu)先級(jí),智能分配資源;優(yōu)化PSC,使得能快速地支持自定義組件擴(kuò)展。4.DCT4.0技術(shù)架構(gòu)DCT4.0架構(gòu)更進(jìn)一步:優(yōu)化掉了調(diào)度單點(diǎn)瓶頸的MasterNode節(jié)點(diǎn),降低系統(tǒng)復(fù)雜度,提升了系統(tǒng)的可靠性;自主研發(fā)基于Manager結(jié)合PSC作為資源調(diào)度引擎,實(shí)現(xiàn)任務(wù)分片調(diào)WorkNode節(jié)點(diǎn)與PSC任務(wù)支持故障轉(zhuǎn)移DCT支持多種資源調(diào)度模式,能和大數(shù)據(jù)集群共享調(diào)度資源,降低硬件成DCT-on-Local模式:Local模式支持以工作節(jié)點(diǎn)作為任務(wù)運(yùn)行的資源,不需要依賴外部資源;DCT-on-Yarn模式:支持在Yarn集群運(yùn)行;DCT-on-Spark模式:使用Spark引擎,以Yarn作為資源調(diào)度運(yùn)行任DCT-on-DLink模式:使用DLink湖倉引擎,以Yarn或K8S作為資源調(diào)度運(yùn)行任務(wù)。應(yīng)用場(chǎng)景接下來將通過整庫入湖場(chǎng)景,來介紹DCT的應(yīng)用。將業(yè)務(wù)庫MySQL中的數(shù)據(jù)入湖,快速構(gòu)建湖倉一體。僅需簡單的四步,即可完成從基礎(chǔ)配置到實(shí)例運(yùn)維的全流程閉環(huán)。1.配置數(shù)據(jù)源配置數(shù)據(jù)源這一步驟相對(duì)簡單,主要通過直觀的拖拽操作來完成。用戶需要填寫相關(guān)的數(shù)據(jù)源連接信息,如數(shù)據(jù)庫地址、端口、用戶名和密碼等。連接驗(yàn)證和預(yù)檢測(cè)配置完數(shù)據(jù)源后,下一步是驗(yàn)證連接信息。包括檢查提供的連接信息是否正確,以及驗(yàn)證相應(yīng)的權(quán)限。系統(tǒng)會(huì)進(jìn)行一系列預(yù)檢測(cè),確保數(shù)據(jù)源連接的有效性和安全性。2.配置資源選擇DLink資源作為采集的資源調(diào)度引擎。湖內(nèi)Catalog信息獲取,作為目標(biāo)端。運(yùn)維文件上傳(CDCjar上傳)。3.新建入湖任務(wù)選擇讀取組件,MySQL作為采集源端,寫入組件Iceberg_DLink作為目標(biāo)配置任務(wù)基礎(chǔ)信息,例如:Flink重啟策略配置、Checkpoint、并行度、日志存儲(chǔ)等。分別配置批資源、流資源,實(shí)例運(yùn)行自動(dòng)切換。可根據(jù)源表結(jié)構(gòu),自動(dòng)生成目標(biāo)表結(jié)構(gòu),支持預(yù)覽、編輯、批量創(chuàng)建。前置檢測(cè)通過后,啟動(dòng)任務(wù)。4.實(shí)例運(yùn)維支持查看實(shí)例狀態(tài)、同步數(shù)量、異常記錄等。通過查看實(shí)例配置,二次檢驗(yàn)是否符合同步配置。成功案例1.某能源企業(yè):集成滴普實(shí)時(shí)湖倉,油田數(shù)據(jù)服務(wù)時(shí)效性大幅提升客戶背景某能源公司是以油氣業(yè)務(wù)、工程技術(shù)服務(wù)、石油工程建設(shè)、石油裝備制造等為主營業(yè)務(wù)的綜合性國際能源公司,是中國主要的油氣生產(chǎn)商和供應(yīng)商之一??碧介_發(fā)平臺(tái)是國內(nèi)油氣行業(yè)首個(gè)智能云平臺(tái),其依托數(shù)據(jù)湖和PaaS技術(shù)實(shí)現(xiàn)勘探開發(fā)生產(chǎn)管理、協(xié)同研究、經(jīng)營管理及決策的一體化運(yùn)營,支撐勘探開發(fā)業(yè)務(wù)的數(shù)字化、自動(dòng)化、可視化、智能化轉(zhuǎn)型發(fā)展。客戶需求——由離線數(shù)倉升級(jí)為新一代實(shí)時(shí)湖倉提升油田勘探開發(fā)數(shù)據(jù)的服務(wù)時(shí)效性,原有數(shù)據(jù)需要T+1才能從數(shù)據(jù)源端到達(dá)數(shù)據(jù)服務(wù)端。全量油田數(shù)據(jù)入湖,油田邊緣計(jì)算設(shè)備的時(shí)序數(shù)據(jù)需要實(shí)時(shí)上傳入湖,原有離線數(shù)倉不支持?jǐn)?shù)據(jù)快速去重能力,導(dǎo)致時(shí)序入湖性能達(dá)不到要求。滴普服務(wù)統(tǒng)一數(shù)據(jù)集成工具:滴普DCT提供統(tǒng)一的多源異構(gòu)數(shù)據(jù)庫實(shí)時(shí)同步+離線同步工具,支持結(jié)構(gòu)化數(shù)據(jù)、半結(jié)構(gòu)化數(shù)據(jù)實(shí)時(shí)匯聚。實(shí)時(shí)湖倉架構(gòu)升級(jí):滴普DLink實(shí)時(shí)湖倉引擎集成到勘探開發(fā)云平臺(tái),提供數(shù)據(jù)實(shí)時(shí)計(jì)算、聯(lián)邦查詢等高級(jí)特性。解決方案數(shù)據(jù)源分類:項(xiàng)目涵蓋了11大類油田數(shù)據(jù)源,這些數(shù)據(jù)源多樣化,涉及油氣行業(yè)的多個(gè)關(guān)鍵領(lǐng)域。數(shù)據(jù)同步和調(diào)度:所有這些數(shù)據(jù)源通過DCT進(jìn)行統(tǒng)一調(diào)度和集成。DCT在這里起到了核心的數(shù)據(jù)同步和集成工具的作用,確保了不同數(shù)據(jù)源之間的有效對(duì)接。數(shù)據(jù)同步至開發(fā)云平臺(tái):通過DCT工具,數(shù)據(jù)被同步到一個(gè)專門的開發(fā)云平臺(tái)。這個(gè)平臺(tái)作為數(shù)據(jù)處理和分析的核心,支持大規(guī)模數(shù)據(jù)集的處理和分?jǐn)?shù)據(jù)量和應(yīng)用場(chǎng)景:這個(gè)項(xiàng)目處理了大約5PB的數(shù)據(jù)量,這一規(guī)模體現(xiàn)了其處理大數(shù)據(jù)的強(qiáng)大能力。最終,這些數(shù)據(jù)用于支持8大油氣數(shù)據(jù)應(yīng)用場(chǎng)景,提供實(shí)時(shí)的數(shù)據(jù)服務(wù)。(1)勘探開發(fā)云平臺(tái):勘探開發(fā)云平臺(tái)新架構(gòu)數(shù)據(jù)集成:從各種業(yè)務(wù)系統(tǒng)中提取數(shù)據(jù),通過DCT實(shí)現(xiàn)數(shù)據(jù)的統(tǒng)一集成。數(shù)據(jù)入湖:采用批流一體的方式,具體是通過FlinkCDC機(jī)制將數(shù)據(jù)同步到Kafka集群,然后再利用Flink將數(shù)據(jù)實(shí)時(shí)寫入數(shù)據(jù)湖。同時(shí),也支持使用聯(lián)邦查詢技術(shù)進(jìn)行批處理數(shù)據(jù)的入湖。析,實(shí)現(xiàn)數(shù)據(jù)的深度處理。數(shù)據(jù)同步與調(diào)度:處理完成的數(shù)據(jù)通過調(diào)度策略,使用Trinor進(jìn)行離線同步到ClickHouse(CK)。數(shù)據(jù)服務(wù)API:最終,通過API將同步到ClickHouse的數(shù)據(jù)提供給下游應(yīng)用,供進(jìn)一步的業(yè)務(wù)應(yīng)用和數(shù)據(jù)分析使用。(2)成果:異構(gòu)多模數(shù)據(jù)通過統(tǒng)一數(shù)據(jù)采集架構(gòu)入湖,優(yōu)化運(yùn)維成本新架構(gòu)相較于原架構(gòu),實(shí)現(xiàn)了數(shù)據(jù)同步流程的簡化和統(tǒng)一,并通過實(shí)時(shí)數(shù)據(jù)湖的引入,提升了數(shù)據(jù)處理的實(shí)時(shí)性和全面性,為更快速、更有效的數(shù)據(jù)分析提供了支持。原架構(gòu)特點(diǎn):在原有的數(shù)據(jù)架構(gòu)中,實(shí)時(shí)數(shù)據(jù)同步和離線數(shù)據(jù)同步是分開的,使用不同的工具鏈進(jìn)行處理。新架構(gòu)優(yōu)化:新架構(gòu)通過DCT實(shí)現(xiàn)了數(shù)據(jù)采集的統(tǒng)一,將實(shí)時(shí)和離線數(shù)據(jù)同步集成在同一條數(shù)據(jù)鏈路中,優(yōu)化了入湖過程。數(shù)據(jù)湖轉(zhuǎn)變:在原架構(gòu)中,數(shù)據(jù)湖主要面向離線數(shù)據(jù)存儲(chǔ),而新架構(gòu)升級(jí)為實(shí)時(shí)數(shù)據(jù)湖,提供了更高的時(shí)效性和全鏈路數(shù)據(jù)處理的能力。時(shí)效性提升:新架構(gòu)顯著提高了數(shù)據(jù)處理的時(shí)效性,使得實(shí)時(shí)數(shù)據(jù)分析成為可能,同時(shí)還支持在實(shí)時(shí)數(shù)據(jù)湖中進(jìn)行全鏈路的數(shù)據(jù)處理。(3)成果:數(shù)據(jù)入湖、湖倉內(nèi)模型處理速度大幅提升,時(shí)效升級(jí)為T+0原架構(gòu)處理方式:原架構(gòu)依賴于離線跑批處理數(shù)據(jù),并將數(shù)據(jù)同步到數(shù)據(jù)集市(datamart)層,同樣采用離線跑批的方法。新架構(gòu)的優(yōu)化:新架構(gòu)采用了流批一體的處理鏈路,從數(shù)據(jù)入湖到最終寫入數(shù)據(jù)集市,整個(gè)應(yīng)用層都采用了流處理和批處理的結(jié)合方式。時(shí)效性提升:新架構(gòu)將數(shù)據(jù)處理的時(shí)效性從原來的T+1(次日處理)提升到了T+0(實(shí)時(shí)處理),顯著提高了數(shù)據(jù)處理的即時(shí)性。資源消耗優(yōu)化:新架構(gòu)能夠在資源消耗上實(shí)現(xiàn)顯著節(jié)省,提高了整體的數(shù)據(jù)處理效率。性能提升:在數(shù)據(jù)同步性能上,從原來的每秒同步1100條數(shù)據(jù)提升到實(shí)時(shí)入湖監(jiān)測(cè)到的每秒25000條數(shù)據(jù),性能提高了超過20倍。2.某零售企業(yè):構(gòu)建圍繞“貨”“店”數(shù)據(jù)智能運(yùn)營體系技術(shù)應(yīng)用:該零售企業(yè)采用了FastData平臺(tái),輔以數(shù)據(jù)集成工具,以優(yōu)化其貨店數(shù)據(jù)智能運(yùn)營體系。成本下降:通過這些技術(shù)的應(yīng)用,企業(yè)的硬件成本降低了25%。數(shù)據(jù)量和性能提升:在數(shù)據(jù)鏈方面,企業(yè)管理著大約2.5到3PB的數(shù)據(jù)規(guī)模,每天數(shù)據(jù)新增量約為500GB。數(shù)據(jù)查詢性能提高了30%。構(gòu),時(shí)效性也隨之提升到了T+0級(jí)別,即數(shù)據(jù)可以實(shí)時(shí)處理和分析。(1)某零售企業(yè):基于FastData湖倉一體架構(gòu)優(yōu)化成本,性能和效率數(shù)據(jù)源集成:我們將內(nèi)部及外部的多樣化數(shù)據(jù)源通過DCT進(jìn)行集成,整合到FastData平臺(tái)。數(shù)據(jù)處理與分析:在數(shù)據(jù)集成之后,在FastData的基礎(chǔ)設(shè)施上進(jìn)行了必要的數(shù)據(jù)處理和分析。指標(biāo)與模型:處理和分析的過程中涉及到指標(biāo)標(biāo)簽的構(gòu)建和應(yīng)用模型分析。業(yè)務(wù)閉環(huán)形成:通過這些步驟,實(shí)現(xiàn)了針對(duì)特定業(yè)務(wù)場(chǎng)景的閉環(huán),從而支撐了數(shù)據(jù)驅(qū)動(dòng)的決策過程。(2)某零售企業(yè):數(shù)據(jù)中臺(tái)聯(lián)合共創(chuàng),全面提升業(yè)務(wù)效率問題客戶擁有多個(gè)業(yè)務(wù)系統(tǒng),并使用多種數(shù)據(jù)庫類型;底層需接入多個(gè)組件實(shí)現(xiàn)數(shù)據(jù)離線、實(shí)時(shí)同步,技術(shù)復(fù)雜度高,穩(wěn)定性差,采購多套商業(yè)軟件,費(fèi)用高,資源消耗大。價(jià)值統(tǒng)一數(shù)據(jù)入湖工具可以降低數(shù)據(jù)集成過程的復(fù)雜度,減少維護(hù)成本,資源使用大幅減少。該工具采用集群架構(gòu),高可用,支持故障轉(zhuǎn)移,能進(jìn)一步提升容錯(cuò)性和可靠性。同時(shí)數(shù)據(jù)入湖速度、湖倉內(nèi)模型處理速度大幅提升,數(shù)據(jù)服務(wù)時(shí)效從T+1升級(jí)為T+0。運(yùn)行情況:DCT任務(wù)2000+,并發(fā)任務(wù)500+,平日數(shù)據(jù)量約為1億+;峰值3萬條/秒;DCT生產(chǎn)環(huán)境運(yùn)行2年,運(yùn)行穩(wěn)定,無數(shù)據(jù)丟失;潰,無數(shù)據(jù)丟失,數(shù)據(jù)延遲<2秒;DCT實(shí)時(shí)同步速率約80MB/s,日最高承受數(shù)據(jù)量達(dá)20TB。Q&AQ1:DCT數(shù)據(jù)集成是如何保證數(shù)據(jù)一致性的?checkpoint機(jī)制。這一機(jī)制能夠在任務(wù)因異常中斷時(shí)創(chuàng)建保存點(diǎn),以便在網(wǎng)絡(luò)或系統(tǒng)恢復(fù)后,能夠從上一個(gè)已知的良好狀態(tài)重新開始數(shù)據(jù)同步。這樣做的好處是,即使在出現(xiàn)故障的情況下,也能確保數(shù)據(jù)不會(huì)丟失,并且可以根據(jù)業(yè)務(wù)時(shí)間或數(shù)據(jù)偏移量進(jìn)行精確地重置和消費(fèi)。此外,如果目標(biāo)端存在主鍵,我們還可以利用數(shù)據(jù)的冪等性質(zhì)來避免重復(fù),確保數(shù)據(jù)的一致性。離線任務(wù)同步的一致性保證:在離線數(shù)據(jù)同步方面,特別是在處理大數(shù)據(jù)量場(chǎng)景下,我們同樣實(shí)施了故障轉(zhuǎn)移策略,并記錄了數(shù)據(jù)的偏移量。當(dāng)任務(wù)發(fā)生異常時(shí),可以從記錄的偏移量處開始重新同步。這種機(jī)制保證了即使在離線狀態(tài)下,數(shù)據(jù)同步也能夠在故障后繼續(xù)進(jìn)行,而不會(huì)造成數(shù)據(jù)的不一致。綜上,
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- DB11 185-2003 非道路用柴油機(jī)排氣污染物限值及測(cè)量方法
- 2018春蘇教版七年級(jí)生物下冊(cè)第四單元第9章教學(xué)設(shè)計(jì):4.9.1人體需要的主要營養(yǎng)物質(zhì)
- 視覺傳播設(shè)計(jì)小自考復(fù)習(xí)探討題及答案2024年
- 2024年上海市工藝美術(shù)學(xué)校招聘考試真題
- 西雙版納州勐臘縣人民醫(yī)院招聘崗工作人員筆試真題2024
- 視覺傳播設(shè)計(jì)與其他藝術(shù)形式結(jié)合探討及試題及答案
- 排痰機(jī)使用流程及護(hù)理
- 2025年拋棄式溫深計(jì)項(xiàng)目合作計(jì)劃書
- 小自考漢語言文學(xué)2024年考前輔導(dǎo)試題及答案
- 【宣城】2025年安徽宣城市慈善總會(huì)公開招聘工作人員2人筆試歷年典型考題及考點(diǎn)剖析附帶答案詳解
- 2024年醫(yī)師定期考核臨床類人文醫(yī)學(xué)知識(shí)考試題庫及答案(共280題)
- 2024年形勢(shì)與政策 第二講 中國經(jīng)濟(jì)高質(zhì)量發(fā)展扎實(shí)推進(jìn)(課件)
- 老年人安全移動(dòng)照護(hù)(老年照護(hù)技術(shù)課件)
- DB11∕T 1703-2019 口腔綜合治療臺(tái)水路消毒技術(shù)規(guī)范
- 風(fēng)電場(chǎng)240小時(shí)試運(yùn)行方案
- 國家職業(yè)技術(shù)技能標(biāo)準(zhǔn) 4-04-05-05 人工智能訓(xùn)練師 人社廳發(fā)202181號(hào)
- 大學(xué)生魅力講話實(shí)操學(xué)習(xí)通超星期末考試答案章節(jié)答案2024年
- 公司組織架構(gòu)圖模板完整版可編輯3
- 《游園》課件統(tǒng)編版高中語文必修下冊(cè)
- DB31T-氫基綠色燃料評(píng)價(jià)方法及要求
- 2024新能源光伏電站智慧型銅合金導(dǎo)體擠包絕緣電力電纜
評(píng)論
0/150
提交評(píng)論