![湖倉一體技術(shù)與產(chǎn)業(yè)研究報告_第1頁](http://file4.renrendoc.com/view10/M00/05/1E/wKhkGWWnEU2ANlUpAAEX9IGT0_s441.jpg)
![湖倉一體技術(shù)與產(chǎn)業(yè)研究報告_第2頁](http://file4.renrendoc.com/view10/M00/05/1E/wKhkGWWnEU2ANlUpAAEX9IGT0_s4412.jpg)
![湖倉一體技術(shù)與產(chǎn)業(yè)研究報告_第3頁](http://file4.renrendoc.com/view10/M00/05/1E/wKhkGWWnEU2ANlUpAAEX9IGT0_s4413.jpg)
![湖倉一體技術(shù)與產(chǎn)業(yè)研究報告_第4頁](http://file4.renrendoc.com/view10/M00/05/1E/wKhkGWWnEU2ANlUpAAEX9IGT0_s4414.jpg)
![湖倉一體技術(shù)與產(chǎn)業(yè)研究報告_第5頁](http://file4.renrendoc.com/view10/M00/05/1E/wKhkGWWnEU2ANlUpAAEX9IGT0_s4415.jpg)
版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)
文檔簡介
一、湖倉一體是數(shù)據(jù)平臺發(fā)展的重要趨 (一)數(shù)據(jù)平臺的發(fā)展歷 (二)數(shù)據(jù)湖、數(shù)據(jù)倉庫特性分 (三)湖+倉混合業(yè)務(wù)架構(gòu)存在四大痛 (四)湖倉一體技術(shù)應(yīng)運而 二、湖倉一體實踐路 (一)湖上建 (二)倉外掛 三、湖倉一體產(chǎn)業(yè)及應(yīng)用現(xiàn) (一)湖倉一體主要廠商和代表產(chǎn) (二)湖倉一體在互聯(lián)網(wǎng)、電信、金融等信息化程度高的領(lǐng)域應(yīng)用程度高.四、結(jié)論與展 附錄:典型案 圖目圖1數(shù)據(jù)平臺發(fā)展歷程 圖2湖+倉混合架構(gòu) 圖3湖倉一體架構(gòu)模塊 圖4《湖倉一體數(shù)據(jù)平臺技術(shù)要求》標(biāo)準(zhǔn)總體框 圖5《Gartner數(shù)據(jù)管理成熟度曲線》2022 圖6我國數(shù)據(jù)平臺軟件市場規(guī) 圖7實踐路徑統(tǒng)計 圖82022年湖倉一體市場行業(yè)統(tǒng)計 表目表1數(shù)據(jù)湖與數(shù)據(jù)倉庫對比 表2兩種實現(xiàn)路徑對比 表3湖倉一體主要廠商和代表產(chǎn) 表4各行業(yè)需求現(xiàn)狀 (一)圖1
來源:CCSAOLTP場景,如銀行交易等。代表產(chǎn)品有Oracle、SQLServer、Mysql等。法支撐龐大的數(shù)據(jù)量。2090年代數(shù)據(jù)倉庫理論被提出。數(shù)據(jù)倉庫是為解決單個關(guān)系型數(shù)據(jù)庫架構(gòu)無法支撐龐大數(shù)據(jù)量的數(shù)據(jù)存于PPDDMP(yl)、、Clickhouse等。目Hadoop誕生了。2008Hadoop自建離線數(shù)據(jù)倉庫(Hive)成為Hadoop技術(shù)的成熟理。而以開源Hadoop體系為代表的開放式HDFS存儲、開放的文同工作的模式,形成了數(shù)據(jù)湖的雛形。Hudi、DeltaLakeIceberg類型數(shù)據(jù)的統(tǒng)一存儲。數(shù)據(jù)分析則以讀取型Schema(schemaonread)源大數(shù)據(jù)平臺EMR,華為云-FusionInsightMRS云原生數(shù)據(jù)湖、DLF、對象存儲COS等。(二)表1讀取型寫入型(三)湖+
來源:CCSAETL進(jìn)行數(shù)據(jù)交換。數(shù)據(jù)湖和數(shù)據(jù)倉庫是兩套獨立的體系,其中數(shù)據(jù)湖基于Hadoop技術(shù)生態(tài)2湖+
來源:CCSAMPP平臺的情況,進(jìn)一步增加了數(shù)據(jù)冗余的比例,增過程還需進(jìn)行一次ETL,影響查詢時效性。(四)并不是真正意義的湖倉一體平臺。2020年Databricks提出“湖倉一來源:CCSA圖3TC601來源:CCSA圖4集成能力包括(1)統(tǒng)一外部關(guān)系型數(shù)據(jù)庫、NoSQL數(shù)據(jù)庫、分布式湖倉一體架構(gòu)涉及異構(gòu)數(shù)據(jù)平臺對數(shù)據(jù)的處理,與傳統(tǒng)ELT/ETL形式不同的是數(shù)據(jù)無需移動。湖倉計算能力包括(1)存儲支持批處理、實時計算、OLAP分析等多種計算模式。(3(4Gartner發(fā)布的《Gartner數(shù)據(jù)管理成熟度曲線》(2022年)可以看出,數(shù)據(jù)湖技術(shù)日趨成熟,湖倉2021年縮短,期望值升高。同時各大云廠商紛紛推出湖倉一體產(chǎn)品,如AWS智能湖倉、Databricks-Lakehouse5《Gartner數(shù)據(jù)管理成熟度曲線》2022表2(Hadoop體系提升查3.4.5.6.(MPP體系3.4.5.2.(一)
來源:CCSAHadoopDeltaLake、Hudi、Iceberg三大開表產(chǎn)品有:華為云-FusionInsightMRS、AWS-智能湖倉、DatabricksDeltaLakeHadoop四是存儲兼容性。湖上建倉路徑中的存儲介質(zhì)由原有的以五是存算分離。傳統(tǒng)的Hadoop體系不具備云原生能力,是存儲HDFS+對象存儲獨立部署,實現(xiàn)存算(二 倉外掛倉外掛湖是指以MPP數(shù)據(jù)庫為基礎(chǔ),使用可插拔架構(gòu),通過開MPP數(shù)據(jù)庫技術(shù)體系,從關(guān)系型數(shù)據(jù)庫演進(jìn)而來,對事務(wù)一致臺之間透明流動。倉外掛湖路徑目前主要是將對接外部存儲如Hadoop、對象存儲等的元數(shù)據(jù)進(jìn)行采集,統(tǒng)一存儲、管理。介質(zhì)兼容方面,Hadoop、云對象存儲等的數(shù)據(jù)三是擴展查詢引擎。MPP計算引擎計算能MPP數(shù)據(jù)庫實現(xiàn)。增長。據(jù)CCSATC601測算,未來三年我國數(shù)據(jù)平臺軟件市場以超300億元。0 29.2%30.0%29.9%29.5%2020~2025201820192020202120222023e2024e市場規(guī)模(億元6
來源:CCSA(一)2020年湖倉一體概念被提出,阿里云、華為云、亞馬遜云等2021年陸續(xù)發(fā)布湖倉3整理了目前國內(nèi)外湖倉一體主要廠商、代表產(chǎn)品。表3MaxCompute/HologresFusionInsightMRS云原生大數(shù)據(jù)分析KeenDataH3C綠洲融合集成&企業(yè)級數(shù)據(jù)湖OushuDataAWSLakehouse來源:CCSACCSATC601統(tǒng)計分析,目前國內(nèi)七成以上廠商基于“湖上湖上建 倉外掛-云原生智能數(shù)據(jù)湖、移動云-Lakehouse等,近三湖上建 倉外掛圖7
來源:CCSA(二)7中可以看出,湖倉一體的應(yīng)用領(lǐng)域主要集中在互聯(lián)網(wǎng)、電信、金融82022
來源:CCSA表4互聯(lián)網(wǎng)企業(yè)不斷產(chǎn)生各種新應(yīng)用,數(shù)據(jù)來源多樣,導(dǎo)致需要從海量數(shù)據(jù)中分析得到有價值的信息數(shù)據(jù),進(jìn)而輔助企業(yè)決策。湖倉一體平臺可加快挖掘價值數(shù)據(jù)的速度,減少數(shù)據(jù)存電信行業(yè)擁有龐大的個人位置數(shù)據(jù),有精準(zhǔn)營銷、信用評估等應(yīng)用訴求。目前采用的傳統(tǒng)數(shù)據(jù)架構(gòu),存在數(shù)據(jù)質(zhì)量不高、實時性不夠、靈活性不足、存儲應(yīng)用相互制約等問題。金融行業(yè)數(shù)據(jù)資產(chǎn)化更為成熟,信息化建設(shè)起步早、資金投入巨大,數(shù)據(jù)標(biāo)準(zhǔn)化程度高,且技術(shù)實力強。目前依賴的傳統(tǒng)數(shù)據(jù)基礎(chǔ)設(shè)施無法處理金融機構(gòu)目前收集的各種海量數(shù)據(jù),而且個性化客戶參與和降低風(fēng)險的需求日益增長。湖倉一體平臺實現(xiàn)了統(tǒng)一存儲、大規(guī)模分析等能力,滿足創(chuàng)新業(yè)交通行業(yè)處于數(shù)字化轉(zhuǎn)型的起步階段,其業(yè)務(wù)特性決定了具有較高的智能化應(yīng)用潛力。目前部分業(yè)務(wù)環(huán)境(如智能交通、智慧機場等)應(yīng)用了數(shù)據(jù)平臺,緩解交通擁堵、改善城來源:CCSA二是利用云原生概念實現(xiàn)湖倉一體無服務(wù)器化部署。Serverless體驗,幫助用戶更專注于業(yè)務(wù)本身,而非關(guān)心技術(shù)邏輯,此外Serverless部署還可提供按需計費,進(jìn)而實現(xiàn)更高效的資源利用。AIAI技術(shù)廣泛應(yīng)用,(一 山東移動:湖倉一體大數(shù)據(jù)平臺建設(shè)實B域、O域、M域的數(shù)據(jù)融合,傳統(tǒng)經(jīng)分系統(tǒng)和大數(shù)據(jù)平臺也ftInsertOverwrite分多個步驟實現(xiàn),流程長,效率低;亞信的DataInfra產(chǎn)品構(gòu)建湖倉底座能力,DataOS產(chǎn)品形成Hudi組件,構(gòu)建數(shù)據(jù)實時入湖能務(wù)性能提升2倍,存儲降低4倍,取得了顯著效果。(二)2012(DB2威海銀行采用基于MRSDWSDB2分為3統(tǒng)一數(shù)據(jù)架構(gòu),試點支撐數(shù)字化轉(zhuǎn)型項目數(shù)據(jù)服務(wù)需求。截至第二階段,業(yè)務(wù)賦能。市,全面提升全行用數(shù)能力和水平。截至2023年5第三階段,引領(lǐng)創(chuàng)新。平臺運行方面。通過數(shù)據(jù)中臺湖倉一體的建設(shè),集群算力提升 客戶對數(shù)倉基礎(chǔ)功能、安全、Serverless云原生能力都有較高要OLAP分析服務(wù)的需求。客戶原有Hadoop技術(shù)OSS存儲,上面多套開源引擎共享數(shù)客戶認(rèn)為湖的能力不滿足數(shù)倉要求,于是引入云原生數(shù)倉MaxCompute構(gòu)建數(shù)據(jù)中臺,MC與原有開源體系異構(gòu),如果不能融MCHadoopVPC網(wǎng)絡(luò)進(jìn)行了打通,并提OSS目錄數(shù)據(jù)識別為表的結(jié)構(gòu),MCDLF探查的OSS元數(shù)據(jù),按照DataBase、Table層次讀寫OSS數(shù)據(jù)。HadoopHiveHMS元數(shù)據(jù)存儲,Kerberos認(rèn)證信息、HDFS讀寫服務(wù),可以讀取HMSHive表元數(shù)據(jù),將HiveDataBase、TableMC相同結(jié)構(gòu)的外部項目。DLFHMSOSSHDFS的數(shù)數(shù)倉PanguOLAPMC的開放數(shù)
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 銀川油泵項目申請報告模板參考
- 2025年正在改制行業(yè)深度研究分析報告
- 助貸服務(wù)合同范本
- 2025年度腳手架施工質(zhì)量監(jiān)督與驗收合同
- 2025年度建筑勞務(wù)市場合同示范文本匯編
- 2025年度國際貨物保險風(fēng)險評估與管理合同
- 別克車銷售合同范本
- 2025年度攪拌樁施工設(shè)備租賃合同
- 化肥包裝租賃合同范例
- 2025年度創(chuàng)意產(chǎn)業(yè)園區(qū)租賃運營管理合同
- 中央2025年交通運輸部所屬事業(yè)單位招聘261人筆試歷年參考題庫附帶答案詳解
- 2025年上半年上半年重慶三峽融資擔(dān)保集團股份限公司招聘6人易考易錯模擬試題(共500題)試卷后附參考答案
- 特殊教育學(xué)校2024-2025學(xué)年度第二學(xué)期教學(xué)工作計劃
- (正式版)HGT 22820-2024 化工安全儀表系統(tǒng)工程設(shè)計規(guī)范
- 2023年青島遠(yuǎn)洋船員職業(yè)學(xué)院高職單招(數(shù)學(xué))試題庫含答案解析
- 2023年衛(wèi)生院崗位大練兵大比武競賽活動實施方案
- 2023年浙江省初中學(xué)生化學(xué)競賽初賽試卷
- 遼海版小學(xué)五年級美術(shù)下冊全套課件
- 專題7閱讀理解之文化藝術(shù)類-備戰(zhàn)205高考英語6年真題分項版精解精析原卷
- 2022年廣東省10月自考藝術(shù)概論00504試題及答案
- 隧道二襯承包合同參考
評論
0/150
提交評論