版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
1、云原生數(shù)據(jù)湖技術(shù)概述技術(shù)創(chuàng)新,變革未來(lái)數(shù)據(jù)湖的定義離線任務(wù)管理流程編排質(zhì)量管理數(shù)據(jù)治理數(shù)據(jù)接入數(shù)據(jù)搬遷訪問(wèn)控制資產(chǎn)目錄應(yīng)用BI報(bào)表數(shù)據(jù)大屏數(shù)據(jù)挖掘機(jī)器學(xué)習(xí)IoT分析數(shù)據(jù)庫(kù)數(shù)倉(cāng)APP數(shù)據(jù)湖存儲(chǔ)層OSS實(shí)時(shí)調(diào)用數(shù)據(jù)湖是面向大數(shù)據(jù)場(chǎng)景的創(chuàng)新解決方案早期,業(yè)界和用戶多把數(shù)據(jù)湖定義為一個(gè)儲(chǔ)存原始格式數(shù)據(jù)的系統(tǒng),可容納結(jié)構(gòu)化、半結(jié)構(gòu)化、非結(jié)構(gòu)化及二進(jìn)制的數(shù)據(jù)。 隨著大數(shù)據(jù)技術(shù)的融合發(fā)展,數(shù)據(jù)湖的邊界不斷擴(kuò)展,內(nèi)涵也發(fā)生了變化。數(shù)據(jù)湖開(kāi)始匯集各方面技術(shù),逐步演進(jìn)成為集 多源異構(gòu)數(shù)據(jù)統(tǒng)一儲(chǔ)存、多范式計(jì)算分析及統(tǒng)一管理調(diào)用的大數(shù)據(jù)綜合解決方案。它可以更加高效率低成本地管理海量多 源異構(gòu)數(shù)據(jù),打通數(shù)據(jù)孤島,釋放數(shù)
2、據(jù)價(jià)值,助力新時(shí)代下各行業(yè)企業(yè)的數(shù)字化轉(zhuǎn)型。數(shù)據(jù)湖典型構(gòu)架及特性數(shù)據(jù)湖接入層數(shù)據(jù)湖調(diào)度層數(shù)據(jù)湖應(yīng)用層統(tǒng) 一 的 API接 口數(shù)據(jù)科學(xué) 應(yīng)用廣泛: 支持使用者通 過(guò)自助訪問(wèn)業(yè) 務(wù)數(shù)據(jù), 支持 數(shù)據(jù)挖掘、機(jī) 器學(xué)習(xí)等未知 探索訴求。 Schema 后 置:數(shù)據(jù)湖存儲(chǔ)數(shù)據(jù) 不需要滿足特定 的范式,支持在 讀取數(shù)據(jù)的時(shí)候 schema。, 數(shù)據(jù)多源異構(gòu): 可容納海量數(shù)據(jù), 且無(wú)存儲(chǔ)格式要求 接收結(jié)構(gòu)化、半結(jié) 構(gòu)化、非結(jié)構(gòu)化及 二進(jìn)制數(shù)據(jù)入湖。, 多范式計(jì)算:支持多種計(jì)算引擎,滿足不同數(shù)據(jù)計(jì)算分 析需求,支持批處理、流處理、機(jī)器學(xué)習(xí)等。數(shù)據(jù)湖管理層元數(shù)據(jù)管理數(shù)據(jù)湖計(jì)算層離線計(jì)算MapReduceSpar
3、k實(shí)時(shí)計(jì)算StormFlinkSpark Streaming 數(shù)據(jù)統(tǒng)一存儲(chǔ)管理:對(duì)內(nèi)以O(shè)SS為中心,進(jìn)行統(tǒng)一存儲(chǔ) 對(duì)接多范式計(jì)算引擎,對(duì)外提供統(tǒng)一的API接口4日志數(shù)據(jù)湖 vs 數(shù)據(jù)倉(cāng)庫(kù)誕生背景、設(shè)計(jì)思路及使用場(chǎng)景各不相同數(shù)據(jù)倉(cāng)庫(kù)是誕生于數(shù)據(jù)庫(kù)時(shí)代,應(yīng)企業(yè)分析訴求而生的數(shù)據(jù)產(chǎn)品,它的核心思路是把數(shù)據(jù)庫(kù)中的數(shù)據(jù)進(jìn)行一定格式轉(zhuǎn)換后, 定時(shí)地復(fù)制至另一個(gè)庫(kù)里做列式存儲(chǔ),從而滿足企業(yè)查詢和數(shù)據(jù)分析的訴求。隨著互聯(lián)網(wǎng)的發(fā)展,數(shù)據(jù)量暴增,非結(jié)構(gòu)化 數(shù)據(jù)越來(lái)越多,企業(yè)業(yè)務(wù)變化越來(lái)越快,傳統(tǒng)數(shù)據(jù)倉(cāng)庫(kù)無(wú)法適應(yīng)大數(shù)據(jù)和現(xiàn)代化企業(yè)對(duì)于實(shí)時(shí)、交互式分析等方面的訴求。 隨之,數(shù)據(jù)湖誕生。它選擇了“前松后緊”的設(shè)計(jì)思路,
4、初始化階段放棄嚴(yán)格的模式,后置schema,從而獲取更強(qiáng)的靈 活性;同時(shí)通過(guò)統(tǒng)一存儲(chǔ)管理和計(jì)算優(yōu)化來(lái)保證數(shù)據(jù)的一致性和性能。數(shù)據(jù)湖與數(shù)據(jù)倉(cāng)庫(kù)對(duì)比數(shù)據(jù)源數(shù)據(jù)處理適用場(chǎng)景性價(jià)比數(shù)據(jù)倉(cāng)庫(kù)支持處理過(guò)后的結(jié)構(gòu)化/半結(jié)構(gòu) 化數(shù)據(jù);來(lái)自業(yè)務(wù)系統(tǒng)寫時(shí)建模(Schema-on-write)傳統(tǒng)行業(yè),以及企業(yè)的穩(wěn)態(tài)業(yè)務(wù);數(shù)據(jù)量少,數(shù)據(jù)結(jié)構(gòu)化,穩(wěn)定可預(yù)測(cè),對(duì) 執(zhí)行實(shí)時(shí)性要求不高建設(shè)成本低 擴(kuò)容成本高高度監(jiān)管與嚴(yán)格事前控制,滿足企業(yè)級(jí)訴求;數(shù)據(jù)與模式穩(wěn)定,引擎優(yōu)化表現(xiàn)較好。BI數(shù)據(jù)源ETL數(shù)據(jù)倉(cāng)庫(kù)報(bào)表數(shù)據(jù)湖支持未經(jīng)處理的結(jié)構(gòu)化/半結(jié)構(gòu) 化/非結(jié)構(gòu)化數(shù)據(jù);來(lái)自IoT設(shè)備、Web、APP和業(yè)務(wù)系統(tǒng)等讀時(shí)建模(Schema
5、-on-read)泛互聯(lián)網(wǎng)行業(yè)以及傳統(tǒng)行業(yè)的互聯(lián)網(wǎng)場(chǎng)景; 海量數(shù)據(jù),迭代速度快,需要實(shí)時(shí)分析擴(kuò)容成本低 建設(shè)成本高可針對(duì)特定業(yè)務(wù)需求進(jìn)行重新配置,靈活性和可擴(kuò)展性較強(qiáng)。數(shù)據(jù)源數(shù)據(jù)湖數(shù) 據(jù) 處 理BI報(bào)表56云原生數(shù)據(jù)湖云原生部署是數(shù)據(jù)湖未來(lái)的必然形態(tài)近年來(lái),在數(shù)字經(jīng)濟(jì)的背景下,互聯(lián)網(wǎng)行業(yè)及傳統(tǒng)企業(yè)加速云化轉(zhuǎn)型,中國(guó)整體云服務(wù)市場(chǎng)的規(guī)模逐年擴(kuò)增,云成為新一 代IT基礎(chǔ)設(shè)施已經(jīng)成為不爭(zhēng)的事實(shí)。其中,企業(yè)云化轉(zhuǎn)型的深入以及用云思維的轉(zhuǎn)變,驅(qū)動(dòng)了PaaS市場(chǎng)份額的增長(zhǎng),基于 云的能力創(chuàng)新已成為基礎(chǔ)云發(fā)展新的增長(zhǎng)引擎。云特有的“池化、彈性、成本、敏捷”等優(yōu)勢(shì)讓數(shù)據(jù)層與應(yīng)用層的很多設(shè) 想得以實(shí)現(xiàn),擁抱云原
6、生成為數(shù)據(jù)湖乃至大數(shù)據(jù)的必然選擇。來(lái)源:2021年中國(guó)基礎(chǔ)云服務(wù)行業(yè)發(fā)展洞察,研究院自主研究及繪制。來(lái)源:2021年中國(guó)基礎(chǔ)云服務(wù)行業(yè)發(fā)展洞察,研究院自主研究及繪制。2015-2024年中國(guó)整體云服務(wù) 市場(chǎng)規(guī)模及增速394521693102616122256324546906598928632.1% 33.2%48.1%57.1%39.9% 43.8% 44.5% 40.7% 40.7%20 15 20 16 20 17 20 18 20 19 20 20 20 21e 20 22e 20 23e 20 24e整體云服務(wù)市場(chǎng)規(guī)模(億元)整體云服務(wù)市場(chǎng)增速(%)24132242463810881
7、6392285331442035527547110514518427240561391813742015-2024年中國(guó)整體IaaS和PaaS 市場(chǎng)規(guī)模及增速70.4%45.0%26.8%31.5%32.6%50.6%50.7%47.2%33.3% 31.7% 38.1%27.0%47.8%39.4%49.0% 51.5% 49.8%49.6%20 15 20 16 20 17 20 18 20 19 20 20 20 21e 20 22e 20 23e 20 24eIaaS市場(chǎng)規(guī)模(億元) IaaS市場(chǎng)增速(%)PaaS市場(chǎng)規(guī)模(億元) PaaS市場(chǎng)增速(%)云原生數(shù)據(jù)湖核心價(jià)值一:數(shù)據(jù)資產(chǎn)
8、集中存儲(chǔ)、統(tǒng)一管理,建立高質(zhì)量的數(shù)據(jù)資產(chǎn)隨著數(shù)字轉(zhuǎn)型化進(jìn)入深水區(qū),“數(shù)據(jù)”已經(jīng)成為企業(yè)的核心生產(chǎn)要素,打通各部門、各應(yīng)用系統(tǒng),建立企業(yè)級(jí)的統(tǒng)一數(shù)據(jù) 資產(chǎn)已經(jīng)成為業(yè)內(nèi)的共識(shí)。基于云上的集中存儲(chǔ)和數(shù)據(jù)湖,企業(yè)可以更絲滑地實(shí)現(xiàn)數(shù)據(jù)多源聚合,對(duì)內(nèi)外部數(shù)據(jù)進(jìn)行全生 命周期的管理,從而沉淀為數(shù)據(jù)資產(chǎn),賦能業(yè)務(wù)應(yīng)用,釋放數(shù)據(jù)價(jià)值。同時(shí),基于云原生數(shù)據(jù)湖部署的云原生應(yīng)用天然可 以實(shí)現(xiàn)數(shù)據(jù)的無(wú)界流動(dòng),數(shù)用一體為企業(yè)打造了高效的價(jià)值閉環(huán)?;谠圃鷶?shù)據(jù)湖的統(tǒng)一資產(chǎn)建設(shè)數(shù)據(jù)交換數(shù)據(jù)庫(kù)傳輸、日志、IoT源接入等數(shù)據(jù)打通統(tǒng)一調(diào)度、數(shù)據(jù)共享、API接口等數(shù)據(jù)存儲(chǔ)海量數(shù)據(jù)、冷熱分層、多種訪問(wèn)方式等數(shù)據(jù)計(jì)算異構(gòu)數(shù)據(jù)轉(zhuǎn)換、OC
9、R、NLP等數(shù)據(jù)質(zhì)量數(shù)據(jù)轉(zhuǎn)換、逆向解析、目錄管理等數(shù)據(jù)安全安全密鑰、權(quán)限管理、監(jiān)控預(yù)警等價(jià)值閉環(huán)數(shù)據(jù)資產(chǎn) 集中存儲(chǔ)、統(tǒng)一管理云原生應(yīng)用數(shù)據(jù)沉淀業(yè)務(wù)賦能結(jié) 構(gòu) 化 數(shù) 據(jù)半 結(jié) 構(gòu)數(shù) 據(jù)ERPCRMWeb Email 化非 結(jié) 構(gòu)MediaIoT化數(shù)據(jù)7云原生數(shù)據(jù)湖核心價(jià)值二:低成本通過(guò)云的方式,更低成本地使用存儲(chǔ)和計(jì)算資源云原生數(shù)據(jù)湖是基于云環(huán)境構(gòu)建的低成本大數(shù)據(jù)解決方案。于存儲(chǔ)上,云原生數(shù)據(jù)湖使用對(duì)象存儲(chǔ),實(shí)現(xiàn)了無(wú)限擴(kuò)容(理 論上)和更低的價(jià)格,同時(shí)云上統(tǒng)一存儲(chǔ)也簡(jiǎn)化了之后數(shù)據(jù)調(diào)用的復(fù)雜度;于計(jì)算上,云原生數(shù)據(jù)湖采用計(jì)算存儲(chǔ)分離的 架構(gòu),讓計(jì)算節(jié)點(diǎn)和存儲(chǔ)節(jié)點(diǎn)可以分別彈性伸縮,避免了存算需求不
10、同造成的浪費(fèi);于用云策略上,云原生數(shù)據(jù)湖通過(guò) Serverless的模式,根據(jù)請(qǐng)求量自動(dòng)進(jìn)行毫秒級(jí)的彈性擴(kuò)容,解決波峰資源短缺、波谷資源浪費(fèi)的問(wèn)題,實(shí)現(xiàn)最小單元的 成本最優(yōu)。云原生數(shù)據(jù)湖成本優(yōu)化剖析存儲(chǔ)成本OSS計(jì)算成本計(jì)算存儲(chǔ)分離用云成本Serverless資源短缺資源浪費(fèi)預(yù)留實(shí)際現(xiàn)階段定時(shí)等云資源調(diào)用機(jī)制具有一定的滯后性,為了保 證高可用,企業(yè)往往選擇采取冗余的伸縮策略,這造成用 云成本的上升。Serverless模式下,資源消耗隨著應(yīng)用程 序的需求(請(qǐng)求數(shù)量)變化自動(dòng)擴(kuò)展或縮減,計(jì)費(fèi)精確到 毫秒級(jí),大大降低了企業(yè)數(shù)據(jù)湖用云成本高企的問(wèn)題。塊存儲(chǔ)文件存儲(chǔ)對(duì)象存儲(chǔ)隨著移動(dòng)互聯(lián)網(wǎng)、產(chǎn)業(yè)互聯(lián)網(wǎng)、
11、5G的發(fā)展,個(gè)人端和企 業(yè)端產(chǎn)生的數(shù)據(jù)量爆發(fā)增長(zhǎng)。在早期大數(shù)據(jù)分析的架構(gòu)下, 計(jì)算資源和存儲(chǔ)資源是緊耦合的,只能同步擴(kuò)容,這造成 了計(jì)算資源的過(guò)剩。存算分離后,計(jì)算節(jié)點(diǎn)和存儲(chǔ)節(jié)點(diǎn)都 可以按需彈性擴(kuò)容,大大降低了計(jì)算的成本。不同于直接操作物理磁盤的塊存儲(chǔ),或基于文件路徑訪問(wèn)的 文件存儲(chǔ),對(duì)象存儲(chǔ)通過(guò)唯一標(biāo)識(shí)符(Key)映射尋址,存 取都非常靈活和簡(jiǎn)單。這種方法對(duì)在云計(jì)算環(huán)境中自動(dòng) 化 和簡(jiǎn)化數(shù)據(jù)存儲(chǔ)都大有裨益,體現(xiàn)在用戶側(cè)即表現(xiàn)為理 論 上無(wú)限的擴(kuò)容可能性和更低廉的存儲(chǔ)成本。計(jì)算存儲(chǔ)分離計(jì)算存儲(chǔ)計(jì)算存儲(chǔ)耦合8云原生數(shù)據(jù)湖核心價(jià)值三:高性能云湖共生,帶來(lái)大數(shù)據(jù)應(yīng)用的高性能體驗(yàn)數(shù)據(jù)湖“統(tǒng)一簡(jiǎn)單、松耦
12、合彈性、敏捷探索”的設(shè)計(jì)思路與云計(jì)算天然契合,當(dāng)數(shù)據(jù)湖以云原生的方式部署時(shí),其 強(qiáng)大的性能優(yōu)勢(shì)可以被最大化釋放。一方面,數(shù)據(jù)湖上云后可以享受云本身帶來(lái)的性能提升,如高可用、彈性、敏捷等; 另一方面,數(shù)據(jù)湖在云原生的環(huán)境中可以做更多性能優(yōu)化的工作,如豐富的上下文帶來(lái)的分析加速,流批融合帶來(lái)的實(shí)時(shí) 數(shù)據(jù)價(jià)值釋放,一站式數(shù)據(jù)管理方案帶來(lái)的安全和質(zhì)量改善等。云原生數(shù)據(jù)湖性能優(yōu)化剖析01On Cloud 本身帶來(lái)的性能提升相較自建IDC,云環(huán)境擁云計(jì)算具備動(dòng)態(tài)擴(kuò)充性云讓企業(yè)得以從重復(fù)、有更多的資源冗余,一與可負(fù)擔(dān)性,可以解決復(fù)雜的底層IT工作中釋放高可用節(jié)點(diǎn)發(fā)生故障能無(wú)縫切換到其他節(jié)點(diǎn),從而對(duì)彈性海量業(yè)
13、務(wù)帶來(lái)的吞吐和 IO性能瓶頸,滿足大數(shù)敏捷出來(lái), 同時(shí)其模塊化、松耦合的敏捷架構(gòu)有利企業(yè)側(cè)體現(xiàn)為高可用,據(jù)分析所需資源的龐大于數(shù)據(jù)產(chǎn)品的快速迭代、確保了業(yè)務(wù)的連續(xù)性。規(guī)模與突發(fā)性質(zhì)的需求。部署、運(yùn)維和創(chuàng)新。02In Cloud 更進(jìn)一步地性能優(yōu)化加速一方面, 云原生數(shù)據(jù)湖 提供了比以往更豐富的 上下文, 有助于加速分 析實(shí)驗(yàn); 另一方面, 它 統(tǒng)一了流式處理和批式 處理, 可以為企業(yè)提供 更實(shí)時(shí)的數(shù)據(jù)價(jià)值體驗(yàn)。多范式云原生數(shù)據(jù)湖基于云環(huán)境 統(tǒng)一了企業(yè)數(shù)據(jù)資產(chǎn)和多 范式計(jì)算引擎,從而可以 支持企業(yè)對(duì)任何數(shù)據(jù)類型 執(zhí)行任何分析。同時(shí)其可 擴(kuò)展的架構(gòu)也為企業(yè)使用 AI進(jìn)行探索做好了準(zhǔn)備。安全云原生數(shù)
14、據(jù)湖提供了簡(jiǎn) 單、強(qiáng)大的數(shù)據(jù)管理解 決方案, 以全保真的方 式存儲(chǔ)任何類型或數(shù)量 的數(shù)據(jù), 有助于企業(yè)加 強(qiáng)安全和治理。9云原生數(shù)據(jù)湖核心價(jià)值四:敏捷創(chuàng)新成本價(jià)值IT時(shí)代職能中心DT時(shí)代創(chuàng)新中心成 本 導(dǎo) 向價(jià) 值 導(dǎo) 向存儲(chǔ)層基于云原生對(duì)象存儲(chǔ)的方式,企業(yè)無(wú)需擔(dān)心 數(shù)據(jù)增長(zhǎng)帶來(lái)的擴(kuò)容問(wèn)題,無(wú)需關(guān)注數(shù)據(jù)存 放的物理位置,只需要將云當(dāng)作是一個(gè)無(wú)限 擴(kuò)展、簡(jiǎn)單存取、彈性伸縮的“網(wǎng)盤”即可。計(jì)算層在云原生的環(huán)境下,企業(yè)可以在統(tǒng)一的控制 臺(tái)上簡(jiǎn)單地(寫SQL一種語(yǔ)言即可)進(jìn)行多 范式計(jì)算,根據(jù)業(yè)務(wù)需求和數(shù)據(jù)屬性自動(dòng)/半 自動(dòng)地選擇適合的計(jì)算引擎,無(wú)需IT部門再 花費(fèi)額外的學(xué)習(xí)成本去進(jìn)行計(jì)算優(yōu)化。應(yīng)用層
15、將云原生數(shù)據(jù)湖作為企業(yè)大數(shù)據(jù)的解決方案, 可以更進(jìn)一步地屏蔽底層的復(fù)雜性,聚焦于 業(yè)務(wù)服務(wù)。基于彈性的IT基礎(chǔ)資源和柔性的 數(shù)據(jù)資產(chǎn),IT可以更敏捷地進(jìn)行應(yīng)用創(chuàng)新。云計(jì)算的發(fā)展加速了IT部門 定位的變化,企業(yè)對(duì)其的訴 求更多地由成本轉(zhuǎn)向價(jià)值支 持,IT部門正在由職能中心 向創(chuàng)新中心過(guò)渡。重塑IT部門定位與價(jià)值,賦能業(yè)務(wù)應(yīng)用敏捷創(chuàng)新云服務(wù)重塑了IT產(chǎn)業(yè)的分工和企業(yè)IT部門工作的內(nèi)容和方式,企業(yè)IT部門越來(lái)越少地關(guān)注復(fù)雜的底層技術(shù),轉(zhuǎn)而向應(yīng)用創(chuàng) 新聚焦,充分釋放其業(yè)務(wù)賦能價(jià)值。通過(guò)統(tǒng)一對(duì)象存儲(chǔ)、多引擎兼容、數(shù)據(jù)智能管理,云原生數(shù)據(jù)湖基于云的環(huán)境進(jìn)一步 釋放了企業(yè)IT的生產(chǎn)力。IT部門無(wú)需再關(guān)注基礎(chǔ)
16、資源和數(shù)據(jù)層的大多問(wèn)題,如存儲(chǔ)擴(kuò)容、計(jì)算優(yōu)化等,可以將更多的精力 放在業(yè)務(wù)支持、應(yīng)用創(chuàng)新上,實(shí)現(xiàn)真正的數(shù)據(jù)驅(qū)動(dòng)企業(yè)發(fā)展。企業(yè)IT部門定位變化云原生數(shù)據(jù)湖的應(yīng)用創(chuàng)新價(jià)值10大 數(shù) 據(jù) 技 術(shù)數(shù) 據(jù) 湖發(fā)展歷程來(lái)源:公開(kāi)資料,專家訪談,研究院自主研究及繪制。數(shù)據(jù)庫(kù)時(shí)代1960s2000s20世紀(jì)60年代,計(jì)算機(jī) 開(kāi)始廣泛地應(yīng)用于數(shù)據(jù) 管理,能夠統(tǒng)一管理和 共享數(shù)據(jù)的數(shù)據(jù)庫(kù)管理 系統(tǒng)(DBMS)誕生。20世紀(jì)90年代,為滿足 企業(yè)數(shù)據(jù)分析的訴求, 數(shù)據(jù)倉(cāng)庫(kù)誕生。2000s2010s:互聯(lián)網(wǎng)蓬勃發(fā)展,數(shù)據(jù)量 爆發(fā)式增長(zhǎng),數(shù)據(jù)庫(kù)/數(shù)倉(cāng) 難以承載海量數(shù)據(jù),大數(shù) 據(jù)時(shí)代開(kāi)啟;以Hadoop(開(kāi)源)、 Goo
17、gle 、 Microsoft Cosmos 為代表的分布式 技術(shù)體系誕生,奠基了大 數(shù)據(jù)時(shí)代的基本技術(shù)框架。2010s2020s:數(shù)據(jù)倉(cāng)庫(kù)不斷演進(jìn),在性能、成本、 數(shù)據(jù)管理能力等方面不斷優(yōu)化, Google BigQuery、Snowflake等 優(yōu)秀產(chǎn)品面市;以開(kāi)源 Hadoop 體系為代表的開(kāi)放 式 HDFS 存儲(chǔ)、開(kāi)放的文件格式、 開(kāi)放的元數(shù)據(jù)服務(wù)以及多種引擎(Presto、Spark、Flink 等)協(xié)同 工作的模式,形成了數(shù)據(jù)湖的雛形。大數(shù)據(jù)技術(shù)的探索期2020s:大數(shù)據(jù)技術(shù)逐步滲透到下游各行業(yè),人們 對(duì)大數(shù)據(jù)產(chǎn)品提出了成本、安全、穩(wěn)定性 等更加全面的企業(yè)級(jí)生產(chǎn)的要求;云上純托管的
18、存儲(chǔ)系統(tǒng)逐步取代HDFS, 引擎豐富度也不斷擴(kuò)展,數(shù)據(jù)湖開(kāi)始走向 “云湖共生”階段;數(shù)據(jù)倉(cāng)庫(kù)和數(shù)據(jù)湖在云的體系下得以打通, 湖倉(cāng)一體的解決方案在業(yè)界開(kāi)始應(yīng)用。阿里云推出業(yè)內(nèi)首個(gè)云原生企業(yè)級(jí) 數(shù)據(jù)湖解決方案IBM推出面向數(shù)據(jù)湖的新一代存儲(chǔ) 解決方案百度云推出百度數(shù)據(jù)湖管理與分析 平臺(tái)EasyDAP華為云推出數(shù)據(jù)湖治理中心DGC,將 原FusionInsight HD與MRS結(jié)合, 全面升級(jí)到FusionInsight MRS云 原生架構(gòu)2020年阿里云定義了數(shù)據(jù)湖3.0,為 用戶提供以O(shè)SS為中心,多種 元數(shù)據(jù)統(tǒng)一管理,并結(jié)合云原 生進(jìn)一步實(shí)現(xiàn)實(shí)時(shí)化、AI化、 生態(tài)化的綜合性解決方案。騰訊云首次
19、對(duì)外展示完整的云 端數(shù)據(jù)湖產(chǎn)品圖譜,并推出數(shù) 據(jù)湖計(jì)算DLC和數(shù)據(jù)湖構(gòu)建 DLF產(chǎn)品2021年產(chǎn)品隨市場(chǎng)需求不斷演進(jìn),國(guó)內(nèi)數(shù)據(jù)湖尚處于發(fā)展初期中國(guó)數(shù)據(jù)湖技術(shù)正在逐年發(fā)展及突破,公有云廠商及其他行業(yè)廠商紛紛在做嘗試。但目前在數(shù)據(jù)感知收集及歸類清洗方面 存在壁壘和難度,數(shù)據(jù)湖建模經(jīng)驗(yàn)不足,因此我國(guó)數(shù)據(jù)湖市場(chǎng)整體發(fā)展處于初期階段,未來(lái)發(fā)展空間廣闊。中國(guó)云原生數(shù)據(jù)湖行業(yè)發(fā)展歷程亞馬遜云科技推出Lake Formation2018年基于數(shù)據(jù)湖戰(zhàn)略, EMC推出三款新的 Isilon軟件產(chǎn)品Isilon SD Edge、第8代 Isilon操作系統(tǒng)和 Isilon CloudPools2016年亞馬遜云科
20、技宣布Lake Formation全面上市青 云 QingCloud 聯(lián) 合 HashData發(fā)布基于云模 式構(gòu)建的數(shù)據(jù)湖解決方案122019年大數(shù)據(jù)技術(shù)的發(fā)展期大數(shù)據(jù)技術(shù)的普及期中國(guó)云原生數(shù)據(jù)湖市場(chǎng)規(guī)模2020年規(guī)模達(dá)124億,預(yù)計(jì)未來(lái)三年維持39.7%的快速增長(zhǎng)據(jù)統(tǒng)計(jì),中國(guó)云原生數(shù)據(jù)湖2020年整體規(guī)模達(dá)124.8億元。目前行業(yè)正處于初期發(fā)展階段,由于國(guó)家政策利好、互聯(lián) 網(wǎng)技術(shù)高速發(fā)展的驅(qū)動(dòng)、企業(yè)數(shù)字化轉(zhuǎn)型加速等因素,預(yù)計(jì)中國(guó)云原生數(shù)據(jù)湖市場(chǎng)未來(lái)三年會(huì)以39.7%的復(fù)合增長(zhǎng)率快速 發(fā)展。2018-2023年中國(guó)云原生數(shù)據(jù)湖市場(chǎng)規(guī)模及增速注釋:云原生數(shù)據(jù)湖市場(chǎng)規(guī)模不含生態(tài)統(tǒng)計(jì)口徑為2020自
21、然年全年各廠商在中國(guó)內(nèi)地(不含港澳臺(tái))銷售云原生數(shù)據(jù)湖解決方案的營(yíng)業(yè)收入,合同簽署地點(diǎn)和交付地點(diǎn)都位于中 國(guó)內(nèi)地區(qū)域。不包含云原生數(shù)據(jù)湖組件(包括存儲(chǔ)、計(jì)算、管理及調(diào)度層)發(fā)生于其他解決方案(例:數(shù)據(jù)倉(cāng)庫(kù))的營(yíng)收,不包含云原生數(shù)據(jù)湖生態(tài)支持廠商部分。注釋:云原生數(shù)據(jù)湖市場(chǎng)規(guī)模含生態(tài)統(tǒng)計(jì)口徑為注釋1中包含云原生數(shù)據(jù)湖組件(包括存儲(chǔ)、計(jì)算、管理及調(diào)度層)發(fā)生于其他解決方案(例:數(shù)據(jù)倉(cāng)庫(kù))的營(yíng)收,且包含云原 生數(shù)據(jù)湖生態(tài)支持廠商部分。1526447612419676.8%69.4%74.8%61.9%58.2%2018201920202021e2022e2023e云原生數(shù)據(jù)湖市場(chǎng)規(guī)模不含生態(tài)(億元)
22、 增長(zhǎng)率(%)638912517935025240.8%40.0%43.7%40.7%38.7%2018201920202021e2022e2023e云原生數(shù)據(jù)湖市場(chǎng)規(guī)模含生態(tài)(億元) 增長(zhǎng)率(%)CAGR=73.1%CAGR=40.4%CAGR=39.7%CAGR=60%來(lái)源:長(zhǎng)期基礎(chǔ)云服務(wù)數(shù)據(jù)監(jiān)測(cè),結(jié)合公開(kāi)資料、專家訪談,根據(jù)數(shù)據(jù)測(cè)算模型,自主研究及繪制。15產(chǎn)業(yè)圖譜注釋:此頁(yè)主要表現(xiàn)云原生數(shù)據(jù)湖及其生態(tài)的布局情況,僅展示部分典型企業(yè),圖譜中所展示的公司logo順序及大小并無(wú)實(shí)際意義。 公有云廠商+生態(tài)廠商的市場(chǎng)格局初現(xiàn)中國(guó)云原生數(shù)據(jù)湖產(chǎn)業(yè)圖譜數(shù)據(jù)湖綜合解決方案廠商云廠商大數(shù)據(jù)廠商其他廠商
23、數(shù)據(jù)湖生態(tài)廠商及開(kāi)源項(xiàng)目(部分)應(yīng)用管理計(jì)算存儲(chǔ)(包括部分開(kāi)源項(xiàng)目)19行業(yè)分布注釋:此下游分布口徑為2020自然年全年各廠商在中國(guó)內(nèi)地(不含港澳臺(tái))銷售云原生數(shù)據(jù)湖解決方案的營(yíng)業(yè)收入,合同簽署地點(diǎn)和交付地點(diǎn)都位于中國(guó)內(nèi)地區(qū)域。 注釋:此下游分布統(tǒng)計(jì)口徑不包含云原生數(shù)據(jù)湖組件發(fā)生于其他解決方案(例:數(shù)據(jù)倉(cāng)庫(kù))的營(yíng)收,不包含云原生數(shù)據(jù)湖生態(tài)支持廠商部分。來(lái)源:長(zhǎng)期基礎(chǔ)云服務(wù)數(shù)據(jù)監(jiān)測(cè),結(jié)合公開(kāi)資料、專家訪談,根據(jù)數(shù)據(jù)測(cè)算模型,自主研究及繪制。16.5%40.7%11.9%16.3%6.4%4.5%3.7%100.0%泛互聯(lián)網(wǎng)工業(yè)醫(yī)療汽車其他總計(jì)現(xiàn)階段主要應(yīng)用于泛互聯(lián)網(wǎng)行業(yè)及傳統(tǒng)行業(yè)的互聯(lián)網(wǎng)場(chǎng)景據(jù)調(diào)
24、研,中國(guó)云原生數(shù)據(jù)湖的下游應(yīng)用主要分布于泛互聯(lián)網(wǎng)(電商、網(wǎng)絡(luò)廣告、社交媒體、游戲、互聯(lián)網(wǎng)金融等)、泛政 務(wù)(智慧城市、智慧政府、交通等)、金融(銀行、保險(xiǎn)等)、工業(yè)(工業(yè)互聯(lián)網(wǎng)、能源、制造等)、醫(yī)療(基因、影像 治療、診斷等)、汽車(車聯(lián)網(wǎng)等)以及零售、運(yùn)營(yíng)商等其他行業(yè)。其中,泛互聯(lián)網(wǎng)企業(yè)出于數(shù)據(jù)量大、非結(jié)構(gòu)化數(shù)據(jù)多、 迭代速度快等原因,率先應(yīng)用云原生數(shù)據(jù)湖架構(gòu)于推薦、搜索、監(jiān)控等業(yè)務(wù)環(huán)節(jié),是現(xiàn)階段數(shù)據(jù)湖市場(chǎng)的主要客戶。2020年中國(guó)云原生數(shù)據(jù)湖市場(chǎng)(不含生態(tài)部分)下游行業(yè)分布73.5%包含混合云模式部署的數(shù)據(jù)湖泛政務(wù)金融26掘金市場(chǎng)來(lái)源:IDC數(shù)據(jù)時(shí)代 2025;2021年中國(guó)數(shù)據(jù)庫(kù)行業(yè)研究報(bào)告,研究院自主研究及繪制。01 規(guī)模爆炸性增長(zhǎng)40ZB2020年全球數(shù)據(jù)規(guī)模430%2020-2025年全球數(shù)據(jù)規(guī)模增長(zhǎng)02 生產(chǎn)/處理實(shí)時(shí)化30%2025年實(shí)時(shí)數(shù)據(jù)占比50%2022年新業(yè)務(wù)將會(huì)采用實(shí)時(shí)分析比
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 《魯濱遜漂流記》讀書筆記(15篇)
- 貴陽(yáng)信號(hào)技術(shù)干部復(fù)習(xí)題復(fù)習(xí)測(cè)試附答案(一)
- 競(jìng)聘銀行主任演講稿(15篇)
- 常壓儲(chǔ)罐應(yīng)會(huì)練習(xí)試題
- 高中生自我鑒定(集合15篇)
- 促銷策劃方案范文錦集8篇
- 四年級(jí)上冊(cè)《去年的樹(shù)》說(shuō)課稿
- 高考學(xué)生評(píng)語(yǔ)(15篇)
- 物業(yè)項(xiàng)目經(jīng)理年度總結(jié)
- 2024年標(biāo)準(zhǔn)管理咨詢服務(wù)協(xié)議文檔版B版
- GB∕T 9286-2021 色漆和清漆 劃格試驗(yàn)
- 環(huán)境監(jiān)測(cè)所需各類原始記錄填寫格式模板參考模板范本
- 01土地復(fù)墾適宜性評(píng)價(jià)案例
- 天津城建樁基礎(chǔ)課程設(shè)計(jì)
- 備件的ABC分類管理規(guī)定法
- 史上最全的涉稅風(fēng)險(xiǎn)
- 2019年11月浙江省高中化學(xué)學(xué)考選考試題與答案
- 英文期刊投稿流程詳解(課堂PPT)
- 水泥廠 中材天山水泥有限公司安全生產(chǎn)組織機(jī)構(gòu)及其管理網(wǎng)絡(luò)圖
- 腦電圖(圖譜).ppt課件
- 計(jì)算機(jī)聯(lián)鎖接口設(shè)計(jì)規(guī)范
評(píng)論
0/150
提交評(píng)論