版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
云湖共生·數(shù)智未來數(shù)據(jù)湖應(yīng)用實(shí)踐白皮書CONTENTCONTENT云湖共生·數(shù)智未來數(shù)據(jù)湖應(yīng)用實(shí)踐白皮書1相關(guān)結(jié)論13相關(guān)結(jié)論
數(shù)據(jù)湖構(gòu)建方案4數(shù)據(jù)湖的構(gòu)建流程4數(shù)據(jù)湖典型構(gòu)建方案4192數(shù)據(jù)湖的定義與架構(gòu) 5應(yīng)用實(shí)踐419數(shù)據(jù)湖與數(shù)據(jù)倉(cāng)庫(kù)的對(duì)比云湖共生,企業(yè)級(jí)數(shù)據(jù)湖
20構(gòu)建分層模式混合數(shù)據(jù)湖22基于數(shù)據(jù)湖打造機(jī)器學(xué)習(xí)能力3數(shù)據(jù)湖核心組件與方案介紹37核心組件11阿里云數(shù)據(jù)湖方案介紹
客戶聲音6客戶聲音67研究方法7研究方法A:調(diào)查問卷數(shù)據(jù)湖應(yīng)用實(shí)踐白皮書1數(shù)據(jù)湖應(yīng)用實(shí)踐白皮書1相關(guān)結(jié)論來自數(shù)據(jù)治理的挑戰(zhàn)越發(fā)嚴(yán)峻根據(jù)焦點(diǎn)小組討論,85%的用戶認(rèn)為構(gòu)建或者計(jì)劃構(gòu)建數(shù)據(jù)湖的初衷是為了應(yīng)對(duì)數(shù)據(jù)的快速增長(zhǎng)以及治理的挑戰(zhàn)。當(dāng)下,隨著數(shù)據(jù)量的快速擴(kuò)張驅(qū)動(dòng)企業(yè)組織采用更有效的數(shù)據(jù)管理方式。
數(shù)據(jù)湖的構(gòu)建需要一套完善的流程并非所有的企業(yè)組織都需要構(gòu)建數(shù)據(jù)湖,數(shù)據(jù)湖的建的數(shù)據(jù)倉(cāng)庫(kù),甚至是大熱的數(shù)據(jù)中臺(tái)應(yīng)該是有所區(qū)別的?;谠圃臄?shù)據(jù)湖將成為主流隨著企業(yè)越來越多的基于云計(jì)算來構(gòu)建自己的業(yè)務(wù)系統(tǒng),因此基于云原生的數(shù)據(jù)湖成為云中部署的理想業(yè)務(wù)負(fù)載手段。
數(shù)據(jù)湖的價(jià)值在于數(shù)據(jù)洞察數(shù)據(jù)湖的最終價(jià)值在于能夠高效的利用不同來源、數(shù)量巨大的數(shù)據(jù),這使得組織構(gòu)建數(shù)據(jù)湖或升級(jí)現(xiàn)有數(shù)據(jù)倉(cāng)庫(kù),利用數(shù)據(jù)湖收集、存儲(chǔ)各種數(shù)據(jù)并加以分析,幫助提取切實(shí)可行的洞察,在客戶互動(dòng)、創(chuàng)新選擇、運(yùn)營(yíng)效率等方面帶來益處。32數(shù)據(jù)湖應(yīng)用實(shí)踐白皮書2數(shù)據(jù)湖的定義與架構(gòu)1數(shù)據(jù)湖的定義【傳統(tǒng)數(shù)據(jù)庫(kù)】面向大型制造業(yè)、銀行、金融內(nèi)部系統(tǒng)
大數(shù)據(jù)技術(shù)【探索期】互聯(lián)網(wǎng)時(shí)代到來,以分布式調(diào)度、存儲(chǔ)為核心的基礎(chǔ)設(shè)施建設(shè)時(shí)期,打破數(shù)據(jù)庫(kù)以低成本大規(guī)模擴(kuò)張問題。分布式計(jì)算模型為MapReduce
大數(shù)據(jù)技術(shù)【發(fā)展期】開始關(guān)注開發(fā)效率,分布式計(jì)算模型針對(duì)場(chǎng)景細(xì)分,總體向SQL靠攏
大數(shù)據(jù)技術(shù)【普惠期】開始關(guān)注投入企業(yè)生產(chǎn)必須的能力:工作流、安全、治理、規(guī)模、穩(wěn)定性等,出現(xiàn)數(shù)據(jù)中臺(tái)概念Gartner斷言大數(shù)據(jù)的3V屬性容量(Volume)速度(Velocity)
MapReduce
BigTableApacheHadoop
數(shù)據(jù)湖形態(tài)Flink PrestoSpark
AtlasRangerDataLake
DeltaLakeHudilcebergJindoFSDataLake數(shù)據(jù)庫(kù)產(chǎn)品出現(xiàn)
GFS
第一個(gè)版本發(fā)布
Hive
Airflow
E-MapReduce
Analytics
Formation1970 1990 2001 20032004 2006 2009201020112012 20132014201520162017
從探索到普惠,大數(shù)據(jù)技術(shù)發(fā)展的20年4PAGEPAGE6云湖共生·數(shù)智未來云湖共生·數(shù)智未來從概念上來說,“數(shù)據(jù)湖”已經(jīng)被越來越多的人所接受。數(shù)據(jù)湖是以集中方式存儲(chǔ)各種類型數(shù)據(jù),提供彈性的容量和吞吐能力,能夠覆蓋廣泛的數(shù)據(jù)源,支持多種計(jì)算與處理分析引擎直接對(duì)數(shù)據(jù)進(jìn)行訪問的統(tǒng)一存儲(chǔ)平臺(tái)。它能夠?qū)崿F(xiàn)數(shù)據(jù)分析、機(jī)器學(xué)習(xí),數(shù)據(jù)訪問和管理等細(xì)粒度的授權(quán)、審計(jì)等功能。無需在數(shù)據(jù)上傳之前對(duì)數(shù)據(jù)進(jìn)行任何的結(jié)構(gòu)化處理。數(shù)據(jù)湖可以存儲(chǔ)結(jié)構(gòu)化數(shù)據(jù)(如關(guān)系型數(shù)據(jù)庫(kù)中的表),半結(jié)構(gòu)化數(shù)據(jù)(CSV、JSON、XML、日志等),非結(jié)構(gòu)化數(shù)據(jù)(如電子郵件、文檔、PDF等)以及二進(jìn)制數(shù)據(jù)(如圖形、音頻、視頻等)。2數(shù)據(jù)湖與數(shù)據(jù)倉(cāng)庫(kù)的對(duì)比DATALAKEVSDATAWAREHOUSE存儲(chǔ)原始數(shù)據(jù),入湖簡(jiǎn)單、建設(shè)成本低成本數(shù)據(jù)提前建模,入倉(cāng)要求高、建設(shè)成本高數(shù)據(jù)體系松散、靈活度高靈活性數(shù)據(jù)體系嚴(yán)格、靈活度較低數(shù)據(jù)治理較困難治理難度數(shù)據(jù)治理容易數(shù)據(jù)種類豐富(結(jié)構(gòu)化、半結(jié)構(gòu)化、非結(jié)構(gòu)化)數(shù)據(jù)存儲(chǔ)種類數(shù)據(jù)種類較單一(結(jié)構(gòu)化、半結(jié)構(gòu)化)數(shù)據(jù)湖涵蓋的范圍較廣,在一些相關(guān)功能上與“數(shù)據(jù)倉(cāng)庫(kù)”概念類似,一些企業(yè)的管理、決策者也總是混淆兩者的區(qū)別。其實(shí),僅僅從產(chǎn)品應(yīng)用場(chǎng)景上,數(shù)據(jù)湖、數(shù)據(jù)倉(cāng)庫(kù)就表現(xiàn)出了明顯的不同:首先,數(shù)據(jù)捕獲時(shí)未定義架構(gòu)。數(shù)據(jù)湖在功能上可以實(shí)現(xiàn)各種類型數(shù)據(jù)的存儲(chǔ),數(shù)據(jù)湖中的數(shù)據(jù)可以是非結(jié)構(gòu)化的、未處理的形態(tài),數(shù)據(jù)可以在確定需要使用時(shí)才會(huì)對(duì)數(shù)據(jù)進(jìn)行對(duì)應(yīng)處理與轉(zhuǎn)換;而數(shù)據(jù)倉(cāng)庫(kù)則通常存放的是經(jīng)Schema在數(shù)據(jù)存儲(chǔ)之前就需要被定義好。PAGEPAGE6數(shù)據(jù)湖的定義與架構(gòu)其次,存儲(chǔ)到數(shù)據(jù)湖中的數(shù)據(jù)通常會(huì)按照原始形態(tài)直接存儲(chǔ),隨著業(yè)務(wù)和使用場(chǎng)景的發(fā)展,會(huì)使用不同的計(jì)算引擎對(duì)已經(jīng)存儲(chǔ)的數(shù)據(jù)進(jìn)行分析與處理,數(shù)據(jù)湖中的數(shù)據(jù)在一個(gè)企業(yè)組織中通常會(huì)被多個(gè)不同應(yīng)用、系統(tǒng)和部門使用和分析,覆蓋的場(chǎng)景廣泛并且范圍也會(huì)動(dòng)態(tài)延展,因此需要提供更多的靈活性以適應(yīng)快速變化的應(yīng)用場(chǎng)景;數(shù)據(jù)BI景中,數(shù)據(jù)倉(cāng)庫(kù)也可以把已經(jīng)存在的數(shù)據(jù)轉(zhuǎn)換到新場(chǎng)景,但在靈活性方面不如數(shù)據(jù)湖,需要有更多的數(shù)據(jù)轉(zhuǎn)換時(shí)間和開發(fā)資源投入。3云湖共生,企業(yè)級(jí)數(shù)據(jù)湖OSS(簡(jiǎn)稱EMR)、DataWorks(簡(jiǎn)稱DW)等計(jì)算引擎無縫對(duì)接,且兼容豐富的開源計(jì)算引擎生態(tài),可滿足大數(shù)據(jù)系統(tǒng)統(tǒng)一存儲(chǔ)、海量規(guī)模的需求,與此同時(shí),云原生數(shù)據(jù)湖可直接接入業(yè)務(wù)生產(chǎn)中心,業(yè)務(wù)系統(tǒng)中的原始數(shù)據(jù)、日志數(shù)據(jù)等可通過互聯(lián)網(wǎng)直接入湖,無需經(jīng)過中間環(huán)節(jié)處理,業(yè)務(wù)效率提升一倍以上,有力地驅(qū)動(dòng)企業(yè)IT系統(tǒng)從成本中心轉(zhuǎn)型為創(chuàng)新中心。3數(shù)據(jù)湖應(yīng)用實(shí)踐白皮書3數(shù)據(jù)湖核心組件與方案介紹1核心組件數(shù)據(jù)存儲(chǔ)可擴(kuò)展性:企業(yè)數(shù)據(jù)湖充當(dāng)整個(gè)組織或部門數(shù)據(jù)的集中數(shù)據(jù)存儲(chǔ),它必須可以解決跨企業(yè)間、不同部門間、不同業(yè)務(wù)間的數(shù)據(jù)互信和數(shù)據(jù)主權(quán)問題,同時(shí)能夠按照容量的需求任意擴(kuò)展。7PAGEPAGE10數(shù)據(jù)湖核心組件與方案介紹存儲(chǔ)任何內(nèi)容:云存儲(chǔ)對(duì)于文件格式、文件數(shù)量、存儲(chǔ)容量沒有限制,極大突破了HDFS(Hadoop分布式文件系統(tǒng))因?yàn)镹ameNode設(shè)計(jì)機(jī)制無法支撐大量小文件的困境。應(yīng)用無需對(duì)小文件進(jìn)行合并處理,就可以直接存入云存儲(chǔ)系統(tǒng),系統(tǒng)的響應(yīng)能力完全不會(huì)因?yàn)槲募?shù)量的增加有任何降低。主要產(chǎn)品:(129)的數(shù)據(jù)持久性,99.995RESTfulAPI,OSS可以在互聯(lián)網(wǎng)任何位置存儲(chǔ)和訪問,容量和處理能力可彈性擴(kuò)展,支持從熱到冷多種存儲(chǔ)類型可全面優(yōu)化存儲(chǔ)成本。數(shù)據(jù)加工數(shù)據(jù)湖可以對(duì)接多種差異性的計(jì)算引擎,運(yùn)行在不同負(fù)載之上,多種計(jì)算引擎都共享同一套存儲(chǔ)系統(tǒng)。對(duì)存儲(chǔ)數(shù)據(jù)的類型提供了充足的靈活性,沒有傳統(tǒng)“入倉(cāng)”的各種限制,數(shù)據(jù)產(chǎn)生后就能從對(duì)接的數(shù)據(jù)通道上傳到數(shù)據(jù)湖,根據(jù)實(shí)際分析需求,再進(jìn)行數(shù)據(jù)抽取(extract)、轉(zhuǎn)換(transform)、加載(load),生成所需PAGEPAGE9云湖共生·數(shù)智未來云湖共生·數(shù)智未來資源進(jìn)行轉(zhuǎn)換,降低終端設(shè)備資源的能耗;另一方面,數(shù)據(jù)湖中數(shù)據(jù)可以與多種計(jì)算與分析平臺(tái)結(jié)合使用,對(duì)于企業(yè)來說,計(jì)算存儲(chǔ)分離的架構(gòu)更靈活,在應(yīng)對(duì)業(yè)務(wù)的快速變化時(shí)更加容易地構(gòu)建應(yīng)用平臺(tái)和系統(tǒng),提升效率,對(duì)于數(shù)據(jù)的分析,也可以更快速、更輕量,減少整體的成本投入。主要產(chǎn)品:數(shù)據(jù)湖構(gòu)建:數(shù)據(jù)湖構(gòu)建(DataLakeFormation,DLF)簡(jiǎn)單快速地構(gòu)建云原生數(shù)據(jù)湖解決方案。DLF擎,打破數(shù)據(jù)孤島,洞察業(yè)務(wù)價(jià)值。E-MapReduce:E-MapReduce(EMRECSHadoop、Spark、HBase、Hive、FlinkPaaS、在線流式處理、即時(shí)查詢、機(jī)器學(xué)習(xí)等場(chǎng)景下的大數(shù)據(jù)解決方案。數(shù)據(jù)分析與治理數(shù)據(jù)分析與治理是指對(duì)企業(yè)中數(shù)據(jù)的可用性、完整性和安全性的全面管理,主要取決于業(yè)務(wù)策略和技術(shù)實(shí)踐。數(shù)據(jù)湖對(duì)接的各種計(jì)算引擎和計(jì)算生態(tài),可以便捷的對(duì)集中存儲(chǔ)的數(shù)據(jù)進(jìn)行批量計(jì)算、機(jī)器學(xué)習(xí)、交互式查詢。數(shù)據(jù)湖采用的API接口讓數(shù)據(jù)湖實(shí)現(xiàn)多引擎的統(tǒng)一元數(shù)據(jù)管理和權(quán)限管理。移動(dòng)應(yīng)用、智能設(shè)備、Hadoop計(jì)算生態(tài)、云原生服務(wù)都可以輕松實(shí)現(xiàn)對(duì)接。通過數(shù)據(jù)湖自建的事件機(jī)制能夠更輕松的完成元數(shù)據(jù)采集,結(jié)合元數(shù)據(jù)管理數(shù)據(jù)服務(wù),提升數(shù)據(jù)整體管理能力,讓數(shù)據(jù)湖不會(huì)成為“數(shù)據(jù)沼澤”。PAGEPAGE10數(shù)據(jù)湖核心組件與方案介紹主要產(chǎn)品:MaxCompute:MaxCompute是一項(xiàng)面向分析的大數(shù)據(jù)計(jì)算服務(wù),它以Serverless架構(gòu)提供快速、全托管的在線數(shù)據(jù)倉(cāng)庫(kù)服務(wù),消除傳統(tǒng)數(shù)據(jù)平臺(tái)在資源擴(kuò)展性和彈性方面的限制,最小化用戶運(yùn)維投入,使您經(jīng)濟(jì)并高效的分析處理海量數(shù)據(jù)。云原生數(shù)據(jù)湖分析:云原生數(shù)據(jù)湖分析(DataLakeAnalytics,簡(jiǎn)稱DLA)采用全新的云原生+Serverless+數(shù)據(jù)庫(kù)與大數(shù)據(jù)一體化架構(gòu),支持企業(yè)級(jí)權(quán)限管理、高效入湖、ETL、機(jī)器學(xué)習(xí)、流計(jì)算與交互式分析等。核心組件包括:統(tǒng)一Meta、Lakehouse、ServerlessSpark、ServerlessPresto,其中,Lakehouse融合數(shù)據(jù)倉(cāng)庫(kù)、數(shù)據(jù)湖的技術(shù)優(yōu)勢(shì)并有大量創(chuàng)新,解決DB、Kafka、SLS數(shù)據(jù)入湖難的問題;ServerlessSpark與Presto引擎支持按需消費(fèi),總體分析成本可降低50%,并可以分析與集成對(duì)象存儲(chǔ)(OSS)、HDFS、MySQL、Lindorm、TableStore、MongoDB、ES等云上15種數(shù)據(jù)源的數(shù)據(jù)。機(jī)器學(xué)習(xí)PAI:機(jī)器學(xué)習(xí)PAI(PlatformofArtificialIntelligence)是阿里云面向企業(yè)客戶及開發(fā)者,提供輕量化、高性價(jià)比的云原生機(jī)器學(xué)習(xí)平臺(tái)支持百億特征、千億樣本規(guī)模加速訓(xùn)練,百余種落地場(chǎng)景,全面提升機(jī)器學(xué)習(xí)工程效率。日志服務(wù)SLS:阿里云日志服務(wù)(SLS)可視化和告警功能。全面提升海量日志處理能力,實(shí)時(shí)挖掘數(shù)據(jù)價(jià)值,智能助力研發(fā)/運(yùn)維/運(yùn)營(yíng)/安全等場(chǎng)景。DataWorks:MaxCompute/EMR/MC-HologresDataWorks,99PAGEPAGE11移動(dòng)應(yīng)用Web服務(wù)應(yīng)用數(shù)據(jù)2阿里云數(shù)據(jù)湖方案介紹移動(dòng)應(yīng)用Web服務(wù)應(yīng)用數(shù)據(jù)AppsLogServicesLogIOTSyslogLoginLogNetworkMetricLogPerfCounterEvent Tracing阿里云日志服務(wù)數(shù)據(jù)湖AppsLogServicesLogIOTSyslogLoginLogNetworkMetricLogPerfCounterEvent Tracing阿里云日志服務(wù)數(shù)據(jù)湖OSS標(biāo)準(zhǔn)低頻歸檔從各種數(shù)據(jù)源沉淀數(shù)據(jù)基于云存儲(chǔ)構(gòu)建數(shù)據(jù)湖數(shù)據(jù)庫(kù)數(shù)據(jù)導(dǎo)入DataHub遷移導(dǎo)入在線遷移閃電立方數(shù)據(jù)
日志統(tǒng)一采集管理數(shù)據(jù)處理與分析數(shù)據(jù)處理與分析
Serverless Serverless MaxCompute DLA開源大數(shù)據(jù)平臺(tái)Impalapresto Hadoop Flink E-MapReduceElasticSearch機(jī)器學(xué)習(xí)平臺(tái)PAIDLF數(shù)據(jù)湖構(gòu)建DLA數(shù)據(jù)湖管理RESTFulAPI元數(shù)存儲(chǔ)網(wǎng)關(guān)據(jù)OTSDataVDataWorksJDBCtableauLogDashboard云湖共生·數(shù)智未來云湖共生·數(shù)智未來數(shù)據(jù)湖一個(gè)重要目標(biāo)是將所有企業(yè)數(shù)據(jù)能夠集中存儲(chǔ),以供企業(yè)的各類應(yīng)用在授權(quán)下進(jìn)行訪問。結(jié)合數(shù)據(jù)湖的這一設(shè)計(jì)目標(biāo)以及元數(shù)據(jù)管理、自動(dòng)化數(shù)據(jù)采集、自動(dòng)化數(shù)據(jù)解析和處理等技術(shù)來解決各類與應(yīng)用相關(guān)的日志埋點(diǎn)、采集與分析。PAGEPAGE12數(shù)據(jù)湖核心組件與方案介紹阿里云的數(shù)據(jù)湖底座對(duì)象存儲(chǔ)OSS是基于阿里云自研的分布式存儲(chǔ)引擎——盤古搭建,提供體系化的數(shù)據(jù)采集能力,支持結(jié)構(gòu)化/半結(jié)構(gòu)化/非結(jié)構(gòu)化數(shù)據(jù)源。數(shù)據(jù)湖統(tǒng)一存儲(chǔ),提供了數(shù)據(jù)的管理能力。冷熱分層的存儲(chǔ)方式解決了數(shù)據(jù)分散在各個(gè)集群,需要在不同存儲(chǔ)系統(tǒng)中反復(fù)拷貝等運(yùn)維困擾。在大數(shù)據(jù)訪問方面支持基于Ranger的數(shù)據(jù)湖權(quán)限管理,支持混合云方案,總體成本可降低近50%。此外,阿里云數(shù)據(jù)湖存儲(chǔ)成本相對(duì)于高效云盤下降十倍以上,查詢性能相對(duì)于傳統(tǒng)對(duì)象存儲(chǔ)提速三倍以上,并且查詢引擎有著極高的彈性。通過云原生數(shù)據(jù)湖存儲(chǔ)與計(jì)算分離特性,計(jì)算資源的彈性伸縮可以全部由實(shí)際計(jì)算任務(wù)的需求定義,無需按照業(yè)務(wù)峰值常駐計(jì)算資源。與云原生平臺(tái)的深入結(jié)合PAGEPAGE13云湖共生·數(shù)智未來云湖共生·數(shù)智未來內(nèi)部及外部的有效驗(yàn)證經(jīng)過二十年的發(fā)展,阿里巴巴集團(tuán)已經(jīng)成為一個(gè)數(shù)字經(jīng)濟(jì)體,阿里巴巴集團(tuán)首先是阿里云數(shù)據(jù)湖產(chǎn)品的最佳實(shí)踐者,后者支撐了阿里巴巴集團(tuán)內(nèi)部的電商、移動(dòng)辦公、文娛、物流、本地生活等各種復(fù)雜業(yè)務(wù),建立了完善的自我實(shí)踐機(jī)制,產(chǎn)品和方案得到有效的驗(yàn)證。同時(shí),阿里云的數(shù)據(jù)湖方案也支撐了在線教育、互聯(lián)網(wǎng)廣告、新媒體、網(wǎng)絡(luò)游戲等行業(yè)用戶在快速發(fā)展過程中的實(shí)際業(yè)務(wù)需求,實(shí)現(xiàn)了技術(shù)的有效賦能。目前,阿里云數(shù)據(jù)湖方案可支持EB級(jí)別的數(shù)據(jù)存儲(chǔ)量,存儲(chǔ)超過十萬Database、一億Table以及十億級(jí)別的Partition,每天完成超過三十億次的元數(shù)據(jù)服務(wù)請(qǐng)求,支持多個(gè)開源計(jì)算引擎以及多種云原生數(shù)倉(cāng)引擎。4數(shù)據(jù)湖應(yīng)用實(shí)踐白皮書4數(shù)據(jù)湖構(gòu)建方案1數(shù)據(jù)湖的構(gòu)建流程在數(shù)字化轉(zhuǎn)型的當(dāng)下,企業(yè)組織需要處理的數(shù)據(jù)越來越多、形式越來越雜,原有的數(shù)據(jù)存算架構(gòu)的成本越來越高,但效率越來越低。在這種背景下,企業(yè)亟需一種成本更低且效率較高的方式來存算數(shù)據(jù)、訪問數(shù)據(jù),這是數(shù)據(jù)湖興起的重要原因。同時(shí),在數(shù)據(jù)湖的建設(shè)過程,技術(shù)應(yīng)該與業(yè)務(wù)緊密結(jié)合,并且以一種更敏捷的方式去構(gòu)建,根據(jù)相關(guān)業(yè)務(wù)及技術(shù)實(shí)踐,我們建議采用如下步驟來構(gòu)建數(shù)據(jù)湖:14PAGEPAGE18(1)數(shù)據(jù)摸底。首先需要全面了解數(shù)據(jù)的基本情況,包括數(shù)據(jù)來源、數(shù)據(jù)類型、數(shù)據(jù)形態(tài)、數(shù)據(jù)模式、數(shù)據(jù)總量、數(shù)據(jù)增量等。因?yàn)閿?shù)據(jù)湖是對(duì)原始數(shù)據(jù)做全量保存,所以其優(yōu)勢(shì)也在于省去了事先架構(gòu)設(shè)計(jì)的麻煩。數(shù)據(jù)摸底技術(shù)選型。根據(jù)數(shù)據(jù)摸底的情況,確定數(shù)據(jù)湖建設(shè)的技術(shù)選型。建議的存儲(chǔ)選型是分布式對(duì)象存儲(chǔ)系統(tǒng);計(jì)算引擎上建議重點(diǎn)考慮批處理需求和SQLServerless
技術(shù)選型數(shù)據(jù)接入
數(shù)據(jù)接入。確定要接入的數(shù)據(jù)源,完成數(shù)據(jù)的全量抽取與增量接入。應(yīng)用治理應(yīng)用治理。從數(shù)據(jù)湖的角度來看,數(shù)據(jù)應(yīng)用和數(shù)據(jù)治理應(yīng)該是相互融合、密不可分的。從數(shù)據(jù)應(yīng)用入手,在應(yīng)用中明確需求,逐步形成業(yè)務(wù)可使用的數(shù)據(jù);同時(shí)形成數(shù)據(jù)模型、指標(biāo)體系和對(duì)應(yīng)的質(zhì)量標(biāo)準(zhǔn)。
業(yè)務(wù)支撐
業(yè)務(wù)支撐。不同于大數(shù)據(jù)平臺(tái)之處還在于數(shù)據(jù)湖為了支撐數(shù)據(jù)的全生命周期管理與應(yīng)用,需要具備相對(duì)完善的數(shù)據(jù)管理、類目管理、流云湖共生·數(shù)智未來云湖共生·數(shù)智未來2數(shù)據(jù)湖典型構(gòu)建方案(1)基于DLA構(gòu)建的數(shù)據(jù)湖方案PAGEPAGE16數(shù)據(jù)湖構(gòu)建方案原始數(shù)據(jù)csv、json、parquetLakeHouse-Hudi數(shù)據(jù)庫(kù)數(shù)據(jù)數(shù)據(jù)入湖元數(shù)據(jù)發(fā)現(xiàn)權(quán)限管理統(tǒng)一元數(shù)據(jù)內(nèi)置加速層(10倍性能提升)Serverless原始數(shù)據(jù)csv、json、parquetLakeHouse-Hudi數(shù)據(jù)庫(kù)數(shù)據(jù)數(shù)據(jù)入湖元數(shù)據(jù)發(fā)現(xiàn)權(quán)限管理統(tǒng)一元數(shù)據(jù)內(nèi)置加速層(10倍性能提升)ServerlessSpark(10倍性價(jià)比提升)ServerlessSQLDMS DataWorks AirFlow QuickBIDLA計(jì)算層DLA數(shù)據(jù)湖管理OSS數(shù)據(jù)湖存儲(chǔ)層
DLA
DLA流式入湖
日志 線下數(shù)據(jù)轉(zhuǎn)存 遷移DB Kafka等流式數(shù)據(jù)源 日志服務(wù) 閃電立方應(yīng)用場(chǎng)景在游戲、社交、電商、資訊等互聯(lián)網(wǎng)應(yīng)用場(chǎng)景中有大量計(jì)算分析、個(gè)性化推薦、離線交互式查詢等需求來提升產(chǎn)品的創(chuàng)新能力,在此類場(chǎng)景中,數(shù)據(jù)規(guī)??焖僭鲩L(zhǎng),數(shù)據(jù)來源渠道多樣化,包括但不限于應(yīng)用自身產(chǎn)生的數(shù)據(jù)、采集的各類日志數(shù)據(jù)、數(shù)據(jù)庫(kù)中抽取的各類數(shù)據(jù),計(jì)算根據(jù)業(yè)務(wù)的需求隨時(shí)進(jìn)行、動(dòng)態(tài)擴(kuò)展,基于阿里云數(shù)據(jù)湖方案,可以使用DLA據(jù)的管理與分析更加簡(jiǎn)單。優(yōu)勢(shì)與價(jià)值阿里云對(duì)象存儲(chǔ)OSS是阿里云對(duì)外提供的海量、安全和高可靠的云存儲(chǔ)服務(wù),能支撐EB規(guī)模的數(shù)據(jù)湖,客戶無需考慮存儲(chǔ)量擴(kuò)容。PAGEPAGE17云湖共生·數(shù)智未來云湖共生·數(shù)智未來DLASQL,DLASpark服務(wù),動(dòng)態(tài)創(chuàng)建計(jì)算資源參與計(jì)算。DLA可以提供一站式數(shù)據(jù)庫(kù)入湖、元數(shù)據(jù)管理、元數(shù)據(jù)自動(dòng)發(fā)現(xiàn)、支持?jǐn)?shù)據(jù)庫(kù)數(shù)據(jù)同步到對(duì)象存儲(chǔ)OSSMetaOSSOSS上的元數(shù)據(jù)信息。EMR表格存儲(chǔ) 表格存儲(chǔ) 數(shù)據(jù)傳輸DTSRDS日志服務(wù)數(shù)據(jù)源數(shù)據(jù)湖存儲(chǔ)OSS標(biāo)準(zhǔn)低頻歸檔數(shù)據(jù)湖構(gòu)建入湖工具訪問控制數(shù)據(jù)湖元數(shù)據(jù)數(shù)據(jù)湖加速JindoFSMaxComputePrestoSpark HIVEEMR云原生計(jì)算引擎數(shù)據(jù)開發(fā)治理數(shù)據(jù)開發(fā)治理平臺(tái)DataWorksPAGEPAGE18數(shù)據(jù)湖構(gòu)建方案應(yīng)用場(chǎng)景存儲(chǔ)與計(jì)算耦合成為可能,同時(shí)云上AI技術(shù)的發(fā)展進(jìn)一步降低數(shù)據(jù)分析的成本,提升數(shù)據(jù)分析效率。這些都為開源數(shù)據(jù)湖的發(fā)展提供良好契機(jī)。優(yōu)勢(shì)與價(jià)值阿里云對(duì)象存儲(chǔ)OSS是阿里云對(duì)外提供的海量、安全和高可靠的云存儲(chǔ)服務(wù),能支撐EB戶無需考慮存儲(chǔ)量擴(kuò)容,同時(shí)對(duì)象存儲(chǔ)OSS提供的冷熱分層能力,可以根據(jù)數(shù)據(jù)熱度進(jìn)行分層進(jìn)而降低數(shù)據(jù)存儲(chǔ)成本。OSSOSSEMRJindoFSGbpsOSSHDFSRangerOSSEMR集群長(zhǎng)時(shí)間處于低負(fù)載狀態(tài),資源利用率得到大幅提升。數(shù)據(jù)湖構(gòu)建DLF服務(wù)是為了解決構(gòu)建數(shù)據(jù)湖過程中用戶對(duì)數(shù)據(jù)資產(chǎn)的管理需求。DLF可以為OSS存儲(chǔ)的數(shù)據(jù)提供統(tǒng)一的元數(shù)據(jù)視圖和統(tǒng)一的權(quán)限管理,并提供實(shí)時(shí)數(shù)據(jù)入湖和清洗模板,為上層的數(shù)據(jù)分析引擎提供生產(chǎn)級(jí)別的元數(shù)據(jù)服務(wù)。結(jié)合DataWorks數(shù)據(jù)綜合治理為數(shù)據(jù)湖的用戶提供統(tǒng)一的數(shù)據(jù)視圖,掌握數(shù)據(jù)資產(chǎn)的現(xiàn)狀,提高獲取數(shù)據(jù)的效率,保障數(shù)據(jù)安全的合規(guī),提升數(shù)據(jù)查詢的分析效率,有效支撐離線大數(shù)據(jù)倉(cāng)庫(kù)的構(gòu)建,數(shù)據(jù)聯(lián)邦的查詢和分析處理以及海量數(shù)據(jù)的低頻交互式查詢和智能報(bào)表的構(gòu)建。5數(shù)據(jù)湖應(yīng)用實(shí)踐白皮書5應(yīng)用實(shí)踐1海量數(shù)據(jù)交互式查詢解決方案PortalBI報(bào)表數(shù)據(jù)大屏數(shù)據(jù)應(yīng)用PortalBI報(bào)表數(shù)據(jù)大屏impalaEMRimpalaEMRJindoFS云原生數(shù)據(jù)湖分析DLA(內(nèi)置緩存)實(shí)時(shí)傳輸對(duì)象存儲(chǔ)OSS數(shù)據(jù)存儲(chǔ)層對(duì)象存儲(chǔ)OSS消息投遞 日
數(shù)據(jù)庫(kù)抽取
線下數(shù)據(jù)遷移
流式寫入EMR-kafka 日志服務(wù) DataWorks數(shù)據(jù)集成 閃電立
實(shí)時(shí)計(jì)算19PAGEPAGE21應(yīng)用實(shí)踐應(yīng)用場(chǎng)景在一些業(yè)務(wù)中,數(shù)據(jù)源可能來自多個(gè)渠道,且實(shí)時(shí)產(chǎn)生的數(shù)據(jù)中有大量的數(shù)據(jù)是半結(jié)構(gòu)化數(shù)據(jù),需要對(duì)存儲(chǔ)的月報(bào)等歷史數(shù)據(jù)分析,需要能夠?qū)恿魇接?jì)算產(chǎn)生的數(shù)據(jù),并且分析結(jié)果需要在對(duì)應(yīng)的應(yīng)用中可視化展示。價(jià)值與優(yōu)勢(shì)首先,該解決方案可以使用包括阿里云數(shù)據(jù)湖分析產(chǎn)品DLAEMR服務(wù)提供的分布式查詢引擎對(duì)已有數(shù)據(jù)進(jìn)行查詢,能夠更加靈活、更快的獲得查詢結(jié)果;OSSOSS中的數(shù)據(jù);OSS加速器、EMRJindoFSDLASQL內(nèi)置加速在內(nèi)的多種加速方案,進(jìn)一步提升交互式查詢的訪問速度。2構(gòu)建分層模式混合數(shù)據(jù)湖PAGEPAGE21云湖共生·數(shù)智未來云湖共生·數(shù)智未來消息推送消息推送匯聚推送熱數(shù)據(jù)計(jì)算手機(jī)應(yīng)用實(shí)時(shí)寫入定期遷徙應(yīng)用日志定期投遞溫、冷數(shù)據(jù)計(jì)算應(yīng)用服務(wù)器日志服務(wù)OSS標(biāo)準(zhǔn)類型定期歸檔非結(jié)構(gòu)化數(shù)據(jù)圖片/視頻OSS歸檔類型云原生數(shù)據(jù)湖分析DLAE-MapReduce應(yīng)用場(chǎng)景在一些數(shù)據(jù)基數(shù)大、數(shù)據(jù)隨著時(shí)間推移訪問熱度降低的場(chǎng)景中,存在存儲(chǔ)成本持續(xù)優(yōu)化的需求,同時(shí)計(jì)算和存儲(chǔ)增速往往無法匹配,擴(kuò)容存儲(chǔ)資源可能會(huì)導(dǎo)致空閑的計(jì)算資源產(chǎn)生。價(jià)值與優(yōu)勢(shì)PAGEPAGE22應(yīng)用實(shí)踐數(shù)據(jù)湖可以實(shí)現(xiàn)冷熱數(shù)據(jù)分層存儲(chǔ),顯著優(yōu)化成本,避免出現(xiàn)存儲(chǔ)擴(kuò)容所產(chǎn)生的計(jì)算資源閑置現(xiàn)象,極大降低資源規(guī)劃管理難度。OSSEMR、DLA幾乎無需調(diào)整,就可以直接使用。3基于數(shù)據(jù)湖打造機(jī)器學(xué)習(xí)能力個(gè)性化推薦個(gè)性化推薦內(nèi)容風(fēng)控圖像識(shí)別無人駕駛...機(jī)器學(xué)習(xí)PAIEASDLCStudioDSW深度學(xué)習(xí)分布式訓(xùn)練可視化建模交互式編程notebook數(shù)據(jù)湖構(gòu)建DLF數(shù)據(jù)湖構(gòu)建DLF實(shí)時(shí)計(jì)算Flink版E-MapReduceJindoFSMaxComputeMC-Hologres對(duì)象存儲(chǔ)OSS 表格存儲(chǔ)OTS對(duì)象存儲(chǔ)OSS 表格存儲(chǔ)OTS消息投遞
消息投遞
線下數(shù)據(jù)遷移數(shù)據(jù)庫(kù)抽取EMR-kafka數(shù)據(jù)庫(kù)抽取
日志服務(wù)
DataWorks
閃電立方PAGEPAGE23云湖共生·數(shù)智未來云湖共生·數(shù)智未來應(yīng)用場(chǎng)景在互聯(lián)網(wǎng)電商、游戲、社交等行業(yè)中存在推薦、風(fēng)控、預(yù)測(cè)等在內(nèi)的機(jī)器學(xué)習(xí)場(chǎng)景,基于CPU資源的在線預(yù)測(cè)服務(wù)和基于GPU資源的在線推理場(chǎng)景以及包括圖像、人臉、語(yǔ)音、NLP、無人駕駛行業(yè)的模型訓(xùn)練等深度學(xué)習(xí)場(chǎng)景。在這些場(chǎng)景中,需要面對(duì)數(shù)據(jù)量大、模型訓(xùn)練性能差、時(shí)間長(zhǎng),訓(xùn)練出的模型效果差等問題,并且在線資源的GPUQPS性能不高,也會(huì)導(dǎo)致資源消耗過大。價(jià)值與優(yōu)勢(shì)阿里云企業(yè)級(jí)數(shù)據(jù)湖充分發(fā)揮機(jī)器學(xué)習(xí)平臺(tái)PAI的技術(shù)優(yōu)勢(shì)。首先,PAI-DLC分布式訓(xùn)練讓訓(xùn)練速度提升近讓訓(xùn)練時(shí)長(zhǎng)縮短近AIPAIBladePAIEAS心資源浪費(fèi),同時(shí)支持多模型的管理和A/B測(cè)試,可以更好的選擇效果優(yōu)質(zhì)的模型。在GPU資源不變的條件下,QPS1,GPU50%。6數(shù)據(jù)湖應(yīng)用實(shí)踐白皮書6客戶聲音在選擇阿里云之前,我們?cè)?jīng)使用自建的數(shù)據(jù)集群解決方案,但卻面臨著自建數(shù)據(jù)集群運(yùn)維成本高,彈性伸縮難的問題,同時(shí),由于數(shù)據(jù)類型復(fù)雜以及分布地區(qū)眾多,數(shù)據(jù)的綜合治理成本很高,阿里云的服務(wù)幫助我們很好地解決了以上的問題。在選擇阿里云之前,我們?cè)?jīng)使用自建的數(shù)據(jù)集群解決方案,但卻面臨著自建數(shù)據(jù)集群運(yùn)維成本高,彈性伸縮難的問題,同時(shí),由于數(shù)據(jù)類型復(fù)雜以及分布地區(qū)眾多,數(shù)據(jù)的綜合治理成本很高,阿里云的服務(wù)幫助我們很好地解決了以上的問題?!c(diǎn)天下CTO王一舟ReachMax150200列的
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 二零二五年度大棚設(shè)施租賃與種植收益分成合同3篇
- 2025農(nóng)村土地轉(zhuǎn)租合同協(xié)議
- 2025汽車零部件的運(yùn)輸合同
- 長(zhǎng)沙二手房合同糾紛解決途徑
- 漁業(yè)合同專用章管理指南
- 2025年度行政助理人事管理優(yōu)化服務(wù)合同2篇
- 風(fēng)景名勝區(qū)施工合同糾紛范本
- 長(zhǎng)春二手房買賣物業(yè)評(píng)估合同
- 貴陽(yáng)市美術(shù)館租賃合同
- 風(fēng)景區(qū)開發(fā)土石方施工合同
- 《國(guó)有控股上市公司高管薪酬的管控研究》
- 餐飲業(yè)環(huán)境保護(hù)管理方案
- 食品安全分享
- 礦山機(jī)械設(shè)備安全管理制度
- 計(jì)算機(jī)等級(jí)考試二級(jí)WPS Office高級(jí)應(yīng)用與設(shè)計(jì)試題及答案指導(dǎo)(2025年)
- 造價(jià)框架協(xié)議合同范例
- 糖尿病肢端壞疽
- 《創(chuàng)傷失血性休克中國(guó)急診專家共識(shí)(2023)》解讀課件
- 小學(xué)六年級(jí)數(shù)學(xué)100道題解分?jǐn)?shù)方程
- YY 0838-2021 微波熱凝設(shè)備
- 通信機(jī)房蓄電池放電試驗(yàn)報(bào)告
評(píng)論
0/150
提交評(píng)論