一文讀懂數(shù)據(jù)倉庫、數(shù)據(jù)平臺、數(shù)據(jù)中臺、數(shù)據(jù)湖的概念和區(qū)別_第1頁
一文讀懂數(shù)據(jù)倉庫、數(shù)據(jù)平臺、數(shù)據(jù)中臺、數(shù)據(jù)湖的概念和區(qū)別_第2頁
一文讀懂數(shù)據(jù)倉庫、數(shù)據(jù)平臺、數(shù)據(jù)中臺、數(shù)據(jù)湖的概念和區(qū)別_第3頁
一文讀懂數(shù)據(jù)倉庫、數(shù)據(jù)平臺、數(shù)據(jù)中臺、數(shù)據(jù)湖的概念和區(qū)別_第4頁
一文讀懂數(shù)據(jù)倉庫、數(shù)據(jù)平臺、數(shù)據(jù)中臺、數(shù)據(jù)湖的概念和區(qū)別_第5頁
已閱讀5頁,還剩17頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

一文讀懂數(shù)據(jù)倉庫、數(shù)據(jù)平臺、數(shù)據(jù)中臺、數(shù)據(jù)湖的概念和區(qū)別我們經(jīng)常聽到別人談?wù)摂?shù)據(jù)倉庫、數(shù)據(jù)平臺、數(shù)據(jù)中臺、數(shù)據(jù)湖的相關(guān)概念,它們都與數(shù)據(jù)有關(guān)系,但它們之間又有什么區(qū)別,下面我們將圍繞數(shù)據(jù)倉庫、數(shù)據(jù)平臺、數(shù)據(jù)湖和數(shù)據(jù)中臺的概念、架構(gòu)、使用場景進行介紹。一、數(shù)據(jù)倉庫1.數(shù)據(jù)倉庫概念數(shù)據(jù)倉庫由比爾·恩門(BillInmon,數(shù)據(jù)倉庫之父)于1990年提出,主要功能是將企業(yè)系統(tǒng)聯(lián)機事務(wù)處理(OLTP)長期壁壘的大量數(shù)據(jù),通過數(shù)據(jù)倉庫理論支持所持有的數(shù)據(jù)存儲結(jié)構(gòu),做有系統(tǒng)的分析整理。隨著企業(yè)的發(fā)展,業(yè)務(wù)系統(tǒng)的數(shù)據(jù)不斷激增,這些存儲在企業(yè)業(yè)務(wù)數(shù)據(jù)庫中(也就是關(guān)系型數(shù)據(jù)庫Oracle,MicrosoftSQLSever,MySQL等)數(shù)據(jù)會隨著時間的積累越來越多,會使業(yè)務(wù)數(shù)據(jù)庫會有一定的負載,導致業(yè)務(wù)系統(tǒng)的運行效率低,且這些數(shù)據(jù)中有很大一部分是冷數(shù)據(jù),而我們業(yè)務(wù)系統(tǒng)一般對我們近期的數(shù)據(jù),也就是熱數(shù)據(jù)調(diào)用的比較頻繁,對冷數(shù)據(jù)使用頻率較低。同時隨著企業(yè)數(shù)據(jù)驅(qū)動業(yè)務(wù)概念的興起,企業(yè)需要將各業(yè)務(wù)部門的業(yè)務(wù)數(shù)據(jù)提取出來進行數(shù)據(jù)分析與挖掘,輔助高層進行分析與決策,但各部門需求的數(shù)據(jù)種類千差萬別,接口錯綜復雜,過多的數(shù)據(jù)查詢腳本以及接口的接入導致業(yè)務(wù)數(shù)據(jù)庫的穩(wěn)定性降低。為了避免冷數(shù)據(jù)與歷史數(shù)據(jù)的積壓對我們業(yè)務(wù)數(shù)據(jù)庫效能產(chǎn)生影響,企業(yè)需要定期將冷數(shù)據(jù)從業(yè)務(wù)數(shù)據(jù)庫中轉(zhuǎn)移出來存儲到一個專門存放歷史數(shù)據(jù)的倉庫里面,各部門可以根據(jù)自身業(yè)務(wù)特性對外提供統(tǒng)一的數(shù)據(jù)服務(wù),這個倉庫就是數(shù)據(jù)倉庫。2.數(shù)據(jù)倉庫特點數(shù)據(jù)倉庫(DataWarehoese)的特點:面向主題的、集成的、穩(wěn)定的、反映歷史數(shù)據(jù)變化的。面向主題的:數(shù)據(jù)倉庫是用來分析特點主題域的,所以說數(shù)據(jù)倉庫是面向主題的。例如,電商行業(yè)的主題域通常分為交易域、會員域、商品域等。集成的:數(shù)據(jù)倉庫集成了多個數(shù)據(jù)源,同一主題或產(chǎn)品相關(guān)數(shù)據(jù)可能來自不同的系統(tǒng)不同類型的數(shù)據(jù)庫,日志文件等。穩(wěn)定的:數(shù)據(jù)一旦進入數(shù)據(jù)倉庫,則不可改變。數(shù)據(jù)倉庫的歷史數(shù)據(jù)是不應該被更新的,同時存儲穩(wěn)定性較強反映歷史數(shù)據(jù)變化的:數(shù)據(jù)倉庫保存了長期的歷史數(shù)據(jù),這點相對OLTP的數(shù)據(jù)庫而言。因為性能考慮后者統(tǒng)籌保存近期的熱數(shù)據(jù)。3.OLTP與OLAP1)OLTP與OLAP概念數(shù)據(jù)處理大致可以分成兩大類:聯(lián)機事務(wù)處理OLTP(on-linetransactionprocessing)、聯(lián)機分析處理OLAP(On-LineAnalyticalProcessing)。OLTP是傳統(tǒng)的關(guān)系型數(shù)據(jù)庫的主要應用,主要是基本的、日常的事務(wù)處理,例如銀行交易。OLAP是數(shù)據(jù)倉庫系統(tǒng)的主要應用,支持復雜的分析操作,側(cè)重決策支持,并且提供直觀易懂的查詢結(jié)果。2)OLTP與OLAP區(qū)別OLTP系統(tǒng)強調(diào)數(shù)據(jù)庫內(nèi)存效率,強調(diào)內(nèi)存各種指標的命令率,綁定變量,并發(fā)操作等。OLAP系統(tǒng)則強調(diào)數(shù)據(jù)分析,強調(diào)SQL執(zhí)行市場,磁盤I/O,分區(qū)等。3)OLAP與數(shù)據(jù)倉庫的聯(lián)系OLAP和數(shù)倉的關(guān)系是依賴互補的,一般以數(shù)據(jù)倉庫作為基礎(chǔ),既從數(shù)據(jù)倉庫中抽取出詳細數(shù)據(jù)的一個子集并經(jīng)過必要的聚集存儲到OLAP存儲中供數(shù)據(jù)分析工具讀取。4.數(shù)據(jù)倉庫的作用數(shù)據(jù)倉庫將來自不同來源的結(jié)構(gòu)化數(shù)據(jù)聚合起來,用于業(yè)務(wù)智能領(lǐng)域的比較和分析,數(shù)據(jù)倉庫是包含多種數(shù)據(jù)的存儲庫,并且是高度建模的。如下圖所示:各個系統(tǒng)的元數(shù)據(jù)通過ETL同步到操作性數(shù)據(jù)倉庫ODS中,對ODS數(shù)據(jù)進行面向主題域建模形成DW(數(shù)據(jù)倉庫),DM是針對某一個業(yè)務(wù)領(lǐng)域建立模型,具體用戶(決策層)查看DM生成的報表。什么是ETL?(extraction-transformation-load抽取-轉(zhuǎn)換-加載)傳統(tǒng)的數(shù)據(jù)倉庫集成處理架構(gòu)是ETL,利用ETL平臺的能力,E=從源數(shù)據(jù)庫抽取數(shù)據(jù),L=將數(shù)據(jù)清洗(不符合規(guī)則的數(shù)據(jù))、轉(zhuǎn)化(對表按照業(yè)務(wù)需求進行不同維度、不同顆粒度、不同業(yè)務(wù)規(guī)則計算進行統(tǒng)計),T=將加工好的表以增量、全量、不同時間加載到數(shù)據(jù)倉庫。什么是ELT?(extraction-load-transformation抽取-加載-轉(zhuǎn)換)大數(shù)據(jù)背景下的架構(gòu)體系是ELT結(jié)構(gòu),其根據(jù)上層的應用需求,隨時從數(shù)據(jù)中臺中抽取想要的原始數(shù)據(jù)進行建模分析。ELT是利用數(shù)據(jù)庫的處理能力,E=從源數(shù)據(jù)庫抽取數(shù)據(jù),L=把數(shù)據(jù)加載到目標庫的臨時表中,T=對臨時表中的數(shù)據(jù)進行轉(zhuǎn)換,然后加載到目標庫目標表中。ELT對比ETL的優(yōu)勢:資源利用率的提升:ELT主要通過數(shù)據(jù)庫引擎來實現(xiàn)系統(tǒng)的可擴展性(尤其是當數(shù)據(jù)加工過程在晚上時,可以充分利用數(shù)據(jù)庫引擎的資源)。任務(wù)運行效率的提升:ELT可以保持所有的數(shù)據(jù)始終在數(shù)據(jù)庫當中,避免數(shù)據(jù)的加載和導出,從而保證效率,提高系統(tǒng)的可監(jiān)控性。并行處理優(yōu)化:ELT可以根據(jù)數(shù)據(jù)的分布情況進行并行處理優(yōu)化,并可以利用數(shù)據(jù)庫的固有功能優(yōu)化磁盤I/O??蓴U展性增強:ELT的可擴展性取決于數(shù)據(jù)庫引擎和其硬件服務(wù)器的可擴展性。性能優(yōu)化:通過對相關(guān)數(shù)據(jù)庫進行性能調(diào)優(yōu),ETL過程獲得3到4倍的效率提升一般不是特別困難。數(shù)據(jù)倉庫系統(tǒng)的作用能實現(xiàn)跨業(yè)務(wù)條線、跨系統(tǒng)的數(shù)據(jù)整合,為管理分析和業(yè)務(wù)決策提供統(tǒng)一的數(shù)據(jù)支持。數(shù)據(jù)倉庫能夠從根本上幫助你把公司的運營數(shù)據(jù)轉(zhuǎn)化成為高價值的可以獲取的信息(或知識),并且在恰當?shù)臅r候通過恰當?shù)姆绞桨亚‘數(shù)男畔鬟f給恰當?shù)娜?。以下圖為例:數(shù)據(jù)倉庫的作用主要體現(xiàn)在企業(yè)決策、分析、計劃和響應以下幾個方面:數(shù)據(jù)倉庫針對實時數(shù)據(jù)處理和非結(jié)構(gòu)化數(shù)據(jù)處理能力較弱,以及在業(yè)務(wù)在預警預測等方面應用有一定的限制。二、數(shù)據(jù)平臺1.數(shù)據(jù)平臺概念大數(shù)據(jù)時代,數(shù)據(jù)平臺一般被稱之為大數(shù)據(jù)平臺。狹義上的數(shù)據(jù)平臺:是為了解決數(shù)據(jù)倉庫不能處理非結(jié)構(gòu)化數(shù)據(jù)和報表開發(fā)周期長的問題,所以先撇開業(yè)務(wù)需求、把企業(yè)所有的數(shù)據(jù)都抽取出來放到一起,成為一個大的數(shù)據(jù)集,其中有結(jié)構(gòu)化數(shù)據(jù)、非結(jié)構(gòu)化數(shù)據(jù)等。當業(yè)務(wù)方有需求的時候,再把他們需要的若干個小數(shù)據(jù)集單獨提取出來,以數(shù)據(jù)集的形式提供給數(shù)據(jù)應用。廣義的大數(shù)據(jù)平臺:廣義的大數(shù)據(jù)平臺通常被賦予更多的使命,以處理海量數(shù)據(jù)存儲、計算及不間斷流數(shù)據(jù)實時計算、離線計算、智能推薦、交互式查詢、數(shù)據(jù)湖構(gòu)建等場景為主的一套基礎(chǔ)設(shè)施。典型的包括基于Hadoop生態(tài)構(gòu)建的大數(shù)據(jù)平臺。提供易于部署及管理的Hive、Spark、HBase、Flink、StarRocks、Iceberg、Alluxio等開源大數(shù)據(jù)計算和存儲引擎。狹義的數(shù)據(jù)平臺和傳統(tǒng)的數(shù)據(jù)平臺(數(shù)據(jù)倉庫)功能一致,區(qū)別只是技術(shù)架構(gòu)和數(shù)據(jù)容量方面的不同。廣義上的大數(shù)據(jù)平臺是數(shù)據(jù)湖的基座,提供易于部署和管理的泛Hadoop生態(tài)及其他存儲計算引擎的PaaS平臺,助力企業(yè)構(gòu)建企業(yè)級數(shù)據(jù)湖技術(shù)架構(gòu)。Tip:本文以狹義的數(shù)據(jù)平臺進行對比,這里不對狹義的數(shù)據(jù)平臺做過多概述。三、數(shù)據(jù)中臺1.數(shù)據(jù)中臺概念數(shù)據(jù)中臺的起源:2015年年中,馬云帶領(lǐng)阿里巴巴集團高管拜訪了一家芬蘭的小型游戲公司Supercell。這家僅有不到200名員工的小型游戲公司竟創(chuàng)造了高達15億美元的年稅前利潤!而Supercell之所以能夠支持多個團隊快速、敏捷地推出高質(zhì)量的游戲作品,其強大的中臺能力功不可沒。因此,在拜訪Supercell的旅程結(jié)束之后,馬云決定對阿里巴巴的組織和系統(tǒng)架構(gòu)進行整體調(diào)整,建立阿里產(chǎn)品技術(shù)和數(shù)據(jù)能力的強大中臺,構(gòu)建“大中臺,小前臺”的組織和業(yè)務(wù)體制。數(shù)據(jù)中臺的主要目的:解決企業(yè)在發(fā)展過程中,由于數(shù)據(jù)激增與業(yè)務(wù)的擴大而出現(xiàn)的統(tǒng)計口徑不一致、重復開發(fā)、指標開發(fā)需求響應慢、數(shù)據(jù)質(zhì)量低、數(shù)據(jù)成本高等問題。通過一系列數(shù)據(jù)工具(元數(shù)據(jù)中心、數(shù)據(jù)指標中心、數(shù)倉模型中心、數(shù)據(jù)資產(chǎn)中心-資產(chǎn)質(zhì)量/治理/安全、數(shù)據(jù)服務(wù)中心等),規(guī)范數(shù)據(jù)供應鏈的各個環(huán)節(jié)。2.數(shù)據(jù)中臺特點數(shù)據(jù)中臺特點:以一種標準的、安全的、可靠的、統(tǒng)一的、共享的、解耦的、服務(wù)化的方式支持前端數(shù)據(jù)的應用。3.數(shù)據(jù)中臺作用(阿里數(shù)據(jù)中臺邏輯架構(gòu)圖)(數(shù)據(jù)中臺產(chǎn)品能力圖)數(shù)據(jù)中臺通過對企業(yè)內(nèi)外部多源異構(gòu)的數(shù)據(jù)采集、建設(shè)、管理、分析和應用,使數(shù)據(jù)對內(nèi)優(yōu)化管理提高業(yè)務(wù)價值,對外進行數(shù)據(jù)合作讓業(yè)務(wù)價值得到釋放,使之成為企業(yè)數(shù)據(jù)資產(chǎn)管理中樞。數(shù)據(jù)中臺建立后,會形成數(shù)據(jù)API服務(wù),為企業(yè)和客戶提供高效各種數(shù)據(jù)服務(wù)。數(shù)據(jù)中臺對一個企業(yè)的數(shù)字化轉(zhuǎn)型和可持續(xù)發(fā)展起著至關(guān)重要的作用。數(shù)據(jù)中臺為解耦而生,企業(yè)建設(shè)數(shù)據(jù)中臺的最大意義就是應用與數(shù)據(jù)之間的解耦,這樣企業(yè)就可以不受限制地按需構(gòu)建滿足業(yè)務(wù)需求的數(shù)據(jù)應用。構(gòu)建了開放、靈活、可擴展的企業(yè)級統(tǒng)一數(shù)據(jù)管理和分析平臺,將企業(yè)內(nèi)、外部數(shù)據(jù)隨需關(guān)聯(lián),打破了數(shù)據(jù)的系統(tǒng)界限。利用大數(shù)據(jù)智能分析、數(shù)據(jù)可視化等技術(shù),實現(xiàn)了數(shù)據(jù)共享、日常報表自動生成、快速和智能分析,滿足企業(yè)各級部門之間的數(shù)據(jù)分析應用需求。深度挖掘數(shù)據(jù)價值,助力企業(yè)數(shù)字化轉(zhuǎn)型落地。實現(xiàn)了數(shù)據(jù)的目錄、模型、標準、認責、安全、可視化、共享等管理,實現(xiàn)數(shù)據(jù)集中存儲、處理、分類與管理,建立大數(shù)據(jù)分析工具庫、算法服務(wù)庫,實現(xiàn)報表生成自動化、數(shù)據(jù)分析敏捷化、數(shù)據(jù)挖掘可視化,實現(xiàn)數(shù)據(jù)質(zhì)量評估、落地管理流程。四、數(shù)據(jù)湖1.數(shù)據(jù)湖概念數(shù)據(jù)湖起源:數(shù)據(jù)湖的起源,應該追溯到2010年10月,由Pentaho的創(chuàng)始人兼CTO,JamesDixon所提出,他提出的目的就當時歷史背景來看,其實是為了推廣自家產(chǎn)品Pentaho。當時核心要解決的問題是傳統(tǒng)數(shù)據(jù)倉庫報表分析面臨的兩個問題:只使用部分屬性,這些數(shù)據(jù)只能回答預先定義好(pre-determined)的問題。數(shù)據(jù)被聚合了,最低層級的細節(jié)丟失了,能回答的問題被限制了。而我們當前所討論的數(shù)據(jù)湖,已經(jīng)遠遠超過了當初JamesDixon所定義的數(shù)據(jù)湖,各廠商之間也對數(shù)據(jù)湖有了更多的不同定義。1)AWSAdatalakeisacentralizedrepositorythatallowsyoutostoreallyourstructuredandunstructureddataatanyscale.Youcanstoreyourdataas-is,withouthavingtofirststructurethedata,andrundifferenttypesofanalytics—fromdashboardsandvisualizationstobigdataprocessing,real-timeanalytics,andmachinelearningtoguidebetterdecisions.“數(shù)據(jù)湖是一個集中式存儲庫,允許您以任意規(guī)模存儲所有結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)。您可以按原樣存儲數(shù)據(jù)(無需先對數(shù)據(jù)進行結(jié)構(gòu)化處理),并運行不同類型的分析–從控制面板和可視化到大數(shù)據(jù)處理、實時分析和機器學習,以指導做出更好的決策?!?)微軟AzureDataLakeincludesallthecapabilitiesrequiredtomakeiteasyfordevelopers,datascientists,andanalyststostoredataofanysize,shape,andspeed,anddoalltypesofprocessingandanalyticsacrossplatformsandlanguages.Itremovesthecomplexitiesofingestingandstoringallofyourdatawhilemakingitfastertogetupandrunningwithbatch,streaming,andinteractiveanalytics.“Azure的數(shù)據(jù)湖包括一切使得開發(fā)者、數(shù)據(jù)科學家、分析師能更簡單的存儲、處理數(shù)據(jù)的能力,這些能力使得用戶可以存儲任意規(guī)模、任意類型、任意產(chǎn)生速度的數(shù)據(jù),并且可以跨平臺、跨語言的做所有類型的分析和處理。數(shù)據(jù)湖在能幫助用戶加速應用數(shù)據(jù)的同時,消除了數(shù)據(jù)采集和存儲的復雜性,同時也能支持批處理、流式計算、交互式分析等?!?)阿里云“數(shù)據(jù)湖是統(tǒng)一存儲池,可對接多種數(shù)據(jù)輸入方式,您可以存儲任意規(guī)模的結(jié)構(gòu)化、半結(jié)構(gòu)化、非結(jié)構(gòu)化數(shù)據(jù)。數(shù)據(jù)湖可無縫對接多種計算分析平臺,根據(jù)業(yè)務(wù)場景不同,可以選擇相應的計算引擎對數(shù)據(jù)湖中存儲的數(shù)據(jù)進行數(shù)據(jù)處理與分析,從而打破孤島,挖掘業(yè)務(wù)價值。”2.數(shù)據(jù)湖內(nèi)容數(shù)據(jù)湖中包括來自于關(guān)系型數(shù)據(jù)庫中的結(jié)構(gòu)化數(shù)據(jù)(行和列)、半結(jié)構(gòu)化數(shù)據(jù)(如CSV、日志、XML、JSON)、非結(jié)構(gòu)化數(shù)據(jù)(如email、文檔、PDF等)和二進制數(shù)據(jù)(如圖像、音頻、視頻)。3.數(shù)據(jù)湖的特點統(tǒng)一的數(shù)據(jù)存儲,存放原始的數(shù)據(jù)。支持任意結(jié)構(gòu)的數(shù)據(jù)存儲,包括結(jié)構(gòu)化、半結(jié)構(gòu)化、非結(jié)構(gòu)化。支持多種計算分析,適用多種應用場景。支持任意規(guī)模的數(shù)據(jù)存儲與計算能力。目標都是為了更好,更快的發(fā)現(xiàn)數(shù)據(jù)價值。4.數(shù)據(jù)湖能夠解決的問題1)數(shù)據(jù)湖整體架構(gòu)最底下是分布式文件系統(tǒng);第二層是數(shù)據(jù)加速層。數(shù)據(jù)湖架構(gòu)是一個存儲計算徹底分離的架構(gòu),如果所有的數(shù)據(jù)訪問都遠程讀取文件系統(tǒng)上的數(shù)據(jù),那么性能和成本開銷都很大。如果能把經(jīng)常訪問到的一些熱點數(shù)據(jù)緩存在計算節(jié)點本地,這就非常自然的實現(xiàn)了冷熱分離,一方面能收獲到不錯的本地讀取性能,另一方面還節(jié)省了遠程訪問的帶寬。第三層就是Tableformat層,主要是把一批數(shù)據(jù)文件封裝成一個有業(yè)務(wù)意義的table,提供ACID、snapshot、schema、partition等表級別的語義。最上層就是不同計算場景的計算引擎了。開源的一般有Spark、Flink、Hive、Presto、HiveMR等,這一批計算引擎是可以同時訪問同一張數(shù)據(jù)湖的表的。2)數(shù)據(jù)湖能解決哪類問題數(shù)據(jù)分散,存儲散亂,形成數(shù)據(jù)孤島,無法聯(lián)合數(shù)據(jù)發(fā)現(xiàn)更多價值。這方面來講,其實數(shù)據(jù)湖要解決的與數(shù)據(jù)倉庫是類似的問題,但又有所不同,因為它的定義里支持對半結(jié)構(gòu)化、非結(jié)構(gòu)化數(shù)據(jù)的管理。而傳統(tǒng)數(shù)據(jù)倉庫僅能解決結(jié)構(gòu)化數(shù)據(jù)的統(tǒng)一管理。在這個萬物互聯(lián)的時代,數(shù)據(jù)的來源多種多樣,隨著不同應用場景,產(chǎn)出的數(shù)據(jù)格式也是越來越豐富,不能再僅僅局限于結(jié)構(gòu)化數(shù)據(jù)。如何統(tǒng)一存儲這些數(shù)據(jù),就是迫切需要解決的問題。3)存儲成本數(shù)據(jù)庫或數(shù)據(jù)倉庫的存儲受限于實現(xiàn)原理及硬件條件,導致存儲海量數(shù)據(jù)時成本過高,而為了解決這類問題就有了HDFS/對象存儲這類技術(shù)方案。數(shù)據(jù)湖場景下如果使用這類存儲成本較低的技術(shù)架構(gòu),將會為企業(yè)大大節(jié)省成本。結(jié)合生命周期管理的能力,可以更好的為湖內(nèi)數(shù)據(jù)分層(冷溫熱存放在不同的存儲介質(zhì):HDD、SSD、MEM),不用糾結(jié)在是保留數(shù)據(jù)還是刪除數(shù)據(jù)節(jié)省成本的問題。4)SQL已經(jīng)無法滿足的分析需求越來越多種類的數(shù)據(jù),意味著越來越多的分析方式,傳統(tǒng)的SQL方式已經(jīng)無法滿足分析的需求,如何通過各種語言自定義貼近自己業(yè)務(wù)的代碼,如何通過機器學習挖掘更多的數(shù)據(jù)價值。5)存儲/計算擴展性不足傳統(tǒng)數(shù)據(jù)庫等在海量數(shù)據(jù)下,如規(guī)模到PB級別,因為技術(shù)架構(gòu)的原因,已經(jīng)無法滿足擴展的要求或者擴展成本極高,而這種情況下通過數(shù)據(jù)湖架構(gòu)下的擴展技術(shù)能力,實現(xiàn)成本為0,硬件成本也可控。業(yè)務(wù)模型不定,無法預先建模。傳統(tǒng)數(shù)據(jù)庫和數(shù)據(jù)倉庫,都是Schema-on-Writ

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論