版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)
文檔簡介
一文讀懂選擇數(shù)據(jù)湖還是數(shù)據(jù)倉庫
目錄
編者按..........................................................................1
1.數(shù)據(jù)倉庫、數(shù)據(jù)湖的概念和區(qū)別...............................................2
1.1.數(shù)據(jù)倉庫................................................................2
1.1.1.數(shù)據(jù)倉庫概念.......................................................2
1.1.2.數(shù)據(jù)倉庫特點(diǎn)........................................................2
1.1.3.OLTP與OLAP................................................................................................................3
1.1.4.數(shù)據(jù)倉庫的作用.....................................................4
1.2.數(shù)據(jù)湖...................................................................8
1.2.1.數(shù)據(jù)湖概念.........................................................8
1.2.2.數(shù)據(jù)湖內(nèi)容.......................................................10
1.2.3.數(shù)據(jù)湖的特點(diǎn).......................................................10
1.3.對比..................................................................11
1.4.小結(jié)...................................................................12
2.揭穿關(guān)于數(shù)據(jù)湖和數(shù)據(jù)倉庫的三大神話.........................................12
2.1.只需要數(shù)據(jù)湖或數(shù)據(jù)倉庫中的一個........................................13
2.2.數(shù)據(jù)湖是流行趨勢,數(shù)據(jù)倉庫不是人工智能...............................13
2.3.數(shù)據(jù)倉庫易于使用,而數(shù)據(jù)湖很復(fù)雜....................................13
3.數(shù)據(jù)湖和數(shù)據(jù)倉庫:用例....................................................14
4.未來該如何選擇............................................................14
編者按
今天,每秒都在生成TB和PB的數(shù)據(jù),為這些海量數(shù)據(jù)集尋找存儲解
決方案至關(guān)重要。復(fù)雜的機(jī)器和技術(shù)現(xiàn)在收集了令人難以置信的廣泛數(shù)據(jù)一一
每天超過2.5萬億字節(jié)!一來自設(shè)備傳感器、日志、用戶、消費(fèi)者和其他地
方。數(shù)據(jù)存儲并不像以前看起來那么簡單。在管理和存儲數(shù)據(jù)時,數(shù)據(jù)管理者
需要考慮使用數(shù)據(jù)湖或數(shù)據(jù)倉庫作為存儲庫。隨著數(shù)據(jù)量、速度和種類的增
加,選擇合適的數(shù)據(jù)平臺來管理數(shù)據(jù)從未像現(xiàn)在這樣重要。它應(yīng)該是迄今為止
滿足我們需求的古老數(shù)據(jù)倉庫,還是應(yīng)該是承諾支持任何類型工作負(fù)載的任何
類型數(shù)據(jù)的數(shù)據(jù)湖?在這里,我們深入探討了這兩個平臺。
第1頁共15頁
1.數(shù)據(jù)倉庫、數(shù)據(jù)湖的概念和區(qū)別
1.1.數(shù)據(jù)倉庫
1.1.1.數(shù)據(jù)倉庫概念
數(shù)據(jù)倉庫由比爾?恩門(BiDInmon,數(shù)據(jù)倉庫之父)于1990年提出,主要功
能是將企業(yè)系統(tǒng)聯(lián)機(jī)事務(wù)處理(OLTP)長期壁壘的大量數(shù)據(jù),通過數(shù)據(jù)倉庫理論
支持所持有的數(shù)據(jù)存儲結(jié)構(gòu),做有系統(tǒng)的分析整理。
記錄事實(shí),林
的娥一版本
七
并行數(shù)據(jù)*
數(shù)據(jù)倉陣
I理
二二.
-
隨著企業(yè)的發(fā)展,業(yè)務(wù)系統(tǒng)的數(shù)據(jù)不斷激增,這些存儲在企業(yè)業(yè)務(wù)數(shù)據(jù)庫
中(也就是關(guān)系型數(shù)據(jù)庫Oracle,MicrosoftSQLSever,MySQL等)數(shù)據(jù)會隨著
時間的積累越來越多,會使業(yè)務(wù)數(shù)據(jù)庫會有一定的負(fù)載,導(dǎo)致業(yè)務(wù)系統(tǒng)的運(yùn)行
效率低,且這些數(shù)據(jù)中有很大一部分是冷數(shù)據(jù),而我們業(yè)務(wù)系統(tǒng)一般對我們近
期的數(shù)據(jù),也就是熱數(shù)據(jù)調(diào)用的比較頻繁,對冷數(shù)據(jù)使用頻率較低。
同時隨著企業(yè)數(shù)據(jù)驅(qū)動業(yè)務(wù)概念的興起,企業(yè)需要將各業(yè)務(wù)部門的業(yè)務(wù)數(shù)
據(jù)提取出來進(jìn)行數(shù)據(jù)分析與挖掘,輔助高層進(jìn)行分析與決策,但各部門需求的
數(shù)據(jù)種類千差萬別,接口錯綜復(fù)雜,過多的數(shù)據(jù)查詢腳本以及接口的接入導(dǎo)致
業(yè)務(wù)數(shù)據(jù)庫的穩(wěn)定性降低。
為了避免冷數(shù)據(jù)與歷史數(shù)據(jù)的積壓對我們業(yè)務(wù)數(shù)據(jù)庫效能產(chǎn)生影響,企業(yè)
需要定期將冷數(shù)據(jù)從業(yè)務(wù)數(shù)據(jù)庫中轉(zhuǎn)移出來存儲到一個專門存放歷史數(shù)據(jù)的倉
庫里面,各部門可以根據(jù)自身業(yè)務(wù)特性對外提供統(tǒng)一的數(shù)據(jù)服務(wù),這個倉庫就
是數(shù)據(jù)倉庫。
1.1.2.數(shù)據(jù)倉庫特點(diǎn)
數(shù)據(jù)倉庫(DataWarehoese)的特點(diǎn):面向主題的、集成的、穩(wěn)定的、反映
第2頁共15頁
歷史數(shù)據(jù)變化的。
面向主題的:數(shù)據(jù)倉庫是用來分析特點(diǎn)主題域的,所以說數(shù)據(jù)倉庫是面向
主題的。例如,電商行業(yè)的主題域通常分為交易域、會員域、商品域等。集成
的:數(shù)據(jù)倉庫集成了多個數(shù)據(jù)源,同一主題或產(chǎn)品相關(guān)數(shù)據(jù)可能來自不同的系
統(tǒng)不同類型的數(shù)據(jù)庫,日志文件等。穩(wěn)定的:數(shù)據(jù)一旦進(jìn)入數(shù)據(jù)倉庫,則不可
改變。數(shù)據(jù)倉庫的歷史數(shù)據(jù)是不應(yīng)該被更新的,同時存儲穩(wěn)定性較強(qiáng)反映歷史
數(shù)據(jù)變化的:數(shù)據(jù)倉庫保存了長期的歷史數(shù)據(jù),這點(diǎn)相對OLTP的數(shù)據(jù)庫而
言。因為性能考慮后者統(tǒng)籌保存近期的熱數(shù)據(jù)。
1.1.3.OLTP與OLAP
1JOLTP與OLAP概念
數(shù)據(jù)處理大致可以分成兩大類:聯(lián)機(jī)事務(wù)處理OLTP(on-linetransaction
聯(lián)機(jī)分析處理
processing)>OLAP(On-LineAnalyticalProcessing)o
OLTP是傳統(tǒng)的關(guān)系型數(shù)據(jù)庫的主要應(yīng)用,主要是基本的、日常的事務(wù)處
理,例如銀行交易。OLAP是數(shù)據(jù)倉庫系統(tǒng)的主要應(yīng)用,支持復(fù)雜的分析操
作,側(cè)重決策支持,并且提供直觀易懂的查詢結(jié)果。
OLTP(On-lineIransactionProcessing)
實(shí)時系統(tǒng)(RealtimeSystem)人機(jī)交互的應(yīng)用系統(tǒng)對用戶操作快速響應(yīng)
系統(tǒng)請求響應(yīng)性能數(shù)據(jù)總是保持在最新狀態(tài)數(shù)據(jù)量級小(100M-GB)
■1.:,一?,1.?;',
軟件技術(shù)基于數(shù)倉多維模型面向分析的操作深入理解數(shù)據(jù)
數(shù)據(jù)量級較大(100GB-TB)
:斛F就都巖空靜會魅
2JOLTP與OLAP區(qū)別
第3頁共15頁
|OLTPlOLAP
用戶操作人員,底層管理人員決SAM,mssxs
功能分析決策
DB設(shè)計面向應(yīng)用面向主題
旌當(dāng)前的,最新的細(xì)節(jié)的,立的歷史的,聚集的,多維的集成的,統(tǒng)f)
詢讀/寫數(shù)十條記錄讀上百萬條記錄
工作單位簡單的事務(wù)
用戶數(shù)上千個上百萬個
DB大小100MB-GB100BG-TB
時間要求具有實(shí)時性帆瞄要求不嚴(yán)格
主要應(yīng)用數(shù)據(jù)倉庫
OLTP系統(tǒng)強(qiáng)調(diào)數(shù)據(jù)庫內(nèi)存效率,強(qiáng)調(diào)內(nèi)存各種指標(biāo)的命令率,綁定變
量,并發(fā)操作等。OLAP系統(tǒng)則強(qiáng)調(diào)數(shù)據(jù)分析,強(qiáng)調(diào)SQL執(zhí)行市場,磁盤
I/O,分區(qū)等。
3)OLAP與數(shù)據(jù)倉庫的聯(lián)系
OLAP和數(shù)倉的關(guān)系是依賴互補(bǔ)的,一般以數(shù)據(jù)倉庫作為基礎(chǔ),既從數(shù)據(jù)
倉庫中抽取出詳細(xì)數(shù)據(jù)的一個子集并經(jīng)過必要的聚集存儲到OLAP存儲中供數(shù)
據(jù)分析工具讀取。
1.1.4.數(shù)據(jù)倉庫的作用
數(shù)據(jù)倉庫將來自不同來源的結(jié)構(gòu)化數(shù)據(jù)聚合起來,用于業(yè)務(wù)智能領(lǐng)域的比
較和分析,數(shù)據(jù)倉庫是包含多種數(shù)據(jù)的存儲庫,并且是高度建模的。
如下圖所示:各個系統(tǒng)的元數(shù)據(jù)通過ETL同步到操作性數(shù)據(jù)倉庫ODS
中,對ODS數(shù)據(jù)進(jìn)行面向主題域建模形成DW(數(shù)據(jù)倉庫),DM是針對某一個
第4頁共15頁
什么是ETL?(extraction-transformation-load抽取-轉(zhuǎn)換-加載)
傳統(tǒng)的數(shù)據(jù)倉庫集成處理架構(gòu)是ETL,利用ETL平臺的能力,£=從源數(shù)據(jù)
庫抽取數(shù)據(jù),L=將數(shù)據(jù)清洗(不符合規(guī)則的數(shù)據(jù))、轉(zhuǎn)化(對表按照業(yè)務(wù)需求進(jìn)行
不同維度、不同顆粒度、不同業(yè)務(wù)規(guī)則計算進(jìn)行統(tǒng)計),T=將加工好的表以增
量、全量、不同時間加載到數(shù)據(jù)倉庫。
n
Sources
什么是ELT?(extraction-load-transformation抽取-加載-轉(zhuǎn)換)
大數(shù)據(jù)背景下的架構(gòu)體系是ELT結(jié)構(gòu),其根據(jù)上層的應(yīng)用需求,隨時從數(shù)
據(jù)中臺中抽取想要的原始數(shù)據(jù)進(jìn)行建模分析。
ELT是利用數(shù)據(jù)庫的處理能力,£=從源數(shù)據(jù)庫抽取數(shù)據(jù),L=把數(shù)據(jù)加載到
目標(biāo)庫的臨時表中,T=對臨時表中的數(shù)據(jù)進(jìn)行轉(zhuǎn)換,然后加載到目標(biāo)庫目標(biāo)表
中。
第5頁共15頁
Extract&Load?■Transform-
DataWarehouse
Transform
yCloudSources<
ELT對比ETL的優(yōu)勢:
資源利用率的提升:ELT主要通過數(shù)據(jù)庫引擎來實(shí)現(xiàn)系統(tǒng)的可擴(kuò)展性(尤其
是當(dāng)數(shù)據(jù)加工過程在晚上時,可以充分利用數(shù)據(jù)庫引擎的資源)。任務(wù)運(yùn)行效
率的提升:ELT可以保持所有的數(shù)據(jù)始終在數(shù)據(jù)庫當(dāng)中,避免數(shù)據(jù)的加載和導(dǎo)
出,從而保證效率,提高系統(tǒng)的可監(jiān)控性。并行處理優(yōu)化:ELT可以根據(jù)數(shù)據(jù)
的分布情況進(jìn)行并行處理優(yōu)化,并可以利用數(shù)據(jù)庫的固有功能優(yōu)化磁盤1/00
可擴(kuò)展性增強(qiáng):ELT的可擴(kuò)展性取決于數(shù)據(jù)庫引擎和其硬件服務(wù)器的可擴(kuò)展
性。性能優(yōu)化:通過對相關(guān)數(shù)據(jù)庫進(jìn)行性能調(diào)優(yōu),ETL過程獲得3到4倍的效
率提升一般不是特別困難。數(shù)據(jù)倉庫系統(tǒng)的作用能實(shí)現(xiàn)跨業(yè)務(wù)條線、跨系統(tǒng)的
數(shù)據(jù)整合,為管理分析和業(yè)務(wù)決策提供統(tǒng)一的數(shù)據(jù)支持。數(shù)據(jù)倉庫能夠從根本
上幫助你把公司的運(yùn)營數(shù)據(jù)轉(zhuǎn)化成為高價值的可以獲取的信息(或知識),并且
在恰當(dāng)?shù)臅r候通過恰當(dāng)?shù)姆绞桨亚‘?dāng)?shù)男畔鬟f給恰當(dāng)?shù)娜?。以下圖為例:
第6頁共15頁
簡單例子:一個顧客
操作型原子/數(shù)據(jù)倉庫部門/數(shù)據(jù)集市個體
按月的顧客
JJones
1989-prcs
123MainSi
信用度-AA
我們吸引越來越多我更少也呼.戶
J.Jones的信用q
J.Jones現(xiàn)在的或趣來越少的客戶?,;理靠籌舞廣出
信用度是多少?歷史如何?
數(shù)據(jù)倉庫的作用主要體現(xiàn)在企業(yè)決策、分析、計劃和響應(yīng)以下幾個方面:
決策分析
分析企業(yè)盈利的價值組所在;分
從企業(yè)數(shù)以萬計的數(shù)據(jù)找出有價
析企業(yè)內(nèi)部運(yùn)營的狀況和風(fēng)險;
值的信息,用于管理和分析人員
分析企業(yè)外包的市場變化;
及時精確的做出分析報告.
計劃響應(yīng)
監(jiān)控時間和計量標(biāo)準(zhǔn);事件溯源
獲取與分析計朗于實(shí)際情況做對
與關(guān)聯(lián)分析;制定及時的應(yīng)對策
比信息;進(jìn)行預(yù)賽和趨勢分析;
略;船輾第翻癱
預(yù)估策略中的潛在變化風(fēng)除.k
數(shù)據(jù)倉庫針對實(shí)時數(shù)據(jù)處理和非結(jié)構(gòu)化數(shù)據(jù)處理能力較弱,以及在業(yè)務(wù)在
預(yù)警預(yù)測等方面應(yīng)用有一定的限制。
第7頁共15頁
報表展示即席查詢數(shù)據(jù)分析數(shù)據(jù)挖堀
(Report)(Ad-hoc)(DataAnalysis)(DataMining)
聚合數(shù)據(jù)多維數(shù)據(jù)模型*務(wù)模型
(Summary)(OLAP)(BusinessModel)
倉庫
細(xì)節(jié)數(shù)據(jù)(DetailData)
點(diǎn)擊流日志
(ClickStream)
1.2.數(shù)據(jù)湖
1.2.1.數(shù)據(jù)湖概念
數(shù)據(jù)倉庫發(fā)明于1980年底,專為業(yè)務(wù)應(yīng)用程序生成的高度結(jié)構(gòu)化數(shù)據(jù)而
設(shè)計。它將組織的所有數(shù)據(jù)集中在一起并以結(jié)構(gòu)化方式存儲。它通常用于連接
和分析來自異構(gòu)來源的數(shù)據(jù)。
數(shù)據(jù)倉庫架構(gòu)依賴于數(shù)據(jù)結(jié)構(gòu)來支持高性能的SQL(結(jié)構(gòu)化查詢語言)操
作。數(shù)據(jù)倉庫是專門為基于SQL的訪問而構(gòu)建和優(yōu)化的,以支持商業(yè)智能,
但為流分析和機(jī)器學(xué)習(xí)提供有限的功能。它們受到ETL要求的限制,需要在
存儲數(shù)據(jù)之前對其進(jìn)行預(yù)處理。數(shù)據(jù)倉庫在數(shù)據(jù)用于分析之前需要順序ETL
攝取和轉(zhuǎn)換數(shù)據(jù),因此它們對于流式分析效率低下。一些數(shù)據(jù)倉庫支持"微批
處理”以經(jīng)常以小增量收集數(shù)據(jù)。它支持順序ETL操作,其中數(shù)據(jù)以瀑布模型
從原始數(shù)據(jù)格式流向完全轉(zhuǎn)換的集合,并針對快速性能進(jìn)行了優(yōu)化。數(shù)據(jù)倉庫
以專有格式存儲數(shù)據(jù)。一旦數(shù)據(jù)存儲在數(shù)據(jù)倉庫中,對該數(shù)據(jù)的訪問僅限于
SQL和數(shù)據(jù)倉庫提供的自定義驅(qū)動程序。一些較新的數(shù)據(jù)倉庫支持半結(jié)構(gòu)化數(shù)
據(jù),例如JSON、Parquet和XML文件;與結(jié)構(gòu)化數(shù)據(jù)集相比,它們對此類
數(shù)據(jù)集的支持有限且性能下降。數(shù)據(jù)倉庫不能完全支持存儲非結(jié)構(gòu)化數(shù)據(jù)。數(shù)
據(jù)湖和數(shù)據(jù)倉庫之間的區(qū)別數(shù)據(jù)倉庫和商業(yè)智能工具支持歷史數(shù)據(jù)的報告和分
析,而數(shù)據(jù)湖支持利用數(shù)據(jù)進(jìn)行機(jī)器學(xué)習(xí)、預(yù)測和實(shí)時分析的新用例。
第8頁共15頁
LearnfromthePastUnderstandthepresentPredicttheFuture
▼
BusinessIntelligenceDataDiscoveryandAnalyticsAlandML
HistoricDataRealtimeandStreamingDataPastandCurrentData
雖然一些數(shù)據(jù)倉庫擴(kuò)展了基于SQL的訪問以提供機(jī)器學(xué)習(xí)功能,但它們
不提供原生支持來運(yùn)行廣泛可用的程序化數(shù)據(jù)處理框架,例如ApacheSpark.
Tensorflow等。相比之下,數(shù)據(jù)湖是機(jī)器學(xué)習(xí)用例的理想選擇。它們不僅提
供基于SQL的數(shù)據(jù)訪問,還通過Python>Scala>Java等語言為Apache
Spark和Tensorflow等編程分布式數(shù)據(jù)處理框架提供原生支持。數(shù)據(jù)倉庫需
要在數(shù)據(jù)用于分析之前順序ETL攝取和轉(zhuǎn)換數(shù)據(jù),因此它們對于流式分析效
率低下。一些數(shù)據(jù)倉庫支持“微批處理”以經(jīng)常以小增量收集數(shù)據(jù)。這種流到批
處理的轉(zhuǎn)換增加了數(shù)據(jù)到達(dá)與用于分析之間的時間,使得數(shù)據(jù)倉庫不適用于多
種形式的流分析。
DATALAKEvsDATAWAREHOUSE
DataDataUsersUsecases
???,V施察團(tuán)
RawRefined
LargeSmaller
DMIMnlorutnV4Mannumof■?Zor(tawofpmbytnD?U“vfioutetcrOxd6or***>
Sine*th*dMurntoctnfformorjmouMiofd?UdMflfenM*?ndoftf*DM*muuX
im<nMn??d<UUcjnX?or*d?nd?npranwetb?tar?tn?ntrnnp?r*odKputyngUataMtcMry
t>?nh>mMKlm(n?
UndefinedRelational
1htttancandrritorutwchM
gMantanbauwdfor4Mratyof
tranMcutntyownknp?tMKMW”
MM*MfarwIasirfww.\tndAl
數(shù)據(jù)湖支持本地流式傳輸,其中數(shù)據(jù)流在到達(dá)時被處理并可供分析。數(shù)據(jù)
管道在從數(shù)據(jù)流接收數(shù)據(jù)時轉(zhuǎn)換數(shù)據(jù),并觸發(fā)分析所需的計算。數(shù)據(jù)湖的原生
流式傳輸特性使其非常適合流式分析。數(shù)據(jù)倉庫支持順序ETL操作,其中數(shù)
據(jù)以瀑布模型從原始數(shù)據(jù)格式流向完全轉(zhuǎn)換的集合,并針對快速性能進(jìn)行了優(yōu)
化。相比之下,對于需要持續(xù)數(shù)據(jù)工程的用例,數(shù)據(jù)湖異常強(qiáng)大。在數(shù)據(jù)湖
中,ETL的瀑布方法被迭代和連續(xù)的數(shù)據(jù)工程所取代??梢酝ㄟ^SQL和編程
接口迭代地訪問和轉(zhuǎn)換數(shù)據(jù)湖中的原始數(shù)據(jù),以滿足用例不斷變化的需求。這
第9頁共15頁
種對持續(xù)數(shù)據(jù)工程的支持對于交互式分析和機(jī)器學(xué)習(xí)至關(guān)重要。
1.2.2.數(shù)據(jù)湖內(nèi)容
數(shù)據(jù)湖中包括來自于關(guān)系型數(shù)據(jù)庫中的結(jié)構(gòu)化數(shù)據(jù)(行和列)、半結(jié)構(gòu)化數(shù)
據(jù)(如CSV、日志、XML、JSON)、非結(jié)構(gòu)化數(shù)據(jù)(如email,文檔、PDF等)和
二進(jìn)制數(shù)據(jù)(如圖像、音頻、視頻)。
1.2.3.數(shù)據(jù)湖的特點(diǎn)
統(tǒng)一的數(shù)據(jù)存儲,存放原始的數(shù)據(jù)。支持任意結(jié)構(gòu)的數(shù)據(jù)存儲,包括結(jié)構(gòu)
化、半結(jié)構(gòu)化、非結(jié)構(gòu)化。支持多種計算分析,適用多種應(yīng)用場景。支持任意
規(guī)模的數(shù)據(jù)存儲與計算能力。目標(biāo)都是為了更好,更快的發(fā)現(xiàn)數(shù)據(jù)價值。4.數(shù)
據(jù)湖能夠解決的問題
1)數(shù)據(jù)湖整體架構(gòu)
!Spar^?Fiink嗓PEo%
Formal
DELTALAKEICEBERG^<^)hUdl
SixagoCactiftlAtuxb/JIYUFS)
MS$3AltyvnOSS
最底下是分布式文件系統(tǒng);
第二層是數(shù)據(jù)加速層。數(shù)據(jù)湖架構(gòu)是一個存儲計算徹底分離的架構(gòu),如果
所有的數(shù)據(jù)訪問都遠(yuǎn)程讀取文件系統(tǒng)上的數(shù)據(jù),那么性能和成本開銷都很大。
如果能把經(jīng)常訪問到的一些熱點(diǎn)數(shù)據(jù)緩存在計算節(jié)點(diǎn)本地,這就非常自然的實(shí)
現(xiàn)了冷熱分離,一方面能收獲到不錯的本地讀取性能,另一方面還節(jié)省了遠(yuǎn)程
訪問的帶寬。
第三層就是Tableformat層,主要是把一批數(shù)據(jù)文件封裝成一個有業(yè)務(wù)
意義的table,提供ACID、snapshot、schema>partition等表級別的語義。
最上層就是不同計算場景的計算引擎了。開源的一般有Spark、Flink、
Hive、Presto、HiveMR等,這一批計算引擎是可以同時訪問同一張數(shù)據(jù)湖的
表的。
第10頁共15頁
2)數(shù)據(jù)湖能解決哪類問題
數(shù)據(jù)分散,存儲散亂,形成數(shù)據(jù)孤島,無法聯(lián)合數(shù)據(jù)發(fā)現(xiàn)更多價值。
這方面來講,其實(shí)數(shù)據(jù)湖要解決的與數(shù)據(jù)倉庫是類似的問題,但又有所不
同,因為它的定義里支持對半結(jié)構(gòu)化、非結(jié)構(gòu)化數(shù)據(jù)的管理。而傳統(tǒng)數(shù)據(jù)倉庫
僅能解決結(jié)構(gòu)化數(shù)據(jù)的統(tǒng)一管理。
在這個萬物互聯(lián)的時代,數(shù)據(jù)的來源多種多樣,隨著不同應(yīng)用場景,產(chǎn)出
的數(shù)據(jù)格式也是越來越豐富,不能再僅僅局限于結(jié)構(gòu)化數(shù)據(jù)。如何統(tǒng)一存儲這
些數(shù)據(jù),就是迫切需要解決的問題。
3)存儲成本
數(shù)據(jù)庫或數(shù)據(jù)倉庫的存儲受限于實(shí)現(xiàn)原理及硬件條件,導(dǎo)致存儲海量數(shù)據(jù)
時成本過高,而為了解決這類問題就有了HDFS/對象存儲這類技術(shù)方案。數(shù)據(jù)
湖場景下如果使用這類存儲成本較低的技術(shù)架構(gòu),將會為企業(yè)大大節(jié)省成本。
結(jié)合生命周期管理的能力,可以更好的為湖內(nèi)數(shù)據(jù)分層(冷溫?zé)岽娣旁诓煌?/p>
存儲介質(zhì):HDD、SSD、MEM),不用糾結(jié)在是保留數(shù)據(jù)還是刪除數(shù)據(jù)節(jié)省成本
的問題。
4JSQL已經(jīng)無法滿足的分析需求
越來越多種類的數(shù)據(jù),意味著越來越多的分析方式,傳統(tǒng)的SQL方式已
經(jīng)無法滿足分析的需求,如何通過各種語言自定義貼近自己業(yè)務(wù)的代碼,如何
通過機(jī)器學(xué)習(xí)挖掘更多的數(shù)據(jù)價值。
5)存儲/計算擴(kuò)展性不足
傳統(tǒng)數(shù)據(jù)庫等在海量數(shù)據(jù)下,如規(guī)模到PB級別,因為技術(shù)架構(gòu)的原因,
已經(jīng)無法滿足擴(kuò)展的要求或者擴(kuò)展成本極高,而這種情況下通過數(shù)據(jù)湖架構(gòu)下
的擴(kuò)展技術(shù)能力,實(shí)現(xiàn)成本為0,硬件成本也可控。業(yè)務(wù)模型不定,無法預(yù)先
建模。
傳統(tǒng)數(shù)據(jù)庫和數(shù)據(jù)倉庫,都是Schema-on-Write的模式,需要提前定義
Schema信息。而在數(shù)據(jù)湖場景下,可以先保存數(shù)據(jù),后續(xù)待分析時,再發(fā)現(xiàn)
Schema,也就是Schema-on-Read<)
1.3.對比
第11頁共15頁
哧數(shù)據(jù)倉庫(自建)敷據(jù)中臺(自建)敷據(jù)湖(自?)
健設(shè)成本中離極高
建設(shè)難度中高極高
建設(shè)思想以數(shù)據(jù)驅(qū)動,自下而上以業(yè)務(wù)驅(qū)動,自上而下以技術(shù)和業(yè)務(wù)驅(qū)動,自上而下
業(yè)務(wù)距離用于支持管理決策分析,距離業(yè)務(wù)加速企業(yè)從數(shù)據(jù)到業(yè)務(wù)價值的轉(zhuǎn)變加速企業(yè)從甥B到業(yè)務(wù)價值的轉(zhuǎn)變
遠(yuǎn),無法直接體現(xiàn)業(yè)務(wù)價值過程,一定程度上體現(xiàn)業(yè)務(wù)價值過程,一定期上的值
資源成本傳統(tǒng):存儲計算綁定,成本高傳猊:存儲計算綁定,使用成本高,存儲計算分寓,數(shù)據(jù)冷熱分層,使
云原生:Serverless化,成本低運(yùn)維成本高用成本低,運(yùn)維成本低
云原生:Serverless化,成本低
數(shù)據(jù)格式封閉、專屬開放、通用開放、通用
數(shù)據(jù)內(nèi)容數(shù)據(jù)類型單一:結(jié)構(gòu)化和部分半結(jié)數(shù)據(jù)類型豐富:結(jié)構(gòu)化、半結(jié)構(gòu)化、數(shù)據(jù)類型豐富:結(jié)構(gòu)化、半結(jié)構(gòu)化、
非結(jié)構(gòu)化非結(jié)構(gòu)化
數(shù)據(jù)訪問方式主SQL,少量支持AP[開放API,支持SQL等開放API,直接讀取數(shù)據(jù)SQL
Python.R等
數(shù)據(jù)服務(wù)方式分析報表眠服務(wù)API既fig務(wù)原始數(shù)據(jù)既服務(wù)
百存儲計算深度優(yōu)化,性班高通過緩存、素引、分布等方式優(yōu)化,通過緩存、索引、分布等方式優(yōu)化,
性能高
擴(kuò)展性擴(kuò)展性一般,擴(kuò)履成本高擴(kuò)展性一般,持展成本高《班本,高擴(kuò)展性
靈活度^55t31模,Schmema-on-Write,預(yù)橫,Schmema-on-Write,無需提前建模,Schmema-on-
靈活度低靈活度低Read廓舌酬
ETL^ELT結(jié)構(gòu)■
使用場景BLSQU5上用和報袤等有限場景數(shù)據(jù)檜索、機(jī)器學(xué)習(xí)、數(shù)據(jù)挖掘、數(shù)據(jù)科學(xué)、數(shù)據(jù)挖掘、機(jī)器學(xué)習(xí)、
BI等豐富場景81等豐富場景
高高不
1.4.小結(jié)
根據(jù)以上數(shù)據(jù)平臺、數(shù)據(jù)倉庫、數(shù)據(jù)湖概念論述和對比,我們進(jìn)行如下總
結(jié):
1)數(shù)據(jù)倉庫和數(shù)據(jù)湖沒有直接的關(guān)系;
2)數(shù)據(jù)倉庫和數(shù)據(jù)湖在某個維度上為業(yè)務(wù)產(chǎn)生價值的形式有不同的側(cè)重;
3)數(shù)據(jù)倉庫是數(shù)據(jù)驅(qū)動業(yè)務(wù)的邏輯概念,用于支持管理決策分析,為業(yè)務(wù)
提供服務(wù)的主要方式是報表;
4)數(shù)據(jù)湖是企業(yè)級的技術(shù)邏輯概念,體現(xiàn)企業(yè)級數(shù)據(jù)湖架構(gòu)加速數(shù)據(jù)向業(yè)
務(wù)價值轉(zhuǎn)化的能力,為業(yè)務(wù)提供服務(wù)的主要方式是原始數(shù)據(jù);
5)數(shù)據(jù)湖距離業(yè)務(wù)更近,能夠更快速的響應(yīng)業(yè)務(wù)和應(yīng)用開發(fā)需求,從而為
業(yè)務(wù)提供速度更快的服務(wù)。
2.揭穿關(guān)于數(shù)據(jù)湖和數(shù)據(jù)倉庫的三大神話
讓我們解決一些關(guān)于兩種流行的數(shù)據(jù)存儲類型的常見誤解:
第12頁共15頁
2.1.只需要數(shù)據(jù)湖或數(shù)據(jù)倉庫中的一個
如今,經(jīng)常聽到人們談?wù)摂?shù)據(jù)湖和數(shù)據(jù)倉庫,好像企業(yè)必須選擇其中一
個。但現(xiàn)實(shí)情況是,數(shù)據(jù)湖和數(shù)據(jù)倉庫服務(wù)于不同的目的。雖然兩者都提供數(shù)
據(jù)存儲,但它們使用不同的結(jié)構(gòu),支持不同的格式,并針對不同的用途進(jìn)行了
優(yōu)化。通常,公司可能會從使用數(shù)據(jù)倉庫和數(shù)據(jù)湖中受益。數(shù)據(jù)倉庫最適合希
望為商業(yè)智能分析操作系統(tǒng)數(shù)據(jù)的企業(yè)。數(shù)據(jù)倉庫在這方面工作得很好,因為
存儲的數(shù)據(jù)是結(jié)構(gòu)化、清理和準(zhǔn)備分析的。同時,數(shù)據(jù)湖允許企業(yè)以任何格式
存儲數(shù)據(jù)以用于幾乎任何用途,包括機(jī)器學(xué)習(xí)(ML)模型和大數(shù)據(jù)分析。
2.2.數(shù)據(jù)湖是流行趨勢,數(shù)據(jù)倉庫不是人工智能
(AI)和ML代表了一些增長最快的云工作負(fù)載,組織越來越多地轉(zhuǎn)向數(shù)
據(jù)湖來幫助確保這些項目的成功。由于數(shù)據(jù)湖允許存儲幾乎任何類型的數(shù)據(jù)
(結(jié)構(gòu)化和非結(jié)構(gòu)化)而無需事先準(zhǔn)備或清理,因此組織
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 銀行計算機(jī)培訓(xùn)
- 母嬰護(hù)理培訓(xùn)
- 北京市豐臺區(qū)2024-2025學(xué)年高二上學(xué)期11月期中考試生物試題
- T-YNZYC 0088-2022 綠色藥材 紅大戟種苗生產(chǎn)技術(shù)規(guī)程
- 運(yùn)動治療學(xué)-步行訓(xùn)練
- 【課件】實(shí)際問題與一元一次方程(3)球賽積分+課件人教版七年級數(shù)學(xué)上冊
- 基于學(xué)習(xí)任務(wù)群的單元教學(xué)設(shè)計與實(shí)施
- 高中語文第6單元文無定格貴在鮮活2子路曾誓冉有公西華侍坐課件新人教版選修中國古代詩歌散文欣賞
- 信息技術(shù)(第2版)(拓展模塊)教案6-模塊3 3.6 大數(shù)據(jù)安全與風(fēng)險
- 小學(xué)生安全教育班會教案12篇 托班安全教案20篇
- 倉庫保管工國家職業(yè)標(biāo)準(zhǔn)
- 創(chuàng)業(yè)機(jī)會的認(rèn)知與開發(fā)
- AE200H型號變頻器用戶手冊
- 智能交通系統(tǒng)中交通事故預(yù)防與安全預(yù)警
- 探索中小學(xué)人工智能課程的設(shè)計與實(shí)施
- 個人申報國家社科基金的過程與體會
- QtC++程序設(shè)計-教學(xué)大綱
- 感染性心內(nèi)膜炎-標(biāo)準(zhǔn)完整課件
- 重慶大學(xué)版信息科技五年級上冊全冊教案教學(xué)設(shè)計
- 《企業(yè)普法講座》課件
- 《廣告法概述》課件
評論
0/150
提交評論