




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)
文檔簡介
數(shù)據(jù)湖數(shù)據(jù)湖是一個中央存儲庫,可以大量存儲所有數(shù)據(jù)(結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù))。數(shù)據(jù)通常以原始格式存儲,無需首先進行處理或結(jié)構(gòu)化。在這種情況下,它可以針對手頭的目的進行優(yōu)化和處理,無論是交互式分析、下游機器學習或分析應用程序的儀表板??梢赃@樣想,數(shù)據(jù)湖就像一個大水體,比如說一個處于自然狀態(tài)的湖。數(shù)據(jù)湖是使用來自各種來源的數(shù)據(jù)流創(chuàng)建的,然后,多個用戶可以來到湖中對其進行檢查并取樣。數(shù)據(jù)湖的美妙之處在于每個人都在查看和操作相同的數(shù)據(jù)。消除多個數(shù)據(jù)源并在數(shù)據(jù)湖中擁有一個可引用的“黃金”數(shù)據(jù)集來保障組織內(nèi)的一致性,因為用于訪問組織中智能的任何其他下游存儲庫或技術(shù)都將同步。這很關(guān)鍵。使用這種集中的數(shù)據(jù)源,就不會從不同的孤島中提取數(shù)據(jù);組織中的每個人都有一個單一的事實來源。該模式為公司的分析生命周期提供了近乎無限的能力:攝?。簲?shù)據(jù)以任何原始格式到達并存儲以供將來分析或災難恢復。公司通常會根據(jù)隱私、生產(chǎn)訪問以及將利用傳入信息的團隊來劃分多個數(shù)據(jù)湖。
存儲:數(shù)據(jù)湖允許企業(yè)管理和組織幾乎無限量的信息。云對象存儲以較低的成本為大數(shù)據(jù)計算提供高可用性訪問。
流程:借助云計算,基礎設施現(xiàn)在只需一個API調(diào)用即可。這是從數(shù)據(jù)湖中的原始狀態(tài)獲取數(shù)據(jù)并格式化以與其他信息一起使用的時候。這些數(shù)據(jù)也經(jīng)常使用高級算法進行聚合、合并或分析。然后將數(shù)據(jù)推回數(shù)據(jù)湖以供商業(yè)智能或其他應用程序存儲和進一步使用。
消費:當我們談論自助服務數(shù)據(jù)湖時,消費通常是生命周期中的階段。此時,數(shù)據(jù)可供業(yè)務和客戶根據(jù)需要進行分析。根據(jù)復雜用例的類型,最終用戶還可以間接或直接以預測(預測天氣、財務、運動表現(xiàn)等)或感知分析(推薦引擎、欺詐檢測、基因組測序、ETC)。
數(shù)據(jù)湖支持原生流,數(shù)據(jù)流在其中被處理并在到達時可用于分析。數(shù)據(jù)管道在從數(shù)據(jù)流接收數(shù)據(jù)時轉(zhuǎn)換數(shù)據(jù),并觸發(fā)分析所需的計算。數(shù)據(jù)湖的原生流式傳輸特性使其非常適合流式分析。數(shù)據(jù)倉庫數(shù)據(jù)倉庫發(fā)明于1980年底,專為業(yè)務應用程序生成的高度結(jié)構(gòu)化數(shù)據(jù)而設計。它將組織的所有數(shù)據(jù)集中在一起并以結(jié)構(gòu)化方式存儲。它通常用于連接和分析來自異構(gòu)來源的數(shù)據(jù)。數(shù)據(jù)倉庫架構(gòu)依賴于數(shù)據(jù)結(jié)構(gòu)來支持高性能的SQL(結(jié)構(gòu)化查詢語言)操作。數(shù)據(jù)倉庫是專門為基于SQL的訪問而構(gòu)建和優(yōu)化的,以支持商業(yè)智能,但為流分析和機器學習提供有限的功能。它們受到ETL要求的限制,需要在存儲數(shù)據(jù)之前對其進行預處理。
數(shù)據(jù)倉庫在數(shù)據(jù)用于分析之前需要順序ETL攝取和轉(zhuǎn)換數(shù)據(jù),因此它們對于流式分析效率低下。一些數(shù)據(jù)倉庫支持“微批處理”以經(jīng)常以小增量收集數(shù)據(jù)。它支持順序ETL操作,其中數(shù)據(jù)以瀑布模型從原始數(shù)據(jù)格式流向完全轉(zhuǎn)換的集合,并針對快速性能進行了優(yōu)化。
數(shù)據(jù)倉庫以專有格式存儲數(shù)據(jù)。一旦數(shù)據(jù)存儲在數(shù)據(jù)倉庫中,對該數(shù)據(jù)的訪問僅限于SQL和數(shù)據(jù)倉庫提供的自定義驅(qū)動程序。一些較新的數(shù)據(jù)倉庫支持半結(jié)構(gòu)化數(shù)據(jù),例如JSON、Parquet和XML文件;與結(jié)構(gòu)化數(shù)據(jù)集相比,它們對此類數(shù)據(jù)集的支持有限且性能下降。數(shù)據(jù)倉庫不能完全支持存儲非結(jié)構(gòu)化數(shù)據(jù)。
數(shù)據(jù)湖和數(shù)據(jù)倉庫之間的區(qū)別
數(shù)據(jù)倉庫和商業(yè)智能工具支持歷史數(shù)據(jù)的報告和分析,而數(shù)據(jù)湖支持利用數(shù)據(jù)進行機器學習、預測和實時分析的新用例。雖然一些數(shù)據(jù)倉庫擴展了基于SQL的訪問以提供機器學習功能,但它們不提供原生支持來運行廣泛可用的程序化數(shù)據(jù)處理框架,例如ApacheSpark、Tensorflow等。
相比之下,數(shù)據(jù)湖是機器學習用例的理想選擇。它們不僅提供基于SQL的數(shù)據(jù)訪問,還通過Python、Scala、Java等語言為ApacheSpark和Tensorflow等編程分布式數(shù)據(jù)處理框架提供原生支持。
數(shù)據(jù)倉庫需要在數(shù)據(jù)用于分析之前順序ETL攝取和轉(zhuǎn)換數(shù)據(jù),因此它們對于流式分析效率低下。一些數(shù)據(jù)倉庫支持“微批處理”以經(jīng)常以小增量收集數(shù)據(jù)。這種流到批處理的轉(zhuǎn)換增加了數(shù)據(jù)到達與用于分析之間的時間,使得數(shù)據(jù)倉庫不適用于多種形式的流分析。數(shù)據(jù)湖支持本地流式傳輸,其中數(shù)據(jù)流在到達時被處理并可供分析。數(shù)據(jù)管道在從數(shù)據(jù)流接收數(shù)據(jù)時轉(zhuǎn)換數(shù)據(jù),并觸發(fā)分析所需的計算。數(shù)據(jù)湖的原生流式傳輸特性使其非常適合流式分析。
數(shù)據(jù)倉庫支持順序ETL操作,其中數(shù)據(jù)以瀑布模型從原始數(shù)據(jù)格式流向完全轉(zhuǎn)換的集合,并針對快速性能進行了優(yōu)化。相比之下,對于需要持續(xù)數(shù)據(jù)工程的用例,數(shù)據(jù)湖異常強大。在數(shù)據(jù)湖中,ETL的瀑布方法被迭代和連續(xù)的數(shù)據(jù)工程所取代。可以通過SQL和編程接口迭代地訪問和轉(zhuǎn)換數(shù)據(jù)湖中的原始數(shù)據(jù),以滿足用例不斷變化的需求。這種對持續(xù)數(shù)據(jù)工程的支持對于交互式分析和機器學習至關(guān)重要。揭穿關(guān)于數(shù)據(jù)湖和數(shù)據(jù)倉庫的三大神話讓我們解決一些關(guān)于兩種流行的數(shù)據(jù)存儲類型的常見誤解:誤區(qū)一:只需要數(shù)據(jù)湖或數(shù)據(jù)倉庫中的一個如今,經(jīng)常聽到人們談論數(shù)據(jù)湖和數(shù)據(jù)倉庫,好像企業(yè)必須選擇其中一個。但現(xiàn)實情況是,數(shù)據(jù)湖和數(shù)據(jù)倉庫服務于不同的目的。雖然兩者都提供數(shù)據(jù)存儲,但它們使用不同的結(jié)構(gòu),支持不同的格式,并針對不同的用途進行了優(yōu)化。通常,公司可能會從使用數(shù)據(jù)倉庫和數(shù)據(jù)湖中受益。
數(shù)據(jù)倉庫最適合希望為商業(yè)智能分析操作系統(tǒng)數(shù)據(jù)的企業(yè)。數(shù)據(jù)倉庫在這方面工作得很好,因為存儲的數(shù)據(jù)是結(jié)構(gòu)化、清理和準備分析的。同時,數(shù)據(jù)湖允許企業(yè)以任何格式存儲數(shù)據(jù)以用于幾乎任何用途,包括機器學習(ML)模型和大數(shù)據(jù)分析。
誤區(qū)2:數(shù)據(jù)湖是流行趨勢,數(shù)據(jù)倉庫不是
人工智能(AI)和ML代表了一些增長最快的云工作負載,組織越來越多地轉(zhuǎn)向數(shù)據(jù)湖來幫助確保這些項目的成功。由于數(shù)據(jù)湖允許存儲幾乎任何類型的數(shù)據(jù)(結(jié)構(gòu)化和非結(jié)構(gòu)化)而無需事先準備或清理,因此組織能夠保留盡可能多的潛在價值以供將來使用,未指定使用。此設置非常適合更復雜的工作負載,例如尚未確定具體數(shù)據(jù)類型和用途的機器學習模型。
數(shù)據(jù)倉庫可能是這兩種選擇中更為人所知的一種,但數(shù)據(jù)湖和類似類型的存儲基礎設施可能會隨著數(shù)據(jù)工作負載的趨勢而繼續(xù)流行。數(shù)據(jù)倉庫適用于某些類型的工作負載和用例,而數(shù)據(jù)湖代表了服務于其他類型工作負載的另一種選擇。
誤區(qū)三:數(shù)據(jù)倉庫易于使用,而數(shù)據(jù)湖很復雜
數(shù)據(jù)湖需要數(shù)據(jù)工程師和數(shù)據(jù)科學家的特定技能來分類和利用其中存儲的數(shù)據(jù)。數(shù)據(jù)的非結(jié)構(gòu)化性質(zhì)使得那些不了解數(shù)據(jù)湖如何工作的人更不容易訪問它。
但是,一旦數(shù)據(jù)科學家和數(shù)據(jù)工程師構(gòu)建了數(shù)據(jù)模型或管道,業(yè)務用戶通??梢岳门c流行業(yè)務工具的集成(自定義或預構(gòu)建)來探索數(shù)據(jù)。同樣,大多數(shù)業(yè)務用戶通過連接的商業(yè)智能(BI)工具訪問存儲在數(shù)據(jù)倉庫中的數(shù)據(jù)。在第三方BI工具的幫助下,業(yè)務用戶應該能夠訪問和分析數(shù)據(jù),無論該數(shù)據(jù)存儲在數(shù)據(jù)倉庫還是數(shù)據(jù)湖中。
構(gòu)建現(xiàn)代數(shù)據(jù)平臺的原則
盡量減少數(shù)據(jù)平臺中人員、網(wǎng)絡和磁盤操作的影響。雖然人類永遠無法像計算機一樣快,但網(wǎng)絡和磁盤操作是客觀問題。為了減少這些問題的影響,避免在各處復制數(shù)據(jù),加強平臺讀取和處理來自不同位置的數(shù)據(jù)的能力,包括事務性、發(fā)布/子系統(tǒng)和數(shù)據(jù)倉庫系統(tǒng),而無需當天移動。構(gòu)建現(xiàn)代數(shù)據(jù)平臺的原則是:
把事情簡單化,不要過度架構(gòu)或過度設計;
為正確的工作使用正確的工具;
讓用例決定你應該使用什么;
使用云進行擴展;
將數(shù)據(jù)與上下文分開,這將使數(shù)據(jù)能夠用于多個用例。數(shù)據(jù)湖和數(shù)據(jù)倉庫:用例DataLake已經(jīng)成為一個強大的平臺,企業(yè)可以使用它來管理、挖掘大量非結(jié)構(gòu)化數(shù)據(jù)并將其貨幣化,以獲得競爭優(yōu)勢。因此,公司對數(shù)據(jù)湖平臺的采用率急劇增加。在這種利用大數(shù)據(jù)的熱潮中,一直存在一種誤解,即DataLake旨在取代數(shù)據(jù)倉庫,而實際上,DataLake旨在補充傳統(tǒng)的關(guān)系數(shù)據(jù)庫管理系統(tǒng)(RDBMS)。
數(shù)據(jù)倉庫適用于某些類型的工作負載和用例,而數(shù)據(jù)湖代表了服務于其他類型工作負載的另一種選擇。
用例應該驅(qū)動數(shù)據(jù)平臺架構(gòu)。如果您的用例需要速度、具有已知的數(shù)據(jù)模型、完全結(jié)構(gòu)化或非常接近它,那么SQL數(shù)據(jù)倉庫就足夠了。但是,如果您需要及時靈活地對數(shù)據(jù)進行建模并將其用于多種工作負載,您應該使用數(shù)據(jù)湖。
組織將依靠多種技術(shù)的最佳解決方案,包括數(shù)據(jù)倉庫和數(shù)據(jù)湖。最終,組織的選擇需要平衡管理多種技術(shù)的復雜性和TCO與以高性能和經(jīng)濟高效的方式運行更多種類的工作負載的能力。
未來該如何選擇我們現(xiàn)在處于這樣一個階段,我們不僅可以使用數(shù)據(jù)來回顧過去,還可以了解現(xiàn)在,甚至可以預測未來。數(shù)據(jù)和工具將不斷發(fā)展,以幫助我們幾乎實時地到達那里。將數(shù)據(jù)與上下文分開。進來的數(shù)據(jù)不一定有你想用它的上下文。所以,在弄清楚你想用它做什么之前,把將數(shù)據(jù)獲取到一個位置的想法分開。因為實際上,您將對該數(shù)據(jù)進行多種用途。因此,您永遠不知道您可以將這些數(shù)據(jù)用于什么用途。因此,如果您首先獲取數(shù)據(jù),然后弄清楚您想用它做什么,通常會導致使用這些數(shù)據(jù)產(chǎn)生更積極的結(jié)果。
數(shù)據(jù)倉庫供應商正在逐漸從他們現(xiàn)有的模型轉(zhuǎn)向數(shù)據(jù)倉庫和數(shù)據(jù)湖模型的融合。同樣,數(shù)據(jù)湖
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 產(chǎn)業(yè)扶貧幫扶合同范例
- 供酒店食品合同范例
- 與購房中介合同范例
- 個人增資入股合同范本
- 基于不平衡數(shù)據(jù)的茄子病害分類
- 產(chǎn)品開發(fā)協(xié)議合同范例
- 冰庫買賣合同范例
- 個人終止房屋買賣合同范例
- 教育教學論文-淺談提高物理課堂教學質(zhì)量的途徑與方法
- 偽造訂單合同范例
- 醫(yī)院內(nèi)控評價工作報告
- 2021年10月自考00150金融理論與實務試題及答案含解析
- 智慧化除塵器及控制系統(tǒng)解決方案
- 急診預檢分診培訓
- 建筑垃圾商業(yè)計劃書
- 2024年蘭州市高三診斷考試(一診)地理試卷(含答案)
- 2024春蘇教版《亮點給力大試卷》 數(shù)學四年級下冊(全冊有答案)
- 小學中高年級語文整本書閱讀教學策略
- 2024年青島版數(shù)學五年級下冊第一單元、第二單元測試題及答案(各一套)
- 自行車的力學知識研究報告
- 《高危藥品管理》課件
評論
0/150
提交評論