數(shù)據(jù)湖演進(jìn)之路課件_第1頁
數(shù)據(jù)湖演進(jìn)之路課件_第2頁
數(shù)據(jù)湖演進(jìn)之路課件_第3頁
數(shù)據(jù)湖演進(jìn)之路課件_第4頁
數(shù)據(jù)湖演進(jìn)之路課件_第5頁
已閱讀5頁,還剩65頁未讀 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

數(shù)據(jù)湖演進(jìn)之路用戶畫像需要從數(shù)據(jù)倉庫的角度來看,才能獲得完整的視圖。數(shù)據(jù)集成真正從大數(shù)據(jù)的角度來看,才能明白其中的挑戰(zhàn)。一個運(yùn)行了20多年的數(shù)據(jù)架構(gòu),必然有其合理性也正是因為年代久遠(yuǎn),存量過多,才導(dǎo)致舉步維艱在Cloud和5G時代,超密度網(wǎng)絡(luò)集成和大數(shù)據(jù)洞察需求給保險行業(yè)帶來新的挑戰(zhàn),從數(shù)據(jù)倉庫到數(shù)據(jù)湖,不僅僅架構(gòu)的變革,更是思維方式的升級。數(shù)據(jù)倉庫歷史沿革1970年,關(guān)系數(shù)據(jù)庫的研究原型SystemR和INGRES開始出現(xiàn),這兩個系統(tǒng)的設(shè)計目標(biāo)都是面向on-1inetransactionprocessing(OLTP)的應(yīng)用關(guān)系數(shù)據(jù)庫的真正可用產(chǎn)品直到1980年才出現(xiàn),分別是DB2和INGRES。其他的數(shù)據(jù)庫,包括Sybase,Oracle,和Informix都遵從了相同的數(shù)據(jù)庫基本模型。關(guān)系數(shù)據(jù)庫的特點是按照行存儲關(guān)系表,使用B樹或衍生的樹結(jié)構(gòu)作為索引和基于代價的優(yōu)化器,提供ACID的屬性保證到1990年,一個新的趨勢開始出現(xiàn):企業(yè)為了商業(yè)智能的目的,需要把多個操作數(shù)據(jù)庫中數(shù)據(jù)收集到一個數(shù)據(jù)倉庫中。盡管投資巨大且功能有限,投資數(shù)據(jù)倉庫的企業(yè)還是獲得了不錯的投資回報率。從此,數(shù)據(jù)倉庫開始支撐各大企業(yè)的商業(yè)決策過程。數(shù)據(jù)倉庫的關(guān)鍵技術(shù)包括數(shù)據(jù)建模,ETL技術(shù),OLAP技術(shù)和報表技術(shù)等。目前主要的數(shù)據(jù)倉庫產(chǎn)品供應(yīng)商包括Oracle、IBM、Microsoft、SAS、Teradata、Sybase、Businessobjects(已被SAP收購)等數(shù)據(jù)倉年概念數(shù)據(jù)倉庫之父Bi1Inmon在1991年出版的“BuildingtheDataWarehouse”一書中所提出的定義被廣泛接受——數(shù)據(jù)倉庫(DataWarehouse)是一個面向主題的(SubjectOriented)、集成的(Integrated)、相對穩(wěn)定的(NonVolati1e)、反映歷史變化(Timnevariant)的數(shù)據(jù)集合,用于支持管理決策(DecisionMakingSupport)。這是一個偏向?qū)W術(shù)的定義,卻非常準(zhǔn)確的界定了數(shù)據(jù)倉庫與其他數(shù)據(jù)庫系統(tǒng)的本質(zhì)區(qū)別。adatawarehouseisasubject-oriented,integratedtime-variant.andnonvolatilecollectionofdatainsupportofmanagement'sdecision-makingprocessW.H.Inmon要理解數(shù)據(jù)倉庫的概念,需要從與數(shù)據(jù)庫的系統(tǒng)的對比來看數(shù)據(jù)庫是作為“所有處理的單一數(shù)據(jù)源”出現(xiàn)和定義的數(shù)據(jù)庫的出現(xiàn)有兩個驅(qū)動因素,第一是70年代以前大量應(yīng)用程序和主文件的分散存放導(dǎo)致一片混亂和大量冗余數(shù)據(jù)。第二是直接存取存儲設(shè)備的出現(xiàn)使得按記錄尋址成為可能?;贒BMS的在線事務(wù)處理為商業(yè)發(fā)展開辟全新的視野。數(shù)據(jù)庫系統(tǒng)的設(shè)計目標(biāo)是事務(wù)處理。數(shù)據(jù)庫系統(tǒng)是為記錄更新和事務(wù)處理而設(shè)計,數(shù)據(jù)的訪問的特點是基于主鍵,大量原子,隔離的小事務(wù),并發(fā)和可恢復(fù)是關(guān)鍵屬性,最大事務(wù)吞吐量是關(guān)鍵指標(biāo),因此數(shù)據(jù)庫的設(shè)計都反映了這些需求。數(shù)據(jù)倉庫的設(shè)計目標(biāo)是決策支持。歷史的,摘要的,聚合的數(shù)據(jù)比原始的記錄重要的多。査詢負(fù)載主要集中在即席查詢和包含連接,聚合等操作的復(fù)雜查詢。相對于數(shù)據(jù)庫系統(tǒng)來說,査詢吞吐量和響應(yīng)時間比事務(wù)處理吞吐量重要的多數(shù)據(jù)倉庫和數(shù)據(jù)庫系統(tǒng)的區(qū)別,一言蔽之:OLAP和OLTP的區(qū)別。數(shù)據(jù)庫支持是OLTP,數(shù)據(jù)倉庫支持的是OLAP數(shù)據(jù)處理類型OLTPOLAPUserorientation業(yè)務(wù)開發(fā)人分析決策人員systemorientationstomer-orientedMarket-oriented功能實現(xiàn)日常辜務(wù)處理面向分析決第關(guān)系橫型(ER、面向應(yīng)用多維樸型(層型或雪花)、面向主題數(shù)據(jù)量幾條或幾十條記錄百萬千萬條記錄DatacontentsCurrentdataHistoricdata單個企業(yè)的當(dāng)前數(shù)據(jù)多個企業(yè)的歷史數(shù)括操作類型短井發(fā)事務(wù):查認(rèn)、更新、刪除查詢?yōu)橹?只該操作、復(fù)雜查詢對OLTP和OAP的區(qū)別還可以有一個維度,就是及時性需求。OLTP對事務(wù)的及時性需求較高,而OLAP則不然。數(shù)據(jù)倉庫一般基于數(shù)據(jù)庫實現(xiàn)

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論