“1+X”(初級(jí))07-數(shù)據(jù)倉(cāng)庫(kù)_第1頁(yè)
“1+X”(初級(jí))07-數(shù)據(jù)倉(cāng)庫(kù)_第2頁(yè)
“1+X”(初級(jí))07-數(shù)據(jù)倉(cāng)庫(kù)_第3頁(yè)
“1+X”(初級(jí))07-數(shù)據(jù)倉(cāng)庫(kù)_第4頁(yè)
“1+X”(初級(jí))07-數(shù)據(jù)倉(cāng)庫(kù)_第5頁(yè)
已閱讀5頁(yè),還剩64頁(yè)未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶(hù)提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

數(shù)據(jù)倉(cāng)庫(kù)學(xué)習(xí)完本課程后,你將能夠:了解數(shù)據(jù)倉(cāng)庫(kù)基礎(chǔ)知識(shí)了解如何設(shè)計(jì)數(shù)據(jù)倉(cāng)庫(kù)掌握數(shù)據(jù)倉(cāng)庫(kù)模型設(shè)計(jì)掌握什么是ETL了解阿里云數(shù)據(jù)倉(cāng)庫(kù)技術(shù)課程目標(biāo)課程目錄數(shù)據(jù)倉(cāng)庫(kù)概述1.1什么是數(shù)據(jù)倉(cāng)庫(kù)

1.2數(shù)據(jù)倉(cāng)庫(kù)與數(shù)據(jù)庫(kù)1.3數(shù)據(jù)倉(cāng)庫(kù)系統(tǒng)的組成1.4數(shù)據(jù)倉(cāng)庫(kù)的作用2.數(shù)據(jù)倉(cāng)庫(kù)設(shè)計(jì)與實(shí)現(xiàn)3.數(shù)據(jù)倉(cāng)庫(kù)的數(shù)據(jù)模型4.ETL5.阿里云數(shù)據(jù)倉(cāng)庫(kù)技術(shù)什么是數(shù)據(jù)倉(cāng)庫(kù)W.H.Inmon在《BuildingtheDataWarehouse》一書(shū)中,對(duì)數(shù)據(jù)倉(cāng)庫(kù)的定義為:數(shù)據(jù)倉(cāng)庫(kù)是一個(gè)面向主題的集成的非易失的隨時(shí)間變化的用來(lái)支持管理人員決策的數(shù)據(jù)集合。

3數(shù)據(jù)倉(cāng)庫(kù)的幾個(gè)概念數(shù)據(jù)倉(cāng)庫(kù)基本概念OLAP&OLTPODS、數(shù)據(jù)集市維度、粒度立方體及其操作星形模型、雪花模型、事實(shí)星座4課程目錄數(shù)據(jù)倉(cāng)庫(kù)概述

1.1什么是數(shù)據(jù)倉(cāng)庫(kù)1.2數(shù)據(jù)倉(cāng)庫(kù)與數(shù)據(jù)庫(kù)

1.3數(shù)據(jù)倉(cāng)庫(kù)系統(tǒng)的組成1.4數(shù)據(jù)倉(cāng)庫(kù)的作用2.數(shù)據(jù)倉(cāng)庫(kù)設(shè)計(jì)與實(shí)現(xiàn)3.數(shù)據(jù)倉(cāng)庫(kù)的數(shù)據(jù)模型4.ETL5.阿里云數(shù)據(jù)倉(cāng)庫(kù)技術(shù)數(shù)據(jù)倉(cāng)庫(kù)與數(shù)據(jù)庫(kù)對(duì)比內(nèi)容數(shù)據(jù)庫(kù)數(shù)據(jù)倉(cāng)庫(kù)數(shù)據(jù)內(nèi)容當(dāng)前值歷史的、存檔的、歸納的、計(jì)算的數(shù)據(jù)數(shù)據(jù)目標(biāo)面向業(yè)務(wù)操作程序,重復(fù)處理面向主題域,分析應(yīng)用,支持決策數(shù)據(jù)特性動(dòng)態(tài)變化,按字段更新靜態(tài)、不能直接更新,只能定時(shí)添加、刷新數(shù)據(jù)結(jié)構(gòu)高度結(jié)構(gòu)化、復(fù)雜,適合操作計(jì)算簡(jiǎn)單,適合分析使用頻率高中到低數(shù)據(jù)訪(fǎng)問(wèn)量每個(gè)事務(wù)只訪(fǎng)問(wèn)少量記錄有的事務(wù)可能需要訪(fǎng)問(wèn)大量記錄對(duì)響應(yīng)時(shí)間的要求以秒為單位計(jì)算以秒、分鐘、甚至小時(shí)為計(jì)算單位6課程目錄數(shù)據(jù)倉(cāng)庫(kù)概述

1.1什么是數(shù)據(jù)倉(cāng)庫(kù)

1.2數(shù)據(jù)倉(cāng)庫(kù)與數(shù)據(jù)庫(kù)1.3數(shù)據(jù)倉(cāng)庫(kù)系統(tǒng)的組成

1.4數(shù)據(jù)倉(cāng)庫(kù)的作用2.數(shù)據(jù)倉(cāng)庫(kù)設(shè)計(jì)與實(shí)現(xiàn)3.數(shù)據(jù)倉(cāng)庫(kù)的數(shù)據(jù)模型4.ETL5.阿里云數(shù)據(jù)倉(cāng)庫(kù)技術(shù)數(shù)據(jù)倉(cāng)庫(kù)的功能層次概括講數(shù)據(jù)倉(cāng)庫(kù)系統(tǒng)分為幾大功能層次,可以是物理上的也可以是邏輯上的,無(wú)論大小數(shù)據(jù)倉(cāng)庫(kù)系統(tǒng)數(shù)據(jù)相關(guān)的都至少包含這三大部分:數(shù)據(jù)獲取、處理及存儲(chǔ)、數(shù)據(jù)應(yīng)用。通常情況下為了減少相互間的影響,這三大部分是物理隔離的,貫穿三大層次的是數(shù)據(jù)倉(cāng)庫(kù)系統(tǒng)的管理運(yùn)維。數(shù)據(jù)應(yīng)用數(shù)據(jù)存儲(chǔ)處理數(shù)據(jù)獲取管控運(yùn)維8現(xiàn)在的數(shù)據(jù)倉(cāng)庫(kù)是一種新的范式不同數(shù)據(jù)類(lèi)型、不同結(jié)構(gòu)的數(shù)據(jù)關(guān)聯(lián)起來(lái),滿(mǎn)足客戶(hù)需要;如圖:實(shí)時(shí)數(shù)據(jù)、非結(jié)構(gòu)化數(shù)據(jù)等;實(shí)時(shí)數(shù)據(jù)倉(cāng)庫(kù)以滿(mǎn)足實(shí)時(shí)化&自動(dòng)化決策需求,大數(shù)據(jù)&數(shù)據(jù)湖以支持大量&復(fù)雜數(shù)據(jù)類(lèi)型。9課程目錄數(shù)據(jù)倉(cāng)庫(kù)概述

1.1什么是數(shù)據(jù)倉(cāng)庫(kù)

1.2數(shù)據(jù)倉(cāng)庫(kù)與數(shù)據(jù)庫(kù)

1.3數(shù)據(jù)倉(cāng)庫(kù)系統(tǒng)的組成1.4數(shù)據(jù)倉(cāng)庫(kù)的作用2.數(shù)據(jù)倉(cāng)庫(kù)設(shè)計(jì)與實(shí)現(xiàn)3.數(shù)據(jù)倉(cāng)庫(kù)的數(shù)據(jù)模型4.ETL5.阿里云數(shù)據(jù)倉(cāng)庫(kù)技術(shù)數(shù)據(jù)倉(cāng)庫(kù)的作用數(shù)據(jù)倉(cāng)庫(kù)是將隨著時(shí)間發(fā)生變化的數(shù)據(jù)集成到面向主題的平臺(tái),代表的是一種對(duì)數(shù)據(jù)的管理和使用的方式,其目的是分析數(shù)據(jù)、為企業(yè)提供決策依據(jù)。數(shù)據(jù)倉(cāng)庫(kù)系統(tǒng)的數(shù)據(jù)源自業(yè)務(wù)系統(tǒng),客觀上承載了業(yè)務(wù)系統(tǒng)數(shù)據(jù)查詢(xún)、分析的功能,緩解了業(yè)務(wù)系統(tǒng)的壓力。其作用如下:通過(guò)面向主題的數(shù)據(jù)處理,形成基于優(yōu)化查詢(xún)的組織形式,有效提高數(shù)據(jù)獲取、統(tǒng)計(jì)和分析的效率;海量數(shù)據(jù)的關(guān)聯(lián)查詢(xún)和復(fù)雜查詢(xún)、多維分析、數(shù)據(jù)挖掘成為可能;數(shù)據(jù)倉(cāng)庫(kù)通過(guò)數(shù)據(jù)集成,實(shí)現(xiàn)各種不同數(shù)據(jù)的關(guān)聯(lián)并使多維分析更加方便,為從多角度多層次地?cái)?shù)據(jù)分析和決策制定提供的可能;為歷史數(shù)據(jù)分析、歷史數(shù)據(jù)應(yīng)用提供了保障;為企業(yè)統(tǒng)一的數(shù)據(jù)應(yīng)用和數(shù)據(jù)管理、數(shù)據(jù)資產(chǎn)化、數(shù)據(jù)運(yùn)營(yíng)奠定了基礎(chǔ)。數(shù)據(jù)倉(cāng)庫(kù)的應(yīng)用數(shù)據(jù)倉(cāng)庫(kù)常見(jiàn)應(yīng)用方式:數(shù)據(jù)倉(cāng)庫(kù)數(shù)據(jù)提取數(shù)據(jù)挖掘分析機(jī)器學(xué)習(xí)數(shù)據(jù)分析報(bào)表課程目錄數(shù)據(jù)倉(cāng)庫(kù)概述數(shù)據(jù)倉(cāng)庫(kù)設(shè)計(jì)與實(shí)現(xiàn)2.1數(shù)據(jù)倉(cāng)庫(kù)設(shè)計(jì)原則

2.2數(shù)據(jù)倉(cāng)庫(kù)構(gòu)建模式2.3數(shù)據(jù)倉(cāng)庫(kù)設(shè)計(jì)步驟3.數(shù)據(jù)倉(cāng)庫(kù)的數(shù)據(jù)模型4.ETL5.阿里云數(shù)據(jù)倉(cāng)庫(kù)技術(shù)

數(shù)據(jù)倉(cāng)庫(kù)設(shè)計(jì)原則原則穩(wěn)定統(tǒng)一安全開(kāi)放實(shí)用易用靈活穩(wěn)定:架構(gòu)相對(duì)穩(wěn)定統(tǒng)一:一個(gè)系統(tǒng)、統(tǒng)一的數(shù)據(jù)處理安全:系統(tǒng)安全、數(shù)據(jù)安全開(kāi)放:支持對(duì)外開(kāi)放實(shí)用:滿(mǎn)足不同層次人員需求易用:支持多種手段應(yīng)用靈活:結(jié)構(gòu)靈活擴(kuò)展、適用變化14數(shù)據(jù)倉(cāng)庫(kù)系統(tǒng)設(shè)計(jì)數(shù)據(jù)獲取數(shù)據(jù)存儲(chǔ)數(shù)據(jù)處理數(shù)據(jù)應(yīng)用運(yùn)維管控需求技術(shù)產(chǎn)品15課程目錄數(shù)據(jù)倉(cāng)庫(kù)概述數(shù)據(jù)倉(cāng)庫(kù)設(shè)計(jì)與實(shí)現(xiàn)

2.1數(shù)據(jù)倉(cāng)庫(kù)設(shè)計(jì)原則2.2數(shù)據(jù)倉(cāng)庫(kù)構(gòu)建模式2.3數(shù)據(jù)倉(cāng)庫(kù)設(shè)計(jì)步驟3.數(shù)據(jù)倉(cāng)庫(kù)的數(shù)據(jù)模型4.ETL5.阿里云數(shù)據(jù)倉(cāng)庫(kù)技術(shù)數(shù)據(jù)倉(cāng)庫(kù)構(gòu)建模式自頂向下(集線(xiàn)器結(jié)構(gòu)):根據(jù)企業(yè)的業(yè)務(wù)建模、設(shè)計(jì)數(shù)據(jù)倉(cāng)庫(kù),然后再具體業(yè)務(wù)應(yīng)用。自下向上(總線(xiàn)結(jié)構(gòu)):根據(jù)用戶(hù)的需求通過(guò)螺旋發(fā)展的過(guò)程來(lái)設(shè)計(jì)數(shù)據(jù)倉(cāng)庫(kù)。結(jié)合使用混合結(jié)構(gòu)17數(shù)據(jù)倉(cāng)庫(kù)的兩種理論RalphKimball和BillInmon一直是商業(yè)智能領(lǐng)域中的革新者,開(kāi)發(fā)并測(cè)試了新的技術(shù)和體系結(jié)構(gòu)。都認(rèn)為企業(yè)需要一個(gè)與遺留系統(tǒng)(以前建立的業(yè)務(wù)系統(tǒng))和OLTP系統(tǒng)分開(kāi)的數(shù)據(jù)倉(cāng)庫(kù)?;诙叩睦碚撔纬蓛煞N構(gòu)建數(shù)據(jù)倉(cāng)庫(kù)的模式:RalphKimball的看法:“數(shù)據(jù)倉(cāng)庫(kù)僅僅是構(gòu)成它的數(shù)據(jù)集市的聯(lián)合,可以通過(guò)一系列維數(shù)相同的數(shù)據(jù)集市遞增地構(gòu)建數(shù)據(jù)倉(cāng)庫(kù)”。每個(gè)數(shù)據(jù)集市將聯(lián)合多個(gè)數(shù)據(jù)源來(lái)滿(mǎn)足特定的業(yè)務(wù)需求。通過(guò)使用“一致的”維,能夠共同看到不同數(shù)據(jù)集市中的信息,這表示它們擁有公共定義的元素。

BillInmon將數(shù)據(jù)倉(cāng)庫(kù)定義為“一個(gè)面向主題的、集成的、隨時(shí)間變化的、非易變的用于支持管理的決策過(guò)程的數(shù)據(jù)集合;通過(guò)“面向主題”表示應(yīng)該圍繞主題來(lái)組織數(shù)據(jù)倉(cāng)庫(kù)中的數(shù)據(jù),每個(gè)主題區(qū)域僅僅包含該主題相關(guān)的信息。數(shù)據(jù)倉(cāng)庫(kù)應(yīng)該一次增加一個(gè)主題,并且當(dāng)需要容易地訪(fǎng)問(wèn)多個(gè)主題時(shí),應(yīng)該創(chuàng)建以數(shù)據(jù)倉(cāng)庫(kù)為來(lái)源的數(shù)據(jù)集市。18構(gòu)建模式比較企業(yè)構(gòu)建數(shù)據(jù)倉(cāng)庫(kù)還是構(gòu)建部門(mén)級(jí)別數(shù)據(jù)集市然后再見(jiàn)數(shù)據(jù)倉(cāng)庫(kù)的選擇取決于項(xiàng)目的主要商業(yè)驅(qū)動(dòng)。先建倉(cāng)庫(kù)先建集市周期長(zhǎng)、前期成本高、基礎(chǔ)好、再建立集市方便不能解決當(dāng)前的問(wèn)題,長(zhǎng)遠(yuǎn)目標(biāo)周期短、見(jiàn)效快、基礎(chǔ)不牢固、再建數(shù)據(jù)倉(cāng)庫(kù)還需較大成本能解決當(dāng)前的問(wèn)題,近期目標(biāo)19課程目錄數(shù)據(jù)倉(cāng)庫(kù)概述數(shù)據(jù)倉(cāng)庫(kù)設(shè)計(jì)與實(shí)現(xiàn)

2.1數(shù)據(jù)倉(cāng)庫(kù)設(shè)計(jì)原則

2.2數(shù)據(jù)倉(cāng)庫(kù)構(gòu)建模式

2.3數(shù)據(jù)倉(cāng)庫(kù)設(shè)計(jì)步驟3.數(shù)據(jù)倉(cāng)庫(kù)的數(shù)據(jù)模型4.ETL5.阿里云數(shù)據(jù)倉(cāng)庫(kù)技術(shù)數(shù)據(jù)倉(cāng)庫(kù)建設(shè)需求階段規(guī)劃設(shè)計(jì)階段實(shí)施階段運(yùn)行維護(hù)數(shù)據(jù)倉(cāng)庫(kù)設(shè)計(jì)廣義上講數(shù)據(jù)倉(cāng)庫(kù)的設(shè)計(jì)包括數(shù)據(jù)倉(cāng)庫(kù)的設(shè)計(jì)以及數(shù)據(jù)倉(cāng)庫(kù)應(yīng)用的設(shè)計(jì),數(shù)據(jù)倉(cāng)庫(kù)應(yīng)用完全依賴(lài)數(shù)據(jù)倉(cāng)庫(kù),從流程上講包括數(shù)據(jù)倉(cāng)庫(kù)的規(guī)劃、設(shè)計(jì)和實(shí)施。數(shù)據(jù)倉(cāng)庫(kù)系統(tǒng)設(shè)計(jì)任務(wù):規(guī)劃與確定需求概念與邏輯模型體系架構(gòu)設(shè)計(jì)元數(shù)據(jù)架構(gòu)設(shè)計(jì)物理模型設(shè)計(jì)數(shù)據(jù)倉(cāng)庫(kù)生成數(shù)據(jù)倉(cāng)庫(kù)應(yīng)用數(shù)據(jù)倉(cāng)庫(kù)運(yùn)行維護(hù)21數(shù)據(jù)倉(cāng)庫(kù)設(shè)計(jì)方法論系統(tǒng)架構(gòu)設(shè)計(jì)是“戰(zhàn)略”、系統(tǒng)級(jí)別的:抓大放小,不拘細(xì)節(jié);概要設(shè)計(jì)是“戰(zhàn)役”,指導(dǎo)具體模塊(主題域)或子系統(tǒng)的,但并未明細(xì)到每一個(gè)實(shí)體的每個(gè)屬性信息;詳細(xì)設(shè)計(jì)則是在概要設(shè)計(jì)的基礎(chǔ)上確定細(xì)化個(gè)各類(lèi)組件的功能、邏輯流程、業(yè)務(wù)要求、組件接口;數(shù)據(jù)倉(cāng)庫(kù)的設(shè)計(jì)就是一個(gè)層級(jí)推進(jìn)、逐步細(xì)化的過(guò)程。采用“自底向上”和“自頂向下”相結(jié)合的設(shè)計(jì)方法。自底向上:完全依賴(lài)企業(yè)的業(yè)務(wù)情況、數(shù)據(jù)情況設(shè)計(jì)數(shù)據(jù)倉(cāng)庫(kù),即”數(shù)據(jù)+業(yè)務(wù)驅(qū)動(dòng)”設(shè)計(jì)數(shù)據(jù)倉(cāng)庫(kù);自頂向下:從需求出發(fā)設(shè)計(jì)數(shù)據(jù)倉(cāng)庫(kù)即“需求驅(qū)動(dòng)”;22設(shè)計(jì)步驟系統(tǒng)架構(gòu)設(shè)計(jì)概要設(shè)計(jì)詳細(xì)設(shè)計(jì)設(shè)計(jì)實(shí)現(xiàn)相關(guān)資料信息如需求、業(yè)務(wù)知識(shí)總體規(guī)劃23課程目錄數(shù)據(jù)倉(cāng)庫(kù)概述數(shù)據(jù)倉(cāng)庫(kù)設(shè)計(jì)與實(shí)現(xiàn)數(shù)據(jù)倉(cāng)庫(kù)的數(shù)據(jù)模型3.1概念模型

3.2邏輯模型3.3物理模型4.ETL5.阿里云數(shù)據(jù)倉(cāng)庫(kù)技術(shù)數(shù)據(jù)倉(cāng)庫(kù)數(shù)據(jù)模型現(xiàn)實(shí)世界概念模型邏輯模型物理模型數(shù)據(jù)倉(cāng)庫(kù)維度模型元數(shù)據(jù)模型25設(shè)計(jì)方法:第一步在建模之前定義數(shù)據(jù)模型的邊界第二步然后建立企業(yè)內(nèi)不同群體的實(shí)體-聯(lián)系模型第三步最后進(jìn)行集成企業(yè)的總體概念模型第三步概念模型設(shè)計(jì)26E-R圖的描述方法:1矩形表示實(shí)體,在數(shù)據(jù)倉(cāng)庫(kù)中表示主題,在矩形框內(nèi)寫(xiě)上主題名。2橢圓形表示主題的屬性,并用無(wú)向邊把主題與其屬性連接起來(lái)。3菱形表示主題之間的聯(lián)系,菱形框內(nèi)寫(xiě)上聯(lián)系的名字。概念模型設(shè)計(jì)27概念模型設(shè)計(jì)注意事項(xiàng):描述數(shù)據(jù)細(xì)節(jié)數(shù)據(jù)用戶(hù)感興趣的分析數(shù)據(jù)操作性數(shù)據(jù)注意事項(xiàng)1數(shù)據(jù)的歷史變遷性注意事項(xiàng)2數(shù)據(jù)的概括性注意事項(xiàng)3概念模型設(shè)計(jì)28課程目錄數(shù)據(jù)倉(cāng)庫(kù)概述數(shù)據(jù)倉(cāng)庫(kù)設(shè)計(jì)與實(shí)現(xiàn)數(shù)據(jù)倉(cāng)庫(kù)的數(shù)據(jù)模型

3.1概念模型3.2邏輯模型3.3物理模型4.ETL5.阿里云數(shù)據(jù)倉(cāng)庫(kù)技術(shù)邏輯模型設(shè)計(jì)數(shù)據(jù)倉(cāng)庫(kù)的邏輯模型設(shè)計(jì)對(duì)概念模型的各個(gè)主題域進(jìn)行細(xì)化,根據(jù)業(yè)務(wù)定義、分類(lèi)和規(guī)則,定義其中的實(shí)體并描述實(shí)體之間的關(guān)系,并產(chǎn)生實(shí)體關(guān)系圖(ERD),然后遵照規(guī)范化思想在實(shí)體關(guān)系的基礎(chǔ)上明確各個(gè)實(shí)體的屬性的過(guò)程。30邏輯模型設(shè)計(jì)方法數(shù)據(jù)倉(cāng)庫(kù)邏輯模型設(shè)計(jì)常見(jiàn)的方法:三范式建模和維度建模,嚴(yán)格說(shuō)都屬于ER關(guān)系建模。邏輯模型與實(shí)體-關(guān)系建模之間的關(guān)系實(shí)體-聯(lián)系圖是代表企業(yè)中每一個(gè)可能的業(yè)務(wù)過(guò)程,一個(gè)實(shí)體-聯(lián)系圖可以拆分成多個(gè)維表、事實(shí)表構(gòu)成的邏輯模型。將E-R圖轉(zhuǎn)換成維度建模時(shí)的步驟是:(1)將E-R圖分成獨(dú)立的業(yè)務(wù)處理,然后對(duì)每個(gè)業(yè)務(wù)處理單獨(dú)建模(2)在E-R圖中,對(duì)包含數(shù)字型事實(shí),將他們?cè)O(shè)計(jì)成各個(gè)事實(shí)表。(3)將剩下的實(shí)體進(jìn)行非規(guī)范化處理,設(shè)計(jì)成維表。31邏輯模型設(shè)計(jì)——星形模型事實(shí)表維度表主要包含了描述特定商業(yè)事件的數(shù)據(jù),即某些特定商業(yè)事件的度量值。一般情況下,事實(shí)表中的數(shù)據(jù)不允許修改,新的數(shù)據(jù)只是簡(jiǎn)單地添加進(jìn)事實(shí)表中。主要包含了存儲(chǔ)在事實(shí)表中數(shù)據(jù)的特征數(shù)據(jù)。每一個(gè)維度表利用維度關(guān)鍵字通過(guò)事實(shí)表中的外鍵約束于事實(shí)表中的某一行要求事實(shí)表中的外鍵不能為空,這與一般數(shù)據(jù)庫(kù)中外鍵允許為空是不同的。星形模式通過(guò)使用一個(gè)包含主題的事實(shí)表和多個(gè)維度表來(lái)支持各種決策查詢(xún)。32邏輯模型設(shè)計(jì)——雪花模型雪花模型是對(duì)星形模型的擴(kuò)展,每一個(gè)維度都可以向外連接多個(gè)詳細(xì)類(lèi)別表。在這種模式中,維度表除了具有星形模型中維度表的功能外,還連接對(duì)事實(shí)表進(jìn)行詳細(xì)描述的詳細(xì)類(lèi)別表,詳細(xì)類(lèi)別表通過(guò)對(duì)事實(shí)表在有關(guān)維上的詳細(xì)描述達(dá)到了縮小事實(shí)表和提高查詢(xún)效率的目的。雪花模型架構(gòu)示意圖:事實(shí)表維度表維度表維度表維度表維度表詳細(xì)類(lèi)別表詳細(xì)類(lèi)別表33邏輯模型設(shè)計(jì)——星座模型一個(gè)復(fù)雜的商業(yè)智能應(yīng)用往往會(huì)在數(shù)據(jù)倉(cāng)庫(kù)中存放多個(gè)事實(shí)表,這時(shí)就會(huì)出現(xiàn)多個(gè)事實(shí)表共享某一個(gè)或多個(gè)維表的情況,這就是事實(shí)星座,也稱(chēng)為星系模型(galaxyschema)。數(shù)據(jù)倉(cāng)庫(kù)由于是企業(yè)范圍的,能對(duì)多個(gè)相關(guān)的主題建模,所以在設(shè)計(jì)其數(shù)據(jù)構(gòu)成時(shí)一般采用星系模式。而數(shù)據(jù)集市是部門(mén)級(jí)的,具有選定的主題,可以采用星形或雪花模型。34課程目錄數(shù)據(jù)倉(cāng)庫(kù)概述數(shù)據(jù)倉(cāng)庫(kù)設(shè)計(jì)與實(shí)現(xiàn)數(shù)據(jù)倉(cāng)庫(kù)的數(shù)據(jù)模型

3.1概念模型

3.2邏輯模型

3.3物理模型4.ETL5.阿里云數(shù)據(jù)倉(cāng)庫(kù)技術(shù)物理模型設(shè)計(jì)數(shù)據(jù)倉(cāng)庫(kù)的物理數(shù)據(jù)模型就是邏輯數(shù)據(jù)模型在數(shù)據(jù)倉(cāng)庫(kù)中的實(shí)現(xiàn):36物理模型設(shè)計(jì)目標(biāo)物理模型設(shè)計(jì)是依據(jù)邏輯模型針對(duì)具體的分析需求和物理平臺(tái)采取相應(yīng)的優(yōu)化策略,是一種反規(guī)范化的處理。確定命名規(guī)范、數(shù)據(jù)類(lèi)型規(guī)范等實(shí)體表設(shè)計(jì)完成由邏輯模型到物理模型的轉(zhuǎn)換確定數(shù)據(jù)架構(gòu)目標(biāo):1)確定數(shù)據(jù)存儲(chǔ)結(jié)構(gòu)2)索引策略3)數(shù)據(jù)存放位置、存儲(chǔ)分配注:支撐平臺(tái)不同,物理結(jié)構(gòu)不同物理模型設(shè)計(jì)目標(biāo)37在物理設(shè)計(jì)時(shí),常常要按數(shù)據(jù)的重要性、使用頻率及對(duì)反應(yīng)時(shí)間的要求進(jìn)行分類(lèi),并將不同類(lèi)型的數(shù)據(jù)分別存儲(chǔ)在不同的存儲(chǔ)設(shè)備中。2存取頻率低或?qū)Υ嫒№憫?yīng)時(shí)間要求低的數(shù)據(jù)則可以存放在低速存儲(chǔ)設(shè)備上。物理模型設(shè)計(jì)——設(shè)計(jì)存儲(chǔ)結(jié)構(gòu)1重要性高、經(jīng)常存取并對(duì)反應(yīng)時(shí)間要求高的數(shù)據(jù)存放在高速存儲(chǔ)設(shè)備上;38數(shù)據(jù)倉(cāng)庫(kù)的性能和存儲(chǔ)空間是一對(duì)矛盾:粒度太小則事實(shí)表將不得不記錄所有的細(xì)節(jié),儲(chǔ)存數(shù)據(jù)所需要的空間將會(huì)急劇的膨脹粒度太大決策者不能觀察細(xì)節(jié)數(shù)據(jù)物理模型設(shè)計(jì)——粒度設(shè)計(jì)LOREMA粗略估計(jì)確定粒度個(gè)數(shù)B確定粒度級(jí)別C39創(chuàng)建事實(shí)數(shù)據(jù)表和維度表,并在所有表中的主要字段上建立索引。星型架構(gòu)由單個(gè)事實(shí)數(shù)據(jù)表和一些維度表組成。雪花型架構(gòu)增加了次要維度表把所有的邏輯模型中的實(shí)體和屬性都物理化為字段具體的表結(jié)構(gòu),字段結(jié)構(gòu)和字段長(zhǎng)度模型實(shí)現(xiàn)-創(chuàng)建數(shù)據(jù)倉(cāng)庫(kù)數(shù)據(jù)庫(kù)40課程目錄數(shù)據(jù)倉(cāng)庫(kù)概述數(shù)據(jù)倉(cāng)庫(kù)設(shè)計(jì)與實(shí)現(xiàn)數(shù)據(jù)倉(cāng)庫(kù)的數(shù)據(jù)模型ETL4.1數(shù)據(jù)抽取

4.2數(shù)據(jù)轉(zhuǎn)換

4.3數(shù)據(jù)加載5.阿里云數(shù)據(jù)倉(cāng)庫(kù)技術(shù)ETL過(guò)程數(shù)據(jù)倉(cāng)庫(kù)的ETL過(guò)程是數(shù)據(jù)處理過(guò)程,通常講其輸入是數(shù)據(jù)倉(cāng)庫(kù)的數(shù)據(jù)源系統(tǒng)或數(shù)據(jù)源文件,輸出是數(shù)據(jù)倉(cāng)庫(kù)。42什么是ETL43目標(biāo)數(shù)據(jù)庫(kù)清洗轉(zhuǎn)換抽取裝載源數(shù)據(jù)庫(kù)源文件其他ETL是Extract、Transform、Loading三個(gè)字母的縮寫(xiě),即抽取、轉(zhuǎn)換、裝載。ETL過(guò)程的分類(lèi)與作用

數(shù)據(jù)倉(cāng)庫(kù)的架構(gòu)大體可以分為三部分:后臺(tái)是數(shù)據(jù)存儲(chǔ)和計(jì)算引擎;前端是展示分析流程或分析結(jié)果的界面;另一部分就是ETL。ETL前端分析或結(jié)果展示后臺(tái)數(shù)據(jù)存儲(chǔ)與計(jì)算引擎ETL過(guò)程可以被劃分為兩種類(lèi)型:全量ETL過(guò)程和增量ETL過(guò)程。全量ETL過(guò)程一般用于數(shù)據(jù)倉(cāng)庫(kù)的初始化,而增量ETL過(guò)程則用于數(shù)據(jù)倉(cāng)庫(kù)的增量維護(hù)。相對(duì)于全量ETL過(guò)程而言,增量ETL過(guò)程設(shè)計(jì)更復(fù)雜。ETL主要作用:屏蔽了復(fù)雜的業(yè)務(wù)邏輯從而為各種基于數(shù)據(jù)倉(cāng)庫(kù)的分析和應(yīng)用提供了統(tǒng)一的數(shù)據(jù)接口,這正是構(gòu)建數(shù)據(jù)倉(cāng)庫(kù)的重要目的。44數(shù)據(jù)抽取全量抽取增量抽取數(shù)據(jù)抽取數(shù)據(jù)抽?。簭脑次募驮磾?shù)據(jù)庫(kù)中獲取相關(guān)數(shù)據(jù)用于填充數(shù)據(jù)倉(cāng)庫(kù)。并非所有包含在不同操作型業(yè)務(wù)系統(tǒng)中的數(shù)據(jù)都需要抽取;抽取數(shù)據(jù)的一個(gè)子集是基于對(duì)源系統(tǒng)和目標(biāo)系統(tǒng)的擴(kuò)展分析,一般會(huì)由終端用戶(hù)和數(shù)據(jù)倉(cāng)庫(kù)專(zhuān)家共同決定。

全量抽?。侯?lèi)似于數(shù)據(jù)遷移或數(shù)據(jù)復(fù)制,它將數(shù)據(jù)源中的表或視圖的數(shù)據(jù)全部從數(shù)據(jù)庫(kù)中抽取出來(lái),再進(jìn)行后續(xù)的轉(zhuǎn)換和加載操作。一般數(shù)倉(cāng)進(jìn)行初始化時(shí)進(jìn)行全量抽取。增量抽?。喝砍槿⊥瓿珊?,后續(xù)的抽取操作只需抽取自上次抽取以來(lái)表中新增或修改的數(shù)據(jù)。45ETL增量抽取機(jī)制

目前增量數(shù)據(jù)抽取中常用的捕獲變化數(shù)據(jù)的方法主要有以下幾種:1、觸發(fā)器方式觸發(fā)器方式是普遍采取的一種增量抽取機(jī)制。該方式是根據(jù)抽取要求,在要被抽取的源表上建立插入、修改、刪除3個(gè)觸發(fā)器,每當(dāng)源表中的數(shù)據(jù)發(fā)生變化,就被相應(yīng)的觸發(fā)器將變化的數(shù)據(jù)寫(xiě)入一個(gè)增量日志表,ETL的增量抽取則是從增量日志表中而不是直接在源表中抽取數(shù)據(jù),同時(shí)增量日志表中抽取過(guò)的數(shù)據(jù)要及時(shí)被標(biāo)記或刪除。46ETL增量抽取機(jī)制2.時(shí)間戳方式時(shí)間戳方式是指增量抽取時(shí),抽取進(jìn)程通過(guò)比較系統(tǒng)時(shí)間與抽取源表的時(shí)間戳字段的值來(lái)決定抽取哪些數(shù)據(jù)。這種方式需要在源表上增加一個(gè)時(shí)間戳字段,系統(tǒng)中更新修改表數(shù)據(jù)的時(shí)候,同時(shí)修改時(shí)間戳字段的值。有的數(shù)據(jù)庫(kù)(例如SqlServer)的時(shí)間戳支持自動(dòng)更新,即表的其它字段的數(shù)據(jù)發(fā)生改變時(shí),時(shí)間戳字段的值會(huì)被自動(dòng)更新為記錄改變的時(shí)刻。在這種情況下,進(jìn)行ETL實(shí)施時(shí)就只需要在源表加上時(shí)間戳字段就可以了。對(duì)于不支持時(shí)間戳自動(dòng)更新的數(shù)據(jù)庫(kù),這就要求業(yè)務(wù)系統(tǒng)在更新業(yè)務(wù)數(shù)據(jù)時(shí),通過(guò)編程的方式手工更新時(shí)間戳字段。使用時(shí)間戳方式可以正常捕獲源表的插入和更新操作,但對(duì)于刪除操作則無(wú)能為力,需要結(jié)合其它機(jī)制才能完成。47ETL增量抽取機(jī)制3.全表刪除插入方式全表刪除插入方式是指每次抽取前先刪除目標(biāo)表數(shù)據(jù),抽取時(shí)全新加載數(shù)據(jù)。該方式實(shí)際上將增量抽取等同于全量抽取。對(duì)于數(shù)據(jù)量不大,全量抽取的時(shí)間代價(jià)小于執(zhí)行增量抽取的算法和條件代價(jià)時(shí),可以采用該方式。4.全表比對(duì)方式全表比對(duì)即在增量抽取時(shí),ETL進(jìn)程逐條比較源表和目標(biāo)表的記錄,將新增和修改的記錄讀取出來(lái)。5.日志表方式

對(duì)于建立了業(yè)務(wù)系統(tǒng)的生產(chǎn)數(shù)據(jù)庫(kù),可以在數(shù)據(jù)庫(kù)中創(chuàng)建業(yè)務(wù)日志表,當(dāng)特定需要監(jiān)控的業(yè)務(wù)數(shù)據(jù)發(fā)生變化時(shí),由相應(yīng)的業(yè)務(wù)系統(tǒng)程序模塊來(lái)更新維護(hù)日志表內(nèi)容。增量抽取時(shí),通過(guò)讀日志表數(shù)據(jù)決定加載哪些數(shù)據(jù)及如何加載。日志表的維護(hù)需要由業(yè)務(wù)系統(tǒng)程序用代碼來(lái)完成。48課程目錄數(shù)據(jù)倉(cāng)庫(kù)概述數(shù)據(jù)倉(cāng)庫(kù)設(shè)計(jì)與實(shí)現(xiàn)數(shù)據(jù)倉(cāng)庫(kù)的數(shù)據(jù)模型ETL

4.1數(shù)據(jù)抽取4.2數(shù)據(jù)轉(zhuǎn)換

4.3數(shù)據(jù)加載5.阿里云數(shù)據(jù)倉(cāng)庫(kù)技術(shù)數(shù)據(jù)轉(zhuǎn)換

數(shù)據(jù)轉(zhuǎn)換指接收來(lái)自不同運(yùn)作系統(tǒng)的輸入并將其轉(zhuǎn)換成目標(biāo)數(shù)據(jù)倉(cāng)庫(kù)中需要的格式的過(guò)程,包括數(shù)據(jù)的合并、匯總、過(guò)濾、轉(zhuǎn)換等。

在設(shè)計(jì)數(shù)據(jù)轉(zhuǎn)換時(shí),由于數(shù)據(jù)源之間往往存在著不一致的問(wèn)題,因此數(shù)據(jù)轉(zhuǎn)換必須做到數(shù)據(jù)名稱(chēng)及格式的統(tǒng)一,同時(shí)對(duì)于源數(shù)據(jù)庫(kù)中可能不存在的數(shù)據(jù)需要?jiǎng)?chuàng)建新的數(shù)據(jù)邏輯視圖并進(jìn)行相應(yīng)的轉(zhuǎn)換。轉(zhuǎn)換常見(jiàn)的三種方式:1)源系統(tǒng)根據(jù)規(guī)則處理2)ETL工具處理3)入庫(kù)后倉(cāng)庫(kù)自行處理轉(zhuǎn)換源系統(tǒng)負(fù)責(zé)處理ETL過(guò)程倉(cāng)庫(kù)入庫(kù)后處理50數(shù)據(jù)轉(zhuǎn)換中的處理1字符串處理。從數(shù)據(jù)源的字符串字段中獲取特定信息作為目標(biāo)數(shù)據(jù)庫(kù)的某個(gè)字段,則對(duì)字符串的操作有類(lèi)型轉(zhuǎn)換、字符串截取等。由于字符類(lèi)型字段的隨意性也可能造成臟數(shù)據(jù)的出現(xiàn),所以在處理這種規(guī)則的時(shí)候,需要異常處理。2直接映射。數(shù)據(jù)源字段和目標(biāo)字段長(zhǎng)度或精度相同,則無(wú)需做任何處理。3字段運(yùn)算。對(duì)于數(shù)值型字段來(lái)說(shuō),有時(shí)數(shù)據(jù)源的一個(gè)或多個(gè)字段進(jìn)行數(shù)學(xué)運(yùn)算而得到目標(biāo)字段,則需要某些字段運(yùn)算。4空值判斷。對(duì)于數(shù)據(jù)源字段中的NULL值,可能在目標(biāo)數(shù)據(jù)庫(kù)進(jìn)行分析處理時(shí)會(huì)出問(wèn)題,因此必須對(duì)空值進(jìn)行判斷,并轉(zhuǎn)換成特定的值。51數(shù)據(jù)轉(zhuǎn)換中的處理5日期轉(zhuǎn)換。由于目標(biāo)數(shù)據(jù)庫(kù)中的日期類(lèi)型格式是統(tǒng)一的,所以對(duì)數(shù)據(jù)源字段的日期格式需要相應(yīng)的轉(zhuǎn)換。6聚集運(yùn)算。對(duì)于目標(biāo)數(shù)據(jù)庫(kù)事實(shí)表中的一些度量字段,通常需要通過(guò)數(shù)據(jù)源一個(gè)或多個(gè)字段運(yùn)用聚集函數(shù)進(jìn)行聚集運(yùn)算得來(lái),常用的聚集函數(shù)有:sum.count,avg,min,max。7既定取值。這條規(guī)則對(duì)于目標(biāo)字段取一個(gè)固定的或是依賴(lài)系統(tǒng)的值,而不依賴(lài)于數(shù)據(jù)源字段。52數(shù)據(jù)轉(zhuǎn)換中的處理-數(shù)據(jù)清洗“臟數(shù)據(jù)”即數(shù)據(jù)有空缺、噪聲等缺陷,而且在數(shù)據(jù)倉(cāng)庫(kù)的各數(shù)據(jù)源之間,其內(nèi)容也可能存在著不一致的現(xiàn)象這也稱(chēng)之為“臟數(shù)據(jù)”。對(duì)這些數(shù)據(jù)的處理過(guò)程稱(chēng)之為“數(shù)據(jù)清洗”(DataCleaning)。常見(jiàn)處理方法:數(shù)據(jù)空缺通常采用忽略元組、用一個(gè)全局常量填充空缺值、用屬性的平均值填充空缺值、使用與給定元組同類(lèi)的所有樣本的平均值填充空缺值、使用最可能的值填充空缺值、使用像Bayesian公式或判定樹(shù)這樣的基于推斷的方法;噪聲數(shù)據(jù)可以用分箱或聚類(lèi)等方法處理;而對(duì)于不一致的數(shù)據(jù),則必須依據(jù)數(shù)據(jù)倉(cāng)庫(kù)所應(yīng)用領(lǐng)域的特點(diǎn),使用特定的方法加以解決。數(shù)據(jù)不一致則需要根據(jù)具體的業(yè)務(wù)場(chǎng)景來(lái)采取不同的處理方法,如通信公司在CRM系統(tǒng)中存在客戶(hù)資料信息,在計(jì)費(fèi)系統(tǒng)中也存在客戶(hù)資料信息,二者數(shù)據(jù)沖突,根據(jù)“誰(shuí)管理誰(shuí)負(fù)責(zé)”的原則,認(rèn)為CRM系統(tǒng)的客戶(hù)信息是準(zhǔn)確可靠的。53課程目錄數(shù)據(jù)倉(cāng)庫(kù)概述數(shù)據(jù)倉(cāng)庫(kù)設(shè)計(jì)與實(shí)現(xiàn)數(shù)據(jù)倉(cāng)庫(kù)的數(shù)據(jù)模型ETL

4.1數(shù)據(jù)抽取

4.2數(shù)據(jù)轉(zhuǎn)換

4.3數(shù)據(jù)加載5.阿里云數(shù)據(jù)倉(cāng)庫(kù)技術(shù)數(shù)據(jù)加載

數(shù)據(jù)加載負(fù)責(zé)將經(jīng)過(guò)前幾步清洗和轉(zhuǎn)換后的數(shù)據(jù)按照目標(biāo)數(shù)據(jù)庫(kù)元數(shù)據(jù)定義的表結(jié)構(gòu)裝入數(shù)據(jù)倉(cāng)庫(kù)。加載數(shù)據(jù)到目標(biāo)數(shù)據(jù)倉(cāng)庫(kù)的兩個(gè)基本方式是刷新方式和更新方式。數(shù)據(jù)加載刷新更新采用在定期的間隔對(duì)目標(biāo)數(shù)據(jù)

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶(hù)所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶(hù)上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶(hù)上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶(hù)因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論