版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
第3講數(shù)據(jù)倉(cāng)庫(kù)中的數(shù)據(jù)及組織1數(shù)據(jù)倉(cāng)庫(kù)產(chǎn)生的原因數(shù)據(jù)處理的類型操作型處理(OLTP):數(shù)據(jù)的收集、整理、存儲(chǔ)、查詢和增、刪、改操作。分析型處理(OLAP):數(shù)據(jù)的再加工,往往要訪問大量的歷史數(shù)據(jù),進(jìn)行復(fù)雜的統(tǒng)計(jì)分析。2數(shù)據(jù)倉(cāng)庫(kù)的四個(gè)基本特征:數(shù)據(jù)倉(cāng)庫(kù)的數(shù)據(jù)是面向主題的(SubjectOriented);數(shù)據(jù)倉(cāng)庫(kù)的數(shù)據(jù)時(shí)集成的(Integrate);數(shù)據(jù)倉(cāng)庫(kù)的數(shù)據(jù)不可更新(Non-Volatile);數(shù)據(jù)倉(cāng)庫(kù)的數(shù)據(jù)時(shí)隨時(shí)間不斷變化(TimeVariant)的。
數(shù)據(jù)倉(cāng)庫(kù)的基本概念3數(shù)據(jù)倉(cāng)庫(kù)的體系結(jié)構(gòu)4數(shù)據(jù)庫(kù)和數(shù)據(jù)倉(cāng)庫(kù)兩層體系結(jié)構(gòu)(DB-DW)并不能涵蓋企業(yè)所有的數(shù)據(jù)處理要求。某些應(yīng)用既不是純粹的聯(lián)機(jī)事務(wù)處理,又不是高層決策分析。什么是ODS5ODS的定義及特點(diǎn)定義:是用于支持企業(yè)日常的全局應(yīng)用的數(shù)據(jù)集合。ODS中的數(shù)據(jù)具有4各基本特征:面向主題的、集成的、可更新的、數(shù)據(jù)是當(dāng)前或接近當(dāng)前的。ODS中只存放當(dāng)前或接近當(dāng)前的數(shù)據(jù),并且可以進(jìn)行聯(lián)機(jī)修改,包括增、刪、改等操作。6DW與ODS面向不同的用戶、不同的需求,都有其不可替代的作用,彼此間不是相互包含的,同時(shí)兩者又可以相互結(jié)合、相互補(bǔ)充。DBDBDBODSDW應(yīng)用操作型環(huán)境分析型環(huán)境三層體系結(jié)構(gòu)73.1數(shù)據(jù)倉(cāng)庫(kù)中的數(shù)據(jù)組織3.2數(shù)據(jù)倉(cāng)庫(kù)中數(shù)據(jù)的追加3.3數(shù)據(jù)倉(cāng)庫(kù)中的元數(shù)據(jù)8數(shù)據(jù)倉(cāng)庫(kù)中存儲(chǔ)兩類數(shù)據(jù):業(yè)務(wù)數(shù)據(jù)和元數(shù)據(jù)3.1數(shù)據(jù)倉(cāng)庫(kù)中的數(shù)據(jù)組織9數(shù)據(jù)倉(cāng)庫(kù)的體系結(jié)構(gòu)10數(shù)據(jù)倉(cāng)庫(kù)中存存儲(chǔ)的數(shù)據(jù)3.1數(shù)據(jù)倉(cāng)倉(cāng)庫(kù)中的數(shù)據(jù)據(jù)組織后備數(shù)據(jù)后備數(shù)據(jù)后備數(shù)據(jù)高度綜合級(jí)輕度綜合級(jí)當(dāng)前細(xì)節(jié)級(jí)早期細(xì)節(jié)級(jí)元數(shù)據(jù)11源數(shù)據(jù)經(jīng)過過抽取、轉(zhuǎn)轉(zhuǎn)換后,首首先進(jìn)入當(dāng)前細(xì)節(jié)級(jí)級(jí),再根據(jù)具具體需要進(jìn)進(jìn)行進(jìn)一步步的綜合,,從而進(jìn)入入輕度綜合級(jí)級(jí)乃至高度綜合級(jí)級(jí)。老化的數(shù)據(jù)據(jù)進(jìn)入早期細(xì)節(jié)級(jí)級(jí)。3.1數(shù)據(jù)據(jù)倉(cāng)庫(kù)中的的數(shù)據(jù)組織織12數(shù)據(jù)組織的的實(shí)例3.1數(shù)據(jù)據(jù)倉(cāng)庫(kù)中的的數(shù)據(jù)組織織數(shù)據(jù)倉(cāng)庫(kù)層后備數(shù)據(jù)后備數(shù)據(jù)后備數(shù)據(jù)高度綜合級(jí)輕度綜合級(jí)當(dāng)前細(xì)節(jié)級(jí)早期細(xì)節(jié)級(jí)2015每“月”電話呼叫情況信息2015每“天”電話呼叫情況信息2015每個(gè)電話呼叫情況信息2010~2014電話呼叫明細(xì)情況信息131)數(shù)據(jù)粒粒度數(shù)據(jù)粒度是是數(shù)據(jù)倉(cāng)庫(kù)庫(kù)的重要概概念。存在在兩種形式式,形式一:粒度是對(duì)數(shù)數(shù)據(jù)倉(cāng)庫(kù)中中數(shù)據(jù)的綜綜合程度高高低的一個(gè)個(gè)度量。粒度越小,,細(xì)節(jié)程度度越高,綜綜合程度越越低。14不同的情況況組織數(shù)據(jù)據(jù)的粒度會(huì)會(huì)不同。如:電信通話細(xì)節(jié)數(shù)據(jù)::記錄每一次通話情況。。輕度綜合數(shù)數(shù)據(jù):記錄錄顧客每天的通話情況況。高度綜合數(shù)數(shù)據(jù):記錄錄顧客每月的通話情況況。1)數(shù)據(jù)粒粒度15超市購(gòu)物細(xì)節(jié)數(shù)據(jù)::記錄顧客客每一次購(gòu)物細(xì)節(jié)。。輕度綜合數(shù)數(shù)據(jù):記錄錄每個(gè)顧客客每次的購(gòu)物物金額,或每種商商品每一天的銷銷售數(shù)據(jù)。高度綜合數(shù)數(shù)據(jù):記錄錄每個(gè)顧客客每月或每年年的購(gòu)物金額額,或每種種商品每月或每年年的銷售數(shù)據(jù)據(jù)。1)數(shù)據(jù)粒粒度161)數(shù)據(jù)粒粒度數(shù)據(jù)粒度的的確定是業(yè)業(yè)務(wù)分析、、硬件、軟軟件的一個(gè)個(gè)折中。在數(shù)據(jù)倉(cāng)庫(kù)庫(kù)中多重粒度是必不可少少的171)數(shù)據(jù)粒粒度數(shù)據(jù)粒度是是數(shù)據(jù)倉(cāng)庫(kù)庫(kù)的重要概概念。存在在兩種形式式,形式二:樣本數(shù)據(jù)庫(kù)庫(kù),其粒度度是根據(jù)采樣率的高低來劃劃分的。蓋洛普民意意測(cè)驗(yàn)是一一種觀點(diǎn)的的民意測(cè)驗(yàn)驗(yàn),其特點(diǎn)點(diǎn)是用簡(jiǎn)單單的隨機(jī)取取樣法并且且試圖把偏偏差度保持持在最低。。182)數(shù)據(jù)分分割數(shù)據(jù)分割是是數(shù)據(jù)倉(cāng)庫(kù)庫(kù)中的另一一個(gè)重要概概念。它是指將數(shù)數(shù)據(jù)分布到到各自的物物理單元中中,以便能能分別獨(dú)立立處理,提高數(shù)據(jù)分分析效率。數(shù)據(jù)分割后后的數(shù)據(jù)單元稱稱為分片。19MySQLMySQLMySQLMySQLMySQLMySQLMySQLMySQLMySQLMySQLMySQLMySQLMySQL202)數(shù)據(jù)分分割數(shù)據(jù)分割的的標(biāo)準(zhǔn)可以以根據(jù)實(shí)際際情況來確確定,通常常選擇:按按日期、地地域、業(yè)務(wù)務(wù)領(lǐng)域等來來進(jìn)行。212)數(shù)據(jù)分分割數(shù)據(jù)分割的的方法垂直分割::垂直分割割就是把一一個(gè)表垂直直分成兩部部分。水平分割::水平分割割就是把表表按行分成成兩部分。。22AppIDMEMBE_IDINFO1pavarotti17…11pavarotti17…MySQLIDMEMBE_IDINFO4test1234…5test1234…IDMEMBE_IDINFO3abcd…9abcd…20abcd…MySQLMySQLCobar
ProxyAppAppAppAppAppAppApp2)數(shù)據(jù)分分割232)數(shù)據(jù)分分割一個(gè)簡(jiǎn)單的的分割例子子。243.1數(shù)數(shù)據(jù)倉(cāng)庫(kù)中中的數(shù)據(jù)組組織3.2數(shù)數(shù)據(jù)倉(cāng)庫(kù)中中數(shù)據(jù)的追追加3.3數(shù)數(shù)據(jù)倉(cāng)庫(kù)中中的元數(shù)據(jù)據(jù)253.2數(shù)據(jù)據(jù)倉(cāng)庫(kù)中數(shù)數(shù)據(jù)的追加加當(dāng)數(shù)數(shù)據(jù)據(jù)倉(cāng)倉(cāng)庫(kù)庫(kù)的的數(shù)數(shù)據(jù)據(jù)初初裝裝完完成成以以后后,,再再向向數(shù)數(shù)據(jù)據(jù)倉(cāng)倉(cāng)庫(kù)庫(kù)輸輸入入((導(dǎo)導(dǎo)入入))數(shù)數(shù)據(jù)據(jù)的的過過程程稱稱為為數(shù)據(jù)據(jù)追追加加。如何何能能夠夠確確切切地地感感知知究究竟竟哪哪些些數(shù)數(shù)據(jù)據(jù)是是在在上上一一次次追追加加過過程程以以后后新新生生成成的的,,這這項(xiàng)項(xiàng)工工作作稱稱為為變化化數(shù)數(shù)據(jù)據(jù)的的捕捕捉捉。26需要對(duì)源數(shù)據(jù)據(jù)庫(kù)的數(shù)據(jù)模模式加以修改改,加上時(shí)標(biāo)字段。對(duì)新插入或更更新的數(shù)據(jù)記記錄,在記錄錄中加更新時(shí)時(shí)的時(shí)標(biāo)。1)時(shí)標(biāo)法27由應(yīng)用生成的的文件,用來來記錄應(yīng)用所所改變的數(shù)據(jù)據(jù)內(nèi)容。在要被抽取的的源表上建立立插入、修改改、刪除3個(gè)個(gè)觸發(fā)器,每當(dāng)源表中中的數(shù)據(jù)發(fā)生生變化,相應(yīng)應(yīng)的觸發(fā)器將將變化的數(shù)據(jù)據(jù)寫入一個(gè)增增量日志表。。2)DELTA文件28在上次抽取數(shù)數(shù)據(jù)庫(kù)數(shù)據(jù)到到數(shù)據(jù)倉(cāng)庫(kù)之之后及本次將將抽取數(shù)據(jù)庫(kù)庫(kù)數(shù)據(jù)之前,,對(duì)數(shù)據(jù)庫(kù)分分別做一次快快照,然后比比較兩幅快照照的不同。缺點(diǎn):需要占用大大量資源,影影響系統(tǒng)性能能。3)前后快照照文件的方法法29通過分析數(shù)據(jù)據(jù)庫(kù)自身的日日志來判斷變變化的數(shù)據(jù)。。優(yōu)點(diǎn):提取的變化數(shù)數(shù)據(jù)只局限于于日志文件,,不需掃描整整個(gè)數(shù)據(jù)庫(kù)。。4)日志文件件303.1數(shù)據(jù)據(jù)倉(cāng)庫(kù)中的數(shù)數(shù)據(jù)組織3.2數(shù)據(jù)據(jù)倉(cāng)庫(kù)中數(shù)據(jù)據(jù)的追加3.3數(shù)據(jù)據(jù)倉(cāng)庫(kù)中的元元數(shù)據(jù)313.3數(shù)據(jù)倉(cāng)倉(cāng)庫(kù)中的元數(shù)數(shù)據(jù)傳統(tǒng)數(shù)據(jù)庫(kù)中中為了說明數(shù)數(shù)據(jù)引入了數(shù)數(shù)據(jù)字典的概概念。數(shù)據(jù)字典是描描述數(shù)據(jù)的數(shù)數(shù)據(jù)。32元元數(shù)據(jù)的定義義元數(shù)據(jù):是用來描述數(shù)數(shù)據(jù)的數(shù)據(jù)。。它描述和定定位數(shù)據(jù)組件件、它們的來來源及它們?cè)谠跀?shù)據(jù)倉(cāng)庫(kù)進(jìn)進(jìn)程中的活動(dòng)動(dòng);關(guān)于數(shù)據(jù)據(jù)和操作的相相關(guān)描述(輸輸入、計(jì)算和和輸出)。33元元數(shù)據(jù)的定義義其主要目標(biāo)是提供數(shù)據(jù)資資源的全面指指南,使得數(shù)數(shù)據(jù)倉(cāng)庫(kù)管理理員和開發(fā)人人員可以方便便地了解數(shù)據(jù)據(jù)倉(cāng)庫(kù)中有什么數(shù)據(jù)?數(shù)據(jù)在什么地地方?它們來源于于哪里,以及及數(shù)據(jù)倉(cāng)庫(kù)系系統(tǒng)中是如何利用這些數(shù)據(jù)?如如何管理這些些數(shù)據(jù)?34與元數(shù)據(jù)產(chǎn)生生、存儲(chǔ)有關(guān)關(guān)的工具:數(shù)據(jù)抽取工具具:完成ETL操作。前端展現(xiàn)工具具:實(shí)現(xiàn)把關(guān)關(guān)系表映射成成與業(yè)務(wù)相關(guān)關(guān)的事實(shí)表和和維表來支持持多維業(yè)務(wù)視視圖,進(jìn)行多多維分析。建模工具:提提供更高層次次的、與特定定業(yè)務(wù)相關(guān)的的語(yǔ)義。元數(shù)據(jù)存儲(chǔ)工工具:用于將將元數(shù)據(jù)存儲(chǔ)儲(chǔ)在專門的數(shù)數(shù)據(jù)庫(kù)中。元元數(shù)據(jù)的定義義35元元數(shù)據(jù)的分類類元數(shù)據(jù)可以按按多種方式分分類:按用戶分類按功能分類361)按使用元元數(shù)據(jù)的用戶戶分類按使用元數(shù)據(jù)據(jù)的用戶分類類:技術(shù)元數(shù)據(jù)::是關(guān)于數(shù)據(jù)據(jù)倉(cāng)庫(kù)系統(tǒng)技術(shù)細(xì)節(jié)的描述數(shù)據(jù),,是數(shù)據(jù)倉(cāng)庫(kù)庫(kù)開發(fā)人員和和管理人員需需要使用的重重要信息。主主要包括數(shù)據(jù)據(jù)倉(cāng)庫(kù)結(jié)構(gòu)的的描述等。業(yè)務(wù)元數(shù)據(jù)::從業(yè)務(wù)角度描述數(shù)據(jù)倉(cāng)庫(kù)庫(kù)中的數(shù)據(jù),,它提供了介介于使用者和和實(shí)際系統(tǒng)之之間的語(yǔ)義層層定義,使得得不懂計(jì)算機(jī)機(jī)技術(shù)的業(yè)務(wù)務(wù)人員也能夠夠理解數(shù)據(jù)倉(cāng)倉(cāng)庫(kù)中的數(shù)據(jù)據(jù)。373.按功能分分類按功能分類::數(shù)據(jù)源元數(shù)據(jù)據(jù)ETL規(guī)則元元數(shù)據(jù)ODS元數(shù)據(jù)據(jù)和DW元數(shù)數(shù)據(jù)報(bào)表元數(shù)據(jù)接口數(shù)據(jù)文件件格式元數(shù)據(jù)據(jù)商業(yè)元數(shù)據(jù)1)按使用元元數(shù)據(jù)的用戶戶分類38元元數(shù)據(jù)管理的的標(biāo)準(zhǔn)化元數(shù)據(jù)在數(shù)據(jù)據(jù)倉(cāng)庫(kù)系統(tǒng)中中占有十分重重要的地位,,但是目前工工業(yè)界的各種種數(shù)據(jù)倉(cāng)庫(kù)管管理和分析工工具卻常常使使用不同的元元數(shù)據(jù)標(biāo)準(zhǔn),,使得元數(shù)據(jù)據(jù)管理、不同同系統(tǒng)之間的的遷移、數(shù)據(jù)據(jù)交換變得困困難。迫切需要建立立一種統(tǒng)一的的標(biāo)準(zhǔn),使得得不同數(shù)據(jù)倉(cāng)倉(cāng)庫(kù)和商務(wù)智智能系統(tǒng)之間間可以相互交交換元數(shù)據(jù)。。從而產(chǎn)生了基基于元數(shù)據(jù)聯(lián)聯(lián)盟(MetaDataCoalition,MDC)和OMG組織的相關(guān)關(guān)元數(shù)據(jù)標(biāo)準(zhǔn)準(zhǔn)。391)MDC的的OIM標(biāo)準(zhǔn)準(zhǔn)背景MDC成立于于1995年年。致力于建立于于廠商無(wú)關(guān)、、不依賴于具具體技術(shù)的企企業(yè)元數(shù)據(jù)管管理標(biāo)準(zhǔn)的非非營(yíng)利技術(shù)聯(lián)聯(lián)盟。有150多個(gè)會(huì)員員。提出了開放信信息模型(OpenInformationModel,OIM)。1999年7月接受微軟軟的建議,將將OIM作為為元數(shù)據(jù)標(biāo)準(zhǔn)準(zhǔn)。401)MDC的OIM標(biāo)準(zhǔn)準(zhǔn)OIM標(biāo)準(zhǔn)準(zhǔn)的目目的通過公公共的的元數(shù)數(shù)據(jù)信信息來來支持持不同同工具具和系系統(tǒng)之之間數(shù)數(shù)據(jù)的的共享享和重重用。。它涉及及信息息系統(tǒng)統(tǒng)的各各個(gè)階階段。。采用UML描述述。412)OMG組織織的CWM標(biāo)準(zhǔn)準(zhǔn)背景對(duì)象管管理組組織((英文文ObjectManagementGroup,,縮寫寫為OMG),,是一一個(gè)國(guó)國(guó)際協(xié)協(xié)會(huì),,開始始的目目的是是為分分布式式面向向?qū)ο笙笙到y(tǒng)統(tǒng)建立立標(biāo)準(zhǔn)準(zhǔn),現(xiàn)現(xiàn)在致致力于于建立立對(duì)程程序、、系統(tǒng)統(tǒng)和和業(yè)業(yè)務(wù)流流程的的建模模標(biāo)準(zhǔn)準(zhǔn),以以及基基于模模型的的標(biāo)準(zhǔn)準(zhǔn)。有500多多個(gè)會(huì)會(huì)員。。提出了了公共共倉(cāng)庫(kù)庫(kù)元模模型((CommonWarehouseMetamodel,CWM)。。422)OMG組織的CWM標(biāo)準(zhǔn)準(zhǔn)CWM標(biāo)準(zhǔn)準(zhǔn)的目的異構(gòu)環(huán)境下下,幫助
溫馨提示
- 1. 本站所有資源如無(wú)特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 2024年綠色環(huán)保食材配送餐飲服務(wù)協(xié)議3篇
- 辦公空間照明系統(tǒng)升級(jí)合同樣本
- 地?zé)豳Y源招投標(biāo)投訴處理措施
- 航空航天計(jì)量變更準(zhǔn)則
- 冷庫(kù)安裝合同化妝品研究
- 低碳環(huán)保住宅的二手房買賣合同
- 水利工程保溫施工服務(wù)協(xié)議
- 企業(yè)員工商標(biāo)提案管理辦法
- 玩具制造企業(yè)協(xié)議休假管理辦法
- 預(yù)付賬款審核風(fēng)險(xiǎn)控制的關(guān)鍵
- 律師行業(yè)職業(yè)操守與違紀(jì)警示發(fā)言稿
- 塑料污染與環(huán)境保護(hù)
- 2024年鍋爐運(yùn)行值班員(中級(jí))技能鑒定理論考試題庫(kù)(含答案)
- 福建省泉州市2023-2024學(xué)年高一上學(xué)期期末質(zhì)檢英語(yǔ)試題(解析版)
- 中華人民共和國(guó)民法典(總則)培訓(xùn)課件
- 蘇教版(2024新版)七年級(jí)上冊(cè)生物期末模擬試卷 3套(含答案)
- 《項(xiàng)目管理》完整課件
- IB課程-PYP小學(xué)項(xiàng)目省公開課獲獎(jiǎng)?wù)n件說課比賽一等獎(jiǎng)?wù)n件
- 上市央國(guó)企數(shù)智化進(jìn)程中人才就業(yè)趨勢(shì)
- 2024-2030年中國(guó)苯胺行業(yè)現(xiàn)狀動(dòng)態(tài)與需求前景展望報(bào)告
- 英雄之旅思維模型
評(píng)論
0/150
提交評(píng)論