華南理工大學(xué)數(shù)據(jù)挖掘第三章_第1頁(yè)
華南理工大學(xué)數(shù)據(jù)挖掘第三章_第2頁(yè)
華南理工大學(xué)數(shù)據(jù)挖掘第三章_第3頁(yè)
華南理工大學(xué)數(shù)據(jù)挖掘第三章_第4頁(yè)
全文預(yù)覽已結(jié)束

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、第三章數(shù)據(jù)倉(cāng)庫(kù)與OLAP技術(shù)概述什么是數(shù)據(jù)倉(cāng)庫(kù)?作用:數(shù)據(jù)倉(cāng)庫(kù)用來(lái)保存從多個(gè)數(shù)據(jù)庫(kù)或其它信息源選取的數(shù)據(jù)并為上層應(yīng)用提供統(tǒng) 一用戶接口,完成數(shù)據(jù)查詢(xún)和分析。定義:數(shù)據(jù)倉(cāng)庫(kù)是一個(gè)面向主題的、集成的、時(shí)變的和非易失的數(shù)據(jù)集合,支持管理部 門(mén)的決策過(guò)程。適用范圍:信息源中的數(shù)據(jù)變化穩(wěn)定或可預(yù)測(cè)應(yīng)用不需要最新的數(shù)據(jù)或允許有延遲應(yīng)用要求,有較高的查詢(xún)性能,而降低精度要求特點(diǎn):面向主體、集成的、時(shí)變的、非易失的技術(shù)要求:大量數(shù)據(jù)的組織和管理復(fù)雜分析的高性能體現(xiàn)對(duì)提取出來(lái)的數(shù)據(jù)進(jìn)行集成對(duì)進(jìn)行高層決策的最終用戶的界面支持?jǐn)?shù)據(jù)倉(cāng)庫(kù)(事務(wù)處理)與操作數(shù)據(jù)庫(kù)(分析處理)區(qū)別事務(wù)型處理數(shù)據(jù)分析型處理數(shù)據(jù)細(xì)節(jié)的在存取瞬

2、間是準(zhǔn)確的可更新綜合的.或提煉的 代表過(guò)去的數(shù)據(jù) 不可更新,只讀的操作需求事先可知道 生命周期符合STM廠 對(duì)忤能要求高一個(gè)時(shí)刻操作一個(gè)單元 事務(wù)驅(qū)動(dòng)面向應(yīng)用一次操作數(shù)據(jù)量小 支持日常晚作操作需求事先不知 完全不同的生命周期 對(duì)性能要求寬松_ 一個(gè)時(shí)刻操作一個(gè) 分析驅(qū)動(dòng)面向分析一次操作數(shù)據(jù)量大 支持管理需求聯(lián)機(jī)事務(wù)處理(OLTP)和聯(lián)機(jī)分析處理(OLAP)區(qū)別:表工1: OL1P系統(tǒng)利OLAP系統(tǒng)的比校特性O(shè)LT?OLAP沌問(wèn)戶能設(shè)弄總特面用功DB數(shù)匯祝照L.作單位浮取關(guān)注操作訪問(wèn)記錄數(shù)諼用戶數(shù)優(yōu)先度最操作姓理 事務(wù)辦李員.DBA.數(shù)據(jù)庫(kù).專(zhuān)業(yè)人員 日常操作基于E-此面向應(yīng)用 與前的:確保最新

3、 原始的,商度洋細(xì) 洋細(xì),一般關(guān)系 寤的、簡(jiǎn)單事務(wù) 讀/寫(xiě)數(shù)據(jù)譏人上美槌字工索引/成列數(shù)十個(gè)數(shù)千LOOMB 到 GE高性能高可用性事務(wù)并吐捐估息處理斜斤如識(shí)丁人(如經(jīng)理、主管、分析員 K期信息隔求.決策支持 星形/雪花,面向土題用史的:跨時(shí)間繾護(hù) 匯總的,統(tǒng)一的 匯總的.室維的 復(fù)雜街Hl 大多為彼信息輔? ; I r 太諼掃描 能斤萬(wàn) 數(shù)仃100GB 刊 TE商滅活性端點(diǎn)月戶門(mén)治 查詢(xún)吞吐量,響應(yīng)時(shí)間為什么需要分離的數(shù)據(jù)倉(cāng)庫(kù):分離操作數(shù)據(jù)庫(kù)系統(tǒng)和數(shù)據(jù)倉(cāng)庫(kù)的主要原因是提高兩個(gè)系統(tǒng)的性能.操作數(shù)據(jù)庫(kù)系 統(tǒng)是為已知的任務(wù)和負(fù)載設(shè)計(jì)的,而數(shù)據(jù)倉(cāng)庫(kù)的查詢(xún)通常是復(fù)雜的,涉及大量數(shù)據(jù)在 匯總級(jí)的計(jì)算,在操

4、作數(shù)據(jù)庫(kù)系統(tǒng)上處理OLAP查詢(xún),可能會(huì)大大降低操作任務(wù)的性 多維數(shù)據(jù)模型基本概念:維:透視或關(guān)于一個(gè)組織想要記錄的實(shí)體維表:每一個(gè)維都有一個(gè)表與之相關(guān)聯(lián)事實(shí):數(shù)值度量數(shù)據(jù)倉(cāng)庫(kù)建模模式:星形模式:最常見(jiàn)的模型范例星形模式;其中數(shù)據(jù)倉(cāng)庫(kù)包括(1)一個(gè)大的、包含大批 數(shù)據(jù)、不含冗余的中心表(事實(shí)表);(2)一組小的附屬表(維表),每維一個(gè)。這 種模式圖很象星星爆發(fā),維表圍繞中心表顯示在射線上。雪花模式:雪花模式是星型模式的變種,其中某些維表是規(guī)范化的,因而把數(shù)據(jù)進(jìn)一步 分解到附加的表中。結(jié)果,模式圖形成類(lèi)似于雪花的形狀。事實(shí)星座:復(fù)雜的應(yīng)用可能需要多個(gè)事實(shí)表共享維表。這種模式可以看作星形模式集, 因

5、此稱(chēng)為星系模式,或事實(shí)星座。數(shù)據(jù)集市:數(shù)據(jù)倉(cāng)庫(kù)的一個(gè)部門(mén)子集,它針對(duì)選定的主題,因此是部門(mén)范圍的。概念分層:一個(gè)映射序列,將低層概念到更一般的高層概念。多維數(shù)據(jù)模型的O LAP操作:上卷操作,通過(guò)維規(guī)約,在數(shù)據(jù)立方體上進(jìn)行聚集.下鉆操作,是上卷操作的逆操作,由不太詳細(xì)的數(shù)據(jù)到更詳細(xì)的數(shù)據(jù).切片和切塊,切片在給定的數(shù)據(jù)立方體的一個(gè)維上進(jìn)行選擇,切塊則是在兩個(gè)或兩個(gè) 以上的維進(jìn)行選擇.轉(zhuǎn)軸操作,轉(zhuǎn)動(dòng)數(shù)據(jù)的視覺(jué),是目視操作.數(shù)據(jù)倉(cāng)庫(kù)系統(tǒng)結(jié)構(gòu)自頂向下視圖:使我們可以選擇數(shù)據(jù)倉(cāng)庫(kù)所需的相關(guān)信息.數(shù)據(jù)源視圖:揭示被操作數(shù)據(jù)庫(kù)系統(tǒng)捕獲存儲(chǔ)和管理的信息數(shù)據(jù)倉(cāng)庫(kù)視圖:包括事實(shí)表和維表.商務(wù)查詢(xún)視圖:從最終用戶的

6、角度透視數(shù)據(jù)倉(cāng)庫(kù)中的數(shù)據(jù).三層結(jié)構(gòu):底層數(shù)據(jù)倉(cāng)庫(kù)服務(wù)器,使用稱(chēng)作網(wǎng)間連接程序的應(yīng)用程序,由操作數(shù)據(jù)庫(kù)和外部數(shù)據(jù) 源提取數(shù)據(jù).中間層是OLAP服務(wù)器,實(shí)現(xiàn)方法有關(guān)系OLAP模型,在多維數(shù)據(jù)上的操作映射為標(biāo)準(zhǔn)的關(guān)系操作多維OLAP模型,直接實(shí)現(xiàn)多維數(shù)據(jù)的操作頂層是客戶,它包括查詢(xún)和報(bào)告工具,分析工具和數(shù)據(jù)挖掘工具(例如趨勢(shì)分析,預(yù)測(cè) 等)數(shù)據(jù)倉(cāng)庫(kù)的類(lèi)型:企業(yè)倉(cāng)庫(kù):企業(yè)倉(cāng)庫(kù)收集了關(guān)于主題的所有信息,跨越整個(gè)組織,它提供企業(yè)范圍內(nèi)的 數(shù)據(jù)集成.數(shù)據(jù)集市:包含企業(yè)范圍數(shù)據(jù)的一個(gè)子集,對(duì)于特定的用戶是有用的,其范圍限于選定 的主題.虛擬倉(cāng)庫(kù):是操作數(shù)據(jù)庫(kù)上的視圖集合.為了有效地處理查詢(xún),只有一些可能的匯總

7、視 圖被物化,虛擬倉(cāng)庫(kù)易于建立,但需要操作數(shù)據(jù)庫(kù)服務(wù)器具有剩余能力.數(shù)據(jù)倉(cāng)庫(kù)后端工具功能:數(shù)據(jù)提?。和ǔS啥鄠€(gè)異構(gòu)和外部數(shù)據(jù)源收集數(shù)據(jù)數(shù)據(jù)清理:檢測(cè)數(shù)據(jù)中的錯(cuò)誤,可能時(shí)修訂他們數(shù)據(jù)變換:將數(shù)據(jù)由遺產(chǎn)或宿主格式轉(zhuǎn)換成數(shù)據(jù)倉(cāng)庫(kù)格式裝入:排序、匯總、合并、計(jì)算視圖、檢查完整性,并建立索引和劃分刷新:傳播由數(shù)據(jù)源到數(shù)據(jù)倉(cāng)庫(kù)的刷新總結(jié)數(shù)據(jù)倉(cāng)庫(kù)是面向主題的、集成的、時(shí)變的和非易失的有組織的數(shù)據(jù)集合,支持管理決策制 定。有一些因素區(qū)別數(shù)據(jù)倉(cāng)庫(kù)與操作數(shù)據(jù)庫(kù)。由于兩種系統(tǒng)提供相當(dāng)不同的功能,需要不同 類(lèi)型的數(shù)據(jù),有必要將數(shù)據(jù)倉(cāng)庫(kù)與操作數(shù)據(jù)庫(kù)分開(kāi)維護(hù)。通常,多維數(shù)據(jù)模型用于數(shù)據(jù)倉(cāng)庫(kù)和數(shù)據(jù)集市的設(shè)計(jì)。這種模型采用星

8、形模式、雪花模式 或事實(shí)星座模式。多維數(shù)據(jù)模型的核心是數(shù)據(jù)方。數(shù)據(jù)方由大量事實(shí)(或度量)和許多維組 成。維是一個(gè)組織想要記錄的實(shí)體或透視,是自然分層的。概念分層將屬性或維的值組織成漸進(jìn)的抽象層。概念分層對(duì)于多抽象層上的挖掘是有用的。聯(lián)機(jī)分析處理(OLAP)可以在使用多維數(shù)據(jù)模型的數(shù)據(jù)倉(cāng)庫(kù)或數(shù)據(jù)集市上進(jìn)行。典型的OLAP 操作包括上卷、下鉆(鉆過(guò)、鉆透)、切片和切塊、轉(zhuǎn)軸(旋轉(zhuǎn)),以及求等級(jí)、計(jì)算平均 值和增長(zhǎng)率等統(tǒng)計(jì)操作。使用數(shù)據(jù)方結(jié)構(gòu),OLAP操作可以有效地實(shí)現(xiàn)。數(shù)據(jù)倉(cāng)庫(kù)通常采用三層結(jié)構(gòu)。底層是數(shù)據(jù)倉(cāng)庫(kù)服務(wù)器,通常是關(guān)系數(shù)據(jù)庫(kù)系統(tǒng)。中間層是 OLAP服務(wù)器。上層是客戶,包括查詢(xún)和報(bào)表工具。O

9、LAP 服務(wù)器可以是關(guān)系OLAP(ROLAP),多維OLAP(MOLAP),或混合OLAP(HOLAP)。ROLAP 服務(wù)器使用擴(kuò)充的關(guān)系DBMS,將多維數(shù)據(jù)上的OLAP操作映射成標(biāo)準(zhǔn)的關(guān)系操作。MOLAP服 務(wù)器直接將多維數(shù)據(jù)視圖映射到數(shù)組結(jié)構(gòu)HOLAP是ROLAP和MOLAP的結(jié)合。例如,它可以 對(duì)歷史數(shù)據(jù)使用ROLAP,而將頻繁訪問(wèn)的數(shù)據(jù)放在一個(gè)分離的MOLAP存儲(chǔ)中。數(shù)據(jù)方由方體的格組成,每個(gè)方體對(duì)應(yīng)于給定多維數(shù)據(jù)的一個(gè)不同級(jí)別的匯總。部分物化 是指有選擇地物化格中方體的一個(gè)子集。完全物化是指物化格中所有的方體。如果方體使用 MOLAP實(shí)現(xiàn),則可以使用多路數(shù)組聚集。該技術(shù)將一些聚集計(jì)算

10、重迭,使得整個(gè)物化計(jì)算更 有效。使用索引技術(shù),OLAP查詢(xún)處理可以更有效地進(jìn)行。在位圖索引中,每個(gè)屬性有它自己的 位圖索引表。位圖索引將連接、聚集和比較歸結(jié)成位算術(shù)運(yùn)算。連接索引登記來(lái)自?xún)蓚€(gè)或多 個(gè)關(guān)系的可連接行,降低OLAP連接操作的代價(jià)。位圖連接索引結(jié)合位圖和連接方法,可以 進(jìn)一步加快OLAP查詢(xún)處理。數(shù)據(jù)倉(cāng)庫(kù)元數(shù)據(jù)是定義倉(cāng)庫(kù)對(duì)象的數(shù)據(jù)。元數(shù)據(jù)庫(kù)提供關(guān)于倉(cāng)庫(kù)結(jié)構(gòu)、數(shù)據(jù)歷史、匯總所 使用的算法、由源數(shù)據(jù)到數(shù)據(jù)倉(cāng)庫(kù)的映射、系統(tǒng)性能和商務(wù)術(shù)語(yǔ)及含義等細(xì)節(jié)。數(shù)據(jù)倉(cāng)庫(kù)包含加載和刷新數(shù)據(jù)倉(cāng)庫(kù)的后端工具和實(shí)用程序。這些包括數(shù)據(jù)的清理、數(shù)據(jù)變 換、裝入、刷新和倉(cāng)庫(kù)管理。數(shù)據(jù)方的發(fā)現(xiàn)驅(qū)動(dòng)探查使用預(yù)先計(jì)算的度量和可視方,指示所有聚集層中的數(shù)據(jù)例外,指 導(dǎo)用戶的分析進(jìn)程。多特征方計(jì)算涉及多粒度上的多依賴(lài)的復(fù)雜查詢(xún)。

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論