數(shù)據(jù)分析與數(shù)據(jù)挖掘-1資料_第1頁
數(shù)據(jù)分析與數(shù)據(jù)挖掘-1資料_第2頁
數(shù)據(jù)分析與數(shù)據(jù)挖掘-1資料_第3頁
數(shù)據(jù)分析與數(shù)據(jù)挖掘-1資料_第4頁
數(shù)據(jù)分析與數(shù)據(jù)挖掘-1資料_第5頁
已閱讀5頁,還剩78頁未讀 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

1、中醫(yī)藥信息(xnx)基礎(chǔ) 數(shù)據(jù)倉庫與數(shù)據(jù)挖掘共八十三頁主要(zhyo)內(nèi)容數(shù)據(jù)倉庫與數(shù)據(jù)挖掘簡介(jin ji)數(shù)據(jù)倉庫基本原理與應(yīng)用數(shù)據(jù)挖掘基本原理與應(yīng)用共八十三頁一、數(shù)據(jù)倉庫與數(shù)據(jù)挖掘概述(i sh)(一)數(shù)據(jù)倉庫的興起(xngq)(二)數(shù)據(jù)挖掘的興起(三)數(shù)據(jù)倉庫和數(shù)據(jù)挖掘的結(jié)合共八十三頁(一) 數(shù)據(jù)倉庫的興起(xngq)1 從數(shù)據(jù)庫到數(shù)據(jù)倉庫2 從OLTP到OLAP共八十三頁1 從數(shù)據(jù)庫到數(shù)據(jù)倉庫如何處理一下問題?(1)“數(shù)據(jù)(shj)太多,信息不足”(2)異構(gòu)環(huán)境的數(shù)據(jù)的轉(zhuǎn)換和共享 (3)從進行數(shù)據(jù)處理發(fā)展為利用數(shù)據(jù)支持決策共八十三頁(1)數(shù)據(jù)庫:用于事務(wù)處理數(shù)據(jù)庫作為數(shù)據(jù)資源用于管

2、理業(yè)務(wù)中的事務(wù)處理。它已經(jīng)成為了成熟的信息基礎(chǔ)設(shè)施。數(shù)據(jù)庫中存放(cnfng)的數(shù)據(jù)基本上是保存當(dāng)前數(shù)據(jù),隨著業(yè)務(wù)的變化隨時在更新數(shù)據(jù)庫中的數(shù)據(jù)。不同的管理業(yè)務(wù)需要建立不同的數(shù)據(jù)庫。例如,銀行中儲蓄業(yè)務(wù)、信用卡業(yè)務(wù)分別要建立儲蓄數(shù)據(jù)庫和信用卡數(shù)據(jù)庫。共八十三頁(2)數(shù)據(jù)倉庫:用于決策分析數(shù)據(jù)倉庫用于決策分析數(shù)據(jù)倉庫既保存過去的數(shù)據(jù)又保存當(dāng)前的數(shù)據(jù)數(shù)據(jù)倉庫的數(shù)據(jù)是大量數(shù)據(jù)庫的集成對數(shù)據(jù)庫的操作(cozu)比較明確,操作(cozu)數(shù)據(jù)量少。對數(shù)據(jù)倉庫操作(cozu)不明確,操作(cozu)數(shù)據(jù)量大共八十三頁()數(shù)據(jù)庫與數(shù)據(jù)倉庫對比(dub)共八十三頁2 從OLTP到OLAP(1) 聯(lián)機事物處理(

3、chl)(OLTP)(2) 聯(lián)機分析處理(OLAP)(3) OLTP與OLAP的對比共八十三頁(1) 聯(lián)機(lin j)事物處理(OLTP)聯(lián)機事物(shw)處理(On Line Transaction Processing,OLTP)是在網(wǎng)絡(luò)環(huán)境下的事務(wù)處理工作,以快速的響應(yīng)和頻繁的數(shù)據(jù)修改為特征,使用戶利用數(shù)據(jù)庫能夠快速地處理具體的業(yè)務(wù)。OLTP應(yīng)用要求多個查詢并行,以便將每個查詢分布到一個處理器上。共八十三頁OLTP的特點在于事務(wù)處理量大,但事務(wù)處理內(nèi)容比較簡單且重復(fù)率高。OLTP處理的數(shù)據(jù)是高度結(jié)構(gòu)化的,涉及的事務(wù)比較簡單,數(shù)據(jù)訪問路徑是已知的,至少是固定的。OLTP面對(min du

4、)的是事務(wù)處理操作人員和低層管理人員。共八十三頁(2) 聯(lián)機分析(fnx)處理(OLAP)決策分析需要對多個關(guān)系數(shù)據(jù)庫共同進行大量的綜合計算才能得到結(jié)果。E.F.Codd在1993年提出了多維數(shù)據(jù)庫和多維分析的概念,即聯(lián)機分析處理(On Line Analytical Processing,OLAP)概念。關(guān)系數(shù)據(jù)庫是二維數(shù)據(jù)(平面),多維數(shù)據(jù)庫是空間立體數(shù)據(jù)。OLAP的基本思想是決策者從多方面和多角度以多維的形式(xngsh)來觀察企業(yè)的狀態(tài)和了解企業(yè)的變化。共八十三頁(3) OLTP與OLAP的對比(dub) OLTPOLAP細節(jié)性數(shù)據(jù)綜合性數(shù)據(jù)當(dāng)前數(shù)據(jù)歷史數(shù)據(jù)經(jīng)常更新不更新,但周期性刷新

5、一次性處理的數(shù)據(jù)量小一次處理的數(shù)據(jù)量大對響應(yīng)時間要求高響應(yīng)時間合理面向應(yīng)用,事務(wù)驅(qū)動面向分析,分析驅(qū)動共八十三頁(二)數(shù)據(jù)挖掘的興起(xngq)1 從機器學(xué)習(xí)到數(shù)據(jù)挖掘2 數(shù)據(jù)挖掘含義(hny)3 數(shù)據(jù)挖掘與OLAP的比較4 數(shù)據(jù)挖掘與統(tǒng)計學(xué)共八十三頁1 從機器(j q)學(xué)習(xí)到數(shù)據(jù)挖掘?qū)W習(xí)是人類具有的智能行為,主要在于獲取知識。機器學(xué)習(xí)是研究使計算機模擬或?qū)崿F(xiàn)人類的學(xué)習(xí)行為,即讓計算機通過算法自動獲取知識。機器學(xué)習(xí)是人工智能領(lǐng)域(ln y)中的重要研究方向。20世紀60年代開始了機器學(xué)習(xí)的研究。 共八十三頁(1) 1980年在美國召開了第一屆國際機器學(xué)習(xí)研討會; 明確了機器學(xué)習(xí)是人工智能的重要

6、研究方向(fngxing)(2) 1989年8月于美國底特律市召開的第一屆知識發(fā)現(xiàn)(KDD)國 際學(xué)術(shù)會議; 首次提出知識發(fā)現(xiàn)概念(3) 1995年在加拿大召開了第一屆知識發(fā)現(xiàn)和數(shù)據(jù)挖掘(DM)國際學(xué)術(shù)會議; 首次提出數(shù)據(jù)挖掘概念(4) 我國于1987年召開了第一屆全國機器學(xué)習(xí)研討會。共八十三頁2 數(shù)據(jù)挖掘含義(hny)知識發(fā)現(xiàn)(KDD):從數(shù)據(jù)中發(fā)現(xiàn)有用知識的整個(zhngg)過程。數(shù)據(jù)挖掘(DM) :KDD過程中的一個特定步驟,它用專門算 法從數(shù)據(jù)中抽取知識。 如在人類數(shù)據(jù)庫中挖掘知識為: (頭發(fā)=黑色)(眼睛=黑色)亞洲人 該知識覆蓋了所有亞洲人的記錄。 共八十三頁3 數(shù)據(jù)挖掘與OLAP

7、的比較(bjio)OLAP:多維、多層次分析OLAP的典型應(yīng)用,通過商業(yè)活動變化的查詢發(fā)現(xiàn)的問題(wnt),經(jīng)過追蹤查詢找出問題(wnt)出現(xiàn)的原因,達到輔助決策的作用。數(shù)據(jù)挖掘:發(fā)現(xiàn)規(guī)律、預(yù)測未來數(shù)據(jù)挖掘任務(wù)在于聚類(如神經(jīng)網(wǎng)絡(luò)聚類)、分類(如決策樹分類)、預(yù)測等。共八十三頁4 數(shù)據(jù)挖掘與統(tǒng)計學(xué)統(tǒng)計學(xué)與自然、經(jīng)濟、社會都有緊密的關(guān)系。其法則(fz)和方法是概率論。通過對全部對象(總體)進行調(diào)查,為制定計劃和決策提供依據(jù)。共八十三頁統(tǒng)計學(xué)中應(yīng)用(yngyng)于數(shù)據(jù)挖掘的內(nèi)容常用統(tǒng)計(均值、方差等)相關(guān)分析(fnx) 回歸分析 假設(shè)檢驗聚類分析判別分析 主成份分析共八十三頁統(tǒng)計學(xué)與數(shù)據(jù)挖掘的比

8、較(bjio) 統(tǒng)計學(xué)主要是對數(shù)量數(shù)據(jù)(數(shù)值)或連續(xù)值數(shù)據(jù)(如年齡、工資等),進行數(shù)值計算(如初等運算)的定量分析,得到數(shù)量信息。數(shù)據(jù)挖掘主要對離散數(shù)據(jù)(如職稱、病癥等)進行定性分析(覆蓋、歸納等),得到規(guī)則知識(zh shi)。統(tǒng)計學(xué)與數(shù)據(jù)挖掘是有區(qū)別的。但是,它們之間是相互補充的。共八十三頁(三)數(shù)據(jù)倉庫和數(shù)據(jù)挖掘的結(jié)合(jih)1 數(shù)據(jù)倉庫和數(shù)據(jù)挖掘的區(qū)別與聯(lián)系(linx)2 基于數(shù)據(jù)倉庫的決策支持系統(tǒng)共八十三頁1 數(shù)據(jù)倉庫和數(shù)據(jù)挖掘的區(qū)別(qbi)與聯(lián)系(1)數(shù)據(jù)倉庫與數(shù)據(jù)挖掘的區(qū)別(2)數(shù)據(jù)倉庫與數(shù)據(jù)挖掘的關(guān)系(gun x)(3)數(shù)據(jù)倉庫中數(shù)據(jù)挖掘特點共八十三頁(1) 數(shù)據(jù)倉庫與數(shù)據(jù)

9、挖掘的區(qū)別(qbi)數(shù)據(jù)倉庫是一種存儲技術(shù),它能適應(yīng)于不同用戶對不同決策需要提供(tgng)所需的數(shù)據(jù)和信息。數(shù)據(jù)挖掘研究各種方法和技術(shù),從大量的數(shù)據(jù)中挖掘出有用的信息和知識。數(shù)據(jù)挖掘的數(shù)據(jù)源可以是數(shù)據(jù)倉庫,也可以是其它形式(數(shù)據(jù)文件等)共八十三頁(2)數(shù)據(jù)倉庫與數(shù)據(jù)挖掘的關(guān)系(gun x)數(shù)據(jù)倉庫與數(shù)據(jù)挖掘都是數(shù)據(jù)分析和決策支持的新技術(shù)。但它們有著完全不同的輔助決策方式(fngsh)。在數(shù)據(jù)倉庫系統(tǒng)的前端的分析工具中,數(shù)據(jù)挖掘是重要工具之一。它可以幫助決策用戶挖掘數(shù)據(jù)倉庫的數(shù)據(jù)中隱含的規(guī)律性。由于數(shù)據(jù)倉庫中有大量穩(wěn)定的數(shù)據(jù),基于數(shù)據(jù)倉庫的數(shù)據(jù)挖掘,是數(shù)據(jù)挖掘的重要方向之一共八十三頁(3)數(shù)據(jù)

10、倉庫中數(shù)據(jù)挖掘特點(tdin)數(shù)據(jù)挖掘從數(shù)據(jù)倉庫中挖掘更深層次的信息(xnx)數(shù)據(jù)倉庫為數(shù)據(jù)挖掘提出了新要求 數(shù)據(jù)挖掘需要可擴展性 數(shù)據(jù)挖掘方法需要能挖掘多維知識共八十三頁2 基于(jy)數(shù)據(jù)倉庫的決策支持系統(tǒng)數(shù)據(jù)倉庫的決策支持功能有:(1) 對當(dāng)前和歷史數(shù)據(jù)完成查詢和報表處理(2) 可以用不同方法進行“如果,將怎樣 (what-if)”分析(3) 從綜合數(shù)據(jù)到細節(jié)數(shù)據(jù),深入追蹤鉆取查 詢,尋找問題出現(xiàn)原因(yunyn)(4) 認清過去的發(fā)展趨勢,并將其應(yīng)用于對未 來結(jié)果的分析共八十三頁數(shù)據(jù)倉庫中有大量的綜合數(shù)據(jù),為決策者提供了綜合信息。數(shù)據(jù)倉庫保存有大量歷史數(shù)據(jù),通過預(yù)測模型計算可以得到預(yù)測

11、信息。聯(lián)機分析處理(OLAP)對數(shù)據(jù)倉庫中的數(shù)據(jù)進行多維數(shù)據(jù)分析,即多維數(shù)據(jù)的切片、切塊、旋轉(zhuǎn)、鉆取等,得到更深層中的信息和知識(zh shi)。數(shù)據(jù)挖掘(DM)技術(shù)能獲取關(guān)聯(lián)知識、時序知識、聚類知識、分類知識等。數(shù)據(jù)倉庫(DW)、聯(lián)機分析處理(OLAP)、數(shù)據(jù)挖掘(DM)等結(jié)合,形成決策支持系統(tǒng)。共八十三頁二 數(shù)據(jù)倉庫基本原理與應(yīng)用(yngyng)(一)數(shù)據(jù)倉庫定義和特點(二)數(shù)據(jù)字典與元數(shù)據(jù)(三)數(shù)據(jù)倉庫的結(jié)構(gòu)體系(四)數(shù)據(jù)倉庫的數(shù)據(jù)模型(五)數(shù)據(jù)倉庫的數(shù)據(jù)分析工具(gngj)(六)數(shù)據(jù)倉庫的開發(fā)流程共八十三頁(一) 數(shù)據(jù)倉庫的定義(dngy)與特點 1. 數(shù)據(jù)倉庫定義(dngy) W.H

12、.Inmon在建立數(shù)據(jù)倉庫一書中,對數(shù)據(jù)倉庫的定義為:(Building the Data Warehouse,William H. Inmon,1993)數(shù)據(jù)倉庫是面向主題的、集成的、隨時間變化的非易失性數(shù)據(jù)的集合,用于支持管理層的決策過程。共八十三頁 SAS軟件研究所觀點: 數(shù)據(jù)倉庫是一種(y zhn)管理技術(shù),旨在通過通暢、合理、全面的信息管理,達到有效的決策支持。共八十三頁2. 數(shù)據(jù)倉庫特點(tdin) 面向主題 集成性 非易失性(穩(wěn)定性、非活性) 隨時間(shjin)變化共八十三頁(1)面向(min xin)主題 數(shù)據(jù)倉庫的面向主題與數(shù)據(jù)庫的面向應(yīng)用相對應(yīng)。 主題是在較高層次上進行數(shù)

13、據(jù)歸類的標(biāo)準,每一個主題基本對應(yīng)一個宏觀的分析領(lǐng)域。 例如,銀行的數(shù)據(jù)倉庫的主題:客戶 DW的客戶數(shù)據(jù)來源: 從銀行儲蓄DB、信用卡DB、貸款DB等三個DB中抽取同一客戶的數(shù)據(jù)整理而成。 在DW中分析客戶數(shù)據(jù),可決定是否(sh fu)繼續(xù)給予貸款。共八十三頁 數(shù)據(jù)進入數(shù)據(jù)倉庫之前,必須經(jīng)過加工與集成。 對不同的數(shù)據(jù)來源進行統(tǒng)一數(shù)據(jù)結(jié)構(gòu)(jigu)和編碼。統(tǒng)一原始數(shù)據(jù)中的所有矛盾之處,如字段的同名異義,異名同義,單位不統(tǒng)一,字長不一致等,將原始數(shù)據(jù)結(jié)構(gòu)(jigu)做一個從面向應(yīng)用到面向主題的轉(zhuǎn)換。(2)集成性共八十三頁數(shù)據(jù)倉庫反映的是歷史數(shù)據(jù)的內(nèi)容,而不是日常事務(wù)處理所產(chǎn)生的操作性數(shù)據(jù),進入數(shù)據(jù)

14、倉庫的數(shù)據(jù)是極少甚至(shnzh)根本不修改的。數(shù)據(jù)倉庫是隨時間變化的 數(shù)據(jù)倉庫內(nèi)的數(shù)據(jù)時限在510年,故數(shù)據(jù)的鍵碼包含時間項,標(biāo)明數(shù)據(jù)的歷史時期,這適合DSS進行時間趨勢分析。 而數(shù)據(jù)庫只包含當(dāng)前數(shù)據(jù),即存取某一時間的正確的有效的數(shù)據(jù)。(3)非易失性共八十三頁數(shù)據(jù)倉庫是不同時間的數(shù)據(jù)集合,要求數(shù)據(jù)倉庫中的數(shù)據(jù)保存時限能夠滿足進行決策分析的需要,并且(bngqi)均要標(biāo)明該數(shù)據(jù)的歷史時期。(4)隨時間(shjin)變化共八十三頁(二)數(shù)據(jù)(shj)字典與元數(shù)據(jù)(shj)1 數(shù)據(jù)(shj)庫的數(shù)據(jù)(shj)字典2 數(shù)據(jù)倉庫的元數(shù)據(jù)共八十三頁1 數(shù)據(jù)(shj)庫的數(shù)據(jù)(shj)字典數(shù)據(jù)字典是數(shù)據(jù)庫

15、中各類數(shù)據(jù)描述(mio sh)的集合 。數(shù)據(jù)項數(shù)據(jù)結(jié)構(gòu)數(shù)據(jù)流數(shù)據(jù)存儲處理過程共八十三頁2 數(shù)據(jù)(shj)倉庫的元數(shù)據(jù)(shj)在數(shù)據(jù)倉庫中引入了“元數(shù)據(jù)”的概念,它不僅僅是數(shù)據(jù)倉庫的字典,而且還是數(shù)據(jù)倉庫本身信息的數(shù)據(jù)。元數(shù)據(jù)(metadata)定義(dngy)為關(guān)于數(shù)據(jù)的數(shù)據(jù)(data about data),即元數(shù)據(jù)描述了數(shù)據(jù)倉庫的數(shù)據(jù)和環(huán)境。共八十三頁數(shù)據(jù)倉庫的元數(shù)據(jù)除對數(shù)據(jù)倉庫中數(shù)據(jù)的描述(數(shù)據(jù)倉庫字典)外,還有以下三類元數(shù)據(jù) :關(guān)于(guny)數(shù)據(jù)源的元數(shù)據(jù)關(guān)于抽取和轉(zhuǎn)換的元數(shù)據(jù)關(guān)于最終用戶的元數(shù)據(jù)共八十三頁數(shù)據(jù)倉庫概念(ginin)的理解數(shù)據(jù)倉庫最根本的特點是相對獨立的物理的存放數(shù)

16、據(jù),并且這些數(shù)據(jù)并不是最新的、專有的,而是來源于其他數(shù)據(jù)庫,數(shù)據(jù)倉庫建立在一個較全面和完善(wnshn)的信息應(yīng)用的基礎(chǔ)上,用于支持高層決策分析。而事務(wù)處理數(shù)據(jù)庫在企業(yè)的信息環(huán)境中承擔(dān)的是日常操作性的任務(wù)。到目前為止,數(shù)據(jù)倉庫還是用數(shù)據(jù)庫管理系統(tǒng)來管理其中的數(shù)據(jù)。因此,數(shù)據(jù)倉庫并不是一個現(xiàn)成的硬件產(chǎn)品或軟件產(chǎn)品,而是一種解決方案。共八十三頁(三) 數(shù)據(jù)倉庫的結(jié)構(gòu)(jigu)體系1 數(shù)據(jù)倉庫中的數(shù)據(jù)(數(shù)據(jù)倉庫的結(jié)構(gòu))2 數(shù)據(jù)倉庫系統(tǒng)(xtng)的結(jié)構(gòu)3 數(shù)據(jù)倉庫運行結(jié)構(gòu)共八十三頁1 數(shù)據(jù)(shj)倉庫中的數(shù)據(jù)(shj)(倉庫結(jié)構(gòu))共八十三頁近期基本數(shù)據(jù)(當(dāng)前詳細數(shù)據(jù), Current Detai

17、l Data ):是當(dāng)前和最近時期(shq)的業(yè)務(wù)數(shù)據(jù),是數(shù)據(jù)倉庫用戶最感興趣的部分,數(shù)據(jù)量大。歷史基本數(shù)據(jù)(歷史詳細數(shù)據(jù), Older Detail Data ):近期基本數(shù)據(jù)隨時間的推移,由數(shù)據(jù)倉庫的時間控制機制轉(zhuǎn)為歷史基本數(shù)據(jù)。輕度綜合數(shù)據(jù)( Lightly Summary Data ):是從近期基本數(shù)據(jù)中提取出的,這層數(shù)據(jù)是按時間段選取,或者按數(shù)據(jù)屬性(attributes)和內(nèi)容(contents)進行綜合。高度綜合數(shù)據(jù)( Highly Summary Data ):這一層的數(shù)據(jù)是在輕度綜合數(shù)據(jù)基礎(chǔ)上的再一次綜合,是一種準決策數(shù)據(jù)。共八十三頁2 數(shù)據(jù)倉庫系統(tǒng)(xtng)的結(jié)構(gòu)數(shù)據(jù)倉庫

18、系統(tǒng)由數(shù)據(jù)倉庫(DW)、倉庫管理和分析工具(gngj)三部分組成。共八十三頁3 數(shù)據(jù)倉庫的運行(ynxng)結(jié)構(gòu) 數(shù)據(jù)倉庫應(yīng)用是一個典型的客戶/服務(wù)器(C/S)結(jié)構(gòu)形式: 客戶端所做的工作:客戶交互、格式化查詢、結(jié)果顯示、報表生成等。 服務(wù)器端完成各種輔助決策(juc)的SQL查詢、復(fù)雜的計算和各類綜合功能等。 共八十三頁 OLAP服務(wù)器將加強和規(guī)范化決策支持的服務(wù)工作,集中(jzhng)和簡化了原客戶端和數(shù)據(jù)倉庫服務(wù)器的部分工作,降低了系統(tǒng)數(shù)據(jù)傳輸量。 這種結(jié)構(gòu)形式工作效率更高。OLAP的三層C/S結(jié)構(gòu)(jigu)共八十三頁(四)數(shù)據(jù)倉庫的數(shù)據(jù)模型1 數(shù)據(jù)概念模型2 數(shù)據(jù)組織(存儲(cn c

19、h))方式3 數(shù)據(jù)倉庫建模共八十三頁1.數(shù)據(jù)(shj)概念模型 數(shù)據(jù)倉庫一般采用數(shù)據(jù)的多維模型 在多維數(shù)據(jù)模型中,一部分數(shù)據(jù)是數(shù)字測量值,比如(br)銷售量,它們是依賴于一組“維”的,這些維提供了測量值的上下文關(guān)系,比如銷售量與城市、產(chǎn)品名稱和銷售時間有關(guān),城市、產(chǎn)品名稱和銷售時間這些相關(guān)的維唯一確定了銷售量這個測量值。共八十三頁商品果汁牛奶啤酒可樂咖啡12345日期城市北京天津上海商品|城市|日期共八十三頁維就是相同類數(shù)據(jù)的集合,商店、時間(shjin)和產(chǎn)品都是維。各個商店的集合是一維,時間(shjin)的集合是一維,商品的集合是一維。每一個商店、每一段時間(shjin)、每一種商品就是某

20、一維的一個成員。每一個銷售事實由一個特定的商品、一個特定的時間、一個特定的商品組成。兩維表,如通常的電子表格。三維構(gòu)成立方體,若再增加一維,則圖形很難想象,也不容易在屏幕上畫出來。共八十三頁2 數(shù)據(jù)組織方式(fngsh) 基于關(guān)系(gun x)表的存儲方式 多維數(shù)據(jù)庫存儲方式 混合模式共八十三頁3 數(shù)據(jù)倉庫建模(1)星型模型由事實表和非標(biāo)準化的維表組成(2)雪花模型所有(suyu)維表都進行標(biāo)準化(3)混合模型只有最大的維表才進行標(biāo)準化共八十三頁 大多數(shù)的數(shù)據(jù)倉庫都采用“星型模型”。星型模型是由“事實表”(大表)以及多個“維表”(小表)所組成。 “事實表”中存放大量關(guān)于企業(yè)的事實數(shù)據(jù)(數(shù)量數(shù)據(jù)

21、)。 例如(lr):多個時期的數(shù)據(jù)可能會出現(xiàn)在同一個“事實表”中?!熬S表”中存放描述性數(shù)據(jù),維表是圍繞事實表建立的較小的表。 星型模型數(shù)據(jù)如下圖: (1)星型模型(mxng)共八十三頁共八十三頁訂貨表客戶表銷售員表事實表產(chǎn)品表日期表地區(qū)表星型模型數(shù)據(jù)(shj)存儲情況示意圖 共八十三頁 雪花模型對星型模型的維表進一步層次化,原來的各維表可能被擴展為小的事實(shsh)表,形成一些局部的“層次”區(qū)域。 在上面星型模型的數(shù)據(jù)中 ,對“產(chǎn)品表”“日期表”“地區(qū)表”進行擴展形成雪花模型數(shù)據(jù)見下圖。(2) 雪花(xuhu)模型共八十三頁共八十三頁(五)數(shù)據(jù)倉庫的分析(fnx)工具1 可視化查詢工具2 數(shù)

22、據(jù)挖掘(DM)工具3 多維聯(lián)機(lin j)分析(OLAP)工具共八十三頁數(shù)據(jù)倉庫的查詢不是指對記錄級數(shù)據(jù)的查詢,而是指對分析要求的查詢。 可視化工具 以圖形化方式(fngsh)展示數(shù)據(jù),可以幫助了解數(shù)據(jù)的結(jié)構(gòu),關(guān)系以及動態(tài)性。1 可視化查詢(chxn)工具共八十三頁從大量數(shù)據(jù)中挖掘具有規(guī)律性知識,需要利用數(shù)據(jù)挖掘(Data Mining)工具,后面章節(jié)詳細(xingx)說明。2 數(shù)據(jù)挖掘工具(gngj)共八十三頁聯(lián)機分析處理(On Line Analytical Processing,OLAP):在數(shù)據(jù)倉庫系統(tǒng)中,是重要和最常用的數(shù)據(jù)分析工具。OLAP的基本思想:從多方面和多角度以多維的形式

23、來觀察企業(yè)信息的狀態(tài),了解企業(yè)變化。一般的查詢(chxn)只能回答What,OLAP則回答Why。多維數(shù)據(jù)的每一維代表對數(shù)據(jù)的一個特定的觀察視角,如時間、地域、業(yè)務(wù)等。OLAP的定義:是一種軟件技術(shù),它使分析人員能夠迅速、一致、交互地從各個方面觀察信息,以達到深入理解數(shù)據(jù)的目的。這些信息是從原始數(shù)據(jù)轉(zhuǎn)換過來的,按照用戶的理解,它反映了企業(yè)真實的方方面面。OLAP的兩個關(guān)鍵特點:在線(online)和多維。3 多維分析工具(gngj)-OLAP共八十三頁 變量 :變量是數(shù)據(jù)的實際意義,即描述數(shù)據(jù)“是什么”,例如“商品銷售額”,往往(wngwng)也是待分析的內(nèi)容。 維:維是人們觀察數(shù)據(jù)的特定角度

24、。如產(chǎn)品維、顧客維、時間維等。 維的層次:數(shù)據(jù)的細節(jié)不同程度為維的層次。如日、月、季、年是時間維的層次。 維成員:維的一個取值稱為該維的一個維成員。如“某年某月某日”是時間維的一個成員。 多維數(shù)組:一個多維數(shù)組可以表示為:(維1,維2,維n,變量), 一個4維數(shù)組結(jié)構(gòu)舉例,(產(chǎn)品,地區(qū),時間,銷售渠道,銷售額)。 數(shù)據(jù)單元(單元格):多維數(shù)組的取值稱為數(shù)據(jù)單元,如,4維數(shù)據(jù)單元(牙膏,上海,1998年12月,批發(fā),銷售額為100000元)。 (1)OLAP的基本概念術(shù)語(shy) 共八十三頁切片和切塊(Slice and Dice):根據(jù)維的限定作投影、選擇等數(shù)據(jù)庫操作,從而獲取(huq)相應(yīng)

25、數(shù)據(jù)旋轉(zhuǎn)(Pivoting):將表格(維)的橫縱坐標(biāo)交換鉆?。荷香@(Roll up)和下鉆(Roll down),根據(jù)維的層次提升所關(guān)心的數(shù)據(jù)或降低觀察層次(2)OLAP基本(jbn)分析功能共八十三頁例如(lr),以“產(chǎn)品、城市、時間”三維數(shù)據(jù),如圖共八十三頁對三維數(shù)據(jù),通過“切片” ,分別從城市和產(chǎn)品等不同的角度觀察銷售(xioshu)情況: 切片(qi pin)共八十三頁切塊(1)在多維數(shù)組的某一個維上選定某一區(qū)間的維成員的操作切塊可以看成是在切片的基礎(chǔ)上,確定某一個維成員的區(qū)間得到的片段,也即由多個切片疊合起來。(2)選定多維數(shù)組的一個三維子集的操作在多維數(shù)組(維1,維2,維n,變量)

26、中選定3個維,維i、維j、維k,在這3個維上分別(fnbi)取一個區(qū)間,或任意維成員,而其它維都取定一個維成員。共八十三頁三維數(shù)據(jù)(shj)切塊共八十三頁鉆取鉆取有向下鉆?。╠rill down )和向上鉆?。╠rill up )操作。向下鉆取是使用戶在多層數(shù)據(jù)中能通過導(dǎo)航信息而獲得(hud)更多的細節(jié)性數(shù)據(jù)。向上鉆取獲取概括性的數(shù)據(jù)。 共八十三頁例如,2005年各部門(bmn)銷售收入表如下:共八十三頁對時間(shjin)維進行下鉆操作,獲得新表如下:2005年部門1季度2季度3季度4季度部門1200200350150部門225050150150部門3200150180270共八十三頁旋轉(zhuǎn)(xunzhun)通過旋轉(zhuǎn)可以得到不同視角的數(shù)據(jù)。旋轉(zhuǎn)操作相當(dāng)于平面(pngmin)數(shù)據(jù)將坐標(biāo)軸旋轉(zhuǎn)。例如,旋轉(zhuǎn)可能包含了交換行和列,或是把某一個行維移到列維中去?;蚴前秧撁骘@示中的一個維和頁面外的維進行交換(令其成為新的行或列中的一個) 共八十三頁旋 轉(zhuǎn)時間維產(chǎn)品維產(chǎn)品維時間維(a)行列交換旋轉(zhuǎn)以改變顯示布局時間維地區(qū)維產(chǎn)品維時間維產(chǎn)品維地區(qū)維共八十三頁旋轉(zhuǎn)(xunzhun)前的數(shù)據(jù)實例(shl)共八十三頁旋轉(zhuǎn)(xunzhun)后的數(shù)據(jù)共八十三頁旋轉(zhuǎn)(xu

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論