版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
數(shù)據(jù)倉庫與數(shù)據(jù)挖掘數(shù)據(jù)倉庫與數(shù)據(jù)挖掘2025/1/19數(shù)據(jù)挖掘的發(fā)展動(dòng)力
---需要是發(fā)明之母數(shù)據(jù)爆炸問題自動(dòng)數(shù)據(jù)收集工具和成熟的數(shù)據(jù)庫技術(shù)使得大量的數(shù)據(jù)被收集,存儲(chǔ)在數(shù)據(jù)庫、數(shù)據(jù)倉庫或其他信息庫中以待分析。我們擁有豐富的數(shù)據(jù),但卻缺乏有用的信息
解決方法:數(shù)據(jù)倉庫技術(shù)和數(shù)據(jù)挖掘技術(shù)數(shù)據(jù)倉庫(DataWarehouse)和在線分析處理(OLAP)數(shù)據(jù)挖掘:在大量的數(shù)據(jù)中挖掘感興趣的知識(shí)(規(guī)則,規(guī)律,模式,約束)數(shù)據(jù)倉庫與數(shù)據(jù)挖掘2025/1/19什么是數(shù)據(jù)挖掘?數(shù)據(jù)挖掘(從數(shù)據(jù)中發(fā)現(xiàn)知識(shí))
從大量的數(shù)據(jù)中挖掘哪些令人感興趣的、有用的、隱含的、先前未知的和可能有用的模式或知識(shí)
挖掘的不僅僅是數(shù)據(jù)(所以“數(shù)據(jù)挖掘”并非一個(gè)精確的用詞)數(shù)據(jù)挖掘的替換詞數(shù)據(jù)庫中的知識(shí)挖掘(KDD)知識(shí)提煉數(shù)據(jù)/模式分析數(shù)據(jù)考古數(shù)據(jù)捕撈、信息收獲等等。數(shù)據(jù)倉庫與數(shù)據(jù)挖掘2025/1/19數(shù)據(jù)挖掘:數(shù)據(jù)庫中的知識(shí)挖掘(KDD)數(shù)據(jù)挖掘——知識(shí)挖掘的核心數(shù)據(jù)清理數(shù)據(jù)集成數(shù)據(jù)庫數(shù)據(jù)倉庫Knowledge任務(wù)相關(guān)數(shù)據(jù)選擇數(shù)據(jù)挖掘模式評(píng)估數(shù)據(jù)倉庫與數(shù)據(jù)挖掘2025/1/19KDD的步驟從KDD對(duì)數(shù)據(jù)挖掘的定義中可以看到當(dāng)前研究領(lǐng)域?qū)?shù)據(jù)挖掘的狹義和廣義認(rèn)識(shí)數(shù)據(jù)清理:(這個(gè)可能要占全過程60%的工作量)數(shù)據(jù)集成數(shù)據(jù)選擇數(shù)據(jù)變換數(shù)據(jù)挖掘(選擇適當(dāng)?shù)乃惴▉碚业礁信d趣的模式
—狹義)6.模式評(píng)估7.知識(shí)表示(如圖形等表示方法)數(shù)據(jù)倉庫與數(shù)據(jù)挖掘2025/1/19典型數(shù)據(jù)挖掘系統(tǒng)的體系結(jié)構(gòu)數(shù)據(jù)倉庫數(shù)據(jù)清洗過濾數(shù)據(jù)庫數(shù)據(jù)庫或數(shù)據(jù)倉庫服務(wù)器數(shù)據(jù)挖掘引擎模式評(píng)估圖形用戶界面知識(shí)庫數(shù)據(jù)集成數(shù)據(jù)倉庫與數(shù)據(jù)挖掘2025/1/19并非所有的東西都是數(shù)據(jù)挖掘基于數(shù)據(jù)倉庫的OLAP系統(tǒng)OLAP系統(tǒng)專注于數(shù)據(jù)的匯總,而數(shù)據(jù)挖掘系統(tǒng)可以對(duì)數(shù)據(jù)進(jìn)行多種復(fù)雜的處理。機(jī)器學(xué)習(xí)系統(tǒng),數(shù)據(jù)統(tǒng)計(jì)分析系統(tǒng)這些系統(tǒng)所處理的數(shù)據(jù)容量往往很有限。信息系統(tǒng)專注于數(shù)據(jù)的查詢處理。相比于上述系統(tǒng),數(shù)據(jù)挖掘系統(tǒng)關(guān)注更廣的范圍,是一個(gè)多學(xué)科的融合數(shù)據(jù)倉庫與數(shù)據(jù)挖掘2025/1/19在何種數(shù)據(jù)上進(jìn)行數(shù)據(jù)挖掘關(guān)系數(shù)據(jù)庫數(shù)據(jù)倉庫事務(wù)數(shù)據(jù)庫高級(jí)數(shù)據(jù)庫系統(tǒng)和信息庫空間數(shù)據(jù)庫時(shí)間數(shù)據(jù)庫和時(shí)間序列數(shù)據(jù)庫流數(shù)據(jù)多媒體數(shù)據(jù)庫面向?qū)ο髷?shù)據(jù)庫和對(duì)象-關(guān)系數(shù)據(jù)庫異種數(shù)據(jù)庫和歷史(legacy)數(shù)據(jù)庫文本數(shù)據(jù)庫和萬維網(wǎng)(WWW)數(shù)據(jù)倉庫與數(shù)據(jù)挖掘2025/1/19數(shù)據(jù)挖掘的主要功能
——可以挖掘哪些模式?一般功能描述性的數(shù)據(jù)挖掘預(yù)測(cè)性的數(shù)據(jù)挖掘通常,用戶并不知道在數(shù)據(jù)中能挖掘出什么東西,對(duì)此我們會(huì)在數(shù)據(jù)挖掘中應(yīng)用一些常用的數(shù)據(jù)挖掘功能,挖掘出一些常用的模式,包括:概念/類描述:特性化和區(qū)分關(guān)聯(lián)分析分類和預(yù)測(cè)聚類分析孤立點(diǎn)分析趨勢(shì)和演變分析數(shù)據(jù)倉庫與數(shù)據(jù)挖掘2025/1/19概念/類描述:特性化和區(qū)分概念描述:為數(shù)據(jù)的特征化和比較產(chǎn)生描述(當(dāng)所描述的概念所指的是一類對(duì)象時(shí),也稱為類描述)特征化:提供給定數(shù)據(jù)集的簡(jiǎn)潔匯總。例:對(duì)AllElectronic公司的“大客戶”(年消費(fèi)額$1000以上)的特征化描述:40-50歲,有固定職業(yè),信譽(yù)良好,等等區(qū)分:提供兩個(gè)或多個(gè)數(shù)據(jù)集的比較描述。例:數(shù)據(jù)倉庫與數(shù)據(jù)挖掘2025/1/19關(guān)聯(lián)分析關(guān)聯(lián)規(guī)則挖掘:從事務(wù)數(shù)據(jù)庫,關(guān)系數(shù)據(jù)庫和其他信息存儲(chǔ)中的大量數(shù)據(jù)的項(xiàng)集之間發(fā)現(xiàn)有趣的、頻繁出現(xiàn)的模式、關(guān)聯(lián)和相關(guān)性。廣泛的用于購物籃或事務(wù)數(shù)據(jù)分析。例:數(shù)據(jù)倉庫與數(shù)據(jù)挖掘2025/1/19分類和預(yù)測(cè)1、分類在商業(yè)上應(yīng)用最多,其目的是找出一組能夠描述數(shù)據(jù)集合典型特征的模型和函數(shù)。2、數(shù)據(jù)分類實(shí)際上就是從數(shù)據(jù)庫對(duì)象中發(fā)現(xiàn)共性,并將數(shù)據(jù)對(duì)象分成不同類別的過程。3、分類的目標(biāo)首先是對(duì)訓(xùn)練數(shù)據(jù)進(jìn)行分析,使用數(shù)據(jù)的某些特征屬性,給出每個(gè)類的準(zhǔn)確描述,然后使用這些描述,對(duì)數(shù)據(jù)庫中的其他數(shù)據(jù)進(jìn)行分類。4、分類通常和預(yù)測(cè)聯(lián)系起來,這是因?yàn)榉诸惪梢杂脕眍A(yù)測(cè)數(shù)據(jù)對(duì)象的類標(biāo)記,也可以用來預(yù)測(cè)不知道的數(shù)據(jù)值,當(dāng)被預(yù)測(cè)的值是數(shù)值數(shù)據(jù)時(shí),通常稱之為預(yù)測(cè)。數(shù)據(jù)倉庫與數(shù)據(jù)挖掘2025/1/19分類和預(yù)測(cè)例:通過訓(xùn)練數(shù)據(jù)獲得了如下規(guī)則:IF年齡=“31..40”AND收入=“較高”THEN信用程度=“優(yōu)秀”規(guī)則的含義:年齡在31到40之間,收入較高的情況下,這類顧客群的信用程度被認(rèn)為是“優(yōu)秀”IFage=“<=30”ANDstudent=“no”THENbuys_computer=“no”IFage=“<=30”ANDstudent=“yes”THENbuys_computer=“yes”IFage=“31…40”THENbuys_computer=“yes”IFage=“>40”ANDcredit_rating=“excellent”THENbuys_computer=“yes”IFage=“>40”ANDcredit_rating=“fair”THENbuys_computer=“no”數(shù)據(jù)倉庫與數(shù)據(jù)挖掘2025/1/19聚類分析聚類分析:將物理或抽象對(duì)象的集合分組成為由類似的對(duì)象組成的多個(gè)類的過程。最大化類內(nèi)的相似性和最小化類間的相似性例:對(duì)WEB日志的數(shù)據(jù)進(jìn)行聚類,以發(fā)現(xiàn)相同的用戶訪問模式聚類分析與分類分析相反,首先輸入的是一組沒有被標(biāo)記的記錄,系統(tǒng)按照一定的規(guī)則合理地劃分記錄集合(相當(dāng)于給記錄打標(biāo)記,只不過分類標(biāo)準(zhǔn)不是用戶指定的),然后可以采用分類分析法進(jìn)行數(shù)據(jù)分析,并根據(jù)分析的結(jié)果重新對(duì)原來的記錄集合(沒有被標(biāo)記的記錄集合)進(jìn)行劃分,進(jìn)而再一次進(jìn)行分類分析,如此循環(huán)往復(fù),直到獲得滿意的分析結(jié)果為止。數(shù)據(jù)倉庫與數(shù)據(jù)挖掘2025/1/19孤立點(diǎn)分析孤立點(diǎn)分析孤立點(diǎn):一些與數(shù)據(jù)的一般行為或模型不一致的孤立數(shù)據(jù)通常孤立點(diǎn)被作為“噪音”或異常被丟棄,但在欺騙檢測(cè)中卻可以通過對(duì)罕見事件進(jìn)行孤立點(diǎn)分析而得到結(jié)論。應(yīng)用信用卡欺詐檢測(cè)移動(dòng)電話欺詐檢測(cè)客戶劃分醫(yī)療分析(異常)數(shù)據(jù)倉庫與數(shù)據(jù)挖掘2025/1/19趨勢(shì)和演變分析是針對(duì)事件或?qū)ο笮袨殡S時(shí)間變化的規(guī)律或趨勢(shì),并以此來建立模型。例如:對(duì)股票市場(chǎng)交易數(shù)據(jù)進(jìn)行時(shí)序演變分析,則可能得到這樣的規(guī)則:AT&T股票連續(xù)上漲兩天且DEC股票不下跌,那么第三天IBM股票上漲的可能性為75%。趨勢(shì)和偏差:回歸分析序列模式匹配:周期性分析基于類似性的分析數(shù)據(jù)倉庫與數(shù)據(jù)挖掘2025/1/19所有模式都是有趣的嗎?數(shù)據(jù)挖掘可能產(chǎn)生數(shù)以千計(jì)的模式或規(guī)則,但并不是所有的模式或規(guī)則都是令人感興趣的。模式興趣度的度量一個(gè)模式是有趣的,如果(1)它易于被人理解;(2)在某種程度上,對(duì)于新的或測(cè)試數(shù)據(jù)是有效的;(3)具有潛在效用;(4)新穎的;(5)符合用戶確信的某種假設(shè)模式興趣度的客觀和主觀度量客觀度量:基于所發(fā)現(xiàn)模式的結(jié)構(gòu)和關(guān)于它們的統(tǒng)計(jì),比如:支持度、置信度等等主觀度量:基于用戶對(duì)數(shù)據(jù)的判斷。比如:出乎意料的、新穎的、可行動(dòng)的等等數(shù)據(jù)倉庫與數(shù)據(jù)挖掘2025/1/19能夠產(chǎn)生所有有趣模式并且僅產(chǎn)生有趣模式嗎?找出所有有趣的模式:數(shù)據(jù)挖掘算法的完全性問題數(shù)據(jù)挖掘系統(tǒng)能夠產(chǎn)生所有有趣的模式嗎?試探搜索vs.窮舉搜索關(guān)聯(lián)vs.分類vs.聚類只搜索有趣的模式:數(shù)據(jù)挖掘算法的最優(yōu)化問題數(shù)據(jù)挖掘系統(tǒng)可以僅僅發(fā)現(xiàn)有趣的模式嗎?方法首先生成所有模式然后過濾那些無趣的.僅僅生成有趣的模式—挖掘查詢優(yōu)化數(shù)據(jù)倉庫與數(shù)據(jù)挖掘2025/1/19數(shù)據(jù)挖掘:多個(gè)學(xué)科的融合數(shù)據(jù)挖掘數(shù)據(jù)庫系統(tǒng)統(tǒng)計(jì)學(xué)其他學(xué)科算法機(jī)器學(xué)習(xí)可視化數(shù)據(jù)倉庫與數(shù)據(jù)挖掘2025/1/19數(shù)據(jù)挖掘系統(tǒng)的分類(1)數(shù)據(jù)挖掘的多學(xué)科融合的特性,決定了數(shù)據(jù)挖掘的研究將產(chǎn)生種類繁多的數(shù)據(jù)挖掘系統(tǒng)。根據(jù)所挖掘的數(shù)據(jù)庫分類關(guān)系數(shù)據(jù)庫,事務(wù)數(shù)據(jù)庫,流式數(shù)據(jù),面向?qū)ο髷?shù)據(jù)庫,對(duì)象關(guān)系數(shù)據(jù)庫,數(shù)據(jù)倉庫,空間數(shù)據(jù)庫,時(shí)序數(shù)據(jù)庫,文本數(shù)據(jù)庫,多媒體數(shù)據(jù)庫,異構(gòu)數(shù)據(jù)庫,歷史數(shù)據(jù)庫數(shù)據(jù)倉庫與數(shù)據(jù)挖掘2025/1/19數(shù)據(jù)挖掘系統(tǒng)的分類(2)根據(jù)挖掘的知識(shí)類型特征分析,區(qū)分,關(guān)聯(lián)分析,分類聚類,孤立點(diǎn)分析/演變分析,偏差分析等等.多種方法的集成和多層機(jī)挖掘根據(jù)挖掘所用的技術(shù)面向數(shù)據(jù)庫的挖掘、數(shù)據(jù)倉庫、OLAP、機(jī)器學(xué)習(xí)、統(tǒng)計(jì)學(xué)、可視化等等.根據(jù)挖掘所用的應(yīng)用金融,電信,銀行,欺詐分析,DNA分析,股票市場(chǎng),Web挖掘等等.數(shù)據(jù)倉庫與數(shù)據(jù)挖掘2025/1/19第二節(jié):數(shù)據(jù)倉庫和數(shù)據(jù)挖掘的OLAP技術(shù)數(shù)據(jù)倉庫與數(shù)據(jù)挖掘數(shù)據(jù)倉庫-數(shù)據(jù)挖掘的有效平臺(tái)數(shù)據(jù)倉庫中的數(shù)據(jù)清理和數(shù)據(jù)集成,是數(shù)據(jù)挖掘的重要數(shù)據(jù)預(yù)處理步驟數(shù)據(jù)倉庫提供OLAP工具,可用于不同粒度的數(shù)據(jù)分析很多數(shù)據(jù)挖掘功能都可以和OLAP操作集成,以提供不同概念層上的知識(shí)發(fā)現(xiàn)分類預(yù)測(cè)關(guān)聯(lián)聚集數(shù)據(jù)倉庫與數(shù)據(jù)挖掘2025/1/19數(shù)據(jù)倉庫的定義與基本特性1.數(shù)據(jù)倉庫的定義
WilliamH.Inmon在1993年所寫的論著《BuildingtheDataWarehouse》首先系統(tǒng)地闡述了關(guān)于數(shù)據(jù)倉庫的思想、理論,為數(shù)據(jù)倉庫的發(fā)展奠定了歷史基石。文中他將數(shù)據(jù)倉庫定義為:adatawarehouseisasubject-oriented,integrated,non-volatile,time-variantcollectionofdatainsupportofmanagementdecisions.
一個(gè)面向主題的、集成的、非易失性的、隨時(shí)間變化的數(shù)據(jù)的集合,以用于支持管理層決策過程。數(shù)據(jù)倉庫與數(shù)據(jù)挖掘2025/1/19數(shù)據(jù)倉庫關(guān)鍵特征一——面向主題
面向主題表示了數(shù)據(jù)倉庫中數(shù)據(jù)組織的基本原則,數(shù)據(jù)倉庫中的數(shù)由數(shù)據(jù)都是圍繞著某一主題組織展開的。由于數(shù)據(jù)倉庫的用戶大多是企業(yè)的管理決策者,這些人所面對(duì)的往往是一些比較抽象的、層次較高的管理分析對(duì)象。例如,企業(yè)中的客戶、產(chǎn)品、供應(yīng)商等都可以作為主題看待。從信息管理的角度看,主題就是在一個(gè)較高的管理層次上對(duì)信息系統(tǒng)的數(shù)據(jù)按照某一具體的管理對(duì)象進(jìn)行綜合、歸類所形成的分析對(duì)象。從數(shù)據(jù)組織的角度看,主題是一些數(shù)據(jù)集合,這些數(shù)據(jù)集合對(duì)分析對(duì)象作了比較完整的、一致的描述,這種描述不僅涉及到數(shù)據(jù)自身,而且涉及到數(shù)據(jù)之間的關(guān)系。數(shù)據(jù)倉庫與數(shù)據(jù)挖掘2025/1/19數(shù)據(jù)倉庫關(guān)鍵特征二——數(shù)據(jù)集成一個(gè)數(shù)據(jù)倉庫是通過集成多個(gè)異種數(shù)據(jù)源來構(gòu)造的。關(guān)系數(shù)據(jù)庫,一般文件,聯(lián)機(jī)事務(wù)處理記錄(OLTP)使用數(shù)據(jù)清理和數(shù)據(jù)集成技術(shù)。確保命名約定、編碼結(jié)構(gòu)、屬性度量等的一致性。當(dāng)數(shù)據(jù)被移到數(shù)據(jù)倉庫時(shí),它們要經(jīng)過轉(zhuǎn)化。數(shù)據(jù)倉庫與數(shù)據(jù)挖掘2025/1/19數(shù)據(jù)倉庫關(guān)鍵特征三——隨時(shí)間而變化數(shù)據(jù)倉庫是從歷史的角度提供信息數(shù)據(jù)倉庫的時(shí)間范圍比操作數(shù)據(jù)庫系統(tǒng)要長(zhǎng)的多。操作數(shù)據(jù)庫系統(tǒng):主要保存當(dāng)前數(shù)據(jù)。數(shù)據(jù)倉庫:從歷史的角度提供信息(比如過去5-10年)數(shù)據(jù)倉庫中的每一個(gè)關(guān)鍵結(jié)構(gòu)都隱式或顯式地包含時(shí)間元素,而操作數(shù)據(jù)庫中的關(guān)鍵結(jié)構(gòu)可能就不包括時(shí)間元素盡管數(shù)據(jù)倉庫中的數(shù)據(jù)并不像業(yè)務(wù)數(shù)據(jù)庫那樣反映業(yè)務(wù)處理的實(shí)際狀況,但是數(shù)據(jù)也不能長(zhǎng)期不變,如果依據(jù)10年前的數(shù)據(jù)進(jìn)行決策分析,那決策所帶來的后果將是十分可怕的。數(shù)據(jù)倉庫與數(shù)據(jù)挖掘2025/1/19因此,數(shù)據(jù)倉庫必須能夠不斷捕捉主題的變化數(shù)據(jù),將那些變化的數(shù)據(jù)追加到數(shù)據(jù)倉庫中去,也就是說在數(shù)據(jù)倉庫中必須不斷的生成主題的新快照,以滿足決策分析的需要。數(shù)據(jù)新快照生成的間隔,可以根據(jù)快照的生成速度和決策分析的需要而定。
例如,如果分析企業(yè)近幾年的銷售情況,那快照可以每隔一個(gè)月生成一次;如果分析一個(gè)月的暢銷產(chǎn)品,那快照生成間隔就需要每天一次。數(shù)據(jù)倉庫與數(shù)據(jù)挖掘2025/1/19數(shù)據(jù)倉庫的非易失性是指數(shù)據(jù)倉庫的數(shù)據(jù)不進(jìn)行更新處理,而是一旦數(shù)據(jù)進(jìn)入數(shù)據(jù)倉庫以后,就會(huì)保持一個(gè)相當(dāng)長(zhǎng)的時(shí)間。因?yàn)閿?shù)據(jù)倉庫中數(shù)據(jù)大多表示過去某一時(shí)刻的數(shù)據(jù),主要用于查詢、分析,不像業(yè)務(wù)系統(tǒng)中的數(shù)據(jù)庫那樣,要經(jīng)常進(jìn)行修改、添加,除非數(shù)據(jù)倉庫中的數(shù)據(jù)是錯(cuò)誤的。數(shù)據(jù)倉庫關(guān)鍵特征四——數(shù)據(jù)不易丟失數(shù)據(jù)倉庫與數(shù)據(jù)挖掘2025/1/19數(shù)據(jù)倉庫關(guān)鍵特征四——數(shù)據(jù)不易丟失盡管數(shù)據(jù)倉庫中的數(shù)據(jù)來自于操作數(shù)據(jù)庫,但他們卻是在物理上分離保存的。操作數(shù)據(jù)庫的更新操作不會(huì)出現(xiàn)在數(shù)據(jù)倉庫環(huán)境下。不需要事務(wù)處理,恢復(fù),和并發(fā)控制等機(jī)制(大大提高了處理速度)只需要兩種數(shù)據(jù)訪問:數(shù)據(jù)的初始轉(zhuǎn)載和數(shù)據(jù)訪問(讀操作)數(shù)據(jù)倉庫與數(shù)據(jù)挖掘2025/1/19數(shù)據(jù)倉庫的構(gòu)建與使用數(shù)據(jù)倉庫的構(gòu)建包括一系列的數(shù)據(jù)預(yù)處理過程數(shù)據(jù)清理數(shù)據(jù)集成數(shù)據(jù)變換數(shù)據(jù)倉庫的使用熱點(diǎn)是商業(yè)決策行為,例如:增加客戶聚焦產(chǎn)品重定位尋找獲利點(diǎn)客戶關(guān)系管理數(shù)據(jù)倉庫與數(shù)據(jù)挖掘2025/1/19數(shù)據(jù)倉庫與操作數(shù)據(jù)庫系統(tǒng)操作數(shù)據(jù)庫系統(tǒng)的主要任務(wù)是聯(lián)機(jī)事務(wù)處理OLTP日常操作:購買,庫存,銀行,制造,工資,注冊(cè),記帳等數(shù)據(jù)倉庫的主要任務(wù)是聯(lián)機(jī)分析處理OLAP數(shù)據(jù)分析和決策支持,支持以不同的形式顯示數(shù)據(jù)以滿足不同的用戶需要數(shù)據(jù)倉庫與數(shù)據(jù)挖掘2025/1/19OLAPVS.OLTP(1)用戶和系統(tǒng)的面向性面向顧客(事務(wù))VS.面向市場(chǎng)(分析)數(shù)據(jù)內(nèi)容當(dāng)前的、詳細(xì)的數(shù)據(jù)(如超市一個(gè)月的數(shù)據(jù))VS.歷史的、匯總的數(shù)據(jù)數(shù)據(jù)庫設(shè)計(jì)實(shí)體-聯(lián)系模型(ER)和面向應(yīng)用的數(shù)據(jù)庫設(shè)計(jì)VS.星型/雪花模型和面向主題的數(shù)據(jù)庫設(shè)計(jì)數(shù)據(jù)倉庫與數(shù)據(jù)挖掘2025/1/19OLAPVS.OLTP(2)數(shù)據(jù)視圖當(dāng)前的、企業(yè)內(nèi)部的數(shù)據(jù)VS.經(jīng)過演化的、集成的數(shù)據(jù)訪問模式事務(wù)操作(如查詢、寫入、修改)VS.只讀查詢(但很多是復(fù)雜的查詢)任務(wù)單位簡(jiǎn)短的事務(wù)VS.復(fù)雜的查詢?cè)L問數(shù)據(jù)量數(shù)十個(gè)VS.數(shù)百萬個(gè)數(shù)據(jù)倉庫與數(shù)據(jù)挖掘2025/1/19OLAPVS.OLTP(3)用戶數(shù)數(shù)千個(gè)VS.數(shù)百個(gè)(復(fù)雜查詢,消耗資源)數(shù)據(jù)庫規(guī)模100M-數(shù)GB(因此一般關(guān)注近期數(shù)據(jù))VS.100GB-數(shù)TB設(shè)計(jì)優(yōu)先性高性能、高可用性VS.高靈活性、端點(diǎn)用戶自治度量事務(wù)吞吐量VS.查詢吞吐量、響應(yīng)時(shí)間數(shù)據(jù)倉庫與數(shù)據(jù)挖掘2025/1/19為什么需要一個(gè)分離的數(shù)據(jù)倉庫?“既然操作數(shù)據(jù)庫存放了大量數(shù)據(jù)”,“為什么不直接在這種數(shù)據(jù)庫上進(jìn)行聯(lián)機(jī)分析處理,而是另外花費(fèi)時(shí)間和資源去構(gòu)造一個(gè)分離的數(shù)據(jù)倉庫?”分離的主要原因是提高兩個(gè)系統(tǒng)的性能DBMS是為OLTP而設(shè)計(jì)的:存儲(chǔ)方式,索引,并發(fā)控制,恢復(fù)(OLAP不需要)數(shù)據(jù)倉庫是為OLAP而設(shè)計(jì):復(fù)雜的OLAP查詢,多維視圖,匯總數(shù)據(jù)倉庫與數(shù)據(jù)挖掘2025/1/19為什么需要一個(gè)分離的數(shù)據(jù)倉庫?兩個(gè)系統(tǒng)提供不同的功能和處理不同的數(shù)據(jù):歷史數(shù)據(jù):
決策支持需要?dú)v史數(shù)據(jù),而這些數(shù)據(jù)在操作數(shù)據(jù)庫中一般不會(huì)去維護(hù)數(shù)據(jù)匯總:決策支持需要將來自異種源的數(shù)據(jù)統(tǒng)一(如聚集和匯總)數(shù)據(jù)質(zhì)量:
不同的源使用不一致的數(shù)據(jù)表示、編碼和格式,對(duì)這些數(shù)據(jù)進(jìn)行有效的分析需要將他們轉(zhuǎn)化后進(jìn)行集成由于兩個(gè)系統(tǒng)提供很不相同的功能,需要不同類型的數(shù)據(jù),因此需要維護(hù)分離的數(shù)據(jù)庫。然而,許多關(guān)系數(shù)據(jù)庫管理系統(tǒng)賣主正開始優(yōu)化這種系統(tǒng),使之支持OLAP查詢。隨著這一趨勢(shì)的繼續(xù),OLTP和OLAP系統(tǒng)之間的分離可望消失。數(shù)據(jù)倉庫與數(shù)據(jù)挖掘OLAP與OLTP對(duì)比總結(jié)數(shù)據(jù)倉庫與數(shù)據(jù)挖掘OLAP的幾個(gè)基本概念1、維:維是關(guān)于一個(gè)組織想要記錄的視角或觀點(diǎn)。每個(gè)維都有一個(gè)表與之相關(guān)聯(lián),稱為維表。
同一個(gè)問題可以從不同維度進(jìn)行觀察分析。如:超市分析某一個(gè)時(shí)期內(nèi)營業(yè)額的變化,是從時(shí)間維角度分析。按所處地區(qū)對(duì)連鎖店的營業(yè)額分析,是從地理維角度分析。2、維的層次:在同一維度上存在多個(gè)程度不同的細(xì)節(jié)。3、維的成員:是指某個(gè)維的某個(gè)具體取值。4、多維數(shù)組:如果一個(gè)數(shù)據(jù)集合可以從多個(gè)角度進(jìn)行觀察,則根據(jù)這些維度將數(shù)據(jù)組織所構(gòu)成的數(shù)組,就是多維數(shù)組.多維數(shù)組可以用圖形化來表示,也可以用表格表示數(shù)據(jù)倉庫與數(shù)據(jù)挖掘2025/1/19OLAP的幾個(gè)基本概念
當(dāng)維度的數(shù)量不超過3時(shí),采用圖形的方法可以很直觀的表達(dá)出該數(shù)組的內(nèi)涵,但超三維的結(jié)構(gòu),圖形方式無能為力。如增加客戶類別維。數(shù)據(jù)倉庫與數(shù)據(jù)挖掘OLAP的幾個(gè)基本概念超三維數(shù)據(jù)的表格表示數(shù)據(jù)倉庫與數(shù)據(jù)挖掘多維數(shù)據(jù)模型(1)數(shù)據(jù)倉庫和OLAP工具基于多維數(shù)據(jù)模型(OLTP基于什么?)在多維數(shù)據(jù)模型中,數(shù)據(jù)以數(shù)據(jù)立方體(datacube)的形式存在數(shù)據(jù)立方體允許以多維數(shù)據(jù)建模和觀察。它由維和事實(shí)定義維是關(guān)于一個(gè)組織想要記錄的視角或觀點(diǎn)。每個(gè)維都有一個(gè)表與之相關(guān)聯(lián),稱為維表。多維數(shù)據(jù)模型圍繞中心主題組織,該主題用事實(shí)表表示事實(shí)表包括事實(shí)的名稱或度量以及每個(gè)相關(guān)維表的關(guān)鍵字事實(shí)指的是一些數(shù)字度量數(shù)據(jù)倉庫與數(shù)據(jù)挖掘2025/1/19多維數(shù)據(jù)模型(2)——示例
time_keydayday_of_the_weekmonthquarteryeartime維表location_keystreetcitystate_or_provincecountrylocation維表Sales事實(shí)表time_keyitem_keybranch_keylocation_keyunits_solddollars_soldavg_sales度量item_keyitem_namebrandtypesupplier_typeitem維表branch_keybranch_namebranch_typebranch維表數(shù)據(jù)倉庫與數(shù)據(jù)挖掘2025/1/19數(shù)據(jù)倉庫的概念模型最流行的數(shù)據(jù)倉庫概念模型是多維數(shù)據(jù)模型。這種模型可以以星型模式、雪花模式、或事實(shí)星座模式的形式存在。星型模式(Starschema):事實(shí)表在中心,周圍圍繞地連接著維表(每維一個(gè)),事實(shí)表含有大量數(shù)據(jù),沒有冗余。雪花模式(Snowflakeschema):是星型模式的變種,其中某些維表是規(guī)范化的,因而把數(shù)據(jù)進(jìn)一步分解到附加表中。結(jié)果,模式圖形成類似于雪花的形狀。事實(shí)星座(Factconstellations):
多個(gè)事實(shí)表共享維表,這種模式可以看作星型模式集,因此稱為星系模式(galaxyschema),或者事實(shí)星座(factconstellation)數(shù)據(jù)倉庫與數(shù)據(jù)挖掘
time_keydayday_of_the_weekmonthquarteryeartime維表location_keystreetcitystate_or_provincecountrylocation維表Sales事實(shí)表time_keyitem_keybranch_keylocation_keyunits_solddollars_soldavg_sales度量item_keyitem_namebrandtypesupplier_typeitem維表branch_keybranch_namebranch_typebranch維表星型模式實(shí)例數(shù)據(jù)倉庫與數(shù)據(jù)挖掘2025/1/19雪花模式實(shí)例time_keydayday_of_the_weekmonthquarteryeartimelocation_keystreetcity_keylocationSalesFactTabletime_keyitem_keybranch_keylocation_keyunits_solddollars_soldavg_salesMeasuresitem_keyitem_namebrandtypesupplier_keyitembranch_keybranch_namebranch_typebranchsupplier_keysupplier_typesuppliercity_keycitystate_or_provincecountrycity數(shù)據(jù)倉庫與數(shù)據(jù)挖掘2025/1/19雪花模型是在星形模型的基礎(chǔ)上發(fā)展起來的,它在事實(shí)表和維度表的基礎(chǔ)上,增加了一類新的表——詳細(xì)類別表。在星形表中事實(shí)表的規(guī)范化程度較高,但是對(duì)于維度表的冗余度未加限制,雪花模型引入詳細(xì)類別表就是為了將維度表的數(shù)據(jù)進(jìn)一步分解,以提高數(shù)據(jù)模型的規(guī)范化程度,具有較低的粒度。在實(shí)際運(yùn)用中使用星形模型較多雪花模式實(shí)例數(shù)據(jù)倉庫與數(shù)據(jù)挖掘2025/1/19事實(shí)星座模式實(shí)例time_keydayday_of_the_weekmonthquarteryeartimelocation_keystreetcityprovince_or_statecountrylocationSalesFactTabletime_keyitem_keybranch_keylocation_keyunits_solddollars_soldavg_salesMeasuresitem_keyitem_namebrandtypesupplier_typeitembranch_keybranch_namebranch_typebranchShippingFactTabletime_keyitem_keyshipper_keyfrom_locationto_locationdollars_costunits_shippedshipper_keyshipper_namelocation_keyshipper_typeshipper數(shù)據(jù)倉庫與數(shù)據(jù)挖掘2025/1/19概念分層(1)一個(gè)概念分層(concepthierarchy)定義一個(gè)映射序列,將低層概念映射到更一般的高層概念E.g.表示location的概念:杭州
浙江
中國
亞洲概念分層允許我們?cè)诟鞣N抽象級(jí)審查和處理數(shù)據(jù)概念分層可以由系統(tǒng)用戶、領(lǐng)域?qū)<?、知識(shí)工程師人工的提供,也可以根據(jù)數(shù)據(jù)分布的統(tǒng)計(jì)分析自動(dòng)的產(chǎn)生數(shù)據(jù)倉庫與數(shù)據(jù)挖掘2025/1/19概念分層(2):location維的一個(gè)概念分層allEuropeNorth_AmericaMexicoCanadaSpainGermanyVancouverM.WindL.Chan..................allregionofficecountryTorontoFrankfurtcity許多概念分層的定義隱含在數(shù)據(jù)庫的模式中。比如:location維的定義,office<city<country<region;這些屬性按一個(gè)全序相關(guān),形成一個(gè)層次結(jié)構(gòu):yeardayquartermonthweekTime維的屬性也可以組成一個(gè)偏序,形成一個(gè)格。例如,維time基于屬性day,week,month,quarter和year就是一個(gè)偏序“day<{month<quarter;week}<year”數(shù)據(jù)倉庫與數(shù)據(jù)挖掘2025/1/19概念分層(3)——使用概念分層為不同級(jí)別上的數(shù)據(jù)匯總提供了一個(gè)良好的基礎(chǔ)綜合概念分層和多維數(shù)據(jù)模型的潛力,可以對(duì)數(shù)據(jù)獲得更深入的洞察力通過在多維數(shù)據(jù)模型中,在不同的維上定義概念分層,使得用戶在不同的維上從不同的層次對(duì)數(shù)據(jù)進(jìn)行觀察成為可能。多維數(shù)據(jù)模型(數(shù)據(jù)立方體)使得從不同的角度對(duì)數(shù)據(jù)進(jìn)行觀察成為可能,而概念分層則提供了從不同層次對(duì)數(shù)據(jù)進(jìn)行觀察的能力;結(jié)合這兩者的特征,我們可以在多維數(shù)據(jù)模型上定義各種OLAP操作,為用戶從不同角度不同層次觀察數(shù)據(jù)提供了靈活性:數(shù)據(jù)倉庫與數(shù)據(jù)挖掘2025/1/19多維數(shù)據(jù)模型上的OLAP操作(1)上卷(roll-up):匯總數(shù)據(jù)(實(shí)例圖)通過一個(gè)維的概念分層向上攀升或者通過維規(guī)約當(dāng)用維歸約進(jìn)行上卷時(shí),一個(gè)或多個(gè)維由給定的數(shù)據(jù)立方體刪除下鉆(drill-down):上卷的逆操作由不太詳細(xì)的數(shù)據(jù)到更詳細(xì)的數(shù)據(jù),可以通過沿維的概念分層向下或引入新的維來實(shí)現(xiàn)(為給定數(shù)據(jù)添加更多細(xì)節(jié))切片和切塊(sliceanddice)切片操作在給定的數(shù)據(jù)立方體的一個(gè)維上進(jìn)行選擇,導(dǎo)致一個(gè)子方切塊操作通過對(duì)兩個(gè)或多個(gè)維進(jìn)行選擇,定義子方數(shù)據(jù)倉庫與數(shù)據(jù)挖掘2025/1/19多維數(shù)據(jù)模型上的OLAP操作(2)轉(zhuǎn)軸(pivot)立方體的重定位,可視化,或?qū)⒁粋€(gè)3維立方體轉(zhuǎn)化為一個(gè)2維平面序列轉(zhuǎn)軸是一種可視化操作,通過轉(zhuǎn)動(dòng)當(dāng)前數(shù)據(jù)的視圖來提供一個(gè)數(shù)據(jù)的替代表示數(shù)據(jù)倉庫與數(shù)據(jù)挖掘2025/1/19知識(shí)點(diǎn)回顧1、試比較OLAP與OLTP的區(qū)別。2、數(shù)據(jù)倉庫的概念模型有哪些?各有什么特點(diǎn)?3、多維數(shù)據(jù)模型上的OLAP操作有哪些?數(shù)據(jù)倉庫與數(shù)據(jù)挖掘2025/1/19數(shù)據(jù)倉庫的結(jié)構(gòu)
數(shù)據(jù)倉庫的數(shù)據(jù)級(jí)別(粒度)數(shù)據(jù)倉庫與數(shù)據(jù)挖掘2025/1/19早期細(xì)節(jié)數(shù)據(jù)
存儲(chǔ)過去的詳細(xì)數(shù)據(jù),反映真實(shí)的歷史情況,這類數(shù)據(jù)隨著時(shí)間增加,數(shù)據(jù)量很大,使用頻率低,一般存儲(chǔ)在轉(zhuǎn)換介質(zhì)中。(例如磁帶中)當(dāng)前細(xì)節(jié)數(shù)據(jù)
存儲(chǔ)最近時(shí)期的業(yè)務(wù)數(shù)據(jù),反映當(dāng)前業(yè)務(wù)的情況,數(shù)據(jù)量大,是數(shù)據(jù)倉庫用戶最感興趣的部分。隨著時(shí)間的推移,當(dāng)前細(xì)節(jié)數(shù)據(jù)由數(shù)據(jù)倉庫的時(shí)間控制機(jī)制轉(zhuǎn)為早期細(xì)節(jié)數(shù)據(jù)。輕度綜合數(shù)據(jù)
從當(dāng)前基本數(shù)據(jù)中提取出來,通常以較小的時(shí)間段(粒度)統(tǒng)計(jì)而成的數(shù)據(jù),其數(shù)據(jù)量較細(xì)節(jié)及數(shù)據(jù)少得多。高度綜合數(shù)據(jù)
這一層的數(shù)據(jù)十分精煉,是一種準(zhǔn)決策數(shù)據(jù)。數(shù)據(jù)倉庫與數(shù)據(jù)挖掘數(shù)據(jù)倉庫設(shè)計(jì):一個(gè)商務(wù)分析框架(1)數(shù)據(jù)倉庫給商業(yè)分析專家提供了什么?通過提供相關(guān)數(shù)據(jù)與信息,獲得競(jìng)爭(zhēng)優(yōu)勢(shì)通過有效的收集精確的描述組織的數(shù)據(jù),獲得生產(chǎn)力的提高通過提供不同級(jí)別(部門、市場(chǎng)、商業(yè))的客戶視圖,協(xié)助客戶關(guān)系管理通過追蹤長(zhǎng)期趨勢(shì)、異常等,降低成本有效構(gòu)建數(shù)據(jù)倉庫的關(guān)鍵:理解和分析商業(yè)需求通過提供一個(gè)商業(yè)分析框架,綜合各種不同的數(shù)據(jù)使用者的視圖數(shù)據(jù)倉庫與數(shù)據(jù)挖掘2025/1/19數(shù)據(jù)倉庫設(shè)計(jì):一個(gè)商務(wù)分析框架(2)數(shù)據(jù)倉庫設(shè)計(jì)的四種視圖自頂向下視圖使得我們可以選擇數(shù)據(jù)倉庫所需的相關(guān)信息。數(shù)據(jù)源視圖揭示被操作數(shù)據(jù)庫系統(tǒng)所捕獲、存儲(chǔ)和管理的信息數(shù)據(jù)倉庫視圖由事實(shí)表和維表所組成商務(wù)查詢視圖從最終用戶的角度透視數(shù)據(jù)倉庫中的數(shù)據(jù)數(shù)據(jù)倉庫與數(shù)據(jù)挖掘2025/1/19數(shù)據(jù)倉庫設(shè)計(jì):一個(gè)商務(wù)分析框架(3)數(shù)據(jù)倉庫的構(gòu)建與使用涉及多種技能商業(yè)技能理解系統(tǒng)如何存儲(chǔ)和管理數(shù)據(jù)數(shù)據(jù)如何提取數(shù)據(jù)如何刷新技術(shù)方面的技能如何通過使用各種數(shù)據(jù)或量化的信息,導(dǎo)出可以提供決策支持的模式、趨勢(shì)、判斷等如何通過審查歷史數(shù)據(jù),分析發(fā)展趨勢(shì)等計(jì)劃管理技能如何通過與不同的技術(shù)、廠商、用戶交互,來及時(shí)、有效、經(jīng)濟(jì)的提交結(jié)果數(shù)據(jù)倉庫與數(shù)據(jù)挖掘2025/1/19數(shù)據(jù)倉庫的設(shè)計(jì)過程(1)自頂向下法、自底向上法或者兩者的混合方法自頂向下法:由總體設(shè)計(jì)和規(guī)劃開始當(dāng)技術(shù)成熟并已掌握,對(duì)必須解決的商務(wù)問題清楚并已很好理解時(shí),這種方法是有用的。自底向上法:以實(shí)驗(yàn)和原型開始在商務(wù)建模和技術(shù)開發(fā)的早期階段,這種方法是有用的。這樣可以以相當(dāng)?shù)偷拇鷥r(jià)前進(jìn),在作出重要承諾之前評(píng)估技術(shù)的利益?;旌戏椒ǎ荷鲜鰞烧叩慕Y(jié)合從軟件過程的觀點(diǎn)瀑布式方法:在進(jìn)行下一步前,每一步都進(jìn)行結(jié)構(gòu)化和系統(tǒng)的分析螺旋式方法:功能漸增的系統(tǒng)的快速產(chǎn)生,相繼版本之間間隔很短。對(duì)于數(shù)據(jù)集市的開發(fā),這是一個(gè)好的選擇。數(shù)據(jù)倉庫與數(shù)據(jù)挖掘數(shù)據(jù)倉庫的設(shè)計(jì)過程(2)典型的數(shù)據(jù)倉庫設(shè)計(jì)過程選取待建模的商務(wù)過程找到所構(gòu)建的數(shù)據(jù)倉庫的主題,比如:銷售、貨運(yùn)、訂單等等選取商務(wù)處理的粒度。對(duì)于處理,該粒度是基本的、在事實(shí)表中是數(shù)據(jù)的原子級(jí)。例如,單個(gè)事務(wù)、一天的快照等。選取用于每個(gè)事實(shí)表記錄的維。典型的維是時(shí)間、商品、顧客、供應(yīng)商、倉庫、事務(wù)類型和狀態(tài)。選取將安放在事實(shí)表中的度量常用的數(shù)字度量包括:售價(jià)、貨物數(shù)量等數(shù)據(jù)倉庫與數(shù)據(jù)挖掘2025/1/19三層數(shù)據(jù)倉庫架構(gòu)(1)數(shù)據(jù)倉庫提取清理轉(zhuǎn)換裝入刷新OLAP服務(wù)器查詢報(bào)告分析數(shù)據(jù)挖掘監(jiān)控、整合元數(shù)據(jù)存儲(chǔ)數(shù)據(jù)源前端工具輸出數(shù)據(jù)集市操作數(shù)據(jù)庫其他外部信息源數(shù)據(jù)倉庫服務(wù)器OLAP服務(wù)器數(shù)據(jù)倉庫與數(shù)據(jù)挖掘2025/1/19三層數(shù)據(jù)倉庫架構(gòu)(2)底層:數(shù)據(jù)倉庫的數(shù)據(jù)庫服務(wù)器關(guān)注的問題:如何從這一層提取數(shù)據(jù)來構(gòu)建數(shù)據(jù)倉庫(通過Gateway(ODBC,JDBC,OLE/DB等)來提?。┲虚g層:OLAP服務(wù)器關(guān)注的問題:OLAP服務(wù)器如何實(shí)施(關(guān)系型OLAP(ROLAP),多維MOLAP(MOLAP)等)前端客戶工具層關(guān)注的問題:查詢工具、報(bào)表工具、分析工具、挖掘工具等數(shù)據(jù)倉庫與數(shù)據(jù)挖掘2025/1/19三種數(shù)據(jù)倉庫模型從體系結(jié)構(gòu)的角度去看,數(shù)據(jù)倉庫模型可以有以下兩種:企業(yè)倉庫搜集了關(guān)于主題的所有信息,跨越整個(gè)組織數(shù)據(jù)集市企業(yè)范圍數(shù)據(jù)的一個(gè)子集,對(duì)于特定的客戶是有用的。其范圍限于選定的主題,比如一個(gè)商場(chǎng)的數(shù)據(jù)集市獨(dú)立的數(shù)據(jù)集市VS.非獨(dú)立的數(shù)據(jù)集市(數(shù)據(jù)來自于企業(yè)數(shù)據(jù)倉庫)與企業(yè)倉庫的差異在于數(shù)據(jù)集市應(yīng)采用星形模式,而企業(yè)倉庫應(yīng)采用事實(shí)星座模式數(shù)據(jù)倉庫與數(shù)據(jù)挖掘數(shù)據(jù)倉庫開發(fā):困難與方法數(shù)據(jù)倉庫開發(fā)上的困難自頂向下開發(fā)企業(yè)倉庫是一種系統(tǒng)的解決方法,并能最大限度地減少集成問題。但它費(fèi)用高,需要長(zhǎng)時(shí)間開發(fā),并且缺乏靈活性,因?yàn)檎麄€(gè)組織的共同數(shù)據(jù)模型達(dá)到一致是困難的。自底向上設(shè)計(jì)、開發(fā)、配置獨(dú)立的數(shù)據(jù)集市方法提供了靈活性、低花費(fèi),并能快速回報(bào)投資。然而,將分散的數(shù)據(jù)集市集成,形成一個(gè)一致的企業(yè)數(shù)據(jù)倉庫時(shí),可能導(dǎo)致問題。解決方法:使用遞增性、演化性的開發(fā)方法(見后圖)高層數(shù)據(jù)模型
企業(yè)倉庫和數(shù)據(jù)集市并行開發(fā)
通過分布式模型集成各數(shù)據(jù)集市
多層數(shù)據(jù)倉庫數(shù)據(jù)倉庫與數(shù)據(jù)挖掘2025/1/19數(shù)據(jù)倉庫開發(fā)——一個(gè)推薦的方法定義高層數(shù)據(jù)模型數(shù)據(jù)集市數(shù)據(jù)集市分布式數(shù)據(jù)集市多層數(shù)據(jù)倉庫企業(yè)數(shù)據(jù)倉庫模型提煉模型提煉數(shù)據(jù)倉庫與數(shù)據(jù)挖掘2025/1/19OLAP服務(wù)器類型(1)OLAP服務(wù)器為商務(wù)用戶提供來自數(shù)據(jù)倉庫或數(shù)
據(jù)集市的多維數(shù)據(jù),而不必關(guān)心數(shù)據(jù)如何存放和存放在何處。然而,OLAP服務(wù)器的物理結(jié)構(gòu)和實(shí)現(xiàn)必須考慮數(shù)據(jù)存放問題。關(guān)系OLAP服務(wù)器(ROLAP)使用關(guān)系數(shù)據(jù)庫或擴(kuò)展的關(guān)系數(shù)據(jù)庫存放并管理數(shù)據(jù)倉庫的數(shù)據(jù),而用OLAP中間件支持其余部分。數(shù)據(jù)和聚合表都存在關(guān)系數(shù)據(jù)庫。包括每個(gè)DBMS后端優(yōu)化,聚集導(dǎo)航邏輯的實(shí)現(xiàn),附加的工具和服務(wù)Microstrategy的DSS和Informix的Metacube都采用ROLAP方法數(shù)據(jù)倉庫與數(shù)據(jù)挖掘2025/1/19OLAP服務(wù)器類型(2)多維OLAP服務(wù)器(MOLAP)通過基于數(shù)組的多維存儲(chǔ)引擎,支持?jǐn)?shù)據(jù)的多維視圖。Arbor的Essbase是一個(gè)MOLAP服務(wù)器。數(shù)據(jù)和聚合表都存在多維數(shù)據(jù)結(jié)構(gòu)中?;旌螼LAP服務(wù)器(HOLAP)結(jié)合ROLAP和MOLAP技術(shù),得益于ROLAP較大的規(guī)模性和MOLAP的快速計(jì)算。例如,HOLAP服務(wù)器允許將大量詳細(xì)數(shù)據(jù)存放在關(guān)系數(shù)據(jù)庫中,而聚集保持在分離的MOLAP存儲(chǔ)中。微軟的SQLServer7.0OLAP服務(wù)支持混合OLAP服務(wù)器。數(shù)據(jù)保存在關(guān)系數(shù)據(jù)庫,聚合存在多維結(jié)構(gòu)中。特殊的SQL服務(wù)器在星型和雪花模型上支持SQL查詢數(shù)據(jù)倉庫與數(shù)據(jù)挖掘2025/1/19元數(shù)據(jù)存儲(chǔ)在數(shù)據(jù)倉庫中,元數(shù)據(jù)就是定義數(shù)據(jù)倉庫對(duì)象的數(shù)據(jù)。有以下幾種:數(shù)據(jù)倉庫結(jié)構(gòu)的描述倉庫模式、視圖、維、層次結(jié)構(gòu)、導(dǎo)出數(shù)據(jù)的定義,以及數(shù)據(jù)集市的位置和內(nèi)容操作元數(shù)據(jù)包括數(shù)據(jù)血統(tǒng)(datalineage)、數(shù)據(jù)類別(currencyofdata),以及監(jiān)視信息匯總用的算法由操作環(huán)境到數(shù)據(jù)倉庫的映射關(guān)于系統(tǒng)性能的數(shù)據(jù)索引,profiles,數(shù)據(jù)刷新、更新或復(fù)制事件的調(diào)度和定時(shí)商務(wù)元數(shù)據(jù)商務(wù)術(shù)語和定義、數(shù)據(jù)擁有者信息、收費(fèi)政策等數(shù)據(jù)倉庫與數(shù)據(jù)挖掘2025/1/19元數(shù)據(jù)的使用元數(shù)據(jù)與數(shù)據(jù)一起,構(gòu)成了數(shù)據(jù)倉庫中的數(shù)據(jù)模型,元數(shù)據(jù)所描述的更多的是這個(gè)模型的結(jié)構(gòu)方面的信息。在數(shù)據(jù)倉庫中,元數(shù)據(jù)的主要用途包括:用作目錄,幫助決策支持系統(tǒng)分析者對(duì)數(shù)據(jù)倉庫的內(nèi)容定義作為數(shù)據(jù)倉庫和操作性數(shù)據(jù)庫之間進(jìn)行數(shù)據(jù)轉(zhuǎn)換時(shí)的映射標(biāo)準(zhǔn)用于指導(dǎo)當(dāng)前細(xì)節(jié)數(shù)據(jù)和稍加綜合的數(shù)據(jù)之間的匯總算法,指導(dǎo)稍加綜合的數(shù)據(jù)和高度綜合的數(shù)據(jù)之間的匯總算法。數(shù)據(jù)倉庫與數(shù)據(jù)挖掘2025/1/19數(shù)據(jù)倉庫后端工具和程序數(shù)據(jù)倉庫后端工具主要指的是用來裝入和刷新數(shù)據(jù)的工具,包括:數(shù)據(jù)提?。和ǔ#啥鄠€(gè)、異種、外部數(shù)據(jù)源收集數(shù)據(jù)。數(shù)據(jù)清理檢測(cè)數(shù)據(jù)種的錯(cuò)誤并作可能的訂正數(shù)據(jù)變換將數(shù)據(jù)由歷史或主機(jī)的格式轉(zhuǎn)化為數(shù)據(jù)倉庫的格式裝載排序、匯總、合并、計(jì)算視圖,檢查完整性,并建立索引和分區(qū)刷新將數(shù)據(jù)源的更新傳播到數(shù)據(jù)倉庫中數(shù)據(jù)倉庫與數(shù)據(jù)挖掘2025/1/19數(shù)據(jù)倉庫的應(yīng)用數(shù)據(jù)倉庫的三種應(yīng)用信息處理支持查詢和基本的統(tǒng)計(jì)分析,并使用交叉表、表、圖標(biāo)和圖進(jìn)行報(bào)表處理聯(lián)機(jī)分析處理對(duì)數(shù)據(jù)倉庫中的數(shù)據(jù)進(jìn)行多維數(shù)據(jù)分析支持基本的OLAP操作,切塊、切片、上卷、下鉆、轉(zhuǎn)軸等數(shù)據(jù)挖掘從隱藏模式中發(fā)現(xiàn)知識(shí)支持關(guān)聯(lián)分析,構(gòu)建分析性模型,分類和預(yù)測(cè),并用可視化工具呈現(xiàn)挖掘的結(jié)果數(shù)據(jù)倉庫與數(shù)據(jù)挖掘2025/1/19數(shù)據(jù)倉庫的應(yīng)用三種應(yīng)用間的差別:1、信息處理基于查詢,可以發(fā)現(xiàn)有用的信息。它不反映復(fù)雜的模式,或隱藏在數(shù)據(jù)庫中的規(guī)律。因此,信息處理不是數(shù)據(jù)挖掘。2、聯(lián)機(jī)分析處理向數(shù)據(jù)挖掘走近了一步,OLAP和數(shù)據(jù)挖掘的功能可以視為不交的:OLAP是數(shù)據(jù)匯總/聚集工具,它幫助簡(jiǎn)化數(shù)據(jù)分析;而數(shù)據(jù)挖掘自動(dòng)地發(fā)現(xiàn)隱藏在大量數(shù)據(jù)中的隱含模式和有趣知識(shí)。OLAP工具的目標(biāo)是簡(jiǎn)化和支持交互數(shù)據(jù)分析;而數(shù)據(jù)挖掘的目標(biāo)是盡可能自動(dòng)處理。數(shù)據(jù)倉庫與數(shù)據(jù)挖掘2025/1/19數(shù)據(jù)倉庫的應(yīng)用3、數(shù)據(jù)挖掘的涵蓋面要比簡(jiǎn)單的OLAP操作寬得多,因?yàn)樗粌H執(zhí)行數(shù)據(jù)匯總和比較,而且執(zhí)行關(guān)聯(lián)、分類、預(yù)測(cè)、聚類、時(shí)間序列分析和其它數(shù)據(jù)分析任務(wù)。4、數(shù)據(jù)挖掘不限于分析數(shù)據(jù)倉庫中的數(shù)據(jù)。它可以分析現(xiàn)存的、比數(shù)據(jù)倉庫提供的匯總數(shù)據(jù)粒度更細(xì)的數(shù)據(jù)。它也可以分析事務(wù)的、文本的、空間的和多媒體數(shù)據(jù),這些數(shù)據(jù)很難用現(xiàn)有的多維數(shù)據(jù)庫技術(shù)建模。在這種意義下,數(shù)據(jù)挖掘涵蓋的數(shù)據(jù)挖掘功能和處理的數(shù)據(jù)復(fù)雜性要比OLAP大得多。數(shù)據(jù)倉庫與數(shù)據(jù)挖掘2025/1/19從聯(lián)機(jī)分析處理到聯(lián)機(jī)分析挖掘OLAM聯(lián)機(jī)分析挖掘(OLAM,也稱OLAP挖掘)將聯(lián)機(jī)分析處理與數(shù)據(jù)挖掘以及在多維數(shù)據(jù)庫中發(fā)現(xiàn)知識(shí)集成在一起,為什么要聯(lián)機(jī)分析挖掘數(shù)據(jù)倉庫中有高質(zhì)量的數(shù)據(jù)數(shù)據(jù)倉庫中存放著整合的、一致的、清理過的數(shù)據(jù)圍繞數(shù)據(jù)倉庫的信息處理結(jié)構(gòu)存取、集成、合并多個(gè)異種數(shù)據(jù)庫的轉(zhuǎn)換,ODBC/OLEDB連接,Web訪問和訪問工具等基于OLAP的探測(cè)式數(shù)據(jù)分析使用上卷、下鉆、切片、轉(zhuǎn)軸等技術(shù)進(jìn)行數(shù)據(jù)挖掘數(shù)據(jù)挖掘功能的聯(lián)機(jī)選擇多種數(shù)據(jù)挖掘功能、算法和任務(wù)的整合數(shù)據(jù)倉庫與數(shù)據(jù)挖掘聯(lián)機(jī)分析挖掘的體系結(jié)構(gòu)數(shù)據(jù)倉庫元數(shù)據(jù)多維數(shù)據(jù)庫OLAM引擎OLAP引擎用戶圖形界面API數(shù)據(jù)方體API數(shù)據(jù)庫API數(shù)據(jù)清理數(shù)據(jù)集成第三層OLAP/OLAM第二層多維數(shù)據(jù)庫第一層數(shù)據(jù)存儲(chǔ)第四層用戶界面數(shù)據(jù)的過濾、集成過濾數(shù)據(jù)庫基于約束的數(shù)據(jù)挖掘挖掘結(jié)果數(shù)據(jù)倉庫與數(shù)據(jù)挖掘第三節(jié):大型數(shù)據(jù)庫中的關(guān)聯(lián)規(guī)則挖掘數(shù)據(jù)倉庫與數(shù)據(jù)挖掘2025/1/19什么是關(guān)聯(lián)規(guī)則挖掘?關(guān)聯(lián)規(guī)則挖掘:從事務(wù)數(shù)據(jù)庫,關(guān)系數(shù)據(jù)庫和其他信息存儲(chǔ)中的大量數(shù)據(jù)的項(xiàng)集之間發(fā)現(xiàn)有趣的、頻繁出現(xiàn)的模式、關(guān)聯(lián)和相關(guān)性。應(yīng)用:購物籃分析、分類設(shè)計(jì)、捆綁銷售等數(shù)據(jù)倉庫與數(shù)據(jù)挖掘2025/1/19“尿布與啤酒”——典型關(guān)聯(lián)分析案例采用關(guān)聯(lián)模型比較典型的案例是“尿布與啤酒”的故事。在美國,一些年輕的父親下班后經(jīng)常要到超市去買嬰兒尿布,超市也因此發(fā)現(xiàn)了一個(gè)規(guī)律,在購買嬰兒尿布的年輕父親們中,有30%~40%的人同時(shí)要買一些啤酒。超市隨后調(diào)整了貨架的擺放,把尿布和啤酒放在一起,明顯增加了銷售額。同樣的,我們還可以根據(jù)關(guān)聯(lián)規(guī)則在商品銷售方面做各種促銷活動(dòng)。數(shù)據(jù)倉庫與數(shù)據(jù)挖掘2025/1/19購物籃分析如果問題的全域是商店中所有商品的集合,則對(duì)每種商品都可以用一個(gè)布爾量來表示該商品是否被顧客購買,則每個(gè)購物籃都可以用一個(gè)布爾向量表示;而通過分析布爾向量則可以得到商品被頻繁關(guān)聯(lián)或被同時(shí)購買的模式,這些模式就可以用關(guān)聯(lián)規(guī)則表示。關(guān)聯(lián)規(guī)則的兩個(gè)興趣度度量支持度置信度數(shù)據(jù)倉庫與數(shù)據(jù)挖掘2025/1/19購物籃分析
以上關(guān)聯(lián)規(guī)則的支持度2%,意味分析事務(wù)的2%同時(shí)購買計(jì)算機(jī)和財(cái)務(wù)管理軟件。置信度60%意味購買計(jì)算機(jī)的顧客60%也購買財(cái)務(wù)管理軟件。數(shù)據(jù)倉庫與數(shù)據(jù)挖掘2025/1/19關(guān)聯(lián)規(guī)則:基本概念
關(guān)聯(lián)規(guī)則挖掘?qū)ο笾饕鞘聞?wù)型數(shù)據(jù)庫,也可以是其它領(lǐng)域內(nèi)的關(guān)系型數(shù)據(jù)庫。關(guān)聯(lián)規(guī)則挖掘涉及到以下幾個(gè)基本概念。1、項(xiàng)。對(duì)于一個(gè)數(shù)據(jù)表而言,表的每個(gè)字段都具有一個(gè)或多個(gè)不同的值,字段的每種取值都是一個(gè)項(xiàng)。2、項(xiàng)集。項(xiàng)的集合稱為項(xiàng)集。包含K個(gè)項(xiàng)的項(xiàng)集被稱為K項(xiàng)集,K表示項(xiàng)集中項(xiàng)的數(shù)目。由所有的項(xiàng)所構(gòu)成的集合是最大的項(xiàng)集,一般用符號(hào)I表示。I={i1,i2,...,in}數(shù)據(jù)倉庫與數(shù)據(jù)挖掘2025/1/19關(guān)聯(lián)規(guī)則:基本概念3、事務(wù)。事務(wù)是項(xiàng)的集合。一個(gè)事務(wù)就是事實(shí)表中的一條記錄。事務(wù)的集合稱為事務(wù)集,也就是事務(wù)數(shù)據(jù)庫,一般用D表示。對(duì)銷售數(shù)據(jù)而言,事務(wù)數(shù)據(jù)庫的記錄一般由事物處理時(shí)間,一組顧客購買的物品,顧客標(biāo)示號(hào)幾部分組成。每個(gè)事務(wù)都有一個(gè)唯一的標(biāo)示,記作TID。數(shù)據(jù)倉庫與數(shù)據(jù)挖掘2025/1/19基本概念——示例項(xiàng)的集合I={A,B,C,D,E,F}每個(gè)事務(wù)T由事務(wù)標(biāo)識(shí)符TID標(biāo)識(shí),它是項(xiàng)的集合比如:TID(2000)={A,B,C}任務(wù)相關(guān)數(shù)據(jù)D是數(shù)據(jù)庫事務(wù)的集合D數(shù)據(jù)倉庫與數(shù)據(jù)挖掘2025/1/19規(guī)則度量:支持度和置信度CustomerbuysdiaperCustomerbuysbothCustomerbuysbeer對(duì)所有滿足最小支持度和置信度的關(guān)聯(lián)規(guī)則支持度s是指事務(wù)集D中包含的百分比置信度c是指D中同時(shí)包含A和B的事務(wù)數(shù)與只包含A的事務(wù)數(shù)的比值假設(shè)最小支持度為50%,最小置信度為50%,則有如下關(guān)聯(lián)規(guī)則A
C(50%,66.6%)C
A(50%,100%)數(shù)據(jù)倉庫與數(shù)據(jù)挖掘知識(shí)點(diǎn)回顧1、何為企業(yè)倉庫、數(shù)據(jù)集市?二者有何區(qū)別?2、請(qǐng)分析數(shù)據(jù)倉庫、OLAP、數(shù)據(jù)挖掘的關(guān)系。3、請(qǐng)解釋如下關(guān)聯(lián)規(guī)則:數(shù)據(jù)倉庫與數(shù)據(jù)挖掘2025/1/19知識(shí)點(diǎn)回顧2、請(qǐng)分析數(shù)據(jù)倉庫、OLAP、數(shù)據(jù)挖掘的關(guān)系聯(lián)機(jī)分析處理和數(shù)據(jù)挖掘是數(shù)據(jù)倉庫之上的增值技術(shù)。OLAP側(cè)重于與用戶的交互、快速的響應(yīng)速度及提供數(shù)據(jù)的多維視圖,而數(shù)據(jù)挖掘則注重自動(dòng)發(fā)現(xiàn)隱藏在數(shù)據(jù)中的模式和有用信息。OLAP的分析結(jié)果可以給數(shù)據(jù)挖掘提供分析信息作為挖掘的依據(jù),數(shù)據(jù)挖掘可以拓展OLAP分析的深度,可以發(fā)現(xiàn)OLAP所不能發(fā)現(xiàn)的更為復(fù)雜、細(xì)致的信息。
數(shù)據(jù)倉庫與數(shù)據(jù)挖掘2025/1/19大型數(shù)據(jù)庫關(guān)聯(lián)規(guī)則挖掘(1)1、項(xiàng)的集合稱為項(xiàng)集。包含k個(gè)項(xiàng)的項(xiàng)集稱為k-項(xiàng)集。集合{computer,financial_management_software}是一個(gè)2-項(xiàng)集。2、項(xiàng)集的出現(xiàn)頻率是包含項(xiàng)集的事務(wù)數(shù),簡(jiǎn)稱為項(xiàng)集的頻率、支持計(jì)數(shù)或計(jì)數(shù)。3、同時(shí)滿足最小支持度閾值(min_sup)和最小置信度閾值(min_conf)的規(guī)則稱作強(qiáng)規(guī)則。4、支持度大于等于支持度閾值的項(xiàng)集稱為頻繁項(xiàng)集。含有K個(gè)項(xiàng)的項(xiàng)集稱為K-項(xiàng)集,或頻繁K-項(xiàng)集。數(shù)據(jù)倉庫與數(shù)據(jù)挖掘2025/1/19最小支持度和最小可信度
為了發(fā)現(xiàn)有意義的關(guān)聯(lián)規(guī)則,通過由用戶或數(shù)據(jù)挖掘系統(tǒng)給定兩個(gè)閾值:最小支持度和最小可信度。
最小支持度表示了項(xiàng)集在統(tǒng)計(jì)意義上須滿足的最低程度。最小可信度反應(yīng)了關(guān)聯(lián)規(guī)則需滿足的最低程度。
如果不考慮關(guān)聯(lián)規(guī)則的支持度和可信度,那么在D中則存在過多的關(guān)聯(lián)規(guī)則。人們一般只對(duì)滿足一定的支持度和置信度的關(guān)聯(lián)規(guī)則感興趣。因此,使用兩個(gè)閾值的作用可以限制數(shù)據(jù)挖掘系統(tǒng)輸出的關(guān)聯(lián)規(guī)則的數(shù)量,盡可能給用戶提供有意義的關(guān)聯(lián)規(guī)則。數(shù)據(jù)倉庫與數(shù)據(jù)挖掘2025/1/19大型數(shù)據(jù)庫關(guān)聯(lián)規(guī)則挖掘(2)
“如何由大型數(shù)據(jù)庫挖掘關(guān)聯(lián)規(guī)則?”關(guān)聯(lián)規(guī)則的挖掘是一個(gè)兩步的過程:1.找出所有頻繁項(xiàng)集:根據(jù)定義,這些項(xiàng)集出現(xiàn)的頻繁性至少和預(yù)定義的最小支持計(jì)數(shù)一樣。(最小支持度)2.由頻繁項(xiàng)集產(chǎn)生強(qiáng)關(guān)聯(lián)規(guī)則:根據(jù)定義,這些規(guī)則必須滿足最小支持度和最小置信度。
如果愿意,也可以使用附加的興趣度度量。這兩步中,第二步最容易。挖掘關(guān)聯(lián)規(guī)則的總體性能由第一步?jīng)Q定。數(shù)據(jù)倉庫與數(shù)據(jù)挖掘2025/1/19關(guān)聯(lián)規(guī)則挖掘分類(1)關(guān)聯(lián)規(guī)則有多種分類:根據(jù)規(guī)則中所處理的值類型布爾關(guān)聯(lián)規(guī)則如果規(guī)則描述的是量化的項(xiàng)或?qū)傩灾g的關(guān)聯(lián),則它是量化關(guān)聯(lián)規(guī)則。在這種規(guī)則中,項(xiàng)或?qū)傩缘牧炕祫澐譃閰^(qū)間。數(shù)據(jù)倉庫與數(shù)據(jù)挖掘關(guān)聯(lián)規(guī)則挖掘分類
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 數(shù)據(jù)驅(qū)動(dòng)決策-第1篇-深度研究
- 廢塑料資源化利用-深度研究
- 2025年巴音郭楞職業(yè)技術(shù)學(xué)院高職單招語文2018-2024歷年參考題庫頻考點(diǎn)含答案解析
- 2025年山西藝術(shù)職業(yè)學(xué)院高職單招數(shù)學(xué)歷年(2016-2024)頻考點(diǎn)試題含答案解析
- 2025年山西經(jīng)貿(mào)職業(yè)學(xué)院高職單招語文2018-2024歷年參考題庫頻考點(diǎn)含答案解析
- 便道施工方案
- 屋面節(jié)能專項(xiàng)施工方案
- 2025年安徽工業(yè)經(jīng)濟(jì)職業(yè)技術(shù)學(xué)院高職單招高職單招英語2016-2024歷年頻考點(diǎn)試題含答案解析
- 2025至2030年中國棉麻面料數(shù)據(jù)監(jiān)測(cè)研究報(bào)告
- 2025年寧波城市職業(yè)技術(shù)學(xué)院高職單招職業(yè)技能測(cè)試近5年??及鎱⒖碱}庫含答案解析
- 2024多級(jí)AO工藝污水處理技術(shù)規(guī)程
- 2024年江蘇省鹽城市中考數(shù)學(xué)試卷真題(含答案)
- DZ∕T 0287-2015 礦山地質(zhì)環(huán)境監(jiān)測(cè)技術(shù)規(guī)程(正式版)
- 2024年合肥市廬陽區(qū)中考二模英語試題含答案
- 質(zhì)檢中心制度匯編討論版樣本
- 藥娘激素方案
- 提高靜脈留置使用率品管圈課件
- GB/T 10739-2023紙、紙板和紙漿試樣處理和試驗(yàn)的標(biāo)準(zhǔn)大氣條件
- 《心態(tài)與思維模式》課件
- C語言程序設(shè)計(jì)(慕課版 第2版)PPT完整全套教學(xué)課件
- 危險(xiǎn)化學(xué)品企業(yè)安全生產(chǎn)標(biāo)準(zhǔn)化課件
評(píng)論
0/150
提交評(píng)論