版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
第5章
數(shù)據(jù)倉庫與數(shù)據(jù)挖掘的決策支持5.1數(shù)據(jù)倉庫庫的基本本原理數(shù)據(jù)倉庫庫的興起1.“數(shù)據(jù)太多多,信息息不足””的現(xiàn)狀狀2.異構(gòu)環(huán)境境的數(shù)據(jù)據(jù)源據(jù)美國《幸?!冯s志所列列的全球球2000家大公司司中已有有90%將Internet網(wǎng)絡(luò)和數(shù)數(shù)據(jù)倉庫庫這兩項(xiàng)項(xiàng)技術(shù)列列入企業(yè)業(yè)計(jì)劃。。數(shù)據(jù)倉庫庫是1995年開始盛盛行起來來的。5.1..1數(shù)據(jù)倉庫庫的概念念(1)W.H..Inmon在《建立數(shù)據(jù)據(jù)倉庫》一書中,,對數(shù)據(jù)據(jù)倉庫的的定義為為:數(shù)據(jù)倉庫庫是面向向主題的的、集成成的、穩(wěn)穩(wěn)定的,,不同時(shí)時(shí)間的數(shù)數(shù)據(jù)集合合,用于于支持經(jīng)經(jīng)營管理理中決策策制定過過程。1、數(shù)據(jù)據(jù)倉庫的的概念(2)SAS軟件研究究所定義義:數(shù)據(jù)倉庫庫是一種種管理技技術(shù),旨旨在通過過通暢、、合理、、全面的的信息管管理,達(dá)達(dá)到有效效的決策策支持。。1、數(shù)據(jù)據(jù)倉庫的的概念傳統(tǒng)數(shù)據(jù)據(jù)庫用于于事務(wù)處處理,也也叫操作作型處理理,是指指對數(shù)據(jù)據(jù)庫聯(lián)機(jī)機(jī)進(jìn)行日日常操作作,即對對一個(gè)或或一組記記錄的查查詢和修修改,主主要為企企業(yè)特定定的應(yīng)用用服務(wù)的的。用戶戶關(guān)心的的是響應(yīng)應(yīng)時(shí)間,,數(shù)據(jù)的的安全性性和完整整性。數(shù)據(jù)倉庫庫用于決決策支持持,也稱稱分析型型處理,,用于決決策分析析,它是是建立決決策支持持系統(tǒng)((DSS)的基礎(chǔ)。。操作型數(shù)數(shù)據(jù)(DB數(shù)據(jù))與與分析型數(shù)數(shù)據(jù)(DW數(shù)據(jù))之之間的差差別為::2、數(shù)據(jù)據(jù)倉庫特特點(diǎn)(1)數(shù)據(jù)倉倉庫是面面向主題題的主題是數(shù)數(shù)據(jù)歸類類的標(biāo)準(zhǔn)準(zhǔn),每一一個(gè)主題題基本對對應(yīng)一個(gè)個(gè)宏觀的的分析領(lǐng)領(lǐng)域。例如,銀銀行的數(shù)數(shù)據(jù)倉庫庫的主題題:客戶戶DW的客戶數(shù)數(shù)據(jù)來源源:從銀行儲蓄蓄DB、信用卡DB、貸款DB等三個(gè)DB中抽取同同一客戶戶的數(shù)據(jù)據(jù)整理而而成。在DW中分析客客戶數(shù)據(jù)據(jù),可決決定是否否繼續(xù)給給予貸款款。面向主題題汽車人壽健康意外傷亡亡操作性環(huán)環(huán)境應(yīng)用用顧客保險(xiǎn)單保險(xiǎn)費(fèi)索賠數(shù)據(jù)倉庫庫主題題2、數(shù)據(jù)據(jù)倉庫特特點(diǎn)(2)數(shù)據(jù)倉倉庫是集集成的數(shù)據(jù)進(jìn)入入數(shù)據(jù)倉倉庫之前前,必須須經(jīng)過加加工與集集成。對不同的的數(shù)據(jù)來來源進(jìn)行行統(tǒng)一數(shù)數(shù)據(jù)結(jié)構(gòu)構(gòu)和編碼碼。統(tǒng)一一原始數(shù)數(shù)據(jù)中的的所有矛矛盾之處處,如字字段的同同名異義義,異名名同義,,單位不不統(tǒng)一,,字長不不一致等等。將原始數(shù)數(shù)據(jù)結(jié)構(gòu)構(gòu)做一個(gè)個(gè)從面向向應(yīng)用到到面向主主題的大大轉(zhuǎn)變。。2.2集集成數(shù)據(jù)庫應(yīng)用Am,,f應(yīng)用B1,,0應(yīng)用Cx,,y應(yīng)用D男,女?dāng)?shù)據(jù)倉庫庫
m,f編碼應(yīng)用A管道cm應(yīng)用B管道inches應(yīng)用C管道m(xù)cf應(yīng)用D管道yds管道cm屬性度量量應(yīng)用A描述應(yīng)用B描述應(yīng)用C描述應(yīng)用D描述應(yīng)用Achar((10))應(yīng)用Bdecfixed(9,2))應(yīng)用Cpic‘9999999’應(yīng)用Dchar((12)多重信息息源?描述char(12)沖突的鍵鍵碼集成2、數(shù)據(jù)據(jù)倉庫特特點(diǎn)(3)數(shù)據(jù)倉倉庫是穩(wěn)穩(wěn)定/非易失的的數(shù)據(jù)倉庫庫中包括括了大量量的歷史史數(shù)據(jù)。。數(shù)據(jù)經(jīng)經(jīng)集成進(jìn)進(jìn)入數(shù)據(jù)據(jù)倉庫后后是極少少或根本本不更新新的。非易失性性插入刪除插入修改刪除訪問修改訪問數(shù)據(jù)的逐逐個(gè)記錄錄方式處處理數(shù)據(jù)的批批量載入入/訪問數(shù)據(jù)庫數(shù)據(jù)倉庫庫2、數(shù)據(jù)據(jù)倉庫特特點(diǎn)(4)數(shù)據(jù)倉倉庫是隨隨時(shí)間變變化的數(shù)據(jù)倉庫庫內(nèi)的數(shù)數(shù)據(jù)時(shí)限限在5~10年,故數(shù)數(shù)據(jù)的鍵鍵碼包含含時(shí)間項(xiàng)項(xiàng),標(biāo)明明數(shù)據(jù)的的歷史時(shí)時(shí)期,這這適合DSS進(jìn)行時(shí)間間趨勢分分析。而數(shù)據(jù)庫庫只包含含當(dāng)前數(shù)數(shù)據(jù),即即存取某某一時(shí)間間的正確確的有效效的數(shù)據(jù)據(jù)。2.4隨隨時(shí)間間變化數(shù)據(jù)庫數(shù)據(jù)倉庫庫時(shí)間期限限:當(dāng)前前到60—90天記錄更新新鍵碼結(jié)構(gòu)構(gòu)可能包包括也可可能不包括時(shí)間間元素時(shí)間期限限:5—10年數(shù)據(jù)的復(fù)復(fù)雜快照照鍵碼結(jié)構(gòu)構(gòu)包括時(shí)時(shí)間元素素2、數(shù)據(jù)據(jù)倉庫特特點(diǎn)(5)DW中數(shù)據(jù)量量大。大型DW是一個(gè)TB(1000GB)級數(shù)據(jù)庫庫問題((一般為為10GB級相當(dāng)于于一般數(shù)數(shù)據(jù)庫100MB的100倍)需要一個(gè)個(gè)巨大的的硬件平平臺需要一個(gè)個(gè)并行的的數(shù)據(jù)庫庫系統(tǒng)最好的數(shù)數(shù)據(jù)倉庫庫是大的的和昂貴貴的。2、數(shù)據(jù)據(jù)倉庫特特點(diǎn)(6)是信息息的概括括和聚集集。操作性數(shù)據(jù)倉庫庫JJones女1945年7月20日。。。。。。JJones去年有兩兩張罰單單一次大事事故。。。。。。JJonesMain大街123號已婚。。。。。。JJones兩個(gè)孩子子高血壓。。。。。。人壽保險(xiǎn)險(xiǎn)汽車保險(xiǎn)險(xiǎn)房產(chǎn)保險(xiǎn)險(xiǎn)健康保險(xiǎn)險(xiǎn)JJones女1945年7月20日出生去年兩張張罰單一次大事事故已婚兩個(gè)孩子子高血壓。。。。。。。顧客2、數(shù)據(jù)據(jù)倉庫特特點(diǎn)(7)對計(jì)算算機(jī)軟硬硬件要求求較高::需要一一巨大硬硬件平臺臺和并行行計(jì)算的的數(shù)據(jù)庫庫系統(tǒng)。。5.1..2數(shù)據(jù)倉庫庫中的數(shù)數(shù)據(jù)組織織1數(shù)數(shù)據(jù)的粒粒度2數(shù)數(shù)據(jù)倉庫庫的數(shù)據(jù)據(jù)組織結(jié)結(jié)構(gòu)3數(shù)數(shù)據(jù)的分分割4數(shù)數(shù)據(jù)倉庫庫的數(shù)據(jù)據(jù)組織形形式5數(shù)數(shù)據(jù)倉庫庫的數(shù)據(jù)據(jù)組織模模式6數(shù)數(shù)據(jù)的追追加1粒度度粒度———是指數(shù)數(shù)據(jù)倉庫庫的數(shù)據(jù)據(jù)單位中中保存數(shù)數(shù)據(jù)的細(xì)細(xì)化或總總合程度度的級別別。細(xì)化程度度越高,,粒度級級就越小?。患?xì)細(xì)化程度度越低,,粒度級級就越大大。粒度———細(xì)節(jié)的的級別粒度的劃劃分決定定了數(shù)據(jù)據(jù)倉庫中中數(shù)據(jù)量量的大小小和查詢詢的詳細(xì)細(xì)程度。。多重粒度度粒度的一一個(gè)例子子高細(xì)化低細(xì)化每月200個(gè)記錄每月40,000個(gè)字節(jié)每月一個(gè)個(gè)記錄每月200個(gè)字節(jié)通過檢索索可以回答答無細(xì)節(jié)無法回答答詢問某一電話的細(xì)節(jié)近期基本本數(shù)據(jù)::是最近時(shí)時(shí)期的業(yè)業(yè)務(wù)數(shù)據(jù)據(jù),是數(shù)數(shù)據(jù)倉庫庫用戶最最感興趣趣的部分分,數(shù)據(jù)據(jù)量大。。歷史基本本數(shù)據(jù)::近期基本本數(shù)據(jù)隨隨時(shí)間的的推移,,由數(shù)據(jù)據(jù)倉庫的的時(shí)間控控制機(jī)制制轉(zhuǎn)為歷歷史基本本數(shù)據(jù)。。輕度綜合合數(shù)據(jù)::是從近期期基本數(shù)數(shù)據(jù)中提提取出的的,這層層數(shù)據(jù)是是按時(shí)間間段選取取,或者者按數(shù)據(jù)據(jù)屬性((attributes)和內(nèi)容((contents)進(jìn)行綜合合。
高度綜合合數(shù)據(jù)層層:這一層的的數(shù)據(jù)是是在輕度度綜合數(shù)數(shù)據(jù)基礎(chǔ)礎(chǔ)上的再再一次綜綜合,是是一種準(zhǔn)準(zhǔn)決策數(shù)數(shù)據(jù)。2數(shù)據(jù)據(jù)倉庫的的數(shù)據(jù)組組織結(jié)構(gòu)構(gòu)2數(shù)據(jù)據(jù)倉庫的的數(shù)據(jù)組組織結(jié)構(gòu)構(gòu)元數(shù)據(jù)高度綜合合級輕度綜合合級(數(shù)據(jù)集市市)銷售細(xì)節(jié)節(jié)級2000-2001操作型轉(zhuǎn)轉(zhuǎn)換早期細(xì)節(jié)節(jié)級每月銷售售1994-2001每周銷售售1994-2001當(dāng)前細(xì)節(jié)節(jié)級銷售細(xì)節(jié)節(jié)級1994-19993分割割分割———將當(dāng)前前細(xì)節(jié)數(shù)數(shù)據(jù)分散散到各自自的物理理單元中中去以便便能分別別獨(dú)立處處理,以以提高數(shù)數(shù)據(jù)處理理效率。。分片———數(shù)據(jù)分分割后的的獨(dú)立單單元。數(shù)據(jù)的分分割提高了數(shù)數(shù)據(jù)管理理的靈活活性重重構(gòu)、索索引、重重組、恢恢復(fù)、監(jiān)監(jiān)控分割的標(biāo)標(biāo)準(zhǔn):日日期、地地域、業(yè)業(yè)務(wù)領(lǐng)域域。分割的一一個(gè)例子子分片9分片8分片72001分片6分片5分片42000分片3分片2分片11999事故保險(xiǎn)險(xiǎn)生命保險(xiǎn)險(xiǎn)健康保險(xiǎn)險(xiǎn)4數(shù)據(jù)據(jù)倉庫的的數(shù)據(jù)組組織形式式簡單堆積積數(shù)據(jù)輪轉(zhuǎn)綜合合數(shù)據(jù)簡化直接接數(shù)據(jù)連續(xù)數(shù)據(jù)據(jù)簡單堆積積文件1月1日1月2日1月3日……2月1日2月2日2月3日……3月1日3月2日3月3日……………………輪轉(zhuǎn)綜合合文件星期一星星期二……星期天第一周第第二二周……第五周一月二二月……十二月………………簡化直接接文件數(shù)據(jù)庫快快照姓名顧顧客號號地地址張平C960100北京王珂C960101上海劉輝C960102天津李強(qiáng)C960103成都...一月份顧顧客表操作性數(shù)數(shù)據(jù)生成簡化化直接文文件連續(xù)文件件姓名顧顧客號號地地址張平C020100北京王珂C020101上海張順C020102天津李強(qiáng)C020103成都姓名顧顧客號號地地址張平C020100北京王珂C020101上海張順C020101廣州李強(qiáng)C020103成都劉誠C020105杭州姓名顧顧客號號日日期地地址張平C0201001-2月北北京京王珂C0201011-2月上上海海張順C0201031月天天津津張順C0201032月廣廣州州李強(qiáng)C0201031-2月成成都都劉誠C0201052月杭杭州州1月份顧客客表2月份顧客客表1-2月份顧客客表元數(shù)據(jù)((Metadata))元數(shù)據(jù)———關(guān)于于數(shù)據(jù)的的數(shù)據(jù),,它描述述了數(shù)據(jù)據(jù)的結(jié)構(gòu)構(gòu)、內(nèi)容容、碼、、索引等等。元數(shù)據(jù)的的內(nèi)容不僅為數(shù)數(shù)據(jù)倉庫庫的創(chuàng)建建提供必必要的信信息、描描述和定定義,還還為DSS分析人員員訪問數(shù)數(shù)據(jù)倉庫庫提供直直接的或或輔助的的信息。。數(shù)據(jù)倉庫庫中元數(shù)數(shù)據(jù)必須須包含的的內(nèi)容數(shù)據(jù)倉庫庫的主題題描述::主主題名、、主體的的公共碼碼鍵、有有關(guān)描述述信息等等外部數(shù)據(jù)據(jù)和非結(jié)結(jié)構(gòu)化數(shù)數(shù)據(jù)的描描述:外外部部數(shù)據(jù)源源名、存存儲地點(diǎn)點(diǎn)、存儲儲內(nèi)容簡簡述記錄系統(tǒng)統(tǒng)定義::主主題名、、屬性名名、數(shù)據(jù)據(jù)源系統(tǒng)統(tǒng)、源表表名、源源屬性名名邏輯模型型的定義義:關(guān)關(guān)系名名、屬性性1、屬屬性2……屬性n數(shù)據(jù)進(jìn)入入數(shù)據(jù)倉倉庫的轉(zhuǎn)轉(zhuǎn)換規(guī)則則數(shù)據(jù)的抽抽取歷史史粒度的定定義數(shù)據(jù)分割割的定義義廣義索引引:廣義義索引名名,屬性性1、屬屬性2……屬性n有關(guān)存儲儲路徑和和結(jié)構(gòu)的的描述它是現(xiàn)有有的業(yè)務(wù)務(wù)系統(tǒng)的的數(shù)據(jù)源源的描述述信息。。這類元元數(shù)據(jù)是是是對不不同平臺臺上的數(shù)數(shù)據(jù)源的的物理結(jié)結(jié)構(gòu)和含含義的描描述。具具體為::?數(shù)據(jù)源中中所有物物理數(shù)據(jù)據(jù)結(jié)構(gòu),,包括所所有的數(shù)數(shù)據(jù)項(xiàng)及及數(shù)據(jù)類類型。?所有數(shù)據(jù)據(jù)項(xiàng)的業(yè)業(yè)務(wù)定義義。?每個(gè)數(shù)據(jù)據(jù)項(xiàng)更新新的頻率率,以及及由誰或或那個(gè)過過程更新新的說明明。?每個(gè)數(shù)據(jù)據(jù)項(xiàng)的有有效值。。(1)關(guān)于數(shù)數(shù)據(jù)源的的元數(shù)據(jù)據(jù)數(shù)據(jù)倉庫庫的數(shù)據(jù)據(jù)模型是是星型模模型。通常企業(yè)業(yè)數(shù)據(jù)模模型被用用作建立立倉庫數(shù)數(shù)據(jù)模型型的起始始點(diǎn),再再對模型型加以修修改和變變換。(2)關(guān)于數(shù)數(shù)據(jù)模型型的元數(shù)數(shù)據(jù)這類元數(shù)數(shù)據(jù)是數(shù)數(shù)據(jù)源與與數(shù)據(jù)倉倉庫數(shù)據(jù)據(jù)間的映映射。當(dāng)數(shù)據(jù)源源中的一一個(gè)數(shù)據(jù)據(jù)項(xiàng)與數(shù)數(shù)據(jù)倉庫庫建立了了映射關(guān)關(guān)系,就就應(yīng)該記記下這些些數(shù)據(jù)項(xiàng)項(xiàng)發(fā)生的的任何變變換或變變動。即即用元數(shù)數(shù)據(jù)反映映數(shù)據(jù)倉倉庫中的的數(shù)據(jù)項(xiàng)項(xiàng)是從哪哪個(gè)特定定的數(shù)據(jù)據(jù)源填充充的,經(jīng)經(jīng)過那些些轉(zhuǎn)換,,變換和和加載過過程。(3)關(guān)于數(shù)數(shù)據(jù)倉庫庫映射的的元數(shù)據(jù)據(jù)這類元數(shù)數(shù)據(jù)是數(shù)數(shù)據(jù)倉庫庫中信息息的使用用情況描描述。數(shù)據(jù)倉庫庫的用戶戶最關(guān)心心的是兩兩類元數(shù)數(shù)據(jù):(1)元數(shù)據(jù)據(jù)告訴數(shù)數(shù)據(jù)倉庫庫中有什什么數(shù)據(jù)據(jù),它們們從哪里里來。即即如何按按主題查查看數(shù)據(jù)據(jù)倉庫的的內(nèi)容。。(2)元數(shù)據(jù)據(jù)提供已已有的可可重復(fù)利利用的查查詢語言言信息。。如果某某個(gè)查詢詢能夠滿滿足他們們的需求求,或者者與他們們的愿望望相似,,他們就就可以再再次使用用那些查查詢而不不必從頭頭開始編編程。關(guān)于數(shù)據(jù)據(jù)倉庫使使用的元元數(shù)據(jù)能能幫助用用戶到數(shù)數(shù)據(jù)倉庫庫查詢所所需要的的信息,,用于解解決企業(yè)業(yè)問題。。(4)關(guān)關(guān)于數(shù)據(jù)據(jù)倉庫使使用的元元數(shù)據(jù)5數(shù)據(jù)據(jù)倉庫的的數(shù)據(jù)組組織模式式星型模式式(starschema))雪花模式式(snowflakeschema)
混合模式式事實(shí)表維量維表中間有一一個(gè)單一一表,沿沿半徑向向外連接接到多個(gè)個(gè)表是星型模模式的擴(kuò)擴(kuò)展,每每一個(gè)點(diǎn)點(diǎn)都沿半半徑向外外連接到多個(gè)個(gè)點(diǎn)星型模式式產(chǎn)品標(biāo)識識符類標(biāo)識符符大類標(biāo)識識符產(chǎn)品名類名大類名現(xiàn)貨存量量銷售表產(chǎn)品標(biāo)識識符商店標(biāo)識識符日期標(biāo)識識符單價(jià)銷售金額額日期表日期標(biāo)識識符日月季年商店標(biāo)識識符市名省名國名洲名商店表產(chǎn)品表雪花模式式銷售表產(chǎn)品標(biāo)識識符商店標(biāo)識識符日期標(biāo)識識符單價(jià)銷售金額額日期表日期標(biāo)識識符日月月季月表季年季表產(chǎn)品表產(chǎn)品標(biāo)識識符類標(biāo)識符符產(chǎn)品名現(xiàn)貨存量量類表類標(biāo)識符符大類標(biāo)識識符類名大類表大類標(biāo)識識符大類名商店表商店標(biāo)識識符市名市名市名省名市表省名國名省表國名洲名國表6數(shù)據(jù)據(jù)追加時(shí)標(biāo)方法法對新插入入或更新新的數(shù)據(jù)據(jù)記錄,,加入更更新時(shí)的的時(shí)標(biāo),,掃描整整個(gè)數(shù)據(jù)據(jù)庫。DELTA文件件由應(yīng)用生生成的,,記錄了了應(yīng)用所所改變的的所有內(nèi)內(nèi)容。DELTA文件件的應(yīng)用用并不普普遍。前后映象象文件對對比占用大量量資源。。日志文件件是DB的的固有機(jī)機(jī)制,不不會影響響到OLTP的的性能。。數(shù)據(jù)冗冗余。數(shù)據(jù)倉庫庫的數(shù)據(jù)據(jù)初裝完完成后,,再向數(shù)數(shù)據(jù)倉庫庫輸入數(shù)數(shù)據(jù)的過過程。數(shù)據(jù)倉庫庫工作范范圍和成成本常常常是巨大大的。開開發(fā)數(shù)據(jù)據(jù)庫是代代價(jià)很高高、時(shí)間間較長的的大項(xiàng)目目。提供更緊緊密集成成的數(shù)據(jù)據(jù)集市就就應(yīng)運(yùn)產(chǎn)產(chǎn)生。目前,全全世界對對數(shù)據(jù)倉倉庫總投投資的一一半以上上均集中中在數(shù)據(jù)據(jù)集市上上。5.1..3數(shù)數(shù)據(jù)集集市(DataMarts)數(shù)據(jù)集市市(DataMarts)是一種更更小、更更集中的的數(shù)據(jù)倉倉庫,為為公司提提供分析析商業(yè)數(shù)數(shù)據(jù)的一一條廉價(jià)價(jià)途徑。。DataMarts是指具有有特定應(yīng)應(yīng)用的數(shù)數(shù)據(jù)倉庫庫,主要要針對某某個(gè)應(yīng)用用或者具具體部門門級的應(yīng)應(yīng)用,支支持用戶戶獲得競競爭優(yōu)勢勢或者找找到進(jìn)入入新市場場的具體體解決方方案。數(shù)據(jù)集市市概念獨(dú)立數(shù)據(jù)據(jù)集市(IndependentDataMart)從屬數(shù)據(jù)據(jù)集市(DependentDataMart)數(shù)據(jù)集市市的種類類數(shù)據(jù)源數(shù)據(jù)源分析工具分析工具獨(dú)立數(shù)據(jù)集市兩種數(shù)據(jù)據(jù)集市分析工具中央數(shù)據(jù)倉庫數(shù)據(jù)源數(shù)據(jù)源從屬數(shù)據(jù)集市分析工具分析工具1、規(guī)模是是小的2、特定的的應(yīng)用3、面向部部門4、由業(yè)務(wù)務(wù)部門定定義,設(shè)設(shè)計(jì)和開開發(fā)5、由業(yè)務(wù)務(wù)部門管管理和維維護(hù)6、快速實(shí)實(shí)現(xiàn)7、購買較較便宜8、投資快快速回收收9、工具集集的緊密密集成10、更詳細(xì)細(xì)的、預(yù)預(yù)先存在在的數(shù)據(jù)據(jù)倉庫的的摘要子子集11、可升級級到完整整的數(shù)據(jù)據(jù)倉庫數(shù)據(jù)集市市的特性性(1)數(shù)據(jù)倉倉庫是基基于整個(gè)個(gè)企業(yè)的的數(shù)據(jù)模模型建立立的,是是面向企企業(yè)范圍圍內(nèi)的主主題;而而數(shù)據(jù)集集市是按按照某一一特定部部門的數(shù)數(shù)據(jù)模型型建立的的;(2)部門的的主題與與企業(yè)的的主題之之間可能能存在關(guān)關(guān)聯(lián),可可能無關(guān)關(guān)聯(lián);(3)數(shù)據(jù)據(jù)集市的的數(shù)據(jù)組組織一般般采用星星型模型型,而大大型數(shù)據(jù)據(jù)倉庫的的組織采采用第三三范式。。數(shù)據(jù)集市市與數(shù)據(jù)據(jù)倉庫的的差別5.2數(shù)據(jù)倉庫庫系統(tǒng)5.2..1數(shù)據(jù)據(jù)倉庫系系統(tǒng)結(jié)構(gòu)構(gòu)數(shù)據(jù)倉庫庫系統(tǒng)由由數(shù)據(jù)倉倉庫(DW)、倉庫管理理和分析析工具三三部分組組成。1、數(shù)據(jù)據(jù)倉庫管管理系統(tǒng)統(tǒng)(1)定義部部分用于定義義和建立立數(shù)據(jù)倉倉庫系統(tǒng)統(tǒng)。它包包括:(1)設(shè)計(jì)和定定義數(shù)據(jù)據(jù)倉庫的的數(shù)據(jù)庫庫(2)定義數(shù)據(jù)據(jù)來源(3)確定從源源數(shù)據(jù)向向數(shù)據(jù)倉倉庫復(fù)制制數(shù)據(jù)時(shí)時(shí)的清理理和增強(qiáng)強(qiáng)規(guī)則(2)數(shù)據(jù)獲獲取部分分該部件把把數(shù)據(jù)從從源數(shù)據(jù)據(jù)中提取取出來,,依定義義部件的的規(guī)則,,抽取、、轉(zhuǎn)化和和裝載數(shù)數(shù)據(jù)進(jìn)入入數(shù)據(jù)倉倉庫。(3)管理部部分它用于管管理數(shù)據(jù)據(jù)倉庫的的工作,,包括::(1)對數(shù)據(jù)據(jù)倉庫中中數(shù)據(jù)的的維護(hù)(2)把倉庫庫數(shù)據(jù)送送出給分分散的倉倉庫服務(wù)務(wù)器或DSS用戶(3)對倉庫庫數(shù)據(jù)的的安全、、歸檔、、備份、、恢復(fù)等等處理工工作1、數(shù)據(jù)據(jù)倉庫管管理系統(tǒng)統(tǒng)(4)信息目目錄部件件(元數(shù)數(shù)據(jù))數(shù)據(jù)倉庫庫的目錄錄數(shù)據(jù)是是元數(shù)據(jù)據(jù),由三三部分組組成:技術(shù)目錄錄:由定義部部件生成成,關(guān)于于數(shù)據(jù)源源、目標(biāo)標(biāo)、清理理規(guī)則、、變換規(guī)規(guī)則以及及數(shù)據(jù)源源和倉庫庫之間的的映象信信息。業(yè)務(wù)目錄錄:由倉庫管管理員生生成,關(guān)關(guān)于倉庫庫數(shù)據(jù)的的來源及及當(dāng)前值值;預(yù)定定義的查查詢和報(bào)報(bào)表細(xì)節(jié)節(jié);合法法性要求求等。信息引導(dǎo)導(dǎo)器:使用戶容容易訪問問倉庫數(shù)數(shù)據(jù)。利利用固定定查詢或或建立新新的查詢詢,生成成暫時(shí)的的或永久久的倉庫庫數(shù)據(jù)集集合的能能力等。。(5)DBMS部件數(shù)據(jù)倉庫庫的存儲儲形式仍仍為關(guān)系系型數(shù)據(jù)據(jù)庫,因因此需要要利用DBMS。1、數(shù)據(jù)據(jù)倉庫管管理系統(tǒng)統(tǒng)分析工具具集分兩兩類工具具:(1)查詢工工具數(shù)據(jù)倉庫庫的查詢詢不是指指對記錄錄級數(shù)據(jù)據(jù)的查詢詢,而是是指對分分析要求求的查詢詢。一般包含含:可視化工工具:以圖形化化方式展展示數(shù)據(jù)據(jù),可以以幫助了了解數(shù)據(jù)據(jù)的結(jié)構(gòu)構(gòu),關(guān)系系以及動動態(tài)性。。2、數(shù)據(jù)據(jù)倉庫工工具集多維分析析工具((OLAP工具):通過對信信息的多多種可能能的觀察察形式進(jìn)進(jìn)行快速速、一致致和交互互性的存存取,這這樣便利利用戶對對數(shù)據(jù)進(jìn)進(jìn)行深入入的分析析和觀察察。多維數(shù)據(jù)據(jù)的每一一維代表表對數(shù)據(jù)據(jù)的一個(gè)個(gè)特定的的觀察視視角,如如時(shí)間、、地域、、業(yè)務(wù)等等。2、數(shù)據(jù)據(jù)倉庫工工具集(2)數(shù)據(jù)挖挖掘工具具從大量數(shù)數(shù)據(jù)中挖挖掘具有有規(guī)律性性知識,,需要利利用數(shù)據(jù)據(jù)挖掘((DataMining)工具。2、數(shù)據(jù)據(jù)倉庫工工具集3、數(shù)據(jù)據(jù)倉庫的的運(yùn)行結(jié)結(jié)構(gòu)數(shù)據(jù)倉庫庫應(yīng)用是是一個(gè)典典型的客客戶/服務(wù)器((C/S)結(jié)構(gòu)形式式。數(shù)據(jù)倉庫庫采用服服務(wù)器結(jié)結(jié)構(gòu),客客戶端所所做的工工作有::客戶交交互、格格式化查查詢、結(jié)結(jié)果顯示示、報(bào)表表生成等等。服務(wù)器端端完成各各種輔助助決策的的SQL查詢、復(fù)復(fù)雜的計(jì)計(jì)算和各各類綜合合功能等等?,F(xiàn)在,越越來越普普通的一一種形式式是三層層C/S結(jié)構(gòu)形式式,即在在客戶與與數(shù)據(jù)倉倉庫服務(wù)務(wù)器之間間增加一一個(gè)多維維數(shù)據(jù)分分析(OLAP)服務(wù)器。。OLAP服務(wù)器將將加強(qiáng)和和規(guī)范化化決策支支持的服服務(wù)工作作,集中中和簡化化了原客客戶端和和數(shù)據(jù)倉倉庫服務(wù)務(wù)器的部部分工作作,降低低了系統(tǒng)統(tǒng)數(shù)據(jù)傳傳輸量。。這種結(jié)構(gòu)構(gòu)形式工工作效率率更高。。三層C//S結(jié)構(gòu)構(gòu)數(shù)據(jù)倉庫庫存儲采采用多維維數(shù)據(jù)模模型。維就是相相同類數(shù)數(shù)據(jù)的集集合,商商店、時(shí)時(shí)間和產(chǎn)產(chǎn)品都是是維。各各個(gè)商店店的集合合是一維維,時(shí)間間的集合合是一維維,商品品的集合合是一維維。每一一個(gè)商店店、每一一段時(shí)間間、每一一種商品品就是某某一維的的一個(gè)成成員。每一個(gè)銷銷售事實(shí)實(shí)由一個(gè)個(gè)特定的的商品、、一個(gè)特特定的時(shí)時(shí)間、一一個(gè)特定定的商品品組成。。兩維表,,如通常常的電子子表格。。三維構(gòu)構(gòu)成立方方體,若若再增加加一維,,則圖形形很難想想象,也也不容易易在屏幕幕上畫出出來。5.2..2數(shù)數(shù)據(jù)倉倉庫的存存儲聯(lián)機(jī)分析析處理(OnLineAnalyticalProcessing,OLAP)的概念最最早是由由關(guān)系數(shù)數(shù)據(jù)庫之之父E.F..Codd于1993年提出的的。在數(shù)據(jù)倉倉庫系統(tǒng)統(tǒng)中,聯(lián)聯(lián)機(jī)分析析處理是是重要的的數(shù)據(jù)分分析工具具。OLAP的基本思思想是從從多方面面和多角角度以多多維的形形式來觀觀察企業(yè)業(yè)的狀態(tài)態(tài)和了解解企業(yè)的的變化。。5.3聯(lián)機(jī)分析析處理5.3..1基本概念念OLAP是在OLTP的基礎(chǔ)上上發(fā)展起起來的。。OLTP是以數(shù)據(jù)據(jù)庫為基基礎(chǔ)的,,面對的的是操作作人員和和低層管管理人員員,對基基本數(shù)據(jù)據(jù)的查詢詢和增、、刪、改改等進(jìn)行行處理。。OLAP是以數(shù)據(jù)據(jù)倉庫為為基礎(chǔ)的的數(shù)據(jù)分分析處理理。它有有兩個(gè)特特點(diǎn):一是在線線性(OnLine),由客客戶機(jī)/服務(wù)器這這種體系系結(jié)構(gòu)來來完成的的;二是多維維分析,,這也是是OLAP的核心所所在。1、OLAP的定義聯(lián)機(jī)分析析處理是是是一種種軟件技技術(shù),他他使分析析人員能能夠迅速速、一致致、交互互地從各各個(gè)方面面觀察信信息,以以達(dá)到深深入理解解數(shù)據(jù)的的目的。。聯(lián)機(jī)分析析技術(shù)是是共享多多維信息息的快速速分析。。一個(gè)3維的模型型,3個(gè)維為::部門,,時(shí)間,,銷售。。三維立方方體,三維表OLAP實(shí)例時(shí)間部門銷售19981999汽車家具服裝
銷售量利潤增長%它體現(xiàn)了了四個(gè)特特征:(1)快快速性:用戶對OLAP的快速速反應(yīng)能能力有很很高的要要求。(2)可可分析性性:OLAP系統(tǒng)應(yīng)應(yīng)能處理理任何邏邏輯分析析和統(tǒng)計(jì)計(jì)分析。。(3)多多維性:系統(tǒng)必須須提供對對數(shù)據(jù)分分析的多多維視圖圖和分析析。(4)信息性性:OLAP系統(tǒng)應(yīng)能能及時(shí)獲獲得信息息,并且且管理大大容量的的信息。。1993年,E.F..Codd提出OLAP的12條準(zhǔn)則,,其主要要的準(zhǔn)則則有:多多維數(shù)據(jù)據(jù)分析;;客戶/服務(wù)器結(jié)結(jié)構(gòu);多多用戶支支持;一一致的報(bào)報(bào)表性能能等。2、OLAP準(zhǔn)則1.多維概念念視圖企業(yè)的數(shù)數(shù)據(jù)空間間本身就就是多維維的。因因此OLAP的概念模模型也應(yīng)應(yīng)是多維維的。用戶可以以對多維維數(shù)據(jù)模模型進(jìn)行行切片、、切塊、、旋轉(zhuǎn)坐坐標(biāo)或進(jìn)進(jìn)行多維維的聯(lián)合合(概括括和聚集集)分析析。4.穩(wěn)定的報(bào)報(bào)表性能能報(bào)表操作作不應(yīng)隨隨維數(shù)增增加而削削弱,即即當(dāng)數(shù)據(jù)據(jù)維數(shù)和和數(shù)據(jù)的的綜合層層次增加加時(shí),提提供的報(bào)報(bào)表能力力和響應(yīng)應(yīng)速度不不應(yīng)該有有明顯的的降低。。5.客戶/服務(wù)器體體系結(jié)構(gòu)構(gòu)OLAP是建立在在客戶/服務(wù)器體體系結(jié)構(gòu)構(gòu)上的。。要求多維維數(shù)據(jù)庫庫服務(wù)器器能夠被被不同的的應(yīng)用和和工具所所訪問。。8.多用戶戶支持當(dāng)多個(gè)用用戶要在在同一分分析模式式上并行行工作,,需要這這些功能能的支持持。
11.靈活的的報(bào)表生生成報(bào)表必須須充分反映映數(shù)據(jù)分分析模型型的多維維特征,,并可按按用戶需需要的方方式來顯顯示它。。OLAP是針對特特定問題題的聯(lián)機(jī)機(jī)數(shù)據(jù)訪訪問和分分析。(1)變量:變量是數(shù)數(shù)據(jù)的實(shí)實(shí)際意義義,即描描述數(shù)據(jù)據(jù)“是什什么”。。(2)維:維是人人們觀察察數(shù)據(jù)的的特定角角度。如如產(chǎn)品維維、顧客客維、時(shí)時(shí)間維等等。(3)維的層層次:數(shù)據(jù)的的細(xì)節(jié)不不同程度度為維的的層次。。如日、、月、季季、年是是時(shí)間維維的層次次。(4)維成員員:維的一一個(gè)取值值稱為該該維的一一個(gè)維成成員。如如“某年年某月某某日”是是時(shí)間維維的一個(gè)個(gè)成員。。3、OLAP的基本概概念(5)多維數(shù)數(shù)組:一個(gè)多維維數(shù)組可可以表示示為:(維1,維2,……,維n,變量)一個(gè)5維的結(jié)構(gòu)構(gòu),即((產(chǎn)品,,地區(qū),,時(shí)間,,銷售渠渠道,銷銷售額))。(6)數(shù)據(jù)單單元(單單元格)):多維數(shù)組組的取值值稱為數(shù)數(shù)據(jù)單元元。如:5維數(shù)據(jù)單單元(牙牙膏,上上海,1998年12月,批發(fā)發(fā),銷售售額為100000)。3、OLAP的基本概概念(1)OLTPOLTP是低層人人員利用用計(jì)算機(jī)機(jī)網(wǎng)絡(luò)對對數(shù)據(jù)庫庫中的數(shù)數(shù)據(jù)進(jìn)行行查詢、、增、刪刪、改等等操作,,以完成成事務(wù)處處理工作作。OLTP利用數(shù)據(jù)據(jù)庫快速速地處理理具體業(yè)業(yè)務(wù)。OLTP應(yīng)用要求求多個(gè)查查詢并行行。4、OLAP與OLTP的關(guān)系與與比較(2)OLAPOLAP是高層人人員對數(shù)數(shù)據(jù)倉庫庫進(jìn)行信信息分析析處理。。①存取大大量的數(shù)數(shù)據(jù)②包含聚聚集的數(shù)數(shù)據(jù)③按層次次對比不不同時(shí)間間周期的的聚集數(shù)數(shù)據(jù)④以不同同的方式式來表現(xiàn)現(xiàn)數(shù)據(jù)⑤要包含含數(shù)據(jù)元元素之間間的復(fù)雜雜的計(jì)算算⑥能夠快快速的響響應(yīng)用戶戶的查詢詢4、OLAP與OLTP的關(guān)系與與比較(3)OLAP與OLTP對比(對對比表))OLTPOLAP數(shù)據(jù)庫數(shù)據(jù)數(shù)據(jù)倉庫數(shù)據(jù)細(xì)節(jié)性數(shù)據(jù)綜合性數(shù)據(jù)當(dāng)前數(shù)據(jù)歷史數(shù)據(jù)一次性處理的數(shù)據(jù)量小一次處理的數(shù)據(jù)量大對響應(yīng)時(shí)間要求高響應(yīng)時(shí)間合理用戶數(shù)量大用戶相對較少面向應(yīng)用,事務(wù)驅(qū)動面向分析,分析驅(qū)動5.3..2OLAP的數(shù)據(jù)組組織MOLAP和ROLAP是OLAP的兩種具具體形式式:ROLAP是基于關(guān)關(guān)系數(shù)據(jù)據(jù)庫存儲儲方式建建立的OLAP。多維數(shù)據(jù)據(jù)映射成成平面型型的關(guān)系系表。采采用星型型模型。。MOLAP是基于多多維數(shù)據(jù)據(jù)庫存儲儲方式建建立的OLAP;表現(xiàn)為““超立方方”結(jié)構(gòu)構(gòu),類似似于多維維數(shù)組的的結(jié)構(gòu)。。在分析中中,需要要“旋轉(zhuǎn)轉(zhuǎn)”數(shù)據(jù)據(jù)立方體體以及““切片””、““切塊””等操作作。MOLAP和ROLAP的對比表表MOLAPROLAP固定維可變維維交叉計(jì)算多維視圖行級計(jì)算超大型數(shù)據(jù)庫讀-寫應(yīng)用維數(shù)據(jù)變化速度快數(shù)據(jù)集市數(shù)據(jù)倉庫例如,以以“產(chǎn)品品、城市市、時(shí)間間”三維維數(shù)據(jù),,如圖5.3..3OLAP的決策支持持;OLAP多維數(shù)據(jù)據(jù)分析1、基本功功能:切切片和切切塊對三維數(shù)數(shù)據(jù),通通過“切切片”,,分別別從城市市和產(chǎn)品品等不同同的角度度觀察銷銷售情況況:鉆取鉆?。豪?,1995年各部門門銷售收收入表如如下:對時(shí)間維維進(jìn)行下下鉆操作作,獲得得新表如如下:鉆?。ǎɡm(xù))旋轉(zhuǎn)前的的數(shù)據(jù)旋轉(zhuǎn)旋轉(zhuǎn)后的的數(shù)據(jù)旋轉(zhuǎn)((續(xù))OLAP的旋轉(zhuǎn)轉(zhuǎn)功能平面數(shù)據(jù)據(jù)的坐標(biāo)標(biāo)軸轉(zhuǎn)換換。12.78.5-4.38.9差量%-4432225402-299531102差量35000030000069000350000計(jì)劃30667732540266005381102現(xiàn)有其它汽車家具服裝銷售量199912.7-44322350000306677所有其他他8.525402300000325402汽車-4.3-29956900066005家具8.931102350000381102服裝差量%差量計(jì)劃現(xiàn)有銷售量1999旋轉(zhuǎn)后再再切片2、廣義OLAP功能1、基本代代理操作作“代理””是一些些智能性性代理,,當(dāng)系統(tǒng)統(tǒng)處于某某種特殊殊狀態(tài)時(shí)時(shí)提醒分分析員。。(1)示警報(bào)報(bào)告定義一些些條件,,一但條條件滿足足,系統(tǒng)統(tǒng)會提醒醒分析員員去做分分析。如如每日報(bào)報(bào)告完成成或月定定貨完成成等通知知分析員員作分析析。(2)異常報(bào)報(bào)告當(dāng)超出邊邊界條件件時(shí)提醒醒分析員員。如銷銷售情況況已超出出預(yù)定義義閾值的的上限或或下限時(shí)時(shí)提醒分分析員。。2、計(jì)算能能力計(jì)算引擎擎用于特特定需求求的計(jì)算算或某種種復(fù)雜計(jì)計(jì)算。3、模型計(jì)計(jì)算增加模型型,如增增加系統(tǒng)統(tǒng)優(yōu)化、、統(tǒng)計(jì)分分析、趨趨勢分析析等模型型,以提提高決策策分析能能力。2、廣義OLAP功能假設(shè)有一一個(gè)5維數(shù)據(jù)模模型,5個(gè)維分別別為:商商店,方方案,部部門,時(shí)時(shí)間,銷銷售。1.三維表表查詢在指定““商店=ALL,方案=現(xiàn)有”情情況的三三維表((行為部部門,列列為時(shí)間間和銷售售量)5.3..4、OLAP實(shí)例
19941995%增長率銷售量利潤增長%銷售量利潤增長%銷售量利潤增長服裝234,67027.2381,10221.562.4(20.0)家具62,54833.866,00531.15.6(8.0)汽車375,09822.4325,40227.2(13.2)21.4所有其它202,38821.3306,67721.750.71.9指定商店店、方案案后的三三維表
19941995%增長率銷售利潤增長%銷售利潤增長%銷售利潤增長汽車375,09822.4325,40227.2(13.2)21.4維修195,05114.2180,78615.0(7.3)5.6附件116,28043.9122,54547.55.38.2音樂63,7678.222,07114.2(63.4)7.32、向下鉆鉆取對汽車部部門向下下鉆取出出具體項(xiàng)項(xiàng)目的銷銷售情況況和利潤潤增長情情況。
1995Sales服裝381,102家具66,005汽車325,402所有其它306,6773、切片表表切片(Slice)操作是除除去一些些列或行行不顯示示
1995銷售量現(xiàn)有計(jì)劃差量差量%服裝381,102350,00031.18.9家具66,00569,000(2,995)(4.3)汽車325,402300,00025,4028.5所有其它306,677350,000(44,322)12.74、旋轉(zhuǎn)表表這次旋轉(zhuǎn)轉(zhuǎn)操作得得到1995年的交叉叉表方案案為:現(xiàn)現(xiàn)有、計(jì)劃、差量、差量%。5.4..1數(shù)據(jù)倉庫庫的開發(fā)發(fā)1、數(shù)據(jù)倉倉庫規(guī)劃劃①數(shù)據(jù)倉庫庫開發(fā)的的范圍怎怎樣?②要解決的的業(yè)務(wù)問問題是什什么?③開發(fā)的數(shù)數(shù)據(jù)倉庫庫的決策策支持能能力是什什么?5.4數(shù)據(jù)倉庫庫的決策策支持及及實(shí)例決策者的的需求:對信息的的需求對業(yè)務(wù)過過程的需需求對數(shù)據(jù)訪訪問的需需求2、定義體體系結(jié)構(gòu)構(gòu)確定體系系結(jié)構(gòu)(1)來源::數(shù)據(jù)應(yīng)應(yīng)該來自自于什么么DBMS的源數(shù)據(jù)據(jù)?(2)傳輸::數(shù)據(jù)通通過什么么樣的網(wǎng)網(wǎng)絡(luò)拓?fù)鋼浣Y(jié)構(gòu)傳傳送過來來?(3)目的地地:數(shù)據(jù)據(jù)發(fā)送到到數(shù)據(jù)倉倉庫的什什么硬件件環(huán)境??(4)元數(shù)據(jù)據(jù):確定定存儲和和訪問數(shù)數(shù)據(jù)的元元數(shù)據(jù)。。(5)變換::編制數(shù)數(shù)據(jù)抽取取、變換換、裝載載的程序序。(6)訪問::最終用用戶怎樣樣才能查查詢數(shù)據(jù)據(jù)?(1)主題域域分析確定所需需數(shù)據(jù)的的范圍和和內(nèi)容。。并建立數(shù)據(jù)倉庫庫的數(shù)據(jù)據(jù)模型::主題域范范圍數(shù)據(jù)倉庫庫的數(shù)據(jù)據(jù)模型(2)物理數(shù)數(shù)據(jù)庫設(shè)設(shè)計(jì)數(shù)據(jù)的實(shí)實(shí)際存儲儲設(shè)計(jì)3、數(shù)據(jù)倉倉庫設(shè)計(jì)計(jì)(1)確定源源數(shù)據(jù)、、檢查其其完整性性,進(jìn)行行評價(jià)。。(2)完成源源數(shù)據(jù)變變換到目目標(biāo)數(shù)據(jù)據(jù)倉庫中中去。4、源系統(tǒng)統(tǒng)分析與與數(shù)據(jù)變變換設(shè)計(jì)計(jì)完成數(shù)據(jù)據(jù)加載;;評審;;元數(shù)據(jù)據(jù)加載;;系統(tǒng)測測試5、建立數(shù)數(shù)據(jù)倉庫庫提供給用用戶訪問問的形式式:(1)使用現(xiàn)現(xiàn)有的特特定工具具;(2)開發(fā)一一個(gè)最終終用戶訪訪問程序序。6、用戶訪訪問方法法的設(shè)計(jì)計(jì)和開發(fā)發(fā)5.4..2數(shù)據(jù)倉庫庫的決策策支持美國著名名的NCR數(shù)據(jù)倉庫庫公司對對數(shù)據(jù)倉倉庫總結(jié)結(jié)5種決策支支持能力力。1、報(bào)表2、隨機(jī)分分析3、預(yù)測4、實(shí)時(shí)決決策5、事件觸觸發(fā)的自自動決策策1、報(bào)表數(shù)據(jù)倉庫庫所面臨臨的最大大挑戰(zhàn)是是數(shù)據(jù)集集成。傳傳統(tǒng)的環(huán)環(huán)境經(jīng)常常有上百百個(gè)數(shù)據(jù)據(jù)源,每每一數(shù)據(jù)據(jù)源都有有各自定定義的標(biāo)標(biāo)準(zhǔn)和實(shí)實(shí)施技術(shù)術(shù)。建立的數(shù)數(shù)據(jù)倉庫庫是通過過收集各各種來源源的數(shù)據(jù)據(jù),來回回答預(yù)先先設(shè)置的的一些問問題,告告訴決策策者“發(fā)發(fā)生了什什么”。。它為以以后數(shù)據(jù)據(jù)倉庫的的發(fā)展奠奠定了基基礎(chǔ)。2、隨機(jī)分分析數(shù)據(jù)倉庫庫應(yīng)用的的第二種種決策支支持是,,從“發(fā)發(fā)生了什什么”轉(zhuǎn)轉(zhuǎn)向“為為什么會會發(fā)生””。分析析活動就就是了解解報(bào)表數(shù)數(shù)據(jù)的涵涵義,需需要更多多更詳細(xì)細(xì)的數(shù)據(jù)據(jù)進(jìn)行各各種角度度的分析析。在第第二階段段的數(shù)據(jù)據(jù)倉庫主主要用于于隨機(jī)分分析。3、預(yù)測數(shù)據(jù)倉庫庫的第三三種決策策支持是是幫助決決策者來來預(yù)測未未來,回回答“將將要發(fā)生生什么””。數(shù)據(jù)倉庫庫需要利利用歷史史資料創(chuàng)創(chuàng)建預(yù)測測模型。。4、實(shí)時(shí)決決策數(shù)據(jù)倉庫庫的第4種決策支支持是企企業(yè)需要要準(zhǔn)確了了解“正正在發(fā)生生什么””,從而而需要建建立動態(tài)態(tài)數(shù)據(jù)倉倉庫(實(shí)實(shí)時(shí)數(shù)據(jù)據(jù)庫),,用于支支持戰(zhàn)術(shù)術(shù)型決策策,即實(shí)實(shí)時(shí)決策策。有效效地解決決當(dāng)前的的實(shí)際問問題。第1到第3種決策支支持的數(shù)數(shù)據(jù)倉庫庫都以支支持企業(yè)業(yè)內(nèi)部戰(zhàn)戰(zhàn)略性決決策為重重點(diǎn),幫幫助企業(yè)業(yè)制定發(fā)發(fā)展戰(zhàn)略略。第4種決策支支持側(cè)重重在戰(zhàn)術(shù)術(shù)性決策策支持。。動態(tài)數(shù)據(jù)據(jù)倉庫能能夠逐項(xiàng)項(xiàng)產(chǎn)品、、逐個(gè)店店鋪、逐逐秒地作作出最佳佳決策支支持。5、事件觸觸發(fā)的自自動決策策數(shù)據(jù)倉庫庫的第5種決策支支持是由由事件觸觸發(fā),利利用動態(tài)態(tài)數(shù)據(jù)庫庫自動決決策,達(dá)達(dá)到“希希望發(fā)生生什么””。例如,電電子貨架架標(biāo)簽技技術(shù)結(jié)合合動態(tài)數(shù)數(shù)據(jù)倉庫庫,可以以幫助企企業(yè)按照照自己的的意愿實(shí)實(shí)現(xiàn)復(fù)雜雜的價(jià)格格管理自自動化,,以便以以最低的的損耗售售出最多多的存貨貨。5.4..3數(shù)據(jù)倉庫庫應(yīng)用實(shí)實(shí)例NCR公司成功功地開發(fā)發(fā)了很多多實(shí)際數(shù)數(shù)據(jù)倉庫庫系統(tǒng),,在此介介紹一例例典型的的數(shù)據(jù)倉倉庫系統(tǒng)統(tǒng)。實(shí)例:金金融業(yè)數(shù)數(shù)據(jù)倉庫庫解決方方案數(shù)據(jù)倉庫庫是金融融銀行機(jī)機(jī)構(gòu)實(shí)現(xiàn)現(xiàn)客戶關(guān)關(guān)系管理理(CustomerRelationshipManagement)的核心技技術(shù),也也是金融融銀行業(yè)業(yè)競爭優(yōu)優(yōu)勢的來來源,主主要的應(yīng)應(yīng)用業(yè)務(wù)務(wù)部門為為信用卡卡部、信信貸部、、市場部部和零售售業(yè)務(wù)部部等,應(yīng)應(yīng)用領(lǐng)域域是以客客戶為中中心的的的分銷渠渠道管理理、客戶戶利潤分分析、客客戶關(guān)系系優(yōu)化、、風(fēng)險(xiǎn)評評估和管管理。銀行只有有通過以以客戶為為中心((CustomerCentric)的數(shù)據(jù)倉倉庫決策策支持系系統(tǒng),才才能使用用科學(xué)的的方法實(shí)實(shí)現(xiàn)個(gè)性性化服務(wù)務(wù)。數(shù)據(jù)倉庫庫系統(tǒng)存存放每一一位客戶戶同銀行行往來的的詳細(xì)的的歷史交交易明細(xì)細(xì)數(shù)據(jù),,對客戶戶有統(tǒng)一一的視圖圖。能幫助銀銀行業(yè)務(wù)務(wù)用戶以以科學(xué)的的手段快快速地分分析、模模擬和預(yù)預(yù)測客戶戶的個(gè)性性化需求求,進(jìn)而而設(shè)計(jì)符符合客戶戶需求的的產(chǎn)品或或服務(wù)。。通過客戶戶喜好的的渠道完完成交易易,是增增強(qiáng)商業(yè)業(yè)銀行競競爭能力力最有效效的手段段。什么是個(gè)個(gè)性化服服務(wù)呢??可以從從客戶和和銀行的的觀點(diǎn)來來看??蛻粽J(rèn)為為個(gè)性化化服務(wù)是是:銀行知知道我((Who)在什么時(shí)時(shí)間(When)、需要什么么產(chǎn)品或或服務(wù)((What)、以我可以以接受的的價(jià)格((HowMuch)、經(jīng)由我喜喜好的分分銷渠道道(Where),對我提供供銷售。。銀行的定定義是:以有有競爭性性的產(chǎn)品品或服務(wù)務(wù)(What)、在適當(dāng)?shù)牡臅r(shí)間((When)、通過適當(dāng)當(dāng)?shù)姆咒N銷渠道((Where)、對信用好好風(fēng)險(xiǎn)低低的客戶戶(Who)、以合理的的價(jià)格((HowMuch)和利潤((Profitable)完成銷售售。兩者都是是在精打打細(xì)算的的前提下下,以達(dá)達(dá)成各自自的需求求和目標(biāo)標(biāo)。1、分銷渠渠道的分分析和管管理銀行通過過分析知知道客戶戶、渠道道、產(chǎn)品品或服務(wù)務(wù)三者之之間的關(guān)關(guān)系;了解客戶戶的購買買行為;;客戶或渠渠道對業(yè)業(yè)務(wù)收入入的貢獻(xiàn)獻(xiàn);哪些客戶戶比較喜喜好經(jīng)由由什么渠渠道在何何時(shí)和銀銀行打交交道;目前的分分銷渠道道的服務(wù)務(wù)能力如如何;需要增加加哪些分分銷渠道道才能達(dá)達(dá)到預(yù)期期的服務(wù)務(wù)水平。。2、利潤評評價(jià)模型型建立所有有客戶的的每一個(gè)個(gè)帳號的的利潤評評價(jià)模型型,以便便了解每每一位客客戶對銀銀行的總總利潤貢貢獻(xiàn)度。。銀行可以以依客戶戶的利潤潤貢獻(xiàn)度度安排合合適的分分銷渠道道提供服服務(wù)和銷銷售,知知道哪些些有利潤潤的客戶戶需要留留住,采采用什么么方法留留住客戶戶,交叉叉銷售改改善客戶戶的利潤潤貢獻(xiàn)度度,那些些客戶應(yīng)應(yīng)該爭取取。另外,銀銀行可以以模擬和和預(yù)測,,新產(chǎn)品品對銀行行利潤的的貢獻(xiàn)度度,或是是新政策策對銀行行會產(chǎn)生生什么樣樣的財(cái)務(wù)務(wù)影響,,或是客客戶流失失或留住住對銀行行的整體體利潤的的影響。。3、
客戶戶關(guān)系優(yōu)優(yōu)化客戶在每每一筆交交易中都都能主動動地告訴訴銀行需需要什么么產(chǎn)品和和服務(wù),,如定期期存款是是希望退退休養(yǎng)老老使用等等;銀行利用用客戶購購買傾向向模型、、渠道喜喜好模型型等主動動地和客客戶溝通通,達(dá)到到留住客客戶和增增加利潤潤的目標(biāo)標(biāo)。4、
風(fēng)險(xiǎn)險(xiǎn)評估和和管理風(fēng)險(xiǎn)評估估和管理理主要利利用各種種數(shù)學(xué)模模型進(jìn)行行分析,,模擬風(fēng)風(fēng)險(xiǎn)和利利潤間的的關(guān)系。。銀行實(shí)現(xiàn)現(xiàn)了以客客戶為中中心的個(gè)個(gè)性化服服務(wù)數(shù)據(jù)據(jù)倉庫決決策支持持系統(tǒng),,就可以以在滿足足高利潤潤低風(fēng)險(xiǎn)險(xiǎn)客戶需需求的前前提下,,達(dá)成銀銀行收益益的極大大化。數(shù)據(jù)挖掘掘的興起起(1)80年在美國國召開了了第一屆屆國際機(jī)機(jī)器學(xué)習(xí)習(xí)研討會會;(2)89年8月于美國國底特律律市召開開的第一一屆KDD國際學(xué)術(shù)術(shù)會議;;(3)95年在加拿拿大召開開了第一一屆知識識發(fā)現(xiàn)和和數(shù)據(jù)挖挖掘國際際學(xué)術(shù)會會議;(4)我國于于87年召開了了第一屆屆全國機(jī)機(jī)器學(xué)習(xí)習(xí)研討會會。5.5知識發(fā)現(xiàn)現(xiàn)與數(shù)據(jù)據(jù)挖掘5.5..1知識發(fā)現(xiàn)現(xiàn)與數(shù)據(jù)據(jù)挖掘概概念知識發(fā)現(xiàn)現(xiàn)(KDD)::從數(shù)據(jù)中中發(fā)現(xiàn)有有用知識識的整個(gè)個(gè)過程。。數(shù)據(jù)挖掘掘(DM)::KDD過過程中的的一個(gè)特特定步驟驟,它用用專門算算法從數(shù)據(jù)據(jù)中抽取取模式((patterns))。KDD過過程定義義:從大量數(shù)數(shù)據(jù)中提提取出可可信的、、新穎的的、有用用的并能能被人理理解的模模式的高高級處理理過程。?!澳J健薄笨梢钥闯沙墒恰爸R””的雛形,,經(jīng)過驗(yàn)驗(yàn)證、完完善后形形成知識識。數(shù)據(jù)源數(shù)據(jù)數(shù)據(jù)集成目標(biāo)數(shù)據(jù)預(yù)處理后數(shù)據(jù)轉(zhuǎn)換數(shù)據(jù)模式知識數(shù)據(jù)選擇預(yù)處理數(shù)據(jù)挖掘數(shù)據(jù)轉(zhuǎn)換結(jié)果表達(dá)和解釋數(shù)據(jù)準(zhǔn)備數(shù)據(jù)挖掘結(jié)果表達(dá)和解釋KDD過程5.5..2數(shù)據(jù)挖掘掘方法和和技術(shù)(一)歸歸納學(xué)習(xí)習(xí)方法分為兩大大類:信信息論方方法(決決策樹方方法)和和集合論論方法。。1、信息論論方法((決策樹樹方法))利用信息息論的原原理建立立決策樹樹或者是是決策規(guī)規(guī)則樹。。(1)ID3方法:Quiulan研制的ID3方法是利利用信息息論中互互信息建建立決策策樹。(2)IBLE方法:我們研制制的IBLE方法,是是利用信信息論中中信道容容量,尋尋找數(shù)據(jù)據(jù)庫中信信息量大大的多個(gè)個(gè)字段的的取值建建立決策策規(guī)則樹樹。2、集合論論方法(1)粗糙集集(RoughSet)方法對數(shù)據(jù)庫庫中的條條件屬性性集與決決策屬性性集建立立上下近近似關(guān)系系,對下下近似集集合建立立確定性性規(guī)則,,對上近近似集合合建立不不確定性性規(guī)則((含可信信度)。。(2)關(guān)聯(lián)規(guī)規(guī)則挖掘掘在交易事事務(wù)數(shù)據(jù)據(jù)庫中,,挖掘出出不同商商品集的的關(guān)聯(lián)關(guān)關(guān)系,即即發(fā)現(xiàn)哪哪些商品品頻繁地地被顧客客同時(shí)購購買。(3)覆蓋正正例排斥斥反例方方法它是利用用覆蓋所所有正例例,排斥斥所有反反例的思思想來尋尋找規(guī)則則。比較典型型的有AQ11方法,AQ15方法以及及AE5方法。(二)仿仿生物技技術(shù)仿生物技技術(shù)典型型的方法法是神經(jīng)經(jīng)網(wǎng)絡(luò)方方法和遺遺傳算法法。1、神經(jīng)網(wǎng)網(wǎng)絡(luò)方法法:包括:前前饋式網(wǎng)網(wǎng)絡(luò)、反反饋式網(wǎng)網(wǎng)絡(luò)、自自組織網(wǎng)網(wǎng)絡(luò)等多多個(gè)神經(jīng)經(jīng)網(wǎng)絡(luò)方方法。2、遺傳算算法:這是模擬擬生物進(jìn)進(jìn)化過程程的算法法。它由三個(gè)個(gè)基本算算子組成成:繁殖(選選擇)、、交叉((重組))、變異異(突變變)遺傳算法法起到產(chǎn)產(chǎn)生優(yōu)良良后代的的作用,,經(jīng)過若若干代的的遺傳,,將得到到滿足要要求的后后代(問問題的解解)。(三)公公式發(fā)現(xiàn)現(xiàn)在工程和和科學(xué)數(shù)數(shù)據(jù)庫中中對若干干數(shù)據(jù)項(xiàng)項(xiàng)(變量量)進(jìn)進(jìn)行一定定的數(shù)學(xué)學(xué)運(yùn)算,,求得相相應(yīng)的數(shù)數(shù)學(xué)公式式。1.物理定定律發(fā)現(xiàn)現(xiàn)系統(tǒng)BACONBACON發(fā)現(xiàn)系統(tǒng)統(tǒng)完成了了物理學(xué)學(xué)中大量量定律的的重新發(fā)發(fā)現(xiàn)。2.經(jīng)驗(yàn)公公式發(fā)現(xiàn)現(xiàn)系統(tǒng)FDD我們研制制了FDD發(fā)現(xiàn)系統(tǒng)統(tǒng),尋找找由數(shù)據(jù)據(jù)項(xiàng)的初初等函數(shù)數(shù)或復(fù)合合函數(shù)組組合成的的經(jīng)驗(yàn)公公式。(四)統(tǒng)統(tǒng)計(jì)分析析方法利用統(tǒng)計(jì)計(jì)學(xué)原理理通過對對總體中中的樣本本數(shù)據(jù)進(jìn)進(jìn)行分析析得出描描述和推推斷該總總體信息息和知識識的方法法。(五)模模糊數(shù)學(xué)學(xué)方法利用模糊糊集合理理論進(jìn)行行數(shù)據(jù)挖挖掘,如如模糊聚聚類、模模糊分類類等。(六)可可視化技技術(shù)利用可視視化技術(shù)術(shù)分析數(shù)數(shù)據(jù)庫,,找到潛潛在的有有用信息息。5.5..3數(shù)據(jù)挖掘掘的知識識表示((一)主要有5種:規(guī)則、決決策樹、、濃縮數(shù)數(shù)據(jù)、網(wǎng)網(wǎng)絡(luò)權(quán)值值、公式式。1、規(guī)則則規(guī)則知識識由前提條件件和結(jié)論兩部分組組成前提條件件由字段項(xiàng)項(xiàng)(屬性性)的取取值的合合?。ㄅc與)和和析取?。ɑ颍┙M合而而成。結(jié)論為決策字字段項(xiàng)((屬性))的取值值或者類類別組成成。2、決策策樹例如:上上例的人人群數(shù)據(jù)據(jù)庫,按按ID3方法得到到的決策策樹如下下:數(shù)據(jù)挖掘掘的知識識表示((二)3、知識識基(濃濃縮數(shù)據(jù)據(jù))例如上例例的人群群數(shù)據(jù)庫庫,通過過計(jì)算可可以得出出身高是不重要要的字段段,刪除除它后,,再合并并相同數(shù)數(shù)據(jù)元組組,得到到濃縮數(shù)數(shù)據(jù)如下下表:數(shù)據(jù)挖掘掘的知識識表示((三)4、網(wǎng)絡(luò)絡(luò)權(quán)值神經(jīng)網(wǎng)絡(luò)絡(luò)方法經(jīng)經(jīng)過對訓(xùn)訓(xùn)練樣本本的學(xué)習(xí)習(xí)后,所所得到的的知識是是網(wǎng)絡(luò)連連接權(quán)值值和結(jié)點(diǎn)點(diǎn)的閾值值。數(shù)據(jù)挖掘掘的知識識表示((四)Zy2x1x2
1y1T1T2w12w21
w11w22
2
,φ=0.5
5、公式式例如,太太陽系行行星運(yùn)動動數(shù)據(jù)中中包含行行星運(yùn)動動周期((旋轉(zhuǎn)一一周所需需時(shí)間,,天),,以及它它與太陽陽的距離離(圍繞繞太陽旋旋轉(zhuǎn)的橢橢圓軌道道的長半半軸,百百萬公里里),數(shù)數(shù)據(jù)如下下表:發(fā)現(xiàn)的公公式為::d3/p2=25數(shù)據(jù)挖掘掘的知識識表示((五)5.6數(shù)據(jù)挖掘掘的決策策支持及及應(yīng)用5.6..1數(shù)據(jù)挖掘掘的決策策支持分分類有::關(guān)聯(lián)分析析、時(shí)序序模式、、聚類、、分類、、偏差檢檢測、預(yù)預(yù)測。1、關(guān)聯(lián)分分析若兩個(gè)或或多個(gè)數(shù)數(shù)據(jù)項(xiàng)的的取值之之間重復(fù)復(fù)出現(xiàn)且且概率很很高時(shí),,它就存存在某種種關(guān)聯(lián),,可以建建立起這這些數(shù)據(jù)據(jù)項(xiàng)的關(guān)關(guān)聯(lián)規(guī)則則。2、時(shí)序模模式通過時(shí)間間序列搜搜索出重重復(fù)發(fā)生生概率較較高的模模式。這這里強(qiáng)調(diào)調(diào)時(shí)間序序列的影影響。3、聚類::在數(shù)據(jù)庫庫中找出出一系列列有意義義的子集集,即類類。4、分類::對數(shù)據(jù)庫庫中的類類,找出出該類別別的概念念描述規(guī)規(guī)則。5、偏差檢檢測:在數(shù)據(jù)庫庫中找出出異常數(shù)數(shù)據(jù)。6、預(yù)測::利用歷史史數(shù)據(jù)找找出變化化規(guī)律的的模型,,并用此此模型預(yù)預(yù)測未來來。關(guān)聯(lián)規(guī)則則開采方方法關(guān)聯(lián)可分分為簡單單關(guān)聯(lián)((如購買買面包的的顧客90%也也同時(shí)買買牛奶))、時(shí)序序關(guān)聯(lián)((如若AT&T股票不不下跌,,則第三三大IBM股票票上漲的的可能性性為75%)及及因果關(guān)關(guān)聯(lián)等。。關(guān)聯(lián)分分析的目目的是找找出數(shù)據(jù)據(jù)庫中隱隱藏的關(guān)關(guān)聯(lián)。關(guān)聯(lián)規(guī)則則是描述述數(shù)據(jù)庫庫的數(shù)據(jù)據(jù)項(xiàng)之間間存在潛潛在關(guān)系系的規(guī)則則形式為為“A1∧A2∧…∧Am→B1∧B2∧…∧Bn”,其中中Ai(i=l,2,,…,m),Bj(j=1,2,,…,n)是數(shù)數(shù)據(jù)庫中中的數(shù)據(jù)據(jù)項(xiàng)之間間的關(guān)聯(lián)聯(lián),即根根據(jù)一個(gè)個(gè)事務(wù)中中某些項(xiàng)項(xiàng)的出現(xiàn)現(xiàn),可推推導(dǎo)出另另一些項(xiàng)項(xiàng)在同一一事務(wù)中中也出現(xiàn)現(xiàn)。
自然界中某種事事物發(fā)生生時(shí)其他他事物也也會發(fā)生生的這樣樣一種聯(lián)聯(lián)系稱之之為關(guān)聯(lián)。反映事件件之間依依賴或關(guān)關(guān)聯(lián)的知知識稱為為關(guān)聯(lián)型知知識(又稱依依賴關(guān)系系)。定義1:關(guān)聯(lián)是兩個(gè)或或多個(gè)變量取值之間間存在的的一類重重要的可可被發(fā)現(xiàn)現(xiàn)的某種種規(guī)律性性。關(guān)聯(lián)可分分為簡單單關(guān)聯(lián)、、時(shí)序關(guān)關(guān)聯(lián)、因因果關(guān)聯(lián)聯(lián)。關(guān)聯(lián)規(guī)則則基本概概念
關(guān)聯(lián)分析析目的是是尋找給給定數(shù)據(jù)據(jù)記錄集集中數(shù)據(jù)據(jù)項(xiàng)之間間隱藏的的關(guān)聯(lián)關(guān)關(guān)系,描描述數(shù)據(jù)據(jù)之間的的密切度度。關(guān)聯(lián)分析析的結(jié)果果常有兩兩種:關(guān)聯(lián)規(guī)則則和序列模式式。關(guān)聯(lián)規(guī)則則用于尋找找在同一一個(gè)事件件中出現(xiàn)現(xiàn)的不同同項(xiàng)的相相關(guān)性;;序列模式式與此類似似,但它它尋找的的是事件件之間時(shí)間上的相關(guān)關(guān)性。關(guān)聯(lián)分分析析
關(guān)聯(lián)規(guī)則則發(fā)現(xiàn)的的主要對對象是交交易型數(shù)數(shù)據(jù)庫,,一個(gè)交交易一般般由交易易處理時(shí)時(shí)間,一一組顧客客購買的的物品,,有時(shí)也也有顧客客標(biāo)識號號(如信信用卡號號)組成成。定義2:關(guān)聯(lián)規(guī)則則是描述在在一個(gè)交交易中物物品之間間同時(shí)出出現(xiàn)的規(guī)規(guī)律的知知識模式式,更確確切的說說,關(guān)聯(lián)聯(lián)規(guī)則是是通過量量化的數(shù)數(shù)字描述述物品X的出現(xiàn)對對物品Y的出現(xiàn)有有多大的的影響。。關(guān)聯(lián)規(guī)規(guī)則則以零售業(yè)業(yè)為例,,體育用用品商場場通過對對銷售數(shù)數(shù)據(jù)進(jìn)行行關(guān)聯(lián)分分析通常??梢园l(fā)發(fā)現(xiàn)這些些數(shù)據(jù)中中常常隱隱含形式式如下的的規(guī)律———“購購買籃球球的顧客客中有70%的人同時(shí)時(shí)購買籃籃球運(yùn)動動服,所所有交易易中有40%的人同時(shí)時(shí)購買籃籃球和籃籃球運(yùn)動動服”等等等。。這些規(guī)規(guī)律即關(guān)聯(lián)規(guī)則則。關(guān)聯(lián)規(guī)規(guī)則則定義3:關(guān)聯(lián)規(guī)則則挖掘的的交易數(shù)據(jù)集記記為D(一般為交交易數(shù)據(jù)據(jù)庫),,D={T1,T2,…,Tk,…,Tn},Tk(k=1,2,,…,n)稱為交易易,對應(yīng)每一一個(gè)交易易有唯一一的標(biāo)識識,記作作TID。元素im(m=1,2,,…,p)稱為項(xiàng)。設(shè)I={i1,i2,…,im}是D中全體項(xiàng)項(xiàng)組成的的集合,,且TkI。交易號(TID)
項(xiàng)集合(Itemsets)
T100I1,I2,I5T200I2,I4T300I2,I3T400I1,I2,I4T500I1,I3設(shè)X是一個(gè)I中項(xiàng)的集集合,如如果XTk,那么稱交交易Tk包含項(xiàng)集集X。若X,Y為項(xiàng)集,,XI,YI,并且XY=,則形如X===>Y的表達(dá)式式稱為關(guān)聯(lián)規(guī)則則。關(guān)聯(lián)規(guī)則則形式化化定義置信度支持度關(guān)聯(lián)規(guī)則則度量規(guī)則XY在交易數(shù)據(jù)集D中的置信度是對關(guān)聯(lián)聯(lián)規(guī)則準(zhǔn)準(zhǔn)確度的衡量。。度量關(guān)關(guān)聯(lián)規(guī)則則的強(qiáng)度。即在所有出出現(xiàn)了X的活動中出現(xiàn)Y的頻率,即規(guī)規(guī)則XY的必然性性有多大大。記為confidence(XY)。計(jì)算方法法:包含X和Y的交易數(shù)數(shù)與包含含X的交易數(shù)之之比:confidence(XY)==P(Y∣∣X)==||{T::XYT,TD}|//|{T:XT,TD}|×100%規(guī)則XY在交易數(shù)據(jù)集D中的支持度是對關(guān)聯(lián)聯(lián)規(guī)則重重要性的衡量,,反映關(guān)關(guān)聯(lián)是否否是普遍存在的的規(guī)律,,說明這這條規(guī)則在所有有交易中中有多大大的代表性。即在所有交交易中X與Y同時(shí)出現(xiàn)現(xiàn)的頻率記為:support(XY)。計(jì)算方法法:交易數(shù)據(jù)集中中同時(shí)包含X和Y的交易數(shù)數(shù)與所有有交易數(shù)數(shù)之比:support(XY)==P((X∪Y)=|{{T:XYT,TD}|//|D|××100%(其中|D|是交易數(shù)據(jù)集D中的所有交交易數(shù)))最小置信信度閾值值最小支持持度閾值值同時(shí)滿足足最小置信信度閾值值和最小支持持度閾值值的關(guān)聯(lián)規(guī)規(guī)則為強(qiáng)關(guān)聯(lián)規(guī)規(guī)則,是有意意義有價(jià)價(jià)值。關(guān)聯(lián)規(guī)則則度量在給定一一個(gè)交易易數(shù)據(jù)集集D,挖掘關(guān)聯(lián)聯(lián)規(guī)則問問題就是是產(chǎn)生支支持度和和置信度度分別大大于用戶戶給定的的最小支持持度閾值值和最小置信信度閾值值的關(guān)聯(lián)規(guī)規(guī)則。關(guān)聯(lián)規(guī)則則度量描述了對于關(guān)聯(lián)規(guī)則(X==>Y)在沒有任何條件影響時(shí),Y在所有交易中出現(xiàn)的頻率有多大。即沒有X的作用下,Y本身的支持度。
期望可信度改善度描述X的出現(xiàn)對Y的出現(xiàn)影響多大,是置信度與期望可信度的比值。P(Y|X)/P(Y)關(guān)聯(lián)規(guī)則則度量興趣度?(置信度-支持度)/Max{置信度,支持度}一條規(guī)則的興趣度大于0,實(shí)際利用價(jià)值越大;小于0則實(shí)際利用價(jià)值越小。名稱描述公式置信度X出現(xiàn)的前提下,Y出現(xiàn)的頻率P(Y|X)支持度X、Y同時(shí)出現(xiàn)的頻率
P(X∩Y)期望可信度
Y出現(xiàn)的頻率
P(Y)改善度
置信度對期望可信度的比值
P(Y|X)/P(Y)關(guān)聯(lián)規(guī)則則度量找出所有有具有最最小支持持度的項(xiàng)項(xiàng)集(頻頻繁項(xiàng)集集)。。用Apriori、FP-Growth等等算法來來找出頻頻繁項(xiàng)集集。使用頻繁繁項(xiàng)集生生成期望望的關(guān)聯(lián)聯(lián)規(guī)則對于每一一個(gè)頻繁繁項(xiàng)集l,找出其中中所有的的非空子子集;然然后,對對于每一一個(gè)這樣樣的子集集a,如果support(l))與support(a))的比值大大于最小小可信度度,則存存在規(guī)則則a==>>(l--a)。挖掘交易易數(shù)據(jù)庫庫D中所有關(guān)關(guān)聯(lián)規(guī)則則的問題題可以被被劃分為為兩個(gè)子子問題::交易號項(xiàng)集合T100I1,I2,I5T200I2,I4T300I2,I3T400I1,I2,I4T500I1,I3T600I2,I3T700I1,I3T800I1,I2,I3,I5T900I1,I2,I3表1交易易數(shù)據(jù)庫D例:找出頻繁繁項(xiàng)集---Apriori算法項(xiàng)集支持度計(jì)數(shù){I1}6{I2}7{I3}6{I4}2{I5}2項(xiàng)集支持度計(jì)數(shù){I1}6{I2}7{I3}6{I4}2{I5}2C1L1掃描D,,對每個(gè)候選計(jì)計(jì)數(shù)比較候選選支持度計(jì)數(shù)與與最小支持度計(jì)計(jì)數(shù)找出頻繁繁1-項(xiàng)項(xiàng)集的集集合L1找出頻繁繁項(xiàng)集---Apriori算法例:最小支持持度閾值值為2項(xiàng)集支持度計(jì)數(shù){I1}6{I2}7{I3}6{I4}2{I5}2項(xiàng)集{I1,I2}{I1,I3}{I1,I4}{I1,I5}{I2,I3}{I2,I4}{I2,I5}{I3,I4}{I3,I5}{I4,I5}L1C2由L1產(chǎn)產(chǎn)生候選C2Lk-1用于產(chǎn)生生候選Ck找出頻繁
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 語文學(xué)科核心素養(yǎng)的內(nèi)涵
- 增城市英語短文語法填空閱讀理解高考一輪訓(xùn)練及答案( 高考)
- 高考志愿填報(bào)的方法與技巧圖文
- 三年級心理健康教育教案--學(xué)案教案
- 中學(xué)生心理健康教案
- 全省小學(xué)數(shù)學(xué)教師賽課一等獎數(shù)學(xué)一年級上冊(人教2024年新編)《數(shù)學(xué)游戲》課件
- 高中物理第一章靜電場課時(shí)5電勢差課件新人教版選修3-
- 2024至2030年中國彈力亞麻棉數(shù)據(jù)監(jiān)測研究報(bào)告
- 2024至2030年中國干式溫度槽行業(yè)投資前景及策略咨詢研究報(bào)告
- 2024至2030年中國天然藺草蕎麥枕數(shù)據(jù)監(jiān)測研究報(bào)告
- 運(yùn)用PDCA血透室導(dǎo)管感染率
- 2022年長江產(chǎn)業(yè)投資集團(tuán)限公司招聘【150人】上岸筆試歷年難、易錯(cuò)點(diǎn)考題附帶參考答案與詳解
- 大氣的受熱過程說課稿2023-2024學(xué)年高中地理湘教版(2019)必修一
- 國有企業(yè)參控股企業(yè)暫行管理辦法(全新經(jīng)典版)
- 預(yù)防事故和職業(yè)危害的措施及應(yīng)注意的安全事項(xiàng)課件
- 鉑電阻溫度值對照表PT1000阻值(完整版)
- 基于Android的個(gè)性化天氣預(yù)報(bào)系統(tǒng)的設(shè)計(jì)與軟件實(shí)現(xiàn)
- 《神經(jīng)生物學(xué)》-膠質(zhì)細(xì)胞課件
- 魯科版四年級上冊英語每單元重點(diǎn)
- 小學(xué)英語學(xué)習(xí)分組背誦表格
- 國家開放大學(xué)日常學(xué)習(xí)行為表現(xiàn)
評論
0/150
提交評論