




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
1/10111/3/2022第六章數(shù)據(jù)倉庫與數(shù)據(jù)挖掘皆戴是洞貝寇邱楔踏矢質(zhì)吠池患剃渙妮黍寓戚匹契緒礙輻鷗柔汪拒些凋霉7-數(shù)據(jù)倉庫與數(shù)據(jù)挖掘7-數(shù)據(jù)倉庫與數(shù)據(jù)挖掘1/10111/2/2022第六章數(shù)據(jù)倉庫與數(shù)據(jù)挖掘12/10111/3/2022數(shù)據(jù)挖掘的發(fā)展動(dòng)力
---需要是發(fā)明之母數(shù)據(jù)爆炸問題自動(dòng)數(shù)據(jù)收集工具和成熟的數(shù)據(jù)庫技術(shù)使得大量的數(shù)據(jù)被收集,存儲(chǔ)在數(shù)據(jù)庫、數(shù)據(jù)倉庫或其他信息庫中以待分析。我們擁有豐富的數(shù)據(jù),但卻缺乏有用的信息
解決方法:數(shù)據(jù)倉庫技術(shù)和數(shù)據(jù)挖掘技術(shù)數(shù)據(jù)倉庫(DataWarehouse)和在線分析處理(OLAP)數(shù)據(jù)挖掘:在大量的數(shù)據(jù)中挖掘感興趣的知識(shí)(規(guī)則,規(guī)律,模式,約束)預(yù)殆給奪壟縮壹拾漂措亥田澡暮肺尼憑族些輾勿餡纂抱洲凝毋醉薊筆劉謬7-數(shù)據(jù)倉庫與數(shù)據(jù)挖掘7-數(shù)據(jù)倉庫與數(shù)據(jù)挖掘2/10111/2/2022數(shù)據(jù)挖掘的發(fā)展動(dòng)力
--23/10111/3/2022什么是數(shù)據(jù)挖掘?數(shù)據(jù)挖掘(從數(shù)據(jù)中發(fā)現(xiàn)知識(shí))
從大量的數(shù)據(jù)中挖掘哪些令人感興趣的、有用的、隱含的、先前未知的和可能有用的模式或知識(shí)
挖掘的不僅僅是數(shù)據(jù)(所以“數(shù)據(jù)挖掘”并非一個(gè)精確的用詞)數(shù)據(jù)挖掘的替換詞數(shù)據(jù)庫中的知識(shí)挖掘(KDD)知識(shí)提煉數(shù)據(jù)/模式分析數(shù)據(jù)考古數(shù)據(jù)捕撈、信息收獲等等。摹駒減就閣比韓學(xué)褪加忠震棘掠參旭眷袋夢圍互誤俗瘸聾烴曲包承貢令梨7-數(shù)據(jù)倉庫與數(shù)據(jù)挖掘7-數(shù)據(jù)倉庫與數(shù)據(jù)挖掘3/10111/2/2022什么是數(shù)據(jù)挖掘?數(shù)據(jù)挖掘(從數(shù)34/10111/3/2022數(shù)據(jù)挖掘:數(shù)據(jù)庫中的知識(shí)挖掘(KDD)數(shù)據(jù)挖掘——知識(shí)挖掘的核心數(shù)據(jù)清理數(shù)據(jù)集成數(shù)據(jù)庫數(shù)據(jù)倉庫Knowledge任務(wù)相關(guān)數(shù)據(jù)選擇數(shù)據(jù)挖掘模式評估舶蔡膀歉史滾桅舵母穿晤呵檄札關(guān)賞娶行漠分克悸太涪較什湯址愚梭仲皚7-數(shù)據(jù)倉庫與數(shù)據(jù)挖掘7-數(shù)據(jù)倉庫與數(shù)據(jù)挖掘4/10111/2/2022數(shù)據(jù)挖掘:數(shù)據(jù)庫中的知識(shí)挖掘(45/10111/3/2022KDD的步驟從KDD對數(shù)據(jù)挖掘的定義中可以看到當(dāng)前研究領(lǐng)域?qū)?shù)據(jù)挖掘的狹義和廣義認(rèn)識(shí)數(shù)據(jù)清理:(這個(gè)可能要占全過程60%的工作量)數(shù)據(jù)集成數(shù)據(jù)選擇數(shù)據(jù)變換數(shù)據(jù)挖掘(選擇適當(dāng)?shù)乃惴▉碚业礁信d趣的模式
—狹義)6.模式評估7.知識(shí)表示(如圖形等表示方法)乳葷罐改燦司鑷肅澤社帳圖弊閏戮請路往興廂換擋賒忘幀吱指蛋啊踢甭棗7-數(shù)據(jù)倉庫與數(shù)據(jù)挖掘7-數(shù)據(jù)倉庫與數(shù)據(jù)挖掘5/10111/2/2022KDD的步驟從KDD對數(shù)據(jù)挖掘的56/10111/3/2022典型數(shù)據(jù)挖掘系統(tǒng)的體系結(jié)構(gòu)數(shù)據(jù)倉庫數(shù)據(jù)清洗過濾數(shù)據(jù)庫數(shù)據(jù)庫或數(shù)據(jù)倉庫服務(wù)器數(shù)據(jù)挖掘引擎模式評估圖形用戶界面知識(shí)庫數(shù)據(jù)集成掙夜瘋姨代羅頰善演運(yùn)狙殉匙灶濰滲九烘銜銑段住舷姨窘啞撂咳策敦眩烴7-數(shù)據(jù)倉庫與數(shù)據(jù)挖掘7-數(shù)據(jù)倉庫與數(shù)據(jù)挖掘6/10111/2/2022典型數(shù)據(jù)挖掘系統(tǒng)的體系結(jié)構(gòu)數(shù)據(jù)倉67/10111/3/2022并非所有的東西都是數(shù)據(jù)挖掘基于數(shù)據(jù)倉庫的OLAP系統(tǒng)OLAP系統(tǒng)專注于數(shù)據(jù)的匯總,而數(shù)據(jù)挖掘系統(tǒng)可以對數(shù)據(jù)進(jìn)行多種復(fù)雜的處理。機(jī)器學(xué)習(xí)系統(tǒng),數(shù)據(jù)統(tǒng)計(jì)分析系統(tǒng)這些系統(tǒng)所處理的數(shù)據(jù)容量往往很有限。信息系統(tǒng)專注于數(shù)據(jù)的查詢處理。相比于上述系統(tǒng),數(shù)據(jù)挖掘系統(tǒng)關(guān)注更廣的范圍,是一個(gè)多學(xué)科的融合加擊薦嚷雁或蓬蕾退率環(huán)閩邦詩即粳錫譚給妒送奇堆臃褐遺坪抬材暈剮陛7-數(shù)據(jù)倉庫與數(shù)據(jù)挖掘7-數(shù)據(jù)倉庫與數(shù)據(jù)挖掘7/10111/2/2022并非所有的東西都是數(shù)據(jù)挖掘基于數(shù)78/10111/3/2022在何種數(shù)據(jù)上進(jìn)行數(shù)據(jù)挖掘關(guān)系數(shù)據(jù)庫數(shù)據(jù)倉庫事務(wù)數(shù)據(jù)庫高級數(shù)據(jù)庫系統(tǒng)和信息庫空間數(shù)據(jù)庫時(shí)間數(shù)據(jù)庫和時(shí)間序列數(shù)據(jù)庫流數(shù)據(jù)多媒體數(shù)據(jù)庫面向?qū)ο髷?shù)據(jù)庫和對象-關(guān)系數(shù)據(jù)庫異種數(shù)據(jù)庫和歷史(legacy)數(shù)據(jù)庫文本數(shù)據(jù)庫和萬維網(wǎng)(WWW)頸吃幢儈跡戊綏拖丈溢禁菩狠鳳斑凡流魁覽川閥騁鑷烤繕彭杉寂蓉晃籽憲7-數(shù)據(jù)倉庫與數(shù)據(jù)挖掘7-數(shù)據(jù)倉庫與數(shù)據(jù)挖掘8/10111/2/2022在何種數(shù)據(jù)上進(jìn)行數(shù)據(jù)挖掘關(guān)系數(shù)據(jù)89/10111/3/2022數(shù)據(jù)挖掘的主要功能
——可以挖掘哪些模式?一般功能描述性的數(shù)據(jù)挖掘預(yù)測性的數(shù)據(jù)挖掘通常,用戶并不知道在數(shù)據(jù)中能挖掘出什么東西,對此我們會(huì)在數(shù)據(jù)挖掘中應(yīng)用一些常用的數(shù)據(jù)挖掘功能,挖掘出一些常用的模式,包括:概念/類描述:特性化和區(qū)分關(guān)聯(lián)分析分類和預(yù)測聚類分析孤立點(diǎn)分析趨勢和演變分析閻捐捐藏緘坪嬰桌后缸磁女三款曹齒皇所棲陣菌民停淖薩公匠氖暗的扛裴7-數(shù)據(jù)倉庫與數(shù)據(jù)挖掘7-數(shù)據(jù)倉庫與數(shù)據(jù)挖掘9/10111/2/2022數(shù)據(jù)挖掘的主要功能
——可以910/10111/3/2022概念/類描述:特性化和區(qū)分概念描述:為數(shù)據(jù)的特征化和比較產(chǎn)生描述(當(dāng)所描述的概念所指的是一類對象時(shí),也稱為類描述)特征化:提供給定數(shù)據(jù)集的簡潔匯總。例:對AllElectronic公司的“大客戶”(年消費(fèi)額$1000以上)的特征化描述:40-50歲,有固定職業(yè),信譽(yù)良好,等等區(qū)分:提供兩個(gè)或多個(gè)數(shù)據(jù)集的比較描述。例:索茲漸雄湛拱俞鐳渺脯例花展岳彌毛理鵝抱拐蒂盯至爬嫌幼叭燴甚抹低得7-數(shù)據(jù)倉庫與數(shù)據(jù)挖掘7-數(shù)據(jù)倉庫與數(shù)據(jù)挖掘10/10111/2/2022概念/類描述:特性化和區(qū)分概1011/10111/3/2022關(guān)聯(lián)分析關(guān)聯(lián)規(guī)則挖掘:從事務(wù)數(shù)據(jù)庫,關(guān)系數(shù)據(jù)庫和其他信息存儲(chǔ)中的大量數(shù)據(jù)的項(xiàng)集之間發(fā)現(xiàn)有趣的、頻繁出現(xiàn)的模式、關(guān)聯(lián)和相關(guān)性。廣泛的用于購物籃或事務(wù)數(shù)據(jù)分析。例:熏唯嫩魄七詛謝醋特批述楚磐懂瓢吝渺否翹斜滋奧牢恿哮居氈索辮鈕慮遺7-數(shù)據(jù)倉庫與數(shù)據(jù)挖掘7-數(shù)據(jù)倉庫與數(shù)據(jù)挖掘11/10111/2/2022關(guān)聯(lián)分析關(guān)聯(lián)規(guī)則挖掘:熏唯嫩魄1112/10111/3/2022分類和預(yù)測1、分類在商業(yè)上應(yīng)用最多,其目的是找出一組能夠描述數(shù)據(jù)集合典型特征的模型和函數(shù)。2、數(shù)據(jù)分類實(shí)際上就是從數(shù)據(jù)庫對象中發(fā)現(xiàn)共性,并將數(shù)據(jù)對象分成不同類別的過程。3、分類的目標(biāo)首先是對訓(xùn)練數(shù)據(jù)進(jìn)行分析,使用數(shù)據(jù)的某些特征屬性,給出每個(gè)類的準(zhǔn)確描述,然后使用這些描述,對數(shù)據(jù)庫中的其他數(shù)據(jù)進(jìn)行分類。4、分類通常和預(yù)測聯(lián)系起來,這是因?yàn)榉诸惪梢杂脕眍A(yù)測數(shù)據(jù)對象的類標(biāo)記,也可以用來預(yù)測不知道的數(shù)據(jù)值,當(dāng)被預(yù)測的值是數(shù)值數(shù)據(jù)時(shí),通常稱之為預(yù)測。箍肌徹錐蚊植渝匹窮拒蕭徒垂酗躁套紹穿扼閡窄險(xiǎn)稈苯沸蘿駁橇洽燥廉箭7-數(shù)據(jù)倉庫與數(shù)據(jù)挖掘7-數(shù)據(jù)倉庫與數(shù)據(jù)挖掘12/10111/2/2022分類和預(yù)測1、分類在商業(yè)上應(yīng)用1213/10111/3/2022分類和預(yù)測例:通過訓(xùn)練數(shù)據(jù)獲得了如下規(guī)則:IF年齡=“31..40”AND收入=“較高”THEN信用程度=“優(yōu)秀”規(guī)則的含義:年齡在31到40之間,收入較高的情況下,這類顧客群的信用程度被認(rèn)為是“優(yōu)秀”IFage=“<=30”ANDstudent=“no”THENbuys_computer=“no”IFage=“<=30”ANDstudent=“yes”THENbuys_computer=“yes”IFage=“31…40”THENbuys_computer=“yes”IFage=“>40”ANDcredit_rating=“excellent”THENbuys_computer=“yes”IFage=“>40”ANDcredit_rating=“fair”THENbuys_computer=“no”膳毆任逾祁訴幢池寡嗜績那遍卯灼躊須灶珠蒜辱卜砒谷站灑憫手噎癸足攤7-數(shù)據(jù)倉庫與數(shù)據(jù)挖掘7-數(shù)據(jù)倉庫與數(shù)據(jù)挖掘13/10111/2/2022分類和預(yù)測例:膳毆任逾祁訴幢池1314/10111/3/2022聚類分析聚類分析:將物理或抽象對象的集合分組成為由類似的對象組成的多個(gè)類的過程。最大化類內(nèi)的相似性和最小化類間的相似性例:對WEB日志的數(shù)據(jù)進(jìn)行聚類,以發(fā)現(xiàn)相同的用戶訪問模式聚類分析與分類分析相反,首先輸入的是一組沒有被標(biāo)記的記錄,系統(tǒng)按照一定的規(guī)則合理地劃分記錄集合(相當(dāng)于給記錄打標(biāo)記,只不過分類標(biāo)準(zhǔn)不是用戶指定的),然后可以采用分類分析法進(jìn)行數(shù)據(jù)分析,并根據(jù)分析的結(jié)果重新對原來的記錄集合(沒有被標(biāo)記的記錄集合)進(jìn)行劃分,進(jìn)而再一次進(jìn)行分類分析,如此循環(huán)往復(fù),直到獲得滿意的分析結(jié)果為止。腕銥漢商喧姓盎要濃膏斜薦戳誅篷舔擯倪出掇誰騁倡咆涵薦鈕秸迄個(gè)繭整7-數(shù)據(jù)倉庫與數(shù)據(jù)挖掘7-數(shù)據(jù)倉庫與數(shù)據(jù)挖掘14/10111/2/2022聚類分析聚類分析:腕銥漢商喧姓1415/10111/3/2022孤立點(diǎn)分析孤立點(diǎn)分析孤立點(diǎn):一些與數(shù)據(jù)的一般行為或模型不一致的孤立數(shù)據(jù)通常孤立點(diǎn)被作為“噪音”或異常被丟棄,但在欺騙檢測中卻可以通過對罕見事件進(jìn)行孤立點(diǎn)分析而得到結(jié)論。應(yīng)用信用卡欺詐檢測移動(dòng)電話欺詐檢測客戶劃分醫(yī)療分析(異常)郭莫未佰哉縱搽小新魄祈浸曲喘坦緊腑化鞘靴脆作廁描黨貸敢廊妊捻大贊7-數(shù)據(jù)倉庫與數(shù)據(jù)挖掘7-數(shù)據(jù)倉庫與數(shù)據(jù)挖掘15/10111/2/2022孤立點(diǎn)分析孤立點(diǎn)分析郭莫未佰哉1516/10111/3/2022趨勢和演變分析是針對事件或?qū)ο笮袨殡S時(shí)間變化的規(guī)律或趨勢,并以此來建立模型。例如:對股票市場交易數(shù)據(jù)進(jìn)行時(shí)序演變分析,則可能得到這樣的規(guī)則:AT&T股票連續(xù)上漲兩天且DEC股票不下跌,那么第三天IBM股票上漲的可能性為75%。趨勢和偏差:回歸分析序列模式匹配:周期性分析基于類似性的分析供饅霓纜乓惑辛征鋁孜得梳腕濃閘輾瘟忘吩何鄉(xiāng)菱掛嗆琴借憂尿貍粉純裂7-數(shù)據(jù)倉庫與數(shù)據(jù)挖掘7-數(shù)據(jù)倉庫與數(shù)據(jù)挖掘16/10111/2/2022趨勢和演變分析是針對事件或?qū)ο?617/10111/3/2022所有模式都是有趣的嗎?數(shù)據(jù)挖掘可能產(chǎn)生數(shù)以千計(jì)的模式或規(guī)則,但并不是所有的模式或規(guī)則都是令人感興趣的。模式興趣度的度量一個(gè)模式是有趣的,如果(1)它易于被人理解;(2)在某種程度上,對于新的或測試數(shù)據(jù)是有效的;(3)具有潛在效用;(4)新穎的;(5)符合用戶確信的某種假設(shè)模式興趣度的客觀和主觀度量客觀度量:基于所發(fā)現(xiàn)模式的結(jié)構(gòu)和關(guān)于它們的統(tǒng)計(jì),比如:支持度、置信度等等主觀度量:基于用戶對數(shù)據(jù)的判斷。比如:出乎意料的、新穎的、可行動(dòng)的等等扦次塞枉逞唐正鏈還美瞬韭陽破拒咎謹(jǐn)闖闊受胰寺雙帳燼今血雅疏射覽剖7-數(shù)據(jù)倉庫與數(shù)據(jù)挖掘7-數(shù)據(jù)倉庫與數(shù)據(jù)挖掘17/10111/2/2022所有模式都是有趣的嗎?數(shù)據(jù)挖掘1718/10111/3/2022能夠產(chǎn)生所有有趣模式并且僅產(chǎn)生有趣模式嗎?找出所有有趣的模式:數(shù)據(jù)挖掘算法的完全性問題數(shù)據(jù)挖掘系統(tǒng)能夠產(chǎn)生所有有趣的模式嗎?試探搜索vs.窮舉搜索關(guān)聯(lián)vs.分類vs.聚類只搜索有趣的模式:數(shù)據(jù)挖掘算法的最優(yōu)化問題數(shù)據(jù)挖掘系統(tǒng)可以僅僅發(fā)現(xiàn)有趣的模式嗎?方法首先生成所有模式然后過濾那些無趣的.僅僅生成有趣的模式—挖掘查詢優(yōu)化陡并腋邪邱鹿摹叔肢裁恍啥沖跑滿敢葉甘賓仟凡糊勺輿傣渭捍掇瑞窄癱溯7-數(shù)據(jù)倉庫與數(shù)據(jù)挖掘7-數(shù)據(jù)倉庫與數(shù)據(jù)挖掘18/10111/2/2022能夠產(chǎn)生所有有趣模式并且僅產(chǎn)生1819/10111/3/2022數(shù)據(jù)挖掘:多個(gè)學(xué)科的融合數(shù)據(jù)挖掘數(shù)據(jù)庫系統(tǒng)統(tǒng)計(jì)學(xué)其他學(xué)科算法機(jī)器學(xué)習(xí)可視化聲闌械摔披藩館認(rèn)蔭耪輻狠蒼殉質(zhì)俊泌踞墳音稿尉唉傈顧獲森裸髓腹肯勃7-數(shù)據(jù)倉庫與數(shù)據(jù)挖掘7-數(shù)據(jù)倉庫與數(shù)據(jù)挖掘19/10111/2/2022數(shù)據(jù)挖掘:多個(gè)學(xué)科的融合數(shù)據(jù)挖1920/10111/3/2022數(shù)據(jù)挖掘系統(tǒng)的分類(1)數(shù)據(jù)挖掘的多學(xué)科融合的特性,決定了數(shù)據(jù)挖掘的研究將產(chǎn)生種類繁多的數(shù)據(jù)挖掘系統(tǒng)。根據(jù)所挖掘的數(shù)據(jù)庫分類關(guān)系數(shù)據(jù)庫,事務(wù)數(shù)據(jù)庫,流式數(shù)據(jù),面向?qū)ο髷?shù)據(jù)庫,對象關(guān)系數(shù)據(jù)庫,數(shù)據(jù)倉庫,空間數(shù)據(jù)庫,時(shí)序數(shù)據(jù)庫,文本數(shù)據(jù)庫,多媒體數(shù)據(jù)庫,異構(gòu)數(shù)據(jù)庫,歷史數(shù)據(jù)庫潛溶禍脊拜剿兒散叼盅堆韭掇叭摳緬蔬田陵絲擔(dān)引小沛擋從旁乍泄冪賊移7-數(shù)據(jù)倉庫與數(shù)據(jù)挖掘7-數(shù)據(jù)倉庫與數(shù)據(jù)挖掘20/10111/2/2022數(shù)據(jù)挖掘系統(tǒng)的分類(1)數(shù)據(jù)2021/10111/3/2022數(shù)據(jù)挖掘系統(tǒng)的分類(2)根據(jù)挖掘的知識(shí)類型特征分析,區(qū)分,關(guān)聯(lián)分析,分類聚類,孤立點(diǎn)分析/演變分析,偏差分析等等.多種方法的集成和多層機(jī)挖掘根據(jù)挖掘所用的技術(shù)面向數(shù)據(jù)庫的挖掘、數(shù)據(jù)倉庫、OLAP、機(jī)器學(xué)習(xí)、統(tǒng)計(jì)學(xué)、可視化等等.根據(jù)挖掘所用的應(yīng)用金融,電信,銀行,欺詐分析,DNA分析,股票市場,Web挖掘等等.頓閑戈敲盾凱誓漂垂懷銘帆娃輩譏欄端殉福牧辱覺鵝郎炭呸青猿類險(xiǎn)紋鉑7-數(shù)據(jù)倉庫與數(shù)據(jù)挖掘7-數(shù)據(jù)倉庫與數(shù)據(jù)挖掘21/10111/2/2022數(shù)據(jù)挖掘系統(tǒng)的分類(2)根據(jù)21第二節(jié):數(shù)據(jù)倉庫和數(shù)據(jù)挖掘的OLAP技術(shù)腑壯怕炸往清羌主官命蔫釋泡弦蝴塹爍摔諧恿渴贊吵痊婉集冤忍瞇瑣魄驗(yàn)7-數(shù)據(jù)倉庫與數(shù)據(jù)挖掘7-數(shù)據(jù)倉庫與數(shù)據(jù)挖掘第二節(jié):數(shù)據(jù)倉庫和數(shù)據(jù)挖掘的OLAP技術(shù)腑壯怕炸往清羌主官命2223/10111/3/2022數(shù)據(jù)倉庫-數(shù)據(jù)挖掘的有效平臺(tái)數(shù)據(jù)倉庫中的數(shù)據(jù)清理和數(shù)據(jù)集成,是數(shù)據(jù)挖掘的重要數(shù)據(jù)預(yù)處理步驟數(shù)據(jù)倉庫提供OLAP工具,可用于不同粒度的數(shù)據(jù)分析很多數(shù)據(jù)挖掘功能都可以和OLAP操作集成,以提供不同概念層上的知識(shí)發(fā)現(xiàn)分類預(yù)測關(guān)聯(lián)聚集久笨灑觸態(tài)千選坷斑信繕悔傻憑獰宵犬誨痘攆喂嶺撓韌盜吁仁跌踩伺倦沛7-數(shù)據(jù)倉庫與數(shù)據(jù)挖掘7-數(shù)據(jù)倉庫與數(shù)據(jù)挖掘23/10111/2/2022數(shù)據(jù)倉庫-數(shù)據(jù)挖掘的有效平臺(tái)數(shù)2324/10111/3/2022數(shù)據(jù)倉庫的定義與基本特性1.數(shù)據(jù)倉庫的定義
WilliamH.Inmon在1993年所寫的論著《BuildingtheDataWarehouse》首先系統(tǒng)地闡述了關(guān)于數(shù)據(jù)倉庫的思想、理論,為數(shù)據(jù)倉庫的發(fā)展奠定了歷史基石。文中他將數(shù)據(jù)倉庫定義為:adatawarehouseisasubject-oriented,integrated,non-volatile,time-variantcollectionofdatainsupportofmanagementdecisions.一個(gè)面向主題的、集成的、非易失性的、隨時(shí)間變化的數(shù)據(jù)的集合,以用于支持管理層決策過程。節(jié)籮剔舵二贍孜傳遷凡丑景奧舒痊聾豌留廚甕懂挖戌終甲匣攘商辜事灼丹7-數(shù)據(jù)倉庫與數(shù)據(jù)挖掘7-數(shù)據(jù)倉庫與數(shù)據(jù)挖掘24/10111/2/2022數(shù)據(jù)倉庫的定義與基本特性1.2425/10111/3/2022數(shù)據(jù)倉庫關(guān)鍵特征一——面向主題面向主題表示了數(shù)據(jù)倉庫中數(shù)據(jù)組織的基本原則,數(shù)據(jù)倉庫中的數(shù)由數(shù)據(jù)都是圍繞著某一主題組織展開的。由于數(shù)據(jù)倉庫的用戶大多是企業(yè)的管理決策者,這些人所面對的往往是一些比較抽象的、層次較高的管理分析對象。例如,企業(yè)中的客戶、產(chǎn)品、供應(yīng)商等都可以作為主題看待。從信息管理的角度看,主題就是在一個(gè)較高的管理層次上對信息系統(tǒng)的數(shù)據(jù)按照某一具體的管理對象進(jìn)行綜合、歸類所形成的分析對象。從數(shù)據(jù)組織的角度看,主題是一些數(shù)據(jù)集合,這些數(shù)據(jù)集合對分析對象作了比較完整的、一致的描述,這種描述不僅涉及到數(shù)據(jù)自身,而且涉及到數(shù)據(jù)之間的關(guān)系。凄珊駁邊箋苞佃競廓粒蔣九昌贖呵苗般爆脆莫努拄結(jié)紀(jì)鄖拄矮飼幾輔聘麗7-數(shù)據(jù)倉庫與數(shù)據(jù)挖掘7-數(shù)據(jù)倉庫與數(shù)據(jù)挖掘25/10111/2/2022數(shù)據(jù)倉庫關(guān)鍵特征一——面向主題2526/10111/3/2022數(shù)據(jù)倉庫關(guān)鍵特征二——數(shù)據(jù)集成一個(gè)數(shù)據(jù)倉庫是通過集成多個(gè)異種數(shù)據(jù)源來構(gòu)造的。關(guān)系數(shù)據(jù)庫,一般文件,聯(lián)機(jī)事務(wù)處理記錄(OLTP)使用數(shù)據(jù)清理和數(shù)據(jù)集成技術(shù)。確保命名約定、編碼結(jié)構(gòu)、屬性度量等的一致性。當(dāng)數(shù)據(jù)被移到數(shù)據(jù)倉庫時(shí),它們要經(jīng)過轉(zhuǎn)化。腹帳譚跺瓤玫吠材時(shí)蔭淪汪拜旭氯漚抬失汪梧茍穢賞葛鳳瑯空鱗摩璃輛罕7-數(shù)據(jù)倉庫與數(shù)據(jù)挖掘7-數(shù)據(jù)倉庫與數(shù)據(jù)挖掘26/10111/2/2022數(shù)據(jù)倉庫關(guān)鍵特征二——數(shù)據(jù)集成2627/10111/3/2022數(shù)據(jù)倉庫關(guān)鍵特征三——隨時(shí)間而變化數(shù)據(jù)倉庫是從歷史的角度提供信息數(shù)據(jù)倉庫的時(shí)間范圍比操作數(shù)據(jù)庫系統(tǒng)要長的多。操作數(shù)據(jù)庫系統(tǒng):主要保存當(dāng)前數(shù)據(jù)。數(shù)據(jù)倉庫:從歷史的角度提供信息(比如過去5-10年)數(shù)據(jù)倉庫中的每一個(gè)關(guān)鍵結(jié)構(gòu)都隱式或顯式地包含時(shí)間元素,而操作數(shù)據(jù)庫中的關(guān)鍵結(jié)構(gòu)可能就不包括時(shí)間元素盡管數(shù)據(jù)倉庫中的數(shù)據(jù)并不像業(yè)務(wù)數(shù)據(jù)庫那樣反映業(yè)務(wù)處理的實(shí)際狀況,但是數(shù)據(jù)也不能長期不變,如果依據(jù)10年前的數(shù)據(jù)進(jìn)行決策分析,那決策所帶來的后果將是十分可怕的。媳墨旋申啦榷姬掛利受隘園去凄籮鍋知油肢鋇篙殖盞凰絮釋售鈍毫描利兼7-數(shù)據(jù)倉庫與數(shù)據(jù)挖掘7-數(shù)據(jù)倉庫與數(shù)據(jù)挖掘27/10111/2/2022數(shù)據(jù)倉庫關(guān)鍵特征三——隨時(shí)間而2728/10111/3/2022因此,數(shù)據(jù)倉庫必須能夠不斷捕捉主題的變化數(shù)據(jù),將那些變化的數(shù)據(jù)追加到數(shù)據(jù)倉庫中去,也就是說在數(shù)據(jù)倉庫中必須不斷的生成主題的新快照,以滿足決策分析的需要。數(shù)據(jù)新快照生成的間隔,可以根據(jù)快照的生成速度和決策分析的需要而定。例如,如果分析企業(yè)近幾年的銷售情況,那快照可以每隔一個(gè)月生成一次;如果分析一個(gè)月的暢銷產(chǎn)品,那快照生成間隔就需要每天一次。蔗旱墮憑允撩峰鈣酮藝遍毫蘸杠然戲嫉汗吱護(hù)攪諾縫烈椽翱磋貪麗貨氣溯7-數(shù)據(jù)倉庫與數(shù)據(jù)挖掘7-數(shù)據(jù)倉庫與數(shù)據(jù)挖掘28/10111/2/2022因此,數(shù)據(jù)倉庫必須能夠不斷捕捉2829/10111/3/2022數(shù)據(jù)倉庫的非易失性是指數(shù)據(jù)倉庫的數(shù)據(jù)不進(jìn)行更新處理,而是一旦數(shù)據(jù)進(jìn)入數(shù)據(jù)倉庫以后,就會(huì)保持一個(gè)相當(dāng)長的時(shí)間。因?yàn)閿?shù)據(jù)倉庫中數(shù)據(jù)大多表示過去某一時(shí)刻的數(shù)據(jù),主要用于查詢、分析,不像業(yè)務(wù)系統(tǒng)中的數(shù)據(jù)庫那樣,要經(jīng)常進(jìn)行修改、添加,除非數(shù)據(jù)倉庫中的數(shù)據(jù)是錯(cuò)誤的。數(shù)據(jù)倉庫關(guān)鍵特征四——數(shù)據(jù)不易丟失剎顫名吝許羔攻誕硯難和翟抹謠信們甚恰退卑柿募濘章萎彬啦頸蠶縷磁疑7-數(shù)據(jù)倉庫與數(shù)據(jù)挖掘7-數(shù)據(jù)倉庫與數(shù)據(jù)挖掘29/10111/2/2022數(shù)據(jù)倉庫的非易失性是指數(shù)據(jù)倉庫2930/10111/3/2022數(shù)據(jù)倉庫關(guān)鍵特征四——數(shù)據(jù)不易丟失盡管數(shù)據(jù)倉庫中的數(shù)據(jù)來自于操作數(shù)據(jù)庫,但他們卻是在物理上分離保存的。操作數(shù)據(jù)庫的更新操作不會(huì)出現(xiàn)在數(shù)據(jù)倉庫環(huán)境下。不需要事務(wù)處理,恢復(fù),和并發(fā)控制等機(jī)制(大大提高了處理速度)只需要兩種數(shù)據(jù)訪問:數(shù)據(jù)的初始轉(zhuǎn)載和數(shù)據(jù)訪問(讀操作)屆崩卯顆閃銀逐跋迪晦節(jié)咨徘指宗埠貓宙眾盂娃輔絞復(fù)名冠創(chuàng)充胸惜樊傀7-數(shù)據(jù)倉庫與數(shù)據(jù)挖掘7-數(shù)據(jù)倉庫與數(shù)據(jù)挖掘30/10111/2/2022數(shù)據(jù)倉庫關(guān)鍵特征四——數(shù)據(jù)不易3031/10111/3/2022數(shù)據(jù)倉庫的構(gòu)建與使用數(shù)據(jù)倉庫的構(gòu)建包括一系列的數(shù)據(jù)預(yù)處理過程數(shù)據(jù)清理數(shù)據(jù)集成數(shù)據(jù)變換數(shù)據(jù)倉庫的使用熱點(diǎn)是商業(yè)決策行為,例如:增加客戶聚焦產(chǎn)品重定位尋找獲利點(diǎn)客戶關(guān)系管理蛔留雍龐冗葬況旦哥韋朗逗錐閱許臨旱湘準(zhǔn)嫉零茲黃薦裸沂棵丘辣愚警挽7-數(shù)據(jù)倉庫與數(shù)據(jù)挖掘7-數(shù)據(jù)倉庫與數(shù)據(jù)挖掘31/10111/2/2022數(shù)據(jù)倉庫的構(gòu)建與使用數(shù)據(jù)倉庫的3132/10111/3/2022數(shù)據(jù)倉庫與操作數(shù)據(jù)庫系統(tǒng)操作數(shù)據(jù)庫系統(tǒng)的主要任務(wù)是聯(lián)機(jī)事務(wù)處理OLTP日常操作:購買,庫存,銀行,制造,工資,注冊,記帳等數(shù)據(jù)倉庫的主要任務(wù)是聯(lián)機(jī)分析處理OLAP數(shù)據(jù)分析和決策支持,支持以不同的形式顯示數(shù)據(jù)以滿足不同的用戶需要菇簾磁臭劣肉鈴字閘摘正隔生筋擂一撞庚之夕賽榜熙淚芳屠杠腋秤虐埠瑪7-數(shù)據(jù)倉庫與數(shù)據(jù)挖掘7-數(shù)據(jù)倉庫與數(shù)據(jù)挖掘32/10111/2/2022數(shù)據(jù)倉庫與操作數(shù)據(jù)庫系統(tǒng)操作數(shù)3233/10111/3/2022OLAPVS.OLTP(1)用戶和系統(tǒng)的面向性面向顧客(事務(wù))VS.面向市場(分析)數(shù)據(jù)內(nèi)容當(dāng)前的、詳細(xì)的數(shù)據(jù)(如超市一個(gè)月的數(shù)據(jù))VS.歷史的、匯總的數(shù)據(jù)數(shù)據(jù)庫設(shè)計(jì)實(shí)體-聯(lián)系模型(ER)和面向應(yīng)用的數(shù)據(jù)庫設(shè)計(jì)VS.星型/雪花模型和面向主題的數(shù)據(jù)庫設(shè)計(jì)士談凝申蛤命桌靛泡澀找擦禁由擒桌牡肥礬洞戍綽遏虹李熱閃噎好哉炒墳7-數(shù)據(jù)倉庫與數(shù)據(jù)挖掘7-數(shù)據(jù)倉庫與數(shù)據(jù)挖掘33/10111/2/2022OLAPVS.OLTP(3334/10111/3/2022OLAPVS.OLTP(2)數(shù)據(jù)視圖當(dāng)前的、企業(yè)內(nèi)部的數(shù)據(jù)VS.經(jīng)過演化的、集成的數(shù)據(jù)訪問模式事務(wù)操作(如查詢、寫入、修改)VS.只讀查詢(但很多是復(fù)雜的查詢)任務(wù)單位簡短的事務(wù)VS.復(fù)雜的查詢訪問數(shù)據(jù)量數(shù)十個(gè)VS.數(shù)百萬個(gè)噎媽垛牌氯漫棱肥水伴爸貪晶俄冠此陀茫列卿壞值域討誹寅啡平瀾咯膩惡7-數(shù)據(jù)倉庫與數(shù)據(jù)挖掘7-數(shù)據(jù)倉庫與數(shù)據(jù)挖掘34/10111/2/2022OLAPVS.OLTP(3435/10111/3/2022OLAPVS.OLTP(3)用戶數(shù)數(shù)千個(gè)VS.數(shù)百個(gè)(復(fù)雜查詢,消耗資源)數(shù)據(jù)庫規(guī)模100M-數(shù)GB(因此一般關(guān)注近期數(shù)據(jù))VS.100GB-數(shù)TB設(shè)計(jì)優(yōu)先性高性能、高可用性VS.高靈活性、端點(diǎn)用戶自治度量事務(wù)吞吐量VS.查詢吞吐量、響應(yīng)時(shí)間肌貴赴俺平秒認(rèn)恍劫申偉嚎植拳蔥氛勃?jiǎng)t瑞荊賃礦貞鎖棒枉趁朝枉預(yù)啟償7-數(shù)據(jù)倉庫與數(shù)據(jù)挖掘7-數(shù)據(jù)倉庫與數(shù)據(jù)挖掘35/10111/2/2022OLAPVS.OLTP(3536/10111/3/2022為什么需要一個(gè)分離的數(shù)據(jù)倉庫?“既然操作數(shù)據(jù)庫存放了大量數(shù)據(jù)”,“為什么不直接在這種數(shù)據(jù)庫上進(jìn)行聯(lián)機(jī)分析處理,而是另外花費(fèi)時(shí)間和資源去構(gòu)造一個(gè)分離的數(shù)據(jù)倉庫?”分離的主要原因是提高兩個(gè)系統(tǒng)的性能DBMS是為OLTP而設(shè)計(jì)的:存儲(chǔ)方式,索引,并發(fā)控制,恢復(fù)(OLAP不需要)數(shù)據(jù)倉庫是為OLAP而設(shè)計(jì):復(fù)雜的OLAP查詢,多維視圖,匯總帶托喬酉黑姜聞坎綿炊魏騾扮碘站掄屏巍膊劫錐飾餅苛佩朋悟火攏蔑懷迄7-數(shù)據(jù)倉庫與數(shù)據(jù)挖掘7-數(shù)據(jù)倉庫與數(shù)據(jù)挖掘36/10111/2/2022為什么需要一個(gè)分離的數(shù)據(jù)倉庫?36為什么需要一個(gè)分離的數(shù)據(jù)倉庫?兩個(gè)系統(tǒng)提供不同的功能和處理不同的數(shù)據(jù):歷史數(shù)據(jù):決策支持需要?dú)v史數(shù)據(jù),而這些數(shù)據(jù)在操作數(shù)據(jù)庫中一般不會(huì)去維護(hù)數(shù)據(jù)匯總:決策支持需要將來自異種源的數(shù)據(jù)統(tǒng)一(如聚集和匯總)數(shù)據(jù)質(zhì)量:不同的源使用不一致的數(shù)據(jù)表示、編碼和格式,對這些數(shù)據(jù)進(jìn)行有效的分析需要將他們轉(zhuǎn)化后進(jìn)行集成由于兩個(gè)系統(tǒng)提供很不相同的功能,需要不同類型的數(shù)據(jù),因此需要維護(hù)分離的數(shù)據(jù)庫。然而,許多關(guān)系數(shù)據(jù)庫管理系統(tǒng)賣主正開始優(yōu)化這種系統(tǒng),使之支持OLAP查詢。隨著這一趨勢的繼續(xù),OLTP和OLAP系統(tǒng)之間的分離可望消失。甸派贍稻窖寡賽剩娟洞嗚香讒牛誦檢隋競滿攤欠毆砷剮咎孿甭對鉆褲血阮7-數(shù)據(jù)倉庫與數(shù)據(jù)挖掘7-數(shù)據(jù)倉庫與數(shù)據(jù)挖掘?yàn)槭裁葱枰粋€(gè)分離的數(shù)據(jù)倉庫?兩個(gè)系統(tǒng)提供不同的功能和處理不37OLAP與OLTP對比總結(jié)啡洋繞迫病扔幣澈耍識(shí)鱉慰旗卉脾枷儒泊彰獄鷹粒污乃酮表僚蚊市堿殆絢7-數(shù)據(jù)倉庫與數(shù)據(jù)挖掘7-數(shù)據(jù)倉庫與數(shù)據(jù)挖掘OLAP與OLTP對比總結(jié)啡洋繞迫病扔幣澈耍識(shí)鱉慰旗卉脾枷儒3839/10111/3/2022OLAP的幾個(gè)基本概念1、維:維是關(guān)于一個(gè)組織想要記錄的視角或觀點(diǎn)。每個(gè)維都有一個(gè)表與之相關(guān)聯(lián),稱為維表。同一個(gè)問題可以從不同維度進(jìn)行觀察分析。如:超市分析某一個(gè)時(shí)期內(nèi)營業(yè)額的變化,是從時(shí)間維角度分析。按所處地區(qū)對連鎖店的營業(yè)額分析,是從地理維角度分析。2、維的層次:在同一維度上存在多個(gè)程度不同的細(xì)節(jié)。3、維的成員:是指某個(gè)維的某個(gè)具體取值。4、多維數(shù)組:如果一個(gè)數(shù)據(jù)集合可以從多個(gè)角度進(jìn)行觀察,則根據(jù)這些維度將數(shù)據(jù)組織所構(gòu)成的數(shù)組,就是多維數(shù)組.多維數(shù)組可以用圖形化來表示,也可以用表格表示雙躍買驕奪健挎氣活油滋倍帚剖寶寅菲捷壇綁武疏查遵漳嘔材泊測劇剪憨7-數(shù)據(jù)倉庫與數(shù)據(jù)挖掘7-數(shù)據(jù)倉庫與數(shù)據(jù)挖掘39/10111/2/2022OLAP的幾個(gè)基本概念1、維:39OLAP的幾個(gè)基本概念
當(dāng)維度的數(shù)量不超過3時(shí),采用圖形的方法可以很直觀的表達(dá)出該數(shù)組的內(nèi)涵,但超三維的結(jié)構(gòu),圖形方式無能為力。如增加客戶類別維。雅旋勵(lì)供小撕謝凡梯倪拋宇漿脾迅啟磷者筑摸凳樓歲筷陌鞭摳聘謬苫鏡怪7-數(shù)據(jù)倉庫與數(shù)據(jù)挖掘7-數(shù)據(jù)倉庫與數(shù)據(jù)挖掘OLAP的幾個(gè)基本概念當(dāng)維度的數(shù)量不超過3時(shí),采用40OLAP的幾個(gè)基本概念超三維數(shù)據(jù)的表格表示另迅窖稿笛末答嫡碗綿各釀搬俘鏡滲膚銳汁痢戰(zhàn)鳥程弟穴胖陶狙箭慣椒絕7-數(shù)據(jù)倉庫與數(shù)據(jù)挖掘7-數(shù)據(jù)倉庫與數(shù)據(jù)挖掘OLAP的幾個(gè)基本概念超三維數(shù)據(jù)的表格表示另迅窖稿笛末答嫡碗4142/10111/3/2022多維數(shù)據(jù)模型(1)數(shù)據(jù)倉庫和OLAP工具基于多維數(shù)據(jù)模型(OLTP基于什么?)在多維數(shù)據(jù)模型中,數(shù)據(jù)以數(shù)據(jù)立方體(datacube)的形式存在數(shù)據(jù)立方體允許以多維數(shù)據(jù)建模和觀察。它由維和事實(shí)定義維是關(guān)于一個(gè)組織想要記錄的視角或觀點(diǎn)。每個(gè)維都有一個(gè)表與之相關(guān)聯(lián),稱為維表。多維數(shù)據(jù)模型圍繞中心主題組織,該主題用事實(shí)表表示事實(shí)表包括事實(shí)的名稱或度量以及每個(gè)相關(guān)維表的關(guān)鍵字事實(shí)指的是一些數(shù)字度量迂傭辜榮鞠枉壘臥龐逗帥杠弄汽蚤抒兆淄砌澇饅付焉催貫措唱喉抗誰洼特7-數(shù)據(jù)倉庫與數(shù)據(jù)挖掘7-數(shù)據(jù)倉庫與數(shù)據(jù)挖掘42/10111/2/2022多維數(shù)據(jù)模型(1)數(shù)據(jù)倉庫和4243/10111/3/2022多維數(shù)據(jù)模型(2)——示例
time_keydayday_of_the_weekmonthquarteryeartime維表location_keystreetcitystate_or_provincecountrylocation維表Sales事實(shí)表time_keyitem_keybranch_keylocation_keyunits_solddollars_soldavg_sales度量item_keyitem_namebrandtypesupplier_typeitem維表branch_keybranch_namebranch_typebranch維表校鉆使蹤第墟尹蝎尊偷黍阮及淳購蓄冠漓粱做濤釋佳漲輪碉暈怔臘男顛禮7-數(shù)據(jù)倉庫與數(shù)據(jù)挖掘7-數(shù)據(jù)倉庫與數(shù)據(jù)挖掘43/10111/2/2022多維數(shù)據(jù)模型(2)——示例43數(shù)據(jù)倉庫的概念模型最流行的數(shù)據(jù)倉庫概念模型是多維數(shù)據(jù)模型。這種模型可以以星型模式、雪花模式、或事實(shí)星座模式的形式存在。星型模式(Starschema):事實(shí)表在中心,周圍圍繞地連接著維表(每維一個(gè)),事實(shí)表含有大量數(shù)據(jù),沒有冗余。雪花模式(Snowflakeschema):是星型模式的變種,其中某些維表是規(guī)范化的,因而把數(shù)據(jù)進(jìn)一步分解到附加表中。結(jié)果,模式圖形成類似于雪花的形狀。事實(shí)星座(Factconstellations):多個(gè)事實(shí)表共享維表,這種模式可以看作星型模式集,因此稱為星系模式(galaxyschema),或者事實(shí)星座(factconstellation)淆母啤抒蚤謀府捻搞肄迭澡侍亢撾肖察絲扳閹隕窄珠凸赦皇戌皖茬仟繞杖7-數(shù)據(jù)倉庫與數(shù)據(jù)挖掘7-數(shù)據(jù)倉庫與數(shù)據(jù)挖掘數(shù)據(jù)倉庫的概念模型最流行的數(shù)據(jù)倉庫概念模型是多維數(shù)據(jù)模型。這4445/10111/3/2022
time_keydayday_of_the_weekmonthquarteryeartime維表location_keystreetcitystate_or_provincecountrylocation維表Sales事實(shí)表time_keyitem_keybranch_keylocation_keyunits_solddollars_soldavg_sales度量item_keyitem_namebrandtypesupplier_typeitem維表branch_keybranch_namebranch_typebranch維表星型模式實(shí)例滯辭魯幸移毋標(biāo)硝汰掃紡箍仇焊寸嚴(yán)醚斷世鮮予魄祝霞軸客像關(guān)龜桔趙垃7-數(shù)據(jù)倉庫與數(shù)據(jù)挖掘7-數(shù)據(jù)倉庫與數(shù)據(jù)挖掘45/10111/2/2022time_keytime4546/10111/3/2022雪花模式實(shí)例time_keydayday_of_the_weekmonthquarteryeartimelocation_keystreetcity_keylocationSalesFactTabletime_keyitem_keybranch_keylocation_keyunits_solddollars_soldavg_salesMeasuresitem_keyitem_namebrandtypesupplier_keyitembranch_keybranch_namebranch_typebranchsupplier_keysupplier_typesuppliercity_keycitystate_or_provincecountrycity聘敢燃古靜飛享譏闡蝗久謄蛔劊鞍美剿宴泄訴慢簇熟仙祿泣湖緯拋梗繃坎7-數(shù)據(jù)倉庫與數(shù)據(jù)挖掘7-數(shù)據(jù)倉庫與數(shù)據(jù)挖掘46/10111/2/2022雪花模式實(shí)例time_keyt4647/10111/3/2022雪花模型是在星形模型的基礎(chǔ)上發(fā)展起來的,它在事實(shí)表和維度表的基礎(chǔ)上,增加了一類新的表——詳細(xì)類別表。在星形表中事實(shí)表的規(guī)范化程度較高,但是對于維度表的冗余度未加限制,雪花模型引入詳細(xì)類別表就是為了將維度表的數(shù)據(jù)進(jìn)一步分解,以提高數(shù)據(jù)模型的規(guī)范化程度,具有較低的粒度。在實(shí)際運(yùn)用中使用星形模型較多雪花模式實(shí)例損沉腫閨慧幟宮治項(xiàng)厘茄沉梯阜稗泉薩灶趟賣遍溯泵智辱茍轍前捂衫盡誣7-數(shù)據(jù)倉庫與數(shù)據(jù)挖掘7-數(shù)據(jù)倉庫與數(shù)據(jù)挖掘47/10111/2/2022雪花模型是在星形模型的基礎(chǔ)上發(fā)4748/10111/3/2022事實(shí)星座模式實(shí)例time_keydayday_of_the_weekmonthquarteryeartimelocation_keystreetcityprovince_or_statecountrylocationSalesFactTabletime_keyitem_keybranch_keylocation_keyunits_solddollars_soldavg_salesMeasuresitem_keyitem_namebrandtypesupplier_typeitembranch_keybranch_namebranch_typebranchShippingFactTabletime_keyitem_keyshipper_keyfrom_locationto_locationdollars_costunits_shippedshipper_keyshipper_namelocation_keyshipper_typeshipper膀轄腑衛(wèi)居隧焉祭遂裙瑯幅界顫鞋膜哎砂寢肺遵遺株嚼瀾收墾冠孫痔搽鷗7-數(shù)據(jù)倉庫與數(shù)據(jù)挖掘7-數(shù)據(jù)倉庫與數(shù)據(jù)挖掘48/10111/2/2022事實(shí)星座模式實(shí)例time_ke4849/10111/3/2022概念分層(1)一個(gè)概念分層(concepthierarchy)定義一個(gè)映射序列,將低層概念映射到更一般的高層概念E.g.表示location的概念:杭州浙江中國亞洲概念分層允許我們在各種抽象級審查和處理數(shù)據(jù)概念分層可以由系統(tǒng)用戶、領(lǐng)域?qū)<?、知識(shí)工程師人工的提供,也可以根據(jù)數(shù)據(jù)分布的統(tǒng)計(jì)分析自動(dòng)的產(chǎn)生稗噓席停拳合烹滓厘菩蔓晌校媽隋萊摳揪終藕棲展瑰出儀繃梗膝翱珠她緊7-數(shù)據(jù)倉庫與數(shù)據(jù)挖掘7-數(shù)據(jù)倉庫與數(shù)據(jù)挖掘49/10111/2/2022概念分層(1)一個(gè)概念分層(4950/10111/3/2022概念分層(2):location維的一個(gè)概念分層allEuropeNorth_AmericaMexicoCanadaSpainGermanyVancouverM.WindL.Chan..................allregionofficecountryTorontoFrankfurtcity許多概念分層的定義隱含在數(shù)據(jù)庫的模式中。比如:location維的定義,office<city<country<region;這些屬性按一個(gè)全序相關(guān),形成一個(gè)層次結(jié)構(gòu):yeardayquartermonthweekTime維的屬性也可以組成一個(gè)偏序,形成一個(gè)格。例如,維time基于屬性day,week,month,quarter和year就是一個(gè)偏序“day<{month<quarter;week}<year”抬帶肋球坊診澳供照曰帥致鋅架氰親滬挪犬貿(mào)斜耳鋤避瞅鞋撥杠撮椽鈞荷7-數(shù)據(jù)倉庫與數(shù)據(jù)挖掘7-數(shù)據(jù)倉庫與數(shù)據(jù)挖掘50/10111/2/2022概念分層(2):locat5051/10111/3/2022概念分層(3)——使用概念分層為不同級別上的數(shù)據(jù)匯總提供了一個(gè)良好的基礎(chǔ)綜合概念分層和多維數(shù)據(jù)模型的潛力,可以對數(shù)據(jù)獲得更深入的洞察力通過在多維數(shù)據(jù)模型中,在不同的維上定義概念分層,使得用戶在不同的維上從不同的層次對數(shù)據(jù)進(jìn)行觀察成為可能。多維數(shù)據(jù)模型(數(shù)據(jù)立方體)使得從不同的角度對數(shù)據(jù)進(jìn)行觀察成為可能,而概念分層則提供了從不同層次對數(shù)據(jù)進(jìn)行觀察的能力;結(jié)合這兩者的特征,我們可以在多維數(shù)據(jù)模型上定義各種OLAP操作,為用戶從不同角度不同層次觀察數(shù)據(jù)提供了靈活性:搪披薛螞蹭灤浴后穢佩賬姆姻拆迸佯鑿瑰困悉竣甭氫太姆嗅烙酶呀戴蹤吾7-數(shù)據(jù)倉庫與數(shù)據(jù)挖掘7-數(shù)據(jù)倉庫與數(shù)據(jù)挖掘51/10111/2/2022概念分層(3)——使用概念5152/10111/3/2022多維數(shù)據(jù)模型上的OLAP操作(1)上卷(roll-up):匯總數(shù)據(jù)(實(shí)例圖)通過一個(gè)維的概念分層向上攀升或者通過維規(guī)約當(dāng)用維歸約進(jìn)行上卷時(shí),一個(gè)或多個(gè)維由給定的數(shù)據(jù)立方體刪除下鉆(drill-down):上卷的逆操作由不太詳細(xì)的數(shù)據(jù)到更詳細(xì)的數(shù)據(jù),可以通過沿維的概念分層向下或引入新的維來實(shí)現(xiàn)(為給定數(shù)據(jù)添加更多細(xì)節(jié))切片和切塊(sliceanddice)切片操作在給定的數(shù)據(jù)立方體的一個(gè)維上進(jìn)行選擇,導(dǎo)致一個(gè)子方切塊操作通過對兩個(gè)或多個(gè)維進(jìn)行選擇,定義子方榆譴斡碌已謹(jǐn)蠟拾符屆錢爛羹營煮辮好滿蔥鈞嗚婿缸意聲廷畸蟲傅卒拭埂7-數(shù)據(jù)倉庫與數(shù)據(jù)挖掘7-數(shù)據(jù)倉庫與數(shù)據(jù)挖掘52/10111/2/2022多維數(shù)據(jù)模型上的OLAP操作5253/10111/3/2022多維數(shù)據(jù)模型上的OLAP操作(2)轉(zhuǎn)軸(pivot)立方體的重定位,可視化,或?qū)⒁粋€(gè)3維立方體轉(zhuǎn)化為一個(gè)2維平面序列轉(zhuǎn)軸是一種可視化操作,通過轉(zhuǎn)動(dòng)當(dāng)前數(shù)據(jù)的視圖來提供一個(gè)數(shù)據(jù)的替代表示輪勝雖冊讓餅窖遁擋攏擔(dān)祿哄腕咆計(jì)巾凜皂傍嬰勵(lì)齋棱怖韌緣疑茨矽裝盯7-數(shù)據(jù)倉庫與數(shù)據(jù)挖掘7-數(shù)據(jù)倉庫與數(shù)據(jù)挖掘53/10111/2/2022多維數(shù)據(jù)模型上的OLAP操作5354/10111/3/2022知識(shí)點(diǎn)回顧1、試比較OLAP與OLTP的區(qū)別。2、數(shù)據(jù)倉庫的概念模型有哪些?各有什么特點(diǎn)?3、多維數(shù)據(jù)模型上的OLAP操作有哪些?曹裳慚涂隊(duì)但扔蔣激諧誅矛癥龐抱珍悠醫(yī)邁稍燃幻蟲兄壁聲鈞鋇笛匹撞華7-數(shù)據(jù)倉庫與數(shù)據(jù)挖掘7-數(shù)據(jù)倉庫與數(shù)據(jù)挖掘54/10111/2/2022知識(shí)點(diǎn)回顧1、試比較OLAP與5455/10111/3/2022數(shù)據(jù)倉庫的結(jié)構(gòu)
數(shù)據(jù)倉庫的數(shù)據(jù)級別(粒度)僑溝圣飼亢輕怒鋇耕納痢決據(jù)耳矩破俺線呢札盞濃韭恕美癬損首部遙義察7-數(shù)據(jù)倉庫與數(shù)據(jù)挖掘7-數(shù)據(jù)倉庫與數(shù)據(jù)挖掘55/10111/2/2022數(shù)據(jù)倉庫的結(jié)構(gòu)數(shù)據(jù)倉庫的數(shù)據(jù)55早期細(xì)節(jié)數(shù)據(jù)
存儲(chǔ)過去的詳細(xì)數(shù)據(jù),反映真實(shí)的歷史情況,這類數(shù)據(jù)隨著時(shí)間增加,數(shù)據(jù)量很大,使用頻率低,一般存儲(chǔ)在轉(zhuǎn)換介質(zhì)中。(例如磁帶中)當(dāng)前細(xì)節(jié)數(shù)據(jù)
存儲(chǔ)最近時(shí)期的業(yè)務(wù)數(shù)據(jù),反映當(dāng)前業(yè)務(wù)的情況,數(shù)據(jù)量大,是數(shù)據(jù)倉庫用戶最感興趣的部分。隨著時(shí)間的推移,當(dāng)前細(xì)節(jié)數(shù)據(jù)由數(shù)據(jù)倉庫的時(shí)間控制機(jī)制轉(zhuǎn)為早期細(xì)節(jié)數(shù)據(jù)。輕度綜合數(shù)據(jù)
從當(dāng)前基本數(shù)據(jù)中提取出來,通常以較小的時(shí)間段(粒度)統(tǒng)計(jì)而成的數(shù)據(jù),其數(shù)據(jù)量較細(xì)節(jié)及數(shù)據(jù)少得多。高度綜合數(shù)據(jù)
這一層的數(shù)據(jù)十分精煉,是一種準(zhǔn)決策數(shù)據(jù)。灘事僥騰慚畝潞毗職茫馱貪糯遣腕闖舵靜絲濕煞植繳措向測氦舶醚協(xié)涎硬7-數(shù)據(jù)倉庫與數(shù)據(jù)挖掘7-數(shù)據(jù)倉庫與數(shù)據(jù)挖掘早期細(xì)節(jié)數(shù)據(jù)
存儲(chǔ)過去的詳細(xì)數(shù)據(jù),反映真實(shí)的歷史情況,這類數(shù)5657/10111/3/2022數(shù)據(jù)倉庫設(shè)計(jì):一個(gè)商務(wù)分析框架(1)數(shù)據(jù)倉庫給商業(yè)分析專家提供了什么?通過提供相關(guān)數(shù)據(jù)與信息,獲得競爭優(yōu)勢通過有效的收集精確的描述組織的數(shù)據(jù),獲得生產(chǎn)力的提高通過提供不同級別(部門、市場、商業(yè))的客戶視圖,協(xié)助客戶關(guān)系管理通過追蹤長期趨勢、異常等,降低成本有效構(gòu)建數(shù)據(jù)倉庫的關(guān)鍵:理解和分析商業(yè)需求通過提供一個(gè)商業(yè)分析框架,綜合各種不同的數(shù)據(jù)使用者的視圖烤沖粵駕哪墾且歇稠禮腥齋舜癱難將鵑希灸由迫膚稍棄隋丙儲(chǔ)軍鈞測森疊7-數(shù)據(jù)倉庫與數(shù)據(jù)挖掘7-數(shù)據(jù)倉庫與數(shù)據(jù)挖掘57/10111/2/2022數(shù)據(jù)倉庫設(shè)計(jì):一個(gè)商務(wù)分析框架5758/10111/3/2022數(shù)據(jù)倉庫設(shè)計(jì):一個(gè)商務(wù)分析框架(2)數(shù)據(jù)倉庫設(shè)計(jì)的四種視圖自頂向下視圖使得我們可以選擇數(shù)據(jù)倉庫所需的相關(guān)信息。數(shù)據(jù)源視圖揭示被操作數(shù)據(jù)庫系統(tǒng)所捕獲、存儲(chǔ)和管理的信息數(shù)據(jù)倉庫視圖由事實(shí)表和維表所組成商務(wù)查詢視圖從最終用戶的角度透視數(shù)據(jù)倉庫中的數(shù)據(jù)被額完彎渣黃功顱社藐寐襖漓勢疾仙懷崖跨個(gè)捉杯帖涂明摻事尼活勵(lì)盜垮7-數(shù)據(jù)倉庫與數(shù)據(jù)挖掘7-數(shù)據(jù)倉庫與數(shù)據(jù)挖掘58/10111/2/2022數(shù)據(jù)倉庫設(shè)計(jì):一個(gè)商務(wù)分析框架5859/10111/3/2022數(shù)據(jù)倉庫設(shè)計(jì):一個(gè)商務(wù)分析框架(3)數(shù)據(jù)倉庫的構(gòu)建與使用涉及多種技能商業(yè)技能理解系統(tǒng)如何存儲(chǔ)和管理數(shù)據(jù)數(shù)據(jù)如何提取數(shù)據(jù)如何刷新技術(shù)方面的技能如何通過使用各種數(shù)據(jù)或量化的信息,導(dǎo)出可以提供決策支持的模式、趨勢、判斷等如何通過審查歷史數(shù)據(jù),分析發(fā)展趨勢等計(jì)劃管理技能如何通過與不同的技術(shù)、廠商、用戶交互,來及時(shí)、有效、經(jīng)濟(jì)的提交結(jié)果夫搐斧腕拋習(xí)簡仁怖云歹哮水癡交陷躍竹唁茨凡鯨屏咳更譯痢然巢澗輩毆7-數(shù)據(jù)倉庫與數(shù)據(jù)挖掘7-數(shù)據(jù)倉庫與數(shù)據(jù)挖掘59/10111/2/2022數(shù)據(jù)倉庫設(shè)計(jì):一個(gè)商務(wù)分析框架59數(shù)據(jù)倉庫的設(shè)計(jì)過程(1)自頂向下法、自底向上法或者兩者的混合方法自頂向下法:由總體設(shè)計(jì)和規(guī)劃開始當(dāng)技術(shù)成熟并已掌握,對必須解決的商務(wù)問題清楚并已很好理解時(shí),這種方法是有用的。自底向上法:以實(shí)驗(yàn)和原型開始在商務(wù)建模和技術(shù)開發(fā)的早期階段,這種方法是有用的。這樣可以以相當(dāng)?shù)偷拇鷥r(jià)前進(jìn),在作出重要承諾之前評估技術(shù)的利益。混合方法:上述兩者的結(jié)合從軟件過程的觀點(diǎn)瀑布式方法:在進(jìn)行下一步前,每一步都進(jìn)行結(jié)構(gòu)化和系統(tǒng)的分析螺旋式方法:功能漸增的系統(tǒng)的快速產(chǎn)生,相繼版本之間間隔很短。對于數(shù)據(jù)集市的開發(fā),這是一個(gè)好的選擇。席哈澡攘掛根柒坷無鉸例各銻無兢浸嫂黃茨乃疽砌相團(tuán)小荒殉秧湛環(huán)柞撞7-數(shù)據(jù)倉庫與數(shù)據(jù)挖掘7-數(shù)據(jù)倉庫與數(shù)據(jù)挖掘數(shù)據(jù)倉庫的設(shè)計(jì)過程(1)自頂向下法、自底向上法或者兩者的混6061/10111/3/2022數(shù)據(jù)倉庫的設(shè)計(jì)過程(2)典型的數(shù)據(jù)倉庫設(shè)計(jì)過程選取待建模的商務(wù)過程找到所構(gòu)建的數(shù)據(jù)倉庫的主題,比如:銷售、貨運(yùn)、訂單等等選取商務(wù)處理的粒度。對于處理,該粒度是基本的、在事實(shí)表中是數(shù)據(jù)的原子級。例如,單個(gè)事務(wù)、一天的快照等。選取用于每個(gè)事實(shí)表記錄的維。典型的維是時(shí)間、商品、顧客、供應(yīng)商、倉庫、事務(wù)類型和狀態(tài)。選取將安放在事實(shí)表中的度量常用的數(shù)字度量包括:售價(jià)、貨物數(shù)量等返妓傈蠱掉罪兩丹彰衣旺妒雇麻澈氯怕討競諸熙國耕枯腹卉馳路柴跟奶儉7-數(shù)據(jù)倉庫與數(shù)據(jù)挖掘7-數(shù)據(jù)倉庫與數(shù)據(jù)挖掘61/10111/2/2022數(shù)據(jù)倉庫的設(shè)計(jì)過程(2)典型6162/10111/3/2022三層數(shù)據(jù)倉庫架構(gòu)(1)數(shù)據(jù)倉庫提取清理轉(zhuǎn)換裝入刷新OLAP服務(wù)器查詢報(bào)告分析數(shù)據(jù)挖掘監(jiān)控、整合元數(shù)據(jù)存儲(chǔ)數(shù)據(jù)源前端工具輸出數(shù)據(jù)集市操作數(shù)據(jù)庫其他外部信息源數(shù)據(jù)倉庫服務(wù)器OLAP服務(wù)器林澗欽蔬浚秋痛夠稠騎諸進(jìn)油難并冀橇能山草芹恭避鳥灑毅油再蠱番伯饒7-數(shù)據(jù)倉庫與數(shù)據(jù)挖掘7-數(shù)據(jù)倉庫與數(shù)據(jù)挖掘62/10111/2/2022三層數(shù)據(jù)倉庫架構(gòu)(1)數(shù)據(jù)倉6263/10111/3/2022三層數(shù)據(jù)倉庫架構(gòu)(2)底層:數(shù)據(jù)倉庫的數(shù)據(jù)庫服務(wù)器關(guān)注的問題:如何從這一層提取數(shù)據(jù)來構(gòu)建數(shù)據(jù)倉庫(通過Gateway(ODBC,JDBC,OLE/DB等)來提?。┲虚g層:OLAP服務(wù)器關(guān)注的問題:OLAP服務(wù)器如何實(shí)施(關(guān)系型OLAP(ROLAP),多維MOLAP(MOLAP)等)前端客戶工具層關(guān)注的問題:查詢工具、報(bào)表工具、分析工具、挖掘工具等碳鼓速贖硒沽槍愿州贏頓闊流慷帶鞘梆炬凱發(fā)酣整拐褒螟度禾公蠅臻溉暑7-數(shù)據(jù)倉庫與數(shù)據(jù)挖掘7-數(shù)據(jù)倉庫與數(shù)據(jù)挖掘63/10111/2/2022三層數(shù)據(jù)倉庫架構(gòu)(2)底層:63三種數(shù)據(jù)倉庫模型從體系結(jié)構(gòu)的角度去看,數(shù)據(jù)倉庫模型可以有以下兩種:企業(yè)倉庫搜集了關(guān)于主題的所有信息,跨越整個(gè)組織數(shù)據(jù)集市企業(yè)范圍數(shù)據(jù)的一個(gè)子集,對于特定的客戶是有用的。其范圍限于選定的主題,比如一個(gè)商場的數(shù)據(jù)集市獨(dú)立的數(shù)據(jù)集市VS.非獨(dú)立的數(shù)據(jù)集市(數(shù)據(jù)來自于企業(yè)數(shù)據(jù)倉庫)與企業(yè)倉庫的差異在于數(shù)據(jù)集市應(yīng)采用星形模式,而企業(yè)倉庫應(yīng)采用事實(shí)星座模式倦肩園翌賣舀適殷云筒席氛確液蓋橡垃仁構(gòu)忱部置鉗率攻翼送背辱顛鉀圈7-數(shù)據(jù)倉庫與數(shù)據(jù)挖掘7-數(shù)據(jù)倉庫與數(shù)據(jù)挖掘三種數(shù)據(jù)倉庫模型從體系結(jié)構(gòu)的角度去看,數(shù)據(jù)倉庫模型可以有以下6465/10111/3/2022數(shù)據(jù)倉庫開發(fā):困難與方法數(shù)據(jù)倉庫開發(fā)上的困難自頂向下開發(fā)企業(yè)倉庫是一種系統(tǒng)的解決方法,并能最大限度地減少集成問題。但它費(fèi)用高,需要長時(shí)間開發(fā),并且缺乏靈活性,因?yàn)檎麄€(gè)組織的共同數(shù)據(jù)模型達(dá)到一致是困難的。自底向上設(shè)計(jì)、開發(fā)、配置獨(dú)立的數(shù)據(jù)集市方法提供了靈活性、低花費(fèi),并能快速回報(bào)投資。然而,將分散的數(shù)據(jù)集市集成,形成一個(gè)一致的企業(yè)數(shù)據(jù)倉庫時(shí),可能導(dǎo)致問題。解決方法:使用遞增性、演化性的開發(fā)方法(見后圖)高層數(shù)據(jù)模型企業(yè)倉庫和數(shù)據(jù)集市并行開發(fā)通過分布式模型集成各數(shù)據(jù)集市多層數(shù)據(jù)倉庫常視焉奢計(jì)此割滯锨隘琵兒城鹽登拔條恢明阮賴眉矩族限遇鋪莫憶氯前嚙7-數(shù)據(jù)倉庫與數(shù)據(jù)挖掘7-數(shù)據(jù)倉庫與數(shù)據(jù)挖掘65/10111/2/2022數(shù)據(jù)倉庫開發(fā):困難與方法數(shù)據(jù)倉6566/10111/3/2022數(shù)據(jù)倉庫開發(fā)——一個(gè)推薦的方法定義高層數(shù)據(jù)模型數(shù)據(jù)集市數(shù)據(jù)集市分布式數(shù)據(jù)集市多層數(shù)據(jù)倉庫企業(yè)數(shù)據(jù)倉庫模型提煉模型提煉寇途破竹銑慰民俏困宋莫愿勘剃魯狗套鑿裔概摔疵灘取袋孜攏炕濤漳順控7-數(shù)據(jù)倉庫與數(shù)據(jù)挖掘7-數(shù)據(jù)倉庫與數(shù)據(jù)挖掘66/10111/2/2022數(shù)據(jù)倉庫開發(fā)——一個(gè)推薦的方法6667/10111/3/2022OLAP服務(wù)器類型(1)OLAP服務(wù)器為商務(wù)用戶提供來自數(shù)據(jù)倉庫或數(shù)據(jù)集市的多維數(shù)據(jù),而不必關(guān)心數(shù)據(jù)如何存放和存放在何處。然而,OLAP服務(wù)器的物理結(jié)構(gòu)和實(shí)現(xiàn)必須考慮數(shù)據(jù)存放問題。關(guān)系OLAP服務(wù)器(ROLAP)使用關(guān)系數(shù)據(jù)庫或擴(kuò)展的關(guān)系數(shù)據(jù)庫存放并管理數(shù)據(jù)倉庫的數(shù)據(jù),而用OLAP中間件支持其余部分。數(shù)據(jù)和聚合表都存在關(guān)系數(shù)據(jù)庫。包括每個(gè)DBMS后端優(yōu)化,聚集導(dǎo)航邏輯的實(shí)現(xiàn),附加的工具和服務(wù)Microstrategy的DSS和Informix的Metacube都采用ROLAP方法中撒煮涉醫(yī)銜籽懦柒飾峰吾港琢物訟室萊柒卜焦時(shí)滾疾斟玄捧糠網(wǎng)炭庸住7-數(shù)據(jù)倉庫與數(shù)據(jù)挖掘7-數(shù)據(jù)倉庫與數(shù)據(jù)挖掘67/10111/2/2022OLAP服務(wù)器類型(1)OL6768/10111/3/2022OLAP服務(wù)器類型(2)多維OLAP服務(wù)器(MOLAP)通過基于數(shù)組的多維存儲(chǔ)引擎,支持?jǐn)?shù)據(jù)的多維視圖。Arbor的Essbase是一個(gè)MOLAP服務(wù)器。數(shù)據(jù)和聚合表都存在多維數(shù)據(jù)結(jié)構(gòu)中?;旌螼LAP服務(wù)器(HOLAP)結(jié)合ROLAP和MOLAP技術(shù),得益于ROLAP較大的規(guī)模性和MOLAP的快速計(jì)算。例如,HOLAP服務(wù)器允許將大量詳細(xì)數(shù)據(jù)存放在關(guān)系數(shù)據(jù)庫中,而聚集保持在分離的MOLAP存儲(chǔ)中。微軟的SQLServer7.0OLAP服務(wù)支持混合OLAP服務(wù)器。數(shù)據(jù)保存在關(guān)系數(shù)據(jù)庫,聚合存在多維結(jié)構(gòu)中。特殊的SQL服務(wù)器在星型和雪花模型上支持SQL查詢?nèi)介幈I沈扇爹操錄柬愧扳晝當(dāng)螺揍鯨恨器綢辟代精嗡樊慮哀邀遵澗見育遇7-數(shù)據(jù)倉庫與數(shù)據(jù)挖掘7-數(shù)據(jù)倉庫與數(shù)據(jù)挖掘68/10111/2/2022OLAP服務(wù)器類型(2)多維6869/10111/3/2022元數(shù)據(jù)存儲(chǔ)在數(shù)據(jù)倉庫中,元數(shù)據(jù)就是定義數(shù)據(jù)倉庫對象的數(shù)據(jù)。有以下幾種:數(shù)據(jù)倉庫結(jié)構(gòu)的描述倉庫模式、視圖、維、層次結(jié)構(gòu)、導(dǎo)出數(shù)據(jù)的定義,以及數(shù)據(jù)集市的位置和內(nèi)容操作元數(shù)據(jù)包括數(shù)據(jù)血統(tǒng)(datalineage)、數(shù)據(jù)類別(currencyofdata),以及監(jiān)視信息匯總用的算法由操作環(huán)境到數(shù)據(jù)倉庫的映射關(guān)于系統(tǒng)性能的數(shù)據(jù)索引,profiles,數(shù)據(jù)刷新、更新或復(fù)制事件的調(diào)度和定時(shí)商務(wù)元數(shù)據(jù)商務(wù)術(shù)語和定義、數(shù)據(jù)擁有者信息、收費(fèi)政策等撥是庇柑霧鴛金縱捉噸袒咕蔬啤濃態(tài)彩層祥帶吩跡讒菩恥種薪烽新吐執(zhí)葬7-數(shù)據(jù)倉庫與數(shù)據(jù)挖掘7-數(shù)據(jù)倉庫與數(shù)據(jù)挖掘69/10111/2/2022元數(shù)據(jù)存儲(chǔ)在數(shù)據(jù)倉庫中,元數(shù)據(jù)6970/10111/3/2022元數(shù)據(jù)的使用元數(shù)據(jù)與數(shù)據(jù)一起,構(gòu)成了數(shù)據(jù)倉庫中的數(shù)據(jù)模型,元數(shù)據(jù)所描述的更多的是這個(gè)模型的結(jié)構(gòu)方面的信息。在數(shù)據(jù)倉庫中,元數(shù)據(jù)的主要用途包括:用作目錄,幫助決策支持系統(tǒng)分析者對數(shù)據(jù)倉庫的內(nèi)容定義作為數(shù)據(jù)倉庫和操作性數(shù)據(jù)庫之間進(jìn)行數(shù)據(jù)轉(zhuǎn)換時(shí)的映射標(biāo)準(zhǔn)用于指導(dǎo)當(dāng)前細(xì)節(jié)數(shù)據(jù)和稍加綜合的數(shù)據(jù)之間的匯總算法,指導(dǎo)稍加綜合的數(shù)據(jù)和高度綜合的數(shù)據(jù)之間的匯總算法。搓遵霞擁父勘壯虹揣睜串奸夠郵辮鑄邵蘸暫剃頑局閘餡逮輥弧棄露市浪肥7-數(shù)據(jù)倉庫與數(shù)據(jù)挖掘7-數(shù)據(jù)倉庫與數(shù)據(jù)挖掘70/10111/2/2022元數(shù)據(jù)的使用元數(shù)據(jù)與數(shù)據(jù)一起,7071/10111/3/2022數(shù)據(jù)倉庫后端工具和程序數(shù)據(jù)倉庫后端工具主要指的是用來裝入和刷新數(shù)據(jù)的工具,包括:數(shù)據(jù)提取:通常,由多個(gè)、異種、外部數(shù)據(jù)源收集數(shù)據(jù)。數(shù)據(jù)清理檢測數(shù)據(jù)種的錯(cuò)誤并作可能的訂正數(shù)據(jù)變換將數(shù)據(jù)由歷史或主機(jī)的格式轉(zhuǎn)化為數(shù)據(jù)倉庫的格式裝載排序、匯總、合并、計(jì)算視圖,檢查完整性,并建立索引和分區(qū)刷新將數(shù)據(jù)源的更新傳播到數(shù)據(jù)倉庫中慌帕糊煙井堵鄉(xiāng)訊煤劍摩謄顫廂壯拷氣揮率漿蛾怒汛峰咳礙窗斬索患樊廬7-數(shù)據(jù)倉庫與數(shù)據(jù)挖掘7-數(shù)據(jù)倉庫與數(shù)據(jù)挖掘71/10111/2/2022數(shù)據(jù)倉庫后端工具和程序數(shù)據(jù)倉庫7172/10111/3/2022數(shù)據(jù)倉庫的應(yīng)用數(shù)據(jù)倉庫的三種應(yīng)用信息處理支持查詢和基本的統(tǒng)計(jì)分析,并使用交叉表、表、圖標(biāo)和圖進(jìn)行報(bào)表處理聯(lián)機(jī)分析處理對數(shù)據(jù)倉庫中的數(shù)據(jù)進(jìn)行多維數(shù)據(jù)分析支持基本的OLAP操作,切塊、切片、上卷、下鉆、轉(zhuǎn)軸等數(shù)據(jù)挖掘從隱藏模式中發(fā)現(xiàn)知識(shí)支持關(guān)聯(lián)分析,構(gòu)建分析性模型,分類和預(yù)測,并用可視化工具呈現(xiàn)挖掘的結(jié)果悟旭陸韋盞義淖巷效恢犯放抓以單閘記鈞攬憨庶隔懷酞刺毛姻昭巳疑戀芋7-數(shù)據(jù)倉庫與數(shù)據(jù)挖掘7-數(shù)據(jù)倉庫與數(shù)據(jù)挖掘72/10111/2/2022數(shù)據(jù)倉庫的應(yīng)用數(shù)據(jù)倉庫的三種應(yīng)7273/10111/3/2022數(shù)據(jù)倉庫的應(yīng)用三種應(yīng)用間的差別:1、信息處理基于查詢,可以發(fā)現(xiàn)有用的信息。它不反映復(fù)雜的模式,或隱藏在數(shù)據(jù)庫中的規(guī)律。因此,信息處理不是數(shù)據(jù)挖掘。2、聯(lián)機(jī)分析處理向數(shù)據(jù)挖掘走近了一步,OLAP和數(shù)據(jù)挖掘的功能可以視為不交的:OLAP是數(shù)據(jù)匯總/聚集工具,它幫助簡化數(shù)據(jù)分析;而數(shù)據(jù)挖掘自動(dòng)地發(fā)現(xiàn)隱藏在大量數(shù)據(jù)中的隱含模式和有趣知識(shí)。OLAP工具的目標(biāo)是簡化和支持交互數(shù)據(jù)分析;而數(shù)據(jù)挖掘的目標(biāo)是盡可能自動(dòng)處理。獲廓革鐐諧緣苯疇借玲祈鍍埋積罵適忱仁餡踴阿賄板履濺脆洗紀(jì)刷事?lián)鋭?-數(shù)據(jù)倉庫與數(shù)據(jù)挖掘7-數(shù)據(jù)倉庫與數(shù)據(jù)挖掘73/10111/2/2022數(shù)據(jù)倉庫的應(yīng)用三種應(yīng)用間的差別7374/10111/3/2022數(shù)據(jù)倉庫的應(yīng)用3、數(shù)據(jù)挖掘的涵蓋面要比簡單的OLAP操作寬得多,因?yàn)樗粌H執(zhí)行數(shù)據(jù)匯總和比較,而且執(zhí)行關(guān)聯(lián)、分類、預(yù)測、聚類、時(shí)間序列分析和其它數(shù)據(jù)分析任務(wù)。4、數(shù)據(jù)挖掘不限于分析數(shù)據(jù)倉庫中的數(shù)據(jù)。它可以分析現(xiàn)存的、比數(shù)據(jù)倉庫提供的匯總數(shù)據(jù)粒度更細(xì)的數(shù)據(jù)。它也可以分析事務(wù)的、文本的、空間的和多媒體數(shù)據(jù),這些數(shù)據(jù)很難用現(xiàn)有的多維數(shù)據(jù)庫技術(shù)建模。在這種意義下,數(shù)據(jù)挖掘涵蓋的數(shù)據(jù)挖掘功能和處理的數(shù)據(jù)復(fù)雜性要比OLAP大得多。盤點(diǎn)溯般盈試南夸況汕聽鼠礙舞鐘橢敖叢辱酸迸羨砰粘薩州匈赫細(xì)酥癰屠7-數(shù)據(jù)倉庫與數(shù)據(jù)挖掘7-數(shù)據(jù)倉庫與數(shù)據(jù)挖掘74/10111/2/2022數(shù)據(jù)倉庫的應(yīng)用3、數(shù)據(jù)挖掘的涵74從聯(lián)機(jī)分析處理到聯(lián)機(jī)分析挖掘OLAM聯(lián)機(jī)分析挖掘(OLAM,也稱OLAP挖掘)將聯(lián)機(jī)分析處理與數(shù)據(jù)挖掘以及在多維數(shù)據(jù)庫中發(fā)現(xiàn)知識(shí)集成在一起,為什么要聯(lián)機(jī)分析挖掘數(shù)據(jù)倉庫中有高質(zhì)量的數(shù)據(jù)數(shù)據(jù)倉庫中存放著整合的、一致的、清理過的數(shù)據(jù)圍繞數(shù)據(jù)倉庫的信息處理結(jié)構(gòu)存取、集成、合并多個(gè)異種數(shù)據(jù)庫的轉(zhuǎn)換,ODBC/OLEDB連接,Web訪問和訪問工具等基于OLAP的探測式數(shù)據(jù)分析使用上卷、下鉆、切片、轉(zhuǎn)軸等技術(shù)進(jìn)行數(shù)據(jù)挖掘數(shù)據(jù)挖掘功能的聯(lián)機(jī)選擇多種數(shù)據(jù)挖掘功能、算法和任務(wù)的整合聯(lián)哦筐篡果糾伐椒氛丹屁吻敝溫搏想商肥逛虛辛鯉鍋炬運(yùn)坷淬瘟江諷寵奴7-數(shù)據(jù)倉庫與數(shù)據(jù)挖掘7-數(shù)據(jù)倉庫與數(shù)據(jù)挖掘從聯(lián)機(jī)分析處理到聯(lián)機(jī)分析挖掘OLAM聯(lián)機(jī)分析挖掘(OLAM,75聯(lián)機(jī)分析挖掘的體系結(jié)構(gòu)數(shù)據(jù)倉庫元數(shù)據(jù)多維數(shù)據(jù)庫OLAM引擎OLAP引擎用戶圖形界面API數(shù)據(jù)方體API數(shù)據(jù)庫API數(shù)據(jù)清理數(shù)據(jù)集成第三層OLAP/OLAM第二層多維數(shù)據(jù)庫第一層數(shù)據(jù)存儲(chǔ)第四層用戶界面數(shù)據(jù)的過濾、集成過濾數(shù)據(jù)庫基于約束的數(shù)據(jù)挖掘挖掘結(jié)果蹲隋仰疤兔溝樹訂發(fā)論吞束筍椽擰衰芯獸館印流氰迷巳知醛鑒夸澡炳婿真7-數(shù)據(jù)倉庫與數(shù)據(jù)挖掘7-數(shù)據(jù)倉庫與數(shù)據(jù)挖掘聯(lián)機(jī)分析挖掘的體系結(jié)構(gòu)數(shù)據(jù)倉庫元數(shù)據(jù)多維數(shù)據(jù)庫OLAMOLA7677/10111/3/2022第三節(jié):大型數(shù)據(jù)庫中的關(guān)聯(lián)規(guī)則挖掘吮纜寡言此俄吟廉多等控腕整臀弱酚嘴步悼肥酣燭沃瑤減鞋涎京劣良蚊盞7-數(shù)據(jù)倉庫與數(shù)據(jù)挖掘7-數(shù)據(jù)倉庫與數(shù)據(jù)挖掘77/10111/2/2022第三節(jié):大型數(shù)據(jù)庫中的關(guān)聯(lián)規(guī)則7778/10111/3/2022什么是關(guān)聯(lián)規(guī)則挖掘?關(guān)聯(lián)規(guī)則挖掘:從事務(wù)數(shù)據(jù)庫,關(guān)系數(shù)據(jù)庫和其他信息存儲(chǔ)中的大量數(shù)據(jù)的項(xiàng)集之間發(fā)現(xiàn)有趣的、頻繁出現(xiàn)的模式、關(guān)聯(lián)和相關(guān)性。應(yīng)用:購物籃分析、分類設(shè)計(jì)、捆綁銷售等狠癬旬梆尼督閏德磋朵缽甕命屹賊唆電全皖當(dāng)育醛濺倫困發(fā)反擋勇膨磺遮7-數(shù)據(jù)倉庫與數(shù)據(jù)挖掘7-數(shù)據(jù)倉庫與數(shù)據(jù)挖掘78/10111/2/2022什么是關(guān)聯(lián)規(guī)則挖掘?關(guān)聯(lián)規(guī)則挖7879/10111/3/2022“尿布與啤酒”——典型關(guān)聯(lián)分析案例采用關(guān)聯(lián)模型比較典型的案例是“尿布與啤酒”的故事。在美國,一些年輕的父親下班后經(jīng)常要到超市去買嬰兒尿布,超市也因此發(fā)現(xiàn)了一個(gè)規(guī)律,在購買嬰兒尿布的年輕父親們中,有30%~40%的人同時(shí)要買一些啤酒。超市隨后調(diào)整了貨架的擺放,把尿布和啤酒放在一起,明顯增加了銷售額。同樣的,我們還可以根據(jù)關(guān)聯(lián)規(guī)則在商品銷售方面做各種促銷活動(dòng)。盎扼孩然叁雪吝瞪幕鳳踢所壬古緩游薄播淤計(jì)賣看喀偷釜盡斧恿鵲猴系拙7-數(shù)據(jù)倉庫與數(shù)據(jù)挖掘7-數(shù)據(jù)倉庫與數(shù)據(jù)挖掘79/10111/2/2022“尿布與啤酒”——典型關(guān)聯(lián)分析7980/10111/3/2022購物籃分析如果問題的全域是商店中所有商品的集合,則對每種商品都可以用一個(gè)布爾量來表示該商品是否被顧客購買,則每個(gè)購物籃都可以用一個(gè)布爾向量表示;而通過分析布爾向量則可以得到商品被頻繁關(guān)聯(lián)或被同時(shí)購買的模式,這些模式就可以用關(guān)聯(lián)規(guī)則表示。關(guān)聯(lián)規(guī)則的兩個(gè)興趣度度量支持度置信度沉筆遷碰蛛絹和圃刷凍怎壺翠鑼轎雀應(yīng)搐凹拳撲比艇超輸?shù)楸肴R搏襟神俏7-數(shù)據(jù)倉庫與數(shù)據(jù)挖掘7-數(shù)據(jù)倉庫與數(shù)據(jù)挖掘80/10111/2/2022購物籃分析如果問題的全域是商店8081/10111/3/2022購物籃分析以上關(guān)聯(lián)規(guī)則的支持度2%,意味分析事務(wù)的2%同時(shí)購買計(jì)算機(jī)和財(cái)務(wù)管理軟件。置信度60%意味購買計(jì)算機(jī)的顧客60%也購買財(cái)務(wù)管理軟件。番沾狙牌郡商茵袱煽擺筋釜腎拄宙你誘冠刁萎舵俊爾蕉約菇邀德燥撲妻賃7-數(shù)據(jù)倉庫與數(shù)據(jù)挖掘7-數(shù)據(jù)倉庫與數(shù)據(jù)挖掘81/10111/2/2022購物籃分析以上關(guān)聯(lián)規(guī)則的8182/10111/3/2022關(guān)聯(lián)規(guī)則:基本概念
關(guān)聯(lián)規(guī)則挖掘?qū)ο笾饕鞘聞?wù)型數(shù)據(jù)庫,也可以是其它領(lǐng)域內(nèi)的關(guān)系型數(shù)據(jù)庫。關(guān)聯(lián)規(guī)則挖掘涉及到以下幾個(gè)基本概念。1、項(xiàng)。對于一個(gè)數(shù)據(jù)表而言,表的每個(gè)字段都具有一個(gè)或多個(gè)不同的值,字段的每種取值都是一個(gè)項(xiàng)。2、項(xiàng)集。項(xiàng)的集合稱為項(xiàng)集。包含K個(gè)項(xiàng)的項(xiàng)集被稱為K項(xiàng)集,K表示項(xiàng)集中項(xiàng)的數(shù)目。由所有的項(xiàng)所構(gòu)成的集合是最大的項(xiàng)集,一般用符號I表示。I={i1,i2,...,in}砒墻蓉予企霖魯鍺歧縱某吟荔司季茄間路駿瓤客望腦鑿郁嶼髓犢策漁迂糧7-數(shù)據(jù)倉庫與數(shù)據(jù)挖掘7-數(shù)據(jù)倉庫與數(shù)據(jù)挖掘82/10111/2/2022關(guān)聯(lián)規(guī)則:基本概念關(guān)聯(lián)規(guī)8283/10111/3/2022關(guān)聯(lián)規(guī)則:基本概念3、事務(wù)。事務(wù)是項(xiàng)的集合。一個(gè)事務(wù)就是事實(shí)表中的一條記錄。事務(wù)的集合稱為事務(wù)集,也就是事務(wù)數(shù)據(jù)庫,一般用D表示。對銷售數(shù)據(jù)而言,事務(wù)數(shù)據(jù)庫的記錄一般由事物處理時(shí)間,一組顧客購買的物品,顧客標(biāo)示號幾部分組成。每個(gè)事務(wù)都有一個(gè)唯一的標(biāo)示,記作TID?;d外灰締唬邁框貯廊陵顏飄朵扼領(lǐng)畢素罕撞讓盛盧野海西發(fā)研沖蹲胖竟7-數(shù)據(jù)倉庫與數(shù)據(jù)挖掘7-數(shù)據(jù)倉庫與數(shù)據(jù)挖掘83/10111/2/2022關(guān)聯(lián)規(guī)則:基本概念3、事務(wù)。事8384/10111/3/2022基本概念——示例項(xiàng)的集合I={A,B,C,D,E,F}每個(gè)事務(wù)T由事務(wù)標(biāo)識(shí)符TID標(biāo)識(shí),它是項(xiàng)的集合比如:TID(2000)={A,B,C}任務(wù)相關(guān)數(shù)據(jù)D是數(shù)據(jù)庫事務(wù)的集合D雇做鬼請壯效錯(cuò)呈骸顱蔥散時(shí)糜扒剩著曉釣賬嚨整瘋亢射家捶跺腰滬雞現(xiàn)7-數(shù)據(jù)倉庫與數(shù)據(jù)挖掘7-數(shù)據(jù)倉庫與數(shù)據(jù)挖掘84/10111/2/2022基本概念——示例項(xiàng)的集合I=84規(guī)則度量:支持度和置信度CustomerbuysdiaperCustomerbuysbothCustomerbuysbeer對所有滿足最小支持度和置信度的關(guān)聯(lián)規(guī)則支持度s是指事務(wù)集D中包含的百分比置信度c是指D中同時(shí)包含A和B的事務(wù)數(shù)與只包含A的事務(wù)數(shù)的比值假設(shè)最小支持度為50%,最小置信度為50%,則有如下關(guān)聯(lián)規(guī)則AC(50%,66.6%)CA(50%,100%)烹測報(bào)濟(jì)病汰七婿隙蛹串澡駭動(dòng)潤得紡燎蒜怪礫蘆濘恫鍍憨斷縷泳聾瞻尾7-數(shù)據(jù)倉庫與數(shù)據(jù)挖掘7-數(shù)據(jù)倉庫與數(shù)據(jù)挖掘規(guī)則度量:支持度和置信度CustomerCustomerCu8586/10111/3/2022知識(shí)點(diǎn)回顧1、何為企業(yè)倉庫、數(shù)據(jù)集市?二者有何區(qū)別?2、請分析數(shù)據(jù)倉庫、OLAP、數(shù)據(jù)挖掘的關(guān)系。3、請解釋如下關(guān)聯(lián)規(guī)則:依氈骨俯捉盈遂狗獄壯趣封裕拍夯篩飯鉤除甄繁瘩冉臺(tái)巢產(chǎn)對窮斗捍語厭7-數(shù)據(jù)倉庫與數(shù)據(jù)挖掘7-數(shù)據(jù)倉庫與數(shù)據(jù)挖掘86/10111/2/2022知識(shí)點(diǎn)回顧1、何為企業(yè)倉庫、數(shù)8687/10111/3/2022知識(shí)點(diǎn)回顧2、請分析數(shù)據(jù)倉庫、OLAP、數(shù)據(jù)挖掘的關(guān)系聯(lián)機(jī)分析處理和數(shù)據(jù)挖掘是數(shù)據(jù)倉庫之上的增值技術(shù)。OLAP側(cè)重于與用戶的交互、快速的響應(yīng)速度及提供數(shù)據(jù)的多維視圖,而數(shù)據(jù)挖掘則注重自動(dòng)發(fā)現(xiàn)隱藏在數(shù)據(jù)中的模式和有用信息。OLAP的分析結(jié)果可以給數(shù)據(jù)挖掘提供分析信息作為挖掘的依據(jù),數(shù)據(jù)挖掘可以拓展OLAP分析的深度,可以發(fā)現(xiàn)OLAP所不能發(fā)現(xiàn)的更為復(fù)雜、細(xì)致的信息。
溯稚皮餓狽鄙岳遲絞戶羔恥巳憋替衣餃符膠鈕悲猙寞皂顛郵砰漫評銅拙芳7-數(shù)據(jù)倉庫與數(shù)據(jù)挖掘7-數(shù)據(jù)倉庫與數(shù)據(jù)挖掘87/10111/2/2022知識(shí)點(diǎn)回顧2、請分析數(shù)據(jù)倉庫、8788/10111/3/2022大型數(shù)據(jù)庫關(guān)聯(lián)規(guī)則挖掘(1)1、項(xiàng)的集合稱為項(xiàng)集。包含k個(gè)項(xiàng)的項(xiàng)集稱為k-項(xiàng)集。集合{computer,financial_management_software}是一個(gè)2-項(xiàng)集。2、項(xiàng)集的出現(xiàn)頻率是包含項(xiàng)集的事務(wù)數(shù),簡稱為項(xiàng)集的頻率、支持計(jì)數(shù)或計(jì)數(shù)。3、同時(shí)滿足最小支持度閾值(min_sup)和最小置信度閾值(min_conf)的規(guī)則稱作強(qiáng)規(guī)則。4、支持度大于等于支持度閾值的項(xiàng)集稱為頻繁項(xiàng)集。含有K個(gè)項(xiàng)的項(xiàng)集稱為K-項(xiàng)集,或頻繁K-項(xiàng)集。距承董害愿抱萎從畝甩疑兇直俐吶測州起財(cái)盛款幕唐骨傅乳森六倚劈突乓7-數(shù)據(jù)倉庫與數(shù)據(jù)挖掘7-數(shù)據(jù)倉庫與數(shù)據(jù)挖掘88/10111/2/2022大型數(shù)據(jù)庫關(guān)聯(lián)規(guī)則挖掘(1)8889/10111/3/2022最小支持度和最小可信度為了發(fā)現(xiàn)有意義的關(guān)聯(lián)規(guī)則,通過由用戶或數(shù)據(jù)挖掘系統(tǒng)給定兩個(gè)閾值:最小支持度和最小可信度。最小支持度表示了項(xiàng)集在統(tǒng)計(jì)意義上須滿足的最低程度。最小可信度反應(yīng)了關(guān)聯(lián)規(guī)則需滿足的最低程度。如果不考慮關(guān)聯(lián)規(guī)則的支持度和可信度,那么在D中則存在過多的關(guān)聯(lián)規(guī)則。人們一般只對滿足一定的支持度和置信度的關(guān)聯(lián)規(guī)則感興趣。因此,使用兩個(gè)閾值的作用可以限制數(shù)據(jù)挖掘系統(tǒng)輸出的關(guān)聯(lián)規(guī)則的數(shù)量,盡可能給用戶提供有意義的關(guān)聯(lián)規(guī)則。妨傳腔蘆凄剩雜藝正轄位詫?shí)徸乙峄e襯畫軒渦耕慮本數(shù)辨枚西緩渣禍后7-數(shù)據(jù)倉庫與數(shù)據(jù)挖掘7-數(shù)據(jù)倉庫與數(shù)據(jù)挖掘89/10111/2/2022最小支持度和最小可信度為8990/10111/3/2022大型數(shù)據(jù)庫關(guān)聯(lián)規(guī)則挖掘(2)
“如何由大型數(shù)據(jù)庫挖掘關(guān)聯(lián)規(guī)則?”關(guān)聯(lián)規(guī)則的挖掘是一個(gè)兩步的過程:1.找出所有頻繁項(xiàng)集:根據(jù)定義,這些項(xiàng)集出現(xiàn)的頻繁性至少和預(yù)定義的最小支持計(jì)數(shù)一樣。(最小支持度)2.由頻繁項(xiàng)集產(chǎn)生強(qiáng)關(guān)聯(lián)規(guī)則:根據(jù)定義,這些規(guī)則必須滿足最小支持度和最小置信度。如果愿意,也可以使用附加的興趣度度量。這兩步中,第二步最容易。挖掘關(guān)聯(lián)規(guī)則的總體性能由第一步?jīng)Q定。吭網(wǎng)巒紅訛乒唱倦沁則燒圈拱常葛娠箍趨霜冶頭七訟巡袁扣芭詭者嘶慷薔7-數(shù)據(jù)倉庫與數(shù)據(jù)挖掘7-數(shù)據(jù)倉庫與數(shù)據(jù)挖掘90/10111/2/2022大型數(shù)據(jù)庫關(guān)聯(lián)規(guī)則挖掘(2)90關(guān)聯(lián)規(guī)則挖掘分類(1)關(guān)聯(lián)規(guī)則有多種分類:根據(jù)規(guī)則中所處理的值類型布爾關(guān)聯(lián)規(guī)則如果規(guī)則描述的是量化的項(xiàng)或?qū)傩灾g的關(guān)聯(lián),則它是量化關(guān)聯(lián)規(guī)則。在這種規(guī)則中,項(xiàng)或?qū)傩缘牧炕祫澐譃閰^(qū)間。蜂扮氖次繡登柞垮謹(jǐn)椽攏羊?qū)欁⒗仔惺孤┽尠鰹a猴腰稽痔次野盈疏倆扯7-數(shù)據(jù)倉庫與數(shù)據(jù)挖掘7-數(shù)據(jù)倉庫與數(shù)據(jù)挖掘關(guān)聯(lián)規(guī)則挖掘分類(1)關(guān)聯(lián)規(guī)則有多種分類:蜂扮氖次繡登柞垮9192/10111/3/2022關(guān)聯(lián)規(guī)則挖掘分類(1)根據(jù)規(guī)則中涉及的數(shù)據(jù)維單維關(guān)聯(lián)規(guī)則:如果關(guān)聯(lián)規(guī)則中的項(xiàng)或?qū)傩悦總€(gè)只涉及一個(gè)維,則它是單維關(guān)聯(lián)規(guī)則。(僅涉及buys這個(gè)維)多維關(guān)聯(lián)規(guī)則:如果規(guī)則涉及兩個(gè)或多個(gè)維,如維buys,time_of_transaction和customer_category,則它是多維關(guān)聯(lián)規(guī)則。折武萌狗罐癡鋼雀寓蛻攘臘讕忱麗鎊沿杰超民啼甘蘭志湃焉據(jù)蓉肛急謹(jǐn)欣7-數(shù)據(jù)倉庫與數(shù)據(jù)挖掘7-數(shù)據(jù)倉庫與數(shù)據(jù)挖掘92/10111/2/2022關(guān)聯(lián)規(guī)則挖掘分類(1)根據(jù)規(guī)9293/10111/3/2022關(guān)聯(lián)規(guī)則挖掘分類(2)根據(jù)規(guī)則集所涉及的抽象層單層關(guān)聯(lián)規(guī)則多層關(guān)聯(lián)規(guī)則(在不同的抽象層發(fā)現(xiàn)關(guān)聯(lián)規(guī)則)莎挖庚峨尿迢蝶濰鵑曉藏撇卒老鋅捻芋懈評癡亥韻這賂殉姓殿氦仍商七妝7-數(shù)據(jù)倉庫與數(shù)據(jù)挖掘7-數(shù)據(jù)倉庫與數(shù)據(jù)挖掘93/10111/2/2022關(guān)聯(lián)規(guī)則挖掘分類(2)根據(jù)規(guī)93由事務(wù)數(shù)據(jù)庫挖掘單維布爾關(guān)聯(lián)規(guī)則最簡單的關(guān)聯(lián)規(guī)則挖掘,即單維、單層、布爾關(guān)聯(lián)規(guī)則的挖掘。最小支持度50%最小置信度50%對規(guī)則AC, 其支持度=50%置信度錦案敵濘碩廷失夠話壽檸帥汝桑謄字插丹舜純熟吁徹居渙肚澳伺根拭已譏7-數(shù)據(jù)倉庫與數(shù)據(jù)挖掘7-數(shù)據(jù)倉庫與數(shù)據(jù)挖掘由事務(wù)數(shù)據(jù)庫挖掘單維布爾關(guān)聯(lián)規(guī)則最簡單的關(guān)聯(lián)規(guī)則挖掘,即單維94Apriori算法是挖掘產(chǎn)生布爾關(guān)聯(lián)規(guī)則所需頻繁項(xiàng)集的基本算法,它也是一個(gè)很有影響的關(guān)聯(lián)規(guī)則挖掘算法。由Agrawal等人于1993年提出。Apriori算法利用了一個(gè)層次順序搜索的循環(huán)方法來完成頻繁項(xiàng)集的挖掘工作。這一循環(huán)方法就是利用k-項(xiàng)集來產(chǎn)生(k+1)?項(xiàng)集。具體做法就是:首先,通過掃描數(shù)據(jù)集,產(chǎn)生一個(gè)大的候選數(shù)據(jù)項(xiàng)集,并計(jì)算每個(gè)候選數(shù)據(jù)項(xiàng)發(fā)生的次數(shù),然后基于預(yù)先給定的最小支持度生成頻繁1-項(xiàng)集的集合,該集合記作L1;然后基于L1和數(shù)據(jù)集中的數(shù)據(jù),產(chǎn)生頻繁2-項(xiàng)集L2;用同樣的方法,直到生成頻繁n-項(xiàng)集Ln,其中已不再可能生成滿足最小支持度的(N+1)-項(xiàng)集。Apriori算法由連接和剪枝兩個(gè)步驟組成。最后,從大數(shù)據(jù)項(xiàng)集中導(dǎo)出規(guī)則。每挖掘一層,就需
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 急診科室團(tuán)隊(duì)建設(shè)與合作計(jì)劃
- 重要會(huì)議活動(dòng)保安風(fēng)險(xiǎn)評估與控制計(jì)劃
- 行業(yè)洞察的總結(jié)與實(shí)施策略計(jì)劃
- 工作計(jì)劃規(guī)劃
- 酒店行業(yè)保安服務(wù)的發(fā)展方向計(jì)劃
- 建立高效的工作流與流程計(jì)劃
- 激勵(lì)學(xué)生積極參與計(jì)劃
- 加強(qiáng)財(cái)務(wù)文化建設(shè)促進(jìn)部門協(xié)作計(jì)劃
- 定期庫房盤點(diǎn)的實(shí)施計(jì)劃
- 持續(xù)改進(jìn)與生產(chǎn)計(jì)劃的結(jié)合
- DB5101-T 71-2020 成都市電動(dòng)汽車充電設(shè)施 安全管理規(guī)范
- 2025年七臺(tái)河職業(yè)學(xué)院高職單招語文2018-2024歷年參考題庫頻考點(diǎn)含答案解析
- 監(jiān)理人員安全培訓(xùn)考試試卷(答案)
- 2025年北京電子科技職業(yè)學(xué)院高職單招職業(yè)技能測試近5年常考版參考題庫含答案解析
- xxx項(xiàng)目財(cái)務(wù)評價(jià)報(bào)告
- 2024年山東交通職業(yè)學(xué)院高職單招語文歷年參考題庫含答案解析
- 【MOOC】數(shù)據(jù)庫系統(tǒng)(上):模型與語言-哈爾濱工業(yè)大學(xué) 中國大學(xué)慕課MOOC答案
- 高教版2023年中職教科書《語文》(基礎(chǔ)模塊)下冊教案全冊
- HCCDP 云遷移認(rèn)證理論題庫
- 現(xiàn)代交換原理與技術(shù)課件:第5章 分組交換技術(shù)
- 勵(lì)磁系統(tǒng)報(bào)告(共25頁)
評論
0/150
提交評論