關聯(lián)規(guī)則分析及應用ppt課件_第1頁
關聯(lián)規(guī)則分析及應用ppt課件_第2頁
關聯(lián)規(guī)則分析及應用ppt課件_第3頁
關聯(lián)規(guī)則分析及應用ppt課件_第4頁
關聯(lián)規(guī)則分析及應用ppt課件_第5頁
已閱讀5頁,還剩19頁未讀 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權,請進行舉報或認領

文檔簡介

1、Data Mining關聯(lián)規(guī)那么分析及運用2019-10-121目錄目錄根本概念根本概念關聯(lián)規(guī)那么發(fā)掘過程關聯(lián)規(guī)那么發(fā)掘過程分類分類關聯(lián)規(guī)那么的價值衡量關聯(lián)規(guī)那么的價值衡量4123發(fā)掘算法發(fā)掘算法關聯(lián)規(guī)那么的運用關聯(lián)規(guī)那么的運用562019-10-122緒論緒論p在購買鐵錘的顧客當中,有70的人同時購買了鐵釘。p年齡在40 歲以上,任務在A區(qū)的投保人當中,有45的人曾經(jīng)向保險公司索賠過。p p在超市購買面包的人有70%會購買牛奶2019-10-123緒論緒論2019-10-124一、根本概念一、根本概念設 I=I1,I2,In 是項的集合。義務相關數(shù)據(jù)D:是事務或元組的集合。事務T:是項的集合

2、,且每個事務具有事務標識符TID。項集A:是T 的一個子集,加上TID 即事務。項集(Items):項的集合,包含k個項的項集稱為k-項集,如二項集I1,I2。支持度計數(shù)(Support count):一個項集的出現(xiàn)次數(shù)就是整個數(shù)據(jù)集中包含該項集的事務數(shù)。2019-10-125一、根本概念一、根本概念TIDItems001I1、I2、I5002I2、I4003I2、I3004I1、I2、I4005I1、I3006I2、I3007I1、I3008I1、I2、I3、I5009I1、I2、I3DTABInInn=1,2,n=1,2,指詳細工程,如指詳細工程,如購物籃分析中:購物籃分析中:I1=I1=

3、蘋果蘋果I2=I2=面包面包I3=I3=牛奶牛奶I4=I4=尿布尿布I5=I5=啤酒啤酒Support-Support-count(I1)=6count(I1)=62019-10-126一、根本概念一、根本概念v關聯(lián)規(guī)那么:形如 A = B 的蘊涵式,其中A I , BI,并且 AB =。v支持度:關聯(lián)規(guī)那么在D中的支持度(support)是D中事務同時包含A、B的百分比,即概率。規(guī)那么代表性、重要性衡量v Support(A B)=P ( A B )v = support _ count(AB)v count (T)v頻繁項集:假設一個項集的支持度大于等于某個閾值。2019-10-127一、

4、根本概念一、根本概念v置信度置信度c:是包含是包含A的事務中同時又包含的事務中同時又包含B的百分比,的百分比,即條件概率。即條件概率。規(guī)那么準確性衡量規(guī)那么準確性衡量v confidence ( A B ) = P ( B | A)v強關聯(lián)規(guī)那么:同時滿足用戶定義的最小支持度強關聯(lián)規(guī)那么:同時滿足用戶定義的最小支持度閾值閾值min_sup和最小置信度閾值和最小置信度閾值(min_conf)的的規(guī)那么稱為強規(guī)那么。規(guī)那么稱為強規(guī)那么。2019-10-128=9support _ count ( A U B )support_count ( A)二、關聯(lián)規(guī)那么發(fā)掘過程二、關聯(lián)規(guī)那么發(fā)掘過程兩個步驟

5、:找出一切頻繁項集。 由頻繁項集生成滿足最小信任度閾值的規(guī)那么。發(fā)掘方式:2019-10-129min_supmin_conf產(chǎn)生頻繁項集生成強關聯(lián)規(guī)那么規(guī)那么評價用戶Database二、關聯(lián)規(guī)那么發(fā)掘過程二、關聯(lián)規(guī)那么發(fā)掘過程關聯(lián)規(guī)那么發(fā)掘舉例:關聯(lián)規(guī)那么發(fā)掘舉例: 假定數(shù)據(jù)包含頻繁項集假定數(shù)據(jù)包含頻繁項集M=I1,I2,I5??梢杂?。可以由M 產(chǎn)生哪些關聯(lián)規(guī)那么?產(chǎn)生哪些關聯(lián)規(guī)那么?2019-10-1210二、關聯(lián)規(guī)那么發(fā)掘過程二、關聯(lián)規(guī)那么發(fā)掘過程v M 的非空真子集有I1,I2、I1,I5、I2,I5、I1、I2和I5。那么結果關聯(lián)規(guī)那么如下,每個都列出置信度。2019-10-1211

6、項集項集支持度支持度計數(shù)計數(shù)67622I1I2I3I4I5項集項集支持度計支持度計數(shù)數(shù)I1,I24 4I1,I34 4I1,I52 2I2,I34 4I2,I42 2I2,I52 2項集項集支持度支持度計數(shù)計數(shù)I1,I2,I32I1,I2,I52二、關聯(lián)規(guī)那么發(fā)掘過程二、關聯(lián)規(guī)那么發(fā)掘過程I1 I2 I5,I1 I5 I2,I2 I5 I1,I1 I2 I5,I2 I1 I5,I5 I1 I2,2019-10-1212confidence = 2/4 = 50 % confidence = 2/2 = 100 %confidence = 2/2 = 100 %confidence = 2/6

7、= 33%confidence = 2/7 = 29%confidence = 2/2 = 100 %二、關聯(lián)規(guī)那么發(fā)掘過程二、關聯(lián)規(guī)那么發(fā)掘過程假設最小置信度閾值為70%,那么只需第2、3、6個規(guī)那么可以作為最終的結果輸出,由于只需這些是產(chǎn)生的強關聯(lián)規(guī)那么。2019-10-1213I1 I5 I2,I2 I5 I1,I5 I1 I2,confidence = 2/2 = 100 %confidence = 2/2 = 100%confidence = 2/2 = 100%二、關聯(lián)規(guī)那么發(fā)掘過程二、關聯(lián)規(guī)那么發(fā)掘過程對強關聯(lián)規(guī)那么的批判:eg:2019-10-1214項目項目打籃球打籃球不打籃

8、球不打籃球合計合計喝麥片200017503750不喝麥片10002501250合計300020005000 在5000個學生中,3000個打籃球,3750個喝麥片粥,2000個學生既打籃球又喝麥片粥。打籃球 = 喝麥片粥 40%, 66.7%是錯誤的,由于全部學生中喝麥片粥的比率是75%,比打籃球學生的66.7%要高。打籃球 = 不喝麥片粥 20%, 33.3%這個規(guī)那么遠比上面那個要準確,雖然支持度和置信度都要低的多。二、關聯(lián)規(guī)那么發(fā)掘過程二、關聯(lián)規(guī)那么發(fā)掘過程興趣度作用度:描畫了項集A對項集B的影響力的大小,即A與B的相關程度。 P(AB) P(A)P(B)假設I(A B)=1,即P(A)

9、P(B)=P(AB),A與B相互獨立;假設I(A B)1,表示A出現(xiàn)和B出現(xiàn)是正相關的。意味著A的出 現(xiàn)蘊含B的出現(xiàn)。小結:只需興趣度大于1,該規(guī)那么才具有實踐價值。2019-10-1215I(A B)=三、關聯(lián)規(guī)那么的分類三、關聯(lián)規(guī)那么的分類p基于規(guī)那么中處置的變量的類別基于規(guī)那么中處置的變量的類別p布爾型:布爾型關聯(lián)規(guī)那么處置的值都是離散的、布爾型:布爾型關聯(lián)規(guī)那么處置的值都是離散的、種類化的,它顯示了這些變量之間的關系;種類化的,它顯示了這些變量之間的關系;pB. 數(shù)值型:數(shù)值型關聯(lián)規(guī)那么可以和多維關聯(lián)或數(shù)值型:數(shù)值型關聯(lián)規(guī)那么可以和多維關聯(lián)或多層多層 關聯(lián)規(guī)那么結合起來,對數(shù)值型字段進

10、展關聯(lián)規(guī)那么結合起來,對數(shù)值型字段進展處置。處置。p eg: 性別性別=“女女=職業(yè)職業(yè)=“秘書秘書 p 性別性別=“女女=avg收入收入=23002019-10-1216三、關聯(lián)規(guī)那么的分類三、關聯(lián)規(guī)那么的分類p基于規(guī)那么中處置的變量的類別基于規(guī)那么中處置的變量的類別p布爾型布爾型:布爾型關聯(lián)規(guī)那么處置的值都是離散的、布爾型關聯(lián)規(guī)那么處置的值都是離散的、種類化的,它顯示了這些變量之間的關系;種類化的,它顯示了這些變量之間的關系;pB. 數(shù)值型數(shù)值型 :數(shù)值型關聯(lián)規(guī)那么可以和多維關聯(lián)或數(shù)值型關聯(lián)規(guī)那么可以和多維關聯(lián)或多層多層 關聯(lián)規(guī)那么結合起來,對數(shù)值型字段進展處關聯(lián)規(guī)那么結合起來,對數(shù)值型字

11、段進展處置。置。p eg: 性別性別=“女女=職業(yè)職業(yè)=“秘書秘書 p 性別性別=“女女=avg收入收入=23002019-10-1217三、關聯(lián)規(guī)那么的分類三、關聯(lián)規(guī)那么的分類p基于規(guī)那么中數(shù)據(jù)的籠統(tǒng)層次:基于規(guī)那么中數(shù)據(jù)的籠統(tǒng)層次:p單層關聯(lián)規(guī)那么單層關聯(lián)規(guī)那么:一切的變量都沒有思索到現(xiàn)實的一切的變量都沒有思索到現(xiàn)實的數(shù)據(jù)是具有多個不同的層次的;數(shù)據(jù)是具有多個不同的層次的;p多層關聯(lián)規(guī)那么多層關聯(lián)規(guī)那么:對數(shù)據(jù)的多層性曾經(jīng)進展了充分對數(shù)據(jù)的多層性曾經(jīng)進展了充分的思索。的思索。p 層:大類能否細分的問題,如上衣可以細分為層:大類能否細分的問題,如上衣可以細分為 襯衣、夾克、風衣等。襯衣、夾克

12、、風衣等。peg: IBM臺式機臺式機=Sony打印機打印機p 臺式機臺式機=Sony打印機打印機2019-10-1218三、關聯(lián)規(guī)那么的分類三、關聯(lián)規(guī)那么的分類2019-10-1219分層例如:三、關聯(lián)規(guī)那么的分類三、關聯(lián)規(guī)那么的分類2019-10-1220p基于規(guī)那么中數(shù)據(jù)的維數(shù):基于規(guī)那么中數(shù)據(jù)的維數(shù):p單維關聯(lián)規(guī)那么單維關聯(lián)規(guī)那么:只涉及到數(shù)據(jù)的一個維,如用戶只涉及到數(shù)據(jù)的一個維,如用戶購買的物品;購買的物品;p多維關聯(lián)規(guī)那么多維關聯(lián)規(guī)那么:要處置的數(shù)據(jù)將會涉及多個維。要處置的數(shù)據(jù)將會涉及多個維。p p eg: 啤酒啤酒=尿布尿布p 性別性別=“女女=職業(yè)職業(yè)=“秘書秘書TID姓名姓名

13、性別性別職業(yè)職業(yè)購買物品購買物品月工資月工資001張三女秘書尿布3000002李四男工程師啤酒、尿布5000四、關聯(lián)規(guī)那么的價值衡量四、關聯(lián)規(guī)那么的價值衡量對關聯(lián)規(guī)那么的評價與價值衡量涉及兩個層面:對關聯(lián)規(guī)那么的評價與價值衡量涉及兩個層面:A.A.系統(tǒng)客觀的層面系統(tǒng)客觀的層面 運用運用“支持度和信任度框架能夠會產(chǎn)生一些支持度和信任度框架能夠會產(chǎn)生一些不正確的規(guī)那么。不正確的規(guī)那么。B.B.用戶客觀的層面用戶客觀的層面只需用戶才干決議規(guī)那么的有效性、可行性。只需用戶才干決議規(guī)那么的有效性、可行性。假設把某些約束條件與算法嚴密結合,既能提高數(shù)假設把某些約束條件與算法嚴密結合,既能提高數(shù)據(jù)發(fā)掘效率,又能明確數(shù)據(jù)發(fā)掘的目的。據(jù)發(fā)掘效率,又能明確數(shù)據(jù)發(fā)掘的目的。 2019-10-1221五、關聯(lián)規(guī)那么的發(fā)

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論