第6章數(shù)據(jù)挖掘-課件_第1頁
第6章數(shù)據(jù)挖掘-課件_第2頁
第6章數(shù)據(jù)挖掘-課件_第3頁
第6章數(shù)據(jù)挖掘-課件_第4頁
第6章數(shù)據(jù)挖掘-課件_第5頁
已閱讀5頁,還剩27頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

Chapter6關(guān)聯(lián)規(guī)則

AssociationRule

目標(biāo):提供關(guān)聯(lián)規(guī)則問題的概述并介紹幾種基本的關(guān)聯(lián)規(guī)則挖掘算法關(guān)聯(lián)規(guī)則問題概述大項(xiàng)目集關(guān)聯(lián)規(guī)則算法Apriori算法抽樣算法劃分算法并行算法1?PrenticeHall啤酒和尿布的故事

沃爾瑪公司在美國的一位店面經(jīng)理曾發(fā)現(xiàn),每周,啤酒和尿布的銷量都會(huì)有一次同比攀升,一時(shí)卻搞不清是什么原因。后來,沃爾瑪運(yùn)用數(shù)據(jù)挖掘技術(shù)發(fā)現(xiàn),購買這兩種產(chǎn)品的顧客幾乎都是25歲到35歲、家中有嬰兒的男性,每次購買的時(shí)間均在周末。沃爾瑪在對相關(guān)數(shù)據(jù)分析后得知,這些人習(xí)慣晚上邊看球賽、邊喝啤酒,邊照顧孩子,為了圖省事而使用一次性的尿布。得到這個(gè)結(jié)果后,沃爾瑪決定把這兩種商品擺放在一起,結(jié)果,這兩種商品的銷量都有了顯著增加。2?PrenticeHall這個(gè)故事說明了什么?在海量的數(shù)據(jù)中,總是隱藏著各種各樣的信息。而隨著時(shí)間的推移以及信息爆炸,我們已經(jīng)很難不借助其他的外力去從海量的數(shù)據(jù)中發(fā)覺信息,即使能發(fā)覺,根據(jù)現(xiàn)在信息的發(fā)布速度,這樣也是毫無實(shí)際意義的。如何從龐大的數(shù)據(jù)海洋中發(fā)掘有效信息,已經(jīng)成為信息時(shí)代所急待解決的問題。于是數(shù)據(jù)倉庫,數(shù)據(jù)挖掘、在線分析等等概念開始出現(xiàn)在我們視野里。這個(gè)時(shí)代是一個(gè)炒做概念的時(shí)代,新名詞、新概念層出不窮;惹的我們紛紛雙眼昏花起來。這個(gè)故事告訴大家,數(shù)據(jù)里蘊(yùn)藏著許多肉眼所看不見的東西。根據(jù)現(xiàn)在的零售業(yè)發(fā)展規(guī)模來看,再想創(chuàng)造沃爾瑪?shù)纳衿婀适乱呀?jīng)不可能了,誰都沒有神的眼睛,沒有經(jīng)過梳理的數(shù)據(jù)對我們來說比垃圾還垃圾。因此,如何發(fā)掘垃圾里的有價(jià)值信息,就成了一個(gè)市場的賣點(diǎn)。因此,請關(guān)注數(shù)據(jù)挖掘。3?PrenticeHall例子:購物籃數(shù)據(jù)購買一種商品時(shí)也同時(shí)購買另一種商品的情形就構(gòu)成了一條關(guān)聯(lián)規(guī)則:花生醬

面包應(yīng)用領(lǐng)域:場地布局廣告市場營銷庫存控制目的:增加銷售量并減少成本4?PrenticeHall關(guān)聯(lián)規(guī)則相關(guān)概念一組項(xiàng)目:

I={I1,I2,…,Im}事務(wù)數(shù)據(jù)庫:D={t1,t2,…,tn},tj

I項(xiàng)目集:{Ii1,Ii2,…,Iik}

I項(xiàng)目集的支持度:包含該項(xiàng)目集的事務(wù)占庫中所有事務(wù)的百分比。大(頻繁)項(xiàng)目集:

是出現(xiàn)次數(shù)大于閾值s的項(xiàng)目集.5?PrenticeHall關(guān)聯(lián)規(guī)則示例5個(gè)項(xiàng)目I={Beer,Bread,Jelly,Milk,PeanutButter}項(xiàng)目集{Bread,PeanutButter}的支持度是60%6?PrenticeHall關(guān)聯(lián)規(guī)則定義

給定一組項(xiàng)目I={I1,I2,…,Im}和一個(gè)事務(wù)數(shù)據(jù)庫D={t1,t2,…,tn},其中ti={Ii1,Ii2,…,Iik}并且Iij

I,關(guān)聯(lián)規(guī)則(AR):形如X

Y的蘊(yùn)含式,其中X,Y

I是兩個(gè)項(xiàng)目集,并且X

Y=?;關(guān)聯(lián)規(guī)則X

Y

的支持度s:數(shù)據(jù)庫中包含X

Y

的事務(wù)占庫中所有事務(wù)的百分比。關(guān)聯(lián)規(guī)則X

Y

的置信度a:

包含X

Y的事務(wù)數(shù)與包含X

的事務(wù)數(shù)的比值。7?PrenticeHall示例8?PrenticeHall關(guān)聯(lián)規(guī)則問題給定一組項(xiàng)目I={I1,I2,…,Im}和一個(gè)事務(wù)數(shù)據(jù)庫D={t1,t2,…,tn},其中

ti={Ii1,Ii2,…,Iik}并且Iij

I,關(guān)聯(lián)規(guī)則問題就是識別出所有大于最小支持度和置信度的關(guān)聯(lián)規(guī)則

X

Y.注意:

X

Y的支持度和X

Y的支持度相等.9?PrenticeHall關(guān)聯(lián)規(guī)則技術(shù)發(fā)現(xiàn)大項(xiàng)目集.從大項(xiàng)目集合產(chǎn)生關(guān)聯(lián)規(guī)則.10?PrenticeHall產(chǎn)生關(guān)聯(lián)規(guī)則的算法ARs11?PrenticeHalls=30%,a=50%

利用該支持度,從表6.2得到大項(xiàng)目集的集合

L={{啤酒},{面包},{牛奶},{花生醬},{面包,花生醬}}

要想產(chǎn)生關(guān)聯(lián)規(guī)則,需要有非空子集。

只有最后一個(gè)大項(xiàng)目集可以產(chǎn)生關(guān)聯(lián)規(guī)則。

該大項(xiàng)目集產(chǎn)生的可能關(guān)聯(lián)規(guī)則如下:

(1)面包

花生醬

,其置信度為0.75,滿足條件,是一條有效的關(guān)聯(lián)規(guī)則。

(2)花生醬

面包,其置信度為1,滿足條件,是一條有效的個(gè)關(guān)聯(lián)規(guī)則。例題12?PrenticeHallApriori算法大項(xiàng)目集性質(zhì):大項(xiàng)目集的任一子集也一定是大的。因此大項(xiàng)目集只能從所有大的子集的組合(連接運(yùn)算)產(chǎn)生對照:如果一個(gè)項(xiàng)目集不是大的,那么它的超集也不是大的。13?PrenticeHallApriori

算法示例(cont’d)s=30%a=50%14?PrenticeHallApriori

算法C1=ItemsetsofsizeoneinI;Determinealllargeitemsetsofsize1,L1;i=1;Repeati=i+1;

Ci

=Apriori-Gen(Li-1);CountCitodetermineLi;untilnomorelargeitemsetsfound;15?PrenticeHallApriori-Gen從大小為i

的大項(xiàng)目集產(chǎn)生大小為i+1的侯選項(xiàng)目集。具體用法:將每一個(gè)項(xiàng)目集合與另外一個(gè)具有共同成員的項(xiàng)目集進(jìn)行連接運(yùn)算(組合)。

比如下例,在第三趟掃描后,有4個(gè)大項(xiàng)目集。在對這些大項(xiàng)目集進(jìn)行連接運(yùn)算時(shí),必須對三個(gè)屬性中的兩個(gè)進(jìn)行匹配,然后生成更大的項(xiàng)目集。可能需要修剪,因?yàn)閾?jù)此產(chǎn)生的大項(xiàng)目集有些不是大的。16?PrenticeHallApriori-Gen算法示例17?PrenticeHallApriori-GenExample(cont’d)18?PrenticeHall抽樣算法針對大型數(shù)據(jù)庫,可以減少掃描趟數(shù)首先對數(shù)據(jù)庫進(jìn)行抽樣,然后對抽樣應(yīng)用Apriori

算法.潛在的大項(xiàng)目集(PL):

從抽樣里產(chǎn)生的大項(xiàng)目集負(fù)邊界函數(shù)(BD-):把Apriori-Gen算法推廣應(yīng)用到大小變化的項(xiàng)目集。它定義為本身不在PL中,但其子集都在PL中的最小集合.19?PrenticeHall例題假定項(xiàng)目集合是{A,B,C,D}。從數(shù)據(jù)庫樣本(抽樣)中發(fā)現(xiàn)的大項(xiàng)目集合為PL={A,C,D,CD).第一趟掃描整個(gè)數(shù)據(jù)庫生成下面的侯選集:C=BD-(PL)(PL)={B,AC,AD}{A,C,D,CD}

這里之所以加入AC,是因?yàn)锳和C都在PL中,同理也加入了AD。

沒有加入ACD,是因?yàn)樗淖蛹疉C和AD都不在PL中。20?PrenticeHall抽樣算法Ds=sampleofDatabaseD;PL=LargeitemsetsinDsusingsmalls;C=PL

BD-(PL);CountCinDatabaseusings;ML=largeitemsetsinBD-(PL);

L=largeitemsetsinCIfML=

thendone elseC=repeatedapplicationofBD-(IneachiterationletC=L);CountCinDatabase;21?PrenticeHall抽樣算法示例FindARassumings=20%Ds={t1,t2}Smalls=10%PL={{Bread},{Jelly},{PeanutButter},{Bread,Jelly},{Bread,PeanutButter},{Jelly,PeanutButter},{Bread,Jelly,PeanutButter}}BD-(PL)={{Beer},{Milk}}ML={{Beer},{Milk}}RepeatedapplicationofBD-generatesallremainingitemsets22?PrenticeHall作業(yè)3標(biāo)準(zhǔn)解法

若抽樣數(shù)據(jù)庫包括t1,t9兩個(gè)事務(wù):

Ds={t1={罩衫},t9={牛仔褲}}將s減小到smalls=10%,那么對于一個(gè)在抽樣中為大的項(xiàng)目集來說,它必須在至少0.1*2個(gè)事務(wù)中出現(xiàn),也就必須在其中一個(gè)事務(wù)中出現(xiàn);PL={{罩衫},{牛仔褲}計(jì)算負(fù)邊界可得:

BD-(PL)={{裙子},{T恤},{鞋},{短褲},{罩衫,牛仔褲}}

第一趟掃描時(shí)候選集:C=PL∪BD-(PL)={{罩衫},{牛仔褲},{裙子},{T恤},{鞋},{短褲},{罩衫,牛仔褲}}掃描使用s=20%,并應(yīng)用于整個(gè)數(shù)據(jù)庫的20個(gè)事務(wù)中。因此對于一個(gè)大目集來說,它必須在大于0.2*20=4個(gè)事務(wù)中出現(xiàn)。得到大項(xiàng)目集:L1={{牛仔褲},{裙子},{T恤},{鞋},{短褲}}23?PrenticeHall第二趟掃描令C=L1,計(jì)算負(fù)邊界:C=BD-(C)={…}

掃描使用s=20%,并應(yīng)用于整個(gè)數(shù)據(jù)庫的20個(gè)事務(wù)中。因此對于一個(gè)大目集來說,它必須在大于0.2*20=4個(gè)事務(wù)中出現(xiàn)。得到大項(xiàng)目集合:L2={…}第三趟掃描令C=L2,計(jì)算負(fù)邊界C=BD-(C)={…}

得到大項(xiàng)目集合:L3={…}

故最終的大項(xiàng)目集:L=L1∪L2∪L3={…}24?PrenticeHall劃分算法把數(shù)據(jù)庫分成小的數(shù)據(jù)庫D1,D2,…,Dp對每一部分應(yīng)用

Apriori

算法。任何一個(gè)大項(xiàng)目集至少在一個(gè)劃分是大的。25?PrenticeHallPartitioningAlgorithmDivideDintopartitionsD1,D2,…,Dp;ForI=1topdoLi=Apriori(Di);C=L1

Lp;CountConDtogenerateL;26?PrenticeHall劃分算法示例D1D2S=10%L1={{Bread},{Jelly},{PeanutButter},{Bread,Jelly},{Bread,PeanutButter},{Jelly,PeanutButter},{Bread,Jelly,PeanutButter}}L2={{Bread},{Milk},{PeanutButter},{Bread,Milk},{Bread,PeanutButter},{Milk,PeanutButter},{Bread,Milk,PeanutButter},{Beer},{Beer,Bread},{Beer,Milk}}27?PrenticeHall平行算法依據(jù)Apriori算法大部分平行或分布式關(guān)聯(lián)規(guī)則算法要么試圖將數(shù)據(jù)并行化(或者劃分),要么試圖將侯選并行化(或者劃分)。兩者分別稱之為數(shù)據(jù)并行和任務(wù)并行。數(shù)據(jù)并行和任務(wù)并行的典型算法分別為記數(shù)分配算法和數(shù)據(jù)分別算法。28?PrenticeHall度量關(guān)聯(lián)規(guī)則的質(zhì)量支持度s(AB)=P(A,B)置信度a(AB)=P(B|A)=P(A,B)/P(A)作用度或興趣度interest(AB)=P(A,B)/(P(A)*P(B))信任度conviction(AB)=P(A)*P(?B)/P(A,?B)

如果A和B恒成立的規(guī)則的信任度為。如果A和B不相關(guān)(獨(dú)立),則信任度為1。如果A

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論