《數(shù)據(jù)挖掘與知識發(fā)現(xiàn)(第2版)》第2章關(guān)聯(lián)規(guī)則_第1頁
《數(shù)據(jù)挖掘與知識發(fā)現(xiàn)(第2版)》第2章關(guān)聯(lián)規(guī)則_第2頁
《數(shù)據(jù)挖掘與知識發(fā)現(xiàn)(第2版)》第2章關(guān)聯(lián)規(guī)則_第3頁
《數(shù)據(jù)挖掘與知識發(fā)現(xiàn)(第2版)》第2章關(guān)聯(lián)規(guī)則_第4頁
《數(shù)據(jù)挖掘與知識發(fā)現(xiàn)(第2版)》第2章關(guān)聯(lián)規(guī)則_第5頁
已閱讀5頁,還剩36頁未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

第2章關(guān)聯(lián)規(guī)則

《數(shù)據(jù)挖掘與知識發(fā)現(xiàn)》(第2版)數(shù)據(jù)挖掘與知識發(fā)現(xiàn)(第2版)(42-2)關(guān)聯(lián)規(guī)則

典型的關(guān)聯(lián)規(guī)則發(fā)現(xiàn)問題是分析超市中的貨籃數(shù)據(jù),通過發(fā)現(xiàn)顧客放入貨籃中商品之間的關(guān)系,分析顧客的購買習(xí)慣。本章主要介紹如下幾個(gè)方面的內(nèi)容:關(guān)聯(lián)規(guī)則基本模型Apriori、LIG、FP等算法多級關(guān)聯(lián)規(guī)則多維關(guān)聯(lián)規(guī)則關(guān)聯(lián)規(guī)則價(jià)值衡量數(shù)據(jù)挖掘與知識發(fā)現(xiàn)(第2版)(42-3)引言關(guān)聯(lián)規(guī)則反映一個(gè)事物與其他事物之間的相互依存性和關(guān)聯(lián)性。如果兩個(gè)或者多個(gè)事物之間存在一定的關(guān)聯(lián)關(guān)系,那么,其中一個(gè)事物就能夠通過其他事物預(yù)測到。從商業(yè)交易記錄中發(fā)現(xiàn)數(shù)據(jù)關(guān)聯(lián)關(guān)系,用于商家決策。商品分類設(shè)計(jì)降價(jià)經(jīng)銷分析生產(chǎn)安排貨架擺放策略

典型應(yīng)用:超市貨籃數(shù)據(jù)(MarketBasket)分析。通過發(fā)現(xiàn)顧客放入貨籃中的不同商品之間的關(guān)系來分析顧客的購買習(xí)慣。

分析以商品C為后件的規(guī)則,有助于商家采取相應(yīng)措施促進(jìn)該產(chǎn)品的銷售;分析以商品A作為前件的規(guī)則,可知終止該商品的銷售會影響某些商品銷售;根據(jù)貨架A上的商品和貨架B上的商品之間的關(guān)聯(lián)規(guī)則,合理安排貨架布局。數(shù)據(jù)挖掘與知識發(fā)現(xiàn)(第2版)(42-4)關(guān)聯(lián)規(guī)則基本模型

IBM公司Almaden研究中心的R.Agrawal首先提出關(guān)聯(lián)規(guī)則模型,并給出求解算法AIS。隨后又出現(xiàn)了SETM和Apriori等算法。其中,Apriori是關(guān)聯(lián)規(guī)則模型中的經(jīng)典算法。設(shè)I={i1,i2,…,im}為所有項(xiàng)目的集合,D為事務(wù)數(shù)據(jù)庫,事務(wù)T是一個(gè)項(xiàng)目子集(TI)。每一個(gè)事務(wù)具有唯一的事務(wù)標(biāo)識TID。設(shè)A是一個(gè)由項(xiàng)目構(gòu)成的集合,稱為項(xiàng)集。事務(wù)T包含項(xiàng)集A,當(dāng)且僅當(dāng)AT。如果項(xiàng)集A中包含k個(gè)項(xiàng)目,則稱其為k項(xiàng)集。項(xiàng)集A在事務(wù)數(shù)據(jù)庫D中出現(xiàn)的次數(shù)占D中總事務(wù)的百分比叫做項(xiàng)集的支持度。如果項(xiàng)集的支持度超過用戶給定的最小支持度閾值,就稱該項(xiàng)集是頻繁項(xiàng)集(或大項(xiàng)集)。關(guān)聯(lián)規(guī)則是形如XY的邏輯蘊(yùn)含式,其中XI,YI,且XY=。如果事務(wù)數(shù)據(jù)庫D中有s%的事務(wù)包含XY,則稱關(guān)聯(lián)規(guī)則XY的支持度為s%。若項(xiàng)集X的支持度記為support(X),規(guī)則的信任度為

support(XY)/support(X)。support(XY)=P(XY)confidence(XY)=P(Y|X)數(shù)據(jù)挖掘與知識發(fā)現(xiàn)(第2版)(42-5)關(guān)聯(lián)規(guī)則基本模型關(guān)聯(lián)規(guī)則就是支持度和信任度分別滿足用戶給定閾值的規(guī)則。發(fā)現(xiàn)關(guān)聯(lián)規(guī)則需要經(jīng)歷如下兩個(gè)步驟:

1.找出所有頻繁項(xiàng)集。

2.由頻繁項(xiàng)集生成滿足最小信任度閾值的規(guī)則。由m個(gè)項(xiàng)目形成的不同項(xiàng)集的數(shù)目可以達(dá)到2m–1個(gè),尤其在海量數(shù)據(jù)庫D中,找頻繁項(xiàng)集是一個(gè)NP難度的問題。為了避免計(jì)算所有項(xiàng)集的支持度,Apriori算法引入潛在頻繁項(xiàng)集的概念。若潛在頻繁k項(xiàng)集的集合記為Ck

,頻繁k項(xiàng)集的集合記為Lk

,m個(gè)項(xiàng)目構(gòu)成的k項(xiàng)集的集合為,則三者之間滿足關(guān)系

Lk

Ck

。數(shù)據(jù)挖掘與知識發(fā)現(xiàn)(第2版)(42-6)Apriori算法關(guān)聯(lián)規(guī)則具有如下性質(zhì):性質(zhì)2.1頻繁項(xiàng)集的子集必為頻繁項(xiàng)集。性質(zhì)2.2非頻繁項(xiàng)集的超集一定是非頻繁的。發(fā)現(xiàn)頻繁項(xiàng)集的步驟:1.單趟掃描數(shù)據(jù)庫D得到頻繁1項(xiàng)集構(gòu)成的集合L1。

2.連接步:由JOIN運(yùn)算得到潛在頻繁項(xiàng)集Ck的集合。

3.剪枝步:當(dāng)潛在k項(xiàng)集的某個(gè)(k–1)子集不是Lk–1中的成員時(shí),可以將該潛在頻繁項(xiàng)集從Ck中移去。

4.單趟掃描數(shù)據(jù)庫D,計(jì)算Ck中各個(gè)項(xiàng)集的支持度。

5.將Ck中不滿足最小支持度的項(xiàng)集剔除,形成由頻繁k項(xiàng)集構(gòu)成的集合Lk

。數(shù)據(jù)挖掘與知識發(fā)現(xiàn)(第2版)(42-7)Apriori算法Apriori算法如下:(1)L1={頻繁1項(xiàng)集};(2)for(k=2;Lk-1;k++)dobegin(3)Ck=apriori_gen(Lk-1);//新的潛在頻繁項(xiàng)集(4)foralltransactions

tDdobegin(5)Ct=subset(Ck,t);//t中包含的潛在頻繁項(xiàng)集(6)forallcandidatescCt

do(7)c.count++;(8)end;(9)Lk={cCk|c.countminsup}(10)end;(11)Answer=;數(shù)據(jù)挖掘與知識發(fā)現(xiàn)(第2版)(42-8)Apriori算法Apriori_gen()函數(shù):

以Lk–1為參數(shù),用Lk–1和Lk–1進(jìn)行連接操作生成一個(gè)超集Ck作為潛在頻繁項(xiàng)集。(1)insertintoCk(2)selectp[1],p[2],…,p[k-1],q[k-1](3)fromLk–1

p,Lk–1

q(4)wherep[1]=q[1],…,p[k-2]=q[k-2],p[k-1]<q[k-1];數(shù)據(jù)挖掘與知識發(fā)現(xiàn)(第2版)(42-9)Apriori算法剪枝(Prune)步驟,即對任意的c,cCk

,刪除Ck中所有(k–1)維子集不在Lk–1

中的項(xiàng)集,表達(dá)為:(1)forallitemsets

cCkdo(2)forall(k-1)-subsetssofcdo(3)if(sLk–1)then(4)deletecfromCk

;數(shù)據(jù)挖掘與知識發(fā)現(xiàn)(第2版)(42-10)Apriori算法利用頻繁項(xiàng)集生成規(guī)則的算法為:(1)forall頻繁k項(xiàng)集Lk,k2dobegin(2)H1={Lk中規(guī)則的后件,該規(guī)則的后件中只有一個(gè)項(xiàng)目};(3)callap_genrules(Lk

,H1);(4)end;(5)procedureap_genrules(Lk:頻繁k項(xiàng)集,Hm:m個(gè)項(xiàng)目的后件的集合)(6)if(k>m+1)thenbegin(7)Hm+1=apriori_gen(Hm);(8)forallhm+1Hm+1dobegin(9)conf=support(Lk)/support(Lk-hm+1);(10)if(conf≥minconf)then(11)output規(guī)則(Lk-hm+1)hm+1

withconfidence=confandsupport=support(Lk);(12)else(13)deletehm+1fromHm+1;(14)end;(15)callap_genrules(Lk,Hm+1);(16)end;數(shù)據(jù)挖掘與知識發(fā)現(xiàn)(第2版)(42-11)LIG算法定義2.1設(shè)T是事務(wù)數(shù)據(jù)庫中的一個(gè)事務(wù),TD,稱T中基本項(xiàng)的個(gè)數(shù)為事務(wù)T的規(guī)模,記為T。定義2.2若d是一個(gè)項(xiàng)集,將d中元素的個(gè)數(shù)稱為該項(xiàng)集的長度,記為d。定理2.1在一個(gè)已知事務(wù)數(shù)量的數(shù)據(jù)集D中,規(guī)模小于A的事務(wù)不會影響計(jì)算D(A)。(A在D中出現(xiàn)的次數(shù))定理2.2已知數(shù)據(jù)集D中的一個(gè)頻繁k項(xiàng)集Ak,即

D(Ak)≥minsup,令數(shù)據(jù)集D’={ddDd≥m>k},若D’(Ak)<minsup,則對D中任意一個(gè)頻繁m項(xiàng)集Am而言,一定有Ak

Am。數(shù)據(jù)挖掘與知識發(fā)現(xiàn)(第2版)(42-12)LIG算法定義2.3當(dāng)k≤p<q時(shí),sp為項(xiàng)集I在規(guī)模為p的事務(wù)中出現(xiàn)的次數(shù);當(dāng)p=q時(shí),sp是項(xiàng)集I在規(guī)模不低于p的事務(wù)中出現(xiàn)的次數(shù)。這里元組(sk

,sk+1,…,sq–1,sq)稱為項(xiàng)集I的多段支持度。定義2.4若項(xiàng)I能與區(qū)間[ip,iq],[ir,is],…,[iu,iv]中的頻繁1項(xiàng)集構(gòu)成潛在頻繁2項(xiàng)集,而與任何區(qū)間外的項(xiàng)均不構(gòu)成頻繁2項(xiàng)集,則稱這些區(qū)間為項(xiàng)I的相關(guān)區(qū)間。數(shù)據(jù)挖掘與知識發(fā)現(xiàn)(第2版)(42-13)LIG算法定理2.3若頻繁k項(xiàng)集itemi和itemj的多段支持度分別為

(ik,ik+1,…,iq)和(jk,jk+1,…,jq),滿足

<minsup,并且∣itemiitemj∣=k–1,則不能由itemi和itemj構(gòu)成Ck+1中的元素。數(shù)據(jù)挖掘與知識發(fā)現(xiàn)(第2版)(42-14)LIG算法LIG算法:(1)foralltransactionstDdobegin(2)forallitemsctdobegin(3)c.s++; //計(jì)算項(xiàng)的支持度(4)Calculatec.AREA; //計(jì)算相關(guān)區(qū)間的頻度(5)end;(6)if(t>1)+=t;(7)end;(8)L1={large1-itemset}; //滿足最小支持度(9)C2={{a,b}

a

L1andba.AREA};//潛在頻繁2項(xiàng)集數(shù)據(jù)挖掘與知識發(fā)現(xiàn)(第2版)(42-15)LIG算法(10)M2={C2中相異元素}; //提取因子(11)k=2,q置初值;(12)dobegin(13)foralltransactionstdobegin(14)Ct=subset(Ck

,t);//t中包含的潛在頻繁項(xiàng)集(15)r=t;(16)if(r>q)thenr=q;(17)if(r==k)then-=t;//剔除長度為k的事務(wù)數(shù)據(jù)挖掘與知識發(fā)現(xiàn)(第2版)(42-16)LIG算法(18)elset=Mk;//剔除事務(wù)中無價(jià)值的項(xiàng)(19)forallCandidatescCtdo(20)c.sr++;(21)end(22)LCk=limit_gen(k,Ck);//生成Lk

和LCk(23)Ck+1=JOIN(LCk);//新的潛在頻繁項(xiàng)集的集合(24)Mk+1={Ck+1中相異元素};//提取因子(25)k++;q++;(26)endwhile(LCk>1);(27)L=

數(shù)據(jù)挖掘與知識發(fā)現(xiàn)(第2版)(42-17)LIG算法limit_gen()函數(shù):(1)forallcCkdobegin(2)for(p=q,sum=c.sp;sum<minsupORp>=k;p--)do(3)sum+=c.sp;//求c可能產(chǎn)生的最大潛在項(xiàng)集之長(4)if(summinsup)thenbegin(5)if(p==q)then

c.limit=;//未確定最大潛

//在項(xiàng)集之長(6)elsec.limit=p;(7)Lk=Lk{c};//構(gòu)成頻繁項(xiàng)集的集合(8)if(p>k)thenLCk=LCk{c};//構(gòu)成種子集(9)end;(10)end;數(shù)據(jù)挖掘與知識發(fā)現(xiàn)(第2版)(42-18)LIG算法JOIN(LCk

)函數(shù):

insertintoCkselectp.item1,p.item2,,p.itemk-1,q.itemk-1fromLCk-1

p,LCk-1

q,C2

swhere(p.item1=q.item1,,p.itemk-2=q.itemk-2,p.itemk-1<q.itemk-1,p.itemk-1=s.item1,q.itemk-1=s.item2)andminsup;數(shù)據(jù)挖掘與知識發(fā)現(xiàn)(第2版)(42-19)LIG算法(例)數(shù)據(jù)挖掘與知識發(fā)現(xiàn)(第2版)(42-20)LIG算法(例)數(shù)據(jù)挖掘與知識發(fā)現(xiàn)(第2版)(42-21)LIG算法(例)數(shù)據(jù)挖掘與知識發(fā)現(xiàn)(第2版)(42-22)LIG算法(例)數(shù)據(jù)挖掘與知識發(fā)現(xiàn)(第2版)(42-23)LIG算法(例)數(shù)據(jù)挖掘與知識發(fā)現(xiàn)(第2版)(42-24)FP-growth算法頻繁模式生長算法(FP-growth)不用生成潛在頻繁項(xiàng)集,而是用分治法把數(shù)據(jù)庫中的頻繁項(xiàng)目放入FP樹中,并且保留項(xiàng)集的關(guān)聯(lián)信息;然后把數(shù)據(jù)庫劃分為條件數(shù)據(jù)基,分別在每個(gè)數(shù)據(jù)基上挖掘。例:下圖的FP樹和數(shù)據(jù)庫數(shù)據(jù)挖掘與知識發(fā)現(xiàn)(第2版)(42-25)FP-growth算法ProcedureFP_growth(Tree,

α)(1)ifTree包含一個(gè)單一路徑Pthen(2)foreach路徑P中節(jié)點(diǎn)組合(記為β)

生成模式βα,擁有支持度為β節(jié)點(diǎn)中的最小支持度(4)elseforeach樹的頭列表節(jié)點(diǎn)ai{(5)生成模式β=aiβ且support=ai.support(6)構(gòu)成β,的條件模式基和β的條件FP_tree

Treeβ(7)ifTreeβthencallFP_growth(Treeβ,β);}初始后綴模式:長度為1的頻繁模式。條件模式基:是一個(gè)子數(shù)據(jù)集,由FP樹中與后綴模式一起出現(xiàn)的前綴路徑集組成。

數(shù)據(jù)挖掘與知識發(fā)現(xiàn)(第2版)(42-26)FP-growth算法FP_tree結(jié)構(gòu)的優(yōu)點(diǎn):

(1)在完備性方面,它不會打破交易中的任何模式,而且包含了挖掘序列模式所需的全部信息;

(2)在緊密性方面,它剔除不相關(guān)信息,不包含非頻繁項(xiàng),按支持度降序排列,支持度高的項(xiàng)在FP_tree中共享的機(jī)會也高。FP_tree結(jié)構(gòu)的缺點(diǎn):當(dāng)數(shù)據(jù)庫規(guī)模非常大時(shí),在內(nèi)存中構(gòu)建FP_tree是不切實(shí)際的。數(shù)據(jù)挖掘與知識發(fā)現(xiàn)(第2版)(42-27)FP-growth算法(例)用事務(wù)數(shù)據(jù)庫建立FP_tree,如圖2.5和表2.2所示。數(shù)據(jù)挖掘與知識發(fā)現(xiàn)(第2版)(42-28)FP-growth算法(例)步驟1:從FP_tree的頭表開始,按著每個(gè)頻繁項(xiàng)的連接路徑遍歷FP_tree,列出可達(dá)此項(xiàng)的所有前綴路徑,得到條件模式基。數(shù)據(jù)挖掘與知識發(fā)現(xiàn)(第2版)(42-29)FP-growth算法(例)步驟2:對每個(gè)模式基,計(jì)算各個(gè)項(xiàng)的支持度,用模式基中的頻繁項(xiàng)建立FP_tree。

數(shù)據(jù)挖掘與知識發(fā)現(xiàn)(第2版)(42-30)FP-growth算法(例)步驟3:遞歸挖掘條件FP_tree。數(shù)據(jù)挖掘與知識發(fā)現(xiàn)(第2版)(42-31)FP-growth算法(例)步驟4:單FP_tree

路徑生成。假定FP_tree

T只包含路徑P,P的子路徑所有可能的組合就是該樹包含的所有頻繁項(xiàng)集。數(shù)據(jù)挖掘與知識發(fā)現(xiàn)(第2版)(42-32)多級關(guān)聯(lián)規(guī)則由于多維數(shù)據(jù)空間上的數(shù)據(jù)稀少,在低層或原始抽象級別上很難發(fā)現(xiàn)數(shù)據(jù)項(xiàng)間的強(qiáng)關(guān)聯(lián)(StrongAssociations)。Han等人指出強(qiáng)關(guān)聯(lián)在高層概念上可以描述通常意義的知識。多級關(guān)聯(lián)規(guī)則可以在不同的抽象空間上描述多層抽象知識。數(shù)據(jù)挖掘與知識發(fā)現(xiàn)(第2版)(42-33)多級關(guān)聯(lián)規(guī)則多級關(guān)聯(lián)規(guī)則的挖掘可以沿用“支持度和信任度”的框架。挖掘多級關(guān)聯(lián)規(guī)則時(shí)可采用自上而下,深度優(yōu)先的方法,由較抽象的概念層開始向下,到較低的具體概念層(如原始概念層),對每個(gè)概念層的頻繁項(xiàng)集累加計(jì)數(shù),直到再也找不到頻繁項(xiàng)集為止。Apriori算法及其變種算法均可以應(yīng)用到每一級頻繁項(xiàng)集的發(fā)現(xiàn)上。多級關(guān)聯(lián)規(guī)則模型分類:所有級別采用統(tǒng)一的最小支持度閾值;低級別上采用較小的最小支持度閾值。數(shù)據(jù)挖掘與知識發(fā)現(xiàn)(第2版)(42-34)多級關(guān)聯(lián)規(guī)則

可以用如下幾種策略來設(shè)置不同的支持度閾值。1.各級間相互獨(dú)立。在深度優(yōu)先的檢索中沒有任何頻繁項(xiàng)集的背景知識用于剪枝。對每個(gè)節(jié)點(diǎn)的處理與其父節(jié)點(diǎn)是否為頻繁項(xiàng)集無關(guān)。2.各級之間單項(xiàng)過濾。算法考察第i級項(xiàng)目的充分必要條件為(i–1)級的相應(yīng)父節(jié)點(diǎn)為頻繁項(xiàng)集。也就是在一般關(guān)聯(lián)關(guān)系的基礎(chǔ)上研究更詳盡的關(guān)聯(lián)規(guī)則。3.各級之間項(xiàng)集過濾。如果考察第i級的k項(xiàng)集,當(dāng)且僅當(dāng)(i–1)級的相應(yīng)父節(jié)點(diǎn)中k項(xiàng)集為頻繁項(xiàng)集。數(shù)據(jù)挖掘與知識發(fā)現(xiàn)(第2版)(42-35)多級關(guān)聯(lián)規(guī)則規(guī)則冗余問題概念分層允許在不同抽象層上發(fā)現(xiàn)知識,所以多級關(guān)聯(lián)規(guī)則在數(shù)據(jù)挖掘中能發(fā)揮較大的作用。但由于“祖先”關(guān)系的原因,有些規(guī)則可能是冗余的。

(1)如果同時(shí)挖掘到這兩條規(guī)則且后者不能提供更新的信息,就把這個(gè)規(guī)則剔除。

(2)設(shè)規(guī)則R1是規(guī)則R2的祖先,如果通過修改R2的前件使之提升到上一級概念抽象后,能夠得到規(guī)則R1,則規(guī)則R2就是冗余的,可以從規(guī)則集中把R2刪去。數(shù)據(jù)挖掘與知識發(fā)現(xiàn)(第2版)(42-36)多維關(guān)聯(lián)規(guī)則在多維數(shù)據(jù)庫中,將每個(gè)不同的謂詞層稱作維。規(guī)則

購買(X,“牛奶”)

購買(X,“面包”)

為單維或者維內(nèi)關(guān)聯(lián)規(guī)則。多維關(guān)聯(lián)規(guī)則是涉及兩個(gè)或多個(gè)屬性或謂詞的規(guī)則。例如:

年齡(X,“20..30”)and職業(yè)(X,“學(xué)生”)

購買(X,“筆記本電腦”)

如果在規(guī)則的每一維上使用不同的斷言,就把包含兩個(gè)或兩個(gè)以上斷言的關(guān)聯(lián)規(guī)則稱為多維關(guān)聯(lián)規(guī)則。如果規(guī)則中的斷言不重復(fù),就稱這樣的規(guī)則為維間關(guān)聯(lián)規(guī)則(InterdimensionAssociationrule);如果規(guī)則中的斷言可以重復(fù),就稱之為混合維關(guān)聯(lián)規(guī)則(Hybrid-dimensionAssociationRule)。數(shù)據(jù)挖掘與知識發(fā)現(xiàn)(第2版)(42-37)數(shù)據(jù)屬性與多維關(guān)聯(lián)規(guī)則數(shù)據(jù)庫屬性分為定性和定量兩種。定性的屬性有有限個(gè)可能取值;定量的屬性不能給出確切取值范圍的數(shù)量值。數(shù)量屬性的處理方法分為三種:(1)把數(shù)量值劃分為若干個(gè)離散區(qū)間,用區(qū)間值描述數(shù)量屬性,這樣就可以把定量的問題轉(zhuǎn)化為定性的問題。也就是通過數(shù)量屬性靜態(tài)離散化挖掘多維關(guān)聯(lián)規(guī)則。(2)對離散數(shù)據(jù)而言,為適應(yīng)數(shù)據(jù)挖掘需要,離散化進(jìn)程可以是動態(tài)的,這樣的關(guān)聯(lián)規(guī)則稱為數(shù)量相關(guān)規(guī)則。(3)如果在離散化時(shí)考慮數(shù)據(jù)點(diǎn)間的距離,就將這樣的數(shù)量關(guān)聯(lián)規(guī)則稱為基于距離的關(guān)聯(lián)規(guī)則。數(shù)據(jù)挖掘與知識發(fā)現(xiàn)(第2版)(42-38)關(guān)聯(lián)規(guī)則價(jià)值衡量

對關(guān)聯(lián)規(guī)則的評價(jià)與價(jià)值衡量涉及兩個(gè)層面:系統(tǒng)客觀的層面和用戶主觀的層面。

1.系統(tǒng)客觀層面

①規(guī)則的興趣度是在基于統(tǒng)計(jì)獨(dú)立性假設(shè)下真正的強(qiáng)度與期望的強(qiáng)度之比。

②收集強(qiáng)度(CollectiveStrength),使用“大于期望值”為條件來發(fā)現(xiàn)有意義的關(guān)聯(lián)規(guī)則。項(xiàng)集的收集強(qiáng)度是[0,]區(qū)間上的一個(gè)數(shù)值,其中,0表示完備的否定相關(guān)性,

表示完備的正相關(guān)性。

2.用戶主觀層面

只有用戶才能決定規(guī)則的有效性、可行性??梢圆捎没诩s束的數(shù)據(jù)挖掘方法。具體約束的內(nèi)容有:

(1)數(shù)據(jù)約束。用戶可以指定數(shù)據(jù)挖掘的范圍,而不一定是全部數(shù)據(jù)。

(2)維和層次約束。用戶可以指定在數(shù)據(jù)的某些維以及這些維的某些層次上進(jìn)行數(shù)據(jù)挖掘。

(3)規(guī)則約束??梢砸肽0澹═emplate)的概念,用以指定需要的規(guī)則類型。用戶使用模板確定感興趣的規(guī)則。如果一條規(guī)則與包含模板(InclusiveTemplate)相匹配,就是感興趣的規(guī)則,如果一條規(guī)則與限制模板(RestrictiveTemplate)相匹配,就是不感興趣的規(guī)則。

數(shù)據(jù)挖掘與知識發(fā)現(xiàn)(第2版)(42-39)基于約束的關(guān)聯(lián)規(guī)則

基于約束的關(guān)聯(lián)規(guī)則就是利用用戶給出的各種約束關(guān)系,使挖掘出的規(guī)則更有效。這些約束包括:1.知識類型約束:用以指明挖掘知識的類型。如關(guān)聯(lián)規(guī)則等。2.數(shù)據(jù)約束:用以確定所挖掘的數(shù)據(jù)集。3.維數(shù)或?qū)蛹s束:說明挖掘規(guī)則的數(shù)據(jù)維數(shù)或抽象層次。4.興趣度約束:給出反映度量規(guī)則興趣程度的統(tǒng)計(jì)度量或閾值。如支持度、信任度等。5.規(guī)則約束:指明挖掘規(guī)則的形式。強(qiáng)調(diào)規(guī)則模板,包括出現(xiàn)在規(guī)則前件、后件的斷言數(shù)量,屬性關(guān)系,屬性值以及聚合度等。

數(shù)據(jù)挖掘與知識發(fā)現(xiàn)(第2版)(42-40)基于約束的關(guān)聯(lián)規(guī)則

在規(guī)則挖掘中加入前件和后件重要度的比較限制,稱為對比度。

一個(gè)項(xiàng)集的重要度為所有組成元素重要度之和。定義2.5

若一個(gè)關(guān)聯(lián)規(guī)則前件

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論