關(guān) 聯(lián) 規(guī) 則 分 析_第1頁(yè)
關(guān) 聯(lián) 規(guī) 則 分 析_第2頁(yè)
關(guān) 聯(lián) 規(guī) 則 分 析_第3頁(yè)
全文預(yù)覽已結(jié)束

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

關(guān)聯(lián)規(guī)則分析關(guān)聯(lián)規(guī)則簡(jiǎn)介:關(guān)聯(lián)規(guī)則雖然來(lái)源于POS中,但是可以應(yīng)用于很多領(lǐng)域。只要一個(gè)客戶在同一個(gè)時(shí)間里買了多樣?xùn)|西,或者在一段時(shí)間了做了好幾樣事情就可能是一個(gè)潛在的應(yīng)用。例如:?用信用卡購(gòu)物,如汽車租金和旅館費(fèi),可以看他下一個(gè)要買的東西。?電話公司提供的多項(xiàng)服務(wù),以研究捆綁銷售的問題。銀行提供的多項(xiàng)服務(wù),來(lái)分析客戶可能需要那些服務(wù)。不尋常的多項(xiàng)保險(xiǎn)申請(qǐng)可能是欺詐行為。數(shù)據(jù)挖掘什么時(shí)候有用?三種規(guī)則:有用的、價(jià)值不高的、費(fèi)解的。價(jià)值不高的規(guī)則往往是對(duì)一些商業(yè)領(lǐng)域內(nèi)的規(guī)則重現(xiàn)。費(fèi)解的規(guī)則往往是數(shù)據(jù)中一些偶然的東西,從而也沒有什么采取行動(dòng)的價(jià)值。虛擬元素(VirtualItems)是一個(gè)在事務(wù)中認(rèn)為加入的元素。用來(lái)對(duì)事務(wù)進(jìn)行一定的區(qū)別。加入虛擬元素后我們能做的事情:對(duì)比促銷時(shí)和平常銷售時(shí)的區(qū)別。按照銷售的區(qū)域來(lái)看,按照銷售的方式來(lái)看。比較城市和郊區(qū)的區(qū)別。比較各個(gè)季節(jié)的不同。數(shù)據(jù)挖掘的基本流程:?選擇合適的元素??紤]不同的統(tǒng)計(jì)級(jí)別,選擇哪種細(xì)節(jié)程度。細(xì)節(jié)的顆粒越粗,那么算法的工作量就越??;細(xì)節(jié)的顆粒越細(xì),那么結(jié)果的可實(shí)施性就越好。關(guān)鍵:只有當(dāng)數(shù)據(jù)中的元素出現(xiàn)的次數(shù)大致相同是,關(guān)聯(lián)規(guī)則的效果才最好。虛擬元素不能太多!應(yīng)該注意數(shù)據(jù)的質(zhì)量。?產(chǎn)生規(guī)則。什么是規(guī)則?就是一個(gè)條件和一個(gè)結(jié)果的和:Ifconditionthenresult。實(shí)際中有用的往往是結(jié)果中只有一個(gè)元素的情況。支持度、可信度和提高率(興趣度)。支持度:就是一個(gè)元組在整個(gè)數(shù)據(jù)庫(kù)中出現(xiàn)的概率。如上面的例子中S(A)=0.45??尚哦?它是針對(duì)規(guī)則而言的。對(duì)于一般的規(guī)則,它的可信度=p(conditionandresult)/p(condition)。例如有如下規(guī)則:IfBandCthenA。則它的可信度是:p(BandCandA)/p(BandC)=5%/15%=0.33。提高率(或者叫興趣度):對(duì)于上面的一個(gè)規(guī)則,我們可以發(fā)現(xiàn),當(dāng)我們從從數(shù)據(jù)庫(kù)中直接取A的時(shí)候,概率是45%;可在我們的規(guī)則中,取到A的概率卻只有33.3%。顯然,這種情況是我們不愿意見到的,我們應(yīng)該略去這樣的一些規(guī)則。所以我們引入了興趣度的概念,具體的公式如下:興趣度二p(conditionandresult)/p(condition)*p(result)。當(dāng)興趣度大于1的時(shí)候,這條規(guī)則就是比較好的;當(dāng)興趣度小于1的時(shí)候,這條規(guī)則就是沒有很大意義的。興趣度越大,規(guī)則的實(shí)際意義就越好。?克服實(shí)際應(yīng)用中數(shù)據(jù)量暴大的問題。當(dāng)數(shù)據(jù)量增大時(shí),要考慮的元素組就增長(zhǎng)的很快了。分裂規(guī)則:例如:IfAandnotBthenC。用關(guān)聯(lián)規(guī)則的方法對(duì)序列規(guī)則的分析:為了進(jìn)行序列模式的分析,事務(wù)數(shù)據(jù)要滿足額外的兩個(gè)條件:一個(gè)時(shí)標(biāo)或者序列信息用以決定事務(wù)發(fā)生的順序。標(biāo)識(shí)信息,用以區(qū)別不同的事務(wù)。可以用于原因結(jié)果分析。關(guān)聯(lián)規(guī)則的優(yōu)缺點(diǎn):優(yōu)點(diǎn):?它可以產(chǎn)生清晰有用的結(jié)果。?它支持間接數(shù)據(jù)挖

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論