數(shù)據(jù)挖掘之關(guān)聯(lián)算法_第1頁
數(shù)據(jù)挖掘之關(guān)聯(lián)算法_第2頁
數(shù)據(jù)挖掘之關(guān)聯(lián)算法_第3頁
全文預(yù)覽已結(jié)束

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認(rèn)領(lǐng)

文檔簡介

1、數(shù)據(jù)挖掘之關(guān)聯(lián)算法本小組所尋案例,與數(shù)據(jù)挖掘的關(guān)聯(lián)算法相關(guān)。即通過一定的關(guān)聯(lián)算法,找出數(shù)據(jù)庫中 隱藏的關(guān)聯(lián)網(wǎng)。數(shù)據(jù)關(guān)聯(lián)是數(shù)據(jù)庫中存在的一類重要的可被發(fā)現(xiàn)的知識。若兩個或多個變量 的取值之間存在某種規(guī)律性,就稱為關(guān)聯(lián)。關(guān)聯(lián)算法之中,有兩個重要概念:支持度和置信度。支持度(Support),也就是數(shù)據(jù)集中包含某幾個特定項的概率。比如在1000次的商品 交易中同時出現(xiàn)了啤酒和尿布的次數(shù)是50次,那么此關(guān)聯(lián)的支持度為5%。置信度(Confidence),也就是在數(shù)據(jù)集中已經(jīng)出現(xiàn)A時,B發(fā)生的概率,是一種條件概 率。支持度和置信度是描述關(guān)聯(lián)規(guī)則的兩個最重要的概念。一項目組出現(xiàn)的頻率稱為支持度, 反映關(guān)聯(lián)

2、規(guī)則在數(shù)據(jù)庫中的重要性。而置信度衡量關(guān)聯(lián)規(guī)則的可信程度。如果某條規(guī)則同時 滿足最小支持度(min-support)和最小置信度(min-confidence),則稱它為強關(guān)聯(lián)規(guī)則。簡單舉例。就“啤酒+尿布”這個案例而言,在進行資料挖掘時,首先必須設(shè)定最小支持 度與最小可信度兩個門檻值,假定設(shè)為最小支持度5%、最小可信度65%。即是說,只要滿 足,在所有交易記錄中,至少有5%的交易同時購買了啤酒和尿布,且在在所有包含尿布的 交易記錄資料中,至少有65%的交易會同時購買啤酒。則我們可以認(rèn)為,啤酒和尿布具備關(guān) 聯(lián)規(guī)則。關(guān)聯(lián)規(guī)則的發(fā)現(xiàn)過程可分為如下兩步:第一步是迭代識別所有的頻繁項目集,要求頻繁項目集

3、的支持度不低于用戶設(shè)定的最低 值;第二步是從頻繁項目集中構(gòu)造置信度不低于用戶設(shè)定的最低值的規(guī)則,產(chǎn)生關(guān)聯(lián)規(guī)則。 識別或發(fā)現(xiàn)所有頻繁項目集是關(guān)聯(lián)規(guī)則發(fā)現(xiàn)算法的核心,也是計算量最大的部分。關(guān)聯(lián)規(guī)則挖掘的一個典型例子是購物籃分析。關(guān)聯(lián)規(guī)則研究有助于發(fā)現(xiàn)交易數(shù)據(jù)庫中不 同商品(項)之間的聯(lián)系,找出顧客購買行為模式,如購買了某一商品對購買其他商品的影 響。分析結(jié)果可以應(yīng)用于商品貨架布局、貨存安排以及根據(jù)購買模式對用戶進行分類。案例采用Apriori算法進行關(guān)聯(lián)分析。從一家公司的銷售記錄中我們找到以下8條消費記錄,并以3作為最小支持度,也就是 說出現(xiàn)頻率在3次以下的記錄是被我們所忽略的。交易標(biāo)號銷售內(nèi)容1

4、牛奶、冰淇淋、果醬、面包2冰淇淋、果醬、面包、咖啡3牛奶、面包、果醬4牛奶、咖啡5牛奶、面包、巧克力6冰淇淋、面包、咖啡7牛奶、果醬、面包、香蕉8咖啡、面包、葡萄所有滿足最小支持度3的1項頻集如下,其中的支持度是指該產(chǎn)品在整個數(shù)據(jù)集中出 現(xiàn)的次數(shù)。比如牛奶出現(xiàn)了5次,而冰淇淋出現(xiàn)了3次。支持度銷售內(nèi)容5牛奶3冰淇淋4果醬3咖啡6面包遞歸執(zhí)行,所有滿足最小支持度3的2項頻集如下,這其中出現(xiàn)最多的頻集是牛奶, 面包和面包,果醬各自出現(xiàn)了4次。(所謂2項頻集,即將一項頻集中的各項目再次 兩兩組合,如形成牛奶、冰淇淋牛奶、果醬牛奶、咖啡牛奶、面包冰淇淋、果醬等 等,最終挑選出支持度3的頻集,即如下表所示。)支持度銷售內(nèi)容3面包、咖啡4牛奶、面包3冰淇淋、面包4面包、果醬6面包再次遞歸執(zhí)行,所有滿足最小支持度3的3項頻集只剩下一條,此時已無法繼續(xù)迭代運 算,故結(jié)束算法。支持度銷售內(nèi)容3牛奶、果醬、面包那么牛奶,果醬

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論