關(guān)于Weka的數(shù)據(jù)關(guān)聯(lián)規(guī)則分析實(shí)驗(yàn)_第1頁
關(guān)于Weka的數(shù)據(jù)關(guān)聯(lián)規(guī)則分析實(shí)驗(yàn)_第2頁
關(guān)于Weka的數(shù)據(jù)關(guān)聯(lián)規(guī)則分析實(shí)驗(yàn)_第3頁
全文預(yù)覽已結(jié)束

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

關(guān)于Weka的數(shù)據(jù)關(guān)聯(lián)規(guī)則分析實(shí)驗(yàn)班級(jí)市場(chǎng)091姓名楊超學(xué)號(hào)200916012106實(shí)驗(yàn)基本原理及目的關(guān)聯(lián)規(guī)則的定義假設(shè)I是項(xiàng)的集合。給定一個(gè)交易數(shù)據(jù)庫(kù),其中每個(gè)事務(wù)(Transaction)t是I的非空子集,即,每一個(gè)交易都與一個(gè)唯一的標(biāo)識(shí)符TID(TransactionID)對(duì)應(yīng)。關(guān)聯(lián)規(guī)則在D中的支持度(support)是D中事務(wù)同時(shí)包含X、Y的百分比,即概率;置信度(confidence)是包含X的事務(wù)中同時(shí)又包含Y的百分比,即條件概率。關(guān)聯(lián)規(guī)則是有趣的,如果滿足最小支持度閾值和最小置信度閾值。這些閾值是根據(jù)挖掘需要人為設(shè)定。在本實(shí)驗(yàn)中,我們對(duì)前面的““bank-data-final.arff””作關(guān)聯(lián)規(guī)則分析,使用Apriori算法。下面我們簡(jiǎn)單描述一下Apriori算法的步驟。這個(gè)算法先把數(shù)據(jù)庫(kù)從邏輯上分成幾個(gè)互不相交的塊,每次單獨(dú)考慮一個(gè)分塊并對(duì)它生成所有的頻集,然后把產(chǎn)生的頻集合并,用來生成所有可能的頻集,最后計(jì)算這些項(xiàng)集的支持度。這里分塊的大小選擇要使得每個(gè)分塊可以被放入主存,每個(gè)階段只需被掃描一次。而算法的正確性是由每一個(gè)可能的頻集至少在某一個(gè)分塊中是頻集保證的。該算法是可以高度并行的,可以把每一分塊分別分配給某一個(gè)處理器生成頻集。產(chǎn)生頻集的每一個(gè)循環(huán)結(jié)束后,處理器之間進(jìn)行通信來產(chǎn)生全局的候選k-項(xiàng)集。本次實(shí)驗(yàn)的目的,是通過利用Weka中提供的Apriori算法對(duì)““bank-data-final.arff””進(jìn)行關(guān)聯(lián)規(guī)則分析,更深刻的理解FP-樹頻集算法,并通過對(duì)實(shí)驗(yàn)結(jié)果進(jìn)行觀察分析,找出實(shí)驗(yàn)中所存在的問題。2.數(shù)據(jù)的準(zhǔn)備及預(yù)處理原始數(shù)據(jù)““bank-data-final.arff””已經(jīng)是Weka支持的ARFF文件格式的數(shù)據(jù),因此不需要轉(zhuǎn)換。3.實(shí)驗(yàn)過程及結(jié)果截圖我們打算對(duì)前面的“bank-data”數(shù)據(jù)作關(guān)聯(lián)規(guī)則的分析。用“Explorer”打開“bank-data-final.arff”后,切換到“Associate”選項(xiàng)卡。默認(rèn)關(guān)聯(lián)規(guī)則分析是用Apriori算法,我們就用這個(gè)算法,但是點(diǎn)“Choose”右邊的文本框修改默認(rèn)的參數(shù),彈出的窗口中點(diǎn)“More”可以看到各參數(shù)的說明。參數(shù)設(shè)置

現(xiàn)在我們計(jì)劃挖掘出支持度在10%到100%之間,并且lift值超過1.5且lift值排在前100位的那些關(guān)聯(lián)規(guī)則。我們把“l(fā)owerBoundMinSupport”和“upperBoundMinSupport”分別設(shè)為0.1和1,“metricType”設(shè)為lift,“minMetric”設(shè)為1.5,“numRules”設(shè)為100。其他選項(xiàng)保持默認(rèn)即可?!癘K”之后在“Explorer”中點(diǎn)擊“Start”開始運(yùn)行算法,在右邊窗口顯示數(shù)據(jù)集摘要和挖掘結(jié)果如下:下面是挖掘出來的lift排前5的規(guī)則。1.income='(43758.136667-inf)'80==>age='(50.666667-inf)'save_act=YEScurrent_act=YES61conf:(0.76)<lift:(4.05)>lev:(0.08)conv:(3.25)2.age='(50.666667-inf)'save_act=YEScurrent_act=YES113==>income='(43758.136667-inf)'61conf:(0.54)<lift:(4.05)>lev:(0.08)conv:(1.85)3.age='(50.666667-inf)'save_act=YES151==>income='(43758.136667-inf)'current_act=YES61conf:(0.4)<lift:(3.85)>lev:(0.08)conv:(1.49)4.income='(43758.136667-inf)'current_act=YES63==>age='(50.666667-inf)'save_act=YES61conf:(0.97)<lift:(3.85)>lev:(0.08)conv:(15.72)5.income='(43758.136667-inf)'80==>age='(50.666667-inf)'save_act=YES76conf:(0.95)<lift:(3.77)>lev:(0.09)conv:(11.97)4.實(shí)驗(yàn)結(jié)果分析4.1實(shí)驗(yàn)結(jié)果下面對(duì)實(shí)驗(yàn)結(jié)果進(jìn)行解釋。Lift(提升度):P(L,R)/(P(L)P(R))

Lift=1時(shí)表示L和R獨(dú)立。這個(gè)數(shù)越大,越表明L和R存在在一個(gè)購(gòu)物籃中不是偶然現(xiàn)象。

Leverage(杠桿效率,影響力):P(L,R)-P(L)P(R)

它和Lift的含義差不多。Leverage=0時(shí)L和R獨(dú)立,Leverage越大L和R的關(guān)系越密切。

Conviction(確信):P(L)P(!R)/P(L,!R)(!R表示R沒有發(fā)生)

Conviction也是用來衡量L和R的獨(dú)立性。從它和lift的關(guān)系(對(duì)R取反,代入Lift公式后求倒數(shù))可以看出,我們也希望這個(gè)值越大越好。所得實(shí)驗(yàn)結(jié)果為lift值超過1.5且lift值排在前100位的那些關(guān)聯(lián)規(guī)則。數(shù)據(jù)中含600個(gè)實(shí)例,十一個(gè)屬性,進(jìn)行了18輪搜索,提升度大于1,2,3,4,5的高頻項(xiàng)目集分別為28,232,524,277,33.第一個(gè)規(guī)則表示:收入在43758元以上的人百分之七十六年齡在50.67歲以上,且有存款及有活期存款賬戶。第二個(gè)規(guī)則表示:年齡在50.67歲以上,且有存款及有活期存款賬戶的人百分之五十四收入在43758元以上。……5實(shí)驗(yàn)總結(jié)以上分析Apriori在weke中的實(shí)現(xiàn)雖然只是整個(gè)weke中的一部

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論