版權說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權,請進行舉報或認領
文檔簡介
Weka系統(tǒng)中的關聯(lián)規(guī)則1.Apriori2.PredictiveApriori3.Terius《Weka關聯(lián)規(guī)則解析》課件共26頁,您現(xiàn)在瀏覽的是第1頁!關聯(lián)規(guī)則的基本概念
設I={i1,i2,…,im}是所有數(shù)據(jù)項的集合,相當于商品的所有種類的集合。設任務相關的數(shù)據(jù)D是數(shù)據(jù)庫所有事務的集合,其中每個事務T是數(shù)據(jù)項的集合,使得。每一個事務有一個標識符,稱作TID。設A是一個項集,事務T包含A當且僅當。關聯(lián)規(guī)則是形如的蘊涵式,其中,,并且。規(guī)則在事務集D中成立,具有支持度s,其中s是D中事務包含(即A和B二者)的百分比。它是概率P()。規(guī)則在事務集D中具置信度c,如果D中包含A的事務同時也包含B的百分比是c。這是條件概率P(B|A)。即是
Support(A=>B)=P(AUB)Confidence(A=>B)=P(B|A)。同時滿足最小支持度閾值(min_sup)和最小置信度閾值(min_conf)的規(guī)則稱作強關聯(lián)規(guī)則?!禬eka關聯(lián)規(guī)則解析》課件共26頁,您現(xiàn)在瀏覽的是第2頁!Apriori算法綜述
經(jīng)典的頻集算法
Agrawal等于1994年提出了一個挖掘顧客交易數(shù)據(jù)庫中項集間的關聯(lián)規(guī)則的重要方法,其核心是基于兩個階段頻繁集思想的遞推算法。所有支持度大于最小支持度的項集稱為頻繁項集,簡稱頻集。算法的基本思想首先找出所有的頻繁集,這些項集出現(xiàn)的頻繁性至少和預定義的最小支持度一樣。然后由頻繁集產(chǎn)生強關聯(lián)規(guī)則,這些規(guī)則必須滿足最小支持度和最小可信度。
《Weka關聯(lián)規(guī)則解析》課件共26頁,您現(xiàn)在瀏覽的是第3頁!Procedureapriori_gen(Lk-1,min_sup)(1)foreachl1∈Lk-1(2)foreachl2∈Lk-1
(3)if(l1[1]=l2[1])∧…∧(l1[k-2]=l2[k-2])∧(l1[k-1]=l2[k-1]){(4)c=l1joinl2;//將兩個項集連接到一起(5)ifhas_infrequent_itemset(c,Lk-1)(6)deletec;//除去不可能產(chǎn)生頻繁項集的候選(7)elseCk=Ck{c};(8)}(9)ReturnCk;procedurehas_infrequent_subset(c,Lk-1)(1)foreach(k-1)-subsetsofc(2)ifsLk-1returnTRUE;elsereturnFALSE;《Weka關聯(lián)規(guī)則解析》課件共26頁,您現(xiàn)在瀏覽的是第4頁!PredictiveApriori算法將置信度和支持度合并為預測精度而成為單一度測量法找出經(jīng)過預測精度排序的關聯(lián)規(guī)則《Weka關聯(lián)規(guī)則解析》課件共26頁,您現(xiàn)在瀏覽的是第5頁!實例:期貨市場與現(xiàn)貨市場之間的關聯(lián)性研究
源數(shù)據(jù)介紹數(shù)據(jù)是2004年1月到2006年8月的小麥期貨市場和現(xiàn)貨市場的價格,其中期貨市場價格來自鄭州商品交易所,選硬冬白小麥(WT609),價格為每月的收盤價,現(xiàn)貨市場的價格來自國家糧油信息中心,為中等普通小麥市場批發(fā)價格,價格數(shù)值為每個月的下旬平均價。單位均轉換為元/噸?!禬eka關聯(lián)規(guī)則解析》課件共26頁,您現(xiàn)在瀏覽的是第6頁!小麥期貨市場和現(xiàn)貨市場的價格數(shù)據(jù)《Weka關聯(lián)規(guī)則解析》課件共26頁,您現(xiàn)在瀏覽的是第7頁!現(xiàn)貨市場的最高價是2004年3月,價格為1642元/噸,最低價是2004年的1月份,價格為1401元/噸。與期貨市場采用相同的方法進行離散化分箱操作,價差為(1642-1401)/5=48.2,分區(qū)間可得:
[1642,1593.8) 用HC表示;
[1593.8,1545.6)用HMC表示;
[1545.6,1497.4)用MC表示;
[1497.4,1449.2)用MLC表示;
[1449.2,1401]用LC表示。其中C為current,代表現(xiàn)貨市場?!禬eka關聯(lián)規(guī)則解析》課件共26頁,您現(xiàn)在瀏覽的是第8頁!Weka打開數(shù)據(jù)文件《Weka關聯(lián)規(guī)則解析》課件共26頁,您現(xiàn)在瀏覽的是第9頁!使用Apriori進行分析
《Weka關聯(lián)規(guī)則解析》課件共26頁,您現(xiàn)在瀏覽的是第10頁!使用Apriori的調整設置《Weka關聯(lián)規(guī)則解析》課件共26頁,您現(xiàn)在瀏覽的是第11頁!使用Apriori的調整設置調整Apriori參數(shù),將minMitric(最小置信度)從0.9調成0.55。再次運算可得:Bestrulesfound:1.Future=LF3==>Current=LC3conf:(1)2.Current=MLC7==>Future=MLF4conf:(0.57)3.Future=HMF7==>Current=HMC4conf:(0.57)規(guī)則的意義為:如果期貨市場上小麥價格低,那么現(xiàn)貨市場的價格也是低,可信度100%。如果現(xiàn)貨市場上小麥價格中低,那么期貨市場的價格也是中低,可信度57%。如果期貨市場上小麥價格中高,那么現(xiàn)貨市場的價格也是中高,可信度57%。這幾條規(guī)則后也許可以判斷出這兩個價格之間存在著某種的正關聯(lián)關系。但其關聯(lián)程度如何,是否真正有正關聯(lián)便不得而知。《Weka關聯(lián)規(guī)則解析》課件共26頁,您現(xiàn)在瀏覽的是第12頁!
·使用PredictiveApriori進行挖掘Bestrulesfound:1.Future=LF3==>Current=LC3acc:(0.77994)2.Future=HMF7==>Current=HMC4acc:(0.47441)3.Current=MLC7==>Future=MLF4acc:(0.47441)4.Future=MLF10==>Current=LC5acc:(0.45524)5.Current=LC10==>Future=MLF5acc:(0.45524)6.Current=MC3==>Future=MF2acc:(0.45055)7.Current=HMC8==>Future=HMF4acc:(0.44328)8.Future=HF4==>Current=HC2acc:(0.40743)9.Future=HF4==>Current=HMC2acc:(0.40743)10.Current=HC4==>Future=HMF2acc:(0.40743)11.Current=HC4==>Future=HF2acc:(0.40743)12.Future=MLF10==>Current=MLC4acc:(0.3811)13.Current=LC10==>Future=LF3acc:(0.30799)14.Future=HMF7==>Current=HC2acc:(0.30513)15.Current=MLC7==>Future=MF2acc:(0.30513)16.Future=MF8==>Current=LC2acc:(0.28063)17.Future=MF8==>Current=MLC2acc:(0.28063)18.Current=HMC8==>Future=MF2acc:(0.28063)19.Current=HMC8==>Future=HF2acc:(0.28063)20.Current=LC10==>Future=MF2acc:(0.24374)共20條規(guī)則。其中前3條與Apriori的所挖出來的3條規(guī)則類似??梢钥闯?,PredictiveApriori按acc數(shù)值的大小幾乎將所有規(guī)則都挖出來。規(guī)則雖然很多,但并沒有指出期貨市場與現(xiàn)貨市場的關聯(lián)關系?!禬eka關聯(lián)規(guī)則解析》課件共26頁,您現(xiàn)在瀏覽的是第13頁!·使用Terius進行挖掘得出的規(guī)則1./*0.3402600.000000*/Future=LF==>Current=LC2./*0.2917730.093750*/Future=HMF==>Current=HMC3./*0.2850940.125000*/Current=HMC==>Future=HMF4./*0.2588840.218750*/Current=LC==>Future=LF5./*0.2385760.093750*/Current=MLC==>Future=MLF6./*0.2356300.156250*/Current=LC==>Future=MLF7./*0.2356300.156250*/Future=MLF==>Current=LC8./*0.2265940.187500*/Future=MLF==>Current=MLC9./*0.2117750.062500*/Current=HC==>Future=HF10./*0.2117750.062500*/Future=HF==>Current=HC11./*0.2004720.031250*/Current=MC==>Future=MF12./*0.1636360.062500*/Current=HC==>Future=HMFNumberofhypothesesconsidered:70Numberofhypothesesexplored:70Time:00min00s032ms共得出12條規(guī)則。第二條規(guī)則的意思期貨市場價格中高那么現(xiàn)貨市場價格也是中高。第三條規(guī)則反過來了,就是現(xiàn)貨市場價格中高那么期貨市場價格也是中高。規(guī)則很多,但并不是什么重要的信息?!禬eka關聯(lián)規(guī)則解析》課件共26頁,您現(xiàn)在瀏覽的是第14頁!Apriori核心算法分析為生成所有頻繁集,使用了遞推的方法。其核心思想簡要描述如下:
輸入:交易數(shù)據(jù)庫D,最小支持閾值min_sup;輸出:Li,D中的頻繁項集;方法:(1)L1=find_frequent_1_itemset(D);//發(fā)現(xiàn)1-項集(2)For(k=2;Lk-1≠?;k++){(3)Ck=apriori_gen(Lk-1,min_sup);//根據(jù)頻繁(k-1)-項集產(chǎn)生候選k-項集(4)Foreacht∈D{//掃描數(shù)據(jù)庫,確定每個候選集的支持頻度(5)Ct=subset(Ck,t);//獲得t所包含的候選項集(6)Foreachc∈Ctc.count++;(7)}(8)Lk={c∈Ct|c.count>min_sup};(9)ReturnL=UkLk;《Weka關聯(lián)規(guī)則解析》課件共26頁,您現(xiàn)在瀏覽的是第15頁!Apriori算法的第(1)步就是發(fā)現(xiàn)頻繁1-項集L1;在第(2)至第(8)步,利用Lk-1產(chǎn)生Ck以便獲得Lk。apriori_gen過程產(chǎn)生相應的候選項集;然后利用Apriori性質刪除那些子集為非頻繁項集的候選項集(第(3)步)。一但產(chǎn)生所有候選,就要掃描數(shù)據(jù)庫(第(4)步),對于數(shù)據(jù)庫中的每個交易利用subset函數(shù)來幫助發(fā)現(xiàn)該交易記錄的所有(已成為候選項集)的子集(第(5)步),由此累計每個候選項集的支持頻度(第(6)步)。最終滿足最小支持頻度的候選項集組成了頻繁項集L。這樣可以利用一個過程來幫助從所獲得頻繁項集中生成所有的關聯(lián)規(guī)則。Apriori過程完成兩種操作,那就是連接和消減操作。在連接過程中,Lk-1與Lk-1相連接以產(chǎn)生潛在候選項集(Apriori算法中的第(1)步至第(4)步);消減過程中(Apriori算法中的第(5)步至第(6)步)利用Apriori性質消除候選項集中那些子集為非頻繁項集的項集。可能產(chǎn)生大量的候選集,以及可能需要重復掃描數(shù)據(jù)庫,是Apriori算法的兩大缺點?!禬eka關聯(lián)規(guī)則解析》課件共26頁,您現(xiàn)在瀏覽的是第16頁!Terius算法根據(jù)確認度來尋找規(guī)則,它與Apriori一樣尋找其結論中含有多重條件的規(guī)則,但不同的是這些條件相互間是‘或’,而不是‘與’的關系?!禬eka關聯(lián)規(guī)則解析》課件共26頁,您現(xiàn)在瀏覽的是第17頁!數(shù)據(jù)預處理
WEKA數(shù)據(jù)挖掘平臺上的關聯(lián)規(guī)則挖掘算法有三種,分別是Apriori、PredictiveApriori和Terius,這三個算法均不支持數(shù)值型數(shù)據(jù)。事實上,絕大部分的關聯(lián)規(guī)則算法均不支持數(shù)值型。所以必須將數(shù)據(jù)進行處理,將數(shù)據(jù)按區(qū)段進行劃分,進行離散化分箱處理。《Weka關聯(lián)規(guī)則解析》課件共26頁,您現(xiàn)在瀏覽的是第18頁!期貨市場的最高價是2004年9月,價格為1700元/噸,最低價是2006年6月,價格為1266元/噸。根據(jù)實際情況和業(yè)務需求,將價格按高低分為5個部分,分別為高、中高、中、中低和低。其劃分方法是:將最高價減去最低價再除以5,得價差。即(1700-1266)/5=86.8。將最高價減去價差,得區(qū)間最低值,即1700-86.8=1613.2。將區(qū)間最低值減去價差,得第二區(qū)間最低值,即1613.2-86.8=1526.4。依步驟3,得第三區(qū)間最低值1439.6和第四區(qū)間最低值1352.8。每個區(qū)間的最低值為下一區(qū)間的最高值。這樣就可以分為[1700,1613.2),[1613.2,1526.4),[1526.4,1439.6),[1439.6,1352.8),[1352.8,1266]。分別用HF,HMF,MF,MLF,LF表示,其中H為high,代表高,M為medium代表中,L為low,代表低。
F為future,代表期貨市場?!禬eka關聯(lián)規(guī)則解析》課件共26頁,您現(xiàn)在瀏覽的是第19頁!離散化分箱后數(shù)據(jù)文件《Weka關聯(lián)規(guī)則解析》課件共26頁,您現(xiàn)在瀏覽的是第20頁!刪除不需要的屬性《Weka關聯(lián)規(guī)則解析》課件共26頁,您現(xiàn)在瀏覽的是第21頁!使用Apriori進行分析
Apri
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經(jīng)權益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025年度船舶安全技術評估與認證合同范本20253篇
- 2025年度現(xiàn)代農(nóng)業(yè)示范區(qū)土地租賃合作框架協(xié)議3篇
- 2025年度文化遺產(chǎn)保護與修復承包協(xié)議3篇
- 2024模特時裝秀參與合同范本3篇
- 2024年版大數(shù)據(jù)中心建設運營合同
- 2024拖車合同協(xié)議書
- 專業(yè)化危險品道路運輸協(xié)議模板2024年版
- 2024招投標保密協(xié)議范本:跨境電商平臺招投標保密范本3篇
- 專業(yè)塊石運輸車輛服務協(xié)議2024修訂版版B版
- 2024新能源發(fā)電項目特許經(jīng)營協(xié)議
- 2025年工程合作協(xié)議書
- 2025年宜賓人才限公司招聘高頻重點提升(共500題)附帶答案詳解
- 2024年電商平臺入駐服務合同
- 2024年度政府采購代理服務合同-醫(yī)療衛(wèi)生設備采購項目3篇
- 聲光影的內(nèi)心感動:電影視聽語言學習通超星期末考試答案章節(jié)答案2024年
- 口腔科診斷證明書模板
- 期中考試質量分析PPT.ppt
- 管溝挖槽土方計算公式
- 冷軋輥激光毛化工藝簡介
- 成本核算-石油化工
- 煙花爆竹零售應急預案
評論
0/150
提交評論