下載本文檔
版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認(rèn)領(lǐng)
文檔簡介
1、數(shù)據(jù)挖掘之關(guān)聯(lián)算法本小組所尋案例,與數(shù)據(jù)挖掘的關(guān)聯(lián)算法相關(guān)。即通過一定的關(guān)聯(lián)算法,找出數(shù)據(jù)庫中 隱藏的關(guān)聯(lián)網(wǎng)。數(shù)據(jù)關(guān)聯(lián)是數(shù)據(jù)庫中存在的一類重要的可被發(fā)現(xiàn)的知識。若兩個或多個變量 的取值之間存在某種規(guī)律性,就稱為關(guān)聯(lián)。關(guān)聯(lián)算法之中,有兩個重要概念:支持度和置信度。支持度(Support),也就是數(shù)據(jù)集中包含某幾個特定項的概率。比如在1000次的商品 交易中同時出現(xiàn)了啤酒和尿布的次數(shù)是50次,那么此關(guān)聯(lián)的支持度為5%。置信度(Confidence),也就是在數(shù)據(jù)集中已經(jīng)出現(xiàn)A時,B發(fā)生的概率,是一種條件概 率。支持度和置信度是描述關(guān)聯(lián)規(guī)則的兩個最重要的概念。一項目組出現(xiàn)的頻率稱為支持度, 反映關(guān)聯(lián)
2、規(guī)則在數(shù)據(jù)庫中的重要性。而置信度衡量關(guān)聯(lián)規(guī)則的可信程度。如果某條規(guī)則同時 滿足最小支持度(min-support)和最小置信度(min-confidence),則稱它為強關(guān)聯(lián)規(guī)則。簡單舉例。就“啤酒+尿布”這個案例而言,在進行資料挖掘時,首先必須設(shè)定最小支持 度與最小可信度兩個門檻值,假定設(shè)為最小支持度5%、最小可信度65%。即是說,只要滿 足,在所有交易記錄中,至少有5%的交易同時購買了啤酒和尿布,且在在所有包含尿布的 交易記錄資料中,至少有65%的交易會同時購買啤酒。則我們可以認(rèn)為,啤酒和尿布具備關(guān) 聯(lián)規(guī)則。關(guān)聯(lián)規(guī)則的發(fā)現(xiàn)過程可分為如下兩步:第一步是迭代識別所有的頻繁項目集,要求頻繁項目集
3、的支持度不低于用戶設(shè)定的最低 值;第二步是從頻繁項目集中構(gòu)造置信度不低于用戶設(shè)定的最低值的規(guī)則,產(chǎn)生關(guān)聯(lián)規(guī)則。 識別或發(fā)現(xiàn)所有頻繁項目集是關(guān)聯(lián)規(guī)則發(fā)現(xiàn)算法的核心,也是計算量最大的部分。關(guān)聯(lián)規(guī)則挖掘的一個典型例子是購物籃分析。關(guān)聯(lián)規(guī)則研究有助于發(fā)現(xiàn)交易數(shù)據(jù)庫中不 同商品(項)之間的聯(lián)系,找出顧客購買行為模式,如購買了某一商品對購買其他商品的影 響。分析結(jié)果可以應(yīng)用于商品貨架布局、貨存安排以及根據(jù)購買模式對用戶進行分類。案例采用Apriori算法進行關(guān)聯(lián)分析。從一家公司的銷售記錄中我們找到以下8條消費記錄,并以3作為最小支持度,也就是 說出現(xiàn)頻率在3次以下的記錄是被我們所忽略的。交易標(biāo)號銷售內(nèi)容1
4、牛奶、冰淇淋、果醬、面包2冰淇淋、果醬、面包、咖啡3牛奶、面包、果醬4牛奶、咖啡5牛奶、面包、巧克力6冰淇淋、面包、咖啡7牛奶、果醬、面包、香蕉8咖啡、面包、葡萄所有滿足最小支持度3的1項頻集如下,其中的支持度是指該產(chǎn)品在整個數(shù)據(jù)集中出 現(xiàn)的次數(shù)。比如牛奶出現(xiàn)了5次,而冰淇淋出現(xiàn)了3次。支持度銷售內(nèi)容5牛奶3冰淇淋4果醬3咖啡6面包遞歸執(zhí)行,所有滿足最小支持度3的2項頻集如下,這其中出現(xiàn)最多的頻集是牛奶, 面包和面包,果醬各自出現(xiàn)了4次。(所謂2項頻集,即將一項頻集中的各項目再次 兩兩組合,如形成牛奶、冰淇淋牛奶、果醬牛奶、咖啡牛奶、面包冰淇淋、果醬等 等,最終挑選出支持度3的頻集,即如下表所示。)支持度銷售內(nèi)容3面包、咖啡4牛奶、面包3冰淇淋、面包4面包、果醬6面包再次遞歸執(zhí)行,所有滿足最小支持度3的3項頻集只剩下一條,此時已無法繼續(xù)迭代運 算,故結(jié)束算法。支持度銷售內(nèi)容3牛奶、果醬、面包那么牛奶,果醬
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 單詞卡印刷品產(chǎn)業(yè)鏈招商引資的調(diào)研報告
- 個人用紙香皂產(chǎn)品供應(yīng)鏈分析
- 商業(yè)評估行業(yè)經(jīng)營分析報告
- 用戶可編程的未配置擬人機器人細分市場深度研究報告
- 發(fā)掘領(lǐng)域的研究行業(yè)經(jīng)營分析報告
- 基金投資咨詢行業(yè)市場調(diào)研分析報告
- 大米拋光機產(chǎn)品供應(yīng)鏈分析
- 冷熱飲料機出租行業(yè)營銷策略方案
- 移動無線電話細分市場深度研究報告
- 家用電動水果榨汁機產(chǎn)品供應(yīng)鏈分析
- 護士如何提高自己的專業(yè)知識和技能
- 《積木世界:創(chuàng)造和建造》
- 水利工程監(jiān)理工作程序
- 醫(yī)學(xué)影像診斷學(xué)-教案
- 小學(xué)語文單元教學(xué)內(nèi)容整合策略
- 血液及骨髓細胞形態(tài)學(xué)專項考核試題
- 水稻高產(chǎn)栽培技術(shù)的優(yōu)化研究
- 海洋牧場建設(shè)與規(guī)劃
- 律師執(zhí)業(yè)風(fēng)險及防范措施
- 急性腎損傷完
- 社區(qū)矯正人員居住地變更申請書
評論
0/150
提交評論