




已閱讀5頁,還剩17頁未讀, 繼續(xù)免費(fèi)閱讀
版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
2019/7/6,1,6.3 關(guān)聯(lián)算法,2019/7/6,2,購物籃分析 一個(gè)引發(fā)關(guān)聯(lián)規(guī)則挖掘的典型例子,2019/7/6,3,應(yīng)用:購物分析,市場購物分析結(jié)果將幫助商場內(nèi)商品應(yīng)如何合理擺放進(jìn)行規(guī)劃設(shè)計(jì)。 其中一種策略就是將常常一起購買的商品擺放在相鄰近的位置,以方便顧客同時(shí)購買這兩件商品;如:如果顧客購買電腦的同時(shí)常也會(huì)購買一些金融管理類軟件,那么將電腦軟件擺放在電腦硬件附近顯然將有助于促進(jìn)這兩種商品的銷售。 而另一種策略則是將電腦軟件與電腦硬件分別擺放在商場的兩端,這就會(huì)促使顧客在購買兩種商品時(shí),走更多的路從而達(dá)到誘導(dǎo)他們購買更多商品的目的。比如:顧客在決定購買一臺昂貴電腦之后,在去購買相應(yīng)金融管理軟件的路上可能會(huì)看到安全系統(tǒng)軟件,這時(shí)他就有可能購買這一類軟件。 市場購物分析可以幫助商場主管確定那些物品可以進(jìn)行捆綁減價(jià)銷售,如一個(gè)購買電腦的顧客很有可能購買一個(gè)捆綁減價(jià)銷售的打印機(jī)。,2019/7/6,4,關(guān)聯(lián)規(guī)則的概念,超市中客戶在購買A的同時(shí),經(jīng)常會(huì)購買B,即A=B(關(guān)聯(lián)規(guī)則) 客戶在購買A后,隔了一段時(shí)間后會(huì)購買B(序列分析) “90%的客戶在購買面包時(shí)也會(huì)購買牛奶” “啤酒與尿布” “買外套=買鞋子” ,2019/7/6,5,關(guān)聯(lián)規(guī)則挖掘,關(guān)聯(lián)規(guī)則挖掘就是從大量的數(shù)據(jù)中挖掘出有價(jià)值描述數(shù)據(jù)項(xiàng)之間相互聯(lián)系的有關(guān)知識。 隨著收集和存儲在數(shù)據(jù)庫中的數(shù)據(jù)規(guī)模越來越大,人們對這些數(shù)據(jù)中挖掘相應(yīng)的關(guān)聯(lián)知識越來越有興趣。 例如:從大量的商業(yè)交易記錄中發(fā)現(xiàn)有價(jià)值的關(guān)聯(lián)知識就可幫助進(jìn)行商品目錄的設(shè)計(jì)、交叉營銷或幫助進(jìn)行其它有關(guān)的商業(yè)決策。 在數(shù)據(jù)挖掘的知識模式中,關(guān)聯(lián)規(guī)則是比較重要的一種。 關(guān)聯(lián)規(guī)則模式屬于描述型模式,發(fā)現(xiàn)關(guān)聯(lián)規(guī)則的算法屬于無監(jiān)督學(xué)習(xí)的方法。,2019/7/6,6,基本概念:關(guān)聯(lián)規(guī)則、支持度、置信度(P145),設(shè)I=i1,i2,im是項(xiàng)目集,其中的元素im稱為項(xiàng),D是全體事務(wù)的集合,事務(wù)T是I上的一個(gè)子集,集合TI,每個(gè)事務(wù)有唯一的TID標(biāo)識。設(shè)X是一個(gè)項(xiàng)集,事務(wù)T包含X當(dāng)且僅當(dāng)XT ,關(guān)聯(lián)規(guī)則就是形如X=Y的蘊(yùn)含式,其中XI,YI且XY =,X稱為規(guī)則的條件,Y稱為規(guī)則的結(jié)果。關(guān)聯(lián)規(guī)則設(shè)定兩項(xiàng)約束:支持度Supp和可信度Conf。 (1)支持度s:support(X=Y)=P(XY) P(XY):X和Y這兩個(gè)項(xiàng)目集在事務(wù)集D中同時(shí)出現(xiàn)的概率 (2)置信度c:confidence(X=Y)= P(YX) P(YX) :在出現(xiàn)項(xiàng)目集X的事務(wù)集D中,項(xiàng)目集Y也同時(shí)出現(xiàn)的概率 (3)關(guān)聯(lián)規(guī)則X=Y成立的條件是:它具有支持度,即事務(wù)集D中至少有s%的事務(wù)包含XY;它具有置信度,即事務(wù)集D中包含X的事務(wù)至少有c%同時(shí)也包含Y 強(qiáng)規(guī)則:滿足最小支持度閾值(minsup)和最小置信度閾值(minconf)的規(guī)則(用0%和100%之間的值而不是用0到1之間的值表示),2019/7/6,7,什么是關(guān)聯(lián)挖掘?,關(guān)聯(lián)規(guī)則挖掘: 在交易數(shù)據(jù)、關(guān)系數(shù)據(jù)或其他信息載體中,查找存在于項(xiàng)目集合或?qū)ο蠹现g的頻繁模式、關(guān)聯(lián)、相關(guān)性、或因果結(jié)構(gòu)。 應(yīng)用: 購物籃分析、交叉銷售、產(chǎn)品目錄設(shè)計(jì)、聚集、分類、lossleader analysis等 舉例:規(guī)則形式:,2019/7/6,8,應(yīng)用:進(jìn)行關(guān)聯(lián)分析,2019/7/6,9,關(guān)聯(lián)的挖掘過程,挖掘關(guān)聯(lián)規(guī)則的問題的處理過程分為兩步: (1)發(fā)現(xiàn)頻繁項(xiàng)目集。通過用戶給定的最小支持度尋找所有頻繁項(xiàng)集,即找出所有支持度不低于用戶指定的最小支持度的項(xiàng)目集。事實(shí)上這些頻繁項(xiàng)目集可能具有包含關(guān)系,一般我們只關(guān)心那些不被其他頻繁項(xiàng)目集所包含的,所謂頻繁大項(xiàng)目集的集合,這些頻繁大項(xiàng)目集是形成關(guān)聯(lián)規(guī)則的基礎(chǔ)。 (2)生成關(guān)聯(lián)規(guī)則。通過用戶給定的最小可信度在每個(gè)最大頻繁項(xiàng)目集中尋找可信度不小于給定的最小可信度的關(guān)聯(lián)規(guī)則。,所有支持度大于最小支持度的項(xiàng)集稱為頻繁項(xiàng)集(頻集),2019/7/6,10,關(guān)聯(lián)規(guī)則的優(yōu)缺點(diǎn),優(yōu)點(diǎn) 可以產(chǎn)生清晰有用的結(jié)果; 支持間接數(shù)據(jù)挖掘; 可以處理變長的數(shù)據(jù); 計(jì)算的消耗量是可以預(yù)見的; 缺點(diǎn) 當(dāng)問題變大時(shí),計(jì)算量增長得厲害; 難以決定正確的數(shù)據(jù); 容易忽略離群數(shù)據(jù);,2019/7/6,11,簡單形式的關(guān)聯(lián)規(guī)則算法,幾個(gè)經(jīng)典的關(guān)聯(lián)挖掘算法 Apriori算法 抽樣算法 DIC算法 Apriori算法是最經(jīng)典的關(guān)聯(lián)規(guī)則挖掘算法,是由R.Agrawal等人于1993年首先提出的,其核心方法是基于頻集理論的遞推方法。,2019/7/6,12,Apriori算法,算法的基本思想:Apriori算法的中心思想是首先通過對事務(wù)數(shù)據(jù)庫進(jìn)行掃描,找出支持度不小于最小支持度的所有項(xiàng)目,即頻繁1-項(xiàng)集。然后循環(huán)執(zhí)行以下三步: 對頻繁k-項(xiàng)集中的項(xiàng)進(jìn)行連接,前提條件是前k-1項(xiàng)必須相同。 進(jìn)行減枝,利用Apriori性質(zhì)對連接后的項(xiàng)目集進(jìn)行篩選,刪除那些子集不是頻繁集的項(xiàng)目集,得出候選(k+1)-項(xiàng)集。 對數(shù)據(jù)庫進(jìn)行掃描,計(jì)算候選項(xiàng)的支持度,從候選集中刪除支持度小于最小支持度的候選項(xiàng),進(jìn)而得出頻繁(k+1)-項(xiàng)集。依此類推,直到不能找到頻繁項(xiàng)集為止,也即頻繁k-項(xiàng)集為空。,2019/7/6,13,Apriori核心算法表示,輸入:事務(wù)數(shù)據(jù)庫D,最小支持度閾值minsup。 輸出:D中的頻繁項(xiàng)集L。 (1) 在第一次掃描中,對D中每一個(gè)數(shù)據(jù)項(xiàng)計(jì)算其支持度,確定出滿足最小支持度的1頻繁項(xiàng)集集合L1。 (2) 利用已經(jīng)生成的Lk -1自身連接,得到候選k項(xiàng)集的集合Ck。 (3) 然后掃描數(shù)據(jù)庫,計(jì)算這些候選集的支持度。 (4) 對候選k項(xiàng)集Ck進(jìn)行剪枝。掃描Ck,計(jì)算這些候選項(xiàng)集的支持度,刪除支持度低于用戶給定最小支持度閾值minsup的項(xiàng)目集,最后,生成所有長度為k的頻繁項(xiàng)集Lk。 (5) 重復(fù)(2)(4),直到Lk為空。 (6) 對L1到Lk取并集,即為最終的頻繁集L。,2019/7/6,14,Apriori算法例子,【例1】假設(shè)數(shù)據(jù)庫中有9個(gè)事務(wù),即D=9,Apriori假定事務(wù)中的項(xiàng)按字典次序存放。利用Apriori算法尋找D中的頻繁項(xiàng)集。,事務(wù)集合D,首先掃描D,對每個(gè)候選項(xiàng)計(jì)數(shù)得到候選1項(xiàng)集的集合C1,候選1項(xiàng)集的集合C1,2019/7/6,15,候選1項(xiàng)集的集合C1,將支持度計(jì)數(shù)結(jié)果與最小支持度進(jìn)行比較,保留滿足最小支持度的項(xiàng),得到頻繁1項(xiàng)的集合L1。,頻繁1項(xiàng)集的集合L1,設(shè)最小支持度閾值為20(即在9行中,至少出現(xiàn)兩次),2019/7/6,16,事務(wù)集合D,繼續(xù)掃描D,產(chǎn)生候選2項(xiàng)集的集合C2,并對每個(gè)候選項(xiàng)計(jì)數(shù),候選2項(xiàng)集的集合C2,2019/7/6,17,將支持度計(jì)數(shù)結(jié)果與最小支持度進(jìn)行比較,保留滿足最小支持度的項(xiàng),得到頻繁2項(xiàng)的集合L2,候選2項(xiàng)集的集合C2,頻繁2項(xiàng)的集合L2,2019/7/6,18,事務(wù)集合D,繼續(xù)掃描D,產(chǎn)生候選3項(xiàng)集的集合C3,并連續(xù)剪枝,得到頻繁3項(xiàng)的集合L3,候選3項(xiàng)集的集合C3,頻繁3項(xiàng)的集合L3,C4=,因此算法由于無法發(fā)現(xiàn)新的項(xiàng)集而結(jié)束,對L1到L3取并集,即為最終的頻繁集L,2019/7/6,19,從頻繁項(xiàng)集產(chǎn)生關(guān)聯(lián)規(guī)則,當(dāng)從數(shù)據(jù)庫D的事務(wù)中找出頻繁項(xiàng)集后,很容易產(chǎn)生強(qiáng)關(guān)聯(lián)規(guī)則(強(qiáng)關(guān)聯(lián)規(guī)則滿足最小支持度和最小置信度)。對于置信度,可以用下式來計(jì)算,其中條件概率用項(xiàng)集支持度計(jì)數(shù)表示。,根據(jù)該式,關(guān)聯(lián)規(guī)則可以產(chǎn)生如下:,support_count(XY)是包含項(xiàng)集XY的事務(wù)數(shù)support_count(X)是包含項(xiàng)集X的事務(wù)數(shù),(1) 對于每個(gè)頻繁項(xiàng)集l,產(chǎn)生l的所有非空子集; (2) 對于l的每個(gè)非空子集,如果 則輸出規(guī)則 其中,minconf是最小置信度閾值。,2019/7/6,20,【例】基于例1的事務(wù)數(shù)據(jù)庫,假定數(shù)據(jù)包含頻繁項(xiàng)集,設(shè)最小置信度閾值為70%。試根據(jù)以上關(guān)聯(lián)規(guī)則原理,產(chǎn)生強(qiáng)規(guī)則。,2,2019/7
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 閥門工程師(球閥)考試試卷及答案
- 2025年健腹椅項(xiàng)目合作計(jì)劃書
- 2025年地質(zhì)勘探和地震專用儀器項(xiàng)目合作計(jì)劃書
- 2025年山西省政府研究室下屬事業(yè)單位招聘考試筆試試題【答案】
- 2025年事業(yè)單位招聘考試公共基礎(chǔ)知識模擬試卷題庫(三套)【答案】
- 2025年中新天津生態(tài)城教育系統(tǒng)招聘教職人員考試試題【答案】
- 消費(fèi)趨勢與地區(qū)差異分析:新型消費(fèi)模式與市場動(dòng)態(tài)
- 消防月消防知識競賽選題庫6
- 老齡員工工作述職報(bào)告范文
- 箱梁預(yù)制場建設(shè)施工方案
- 2024四川廣元市檢察機(jī)關(guān)招聘聘用制書記員22人筆試備考題庫及答案解析
- 二維材料在柔性電子中的應(yīng)用研究
- 內(nèi)科患者VTE風(fēng)險(xiǎn)評估表
- 一年級上冊美術(shù)教案-第1課 讓大家認(rèn)識我:誠實(shí)最好 ▏人美版
- 科學(xué)認(rèn)識天氣智慧樹知到期末考試答案2024年
- (高清版)DZT 0064.15-2021 地下水質(zhì)分析方法 第15部分:總硬度的測定 乙二胺四乙酸二鈉滴定法
- 心理體檢收費(fèi)目錄
- 雅魯藏布江米林-加查段沿線暴雨泥石流危險(xiǎn)度評價(jià)的中期報(bào)告
- 抗生素的正確使用與合理配比
- 讀書分享讀書交流會(huì)《局外人》課件
- 第十六章-常見骨關(guān)節(jié)疾病評定技術(shù)-2肩周炎評定
評論
0/150
提交評論