商務(wù)智能理論與應(yīng)用7-關(guān)聯(lián)規(guī)則_第1頁
商務(wù)智能理論與應(yīng)用7-關(guān)聯(lián)規(guī)則_第2頁
商務(wù)智能理論與應(yīng)用7-關(guān)聯(lián)規(guī)則_第3頁
商務(wù)智能理論與應(yīng)用7-關(guān)聯(lián)規(guī)則_第4頁
商務(wù)智能理論與應(yīng)用7-關(guān)聯(lián)規(guī)則_第5頁
已閱讀5頁,還剩31頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

1關(guān)聯(lián)規(guī)則2023/2/2一、關(guān)聯(lián)規(guī)則的定義2關(guān)聯(lián)規(guī)則一般用以發(fā)現(xiàn)事務(wù)數(shù)據(jù)庫中不同商品(項)之間的聯(lián)系,用這些規(guī)則找出顧客的購買行為模式。這種規(guī)則可以應(yīng)用于超市商品貨架設(shè)計、貨物擺放以及根據(jù)購買模式對用戶進行分類。2023/2/23二、關(guān)聯(lián)規(guī)則:基本概念(一)支持度與置信度AA∩BB買尿布的客戶二者都買的客戶買啤酒的客戶2023/2/2置信度confidence(.):是指購物籃分析中有了左邊商品,同時又有右邊商品的交易次數(shù)百分比,也就是說在所有的購買了左邊商品的交易中,同時又購買了右邊商品的交易概率。

41、置信度2023/2/22、支持度支持度sup(.):表示在購物籃分析中同時包含關(guān)聯(lián)規(guī)則左右兩邊物品的交易次數(shù)百分比,即支持這個規(guī)則的交易的次數(shù)百分比。52023/2/2例:6對于規(guī)則ACsupport=support({A,

C})=50%confidence=support({A,

C})/support({A})=66.6%2023/2/2交易項目成交次數(shù)夾克,球鞋300滑雪衫,球鞋100夾克,滑雪衫,球鞋100球鞋50慢跑鞋40夾克,慢跑鞋100滑雪衫,慢跑鞋200襯衣10夾克40滑雪衫60合計10007表1運動鞋Y1單獨購買合計球鞋Y11慢跑鞋Y12上衣X襯衣X11010外套X2夾克X2140010040540滑雪衫X2220020060460單獨購買5040合計65034010008表2規(guī)則“夾克→球鞋”的計算92023/2/2運動鞋Y1單獨購買合計球鞋Y11慢跑鞋Y12上衣X襯衣X11010外套X2夾克X211001滑雪衫X2218980899單獨購買090090合計298810100010表3存在的問題:111.高置信度,低支持度:夾克球鞋”的置信度高達100%,但因為只有一人買了球鞋,這條關(guān)聯(lián)規(guī)則支持度只有千分之一。2.支持度、置信度都比較高,但幾乎是沒有作用的規(guī)則。“買方便面則買牛奶”,“買牙刷則買牛奶”,“喜歡野外休閑則會買牛奶”。2023/2/2121、關(guān)聯(lián)規(guī)則的分類二、關(guān)聯(lián)規(guī)則的分類與作用2023/2/2布爾型關(guān)聯(lián)規(guī)則與數(shù)值型關(guān)聯(lián)規(guī)則布爾型關(guān)聯(lián)規(guī)則處理的值都是離散的、種類化的,它顯示了這些變量之間的關(guān)系;數(shù)值型關(guān)聯(lián)規(guī)則可以和多維關(guān)聯(lián)或多層關(guān)聯(lián)規(guī)則結(jié)合起來,對數(shù)值型字段進行處理,將其進行動態(tài)的分割,或者直接對原始的數(shù)據(jù)進行處理,當然數(shù)值型關(guān)聯(lián)規(guī)則中也可以包含種類變量。2023/2/213如果關(guān)聯(lián)規(guī)則中的項或?qū)傩悦總€只涉及一個維,則它是單維關(guān)聯(lián)規(guī)則;反之,為多維關(guān)聯(lián)規(guī)則。如,計算機→財務(wù)軟件;年齡30~39歲、月收入4000元以上→高清電視如果在給定的規(guī)則集中,規(guī)則不涉及不同抽象層的項或?qū)傩?,就稱單層關(guān)聯(lián)規(guī)則;反之,稱多層。142023/2/22、關(guān)聯(lián)規(guī)則的作用15購物籃分析:關(guān)聯(lián)規(guī)則就是要找出哪些產(chǎn)品總是會同時出現(xiàn)在客戶的購物籃中。商品擺放,基于商店不同的經(jīng)營理念,如果將會經(jīng)常一起購買的東西較近擺放,客戶會比較方便購買,如果有意放在購物通道的兩端,顧客尋找的過程中可以增加其他物品銷售的可能性。關(guān)聯(lián)規(guī)則可以處理所謂的匿名消費。(一張發(fā)票就是一個購物籃——與決策樹和類神經(jīng)網(wǎng)絡(luò)不同。)關(guān)聯(lián)規(guī)則與時序規(guī)則相結(jié)合(不能匿名,適合會員制)。先找出來哪些事務(wù)總是同時發(fā)生的關(guān)聯(lián)規(guī)則,再加入時間的因素,找出哪些事務(wù)總是會先后發(fā)生的潛在規(guī)律。2023/2/2另外,只有同一個購物籃的商品信息能夠分析的項目也很有限,因此,可以將氣象資訊(溫度、濕度、降雨)等轉(zhuǎn)換為虛擬的商品項目,并入到購物籃中進行關(guān)聯(lián)規(guī)則的分析。如,日本7-11相當著名的“七五三”規(guī)則。即是說如果一天當中溫度相差7度、今天和昨天的溫度差到5度、濕度差大于30%的話,代表感冒的人會增加,藥店就要考慮把感冒藥、溫度計和口罩之類的用品上架。162023/2/2三、

關(guān)聯(lián)規(guī)則的挖掘172023/2/2(一)關(guān)聯(lián)規(guī)則挖掘的步驟第一步:找出所有頻繁項集:根據(jù)定義,這些項集出現(xiàn)的頻繁性(支持度)至少和預(yù)定義的最小支持度一樣。第二步:由頻繁項集產(chǎn)生強關(guān)聯(lián)規(guī)則:根據(jù)定義,這些規(guī)則必須滿足最小支持度和最小置信度。182023/2/219對于一個給定的候選數(shù)據(jù)集,項集的數(shù)目呈指數(shù)增長。2023/2/2(二)Apriori演算法關(guān)聯(lián)規(guī)則計算雖然容易但由于規(guī)則太多容易形成“組合爆炸”,因此,需要對這些規(guī)則進行篩選,篩選需要的統(tǒng)計量如下:最小支持度:規(guī)則必須符合的最小支持度閥值。最小置信度:計算規(guī)則所必須符合的最低置信度閥值。如果關(guān)聯(lián)規(guī)則滿足最小支持度和最小置信度,可以說該規(guī)則是有趣的。202023/2/21、算法所需要的前置統(tǒng)計量:2、頻繁項集項的集合稱為項集(itemset)包含k個項的項集稱為k-項集。集合{計算機,金融管理軟件}就是一個2-項集。項集出現(xiàn)頻數(shù)是包含項集的事務(wù)數(shù),簡稱為項集的頻數(shù)、支持計數(shù)或計數(shù)。212023/2/2如果項集滿足最小支持度或滿足min_sup與數(shù)據(jù)庫中事務(wù)總數(shù)的乘積(即最小支持計數(shù)),則稱它為頻繁項集(frequentitemset)。頻繁k-項集的集合通常記作Lk。2023/2/22223對于A

C:support=support({A、C})=50%confidence=support({A、C})/support({A})=66.6%最小支持度50%最小可信度50%例:2023/2/24、Apriori算法:使用候選項集找頻繁項集Apriori算法是一種最有影響的挖掘布爾關(guān)聯(lián)規(guī)則頻繁項集的算法。算法的名字基于這樣的事實:算法使用頻繁項集性質(zhì)的先驗知識。它使用一種稱作逐層搜索的迭代方法,k-項集用于探索(k+1)-項集。首先,找出頻繁1-項集的集合。該集合記作L1。L1用于找頻繁2-項集的集合L2,而L2用于找L3,如此下去,直到不能找到頻繁k-項集。找每個Lk需要一次數(shù)據(jù)庫掃描。242023/2/2例125數(shù)據(jù)庫D掃描DC1L1L2C2C2掃描DC3L3掃描D2023/2/2為什么只有一項?26例:L3={abc,abd,acd,ace,bcd}連接:L3*L3abcdfromabcandabdacdefromacdandace修剪:acdeisremovedbecauseadeisnotinL3C4={abcd}2023/2/2Apriori——剪枝頻繁項集的任何子集也一定是頻繁的。例3:273、Apriori算法的實現(xiàn)過程282023/2/24、由頻繁項集產(chǎn)生關(guān)聯(lián)規(guī)則一旦找出頻繁項集,再通過最小置信度產(chǎn)生關(guān)聯(lián)規(guī)則。關(guān)聯(lián)規(guī)則的產(chǎn)生步驟如下:對于每個頻繁項集l,產(chǎn)生l的所有非空子集。對于l的每個非空子集s,如果則輸出規(guī)則“s→(l-s)”。292023/2/2以例3為例,看其中一個頻繁項集l={I1,I2,I5},可以由l產(chǎn)生哪些關(guān)聯(lián)規(guī)則?l的非空子集有{I1,I2}{I1,I5}{I2,I5}{I1}{I2}{I5}。結(jié)果關(guān)聯(lián)規(guī)則如下,每個都列出了置信度。如果最小置信度閥值為70%,則只有第2、3和最后一個規(guī)則可以輸出。302023/2/2真正可取的規(guī)則具備的條件31并非所有的規(guī)則在符合閥值限制后都是有意義的,這樣的規(guī)則還分為:有用的規(guī)則:包含高品質(zhì)的有效情報常識無法解釋的結(jié)果關(guān)聯(lián)規(guī)則真正可取的是具備以下兩個條件的規(guī)則:人們常識之外、意料之外的關(guān)聯(lián)該規(guī)則必須具有潛在的作用2023/2/25、案例2023/2/2322023/2/23334Apriori算法的核心:用頻繁的(k–1)-項集生成候選的頻繁k-項集用數(shù)據(jù)庫掃描和模式匹配計算候選集的支持度Apriori的瓶頸:候選集生成巨大的候選集:104個頻繁1-項集要生成107個候選2-

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論