版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認(rèn)領(lǐng)
文檔簡介
1、1關(guān)聯(lián)規(guī)那么2022/7/10.一、關(guān)聯(lián)規(guī)那么的定義2關(guān)聯(lián)規(guī)那么普通用以發(fā)現(xiàn)事務(wù)數(shù)據(jù)庫中不同商品項之間的聯(lián)絡(luò),用這些規(guī)那么找出顧客的購買行為方式。這種規(guī)那么可以運用于超市商品貨架設(shè)計、貨物擺放以及根據(jù)購買方式對用戶進展分類 。2022/7/10.3二、關(guān)聯(lián)規(guī)那么:根本概念一支持度與置信度 AAB B買尿布的客戶二者都買的客戶買啤酒的客戶2022/7/10.置信度confidence(.):是指購物籃分析中有了左邊商品,同時又有右邊商品的買賣次數(shù)百分比,也就是說在一切的購買了左邊商品的買賣中,同時又購買了右邊商品的買賣概率。 41、置信度2022/7/10.2、支持度支持度sup(.):表示在購
2、物籃分析中同時包含關(guān)聯(lián)規(guī)那么左右兩邊物品的買賣次數(shù)百分比,即支持這個規(guī)那么的買賣的次數(shù)百分比 。52022/7/10.例:6對于規(guī)那么A Csupport = support(A, C) = 50%confidence = support(A, C)/support(A) = 66.6%2022/7/10.交易項目成交次數(shù)夾克,球鞋300滑雪衫,球鞋100夾克,滑雪衫,球鞋100球鞋50慢跑鞋40夾克,慢跑鞋100滑雪衫,慢跑鞋200襯衣10夾克40滑雪衫60合計10007表1運動鞋Y1單獨購買合計球鞋Y11慢跑鞋Y12上衣X襯衣X11010外套X2夾克X2140010040540滑雪衫X22
3、20020060460單獨購買5040合 計65034010008表2規(guī)那么“夾克球鞋的計算92022/7/10.運動鞋Y1單獨購買合計球鞋Y11慢跑鞋Y12上衣X襯衣X11010外套X2夾克X211001滑雪衫X2218980899單獨購買090090合 計298810100010表3存在的問題:111.高置信度,低支持度:夾克球鞋的置信度高達(dá)100,但由于只需一人買了球鞋,這條關(guān)聯(lián)規(guī)那么支持度只需千分之一。2.支持度、置信度都比較高,但幾乎是沒有作用的規(guī)那么?!百I方便面那么買牛奶,“買牙刷那么買牛奶,“喜歡野外休閑那么會買牛奶。2022/7/10.121、關(guān)聯(lián)規(guī)那么的分類二、關(guān)聯(lián)規(guī)那么的分
4、類與作用2022/7/10.布爾型關(guān)聯(lián)規(guī)那么與數(shù)值型關(guān)聯(lián)規(guī)那么布爾型關(guān)聯(lián)規(guī)那么處置的值都是離散的、種類化的,它顯示了這些變量之間的關(guān)系;數(shù)值型關(guān)聯(lián)規(guī)那么可以和多維關(guān)聯(lián)或多層關(guān)聯(lián)規(guī)那么結(jié)合起來,對數(shù)值型字段進展處置,將其進展動態(tài)的分割,或者直接對原始的數(shù)據(jù)進展處置,當(dāng)然數(shù)值型關(guān)聯(lián)規(guī)那么中也可以包含種類變量。2022/7/1013.假設(shè)關(guān)聯(lián)規(guī)那么中的項或?qū)傩悦總€只涉及一個維,那么它是單維關(guān)聯(lián)規(guī)那么;反之,為多維關(guān)聯(lián)規(guī)那么。如,計算機財務(wù)軟件;年齡3039歲、月收入4000元以上高清電視假設(shè)在給定的規(guī)那么集中,規(guī)那么不涉及不同籠統(tǒng)層的項或?qū)傩?,就稱單層關(guān)聯(lián)規(guī)那么;反之,稱多層。142022/7/10
5、.2、關(guān)聯(lián)規(guī)那么的作用15購物籃分析:關(guān)聯(lián)規(guī)那么就是要找出哪些產(chǎn)品總是會同時出如今客戶的購物籃中。商品擺放,基于商店不同的運營理念,假設(shè)將會經(jīng)常一同購買的東西較近擺放,客戶會比較方便購買,假設(shè)有意放在購物通道的兩端,顧客尋覓的過程中可以添加其他物品銷售的能夠性。關(guān)聯(lián)規(guī)那么可以處置所謂的匿名消費。一張發(fā)票就是一個購物籃與決策樹和類神經(jīng)網(wǎng)絡(luò)不同。關(guān)聯(lián)規(guī)那么與時序規(guī)那么相結(jié)合不能匿名,適宜會員制。先找出來哪些事務(wù)總是同時發(fā)生的關(guān)聯(lián)規(guī)那么,再參與時間的要素,找出哪些事務(wù)總是會先后發(fā)生的潛在規(guī)律。2022/7/10.另外,只需同一個購物籃的商品信息可以分析的工程也很有限,因此,可以將氣候資訊溫度、濕度、
6、降雨等轉(zhuǎn)換為虛擬的商品工程,并入到購物籃中進展關(guān)聯(lián)規(guī)那么的分析。如,日本7-11相當(dāng)著名的“七五三規(guī)那么。即是說假設(shè)一天當(dāng)中溫度相差7度、今天和昨天的溫度差到5度、濕度差大于30%的話,代表感冒的人會添加,藥店就要思索把感冒藥、溫度計和口罩之類的用品上架。162022/7/10.三、 關(guān)聯(lián)規(guī)那么的發(fā)掘172022/7/10.一關(guān)聯(lián)規(guī)那么發(fā)掘的步驟第一步:找出一切頻繁項集:根據(jù)定義,這些項集出現(xiàn)的頻繁性支持度至少和預(yù)定義的最小支持度一樣。第二步:由頻繁項集產(chǎn)生強關(guān)聯(lián)規(guī)那么:根據(jù)定義,這些規(guī)那么必需滿足最小支持度和最小置信度。182022/7/10.19對于一個給定的候選數(shù)據(jù)集,項集的數(shù)目呈指數(shù)增
7、長。2022/7/10二Apriori演算法.關(guān)聯(lián)規(guī)那么計算雖然容易但由于規(guī)那么太多容易構(gòu)成“組合爆炸,因此,需求對這些規(guī)那么進展挑選,挑選需求的統(tǒng)計量如下:最小支持度:規(guī)那么必需符合的最小支持度閥值。最小置信度:計算規(guī)那么所必需符合的最低置信度閥值。假設(shè)關(guān)聯(lián)規(guī)那么滿足最小支持度和最小置信度,可以說該規(guī)那么是有趣的。202022/7/101、算法所需求的前置統(tǒng)計量:.2、頻繁項集項的集合稱為項集itemset包含k個項的項集稱為k-項集。集合計算機,金融管理軟件就是一個2-項集。項集出現(xiàn)頻數(shù)是包含項集的事務(wù)數(shù),簡稱為項集的頻數(shù)、支持計數(shù)或計數(shù)。212022/7/10.假設(shè)項集滿足最小支持度或滿
8、足min_sup與數(shù)據(jù)庫中事務(wù)總數(shù)的乘積即最小支持計數(shù),那么稱它為頻繁項集(frequent itemset)。頻繁k-項集的集合通常記作Lk。2022/7/1022.23對于A C:support = support(A、C) = 50%confidence = support(A、C)/support(A) = 66.6%最小支持度 50%最小可信度 50%例:2022/7/10.4、Apriori算法:運用候選項集找頻繁項集Apriori算法是一種最有影響的發(fā)掘布爾關(guān)聯(lián)規(guī)那么頻繁項集的算法。算法的名字基于這樣的現(xiàn)實:算法運用頻繁項集性質(zhì)的先驗知識。它運用一種稱作逐層搜索的迭代方法,k-項
9、集用于探求(k+1)-項集。首先,找出頻繁1-項集的集合。該集合記作L1。 L1用于找頻繁2-項集的集合L2,而L2用于找L3,如此下去,直到不能找到頻繁k-項集。找每個Lk需求一次數(shù)據(jù)庫掃描。242022/7/10.例125數(shù)據(jù)庫D掃描DC1L1L2C2C2掃描DC3L3掃描D2022/7/10為什么只需一項?.26例:L3=abc, abd, acd, ace, bcd銜接: L3*L3abcd from abc and abdacde from acd and ace修剪:acde is removed because ade is not in L3C4=abcd2022/7/10Ap
10、riori剪枝頻繁項集的任何子集也一定是頻繁的。.例3:27.3、Apriori算法的實現(xiàn)過程282022/7/10.4、由頻繁項集產(chǎn)生關(guān)聯(lián)規(guī)那么一旦找出頻繁項集,再經(jīng)過最小置信度產(chǎn)生關(guān)聯(lián)規(guī)那么。關(guān)聯(lián)規(guī)那么的產(chǎn)生步驟如下:對于每個頻繁項集l,產(chǎn)生l的一切非空子集。對于l的每個非空子集s,假設(shè)那么輸出規(guī)那么“s(l-s)。292022/7/10.以例3為例,看其中一個頻繁項集l=I1,I2,I5,可以由l產(chǎn)生哪些關(guān)聯(lián)規(guī)那么?l的非空子集有I1,I2I1,I5I2,I5I1I2I5。結(jié)果關(guān)聯(lián)規(guī)那么如下,每個都列出了置信度。假設(shè)最小置信度閥值為70%,那么只需第2、3和最后一個規(guī)那么可以輸出。302022/7/10.真正可取的規(guī)那么具備的條件31并非一切的規(guī)那么在符合閥值限制后都是有意義的,這樣的規(guī)那么還分為:有用的規(guī)那么:包含高質(zhì)量的有效情報常識無法解釋的結(jié)果關(guān)聯(lián)規(guī)那么真正可取的是具備以下兩個條件的規(guī)那么 :人們常識之外、預(yù)料之外的關(guān)聯(lián)該規(guī)那么必需具有潛在的作用2022/7/10.5、案例2022/7/1032.2022/7/1033.34Apriori算法的中心:用頻繁的(k 1)-項集生成候選的頻繁k-項集用數(shù)據(jù)庫掃描和方式匹配計算候選集的支持度Apriori的瓶頸:候選集生成宏大的候選集:1
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025年度湖州軟件開發(fā)工程師勞動合同
- 2025年度混凝土路面施工合同終止條件3篇
- 數(shù)字金融嵌入下金融素養(yǎng)與家庭金融風(fēng)險的關(guān)系探討
- 【ks5u發(fā)布】新疆烏魯木齊地區(qū)2021屆高三下學(xué)期第一次診斷性測驗文科數(shù)學(xué)試題-掃描版含答案
- 【師說】2021高考生物全程復(fù)習(xí)構(gòu)想檢測:課時訓(xùn)練23人體的內(nèi)環(huán)境與穩(wěn)態(tài)
- 【原創(chuàng)】江蘇省2020-2021學(xué)年高二數(shù)學(xué)第一學(xué)期期中復(fù)習(xí)試題(1)及答案
- 公路管理相關(guān)知識
- 農(nóng)業(yè)經(jīng)濟(講義)
- 銀礦勘查中的地質(zhì)成圖技術(shù)考核試卷
- 非金屬表面改性設(shè)備與技術(shù)考核試卷
- 產(chǎn)品經(jīng)理必備BP模板(中文版)
- 維西縣城市生活垃圾熱解處理工程環(huán)評報告
- GB/T 9128.2-2023鋼制管法蘭用金屬環(huán)墊第2部分:Class系列
- 網(wǎng)絡(luò)經(jīng)濟學(xué)PPT完整全套教學(xué)課件
- 2023年主治醫(yī)師(中級)-臨床醫(yī)學(xué)檢驗學(xué)(中級)代碼:352考試參考題庫附帶答案
- 機械原理課程設(shè)計鎖梁自動成型機床切削機構(gòu)
- 順產(chǎn)臨床路徑
- 人教版培智一年級上生活適應(yīng)教案
- 推動架機械加工工序卡片
- RoHS檢測報告完整版
- 中國近現(xiàn)代史綱要(上海建橋?qū)W院)智慧樹知到答案章節(jié)測試2023年
評論
0/150
提交評論