版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
第四章 關(guān)聯(lián)規(guī)則分析第一節(jié)關(guān)聯(lián)規(guī)則的理論與算法第二節(jié)關(guān)聯(lián)規(guī)則分析的python實(shí)踐第三節(jié)案例分析目
錄第一節(jié)關(guān)聯(lián)規(guī)則的理論與算法一、關(guān)聯(lián)的內(nèi)涵二、關(guān)聯(lián)規(guī)則分析的主要內(nèi)容三、關(guān)聯(lián)規(guī)則分析的算法主要內(nèi)容(一)定義關(guān)聯(lián)其實(shí)就是相關(guān)性,簡(jiǎn)單地說(shuō),若一個(gè)現(xiàn)象變化,另一現(xiàn)象隨之變化,我們就認(rèn)為這兩種現(xiàn)象之間是相關(guān)的。(二)典型應(yīng)用1.啤酒與紙尿褲2.房屋價(jià)格與地理位置一、關(guān)聯(lián)的內(nèi)涵(一)定義關(guān)聯(lián)規(guī)則分析又稱關(guān)聯(lián)挖掘、購(gòu)物籃分析,反映一個(gè)事物與其他事物之間的相互依存性和關(guān)聯(lián)性,是數(shù)據(jù)挖掘的一個(gè)重要技術(shù),用于從大量數(shù)據(jù)中挖掘出有價(jià)值的數(shù)據(jù)項(xiàng)之間的相關(guān)關(guān)系。(二)作用1.最早是為了發(fā)現(xiàn)超市銷售數(shù)據(jù)庫(kù)中不同的商品之間的關(guān)聯(lián)關(guān)系。2.根據(jù)所挖掘的關(guān)聯(lián)關(guān)系,可以從一個(gè)屬性的信息來(lái)推斷另一個(gè)屬性的信息。當(dāng)置信度達(dá)到某一閾值時(shí),可以認(rèn)為規(guī)則成立。二、關(guān)聯(lián)規(guī)則分析的內(nèi)涵(三)應(yīng)用場(chǎng)景1.互聯(lián)網(wǎng)推薦個(gè)性化推薦:在界面上給用戶推薦相關(guān)商品組合優(yōu)惠券:給購(gòu)買(mǎi)過(guò)的用戶發(fā)放同時(shí)購(gòu)買(mǎi)組合內(nèi)商品的優(yōu)惠券捆綁銷售:將相關(guān)商品組合起來(lái)銷售2.線下店鋪分析商品配置分析:哪些商品可以一起購(gòu)買(mǎi),關(guān)聯(lián)商品如何陳列、促銷客戶需求分析:分析顧客的購(gòu)買(mǎi)習(xí)慣、顧客購(gòu)買(mǎi)商品的時(shí)間、地點(diǎn)等二、關(guān)聯(lián)規(guī)則分析的內(nèi)涵(三)應(yīng)用場(chǎng)景3.金融保險(xiǎn)經(jīng)由購(gòu)物籃分析能夠設(shè)計(jì)不同的服務(wù)組合以擴(kuò)大利潤(rùn);能借由購(gòu)物籃分析偵測(cè)出可能不尋常的投保組合并作預(yù)防。4.風(fēng)控領(lǐng)域分析同時(shí)行動(dòng)的賬號(hào)、尋找有效的策略組合。二、關(guān)聯(lián)規(guī)則分析的內(nèi)涵三、關(guān)聯(lián)規(guī)則分析的算法算法名稱算法描述Apriori關(guān)聯(lián)規(guī)則最常用、最經(jīng)典的挖掘頻繁項(xiàng)集的算法,核心思想是通過(guò)連接產(chǎn)生候選項(xiàng)及其支持度,然后通過(guò)剪枝生成頻繁項(xiàng)集。無(wú)法處理連續(xù)型數(shù)值變量,往往分析之前需要對(duì)數(shù)據(jù)進(jìn)行離散化。FP-Tree針對(duì)Apriori算法固有的多次掃描事物數(shù)據(jù)集的缺陷,提出的不產(chǎn)生候選頻繁項(xiàng)集的方法。Apriori和FP-Tree都是尋找頻繁項(xiàng)集的算法。Eclat算法一種深度優(yōu)先算法,采用垂直數(shù)據(jù)表示形式,在概念格理論的基礎(chǔ)上利用基于前綴的等價(jià)關(guān)系將搜索空間劃分為較小的子空間?;疑P(guān)聯(lián)法分析和確定各因素之間的影響程度,或是若干個(gè)子因素(子序列)對(duì)主因素(母序列)的貢獻(xiàn)度而進(jìn)行的一種分析方法。輸入:一組人的交易清單每一筆交易(transaction)包含一系列的商品(items)(一)Apriori算法的輸入與輸出三、關(guān)聯(lián)規(guī)則分析的算法Aprior算法一筆交易(transaction)兩種商品(items)面包牛奶訂單編號(hào)(ID)購(gòu)買(mǎi)商品(Items)1面包,牛奶2面包,紙尿褲,啤酒,雞蛋3牛奶,紙尿褲,啤酒,可樂(lè)4面包,牛奶,紙尿褲,啤酒5面包,牛奶,紙尿褲,可樂(lè)表1交易清單輸入:一組人的交易清單每一筆交易(transaction)包含一系列的商品(items)(一)Aprior算法的輸入與輸出三、關(guān)聯(lián)規(guī)則分析的算法Aprior算法一筆交易(transaction)四種商品(items)面包牛奶啤酒雞蛋訂單編號(hào)(ID)購(gòu)買(mǎi)商品(Items)1面包,牛奶2面包,紙尿褲,啤酒,雞蛋3牛奶,紙尿褲,啤酒,可樂(lè)4面包,牛奶,紙尿褲,啤酒5面包,牛奶,紙尿褲,可樂(lè)表1交易清單輸入:一組人的交易清單每一筆交易(transaction)包含一系列的商品(items)(一)Aprior算法的輸入與輸出三、關(guān)聯(lián)規(guī)則分析的算法Aprior算法一共有5筆交易(transaction)涉及到6種商品(items)訂單編號(hào)(ID)購(gòu)買(mǎi)商品(Items)1面包,牛奶2面包,紙尿褲,啤酒,雞蛋3牛奶,紙尿褲,啤酒,可樂(lè)4面包,牛奶,紙尿褲,啤酒5面包,牛奶,紙尿褲,可樂(lè)表1交易清單輸入:一組人的交易清單每一筆交易(transaction)包含一系列的商品(items)(一)Aprior算法的輸入與輸出三、關(guān)聯(lián)規(guī)則分析的算法Aprior算法訂單編號(hào)(ID)購(gòu)買(mǎi)商品(Items)1面包,牛奶2面包,紙尿褲,啤酒,雞蛋3牛奶,紙尿褲,啤酒,可樂(lè)4面包,牛奶,紙尿褲,啤酒5面包,牛奶,紙尿褲,可樂(lè)表1交易清單ID面包牛奶紙尿褲啤酒雞蛋可樂(lè)12345表2二進(jìn)制表示的交易清單若購(gòu)買(mǎi)了某種商品,則取值1;若未購(gòu)買(mǎi)某種商品,則取值為0111111111111111111000000000000軟件中稀疏矩陣(SparseMatrix)用稀疏矩陣表示的商品交易清單輸出(一)Aprior算法的輸入與輸出三、關(guān)聯(lián)規(guī)則分析的算法Aprior算法頻繁項(xiàng)集關(guān)聯(lián)規(guī)則滿足最小支持度的所有項(xiàng)集高置信度的關(guān)聯(lián)規(guī)則(rules)1.項(xiàng)集:包含0個(gè)或多個(gè)項(xiàng)的集合被稱為項(xiàng)集(itemset)。K項(xiàng)集:如果一個(gè)項(xiàng)集包含k個(gè)項(xiàng),則稱它為k項(xiàng)集??占菏侵覆话魏雾?xiàng)的項(xiàng)集。(二)Apriori算法的基本概念三、關(guān)聯(lián)規(guī)則分析的算法Apriori算法訂單編號(hào)(ID)購(gòu)買(mǎi)商品(Items)1面包,牛奶2面包,紙尿褲,啤酒,雞蛋3牛奶,紙尿褲,啤酒,可樂(lè)4面包,牛奶,紙尿褲,啤酒5面包,牛奶,紙尿褲,可樂(lè)表1交易清單2項(xiàng)集4項(xiàng)集2.超集/子集:項(xiàng)集A包含于項(xiàng)集B,則A是B的子集,B是A的超集。如:
{啤酒,尿布}是{啤酒,尿布,牛奶,花生}
的子集,而{啤酒,尿布,牛奶,花生}
是{啤酒,尿布}的超集。練習(xí):{牛奶、麥片、糖}是{牛奶、麥片}的集{牛奶、麥片}是{牛奶、麥片、糖}的集(二)Apriori算法的基本概念三、關(guān)聯(lián)規(guī)則分析的算法Apriori算法超子
3.頻繁項(xiàng)集:在整個(gè)交易清單中,包含某項(xiàng)集的條目占總條目的比例超過(guò)某一閾值的,則稱該項(xiàng)集為頻繁項(xiàng)集。Apriori算法依據(jù)的原理:如果一個(gè)項(xiàng)集是頻繁的,則它的所有子集一定也是頻繁的;相反,如果一個(gè)項(xiàng)集是非頻繁的,則它的所有超集也一定是非頻繁的。(二)Apriori算法的基本概念三、關(guān)聯(lián)規(guī)則分析的算法Apriori算法(二)Apriori算法的基本概念三、關(guān)聯(lián)規(guī)則分析的算法Apriori算法練習(xí)1:若項(xiàng)集{啤酒,尿布,牛奶,花生}是頻繁的,則下列說(shuō)法正確的是?A.{啤酒,尿布}是頻繁項(xiàng)集B.{啤酒,尿布,牛奶}是頻繁項(xiàng)集C.{尿布,牛奶}是頻繁項(xiàng)集D.{花生}不是頻繁項(xiàng)集(二)Apriori算法的基本概念三、關(guān)聯(lián)規(guī)則分析的算法Apriori算法練習(xí)2:若項(xiàng)集{啤酒,尿布}不是頻繁的,則下列說(shuō)法正確的是?A.{啤酒,尿布,牛奶}不是頻繁項(xiàng)集B.{啤酒,尿布,牛奶,花生}不是頻繁項(xiàng)集C.{花生,牛奶}不是頻繁項(xiàng)集D.{啤酒}不是頻繁項(xiàng)集4.關(guān)聯(lián)規(guī)則(associationrule):是形如X→Y的蘊(yùn)含表達(dá)式。其中X和Y是不相交的項(xiàng)集,X和Y分別稱為關(guān)聯(lián)規(guī)則的先導(dǎo)(antecedent或left-hand-side,LHS)和后繼(consequent或right-hand-side,RHS)。關(guān)聯(lián)規(guī)則包括三個(gè)核心概念,支持度、信任度和提升度。例如:關(guān)聯(lián)規(guī)則:花生=>牛奶[支持度=2%,置信度=60%,提升度=1.5]
(二)Apriori算法的基本概念三、關(guān)聯(lián)規(guī)則分析的算法Apriori算法LHSRHS
(二)Apriori算法的基本概念三、關(guān)聯(lián)規(guī)則分析的算法Apriori算法
(二)Apriori算法的基本概念三、關(guān)聯(lián)規(guī)則分析的算法Apriori算法訂單編號(hào)(ID)購(gòu)買(mǎi)商品(Items)1面包,牛奶2面包,紙尿褲,啤酒,雞蛋3牛奶,紙尿褲,啤酒,可樂(lè)4面包,牛奶,紙尿褲,啤酒5面包,牛奶,紙尿褲,可樂(lè)表1交易清單
(二)Apriori算法的基本概念三、關(guān)聯(lián)規(guī)則分析的算法Apriori算法訂單編號(hào)(ID)購(gòu)買(mǎi)商品(Items)1面包,牛奶2面包,紙尿褲,啤酒,雞蛋3牛奶,紙尿褲,啤酒,可樂(lè)4面包,牛奶,紙尿褲,啤酒5面包,牛奶,紙尿褲,可樂(lè)表1交易清單
(二)Apriori算法的基本概念三、關(guān)聯(lián)規(guī)則分析的算法Apriori算法訂單編號(hào)(ID)購(gòu)買(mǎi)商品(Items)1面包,牛奶2面包,紙尿褲,啤酒,雞蛋3牛奶,紙尿褲,啤酒,可樂(lè)4面包,牛奶,紙尿褲,啤酒5面包,牛奶,紙尿褲,可樂(lè)表1交易清單通過(guò)觀察前面計(jì)算過(guò)的3個(gè)支持度,S(紙尿褲)=0.8,S(紙尿褲=>啤酒)=0.6,S(紙尿褲,啤酒=>可樂(lè))=0.2可以發(fā)現(xiàn):隨著組合中商品數(shù)量的增加,支持度在下降。如果一個(gè)項(xiàng)集是頻繁的,則它的所有子集一定也是頻繁的;相反,如果一個(gè)項(xiàng)集是非頻繁的,則它的所有超集也一定是非頻繁的。(二)Apriori算法的基本概念三、關(guān)聯(lián)規(guī)則分析的算法Apriori算法4.2置信度(或信任度)(confidence):
表示在先決條件X發(fā)生的情況下,由關(guān)聯(lián)規(guī)則“X→Y”推出Y的概率。也就是在發(fā)生X的項(xiàng)集中,同時(shí)會(huì)發(fā)生Y的可能性,即X和Y同時(shí)發(fā)生的個(gè)數(shù)占僅僅X發(fā)生個(gè)數(shù)的比例。計(jì)算公式為:confidence(X
→
Y)
=σ(X∩Y)/σ(X)例:關(guān)聯(lián)規(guī)則:花生=>牛奶[支持度=2%,置信度=60%,提升度=1.5]
表示分析中的交易清單,購(gòu)買(mǎi)花生的同時(shí),又購(gòu)買(mǎi)了牛奶的占比為60%。例2:在表1所示的交易清單中,紙尿褲出現(xiàn)了4次,而在出現(xiàn)紙尿褲的交易中,出現(xiàn)啤酒的次數(shù)為3次,那么這個(gè)交易清單中,關(guān)聯(lián)規(guī)則“紙尿褲=>啤酒”的置信度的計(jì)算公式如下:(二)Apriori算法的基本概念三、關(guān)聯(lián)規(guī)則分析的算法Apriori算法訂單編號(hào)(ID)購(gòu)買(mǎi)商品(Items)1面包,牛奶2面包,紙尿褲,啤酒,雞蛋3牛奶,紙尿褲,啤酒,可樂(lè)4面包,牛奶,紙尿褲,啤酒5面包,牛奶,紙尿褲,可樂(lè)表1交易清單
問(wèn)題3:在表1所示的交易清單中,關(guān)聯(lián)規(guī)則“啤酒=>紙尿褲”的置信度為多少?(二)Apriori算法的基本概念三、關(guān)聯(lián)規(guī)則分析的算法Apriori算法訂單編號(hào)(ID)購(gòu)買(mǎi)商品(Items)1面包,牛奶2面包,紙尿褲,啤酒,雞蛋3牛奶,紙尿褲,啤酒,可樂(lè)4面包,牛奶,紙尿褲,啤酒5面包,牛奶,紙尿褲,可樂(lè)表1交易清單
問(wèn)題4:在表1所示的交易清單中,關(guān)聯(lián)規(guī)則“紙尿褲,啤酒=>可樂(lè)”的置信度為多少?(二)Apriori算法的基本概念三、關(guān)聯(lián)規(guī)則分析的算法Apriori算法訂單編號(hào)(ID)購(gòu)買(mǎi)商品(Items)1面包,牛奶2面包,紙尿褲,啤酒,雞蛋3牛奶,紙尿褲,啤酒,可樂(lè)4面包,牛奶,紙尿褲,啤酒5面包,牛奶,紙尿褲,可樂(lè)表1交易清單
(二)Apriori算法的基本概念三、關(guān)聯(lián)規(guī)則分析的算法Apriori算法訂單編號(hào)(ID)購(gòu)買(mǎi)商品(Items)1面包,牛奶2面包,紙尿褲,啤酒,雞蛋3牛奶,紙尿褲,啤酒,可樂(lè)4面包,牛奶,紙尿褲,啤酒5面包,牛奶,紙尿褲,可樂(lè)表1交易清單
可以看出,置信度是個(gè)條件概念,C(A=>B)表示在A發(fā)生的情況下,B發(fā)生的概率是多少。30(二)Apriori算法的基本概念三、關(guān)聯(lián)規(guī)則分析的算法Apriori算法小結(jié):支持度與置信度(或信任度)的運(yùn)用(1)支持度很低的規(guī)則可能只是偶然出現(xiàn),低支持度的規(guī)則多半是無(wú)意義的,因此,支持度通常用來(lái)刪去那些無(wú)意義的規(guī)則。(2)置信度用來(lái)判斷通過(guò)規(guī)則進(jìn)行推理的可靠性。對(duì)于給定的規(guī)則X
→
Y,置信度越高,Y在給定X下的條件概率P(Y|X)越大。31(二)Apriori算法的基本概念三、關(guān)聯(lián)規(guī)則分析的算法Apriori算法4.3提升度(lift):表示含有X的條件下,同時(shí)含有Y的概率,與只看Y發(fā)生的概率之比。其計(jì)算公式為:
Lift:L(X→Y)=P(Y|X)/P(Y)提升度是一個(gè)重要的指標(biāo),它表明一個(gè)規(guī)則的重要程度,反映了關(guān)聯(lián)規(guī)則中的X與Y的相關(guān)性。我們?cè)谧錾唐吠扑]或者策略的時(shí)候,重點(diǎn)考慮的是提升度,因?yàn)樘嵘却淼氖巧唐稾的出現(xiàn),對(duì)商品Y的出現(xiàn)概率提升的程度。提升度(X—>Y)=置信度(X—>Y)/支持度(Y)32(二)Apriori算法的基本概念三、關(guān)聯(lián)規(guī)則分析的算法Apriori算法4.3提升度(lift)的具體運(yùn)用如下:(1)如果lift值>1且越高表明正相關(guān)性越高,代表有提升,說(shuō)明這兩類商品在一起購(gòu)買(mǎi)比只有一類商品被購(gòu)買(mǎi)更常見(jiàn)。(2)如果lift值<1且越低表明負(fù)相關(guān)性越高,代表有下降,說(shuō)明兩類商品是相互排斥的。(3)提升度=1表明沒(méi)有相關(guān)性,代表沒(méi)有提升,也沒(méi)有下降,即相互獨(dú)立。例3:如前所示,在表1的交易清單中,置信度“紙尿褲=>啤酒”=0.75,支持度“啤酒”=0.6,可以計(jì)算:(二)Apriori算法的基本概念三、關(guān)聯(lián)規(guī)則分析的算法Apriori算法訂單編號(hào)(ID)購(gòu)買(mǎi)商品(Items)1面包,牛奶2面包,紙尿褲,啤酒,雞蛋3牛奶,紙尿褲,啤酒,可樂(lè)4面包,牛奶,紙尿褲,啤酒5面包,牛奶,紙尿褲,可樂(lè)表1交易清單
表明紙尿褲對(duì)啤酒是有提升的??梢赃@樣理解:在整個(gè)交易清單中,啤酒的購(gòu)買(mǎi)概率為0.6;而在包含紙尿褲的交易中,啤酒的購(gòu)買(mǎi)概率為0.75。通過(guò)設(shè)定子集,提高了啤酒的購(gòu)買(mǎi)概率。(二)Apriori算法的基本概念三、關(guān)聯(lián)規(guī)則分析的算法Apriori算法練習(xí)1:10000個(gè)超市訂單(10000個(gè)事務(wù)),其中購(gòu)買(mǎi)三元牛奶(A事務(wù))的6000個(gè),購(gòu)買(mǎi)伊利牛奶(B事務(wù))的7500個(gè),4000個(gè)同時(shí)包含兩者。請(qǐng)計(jì)算:1.同時(shí)購(gòu)買(mǎi)三元牛奶和伊利牛奶的支持度是多少?2.購(gòu)買(mǎi)三元牛奶對(duì)購(gòu)買(mǎi)伊利牛奶的置信度是多少?3.購(gòu)買(mǎi)伊利牛奶對(duì)購(gòu)買(mǎi)三元牛奶的提升度是多少?(二)Apriori算法的基本概念三、關(guān)聯(lián)規(guī)則分析的算法Apriori算法練習(xí)1答案:1.同時(shí)購(gòu)買(mǎi)三元牛奶和伊利牛奶的支持度是多少?答:三元牛奶(A事務(wù))和伊利牛奶(B事務(wù))的支持度為:P(A&B)=4000/10000=0.4(二)Apriori算法的基本概念三、關(guān)聯(lián)規(guī)則分析的算法Apriori算法練習(xí)1答案:2.購(gòu)買(mǎi)三元牛奶對(duì)購(gòu)買(mǎi)伊利牛奶的置信度是多少?答:包含A的事務(wù)中同時(shí)包含B的占包含A的事務(wù)比例。4000/6000=0.67說(shuō)明在購(gòu)買(mǎi)三元牛奶后,有0.67的用戶去購(gòu)買(mǎi)伊利牛奶。(二)Apriori算法的基本概念三、關(guān)聯(lián)規(guī)則分析的算法Apriori算法練習(xí)1答案:3.購(gòu)買(mǎi)三元牛奶對(duì)伊利牛奶的提升度是多少?答:在沒(méi)有任何條件下,B事務(wù)的出現(xiàn)的比例是0.75,而出現(xiàn)A事務(wù),且同時(shí)出現(xiàn)B事務(wù)的比例是0.67。Lift(A->B)=P(B|A)/P(B)=
0.67/0.75=89%即A條件對(duì)B事務(wù)的提升度為0.89,即在購(gòu)買(mǎi)A的前提下,購(gòu)買(mǎi)B的概率僅為原來(lái)的89%<1。也就是說(shuō)設(shè)置了A事務(wù)出現(xiàn)這個(gè)條件,B事務(wù)出現(xiàn)的比例反而降低了。這說(shuō)明A事務(wù)和B事務(wù)是排斥的。(三)Apriori算法的具體操作三、關(guān)聯(lián)規(guī)則分析的算法Apriori算法1.Apriori算法的核心思想Apriori算法的核心思想是把發(fā)現(xiàn)關(guān)聯(lián)規(guī)則的工作分為兩步:第一步通過(guò)迭代檢索出數(shù)據(jù)庫(kù)中的所有頻繁項(xiàng)集,即頻繁項(xiàng)集的支持度不低于用戶設(shè)定的閾值。第二步從頻繁項(xiàng)集中構(gòu)造出滿足用戶最低置信度的規(guī)則。注意:最小支持度閾值和最小置信度閾值:由挖掘者或者領(lǐng)域?qū)<以O(shè)定(三)Apriori算法的具體操作三、關(guān)聯(lián)規(guī)則分析的算法Apriori算法2.Apriori算法的運(yùn)算步驟第一步:給定最小支持度和最小置信度第二部:列出所有關(guān)聯(lián)規(guī)則第三步:計(jì)算每一個(gè)關(guān)聯(lián)規(guī)則的支持度和置信度第四步:選擇符合最小支持度和最小置信度要求的關(guān)聯(lián)規(guī)則案例1:五種商品購(gòu)物籃的所有組合三、關(guān)聯(lián)規(guī)則分析的算法Apriori算法(三)Apriori算法的具體操作第一步:給出最小支持度和最小置信度第二步:遍歷所有組合,列出所有關(guān)聯(lián)規(guī)則第三步:剪枝根據(jù)給定的支持度和置信度確定關(guān)聯(lián)規(guī)則,刪掉非頻繁集。案例1:五種商品購(gòu)物籃的所有組合三、關(guān)聯(lián)規(guī)則分析的算法Apriori算法(三)Apriori算法的具體操作第二步:遍歷所有組合,列出所有關(guān)聯(lián)規(guī)則第一步:給出最小支持度和最小置信度案例1:五種商品購(gòu)物籃的所有組合三、關(guān)聯(lián)規(guī)則分析的算法Apriori算法(三)Apriori算法的具體操作根據(jù)的原則:如果一個(gè)項(xiàng)集是頻繁的,則它的所有子集一定也是頻繁的;相反,如果一個(gè)項(xiàng)集是非頻繁的,則它的所有超集也一定是非頻繁的。43案例2:一個(gè)簡(jiǎn)單的例子三、關(guān)聯(lián)規(guī)則分析的算法Apriori算法(三)Apriori算法的具體操作三、關(guān)聯(lián)規(guī)則分析的算法Apriori算法案例3:沃爾瑪購(gòu)物清單第二節(jié)關(guān)聯(lián)規(guī)則分析的R語(yǔ)言實(shí)踐教學(xué)數(shù)據(jù)之R語(yǔ)言實(shí)現(xiàn)#安裝arules程序包install.packages(‘a(chǎn)rules’)##1.加載arules程序包library(arules)##2.調(diào)用arules包內(nèi)置的Groceries數(shù)據(jù)集data(Groceries)##3.查看Groceries數(shù)據(jù)集中的數(shù)據(jù)類型class(Groceries)##4.觀看數(shù)據(jù)集里的數(shù)據(jù),由于數(shù)據(jù)量較大,僅查看其前10行數(shù)據(jù)inspect(Groceries[1:10])##5.利用summary函數(shù)了解Groceries數(shù)據(jù)集的摘要信息summary(Groceries)教學(xué)數(shù)據(jù)之R語(yǔ)言實(shí)現(xiàn)##6.通過(guò)繪圖,了解Groceries數(shù)據(jù)集中商品出現(xiàn)的頻率###6.1繪制支持度在0.1以上的商品頻率圖itemFrequencyPlot(Groceries,support=0.1)###6.2繪制支持度排名前20的商品頻率圖itemFrequencyPlot(Groceries,topN=20)##7.利用Apriori函數(shù)提取關(guān)聯(lián)規(guī)則,默認(rèn)的置信度是0.8,支持度是0.1apriori(Groceries)#7.1降低支持度,將支持度降低到0.006,置信度降到0.25,最少包含兩種商品grocery_rules<-apriori(data=Groceries,parameter=list(support=0.006,confidence=0.25,minlen=2))教學(xué)數(shù)據(jù)之R語(yǔ)言實(shí)現(xiàn)##7.2查看關(guān)聯(lián)規(guī)則特性summary(grocery_rules)##7.3查看前5行的rulesinspect(grocery_rules[1:5])##7.4查看后5行的rulesinspect(grocery_rules[459:463])##8.按照需要篩選關(guān)聯(lián)規(guī)則X=subset(grocery_rules,subset=rhs%pin%"wholemilk"&lift>=1.2)##9.按照支持度對(duì)求得的關(guān)聯(lián)規(guī)則子集排序并觀察inspect(sort(X,by="support")[1:5])結(jié)果解讀49Groceries中的數(shù)據(jù)集為交易型數(shù)據(jù)(transactions)Apriori處理的都是交易型數(shù)據(jù)(transactions)結(jié)果解讀ID1的商品組合ID2的商品組合ID3的商品組合ID4的商品組合ID5的商品組合ID6的商品組合ID7的商品組合
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025版酒店廚房員工職業(yè)發(fā)展與晉升合同3篇
- 2025年度M100燃料油質(zhì)量檢測(cè)與認(rèn)證合同3篇
- 五千以內(nèi)加減法水平練習(xí)題大全附答案
- 2025年度文化創(chuàng)意產(chǎn)品定制采購(gòu)合同樣板
- 養(yǎng)老院管理規(guī)定與合同
- 2024年離婚流程簡(jiǎn)化協(xié)議
- 城市電力管溝施工安全管理方案
- 2024年標(biāo)準(zhǔn)長(zhǎng)期股權(quán)投資合作模板合同版
- 2024年項(xiàng)目保密協(xié)議范例3篇
- 2024年養(yǎng)殖場(chǎng)承包合同范本:養(yǎng)殖場(chǎng)多業(yè)態(tài)經(jīng)營(yíng)與產(chǎn)業(yè)鏈整合3篇
- 2023-2024年人教版三年級(jí)上冊(cè)數(shù)學(xué)期末應(yīng)用題專題訓(xùn)練
- 職業(yè)學(xué)校消防安全課件
- 基于多元回歸的計(jì)量經(jīng)濟(jì)學(xué)論文
- 高教社新國(guó)規(guī)中職英語(yǔ)教材《英語(yǔ)3 基礎(chǔ)模塊》Unit 5 Natural Wonders in the World-教學(xué)設(shè)計(jì)方案-6課時(shí)
- 三對(duì)三籃球賽記錄表
- 勞務(wù)公司與勞務(wù)公司之間的合作協(xié)議
- 河南省鄭州市金水區(qū)2023-2024學(xué)年四年級(jí)數(shù)學(xué)第一學(xué)期期末統(tǒng)考試題含答案
- 項(xiàng)目風(fēng)險(xiǎn)預(yù)測(cè)與防范事故應(yīng)急預(yù)案
- 15D502等電位連接安裝圖集
- 磷酸鐵鋰動(dòng)力電池生產(chǎn)工藝全流程詳述
- DB44-T 1641-2015 LED 洗墻燈地方標(biāo)準(zhǔn)
評(píng)論
0/150
提交評(píng)論