




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)
文檔簡介
1、實驗二 Clementine12購物籃分析(關(guān)聯(lián)規(guī)則)一、實驗?zāi)康脑O(shè)計關(guān)聯(lián)規(guī)則分析模型,通過模型演示如何對購物籃分析,并根據(jù)細分結(jié)果 對采取不同的營銷策略。體驗以數(shù)據(jù)驅(qū)動的模型計算給科學(xué)決策帶來的先進性。二、知識要點1、購物藍分析概念;2、管來呢規(guī)則算法原理;3、購物藍分析工具;4、Clementine12.0關(guān)聯(lián)規(guī)則分析流程。三、實驗要求和內(nèi)容1、初步了解使用工作流的方式構(gòu)建分析模型;2、理解智能數(shù)據(jù)分析流程,主要是CRISP-DM工業(yè)標(biāo)準(zhǔn)流程;3、理解關(guān)聯(lián)規(guī)則模型原理;4、設(shè)計關(guān)聯(lián)規(guī)則分流;5、運行該流,并將結(jié)果可視化展示;6、得出模型分析結(jié)論7、運行結(jié)果進行相關(guān)營銷策略設(shè)計。四、實驗條件
2、Clementine12.0 挖掘軟件。五、實驗步驟1、啟動 Clementine12.0 軟件;2、在工作區(qū)設(shè)計管來呢規(guī)則挖掘流;3、執(zhí)行模型,分析計算結(jié)果;4、撰寫實驗報告。六、思考與練習(xí)1、為什么要進行關(guān)聯(lián)規(guī)則分析?它是如何支持客戶營銷的?實驗內(nèi)容與步驟一、前言“啤酒與尿布”的故事是營銷屆的神話,“啤酒”和“尿布”兩個看上去沒 有關(guān)系的商品擺放在一起進行銷售、并獲得了很好的銷售收益,這種現(xiàn)象就是賣 場中商品之間的關(guān)聯(lián)性,研究“啤酒與尿布”關(guān)聯(lián)的方法就是購物籃分析,購物 籃分析曾經(jīng)是沃爾瑪秘而不宣的獨門武器,購物籃分析可以幫助我們在門店的銷 售過程中找到具有關(guān)聯(lián)關(guān)系的商品,并以此獲得銷售收
3、益的增長!“啤酒與尿布”的故事產(chǎn)生于20世紀(jì)90年代的美國沃爾瑪超市中,沃爾瑪 的超市管理人員分析銷售數(shù)據(jù)時發(fā)現(xiàn)了一個令人難于理解的現(xiàn)象:在某些特定的 情況下,“啤酒”與“尿布”兩件看上去毫無關(guān)系的商品會經(jīng)常出現(xiàn)在同一個購 物籃中,這種獨特的銷售現(xiàn)象引起了管理人員的注意,經(jīng)過后續(xù)調(diào)查發(fā)現(xiàn),這種 現(xiàn)象出現(xiàn)在年輕的父親身上。在美國有嬰兒的家庭中,一般是母親在家中照看嬰兒,年輕的父親前去超市 購買尿布。父親在購買尿布的同時,往往會順便為自己購買啤酒,這樣就會出現(xiàn) 啤酒與尿布這兩件看上去不相干的商品經(jīng)常會出現(xiàn)在同一個購物籃的現(xiàn)象。如果 這個年輕的父親在賣場只能買到兩件商品之一,則他很有可能會放棄購物而
4、到另 一家商店,直到可以一次同時買到啤酒與尿布為止。沃爾瑪發(fā)現(xiàn)了這一獨特的現(xiàn) 象,開始在賣場嘗試將啤酒與尿布擺放在相同的區(qū)域,讓年輕的父親可以同時找 到這兩件商品,并很快地完成購物;而沃爾瑪超市也可以讓這些客戶一次購買兩 件商品、而不是一件,從而獲得了很好的商品銷售收入,這就是“啤酒與尿布” 故事的由來。當(dāng)然“啤酒與尿布”的故事必須具有技術(shù)方面的支持。1993年美國學(xué)者 Agrawal (個人翻譯-艾格拉沃)提出通過分析購物籃中的商品集合,從而找出 商品之間關(guān)聯(lián)關(guān)系的關(guān)聯(lián)算法,并根據(jù)商品之間的關(guān)系,找出客戶的購買行為。 艾格拉沃從數(shù)學(xué)及計算機算法角度提出了商品關(guān)聯(lián)關(guān)系的計算方法一Aprior算
5、 法。沃爾瑪從上個世紀(jì)90年代嘗試將Aprior算法引入到POS機數(shù)據(jù)分析中,并 獲得了成功,于是產(chǎn)生了 “啤酒與尿布”的故事。“啤酒和尿布”的故事為什么產(chǎn)生于沃爾瑪超市的賣場中?賣場中“啤酒與尿布”的現(xiàn)象比比皆是,為什么“啤酒與尿布”的故事只產(chǎn) 生在沃爾瑪?shù)馁u場中,而不是其他零售門店?這里有兩個原因。第一個是沃爾瑪先進的計算機技術(shù)是“啤酒與尿布”故事產(chǎn)生的強大支持后 盾。零售業(yè)目前使用的很多新技術(shù)都是沃爾瑪率先“嘗鮮”的,比如沃爾瑪最早 在門店嘗試計算機記賬,最早在門店收款臺嘗試使用外形丑陋俗稱“牛眼”的條 碼掃描器進行收款,世界上第一個發(fā)射私人通信衛(wèi)星等等?!扒叭嗽詷?,后人乘 涼”,目前運
6、用于門店管理的很多技術(shù)手段都是沃爾瑪做了 “第一個吃螃蟹”的, 我們只不過坐享其成而已。由于沃爾瑪具備先進的技術(shù)手段,“啤酒與尿布”的 故事在沃爾瑪產(chǎn)生就一點也不奇怪了。第二個原因是沃爾瑪擁有一雙銳利的慧眼。沃爾瑪是一家極其講究賣場現(xiàn)場 管理的企業(yè),沃爾瑪創(chuàng)始人老沃爾頓最大的樂趣就是不停地在賣場巡視,更多地 運用自己的雙眼而不是數(shù)據(jù)來發(fā)現(xiàn)事實。因此不能忽略的是,沒有沃爾瑪管理人 員的慧眼,“啤酒與尿布”的故事也會淹沒在大量的零售數(shù)據(jù)中。營銷界很多人對于“啤酒與尿布”的故事津津樂道,吹捧得如同發(fā)現(xiàn)新大陸 般! “啤酒與尿布”的故事就是商品交叉銷售,這種銷售現(xiàn)象幾乎和人類歷史一 樣悠久,在古人披著
7、獸皮交換貝殼、糧食、石斧等商品時,他們已經(jīng)清楚地了解 商品交叉銷售對于商品交易的重要性,一些聰明的家伙會采取種種措施鼓勵客戶 多交換一些商品(估計是一袋貝殼加一條魚換一袋大米)?!捌【婆c尿布”的故事 只是對商品交叉銷售現(xiàn)象的一種現(xiàn)代解釋,并不是出現(xiàn)“啤酒與尿布”的故事之 后,才存在商品交叉銷售的現(xiàn)象。從這個意義上講,沃爾瑪并沒有發(fā)現(xiàn)新大陸, 只不過把我們視而不見的現(xiàn)象挖出來,并從中發(fā)現(xiàn)了商業(yè)價值。沃爾瑪?shù)膭?chuàng)始人 老沃爾頓說,retail is detail (零售就是細節(jié))。研究商品關(guān)聯(lián)關(guān)系的方法就是購物籃分析,在購物籃分析方面有兩個值得我 們學(xué)習(xí)的榜樣,一個是美國的沃爾瑪,另一個是日本的7-
8、11便利店。同樣是購 物籃分析,沃爾瑪強調(diào)找出商品之間的關(guān)聯(lián)關(guān)系,比如啤酒與尿布,而7-11便 利店的重點在于找出影響商品銷售的所有因素,比如碳酸飲料與氣溫的關(guān)系等 等。換句話說,沃爾瑪重點是分析購物籃內(nèi)商品之間的關(guān)聯(lián)關(guān)系,而日本7-11 便利店的重點是從購物籃外面找影響商品銷售的關(guān)聯(lián)關(guān)系。美式購物籃分析以沃爾瑪為代表的美食購物籃分析的目標(biāo)一般是賣場面積巨大,通常都是上 萬平方米,商品種類繁多,大多在10萬種以上,所以要通過購物籃分析找出淹 沒在不同區(qū)域商品之間的關(guān)聯(lián)關(guān)系,并將這些關(guān)聯(lián)關(guān)系用于商品關(guān)聯(lián)陳列、促銷 等具體工作中,是很難通過人工完成的。比如啤酒在酒類區(qū)域,尿布在嬰兒用品 區(qū)域,兩個
9、商品陳列區(qū)域相差幾十米,甚至可能是“樓上、樓下”的陳列關(guān)系, 用肉眼很難發(fā)現(xiàn)啤酒與尿布存在關(guān)聯(lián)關(guān)系的規(guī)律。我們把找出購物籃中商品之間關(guān)系的方法稱為“美式購物籃”分析法,這種 方法適合應(yīng)用于類似沃爾瑪這樣的大賣場,用于找出不同陳列區(qū)域商品之間的 關(guān)系。英國的Tesco連鎖超市、Safeway連鎖超市也都是這種購物籃分析的高手。 我們這個課程所主要研究的目標(biāo)也是這種美食購物籃。日式購物籃分析日本這個國家很神奇,雖然身為島國,但是經(jīng)濟發(fā)達。分析日式購物籃確實 能夠看到日本人在經(jīng)商方面的巧妙之處。日本的超市以7-11便利店為典型,7-11 便利店營業(yè)面積都很小,一般只有100250平方米,商品品種30
10、0010000種, 是典型的“螺螄殼里做道場”。如我們在電影或者泡沫劇里面所見,日本很多門店的經(jīng)營面積狹小,站在門 店里任何一個角落,所有的商品轉(zhuǎn)個身就全看見了一一真正的抬頭不見低頭見, 所以找出商品關(guān)聯(lián)關(guān)系不是日本7-11便利店的重點:你就是找出來啤酒與尿布 之間有“暗戀”關(guān)系,也沒用!因為啤酒與尿布本來就在一起。當(dāng)然日本7-11便利店這類相關(guān)陳列的故事也是有的,比如養(yǎng)麥冷面與納豆、 魚肉香腸與面包、酸奶與盒飯等等,但是畢竟起不到主要作用,日本7-11便利 店更關(guān)注的是:氣溫由28笆上升到30笆,對碳酸類飲料、涼面的銷售量會有什么影響?下雨的時候,關(guān)東煮的銷售量會有什么變化?盒飯加酸奶、盒飯
11、加罐裝啤酒都是針對什么樣的客戶群體?他們什么時 間到門店買這些商品?所以,日本人的重點是分析所有影響商品銷售的關(guān)聯(lián)因素,比如天氣、溫度、 時間、事件、客戶群體等,這些因素我們稱為商品相關(guān)性因素。日本人對于所有影響商品銷售的關(guān)聯(lián)因素研究得非常透徹,因此日本就會有 氣溫-碳酸飲料指數(shù)、空調(diào)指數(shù)、冰激凌指數(shù),因此就不難理解為什么7-11便利 店會設(shè)置專門的氣象部門,因此更能夠理解為什么日本7-11便利店會要求門店 每天5次將門店內(nèi)外的溫度、濕度上傳回總部,供總部與商品銷售進行對比分析。與商品之間的關(guān)聯(lián)關(guān)系相比,日本7-11便利店認為這些關(guān)聯(lián)因素更重要。 由于這是日本7-11便利店大量采取的方式,我們
12、也稱為“日式購物籃”分析法?!捌【坪湍虿肌惫适掳裁礃拥暮x?沃爾瑪?shù)摹捌【婆c尿布”的故事實際上向我們揭示了零售業(yè)未來的獲利及生 存模式。他凸顯了零售賣場中一個全新的管理理念,即商品之間是具有關(guān)聯(lián)關(guān)系 的,發(fā)現(xiàn)并利用這些商品之間的關(guān)聯(lián)關(guān)系,可以在無法大幅增加門店客戶數(shù)的前 提下,通過增加購物籃中的商品數(shù)量達到增加銷售額的目的,從而獲得更大的經(jīng) 營收益。啟示一:購物籃大于商品有在零售業(yè)工作經(jīng)驗的朋友都知道,老板考核大家的主要指標(biāo)是商品銷售 額,你的工資袋取決于商品的銷售額。老板會將商品銷售指標(biāo)下發(fā)到個人,每個 人都只會關(guān)注自己的“一畝三分地”,賣啤酒的只管悶頭賣啤酒,賣尿布的只管 悶頭賣尿布,
13、每個柜臺只管自己的商品是否能進入客戶手中的購物籃。賣啤酒的 不關(guān)心、購物籃中的尿布,賣尿布的也漠視購物籃中的啤酒,只要別漏了自己柜臺 的東西就行了,因為漏了自己的商品,這個月的獎金就沒了,人人只掃門前雪, 長此以往商店的整體效益當(dāng)然不會好了,效益不好就要裁員,大家都沒好果子吃。 反觀沃爾瑪?shù)馁u場管理體系中,購物籃是主要的管理對象,而不僅僅是商品。為什么沃爾瑪會以購物籃為管理重點?沃爾瑪認為商品銷售量的沖刺只是 短期行為,而零售企業(yè)的生命力取決于購物籃。一個小小的購物籃體現(xiàn)了客戶的 真實消費需求和購物行為,每一只購物籃里都蘊藏著太多的客戶信息。零售業(yè)的 宗旨是服務(wù)客戶,沃爾瑪認為商店的管理核心應(yīng)
14、該是以購物籃為中心的顧客經(jīng)營 模式,商品排名只能體現(xiàn)商品自身的表現(xiàn),而購物籃可以體現(xiàn)客戶的購買行為及 消費需求,關(guān)注購物籃可以使門店隨時掌握客戶的消費動向,從而使門店始終與 客戶保持一致。啟示二:購物籃方面的差距購物籃的表現(xiàn)形式就是我們常說的“客單價”,客單價的高低直接反映了零 售企業(yè)的經(jīng)營效益。根據(jù)AC 尼爾森2006年對國內(nèi)零售企業(yè)的調(diào)查發(fā)現(xiàn),從 周一到周五正常工作日,同樣一個萬米經(jīng)營面積的大賣場,國內(nèi)賣場的平均客單 價是29元,家樂福、沃爾瑪、歐尚等國際零售巨頭賣場的客單價為75元,好又 多、大潤發(fā)、樂購等臺資賣場客單價為50元。到了周末(周六、周日)的差距更 大,國內(nèi)賣場客單價為35元
15、,臺資賣場客單價為80元,外資賣場可以達到149 元,這就是我們國內(nèi)企業(yè)在購物籃方面的差距。我們知道,銷售額=客單價X客流數(shù)。在同等客流量的情況下,我們的企業(yè) 由于客單價低,已經(jīng)先失一著,銷售業(yè)績要比外資企業(yè)低200%,比臺資企業(yè)低 60%。此外,銷售額低會帶來很多問題,比如毛利額低、通道費低、與供應(yīng)商的 話語權(quán)降低,甚至?xí)苯佑绊懙狡髽I(yè)的生存。因此,要想提高商業(yè)企業(yè)的銷售業(yè) 績,必須改善企業(yè)購物籃,全面提升客單價,可以說零售企業(yè)的購物籃代表了企 業(yè)的生存權(quán)!另據(jù)有關(guān)報道,客戶到家樂福賣場的年平均購物頻度只有9.8次,但是在快 速消費品的市場份額卻比年平均客戶購物頻度高達51次的華潤蘇果高出3
16、.63%,家樂福、沃爾瑪、易初蓮花等外資零售企業(yè)僅僅利用客戶幾次上門購物 的機會,就獲得了遠比國內(nèi)零售同行高很多的快速消費品市場份額。尤其要注意的是,沃爾瑪、歐尚等外資零售企業(yè)在國內(nèi)只有區(qū)區(qū)的十幾家門 店,居然占據(jù)了非常大的市場份額,充分顯示了這些外資零售企業(yè)在購物籃方面 的確有“高招”?!捌【婆c尿布”故事的依據(jù)是商品之間的相關(guān)性(也稱關(guān)聯(lián)性,英文名稱為 association rule),商品相關(guān)性是指商品在賣場中不是孤立的,不同商品在銷售中 會形成相互影響關(guān)系(也稱關(guān)聯(lián)關(guān)系),比如“啤酒與尿布”故事中,尿布會影 響啤酒的銷量。在賣場中商品之間的關(guān)聯(lián)關(guān)系比比皆是,比如咖啡的銷量會影響 到咖啡
17、伴侶、方糖的銷售量,牛奶的銷量會影響面包的銷售量等等。所謂事物之間的相關(guān)性是指當(dāng)一個事物變化時,另一個事物也會發(fā)生變化。 當(dāng)事物之間的變化是相互抵消的,比如豬肉價格上漲、豬肉銷量下降,我們稱這 種相關(guān)性是負相關(guān);當(dāng)事物之間的變化呈現(xiàn)同一個方向發(fā)展時,比如氣溫上升、 冷飲銷量也上升,我們稱這種相關(guān)性是正相關(guān)。有些事物的相關(guān)性顯而易見,有些則不是那么明顯。美國華爾街股票分析師 將女性超短裙的長度與道瓊斯股票指數(shù)建立了關(guān)聯(lián),超短裙的長度與股票指數(shù) 成反比趨勢,據(jù)說十分靈驗,這就是相關(guān)性在生活中的種種體現(xiàn)。商店中的關(guān)聯(lián)性更是比比皆是,比如煙酒銷售的關(guān)聯(lián)關(guān)系:當(dāng)門店附近有建 筑工地時,低檔煙、酒的銷售就
18、會上升;當(dāng)附近有高檔社區(qū)時,中華煙、葡萄酒 的銷售量就會上升。提到商品相關(guān)性,很多人認為就是數(shù)據(jù)分析的事兒,其實對于商品相關(guān)性來 說,更重要的是客戶心理層面的因素,畢竟是人在提著購物籃,而不是猴子??蛻粼谫徫飼r的心理行為是產(chǎn)生商品之間關(guān)聯(lián)關(guān)系最基本的原因,因此在找 到購物籃規(guī)律時,必須要從客戶消費心理層面解釋這些關(guān)聯(lián)關(guān)系,否則“啤酒與 尿布”會永遠停留在啤酒與尿布兩個商品身上,而沒有任何的推廣意義。要想詳 細了解商品相關(guān)性形成的客戶心理因素,要進行大量的客戶消費行為觀察,構(gòu)建 客戶購物籃場景,才可使“啤酒與尿布”的故事發(fā)揚光大。二、關(guān)聯(lián)規(guī)則的概念關(guān)聯(lián)規(guī)則挖掘發(fā)現(xiàn)大量數(shù)據(jù)中項集之間有趣的關(guān)聯(lián)或相
19、關(guān)聯(lián)系。它在數(shù)據(jù)挖 掘中是一個重要的課題,最近幾年已被業(yè)界所廣泛研究。關(guān)聯(lián)規(guī)則挖掘的一個典型例子是購物籃分析。關(guān)聯(lián)規(guī)則研究有助于發(fā)現(xiàn)交易 數(shù)據(jù)庫中不同商品(項)之間的聯(lián)系,找出顧客購買行為模式,如購買了某一商 品對購買其他商品的影響。分析結(jié)果可以應(yīng)用于商品貨架布局、貨存安排以及根 據(jù)購買模式對用戶進行分類。Agrawal等于1993年首先提出了挖掘顧客交易數(shù)據(jù)庫中項集間的關(guān)聯(lián)規(guī)則 問題,以后諸多的研究人員對關(guān)聯(lián)規(guī)則的挖掘問題進行了大量的研究。他們的工 作包括對原有的算法進行優(yōu)化,如引入隨機采樣、并行的思想等,以提高算法挖 掘規(guī)則的效率;對關(guān)聯(lián)規(guī)則的應(yīng)用進行推廣。最近也有獨立于Agrawal的頻
20、集方法的工作,以避免頻集方法的一些缺陷, 探索挖掘關(guān)聯(lián)規(guī)則的新方法。也有一些工作注重于對挖掘到的模式的價值進行評 估,他們提出的模型建議了一些值得考慮的研究方向。關(guān)聯(lián)規(guī)則挖掘可以發(fā)現(xiàn)存在于數(shù)據(jù)庫中的項目或?qū)傩蚤g的有趣關(guān)系,這些關(guān) 系是預(yù)先未知的或者被隱藏的。為了準(zhǔn)確描述關(guān)聯(lián)規(guī)則挖掘問題,需要給出關(guān)聯(lián) 規(guī)則挖掘問題的正式定義,下面用事務(wù)數(shù)據(jù)庫來定義關(guān)聯(lián)規(guī)則。設(shè)D交易(transaction) T的集合,D = t,t ,.,t ,這里交易T是項的集合,1 2 n可以表述為:T = t,t ,.,t 并且T c D o T中的兀素i = j = 1,2,.,p稱為項。1 2 Pj對應(yīng)每一個交易有唯
21、一的標(biāo)識,如交易號,記作TID。設(shè)I = i, i,., i 是數(shù)據(jù)1 2 m 集中所有項的集合,/是二進制文字的集合。/中的任何子集稱為項目集 (itemset),若1X1 = k,則稱集合X為K -項集。設(shè)七和X分別為D中的事務(wù)和項 目集,如果X c tk,稱事務(wù)tk包含項目集X。項目集X的支持率support(X),若 support(X)不小于用戶指定的最小支持率(記作:minsupport),則稱X為頻繁項目 集,否則稱X為非頻繁項目集。設(shè)X,丫是數(shù)據(jù)集D中的項目集。若XcY, 則support(X) support(Y );若X c Y,如果X是非頻繁項目集,則Y也是非頻 繁項目集
22、;若X c Y,如果Y是頻繁項目集,則X也是頻繁項目集。一個關(guān)聯(lián)規(guī)則是形如X = Y的蘊涵式,這里X,Y都是項目集,且X u C1, Y u 1,并且X I Y =中,X,Y分別稱為關(guān)聯(lián)規(guī)則X = Y的前提和結(jié)論。一般使用支持度(support)和置信度(confidence)兩個參數(shù)來描述關(guān)聯(lián)規(guī) 則的屬性。支持度規(guī)則X = Y在數(shù)據(jù)庫D中的支持度(support)是交易集中同時包含X, Y的 事務(wù)數(shù)與所有事務(wù)數(shù)之比,記為support(X = Y) = sup port(X u Y)。支持度描 述了X, Y這兩個項集在所有事務(wù)中同時出現(xiàn)的概率。置信度規(guī)則X = Y在事務(wù)集中的置信度(conf
23、idence)是指同時包含X, Y的事務(wù)數(shù) 與包含X的事務(wù)數(shù)之比,它用來衡量關(guān)聯(lián)規(guī)則的可信程度。記為 confidence(X = Y)=,叩port(X U Y)。support(X)一般情況下,只有關(guān)聯(lián)規(guī)則的置信度大于期望可信度,才說明X的出現(xiàn)對Y 的出現(xiàn)有促進作用,也說明了它們之間的某種程度的相關(guān)性。給定一個事務(wù)集D, 挖掘關(guān)聯(lián)規(guī)則的問題就是產(chǎn)生支持度和置信度分別大于用戶事先給定的最小支 持度和最小置信度的關(guān)聯(lián)規(guī)則。關(guān)聯(lián)規(guī)則挖掘的任務(wù)就是要挖掘出D中所有的強 規(guī)則X = Y。強規(guī)則X = Y對應(yīng)的項目集(Xu Y)必定是頻繁項目集,頻繁項 目集(X u Y)導(dǎo)出的關(guān)聯(lián)規(guī)則X = Y的置信
24、度可由頻繁項目集X和(X u Y)的 支持度計算。因此,可以把關(guān)聯(lián)規(guī)則挖掘劃分為兩個子問題:一個是找出所有的 頻繁項目集:即所有支持度不低于給定的最小支持度的項目集。另一個是由頻繁 項目集產(chǎn)生強關(guān)聯(lián)規(guī)則:即從第一個子問題得到的頻繁項目集中找出置信度不小 于用戶給定的最小置信度的規(guī)則。其中,第一個子問題是關(guān)聯(lián)規(guī)則挖掘算法的核 心問題,是衡量關(guān)聯(lián)規(guī)則挖掘算法的標(biāo)準(zhǔn)。三、Apriori算法關(guān)聯(lián)規(guī)則的算法相當(dāng)多,其中經(jīng)典算法Apriori是最有影響的挖掘布爾關(guān)聯(lián) 規(guī)則頻繁項目集的算法,同時大部分關(guān)聯(lián)規(guī)則算法也都是經(jīng)典算法Apriori的演 繹和改進。Apriori算法是通過有候選項集的方法來產(chǎn)生頻繁項
25、集,它的核心思 想:任何頻繁項集的所有子集一定是頻繁項集。在Apriori算法中,遍歷數(shù)據(jù)庫,得到大一項集尸1。如果Fi非空,由匕產(chǎn)生 長度為2的候選項集合C,對事務(wù)處理數(shù)據(jù)庫中的每一個事務(wù)七求出在C2中 的全部子集Ct,對于Ct中的每一個長度為2的候選取項集c,令c的計數(shù)c. count 加1。當(dāng)掃描事務(wù)處理數(shù)據(jù)庫一遍后,篩選取出候選項集合C 2中所有計數(shù)滿足最 小支持度的項集組成了長度為2的頻繁項集合。用以上步驟重復(fù)處理新得到的頻 繁項集合,直到?jīng)]有頻繁項集合產(chǎn)生。在這里,由于從候選項集中產(chǎn)生頻繁項集的過程需要遍歷數(shù)據(jù)庫,因此如何 正確地產(chǎn)生最少數(shù)目的候選項集十分關(guān)鍵。候選項集產(chǎn)生的過程A
26、priori -gen(Fk-l)被分為兩個部分:聯(lián)合與剪技。采用這種方式,使得所有的頻繁項集既 不會遺漏又不會重復(fù)。剪枝的目的是減少掃描數(shù)據(jù)庫時需要比較的候選項集的數(shù) 量。剪枝的原則是:候選項集C的k個長度為k -1的子集都在Fki中,則保留C ; 否則C被剪枝。Apriori算法的描述如下。輸入:事務(wù)數(shù)據(jù)庫D ;最小支持度閥值min_sup。輸出:D中的頻繁項集L。方法:第1步產(chǎn)生頻繁項集第2步產(chǎn)生頻繁k(2 end)項集產(chǎn)生頻繁候選k項集由頻繁k -1項集連接成為k項集檢測k項集的所有的上-1子集是否為頻繁項集,若是該k項集就成為了頻繁候選項集掃描事務(wù)數(shù)據(jù)庫。對每個候選k項集計數(shù)達到最少
27、支持度的頻繁候選k項成為頻繁k項集。四、Clementine購物藍分析本次實驗是以clementine軟件當(dāng)中的數(shù)據(jù)為數(shù)據(jù)來源展開數(shù)據(jù)挖掘工作的, 數(shù)據(jù)樣本為Demos文件夾里的baskrule.sav文件,數(shù)據(jù)量為一千余條,保證了實 驗結(jié)果的依據(jù)性和可靠性。實驗的目的是基于關(guān)聯(lián)規(guī)則,利用clementine實現(xiàn)市 場購物籃分析。SPSS Clementine支持標(biāo)準(zhǔn)化的數(shù)據(jù)挖掘流程,現(xiàn)在將從其中的數(shù)據(jù)理解、 數(shù)據(jù)準(zhǔn)備、建立模型等幾個方面進行本課題的研究。下圖1是整個數(shù)據(jù)流的圖形:圖1整體數(shù)據(jù)流此次實驗的研究方法可以概括為如圖2.圖2研究方法流程4.1數(shù)據(jù)理解階段數(shù)據(jù)準(zhǔn)備是整個數(shù)據(jù)挖掘過程的重
28、要部分,數(shù)據(jù)質(zhì)量越高,挖掘結(jié)果準(zhǔn)確性 越高。首先選擇“數(shù)據(jù)源”選項卡里面的固定文件節(jié)點,將其添加到數(shù)據(jù)流區(qū),并 導(dǎo)入baskrule.sav文件數(shù)據(jù)。此時可以用輸出”選項卡里的表結(jié)點與數(shù)據(jù)文件 連接,查看數(shù)據(jù)的情況。數(shù)據(jù)當(dāng)中18個變量的情況可見下表1.表1研究數(shù)據(jù)字段說明序號字段名字段含義字段取值1Cardid購買此籃商品的客戶的忠誠卡標(biāo)識符正整數(shù)2Value購物籃的總購買價格正數(shù)3pmethod購物籃的支付方法CASH/CHQUE/CARD4Sex性別F/M5homeown卡持有者是否擁有住房T/F6Income收入正數(shù)7Age年齡正整數(shù)8Fruitveg果蔬T/F9freshmeat鮮肉T
29、/F10Dairy乳制品T/F11cannedveg罐裝蔬菜T/F12cannedmeat烤肉T/F13frozenmeal凍肉T/F14Beer啤酒T/F15Wine酒T/F16Softdrink飲料T/F17Fish魚T/F18confectionery糖果T/F在上述數(shù)據(jù)當(dāng)中,1-7屬于顧客信息,8-18屬于購物籃訂單的信息,每一個 字段都屬于一個訂單項。4.2數(shù)據(jù)準(zhǔn)備階段在數(shù)據(jù)表當(dāng)中既無缺失值,又無數(shù)據(jù)重復(fù)性的問題出現(xiàn),因此不需要對源數(shù) 據(jù)做過多的數(shù)據(jù)過濾和預(yù)處理過程??紤]到數(shù)據(jù)屬性對于數(shù)據(jù)挖掘建模的影響,需要對數(shù)據(jù)的方向?qū)傩宰鲂薷模?此時可添加“類型”節(jié)點,讓數(shù)據(jù)源固定文件節(jié)點連接到
30、“類型節(jié)點”。類型節(jié)點使用:使用Clementine類型節(jié)點能訪問每個字段的屬性,可以很 便利地擴充腳本內(nèi)容以列出類型節(jié)點中顯示的其他屬性,例如缺失值或方向。編輯“類型節(jié)點”,將所有產(chǎn)品類別的角色設(shè)置為雙向(雙向表示該字段可 以是結(jié)果模型的輸入或者輸出),并將所有其他角色設(shè)置為無(如圖3)。因為每個忠誠卡ID在數(shù)據(jù)集中只出現(xiàn)一次,因此對于建模沒有用處,此時 可將字段卡ID的類型設(shè)置為“無類型”。同時為了確保GRI建模算法不會將 性別視為標(biāo)志,應(yīng)將選擇集作為字段性別的類型。=箱晰有伯is昭 ,: caidid 電 value10 007,49 8863 JJ|a| prndhjdCiifiD.C
31、H.CHEQUE囚物F同囚 rorremi任球0 IncnmeI1D20D.3000H哪柯囚 nuiwgTF囚 fteshmEstTJF.司 danTF囚 cannenveg7JF溢 | cannedmetTF囚血即rn冊HF囚be町TJF國州HETF囚 sotdrinkHF囚胎hTF固 snrMiunetyUF-專看當(dāng)岫豆者熬用靜ti旋電定舊|財白向=uFL - -1-CLIE- rc Fw E rL - -1- - _ - - - rc EL rc rL - -1- rL rl. - 1. - ?. - 1. - ?. - 1. - 1. - n. - 1. - ?. - 1. - 7.
32、- nl. - nl. - 1. - 1. - 7. - 1.圖3數(shù)據(jù)屬性編輯表4.3建立模型階段建立模型之前,必須選擇模型算法,關(guān)聯(lián)規(guī)則算法和決策樹分析算法適合于 本次的購物籃分析。首先,介紹GRI節(jié)點選項最低規(guī)則置信度,可以指定在規(guī)則集中保留規(guī)則的準(zhǔn)確性標(biāo)準(zhǔn)(以百分比表 示)。最大條件數(shù),可以為任何規(guī)則指定最大條件數(shù)。這是一種用來限制規(guī)則復(fù)雜 性的方式。如果規(guī)則太復(fù)雜或者太具體,需要嘗試降低此設(shè)置,此設(shè)置對于訓(xùn)練 時間也具有很大的影響;如果規(guī)則集訓(xùn)練所需的時間過長,需要嘗試降低此設(shè)置。最大規(guī)則數(shù),此選項決定了規(guī)則集中包含的規(guī)則數(shù)。規(guī)則是按照相關(guān)度(由 GRI算法計算)的降序順序包含在內(nèi)的。
33、使用分區(qū)數(shù)據(jù)。如果分區(qū)字段位于流 中,則此選項會將數(shù)據(jù)分割成數(shù)個用于訓(xùn)練、測試和驗證的單獨樣本,并且可能 提供當(dāng)模型擴展為可適用于大型數(shù)據(jù)集(與當(dāng)前的數(shù)據(jù)類似)時,該模型的能力 說明。只顯示值為真的標(biāo)志變量。如果選中此選項,生成的規(guī)則則只會顯示真值。 這樣可能有助于使得規(guī)則更容易理解。接著進行操作。在數(shù)據(jù)準(zhǔn)備過程完成、指定了用于建模的字段后,將GRI 節(jié)點添加到“類型”節(jié)點,編輯它,選擇選項“使用分區(qū)數(shù)據(jù)、“只顯示值為真 的標(biāo)志變量”,設(shè)置最低規(guī)則置信度為50.0%,最大前項數(shù)為3,最大規(guī)則數(shù)為20,最大前項數(shù)和最大規(guī)則數(shù)都不能過多,要能夠適應(yīng)數(shù)據(jù)的屬性和量。如下圖4.4:圖4: GRI節(jié)點編
34、輯按照上圖,點擊運行得出GRI節(jié)點的結(jié)果,可見圖5圖5: GRI節(jié)點運行結(jié)果在最后幾條關(guān)聯(lián)規(guī)則都具有這樣的特征:置信度高,支持度低。這說明規(guī)則 的可信度高,但普遍性不高,也就說明購買罐裝蔬菜,同時購買鮮肉、凍肉和啤 酒的概率極高,但是購買罐裝蔬菜本身在購買活動中出現(xiàn)的概率較低,造成規(guī)則 的使用范圍有限、應(yīng)用機會少。因此最后幾條規(guī)則不具有一般性。而在前幾條關(guān) 聯(lián)規(guī)則中,支持度屬于較高水平,說明應(yīng)用范圍較為廣泛,而置信度也不低,體 現(xiàn)出規(guī)則的可信度也高。這些規(guī)則出現(xiàn)了雙向關(guān)聯(lián)規(guī)則,顯示凍肉、罐裝蔬菜和 啤酒之間存在多種關(guān)聯(lián)。下面可通過單向箭頭具體表現(xiàn):frozenmealbeerbeerfroze
35、nmealfrozenmealcannedvegcannedveg f frozenmealwinef confectioneryconfectionery f wine二、由于圖形選項框中的“Web顯示”在一定機會上能夠讓數(shù)據(jù)中的一些模 式更加突出,所以為了能夠迅速直觀地從上述關(guān)聯(lián)規(guī)則中找到更加貼近的關(guān)聯(lián)規(guī) 則,可將Web節(jié)點附加到“類型”節(jié)點。首先,介紹Web節(jié)點:數(shù)據(jù)挖掘過程的若干個階段都會用圖形和圖表來探索導(dǎo)入到Clementine中的數(shù)據(jù)。例如,可將散點圖或條形圖節(jié)點連接到數(shù)據(jù)源,以了解數(shù)據(jù)類型和數(shù) 據(jù)分布。Web節(jié)點屬于圖形節(jié)點之一,網(wǎng)絡(luò)節(jié)點用于顯示兩個或更多符號字段 的值之間,關(guān)
36、系的緊密程度10。在圖形中顯示的鏈接以不同類型的線條表示, 依次說明鏈接的強度不同。例如,可以使用網(wǎng)絡(luò)節(jié)點,檢查膽固醇水平、血壓及 可有效治療病人疾患的藥品之間的關(guān)系。其中鏈接的三種類型有:強鏈接,以粗線條顯示,用以說明兩個值之間關(guān)系 緊密,應(yīng)該進一步檢查;普通鏈接,用普通粗細的線條顯示;弱鏈接以虛線顯示。接著進行實驗操作。編輯Web節(jié)點,選擇所有購物籃內(nèi)容字段,選擇僅顯 示真值標(biāo)志,如圖6圖6: Web節(jié)點編輯器執(zhí)行Web節(jié)點,顯示結(jié)果如下圖圖7: Web節(jié)點運行結(jié)果因為大多數(shù)產(chǎn)品類別組合都會出現(xiàn)在多個購物籃中,所以此Web上的強鏈 接太多,無法顯示GRI模型表示的客戶群。要提高臨界值以便只
37、顯示最強的鏈接,需要使用工具欄上的滑塊,來實現(xiàn)最多只顯示50個連接除了要求了連接數(shù)量顯示50個以外,還要指定弱連接和強連接,作用是讓 Web顯示的關(guān)聯(lián)度更加明顯,可單擊工具欄上的黃色雙箭頭按鈕,展開顯示W(wǎng)eb 輸出摘要和控件的對話框:選擇“大小表示強/正常/弱”。將“弱鏈接”設(shè)置為低 于90。將“強鏈接”設(shè)置為高于100。以下為編輯窗口示意圖:圖8: Web節(jié)點編輯鏈接數(shù)最終顯示結(jié)果為:圖9:編輯結(jié)果顯示在最終顯示中,會有三個客戶群突出顯示:第一個,購買魚和果蔬的客戶,可將這類客戶成為“健康食客”第二個,購買酒和糧果的客戶第三個,購買啤酒、凍肉和罐裝蔬菜(“啤酒、豆類和比薩”)的客戶這個時候可
38、以和上面GRI節(jié)點得出的結(jié)果做對比,發(fā)現(xiàn)使用Web節(jié)點能得 到三個強關(guān)聯(lián)的客戶群,而GRI僅標(biāo)識兩客戶群個,健康食客未形成足夠強的 模式,GRI無法發(fā)現(xiàn)它。三、客戶群添加特征標(biāo)志根據(jù)上述數(shù)據(jù)最后進行的關(guān)聯(lián)度分析,客戶購買的產(chǎn)品類型最終標(biāo)識了三個 客戶群,但是還要知道這些客戶的人口統(tǒng)計學(xué)特征。通過為每個客戶群添加特征 標(biāo)志,并使用規(guī)則歸納(C5.0)來基于關(guān)聯(lián)規(guī)則描繪這些標(biāo)志的特征,可以實現(xiàn) 這一點。過程如下:首先,必須獲取每個客戶群的標(biāo)志。使用剛剛創(chuàng)建的Web顯示圖,可以自 動生成每個群的標(biāo)志,使用鼠標(biāo)右鍵,單擊fruitveg和fish之間的鏈接以突出顯 示該鏈接,然后右鍵單擊并選擇“生成鏈
39、接的導(dǎo)出節(jié)點”。如下圖10:圖10:通過Web節(jié)點標(biāo)識客戶群編輯最終的“派生”節(jié)點以將“派生”字段名稱更改為“ healthy”。同樣,使用從wine到confectionery的鏈接,右鍵選擇生成鏈接的導(dǎo)出節(jié)點”將最終 的“派生”字段命名為 wine_confect.對于第三個群(涉及三個鏈接),首先要確保未選擇任何鏈接。然后,按住shift同時單擊鼠標(biāo)左鍵,從而選擇cannedveg、beer和frozenmeal中的全部三個鏈接,然后從web顯示菜單中選擇:生成導(dǎo)出節(jié)點,如下圖11:圖11:第三個群的生成將最終“派生”字段的名稱更改為beer_fromeal_cannedveg:圖12:第三個派生點編輯表四、描繪這些客戶群的特征連續(xù)將現(xiàn)有的類型節(jié)點連接到這三個導(dǎo)出節(jié)點,然后附加另一個類型節(jié)點。 在新類型節(jié)點中,將除以下字段外的所有字段的方向都設(shè)置為無:value、pmethod、sex、homeown、income和age,這些字段的方向應(yīng)該設(shè)置為輸入,同 時將三個客戶群的方向設(shè)置為輸出。、A*讀取侑清除值清除所有恒字段堯型值缺失檢查方向.; :
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 教育機構(gòu)二零二五年度兼職教師聘用含知識產(chǎn)權(quán)保護合同
- 二零二五年度智慧城市項目經(jīng)理職位聘用合同
- 語文文學(xué)鑒賞能力考核題
- 新能源汽車充電樁網(wǎng)絡(luò)規(guī)劃方案書
- 新興消費市場消費者行為分析與營銷策略研究
- 企業(yè)績效評估咨詢服務(wù)協(xié)議
- 農(nóng)村資源環(huán)境保護及修復(fù)協(xié)議書
- 農(nóng)業(yè)市場推廣策略實戰(zhàn)案例分析
- 社區(qū)團購電商平臺合作合同
- 農(nóng)業(yè)合作組織規(guī)范化管理手冊
- 非煤露天礦山風(fēng)險辨識與評估及風(fēng)險控制
- 2022版義務(wù)教育(物理)課程標(biāo)準(zhǔn)(附課標(biāo)解讀)
- AIB(2022版)統(tǒng)一檢查標(biāo)準(zhǔn)-前提方案與食品安全程序
- 網(wǎng)絡(luò)安全技術(shù)服務(wù)方案
- 地鐵站務(wù)員職業(yè)發(fā)展規(guī)劃
- 統(tǒng)編版小學(xué)語文一年級下冊全冊教學(xué)課件(2024年春季版)
- 醫(yī)療器械經(jīng)營質(zhì)量管理制度范本
- 《國家衛(wèi)生統(tǒng)計網(wǎng)絡(luò)直報系統(tǒng)》數(shù)據(jù)填報員操作指南V1.2
- 危險性較大分部分項工程安全專項施工方案專家論證審查表
- 02區(qū)域分析與區(qū)域規(guī)劃(第三版)電子教案(第二章)
- 泡沫鉆井技術(shù)
評論
0/150
提交評論