CRM挖掘算法應(yīng)用舉例-0_第1頁
CRM挖掘算法應(yīng)用舉例-0_第2頁
CRM挖掘算法應(yīng)用舉例-0_第3頁
CRM挖掘算法應(yīng)用舉例-0_第4頁
CRM挖掘算法應(yīng)用舉例-0_第5頁
已閱讀5頁,還剩8頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

1/1CRM挖掘算法應(yīng)用舉例關(guān)聯(lián)規(guī)則應(yīng)用舉例下面結(jié)合顧客購買實例提出一個可行的關(guān)聯(lián)分析方法。

某公司專業(yè)生產(chǎn)化妝用品和沐浴用品,該公司在全國各大城市的各大商場都設(shè)點銷售,公司對一定時間范圍內(nèi)顧客購買詳細情況作了收集,情況如表1所示(限于文章篇幅,僅列出六個顧客、五種產(chǎn)品為例)。

表1:

顧客購買情況表顧客購買產(chǎn)品A日霜、洗面奶、晚霜B洗發(fā)水、晚霜、沐浴乳C洗面奶、晚霜D洗發(fā)水、沐浴乳、洗面奶、日霜E洗發(fā)水F洗發(fā)水、沐浴乳針對表1進行關(guān)聯(lián)分析,首先構(gòu)造兩種商品間的關(guān)聯(lián)表,如表2所示,表中每一個數(shù)值表示的是行、列代表的兩種商品同時被一個用戶購買的次數(shù)。

表2:

兩種商品間關(guān)聯(lián)表YX洗面奶日霜晚霜洗發(fā)水沐浴乳洗面奶32211日霜22111晚霜21311洗發(fā)水11143沐浴乳11133第二步,針對設(shè)定的最小支持度閥值,計算每一個X的最小支持度,將大于最小支持度閥值的X列出(本例,設(shè)最小支持度閥值為0.5):

support(洗面奶)=0.5;support(晚霜)=0.5;support(洗發(fā)水)=0.667;support(沐浴乳)=0.5.第三步,針對設(shè)定的最小置信度閥值和上步列出的X,計算YX的最小置信度表,如表3所示:

表3:

YX的最小置信度表YX洗面奶晚霜洗發(fā)水沐浴乳洗面奶/0.6670.3330.333晚霜0.667/0.3330.333洗發(fā)水0.250.25/0.75沐浴乳0.3330.3331/第四步,將大于最小置信度閥值的YX列出(本例,設(shè)最小置信度閥值為0.5),即為關(guān)聯(lián)分析所得出的規(guī)則:

Rule1:晚霜洗面奶,support=0.5,confidence=0.667Rule2:洗面奶晚霜,support=0.5,confidence=0.667Rule3:洗發(fā)水沐浴乳,support=0.667,confidence=0.75Rule4:沐浴乳洗發(fā)水,support=0.5,confidence=1從上述規(guī)則可以初步得出結(jié)論:

1.購買本公司產(chǎn)品的顧客中相當(dāng)比例的人有晚上用洗面奶洗面,并用晚霜保養(yǎng)皮膚的習(xí)慣(估計顧客中有一定比例是白領(lǐng)上班族,早上匆忙,晚上空暇)。

2.購買洗發(fā)水的顧客多半會同時購買沐浴乳,而購買沐浴乳的顧客則幾乎肯定會購買洗發(fā)水(因多數(shù)人沐浴時同時洗發(fā),并且洗發(fā)次數(shù)多于沐浴)。

根據(jù)上述規(guī)則,公司在營銷時采取了如下措施:

1.將晚霜與洗面奶、洗發(fā)水與沐浴乳放置在一起,方便顧客購買。

2.營業(yè)員在顧客購買了一種商品后,適當(dāng)推薦另一種商品。

3、在生產(chǎn)與發(fā)貨運輸上,將關(guān)聯(lián)產(chǎn)品配套按排。

采取這些措施后,顧客的交叉消費大為提高,商場與顧客的滿意度也有所提高。

聚類分析應(yīng)用示例聚類分析問題可描述為:

給定m維空間mR中的n個向量,把每個向量歸屬到S個聚類中的某一個,使得每個向量與其聚類中心的距離最小。

聚類分析問題的實質(zhì)是一個全局最優(yōu)問題。

在這里,m可認為是樣本的參與聚類的屬性個數(shù),n是樣本的個數(shù),S是由用戶預(yù)先設(shè)定的分類數(shù)目。

定義對于m維空間mR中的向量,,jiXX{}imiiixxxX...,,,21=,{}jmjjjxxxX...,,,21=,向量,,jiXX之間的距離為:

=k=mjkikijxxd12)(.以下提出的聚類算法借鑒了模糊數(shù)學(xué)中模糊分類的思想,計算的基本思路是:

對于m維空間mR中的一組向量),...2,1=(niXi,首先人為地給出分類個數(shù)c和一個初始分類jT,由此得出各向量的初始隸屬度:

=時當(dāng)時當(dāng)jijiijTXTXu01,以及計算每一個初始分類jT的初始聚類中心jV,然后反復(fù)迭代直到分類結(jié)束,每一個向量都以一定的隸屬度歸入某一類。

迭代的過程分以下幾步:

⑴按定義1中距離計算每一個向量iX到所屬類聚類中心jV的距離=k+=mljkiklijvxd12)()1()(其中l(wèi)表示迭代次數(shù),初始時l=0,jkv是jV的第k個分量。

⑵計算每一個向量的隸屬度=k+++=cliklijlijddu111)1()1()1()(1j=1,2,c,i=1,2,n.其中是一個關(guān)系到收斂速度的經(jīng)驗常數(shù)(1)。

⑶判斷隸屬度是否收斂+)(ij)1(ijlluuj=1,2,c,i=1,2,n.如果上式成立,分類迭代結(jié)束。

⑷計算每類的新的聚類中心}{)1(+lj=VV=k=k+=nlkjnklkjljuXuV1)(1)()1()()(j=1,2,c.由上述設(shè)計聚類算法Clustering如下:

算法輸入:

nm數(shù)組item,其中n表示分類樣本的個數(shù),m表示每個樣本的屬性個數(shù),分類數(shù)c,收斂速度常數(shù)(1),收斂判斷數(shù)。

nc數(shù)組)0(u,其中c表示分類個數(shù)。

算法輸出:

nc數(shù)組0l)(ku,表示收斂了的隸屬度數(shù)組。

LOOP:⑴for(j=1;j=c;j++){=k=k+nlnlljkukitemjkujV1)(1)()1()),(()()),(()(}//新聚類中心⑵for(j=1;j=c;j++){for(i=1;i=n;i++){=k+mllkjvkiitemjid12)()1()),(),((),(}}//新的距離⑶for(j=1;j=c;j++){for(i=1;i=n;i++){=k+++clllkidjidjiu111)1()1()1()),(),((1),(}}//新的隸屬度⑷for(j=1;j=c;j++){for(i=1;i=n;i++){if+)(ij)1(ijlluuthen1+ll;GOLOOP}}//判斷收斂⑸RETURN)1(+lU以下結(jié)合實例討論聚類分析方法在員工業(yè)績考核中的應(yīng)用:

某商場擬對職工進行綜合考評,因以往并未對考評指標(biāo)做過量化工作,因此考慮首先將職工按照幾個指標(biāo)分成優(yōu)、一般、欠佳三類。

根據(jù)有關(guān)銷售業(yè)績、出勤天數(shù)、顧客投訴次數(shù)的統(tǒng)計資料如表(一)所示:

(限于篇幅,僅以8位職工,3個指標(biāo)為例)表(一)職工業(yè)績統(tǒng)計表職工銷售金額(千元)出勤天數(shù)顧客投訴次數(shù)A72.50252B80.34250C73.00241D65.22232E79.20240F72.38231G63.11242H74.25241利用上述Clustering聚類算法進行分類,初始分類共分三類,隨意地將職工A、B、C歸于一類,職工D、E、F歸于一類,職工G、H歸于一類,初始隸屬度為:

=100100010010010001001001)0(U,聚類過程如表(二)所示:

表(二)分類迭代隸屬度表職工第1次迭代第2次迭代第6次迭代第7次迭代A0.0730.8750.0520.0320.9480.0200.0480.9100.0410.0480.9120.041B0.4860.3050.2090.5450.2910.1640.8630.0930.0440.8650.0920.043C0.2160.6720.1120.0990.8510.0500.0190.9670.0140.0200.9660.015D0.1840.2630.5520.0960.1430.7600.0530.0990.8490.0540.1020.843E0.5170.2920.1910.5910.2680.1400.9300.0490.0210.9280.0510.022F0.0370.9360.0280.0580.9040.0380.0610.8850.0540.0600.8660.053G0.2200.2920.4890.1630.2250.6110.0620.1040.8340.0600.1020.838H0.5220.3600.1170.3560.5410.1040.1610.7480.0910.1610.7480.091從上面迭代隸屬度表中可以看出,當(dāng)?shù)降谄叽螘r,隸屬度已經(jīng)收斂(=0.05),從上表得出分類結(jié)果為:

第一類{B,E},第二類{A,C,F,H},第三類{D,G},于是,可以得出職工B、E屬于優(yōu)等,職工A、C、F、H屬于一般,職工D、G欠佳的結(jié)論,結(jié)論是合理的、易理解的。

ID3算法學(xué)習(xí)過程在學(xué)習(xí)開始的時候,只有一棵空的決策樹,并不知道如何根據(jù)屬性將實例進行分類,我們所要做的就是根據(jù)訓(xùn)練實例集構(gòu)造決策樹來預(yù)測如何根據(jù)屬性對整個實例空間進行劃分。

設(shè)此時訓(xùn)練實例集為X,目的是將訓(xùn)練實例分為n類。

設(shè)屬于第i類的訓(xùn)練實例個數(shù)是Ci,X中總的訓(xùn)練實例個數(shù)為|X|,若記一個實例屬于第i類的概率為P(Ci),則:

XCCPii=)(此時決策樹對劃分C的不確定程度為:

=)(log)();(iiCpCpCXH以后在無混淆的情況下將H(X,C)簡記為H(X)。

=======ijijjijijjijiaaCpaaCpaapaaCpaaCpaXH)/(log)/()()/(log);()/(i====jjijijaaCpaaCpaap)/(log)/()(決策樹學(xué)習(xí)過程就是使得決策樹對劃分的不確定程度逐漸減小的過程。

若選擇測試屬性a進行測試,在得知a=aj的情況下屬于第i類的實例個數(shù)為Cij個。

記p(Ci;a=aj)=Cij/|X|,即p(C;a=aj)為在測試屬性a的取值為aj時它屬于第i類的概率。

此時決策樹對分類的不確定程度就是訓(xùn)練實例集對屬性X的條件熵。

i===jijijaaCaaCpXH)/log()/()(又因為在選擇測試屬性a后伸出的每個a=aj葉結(jié)點Xj對于分類信息的信息熵為j==jjXHaapaXH)()()/((1)屬性a對于分類提供的信息量H(X;a)為:

)/()();(aXHXHaXH=(2)式(1)的值越小則式(2)的值越大,說明選擇測試屬性a對于分類提供的信息越大,選擇a之后對分類的不確定程度越小。

Quinlan的ID3算法就是選擇使得H(X;a)最大的屬性作為測試屬性,即選擇使得式(1)最小的屬性a。

ID3算法應(yīng)用舉例下面結(jié)合商店定位實例提出一個可行的決策樹分析方法。

某公司是一家專業(yè)的西服生產(chǎn)廠家,在全國各大城市均設(shè)立了連鎖銷售商店。

公司為進一步擴大銷售,擬定建立一批新的連鎖銷售商店。

為了對連鎖銷售商店的位置、規(guī)模等有一個理想的定位,公司收集了以前設(shè)立的商店和同行的同類商店的詳細情況,并對其經(jīng)營效果作了評估,如下表所示(限于文章篇幅,僅以位置、規(guī)模、檔次3個屬性、每個屬性兩種取值為例)。

已設(shè)立的商店和同行的同類商店的詳細情況表商店個數(shù)位置檔次規(guī)模經(jīng)營效果20市中心高大一般15市中心高一般成功8市中心一般大成功6城鄉(xiāng)結(jié)合部高一般一般6城鄉(xiāng)結(jié)合部一般一般成功10市中心一般一般一般決策樹分析首先針對上表計算各個屬性的信息熵,并將屬性從大到小重新排列。

計算得:

H(X/位置)=(53/65)*[(-23/53)*LOG(23/53)+(-30/53)*LOG(30/53)]+(12/65)*[(-6/12)*log(6/12)+(-6/12)*log(6/12)]=0.298H(X/檔次)=(41/65)*[(-15/41)*log(15/41)+(-26/41)*log(26/41)]+(24/65)*[(-14/24)*log(14/24)+(-10/24)*log(10/24)]=0.289H(X/規(guī)模)=(28/65)*[(-8/28)*log(8/28)+(-20/28)*log(20/28)]+(37/65)*[(-21/37)*log(21/37)+(-16/37)*log(16/37)]=0.281本例中,以規(guī)模對分類的貢獻最大,所以應(yīng)首先按規(guī)模進行劃分。

第二步,建立決策樹:

首先按規(guī)模建立決策樹,得到數(shù)據(jù)的第一次分組,然后依按同樣方法按位置或檔次分組(對分組得到的兩個子組按第一步形式進行同樣的計算),得到數(shù)據(jù)的第二次分組和數(shù)據(jù)的第三次分組。

三次劃分后的決策樹如圖4.2所示:

29成功,36一般15成功,26一般14成功,10一般規(guī)模=大規(guī)模=一般15成功,20一般6一般位置=城鄉(xiāng)位置=市中心檔次=高檔次=一般8成功,10一般6成功位置=市中心位置=城鄉(xiāng)15成功20一般8成功10一般檔次=高檔次=一般圖4.2第三步,從決策樹中得出決策規(guī)則,如下:

Rule1:規(guī)模=大并且位置=市中心并且檔次=一般成功的商店Rule2:規(guī)模=一般并且位置=市中心并且檔次=高成功的商店Rule3:規(guī)模=一般位置=城鄉(xiāng)結(jié)合部成功的商店從上述規(guī)則得出結(jié)論:

公司產(chǎn)品在市中心的商店可以有兩種選擇,一是大眾化、規(guī)?;行?,另一種是精品、專賣店型。

在城鄉(xiāng)結(jié)合部則不宜過分追求大型,應(yīng)以規(guī)模適度為宜。

第四步,利用決策樹和導(dǎo)出的規(guī)則對計劃新開設(shè)的商店是否合適做出評估。

PRISM算法PRISM算法可不首先產(chǎn)生決策樹而直接產(chǎn)生分類規(guī)則,并且得到的規(guī)則比從決策樹中取得的規(guī)則要簡練一些。

(1)信息增益(Informationgain),從上可以看出,關(guān)鍵在于選擇個屬性進行劃分,為了避免使用屬性的無關(guān)值和對分類無關(guān)的屬性,PRISM力圖極大化已知屬性取值時對某一分類所提供的信息量。

如上所述,屬性值可以看成是離散信息系統(tǒng)中的離散信息。

信息i中關(guān)于某一事件的信息量為例如,下表表示隱形眼睛配置決策表,眼鏡師列出了對四種因素不同組合的各種診斷:

隱形眼睛配置決策表決策3序號屬性值abcd序號屬性值abcd決策31111113221121112214221223112131522213411221162222351211317311136121221831123712213193121381222120312219211132132113102112222321221121213233221312212212432223在訓(xùn)練例集合S中,屬于1類的有4個例,屬于2類的有5個例,屬于3類的有15例。

所以,一個訓(xùn)練例屬于1類的概率P(1)是4/24。

這樣,如果信息i是1(即分類為1),則此信息的信息量為類似地,信息2中的信息量為信息3中的信息量為可見,一個事件發(fā)生的概率越小,我們知道該事件已經(jīng)發(fā)生時所收到的信息就越多。

如果收到的信息是屬性d有值1,則這個信息中關(guān)于3久的信息量為其中P(3|d1)是給定d的值為1時3的概率。

對于集合S,P(3|d1)=1,所以可知,屬性d有值1對例子屬于3這一事件所提供的信息量為O.678比特。

如果收到的信息是屬性d有值2,則這個信息中關(guān)于3的信息量為由此可見,知道屬性d有值2與不知道d的值相比,對例子屬于類的確信程度更降低了,故信息量是負值。

因此,d2對于確認3類來講,不是一個好的選擇。

(2)極大化信息增益歸納算法的任務(wù)是要找到一個屬性-值對ax,使其對某分類n貢獻最大的信息量,即極大化I(n|ax)。

我們有由于P(n)對所有的都相同,所以只要求P(n|ax)最大即可。

以n=1,即1為例,對所有的ax,P(n|ax)的值列于下表(a),從表中可見,有2個最佳的候選對:

c2和d2。

例如選c2。

則信息增益為現(xiàn)在對S中屬性c為2的子集重復(fù)上述過程。

從下表(b)可以看出,d2可使P(n|ax)取極大值。

此時信息增益為現(xiàn)在對S中屬性c為2、d為2的子集重復(fù)上述過程。

從下表(c)可以看出有兩個侯選對a1,b1。

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論