聚類分析在客戶細(xì)分領(lǐng)域中的應(yīng)用_第1頁
聚類分析在客戶細(xì)分領(lǐng)域中的應(yīng)用_第2頁
聚類分析在客戶細(xì)分領(lǐng)域中的應(yīng)用_第3頁
聚類分析在客戶細(xì)分領(lǐng)域中的應(yīng)用_第4頁
聚類分析在客戶細(xì)分領(lǐng)域中的應(yīng)用_第5頁
已閱讀5頁,還剩8頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

1、郵局訂閱號(hào):82-946360元/年技術(shù)創(chuàng)新郵軟件天地PLC技術(shù)應(yīng)用200例您的論文得到兩院院士關(guān)注聚類分析在客戶細(xì)分領(lǐng)域中的應(yīng)用The Applicati on of Clusteri ng An alysis in Customer Segme ntati on(河北省電力研究院吳軍英辛銳WU Jun-yi ng XIN Rui摘要:本文研究和分析了基于劃分的 K-mea ns算法和基于密度的DBSCAN算法, 結(jié)合兩種算法的優(yōu)點(diǎn)和不足給出了一種改進(jìn)的算法DBSK算法。該算法由于劃分了數(shù)據(jù)集,降低了對(duì)主存的要求;算法中給出了計(jì)算各局部數(shù)據(jù)集參數(shù)的方法;對(duì) 于分布不均勻的數(shù)據(jù)集,由于各個(gè)局部

2、采用不同的參數(shù)值,使得算法對(duì)全局參數(shù)的依 賴性降低,聚類質(zhì)量更好。文章最后介紹基于聚類技術(shù)的客戶細(xì)分系統(tǒng)的設(shè)計(jì)及實(shí) 現(xiàn)。關(guān)鍵詞:數(shù)據(jù)挖掘;聚類技術(shù);K-means;DBSCAN;客戶細(xì)分中圖分類號(hào):TP312文獻(xiàn)標(biāo)識(shí)碼:BAbstract:This paper an alyses the K -mea ns algorithm based on partiti on and the DBSCAN algorithm based on den sity.Comb ining adva ntages with disadva ntages of the two algorithms,the imp

3、roved algorithm DBSK is proposed.Because of the partiti on of data set,DBSK reduces the requireme nt of memory;the method of computi ng variable value is put forward;to the un eve n data set,because of adopti ng differe nt variable values in each local data set,the depe ndence on global parameters i

4、s reduced,so the clusteri ng result is better.At last,the paper expatiates the desig n and realizatio n of customer segme ntati on system based on clusteri ng tech no logy.Key words:data minin g;clusteri ng tech nology;K-mea ns;DBSCAN;customer segme ntati on文章編號(hào):1008-0570(201010-1-0199-021引言聚類分析是數(shù)據(jù)挖

5、掘中的一個(gè)重要研究方向。通過聚類,人們能夠識(shí)別密集的和稀疏的區(qū)域,因而發(fā)現(xiàn)全局的分布模式。目前的許多領(lǐng)域活動(dòng)中,多數(shù)情況是無先 驗(yàn)規(guī)律和程式的,因而聚類分析就擁有了廣闊的市場,包括模式識(shí)別、數(shù)據(jù)分析、圖 像處理以及市場研究等。將數(shù)據(jù)挖掘中的聚類技術(shù)應(yīng)用于客戶細(xì)分領(lǐng)域能夠發(fā)現(xiàn)隱 藏在客戶數(shù)據(jù)庫中的潛在知識(shí),并對(duì)客戶群進(jìn)行有效地客戶價(jià)值評(píng)估?;诰垲惣夹g(shù)的客戶細(xì)分可以有效地解決多種市場問題,實(shí)現(xiàn)高效的、差異化的精確營銷。2數(shù)據(jù)挖掘中的聚類算法分析2.1K-mea ns 算法K-means算法首先隨機(jī)選取K個(gè)點(diǎn)作為初始聚類中心,然后計(jì)算各個(gè)樣本到聚 類中心的距離,把樣本歸到離它最近的那個(gè)聚類中心所在

6、的類;對(duì)調(diào)整后的新類計(jì)算新的聚類中心,如果相鄰兩次的聚類中心沒有任何變化,說明樣本調(diào)整結(jié)束,聚類準(zhǔn)則 函數(shù)Jc已經(jīng)收斂。2.2DBSCAN 算法該算法首先從數(shù)據(jù)庫中選擇任意的一個(gè)對(duì)象o,然后查找該對(duì)象o關(guān)于Eps和MinPts的可密度到達(dá)的所有對(duì)象。如果對(duì)象o的Eps-鄰域內(nèi)所有對(duì)象個(gè)數(shù)大于某199-199-個(gè)閥值MinPts,則該對(duì)象o為核心對(duì)象,鄰域中的點(diǎn)將作為下一次的考察對(duì)象,否則對(duì) 象o被暫時(shí)標(biāo)記為噪聲點(diǎn)。若對(duì)象o是核心對(duì)象,則在數(shù)據(jù)庫中存在一個(gè)關(guān)于 Eps 和MinPts的類C,這個(gè)類C能夠被其中的任意一個(gè)核心對(duì)象所確定。該算法就是不 斷地進(jìn)行區(qū)域查詢來進(jìn)行類的擴(kuò)展,直到一個(gè)完整的類

7、。下面給出一個(gè)數(shù)值例子:假設(shè)有10個(gè)對(duì)象xi,i 1,2,,10,描述每一個(gè)對(duì)象的屬性為xi1,xi2,取值如表所示,需要輸入的兩個(gè)參數(shù)分別為Eps=2和MinPts=2,采用歐幾里德距離進(jìn)行差異度計(jì)算。表1對(duì)象x1,x2,xl0屬性取值表(1根據(jù)核心對(duì)象的定義x 1,x 2,x在其各自的2-鄰域內(nèi)都至少包含個(gè)2個(gè) 對(duì)象,因此都是核心對(duì)象,以灰色圓圈表示,x 1、x 8不是核心對(duì)象,以黑色圓圈表示;(2根據(jù)直接密度可達(dá)、密度可達(dá)和密度相連的定義,例如:x 2和x 6是從x 4直接密度可達(dá)的,以箭頭表 示;x 5和x 7是從x4密度可達(dá)的;x 5和x 7是密度相連的;(3形成的聚類為兩個(gè),即x

8、2、x 3、x 4、x 5、x 6、x 7和x 9、x 10,x 1和x 8不屬于任何一個(gè)類,是噪聲。圖1DBSCAN算法聚類結(jié)果2.3改進(jìn)的算法一一DBSK算法改進(jìn)的 DBSK 算法(DBSCAN Algorithm Based on Sampling吳軍英:助理工程師碩士技術(shù)創(chuàng)新微計(jì)算機(jī)信息(測控自動(dòng)化2010年第26卷第10-1期360元/年郵局訂閱號(hào):82-946現(xiàn)場總線技術(shù)應(yīng)用200例軟件天地K-means首先采用取樣技術(shù)優(yōu)化K-means算法并劃分?jǐn)?shù)據(jù)集;然后根據(jù)每個(gè)數(shù) 據(jù)集的情況,分別選取每個(gè)局部數(shù)據(jù)集的 MinPtsi并進(jìn)行DBSCAN聚類;最后合并各 個(gè)局部數(shù)據(jù)集的聚類結(jié)果,

9、得到整個(gè)數(shù)據(jù)集的聚類結(jié)果。輸入:控制參數(shù)、聚類數(shù)據(jù)集輸出:聚類結(jié)果Step1初始化控制參數(shù),包括:抽樣率,K值,Eps值;Step2從點(diǎn)集中按抽樣率隨機(jī)選 取點(diǎn)集的子集;Step3子集大小為n,對(duì)子集進(jìn)行以下操作:選取k個(gè)初始聚類中心Z j (I ,j= 1,2,3,k;計(jì)算子集中每個(gè)數(shù)據(jù)對(duì)象與聚類中心的距離D(x i ,Z j(I ,i=1,2,3,n,j=1,2,3如果滿足 D(x i ,Z k (I=minD (x i ,Z j (I ,j=1,2,3,,n則 x i w k ;差平方和準(zhǔn)則函數(shù)Jc判斷:若,則算法結(jié)束;否則1=1+1,計(jì)算k個(gè)新的聚類中心,j=1,2,3,返回(2;將點(diǎn)

10、集中其余的點(diǎn)加入距離最近的類中,每一類為一個(gè)局部數(shù)據(jù)集;Step4對(duì)于各個(gè)局部數(shù)據(jù)集進(jìn)行以下操作:計(jì)算各個(gè)局部數(shù)據(jù)集的參數(shù) Mi nPts,根據(jù)Eps值和MinPts i值,應(yīng)用DBSCAN算法進(jìn)行聚類;Step5合并各個(gè)局部 數(shù)據(jù)集的聚類結(jié)果;Step6輸出聚類結(jié)果,算法結(jié)束。3聚類算法在客戶細(xì)分領(lǐng)域中的應(yīng)用本文將客戶細(xì)分系統(tǒng)分為數(shù)據(jù)獲取、數(shù)據(jù)存儲(chǔ)和數(shù)據(jù)應(yīng)用三層。3.1數(shù)據(jù)獲取層實(shí)現(xiàn)本文的數(shù)據(jù)來自某商場,該數(shù)據(jù)源提供的數(shù)據(jù)包括:顧客表存儲(chǔ)顧客的基本信息 包括顧客卡號(hào)、建卡日期、積分、顧客姓名、身份證號(hào)、性別,年齡,電話號(hào)碼,通信地址,職業(yè)、受教育程度、婚否 等;商品表存儲(chǔ)商品的基本信息,包括

11、商品編號(hào)、商品名稱、商品類型、進(jìn)價(jià)、銷售金額、入出庫日期、入出庫數(shù)量等;銷售收款表為顧客每次購物的 數(shù)據(jù),包括購物金額、付款方式、積分等;商品銷售表為顧客購買具體商品的有關(guān)數(shù)據(jù),包括購買數(shù)量、單價(jià)、折扣率、實(shí)際銷售金額等;庫存賬表為每一進(jìn)貨批次的入出庫數(shù)據(jù),包括 進(jìn)貨批號(hào)、入出庫日期、入出庫數(shù)量、進(jìn)價(jià)、實(shí)際銷售金額等。3.2數(shù)據(jù)存儲(chǔ)層實(shí)現(xiàn)首先根據(jù)數(shù)據(jù)源的情況構(gòu)建事實(shí)表,然后再以這些事實(shí)表為中心,構(gòu)建關(guān)聯(lián)的維 表。根據(jù)本文聚類分析需求,維度表只需要兩個(gè),即顧客維度表和商品維度表,商品銷 售和顧客消費(fèi)是事實(shí)表。3.3數(shù)據(jù)應(yīng)用層實(shí)現(xiàn)20%20%。本文采取隨機(jī)抽樣的方法從顧客表中抽取 100個(gè)樣本,形

12、成顧客樣本表,再根據(jù) 顧客標(biāo)識(shí),從消費(fèi)表中提取客戶相關(guān)信息,統(tǒng)一匯到一張表中,作為客戶細(xì)分的數(shù)據(jù)模 型。對(duì)數(shù)據(jù)集中的數(shù)據(jù)進(jìn)行匯總和預(yù)處理,并選擇細(xì)分變量:平均購買金額和購買次 數(shù)。首先運(yùn)行DBSCAN算法,設(shè)置參數(shù)Eps=30,MinPts=10結(jié)果如圖2所示;然后運(yùn) 行DBSK算法,設(shè)置參數(shù)K=4,Eps=30結(jié)果如圖3所示,由于劃分了數(shù)據(jù)集,設(shè)置了不 同的MinPts值所以DBSK算法能識(shí)別分布稀疏的類,且噪音點(diǎn)明顯少于DBSCAN 算法,這也符合實(shí)際情況。圖2DBSCAN算法運(yùn)行結(jié)果圖3DBSK算法運(yùn)行結(jié)果3.4結(jié)果分析由仿真實(shí)驗(yàn)的結(jié)果可知,DBSK算法的聚類質(zhì)量優(yōu)于DB -SCAN算法

13、。下面詳細(xì)分析DBSK算法的聚類結(jié)果。它將數(shù)據(jù)分成五類,1類是消費(fèi)金額一 般,消費(fèi)次數(shù)也一般的顧客,大部分顧客都屬于這一類;2類是消費(fèi)金額高,但消費(fèi)次數(shù) 卻很低的顧客,這類顧客只是偶爾來光顧商場,但每次的消費(fèi)卻很高,應(yīng)該制定各種策 略留住這些顧客;3類是消費(fèi)金額高,消費(fèi)次數(shù)一般的顧客,學(xué)歷高,較年輕,是有潛力的 客戶;4類是消費(fèi)金額和次數(shù)都高的顧客,是學(xué)歷高,收入好,人近中年的成熟客戶,這類 客戶創(chuàng)造了企業(yè)的大部分利潤;5類是經(jīng)常光顧的老客戶,且每次的消費(fèi)金額較多,是 應(yīng)該重點(diǎn)對(duì)待的老顧客。4類和5類客戶的數(shù)據(jù)不大,約占20%,但他們創(chuàng)造的利潤 占總利潤的80%,是最有價(jià)值的客戶,是企業(yè)的基礎(chǔ)

14、,是必須要保持的;2類客戶屬于有 潛力的客戶,未來有可能轉(zhuǎn)化為4類或5類客戶;1類客戶價(jià)值最小,是鉛質(zhì)客戶;1 類、2類和3類客戶在數(shù)量上占了總客戶的80%但創(chuàng)造的利潤只占總利潤的4結(jié)論本文結(jié)合抽樣技術(shù),K-means算法和DBSCAN算法給出了一種改進(jìn)的算法,并將改進(jìn)算法應(yīng)用于客戶細(xì)分領(lǐng)域。但是如何(下轉(zhuǎn)第207頁200-郵局訂閱號(hào):82-946360元/年技術(shù)創(chuàng)新軟件天地PLC技術(shù)應(yīng)用200例您的論文得到兩院院士關(guān)注圖 5相移條紋Fig5Phase-shift fringe圖6立體匹配點(diǎn)云Fig6The poi nts cloud with stereo match ing利用彩色結(jié)構(gòu)光的

15、色彩信息,只投射一幅數(shù)字光圖就可以將視場進(jìn)行劃分,達(dá)到 了格雷編碼同樣的效果,極大的減少了數(shù)字光投射的數(shù)量,提高了系統(tǒng)掃描的速度。 影響數(shù)字彩色條紋的主要因素在于分色算法的好壞 ,由于被測物體存在本底顏色,在 測量圖像中會(huì)造成一定程度的偏色。顏色分辨技術(shù)的好壞直接關(guān)系到這一方法的應(yīng) 用范圍和測量的準(zhǔn)確性。傳統(tǒng)的相位解包裹技術(shù)采用格雷編碼與相移技術(shù)相結(jié)合的方式,投射6幅格雷 編碼,把光場劃分為64個(gè)周期,為了便于解碼時(shí)候圖像的二值化,一般還需要投射黑 白各1幅結(jié)構(gòu)光,加上四步相移光柵,一共需要12幅,對(duì)于測量人體或者不太容易長時(shí)間保持靜止的物體不是十分有利采用彩色編碼結(jié)構(gòu)光進(jìn)行相位解包裹,只需要

16、投射一幅彩色結(jié)構(gòu)光就可以代替8幅格雷編碼結(jié)構(gòu)光,投射的時(shí)間大大減少,縮短為原來的1/2,而且還可以得到被測量 對(duì)象的彩色點(diǎn)云。5結(jié)論基于相位投影和雙目視覺的三維光學(xué)測量系統(tǒng),一般采用格雷編碼的方式進(jìn)行 相位的解包裹,但是該技術(shù)需要投射的結(jié)構(gòu)光幅數(shù)較多,不利于人體等測量。針對(duì)這 一問題,探討了基于四位二進(jìn)制的彩色編碼結(jié)構(gòu)光的相位求解技術(shù),利用彩色編碼結(jié) 構(gòu)光得到被測量對(duì)象的相位周期,將解包裹需要投射的光柵數(shù)減少為原來的1/2,再結(jié)合四步相移法得到的相位主值,便可以方便快速的得到被測量對(duì)象的真實(shí)相位,最 后利用三維光學(xué)測量系統(tǒng)標(biāo)定得到的標(biāo)定參數(shù)和雙目視覺的對(duì)極幾何立體匹配的原 理,就可以得到被測量

17、對(duì)象的三維彩色點(diǎn)云,實(shí)驗(yàn)證明,該方法大大減少了結(jié)構(gòu)光投射 的幅數(shù),能快速而準(zhǔn)確地得到真實(shí)的絕對(duì)相位。參考文獻(xiàn)彭瑾,汪春曉,王黎.FTP測量物體的三維輪廓信息實(shí)驗(yàn)J.微計(jì)算機(jī)信息,2009,6-3:211-213趙煥東.相位測量輪廓術(shù)的理論研究及應(yīng)用D.浙江:浙江大學(xué),2001:11-28潘偉,趙毅.提高光柵投影測量精度的相移精確測量法J.上海交通大學(xué)學(xué)報(bào),2003,7:1068-1071陳罡,趙毅.一種應(yīng)用于反向工程的結(jié)構(gòu)光相位求解技術(shù)J.模具技術(shù),2004,1:44-46劉維一,王肇圻,母國光,方志良.彩色編碼投影光柵三維輪廓術(shù)中分色問題的研究J.光學(xué)學(xué)報(bào),2001,21(4:454-458

18、作者簡介:陳小寧(1981-,女(漢族,江蘇沛縣人,碩士,西南財(cái)經(jīng)大學(xué)天府學(xué)院老師 主要研究方向:光電信息處理Biography:CHEN Xiao-ning (1981-,Female(The Han Nationl -ity,Peixian of JiangsuProvi nce,Tia n Fu College of Southwest -ern Un iversity of Finance andEcono mics,master,teacher,Ma -jor:Optoelectr onic process ing.(621000四川綿陽西南財(cái)經(jīng)大學(xué)天府學(xué)院陳小寧姚一永郭進(jìn)(6210

19、00四川綿陽西南科技大學(xué)劉先勇通訊地址:(621000四川綿陽九洲大道中段西南財(cái)經(jīng)大學(xué)天府學(xué)院信息技術(shù)中心 陳小寧(收稿日期:2009.12.28修稿日期:2010.03.28(上接第200頁在盡可能小的樣本集上獲取盡可能精確的結(jié)果,即在一定的精確性要求下,如何 確定合適的樣本大小(也稱為抽樣復(fù)雜性的問題需進(jìn)一步研究。DBSK算法在本文 中只應(yīng)用于二維屬性的數(shù)據(jù)集中,對(duì)于三維甚至多維的復(fù)雜數(shù)據(jù)未進(jìn)行探討和研究, 而大量的數(shù)據(jù)集往往具有多維的屬性,在今后的工作中應(yīng)該對(duì)多維的、更為復(fù)雜的數(shù)據(jù)進(jìn)行挖掘分析工作。創(chuàng)新之處:結(jié)合K-means算法和DBSCAN 算法給出了一種改進(jìn)的算法,并將改進(jìn)的算法應(yīng)用于客戶細(xì)分。參考文獻(xiàn)1Kuo R.J.,Ho L.M.,Hu C.M.Integration of Self-organizing Fea -ture Map and K - means Algorithm for Market Segme ntati on J.Computers and Operati ons Research,2002,29(11207-2D T Pham,S S Dimov,C D Nguye n.Selectio n of K in K-mea nsclus

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論