![聚類分析在客戶細分領域中的應用_第1頁](http://file3.renrendoc.com/fileroot_temp3/2022-1/13/050a55bd-aeba-45c6-8df1-982a63d603a3/050a55bd-aeba-45c6-8df1-982a63d603a31.gif)
![聚類分析在客戶細分領域中的應用_第2頁](http://file3.renrendoc.com/fileroot_temp3/2022-1/13/050a55bd-aeba-45c6-8df1-982a63d603a3/050a55bd-aeba-45c6-8df1-982a63d603a32.gif)
![聚類分析在客戶細分領域中的應用_第3頁](http://file3.renrendoc.com/fileroot_temp3/2022-1/13/050a55bd-aeba-45c6-8df1-982a63d603a3/050a55bd-aeba-45c6-8df1-982a63d603a33.gif)
![聚類分析在客戶細分領域中的應用_第4頁](http://file3.renrendoc.com/fileroot_temp3/2022-1/13/050a55bd-aeba-45c6-8df1-982a63d603a3/050a55bd-aeba-45c6-8df1-982a63d603a34.gif)
![聚類分析在客戶細分領域中的應用_第5頁](http://file3.renrendoc.com/fileroot_temp3/2022-1/13/050a55bd-aeba-45c6-8df1-982a63d603a3/050a55bd-aeba-45c6-8df1-982a63d603a35.gif)
版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
1、郵局訂閱號:82-946360元/年技術創(chuàng)新 軟件天地PLC 技術應用200例您的論文得到兩院院士關注聚類分析在客戶細分領域中的應用The Application of Clustering Analysis in Customer Segmentation(河北省電力研究院吳軍英辛銳WU Jun-ying XIN Rui摘要:本文研究和分析了基于劃分的K-means 算法和基于密度的DBSCAN 算法,結合兩種算法的優(yōu)點和不足給出了一種改進的算法DBSK 算法。該算法由于劃分了數(shù)據(jù)集,降低了對主存的要求;算法中給出了計算各局部數(shù)據(jù)集參數(shù)的方法;對于分布不均勻的數(shù)據(jù)集,由于各個局部采用不同的參
2、數(shù)值,使得算法對全局參數(shù)的依賴性降低,聚類質量更好。文章最后介紹基于聚類技術的客戶細分系統(tǒng)的設計及實現(xiàn)。關鍵詞:數(shù)據(jù)挖掘;聚類技術;K-means;DBSCAN;客戶細分中圖分類號:TP312文獻標識碼:BAbstract:This paper analyses the K -means algorithm based on partition and the DBSCAN algorithm based on density.Combining advantages with disadvantages of the two algorithms,the improved algorithm
3、 DBSK is proposed.Because of the partition of data set,DBSK reduces the requirement of memory;the method of computing variable value is put forward;to the uneven data set,because of adopting different variable values in each local data set,the dependence on global parameters is reduced,so the cluste
4、ring result is better.At last,the paper expatiates the design and realization of customer segmentation system based on clustering technology.Key words:data mining;clustering technology;K-means;DBSCAN;customer segmentation文章編號:1008-0570(201010-1-0199-021引言聚類分析是數(shù)據(jù)挖掘中的一個重要研究方向。通過聚類,人們能夠識別密集的和稀疏的區(qū)域,因而發(fā)現(xiàn)
5、全局的分布模式。目前的許多領域活動中,多數(shù)情況是無先驗規(guī)律和程式的,因而聚類分析就擁有了廣闊的市場,包括模式識別、數(shù)據(jù)分析、圖像處理以及市場研究等。將數(shù)據(jù)挖掘中的聚類技術應用于客戶細分領域能夠發(fā)現(xiàn)隱藏在客戶數(shù)據(jù)庫中的潛在知識,并對客戶群進行有效地客戶價值評估?;诰垲惣夹g的客戶細分可以有效地解決多種市場問題,實現(xiàn)高效的、差異化的精確營銷。2數(shù)據(jù)挖掘中的聚類算法分析2.1K-means 算法K-means 算法首先隨機選取K 個點作為初始聚類中心,然后計算各個樣本到聚類中心的距離,把樣本歸到離它最近的那個聚類中心所在的類;對調整后的新類計算新的聚類中心,如果相鄰兩次的聚類中心沒有任何變化,說明樣
6、本調整結束,聚類準則函數(shù)Jc 已經收斂。2.2DBSCAN 算法該算法首先從數(shù)據(jù)庫中選擇任意的一個對象o,然后查找該對象o 關于Eps 和MinPts 的可密度到達的所有對象。如果對象o 的Eps-鄰域內所有對象個數(shù)大于某個閥值MinPts,則該對象o 為核心對象,鄰域中的點將作為下一次的考察對象,否則對象o 被暫時標記為噪聲點。若對象o 是核心對象,則在數(shù)據(jù)庫中存在一個關于Eps 和MinPts 的類C,這個類C 能夠被其中的任意一個核心對象所確定。該算法就是不斷地進行區(qū)域查詢來進行類的擴展,直到一個完整的類。下面給出一個數(shù)值例子:假設有10個對象xi,i 1,2,10,描述每一個對象的屬性
7、為xi1,xi2,取值如表所示,需要輸入的兩個參數(shù)分別為Eps=2和MinPts=2,采用歐幾里德距離進行差異度計算。表1對象x1,x2,x10屬性取值表(1根據(jù)核心對象的定義x 1,x 2,x 10在其各自的2-鄰域內都至少包含個2個對象,因此都是核心對象,以灰色圓圈表示,x 1、x 8不是核心對象,以黑色圓圈表示;(2根據(jù)直接密度可達、密度可達和密度相連的定義,例如:x 2和x 6是從x 4直接密度可達的,以箭頭表示;x 5和x 7是從x4密度可達的;x 5和x 7是密度相連的;(3形成的聚類為兩個,即x 2、x 3、x 4、x 5、x 6、x 7和x 9、x 10,x 1和x 8不屬于任
8、何一個類,是噪聲。圖1DBSCAN 算法聚類結果2.3改進的算法DBSK 算法改進的DBSK 算法(DBSCAN Algorithm Based on Sampling吳軍英:助理工程師碩士199-技術創(chuàng)新微計算機信息(測控自動化2010年第26卷第10-1期360元/年郵局訂閱號:82-946現(xiàn)場總線技術應用200例軟件天地K-means首先采用取樣技術優(yōu)化K-means 算法并劃分數(shù)據(jù)集;然后根據(jù)每個數(shù)據(jù)集的情況,分別選取每個局部數(shù)據(jù)集的MinPtsi 并進行DBSCAN 聚類;最后合并各個局部數(shù)據(jù)集的聚類結果,得到整個數(shù)據(jù)集的聚類結果。輸入:控制參數(shù)、聚類數(shù)據(jù)集輸出:聚類結果Step1初
9、始化控制參數(shù),包括:抽樣率,K 值,Eps 值;Step2從點集中按抽樣率隨機選取點集的子集;Step3子集大小為n,對子集進行以下操作:選取k 個初始聚類中心Z j (I ,j=1,2,3,k;計算子集中每個數(shù)據(jù)對象與聚類中心的距離D(x i ,Z j (I ,i=1,2,3,n,j=1,2,3,k,如果滿足D(x i ,Z k (I=minD (x i ,Z j (I ,j=1,2,3,.,n則x i w k ;差平方和準則函數(shù)Jc判斷:若,則算法結束;否則I=I+1,計算k 個新的聚類中心,j=1,2,3,k,返回(2;將點集中其余的點加入距離最近的類中,每一類為一個局部數(shù)據(jù)集;Step
10、4對于各個局部數(shù)據(jù)集進行以下操作:計算各個局部數(shù)據(jù)集的參數(shù)MinPts,根據(jù)Eps 值和MinPts i 值,應用DBSCAN 算法進行聚類;Step5合并各個局部數(shù)據(jù)集的聚類結果;Step6輸出聚類結果,算法結束。3聚類算法在客戶細分領域中的應用本文將客戶細分系統(tǒng)分為數(shù)據(jù)獲取、數(shù)據(jù)存儲和數(shù)據(jù)應用三層。3.1數(shù)據(jù)獲取層實現(xiàn)本文的數(shù)據(jù)來自某商場,該數(shù)據(jù)源提供的數(shù)據(jù)包括:顧客表存儲顧客的基本信息,包括顧客卡號、建卡日期、積分、顧客姓名、身份證號、性別,年齡,電話號碼,通信地址,職業(yè)、受教育程度、婚否等;商品表存儲商品的基本信息,包括商品編號、商品名稱、商品類型、進價、銷售金額、入出庫日期、入出庫數(shù)
11、量等;銷售收款表為顧客每次購物的數(shù)據(jù),包括購物金額、付款方式、積分等;商品銷售表為顧客購買具體商品的有關數(shù)據(jù),包括購買數(shù)量、單價、折扣率、實際銷售金額等;庫存賬表為每一進貨批次的入出庫數(shù)據(jù),包括進貨批號、入出庫日期、入出庫數(shù)量、進價、實際銷售金額等。3.2數(shù)據(jù)存儲層實現(xiàn)首先根據(jù)數(shù)據(jù)源的情況構建事實表,然后再以這些事實表為中心,構建關聯(lián)的維表。根據(jù)本文聚類分析需求,維度表只需要兩個,即顧客維度表和商品維度表,商品銷售和顧客消費是事實表。3.3數(shù)據(jù)應用層實現(xiàn)本文采取隨機抽樣的方法從顧客表中抽取100個樣本,形成顧客樣本表,再根據(jù)顧客標識,從消費表中提取客戶相關信息,統(tǒng)一匯到一張表中,作為客戶細分的
12、數(shù)據(jù)模型。對數(shù)據(jù)集中的數(shù)據(jù)進行匯總和預處理,并選擇細分變量:平均購買金額和購買次數(shù)。首先運行DBSCAN 算法,設置參數(shù)Eps=30,MinPts=10,結果如圖2所示;然后運行DBSK 算法,設置參數(shù)K=4,Eps=30,結果如圖3所示,由于劃分了數(shù)據(jù)集,設置了不同的MinPts 值,所以DBSK 算法能識別分布稀疏的類,且噪音點明顯少于DBSCAN 算法,這也符合實際情況。圖2DBSCAN 算法運行結果圖3DBSK 算法運行結果3.4結果分析由仿真實驗的結果可知,DBSK 算法的聚類質量優(yōu)于DB -SCAN 算法。下面詳細分析DBSK 算法的聚類結果。它將數(shù)據(jù)分成五類,1類是消費金額一般,
13、消費次數(shù)也一般的顧客,大部分顧客都屬于這一類;2類是消費金額高,但消費次數(shù)卻很低的顧客,這類顧客只是偶爾來光顧商場,但每次的消費卻很高,應該制定各種策略留住這些顧客;3類是消費金額高,消費次數(shù)一般的顧客,學歷高,較年輕,是有潛力的客戶;4類是消費金額和次數(shù)都高的顧客,是學歷高,收入好,人近中年的成熟客戶,這類客戶創(chuàng)造了企業(yè)的大部分利潤;5類是經常光顧的老客戶,且每次的消費金額較多,是應該重點對待的老顧客。4類和5類客戶的數(shù)據(jù)不大,約占20%,但他們創(chuàng)造的利潤占總利潤的80%,是最有價值的客戶,是企業(yè)的基礎,是必須要保持的;2類客戶屬于有潛力的客戶,未來有可能轉化為4類或5類客戶;1類客戶價值最
14、小,是鉛質客戶;1類、2類和3類客戶在數(shù)量上占了總客戶的80%,但創(chuàng)造的利潤只占總利潤的20%。4結論本文結合抽樣技術,K-means 算法和DBSCAN 算法給出了一種改進的算法,并將改進算法應用于客戶細分領域。但是如何(下轉第207頁200-郵局訂閱號:82-946360元/年技術創(chuàng)新 軟件天地PLC 技術應用200例您的論文得到兩院院士關注圖5相移條紋Fig5Phase-shift fringe圖6立體匹配點云Fig6The points cloud with stereo matching利用彩色結構光的色彩信息,只投射一幅數(shù)字光圖就可以將視場進行劃分,達到了格雷編碼同樣的效果,極大的
15、減少了數(shù)字光投射的數(shù)量,提高了系統(tǒng)掃描的速度。影響數(shù)字彩色條紋的主要因素在于分色算法的好壞,由于被測物體存在本底顏色,在測量圖像中會造成一定程度的偏色。顏色分辨技術的好壞直接關系到這一方法的應用范圍和測量的準確性。傳統(tǒng)的相位解包裹技術采用格雷編碼與相移技術相結合的方式,投射6幅格雷編碼,把光場劃分為64個周期,為了便于解碼時候圖像的二值化,一般還需要投射黑白各1幅結構光,加上四步相移光柵,一共需要12幅,對于測量人體或者不太容易長時間保持靜止的物體不是十分有利。采用彩色編碼結構光進行相位解包裹,只需要投射一幅彩色結構光就可以代替8幅格雷編碼結構光,投射的時間大大減少,縮短為原來的1/2,而且還
16、可以得到被測量對象的彩色點云。5結論基于相位投影和雙目視覺的三維光學測量系統(tǒng),一般采用格雷編碼的方式進行相位的解包裹,但是該技術需要投射的結構光幅數(shù)較多,不利于人體等測量。針對這一問題,探討了基于四位二進制的彩色編碼結構光的相位求解技術,利用彩色編碼結構光得到被測量對象的相位周期,將解包裹需要投射的光柵數(shù)減少為原來的1/2,再結合四步相移法得到的相位主值,便可以方便快速的得到被測量對象的真實相位,最后利用三維光學測量系統(tǒng)標定得到的標定參數(shù)和雙目視覺的對極幾何立體匹配的原理,就可以得到被測量對象的三維彩色點云,實驗證明,該方法大大減少了結構光投射的幅數(shù),能快速而準確地得到真實的絕對相位。參考文獻
17、1彭瑾,汪春曉,王黎.FTP 測量物體的三維輪廓信息實驗J.微計算機信息,2009,6-3:211-2132趙煥東.相位測量輪廓術的理論研究及應用D.浙江:浙江大學,2001:11-283潘偉,趙毅.提高光柵投影測量精度的相移精確測量法J.上海交通大學學報,2003,7:1068-10714陳罡,趙毅.一種應用于反向工程的結構光相位求解技術J.模具技術,2004,1:44-465劉維一,王肇圻,母國光,方志良.彩色編碼投影光柵三維輪廓術中分色問題的研究J.光學學報,2001,21(4:454-458作者簡介:陳小寧(1981-,女(漢族,江蘇沛縣人,碩士,西南財經大學天府學院老師,主要研究方向
18、:光電信息處理。Biography:CHEN Xiao-ning (1981-,Female(The Han Nationl -ity,Peixian of Jiangsu Province,Tian Fu College of Southwest -ern University of Finance and Economics,master,teacher,Ma -jor:Optoelectronic processing.(621000四川綿陽西南財經大學天府學院陳小寧姚一永郭進(621000四川綿陽西南科技大學劉先勇通訊地址:(621000四川綿陽九洲大道中段西南財經大學天府學院信息技術中心陳小寧(上接第200頁在盡可能小的樣本集上獲取盡可能精確的結果,即在一定的精確性要求下,如何確定合適的樣本大小(也稱為抽樣復雜性的問題需進一步研究。DBSK 算法在本文中只應用于二維屬性的數(shù)據(jù)集中,對于三維甚至多維的復雜數(shù)據(jù)未進行探討和研究,而大量的數(shù)據(jù)集往往具有多維的屬性,在今后的工作中應該對多維的、更為復雜的數(shù)據(jù)進行挖掘分析工作。創(chuàng)新之處:結合K-means 算法和DBSCAN 算法給出了一種改進的算法,并將改進的算法應用于客戶細分。參考文獻2D T Pham,S S Dimov,C D Nguyen.Selection of K in K-means
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 山西工商學院《學前教育學(媒)》2023-2024學年第二學期期末試卷
- 海南軟件職業(yè)技術學院《科技論文寫作》2023-2024學年第二學期期末試卷
- 南京林業(yè)大學《面向對象程序設計及C++》2023-2024學年第二學期期末試卷
- 江西冶金職業(yè)技術學院《國際市場營銷B(雙語)》2023-2024學年第二學期期末試卷
- 通化師范學院《機械工程檢測技術》2023-2024學年第二學期期末試卷
- 親子主題餐廳裝修合同
- 二零二五年度蘇州工業(yè)園區(qū)勞動合同管理與薪酬福利設計
- 2025年度互聯(lián)網企業(yè)員工勞動集體合同(創(chuàng)新發(fā)展)
- 《核裂變與核聚變》課件
- 《句式變換好》課件
- 四川省自貢市2024-2025學年上學期八年級英語期末試題(含答案無聽力音頻及原文)
- 2025-2030年中國汽車防滑鏈行業(yè)競爭格局展望及投資策略分析報告新版
- 2025年上海用人單位勞動合同(4篇)
- 二年級上冊口算題3000道-打印版讓孩子口算無憂
- 高中英語北師大版必修第一冊全冊單詞表(按單元編排)
- 新教科版科學小學四年級下冊全冊教案
- 2024中考語文試卷及答案長沙
- 2024年高考生物總復習高中生物必修一全冊重點知識梳理筆記(全冊完整版)
- 商業(yè)綜合體物業(yè)運營方案
- 2025年生物安全年度工作計劃
- 鄉(xiāng)鎮(zhèn)衛(wèi)生院2025年度工作計劃
評論
0/150
提交評論