




版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
1、郵局訂閱號:82-946360元/年技術創(chuàng)新軟件大地PLC技術應用200例您的論文得到兩院院士關注聚類分析在客戶細分領域中的應用The Application of Clustering Analysis in Customer Segmentation(河北省電力研究院吳軍英辛銳WU Jun-ying XIN Rui摘要:本文研究和分析了基于劃分的 K-means算法和基于密度的DBSCAN算法, 結合兩種算法的優(yōu)點和不足給出了一種改進的算法DBSK算法。該算法由于劃分了數(shù)據(jù)集,降低了對主存的要求;算法中給出了計算各局部數(shù)據(jù)集參數(shù)的方法;對 于分布不均勻的數(shù)據(jù)集,由于各個局部采用不同的參數(shù)值
2、,使得算法對全局參數(shù)的依 賴性降低,聚類質量更好。文章最后介紹基于聚類技術的客戶細分系統(tǒng)的設計及實 現(xiàn)。關鍵詞:數(shù)據(jù)挖掘;聚類技術;K-means;DBSCAN;客戶細分中圖分類號:TP312文 獻標識碼:BAbstract:This paper analyses the K -means algorithm based on partition and the DBSCAN algorithm based on density.Combining advantages with disadvantages of the two algorithms,the improved algorith
3、m DBSK is proposed.Because of the partition of data set,DBSK reduces the requirement of memory;the method of computing variable value is put forward;to the uneven data set,because of adopting different variable values in each local data set,the dependence on global parameters is reduced,so the clust
4、ering result is better.At last,the paper expatiates the design and realization of customer segmentation system based on clustering technology.Key words:data mining;clustering technology;K-means;DBSCAN;customer segmentation文章編號:1008-0570(201010-1-0199-021引言聚類分析是數(shù)據(jù)挖掘中的一個重要研究方向。通過聚類,人們能夠識別密集的和稀疏的區(qū)域,因而發(fā)
5、現(xiàn)全局的分布模式。目前的許多領域活動中,多數(shù)情況是無先 驗規(guī)律和程式的,因而聚類分析就擁有了廣闊的市場,包括模式識別、數(shù)據(jù)分析、圖 像處理以及市場研究等。將數(shù)據(jù)挖掘中的聚類技術應用于客戶細分領域能夠發(fā)現(xiàn)隱 藏在客戶數(shù)據(jù)庫中的潛在知識,并對客戶群進行有效地客戶價值評估?;诰垲惣夹g的客戶細分可以有效地解決多種市場問題,實現(xiàn)高效的、差異化的精確營銷。2數(shù)據(jù)挖掘中的聚類算法分析2.1 K-means 算法K-means算法首先隨機選取K個點作為初始聚類中心,然后計算各個樣本到聚 類中心的距離,把樣本歸到離它最近的那個聚類中心所在的類;對調整后的新類計算新的聚類中心,如果相鄰兩次的聚類中心沒有任何變化
6、,說明樣本調整結束,聚類準則 函數(shù)Jc已經收斂。2.2 DBSCAN 算法該算法首先從數(shù)據(jù)庫中選擇任意的一個對象。,然后查找該對象o關于Eps和 MinPts的可密度到達的所有對象。如果對象 o的Eps-鄰域內所有對象個數(shù)大于某個閥值MinPts,則該對象o為核心對象,鄰域中的點將作為下一次的考察對象,否則對 象o被暫時標記為噪聲點。若對象o是核心對象,則在數(shù)據(jù)庫中存在一個關于 Eps 和MinPts的類C,這個類C能夠被其中的任意一個核心對象所確定。該算法就是不 斷地進行區(qū)域查詢來進行類的擴展,直到一個完整的類。下面給出一個數(shù)值例子:假設有10個對象xi,i 1,2,,10,描述每一個對象的
7、屬性為xi1,xi2,取值如表所示,需要輸入的兩個參數(shù)分別 為Eps=2和MinPts=2,采用歐幾里德距離進行差異度計算。表1對象x1,x2,刈弧性取值表(1根據(jù)核心對象的定義x 1,x 2,M伽各自的2-鄰域內都至少包含個2個 對象,因此都是核心對象,以灰色圓圈表示,x 1、x 8不是核心對象,以黑色圓圈表示;(2根據(jù)直接密度可達、密度可達和密度相連的定義,例如:x 2和x 6是從x 4直接密度可達的,以箭頭表 示;x 5和x 7是從x4密度可達的;x 5和x 7是密度相連的;(3形成的聚類為兩個,即x 2、x 3、x 4、x 5、x 6、x 7和x 9、x 10,x 1和x 8不屬于任何
8、一個類,是噪聲。圖1DBSCAN算法聚類結果2.3 改進的算法一一DBSK算法改進的 DBSK 算法(DBSCAN Algorithm Based on Sampling吳軍英:助理工程師碩士199-技術創(chuàng)新微計算機信息(測控自動化2010年第26卷第10-1期360元/年郵局訂閱號:82-946現(xiàn)場總線技術應用200例軟件大地K-means首先采用取樣技術優(yōu)化K-means算法并劃分數(shù)據(jù)集;然后根據(jù)每個數(shù) 據(jù)集的情況,分別選取每個局部數(shù)據(jù)集的 MinPtsi并進行DBSCAN聚類;最后合并各 個局部數(shù)據(jù)集的聚類結果,得到整個數(shù)據(jù)集的聚類結果。輸入:控制參數(shù)、聚類數(shù)據(jù)集輸出:聚類結果Stepl
9、初始化控制參數(shù),包括:抽樣率,K值,Eps值;Step2從點集中按抽樣率隨機選 取點集的子集;Step3子集大小為n,對子集進行以下操作:選取k個初始聚類中心Z j (I ,j= 1,2,3,上;計算子集中每個數(shù)據(jù)對象與聚類中心的距離D(x i ,Z j(I ,i=1,2,3,n,j=1,2,3如果滿眼 D(x i ,Z k (I=minD (x i ,Z j (I ,j=1,2,3,,n則 x ie w k ;差平方和準則函數(shù)Jc判斷:若,則算法結束;否則I=I+1,計算k個新的聚類中心,j=1,2,3,近間(2;將點集中其余的點加入距離最近的類中,每一類為一個局部數(shù)據(jù)集;Step4對于各個
10、局部數(shù)據(jù)集進行以下操作:計算各個局部數(shù)據(jù)集的參數(shù)MinPts,根據(jù)Eps值和MinPts i值,應用DBSCAN算法進行聚類;Step5合并各個局部 數(shù)據(jù)集的聚類結果;Step6輸出聚類結果,算法結束。3聚類算法在客戶細分領域中的應用本文將客戶細分系統(tǒng)分為數(shù)據(jù)獲取、數(shù)據(jù)存儲和數(shù)據(jù)應用三層。3.1 數(shù)據(jù)獲取層實現(xiàn)本文的數(shù)據(jù)來自某商場,該數(shù)據(jù)源提供的數(shù)據(jù)包括:顧客表存儲顧客的基本信息 包括顧客卡號、建卡日期、積分、顧客姓名、身份證號、性別,年齡,電話號碼,通信地址,職業(yè)、受教育程度、婚否 等;商品表存儲商品的基本信息,包括商品編號、商品名稱、商品類型、進價、銷售金額、入出庫日期、入出庫數(shù)量等;銷售
11、收款表為顧客每次購物的 數(shù)據(jù)包括購物金額、付款方式、積分等;商品銷售表為顧客購買具體商品的有關數(shù)據(jù),包括購買數(shù)量、單價、折扣率、實際銷售金額等;庫存賬表為每一進貨批次的入出庫數(shù)據(jù),包括 進貨批號、入出庫日期、入出庫數(shù)量、進價、實際銷售金額等。3.2 數(shù)據(jù)存儲層實現(xiàn)首先根據(jù)數(shù)據(jù)源的情況構建事實表,然后再以這些事實表為中心,構建關聯(lián)的維 表。根據(jù)本文聚類分析需求,維度表只需要兩個,即顧客維度表和商品維度表,商品銷 售和顧客消費是事實表。3.3 數(shù)據(jù)應用層實現(xiàn)本文采取隨機抽樣的方法從顧客表中抽取 100個樣本,形成顧客樣本表,再根據(jù) 顧客標識,從消費表中提取客戶相關信息,統(tǒng)一匯到一張表中,作為客戶細
12、分的數(shù)據(jù)模 型。對數(shù)據(jù)集中的數(shù)據(jù)進行匯總和預處理,并選擇細分變量:平均購買金額和購買次 數(shù)。首先運行DBSCAN算法,設置參數(shù)Eps=30,MinPts=10結果如圖2所示;然后運 行DBSK算法,設置參數(shù)K=4,Eps=30,結果如圖3所示,由于劃分了數(shù)據(jù)集,設置了不 同的MinPts值,所以DBSK算法能識別分布稀疏的類,且噪音點明顯少于DBSCAN 算法,這也符合實際情況。圖2DBSCAN算法運行結果圖3DBSK算法運行結果3.4 結果分析由仿真實驗的結果可知,DBSK算法的聚類質量優(yōu)于DB -SCAN算法。下面詳細分析DBSK算法的聚類結果。它將數(shù)據(jù)分成五類,1類是消費金額一 股,消費
13、次數(shù)也一般的顧客,大部分顧客都屬于這一類;2類是消費金額高,但消費次數(shù) 卻很低的顧客,這類顧客只是偶爾來光顧商場,但每次的消費卻很高,應該制定各種策 略留住這些顧客;3類是消費金額高,消費次數(shù)一般的顧客,學歷高,較年輕,是有潛力的 客戶;4類是消費金額和次數(shù)都高的顧客,是學歷高,收入好,人近中年的成熟客戶,這類 客戶創(chuàng)造了企業(yè)的大部分利潤;5類是經常光顧的老客戶,且每次的消費金額較多,是 應該重點對待的老顧客。4類和5類客戶的數(shù)據(jù)不大,約占20%,但他們創(chuàng)造的利潤 占總利潤的80%,是最有價值的客戶,是企業(yè)的基礎,是必須要保持的;2類客戶屬于有 潛力的客戶,未來有可能轉化為4類或5類客戶;1類
14、客戶價值最小,是鉛質客戶;1 類、2類和3類客戶在數(shù)量上占了總客戶的80%,但創(chuàng)造的利潤只占總利潤的20%。4結論本文結合抽樣技術,K-means算法和DBSCAN算法給出了一種改進的算法,并將 改進算法應用于客戶細分領域。但是如何(J轉第207頁200-郵局訂閱號:82-946360元/年技術創(chuàng)新軟件大地PLC技術應用200例您的論文得到兩院院士關注圖 5相移條紋Fig5Phase-shift fringe圖6立體匹配點云Fig6The points cloud with stereo matching利用彩色結構光的色彩信息,只投射一幅數(shù)字光圖就可以將視場進行劃分,達到 了格雷編碼同樣的效
15、果,極大的減少了數(shù)字光投射的數(shù)量,提高了系統(tǒng)掃描的速度。 影響數(shù)字彩色條紋的主要因素在于分色算法的好壞,由于被測物體存在本底顏色,在測量圖像中會造成一定程度的偏色。顏色分辨技術的好壞直接關系到這一方法的應 用范圍和測量的準確性。傳統(tǒng)的相位解包裹技術采用格雷編碼與相移技術相結合的方式,投射6幅格雷 編碼,把光場劃分為64個周期,為了便于解碼時候圖像的二值化,一般還需要投射黑 白各1幅結構光,加上四步相移光柵,一共需要12幅,對于測量人體或者不太容易長時間保持靜止的物體不是十分有利。采用彩色編碼結構先進行相位解包裹,只需要投射一幅彩色結構光就可以代替8幅格雷編碼結構光,投射的時間大大減少,縮短為原
16、來的1/2,而且還可以得到被測量 對象的彩色點右。5結論基于相位投影和雙目視覺的三維光學測量系統(tǒng),一般采用格雷編碼的方式進行 相位的解包裹,但是該技術需要投射的結構光幅數(shù)較多,不利于人體等測量。針對這 一問題,探討了基于四位二進制的彩色編碼結構光的相位求解技術,利用彩色編碼結 構光得到被測量對象的相位周期,將解包裹需要投射的光柵數(shù)減少為原來的1/2,再結合四步相移法得到的相位主值,便可以方便快速的得到被測量對象的真實相位,最 后利用三維光學測量系統(tǒng)標定得到的標定參數(shù)和雙目視覺的對極幾何立體匹配的原 理,就可以得到被測量對象的三維彩色點云,實驗證明該方法大大減少了結構光投射 的幅數(shù),能快速而準確
17、地得到真實的絕對相位。參考文獻1彭瑾,汪春曉,王黎.FTP測量物體的三維輪廓信息實驗J.微計算機信 息,2009,6-3:211-2132趙煥東.相位測量輪廓術的理論研究及應用D.浙江:浙江大學,2001:11-283潘偉,趙毅.提高光柵投影測量精度的相移精確測量法J.上海交通大學學 報,2003,7:1068-10714陳罡,趙毅.一種應用于反向工程的結構光相位求解技術J.模具技 術,2004,1:44-465劉維一,王肇圻,母國光,方志良.彩色編碼投影光柵三維輪廓術中分色問題的 研究J.光學學報,2001,21(4:454-458作者簡介:陳小寧(1981-,女(漢族,江蘇沛縣人,碩士,西
18、南財經大學天府學院老師, 主要研究方向:光電信息處理。Biography:CHEN Xiao-ning (1981-,Female(The Han Nationl -ity,Peixian of JiangsuProvince,Tian Fu College of Southwest -ern University of Finance and Economics,master,teacher,Ma -jor:Optoelectronic processing.(621000四川綿陽西南財經大學天府學院陳小寧姚一永郭進(621000四川綿陽西南科技大學劉先勇通訊地址:(621000四川綿陽九洲
19、大道中段西南財經大學天府學院信息技術中心 陳小寧(收稿日期:2009.12.280稿日期:2010.03.28(上接第200頁在盡可能小的樣本集上獲取盡可能精確的結果,即在一定的精確性要求下,如何 確定合適的樣本大小(也稱為抽樣復雜性的問題需進一步研究。DBSK算法在本文 中只應用于二維屬性的數(shù)據(jù)集中,對于三維甚至多維的復雜數(shù)據(jù)未進行探討和研究, 而大量的數(shù)據(jù)集往往具有多維的屬性,在今后的工作中應該對多維的、更為復雜的數(shù)據(jù)進行挖掘分析工作。創(chuàng)新之處:結合K-means算法和DBSCAN 算法給出了一種改進的算法,并將改進的算法應用于客戶細分。參考文獻1Kuo R.J.,Ho L.M.,Hu C.M.Integration of Self-organizing Fea -ture Map and K - means Algorithm for Market Segmentation J.Computers and Operations Research,2002,29(11:147514932D T Pham,S S Dimov,C D Nguyen.Selection of K in K-means clu
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2024年山東職業(yè)學院輔導員考試真題
- 2024年山東交通學院輔導員考試真題
- 年度團隊激勵計劃的實施
- 2024年陜西實驗高級中學招聘筆試真題
- 多樣化學習資源的開發(fā)與利用計劃
- 2024年甘肅省鄉(xiāng)村振興局下屬事業(yè)單位真題
- 建材市場安全保障總結與規(guī)劃計劃
- 2024年瀘州市納溪區(qū)事業(yè)單位引進筆試真題
- 2025屆浙江省金華市婺城區(qū)第四中學八下數(shù)學期末聯(lián)考試題含解析
- 應對壓力的心理調適計劃
- 太陽能路燈安裝工程施工方案施工組織設計投標方案(技術標)
- 2024年福建省中考歷史試卷(含標準答案及解析)
- TSG+23-2021氣瓶安全技術規(guī)程
- 2025高考語文背誦篇目
- 繼子女斷絕關系協(xié)議書
- 綜合醫(yī)院感染病例報告卡
- 《玻璃纖維石膏板》行業(yè)標準征求意見稿編制說明
- DB32T3748-2020 35kV及以下客戶端變電所建設標準
- 2024-2030年國內汽車電動尾門行業(yè)市場深度分析及發(fā)展現(xiàn)狀與趨勢研究報告
- MOOC 青草藥識別-福建農林大學 中國大學慕課答案
- 青春期的煩惱新專家講座
評論
0/150
提交評論