使用k-means及k-prototype對混合型數(shù)據(jù)集進行聚類分析_第1頁
使用k-means及k-prototype對混合型數(shù)據(jù)集進行聚類分析_第2頁
使用k-means及k-prototype對混合型數(shù)據(jù)集進行聚類分析_第3頁
使用k-means及k-prototype對混合型數(shù)據(jù)集進行聚類分析_第4頁
使用k-means及k-prototype對混合型數(shù)據(jù)集進行聚類分析_第5頁
已閱讀5頁,還剩3頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

第第頁使用k-means及k-prototype對混合型數(shù)據(jù)集進行聚類分析使?k-means及k-prototype對混合型數(shù)據(jù)集進?聚類分析1.分析?標

本項?旨在使?聚類算法對110個城市進?分類與排序,以尋找客觀真實的城市分層?法、?持業(yè)務運營與決策。

2.數(shù)據(jù)集

數(shù)據(jù)集來源于某互聯(lián)?公司,特征值標簽已做脫敏處理。數(shù)據(jù)集尺?為111?×5列,第??為標題?,其余110?為實例。

第?列:城市名,將作為index不參與模型計算;

第?列:特征值a,以數(shù)值表現(xiàn)的分類變量,1代表評價最好、4代表最差;

第三列:特征值b,數(shù)值型變量,數(shù)值越?對業(yè)務積極影響越?;

雨傘的英語怎么讀第四列:特征值c,數(shù)值型變量,數(shù)值越?對業(yè)務消極影響越?;

第五列:特征值d,數(shù)值型變量,數(shù)值越?對業(yè)務積極影響越?。

3.?法論

?先,由于數(shù)據(jù)集呈現(xiàn)分類變量與數(shù)值變量混合的特點,本次數(shù)據(jù)分析將采?以下兩種算法并在分析結(jié)束后進?對?擇優(yōu):

K-means算法:需要將分類變量a轉(zhuǎn)換為啞變量,使其成為數(shù)值型變量,然后通過計算歐??得距離得出聚類結(jié)果。算法運?結(jié)束后將使?輪廓系數(shù)評價聚類效果。

K-prototype算法:?需創(chuàng)建啞變量,將分別為分類變量計算漢明距離、為數(shù)值型變量計算歐??得距離然后得出聚類結(jié)果。算法運?結(jié)束后將使?成本函數(shù)評價聚類效果。

三文魚皮可以吃嗎其次,數(shù)值型變量b、c、d的量綱明顯不等,為避免量綱影響距離計算中不同變量的權(quán)重,需要對變量b、c、d進?處理。由于不知道是否符合正態(tài)分布,在這?使?歸?化??標準化。

越南人體最后,由于機器?法理解業(yè)務場景,算法本??法對不同聚類進?排序。在找到合理聚類?法后需要??構(gòu)建?個聚類評價指標以實現(xiàn)排序。

本項?基于python3.7.3,使?的庫包括pandas、numpy、sklearn、matplotlib、aborn、kmodes,具體代碼詳見附錄。

4.預處理

預處理步驟包括:

使?MinMaxScaler對變量b,c,d進?歸?化

使?get_dummies為變量a創(chuàng)建啞變量

處理結(jié)束后的數(shù)據(jù)集如下所?(僅展?前五?為例):

市a_1a_2a_3a_4abcd

亞001030.0162060.0091980.00757

海10001111

莞001030.3144850.1873450.299205

?000140.1092150.0608330.057343

沂000140.1060440.0356730.018547

沂000140.1060440.0356730.018547

5.分析過程

5.1K-means

參與運算的列:a_1,a_2,a_3,a_4,b,c,d

?肘法求解最優(yōu)k值(聚類數(shù)量):k=3

渭水之暖

k=3時的輪廓系數(shù)評價:

聚類間距:

解讀:雖然聚類間距良好,但是聚類2的輪廓系數(shù)過低,說明聚類2的聚合效果不好。在檢視聚類2時發(fā)現(xiàn)其包含北京、上海、牡丹江、?慶等城市,有悖常規(guī)認知,說明該聚類不合理。

結(jié)論:k-means聚類結(jié)果不可?。

5.2K-prototype

參與運算的列:a,b,c,d

?肘法求解最優(yōu)k(使?成本函數(shù)制圖):k=4

注1:python中計數(shù)從0開始計,所以橫軸數(shù)值為聚類數(shù)量-1

注2:此?法結(jié)果具有隨機性,有時會產(chǎn)?不??個肘點,存在最優(yōu)解和次優(yōu)解。為確保k=3為最優(yōu)解,此過程被運?了?次,最后驗證最優(yōu)解眾數(shù)為3。

解讀:分為四個聚類時,四個聚類所包含的城市符合?、?、三、四線城市的常規(guī)認知,說明聚類接近真實情況。

結(jié)論:K-prototype的聚類結(jié)果較為真實客觀,可以采?。

6.聚類排序

為實現(xiàn)聚類排序,?先調(diào)取了每個聚類的質(zhì)點:

Centroids(Min-maxScaled)Centroids(原數(shù)據(jù))

ClusterabcdabcdCount040.050.020.0143853.196638.9856.4648

120.660.520.59238517.47178333.073119.336

220.310.170.15218678.7560002.46785.9624

330.100.040.0337053.5416004.42148.8732

此處需要基于業(yè)務理解構(gòu)建?個作為聚類評價指標。四個特征值的業(yè)務重要程度?致,因此需要采?等權(quán)重計算每個特征值的,但是變量c對總的貢獻為負。但是,考慮到量綱的影響,仍需使?歸?化的b、c、d作為其。如果將a作為數(shù)值型變

量進?考量,也應當進?歸?化處理,并且應注意數(shù)值越?實際上對的貢獻越低。綜上所述,的構(gòu)建?法如下:

其中,

經(jīng)計算,每個聚類的及排名如下:

ClusterScoreRanking

00.044

11.401

20.952

來月經(jīng)頭痛30.423

經(jīng)檢視,聚類1、2、3、0?常接近常規(guī)認知中的?、?、三、四線城市,證明排序合理。

7.結(jié)論

燒烤學習經(jīng)過使?k-prototype算法和構(gòu)建聚類評價指標,成功將110個城市分為四個聚類及聚類排序。同時運?評價指標,結(jié)合歸?化數(shù)據(jù)可對個體城市實現(xiàn)細粒度上的評價,從?得到每個聚類內(nèi)部的城市排名情況或跨四個聚類的總體城市排名:

城市abcdclustercluster_tagin-cluster_scorein-cluster_ranking

上海15787434246352861tier11.5101

北京24021018264734571tier11.1622

深圳33762023015932281tier11.1163

蘇州23442411792518711tier10.8974

?州32924210535622881tier10.8755

杭州23173516144825861tier10.8346

城市abcdclustercluster_tagin-cluster_scorein-cluster_ranking東莞3189586485615832tier20.5871

南京2235728445912662tier20.5922愚公移山精神

南昌210282366166392tier20.2603

廈門1150597070810732tier20.3694

合肥218372758027242tier20.3775

年審車輛流程哈爾濱216126299363322tier20.3776

嘉興210918358793702tier20.2287

?連213676319773582tier20.3118

天津2254286530910102tier20.6499

寧波221712643549282tier20.53810

常州212683297693552tier20.29011

成都330619956119182tier20.68112

?錫218622426076322tier20.46313

武漢2215669236013992tier20.54114

沈陽223688678897352tier20.54315

泉州215615634547612tier20.34616

溫州122346*********tier20.52717

湖州26299177061562tier20.11818

福州1150678239810312tier20.32719

西安3236345753211182tier20.64520

重慶331119765626562tier20.70121

?華215317483945682tier20.34622

長沙219307771048222tier20.41623

青島218305567695262tier20.39324

城市abcd

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論