版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)
文檔簡介
第第頁使用k-means及k-prototype對混合型數(shù)據(jù)集進行聚類分析使?k-means及k-prototype對混合型數(shù)據(jù)集進?聚類分析1.分析?標
本項?旨在使?聚類算法對110個城市進?分類與排序,以尋找客觀真實的城市分層?法、?持業(yè)務運營與決策。
2.數(shù)據(jù)集
數(shù)據(jù)集來源于某互聯(lián)?公司,特征值標簽已做脫敏處理。數(shù)據(jù)集尺?為111?×5列,第??為標題?,其余110?為實例。
第?列:城市名,將作為index不參與模型計算;
第?列:特征值a,以數(shù)值表現(xiàn)的分類變量,1代表評價最好、4代表最差;
第三列:特征值b,數(shù)值型變量,數(shù)值越?對業(yè)務積極影響越?;
雨傘的英語怎么讀第四列:特征值c,數(shù)值型變量,數(shù)值越?對業(yè)務消極影響越?;
第五列:特征值d,數(shù)值型變量,數(shù)值越?對業(yè)務積極影響越?。
3.?法論
?先,由于數(shù)據(jù)集呈現(xiàn)分類變量與數(shù)值變量混合的特點,本次數(shù)據(jù)分析將采?以下兩種算法并在分析結(jié)束后進?對?擇優(yōu):
K-means算法:需要將分類變量a轉(zhuǎn)換為啞變量,使其成為數(shù)值型變量,然后通過計算歐??得距離得出聚類結(jié)果。算法運?結(jié)束后將使?輪廓系數(shù)評價聚類效果。
K-prototype算法:?需創(chuàng)建啞變量,將分別為分類變量計算漢明距離、為數(shù)值型變量計算歐??得距離然后得出聚類結(jié)果。算法運?結(jié)束后將使?成本函數(shù)評價聚類效果。
三文魚皮可以吃嗎其次,數(shù)值型變量b、c、d的量綱明顯不等,為避免量綱影響距離計算中不同變量的權(quán)重,需要對變量b、c、d進?處理。由于不知道是否符合正態(tài)分布,在這?使?歸?化??標準化。
越南人體最后,由于機器?法理解業(yè)務場景,算法本??法對不同聚類進?排序。在找到合理聚類?法后需要??構(gòu)建?個聚類評價指標以實現(xiàn)排序。
本項?基于python3.7.3,使?的庫包括pandas、numpy、sklearn、matplotlib、aborn、kmodes,具體代碼詳見附錄。
4.預處理
預處理步驟包括:
使?MinMaxScaler對變量b,c,d進?歸?化
使?get_dummies為變量a創(chuàng)建啞變量
處理結(jié)束后的數(shù)據(jù)集如下所?(僅展?前五?為例):
城
市a_1a_2a_3a_4abcd
三
亞001030.0162060.0091980.00757
上
海10001111
東
莞001030.3144850.1873450.299205
中
?000140.1092150.0608330.057343
臨
沂000140.1060440.0356730.018547
沂000140.1060440.0356730.018547
5.分析過程
5.1K-means
參與運算的列:a_1,a_2,a_3,a_4,b,c,d
?肘法求解最優(yōu)k值(聚類數(shù)量):k=3
渭水之暖
k=3時的輪廓系數(shù)評價:
聚類間距:
解讀:雖然聚類間距良好,但是聚類2的輪廓系數(shù)過低,說明聚類2的聚合效果不好。在檢視聚類2時發(fā)現(xiàn)其包含北京、上海、牡丹江、?慶等城市,有悖常規(guī)認知,說明該聚類不合理。
結(jié)論:k-means聚類結(jié)果不可?。
5.2K-prototype
參與運算的列:a,b,c,d
?肘法求解最優(yōu)k(使?成本函數(shù)制圖):k=4
注1:python中計數(shù)從0開始計,所以橫軸數(shù)值為聚類數(shù)量-1
注2:此?法結(jié)果具有隨機性,有時會產(chǎn)?不??個肘點,存在最優(yōu)解和次優(yōu)解。為確保k=3為最優(yōu)解,此過程被運?了?次,最后驗證最優(yōu)解眾數(shù)為3。
解讀:分為四個聚類時,四個聚類所包含的城市符合?、?、三、四線城市的常規(guī)認知,說明聚類接近真實情況。
結(jié)論:K-prototype的聚類結(jié)果較為真實客觀,可以采?。
6.聚類排序
為實現(xiàn)聚類排序,?先調(diào)取了每個聚類的質(zhì)點:
Centroids(Min-maxScaled)Centroids(原數(shù)據(jù))
ClusterabcdabcdCount040.050.020.0143853.196638.9856.4648
120.660.520.59238517.47178333.073119.336
220.310.170.15218678.7560002.46785.9624
330.100.040.0337053.5416004.42148.8732
此處需要基于業(yè)務理解構(gòu)建?個作為聚類評價指標。四個特征值的業(yè)務重要程度?致,因此需要采?等權(quán)重計算每個特征值的,但是變量c對總的貢獻為負。但是,考慮到量綱的影響,仍需使?歸?化的b、c、d作為其。如果將a作為數(shù)值型變
量進?考量,也應當進?歸?化處理,并且應注意數(shù)值越?實際上對的貢獻越低。綜上所述,的構(gòu)建?法如下:
其中,
經(jīng)計算,每個聚類的及排名如下:
ClusterScoreRanking
00.044
11.401
20.952
來月經(jīng)頭痛30.423
經(jīng)檢視,聚類1、2、3、0?常接近常規(guī)認知中的?、?、三、四線城市,證明排序合理。
7.結(jié)論
燒烤學習經(jīng)過使?k-prototype算法和構(gòu)建聚類評價指標,成功將110個城市分為四個聚類及聚類排序。同時運?評價指標,結(jié)合歸?化數(shù)據(jù)可對個體城市實現(xiàn)細粒度上的評價,從?得到每個聚類內(nèi)部的城市排名情況或跨四個聚類的總體城市排名:
城市abcdclustercluster_tagin-cluster_scorein-cluster_ranking
上海15787434246352861tier11.5101
北京24021018264734571tier11.1622
深圳33762023015932281tier11.1163
蘇州23442411792518711tier10.8974
?州32924210535622881tier10.8755
杭州23173516144825861tier10.8346
城市abcdclustercluster_tagin-cluster_scorein-cluster_ranking東莞3189586485615832tier20.5871
南京2235728445912662tier20.5922愚公移山精神
南昌210282366166392tier20.2603
廈門1150597070810732tier20.3694
合肥218372758027242tier20.3775
年審車輛流程哈爾濱216126299363322tier20.3776
嘉興210918358793702tier20.2287
?連213676319773582tier20.3118
天津2254286530910102tier20.6499
寧波221712643549282tier20.53810
常州212683297693552tier20.29011
成都330619956119182tier20.68112
?錫218622426076322tier20.46313
武漢2215669236013992tier20.54114
沈陽223688678897352tier20.54315
泉州215615634547612tier20.34616
溫州122346*********tier20.52717
湖州26299177061562tier20.11818
福州1150678239810312tier20.32719
西安3236345753211182tier20.64520
重慶331119765626562tier20.70121
?華215317483945682tier20.34622
長沙219307771048222tier20.41623
青島218305567695262tier20.39324
城市abcd
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2024污水處理廠運營合同書(范本)
- 2024幼兒園租房合同協(xié)議書樣本
- 房產(chǎn)抵押擔保借款合同書范例
- 2024貨船租賃合同范本范文
- 股權(quán)抵押借款合同范文2024年
- 店面租房門面房租房合同協(xié)議
- 商業(yè)鋪租賃合同格式
- 項目合作協(xié)議書模板示例
- 2024居間合同,居間合同范例
- 技術(shù)合作協(xié)議樣式
- 大同重力儲能設(shè)備項目可行性研究報告
- 樁基及基坑質(zhì)量通病防治講義PPT(105頁)
- 精品堆垛機安裝指導書
- 前臺月度績效考核表(KPI)
- 雞的飼養(yǎng)管理-優(yōu)質(zhì)課件
- 德育課(共19張PPT)
- 化學微生物學第7章 微生物轉(zhuǎn)化
- 《少年正是讀書時》-完整版PPT課件
- 四、貼標機基本調(diào)整法1
- 船舶建造方案
- 35KV集電線路鐵塔組立專項方案
評論
0/150
提交評論