![《大數(shù)據(jù)處理與智能決策 》課件-8-聚類算法典型算法_第1頁](http://file4.renrendoc.com/view10/M01/0C/08/wKhkGWekD0KAIA8AAAJ4YJeJvOc047.jpg)
![《大數(shù)據(jù)處理與智能決策 》課件-8-聚類算法典型算法_第2頁](http://file4.renrendoc.com/view10/M01/0C/08/wKhkGWekD0KAIA8AAAJ4YJeJvOc0472.jpg)
![《大數(shù)據(jù)處理與智能決策 》課件-8-聚類算法典型算法_第3頁](http://file4.renrendoc.com/view10/M01/0C/08/wKhkGWekD0KAIA8AAAJ4YJeJvOc0473.jpg)
![《大數(shù)據(jù)處理與智能決策 》課件-8-聚類算法典型算法_第4頁](http://file4.renrendoc.com/view10/M01/0C/08/wKhkGWekD0KAIA8AAAJ4YJeJvOc0474.jpg)
![《大數(shù)據(jù)處理與智能決策 》課件-8-聚類算法典型算法_第5頁](http://file4.renrendoc.com/view10/M01/0C/08/wKhkGWekD0KAIA8AAAJ4YJeJvOc0475.jpg)
版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認(rèn)領(lǐng)
文檔簡介
K-means算法
由于具有出色的速度和良好的可擴展性,Kmeans聚類算法算得上是最著名的聚類方法。Kmeans算法是一個重復(fù)移動類中心點的過程,把類的中心點,也稱重心(centroids),移動到其包含成員的平均位置,然后重新劃分其內(nèi)部成員。k是算法計算出的超參數(shù),表示類的數(shù)量;Kmeans可以自動分配樣本到不同的類,但是不能決定究竟要分幾個類。k必須是一個比訓(xùn)練集樣本數(shù)小的正整數(shù)。有時,類的數(shù)量是由問題內(nèi)容指定的。
例如,一個鞋廠有三種新款式,它想知道每種新款式都有哪些潛在客戶,于是它調(diào)研客戶,然后從數(shù)據(jù)里找出三類。也有一些問題沒有指定聚類的數(shù)量,最優(yōu)的聚類數(shù)量是不確定的。后面我將會詳細介紹一些方法來估計最優(yōu)聚類數(shù)量。hyperparameterK-means算法原理k-means算法的基本步驟:
(1)從數(shù)據(jù)中選擇k個對象作為初始聚類中心即初始質(zhì)心;
(2)然后將數(shù)據(jù)集中的每一個點分配到一個簇中,即為每一個點找到距其最近的質(zhì)心,并將其分配給該質(zhì)心所對應(yīng)的簇;
(3)每一個簇的質(zhì)心更新為該簇所有點的平均值;
(4)計算標(biāo)準(zhǔn)測度函數(shù),直到達到最大迭代次數(shù),則停止,否則,繼續(xù)操作。K-means算法原理1、為什么K值的確定很重要?舉例說明先產(chǎn)生三組不同的高斯分布數(shù)據(jù),做為原始數(shù)據(jù),如下圖:K-means算法的關(guān)鍵點:K值和質(zhì)心的選取K-means算法原理當(dāng)聚類個數(shù)K取不同的值,聚類結(jié)果不同,如下:K=2時K=3時K-means算法原理K=4時K=5時可知K-means算法中K值取值不同時對聚類的結(jié)果影響至關(guān)重要,上例中k為3時才是理想的聚類結(jié)果。那么如何初步確定K值的選取呢??K-means算法原理K值確定方法-肘部法則:肘部法的核心指標(biāo)是SSE(sumofthesquarederrors,誤差平方和)其中,Ci是第i個簇,p是Ci中的樣本點,mi是Ci的質(zhì)心(Ci中所有樣本的均值),SSE是所有樣本的聚類誤差,代表了聚類效果的好壞。K-means算法原理肘部法的核心思想是:隨著聚類數(shù)k的增大,樣本劃分會更加精細,每個簇的聚合程度會逐漸提高,那么誤差平方和SSE自然會逐漸變小。并且,當(dāng)k小于真實聚類數(shù)時,由于k的增大會大幅增加每個簇的聚合程度,故SSE的下降幅度會很大,而當(dāng)k到達真實聚類數(shù)時,再增加k所得到的聚合程度回報會迅速變小,所以SSE的下降幅度會驟減,然后隨著k值的繼續(xù)增大而趨于平緩,也就是說SSE和k的關(guān)系圖是一個手肘的形狀,而這個肘部對應(yīng)的k值就是數(shù)據(jù)的真實聚類數(shù)。當(dāng)然,這也是該方法被稱為手肘法的原因。K-means算法原理
2、初始質(zhì)心的選取方法:
1)選擇適當(dāng)?shù)某跏假|(zhì)心是基本kmeans算法的關(guān)鍵步驟。常見的方法是隨機的選取初始中心,但是這樣簇的質(zhì)量常常很差。處理選取初始質(zhì)心問題的一種常用技術(shù)是:多次運行,每次使用一組不同的隨機初始質(zhì)心,然后選取具有最小SSE(誤差的平方和)的簇集。這種策略簡單,但是效果可能不好,這取決于數(shù)據(jù)集和尋找的簇的個數(shù)。2)首先隨機選擇一個點作為第一個初始類簇中心點,然后選擇距離該點最遠的那個點作為第二個初始類簇中心點,然后再選擇距離前兩個點的最近距離最大的點作為第三個初始類簇的中心點,以此類推,直至選出K個初始類簇中心點。(推薦)K-means算法原理K-means偽代碼實現(xiàn):創(chuàng)建k個點作為起始質(zhì)心,可以隨機選擇(位于數(shù)據(jù)邊界內(nèi))當(dāng)任意一個點的簇分配結(jié)果發(fā)生改變時對數(shù)據(jù)集中每一個點對每個質(zhì)心計算質(zhì)心與數(shù)據(jù)點之間的距離將數(shù)據(jù)點分配到距其最近的簇對每一個簇,計算簇中所有點的均值并將均值作為質(zhì)心K-means算法的matlab實現(xiàn)兩個公式的理解:公式一:求出所有數(shù)據(jù)和初始化的隨機數(shù)據(jù)的距離,然后找出距離每個初始數(shù)據(jù)最近的數(shù)據(jù)。公式二:意思就是求出所有和這個初始數(shù)據(jù)最近原始數(shù)據(jù)的距離的均值。然后不斷迭代兩個公式,直到所有的u都不怎么變化了,就算完成了。計算聚類結(jié)果的準(zhǔn)確率[a,b]=find(Idx==Compound(:,3));K-means算法的matlab實現(xiàn)main.mclearall;closeall;clc;%第一類數(shù)據(jù)mu1=[000];%均值S1=[0.300;00.350;000.3];%協(xié)方差data1=mvnrnd(mu1,S1,100);%產(chǎn)生高斯分布數(shù)據(jù)%%第二類數(shù)據(jù)mu2=[1.251.251.25];S2=[0.300;00.350;000.3];data2=mvnrnd(mu2,S2,100);%第三個類數(shù)據(jù)mu3=[-1.251.25-1.25];S3=[0.300;00.350;000.3];data3=mvnrnd(mu3,S3,100);%顯示數(shù)據(jù)plot3(data1(:,1),data1(:,2),data1(:,3),'+');holdon;plot3(data2(:,1),data2(:,2),data2(:,3),'r+');plot3(data3(:,1),data3(:,2),data3(:,3),'g+');gridon;K-means算法實現(xiàn)%三類數(shù)據(jù)合成一個不帶標(biāo)號的數(shù)據(jù)類data=[data1;data2;data3];%這里的data是不帶標(biāo)號的%k-means聚類[ure]=KMeans(data,3);%最后產(chǎn)生帶標(biāo)號的數(shù)據(jù),標(biāo)號在所有數(shù)據(jù)的最后,意思就是數(shù)據(jù)再加一維度[mn]=size(re);%最后顯示聚類后的數(shù)據(jù)figure;holdon;fori=1:mifre(i,4)==1plot3(re(i,1),re(i,2),re(i,3),'ro');elseifre(i,4)==2plot3(re(i,1),re(i,2),re(i,3),'go');elseplot3(re(i,1),re(i,2),re(i,3),'bo');endendgridon;K-means算法實現(xiàn)KMeans.m%N是數(shù)據(jù)一共分多少類%data是輸入的不帶分類標(biāo)號的數(shù)據(jù)%u是每一類的中心%re是返回的帶分類標(biāo)號的數(shù)據(jù)function[ure]=KMeans(data,N)[mn]=size(data);%m是數(shù)據(jù)個數(shù),n是數(shù)據(jù)維數(shù)
ma=zeros(n);%每一維最大的數(shù)
mi=zeros(n);%每一維最小的數(shù)
u=zeros(N,n);%隨機初始化,最終迭代到每一類的中心位置
fori=1:nma(i)=max(data(:,i));%每一維最大的數(shù)
mi(i)=min(data(:,i));%每一維最小的數(shù)
forj=1:Nu(j,i)=ma(i)+(mi(i)-ma(i))*rand();%隨機初始化,不過還是在每一維[minmax]中初始化好些
endendK-means算法實現(xiàn)while1pre_u=u;%上一次求得的中心位置
fori=1:Ntmp{i}=[];%公式一中的x(i)-uj,為公式一實現(xiàn)做準(zhǔn)備
forj=1:mtmp{i}=[tmp{i};data(j,:)-u(i,:)];endendquan=zeros(m,N);fori=1:m%公式一的實現(xiàn)
c=[];forj=1:Nc=[cnorm(tmp{j}(i,:))];end[junkindex]=min(c);quan(i,index)=norm(tmp{index}(i,:));endfori=1:N%公式二的實現(xiàn)
forj=1:nu(i,j)=sum(quan(:,i).*data(:,j))/sum(quan(:,i));endendifnorm(pre_u-u)<0.1%不斷迭代直到位置不再變化
break;endendK-means算法實現(xiàn)re=[];fori=1:mtmp=[];forj=1:Ntmp=[tmpnorm(data(i,:)-u(j,:))];end[junkindex]=min(tmp);re=[re;data(i,:)index];end
endK-means算法實現(xiàn)結(jié)果:初始的三類樣本K-means算法實現(xiàn)結(jié)果:聚類的結(jié)果K-means算法實現(xiàn)K-means算法應(yīng)用實例一、電信運營商–客戶價值分析從客戶需求出發(fā),了解客戶需要什么,他們有怎么樣的特征,電信運營商為客戶設(shè)置不同的優(yōu)惠套餐爭取更多的用戶:推出不同的優(yōu)惠套餐降低客戶流失率提高收入增加ARPU值(averagerevenueperuser每個用戶平均收益)精準(zhǔn)的市場營銷策略定制
K-means算法應(yīng)用實例使用聚類模型—分析項目需求K-means算法應(yīng)用實例importpandasaspdimportmatplotlib.pyplotaspltfromsklearn.clusterimportKMeansfromscipy.cluster.hierarchyimportlinkage,dendrogramcustinfo=pd.read_csv(r'.\\data\\custinfo.csv')custcall=pd.read_csv(r'.\\data\\custcall.csv')custcall.head()1、數(shù)據(jù)感知K-means算法應(yīng)用實例2、數(shù)據(jù)預(yù)處理K-means算法應(yīng)用實例K-means算法應(yīng)用實例3、模型建立K-means算法應(yīng)用實例K-means算法應(yīng)用實例K-means算法應(yīng)用實例defdensity_plot(data):#自定義作圖函數(shù)
plt.rcParams['axes.unicode_minus']=False#用來正常顯示負(fù)號
p=data.plot(kind='kde',linewidth=2,subplots=True,sharex=False,figsize=(10,15))[p[i].set_ylabel(u'密度',fontproperties='SimHei')for
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025年中國六位機械計數(shù)器市場調(diào)查研究報告
- 2025年轉(zhuǎn)向中間臂支架項目可行性研究報告
- 常州2025年江蘇常州市衛(wèi)生健康委員會直屬事業(yè)單位招聘高層次緊缺專業(yè)人才269人(定期)筆試歷年參考題庫附帶答案詳解
- 2025年生化儀器項目可行性研究報告
- 成都2024年四川成都經(jīng)開區(qū)(龍泉驛區(qū))招聘教育人才11人筆試歷年參考題庫附帶答案詳解
- 2025年智能程序溫控箱項目可行性研究報告
- 2025至2031年中國噴灌機管道行業(yè)投資前景及策略咨詢研究報告
- 2025年雙色底項目可行性研究報告
- 2025至2030年中國袋裝水簡易連接器數(shù)據(jù)監(jiān)測研究報告
- 2025年X射線探測器項目可行性研究報告
- 市場監(jiān)督管理局反電信網(wǎng)絡(luò)詐騙工作總結(jié)
- 2024-2030年中國免疫細胞存儲行業(yè)發(fā)展模式及投資戰(zhàn)略分析報告
- 家庭清潔課件教學(xué)課件
- 湖南財政經(jīng)濟學(xué)院《常微分方程》2023-2024學(xué)年第一學(xué)期期末試卷
- 2011年公務(wù)員國考《申論》真題卷及答案(地市級)
- 《籃球體前變向運球技術(shù)》教案(共三篇)
- 多元化評價體系構(gòu)建
- 部編版六年級下冊道德與法治全冊教案教學(xué)設(shè)計
- DBJ04∕T 290-2012 袖閥管注漿加固地基技術(shù)規(guī)程
- GB/T 17775-2024旅游景區(qū)質(zhì)量等級劃分
- 燈籠彩燈安裝合同范本
評論
0/150
提交評論