數(shù)據(jù)挖掘與數(shù)據(jù)分析：基于R語言- 課件第8、9章層次聚類、k均值聚類

上傳人：y*** IP屬地：山東上傳時間：2024-03-21 格式：PPTX 頁數(shù)：47 大?。?.42MB 積分：20 舉報 版權(quán)申訴

數(shù)據(jù)挖掘與數(shù)據(jù)分析：基于R語言- 課件第8、9章層次聚類、k均值聚類_第2頁

數(shù)據(jù)挖掘與數(shù)據(jù)分析：基于R語言- 課件第8、9章層次聚類、k均值聚類_第3頁

數(shù)據(jù)挖掘與數(shù)據(jù)分析：基于R語言- 課件第8、9章層次聚類、k均值聚類_第4頁

數(shù)據(jù)挖掘與數(shù)據(jù)分析：基于R語言- 課件第8、9章層次聚類、k均值聚類_第5頁

已閱讀5頁，還剩42頁未讀，繼續(xù)免費閱讀

版權(quán)說明：本文檔由用戶提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請進行舉報或認(rèn)領(lǐng)

文檔簡介

DataMiningandDataAnalysiswithR數(shù)據(jù)挖掘與數(shù)據(jù)分析：基于R語言合作QQ：243001978第八章層次聚類合作QQ：243001978算法原理01算法示例02模型理解03R語言編程04章節(jié)內(nèi)容8.1

算法原理圖8-1層次聚類樹狀圖和嵌套簇圖聚類分析是一種典型的無監(jiān)督學(xué)習(xí)，將未知類別的樣本按照一定的規(guī)則劃分成不同的類或簇，從而揭示樣本之間的內(nèi)在性質(zhì)和相互之間的聯(lián)系。聚類被廣泛應(yīng)用于醫(yī)學(xué)、生物學(xué)、市場營銷、心理學(xué)和數(shù)據(jù)挖掘等領(lǐng)域。層次聚類是最常用的聚類方法之一，它通過計算不同類別數(shù)據(jù)點間的相似度來創(chuàng)建一棵有層次的嵌套聚類樹，如圖8-1所示。自下而上的凝聚法（Agglomerative）和自頂向下的分裂法（Divisive）是兩種層次聚類的基本方法。凝聚層次聚類凝聚層次聚類是一種常見的聚類方法，從單個樣本點作為類開始，不斷合并最相似的兩個類，直到所有類聚成一類為止。算法步驟如下：①定義每個觀測值（樣本點）為一類；②計算任意兩類之間的距離，度量樣本間的相似度；③合并距離最近（相似度最高）的兩個類；④重復(fù)步驟②和③，直到所有類合并為一類。在上述過程中，最重要的環(huán)節(jié)是計算樣本點間、類之間的距離，下面將介紹具體距離度量準(zhǔn)則。凝聚層次聚類

凝聚層次聚類類之間距離度量：最小距離：將兩個類中距離最近的樣本間的距離定義為兩個聚類間的距離。最大距離：將兩個類中距離最遠(yuǎn)的樣本間的距離定義為兩個聚類間的距離。凝聚層次聚類

凝聚層次聚類

分裂層次聚類合作QQ：243001978分裂層次聚類先將所有樣本作為一類，然后找出類中距離最遠(yuǎn)的兩個簇并進行分裂，不斷重復(fù)直到每個樣本為一類。算法步驟如下：①定義所有觀測值（樣本點）為一類；②計算任意兩樣本點之間的距離；③找出同一類中距離最遠(yuǎn)的兩個樣本點a和b，分別作為兩個簇的中心；④若類中剩余的樣本點距離類中心a更近，將其分配到以a為中心的類中，否則分配到以b為中心的類中；⑤重復(fù)步驟③和④，直到每個觀測值為一類。8.2

算法示例圖8-65個二維點的集合例8-1：使用最小距離度量類之間的相似度，對如圖8-2的樣本數(shù)據(jù)進行凝聚層次聚類。點X坐標(biāo)Y坐標(biāo)p10.410.53p20.340.28p30.670.43p40.160.38p50.450.30表8-15個點的坐標(biāo)p1p2p3p4p5p10.0000.2600.2790.2920.233p20.2600.0000.3620.2060.112p30.2790.3620.0000.5120.256p40.2920.2060.5120.0000.301p50.2330.1120.2560.3010.000表8-25個點的歐式距離矩陣8.2

算法示例p1p2p3p4p5p10.0000.2600.2790.2920.233p20.2600.0000.3620.2060.112p30.2790.3620.0000.5120.256p40.2920.2060.5120.0000.301p50.2330.1120.2560.3010.000

p1{p2,p5}p3p4p10.0000.2330.2790.292{p2,p5}0.2330.0000.2560.206p30.2790.2560.0000.512p40.2920.2060.5120.000更新2.繼續(xù)找出距離最近的兩個簇{p2,p5}和p4，合并為{p2,p4,p5}，并更新距離矩陣。p1{p2,p5}p3p4p10.0000.2330.2790.292{p2,p5}0.2330.0000.2560.206p30.2790.2560.0000.512p40.2920.2060.5120.000更新p1{p2,p4,p5}p3p10.0000.2330.279{p2,p4,p5}0.2330.0000.256p30.2790.2560.0008.2

算法示例3.接著繼續(xù)找出距離最近的兩個簇{p2,p4,p5}和p1，合并為{p1,p2,p4,p5}，更新距離矩陣。4.最后合并剩下的兩個簇，即獲得最終結(jié)果，如下圖所示。在樹狀圖中兩個簇合并處的高度反映兩個簇的距離，例如p2和p5間距離為0.112，即為樹狀圖中兩個簇合并時對應(yīng)的高度。更新p1{p2,p4,p5}p3p10.0000.2330.279{p2,p4,p5}0.2330.0000.256p30.2790.2560.000{p1,p2,p4,p5}p3{p1,p2,p4,p5}0.0000.256p30.2560.000圖8-7凝聚層次聚類結(jié)果8.2

算法示例例8-2：使用最小距離度量類之間的相似度，對如圖8-2的樣本數(shù)據(jù)（例8-1中的相同數(shù)據(jù)）進行分裂層次聚類，過程如下：將所有樣本點聚為一類{p1,p2,p3,p4,p5}找出距離最遠(yuǎn)的兩點p3、p4作為兩個子類的中心，并根據(jù)距離最近原則將剩余點分配到這兩個子類。此時，將原本類分裂為{p1,p3,p5}和{p2,p4}對每個子類，再執(zhí)行分裂過程，直至所有樣本點均屬于一類，結(jié)束圖8-65個二維點的集合p1p2p3p4p5p10.0000.2600.2790.2920.233p20.2600.0000.3620.2060.112p30.2790.3620.0000.5120.256p40.2920.2060.5120.0000.301p50.2330.1120.2560.3010.000表8-25個點的歐式距離矩陣8.2

算法示例例8-2：使用最小距離度量類之間的相似度，對如圖8-2的樣本數(shù)據(jù)（例8-1中的相同數(shù)據(jù)）進行分裂層次聚類，結(jié)果如下圖所示：圖8-8分裂層次聚類結(jié)果8.3

模型理解層次聚類的優(yōu)點：層次聚類中距離和相似度容易定義，算法相對簡單。適用于任意形狀和任意屬性的數(shù)據(jù)集。層次聚類不需要預(yù)先指定聚類數(shù)，能夠得到不同粒度上的多層次聚類結(jié)構(gòu)?？梢允褂脴湫螆D對聚類結(jié)果進行可視化，易于解釋和理解。對樣本的輸入順序不敏感。層次聚類的缺點：算法時間復(fù)雜度較大。過程具有不可逆性，一旦合并或分裂執(zhí)行，就不能修正。如果某個合并或分裂決策在后來證明是不好的選擇，該方法無法退回并更正。合并或分裂需要檢查和估算大量的對象或簇，不具有很好的可伸縮性。距離度量的選擇最小和最大距離代表簇間距離度量的兩個極端，它們對離群點或噪聲數(shù)據(jù)過分敏感。使用平均距離和質(zhì)心距離是對最小和最大距離之間的一種折中方法，而且可以克服離群點敏感性問題。盡管質(zhì)心距離計算簡單，但平均距離既能處理數(shù)值數(shù)據(jù)又能處理分類數(shù)據(jù)，具有一定優(yōu)勢。8.4R語言編程game_df<-read.csv("./game.csv",header=TRUE,sep=",")str(game_df)輸出:

數(shù)據(jù)簡介：本案例采用北美和歐洲以及其他地區(qū)的游戲發(fā)行量情況數(shù)據(jù)集，其中包含游戲發(fā)行商（例如任天堂、索尼等），及不同類型游戲的銷量和評分等級等詳細(xì)信息。主要目的是分析2000年以來不同年份發(fā)售的游戲間的相似性及差異性。數(shù)據(jù)導(dǎo)入：使用read.csv()函數(shù)讀取原始數(shù)據(jù)集game.csv，并通過str()函數(shù)查看詳細(xì)信息，代碼如下：數(shù)據(jù)導(dǎo)入屬性名稱屬性解釋屬性示例Name游戲名稱NewSuperMarioBros.platform所支持平臺DSYear_of_Release發(fā)行年份2006Genre游戲類型PlatformPublisher游戲發(fā)行商NintendoNA_Sales北美銷量11.28EU_Sales歐洲銷量9.14JP_Sales日本銷量6.5Other_Sales其他地區(qū)銷量2.88Global_Sales全球總銷量29.8Critic_Score測評師評分89Critic_Count評分測評師數(shù)量65User_Score用戶評分8.5User_Count評分用戶數(shù)量431Developer游戲開發(fā)者NintendoRating游戲分級E數(shù)據(jù)集屬性的解釋表格匯總：數(shù)據(jù)預(yù)處理將發(fā)布年份從字符串轉(zhuǎn)換為數(shù)值刪除缺失值過濾發(fā)布時間早于2000年的數(shù)據(jù)game_df$Year_of_Release<-suppressWarnings(as.numeric(as.character(game_df$Year_of_Release)))game_df<-na.omit(game_df)game_df<-subset(game_df,game_df$Year_of_Release>=2000)summary(game_df)輸出:聚類分組層次聚類方法：hclust(d,method=…)參數(shù)method表示類之間相似性的度量方法，包括："single"、"complete"、"average"、"centroid"和"ward"距離計算方法：dist(x,method=…)參數(shù)method含義同上，可取值為"euclidean"、"maximum"、"manhattan"、"minkowski"、"canberra"和"binary"，且默認(rèn)為歐式距離。聚類分組聚類代碼和結(jié)果game<-game_df[,6:14]#抽取銷量和評分?jǐn)?shù)據(jù)set.seed(1234)game<-game[sample(nrow(game),20),]#隨機抽取20個數(shù)據(jù)game<-matrix(unlist(game),nrow=20)#轉(zhuǎn)換成matrixgame.scale<-scale(game)#數(shù)據(jù)標(biāo)準(zhǔn)化distance<-dist(game.scale)fit.average<-hclust(distance,method="average")plot(fit.average,hang=-1)輸出:圖8-11不同年份游戲發(fā)售數(shù)量的相似性及差異性結(jié)果分析選擇聚類數(shù)為4，并對結(jié)果進行觀察第一類有14個觀測值：{9,18,12,5,16,2,14,11,13,6,20,19,1,8}第二類有4個觀測值：{3,17,4,10}

第三類有1個觀測值：{7}第四類有1個觀測值：{15}clusters<-cutree(fit.average,4)#輸出每一類內(nèi)樣本的數(shù)量table(clusters)輸出:結(jié)果分析獲取每類的中位數(shù)，包括原始數(shù)據(jù)和標(biāo)準(zhǔn)化數(shù)據(jù)兩種度量形式aggregate(as.data.frame(game),by=list(cluster=clusters),FUN=median,na.rm=TRUE)aggregate(as.data.frame(game.scale),by=list(cluster=clusters),FUN=median,na.rm=TRUE)輸出:結(jié)果分析使用rect.hclust()函數(shù)疊加四類，重新繪制樹狀圖plot(fit.average,hang=-1)rect.hclust(fit.average,k=4)輸出:圖8-13不同年份游戲發(fā)售數(shù)量平均距離聚類結(jié)果分析聚類結(jié)果總結(jié)第一類游戲比較小眾，但較受用戶歡迎。其在各地銷量較低，但用戶和測評師對游戲的評分都比較高；第二類游戲銷量和評分都比較低，不被大多數(shù)用戶喜愛；第三類游戲比較受歡迎，游戲銷售量和評分都比較高；第四類游戲銷量一般，但用戶評分比較高，也是受小眾用戶喜歡的游戲。本章小結(jié)首先詳細(xì)介紹了層次聚類算法原理，包括凝聚法和分裂法；隨后通過示例講解兩種算法的運行過程；接著，為了加深讀者對層次聚類的理解，介紹了層次聚類的優(yōu)缺點以及距離度量的選擇；最后利用R語言對層次聚類過程進行實踐。DataMiningandDataAnalysiswithR數(shù)據(jù)挖掘與數(shù)據(jù)分析：基于R語言合作QQ：243001978第九章K均值聚類合作QQ：243001978算法原理01算法示例02模型理解03R語言編程04章節(jié)內(nèi)容9.1

算法原理K均值聚類是經(jīng)典的劃分聚類算法，是一種迭代的聚類分析算法，在迭代過程中不斷移動聚類中心，直到聚類準(zhǔn)則函數(shù)收斂為止，迭代步驟如下：①隨機選擇K個點作為質(zhì)心；②將每個數(shù)據(jù)對象劃分到距離最近的質(zhì)心所在的類中；③計算每個類中數(shù)據(jù)對象的均值作為新的質(zhì)心；④重復(fù)步驟②和③,直到質(zhì)心不再發(fā)生變化或達到最大迭代次數(shù)。最優(yōu)K值選取

最優(yōu)K值選取手肘法SSE和K值關(guān)系示例圖：

從上圖目測,肘部對應(yīng)的K值為4,即為最佳聚類數(shù)。當(dāng)目測法難以識別肘部位置時，可以通過觀測斜率、斜率變化量等指標(biāo)進行定量判斷。最優(yōu)K值選取

最優(yōu)K值選取

距離度量

K均值算法延伸K-Means++：對K均值算法隨機初始化質(zhì)心的過程進行優(yōu)化，使初始質(zhì)心的選擇更合理，從而提升算法收斂速度。elkanK-Means：利用兩邊之和大于第三邊，以及兩邊之差小于第三邊的三角形性質(zhì)，來減少距離的計算，相較于傳統(tǒng)的K-Means迭代速度有很大的提高。MiniBatchK-Means：使用樣本集中的部分樣本來做傳統(tǒng)的K-Means，這樣可以避免樣本量太大時的計算難題，算法收斂速度大大加快，但聚類的精確度也會有所降低。為了增加算法的準(zhǔn)確性，一般會運行多次MiniBatchK-Mean算法，并選擇其中最優(yōu)的聚類簇。9.2

算法示例例9-1：對如下年齡數(shù)據(jù)進行聚類：[14,15,16,18,18,20,21,21,23,28,34,40,43,49,60,61]。K值設(shè)定為2，隨機選擇16和23作為兩個質(zhì)心，使用歐式距離。步驟如下：（1）計算距離，并進行第一次迭代將各樣本點劃分到距離最近的質(zhì)心所在的類（Group）中，并更新各個聚類的質(zhì)心（Mean），得到以下分類結(jié)果：141516181820212123283440434960611621022455712182427334445239875532205111720263738表9-1各樣本點與質(zhì)心的距離矩陣Group1(16)Group2(23)Mean1(16)Mean2(23)[14,15,16,18,18][20,21,21,23,28,34,40,43,49,60,61]16.236.36表9-2第一次迭代結(jié)果9.2

算法示例（2）將兩個分組中樣本數(shù)據(jù)的均值作為新的質(zhì)心，并重復(fù)之前步驟Group1(16.2)Group2(36.36)Mean1(16.2)Mean2(36.36)[14,15,16,18,18,20,21,21,23][28,34,40,43,49,60,61]18.445表9-3第二次迭代結(jié)果Group1(18.4)Group2(45)Mean1(18.4)Mean2(45)[14,15,16,18,18,20,21,21,23,28][34,40,43,49,60,61]19.447.83表9-4第三次迭代結(jié)果Group1(19.4)Group2(47.83)Mean1(19.4)Mean2(47.83)[14,15,16,18,18,20,21,21,23,28][34,40,43,49,60,61]19.447.83表9-5第四次迭代結(jié)果9.2

算法示例（3）算法終止條件：新求得的質(zhì)心和原質(zhì)心相同，如表9-5所示。最終，得到以下兩類：Group1(19.4)=[14,15,16,18,18,20,21,21,23,28]Group2(47.83)=[34,40,43,49,60,61]Group1(19.4)Group2(47.83)Mean1(19.4)Mean2(47.83)[14,15,16,18,18,20,21,21,23,28][34,40,43,49,60,61]19.447.83表9-5第四次迭代結(jié)果9.3

模型理解K均值聚類優(yōu)點：聚類效果較優(yōu)。原理比較簡單，比較容易實現(xiàn)，收斂速度快。算法可解釋性比較強。K均值聚類缺點：K值選取不當(dāng)可能會導(dǎo)致較差的聚類結(jié)構(gòu)。采用迭代方法，得到的結(jié)果只是局部最優(yōu)，在大規(guī)模數(shù)據(jù)上收斂較慢。如果各隱含類別的數(shù)據(jù)不均衡，會導(dǎo)致聚類效果不佳。不適合發(fā)現(xiàn)非凸面形狀的簇，或者大小差別很大的簇。對噪聲點和異常點比較敏感。初始聚類中心的選擇很大程度上會影響聚類效果。9.4R語言編程案例使用R語言內(nèi)置的iris數(shù)據(jù)集，忽略種類變量Species，對150種鳶尾花植物樣本進行K均值聚類分析，數(shù)據(jù)集情況如下：#R編程示例-iris數(shù)據(jù)集head(iris)輸出:

屬性名稱屬性解釋屬性示例Sepal.Length花瓣長度5.1Sepal.Width花瓣寬度3.5Petal.Length花萼長度1.4Petal.Width花萼寬度0.2Species所屬物種setosa表9-6iris數(shù)據(jù)屬性解釋數(shù)據(jù)預(yù)處理對花瓣長度、花瓣寬度、花萼長度和花萼寬度四種屬性進行z-score標(biāo)準(zhǔn)化處理df<-scale(iris[1:4])head(df)輸出:

確定最佳K值R語言factoextra包中的fviz_nbclust()函數(shù)可對最佳K值進行選擇

fviz_nbclust(x,FUNcluster=NULL,method=c(“silhouette”,“wss”,),diss=NULL,k.max=10,...)，參數(shù)含義如下：

FUNcluster：用于聚類的函數(shù)，可用的參數(shù)值為：kmeans,cluster::pam,cluster::clara,cluster::fanny,hcut等；method：用于評估最佳簇數(shù)的指標(biāo)；diss：相異性矩陣，由dist()函數(shù)產(chǎn)生的對象，如果設(shè)置為NULL，那么表示使用dist(data,method="euclidean")計算data參數(shù)，得到相異性矩陣；k.max：最大的簇數(shù)量，至少是2。確定最佳K值

人人文庫> 全部分類> 教育資料 > 課件下載

溫馨提示

1. 本站所有資源如無特殊說明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽，若沒有圖紙預(yù)覽就沒有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 人人文庫網(wǎng)僅提供信息存儲空間，僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理，對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對任何下載內(nèi)容負(fù)責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容，請與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

數(shù)據(jù)挖掘與數(shù)據(jù)分析：基于R語言- 課件第8、9章層次聚類、k均值聚類

文檔簡介

溫馨提示

最新文檔

評論

數(shù)據(jù)挖掘與數(shù)據(jù)分析：基于R語言- 課件 第8、9章 層次聚類、k均值聚類

文檔簡介

溫馨提示

最新文檔

評論

相關(guān)文檔

數(shù)據(jù)挖掘與數(shù)據(jù)分析：基于R語言- 課件第8、9章層次聚類、k均值聚類