一個用R語言進行Kmeans聚類分析的例子_第1頁
一個用R語言進行Kmeans聚類分析的例子_第2頁
已閱讀5頁,還剩6頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

1、在網(wǎng)上(檢查數(shù)據(jù)的維度>dim(iris)11505顯示數(shù)據(jù)集中的列名>names(iris)1"Sepal.Length""Sepal.Width""Petal.Length""Petal.Width""Species"顯示數(shù)據(jù)集的內(nèi)部結(jié)構(gòu)>str(iris)'data.frame':150obs.of5variables:$Sepal.Length:num4.655.44.654.44.9.$Sepal.Width:

2、num3.52.93.1.$Petal.Length:num1.5.$Petal.Width:num0.1.$Species:Factorw/3levels"setosa","versicolor",.:1111111111.顯示數(shù)據(jù)集的屬性>attributes(iris)$names-就是數(shù)據(jù)集的列名1"Sepal.Length""Sepal.Width"

3、;"Petal.Length""Petal.Width""Species"$s-個人理解就是每行數(shù)據(jù)的標(biāo)號11234567891011121314151617181920212122232425262728293031323334353637383940414142434445464748495051525354555657585960616162636465666768697071727374757677787980818182838485868788899091929394959697989910010110110

4、2103104105106107108109110111112113114115116117118119120121121122123124125126127128129130131132133134135136137138139140141141142143144145146147148149150$class-表示類別1"data.frame"查看數(shù)據(jù)集的前五項數(shù)據(jù)情況>iris1:5,Sepal.LengthSepal.WidthPetal.LengthPetal.WidthSpecies0.2setosa24.93.01.40.2s

5、etosa0.2setosa0.2setosa55.0setosa查看數(shù)據(jù)集中屬性Sepal.Length前10行數(shù)據(jù)>iris1:10,"Sepal.Length"4.65.04.44.9同上>iris$Sepal.Length1:104.65.04.44.9顯示數(shù)據(jù)集中每個變量的分布情況>summary(iris)Sepal.LengthSepal.WidthPetal.LengthPetal.W

6、idthSpeciesMin.:4.300Min.:2.000Min.:1.000Min.:0.100setosa:501stQu.:5.1001stQu.:2.8001stQu.:1.6001stQu.:0.300versicolor:50Median:5.800Median:3.000Median:4.350Median:1.300virginica:50Mean:5.843Mean:3.057Mean:3.758Mean:1.1993rdQu.:6.4003rdQu.:3.3003rdQu.:5.1003rdQu.:1.800Max.:7.900Max.:4.400Max.:6.900M

7、ax.:2.500中各個值出現(xiàn)頻次顯示iris數(shù)據(jù)集列Species>table(iris$Species)setosaversicolorvirginica505050根據(jù)列Species畫出餅圖>pie(table(iris$Species)算出列SepaLLength的所有值的方差>var(iris$Sepal.Length)10.6856935算出列iris$Sepal.Length和iris$Petal.Length的協(xié)方差>cov(iris$Sepal.Length,iris$Petal.Length)11.274315算出列

8、iris$Sepal.Length和iris$Petal.Length的相關(guān)系數(shù),從結(jié)果看這兩個值是強相關(guān)。>cor(iris$Sepal.Length,iris$Petal.Length)10.8717538畫出列iris$Sepal.Length分布柱狀圖>hist(iris$SepaLLength)畫出列iris$SepaLLength的密度函數(shù)圖>plot(density(iris$Sepal.Length)畫出歹列iris$Sepal.Length和iris$Sepal.Width的散點圖>plot(iris$Sepal.Len

9、gth,iris$Sepal.Width)繪出矩陣各列的散布圖>plot(iris)or>pairs(iris)第二步:使用knn包進行Kmean聚類分析將數(shù)據(jù)集進行備份,將列newiris$Species置為空,將此數(shù)據(jù)集作為測試數(shù)據(jù)集>newiris<-iris>newiris$Species<-NULL在數(shù)據(jù)集newiris上運行Kmean聚類分析,將聚類結(jié)果保存在kc中。在kmean函數(shù)中,將需要生成聚類數(shù)設(shè)置為3>(kc<-kmeans(newiris,3)K-meansc

10、lusteringwith3clustersofsizes38,50,62:K-means算法產(chǎn)生了3個聚類,大小分別為38,50,62.Clustermeans:每個聚類中各個列值生成的最終平均值Sepal.LengthSepal.WidthPetal.LengthPetal.Width15.0060003.4280001.4620000.2460005.9016132.7483874.3935481.43387136.8500003.0736845.7421052.071053Clusteringvector:每行記錄所屬的聚類(2代表屬于第二個聚類,1代表屬于第一個聚類,3代表屬于第三個

11、聚類)1111111111111111111111111111111111111371111111111111122322222222222222222227322222322222222222222222222223233109333332233332323233223333323333233323145332332Withinclustersumofsquaresbycluster:每個聚類內(nèi)部的距離平方和115.1510039.8209723.87947(between_SS/total_SS=88.4%)組間的距離平方和占了整體距離平方和的的88.4%,也就是說各個聚類間的距離做到了最

12、大Availablecomponents:運行kmeans函數(shù)返回的對象所包含的各個組成部分1"cluster""centers""totss""withinss"5"tot.withinss""betweenss""size"("cluster"是一個整數(shù)向量,用于表示記錄所屬的聚類"centers"是一個矩陣,表示每聚類中各個變量的中心點"totss"表示所生成聚類的總體距離平方和"

13、withinss"表示各個聚類組內(nèi)的距離平方和"tot.withinss"表示聚類組內(nèi)的距離平方和總量"betweenss"表示聚類組間的聚類平方和總量"size"表示每個聚類組中成員的數(shù)量)創(chuàng)建一個連續(xù)表,在三個聚類中分別統(tǒng)計各種花出現(xiàn)的次數(shù)>table(iris$Species,kc$cluster)123setosa0500versicolor2048virginica36014根據(jù)最后的聚類結(jié)果畫出散點圖,數(shù)據(jù)為結(jié)果集中的列"Sepal.Length"和"Sepal.Width",顏

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論