數(shù)據(jù)分析課程設(shè)計報告論文

上傳人：j*** IP屬地：安徽上傳時間：2022-07-12 格式：DOC 頁數(shù)：11 大小：182.50KB 積分：25 舉報 版權(quán)申訴

已閱讀5頁，還剩6頁未讀，繼續(xù)免費閱讀

版權(quán)說明：本文檔由用戶提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請進行舉報或認領(lǐng)

文檔簡介

1、. . 1 . . . w d . 基于K-均值的Iris數(shù)據(jù)聚類分析穩(wěn)* 1411010122 班級信科 14-1 成績 _基于K-均值的Iris數(shù)據(jù)聚類分析: 穩(wěn)信息與計算科學(xué)14-1班摘要數(shù)據(jù)挖掘在當今大數(shù)據(jù)新起的時代是一項必須掌握的技能，聚類分析是數(shù)據(jù)挖掘技術(shù)中一項重要的研究課題，在很多領(lǐng)域都有具有廣泛的應(yīng)用，如模式識別、數(shù)據(jù)分析等。聚類分析的目的是將數(shù)據(jù)對象分成假設(shè)干個類或簇，使得在同一個簇中的對象之間具有較高的相似度，而不同簇中的對象之間相似度較低5。通過聚類分析，人們能夠識別出數(shù)據(jù)分布密集和稀疏的區(qū)域，發(fā)現(xiàn)全局的分布模式以及數(shù)據(jù)屬性之間一些意想不到的相互關(guān)系。本文對R.A.Fis

2、her 在1936 年發(fā)表的Iris 數(shù)據(jù)進展數(shù)據(jù)挖掘，使用聚類分析中的K-Means對該問題進展進一步分析研究。實驗證明兩種方法都是適合的解決此類問題的。關(guān)鍵詞Iris數(shù)據(jù)；聚類分析；K-均值聚類.前言本文對聚類分析的原理進展闡述，并聚類分析中的譜系聚類法和K-means對的Iris 數(shù)據(jù)進展了數(shù)據(jù)分析，得到了幾乎一樣的結(jié)論，數(shù)據(jù)量太少，回帶誤差大約是20%。數(shù)據(jù)分析預(yù)處理1.1 數(shù)據(jù)來源分析的數(shù)據(jù)來自R.A.Fisher 在1936 年發(fā)表的Iris 數(shù)據(jù)見附錄B表B.1，據(jù)表可知前50個數(shù)據(jù)為牽牛一類，再50個數(shù)據(jù)為雜色一類，后50個數(shù)據(jù)為錦葵一類。將數(shù)據(jù)樣本*變量放入matlab變量名

3、*,保存為matlab的huaban.mat文件。1.2 數(shù)據(jù)分析采用譜系聚類分析方法和K-means聚類法解決例如Iris類的分類等問題。聚類分析2.1聚類的概述聚類分析是研究對樣品或指標進展分類的一種多元統(tǒng)計方法，是依據(jù)研究對象的個體的特征進展分類的方法；聚類分析把分類對象按一定規(guī)則分成假設(shè)干類，這些類非事先指定的，而是根據(jù)數(shù)據(jù)特征確定的。在同一類中這些對象在*種意義上趨向于彼此相似，而在不同類中趨向于不相似；職能是建立一種能按照樣品或變量的相似程度進展分類的方法。聚類準則為親者相聚，疏者相分。2.2 分類2.2.1 R型聚類分析R型聚類分析是對變量指標的分類，其主要作用：不但可以了解個別

4、變量之間的親疏程度，而且可以了解各個變量組合之間的親疏程度。2.2.2 Q型聚類分析Q型聚類分析是對樣品的分類，其主要作用：可以綜合利用多個變量的信息對樣本進展分析；分類結(jié)果直觀，聚類譜系圖清楚地表現(xiàn)數(shù)值分類結(jié)果；所得結(jié)果比傳統(tǒng)分類方法更細致、全面、合理。其常用的統(tǒng)計量是距離。常用的聚類方法為譜系聚類法等。2.3譜系聚類法概念譜系聚類法是目前應(yīng)用較為廣泛的一種聚類法。譜系聚類是根據(jù)生物分類學(xué)的思想對研究對象進展分類的方法。在生物分類學(xué)中，分類的單位是：門、綱、目、科、屬、種。其中種是分類的根本單位，分類單位越小，它所包含的生物就越少，生物之間的共同特征就越多。利用這種思想，譜系聚類首先將各樣品

5、自成一類，然后把最相似距離最近或相似系數(shù)最大的樣品聚為小類，再將已聚合的小類按各類之間的相似性用類間距離度量進展再聚合，隨著相似性的減弱，最后將一切子類都聚為一大類，從而得到一個按相似性大小聚結(jié)起來的一個譜系圖。2.3.2 選擇距離(參考文獻1 p209頁)在使用系統(tǒng)聚類法進展聚類的過程中，尤其是Q型聚類是建立在樣品之間距離矩陣的根底上的，通常需要對原始數(shù)據(jù)進展參考點的建立和去量綱化的處理，然后求出樣品距離矩陣D，我們采用比擬廣泛的閔可夫斯基Minkowski距離：當p=2時即為歐幾里得CEuclidean距離。然后進展類的搜索、合并于距離矩陣的更新涉及類間距離的計算，需要事先計算類與類之間的

6、距離。依據(jù)類問距離不同的計算方法，我們可以把系統(tǒng)聚類法分為最短距離法、最長距離法、重心法、離差平方和法(ward等。設(shè)Gp ,Gq 為前一輪操作中形成的*兩個聚類，在本輪操作中歸聚為新類Gr =GpGq則新類Gr與前一輪操作中形成噸，Gq 之外的任意一類 G，的距離遞推公式如下：最短距離法其中l(wèi) p,q.最長距離法其中l(wèi) p,q.中間距離法 -. 中心距離法其中，和分別為和包含的聚類對象個數(shù)，=+. Ward法注意，Ward法要求初始距離矩陣采用歐式距離公式計算各個對象的距離。2.4 得到閔可夫斯基Minkowski距離譜系聚類法函數(shù)見附錄A.11pdist創(chuàng)立聚類對象的Minkowski距離

7、矩陣。2squarform拉直矩陣D。3linkage用D或其拉直矩陣創(chuàng)立信息矩陣G，默認的類間距離為最短距離法。4dendrogram創(chuàng)立G的譜系聚類圖。5cluster創(chuàng)立G的指定個數(shù)類。2.5 畫譜系聚類圖見圖2.1圖2.1 Iris花瓣數(shù)據(jù)譜系聚類圖2.6 得出分類由圖2.1得出Iris花瓣數(shù)據(jù)截斷處可選擇d=1,d=0.8,d=0.666對應(yīng)的分類個數(shù)為2,3,5類。2.7 cluster創(chuàng)立G的指定個數(shù)類。matlab程序見A.32.7.1 分3類圖見圖2.2圖2.2譜系聚類分析分為三類圖2.8 結(jié)論由圖2.2將數(shù)據(jù)譜系聚類分析分為三類圖可知，將數(shù)據(jù)分為3類不太恰當，應(yīng)該兩類或者5

8、類更適宜，不過也有可能是我們選擇的距離有問題。下面K-means我們將更改距離。k-均值聚類3.1 K-Means算法思想1967 年Macqueen 提出了K-means 算法4，根本思想是把數(shù)據(jù)集中的數(shù)據(jù)點隨機生成k 組，把每組的均值作為中心點。重新計算每個數(shù)據(jù)點與各組的中心點的相似性，根據(jù)數(shù)據(jù)點相似性的度量準則，把每個數(shù)據(jù)點重新分組，計算每組新的均值作為中心點。不斷重復(fù)上述過程，直到中心點的均值收斂，停頓迭代過程。K-means 算法是一種比擬快速的聚類方法，時間復(fù)雜度為O ( nkt )，其中n 是數(shù)據(jù)點的數(shù)目， k 是分組數(shù)目， t 是迭代次數(shù)。K-means 算法也存在缺乏，最大問

9、題要指定分組數(shù)目并且在運行過程中容易導(dǎo)致局部最優(yōu)。3.1.1 K-均值算法K-均值算法是一種聚類個數(shù)的無監(jiān)視學(xué)習(xí)算法。首先指定表示聚類個數(shù)的K 值，然后對數(shù)據(jù)集聚類，算法完畢時用K 個聚類中心表示聚類結(jié)果。對于設(shè)定的目標準則函數(shù)，通過向目標準則函數(shù)值減小的方向進展迭代更新，目標準則函數(shù)值到達極小值時算法完畢，得到較優(yōu)的聚類結(jié)果。設(shè)數(shù)據(jù)集為，K個距離中心為V1,V2,.,Vk。令表示K個聚類的類別，則： (1)定義目標準則函數(shù)為：2其中|Ci |表示Ci類包含樣本的個數(shù)，使用歐式距離3度量樣本間的相似性。歐式距離適用于類數(shù)據(jù)對象符合超球形分布的情況，目標準則函數(shù)SSE表示為每個數(shù)據(jù)對象到相應(yīng)聚類

10、中心距離的平方和，即聚類均方誤差的最小值。3.1.2 K-均值算法的流程如下：1隨機選取K 個初始聚類中心V1,V2,.,Vk ；2按照最小距離原則，對數(shù)據(jù)集聚類，確定每個樣本的類屬關(guān)系；3使用公式1更新K 個簇的中心；4重復(fù)執(zhí)行2到4，直到目標準則函數(shù)收斂或聚類中心穩(wěn)定。顯然，初始聚類中心對K-均值算法產(chǎn)生很大的影響，簇集中易存在平均誤差較大的簇，聚類結(jié)果僅能收斂到局部最優(yōu)。即使選取不同的初始聚類中心執(zhí)行屢次K-均值算法，也只是在龐大的初值空間里進展簡單的搜索，聚類結(jié)果很難到達全局最優(yōu)。當數(shù)據(jù)集中存在較多噪音或孤立點時，已有的初始聚類中心優(yōu)化方法很難發(fā)現(xiàn)適宜的初始聚類中心。3.2 復(fù)合相關(guān)系

11、數(shù)的計算計算過程見附錄A.4分別記最短、最長、類平均、重心、離差平方和距離為G1、G2、G3、G4、G5，相對應(yīng)的復(fù)合相關(guān)系數(shù)分別記為R1、R2、R3、R4、R5，以歐式距離為樣本間距離計算得到表3-1表3-1復(fù)合相關(guān)系數(shù)R1R2R3R4R50.86390.72760.87680.87700.8728由表2可知以重心距離進展聚類分析效果應(yīng)該最為理想3.3 聚類結(jié)果見圖3.1以重心距離為類間距離進展譜系聚類分析得到matlab程序參考附錄A.1-4圖3.1譜系聚類圖3.4 譜系聚類結(jié)果見圖3.2圖3.2譜系聚類結(jié)果3.4 K-Means聚類結(jié)果見圖3.3圖3.3K-Means聚類結(jié)果3.5分析結(jié)

12、果由圖3.2結(jié)果可得第1類有36個樣本，第2類有64個樣本，第3類有50個樣本，由圖3.3可知第1類有62個樣本，第2類有49個樣本，第3類有39個樣本兩種方法根本得到的結(jié)論根本一致，不過都不太理想。這可能是數(shù)據(jù)量太小了的原因。大數(shù)據(jù)時代，需要大量的數(shù)據(jù)。參考文獻1 包研科.數(shù)據(jù)分析教程.：清華大學(xué)，20112 曾繁慧.數(shù)值分析.：中國礦業(yè)大學(xué)，20093 袁方，周志勇，宋鑫初始聚類中心優(yōu)化的K-means算發(fā) J .計算機工程，2007,333：65-664 MacQueen, James. Some methods for classification and analysis of mu

13、ltivariate observations. Proceedings of the fifth Berkeley symposium on mathematical statistics andprobability. Vol. 1. No. 281-297. 19675 余立強LAMP 架構(gòu)搭建與運行實例J網(wǎng)絡(luò)與信息，20118：50526 吳夙慧，成穎，彥寧，云濤. K-means 算法研究綜述 J . 現(xiàn)代圖書情報技術(shù), 2011, (5)： 28-35.附錄A.1 譜系聚類法函數(shù)function f = test4()load huaban.matD = pdist(*,minko

14、wski);G = linkage(D);dendrogram(G);T=cluster(G,3)A.2 自編k-means聚類分析*wKmeans.m函數(shù)function cid,nr,centers = *wKmeans(*,k,nc)% CID,NR,CENTERS = CSKMEANS(*,K,NC) Performs K-means% *輸入聚合數(shù)據(jù)% K通過觀察得到的經(jīng)歷分組數(shù)據(jù)% 每行一個觀測，NC為聚類指數(shù)，來源于初始的聚類中心值，默認情況下為隨機的觀測% 輸出: ID*為最終分類% nr為每個每個聚合的中心值% CENTERS is a matri*, where each

15、row% corresponds to a cluster center.n,d = size(*);if nargin 3 ind = ceil(n*rand(1,k);nc = *(ind,:) + randn(k,d);endcid = zeros(1,n); oldcid = ones(1,n);nr = zeros(1,k); ma*iter = 100;iter = 1;while isequal(cid,oldcid) & iter ma*iterfor i = 1:n dist = sum(repmat(*(i,:),k,1)-nc).2,2); m,ind = min(dis

16、t); cid(i) = ind;end for i = 1:k ind = find(cid=i); nc(i,:) = mean(*(ind,:); nr(i) = length(ind);end iter = iter + 1;endma*iter = 2;iter = 1;move = 1;while iter ma*iter & move = 0 move = 0;for i = 1:n % 找到與所有聚合的距離 dist = sum(repmat(*(i,:),k,1)-nc).2,2); r = cid(i); dadj = nr./(nr+1).*dist; m,ind = m

17、in(dadj); %最小的就是聚合的分類 if ind = r cid(i) = ind; ic = find(cid = ind); nc(ind,:) = mean(*(ic,:); move = 1; endenditer = iter+1;endcenters = nc;if move = 0disp(初始化聚類后沒有點移動)elsedisp(初始化后開場進展聚合分類)endcid =cid;A.3 k-means聚類分析分類圖matlab的main.m函數(shù)function f = main (*,k)n,d = size(*); bn=round(n/k*rand);%第一個隨機數(shù)

18、在前1/K的圍 %；表示按列顯示，都好表示按行顯示 %初始聚類中心 %*(bn,:) 選擇*一行數(shù)據(jù)作為聚類中心，其列值為全部 %*數(shù)據(jù)源，k聚類數(shù)目，nc表示k個初始化聚類中心 %cid表示每個數(shù)據(jù)屬于哪一類，nr表示每一類的個數(shù)，centers表示聚類中心cid,nr,centers = *wKmeans(*,k)for i=1:150 if cid(i)=1 plot(*(i,1),*(i,2),r*) % 顯示第一類hold on else if cid(i)=2, plot(*(i,1),*(i,2),b*)%顯示第二類 plot(*(i,2),b*) % 顯示第一類 hold on

19、 else if cid(i)=3, plot(*(i,1),*(i,2),g*) %顯示第三類 % plot(*(i,2),g*)% 顯示第一類 hold on else if cid(i)=4, plot(*(i,1),*(i,2),k*) %顯示第四類 % plot(*(i,2),k*) % 顯示第一類 hold on end end end end end te*t(7.5,3.5,第一類); te*t(5,4,第二類); te*t(5.5,2.5,第三類); te*t(-1,-1,第四類); A.4 相關(guān)系數(shù)matllab指令d=pdist(*);G1=linkage(d);G2=l

20、inkage(d,plete);G3=linkage(d,centroid);G4=linkage(d,average);G5=linkage(d,ward);R1=cophenet(G1,d);R2=cophenet(G2,d);R3=cophenet(G3,d);R4=cophenet(G4,d);R5=cophenet(G5,d);B.1:R.A.Fisher 在1936 年發(fā)表的Iris 數(shù)據(jù)表B.1 Iris 數(shù)據(jù)樣本號萼片長萼片寬花瓣長花瓣寬種類15.13.51.40.2牽牛24.931.40.2牽牛34.73.21.30.2牽牛44.63.11.50.2牽牛553.61.40.2

21、牽牛65.43.91.70.4牽牛74.63.41.40.3牽牛853.41.50.2牽牛94.42.91.40.2牽牛104.93.11.50.1牽牛115.43.71.50.2牽牛124.83.41.60.2牽牛134.831.40.1牽牛144.331.10.1牽牛155.841.20.2牽牛165.74.41.50.4牽牛175.43.91.30.4牽牛185.13.51.40.3牽牛195.73.81.70.3牽牛205.13.81.50.3牽牛215.43.41.70.2牽牛225.13.71.50.4牽牛234.63.610.2牽牛245.13.31.70.5牽牛254.83.4

22、1.90.2牽牛26531.60.2牽牛2753.41.60.4牽牛285.23.51.50.2牽牛295.23.41.40.2牽牛304.73.21.60.2牽牛314.83.11.60.2牽牛325.43.41.50.4牽牛335.24.11.50.1牽牛345.54.21.40.2牽牛354.93.11.50.2牽牛3653.21.20.2牽牛375.53.51.30.2牽牛384.93.61.40.1牽牛394.431.30.2牽牛405.13.41.50.2牽牛4153.51.30.3牽牛424.52.31.30.3牽牛434.43.21.30.2牽牛4453.51.60.6牽牛45

23、5.13.81.90.4牽牛464.831.40.3牽牛475.13.81.60.2牽牛484.63.21.40.2牽牛495.33.71.50.2牽牛5053.31.40.2牽牛5173.24.71.4雜色526.43.24.51.5雜色536.93.14.91.5雜色545.52.341.3雜色556.52.84.61.5雜色565.72.84.51.3雜色576.33.34.71.6雜色584.92.43.31雜色596.62.94.61.3雜色605.22.73.91.4雜色61523.51雜色625.934.21.5雜色6362.241雜色646.12.94.71.4雜色655.62

24、.93.61.3雜色666.73.14.41.4雜色675.634.51.5雜色685.82.74.11雜色696.22.24.51.5雜色705.62.53.91.1雜色715.93.24.81.8雜色726.12.841.3雜色736.32.54.91.5雜色746.12.84.71.2雜色756.42.94.31.3雜色766.634.41.4雜色776.82.84.81.4雜色786.7351.7雜色7962.94.51.5雜色805.72.63.51雜色815.52.43.81.1雜色825.52.43.71雜色835.82.73.91.2雜色8462.75.11.6雜色855.434.51.5雜色8663.44.51.6雜色876.73.14.71.5雜色886.32.34.41.3雜色895.634.11.3雜色905.52.541.3雜色915.52.64.41.2雜色926.134.61.4雜色935.82.641.2雜色9452.33.31雜色955.62.74.21.3雜色965.734.21.2雜色975.72.94.21.3雜色986.22.94.31.3雜色995.12.5

人人文庫> 全部分類> 行業(yè)資料 > 信息產(chǎn)業(yè)

溫馨提示

1. 本站所有資源如無特殊說明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽，若沒有圖紙預(yù)覽就沒有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 人人文庫網(wǎng)僅提供信息存儲空間，僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理，對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對任何下載內(nèi)容負責。
6. 下載文件中如有侵權(quán)或不適當內(nèi)容，請與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

數(shù)據(jù)分析課程設(shè)計報告論文

文檔簡介

溫馨提示

最新文檔

評論

數(shù)據(jù)分析課程設(shè)計報告論文

文檔簡介

溫馨提示

最新文檔

評論

相關(guān)文檔