數(shù)據(jù)分析課程設(shè)計(jì)報(bào)告論文_第1頁(yè)
數(shù)據(jù)分析課程設(shè)計(jì)報(bào)告論文_第2頁(yè)
數(shù)據(jù)分析課程設(shè)計(jì)報(bào)告論文_第3頁(yè)
數(shù)據(jù)分析課程設(shè)計(jì)報(bào)告論文_第4頁(yè)
數(shù)據(jù)分析課程設(shè)計(jì)報(bào)告論文_第5頁(yè)
已閱讀5頁(yè),還剩6頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、. . 1 . . . w d . 基于K-均值的Iris數(shù)據(jù)聚類分析穩(wěn)* 1411010122 班級(jí)信科 14-1 成績(jī) _基于K-均值的Iris數(shù)據(jù)聚類分析: 穩(wěn)信息與計(jì)算科學(xué)14-1班摘要數(shù)據(jù)挖掘在當(dāng)今大數(shù)據(jù)新起的時(shí)代是一項(xiàng)必須掌握的技能,聚類分析是數(shù)據(jù)挖掘技術(shù)中一項(xiàng)重要的研究課題,在很多領(lǐng)域都有具有廣泛的應(yīng)用,如模式識(shí)別、數(shù)據(jù)分析等。聚類分析的目的是將數(shù)據(jù)對(duì)象分成假設(shè)干個(gè)類或簇,使得在同一個(gè)簇中的對(duì)象之間具有較高的相似度,而不同簇中的對(duì)象之間相似度較低5。通過(guò)聚類分析,人們能夠識(shí)別出數(shù)據(jù)分布密集和稀疏的區(qū)域,發(fā)現(xiàn)全局的分布模式以及數(shù)據(jù)屬性之間一些意想不到的相互關(guān)系。本文對(duì)R.A.Fis

2、her 在1936 年發(fā)表的Iris 數(shù)據(jù)進(jìn)展數(shù)據(jù)挖掘,使用聚類分析中的K-Means對(duì)該問(wèn)題進(jìn)展進(jìn)一步分析研究。實(shí)驗(yàn)證明兩種方法都是適合的解決此類問(wèn)題的。關(guān)鍵詞Iris數(shù)據(jù);聚類分析;K-均值聚類.前言本文對(duì)聚類分析的原理進(jìn)展闡述,并聚類分析中的譜系聚類法和K-means對(duì)的Iris 數(shù)據(jù)進(jìn)展了數(shù)據(jù)分析,得到了幾乎一樣的結(jié)論,數(shù)據(jù)量太少,回帶誤差大約是20%。數(shù)據(jù)分析預(yù)處理1.1 數(shù)據(jù)來(lái)源分析的數(shù)據(jù)來(lái)自R.A.Fisher 在1936 年發(fā)表的Iris 數(shù)據(jù)見(jiàn)附錄B表B.1,據(jù)表可知前50個(gè)數(shù)據(jù)為牽牛一類,再50個(gè)數(shù)據(jù)為雜色一類,后50個(gè)數(shù)據(jù)為錦葵一類。將數(shù)據(jù)樣本*變量放入matlab變量名

3、*,保存為matlab的huaban.mat文件。1.2 數(shù)據(jù)分析采用譜系聚類分析方法和K-means聚類法解決例如Iris類的分類等問(wèn)題。聚類分析2.1聚類的概述聚類分析是研究對(duì)樣品或指標(biāo)進(jìn)展分類的一種多元統(tǒng)計(jì)方法,是依據(jù)研究對(duì)象的個(gè)體的特征進(jìn)展分類的方法;聚類分析把分類對(duì)象按一定規(guī)則分成假設(shè)干類,這些類非事先指定的,而是根據(jù)數(shù)據(jù)特征確定的。在同一類中這些對(duì)象在*種意義上趨向于彼此相似,而在不同類中趨向于不相似;職能是建立一種能按照樣品或變量的相似程度進(jìn)展分類的方法。聚類準(zhǔn)則為親者相聚,疏者相分。2.2 分類2.2.1 R型聚類分析R型聚類分析是對(duì)變量指標(biāo)的分類,其主要作用:不但可以了解個(gè)別

4、變量之間的親疏程度,而且可以了解各個(gè)變量組合之間的親疏程度。2.2.2 Q型聚類分析Q型聚類分析是對(duì)樣品的分類,其主要作用:可以綜合利用多個(gè)變量的信息對(duì)樣本進(jìn)展分析;分類結(jié)果直觀,聚類譜系圖清楚地表現(xiàn)數(shù)值分類結(jié)果;所得結(jié)果比傳統(tǒng)分類方法更細(xì)致、全面、合理。其常用的統(tǒng)計(jì)量是距離。常用的聚類方法為譜系聚類法等。2.3譜系聚類法概念譜系聚類法是目前應(yīng)用較為廣泛的一種聚類法。譜系聚類是根據(jù)生物分類學(xué)的思想對(duì)研究對(duì)象進(jìn)展分類的方法。在生物分類學(xué)中,分類的單位是:門、綱、目、科、屬、種。其中種是分類的根本單位,分類單位越小,它所包含的生物就越少,生物之間的共同特征就越多。利用這種思想,譜系聚類首先將各樣品

5、自成一類,然后把最相似距離最近或相似系數(shù)最大的樣品聚為小類,再將已聚合的小類按各類之間的相似性用類間距離度量進(jìn)展再聚合,隨著相似性的減弱,最后將一切子類都聚為一大類,從而得到一個(gè)按相似性大小聚結(jié)起來(lái)的一個(gè)譜系圖。2.3.2 選擇距離(參考文獻(xiàn)1 p209頁(yè))在使用系統(tǒng)聚類法進(jìn)展聚類的過(guò)程中,尤其是Q型聚類是建立在樣品之間距離矩陣的根底上的,通常需要對(duì)原始數(shù)據(jù)進(jìn)展參考點(diǎn)的建立和去量綱化的處理,然后求出樣品距離矩陣D,我們采用比擬廣泛的閔可夫斯基Minkowski距離:當(dāng)p=2時(shí)即為歐幾里得CEuclidean距離。然后進(jìn)展類的搜索、合并于距離矩陣的更新涉及類間距離的計(jì)算,需要事先計(jì)算類與類之間的

6、距離。依據(jù)類問(wèn)距離不同的計(jì)算方法,我們可以把系統(tǒng)聚類法分為最短距離法、最長(zhǎng)距離法、重心法、離差平方和法(ward等。設(shè)Gp ,Gq 為前一輪操作中形成的*兩個(gè)聚類,在本輪操作中歸聚為新類Gr =GpGq則新類Gr與前一輪操作中形成噸,Gq 之外的任意一類 G,的距離遞推公式如下:最短距離法其中l(wèi) p,q.最長(zhǎng)距離法其中l(wèi) p,q.中間距離法 -. 中心距離法其中,和分別為和包含的聚類對(duì)象個(gè)數(shù),=+. Ward法注意,Ward法要求初始距離矩陣采用歐式距離公式計(jì)算各個(gè)對(duì)象的距離。2.4 得到閔可夫斯基Minkowski距離譜系聚類法函數(shù)見(jiàn)附錄A.11pdist創(chuàng)立聚類對(duì)象的Minkowski距離

7、矩陣。2squarform拉直矩陣D。3linkage用D或其拉直矩陣創(chuàng)立信息矩陣G,默認(rèn)的類間距離為最短距離法。4dendrogram創(chuàng)立G的譜系聚類圖。5cluster創(chuàng)立G的指定個(gè)數(shù)類。2.5 畫譜系聚類圖見(jiàn)圖2.1圖2.1 Iris花瓣數(shù)據(jù)譜系聚類圖2.6 得出分類由圖2.1得出Iris花瓣數(shù)據(jù)截?cái)嗵幙蛇x擇d=1,d=0.8,d=0.666對(duì)應(yīng)的分類個(gè)數(shù)為2,3,5類。2.7 cluster創(chuàng)立G的指定個(gè)數(shù)類。matlab程序見(jiàn)A.32.7.1 分3類圖見(jiàn)圖2.2圖2.2譜系聚類分析分為三類圖2.8 結(jié)論由圖2.2將數(shù)據(jù)譜系聚類分析分為三類圖可知,將數(shù)據(jù)分為3類不太恰當(dāng),應(yīng)該兩類或者5

8、類更適宜,不過(guò)也有可能是我們選擇的距離有問(wèn)題。下面K-means我們將更改距離。k-均值聚類3.1 K-Means算法思想1967 年Macqueen 提出了K-means 算法4,根本思想是把數(shù)據(jù)集中的數(shù)據(jù)點(diǎn)隨機(jī)生成k 組,把每組的均值作為中心點(diǎn)。重新計(jì)算每個(gè)數(shù)據(jù)點(diǎn)與各組的中心點(diǎn)的相似性,根據(jù)數(shù)據(jù)點(diǎn)相似性的度量準(zhǔn)則,把每個(gè)數(shù)據(jù)點(diǎn)重新分組,計(jì)算每組新的均值作為中心點(diǎn)。不斷重復(fù)上述過(guò)程,直到中心點(diǎn)的均值收斂,停頓迭代過(guò)程。K-means 算法是一種比擬快速的聚類方法,時(shí)間復(fù)雜度為O ( nkt ),其中n 是數(shù)據(jù)點(diǎn)的數(shù)目, k 是分組數(shù)目, t 是迭代次數(shù)。K-means 算法也存在缺乏,最大問(wèn)

9、題要指定分組數(shù)目并且在運(yùn)行過(guò)程中容易導(dǎo)致局部最優(yōu)。3.1.1 K-均值算法K-均值算法是一種聚類個(gè)數(shù)的無(wú)監(jiān)視學(xué)習(xí)算法。首先指定表示聚類個(gè)數(shù)的K 值,然后對(duì)數(shù)據(jù)集聚類,算法完畢時(shí)用K 個(gè)聚類中心表示聚類結(jié)果。對(duì)于設(shè)定的目標(biāo)準(zhǔn)則函數(shù),通過(guò)向目標(biāo)準(zhǔn)則函數(shù)值減小的方向進(jìn)展迭代更新,目標(biāo)準(zhǔn)則函數(shù)值到達(dá)極小值時(shí)算法完畢,得到較優(yōu)的聚類結(jié)果。設(shè)數(shù)據(jù)集為,K個(gè)距離中心為V1,V2,.,Vk。令表示K個(gè)聚類的類別,則: (1)定義目標(biāo)準(zhǔn)則函數(shù)為:2其中|Ci |表示Ci類包含樣本的個(gè)數(shù),使用歐式距離3度量樣本間的相似性。歐式距離適用于類數(shù)據(jù)對(duì)象符合超球形分布的情況,目標(biāo)準(zhǔn)則函數(shù)SSE表示為每個(gè)數(shù)據(jù)對(duì)象到相應(yīng)聚類

10、中心距離的平方和,即聚類均方誤差的最小值。3.1.2 K-均值算法的流程如下:1隨機(jī)選取K 個(gè)初始聚類中心V1,V2,.,Vk ;2按照最小距離原則,對(duì)數(shù)據(jù)集聚類,確定每個(gè)樣本的類屬關(guān)系;3使用公式1更新K 個(gè)簇的中心;4重復(fù)執(zhí)行2到4,直到目標(biāo)準(zhǔn)則函數(shù)收斂或聚類中心穩(wěn)定。顯然,初始聚類中心對(duì)K-均值算法產(chǎn)生很大的影響,簇集中易存在平均誤差較大的簇,聚類結(jié)果僅能收斂到局部最優(yōu)。即使選取不同的初始聚類中心執(zhí)行屢次K-均值算法,也只是在龐大的初值空間里進(jìn)展簡(jiǎn)單的搜索,聚類結(jié)果很難到達(dá)全局最優(yōu)。當(dāng)數(shù)據(jù)集中存在較多噪音或孤立點(diǎn)時(shí),已有的初始聚類中心優(yōu)化方法很難發(fā)現(xiàn)適宜的初始聚類中心。3.2 復(fù)合相關(guān)系

11、數(shù)的計(jì)算計(jì)算過(guò)程見(jiàn)附錄A.4分別記最短、最長(zhǎng)、類平均、重心、離差平方和距離為G1、G2、G3、G4、G5,相對(duì)應(yīng)的復(fù)合相關(guān)系數(shù)分別記為R1、R2、R3、R4、R5,以歐式距離為樣本間距離計(jì)算得到表3-1表3-1復(fù)合相關(guān)系數(shù)R1R2R3R4R50.86390.72760.87680.87700.8728由表2可知以重心距離進(jìn)展聚類分析效果應(yīng)該最為理想3.3 聚類結(jié)果見(jiàn)圖3.1以重心距離為類間距離進(jìn)展譜系聚類分析得到matlab程序參考附錄A.1-4圖3.1譜系聚類圖3.4 譜系聚類結(jié)果見(jiàn)圖3.2圖3.2譜系聚類結(jié)果3.4 K-Means聚類結(jié)果見(jiàn)圖3.3圖3.3K-Means聚類結(jié)果3.5分析結(jié)

12、果由圖3.2結(jié)果可得第1類有36個(gè)樣本,第2類有64個(gè)樣本,第3類有50個(gè)樣本,由圖3.3可知第1類有62個(gè)樣本,第2類有49個(gè)樣本,第3類有39個(gè)樣本兩種方法根本得到的結(jié)論根本一致,不過(guò)都不太理想。這可能是數(shù)據(jù)量太小了的原因。大數(shù)據(jù)時(shí)代,需要大量的數(shù)據(jù)。參考文獻(xiàn)1 包研科.數(shù)據(jù)分析教程.:清華大學(xué),20112 曾繁慧.數(shù)值分析.:中國(guó)礦業(yè)大學(xué),20093 袁方,周志勇,宋鑫初始聚類中心優(yōu)化的K-means算發(fā) J .計(jì)算機(jī)工程,2007,333:65-664 MacQueen, James. Some methods for classification and analysis of mu

13、ltivariate observations. Proceedings of the fifth Berkeley symposium on mathematical statistics andprobability. Vol. 1. No. 281-297. 19675 余立強(qiáng)LAMP 架構(gòu)搭建與運(yùn)行實(shí)例J網(wǎng)絡(luò)與信息,20118:50526 吳夙慧,成穎,彥寧,云濤. K-means 算法研究綜述 J . 現(xiàn)代圖書(shū)情報(bào)技術(shù), 2011, (5): 28-35.附錄A.1 譜系聚類法函數(shù)function f = test4()load huaban.matD = pdist(*,minko

14、wski);G = linkage(D);dendrogram(G);T=cluster(G,3)A.2 自編k-means聚類分析*wKmeans.m函數(shù)function cid,nr,centers = *wKmeans(*,k,nc)% CID,NR,CENTERS = CSKMEANS(*,K,NC) Performs K-means% *輸入聚合數(shù)據(jù)% K通過(guò)觀察得到的經(jīng)歷分組數(shù)據(jù)% 每行一個(gè)觀測(cè),NC為聚類指數(shù),來(lái)源于初始的聚類中心值,默認(rèn)情況下為隨機(jī)的觀測(cè)% 輸出: ID*為最終分類% nr為每個(gè)每個(gè)聚合的中心值% CENTERS is a matri*, where each

15、row% corresponds to a cluster center.n,d = size(*);if nargin 3 ind = ceil(n*rand(1,k);nc = *(ind,:) + randn(k,d);endcid = zeros(1,n); oldcid = ones(1,n);nr = zeros(1,k); ma*iter = 100;iter = 1;while isequal(cid,oldcid) & iter ma*iterfor i = 1:n dist = sum(repmat(*(i,:),k,1)-nc).2,2); m,ind = min(dis

16、t); cid(i) = ind;end for i = 1:k ind = find(cid=i); nc(i,:) = mean(*(ind,:); nr(i) = length(ind);end iter = iter + 1;endma*iter = 2;iter = 1;move = 1;while iter ma*iter & move = 0 move = 0;for i = 1:n % 找到與所有聚合的距離 dist = sum(repmat(*(i,:),k,1)-nc).2,2); r = cid(i); dadj = nr./(nr+1).*dist; m,ind = m

17、in(dadj); %最小的就是聚合的分類 if ind = r cid(i) = ind; ic = find(cid = ind); nc(ind,:) = mean(*(ic,:); move = 1; endenditer = iter+1;endcenters = nc;if move = 0disp(初始化聚類后沒(méi)有點(diǎn)移動(dòng))elsedisp(初始化后開(kāi)場(chǎng)進(jìn)展聚合分類)endcid =cid;A.3 k-means聚類分析分類圖matlab的main.m函數(shù)function f = main (*,k)n,d = size(*); bn=round(n/k*rand);%第一個(gè)隨機(jī)數(shù)

18、在前1/K的圍 %;表示按列顯示,都好表示按行顯示 %初始聚類中心 %*(bn,:) 選擇*一行數(shù)據(jù)作為聚類中心,其列值為全部 %*數(shù)據(jù)源,k聚類數(shù)目,nc表示k個(gè)初始化聚類中心 %cid表示每個(gè)數(shù)據(jù)屬于哪一類,nr表示每一類的個(gè)數(shù),centers表示聚類中心cid,nr,centers = *wKmeans(*,k)for i=1:150 if cid(i)=1 plot(*(i,1),*(i,2),r*) % 顯示第一類hold on else if cid(i)=2, plot(*(i,1),*(i,2),b*)%顯示第二類 plot(*(i,2),b*) % 顯示第一類 hold on

19、 else if cid(i)=3, plot(*(i,1),*(i,2),g*) %顯示第三類 % plot(*(i,2),g*)% 顯示第一類 hold on else if cid(i)=4, plot(*(i,1),*(i,2),k*) %顯示第四類 % plot(*(i,2),k*) % 顯示第一類 hold on end end end end end te*t(7.5,3.5,第一類); te*t(5,4,第二類); te*t(5.5,2.5,第三類); te*t(-1,-1,第四類); A.4 相關(guān)系數(shù)matllab指令d=pdist(*);G1=linkage(d);G2=l

20、inkage(d,plete);G3=linkage(d,centroid);G4=linkage(d,average);G5=linkage(d,ward);R1=cophenet(G1,d);R2=cophenet(G2,d);R3=cophenet(G3,d);R4=cophenet(G4,d);R5=cophenet(G5,d);B.1:R.A.Fisher 在1936 年發(fā)表的Iris 數(shù)據(jù)表B.1 Iris 數(shù)據(jù)樣本號(hào)萼片長(zhǎng)萼片寬花瓣長(zhǎng)花瓣寬種類15.13.51.40.2牽牛24.931.40.2牽牛34.73.21.30.2牽牛44.63.11.50.2牽牛553.61.40.2

21、牽牛65.43.91.70.4牽牛74.63.41.40.3牽牛853.41.50.2牽牛94.42.91.40.2牽牛104.93.11.50.1牽牛115.43.71.50.2牽牛124.83.41.60.2牽牛134.831.40.1牽牛144.331.10.1牽牛155.841.20.2牽牛165.74.41.50.4牽牛175.43.91.30.4牽牛185.13.51.40.3牽牛195.73.81.70.3牽牛205.13.81.50.3牽牛215.43.41.70.2牽牛225.13.71.50.4牽牛234.63.610.2牽牛245.13.31.70.5牽牛254.83.4

22、1.90.2牽牛26531.60.2牽牛2753.41.60.4牽牛285.23.51.50.2牽牛295.23.41.40.2牽牛304.73.21.60.2牽牛314.83.11.60.2牽牛325.43.41.50.4牽牛335.24.11.50.1牽牛345.54.21.40.2牽牛354.93.11.50.2牽牛3653.21.20.2牽牛375.53.51.30.2牽牛384.93.61.40.1牽牛394.431.30.2牽牛405.13.41.50.2牽牛4153.51.30.3牽牛424.52.31.30.3牽牛434.43.21.30.2牽牛4453.51.60.6牽牛45

23、5.13.81.90.4牽牛464.831.40.3牽牛475.13.81.60.2牽牛484.63.21.40.2牽牛495.33.71.50.2牽牛5053.31.40.2牽牛5173.24.71.4雜色526.43.24.51.5雜色536.93.14.91.5雜色545.52.341.3雜色556.52.84.61.5雜色565.72.84.51.3雜色576.33.34.71.6雜色584.92.43.31雜色596.62.94.61.3雜色605.22.73.91.4雜色61523.51雜色625.934.21.5雜色6362.241雜色646.12.94.71.4雜色655.62

24、.93.61.3雜色666.73.14.41.4雜色675.634.51.5雜色685.82.74.11雜色696.22.24.51.5雜色705.62.53.91.1雜色715.93.24.81.8雜色726.12.841.3雜色736.32.54.91.5雜色746.12.84.71.2雜色756.42.94.31.3雜色766.634.41.4雜色776.82.84.81.4雜色786.7351.7雜色7962.94.51.5雜色805.72.63.51雜色815.52.43.81.1雜色825.52.43.71雜色835.82.73.91.2雜色8462.75.11.6雜色855.434.51.5雜色8663.44.51.6雜色876.73.14.71.5雜色886.32.34.41.3雜色895.634.11.3雜色905.52.541.3雜色915.52.64.41.2雜色926.134.61.4雜色935.82.641.2雜色9452.33.31雜色955.62.74.21.3雜色965.734.21.2雜色975.72.94.21.3雜色986.22.94.31.3雜色995.12.5

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論