


下載本文檔
版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
1、MATLAB層次聚類應(yīng)用簡述MATLAB的統(tǒng)計(jì)工具箱中的多元統(tǒng)計(jì)分析中提供了聚類分析的兩種方法:層次聚類hierarchicalclusteringk-means聚類這里用最簡單的實(shí)例說明以下層次聚類原理和應(yīng)用發(fā)法。層次聚類是基于距離的聚類方法,MATLAB中通過pdist、linkage、dendrogram、cluster等函數(shù)來完成。層次聚類的過程可以分這么幾步:確定對(duì)象(實(shí)際上就是數(shù)據(jù)集中的每個(gè)數(shù)據(jù)點(diǎn))之間的相似性,實(shí)際上就是定義一個(gè)表征對(duì)象之間差異的距離,例如最簡單的平面上點(diǎn)的聚類中,最經(jīng)常使用的就是歐幾里得距離。這在MATLAB中可以通過Y=pdist(X)實(shí)現(xiàn),例如X=randn
2、(6,2)X=-0.43261.1892-1.6656-0.03760.12530.32730.28770.1746-1.1465-0.18671.19090.7258plot(X(:,1),X(:,2),bo)%給個(gè)圖,將來對(duì)照聚類結(jié)果把Y=pdist(X)Y=Columns1through141.73941.02671.24421.55011.68831.82771.96480.54012.95680.22281.37171.13771.47901.0581Column152.5092例子中X數(shù)據(jù)集可以看作包含6個(gè)平面數(shù)據(jù)點(diǎn),pdist之后的Y是一個(gè)行向量,15個(gè)元素分別代表X的第1點(diǎn)與2
3、-6點(diǎn)、第2點(diǎn)與3-6點(diǎn),這樣的距離。那么對(duì)于M個(gè)點(diǎn)的數(shù)據(jù)集X,pdist之后的Y將是具有M*(M-1)/2個(gè)元素的行向量。Y這樣的顯示雖然節(jié)省了內(nèi)存空間,但對(duì)用戶來說不是很易懂,如果需要對(duì)這些距離進(jìn)行特定操作的話,也不太好索引。MATLAB中可以用squareform把Y轉(zhuǎn)換成方陣形式,方陣中位置的數(shù)值就是X中第i和第j點(diǎn)之間的距離,顯然這個(gè)方陣應(yīng)該是個(gè)對(duì)角元素為0的對(duì)稱陣。squareform(Y)ans=01.73941.02671.24421.55011.68831.739401.82771.96480.54012.95681.02671.827700.22281.37171.1377
4、1.24421.96480.222801.47901.05811.55010.54011.37171.479002.50921.68832.95681.13771.05812.50920這里需要注意的是,pdist可以使用多種參數(shù),指定不同的距離算法。helppdist把。另外,當(dāng)數(shù)據(jù)規(guī)模很大時(shí),可以想象pdist產(chǎn)生的Y占用內(nèi)存將是很嚇人的,比如X有10k個(gè)數(shù)據(jù)點(diǎn),那么X占10k*8*2Bytes=160K,這看起來不算啥,但是pdist后的Y會(huì)有10k*10k/2*8Bytes=400M。怕了把,所以,廢話說在前面,用MATLAB的層次聚類來處理大規(guī)模數(shù)據(jù),大概是很不合適的。確定好了對(duì)象間
5、的差異度(距離)后,就可以用Z=linkage(Y)來產(chǎn)生層次聚類樹了。Z=linkage(Y)%Z=linkage(Y,method)說明:用method參數(shù)指定的算法計(jì)算系統(tǒng)聚類樹。Z=3.00004.00000.22282.00005.00000.54011.00007.00001.02676.00009.00001.05818.000010.00001.3717對(duì)于M個(gè)元素的X,前面說了Y是1行M*(M-1)/2的行向量,Z則是(M-1)*3的矩陣。Z數(shù)組的前兩列是索引下標(biāo)列,最后一列是距離列。例如上例中表示在產(chǎn)生聚類樹的計(jì)算過程中,第3和第4點(diǎn)先聚成一類,他們之間的距離是0.2228
6、,以此類推。要注意的是,為了標(biāo)記每一個(gè)節(jié)點(diǎn),需要給新產(chǎn)生的聚類也安排一個(gè)標(biāo)識(shí),MATLAB中會(huì)將新產(chǎn)生的聚類依次用M+1,M+2,依次來標(biāo)識(shí)。比如第3和第4點(diǎn)聚成的類以后就用7來標(biāo)識(shí),第2和第5點(diǎn)聚成的類用8來標(biāo)識(shí),依次類推。通過linkage函數(shù)計(jì)算之后,實(shí)際上二叉樹式的聚類已經(jīng)完成了。Z這個(gè)數(shù)據(jù)數(shù)組不太好看,可以用dendrogram)來可視化聚類樹??梢栽O(shè)置聚類數(shù)最下端的樣本數(shù),默認(rèn)為30,可以根據(jù)修改dendrogram(Z,n)參數(shù)n來實(shí)現(xiàn),1nM可以看到,產(chǎn)生的聚類樹的每一層都是一個(gè)倒置的U型(或者說是個(gè)n型,縱軸高度代表了當(dāng)前聚類中兩個(gè)子節(jié)點(diǎn)之間的距離。橫軸上標(biāo)記出了各個(gè)數(shù)據(jù)點(diǎn)索
7、引下標(biāo)。稍微注意以下的是,dendrogram默認(rèn)最多畫30個(gè)最底層節(jié)點(diǎn),當(dāng)然可是設(shè)置參數(shù)改變這個(gè)限制,比如dendrogram,。)就會(huì)把所有數(shù)據(jù)點(diǎn)索引下標(biāo)都標(biāo)出來,但對(duì)于成千上萬的數(shù)據(jù)集合,這樣的結(jié)果必然是圖形下方非常擁擠??茨愕膽?yīng)用目的了,隨你玩初步的聚類樹畫完后,還要做很多后期工作的,包括這樣的聚類是不是可靠,是不是代表了實(shí)際的對(duì)象分化模式,對(duì)于具體的應(yīng)用,應(yīng)該怎樣認(rèn)識(shí)這個(gè)完全版的聚類樹,產(chǎn)生具有較少分叉的可供決策參考的分類結(jié)果呢?這都是需要考慮的。MATLAB中提供了cluster,clusterdata,cophenet,inconsistent等相關(guān)函數(shù)。cluster用于剪裁完全版的聚類樹,產(chǎn)生具有一定cutoff的可用于參考的樹。clusterdata可以認(rèn)為是pdist,linkage,cluster的綜合,當(dāng)然更簡易一點(diǎn)。cophenet和inconsistent用來計(jì)算某些系數(shù),前者用于檢驗(yàn)一定算法
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 精裝臥室出租合同范本
- OEM加工食品合同范例
- 公路路燈安裝合同范例
- 兼職導(dǎo)游勞務(wù)合同范本
- 醫(yī)院廣告合同范本
- 合肥裝潢公司合同范本
- 單位長期租車合同范本
- 單位出讓房屋合同范例
- 制作安裝供貨合同范本
- 后增補(bǔ)協(xié)議合同范本
- 220kV GIS組合電器安裝施工方案
- 公園綠化養(yǎng)護(hù)景觀綠化維護(hù)項(xiàng)目迎接重大節(jié)會(huì)活動(dòng)的保障措施
- 國內(nèi)外旅游公共服務(wù)研究的文獻(xiàn)綜述
- 集團(tuán)公司各職能部管控分權(quán)手冊
- 機(jī)車電測儀表使用及檢修
- PMS顏色對(duì)照表
- 營銷手冊范本匯總(24個(gè)共)35.doc
- 2012年北京大學(xué)醫(yī)學(xué)部外國留學(xué)生本科入學(xué)考試
- 七年級(jí)英語閱讀理解50篇(附答案)
- 乙酸乙酯的制備ppt課件
- 音樂之聲中英文臺(tái)詞
評(píng)論
0/150
提交評(píng)論