![Matlab 數(shù)據(jù)分析 課件 康海剛 第7章 聚類分析_第1頁](http://file4.renrendoc.com/view14/M05/28/19/wKhkGWeMlWqAV8XxAABR_4SsyWE841.jpg)
![Matlab 數(shù)據(jù)分析 課件 康海剛 第7章 聚類分析_第2頁](http://file4.renrendoc.com/view14/M05/28/19/wKhkGWeMlWqAV8XxAABR_4SsyWE8412.jpg)
![Matlab 數(shù)據(jù)分析 課件 康海剛 第7章 聚類分析_第3頁](http://file4.renrendoc.com/view14/M05/28/19/wKhkGWeMlWqAV8XxAABR_4SsyWE8413.jpg)
![Matlab 數(shù)據(jù)分析 課件 康海剛 第7章 聚類分析_第4頁](http://file4.renrendoc.com/view14/M05/28/19/wKhkGWeMlWqAV8XxAABR_4SsyWE8414.jpg)
![Matlab 數(shù)據(jù)分析 課件 康海剛 第7章 聚類分析_第5頁](http://file4.renrendoc.com/view14/M05/28/19/wKhkGWeMlWqAV8XxAABR_4SsyWE8415.jpg)
版權說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權,請進行舉報或認領
文檔簡介
Matlab數(shù)據(jù)分析第7章聚類分析7.1
簡介7.1.1聚類分析的類型1.按分類對象不同進行聚類7.1
簡介(1)R型聚類分析的主要作用1)不但可以了解個別變量之間的親疏程度,而且可以了解各個變量組合之間的親疏程度。2)根據(jù)變量的分類結果以及它們之間的關系,可以選擇主要變量進行Q型聚類分析或回歸分析(R2選擇標準)。(2)Q型聚類分析的主要作用1)可以綜合利用多個變量的信息對樣本進行分析。2)分類結果直觀,聚類譜系圖清楚地表現(xiàn)數(shù)值分類的結果。3)聚類分析所得到的結果比傳統(tǒng)分類方法更細致、全面、合理。2.按分類對象的劃分進行聚類1)使用自我組織的特征圖或?qū)哟尉垲?,查找?shù)據(jù)中可能的結構。2)使用聚類評估,查找給定聚類算法的“最佳”組數(shù)。7.1
簡介3.Matlab中常見的硬聚類算法(1)k均值(kMeans)聚類算法1)原理。2)最佳使用時機。(2)k中心(kMedoids)聚類算法1)原理。2)最佳使用時機。7.1
簡介(3)層次聚類算法1)原理。2)最佳使用時機。(4)自組織映射聚類算法1)原理。2)最佳使用時機。7.1
簡介4.Matlab中常見的軟聚類算法(1)模糊c均值聚類算法1)原理。2)最佳使用時機。(2)高斯混合模型聚類算法1)原理。2)最佳使用時機。7.1
簡介7.1.2聚類分析的依據(jù)1.距離7.1
簡介7.1
簡介2.夾角余弦3.相關系數(shù)7.2譜系聚類1.譜系聚類法基本思想1)聚類開始時將n個樣品(或p個變量)各自作為一類,并規(guī)定樣品之間的距離和類與類之間的距離。2)將距離最近的兩類合并成一個新類。3)計算新類與其他類之間的距離,重復進行兩個最近類的合并,每次減少一類,直至所有的樣品(或p個變量)合并成一類。2.譜系聚類法基本步驟1)選擇樣本間距離及類間距離。2)計算n個樣本兩兩之間的距離,得到距離矩陣。3)構造各類,每個類暫時只含有一個樣本。4)合并符合類間距離定義要求的兩類力一個新類。7.2譜系聚類7.2譜系聚類5)計算新類與當前各類的距離。6)畫出譜系聚類圖。7)作出結論,決定類的個數(shù)和類。3.Matlab中譜系聚類法的主要方法(1)pdist方法pdist方法的主要作用是計算構成樣品對的樣品之間的距離,調(diào)用格式如下:1)y=pdist(x)。2)y=pdist(x,metric)。7.2譜系聚類7.2譜系聚類(2)squareform方法squareform方法用來將pdist函數(shù)輸出的距離轉(zhuǎn)化為距離矩陣,也可將距離矩陣轉(zhuǎn)化為距離向量。1)z=squareform(y):將pdist函數(shù)輸出的距離向量轉(zhuǎn)化力距離矩陣。2)y=squareform(z):將距離矩陣轉(zhuǎn)化為距離向量。(3)linkage方法linkage函數(shù)用來創(chuàng)建系統(tǒng)聚類樹,調(diào)用格式如下:1)z=linkage(y):創(chuàng)建系統(tǒng)聚類樹,1是樣品對的距離向量,一般是pdist方法的輸出結果。2)z=linkage(y,method):利用method參數(shù)指定的方法創(chuàng)建系統(tǒng)聚類樹,method是字符串,可用字符串見表7-2。7.2譜系聚類(4)dendrogram方法dendrogram方法用于創(chuàng)建聚類樹形圖,調(diào)用格式為:(5)inconsistent函數(shù)inconsistent函數(shù)用來計算譜系聚類樹矩陣Z中每次并類得到的鏈接的不一致系數(shù),調(diào)用格式力:7.2譜系聚類(6)clusterdata方法clusterdata函數(shù)調(diào)用了pdist、linkage和cluster函數(shù),用來由原始樣本數(shù)據(jù)矩陣X創(chuàng)建系統(tǒng)聚類。例7.1設有5個樣品,分別表示北京、上海、安徽、陜西和新疆,每個樣品只測試了一個指標,指標值分別為1、2、6、8、11,若樣品間采用絕對值距離,下面用最短距離法對這5個樣品進行聚類。解:計算過程如下。1)計算距離矩陣,代碼如下,結果如圖7-9所示。7.2譜系聚類7.2譜系聚類2)分步聚類,繪制聚類樹形圖,代碼如下,結果如圖7-10所示。7.2譜系聚類例7.2(樣品聚類綜合案例)圖7-11所示2007年我國31個省、白治區(qū)、直轄市的城鎮(zhèn)居民家庭平均每人年消費性支出的8個主要數(shù)據(jù)變量,利用譜系聚類法,對各地區(qū)進行聚類分析。7.2譜系聚類解:計算過程如下。1)讀取數(shù)據(jù),并進行標準化:2)調(diào)用clusterdata函數(shù)進行一步聚類:7.2譜系聚類3)分步聚類:4)作出聚類樹形圖,如圖7-12所示。5)確定分類個數(shù)。7.2譜系聚類7.2譜系聚類例7.3(變量聚類綜合案例)在全國服裝標準制定中,對某地區(qū)成年女子的14個部位尺寸(體型尺寸)進行了測量,根據(jù)測量數(shù)據(jù)計算得到14個部位尺寸之間的相關系數(shù)矩陣,試對14個部位進行聚類分析。7.2譜系聚類解:計算過程如下。1)讀取數(shù)據(jù)。2)把數(shù)據(jù)轉(zhuǎn)為距離向量,設xi和xj的相關系數(shù)為pij,定義它們之間的距離為3)調(diào)用linkage函數(shù)創(chuàng)建系統(tǒng)聚類樹。7.2譜系聚類4)繪制聚類樹形圖,作出的聚類樹形圖如圖7-14所示。7.3
k均值聚類7.3.1k均值聚類概述7.3
k均值聚類7.3
k均值聚類1)從數(shù)據(jù)集中隨機取k個元素,作次k個簇各自的中心。2)分別計算剩下的元素到h個簇中心的相異度,將這些元素分別劃歸到相異度最低的簇。3)根據(jù)聚類結果,重新計算個簇各自的中心,計算方法是取簇中所有元素各自維度的算術平均數(shù)。4)將數(shù)據(jù)集中全部元素按照新的中心重新聚類。5)重復第4)步,直到聚類結果不再變化。6)將結果輸出。7.3
k均值聚類7.3
k均值聚類7.3
k均值聚類7.3.2k均值聚類算法的Matlab函數(shù)1.kmeans函數(shù)(1)idx=kmeans(X,k)將n個觀測點分為k個類,輸入?yún)?shù)X為n×p的矩陣,矩陣的每行對應一個點,每列對應一個變量。(2)[idx,C]=kmeans(X,k)返回個類的類重心坐標矩陣,C是一個k×p的矩陣,第i行元素第i類的類重心坐標。(3)[idx,C,sumd」=kmeans(X,k)返回類內(nèi)距離和(即類內(nèi)各點與類重心距離之和)向量sumd,C是一個1xk的矩陣,第i行元素第i類的類內(nèi)距離之和。(4)[idx,C,sumd,D]=kmeans(X,k)返回每個點與每個類重心之間距離矩陣D,D是一個n×k的矩陣,第i行第j列元素第i個點第j類重心之間的距離。(5)[…]=kmeans(X,k,參數(shù)1,值1,參數(shù)2,值2)允許用戶設置更多的參數(shù)及參數(shù)值,用來7.3
k均值聚類2.silhouette函數(shù)(1)silhouette(X,idx)根據(jù)樣本X和聚類結果idx繪制輪廓圖。(2)s=silhouette(X,idx)返回輪廓向量s,元素對應點的輪廓值。(3)[S,H]=
silhouette(X,idx)返回輪廓向量S和繪圖句柄H。(4)[S,H]=silhouette(X,idx,metric)
metric用來指定距離計算的方法,如'Euclidean'。7.3
k均值聚類例7.5在20世紀20年代,植物學家Fisher收集了150個inis標本的萼片長度、萼片寬度、花瓣長度和花瓣寬度的測量值,其中50個來自3個物種中的每一個。解:計算過程如下。1)準備模型:7.3
k均值聚類2)為了更好地理解聚類,首先以花瓣長度和花瓣寬度繪制散點圖,如圖7-24所示。7.3
k均值聚類控制kmeans函數(shù)所用的迭代算法,可用的參數(shù)名和參數(shù)值讀者可以在Matlab的命令窗口運行helpkmeans來學習。例7.4針對例7-1的數(shù)據(jù),利用kmeans函數(shù)進行k均值聚類算法,代碼和結果如下:7.3
k均值聚類3)下面調(diào)用kmeans函數(shù)將數(shù)據(jù)集區(qū)分為三類,并繪制聚類輪廓圖。7.3
k均值聚類7.3
k均值聚類7.3
k均值聚類7.3.3k均值聚類算法的特點1)在k均值聚類算法中的k是事先給定的,這個k值的選定是非常難以估計的。2)在k均值聚類算法中,首先需要根據(jù)初始聚類中心來確定一個初始劃分,然后對初始劃分進行優(yōu)化。3)k均值聚類算法需要不斷地進行樣本分類調(diào)整,不斷地計算調(diào)整后新的聚類中心,因此當數(shù)據(jù)量非常大時,算法的時間開銷也非常大。4)k均值聚類算法對一些離散點和初始k值敏感,不同的距離初始值對同樣的數(shù)據(jù)樣本可能得到不同的結果。7.3
k均值聚類7.3.4k均值聚類算法綜合應用例7.6examp:3.xls表列出了43↑國家和地區(qū)3年(1990年、2000年、2006年)的嬰兒死亡率和出生時預期壽命數(shù)據(jù)。7.3
k均值聚類解:計算過程如下。1)讀取數(shù)據(jù):2)進行標準化變換:3)選取初始凝聚點進行聚類:7.3
k均值聚類4)繪制輪廓圖:7.3
k均值聚類5)查看聚類結果:7.4層次聚類7.4.1概述1)如何計算兩個點的距離?2)如何計算兩個類別之間的距離?①最鄰近距離(SingleLinkage),就是取兩個集合中距離最近的兩個點的距離作力這兩個集合的距離,容易造成一種叫做鏈接的效果,兩個聚類明明從“大局”上離得比較遠,但是由于其中個別的點距離比較近就被合并了,并且這樣合并之后鏈接效應會進一步擴大,最后會得到比較松散的聚類。②CompleteLinkage。③GroupAverage。1)待分割的聚類記G,在G中取出一個到其他點的平均距離最遠的點x,構成新聚類H。2)在G中選取這樣的點x',使得x'到G中其他點的平均距離減去x'到H中所有點的平均距離這個差值最大,將其歸入H中。7.4層次聚類3)重復上一個步驟,直到差值為負。7.4.2層次聚類算法的Matlab實現(xiàn)例7.7這里仍然以上面的iris數(shù)據(jù)集來實現(xiàn)層次聚類。7.4層次聚類7.4層次聚類7.4.3層次聚類算法的特點1)在凝聚層次聚類算法和分裂層次聚類算法中,都需要用戶提供所希望得到的聚類的單個數(shù)量和閾值作為聚類分析的終止條件,但對于復雜的數(shù)據(jù)來說這是很難事先判定的。2)由于層次聚類算法要使用距離
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經(jīng)權益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025年全球及中國超微細合金線材行業(yè)頭部企業(yè)市場占有率及排名調(diào)研報告
- 2025年全球及中國低浴比氣液染色機行業(yè)頭部企業(yè)市場占有率及排名調(diào)研報告
- 2025-2030全球汽車油漆測厚儀行業(yè)調(diào)研及趨勢分析報告
- 2025年全球及中國眼內(nèi)液體填充物行業(yè)頭部企業(yè)市場占有率及排名調(diào)研報告
- 2025年全球及中國初創(chuàng)企業(yè)媒體服務平臺行業(yè)頭部企業(yè)市場占有率及排名調(diào)研報告
- 2025-2030全球知識產(chǎn)權審計服務行業(yè)調(diào)研及趨勢分析報告
- 2025-2030全球設備用墊圈和密封材料行業(yè)調(diào)研及趨勢分析報告
- 2025-2030全球微膠囊脂質(zhì)粉行業(yè)調(diào)研及趨勢分析報告
- 2025年全球及中國車規(guī)級數(shù)字功放電感行業(yè)頭部企業(yè)市場占有率及排名調(diào)研報告
- 2025-2030全球螺旋繞線機行業(yè)調(diào)研及趨勢分析報告
- 第二章《有理數(shù)的運算》單元備課教學實錄2024-2025學年人教版數(shù)學七年級上冊
- DB31-T 596-2021 城市軌道交通合理通風技術管理要求
- 華為智慧園區(qū)解決方案介紹
- 2022年江西省公務員錄用考試《申論》真題(縣鄉(xiāng)卷)及答案解析
- 人教版八年級英語上冊期末專項復習-完形填空和閱讀理解(含答案)
- 一例蛇串瘡患者個案護理課件
- 低壓電工理論考試題庫低壓電工考試題
- 國家電網(wǎng)培訓課件
- 五年級上冊口算練習400題及答案
- 駱駝祥子選擇題100道及答案
- 2024年公務員考試題庫附答案【完整版】
評論
0/150
提交評論