聚類(lèi)分析課件_第1頁(yè)
聚類(lèi)分析課件_第2頁(yè)
聚類(lèi)分析課件_第3頁(yè)
聚類(lèi)分析課件_第4頁(yè)
聚類(lèi)分析課件_第5頁(yè)
已閱讀5頁(yè),還剩29頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶(hù)提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

聚類(lèi)和聚類(lèi)分析指導(dǎo)老師:任俊玲成員:宋小舟金銘胡銳豪程亞兵.目錄1.聚類(lèi)的概念2.聚類(lèi)分析的原理3.聚類(lèi)分析的分類(lèi)4.距離和相似系數(shù)5.系統(tǒng)聚類(lèi)分析6.快速聚類(lèi)7.致謝.什么是聚類(lèi)早在孩提時(shí)代,人就通過(guò)不斷改進(jìn)下意識(shí)中的聚類(lèi)模式來(lái)學(xué)會(huì)如何區(qū)分貓和狗,動(dòng)物和植物.

什么是聚類(lèi)聚類(lèi)(Clustering)就是將數(shù)據(jù)分組成為多個(gè)類(lèi)(Cluster)。在同一個(gè)類(lèi)內(nèi)對(duì)象之間具有較高的相似度,不同類(lèi)之間的對(duì)象差別較大。.聚類(lèi)分析的原理聚類(lèi)分析的基本原理:我們分析的樣本或指標(biāo)之間存在著程度不同的相似性(親疏關(guān)系)。.聚類(lèi)分析法的分類(lèi)Q型聚類(lèi)分析是對(duì)樣本進(jìn)行分類(lèi)處理的R型聚類(lèi)分析是對(duì)變量(指標(biāo))進(jìn)行分類(lèi)處理的。R型聚類(lèi)分析的特點(diǎn)(1)R型聚類(lèi)分析不但可以了解個(gè)別變量之間的親疏程度,而且可以了解各個(gè)變量組合之間的親疏程度。

(2)根據(jù)變量的分類(lèi)結(jié)果以及它們之間的關(guān)系,可以選擇主要變量進(jìn)行回歸分析。.Q型聚類(lèi)分析的特點(diǎn)

(1)可以綜合利用多個(gè)變量的信息對(duì)樣本進(jìn)行分類(lèi)。

(2)分類(lèi)結(jié)果是直觀(guān)的,聚類(lèi)譜系圖非常清楚地表現(xiàn)其數(shù)值分類(lèi)結(jié)果。

(3)聚類(lèi)分析所得到的結(jié)果比傳統(tǒng)的分類(lèi)方法更細(xì)致,全面,合理。.聚類(lèi)分析的分類(lèi).距離和相似系數(shù)為了將樣品(或指標(biāo))進(jìn)行分類(lèi),就需要研究樣品之間關(guān)系。目前用得最多的方法有兩個(gè):一種方法:相似系數(shù);另一種方法:距離;.距離的定義方式絕對(duì)值距離歐氏(Euclidean)距離切比雪夫(Chebychev)距離明氏(Minkowski)距離.相似系數(shù)夾角余弦Pearson相關(guān)系數(shù)指數(shù)相似系數(shù).系統(tǒng)聚類(lèi)分析的原理于是根據(jù)一批樣本的多個(gè)觀(guān)測(cè)指標(biāo),具體找出一些能夠度量樣本或指標(biāo)之間相似程度的統(tǒng)計(jì)量,以這些統(tǒng)計(jì)量為劃分類(lèi)型的依據(jù),把一些相似程度較大的樣本(或指標(biāo))聚合為一類(lèi),把另外一些彼此之間相似程度較大的樣本(或指標(biāo))又聚合為另一類(lèi),關(guān)系密切的聚合到一個(gè)小的分類(lèi)單位,關(guān)系疏遠(yuǎn)的聚合到一個(gè)大的分類(lèi)單位,直到所有的樣本(或指標(biāo))都聚合完畢.把不同的類(lèi)型一一劃分出來(lái),形成一個(gè)由小到大的分類(lèi)系統(tǒng),最后在把所有的樣品(或指標(biāo))間的親疏關(guān)系表示出來(lái),這種方法稱(chēng)為系統(tǒng)聚類(lèi)分析法把.系統(tǒng)聚類(lèi)的基本步驟構(gòu)造n個(gè)類(lèi),每個(gè)類(lèi)包含且只包含一個(gè)樣品。計(jì)算n個(gè)樣品兩兩間的距離,構(gòu)成距離矩陣,記作D0。合并距離最近的兩類(lèi)為一新類(lèi)。計(jì)算新類(lèi)與當(dāng)前各類(lèi)的距離。若類(lèi)的個(gè)數(shù)等于1,轉(zhuǎn)到步驟(5),否則回到步驟(3)。畫(huà)聚類(lèi)圖。決定類(lèi)的個(gè)數(shù),及各類(lèi)包含的樣品數(shù),并對(duì)類(lèi)作出解釋。.系統(tǒng)聚類(lèi)(Hierarchicalclustering)最短距離法(singlelinkage)最長(zhǎng)距離法(completelinkage)中間距離法(medianmethod)可變距離法(flexiblemedian)重心法(centroid)類(lèi)平均法(average)可變類(lèi)平均法(flexibleaverage)Ward最小方差法(Ward’sminimumvariance).類(lèi)間距離S1S3S2S4S5最短距離(singlelinkage).最長(zhǎng)距離(completelinkage)類(lèi)間距離S1S3S4S5.類(lèi)間距離S1S3S2S4S5重心間距離(centroid).類(lèi)間距離S1S3S2S4S5平均距離(average).類(lèi)間距離S1S3S2S4S5最短距離.例6個(gè)不同民族的標(biāo)化死亡率與出生時(shí)的期望壽命

.各民族之間的歐氏距離(標(biāo)準(zhǔn)化資料)D0

滿(mǎn)族朝鮮族蒙古族維吾爾族藏族哈薩克族G1={S1}G2={S2}G3={S3}G4={S4}G5={S5}G6={S6}滿(mǎn)族G1={S1}0朝鮮族G2={S2}1.2020蒙古族G3={S3}1.7320.5320維吾爾族G4={S4}3.5702.3741.8510藏族G5={S5}3.2242.0481.5390.4220哈薩克族G6={S6}3.1731.9731.4480.4060.3110.D1

G1={S1}G2={S2}G3={S3}G4={S4}G7={S5,S6}G1={S1}0G2={S2}1.2020G3={S3}1.7320.5320G4={S4}3.5702.3741.8510G7={S5,S6}3.1731.9731.4480.4060.D2G1={S1}G2={S2}G3={S3}G8={S4,S5,S6}G1={S1}0G2={S2}1.2080G3={S3}1.7320.5320G8={S4,S5,S6}3.1731.9731.4480.D3G1={S1}G9={S2,S3}G8={S4,S5,S6}G1={S1}0G9={S2,S3}1.2020G8={S4,S5,S6}3.1731.4480.D4G10={S1,S2,S3}G8={S4,S5,S6}G10={S1,S2,S3}0G8={S4,S5,S6}1.4480.例資料的譜系聚類(lèi)圖(最短距離法)

藏族哈薩克族維吾爾族朝鮮族蒙古族滿(mǎn)族Dendrograms(clustertrees)0.3110.4060.5321.2021.448.例資料的譜系聚類(lèi)圖(最長(zhǎng)距離法)

藏族哈薩克族維吾爾族朝鮮族蒙古族滿(mǎn)族Dendrograms(clustertr

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶(hù)所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶(hù)上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶(hù)上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶(hù)因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論