版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
1、聚類分析作者:北京大學(xué)概率統(tǒng)計(jì)系 李東風(fēng)聚類分析和判別分析有相似的作用,都是起到分類的作用。但是,判別分析是已知分類然后總結(jié)出判別規(guī)則,是一種有指導(dǎo)的學(xué)習(xí);而聚類分析則是有了一批樣本,不知道它們的分類,甚至連分成幾類也不知道,希望用某種方法把觀測進(jìn)行合理的分類,使得同一類的觀測比較接近,不同類的觀測相差較多,這是無指導(dǎo)的學(xué)習(xí)。所以,聚類分析依賴于對觀測間的接近程度(距離)或相似程度的理解,定義不同的距離量度和相似性量度就可以產(chǎn)生不同的聚類結(jié)果。SAS/STAT中提供了譜系聚類、快速聚類、變量聚類等聚類過程。譜系聚類方法介紹譜系聚類是一種逐次合并類的方法,最后得到一個(gè)聚類的二叉樹聚類圖。其想法是
2、,對于 個(gè)觀測,先計(jì)算其兩兩的距離得到一個(gè)距離矩陣,然后把離得最近的兩個(gè)觀測合并為一類,于是我們現(xiàn)在只剩了 個(gè)類(每個(gè)單獨(dú)的未合并的觀測作為一個(gè)類)。計(jì)算這 個(gè)類兩兩之間的距離,找到離得最近的兩個(gè)類將其合并,就只剩下了 個(gè)類直到剩下兩個(gè)類,把它們合并為一個(gè)類為止。當(dāng)然,真的合并成一個(gè)類就失去了聚類的意義,所以上面的聚類過程應(yīng)該在某個(gè)類水平數(shù)(即未合并的類數(shù))停下來,最終的類就取這些未合并的類。決定聚類個(gè)數(shù)是一個(gè)很復(fù)雜的問題。設(shè)觀測個(gè)數(shù)為 ,變量個(gè)數(shù)為 , 為在某一聚類水平上的類的個(gè)數(shù), 為第 個(gè)觀測,
3、160;是當(dāng)前(水平 )的第 類, 為 中的觀測個(gè)數(shù), 為均值向量, 為類 中的均值向量(中心), 為歐氏長度, 為總離差平方和, 為類 的類內(nèi)離差平方和, 為聚類水平 對應(yīng)的各類的類內(nèi)離差平方和的總和。假設(shè)某一步聚類把類 和類 合并為下一水平的類 ,則定義 為合并導(dǎo)致的類內(nèi)離差平方和的增量。用 代表兩個(gè)觀測之間的距離或非相似性測度, 為第 水平的類 和類 之間的距離或非相似性
4、測度。進(jìn)行譜系聚類時(shí),類間距離可以直接計(jì)算,也可以從上一聚類水平的距離遞推得到。觀測間的距離可以用歐氏距離或歐氏距離的平方,如果用其它距離或非相似性測度得到了一個(gè)觀測間的距離矩陣也可以作為譜系聚類方法的輸入。根據(jù)類間距離的計(jì)算方法的不同,有多種不同的聚類方法。其中幾種介紹如下:一、類平均法(METHOD=AVERAGE)測量兩類每對觀測間的平均距離,即在 時(shí)若類 和類 合并為下一水平的類 類,則類 和類 的距離的遞推公式為二、重心法(METHOD=CENTROID)重心法測量兩個(gè)類的重心(均值)之間的(平方)歐氏距離。即當(dāng)觀測間距離為
5、平方歐氏距離時(shí)有遞推公式三、最長距離法(METHOD=COMPLETE)計(jì)算兩類觀測間最遠(yuǎn)一對的距離,即遞推公式為 。四、最短距離法(METHOD=SINGLE)計(jì)算兩類觀測間最近一對的距離,即遞推公式為 。五、密度估計(jì)法(METHOD=DENSITY)密度估計(jì)法按非參數(shù)密度來定義兩點(diǎn)間的距離 。如果兩個(gè)點(diǎn) 和 是近鄰(兩點(diǎn)距離小于某指定常數(shù)或 在距離 最近的若干點(diǎn)內(nèi))則距離是兩點(diǎn)密度估計(jì)的倒數(shù)的平均,否則距離為正無窮。密度估計(jì)有最近鄰估計(jì)(K=)、均勻核估計(jì)(R=)和Wong 混合法(HYBRID)。六、Ward最小方差法
6、(或稱Ward離差平方和法,METHOD=WARD)當(dāng)觀測間距離為 時(shí)遞推公式為Ward方法并類時(shí)總是使得并類導(dǎo)致的類內(nèi)離差平方和增量最小。其它的聚類方法還有EML法、可變類平均法(FLEXIBLE)、McQuitty相似分析法(MCQUITTY )、中間距離法(MEDIAN)、兩階段密度估計(jì)法(TWOSTAGE)等。譜系聚類類數(shù)的確定譜系聚類最終得到一個(gè)聚類樹,可以把所有觀測聚為一類。到底應(yīng)該把觀測分為幾類是一個(gè)比較困難的問題,因?yàn)榉诸悊栴}本身就是沒有一定標(biāo)準(zhǔn)的,關(guān)于這一點(diǎn)實(shí)用多元統(tǒng)計(jì)分析(王學(xué)仁、王松桂,上??萍汲霭嫔纾┑谑陆o出了一個(gè)很好的例子,即撲克牌的分類。我們可以把撲克牌
7、按花色分類,按大小點(diǎn)分類,按橋牌的高花色低花色分類,等等。決定類數(shù)的一些方法來自統(tǒng)計(jì)的方差分析的思想,我們在這里作一些介紹。一、 統(tǒng)計(jì)量其中 為分類數(shù)為 個(gè)類時(shí)的總類內(nèi)離差平方和, 為所有變量的總離差平方和。 越大,說明分為 個(gè)類時(shí)每個(gè)類內(nèi)的離差平方和都比較小,也就是分為 個(gè)類是合適的。但是,顯然分類越多,每個(gè)類越小, 越大,所以我們只能取 使得 足夠大,但 本身比較小,而且 不再大幅度增加。二、半偏相關(guān)在把類 和類 合并為下一水平的類 時(shí),定義
8、半偏相關(guān)半偏 其中 為合并類引起的類內(nèi)離差平方和的增量,半偏相關(guān)越大,說明這兩個(gè)類越不應(yīng)該合并,所以如果由 類合并為 類時(shí)如果半偏相關(guān)很大就應(yīng)該取 類。三、雙峰性系數(shù)其中 是偏度, 是峰度。大于0.555的 值(這時(shí)為均勻分布)可能指示有雙峰或多峰邊緣分布。最大值1.0(二值分布)從僅取兩值的總體得到。四、偽F統(tǒng)計(jì)量偽F統(tǒng)計(jì)量評價(jià)分為 個(gè)類的效果。如果分為 個(gè)類合理,則類內(nèi)離差平方和(分母)應(yīng)該較小,類間平方和(分子)相對較大。所以應(yīng)該取偽F統(tǒng)計(jì)量較大而類數(shù)較小的聚類水平。五、偽 統(tǒng)計(jì)
9、量用此統(tǒng)計(jì)量評價(jià)合并類 和類 的效果,該值大說明不應(yīng)合并這兩個(gè)類,所以應(yīng)該取合并前的水平。用CLUSTER過程和TREE過程進(jìn)行譜系聚類一、CLUSTER過程用法CLUSTER過程的一般格式為:PROC CLUSTER DATA=輸入數(shù)據(jù)集 METHOD=聚類方法 選項(xiàng);VAR 聚類用變量;COPY 復(fù)制變量;RUN;其中的VAR語句指定用來聚類的變量。COPY語句把指定的變量復(fù)制到OUTTREE的數(shù)據(jù)集中。 PROC CLUSTER語句的主要選項(xiàng)有:· METHOD=選項(xiàng),這是必須指定的,此選項(xiàng)決定我們要用的聚類方法,主要由類間距離定義決定。方法有AVERAGE
10、、CENTROID、COMPLETE、SINGLE、DENSITY、WARD、EML、FLEXIBLE、MCQUITTY 、MEDIAN、TWOSTAGE等,其中DENSITY、TWOSTAGE等方法還要額外指定密度估計(jì)方法(K=、R= 或HYBRID)。· 輸入DATA數(shù)據(jù)集,可以是原始觀測數(shù)據(jù)集,也可以是距離矩陣數(shù)據(jù)集。· OUTTREE=輸出譜系聚類樹數(shù)據(jù)集,把譜系聚類樹輸出到一個(gè)數(shù)據(jù)集,可以用TREE過程繪圖并實(shí)際分類。· STANDARD選項(xiàng),把變量標(biāo)準(zhǔn)化為均值0,標(biāo)準(zhǔn)差1。· PSEUDO選項(xiàng)和CCC選項(xiàng)。PSEUDO選項(xiàng)要求計(jì)算偽F和偽
11、160;統(tǒng)計(jì)量,CCC選項(xiàng)要求計(jì)算 、半偏和CCC統(tǒng)計(jì)量。其中CCC統(tǒng)計(jì)量也是一種考察聚類效果的統(tǒng)計(jì)量,CCC較大的聚類水平是較好的。二、TREE過程用法TREE過程可以把CLUSTER過程產(chǎn)生的OUTTREE數(shù)據(jù)集作為輸入,畫出譜系聚類的樹圖,并按照用戶指定的聚類水平(類數(shù))產(chǎn)生分類結(jié)果數(shù)據(jù)集。一般格式如下:PROC TREE DATA輸入聚類結(jié)果數(shù)據(jù)集 OUT=輸出數(shù)據(jù)集 GRAPHICS NCLUSTER=類數(shù) 選項(xiàng);COPY 復(fù)制變量;RUN;其中COPY語句把輸入數(shù)據(jù)集中的變量復(fù)制到輸出數(shù)據(jù)集(實(shí)際上這些變量也必須在CLUSTER 過程中用COPY語句復(fù)制到OUTTREE數(shù)
12、據(jù)集)。PROC TREE語句的重要選項(xiàng)有:· DATA數(shù)據(jù)集,指定從CLUSTER過程生成的OUTTREE數(shù)據(jù)集作為輸入。· OUT數(shù)據(jù)集,指定包含最后分類結(jié)果(每一個(gè)觀測屬于哪一類,用一個(gè)CLUSTER變量區(qū)分)的輸出數(shù)據(jù)集。· NCLUSTERS選項(xiàng),由用戶指定最后把樣本觀測分為多少個(gè)類。· GRAPHICS,這是指定畫譜系聚類的樹圖時(shí)使用高分辨率圖形(要求有SAS/GRAPH模塊)。· HORIZONTAL,畫樹圖時(shí)橫向畫。三、例子我們以多元分析中一個(gè)經(jīng)典的數(shù)據(jù)作為例子,這是Fisher分析過的鳶尾花數(shù)據(jù),有三種不同鳶尾花(Setosa
13、、Versicolor、Virginica),種類信息存入了變量SPECIES,并對每一種測量了50棵植株的花瓣長(PETALLEN)、花瓣寬(PETALWID)、花萼長(SEPALLEN)、花萼寬(SEPALWID)。這個(gè)數(shù)據(jù)已知分類,并不屬于聚類分析的研究范圍。這里我們?yōu)榱耸纠?,假裝不知道樣本的分類情況(既不知道類數(shù)也不知道每一個(gè)觀測屬于的類別),讓SAS取進(jìn)行聚類分析,如果得到的類數(shù)和分類結(jié)果符合真實(shí)的植物分類,我們就可以知道聚類分析產(chǎn)生了好的結(jié)果。這里我們假定數(shù)據(jù)已輸入SASUSER.IRIS中(見系統(tǒng)幫助菜單的“Sample Programs | SAS/STAT | Documen
14、tation Example 3 from Proc Cluster”)。為了進(jìn)行譜系聚類并產(chǎn)生幫助確定類數(shù)的統(tǒng)計(jì)量,使用如下過程:proc cluster data=sasuser.iris method=ward outtree=otree pseudo ccc; var petallen petalwid sepallen sepalwid; copy species;run;可以顯示如下的聚類過程(節(jié)略): T Pseudo Pseudo i NCL -Clusters Joined- FREQ SPRSQ RSQ ERSQ CCC F t*2 e 149 OB16 OB76 2 0.
15、000000 1.0000 . . . . 148 OB2 OB58 2 0.000007 1.0000 . . 1854.1 . T 147 OB96 OB107 2 0.000007 1.0000 . . 1400.1 . T 146 OB89 OB113 2 0.000007 1.0000 . . 1253.1 . T 145 OB65 OB126 2 0.000007 1.0000 . . 1182.9 . T 25 CL50 OB57 7 0.000634 0.9824 0.973335 6.446 291.0 5.6 24 CL78 CL62 7 0.000742 0.9817 0
16、.972254 6.430 293.5 9.8 23 CL68 CL38 9 0.000805 0.9809 0.971101 6.404 296.0 6.9 22 CL30 OB137 6 0.000896 0.9800 0.969868 6.352 298.3 5.1 21 CL70 CL33 4 0.000976 0.9790 0.968545 6.290 300.7 3.2 20 CL36 OB25 10 0.001087 0.9779 0.967119 6.206 302.9 9.8 19 CL40 CL22 19 0.001141 0.9768 0.965579 6.146 306
17、.1 7.7 18 CL25 CL39 10 0.001249 0.9755 0.963906 6.082 309.5 6.2 17 CL29 CL45 16 0.001351 0.9742 0.962081 6.026 313.5 8.2 16 CL34 CL32 15 0.001462 0.9727 0.960079 5.984 318.4 9.0 15 CL24 CL28 15 0.001641 0.9711 0.957871 5.929 323.7 9.8 14 CL21 CL53 7 0.001873 0.9692 0.955418 5.850 329.2 5.1 13 CL18 C
18、L48 15 0.002271 0.9669 0.952670 5.690 333.8 8.9 12 CL16 CL23 24 0.002274 0.9647 0.949541 4.632 342.4 9.6 11 CL14 CL43 12 0.002500 0.9622 0.945886 4.675 353.3 5.8 10 CL26 CL20 22 0.002694 0.9595 0.941547 4.811 368.1 12.9 9 CL27 CL17 31 0.003060 0.9564 0.936296 5.018 386.6 17.8 8 CL35 CL15 23 0.003095
19、 0.9533 0.929791 5.443 414.1 13.8 7 CL10 CL47 26 0.005811 0.9475 0.921496 5.426 430.1 19.1 6 CL8 CL13 38 0.006042 0.9414 0.910514 5.806 463.1 16.3 5 CL9 CL19 50 0.010532 0.9309 0.895232 5.817 488.5 43.2 4 CL12 CL11 36 0.017245 0.9137 0.872331 3.987 515.1 41.0 3 CL6 CL7 64 0.030051 0.8836 0.826664 4.
20、329 558.1 57.2 2 CL4 CL3 100 0.111026 0.7726 0.696871 3.833 502.8 115.6 1 CL5 CL2 150 0.772595 0.0000 0.000000 0.000 . 502.8偽F圖形CCC圖形偽圖形半偏圖形這個(gè)輸出列出了把150個(gè)觀測每次合并兩類,共合并149次的過程。NCL列指定了聚類水平G (即這一步存在的單獨(dú)的類數(shù))?!?Clusters Joined-”為兩列,指明這一步合并了哪兩個(gè)類。其中OBxxx表示哪一個(gè)原始觀測,而CLxxx表示在哪一個(gè)聚類水平上產(chǎn)生的類。比如,NCL為149時(shí)合并的是OB16和OB76,
21、即16 號觀測和76號觀測,NCL為1(最后一次合并)合并的是CL5和CL2,即類水平為5時(shí)得到的類和類水平為2時(shí)得到的類,CL5又是由CL9和CL19合并得到的,CL2是由CL4和CL3合并得到的,等等。FREQ表示這次合并得到的類有多少個(gè)觀測。SPRSQ是半偏 ,RSQ是 ,ERSQ是在均勻零假設(shè)下的 的近似期望值,CCC為CCC統(tǒng)計(jì)量,Pseudo F 為偽F統(tǒng)計(jì)量,Pseudo t*2為偽 統(tǒng)計(jì)量,Norm RMS Dist是正規(guī)化的的兩類元素間距離的均方根,Tie指示距離最小的候選類對是否有多對。因?yàn)槲覀兗傺b不知道數(shù)據(jù)的實(shí)際分類情況,所以我們必
22、須找到一個(gè)合理的分類個(gè)數(shù)。為此,考察CCC、偽F、偽 和半偏 統(tǒng)計(jì)量。我們打開INSIGHT界面,調(diào)入上面產(chǎn)生的OTREE數(shù)據(jù)集,繪制各統(tǒng)計(jì)量的圖形。因?yàn)轭愃教髸r(shí)的信息沒有多少用處,所以我們對OTREE數(shù)據(jù)集取其類水平不超過30的觀測,即:data ot; set otree; where _ncl_ <= 30;run;各統(tǒng)計(jì)量的圖形見圖2圖5。CCC統(tǒng)計(jì)量建議取5類或3類(局部最大值),偽F建議3類(局部最大值),偽 建議3類(局部最大值處是不應(yīng)合并的,即局部最大值處的類數(shù)加1),半偏 建議3類。由這些指標(biāo)看比較一致的是3類,其次是5類。為了看為什么不能明顯地分為三類,我們對四個(gè)變量求主分量,畫出前兩個(gè)主分量的散點(diǎn)圖(見圖6)??梢钥闯鯯etosa(紅色)與其它兩類分得很開,而Versicolor(綠色)與Virg
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 醫(yī)院培訓(xùn)心得體會
- 會計(jì)金融求職介紹
- 登高作業(yè)培訓(xùn)
- 陜西省榆林市高新區(qū)2024-2025學(xué)年上學(xué)期九年級期中考試英語試卷(含筆試答案無聽力音頻)
- 2024-2025學(xué)年江蘇省無錫市江陰市河塘中學(xué)九年級(上)10月階級段性練習(xí)數(shù)學(xué)試卷(含答案)
- 全球液流電池集流板市場規(guī)模預(yù)測及發(fā)展方向研究報(bào)告2024-2030年
- T-ZFDSA 14-2024 天麻魚頭湯制作標(biāo)準(zhǔn)
- Windows Server網(wǎng)絡(luò)管理項(xiàng)目教程(Windows Server 2022)(微課版)課件項(xiàng)目3 DHCP服務(wù)器的配置與管理
- Windows Server網(wǎng)絡(luò)管理項(xiàng)目教程(Windows Server 2022)(微課版)8.2 任務(wù)1 RDS服務(wù)器的安裝
- 甘肅省蘭州市2018年中考語文真題試卷(含答案)
- 北師大版小學(xué)數(shù)學(xué)五年級上冊重點(diǎn)練習(xí)試題(全冊)
- 第一套極限配合 判斷題
- 口腔頜面部系統(tǒng)解剖--血管、神經(jīng)完整版本課件
- 最新簡筆畫圖片(70頁完整)可直接打印涂色
- 色卡 對照表 PANTONE-CMYK
- 意愿類能愿動詞偏誤分析——以“要”、“想”、“敢”、“肯”為例
- 基于層次分析法大學(xué)生就業(yè)選擇問題
- 職業(yè)病防治監(jiān)理實(shí)施細(xì)則
- 焊接工藝規(guī)程WPS模
- 樓梯水泥砂漿抹面施工方法
- 變壓器類產(chǎn)品型號注冊管理辦法
評論
0/150
提交評論