版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
1、 多元統(tǒng)計(jì)分析實(shí)驗(yàn)教學(xué)上機(jī)指導(dǎo)書(shū) 數(shù)學(xué)與統(tǒng)計(jì)學(xué)學(xué)院信息與計(jì)算科學(xué)教研室1 / 73 第一章 聚類分析 一、實(shí)驗(yàn)?zāi)康呐c要求1.通過(guò)上機(jī)操作使學(xué)生掌握系統(tǒng)聚類分析方法在SAS和SPSS軟件中的實(shí)現(xiàn),熟悉系統(tǒng)聚類的用途和操作方法,了解各種距離,能按要求將樣本進(jìn)行分類;2.要求學(xué)生重點(diǎn)掌握該方法的用途,能正確解釋軟件處理的結(jié)果,尤其是冰柱圖和樹(shù)形圖結(jié)果的解釋;3.要求學(xué)生閱讀一定數(shù)量
2、的文獻(xiàn)資料,掌握系統(tǒng)聚類分析方法在寫(xiě)作中的應(yīng)用。 二、實(shí)驗(yàn)內(nèi)容與步驟SAS部分(一)SAS程序語(yǔ)言簡(jiǎn)介SAS系統(tǒng)強(qiáng)大的數(shù)據(jù)管理能力、計(jì)算能力、分析能力依賴于作為其基礎(chǔ)的SAS語(yǔ)言。SAS語(yǔ)言是一個(gè)專用的數(shù)據(jù)管理與分析語(yǔ)言,它的數(shù)據(jù)管理功能類似于數(shù)據(jù)庫(kù)語(yǔ)言(如FoxPro),但又添加了一般高級(jí)程序設(shè)計(jì)語(yǔ)言的許多成分(如分支、循環(huán)、數(shù)組),以及專用于數(shù)據(jù)管理、統(tǒng)計(jì)計(jì)算的函數(shù)。SAS系統(tǒng)的數(shù)據(jù)管理、報(bào)表、圖形、統(tǒng)計(jì)分析等功能都可以用SAS語(yǔ)言程序來(lái)調(diào)用,只要指定要完成的任務(wù)就可以由SAS系統(tǒng)按照預(yù)先設(shè)計(jì)好的程序去進(jìn)行,所以SAS 語(yǔ)言和FoxPro等一樣是一種第四代計(jì)算機(jī)語(yǔ)言。SAS語(yǔ)言有
3、它自己的對(duì)變量、常量、表達(dá)式的一系列規(guī)定,有一系列標(biāo)準(zhǔn)函數(shù),有它自己的語(yǔ)句、語(yǔ)法,可以按一定規(guī)則構(gòu)成SAS程序。SAS語(yǔ)言程序由數(shù)據(jù)步(DATA步)和過(guò)程步(PROC步)組成。數(shù)據(jù)步用來(lái)生成數(shù)據(jù)集、計(jì)算、整理數(shù)據(jù),過(guò)程步用來(lái)對(duì)數(shù)據(jù)進(jìn)行分析、報(bào)告。SAS語(yǔ)言的基本單位是語(yǔ)句,每個(gè)SAS語(yǔ)句一般由一個(gè)關(guān)鍵字(如DATA,PROC,INPUT,CARDS,BY)開(kāi)頭,包含SAS名字、特殊字符、運(yùn)算符等,以分號(hào)結(jié)束。SAS關(guān)鍵字是用于SAS語(yǔ)句開(kāi)頭的特殊單詞。SAS名字在SAS程序中標(biāo)識(shí)各種SAS成分,如變量、數(shù)據(jù)集、數(shù)據(jù)庫(kù),等等。SAS 名字由1到8個(gè)字母、數(shù)字、下劃線組成,第一個(gè)字符必須是字母或下
4、劃線。SAS關(guān)鍵字和SAS 名字都不區(qū)分大小寫(xiě)。語(yǔ)句關(guān)鍵字用大寫(xiě)或小寫(xiě)方式都可以,但不可簡(jiǎn)化,必須原樣照寫(xiě)。SAS程序由語(yǔ)句構(gòu)成。一個(gè)SAS語(yǔ)句可以占若干行,可以從任意一列開(kāi)始,但必須在語(yǔ)句結(jié)束處加分號(hào),因?yàn)镾AS系統(tǒng)是根據(jù)分號(hào)判斷哪些文字屬于一個(gè)語(yǔ)句的,因此在一行上可以寫(xiě)幾個(gè)SAS語(yǔ)句,只要每個(gè)語(yǔ)句都用分號(hào)結(jié)束(最常見(jiàn)的SAS編程錯(cuò)誤就是丟失分號(hào))。因?yàn)榉痔?hào)作為語(yǔ)句結(jié)束標(biāo)志,所以SAS語(yǔ)句不需要單獨(dú)占一行,一個(gè)語(yǔ)句可以寫(xiě)到多行(不需任何續(xù)行標(biāo)志),也可以在一行連續(xù)寫(xiě)幾個(gè)語(yǔ)句。SAS語(yǔ)言中只要允許用一個(gè)空格的地方就可以加入任意多個(gè)空白(空格、制表符、回車(chē)),允許用空格的地方是名字周?chē)?、運(yùn)算符周
5、圍。比如,程序3 / 73proc print data=c9501; by avg; run;和proc print data=c9501;by avg;run; 是等效的。另外,雖然SAS關(guān)鍵字和SAS名字不區(qū)分大小寫(xiě),但字符型數(shù)據(jù)值要區(qū)分大小寫(xiě),比如"Beijing" 和&qu
6、ot;BEIJING"被認(rèn)為是不同的數(shù)據(jù)值。在SAS程序中可以加入注釋,注釋使用C語(yǔ)言語(yǔ)法,用/*和*/在兩端界定注釋,這種注釋可以出現(xiàn)在任何允許加入空格的位置,可以占多行。我們一般只把注釋單獨(dú)占一行或若干行,不把注釋與程序代碼放在同一行。注釋的另一個(gè)作用是把某些代碼暫時(shí)屏蔽使其不能運(yùn)行。下面是一個(gè)注釋的例子:/* 生成95級(jí)1班考試成績(jī)的數(shù)據(jù)集 */data c9501;SAS程序包括數(shù)據(jù)步和過(guò)程步兩種結(jié)構(gòu),每一個(gè)步是一段相對(duì)完整的可以單獨(dú)運(yùn)行的程序。每個(gè)步以RUN語(yǔ)句結(jié)束。當(dāng)一個(gè)步后面跟著另一個(gè)步時(shí),前面一個(gè)步的RUN語(yǔ)句可以省略。一個(gè)DATA步后面可以跟幾個(gè)PROC步,也可以若
7、干個(gè)DATA步后面跟幾個(gè)PROC步;或以PROC步打頭,后面跟若干個(gè)DATA步,再跟PROC步,程序中的每個(gè)步都是相應(yīng)獨(dú)立的,彼此不能交叉,不能嵌套。數(shù)據(jù)步用來(lái)生成、整理數(shù)據(jù)和自編程計(jì)算,過(guò)程步調(diào)用SAS已編好的處理過(guò)程對(duì)數(shù)據(jù)進(jìn)行處理。我們自己用SAS編程序?qū)崿F(xiàn)各多元統(tǒng)計(jì)分析方法主要用到過(guò)程步。在本課的學(xué)習(xí)過(guò)程中,主要采用調(diào)用已有數(shù)據(jù)集的方式,因此程序的重點(diǎn)在PROC步上,要分析的數(shù)據(jù)集只要在選擇項(xiàng)DATA=中指明即可。最簡(jiǎn)單的PROC步只有一個(gè)PROC語(yǔ)句,即:PROC 過(guò)程名;該語(yǔ)句調(diào)用指定的過(guò)程分析在該語(yǔ)句之前最近建立的數(shù)據(jù)集。在調(diào)用時(shí)的其他要求全部采用SAS系統(tǒng)設(shè)置的缺省值。PROC語(yǔ)
8、句的一般格式為:PROC 過(guò)程名 選擇項(xiàng);(二)用CLUSTER過(guò)程和TREE過(guò)程進(jìn)行譜系聚類3 / 73聚類分析又稱群分析、點(diǎn)群分析,是定量研究分類問(wèn)題的一種多元統(tǒng)計(jì)方法。聚類分析的基本思想是認(rèn)為所研究的樣品或指標(biāo)之間存在著程度不同的相似性,于是根據(jù)一批樣品的多個(gè)觀測(cè)指標(biāo),找出能夠度量樣品或變量之間相似程度的統(tǒng)計(jì)量,并以此為依據(jù),采用某種聚類法,將所有的樣品或變量分別聚合到不同的類中,使同一類中的個(gè)體有較大的相似性,不同類中的個(gè)體差異較大。所以,聚類分析依賴于對(duì)觀測(cè)間的接近程度(距離)或相似程度的理解,定義不同的距離量度和相似性量度就可以產(chǎn)生不同的聚類結(jié)果。SAS/STAT模塊中
9、提供了譜系聚類(CLUSTER)、快速聚類(FASTCLUS)、變量聚類(VARCLUS)等聚類過(guò)程。我們重點(diǎn)要求掌握譜系聚類法。譜系聚類是一種逐次合并類的方法,最后得到一個(gè)聚類的二叉樹(shù)聚類圖。其基本計(jì)算過(guò)程是,對(duì)于n個(gè)觀測(cè),先計(jì)算其兩兩的距離得到一個(gè)距離矩陣,然后把離得最近的兩個(gè)觀測(cè)合并為一類,于是我們現(xiàn)在只剩了n-1 個(gè)類(每個(gè)單獨(dú)的未合并的觀測(cè)作為一個(gè)類)。計(jì)算這 n-1個(gè)類兩兩之間的距離,找到離得最近的兩個(gè)類將其合并,就只剩下了 n-2個(gè)類直到剩下兩個(gè)類,把它們合并為一個(gè)類為止。當(dāng)然,真的合并成一個(gè)類就失去了聚類的意義,所以上面的聚類過(guò)程應(yīng)該在某個(gè)類水平數(shù)(即未合并的類數(shù))停下來(lái),最終
10、的類數(shù)就是這些未合并的類的個(gè)數(shù)。決定聚類個(gè)數(shù)是一個(gè)很復(fù)雜的問(wèn)題。1.譜系聚類類數(shù)的確定譜系聚類最終得到一個(gè)聚類樹(shù)形圖,可以把所有觀測(cè)聚為一類。到底應(yīng)該把觀測(cè)分為幾類合適是一個(gè)比較難抉擇的問(wèn)題,因?yàn)榉诸悊?wèn)題本身就是沒(méi)有一定標(biāo)準(zhǔn)的,關(guān)于這一點(diǎn)實(shí)用多元統(tǒng)計(jì)分析(王學(xué)仁、王松桂,上??萍汲霭嫔纾┑谑陆o出了一個(gè)很好的例子,即撲克牌的分類。我們可以把撲克牌按花色分類,按大小點(diǎn)分類,按橋牌的高花色低花色分類,等等。決定類數(shù)的一些方法來(lái)自于統(tǒng)計(jì)的方差分析的思想,我們?cè)谶@里作一些介紹。(1)統(tǒng)計(jì)量其中 為分類數(shù)為 個(gè)類時(shí)的總類內(nèi)離差平方和, 為所有變量的總離差平方和。 越大,說(shuō)明分為 個(gè)類時(shí)每個(gè)類內(nèi)的離差平方
11、和都比較小,也就是分為 個(gè)類是合適的。但是,顯然分類越多,每個(gè)類越小, 越大,所以我們只能取 使得 足夠大,但 本身比較小,而且 不再大幅度增加。 (2)半偏相關(guān)4 / 73在把類 和類 合并為下一水平的類 時(shí),定義半偏相關(guān) 半偏其中 為合并類引起的類內(nèi)離差平方和的增量,半偏相關(guān)越大,說(shuō)明這兩個(gè)類越不應(yīng)該合并,所以如果由 類合并為 類時(shí)如果半偏相關(guān)很大就應(yīng)該取 類。 (3)偽F統(tǒng)計(jì)量偽F統(tǒng)計(jì)量評(píng)價(jià)分為 個(gè)類的效果。如果分為 個(gè)類合理,則類內(nèi)離差平方和(分母)應(yīng)該較小,類間平方和(分子)相對(duì)較大。所以應(yīng)該取偽F統(tǒng)計(jì)量較大而類數(shù)較小的聚類水平。 (4)偽 統(tǒng)
12、計(jì)量用此統(tǒng)計(jì)量評(píng)價(jià)合并類 和類 的效果,該值大說(shuō)明不應(yīng)合并這兩個(gè)類,所以應(yīng)該取合并前的水平。2.CLUSTER過(guò)程用法 由于在SAS系統(tǒng)中聚類分析過(guò)程沒(méi)有現(xiàn)成的窗口操作,所以實(shí)現(xiàn)聚類分析必須編寫(xiě)SAS程序。SAS/STAT模塊中的Cluster過(guò)程可實(shí)現(xiàn)系統(tǒng)聚類分析,可調(diào)用Tree過(guò)程生成聚類譜系圖。CLUSTER過(guò)程的一般格式為: PROC CLUSTER DATA=輸入數(shù)據(jù)集 METHOD=聚類方法 選項(xiàng);VAR 聚類用變量;COPY 復(fù)制變量;RUN; 其中的VAR語(yǔ)句指定用來(lái)聚類的變量。COPY語(yǔ)句把指定的變量復(fù)制到OUTTREE的數(shù)據(jù)集中。 PROC CLUST
13、ER語(yǔ)句的主要選項(xiàng)有: 5 / 73(1)METHOD=選項(xiàng),這是必須指定的,此選項(xiàng)決定我們要用的聚類方法,主要由類間距離定義決定。方法有AVERAGE、CENTROID、COMPLETE、SINGLE、DENSITY、WARD、EML、FLEXIBLE、MCQUITTY 、MEDIAN、TWOSTAGE等,其中DENSITY、TWOSTAGE等方法還要額外指定密度估計(jì)方法(K=、R= 或HYBRID)。 (2)DATA輸入數(shù)據(jù)集,可以是原始觀測(cè)數(shù)據(jù)集,也可以是距離矩陣數(shù)據(jù)集。 (3)OUTTREE=輸出數(shù)據(jù)集,把繪制譜系聚類樹(shù)的信息輸出到一個(gè)數(shù)據(jù)集,可以用TREE過(guò)程調(diào)用此數(shù)據(jù)集繪圖樹(shù)形圖并
14、實(shí)際分類。 (4)STANDARD選項(xiàng),把變量標(biāo)準(zhǔn)化為均值為0,標(biāo)準(zhǔn)差為1。 (5)PSEUDO選項(xiàng)和CCC選項(xiàng)。PSEUDO選項(xiàng)要求計(jì)算偽F和偽 統(tǒng)計(jì)量,CCC選項(xiàng)要求計(jì)算 、半偏 和CCC統(tǒng)計(jì)量。其中CCC統(tǒng)計(jì)量也是一種考察聚類效果的統(tǒng)計(jì)量,CCC較大的聚類水平是較好的。 3.TREE過(guò)程用法TREE過(guò)程可以把CLUSTER過(guò)程產(chǎn)生的OUTTREE數(shù)據(jù)集作為輸入數(shù)據(jù)集,畫(huà)出譜系聚類的樹(shù)形圖,并按照用戶指定的聚類水平(類數(shù))產(chǎn)生分類結(jié)果數(shù)據(jù)集。其一般格式如下: PROC TREE DATA數(shù)據(jù)集 OUT=輸出數(shù)據(jù)集 NCLUSTER
15、=類數(shù) 選項(xiàng); COPY 復(fù)制變量; RUN;其中COPY語(yǔ)句把輸入數(shù)據(jù)集中的變量復(fù)制到輸出數(shù)據(jù)集(實(shí)際上這些變量也必須在CLUSTER 過(guò)程中用COPY語(yǔ)句復(fù)制到OUTTREE數(shù)據(jù)集)。PROC TREE語(yǔ)句的重要選項(xiàng)有:(1)DATA數(shù)據(jù)集,指定從CLUSTER過(guò)程生成的OUTTREE數(shù)據(jù)集作為輸入數(shù)據(jù)集。 (2)OUT數(shù)據(jù)集,指定包含最后分類結(jié)果(每一個(gè)觀測(cè)屬于哪一類,用一個(gè)CLUSTER變量區(qū)分)的輸出數(shù)據(jù)集。 (3)NCLUSTERS選項(xiàng),由用戶指定最后把樣本觀測(cè)分為多少個(gè)類(即聚類水平)。 (4)HORIZON
16、TAL,畫(huà)樹(shù)形圖時(shí)沿水平方向畫(huà),即繪制水平方向的樹(shù)形圖,系統(tǒng)默認(rèn)繪制垂直方向的樹(shù)形圖。4.例子我們以多元統(tǒng)計(jì)分析中一個(gè)經(jīng)典的數(shù)據(jù)作為例子,這是Fisher分析過(guò)的鳶尾花數(shù)據(jù),有三種不同鳶尾花(Setosa、Versicolor、Virginica),種類信息存入了變量SPECIES,并對(duì)每一種測(cè)量了50棵植株的花瓣長(zhǎng)(PETALLEN)、花瓣寬(PETALWID)、花萼長(zhǎng)(SEPALLEN)、花萼寬(SEPALWID)。這個(gè)數(shù)據(jù)已知分類,并不屬于聚類分析的研究范圍。這里我們?yōu)榱耸纠?,假裝不知道樣本的分類情況(既不知道類數(shù)也不知道每一個(gè)觀測(cè)屬于的類別),用SAS去進(jìn)行聚類分析,如果得到的類數(shù)和分
17、類結(jié)果符合真實(shí)的植物分類,我們就可以知道聚類分析產(chǎn)生了好的結(jié)果。7 / 73這里我們假定數(shù)據(jù)已輸入SASUSER.IRIS中(見(jiàn)系統(tǒng)幫助菜單的“Sample Programs | SAS/STAT | Documentation Example 3 from Proc Cluster”)。為了進(jìn)行譜系聚類并產(chǎn)生幫助確定類數(shù)的統(tǒng)計(jì)量,編寫(xiě)如下程序:proc cluster data=sasuser.iris method=ward outtree=otree pseudo ccc;var petallen petalwid sepallen sepalwid;copy species;run;&
18、#160;可以顯示如下的聚類過(guò)程(節(jié)略):·
19、160; T ·
20、;
21、; Pseudo Pseudo i NCL -Clusters Joined- FREQ SPRSQ RSQ ERSQ CCC F t*2 e &
22、#160; &
23、#160; 149 OB16 OB76 2 0.000000 1.0000 .
24、0; . . . 148 OB2 OB58 2 0.000007 1.0000 . &
25、#160; . 1854.1 . T147 OB96 OB107 2 0.000007 1.0000 . . 1400.1
26、; . T 146 OB89 OB113 2 0.000007 1.0000 . . 1253.1 . T 145 OB65
27、0; OB126 2 0.000007 1.0000 . . 1182.9 . T 25 CL50 OB57
28、 7 0.000634 0.9824 0.973335 6.446 291.0 5.6 24 CL78 CL62 7 0.000742 0.9817 0.972254 6.430 293.5 9.8 23
29、;CL68 CL38 9 0.000805 0.9809 0.971101 6.404 296.0 6.9 22 CL30 OB137 6 0.000896 0.9800 0.969868 6
30、.352 298.3 5.1 21 CL70 CL33 4 0.000976 0.9790 0.968545 6.290 300.7 3.2 20 CL36 OB25 &
31、#160; 10 0.001087 0.9779 0.967119 6.206 302.9 9.8 19 CL40 CL22 19 0.001141 0.9768 0.965579 6.146 306.1 7.7 18
32、0; CL25 CL39 10 0.001249 0.9755 0.963906 6.082 309.5 6.2 17 CL29 CL45 16 0.001351 0.9742 0.962081
33、 6.026 313.5 8.2 16 CL34 CL32 15 0.001462 0.9727 0.960079 5.984 318.4 9.0 15 CL24 CL28
34、0; 15 0.001641 0.9711 0.957871 5.929 323.7 9.8 14 CL21 CL53 7 0.001873 0.9692 0.955418 5.850 329.2
35、0; 5.1 13 CL18 CL48 15 0.002271 0.9669 0.952670 5.690 333.8 8.9 7 / 7312 CL16 CL23 24 0.00
36、2274 0.9647 0.949541 4.632 342.4 9.6 11 CL14 CL43 12 0.002500 0.9622 0.945886 4.675 353.3 5.8 10 CL26 &
37、#160; CL20 22 0.002694 0.9595 0.941547 4.811 368.1 12.9 9 CL27 CL17 31 0.003060 0.9564 0.936296 5.018
38、386.6 17.8 8 CL35 CL15 23 0.003095 0.9533 0.929791 5.443 414.1 13.8 7 CL10 CL47
39、; 26 0.005811 0.9475 0.921496 5.426 430.1 19.1 6 CL8 CL13 38 0.006042 0.9414 0.910514 5.806 463.1 16.3 5
40、60; CL9 CL19 50 0.010532 0.9309 0.895232 5.817 488.5 43.2 4 CL12 CL11 36 0.017245 0.9137 0.872331
41、 3.987 515.1 41.0 3 CL6 CL7 64 0.030051 0.8836 0.826664 4.329 558.1 57.2 2 CL4
42、 CL3 100 0.111026 0.7726 0.696871 3.833 502.8 115.6 1 CL5 CL2 150 0.772595 0.0000 0.000000 0.000
43、 . 502.8偽F圖形 CCC圖形 8 / 73偽圖形 半偏圖形 9 / 73輸出結(jié)果列出了把150個(gè)觀測(cè)每次合并兩類,共合并149次的過(guò)程。NCL列指定了聚類水平G (即這一步存在的單獨(dú)的類數(shù))。“-Clusters Joined-”為兩列,指明這一步合并了哪兩個(gè)類。其中OBxxx表示原始觀測(cè),而CLxxx表示在某一個(gè)聚類水平上產(chǎn)生的類。比如,NCL為149時(shí)合并的是OB16和OB76,即16 號(hào)觀測(cè)和76號(hào)觀測(cè)合并;NCL為1(最后一次合并)合并的是CL5和CL2,即類水平為5時(shí)得到的類和類水平為2時(shí)得到的類合并,CL5又是由CL9和CL19合并得到的
44、,CL2是由CL4和CL3合并得到的,等等。FREQ表示這次合并得到的類中有多少個(gè)觀測(cè)。SPRSQ是半偏 ,RSQ是 ,ERSQ是在均勻零假設(shè)下的 的近似期望值,CCC為CCC統(tǒng)計(jì)量,Pseudo F 為偽F統(tǒng)計(jì)量,Pseudo t*2為偽 統(tǒng)計(jì)量,Norm RMS Dist是正規(guī)化的兩類元素間距離的均方根,Tie指示距離最小的候選類對(duì)是否有多對(duì)。因?yàn)槲覀兗傺b不知道數(shù)據(jù)的實(shí)際分類情況,所以我們必須找到一個(gè)合理的分類個(gè)數(shù)。為此,考察CCC、偽F、偽 和半偏 統(tǒng)計(jì)量。我們打開(kāi)ASSIST模塊,調(diào)入上面產(chǎn)生的OTREE數(shù)據(jù)集,繪制各統(tǒng)計(jì)量的圖形。因?yàn)轭愃教髸r(shí)的信息沒(méi)有多少用處,所以我們用WHER
45、E語(yǔ)句對(duì)OTREE數(shù)據(jù)集取其類水平不超過(guò)30的觀測(cè)。各統(tǒng)計(jì)量的圖形顯示:CCC統(tǒng)計(jì)量建議取5類或3類(局部最大值),偽F建議3類(局部最大值),偽 建議3類(局部最大值處是不應(yīng)合并的,即局部最大值處的類數(shù)加1),半偏 11 / 73建議3類。由這些指標(biāo)看,比較一致的是3類,其次是5類。為了看為什么不能明顯地分為三類,我們對(duì)四個(gè)變量求主分量,畫(huà)出前兩個(gè)主分量的散點(diǎn)圖??梢钥闯鯯etosa(紅色)與其它兩類分得很開(kāi),而Versicolor(綠色)與Virginica(藍(lán)色)則不易分開(kāi)。 因?yàn)槲覀冎酪殖?類,所以我們用如下的TREE過(guò)程
46、繪制樹(shù)形圖并產(chǎn)生分類結(jié)果數(shù)據(jù)集: proc tree data=otree horizontal nclusters=3 out=oclust;copy species;run;11 / 73樹(shù)形圖因?yàn)橛^測(cè)過(guò)多所以顯得雜亂。從圖中也可以看出,分為兩類可以分得很開(kāi),而分成三類時(shí)距離則不夠遠(yuǎn)。這個(gè)TREE過(guò)程用NCLUSTERS=3指定了分成3個(gè)類,結(jié)果數(shù)據(jù)集OCLUST中有一個(gè)CLUSTER變量代表生成的分類。我們把這個(gè)數(shù)據(jù)集調(diào)入ASSIST模塊中用不同顏色代表SPECIES(實(shí)際種類),用不同符號(hào)代表不同聚類過(guò)程分類,作前兩個(gè)主分量散點(diǎn)圖??梢钥闯?, Virsicolor和Virgi
47、nica兩類互相都有分錯(cuò)為對(duì)方的。 為了統(tǒng)計(jì)分類結(jié)果,可以用ASSIST模塊FREQ過(guò)程作表,得到如下結(jié)果: SPECIES(Species) CLUSTER Frequency | 1| 2| 3| Total-+-+-+-+Setosa |
48、 0 | 0 | 50 | 50-+-+-+-+Versicolor | 49 | 1 | 0 | 50-+-+-+-+Virginica | &
49、#160; 15 | 35 | 0 | 50-+-+-+-+Total 64 36 50
50、0; 150可見(jiàn)Virginica被分錯(cuò)的較多。 同學(xué)們可以自己試用其它的類間距離來(lái)聚類,可以得到不同的結(jié)果。SPSS部分12 / 73系統(tǒng)聚類分析在SPSS中的實(shí)現(xiàn)較為簡(jiǎn)單,因?yàn)橛鞋F(xiàn)成的窗口菜單操作,在SPSS主菜單中選擇AnalyzeClassifyHierarchical Cluster,可實(shí)現(xiàn)系統(tǒng)聚類分析。SPSS軟件處理結(jié)果的解釋可參見(jiàn)SAS部分的相關(guān)內(nèi)容,所不同的是在SPSS的結(jié)果中,聚類進(jìn)度表中以0表示參與合并的是觀測(cè),以數(shù)字表示參與合并的是類,作為類出現(xiàn)時(shí)用類中較小的觀測(cè)號(hào)來(lái)表示。 聚類分析在寫(xiě)作中的應(yīng)用 從
51、“中國(guó)期刊網(wǎng)”上查閱相關(guān)文章,如“中國(guó)城市競(jìng)爭(zhēng)力聚類分析”等,掌握聚類分析在寫(xiě)作中的應(yīng)用。 第二章 判別分析 一、實(shí)驗(yàn)?zāi)康呐c要求1.通過(guò)上機(jī)操作使學(xué)生掌握判別分析方法在SAS和SPSS軟件中的實(shí)現(xiàn),了解判別方法的分類、適用條件和結(jié)果驗(yàn)證方法;2.要求學(xué)生熟悉判別分析的用途和操作,重點(diǎn)掌握對(duì)軟件處理結(jié)果的解釋(區(qū)域圖、未標(biāo)準(zhǔn)化典型判別函數(shù)、Bayes判別函數(shù))和如何使用分析結(jié)果對(duì)新樣品進(jìn)行分類; &
52、#160; 3.要求學(xué)生閱讀一定數(shù)量的文獻(xiàn)資料,掌握判別分析方法在寫(xiě)作中的應(yīng)用。二、實(shí)驗(yàn)內(nèi)容與步驟判別分析和聚類分析有相似的作用,都是起到分類的作用。但是,判別分析是已知分類然后總結(jié)出判別準(zhǔn)則,是一種有指導(dǎo)的學(xué)習(xí);而聚類分析則是有了一批樣本,不知道它們的分類,甚至連分成幾類也不知道,希望用某種方法把觀測(cè)進(jìn)行合理的分類,使得同一類的觀測(cè)比較接近,不同類的觀測(cè)相差較多,這是無(wú)指導(dǎo)的學(xué)習(xí)。判別分析是用于判斷個(gè)體所屬類別的一種統(tǒng)計(jì)方法。根據(jù)已知觀測(cè)對(duì)象的分類和若干表明觀測(cè)對(duì)象特征的變量值,建立判別函數(shù)和判別準(zhǔn)則,并使其錯(cuò)判率最小,對(duì)于一個(gè)未知分類的樣本,將所測(cè)指標(biāo)代入判別方程,從而判斷它來(lái)
53、自哪個(gè)總體。當(dāng)然,這種準(zhǔn)則在某種意義上是最優(yōu)的,如錯(cuò)判概率最小或錯(cuò)判損失最小等。其前提是總體均值有顯著差異,否則錯(cuò)分率大,判別分析無(wú)意義。例如,我們有了患胃炎的病人和健康人的一些化驗(yàn)指標(biāo),就可以從這些化驗(yàn)指標(biāo)發(fā)現(xiàn)兩類人的區(qū)別,把這種區(qū)別表示為判別公式,然后對(duì)懷疑患胃炎的人就可以根據(jù)其化驗(yàn)指標(biāo)用判別公式診斷。14 / 73SAS部分在SAS系統(tǒng)中沒(méi)有現(xiàn)成的菜單操作,須通過(guò)編程來(lái)實(shí)現(xiàn)判別分析。SAS/STAT模塊中實(shí)現(xiàn)判別分析的過(guò)程有: Discrim ,實(shí)現(xiàn)最基本的判別分析;Candisc ,將判別分析與典型相關(guān)分析相結(jié)合;Stepdisc,逐步判別分析,是一個(gè)變量的篩選過(guò)程。
54、0;(一)DISCRIM過(guò)程的語(yǔ)句說(shuō)明 SAS/STAT的DISCRIM過(guò)程可以使用參數(shù)判別分析方法和非參數(shù)判別分析方法進(jìn)行判別分析。參數(shù)方法假定每個(gè)類的觀測(cè)來(lái)自(多元)正態(tài)分布總體,各類的分布的均值(中心)可以不同。非參數(shù)方法不要求知道各類所來(lái)自總體的分布,它對(duì)每一類使用非參數(shù)方法估計(jì)該類的分布密度,然后據(jù)此建立判別準(zhǔn)則。參數(shù)方法的判別準(zhǔn)則為:先決定是使用合并協(xié)方差陣還是單個(gè)類的協(xié)方差陣,計(jì)算 到各組的廣義距離,把 判入最近的組;或者計(jì)算 屬于各組的后驗(yàn)概率,把 判入后驗(yàn)概率最大的組。SAS/STAT的DISCRIM過(guò)程一般格式如下:
55、 PROC DISCRIM DATA=輸入數(shù)據(jù)集 選項(xiàng); CLASS 分類變量; VAR 判別用自變量集合; RUN; 其中,PROC DISCRIM語(yǔ)句的選項(xiàng)中“輸入數(shù)據(jù)集”為訓(xùn)練數(shù)據(jù)的數(shù)據(jù)集,包括一個(gè)分類變量(在CLASS語(yǔ)句中說(shuō)明)和用來(lái)建立判別公式的自變量集合(在VAR語(yǔ)句中說(shuō)明)??梢杂?“TESTDATA=數(shù)據(jù)
56、集”選項(xiàng)指定一個(gè)檢驗(yàn)數(shù)據(jù)集,檢驗(yàn)數(shù)據(jù)集必須包含與訓(xùn)練數(shù)據(jù)集相同的自變量集合,用訓(xùn)練數(shù)據(jù)集產(chǎn)生判別準(zhǔn)則后將對(duì)檢驗(yàn)數(shù)據(jù)集中的每一個(gè)觀測(cè)給出分類值,如果這個(gè)檢驗(yàn)數(shù)據(jù)集中有表示真實(shí)分類的變量可以在過(guò)程中用“TESTCLASS 分類變量”語(yǔ)句指定,這樣可以檢驗(yàn)判別的效果如何。用“OUTSTAT=數(shù)據(jù)集”指定輸出判別函數(shù)的數(shù)據(jù)集,后面可以再次用DISCRIM過(guò)程把輸出的判別函數(shù)作為輸入數(shù)據(jù)集(DATA=)讀入并用它來(lái)判別檢驗(yàn)數(shù)據(jù)集(TESTDATA=)。用“OUT=數(shù)據(jù)集”指定存放訓(xùn)練樣本及后驗(yàn)概率、交叉確認(rèn)分類的數(shù)據(jù)集。用14 / 73“OUTD=數(shù)據(jù)集”指定訓(xùn)練樣本及組密度估計(jì)數(shù)據(jù)集。用“TESTOU
57、T=數(shù)據(jù)集”指定檢驗(yàn)數(shù)據(jù)的后驗(yàn)概率及分類結(jié)果。用“TESTOUTD=數(shù)據(jù)集”輸出檢驗(yàn)數(shù)據(jù)及組密度估計(jì)。PROC DISCRIM語(yǔ)句還有一些指定判別分析方法的選項(xiàng)。用METHOD=NORMAL或NPAR選擇參數(shù)方法或非參數(shù)方法。用POOL=NO或TEST或YES表示不用合并協(xié)方差陣、通過(guò)檢驗(yàn)決定是否使用合并協(xié)方差陣、用合并協(xié)方差陣。如果使用非參數(shù)方法,需要指定“R=核估計(jì)半徑”選項(xiàng)來(lái)規(guī)定核估計(jì)方法或者指定“K=最近鄰個(gè)數(shù)”來(lái)規(guī)定最近鄰估計(jì)方法。PROC DISCRIM語(yǔ)句有一些規(guī)定顯示結(jié)果的選項(xiàng)。用LISTERR顯示訓(xùn)練樣本錯(cuò)判的觀測(cè)。用CROSSLISTERR顯示用刀切法對(duì)訓(xùn)練樣本判別錯(cuò)判的觀
58、測(cè)。用LIST對(duì)每一觀測(cè)顯示結(jié)果。用NOCLASSIFY取消對(duì)訓(xùn)練樣本的分類檢驗(yàn)。用CROSSLIST顯示對(duì)訓(xùn)練樣本的刀切法的判別結(jié)果。用CROSSVALIDATE要求進(jìn)行交叉核實(shí)。當(dāng)有用“TESTDATA=”指定的檢驗(yàn)數(shù)據(jù)集時(shí)用TESTLIST 選項(xiàng)顯示檢驗(yàn)數(shù)據(jù)集的檢驗(yàn)結(jié)果,當(dāng)有TESTCLASS語(yǔ)句時(shí)用TESTLISTERR可以列出檢驗(yàn)樣本判錯(cuò)的觀測(cè),用POSTERR選項(xiàng)可以打印基于分類結(jié)果的分類準(zhǔn)則的后驗(yàn)概率錯(cuò)誤率估計(jì)。用NOPRINT 選項(xiàng)可以取消結(jié)果的顯示。在DISCRIM過(guò)程中還可以使用PRIORS語(yǔ)句指定先驗(yàn)概率 的取法?!癙RIORS EQUAL”指定先驗(yàn)概率相等?!癙RIOR
59、S PROPORTIONAL”指定先驗(yàn)概率與各類個(gè)數(shù)成正比。“PRIORS 概率值表”可以直接指定各組的先驗(yàn)概率值。(二)例子用衛(wèi)星遙感可以分辨作物的種類。CROPS是訓(xùn)練數(shù)據(jù)集,其中包含了作物的實(shí)際種類(CROP)和四種遙感指標(biāo)變量(X1-X4)。data crops; title '五種作物遙感數(shù)據(jù)的判別分析' input crop $ x1-x4; cards;CORN 16 27 31 33CORN
60、60; 15 23 30 30CORN 16 27 27 26CORN 18 20 25 23CORN 15 15 31 32CORN 15 32 32 15CORN &
61、#160; 12 15 16 73SOYBEANS 20 23 23 25SOYBEANS 24 24 25 32SOYBEANS 21 25 23 24SOYBEANS 27 45 24 1215 / 73SOYBEANS 12 13 15 42SOYBEANS 22 32 31 43COTTON
62、; 31 32 33 34COTTON 29 24 26 28COTTON 34 32 28 45COTTON 26 25 23 24COTTON 53 48 75 26COTTON 34 35 25 78SUGARBEETS 22 23 25 42SUGARBEETS
63、0; 25 25 24 26SUGARBEETS 34 25 16 52SUGARBEETS 54 23 21 54SUGARBEETS 25 43 32 15SUGARBEETS 26 54 2 54CLOVER 12 45 32 54CLOVER 24 58 25 34CLOVER 87 54 61 21CLOVER
64、 51 31 31 16CLOVER 96 48 54 62CLOVER 31 31 11 11CLOVER 56 13 13 71CLOVER 32 13 27 32CLOVER 36 26 54 32CLOVER
65、53 08 06 54CLOVER 32 32 62 16;run;用下列DISCRIM過(guò)程可以產(chǎn)生線性判別函數(shù)(METHOD=NORMAL規(guī)定使用參數(shù)方法,POOL=YES 選項(xiàng)規(guī)定使用合并協(xié)方差陣,這樣產(chǎn)生的判別函數(shù)是線性函數(shù),為系統(tǒng)的默認(rèn)值)。用OUTSTAT=選項(xiàng)指定了判別函數(shù)的輸出數(shù)據(jù)集為CROPSTAT,這個(gè)數(shù)據(jù)集可以用來(lái)判別檢驗(yàn)數(shù)據(jù)集。選項(xiàng)LIST要求列出每個(gè)觀測(cè)的結(jié)果,CROSSVALIDATE要求交叉核實(shí)?!癙RIORS PROPORTIONAL”即按各種類出現(xiàn)的比例計(jì)算各類的先驗(yàn)概率。proc discrim da
66、ta=crops outstat=cropstat method=normal pool=yes list crossvalidate; class crop; priors proportional; var x1-x4; run; 結(jié)果如下(節(jié)略):Discriminant Analysis16 / 73 36 Obse
67、rvations 35 DF Total 4 Variables
68、0; 31 DF Within Classes 5 Classes 4 DF Bet
69、ween Classes 上面是一些數(shù)據(jù)信息基本情況。Class Level Information
70、0; Prior CROP Frequency Weight Proportion &
71、#160; Probability CLOVER 11 11.0000 0.305556 0.305556 CORN &
72、#160; 7 7.0000 0.194444 0.194444 COTTON 6 6.0000&
73、#160; 0.166667 0.166667 SOYBEANS 6 6.0000 0.166667
74、0; 0.166667 SUGARBEETS 6 6.0000 0.166667 0.166667 以上為各組的基本情況,并列出了先驗(yàn)概率值。因?yàn)橹付恕癙RIORS PROPORTIONAL”所以各組的先驗(yàn)概率按實(shí)際數(shù)據(jù)中各組比例計(jì)算。D
75、iscriminant AnalysisPairwise Generalized Squared Distances Between Groups 2 _ _ -1 _
76、;_ D (i|j) = (X i - X j)' COV (X i - X j ) - 2 ln PRIOR j
77、;
78、0; 上面為各組均值間廣義距離平方的公式,即 _
79、; -1 _ -1 _ Constant = -.5 X
80、9; j COV X j + ln PRIOR j Coefficient Vector = COV X j
81、; 上面即線性判別函數(shù)的公式,給出了到第j類的線性判別函數(shù)的常數(shù)項(xiàng)和各自變量的系數(shù)的公
82、式。下面具體給出了各類的線性判別函數(shù)的各常數(shù)項(xiàng)及系數(shù)值。CROP CLOVER CORN COTTON SOYBEANS
83、 SUGARBEET CONSTANT -10.98457 -7.72070 -11.46537 -7.28260 -9.80179 X1
84、60; 0.08907 -0.04180 0.02462 0.0000369 0.04245 X2 0.17379
85、60; 0.11970 0.17596 0.15896 0.20988 X3 0.11899
86、160; 0.16511 0.15880 0.10622 0.06540 X4 0.15637 0.16768
87、; 0.18362 0.14133 0.1640817 / 73比如, CLOVER(苜蓿)類的線性判別函數(shù)就可以用 -10.98457+0.08907*X1+0.17379*X2+0.11899*X3+0.15637*X4 來(lái)計(jì)算。下面為判別分析對(duì)訓(xùn)練數(shù)據(jù)集(Calibration Data)用線性判別函數(shù)的判別結(jié)果,先給出了廣義平方距離函數(shù)的公式Discrimina
88、nt Analysis Classification Results for Calibration Data: WORK.CROPS Resubstitution Results using Linear Discriminant Function
89、 Generalized Squared Distance Function:
90、60; 2 _ -1 _ &
91、#160; D j (X) = (X-X j )' COV (X-X j ) - 2 ln PRIOR j
92、60;
93、160; 然后是每個(gè)觀測(cè)屬于各類的后驗(yàn)概率的公式: Posterior P
94、robability of Membership in each CROP:
95、60;
96、60; Pr(j|X) = exp(-.5 D2 j (X) / SUM k exp(-.5 D2 k (X)
97、;
98、; 下面就是每個(gè)觀測(cè)的判別情況,包括原來(lái)屬于哪一類(From CROP),分入了哪一類(Classified into CROP),以及屬于各類的后驗(yàn)概率值。有星號(hào)的為錯(cuò)判的觀測(cè)。 Posterior Pr
99、obability of Membership in From Classified
100、 CROP into CROP
101、60; CLOVER CORN COTTON SOYBEANS SUGARBEETS 16 27 31 33 CORN CORN
102、160; 0.0894 0.4054 0.1763 0.2392 0.0897 15 23 30 30 CORN CORN
103、; 0.0769 0.4558 0.1421 0.2530 0.0722 16 27 27 26 CORN CORN
104、160; 0.0982 0.3422 0.1365 0.3073 0.1157 18 20 25 23 CORN COR
105、N 0.1052 0.3634 0.1078 0.3281 0.0955 15 15 31 32 CORN &
106、#160; CORN 0.0588 0.5754 0.1173 0.2087 0.0398 15 32 32 15 CORN
107、0; SOYBEANS * 0.0972 0.3278 0.1318 0.3420 0.1011 12 15 16 73 CORN &
108、#160; CORN 0.0454 0.5238 0.1849 0.1376 0.1083 20 23 23 25 SOYBEANS
109、 SOYBEANS 0.1330 0.2804 0.1176 0.3305 0.1385 24 24 25 32 SOYBEANS SOYBEANS
110、0; 0.1768 0.2483 0.1586 0.2660 0.1502 21 25 23 24 SOYBEANS SOYBEANS
111、; 0.1481 0.2431 0.1200 0.3318 0.1570 27 45 24 12 SOYBEANS SUGARBEETS * 0.2357 &
112、#160; 0.0547 0.1016 0.2721 0.3359 12 13 15 42 SOYBEANS CORN * 0.0549 0.4
113、749 0.0920 0.2768 0.1013 22 32 31 43 SOYBEANS COTTON * 0.1474 0.2606
114、0; 0.2624 0.1848 0.1448 31 32 33 34 COTTON CLOVER * 0.2815 0.1518 0.2377
115、 0.1767 0.1523 29 24 26 28 COTTON SOYBEANS * 0.2521 0.1842 0.1529 &
116、#160; 0.2549 0.1559 34 32 28 45 COTTON CLOVER * 0.3125 0.1023 0.2404 0.1357 0.2091 18 / 73 26 25 23 24 COTTON
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 威海海洋職業(yè)學(xué)院《認(rèn)知心理學(xué)基礎(chǔ)》2023-2024學(xué)年第一學(xué)期期末試卷
- 冷鏈倉(cāng)庫(kù)儲(chǔ)存合同范例
- 2025煤炭海上運(yùn)輸買(mǎi)賣(mài)合同范本
- 廢棄油脂收購(gòu)合同范例
- 瓷買(mǎi)賣(mài)合同范例
- 定金合同過(guò)戶合同范例
- 廣東建設(shè)工程勘察合同范例
- 經(jīng)營(yíng)資質(zhì)合同范例
- 印刷費(fèi)用合同范例
- 景觀雕塑服務(wù)合同范例
- Unit 2 Different families(教學(xué)設(shè)計(jì))-2024-2025學(xué)年人教PEP版英語(yǔ)三年級(jí)上冊(cè)
- 西師大版五年級(jí)上冊(cè)小數(shù)混合運(yùn)算題100道及答案
- 2022年7月國(guó)家開(kāi)放大學(xué)本科《中國(guó)法律史》期末紙質(zhì)考試試題及答案
- 行政文秘筆試題
- 2024年部門(mén)年終工作總結(jié)參考(四篇)
- 主題四 第1課 節(jié)氣與我們的生活(教學(xué)設(shè)計(jì))教科版五年級(jí)下冊(cè)綜合實(shí)踐活動(dòng)
- 二年級(jí)數(shù)學(xué)上冊(cè)口算天天練
- 肯耐珂薩題庫(kù)
- 2024國(guó)家開(kāi)放大學(xué)電大本科《液壓氣動(dòng)技術(shù)》期末試題及答案
- 冷凝集素綜合征治療與護(hù)理研究進(jìn)展
- 商務(wù)服務(wù)機(jī)器人技術(shù)現(xiàn)狀與未來(lái)發(fā)展趨勢(shì)研究
評(píng)論
0/150
提交評(píng)論