多元統(tǒng)計(jì)分析》實(shí)驗(yàn)教學(xué)上機(jī)指導(dǎo)書(shū)_第1頁(yè)
多元統(tǒng)計(jì)分析》實(shí)驗(yàn)教學(xué)上機(jī)指導(dǎo)書(shū)_第2頁(yè)
多元統(tǒng)計(jì)分析》實(shí)驗(yàn)教學(xué)上機(jī)指導(dǎo)書(shū)_第3頁(yè)
多元統(tǒng)計(jì)分析》實(shí)驗(yàn)教學(xué)上機(jī)指導(dǎo)書(shū)_第4頁(yè)
多元統(tǒng)計(jì)分析》實(shí)驗(yàn)教學(xué)上機(jī)指導(dǎo)書(shū)_第5頁(yè)
已閱讀5頁(yè),還剩75頁(yè)未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、      多元統(tǒng)計(jì)分析實(shí)驗(yàn)教學(xué)上機(jī)指導(dǎo)書(shū)          數(shù)學(xué)與統(tǒng)計(jì)學(xué)學(xué)院信息與計(jì)算科學(xué)教研室1 / 73 第一章   聚類分析 一、實(shí)驗(yàn)?zāi)康呐c要求1.通過(guò)上機(jī)操作使學(xué)生掌握系統(tǒng)聚類分析方法在SAS和SPSS軟件中的實(shí)現(xiàn),熟悉系統(tǒng)聚類的用途和操作方法,了解各種距離,能按要求將樣本進(jìn)行分類;2.要求學(xué)生重點(diǎn)掌握該方法的用途,能正確解釋軟件處理的結(jié)果,尤其是冰柱圖和樹(shù)形圖結(jié)果的解釋;3.要求學(xué)生閱讀一定數(shù)量

2、的文獻(xiàn)資料,掌握系統(tǒng)聚類分析方法在寫(xiě)作中的應(yīng)用。 二、實(shí)驗(yàn)內(nèi)容與步驟SAS部分(一)SAS程序語(yǔ)言簡(jiǎn)介SAS系統(tǒng)強(qiáng)大的數(shù)據(jù)管理能力、計(jì)算能力、分析能力依賴于作為其基礎(chǔ)的SAS語(yǔ)言。SAS語(yǔ)言是一個(gè)專用的數(shù)據(jù)管理與分析語(yǔ)言,它的數(shù)據(jù)管理功能類似于數(shù)據(jù)庫(kù)語(yǔ)言(如FoxPro),但又添加了一般高級(jí)程序設(shè)計(jì)語(yǔ)言的許多成分(如分支、循環(huán)、數(shù)組),以及專用于數(shù)據(jù)管理、統(tǒng)計(jì)計(jì)算的函數(shù)。SAS系統(tǒng)的數(shù)據(jù)管理、報(bào)表、圖形、統(tǒng)計(jì)分析等功能都可以用SAS語(yǔ)言程序來(lái)調(diào)用,只要指定要完成的任務(wù)就可以由SAS系統(tǒng)按照預(yù)先設(shè)計(jì)好的程序去進(jìn)行,所以SAS 語(yǔ)言和FoxPro等一樣是一種第四代計(jì)算機(jī)語(yǔ)言。SAS語(yǔ)言有

3、它自己的對(duì)變量、常量、表達(dá)式的一系列規(guī)定,有一系列標(biāo)準(zhǔn)函數(shù),有它自己的語(yǔ)句、語(yǔ)法,可以按一定規(guī)則構(gòu)成SAS程序。SAS語(yǔ)言程序由數(shù)據(jù)步(DATA步)和過(guò)程步(PROC步)組成。數(shù)據(jù)步用來(lái)生成數(shù)據(jù)集、計(jì)算、整理數(shù)據(jù),過(guò)程步用來(lái)對(duì)數(shù)據(jù)進(jìn)行分析、報(bào)告。SAS語(yǔ)言的基本單位是語(yǔ)句,每個(gè)SAS語(yǔ)句一般由一個(gè)關(guān)鍵字(如DATA,PROC,INPUT,CARDS,BY)開(kāi)頭,包含SAS名字、特殊字符、運(yùn)算符等,以分號(hào)結(jié)束。SAS關(guān)鍵字是用于SAS語(yǔ)句開(kāi)頭的特殊單詞。SAS名字在SAS程序中標(biāo)識(shí)各種SAS成分,如變量、數(shù)據(jù)集、數(shù)據(jù)庫(kù),等等。SAS 名字由1到8個(gè)字母、數(shù)字、下劃線組成,第一個(gè)字符必須是字母或下

4、劃線。SAS關(guān)鍵字和SAS 名字都不區(qū)分大小寫(xiě)。語(yǔ)句關(guān)鍵字用大寫(xiě)或小寫(xiě)方式都可以,但不可簡(jiǎn)化,必須原樣照寫(xiě)。SAS程序由語(yǔ)句構(gòu)成。一個(gè)SAS語(yǔ)句可以占若干行,可以從任意一列開(kāi)始,但必須在語(yǔ)句結(jié)束處加分號(hào),因?yàn)镾AS系統(tǒng)是根據(jù)分號(hào)判斷哪些文字屬于一個(gè)語(yǔ)句的,因此在一行上可以寫(xiě)幾個(gè)SAS語(yǔ)句,只要每個(gè)語(yǔ)句都用分號(hào)結(jié)束(最常見(jiàn)的SAS編程錯(cuò)誤就是丟失分號(hào))。因?yàn)榉痔?hào)作為語(yǔ)句結(jié)束標(biāo)志,所以SAS語(yǔ)句不需要單獨(dú)占一行,一個(gè)語(yǔ)句可以寫(xiě)到多行(不需任何續(xù)行標(biāo)志),也可以在一行連續(xù)寫(xiě)幾個(gè)語(yǔ)句。SAS語(yǔ)言中只要允許用一個(gè)空格的地方就可以加入任意多個(gè)空白(空格、制表符、回車(chē)),允許用空格的地方是名字周?chē)?、運(yùn)算符周

5、圍。比如,程序3 / 73proc print        data=c9501;    by              avg; run;和proc print data=c9501;by avg;run; 是等效的。另外,雖然SAS關(guān)鍵字和SAS名字不區(qū)分大小寫(xiě),但字符型數(shù)據(jù)值要區(qū)分大小寫(xiě),比如"Beijing" 和&qu

6、ot;BEIJING"被認(rèn)為是不同的數(shù)據(jù)值。在SAS程序中可以加入注釋,注釋使用C語(yǔ)言語(yǔ)法,用/*和*/在兩端界定注釋,這種注釋可以出現(xiàn)在任何允許加入空格的位置,可以占多行。我們一般只把注釋單獨(dú)占一行或若干行,不把注釋與程序代碼放在同一行。注釋的另一個(gè)作用是把某些代碼暫時(shí)屏蔽使其不能運(yùn)行。下面是一個(gè)注釋的例子:/* 生成95級(jí)1班考試成績(jī)的數(shù)據(jù)集 */data c9501;SAS程序包括數(shù)據(jù)步和過(guò)程步兩種結(jié)構(gòu),每一個(gè)步是一段相對(duì)完整的可以單獨(dú)運(yùn)行的程序。每個(gè)步以RUN語(yǔ)句結(jié)束。當(dāng)一個(gè)步后面跟著另一個(gè)步時(shí),前面一個(gè)步的RUN語(yǔ)句可以省略。一個(gè)DATA步后面可以跟幾個(gè)PROC步,也可以若

7、干個(gè)DATA步后面跟幾個(gè)PROC步;或以PROC步打頭,后面跟若干個(gè)DATA步,再跟PROC步,程序中的每個(gè)步都是相應(yīng)獨(dú)立的,彼此不能交叉,不能嵌套。數(shù)據(jù)步用來(lái)生成、整理數(shù)據(jù)和自編程計(jì)算,過(guò)程步調(diào)用SAS已編好的處理過(guò)程對(duì)數(shù)據(jù)進(jìn)行處理。我們自己用SAS編程序?qū)崿F(xiàn)各多元統(tǒng)計(jì)分析方法主要用到過(guò)程步。在本課的學(xué)習(xí)過(guò)程中,主要采用調(diào)用已有數(shù)據(jù)集的方式,因此程序的重點(diǎn)在PROC步上,要分析的數(shù)據(jù)集只要在選擇項(xiàng)DATA=中指明即可。最簡(jiǎn)單的PROC步只有一個(gè)PROC語(yǔ)句,即:PROC 過(guò)程名;該語(yǔ)句調(diào)用指定的過(guò)程分析在該語(yǔ)句之前最近建立的數(shù)據(jù)集。在調(diào)用時(shí)的其他要求全部采用SAS系統(tǒng)設(shè)置的缺省值。PROC語(yǔ)

8、句的一般格式為:PROC  過(guò)程名 選擇項(xiàng);(二)用CLUSTER過(guò)程和TREE過(guò)程進(jìn)行譜系聚類3 / 73聚類分析又稱群分析、點(diǎn)群分析,是定量研究分類問(wèn)題的一種多元統(tǒng)計(jì)方法。聚類分析的基本思想是認(rèn)為所研究的樣品或指標(biāo)之間存在著程度不同的相似性,于是根據(jù)一批樣品的多個(gè)觀測(cè)指標(biāo),找出能夠度量樣品或變量之間相似程度的統(tǒng)計(jì)量,并以此為依據(jù),采用某種聚類法,將所有的樣品或變量分別聚合到不同的類中,使同一類中的個(gè)體有較大的相似性,不同類中的個(gè)體差異較大。所以,聚類分析依賴于對(duì)觀測(cè)間的接近程度(距離)或相似程度的理解,定義不同的距離量度和相似性量度就可以產(chǎn)生不同的聚類結(jié)果。SAS/STAT模塊中

9、提供了譜系聚類(CLUSTER)、快速聚類(FASTCLUS)、變量聚類(VARCLUS)等聚類過(guò)程。我們重點(diǎn)要求掌握譜系聚類法。譜系聚類是一種逐次合并類的方法,最后得到一個(gè)聚類的二叉樹(shù)聚類圖。其基本計(jì)算過(guò)程是,對(duì)于n個(gè)觀測(cè),先計(jì)算其兩兩的距離得到一個(gè)距離矩陣,然后把離得最近的兩個(gè)觀測(cè)合并為一類,于是我們現(xiàn)在只剩了n-1 個(gè)類(每個(gè)單獨(dú)的未合并的觀測(cè)作為一個(gè)類)。計(jì)算這 n-1個(gè)類兩兩之間的距離,找到離得最近的兩個(gè)類將其合并,就只剩下了 n-2個(gè)類直到剩下兩個(gè)類,把它們合并為一個(gè)類為止。當(dāng)然,真的合并成一個(gè)類就失去了聚類的意義,所以上面的聚類過(guò)程應(yīng)該在某個(gè)類水平數(shù)(即未合并的類數(shù))停下來(lái),最終

10、的類數(shù)就是這些未合并的類的個(gè)數(shù)。決定聚類個(gè)數(shù)是一個(gè)很復(fù)雜的問(wèn)題。1.譜系聚類類數(shù)的確定譜系聚類最終得到一個(gè)聚類樹(shù)形圖,可以把所有觀測(cè)聚為一類。到底應(yīng)該把觀測(cè)分為幾類合適是一個(gè)比較難抉擇的問(wèn)題,因?yàn)榉诸悊?wèn)題本身就是沒(méi)有一定標(biāo)準(zhǔn)的,關(guān)于這一點(diǎn)實(shí)用多元統(tǒng)計(jì)分析(王學(xué)仁、王松桂,上??萍汲霭嫔纾┑谑陆o出了一個(gè)很好的例子,即撲克牌的分類。我們可以把撲克牌按花色分類,按大小點(diǎn)分類,按橋牌的高花色低花色分類,等等。決定類數(shù)的一些方法來(lái)自于統(tǒng)計(jì)的方差分析的思想,我們?cè)谶@里作一些介紹。(1)統(tǒng)計(jì)量其中 為分類數(shù)為 個(gè)類時(shí)的總類內(nèi)離差平方和, 為所有變量的總離差平方和。 越大,說(shuō)明分為 個(gè)類時(shí)每個(gè)類內(nèi)的離差平方

11、和都比較小,也就是分為 個(gè)類是合適的。但是,顯然分類越多,每個(gè)類越小, 越大,所以我們只能取 使得 足夠大,但 本身比較小,而且 不再大幅度增加。 (2)半偏相關(guān)4 / 73在把類 和類 合并為下一水平的類 時(shí),定義半偏相關(guān) 半偏其中 為合并類引起的類內(nèi)離差平方和的增量,半偏相關(guān)越大,說(shuō)明這兩個(gè)類越不應(yīng)該合并,所以如果由 類合并為 類時(shí)如果半偏相關(guān)很大就應(yīng)該取 類。 (3)偽F統(tǒng)計(jì)量偽F統(tǒng)計(jì)量評(píng)價(jià)分為 個(gè)類的效果。如果分為 個(gè)類合理,則類內(nèi)離差平方和(分母)應(yīng)該較小,類間平方和(分子)相對(duì)較大。所以應(yīng)該取偽F統(tǒng)計(jì)量較大而類數(shù)較小的聚類水平。 (4)偽 統(tǒng)

12、計(jì)量用此統(tǒng)計(jì)量評(píng)價(jià)合并類 和類 的效果,該值大說(shuō)明不應(yīng)合并這兩個(gè)類,所以應(yīng)該取合并前的水平。2.CLUSTER過(guò)程用法 由于在SAS系統(tǒng)中聚類分析過(guò)程沒(méi)有現(xiàn)成的窗口操作,所以實(shí)現(xiàn)聚類分析必須編寫(xiě)SAS程序。SAS/STAT模塊中的Cluster過(guò)程可實(shí)現(xiàn)系統(tǒng)聚類分析,可調(diào)用Tree過(guò)程生成聚類譜系圖。CLUSTER過(guò)程的一般格式為: PROC CLUSTER DATA=輸入數(shù)據(jù)集 METHOD=聚類方法  選項(xiàng);VAR 聚類用變量;COPY 復(fù)制變量;RUN; 其中的VAR語(yǔ)句指定用來(lái)聚類的變量。COPY語(yǔ)句把指定的變量復(fù)制到OUTTREE的數(shù)據(jù)集中。 PROC CLUST

13、ER語(yǔ)句的主要選項(xiàng)有: 5 / 73(1)METHOD=選項(xiàng),這是必須指定的,此選項(xiàng)決定我們要用的聚類方法,主要由類間距離定義決定。方法有AVERAGE、CENTROID、COMPLETE、SINGLE、DENSITY、WARD、EML、FLEXIBLE、MCQUITTY 、MEDIAN、TWOSTAGE等,其中DENSITY、TWOSTAGE等方法還要額外指定密度估計(jì)方法(K=、R= 或HYBRID)。 (2)DATA輸入數(shù)據(jù)集,可以是原始觀測(cè)數(shù)據(jù)集,也可以是距離矩陣數(shù)據(jù)集。 (3)OUTTREE=輸出數(shù)據(jù)集,把繪制譜系聚類樹(shù)的信息輸出到一個(gè)數(shù)據(jù)集,可以用TREE過(guò)程調(diào)用此數(shù)據(jù)集繪圖樹(shù)形圖并

14、實(shí)際分類。 (4)STANDARD選項(xiàng),把變量標(biāo)準(zhǔn)化為均值為0,標(biāo)準(zhǔn)差為1。 (5)PSEUDO選項(xiàng)和CCC選項(xiàng)。PSEUDO選項(xiàng)要求計(jì)算偽F和偽 統(tǒng)計(jì)量,CCC選項(xiàng)要求計(jì)算 、半偏 和CCC統(tǒng)計(jì)量。其中CCC統(tǒng)計(jì)量也是一種考察聚類效果的統(tǒng)計(jì)量,CCC較大的聚類水平是較好的。 3.TREE過(guò)程用法TREE過(guò)程可以把CLUSTER過(guò)程產(chǎn)生的OUTTREE數(shù)據(jù)集作為輸入數(shù)據(jù)集,畫(huà)出譜系聚類的樹(shù)形圖,并按照用戶指定的聚類水平(類數(shù))產(chǎn)生分類結(jié)果數(shù)據(jù)集。其一般格式如下:     PROC TREE DATA數(shù)據(jù)集 OUT=輸出數(shù)據(jù)集  NCLUSTER

15、=類數(shù) 選項(xiàng);    COPY 復(fù)制變量;    RUN;其中COPY語(yǔ)句把輸入數(shù)據(jù)集中的變量復(fù)制到輸出數(shù)據(jù)集(實(shí)際上這些變量也必須在CLUSTER 過(guò)程中用COPY語(yǔ)句復(fù)制到OUTTREE數(shù)據(jù)集)。PROC TREE語(yǔ)句的重要選項(xiàng)有:(1)DATA數(shù)據(jù)集,指定從CLUSTER過(guò)程生成的OUTTREE數(shù)據(jù)集作為輸入數(shù)據(jù)集。 (2)OUT數(shù)據(jù)集,指定包含最后分類結(jié)果(每一個(gè)觀測(cè)屬于哪一類,用一個(gè)CLUSTER變量區(qū)分)的輸出數(shù)據(jù)集。 (3)NCLUSTERS選項(xiàng),由用戶指定最后把樣本觀測(cè)分為多少個(gè)類(即聚類水平)。 (4)HORIZON

16、TAL,畫(huà)樹(shù)形圖時(shí)沿水平方向畫(huà),即繪制水平方向的樹(shù)形圖,系統(tǒng)默認(rèn)繪制垂直方向的樹(shù)形圖。4.例子我們以多元統(tǒng)計(jì)分析中一個(gè)經(jīng)典的數(shù)據(jù)作為例子,這是Fisher分析過(guò)的鳶尾花數(shù)據(jù),有三種不同鳶尾花(Setosa、Versicolor、Virginica),種類信息存入了變量SPECIES,并對(duì)每一種測(cè)量了50棵植株的花瓣長(zhǎng)(PETALLEN)、花瓣寬(PETALWID)、花萼長(zhǎng)(SEPALLEN)、花萼寬(SEPALWID)。這個(gè)數(shù)據(jù)已知分類,并不屬于聚類分析的研究范圍。這里我們?yōu)榱耸纠?,假裝不知道樣本的分類情況(既不知道類數(shù)也不知道每一個(gè)觀測(cè)屬于的類別),用SAS去進(jìn)行聚類分析,如果得到的類數(shù)和分

17、類結(jié)果符合真實(shí)的植物分類,我們就可以知道聚類分析產(chǎn)生了好的結(jié)果。7 / 73這里我們假定數(shù)據(jù)已輸入SASUSER.IRIS中(見(jiàn)系統(tǒng)幫助菜單的“Sample Programs | SAS/STAT | Documentation Example 3 from Proc Cluster”)。為了進(jìn)行譜系聚類并產(chǎn)生幫助確定類數(shù)的統(tǒng)計(jì)量,編寫(xiě)如下程序:proc cluster data=sasuser.iris method=ward outtree=otree pseudo ccc;var petallen petalwid sepallen sepalwid;copy species;run;&

18、#160;可以顯示如下的聚類過(guò)程(節(jié)略):·                                              &#

19、160;                                    T  ·            

20、;                                                  

21、;       Pseudo Pseudo i  NCL -Clusters Joined-   FREQ   SPRSQ    RSQ     ERSQ      CCC     F     t*2  e      &

22、#160;                                                 &

23、#160;                        149   OB16     OB76       2   0.000000 1.0000  .    

24、0;     .        .      .     148   OB2      OB58       2   0.000007 1.0000  .       &

25、#160;  .    1854.1     .   T147   OB96     OB107      2   0.000007 1.0000  .          .    1400.1    

26、; .   T  146   OB89     OB113      2   0.000007 1.0000  .          .    1253.1     .   T  145   OB65 

27、0;   OB126      2   0.000007 1.0000  .          .    1182.9     .   T  25    CL50     OB57     

28、  7   0.000634 0.9824 0.973335   6.446  291.0    5.6 24    CL78     CL62       7   0.000742 0.9817 0.972254   6.430  293.5    9.8 23    

29、;CL68     CL38       9   0.000805 0.9809 0.971101   6.404  296.0    6.9 22    CL30     OB137      6   0.000896 0.9800 0.969868   6

30、.352  298.3    5.1  21    CL70     CL33       4   0.000976 0.9790 0.968545   6.290  300.7    3.2 20    CL36     OB25   &

31、#160;   10  0.001087 0.9779 0.967119   6.206  302.9    9.8  19    CL40     CL22       19  0.001141 0.9768 0.965579   6.146  306.1    7.7  18 

32、0;  CL25     CL39       10  0.001249 0.9755 0.963906   6.082  309.5    6.2  17    CL29     CL45       16  0.001351 0.9742 0.962081

33、   6.026  313.5    8.2  16    CL34     CL32       15  0.001462 0.9727 0.960079   5.984  318.4    9.0  15    CL24     CL28

34、0;      15  0.001641 0.9711 0.957871   5.929  323.7    9.8  14    CL21     CL53       7   0.001873 0.9692 0.955418   5.850  329.2  

35、0; 5.1 13    CL18     CL48       15  0.002271 0.9669 0.952670   5.690  333.8    8.9  7 / 7312    CL16     CL23       24  0.00

36、2274 0.9647 0.949541   4.632  342.4    9.6  11    CL14     CL43       12  0.002500 0.9622 0.945886   4.675  353.3    5.8  10    CL26  &

37、#160;  CL20       22  0.002694 0.9595 0.941547   4.811  368.1   12.9   9     CL27     CL17       31  0.003060 0.9564 0.936296   5.018 

38、386.6   17.8  8     CL35     CL15       23  0.003095 0.9533 0.929791   5.443  414.1   13.8  7     CL10     CL47     

39、;  26  0.005811 0.9475 0.921496   5.426  430.1   19.1  6     CL8      CL13       38  0.006042 0.9414 0.910514   5.806  463.1   16.3  5   

40、60; CL9      CL19       50  0.010532 0.9309 0.895232   5.817  488.5   43.2  4     CL12     CL11       36  0.017245 0.9137 0.872331

41、   3.987  515.1   41.0  3     CL6      CL7        64  0.030051 0.8836 0.826664   4.329  558.1   57.2  2     CL4    

42、  CL3        100 0.111026 0.7726 0.696871   3.833  502.8  115.6  1     CL5      CL2        150 0.772595 0.0000 0.000000   0.000   

43、  .   502.8偽F圖形 CCC圖形 8 / 73偽圖形 半偏圖形 9 / 73輸出結(jié)果列出了把150個(gè)觀測(cè)每次合并兩類,共合并149次的過(guò)程。NCL列指定了聚類水平G (即這一步存在的單獨(dú)的類數(shù))。“-Clusters Joined-”為兩列,指明這一步合并了哪兩個(gè)類。其中OBxxx表示原始觀測(cè),而CLxxx表示在某一個(gè)聚類水平上產(chǎn)生的類。比如,NCL為149時(shí)合并的是OB16和OB76,即16 號(hào)觀測(cè)和76號(hào)觀測(cè)合并;NCL為1(最后一次合并)合并的是CL5和CL2,即類水平為5時(shí)得到的類和類水平為2時(shí)得到的類合并,CL5又是由CL9和CL19合并得到的

44、,CL2是由CL4和CL3合并得到的,等等。FREQ表示這次合并得到的類中有多少個(gè)觀測(cè)。SPRSQ是半偏 ,RSQ是 ,ERSQ是在均勻零假設(shè)下的 的近似期望值,CCC為CCC統(tǒng)計(jì)量,Pseudo F 為偽F統(tǒng)計(jì)量,Pseudo t*2為偽 統(tǒng)計(jì)量,Norm RMS Dist是正規(guī)化的兩類元素間距離的均方根,Tie指示距離最小的候選類對(duì)是否有多對(duì)。因?yàn)槲覀兗傺b不知道數(shù)據(jù)的實(shí)際分類情況,所以我們必須找到一個(gè)合理的分類個(gè)數(shù)。為此,考察CCC、偽F、偽 和半偏 統(tǒng)計(jì)量。我們打開(kāi)ASSIST模塊,調(diào)入上面產(chǎn)生的OTREE數(shù)據(jù)集,繪制各統(tǒng)計(jì)量的圖形。因?yàn)轭愃教髸r(shí)的信息沒(méi)有多少用處,所以我們用WHER

45、E語(yǔ)句對(duì)OTREE數(shù)據(jù)集取其類水平不超過(guò)30的觀測(cè)。各統(tǒng)計(jì)量的圖形顯示:CCC統(tǒng)計(jì)量建議取5類或3類(局部最大值),偽F建議3類(局部最大值),偽 建議3類(局部最大值處是不應(yīng)合并的,即局部最大值處的類數(shù)加1),半偏 11 / 73建議3類。由這些指標(biāo)看,比較一致的是3類,其次是5類。為了看為什么不能明顯地分為三類,我們對(duì)四個(gè)變量求主分量,畫(huà)出前兩個(gè)主分量的散點(diǎn)圖??梢钥闯鯯etosa(紅色)與其它兩類分得很開(kāi),而Versicolor(綠色)與Virginica(藍(lán)色)則不易分開(kāi)。      因?yàn)槲覀冎酪殖?類,所以我們用如下的TREE過(guò)程

46、繪制樹(shù)形圖并產(chǎn)生分類結(jié)果數(shù)據(jù)集: proc tree data=otree horizontal nclusters=3 out=oclust;copy species;run;11 / 73樹(shù)形圖因?yàn)橛^測(cè)過(guò)多所以顯得雜亂。從圖中也可以看出,分為兩類可以分得很開(kāi),而分成三類時(shí)距離則不夠遠(yuǎn)。這個(gè)TREE過(guò)程用NCLUSTERS=3指定了分成3個(gè)類,結(jié)果數(shù)據(jù)集OCLUST中有一個(gè)CLUSTER變量代表生成的分類。我們把這個(gè)數(shù)據(jù)集調(diào)入ASSIST模塊中用不同顏色代表SPECIES(實(shí)際種類),用不同符號(hào)代表不同聚類過(guò)程分類,作前兩個(gè)主分量散點(diǎn)圖??梢钥闯?, Virsicolor和Virgi

47、nica兩類互相都有分錯(cuò)為對(duì)方的。 為了統(tǒng)計(jì)分類結(jié)果,可以用ASSIST模塊FREQ過(guò)程作表,得到如下結(jié)果: SPECIES(Species)     CLUSTER Frequency  |       1|       2|       3|  Total-+-+-+-+Setosa     |

48、      0 |      0 |     50 |     50-+-+-+-+Versicolor |     49 |      1 |      0 |     50-+-+-+-+Virginica  | &

49、#160;   15 |     35 |      0 |     50-+-+-+-+Total            64       36       50    

50、0; 150可見(jiàn)Virginica被分錯(cuò)的較多。 同學(xué)們可以自己試用其它的類間距離來(lái)聚類,可以得到不同的結(jié)果。SPSS部分12 / 73系統(tǒng)聚類分析在SPSS中的實(shí)現(xiàn)較為簡(jiǎn)單,因?yàn)橛鞋F(xiàn)成的窗口菜單操作,在SPSS主菜單中選擇AnalyzeClassifyHierarchical  Cluster,可實(shí)現(xiàn)系統(tǒng)聚類分析。SPSS軟件處理結(jié)果的解釋可參見(jiàn)SAS部分的相關(guān)內(nèi)容,所不同的是在SPSS的結(jié)果中,聚類進(jìn)度表中以0表示參與合并的是觀測(cè),以數(shù)字表示參與合并的是類,作為類出現(xiàn)時(shí)用類中較小的觀測(cè)號(hào)來(lái)表示。 聚類分析在寫(xiě)作中的應(yīng)用     從

51、“中國(guó)期刊網(wǎng)”上查閱相關(guān)文章,如“中國(guó)城市競(jìng)爭(zhēng)力聚類分析”等,掌握聚類分析在寫(xiě)作中的應(yīng)用。            第二章  判別分析    一、實(shí)驗(yàn)?zāi)康呐c要求1.通過(guò)上機(jī)操作使學(xué)生掌握判別分析方法在SAS和SPSS軟件中的實(shí)現(xiàn),了解判別方法的分類、適用條件和結(jié)果驗(yàn)證方法;2.要求學(xué)生熟悉判別分析的用途和操作,重點(diǎn)掌握對(duì)軟件處理結(jié)果的解釋(區(qū)域圖、未標(biāo)準(zhǔn)化典型判別函數(shù)、Bayes判別函數(shù))和如何使用分析結(jié)果對(duì)新樣品進(jìn)行分類; &

52、#160;  3.要求學(xué)生閱讀一定數(shù)量的文獻(xiàn)資料,掌握判別分析方法在寫(xiě)作中的應(yīng)用。二、實(shí)驗(yàn)內(nèi)容與步驟判別分析和聚類分析有相似的作用,都是起到分類的作用。但是,判別分析是已知分類然后總結(jié)出判別準(zhǔn)則,是一種有指導(dǎo)的學(xué)習(xí);而聚類分析則是有了一批樣本,不知道它們的分類,甚至連分成幾類也不知道,希望用某種方法把觀測(cè)進(jìn)行合理的分類,使得同一類的觀測(cè)比較接近,不同類的觀測(cè)相差較多,這是無(wú)指導(dǎo)的學(xué)習(xí)。判別分析是用于判斷個(gè)體所屬類別的一種統(tǒng)計(jì)方法。根據(jù)已知觀測(cè)對(duì)象的分類和若干表明觀測(cè)對(duì)象特征的變量值,建立判別函數(shù)和判別準(zhǔn)則,并使其錯(cuò)判率最小,對(duì)于一個(gè)未知分類的樣本,將所測(cè)指標(biāo)代入判別方程,從而判斷它來(lái)

53、自哪個(gè)總體。當(dāng)然,這種準(zhǔn)則在某種意義上是最優(yōu)的,如錯(cuò)判概率最小或錯(cuò)判損失最小等。其前提是總體均值有顯著差異,否則錯(cuò)分率大,判別分析無(wú)意義。例如,我們有了患胃炎的病人和健康人的一些化驗(yàn)指標(biāo),就可以從這些化驗(yàn)指標(biāo)發(fā)現(xiàn)兩類人的區(qū)別,把這種區(qū)別表示為判別公式,然后對(duì)懷疑患胃炎的人就可以根據(jù)其化驗(yàn)指標(biāo)用判別公式診斷。14 / 73SAS部分在SAS系統(tǒng)中沒(méi)有現(xiàn)成的菜單操作,須通過(guò)編程來(lái)實(shí)現(xiàn)判別分析。SAS/STAT模塊中實(shí)現(xiàn)判別分析的過(guò)程有: Discrim ,實(shí)現(xiàn)最基本的判別分析;Candisc ,將判別分析與典型相關(guān)分析相結(jié)合;Stepdisc,逐步判別分析,是一個(gè)變量的篩選過(guò)程。

54、0;(一)DISCRIM過(guò)程的語(yǔ)句說(shuō)明 SAS/STAT的DISCRIM過(guò)程可以使用參數(shù)判別分析方法和非參數(shù)判別分析方法進(jìn)行判別分析。參數(shù)方法假定每個(gè)類的觀測(cè)來(lái)自(多元)正態(tài)分布總體,各類的分布的均值(中心)可以不同。非參數(shù)方法不要求知道各類所來(lái)自總體的分布,它對(duì)每一類使用非參數(shù)方法估計(jì)該類的分布密度,然后據(jù)此建立判別準(zhǔn)則。參數(shù)方法的判別準(zhǔn)則為:先決定是使用合并協(xié)方差陣還是單個(gè)類的協(xié)方差陣,計(jì)算 到各組的廣義距離,把 判入最近的組;或者計(jì)算 屬于各組的后驗(yàn)概率,把 判入后驗(yàn)概率最大的組。SAS/STAT的DISCRIM過(guò)程一般格式如下:    

55、 PROC DISCRIM DATA=輸入數(shù)據(jù)集 選項(xiàng);    CLASS 分類變量;    VAR 判別用自變量集合;    RUN;               其中,PROC DISCRIM語(yǔ)句的選項(xiàng)中“輸入數(shù)據(jù)集”為訓(xùn)練數(shù)據(jù)的數(shù)據(jù)集,包括一個(gè)分類變量(在CLASS語(yǔ)句中說(shuō)明)和用來(lái)建立判別公式的自變量集合(在VAR語(yǔ)句中說(shuō)明)??梢杂?“TESTDATA=數(shù)據(jù)

56、集”選項(xiàng)指定一個(gè)檢驗(yàn)數(shù)據(jù)集,檢驗(yàn)數(shù)據(jù)集必須包含與訓(xùn)練數(shù)據(jù)集相同的自變量集合,用訓(xùn)練數(shù)據(jù)集產(chǎn)生判別準(zhǔn)則后將對(duì)檢驗(yàn)數(shù)據(jù)集中的每一個(gè)觀測(cè)給出分類值,如果這個(gè)檢驗(yàn)數(shù)據(jù)集中有表示真實(shí)分類的變量可以在過(guò)程中用“TESTCLASS 分類變量”語(yǔ)句指定,這樣可以檢驗(yàn)判別的效果如何。用“OUTSTAT=數(shù)據(jù)集”指定輸出判別函數(shù)的數(shù)據(jù)集,后面可以再次用DISCRIM過(guò)程把輸出的判別函數(shù)作為輸入數(shù)據(jù)集(DATA=)讀入并用它來(lái)判別檢驗(yàn)數(shù)據(jù)集(TESTDATA=)。用“OUT=數(shù)據(jù)集”指定存放訓(xùn)練樣本及后驗(yàn)概率、交叉確認(rèn)分類的數(shù)據(jù)集。用14 / 73“OUTD=數(shù)據(jù)集”指定訓(xùn)練樣本及組密度估計(jì)數(shù)據(jù)集。用“TESTOU

57、T=數(shù)據(jù)集”指定檢驗(yàn)數(shù)據(jù)的后驗(yàn)概率及分類結(jié)果。用“TESTOUTD=數(shù)據(jù)集”輸出檢驗(yàn)數(shù)據(jù)及組密度估計(jì)。PROC DISCRIM語(yǔ)句還有一些指定判別分析方法的選項(xiàng)。用METHOD=NORMAL或NPAR選擇參數(shù)方法或非參數(shù)方法。用POOL=NO或TEST或YES表示不用合并協(xié)方差陣、通過(guò)檢驗(yàn)決定是否使用合并協(xié)方差陣、用合并協(xié)方差陣。如果使用非參數(shù)方法,需要指定“R=核估計(jì)半徑”選項(xiàng)來(lái)規(guī)定核估計(jì)方法或者指定“K=最近鄰個(gè)數(shù)”來(lái)規(guī)定最近鄰估計(jì)方法。PROC DISCRIM語(yǔ)句有一些規(guī)定顯示結(jié)果的選項(xiàng)。用LISTERR顯示訓(xùn)練樣本錯(cuò)判的觀測(cè)。用CROSSLISTERR顯示用刀切法對(duì)訓(xùn)練樣本判別錯(cuò)判的觀

58、測(cè)。用LIST對(duì)每一觀測(cè)顯示結(jié)果。用NOCLASSIFY取消對(duì)訓(xùn)練樣本的分類檢驗(yàn)。用CROSSLIST顯示對(duì)訓(xùn)練樣本的刀切法的判別結(jié)果。用CROSSVALIDATE要求進(jìn)行交叉核實(shí)。當(dāng)有用“TESTDATA=”指定的檢驗(yàn)數(shù)據(jù)集時(shí)用TESTLIST 選項(xiàng)顯示檢驗(yàn)數(shù)據(jù)集的檢驗(yàn)結(jié)果,當(dāng)有TESTCLASS語(yǔ)句時(shí)用TESTLISTERR可以列出檢驗(yàn)樣本判錯(cuò)的觀測(cè),用POSTERR選項(xiàng)可以打印基于分類結(jié)果的分類準(zhǔn)則的后驗(yàn)概率錯(cuò)誤率估計(jì)。用NOPRINT 選項(xiàng)可以取消結(jié)果的顯示。在DISCRIM過(guò)程中還可以使用PRIORS語(yǔ)句指定先驗(yàn)概率 的取法?!癙RIORS EQUAL”指定先驗(yàn)概率相等?!癙RIOR

59、S PROPORTIONAL”指定先驗(yàn)概率與各類個(gè)數(shù)成正比。“PRIORS 概率值表”可以直接指定各組的先驗(yàn)概率值。(二)例子用衛(wèi)星遙感可以分辨作物的種類。CROPS是訓(xùn)練數(shù)據(jù)集,其中包含了作物的實(shí)際種類(CROP)和四種遙感指標(biāo)變量(X1-X4)。data crops;   title '五種作物遙感數(shù)據(jù)的判別分析'   input crop $ x1-x4;   cards;CORN        16 27 31 33CORN 

60、60;      15 23 30 30CORN        16 27 27 26CORN        18 20 25 23CORN        15 15 31 32CORN        15 32 32 15CORN   &

61、#160;    12 15 16 73SOYBEANS    20 23 23 25SOYBEANS    24 24 25 32SOYBEANS    21 25 23 24SOYBEANS    27 45 24 1215 / 73SOYBEANS    12 13 15 42SOYBEANS    22 32 31 43COTTON     

62、; 31 32 33 34COTTON      29 24 26 28COTTON      34 32 28 45COTTON      26 25 23 24COTTON      53 48 75 26COTTON      34 35 25 78SUGARBEETS  22 23 25 42SUGARBEETS

63、0; 25 25 24 26SUGARBEETS  34 25 16 52SUGARBEETS  54 23 21 54SUGARBEETS  25 43 32 15SUGARBEETS  26 54  2 54CLOVER      12 45 32 54CLOVER      24 58 25 34CLOVER      87 54 61 21CLOVER   

64、  51 31 31 16CLOVER      96 48 54 62CLOVER      31 31 11 11CLOVER      56 13 13 71CLOVER      32 13 27 32CLOVER      36 26 54 32CLOVER      

65、53 08 06 54CLOVER      32 32 62 16;run;用下列DISCRIM過(guò)程可以產(chǎn)生線性判別函數(shù)(METHOD=NORMAL規(guī)定使用參數(shù)方法,POOL=YES 選項(xiàng)規(guī)定使用合并協(xié)方差陣,這樣產(chǎn)生的判別函數(shù)是線性函數(shù),為系統(tǒng)的默認(rèn)值)。用OUTSTAT=選項(xiàng)指定了判別函數(shù)的輸出數(shù)據(jù)集為CROPSTAT,這個(gè)數(shù)據(jù)集可以用來(lái)判別檢驗(yàn)數(shù)據(jù)集。選項(xiàng)LIST要求列出每個(gè)觀測(cè)的結(jié)果,CROSSVALIDATE要求交叉核實(shí)?!癙RIORS PROPORTIONAL”即按各種類出現(xiàn)的比例計(jì)算各類的先驗(yàn)概率。proc discrim da

66、ta=crops outstat=cropstat method=normal pool=yes list crossvalidate;   class crop;   priors proportional;   var x1-x4;   run; 結(jié)果如下(節(jié)略):Discriminant Analysis16 / 73               36 Obse

67、rvations        35 DF Total                                  4 Variables    

68、0;       31 DF Within Classes                         5 Classes              4 DF Bet

69、ween Classes       上面是一些數(shù)據(jù)信息基本情況。Class Level Information                                   

70、0;                       Prior CROP           Frequency    Weight      Proportion   &

71、#160; Probability CLOVER            11       11.0000       0.305556        0.305556 CORN           &

72、#160;   7        7.0000       0.194444        0.194444 COTTON             6        6.0000&

73、#160;      0.166667        0.166667  SOYBEANS           6        6.0000       0.166667     

74、0;  0.166667 SUGARBEETS         6        6.0000       0.166667        0.166667  以上為各組的基本情況,并列出了先驗(yàn)概率值。因?yàn)橹付恕癙RIORS PROPORTIONAL”所以各組的先驗(yàn)概率按實(shí)際數(shù)據(jù)中各組比例計(jì)算。D

75、iscriminant AnalysisPairwise Generalized Squared Distances Between Groups             2         _     _        -1  _     

76、;_                                      D (i|j) = (X i - X j)' COV   (X i - X j ) - 2 ln PRIOR j 

77、;                                                  

78、0;                           上面為各組均值間廣義距離平方的公式,即                _      

79、; -1 _                                          -1 _    Constant = -.5 X

80、9; j COV   X j + ln PRIOR j     Coefficient Vector = COV   X j                                  

81、;                                           上面即線性判別函數(shù)的公式,給出了到第j類的線性判別函數(shù)的常數(shù)項(xiàng)和各自變量的系數(shù)的公

82、式。下面具體給出了各類的線性判別函數(shù)的各常數(shù)項(xiàng)及系數(shù)值。CROP                CLOVER         CORN          COTTON        SOYBEANS 

83、     SUGARBEET CONSTANT     -10.98457      -7.72070      -11.46537       -7.28260       -9.80179 X1        

84、60;   0.08907       -0.04180        0.02462      0.0000369        0.04245 X2            0.17379  

85、60;     0.11970        0.17596        0.15896        0.20988 X3            0.11899      &#

86、160; 0.16511        0.15880        0.10622        0.06540 X4            0.15637        0.16768  

87、;      0.18362        0.14133        0.1640817 / 73比如, CLOVER(苜蓿)類的線性判別函數(shù)就可以用 -10.98457+0.08907*X1+0.17379*X2+0.11899*X3+0.15637*X4 來(lái)計(jì)算。下面為判別分析對(duì)訓(xùn)練數(shù)據(jù)集(Calibration Data)用線性判別函數(shù)的判別結(jié)果,先給出了廣義平方距離函數(shù)的公式Discrimina

88、nt Analysis Classification Results for Calibration Data: WORK.CROPS               Resubstitution Results using Linear Discriminant Function                

89、     Generalized Squared Distance Function:                                       

90、60; 2           _         -1   _                           &

91、#160;                          D j (X) = (X-X j )' COV  (X-X j ) - 2 ln PRIOR j              

92、60;                                                  &#

93、160;                           然后是每個(gè)觀測(cè)屬于各類的后驗(yàn)概率的公式:                  Posterior P

94、robability of Membership in each CROP:                                            

95、60;                                                 

96、60;               Pr(j|X) = exp(-.5 D2 j (X) / SUM k exp(-.5 D2 k (X)                           

97、;                                                  

98、;            下面就是每個(gè)觀測(cè)的判別情況,包括原來(lái)屬于哪一類(From CROP),分入了哪一類(Classified into CROP),以及屬于各類的后驗(yàn)概率值。有星號(hào)的為錯(cuò)判的觀測(cè)。                      Posterior Pr

99、obability of Membership in                      From        Classified               

100、                                        CROP        into CROP 

101、60;       CLOVER        CORN      COTTON    SOYBEANS  SUGARBEETS   16 27 31 33  CORN        CORN       &#

102、160;      0.0894      0.4054      0.1763      0.2392      0.0897   15 23 30 30  CORN        CORN     

103、;         0.0769      0.4558      0.1421      0.2530      0.0722   16 27 27 26  CORN        CORN  &#

104、160;           0.0982      0.3422      0.1365      0.3073      0.1157   18 20 25 23  CORN        COR

105、N              0.1052      0.3634      0.1078      0.3281      0.0955   15 15 31 32  CORN     &

106、#160;  CORN              0.0588      0.5754      0.1173      0.2087      0.0398   15 32 32 15  CORN  

107、0;     SOYBEANS   *      0.0972      0.3278      0.1318      0.3420      0.1011   12 15 16 73  CORN     &

108、#160;  CORN              0.0454      0.5238      0.1849      0.1376      0.1083   20 23 23 25  SOYBEANS  

109、  SOYBEANS          0.1330      0.2804      0.1176      0.3305      0.1385   24 24 25 32  SOYBEANS    SOYBEANS 

110、0;        0.1768      0.2483      0.1586      0.2660      0.1502   21 25 23 24  SOYBEANS    SOYBEANS      

111、;    0.1481      0.2431      0.1200      0.3318      0.1570   27 45 24 12  SOYBEANS    SUGARBEETS *      0.2357   &

112、#160;  0.0547      0.1016      0.2721      0.3359   12 13 15 42  SOYBEANS    CORN       *      0.0549      0.4

113、749      0.0920      0.2768      0.1013   22 32 31 43  SOYBEANS    COTTON     *      0.1474      0.2606   

114、0;  0.2624      0.1848      0.1448   31 32 33 34  COTTON      CLOVER     *      0.2815      0.1518      0.2377

115、      0.1767      0.1523   29 24 26 28  COTTON      SOYBEANS   *      0.2521      0.1842      0.1529    &

116、#160; 0.2549      0.1559   34 32 28 45  COTTON      CLOVER     *      0.3125      0.1023      0.2404      0.1357      0.2091  18 / 73 26 25 23 24  COTTON  

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論