![多元統(tǒng)計第四章判別分析_第1頁](http://file4.renrendoc.com/view/1f1fa274c7b0fe67b6b8a8edfa11bd5b/1f1fa274c7b0fe67b6b8a8edfa11bd5b1.gif)
![多元統(tǒng)計第四章判別分析_第2頁](http://file4.renrendoc.com/view/1f1fa274c7b0fe67b6b8a8edfa11bd5b/1f1fa274c7b0fe67b6b8a8edfa11bd5b2.gif)
![多元統(tǒng)計第四章判別分析_第3頁](http://file4.renrendoc.com/view/1f1fa274c7b0fe67b6b8a8edfa11bd5b/1f1fa274c7b0fe67b6b8a8edfa11bd5b3.gif)
![多元統(tǒng)計第四章判別分析_第4頁](http://file4.renrendoc.com/view/1f1fa274c7b0fe67b6b8a8edfa11bd5b/1f1fa274c7b0fe67b6b8a8edfa11bd5b4.gif)
![多元統(tǒng)計第四章判別分析_第5頁](http://file4.renrendoc.com/view/1f1fa274c7b0fe67b6b8a8edfa11bd5b/1f1fa274c7b0fe67b6b8a8edfa11bd5b5.gif)
版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)
文檔簡介
2023/2/61目錄上頁下頁返回結(jié)束第四章判別分析
回歸模型普及性的基礎(chǔ)在于用它去預(yù)測和解釋度量(metric)變量。但是對于非度量(nonmetric)變量,多元回歸不適合解決此類問題。本章介紹的判別分析來解決被解釋變量是非度量變量的情形。在這種情況下,人們對于預(yù)測和解釋影響一個對象所屬類別的關(guān)系感興趣,比如為什么某人是或者不是消費者,一家公司成功還是破產(chǎn)等。判別分析在主要目的是識別一個個體所屬類別。潛在的應(yīng)用包括預(yù)測新產(chǎn)品的成功或失敗、決定一個學(xué)生是否被錄取、按職業(yè)興趣對學(xué)生分組、確定某人信用風(fēng)險的種類、或者預(yù)測一個公司是否成功。在每種情況下,將對象進行分組,并且要求使用這兩種方法中的一種可以通過人們選擇的解釋變量來預(yù)測或者解釋每個對象的所屬類別。判別分析與聚類分析的區(qū)別判別分析
已知研究對象分為若干個類別,并且已經(jīng)取得每一類別的一批觀測數(shù)據(jù),在此基礎(chǔ)上尋求出分類的規(guī)律性,建立判別準(zhǔn)則,然后對未知類別的樣品進行判別分類。聚類分析一批樣品劃分為幾類事先并不知道,正需要通過聚類分析來給以確定類型。2023/2/63目錄上頁下頁返回結(jié)束§4.1判別分析的基本理論
遇到包含屬性被解釋變量和幾個度量解釋變量的問題時,需要選擇一種合適的分析方法。當(dāng)被解釋變量是屬性變量,而解釋變量是度量變量時,判別分析是合適的統(tǒng)計分析方法。判別分析能夠解決兩組或者更多組的情況。當(dāng)包含兩組時,稱作兩組判別分析。當(dāng)包含三組或者三組以上時,稱作多組判別分析(Multiplediscriminantanalysis)。判別分析的假設(shè)條件基本要求判別分析最基本的要求是,分組類型在兩組以上;在第一階段工作是每組案例的規(guī)模必須至少在一個以上。解釋變量必須是可測量的,才能夠計算其平均值和方差,使其能合理地應(yīng)用于統(tǒng)計函數(shù)。2023/2/64目錄上頁下頁返回結(jié)束假設(shè)之一是每一個判別變量(解釋變量)不能是其他判別變量的線性組合。即不存在多重共線性問題。假設(shè)之二是各組變量的協(xié)方差矩陣相等。判別分析最簡單和最常用的形式是采用線性判別函數(shù),它們是判別變量的簡單線性組合。在各組協(xié)方差矩陣相等的假設(shè)條件下,可以使用很簡單的公式來計算判別函數(shù)和進行顯著性檢驗。
判假設(shè)之三是各判別變量之間具有多元正態(tài)分布,即每個變量對于所有其他變量的固定值有正態(tài)分布。在這種條件下可以精確計算顯著性檢驗值和分組歸屬的概率。當(dāng)違背該假設(shè)時,計算的概率將非常不準(zhǔn)確。2023/2/65§4.2距離判別
目錄上頁下頁返回結(jié)束4.2.1兩總體情況
設(shè)有兩個總體G1和G2,X是一個p維樣品,X到G1和G2的距離分別為d(X,G1)和d(X,G2),判別法則為:d(X,G1)<d(X,G2),X屬于G1;d(X,G1)>d(X,G2),X屬于G2;d(X,G1)=d(X,G2),X等待判斷。2023/2/66目錄上頁下頁返回結(jié)束這個準(zhǔn)則的數(shù)學(xué)模型可以表示為:1、總體協(xié)差陣相等
先考慮兩個總體的情況,設(shè)有兩個協(xié)差陣相同的p維正態(tài)總體,對給定的樣品,判別一個樣品到底是來自哪一個總體,一個最直觀的想法是計算到兩個總體的距離。故我們用馬氏距離來給定判別規(guī)則,有:則前面的判別法則表示為2023/2/610目錄上頁下頁返回結(jié)束上述判別規(guī)則例1
在企業(yè)的考核中,可以根據(jù)企業(yè)的生產(chǎn)經(jīng)營情況把企業(yè)分為優(yōu)秀企業(yè)和一般企業(yè)。考核企業(yè)經(jīng)營狀況的指標(biāo)有:資金利潤率=利潤總額/資金占用總額勞動生產(chǎn)率=總產(chǎn)值/職工平均人數(shù)產(chǎn)品凈值率=凈產(chǎn)值/總產(chǎn)值三個指標(biāo)的均值向量和協(xié)方差矩陣如下?,F(xiàn)有二個企業(yè),觀測值分別為(7.8,39.1,9.6)和(8.1,34.2,6.9),問這兩個企業(yè)應(yīng)該屬于哪一類?變量均值向量協(xié)方差矩陣優(yōu)秀一般資金利潤率13.55.468.3940.2421.41
勞動生產(chǎn)率40.729.840.2454.5811.67
產(chǎn)品凈值率10.76.221.4111.677.90線性判別函數(shù):判別準(zhǔn)則:故屬于優(yōu)秀企業(yè)故屬于一般企業(yè)2、當(dāng)總體的協(xié)差陣已知,且不相等判別準(zhǔn)則:特別地,當(dāng)p=1時,若兩個總體分別為和
則判別函數(shù)為當(dāng)判別規(guī)則:2023/2/616目錄上頁下頁返回結(jié)束4.2.2多總體情況1.協(xié)差陣相同。
相應(yīng)的判別規(guī)則是:2023/2/617目錄上頁下頁返回結(jié)束2023/2/618目錄上頁下頁返回結(jié)束這時的判別規(guī)則為:這時判別函數(shù)為:2.協(xié)差陣不相同。2023/2/619目錄上頁下頁返回結(jié)束線性判別函數(shù)容易計算,二次判別函數(shù)計算起來比較復(fù)雜,尤其在現(xiàn)場,為此需要一些計算方法。2023/2/620§4.3Bayes判別
目錄上頁下頁返回結(jié)束貝葉斯(Bayes)統(tǒng)計的思想是:假定對研究的對象已有一定的認識,常用先驗概率分布來描述這種認識,然后我們?nèi)〉靡粋€樣本,用樣本來修正已有的認識(先驗概率分布),得到后驗概率分布,各種統(tǒng)計推斷都通過后驗概率分布來進行。將貝葉斯思想用于判別分析,就得到貝葉斯判別。最大后驗判別準(zhǔn)則
在兩組的距離判別中,如果組比組大得多,那么,只是根據(jù)樣品距離這兩個組的遠近來判別其歸屬就顯得有些不妥。即使比稍大一點,人們往往仍傾向于判斷屬于組。因為,在判別之前他們已有了“先驗”的認識,即來自組比來自組有更大的先驗概率。
設(shè)有個組,且組的概率密度為,樣品來自的先驗概為,滿足利用貝葉斯理論,屬于的后驗概率(即當(dāng)樣品已知時,它屬于的概率)為最大后驗概率準(zhǔn)則是采用如下的判別規(guī)則:2023/2/623最小平均誤判代價準(zhǔn)則
目錄上頁下頁返回結(jié)束在進行判別分析的過程中難免會發(fā)生誤判,各種誤判所產(chǎn)生的后果可能有所不同。最大后驗概率準(zhǔn)則沒有涉及誤判的代價,在各種誤判代價明顯不同的場合下,該準(zhǔn)則就失效了。例如,經(jīng)計算,。如果將中的樣品誤判為的代價遠超過將中的樣品誤判為的代價,那么僅根據(jù)后驗概率的大小判斷是不明智的,似乎判斷顯得更合理些。2023/2/624目錄上頁下頁返回結(jié)束以上判別規(guī)則,所來帶的平均損失(ExpectedCostofMisclassification)為2023/2/625§4.4Fisher判別
目錄上頁下頁返回結(jié)束Fisher判別的思想是投影,將k組p維數(shù)據(jù)投影到某一個方向,使得他們的投影組與組盡可能分開。他借用了一元方差的分析思想,衡量組與組的分開程度設(shè)從k個總體分別取得k組p維的觀測值如下:2023/2/626目錄上頁下頁返回結(jié)束它正好組成一元方差分析的數(shù)據(jù),其組間平方和為:2023/2/627目錄上頁下頁返回結(jié)束組內(nèi)平方和為:2023/2/628目錄上頁下頁返回結(jié)束定理4.12023/2/629目錄上頁下頁返回結(jié)束迄今為止,我們僅僅給出了Fisher準(zhǔn)則下的判別函數(shù),沒有給出判別規(guī)則。如前述,F(xiàn)isher準(zhǔn)則下的判別函數(shù)并不唯一,若為判別函數(shù),則也為具有同樣效率的判別函數(shù)。不唯一性對判別規(guī)則并沒有任何妨礙,可以從中人去一個,一旦取定了判別函數(shù),根據(jù)它就能確定判別規(guī)則。在有些問題中,僅用一個線性判別函數(shù)不能很好區(qū)別各個總體,可以取對應(yīng)的特征向量,建立第二個判別函數(shù)。如果還不夠,可以建立第三個判別函數(shù),依次類推。2023/2/630§4.5逐步判別
目錄上頁下頁返回結(jié)束變量選擇的好壞直接影響判別分析的效果。如果在某個判別問題中,將其中最主要的指標(biāo)忽略了,由此建立的判別函數(shù)其效果一定不好。但是在許多問題中,事先并不十分清楚哪些指標(biāo)是主要的,這時,是否將有關(guān)的指標(biāo)盡量收集加入計算才好呢?理論和實踐證明,指標(biāo)太多了,不僅帶來大量的計算,同時許多對判別無作用的指標(biāo)反而會干擾了我們的視線。因此適當(dāng)篩選變量的問題就成為一個很重要的事情。凡具有篩選變量能力的判別方法統(tǒng)稱為逐步判別法。和通常的判別分析一樣,逐步判別也有許多不同的原則,從而產(chǎn)生各種方法。有關(guān)逐步判別法的理論基礎(chǔ)詳見[1]所討論指標(biāo)的附加信息檢驗。2023/2/631目錄上頁下頁返回結(jié)束逐步判別的原則2023/2/632目錄上頁下頁返回結(jié)束2023/2/633目錄上頁下頁返回結(jié)束(ⅳ)這時既不能選進新變量,又不能剔除已選進的變量,將已選中的變量建立判別函數(shù)。(iii)在已入選的r個變量中,要考慮較早的選中的變量中,其重要性沒有較大變化的,應(yīng)及時把不能提供附加信息的變量剔除出去。剔除的原則等同于引進的原則。例如在已經(jīng)進入的r個變量中要考察是否需要剔除,就是計算選擇達到極小(大)的l,看看是否顯著,如果不顯著將該變量剔除,仍然回到(iii),繼續(xù)考察余下的變量是否要剔除,如果顯著則回到(ii)例4.1為研究某地區(qū)人口死亡狀況,已按某種方法將15個已知地區(qū)樣品分為3類,指標(biāo)含義及原始數(shù)據(jù)如下。試建立判別函數(shù),并判定另外4個待判地區(qū)屬于哪類?
X1
:0歲組死亡概率
X
4:55歲組死亡概率
X
2
:1歲組死亡概率
X5
:80歲組死亡概率
X
3
:10歲組死亡概率X6
:平均預(yù)期壽命§4.6判別分析的上機實現(xiàn)
表
各地區(qū)死亡概率表
(一)操作步驟
1.在SPSS窗口中選擇Analyze→Classify→Discriminate,調(diào)出判別分析主界面,將左邊的變量列表中的“group”變量選入分組變量中,將—變量選入自變量中,并選擇Enterindependentstogether單選按鈕,即使用所有自變量進行判別分析。圖
判別分析主界面
2.點擊DefineRange按鈕,定義分組變量的取值范圍。本例中分類變量的范圍為1到3,所以在最小值和最大值中分別輸入1和3。單擊Continue按鈕,返回主界面。
3.單擊Statistics…按鈕,指定輸出的描述統(tǒng)計量和判別函數(shù)系數(shù)。選中FunctionCoefficients欄中的Fisher’s和Unstandardized。這兩個選項的含義如下:Fisher’s:給出Bayes判別函數(shù)的系數(shù)。(注意:這個選項不是要給出Fisher判別函數(shù)的系數(shù)。這個復(fù)選框的名字之所以為Fisher’s,是因為按判別函數(shù)值最大的一組進行歸類這種思想是由Fisher提出來的。這里極易混淆,請讀者注意辨別。)Unstandardized:給出未標(biāo)準(zhǔn)化的Fisher判別函數(shù)(即典型判別函數(shù))的系數(shù)(SPSS默認給出標(biāo)準(zhǔn)化的Fisher判別函數(shù)系數(shù))。單擊Continue按鈕,返回主界面。圖Statistics子對話框
4.單擊Classify…按鈕,定義判別分組參數(shù)和選擇輸出結(jié)果。選擇Display欄中的Casewiseresults,輸出一個判別結(jié)果表,包括每個樣品的判別分?jǐn)?shù)、后驗概率、實際組和預(yù)測組編號等。其余的均保留系統(tǒng)默認選項。單擊Continue按鈕。圖Classify…子對話框
5.單擊Save按鈕,指定在數(shù)據(jù)文件中生成代表判別分組結(jié)果和判別得分的新變量,生成的新變量的含義分別為:Predictedgroupmembership:存放判別樣品所屬組別的值;
Discriminantscores:存放Fisher判別得分的值,有幾個典型判別函數(shù)就有幾個判別得分變量;Probabilitiesofgroupmembership:存放樣品屬于各組的Bayes后驗概率值。將對話框中的三個復(fù)選框均選中,單擊Continue按鈕返回。
6.返回判別分析主界面,單擊OK按鈕,運行判別分析過程。圖Save子對話框 (二)主要運行結(jié)果解釋
1.StandardizedCanonicalDiscriminantFunctionCoefficients(給出標(biāo)準(zhǔn)化的典型判別函數(shù)系數(shù))標(biāo)準(zhǔn)化的典型判別函數(shù)是由標(biāo)準(zhǔn)化的自變量通過Fisher判別法得到的,所以要得到標(biāo)準(zhǔn)化的典型判別得分,代入該函數(shù)的自變量必須是經(jīng)過標(biāo)準(zhǔn)化的。
2.CanonicalDiscriminantFunctionCoefficients(給出未標(biāo)準(zhǔn)化的典型判別函數(shù)系數(shù))未標(biāo)準(zhǔn)化的典型判別函數(shù)系數(shù)由于可以將實測的樣品觀測值直接代入求出判別得分,所以該系數(shù)使用起來比標(biāo)準(zhǔn)化的系數(shù)要方便一些。見表4.2(a)。由此表可知,兩個Fisher判別函數(shù)分別為:實際上兩個函數(shù)式計算的是各觀測值在各個維度上的坐標(biāo),這樣就可以通過這兩個函數(shù)式計算出各樣品觀測值的具體空間位置。表4.2(a)未標(biāo)準(zhǔn)化的典型判別函數(shù)系數(shù)
3.FunctionsatGroupCentroids(給出組重心處的Fisher判別函數(shù)值)如表4.2(b)所示,實際上為各類別重心在空間中的坐標(biāo)位置。這樣,只要在前面計算出各觀測值的具體坐標(biāo)位置后,再計算出它們分別離各重心的距離,就可以得知它們的分類了。表4.2(b)組重心處的Fisher判別函數(shù)值
4.ClassificationFunctionCoefficients(給出Bayes判別函數(shù)系數(shù))如表4.3所示,GROUP欄中的每一列表示樣品判入相應(yīng)列的Bayes判別函數(shù)系數(shù)。在本例中,各類的Bayes判別函數(shù)如下: 第一組: 第二組: 第三組:
將各樣品的自變量值代入上述三個Bayes判別函數(shù),得到三個函數(shù)值。比較這三個函數(shù)值,哪個函數(shù)值比較大就可以判斷該樣品判入哪一類。例如,將第一個待判樣品的自變量值分別代入函數(shù),得到:
F1=3793.77,F(xiàn)2=3528.32,F(xiàn)3=3882.48比較三個值,可以看出最大,據(jù)此得出第一個待判樣品應(yīng)該屬于第三組。表Bayes判別法的輸出結(jié)果
5.CasewiseStatistics(給出個案觀察結(jié)果)在CasewiseStatistics輸出表針對每個樣品給出了了大部分的判別結(jié)果,其中包括:實際類(ActualGroup)、預(yù)測類(PredictedGroup)、Bayes判別法的后驗概率、與組重心的馬氏距離(SquaredMahalanobisDistancetoCentroid)以及Fisher判別法的每個典型判別函數(shù)的判別得分(DiscriminantScores)。出于排版要求,這里給出結(jié)果表的是經(jīng)過加工的,隱藏了其中的一些項目,如表4.4所示。從表中可以看出四個待判樣本依次被判別為第三組、第一組、第二組和第三組。表4.4個案觀察結(jié)果表2023/2/651目錄上頁下頁返回結(jié)束這里舉兩個例子,一個例子是分兩組的情況,一個是分多組的情況。我們分別用SPSS軟件中的Discriminant模塊來實現(xiàn)判別分析。
【例4.1】一個城市居民家庭,按其有無割草機分為兩組,有割草機的一組記為π1,沒有的記為π2,割草機工廠欲判斷一些家庭是否將購買割草機,從π1和π2隨機抽取了12個樣品,調(diào)查兩項指標(biāo):x1=家庭收入,x2=房前屋后的土地面積(參考文獻[8]),數(shù)據(jù)如下表:2023/2/652目錄上頁下頁返回結(jié)束用y作為二元被解釋變量,有割草機的家庭用1表示,沒有割草機的家庭用0表示,x1和x2作為被解釋變量。2023/2/653目錄上頁下頁返回結(jié)束(一)二元變量的判別分析計算
使用SPSS軟件中的Analyze->Classify->Discriminant,就進入了判別分析的對話框。分組變量(GroupingVariable)選擇y,然后定義y的區(qū)域,最小值為0,最大值為1;解釋變量(IndependentVariable)選擇為x1,x2,點擊OK可以完成基本的判別分析。如果需要更深入的分析,可以選擇其他項。統(tǒng)計量(Statistics)選項中可以選擇描述統(tǒng)計Mean,ANVOA,Box’M,函數(shù)可以選擇Fisher和非標(biāo)準(zhǔn)化函數(shù),同時還可以使用哪種矩陣。2023/2/654目錄上頁下頁返回結(jié)束由于只有兩個自變量,我們不需要使用逐步判別法。分類(Classify)選項中可以選擇先驗概率(所有組相等或根據(jù)組的大小計算概率),子選項顯示(display)中可以選擇每個個體的結(jié)果(Casewiseresults),綜合表(SummeryTable)和“留一個在外”的驗證原則,還可以選擇使用哪種協(xié)方差矩陣以及作圖。保存(Save)選項中可以選擇預(yù)測的分類、判別得分以及所屬類別的概率。如果采用逐步判別法,我們還可以選擇判別的方法(Method)。得到分析結(jié)果如下:2023/2/655目錄上頁下頁返回結(jié)束2023/2/656目錄上頁下頁返回結(jié)束輸出結(jié)果4.1分析的是各組的描述統(tǒng)計量和對各組均值是否相等的檢驗。第一張表反映的是有效樣本量及變量缺失的情況;第二張表示各組變量的描述統(tǒng)計分析;第三張表示對各組均值是否相等的檢驗。由第三張表可以看出,在0.01的顯著性水平上我們沒有理由拒絕變量x1,x2在兩組均值相等的假設(shè),即認為變量x1和x2在兩組的均值是有顯著性差異的。2023/2/657目錄上頁下頁返回結(jié)束輸出結(jié)果4.2分析的是各組協(xié)方差陣是否相等的Box'M檢驗。第一張表反映的是協(xié)方差矩陣的秩和行列式的對數(shù)值,由行列式值可以看出協(xié)方差陣不是病態(tài)矩陣;第二張表示各總體協(xié)方差陣是否相等的統(tǒng)計檢驗,由F值及其顯著水平,在0.05水平下,沒有足夠的理由拒絕原假設(shè)。還可以通過非參數(shù)檢驗來檢驗變量x1,x2是否服從正態(tài)分布,檢驗的結(jié)果顯示變量x1,x2在可接受的顯著性水平上是服從正態(tài)分布的。所以認為選取的變量是滿足判別分析的假定的。2023/2/658目錄上頁下頁返回結(jié)束輸出結(jié)果4.3分析的是典型判別函數(shù)。第1張表反映判別函數(shù)的特征值、解釋方差的比例和典型相關(guān)系數(shù)。(注意我們僅選取了兩個解釋變量,所以判別函數(shù)解釋了全部的方差)第2張表是對第一個判別函數(shù)的顯著性檢驗。由Wilks’Lambda檢驗,認為判別函數(shù)在0.01的顯著性水平上是極顯著的。
2023/2/659目錄上頁下頁返回結(jié)束輸出結(jié)果4.4顯示的是判別函數(shù)、判別載荷和各組的重心。2023/2/660目錄上頁下頁返回結(jié)束第二張表是結(jié)構(gòu)矩陣,即判別載荷。由判別權(quán)重和判別載荷可以看出兩個解釋變量對判別函數(shù)的貢獻較大。第三張表示非標(biāo)準(zhǔn)化的判別函數(shù),表示為:可以根據(jù)這個判別函數(shù)計算每個觀測的判別Z得分第一張表示標(biāo)準(zhǔn)化的判別函數(shù),表示為:第四張表反映判別函數(shù)在各組的中心。根據(jù)結(jié)果,判別函數(shù)在y=0這一組的重心為-1.034,在y=1這一組的重心為1.034,由于兩組大小相同,由前面臨界分割點的公式,可以計算得到臨界分割點為0。這樣,可以根據(jù)每個觀測的判別Z得分將觀測進行分類。2023/2/661目錄上頁下頁返回結(jié)束2023/2/662目錄上頁下頁返回結(jié)束輸出結(jié)果4.5是分類的統(tǒng)計結(jié)果。第1張表概括了分類過程,說明24個觀測都參與分類。第2張表說明各組的先驗概率,我們在Classify選項中選擇的是所有組的先驗概率相等。第3張表是每組的分類函數(shù)(區(qū)別于判別函數(shù)),也稱費歇線性判別函數(shù),
2023/2/663目錄上頁下頁返回結(jié)束第4張表是分類矩陣表。PredictedGroupMembership表示預(yù)測的所屬組關(guān)系,Original表示原始數(shù)據(jù)的所屬組關(guān)系,Cross-validated表示交叉驗證的所屬組關(guān)系,這里交叉驗證是采用“留一個在外”的原則,即每個觀測是通過除了這個觀測以外的其他觀測推導(dǎo)出來的判別函數(shù)來分類的。
由第4張表可以看出,通過判別函數(shù)預(yù)測,有21個觀測分類是正確的,其中y=0組10個(共12個)觀測被判對,y=1組11(共12個)個觀測被判對,從而有21/24=87.5%的原始觀測被判對。在交叉驗證中,y=0組有9個(共12個)被判對,y=1組有10個(共12個)被判對,從而交叉驗證有19/24=79.2%的原始觀測被判對。還可以通過分類結(jié)果分析判對和判錯的百分比。2023/2/664目錄上頁下頁返回結(jié)束我們還可以通過保存(Save)選項選擇預(yù)測的類別關(guān)系和判別得分等,對觀測進行診斷。下面我們看一個三總體判別的例子?!纠?.3】研究者希望能夠根據(jù)氣候、經(jīng)濟因素、人口等信息來判斷某國家或地區(qū)屬于哪一類型。這里國家country(因變量)有3種類別,OECD表示經(jīng)合組織的國家(包括美國、加拿大和西歐等發(fā)達國家),Pacific/Asia表示亞太地區(qū)的國家,Africa表示非洲地區(qū)的國家??紤]了以下幾個自變量,climate(氣候因素,包括沙漠氣候、干旱氣候、地中海氣候、海洋氣候、溫帶氣候和極地氣候等),urban(城市居民的比例),population(人口數(shù)),gdp_cap(人均GDP)。數(shù)據(jù)集來自SPSS10.0自帶的數(shù)據(jù)集World95.sav。
2023/2/665目錄上頁下頁返回結(jié)束進入判別分析對話框以后,我們使用逐步判別分析,Method選擇馬氏距離。得到如下輸出結(jié)果:首先顯示有類的輸出結(jié)果4.1的3張表,第1張表是分析的樣本及其缺失情況。第2張表是各組變量的描述統(tǒng)計分析。第3張表是各組變量均值是否相等的統(tǒng)計檢驗,結(jié)果說明四個自變量各組的均值在0.05的顯著性水平上是不相等的。此處從略。
2023/2/666目錄上頁下頁返回結(jié)束輸出結(jié)果4.6是對協(xié)方差陣是否相等的檢驗。由第2張表可以看出,原假設(shè)被拒絕,即認為各組的協(xié)方差陣不等。(注意這里違反了原假設(shè))2023/2/667目錄上頁下頁返回結(jié)束2023/2/668目錄上頁下頁返回結(jié)束2023/2/669目錄上頁下頁返回結(jié)束輸出結(jié)果4.7是說明逐步回歸的結(jié)果。第1,2張表說明變量進入判別函數(shù)的情況。第3張表說明不在判別函數(shù)的變量,結(jié)果反映城市居民的比例(urban)對判別函數(shù)的貢獻不顯著,其他三個自變量被選入判別方程。第4張表說明判別函數(shù)的顯著性,由Step3的結(jié)果說明判別函數(shù)在0.05的顯著性水平上是顯著的,模型擬合較好。2023/2/670目錄上頁下頁返回結(jié)束2023/2/671目錄上頁下頁返回結(jié)束輸出結(jié)果4.8分析的是典型判別函數(shù)。第1張表說明選取了兩個典型判別函數(shù),它們可以解釋全部的方差。第2張表是對兩個判別函數(shù)的Wilks’Lamada檢驗,檢驗結(jié)果說明兩個判別函數(shù)在0.05的顯著性水平上是顯著的。第3張表是標(biāo)準(zhǔn)化判別函數(shù),第4張表是結(jié)構(gòu)矩陣(即判別載荷矩陣),第5張表是非標(biāo)準(zhǔn)化判別函數(shù),由這幾張表可以說明,第一判別函數(shù)主要反映一國的氣候和經(jīng)濟因素,第二判別函數(shù)主要反映人口因素。第6張表反映各組的重心,我們由此可以計算出臨界點,從而根據(jù)判別函數(shù)計算出判別Z得分,對各個觀測進行歸類。2023/2/672目錄上頁下頁返回結(jié)束2023/2/673目錄上頁下頁返回結(jié)束輸出結(jié)果4-9的第1張表是對觀測分類的總體概括,有一個觀測至少有1個自變量缺失。第2張表是各組的先驗概率,由于我們選擇先驗概率按各組大小計算,所以各組的先驗概率是與各組大小成比例的。第3張表說明分類函數(shù),也就是費歇線性判別函數(shù),我們可以根據(jù)這三組的函數(shù)計算每個觀測在各組的分類得分,然后將該觀測歸到得分最高的組中。第4張圖是根據(jù)典型判別函數(shù)作的所有組的散點圖,比較直觀地反映了各組觀測的分類情況和各組的重心。2023/2/674目錄上頁下頁返回結(jié)束第5張表是分類結(jié)果的矩陣,這里我們也使用了“留一個在外”的原則進行交叉驗證,驗證的結(jié)果還是可以接受的,表明模型擬合還是不錯的。由分類矩陣可以看出,OECD國家和非洲國家的個體誤判概率很小,而亞太國家誤判概率很大。這說明了OECD國家經(jīng)濟比較發(fā)達,城市化水平較高,而且各成員國發(fā)展水平相差不大;非洲國家經(jīng)濟水平較低,城市化水平也較低,其成員國發(fā)展水平相差也不大;因此這兩類國家比較容易判別,而亞太國家和地區(qū)發(fā)展水平不均衡,沒有太多的共同點,導(dǎo)致其成員國不易判別。(根據(jù)輸出結(jié)果4.8第2張表的均值和協(xié)差陣可以說明)我們還可以在對話框中選擇Classify→Display→Casewiseresults,對每個觀測進行診斷分析。2023/2/675§4.8判別分析應(yīng)用的幾個例子
目錄上頁下頁返回結(jié)束下面用SPSS軟件中的Discriminant模塊來實現(xiàn)判別分析?!纠?.3】
為了研究2005年全國各地區(qū)農(nóng)村居民家庭人均消費支出情況,按標(biāo)準(zhǔn)化歐氏平方距離、離差平方和聚類方法將29個省、市、自治區(qū)(除廣東和西藏以外)分為三種類型,設(shè)置group變量取值分別為1、2、3。試建立判別函數(shù),判定廣東、西藏分別屬于哪個消費水平類型。判別指標(biāo)及原始數(shù)據(jù)見表4-2。
2023/2/676目錄上頁下頁返回結(jié)束解:本例數(shù)據(jù)k=3,判別指標(biāo)p=8,各組中樣本為:n1=3,n2=15,n3=11,待判樣品個數(shù)為2總體協(xié)方差的逆矩陣:2023/2/677目錄上頁下頁返回結(jié)束2023/2/678目錄上頁下頁返回結(jié)束將原29個樣品的回報結(jié)果列于表4-3,兩個待判樣品的判別結(jié)果列于表4-4。廣東省應(yīng)判歸第二類消費水平,西藏自治區(qū)歸入第三類消費水平為宜。本例的回報準(zhǔn)確率高,說明各地區(qū)農(nóng)村居民的消費水平劃分為三種類型是合適的。由于SPSS中的判別分析沒有距離判別這一方法,因此距離判別法無法在SPSS中直接實現(xiàn),但可以通過Excel等軟件來進行手工計算。2023/2/679目錄上頁下頁返回結(jié)束這里順便指出,回報的誤判率并不是“誤判概率”,而且前者通常要小些,回判情況僅供使用時參考。
2023/2/680目錄上頁下頁返回結(jié)束【例4.4】
為了研究2005年全國各地區(qū)國有及國有控股工業(yè)企業(yè)的經(jīng)營狀況,按標(biāo)準(zhǔn)化歐氏平方距離、離差平方和聚類方法將29個省、市、自治區(qū)(除廣東和西藏以外)分為三種類型,設(shè)置group變量取值分別為1、2、3。試建立判別函數(shù),判定廣東、西藏分別屬于哪個發(fā)展類型。判別指標(biāo)及原始數(shù)據(jù)見表4-5。
解:本例中的組數(shù)k=3,判別指標(biāo)p=7,各組中樣本為:n1=2,n2=24,n3=3,待判樣品個數(shù)為32023/2/681目錄上頁下頁返回結(jié)束總體協(xié)方差陣的逆矩陣為:2023/2/682目錄上頁下頁返回結(jié)束2023/2/683目錄上頁下頁返回結(jié)束將原29個樣品的回報結(jié)果列于表4-6,兩個待判樣品的判別結(jié)果列于表4-7。廣東省應(yīng)判歸第一類,西藏自治區(qū)歸入第三類為宜。本例的回報準(zhǔn)確率高,說明各地區(qū)國有及控股工業(yè)企業(yè)經(jīng)濟效益劃分為三種類型是合適的。這也可看成聚類分析與判別分析的結(jié)合應(yīng)用。
2023/2/684目錄上頁下頁返回結(jié)束【例4.5】2005年全國城鎮(zhèn)居民月平均消費狀況可劃分為兩類,分類后的數(shù)據(jù)見表4-8。試建立費歇爾線性判別函數(shù),并將廣東、西藏兩個待判省區(qū)歸類。2023/2/685目錄上頁下頁返回結(jié)束1.計算總體G1和G2的各判別變量均值:(20.7950,145.2736,39.856,64.949,89.702,16.317,49.437,417.006)'(19.929,95.540,21.480,35.508,59.802,10.490,39.994,184.913)'(0.866,46.734,18.376,29.441,29.900,5.827,9.443,232.094)'(40.724,243.814,61.336,100.458,149.504,26.808,89.431,601.919)'2023/2/686目錄上頁下頁返回結(jié)束4.計算兩個一元通體均值的中點m的估計值:3.計算Fisher樣本判別函數(shù):2023/2/687目錄上頁下頁返回結(jié)束故在0.05的水平下,兩個總體的均值有顯著差異,即判別函數(shù)有效。5.據(jù)算檢驗統(tǒng)計量F值:F檢驗統(tǒng)計量:馬氏距離:其第一自由度p=8,第二自由度,查F分布表有:2023/2/688目錄上頁下頁返回結(jié)束6.回判及待判樣品的歸類。(1)計算兩個一元通體均值的中點m的估計值:2023/2/689目錄上頁下頁返回結(jié)束判別函數(shù)也列于表4-18,于是Fisher判別法則為:(2)計算原29個樣品的線性判別函數(shù)值對于兩個待判省區(qū),判別函數(shù)值y0小于7.9828,故都判別低消費總體,將原29個省市自治區(qū)的回報結(jié)果也列于表4-9,此例沒有誤判,回報準(zhǔn)確率很高。2023/2/690目錄上頁下頁返回結(jié)束2023/2/691目錄上頁下頁返回結(jié)束SPSS中進行費歇爾判別分析是十分快捷的。首先按照表4-16把數(shù)據(jù)輸入SPSS數(shù)據(jù)表中,然后依次點擊“Analyze”→“Classify”→“Discriminant”,打開DiscriminantAnalysis對話框,將對話框左側(cè)變量列表中的group選入GroupingVariable框,并點擊“DefineRange”鈕,在彈出的DiscriminantAnalysis:DefineRange對話框中,定義判別原始數(shù)據(jù)的類別區(qū)間,本例為兩類,故在Minimum處輸入1、在Maximum處輸入2,點擊Continue鈕返回DiscriminantAnalysis對話框。
2023/2/692目錄上頁下頁返回結(jié)束再從對話框左側(cè)的變量列表中選將八個變量選Independents框,作為判別分析的基礎(chǔ)數(shù)據(jù)變量。點擊“Statistics”鈕,彈出DiscriminantAnalysis:Statistics對話框,在Descriptive欄中選Means項,要求對各組的各變量作均數(shù)與標(biāo)準(zhǔn)差的描述;在FunctionCoefficients欄中選Unstandardized項(注意,不是Fisher’s項!),要求顯示費歇爾判別法建立的非標(biāo)準(zhǔn)化系數(shù)。2023/2/693目錄上頁下頁返回結(jié)束之后,點擊“Continue”鈕返回DiscriminantAnalysis對話框。點擊“Save”鈕,彈出DiscriminantAnalysis:SaveNewVariables對話框,選Predictedgroupmembership項要求將回判的結(jié)果存入原始數(shù)據(jù)庫中。點擊“Continue”鈕返回DiscriminantAnalysis對話框,其他項目不變,點擊“OK”鈕即完成分析。在輸出結(jié)果中可以看到各組均值、標(biāo)準(zhǔn)差、協(xié)方差陣等描述統(tǒng)計結(jié)果以及判別函數(shù),返回數(shù)據(jù)表中,可以看到判別結(jié)果已經(jīng)作為一個新的變量被保存,廣東和西藏均被劃分到第二大類,篇幅所限,各輸出結(jié)果在此不再列示。2023/2/694目錄上頁下頁返回結(jié)束【例4.6】2005年全國各地區(qū)農(nóng)村居民家庭人均消費情況可劃分為三種類型,分類后的數(shù)據(jù)見表4-2。試用SPSS軟件建立Bayes判別函數(shù),并將待判樣品歸類。解:本例中的組數(shù)為k=3,判別指標(biāo)為p=8,各組中的樣本為n1=3,n2=15,n3=11,在SPSS中進行貝葉斯判別分析時,操作步驟與例4.5中的費歇爾判別相同,但是在DiscriminantAnalysis--S
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025年度車間租賃安全協(xié)議書(含安全生產(chǎn)責(zé)任險)
- 二零二五年度茶業(yè)投資合作框架協(xié)議
- 2025年度解除婚約協(xié)議書(情感修復(fù)與法律支持)
- 二零二五年度油茶種植基地承包與生態(tài)修復(fù)協(xié)議
- 2025年度食堂食品安全風(fēng)險評估與監(jiān)督執(zhí)行協(xié)議
- 施工現(xiàn)場施工防生物污染制度
- 施工日志填寫中的施工材料消耗記錄方法
- 個人商鋪抵押借款合同范本
- 云服務(wù)器托管服務(wù)合同(三)
- 二手廠房買賣合同
- 職業(yè)暴露與防護
- 年產(chǎn)15噸透明質(zhì)酸生產(chǎn)車間的初步工藝設(shè)計
- 大模型在航空航天領(lǐng)域的應(yīng)用:智能探索宇宙的無限可能
- 酒店行業(yè)客源渠道分析
- 2024年中國陪診服務(wù)行業(yè)市場發(fā)展趨勢預(yù)測報告-智研咨詢重磅發(fā)布
- AVL-CRUISE-2019-整車經(jīng)濟性動力性分析操作指導(dǎo)書
- 腸道醫(yī)學(xué)解剖和生理學(xué)
- 人教版九年級英語動詞時態(tài)專項練習(xí)(含答案和解析)
- 蘭州市規(guī)范醫(yī)療服務(wù)價格項目基準(zhǔn)價格表
- 火災(zāi)隱患整改登記表
- 普通地質(zhì)學(xué)教材
評論
0/150
提交評論