基于判別分析的四個(gè)方法及應(yīng)用_第1頁(yè)
基于判別分析的四個(gè)方法及應(yīng)用_第2頁(yè)
基于判別分析的四個(gè)方法及應(yīng)用_第3頁(yè)
基于判別分析的四個(gè)方法及應(yīng)用_第4頁(yè)
基于判別分析的四個(gè)方法及應(yīng)用_第5頁(yè)
已閱讀5頁(yè),還剩19頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶(hù)提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、 基于判別分析的四個(gè)方法及應(yīng)用摘 要:本文簡(jiǎn)明扼要的概述了判別分析的基本思想、假設(shè)條件、常用方法。針對(duì)每一種判別分析方法,文章給出了實(shí)證分析,良好地將這四種方法應(yīng)用于具體實(shí)際案例。關(guān)鍵詞:判別分析;Fisher判別;Bayes 判別;逐步判別;距離判別Four Examples of Application Based on Discriminant AnalysisAbstract: This paper briefly summarizes the basic ideas, assumptions and common methods of discriminant analysis. F

2、or each discriminant analysis method, the paper gives an empirical analysis and applies the four methods to specific cases.Key words: Discriminant analysis; Fisher discriminant; Bayes discriminant; Stepwise discriminant; Distance discriminant目 錄1.緒論11.1基本思想11.2假設(shè)條件11.3常用方法12.費(fèi)希爾判別法12.1實(shí)例應(yīng)用22.2分析結(jié)果與解

3、釋43.貝葉斯判別法73.1實(shí)例應(yīng)用73.2分析結(jié)果與解釋84.逐步判別法114.1實(shí)例應(yīng)用124.2分析結(jié)果與解釋135.距離判別法155.1實(shí)例應(yīng)用165.2分析結(jié)果與解釋176.判別分析的其他應(yīng)用197.結(jié)論20參考文獻(xiàn)20致 謝21211.緒論判別分析是20世紀(jì)30年代產(chǎn)生的,這些年來(lái),它在許多學(xué)科中有著廣泛的應(yīng)用,是一種用來(lái)判別新的樣本屬于哪種類(lèi)型的統(tǒng)計(jì)分析方法。與聚類(lèi)分析有所不同,在進(jìn)行判別分析之前,事先就把總體的幾種類(lèi)型全部羅列出來(lái),并且每個(gè)樣品是哪一種類(lèi)型也是已知的,只是我們要做的就是將新的樣品用判別分析進(jìn)行歸類(lèi)。1.1基本思想對(duì)于判別分析,首先要做的就是清楚樣本的分類(lèi)情況;其

4、次是在知道諸多用來(lái)表明每個(gè)樣品特征的變量值的情況下,建立判別規(guī)則;最終利用判別規(guī)則對(duì)新樣品對(duì)象的所屬類(lèi)型進(jìn)行判斷,并且能夠保證判斷錯(cuò)誤的幾率達(dá)到最小。1.2假設(shè)條件第一個(gè)假設(shè)條件是,對(duì)于每個(gè)解釋變量來(lái)說(shuō),它不可以與其他解釋變量構(gòu)成線性組合。因?yàn)槿绻菢泳蜁?huì)導(dǎo)致它不能夠反映新的信息,更嚴(yán)重的是發(fā)生了這種情況就會(huì)導(dǎo)致沒(méi)有辦法去估計(jì)判別函數(shù)。第二個(gè)假設(shè)條件是,對(duì)于各個(gè)組的變量來(lái)說(shuō),它們要有相等的協(xié)方差矩陣。因?yàn)樵谂袆e分析中,線性判別函數(shù)是我們最常用的,也是最方便的。并且在這個(gè)假設(shè)的條件下,我們可以利用一些簡(jiǎn)單的公式就可以計(jì)算出判別函數(shù),也可以對(duì)顯著性的檢驗(yàn)進(jìn)行操作。第三個(gè)假設(shè)條件是,對(duì)于各個(gè)判別變量

5、來(lái)說(shuō),需要服從多變量正態(tài)分布,也就是各個(gè)變量對(duì)于所有其他變量的固定值有正態(tài)分布2。因?yàn)樵谶@個(gè)假設(shè)的條件下,我們能夠精確地得出顯著性檢驗(yàn)的P值,以及分組歸屬的概率值。如果違背了這個(gè)假設(shè),那么所得概率的準(zhǔn)確性就會(huì)大大降低。1.3常用方法在判別分析時(shí),提出問(wèn)題的方向有很多,因此它的判別準(zhǔn)則也多種多樣。比如Mahalanobis Distance Minimum準(zhǔn)則、費(fèi)希爾準(zhǔn)則、ECM準(zhǔn)則、Least Squares準(zhǔn)則、Maximum Likelihood準(zhǔn)則、Maximum Probability準(zhǔn)則等等,在這些準(zhǔn)則的基礎(chǔ)上又可以有針對(duì)性的提出各種方法?,F(xiàn)在簡(jiǎn)明扼要的概述以下四種常用方法:費(fèi)希爾判

6、別法、貝葉斯判別法、逐步判別法和距離判別法2。2. 費(fèi)希爾判別法記總體的樣本為,組與組之間的離差矩陣為:,組內(nèi)的離差矩陣為:,假設(shè)有m個(gè)解釋變量,來(lái)構(gòu)造如下的判別函數(shù):,。當(dāng)上述判別函數(shù)對(duì)各個(gè)總體的數(shù)據(jù)均作用后,其數(shù)據(jù)將變成一元的。這k個(gè)一元,其中,當(dāng)判別函數(shù)對(duì)數(shù)據(jù)進(jìn)行分類(lèi)時(shí),使類(lèi)與類(lèi)之間的差別盡可能大,類(lèi)的內(nèi)部差異盡量很小,即應(yīng)使得的值達(dá)到最大。對(duì)此,還要使得。最終,費(fèi)希爾判別分析就是將以下方程組的最優(yōu)解給解出來(lái):,能夠證明,以上方程組的最大值恰好是的特征多項(xiàng)式最大根。假設(shè)有m個(gè)的非零特征值,它們,那么就能構(gòu)造出m個(gè)判別函數(shù):,為與對(duì)應(yīng)的特征向量。而第個(gè)判別函數(shù)的判別能力為。當(dāng)我們實(shí)際應(yīng)用時(shí)

7、,不是每個(gè)判別函數(shù)都能用得到,往往只需選擇累計(jì)貢獻(xiàn)率達(dá)到一定水平(例如85%)的前幾個(gè)判別函數(shù)就可以了。2.1實(shí)例應(yīng)用為了通過(guò)研究人體舒張壓(DBP)大小及血漿膽固醇(CHOL)的含量來(lái)進(jìn)行冠心病的診斷,我們收集了15名冠心病患者和15名正常者的舒張壓(DBP)及血漿膽固醇(CHOL)。如表2.1所示:其中編號(hào)1-15為冠心病患者(用1來(lái)表示患病),16-30為正常者(用2來(lái)表示正常)?,F(xiàn)在根據(jù)這30組有無(wú)冠心病的調(diào)查數(shù)據(jù)采用Fisher判別法來(lái)判斷預(yù)測(cè)第31號(hào)樣品是否患有冠心病。表2.1 15名冠心病患者和15名正常者的DBP及CHOL編號(hào)組別DBPCHOL119.865.182113.33

8、3.733114.663.89419.337.105112.805.496110.664.097110.664.458113.333.639113.335.9610113.335.7011112.006.1912114.664.0113113.334.0114112.803.6315113.335.9616210.662.0717212.534.4518213.333.061929.333.9420210.664.4521210.664.922229.333.6823210.662.7724210.663.2125210.665.0226210.403.942729.334.9228210.6

9、62.6929210.662.4330211.203.4231待判9.333.63數(shù)據(jù)來(lái)源:SPSS統(tǒng)計(jì)分析從入門(mén)到精通數(shù)據(jù)Chapter12 2.2分析結(jié)果與解釋我們通過(guò)SPSS軟件對(duì)已知樣本數(shù)據(jù)進(jìn)行Fisher判別分析的結(jié)果如下:表2.2 單因素方差分析組平均值的同等檢驗(yàn)威爾克LambdaF自由度 1自由度 2Sig.舒張壓0.69412.3191280.002血漿膽固醇0.7399.9101280.004表2.2中顯著性的值小于0.05,表示舒張壓和血漿膽固醇這兩個(gè)變量的均值在各組間都是有差異的,因此這兩個(gè)變量對(duì)類(lèi)間的判別都是有作用的。下面我們?cè)儆^察典型判別函數(shù)的特征函數(shù)的特征值。如表2

10、.3所示:表2.3 典型判別函數(shù)的特征函數(shù)的特征值特征值方差的百分比累計(jì)的百分比典型相關(guān)系數(shù)函數(shù)11.169100.0100.00.734在表2.3中特征值只有1個(gè),特征值為1.169,且典型相關(guān)系數(shù)為0.734。由此,說(shuō)明函數(shù)1具有區(qū)別判斷力。在分析完特征值的性質(zhì)之后,我們接下來(lái)分析一下Wilks的檢驗(yàn)結(jié)果。如表2.4所示:表2.4 Wilks檢驗(yàn)結(jié)果函數(shù)檢驗(yàn)Wilks Lambdachi-square自由度P值10.46120.90820.000在表2.4的Wilks檢驗(yàn)結(jié)果中,Wilks Lambda值為0.461,且顯著性水平小于0.05,表示組間有差異,即組均值不等,所以本例中判別分

11、析有意義。既然有意義,那么我們可以得到標(biāo)準(zhǔn)化的典則判別函數(shù)系數(shù)4,如表2.5所示:表2.5 標(biāo)準(zhǔn)化典則判別函數(shù)系數(shù)函數(shù)1舒張壓0.882血漿膽固醇0.834根據(jù)表2.5的標(biāo)準(zhǔn)化典則判別函數(shù)系數(shù),可以得到標(biāo)準(zhǔn)化典則判別函數(shù):再考慮舒張壓和血漿膽固醇的結(jié)構(gòu)矩陣,如表2.6所示:表2.6 結(jié)構(gòu)矩陣函數(shù)1舒張壓0.613血漿膽固醇0.550由于表2.6可以看出,舒張壓這個(gè)變量對(duì)判別函數(shù)的貢獻(xiàn)為0.613,血漿膽固醇對(duì)判別函數(shù)的貢獻(xiàn)為0.550。說(shuō)明冠心病與這兩個(gè)因素均有關(guān)。最后,我們得到非標(biāo)準(zhǔn)化典則判別函數(shù)系數(shù),如表2.7所示:表2.7 非標(biāo)準(zhǔn)化典則判別函數(shù)系數(shù)函數(shù)1舒張壓0.636血漿膽固醇0.79

12、7(常量)-10.775根據(jù)表2.7的非標(biāo)準(zhǔn)化典則判別函數(shù)系數(shù),可以得到非標(biāo)準(zhǔn)化典則判別函數(shù):表2.8 分類(lèi)結(jié)果1,2組別預(yù)測(cè)組成員信息總計(jì)冠心病人正常人原始計(jì)數(shù)冠心病人12315正常人31215%冠心病人8020100正常人2080100交叉驗(yàn)證個(gè)數(shù)冠心病人12315正常人41115%冠心病人8020100正常人26731001:正確地對(duì) 80.0% 個(gè)原始已分組個(gè)案進(jìn)行了分類(lèi)。2:正確地對(duì) 76.7% 個(gè)進(jìn)行了交叉驗(yàn)證的已分組個(gè)案進(jìn)行了分類(lèi)。從表2.8的分類(lèi)結(jié)果中可以看出,我們正確地對(duì) 80.0%個(gè)原始已分組個(gè)案進(jìn)行了分類(lèi),交叉驗(yàn)證得到的判別信息正確率為76.7%,表明能夠較好的進(jìn)行判斷。

13、由于我們?cè)赟PSS軟件的操作步驟中保存了預(yù)測(cè)組成員結(jié)果,即最終的分類(lèi)結(jié)果,如表2.9所示:表2.9 保存預(yù)測(cè)組成員結(jié)果編號(hào)組別DBPCHOLDis_1Dis1_1119.865.182-0.380732113.333.7310.669123114.663.8911.64186419.337.1010.812375112.805.4911.734736110.664.092-0.740877110.664.452-0.454018113.333.6310.589449113.335.9612.4460810113.335.7012.2389011112.006.1911.7841012114.6

14、64.0111.7374813113.334.0110.8922414112.803.6310.2526115113.335.9612.4460816210.662.072-2.3504917212.534.4510.7344318213.333.0610.135241929.333.942-1.7056420210.664.452-0.4540121210.664.922-0.079492229.333.682-1.9128223210.662.772-1.7927024210.663.212-1.4420925210.665.0210.0001926210.403.942-1.025632

15、729.334.922-0.9247428210.662.692-1.8564529210.662.432-2.0636330211.203.422-0.9315731待判9.333.632-1.95266從表2.9的預(yù)測(cè)結(jié)果中可以看出,我們需要待判的第31號(hào)樣品屬于第二組。上述例子是將30組有無(wú)冠心病的調(diào)查數(shù)據(jù),采用Fisher判別法來(lái)判斷預(yù)測(cè)第31號(hào)樣品是否患有冠心病,我們根據(jù)Fisher判別法建立了判別函數(shù),最終很好的預(yù)測(cè)了第31號(hào)樣品屬于第二組,即第31號(hào)樣品為正常人。3. 貝葉斯判別法首先介紹一下貝葉斯思想,它是假定對(duì)將要研究的對(duì)象已經(jīng)有了一定的認(rèn)識(shí),經(jīng)常將之以先驗(yàn)概率分布來(lái)表示,其

16、次選取一個(gè)樣本來(lái)修正這個(gè)先驗(yàn)概率分布,以此找到后驗(yàn)概率分布,最終采用后驗(yàn)概率分布去做統(tǒng)計(jì)推斷。當(dāng)判別分析用到了貝葉斯思想時(shí),就出現(xiàn)了貝葉斯判別。假設(shè)有k個(gè),它們分別具有,現(xiàn)在知道上述k個(gè)總體的,以此來(lái)建立起一定的貝葉斯判別函數(shù)和判別規(guī)則3。用的一個(gè)分割,也就是說(shuō)之間互相沒(méi)有交集,并且。是取得合適的,即是說(shuō)它剛好與k個(gè)總體相對(duì)應(yīng),此時(shí)我們的判別規(guī)則就可以寫(xiě)為:用來(lái),這種判斷錯(cuò)誤的概率是:那么根據(jù)上述判別規(guī)則,則平均損失為:3.1實(shí)例應(yīng)用一所商學(xué)院的招生人員將本科生的大學(xué)平均畢業(yè)成績(jī)(GPA)和本科畢業(yè)生的管理能力測(cè)試(GMAT)成績(jī)用作“指標(biāo)”,幫助學(xué)院決定應(yīng)將哪些申報(bào)者錄取為學(xué)院研究生。為了通

17、過(guò)研究本科生的GPA和GMAT成績(jī)來(lái)判定一名新申報(bào)者的申報(bào)結(jié)果,我們收集了85名申報(bào)者的GPA和GMAT成績(jī)及申報(bào)結(jié)果。數(shù)據(jù)如表3.1所示:其中GPA(用x1來(lái)表示),GMAT(用x2表示),三種錄取結(jié)果(用y來(lái)表示,且1表示錄取,2表示不錄取,3表示待定)。表3.1 85名申報(bào)者的GPA和GMAT成績(jī)x1x2yx1x2yx1x2y2.9659613.7664612.2938423.1447313.2446712.8649433.2248212.5446622.8549633.2952712.4342523.1441933.6950512.2047423.2837134.4669312.365

18、3122.8944733.0362612.4754223.1531333.1966312.3540623.5040233.6344712.5141222.8948533.5955812.5135922.8044433.3056312.3633923.1341633.4055312.3648223.0147133.5057212.6642022.7949033.7859112.6841422.8943133.4469212.4853322.9144633.4852812.4650922.5754633.4755212.6350422.7344633.3552012.4433623.1246333

19、.2852312.4146923.0341933.3954312.1340823.0844033.2153012.5553823.0050933.5856412.3150523.0343833.3356512.4148923.0533933.4043112.1941122.8548333.3860512.3532123.0145333.2666412.6039423.0341433.0660912.5552823.0444633.3755912.7239923.21497待判3.8052112.853812數(shù)據(jù)來(lái)源:SPSS統(tǒng)計(jì)分析方法及應(yīng)用(第4版)薛薇配套資料1現(xiàn)在假定一名新申請(qǐng)者的GPA

20、=3.21,GMAT=497,下面采用Bayes判別法來(lái)對(duì)這名新申請(qǐng)者進(jìn)行分類(lèi)判別。3.2分析結(jié)果與解釋首先,對(duì)SPSS軟件中對(duì)大學(xué)平均畢業(yè)成績(jī)(GPA)和本科畢業(yè)生的管理能力測(cè)試(GMAT)成績(jī)進(jìn)行單因素方差分析,即對(duì)大學(xué)平均畢業(yè)成績(jī)(GPA)和本科畢業(yè)生的管理能力測(cè)試(GMAT)成績(jī)兩組的組平均值是否同等進(jìn)行檢驗(yàn),運(yùn)行后得到結(jié)果如表3.2所示:表3.2 單因素方差分析組平均值的同等檢驗(yàn)威爾克 LambdaF自由度 1自由度 2顯著性大學(xué)平均成績(jī)0.231136.1742820.000管理才能評(píng)分0.54334.4742820.000表3.2中顯著性水平的值均小于0.05,即表示大學(xué)平均成績(jī)

21、和管理才能評(píng)分這兩個(gè)變量的均值在各組間都是有差異的,因此這兩個(gè)變量對(duì)類(lèi)間的判別都是有作用的。那么我們?cè)賮?lái)分析典型判別函數(shù)的特征函數(shù)的特征值,得到結(jié)果如表3.3所示:表3.3 典型判別函數(shù)的特征函數(shù)的特征值函數(shù)特征值方差百分比累計(jì)百分比典型相關(guān)性14.11095.795.70.89720.1844.3100.00.394表3.3中的特征值有兩個(gè),函數(shù)1特征值為4.110,函數(shù)2特征值為0.184,且函數(shù)1的典型相關(guān)系數(shù)為0.897,函數(shù)2的典型相關(guān)系數(shù)為0.394。由此,說(shuō)明函數(shù)1比函數(shù)2更具有區(qū)別判斷力。在得到函數(shù)1比函數(shù)2更具有區(qū)別判斷力之后,還需要看一下Wilks的檢驗(yàn)結(jié)果,得到結(jié)果如表3

22、.4所示:表3.4 Wilks檢驗(yàn)函數(shù)的檢驗(yàn)Wilks Lambda自由度chi-squareP值20.845113.7730.0001 直至 20.1654146.7100.000在表3.4的Wilks檢驗(yàn)結(jié)果中,1直至2的Wilks Lambda值為0.165,而2的Wilks Lambda值為0.845,卡方值分別為146.710和13.773,且兩者的顯著性水平均小于0.05,表示組間有差異,即組均值不等,所以本例中判別分析有意義。表3.5 結(jié)構(gòu)矩陣函數(shù)1函數(shù)2大學(xué)平均成績(jī)0.894-0.448管理才能評(píng)分0.4090.913由于表3.5表示的是大學(xué)平均成績(jī)和管理才能評(píng)分與標(biāo)準(zhǔn)化的典則

23、判別函數(shù)之間的相關(guān)矩陣,由此可以看出,大學(xué)平均成績(jī)對(duì)判別函數(shù)的貢獻(xiàn)為0.894,管理才能評(píng)分對(duì)判別函數(shù)的貢獻(xiàn)為0.409。說(shuō)明申報(bào)結(jié)果與者兩個(gè)因素均有關(guān),而且與大學(xué)平均成績(jī)高度相關(guān)。最后,我們得到分類(lèi)判別系數(shù),如表3.6所示:表3.6 Bayes判別函數(shù)的系數(shù)錄取結(jié)果錄取不錄取待定大學(xué)平均成績(jī)70.25550.61661.215管理才能評(píng)分0.1520.1200.121(常量)-163.811-89.729-119.483根據(jù)表3.6的系數(shù),我們得到以下3個(gè)Bayes判別函數(shù):表3.7 判別的分類(lèi)結(jié)果1,2申報(bào)結(jié)果錄取沒(méi)有錄取待定原始個(gè)數(shù)錄取2704不錄取0271待定0125%錄取87.10.

24、012.9不錄取0.096.43.6待定0.03.896.2交叉驗(yàn)證個(gè)數(shù)錄取2704不錄取0271待定1223%錄取87.10.012.9不錄取0.096.43.6待定3.87.788.51:正確地對(duì) 92.9% 個(gè)原始已分組個(gè)案進(jìn)行了分類(lèi)。2:正確地對(duì) 90.6% 個(gè)進(jìn)行了交叉驗(yàn)證的已分組個(gè)案進(jìn)行了分類(lèi)。從表3.8的分類(lèi)結(jié)果中可以看出,判別分析分類(lèi)與原始樣品分類(lèi)一致率高達(dá)92.9%,交叉驗(yàn)證的一致率達(dá)到了90.6%。即我們正確地對(duì)92.9%個(gè)原始已分組個(gè)案進(jìn)行了分類(lèi),交叉驗(yàn)證得到的判別信息正確率為90.6%,表明能夠較好的進(jìn)行判斷。由于保存了預(yù)測(cè)組成員結(jié)果,即最終的分類(lèi)結(jié)果,如表2.9所示:

25、表3.9 保存結(jié)果x1x2yDis_1Dis1_1Dis2_12.96596 1 1 0.749171.589623.14473 1 3 0.60726-0.490103.22482 1 3 0.99829-0.508543.29527 1 1 1.605240.003553.69505 1 1 3.08253-1.041954.46693 1 1 7.569280.222993.03626 1 1 1.249131.888293.19663 1 1 2.166712.121753.63447 1 1 2.42371-1.757333.59558 1 1 3.05200-0.104723.30

26、563 1 1 1.902870.497473.40553 1 1 2.240090.172063.50572 1 1 2.784160.259293.78591 1 1 4.063620.016893.44692 1 1 3.394932.076583.48528 1 1 2.38862-0.330143.47552 1 1 2.518940.029653.04446 3 3 0.00613-0.691153.21497 待判1 1.06443-0.27680從表2.9的預(yù)測(cè)結(jié)果中可以看出,我們需要待判的第31號(hào)樣品,即新申報(bào)者最終申報(bào)結(jié)果為錄取。上述例子是將85名申報(bào)者的GPA和GMAT成

27、績(jī)及申報(bào)結(jié)果,采用Bayes判別法來(lái)判斷預(yù)測(cè)第86號(hào)樣品是什么結(jié)果。我們根據(jù)Bayes判別法建立了判別函數(shù),最終很好的預(yù)測(cè)了第86號(hào)樣品屬于第一組,即第86號(hào)樣品的最終申報(bào)結(jié)果為錄取。4.逐步判別法多元回歸中,對(duì)回歸結(jié)果產(chǎn)生影響的直接因素就是變量的選擇。這樣類(lèi)似的問(wèn)題也出現(xiàn)在了判別分析當(dāng)中,假如在對(duì)某個(gè)問(wèn)題進(jìn)行判別時(shí),其中最重要的指標(biāo)被遺漏了,那么以此建立起來(lái)的判別函數(shù)就會(huì)出現(xiàn)不好的效果。但是,在要解決的很多問(wèn)題當(dāng)中,事先不是非常清楚有哪些主要指標(biāo)。這個(gè)時(shí)候,是不是把與之相關(guān)的那些指標(biāo)盡可能多的放入計(jì)算?實(shí)踐證明,指標(biāo)如果太多,不僅計(jì)算量大,而且一些對(duì)判別幾乎沒(méi)有作用的因素反而會(huì)擾亂結(jié)果。因此

28、,合理的篩選變量是非常重要且必要的。凡是具有篩選變量能力的判別方法統(tǒng)稱(chēng)為逐步判別法3。(1)從中先選一個(gè)解釋變量,其使得Wilks統(tǒng)計(jì)量取得最小。假設(shè)挑選變量的順序是自然順序,也就是說(shuō)第一步選中了第一個(gè)自變量,第r步則正好選中第r個(gè)自變量,則有,檢查是否在接受域中,如果不在,那么表示沒(méi)有選中的變量,即不可以用判別分析;如果在,則進(jìn)入(2)。(2)從沒(méi)有被選中的變量里,計(jì)算這些變量和已經(jīng)選中的變量。再選擇使有最小值的當(dāng)?shù)诙€(gè)變量。仿照上述做法,如果已選進(jìn)了r個(gè)變量, ,就從沒(méi)有被選中的變量中逐個(gè)選擇與那r個(gè)變量配合,計(jì)算出,再選擇使達(dá)到極小的變量當(dāng)作第r+1個(gè)變量,并再檢驗(yàn)其是否能提供其余信息,

29、假如不能,就進(jìn)入(4), 能就進(jìn)入(3)。(3)從已經(jīng)選進(jìn)的那r個(gè)變量中,需要再考慮較早進(jìn)入的變量,這些變量的重要性是否有較大的改變,即是否可以提供附加信息,若不能則剔除。剔除與引進(jìn)是一樣的原則。再考察剩下的變量,如果不需要剔除,就回轉(zhuǎn)到(2)。(4)此時(shí)既不需要新變量的進(jìn)入,又不需要將已經(jīng)選入的變量剔除,可以采用選擇好的那些變量來(lái)建立起判別函數(shù)。4.1實(shí)例應(yīng)用為了通過(guò)研究、的含量來(lái)判斷一個(gè)新樣品屬于哪一類(lèi),我們收集了15個(gè)樣品的含量數(shù)據(jù)。如表4.1所示:其中(用x1來(lái)表示)、(用x2來(lái)表示)、(用x3來(lái)表示)、(用x4來(lái)表示)、(用x5來(lái)表示)、(用x6來(lái)表示)?,F(xiàn)采用逐步判別分析法來(lái)判斷預(yù)

30、測(cè)第16號(hào)樣品屬于哪一組。表4.1 樣品、含量數(shù)據(jù)groupnox1x2x3x4x5x61120.924.503.1336.701.200.751231.097.022.1630.682.550.951337.503.101.3029.782.050.20146.012.261.7348.280.600.401520.213.372.5937.300.950.251618.861.831.1445.560.450.40178.981.411.4147.830.200.401820.304.351.7037.580.600.50294.120.042.7048.880.150.602102.19

31、0.011.4152.940.050.5021110.991.971.8444.070.151.352120.750.001.5153.990.050.5021356.536.461.9315.500.950.802141.530.280.9753.690.100.502152.810.421.0252.640.050.50待判1616.011.832.5941.360.800.40數(shù)據(jù)來(lái)源:SPSS統(tǒng)計(jì)分析從入門(mén)到精通升級(jí)數(shù)據(jù)Chapter11 4.2分析結(jié)果與解釋表4.2 輸入/除去變量的方差分析步驟輸入Wilks Lambda統(tǒng)計(jì)量自由度1自由度2自由度3精確的F統(tǒng)計(jì)量自由度1自由度2P

32、值1x50.6621113.0006.648113.0000.0232x60.5182113.0005.588212.0000.019從表4.2中可以看到顯著性水平均小于0.05,表示兩組之間有差異,即組均值不等,所以本例中判別分析有意義。表4.3 特征值特征值方差的百分比累計(jì)的百分比典型相關(guān)系數(shù)函數(shù)10.9311001000.694從表4.2中特征值有一個(gè),函數(shù)1的特征值為0.931,且函數(shù)1的典型相關(guān)系數(shù)為0.694,由此,說(shuō)明函數(shù)1具有區(qū)別判斷力,還需要看一下Wilks的檢驗(yàn)結(jié)果,得到結(jié)果如表4.4所示:表4.4 威爾克 Lambda檢驗(yàn)結(jié)果函數(shù)檢驗(yàn)威爾克 Lambda卡方自由度顯著性1

33、0.5187.89920.019在表4.4的Wilks檢驗(yàn)結(jié)果中,Wilks Lambda值為0.518,卡方值為7.899,且顯著性水平小于0.05,表示組間有差異,即組均值不等,所以本例中判別分析有意義。既然有意義,那么我們還需要考慮結(jié)構(gòu)矩陣,如表4.4所示:表4.5 結(jié)構(gòu)矩陣函數(shù)1x50.741x1a0.480x4a-0.437x6-0.387x2a0.286x3a-0.048a. 在分析中未使用此變量。由于表4.5表示的是六種化學(xué)物質(zhì)含量與標(biāo)準(zhǔn)化的典則判別函數(shù)之間的相關(guān)矩陣,由此可以看出,對(duì)判別函數(shù)的貢獻(xiàn)為0.741、對(duì)判別函數(shù)的貢獻(xiàn)為0.480、對(duì)判別函數(shù)的貢獻(xiàn)為-0.437、對(duì)判別

34、函數(shù)的貢獻(xiàn)為-0.387、對(duì)判別函數(shù)的貢獻(xiàn)為0.286。對(duì)判別函數(shù)的貢獻(xiàn)為-0.048。我們只保留了x5和x6這兩個(gè)變量。表4.6 分類(lèi)函數(shù)系數(shù)第1組第2組x51.920-0.810x64.5389.064(常量)-2.817-3.682根據(jù)表4.6的系數(shù),得到兩組的判別函數(shù):表4.7 分類(lèi)結(jié)果1,2類(lèi)別總計(jì)12原始個(gè)數(shù)17182077%187.5%12.5%100%20%100%100%交叉驗(yàn)證個(gè)數(shù)17182167%187.5%12.5%100%214.3%85.7%100%1:正確地對(duì) 93.3% 個(gè)原始已分組個(gè)案進(jìn)行了分類(lèi)。2:正確地對(duì) 86.7% 個(gè)進(jìn)行了交叉驗(yàn)證的已分組個(gè)案進(jìn)行了分類(lèi)

35、。從表4.7的分類(lèi)結(jié)果中可以看出,判別分析分類(lèi)與原始樣品分類(lèi)一致率高達(dá)93.3%,交叉驗(yàn)證的一致率達(dá)到了86.7%。即我們正確地對(duì)93.3%個(gè)原始已分組個(gè)案進(jìn)行了分類(lèi),交叉驗(yàn)證得到的判別信息正確率為86.7%,表明能夠較好的進(jìn)行判斷。由于我們?cè)赟PSS軟件的操作步驟中保存了預(yù)測(cè)組成員結(jié)果,即最終的分類(lèi)結(jié)果,如表4.8所示:表4.8 保存結(jié)果groupnox1x2x3x4x5x6Dis_1Dis1_11120.924.503.1336.701.200.7510.354581231.097.022.1630.682.550.9511.898881337.503.101.3029.782.050.2

36、013.02555146.012.261.7348.280.600.4010.324401520.213.372.5937.300.950.2511.232041618.861.831.1445.560.450.4010.09697178.981.411.4147.830.200.402-0.282091820.304.351.7037.580.600.5010.07310294.120.042.7048.880.150.602-0.860512102.190.011.4152.940.050.502-0.7608321110.991.971.8444.070.151.352-2.745292

37、120.750.001.5153.990.050.502-0.7608321356.536.461.9315.500.950.802-0.150132141.530.280.9753.690.100.502-0.685022152.810.421.0252.640.050.502-0.7608311616.011.832.5941.360.800.4010.62765從表4.8的預(yù)測(cè)結(jié)果中可以看出,我們需要待判的第16號(hào)樣品屬于第1組上述例子是將15個(gè)樣品中、的含量,采用逐步判別法來(lái)判斷預(yù)測(cè)第16號(hào)樣品是什么結(jié)果。我們根據(jù)逐步判別法最終很好的預(yù)測(cè)了第16號(hào)樣品屬于第一組。5.距離判別法樣品的類(lèi)

38、別屬于與總體距離最近的那一類(lèi),根據(jù)樣本數(shù)據(jù),它們的所屬類(lèi)別是已知的,計(jì)算出每一類(lèi)總體的重心。對(duì)將要判別的樣品進(jìn)行分類(lèi),只用把這個(gè)樣品與每類(lèi)重心的距離分別計(jì)算出來(lái),與之距離最近的那一類(lèi)就是待判樣品的類(lèi)別。我們基本上用的是馬氏距離。設(shè)兩個(gè)總體,樣品到的距離為,樣品到的距離為,利用以下規(guī)則來(lái)進(jìn)行判別:如果與的距離比與的距離小,就認(rèn)為屬于,若不是,則屬于;若距離相等,則待判。數(shù)學(xué)模型可寫(xiě)為:當(dāng)和是正態(tài)總體,并且它們的協(xié)方差是相等的時(shí)候,就采用馬氏距離,即其中,分別是和的平均值和協(xié)方差矩陣。當(dāng)=時(shí)那么判別規(guī)則即為:上述的是判別函數(shù),因?yàn)闉榫€性函數(shù),所以也是線性判別函數(shù)。5.1實(shí)例應(yīng)用HDI的創(chuàng)建是為了強(qiáng)

39、調(diào)人和他們的能力應(yīng)該是評(píng)估一個(gè)國(guó)家發(fā)展的最終標(biāo)準(zhǔn),而不僅僅是經(jīng)濟(jì)增長(zhǎng)。人類(lèi)發(fā)展指數(shù)也可以用來(lái)質(zhì)疑國(guó)家的政策選擇,詢(xún)問(wèn)人均國(guó)民總收入水平相同的兩個(gè)國(guó)家如何才能獲得不同的人類(lèi)發(fā)展成果。從2019年的人文發(fā)展指數(shù)表中,選取10個(gè)國(guó)家的數(shù)據(jù),作為兩組樣品,另外再選取4個(gè)國(guó)家,作為待判樣品,下面進(jìn)行距離判別分析。數(shù)據(jù)如下表5.1,其中:第一類(lèi)為“極高發(fā)展水平國(guó)家”,第二類(lèi)為“高發(fā)展水平國(guó)家”,出生時(shí)預(yù)期壽命用x1來(lái)表示、平均受教育年限用x2來(lái)表示、人均國(guó)民總收入用x3來(lái)表示。表5.1 2019年14個(gè)國(guó)家的人文發(fā)展指數(shù)groupnocountryx1x2x311挪威82.312.66805912瑞士83

40、.613.45937513愛(ài)爾蘭82.112.55566014德國(guó)81.214.14694615澳大利亞83.312.74409726塞爾維亞75.811.21521827墨西哥75.08.61762828泰國(guó)76.97.71612929阿爾及利亞76.78.013639210秘魯76.59.212323待判樣品11新加坡83.511.583793待判樣品12加拿大82.313.343602待判樣品13哥倫比亞77.18.312896待判樣品14中國(guó)76.77.916127數(shù)據(jù)來(lái)源:2019年人類(lèi)發(fā)展報(bào)告5.2分析結(jié)果與解釋本案例中,變量個(gè)數(shù)p=3,兩類(lèi)總體各有五個(gè)樣品,有四個(gè)待判樣品,假定兩

41、總體協(xié)方差矩陣相等。在SPSS進(jìn)行統(tǒng)計(jì)量分析,可以得出兩組的平均值.如下表5.2所示:表5.2 兩組樣品的統(tǒng)計(jì)量 組別平均值標(biāo)準(zhǔn)差有效個(gè)案數(shù)(成列)未加權(quán)加權(quán)極高發(fā)展水平國(guó)家x182.500.967055.000x213.060.680455.000x354827.49665.752455.000高發(fā)展水平國(guó)家x176.180.779155.000x28.941.388555.000x314987.42076.439655.000總計(jì)x179.3403.43231010.000x211.0002.40371010.000x334907.40022007.61861010.000在表5.2中,我

42、們可以寫(xiě)出兩組的平均值:得到已知兩個(gè)類(lèi)組的平均值之后,我們繼續(xù)來(lái)計(jì)算樣本協(xié)方差矩陣,計(jì)算結(jié)果如下表5.3所示:5.3 匯聚組內(nèi)矩陣x1x2x3協(xié)方差x10.771-0.338-31.357x2-0.3381.196-1319.725x3-31.357-1319.72548869185相關(guān)性x11.000-0.352-0.005x2-0.3521.000-0.173x3-0.005-0.1731.000我們由表5.3可以寫(xiě)出樣本協(xié)方差矩陣為:進(jìn)一步計(jì)算協(xié)方差矩陣的逆矩陣為:,接下來(lái)求線性判斷函數(shù):解線性方程組得所以在得到線性判斷函數(shù)之后,我們對(duì)已知類(lèi)別的樣品用線性判斷函數(shù)進(jìn)行判別分類(lèi),結(jié)果如下表5.4所示: 表5.4 對(duì)已知的樣本用判別函數(shù)的值進(jìn)行分類(lèi)樣品號(hào)國(guó)家判別函數(shù)的值原類(lèi)號(hào)判別類(lèi)別號(hào)1挪威506.61951112瑞士686.20653113愛(ài)爾蘭452.03964114德國(guó)397.3773411

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶(hù)所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶(hù)上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶(hù)上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶(hù)因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論