判別分析2008_第1頁(yè)
判別分析2008_第2頁(yè)
判別分析2008_第3頁(yè)
判別分析2008_第4頁(yè)
判別分析2008_第5頁(yè)
已閱讀5頁(yè),還剩21頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、第四節(jié)第四節(jié) 判別分析判別分析(Discriminant Analysis )一、判別分析概述1. 1. 判別分析的概念判別分析的概念 判別分析是判別樣品所屬類型的一種統(tǒng)計(jì)方法,是在已判別分析是判別樣品所屬類型的一種統(tǒng)計(jì)方法,是在已知研究對(duì)象分成若干類型知研究對(duì)象分成若干類型( (或組別或組別) )并已取得各種類型的一批并已取得各種類型的一批已知樣品的觀測(cè)數(shù)據(jù),在此基礎(chǔ)上根據(jù)某些準(zhǔn)則建立判別式,已知樣品的觀測(cè)數(shù)據(jù),在此基礎(chǔ)上根據(jù)某些準(zhǔn)則建立判別式,然后對(duì)未知類型的樣品進(jìn)行判別分類。然后對(duì)未知類型的樣品進(jìn)行判別分類。 判別分析應(yīng)用非常廣泛:判別分析應(yīng)用非常廣泛: 在生產(chǎn)、科研和日常生活中經(jīng)常需要

2、根據(jù)觀測(cè)到的在生產(chǎn)、科研和日常生活中經(jīng)常需要根據(jù)觀測(cè)到的數(shù)據(jù)資料,對(duì)所研究的對(duì)象進(jìn)行分類。例如在經(jīng)濟(jì)學(xué)中,根數(shù)據(jù)資料,對(duì)所研究的對(duì)象進(jìn)行分類。例如在經(jīng)濟(jì)學(xué)中,根據(jù)人均國(guó)民收入、人均工農(nóng)業(yè)產(chǎn)值、人均消費(fèi)水平等多種指據(jù)人均國(guó)民收入、人均工農(nóng)業(yè)產(chǎn)值、人均消費(fèi)水平等多種指標(biāo)來判定一個(gè)國(guó)家的經(jīng)濟(jì)發(fā)展程度所屬類型;標(biāo)來判定一個(gè)國(guó)家的經(jīng)濟(jì)發(fā)展程度所屬類型; 在市場(chǎng)預(yù)測(cè)中,根據(jù)以往調(diào)查所得的各種指標(biāo),判別在市場(chǎng)預(yù)測(cè)中,根據(jù)以往調(diào)查所得的各種指標(biāo),判別下季度產(chǎn)品是暢銷、平常或滯銷;下季度產(chǎn)品是暢銷、平常或滯銷; 在醫(yī)療診斷中,根據(jù)某人多種體檢指標(biāo)在醫(yī)療診斷中,根據(jù)某人多種體檢指標(biāo)( (如體溫、血如體溫、血壓、白

3、血球等壓、白血球等) )來判別此人是有病還是無(wú)病。來判別此人是有病還是無(wú)病。2 2判別分析與聚類分析判別分析與聚類分析判別分析兼有判別與分類的兩種性質(zhì),但以判別為主。判別分析兼有判別與分類的兩種性質(zhì),但以判別為主。判別分析判別分析與聚類分析不同之點(diǎn)在于:判別分析必須判別分析判別分析與聚類分析不同之點(diǎn)在于:判別分析必須事先己知分幾類為前提;聚類分析則不必事先確定類型,而事先己知分幾類為前提;聚類分析則不必事先確定類型,而類型的形成是聚類分析的結(jié)果。正因?yàn)槿绱?,判別分析和聚類型的形成是聚類分析的結(jié)果。正因?yàn)槿绱耍袆e分析和聚類分析往往聯(lián)合起來使用,例如判別分析是要求先知道各類類分析往往聯(lián)合起來使用

4、,例如判別分析是要求先知道各類總體情況才能判斷新樣品的歸類,當(dāng)總體分類不清楚時(shí),可總體情況才能判斷新樣品的歸類,當(dāng)總體分類不清楚時(shí),可先用聚類分析對(duì)原來的一批樣品進(jìn)行分類,然后再用判別分先用聚類分析對(duì)原來的一批樣品進(jìn)行分類,然后再用判別分析建立判別式以對(duì)新樣品進(jìn)行判別。析建立判別式以對(duì)新樣品進(jìn)行判別。 3. 3. 地理研究中判別分析的作用地理研究中判別分析的作用對(duì)已分好的類型進(jìn)行合理性檢驗(yàn);對(duì)已分好的類型進(jìn)行合理性檢驗(yàn);判別某地地理類型的歸屬問題和確定區(qū)域界線判別某地地理類型的歸屬問題和確定區(qū)域界線( (兩類判別可兩類判別可以用于劃分地理區(qū)的界線,這時(shí),把界線兩邊視為不同的類以用于劃分地理區(qū)的

5、界線,這時(shí),把界線兩邊視為不同的類型;型;評(píng)價(jià)各要素特征值在判別分析中貢獻(xiàn)率的大小。評(píng)價(jià)各要素特征值在判別分析中貢獻(xiàn)率的大小。4. 4. 判別分析的類型判別分析的類型判別分析按判別的級(jí)數(shù)來區(qū)分,有兩組判別分析和多組判別分判別分析按判別的級(jí)數(shù)來區(qū)分,有兩組判別分析和多組判別分析;析;按區(qū)分不同總體的所用的數(shù)學(xué)模型來分,有線性判別和非線性按區(qū)分不同總體的所用的數(shù)學(xué)模型來分,有線性判別和非線性判別;判別;按判別時(shí)所處理的變量方法不同,有逐步判別和序貫判別等。按判別時(shí)所處理的變量方法不同,有逐步判別和序貫判別等。判別分析可以從不同角度提出問題,因此有不同的判別準(zhǔn)則,判別分析可以從不同角度提出問題,因此

6、有不同的判別準(zhǔn)則,如馬式距離最小準(zhǔn)則、如馬式距離最小準(zhǔn)則、FisherFisher準(zhǔn)則、平均損失最小準(zhǔn)則、最小準(zhǔn)則、平均損失最小準(zhǔn)則、最小平方準(zhǔn)則、最大似然準(zhǔn)則、最大概率準(zhǔn)則等等,平方準(zhǔn)則、最大似然準(zhǔn)則、最大概率準(zhǔn)則等等,僅學(xué)習(xí)僅學(xué)習(xí)FisherFisher兩類判別。兩類判別。二、判別分析的基本原理二、判別分析的基本原理 1 1判別分析的基本準(zhǔn)則判別分析的基本準(zhǔn)則費(fèi)歇費(fèi)歇FisherFisher準(zhǔn)則準(zhǔn)則 貝葉斯貝葉斯BayesBayes準(zhǔn)則準(zhǔn)則 應(yīng)用費(fèi)歇準(zhǔn)則進(jìn)行判別分析時(shí),要對(duì)原始地理數(shù)據(jù)經(jīng)應(yīng)用費(fèi)歇準(zhǔn)則進(jìn)行判別分析時(shí),要對(duì)原始地理數(shù)據(jù)經(jīng)定方定方式進(jìn)行線性組合,使其形成一個(gè)新變量,即判別函數(shù):要

7、使式進(jìn)行線性組合,使其形成一個(gè)新變量,即判別函數(shù):要使判別函數(shù)值能充分地區(qū)分開地理類型,就需要使各類均值之判別函數(shù)值能充分地區(qū)分開地理類型,就需要使各類均值之間的差別最大間的差別最大( (即使不同類之間的差別最大即使不同類之間的差別最大) ),而使各類內(nèi)部,而使各類內(nèi)部的離差平方和為最小的離差平方和為最小( (即使同類間的差別最小即使同類間的差別最小) )換句話說,即換句話說,即要求類間要求類間( (或組間或組間) )均值差與類內(nèi)均值差與類內(nèi)( (或組內(nèi)或組內(nèi)) )方差之比最大方差之比最大,這,這樣就能把地理類型區(qū)分得最清楚。樣就能把地理類型區(qū)分得最清楚。貝葉斯準(zhǔn)則是另一種思路的判別標(biāo)準(zhǔn),而在

8、數(shù)學(xué)上也是使用貝葉斯準(zhǔn)則是另一種思路的判別標(biāo)準(zhǔn),而在數(shù)學(xué)上也是使用了另一種原理和計(jì)算過程。當(dāng)應(yīng)用貝葉斯準(zhǔn)則進(jìn)行判別分析了另一種原理和計(jì)算過程。當(dāng)應(yīng)用貝葉斯準(zhǔn)則進(jìn)行判別分析時(shí)要求把已知的地理數(shù)據(jù)分成幾類時(shí)要求把已知的地理數(shù)據(jù)分成幾類( (或幾組或幾組) )然后計(jì)算出然后計(jì)算出未知地理類型或區(qū)域歸屬于某一已知類型未知地理類型或區(qū)域歸屬于某一已知類型( (或組或組) )的概率值,的概率值,它歸屬于哪一類的概率值最大,就把它劃歸該類它歸屬于哪一類的概率值最大,就把它劃歸該類( (或組或組) );另;另外,還可計(jì)算出劃歸各已知類的錯(cuò)分損失,即錯(cuò)分哪一類的外,還可計(jì)算出劃歸各已知類的錯(cuò)分損失,即錯(cuò)分哪一類

9、的平均損失為最小,就把它判定為該類。平均損失為最小,就把它判定為該類。2 2兩類費(fèi)歇兩類費(fèi)歇(Fisher)(Fisher)判別分判別分析的基本原理析的基本原理1 1)判別分析的三個(gè)假設(shè)條件)判別分析的三個(gè)假設(shè)條件每一個(gè)判別變量不能是其他判別變量的線性組合。每一個(gè)判別變量不能是其他判別變量的線性組合。 各組協(xié)方差矩陣相等。各組協(xié)方差矩陣相等。 各判別變量之間具有多元正態(tài)分布即每個(gè)變量對(duì)于所有各判別變量之間具有多元正態(tài)分布即每個(gè)變量對(duì)于所有其他變量的固定值有正態(tài)分布。在這種條件下可以精確計(jì)其他變量的固定值有正態(tài)分布。在這種條件下可以精確計(jì)算顯著性檢驗(yàn)值和分組歸屬的概率。算顯著性檢驗(yàn)值和分組歸屬的

10、概率。 2 2)基本思想)基本思想 從兩個(gè)總體中抽取具有從兩個(gè)總體中抽取具有A A個(gè)指標(biāo)的樣品觀測(cè)數(shù)據(jù),借助個(gè)指標(biāo)的樣品觀測(cè)數(shù)據(jù),借助方差分析的思想構(gòu)造一個(gè)判別函數(shù)或稱判別式:,其中系數(shù)方差分析的思想構(gòu)造一個(gè)判別函數(shù)或稱判別式:,其中系數(shù)c1c1、c2c2、cpcp確定的原則是使兩組間的區(qū)別最大、而使每確定的原則是使兩組間的區(qū)別最大、而使每個(gè)組內(nèi)部的離差最小有了判別式后,對(duì)于一個(gè)新的樣品,個(gè)組內(nèi)部的離差最小有了判別式后,對(duì)于一個(gè)新的樣品,將它的將它的p p個(gè)指標(biāo)值代入判別式中求出個(gè)指標(biāo)值代入判別式中求出y y值、然后與判別臨界值值、然后與判別臨界值( (或稱分界點(diǎn)后面給出或稱分界點(diǎn)后面給出)

11、)進(jìn)行比較,就可以判別它應(yīng)屬于哪一進(jìn)行比較,就可以判別它應(yīng)屬于哪一個(gè)總體。個(gè)總體。 3)3)判別函數(shù)的導(dǎo)出判別函數(shù)的導(dǎo)出假設(shè)有兩個(gè)總體假設(shè)有兩個(gè)總體G1G1、G2G2、從第一個(gè)總體中抽取、從第一個(gè)總體中抽取n1n1個(gè)樣品,從個(gè)樣品,從第二個(gè)總體中抽取第二個(gè)總體中抽取n2n2個(gè)樣品,每個(gè)樣品觀測(cè)個(gè)樣品,每個(gè)樣品觀測(cè)p p個(gè)指標(biāo)。個(gè)指標(biāo)。假設(shè)新建立的判別式為 現(xiàn)將屬于不同兩總體的樣品觀測(cè)值代入判別式中,則得到對(duì)上邊兩式分別左右相加,再除以相應(yīng)的樣品個(gè)數(shù) 第一組樣品的重心 第二組樣品的重心2)2(ipp)2(i22)2(i11(2)i1)1(ipp)1(i22)1(i11(1)in,.2, 1ixc

12、.xcxcRn,.2, 1ixc.xcxcRP1k(2)kk)2(P1k(1)kk)1(xcRxcRpp2211xc.xcxcR 為了使判別函數(shù)能夠很好地區(qū)別來自不同總體的樣為了使判別函數(shù)能夠很好地區(qū)別來自不同總體的樣 品,自然希望:品,自然希望:第一,來自不同總體的兩個(gè)平均值第一,來自不同總體的兩個(gè)平均值 相差愈大愈好;相差愈大愈好;第二,對(duì)于來自第一個(gè)總體的第二,對(duì)于來自第一個(gè)總體的 要求它們的離差要求它們的離差平方和平方和 越小愈好同樣也要求愈小愈好。越小愈好同樣也要求愈小愈好。)2()1(RR1n1i2)(1)1 (i)RR(2n1i2)2()2(i)RR( 越大越好 12n1in1i

13、2)2()2(i2)1()1(i2)2()1()RR()RR()RR(I利用微積分求極值的必要條件可求出使 I 達(dá)到最大值的c1,c2,cp)2(p)1(pPpP2p21p1)2(2)1(22P2P222121)2(1)1(11P1P212111xxdpCLCLCLxxdCLCLCLxxdCLCLCL)x-x( )x-(x)x-x( )x-(xL(2)l(2)iln1i(2)k(2)ik(1)l(1)iln1i(1)k(1)ikkl21求出c1,c2,cp 后,進(jìn)而算出有了判別函數(shù)之后,欲建立判別準(zhǔn)則還要確定判別臨界值(分界點(diǎn))在兩總體先驗(yàn)概率相等的假設(shè)下,一般常取加權(quán)平均值即:p1i(2)k

14、k)2(p1i(1)kk)1 (xcR,xcR 21)2(2)1(10nnRnRnR 如果R(1)R(2)因此,判別準(zhǔn)則為當(dāng)R大于R(0),則屬于第一類;當(dāng)R小于R(0),則屬于第二類。 這是一種統(tǒng)計(jì)推斷方法。任何統(tǒng)計(jì)推斷都不可能保證完全正這是一種統(tǒng)計(jì)推斷方法。任何統(tǒng)計(jì)推斷都不可能保證完全正確,只能少犯錯(cuò)誤。確,只能少犯錯(cuò)誤。 如果把本來屬于第一類的樣品判成屬于第二類,則稱為第一如果把本來屬于第一類的樣品判成屬于第二類,則稱為第一類錯(cuò)誤;反之,如果把本來不屬于第一類的樣品判成屬于第類錯(cuò)誤;反之,如果把本來不屬于第一類的樣品判成屬于第一類,則稱為第二類錯(cuò)誤。一類,則稱為第二類錯(cuò)誤。 比如,比如,

15、G1G1和和G2G2兩總體的頻率分布曲線,判別臨界值為兩總體的頻率分布曲線,判別臨界值為R0R0,則犯第一類錯(cuò)誤的概率為則犯第一類錯(cuò)誤的概率為R0R0右邊曲線下面的面積右邊曲線下面的面積;犯第二;犯第二類錯(cuò)誤的概率為類錯(cuò)誤的概率為R0R0左邊曲線下面的面積左邊曲線下面的面積。當(dāng)。當(dāng)R0R0變動(dòng)時(shí),變動(dòng)時(shí),都隨之變動(dòng)。這說明兩類錯(cuò)誤是互相關(guān)聯(lián)的,在實(shí)際工都隨之變動(dòng)。這說明兩類錯(cuò)誤是互相關(guān)聯(lián)的,在實(shí)際工作中,我們應(yīng)該考慮犯哪類錯(cuò)誤的危害性大,來取作中,我們應(yīng)該考慮犯哪類錯(cuò)誤的危害性大,來取R0 R0 。 三、兩類判別分析應(yīng)用舉例三、兩類判別分析應(yīng)用舉例今從今從19951995年年世界各國(guó)人世界各國(guó)

16、人文發(fā)展指數(shù)文發(fā)展指數(shù)的排序中,的排序中,選取高發(fā)展選取高發(fā)展水平、中等水平、中等發(fā)展水平的發(fā)展水平的國(guó)家各五個(gè)國(guó)家各五個(gè)作為兩組樣作為兩組樣品,另選四品,另選四個(gè)國(guó)家作為個(gè)國(guó)家作為待判樣品作待判樣品作距離判別分距離判別分析。析。1. 1. 求出判別函數(shù)求出判別函數(shù)2.2.計(jì)算判別臨界值和判別準(zhǔn)則計(jì)算判別臨界值和判別準(zhǔn)則 兩類判別函數(shù)均值和判別指標(biāo)(臨界值)兩類判別函數(shù)均值和判別指標(biāo)(臨界值) R R(1 1)=12.1653 ;R=12.1653 ;R(2 2)=9.6291;=9.6291; R R(0 0)=10.8972 ;=10.8972 ; 因?yàn)橐驗(yàn)镽 R(1 1)RR(2 2)因此,判別準(zhǔn)則為當(dāng))因此,判別準(zhǔn)則為當(dāng)R R大于大于R R(0 0),則屬于第一類;當(dāng)),則屬于第一類;當(dāng)R R小于小于R R(0 0),則屬于第),則屬于第二類。二類。001092x3. 0001664x2. 0081341x1. 0R3對(duì)已知類別的樣品判別歸類對(duì)已知類別的樣品判別歸類上述回判結(jié)果表明:總的回代判對(duì)率為100% 。 4對(duì)判別效果作檢驗(yàn)對(duì)判別效果作檢驗(yàn)計(jì)算綜合距離函數(shù) 其次,再利用公式計(jì)算F值=12.68 F0.05(3,5+5-3-1)=4.76221212121D*p1pnn)2nn)(nn(nnFp1

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論