逐步判別分析_第1頁(yè)
逐步判別分析_第2頁(yè)
逐步判別分析_第3頁(yè)
逐步判別分析_第4頁(yè)
逐步判別分析_第5頁(yè)
已閱讀5頁(yè),還剩3頁(yè)未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、逐步判別分析一、逐步判別分析的基本思想在判別問(wèn)題中,當(dāng)判別變量個(gè)數(shù)較多時(shí),如果不加選擇地一概采用來(lái)建立判別函數(shù),不僅計(jì)算量大,還由于變量之間的相關(guān)性,可能使求解逆矩陣的計(jì)算精度下降,建立的判別函數(shù)不穩(wěn)定。因此適當(dāng)?shù)睾Y選變量的問(wèn)題就成為一個(gè)很重要的事情。凡具有篩選變量能力的判別分析方法就統(tǒng)稱為逐步判別法。逐步判別法和通常的判別分析一樣,也有許多不同的原則,從而產(chǎn)生各種方法。這里討論的逐步判別分析方法是在多組判別分析基礎(chǔ)上發(fā)展起來(lái)的一種方法,判別準(zhǔn)則為貝葉斯判別函數(shù),其基本思路類似于逐步回歸分析,采用“有進(jìn)有出”的算法,即按照變量是否重要,從而逐步引入變量,每引入一個(gè)“最重要”的變量進(jìn)入判別式,同

2、時(shí)要考慮較早引入的變量是否由于其后的新變量的引入使之喪失了重要性變得不再顯著了(例如其作用被后引入地某幾個(gè)變量的組合所代替),應(yīng)及時(shí)從判別式中把它剔除,直到判別式中沒(méi)有不重要的變量需要剔除,剩下來(lái)的變量也沒(méi)有重要的變量可引入判別式時(shí),逐步篩選結(jié)束。也就是說(shuō)每步引入或剔除變量,都作相應(yīng)的統(tǒng)計(jì)檢驗(yàn),使最后的貝葉斯判別函數(shù)僅保留“重要”的變量。二、逐步判別的基礎(chǔ)理論一一對(duì)判別變量附加信息的檢驗(yàn)根據(jù)逐步判別分析的基本思想,進(jìn)行判別分析需要解決兩個(gè)關(guān)鍵的問(wèn)題,一個(gè)是引入或剔除判別變量的依據(jù)和檢驗(yàn)問(wèn)題;另外則是判別函數(shù)的及時(shí)導(dǎo)出的問(wèn)題。其中的理論基礎(chǔ)又在于如何對(duì)判別變量在區(qū)別各個(gè)總體中是否提供附加信息的檢

3、驗(yàn)。為此這里先給出如何對(duì)判別變量在區(qū)別各個(gè)總體中是否提供附加信息進(jìn)行檢驗(yàn)的基礎(chǔ)理論。設(shè)有m個(gè)總體,Gi,G2Gm,相應(yīng)抽出樣品個(gè)數(shù)為山小2nm(nin?nJn每個(gè)樣品觀測(cè)p個(gè)指標(biāo)得觀測(cè)數(shù)據(jù)如下,x111x121x1p1第1個(gè)總體的樣本數(shù)據(jù)為:X211X221X2p1Xg11Xm21Xgp第2個(gè)總體的樣本數(shù)據(jù)為:X11X21X122X222X1pX2pxn21Xn222x“2PX11x12mX21第m個(gè)總體的樣本數(shù)據(jù)為:21x22mX1pX2pXnp1Xnp2mXnpP和多組判別分析一樣,假定各組的樣品都是相互獨(dú)立的正態(tài)隨機(jī)向量,各組的協(xié)方差矩陣都一樣,即7()()()(Xk1,Xk2,Xkp1

4、,2,m;k1,2,n其中,x;j)為組第k個(gè)樣品的第j個(gè)變量,組的均值向量,為協(xié)方差矩陣。再令全部樣品的總均值向量為:(X1,X2,Xp)各個(gè)總體的樣品的均值向量為:(x1(),X2(),Xp()1,2,于是,樣品的組內(nèi)離差陣為:(Xi()X()(Xi()X()樣品的總離差陣為:n)X)(x()X)(x()X)(Xi(i1為了對(duì)這m個(gè)總體建立判別函數(shù),需要檢驗(yàn):Ho:(1)(2)(m)當(dāng)H。被接受時(shí),說(shuō)明區(qū)分這m個(gè)總體是沒(méi)有什么意義的,在此基礎(chǔ)上建立的判別函數(shù)效果不好。當(dāng)H。被否定時(shí),說(shuō)明m個(gè)總體可以區(qū)分,建立的判別函數(shù)有意義。但是為了達(dá)到區(qū)分這m個(gè)總體的目的,原來(lái)選擇的p個(gè)指標(biāo)是否可以減少

5、而達(dá)到同樣的判別效果,為此,也就要去掉一些對(duì)區(qū)分m個(gè)總體不帶附加信息的變量。對(duì)于上述問(wèn)題的檢驗(yàn),可以采用維爾克斯統(tǒng)計(jì)量(Wilks)來(lái)進(jìn)行:WT而n1(pm)1In的極限分布是服從于大樣本的2p(m1)。2為了進(jìn)一步考慮這一問(wèn)題,把p個(gè)變量分解為兩個(gè)部分,如果通過(guò)某種步驟已經(jīng)選中了p1個(gè)變量,我們要檢驗(yàn)增加第p個(gè)變量后對(duì)區(qū)分總體是否提供了附加信息,即對(duì)第p個(gè)變量的“判別能力”進(jìn)行檢驗(yàn)。為此,將矩陣W、T進(jìn)行分塊:P111Wxw2w21W22P11T11T12T21T22于是前p1個(gè)變量的維爾克斯統(tǒng)計(jì)量(Wilks)p1為當(dāng)增加第p個(gè)變量后,p個(gè)變量的維爾克斯統(tǒng)計(jì)量(Wilks)p為,TOCo1

6、-5hzW11W12W21W22t11T1221T22所以有,T22T21T11T121W21W1IW22W21W111W12W21W1V2統(tǒng)計(jì)量n(p(m1)n(p(m1)1)m的極限分布是F(m1),n(p1)m)。用此F統(tǒng)計(jì)量來(lái)檢驗(yàn)給定前p1個(gè)變量的條件下,增加第p個(gè)變量的條件均值是否相等,即是否對(duì)區(qū)分總體提供附加信息。三、引入和剔除變量的依據(jù)和檢驗(yàn)統(tǒng)計(jì)量在上述理論基礎(chǔ)上,下面給出,判別分析中引入變量和剔除變量的依據(jù)和檢驗(yàn)方法。(1)假定我們已經(jīng)計(jì)算了I步,并且已經(jīng)引入了X1,x2,xI,現(xiàn)對(duì)第I1步添加一個(gè)新變量Xr的“判別能力”進(jìn)行檢驗(yàn),為此將變量分為兩組,第一組是前I個(gè)已經(jīng)引入的變

7、量,第二組僅有一個(gè)變量Xr,將這I1個(gè)變量的組內(nèi)離差陣和總離差陣仍分別記為其中,wrrIW22W21W111W12Wrr其中,wrrIW22W21W111W12WrrW11W12W21W22W1W“(I)W,楓WrIT111T12T21T22T11trr(I)i1r”1其中,trrIT22T21T11T12Trrr”1其中,trrIT22T21T11T12TrrTr1T11所以維爾克斯統(tǒng)計(jì)量W1wjTnltJwrrltrr1wrrltrr1,有11VrVr由附加信息檢驗(yàn)準(zhǔn)則,則引入變量的依據(jù)是Vr,引入變量的檢驗(yàn)統(tǒng)計(jì)量為l1Vrn丨mtrr丨wrr丨n丨mVrm1Wrr丨m1它服從于分布Fm1

8、,n丨m。在未選入變量中,選擇使Vr達(dá)到最小值的變量xr,當(dāng)F1rFm1,n丨m時(shí),則認(rèn)為變量Xr提供了附加信息,即Xr的判別能力顯著,由此將Xr作為入選變量X,1。對(duì)已入選的丨個(gè)變量中,要考慮較早選入的變量中其重要性有沒(méi)有較大變化,應(yīng)及時(shí)把不能提供附加信息的變量剔除,易V除的原則同于引進(jìn)變量。(2)如果第丨1步是剔除變量xr1r丨,第|1步剔除變量xr的能力等價(jià)于第I步引入Xr的判別能力,令,引入Xr的判別能力,令,VrWrr丨1trrI1trr丨Wrr丨則相應(yīng)的剔除變量的依據(jù)是Vr,剔除變量的檢驗(yàn)統(tǒng)計(jì)量為1Vrn(丨1)mwrrItrrIn(I1)mVrm1trrIm1它服從于分布Fm1,

9、n(I1)m。如果對(duì)于某個(gè)變量Xr1rI,使得在已經(jīng)入選的變量中的Vr具有最大值,并且滿足F2rFm1,n(I1)m,則認(rèn)為變量Xr不能提供附加信息了,即Xr的判別能力不顯著,由此應(yīng)該將Xr從入選變量中剔除。四、求解判別函數(shù)中的矩陣變換為求判別函數(shù),逐步判別在計(jì)算上采用的是“求解求逆緊湊變換法”將變量逐步引入或剔除,每引入或剔除一個(gè)變量稱為逐步判別的一步。設(shè)初始的組內(nèi)離差矩陣為(Wj0),初始的總的離差矩陣為(tj0),從它們開(kāi)始,每步施行一次變換,假如已經(jīng)進(jìn)行了I步,引入了I個(gè)變量,則第I1步無(wú)論是引入還是剔除變量xr,都要進(jìn)行如下的變化:(I1)Wj1)i),WjJ1)i),tj1tr(;

10、tiwjWrJI),itt?tjirI),i前三步都只引入,而不逐步判別過(guò)程,就是不斷的引入和剔除變量的過(guò)程,可以證明,必考慮剔除,在以后的各步中則首先考慮剔除,如果不能剔除則再考慮引入,當(dāng)既不能剔除又不能引入時(shí),逐步計(jì)算的過(guò)程即告終止,將已選中的變量建立判別函數(shù)。五、建立判別式,對(duì)樣品判別分類IJIJ假設(shè)最終引入了I個(gè)變量,并得到最終變換矩陣WjjI,則第k組的判別函數(shù)為:kInqkCkoCkJXJJk1,2,m;J已入選變量。其中,式中的qk為第k組的先驗(yàn)概率,一般采用樣品頻率代替,k1,2,k1,2,m;i已入選變量CkjnmwjIXkiik1,2,m;i已入選變量。1CkO2CkiXkiiXki為第k組第i個(gè)變量的均值。將每個(gè)樣品x(x1,Xp)(可以是新樣品也可以是原來(lái)的樣品)分別代入k個(gè)判別式中,若y毀maxy(g),則x屬于第h個(gè)總體。并且,此時(shí)

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論