多元統(tǒng)計(jì)分析之判別分析_第1頁(yè)
多元統(tǒng)計(jì)分析之判別分析_第2頁(yè)
多元統(tǒng)計(jì)分析之判別分析_第3頁(yè)
多元統(tǒng)計(jì)分析之判別分析_第4頁(yè)
多元統(tǒng)計(jì)分析之判別分析_第5頁(yè)
已閱讀5頁(yè),還剩36頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

#了y(g/x)了y(g/x)之后,就可以根據(jù)下式算出P(g/x):P(g/x)=exp{y(g/x)}為exp{y(i/x)}i=1因?yàn)閥(g/x)=ln(qf(x))—A(x)gg其中A(x)是ln(qf(x))中與g無(wú)關(guān)的部分。ggqf(x)P(g/x)=所以丈qf(x)iiexpfy(g/x)+△(x)}工exp{y(i/x)+A(x)}exp{y(g/x)}expA(x)}為exp{y(i/x)}exp{A(x)}exp{y(g/x)}迓exp{y(i/x)}i=1由上式知使y為最大的h其P(h/x)必為最大,因此我們只須把樣品x代入判別式中:分別計(jì)算y(g/x),g=1,,k。y(g/x)=maxy(g/x)=maxfy(g/x)}1<g<k例1繼續(xù)用前面距離判別法例1的人文發(fā)展指數(shù)的數(shù)據(jù)作Bayes判別分析。這里組數(shù)k=2,指標(biāo)數(shù)p=3,n1=n2=5q=q==0.51210lnq=lnq=-0.693147_12x(1)=(75.8&94.0&5343.4)'x(2)=(70.44,91.74,3430.4))0.120896-0.038450.120896-0.038450.0000442-0.038450.0292780.00007990.00004420.00007990.00000434代入判別函數(shù):g=1,2y(g/x)=Inq——卩(g壓-1卩(g)+xY-1卩(g)g=1,2得兩組的判別函數(shù)分別為:f=-323.17194+5.79239x+0.26383x+0.03406x123f=-236.02067+5.14013x+0.25162x+0.02533x123將原各組樣品進(jìn)行回判結(jié)果如下:原類號(hào)判別函數(shù)f值判別函數(shù)f2值回判類別

樣品序號(hào)原類號(hào)判別函數(shù)f值判別函數(shù)值回判類別后驗(yàn)概率11326.2073315.663011.000021345.9698333.273511.000031337.7240325.892611.000041298.3032291.492910.998951307.7082298.893910.999962258.5374261.009720.922272254.2452261.335820.999282221.8201232.604921.000092202.9712221.350221.0000102191.8280203.802721.0000回判結(jié)果表明,總的回代判對(duì)率為100%,這與統(tǒng)計(jì)資料的結(jié)果相符,并與前面的距離判別法、Fisher判別法的結(jié)果也相同。待判樣品判別結(jié)果如下:樣品序號(hào)國(guó)家判別函數(shù)力值判別函數(shù)f值后驗(yàn)概率判屬類號(hào)11中國(guó)160.9455185.42521.0000212羅馬尼亞202.2739219.59391.0000213希臘329.3008319.00730.99997114哥倫比亞277.7460273.56380.98501待判樣品的結(jié)果表明,判屬類別與前面的判屬類別完全相同,即中國(guó)、羅馬尼亞屬于第二類,希臘、哥倫經(jīng)亞屬于第一類。例2繼續(xù)用前面距離判別法例2的制度變量的數(shù)據(jù)作Bayes判別分析。由前知:x⑴=(15.7363665.0281825.1490973.80455)'x⑵=(11.562540.106259.22812558.105)'9.85451823.9849414.278375.46076723.98494212.05611.66556769.7318514.278371.665567202.03449.51356_5.46076769.731859.5135664.11822_0.168616-0.02312-0.012320.012615-0.023120.0105320.002008-0.00978-0.012320.0020080.005898-0.00201_0.012615-0.00978-0.002010.02546ln=In-耳=-0?89794lnq2=H一°52325兩組的判別函數(shù)分別為:f=-0.89794-53.9646+1.770953x-0.35051x-0.06328x+1.39083x1234f=-0.52325-36.7998+1.641542x-0.39486x-0.12426x+1.214283x1234判別原則:若樣品的f〉f2,則屬于第一組;若f<f2,則屬于第二組。回判結(jié)果如下:

樣品序號(hào)f1樣品序號(hào)f146.1538249.1303347.14044447.45132546.91096656.41836774.60206857.40508958.392281037.375031142.999431232.599361348.824751437.966521532.665731635.762911728.488171838.478831936.402532036.556192119.538622228.472312350.321912426.29651259.5511082619.229992727.43029原組號(hào)45.92303148.37659146.00474146.92781145.60499154.52272169.05436154.00861150.6805138.79102142.69357136.07388250.32792241.07936234.24727236.99605231.54708239.73073238.04855240.49901225.39307230.56796252.45129231.23333217.72358225.62974232.131982回判組號(hào)后驗(yàn)概率10.64690510.75554510.81911910.7105810.84299210.9063910.99732810.97749310.99969210.73909810.66386120.95688620.75555620.93924120.76974220.70233620.93608920.70616720.7809720.97256520.99584720.84825320.85254220.98966820.9995920.99758820.986965Bayes法的回判結(jié)果與距離判別法的結(jié)果是一樣的,其判對(duì)率為96.3%。待判樣品判別結(jié)果如下:樣品序號(hào)f判屬組號(hào)后驗(yàn)概率2847.3285145.7500710.8289832936.8516437.1258520.5681273023.4642927.5319720.983171在Bayes法下,關(guān)于待判的三個(gè)樣品的判別結(jié)果:江蘇判屬于第一組,安徽和陜西判屬于第二組。其中,安徽的判屬組別與前兩種方法不一樣,這與方法本身有差異有關(guān),但也與安徽的數(shù)據(jù)有關(guān),其數(shù)據(jù)介于一組和二組之間,差別不顯著?!?.5逐步判別法前面介紹的判別方法都是用已給的全部變量x,x,,x來(lái)建立判別式的,但這些變量2p在判別式中所起的作用,一般來(lái)說(shuō)是不同的,也就是說(shuō)各變量在判別式中判別能力不同,有些可能起重要作用,有些可能作用低微,如果將判別能力低微的變量保留在判別式中,不僅會(huì)增加計(jì)算量,而且會(huì)產(chǎn)生干擾影響判別效果,如果將其中重要變量忽略了,這時(shí)作出的判別效果也一定不好。如何篩選出具有顯著判別能力的變量來(lái)建立判別式呢?由于篩選變量的

重要性,近三十年來(lái)有大量的文章提出很多種方法,這里僅介紹一種常用的逐步判別法。1基本思想逐步判別法與逐步回歸法的基本思想類似,都是采用“有進(jìn)有出”的算法,即逐步引入變量,每引入一個(gè)“最重要”的變量進(jìn)入判別式,同時(shí)也考慮較早引入判別式的某些變量,如果其判別能力隨新引入變量而變?yōu)椴伙@著了(例如其作用被后引入的某幾個(gè)變量的組合所代替),應(yīng)及時(shí)從判別式中把它剔除去,直到判別式中沒(méi)有不重要的變量需要剔除,而剩下來(lái)的變量也沒(méi)有重要的變量可引入判別式時(shí),逐步篩選結(jié)束。這個(gè)篩選過(guò)程實(shí)質(zhì)就是作假設(shè)檢驗(yàn),通過(guò)檢驗(yàn)找出顯著性變量,剔除不顯著變量。引入剔除變量所用的檢驗(yàn)統(tǒng)計(jì)量設(shè)有k個(gè)正態(tài)總體N(卩⑴,Z),i=1,…,k,它們有相同的協(xié)方差陣。因此如果它們有產(chǎn)p左別也只能表現(xiàn)在均值向量卩(i)上,今從k個(gè)總體分別抽取n,…,n個(gè)樣品,X⑴,…,X⑴;1k1n1…;X(k),…,X(k),令nHbn=n。今作統(tǒng)計(jì)假設(shè)1nk1k0H:p(1)=P(2)=…=p(k)如果接受這個(gè)假設(shè),說(shuō)明這k個(gè)總體的統(tǒng)計(jì)差異不顯著,在此基礎(chǔ)上建立的判別函數(shù)效果肯定不好,除非增加新的變量。如果H0被否定,說(shuō)明這k個(gè)總體可以區(qū)分,建立判別函數(shù)是有意義的,根據(jù)第三章§3.1檢驗(yàn)H的似然比統(tǒng)計(jì)量為E|e|Ap"|a+E?A(n—k,k-1)Ap"|a+E其中、k,nE=Ma(X(a)—X(a)),(X(a)—X(a))iia=1i=1b——A=£n(X(a)—X)'(X(a)—X)aa=1由A°的定義可知:0<A占1,而|E、T的大小分別反映了同一總體樣本間的差異和k個(gè)總體所有樣本間的差異。因此,A。值越小,表明相同總體間的差異越小,相對(duì)地,樣本間總的差異越大,即各總體間有較大差異,因此對(duì)給定的檢驗(yàn)水平a,應(yīng)由A。分布確定臨界值九,使P{A〉九}=a,當(dāng)A<九時(shí)拒絕H0,否則H0相容。這里A標(biāo)下角標(biāo)A是apapa00(p)強(qiáng)調(diào)有p個(gè)變量。由于Wilks分布的數(shù)值表,一般書(shū)上沒(méi)有,所以常用下面的近似公式:Bartlett近似式:Rao近似式In極限分布在Rao近似式In極限分布在H°成立下x2(p(k—1))kn-(p-1)-k)]-(aa—1—1)極限分布k—1F(k—1,n—(p—1)—k)這里根據(jù)Rao近似式給出引入變量和剔除變量的統(tǒng)計(jì)量。為此先復(fù)習(xí)線性代數(shù)的一個(gè)定理。設(shè)A=(a)且將A剖分為:ijpxp_AA_A=1112AA2122這里A11、A22是方陣且非奇異陣,則'A=A1JA22

—A21A1—11A12=IA22IA11—A12A2—21A21另外在篩選變量過(guò)程中,要計(jì)算許多行列式,在建立判別函數(shù)時(shí)往往還要算逆矩陣,因此需要有一套方便的計(jì)算方法,這就是消去變換法(見(jiàn)后面附錄)。(1)引入變量的檢驗(yàn)統(tǒng)計(jì)量假定計(jì)算l步,并且變量x,x…,x已選入(L不一定等于l),今考察第l+1步添加一12L個(gè)新變量x的判別能力,此時(shí)將變量分成兩組,第一組為前L個(gè)已選入的變量,第二組僅r有一個(gè)變量x,此時(shí)L+1個(gè)變量的組內(nèi)離差陣和總離差陣仍分別為E和TorEL11E21其中Ee—E—(e,e12211r2r,…J)'Lr其中由于其中e(1)rr(注意:同理其中于是所以LT]111T21T'—T—(t,t,…,t)12211r2rLr|E|-|E|e⑴11rr—|E-EE-1E22211112ee???ee11121L1ree???ee21222L2ree?eeL1L2LLLree?eer1r2rLrr一tt?tt一11121L1rtt?tt21222L2rtt?ttL1L2LLLrtt?ttr1r2rrrr12T22E12E22E—1E111r上式行列式里是一個(gè)數(shù),所以可去掉行列式符號(hào),又r相當(dāng)于2。)t(l)rrIE=_TTj—T—TT—1T22211112|E|e(l)—11rr—t⑴rre(l)A—A?—r^L+1Lt(l)rrAt(l)—e(l)L——1——rrrr-Ae(l)L+1rr=E—E22E-1E=e211112—Errr1口|t|-|tt(i)11rr—T—TT—1Trrr1111rA1—AAr

Ar其中Ae(l)―rr-t(l)rr將上式代入Rao近似式中得到引入變量的檢驗(yàn)統(tǒng)計(jì)量:1—An—l—kF——?F(k—1,n—l—k)1rAk—1r若F〉F(k—1,n—l—k),則?判別能力顯著,我們將判別能力顯著的變量中最大的1ra1變量(即使A為最小的變量)作為入選變量記為x。rl+1值得強(qiáng)調(diào)的是:不管引入變量還是剔除變量,都需要對(duì)相應(yīng)的矩陣E和T作一次消去變換,比如說(shuō),不妨設(shè)第一個(gè)引入的變量是X],這時(shí)就要對(duì)E和T同時(shí)進(jìn)行消去第一列的變換得到E⑴和T⑴,接著考慮引入第二個(gè)變量,經(jīng)過(guò)檢驗(yàn)認(rèn)為顯著的變量,不妨設(shè)是x2,這時(shí)就要對(duì)E⑴和T⑴同時(shí)進(jìn)行消去第二列的變換得到E⑵和T⑵,對(duì)剔除變量也如此。(2)剔除變量的檢驗(yàn)統(tǒng)計(jì)量考察對(duì)已入選變量x的判別能力,可以設(shè)想已計(jì)算了l步,并引入了包括x在內(nèi)的某Lrr個(gè)為量(L不一定等于l)。今考察擬在第l+1步剔除變量x的判別能力,為方便起見(jiàn),可以r假設(shè)x是在第l步引入的,也即前1-1步引進(jìn)了不包括x在內(nèi)的1-1個(gè)變量。因此問(wèn)題轉(zhuǎn)化rr為考察第1步引入變量x(在其它1-1個(gè)變量已給定時(shí))的判別能力,此時(shí)有re(1—1)A=—rt(1—1)rr對(duì)相應(yīng)的E(1)、T(1),再作一次消去變換有:于是e(1+1)=<于是e(1+1)=<ije(1)■e(1)rj?rre(1)—e(1)e(1門(mén)e(1)jirrj*rr1e(1)rr—e(1)fe(1)ir'rrt(1+1)=<ijt(1t(1)rjrrt(1)—t(1)t(1)■■■>(1)jirrjrr11(1)rr—t(1r't(1)ir1rr1e(1)A=rr-r1t(1)rrt(1)—¥¥—e(1)rri=r,j主ri豐r,j豐ri=r,j=ri豐r,j=ri=r,j豐ri豐r,j豐ri=r,j=ri豐r,j=r從而得到剔除變量的檢驗(yàn)統(tǒng)計(jì)量:1—An—(L—1)—mF二f?—--?F(k—1,n—(L—1)—k)2rAm—1r在已入選的所有變量中,找出具有最大A(即最小F)的一個(gè)變量進(jìn)行檢驗(yàn)。若r2rF<F,則認(rèn)為x判別能力不顯著,可把它從判別式中剔除。2rar具體計(jì)算步驟(1)準(zhǔn)備工作計(jì)算各總體中各變量的均值和總均值以及E=(e)和T=(t)jpxpjpxp規(guī)定引入變量和剔除變量的臨界值F進(jìn)和F出(取臨界值F>F>0,以保證逐步進(jìn)出進(jìn)出篩選變量過(guò)程必在有限步后停止)在利用電子計(jì)算機(jī)計(jì)算時(shí),通常臨界值的確定不是查分布表,而是根據(jù)具體問(wèn)題,事先給定。由于臨界值是隨著引入變量或剔除變量的個(gè)數(shù)而變化的,但是當(dāng)樣本容量n很大時(shí),它們的變化甚微,所以一般取F卄=FAF,如果想少選入幾個(gè)進(jìn)出=a變量可取F=F=10,8,等等。如果想多選入變量可取F、卄=F=1,0.5,等等,顯然如果進(jìn)出進(jìn)出取F=F=0則全部變量都被引入。進(jìn)出(2)逐步計(jì)算假設(shè)已計(jì)算1步(包括1=0),在判別式中引入了某-個(gè)變量,不妨設(shè)x,x,…,x,則12L第1+1步計(jì)算內(nèi)容如下:i)計(jì)算全部變量的“判別能力”對(duì)未選入變量x計(jì)算對(duì)未選入變量x計(jì)算Aiie(1)=~ii_t(1)iii=L+1,…,P對(duì)已選入變量x計(jì)算A=tj=1,…,Ljje(1)iiii)在已入選變量中考慮剔除可能存在的最不顯著變量,取最大的A(即最小的F)。j2j假設(shè)A=max{A},這里jg-表示x屬已入選變量。作F檢驗(yàn):剔除變量時(shí)統(tǒng)計(jì)量為:rjGLjj

廠1-An-k-(L-1)TOC\o"1-5"\h\zF=r-2rAk-1r若F<F,則剔除x,然后對(duì)E⑴和T(i)作消去變換。r出r若F〉F,則從未入選變量中選出最顯著變量,即要找出最小的A(即最大的F)。2r出_i1i假設(shè)A=min{A},這里zeL表示x屬于未入選變量。作F檢驗(yàn):引入變量時(shí)統(tǒng)計(jì)量為riiieLF1-An-k-L1rAk-1r若F〉F,則引入x,然后對(duì)E(i)和T(i)作消去變換。1r進(jìn)r在第l+1步計(jì)算結(jié)束后,再重復(fù)上面的i)、ii)直至不能剔除又不能引入新變量時(shí),逐步計(jì)算結(jié)束。(3)建立判別式,對(duì)樣品判別分類經(jīng)過(guò)第二步選出重要變量后,可用各種方法建立判別函數(shù)和判別準(zhǔn)則,這里使用Bayes判別法建立判別式,假設(shè)共計(jì)算1+1步,最終選出L個(gè)變量,設(shè)判別式為:g=1,…,ky=1q+C(g)+壬C(g)x

g=1,…,ki=1將每一個(gè)樣品x=(片,…,x丿'(x可以是一個(gè)新樣品,也可以是原來(lái)n個(gè)樣品之一。)分別代入k個(gè)判別式y(tǒng)g中去。若y(h/x)=max{y(g/x)},則xe第h總體。1<g<k順便指出兩點(diǎn):(1)在逐步計(jì)算中,每步都是先考慮剔除,后考慮引入,但開(kāi)頭幾步一般都是先引入,而后才開(kāi)始有剔除,實(shí)際問(wèn)題中引入后又剔除的情況不多,而剔除后再重新引入的情況更少見(jiàn)。(2)由算法中可知用逐步判別選出的L個(gè)變量,一般不是所有L個(gè)變量組合中最優(yōu)的組合(因?yàn)槊看我攵际窃诒A粢岩胱兞炕A(chǔ)上引入新變量)。但在L不大時(shí),往往是最優(yōu)的組合。例1再次利用人文發(fā)展指數(shù)的三項(xiàng)指標(biāo)作逐步判別分析。(1)計(jì)算兩類各變量的均值、總均值、組內(nèi)離差陣、總離差陣如下:x1x2x1x2分類均值第一類75.8894.08第二類70.4491.74總均值73.1692.91X35343.43430.24386.8組內(nèi)離差陣為:123.04173.704-4447W=S+S=12173.704532.9-11568.78-4447-11568.782100372總離差陣為:T=立"a(X(a)-Xy(X(a)kk-X)a=1k=1197.02206.0721572.52=206.07547.06-185.2421572.52-185.24112512077.62)逐步計(jì)算

設(shè)引入變量的臨界值為行,剔除變量的臨界值為F2,今取F]=F2=2。第一步:(L=0)A1=AA1=A2h==0.6245t197.0211532.9——一=0.9741A3210037211251207.6=A3210037211251207.6=0.1867最?。┍静綗o(wú)剔除,考慮引進(jìn)x3=34.8542廠1—An—m—l1—0.186710—2—=34.8542Am—10.18672—13F>F=2,故引進(jìn)變量x3。123對(duì)矩陣W、T同時(shí)對(duì)x3作消去變換得W⑴及T⑴如下:X1X2X3X1113.6246149.21010.002117244W(1)X2149.2101469.17950.005507967-0.002117244-0.0055079674.76106E-073X1155.6579206.4252-0.0019174T⑴X2206.4252547.0569516464E-05x30.0019174-1.6464E-058.88793E-08第二步:(L=1)113.6246A1A2=A1A2155.6579469.1795=0.8576547.05695本步無(wú)剔除(因只引進(jìn)一個(gè)變量x3),考慮引進(jìn)變量x1,—A10—2—1F=1?-—=2.5896A2—11F>F=2故引進(jìn)變量x10對(duì)矩陣W⑴、T⑴同時(shí)對(duì)X]作消去變換得W⑴、T⑴如下:X1X2X3X10.008011.313181.86337E-05W(2)X2-1.31318273.23920.0027276X3X11.86337E-05-0.00272765.15558E-070.0064243451.326146-1.23177E-07T⑵X2-1.326146273.30690.002559x3-1.23177E-05-0.0025591.12497E-07第三步,(L=2)0.006424345對(duì)已入選的變量計(jì)算:A=0.006424345=0.72996(最大)10.008801

人1.12497E-07=0.2182A==0.21823一5.15558E-07對(duì)未入選的變量計(jì)算:Ac=一:——=0.999752273.30691-A10-2-1考慮X的剔除:F=1-=2.5896A2-11F>F=2故?不能剔除。211-A10-2-2考慮工2的引進(jìn):F=2-=0.0015A2-22F>F=2故x2不能剔除。12至此既無(wú)變量剔除,又無(wú)變量引入,故逐步計(jì)算結(jié)束,這時(shí)引入的重要變量為X](出生時(shí)預(yù)期壽命)與x3(調(diào)整后人均GDP)。(3)計(jì)算結(jié)果(a)判別函數(shù)為f1(f1(x)=lnq1+C01Cxa1aa=1=-323.17194+5.79239x+0-x+0.03406x123f(x)=-236.02067+5.14013x+0-x+0.02533x2123(b)檢驗(yàn)判別效果對(duì)參予選判別函數(shù)的已知分類的10個(gè)樣品進(jìn)行回判結(jié)果如下:序號(hào)原分類號(hào)判別函數(shù)f,的值判別函數(shù)f的值計(jì)算分類號(hào)后驗(yàn)概率11300.0881290.752610.999921319.8506308.363111.000031311.6048300.982211.000041273.0019267.362510.996551287.2086279.343010.99966223.0012237.183120.960172229.2077237.457120.999782197.7588209.693221.000092176.8520196.439821.0000102170.5633183.522121.0000回判結(jié)果表明,第一類、第二為的判對(duì)率均為100%。對(duì)未知分類的4個(gè)待判樣品的判別結(jié)果如下:樣品序號(hào)國(guó)家f值人值后驗(yàn)概率判屬類號(hào)11中國(guó)140.0238165.47171.0000212羅馬尼亞176.7088195.21191.0000213希臘304.5535295.40530.99989114哥倫比亞253.9222250.84250.95601從待判樣品結(jié)果表明:判屬類別與前面的結(jié)果完全一致,即中國(guó)、羅馬尼亞屬于第二類;

希臘、哥倫比亞屬于第一類??傊?,從逐步判別法所得的結(jié)果可看出,盡管這里沒(méi)有利用變量x(成人識(shí)字率),但所

2

得的判別結(jié)果與利用全部變量所得的判別結(jié)果完全一致,這充分說(shuō)明了三個(gè)變量在判別式中

所起的作用不同。例2再次對(duì)全國(guó)30個(gè)省市自治區(qū)1994年的影響各地區(qū)經(jīng)濟(jì)增長(zhǎng)差異的4項(xiàng)制度變量作逐步判別分析。x⑵=(11.562540.10625599.62355301.402-246.363599.6235W=356.959241.63917136.51921743.296—359.9231277.685T—1277.6859350.071T790.12742628.065563.66314293.751x⑴=(15.7363665.02818(x⑴=(15.7363665.02818(2)逐步計(jì)算取F1=2.5,F2=2第一步:(L=0)計(jì)算A=0.68448825.1490973.80455)9.22812558.105)'356.9592146.5192「41.639171743.2965050.86237.839237.8391602.955790.1274563.663「2628.0654293.7516703.1561867.1551867.1553209.612A=0.5669912A=0.7535053A=0.499423(最小)4本步無(wú)剔除,考慮引進(jìn)x4F=25.05772>2.5,故引進(jìn)x4。第二步:(L=1)計(jì)算A=0.449281A=0.4716542A=0.4452(最小)3本步無(wú)剔除(因只引進(jìn)一個(gè)x4),考慮引進(jìn)x3F=2.877704>2.5,故引進(jìn)x3。第三步:(L=2)對(duì)已入選的變量計(jì)算A=0.753505(最大)3A=0.499423考慮x3的剔除F=2.877704>2,故x不能剔除對(duì)未入選變量計(jì)算A=0.4244151A=0.420346(最?。?考慮x2的引進(jìn)F=1.401059>2.5,故x2不能引進(jìn)。至此既無(wú)變量剔除又無(wú)變量可引入,故逐步計(jì)算結(jié)束(3)計(jì)算結(jié)果(a)判別函數(shù)為f=-0.89794-43.8774+0.070771x+1.140569x34f=-0?52325-26.852+0.003024x+0.905768x34

樣品序號(hào)原組號(hào)回判組號(hào)后驗(yàn)概率1110.7547082110.6616633110.7812064110.753595110.6566336110.9347127110.9937738110.9260389110.99947910120.86670211110.78627912220.86231813220.63474114220.84839215220.69601816220.83535517220.97728718220.65476719220.94150220220.92850821220.99102922220.90271523220.58259824220.97271425220.99911426220.9965227220.986391待判樣品的判別結(jié)果如下:樣品序號(hào)判屬組號(hào)后驗(yàn)概率(b)檢驗(yàn)判別效果回判結(jié)果如下:2810.58579529300.9451780.9724222930昱主要是:市場(chǎng)化程度&丿和開(kāi)放度計(jì)算結(jié)果表明影響各地區(qū)經(jīng)濟(jì)增長(zhǎng)差異的制度變量主昱主要是:市場(chǎng)化程度&丿和開(kāi)放度(x3),其回判的結(jié)果與實(shí)際是相符的?!?.6附注這里不加證明的指出以下幾個(gè)結(jié)論:1判別函數(shù)中分界點(diǎn)的選取分界點(diǎn)的選取對(duì)判別效果的影響還是很大的,如果選取不當(dāng),很可能使一個(gè)好的判別函數(shù)變得毫無(wú)分類的價(jià)值。對(duì)分界點(diǎn)的取法可以有各種不同的出發(fā)點(diǎn)。前邊曾給出的分界點(diǎn)為:ny⑴+ny⑵

y=—120n+n12但也可以人為地從經(jīng)驗(yàn)或問(wèn)題的實(shí)際背景出發(fā)指定y0值,也可以把n+n2個(gè)y(x)值從小到大排隊(duì),適當(dāng)?shù)厝∑渲幸稽c(diǎn)作分界點(diǎn)y0;或者可以取一個(gè)區(qū)間(c,C),,此處c〉c,然01221后規(guī)定若y(x)>c,則判xeG21<若y(x)<c,則判xeG12

若c<y(x)<c,則待定

12如果想從數(shù)學(xué)上來(lái)討論還有平均錯(cuò)判率最小法即使E=qiP(2/1)+q乂P(1/2)達(dá)到最小值的解或最小最大錯(cuò)判率法即使兩個(gè)錯(cuò)判概率P(2/1)與P(1/2)中最大的一個(gè)盡可能地小,它們都是從不同的出發(fā)點(diǎn)確定分界點(diǎn),有興趣的讀者,可查看本書(shū)后面列出的參考書(shū)。判別法則的評(píng)價(jià)無(wú)論用哪一種判別方法,去判斷樣品的歸屬問(wèn)題,均不可能永遠(yuǎn)作出正確的判斷,一般總會(huì)發(fā)生錯(cuò)判,用錯(cuò)判概率的大小來(lái)衡量判別效果是很自然的想法,那么如何來(lái)計(jì)算錯(cuò)判的概率呢?比如只有兩個(gè)總體q,G2,要計(jì)算錯(cuò)判概率P(2/1)和P(1/2)就需要知道總體的分布以及判別函數(shù)的分布,從數(shù)學(xué)上是可以對(duì)它們進(jìn)行討論的,但實(shí)用起來(lái)總是不太方便。目前已研究出很多種估計(jì)錯(cuò)判概率的方法。除本章例子中所用的方法即用建立判別函數(shù)的訓(xùn)練樣品進(jìn)行回代,用錯(cuò)判的樣品數(shù)比上全體樣品數(shù)作為錯(cuò)判概率的估計(jì)。但是經(jīng)驗(yàn)證明這種方法估計(jì)錯(cuò)判概率往往偏低,于是產(chǎn)生一種改進(jìn)的方法即將已知類別的樣品分成兩部份,用其中一大部份樣品(例如85%)的觀測(cè)數(shù)據(jù)去建立判別函數(shù)和判別準(zhǔn)則,用剩余的一小部份樣品(15%)的觀測(cè)數(shù)據(jù)進(jìn)行判斷,將錯(cuò)判的比例作為錯(cuò)判概率的估計(jì)。它的優(yōu)點(diǎn)是容易計(jì)算,又不要求已知總體的分布及判別函數(shù)的分布,缺點(diǎn)是在建立判別函數(shù)時(shí),未能充分利用全部樣品的信息,且樣品量較大。這里再介紹一種常用的方法——刀切法。具體做法是:從總體G,G中分別取出n,n個(gè)樣品,令n+n=n,對(duì)n個(gè)樣品加以編號(hào),從第1121212號(hào)、2號(hào)直至Un號(hào)。在n個(gè)樣品中,先去掉第1號(hào)樣品,用余下的n-1個(gè)樣品建立判別函數(shù)和判別準(zhǔn)則,然后把第1號(hào)樣品的觀測(cè)數(shù)據(jù)代入,看它被判歸為哪個(gè)總體,如果判錯(cuò)加以記錄。把第1號(hào)樣品放回

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論