判別分析方法_第1頁
判別分析方法_第2頁
判別分析方法_第3頁
判別分析方法_第4頁
判別分析方法_第5頁
已閱讀5頁,還剩6頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

判別分析距離判別分析距離判別的最直觀的想法是計算樣品到第i類總體的平均數(shù)的距離,哪個距離最小就將它判歸哪個總體,所以,我們首先考慮的是是否能夠構造一個恰當?shù)木嚯x函數(shù),通過樣本與某類別之間距離的大小,判別其所屬類別。設X=31%),和Y=(y1*)'是從期望為□=(%,……,如)'和方差陣Z=(氣/.)>0的總體G抽得的兩個觀測值,則稱X與Y之間的馬氏距離TOC\o"1-5"\h\z為:mXmd2=(X-V),Z-1(X-V)樣本X與g.之間的馬氏距離定義為X與q類重心間的距離,即:d2=(X-N),Z-1(X-Qi=1,2,k附注:111、馬氏距離與歐式距離的關聯(lián):z=I,馬氏距離轉換為歐式距離;2、馬氏距離與歐式距離的差異:馬氏距離不受計量單位的影響,馬氏距離是標準化的歐式距離兩總體距離判別先考慮兩個總體的情況,設有兩個協(xié)差陣£相同的p維正態(tài)總體,對給定的樣本Y,判別一個樣本Y到底是來自哪一個總體,一個最直觀的想法是計算Y到兩個總體的距離。故我們用馬氏距離來給定判別規(guī)則,有:如d2y,g)<d2y,G)如d2y,g)<如d2y,g)<d2y,G)如d2y,g)<d2y,G)如d2(y,G)=d2(y,G)12d2(y,G)-d2(y,G)TOC\o"1-5"\h\z21二(y-m),S-1(y-m)-(y-m),S-1(y-m)2211\o"CurrentDocument"=y,£Ty-2y,£-ip+『£-甲-(y'Z-iy-2y,£-1日+『£-甲)222111=2y,£-i(p-p)-(p+p),£-1(p-p)121212=2[y-(pi:p2)]'£-i(p-p)2i2令貴=匕[匕a=£-1(|lx_r)=(a,a,…,ay21212pW(y)=(y_r)'a=a'(y-r)=a(y_r)^—^a(y_r)111ppp=ay-ap則前面的判別法則表示為〃ygG「如W(y)>0,<ygG,如W(y)<0。待判,2如W(Y)=0當n、n和£已知時,a=s-i(m-m)是一個已知的p維向12量,W(y)是y的線性函數(shù),稱為線性判別函數(shù)。a稱為判別系數(shù)。用線性判別函數(shù)進行判別分析非常直觀,使用起來最方便,在實際中的應用也最廣泛。當總體的協(xié)方差已知且不相等〃ygG,如d2偵,G)<d2(y,G),TOC\o"1-5"\h\z\o"CurrentDocument"<ygG,如d2偵,G)<d2(y,G221待判,如d2(y,G)=d2(y,G)12d2(y,G)-d2(y,G)\o"CurrentDocument"21=(y-m),s-1(y-m)-(y-m)S-1(y-m)222111此判別函數(shù)是y的二次函數(shù)多總體距離判別分為協(xié)方差陣相同和協(xié)方差陣不同兩種情況,它們的判別函數(shù)有差異,而判別準則無差異。一般來說,用距離最近準則判別是符合

習慣的,但會發(fā)生誤判,各總體發(fā)生誤判的概率和閥值的選擇有關。當總體靠得很近,無論用那種方法誤判概率都很大,作判別分析無意義。因此,判別分析的前提是各總體均值必須有顯著差異。設有個K總體,分別有均值向量m(i=1,2,...,k)和協(xié)方差陣Z.=Z,各總體出現(xiàn)的先驗概率相等。又設Y是一個待判樣品。則與的距離為(即判別函數(shù))d2(y,G)=(y一日)'£-i(y一日)TOC\o"1-5"\h\ziii=yfS-iy-2y2ip+p,£—ip‘上式中的第一項K,Z1K與,無關,則舍去,得一個等價的函數(shù)」g(Y)=-2yS-im+mfS-im'將上式中提-2,得''''g(Y)=-2(y,S-im-0.5mS-im)令f(Y)=(y$-im-0.5mS-im)\o"CurrentDocument"則距離判別法的判別函數(shù)為''f頃)=maxf(x),則y1iik1\o"CurrentDocument"令f(Y)=(y'S-im-0.5m'S-im)判別規(guī)訕為'f頃)=maxf(x),則y1iik1距離判別只要求知道總體的數(shù)字特征,不涉及總體的分布函數(shù),當參數(shù)和協(xié)方差未知時,就用樣本的均值和協(xié)方差矩陣來估計。距離判別方法簡單實用,但沒有考慮到每個總體出現(xiàn)的機會大小,即先驗概率,沒有考慮到錯判的損失。貝葉斯判別法正是為了解決這兩個問題提出的判別分析方法。Bayes判別法基本思想貝葉斯判別法是源于貝葉斯統(tǒng)計思想的一種判別分析法。這種方法先假定對研究對象已有一定的認識,這種認識以先驗概率來描述,然后取得一個樣本,用樣本來修正已有的認識,得到后驗概率分布,比較這些概率的大小,將待判樣品判歸為來自概率最大的總體。對多個總體的判別考慮的不是建立判別式,而是比較后驗概率的大小。Bayes判別法1、引例辦公室新來了一個雇員小王,小王是好人還是壞人大家都在猜測。按人們主觀意識,一個人是好人或壞人的概率均為0.5。壞人總是要做壞事,好人總是做好事,偶爾也會做一件壞事,一般好人做好事的概率為0.9,壞人做好事的概率為0.2,一天,小王做了一件好事,小王是好人的概率有多大,你現(xiàn)在把小王判為何種人。P(好人/做好事)二/、尸好人)尸做好事/好人)—P好人)P(做好事/好人)+P(壞人)P(做好事/壞人)=0.50.9二0820.50.9+0.50.2.P(壞人/做好事)/、P壞人)P做好事/壞人)P好人P(做好事/好人)+P(壞人)P(做好事/壞人)0.50.2==0.180.50.9+0.50.2貝葉斯公式:P(礦刀)二機B):B)iSP(A|B)P(B)ii2、bayes判別法設總體G.(i=1,2,,k),G.具有密度函數(shù)f.3),并且根據(jù)以往的統(tǒng)計分析,知道弓出現(xiàn)的概率為%。當樣本%發(fā)生時,它屬于某類的概率為:p(gix)=qf隊)i0sqf(%)則判別規(guī)則:則%屬于q。等價于與屬于q。PGiqf3)_qf3)P(G1X)-//0-max「%、l0£qf(X)i<i<k£qf(X)jj0~~jj0qf(x)=maxqf(x),ll0ii01ik特別情況下,如總體服從正態(tài)分布,則對應的bayes判別法推到如下:1廠1,若"(x)二(2p|S])]2exp[-2(x-m())S,t(x-m())]1J,、,—、_貝U,qf⑴=q〔⑵S)12exp[-2(x-m⑺)s「i(x-m⑺)]i上式兩邊取對數(shù)并去掉與i無關的項,則等價的判別函數(shù)為:Z⑴=ln(qf⑴)=inq—1ln|£|—1(x—岫公心—叩)/i2Z(x)=max[Z(x)]當協(xié)方差陣相等,即則判別函數(shù)退化為:,、、1,z(X)=當協(xié)方差陣相等,即則判別函數(shù)退化為:,、、1,z(X)=inq-_(x—H(i))E-i(x1—HQ))]=—_[—2inq+(x—H(i))£-1(x—H(i))]2i令F(x)=—2lnq+(x—H。))'£-i(x—H①)]P(x)=-2lnq-2凹⑴,£-ix+凹⑴,£-i凹⑴P(x)=min[P(x)]問題轉化為若/1iki*刀,則判xGt再令:,、】1m(x)二Inq-.凹⑴,£-ig①+凹⑴,£-ixm(x)=max[m(x)]xG問題轉化為若11lki,則判i1?=,?=/=—當先驗概率相等,’人,有,、1m(x)=—2h(i)£-iH(i)+H①£—ix完全成為距離判別法。二、最小平均誤判代價準則在進行判別分析時難免會發(fā)生誤判,各種誤判的后果有所不同。我們可以根據(jù)誤判的代價來規(guī)定判別規(guī)則,最小平均誤判代價準則。

設總體G,(i=1,2,,k),G.具有密度函數(shù)Z(x),并且根據(jù)以往的統(tǒng)計分析,知道G,出現(xiàn)的概率為q廣q1+Q2+Qfc=1又D1,D2,…,Dk是R(p)的一個分劃,判別法則為:當樣品X落入D.時,則判XG,=L2.3、?■,M'關鍵的問題是尋找D1,D2,…,Dk分劃,這個分劃應該使平均錯判率最小。1、平均錯判損失用P(j/i)表示將來自總體Q的樣品錯判到總體Q的條件概率。p(j/i)=P(XgD/G)=jf(x)dxic(j/i)表示相應錯判所造成的損失。則來于第i個總體被錯判到其它總體的錯判損失為:c(j/i)P(c(j/i)表示相應錯判所造成的損失。則來于第i個總體被錯判到其它總體的錯判損失為:c(j/i)P(j/i)(i=1,2,3,L,k)j=1由于不同的總體有不同的先驗概率,則總平均損失ECM為kk—ECM=qc(j/i)P(j/i)i=1j=1使ECM最小的分劃,是Bayes判別分析解2、定理若總體G*G2,「?,Gk的先驗概率為"T23一…時,且相應的密度函數(shù)為{f.(x)},損失為C(j/沖,則劃分的Bayes解為。=*14(x)=minA;(x)Ji=1,2,3,…性其中'E"h(x)=kqC(j/iX/(x)ji=1''含義是:當抽取了一個未知總體的樣品值X,要判別它屬于那個總體,只要先計算出k個按先驗概率加權的誤判平均損失然后比較其大小,選取其中最小的,則判定樣品屬于該總體。為了直觀說明,作為例子,我們討論k=2的情形ecm=qC(2/1)jf(x)dx+qC(1/2)jf(x)dxTOC\o"1-5"\h\z1122D2D1=qC(2/1)jf(x)dx+qC(1/2)jf(x)dx1122R-DD=qC(2/1)?f(x)dx+qC(1/2)寸(x)dx1=qC(2/1)-qC(2/1)Q(x)dx+qC(1/2)攵(x)dxDD=qC(2/1)+o[qC(1/2)f(x)-qC(2/1)'/(x)]dxD1券可見yrqec(曾2)臂&件qC(2冷f有分劃<0}12211qC(1/2)f^(x)-qC(2/1")<0f(x)/f(x)>qC(2/1)/qC(1/2)1221v=f(x)/f(x)d=qC(2/1)/qC(1/2)1221Bayes判別準則為:xeG1若v(x)>d1xeG若.(x)<d>2待判若v(x)=dFisher判別分析基本思想fisher判別分析的基本思想是投影,即將k組m元數(shù)據(jù)按向量投影為一元數(shù)據(jù),同時使得組間距離最大,同組內距離最小。其中組間距離可用利用組間平方和統(tǒng)計,組內距離利用組內平方和統(tǒng)計。兩總體fisher判別法投影函數(shù)”3)=c‘X,它將m元數(shù)據(jù)投影到一維直線上。兩總體為:G1總體:X(1),Xf),......,X"G2總體:#2),磚2),……,X?)其中X。')=(x(j),,x0)),(j=1,2;i=1,2,,n\n)TOC\o"1-5"\h\zl11ip12分別從兩個總體中的樣品值,代入判別函數(shù)中:u(1)=cx(1)+c%(1)+cx(1)i=1,2,,ni1i12i2Pip1有:U(1)=C』(2)+C』(2)++CpX(2)i=1,2,,打2i1i12i.2考察:1寸五(1)=一〉n—i1i=1_1V2U(2)=—〉n—21=1氣⑴=葉)之玨建)……Gj總體的“重心”k=1〉勺42)……g2總體的“重心”k=1使得越大越好。記B=也⑴一訊2))2為組間離差,A=組內離差,則有:(訊1)—訊2))2(U(l)—U⑴)2+(U(2)—U)2))2ii—U(1))2+,=1(泌2)—"(2))2為8ln/8lnB8lnA=0dCkkk11費X8ln/8lnB8lnA=0dCkkk11費X-—=X——B5CA8G而1花費—X——=———,TOC\o"1-5"\h\z_p__p_2_p_2B=(i)(1)—訊2))2=(2c.x(1)—2cx(2))=[/c.(x(1)—x(2))]Z-IIk—IkZ-IIkki=1i=1i=1M2fi=1其中:dfc=x(1)—x(2)0B芯=2(注而A=1=1+Ck(X(2—X:2))]2—U(1))2+i=1—U(2))2=i=1k=1C/A(?f1))]2i=1k=1丁1pp=A[Zcfc(%£)—^)*Zci(%i(i1)—^)]%C2)%C2))*〉q(x(2)—x(2))]l=1pp丁1=ZZc^ci[Z3"7")3(1)F1))k=1l=1i=12、p、p+/(x(2)—x(2))(x(2)—x(2))]=££ccsl1'比k讓l八知klkli=1k=1l=1弟1弟2.Skli=1=£(x(1—x")(x(1—x(1))+〉(x(2)—X?))(x(?—xSkli=11=1從而1(v-八2鵬呢=脖品l=1l=1。=;(£鵬)l=1程組:即:0不依賴于k,僅僅起到擴大九的作用,對投影向量無影響。令0=1,則有方P

dk=£ClS程組:即:D=SCC=S—1D對于兩總體先驗概率相等的前提下,一般常取U°為漢1),漢2)的加權均值即n12(1)+n0(2)u=—10n1+n2,x),將其帶入判別函數(shù)中p如有原始數(shù)據(jù)求得譏1)>訊2)則針對一新樣品X=,x),將其帶入判別函數(shù)中p判X6G]當u>u0判X6G2當u<u0待判當u=u0如有原始數(shù)據(jù)求得譏1)<訊幻則針對一新樣品x=(氣……,七),將其帶入判別函數(shù)中求值",如滿足判乂£判乂£Gi判XGG2待判當U<u。當U>u。當U=Uo多總體fisher判別法設從總體Gt(t=1x"=3",.c2,,設從總體Gt(t=1x"=3",.c2,,cm,x('))'(t=1,,k;i=1,,九《)令c=(c],c2,……,cm)‘為m維空間中任一向量,"3)=c,x為X按C'的法線方向上的投影,上述k個組中的m元數(shù)據(jù)投影后為:6廣成(*板成2*),......,c‘X*)16廣成(*板成2*),......,c‘X*)1&記X(k)=—XX0)七匕Jjk..尸1B二0其中(1)B=(2)X。)(3)—X=那么組間平方和:2,(c'X(t)-c'X)t=12Wt=1(X(t)一彳)0(「)-》),]c=c'Bc11ynZ^10(。-彳)0(。-X)']稱為組間離差陣;t噂),為q的樣本均值;匕、)為總樣本均值;,c'X(1)m記X⑴1V1=_〉X(D氣乙J.,c'X(2)m記X(2)?n21V2=—〉X0)打2乙jG2:c<XC2),c<X(2),Gi:cX(1),c<XC1),組內平方和:人0=££(c普)-c'X(t))2=c,[££(%(t)-X(t))(X,-X(t))']ct=1;=1t=1;=1=c'Ac其中人二^^區(qū)小土⑴-乂⑥從土⑴一乂⑥)')為組內差異陣(或為交叉乘積陣);因此,為保證k個樣本差異顯著,則比值牛=半竺△(C)人0c0C

應充分大。實際是要求c或Cc(C為常數(shù))使得△(C)達到極大值。故增加約束條件,選取。,使得c‘Ac=1。即上述問題轉化為求c,使△(c)=c‘Bc在c‘Ac=1條件下達到極大。利用拉格朗日乘子法求條件極值令叩(c)=c'Bc—A(c'Ac—1)解方程組無=2(B—AA)c=0a甲以=1-c'左=0顯然4是A-1B的特征值,c是相應的特征向量?!?c)=c'Bc=c'AAc=Ac'Ac=AA-1B的特征值設為入]2入22??土入',對應的特征向量為氣,c2,…,cr,取C=c1時,可使^c)達到最大,最大值為入]?!?c)的大小可衡量判別函數(shù)u(x)=c'X的判別效果,故稱為A(c)的判別效率Fisher判別分析結

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論