判別分析方法_第1頁
判別分析方法_第2頁
判別分析方法_第3頁
判別分析方法_第4頁
判別分析方法_第5頁
免費預覽已結束,剩余9頁可下載查看

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

1、判別分析距離判別分析距離判別的最直觀的想法是計算樣品到第i類總體的平均數的距離,哪個距離最小就將它判歸哪個總體,所以,我們首先考慮的是是否能夠構造一個恰當的距離函數,通過樣本與某類別之間距離的大小,判別其所屬類別。設*=(?,?和丫=(?,?菊是從期望為呼(濟,,南)和方差陣生(??>0的總體G抽得的兩個觀測值,則稱X與Y之間的馬氏距離?為:?=(?-?K1(?-?)樣本X與?歡間的馬氏距離定義為X與?裱重心間的距離,即:O.、一?=(?-?二1(?-?=1,2,?附注:1、 馬氏距離與歐式距離的關聯:生I,馬氏距離轉換為歐式距離;2、 馬氏距離與歐式距離的差異:馬氏距離不受計量單位的影

2、響,馬氏距離是標準化的歐式距離兩總體距離判別先考慮兩個總體的情況,設有兩個協(xié)差陣相同的p維正態(tài)總體,對給定的樣本Y,判別一個樣本Y到底是來自哪一個總體,一個最直觀的想法是計算Y到兩個總體的距離。故我們用馬氏距離來給定判別規(guī)則,有:jy?G,如d2(y,G)<d2(y,G2)?y?G2,如d2(y,G2)<d2(y,GJ?待判,如d2(y,G)=d2(y,G2)22d2(y,G2)-d2(y,Gi)-1-1/、二(y-mJ®(y-mJ-(y-m)S(y-m)1)111,1yy2y222(yy2y2y1(12)(12)1(12)2y(2)1(12)1(i2)(ai,a2,ap

3、)(y)_ap(ypp)W(y)(y-)_ai(Vii)aya1則前面的判別法則表示為jy?G,如W(y)>0,?一jy?G2)如W(y)<0。?待判,如W(Y)=0-1,、當??、?和已知時,a=S(m-m2)是一個已知的p維向量,W(y)是y的線性函數,稱為線性判別函數。稱為判別系數。用線性判別函數進行判別分析非常直觀,使用起來最方便,在實際中的應用也最廣泛。當總體的協(xié)方差已知且不相等y?G,如d2(y,G)<d2(y,G2),?W?G2,如d2(y,G2)<d2(y,G)?待判,如d2(y,G)=d2(y,G2)22d(y,G2)-d(y,Gi)-i-i=(y-成

4、電(y-m2)-(y-m2(y-m)此判別函數是y的二次函數多總體距離判別分為協(xié)方差陣相同和協(xié)方差陣不同兩種情況,它們的判別函數有差異,而判別準則無差異。一般來說,用距離最近準則判別是符合習慣的,但會發(fā)生誤判,各總體發(fā)生誤判的概率和閥值的選擇有關。當總體靠得很近,無論用那種方法誤判概率都很大,作判別分析無意義。因此,判別分析的前提是各總體均值必須有顯著差異。設有個K總體,分別有均值向量Mi=1,2,拗協(xié)方差陣2=2各總體出現的先驗概率相等。又設Y是一個待判樣品。則與的距離為(即判別函數)2_1d2(y,Gi)(yi)(yi)y1y2ylii1i上式中的第一項?w1?芍沈關,則舍去,得一個等價的

5、函數gi(Y)=-2yS-1m+mS-1RC將上式中提-2,得gi(Y)=-2(y1m-0.5mS-1m)令fi(Y)=(yS-1m-0.5mS-1m)則距離判別法的判別函數為令f(Y)=(yS-1m-0.5mS-1m)判別規(guī)則為fl(y)=maxfi(x),貝1y?Gli丈i丈k距離判別只要求知道總體的數字特征,不涉及總體的分布函數,當參數和協(xié)方差未知時,就用樣本的均值和協(xié)方差矩陣來估計。距離判別方法簡單實用,但沒有考慮到每個總體出現的機會大小,即先驗概率,沒有考慮到錯判的損失。貝葉斯判別法正是為了解決這兩個問題提出的判別分析方法。Bayes判別法基本思想貝葉斯判別法是源于貝葉斯統(tǒng)計思想的一

6、種判別分析法。這種方法先假定對研究對象已有一定的認識,這種認識以先驗概率來描述,然后取得一個樣本,用樣本來修正已有的認識,得到后驗概率分布,比較這些概率的大小,將待判樣品判歸為來自概率最大的總體。對多個總體的判別考慮的不是建立判別式,而是比較后驗概率的大小。Bayes判別法1、引例辦公室新來了一個雇員小王,小王是好人還是壞人大家都在猜測。按人們主觀意識,一個人是好人或壞人的概率均為0.5。壞人總是要做壞事,好人總是做好事,偶爾也會做一件壞事,一般好人做好事的概率為0.9,壞人做好事的概率為0.2,一大,小王做了一件好事,小王是好人的概率有多大,你現在把小王判為何種人。P(好人/做好事)_P(好

7、人)P(做好事/好人)一P0子人)P(做好事/好人)+P(壞人)P(做好事/壞人)050.90.5'0.9+0.5'0.2=0.82P(壞人/做好事)P(壞人)P(做好事/壞人)-P0子人)P(做好事/好人)+P(壞人)P(做好事/壞人)=0.18050.20.5'0.9+0.5'0.2貝葉斯公式:P(Bi|A)=P(A|Bj)P(Bj)SP(A|BJP(B)2、bayes判別法設總體?陽尖1,2,,k),?具有密度函數??(?)并且根據以往的統(tǒng)計分析,知道??出現的概率為???當樣本??發(fā)生時,它屬于某類的概率為:P(Gi|x°)二qiU)Sqjfj

8、(xe)則判別規(guī)則:則??屬于???等價于P(G|%)q1f尸qjfj(x。)qfi(%)max一11kqjfj(x。)qifi(x0)_maxqifi(%),1£國?屬于??特別情況下,如總體服從正態(tài)分布,則對應的bayes判別法推到如下:若"x)=(2PS嚴exp-;(x-m(i)S1(x-m(i)則,qf(x)=q1exp-1(x-m)6-1(x-m)(2pSI)2上式兩邊取對數并去掉與i無關的項,則等價的判別函數為:z(x)=ln(qifi(x)lnqi1ln|i|l(x)J(x)問題轉化為若Zl(x)=m型乙(x),則判x?Gl當協(xié)方差陣相等,即二.二二則判別函數

9、退化為:Zi(x)lnqi2(xJ)21(xJ)12lnqi(xx(i)21(x/)令Fi(x)21nqi(x3二/J)P(x)=-2lnq-2/c2-1x+/寸J)問題轉化為若P(x)=%inP(x),則判x?Gl再令:111(i)(i),(i)J-1mi(x)=lnqi-S+Sx2問題轉化為若成工axm(x),則判x?Gli當先驗概率相等,麥,有m/y'1'1(i)(i)、1VF(x)u'dl2jx完全成為距離判別法2二、最小平均誤判代價準則在進行判別分析時難免會發(fā)生誤判,各種誤判的后果有所不同。我們可以根據誤判的代價來規(guī)定判別規(guī)則,最小平均誤判代價準則。設總體?炎

10、?笑1,2,,k),?具有密度函數??)并且根據以往的統(tǒng)計分析,知道??"現的概率為????+?+?+?=1又Di,D2,Dk是R(p)的一個分劃,判別法則為:當樣品X落入Di時,則判X?G=關鍵的問題是尋找Di,D2,Dk分劃,這個分劃應該使平均錯判率最小。1、平均錯判損失用P(j/i)表示將來自總體Gi的樣品錯判到總體Gj的條件概率p(j/i)P(XDj/Gi)fi(x)dxijDjc(j/i)表示相應錯判所造成的損失。?c(j/i)P(j/i)(i=1,2,3,L,k)則來于第i個總體被錯判到其它總體的錯判損失為:U由于不同的總體有不同的先驗概率,則總平均損失ECM為kkECM

11、=?qi?c(j/i)P(j/i)i=1j=1使ECM最小的分劃,是Bayes判別分析解2、定理若總體G1,G2,Gk的先驗概率為近=123,用且相應的密度函數為?),損失為C(j/i),則劃分的Bayes解為Q=,|九(x)=mi叫(x)ji=1,2,3,,左其中khj(x)=?qQ(j/i)fi(x)i=1含義是:當抽取了一個未知總體的樣品值x,要判別它屬于那個總體,只要先計算出k個按先驗概率加權的誤判平均損失然后比較其大小,選取其中最小的,則判定樣品屬于該總體。為了直觀說明,作為例子,我們討論k=2的情形ECMqC(2/1)i(x)dxq2c(1/2)f2(x)dxD2D1qC(2/1)

12、(x)dxq2c(1/2)f2(x)dxD1RD1=q1c(2/1)of1(x)dx+q2c(1/2)0f2(x)dxD1R-D1=qG(2/1)-q2c(2/1),1(x)dx+q2c(1/2),2(x)dxDiDi=qQ(2/1)+護2c(1/2)f2(x)-qQ(2/1)fKx)dxDi由此可見,要使ECM最小,被積函數必須在Di是負數,則有分劃Di=x|q2c(1/2)f2(x)-qQ(2/1)f1(x)<0q2c(1/2)f2(x)-q1c(2/1)f1(x)<0f1(x)/f2(x)>q2c(2/1)/q1c(1/2)V=f1(x)/f2(x)d=q2c(2/1)

13、/q1c(1/2)Bayes判別準則為:u?y?tx?G1若v(x)>dx?G2若v(x)<d待判若v(x)=dFisher判別分析基本思想巾sher判別分析的基本思想是投影,即將k組m元數據按向量投影為一元數據,同時使得組間距離最大,同組內距離最小。其中組間距離可用利用組問平方和統(tǒng)計,組內距離利用組內平方和統(tǒng)計。兩總體fisher判別法投影函數???=c?它將m元數據投影到一維直線上。兩總體為:?總體:??D,?¥),?)?總體:?),?'),璃其中X?(?,?窩?,(j=1,2;i=1,2,?|?)分別從兩個總體中的樣品值,代入判別函數中:?%=?到+?2+?

14、+?1,2,,?袈=?縱+?國2+?+?1,2,?有:而?一x?)=1-12?)=E?£?總體的重心”?=i?=1?馬?7(2)=?E?)=E??總體的重心”,?=i?=i考察:a-?2)?-?%?=?-?涔?使得越大越好。記?=(蜃1)-?華)2為組問離差,?=又?.?幺)-評?)2+、?"?)-組內離差,則有:?=?In?In?-In?n?n?n?_?=?-?一?x=?-X=?2?(?!)2=(E?-E?)=£?-?=i?=i?=i?(工?)2?=i其中:??=密-鴛?=2(工?&?=i?2?=£(?考)-兩?)2+£(?2?=1?

15、=1?二三?陽?2?-?)2?=1?=1?-灣2=二三?訟(?據?-掰2?=1?=1?=1?EE2Q歸徵)?£?怒?媒,?)?=1?=1?££?2(?2?-蜜)?二?/?需?-卷?)從而?=Z2?=1?=1?=1?=1££?我£(?-?)(?-雷?=1?=1?=1?2?£(?*?"蜜)(?-?)=EE?=1(?>?=i?=1?2?)(?;?-%+匯(?盟?-鍛(?-鴛)?=1?=2E?=1?1.、-(E?&?=工?=1?=1?1?之以上?皆??,?=1?不依束于k,僅僅起到擴大?淵作用,對投影向量無影

16、響。令2?則有方程組:?浮匯?=1即:?=?.?=?對于兩總體先驗概率相等的前提下,一般常取?孫步),?伊)的加權均值即?二?1)+?2)?+?如有原始數據求得T?1)芳)則針對一新樣品X=(?,?),將其帶入判別函數中求值?如滿足判?e?(判?e?待判當?>?當??<?當?=?,?),將其帶入判別函數中如有原始數據求得?1)<?2)則針對一新樣品X=(?,求值?如滿足判?口?當?<?判?e?當??>?待判當?=?多總體fisher判別法設從總體3(?=1,2,k)分布抽取m元樣本如下:?)=(?嶄1,?(t=1,?=1,?令c=(c1,c2,,cm)為m維空間中

17、任一向量,???=c?必X按?勺法線方向上的投影,上述k個組中的m元數據投影后為:?:?,c?D,c?)記??1=E?幺)?=1''?:c?2),c?f),c?)記?)=工三?留?=1''?>?c?),c?),c?名?)記?)=.喘)"?=1那么組問平方和:?,一一,一,一',?=E?(c?-c?P?P?,F2,4,'?=/E(c?-c?)=cE/(?-?)(?*?-?)?=1?=1?=1?=1=c?其中”/cb/ce'A=二?=£?"?-?)(?婷-?)為組內差異陣(或為交叉乘積陣);因此,為保證k個

18、樣本差異顯著,則比值?c?c?'J?=c二?/?-野(?(?-?=c?=1?=1其中一C,一J(1) B=二?=1?(?-?(?(?-方稱為組間離差陣;(2) ?=?逮?1?町為G?的樣本均值;(3) 於13?=1二?:1?f為總樣本均值;組內平方和:應充分大。實際是要求c或Cc(C為常數)使得?(?達到極大值。故增加約束條件,、一一,'一、一.一.'.'.一.、選取c,使得c?1。即上述問題轉化為求c,使?(?=c?c?1條件下達到極大。利用拉格朗日乘子法求條件極值令?%?=c?(&?1)解方程組?=2(?-?=0?''?,'一=1-c?0?顯然?是??111?勺特征值,c是相應的特征向量_<<<?(c)=c?c?c?1?勺特征值設為大>方?,立?對應的特征向量為。,Q,c?2取?=c1時,可使?(c)達到最大,最大值為、。?(c)的大小可衡量判別函數?(??=c?勺判別效果,故稱為?(c)的判別效率Fisher判別分析結論在日sher準則下,線性判別函數?=c?勺解c即為特征方程|?|?0的特征根?斯對應的滿足?1的特征向量?且相

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論