




版權(quán)說(shuō)明:本文檔由用戶(hù)提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
1、4.1 距離判別距離判別 及及MATLAB實(shí)現(xiàn)實(shí)現(xiàn)4.2 Bayes判別判別4.3 判別分析判別分析 總結(jié)總結(jié)計(jì)算與應(yīng)用數(shù)學(xué)系計(jì)算與應(yīng)用數(shù)學(xué)系,中國(guó)石油大學(xué)(華東)理學(xué)院中國(guó)石油大學(xué)(華東)理學(xué)院 丁永臻丁永臻 2013統(tǒng)計(jì)方法(判別分析)統(tǒng)計(jì)方法(判別分析):判別分析判別分析在已知研究對(duì)象分成若干類(lèi)型,并已取在已知研究對(duì)象分成若干類(lèi)型,并已取得各種類(lèi)型的一批已知樣品的觀測(cè)數(shù)據(jù),在此基礎(chǔ)得各種類(lèi)型的一批已知樣品的觀測(cè)數(shù)據(jù),在此基礎(chǔ)上根據(jù)某些準(zhǔn)則建立判別式,然后對(duì)未知類(lèi)型的樣上根據(jù)某些準(zhǔn)則建立判別式,然后對(duì)未知類(lèi)型的樣品進(jìn)行判別分類(lèi)。品進(jìn)行判別分類(lèi)。距離判別法距離判別法首先根據(jù)已知分類(lèi)的數(shù)據(jù),分
2、別計(jì)算首先根據(jù)已知分類(lèi)的數(shù)據(jù),分別計(jì)算各類(lèi)的重心,計(jì)算新個(gè)體到每類(lèi)的距離,確定最短各類(lèi)的重心,計(jì)算新個(gè)體到每類(lèi)的距離,確定最短的距離(歐氏距離、馬氏距離)的距離(歐氏距離、馬氏距離)FisherFisher判別法判別法利用已知類(lèi)別個(gè)體的指標(biāo)構(gòu)造判別利用已知類(lèi)別個(gè)體的指標(biāo)構(gòu)造判別式(同類(lèi)差別較小、不同類(lèi)差別較大),按照判別式(同類(lèi)差別較小、不同類(lèi)差別較大),按照判別式的值判斷新個(gè)體的類(lèi)別式的值判斷新個(gè)體的類(lèi)別BayesBayes判別法判別法計(jì)算新給樣品屬于各總體的條件概率,計(jì)算新給樣品屬于各總體的條件概率,比較概率的大小,然后將新樣品判歸為來(lái)自概率最比較概率的大小,然后將新樣品判歸為來(lái)自概率最大
3、的總體大的總體 例例 (1989年國(guó)際數(shù)學(xué)競(jìng)賽年國(guó)際數(shù)學(xué)競(jìng)賽A題題)蠓的分類(lèi)蠓的分類(lèi) 蠓是一種昆蟲(chóng),分為很多類(lèi)型,其中有一種名為蠓是一種昆蟲(chóng),分為很多類(lèi)型,其中有一種名為Af,是能傳播花粉的益蟲(chóng);另一種名為是能傳播花粉的益蟲(chóng);另一種名為Apf,是會(huì)傳播是會(huì)傳播疾病的害蟲(chóng),這兩種類(lèi)型的蠓在形態(tài)上十分相似,疾病的害蟲(chóng),這兩種類(lèi)型的蠓在形態(tài)上十分相似,很難區(qū)別很難區(qū)別. 現(xiàn)測(cè)得現(xiàn)測(cè)得6只只Apf和和9只只Af蠓蟲(chóng)的觸角長(zhǎng)度和蠓蟲(chóng)的觸角長(zhǎng)度和翅膀長(zhǎng)度數(shù)據(jù)翅膀長(zhǎng)度數(shù)據(jù)Apf:(1.14,1.78), (1.18,1.96), (1.20,1.86), (1.26,2.00), (1.28,2.00),
4、(1.30,1.96) ;Af:(1.24,1.72), (1.36,1.74), (1.38,1.64), (1.38,1.82), (1.38,1.90), (1.40,1.70), (1.48,1.82),(1.54,1.82), (1.56,2.08). 試判別以下的三個(gè)蠓蟲(chóng)屬于哪一類(lèi)?試判別以下的三個(gè)蠓蟲(chóng)屬于哪一類(lèi)? (1.24,1.8),(1.28,1.84),(,(1.4,2.04)第第4章章 判別分析判別分析 判別分析的基本思想是根據(jù)已知類(lèi)別的樣本所提判別分析的基本思想是根據(jù)已知類(lèi)別的樣本所提供的信息,總結(jié)出分類(lèi)的規(guī)律性,建立判別公式和供的信息,總結(jié)出分類(lèi)的規(guī)律性,建立判別公式
5、和判別準(zhǔn)則,判別新的樣本點(diǎn)所屬類(lèi)型。本章介紹距判別準(zhǔn)則,判別新的樣本點(diǎn)所屬類(lèi)型。本章介紹距離判別分析、離判別分析、Bayes判別分析及其判別分析及其MATLAB軟件的軟件的實(shí)現(xiàn)。實(shí)現(xiàn)。 4.1 距離判別分析距離判別分析 4.1.1 判別分析的概念判別分析的概念 在一些自然科學(xué)和社會(huì)科學(xué)的研究中,研究對(duì)象在一些自然科學(xué)和社會(huì)科學(xué)的研究中,研究對(duì)象用某種方法已劃分為若干類(lèi)型,當(dāng)?shù)玫降囊粋€(gè)新樣用某種方法已劃分為若干類(lèi)型,當(dāng)?shù)玫降囊粋€(gè)新樣品數(shù)據(jù)(通常是多元的),要確定該樣品屬于已知品數(shù)據(jù)(通常是多元的),要確定該樣品屬于已知類(lèi)型中的哪一類(lèi),這樣的問(wèn)題屬于判別分析類(lèi)型中的哪一類(lèi),這樣的問(wèn)題屬于判別分析.
6、 從統(tǒng)計(jì)數(shù)據(jù)分析的角度,可概括為如下模型:從統(tǒng)計(jì)數(shù)據(jù)分析的角度,可概括為如下模型: 設(shè)有設(shè)有k個(gè)總體個(gè)總體 ,它們都是它們都是 p元總體元總體,其數(shù)量指標(biāo)是其數(shù)量指標(biāo)是 1) 若總體若總體 的分布函數(shù)是已知,對(duì)于任一新的分布函數(shù)是已知,對(duì)于任一新樣品數(shù)據(jù)樣品數(shù)據(jù) ,判斷它來(lái)自哪一個(gè)判斷它來(lái)自哪一個(gè)總體總體 。12,kG GG12(,)TpXXXXiG12( ,)Tpxx xx 2) 通常各個(gè)總體通常各個(gè)總體 的分布是未知的,由從各的分布是未知的,由從各個(gè)總體取得的樣本(訓(xùn)練樣本)來(lái)估計(jì)。一般,個(gè)總體取得的樣本(訓(xùn)練樣本)來(lái)估計(jì)。一般,先估計(jì)各個(gè)總體的均值向量與協(xié)方差矩陣。先估計(jì)各個(gè)總體的均值向
7、量與協(xié)方差矩陣。iG原則原則: 1.從統(tǒng)計(jì)學(xué)的角度,要求判別準(zhǔn)則在某種準(zhǔn)則從統(tǒng)計(jì)學(xué)的角度,要求判別準(zhǔn)則在某種準(zhǔn)則下是最優(yōu)的,例如錯(cuò)判的概率最小等。下是最優(yōu)的,例如錯(cuò)判的概率最小等。 2.根據(jù)不同的判別準(zhǔn)則,有不同的判別方法,根據(jù)不同的判別準(zhǔn)則,有不同的判別方法,這里主要介紹距離判別和這里主要介紹距離判別和Bayes判別判別 4.1.2 距離的定義距離的定義 1. 閔可夫斯基距離閔可夫斯基距離設(shè)有設(shè)有n維向量維向量 稱(chēng)稱(chēng),),(,),(2121TnTnyyyyxxxxniiiyxyxd11|),(絕對(duì)距離絕對(duì)距離 稱(chēng)稱(chēng) 稱(chēng)稱(chēng)為為n維向量維向量x,y之間的閔可夫斯基距離,其中之間的閔可夫斯基距離,
8、其中 為常數(shù)。為常數(shù)。niiiyxyxd122)(),(歐氏距離歐氏距離rniriiryxyxd/11)|(),(r(0)r 顯然,當(dāng)顯然,當(dāng)r=2和和1時(shí)閔可夫斯基距離分別為歐氏距時(shí)閔可夫斯基距離分別為歐氏距離和絕對(duì)距離離和絕對(duì)距離.(1) 同一總體的兩個(gè)向量之間的馬氏距離同一總體的兩個(gè)向量之間的馬氏距離 其中其中 為總體協(xié)方差矩陣,通常取為總體協(xié)方差矩陣,通常取 為實(shí)對(duì)稱(chēng)正定為實(shí)對(duì)稱(chēng)正定矩陣矩陣. 顯然,當(dāng)顯然,當(dāng) 為單位矩陣時(shí)馬氏距離就是歐氏距離為單位矩陣時(shí)馬氏距離就是歐氏距離. 設(shè)有設(shè)有n維向量維向量 ,則稱(chēng)則稱(chēng)1( , )()()Td x yxyxy為為n維向量維向量x,y之間的馬氏
9、距離之間的馬氏距離.1212(,) ,(,)TTnnxx xxyyyy2. 馬氏距離馬氏距離 馬氏距離是由印度統(tǒng)計(jì)學(xué)家馬哈拉諾比斯馬氏距離是由印度統(tǒng)計(jì)學(xué)家馬哈拉諾比斯(PC Mahalanobis)提出的,由于馬氏距離具有統(tǒng)計(jì)意義,提出的,由于馬氏距離具有統(tǒng)計(jì)意義,在距離判別分析時(shí)經(jīng)常應(yīng)用馬氏距離:在距離判別分析時(shí)經(jīng)常應(yīng)用馬氏距離:(4.1.1) (2) 一個(gè)向量到一個(gè)總體的馬氏距離一個(gè)向量到一個(gè)總體的馬氏距離 總體總體G 的均值向量為的均值向量為,協(xié)方差矩陣為,協(xié)方差矩陣為 .則稱(chēng)則稱(chēng)1( ,G)()()Td xxx為為n維向量維向量x與總體與總體G的馬氏距離的馬氏距離. MATLAB中有一
10、個(gè)命令:中有一個(gè)命令:d=mahal(Y,X),計(jì)算,計(jì)算X矩陣每一個(gè)點(diǎn)(行)至矩陣每一個(gè)點(diǎn)(行)至Y矩陣中每一個(gè)點(diǎn)(行)的矩陣中每一個(gè)點(diǎn)(行)的馬氏距離。其中馬氏距離。其中Y的列數(shù)必須等于的列數(shù)必須等于X的列數(shù),但它們的列數(shù),但它們的行數(shù)可以不同。的行數(shù)可以不同。X的行數(shù)必須大于列數(shù)。輸出的行數(shù)必須大于列數(shù)。輸出d是是距離向量。距離向量。 (4.1.2) (3) 兩個(gè)總體之間的馬氏距離兩個(gè)總體之間的馬氏距離 設(shè)有兩個(gè)總體設(shè)有兩個(gè)總體G1,G2,兩個(gè)總體的均值向量分別,兩個(gè)總體的均值向量分別為為 ,協(xié)方差矩陣相等,皆為,協(xié)方差矩陣相等,皆為,則兩個(gè)總體之則兩個(gè)總體之間的馬氏距離為間的馬氏距離為
11、,12 1121212(G ,G )()()Td 通常,在判別分析時(shí)不采用歐氏距離的原因在通常,在判別分析時(shí)不采用歐氏距離的原因在于,該距離與量綱有關(guān)于,該距離與量綱有關(guān).例如平面上有例如平面上有A,B,C,D四個(gè)四個(gè)點(diǎn),橫坐標(biāo)為代表重量(單位:點(diǎn),橫坐標(biāo)為代表重量(單位:kg),縱坐標(biāo)代表),縱坐標(biāo)代表長(zhǎng)度(單位:長(zhǎng)度(單位:cm),如下頁(yè)圖。),如下頁(yè)圖。 (4.1.3) 這時(shí)這時(shí)2222510125101101ABCD顯然顯然 ABCD 如果現(xiàn)在長(zhǎng)度用如果現(xiàn)在長(zhǎng)度用mm為單位,重量的單位保持不變,為單位,重量的單位保持不變,于是于是A點(diǎn)的坐標(biāo)為點(diǎn)的坐標(biāo)為(0,50),B點(diǎn)的坐標(biāo)為點(diǎn)的坐標(biāo)
12、為(0,100),此時(shí),此時(shí)計(jì)算線段的長(zhǎng)度為計(jì)算線段的長(zhǎng)度為222250102600100110001ABCD此時(shí),此時(shí),ABCD 這表明歐氏距離有一個(gè)缺陷,當(dāng)向量的分量是不這表明歐氏距離有一個(gè)缺陷,當(dāng)向量的分量是不同的量綱時(shí)歐氏距離的大小竟然與指標(biāo)的單位有關(guān)同的量綱時(shí)歐氏距離的大小竟然與指標(biāo)的單位有關(guān).而馬氏距離則與量綱無(wú)關(guān)而馬氏距離則與量綱無(wú)關(guān). 4.1.3 兩總體的距離判別分析兩總體的距離判別分析 先考慮兩個(gè)總體的情況。設(shè)先考慮兩個(gè)總體的情況。設(shè) , 為兩個(gè)不同為兩個(gè)不同的的p元已知總體,元已知總體, 的均值向量是的均值向量是 , , 的的協(xié)方差矩陣是協(xié)方差矩陣是 , .設(shè)設(shè) 是一個(gè)待判
13、樣品,距離判別準(zhǔn)則為是一個(gè)待判樣品,距離判別準(zhǔn)則為1GiGii12( ,)Tmxx xx2GiG1,2i 1,2i 112212,( ,)( ,),.,( ,)( ,)xGd x Gd x GxGd x Gd x G若若(4.1.4) 即當(dāng)即當(dāng) 到到 的馬氏距離不超過(guò)到的馬氏距離不超過(guò)到 的馬氏距的馬氏距離時(shí),判離時(shí),判 來(lái)自來(lái)自 ;反之,判來(lái)自;反之,判來(lái)自 .1Gx1G2Gx2G 由于馬氏距離與總體的協(xié)方差矩陣有關(guān),所以利由于馬氏距離與總體的協(xié)方差矩陣有關(guān),所以利用馬氏距離進(jìn)行判別分析需要分別考慮兩個(gè)總體的用馬氏距離進(jìn)行判別分析需要分別考慮兩個(gè)總體的協(xié)方差矩陣是否相等協(xié)方差矩陣是否相等.1
14、.兩個(gè)總體協(xié)方差矩陣相等的情況兩個(gè)總體協(xié)方差矩陣相等的情況 設(shè)有兩個(gè)總體設(shè)有兩個(gè)總體G1,G2,均值分別為,均值分別為 ,協(xié)方協(xié)方差矩陣相等為差矩陣相等為。考慮樣品。考慮樣品x到兩個(gè)總體的馬氏距到兩個(gè)總體的馬氏距離平方差:離平方差:,12 22112122111111112221111111112221112211112121212( ,)( ,) ()() ()()22)2()2() ()()12()2TTTTTTTTTTTTTTTd x Gd x Gxxxxxxxxxxxxx112112()2()()TTx其中其中 ,令,令121()2112( )()()TW xx于是距離判別準(zhǔn)則為于是距
15、離判別準(zhǔn)則為12,( )0,( )0 xGW xxGW x(4.1.6) 由于總體的均值、協(xié)方差矩陣通常是未知的,數(shù)據(jù)由于總體的均值、協(xié)方差矩陣通常是未知的,數(shù)據(jù)資料來(lái)自?xún)蓚€(gè)總體的訓(xùn)練樣本,于是用樣本的均值、資料來(lái)自?xún)蓚€(gè)總體的訓(xùn)練樣本,于是用樣本的均值、樣本的協(xié)方差矩陣代替總體的均值與協(xié)方差樣本的協(xié)方差矩陣代替總體的均值與協(xié)方差.注意:注意: 若若S1,S2分別為兩個(gè)樣本的協(xié)方差矩陣,則在兩個(gè)總分別為兩個(gè)樣本的協(xié)方差矩陣,則在兩個(gè)總體協(xié)方差矩陣相等時(shí),總體的協(xié)方差矩陣估計(jì)量體協(xié)方差矩陣相等時(shí),總體的協(xié)方差矩陣估計(jì)量112212(1)(1)2nSnSSnn 其中其中n1,n2分別為兩個(gè)樣本的容量
16、分別為兩個(gè)樣本的容量.得到判別法則:得到判別法則:(4.1.11) (4.1.9) matlab判別步驟:判別步驟: 1.計(jì)算計(jì)算A、B兩類(lèi)的均值向量與協(xié)方差陣兩類(lèi)的均值向量與協(xié)方差陣;ma=mean(A),mb=mean(B),S1=cov(A),S2=cov(B)2.計(jì)算總體的協(xié)方差矩陣計(jì)算總體的協(xié)方差矩陣2nnS)1n(S)1n(S212211 其中其中n1,n2分別為兩個(gè)樣本的容量分別為兩個(gè)樣本的容量.3.計(jì)算未知樣本計(jì)算未知樣本x到到A,B兩類(lèi)馬氏平方距離之差兩類(lèi)馬氏平方距離之差 d=(x-ma)S-1(x-ma)- (x-mb)S-1(x-mb) 4.若若d0,則則x屬于屬于B類(lèi)類(lèi)
17、上述公式可以化簡(jiǎn)為:上述公式可以化簡(jiǎn)為:W(x)=(ma-mb)S-1(x-(ma+mb)/2)若若W(x)0,x屬于屬于G1;若若W(x)=w2(i) disp(第第,num2str(i),個(gè)蠓蟲(chóng)屬于個(gè)蠓蟲(chóng)屬于Apf類(lèi)類(lèi)); else disp(第第,num2str(i),個(gè)蠓蟲(chóng)屬于個(gè)蠓蟲(chóng)屬于Af類(lèi)類(lèi)); end;end; 輸出結(jié)果輸出結(jié)果: 第第1個(gè)蠓蟲(chóng)屬于個(gè)蠓蟲(chóng)屬于Apf類(lèi)類(lèi) 第第2個(gè)蠓蟲(chóng)屬于個(gè)蠓蟲(chóng)屬于Apf類(lèi)類(lèi) 第第3個(gè)蠓蟲(chóng)屬于個(gè)蠓蟲(chóng)屬于Apf類(lèi)類(lèi)(2)兩個(gè)總體協(xié)方差矩陣不相等的情形)兩個(gè)總體協(xié)方差矩陣不相等的情形 設(shè)總體的協(xié)方差矩陣不相等分別為設(shè)總體的協(xié)方差矩陣不相等分別為1,2概率
18、密度概率密度函數(shù)為:函數(shù)為:1/21/211( )exp()()(2 )|2Tjjjjmjfxxx則基于兩正態(tài)總體誤判損失相等的則基于兩正態(tài)總體誤判損失相等的Bayes判別準(zhǔn)則判別準(zhǔn)則).()(:);()(:2221222211xdxdGxxdxdGx若若21( )()() ln| 2ln,1,2Tjjjjjjd xxxpj 其中其中 4.2.2 多個(gè)總體的多個(gè)總體的Bayes判別判別 設(shè)有設(shè)有k個(gè)總體個(gè)總體G1,G2,Gk的概率密度為的概率密度為fj(x)各總各總體出現(xiàn)的先驗(yàn)概率為體出現(xiàn)的先驗(yàn)概率為 1.一般討論一般討論當(dāng)出現(xiàn)樣品當(dāng)出現(xiàn)樣品 x時(shí)時(shí), 總體總體 iG的后驗(yàn)概率的后驗(yàn)概率 1(
19、 )(| )( )iiikjjjp fP Gp fxxx ,1,2, ,kjjjj 1PP Gjkp1 足滿(mǎn)Bayes判別準(zhǔn)則為判別準(zhǔn)則為:若若), 2 , 1)(|(max)|(1kixGPxGPjkji則判樣本則判樣本 iGx注:當(dāng)達(dá)到最大后驗(yàn)概率的注:當(dāng)達(dá)到最大后驗(yàn)概率的 iG不止一個(gè)時(shí),可判不止一個(gè)時(shí),可判為達(dá)到最大后驗(yàn)概率的總體的任何一個(gè)為達(dá)到最大后驗(yàn)概率的總體的任何一個(gè).2.多個(gè)正態(tài)總體的多個(gè)正態(tài)總體的Bayes判別判別(1)當(dāng))當(dāng)12k時(shí),設(shè) (, ),jmjGN1,2,jk線性判別函數(shù)為線性判別函數(shù)為 ( )TjjjWbxa x其中其中111,ln,1,2,2TTTjjjjjj
20、bpjk a 基于誤判損失相等的基于誤判損失相等的Bayes判別準(zhǔn)則為判別準(zhǔn)則為)(max)(,1xWxWGxjkjii若基于后驗(yàn)概率的基于后驗(yàn)概率的Bayes判別準(zhǔn)則為判別準(zhǔn)則為)(min)(,212xdxdGxjkjii若21( )()()2ln,1,2,Tjjjjdpjkxxx其中其中 在實(shí)際問(wèn)題中,由于在實(shí)際問(wèn)題中,由于 未知,各總體的訓(xùn)練樣本均值未知,各總體的訓(xùn)練樣本均值 (2)當(dāng))當(dāng) 1,2, ,jk12,k 不全相等時(shí)不全相等時(shí), 設(shè)設(shè) (,)jpjjGN則基于后驗(yàn)概率的則基于后驗(yàn)概率的Bayes判別準(zhǔn)則為判別準(zhǔn)則為)(min)(,212xdxdGxjkjii若其中其中 21(
21、)()()ln2lnTjjjjjjdpxxx12,k 及未知,未知,(1)(2)( ),kxxx,估計(jì)估計(jì). S及4.3 4.3 判別分析總結(jié)判別分析總結(jié) 判別分析方法最初應(yīng)用于考古學(xué)判別分析方法最初應(yīng)用于考古學(xué), , 例如要根據(jù)挖例如要根據(jù)挖掘出來(lái)的人頭蓋骨的各種指標(biāo)來(lái)判別其性別年齡等掘出來(lái)的人頭蓋骨的各種指標(biāo)來(lái)判別其性別年齡等. . 近年來(lái)近年來(lái), , 在生物學(xué)分類(lèi)在生物學(xué)分類(lèi), , 醫(yī)療診斷醫(yī)療診斷, , 地質(zhì)找礦地質(zhì)找礦, , 石油石油鉆探鉆探, , 天氣預(yù)報(bào)等許多領(lǐng)域天氣預(yù)報(bào)等許多領(lǐng)域, , 判別分析方法已經(jīng)成為判別分析方法已經(jīng)成為一種有效的統(tǒng)計(jì)推斷方法一種有效的統(tǒng)計(jì)推斷方法. .
22、假定需要作出判別分析的對(duì)象分成假定需要作出判別分析的對(duì)象分成 r 類(lèi)類(lèi), 記作記作A1, A2, , Ar , 每一類(lèi)由每一類(lèi)由m個(gè)指標(biāo)的若干個(gè)標(biāo)本確定個(gè)指標(biāo)的若干個(gè)標(biāo)本確定, 即即A1, A2, Ar為已知的分類(lèi)為已知的分類(lèi). 現(xiàn)在問(wèn)待判斷的對(duì)象現(xiàn)在問(wèn)待判斷的對(duì)象x = (x1, x2, xm)T是屬于是屬于A1, A2, Ar中的哪一類(lèi)?這就構(gòu)成了判別分析問(wèn)題的基本中的哪一類(lèi)?這就構(gòu)成了判別分析問(wèn)題的基本內(nèi)容內(nèi)容. 判別分析判別分析: 判別分析是用于判別個(gè)體所屬群體的一種統(tǒng)計(jì)方判別分析是用于判別個(gè)體所屬群體的一種統(tǒng)計(jì)方法,判別分析的特點(diǎn)是根據(jù)已掌握的、歷史上每個(gè)法,判別分析的特點(diǎn)是根據(jù)已掌
23、握的、歷史上每個(gè)類(lèi)別的若干樣本的數(shù)據(jù)信息,總結(jié)出客觀事物分類(lèi)類(lèi)別的若干樣本的數(shù)據(jù)信息,總結(jié)出客觀事物分類(lèi)的規(guī)律性,建立判別公式和判別準(zhǔn)則。然后,當(dāng)遇的規(guī)律性,建立判別公式和判別準(zhǔn)則。然后,當(dāng)遇到新的樣本點(diǎn)時(shí),只要根據(jù)總結(jié)出來(lái)的判別公式和到新的樣本點(diǎn)時(shí),只要根據(jù)總結(jié)出來(lái)的判別公式和判別準(zhǔn)則,就能判別該樣本點(diǎn)所屬的類(lèi)別。判別分判別準(zhǔn)則,就能判別該樣本點(diǎn)所屬的類(lèi)別。判別分析是一種應(yīng)用性很強(qiáng)的統(tǒng)計(jì)數(shù)據(jù)分析方法。析是一種應(yīng)用性很強(qiáng)的統(tǒng)計(jì)數(shù)據(jù)分析方法。 判別分析的原理判別分析的原理: : 為了能識(shí)別待判斷的對(duì)象為了能識(shí)別待判斷的對(duì)象x = (x1, x2, xm)T是屬于已是屬于已知類(lèi)知類(lèi)A1, A2,
24、Ar中的哪一類(lèi)?中的哪一類(lèi)? 事先必須要有一個(gè)一般規(guī)則事先必須要有一個(gè)一般規(guī)則, 一旦知道了一旦知道了x的值的值, 便能便能根據(jù)這個(gè)規(guī)則立即作出判斷根據(jù)這個(gè)規(guī)則立即作出判斷, 稱(chēng)這樣的一個(gè)規(guī)則為稱(chēng)這樣的一個(gè)規(guī)則為判別規(guī)判別規(guī)則則. 判別規(guī)則往往通過(guò)的某個(gè)函數(shù)來(lái)表達(dá)判別規(guī)則往往通過(guò)的某個(gè)函數(shù)來(lái)表達(dá), , 我們把它稱(chēng)我們把它稱(chēng)為為判別函數(shù)判別函數(shù), 記作記作W(i; x). 一旦知道了一旦知道了判別函數(shù)并確定了判別函數(shù)并確定了判別規(guī)則,最好將已判別規(guī)則,最好將已知類(lèi)別的對(duì)象代入檢驗(yàn),這一過(guò)程稱(chēng)為知類(lèi)別的對(duì)象代入檢驗(yàn),這一過(guò)程稱(chēng)為回代檢驗(yàn)回代檢驗(yàn),以便,以便檢驗(yàn)?zāi)愕臋z驗(yàn)?zāi)愕呐袆e函數(shù)和判別函數(shù)和判別規(guī)
25、則是否正確判別規(guī)則是否正確.判別分析的主要方法判別分析的主要方法: : 判別分析的主要方法有距離判別方法、費(fèi)希爾判別分析的主要方法有距離判別方法、費(fèi)希爾 (Fisher)判別方法、貝葉斯判別方法、貝葉斯(Bayes)判別方法判別方法. 距離判別方法距離判別方法:判別函數(shù)判別函數(shù)W(i; x) = d (x, Ai ), 其中其中d (x, Ai )為為待判別對(duì)象待判別對(duì)象x到第到第i類(lèi)類(lèi)Ai的距離的距離. 判別規(guī)則為若判別規(guī)則為若W(k; x) = minW(i; x)| i =1, 2, , r , 則則xAk . 貝葉斯貝葉斯(Bayes)判別方法:判別方法:判別函數(shù)判別函數(shù)W(i; x
26、) = pi i(x), 其中其中pi為待判別對(duì)象為待判別對(duì)象xAi的概率的概率, ,如果沒(méi)有任如果沒(méi)有任何這種附加的先驗(yàn)信息何這種附加的先驗(yàn)信息, ,通常取通常取pi = 1/r. i(x)為為已知類(lèi)已知類(lèi)別別Ai的分布密度的分布密度判別規(guī)則為若判別規(guī)則為若W(k; x ) = maxW(i; x )| i =1, 2, , r ,則則xAk. Fisher準(zhǔn)則分類(lèi)的模型準(zhǔn)則分類(lèi)的模型: 費(fèi)歇(費(fèi)歇(FisherFisher)判別法)判別法是一種線性判別的方法。它的工是一種線性判別的方法。它的工作思路是對(duì)原數(shù)據(jù)系統(tǒng)進(jìn)行坐標(biāo)變換,尋求能將總體盡可能作思路是對(duì)原數(shù)據(jù)系統(tǒng)進(jìn)行坐標(biāo)變換,尋求能將總體
27、盡可能分開(kāi)的方向。具體的作法是先引入一個(gè)與樣本同維的待定向分開(kāi)的方向。具體的作法是先引入一個(gè)與樣本同維的待定向量量u u,再將,再將y y取為取為x x坐標(biāo)的線性組合坐標(biāo)的線性組合 。而。而u u的的選取,要選取,要使同一類(lèi)別產(chǎn)生的使同一類(lèi)別產(chǎn)生的y y盡量聚攏,不同類(lèi)別產(chǎn)生的盡量聚攏,不同類(lèi)別產(chǎn)生的y y盡量拉開(kāi)。盡量拉開(kāi)。 這樣,我們便可將樣品這樣,我們便可將樣品x x到某一類(lèi)到某一類(lèi)G G的距離定義為的距離定義為 與與 之間的歐氏距離:之間的歐氏距離: 其中其中c c為為G G的幾何中心的幾何中心FisherFisher分類(lèi)的判據(jù)為:分類(lèi)的判據(jù)為: 1 1若若 ,則判定義為,則判定義為A A類(lèi);類(lèi); 2 2若若 ,則判定又為,則判定又為B B類(lèi);類(lèi); 3
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶(hù)所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶(hù)上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶(hù)上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶(hù)因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025至2030年中國(guó)氣力發(fā)送裝置市場(chǎng)分析及競(jìng)爭(zhēng)策略研究報(bào)告
- 2025至2030年中國(guó)四層單柱雙面書(shū)架市場(chǎng)調(diào)查研究報(bào)告
- 2025至2030年中國(guó)全自動(dòng)充氣熬糖機(jī)市場(chǎng)分析及競(jìng)爭(zhēng)策略研究報(bào)告
- 2025━2030年鐵路機(jī)械配件行業(yè)深度研究報(bào)告
- 2025-2035年全球及中國(guó)廢水潷水器行業(yè)市場(chǎng)發(fā)展現(xiàn)狀及發(fā)展前景研究報(bào)告
- 2025-2035年全球及中國(guó)個(gè)性化禮品行業(yè)市場(chǎng)發(fā)展現(xiàn)狀及發(fā)展前景研究報(bào)告
- “事物之間的聯(lián)系”大概念教學(xué)設(shè)計(jì)研究報(bào)告
- 防汛防暴雨學(xué)生安全教育
- 2025年醫(yī)用穿刺器械項(xiàng)目建議書(shū)
- 音像制品、電子和數(shù)字出版物批發(fā)企業(yè)ESG實(shí)踐與創(chuàng)新戰(zhàn)略研究報(bào)告
- 《《中央企業(yè)合規(guī)管理辦法》解讀》課件
- 2021醫(yī)師定期考核題庫(kù)(人文2000題)
- 2025年中考語(yǔ)文專(zhuān)題復(fù)習(xí):寫(xiě)作技巧 課件
- (2024)云南省公務(wù)員考試《行測(cè)》真題及答案解析
- 60歲以上務(wù)工免責(zé)協(xié)議書(shū)
- 2024年社區(qū)工作者考試必考1000題【歷年真題】
- 信息化戰(zhàn)爭(zhēng)課件
- 媒介文化十二講課件
- 人工智能時(shí)代弘揚(yáng)教育家精神的價(jià)值意蘊(yùn)與實(shí)踐路徑
- 公司安全事故隱患內(nèi)部舉報(bào)、報(bào)告獎(jiǎng)勵(lì)制度
- 糖尿病高血壓健康教育
評(píng)論
0/150
提交評(píng)論