iris數(shù)據(jù)集的貝葉斯分類_第1頁
iris數(shù)據(jù)集的貝葉斯分類_第2頁
已閱讀5頁,還剩3頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

1、 8/8iris數(shù)據(jù)集的貝葉斯分類 IRIS 數(shù)據(jù)集的Bayes 分類實(shí)驗(yàn) 一、 實(shí)驗(yàn)原理 1) 概述 模式識(shí)別中的分類問題是根據(jù)對(duì)象特征的觀察值將對(duì)象分到某個(gè)類別中去。統(tǒng)計(jì)決策理論是處理模式分類問題的基本理論之一,它對(duì)模式分析和分類器的設(shè)計(jì)有著實(shí)際的指導(dǎo)意義。 貝葉斯(Bayes )決策理論方法是統(tǒng)計(jì)模式識(shí)別的一個(gè)基本方法,用這個(gè)方法進(jìn)行分類時(shí)需要具備以下條件: 各類別總體的分布情況是已知的。 要決策分類的類別數(shù)是一定的。 其基本思想是:以Bayes 公式為基礎(chǔ),利用測量到的對(duì)象特征配合必要的先驗(yàn)信息,求出各種可能決策情況(分類情況)的后驗(yàn)概率,選取后驗(yàn)概率最大的,或者決策風(fēng)險(xiǎn)最小的決策方式

2、(分類方式)作為決策(分類)的結(jié)果。也就是說選取最有可能使得對(duì)象具有現(xiàn)在所測得特性的那種假設(shè),作為判別的結(jié)果。 常用的Bayes 判別決策準(zhǔn)則有最大后驗(yàn)概率準(zhǔn)則(MAP ),極大似然比準(zhǔn)則(ML ),最小風(fēng)險(xiǎn)Bayes 準(zhǔn)則,Neyman-Pearson 準(zhǔn)則(N-P )等。 2) 分類器的設(shè)計(jì) 對(duì)于一個(gè)一般的c 類分類問題,其分類空間: c w w w ,21 = 表特性的向量為: ()T d x x x x ,21 = 其判別函數(shù)有以下幾種等價(jià)形式: a) ()()i j i w w i j c j w w x w P x w P =,且,,2,11 , b) ()()() ()i j j

3、 i w w i j c j w P w x p w P w x p =,且,,2,1i c) ()() () ()()i i j j i w w i j c j w P w P w x p w x p x l =,且,,2,1 d) ()()() ()i j j i i w w i j c j w P w x np w P w x p =+,且,,2,1ln ln ln 3) IRIS 數(shù)據(jù)分類實(shí)驗(yàn)的設(shè)計(jì) IRIS 數(shù)據(jù)集: 一共具有三組數(shù)據(jù),每一組都是一個(gè)單獨(dú)的類別,每組有50個(gè)數(shù)據(jù),每個(gè)數(shù)據(jù)都是一個(gè)四維向量。 其分類空間為: 321,w w w = 表特性的向量為: () T x x x

4、 x x 4321,= 實(shí)驗(yàn)?zāi)康模?利用Bayes 判別準(zhǔn)則對(duì)三組數(shù)據(jù)進(jìn)行分類,希望能夠盡量準(zhǔn)確的判斷出從IRIS 數(shù)據(jù)集中選取的樣本所屬的類別。 實(shí)驗(yàn)設(shè)計(jì)思路: 將每個(gè)數(shù)據(jù)看作是一個(gè)具有4維特征的觀察樣本 ()150 ,3,2,1,4321 =i x x x x x T i i i i i 假設(shè)每類數(shù)據(jù)的每維都的分別服從正態(tài)分布即 () .3,2,1.4,3,2,1,2exp 21)(22 =? ? ? ? ?- = p j x x f wp j wp j wp j wp j 其中, 并且兩兩獨(dú)立。 由數(shù)理統(tǒng)計(jì)理論可知,樣本均值和修正方差分別為和2的無偏估計(jì)量,故可近似為求得和2 為: .3

5、,2,1.4,3,2,1,=p j X wp j wp j () =-= n i wp j wp ij wp j p j X X n 1 2 2.3,2,1.4,3,2,1,1 1 貝葉斯決策規(guī)則選?。?()() () ()()w w i j j w P w P w x p w x p x l i j j i =,且,3,2,1 由于不同維度數(shù)據(jù)兩兩獨(dú)立,故其中: ()()() () () ()() ()()i j i j x x w x f w x f w x f w x f w x p w x p x l q wp q wj j wp q wp q wi i wp q q j q q i

6、q q j i j i =? ? ?- ? ?- = = = =,3,2,1,2exp 1 2exp 1 4 1 22 224 1 另讓門限值: ()() i j i j w P w P i j =,3,2,1,N N i j 其中: N和i N為所選待分類樣本j類數(shù)據(jù)和i類的個(gè)數(shù), j 屬于先驗(yàn)知識(shí)。 比較()x l與門限值的大小判斷樣本所屬類別 最后計(jì)算分類的正確率 二、實(shí)驗(yàn)過程 1)求取每類數(shù)據(jù)的每個(gè)分量的均值和修正方差數(shù)代碼如 下: sum=zeros(3,4); sd=zeros(3,4); for j=1:1:4 for i=1:1:50 $ for i=1:1:20 $ sum(

7、1,j)=sum(1,j)+sample1(i,j); sum(2,j)=sum(2,j)+sample2(i,j); sum(3,j)=sum(3,j)+sample3(i,j); end end sum=sum/50; $sum=sum/20;$ for j=1:1:4 for i=1:1:50 sd(1,j)=sd(1,j)+(sample1(i,j)-sum(1,j)2; sd(2,j)=sd(2,j)+(sample2(i,j)-sum(2,j)2; sd(3,j)=sd(3,j)+(sample3(i,j)-sum(3,j)2; end end sd=sd/49; $ sd=sd/

8、19; $ 其中每類數(shù)據(jù)都有4組均值和修正方差,3類數(shù)據(jù)總共12組,分 別存放在sum 和sd這兩個(gè)34的矩陣中。 2)用一個(gè)函數(shù)來實(shí)現(xiàn)分類器的功能,代碼如下 function clfresult,accuracyrate = bayesclassifier(samples,dimen,sum,sd,mode1,mode2) clfresult=zeros(dimen,2); if (mode1(1,1)=0) end if (mode1(1,1)=0) end if (mode1(1,1)=0) end compare1=compare(1,1); compare2=compare(1,2)

9、; class=zeros(1,3); la=zeros(1,4); lb=zeros(1,4); for i=1:1:dimen if samples(i,5)=1 class(1,1)=class(1,1)+1; end if samples(i,5)=2 class(1,2)=class(1,2)+1; end if samples(i,5)=3 class(1,3)=class(1,3)+1; end end n=class(1,compare2)/class(1,compare1) for i=1:1:dimen la(1,1)=1/sqrt(sd(compare1,1)*exp(-

10、(samples(i,1)-sum(compare1 ,1)2/(2*sd(compare1,1); la(1,2)=1/sqrt(sd(compare1,2)*exp(-(samples(i,2)-sum(compare1 ,2)2/(2*sd(compare1,2); la(1,3)=1/sqrt(sd(compare1,3)*exp(-(samples(i,3)-sum(compare1 ,3)2/(2*sd(compare1,3); la(1,4)=1/sqrt(sd(compare1,4)*exp(-(samples(i,4)-sum(compare1 ,4)2/(2*sd(comp

11、are1,4); lb(1,1)=1/sqrt(sd(compare2,1)*exp(-(samples(i,1)-sum(compare2 ,1)2/(2*sd(compare2,1); lb(1,2)=1/sqrt(sd(compare2,2)*exp(-(samples(i,2)-sum(compare2 ,2)2/(2*sd(compare2,2); lb(1,3)=1/sqrt(sd(compare2,3)*exp(-(samples(i,3)-sum(compare2 ,3)2/(2*sd(compare2,3); lb(1,4)=1/sqrt(sd(compare2,4)*exp

12、(-(samples(i,4)-sum(compare2 ,4)2/(2*sd(compare2,4); for j=1:1:4 if(mode2(1,j)=0) la(1,j)=1; lb(1,j)=1; end end lx=la(1,1)*la(1,2)*la(1,3)*la(1,4)/(lb(1,1)*lb(1,2)*lb(1,3)*lb (1,4) clfresult(i,1)=i; if lx=n clfresult(i,2)=compare1; else clfresult(i,2)=compare2; end end accuracyrate=0; for i=1:1:dime

13、n if clfresult(i,2)=samples(i,5) accuracyrate=accuracyrate+1; end end accuracyrate=accuracyrate/dimen; end 該函數(shù)有共有兩個(gè)輸出量,六個(gè)輸入?yún)?shù)。 其中各個(gè)參數(shù)的規(guī)定如下: Samples:一個(gè)Dimen5的矩陣,Dimen是選取樣本的數(shù)量,矩陣前4列存放樣本的4維數(shù)據(jù),最后一列存放相應(yīng)行樣本真實(shí)的類別數(shù)(1,2,3)。 Dimen:選取樣本的數(shù)量。 Sum:數(shù)據(jù)集的均值參數(shù)陣。 Sd :數(shù)據(jù)集的修正方差參數(shù)陣。 Mode1:模式選擇參數(shù)1,它是一個(gè)3維的行向量: ()3 2 1 ,1m

14、od =e 其中3,2,1,=i i 分別對(duì)應(yīng)數(shù)據(jù)集的三個(gè)類別,當(dāng)3,2,1,=i i 不為零時(shí),就在決策域中添加第i 類。總共有三種模式: ()0,1,11m od =e 在第一類和第二類中進(jìn)行判別 ()1,0,11m od =e 在第一類和第三類中進(jìn)行判別 ()1,1,01m od =e 在第二類和第二類中進(jìn)行判別 Mode2:模式選擇參數(shù)2,它是一個(gè)4維德行向量: ()4 321,2m od =e 其中4,3,2,1,=i i 分別對(duì)應(yīng)數(shù)據(jù)集的4個(gè)維度分量,當(dāng)3,2,1,=i i 不為零時(shí),第i 個(gè)維度的分量就作為判別分類的依據(jù)進(jìn)行考慮,3,2,1,=i i 為零時(shí),則第i 個(gè)維度的分量

15、忽略。Mode2共有多種模式15種模式。例如: ()1,1,0,12m od =e 表示第二維的數(shù)據(jù)特征不參與分類。 對(duì)于兩個(gè)輸出參數(shù): Clfresult:是一個(gè)3Dimen 的矩陣,輸出對(duì)每個(gè)數(shù)據(jù)的分類結(jié)果,并顯示其真實(shí)所屬類別和在Samples 中的序號(hào)。 Accuracyrate:輸出Bayes 分類的正確率。 3) 選定不同的樣本組合與特征的組合,調(diào)用bayesclassifier 函數(shù)進(jìn)行分類。 三、 實(shí)驗(yàn)結(jié)果與分析 1) 實(shí)驗(yàn)結(jié)果: 利用每類50個(gè)數(shù)據(jù)求出相應(yīng)的均值和修正方差作為正態(tài)分布參數(shù)。并將每類中所有的50個(gè)數(shù)據(jù)全部拿來分類,dimen=100結(jié)果為(分類的正確率): 作為

16、正態(tài)分布參數(shù)。并將每類中另外的30個(gè)數(shù)據(jù)拿來分類,dimen=60結(jié)果為(分類的正確率): 作為正態(tài)分布參數(shù)。分別在第二類中取20個(gè),10 個(gè)和5個(gè)數(shù)據(jù),在第三類中固定取30個(gè)數(shù)據(jù),放在 2)分析: 實(shí)驗(yàn)結(jié)果反映出鳶尾花數(shù)據(jù)集: 第一類數(shù)據(jù)和第二類數(shù)據(jù)的第一和第二維比較相 似,第三和第四維數(shù)據(jù)差別很大。 第一類數(shù)據(jù)和第三類數(shù)據(jù)的第一和第二維比較相 似,第三和第四維數(shù)據(jù)差別很大。 第二類數(shù)據(jù)和第三類數(shù)據(jù)的第一和第二維比較相 似,第三和第四維數(shù)據(jù)差別較。 第二類和第三類數(shù)據(jù)整體相似度較高。 和直觀判斷相符。 在分類時(shí)如果選取差別較大的特征分量,分類的正確率會(huì)比較高。選取多維特征參與分類決策并不一 定會(huì)增加分類的正確率,很多情況下其分類效果應(yīng) 該介于效果最好的基于單位特征的分類和效果最差 的基于單位特征的分類之間或者并不會(huì)提高太多。 在做高維特征的數(shù)據(jù)分類時(shí)可以考慮選取分類效果 好的少量維度,從而達(dá)到比采用全維度更好的效果, 同時(shí)可以簡化計(jì)算。 實(shí)驗(yàn)結(jié)果表1和表2中的數(shù)據(jù)相差不大,1中用所有的數(shù)據(jù)求分布參數(shù),再反過來對(duì)所有的數(shù)據(jù)分類, 而2是用其中20組求分布參數(shù),另外30組拿來分類,兩組的結(jié)果差別不是很大,說明Baye

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論