報告四K-L變換,kpca,fisher_第1頁
報告四K-L變換,kpca,fisher_第2頁
報告四K-L變換,kpca,fisher_第3頁
報告四K-L變換,kpca,fisher_第4頁
報告四K-L變換,kpca,fisher_第5頁
已閱讀5頁,還剩17頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權,請進行舉報或認領

文檔簡介

1、基于K-L變換的iris數(shù)據(jù)分類一、實驗原理K-L(PCA)變換是一種基于目標統(tǒng)計特性的最佳正交變換。它具有一些優(yōu)良的性質(zhì):即變換后產(chǎn)生的新的分量正交或者不相關;以部分新的分量表示原矢量均方誤差最小;變換后的矢量更趨確定,能量更集中。這一方法的目的是尋找任意統(tǒng)計分布的數(shù)據(jù)集合之主要分量的子集。設n維矢量,其均值矢量,協(xié)方差陣,此協(xié)方差陣為對稱正定陣,則經(jīng)過正交分解可表示為,其中,為對應特征值的特征向量組成的變換陣,且滿足。變換陣為旋轉(zhuǎn)矩陣,再此變換陣下變換為,在新的正交基空間中,相應的協(xié)方差陣。通過略去對應于若干較小特征值的特征向量來給y降維然后進行處理。通常情況下特征值幅度差別很大,忽略一些

2、較小的值并不會引起大的誤差。對經(jīng)過K-L變換后的特征向量按最小錯誤率bayes決策和BP神經(jīng)網(wǎng)絡方法進行分類。二、實驗步驟(1)計算樣本向量的均值和協(xié)方差陣,(2)計算協(xié)方差陣的特征值和特征向量,則從上面的計算可以看到協(xié)方差陣特征值0.023835和0.07821相對于0.24267和4.2282很小,并經(jīng)計算個特征值對誤差影響所占比重分別為92.462%、5.3066%、1.7103%和0.52122%,因此可以去掉k=12個最小的特征值,得到新的變換陣。(3)將樣本變換為。(4)按照最小錯誤率bayes決策方法分類。(5)用BP神經(jīng)網(wǎng)絡方法進行分類。三、實驗結果及分析1. 最小錯誤率bay

3、es決策分類(1) 將最小的一個特征值0.023835對應的特征向量去掉,則新的變換矩陣為經(jīng)變換后的向量在新的3維空間如圖1所示:圖1-1 樣本經(jīng)K-L變換后分布圖變換后的各類樣本分別用前30個樣本進行訓練,用剩下的20個樣本進行測試,結果如下:1) 取第一類樣本的后20個數(shù)據(jù)按、分類,t1=20,t2=0,分類正確;取第二類樣本的后20個數(shù)據(jù)按、分類,t1=0,t2=20,分類正確。2) 取第一類樣本的后20個數(shù)據(jù)按、分類,t1=20,t3=0,分類正確;取第三類樣本的后20個數(shù)據(jù)按、分類,t1=0,t3=20,分類正確。3) 取第二類樣本的后20個數(shù)據(jù)按、分類,t2=19,t3=1,中一樣

4、本錯分到中;取第三類樣本的后20個數(shù)據(jù)按、分類,t2=0,t3=20,分類正確。(2) 將最小的兩個特征值0.023835和0.07821對應的特征向量去掉,則新的變換矩陣為經(jīng)變換后的向量在新的2維平面如圖2所示圖1-2 樣本經(jīng)K-L變換后分布圖變換后的各類樣本分別用前30個樣本進行訓練,用剩下的20個樣本進行測試,結果如下:1) 取第一類樣本的后20個數(shù)據(jù)按、分類,t1=20,t2=0,分類正確;取第二類樣本的后20個數(shù)據(jù)按、分類,t1=0,t2=20,分類正確。2) 取第一類樣本的后20個數(shù)據(jù)按、分類,t1=20,t3=0,分類正確;取第三類樣本的后20個數(shù)據(jù)按、分類,t1=0,t3=20

5、,分類正確。3) 取第二類樣本的后20個數(shù)據(jù)按、分類,t2=19,t3=1,中一樣本錯分到中;取第三類樣本的后20個數(shù)據(jù)按、分類,t2=1,t3=19,中一樣本錯分到中。以上結果與未經(jīng)K-L變換的最小錯誤率bayes決策分類結果比較,結果幾乎完全相同,只是在去掉最小的兩個特征值對應特征向量的K-L變換時取第三類樣本的后20個數(shù)據(jù)按、分類,中一樣本錯分到中。2. BP神經(jīng)網(wǎng)絡分類(1) 將最小的兩個特征值0.023835和0.07821對應的特征向量去掉,經(jīng)新的變換矩陣變換后的各類樣本分別用前30個樣本進行訓練,用剩下的20個樣本進行測試,分類結果如下:n1=20 n2=19 n3=19,即第二

6、和第三類各有一個樣本錯分到另一類中去,分類結果圖如下。圖2-1 分類結果圖圖2-2 誤差性能曲線(2) 將最小的一個特征值0.023835對應的特征向量去掉,經(jīng)新的變換矩陣變換后的各類樣本分別用前30個樣本進行訓練,用剩下的20個樣本進行測試,分類結果如下:n1=20 n2=19 n3=19,即第二和第三類各有一個樣本錯分到另一類中去,分類結果圖如下。圖2-3 分類結果圖圖2-4 誤差性能曲線以上結果與未經(jīng)K-L變換的BP神經(jīng)網(wǎng)絡分類結果比較,K-L變換后結果在大多數(shù)情況下未經(jīng)處理的分類結果。通過以上兩種基于K-L變換的分類方法可以看到,該變換可以將樣本的顯著特征抽取出來,在降低特征數(shù)據(jù)的維數(shù)

7、減少運算量和存儲量的同時,分類結果基本不受影響,甚至在某些次優(yōu)分類方法(BP神經(jīng)網(wǎng)絡)下可能優(yōu)于未經(jīng)變換處理進行的分類。K-L變換的最小錯誤率bayes分類clear% 原始數(shù)據(jù)導入iris = load('C:MATLAB7work模式識別iris.txt');N=150;%取N=150個樣本%求第一類樣本均值for i = 1:N for j = 1:4 w(i,j) = iris(i,j+1); endendsumx = sum(w,1);for i=1:4 meanx(1,i)=sumx(1,i)/N;end%求樣本協(xié)方差矩陣z(4,4) = 0;var(4,4) =

8、0;var=cov(w);v,latent,explained = pcacov(var);v=fliplr(v);%對特征向量按對應特征值從小到大排序v(:,1:2)=;%去掉最小特征值對應的特征向量for i=1:150 w_k_l(i,:)=(w(i,:)-meanx)*v; %w_k_l為150*3J矩陣end%求第一類樣本均值M=30;w1_k_l(:,:) = w_k_l(1:M,:);meanx1_k_l=sum(w1_k_l,1)/M;w2_k_l(:,:) = w_k_l(51:50+M,:);meanx2_k_l=sum(w2_k_l,1)/M;w3_k_l(:,:) =

9、w_k_l(101:100+M,:);meanx3_k_l=sum(w3_k_l,1)/M;% %求第一類樣本協(xié)方差矩陣var1_k_l=cov(w1_k_l);var2_k_l=cov(w2_k_l);var3_k_l=cov(w3_k_l);var1_k_l_inv = inv(var1_k_l);var2_k_l_inv = inv(var2_k_l);var3_k_l_inv = inv(var3_k_l);var1_k_l_det = det(var1_k_l);var2_k_l_det = det(var2_k_l);var3_k_l_det = det(var3_k_l);p1

10、= 0.5;p2 = 0.5;p3 = 0.5;%取測試數(shù)據(jù),test(:,:) = w_k_l(81:100,:);t1=0;t2=0;t3=0;for i = 1:50-M x=test(i,1);y=test(i,2);%z=test(i,3); % g1 = (-0.5)*(x,y,z-meanx1_k_l)*var1_k_l_inv*(x,y,z'-meanx1_k_l') - 0.5*log(abs(var1_k_l_det); % g2 = (-0.5)*(x,y,z-meanx2_k_l)*var2_k_l_inv*(x,y,z'-meanx2_k_l&

11、#39;) - 0.5*log(abs(var2_k_l_det); % g3 = (-0.5)*(x,y,z-meanx3_k_l)*var3_k_l_inv*(x,y,z'-meanx3_k_l') - 0.5*log(abs(var3_k_l_det); g1 = (-0.5)*(x,y-meanx1_k_l)*var1_k_l_inv*(x,y'-meanx1_k_l') - 0.5*log(abs(var1_k_l_det); g2 = (-0.5)*(x,y-meanx2_k_l)*var2_k_l_inv*(x,y'-meanx2_k_l&

12、#39;) - 0.5*log(abs(var2_k_l_det); g3 = (-0.5)*(x,y-meanx3_k_l)*var3_k_l_inv*(x,y'-meanx3_k_l') - 0.5*log(abs(var3_k_l_det); if g2>g3 t2=t2+1; %若g1>g2,則屬于第一類,否則屬于第二類,并統(tǒng)計每一類的個數(shù) else t3=t3+1; endendK-L變換的BP神經(jīng)網(wǎng)絡分類clear% 原始數(shù)據(jù)導入iris = load('C:MATLAB7work模式識別iris.txt');%求第一類樣本均值for i

13、 = 1:150 for j = 1:4 w(i,j) = iris(i,j+1); endendsumx = sum(w,1);for i=1:4 meanx(1,i)=sumx(1,i)/150;end%求樣本協(xié)方差矩陣var=cov(w);v,latent,explained = pcacov(var);v=fliplr(v);%對特征向量按對應特征值從小到大排序v(:,1:2)=;%去掉最小特征值對應的特征向量w_k_l=w*v; %w_k_l為150*2矩陣M=30;for k=1:3 for i = 1:M x1(i+(k-1)*M,:)=w_k_l(i+(k-1)*50,:);

14、d1(i+(k-1)*M,1)=abs(mod(k,2)-0.1); d1(i+(k-1)*M,2)=abs(floor(k/2)-0.1); endendx2(:,1:2)=x1;x2(:,3:4)=d1;%訓練樣本順序打亂xd=x2(randperm(numel(x2)/4),:);x=xd(:,1:2);d=xd(:,3:4);P=x'T=d'net=newff(minmax(P),8,2,'logsig' 'logsig','trainrp');%purelin純線性函數(shù) trainrp用于模式識別速度較快net.trai

15、nparam.epochs=2000;net.trainparam.goal=0.0045;net=train(net,P,T);sim(net,P)N=50-M;for k=1:3 for i = 1 : N P_test(i+(k-1)*N,:) = w_k_l(i+(k-1)*50+M,:); endend% P_p,minp,maxp = premnmx(P_test);P_p=P_test;P_p=P_p'Y=sim(net,P_p)figuren1=0;n2=0;n3=0;%統(tǒng)計各組分類正確數(shù)for k=1:3 for i=1:N switch k case 1 plot(

16、Y(1,i+(k-1)*N),Y(2,i+(k-1)*N),'r+') if(Y(1,i)>0.5 && Y(2,i)<0.5) n1=n1+1; end case 2 plot(Y(1,i+(k-1)*N),Y(2,i+(k-1)*N),'gs') if(Y(1,i+N)<0.5 && Y(2,i+N)>0.5) n2=n2+1; end case 3 plot(Y(1,i+(k-1)*N),Y(2,i+(k-1)*N),'b*') if(Y(1,i+2*N)>0.5 &&a

17、mp; Y(2,i+2*N)>0.5) n3=n3+1; end end hold on endendhold onplot(0:0.001:1,0.5,'-b' )hold onplot(0.5,0:0.001:1,'-b')axis(-0.2 1.2 -0.2 1.2)xlabel('Y(1)')ylabel('Y(2)')title('分類結果')grid onKPCA一、實驗目的 練習 KPCA 算法,對 IRIS 數(shù)據(jù)進行核主成分分析以降低數(shù)據(jù)維數(shù),對各主成分貢獻進行討論。二、基本原理假設為訓練樣本

18、,用表示輸入空間。KPCA方法的基本思想是通過某種隱式方式將輸入空間映射到某個高維空間(常稱為特征空間),并且在特征空間中實現(xiàn)PCA5,6 。假設相應的映射為,其定義如下 核函數(shù)通過映射將隱式的實現(xiàn)點到F的映射,并且由此映射而得的特征空間中數(shù)據(jù)滿足中心化的條件,即 (1)則特征空間中的協(xié)方差矩陣為: (2)現(xiàn)求的特征值和特征向量, (3)即 (4) 考慮到所有的特征向量可表示為的線性張成,即 (5)則有 (6)其中。定義維矩陣k: (7)則式子(3-13)可以簡化為 (8)顯然滿足 (9)求解(9)就能得到特征值和特征向量,對于測試樣本在特征向量空間的投影為 (10)將內(nèi)積用核 函數(shù)替換則有

19、(11)當(1)不成立時,需進行調(diào)整, (12)則核矩陣可修正為 (13)三、實現(xiàn)步驟基于上述KPCA的基本原理,可得KPCA的處理過程如下:1、將所獲得的個指標(每一指標有個樣品)的一批數(shù)據(jù)寫成一個()維數(shù)據(jù)矩陣。2、計算核矩陣,先選定高斯徑向核函數(shù)中的參數(shù),再由式(7),計算核矩陣K。3、通過(8)修正核矩陣得到KL。4、運用Jacobi迭代方法計算KL的特征值即對應的特征向量。5、特征值按降序排序(通過選擇排序)得并對特征向量進行相應調(diào)整得。6 、通過施密特正交化方法單位正交化特征向量,得到。7、計算特征值的累積貢獻率,根據(jù)給定的提取效率,如果,則提取個主分量。8、計算已修正的核矩陣在提

20、取出的特征向量上的投影,其中。所得的投影即為數(shù)據(jù)經(jīng)KPCA降維后所得數(shù)據(jù)。四、實驗結果與分析本實驗針對 IRIS 數(shù)據(jù)進行核主成分分析,采用二階多項式核函數(shù): 進行核主成分分析。本文在完成 PCA 分析之后,使用 K-means 聚類算法對測試數(shù)據(jù)進行分類,并采用基于人工標注簇的 F 值來評價聚類效果的優(yōu)劣。在 150 個 IRIS 數(shù)據(jù)中隨機選取 20 個作為訓練數(shù)據(jù),其余作為測試數(shù)據(jù)。選擇貢獻率閾值為90%,即選取累計貢獻率達到0.9 的前t 個主成分進行測試數(shù)據(jù)的變換。 因為每次實驗的訓練樣本是從全體數(shù)據(jù)集中隨機抽取的,而K-means聚類的初始聚類中心也是隨機抽取的,這兩個因素都有可能

21、對最終的聚類結果造成影響。所以,僅憑一次實驗難以看出 KPCA 效果的優(yōu)劣。因此,對同樣參數(shù)的實驗進行 200 次 Monte Carlo 實驗,通過計算聚類效果的平均 Calss_F 值來評價KPCA 效果的優(yōu)劣。在一次實驗中(評價三類數(shù)據(jù)分類效果的平均F 值分別為F1,F(xiàn)2,F(xiàn)3,整體的平均 F值為Class_F) 累計貢獻率tF1F2 F3 Class_F 0.9471 40.98880.83150.8293 0.8832 改變累計貢獻率閾值,對比各閾值下聚類效果的好壞。閾值 95%90%85% 80%50% t 5 4 321累計貢獻率 0.9665 0.9293 0.8931 0.8

22、641 0.5082 Class_F 0.76670.7805 0.7444 0.7387 0.5745 由以上實驗結果可以看出,基本上閾值取值越大聚類效果越好,但當閾值取值過大時(eg.取值為 95%時)聚類效果反而下降,這可能是因為有時較小的特征值所對應的主成分有可能包含針對分類的不利信息。而且當閾值取值過大時,KPCA不但沒能起到降維的作用,反而增加的維數(shù)(eg.取值為 95%時,選取的主成分維數(shù)為 5,大于原數(shù)據(jù)維數(shù) 4)所以在實際應用中應當根據(jù)具體情況選擇合適的閾值,不能一味追求高累積貢獻率。 下面,改變訓練數(shù)據(jù)的個數(shù),測試訓練數(shù)據(jù)個數(shù)對KPCA的影響,選擇累積貢獻率閾值為90%。訓

23、練數(shù)據(jù)個數(shù)35102030平均累計貢獻率 0.9888 0.9551 0.93570.9293 0.9232 平均 Class_F 0.69570.7486 0.7534 0.7805 0.7744 由以上實驗結果可以看出,訓練數(shù)據(jù)個數(shù)與KPCA 沒有明顯關系,但當訓練數(shù)據(jù)個數(shù)過?。ㄉ踔列∮谠瓟?shù)據(jù)維數(shù)時)KPCA 效果不佳。 主成分分析屬于代數(shù)特征分析方法,是模式識別領域中一種經(jīng)典的特征抽取和降維方法。但是PCA 的缺點是需要很大的存儲空間和計算復雜度。如果原始空間的維數(shù)是 n , PCA 需要分解一個 n×n的非稀疏矩陣。因為 PCA 是一種線性映射方法,降維后的表示是由線性映射生

24、成的,它忽略了數(shù)據(jù)之間高于2 階的相互關系,所以抽取的特征并不是最優(yōu)的,這在一定程度上影響了PCA 方法的效果。核主成分分析是線性 PCA 的非線性擴展算法,采用非線性的方法抽取主成分,即 KPCA 是在通過映射函數(shù) 把原始向量映射到高維空間 F,在 F 上進行 PCA分析。KPCA 與 PCA 具有本質(zhì)上的區(qū)別:PCA 是基于指標的,而 KPCA 是基于樣本的。KPCA 不僅適合于解決非線性特征提取問題,而且它還能比 PCA 提供更多的特征數(shù)目和更多的特征質(zhì)量,因為前者可提供的特征數(shù)目與輸入樣本的數(shù)目是相等的,而后者的特征數(shù)目僅為輸入樣本的維數(shù)。KPCA 的優(yōu)勢是可以最大限度地抽取指標的信息

25、;但是 KPCA 抽取指標的實際意義不是很明確,計算也比PCA 復雜。 matlab程序: close all; clear all; clc; %數(shù)據(jù)導入 iris_dataset = load('iris_dataset.txt'); %導入iris數(shù)據(jù)集 x = iris_dataset; %樣本%給數(shù)據(jù)添加類別標簽label = ones(50,1);ones(50,1)*2;ones(50,1)*3; iris_dataset = iris_dataset,label; %給定聚類數(shù)目 k = 3; Monte Carlo=200; FF_MC = 0; %各類的Mo

26、nte Carlo平均F值 F_final_MC = 0; %Monte Carlo平均F值 E_MC = 0; %累積貢獻率for r=1:Monte Carlo %選擇訓練數(shù)據(jù)num_train = 20;%訓練數(shù)據(jù)個數(shù)n = randperm(150); x_train(1:num_train,:) = x(n(1:num_train),:);%訓練集,不帶類別標簽 %非訓練數(shù)據(jù)為測試樣本 x_test(1:150-num_train,:) = iris_dataset(n(num_train+1:150),:);%測試集帶類別標簽num_test = zeros(1,3);%存儲測試集

27、中各類樣本的數(shù)目for i=1:3 index = find(x_test(:,5)=i); num_test(i) = length(index); end %KPCA主成分分析threshold = 0.9;%貢獻率 test_kpca,D,E,r = KPCA(x_train,x_test(:,1:4),threshold);%E貢獻率,r使用維數(shù) %累計貢獻率 disp('累計貢獻率為:E='); E E_MC = E_MC+E; disp('使用維數(shù):r='); r disp('訓練樣本核函數(shù)的特征值為D='); D clear cen

28、ter; %隨機選取3個初始聚類中心 n = randperm(150-num_train); center(1,:) = test_kpca(n(1),:); center(2,:) = test_kpca(n(2),:); center(3,:) = test_kpca(n(3),:); %調(diào)用K-means函數(shù) class,num,center = kmeans(test_kpca,k,center);%調(diào)用K-均值函數(shù) %統(tǒng)計聚類效果%result(i,j)代表第i類數(shù)據(jù)被聚類至第j簇的數(shù)量 result = zeros(k,k); for i=1:3 index = find(cla

29、ss=i); for j=1:length(index) for p=1:3 if x_test(index(j),5)=p result(p,i) = result(p,i)+1; end end end end %計算準確率,召回率,F值 %P(i,j)代表第i類數(shù)據(jù)與第j簇相應的準確率 %R(i,j)代表第i類數(shù)據(jù)與第j簇相應的召回率 for i=1:3 for j=1:3 P(i,j) = result(i,j)/num(j); R(i,j) = result(i,j)/num_test(i); F(i,j) = 2*P(i,j)*R(i,j)/(P(i,j)+R(i,j); end

30、end F; %F(i,j)代表第i類數(shù)據(jù)與第j簇相應的F值 disp('FF(i)代表第i類數(shù)據(jù)的F值'); FF = max(F,2) %FF(i)代表第i類數(shù)據(jù)的F值 FF_MC = FF_MC+FF; disp('整個聚類結果的F值'); F_final = mean(FF) %整個聚類結果的F值 F_final_MC = F_final_MC+F_final; end disp('200次Monte Carlo后,所選主成分的平均累積貢獻率為'); E_MC = E_MC/Monte Carlo disp('200次Monte

31、Carlo后,各類數(shù)據(jù)的F均值為'); FF_MC = FF_MC/Monte Carlo disp('200次Monte Carlo后,整體的F均值為'); F_final_MC = F_final_MC/Monte Carlo % KPCA算法函數(shù) function test_kpca,D,E_train,r = KPCA(train,test,threshold) % 數(shù)據(jù)處理 patterns=zscore(train); %訓練數(shù)據(jù)標準化 test_patterns=zscore(test); %測試數(shù)據(jù)標準化 train_num=size(patterns,

32、1); %train_num是訓練樣本的個數(shù) test_num=size(test_patterns,1);%test_num是測試樣本的個數(shù) cov_size = train_num; %cov_size是訓練樣本的個數(shù) % 計算核矩陣 for i=1:cov_size, for j=i:cov_size, K(i,j) =(dot(patterns(i,:),patterns(j,:)+1)2 ;%多項式核函數(shù) K(j,i) = K(i,j); end end unit = ones(cov_size, cov_size)/cov_size;%cov_size是樣本的個數(shù) % 中心化核矩陣

33、 K = K - unit*K - K*unit + unit*K*unit;% 中心化核矩陣 % 特征值分解,V為特征向量,D為特征值 U_1,D_1 = eig(K); x,index=sort(real(diag(D_1); %sort每行從小到大排序x為排序結果index為索引 %特征值從大到小排序 D=flipud(x) ;% flipud函數(shù)實現(xiàn)矩陣的上下翻轉(zhuǎn) 不是矩陣,是一個向量 index=flipud(index); % 將特征向量按特征值從大到小順序排序 U=U_1(:,index); % 單位化特征向量 for i=1:cov_size U_2(:,i) = U(:,i)

34、*sqrt(D(i); end U = U_2; %計算所有特征值的和 E = cumsum(D)/sum(D); index = find(E>threshold); E_train = E(index(1); % 重建測試數(shù)據(jù) unit_test = ones(test_num,cov_size)/cov_size;%cov_size是訓練樣本的個數(shù) K_test = zeros(test_num,cov_size); %test_num測試樣本個數(shù)cov_size是訓練樣本個數(shù) for i=1:test_num, %test_num是測試樣本的個數(shù) for j=1:cov_size

35、,%cov_size是訓練樣本的個數(shù) K_test(i,j) =(dot(test_patterns(i,:),patterns(j,:)+1)2 ;%多項式核函數(shù) end end K_test = K_test - unit_test*K - K_test*unit + unit_test*K*unit;%中心化核矩陣 test_kpca = zeros(test_num, index(1);%test_num是測試樣本的個數(shù) test_kpca = K_test * U(:,1:index(1); r = index(1); 基于Fisher準則線性分類器設計一、實驗原理:線性判別函數(shù)的一

36、般形式可表示成 其中 根據(jù)Fisher選擇投影方向W的原則,即使原樣本向量在該方向上的投影能兼顧類間分布盡可能分開,類內(nèi)樣本投影盡可能密集的要求,用以評價投影方向W的函數(shù)為: 上面的公式是使用Fisher準則求最佳法線向量的解,該式比較重要。另外,該式這種形式的運算,我們稱為線性變換,其中式一個向量,是的逆矩陣,如是d維,和都是d×d維,得到的也是一個d維的向量。向量就是使Fisher準則函數(shù)達極大值的解,也就是按Fisher準則將d維X空間投影到一維Y空間的最佳投影方向,該向量的各分量值是對原d維特征向量求加權和的權值。以上討論了線性判別函數(shù)加權向量W的確定方法,并討論了使Fish

37、er準則函數(shù)極大的d維向量 的計算方法,但是判別函數(shù)中的另一項尚未確定,一般可采用以下幾種方法確定如或者 或當與已知時可用當W0確定之后,則可按以下規(guī)則分類,使用Fisher準則方法確定最佳線性分界面的方法是一個著名的方法,盡管提出該方法的時間比較早,仍見有人使用。二、實驗內(nèi)容:已知有兩類數(shù)據(jù)和二者的概率已知=0.6, =0.4。中數(shù)據(jù)點的坐標對應一一如下: 數(shù)據(jù):x = 0.2331 1.5207 0.6499 0.7757 1.0524 1.1974 0.2908 0.2518 0.6682 0.5622 0.9023 0.1333 -0.5431 0.9407 -0.2126 0.050

38、7 -0.0810 0.7315 0.3345 1.0650 -0.0247 0.1043 0.3122 0.6655 0.5838 1.1653 1.2653 0.8137 -0.3399 0.5152 0.7226 -0.2015 0.4070 -0.1717 -1.0573 -0.2099y = 2.3385 2.1946 1.6730 1.6365 1.7844 2.0155 2.0681 2.1213 2.4797 1.5118 1.9692 1.8340 1.8704 2.2948 1.7714 2.3939 1.5648 1.9329 2.2027 2.4568 1.7523 1

39、.6991 2.4883 1.7259 2.0466 2.0226 2.3757 1.7987 2.0828 2.0798 1.9449 2.3801 2.2373 2.1614 1.9235 2.2604z = 0.5338 0.8514 1.0831 0.4164 1.1176 0.5536 0.6071 0.4439 0.4928 0.5901 1.0927 1.0756 1.0072 0.4272 0.4353 0.9869 0.4841 1.0992 1.0299 0.7127 1.0124 0.4576 0.8544 1.1275 0.7705 0.4129 1.0085 0.76

40、76 0.8418 0.8784 0.9751 0.7840 0.4158 1.0315 0.7533 0.9548數(shù)據(jù)點的對應的三維坐標為x2 = 1.4010 1.2301 2.0814 1.1655 1.3740 1.1829 1.7632 1.9739 2.4152 2.5890 2.8472 1.9539 1.2500 1.2864 1.2614 2.0071 2.1831 1.7909 1.3322 1.1466 1.7087 1.5920 2.9353 1.4664 2.9313 1.8349 1.8340 2.5096 2.7198 2.3148 2.0353 2.6030 1

41、.2327 2.1465 1.5673 2.9414y2 = 1.0298 0.9611 0.9154 1.4901 0.8200 0.9399 1.1405 1.0678 0.8050 1.2889 1.4601 1.4334 0.7091 1.2942 1.3744 0.9387 1.2266 1.1833 0.8798 0.5592 0.5150 0.9983 0.9120 0.7126 1.2833 1.1029 1.2680 0.7140 1.2446 1.3392 1.1808 0.5503 1.4708 1.1435 0.7679 1.1288z2 = 0.6210 1.3656

42、 0.5498 0.6708 0.8932 1.4342 0.9508 0.7324 0.5784 1.4943 1.0915 0.7644 1.2159 1.3049 1.1408 0.9398 0.6197 0.6603 1.3928 1.4084 0.6909 0.8400 0.5381 1.3729 0.7731 0.7319 1.3439 0.8142 0.9586 0.7379 0.7548 0.7393 0.6739 0.8651 1.3699 1.1458數(shù)據(jù)的樣本點分布如下圖:三、實驗步驟:1.把數(shù)據(jù)作為樣本,根據(jù)Fisher選擇投影方向的原則,使原樣本向量在該方向上的投影能

43、兼顧類間分布盡可能分開,類內(nèi)樣本投影盡可能密集的要求,求出評價投影方向的函數(shù),并在圖形表示出來。并在實驗報告中表示出來,并求使取極大值的。用matlab完成Fisher線性分類器的設計,程序的語句要求有注釋。2.根據(jù)上述的結果并判斷(1,1.5,0.6)(1.2,1.0,0.55),(2.0,0.9,0.68),(1.2,1.5,0.89),(0.23,2.33,1.43),屬于哪個類別,并畫出數(shù)據(jù)分類相應的結果圖,畫出其在上的投影。3.回答如下問題,分析一下的比例因子對于Fisher判別函數(shù)沒有影響的原因。四、實驗結果及分析下圖中,紅色的*是給出的第一類樣本點,綠色的五角星是第二類樣本點。下

44、方的實直線是最佳投影方向。待測數(shù)據(jù)投影在其上,圓圈是被分為第一類的樣本點,六角星是被分為第二類的樣本點。使取極大值的W=(-0.0798, 0.2005,-0.0478) W的比例因子對于Fisher判別函數(shù)沒有影響的原因:在本實驗中,最重要的是W的方向,或者說是在此方向上數(shù)據(jù)的投影,所以W的比例因子,即它是單位向量的多少倍長就沒那么重要了,不管比例因子大小是多少,在最后求投影時都會被消掉。通過本次試驗,我進一步了解分類器的設計概念,對模式識別的實際數(shù)值計算有了更多的了解,同時根據(jù)自己的設計對線性分類器有更深刻地認識,并通過本次試驗基本理解了Fisher準則方法確定最佳線性分界面方法的原理及L

45、agrande乘子求解的原理。同時,運用Matlab的水平較前一個實驗又有了一定的提高,在實驗中看到自己的進步,自己的信心又增加了一些,這對以后的學習和實踐都會有一定的影響。代碼:x1 =0.2331 1.5207 0.6499 0.7757 1.0524 1.1974 0.2908 0.2518 0.6682 0.5622 0.9023 0.1333 -0.5431 0.9407 -0.2126 0.0507 -0.0810 0.7315 0.3345 1.0650 -0.0247 0.1043 0.3122 0.6655 0.5838 1.1653 1.2653 0.8137 -0.339

46、9 0.5152 0.7226 -0.2015 0.4070 -0.1717 -1.0573 -0.2099;x2 =2.3385 2.1946 1.6730 1.6365 1.7844 2.0155 2.0681 2.1213 2.4797 1.5118 1.9692 1.8340 1.8704 2.2948 1.7714 2.3939 1.5648 1.9329 2.2027 2.4568 1.7523 1.6991 2.4883 1.7259 2.0466 2.0226 2.3757 1.7987 2.0828 2.0798 1.9449 2.3801 2.2373 2.1614 1.9

47、235 2.2604;x3 =0.5338 0.8514 1.0831 0.4164 1.1176 0.5536 0.6071 0.4439 0.4928 0.5901 1.0927 1.0756 1.0072 0.4272 0.4353 0.9869 0.4841 1.0992 1.0299 0.7127 1.0124 0.4576 0.8544 1.1275 0.7705 0.4129 1.0085 0.7676 0.8418 0.87840.9751 0.7840 0.4158 1.0315 0.7533 0.9548;%將x1、x2、x3變?yōu)樾邢蛄縳1=x1(:);x2=x2(:);x

48、3=x3(:);%計算第一類的樣本均值向量m1m1(1)=mean(x1);m1(2)=mean(x2);m1(3)=mean(x3);%計算第一類樣本類內(nèi)離散度矩陣S1S1=zeros(3,3);for i=1:36 S1=S1+-m1(1)+x1(i) -m1(2)+x2(i) -m1(3)+x3(i)'*-m1(1)+x1(i) -m1(2)+x2(i) -m1(3)+x3(i);end%w2的數(shù)據(jù)點坐標x4 =1.4010 1.2301 2.0814 1.1655 1.3740 1.1829 1.7632 1.9739 2.4152 2.5890 2.8472 1.9539 1

49、.2500 1.2864 1.2614 2.0071 2.1831 1.7909 1.3322 1.1466 1.7087 1.5920 2.9353 1.4664 2.9313 1.8349 1.8340 2.5096 2.7198 2.3148 2.0353 2.6030 1.2327 2.1465 1.5673 2.9414;x5 =1.0298 0.9611 0.9154 1.4901 0.8200 0.9399 1.1405 1.0678 0.8050 1.2889 1.4601 1.4334 0.7091 1.2942 1.3744 0.9387 1.2266 1.1833 0.8798 0.5592 0.5150 0.9983 0.9120 0.7126 1.2833 1.1029 1.2680 0.

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論