




下載本文檔
版權說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權,請進行舉報或認領
文檔簡介
基于特征相關性和冗余性分析的特征選擇方法
0特征相關性和冗余性的定義及應用在機械故障診斷中,由于診斷對象的復雜性,故障特征和故障類別之間的對應關系尚不清楚,因此僅提出了幾個原始特征來識別故障。然而,由于分類器規(guī)模、訓練過程的復雜性以及計算機容量等許多因素的限制,許多人無法取得良好的效果。為了提高識別精度,在設計分類器前,必須去除兩類特征量:①與分類目標無關的特征量;②與其他特征量有較高相關性的冗余特征量,即從一組數(shù)量為D的特征中選擇出數(shù)量為d(D>d)的一組最優(yōu)特征,使得分類錯誤率最小。特征選擇首先要選擇合適的評價準則。從理論上講,使分類錯誤率最小的特征集應是最優(yōu)的,但在一般情況下,要計算錯誤率是十分困難的,它需要類條件分布密度已知,而在實際問題中這一分布是不知道的。因此目前采用一些更實用的標準來作為特征評價準則,如距離測度準則或錯誤率上界準則。這些評價準則在特征選擇中取得了好的效果,但由于這些評價準則沒有從特征本身的相關性和冗余性出發(fā),所選擇的結(jié)果帶有盲目性,不能揭示特征集內(nèi)在的相關性和冗余性。本文直接由特征相關性和冗余性定義出發(fā),采用互信息定量地對特征相關性和冗余性進行測量,提出一種基于特征相關性和冗余性分析的特征選擇方法,可有效地去除特征集中不相關特征和冗余特征,找到優(yōu)化特征子集。由于該方法不需要對特征子集進行搜索,大大減小了運算量,在特征選擇中有非常好的應用前景。1資源相關性和冗余性分析1.1不相關特征分類文獻對特征相關性進行了定義,將特征分為三類:強相關特征、弱相關特征和不相關特征。原始特征集為F,特征Fi∈F,Si=F-{Fi}。對特征的相關性定義如下:定義1如果P(C|Fi,Si)≠P(C|Si),則稱特征Fi為強相關特征。定義2如果P(C|Fi,Si)=P(C|Si)且?S′i?Si,P(C|Fi,S′i)≠P(C|S′i),則稱特征Fi為弱相關特征。定義3如果?S′i?Si,P(C|Fi,S′i)=P(C|S′i),則稱特征Fi為不相關特征。在上述特征中,強相關特征是必須保留的,否則會嚴重影響分類性能;弱相關特征并不是一定需要的,但有時又是必須的,因而需要視情況取舍;不相關特征則完全沒必要保留,需要去除。一個好的優(yōu)化特征集合包括所有的強相關特征、部分弱相關特征,不含任何不相關特征。特征冗余性是指特征之間的相關性,如果兩個特征完全相關,則它們互為冗余特征。定義4S為特征集,Fi∈S,如果P(C|S)=P(C|S-{Fi}),則Fi稱為S的冗余特征。圖1描述了一個特征集的劃分,它包含四部分:不相關特征集(Ⅰ)、弱相關冗余特征集(Ⅱ)、弱相關但不冗余特征集(Ⅲ)、強相關特征集(Ⅳ)。顯然,最后得到的優(yōu)化特征集應該包含(Ⅲ+Ⅳ)兩個部分。1.2條件互信息的相關對特征相關性和冗余性測量可采用互信息來實現(xiàn)。互信息是兩個隨機變量A和B之間統(tǒng)計相關性的量度,或是一個變量包含另一個變量的信息量的量度。定義5兩個隨機變量X、Y,它們的密度分布函數(shù)分別為p(x)、p(y),聯(lián)合概率分布為p(x,y),則X、Y的互信息為I(X,Y)=∫∫p(x,y)log2p(x,y)p(x)p(y)dxdyΙ(X,Y)=∫∫p(x,y)log2p(x,y)p(x)p(y)dxdy(1)當X、Y為離散變量時,則I(X,Y)=∑i∑jp(xi,yj)log2p(xi,yj)p(xi)p(yj)Ι(X,Y)=∑i∑jp(xi,yj)log2p(xi,yj)p(xi)p(yj)(2)互信息越大,說明兩變量間的相關性越強。因而可以用特征-類間的互信息I(F,C)表示其相關程度。定義6假設三個隨機變量X、Y、Z,條件互信息I(X,Y|Z)代表給定變量Z后特征變量X、Y之間的互信息,則I(X,Y|Z)=I(Y,{X,Z})-I(Y,Z)(3)條件互信息表示當Z已知時,X包含Y的信息大小。在定義互信息后,我們就可以通過互信息指標來確定特征屬于那一類特征,即:①如果I(Fi;C|Si)>0,則Fi是強相關的;②如果I(Fi;C|i)=0,且?S′i?Si,I(Fi;C|S′i)>0,則Fi是弱相關的;③如果?S′i?Si,I(Fi;C|S′i)=0,則Fi是不相關的;④對于特征集S,Fi∈S,如果I(Fi;C|S-{Fi})=0,則Fi為集合S的冗余特征。在實際應用中,由于互信息的計算是基于有限樣本的,計算得到的值與理論分析的結(jié)果有偏差,因此,當I(Fi;C|S-{Fi})的值在接近于零的允許計算偏差范圍內(nèi),就認為I(Fi;C|S-{Fi})=0是成立的。1.3分類參數(shù)化和識別從圖1所示的原始特征集劃分來看,要想得到優(yōu)化特征子集(Ⅲ+Ⅳ),可以通過先去除不相關特征(Ⅰ),然后再去除弱相關冗余特征(Ⅱ)得到。所以本文提出一種新的特征選擇框架,即把特征選擇過程分兩步進行:第一步通過特征—類相關性分析去除原始特征集中的不相關和相關性較小的特征;第二步通過冗余分析去除特征集中的冗余特征,最后可以得到優(yōu)化特征子集。圖2為基于相關性和冗余性分析的特征選擇框架。特征選擇算法如下:輸入為訓練集S(F1,F2,…,FN,C)和預先設定的閾值δ;輸出為優(yōu)化子集Sbest。①令S0=?;②對所有的特征Fi(i=1,2,…,N),計算I(Fi;C),如果I(Fi;C)>δ,則S0=S0+Fi,否則S0=S0;③從S0中依次取出特征Fi,計算I(Fi,C︱S0-{Fi}),如果I(Fi,C|S0-{Fi})=0,則S0=S0-{Fi},否則,S0=S0;④Sbest=S0。此算法第二步通過設置閾值δ來去除不相關特征和對分類貢獻較小的弱相關特征,第三步通過對相關子集中的每個特征進行冗余性測試,最后得到完全不冗余的優(yōu)化特征子集。已知特征與類別互信息的物理含義是特征含有類別信息的大小,如果特征Fi為不相關特征,則特征不含有任何類別信息,I(Fi;C)=0;如果由特征Fi就可以對故障狀態(tài)作出完全正確的判斷,即此時特征含有的類別信息等于類別所含有的信息,則此時互信息的取值最大。假設故障類別集合C存在c個故障模式,第i個故障模式的先驗概率為P(Ci),則類別含有的信息可以用個體熵H(C)表示:H(C)=?∑i=1cP(Ci)log2P(Ci)Η(C)=-∑i=1cΡ(Ci)log2Ρ(Ci)(4)當P(Ci)均勻分布時,即每類的先驗概率都為1/c,此時H(C)取最大值,H(C)=log2c。此時特征Fi與類別的互信息為I(Fi;C)=H(C)=log2c,即特征與類別的互信息滿足下式:0≤I(Fi;C)≤log2c(5)這也是閾值δ的理論取值范圍。但對閾值δ的取值必須考慮實際情況,如果原始特征集中含有較多的不相關信息,則可把δ值取小一些,這樣可去除與類別不相關的特征,如果此時δ取值較大,將有可能丟失相關特征,從而影響特征選擇結(jié)果;當特征集中存在眾多有效的特征時,此時特征之間的冗余性可能較多一些,δ可考慮取值大一些,以便能在通過相關分析時就去掉一些冗余特征,減少后面冗余分析的計算量。2特征選擇算法仿真樣本集由兩類樣本組成,各有50組樣本,原始特征集維數(shù)為10,其中前兩個特征(F1,F2)是有效的分類特征,可以由一個線性超平面區(qū)分,如圖3所示。第3、第4、第5特征分別為前兩個特征的冗余特征,即F3=2F2,F4=2F2,F5=F1×F2。后5個特征量的取值為0與1間的隨機數(shù),不含有任何分類信息,為不相關特征。各樣本在前兩個特征空間的分布如圖3所示。采用基于相關性和冗余性分析的特征選擇算法進行選擇:(1)計算每個特征與類的互信息(表1)。(2)從表1可以看出,特征F6~F10與類別互信息較小,為不相關特征,通過設置閾值δ=0.1,去除這些不相關特征,得到相關特征集S0={F1,F2,F3,F4,F5}。(3)從S0中取出特征F3,由式(2)、式(3)計算I(F3,C|S0-{F3})=I(S0,C)-I(S0-{F3},C)=0.3805-0.3805=0,S0=S0-{F3}={F1,F2,F4,F5},然后依次從S0中取出特征F4、F5,計算I(Fi,C|S0-{Fi}),得到I(Fi,C|S0-{Fi})=0,因而F4、F5為冗余特征,可從特征集中去除,S0={F1,F2}。從S0中取出特征F1,計算I(F1,C|S0-{F1})=I(S0,C)-I(S0-{F1},C)=0.3805-0.2031=0.1774>0,保留特征F1。從S0中取出特征F2,計算I(F2,C|S0-{F2})=I(S0,C)-I(S0-{F2},C)=0.3805-0.2601=0.1204>0,保留特征F2。(4)此時特征全部取完,最后得到優(yōu)化特征集為Sbest=S0={F1,F2}。選擇結(jié)果與仿真設定是相吻合的。3特征選擇及其結(jié)果分析通過實驗測試了直列4缸4135柴油機在正常和故障狀態(tài)下的振動信號。該柴油機的基本參數(shù)為:額定功率58.8kW,額定轉(zhuǎn)速1500r/min。振動加速度傳感器的布置方案為:測點1、2位于氣缸蓋上;測點3位于氣缸體表面,對應活塞行程的中點處。每個測點的振動信號提取6個特征,分別為振動信號的頻域波形復雜度、時域波形復雜度、非周期復雜度、頻譜中心頻率、時間序列方差和時間序列峭度,共產(chǎn)生18個特征。對柴油機正常狀態(tài)、進氣閥開度過小、進氣閥開度過大、排氣閥開度過大四種工作狀況進行了采樣。采用基于相關性和冗余性分析的特征選擇算法進行選擇:(1)計算每個特征與類的互信息(表2)。(2)從表2可以看出,特征集中除F3外每個特征都為相關特征,因此存在較多的冗余特征。通過使閾值δ取值大一些,可在相關分析時去除不相關特征的同時就去掉一些冗余特征,簡化后面的冗余分析計算。設δ=0.45,得到特征集S0={F18,F6,F16,F17,F5}。(3)從S0中依次取出特征Fi,計算I(Fi,C|S0-{Fi}),如果I(Fi,C|S0-{Fi})=0,S0=S0-{Fi},經(jīng)過計算去除冗余特征F18、F6、F16。當取到特征F17時,計算I(F17,C|S0-{F17})=I(S0,C)-I(S0-{F17},C)=0.9789-0.9405>0,S0={F17,F5};從S0中取出特征F5,計算I(F5,C|S0-{F5})=I(S0,C)-I(S0-{F5},C)=0.9789-0.8489>0,S0={F17,F5}。(4)此時特征全部取完,最后得到優(yōu)化特征集為Sbest=S0={F17,F5},即測點1、3的時間序列方差。為檢驗該方法的特征選擇效果,采用三層BP神經(jīng)網(wǎng)絡分類器進行檢驗。輸入節(jié)點數(shù)為選擇的特征個數(shù),輸出節(jié)點數(shù)取為狀態(tài)類別數(shù)4,輸出期望值對應每個輸出節(jié)點為1,否則為0。隱含層的節(jié)點數(shù)通過試驗來確定,因為過多的隱層點數(shù)會產(chǎn)生過擬合現(xiàn)象,導致誤識,過少會產(chǎn)生欠擬合現(xiàn)象,達不到逼近精度。通過設定隱層節(jié)點數(shù)為3~10得到的最優(yōu)結(jié)果來確定最佳隱層節(jié)點數(shù)。識別正確率估計采用k-折交叉驗證法(k-foldcross-validation),取k=5。表3是對原始特征集和選擇優(yōu)化特征集的分類結(jié)果比較。由表3可知,特征選擇后的優(yōu)化特征集提高了診斷精度,表明它去除了原始特征集中的不相關和弱相關冗余特征,得到的特征集確實為優(yōu)化特征子集。同時,經(jīng)過特
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經(jīng)權益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 隔音墊施工方案
- 水利設施提升施工方案
- 路面硬化路肩首件施工方案
- 青海四合院庭院施工方案
- 地下室成品隔油池施工方案
- 晉中導向標志牌施工方案
- 【市占率證明權威指南】摩托車行業(yè)市占率全解(智研咨詢發(fā)布)
- 排放源的治理技術選擇與應用分析
- 綠色金融與低碳投資的策略及實施路徑
- 低空經(jīng)濟公司的經(jīng)營策略
- TOC基本課程講義學員版-王仕斌
- 《國家綜合性消防救援隊伍處分條令(試行)》知識考試題庫(含答案)
- 電動平車使用說明書
- 商超行業(yè)風險分析
- 人口學概論完
- 火場排煙課件
- 人行道開挖施工方案簡單版
- 酒店西餐廳物品采購清單
- 危險作業(yè)維修工作方案
- 環(huán)形加熱爐筑爐施工技術
- 氯氣的性質(zhì) 說課課件 2023-2024學年高一上學期化學人教版(2019)必修第一冊
評論
0/150
提交評論