常見特征選擇算法20160711_第1頁
常見特征選擇算法20160711_第2頁
常見特征選擇算法20160711_第3頁
常見特征選擇算法20160711_第4頁
常見特征選擇算法20160711_第5頁
已閱讀5頁,還剩36頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

1、我們畢業(yè)啦 其實(shí)是答辯的標(biāo)題地方 常見特征選擇算法 什么是特征選擇? 模式識別系統(tǒng)的輸入時(shí)傳感器對實(shí)物或過程進(jìn)行測量所得到 的數(shù)據(jù),其中有些數(shù)據(jù)可以直接作為特征,有一些需要經(jīng)過 處理之后作為特征,這樣的一組特征一般為原始特征原始特征。 在原始特征中,并不一定每個(gè)特征都有用,從原始特征集合 中選擇對分類結(jié)果有用的特征的過程稱為特征選擇。 比如在識別蘋果和橙子的系統(tǒng)中,我們可以抽取的特征很多 (體積、重量、顏色、高度、寬度、最寬處高度),在這些特 征中有用的是(顏色、高度、最寬處高度),其它特征對識別 意義不大,所以去掉。 為什么進(jìn)行特征選擇? 在機(jī)器學(xué)習(xí)的實(shí)際應(yīng)用中,特征數(shù)量往往較多,其中可能

2、存在不相關(guān)的特征,特征之間也可能存在相互依賴,容易 導(dǎo)致如下的后果: 特征個(gè)數(shù)越多,分析特征、訓(xùn)練模型所需的時(shí)間就越長。 特征個(gè)數(shù)越多,容易引起“維度災(zāi)難”,模型也會越復(fù) 雜,其推廣能力會下降。 特征選擇能剔除不相關(guān)(irrelevant)或亢余(redundant )的特 征,從而達(dá)到減少特征個(gè)數(shù),提高模型精確度,減少運(yùn)行 時(shí)間的目的。另一方面,選取出真正相關(guān)的特征簡化了模 型,使研究人員易于理解數(shù)據(jù)產(chǎn)生的過程。 特征選擇和特征抽取區(qū)別? 模式識別中特征降維方法有兩種:特征抽取特征抽取和特征選擇特征選擇 特征提取 ( Feature extraction ) 是指利用已有的特征計(jì)算出一個(gè)抽

3、象程度更高的特征集。對已有特征 集合進(jìn)行映射變換得到。 PCA、LDA 特征選擇也叫特征子集選擇 ( FSS , Feature Subset Selection ) 或?qū)?性選擇( Attribute Selection )。 特征選擇實(shí)質(zhì)是從原始數(shù)據(jù)集中選 取最優(yōu)子集的過程。 特征選擇一般流程 A. 產(chǎn)生過程( Generation Procedure ):按一定的搜索策略搜索策略產(chǎn)生候選特征 子集。 B. 評價(jià)函數(shù)( Evaluation Function ) :通過某個(gè)評價(jià)函數(shù)評價(jià)函數(shù)來評估特征子集 的優(yōu)劣。 C. 停止準(zhǔn)則( Stopping Criterion ):停止準(zhǔn)則是與評價(jià)

4、函數(shù)相關(guān)的,一般是 一個(gè)閾值,當(dāng)評價(jià)函數(shù)值達(dá)到這個(gè)閾值后就可停止搜索。 D. 子集驗(yàn)證:用來驗(yàn)證最終所選子集的有效性。 評價(jià)函數(shù) 評價(jià)函數(shù)通常用來評估某個(gè)特征或特征子集分類的能力。 最優(yōu)特征子集產(chǎn)生和評價(jià)函數(shù)是相關(guān)的,不同評價(jià)函數(shù) 可能產(chǎn)生不同的最優(yōu)特征子集。 將評價(jià)函數(shù)分為兩類:filter和wrapper。 用符號J ( Y )來表示評價(jià)函數(shù),其中Y是一個(gè)特征集,J( Y ) 越大表示特征集Y越好 Filter:通過分析特 征子集內(nèi)部的信息來 衡量特征子集的好壞。 評價(jià)準(zhǔn)則 Wrapper:評價(jià)函數(shù)是一個(gè)分 類器,采用特定特征子集對樣 本集進(jìn)行分類,根據(jù)分類的結(jié) 果來衡量該特征子集的好壞

5、評價(jià)函數(shù)-Filter 距離或可分性度量距離或可分性度量:距離度量有時(shí)候也稱作類別可分離 判據(jù)、離散度準(zhǔn)則,在統(tǒng)計(jì)模式識別中對類別的可分離性 研究的比較深入。 -歐幾里得距離、馬氏距離、巴氏距離等 相關(guān)性度量:相關(guān)性度量:用來度量特征和類別之間的相關(guān)性。 -相關(guān)系數(shù) 信息論度量:信息論度量: -信息增益、最小描述長度、互信息 Filter-距離度量 距離度量,是基于這樣的假設(shè):好的特征子集應(yīng)該使得 屬于同一類的樣本距離盡可能小,屬于不同類的樣本之 間的距離盡可能遠(yuǎn)。 常見的有歐氏距離、馬氏距離、巴 氏距離等等。 Filter-相關(guān)系數(shù) 運(yùn)用相關(guān)性來度量特征子集的好壞是基于這樣一個(gè)假設(shè): 好的特

6、征子集所包含的特征應(yīng)該是與分類的相關(guān)度較高 (相關(guān)度高),而特征之間相關(guān)度較低的(亢余度低)。 可以使用線性相關(guān)系數(shù)(correlation coefficient) 來衡量向 量之間線性相關(guān)度。 Filter-信息增益(1) 通過計(jì)算特征的信息增益來對特征進(jìn)行評價(jià)。 信息熵:假設(shè)存在離散變量Y,Y中可能的取值包括y1, y2,.,ym ,yi出現(xiàn)的概率為Pi。則Y的信息熵定義為: 條件信息熵:附加條件X=Xi后,Y的條件信息熵變?yōu)椋?信息增益:加入條件X前后的信息熵之差。 Filter-信息增益(2) 對于分類系統(tǒng)來說,類別C是變量,他可能的取值為 C1,C2,Cn,而每個(gè)類別出現(xiàn)的概率是P

7、(Ci),分類系統(tǒng)的 信息熵為: 當(dāng)新加入一個(gè)特征Fj后,系統(tǒng)的信息熵變?yōu)椋?增加F特征前后的信息增益為: 假設(shè)存在特征子集A和特征子集B,分類變量為C,若 IG( C|A ) IG( C|B ) ,則認(rèn)為選用特征子集A的分類結(jié)果 比B好,因此傾向于選用特征子集A。 Filter和Wrapper優(yōu)缺點(diǎn) 評價(jià)準(zhǔn)則優(yōu)點(diǎn)缺點(diǎn) filter 快速執(zhí)行; 易于推廣; 準(zhǔn)確率方面通常低于 Wrapper方法; wrapper準(zhǔn)確率高; 計(jì)算代價(jià)大; 不易于推廣; 搜索策略 窮舉算法:窮舉算法:對特征空間進(jìn)行窮舉搜索(當(dāng)然也會采用剪 枝等優(yōu)化),搜索出來的特征集對于樣本集是最優(yōu)的。 這類算法的時(shí)間復(fù)雜度是指

8、數(shù)級的。 序列算法:序列算法:這類算法實(shí)際上是一種貪心算法,算法時(shí)間 復(fù)雜度較低,但是可能會陷入局部最優(yōu)值,不一定能找 到全局最優(yōu)解。 隨機(jī)算法:隨機(jī)算法:隨機(jī)算法屬于一種近似算法,能找出問題的 近似最優(yōu)解。每個(gè)隨機(jī)算法都需要設(shè)置一定的參數(shù),這 些參數(shù)的選擇很重要。 搜索策略 窮舉算法:窮舉搜索 Exhaustive Search (ES) 分支限界法 Branch and Bound (Bk=k+1 go to Step 3 else go to Step 2 三種搜索算法對比 搜索策略優(yōu)點(diǎn)缺點(diǎn) 窮舉算法 能夠得到全局最 優(yōu)解; 算法復(fù)雜,耗費(fèi) 時(shí)間; 序列算法 實(shí)現(xiàn)簡單,執(zhí)行 效率高; 不

9、能回溯 隨機(jī)算法 避免陷入局部最 優(yōu)解 模型參數(shù)選擇比 較難 參考文獻(xiàn) 1 Doak J, Doak J. An evaluation of feature selection methods and their application to computer securityJ. Uc Davis Dept of Computer Science Tech Reports, 1992. Dash M, Liu H. Feature selection for classificationJ. Intelligent Data Analysis, 2010, 1(s 14):131-156. 毛勇, 周曉波, 夏錚,等. 特征選擇算法研究綜述J. 模式識 別與人工智能, 2007, 20(2):211-218. Ricardo Gutierrez-Osuna, Introduction to Pattern Analysis ( L11: Sequential Feature Selection and L12: randomized fe

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論