常見特征選擇算法20160711

上傳人：5*** IP屬地：湖北上傳時(shí)間：2021-06-24 格式：PPTX 頁數(shù)：41 大?。?.06MB 積分：25 舉報(bào) 版權(quán)申訴

已閱讀5頁，還剩36頁未讀，繼續(xù)免費(fèi)閱讀

版權(quán)說明：本文檔由用戶提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、我們畢業(yè)啦其實(shí)是答辯的標(biāo)題地方常見特征選擇算法什么是特征選擇？模式識(shí)別系統(tǒng)的輸入時(shí)傳感器對(duì)實(shí)物或過程進(jìn)行測(cè)量所得到的數(shù)據(jù)，其中有些數(shù)據(jù)可以直接作為特征，有一些需要經(jīng)過處理之后作為特征，這樣的一組特征一般為原始特征原始特征。在原始特征中，并不一定每個(gè)特征都有用，從原始特征集合中選擇對(duì)分類結(jié)果有用的特征的過程稱為特征選擇。比如在識(shí)別蘋果和橙子的系統(tǒng)中，我們可以抽取的特征很多（體積、重量、顏色、高度、寬度、最寬處高度），在這些特征中有用的是（顏色、高度、最寬處高度），其它特征對(duì)識(shí)別意義不大，所以去掉。為什么進(jìn)行特征選擇？在機(jī)器學(xué)習(xí)的實(shí)際應(yīng)用中，特征數(shù)量往往較多，其中可能

2、存在不相關(guān)的特征，特征之間也可能存在相互依賴，容易導(dǎo)致如下的后果：特征個(gè)數(shù)越多，分析特征、訓(xùn)練模型所需的時(shí)間就越長。特征個(gè)數(shù)越多，容易引起“維度災(zāi)難”，模型也會(huì)越復(fù) 雜，其推廣能力會(huì)下降。特征選擇能剔除不相關(guān)(irrelevant)或亢余(redundant )的特征，從而達(dá)到減少特征個(gè)數(shù)，提高模型精確度，減少運(yùn)行時(shí)間的目的。另一方面，選取出真正相關(guān)的特征簡(jiǎn)化了模型，使研究人員易于理解數(shù)據(jù)產(chǎn)生的過程。特征選擇和特征抽取區(qū)別？模式識(shí)別中特征降維方法有兩種：特征抽取特征抽取和特征選擇特征選擇特征提取 ( Feature extraction ) 是指利用已有的特征計(jì)算出一個(gè)抽

3、象程度更高的特征集。對(duì)已有特征集合進(jìn)行映射變換得到。 PCA、LDA 特征選擇也叫特征子集選擇 ( FSS , Feature Subset Selection ) 或?qū)?性選擇( Attribute Selection )。特征選擇實(shí)質(zhì)是從原始數(shù)據(jù)集中選取最優(yōu)子集的過程。特征選擇一般流程 A. 產(chǎn)生過程( Generation Procedure )：按一定的搜索策略搜索策略產(chǎn)生候選特征子集。 B. 評(píng)價(jià)函數(shù)( Evaluation Function ) ：通過某個(gè)評(píng)價(jià)函數(shù)評(píng)價(jià)函數(shù)來評(píng)估特征子集的優(yōu)劣。 C. 停止準(zhǔn)則( Stopping Criterion )：停止準(zhǔn)則是與評(píng)價(jià)

4、函數(shù)相關(guān)的，一般是一個(gè)閾值，當(dāng)評(píng)價(jià)函數(shù)值達(dá)到這個(gè)閾值后就可停止搜索。 D. 子集驗(yàn)證：用來驗(yàn)證最終所選子集的有效性。評(píng)價(jià)函數(shù) 評(píng)價(jià)函數(shù)通常用來評(píng)估某個(gè)特征或特征子集分類的能力。最優(yōu)特征子集產(chǎn)生和評(píng)價(jià)函數(shù)是相關(guān)的，不同評(píng)價(jià)函數(shù) 可能產(chǎn)生不同的最優(yōu)特征子集。將評(píng)價(jià)函數(shù)分為兩類：filter和wrapper。用符號(hào)J ( Y )來表示評(píng)價(jià)函數(shù)，其中Y是一個(gè)特征集，J( Y ) 越大表示特征集Y越好 Filter：通過分析特征子集內(nèi)部的信息來衡量特征子集的好壞。評(píng)價(jià)準(zhǔn)則 Wrapper：評(píng)價(jià)函數(shù)是一個(gè)分類器，采用特定特征子集對(duì)樣本集進(jìn)行分類，根據(jù)分類的結(jié) 果來衡量該特征子集的好壞

5、評(píng)價(jià)函數(shù)-Filter 距離或可分性度量距離或可分性度量：距離度量有時(shí)候也稱作類別可分離判據(jù)、離散度準(zhǔn)則,在統(tǒng)計(jì)模式識(shí)別中對(duì)類別的可分離性研究的比較深入。 -歐幾里得距離、馬氏距離、巴氏距離等相關(guān)性度量：相關(guān)性度量：用來度量特征和類別之間的相關(guān)性。 -相關(guān)系數(shù) 信息論度量：信息論度量： -信息增益、最小描述長度、互信息 Filter-距離度量距離度量，是基于這樣的假設(shè)：好的特征子集應(yīng)該使得屬于同一類的樣本距離盡可能小，屬于不同類的樣本之間的距離盡可能遠(yuǎn)。常見的有歐氏距離、馬氏距離、巴氏距離等等。 Filter-相關(guān)系數(shù) 運(yùn)用相關(guān)性來度量特征子集的好壞是基于這樣一個(gè)假設(shè)：好的特

6、征子集所包含的特征應(yīng)該是與分類的相關(guān)度較高（相關(guān)度高），而特征之間相關(guān)度較低的（亢余度低）。可以使用線性相關(guān)系數(shù)(correlation coefficient) 來衡量向量之間線性相關(guān)度。 Filter-信息增益（1）通過計(jì)算特征的信息增益來對(duì)特征進(jìn)行評(píng)價(jià)。信息熵：假設(shè)存在離散變量Y，Y中可能的取值包括y1， y2，.，ym ，yi出現(xiàn)的概率為Pi。則Y的信息熵定義為：條件信息熵：附加條件X=Xi后，Y的條件信息熵變?yōu)椋?信息增益：加入條件X前后的信息熵之差。 Filter-信息增益（2）對(duì)于分類系統(tǒng)來說，類別C是變量，他可能的取值為 C1,C2,Cn,而每個(gè)類別出現(xiàn)的概率是P

7、(Ci),分類系統(tǒng)的信息熵為：當(dāng)新加入一個(gè)特征Fj后，系統(tǒng)的信息熵變?yōu)椋?增加F特征前后的信息增益為：假設(shè)存在特征子集A和特征子集B，分類變量為C，若 IG( C|A ) IG( C|B ) ，則認(rèn)為選用特征子集A的分類結(jié)果比B好，因此傾向于選用特征子集A。 Filter和Wrapper優(yōu)缺點(diǎn) 評(píng)價(jià)準(zhǔn)則優(yōu)點(diǎn)缺點(diǎn) filter 快速執(zhí)行；易于推廣；準(zhǔn)確率方面通常低于 Wrapper方法； wrapper準(zhǔn)確率高；計(jì)算代價(jià)大；不易于推廣；搜索策略窮舉算法：窮舉算法：對(duì)特征空間進(jìn)行窮舉搜索（當(dāng)然也會(huì)采用剪枝等優(yōu)化），搜索出來的特征集對(duì)于樣本集是最優(yōu)的。這類算法的時(shí)間復(fù)雜度是指

8、數(shù)級(jí)的。序列算法：序列算法：這類算法實(shí)際上是一種貪心算法，算法時(shí)間復(fù)雜度較低，但是可能會(huì)陷入局部最優(yōu)值，不一定能找到全局最優(yōu)解。隨機(jī)算法：隨機(jī)算法：隨機(jī)算法屬于一種近似算法，能找出問題的近似最優(yōu)解。每個(gè)隨機(jī)算法都需要設(shè)置一定的參數(shù)，這些參數(shù)的選擇很重要。搜索策略窮舉算法：窮舉搜索 Exhaustive Search (ES) 分支限界法 Branch and Bound (Bk=k+1 go to Step 3 else go to Step 2 三種搜索算法對(duì)比搜索策略優(yōu)點(diǎn)缺點(diǎn) 窮舉算法能夠得到全局最優(yōu)解；算法復(fù)雜，耗費(fèi) 時(shí)間；序列算法實(shí)現(xiàn)簡(jiǎn)單，執(zhí)行效率高；不

9、能回溯隨機(jī)算法避免陷入局部最優(yōu)解模型參數(shù)選擇比較難參考文獻(xiàn) 1 Doak J, Doak J. An evaluation of feature selection methods and their application to computer securityJ. Uc Davis Dept of Computer Science Tech Reports, 1992. Dash M, Liu H. Feature selection for classificationJ. Intelligent Data Analysis, 2010, 1(s 14):131-156. 毛勇, 周曉波, 夏錚,等. 特征選擇算法研究綜述J. 模式識(shí) 別與人工智能, 2007, 20(2):211-218. Ricardo Gutierrez-Osuna, Introduction to Pattern Analysis ( L11: Sequential Feature Selection and L12: randomized fe

人人文庫> 全部分類> 教育資料 > 課件下載

溫馨提示

1. 本站所有資源如無特殊說明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽，若沒有圖紙預(yù)覽就沒有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間，僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理，對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容，請(qǐng)與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

常見特征選擇算法20160711

文檔簡(jiǎn)介

溫馨提示

最新文檔

評(píng)論

常見特征選擇算法20160711

文檔簡(jiǎn)介

溫馨提示

最新文檔

評(píng)論

相關(guān)文檔