




版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
FeatureSelectionforClassification2017.5.102021/5/91單擊此處添加文字內(nèi)容綜述單擊此處添加文字內(nèi)容特征選擇流程單擊此處添加文字內(nèi)容幾種常用的特征選擇算法單擊此處添加文字內(nèi)容總結(jié)12342021/5/92綜述What
從全部特征中選取一個(gè)特征子集,使構(gòu)造出來(lái)的模型更好。Why
在機(jī)器學(xué)習(xí)的實(shí)際應(yīng)用中,特征數(shù)量往往較多,其中可能存在不相關(guān)的特征,特征之間也可能存在相互依賴,容易導(dǎo)致如下的后果:分析特征、訓(xùn)練模型耗時(shí)長(zhǎng)模型復(fù)雜、推廣能力差引起維度災(zāi)難2021/5/93維度災(zāi)難隨著維數(shù)的增加,特征空間的體積指數(shù)增加,從而導(dǎo)致各方面的成本指數(shù)增加樣本數(shù)量存儲(chǔ)空間計(jì)算量……如何從中選出有用的特征??2021/5/94單擊此處添加文字內(nèi)容綜述單擊此處添加文字內(nèi)容特征選擇流程單擊此處添加文字內(nèi)容幾種常用的特征選擇算法單擊此處添加文字內(nèi)容總結(jié)12342021/5/95特征選擇流程GeneratorEvaluationStopRuleValidationSubsetYesNoOriginalFeatureSet2021/5/96兩個(gè)主要步驟產(chǎn)生過(guò)程特征子集的產(chǎn)生可以看作是一個(gè)搜索過(guò)程,搜索空間中的每一個(gè)狀態(tài)都是一個(gè)可能特征子集。搜索的算法分為完全搜索(Complete),啟發(fā)式搜索(Heuristic),隨機(jī)搜索(Random)3大類。評(píng)價(jià)函數(shù)評(píng)價(jià)函數(shù)是評(píng)價(jià)一個(gè)特征子集好壞的準(zhǔn)則特征的評(píng)估函數(shù)分為五類:相關(guān)性,距離,信息增益,一致性和分類錯(cuò)誤率。2021/5/97搜索算法之完全搜索完全搜索分為窮舉搜索與非窮舉搜索兩類廣度優(yōu)先搜索(BFS)分支限界搜索(BAB)定向搜索(BS)最優(yōu)優(yōu)先搜索(BestFirstSearch)BS:首先選擇N個(gè)得分最高的特征作為特征子集,將其加入一個(gè)限制最大長(zhǎng)度的優(yōu)先隊(duì)列,每次從隊(duì)列中取出得分最高的子集,然后窮舉向該子集加入1個(gè)特征后產(chǎn)生的所有特征集,將這些特征集加入隊(duì)列。2021/5/98搜索算法之啟發(fā)式搜索啟發(fā)式搜索序列前向選擇(SFS)序列后向選擇(SBS)雙向搜索(BDS)增L去R選擇算法(LRS)L和R的選擇是關(guān)鍵序列浮動(dòng)選擇(SequentialFloatingSelection)決策樹(shù)(DTM)LRS兩種形式:
<1>算法從空集開(kāi)始,每輪先加入L個(gè)特征,然后從中去除R個(gè)特征,使得評(píng)價(jià)函數(shù)值最優(yōu)。(L>R)在訓(xùn)練樣本集上運(yùn)行C4.5或其他決策樹(shù)生成算法,待決策樹(shù)充分生長(zhǎng)后,再在樹(shù)上運(yùn)行剪枝算法。則最終決策樹(shù)各分支處的特征就是選出來(lái)的特征子集。一般使用信息增益作為評(píng)價(jià)函數(shù)。L和R怎么確定??2021/5/99搜索算法之隨機(jī)算法隨機(jī)算法隨機(jī)產(chǎn)生序列選擇算法(RGSS)隨機(jī)產(chǎn)生一個(gè)特征子集,然后在該子集上執(zhí)行SFS與SBS算法模擬退火算法(SA)以一定的概率來(lái)接受一個(gè)比當(dāng)前解要差的解,因此有可能會(huì)跳出這個(gè)局部的最優(yōu)解,達(dá)到一個(gè)全局次最優(yōu)解遺傳算法(GA)
共同缺點(diǎn):依賴于隨機(jī)因素,有實(shí)驗(yàn)結(jié)果難以重現(xiàn)2021/5/910評(píng)價(jià)函數(shù)作用是評(píng)價(jià)產(chǎn)生過(guò)程所提供的特征子集的好壞按照其工作原理,評(píng)價(jià)函數(shù)可以分為三種模型:過(guò)濾模型(FilterModel)封裝模型(WrapperModel)混合模型(EmbeddedModel)被稱為特征選擇的經(jīng)典三刀:飛刀(Filter)彎刀(Wrapper)電刀(Embedded)2021/5/911評(píng)價(jià)函數(shù)—過(guò)濾模型根據(jù)特征子集內(nèi)部的特點(diǎn)來(lái)衡量其好壞,如歐氏距離、相關(guān)性、信息熵等特征子集在學(xué)習(xí)算法運(yùn)行之前就被選定學(xué)習(xí)算法用于測(cè)試最終特征子集的性能特點(diǎn):簡(jiǎn)單、效率高,但精度差2021/5/912評(píng)價(jià)函數(shù)—封裝模型學(xué)習(xí)算法封裝在特征選擇的過(guò)程中,用特征子集在學(xué)習(xí)算法上得到的挖掘性能作為特征子集優(yōu)劣的評(píng)估準(zhǔn)則。與過(guò)濾模型相比,精度高、但效率低。根本區(qū)別在于對(duì)學(xué)習(xí)算法的使用方式2021/5/913評(píng)價(jià)函數(shù)—混合模型混合模型把這兩種模型進(jìn)行組合,先用過(guò)濾模式進(jìn)行初選,再用封裝模型來(lái)獲得最佳的特征子集。2021/5/914常用評(píng)價(jià)函數(shù)特征的評(píng)價(jià)函數(shù)分為五類:
相關(guān)性;距離;信息增益;一致性;分類錯(cuò)誤率
前四種屬于過(guò)濾模型,分類錯(cuò)誤率屬于封裝模型從概率論的角度
相關(guān)系數(shù):值域范圍:[-1,+1]絕對(duì)值越大,相關(guān)性越大2021/5/915常用評(píng)價(jià)函數(shù)從數(shù)理統(tǒng)計(jì)的角度(假設(shè)檢驗(yàn))T檢驗(yàn)檢驗(yàn)與相關(guān)系數(shù)在理論上非常接近,但更偏重于有限樣本下的估計(jì)T檢驗(yàn)統(tǒng)計(jì)量:其中,n為樣本容量,、為樣本均值和方差,為總體方差。
2021/5/916常用評(píng)價(jià)函數(shù)從信息論角度條件熵與“相關(guān)性”負(fù)相關(guān)信息增益相對(duì)信息增益互信息量(MutualInformation)2021/5/917常用評(píng)價(jià)函數(shù)IR領(lǐng)域的度量(逆)文檔詞頻(inversedocumentfrequency)詞強(qiáng)度(termstrength)已知一個(gè)詞(特征)在某文檔(實(shí)例)中出現(xiàn),該詞在同類(目標(biāo)函數(shù)值相同)文檔中出現(xiàn)的概率為詞強(qiáng)度總文檔數(shù)包含詞(特征)t的文檔數(shù)2021/5/918常用評(píng)價(jià)函數(shù)學(xué)習(xí)相關(guān)的度量分類準(zhǔn)確率
準(zhǔn)確率、召回率、F值、AUC等用單一維特征進(jìn)行分類訓(xùn)練,某種分類準(zhǔn)確率指標(biāo)作為特征的有效性度量復(fù)雜度較大不一定有合適的準(zhǔn)確率指標(biāo)2021/5/919單擊此處添加文字內(nèi)容綜述單擊此處添加文字內(nèi)容特征選擇流程單擊此處添加文字內(nèi)容幾種常用的特征選擇算法單擊此處添加文字內(nèi)容總結(jié)12342021/5/920過(guò)濾模型—FishScoreFisherScore:計(jì)算兩個(gè)分布的距離第i個(gè)特征的權(quán)重公式為:
其中uij和pij分別是第i個(gè)特征在第j類中的均值和方差,nj為第j類中實(shí)例的個(gè)數(shù),ui為第i個(gè)特征的均值,K為總類別數(shù)。缺點(diǎn):容易產(chǎn)生冗余特征,f1,f2
忽略組合特征,f1|f2
2021/5/921過(guò)濾模型—Chi-Squaredtest卡方檢驗(yàn)利用統(tǒng)計(jì)學(xué)中的假設(shè)檢驗(yàn)思想,利用卡方統(tǒng)計(jì)量來(lái)衡量特征和類別之間的相關(guān)程度。卡方值公式:其中,N是文檔總數(shù),A是
包含詞t且
屬于c類的文檔數(shù)目B是
包含詞t且不屬于c類的文檔數(shù)目C是不包含詞t且
屬于c類的文檔數(shù)目D是不包含詞t且不屬于c類的文檔數(shù)目sklearn.feature_selection.chi2(X,
y)
2021/5/922過(guò)濾模型—ReliefRelief:根據(jù)各個(gè)特征和類別的關(guān)系賦予特征不同的權(quán)重,權(quán)重小于某閾值的將被移除。2021/5/923Relief算法的缺點(diǎn)Relief算法屬于特征權(quán)重算法,該算法缺點(diǎn)在于:他們可以捕獲特征與目標(biāo)概念間的相關(guān)性,卻不能發(fā)現(xiàn)特征間的冗余性。Relief-F是Relief的升級(jí)版,可用于多分類經(jīng)驗(yàn)證明除了無(wú)關(guān)特征對(duì)學(xué)習(xí)任務(wù)的影響,冗余特征同樣影響學(xué)習(xí)算法的速度和準(zhǔn)確性,也應(yīng)盡可能消除冗余特征。2021/5/924封裝模型—增量法封裝模型首先需要選用較好學(xué)習(xí)算法,如RF、SVM、LR、KNN等可以使用前面提到的各種縮小搜索空間的嘗試,其中最經(jīng)典的是啟發(fā)式搜索,概括來(lái)說(shuō)主要分為兩大類:增量法(SFS:sequentialforwardselection)減量法(SBS)2021/5/925增量法試驗(yàn)結(jié)果2021/5/926增/減量法優(yōu)缺點(diǎn)復(fù)雜度關(guān)于維數(shù)為或選單個(gè)特征采用評(píng)價(jià)準(zhǔn)則排序的方式為一次選單個(gè)特征采用測(cè)試全部特征的方式為二次本質(zhì)上是貪心算法某些組合無(wú)法遍歷可能陷入局部極值2021/5/927單擊此處添加文字內(nèi)容綜述單擊此處添加文字內(nèi)容特征選擇流程單擊此處添加文字內(nèi)容幾種常用的特征選擇算法單擊此處添加文字內(nèi)容總結(jié)12342021/5/928總結(jié)123特征選擇是機(jī)器學(xué)習(xí)領(lǐng)域中
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 主播簽約薪酬合同范本
- 別墅室內(nèi)石材合同范本
- 保密設(shè)備合同范本
- 分時(shí)度假 合同范本
- 保險(xiǎn)增值服務(wù)合同范本
- 第15課 現(xiàn)代醫(yī)療衛(wèi)生體系與社會(huì)生活 教學(xué)設(shè)計(jì)-2023-2024學(xué)年統(tǒng)編版(2019)高二歷史選擇性必修2 經(jīng)濟(jì)與社會(huì)生活
- 勞動(dòng)合同范本txt
- 2024年招商銀行鄭州分行招聘考試真題
- 二手電線買(mǎi)賣(mài)合同范本
- 2024年銀川市永寧三沙源上游學(xué)校招聘筆試真題
- 施工安全管理培訓(xùn)資料
- 第16課數(shù)據(jù)管理與編碼(教案)四年級(jí)全一冊(cè)信息技術(shù)人教版
- 0-3歲嬰幼兒基礎(chǔ)護(hù)理知到智慧樹(shù)章節(jié)測(cè)試課后答案2024年秋杭州師范大學(xué)
- 掛靠免責(zé)協(xié)議書(shū)范本
- 2024-2030年中國(guó)新媒體市場(chǎng)前景規(guī)模及發(fā)展趨勢(shì)分析報(bào)告
- Python金融數(shù)據(jù)分析與挖掘(微課版) 教案全套 黃恒秋
- 中建10t龍門(mén)吊安拆安全專項(xiàng)施工方案
- 國(guó)內(nèi)外測(cè)井技術(shù)現(xiàn)狀與展望文檔
- 《銷(xiāo)售人員的培訓(xùn)》課件
- 國(guó)防動(dòng)員課件教學(xué)課件
- 特殊作業(yè)安全管理監(jiān)護(hù)人專項(xiàng)培訓(xùn)課件
評(píng)論
0/150
提交評(píng)論