模塊5 特征選擇《Python數(shù)據(jù)挖掘?qū)崙?zhàn)》教學(xué)課件_第1頁(yè)
模塊5 特征選擇《Python數(shù)據(jù)挖掘?qū)崙?zhàn)》教學(xué)課件_第2頁(yè)
模塊5 特征選擇《Python數(shù)據(jù)挖掘?qū)崙?zhàn)》教學(xué)課件_第3頁(yè)
模塊5 特征選擇《Python數(shù)據(jù)挖掘?qū)崙?zhàn)》教學(xué)課件_第4頁(yè)
模塊5 特征選擇《Python數(shù)據(jù)挖掘?qū)崙?zhàn)》教學(xué)課件_第5頁(yè)
已閱讀5頁(yè),還剩27頁(yè)未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

《Python數(shù)據(jù)挖掘?qū)崙?zhàn)》?精品課件合集《Python數(shù)據(jù)挖掘?qū)崙?zhàn)》

第五章特征選擇二、

過(guò)濾法

一、特征選擇方法概述主要內(nèi)容三、包裝法四、嵌入法一、特征選擇方法概述

一、特征選擇方法概述

一、特征選擇方法概述過(guò)濾法(Filter):特征選擇獨(dú)立于數(shù)據(jù)挖掘任務(wù),按照特征的發(fā)散程度或者特征與目標(biāo)變量之間的相關(guān)性對(duì)各個(gè)特征進(jìn)行評(píng)分,然后設(shè)定閾值選出評(píng)分較高的特征子集。

常見(jiàn)的特征選擇方法包括:一、特征選擇方法概述過(guò)濾法(Filter):特征選擇獨(dú)立于數(shù)據(jù)挖掘任務(wù),按照特征的發(fā)散程度或者特征與目標(biāo)變量之間的相關(guān)性對(duì)各個(gè)特征進(jìn)行評(píng)分,然后設(shè)定閾值選出評(píng)分較高的特征子集。包裝法(Wrapper):特征選擇和數(shù)據(jù)挖掘算法相關(guān),直接使用數(shù)據(jù)挖掘模型在特征子集上評(píng)價(jià)結(jié)果衡量該子集的優(yōu)劣,然后采用一定的啟發(fā)式方法在特征空間中搜索,直至選擇出最優(yōu)的特征子集。

常見(jiàn)的特征選擇方法包括:一、特征選擇方法概述過(guò)濾法(Filter):特征選擇獨(dú)立于數(shù)據(jù)挖掘任務(wù),按照特征的發(fā)散程度或者特征與目標(biāo)變量之間的相關(guān)性對(duì)各個(gè)特征進(jìn)行評(píng)分,然后設(shè)定閾值選出評(píng)分較高的特征子集。包裝法(Wrapper):特征選擇和數(shù)據(jù)挖掘算法相關(guān),直接使用數(shù)據(jù)挖掘模型在特征子集上評(píng)價(jià)結(jié)果衡量該子集的優(yōu)劣,然后采用一定的啟發(fā)式方法在特征空間中搜索,直至選擇出最優(yōu)的特征子集。嵌入法(Embedded):特征選擇和數(shù)據(jù)挖掘任務(wù)融為一體,兩者在同一個(gè)優(yōu)化過(guò)程中完成,也即,在訓(xùn)練數(shù)據(jù)挖掘模型的同時(shí)完成特征選擇,選擇出能夠使得該模型性能達(dá)到最佳的特征子集。常見(jiàn)的特征選擇方法包括:二、過(guò)濾法

過(guò)濾式特征選擇方法從數(shù)據(jù)集內(nèi)在的性質(zhì)出發(fā),選擇特征的發(fā)散程度高或者它與目標(biāo)變量之間的相關(guān)度大的特征或特征子集,選擇過(guò)程與數(shù)據(jù)挖掘算法無(wú)關(guān),因此具有較好的通用性。

過(guò)濾方法一般分為單變量過(guò)濾和多變量過(guò)濾兩類。1.方差閾值法單變量過(guò)濾方法:二、過(guò)濾法方差低于某個(gè)閾值的特征無(wú)法解釋目標(biāo)變量的變化規(guī)律,因此直接將它們刪除。這種方法要求特征必須為離散型變量,連續(xù)變量需要進(jìn)行離散化處理后才能使用。這種方法要求特征必須為離散型變量,連續(xù)變量需要進(jìn)行離散化處理后才能使用。1.方差閾值法二、過(guò)濾法feature_selection模塊的VarianceThreshold類給出了該方法的實(shí)現(xiàn)在具有4個(gè)特征的模擬數(shù)據(jù)上的例子:二、過(guò)濾法輸出的4個(gè)特征的方差分別為[0.139,5.472,1.806,8.472],因此在閾值為1.0的情況下,將第一個(gè)特征去除。當(dāng)設(shè)置閾值為2.0時(shí),我們可以只選擇第2個(gè)和第4個(gè)特征。2.卡方統(tǒng)計(jì)量二、過(guò)濾法

2.卡方統(tǒng)計(jì)量二、過(guò)濾法

feature_selection模塊提供了兩個(gè)類(SelectKBest和SelectPercentile)和一個(gè)函數(shù)(chi2)用于支持基于卡方統(tǒng)計(jì)量的特征選擇。其中,SelectKBest和SelectPercentile類提供了對(duì)單變量過(guò)濾特征選擇方法的基本框架。創(chuàng)建一個(gè)基于卡方統(tǒng)計(jì)量的單變量過(guò)濾特征選擇模型的過(guò)程如下:selector=SelectKBest(chi2,k=2)其中,參數(shù)k=2意味著只選擇出兩個(gè)特征變量。2.卡方統(tǒng)計(jì)量二、過(guò)濾法SelectKBest類的主要參數(shù)、屬性和函數(shù)2.卡方統(tǒng)計(jì)量輸出各特征的卡方統(tǒng)計(jì)量值為:[0.1,5.565,0.276,10.580]。顯然,第2個(gè)特征和第4個(gè)特征的卡方值較大,得以保留。3.互信息法二、過(guò)濾法

3.互信息法二、過(guò)濾法

在Scikit-learn庫(kù)的feature_selection模塊中,提供了mutual_info_classif和mutual_info_regression兩個(gè)函數(shù),分別實(shí)現(xiàn)了分類任務(wù)和回歸任務(wù)中的互信息的計(jì)算。

結(jié)合SelectKBest類,很容易創(chuàng)建一個(gè)基于互信息的單變量過(guò)濾特征選擇模型,如下:selector=SelectKBest(mutual_info_classif,k=2)其中,參數(shù)k=2意味著只選擇出兩個(gè)特征變量。3.互信息法各特征和目標(biāo)變量的互信息值為:[0,0.2,0,0.617]。顯然,第2個(gè)特征和第4個(gè)特征的互信息值較大,應(yīng)當(dāng)保留它們作為特征選擇結(jié)果。過(guò)濾法的優(yōu)缺點(diǎn)分析:二、過(guò)濾法

過(guò)濾式方法是一類常用的特征選擇技術(shù),其優(yōu)缺點(diǎn)均非常明顯。1.優(yōu)點(diǎn)

算法的通用性強(qiáng),省去了模型訓(xùn)練的步驟,算法復(fù)雜度低,因而適用于大規(guī)模數(shù)據(jù)集;可以快速去除大量不相關(guān)的特征,當(dāng)原始數(shù)據(jù)的特征數(shù)量比較多時(shí),作為特征的預(yù)篩選器非常合適。2.缺點(diǎn)

由于特征選擇過(guò)程獨(dú)立于數(shù)據(jù)挖掘算法,所選擇的特征子集對(duì)于數(shù)據(jù)挖掘任務(wù)而言通常不是最優(yōu)的,性能經(jīng)常低于其它兩類方法。三、包裝法

包裝法(Wrapper)直接采用數(shù)據(jù)挖掘算法在特征子集上達(dá)到的效果對(duì)該子集的進(jìn)行評(píng)價(jià)。它將特征選擇視為搜索問(wèn)題,目標(biāo)是搜索出一個(gè)最佳的特征子集,使得數(shù)據(jù)挖掘算法在該子集上取得最優(yōu)的性能。

包裝方法需要對(duì)每一個(gè)特征子集訓(xùn)練一個(gè)數(shù)據(jù)挖掘模型,然后評(píng)價(jià)特征子集的優(yōu)劣,因此計(jì)算量很大。

遞歸特征消除(RFE)方法

序列前向選擇(SFS)方法

序列后向選擇(SBS)方法三、包裝法1.遞歸特征消除(RecursiveFeatureElimination,RFE)

它是一種局部搜索最優(yōu)特征子集的貪心搜索方法,從全部特征開(kāi)始,建立數(shù)據(jù)挖掘模型,將模型識(shí)別的不重要特征剔除,然后利用剩余特征迭代地重新訓(xùn)練模型,直到剩余指定數(shù)量的特征。

它要求所依賴的數(shù)據(jù)挖掘算法在訓(xùn)練時(shí)能夠給出特征的重要性系數(shù),作為每輪迭代剔除特征的依據(jù)。

例如,決策樹(shù)和隨機(jī)森林的feature_importances_屬性、線性回歸模型和線性支持向量機(jī)的coef_屬性三、包裝法

在scikit-learn庫(kù)的feature_selection模塊中,提供了RFE特征選擇方法的實(shí)現(xiàn):基本語(yǔ)法:sklearn.feature_selection.RFE(estimator,

n_features_to_select=None)參數(shù):estimator:監(jiān)督式數(shù)據(jù)挖掘算法模型,能提供特征的重要性系數(shù)n_features_to_select:選擇的特征數(shù)量,默認(rèn)為選擇一半的特征返回值:n_features_:選擇的特征數(shù)量ranking_:對(duì)特征的重要性排序,REF特征選擇的實(shí)例

RFE方法選取的特征為[69101112],在該特征子集上決策樹(shù)獲得的測(cè)試精度為97.78%。包裝法的優(yōu)缺點(diǎn)分析:三、包裝法

1.優(yōu)點(diǎn)

與過(guò)濾式特征選擇方法相比,包裝法的特征選擇過(guò)程與數(shù)據(jù)挖掘任務(wù)相關(guān),它使用后者的評(píng)價(jià)標(biāo)準(zhǔn)來(lái)對(duì)特征子集評(píng)分,使得選擇結(jié)果是數(shù)據(jù)挖掘算法在其上表現(xiàn)最佳時(shí)的特征子集。并且,包裝式方法對(duì)數(shù)挖掘模型沒(méi)有過(guò)多要求,適用性比較廣。

2.缺點(diǎn)

包裝法是一種迭代式方法,對(duì)每一組特征子集都需要建立數(shù)據(jù)挖掘模型,在特征數(shù)量較多時(shí),計(jì)算量非常大,效率遠(yuǎn)比過(guò)濾方法低。另外,RFE、SFS、SBS等包裝法都采用啟發(fā)式搜索方法尋找最優(yōu)子集,它是一種局部搜索方法,因此這些方法搜索的最優(yōu)子集可能是局部最優(yōu)的。四、嵌入法

嵌入法(Embeding)將特征選擇過(guò)程完全融入到數(shù)據(jù)挖掘模型的構(gòu)建過(guò)程中,在創(chuàng)建模型時(shí)即完成了對(duì)特征子集的選擇。

與過(guò)濾法相比,它們由于是數(shù)據(jù)挖掘模型的角度選擇特征子集,往往具有更好的性能;

與包裝方法相比,它們省卻了迭代式的搜索過(guò)程,計(jì)算效率更高。嵌入法是目前應(yīng)用最廣泛的特征選擇方法,彌補(bǔ)了前面兩種特征選擇方法的不足?;谡齽t化線性模型的方法基于樹(shù)的方法四、嵌入法

四、嵌入法1.基于正則化線性模型的方法

在feature_selection模塊中實(shí)現(xiàn)了SelectFromModel類,能夠在訓(xùn)練數(shù)據(jù)挖掘模型(如,線性回歸模型、決策樹(shù)模型等)的同時(shí),利用模型重要性系數(shù)(coef_或feature_importances_)實(shí)現(xiàn)嵌入式特征選擇?;菊Z(yǔ)法:sklearn.feature_selection.SelectFromModel(estimator,

threshold=None)參數(shù):

estimator:數(shù)據(jù)挖掘模型

threshold:閾值,可取為‘mean’(默認(rèn)),‘median’或數(shù)值,表示系數(shù)低于閾值的特征將被丟棄

四、嵌入法1.基于樹(shù)模型的方法

基于樹(shù)(tree)的數(shù)據(jù)挖掘模型,如決策樹(shù)、隨機(jī)森林、GBDT、XGboost在構(gòu)建模型中的樹(shù)的過(guò)程中,總是貪婪地選擇當(dāng)前最優(yōu)的特征構(gòu)造屬性測(cè)試條件,將數(shù)據(jù)集劃分到下一層的子結(jié)點(diǎn)上。這樣,在構(gòu)造的樹(shù)(tree)結(jié)構(gòu)或者森林(forest)中,特征被選擇用于構(gòu)造屬性測(cè)試條件次數(shù)越多,表明它們區(qū)分?jǐn)?shù)據(jù)的能力越強(qiáng),因而越重要。

仍然可以借助sklearn.feature_selection模塊的SelectFromModel類,實(shí)現(xiàn)基于樹(shù)的嵌入式特征選擇方法。嵌入法的優(yōu)缺點(diǎn)分析:四、嵌入法

1.優(yōu)點(diǎn)

特征選擇與數(shù)據(jù)挖掘模型的構(gòu)建完全融合在一起,特征選擇結(jié)果是數(shù)據(jù)挖掘取得最優(yōu)性能時(shí)的子集。與包裝法相比,嵌入法不需要耗時(shí)

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論