隨機(jī)森林的直觀理解_第1頁(yè)
隨機(jī)森林的直觀理解_第2頁(yè)
隨機(jī)森林的直觀理解_第3頁(yè)
隨機(jī)森林的直觀理解_第4頁(yè)
隨機(jī)森林的直觀理解_第5頁(yè)
已閱讀5頁(yè),還剩3頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、隨機(jī)森林的直觀理解導(dǎo)語(yǔ):對(duì)于那些認(rèn)為隨機(jī)森林是黑匣子算法的人來(lái)說(shuō), 這篇帖子會(huì)提供一個(gè)不同的觀點(diǎn)。接下來(lái),我將從4個(gè)方面 去理解隨機(jī)森林模型。1.我們的特征有多重要?在 sklearn 隨機(jī)森林中使用 model.feature_importance 來(lái)研 究其重要特征是很常見的。重要特征是指與因變量密切相關(guān) 的特征,并且對(duì)因變量的變化影響較大。我們通常將盡可能 多的特征提供給隨機(jī)森林模型,并讓算法反饋對(duì)預(yù)測(cè)最有用 的特征列表。但仔細(xì)選擇正確的特征可以使我們的目標(biāo)預(yù)測(cè) 更加準(zhǔn)確。計(jì)算feature_importances的想法很簡(jiǎn)單,但卻很有效。把 想法分解成簡(jiǎn)單的幾步:訓(xùn)練隨機(jī)森林模型(假定

2、有正確的 超參數(shù))找到模型的預(yù)測(cè)分?jǐn)?shù)(稱之為基準(zhǔn)分?jǐn)?shù))多次(p 次,p為特征個(gè)數(shù))計(jì)算預(yù)測(cè)分?jǐn)?shù),每次打亂某個(gè)特征的順 序,可見下圖將每次預(yù)測(cè)分?jǐn)?shù)與基準(zhǔn)分?jǐn)?shù)進(jìn)行比較。如果隨 機(jī)調(diào)整特征順序后預(yù)測(cè)分?jǐn)?shù)小于基準(zhǔn)分?jǐn)?shù),這意味著我們的 模型如果沒(méi)有這個(gè)特征會(huì)變得很糟糕。刪除那些不會(huì)降低基 準(zhǔn)分?jǐn)?shù)的特征,并用減少后的特征子集重新訓(xùn)練模型。圖1 :計(jì)算特征重要性注:將F4列打亂重新進(jìn)行預(yù)測(cè)來(lái)判斷特征F4的重要性計(jì)算特征重要性的代碼:下面的代碼將為所有特征提供一個(gè)結(jié)構(gòu)為特征,重要性的 字典。圖2:隨機(jī)森中的重要特 role=presentation圖 2 :隨機(jī)森林中的重要特征輸出:在上面的輸出中,可以看出,

3、YearMade將最大程度 增加RMSE預(yù)測(cè)。所以它一定是最重要的特征。(上面的結(jié) 果所對(duì)應(yīng)的數(shù)據(jù)是從Kaggle competition獲取的,這是鏈接 HYPERLINK /cZbluebook-for-bulldozers%ef%bc%89 /cZbluebook-for-bulldozers) 2.我們對(duì)我們的預(yù)測(cè)有多大信心?一般來(lái)說(shuō),當(dāng)企業(yè)想要有 所預(yù)測(cè)時(shí),他們的最終目的不是降低成本就是提高利潤(rùn)。在 做出重大商業(yè)決策之前,企業(yè)十分熱衷于去評(píng)估做出這個(gè)決 定的風(fēng)險(xiǎn)的大小。但是,當(dāng)預(yù)測(cè)結(jié)果并沒(méi)有被展現(xiàn)在置信區(qū) 間時(shí),我們可能會(huì)無(wú)意中將企業(yè)至于更多的風(fēng)險(xiǎn)中,而不是 降低風(fēng)險(xiǎn)。當(dāng)我們使用線性

4、模型(基于分布假設(shè)的一般模型) 時(shí),比較容易找到我們預(yù)測(cè)的置信水平。但是當(dāng)談到隨機(jī)森 林的置信區(qū)間時(shí),找起來(lái)并不是那么容易。圖 3:偏差與方差的說(shuō)明圖我想,任何上過(guò)線性回歸課程的人都肯定看過(guò)這張圖3。為了找到一個(gè)最佳線性模型,我們要去尋找偏差一方差最為折衷的模型。這張圖片很好地說(shuō)明了預(yù)測(cè)中偏差和方差的定義。 (我們理解為這4張圖分別是由四個(gè)不同的人擲飛鏢所得)。 如果我們有高偏差和低方差值時(shí)(第三個(gè)人),我們投擲的 飛鏢會(huì)固定的遠(yuǎn)離紅心。相反,如果我們有高的方差和低的 偏差(第二個(gè)人),那么他投擲飛鏢的結(jié)果就很不一樣。如 果有人去猜測(cè)他下一個(gè)飛鏢擊中的位置,那么它既有可能打 到靶心也有可能遠(yuǎn)離

5、靶心?,F(xiàn)在我們來(lái)假設(shè)在現(xiàn)實(shí)生活中識(shí) 別一起信用欺詐等同于上面例子擊中靶心。如果信用公司擁 有的的預(yù)測(cè)模型與上面第二人的擲飛鏢行為很相似,那么該 公司在大多數(shù)時(shí)候都不會(huì)抓住這個(gè)詐騙犯,盡管模型預(yù)測(cè)的 是正確的。因此,不僅僅是意味著預(yù)測(cè)的準(zhǔn)確程度,我們還 應(yīng)該檢查我們的預(yù)測(cè)的置信水平。在隨機(jī)森林中如何做到這 一點(diǎn)?隨機(jī)森林是由許多決策樹組成。每棵樹分別預(yù)測(cè)新的 數(shù)據(jù),隨機(jī)森林從這些樹中提取出平均預(yù)測(cè)值。預(yù)測(cè)置信水 平的想法只是為了去看來(lái)自不同樹木的預(yù)測(cè)有多少因?yàn)樾?的觀測(cè)而產(chǎn)生變化,然后進(jìn)一步分析。基于方差樹預(yù)測(cè)置信 度的源代碼:注:偏差=(up-down)/Yhat以上代碼的輸出如 下所示:圖4

6、:基于方差樹的置信樹圖5的這棵決策樹(深度:3層)基于波士頓房?jī)r(jià)數(shù)據(jù)集。 根據(jù)中間節(jié)點(diǎn)的預(yù)測(cè)值以及導(dǎo)致數(shù)值發(fā)生變化的特征,它顯 示了決策路徑的分解。單節(jié)點(diǎn)的貢獻(xiàn)是該節(jié)點(diǎn)的值與前一個(gè) 節(jié)點(diǎn)值的差值。圖6:Tree interpreter (最終再次入院的概率=0.6)圖6給出了對(duì)于患者A使用Tree interpreter的輸出示例。 圖片顯示年齡為65歲是模型預(yù)測(cè)再入院概率高于均值的最 高貢獻(xiàn)者。圖7:將特征貢獻(xiàn)通過(guò)瀑布圖可視化展示圖6同樣也可以使用瀑布圖7來(lái)表示。我從“瀑布圖包”中選材 做的這個(gè)快速簡(jiǎn)單的瀑布圖。上面的瀑布圖可視化代碼:相 關(guān)變量的闡釋:值(圖片B)是指通過(guò)節(jié)點(diǎn)預(yù)測(cè)目標(biāo)值。(

7、就是在該節(jié)點(diǎn)中 落下的觀測(cè)目標(biāo)的平均值)。貢獻(xiàn)是當(dāng)前節(jié)點(diǎn)的值減去上一節(jié)點(diǎn)的值(這是為一個(gè)路徑 提供的貢獻(xiàn)特征)。路徑是為了到達(dá)葉節(jié)點(diǎn)而通過(guò)某些觀察所獲得的所有特征 分割的組合。tree interpreter包直接用來(lái)計(jì)算每個(gè)節(jié)點(diǎn)的貢獻(xiàn),鏈接: treeinterpreter4.目標(biāo)變量如何與重要特征相關(guān)? Partial Dependence Plots找到最重要的特征后,下一步我們可能會(huì) 感興趣的是研究目標(biāo)變量與興趣特征之間的直接關(guān)系。從線 性回歸中得到的與其相類似的是模型系數(shù)。對(duì)于線性回歸, 系數(shù)以這種方式被計(jì)算,即我們可以通過(guò)說(shuō):“在Xj中有1 個(gè)單位變化,保持所有其他Xi不變,Y會(huì)發(fā)

8、生什么變化?” 這樣的方式來(lái)表示。雖然我們有來(lái)自隨機(jī)森林的特征重要性, 但是它們只是給出Y的變量是由Xi的改變之間的相關(guān)性。我們不能直接地解釋他們就像保持所有其他特征不變,Y該 變量取決于Xj中的單位的變化。幸運(yùn)的是,我們有看一被看 作線性模型系數(shù)圖表的局部依賴圖,但同樣也可被擴(kuò)展為看 起來(lái)像黑箱模型。這個(gè)想法是將預(yù)測(cè)中所做的改變孤立于一 個(gè)特定的功能。它不同于X對(duì)Y的散點(diǎn)圖,因?yàn)樯Ⅻc(diǎn)圖不能 隔離X對(duì)Y的直接關(guān)系,并且可能受X和Y所依賴的其他 變量的間接關(guān)系所影響。PDP分析步驟如下:訓(xùn)練一個(gè)隨機(jī)森林模型(假設(shè)F1F4 是我們的特征,Y是目標(biāo)變量,假設(shè)F1是最重要的特征)。 我們有興趣探索Y和

9、F1的直接關(guān)系。用F1( A)代替F1 列,并為所有的觀察找到新的預(yù)測(cè)值。采取預(yù)測(cè)的平均值。 (稱之為基準(zhǔn)值)對(duì)F1( B)F1( E)重復(fù)步驟3,即針 對(duì)特征F1的所有不同值。PDP的X軸具有不同的F1值, 而Y軸是雖該基準(zhǔn)值F1值的平均預(yù)測(cè)而變化。圖8:PDP分析邏輯圖9是partial dependence plot 的一個(gè)例子。數(shù)據(jù)來(lái)自 kaggle bulldozer competition data,它顯示了生產(chǎn)年份(YearMade)和(銷 售價(jià)格)SalesPrice的關(guān)系圖 9:partial dependence plot( YearMade 與 SalePrice 的變化)而圖10是SalePrice與YearMade的線狀圖。我們 可以看到,散點(diǎn)圖/折線圖可能無(wú)法像PDP那樣捕獲 YearMade對(duì)SalesPrice的直接影響。圖10:上述兩個(gè)圖片均來(lái)自(來(lái)源 HYPERLINK /fastai/fastai/tree/master/courses/ml1 /fastai/fastai/tree/master/courses/ml1) 寫在最后:在大多數(shù)情況下,隨機(jī)森林在預(yù)測(cè)中可以擊敗線性模型預(yù)測(cè)。 針對(duì)隨

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論