




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)
文檔簡介
1、隨機(jī)森林的直觀理解導(dǎo)語:對于那些認(rèn)為隨機(jī)森林是黑匣子算法的人來說, 這篇帖子會提供一個不同的觀點。接下來,我將從4個方面 去理解隨機(jī)森林模型。1.我們的特征有多重要?在 sklearn 隨機(jī)森林中使用 model.feature_importance 來研 究其重要特征是很常見的。重要特征是指與因變量密切相關(guān) 的特征,并且對因變量的變化影響較大。我們通常將盡可能 多的特征提供給隨機(jī)森林模型,并讓算法反饋對預(yù)測最有用 的特征列表。但仔細(xì)選擇正確的特征可以使我們的目標(biāo)預(yù)測 更加準(zhǔn)確。計算feature_importances的想法很簡單,但卻很有效。把 想法分解成簡單的幾步:訓(xùn)練隨機(jī)森林模型(假定
2、有正確的 超參數(shù))找到模型的預(yù)測分?jǐn)?shù)(稱之為基準(zhǔn)分?jǐn)?shù))多次(p 次,p為特征個數(shù))計算預(yù)測分?jǐn)?shù),每次打亂某個特征的順 序,可見下圖將每次預(yù)測分?jǐn)?shù)與基準(zhǔn)分?jǐn)?shù)進(jìn)行比較。如果隨 機(jī)調(diào)整特征順序后預(yù)測分?jǐn)?shù)小于基準(zhǔn)分?jǐn)?shù),這意味著我們的 模型如果沒有這個特征會變得很糟糕。刪除那些不會降低基 準(zhǔn)分?jǐn)?shù)的特征,并用減少后的特征子集重新訓(xùn)練模型。圖1 :計算特征重要性注:將F4列打亂重新進(jìn)行預(yù)測來判斷特征F4的重要性計算特征重要性的代碼:下面的代碼將為所有特征提供一個結(jié)構(gòu)為特征,重要性的 字典。圖2:隨機(jī)森中的重要特 role=presentation圖 2 :隨機(jī)森林中的重要特征輸出:在上面的輸出中,可以看出,
3、YearMade將最大程度 增加RMSE預(yù)測。所以它一定是最重要的特征。(上面的結(jié) 果所對應(yīng)的數(shù)據(jù)是從Kaggle competition獲取的,這是鏈接 HYPERLINK /cZbluebook-for-bulldozers%ef%bc%89 /cZbluebook-for-bulldozers) 2.我們對我們的預(yù)測有多大信心?一般來說,當(dāng)企業(yè)想要有 所預(yù)測時,他們的最終目的不是降低成本就是提高利潤。在 做出重大商業(yè)決策之前,企業(yè)十分熱衷于去評估做出這個決 定的風(fēng)險的大小。但是,當(dāng)預(yù)測結(jié)果并沒有被展現(xiàn)在置信區(qū) 間時,我們可能會無意中將企業(yè)至于更多的風(fēng)險中,而不是 降低風(fēng)險。當(dāng)我們使用線性
4、模型(基于分布假設(shè)的一般模型) 時,比較容易找到我們預(yù)測的置信水平。但是當(dāng)談到隨機(jī)森 林的置信區(qū)間時,找起來并不是那么容易。圖 3:偏差與方差的說明圖我想,任何上過線性回歸課程的人都肯定看過這張圖3。為了找到一個最佳線性模型,我們要去尋找偏差一方差最為折衷的模型。這張圖片很好地說明了預(yù)測中偏差和方差的定義。 (我們理解為這4張圖分別是由四個不同的人擲飛鏢所得)。 如果我們有高偏差和低方差值時(第三個人),我們投擲的 飛鏢會固定的遠(yuǎn)離紅心。相反,如果我們有高的方差和低的 偏差(第二個人),那么他投擲飛鏢的結(jié)果就很不一樣。如 果有人去猜測他下一個飛鏢擊中的位置,那么它既有可能打 到靶心也有可能遠(yuǎn)離
5、靶心。現(xiàn)在我們來假設(shè)在現(xiàn)實生活中識 別一起信用欺詐等同于上面例子擊中靶心。如果信用公司擁 有的的預(yù)測模型與上面第二人的擲飛鏢行為很相似,那么該 公司在大多數(shù)時候都不會抓住這個詐騙犯,盡管模型預(yù)測的 是正確的。因此,不僅僅是意味著預(yù)測的準(zhǔn)確程度,我們還 應(yīng)該檢查我們的預(yù)測的置信水平。在隨機(jī)森林中如何做到這 一點?隨機(jī)森林是由許多決策樹組成。每棵樹分別預(yù)測新的 數(shù)據(jù),隨機(jī)森林從這些樹中提取出平均預(yù)測值。預(yù)測置信水 平的想法只是為了去看來自不同樹木的預(yù)測有多少因為新 的觀測而產(chǎn)生變化,然后進(jìn)一步分析?;诜讲顦漕A(yù)測置信 度的源代碼:注:偏差=(up-down)/Yhat以上代碼的輸出如 下所示:圖4
6、:基于方差樹的置信樹圖5的這棵決策樹(深度:3層)基于波士頓房價數(shù)據(jù)集。 根據(jù)中間節(jié)點的預(yù)測值以及導(dǎo)致數(shù)值發(fā)生變化的特征,它顯 示了決策路徑的分解。單節(jié)點的貢獻(xiàn)是該節(jié)點的值與前一個 節(jié)點值的差值。圖6:Tree interpreter (最終再次入院的概率=0.6)圖6給出了對于患者A使用Tree interpreter的輸出示例。 圖片顯示年齡為65歲是模型預(yù)測再入院概率高于均值的最 高貢獻(xiàn)者。圖7:將特征貢獻(xiàn)通過瀑布圖可視化展示圖6同樣也可以使用瀑布圖7來表示。我從“瀑布圖包”中選材 做的這個快速簡單的瀑布圖。上面的瀑布圖可視化代碼:相 關(guān)變量的闡釋:值(圖片B)是指通過節(jié)點預(yù)測目標(biāo)值。(
7、就是在該節(jié)點中 落下的觀測目標(biāo)的平均值)。貢獻(xiàn)是當(dāng)前節(jié)點的值減去上一節(jié)點的值(這是為一個路徑 提供的貢獻(xiàn)特征)。路徑是為了到達(dá)葉節(jié)點而通過某些觀察所獲得的所有特征 分割的組合。tree interpreter包直接用來計算每個節(jié)點的貢獻(xiàn),鏈接: treeinterpreter4.目標(biāo)變量如何與重要特征相關(guān)? Partial Dependence Plots找到最重要的特征后,下一步我們可能會 感興趣的是研究目標(biāo)變量與興趣特征之間的直接關(guān)系。從線 性回歸中得到的與其相類似的是模型系數(shù)。對于線性回歸, 系數(shù)以這種方式被計算,即我們可以通過說:“在Xj中有1 個單位變化,保持所有其他Xi不變,Y會發(fā)
8、生什么變化?” 這樣的方式來表示。雖然我們有來自隨機(jī)森林的特征重要性, 但是它們只是給出Y的變量是由Xi的改變之間的相關(guān)性。我們不能直接地解釋他們就像保持所有其他特征不變,Y該 變量取決于Xj中的單位的變化。幸運的是,我們有看一被看 作線性模型系數(shù)圖表的局部依賴圖,但同樣也可被擴(kuò)展為看 起來像黑箱模型。這個想法是將預(yù)測中所做的改變孤立于一 個特定的功能。它不同于X對Y的散點圖,因為散點圖不能 隔離X對Y的直接關(guān)系,并且可能受X和Y所依賴的其他 變量的間接關(guān)系所影響。PDP分析步驟如下:訓(xùn)練一個隨機(jī)森林模型(假設(shè)F1F4 是我們的特征,Y是目標(biāo)變量,假設(shè)F1是最重要的特征)。 我們有興趣探索Y和
9、F1的直接關(guān)系。用F1( A)代替F1 列,并為所有的觀察找到新的預(yù)測值。采取預(yù)測的平均值。 (稱之為基準(zhǔn)值)對F1( B)F1( E)重復(fù)步驟3,即針 對特征F1的所有不同值。PDP的X軸具有不同的F1值, 而Y軸是雖該基準(zhǔn)值F1值的平均預(yù)測而變化。圖8:PDP分析邏輯圖9是partial dependence plot 的一個例子。數(shù)據(jù)來自 kaggle bulldozer competition data,它顯示了生產(chǎn)年份(YearMade)和(銷 售價格)SalesPrice的關(guān)系圖 9:partial dependence plot( YearMade 與 SalePrice 的變化)而圖10是SalePrice與YearMade的線狀圖。我們 可以看到,散點圖/折線圖可能無法像PDP那樣捕獲 YearMade對SalesPrice的直接影響。圖10:上述兩個圖片均來自(來源 HYPERLINK /fastai/fastai/tree/master/courses/ml1 /fastai/fastai/tree/master/courses/ml1) 寫在最后:在大多數(shù)情況下,隨機(jī)森林在預(yù)測中可以擊敗線性模型預(yù)測。 針對隨
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025年中國陳列冷柜市場調(diào)查研究報告
- 2025年中國旅行電腦包市場調(diào)查研究報告
- 2025━2030年綠茶洗手液行業(yè)深度研究報告
- 2025━2030年中國食品用輸送帶項目投資可行性研究報告
- 2025-2035年全球及中國釣魚籠和蚊帳行業(yè)市場發(fā)展現(xiàn)狀及發(fā)展前景研究報告
- 2025-2035年全球及中國電纜槍行業(yè)市場發(fā)展現(xiàn)狀及發(fā)展前景研究報告
- 2024年中國生啤箱市場調(diào)查研究報告
- 2025年水文測量儀器項目發(fā)展計劃
- 河南省濮陽市2024屆高三第二次復(fù)習(xí)統(tǒng)一檢測試題數(shù)學(xué)試題
- 中職高考數(shù)學(xué)二輪復(fù)習(xí)專項突破練習(xí)專題42 綜合練習(xí)7(含答案)
- 中考英語688高頻詞大綱詞頻表
- 計算機(jī)基礎(chǔ)教程電子版
- 關(guān)于如何做好清單招標(biāo)控制價的幾點建議
- 2024陜西西安事業(yè)單位歷年公開引進(jìn)高層次人才和急需緊缺人才筆試參考題庫(共500題)答案詳解版
- 2024年湖南水利水電職業(yè)技術(shù)學(xué)院單招職業(yè)技能測試題庫及答案解析
- 有限空間安全檢查表
- 初中生注意力訓(xùn)練注意力
- 充電設(shè)施運營管理制度文件范文
- 2022年成都地鐵值班員資格考前復(fù)習(xí)題庫
- 2024年山東省春季高考技能考試-汽車專業(yè)備考試題庫(濃縮500題)
- 外賣報告數(shù)據(jù)分析
評論
0/150
提交評論