4第四節(jié)決策樹與集成算法

上傳人：1*** IP屬地：山東上傳時(shí)間：2024-11-18 格式：PPTX 頁(yè)數(shù)：23 大小：986.28KB 積分：18 舉報(bào) 版權(quán)申訴

已閱讀5頁(yè)，還剩18頁(yè)未讀，繼續(xù)免費(fèi)閱讀

版權(quán)說(shuō)明：本文檔由用戶提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

粵港機(jī)器人聯(lián)合學(xué)院主講人：熊皓然聯(lián)系微信覺組暑期培訓(xùn)RC決策樹隨機(jī)森林決策樹樹模型決策樹：從根節(jié)點(diǎn)開始一步步走到葉子節(jié)點(diǎn)（決策）所有的數(shù)據(jù)最終都會(huì)落到葉子節(jié)點(diǎn)，既可以做分類也可以做回歸決策樹樹的組成根節(jié)點(diǎn)：第一個(gè)選擇點(diǎn)非葉子節(jié)點(diǎn)與分支：中間過(guò)程葉子節(jié)點(diǎn)：最終的決策結(jié)果決策樹決策樹的訓(xùn)練與測(cè)試訓(xùn)練階段：從給定的訓(xùn)練集構(gòu)造出來(lái)一棵樹（從跟節(jié)點(diǎn)開始選擇特征，如何進(jìn)行特征切分）測(cè)試階段：根據(jù)構(gòu)造出來(lái)的樹模型從上到下去走一遍就好了一旦構(gòu)造好了決策樹，那么分類或者預(yù)測(cè)任務(wù)就很簡(jiǎn)單了，只需要走一遍就可以了，那么難點(diǎn)就在于如何構(gòu)造出來(lái)一顆樹，這就沒那么容易了，需要考慮的問(wèn)題還有很多的！決策樹如何切分特征（選擇節(jié)點(diǎn)）問(wèn)題：根節(jié)點(diǎn)的選擇該用哪個(gè)特征呢？接下來(lái)呢？如何切分呢？想象一下：我們的目標(biāo)應(yīng)該是根節(jié)點(diǎn)就像一個(gè)老大似的能更好的切分?jǐn)?shù)據(jù)（分類的效果更好），根節(jié)點(diǎn)下面的節(jié)點(diǎn)自然就是二當(dāng)家了。目標(biāo)：通過(guò)一種衡量標(biāo)準(zhǔn)，來(lái)計(jì)算通過(guò)不同特征進(jìn)行分支選擇后的分類情況，找出來(lái)最好的那個(gè)當(dāng)成根節(jié)點(diǎn)，以此類推。決策樹衡量標(biāo)準(zhǔn)-熵熵：熵是表示隨機(jī)變量不確定性的度量（解釋：說(shuō)白了就是物體內(nèi)部的混亂程度，比如雜貨市場(chǎng)里面什么都有那肯定混亂呀，專賣店里面只賣一個(gè)牌子的那就穩(wěn)定多啦）公式：H(X)=-

∑

*logpi,i=1,2,

...

n一個(gè)栗子：A集合[1,1,1,1,1,1,1,1,2,2]B集合[1,2,3,4,5,6,7,8,9,1]顯然A集合的熵值要低，因?yàn)锳里面只有兩種類別，相對(duì)穩(wěn)定一些

而B中類別太多了，熵值就會(huì)大很多。（在分類任務(wù)中我們希望通過(guò)節(jié)點(diǎn)分支后數(shù)據(jù)類別的熵值大還是小呢？）決策樹衡量標(biāo)準(zhǔn)-熵熵：不確定性越大，得到的熵值也就越大當(dāng)p=0或p=1時(shí)，H(p)=0,隨機(jī)變量完全沒有不確定性當(dāng)p=0.5時(shí)，H(p)=1,此時(shí)隨機(jī)變量的不確定性最大如何決策一個(gè)節(jié)點(diǎn)的選擇呢？信息增益：表示特征X使得類Y的不確定性減少的程度。（分類后的專一性，希望分類后的結(jié)果是同類在一起）決策樹決策樹構(gòu)造實(shí)例數(shù)據(jù)：14天打球情況特征：4種環(huán)境變化目標(biāo)：構(gòu)造決策樹決策樹決策樹構(gòu)造實(shí)例劃分方式：4種問(wèn)題：誰(shuí)當(dāng)根節(jié)點(diǎn)呢？依據(jù)：信息增益決策樹構(gòu)造實(shí)例在歷史數(shù)據(jù)中（14天）有9天打球，5天不打球，所以此時(shí)的熵應(yīng)為：決策樹4個(gè)特征逐一分析，先從outlook特征開始：Outlook

sunny時(shí)，熵值為0.971

Outlook

overcast時(shí)，熵值為0

Outlook

rainy時(shí)，熵值為0.971決策樹決策樹構(gòu)造實(shí)例根據(jù)數(shù)據(jù)統(tǒng)計(jì)，outlook取值分別為sunny,overcast,rainy的概率分別為：5/14,

4/14,5/14熵值計(jì)算：5/14

*0.971

4/14

+5/14

*0.971

=0.693（gain(temperature)=0.029

gain(humidity)=0.152

gain(windy)=0.048）

信息增益：系統(tǒng)的熵值從原始的0.940下降到了0.693，增益為0.247同樣的方式可以計(jì)算出其他特征的信息增益，那么我們選擇最大的那個(gè)就可以啦，相當(dāng)于是遍歷了一遍特征，找出來(lái)了大當(dāng)家，然后再其余的中繼續(xù)通過(guò)信息增益找二當(dāng)家！決策樹決策樹算法ID3：信息增益（有什么問(wèn)題呢？）

C4.5：信息增益率（解決ID3問(wèn)題，考慮自身熵）CART：使用GINI系數(shù)來(lái)當(dāng)做衡量標(biāo)準(zhǔn)GINI系數(shù)：（和熵的衡量標(biāo)準(zhǔn)類似，計(jì)算方式不相同）決策樹決策樹剪枝策略為什么要剪枝：決策樹過(guò)擬合風(fēng)險(xiǎn)很大，理論上可以完全分得開數(shù)據(jù)（想象一下，如果樹足夠龐大，每個(gè)葉子節(jié)點(diǎn)不就一個(gè)數(shù)據(jù)了嘛）剪枝策略：預(yù)剪枝，后剪枝預(yù)剪枝：邊建立決策樹邊進(jìn)行剪枝的操作（更實(shí)用）后剪枝：當(dāng)建立完決策樹后來(lái)進(jìn)行剪枝操作集成算法Ensemble

learning目的：讓機(jī)器學(xué)習(xí)效果更好，單個(gè)不行，群毆走起B(yǎng)agging：訓(xùn)練多個(gè)分類器取平均

Boosting：從弱學(xué)習(xí)器開始加強(qiáng)，通過(guò)加權(quán)來(lái)進(jìn)行訓(xùn)練（加入一棵樹，要比原來(lái)強(qiáng)）Stacking：聚合多個(gè)分類或回歸模型（可以分階段來(lái)做）集成算法Bagging模型全稱：

bootstrap

aggregation（說(shuō)白了就是并行訓(xùn)練一堆分類器）最典型的代表就是隨機(jī)森林啦隨機(jī)：數(shù)據(jù)采樣隨機(jī)，特征選擇隨機(jī)森林：很多個(gè)決策樹并行放在一起隨機(jī)森林構(gòu)造樹模型：集成算法由于二重隨機(jī)性，使得每個(gè)樹基本上都不會(huì)一樣，最終的結(jié)果也會(huì)不一樣Bagging模型樹模型：集成算法之所以要進(jìn)行隨機(jī)，是要保證泛化能力，如果樹都一樣，那就沒意義了！集成算法隨機(jī)森林優(yōu)勢(shì)它能夠處理很高維度（feature很多）的數(shù)據(jù)，并且不用做特征選擇在訓(xùn)練完后，它能夠給出哪些feature比較重要容易做成并行化方法，速度比較快可以進(jìn)行可視化展示，便于分析集成算法Boosting模型典型代表：AdaBoost，

XgboostAdaboost會(huì)根據(jù)前一次的分類效果調(diào)整數(shù)據(jù)權(quán)重解釋：如果某一個(gè)數(shù)據(jù)在這次分錯(cuò)了，那么在下一次我就會(huì)給它更大的權(quán)重最終的結(jié)果：每個(gè)分類器根據(jù)自身的準(zhǔn)確性來(lái)確定各自的權(quán)重，再合體集成算法Adaboost工作流程每一次切一刀！最終合在一起弱分類器這就升級(jí)了！集成算法Stacking模型堆疊：很暴力，拿來(lái)一堆直接上（各種分類器都來(lái)了）可以堆疊各種各樣的分類器（KNN

人人文庫(kù)> 全部分類> 教育資料 > 備課教案

溫馨提示

1. 本站所有資源如無(wú)特殊說(shuō)明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽，若沒有圖紙預(yù)覽就沒有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間，僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理，對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容，請(qǐng)與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

4第四節(jié)決策樹與集成算法

文檔簡(jiǎn)介

溫馨提示

最新文檔

評(píng)論

4第四節(jié)決策樹與集成算法

文檔簡(jiǎn)介

溫馨提示

最新文檔

評(píng)論

相關(guān)文檔