4第四節(jié)決策樹與集成算法_第1頁
4第四節(jié)決策樹與集成算法_第2頁
4第四節(jié)決策樹與集成算法_第3頁
4第四節(jié)決策樹與集成算法_第4頁
4第四節(jié)決策樹與集成算法_第5頁
已閱讀5頁,還剩18頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

粵港機(jī)器人聯(lián)合學(xué)院主講人:熊皓然聯(lián)系微信覺組暑期培訓(xùn)RC決策樹隨機(jī)森林決策樹樹模型決策樹:從根節(jié)點(diǎn)開始一步步走到葉子節(jié)點(diǎn)(決策)所有的數(shù)據(jù)最終都會落到葉子節(jié)點(diǎn),既可以做分類也可以做回歸決策樹樹的組成根節(jié)點(diǎn):第一個選擇點(diǎn)非葉子節(jié)點(diǎn)與分支:中間過程葉子節(jié)點(diǎn):最終的決策結(jié)果決策樹決策樹的訓(xùn)練與測試訓(xùn)練階段:從給定的訓(xùn)練集構(gòu)造出來一棵樹(從跟節(jié)點(diǎn)開始選擇特征,如何進(jìn)行特征切分)測試階段:根據(jù)構(gòu)造出來的樹模型從上到下去走一遍就好了一旦構(gòu)造好了決策樹,那么分類或者預(yù)測任務(wù)就很簡單了,只需要走一遍就可以了,那么難點(diǎn)就在于如何構(gòu)造出來一顆樹,這就沒那么容易了,需要考慮的問題還有很多的!決策樹如何切分特征(選擇節(jié)點(diǎn))問題:根節(jié)點(diǎn)的選擇該用哪個特征呢?接下來呢?如何切分呢?想象一下:我們的目標(biāo)應(yīng)該是根節(jié)點(diǎn)就像一個老大似的能更好的切分?jǐn)?shù)據(jù)(分類的效果更好),根節(jié)點(diǎn)下面的節(jié)點(diǎn)自然就是二當(dāng)家了。目標(biāo):通過一種衡量標(biāo)準(zhǔn),來計(jì)算通過不同特征進(jìn)行分支選擇后的分類情況,找出來最好的那個當(dāng)成根節(jié)點(diǎn),以此類推。決策樹衡量標(biāo)準(zhǔn)-熵熵:熵是表示隨機(jī)變量不確定性的度量(解釋:說白了就是物體內(nèi)部的混亂程度,比如雜貨市場里面什么都有那肯定混亂呀,專賣店里面只賣一個牌子的那就穩(wěn)定多啦)公式:H(X)=-

pi

*logpi,i=1,2,

...

,

n一個栗子:A集合[1,1,1,1,1,1,1,1,2,2]B集合[1,2,3,4,5,6,7,8,9,1]顯然A集合的熵值要低,因?yàn)锳里面只有兩種類別,相對穩(wěn)定一些

而B中類別太多了,熵值就會大很多。(在分類任務(wù)中我們希望通過節(jié)點(diǎn)分支后數(shù)據(jù)類別的熵值大還是小呢?)決策樹衡量標(biāo)準(zhǔn)-熵熵:不確定性越大,得到的熵值也就越大當(dāng)p=0或p=1時,H(p)=0,隨機(jī)變量完全沒有不確定性當(dāng)p=0.5時,H(p)=1,此時隨機(jī)變量的不確定性最大如何決策一個節(jié)點(diǎn)的選擇呢?信息增益:表示特征X使得類Y的不確定性減少的程度。(分類后的專一性,希望分類后的結(jié)果是同類在一起)決策樹決策樹構(gòu)造實(shí)例數(shù)據(jù):14天打球情況特征:4種環(huán)境變化目標(biāo):構(gòu)造決策樹決策樹決策樹構(gòu)造實(shí)例劃分方式:4種問題:誰當(dāng)根節(jié)點(diǎn)呢?依據(jù):信息增益決策樹構(gòu)造實(shí)例在歷史數(shù)據(jù)中(14天)有9天打球,5天不打球,所以此時的熵應(yīng)為:決策樹4個特征逐一分析,先從outlook特征開始:Outlook

=

sunny時,熵值為0.971

Outlook

=

overcast時,熵值為0

Outlook

=

rainy時,熵值為0.971決策樹決策樹構(gòu)造實(shí)例根據(jù)數(shù)據(jù)統(tǒng)計(jì),outlook取值分別為sunny,overcast,rainy的概率分別為:5/14,

4/14,5/14熵值計(jì)算:5/14

*0.971

+

4/14

*0

+5/14

*0.971

=0.693(gain(temperature)=0.029

gain(humidity)=0.152

gain(windy)=0.048)

信息增益:系統(tǒng)的熵值從原始的0.940下降到了0.693,增益為0.247同樣的方式可以計(jì)算出其他特征的信息增益,那么我們選擇最大的那個就可以啦,相當(dāng)于是遍歷了一遍特征,找出來了大當(dāng)家,然后再其余的中繼續(xù)通過信息增益找二當(dāng)家!決策樹決策樹算法ID3:信息增益(有什么問題呢?)

C4.5:信息增益率(解決ID3問題,考慮自身熵)CART:使用GINI系數(shù)來當(dāng)做衡量標(biāo)準(zhǔn)GINI系數(shù):(和熵的衡量標(biāo)準(zhǔn)類似,計(jì)算方式不相同)決策樹決策樹剪枝策略為什么要剪枝:決策樹過擬合風(fēng)險(xiǎn)很大,理論上可以完全分得開數(shù)據(jù)(想象一下,如果樹足夠龐大,每個葉子節(jié)點(diǎn)不就一個數(shù)據(jù)了嘛)剪枝策略:預(yù)剪枝,后剪枝預(yù)剪枝:邊建立決策樹邊進(jìn)行剪枝的操作(更實(shí)用)后剪枝:當(dāng)建立完決策樹后來進(jìn)行剪枝操作集成算法Ensemble

learning目的:讓機(jī)器學(xué)習(xí)效果更好,單個不行,群毆走起B(yǎng)agging:訓(xùn)練多個分類器取平均

Boosting:從弱學(xué)習(xí)器開始加強(qiáng),通過加權(quán)來進(jìn)行訓(xùn)練(加入一棵樹,要比原來強(qiáng))Stacking:聚合多個分類或回歸模型(可以分階段來做)集成算法Bagging模型全稱:

bootstrap

aggregation(說白了就是并行訓(xùn)練一堆分類器)最典型的代表就是隨機(jī)森林啦隨機(jī):數(shù)據(jù)采樣隨機(jī),特征選擇隨機(jī)森林:很多個決策樹并行放在一起隨機(jī)森林構(gòu)造樹模型:集成算法由于二重隨機(jī)性,使得每個樹基本上都不會一樣,最終的結(jié)果也會不一樣Bagging模型樹模型:集成算法之所以要進(jìn)行隨機(jī),是要保證泛化能力,如果樹都一樣,那就沒意義了!集成算法隨機(jī)森林優(yōu)勢它能夠處理很高維度(feature很多)的數(shù)據(jù),并且不用做特征選擇在訓(xùn)練完后,它能夠給出哪些feature比較重要容易做成并行化方法,速度比較快可以進(jìn)行可視化展示,便于分析集成算法Boosting模型典型代表:AdaBoost,

XgboostAdaboost會根據(jù)前一次的分類效果調(diào)整數(shù)據(jù)權(quán)重解釋:如果某一個數(shù)據(jù)在這次分錯了,那么在下一次我就會給它更大的權(quán)重最終的結(jié)果:每個分類器根據(jù)自身的準(zhǔn)確性來確定各自的權(quán)重,再合體集成算法Adaboost工作流程每一次切一刀!最終合在一起弱分類器這就升級了!集成算法Stacking模型堆疊:很暴力,拿來一堆直接上(各種分類器都來了)可以堆疊各種各樣的分類器(KNN

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論