4第四節(jié)決策樹與集成算法_第1頁(yè)
4第四節(jié)決策樹與集成算法_第2頁(yè)
4第四節(jié)決策樹與集成算法_第3頁(yè)
4第四節(jié)決策樹與集成算法_第4頁(yè)
4第四節(jié)決策樹與集成算法_第5頁(yè)
已閱讀5頁(yè),還剩18頁(yè)未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

粵港機(jī)器人聯(lián)合學(xué)院主講人:熊皓然聯(lián)系微信覺組暑期培訓(xùn)RC決策樹隨機(jī)森林決策樹樹模型決策樹:從根節(jié)點(diǎn)開始一步步走到葉子節(jié)點(diǎn)(決策)所有的數(shù)據(jù)最終都會(huì)落到葉子節(jié)點(diǎn),既可以做分類也可以做回歸決策樹樹的組成根節(jié)點(diǎn):第一個(gè)選擇點(diǎn)非葉子節(jié)點(diǎn)與分支:中間過(guò)程葉子節(jié)點(diǎn):最終的決策結(jié)果決策樹決策樹的訓(xùn)練與測(cè)試訓(xùn)練階段:從給定的訓(xùn)練集構(gòu)造出來(lái)一棵樹(從跟節(jié)點(diǎn)開始選擇特征,如何進(jìn)行特征切分)測(cè)試階段:根據(jù)構(gòu)造出來(lái)的樹模型從上到下去走一遍就好了一旦構(gòu)造好了決策樹,那么分類或者預(yù)測(cè)任務(wù)就很簡(jiǎn)單了,只需要走一遍就可以了,那么難點(diǎn)就在于如何構(gòu)造出來(lái)一顆樹,這就沒那么容易了,需要考慮的問(wèn)題還有很多的!決策樹如何切分特征(選擇節(jié)點(diǎn))問(wèn)題:根節(jié)點(diǎn)的選擇該用哪個(gè)特征呢?接下來(lái)呢?如何切分呢?想象一下:我們的目標(biāo)應(yīng)該是根節(jié)點(diǎn)就像一個(gè)老大似的能更好的切分?jǐn)?shù)據(jù)(分類的效果更好),根節(jié)點(diǎn)下面的節(jié)點(diǎn)自然就是二當(dāng)家了。目標(biāo):通過(guò)一種衡量標(biāo)準(zhǔn),來(lái)計(jì)算通過(guò)不同特征進(jìn)行分支選擇后的分類情況,找出來(lái)最好的那個(gè)當(dāng)成根節(jié)點(diǎn),以此類推。決策樹衡量標(biāo)準(zhǔn)-熵熵:熵是表示隨機(jī)變量不確定性的度量(解釋:說(shuō)白了就是物體內(nèi)部的混亂程度,比如雜貨市場(chǎng)里面什么都有那肯定混亂呀,專賣店里面只賣一個(gè)牌子的那就穩(wěn)定多啦)公式:H(X)=-

pi

*logpi,i=1,2,

...

,

n一個(gè)栗子:A集合[1,1,1,1,1,1,1,1,2,2]B集合[1,2,3,4,5,6,7,8,9,1]顯然A集合的熵值要低,因?yàn)锳里面只有兩種類別,相對(duì)穩(wěn)定一些

而B中類別太多了,熵值就會(huì)大很多。(在分類任務(wù)中我們希望通過(guò)節(jié)點(diǎn)分支后數(shù)據(jù)類別的熵值大還是小呢?)決策樹衡量標(biāo)準(zhǔn)-熵熵:不確定性越大,得到的熵值也就越大當(dāng)p=0或p=1時(shí),H(p)=0,隨機(jī)變量完全沒有不確定性當(dāng)p=0.5時(shí),H(p)=1,此時(shí)隨機(jī)變量的不確定性最大如何決策一個(gè)節(jié)點(diǎn)的選擇呢?信息增益:表示特征X使得類Y的不確定性減少的程度。(分類后的專一性,希望分類后的結(jié)果是同類在一起)決策樹決策樹構(gòu)造實(shí)例數(shù)據(jù):14天打球情況特征:4種環(huán)境變化目標(biāo):構(gòu)造決策樹決策樹決策樹構(gòu)造實(shí)例劃分方式:4種問(wèn)題:誰(shuí)當(dāng)根節(jié)點(diǎn)呢?依據(jù):信息增益決策樹構(gòu)造實(shí)例在歷史數(shù)據(jù)中(14天)有9天打球,5天不打球,所以此時(shí)的熵應(yīng)為:決策樹4個(gè)特征逐一分析,先從outlook特征開始:Outlook

=

sunny時(shí),熵值為0.971

Outlook

=

overcast時(shí),熵值為0

Outlook

=

rainy時(shí),熵值為0.971決策樹決策樹構(gòu)造實(shí)例根據(jù)數(shù)據(jù)統(tǒng)計(jì),outlook取值分別為sunny,overcast,rainy的概率分別為:5/14,

4/14,5/14熵值計(jì)算:5/14

*0.971

+

4/14

*0

+5/14

*0.971

=0.693(gain(temperature)=0.029

gain(humidity)=0.152

gain(windy)=0.048)

信息增益:系統(tǒng)的熵值從原始的0.940下降到了0.693,增益為0.247同樣的方式可以計(jì)算出其他特征的信息增益,那么我們選擇最大的那個(gè)就可以啦,相當(dāng)于是遍歷了一遍特征,找出來(lái)了大當(dāng)家,然后再其余的中繼續(xù)通過(guò)信息增益找二當(dāng)家!決策樹決策樹算法ID3:信息增益(有什么問(wèn)題呢?)

C4.5:信息增益率(解決ID3問(wèn)題,考慮自身熵)CART:使用GINI系數(shù)來(lái)當(dāng)做衡量標(biāo)準(zhǔn)GINI系數(shù):(和熵的衡量標(biāo)準(zhǔn)類似,計(jì)算方式不相同)決策樹決策樹剪枝策略為什么要剪枝:決策樹過(guò)擬合風(fēng)險(xiǎn)很大,理論上可以完全分得開數(shù)據(jù)(想象一下,如果樹足夠龐大,每個(gè)葉子節(jié)點(diǎn)不就一個(gè)數(shù)據(jù)了嘛)剪枝策略:預(yù)剪枝,后剪枝預(yù)剪枝:邊建立決策樹邊進(jìn)行剪枝的操作(更實(shí)用)后剪枝:當(dāng)建立完決策樹后來(lái)進(jìn)行剪枝操作集成算法Ensemble

learning目的:讓機(jī)器學(xué)習(xí)效果更好,單個(gè)不行,群毆走起B(yǎng)agging:訓(xùn)練多個(gè)分類器取平均

Boosting:從弱學(xué)習(xí)器開始加強(qiáng),通過(guò)加權(quán)來(lái)進(jìn)行訓(xùn)練(加入一棵樹,要比原來(lái)強(qiáng))Stacking:聚合多個(gè)分類或回歸模型(可以分階段來(lái)做)集成算法Bagging模型全稱:

bootstrap

aggregation(說(shuō)白了就是并行訓(xùn)練一堆分類器)最典型的代表就是隨機(jī)森林啦隨機(jī):數(shù)據(jù)采樣隨機(jī),特征選擇隨機(jī)森林:很多個(gè)決策樹并行放在一起隨機(jī)森林構(gòu)造樹模型:集成算法由于二重隨機(jī)性,使得每個(gè)樹基本上都不會(huì)一樣,最終的結(jié)果也會(huì)不一樣Bagging模型樹模型:集成算法之所以要進(jìn)行隨機(jī),是要保證泛化能力,如果樹都一樣,那就沒意義了!集成算法隨機(jī)森林優(yōu)勢(shì)它能夠處理很高維度(feature很多)的數(shù)據(jù),并且不用做特征選擇在訓(xùn)練完后,它能夠給出哪些feature比較重要容易做成并行化方法,速度比較快可以進(jìn)行可視化展示,便于分析集成算法Boosting模型典型代表:AdaBoost,

XgboostAdaboost會(huì)根據(jù)前一次的分類效果調(diào)整數(shù)據(jù)權(quán)重解釋:如果某一個(gè)數(shù)據(jù)在這次分錯(cuò)了,那么在下一次我就會(huì)給它更大的權(quán)重最終的結(jié)果:每個(gè)分類器根據(jù)自身的準(zhǔn)確性來(lái)確定各自的權(quán)重,再合體集成算法Adaboost工作流程每一次切一刀!最終合在一起弱分類器這就升級(jí)了!集成算法Stacking模型堆疊:很暴力,拿來(lái)一堆直接上(各種分類器都來(lái)了)可以堆疊各種各樣的分類器(KNN

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論