




版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
粵港機(jī)器人聯(lián)合學(xué)院主講人:熊皓然聯(lián)系微信覺組暑期培訓(xùn)RC決策樹隨機(jī)森林決策樹樹模型決策樹:從根節(jié)點(diǎn)開始一步步走到葉子節(jié)點(diǎn)(決策)所有的數(shù)據(jù)最終都會(huì)落到葉子節(jié)點(diǎn),既可以做分類也可以做回歸決策樹樹的組成根節(jié)點(diǎn):第一個(gè)選擇點(diǎn)非葉子節(jié)點(diǎn)與分支:中間過(guò)程葉子節(jié)點(diǎn):最終的決策結(jié)果決策樹決策樹的訓(xùn)練與測(cè)試訓(xùn)練階段:從給定的訓(xùn)練集構(gòu)造出來(lái)一棵樹(從跟節(jié)點(diǎn)開始選擇特征,如何進(jìn)行特征切分)測(cè)試階段:根據(jù)構(gòu)造出來(lái)的樹模型從上到下去走一遍就好了一旦構(gòu)造好了決策樹,那么分類或者預(yù)測(cè)任務(wù)就很簡(jiǎn)單了,只需要走一遍就可以了,那么難點(diǎn)就在于如何構(gòu)造出來(lái)一顆樹,這就沒那么容易了,需要考慮的問(wèn)題還有很多的!決策樹如何切分特征(選擇節(jié)點(diǎn))問(wèn)題:根節(jié)點(diǎn)的選擇該用哪個(gè)特征呢?接下來(lái)呢?如何切分呢?想象一下:我們的目標(biāo)應(yīng)該是根節(jié)點(diǎn)就像一個(gè)老大似的能更好的切分?jǐn)?shù)據(jù)(分類的效果更好),根節(jié)點(diǎn)下面的節(jié)點(diǎn)自然就是二當(dāng)家了。目標(biāo):通過(guò)一種衡量標(biāo)準(zhǔn),來(lái)計(jì)算通過(guò)不同特征進(jìn)行分支選擇后的分類情況,找出來(lái)最好的那個(gè)當(dāng)成根節(jié)點(diǎn),以此類推。決策樹衡量標(biāo)準(zhǔn)-熵熵:熵是表示隨機(jī)變量不確定性的度量(解釋:說(shuō)白了就是物體內(nèi)部的混亂程度,比如雜貨市場(chǎng)里面什么都有那肯定混亂呀,專賣店里面只賣一個(gè)牌子的那就穩(wěn)定多啦)公式:H(X)=-
∑
pi
*logpi,i=1,2,
...
,
n一個(gè)栗子:A集合[1,1,1,1,1,1,1,1,2,2]B集合[1,2,3,4,5,6,7,8,9,1]顯然A集合的熵值要低,因?yàn)锳里面只有兩種類別,相對(duì)穩(wěn)定一些
而B中類別太多了,熵值就會(huì)大很多。(在分類任務(wù)中我們希望通過(guò)節(jié)點(diǎn)分支后數(shù)據(jù)類別的熵值大還是小呢?)決策樹衡量標(biāo)準(zhǔn)-熵熵:不確定性越大,得到的熵值也就越大當(dāng)p=0或p=1時(shí),H(p)=0,隨機(jī)變量完全沒有不確定性當(dāng)p=0.5時(shí),H(p)=1,此時(shí)隨機(jī)變量的不確定性最大如何決策一個(gè)節(jié)點(diǎn)的選擇呢?信息增益:表示特征X使得類Y的不確定性減少的程度。(分類后的專一性,希望分類后的結(jié)果是同類在一起)決策樹決策樹構(gòu)造實(shí)例數(shù)據(jù):14天打球情況特征:4種環(huán)境變化目標(biāo):構(gòu)造決策樹決策樹決策樹構(gòu)造實(shí)例劃分方式:4種問(wèn)題:誰(shuí)當(dāng)根節(jié)點(diǎn)呢?依據(jù):信息增益決策樹構(gòu)造實(shí)例在歷史數(shù)據(jù)中(14天)有9天打球,5天不打球,所以此時(shí)的熵應(yīng)為:決策樹4個(gè)特征逐一分析,先從outlook特征開始:Outlook
=
sunny時(shí),熵值為0.971
Outlook
=
overcast時(shí),熵值為0
Outlook
=
rainy時(shí),熵值為0.971決策樹決策樹構(gòu)造實(shí)例根據(jù)數(shù)據(jù)統(tǒng)計(jì),outlook取值分別為sunny,overcast,rainy的概率分別為:5/14,
4/14,5/14熵值計(jì)算:5/14
*0.971
+
4/14
*0
+5/14
*0.971
=0.693(gain(temperature)=0.029
gain(humidity)=0.152
gain(windy)=0.048)
信息增益:系統(tǒng)的熵值從原始的0.940下降到了0.693,增益為0.247同樣的方式可以計(jì)算出其他特征的信息增益,那么我們選擇最大的那個(gè)就可以啦,相當(dāng)于是遍歷了一遍特征,找出來(lái)了大當(dāng)家,然后再其余的中繼續(xù)通過(guò)信息增益找二當(dāng)家!決策樹決策樹算法ID3:信息增益(有什么問(wèn)題呢?)
C4.5:信息增益率(解決ID3問(wèn)題,考慮自身熵)CART:使用GINI系數(shù)來(lái)當(dāng)做衡量標(biāo)準(zhǔn)GINI系數(shù):(和熵的衡量標(biāo)準(zhǔn)類似,計(jì)算方式不相同)決策樹決策樹剪枝策略為什么要剪枝:決策樹過(guò)擬合風(fēng)險(xiǎn)很大,理論上可以完全分得開數(shù)據(jù)(想象一下,如果樹足夠龐大,每個(gè)葉子節(jié)點(diǎn)不就一個(gè)數(shù)據(jù)了嘛)剪枝策略:預(yù)剪枝,后剪枝預(yù)剪枝:邊建立決策樹邊進(jìn)行剪枝的操作(更實(shí)用)后剪枝:當(dāng)建立完決策樹后來(lái)進(jìn)行剪枝操作集成算法Ensemble
learning目的:讓機(jī)器學(xué)習(xí)效果更好,單個(gè)不行,群毆走起B(yǎng)agging:訓(xùn)練多個(gè)分類器取平均
Boosting:從弱學(xué)習(xí)器開始加強(qiáng),通過(guò)加權(quán)來(lái)進(jìn)行訓(xùn)練(加入一棵樹,要比原來(lái)強(qiáng))Stacking:聚合多個(gè)分類或回歸模型(可以分階段來(lái)做)集成算法Bagging模型全稱:
bootstrap
aggregation(說(shuō)白了就是并行訓(xùn)練一堆分類器)最典型的代表就是隨機(jī)森林啦隨機(jī):數(shù)據(jù)采樣隨機(jī),特征選擇隨機(jī)森林:很多個(gè)決策樹并行放在一起隨機(jī)森林構(gòu)造樹模型:集成算法由于二重隨機(jī)性,使得每個(gè)樹基本上都不會(huì)一樣,最終的結(jié)果也會(huì)不一樣Bagging模型樹模型:集成算法之所以要進(jìn)行隨機(jī),是要保證泛化能力,如果樹都一樣,那就沒意義了!集成算法隨機(jī)森林優(yōu)勢(shì)它能夠處理很高維度(feature很多)的數(shù)據(jù),并且不用做特征選擇在訓(xùn)練完后,它能夠給出哪些feature比較重要容易做成并行化方法,速度比較快可以進(jìn)行可視化展示,便于分析集成算法Boosting模型典型代表:AdaBoost,
XgboostAdaboost會(huì)根據(jù)前一次的分類效果調(diào)整數(shù)據(jù)權(quán)重解釋:如果某一個(gè)數(shù)據(jù)在這次分錯(cuò)了,那么在下一次我就會(huì)給它更大的權(quán)重最終的結(jié)果:每個(gè)分類器根據(jù)自身的準(zhǔn)確性來(lái)確定各自的權(quán)重,再合體集成算法Adaboost工作流程每一次切一刀!最終合在一起弱分類器這就升級(jí)了!集成算法Stacking模型堆疊:很暴力,拿來(lái)一堆直接上(各種分類器都來(lái)了)可以堆疊各種各樣的分類器(KNN
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 董志超目標(biāo)與時(shí)間管理
- 試生產(chǎn)安全培訓(xùn)
- 蔬菜栽培培訓(xùn)
- 花生組織培養(yǎng)實(shí)驗(yàn)流程
- 智能交通:構(gòu)建高效城市的關(guān)鍵
- 2025年數(shù)據(jù)標(biāo)注與審核合作協(xié)議書
- 手機(jī)銀行企業(yè)數(shù)字化轉(zhuǎn)型與智慧升級(jí)戰(zhàn)略研究報(bào)告
- 智能物流包裝輕量化設(shè)計(jì)行業(yè)跨境出海戰(zhàn)略研究報(bào)告
- 武漢熱干面小店企業(yè)制定與實(shí)施新質(zhì)生產(chǎn)力戰(zhàn)略研究報(bào)告
- 陜西省漢中市2024-2025學(xué)年高一上學(xué)期期末校際聯(lián)考數(shù)學(xué)試題
- DB14-T 1123-2024 紅小豆、玉米間作技術(shù)規(guī)程
- 【課件】溶質(zhì)的質(zhì)量分?jǐn)?shù)(第1課時(shí))九年級(jí)化學(xué)人教版(2024)下冊(cè)
- 2025高考數(shù)學(xué)專項(xiàng)復(fù)習(xí):導(dǎo)數(shù)的27個(gè)模塊專練(含答案)
- 《云南民風(fēng)民俗》課件
- 【MOOC】通信原理-中原工學(xué)院 中國(guó)大學(xué)慕課MOOC答案
- 高職美育教程 課件全套 周保平 專題1-10 高職美育的意義與特點(diǎn)-藝術(shù)美
- 《智能網(wǎng)聯(lián)汽車概論(活頁(yè)式)》全套教學(xué)課件
- 延長(zhǎng)殼牌加油站PTW培訓(xùn)教材(工作許可證體系)
- 計(jì)算機(jī)維修工(智能電子產(chǎn)品檢測(cè)與數(shù)據(jù)恢復(fù)方向)賽項(xiàng)考試題庫(kù)(含答案)
- 幼兒園大班健康《神奇的腦》課件
- 2024年時(shí)事政治考試134題(附答案)
評(píng)論
0/150
提交評(píng)論