版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
粵港機(jī)器人聯(lián)合學(xué)院主講人:熊皓然聯(lián)系微信覺組暑期培訓(xùn)RC決策樹隨機(jī)森林決策樹樹模型決策樹:從根節(jié)點(diǎn)開始一步步走到葉子節(jié)點(diǎn)(決策)所有的數(shù)據(jù)最終都會落到葉子節(jié)點(diǎn),既可以做分類也可以做回歸決策樹樹的組成根節(jié)點(diǎn):第一個選擇點(diǎn)非葉子節(jié)點(diǎn)與分支:中間過程葉子節(jié)點(diǎn):最終的決策結(jié)果決策樹決策樹的訓(xùn)練與測試訓(xùn)練階段:從給定的訓(xùn)練集構(gòu)造出來一棵樹(從跟節(jié)點(diǎn)開始選擇特征,如何進(jìn)行特征切分)測試階段:根據(jù)構(gòu)造出來的樹模型從上到下去走一遍就好了一旦構(gòu)造好了決策樹,那么分類或者預(yù)測任務(wù)就很簡單了,只需要走一遍就可以了,那么難點(diǎn)就在于如何構(gòu)造出來一顆樹,這就沒那么容易了,需要考慮的問題還有很多的!決策樹如何切分特征(選擇節(jié)點(diǎn))問題:根節(jié)點(diǎn)的選擇該用哪個特征呢?接下來呢?如何切分呢?想象一下:我們的目標(biāo)應(yīng)該是根節(jié)點(diǎn)就像一個老大似的能更好的切分?jǐn)?shù)據(jù)(分類的效果更好),根節(jié)點(diǎn)下面的節(jié)點(diǎn)自然就是二當(dāng)家了。目標(biāo):通過一種衡量標(biāo)準(zhǔn),來計(jì)算通過不同特征進(jìn)行分支選擇后的分類情況,找出來最好的那個當(dāng)成根節(jié)點(diǎn),以此類推。決策樹衡量標(biāo)準(zhǔn)-熵熵:熵是表示隨機(jī)變量不確定性的度量(解釋:說白了就是物體內(nèi)部的混亂程度,比如雜貨市場里面什么都有那肯定混亂呀,專賣店里面只賣一個牌子的那就穩(wěn)定多啦)公式:H(X)=-
∑
pi
*logpi,i=1,2,
...
,
n一個栗子:A集合[1,1,1,1,1,1,1,1,2,2]B集合[1,2,3,4,5,6,7,8,9,1]顯然A集合的熵值要低,因?yàn)锳里面只有兩種類別,相對穩(wěn)定一些
而B中類別太多了,熵值就會大很多。(在分類任務(wù)中我們希望通過節(jié)點(diǎn)分支后數(shù)據(jù)類別的熵值大還是小呢?)決策樹衡量標(biāo)準(zhǔn)-熵熵:不確定性越大,得到的熵值也就越大當(dāng)p=0或p=1時,H(p)=0,隨機(jī)變量完全沒有不確定性當(dāng)p=0.5時,H(p)=1,此時隨機(jī)變量的不確定性最大如何決策一個節(jié)點(diǎn)的選擇呢?信息增益:表示特征X使得類Y的不確定性減少的程度。(分類后的專一性,希望分類后的結(jié)果是同類在一起)決策樹決策樹構(gòu)造實(shí)例數(shù)據(jù):14天打球情況特征:4種環(huán)境變化目標(biāo):構(gòu)造決策樹決策樹決策樹構(gòu)造實(shí)例劃分方式:4種問題:誰當(dāng)根節(jié)點(diǎn)呢?依據(jù):信息增益決策樹構(gòu)造實(shí)例在歷史數(shù)據(jù)中(14天)有9天打球,5天不打球,所以此時的熵應(yīng)為:決策樹4個特征逐一分析,先從outlook特征開始:Outlook
=
sunny時,熵值為0.971
Outlook
=
overcast時,熵值為0
Outlook
=
rainy時,熵值為0.971決策樹決策樹構(gòu)造實(shí)例根據(jù)數(shù)據(jù)統(tǒng)計(jì),outlook取值分別為sunny,overcast,rainy的概率分別為:5/14,
4/14,5/14熵值計(jì)算:5/14
*0.971
+
4/14
*0
+5/14
*0.971
=0.693(gain(temperature)=0.029
gain(humidity)=0.152
gain(windy)=0.048)
信息增益:系統(tǒng)的熵值從原始的0.940下降到了0.693,增益為0.247同樣的方式可以計(jì)算出其他特征的信息增益,那么我們選擇最大的那個就可以啦,相當(dāng)于是遍歷了一遍特征,找出來了大當(dāng)家,然后再其余的中繼續(xù)通過信息增益找二當(dāng)家!決策樹決策樹算法ID3:信息增益(有什么問題呢?)
C4.5:信息增益率(解決ID3問題,考慮自身熵)CART:使用GINI系數(shù)來當(dāng)做衡量標(biāo)準(zhǔn)GINI系數(shù):(和熵的衡量標(biāo)準(zhǔn)類似,計(jì)算方式不相同)決策樹決策樹剪枝策略為什么要剪枝:決策樹過擬合風(fēng)險(xiǎn)很大,理論上可以完全分得開數(shù)據(jù)(想象一下,如果樹足夠龐大,每個葉子節(jié)點(diǎn)不就一個數(shù)據(jù)了嘛)剪枝策略:預(yù)剪枝,后剪枝預(yù)剪枝:邊建立決策樹邊進(jìn)行剪枝的操作(更實(shí)用)后剪枝:當(dāng)建立完決策樹后來進(jìn)行剪枝操作集成算法Ensemble
learning目的:讓機(jī)器學(xué)習(xí)效果更好,單個不行,群毆走起B(yǎng)agging:訓(xùn)練多個分類器取平均
Boosting:從弱學(xué)習(xí)器開始加強(qiáng),通過加權(quán)來進(jìn)行訓(xùn)練(加入一棵樹,要比原來強(qiáng))Stacking:聚合多個分類或回歸模型(可以分階段來做)集成算法Bagging模型全稱:
bootstrap
aggregation(說白了就是并行訓(xùn)練一堆分類器)最典型的代表就是隨機(jī)森林啦隨機(jī):數(shù)據(jù)采樣隨機(jī),特征選擇隨機(jī)森林:很多個決策樹并行放在一起隨機(jī)森林構(gòu)造樹模型:集成算法由于二重隨機(jī)性,使得每個樹基本上都不會一樣,最終的結(jié)果也會不一樣Bagging模型樹模型:集成算法之所以要進(jìn)行隨機(jī),是要保證泛化能力,如果樹都一樣,那就沒意義了!集成算法隨機(jī)森林優(yōu)勢它能夠處理很高維度(feature很多)的數(shù)據(jù),并且不用做特征選擇在訓(xùn)練完后,它能夠給出哪些feature比較重要容易做成并行化方法,速度比較快可以進(jìn)行可視化展示,便于分析集成算法Boosting模型典型代表:AdaBoost,
XgboostAdaboost會根據(jù)前一次的分類效果調(diào)整數(shù)據(jù)權(quán)重解釋:如果某一個數(shù)據(jù)在這次分錯了,那么在下一次我就會給它更大的權(quán)重最終的結(jié)果:每個分類器根據(jù)自身的準(zhǔn)確性來確定各自的權(quán)重,再合體集成算法Adaboost工作流程每一次切一刀!最終合在一起弱分類器這就升級了!集成算法Stacking模型堆疊:很暴力,拿來一堆直接上(各種分類器都來了)可以堆疊各種各樣的分類器(KNN
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 房地產(chǎn)公司辦公費(fèi)用控制
- 機(jī)電工程人工費(fèi)施工合同
- 中心站服務(wù)改進(jìn)戰(zhàn)略
- 工程公司職工胸牌管理辦法
- 網(wǎng)絡(luò)安全招投標(biāo)小組職責(zé)探討
- 農(nóng)場獸醫(yī)服務(wù)合同范本
- 《Excel數(shù)據(jù)獲取與處理實(shí)戰(zhàn)》 課件 第7章 函數(shù)的應(yīng)用-1
- 2022年大學(xué)生物工程專業(yè)大學(xué)物理下冊月考試題A卷-含答案
- 防盜門鎖系統(tǒng)
- 2022年大學(xué)能源動力專業(yè)大學(xué)物理下冊開學(xué)考試試題-含答案
- 數(shù)據(jù)分析師歷年考試真題試題庫(含答案)
- 心房顫動與認(rèn)知功能障礙發(fā)生機(jī)制研究進(jìn)展
- 2024年江蘇省高考化學(xué)試卷(含答案解析)
- 廣東省珠海市2023-2024學(xué)年六年級上學(xué)期數(shù)學(xué)期中試卷(含答案)
- 2024~2025學(xué)年高二地理期中考試模擬試卷【人教版選擇性必修一第一至三章】
- 成都銀行招聘真題
- 2023年中國鐵塔招聘考試真題
- 人教版(2024新版)七年級上冊英語Unit 3 單元測試卷(筆試部分)(含答案)
- 江蘇省南京市六校聯(lián)考2024-2025學(xué)年高一上學(xué)期期中考試英語試卷(含答案含聽力原文無音頻)
- 2024年海南省發(fā)展控股限公司子公司招聘11人高頻難、易錯點(diǎn)500題模擬試題附帶答案詳解
- 小學(xué)心理健康教育課件《放飛煩惱-擁抱快樂》
評論
0/150
提交評論