版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
集成學(xué)習(xí)課程大綱2018.9.15集成學(xué)習(xí)實(shí)戰(zhàn)2018.9.22Boosting與Adaboost實(shí)戰(zhàn)2018.9.29Bagging與隨機(jī)森林實(shí)戰(zhàn)集成學(xué)習(xí)集成學(xué)習(xí)(ensemblelearning)是現(xiàn)在非常火爆的機(jī)器學(xué)習(xí)方法。它本身不是一個(gè)單獨(dú)的機(jī)器學(xué)習(xí)算法,而是通過構(gòu)建并結(jié)合多個(gè)機(jī)器學(xué)習(xí)器來完成學(xué)習(xí)任務(wù)。也就是我們常說的“博采眾長”。集成學(xué)習(xí)可以用于分類問題集成,回歸問題集成,特征選取集成,異常點(diǎn)檢測集成等等,可以說所有的機(jī)器學(xué)習(xí)領(lǐng)域都可以看到集成學(xué)習(xí)的身影。集成學(xué)習(xí)集成學(xué)習(xí)綜述基本思想基礎(chǔ)分類器組合策略
對(duì)于回歸預(yù)測(數(shù)值)簡單平均加權(quán)平均對(duì)于分類預(yù)測(類別)簡單投票加權(quán)投票學(xué)習(xí)法集成學(xué)習(xí)方法BoostingAdaboostAdboost+決策樹=提升樹決策樹+GradientBoosting=GBDTBagging隨機(jī)森林(決策樹)(決策樹)ID3(信息增益)c4.5(信息增益率)CART(基尼系數(shù))Stacking模型評(píng)價(jià)方差&偏差集成學(xué)習(xí)概述對(duì)于訓(xùn)練集數(shù)據(jù),我們通過訓(xùn)練若干個(gè)個(gè)體學(xué)習(xí)器,通過一定的結(jié)合策略,就可以最終形成一個(gè)強(qiáng)學(xué)習(xí)器,以達(dá)到博采眾長的目的。集成學(xué)習(xí)有兩個(gè)主要的問題需要解決,第一是如何得到若干個(gè)個(gè)體學(xué)習(xí)器,第二是如何選擇一種結(jié)合策略,將這些個(gè)體學(xué)習(xí)器集合成一個(gè)強(qiáng)學(xué)習(xí)器。集成學(xué)習(xí):簡單直觀的例子對(duì)實(shí)例進(jìn)行分類對(duì)多個(gè)分類器的分類結(jié)果進(jìn)行某種組合來決定最終的分類,以取得比單個(gè)分類器更好的性能※定義:集成學(xué)習(xí)是使用一系列學(xué)習(xí)器進(jìn)行學(xué)習(xí),并使用某種規(guī)則把各個(gè)學(xué)習(xí)結(jié)果進(jìn)行整合從而獲得比單個(gè)學(xué)習(xí)器更好的學(xué)習(xí)效果的一種機(jī)器學(xué)習(xí)方法。如果把單個(gè)分類器比作一個(gè)決策者的話,集成學(xué)習(xí)的方法就相當(dāng)于多個(gè)決策者共同進(jìn)行一項(xiàng)決策。集成學(xué)習(xí)在概率近似正確(PAC)學(xué)習(xí)的框架中,一個(gè)概念(一個(gè)類),如果存在一個(gè)多項(xiàng)式的學(xué)習(xí)算法能夠?qū)W習(xí)它,如果正確率很高,那么就稱這個(gè)概念是強(qiáng)可學(xué)習(xí)(stronglylearnable)的。如果正確率不高,僅僅比隨即猜測略好,那么就稱這個(gè)概念是弱可學(xué)習(xí)(weaklylearnable)的。后來證明強(qiáng)可學(xué)習(xí)與弱可學(xué)習(xí)是等價(jià)的
解決的問題:1.弱分類器之間是怎樣的關(guān)系?2.組合時(shí),如何選擇學(xué)習(xí)器?3.怎樣組合弱分類器?集成學(xué)習(xí)解決的問題1.弱分類器之間是怎樣的關(guān)系?
第一種就是所有的個(gè)體學(xué)習(xí)器都是一個(gè)種類的,或者說是同質(zhì)的。
第二種是所有的個(gè)體學(xué)習(xí)器不全是一個(gè)種類的,或者說是異質(zhì)的。集成學(xué)習(xí)之個(gè)體學(xué)習(xí)器個(gè)體學(xué)習(xí)器有兩種選擇:第一種就是所有的個(gè)體學(xué)習(xí)器都是一個(gè)種類的,或者說是同質(zhì)的。比如都是決策樹個(gè)體學(xué)習(xí)器,或者都是神經(jīng)網(wǎng)絡(luò)個(gè)體學(xué)習(xí)器。第二種是所有的個(gè)體學(xué)習(xí)器不全是一個(gè)種類的,或者說是異質(zhì)的。比如我們有一個(gè)分類問題,對(duì)訓(xùn)練集采用支持向量機(jī)個(gè)體學(xué)習(xí)器,邏輯回歸個(gè)體學(xué)習(xí)器和樸素貝葉斯個(gè)體學(xué)習(xí)器來學(xué)習(xí),再通過某種結(jié)合策略來確定最終的分類強(qiáng)學(xué)習(xí)器。集成學(xué)習(xí)之個(gè)體學(xué)習(xí)器目前而言,同質(zhì)個(gè)體學(xué)習(xí)器應(yīng)用最廣泛,一般我們常說的集成學(xué)習(xí)的方法都是指的同質(zhì)個(gè)體學(xué)習(xí)器。而同質(zhì)個(gè)體學(xué)習(xí)器使用最多的模型是CART決策樹和神經(jīng)網(wǎng)絡(luò)。同質(zhì)個(gè)體學(xué)習(xí)器按照個(gè)體學(xué)習(xí)器之間是否存在依賴關(guān)系可以分為兩類,第一個(gè)是個(gè)體學(xué)習(xí)器之間存在強(qiáng)依賴關(guān)系,一系列個(gè)體學(xué)習(xí)器基本都需要串行生成,代表算法是boosting系列算法,第二個(gè)是個(gè)體學(xué)習(xí)器之間不存在強(qiáng)依賴關(guān)系,一系列個(gè)體學(xué)習(xí)器可以并行生成,代表算法是bagging和隨機(jī)森林(RandomForest)系列算法。集成學(xué)習(xí)2.組合時(shí),如何選擇學(xué)習(xí)器?
考慮準(zhǔn)確性和多樣性
準(zhǔn)確性指的是個(gè)體學(xué)習(xí)器不能太差,要有一定的準(zhǔn)確度;
多樣性則是個(gè)體學(xué)習(xí)器之間的輸出要具有差異性集成學(xué)習(xí)3.怎樣組合弱分類器?
組合策略:(1)平均法(2)投票法(3)學(xué)習(xí)法集成學(xué)習(xí)(1)平均法對(duì)于數(shù)值類的回歸預(yù)測問題思想:對(duì)于若干個(gè)弱學(xué)習(xí)器的輸出進(jìn)行平均得到最終的預(yù)測輸出。簡單平均法加權(quán)平均法其中wi是個(gè)體學(xué)習(xí)器hi的權(quán)重,通常有wi≥0,集成學(xué)習(xí)(2)投票法對(duì)于分類問題的預(yù)測
思想:多個(gè)基本分類器都進(jìn)行分類預(yù)測,然后根據(jù)分類結(jié)果用某種投票的原則進(jìn)行投票表決,按照投票原則使用不同投票法。一票否決、一致表決、少數(shù)服從多數(shù)閾值表決:首先統(tǒng)計(jì)出把實(shí)例x劃分為Ci和不劃分為Ci的分類器數(shù)目分別是多少,然后當(dāng)這兩者比例超過某個(gè)閾值的時(shí)候把x劃分到Ci。集成學(xué)習(xí)(3)學(xué)習(xí)法之前的方法都是對(duì)弱學(xué)習(xí)器的結(jié)果做平均或者投票,相對(duì)比較簡單,但是可能學(xué)習(xí)誤差較大。代表方法是Stacking思想:不是對(duì)弱學(xué)習(xí)器的結(jié)果做簡單的邏輯處理,而是再加上一層學(xué)習(xí)器,分為2層。第一層是用不同的算法形成T個(gè)弱分類器,同時(shí)產(chǎn)生一個(gè)與原數(shù)據(jù)集大小相同的新數(shù)據(jù)集,利用這個(gè)新數(shù)據(jù)集和一個(gè)新算法構(gòu)成第二層的分類器。
集成學(xué)習(xí)集成學(xué)習(xí)主要學(xué)習(xí)方法:根據(jù)個(gè)體學(xué)習(xí)器的生成方式,目前的集成學(xué)習(xí)方法大致可分為兩類,Boosting:個(gè)體學(xué)習(xí)器間存在強(qiáng)依賴關(guān)系,必須串行生成的序列化方法;
串行:下一個(gè)分類器只在前一個(gè)分類器預(yù)測不夠準(zhǔn)的實(shí)例上進(jìn)行訓(xùn)練或檢驗(yàn)。Bagging:個(gè)體學(xué)習(xí)器間不存在強(qiáng)依賴關(guān)系,可同時(shí)生成的并行化方法。并行:所有的弱分類器都給出各自的預(yù)測結(jié)果,通過組合把這些預(yù)測結(jié)果轉(zhuǎn)化為最終結(jié)果。集成學(xué)習(xí)Boosting重賦權(quán)法:即在訓(xùn)練過程的每一輪中,根據(jù)樣本分布為每一個(gè)訓(xùn)練樣本重新賦予一個(gè)權(quán)重。對(duì)無法接受帶權(quán)樣本的基學(xué)習(xí)算法,則可以通過重采樣法來處理,即在每一輪的學(xué)習(xí)中,根據(jù)樣本分布對(duì)訓(xùn)練集重新進(jìn)行采樣,在用重采樣而來的樣本集對(duì)基學(xué)習(xí)器進(jìn)行訓(xùn)練。
代表算法:Adboost決策樹+adboost=提升樹GBDT(GradientBoostDecisionTree)梯度提升決策樹決策樹+GradientBoosting=GBDT
其他叫法:GradientTreeBoostingGBRT(GradientBoostRegressionTree)梯度提升回歸樹MART(MultipleAdditiveRegressionTree)多決策回歸樹TreeNet決策樹網(wǎng)絡(luò)集成學(xué)習(xí)Bagging(bootstrapaggregation)Bagging的策略:
-從樣本集中用Bootstrap采樣選出n個(gè)樣本
-在所有屬性上,對(duì)這n個(gè)樣本建立分類器(CARTorSVMor...)
-重復(fù)以上兩步m次,i.e.buildm個(gè)分類器(CARTorSVMor...)
-將數(shù)據(jù)放在這m個(gè)分類器上跑,最后vote看到底分到哪一類
Bootstrap方法是非常有用的一種統(tǒng)計(jì)學(xué)上的估計(jì)方法。Bootstrap是對(duì)觀測信息進(jìn)行再抽樣,進(jìn)而對(duì)總體的分布特性進(jìn)行統(tǒng)計(jì)推斷。Bootstrap是一種有放回的重復(fù)抽樣方法,抽樣策略就是簡單的隨機(jī)抽樣。Bagging擴(kuò)展變體隨機(jī)森林(randomforest簡稱RF)隨機(jī)森林:決策樹+bagging=隨機(jī)森林集成學(xué)習(xí)從偏差-方差分解的角度偏差(bias):描述的是預(yù)測值的期望與真實(shí)值之間的差距。偏差越大,越偏離真實(shí)數(shù)據(jù),如下圖第二行所示。方差(variance)
:描述的是預(yù)測值的變化范圍,離散程度,也就是離其期望值的距離。方差越大,數(shù)據(jù)的分布越分散,如下圖右列所示。集成學(xué)習(xí)Boosting主要關(guān)注降低偏差偏差刻畫了學(xué)習(xí)算法本身的擬合能力Boosting思想,對(duì)判斷錯(cuò)誤的樣本不停的加大權(quán)重,為了更好地?cái)M合當(dāng)前數(shù)據(jù),所以降低了偏差,因此Boosting能基于泛化性能相當(dāng)弱的學(xué)習(xí)器構(gòu)建出
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 北師大七年級(jí)下冊(cè)認(rèn)識(shí)三角形二課件
- 玉溪師范學(xué)院《體育游戲與拓展訓(xùn)練》2023-2024學(xué)年第一學(xué)期期末試卷
- 玉溪師范學(xué)院《數(shù)據(jù)庫原理與應(yīng)用》2022-2023學(xué)年期末試卷
- 冀教版英語六下《教案》教學(xué)設(shè)計(jì)
- 幾種重要的金屬教案
- 交管12123學(xué)法減分考試題目及答案-知識(shí)題庫
- 中學(xué)生使用手機(jī)管理規(guī)定
- 大班美術(shù)教教案教育課件
- 2024年精細(xì)藥液過濾器項(xiàng)目評(píng)價(jià)分析報(bào)告
- 2024年?duì)I養(yǎng)型輸液項(xiàng)目評(píng)估分析報(bào)告
- 《預(yù)激綜合征》課件
- 創(chuàng)建清廉醫(yī)院工作措施
- 汽車涂裝車間整體保潔技術(shù)任務(wù)書
- 物流承運(yùn)方評(píng)價(jià)表格模板
- DB11-T211-2017園林綠化用植物材料木本苗
- 企業(yè)管理CPK管理辦法
- 習(xí)作 《小小“動(dòng)物園”》 課件
- 湛江的飲食文化
- 2022年發(fā)電廠臨時(shí)電源安全管理制度
- (小學(xué)數(shù)學(xué))信息技術(shù)與學(xué)科教學(xué)融合教學(xué)案例
- bimfm運(yùn)維解決方案
評(píng)論
0/150
提交評(píng)論