人工智能經(jīng)典電子書1.集成學習

上傳人：w*** IP屬地：江蘇上傳時間：2024-11-20 格式：PPTX 頁數(shù)：25 大?。?31.96KB 積分：12 舉報 版權(quán)申訴

已閱讀5頁，還剩20頁未讀，繼續(xù)免費閱讀

版權(quán)說明：本文檔由用戶提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請進行舉報或認領(lǐng)

文檔簡介

集成學習課程大綱2018.9.15集成學習實戰(zhàn)2018.9.22Boosting與Adaboost實戰(zhàn)2018.9.29Bagging與隨機森林實戰(zhàn)集成學習集成學習(ensemblelearning)是現(xiàn)在非?；鸨臋C器學習方法。它本身不是一個單獨的機器學習算法，而是通過構(gòu)建并結(jié)合多個機器學習器來完成學習任務(wù)。也就是我們常說的“博采眾長”。集成學習可以用于分類問題集成，回歸問題集成，特征選取集成，異常點檢測集成等等，可以說所有的機器學習領(lǐng)域都可以看到集成學習的身影。集成學習集成學習綜述基本思想基礎(chǔ)分類器組合策略

對于回歸預(yù)測（數(shù)值）簡單平均加權(quán)平均對于分類預(yù)測（類別）簡單投票加權(quán)投票學習法集成學習方法BoostingAdaboostAdboost+決策樹=提升樹決策樹+GradientBoosting=GBDTBagging隨機森林（決策樹）（決策樹）ID3(信息增益)c4.5（信息增益率）CART（基尼系數(shù)）Stacking模型評價方差&偏差集成學習概述對于訓練集數(shù)據(jù)，我們通過訓練若干個個體學習器，通過一定的結(jié)合策略，就可以最終形成一個強學習器，以達到博采眾長的目的。集成學習有兩個主要的問題需要解決，第一是如何得到若干個個體學習器，第二是如何選擇一種結(jié)合策略，將這些個體學習器集合成一個強學習器。集成學習：簡單直觀的例子對實例進行分類對多個分類器的分類結(jié)果進行某種組合來決定最終的分類，以取得比單個分類器更好的性能※定義：集成學習是使用一系列學習器進行學習，并使用某種規(guī)則把各個學習結(jié)果進行整合從而獲得比單個學習器更好的學習效果的一種機器學習方法。如果把單個分類器比作一個決策者的話，集成學習的方法就相當于多個決策者共同進行一項決策。集成學習在概率近似正確（PAC）學習的框架中，一個概念（一個類），如果存在一個多項式的學習算法能夠?qū)W習它，如果正確率很高，那么就稱這個概念是強可學習（stronglylearnable）的。如果正確率不高，僅僅比隨即猜測略好，那么就稱這個概念是弱可學習（weaklylearnable）的。后來證明強可學習與弱可學習是等價的

解決的問題：1.弱分類器之間是怎樣的關(guān)系？2.組合時，如何選擇學習器？3.怎樣組合弱分類器？集成學習解決的問題1.弱分類器之間是怎樣的關(guān)系？

第一種就是所有的個體學習器都是一個種類的，或者說是同質(zhì)的。

第二種是所有的個體學習器不全是一個種類的，或者說是異質(zhì)的。集成學習之個體學習器個體學習器有兩種選擇：第一種就是所有的個體學習器都是一個種類的，或者說是同質(zhì)的。比如都是決策樹個體學習器，或者都是神經(jīng)網(wǎng)絡(luò)個體學習器。第二種是所有的個體學習器不全是一個種類的，或者說是異質(zhì)的。比如我們有一個分類問題，對訓練集采用支持向量機個體學習器，邏輯回歸個體學習器和樸素貝葉斯個體學習器來學習，再通過某種結(jié)合策略來確定最終的分類強學習器。集成學習之個體學習器目前而言，同質(zhì)個體學習器應(yīng)用最廣泛，一般我們常說的集成學習的方法都是指的同質(zhì)個體學習器。而同質(zhì)個體學習器使用最多的模型是CART決策樹和神經(jīng)網(wǎng)絡(luò)。同質(zhì)個體學習器按照個體學習器之間是否存在依賴關(guān)系可以分為兩類，第一個是個體學習器之間存在強依賴關(guān)系，一系列個體學習器基本都需要串行生成，代表算法是boosting系列算法，第二個是個體學習器之間不存在強依賴關(guān)系，一系列個體學習器可以并行生成，代表算法是bagging和隨機森林（RandomForest）系列算法。集成學習2.組合時，如何選擇學習器？

考慮準確性和多樣性

準確性指的是個體學習器不能太差，要有一定的準確度；

多樣性則是個體學習器之間的輸出要具有差異性集成學習3.怎樣組合弱分類器？

組合策略：（1）平均法（2）投票法（3）學習法集成學習（1）平均法對于數(shù)值類的回歸預(yù)測問題思想：對于若干個弱學習器的輸出進行平均得到最終的預(yù)測輸出。簡單平均法加權(quán)平均法其中wi是個體學習器hi的權(quán)重，通常有wi≥0,集成學習（2）投票法對于分類問題的預(yù)測

思想：多個基本分類器都進行分類預(yù)測，然后根據(jù)分類結(jié)果用某種投票的原則進行投票表決，按照投票原則使用不同投票法。一票否決、一致表決、少數(shù)服從多數(shù)閾值表決：首先統(tǒng)計出把實例x劃分為Ci和不劃分為Ci的分類器數(shù)目分別是多少，然后當這兩者比例超過某個閾值的時候把x劃分到Ci。集成學習（3）學習法之前的方法都是對弱學習器的結(jié)果做平均或者投票，相對比較簡單，但是可能學習誤差較大。代表方法是Stacking思想：不是對弱學習器的結(jié)果做簡單的邏輯處理，而是再加上一層學習器，分為2層。第一層是用不同的算法形成T個弱分類器，同時產(chǎn)生一個與原數(shù)據(jù)集大小相同的新數(shù)據(jù)集，利用這個新數(shù)據(jù)集和一個新算法構(gòu)成第二層的分類器。

集成學習集成學習主要學習方法：根據(jù)個體學習器的生成方式，目前的集成學習方法大致可分為兩類，Boosting：個體學習器間存在強依賴關(guān)系，必須串行生成的序列化方法；

串行：下一個分類器只在前一個分類器預(yù)測不夠準的實例上進行訓練或檢驗。Bagging：個體學習器間不存在強依賴關(guān)系，可同時生成的并行化方法。并行：所有的弱分類器都給出各自的預(yù)測結(jié)果，通過組合把這些預(yù)測結(jié)果轉(zhuǎn)化為最終結(jié)果。集成學習Boosting重賦權(quán)法：即在訓練過程的每一輪中，根據(jù)樣本分布為每一個訓練樣本重新賦予一個權(quán)重。對無法接受帶權(quán)樣本的基學習算法，則可以通過重采樣法來處理，即在每一輪的學習中，根據(jù)樣本分布對訓練集重新進行采樣，在用重采樣而來的樣本集對基學習器進行訓練。

代表算法：Adboost決策樹+adboost=提升樹GBDT（GradientBoostDecisionTree）梯度提升決策樹決策樹+GradientBoosting=GBDT

其他叫法：GradientTreeBoostingGBRT(GradientBoostRegressionTree)梯度提升回歸樹MART(MultipleAdditiveRegressionTree)多決策回歸樹TreeNet決策樹網(wǎng)絡(luò)集成學習Bagging(bootstrapaggregation)Bagging的策略：

-從樣本集中用Bootstrap采樣選出n個樣本

-在所有屬性上，對這n個樣本建立分類器（CARTorSVMor...）

-重復以上兩步m次，i.e.buildm個分類器（CARTorSVMor...）

-將數(shù)據(jù)放在這m個分類器上跑，最后vote看到底分到哪一類

Bootstrap方法是非常有用的一種統(tǒng)計學上的估計方法。Bootstrap是對觀測信息進行再抽樣，進而對總體的分布特性進行統(tǒng)計推斷。Bootstrap是一種有放回的重復抽樣方法，抽樣策略就是簡單的隨機抽樣。Bagging擴展變體隨機森林（randomforest簡稱RF）隨機森林：決策樹+bagging=隨機森林集成學習從偏差-方差分解的角度偏差(bias)：描述的是預(yù)測值的期望與真實值之間的差距。偏差越大，越偏離真實數(shù)據(jù)，如下圖第二行所示。方差(variance)

：描述的是預(yù)測值的變化范圍，離散程度，也就是離其期望值的距離。方差越大，數(shù)據(jù)的分布越分散，如下圖右列所示。集成學習Boosting主要關(guān)注降低偏差偏差刻畫了學習算法本身的擬合能力Boosting思想，對判斷錯誤的樣本不停的加大權(quán)重，為了更好地擬合當前數(shù)據(jù)，所以降低了偏差，因此Boosting能基于泛化性能相當弱的學習器構(gòu)建出

人人文庫> 全部分類> 應(yīng)用文書 > 研究報告

溫馨提示

1. 本站所有資源如無特殊說明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽，若沒有圖紙預(yù)覽就沒有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 人人文庫網(wǎng)僅提供信息存儲空間，僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理，對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對任何下載內(nèi)容負責。
6. 下載文件中如有侵權(quán)或不適當內(nèi)容，請與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

人工智能經(jīng)典電子書1.集成學習

文檔簡介

溫馨提示

最新文檔

評論

人工智能經(jīng)典電子書1.集成學習

文檔簡介

溫馨提示

最新文檔

評論

相關(guān)文檔