機器學(xué)習(xí)算法與實踐課件第8章集成學(xué)習(xí)

上傳人：y*** IP屬地：山東上傳時間：2024-10-31 格式：PPTX 頁數(shù)：31 大小：2.54MB 積分：15 舉報 版權(quán)申訴

機器學(xué)習(xí)算法與實踐課件第8章集成學(xué)習(xí)_第2頁

機器學(xué)習(xí)算法與實踐課件第8章集成學(xué)習(xí)_第3頁

機器學(xué)習(xí)算法與實踐課件第8章集成學(xué)習(xí)_第4頁

機器學(xué)習(xí)算法與實踐課件第8章集成學(xué)習(xí)_第5頁

已閱讀5頁，還剩26頁未讀，繼續(xù)免費閱讀

版權(quán)說明：本文檔由用戶提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請進行舉報或認(rèn)領(lǐng)

文檔簡介

第八章集成學(xué)習(xí)在監(jiān)督學(xué)習(xí)中，傳統(tǒng)方式是按照選定的學(xué)習(xí)算法，針對某個給定的訓(xùn)練數(shù)據(jù)集訓(xùn)練得到一個特定的學(xué)習(xí)器模型，然后再用它預(yù)測未知的樣本。集成學(xué)習(xí)可以組合多個弱模型以期得到一個更好更全面的強模型，集成學(xué)習(xí)潛在的思想是即便某一個弱學(xué)習(xí)器得到了錯誤的預(yù)測，其他的弱學(xué)習(xí)器也可以將錯誤糾正回來。因此，集成學(xué)習(xí)（EnsembleLearning）是指利用多個獨立的弱學(xué)習(xí)器來進行學(xué)習(xí)，組合某輸入樣例在各個弱學(xué)習(xí)器上的輸出，并由它們按照某種策略共同決定輸出。18.1集成學(xué)習(xí)概述集成學(xué)習(xí)是一種功能十分強大的機器學(xué)習(xí)方法，其基本思想是先通過一定的規(guī)則生成固定數(shù)量的弱學(xué)習(xí)器（或稱為基學(xué)習(xí)器、個體學(xué)習(xí)器），再采用某種集成策略將這些弱學(xué)習(xí)器的預(yù)測結(jié)果組合起來，從而形成最終的結(jié)論。弱學(xué)習(xí)器（WeakLearner）是錯誤概率小于1/2的學(xué)習(xí)器，也就是說在兩類問題上僅比隨機猜測好，而強學(xué)習(xí)器（StrongLearner）則具有任意小的錯誤概率。集成學(xué)習(xí)不是一個單獨的機器學(xué)習(xí)算法，而是一個將多重或多個弱學(xué)習(xí)器組合成一個強學(xué)習(xí)器，從而有效地提升分類效果。一般而言，集成學(xué)習(xí)中的基學(xué)習(xí)器可以是同質(zhì)的“弱學(xué)習(xí)器”，也可以是異質(zhì)的“弱學(xué)習(xí)器”。目前，同質(zhì)弱學(xué)習(xí)器的應(yīng)用最為廣泛，同質(zhì)弱學(xué)習(xí)器中使用最多的模型是CART決策樹和神經(jīng)網(wǎng)絡(luò)。同質(zhì)弱學(xué)習(xí)器按照其間是否存在依賴關(guān)系又可以分為兩類。28.1集成學(xué)習(xí)概述串行集成方法：參與訓(xùn)練的弱學(xué)習(xí)器按照順序執(zhí)行。串行方法的原理是利用弱學(xué)習(xí)器之間的依賴關(guān)系，通過對之前訓(xùn)練中錯誤標(biāo)記的樣本賦值較高的權(quán)重，可以提高整體的預(yù)測效果，其代表算法是提升法（Boosting）。并行集成方法：參與訓(xùn)練的弱學(xué)習(xí)器并行執(zhí)行。并行方法的原理是利用弱學(xué)習(xí)器之間的獨立性，由于弱學(xué)習(xí)器之間不存在強依賴關(guān)系，通過平均可以顯著降低錯誤，其代表算法是投票法（Voting）和裝袋法（Bagging）。38.1集成學(xué)習(xí)概述根據(jù)集成學(xué)習(xí)的用途不同，結(jié)論合成的方法也各不相同。當(dāng)集成學(xué)習(xí)用于分類時，集成的輸出通常由各弱學(xué)習(xí)器的輸出投票產(chǎn)生。通常采用絕對多數(shù)投票法（某分類成為最終結(jié)果，當(dāng)且僅當(dāng)有超過半數(shù)的弱學(xué)習(xí)器輸出結(jié)果為該分類）或相對多數(shù)投票法（某分類成為最終結(jié)果，當(dāng)且僅當(dāng)輸出結(jié)果為該分類的弱學(xué)習(xí)器的數(shù)目最多）。理論分析和大量實驗表明，后者優(yōu)于前者。當(dāng)集成學(xué)習(xí)用于回歸時，集成的輸出通常由各學(xué)習(xí)器的輸出通過簡單平均或加權(quán)平均產(chǎn)生，采用加權(quán)平均可以得到比簡單平均更好的泛化能力。

4投票法（Voting）是集成學(xué)習(xí)里面針對分類問題的一種結(jié)合策略。基本思想是選擇所有機器學(xué)習(xí)算法當(dāng)中輸出最多的那個類。分類的機器學(xué)習(xí)算法輸出有兩種類型，一種是直接輸出類標(biāo)簽，另外一種是輸出類概率。使用前者進行投票叫做硬投票（Majority/HardVoting），使用后者進行分類叫做軟投票（SoftVoting）。例如，在硬投票中，如果三個算法將特定葡萄酒的顏色預(yù)測為“白色”、“白色”和“紅色”，則集成算法將輸出“白色”；在軟投票中，如果算法A以40%的概率預(yù)測對象是一塊巖石，而算法B以80%的概率預(yù)測它是一塊巖石，那么集成算法將預(yù)測該對象是一塊巖石的可能性為(80+40)/2=60%。8.2投票法5

8.2.1投票策略6

8.2.1投票策略7

8.3裝袋法8隨機森林（RandomForest，RF）就是通過裝袋法的思想將多個弱學(xué)習(xí)器組合在一起，其弱學(xué)習(xí)器一般采用CART決策樹。隨機森林的“隨機”體現(xiàn)在兩個方面：一是樣本的隨機選取，即通過有放回采樣構(gòu)造子數(shù)據(jù)集，子數(shù)據(jù)集的樣本數(shù)量和原始數(shù)據(jù)集一致。不同子數(shù)據(jù)集中的樣本可以重復(fù)，同一個子數(shù)據(jù)集中的樣本也可以重復(fù)。這樣在訓(xùn)練模型時，每一棵樹的輸入樣本都不是全部的樣本，使森林中的決策樹不至于產(chǎn)生局部最優(yōu)解。二是特征的隨機選取，即隨機森林中的決策樹的每一個分裂過程并未使用所有特征，而是從所有特征中隨機選取一定的特征，之后在隨機選取的特征中選取最優(yōu)劃分特征。最后，將多棵決策樹的輸出進行整合作為最終輸出。隨機森林既可以用于分類問題，也可以用于回歸問題，生成過程中這兩個隨機性可以確保不會出現(xiàn)過擬合的情況。8.3.1隨機森林算法9

8.3.1隨機森林算法10這里我們還要提到一下極端隨機樹（ExtremelyRandomizedTrees）算法，簡稱ExtraTree。它與隨機森林算法十分相似，主要區(qū)別是隨機森林采用對數(shù)據(jù)集有放回隨機采樣的方式生成多個子訓(xùn)練集，而極端隨機樹使用整個數(shù)據(jù)集作為訓(xùn)練集，但是節(jié)點的劃分特征是隨機選取的。因為分裂是完全隨機的，所以有時可以得到比隨機森林更好的結(jié)果。8.3.2極端隨機樹算法11提升法（Boosting）是一種重要的集成學(xué)習(xí)技術(shù)，能夠?qū)㈩A(yù)測精度僅比隨機猜度略高的弱學(xué)習(xí)器增強為預(yù)測精度高的強學(xué)習(xí)器，這在直接構(gòu)造強學(xué)習(xí)器非常困難的情況下，為學(xué)習(xí)算法的設(shè)計提供了一種有效的新思路和新方法。提升法可以提升任意給定學(xué)習(xí)算法的準(zhǔn)確度，主要思想是通過一些簡單的規(guī)則整合得到一個整體，使得該整體具有的性能比任何一個部分都高。其思想受啟發(fā)于Valiant提出的PAC（ProbablyApproximatelyCorrect）學(xué)習(xí)模型。8.4提升法12在PAC學(xué)習(xí)模型中，能夠在多項式個時間內(nèi)獲得特定要求的正確率即就是一個好的學(xué)習(xí)過程。該模型由統(tǒng)計模式識別、決策理論得到的一些簡單理論并結(jié)合計算復(fù)雜理論的方法而得出的學(xué)習(xí)模型，其中提出了弱學(xué)習(xí)和強學(xué)習(xí)的概念。提升法先從初始訓(xùn)練集訓(xùn)練出一個弱學(xué)習(xí)器，再根據(jù)弱學(xué)習(xí)器的表現(xiàn)對訓(xùn)練樣本分布進行調(diào)整，使得先前弱學(xué)習(xí)器做錯的訓(xùn)練樣本在后續(xù)受到更多關(guān)注，然后基于調(diào)整后的樣本分布來訓(xùn)練下一個弱學(xué)習(xí)器。如此重復(fù)進行，直至弱學(xué)習(xí)器數(shù)目達到指定的值k，最終將這k個弱學(xué)習(xí)器的輸出進行加權(quán)結(jié)合。提升法包含一系列算法，如AdaBoost（AdaptiveBoosting，自適應(yīng)提升算法），GradientBoosting（梯度提升算法）等。提升法中的個體分類器可以是不同類的分類器。8.4提升法13自適應(yīng)提升算法（AdaBoost）中有兩種權(quán)重，一種是樣本的權(quán)重，另一種是弱分類器的權(quán)重。樣本的權(quán)重主要用于弱分類器計算誤差最小的劃分特征，找到之后用這個最小誤差計算出該弱分類器的權(quán)重（發(fā)言權(quán)），分類器權(quán)重越大說明該弱分類器在最終決策時擁有更大的發(fā)言權(quán)。其原理是通過調(diào)整樣本的權(quán)重和弱分類器的權(quán)重，對關(guān)鍵分類特征進行挑選，逐步訓(xùn)練不同的弱分類器，再用適當(dāng)?shù)拈撝颠x擇最佳弱分類器，最后將每次迭代訓(xùn)練選出的最佳弱分類器構(gòu)建為強分類器。因此，每一個弱分類器都是在樣本的不同權(quán)重集上訓(xùn)練獲得的。每個樣本被分類的難易度決定權(quán)重，而分類的難易度是經(jīng)過前面步驟中的分類器的輸出估計得到的。8.4.1自適應(yīng)提升算法算法流程14在自適應(yīng)提升算法中，每訓(xùn)練完一個弱分類器都就會調(diào)整權(quán)重，上一輪訓(xùn)練中被誤分類的樣本的權(quán)重會增加。因此在本輪訓(xùn)練中，由于權(quán)重影響，本輪的弱分類器將更有可能把上一輪的誤分類樣本分對，如果還是沒有分對，那么分錯的樣本的權(quán)重將繼續(xù)增加，下一個弱分類器將更加關(guān)注這個點，盡量將其分對。也就是說，下一個分類器主要關(guān)注上一個分類器沒分對的樣本，因此每個弱分類器都有各自最關(guān)注的點，每個弱分類器都只關(guān)注整個數(shù)據(jù)集的中一部分?jǐn)?shù)據(jù)。但是這也產(chǎn)生了一個問題，就是第n個分類器更可能分對第n-1個分類器沒分對的樣本，卻不能保證以前分類器分對的樣本還能分對。所以必然是所有的弱分類器組合在一起才能發(fā)揮出最好的效果。因此，最終投票表決時，需要根據(jù)弱分類器的權(quán)重來進行加權(quán)投票，權(quán)重大小是根據(jù)弱分類器的分類錯誤率計算得出的，總的規(guī)律就是弱分類器錯誤率越低，其權(quán)重就越高。8.4.1自適應(yīng)提升算法算法流程15

8.4.1自適應(yīng)提升算法算法流程16

8.4.1自適應(yīng)提升算法算法流程17

8.4.1自適應(yīng)提升算法算法流程18

8.4.1自適應(yīng)提升算法算法流程19

8.4.1自適應(yīng)提升算法算法流程20

8.4.1自適應(yīng)提升算法算法流程21

8.4.1自適應(yīng)提升算法算法流程22

8.4.1自適應(yīng)提升算法算法流程23

8.4.1自適應(yīng)提升算法算法流程24

8.4.1自適應(yīng)提升算法算法流程25

8.4.1自適應(yīng)提升算法算法流程26梯度提升（GradientBoosting）算法的基本思想是：串行地生成多個弱學(xué)習(xí)器，每個弱學(xué)習(xí)器的目標(biāo)是擬合先前累加模型的損失函數(shù)的負梯度，使加上該弱學(xué)習(xí)器后的累積模型損失向負梯度的方向減少。因為擬合的是連續(xù)值，所以算法中的弱學(xué)習(xí)器一般是CART決策樹，而不使用分類樹。梯度提升算法還可以被理解為函數(shù)空間上的梯度下降。我們比較熟悉的梯度下降通常是在參數(shù)空間上的梯度下降（如訓(xùn)練神經(jīng)網(wǎng)絡(luò)，每輪迭代中計算當(dāng)前損失關(guān)于參數(shù)的梯度，對參數(shù)進行更新）。而在梯度提升算法中，每輪迭代生成一個弱學(xué)習(xí)器，這個弱學(xué)習(xí)器擬合損失函數(shù)關(guān)于之前累積模型的梯度，然后將這個弱學(xué)習(xí)器加入累積模型中，逐漸降低累積模型的損失。即參數(shù)空間的梯度下降利用梯度信息調(diào)整參數(shù)降低損失，函數(shù)空間的梯度下降利用梯度擬合一個新的函數(shù)降低損失。

8.4.2梯度提升算法27

8.4.2梯度提升算法28

8.4.2梯度提升算法29

8.5

本章小結(jié)本章主要介紹了集成學(xué)習(xí)理論，介紹了投票法、裝袋法和提升法的原理及代碼實現(xiàn)。投票法的過程較為簡單，而裝袋法和提升法的過程則相對復(fù)雜。對比裝袋法和提升法方法可以發(fā)現(xiàn)：裝袋法通過對原數(shù)據(jù)進行有放回的采樣構(gòu)建出多個樣本數(shù)據(jù)集，然后用這些新的數(shù)據(jù)集訓(xùn)練多個分類器。裝袋法的性能依賴于弱學(xué)習(xí)器的穩(wěn)定性，如果弱學(xué)習(xí)器是不穩(wěn)定的，裝袋法有助于減低訓(xùn)練數(shù)據(jù)的隨機擾動導(dǎo)致的誤差，但是如果弱學(xué)習(xí)器是穩(wěn)定的，即對數(shù)據(jù)變化不敏感，那么裝袋法就得不到性能的提升，甚至?xí)档?。提升法是一個選代的過程，通過改變樣本分布，使得弱學(xué)習(xí)器聚焦在那些很難分的樣本上，對那些容易錯分的樣本加強學(xué)習(xí)，增加錯分樣本的權(quán)重，這樣錯分的樣本在下一輪迭代中就有更大的作用

人人文庫> 全部分類> 教育資料 > 課件下載

溫馨提示

1. 本站所有資源如無特殊說明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽，若沒有圖紙預(yù)覽就沒有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 人人文庫網(wǎng)僅提供信息存儲空間，僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理，對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對任何下載內(nèi)容負責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容，請與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

機器學(xué)習(xí)算法與實踐課件第8章集成學(xué)習(xí)

文檔簡介

溫馨提示

最新文檔

評論

機器學(xué)習(xí)算法與實踐 課件 第8章 集成學(xué)習(xí)

文檔簡介

溫馨提示

最新文檔

評論

相關(guān)文檔

機器學(xué)習(xí)算法與實踐課件第8章集成學(xué)習(xí)