機器學(xué)習(xí)算法與實踐 課件 第8章 集成學(xué)習(xí)_第1頁
機器學(xué)習(xí)算法與實踐 課件 第8章 集成學(xué)習(xí)_第2頁
機器學(xué)習(xí)算法與實踐 課件 第8章 集成學(xué)習(xí)_第3頁
機器學(xué)習(xí)算法與實踐 課件 第8章 集成學(xué)習(xí)_第4頁
機器學(xué)習(xí)算法與實踐 課件 第8章 集成學(xué)習(xí)_第5頁
已閱讀5頁,還剩26頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認(rèn)領(lǐng)

文檔簡介

第八章集成學(xué)習(xí)在監(jiān)督學(xué)習(xí)中,傳統(tǒng)方式是按照選定的學(xué)習(xí)算法,針對某個給定的訓(xùn)練數(shù)據(jù)集訓(xùn)練得到一個特定的學(xué)習(xí)器模型,然后再用它預(yù)測未知的樣本。集成學(xué)習(xí)可以組合多個弱模型以期得到一個更好更全面的強模型,集成學(xué)習(xí)潛在的思想是即便某一個弱學(xué)習(xí)器得到了錯誤的預(yù)測,其他的弱學(xué)習(xí)器也可以將錯誤糾正回來。因此,集成學(xué)習(xí)(EnsembleLearning)是指利用多個獨立的弱學(xué)習(xí)器來進行學(xué)習(xí),組合某輸入樣例在各個弱學(xué)習(xí)器上的輸出,并由它們按照某種策略共同決定輸出。18.1集成學(xué)習(xí)概述集成學(xué)習(xí)是一種功能十分強大的機器學(xué)習(xí)方法,其基本思想是先通過一定的規(guī)則生成固定數(shù)量的弱學(xué)習(xí)器(或稱為基學(xué)習(xí)器、個體學(xué)習(xí)器),再采用某種集成策略將這些弱學(xué)習(xí)器的預(yù)測結(jié)果組合起來,從而形成最終的結(jié)論。弱學(xué)習(xí)器(WeakLearner)是錯誤概率小于1/2的學(xué)習(xí)器,也就是說在兩類問題上僅比隨機猜測好,而強學(xué)習(xí)器(StrongLearner)則具有任意小的錯誤概率。集成學(xué)習(xí)不是一個單獨的機器學(xué)習(xí)算法,而是一個將多重或多個弱學(xué)習(xí)器組合成一個強學(xué)習(xí)器,從而有效地提升分類效果。一般而言,集成學(xué)習(xí)中的基學(xué)習(xí)器可以是同質(zhì)的“弱學(xué)習(xí)器”,也可以是異質(zhì)的“弱學(xué)習(xí)器”。目前,同質(zhì)弱學(xué)習(xí)器的應(yīng)用最為廣泛,同質(zhì)弱學(xué)習(xí)器中使用最多的模型是CART決策樹和神經(jīng)網(wǎng)絡(luò)。同質(zhì)弱學(xué)習(xí)器按照其間是否存在依賴關(guān)系又可以分為兩類。28.1集成學(xué)習(xí)概述串行集成方法:參與訓(xùn)練的弱學(xué)習(xí)器按照順序執(zhí)行。串行方法的原理是利用弱學(xué)習(xí)器之間的依賴關(guān)系,通過對之前訓(xùn)練中錯誤標(biāo)記的樣本賦值較高的權(quán)重,可以提高整體的預(yù)測效果,其代表算法是提升法(Boosting)。并行集成方法:參與訓(xùn)練的弱學(xué)習(xí)器并行執(zhí)行。并行方法的原理是利用弱學(xué)習(xí)器之間的獨立性,由于弱學(xué)習(xí)器之間不存在強依賴關(guān)系,通過平均可以顯著降低錯誤,其代表算法是投票法(Voting)和裝袋法(Bagging)。38.1集成學(xué)習(xí)概述根據(jù)集成學(xué)習(xí)的用途不同,結(jié)論合成的方法也各不相同。當(dāng)集成學(xué)習(xí)用于分類時,集成的輸出通常由各弱學(xué)習(xí)器的輸出投票產(chǎn)生。通常采用絕對多數(shù)投票法(某分類成為最終結(jié)果,當(dāng)且僅當(dāng)有超過半數(shù)的弱學(xué)習(xí)器輸出結(jié)果為該分類)或相對多數(shù)投票法(某分類成為最終結(jié)果,當(dāng)且僅當(dāng)輸出結(jié)果為該分類的弱學(xué)習(xí)器的數(shù)目最多)。理論分析和大量實驗表明,后者優(yōu)于前者。當(dāng)集成學(xué)習(xí)用于回歸時,集成的輸出通常由各學(xué)習(xí)器的輸出通過簡單平均或加權(quán)平均產(chǎn)生,采用加權(quán)平均可以得到比簡單平均更好的泛化能力。

4投票法(Voting)是集成學(xué)習(xí)里面針對分類問題的一種結(jié)合策略。基本思想是選擇所有機器學(xué)習(xí)算法當(dāng)中輸出最多的那個類。分類的機器學(xué)習(xí)算法輸出有兩種類型,一種是直接輸出類標(biāo)簽,另外一種是輸出類概率。使用前者進行投票叫做硬投票(Majority/HardVoting),使用后者進行分類叫做軟投票(SoftVoting)。例如,在硬投票中,如果三個算法將特定葡萄酒的顏色預(yù)測為“白色”、“白色”和“紅色”,則集成算法將輸出“白色”;在軟投票中,如果算法A以40%的概率預(yù)測對象是一塊巖石,而算法B以80%的概率預(yù)測它是一塊巖石,那么集成算法將預(yù)測該對象是一塊巖石的可能性為(80+40)/2=60%。8.2投票法5

8.2.1投票策略6

8.2.1投票策略7

8.3裝袋法8隨機森林(RandomForest,RF)就是通過裝袋法的思想將多個弱學(xué)習(xí)器組合在一起,其弱學(xué)習(xí)器一般采用CART決策樹。隨機森林的“隨機”體現(xiàn)在兩個方面:一是樣本的隨機選取,即通過有放回采樣構(gòu)造子數(shù)據(jù)集,子數(shù)據(jù)集的樣本數(shù)量和原始數(shù)據(jù)集一致。不同子數(shù)據(jù)集中的樣本可以重復(fù),同一個子數(shù)據(jù)集中的樣本也可以重復(fù)。這樣在訓(xùn)練模型時,每一棵樹的輸入樣本都不是全部的樣本,使森林中的決策樹不至于產(chǎn)生局部最優(yōu)解。二是特征的隨機選取,即隨機森林中的決策樹的每一個分裂過程并未使用所有特征,而是從所有特征中隨機選取一定的特征,之后在隨機選取的特征中選取最優(yōu)劃分特征。最后,將多棵決策樹的輸出進行整合作為最終輸出。隨機森林既可以用于分類問題,也可以用于回歸問題,生成過程中這兩個隨機性可以確保不會出現(xiàn)過擬合的情況。8.3.1隨機森林算法9

8.3.1隨機森林算法10這里我們還要提到一下極端隨機樹(ExtremelyRandomizedTrees)算法,簡稱ExtraTree。它與隨機森林算法十分相似,主要區(qū)別是隨機森林采用對數(shù)據(jù)集有放回隨機采樣的方式生成多個子訓(xùn)練集,而極端隨機樹使用整個數(shù)據(jù)集作為訓(xùn)練集,但是節(jié)點的劃分特征是隨機選取的。因為分裂是完全隨機的,所以有時可以得到比隨機森林更好的結(jié)果。8.3.2極端隨機樹算法11提升法(Boosting)是一種重要的集成學(xué)習(xí)技術(shù),能夠?qū)㈩A(yù)測精度僅比隨機猜度略高的弱學(xué)習(xí)器增強為預(yù)測精度高的強學(xué)習(xí)器,這在直接構(gòu)造強學(xué)習(xí)器非常困難的情況下,為學(xué)習(xí)算法的設(shè)計提供了一種有效的新思路和新方法。提升法可以提升任意給定學(xué)習(xí)算法的準(zhǔn)確度,主要思想是通過一些簡單的規(guī)則整合得到一個整體,使得該整體具有的性能比任何一個部分都高。其思想受啟發(fā)于Valiant提出的PAC(ProbablyApproximatelyCorrect)學(xué)習(xí)模型。8.4提升法12在PAC學(xué)習(xí)模型中,能夠在多項式個時間內(nèi)獲得特定要求的正確率即就是一個好的學(xué)習(xí)過程。該模型由統(tǒng)計模式識別、決策理論得到的一些簡單理論并結(jié)合計算復(fù)雜理論的方法而得出的學(xué)習(xí)模型,其中提出了弱學(xué)習(xí)和強學(xué)習(xí)的概念。提升法先從初始訓(xùn)練集訓(xùn)練出一個弱學(xué)習(xí)器,再根據(jù)弱學(xué)習(xí)器的表現(xiàn)對訓(xùn)練樣本分布進行調(diào)整,使得先前弱學(xué)習(xí)器做錯的訓(xùn)練樣本在后續(xù)受到更多關(guān)注,然后基于調(diào)整后的樣本分布來訓(xùn)練下一個弱學(xué)習(xí)器。如此重復(fù)進行,直至弱學(xué)習(xí)器數(shù)目達到指定的值k,最終將這k個弱學(xué)習(xí)器的輸出進行加權(quán)結(jié)合。提升法包含一系列算法,如AdaBoost(AdaptiveBoosting,自適應(yīng)提升算法),GradientBoosting(梯度提升算法)等。提升法中的個體分類器可以是不同類的分類器。8.4提升法13自適應(yīng)提升算法(AdaBoost)中有兩種權(quán)重,一種是樣本的權(quán)重,另一種是弱分類器的權(quán)重。樣本的權(quán)重主要用于弱分類器計算誤差最小的劃分特征,找到之后用這個最小誤差計算出該弱分類器的權(quán)重(發(fā)言權(quán)),分類器權(quán)重越大說明該弱分類器在最終決策時擁有更大的發(fā)言權(quán)。其原理是通過調(diào)整樣本的權(quán)重和弱分類器的權(quán)重,對關(guān)鍵分類特征進行挑選,逐步訓(xùn)練不同的弱分類器,再用適當(dāng)?shù)拈撝颠x擇最佳弱分類器,最后將每次迭代訓(xùn)練選出的最佳弱分類器構(gòu)建為強分類器。因此,每一個弱分類器都是在樣本的不同權(quán)重集上訓(xùn)練獲得的。每個樣本被分類的難易度決定權(quán)重,而分類的難易度是經(jīng)過前面步驟中的分類器的輸出估計得到的。8.4.1自適應(yīng)提升算法算法流程14在自適應(yīng)提升算法中,每訓(xùn)練完一個弱分類器都就會調(diào)整權(quán)重,上一輪訓(xùn)練中被誤分類的樣本的權(quán)重會增加。因此在本輪訓(xùn)練中,由于權(quán)重影響,本輪的弱分類器將更有可能把上一輪的誤分類樣本分對,如果還是沒有分對,那么分錯的樣本的權(quán)重將繼續(xù)增加,下一個弱分類器將更加關(guān)注這個點,盡量將其分對。也就是說,下一個分類器主要關(guān)注上一個分類器沒分對的樣本,因此每個弱分類器都有各自最關(guān)注的點,每個弱分類器都只關(guān)注整個數(shù)據(jù)集的中一部分?jǐn)?shù)據(jù)。但是這也產(chǎn)生了一個問題,就是第n個分類器更可能分對第n-1個分類器沒分對的樣本,卻不能保證以前分類器分對的樣本還能分對。所以必然是所有的弱分類器組合在一起才能發(fā)揮出最好的效果。因此,最終投票表決時,需要根據(jù)弱分類器的權(quán)重來進行加權(quán)投票,權(quán)重大小是根據(jù)弱分類器的分類錯誤率計算得出的,總的規(guī)律就是弱分類器錯誤率越低,其權(quán)重就越高。8.4.1自適應(yīng)提升算法算法流程15

8.4.1自適應(yīng)提升算法算法流程16

8.4.1自適應(yīng)提升算法算法流程17

8.4.1自適應(yīng)提升算法算法流程18

8.4.1自適應(yīng)提升算法算法流程19

8.4.1自適應(yīng)提升算法算法流程20

8.4.1自適應(yīng)提升算法算法流程21

8.4.1自適應(yīng)提升算法算法流程22

8.4.1自適應(yīng)提升算法算法流程23

8.4.1自適應(yīng)提升算法算法流程24

8.4.1自適應(yīng)提升算法算法流程25

8.4.1自適應(yīng)提升算法算法流程26梯度提升(GradientBoosting)算法的基本思想是:串行地生成多個弱學(xué)習(xí)器,每個弱學(xué)習(xí)器的目標(biāo)是擬合先前累加模型的損失函數(shù)的負梯度,使加上該弱學(xué)習(xí)器后的累積模型損失向負梯度的方向減少。因為擬合的是連續(xù)值,所以算法中的弱學(xué)習(xí)器一般是CART決策樹,而不使用分類樹。梯度提升算法還可以被理解為函數(shù)空間上的梯度下降。我們比較熟悉的梯度下降通常是在參數(shù)空間上的梯度下降(如訓(xùn)練神經(jīng)網(wǎng)絡(luò),每輪迭代中計算當(dāng)前損失關(guān)于參數(shù)的梯度,對參數(shù)進行更新)。而在梯度提升算法中,每輪迭代生成一個弱學(xué)習(xí)器,這個弱學(xué)習(xí)器擬合損失函數(shù)關(guān)于之前累積模型的梯度,然后將這個弱學(xué)習(xí)器加入累積模型中,逐漸降低累積模型的損失。即參數(shù)空間的梯度下降利用梯度信息調(diào)整參數(shù)降低損失,函數(shù)空間的梯度下降利用梯度擬合一個新的函數(shù)降低損失。

8.4.2梯度提升算法27

8.4.2梯度提升算法28

8.4.2梯度提升算法29

8.5

本章小結(jié)本章主要介紹了集成學(xué)習(xí)理論,介紹了投票法、裝袋法和提升法的原理及代碼實現(xiàn)。投票法的過程較為簡單,而裝袋法和提升法的過程則相對復(fù)雜。對比裝袋法和提升法方法可以發(fā)現(xiàn):裝袋法通過對原數(shù)據(jù)進行有放回的采樣構(gòu)建出多個樣本數(shù)據(jù)集,然后用這些新的數(shù)據(jù)集訓(xùn)練多個分類器。裝袋法的性能依賴于弱學(xué)習(xí)器的穩(wěn)定性,如果弱學(xué)習(xí)器是不穩(wěn)定的,裝袋法有助于減低訓(xùn)練數(shù)據(jù)的隨機擾動導(dǎo)致的誤差,但是如果弱學(xué)習(xí)器是穩(wěn)定的,即對數(shù)據(jù)變化不敏感,那么裝袋法就得不到性能的提升,甚至?xí)档?。提升法是一個選代的過程,通過改變樣本分布,使得弱學(xué)習(xí)器聚焦在那些很難分的樣本上,對那些容易錯分的樣本加強學(xué)習(xí),增加錯分樣本的權(quán)重,這樣錯分的樣本在下一輪迭代中就有更大的作用

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論