版權說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權,請進行舉報或認領
文檔簡介
集成學習朱輝星2016年11月集成學習朱輝星18.1(1)個體與集成集成學習(ensemblelearning):通過構建并結合多個學習器來完成學習任務。(也被成為:多分類器系統(tǒng)、基于委員會的學習)一般結構:先產(chǎn)生一組“個體學習器”(individuallearner),再用某種策略將他們結合起來。個體學習器通常由一個現(xiàn)有的學習算法從訓練數(shù)據(jù)產(chǎn)生C4.5決策樹算法、BP神經(jīng)網(wǎng)絡算法8.1(1)個體與集成集成學習(ensemblelearn28.1(2)同質集成中只包含同種類型的個體學習器個體學習器:基學習器對應算法:基學習算法異質集成中包含不同類型的個體學習器個體學習器:由不同學習算法生成個體學習器:組件學習器(或直接稱個體學習器)8.1(2)同質集成中只包含同種類型的個體學習器個體學習器:38.1(3)集成學習優(yōu)點:通過將多個學習器進行結合,??色@得比單一學習器顯著優(yōu)越的泛化性能。這對“弱學習器”(weaklearner)尤為明顯,因此集成學習的很多理論研究都是針對弱學習器進行的,而基學習器有時也被直接成為弱學習器雖然從理論上來說使用弱學習器集成足以獲得好的性能,但在實踐中出于種種考慮,希望使用較少的個體學習器,人們常常會使用比較強的學習器。8.1(3)集成學習優(yōu)點:通過將多個學習器進行結合,??色@得4如何能獲得比最好的單一學習器更好的性能呢?8.1(4)在二分類任務中:三個分類器在三個測試樣本上的表現(xiàn)如下:分類器測試例1測試例2測試例3h1√√×h2×√√h3√×√集成√√√分類器測試例1測試例2測試例3h1√√×h2√√×h3√√×集成√√×分類器測試例1測試例2測試例3h1√××h2×√×h3××√集成×××a.集成提升性能b.集成不起作用c.集成起負作用集成學習的結果通過投票法產(chǎn)生如何能獲得比最好的單一學習器更好的性能呢?8.1(4)分類器58.1(5)a.每個分類器都只有66.6%的精度,但集成學習卻達到了100%;b.三個分類器沒有差別,集成后性能沒有提高;c.每個分類器精度只有33.3%,集成學習結果變得更糟;以上例子顯示要獲得好的集成,個體學習器應“好而不同”,即個體學習器要有一定的“準確性”,即學習器不能太壞,并且要有“多樣性”。即學習器間具有差異性。個體學習器至少不差于弱學習器8.1(5)a.每個分類器都只有66.6%的精度,但集成學習68.1(6)考慮二分類問題:和真實函數(shù),假定基分類器的錯誤率為,即對每個基分類器有假設集成通過簡單投票法集合T個基分類器,若超過半數(shù)的基分類器正確,則集成分類就正確⑴⑵8.1(6)考慮二分類問題:和真實函78.1(7)假設基分類器的錯誤率相互獨立,則由Hoeffding不等式可知,集成的錯誤率為⑶上式顯示出:隨著集成中個體分類器數(shù)目T的增大,集成的錯誤率將指數(shù)級下降,最終趨向于零。8.1(7)假設基分類器的錯誤率相互獨立,則由Hoeffdi88.1(8)然而我們必須注意到,上面的分析有一個關鍵假設:及學習器的誤差相互獨立。在現(xiàn)實任務中,個體學習器是為解決同一個問題訓練出來的,他們顯然不可能相互獨立。事實上,個體學習器的“準確性”和“多樣性”本身就存在沖突。一般的,準確性提高之后,要增加多樣性就需犧牲正確性。集成研究核心如何產(chǎn)生“好而不同”的個體學習器8.1(8)然而我們必須注意到,上面的分析有一個關鍵假設:及98.1(9)根據(jù)個體學習器的生成方式,集成學習方法可分為兩大類:①個體學習器間存在強依賴關系、必須串行生成的序列化方法②個體學習器間不存在強依賴關系、可同時生成的并行化方法代表:Boosting代表:Bagging和“隨機森林”
(Randomforest)8.1(9)根據(jù)個體學習器的生成方式,集成學習方法可分為兩大108.2(1)Boosting(助推、推進)Boosting是一族可將弱學習器提升為強學習器的算法,這族算法的工作機制:先從初始訓練集訓練出一個基學習器再根據(jù)基學習器的表現(xiàn)對訓練樣本分布進行調整,使得先前基學習器做錯的訓練樣本在后續(xù)受到更多關注然后基于調整后的樣本分布來訓練下一個基學習器如此重復進行,直至基學習器數(shù)目達到事先指定的值T,最終將這T個基學習器進行加權結合。8.2(1)Boosting(助推、推進)Boosting是118.2(2)adaboostBoosting族算法最著名的代表:AdaBoost其中是真實函數(shù)基于“加性模型”,即基學習器的線性組合來最小化指數(shù)損失函數(shù)(exponentiallossfunction)⑷⑸8.2(2)adaboostBoosting族算法最著名的代128.2(3)若H(x)能令指數(shù)函數(shù)最小化,則考慮(5)式對H(x)的偏導令(6)式為零可解得:⑹⑺8.2(3)若H(x)能令指數(shù)函數(shù)最小化,則考慮(5)式對H138.2(4)因此,有⑻8.2(4)因此,有⑻148.2(5)這意味著sign(H(x))達到了貝葉斯最優(yōu)錯誤率。換言之,若指數(shù)損失函數(shù)最小化,則分類錯誤率也將最小化.在Adaboost算法中,第一個基分類器h1是通過直接將基學習算法用于初始數(shù)據(jù)分布而得;此后迭代地生成和,當基分類器基于分布產(chǎn)生后,該分類器的權重應使得最小化指數(shù)損失函數(shù):8.2(5)這意味著sign(H(x))達到了貝葉斯最優(yōu)錯誤158.2(6)
其中:⑼8.2(6)其中:⑼168.2(7)考慮指數(shù)損失函數(shù)的倒數(shù):令(10)為零可解得:這恰是(Ⅰ)中算法分類器權重更新公式。⑽⑾8.2(7)考慮指數(shù)損失函數(shù)的倒數(shù):⑽⑾178.2(8)AdaBoost算法在獲得之后樣本分布將進行調整,使下一輪的基學習器能糾正的一些錯誤。理想的能糾正的全部錯誤,即最小化⑿8.2(8)AdaBoost算法在獲得之后樣188.2(9)注意到,式(12)可使用的泰勒展式近似為于是,理想的基學習器⒀8.2(9)注意到198.2(10)注意到是一個常數(shù),令
表示一個分布⒁⒂8.2(10)⒁⒂208.2(11)則根據(jù)數(shù)學期望的定義,這等價于令由f(x),h(x){-1,+1},有⒃⒄8.2(11)則根據(jù)數(shù)學期望的定義,這等價于令⒃⒄218.2(12)
這恰是(Ⅰ)中算法第7行的樣本分布更新公式由(15)式得⒆8.2(12)由(15)式得⒆228.2(13)
輸入:訓練集D={(x1,y1),(x2,y2),…,(xm,ym)};基學習算法;訓練輪數(shù)T過程:于是,由式(11)(19),我們從基于迭代式優(yōu)化指數(shù)損失函數(shù)的角度推導出了算法:endfor輸出:Ⅰ1:2:3:4:5:6:7:8:8.2(13)輸入:訓練集D={(x1,y1),(x2,y238.2(14)Boosting算法要求基學習器能對特定的數(shù)據(jù)分布進行學習,這可通過“重賦權法”(re-weighting)實施:對于無法接受帶權樣本的基學習算法,則可通過“重采樣法”(re-sampling)來處理:在訓練過程的每輪中,根據(jù)樣本分布為每個訓練樣本重新賦予一個權重在每一輪學習中,根據(jù)樣本分布對訓練集重新進行采樣,再用重采樣而得的樣本集對學習器進行訓練一般而言,這兩種做法沒有顯著的優(yōu)劣差異,需注意的是,Boosting算法在訓練的每一輪都要檢查當前生成的基學習器是否滿足基本條件(第5行),一旦條件不滿足,則當前基學習器即被拋棄,且學習過程停止。在此時,初始設置的學習輪數(shù)也許遠未達到,可能導致最終集成只包含很少的基學習器而性能不佳。8.2(14)Boosting算法要求基學習器能對特定的數(shù)據(jù)248.2(15)
若采用“重采樣法”則可獲得“重啟動”機會一避免訓練過程過早停止,即在拋棄不滿足條件的當前基學習器之后,可根據(jù)當前分布重新對訓練樣本進行采樣,再基于新的采樣結果重新訓練出基學習器,從而使得學習過程可以持續(xù)預設的T輪完成。3個基學習器5個基學習器11個基學習器+好瓜—壞瓜Y含糖率X密度集成:紅色基學習器:黑色Boosting能基于泛化性能相當弱的學習器構建出很強的集成8.2(15)若采用“重采樣法”則可獲得“重啟動”機會一避258.3(1)bagging與隨機森林由之前可知,欲得到泛化性能強的集成,集成中的個體學習器應該盡可能相互獨立,雖然“獨立”在現(xiàn)實中無法做到,但可以設法使基學習器盡可能具有較大的差異。這樣。由于訓練數(shù)據(jù)不同,我們獲得基學習器可望具有比較大的差異,然而,我們同時還希望個體學習器不能太差。若每個子集完全不同,則每個基學習器只用到一小部分訓練數(shù)據(jù),甚至不足以進行有效學習,無法保證產(chǎn)生好的學習器,所以,我們考慮使用相互有交疊的采樣子集。給定一個訓練集,對訓練樣本進行采樣,產(chǎn)生出若干不同的子集,再從每個數(shù)據(jù)子集中訓練出一個基學習器8.3(1)bagging與隨機森林由之前可知,欲得到泛化性268.3.1(1)baggingBagging是并行式集成學習方法最著名的代表?;谧灾蓸臃?。初始訓練集中約有63.2%的樣本出現(xiàn)在采樣集中。這樣,我們可采樣T個含m個訓練樣本的采樣集,然后基于每個采樣集訓練出一個基學習器,再將這些基學習器進行結合。給定包含m個樣本的數(shù)據(jù)集:①先隨機取出一個樣本放入采樣集中;②再把該樣本放回初始數(shù)據(jù)集,使得下次采樣時該樣本仍有可能被選中;③經(jīng)過m次隨機采樣操作,得到含m個樣本的采樣集,初始訓練集中有的樣本在采樣集里多次出現(xiàn),有的從未出現(xiàn);Bagging的基本流程8.3.1(1)baggingBagging是并行式集成學習278.3.1(2)在對預測輸出時,Bagging通常對分類任務使用簡單投票法,對回歸任務使用簡單平均法。若預測時出現(xiàn)兩個類收到同樣的票數(shù),則隨機選擇一個,也可進一步考察學習器投票的置信度來確定最終輸出。輸入:訓練集D={(x1,y1),(x2,y2),…,(xm,ym)};
基學習算法&
訓練輪數(shù)T過程:endfor輸出:Ⅱ1:2:3:是自助采樣產(chǎn)生的樣本分布8.3.1(2)在對預測輸出時,Bagging通常對分類任務288.3.1(3)對比:Adaboost只適用于二分類任務;Bagging能不經(jīng)修改地用于多分類、回歸任務。自助采樣過程給Bagging帶來了另一個優(yōu)點:由于每個基學習器只使用了初始訓練集中約63.2%的樣本,剩下的約36.8%的樣本可用作驗證集來對泛化性能進行“包外估計”(out-of-bagestimate).為此需記錄每個基學習器所使用的訓練樣本。令表示實際使用的訓練樣本集,令表示對樣本X的包外預測,8.3.1(3)對比:Adaboost只適用于二分類任務;X298.3.1(4)即僅考慮那些未使用x訓練的基學習器在x上的預測,有則Bagging泛化誤差的包外估計為:⒇(21)8.3.1(4)即僅考慮那些未使用x訓練的基學習器在x上的預308.3.1(5)包外樣本還有許多用途:①當基學習器是決策樹時,可使用包外樣本來輔助剪枝,或用于估計決策樹中各結點的后驗概率以輔助對零訓練樣本結點的處理;②當基學習器是神經(jīng)網(wǎng)絡時,可使用包外樣本來輔助早期停止以減小過擬合風險;8.3.1(5)包外樣本還有許多用途:①當基學習器是決策樹時318.3.1(6)從偏差——方差分解角度看:Boosting主要關注降低偏差,因此其能基于泛化性能相當弱的學習器構建出很強的集成。Bagging主要關注于降低方差,因此它在不剪枝決策樹,神經(jīng)網(wǎng)絡等易受樣本擾動的學習器上效用更為明顯。
西瓜數(shù)據(jù)集3.0上Bagging集成規(guī)模為3,5,11時,集成與基學習器分類邊界3個基學習器5個基學習器11個基學習器8.3.1(6)從偏差——方差分解角度看:Boosting主328.3.2(1)隨機森林(RF)隨機森林是Bagging的一個擴展變體。RF在以決策樹為基學習器構建Bagging集成的基礎上,進一步在決策樹的訓練過程中引入了隨機屬性選擇。傳統(tǒng)決策樹在選擇劃分屬性時在當前結點的屬性集合(假定有d個屬性)中選擇一個最優(yōu)屬性;而在RF中,對基決策樹的每個結點,先從該結點的屬性集合中隨機選擇一個包含k個屬性的子集,然后再從這個子集中選擇一個最優(yōu)屬性用于劃分。這里的參數(shù)k控制了隨機性的引入程度:若令k=d,則基決策樹的構建與傳統(tǒng)決策樹相同,若令k=1.則是隨機選擇一個屬性用于劃分。一般情況下,推薦值8.3.2(1)隨機森林(RF)隨機森林是Bagging的一338.3.2(2
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經(jīng)權益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 生物實驗攪拌機租賃合同
- 質量監(jiān)控管理制度的秘訣
- 電商運營兼職人員錄用合同
- 海上石油鉆探海域租賃合同
- 安防監(jiān)控勞務施工協(xié)議
- 幼兒園內(nèi)環(huán)?;顒訁f(xié)議
- 聲學隔音涂料施工合同
- 網(wǎng)絡代理合同范本
- 設備拆除合同范本
- 證券投資木門安裝協(xié)議
- 2024年采礦權轉讓合同范本
- 雙手向前投擲實心球 課件
- 第六章 回歸分析課件
- 醫(yī)務人員職業(yè)暴露預防及處理課件(完整版)
- 期中階段性練習(一~四單元)(試題)-2024-2025學年五年級上冊數(shù)學蘇教版
- 醫(yī)療設備供貨安裝調試培訓、售后組織方案
- 朝鮮半島局勢演變
- 2024年云南德宏州州級事業(yè)單位選調工作人員歷年高頻難、易錯點500題模擬試題附帶答案詳解
- 2024年秋新魯科版三年級上冊英語課件 Unit 6 lesson 1
- 英語國家概況-Chapter10-government解析
- 2024年浙江省中考英語試題卷(含答案)
評論
0/150
提交評論