機(jī)器學(xué)習(xí)課次29~30-boosting算法_第1頁
機(jī)器學(xué)習(xí)課次29~30-boosting算法_第2頁
機(jī)器學(xué)習(xí)課次29~30-boosting算法_第3頁
機(jī)器學(xué)習(xí)課次29~30-boosting算法_第4頁
機(jī)器學(xué)習(xí)課次29~30-boosting算法_第5頁
已閱讀5頁,還剩16頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

彭輝94031097(QQ)機(jī)器學(xué)習(xí)MachineLearningboosting算法任務(wù)目標(biāo)能力目標(biāo)理解裝袋法、隨機(jī)森林集成學(xué)習(xí)原理理解集成學(xué)習(xí)基本原理理解Boosting集成學(xué)習(xí)原理使用Sklearn進(jìn)行集成學(xué)習(xí)算法應(yīng)用開發(fā)任務(wù)目標(biāo)素質(zhì)目標(biāo)團(tuán)隊協(xié)作學(xué)會學(xué)習(xí)實踐創(chuàng)新Boosting1990年,R.Schapire給出了肯定的答案,通過組合三個弱學(xué)習(xí)器實現(xiàn)了一個強(qiáng)學(xué)習(xí)器,促進(jìn)了提升(Boosting)算法的極大發(fā)展。Boosting簡介BoostingBoosting算法分為如下兩個階段。訓(xùn)練階段。給定一個大訓(xùn)練集X,隨機(jī)地將其劃分為3個子集X={X1,X2,X3}。首先,使用X1訓(xùn)練d1;接著,提取X2并將它作為d1的輸入,將d1錯誤分類的所有實例以及X2中被d1正確分類的一些實例一起作為d2的訓(xùn)練集;然后,提取X3并將它輸入給d1和d2,其中用d1和d2輸出不一致的實例作為d3的訓(xùn)練集。檢驗階段。給定一個實例,首先將其提供給d1和d2,如果二者輸出一致,這就是輸出結(jié)果,否則d3的輸出作為輸出結(jié)果。Boosting的優(yōu)化boosting的缺點:

盡管Boosting非常成功,但是需要一個非常大的訓(xùn)練樣本集,將樣本集一分為三。(很多場合不太現(xiàn)實)1996年,YoavFreund和RobertSchapire提出了提升的一個變種,即自適應(yīng)提升(AdaptiveBoosting,AdaBoost),它重復(fù)使用相同的訓(xùn)練集,而不再要求很大的數(shù)據(jù)集。AdaBoostAdaBoostAdaBoost算法的工作機(jī)制首先,訓(xùn)練集用初始權(quán)重訓(xùn)練出一個弱學(xué)習(xí)器1,根據(jù)弱學(xué)習(xí)的學(xué)習(xí)誤差率表現(xiàn)來更新訓(xùn)練樣本的權(quán)重,使得之前弱學(xué)習(xí)器1學(xué)習(xí)誤差率高的訓(xùn)練樣本點的權(quán)重變高,使得這些誤差率高的點在后面的弱學(xué)習(xí)器2中得到更多的重視。然后,基于權(quán)重調(diào)整后的訓(xùn)練集來訓(xùn)練弱學(xué)習(xí)器2,如此重復(fù)進(jìn)行,直到訓(xùn)練到指定的弱學(xué)習(xí)器數(shù)量。最后,將這些弱學(xué)習(xí)器通過集合策略進(jìn)行整合,得到最終的強(qiáng)學(xué)習(xí)器。AdaBoostAdaBoost算法的工作機(jī)制AdaBoostAdaBoost算法描述

使得被基分類器hm錯誤分類樣本的權(quán)值增大,而正確分類的樣本權(quán)重值變小。Zm規(guī)范化因子

AdaBoostAdaBoost

在AdaBoost中,盡管不同的基學(xué)習(xí)器使用稍有差異的訓(xùn)練集,但是這種差異不像Bagging那樣完全依靠偶然性,而是它前一個基學(xué)習(xí)器誤差的函數(shù)。提升對一個特定問題的實際性能顯然依賴于訓(xùn)練數(shù)據(jù)集和基學(xué)習(xí)器。為此,需要有足夠的訓(xùn)練數(shù)據(jù),并且學(xué)習(xí)器應(yīng)當(dāng)是弱的但又不是太弱,而且提升對噪聲和離群點尤其敏感。AdaBoost特點分析AdaBoost

Sklearn提供的AdaBoost分類器實現(xiàn)了SAMME和SAMME.R算法,原型如下:classsklearn.ensemble.AdaBoostClassifier(base_estimator=None,n_estimators=50,learning_rate=1.0,algorithm=’SAMME.R’,random_state=None)

SAMME和SAMME.R算法的主要參數(shù)base_estimator:對象,默認(rèn)值為決策樹。該基礎(chǔ)分類器必須支持帶樣本權(quán)重的學(xué)習(xí)。n_estimators:整型,默認(rèn)值為50。設(shè)定基分類器數(shù)量的上限值,如果訓(xùn)練集已經(jīng)完全訓(xùn)練好了,算法會提前終止。learning_rate:浮點型,默認(rèn)值為1。用于減少每一步的步長,防止步長太大而跨過極值點。通常在learning_rate和n_estimators之間會有一個折中。algorithm:{‘SAMME.R’,’SAMME’},默認(rèn)值為‘SAMME.R’。GradientBoosting梯度提升(GradientBoosting)是一種用于回歸和分類問題的機(jī)器學(xué)習(xí)方法,生成一個由弱預(yù)測模型(通常是決策樹)組成的集成預(yù)測模型(強(qiáng)學(xué)習(xí)器)。通過迭代選擇一個指向負(fù)梯度方向上的函數(shù)(弱假設(shè)),優(yōu)化函數(shù)空間上的成本函數(shù),擬合一棵決策樹。在回歸問題中,這稱為梯度提升回歸樹GBRT;在分類問題中,這又被稱為提升決策樹GBDT。

GradientBoosting

GradientBoosting

GradientBoostingGradientBoosting

GBDT可用于回歸問題,相對LogisticRegression僅能用于線性回歸,GBDT能用于線性回歸和非線性回歸,GBDT的適用面更廣。GBDT也可用于二分類問題(設(shè)定閾值,大于閾值為正例,反之為負(fù)例)。

Sklearn提供的GBDT的實現(xiàn)類原型如下:

classsklearn.ensemble.GradientBoostingClassifier(loss=‘deviance’,learning_rate=0.1,n_estimators=100,subsample=1.0,criterion=‘friedman_mse’,min_samples_split=2,min_samples_leaf=1,min_weight_fraction_leaf=0.0,max_depth=3,min_impurity_decrease=0.0,min_impurity_split=None,init=None,random_state=None,max_features=None,verbose=0,max_leaf_nodes=None,warm_sta

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論