GBDT算法及其應(yīng)用-課件_第1頁
GBDT算法及其應(yīng)用-課件_第2頁
GBDT算法及其應(yīng)用-課件_第3頁
GBDT算法及其應(yīng)用-課件_第4頁
GBDT算法及其應(yīng)用-課件_第5頁
已閱讀5頁,還剩18頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

GradientBoostingDecisionTree AndItsApplication班級:**學(xué)生:**學(xué)號:**GradientBoostingDecisionTre報告大綱第一部分:引言(概念介紹)

決策樹 boosting方法

損失函數(shù)

GBDT定義

第二部分:GBDT算法原理

加法模型

前向分步算法

提升樹算法

梯度提升樹算法

Regularization第三部分:GBDT應(yīng)用

應(yīng)用范圍

實例:CTR預(yù)估 GBDT特征轉(zhuǎn)換 LR+GBDT第四部分:總結(jié)報告大綱第一部分:引言(概念介紹)第一部分:概念介紹決策樹boost方法損失函數(shù)GBDT定義

第一部分:概念介紹決策樹第一部分:概念介紹決策樹:是將空間用超平面進行劃分的一種方法分類樹回歸樹單決策樹時間復(fù)雜度較低,模型容易展示,但容易over-fitting決策樹的boost方法:是一個迭代的過程,每一次新的訓(xùn)練都是為了改進上一次的結(jié)果.傳統(tǒng)Boost:對正確、錯誤的樣本進行加權(quán),每一步結(jié)束后,增加分錯的點的權(quán)重,減少分對的點的權(quán)重。GB:梯度迭代GradientBoosting,每一次建立模型是在之前建立的模型損失函數(shù)的梯度下降方向第一部分:概念介紹決策樹:是將空間用超平面進行劃分的一種方法第一部分:概念介紹

損失函數(shù)(lossfunction):描述的是模型的不靠譜程度,損失函數(shù)越大,則說明模型越容易出錯。對于不同的Lossfunction,其梯度有不同的表達式:第一部分:概念介紹損失函數(shù)(lossfunction):第一部分:概念介紹GBDT(GradientBoostingDecisionTree):是一種迭代的決策樹算法,該算法由多棵決策樹組成,所有樹的結(jié)論累加起來做最終結(jié)果。GBDT這個算法還有一些其他的名字,MART(MultipleAdditiveRegressionTree),GBRT(GradientBoostRegressionTree),TreeNet,Treelink等。第一部分:概念介紹GBDT(GradientBoostin第二部分:GBDT算法原理加法模型前向分步算法提升樹算法梯度提升樹算法Regularization

第二部分:GBDT算法原理第二部分:GBDT算法原理提升樹利用加法模型與前向分布算法實現(xiàn)學(xué)習(xí)的優(yōu)化過程。第二部分:GBDT算法原理提升樹利用加法模型與前向分布算法實第二部分:GBDT算法原理前向分布算法第二部分:GBDT算法原理前向分布算法第二部分:GBDT算法原理對于決策樹,可以表示為:其中參數(shù)表示樹的區(qū)域劃分和各區(qū)域上的常數(shù)回歸問題提升樹使用以下前向分步算法所以,對于回歸問題的提升樹算法,

只需簡單擬合當(dāng)前模型的殘差。

第二部分:GBDT算法原理對于決策樹,可以表示為:第二部分:GBDT算法原理

第二部分:GBDT算法原理第二部分:GBDT算法原理當(dāng)損失函數(shù)是平方損失和指數(shù)損失函數(shù)時,每一步優(yōu)化是簡單的,但對一般損失函數(shù)而言,并不簡單。Freidman提出了GradientBoosting算法,利用最速下降法的近似方法,其關(guān)鍵是利用損失函數(shù)的負梯度在當(dāng)前模型的值

作為回歸問題提升樹算法中的殘差的近似值,擬合一個回歸樹。StochasticGradientBoosting

當(dāng)N很大的時候,非常耗費時間,這時我們可以從中隨機選取一些數(shù)據(jù)來擬合。

第二部分:GBDT算法原理當(dāng)損失函數(shù)是平方損失和指數(shù)損失函數(shù)第二部分:算法原理第二部分:算法原理第二部分:GBDT算法原理RegularizationcrossvalidationShrinkage參數(shù)v(0<v<1)可以認為是boosting方法的學(xué)習(xí)速率。如果使用很小的v,要達到相當(dāng)?shù)挠?xùn)練誤差,就需要使用較大的M。反之亦然。在通常情況下,較小的v在獨立測試集上的performance更加好,但是這時需要較大的M,比較耗時。Subsampling使用前面提到的stochasticgradientboosting不僅減少了訓(xùn)練時間,同樣可以起到bagging的效果,因為每次隨機抽樣減小了overfitting的機會。第二部分:GBDT算法原理Regularization第三部分:GBDT應(yīng)用

應(yīng)用范圍

實例:CTR預(yù)估 LRGBDT特征轉(zhuǎn)換 LR+GBDT

第三部分:GBDT應(yīng)用應(yīng)用范圍第三部分:GBDT應(yīng)用應(yīng)用范圍GBDT幾乎可用于所有回歸問題(線性/非線性)亦可用于二分類問題(設(shè)定閾值,大于閾值為正例,反之為負例);不太適合做多分類問題;排序問題;常用于各大數(shù)據(jù)挖掘競賽(模型融合);廣告推薦第三部分:GBDT應(yīng)用應(yīng)用范圍第三部分:GBDT應(yīng)用CTR預(yù)估:廣告點擊率(Click-ThroughRatePrediction)CTR預(yù)估中用的最多的模型是LR(LogisticRegression),LR是廣義線性模型,與傳統(tǒng)線性模型相比,LR使用了Logit變換將函數(shù)值映射到0~1區(qū)間,映射后的函數(shù)值就是CTR的預(yù)估值。LR,邏輯回歸模型,這種線性模型很容易并行化,處理上億條訓(xùn)練樣本不是問題,但線性模型學(xué)習(xí)能力有限,需要大量特征工程預(yù)先分析出有效的特征、特征組合,從而去間接增強LR的非線性學(xué)習(xí)能力。第三部分:GBDT應(yīng)用CTR預(yù)估:廣告點擊率(Click-T第三部分:GBDT應(yīng)用LR模型中的特征組合很關(guān)鍵,但又無法直接通過特征笛卡爾積解決,只能依靠人工經(jīng)驗,耗時耗力同時并不一定會帶來效果提升。如何自動發(fā)現(xiàn)有效的特征、特征組合,彌補人工經(jīng)驗不足,縮短LR特征實驗周期,是亟需解決的問題Facebook2014年的文章介紹了通過GBDT(GradientBoostDecisionTree)解決LR的特征組合問題,隨后Kaggle競賽也有實踐此思路GDBT+FM,GBDT與LR融合開始引起了業(yè)界關(guān)注第三部分:GBDT應(yīng)用LR模型中的特征組合很關(guān)鍵,但又無法直第三部分:GBDT應(yīng)用GBDT+LRGBDT的思想使其具有天然優(yōu)勢,可以發(fā)現(xiàn)多種有區(qū)分性的特征以及特征組合,決策樹的路徑可以直接作為LR輸入特征使用,省去了人工尋找特征、特征組合的步驟。第三部分:GBDT應(yīng)用GBDT+LR第三部分:GBDT應(yīng)用由于樹的每條路徑,是通過最小化均方差等方法最終分割出來的有區(qū)分性路徑,根據(jù)該路徑得到的特征、特征組合都相對有區(qū)分性,效果理論上不會亞于人工經(jīng)驗的處理方式。第三部分:GBDT應(yīng)用第三部分:GBDT應(yīng)用實驗Kaggle比賽:DisplayAdvertisingChallenge詳細介紹:實驗過程:(比賽第一名:GBDT+FM)參考:(Xgboost:/xgboost)實驗結(jié)果:尚未完成,報告加上第三部分:GBDT應(yīng)用實驗第四部分:總結(jié)總結(jié)展望第四部分:總結(jié)

References《統(tǒng)計學(xué)習(xí)方法》FriedmanJH.Greedyfunctionapproximation:agradientboostingmachine[J].Annalsofstatistics,2001:1189-1232.FriedmanJH.Stochasticgradientboosting[J].ComputationalStatistics&DataAnalysis,2002,38(4):367-378.HeX,PanJ,JinO,etal.PracticalLessonsfromPredictingClicksonAdsatFacebook[C]//EighthInternationalWorkshoponDataMiningforOnlineAdvertising.ACM,2014:1-9.YuanTT,ChenZ,MathiesonM.PredictingeBaylistingconversion[C]//Proceedingsofthe34thinternationalACMSIGIRconferenceonResearchanddevelopmentinInformationRetrieval.ACM,2011:1335-1336.TyreeS,WeinbergerKQ,Agrawal

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論