機(jī)器學(xué)習(xí)模型的可解釋性算法的概念及其重要意義_第1頁(yè)
機(jī)器學(xué)習(xí)模型的可解釋性算法的概念及其重要意義_第2頁(yè)
機(jī)器學(xué)習(xí)模型的可解釋性算法的概念及其重要意義_第3頁(yè)
機(jī)器學(xué)習(xí)模型的可解釋性算法的概念及其重要意義_第4頁(yè)
機(jī)器學(xué)習(xí)模型的可解釋性算法的概念及其重要意義_第5頁(yè)
已閱讀5頁(yè),還剩2頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、 機(jī)器學(xué)習(xí)模型的可解釋性算法的概念及其重要意義目前很多機(jī)器學(xué)習(xí)模型可以做出非常好的預(yù)測(cè),但是它們并不能很好地解釋他們是如何進(jìn)行預(yù)測(cè)的,很多數(shù)據(jù)科學(xué)家都很難知曉為什么該算法會(huì)得到這樣的預(yù)測(cè)結(jié)果。這是非常致命的,因?yàn)槿绻覀儫o(wú)法知道某個(gè)算法是如何進(jìn)行預(yù)測(cè),那么我們將很難將其前一道其它的問(wèn)題中,很難進(jìn)行算法的debug。本文介紹目前常見的幾種可以提高機(jī)器學(xué)習(xí)模型的可解釋性的技術(shù),包括它們的相對(duì)優(yōu)點(diǎn)和缺點(diǎn)。我們將其分為下面幾種:PartialDependencePlot(PDP);IndividualConditionalExpectation(ICE)PermutedFeatureImportanc

2、eGlobalSurrogateLocalSurrogate(LIME)ShapleyValue(SHAP)六大可解釋性技術(shù)01PartialDependencePlot(PDP)PDP是十幾年之前發(fā)明的,它可以顯示一個(gè)或兩個(gè)特征對(duì)機(jī)器學(xué)習(xí)模型的預(yù)測(cè)結(jié)果的邊際效應(yīng)。它可以幫助研究人員確定當(dāng)大量特征調(diào)整時(shí),模型預(yù)測(cè)會(huì)發(fā)生什么樣的變化。X.-=P43P&01002QOQ0203006ra上面圖中,軸表示特征的值,軸表示預(yù)測(cè)值。陰影區(qū)域中的實(shí)線顯示了平均預(yù)測(cè)如何隨著值的變化而變化。PDP能很直觀地顯示平均邊際效應(yīng),因此可能會(huì)隱藏異質(zhì)效應(yīng)。例如,一個(gè)特征可能與一半數(shù)據(jù)的預(yù)測(cè)正相關(guān),與另一半數(shù)據(jù)負(fù)相關(guān)。

3、那么PDP圖將只是一條水平線。02IndividualConditionalExpectation(ICE)ICE和PDP非常相似,但和PDP不同之處在于,PDP繪制的是平均情況,但是ICE會(huì)顯示每個(gè)實(shí)例的情況。ICE可以幫助我們解釋一個(gè)特定的特征改變時(shí),模型的預(yù)測(cè)會(huì)怎么變化。ICEtmodel.XQDD5A-CL06如上圖所示,與PDP不同,ICE曲線可以揭示異質(zhì)關(guān)系。但其最大的問(wèn)題在于:它不能像PDP那樣容易看到平均效果,所以可以考慮將二者結(jié)合起來(lái)一起使用。03PermutedFeatureImportancePermutedFeatureImportance的特征重要性是通過(guò)特征值打亂后

4、模型預(yù)測(cè)誤差的變化得到的。換句話說(shuō),PermutedFeatureImportance有助于定義模型中的特征對(duì)最終預(yù)測(cè)做出貢獻(xiàn)的大小。Feature_ImportaritefmodeLX.yFarlur|irparunos-VZIF3fo-QjG04-04)2XOO口畑CKO4Cig0-00如上圖所示,特征f2在特征的最上面,對(duì)模型的誤差影響是最大的,fl在shuffle之后對(duì)模型卻幾乎沒(méi)什么影響,生息的特征則對(duì)于模型是負(fù)面的貢獻(xiàn)。04GlobalSurrogateGlobalSurrogate方法采用不同的方法。它通過(guò)訓(xùn)練一個(gè)可解釋的模型來(lái)近似黑盒模型的預(yù)測(cè)。首先,我們使用經(jīng)過(guò)訓(xùn)練的黑盒模型

5、對(duì)數(shù)據(jù)集進(jìn)行預(yù)測(cè);然后我們?cè)谠摂?shù)據(jù)集和預(yù)測(cè)上訓(xùn)練可解釋的模型。訓(xùn)練好的可解釋模型可以近似原始模型,我們需要做的就是解釋該模型。注:代理模型可以是任何可解釋的模型:線性模型、決策樹、人類定義的規(guī)則等。Prediction使用可解釋的模型來(lái)近似黑盒模型會(huì)引入額外的誤差,但額外的誤差可以通過(guò)R平方來(lái)衡量。由于代理模型僅根據(jù)黑盒模型的預(yù)測(cè)而不是真實(shí)結(jié)果進(jìn)行訓(xùn)練,因此全局代理模型只能解釋黑盒模型,而不能解釋數(shù)據(jù)。05LocalSurrogate(LIME)LIME(LocalInterpretableModel-agnosticExplanations)和globalsurrogate是不同的,因?yàn)樗?/p>

6、嘗試解釋整個(gè)模型。相反,它訓(xùn)練可解釋的模型來(lái)近似單個(gè)預(yù)測(cè)。LIME試圖了解當(dāng)我們擾亂數(shù)據(jù)樣本時(shí)預(yù)測(cè)是如何變化的。上面左邊的圖像被分成可解釋的部分。然后,LIME通過(guò)“關(guān)閉”一些可解釋的組件(在這種情況下,使它們變灰)來(lái)生成擾動(dòng)實(shí)例的數(shù)據(jù)集。對(duì)于每個(gè)擾動(dòng)實(shí)例,可以使用經(jīng)過(guò)訓(xùn)練的模型來(lái)獲取圖像中存在樹蛙的概率,然后在該數(shù)據(jù)集上學(xué)習(xí)局部加權(quán)線性模型。最后,使用具有最高正向權(quán)重的成分來(lái)作為解釋。06ShapleyValue(SHAP)ShapleyValue的概念來(lái)自博弈論。我們可以通過(guò)假設(shè)實(shí)例的每個(gè)特征值是游戲中的“玩家”來(lái)解釋預(yù)測(cè)。每個(gè)玩家的貢獻(xiàn)是通過(guò)在其余玩家的所有子集中添加和刪除玩家來(lái)衡量的。一名球員的ShapleyValue是其所有貢獻(xiàn)的加權(quán)總和。Shapley值是可加的,局部準(zhǔn)確的。如果將所有特征的Shapley值加起來(lái),再加上基值,即預(yù)測(cè)平均值,您將得到準(zhǔn)確的預(yù)測(cè)值。這是許多其他方法所沒(méi)有的功能。frodelQHJlpPTRAIIO=3該圖顯示了每個(gè)特征的Shapley值,表示將模型結(jié)果從基礎(chǔ)值推到最終預(yù)

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論