模型評(píng)估與方法

上傳人：1*** IP屬地：湖北上傳時(shí)間：2022-02-27 格式：PPT 頁(yè)數(shù)：23 大?。?.11MB 積分：30 舉報(bào) 版權(quán)申訴

已閱讀5頁(yè)，還剩18頁(yè)未讀，繼續(xù)免費(fèi)閱讀

版權(quán)說(shuō)明：本文檔由用戶(hù)提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、第2章模型評(píng)估與選擇2.1 經(jīng)驗(yàn)誤差與過(guò)擬合2.2 評(píng)估方法2.3 性能度量2.4 比較檢驗(yàn)2.5 偏差與方差2.1 經(jīng)驗(yàn)誤差與過(guò)擬合經(jīng)驗(yàn)誤差 VS 泛化誤差過(guò)擬合 VS 欠擬合2.2 評(píng)估方法2.2.1、留出法（hold-out）直接將數(shù)據(jù)集D劃分為兩個(gè)互斥的集合。2.2.2交叉驗(yàn)證法（cross validation）將數(shù)據(jù)集D劃分為K個(gè)大小相似的互斥子集，每次用K-1個(gè)子集的并集作為訓(xùn)練集，余下的子集作為測(cè)試集。缺點(diǎn)比較：我們希望評(píng)估的是用D訓(xùn)練的模型。但在留出法和交叉驗(yàn)證法中，由于保留了一部分樣本用于測(cè)試，因此實(shí)際評(píng)估的模型所使用的訓(xùn)練集比D小，這必然會(huì)引入一些因訓(xùn)練樣本規(guī)模不同而導(dǎo)

2、致的估計(jì)偏差。2.2.3 自助法 “自助法”是針對(duì)上述缺點(diǎn)的一個(gè)比較好的解決方案，它直接以自助采樣法為基礎(chǔ)。給定包含m個(gè)樣本的數(shù)據(jù)集D，我們對(duì)它進(jìn)行采樣產(chǎn)生數(shù)據(jù)集D：每次隨機(jī)從D中挑選一個(gè)樣本，將其拷貝放入D，然后再將該樣本放回初始數(shù)據(jù)集D中，使得該樣本在下次采樣時(shí)仍有可能被采到；這個(gè)過(guò)程重復(fù)執(zhí)行m次后，我們就得到了包含m個(gè)樣本的數(shù)據(jù)集D，這就是自助采樣的結(jié)果。于是我們可將D用作訓(xùn)練集，DD用作測(cè)試集；這樣，實(shí)際評(píng)估的模型與期望評(píng)估的模型都使用m個(gè)訓(xùn)練樣本，而我們?nèi)杂袛?shù)據(jù)總量約1/3的、沒(méi)在訓(xùn)練集中出現(xiàn)的樣本用于測(cè)試。2.2.4 調(diào)參與最終模型現(xiàn)實(shí)中常見(jiàn)的做法，是對(duì)每個(gè)參數(shù)選擇一個(gè)范圍和變化

3、步長(zhǎng)，例如在0,0.2范圍內(nèi)以0.05為步長(zhǎng)，則實(shí)際要評(píng)估的候選參數(shù)值是5個(gè)，最終從這5個(gè)值中產(chǎn)生選定值。2.3 性能度量衡量模型泛化能力的評(píng)價(jià)標(biāo)準(zhǔn)2.3.1 錯(cuò)誤率與精度錯(cuò)誤率是分類(lèi)錯(cuò)誤的樣本數(shù)占樣本總數(shù)的比例精度是分類(lèi)正確的樣本數(shù)占樣本總數(shù)的比例真實(shí)情況真實(shí)情況預(yù)測(cè)結(jié)果預(yù)測(cè)結(jié)果正例反例正例TP（真正例）FN（假反例）反例FP（假正例）TN（真反例）“平衡點(diǎn)”（Break-Event Point，簡(jiǎn)稱(chēng)BEP）,就是查準(zhǔn)率與查全率時(shí)的取值。2.3.3 ROC和AUC 根根據(jù)實(shí)值或概率預(yù)測(cè)結(jié)果，我們可以將測(cè)試樣本進(jìn)行排序據(jù)實(shí)值或概率預(yù)測(cè)結(jié)果，我們可以將測(cè)試樣本進(jìn)行排序，“最可能”是正例的排在前面

4、“最不可能”是正例的排在最后面。分類(lèi)過(guò)程相當(dāng)于在這個(gè)排序中以某個(gè)“截?cái)帱c(diǎn)”將樣本分為兩個(gè)部分，前一部分判做正例，后一部分則判作反例。在不同的應(yīng)用任務(wù)中，我們可根據(jù)任務(wù)需求來(lái)采用不同的截?cái)帱c(diǎn)。排序排序本身質(zhì)量的好壞本身質(zhì)量的好壞，體現(xiàn)了綜合考慮學(xué)習(xí)器在不同任務(wù)下的“期望泛化性能”的好壞，或者說(shuō)“一般情況下”泛化性能的好壞。ROC曲線(xiàn)則是從排序本身質(zhì)量的好壞的排序本身質(zhì)量的好壞的角度角度來(lái)研究學(xué)習(xí)器泛化性能。ROC全名“受試者工作特征”曲線(xiàn)，以“真正例率”為縱軸，以“假正例率”為橫軸。真正例率真正例率TPR：真正例樣本數(shù)/真實(shí)情況是正例的樣本數(shù)（查全率）假正例率假正例率FPR：假正例樣本數(shù)/真實(shí)

5、情況是是反例的樣本數(shù)基于基于ROC曲線(xiàn)的學(xué)習(xí)器性能評(píng)價(jià)規(guī)則曲線(xiàn)的學(xué)習(xí)器性能評(píng)價(jià)規(guī)則1. 當(dāng)曲線(xiàn)沒(méi)有交叉的時(shí)候當(dāng)曲線(xiàn)沒(méi)有交叉的時(shí)候：外側(cè)曲線(xiàn)的學(xué)習(xí)器性能優(yōu)于內(nèi)側(cè)；2. 當(dāng)曲線(xiàn)有交叉的時(shí)候當(dāng)曲線(xiàn)有交叉的時(shí)候：比較ROC曲線(xiàn)下的面積即 AUC (Area Under ROC Curve)2.3.4 代價(jià)敏感錯(cuò)誤率與代價(jià)曲線(xiàn) 在現(xiàn)實(shí)任務(wù)匯總常會(huì)遇到這樣的情況：不同類(lèi)型的錯(cuò)誤所造成的后果不同。為權(quán)衡不同類(lèi)型錯(cuò)誤所造成的的不同損失，可為錯(cuò)誤賦予“非均等代價(jià)”(unequal cost)。如下圖所示，正確判斷的代價(jià)顯然應(yīng)該為0，錯(cuò)誤判斷的代價(jià)之間的比值會(huì)影響我們對(duì)學(xué)習(xí)器的改造。可令cost ij為把i類(lèi)樣

6、本錯(cuò)判為j類(lèi)樣本的代價(jià)，對(duì)所有類(lèi)型錯(cuò)誤的數(shù)量與其錯(cuò)誤代價(jià)的乘積求和，再除以樣本總數(shù)量，就得到代價(jià)敏感（cost-sensitive）錯(cuò)誤率。在非均等代價(jià)下，ROC曲線(xiàn)不能直接反映出學(xué)習(xí)器的期望總體代價(jià)，而“代價(jià)曲線(xiàn)”則可以達(dá)到目的。代價(jià)曲線(xiàn)的橫軸是正例概率代價(jià)P(+)cost，縱軸是歸一化代價(jià)cost normp是樣例為正例的概率FPR是假正例率，F(xiàn)NR = 1 - TPR2.4 比較檢驗(yàn)2.4.1假設(shè)檢驗(yàn) 假設(shè)檢驗(yàn)的基本思想是小概率反證法思想。小概率思想是指小概率事件（P0.01或P0.05）在一次試驗(yàn)中基本上不會(huì)發(fā)生。反證法思想是先提出假設(shè)(檢驗(yàn)假設(shè)H0)，再用適當(dāng)?shù)慕y(tǒng)計(jì)方法確定假設(shè)成立的

7、可能性大小，如可能性小，則認(rèn)為假設(shè)不成立，若可能性大，則還不能認(rèn)為不假設(shè)成立。 2.4.2 交叉驗(yàn)證t檢驗(yàn) 基本基本思想思想：若兩個(gè)學(xué)習(xí)器的性能相同，則使用相同的訓(xùn)練/測(cè)試集得到的測(cè)試錯(cuò)誤率應(yīng)相同。假設(shè)檢驗(yàn)的前提假設(shè)檢驗(yàn)的前提：測(cè)試錯(cuò)誤率均為泛化錯(cuò)誤率的獨(dú)立采樣。k折交叉驗(yàn)證產(chǎn)生的折交叉驗(yàn)證產(chǎn)生的K對(duì)測(cè)試錯(cuò)誤率對(duì)測(cè)試錯(cuò)誤率：先對(duì)每對(duì)結(jié)果求差，若兩個(gè)學(xué)習(xí)器性能相同則差值均值應(yīng)為0。因此根據(jù)差值對(duì)“學(xué)習(xí)器AB性能相同”做t檢驗(yàn)，計(jì)算差值的均值和方差，在顯著度確定條件下，判斷變量是否小于臨界值，若小于則無(wú)顯著差別，否則可判斷平均錯(cuò)誤率較小的學(xué)習(xí)器性能較優(yōu)。因樣本有限，加查驗(yàn)證不同輪次訓(xùn)練集有重疊，測(cè)

8、試錯(cuò)誤率實(shí)際上不獨(dú)立，會(huì)導(dǎo)致過(guò)高估計(jì)假設(shè)成立的概率。2.4.3McNemar檢驗(yàn) McNemar主要用于二分類(lèi)問(wèn)題，與成對(duì)t檢驗(yàn)一樣也是用于比較兩個(gè)學(xué)習(xí)器的性能大小。主要思想是：若兩學(xué)習(xí)器的性能相同，則A預(yù)測(cè)正確B預(yù)測(cè)錯(cuò)誤數(shù)應(yīng)等于B預(yù)測(cè)錯(cuò)誤A預(yù)測(cè)正確數(shù)，即e01=e10，且|e01-e10|服從N（1，e01+e10）分布。2.4.4 Friedman檢驗(yàn)和Nemenyi后續(xù)檢驗(yàn) 上述的三種檢驗(yàn)都只能在一組數(shù)據(jù)集上，F(xiàn)檢驗(yàn)則可以在多組數(shù)據(jù)集進(jìn)行多個(gè)學(xué)習(xí)器性能的比較，基本思想是在同一組數(shù)據(jù)集上，根據(jù)測(cè)試結(jié)果（例：測(cè)試錯(cuò)誤率）對(duì)學(xué)習(xí)器的性能進(jìn)行排序，賦予序值1,2,3，相同則平分序值，如下圖所示：若學(xué)習(xí)器的性能相同，則它們的平均序值應(yīng)該相同，且第i個(gè)算法的平均序值ri服從正態(tài)分布N（k+1）/2，（k+1）(k-1)/12），則有：2.5偏差與方差偏差-方差分解(bias-variance decomposition)是解釋學(xué)習(xí)算法泛化性能的一種重要工具。算法的期望泛化誤

人人文庫(kù)> 全部分類(lèi)> 教育資料 > 課件下載

溫馨提示

1. 本站所有資源如無(wú)特殊說(shuō)明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶(hù)所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽，若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間，僅對(duì)用戶(hù)上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理，對(duì)用戶(hù)上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容，請(qǐng)與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶(hù)因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

模型評(píng)估與方法

文檔簡(jiǎn)介

溫馨提示

最新文檔

評(píng)論

模型評(píng)估與方法

文檔簡(jiǎn)介

溫馨提示

最新文檔

評(píng)論

相關(guān)文檔