![模型評估與方法_第1頁](http://file4.renrendoc.com/view14/M08/17/27/wKhkGWY65OyANC0AAACnDdKK4qg964.jpg)
![模型評估與方法_第2頁](http://file4.renrendoc.com/view14/M08/17/27/wKhkGWY65OyANC0AAACnDdKK4qg9642.jpg)
![模型評估與方法_第3頁](http://file4.renrendoc.com/view14/M08/17/27/wKhkGWY65OyANC0AAACnDdKK4qg9643.jpg)
![模型評估與方法_第4頁](http://file4.renrendoc.com/view14/M08/17/27/wKhkGWY65OyANC0AAACnDdKK4qg9644.jpg)
![模型評估與方法_第5頁](http://file4.renrendoc.com/view14/M08/17/27/wKhkGWY65OyANC0AAACnDdKK4qg9645.jpg)
版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)
文檔簡介
第2章模型評估與選擇1模型評估與方法5/8/20242.1經(jīng)驗誤差與過擬合2.2評估方法2.3性能度量2.4比較檢驗2.5偏差與方差2模型評估與方法5/8/20242.1經(jīng)驗誤差與過擬合經(jīng)驗誤差VS泛化誤差過擬合VS欠擬合3模型評估與方法5/8/20244模型評估與方法5/8/20242.2評估方法2.2.1、留出法(hold-out)直接將數(shù)據(jù)集D劃分為兩個互斥的集合。2.2.2交叉驗證法(crossvalidation)將數(shù)據(jù)集D劃分為K個大小相似的互斥子集,每次用K-1個子集的并集作為訓(xùn)練集,余下的子集作為測試集。
缺點比較:我們希望評估的是用D訓(xùn)練的模型。但在留出法和交叉驗證法中,由于保留了一部分樣本用于測試,因此實際評估的模型所使用的訓(xùn)練集比D小,這必然會引入一些因訓(xùn)練樣本規(guī)模不同而導(dǎo)致的估計偏差。
5模型評估與方法5/8/20242.2.3自助法“自助法”是針對上述缺點的一個比較好的解決方案,它直接以自助采樣法為基礎(chǔ)。給定包含m個樣本的數(shù)據(jù)集D,我們對它進(jìn)行采樣產(chǎn)生數(shù)據(jù)集D’:每次隨機從D中挑選一個樣本,將其拷貝放入D’,然后再將該樣本放回初始數(shù)據(jù)集D中,使得該樣本在下次采樣時仍有可能被采到;這個過程重復(fù)執(zhí)行m次后,我們就得到了包含m個樣本的數(shù)據(jù)集D’,這就是自助采樣的結(jié)果。
于是我們可將D’用作訓(xùn)練集,D\D’用作測試集;這樣,實際評估的模型與期望評估的模型都使用m個訓(xùn)練樣本,而我們?nèi)杂袛?shù)據(jù)總量約1/3的、沒在訓(xùn)練集中出現(xiàn)的樣本用于測試。6模型評估與方法5/8/20242.2.4調(diào)參與最終模型
現(xiàn)實中常見的做法,是對每個參數(shù)選擇一個范圍和變化步長,例如在[0,0.2]范圍內(nèi)以0.05為步長,則實際要評估的候選參數(shù)值是5個,最終從這5個值中產(chǎn)生選定值。7模型評估與方法5/8/20242.3性能度量衡量模型泛化能力的評價標(biāo)準(zhǔn)2.3.1錯誤率與精度錯誤率是分類錯誤的樣本數(shù)占樣本總數(shù)的比例精度是分類正確的樣本數(shù)占樣本總數(shù)的比例8模型評估與方法5/8/2024
真實情況預(yù)測結(jié)果正例反例正例TP(真正例)FN(假反例)反例FP(假正例)TN(真反例)9模型評估與方法5/8/2024“平衡點”(Break-EventPoint,簡稱BEP),就是查準(zhǔn)率與查全率時的取值。10模型評估與方法5/8/2024
11模型評估與方法5/8/20242.3.3ROC和AUC根據(jù)實值或概率預(yù)測結(jié)果,我們可以將測試樣本進(jìn)行排序,“最可能”是正例的排在前面“最不可能”是正例的排在最后面。分類過程相當(dāng)于在這個排序中以某個“截斷點”將樣本分為兩個部分,前一部分判做正例,后一部分則判作反例。在不同的應(yīng)用任務(wù)中,我們可根據(jù)任務(wù)需求來采用不同的截斷點。排序本身質(zhì)量的好壞,體現(xiàn)了綜合考慮學(xué)習(xí)器在不同任務(wù)下的“期望泛化性能”的好壞,或者說“一般情況下”泛化性能的好壞。ROC曲線則是從排序本身質(zhì)量的好壞的角度來研究學(xué)習(xí)器泛化性能。12模型評估與方法5/8/2024ROC全名“受試者工作特征”曲線,以“真正例率”為縱軸,以“假正例率”為橫軸。真正例率TPR:真正例樣本數(shù)/真實情況是正例的樣本數(shù)(查全率)假正例率FPR:假正例樣本數(shù)/真實情況是是反例的樣本數(shù)基于ROC曲線的學(xué)習(xí)器性能評價規(guī)則
1.當(dāng)曲線沒有交叉的時候:外側(cè)曲線的學(xué)習(xí)器性能優(yōu)于內(nèi)側(cè);2.當(dāng)曲線有交叉的時候:比較ROC曲線下的面積即AUC(AreaUnderROCCurve)13模型評估與方法5/8/20242.3.4代價敏感錯誤率與代價曲線
在現(xiàn)實任務(wù)匯總常會遇到這樣的情況:不同類型的錯誤所造成的后果不同。為權(quán)衡不同類型錯誤所造成的的不同損失,可為錯誤賦予“非均等代價”(unequalcost)。如下圖所示,正確判斷的代價顯然應(yīng)該為0,錯誤判斷的代價之間的比值會影響我們對學(xué)習(xí)器的改造。
可令costij為把i類樣本錯判為j類樣本的代價,對所有類型錯誤的數(shù)量與其錯誤代價的乘積求和,再除以樣本總數(shù)量,就得到代價敏感(cost-sensitive)錯誤率。14模型評估與方法5/8/2024在非均等代價下,ROC曲線不能直接反映出學(xué)習(xí)器的期望總體代價,而“代價曲線”則可以達(dá)到目的。代價曲線的橫軸是正例概率代價P(+)cost,縱軸是歸一化代價cost—normp是樣例為正例的概率FPR是假正例率,F(xiàn)NR=1-TPR15模型評估與方法5/8/20242.4比較檢驗2.4.1假設(shè)檢驗
假設(shè)檢驗的基本思想是小概率反證法思想。小概率思想是指小概率事件(P<0.01或P<0.05)在一次試驗中基本上不會發(fā)生。反證法思想是先提出假設(shè)(檢驗假設(shè)H0),再用適當(dāng)?shù)慕y(tǒng)計方法確定假設(shè)成立的可能性大小,如可能性小,則認(rèn)為假設(shè)不成立,若可能性大,則還不能認(rèn)為不假設(shè)成立。16模型評估與方法5/8/20242.4.2交叉驗證t檢驗
基本思想:若兩個學(xué)習(xí)器的性能相同,則使用相同的訓(xùn)練/測試集得到的測試錯誤率應(yīng)相同。假設(shè)檢驗的前提:測試錯誤率均為泛化錯誤率的獨立采樣。k折交叉驗證產(chǎn)生的K對測試錯誤率:先對每對結(jié)果求差,若兩個學(xué)習(xí)器性能相同則差值均值應(yīng)為0。因此根據(jù)差值對“學(xué)習(xí)器AB性能相同”做t檢驗,計算差值的均值和方差,在顯著度確定條件下,判斷變量是否小于臨界值,若小于則無顯著差別,否則可判斷平均錯誤率較小的學(xué)習(xí)器性能較優(yōu)。因樣本有限,加查驗證不同輪次訓(xùn)練集有重疊,測試錯誤率實際上不獨立,會導(dǎo)致過高估計假設(shè)成立的概率。
17模型評估與方法5/8/20242.4.3McNemar檢驗McNemar主要用于二分類問題,與成對t檢驗一樣也是用于比較兩個學(xué)習(xí)器的性能大小。主要思想是:若兩學(xué)習(xí)器的性能相同,則A預(yù)測正確B預(yù)測錯誤數(shù)應(yīng)等于B預(yù)測錯誤A預(yù)測正確數(shù),即e01=e10,且|e01-e10|服從N(1,e01+e10)分布。18模型評估與方法5/8/20242.4.4Friedman檢驗和Nemenyi后續(xù)檢驗上述的三種檢驗都只能在一組數(shù)據(jù)集上,F(xiàn)檢驗則可以在多組數(shù)據(jù)集進(jìn)行多個學(xué)習(xí)器性能的比較,基本思想是在同一組數(shù)據(jù)集上,根據(jù)測試結(jié)果(例:測試錯誤率)對學(xué)習(xí)器的性能進(jìn)行排序,賦予序值1,2,3…,相同則平分序值,如下圖所示:19模型評估與方法5/8/2024若學(xué)習(xí)器的性能相同,則它們的平均序值應(yīng)該相同,且第i個算法的平均序值ri服從正態(tài)分布N((k+1)/2,(k+1)(k-1)/12),則有:
20模型評估與方法5/8/2024
21模型評估與方法5/8/20242.5偏差與方差偏差-方差分解(bias-variancedecomposition)是解釋學(xué)習(xí)算法泛化性能的一種重要工具。算法的期望泛化誤差進(jìn)行分解,得到E(f;D)=
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 精準(zhǔn)營銷基于數(shù)據(jù)的超市進(jìn)貨決策分析
- 教育科技融合下的創(chuàng)新創(chuàng)業(yè)教育新路徑
- 宿舍管理團(tuán)隊建設(shè)與培訓(xùn)計劃
- 智慧醫(yī)療下的兒童保健與疾病預(yù)防策略
- 探索綠色化學(xué)實驗促進(jìn)產(chǎn)業(yè)升級
- 教育領(lǐng)域的在線學(xué)習(xí)平臺與個性化教學(xué)結(jié)合
- 語文課堂中的道德情感培養(yǎng)策略
- 2025年貴州盛華職業(yè)學(xué)院高職單招數(shù)學(xué)歷年(2016-2024)頻考點試題含答案解析
- 語言藝術(shù)與學(xué)生的表達(dá)力提升途徑
- 語言學(xué)習(xí)與文化理解跨文化交流的課堂實踐
- 新教材人教版高中物理選擇性必修第三冊全冊各章節(jié)知識點考點
- CJT 354-2010 城市軌道交通車輛空調(diào)、采暖及通風(fēng)裝置技術(shù)條件
- 暑假作業(yè) 11 高二英語語法填空20篇(原卷版)-【暑假分層作業(yè)】2024年高二英語暑假培優(yōu)練(人教版2019)
- 2024年江西省南昌市南昌縣中考一模數(shù)學(xué)試題(含解析)
- 繪本的分鏡設(shè)計-分鏡的編排
- 查干淖爾一號井環(huán)評
- 體檢中心分析報告
- 人教版初中英語七八九全部單詞(打印版)
- 最高人民法院婚姻法司法解釋(二)的理解與適用
- 關(guān)于醫(yī)保應(yīng)急預(yù)案
- 新人教版五年級上冊數(shù)學(xué)應(yīng)用題大全doc
評論
0/150
提交評論