第一章概率統(tǒng)計(jì)基礎(chǔ)課件_第1頁
第一章概率統(tǒng)計(jì)基礎(chǔ)課件_第2頁
第一章概率統(tǒng)計(jì)基礎(chǔ)課件_第3頁
第一章概率統(tǒng)計(jì)基礎(chǔ)課件_第4頁
第一章概率統(tǒng)計(jì)基礎(chǔ)課件_第5頁
已閱讀5頁,還剩159頁未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

今天內(nèi)容:模型選擇Occam'srazor測(cè)試誤差/訓(xùn)練誤差訓(xùn)練誤差的樂觀性估計(jì)MallowsCp統(tǒng)計(jì)量AICBIC/MDLSRM直接估計(jì)測(cè)試誤差交叉驗(yàn)證Bootstrap1.今天內(nèi)容:模型選擇Occam'srazor1.“模型”我們說的“模型”有時(shí)指的是模型類別,例如所有2個(gè)高斯的混合模型和所有3個(gè)高斯的混合模型。有時(shí)也指在一個(gè)類別的模型中的一員,如參數(shù)的值為特定值。也就是說,模型的類別是固定的,而考慮的是不同的參數(shù)值。在實(shí)際應(yīng)用中,我們通常同時(shí)考慮上述兩種情況,也就是說:參數(shù)的選擇統(tǒng)計(jì)決策理論部分已經(jīng)討論

,在此主要討論不同函數(shù)族的選擇

2.“模型”我們說的“模型”有時(shí)指的是模型類別,例如所有Occam'srazorWilliamofOccham(1285–1348)fromwikipediaOccam'srazor:

Entianonsuntmultiplicandapraeternecessitatem

Or:

Entitiesshouldnotbemultipliedunnecessarily

——theexplanationofanyphenomenonshouldmakeasfewassumptionsaspossible,eliminating,or"shavingoff",thosethatmakenodifferenceintheobservablepredictionsoftheexplanatoryhypothesisortheory.3.Occam'srazorWilliamofOcchaOccam'srazor例:樹后面有多少個(gè)盒子?√4.Occam'srazor例:樹后面有多少個(gè)盒子?√4.模型選擇訓(xùn)練數(shù)據(jù)既包含輸入—輸出之間的規(guī)律也包含噪聲模型匹配時(shí)會(huì)匹配上述兩種情況如果模型太復(fù)雜,會(huì)將噪聲也包含在模型中所以,好的模型足夠?qū)斎搿敵鲋g的規(guī)律建模不夠?qū)υ肼暯#僭O(shè)噪聲較弱)5.模型選擇訓(xùn)練數(shù)據(jù)5.一個(gè)回歸的例子

樣本數(shù)n=10用M階多項(xiàng)式擬合:6.一個(gè)回歸的例子樣本數(shù)n=106.一個(gè)回歸的例子(2)0階多項(xiàng)式擬合7.一個(gè)回歸的例子(2)0階多項(xiàng)式擬合7.一個(gè)回歸的例子(3)1階多項(xiàng)式擬合8.一個(gè)回歸的例子(3)1階多項(xiàng)式擬合8.一個(gè)回歸的例子(4)3階多項(xiàng)式擬合9.一個(gè)回歸的例子(4)3階多項(xiàng)式擬合9.一個(gè)回歸的例子(5)9階多項(xiàng)式擬合10.一個(gè)回歸的例子(5)9階多項(xiàng)式擬合10.一個(gè)回歸的例子(6)過擬合:11.一個(gè)回歸的例子(6)過擬合:11.一個(gè)回歸的例子(7)回歸系數(shù):12.一個(gè)回歸的例子(7)回歸系數(shù):12.一個(gè)回歸的例子(8)9階多項(xiàng)式擬合,訓(xùn)練樣本數(shù)n=1513.一個(gè)回歸的例子(8)9階多項(xiàng)式擬合,訓(xùn)練樣本數(shù)n=1513.一個(gè)回歸的例子(9)9階多項(xiàng)式擬合,訓(xùn)練樣本數(shù)n=10014.一個(gè)回歸的例子(9)9階多項(xiàng)式擬合,訓(xùn)練樣本數(shù)n=10014一個(gè)回歸的例子(10)嶺回歸:最小化15.一個(gè)回歸的例子(10)嶺回歸:最小化15.一個(gè)回歸的例子(11)嶺回歸16.一個(gè)回歸的例子(11)嶺回歸16.一個(gè)回歸的例子(12)嶺回歸17.一個(gè)回歸的例子(12)嶺回歸17.一個(gè)回歸的例子(13)嶺回歸系數(shù)18.一個(gè)回歸的例子(13)嶺回歸系數(shù)18.目標(biāo)模型選擇:估計(jì)不同模型的性能,選出最好的模型模型評(píng)估:已經(jīng)選定最終的模型,估計(jì)它在新數(shù)據(jù)上的預(yù)測(cè)誤差(泛化誤差)提升模型的性能:模型平均BaggingBoost…教材第8章19.目標(biāo)模型選擇:估計(jì)不同模型的性能,選出最好的模型教材第8章1模型選擇和模型評(píng)估當(dāng)樣本足夠多時(shí),可以將數(shù)據(jù)分成三份訓(xùn)練集:估計(jì)模型的參數(shù)校驗(yàn)集:估計(jì)模型的預(yù)測(cè)誤差測(cè)試集:計(jì)算最終選定的模型的泛化誤差但通常沒有足夠多樣本,而且也很難說明多少足夠數(shù)據(jù)是足夠的依賴于基礎(chǔ)數(shù)據(jù)的信噪比和模型的復(fù)雜程度訓(xùn)練集校驗(yàn)集測(cè)試集20.模型選擇和模型評(píng)估當(dāng)樣本足夠多時(shí),可以將數(shù)據(jù)分成三份訓(xùn)練集校模型選擇目標(biāo):選擇使測(cè)試誤差最小的模型M,稱為模型選擇。21.模型選擇目標(biāo):選擇使測(cè)試誤差最小的模型M,稱為模型選擇。21訓(xùn)練誤差與測(cè)試誤差測(cè)試誤差,亦稱泛化誤差(generalizationerror),是在與訓(xùn)練數(shù)據(jù)同分布的獨(dú)立測(cè)試樣本上的風(fēng)險(xiǎn)(平均損失):亦稱期望風(fēng)險(xiǎn)訓(xùn)練誤差是在訓(xùn)練樣本上的平均損失:亦稱經(jīng)驗(yàn)風(fēng)險(xiǎn)22.訓(xùn)練誤差與測(cè)試誤差測(cè)試誤差,亦稱泛化誤差(generaliz訓(xùn)練誤差與測(cè)試誤差目標(biāo)是選擇測(cè)試誤差最小的模型但測(cè)試誤差很難計(jì)算/估計(jì)用訓(xùn)練誤差估計(jì)但訓(xùn)練誤差是測(cè)試誤差的欠估計(jì)在選擇合適復(fù)雜性的模型時(shí),存在偏差-方差的平衡訓(xùn)練誤差的樂觀性23.訓(xùn)練誤差與測(cè)試誤差目標(biāo)是選擇測(cè)試誤差最小的模型訓(xùn)練誤差的樂觀訓(xùn)練誤差與測(cè)試誤差經(jīng)驗(yàn)風(fēng)險(xiǎn)/訓(xùn)練誤差是否是期望風(fēng)險(xiǎn)/測(cè)試誤差的一個(gè)好的估計(jì)?隨樣本集容量n→∞漸進(jìn)成立在小樣本條件下,并不是一個(gè)好的估計(jì)訓(xùn)練誤差是測(cè)試誤差的欠估計(jì)(有偏估計(jì))訓(xùn)練誤差的樂觀性24.訓(xùn)練誤差與測(cè)試誤差經(jīng)驗(yàn)風(fēng)險(xiǎn)/訓(xùn)練誤差是否是期望風(fēng)險(xiǎn)/測(cè)試誤差訓(xùn)練誤差的樂觀性通常我們有因此,為了選擇模型,我們可以對(duì)進(jìn)行估計(jì),或以某種方式估計(jì)R(M)欠擬合程度+復(fù)雜性懲罰25.訓(xùn)練誤差的樂觀性通常我們有欠擬合程度+復(fù)雜性懲罰25.訓(xùn)練誤差的樂觀性估計(jì)預(yù)測(cè)誤差的方法估計(jì)樂觀性,然后與訓(xùn)練誤差相加AIC/BIC/MDL等(模型與參數(shù)為線性關(guān)系時(shí))SRM直接估計(jì)測(cè)試誤差

交叉驗(yàn)證/bootstrap對(duì)任意損失函數(shù)、非線性自適應(yīng)擬合技術(shù)都適用26.訓(xùn)練誤差的樂觀性估計(jì)預(yù)測(cè)誤差的方法26.估計(jì)樂觀性通過各種技巧(通常是漸近性)估計(jì)樂觀性27.估計(jì)樂觀性通過各種技巧(通常是漸近性)估計(jì)樂觀性27.MallowsCp

統(tǒng)計(jì)量統(tǒng)計(jì)量:

使用所有特征的模型28.MallowsCp統(tǒng)計(jì)量統(tǒng)計(jì)量AIC:AkaikeInformationCriterion當(dāng)采用log似然作為損失函數(shù),測(cè)試誤差為其中為MLE,模型為,似然函數(shù)為則訓(xùn)練誤差為其中為在訓(xùn)練集上的log似然。i為測(cè)試集上數(shù)據(jù)索引29.AIC:AkaikeInformationCriteriAIC:AkaikeInformationCriterion當(dāng)時(shí),其中這導(dǎo)出R(M)的一個(gè)估計(jì):AIC其中為從一個(gè)低偏差(復(fù)雜的)估計(jì)的MSE獲得。(高斯模型時(shí),對(duì)數(shù)似然與平方誤差損失一致)30.AIC:AkaikeInformationCriteriBIC:BayesianInformationCriterion類似AIC,可用于極大化對(duì)數(shù)似然實(shí)現(xiàn)的擬合中其中所以同AIC31.BIC:BayesianInformationCritBIC:Motivation用貝葉斯方法選擇模型32.BIC:Motivation用貝葉斯方法選擇模型32.回顧貝葉斯方法為書寫簡(jiǎn)單,記訓(xùn)練數(shù)據(jù)為假設(shè)已知模型的的形式,參數(shù)的貝葉斯估計(jì)為(見參數(shù)估計(jì)部分)定義模型參數(shù)的先驗(yàn)分布:和模型似然:當(dāng)有數(shù)據(jù)Z到達(dá)后,參數(shù)的分布(后驗(yàn)分布)變得更確定qs33.回顧貝葉斯方法為書寫簡(jiǎn)單,記訓(xùn)練數(shù)據(jù)為qs33.貝葉斯方法與模型選擇給定一些列侯選模型

,并且模型參數(shù)為某個(gè)給定的模型的后驗(yàn)概率為:表示模型的先驗(yàn)

表示證據(jù)(參數(shù)估計(jì)中的歸一化因子)為了比較兩個(gè)模型,可以比較后驗(yàn)比:如果比值>1,則選擇第1個(gè)模型。34.貝葉斯方法與模型選擇給定一些列侯選模型貝葉斯方法與模型選擇

其中先驗(yàn)比可以根據(jù)美學(xué)原理或經(jīng)驗(yàn)確定:如簡(jiǎn)單的模型先驗(yàn)更高但先驗(yàn)比不是必須的,即使假設(shè)模型的先驗(yàn)是均勻的,即先驗(yàn)比為常數(shù),貝葉斯規(guī)則也傾向于選擇能解釋數(shù)據(jù)的最簡(jiǎn)單模型:Occam剃刀原理。Bayes因子表示數(shù)據(jù)Z對(duì)后驗(yàn)比值的貢獻(xiàn)(證據(jù))根據(jù)證據(jù)對(duì)模型排序35.貝葉斯方法與模型選擇35.例:Occam剃刀原理簡(jiǎn)單模型只對(duì)有限范圍內(nèi)做預(yù)測(cè)

復(fù)雜模型(如有更多自由參數(shù))能對(duì)更寬范圍做預(yù)測(cè)但對(duì)區(qū)域中的數(shù)據(jù),的預(yù)測(cè)不如強(qiáng)36.例:Occam剃刀原理36.證據(jù)證據(jù)(evidence)通常會(huì)在最可能的參數(shù)附近有一個(gè)很強(qiáng)的峰。以一維參數(shù)為例:利用Laplace方法近似,即用被積函數(shù)乘以其寬度37.證據(jù)證據(jù)(evidence)37.Occam因子(參數(shù)為多維情況)

其中38.Occam因子(參數(shù)為多維情況)38.BIC:BayesianInformationCriterion當(dāng)模型為線性模型時(shí)用Laplace近似其中為極大似然估計(jì),為模型中自由參數(shù)的數(shù)目當(dāng)損失函數(shù)取,導(dǎo)出貝葉斯信息準(zhǔn)則:39.BIC:BayesianInformationCritBICAIC不是一致的,而BIC是一致的。也就是說,選擇最小BIC的模型等價(jià)于選擇最大后驗(yàn)概率的模型(在漸近意義下)。事實(shí)上,模型的后驗(yàn)概率為不僅可以估計(jì)最好的模型,而且可以評(píng)估所考慮模型的相關(guān)指標(biāo)。但:假設(shè)候選模型包含正確的模型“Essentially,allmodelsarewrong,butsomeareuseful

”G.Box(1987)40.BICAIC不是一致的,而BIC是一致的。也就是說,選擇最小最小描述長(zhǎng)度MDL最小描述長(zhǎng)度MDL(minimumdescriptionlength)采用與BIC完全相同的選擇準(zhǔn)則,但它源自數(shù)據(jù)壓縮/最優(yōu)編碼BIC與MDL都只適用于似然損失。Rissanen,J.1978.Modelingbyshortestdatadescription.Automatica,14,465-471.41.最小描述長(zhǎng)度MDL最小描述長(zhǎng)度MDL(minimumdesMDL可譯變長(zhǎng)編碼:越頻繁的信息碼長(zhǎng)越短平均信息長(zhǎng)度越短消息的長(zhǎng)度與事件zi的概率之間的關(guān)系為:為了傳遞具有概率密度為的隨機(jī)變量zi,需要大約位平均信息長(zhǎng)度熵:消息長(zhǎng)度的下界42.MDL可譯變長(zhǎng)編碼:越頻繁的信息碼長(zhǎng)越短熵:消息長(zhǎng)度的下界4MDL假設(shè)我們有以θ為參數(shù)的模型M,和包含輸入輸出數(shù)據(jù)Z=(X,y),則傳遞輸出的消息長(zhǎng)度為:選擇最小長(zhǎng)度的模型等價(jià)于選擇最大后驗(yàn)概率的模型,同BIC傳遞模型參數(shù)所需的平均消息長(zhǎng)度用于傳遞模型與目標(biāo)差別所需要的平均消息長(zhǎng)度43.MDL假設(shè)我們有以θ為參數(shù)的模型M,和包含輸入輸出數(shù)據(jù)Z=(AIC

vs.BICAIC:選擇使最小的模型,也是使最大的模型,其中為log似然函數(shù),表示模型中有效參數(shù)的數(shù)目極大似然,同時(shí)模型復(fù)雜度極小BIC:用貝葉斯方法選擇模型選擇最大后驗(yàn)概率的模型44.AICvs.BICAIC:44.AIC

vs.BIC均使用模型參數(shù)數(shù)目來度量復(fù)雜度對(duì)復(fù)雜度的懲罰參數(shù)的選擇不同BIC:漸近相容樣本容量n→∞時(shí),選擇正確模型的概率→1有限樣本情況下,當(dāng)取高斯噪聲時(shí),,BIC中因子2被logn代替,對(duì)復(fù)雜性施加更嚴(yán)厲的懲罰,傾向于選擇簡(jiǎn)單模型,AIC傾向于選擇復(fù)雜模型45.AICvs.BIC均使用模型參數(shù)數(shù)目來度量復(fù)雜度45.有效參數(shù)數(shù)目AIC/BIC中參數(shù)的數(shù)目可以擴(kuò)展到使用正則化擬合的模型對(duì)線性擬合其中為的矩陣,只依賴于輸入向量,與無關(guān)則有效參數(shù)的數(shù)目為如對(duì)嶺回歸則有效參數(shù)數(shù)目為46.有效參數(shù)數(shù)目AIC/BIC中參數(shù)的數(shù)目可以擴(kuò)展到使用正則化擬VC維

(Vapnik-ChernovenkisDimension)之前的樂觀性估計(jì)都適用于簡(jiǎn)單模型和基于似然函數(shù)的。VC理論給出了模型復(fù)雜性更一般的度量函數(shù)類的VC維可被函數(shù)集成員打散(shatter)的點(diǎn)的最大數(shù)目打散不管怎樣改變每個(gè)點(diǎn)的位置和標(biāo)記,某個(gè)類別的函數(shù)中的一員都能完全分開這些點(diǎn),則稱為這些點(diǎn)能被該類別的函數(shù)打散。47.VC維

(Vapnik-ChernovenkisDimenVC維2D線性函數(shù)的VC維為3,等于參數(shù)的個(gè)數(shù)正弦函數(shù)的VC維:無窮,但參數(shù)只有一個(gè):頻率48.VC維2D線性函數(shù)的VC維為3,等于參數(shù)的個(gè)數(shù)正弦函數(shù)的VCVC維如線性函數(shù)能打散2D平面上任意3點(diǎn),因此線性函數(shù)的VC維是3。通常D維線性函數(shù)的VC維是D+1,也就是自由參數(shù)的數(shù)目。一個(gè)非線性的函數(shù)族的VC維可能無窮大,因?yàn)橥ㄟ^選擇合適的參數(shù)θ,任何點(diǎn)的集合都能被該類的函數(shù)打散。實(shí)值函數(shù)類的VC維定義指示函數(shù)類的VC維,其中β在f

的值域上取值。49.VC維如線性函數(shù)能打散2D平面上任意3點(diǎn),因此線性函數(shù)的VCVC維函數(shù)集的VC維不一定等于自由參數(shù)的個(gè)數(shù)可為等于、大于或小于尚無一般方法對(duì)任意函數(shù)集計(jì)算VC維,只有一些函數(shù)集合的VC維可計(jì)算線性函數(shù)多項(xiàng)式三角函數(shù)等50.VC維函數(shù)集的VC維不一定等于自由參數(shù)的個(gè)數(shù)50.VC維與風(fēng)險(xiǎn)的界對(duì)兩類分類問題,假設(shè)函數(shù)類的VC維為h,則對(duì)該函數(shù)類中的每個(gè)模型,至少有的概率滿足其中對(duì)回歸問題對(duì)回歸問題,建議對(duì)分類問題,沒有建議,但對(duì)應(yīng)最壞的情況51.VC維與風(fēng)險(xiǎn)的界對(duì)兩類分類問題,假設(shè)函數(shù)類的VC維為h,則對(duì)VC維與風(fēng)險(xiǎn)的界

如果h有限的話,模型族的復(fù)雜性可以隨n增加而增加當(dāng)h

較小時(shí),R(M)

和Rtr之間的差異小所以正則化回歸(如嶺回歸)比一般最小二乘的推廣型更好52.VC維與風(fēng)險(xiǎn)的界52.VC維與風(fēng)險(xiǎn)的界

Φ稱為置信范圍,隨n增大而減小,隨h增加而增加,與AIC中的項(xiàng)d/n一致訓(xùn)練誤差有時(shí)亦稱經(jīng)驗(yàn)風(fēng)險(xiǎn),測(cè)試誤差亦稱期望風(fēng)險(xiǎn)對(duì)于特定的問題,樣本數(shù)目n一般是固定的,VC維越大,測(cè)試誤差與訓(xùn)練誤差之間的差就越大。因此我們?cè)谶x擇模型時(shí),不但要使訓(xùn)練誤差最小化,還要使模型的復(fù)雜性也即VC維盡量小,從而使測(cè)試誤差最小。53.VC維與風(fēng)險(xiǎn)的界53.結(jié)構(gòu)風(fēng)險(xiǎn)最小化原則

(StructuralRiskMinimization,SRM)這個(gè)上界是對(duì)函數(shù)類中的全部成員(參數(shù)不同)給出可能的上界,而AIC描述的是類中某個(gè)特定成員(MLE)的樂觀性估計(jì)。

結(jié)構(gòu)風(fēng)險(xiǎn)最小化原則選擇具有最小上界的函數(shù)類別。注意:VC理論并沒有給出測(cè)試誤差的真正估計(jì),只是測(cè)試誤差的上界,所給出的界往往是松的54.結(jié)構(gòu)風(fēng)險(xiǎn)最小化原則

(StructuralRiskMin結(jié)構(gòu)風(fēng)險(xiǎn)最小化設(shè)計(jì)模型的目標(biāo):同時(shí)最小化經(jīng)驗(yàn)風(fēng)險(xiǎn)和置信范圍如何同時(shí)最小化-結(jié)構(gòu)風(fēng)險(xiǎn)最小化原則把函數(shù)集S分解為一個(gè)函數(shù)子集序列(子集結(jié)構(gòu)):S1≤S2……≤Sk……≤S,使得各子集能夠按照VC維的大小排列:h1≤h2≤……h(huán)k≤…,同一個(gè)子集中的置信范圍就相同55.結(jié)構(gòu)風(fēng)險(xiǎn)最小化設(shè)計(jì)模型的目標(biāo):55.結(jié)構(gòu)風(fēng)險(xiǎn)最小化根據(jù)函數(shù)類的性質(zhì),將它劃分為一系列嵌套的子集如多項(xiàng)式的階數(shù)增加;嶺回歸的λ減??;神經(jīng)元網(wǎng)絡(luò)的隱含節(jié)點(diǎn)數(shù)據(jù)增加…學(xué)習(xí)問題:選擇一個(gè)適當(dāng)?shù)暮瘮?shù)子集(根據(jù)推廣性)并在該子集中選擇最好的函數(shù)(根據(jù)經(jīng)驗(yàn)風(fēng)險(xiǎn))56.結(jié)構(gòu)風(fēng)險(xiǎn)最小化根據(jù)函數(shù)類的性質(zhì),將它劃分為一系列嵌套的子集5兩種構(gòu)造性方法一種方法:找到合適的模型類別,然后再這個(gè)類別的模型中找到使訓(xùn)練誤差最小的函數(shù),即保持置信范圍固定(通過選擇合適的模型類別)并最小化經(jīng)驗(yàn)風(fēng)險(xiǎn)如人工神經(jīng)網(wǎng)絡(luò)先確定網(wǎng)絡(luò)的結(jié)構(gòu),然后再學(xué)習(xí)網(wǎng)絡(luò)的系數(shù)另一種方法:保持經(jīng)驗(yàn)風(fēng)險(xiǎn)固定(如為0),最小化置信范圍如SVM57.兩種構(gòu)造性方法一種方法:找到合適的模型類別,然后再這個(gè)類別的直接估計(jì)測(cè)試誤差重采樣技術(shù):直接估計(jì)測(cè)試誤差R(M)交叉驗(yàn)證bootstrap58.直接估計(jì)測(cè)試誤差重采樣技術(shù):直接估計(jì)測(cè)試誤差R(M)58.交叉驗(yàn)證最簡(jiǎn)單、最常用的估計(jì)預(yù)測(cè)誤差的方法思想:直接估計(jì)樣本外誤差

應(yīng)用到來自X與Y的聯(lián)合分布的獨(dú)立的測(cè)試集在-折交叉驗(yàn)證中,數(shù)據(jù)被分成大致相等的份。對(duì)第份,用其余

份數(shù)據(jù)用于擬合模型

,并在第份數(shù)據(jù)上計(jì)算擬合好的模型的預(yù)測(cè)誤差59.交叉驗(yàn)證最簡(jiǎn)單、最常用的估計(jì)預(yù)測(cè)誤差的方法59.K-折交叉驗(yàn)證數(shù)據(jù)被分成大致相等的K份第k=1,…,K份數(shù)據(jù)作為校驗(yàn)集,其余K-1份數(shù)據(jù)用于訓(xùn)練模型

,并在第k份數(shù)據(jù)上計(jì)算訓(xùn)練好的模型的預(yù)測(cè)誤差例5-折交叉驗(yàn)證訓(xùn)練訓(xùn)練訓(xùn)練訓(xùn)練校驗(yàn)第1折:校驗(yàn)訓(xùn)練訓(xùn)練訓(xùn)練訓(xùn)練第2折:訓(xùn)練校驗(yàn)訓(xùn)練訓(xùn)練訓(xùn)練第3折:訓(xùn)練訓(xùn)練校驗(yàn)訓(xùn)練訓(xùn)練第4折:訓(xùn)練訓(xùn)練訓(xùn)練校驗(yàn)訓(xùn)練第5折:60.K-折交叉驗(yàn)證數(shù)據(jù)被分成大致相等的K份訓(xùn)練訓(xùn)練訓(xùn)練訓(xùn)練校驗(yàn)第交叉驗(yàn)證交叉驗(yàn)證對(duì)預(yù)測(cè)誤差的估計(jì)為其中為去掉第k份數(shù)據(jù)后訓(xùn)練的模型。

對(duì)測(cè)試誤差提供了一個(gè)估計(jì),

通過最小化確定調(diào)整參數(shù):最后被選中的模型為用所有數(shù)據(jù)擬合的模型61.交叉驗(yàn)證交叉驗(yàn)證對(duì)預(yù)測(cè)誤差的估計(jì)為61.學(xué)習(xí)曲線由于訓(xùn)練集減小,會(huì)引起偏差62.學(xué)習(xí)曲線由于訓(xùn)練集減小,會(huì)引起偏差62.交叉驗(yàn)證:K的值?如果稱為留一交叉驗(yàn)證(leave-one-outcross-validation,LOOCV)。這是近似無偏的,但由于n個(gè)訓(xùn)練集彼此之間很相似,可能會(huì)有較高的方差。并且計(jì)算代價(jià)也很高(計(jì)算n次)。另一方面,當(dāng)CV為低方差但偏差較大。在給定訓(xùn)練集合大小時(shí),如果學(xué)習(xí)曲線比較陡,則5-折、10-折CV會(huì)對(duì)真正的預(yù)測(cè)誤差過估計(jì)。通常取K=1063.交叉驗(yàn)證:K的值?如果稱為留一交叉BootstrapBootstrap是一個(gè)很通用的工具,用來估計(jì)測(cè)試誤差和置信區(qū)間參見第二部分:統(tǒng)計(jì)推斷用來估計(jì)預(yù)測(cè)誤差:從訓(xùn)練集中進(jìn)行bootstrap采樣,得到bootstrap樣本64.BootstrapBootstrap是一個(gè)很通用的工具,用來Bootstrap測(cè)試誤差估計(jì)bootstrap來估計(jì)檢測(cè)誤差:但同時(shí)從訓(xùn)練集和校驗(yàn)集中采樣,當(dāng)二者有重疊時(shí),就引入了偏差。一種方法是leave-one-outbootstrap:其中為不包含觀測(cè)i的樣本b的索引的集合。這解決了過擬合問題,但樣本的減少帶來了類似CV中的偏差問題。為了處理樣本偏少的問題,采用“.632”估計(jì)子:65.Bootstrap測(cè)試誤差估計(jì)bootstrap來估計(jì)檢測(cè)誤Bootstrap測(cè)試誤差估計(jì)“.632”估計(jì)子在“輕擬合”時(shí)表現(xiàn)很好,但在過擬合時(shí)會(huì)有問題,因此又引入“.632+”估計(jì)子:無信息誤差率:如果輸入和類別標(biāo)號(hào)是獨(dú)立的,則為預(yù)測(cè)規(guī)則的誤差率過擬合率:“.632+”估計(jì)子:66.Bootstrap測(cè)試誤差估計(jì)“.632”估計(jì)子在“輕擬合”Casestudy:前列腺癌數(shù)據(jù)考慮模型族:嶺回歸模型復(fù)雜度參數(shù):有效參數(shù)數(shù)目:采用下述技術(shù)做模型選擇AICBICCVBootstrap67.Casestudy:前列腺癌數(shù)據(jù)考慮模型族:嶺回歸67.AIC68.AIC68.BIC69.BIC69.SRM70.SRM70.10-折交叉驗(yàn)證最佳模型為:71.10-折交叉驗(yàn)證最佳模型為:71.Bootstrap0.632:72.Bootstrap0.632:72.Bootstrap0.632+:最小測(cè)試誤差73.Bootstrap0.632+:最小測(cè)試誤差73.到底應(yīng)該選擇哪個(gè)模型?模型越簡(jiǎn)單,越不用做工作。更復(fù)雜的模型需要更正確的模型選擇,采用重采樣技術(shù)線性回歸:AIC/BIC非參數(shù):采用交叉驗(yàn)證和bootstrap通常更準(zhǔn)確需要更多計(jì)算74.到底應(yīng)該選擇哪個(gè)模型?模型越簡(jiǎn)單,越不用做工作。更復(fù)雜的模型總結(jié):模型選擇模型:模型的類別每個(gè)類別的模型的參數(shù)模型選擇選擇測(cè)試誤差最小的模型假設(shè)測(cè)試數(shù)據(jù)與訓(xùn)練數(shù)據(jù)的某種一致性(如IID)模型必須與數(shù)據(jù)有一定的擬合精度但模型過復(fù)雜時(shí),數(shù)據(jù)擬合程度很好,但會(huì)出現(xiàn)過擬合,測(cè)試誤差也會(huì)很大模型選擇是在數(shù)據(jù)擬合精度與模型復(fù)雜性之間的折中75.總結(jié):模型選擇模型:75.下節(jié)課內(nèi)容模型組合更高的性能?BaggingBoosting…76.下節(jié)課內(nèi)容模型組合更高的性能?76.附:AIC推導(dǎo)數(shù)據(jù)Y是根據(jù)某個(gè)未知參數(shù)的分布產(chǎn)生的令

表示k維參數(shù)族分布,我們的目標(biāo)是在這一類分布族中搜索與最佳匹配的模型為了確定哪個(gè)模型與最相近,我們需要一個(gè)度量測(cè)量真正模型與近似模型之間的差異77.附:AIC推導(dǎo)數(shù)據(jù)Y是根據(jù)某個(gè)未知參數(shù)的分布附:AIC推導(dǎo)KL損失/log似然損失:表示函數(shù)f與g之間的距離,其中g(shù)為真正的分布,為當(dāng)前模型對(duì)而言是常數(shù)C熵定義為:KL散度也表示用f去近似g,信息的損失量78.附:AIC推導(dǎo)KL損失/log似然損失:表示函數(shù)f與g之間的模型選擇:給定f,和數(shù)據(jù),選擇損失最小的模型參數(shù)作為參數(shù)估計(jì),即參數(shù)的估計(jì)為其MLE所以損失函數(shù)為:模型選擇的目標(biāo)是選擇風(fēng)險(xiǎn)(損失的期望)最小的模型風(fēng)險(xiǎn)為期望KL損失:等價(jià)于最大化期望log似然極大似然等價(jià)于最小KL散度,參見MLE的性質(zhì)部分log似然79.模型選擇:給定f,和數(shù)據(jù)

其中為當(dāng)樣本數(shù)時(shí)的MLE(最小化KL損失的參數(shù)的值),為Fisher信息80.,為Fisher信息80.當(dāng)時(shí),其中p為參數(shù)的維數(shù)(特征的維數(shù))如果f為一個(gè)較好的模型(在g附近),則81.當(dāng)時(shí),81.

所以最小風(fēng)險(xiǎn)的模型等價(jià)于其中第一項(xiàng)的估計(jì)為所以AIC為:82.82.今天內(nèi)容:模型選擇Occam'srazor測(cè)試誤差/訓(xùn)練誤差訓(xùn)練誤差的樂觀性估計(jì)MallowsCp統(tǒng)計(jì)量AICBIC/MDLSRM直接估計(jì)測(cè)試誤差交叉驗(yàn)證Bootstrap83.今天內(nèi)容:模型選擇Occam'srazor1.“模型”我們說的“模型”有時(shí)指的是模型類別,例如所有2個(gè)高斯的混合模型和所有3個(gè)高斯的混合模型。有時(shí)也指在一個(gè)類別的模型中的一員,如參數(shù)的值為特定值。也就是說,模型的類別是固定的,而考慮的是不同的參數(shù)值。在實(shí)際應(yīng)用中,我們通常同時(shí)考慮上述兩種情況,也就是說:參數(shù)的選擇統(tǒng)計(jì)決策理論部分已經(jīng)討論

,在此主要討論不同函數(shù)族的選擇

84.“模型”我們說的“模型”有時(shí)指的是模型類別,例如所有Occam'srazorWilliamofOccham(1285–1348)fromwikipediaOccam'srazor:

Entianonsuntmultiplicandapraeternecessitatem

Or:

Entitiesshouldnotbemultipliedunnecessarily

——theexplanationofanyphenomenonshouldmakeasfewassumptionsaspossible,eliminating,or"shavingoff",thosethatmakenodifferenceintheobservablepredictionsoftheexplanatoryhypothesisortheory.85.Occam'srazorWilliamofOcchaOccam'srazor例:樹后面有多少個(gè)盒子?√86.Occam'srazor例:樹后面有多少個(gè)盒子?√4.模型選擇訓(xùn)練數(shù)據(jù)既包含輸入—輸出之間的規(guī)律也包含噪聲模型匹配時(shí)會(huì)匹配上述兩種情況如果模型太復(fù)雜,會(huì)將噪聲也包含在模型中所以,好的模型足夠?qū)斎搿敵鲋g的規(guī)律建模不夠?qū)υ肼暯#僭O(shè)噪聲較弱)87.模型選擇訓(xùn)練數(shù)據(jù)5.一個(gè)回歸的例子

樣本數(shù)n=10用M階多項(xiàng)式擬合:88.一個(gè)回歸的例子樣本數(shù)n=106.一個(gè)回歸的例子(2)0階多項(xiàng)式擬合89.一個(gè)回歸的例子(2)0階多項(xiàng)式擬合7.一個(gè)回歸的例子(3)1階多項(xiàng)式擬合90.一個(gè)回歸的例子(3)1階多項(xiàng)式擬合8.一個(gè)回歸的例子(4)3階多項(xiàng)式擬合91.一個(gè)回歸的例子(4)3階多項(xiàng)式擬合9.一個(gè)回歸的例子(5)9階多項(xiàng)式擬合92.一個(gè)回歸的例子(5)9階多項(xiàng)式擬合10.一個(gè)回歸的例子(6)過擬合:93.一個(gè)回歸的例子(6)過擬合:11.一個(gè)回歸的例子(7)回歸系數(shù):94.一個(gè)回歸的例子(7)回歸系數(shù):12.一個(gè)回歸的例子(8)9階多項(xiàng)式擬合,訓(xùn)練樣本數(shù)n=1595.一個(gè)回歸的例子(8)9階多項(xiàng)式擬合,訓(xùn)練樣本數(shù)n=1513.一個(gè)回歸的例子(9)9階多項(xiàng)式擬合,訓(xùn)練樣本數(shù)n=10096.一個(gè)回歸的例子(9)9階多項(xiàng)式擬合,訓(xùn)練樣本數(shù)n=10014一個(gè)回歸的例子(10)嶺回歸:最小化97.一個(gè)回歸的例子(10)嶺回歸:最小化15.一個(gè)回歸的例子(11)嶺回歸98.一個(gè)回歸的例子(11)嶺回歸16.一個(gè)回歸的例子(12)嶺回歸99.一個(gè)回歸的例子(12)嶺回歸17.一個(gè)回歸的例子(13)嶺回歸系數(shù)100.一個(gè)回歸的例子(13)嶺回歸系數(shù)18.目標(biāo)模型選擇:估計(jì)不同模型的性能,選出最好的模型模型評(píng)估:已經(jīng)選定最終的模型,估計(jì)它在新數(shù)據(jù)上的預(yù)測(cè)誤差(泛化誤差)提升模型的性能:模型平均BaggingBoost…教材第8章101.目標(biāo)模型選擇:估計(jì)不同模型的性能,選出最好的模型教材第8章1模型選擇和模型評(píng)估當(dāng)樣本足夠多時(shí),可以將數(shù)據(jù)分成三份訓(xùn)練集:估計(jì)模型的參數(shù)校驗(yàn)集:估計(jì)模型的預(yù)測(cè)誤差測(cè)試集:計(jì)算最終選定的模型的泛化誤差但通常沒有足夠多樣本,而且也很難說明多少足夠數(shù)據(jù)是足夠的依賴于基礎(chǔ)數(shù)據(jù)的信噪比和模型的復(fù)雜程度訓(xùn)練集校驗(yàn)集測(cè)試集102.模型選擇和模型評(píng)估當(dāng)樣本足夠多時(shí),可以將數(shù)據(jù)分成三份訓(xùn)練集校模型選擇目標(biāo):選擇使測(cè)試誤差最小的模型M,稱為模型選擇。103.模型選擇目標(biāo):選擇使測(cè)試誤差最小的模型M,稱為模型選擇。21訓(xùn)練誤差與測(cè)試誤差測(cè)試誤差,亦稱泛化誤差(generalizationerror),是在與訓(xùn)練數(shù)據(jù)同分布的獨(dú)立測(cè)試樣本上的風(fēng)險(xiǎn)(平均損失):亦稱期望風(fēng)險(xiǎn)訓(xùn)練誤差是在訓(xùn)練樣本上的平均損失:亦稱經(jīng)驗(yàn)風(fēng)險(xiǎn)104.訓(xùn)練誤差與測(cè)試誤差測(cè)試誤差,亦稱泛化誤差(generaliz訓(xùn)練誤差與測(cè)試誤差目標(biāo)是選擇測(cè)試誤差最小的模型但測(cè)試誤差很難計(jì)算/估計(jì)用訓(xùn)練誤差估計(jì)但訓(xùn)練誤差是測(cè)試誤差的欠估計(jì)在選擇合適復(fù)雜性的模型時(shí),存在偏差-方差的平衡訓(xùn)練誤差的樂觀性105.訓(xùn)練誤差與測(cè)試誤差目標(biāo)是選擇測(cè)試誤差最小的模型訓(xùn)練誤差的樂觀訓(xùn)練誤差與測(cè)試誤差經(jīng)驗(yàn)風(fēng)險(xiǎn)/訓(xùn)練誤差是否是期望風(fēng)險(xiǎn)/測(cè)試誤差的一個(gè)好的估計(jì)?隨樣本集容量n→∞漸進(jìn)成立在小樣本條件下,并不是一個(gè)好的估計(jì)訓(xùn)練誤差是測(cè)試誤差的欠估計(jì)(有偏估計(jì))訓(xùn)練誤差的樂觀性106.訓(xùn)練誤差與測(cè)試誤差經(jīng)驗(yàn)風(fēng)險(xiǎn)/訓(xùn)練誤差是否是期望風(fēng)險(xiǎn)/測(cè)試誤差訓(xùn)練誤差的樂觀性通常我們有因此,為了選擇模型,我們可以對(duì)進(jìn)行估計(jì),或以某種方式估計(jì)R(M)欠擬合程度+復(fù)雜性懲罰107.訓(xùn)練誤差的樂觀性通常我們有欠擬合程度+復(fù)雜性懲罰25.訓(xùn)練誤差的樂觀性估計(jì)預(yù)測(cè)誤差的方法估計(jì)樂觀性,然后與訓(xùn)練誤差相加AIC/BIC/MDL等(模型與參數(shù)為線性關(guān)系時(shí))SRM直接估計(jì)測(cè)試誤差

交叉驗(yàn)證/bootstrap對(duì)任意損失函數(shù)、非線性自適應(yīng)擬合技術(shù)都適用108.訓(xùn)練誤差的樂觀性估計(jì)預(yù)測(cè)誤差的方法26.估計(jì)樂觀性通過各種技巧(通常是漸近性)估計(jì)樂觀性109.估計(jì)樂觀性通過各種技巧(通常是漸近性)估計(jì)樂觀性27.MallowsCp

統(tǒng)計(jì)量統(tǒng)計(jì)量:

使用所有特征的模型110.MallowsCp統(tǒng)計(jì)量統(tǒng)計(jì)量AIC:AkaikeInformationCriterion當(dāng)采用log似然作為損失函數(shù),測(cè)試誤差為其中為MLE,模型為,似然函數(shù)為則訓(xùn)練誤差為其中為在訓(xùn)練集上的log似然。i為測(cè)試集上數(shù)據(jù)索引111.AIC:AkaikeInformationCriteriAIC:AkaikeInformationCriterion當(dāng)時(shí),其中這導(dǎo)出R(M)的一個(gè)估計(jì):AIC其中為從一個(gè)低偏差(復(fù)雜的)估計(jì)的MSE獲得。(高斯模型時(shí),對(duì)數(shù)似然與平方誤差損失一致)112.AIC:AkaikeInformationCriteriBIC:BayesianInformationCriterion類似AIC,可用于極大化對(duì)數(shù)似然實(shí)現(xiàn)的擬合中其中所以同AIC113.BIC:BayesianInformationCritBIC:Motivation用貝葉斯方法選擇模型114.BIC:Motivation用貝葉斯方法選擇模型32.回顧貝葉斯方法為書寫簡(jiǎn)單,記訓(xùn)練數(shù)據(jù)為假設(shè)已知模型的的形式,參數(shù)的貝葉斯估計(jì)為(見參數(shù)估計(jì)部分)定義模型參數(shù)的先驗(yàn)分布:和模型似然:當(dāng)有數(shù)據(jù)Z到達(dá)后,參數(shù)的分布(后驗(yàn)分布)變得更確定qs115.回顧貝葉斯方法為書寫簡(jiǎn)單,記訓(xùn)練數(shù)據(jù)為qs33.貝葉斯方法與模型選擇給定一些列侯選模型

,并且模型參數(shù)為某個(gè)給定的模型的后驗(yàn)概率為:表示模型的先驗(yàn)

表示證據(jù)(參數(shù)估計(jì)中的歸一化因子)為了比較兩個(gè)模型,可以比較后驗(yàn)比:如果比值>1,則選擇第1個(gè)模型。116.貝葉斯方法與模型選擇給定一些列侯選模型貝葉斯方法與模型選擇

其中先驗(yàn)比可以根據(jù)美學(xué)原理或經(jīng)驗(yàn)確定:如簡(jiǎn)單的模型先驗(yàn)更高但先驗(yàn)比不是必須的,即使假設(shè)模型的先驗(yàn)是均勻的,即先驗(yàn)比為常數(shù),貝葉斯規(guī)則也傾向于選擇能解釋數(shù)據(jù)的最簡(jiǎn)單模型:Occam剃刀原理。Bayes因子表示數(shù)據(jù)Z對(duì)后驗(yàn)比值的貢獻(xiàn)(證據(jù))根據(jù)證據(jù)對(duì)模型排序117.貝葉斯方法與模型選擇35.例:Occam剃刀原理簡(jiǎn)單模型只對(duì)有限范圍內(nèi)做預(yù)測(cè)

復(fù)雜模型(如有更多自由參數(shù))能對(duì)更寬范圍做預(yù)測(cè)但對(duì)區(qū)域中的數(shù)據(jù),的預(yù)測(cè)不如強(qiáng)118.例:Occam剃刀原理36.證據(jù)證據(jù)(evidence)通常會(huì)在最可能的參數(shù)附近有一個(gè)很強(qiáng)的峰。以一維參數(shù)為例:利用Laplace方法近似,即用被積函數(shù)乘以其寬度119.證據(jù)證據(jù)(evidence)37.Occam因子(參數(shù)為多維情況)

其中120.Occam因子(參數(shù)為多維情況)38.BIC:BayesianInformationCriterion當(dāng)模型為線性模型時(shí)用Laplace近似其中為極大似然估計(jì),為模型中自由參數(shù)的數(shù)目當(dāng)損失函數(shù)取,導(dǎo)出貝葉斯信息準(zhǔn)則:121.BIC:BayesianInformationCritBICAIC不是一致的,而BIC是一致的。也就是說,選擇最小BIC的模型等價(jià)于選擇最大后驗(yàn)概率的模型(在漸近意義下)。事實(shí)上,模型的后驗(yàn)概率為不僅可以估計(jì)最好的模型,而且可以評(píng)估所考慮模型的相關(guān)指標(biāo)。但:假設(shè)候選模型包含正確的模型“Essentially,allmodelsarewrong,butsomeareuseful

”G.Box(1987)122.BICAIC不是一致的,而BIC是一致的。也就是說,選擇最小最小描述長(zhǎng)度MDL最小描述長(zhǎng)度MDL(minimumdescriptionlength)采用與BIC完全相同的選擇準(zhǔn)則,但它源自數(shù)據(jù)壓縮/最優(yōu)編碼BIC與MDL都只適用于似然損失。Rissanen,J.1978.Modelingbyshortestdatadescription.Automatica,14,465-471.123.最小描述長(zhǎng)度MDL最小描述長(zhǎng)度MDL(minimumdesMDL可譯變長(zhǎng)編碼:越頻繁的信息碼長(zhǎng)越短平均信息長(zhǎng)度越短消息的長(zhǎng)度與事件zi的概率之間的關(guān)系為:為了傳遞具有概率密度為的隨機(jī)變量zi,需要大約位平均信息長(zhǎng)度熵:消息長(zhǎng)度的下界124.MDL可譯變長(zhǎng)編碼:越頻繁的信息碼長(zhǎng)越短熵:消息長(zhǎng)度的下界4MDL假設(shè)我們有以θ為參數(shù)的模型M,和包含輸入輸出數(shù)據(jù)Z=(X,y),則傳遞輸出的消息長(zhǎng)度為:選擇最小長(zhǎng)度的模型等價(jià)于選擇最大后驗(yàn)概率的模型,同BIC傳遞模型參數(shù)所需的平均消息長(zhǎng)度用于傳遞模型與目標(biāo)差別所需要的平均消息長(zhǎng)度125.MDL假設(shè)我們有以θ為參數(shù)的模型M,和包含輸入輸出數(shù)據(jù)Z=(AIC

vs.BICAIC:選擇使最小的模型,也是使最大的模型,其中為log似然函數(shù),表示模型中有效參數(shù)的數(shù)目極大似然,同時(shí)模型復(fù)雜度極小BIC:用貝葉斯方法選擇模型選擇最大后驗(yàn)概率的模型126.AICvs.BICAIC:44.AIC

vs.BIC均使用模型參數(shù)數(shù)目來度量復(fù)雜度對(duì)復(fù)雜度的懲罰參數(shù)的選擇不同BIC:漸近相容樣本容量n→∞時(shí),選擇正確模型的概率→1有限樣本情況下,當(dāng)取高斯噪聲時(shí),,BIC中因子2被logn代替,對(duì)復(fù)雜性施加更嚴(yán)厲的懲罰,傾向于選擇簡(jiǎn)單模型,AIC傾向于選擇復(fù)雜模型127.AICvs.BIC均使用模型參數(shù)數(shù)目來度量復(fù)雜度45.有效參數(shù)數(shù)目AIC/BIC中參數(shù)的數(shù)目可以擴(kuò)展到使用正則化擬合的模型對(duì)線性擬合其中為的矩陣,只依賴于輸入向量,與無關(guān)則有效參數(shù)的數(shù)目為如對(duì)嶺回歸則有效參數(shù)數(shù)目為128.有效參數(shù)數(shù)目AIC/BIC中參數(shù)的數(shù)目可以擴(kuò)展到使用正則化擬VC維

(Vapnik-ChernovenkisDimension)之前的樂觀性估計(jì)都適用于簡(jiǎn)單模型和基于似然函數(shù)的。VC理論給出了模型復(fù)雜性更一般的度量函數(shù)類的VC維可被函數(shù)集成員打散(shatter)的點(diǎn)的最大數(shù)目打散不管怎樣改變每個(gè)點(diǎn)的位置和標(biāo)記,某個(gè)類別的函數(shù)中的一員都能完全分開這些點(diǎn),則稱為這些點(diǎn)能被該類別的函數(shù)打散。129.VC維

(Vapnik-ChernovenkisDimenVC維2D線性函數(shù)的VC維為3,等于參數(shù)的個(gè)數(shù)正弦函數(shù)的VC維:無窮,但參數(shù)只有一個(gè):頻率130.VC維2D線性函數(shù)的VC維為3,等于參數(shù)的個(gè)數(shù)正弦函數(shù)的VCVC維如線性函數(shù)能打散2D平面上任意3點(diǎn),因此線性函數(shù)的VC維是3。通常D維線性函數(shù)的VC維是D+1,也就是自由參數(shù)的數(shù)目。一個(gè)非線性的函數(shù)族的VC維可能無窮大,因?yàn)橥ㄟ^選擇合適的參數(shù)θ,任何點(diǎn)的集合都能被該類的函數(shù)打散。實(shí)值函數(shù)類的VC維定義指示函數(shù)類的VC維,其中β在f

的值域上取值。131.VC維如線性函數(shù)能打散2D平面上任意3點(diǎn),因此線性函數(shù)的VCVC維函數(shù)集的VC維不一定等于自由參數(shù)的個(gè)數(shù)可為等于、大于或小于尚無一般方法對(duì)任意函數(shù)集計(jì)算VC維,只有一些函數(shù)集合的VC維可計(jì)算線性函數(shù)多項(xiàng)式三角函數(shù)等132.VC維函數(shù)集的VC維不一定等于自由參數(shù)的個(gè)數(shù)50.VC維與風(fēng)險(xiǎn)的界對(duì)兩類分類問題,假設(shè)函數(shù)類的VC維為h,則對(duì)該函數(shù)類中的每個(gè)模型,至少有的概率滿足其中對(duì)回歸問題對(duì)回歸問題,建議對(duì)分類問題,沒有建議,但對(duì)應(yīng)最壞的情況133.VC維與風(fēng)險(xiǎn)的界對(duì)兩類分類問題,假設(shè)函數(shù)類的VC維為h,則對(duì)VC維與風(fēng)險(xiǎn)的界

如果h有限的話,模型族的復(fù)雜性可以隨n增加而增加當(dāng)h

較小時(shí),R(M)

和Rtr之間的差異小所以正則化回歸(如嶺回歸)比一般最小二乘的推廣型更好134.VC維與風(fēng)險(xiǎn)的界52.VC維與風(fēng)險(xiǎn)的界

Φ稱為置信范圍,隨n增大而減小,隨h增加而增加,與AIC中的項(xiàng)d/n一致訓(xùn)練誤差有時(shí)亦稱經(jīng)驗(yàn)風(fēng)險(xiǎn),測(cè)試誤差亦稱期望風(fēng)險(xiǎn)對(duì)于特定的問題,樣本數(shù)目n一般是固定的,VC維越大,測(cè)試誤差與訓(xùn)練誤差之間的差就越大。因此我們?cè)谶x擇模型時(shí),不但要使訓(xùn)練誤差最小化,還要使模型的復(fù)雜性也即VC維盡量小,從而使測(cè)試誤差最小。135.VC維與風(fēng)險(xiǎn)的界53.結(jié)構(gòu)風(fēng)險(xiǎn)最小化原則

(StructuralRiskMinimization,SRM)這個(gè)上界是對(duì)函數(shù)類中的全部成員(參數(shù)不同)給出可能的上界,而AIC描述的是類中某個(gè)特定成員(MLE)的樂觀性估計(jì)。

結(jié)構(gòu)風(fēng)險(xiǎn)最小化原則選擇具有最小上界的函數(shù)類別。注意:VC理論并沒有給出測(cè)試誤差的真正估計(jì),只是測(cè)試誤差的上界,所給出的界往往是松的136.結(jié)構(gòu)風(fēng)險(xiǎn)最小化原則

(StructuralRiskMin結(jié)構(gòu)風(fēng)險(xiǎn)最小化設(shè)計(jì)模型的目標(biāo):同時(shí)最小化經(jīng)驗(yàn)風(fēng)險(xiǎn)和置信范圍如何同時(shí)最小化-結(jié)構(gòu)風(fēng)險(xiǎn)最小化原則把函數(shù)集S分解為一個(gè)函數(shù)子集序列(子集結(jié)構(gòu)):S1≤S2……≤Sk……≤S,使得各子集能夠按照VC維的大小排列:h1≤h2≤……h(huán)k≤…,同一個(gè)子集中的置信范圍就相同137.結(jié)構(gòu)風(fēng)險(xiǎn)最小化設(shè)計(jì)模型的目標(biāo):55.結(jié)構(gòu)風(fēng)險(xiǎn)最小化根據(jù)函數(shù)類的性質(zhì),將它劃分為一系列嵌套的子集如多項(xiàng)式的階數(shù)增加;嶺回歸的λ減??;神經(jīng)元網(wǎng)絡(luò)的隱含節(jié)點(diǎn)數(shù)據(jù)增加…學(xué)習(xí)問題:選擇一個(gè)適當(dāng)?shù)暮瘮?shù)子集(根據(jù)推廣性)并在該子集中選擇最好的函數(shù)(根據(jù)經(jīng)驗(yàn)風(fēng)險(xiǎn))138.結(jié)構(gòu)風(fēng)險(xiǎn)最小化根據(jù)函數(shù)類的性質(zhì),將它劃分為一系列嵌套的子集5兩種構(gòu)造性方法一種方法:找到合適的模型類別,然后再這個(gè)類別的模型中找到使訓(xùn)練誤差最小的函數(shù),即保持置信范圍固定(通過選擇合適的模型類別)并最小化經(jīng)驗(yàn)風(fēng)險(xiǎn)如人工神經(jīng)網(wǎng)絡(luò)先確定網(wǎng)絡(luò)的結(jié)構(gòu),然后再學(xué)習(xí)網(wǎng)絡(luò)的系數(shù)另一種方法:保持經(jīng)驗(yàn)風(fēng)險(xiǎn)固定(如為0),最小化置信范圍如SVM139.兩種構(gòu)造性方法一種方法:找到合適的模型類別,然后再這個(gè)類別的直接估計(jì)測(cè)試誤差重采樣技術(shù):直接估計(jì)測(cè)試誤差R(M)交叉驗(yàn)證bootstrap140.直接估計(jì)測(cè)試誤差重采樣技術(shù):直接估計(jì)測(cè)試誤差R(M)58.交叉驗(yàn)證最簡(jiǎn)單、最常用的估計(jì)預(yù)測(cè)誤差的方法思想:直接估計(jì)樣本外誤差

應(yīng)用到來自X與Y的聯(lián)合分布的獨(dú)立的測(cè)試集在-折交叉驗(yàn)證中,數(shù)據(jù)被分成大致相等的份。對(duì)第份,用其余

份數(shù)據(jù)用于擬合模型

,并在第份數(shù)據(jù)上計(jì)算擬合好的模型的預(yù)測(cè)誤差141.交叉驗(yàn)證最簡(jiǎn)單、最常用的估計(jì)預(yù)測(cè)誤差的方法59.K-折交叉驗(yàn)證數(shù)據(jù)被分成大致相等的K份第k=1,…,K份數(shù)據(jù)作為校驗(yàn)集,其余K-1份數(shù)據(jù)用于訓(xùn)練模型

,并在第k份數(shù)據(jù)上計(jì)算訓(xùn)練好的模型的預(yù)測(cè)誤差例5-折交叉驗(yàn)證訓(xùn)練訓(xùn)練訓(xùn)練訓(xùn)練校驗(yàn)第1折:校驗(yàn)訓(xùn)練訓(xùn)練訓(xùn)練訓(xùn)練第2折:訓(xùn)練校驗(yàn)訓(xùn)練訓(xùn)練訓(xùn)練第3折:訓(xùn)練訓(xùn)練校驗(yàn)訓(xùn)練訓(xùn)練第4折:訓(xùn)練訓(xùn)練訓(xùn)練校驗(yàn)訓(xùn)練第5折:142.K-折交叉驗(yàn)證數(shù)據(jù)被分成大致相等的K份訓(xùn)練訓(xùn)練訓(xùn)練訓(xùn)練校驗(yàn)第交叉驗(yàn)證交叉驗(yàn)證對(duì)預(yù)測(cè)誤差的估計(jì)為其中為去掉第k份數(shù)據(jù)后訓(xùn)練的模型。

對(duì)測(cè)試誤差提供了一個(gè)估計(jì),

通過最小化確定調(diào)整參數(shù):最后被選中的模型為用所有數(shù)據(jù)擬合的模型143.交叉驗(yàn)證交叉驗(yàn)證對(duì)預(yù)測(cè)誤差的估計(jì)為61.學(xué)習(xí)曲線由于訓(xùn)練集減小,會(huì)引起偏差144.學(xué)習(xí)曲線由于訓(xùn)練集減小,會(huì)引起偏差62.交叉驗(yàn)證:K的值?如果稱為留一交叉驗(yàn)證(leave-one-outcross-validation,LOOCV)。這是近似無偏的,但由于n個(gè)訓(xùn)練集彼此之間很相似,可能會(huì)有較高的方差。并且計(jì)算代價(jià)也很高(計(jì)算n次)。另

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論