5評(píng)估假設(shè)機(jī)器學(xué)習(xí)ppt課件_第1頁(yè)
5評(píng)估假設(shè)機(jī)器學(xué)習(xí)ppt課件_第2頁(yè)
5評(píng)估假設(shè)機(jī)器學(xué)習(xí)ppt課件_第3頁(yè)
5評(píng)估假設(shè)機(jī)器學(xué)習(xí)ppt課件_第4頁(yè)
5評(píng)估假設(shè)機(jī)器學(xué)習(xí)ppt課件_第5頁(yè)
已閱讀5頁(yè),還剩44頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、機(jī)器學(xué)習(xí)第5章 評(píng)估假設(shè)概述 對(duì)假設(shè)的精度進(jìn)行評(píng)估是機(jī)器學(xué)習(xí)中的基本問(wèn)題 本章介紹用統(tǒng)計(jì)方法估計(jì)假設(shè)精度,主要解決以下三個(gè)問(wèn)題: 已知一個(gè)假設(shè)在有限數(shù)據(jù)樣本上觀察到的精度,怎樣估計(jì)它在其他實(shí)例上的精度? 如果一個(gè)假設(shè)在某些數(shù)據(jù)樣本上好于另一個(gè),那么一般情況下該假設(shè)是否更準(zhǔn)確? 當(dāng)數(shù)據(jù)有限時(shí),怎樣高效地利用這些數(shù)據(jù),通過(guò)它們既能學(xué)習(xí)到假設(shè),還能估計(jì)其精度? 統(tǒng)計(jì)的方法,結(jié)合有關(guān)數(shù)據(jù)基準(zhǔn)分布的假定,使我們可以用有限數(shù)據(jù)樣本上的觀察精度來(lái)逼近整個(gè)數(shù)據(jù)分布上的真實(shí)精度動(dòng)機(jī) 對(duì)學(xué)習(xí)到的假設(shè)進(jìn)行盡可能準(zhǔn)確地性能評(píng)估十分重要 為了知道是否可以使用該假設(shè) 是許多學(xué)習(xí)方法的重要組成部分 當(dāng)給定的數(shù)據(jù)集有限時(shí),要

2、學(xué)習(xí)一個(gè)概念并估計(jì)其將來(lái)的精度,存在兩個(gè)很關(guān)鍵的困難: 估計(jì)的困難 使用與訓(xùn)練樣例和假設(shè)無(wú)關(guān)的測(cè)試樣例 估計(jì)的方差 即使假設(shè)精度在獨(dú)立的無(wú)偏測(cè)試樣例上測(cè)量,得到的精度仍可能與真實(shí)精度不同。 測(cè)試樣例越少,產(chǎn)生的方差越大 本章討論了對(duì)學(xué)到的假設(shè)的評(píng)估、對(duì)兩個(gè)假設(shè)精度的比較、兩個(gè)學(xué)習(xí)算法精度的比較學(xué)習(xí)問(wèn)題的框架 有一所有可能實(shí)例的空間X,其中定義了多個(gè)目標(biāo)函數(shù),我們假定X中不同實(shí)例具有不同的出現(xiàn)頻率。一種合適的建模方式是,假定存在一未知的概率分布D,它定義了X中每一實(shí)例出現(xiàn)的概率。 學(xué)習(xí)任務(wù)是在假設(shè)空間上學(xué)習(xí)一個(gè)目標(biāo)概念,訓(xùn)練樣例的每一個(gè)實(shí)例按照分布D獨(dú)立地抽取,然后連同正確的目標(biāo)值提供給學(xué)習(xí)器。

3、評(píng)估假設(shè)的問(wèn)題 給定假設(shè)h和包含若干按D分布抽取的樣例的數(shù)據(jù)集,如何針對(duì)將來(lái)按同樣分布抽取的實(shí)例,得到對(duì)h的精度最好估計(jì) 這一精度估計(jì)的可能的誤差是多少樣本錯(cuò)誤率和真實(shí)錯(cuò)誤率 定義:假設(shè)h關(guān)于目標(biāo)函數(shù)f和數(shù)據(jù)樣本S的樣本錯(cuò)誤率標(biāo)記為errors(h)) 定義:假設(shè)h關(guān)于目標(biāo)函數(shù)f和分布D的真實(shí)錯(cuò)誤率標(biāo)記為errorD(h))Sxsxhxfnherror)(),(1)(otherwisexhxfxhxf)()(01)(),(| Sn )()(Pr)(xhxfherrorDxD樣本錯(cuò)誤率和真實(shí)錯(cuò)誤率2) 我們想知道的是假設(shè)的真實(shí)誤差,因?yàn)檫@是在分類未來(lái)樣例時(shí)可以預(yù)料到的誤差。 我們所能測(cè)量的只是樣

4、本錯(cuò)誤率,因?yàn)闃颖緮?shù)據(jù)是我們知道的。 本節(jié)要考慮的問(wèn)題是:樣本錯(cuò)誤率在何種程度上提供了對(duì)真實(shí)錯(cuò)誤率的估計(jì)?離散值假設(shè)的置信區(qū)間 先考慮離散值假設(shè)的情況,比如: 樣本S包含n個(gè)樣例,它們的抽取按照概率分布D,抽取過(guò)程是相互獨(dú)立的,并且不依賴于假設(shè)h n=30 假設(shè)h在這n個(gè)樣例上犯了r個(gè)錯(cuò)誤 根據(jù)上面的條件,統(tǒng)計(jì)理論可以給出以下斷言: 沒(méi)有其他信息的話,真實(shí)錯(cuò)誤率errorD(h)最可能的值是樣本錯(cuò)誤率errorS(h)=r/n 有大約95%的可能性,真實(shí)錯(cuò)誤率處于下面的區(qū)間內(nèi):nherrorherrorherrorSSS)(1)(96. 1)(舉例說(shuō)明 數(shù)據(jù)樣本S包含n=40個(gè)樣例,并且假設(shè)h

5、在這些數(shù)據(jù)上產(chǎn)生了r=12個(gè)錯(cuò)誤,這樣樣本錯(cuò)誤率為errorS(h)=12/40=0.3 如果沒(méi)有更多的信息,對(duì)真實(shí)錯(cuò)誤率errorD(h)的最好的估計(jì)即為0.3 如果另外收集40個(gè)隨機(jī)抽取的樣例S,樣本錯(cuò)誤率errorS(h)將與原來(lái)的errorS(h)存在一些差別 如果不斷重復(fù)這一實(shí)驗(yàn),每次抽取一個(gè)包含40樣例的樣本,將會(huì)發(fā)現(xiàn)約95%的實(shí)驗(yàn)中計(jì)算所得的區(qū)間包含真實(shí)錯(cuò)誤率 將上面的區(qū)間稱為errorD(h)的95%置信區(qū)間估計(jì)置信區(qū)間表達(dá)式的推廣 常數(shù)1.96是由95%這一置信度確定的 定義zN為計(jì)算N%置信區(qū)間的常數(shù)取值見(jiàn)表5-1),計(jì)算errorD(h)的N%置信區(qū)間的一般表達(dá)式公式5.

6、1為: 可以求得同樣情況下的68%置信區(qū)間,從直覺(jué)上可以看出68%置信區(qū)間要小于95%置信區(qū)間,因?yàn)闇p小了要求errorD(h)落入的概率nherrorherrorzherrorSSNS)(1)()(置信區(qū)間表達(dá)式的推廣2) 公式5.1只能應(yīng)用于離散值假設(shè),它假定樣本S抽取的分布與將來(lái)的數(shù)據(jù)抽取的分布相同,并且假定數(shù)據(jù)不依賴于所測(cè)試的假設(shè) 公式5.1只提供了近似的置信區(qū)間,這一近似在至少包含30個(gè)樣例,并且errorS(h)不太靠近0或1時(shí)很接近真實(shí)情況 判斷這種近似是否接近真實(shí)的更精確規(guī)則是:5)(1)(herrorherrornSS統(tǒng)計(jì)學(xué)中的基本定義和概念隨機(jī)變量某隨機(jī)變量Y的概率分布隨機(jī)

7、變量Y的期望值或均值隨機(jī)變量的方差Y的標(biāo)準(zhǔn)差二項(xiàng)分布正態(tài)分布中心極限定理估計(jì)量Y的估計(jì)偏差N%置信區(qū)間錯(cuò)誤率估計(jì)和二項(xiàng)比例估計(jì) 樣本錯(cuò)誤率和真實(shí)錯(cuò)誤率之間的差異與數(shù)據(jù)樣本大小的依賴關(guān)系如何? 給定從總體中隨機(jī)抽取的某些樣本的觀察比例,估計(jì)某個(gè)屬性在總體的比例 此處,我們感興趣的屬性是:假設(shè)h對(duì)實(shí)例錯(cuò)誤分類錯(cuò)誤率估計(jì)和二項(xiàng)比例估計(jì)2) 測(cè)量樣本錯(cuò)誤率相當(dāng)于在作一個(gè)有隨機(jī)輸出的實(shí)驗(yàn) 從分布D中隨機(jī)抽取n個(gè)獨(dú)立的實(shí)例,形成樣本S,然后測(cè)量樣本錯(cuò)誤率errorS(h) 將實(shí)驗(yàn)重復(fù)多次,每次抽取大小為n的不同的樣本Si,得到不同的 ,取決于Si的組成中的隨機(jī)差異 被稱為一隨機(jī)變量,一般情況下,可以將隨機(jī)

8、變量看成一個(gè)有隨機(jī)輸出的實(shí)驗(yàn)。隨機(jī)變量值即為隨機(jī)實(shí)驗(yàn)的觀察輸出)(herroriS)(herroriS錯(cuò)誤率估計(jì)和二項(xiàng)比例估計(jì)3) 設(shè)想要運(yùn)行k個(gè)這樣的隨機(jī)實(shí)驗(yàn),得到k個(gè)隨機(jī)變量值,以圖表的形式顯示觀察到的每個(gè)錯(cuò)誤率值的頻率 當(dāng)k不斷增長(zhǎng),該圖表將呈現(xiàn)如表5-3所顯示的分布,稱為二項(xiàng)分布二項(xiàng)分布 有一非均質(zhì)硬幣,要估計(jì)在拋硬幣時(shí)出現(xiàn)正面的概率p 投擲硬幣n次并計(jì)算出現(xiàn)正面的次數(shù)r,那么p的一個(gè)合理估計(jì)是r/n 如果重新進(jìn)行一次實(shí)驗(yàn),生成一個(gè)新的n次拋硬幣的集合,出現(xiàn)正面的次數(shù)r可能與前不同,得到對(duì)p的另一個(gè)估計(jì) 二項(xiàng)分布描述的是對(duì)任一可能的r值,這個(gè)正面概率為p的硬幣拋擲n次恰好出現(xiàn)r次正面的

9、概率二項(xiàng)分布2) 從拋擲硬幣的隨機(jī)樣本中估計(jì)p與在實(shí)例的隨機(jī)樣本上測(cè)試h以估計(jì)errorD(h)是相同的問(wèn)題 一次硬幣拋擲對(duì)應(yīng)于從D中抽取一個(gè)實(shí)例并測(cè)試它是否被h誤分類 一次隨機(jī)拋擲出現(xiàn)正面的概率p對(duì)應(yīng)于隨機(jī)抽取的實(shí)例被誤分類的概率errorD(h) 二項(xiàng)分布給出了一個(gè)一般形式的概率分布,無(wú)論用于表示n次硬幣出現(xiàn)正面的次數(shù)還是在n個(gè)樣例中假設(shè)出錯(cuò)的次數(shù) 二項(xiàng)分布的具體形式依賴于樣本大小n以及概率p或errorD(h)應(yīng)用二項(xiàng)分布的條件 有一基本實(shí)驗(yàn),其輸出可被描述為一隨機(jī)變量Y,隨機(jī)變量Y有兩種取值 在實(shí)驗(yàn)的任一次嘗試中Y=1的概率為常數(shù)p,它與其他實(shí)驗(yàn)嘗試無(wú)關(guān),因此Y=0的概率為1-p p為

10、預(yù)先未知,面臨的問(wèn)題是如何估計(jì) 基本實(shí)驗(yàn)的n次獨(dú)立嘗試按序列執(zhí)行,生成一個(gè)獨(dú)立同分布的隨機(jī)變量序列 隨機(jī)變量R表示n次實(shí)驗(yàn)中出現(xiàn)Yi=1的次數(shù),它取特定值r的概率由二項(xiàng)分布給出rnrpprnrnrR)1 ()!( !)Pr(均值 期望值是重復(fù)采樣隨機(jī)變量得到的值的平均 定義:考慮隨機(jī)變量Y可能的取值為y1.yn,Y的期望值EY定義如下: 如果隨機(jī)變量Y服從二項(xiàng)分布,那么可得EY=npniiiyYyYE1)Pr(方差 方差描述的是概率分布的寬度或散度,描述了隨機(jī)變量與其均值之間的差有多大 定義:隨機(jī)變量Y的方差VarY定義如下:描述了從Y的一個(gè)觀察值估計(jì)其均值EY的誤差平方的期望 隨機(jī)變量Y的標(biāo)

11、準(zhǔn)差Y 若隨機(jī)變量Y服從二項(xiàng)分布,則方差和標(biāo)準(zhǔn)差分別為:VarY=np(1-p)(2YEYEYVar)(2YEYEY)1 (pnpY估計(jì)量、偏差和方差 回到問(wèn)題:我們得出了隨機(jī)變量errorS(h)服從二項(xiàng)分布,那么errorS(h)和errorD(h)之間可能的差異是多少? 用5.2式定義的二項(xiàng)分布,可得errorS(h)=r/nerrorD(h)=p 統(tǒng)計(jì)學(xué)中將errorS(h)稱為errorD(h)的一個(gè)估計(jì)量 估計(jì)量是用來(lái)估計(jì)總體的某一參數(shù)的隨機(jī)變量,最關(guān)心的是它平均來(lái)說(shuō)是否能產(chǎn)生正確估計(jì)估計(jì)量、偏差和方差2) 估計(jì)偏差衡量估計(jì)量的期望值同真實(shí)參數(shù)值之間的差異 定義:針對(duì)任意參數(shù)p的估

12、計(jì)量Y的估計(jì)偏差是:EY-p 如果估計(jì)偏差為0,稱Y為p的無(wú)偏估計(jì)量,在此情況下,由多次重復(fù)實(shí)驗(yàn)生成的Y的多個(gè)隨機(jī)值的平均將收斂于p 由于errorS(h)服從二項(xiàng)分布,因此errorS(h)是errorD(h)的一個(gè)無(wú)偏估計(jì)量估計(jì)量、偏差和方差3) 對(duì)估計(jì)偏差的補(bǔ)充說(shuō)明: 要使errorS(h)是errorD(h)的無(wú)偏估計(jì),假設(shè)h和樣本S必須獨(dú)立選取 估計(jì)偏差不能與第2章介紹的學(xué)習(xí)器的歸納偏置相混淆 估計(jì)量的另一重要屬性是它的方差,給定多個(gè)無(wú)偏估計(jì)量,選取其中方差最小的 由方差的定義,所選擇的應(yīng)為參數(shù)值和估計(jì)值之間期望平方誤差最小的估計(jì)量、偏差和方差4) 一個(gè)例子 n=40個(gè)隨機(jī)樣例 r=

13、12個(gè)錯(cuò)誤 errorS(h)的標(biāo)準(zhǔn)差 一般地,若在n個(gè)隨機(jī)選取的樣本中有r個(gè)錯(cuò)誤,errorS(h)的標(biāo)準(zhǔn)差是: 近似地nppnrherrorS)1 ()(nherrorherrorSSherrorS)(1)()(置信區(qū)間 通常描述某估計(jì)的不確定性的方法是使用置信區(qū)間,真實(shí)的值以一定的概率落入該區(qū)間中,這樣的估計(jì)稱為置信區(qū)間估計(jì) 定義:某個(gè)參數(shù)p的N%置信區(qū)間是一個(gè)以N%的概率包含p的區(qū)間 由于估計(jì)量errorS(h)服從二項(xiàng)分布,這一分布的均值為errorD(h),標(biāo)準(zhǔn)差可由式5.9計(jì)算,因此,為計(jì)算95%置信區(qū)間,只需要找到一個(gè)以errorD(h)為中心的區(qū)間,它的寬度足以包含該分布全部

14、概率的95% 這提供了一個(gè)包圍errorD(h)的區(qū)間,使errorS(h)有95%機(jī)會(huì)落入其中,同樣它也指定了errorD(h)有95%的機(jī)會(huì)落入包圍errorS(h)的區(qū)間的大小置信區(qū)間2) 對(duì)于二項(xiàng)分布,計(jì)算置信區(qū)間很煩瑣,多數(shù)情況下,計(jì)算它的近似值 對(duì)于足夠大的樣本,二項(xiàng)分布可以由正態(tài)分布來(lái)近似,而正態(tài)分布的置信區(qū)間容易得到 如果隨機(jī)變量Y服從均值為,標(biāo)準(zhǔn)差為的一個(gè)正態(tài)分布,那么Y的任一觀察值y有N%的機(jī)會(huì)落入下面的區(qū)間 相似地,均值有N%的機(jī)會(huì)落入下面的區(qū)間NzNzy置信區(qū)間3) 式子5.1的三步推導(dǎo)過(guò)程 errorS(h)遵從二項(xiàng)分布,其均值為errorD(h),標(biāo)準(zhǔn)差如式5.9所

15、示 對(duì)于足夠大的樣本n,二項(xiàng)分布非常近似于正態(tài)分布 式5.11告訴我們?nèi)绾胃鶕?jù)正態(tài)分布的均值求出N%置信區(qū)間 式子5.1的推導(dǎo)中有兩個(gè)近似 估計(jì)errorS(h)的標(biāo)準(zhǔn)差,我們將errorD(h)近似為errorS(h) 用正態(tài)分布近似二項(xiàng)分布 統(tǒng)計(jì)學(xué)的一般規(guī)則表明,這兩個(gè)近似在n=30或np(1-p)=5時(shí)工作得很好,對(duì)于較小的n值,最好使用列表的形式給出二項(xiàng)分布的具體值雙側(cè)和單側(cè)邊界 上述的置信區(qū)間是雙側(cè)的,有時(shí)用到單側(cè)邊界 例如問(wèn)題“errorD(h)至多為U的概率”,在只要限定h的最大錯(cuò)誤率,而不在乎真實(shí)錯(cuò)誤率是否小于估計(jì)錯(cuò)誤率時(shí),很自然提出這種問(wèn)題 由于正態(tài)分布關(guān)于其均值對(duì)稱,因此,

16、任意正態(tài)分布上的雙側(cè)置信區(qū)間能夠轉(zhuǎn)換為相應(yīng)的單側(cè)區(qū)間,置信度為原來(lái)的兩倍見(jiàn)圖5-1b) 由一個(gè)有下界L和上界U的100(1-)%置信區(qū)間,可得到一個(gè)下界為L(zhǎng)且無(wú)上界的100(1- /2)%置信區(qū)間,也得到一個(gè)有上界U且無(wú)下界的100(1- /2)%置信區(qū)間推導(dǎo)置信區(qū)間的一般方法 前面介紹的是針對(duì)一特定情況推導(dǎo)置信區(qū)間估計(jì):基于獨(dú)立抽取的n個(gè)樣本,估計(jì)離散值假設(shè)的errorD(h) 本節(jié)介紹的方法是在許多估計(jì)問(wèn)題中用到的通用的方法 基于大小為n的隨機(jī)抽取樣本的均值,來(lái)估計(jì)總體均值的問(wèn)題通用的過(guò)程的步驟 確定基準(zhǔn)總體中要估計(jì)的參數(shù)p,例如errorD(h) 定義一個(gè)估計(jì)量Y如errorS(h)),

17、它的選擇應(yīng)為最小方差的無(wú)偏估計(jì)量 確定控制估計(jì)量Y的概率分布DY,包括其均值和方差 通過(guò)尋找閾值L和U確定N%置信區(qū)間,以使這個(gè)按DY分布的隨機(jī)變量有N%機(jī)會(huì)落入L和U之間中心極限定理 考慮如下的一般框架 在n個(gè)獨(dú)立抽取的且服從同樣概率分布的隨機(jī)變量Y1.Yn中觀察試驗(yàn)值 令代表每一變量Yi服從的未知分布的均值,并令代表標(biāo)準(zhǔn)差,稱這些變量Yi為獨(dú)立同分布隨機(jī)變量 為了估計(jì)Yi服從的分布的均值,我們計(jì)算樣本的均值 中心極限定理說(shuō)明在n時(shí),所服從的概率分布為一正態(tài)分布,而不論Yi本身服從什么樣的分布 服從的分布均值為,而標(biāo)準(zhǔn)差為niinYnY11nYnYn中心極限定理2) 定理5.1中心極限定理考

18、慮獨(dú)立同分布的隨機(jī)變量Y1.Yn的集合,它們服從一任意的概率分布,均值為,有限方差為2,定義樣本均值為 ,當(dāng)n時(shí),式子 服從正態(tài)分布,均值為0且標(biāo)準(zhǔn)差為1 中心極限定理說(shuō)明在不知道獨(dú)立的Yi所服從的基準(zhǔn)分布的情況下,我們可以得知樣本均值 的分布形式,說(shuō)明了怎樣使用 的均值和方差來(lái)確定獨(dú)立的Yi的均值和方差 中心極限定理說(shuō)明了任意樣本均值的估計(jì)量服從的分布在n足夠大時(shí)可以近似為正態(tài)分布niinYnY11nYnYY兩個(gè)假設(shè)錯(cuò)誤率間的差異 問(wèn)題: 考慮某離散目標(biāo)函數(shù)的兩個(gè)假設(shè)h1和h2,h1在一擁有n1個(gè)隨機(jī)抽取的樣例的樣本S1上測(cè)試,h2在一擁有n2個(gè)從相同分布中抽取的樣例的樣本S2上測(cè)試,要估計(jì)

19、這兩個(gè)假設(shè)的真實(shí)錯(cuò)誤率間的差異d=errorD(h1)-errorD(h2)兩個(gè)假設(shè)錯(cuò)誤率間的差異2) 使用5.4節(jié)中描述的四個(gè)步驟來(lái)推導(dǎo)d的置信區(qū)間估計(jì) 確定待估計(jì)的參數(shù),如上所述的d 定義一估計(jì)量, 是d的無(wú)偏估計(jì)量,即E =d。由于對(duì)于較大的n1和n2,errorS1(h1)和errorS2(h2)都近似遵從正態(tài)分布,兩個(gè)正態(tài)分布的差仍為正態(tài)分布,方差為兩個(gè)正態(tài)分布的方差的和 現(xiàn)在知道了 服從均值為d、方差為2的正態(tài)分布,因此d的N%置信區(qū)間是)()(2121herrorherrordSSdd2221112)(1)()(1)(2211nherrorherrornherrorherrorS

20、SSSddNzd d兩個(gè)假設(shè)錯(cuò)誤率間的差異3) 上面分析的是h1和h2在相互獨(dú)立的數(shù)據(jù)樣本上測(cè)試的情況,如果在同一個(gè)樣本上測(cè)試h1和h2,那么也可以使用公式5.13計(jì)算置信區(qū)間 這種情況下的方差通常小于式子5.12給出的方差,這是因?yàn)閱蝹€(gè)樣本消除了兩個(gè)樣本組合帶來(lái)的隨機(jī)差異,這樣,由式子5.13給出的置信區(qū)間一般來(lái)說(shuō)偏于保守,但結(jié)果是正確的假設(shè)檢驗(yàn) 有時(shí)感興趣的是某個(gè)特定猜想正確的概率,而不是對(duì)某參數(shù)的置信區(qū)間估計(jì)。比如:errorD(h1)errorD(h2)的可能性有多大? 例子,假定分別用大小為100的獨(dú)立樣本S1和S2測(cè)量h1和h2的樣本錯(cuò)誤率為0.30和0.20,給定 ,問(wèn)error

21、D(h1)errorD(h2)的概率是多少?d0的概率是多少? 概率Pr(d0)等于 對(duì)d的過(guò)高估計(jì)不大于0.1的概率,也就是這個(gè)概率為 落入單側(cè)區(qū)間 d+0.10= +0.10的概率10. 0ddddd假設(shè)檢驗(yàn)2) 對(duì)于 落入單側(cè)區(qū)間 +0.10的概率,可以通過(guò)計(jì)算 分布在該區(qū)間的概率質(zhì)量來(lái)確定 落入這個(gè)單側(cè)區(qū)間的概率 將區(qū)間 errorD(h2)的概率約為95%。使用統(tǒng)計(jì)學(xué)術(shù)語(yǔ)表述為:接受errorD(h1)errorD(h2)假設(shè)的置信度是95%ddddddddddddd64. 110. 0d學(xué)習(xí)算法比較 有時(shí)感興趣的是比較兩個(gè)學(xué)習(xí)算法的性能,而不是兩個(gè)具體的假設(shè)本身 如何近似地檢驗(yàn)多個(gè)

22、學(xué)習(xí)算法? 如何確定兩個(gè)算法之間的差異在統(tǒng)計(jì)上是有意義的? 假定有LA和LB兩個(gè)算法,要確定為了學(xué)習(xí)一特定目標(biāo)函數(shù)f,平均來(lái)說(shuō)那個(gè)算法更好 定義“平均的一種合理方法是,從一基準(zhǔn)實(shí)例分布中抽取包含n個(gè)樣例的訓(xùn)練集合,在所有這樣的集合中測(cè)量?jī)蓚€(gè)算法的平均性能,即)()(SLerrorSLerrorEBDADDS學(xué)習(xí)算法比較2) 在實(shí)際的學(xué)習(xí)算法比較中,我們只有一個(gè)有限的樣本D0,把它分割成訓(xùn)練集合S0和測(cè)試集合T0,使用下式比較兩個(gè)學(xué)習(xí)到的假設(shè)的準(zhǔn)確度 上式與5.14有兩個(gè)重要的不同 使用errorT0(h)來(lái)近似errorD(h) 錯(cuò)誤率的差異測(cè)量是在一個(gè)訓(xùn)練集合S0上,而不是在從分布D中抽取的

23、所有樣本S上計(jì)算的期望值 改進(jìn)5.15式的一種方法是,將數(shù)據(jù)D0多次分割為不相交的訓(xùn)練和測(cè)試集合,然后在其中計(jì)算這些不同的實(shí)驗(yàn)的錯(cuò)誤率的平均值,見(jiàn)表5-5)()(0000SLerrorSLerrorBTAT學(xué)習(xí)算法比較3) 表5-5返回的 可被用作對(duì)公式5.14的一個(gè)估計(jì),更合適的說(shuō)法是把 看作下式的估計(jì) 估計(jì)式5.17的近似的N%置信區(qū)間可表示成 ,其中tN,k-1是一常數(shù),其意義類似于前面的zN,第一個(gè)下標(biāo)表示所需的置信度,第二個(gè)下標(biāo)表示自由度,常記作v,它與生成隨機(jī)變量的值時(shí)獨(dú)立的隨機(jī)事件數(shù)目相關(guān)。而 代表 所服從的概率分布的標(biāo)準(zhǔn)差的估計(jì),定義如下 注意當(dāng)自由度v時(shí),tN,v的值趨向常數(shù)

24、zN。)()(0SLerrorSLerrorEBDADDSstkN1, kiikks12)() 1(1學(xué)習(xí)算法比較4) 這里描述的比較學(xué)習(xí)算法的過(guò)程要在同樣的測(cè)試集合上測(cè)試兩個(gè)假設(shè),這與5.5節(jié)中描述的比較兩個(gè)用獨(dú)立測(cè)試集合評(píng)估過(guò)的假設(shè)不同。 使用相同樣本來(lái)測(cè)試假設(shè)被稱為配對(duì)測(cè)試,配對(duì)測(cè)試通常會(huì)產(chǎn)生更緊密地置信區(qū)間,因?yàn)樵谂鋵?duì)測(cè)試中任意的差異都來(lái)源于假設(shè)之間的差異。 若假設(shè)在分開(kāi)的數(shù)據(jù)樣本上的測(cè)試,兩個(gè)樣本錯(cuò)誤率之間的差異也可能部分來(lái)源于兩個(gè)樣本組成的不同。配對(duì)t測(cè)試 本節(jié)討論給定固定數(shù)據(jù)集時(shí)比較兩個(gè)學(xué)習(xí)算法的過(guò)程,并論證公式5.18和5.19 為了理解5.18中的置信區(qū)間,考慮一下的估計(jì)問(wèn)題

25、 給定一系列獨(dú)立同分布的隨機(jī)變量Y1Yk的觀察值 要估計(jì)這些Yi所服從的概率分布的均值 使用的估計(jì)量為樣本均值kiYikY11配對(duì)t測(cè)試2) 這一基于樣本均值估計(jì)分布均值的問(wèn)題非常普遍比如,早先的用errorS(h)估計(jì)errorD(h)) 由式5.18和5.19描述的t測(cè)試應(yīng)用于該問(wèn)題的一特殊情形,即每個(gè)單獨(dú)的Yi都遵循正態(tài)分布 考慮表5-5比較學(xué)習(xí)算法的過(guò)程的一個(gè)理想化形式,假定不是擁有固定樣本數(shù)據(jù)D0,而是從基準(zhǔn)實(shí)例分布中抽取新的訓(xùn)練樣例,使每一次循環(huán)需要的訓(xùn)練集Si和測(cè)試集Ti是從基準(zhǔn)實(shí)例分布中抽取 這一理想化方法能很好地匹配上面的估計(jì)問(wèn)題,該過(guò)程所測(cè)量的i對(duì)應(yīng)獨(dú)立同分布的隨機(jī)變量Yi

26、,其分布的均值對(duì)應(yīng)兩學(xué)習(xí)算法錯(cuò)誤率的期望差異。配對(duì)t測(cè)試3) 測(cè)試集Ti至少包含30個(gè)樣例,因此,單獨(dú)的i將近似遵循正態(tài)分布,因此,我們也要求Yi服從近似的正態(tài)分布,樣本均值 也遵循正態(tài)分布 由此,可以考慮使用前面的計(jì)算置信區(qū)間的表達(dá)式。然而,該公式要求我們知道這個(gè)分布的標(biāo)準(zhǔn)差,但這個(gè)標(biāo)準(zhǔn)差未知 t測(cè)試正好用于這樣的情形,即估計(jì)一系列獨(dú)立同正態(tài)分布的隨機(jī)變量的樣本均值 當(dāng)k趨近于無(wú)窮時(shí),t分布趨近于正態(tài)分布,即tN,k-1趨近于正態(tài)分布,因?yàn)闃颖疽?guī)模k增加時(shí), 收斂到真實(shí)的標(biāo)準(zhǔn)差,并且當(dāng)標(biāo)準(zhǔn)差確切已知時(shí)可使用zN。YYs實(shí)際考慮 上面的討論說(shuō)明了在使用樣本均值來(lái)估計(jì)一個(gè)包含k個(gè)獨(dú)立同正態(tài)分布的隨機(jī)變量的樣本均值時(shí),可使用式5.18來(lái)估計(jì)置信區(qū)間 這個(gè)結(jié)論假定對(duì)于目標(biāo)函數(shù)的樣例可進(jìn)行無(wú)限存取,實(shí)際問(wèn)題是隨機(jī)變量之間并不獨(dú)立,因?yàn)樗鼈兓趶挠邢拮蛹谐槿〉南嗷ブ丿B的訓(xùn)練樣例 當(dāng)只有一個(gè)有限的數(shù)據(jù)樣本可用時(shí),有幾種重疊采用的方法。 表5-5描述了k-fold方法 隨機(jī)抽取至少有30個(gè)樣例的測(cè)試集合,剩余樣例組成訓(xùn)練集合,重復(fù)這一過(guò)程直到足夠的次數(shù)

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論