




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
1、外 文 譯 文機(jī)器學(xué)習(xí)中的高斯過程應(yīng)用摘 要我們給了一個(gè)對高斯過程回歸模型的基本介紹。我們研究的重點(diǎn)在于理解隨機(jī)過程的含義和如何用他去定義一個(gè)分布函數(shù)。我們提出了一個(gè)簡單的方程,它可以結(jié)合訓(xùn)練數(shù)據(jù)并且測試了它如何去應(yīng)用邊緣概率密度來學(xué)習(xí)超參數(shù)。我們解釋了高斯過程的實(shí)際應(yīng)用優(yōu)勢并且得出結(jié)論,高斯過程是適合當(dāng)前時(shí)代趨勢的?;貧w(對于連續(xù)輸出)和分類(對于離散輸出)形式的機(jī)器學(xué)習(xí)是一個(gè)對于學(xué)習(xí)統(tǒng)計(jì)學(xué)和機(jī)器學(xué)習(xí)非常重要的組成部分,無論是對于大量數(shù)據(jù)的分析,或是對于一個(gè)更加復(fù)雜問題中的子目標(biāo)的解決。傳統(tǒng)參數(shù)模型(參數(shù)模型,我們這里是指模型在訓(xùn)練過程中從訓(xùn)練數(shù)據(jù)“吸收”信息傳遞給參數(shù);訓(xùn)練結(jié)束后,數(shù)據(jù)庫可
2、以被丟棄。)已經(jīng)被用作完成這些目標(biāo)。這些可能在容易理解方面有優(yōu)勢,但是應(yīng)用于復(fù)雜數(shù)據(jù)分析時(shí),簡單的參數(shù)模型就顯得力不從心了,而且比它們更復(fù)雜的類似的方法(比如前向網(wǎng)絡(luò))可能在實(shí)踐中比較難以實(shí)現(xiàn)。內(nèi)核機(jī)器的出現(xiàn),比如支持向量機(jī)和高斯過程使對復(fù)雜模型進(jìn)行實(shí)際分析有了可能性。在這篇短文中,我們提出了一個(gè)使用高斯過程用于貝葉斯回歸方程的建模的基本方法。我們主要關(guān)注如何理解隨機(jī)過程和如何將他在機(jī)器學(xué)習(xí)中應(yīng)用。第二,我們將討論關(guān)于超參數(shù)在協(xié)方差函數(shù)中的作用的切實(shí)問題,邊緣概率密度和奧卡姆剃刀原則的問題。要查看更多關(guān)于高斯過程的介紹,請看參考文獻(xiàn)1,2。第一章 高斯過程在這部分我們定義了高斯過程,并且展示它
3、們是如何非常自然的被應(yīng)用于定義分布函數(shù)。接下來的部分,我們繼續(xù)展示這個(gè)分布函數(shù)是如何通過訓(xùn)練數(shù)據(jù)更新的。定義 1:高斯過程是一個(gè)隨機(jī)變量的集合,其中任何有限的數(shù)字都有共同的高斯分布。一個(gè)高斯過程可以被它的均值函數(shù)m(x)和協(xié)方差函數(shù)k(x,x)完全的定義。分別將均值函數(shù)和協(xié)方差函數(shù)表示成向量和矩陣,這是一個(gè)對高斯分布的自然推廣。高斯分布用向量表示,而高斯過程用函數(shù)表示。如此有:意思是:“f是由均值函數(shù)m和協(xié)方差函數(shù)k定義的高斯分布函數(shù)?!彪m然從分布到過程的概括比較直截了當(dāng),我們會略詳細(xì)地解釋一下細(xì)節(jié),因?yàn)樗赡軐σ恍┳x者來說沒那么熟悉。高斯向量中的單個(gè)隨機(jī)變量可以被他們的位置向量索引到。高斯過
4、程中,有一個(gè)參數(shù)x(隨機(jī)函數(shù)f(x)中的)起到了索引集的角色:每一個(gè)輸入x都有一個(gè)相聯(lián)系的隨機(jī)變量f(x),這是(隨機(jī))函數(shù)f在x處的取值。為了識記方便,我們用自然數(shù)來列舉x的值,并且用這些來索引他們在隨機(jī)過程中的位置-不要讓你自己被這個(gè)迷惑:隨機(jī)過程的索引用xi表示,我們選擇用i來表示索引。雖然與無限維對象工作可能在起初看起來很笨拙,但是經(jīng)過大量計(jì)算證明,這只需要與有限維對象工作就可以完成。實(shí)際上,找到用相關(guān)分布函數(shù)減少隨機(jī)過程運(yùn)算量的答案,這才是高斯過程可行性的關(guān)鍵。讓我們看一個(gè)例子,考慮如下方程給出的高斯過程:為了更加直觀地理解這個(gè)隨機(jī)過程,我們可以用函數(shù)f畫出采樣圖。為了只與有限數(shù)據(jù)進(jìn)
5、行處理,我們只要求在不同有限數(shù)字n代表的位置的f的取值。我們?nèi)绾萎a(chǎn)生這樣的采樣呢?給出不同x的取值,我們可以用定義了一個(gè)標(biāo)準(zhǔn)高斯分布的方程計(jì)算出均值向量和協(xié)方差矩陣:我們用m和k代表高斯過程的參數(shù),用和代表分布函數(shù)的參數(shù),來清楚地區(qū)分它們。我們現(xiàn)在可以通過這個(gè)分布函數(shù)創(chuàng)造出一組隨機(jī)向量。這個(gè)向量會作為坐標(biāo)的函數(shù),由x的值得到相應(yīng)的f(x)的值。圖1這是由一個(gè)確定的高斯隨機(jī)過程方程隨機(jī)3次畫出的3個(gè)函數(shù)的函數(shù)圖像。圖中的點(diǎn)是由方程算出的,另外兩條曲線(有些不準(zhǔn)確)是連接采樣點(diǎn)畫出的。函數(shù)值體現(xiàn)了一個(gè)平滑的基礎(chǔ)函數(shù);這實(shí)際上是高斯隨機(jī)過程與平方指數(shù)的協(xié)方差函數(shù)的性質(zhì)的體現(xiàn)。陰影灰色部分代表了95%
6、的置信區(qū)間。我們現(xiàn)在就可以畫出f的函數(shù)值與x的關(guān)系圖,如圖1。我們實(shí)際上如何完成這件事?下面的幾句Matlab(Matlab是The MathWork Inc的商標(biāo))代碼可以用來畫出上圖。xs = (-5:0.2:5); ns = size(xs,1); keps = 1e-9;m = inline(0.25*x.2);K = inline(exp(-0.5*(repmat(p,size(q)-repmat(q,size(p).2);fs = m(xs) + chol(K(xs,xs)+keps*eye(ns)*randn(ns,1);plot(xs,fs,.)上面的例子里,m和k是均值和協(xié)方
7、差;chol是一個(gè)實(shí)現(xiàn)計(jì)算矩陣的Cholesky分解(我們還為了數(shù)值穩(wěn)定添加了多重協(xié)方差矩陣(限制特征值的數(shù)值不為0);有興趣的話可以查看Eq.(8)附近的解釋)的函數(shù)。這個(gè)例子說明了我們?nèi)绾螐倪^程轉(zhuǎn)變成分布,同時(shí)說明了高斯過程定義了一個(gè)分布函數(shù)。到此,我們只考慮了隨機(jī)函數(shù)-在下一部分,我們會看到一個(gè)非常簡單的應(yīng)用高斯隨機(jī)過程建模的方法來進(jìn)行數(shù)據(jù)推測訓(xùn)練的例子。第二章 后驗(yàn)高斯過程在前一個(gè)部分,我們看到了如何應(yīng)用高斯過程來定義概率分布函數(shù)。這個(gè)高斯過程將被優(yōu)先用于貝葉斯推理,這不依賴于訓(xùn)練數(shù)據(jù),而是依靠一些函數(shù)的內(nèi)容;舉例來說,圖1里的函數(shù)是平滑的,并且接近于二次方程函數(shù)。本部分的目標(biāo)是找到一
8、個(gè)簡單的規(guī)則來更新之前的訓(xùn)練數(shù)據(jù)。下一部分的目標(biāo)是試圖根據(jù)之前(根據(jù)定義,先驗(yàn)概率對于數(shù)據(jù)是獨(dú)立的,在這里我們用一個(gè)有自由參數(shù)的多層先驗(yàn)概率,并且用它來推測參數(shù)。)得到的數(shù)據(jù)找到一些性質(zhì)。計(jì)算后驗(yàn)概率的主要目的是它們可以用來預(yù)測看不到的實(shí)驗(yàn)因素。用f表示已知訓(xùn)練數(shù)據(jù)的函數(shù)值, 用f*表示一系列對應(yīng)輸入X*的函數(shù)值。再一次,我們寫出了我們有興趣的所有參數(shù)的聯(lián)合分布:其中,我們已經(jīng)介紹過的標(biāo)識:=m(xi),i=1,2,n是已知訓(xùn)練數(shù)據(jù)的均值,類似地*是訓(xùn)練后的均值;是訓(xùn)練數(shù)據(jù)的協(xié)方差,*是訓(xùn)練前數(shù)據(jù)與訓(xùn)練后數(shù)據(jù)的協(xié)方差,*是訓(xùn)練后數(shù)據(jù)的協(xié)方差。到此,由我們知道的訓(xùn)練數(shù)據(jù)f的值我們可以的出我們感興
9、趣的f*在f條件下的條件概率(決定高斯聯(lián)合分布的公式是:)這是一個(gè)對于特定實(shí)驗(yàn)情況的后驗(yàn)概率分布。很容易驗(yàn)證(根據(jù)檢驗(yàn)),對應(yīng)的后驗(yàn)概率過程是:其中(X,x)是每個(gè)訓(xùn)練數(shù)據(jù)和x之前的協(xié)方差向量。這些是高斯過程預(yù)測的核心方程。我們來測試一下這些方程的后驗(yàn)均值和協(xié)方差。注意到后驗(yàn)方差kD(x,x)等于先驗(yàn)方差k(x,x)減去一個(gè)依賴于訓(xùn)練數(shù)據(jù)輸入的確定的部分;因此只要數(shù)據(jù)給了我們額外的信息,后驗(yàn)方差就永遠(yuǎn)小于先驗(yàn)方差。我們需要解決最后一件事情:訓(xùn)練輸出數(shù)據(jù)中的噪聲。對于許多回歸的應(yīng)用的來說,在觀察中存在噪聲是非常正常的事情(然而,可能非常有趣的是高斯過程模型也在無噪聲的情況下運(yùn)行-這和大多數(shù)參數(shù)化
10、方法相反,因此它們通常無法正確地對數(shù)據(jù)建模。)。最常規(guī)的措施是在輸出處加上獨(dú)立同分布的高斯噪聲。在高斯過程模型中,這樣的噪聲是應(yīng)該被考慮在內(nèi)的;這樣做的效果就是每個(gè)f(x)都有一個(gè)額外的與他自己的協(xié)方差(只要噪聲被假設(shè)是獨(dú)立的),這個(gè)值等于噪聲方差:其中當(dāng)且僅當(dāng)i=I時(shí)ii=1,這是一個(gè)克羅內(nèi)克函數(shù)。注意到,克羅內(nèi)克函數(shù)的指數(shù)在確定的情況下,i,而不是輸入xi;你可能有幾例相同的輸入,但是這些情況下的噪聲都被認(rèn)為是獨(dú)立的。因此,一個(gè)有噪聲的隨機(jī)過程的協(xié)方差函數(shù)是信號協(xié)方差和噪聲協(xié)方差的總和?,F(xiàn)在,我們把后驗(yàn)協(xié)方差函數(shù)插入到Matlab軟件范例的第69頁去根據(jù)后驗(yàn)過程畫一個(gè)樣本,便得到了圖2。在
11、這一部分,我們展示了如何簡單地應(yīng)用均值和協(xié)方差函數(shù)來根據(jù)訓(xùn)練數(shù)據(jù)由先驗(yàn)概率更新到后驗(yàn)概率。然而,我們遺留下了幾個(gè)還沒有被回答的問題:我們在最初如何寫出均值和協(xié)方差函數(shù)?我們?nèi)绾喂烙?jì)噪聲等級?這就是下一部分的內(nèi)容了。圖2由已知的20個(gè)訓(xùn)練數(shù)據(jù)根據(jù)后驗(yàn)概率函數(shù)畫出的隨機(jī)的3個(gè)函數(shù)圖像,高斯過程由Eq(3)和噪聲等級為n=0.7兩個(gè)條件確定。陰影部分是95%的置信區(qū)間。對比圖1,我們觀察到不確定性有了明顯下降,已經(jīng)接近預(yù)測的情況。第三章 訓(xùn)練一個(gè)高斯過程在之前的部分我們看到了如何根據(jù)訓(xùn)練數(shù)據(jù)來更新先驗(yàn)高斯過程分布。如果我們手上有足夠的關(guān)于數(shù)據(jù)的初始信息,我們就可以自信的指定先驗(yàn)均值和協(xié)方差函數(shù),這是
12、非常有用的。但是,得到如此細(xì)致的初始信息的可行性在機(jī)器學(xué)習(xí)應(yīng)用方面并不是一個(gè)典型的情況。為了使高斯過程技術(shù)在實(shí)踐中更有應(yīng)用價(jià)值,我們必須根據(jù)數(shù)據(jù)選擇對應(yīng)的不同的均值函數(shù)和協(xié)方差函數(shù)。這個(gè)過程就被稱為訓(xùn)練(訓(xùn)練高斯過程模型涉及到模型的選擇,也涉及到在不同的均值函數(shù)和協(xié)方差函數(shù)的函數(shù)形式之間離散選擇來適應(yīng)這些函數(shù)的超參數(shù);為了簡便起見,我們在這里只考慮后者-直截了當(dāng)?shù)膩碚f,在這種情況下邊緣概率密度是可以被比較的)高斯過程模型。根據(jù)通常比較模糊的先驗(yàn)信息,我們使用了一個(gè)分層次的先驗(yàn)概率,其中均值函數(shù)和協(xié)方差函數(shù)都被參數(shù)化為超參數(shù)。舉例來說,我們可以用Eq.(2)做一個(gè)總結(jié):其中我們認(rèn)為超參數(shù)=a,b
13、,c,y,n,l。這種特定的分級目的是這讓我們可以用一種簡單的方法確定了模糊的先驗(yàn)信息。舉例來說,我們在開始的時(shí)候說了我們相信這個(gè)函數(shù)很接近一個(gè)二階多項(xiàng)式的樣子,但是我們沒有確定地說明什么是多項(xiàng)式,也沒有說明“接近”到了什么程度。事實(shí)上,多項(xiàng)式和數(shù)據(jù)之間的區(qū)別是一個(gè)平滑的函數(shù)加上獨(dú)立的高斯噪聲,但是我們又一次不需要確定特征長度l的等級或是兩個(gè)參數(shù)的值。我們想要根據(jù)數(shù)據(jù)對所有超參數(shù)進(jìn)行推測。為了完成這項(xiàng)工作,我們計(jì)算了超參數(shù)給定的數(shù)據(jù)的可能性。幸運(yùn)的是,這不是很難,只要假設(shè)數(shù)據(jù)的分布符合高斯分布:我們將調(diào)用這個(gè)數(shù)量級的對數(shù)邊緣概率密度。我們用“邊緣”這個(gè)詞來強(qiáng)調(diào)我們正在和一個(gè)沒有參數(shù)的模型進(jìn)行工
14、作。例子1展示了高斯過程的權(quán)重空間,相當(dāng)于方程(10)。使用權(quán)重邊緣化。我們現(xiàn)在可以通過求邊緣概率分布的偏導(dǎo)數(shù)來很簡單地找到超參數(shù)的值。其中m和k分別用來表示均值函數(shù)和協(xié)方差函數(shù)的超參數(shù)。方程(11)很方便地和一個(gè)共軛梯度等數(shù)值優(yōu)化程序聯(lián)系起來找到一個(gè)適合的(說明,對于大多數(shù)不是很微小的高斯過程,優(yōu)化超參數(shù)這個(gè)工作不是一個(gè)很困難的問題,所以通常預(yù)測應(yīng)采取防止局部最小值的措施)超參數(shù)值的設(shè)定。圖3-1這是由最大邊緣似然函數(shù)得到的均值和95%后驗(yàn)置信區(qū)間的圖,方程(10),是由方程(9)的高斯過程確認(rèn)的,數(shù)據(jù)和圖2的相同。超參數(shù)的值是a=0.3,b=0.03,c=-0.7,y=1.1,n=0.25
15、。這個(gè)例子說明沒有超參數(shù)優(yōu)化方法,同樣可以實(shí)現(xiàn)得相當(dāng)好(圖2),但是當(dāng)然,它沒有這種方法在典型應(yīng)用中更有保障性。由于實(shí)際上高斯過程是一個(gè)無參數(shù)模型,它的邊緣概率密度看起來與人們經(jīng)驗(yàn)中的有參數(shù)的模型多少有一些區(qū)別。事先說明的是,事實(shí)上模型確實(shí)對訓(xùn)練數(shù)據(jù)非常適合:簡單地使噪聲等級n2為0,然后模型就創(chuàng)造了一個(gè)與訓(xùn)練數(shù)據(jù)點(diǎn)十分吻合的均值預(yù)測函數(shù)。但是,這不是一個(gè)優(yōu)化邊緣似然函數(shù)的典型表現(xiàn)。實(shí)際上,Eq.(10)中的對數(shù)邊緣似然函數(shù)包括三個(gè)條件:第一個(gè)條件,是一個(gè)復(fù)雜的不利條件,它估量了模型的復(fù)雜度,使模型處于不利的情況。第二個(gè)條件是一個(gè)負(fù)二項(xiàng)式,它負(fù)責(zé)了對測量數(shù)據(jù)的擬合(這是一個(gè)僅有的依靠訓(xùn)練輸出值
16、y的條件)。第三個(gè)條件是對數(shù)標(biāo)準(zhǔn)化,獨(dú)立于數(shù)據(jù),不是很受人關(guān)注。圖3-1體現(xiàn)了被最大邊緣似然函數(shù)訓(xùn)練的預(yù)測模型。注意到高斯過程中的懲罰和數(shù)據(jù)之間的權(quán)衡是自動的。沒有加權(quán)參數(shù)需要設(shè)置一些外部的方法,如交叉驗(yàn)證。這是具有重要意義的特征,因?yàn)樗喕擞?xùn)練。圖3-2說明了如何進(jìn)行自動權(quán)衡。在這一部分我們看到了,通過對先驗(yàn)概率的多層次分級,我們找到了一種可以學(xué)習(xí)出先驗(yàn)知識的非常方便的方法,以及通過對邊緣概率函數(shù)的優(yōu)化來學(xué)習(xí)了超參數(shù)的值。這可以被一些基于梯度的優(yōu)化所使用。而且,我們也看到了邊緣概率密度是如何采用奧卡姆剃刀的;這個(gè)性質(zhì)有重要的實(shí)踐意義,因?yàn)樗褂?xùn)練過程大幅堿化。圖3-2圖3-2奧卡姆剃刀是自
17、動的。x軸表現(xiàn)的是抽象的所有可能的數(shù)據(jù)(在一個(gè)特定的大小上)。y軸是數(shù)據(jù)給與模型的可能性。這里同時(shí)顯示了3個(gè)不同的模型。一個(gè)更加復(fù)雜的模型比一個(gè)簡單的模型可以說明更多數(shù)據(jù)集,但是由于概率必須統(tǒng)一整合,這表示更加復(fù)雜的模型會被自動懲罰更多。第四章 總結(jié)和對未來的展望我們已經(jīng)看到的高斯過程是如何方便地確定復(fù)雜的非線性回歸方程的。我們只是順便提到了一種類型的協(xié)方差函數(shù),但事實(shí)上任何正定函數(shù)(協(xié)方差函數(shù)必須是正定的,來保證作為結(jié)果的協(xié)方差矩陣也是正定的。)都可以作為協(xié)方差函數(shù)。許多這樣的函數(shù)是已知的,了解有特定協(xié)方差函數(shù)的高斯過程畫出的函數(shù)的性質(zhì)是一個(gè)正在研究的重要目標(biāo)。如果了解了這些函數(shù)的性質(zhì),它就
18、可以選擇協(xié)方差函數(shù)來反映之前的信息,或者作為替代,它可以體現(xiàn)被最大邊緣概率密度選擇的協(xié)方差函數(shù),以此來對數(shù)據(jù)有更豐富的認(rèn)識。在這個(gè)短暫的學(xué)習(xí)過程中,我們只是處理了最簡單的帶有高斯噪聲的回歸模型。在無高斯分布(比如需要分類的)的時(shí)候,訓(xùn)練就變得很復(fù)雜。我們可以采用逼近的辦法,比如拉普拉斯逼近方法,或者采用把無高斯的模型看成最接近的高斯模型或者采樣方面的技術(shù)。另外一個(gè)問題是計(jì)算量復(fù)雜度的限制。在這里解釋一個(gè)簡單的實(shí)現(xiàn)技術(shù),需要協(xié)方差矩陣的逆,需要O(n2)的記憶復(fù)雜度和O(n3)的計(jì)算復(fù)雜度。這對于在臺式電腦上的由n到幾千的數(shù)據(jù)集是可行的。雖然對于這種相對小的數(shù)據(jù)集有很多有趣的機(jī)器學(xué)習(xí)的問題,很多現(xiàn)在正在進(jìn)行的研究都在發(fā)展對于更大數(shù)據(jù)集的逼近方法。許多這些方法依賴于稀疏近似。致 謝德國研究理事會(DFG)通過授予的RA 1030/1。參考文獻(xiàn)1 Williams, C.K.I.: Prediction with Gaussian processes: From linear regression to linear prediction and beyond. In Jordan, M.I., ed.: Learning in Gr
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 大型出行活動方案
- 大專畢業(yè)活動方案
- 培訓(xùn)結(jié)業(yè)活動方案
- 大慶單位掃雪活動方案
- 場所碼宣傳工作活動方案
- 大閱讀活動方案方案
- 大班粘土活動方案
- 復(fù)古paryt活動方案
- 墻體涂鴉活動方案
- 場館推廣活動方案
- 2020年預(yù)防艾滋病、梅毒和乙肝(三病)母嬰傳播培訓(xùn)
- 中國音樂學(xué)院《藥學(xué)分子生物學(xué)》2023-2024學(xué)年第二學(xué)期期末試卷
- 化工廠安全隱患排查培訓(xùn)
- 《室上性心動過速》課件
- 2025年高中歷史會考會考全套知識復(fù)習(xí)
- 健身房預(yù)售培訓(xùn)課件
- 2025年中鐵國際集團(tuán)招聘79人高頻重點(diǎn)提升(共500題)附帶答案詳解
- 國開《政治經(jīng)濟(jì)學(xué)》第四次形考任務(wù)答案(第2套)
- 課件:《中華民族共同體概論》第一講 中華民族共同體基礎(chǔ)理論
- 殯葬禮儀策劃方案
- (完整版)無菌醫(yī)療器械耗材生產(chǎn)企業(yè)體系文件-質(zhì)量手冊模板
評論
0/150
提交評論