![基于深度置信網(wǎng)的絡(luò)的快速學(xué)習(xí)方法_第1頁(yè)](http://file3.renrendoc.com/fileroot_temp3/2022-5/6/f0f42152-06d8-4fcb-834a-02d3f9a3d72e/f0f42152-06d8-4fcb-834a-02d3f9a3d72e1.gif)
![基于深度置信網(wǎng)的絡(luò)的快速學(xué)習(xí)方法_第2頁(yè)](http://file3.renrendoc.com/fileroot_temp3/2022-5/6/f0f42152-06d8-4fcb-834a-02d3f9a3d72e/f0f42152-06d8-4fcb-834a-02d3f9a3d72e2.gif)
![基于深度置信網(wǎng)的絡(luò)的快速學(xué)習(xí)方法_第3頁(yè)](http://file3.renrendoc.com/fileroot_temp3/2022-5/6/f0f42152-06d8-4fcb-834a-02d3f9a3d72e/f0f42152-06d8-4fcb-834a-02d3f9a3d72e3.gif)
![基于深度置信網(wǎng)的絡(luò)的快速學(xué)習(xí)方法_第4頁(yè)](http://file3.renrendoc.com/fileroot_temp3/2022-5/6/f0f42152-06d8-4fcb-834a-02d3f9a3d72e/f0f42152-06d8-4fcb-834a-02d3f9a3d72e4.gif)
![基于深度置信網(wǎng)的絡(luò)的快速學(xué)習(xí)方法_第5頁(yè)](http://file3.renrendoc.com/fileroot_temp3/2022-5/6/f0f42152-06d8-4fcb-834a-02d3f9a3d72e/f0f42152-06d8-4fcb-834a-02d3f9a3d72e5.gif)
版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
1、AFastLearningAlgorithmforDeepBeliefNets基于深度置信網(wǎng)的快速學(xué)習(xí)算法杰弗里e辛頓西蒙O計(jì)算機(jī)科學(xué)、多倫多大學(xué)、加拿大多倫多m53g4Yee-WhyeT.sg新加坡國(guó)立大學(xué)計(jì)算機(jī)科學(xué)系,新加坡117543我們介紹了如何使用“complementarypriors”去減少解釋在含有許多隱藏的層的緊密連接置信網(wǎng)方面推理比較困難的影響。利用先驗(yàn)互補(bǔ),倘若最高的兩側(cè)形成一個(gè)無(wú)向聯(lián)想記憶,我們同時(shí)可以得到這樣一個(gè)含有一個(gè)層次的快速貪心
2、算法。快速貪心算法被用來(lái)初始化一個(gè)慢學(xué)習(xí)的過(guò)程,它通過(guò)使用喚醒睡眠算法的對(duì)比版本微調(diào)權(quán)重。微調(diào)后,含有三個(gè)隱藏層的網(wǎng)絡(luò)形成一個(gè)很好的關(guān)于手寫(xiě)數(shù)字圖像和標(biāo)簽的聯(lián)合分布的生成模型。相對(duì)于最好的判別式算法而言,生成模型給出了更好的數(shù)字分類(lèi)。使用頂層聯(lián)想記憶的在自由能量景觀的長(zhǎng)峽谷來(lái)對(duì)數(shù)字謊言的低維流形進(jìn)行建模,便于我們探討這些峽谷,通過(guò)使用直接連接的方式展示已經(jīng)形成的聯(lián)想記憶。1引言學(xué)習(xí)緊密連接且含有多個(gè)隱藏層定向的信念網(wǎng)的過(guò)程是不易的,因?yàn)楫?dāng)給定一個(gè)數(shù)據(jù)向量時(shí),它是很難推斷隱藏活動(dòng)的條件分布。對(duì)于真實(shí)的條件分布,變分方法使用簡(jiǎn)單的近似值,但近似值可能會(huì)很差,特別是在先驗(yàn)假設(shè)獨(dú)立的最深的隱藏層。同時(shí)
3、,變量的學(xué)習(xí)還要求所有的參數(shù)在一起學(xué)習(xí),這使得學(xué)習(xí)時(shí)間尺度隨著參數(shù)的數(shù)量增加而變得越差。我們描述了一個(gè)模型,其中頂部的兩個(gè)隱含層形成一個(gè)無(wú)向聯(lián)想記憶(見(jiàn)圖1),其余的隱藏層形成一個(gè)有向無(wú)環(huán)圖,將聯(lián)想記憶的表示轉(zhuǎn)化為可觀測(cè)變量,比如一個(gè)圖像的像素。這種混合模型具有一些比較吸引人的特征:2000top-levelunits|1。i曰b巳iLimits500units仃訃0500units這可能是另一種感知器的最高級(jí)vI28x28pixelimage圖i:這種網(wǎng)絡(luò)用于數(shù)字圖像和數(shù)字標(biāo)簽的聯(lián)合分布的建模。在這篇文章中,每個(gè)訓(xùn)練實(shí)例包含一個(gè)圖像和一個(gè)明確的類(lèi)標(biāo)簽,然而進(jìn)展中的工作表明,相同的學(xué)習(xí)算法可以
4、被使用,如果“標(biāo)簽”是由多層通路的輸入的光譜圖從多個(gè)不同的發(fā)言者分離數(shù)字所替換。則這種網(wǎng)絡(luò)學(xué)習(xí)產(chǎn)生包括圖像和相同數(shù)字類(lèi)的光譜圖對(duì)??焖儇澬膶W(xué)習(xí)算法,可以快速地找到一組比較好的參數(shù),即使對(duì)于含有無(wú)數(shù)的參數(shù)和許多隱藏的層的深度網(wǎng)絡(luò)。學(xué)習(xí)算法是無(wú)監(jiān)督的,但是可以通過(guò)學(xué)習(xí)一個(gè)模型被應(yīng)用于標(biāo)記數(shù)據(jù),產(chǎn)生標(biāo)簽和數(shù)據(jù)模型。微調(diào)算法是一個(gè)很好地生成模型,在又MNIST手寫(xiě)數(shù)字?jǐn)?shù)據(jù)集處理方面優(yōu)于判別方法。生成模型在深度隱藏層方面更容易去解釋分布式表征方法。推理過(guò)程要求形成一個(gè)快速而且準(zhǔn)確的感知器。學(xué)習(xí)算法是局部的。突觸強(qiáng)度的調(diào)整僅取決于突觸前和突觸后神經(jīng)元的狀態(tài)。溝通是簡(jiǎn)單的。神經(jīng)元只需要與它們的隨機(jī)的二進(jìn)制狀
5、態(tài)進(jìn)行溝通。第2節(jié)介紹了先驗(yàn)的“互補(bǔ)”的思想,取消“解釋”的現(xiàn)象,使得在定向模型中推理變得比較困難。我們給出了一個(gè)關(guān)于帶有先驗(yàn)互補(bǔ)的定向置信網(wǎng)的例子。第3節(jié)介紹了受限玻爾茲曼機(jī)與帶有權(quán)重的無(wú)限定向網(wǎng)絡(luò)之間的等價(jià)性第4節(jié)介紹了一種用于每次在單層構(gòu)造多層定向網(wǎng)絡(luò)的快速貪心學(xué)習(xí)算法。利用變分約束,它顯示了當(dāng)每增加一個(gè)新的層時(shí),整體生成模型提高了。在推進(jìn)重復(fù)使用相同的“弱”的學(xué)習(xí)者方面,貪心算法有些相似之處。但是不是重置每個(gè)數(shù)據(jù)向量去確保下一步學(xué)習(xí)到新的一些東西。它只是表示它。“弱”的學(xué)習(xí)者是用來(lái)構(gòu)造深度定向網(wǎng),它本身是一個(gè)無(wú)向圖模型。第5部分介紹了如何使用自上而下的算法微調(diào)快速貪心算法的方式產(chǎn)生權(quán)重
6、。眠算法進(jìn)行對(duì)比,它不會(huì)引起導(dǎo)致喚醒睡眠算法去學(xué)習(xí)差的識(shí)別權(quán)重這樣的題。第6節(jié)介紹了手寫(xiě)體數(shù)字在MNIST數(shù)據(jù)集中,含有三個(gè)隱含層和大約的網(wǎng)絡(luò)的模式識(shí)別的性能。如果沒(méi)有利用幾何的相關(guān)知識(shí)和特殊的數(shù)據(jù)預(yù)處理,在與喚醒睡“平均模式”問(wèn)1700000個(gè)權(quán)重10000個(gè)數(shù)字的官方測(cè)試集中,該網(wǎng)絡(luò)的泛化性能有1.25%的錯(cuò)誤率。當(dāng)對(duì)于這項(xiàng)特殊的應(yīng)用沒(méi)有人為的改造時(shí),它比可以錯(cuò)誤率達(dá)到1.5%的BP網(wǎng)絡(luò)要好得多。對(duì)于同一個(gè)任務(wù)而言,它也比Decoste和Schoelkopf(2002)提出的支持向量機(jī)的錯(cuò)誤率達(dá)到1.4%要稍微好點(diǎn)。最后,第7節(jié)當(dāng)沒(méi)有運(yùn)行被約束的可視化輸入時(shí),該網(wǎng)絡(luò)將會(huì)發(fā)生怎么的變化。該網(wǎng)
7、絡(luò)是一個(gè)完整的生成模型,所以便于我們可以從高層表示中簡(jiǎn)單地生成一個(gè)圖像,而容易地理解它的思想,本文,我們考慮了由隨機(jī)二進(jìn)制變量組成的網(wǎng)絡(luò),但是這種思想可以被推廣應(yīng)用到其他的模型中,該模型中變量的變量的對(duì)數(shù)概率的是一個(gè)關(guān)于它直接連接的鄰居狀態(tài)的加性函數(shù)。圖2:一個(gè)簡(jiǎn)單的邏輯信念網(wǎng)包含兩個(gè)獨(dú)立的,僅有的因素。我們觀察房子震動(dòng)的時(shí)這兩個(gè)因素是高度不相關(guān)的。地震節(jié)點(diǎn)偏置-10意味著在沒(méi)有任何觀察的情況下,這個(gè)節(jié)點(diǎn)較比往常有E10倍可能發(fā)生地震。如果地震節(jié)點(diǎn)變動(dòng)而卡車(chē)節(jié)點(diǎn)不變動(dòng),則下了一跳節(jié)點(diǎn)總投入為0,這意味著有一個(gè)機(jī)會(huì)存在。這是對(duì)于我們觀察房子震動(dòng)的可能性為e-20的一個(gè)更好的解釋。它適用隱藏因素都
8、不活躍得情況。但是用兩個(gè)隱藏因素與解釋我們觀察的結(jié)果是沒(méi)有意義的,因?yàn)樗麄儍蓚€(gè)加在一起發(fā)生的可能性大小為E10*E10=e-20。當(dāng)?shù)卣鸸?jié)點(diǎn)變化時(shí),它“解釋了”對(duì)于汽車(chē)節(jié)點(diǎn)變化的證據(jù)。2先驗(yàn)互補(bǔ)解釋這一現(xiàn)象在(如圖2所示)進(jìn)行推理定向信念網(wǎng)時(shí)比較難。在緊密連通網(wǎng)絡(luò)中,隱藏變量的后驗(yàn)分布比較難理解,除了少數(shù)特殊情況下,如混合模型或帶有高斯噪聲的線性模型。使用馬爾可夫鏈蒙特卡羅方法(尼爾,1992)可以從后驗(yàn)樣本中取樣,但這樣比較浪費(fèi)時(shí)間。變分方法(尼爾和Hinton,1998)可以粗略的估計(jì)更容易處理的后驗(yàn)分布,也可以用來(lái)改善對(duì)訓(xùn)練數(shù)據(jù)的對(duì)數(shù)概率約束。值得欣慰的是,學(xué)習(xí)是保證提高變分約束,甚至隱
9、藏狀態(tài)的推理是錯(cuò)誤的,但它會(huì)找到一種更好的方式去完全消除解釋?zhuān)词乖陔[藏變量與可見(jiàn)變量密切相關(guān)的模型中。它是普遍認(rèn)為是不可能的。一個(gè)邏輯信念網(wǎng)絡(luò)(尼爾,1992)是由隨機(jī)的二進(jìn)制單元組成的。當(dāng)網(wǎng)絡(luò)產(chǎn)生數(shù)據(jù)時(shí),打開(kāi)的單元i的概率是它的直接前驅(qū)j和定向連接的前驅(qū)的權(quán)重Wij的一個(gè)邏輯函數(shù):P&=I)=-fJ不T,(2.1)其bi是單元i的偏置。當(dāng)模型產(chǎn)生數(shù)據(jù)時(shí),如果邏輯信念網(wǎng)僅含有一個(gè)隱含層,那么隱藏變量的先驗(yàn)分布是成階乘關(guān)系的,因?yàn)楫?dāng)模型用于生成數(shù)據(jù)時(shí),它們的二進(jìn)制狀態(tài)是相互獨(dú)立的。創(chuàng)建非獨(dú)立性的后驗(yàn)分布來(lái)自數(shù)據(jù)的似然函數(shù)。也許我們可以通過(guò)使用特殊的隱藏層去創(chuàng)建一個(gè)“互補(bǔ)”的先驗(yàn),在似然
10、函數(shù)中它們完全不相關(guān),來(lái)在第一隱藏層消除解釋。然后,當(dāng)似然函數(shù)乘以先驗(yàn)時(shí),我們會(huì)得到一個(gè)精確的階乘的后驗(yàn)。先驗(yàn)互補(bǔ)的存在不是顯而易見(jiàn)的,而圖3介紹了一個(gè)關(guān)于帶有權(quán)重的邏輯信念網(wǎng)的簡(jiǎn)單例子,該網(wǎng)絡(luò)中每一個(gè)隱含層的先驗(yàn)都是互補(bǔ)的。(附錄A給出了在先驗(yàn)互補(bǔ)的條件下更一般的條件的處理)。使用綁定的權(quán)重去構(gòu)造先驗(yàn)互補(bǔ)的方式可能僅僅只是一種方式,這方面在構(gòu)造定向模型和非定向模型時(shí)等同的。然而,正如我們所觀察到的,它會(huì)產(chǎn)生一個(gè)新的非常有效的算法,該算法的主要思想是通過(guò)較高層的權(quán)重然后逐層分解每層的權(quán)重。2.1帶有權(quán)重的無(wú)限定向模型我們可以從圖3的無(wú)限定向網(wǎng)絡(luò)中產(chǎn)生數(shù)據(jù),通過(guò)它的無(wú)限深度隱藏層的隨機(jī)結(jié)構(gòu)開(kāi)始。
11、然后根據(jù)自上而下的算法執(zhí)行自上而下的“祖先”過(guò)程,在這個(gè)過(guò)程中,每一層的每個(gè)變量是從伯努利分布中選擇出來(lái)的,伯努利分布是由以上各層的活躍父節(jié)點(diǎn)獲取輸入值自上而下決定的。在這方面,它同其他定向無(wú)環(huán)信念網(wǎng)相似。然而,不同其他定向網(wǎng)絡(luò)之處在于,我們可以在所有的隱藏層上的真實(shí)的后驗(yàn)分布取樣,通過(guò)可見(jiàn)單元上的數(shù)據(jù)向量開(kāi)始,然后輪流在每一個(gè)隱藏層上利用轉(zhuǎn)置權(quán)矩陣去推斷階層分布。在每一個(gè)隱藏層,我們?cè)谟?jì)算每層上的階層因子的后驗(yàn)之前從階層后驗(yàn)取樣。附錄A介紹了一個(gè)無(wú)偏樣本的程序。etc.vs3IHi此口卬|Vi.W寺口建H.力;17.中圖3:帶有權(quán)重的無(wú)限邏輯信念網(wǎng)。向下的箭頭代表生成模型。向上的箭頭不是模型
12、的一部分。他們表示當(dāng)一個(gè)數(shù)據(jù)向量在V0上添加數(shù)據(jù)時(shí),該網(wǎng)絡(luò)中每一個(gè)隱藏層的后驗(yàn)分布中用于推斷樣本。因?yàn)橹懊繉拥南闰?yàn)互補(bǔ)在推論后分布是階乘的。因?yàn)槲覀兛梢詮恼鎸?shí)的后驗(yàn)分布取樣,讓我們計(jì)算數(shù)據(jù)的對(duì)數(shù)概率的導(dǎo)數(shù)。我們可以計(jì)算從H0層的單元j到V0層的單元i的生成權(quán)重Wij的導(dǎo)數(shù)。在邏輯信念網(wǎng)絡(luò)中,對(duì)于單個(gè)的數(shù)據(jù)向量V0的最大似然估計(jì)規(guī)則為:3logp(V0)(2.2)其中表示平均采樣狀態(tài),如果被采樣的隱藏狀態(tài)的可見(jiàn)向量被隨機(jī)的重建,v0表示單元i被打開(kāi)時(shí)的概率。從第一隱藏層H0的取樣的二進(jìn)制狀態(tài)計(jì)算第二隱藏層V1的后驗(yàn)分布,該過(guò)程和重建數(shù)據(jù)的過(guò)程是相同的。所以v1是概率V0的伯努利隨機(jī)變量的樣本。
13、因此它的學(xué)習(xí)規(guī)則可以寫(xiě)為:(23)從公式2.2推導(dǎo)2.3的過(guò)程中,V1在hj0上的依賴(lài)是毫無(wú)疑問(wèn)的。因?yàn)閂1是在h0條件下的期望。由于權(quán)重是可以被復(fù)制的,生成權(quán)重的全導(dǎo)數(shù)是所有兩兩對(duì)層權(quán)重的導(dǎo)數(shù)之和:則H-喟+付娉-剃+色川-硝"(24)OU-'fi除了第一個(gè)和最后一個(gè)取消,所有成對(duì)的產(chǎn)品遵循玻爾茲曼機(jī)的學(xué)習(xí)公式3.1計(jì)算規(guī)則。注:1代過(guò)程的收斂的馬爾可夫鏈的平穩(wěn)分布,所以我們需要在一個(gè)層,它需要鏈時(shí)間比較深的開(kāi)始達(dá)到平衡。2這是相同的作為喚醒睡眠算法的推理過(guò)程(Hinton等人。,1995)但在這封信中沒(méi)有描述的變分近似模型是因?yàn)橥评磉^(guò)程給出了無(wú)偏樣本。3受限玻爾茲曼機(jī)的對(duì)
14、比散度學(xué)習(xí)圖3的無(wú)限的有向網(wǎng)絡(luò)相當(dāng)于一個(gè)受限玻爾茲曼機(jī)(RBM)可能不會(huì)容易明顯的理解。RBM的每個(gè)隱藏單元一個(gè)單層都互不相連并且與可見(jiàn)單元的每個(gè)層都有無(wú)向的堆成的連接。從RBM產(chǎn)生數(shù)據(jù),我們可以從這些層中的一層的隨機(jī)狀態(tài)開(kāi)始,然后利用吉布斯交替執(zhí)行采樣。每一層的所有單元的更新都是并行的,并給出了其他層的單元的現(xiàn)行狀態(tài)。所有的單位在一層并行更新了單位的現(xiàn)狀在另一層,重復(fù)執(zhí)行直到系統(tǒng)抽樣達(dá)到平衡分布。注意,這和從帶有權(quán)重的無(wú)限信念網(wǎng)絡(luò)中生成數(shù)據(jù)的過(guò)程是完全相同的。在一個(gè)RBM中執(zhí)行在一個(gè)以最大似然法的學(xué)習(xí),我們可以利用差異的相關(guān)性。在可見(jiàn)層i和隱藏層j中的每個(gè)權(quán)重Wij,當(dāng)在可見(jiàn)層和隱藏層中的一
15、個(gè)數(shù)據(jù)向量從它們的條件分布中取樣,并且是階乘的,我們可以估測(cè)它的相關(guān)性v°h:。然后,利用交流吉布斯采樣,如圖4所我們運(yùn)行的馬爾可夫鏈,直到達(dá)到它的平穩(wěn)分布和測(cè)量出相關(guān)性V迂h:。訓(xùn)練數(shù)據(jù)的對(duì)數(shù)概率的梯度,則為:(3.1)"logp(v0)t=infinityt=0t=1t=21=infinity圖4:這是一個(gè)馬爾可夫鏈,使用吉布斯交替采樣。在吉布斯采樣的一個(gè)完整步驟中,頂層的隱單元都是并行更新的,通過(guò)利用公式2.1輸入頂層可見(jiàn)單元的現(xiàn)行狀態(tài)得到的值。然后可見(jiàn)單元都并行更新,給出目前的隱藏狀態(tài)。和數(shù)據(jù)向量相同,馬爾可夫鏈通過(guò)設(shè)置可見(jiàn)單元的二進(jìn)制狀態(tài)的過(guò)程進(jìn)行初始化。在隱藏單
16、元第一次更新后,可見(jiàn)單元和隱藏單元的活動(dòng)相關(guān)性可以被測(cè)量。在馬爾可夫鏈的末尾再一次執(zhí)行。這兩個(gè)相關(guān)性的差異提供了更新連接的權(quán)重的學(xué)習(xí)方法。對(duì)于帶有權(quán)重的無(wú)限邏輯信念網(wǎng),這種學(xué)習(xí)規(guī)則等同于最大似然學(xué)習(xí)規(guī)則。吉布斯取樣的每一步都等同于計(jì)算邏輯信念網(wǎng)絡(luò)的一層的精確的后驗(yàn)分布。最大化數(shù)據(jù)的對(duì)數(shù)概率等同于最小化數(shù)據(jù)P0和由模型電定義的平衡分布的KL散度KL(P0|Pq)。在對(duì)比散度學(xué)習(xí)的過(guò)程中(辛頓,2002),在第二個(gè)相關(guān)性之前我們運(yùn)行n步驟的馬爾可夫鏈。這相當(dāng)于不考慮無(wú)限網(wǎng)的高層的導(dǎo)數(shù)。這些被忽略的導(dǎo)數(shù)之和是層Vn的后驗(yàn)分布的對(duì)數(shù)概率的導(dǎo)數(shù),也是在層Vn和由模型p:定義的平衡分布的KL散度。所以?xún)蓚€(gè)
17、KL散度的對(duì)比散度學(xué)習(xí)最小化差異為:KL(PP)-KL(PPY(3.2)忽略采樣噪聲,這種差異是積極的。因?yàn)榧妓钩闃佑脕?lái)從P0產(chǎn)生Pg,而且吉布斯總是降低有平衡分布的Kullback-Leibler散度。我們還注意到,用取決于當(dāng)前模型的參數(shù),并且隨著參數(shù)的變化,用的變化被對(duì)比散度學(xué)習(xí)忽略。這個(gè)問(wèn)題不會(huì)隨著P0而出現(xiàn),因?yàn)橛?xùn)練數(shù)據(jù)不依賴(lài)于參數(shù)。極大似然和對(duì)比散度學(xué)習(xí)規(guī)則的關(guān)系的經(jīng)驗(yàn)調(diào)查可以在Carreira-PerpinanandHinton(2005)被發(fā)現(xiàn)。對(duì)比散度學(xué)習(xí)在受限玻爾茲曼機(jī)中的應(yīng)用是非常有效的(Mayraz&Hinton,2001)。使用實(shí)值的單元和不同的取樣方案的變化
18、(Variations)在Teh,Welling,Osindero,andHinton(2003)中有描述。并且已經(jīng)相當(dāng)?shù)爻晒Φ膽?yīng)用于地形圖的生成模型(Welling,Hinton,&Osindero,2003)、自然圖像去噪(Roth&Black,2005)或生物細(xì)胞圖像(Ningetal.,2005)。Marks&movellan(2001)描述了一種使用對(duì)比散度去研究因子分析的方式。Welling,Rosen-Zvi,andHinton(2005)介紹了邏輯,二進(jìn)制可見(jiàn)單元的網(wǎng)絡(luò)和線性,高斯隱單元可以用于快速文件檢索。然而,它看起來(lái)似乎是以高的代價(jià)帶來(lái)了效率:但是
19、當(dāng)應(yīng)用在具有明顯路徑時(shí),對(duì)比散度學(xué)習(xí)不能適應(yīng)于在每一層帶有不同權(quán)重的深度多層網(wǎng)絡(luò)。因?yàn)檫@些網(wǎng)絡(luò)花費(fèi)太多的時(shí)間才能達(dá)到含有一個(gè)數(shù)據(jù)向量的均衡條件。我們現(xiàn)在介紹在RBM矯口帶有權(quán)重的無(wú)限定向網(wǎng)絡(luò)之間的等價(jià)性,為不含有權(quán)重的多層網(wǎng)絡(luò)提出一個(gè)有效的學(xué)習(xí)算法。注釋?zhuān)好總€(gè)全步驟都是由給定v更新h,然后在給定h更新v。4.基于轉(zhuǎn)換表示的貪心學(xué)習(xí)算法學(xué)習(xí)復(fù)雜模型的有效方式就是結(jié)合一組較簡(jiǎn)單的被順序?qū)W習(xí)的模型。為了迫使順序模型學(xué)習(xí)的東西不同于之前模型的內(nèi)容,在每一個(gè)模型被學(xué)習(xí)之后,數(shù)據(jù)需要做一些調(diào)整。為了促進(jìn)每一個(gè)順序模型上的加權(quán)數(shù)據(jù)被訓(xùn)練,需要強(qiáng)調(diào)先前的模型時(shí)錯(cuò)誤的。在主要分量分析的一個(gè)版本中,模型化方向的方
20、差被刪除,因此迫使下一個(gè)建模方向依賴(lài)于正交的子空間(Sanger,1989)。在投影尋蹤(弗里德曼和Stuetzle,1981),通過(guò)在數(shù)據(jù)空間中非線性扭曲把數(shù)據(jù)轉(zhuǎn)換成一個(gè)方向,然后在那個(gè)方向刪除所有的非高斯分布。這種思想支持我們的貪心算法去允許每個(gè)序列模型接受數(shù)據(jù)的不同表示形式。該模型對(duì)輸入的向量進(jìn)行非線性變換,輸出向量將作為序列中下一個(gè)模型的輸入。跖丁仃。場(chǎng)H0踞圖5:混合網(wǎng)絡(luò)。前兩層具有無(wú)向連接形成聯(lián)想記憶。下面的層是有向,自上而下的生成連接,它可應(yīng)用于形成一個(gè)圖像的聯(lián)想記憶的狀態(tài)。以下各層也有定向、自底向上的認(rèn)知連接,可用于在一層從二進(jìn)制活動(dòng)推斷階乘表示。在貪心初始學(xué)習(xí)過(guò)程中,認(rèn)知連接
21、與生成連接是相關(guān)聯(lián)的。圖5顯示了一個(gè)多層生成模型,其上的前兩層通過(guò)無(wú)向連接交互,而其他所有的連接都是有向的。頂部的無(wú)向連接相當(dāng)于許多帶有權(quán)重的無(wú)限高層。中間沒(méi)有夾層連接,可以簡(jiǎn)化分析的過(guò)程并且所有層都含有相同的單元數(shù)。通過(guò)假設(shè)較高層之間的參數(shù)用于構(gòu)建先驗(yàn)互補(bǔ),對(duì)于參數(shù)W學(xué)習(xí)價(jià)值是可取的(盡管不是最優(yōu)的)。這等同于所有的權(quán)矩陣是等同的。在這種假設(shè)下學(xué)習(xí)Wo的任務(wù)歸結(jié)于學(xué)習(xí)一個(gè)RBM,盡管這仍然很困難,但是通過(guò)最小化對(duì)比散度學(xué)習(xí)可以快速獲取較好的近似解。一旦W0被學(xué)習(xí),在第一隱藏層數(shù)據(jù)可以通過(guò)WT映射去創(chuàng)建較高級(jí)的“數(shù)據(jù)”。如果RBM是一個(gè)完美的原始數(shù)據(jù)模型,那么較高級(jí)別的“數(shù)據(jù)”已被較高級(jí)的權(quán)矩
22、陣建模。然而,一般來(lái)說(shuō)RBM無(wú)法對(duì)源數(shù)據(jù)進(jìn)行完美的建模,我們可以使用下面的貪婪算法獲得更好的生成模型:1 .了解W0假設(shè)所有的權(quán)重矩陣是并列的。2 .凍結(jié)W)和致力于使用WT去推斷在第一隱藏層上的變量狀態(tài)的階乘近似后驗(yàn)分布。即使后面在較高級(jí)的權(quán)重發(fā)生改變,意味著這種推理方法不再是正確的。3 .保持較高的權(quán)重矩陣彼此并列,但是當(dāng)學(xué)習(xí)通過(guò)使用WT轉(zhuǎn)化源數(shù)據(jù)生成較高級(jí)“數(shù)據(jù)”的一個(gè)RBM模型時(shí),需要從W)釋放。如果這種貪心算法改變更高層次的權(quán)矩陣,它保證提高生成模型。正如NealandHinton(1998)所介紹的,在多層生成模型下,單個(gè)數(shù)據(jù)向量V0的負(fù)的對(duì)數(shù)概率受約束于自由能量的變化,它是在近似
23、分布情況下Q(h°|v0)的期望能量,減去分布的嫡。對(duì)于有向模型來(lái)說(shuō),這種配置V°,h。的能量是由下式給出:E(v°,h°)=-log躍h。)十Lgp(v、h。),(41)所以約束為:hgp“)>£Q(hn|v0)luSp(hn)+logp(v0|h0)allhu-£C2(h°|v°)logqMH),(4.2)dih°其中h0是第一隱層單元的二進(jìn)制配置,P(h0)是當(dāng)前模式下h0的先驗(yàn)概率(即由H0上的權(quán)重定義的),并且Q(.|v°)是第一隱藏層的二進(jìn)制配置上的任何概率分布。當(dāng)且僅當(dāng)Q(,
24、|v°)是真實(shí)的后驗(yàn)分布,這種約束才是等價(jià)的。當(dāng)所有的權(quán)重矩陣是捆綁在一起的,H0上的階乘分布通過(guò)在一個(gè)數(shù)據(jù)向量上應(yīng)用W0T產(chǎn)生的,是真實(shí)的后驗(yàn)分布。所以在貪心算法的第二步,對(duì)數(shù)P(v°)等價(jià)于約束,步驟2凍結(jié)Q(,|v°)和P(v°|h0),并與這些元素都是固定的,約束的導(dǎo)數(shù)等同于下式的導(dǎo)數(shù)£Q(hO|v°)logp0i%(43)allM所以最大化的更高層次的權(quán)重的約束,正是相當(dāng)于最大化數(shù)據(jù)集的對(duì)數(shù)概率,h0發(fā)生的概率為Q(h°|v0卜如果約束變得更加緊密,對(duì)數(shù)P(v0)可能下降,盡管它的下界增加,但是在貪心算法的第二步對(duì)
25、數(shù)P(v°)不會(huì)低于它自己的價(jià)值,因?yàn)樵谶@個(gè)點(diǎn)上的約束是緊密的而且總是增加的。貪心算法可以遞歸地應(yīng)用。所以,如果我們用全最大似然的玻爾茲曼機(jī)學(xué)習(xí)算法去學(xué)習(xí)每個(gè)權(quán)重集合。然后我們從以上的權(quán)重分解集合的最底層。我們可以一次保證學(xué)習(xí)一層的權(quán)重,從來(lái)不會(huì)減少在模型下數(shù)據(jù)的對(duì)數(shù)概率的約束。實(shí)際上,我們用對(duì)比散度學(xué)習(xí)取代最大似然玻爾茲曼機(jī),因?yàn)樗男瘦^高而且快速。使用對(duì)比散度學(xué)習(xí)保證會(huì)無(wú)效,但是如果我們有足夠的耐心學(xué)習(xí)每一層,我們需要知道額外的其他層確保去改善未完善的模型。為了保證生成的模型是由貪婪地學(xué)習(xí)更多的層所改善的,它是方便的考慮模型中的所有層是相同大小的,以便較高層的權(quán)重在被從以下層分
26、解之前可以初始化為所學(xué)的價(jià)值。然而,相同的貪心算法可以應(yīng)用甚至對(duì)于層的大小不相同的情況下。5自上而下算法的反向擬合一次學(xué)習(xí)單層的權(quán)矩陣是有效的但不是最優(yōu)的。一旦高層的權(quán)重被學(xué)習(xí),對(duì)于較低層的權(quán)重和簡(jiǎn)單的推理過(guò)程都不是最優(yōu)的。對(duì)于無(wú)監(jiān)督的方法比如boosting相對(duì)地可以產(chǎn)生次優(yōu)的。標(biāo)簽通常是稀缺的,每個(gè)標(biāo)簽可能只提供一些約束參數(shù),所以過(guò)度擬合要比低度擬合會(huì)帶來(lái)更多的問(wèn)題。因此重回去調(diào)整之前的模型可能弊大于利。然而,無(wú)監(jiān)督方法可以使用非常大的未標(biāo)記的數(shù)據(jù)集,每個(gè)案例可能是高維的,從而在生成模型提供多點(diǎn)約束。因此低度擬合是一個(gè)嚴(yán)重問(wèn)題,它可以通過(guò)后面的順序擬合階段的過(guò)程而減輕,我們之前學(xué)習(xí)的權(quán)重會(huì)
27、隨著后來(lái)學(xué)習(xí)的權(quán)重進(jìn)行調(diào)整更好的適合在對(duì)于每層的權(quán)重,在貪心學(xué)習(xí)好的初始值之后,我們從定義模型的生成權(quán)重去分解開(kāi)用于推理的“識(shí)別”權(quán)重。但是必須保留有階乘分布估計(jì)得每層的后驗(yàn)約束。其中層內(nèi)變量條件依賴(lài)于以下各層的變量的值。喚醒睡眠算法的變體由Hinton等人描述過(guò)(1995),后來(lái)被適用于較高層的權(quán)重去改變較低層的權(quán)重,在“向上”的過(guò)程中,認(rèn)知權(quán)重在自底向上的過(guò)程使用,隨機(jī)地為每個(gè)隱藏層挑選狀態(tài)。在等式2.2(5)用最大似然學(xué)習(xí)規(guī)則調(diào)整有向連接的生成權(quán)重。如前所述,擬合頂層的RBMHIJ倒數(shù)第二層的后驗(yàn)分布,學(xué)習(xí)頂層的無(wú)向連接的權(quán)重?!跋蛳隆睆捻攲拥穆?lián)想記憶的狀態(tài)開(kāi)始,進(jìn)而使用自頂向下的的生成
28、連接隨機(jī)的輪流激活每個(gè)較低層。在向下的過(guò)程中,頂層無(wú)向連接和生成的有向連接都不會(huì)發(fā)生變化。只有自底向上的權(quán)重被修改。如果在初始化向下的過(guò)程之前允許聯(lián)想記憶設(shè)置它的均衡分布,這個(gè)過(guò)程相當(dāng)于喚醒睡眠算法中的睡眠階段。但是如果向上的過(guò)程初始化聯(lián)想記憶,并且僅允許運(yùn)行幾個(gè)交替吉布斯采樣,在初始化向下的過(guò)程之前。這是喚醒睡眠算法的對(duì)比形式,它減少了從聯(lián)想記憶的均衡分布取樣的要求。這種對(duì)比形式也調(diào)整了睡眠階段的一些問(wèn)題。對(duì)于表示法,它確保識(shí)別權(quán)重被學(xué)習(xí),類(lèi)似于用于真實(shí)數(shù)據(jù)的情況,并且有助于消除模式的平均問(wèn)題。如果,給定一個(gè)特定的數(shù)據(jù)向量,現(xiàn)行識(shí)別權(quán)重總是在以上的水平選擇一個(gè)特定的模式,并且忽略了其他相當(dāng)擅
29、長(zhǎng)生成數(shù)據(jù)的模式,在向下的學(xué)習(xí)過(guò)程中,它不會(huì)改變這些識(shí)別權(quán)重用來(lái)回溯任何其他的模型,如果睡眠階段被用于純的尋祖過(guò)程。一個(gè)純的尋祖過(guò)程從使用延長(zhǎng)吉布斯取樣的過(guò)程開(kāi)始,從頂層聯(lián)想記憶獲得均衡樣本。通過(guò)使用頂層聯(lián)想記憶,我們也可以消除喚醒階段的一些問(wèn)題:獨(dú)立的頂層單元貌似允許尋祖過(guò)程,但是它們意味著變分近似法對(duì)于頂層的權(quán)重的效果不好。附錄B說(shuō)明了通過(guò)使用圖1顯示的網(wǎng)絡(luò)的MATALAM樣介紹了自上而下算法的詳細(xì)過(guò)程。為了簡(jiǎn)單起見(jiàn),關(guān)于所有參數(shù)的權(quán)重、能量、學(xué)習(xí)速率在這里不再贅述。同時(shí),只討論單案例的訓(xùn)練數(shù)據(jù)。注釋?zhuān)?,因?yàn)闄?quán)重與它們上面的權(quán)重不再相關(guān)聯(lián),d必須使用i層以上的變量的狀態(tài)計(jì)算,從這些變量生
30、成i的權(quán)重。6. MNIST數(shù)據(jù)庫(kù)的特征6.1 訓(xùn)練網(wǎng)絡(luò)。手寫(xiě)體數(shù)字MNIST數(shù)據(jù)庫(kù)包含60000個(gè)訓(xùn)練圖像和10000個(gè)測(cè)試圖像,許多不同的模式識(shí)別技術(shù)已經(jīng)發(fā)表了這種公開(kāi)可用的數(shù)據(jù)庫(kù),因此它是理想的評(píng)價(jià)新模式識(shí)別方法。對(duì)于MNIST學(xué)習(xí)任務(wù)的基本版本,沒(méi)有幾何學(xué)的相關(guān)知識(shí),并沒(méi)有特殊的預(yù)處理或優(yōu)化訓(xùn)練集,所以一個(gè)未知但固定的隨機(jī)排列的像素不會(huì)影響學(xué)習(xí)算法。對(duì)于這種“排列不變”版本的任務(wù),在官方測(cè)試集上,我們的網(wǎng)絡(luò)的泛化性能錯(cuò)誤是1.25%。圖1介紹的網(wǎng)絡(luò)是在44000個(gè)訓(xùn)練圖像上被訓(xùn)練,把它分440個(gè)均衡的小批次,每一個(gè)都包含每個(gè)數(shù)字類(lèi)的10例子。每個(gè)小批次之后更新權(quán)重。在訓(xùn)練的初始階段,在
31、第4節(jié)介紹的貪心算法是用來(lái)從底部開(kāi)始分別訓(xùn)練各層權(quán)值的。每層迅速瀏覽30個(gè)訓(xùn)練集訓(xùn)練(稱(chēng)為“時(shí)代”)。在訓(xùn)練中,每一個(gè)RBM的“可見(jiàn)”層的單元在0和1之間的有實(shí)數(shù)值的活動(dòng)。當(dāng)學(xué)習(xí)底層的權(quán)重時(shí),這些都是標(biāo)準(zhǔn)化的像素強(qiáng)度。訓(xùn)練更高層次的權(quán)重時(shí),RBM中可見(jiàn)層的實(shí)數(shù)值活動(dòng)是RBM中較低層的隱藏單元的激活概率。當(dāng)RBM被訓(xùn)練時(shí),每個(gè)RBM中隱藏層使用隨機(jī)的二進(jìn)制值。貪心訓(xùn)練在GHzXeon處理器使用MATLAB語(yǔ)言需要每層花費(fèi)幾個(gè)小時(shí),它運(yùn)行的時(shí)候,在測(cè)試集上的錯(cuò)誤率為2.49%(下面詳細(xì)的看網(wǎng)絡(luò)是如何測(cè)試的)。當(dāng)訓(xùn)練頂層的權(quán)重時(shí)(在聯(lián)想記憶中的),標(biāo)簽被設(shè)置為輸入部分。標(biāo)簽表示通過(guò)對(duì)“10個(gè)單位一個(gè)
32、單位的SOFTMAX'組被激活。當(dāng)這組中的活動(dòng)從以上活動(dòng)被重建時(shí),確切的單元是活躍的,被選擇出來(lái)的單元i的概率由下式給出:(6.1)_exp(苫)“Eexp)'其中Xi是單元i的總輸入。特別的,學(xué)習(xí)規(guī)則不受Softmax組中兩兩單元競(jìng)爭(zhēng)的影響,所以不需要知道那兩個(gè)單元的神經(jīng)突觸。競(jìng)爭(zhēng)影響單元被激活時(shí)的概率,但是僅僅是這個(gè)概率影響學(xué)習(xí)規(guī)則。注釋?zhuān)篜reliminaryexperimentswith16x16imagesofhandwrittendigitsfromtheUSPSdatabaseshowedthatagoodwaytomodelthejointdistributio
33、nofdigitimagesandtheirlabelswastouseanarchitectureofthistype,butfor16x16images,onlythree-fifthsasmanyunitswereusedineachhiddenlayer.通過(guò)貪心算法層層訓(xùn)練,用不同的學(xué)習(xí)效率和權(quán)重衰減訓(xùn)練網(wǎng)絡(luò),對(duì)于300個(gè)epochs可使用5節(jié)中描述的自上而下的算法。學(xué)習(xí)率,動(dòng)量和權(quán)重衰減是通過(guò)幾次訓(xùn)練網(wǎng)絡(luò),并且觀察在一個(gè)含有10000張圖像的分離的驗(yàn)證集上的特性進(jìn)行選擇的,這些圖像時(shí)完整的訓(xùn)練集的剩余部分。對(duì)于前100次的自上而下算法,傳遞是基于執(zhí)行前聯(lián)想記憶中的吉布斯交替采樣的前
34、三次迭代。對(duì)于之后的100次,進(jìn)行6次迭代,對(duì)于最后的100次進(jìn)行10次迭代。每一次對(duì)吉布斯提出的采樣迭代次數(shù)的提高,誤差在驗(yàn)證集明顯下降。在驗(yàn)證測(cè)試中表現(xiàn)最好的網(wǎng)絡(luò)被測(cè)有1.39%的錯(cuò)誤率。該網(wǎng)絡(luò)將通過(guò)60000訓(xùn)練圖像訓(xùn)練集的每個(gè)類(lèi)的數(shù)目不等,所以圖像被隨機(jī)分配600個(gè)小批。進(jìn)行訓(xùn)練,直到它在完整的訓(xùn)練集上的錯(cuò)誤率越來(lái)越低,最終的錯(cuò)誤率一直存在44000圖像的初始訓(xùn)練集中。再進(jìn)行59次,讓其學(xué)習(xí)大約一周的時(shí)問(wèn)。最終網(wǎng)絡(luò)有1.25%的錯(cuò)誤率檢查進(jìn)一步學(xué)習(xí)不會(huì)明顯改善錯(cuò)誤率,網(wǎng)絡(luò)就用一個(gè)非常小的學(xué)習(xí)率,和測(cè)試在運(yùn)行錯(cuò)誤每個(gè)時(shí)期的表現(xiàn)。六周后,試驗(yàn)誤差之間波動(dòng)1.12%、1.31%和1.18%的
35、時(shí)代,訓(xùn)練誤差的數(shù)最小的。網(wǎng)絡(luò)的錯(cuò)誤如圖6所示。網(wǎng)絡(luò)的49個(gè)案例顯示正確,次好的概率在0.3,最好的卞S率如圖7所示。aosbvbGp孑e。、305590598041c5>77i826152/爭(zhēng)57&2弋%56/產(chǎn)4右外883893538955""z900/Gqzq夕8182901O92646AQ5十5CPG72L9548593521954,ZZ?4W&C7,/r8789935299O4A-7,乙弓方幺677&、37615938591317p以smlou9>5458*8541364134Drlq'fl產(chǎn)6'Qez/8名。*
36、29-8oO29O8404s切3,7>235287s-。O82932T3圖6:錯(cuò)誤網(wǎng)絡(luò)中125個(gè)測(cè)試用例。每個(gè)案例標(biāo)記網(wǎng)絡(luò)的猜測(cè)。正確的類(lèi)安排在標(biāo)準(zhǔn)的掃描順序。axziO157夕1夕B、出718區(qū)t>gq力949。7圖7:其中僅有49例網(wǎng)絡(luò)猜對(duì)了,但有第二種猜測(cè),它最好的概率在0.3正確的類(lèi)安排在標(biāo)準(zhǔn)的掃描順序。1.25%的錯(cuò)誤率與通過(guò)有一個(gè)或兩個(gè)隱藏層的前饋神經(jīng)網(wǎng)絡(luò)和被訓(xùn)練使用反向傳播算法優(yōu)化的歧視算法(見(jiàn)表1)相比是很好地。當(dāng)網(wǎng)絡(luò)的詳細(xì)連接不是手工制作的這個(gè)特定的任務(wù),一個(gè)單獨(dú)在10個(gè)隨機(jī)在線學(xué)習(xí)輸出單元的平方誤差的最佳報(bào)錯(cuò)率是2.95%。在具有一個(gè)隱層的800個(gè)單元采用小的初
37、始權(quán)重的網(wǎng)絡(luò)中這些錯(cuò)誤率可以降低到1.53%,這個(gè)權(quán)重是每個(gè)輸出單元單獨(dú)的交叉嫡誤差函數(shù),而且這種學(xué)習(xí)方式很溫和。1.51%個(gè)幾乎相同的結(jié)果實(shí)現(xiàn)了在一個(gè)第一隱層有500個(gè)單元的和第二隱層有300個(gè)單元的網(wǎng)中采用“回歸”算法輸出單元和一個(gè)不利平方量通過(guò)仔細(xì)選擇使用驗(yàn)證集的正則化矩陣。相比之下,如果60000個(gè)訓(xùn)練樣本被使用最近的鄰居報(bào)錯(cuò)率為3.1%,(這是非常緩慢的),如果20,000個(gè)訓(xùn)練樣本被使用最近的鄰居報(bào)錯(cuò)率為4.4%。這可以通過(guò)使用一個(gè)L3規(guī)范減少至IJ2.8%和4%0我們基本任務(wù)中生成錯(cuò)誤率接近1.25%模型的標(biāo)準(zhǔn)機(jī)器學(xué)習(xí)技術(shù)是一個(gè)給出了1.4%的錯(cuò)誤率的支持向量機(jī)(德科斯特&
38、;Schoelkopf,2002)。但是支持向量機(jī)如何利用特定領(lǐng)域技巧,如體重共享和抽樣,這是很難看到的,其中LeCun,bottou,哈夫納(1998)使用從1.5%到0.95%提高判別神經(jīng)網(wǎng)絡(luò)的性能。權(quán)值共享和抽樣不能用來(lái)減少生成的錯(cuò)誤率模型是沒(méi)有明顯原因的,我們目前正在調(diào)查這種方法。通過(guò)平均多元網(wǎng)絡(luò)總是可以進(jìn)一步改進(jìn),但這種技術(shù)可用于所有的方錯(cuò)誤率的大幅減少可以通過(guò)補(bǔ)充有轉(zhuǎn)換版本的數(shù)據(jù)集訓(xùn)練數(shù)據(jù)實(shí)現(xiàn)。使用一、兩像素平移,德科斯特和Schoelkopf(2002)通過(guò)該方法實(shí)現(xiàn)錯(cuò)誤率達(dá)到0.56%。在卷積神經(jīng)網(wǎng)絡(luò)局部使用伸縮變形,Simard,斯坦克勞斯,和普拉特(2003)實(shí)驗(yàn)結(jié)果達(dá)到0
39、.4%,比最好的手工編碼識(shí)別算法達(dá)到了0.63%(belongie,馬利克,和puzicha,2002)是略好。我們尚未探索的使用扭曲的數(shù)據(jù)學(xué)習(xí)生成模型,因?yàn)樵S多類(lèi)型的失真需要調(diào)查,以及微調(diào)算法目前來(lái)說(shuō)太慢了。6.2 測(cè)試網(wǎng)絡(luò)測(cè)試網(wǎng)絡(luò)的一個(gè)方法是通過(guò)從圖像中隨機(jī)確定的500個(gè)單位的二進(jìn)制狀態(tài)相聯(lián)存儲(chǔ)器的低層。這些固定的狀態(tài),標(biāo)簽單位給定初始值0.1和吉布斯交替采樣的迭代是用于激活正確的標(biāo)簽裝置。這種測(cè)試方法給出了錯(cuò)誤率幾乎是1%,高于上述的報(bào)錯(cuò)率。表1:各種學(xué)習(xí)算法對(duì)MNIST數(shù)字識(shí)別錯(cuò)誤率任務(wù)MNIST任務(wù)版學(xué)習(xí)算法錯(cuò)誤率排列小艾我們的生成模型784500500?2000?101.25排列小
40、艾支持向量機(jī):9階多項(xiàng)式1.4排列小艾前饋:784500300-10交叉嫡和權(quán)重衰減1.51排列小艾前饋:784800-10交叉嫡和提前終止1.53排列小艾前饋:784500150-10誤差平方和在線更新2.95排列小艾最近的鄰居:所有60000例和L3規(guī)范2.860000例3.1和L2規(guī)范排列小艾最近的鄰居:所有20000例和L3規(guī)范4.0排列小艾最近的鄰居:所有20000例和L2規(guī)范4.4練習(xí)階段圖像,前饋:彈性提早停止卷積神0.4變形的大量數(shù)據(jù)經(jīng)網(wǎng)絡(luò)的交叉嫡和數(shù)據(jù)練習(xí)階段扭曲圖像;2像素轉(zhuǎn)換的額外數(shù)據(jù)虛擬機(jī):9次多項(xiàng)式0.56初始階段圖像形狀上卜文特征:手工編他匹配0.63初始階段圖像;
41、在lenet5的前饋:卷積神經(jīng)0.8仿射變換的額外數(shù)據(jù)網(wǎng)絡(luò)初始階段圖像在lenet5的前饋:卷積神經(jīng)10.95更好的方法是先把低層的聯(lián)想記憶中的500個(gè)單位的二進(jìn)制狀態(tài)固定,然后打開(kāi)每一個(gè)標(biāo)簽單位并計(jì)算510組件的二進(jìn)制向量準(zhǔn)確自由能的結(jié)果。幾乎所有需要計(jì)算的是被打開(kāi)的獨(dú)立標(biāo)簽單位(Teh和Hinton,2001),這方法計(jì)算精確條件的平衡分布標(biāo)簽而不是通過(guò)吉布斯采樣逼近,以前的方法是這樣做的。該方法錯(cuò)誤率約0.5%,高于由隨機(jī)決策引用的。我們可以將這兩種方法移除噪聲。簡(jiǎn)單的是通過(guò)使用隨機(jī)二進(jìn)制狀態(tài)的激活概率確定回饋(up-pas§。二是重復(fù)隨機(jī)過(guò)程20次,平均標(biāo)簽概率和標(biāo)簽記錄概率
42、,在20次之前選擇最好的一個(gè)。平均兩類(lèi)給了幾乎相同的結(jié)果,而這些結(jié)果也非常相似用一個(gè)確定性的過(guò)程,這是使用方法的報(bào)告結(jié)果。7神經(jīng)網(wǎng)絡(luò)的展望為從模型生成樣本,我們與在頂層的聯(lián)想記憶的吉布斯抽樣進(jìn)行交流直到馬爾可夫鏈?zhǔn)諗繛槠胶夥植?。然后使用分布樣本輸入到下面的層,產(chǎn)生一個(gè)由生成連接的單一反饋(down-pasS圖像。如果我們固定標(biāo)簽單位特別是在吉布斯抽樣的類(lèi),我們可以從模型中看到圖像類(lèi)的條件分布。圖8顯示了一個(gè)圖像序列的每個(gè)類(lèi),它是由樣本間1000次迭代的吉布斯采樣生成。9/2J/r67匕9O/Z3V5G7gq工33LJ67g夕。/23M5。7270/-JY4SG7sqOTl/M1047%s/&g
43、t;12_?,_bb7&a圖8:每一行顯示10樣品從生成模型與特定標(biāo)簽卡。頂層的聯(lián)想記憶是樣本之間運(yùn)行1000次迭代吉布斯抽樣的交替。我們也可以初始化兩層頂部的狀態(tài)通過(guò)提供一個(gè)隨機(jī)的二進(jìn)制圖像作為輸入。圖9顯示了如何聯(lián)想記憶類(lèi)的條件狀態(tài)發(fā)生轉(zhuǎn)變時(shí)可以自由地運(yùn)行,但同時(shí)固定標(biāo)簽。這種內(nèi)在的狀態(tài)是“觀察”進(jìn)行了每20次迭代看看聯(lián)想記憶在腦海中。本文運(yùn)用腦海這個(gè)詞不是隱喻。我們認(rèn)為,精神狀態(tài)是一個(gè)假設(shè)的狀態(tài),一個(gè)高層次的內(nèi)部表示構(gòu)成真實(shí)的感知的外部世界。假設(shè)世界如圖像顯示。QJ乙3y廠7Q*01。"匕yL*7*G。幺K夕cO71q碰Q學(xué)/cD75V-c7V5圖9:每一行顯示由一個(gè)特
44、定的固定標(biāo)簽?zāi)P蜕傻?0個(gè)樣本。頂層的聯(lián)想記憶是通過(guò)從隨機(jī)的每個(gè)像素概率為0.5的二進(jìn)制圖像初始化得到的。第一列示了一個(gè)從最初的高水平狀態(tài)向下傳遞的結(jié)果。之后的幾列由20次迭代的交替吉布斯在聯(lián)想記憶采樣產(chǎn)生。8結(jié)論我們已經(jīng)知道它可能是深度學(xué)習(xí),密切的連接著置信網(wǎng)絡(luò)的每一層。最明顯的方式就是當(dāng)學(xué)習(xí)較低層時(shí)假設(shè)更高層次不存在,但利用階乘近似代替難處理的后驗(yàn)分布這不簡(jiǎn)單的。這些近似工作,我們需要真實(shí)的后驗(yàn)是盡可能接近的階乘。所以不要忽略了更高層次,我們假設(shè)他們存在且有個(gè)權(quán)重約束實(shí)現(xiàn)優(yōu)先互補(bǔ),讓真實(shí)的后驗(yàn)完全析因。這是相當(dāng)于有一個(gè)可以有效地學(xué)習(xí)使用對(duì)比發(fā)散的無(wú)向圖模型。它也可以被看作是因?yàn)榻婆c真實(shí)
45、的后驗(yàn)概率之間發(fā)散的懲罰項(xiàng)約束變分學(xué)習(xí),已被先前使變分近似精確約束條件取代。在學(xué)習(xí)過(guò)每一層后,從高層的權(quán)重指標(biāo)解開(kāi)權(quán)重。隨著這些高層權(quán)重的變化,低層的先驗(yàn)知識(shí)不再互補(bǔ),所以在低層真實(shí)的后驗(yàn)分布不再是階乘,生成權(quán)重推論的轉(zhuǎn)置使用是不正確的。然而,我們可以用變分約束,其表明改變更高層次的權(quán)重提高了整體的生成模型。為了證明貪婪的學(xué)習(xí)算法的快速能力,我們用它初始化一個(gè)較慢的微調(diào)算法學(xué)習(xí)數(shù)字圖像的極好的生成模型和標(biāo)簽的權(quán)重。使用快速貪心算法是否為最好的方式是不明確的。它最好是省略微調(diào)和使用貪婪算法的速度去學(xué)習(xí)更大的系統(tǒng),更深層次的網(wǎng)絡(luò)或一個(gè)更大的訓(xùn)練集。圖1中的網(wǎng)絡(luò)有許多的參數(shù)為0.002立方毫米的小鼠
46、皮層(賀拉斯Barlow,個(gè)人通信,1999),而這種復(fù)雜性為幾百個(gè)網(wǎng)絡(luò)適合在一個(gè)單像素的高分辨率fMRI掃描。這表明更大的網(wǎng)絡(luò)可能需要與人的形狀識(shí)別能力競(jìng)爭(zhēng)。我們目前的生成模型在許多方面受到限制(2003李和芒福德,)。它是專(zhuān)為圖像的可以視為概率二進(jìn)制數(shù)值(不是對(duì)自然圖像);感知自上而下的反饋,它的使用是在前兩層有限的聯(lián)想記憶;它沒(méi)有知覺(jué)不變性處理系統(tǒng);它假設(shè)已經(jīng)執(zhí)行分割;當(dāng)識(shí)別很困難時(shí)它間斷加入最豐富的有益的部分對(duì)象學(xué)習(xí),然而,證實(shí)了相比其他的一些生成模型的其主要優(yōu)點(diǎn):生成的模型不需要從標(biāo)簽的反饋就可以學(xué)習(xí)低級(jí)別的功能,比無(wú)擬合的判別模型他們可以學(xué)習(xí)更多的參數(shù)。在判別學(xué)習(xí),每個(gè)訓(xùn)練樣本的參
47、數(shù)約束只能通過(guò)盡可能多的信息要求所指定的標(biāo)簽。對(duì)于一個(gè)生成模型,每個(gè)訓(xùn)練樣本的參數(shù)約束的比特?cái)?shù)要求指精確輸入。很容易看到網(wǎng)絡(luò)已經(jīng)從模型中生成。它可能解釋為非線性,在深隱層的分布由它們生成圖像表示。判別學(xué)習(xí)方法的分類(lèi)性能優(yōu)越受域控制,在域中不可能學(xué)習(xí)好的生成模型。這系列域是由穆?tīng)柖汕治g。附錄一:先驗(yàn)互補(bǔ)A.1一般互補(bǔ)??紤]一個(gè)聯(lián)合分布的觀測(cè)值,X,Y和隱藏的變量,對(duì)于一個(gè)給定的似然函數(shù)P(X,Y|),我們定義了相應(yīng)的家庭是互補(bǔ)的先驗(yàn)分布,P(Y),其聯(lián)合分布,P(x,y)=P(x|Y)P(Y),導(dǎo)致的后驗(yàn)概率,P(X,Y|)完全分解,即,導(dǎo)致后可以表示為P(Y|x)=P(YJ|X)??赡懿⒉皇?/p>
48、所有的功能形式承認(rèn)補(bǔ)充之前。在本附錄中,我們表明,家庭構(gòu)成所有的似然函數(shù)之前承認(rèn)互seo)=exp(A,l)哪里是標(biāo)準(zhǔn)化術(shù)語(yǔ)。這一主張舉行,我們需要承擔(dān)的陽(yáng)性分布:,P(Y)>0和P(x|Y)>0每值Y和X的先驗(yàn)互補(bǔ)對(duì)應(yīng)的家庭則形成P(y)=exp(log£2(y)十叼(卯)(A.2)其中C是保證歸一化常數(shù)。這一功能的組合形式導(dǎo)致以下表現(xiàn)為關(guān)節(jié),P(x,y)=、d(£%(乂,明)十的)+5叼(環(huán))(A3)為了證明我們的主張,我們需要證明每一個(gè)似然函數(shù)的方程形式的承認(rèn)互補(bǔ)之前,反之亦然。首先,它可以直接驗(yàn)證了公式A.2是補(bǔ)充之前的似然函數(shù)的方程。表明反過(guò)來(lái),讓我們
49、假設(shè)P(Y)是一種互補(bǔ)的前部分似然函數(shù)P(x|Y)o注意,后因子形式簡(jiǎn)單的說(shuō)就是聯(lián)合分布P(x,y)=P(Y)p(x|Y)滿足下列條件獨(dú)立性:YJHYK|X每J=K這組條件獨(dú)立性完全對(duì)應(yīng)關(guān)系通過(guò)每一個(gè)隱藏的和觀察到的變量和觀測(cè)變量之間的邊緣的無(wú)向圖模型滿意。由哈默斯利克利福德定理和使用我們的積極性假設(shè)的聯(lián)合分布,必須對(duì)方程a的形式,而形式的似然函數(shù)方程的方程和前A.2隨之而來(lái)。A.2互補(bǔ)無(wú)限書(shū)庫(kù)。我們現(xiàn)在考慮的一個(gè)子集的形式模型方程的可能性也factorizesA.3。這意味著,我們現(xiàn)在有兩套條件獨(dú)立性:Nx|y)=qP5|y)(A.4)iP(y|x)=P(切|4(A,5)我們的無(wú)限棧的有向圖
50、模型的構(gòu)建這一條件是有用的。識(shí)別條件獨(dú)立方程的A.4和A.5二部完全無(wú)向圖模型表示滿意,并再次使用thehammersley克利福彳惠定理(假設(shè)性),我們可以看到如下形式充分刻畫(huà)所有感興趣的聯(lián)合分布,也'。)=;巳嚇(2必/(4與)一£力國(guó))一5叼(%)(A而采取的形式的似然函數(shù)p(x|y)=exp(£電/出M+Z%-loeSy)(A7)雖然很不明顯,邊緣分布的觀測(cè)值,x,方程的書(shū)信也可以表示為一個(gè)無(wú)限的定向模型而定義的條件分布層與層之間的參數(shù)綁在一起。驗(yàn)證這一說(shuō)法直觀方法如下??紤]一個(gè)方法,我們可以從邊際分布P(x)的方程,得出樣品的書(shū)信暗示。從Y任意配置,我們會(huì)
51、反復(fù)地進(jìn)行吉布斯抽樣,在交替,在A.4和A.5給出分布方程。如果我們運(yùn)行這個(gè)馬爾可夫鏈足夠長(zhǎng)的時(shí)問(wèn),那么,供應(yīng)鏈和適當(dāng)?shù)募僭O(shè)下,我們最終會(huì)從書(shū)信給方程的聯(lián)合分布得到無(wú)偏樣本?,F(xiàn)在讓我們想象一下,我們把這個(gè)序列的吉布斯更新的空間,這樣,我們考慮的變量,每個(gè)并行更新構(gòu)成一個(gè)單獨(dú)的層狀態(tài)圖。這個(gè)展開(kāi)狀態(tài)序列有一個(gè)純粹的定向結(jié)構(gòu)(有條件分布以方程的形式和A.4和A.5交替)。通過(guò)等價(jià)的吉布斯抽樣方案后,在這樣一個(gè)展開(kāi)圖的許多層,層相鄰對(duì)將有一個(gè)聯(lián)合分布在給定方程的書(shū)信。我們可以為展開(kāi)圖如下描述以上的直覺(jué)。其基本思想是把圖的“向上”(即,遠(yuǎn)離數(shù)據(jù)),所以我們可以把一個(gè)明確的分布變量的無(wú)限疊加。然后我們驗(yàn)
52、證一些簡(jiǎn)單的邊際和條件的聯(lián)合分布特性,從而證明所要求的性能曲線圖中的“向下”的方向。讓XX,y.、,yQ),x,嚴(yán),是一個(gè)序列變量(棧),第一個(gè)被確定為我們的原始觀測(cè)和隱變量。定義函數(shù)"y)=,xp£片+£卬珞)川)二短,尾)=y9/力8),(A(A.10)(A.巾)(A2)定義一個(gè)聯(lián)合分布在我們的序列變量如下:P(x叫嚴(yán))=y(xf0y巧(A.13)P(x。|yS)二以伊)|產(chǎn),i=1.2,(A.14)Pjy叫收)心(嚴(yán)|一),i12(AJ5)我們驗(yàn)證的感應(yīng),分布有以下的邊際分布:P(x)£伊)i0,1,2,(A,16)P(y)=人任叫£=0
53、,1,2,(AJ7)i=0這是由方程a.13分布定義。i>0,我們有:一、fix代*P(x)=工P(/1yX>)P(yfi)=匯"?I)MV'->)Ut-1)AVT=4(E)(A18)同樣,P(Y(我)?,F(xiàn)在我們看到的是以下的條件分布也成立:P(孫嚴(yán))=P(x,嚴(yán))/P(嚴(yán))=邱(x,y巧(A.19)P(yC)|x(i)=p(yR/+i)/P(W+i,)=gy(ylx(w).(A.20)所以我們?cè)谧兞康穆?lián)合分布的疊加也導(dǎo)致相應(yīng)的條件分布的展開(kāi)圖在“向下的方向。在這無(wú)限的圖形推理是推理的聯(lián)合分布,相當(dāng)于在變量,序列是,給定的x(0),我們可以得到一個(gè)采樣后通過(guò)
54、采樣Y(0)|x(0),x(1)|Y(0),Y(1)|X(1),0.0這直接說(shuō)明我們的推理過(guò)程是精確的展開(kāi)圖。附錄B:上下算法的偽代碼我們現(xiàn)在MATLAB風(fēng)格偽代碼為5節(jié)中描述的用于重新擬合升降算法實(shí)現(xiàn)。(這是一種對(duì)比版本的喚醒睡眠算法;Hinton等人。,1995。)下面的代碼是在圖1所示的標(biāo)簽,可見(jiàn)輸入,節(jié)點(diǎn)式網(wǎng)絡(luò),和三層的隱單元。在應(yīng)用上的算法,我們首先會(huì)進(jìn)行逐層貪婪的訓(xùn)練中所描述的部分3和4。VKUP-DOWNALGORITHM%thedataandallbiasesarerowvectors."thegenerativemodelis:lab<->top<
55、->pen->hidvisthenumberofunitsinlayerfoeisniunfooYweightmatriceshavenamesfromlayer.tolayer'送"rec"isforrecognitionbiasesand"gen"isforgenerativebiases.Xforsimplicity*thesamelearningrate,r,iausedeverywhere.%PERFORMABOTTOM-UPPASSTOGETWAKE/POSITIVEPHASE%PROBABILITIESANDSAMPLE
56、STATESwakehidprobs=logistic(data+vishid+hidrecbiases);wakehidstates=wakehidprobs>rand(l,numhid);wakepenprobs=logistic(wakehidstates+hidpen+penrecbiases);wakepenstates=wakepenprobs>rand(l,numpen);wakeopprobs=logistic(wakepenstates+pentop+targets+labtop+topbiases);Bakeopstates=wakeopprobs>rand(l,numtop);%POSITIVEPHASESTATISTICSFORCONTRASTIVEDIVERGENCEposlabtopstatistics=targets?*waketopstates;pospentopstatistics=wakepenstatesvaketopstates;XPERFORMnumCDitersGIBBSSAMPLINGITERATIONSUSINGTHETOPLEVEL%UNDIRECTEDASSOCIATIVEMEMORYne
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 《物理生活中的透鏡》課件
- 《中心對(duì)稱(chēng)圖形復(fù)習(xí)》課件
- 《AB類(lèi)超市術(shù)語(yǔ)》課件
- 綠色營(yíng)銷(xiāo)策劃報(bào)告模板
- 月度人力資源匯報(bào)模板
- DeepSeek入門(mén)寶典培訓(xùn)課件
- 2025年麻風(fēng)二聯(lián)苗項(xiàng)目合作計(jì)劃書(shū)
- 屋面防水工程質(zhì)量問(wèn)題的原因及防范措施
- 商業(yè)電表申請(qǐng)書(shū)
- 醫(yī)學(xué)申請(qǐng)書(shū)范文
- 2025年上半年上半年重慶三峽融資擔(dān)保集團(tuán)股份限公司招聘6人易考易錯(cuò)模擬試題(共500題)試卷后附參考答案
- 特殊教育學(xué)校2024-2025學(xué)年度第二學(xué)期教學(xué)工作計(jì)劃
- 2025年技術(shù)員個(gè)人工作計(jì)劃例文(四篇)
- 勞保穿戴要求培訓(xùn)
- 2024年物聯(lián)網(wǎng)安裝調(diào)試員(初級(jí)工)職業(yè)資格鑒定考試題庫(kù)(含答案)
- 工業(yè)控制系統(tǒng)應(yīng)用與安全防護(hù)技術(shù)(微課版)課件 第1章 緒論
- 《設(shè)備科安全培訓(xùn)》課件
- 藍(lán)色插畫(huà)風(fēng)徽州印象旅游景點(diǎn)景區(qū)文化宣傳
- 2024年形勢(shì)與政策課件及講稿合集
- 無(wú)人機(jī)運(yùn)營(yíng)方案
- 延長(zhǎng)石油招聘筆試題庫(kù)
評(píng)論
0/150
提交評(píng)論