版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)
文檔簡介
1、AFastLearningAlgorithmforDeepBeliefNets基于深度置信網(wǎng)的快速學習算法杰弗里e辛頓西蒙O計算機科學、多倫多大學、加拿大多倫多m53g4Yee-WhyeT.sg新加坡國立大學計算機科學系,新加坡117543我們介紹了如何使用“complementarypriors”去減少解釋在含有許多隱藏的層的緊密連接置信網(wǎng)方面推理比較困難的影響。利用先驗互補,倘若最高的兩側(cè)形成一個無向聯(lián)想記憶,我們同時可以得到這樣一個含有一個層次的快速貪心
2、算法。快速貪心算法被用來初始化一個慢學習的過程,它通過使用喚醒睡眠算法的對比版本微調(diào)權(quán)重。微調(diào)后,含有三個隱藏層的網(wǎng)絡(luò)形成一個很好的關(guān)于手寫數(shù)字圖像和標簽的聯(lián)合分布的生成模型。相對于最好的判別式算法而言,生成模型給出了更好的數(shù)字分類。使用頂層聯(lián)想記憶的在自由能量景觀的長峽谷來對數(shù)字謊言的低維流形進行建模,便于我們探討這些峽谷,通過使用直接連接的方式展示已經(jīng)形成的聯(lián)想記憶。1引言學習緊密連接且含有多個隱藏層定向的信念網(wǎng)的過程是不易的,因為當給定一個數(shù)據(jù)向量時,它是很難推斷隱藏活動的條件分布。對于真實的條件分布,變分方法使用簡單的近似值,但近似值可能會很差,特別是在先驗假設(shè)獨立的最深的隱藏層。同時
3、,變量的學習還要求所有的參數(shù)在一起學習,這使得學習時間尺度隨著參數(shù)的數(shù)量增加而變得越差。我們描述了一個模型,其中頂部的兩個隱含層形成一個無向聯(lián)想記憶(見圖1),其余的隱藏層形成一個有向無環(huán)圖,將聯(lián)想記憶的表示轉(zhuǎn)化為可觀測變量,比如一個圖像的像素。這種混合模型具有一些比較吸引人的特征:2000top-levelunits|1。i曰b巳iLimits500units仃訃0500units這可能是另一種感知器的最高級vI28x28pixelimage圖i:這種網(wǎng)絡(luò)用于數(shù)字圖像和數(shù)字標簽的聯(lián)合分布的建模。在這篇文章中,每個訓練實例包含一個圖像和一個明確的類標簽,然而進展中的工作表明,相同的學習算法可以
4、被使用,如果“標簽”是由多層通路的輸入的光譜圖從多個不同的發(fā)言者分離數(shù)字所替換。則這種網(wǎng)絡(luò)學習產(chǎn)生包括圖像和相同數(shù)字類的光譜圖對??焖儇澬膶W習算法,可以快速地找到一組比較好的參數(shù),即使對于含有無數(shù)的參數(shù)和許多隱藏的層的深度網(wǎng)絡(luò)。學習算法是無監(jiān)督的,但是可以通過學習一個模型被應(yīng)用于標記數(shù)據(jù),產(chǎn)生標簽和數(shù)據(jù)模型。微調(diào)算法是一個很好地生成模型,在又MNIST手寫數(shù)字數(shù)據(jù)集處理方面優(yōu)于判別方法。生成模型在深度隱藏層方面更容易去解釋分布式表征方法。推理過程要求形成一個快速而且準確的感知器。學習算法是局部的。突觸強度的調(diào)整僅取決于突觸前和突觸后神經(jīng)元的狀態(tài)。溝通是簡單的。神經(jīng)元只需要與它們的隨機的二進制狀
5、態(tài)進行溝通。第2節(jié)介紹了先驗的“互補”的思想,取消“解釋”的現(xiàn)象,使得在定向模型中推理變得比較困難。我們給出了一個關(guān)于帶有先驗互補的定向置信網(wǎng)的例子。第3節(jié)介紹了受限玻爾茲曼機與帶有權(quán)重的無限定向網(wǎng)絡(luò)之間的等價性第4節(jié)介紹了一種用于每次在單層構(gòu)造多層定向網(wǎng)絡(luò)的快速貪心學習算法。利用變分約束,它顯示了當每增加一個新的層時,整體生成模型提高了。在推進重復(fù)使用相同的“弱”的學習者方面,貪心算法有些相似之處。但是不是重置每個數(shù)據(jù)向量去確保下一步學習到新的一些東西。它只是表示它。“弱”的學習者是用來構(gòu)造深度定向網(wǎng),它本身是一個無向圖模型。第5部分介紹了如何使用自上而下的算法微調(diào)快速貪心算法的方式產(chǎn)生權(quán)重
6、。眠算法進行對比,它不會引起導(dǎo)致喚醒睡眠算法去學習差的識別權(quán)重這樣的題。第6節(jié)介紹了手寫體數(shù)字在MNIST數(shù)據(jù)集中,含有三個隱含層和大約的網(wǎng)絡(luò)的模式識別的性能。如果沒有利用幾何的相關(guān)知識和特殊的數(shù)據(jù)預(yù)處理,在與喚醒睡“平均模式”問1700000個權(quán)重10000個數(shù)字的官方測試集中,該網(wǎng)絡(luò)的泛化性能有1.25%的錯誤率。當對于這項特殊的應(yīng)用沒有人為的改造時,它比可以錯誤率達到1.5%的BP網(wǎng)絡(luò)要好得多。對于同一個任務(wù)而言,它也比Decoste和Schoelkopf(2002)提出的支持向量機的錯誤率達到1.4%要稍微好點。最后,第7節(jié)當沒有運行被約束的可視化輸入時,該網(wǎng)絡(luò)將會發(fā)生怎么的變化。該網(wǎng)
7、絡(luò)是一個完整的生成模型,所以便于我們可以從高層表示中簡單地生成一個圖像,而容易地理解它的思想,本文,我們考慮了由隨機二進制變量組成的網(wǎng)絡(luò),但是這種思想可以被推廣應(yīng)用到其他的模型中,該模型中變量的變量的對數(shù)概率的是一個關(guān)于它直接連接的鄰居狀態(tài)的加性函數(shù)。圖2:一個簡單的邏輯信念網(wǎng)包含兩個獨立的,僅有的因素。我們觀察房子震動的時這兩個因素是高度不相關(guān)的。地震節(jié)點偏置-10意味著在沒有任何觀察的情況下,這個節(jié)點較比往常有E10倍可能發(fā)生地震。如果地震節(jié)點變動而卡車節(jié)點不變動,則下了一跳節(jié)點總投入為0,這意味著有一個機會存在。這是對于我們觀察房子震動的可能性為e-20的一個更好的解釋。它適用隱藏因素都
8、不活躍得情況。但是用兩個隱藏因素與解釋我們觀察的結(jié)果是沒有意義的,因為他們兩個加在一起發(fā)生的可能性大小為E10*E10=e-20。當?shù)卣鸸?jié)點變化時,它“解釋了”對于汽車節(jié)點變化的證據(jù)。2先驗互補解釋這一現(xiàn)象在(如圖2所示)進行推理定向信念網(wǎng)時比較難。在緊密連通網(wǎng)絡(luò)中,隱藏變量的后驗分布比較難理解,除了少數(shù)特殊情況下,如混合模型或帶有高斯噪聲的線性模型。使用馬爾可夫鏈蒙特卡羅方法(尼爾,1992)可以從后驗樣本中取樣,但這樣比較浪費時間。變分方法(尼爾和Hinton,1998)可以粗略的估計更容易處理的后驗分布,也可以用來改善對訓練數(shù)據(jù)的對數(shù)概率約束。值得欣慰的是,學習是保證提高變分約束,甚至隱
9、藏狀態(tài)的推理是錯誤的,但它會找到一種更好的方式去完全消除解釋,即使在隱藏變量與可見變量密切相關(guān)的模型中。它是普遍認為是不可能的。一個邏輯信念網(wǎng)絡(luò)(尼爾,1992)是由隨機的二進制單元組成的。當網(wǎng)絡(luò)產(chǎn)生數(shù)據(jù)時,打開的單元i的概率是它的直接前驅(qū)j和定向連接的前驅(qū)的權(quán)重Wij的一個邏輯函數(shù):P&=I)=-fJ不T,(2.1)其bi是單元i的偏置。當模型產(chǎn)生數(shù)據(jù)時,如果邏輯信念網(wǎng)僅含有一個隱含層,那么隱藏變量的先驗分布是成階乘關(guān)系的,因為當模型用于生成數(shù)據(jù)時,它們的二進制狀態(tài)是相互獨立的。創(chuàng)建非獨立性的后驗分布來自數(shù)據(jù)的似然函數(shù)。也許我們可以通過使用特殊的隱藏層去創(chuàng)建一個“互補”的先驗,在似然
10、函數(shù)中它們完全不相關(guān),來在第一隱藏層消除解釋。然后,當似然函數(shù)乘以先驗時,我們會得到一個精確的階乘的后驗。先驗互補的存在不是顯而易見的,而圖3介紹了一個關(guān)于帶有權(quán)重的邏輯信念網(wǎng)的簡單例子,該網(wǎng)絡(luò)中每一個隱含層的先驗都是互補的。(附錄A給出了在先驗互補的條件下更一般的條件的處理)。使用綁定的權(quán)重去構(gòu)造先驗互補的方式可能僅僅只是一種方式,這方面在構(gòu)造定向模型和非定向模型時等同的。然而,正如我們所觀察到的,它會產(chǎn)生一個新的非常有效的算法,該算法的主要思想是通過較高層的權(quán)重然后逐層分解每層的權(quán)重。2.1帶有權(quán)重的無限定向模型我們可以從圖3的無限定向網(wǎng)絡(luò)中產(chǎn)生數(shù)據(jù),通過它的無限深度隱藏層的隨機結(jié)構(gòu)開始。
11、然后根據(jù)自上而下的算法執(zhí)行自上而下的“祖先”過程,在這個過程中,每一層的每個變量是從伯努利分布中選擇出來的,伯努利分布是由以上各層的活躍父節(jié)點獲取輸入值自上而下決定的。在這方面,它同其他定向無環(huán)信念網(wǎng)相似。然而,不同其他定向網(wǎng)絡(luò)之處在于,我們可以在所有的隱藏層上的真實的后驗分布取樣,通過可見單元上的數(shù)據(jù)向量開始,然后輪流在每一個隱藏層上利用轉(zhuǎn)置權(quán)矩陣去推斷階層分布。在每一個隱藏層,我們在計算每層上的階層因子的后驗之前從階層后驗取樣。附錄A介紹了一個無偏樣本的程序。etc.vs3IHi此口卬|Vi.W寺口建H.力;17.中圖3:帶有權(quán)重的無限邏輯信念網(wǎng)。向下的箭頭代表生成模型。向上的箭頭不是模型
12、的一部分。他們表示當一個數(shù)據(jù)向量在V0上添加數(shù)據(jù)時,該網(wǎng)絡(luò)中每一個隱藏層的后驗分布中用于推斷樣本。因為之前每層的先驗互補在推論后分布是階乘的。因為我們可以從真實的后驗分布取樣,讓我們計算數(shù)據(jù)的對數(shù)概率的導(dǎo)數(shù)。我們可以計算從H0層的單元j到V0層的單元i的生成權(quán)重Wij的導(dǎo)數(shù)。在邏輯信念網(wǎng)絡(luò)中,對于單個的數(shù)據(jù)向量V0的最大似然估計規(guī)則為:3logp(V0)(2.2)其中表示平均采樣狀態(tài),如果被采樣的隱藏狀態(tài)的可見向量被隨機的重建,v0表示單元i被打開時的概率。從第一隱藏層H0的取樣的二進制狀態(tài)計算第二隱藏層V1的后驗分布,該過程和重建數(shù)據(jù)的過程是相同的。所以v1是概率V0的伯努利隨機變量的樣本。
13、因此它的學習規(guī)則可以寫為:(23)從公式2.2推導(dǎo)2.3的過程中,V1在hj0上的依賴是毫無疑問的。因為V1是在h0條件下的期望。由于權(quán)重是可以被復(fù)制的,生成權(quán)重的全導(dǎo)數(shù)是所有兩兩對層權(quán)重的導(dǎo)數(shù)之和:則H-喟+付娉-剃+色川-硝"(24)OU-'fi除了第一個和最后一個取消,所有成對的產(chǎn)品遵循玻爾茲曼機的學習公式3.1計算規(guī)則。注:1代過程的收斂的馬爾可夫鏈的平穩(wěn)分布,所以我們需要在一個層,它需要鏈時間比較深的開始達到平衡。2這是相同的作為喚醒睡眠算法的推理過程(Hinton等人。,1995)但在這封信中沒有描述的變分近似模型是因為推理過程給出了無偏樣本。3受限玻爾茲曼機的對
14、比散度學習圖3的無限的有向網(wǎng)絡(luò)相當于一個受限玻爾茲曼機(RBM)可能不會容易明顯的理解。RBM的每個隱藏單元一個單層都互不相連并且與可見單元的每個層都有無向的堆成的連接。從RBM產(chǎn)生數(shù)據(jù),我們可以從這些層中的一層的隨機狀態(tài)開始,然后利用吉布斯交替執(zhí)行采樣。每一層的所有單元的更新都是并行的,并給出了其他層的單元的現(xiàn)行狀態(tài)。所有的單位在一層并行更新了單位的現(xiàn)狀在另一層,重復(fù)執(zhí)行直到系統(tǒng)抽樣達到平衡分布。注意,這和從帶有權(quán)重的無限信念網(wǎng)絡(luò)中生成數(shù)據(jù)的過程是完全相同的。在一個RBM中執(zhí)行在一個以最大似然法的學習,我們可以利用差異的相關(guān)性。在可見層i和隱藏層j中的每個權(quán)重Wij,當在可見層和隱藏層中的一
15、個數(shù)據(jù)向量從它們的條件分布中取樣,并且是階乘的,我們可以估測它的相關(guān)性v°h:。然后,利用交流吉布斯采樣,如圖4所我們運行的馬爾可夫鏈,直到達到它的平穩(wěn)分布和測量出相關(guān)性V迂h:。訓練數(shù)據(jù)的對數(shù)概率的梯度,則為:(3.1)"logp(v0)t=infinityt=0t=1t=21=infinity圖4:這是一個馬爾可夫鏈,使用吉布斯交替采樣。在吉布斯采樣的一個完整步驟中,頂層的隱單元都是并行更新的,通過利用公式2.1輸入頂層可見單元的現(xiàn)行狀態(tài)得到的值。然后可見單元都并行更新,給出目前的隱藏狀態(tài)。和數(shù)據(jù)向量相同,馬爾可夫鏈通過設(shè)置可見單元的二進制狀態(tài)的過程進行初始化。在隱藏單
16、元第一次更新后,可見單元和隱藏單元的活動相關(guān)性可以被測量。在馬爾可夫鏈的末尾再一次執(zhí)行。這兩個相關(guān)性的差異提供了更新連接的權(quán)重的學習方法。對于帶有權(quán)重的無限邏輯信念網(wǎng),這種學習規(guī)則等同于最大似然學習規(guī)則。吉布斯取樣的每一步都等同于計算邏輯信念網(wǎng)絡(luò)的一層的精確的后驗分布。最大化數(shù)據(jù)的對數(shù)概率等同于最小化數(shù)據(jù)P0和由模型電定義的平衡分布的KL散度KL(P0|Pq)。在對比散度學習的過程中(辛頓,2002),在第二個相關(guān)性之前我們運行n步驟的馬爾可夫鏈。這相當于不考慮無限網(wǎng)的高層的導(dǎo)數(shù)。這些被忽略的導(dǎo)數(shù)之和是層Vn的后驗分布的對數(shù)概率的導(dǎo)數(shù),也是在層Vn和由模型p:定義的平衡分布的KL散度。所以兩個
17、KL散度的對比散度學習最小化差異為:KL(PP)-KL(PPY(3.2)忽略采樣噪聲,這種差異是積極的。因為吉布斯抽樣用來從P0產(chǎn)生Pg,而且吉布斯總是降低有平衡分布的Kullback-Leibler散度。我們還注意到,用取決于當前模型的參數(shù),并且隨著參數(shù)的變化,用的變化被對比散度學習忽略。這個問題不會隨著P0而出現(xiàn),因為訓練數(shù)據(jù)不依賴于參數(shù)。極大似然和對比散度學習規(guī)則的關(guān)系的經(jīng)驗調(diào)查可以在Carreira-PerpinanandHinton(2005)被發(fā)現(xiàn)。對比散度學習在受限玻爾茲曼機中的應(yīng)用是非常有效的(Mayraz&Hinton,2001)。使用實值的單元和不同的取樣方案的變化
18、(Variations)在Teh,Welling,Osindero,andHinton(2003)中有描述。并且已經(jīng)相當?shù)爻晒Φ膽?yīng)用于地形圖的生成模型(Welling,Hinton,&Osindero,2003)、自然圖像去噪(Roth&Black,2005)或生物細胞圖像(Ningetal.,2005)。Marks&movellan(2001)描述了一種使用對比散度去研究因子分析的方式。Welling,Rosen-Zvi,andHinton(2005)介紹了邏輯,二進制可見單元的網(wǎng)絡(luò)和線性,高斯隱單元可以用于快速文件檢索。然而,它看起來似乎是以高的代價帶來了效率:但是
19、當應(yīng)用在具有明顯路徑時,對比散度學習不能適應(yīng)于在每一層帶有不同權(quán)重的深度多層網(wǎng)絡(luò)。因為這些網(wǎng)絡(luò)花費太多的時間才能達到含有一個數(shù)據(jù)向量的均衡條件。我們現(xiàn)在介紹在RBM矯口帶有權(quán)重的無限定向網(wǎng)絡(luò)之間的等價性,為不含有權(quán)重的多層網(wǎng)絡(luò)提出一個有效的學習算法。注釋:每個全步驟都是由給定v更新h,然后在給定h更新v。4.基于轉(zhuǎn)換表示的貪心學習算法學習復(fù)雜模型的有效方式就是結(jié)合一組較簡單的被順序?qū)W習的模型。為了迫使順序模型學習的東西不同于之前模型的內(nèi)容,在每一個模型被學習之后,數(shù)據(jù)需要做一些調(diào)整。為了促進每一個順序模型上的加權(quán)數(shù)據(jù)被訓練,需要強調(diào)先前的模型時錯誤的。在主要分量分析的一個版本中,模型化方向的方
20、差被刪除,因此迫使下一個建模方向依賴于正交的子空間(Sanger,1989)。在投影尋蹤(弗里德曼和Stuetzle,1981),通過在數(shù)據(jù)空間中非線性扭曲把數(shù)據(jù)轉(zhuǎn)換成一個方向,然后在那個方向刪除所有的非高斯分布。這種思想支持我們的貪心算法去允許每個序列模型接受數(shù)據(jù)的不同表示形式。該模型對輸入的向量進行非線性變換,輸出向量將作為序列中下一個模型的輸入。跖丁仃。場H0踞圖5:混合網(wǎng)絡(luò)。前兩層具有無向連接形成聯(lián)想記憶。下面的層是有向,自上而下的生成連接,它可應(yīng)用于形成一個圖像的聯(lián)想記憶的狀態(tài)。以下各層也有定向、自底向上的認知連接,可用于在一層從二進制活動推斷階乘表示。在貪心初始學習過程中,認知連接
21、與生成連接是相關(guān)聯(lián)的。圖5顯示了一個多層生成模型,其上的前兩層通過無向連接交互,而其他所有的連接都是有向的。頂部的無向連接相當于許多帶有權(quán)重的無限高層。中間沒有夾層連接,可以簡化分析的過程并且所有層都含有相同的單元數(shù)。通過假設(shè)較高層之間的參數(shù)用于構(gòu)建先驗互補,對于參數(shù)W學習價值是可取的(盡管不是最優(yōu)的)。這等同于所有的權(quán)矩陣是等同的。在這種假設(shè)下學習Wo的任務(wù)歸結(jié)于學習一個RBM,盡管這仍然很困難,但是通過最小化對比散度學習可以快速獲取較好的近似解。一旦W0被學習,在第一隱藏層數(shù)據(jù)可以通過WT映射去創(chuàng)建較高級的“數(shù)據(jù)”。如果RBM是一個完美的原始數(shù)據(jù)模型,那么較高級別的“數(shù)據(jù)”已被較高級的權(quán)矩
22、陣建模。然而,一般來說RBM無法對源數(shù)據(jù)進行完美的建模,我們可以使用下面的貪婪算法獲得更好的生成模型:1 .了解W0假設(shè)所有的權(quán)重矩陣是并列的。2 .凍結(jié)W)和致力于使用WT去推斷在第一隱藏層上的變量狀態(tài)的階乘近似后驗分布。即使后面在較高級的權(quán)重發(fā)生改變,意味著這種推理方法不再是正確的。3 .保持較高的權(quán)重矩陣彼此并列,但是當學習通過使用WT轉(zhuǎn)化源數(shù)據(jù)生成較高級“數(shù)據(jù)”的一個RBM模型時,需要從W)釋放。如果這種貪心算法改變更高層次的權(quán)矩陣,它保證提高生成模型。正如NealandHinton(1998)所介紹的,在多層生成模型下,單個數(shù)據(jù)向量V0的負的對數(shù)概率受約束于自由能量的變化,它是在近似
23、分布情況下Q(h°|v0)的期望能量,減去分布的嫡。對于有向模型來說,這種配置V°,h。的能量是由下式給出:E(v°,h°)=-log躍h。)十Lgp(v、h。),(41)所以約束為:hgp“)>£Q(hn|v0)luSp(hn)+logp(v0|h0)allhu-£C2(h°|v°)logqMH),(4.2)dih°其中h0是第一隱層單元的二進制配置,P(h0)是當前模式下h0的先驗概率(即由H0上的權(quán)重定義的),并且Q(.|v°)是第一隱藏層的二進制配置上的任何概率分布。當且僅當Q(,
24、|v°)是真實的后驗分布,這種約束才是等價的。當所有的權(quán)重矩陣是捆綁在一起的,H0上的階乘分布通過在一個數(shù)據(jù)向量上應(yīng)用W0T產(chǎn)生的,是真實的后驗分布。所以在貪心算法的第二步,對數(shù)P(v°)等價于約束,步驟2凍結(jié)Q(,|v°)和P(v°|h0),并與這些元素都是固定的,約束的導(dǎo)數(shù)等同于下式的導(dǎo)數(shù)£Q(hO|v°)logp0i%(43)allM所以最大化的更高層次的權(quán)重的約束,正是相當于最大化數(shù)據(jù)集的對數(shù)概率,h0發(fā)生的概率為Q(h°|v0卜如果約束變得更加緊密,對數(shù)P(v0)可能下降,盡管它的下界增加,但是在貪心算法的第二步對
25、數(shù)P(v°)不會低于它自己的價值,因為在這個點上的約束是緊密的而且總是增加的。貪心算法可以遞歸地應(yīng)用。所以,如果我們用全最大似然的玻爾茲曼機學習算法去學習每個權(quán)重集合。然后我們從以上的權(quán)重分解集合的最底層。我們可以一次保證學習一層的權(quán)重,從來不會減少在模型下數(shù)據(jù)的對數(shù)概率的約束。實際上,我們用對比散度學習取代最大似然玻爾茲曼機,因為它的效率較高而且快速。使用對比散度學習保證會無效,但是如果我們有足夠的耐心學習每一層,我們需要知道額外的其他層確保去改善未完善的模型。為了保證生成的模型是由貪婪地學習更多的層所改善的,它是方便的考慮模型中的所有層是相同大小的,以便較高層的權(quán)重在被從以下層分
26、解之前可以初始化為所學的價值。然而,相同的貪心算法可以應(yīng)用甚至對于層的大小不相同的情況下。5自上而下算法的反向擬合一次學習單層的權(quán)矩陣是有效的但不是最優(yōu)的。一旦高層的權(quán)重被學習,對于較低層的權(quán)重和簡單的推理過程都不是最優(yōu)的。對于無監(jiān)督的方法比如boosting相對地可以產(chǎn)生次優(yōu)的。標簽通常是稀缺的,每個標簽可能只提供一些約束參數(shù),所以過度擬合要比低度擬合會帶來更多的問題。因此重回去調(diào)整之前的模型可能弊大于利。然而,無監(jiān)督方法可以使用非常大的未標記的數(shù)據(jù)集,每個案例可能是高維的,從而在生成模型提供多點約束。因此低度擬合是一個嚴重問題,它可以通過后面的順序擬合階段的過程而減輕,我們之前學習的權(quán)重會
27、隨著后來學習的權(quán)重進行調(diào)整更好的適合在對于每層的權(quán)重,在貪心學習好的初始值之后,我們從定義模型的生成權(quán)重去分解開用于推理的“識別”權(quán)重。但是必須保留有階乘分布估計得每層的后驗約束。其中層內(nèi)變量條件依賴于以下各層的變量的值。喚醒睡眠算法的變體由Hinton等人描述過(1995),后來被適用于較高層的權(quán)重去改變較低層的權(quán)重,在“向上”的過程中,認知權(quán)重在自底向上的過程使用,隨機地為每個隱藏層挑選狀態(tài)。在等式2.2(5)用最大似然學習規(guī)則調(diào)整有向連接的生成權(quán)重。如前所述,擬合頂層的RBMHIJ倒數(shù)第二層的后驗分布,學習頂層的無向連接的權(quán)重?!跋蛳隆睆捻攲拥穆?lián)想記憶的狀態(tài)開始,進而使用自頂向下的的生成
28、連接隨機的輪流激活每個較低層。在向下的過程中,頂層無向連接和生成的有向連接都不會發(fā)生變化。只有自底向上的權(quán)重被修改。如果在初始化向下的過程之前允許聯(lián)想記憶設(shè)置它的均衡分布,這個過程相當于喚醒睡眠算法中的睡眠階段。但是如果向上的過程初始化聯(lián)想記憶,并且僅允許運行幾個交替吉布斯采樣,在初始化向下的過程之前。這是喚醒睡眠算法的對比形式,它減少了從聯(lián)想記憶的均衡分布取樣的要求。這種對比形式也調(diào)整了睡眠階段的一些問題。對于表示法,它確保識別權(quán)重被學習,類似于用于真實數(shù)據(jù)的情況,并且有助于消除模式的平均問題。如果,給定一個特定的數(shù)據(jù)向量,現(xiàn)行識別權(quán)重總是在以上的水平選擇一個特定的模式,并且忽略了其他相當擅
29、長生成數(shù)據(jù)的模式,在向下的學習過程中,它不會改變這些識別權(quán)重用來回溯任何其他的模型,如果睡眠階段被用于純的尋祖過程。一個純的尋祖過程從使用延長吉布斯取樣的過程開始,從頂層聯(lián)想記憶獲得均衡樣本。通過使用頂層聯(lián)想記憶,我們也可以消除喚醒階段的一些問題:獨立的頂層單元貌似允許尋祖過程,但是它們意味著變分近似法對于頂層的權(quán)重的效果不好。附錄B說明了通過使用圖1顯示的網(wǎng)絡(luò)的MATALAM樣介紹了自上而下算法的詳細過程。為了簡單起見,關(guān)于所有參數(shù)的權(quán)重、能量、學習速率在這里不再贅述。同時,只討論單案例的訓練數(shù)據(jù)。注釋:5,因為權(quán)重與它們上面的權(quán)重不再相關(guān)聯(lián),d必須使用i層以上的變量的狀態(tài)計算,從這些變量生
30、成i的權(quán)重。6. MNIST數(shù)據(jù)庫的特征6.1 訓練網(wǎng)絡(luò)。手寫體數(shù)字MNIST數(shù)據(jù)庫包含60000個訓練圖像和10000個測試圖像,許多不同的模式識別技術(shù)已經(jīng)發(fā)表了這種公開可用的數(shù)據(jù)庫,因此它是理想的評價新模式識別方法。對于MNIST學習任務(wù)的基本版本,沒有幾何學的相關(guān)知識,并沒有特殊的預(yù)處理或優(yōu)化訓練集,所以一個未知但固定的隨機排列的像素不會影響學習算法。對于這種“排列不變”版本的任務(wù),在官方測試集上,我們的網(wǎng)絡(luò)的泛化性能錯誤是1.25%。圖1介紹的網(wǎng)絡(luò)是在44000個訓練圖像上被訓練,把它分440個均衡的小批次,每一個都包含每個數(shù)字類的10例子。每個小批次之后更新權(quán)重。在訓練的初始階段,在
31、第4節(jié)介紹的貪心算法是用來從底部開始分別訓練各層權(quán)值的。每層迅速瀏覽30個訓練集訓練(稱為“時代”)。在訓練中,每一個RBM的“可見”層的單元在0和1之間的有實數(shù)值的活動。當學習底層的權(quán)重時,這些都是標準化的像素強度。訓練更高層次的權(quán)重時,RBM中可見層的實數(shù)值活動是RBM中較低層的隱藏單元的激活概率。當RBM被訓練時,每個RBM中隱藏層使用隨機的二進制值。貪心訓練在GHzXeon處理器使用MATLAB語言需要每層花費幾個小時,它運行的時候,在測試集上的錯誤率為2.49%(下面詳細的看網(wǎng)絡(luò)是如何測試的)。當訓練頂層的權(quán)重時(在聯(lián)想記憶中的),標簽被設(shè)置為輸入部分。標簽表示通過對“10個單位一個
32、單位的SOFTMAX'組被激活。當這組中的活動從以上活動被重建時,確切的單元是活躍的,被選擇出來的單元i的概率由下式給出:(6.1)_exp(苫)“Eexp)'其中Xi是單元i的總輸入。特別的,學習規(guī)則不受Softmax組中兩兩單元競爭的影響,所以不需要知道那兩個單元的神經(jīng)突觸。競爭影響單元被激活時的概率,但是僅僅是這個概率影響學習規(guī)則。注釋:Preliminaryexperimentswith16x16imagesofhandwrittendigitsfromtheUSPSdatabaseshowedthatagoodwaytomodelthejointdistributio
33、nofdigitimagesandtheirlabelswastouseanarchitectureofthistype,butfor16x16images,onlythree-fifthsasmanyunitswereusedineachhiddenlayer.通過貪心算法層層訓練,用不同的學習效率和權(quán)重衰減訓練網(wǎng)絡(luò),對于300個epochs可使用5節(jié)中描述的自上而下的算法。學習率,動量和權(quán)重衰減是通過幾次訓練網(wǎng)絡(luò),并且觀察在一個含有10000張圖像的分離的驗證集上的特性進行選擇的,這些圖像時完整的訓練集的剩余部分。對于前100次的自上而下算法,傳遞是基于執(zhí)行前聯(lián)想記憶中的吉布斯交替采樣的前
34、三次迭代。對于之后的100次,進行6次迭代,對于最后的100次進行10次迭代。每一次對吉布斯提出的采樣迭代次數(shù)的提高,誤差在驗證集明顯下降。在驗證測試中表現(xiàn)最好的網(wǎng)絡(luò)被測有1.39%的錯誤率。該網(wǎng)絡(luò)將通過60000訓練圖像訓練集的每個類的數(shù)目不等,所以圖像被隨機分配600個小批。進行訓練,直到它在完整的訓練集上的錯誤率越來越低,最終的錯誤率一直存在44000圖像的初始訓練集中。再進行59次,讓其學習大約一周的時問。最終網(wǎng)絡(luò)有1.25%的錯誤率檢查進一步學習不會明顯改善錯誤率,網(wǎng)絡(luò)就用一個非常小的學習率,和測試在運行錯誤每個時期的表現(xiàn)。六周后,試驗誤差之間波動1.12%、1.31%和1.18%的
35、時代,訓練誤差的數(shù)最小的。網(wǎng)絡(luò)的錯誤如圖6所示。網(wǎng)絡(luò)的49個案例顯示正確,次好的概率在0.3,最好的卞S率如圖7所示。aosbvbGp孑e。、305590598041c5>77i826152/爭57&2弋%56/產(chǎn)4右外883893538955""z900/Gqzq夕8182901O92646AQ5十5CPG72L9548593521954,ZZ?4W&C7,/r8789935299O4A-7,乙弓方幺677&、37615938591317p以smlou9>5458*8541364134Drlq'fl產(chǎn)6'Qez/8名。*
36、29-8oO29O8404s切3,7>235287s-。O82932T3圖6:錯誤網(wǎng)絡(luò)中125個測試用例。每個案例標記網(wǎng)絡(luò)的猜測。正確的類安排在標準的掃描順序。axziO157夕1夕B、出718區(qū)t>gq力949。7圖7:其中僅有49例網(wǎng)絡(luò)猜對了,但有第二種猜測,它最好的概率在0.3正確的類安排在標準的掃描順序。1.25%的錯誤率與通過有一個或兩個隱藏層的前饋神經(jīng)網(wǎng)絡(luò)和被訓練使用反向傳播算法優(yōu)化的歧視算法(見表1)相比是很好地。當網(wǎng)絡(luò)的詳細連接不是手工制作的這個特定的任務(wù),一個單獨在10個隨機在線學習輸出單元的平方誤差的最佳報錯率是2.95%。在具有一個隱層的800個單元采用小的初
37、始權(quán)重的網(wǎng)絡(luò)中這些錯誤率可以降低到1.53%,這個權(quán)重是每個輸出單元單獨的交叉嫡誤差函數(shù),而且這種學習方式很溫和。1.51%個幾乎相同的結(jié)果實現(xiàn)了在一個第一隱層有500個單元的和第二隱層有300個單元的網(wǎng)中采用“回歸”算法輸出單元和一個不利平方量通過仔細選擇使用驗證集的正則化矩陣。相比之下,如果60000個訓練樣本被使用最近的鄰居報錯率為3.1%,(這是非常緩慢的),如果20,000個訓練樣本被使用最近的鄰居報錯率為4.4%。這可以通過使用一個L3規(guī)范減少至IJ2.8%和4%0我們基本任務(wù)中生成錯誤率接近1.25%模型的標準機器學習技術(shù)是一個給出了1.4%的錯誤率的支持向量機(德科斯特&
38、;Schoelkopf,2002)。但是支持向量機如何利用特定領(lǐng)域技巧,如體重共享和抽樣,這是很難看到的,其中LeCun,bottou,哈夫納(1998)使用從1.5%到0.95%提高判別神經(jīng)網(wǎng)絡(luò)的性能。權(quán)值共享和抽樣不能用來減少生成的錯誤率模型是沒有明顯原因的,我們目前正在調(diào)查這種方法。通過平均多元網(wǎng)絡(luò)總是可以進一步改進,但這種技術(shù)可用于所有的方錯誤率的大幅減少可以通過補充有轉(zhuǎn)換版本的數(shù)據(jù)集訓練數(shù)據(jù)實現(xiàn)。使用一、兩像素平移,德科斯特和Schoelkopf(2002)通過該方法實現(xiàn)錯誤率達到0.56%。在卷積神經(jīng)網(wǎng)絡(luò)局部使用伸縮變形,Simard,斯坦克勞斯,和普拉特(2003)實驗結(jié)果達到0
39、.4%,比最好的手工編碼識別算法達到了0.63%(belongie,馬利克,和puzicha,2002)是略好。我們尚未探索的使用扭曲的數(shù)據(jù)學習生成模型,因為許多類型的失真需要調(diào)查,以及微調(diào)算法目前來說太慢了。6.2 測試網(wǎng)絡(luò)測試網(wǎng)絡(luò)的一個方法是通過從圖像中隨機確定的500個單位的二進制狀態(tài)相聯(lián)存儲器的低層。這些固定的狀態(tài),標簽單位給定初始值0.1和吉布斯交替采樣的迭代是用于激活正確的標簽裝置。這種測試方法給出了錯誤率幾乎是1%,高于上述的報錯率。表1:各種學習算法對MNIST數(shù)字識別錯誤率任務(wù)MNIST任務(wù)版學習算法錯誤率排列小艾我們的生成模型784500500?2000?101.25排列小
40、艾支持向量機:9階多項式1.4排列小艾前饋:784500300-10交叉嫡和權(quán)重衰減1.51排列小艾前饋:784800-10交叉嫡和提前終止1.53排列小艾前饋:784500150-10誤差平方和在線更新2.95排列小艾最近的鄰居:所有60000例和L3規(guī)范2.860000例3.1和L2規(guī)范排列小艾最近的鄰居:所有20000例和L3規(guī)范4.0排列小艾最近的鄰居:所有20000例和L2規(guī)范4.4練習階段圖像,前饋:彈性提早停止卷積神0.4變形的大量數(shù)據(jù)經(jīng)網(wǎng)絡(luò)的交叉嫡和數(shù)據(jù)練習階段扭曲圖像;2像素轉(zhuǎn)換的額外數(shù)據(jù)虛擬機:9次多項式0.56初始階段圖像形狀上卜文特征:手工編他匹配0.63初始階段圖像;
41、在lenet5的前饋:卷積神經(jīng)0.8仿射變換的額外數(shù)據(jù)網(wǎng)絡(luò)初始階段圖像在lenet5的前饋:卷積神經(jīng)10.95更好的方法是先把低層的聯(lián)想記憶中的500個單位的二進制狀態(tài)固定,然后打開每一個標簽單位并計算510組件的二進制向量準確自由能的結(jié)果。幾乎所有需要計算的是被打開的獨立標簽單位(Teh和Hinton,2001),這方法計算精確條件的平衡分布標簽而不是通過吉布斯采樣逼近,以前的方法是這樣做的。該方法錯誤率約0.5%,高于由隨機決策引用的。我們可以將這兩種方法移除噪聲。簡單的是通過使用隨機二進制狀態(tài)的激活概率確定回饋(up-pas§。二是重復(fù)隨機過程20次,平均標簽概率和標簽記錄概率
42、,在20次之前選擇最好的一個。平均兩類給了幾乎相同的結(jié)果,而這些結(jié)果也非常相似用一個確定性的過程,這是使用方法的報告結(jié)果。7神經(jīng)網(wǎng)絡(luò)的展望為從模型生成樣本,我們與在頂層的聯(lián)想記憶的吉布斯抽樣進行交流直到馬爾可夫鏈收斂為平衡分布。然后使用分布樣本輸入到下面的層,產(chǎn)生一個由生成連接的單一反饋(down-pasS圖像。如果我們固定標簽單位特別是在吉布斯抽樣的類,我們可以從模型中看到圖像類的條件分布。圖8顯示了一個圖像序列的每個類,它是由樣本間1000次迭代的吉布斯采樣生成。9/2J/r67匕9O/Z3V5G7gq工33LJ67g夕。/23M5。7270/-JY4SG7sqOTl/M1047%s/&g
43、t;12_?,_bb7&a圖8:每一行顯示10樣品從生成模型與特定標簽卡。頂層的聯(lián)想記憶是樣本之間運行1000次迭代吉布斯抽樣的交替。我們也可以初始化兩層頂部的狀態(tài)通過提供一個隨機的二進制圖像作為輸入。圖9顯示了如何聯(lián)想記憶類的條件狀態(tài)發(fā)生轉(zhuǎn)變時可以自由地運行,但同時固定標簽。這種內(nèi)在的狀態(tài)是“觀察”進行了每20次迭代看看聯(lián)想記憶在腦海中。本文運用腦海這個詞不是隱喻。我們認為,精神狀態(tài)是一個假設(shè)的狀態(tài),一個高層次的內(nèi)部表示構(gòu)成真實的感知的外部世界。假設(shè)世界如圖像顯示。QJ乙3y廠7Q*01。"匕yL*7*G。幺K夕cO71q碰Q學/cD75V-c7V5圖9:每一行顯示由一個特
44、定的固定標簽?zāi)P蜕傻?0個樣本。頂層的聯(lián)想記憶是通過從隨機的每個像素概率為0.5的二進制圖像初始化得到的。第一列示了一個從最初的高水平狀態(tài)向下傳遞的結(jié)果。之后的幾列由20次迭代的交替吉布斯在聯(lián)想記憶采樣產(chǎn)生。8結(jié)論我們已經(jīng)知道它可能是深度學習,密切的連接著置信網(wǎng)絡(luò)的每一層。最明顯的方式就是當學習較低層時假設(shè)更高層次不存在,但利用階乘近似代替難處理的后驗分布這不簡單的。這些近似工作,我們需要真實的后驗是盡可能接近的階乘。所以不要忽略了更高層次,我們假設(shè)他們存在且有個權(quán)重約束實現(xiàn)優(yōu)先互補,讓真實的后驗完全析因。這是相當于有一個可以有效地學習使用對比發(fā)散的無向圖模型。它也可以被看作是因為近似與真實
45、的后驗概率之間發(fā)散的懲罰項約束變分學習,已被先前使變分近似精確約束條件取代。在學習過每一層后,從高層的權(quán)重指標解開權(quán)重。隨著這些高層權(quán)重的變化,低層的先驗知識不再互補,所以在低層真實的后驗分布不再是階乘,生成權(quán)重推論的轉(zhuǎn)置使用是不正確的。然而,我們可以用變分約束,其表明改變更高層次的權(quán)重提高了整體的生成模型。為了證明貪婪的學習算法的快速能力,我們用它初始化一個較慢的微調(diào)算法學習數(shù)字圖像的極好的生成模型和標簽的權(quán)重。使用快速貪心算法是否為最好的方式是不明確的。它最好是省略微調(diào)和使用貪婪算法的速度去學習更大的系統(tǒng),更深層次的網(wǎng)絡(luò)或一個更大的訓練集。圖1中的網(wǎng)絡(luò)有許多的參數(shù)為0.002立方毫米的小鼠
46、皮層(賀拉斯Barlow,個人通信,1999),而這種復(fù)雜性為幾百個網(wǎng)絡(luò)適合在一個單像素的高分辨率fMRI掃描。這表明更大的網(wǎng)絡(luò)可能需要與人的形狀識別能力競爭。我們目前的生成模型在許多方面受到限制(2003李和芒福德,)。它是專為圖像的可以視為概率二進制數(shù)值(不是對自然圖像);感知自上而下的反饋,它的使用是在前兩層有限的聯(lián)想記憶;它沒有知覺不變性處理系統(tǒng);它假設(shè)已經(jīng)執(zhí)行分割;當識別很困難時它間斷加入最豐富的有益的部分對象學習,然而,證實了相比其他的一些生成模型的其主要優(yōu)點:生成的模型不需要從標簽的反饋就可以學習低級別的功能,比無擬合的判別模型他們可以學習更多的參數(shù)。在判別學習,每個訓練樣本的參
47、數(shù)約束只能通過盡可能多的信息要求所指定的標簽。對于一個生成模型,每個訓練樣本的參數(shù)約束的比特數(shù)要求指精確輸入。很容易看到網(wǎng)絡(luò)已經(jīng)從模型中生成。它可能解釋為非線性,在深隱層的分布由它們生成圖像表示。判別學習方法的分類性能優(yōu)越受域控制,在域中不可能學習好的生成模型。這系列域是由穆爾定律侵蝕。附錄一:先驗互補A.1一般互補??紤]一個聯(lián)合分布的觀測值,X,Y和隱藏的變量,對于一個給定的似然函數(shù)P(X,Y|),我們定義了相應(yīng)的家庭是互補的先驗分布,P(Y),其聯(lián)合分布,P(x,y)=P(x|Y)P(Y),導(dǎo)致的后驗概率,P(X,Y|)完全分解,即,導(dǎo)致后可以表示為P(Y|x)=P(YJ|X)??赡懿⒉皇?/p>
48、所有的功能形式承認補充之前。在本附錄中,我們表明,家庭構(gòu)成所有的似然函數(shù)之前承認互seo)=exp(A,l)哪里是標準化術(shù)語。這一主張舉行,我們需要承擔的陽性分布:,P(Y)>0和P(x|Y)>0每值Y和X的先驗互補對應(yīng)的家庭則形成P(y)=exp(log£2(y)十叼(卯)(A.2)其中C是保證歸一化常數(shù)。這一功能的組合形式導(dǎo)致以下表現(xiàn)為關(guān)節(jié),P(x,y)=、d(£%(乂,明)十的)+5叼(環(huán))(A3)為了證明我們的主張,我們需要證明每一個似然函數(shù)的方程形式的承認互補之前,反之亦然。首先,它可以直接驗證了公式A.2是補充之前的似然函數(shù)的方程。表明反過來,讓我們
49、假設(shè)P(Y)是一種互補的前部分似然函數(shù)P(x|Y)o注意,后因子形式簡單的說就是聯(lián)合分布P(x,y)=P(Y)p(x|Y)滿足下列條件獨立性:YJHYK|X每J=K這組條件獨立性完全對應(yīng)關(guān)系通過每一個隱藏的和觀察到的變量和觀測變量之間的邊緣的無向圖模型滿意。由哈默斯利克利福德定理和使用我們的積極性假設(shè)的聯(lián)合分布,必須對方程a的形式,而形式的似然函數(shù)方程的方程和前A.2隨之而來。A.2互補無限書庫。我們現(xiàn)在考慮的一個子集的形式模型方程的可能性也factorizesA.3。這意味著,我們現(xiàn)在有兩套條件獨立性:Nx|y)=qP5|y)(A.4)iP(y|x)=P(切|4(A,5)我們的無限棧的有向圖
50、模型的構(gòu)建這一條件是有用的。識別條件獨立方程的A.4和A.5二部完全無向圖模型表示滿意,并再次使用thehammersley克利福彳惠定理(假設(shè)性),我們可以看到如下形式充分刻畫所有感興趣的聯(lián)合分布,也'。)=;巳嚇(2必/(4與)一£力國)一5叼(%)(A而采取的形式的似然函數(shù)p(x|y)=exp(£電/出M+Z%-loeSy)(A7)雖然很不明顯,邊緣分布的觀測值,x,方程的書信也可以表示為一個無限的定向模型而定義的條件分布層與層之間的參數(shù)綁在一起。驗證這一說法直觀方法如下。考慮一個方法,我們可以從邊際分布P(x)的方程,得出樣品的書信暗示。從Y任意配置,我們會
51、反復(fù)地進行吉布斯抽樣,在交替,在A.4和A.5給出分布方程。如果我們運行這個馬爾可夫鏈足夠長的時問,那么,供應(yīng)鏈和適當?shù)募僭O(shè)下,我們最終會從書信給方程的聯(lián)合分布得到無偏樣本?,F(xiàn)在讓我們想象一下,我們把這個序列的吉布斯更新的空間,這樣,我們考慮的變量,每個并行更新構(gòu)成一個單獨的層狀態(tài)圖。這個展開狀態(tài)序列有一個純粹的定向結(jié)構(gòu)(有條件分布以方程的形式和A.4和A.5交替)。通過等價的吉布斯抽樣方案后,在這樣一個展開圖的許多層,層相鄰對將有一個聯(lián)合分布在給定方程的書信。我們可以為展開圖如下描述以上的直覺。其基本思想是把圖的“向上”(即,遠離數(shù)據(jù)),所以我們可以把一個明確的分布變量的無限疊加。然后我們驗
52、證一些簡單的邊際和條件的聯(lián)合分布特性,從而證明所要求的性能曲線圖中的“向下”的方向。讓XX,y.、,yQ),x,嚴,是一個序列變量(棧),第一個被確定為我們的原始觀測和隱變量。定義函數(shù)"y)=,xp£片+£卬珞)川)二短,尾)=y9/力8),(A(A.10)(A.巾)(A2)定義一個聯(lián)合分布在我們的序列變量如下:P(x叫嚴)=y(xf0y巧(A.13)P(x。|yS)二以伊)|產(chǎn),i=1.2,(A.14)Pjy叫收)心(嚴|一),i12(AJ5)我們驗證的感應(yīng),分布有以下的邊際分布:P(x)£伊)i0,1,2,(A,16)P(y)=人任叫£=0
53、,1,2,(AJ7)i=0這是由方程a.13分布定義。i>0,我們有:一、fix代*P(x)=工P(/1yX>)P(yfi)=匯"?I)MV'->)Ut-1)AVT=4(E)(A18)同樣,P(Y(我)?,F(xiàn)在我們看到的是以下的條件分布也成立:P(孫嚴)=P(x,嚴)/P(嚴)=邱(x,y巧(A.19)P(yC)|x(i)=p(yR/+i)/P(W+i,)=gy(ylx(w).(A.20)所以我們在變量的聯(lián)合分布的疊加也導(dǎo)致相應(yīng)的條件分布的展開圖在“向下的方向。在這無限的圖形推理是推理的聯(lián)合分布,相當于在變量,序列是,給定的x(0),我們可以得到一個采樣后通過
54、采樣Y(0)|x(0),x(1)|Y(0),Y(1)|X(1),0.0這直接說明我們的推理過程是精確的展開圖。附錄B:上下算法的偽代碼我們現(xiàn)在MATLAB風格偽代碼為5節(jié)中描述的用于重新擬合升降算法實現(xiàn)。(這是一種對比版本的喚醒睡眠算法;Hinton等人。,1995。)下面的代碼是在圖1所示的標簽,可見輸入,節(jié)點式網(wǎng)絡(luò),和三層的隱單元。在應(yīng)用上的算法,我們首先會進行逐層貪婪的訓練中所描述的部分3和4。VKUP-DOWNALGORITHM%thedataandallbiasesarerowvectors."thegenerativemodelis:lab<->top<
55、->pen->hidvisthenumberofunitsinlayerfoeisniunfooYweightmatriceshavenamesfromlayer.tolayer'送"rec"isforrecognitionbiasesand"gen"isforgenerativebiases.Xforsimplicity*thesamelearningrate,r,iausedeverywhere.%PERFORMABOTTOM-UPPASSTOGETWAKE/POSITIVEPHASE%PROBABILITIESANDSAMPLE
56、STATESwakehidprobs=logistic(data+vishid+hidrecbiases);wakehidstates=wakehidprobs>rand(l,numhid);wakepenprobs=logistic(wakehidstates+hidpen+penrecbiases);wakepenstates=wakepenprobs>rand(l,numpen);wakeopprobs=logistic(wakepenstates+pentop+targets+labtop+topbiases);Bakeopstates=wakeopprobs>rand(l,numtop);%POSITIVEPHASESTATISTICSFORCONTRASTIVEDIVERGENCEposlabtopstatistics=targets?*waketopstates;pospentopstatistics=wakepenstatesvaketopstates;XPERFORMnumCDitersGIBBSSAMPLINGITERATIONSUSINGTHETOPLEVEL%UNDIRECTEDASSOCIATIVEMEMORYne
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2024年智能農(nóng)田水利工程承包合同
- 2024年度能源集團員工聘用合同范本
- 校園信貸安全教育
- pe 投資 投資合同范例
- 香菇種植合作協(xié)議合同范例
- 關(guān)于股東出資合同范例
- 銷售廢紙合作合同范例
- 預(yù)訂養(yǎng)老服務(wù)合同范例
- 公司工人合同范例
- 物流承包區(qū)合同范例
- 【9物(人)期末】安慶市宿松縣2023-2024學年九年級上學期期末考試物理試題
- 2024年度上海船舶分包建造合同2篇
- 全媒體運營師試題庫(含答案)
- 尊重學術(shù)道德遵守學術(shù)規(guī)范學習通超星期末考試答案章節(jié)答案2024年
- 五年級上冊奧數(shù)版教材(學生使用版)
- 媒介與性別文化傳播智慧樹知到期末考試答案章節(jié)答案2024年浙江工業(yè)大學
- 形勢與政策中國式現(xiàn)代化論文1500字
- 峨眉山月歌-李白
- 望廬山瀑布李白
- 開展靜脈輸液申報表【模板】
- 保加利亞自由加工區(qū)
評論
0/150
提交評論