版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
1、A Fast Learning Algorithm for Deep Belief Nets基于深度置信網的快速學習算法杰弗里·e·辛頓西蒙O計算機科學、多倫多大學、加拿大多倫多m5 3 g4Yee-WhyeT.sg新加坡國立大學計算機科學系,新加坡117543我們介紹了如何使用“complementary priors馬爾可夫鏈中的平衡分布”去減少解釋在含有許多隱藏的層的緊密連接置信網方面推理比較困難的影響。利用先驗互補,倘若最高的兩側形
2、成一個無向聯想記憶,我們同時可以得到這樣一個含有一個層次的快速貪心算法??焖儇澬乃惴ū挥脕沓跏蓟粋€慢學習的過程,它通過使用喚醒睡眠算法喚醒睡眠算法是神經網絡的無監(jiān)督學習算法(如乙狀結腸信念網)。培訓分為兩個階段,“喚醒”和“睡眠”。的對比版本微調權重。微調后,含有三個隱藏層的網絡形成一個很好的關于手寫數字圖像和標簽的聯合分布的生成模型。相對于最好的判別式算法而言,生成模型給出了更好的數字分類。使用頂層聯想記憶的在自由能量景觀的長峽谷來對數字謊言的低維流形進行建模,便于我們探討這些峽谷,通過使用直接連接的方式展示已經形成的聯想記憶。1引言學習緊密連接且含有多個隱藏層定向的信念網的過程是不易的,
3、因為當給定一個數據向量時,它是很難推斷隱藏活動的條件分布。對于真實的條件分布,變分方法使用簡單的近似值,但近似值可能會很差,特別是在先驗假設獨立的最深的隱藏層。同時,變量的學習還要求所有的參數在一起學習,這使得學習時間尺度隨著參數的數量增加而變得越差。我們描述了一個模型,其中頂部的兩個隱含層形成一個無向聯想記憶(見圖1),其余的隱藏層形成一個有向無環(huán)圖,將聯想記憶的表示轉化為可觀測變量,比如一個圖像的像素。這種混合模型具有一些比較吸引人的特征:這可能是另一種感知器的最高級圖1:這種網絡用于數字圖像和數字標簽的聯合分布的建模。在這篇文章中,每個訓練實例包含一個圖像和一個明確的類標簽,然而進展中的
4、工作表明,相同的學習算法可以被使用,如果“標簽”是由多層通路的輸入的光譜圖從多個不同的發(fā)言者分離數字所替換。則這種網絡學習產生包括圖像和相同數字類的光譜圖對。 快速貪心學習算法,可以快速地找到一組比較好的參數,即使對于含有無數的參數和許多隱藏的層的深度網絡。 學習算法是無監(jiān)督的,但是可以通過學習一個模型被應用于標記數據,產生標簽和數據模型。 微調算法是一個很好地生成模型,在對MNIST手寫數字數據集處理方面優(yōu)于判別方法。 生成模型在深度隱藏層方面更容易去解釋分布式表征方法。 推理過程要求形成一個快速而且準確的感知器。 學習算法是局部的。突觸強度的調整僅取決于突觸前和突觸后神經元的狀態(tài)。 溝通是
5、簡單的。神經元只需要與它們的隨機的二進制狀態(tài)進行溝通。第2節(jié)介紹了先驗的“互補”的思想,取消“解釋”的現象,使得在定向模型中推理變得比較困難。我們給出了一個關于帶有先驗互補的定向置信網的例子。第3節(jié)介紹了受限玻爾茲曼機與帶有權重的無限定向網絡之間的等價性第4節(jié)介紹了一種用于每次在單層構造多層定向網絡的快速貪心學習算法。利用變分約束,它顯示了當每增加一個新的層時,整體生成模型提高了。在推進重復使用相同的“弱”的學習者方面,貪心算法有些相似之處。但是不是重置每個數據向量去確保下一步學習到新的一些東西。它只是表示它。“弱”的學習者是用來構造深度定向網,它本身是一個無向圖模型。第5部分介紹了如何使用自
6、上而下的算法微調快速貪心算法的方式產生權重。與喚醒睡眠算法進行對比,它不會引起導致喚醒睡眠算法去學習差的識別權重這樣的“平均模式”問題。第6節(jié)介紹了手寫體數字在MNIST數據集中,含有三個隱含層和大約1700000個權重的網絡的模式識別的性能。如果沒有利用幾何的相關知識和特殊的數據預處理,在10000個數字的官方測試集中,該網絡的泛化性能有1.25%的錯誤率。當對于這項特殊的應用沒有人為的改造時,它比可以錯誤率達到1.5%的BP網絡要好得多。對于同一個任務而言,它也比Decoste和Schoelkopf(2002)提出的支持向量機的錯誤率達到1.4%要稍微好點。最后,第7節(jié)當沒有運行被約束的可
7、視化輸入時,該網絡將會發(fā)生怎么的變化。該網絡是一個完整的生成模型,所以便于我們可以從高層表示中簡單地生成一個圖像,而容易地理解它的思想,本文,我們考慮了由隨機二進制變量組成的網絡,但是這種思想可以被推廣應用到其他的模型中,該模型中變量的變量的對數概率的是一個關于它直接連接的鄰居狀態(tài)的加性函數。圖2:一個簡單的邏輯信念網包含兩個獨立的,僅有的因素。我們觀察房子震動的時這兩個因素是高度不相關的。地震節(jié)點偏置-10意味著在沒有任何觀察的情況下,這個節(jié)點較比往常有E10倍可能發(fā)生地震。如果地震節(jié)點變動而卡車節(jié)點不變動,則下了一跳節(jié)點總投入為0,這意味著有一個機會存在。這是對于我們觀察房子震動的可能性為
8、e-20的一個更好的解釋。它適用隱藏因素都不活躍得情況。但是用兩個隱藏因素與解釋我們觀察的結果是沒有意義的,因為他們兩個加在一起發(fā)生的可能性大小為E10*E10=e-20。當地震節(jié)點變化時,它“解釋了”對于汽車節(jié)點變化的證據。2先驗互補解釋這一現象在(如圖2所示)進行推理定向信念網時比較難。在緊密連通網絡中,隱藏變量的后驗分布比較難理解,除了少數特殊情況下,如混合模型或帶有高斯噪聲的線性模型。使用馬爾可夫鏈蒙特卡羅方法(尼爾,1992)可以從后驗樣本中取樣,但這樣比較浪費時間。變分方法(尼爾和Hinton,1998)可以粗略的估計更容易處理的后驗分布,也可以用來改善對訓練數據的對數概率約束。值
9、得欣慰的是,學習是保證提高變分約束,甚至隱藏狀態(tài)的推理是錯誤的,但它會找到一種更好的方式去完全消除解釋,即使在隱藏變量與可見變量密切相關的模型中。它是普遍認為是不可能的。一個邏輯信念網絡(尼爾,1992)是由隨機的二進制單元組成的。當網絡產生數據時,打開的單元i的概率是它的直接前驅j和定向連接的前驅的權重wij的一個邏輯函數:其bi是單元i的偏置。當模型產生數據時,如果邏輯信念網僅含有一個隱含層,那么隱藏變量的先驗分布是成階乘關系的,因為當模型用于生成數據時,它們的二進制狀態(tài)是相互獨立的。創(chuàng)建非獨立性的后驗分布來自數據的似然函數。也許我們可以通過使用特殊的隱藏層去創(chuàng)建一個“互補”的先驗,在似然
10、函數中它們完全不相關,來在第一隱藏層消除解釋。然后,當似然函數乘以先驗時,我們會得到一個精確的階乘的后驗。先驗互補的存在不是顯而易見的,而圖3介紹了一個關于帶有權重的邏輯信念網的簡單例子,該網絡中每一個隱含層的先驗都是互補的。(附錄A給出了在先驗互補的條件下更一般的條件的處理)。使用綁定的權重去構造先驗互補的方式可能僅僅只是一種方式,這方面在構造定向模型和非定向模型時等同的。然而,正如我們所觀察到的,它會產生一個新的非常有效的算法,該算法的主要思想是通過較高層的權重然后逐層分解每層的權重。2.1帶有權重的無限定向模型我們可以從圖3的無限定向網絡中產生數據,通過它的無限深度隱藏層的隨機結構開始。
11、然后根據自上而下的算法執(zhí)行自上而下的“祖先”過程,在這個過程中,每一層的每個變量是從伯努利分布中選擇出來的,伯努利分布是由以上各層的活躍父節(jié)點獲取輸入值自上而下決定的。在這方面,它同其他定向無環(huán)信念網相似。然而,不同其他定向網絡之處在于,我們可以在所有的隱藏層上的真實的后驗分布取樣,通過可見單元上的數據向量開始,然后輪流在每一個隱藏層上利用轉置權矩陣去推斷階層分布。在每一個隱藏層,我們在計算每層上的階層因子的后驗之前從階層后驗取樣。附錄A介紹了一個無偏樣本的程序。圖3:帶有權重的無限邏輯信念網。向下的箭頭代表生成模型。向上的箭頭不是模型的一部分。他們表示當一個數據向量在V0上添加數據時,該網絡
12、中每一個隱藏層的后驗分布中用于推斷樣本。因為之前每層的先驗互補在推論后分布是階乘的。因為我們可以從真實的后驗分布取樣,讓我們計算數據的對數概率的導數。我們可以計算從H0層的單元j到V0層的單元i的生成權重Wij的導數。在邏輯信念網絡中,對于單個的數據向量V0的最大似然估計規(guī)則為:其中<·>表示平均采樣狀態(tài),如果被采樣的隱藏狀態(tài)的可見向量被隨機的重建,表示單元i被打開時的概率。從第一隱藏層H0的取樣的二進制狀態(tài)計算第二隱藏層V1的后驗分布,該過程和重建數據的過程是相同的。所以是概率的伯努利隨機變量的樣本。因此它的學習規(guī)則可以寫為:從公式2.2推導2.3的過程中,在上的依賴是
13、毫無疑問的。因為是在條件下的期望。由于權重是可以被復制的,生成權重的全導數是所有兩兩對層權重的導數之和:除了第一個和最后一個取消,所有成對的產品遵循玻爾茲曼機的學習公式3.1計算規(guī)則。注:1代過程的收斂的馬爾可夫鏈的平穩(wěn)分布,所以我們需要在一個層,它需要鏈時間比較深的開始達到平衡。2這是相同的作為喚醒睡眠算法的推理過程(Hinton等人。,1995)但在這封信中沒有描述的變分近似模型是因為推理過程給出了無偏樣本。3受限玻爾茲曼機的對比散度學習圖3的無限的有向網絡相當于一個受限玻爾茲曼機(RBM)可能不會容易明顯的理解。RBM的每個隱藏單元一個單層都互不相連并且與可見單元的每個層都有無向的堆成的
14、連接。從RBM產生數據,我們可以從這些層中的一層的隨機狀態(tài)開始,然后利用吉布斯交替執(zhí)行采樣。每一層的所有單元的更新都是并行的,并給出了其他層的單元的現行狀態(tài)。所有的單位在一層并行更新了單位的現狀在另一層,重復執(zhí)行直到系統抽樣達到平衡分布。注意,這和從帶有權重的無限信念網絡中生成數據的過程是完全相同的。在一個RBM中執(zhí)行在一個以最大似然法的學習,我們可以利用差異的相關性。在可見層i和隱藏層j中的每個權重Wij,當在可見層和隱藏層中的一個數據向量從它們的條件分布中取樣,并且是階乘的,我們可以估測它的相關性<>。然后,利用交流吉布斯采樣,如圖4所我們運行的馬爾可夫鏈,直到達到它的平穩(wěn)分布
15、和測量出相關性<>。訓練數據的對數概率的梯度,則為:圖4:這是一個馬爾可夫鏈,使用吉布斯交替采樣。在吉布斯采樣的一個完整步驟中,頂層的隱單元都是并行更新的,通過利用公式2.1輸入頂層可見單元的現行狀態(tài)得到的值。然后可見單元都并行更新,給出目前的隱藏狀態(tài)。和數據向量相同,馬爾可夫鏈通過設置可見單元的二進制狀態(tài)的過程進行初始化。在隱藏單元第一次更新后,可見單元和隱藏單元的活動相關性可以被測量。在馬爾可夫鏈的末尾再一次執(zhí)行。這兩個相關性的差異提供了更新連接的權重的學習方法。對于帶有權重的無限邏輯信念網,這種學習規(guī)則等同于最大似然學習規(guī)則。吉布斯取樣的每一步都等同于計算邏輯信念網絡的一層的
16、精確的后驗分布。最大化數據的對數概率等同于最小化數據和由模型定義的平衡分布的KL散度KL(|)。在對比散度學習的過程中(辛頓,2002),在第二個相關性之前我們運行n步驟的馬爾可夫鏈。這相當于不考慮無限網的高層的導數。這些被忽略的導數之和是層的后驗分布的對數概率的導數,也是在層和由模型定義的平衡分布的KL散度。所以兩個KL散度的對比散度學習最小化差異為:忽略采樣噪聲,這種差異是積極的。因為吉布斯抽樣用來從產生,而且吉布斯總是降低有平衡分布的Kullback-Leibler散度。我們還注意到,取決于當前模型的參數,并且隨著參數的變化,的變化被對比散度學習忽略。這個問題不會隨著而出現,因為訓練數據
17、不依賴于參數。極大似然和對比散度學習規(guī)則的關系的經驗調查可以在Carreira-Perpinanand Hinton (2005)被發(fā)現。對比散度學習在受限玻爾茲曼機中的應用是非常有效的(Mayraz& Hinton, 2001)。使用實值的單元和不同的取樣方案的變化(Variations)在Teh,Welling, Osindero, and Hinton (2003)中有描述。并且已經相當地成功的應用于地形圖的生成模型(Welling, Hinton,&Osindero,2003)、自然圖像去噪(Roth & Black, 2005)或生物細胞圖像(Ning et
18、al., 2005)。Marks &movellan(2001)描述了一種使用對比散度去研究因子分析的方式。Welling,Rosen-Zvi, and Hinton (2005)介紹了邏輯,二進制可見單元的網絡和線性,高斯隱單元可以用于快速文件檢索。然而,它看起來似乎是以高的代價帶來了效率:但是當應用在具有明顯路徑時,對比散度學習不能適應于在每一層帶有不同權重的深度多層網絡。因為這些網絡花費太多的時間才能達到含有一個數據向量的均衡條件。我們現在介紹在RBMs和帶有權重的無限定向網絡之間的等價性,為不含有權重的多層網絡提出一個有效的學習算法。注釋:每個全步驟都是由給定v更新h,然后在給
19、定h更新v。4.基于轉換表示的貪心學習算法學習復雜模型的有效方式就是結合一組較簡單的被順序學習的模型。為了迫使順序模型學習的東西不同于之前模型的內容,在每一個模型被學習之后,數據需要做一些調整。為了促進每一個順序模型上的加權數據被訓練,需要強調先前的模型時錯誤的。在主要分量分析的一個版本中,模型化方向的方差被刪除,因此迫使下一個建模方向依賴于正交的子空間(Sanger,1989)。在投影尋蹤(弗里德曼和Stuetzle,1981),通過在數據空間中非線性扭曲把數據轉換成一個方向,然后在那個方向刪除所有的非高斯分布。這種思想支持我們的貪心算法去允許每個序列模型接受數據的不同表示形式。該模型對輸入
20、的向量進行非線性變換,輸出向量將作為序列中下一個模型的輸入。圖5:混合網絡。前兩層具有無向連接形成聯想記憶。下面的層是有向,自上而下的生成連接,它可應用于形成一個圖像的聯想記憶的狀態(tài)。以下各層也有定向、自底向上的認知連接,可用于在一層從二進制活動推斷階乘表示。在貪心初始學習過程中,認知連接與生成連接是相關聯的。圖5顯示了一個多層生成模型,其上的前兩層通過無向連接交互,而其他所有的連接都是有向的。頂部的無向連接相當于許多帶有權重的無限高層。中間沒有夾層連接,可以簡化分析的過程并且所有層都含有相同的單元數。通過假設較高層之間的參數用于構建先驗互補,對于參數學習價值是可取的(盡管不是最優(yōu)的)。這等同
21、于所有的權矩陣是等同的。在這種假設下學習的任務歸結于學習一個RBM,盡管這仍然很困難,但是通過最小化對比散度學習可以快速獲取較好的近似解。一旦被學習,在第一隱藏層數據可以通過映射去創(chuàng)建較高級的“數據”。如果RBM是一個完美的原始數據模型,那么較高級別的“數據”已被較高級的權矩陣建模。然而,一般來說RBM無法對源數據進行完美的建模,我們可以使用下面的貪婪算法獲得更好的生成模型:1 了解假設所有的權重矩陣是并列的。2 凍結和致力于使用去推斷在第一隱藏層上的變量狀態(tài)的階乘近似后驗分布。即使后面在較高級的權重發(fā)生改變,意味著這種推理方法不再是正確的。3 保持較高的權重矩陣彼此并列,但是當學習通過使用轉
22、化源數據生成較高級“數據”的一個RBM模型時,需要從釋放。如果這種貪心算法改變更高層次的權矩陣,它保證提高生成模型。正如Neal andHinton (1998)所介紹的,在多層生成模型下,單個數據向量的負的對數概率受約束于自由能量的變化,它是在近似分布情況下的期望能量,減去分布的熵。對于有向模型來說,這種配置,h0的能量是由下式給出:所以約束為:其中是第一隱層單元的二進制配置,P()是當前模式下的先驗概率(即由上的權重定義的),并且是第一隱藏層的二進制配置上的任何概率分布。當且僅當是真實的后驗分布,這種約束才是等價的。當所有的權重矩陣是捆綁在一起的,上的階乘分布通過在一個數據向量上應用產生的
23、,是真實的后驗分布。所以在貪心算法的第二步,對數P()等價于約束,步驟2凍結和,并與這些元素都是固定的,約束的導數等同于下式的導數所以最大化的更高層次的權重的約束,正是相當于最大化數據集的對數概率,發(fā)生的概率為。如果約束變得更加緊密,對數P()可能下降,盡管它的下界增加,但是在貪心算法的第二步對數P()不會低于它自己的價值,因為在這個點上的約束是緊密的而且總是增加的。貪心算法可以遞歸地應用。所以,如果我們用全最大似然的玻爾茲曼機學習算法去學習每個權重集合。然后我們從以上的權重分解集合的最底層。我們可以一次保證學習一層的權重,從來不會減少在模型下數據的對數概率的約束。實際上,我們用對比散度學習取
24、代最大似然玻爾茲曼機,因為它的效率較高而且快速。使用對比散度學習保證會無效,但是如果我們有足夠的耐心學習每一層,我們需要知道額外的其他層確保去改善未完善的模型。為了保證生成的模型是由貪婪地學習更多的層所改善的,它是方便的考慮模型中的所有層是相同大小的,以便較高層的權重在被從以下層分解之前可以初始化為所學的價值。然而,相同的貪心算法可以應用甚至對于層的大小不相同的情況下。5 自上而下算法的反向擬合一次學習單層的權矩陣是有效的但不是最優(yōu)的。一旦高層的權重被學習,對于較低層的權重和簡單的推理過程都不是最優(yōu)的。對于無監(jiān)督的方法比如boosting相對地可以產生次優(yōu)的。標簽通常是稀缺的,每個標簽可能只提
25、供一些約束參數,所以過度擬合要比低度擬合會帶來更多的問題。因此重回去調整之前的模型可能弊大于利。然而,無監(jiān)督方法可以使用非常大的未標記的數據集,每個案例可能是高維的,從而在生成模型提供多點約束。因此低度擬合是一個嚴重問題,它可以通過后面的順序擬合階段的過程而減輕,我們之前學習的權重會隨著后來學習的權重進行調整更好的適合在對于每層的權重,在貪心學習好的初始值之后,我們從定義模型的生成權重去分解開用于推理的“識別”權重。但是必須保留有階乘分布估計得每層的后驗約束。其中層內變量條件依賴于以下各層的變量的值。喚醒睡眠算法的變體由Hinton等人描述過(1995),后來被適用于較高層的權重去改變較低層的
26、權重,在“向上”的過程中,認知權重在自底向上的過程使用,隨機地為每個隱藏層挑選狀態(tài)。在等式2.2(5)用最大似然學習規(guī)則調整有向連接的生成權重。如前所述,擬合頂層的RBM到倒數第二層的后驗分布,學習頂層的無向連接的權重?!跋蛳隆睆捻攲拥穆撓胗洃浀臓顟B(tài)開始,進而使用自頂向下的的生成連接隨機的輪流激活每個較低層。在向下的過程中,頂層無向連接和生成的有向連接都不會發(fā)生變化。只有自底向上的權重被修改。如果在初始化向下的過程之前允許聯想記憶設置它的均衡分布,這個過程相當于喚醒睡眠算法中的睡眠階段。但是如果向上的過程初始化聯想記憶,并且僅允許運行幾個交替吉布斯采樣,在初始化向下的過程之前。這是喚醒睡眠算法
27、的對比形式,它減少了從聯想記憶的均衡分布取樣的要求。這種對比形式也調整了睡眠階段的一些問題。對于表示法,它確保識別權重被學習,類似于用于真實數據的情況,并且有助于消除模式的平均問題。如果,給定一個特定的數據向量,現行識別權重總是在以上的水平選擇一個特定的模式,并且忽略了其他相當擅長生成數據的模式,在向下的學習過程中,它不會改變這些識別權重用來回溯任何其他的模型,如果睡眠階段被用于純的尋祖過程。一個純的尋祖過程從使用延長吉布斯取樣的過程開始,從頂層聯想記憶獲得均衡樣本。通過使用頂層聯想記憶,我們也可以消除喚醒階段的一些問題:獨立的頂層單元貌似允許尋祖過程,但是它們意味著變分近似法對于頂層的權重的
28、效果不好。附錄B說明了通過使用圖1 顯示的網絡的MATALAB式樣介紹了自上而下算法的詳細過程。為了簡單起見,關于所有參數的權重、能量、學習速率在這里不再贅述。同時,只討論單案例的訓練數據。注釋:5,因為權重與它們上面的權重不再相關聯,必須使用i層以上的變量的狀態(tài)計算,從這些變量生成i的權重。6MNIST數據庫的特征6.1訓練網絡。手寫體數字MNIST數據庫包含60000個訓練圖像和10000個測試圖像,許多不同的模式識別技術已經發(fā)表了這種公開可用的數據庫,因此它是理想的評價新模式識別方法。對于MNIST學習任務的基本版本,沒有幾何學的相關知識,并沒有特殊的預處理或優(yōu)化訓練集,所以一個未知但固
29、定的隨機排列的像素不會影響學習算法。對于這種“排列不變”版本的任務,在官方測試集上,我們的網絡的泛化性能錯誤是1.25%。圖1介紹的網絡是在44000個訓練圖像上被訓練,把它分440個均衡的小批次,每一個都包含每個數字類的10例子。每個小批次之后更新權重。在訓練的初始階段,在第4節(jié)介紹的貪心算法是用來從底部開始分別訓練各層權值的。每層迅速瀏覽30個訓練集訓練(稱為“時代”)。在訓練中,每一個RBM的“可見”層的單元在0和1之間的有實數值的活動。當學習底層的權重時,這些都是標準化的像素強度。訓練更高層次的權重時,RBM中可見層的實數值活動是RBM中較低層的隱藏單元的激活概率。當RBM被訓練時,每
30、個RBM中隱藏層使用隨機的二進制值。貪心訓練在 GHz Xeon處理器使用MATLAB語言需要每層花費幾個小時,它運行的時候,在測試集上的錯誤率為2.49%(下面詳細的看網絡是如何測試的)。當訓練頂層的權重時(在聯想記憶中的),標簽被設置為輸入部分。標簽表示通過對“10個單位一個單位的SOFTMAX”組被激活。當這組中的活動從以上活動被重建時,確切的單元是活躍的,被選擇出來的單元i的概率由下式給出:其中是單元i的總輸入。特別的,學習規(guī)則不受Softmax組中兩兩單元競爭的影響,所以不需要知道那兩個單元的神經突觸。競爭影響單元被激活時的概率,但是僅僅是這個概率影響學習規(guī)則。注釋:Prelimin
31、ary experiments with 16 × 16 images of handwritten digits from the USPS database showed that a good way tomodel the joint distribution of digit images and their labels was to use an architecture of this type, but for 16 × 16 images, only three-fifths as many units were used in each hidden
32、layer.通過貪心算法層層訓練,用不同的學習效率和權重衰減訓練網絡,對于300個epochs可使用5節(jié)中描述的自上而下的算法。學習率,動量和權重衰減是通過幾次訓練網絡,并且觀察在一個含有10000張圖像的分離的驗證集上的特性進行選擇的,這些圖像時完整的訓練集的剩余部分。對于前100次的自上而下算法,傳遞是基于執(zhí)行前聯想記憶中的吉布斯交替采樣的前三次迭代。對于之后的100次,進行6次迭代,對于最后的100次進行10次迭代。每一次對吉布斯提出的采樣迭代次數的提高,誤差在驗證集明顯下降。在驗證測試中表現最好的網絡被測有1.39%的錯誤率。該網絡將通過60000訓練圖像訓練集的每個類的數目不等,所以
33、圖像被隨機分配600個小批。進行訓練,直到它在完整的訓練集上的錯誤率越來越低,最終的錯誤率一直存在44000圖像的初始訓練集中。再進行59次,讓其學習大約一周的時間。最終網絡有1.25%的錯誤率檢查進一步學習不會明顯改善錯誤率,網絡就用一個非常小的學習率,和測試在運行錯誤每個時期的表現。六周后,試驗誤差之間波動1.12%、1.31%和1.18%的時代,訓練誤差的數最小的。網絡的錯誤如圖6所示。網絡的49個案例顯示正確,次好的概率在0.3,最好的概率如圖7所示。圖6:錯誤網絡中125個測試用例。每個案例標記網絡的猜測。正確的類安排在標準的掃描順序。圖7:其中僅有49例網絡猜對了,但有第二種猜測,
34、它最好的概率在0.3。正確的類安排在標準的掃描順序。1.25%的錯誤率與通過有一個或兩個隱藏層的前饋神經網絡和被訓練使用反向傳播算法優(yōu)化的歧視算法(見表1)相比是很好地。當網絡的詳細連接不是手工制作的這個特定的任務,一個單獨在10個隨機在線學習輸出單元的平方誤差的最佳報錯率是2.95%。在具有一個隱層的800個單元采用小的初始權重的網絡中這些錯誤率可以降低到1.53%,這個權重是每個輸出單元單獨的交叉熵誤差函數,而且這種學習方式很溫和。1.51%個幾乎相同的結果實現了在一個第一隱層有500個單元的和第二隱層有300個單元的網中采用“回歸”算法輸出單元和一個不利平方量通過仔細選擇使用驗證集的正則
35、化矩陣。相比之下,如果60000個訓練樣本被使用最近的鄰居報錯率為3.1%,(這是非常緩慢的),如果20,000個訓練樣本被使用最近的鄰居報錯率為4.4%。這可以通過使用一個L3規(guī)范減少到2.8%和4%。我們基本任務中生成錯誤率接近1.25%模型的標準機器學習技術是一個給出了1.4%的錯誤率的支持向量機(德科斯特&Schoelkopf,2002)。但是支持向量機如何利用特定領域技巧,如體重共享和抽樣,這是很難看到的,其中LeCun,bottou,哈夫納(1998)使用從1.5%到0.95%提高判別神經網絡的性能。權值共享和抽樣不能用來減少生成的錯誤率模型是沒有明顯原因的,我們目前正在調
36、查這種方法。通過平均多元網絡總是可以進一步改進,但這種技術可用于所有的方法。錯誤率的大幅減少可以通過補充有轉換版本的數據集訓練數據實現。使用一、兩像素平移,德科斯特和Schoelkopf(2002)通過該方法實現錯誤率達到0.56%。在卷積神經網絡局部使用伸縮變形,Simard,斯坦克勞斯,和普拉特(2003)實驗結果達到0.4%,比最好的手工編碼識別算法達到了0.63%(belongie,馬利克,和puzicha,2002)是略好。我們尚未探索的使用扭曲的數據學習生成模型,因為許多類型的失真需要調查,以及微調算法目前來說太慢了。6.2 測試網絡測試網絡的一個方法是通過從圖像中隨機確定的500
37、個單位的二進制狀態(tài)相聯存儲器的低層。這些固定的狀態(tài),標簽單位給定初始值0.1和吉布斯交替采樣的迭代是用于激活正確的標簽裝置。這種測試方法給出了錯誤率幾乎是1%,高于上述的報錯率。表1:各種學習算法對MNIST數字識別錯誤率任務MNIST任務版學習算法錯誤率排列不變我們的生成模型784 500 500 2000 101.25排列不變支持向量機:9階多項式1.4排列不變前饋:784 500 300 10交叉熵和權重衰減1.51排列不變前饋:784 800 10交叉熵和提前終止1.53排列不變前饋:784 500 150 10誤差平方和在線更新2.95排列不變最近的鄰居:所有60000例和L3規(guī)范2
38、.8排列不變最近的鄰居:所有60000例和L2規(guī)范3.1排列不變最近的鄰居:所有20000例和L3規(guī)范4.0排列不變最近的鄰居:所有20000例和L2規(guī)范4.4練習階段圖像,變形的大量數據前饋:彈性提早停止卷積神經網絡的交叉熵和數據0.4練習階段扭曲圖像;2像素轉換的額外數據虛擬機:9次多項式0.56初始階段圖像形狀上下文特征:手工編碼匹配0.63初始階段圖像;仿射變換的額外數據在lenet5的前饋:卷積神經網絡0.8初始階段圖像在lenet5的前饋:卷積神經網絡0.95更好的方法是先把低層的聯想記憶中的500個單位的二進制狀態(tài)固定,然后打開每一個標簽單位并計算510組件的二進制向量準確自由能
39、的結果。幾乎所有需要計算的是被打開的獨立標簽單位(Teh和Hinton,2001),這方法計算精確條件的平衡分布標簽而不是通過吉布斯采樣逼近,以前的方法是這樣做的。該方法錯誤率約0.5%,高于由隨機決策引用的。我們可以將這兩種方法移除噪聲。簡單的是通過使用隨機二進制狀態(tài)的激活概率確定回饋(up-pass)。二是重復隨機過程20次,平均標簽概率和標簽記錄概率,在20次之前選擇最好的一個。平均兩類給了幾乎相同的結果,而這些結果也非常相似用一個確定性的過程,這是使用方法的報告結果。7 神經網絡的展望為從模型生成樣本,我們與在頂層的聯想記憶的吉布斯抽樣進行交流直到馬爾可夫鏈收斂為平衡分布。然后使用分布
40、樣本輸入到下面的層,產生一個由生成連接的單一反饋(down-pass)圖像。如果我們固定標簽單位特別是在吉布斯抽樣的類,我們可以從模型中看到圖像類的條件分布。圖8顯示了一個圖像序列的每個類,它是由樣本間1000次迭代的吉布斯采樣生成。圖8:每一行顯示10樣品從生成模型與特定標簽卡。頂層的聯想記憶是樣本之間運行1000次迭代吉布斯抽樣的交替。我們也可以初始化兩層頂部的狀態(tài)通過提供一個隨機的二進制圖像作為輸入。圖9顯示了如何聯想記憶類的條件狀態(tài)發(fā)生轉變時可以自由地運行,但同時固定標簽。這種內在的狀態(tài)是“觀察”進行了每20次迭代看看聯想記憶在腦海中。本文運用腦海這個詞不是隱喻。我們認為,精神狀態(tài)是一
41、個假設的狀態(tài),一個高層次的內部表示構成真實的感知的外部世界。假設世界如圖像顯示。圖9:每一行顯示由一個特定的固定標簽模型生成的10個樣本。頂層的聯想記憶是通過從隨機的每個像素概率為0.5的二進制圖像初始化得到的。第一列示了一個從最初的高水平狀態(tài)向下傳遞的結果。之后的幾列由20次迭代的交替吉布斯在聯想記憶采樣產生。8 結論我們已經知道它可能是深度學習,密切的連接著置信網絡的每一層。最明顯的方式就是當學習較低層時假設更高層次不存在,但利用階乘近似代替難處理的后驗分布這不簡單的。這些近似工作,我們需要真實的后驗是盡可能接近的階乘。所以不要忽略了更高層次,我們假設他們存在且有個權重約束實現優(yōu)先互補,讓
42、真實的后驗完全析因。這是相當于有一個可以有效地學習使用對比發(fā)散的無向圖模型。它也可以被看作是因為近似與真實的后驗概率之間發(fā)散的懲罰項約束變分學習,已被先前使變分近似精確約束條件取代。在學習過每一層后,從高層的權重指標解開權重。隨著這些高層權重的變化,低層的先驗知識不再互補,所以在低層真實的后驗分布不再是階乘,生成權重推論的轉置使用是不正確的。然而,我們可以用變分約束,其表明改變更高層次的權重提高了整體的生成模型。為了證明貪婪的學習算法的快速能力,我們用它初始化一個較慢的微調算法學習數字圖像的極好的生成模型和標簽的權重。使用快速貪心算法是否為最好的方式是不明確的。它最好是省略微調和使用貪婪算法的
43、速度去學習更大的系統,更深層次的網絡或一個更大的訓練集。圖1中的網絡有許多的參數為0.002立方毫米的小鼠皮層(賀拉斯Barlow,個人通信,1999),而這種復雜性為幾百個網絡適合在一個單像素的高分辨率fMRI掃描。這表明更大的網絡可能需要與人的形狀識別能力競爭。我們目前的生成模型在許多方面受到限制(2003李和芒福德,)。它是專為圖像的可以視為概率二進制數值(不是對自然圖像);感知自上而下的反饋,它的使用是在前兩層有限的聯想記憶;它沒有知覺不變性處理系統;它假設已經執(zhí)行分割;當識別很困難時它間斷加入最豐富的有益的部分對象學習,然而,證實了相比其他的一些生成模型的其主要優(yōu)點:l 生成的模型不
44、需要從標簽的反饋就可以學習低級別的功能,比無擬合的判別模型他們可以學習更多的參數。在判別學習,每個訓練樣本的參數約束只能通過盡可能多的信息要求所指定的標簽。對于一個生成模型,每個訓練樣本的參數約束的比特數要求指精確輸入。l 很容易看到網絡已經從模型中生成。l 它可能解釋為非線性,在深隱層的分布由它們生成圖像表示。l 判別學習方法的分類性能優(yōu)越受域控制,在域中不可能學習好的生成模型。這系列域是由穆爾定律侵蝕。附錄一:先驗互補A.1一般互補。考慮一個聯合分布的觀測值,X,Y和隱藏的變量,對于一個給定的似然函數P(X,Y |),我們定義了相應的家庭是互補的先驗分布,P(Y),其聯合分布,P(x,y)= P(x | Y)P(Y),導致的后驗概率,P(X,Y |)完全分解,即,導致后可以表示為P(Y | x)= P(YJ | X)??赡懿⒉皇撬械墓δ苄问匠姓J補充之前。在本附
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025年新能源車位租賃及共享出行服務合同范本3篇
- 2025年度公共資源配置行政合同4篇
- 2025年礦山車輛司機合作協議范本2篇
- 2025年度智能駕駛汽車研發(fā)與測試平臺建設合同模板4篇
- 二零二五版25噸汽車吊車租賃與施工人員住宿合同3篇
- 二零二五年度進口紅酒批發(fā)業(yè)務合作協議4篇
- 2025年知識產權銷售合同規(guī)范文本2篇
- 2025年烤鴨店員工勞動合同解除合同3篇
- 二零二五年杭州金融科技企業(yè)勞動合同模板3篇
- 二零二五年度金融代收款服務合同范本2篇
- 2024年度醫(yī)院肝膽外科實習生帶教計劃課件
- 微機原理與接口技術考試試題及答案(綜合-必看)
- 勞務投標技術標
- 研發(fā)管理咨詢項目建議書
- 濕瘡的中醫(yī)護理常規(guī)課件
- 轉錢委托書授權書范本
- 一種配網高空作業(yè)智能安全帶及預警系統的制作方法
- 某墓園物業(yè)管理日常管護投標方案
- 蘇教版六年級數學上冊集體備課記載表
- 內蒙古匯能煤電集團有限公司長灘露天煤礦礦山地質環(huán)境保護與土地復墾方案
- 22S702 室外排水設施設計與施工-鋼筋混凝土化糞池
評論
0/150
提交評論