




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)
文檔簡介
一種深度學(xué)習(xí)的快速學(xué)習(xí)算法Hinton,G.E.,Osindero,S.andTeh,Y.摘要:我們展示了如何使用“先驗(yàn)的補(bǔ)充”,以消除解釋離開的影響,使在有許多隱藏層密集相連的信念網(wǎng)推理困難。使用互補(bǔ)先驗(yàn),推導(dǎo)一種快速,貪心算法,可以在一個時間學(xué)習(xí)深,有向信任網(wǎng)絡(luò)一層,設(shè)置在頂部兩層形成一個無向相聯(lián)存儲器??焖?,貪心算法被用來初始化一個較慢的學(xué)習(xí)過程,使用所述喚醒睡眠算法的對比版本微調(diào)的權(quán)重。經(jīng)過微調(diào),有三個隱藏層的網(wǎng)絡(luò)構(gòu)成了手寫數(shù)字圖像和它們的標(biāo)簽的聯(lián)合分布的一個很好的生成模型。這生成模型提供了更好的數(shù)字比分類的判別最好的學(xué)習(xí)方法。低維流形在其上的數(shù)字謊言由長溝壑在頂層聯(lián)存儲器的自由能量景觀進(jìn)行建模,這是容易探索這些溝壑通過使用定向的連接,以顯示什么相聯(lián)存儲器具有記。1.介紹學(xué)習(xí)難以在密集連接的,即有許多隱藏層,因?yàn)樗请y以推斷的隱藏活動的條件分布當(dāng)給定一個數(shù)據(jù)矢量定向信念網(wǎng)。變分方法使用簡單的近似真實(shí)條件分布,但近似值可能是差的,特別是在最深隱藏層,其中事先假定獨(dú)立性。另外,變學(xué)習(xí)仍然需要所有一起被了解到的參數(shù),使學(xué)習(xí)時間差縮放作為參數(shù)的數(shù)量增加。我們描述了一種模型,其中,頂部的兩個隱藏層形成一個無向關(guān)聯(lián)存儲器(見圖1)和剩余的隱藏層形成,在相聯(lián)存儲器將觀測變量的表示變換如圖象的象素的向無環(huán)圖。這種混合模式有一些吸引人的特點(diǎn):1.有一個快速的,貪婪的學(xué)習(xí)算法,可以找到一個相當(dāng)不錯的參數(shù)集快,即使在深網(wǎng)絡(luò)與數(shù)以百萬計(jì)的參數(shù)和許多隱藏的圖層。2.學(xué)習(xí)算法是無監(jiān)督,但可以通過學(xué)習(xí)一個模型,同時生成的標(biāo)簽和數(shù)據(jù)被施加到標(biāo)簽的數(shù)據(jù)。3.有一個微調(diào)算法,學(xué)習(xí)優(yōu)良的生成模型優(yōu)于手寫數(shù)字的MNIST數(shù)據(jù)庫上判別方法。4.生成模型可以很容易地理解在深隱層分布式表示。5.需要形成一個知覺推理是既快速又準(zhǔn)確。6.學(xué)習(xí)算法是本地:調(diào)整突觸強(qiáng)度只依賴于突觸前和突觸后神經(jīng)元的狀態(tài)。7.溝通是簡單的:神經(jīng)元只需要傳達(dá)他們隨機(jī)二進(jìn)制狀態(tài)。第2節(jié)介紹的想法“互補(bǔ)”之前這正是取消“解釋離開”的現(xiàn)象,使推理難以在指揮模式。定向信念網(wǎng)絡(luò)具有互補(bǔ)先驗(yàn)的一個實(shí)例。第3節(jié)顯示了限制玻耳茲曼機(jī)之間和無限向網(wǎng)絡(luò)使用權(quán)并列的等價性。第4節(jié)介紹了一種快速,貪婪學(xué)習(xí)算法的時間構(gòu)建多層向網(wǎng)絡(luò)一層。使用變約束它表明,因?yàn)槊總€新層添加,整體生成模型提高。貪心算法有某些相似之處,以提高其重復(fù)使用相同的“弱”學(xué)習(xí)的,但不是每個重新加權(quán)數(shù)據(jù)載體,以保證下一步學(xué)習(xí)新的東西,它會重新代表它。是,用于構(gòu)造深定向網(wǎng)的“弱”學(xué)習(xí)者是本身無向圖形模型。第5節(jié)指出由快速貪婪算法產(chǎn)生的權(quán)重如何能夠進(jìn)行微調(diào)使用“上下”算法。這是喚醒休眠算法頓等人的對比版本。(1995),其不從“模式平均”的問題,可能會導(dǎo)致喚醒睡眠算法學(xué)習(xí)差識別權(quán)重受損。第6節(jié)顯示了一個網(wǎng)絡(luò)有三個隱藏層并在MNIST一套手寫數(shù)字約為170萬權(quán)重模式識別性能。當(dāng)沒有知識的幾何設(shè)置,并且沒有特殊的預(yù)處理,網(wǎng)絡(luò)的推廣能力是在101.25%的誤差;000數(shù)字網(wǎng)絡(luò)官方測試集。這被擊敗最好的反向傳播網(wǎng)實(shí)現(xiàn)時,不手工精制而成,為這個特殊的應(yīng)用,他們的1.5%。它也比同一任務(wù)支持向量機(jī)報告Decoste和Schoelkopf(2002年)的1.4%的誤差略勝一籌。最后,第7示出當(dāng)它不被約束通過視覺輸入運(yùn)行在網(wǎng)絡(luò)的頭腦發(fā)生了什么。該網(wǎng)絡(luò)有一個完整的生成模型,所以很容易尋找到了主意-我們只是生成了高級別交涉的圖像。整篇文章,我們會考慮網(wǎng)隨機(jī)二元變量組成,但思想可以推廣到其他車型,其中一個變量的數(shù)概率是其直連的鄰居狀態(tài)的附加功能(請參閱附錄A了解詳細(xì)信息)。圖1:用于模擬數(shù)字圖像和數(shù)字標(biāo)簽的聯(lián)合分布的網(wǎng)絡(luò)。在本文中,每個訓(xùn)練情況下由圖像和顯式類標(biāo)簽的,但在正在進(jìn)行的工作已經(jīng)表明,同樣的學(xué)習(xí)算法可以如果“標(biāo)簽”是由一個多層通路的輸入是從多個不同的揚(yáng)聲器譜圖替換使用話說隔離數(shù)字。然后,網(wǎng)絡(luò)學(xué)習(xí),以產(chǎn)生對,它由一個圖象,并且在同一數(shù)字類的譜圖。圖2:包含兩個獨(dú)立的,少見的原因是變得高度抗相關(guān),當(dāng)我們觀察到的房子跳一個簡單的邏輯的信念網(wǎng)。10地震節(jié)點(diǎn)上的偏置裝置,在沒有任何觀察,此節(jié)點(diǎn)是E10倍更可能是又比上。如果地震節(jié)點(diǎn)上,叉車節(jié)點(diǎn)是關(guān)閉的,跳轉(zhuǎn)節(jié)點(diǎn)具有0總輸入,這意味著它具有偶數(shù)幾率成為上。這是一個更好的解釋,房子比躍升20?的適用如果沒有隱藏的原因是活動的賠率觀察。但它是一種浪費(fèi)就開啟,既隱藏的原因來解釋,因?yàn)橛^察他們兩人發(fā)生的概率為E-10E-10=E20.當(dāng)?shù)卣鸸?jié)點(diǎn)開啟了“解釋離開”為卡車節(jié)點(diǎn)證據(jù)。2互補(bǔ)先驗(yàn)客場解釋的現(xiàn)象(在網(wǎng)絡(luò)古爾2所示)進(jìn)行推理難以在定向信念網(wǎng)。在密集連接的網(wǎng)絡(luò),在隱變量的后驗(yàn)分布是棘手除少數(shù)特殊情況下,如混合模型或線性模型的加性高斯噪聲。馬爾可夫鏈蒙特卡羅方法(尼爾,1992年),可用于從后品嘗,但它們通常非常耗時。變分法(尼爾和欣頓,1998年)近似真實(shí)后具有更易于處理的分布,它們可以被用來改善對訓(xùn)練數(shù)據(jù)的對數(shù)概率的下限。令人欣慰的學(xué)習(xí)是保證提高,即使隱藏狀態(tài)的推斷操作不當(dāng)勢必一變,但它會好得多第二科幻消除解釋完全走的方式,即使在車型的隱藏的變量有高度相關(guān)性的影響上的可見的變量。人們普遍認(rèn)為這是不可能的。一個邏輯的信念網(wǎng)(尼爾,1992年)是由隨機(jī)二進(jìn)制單位。當(dāng)網(wǎng)被用于生成數(shù)據(jù),裝置接通i的概率是它的直接祖先,j的狀態(tài)的邏輯功能,和權(quán)重,Wij,從祖先定向連接:其中,Bi是我單位的偏差。如果一個邏輯信念凈只有一個隱藏層,先驗(yàn)分布在隱變量是階乘,因?yàn)樗鼈兊亩M(jìn)制狀態(tài)為獨(dú)立選擇的,當(dāng)模型被用來產(chǎn)生數(shù)據(jù)。非獨(dú)立于后部分布由似然項(xiàng)從所述數(shù)據(jù)到來創(chuàng)建。也許我們可以消除額外的使用隱藏層來創(chuàng)建一個“補(bǔ)充”之前,有完全相反的關(guān)系到那些在任期的可能性的第一個隱藏層中解釋了。然后,當(dāng)似然性項(xiàng)乘以在先,我們將得到的后這正是階乘。這是不是在所有明顯的互補(bǔ)先驗(yàn)存在的,但網(wǎng)絡(luò)古爾圖3顯示的是無限的物流信念網(wǎng)一個簡單的例子綁權(quán)重,其中先驗(yàn)是每隱藏層補(bǔ)充(見附錄A的條件下更加一般治療這互補(bǔ)先驗(yàn)存在)。使用捆綁的權(quán)重,構(gòu)建互補(bǔ)的先驗(yàn)可能看起來像一個純粹的把戲使定向模式等同于無向的。正如我們將要看到的,但是,它導(dǎo)致了一種新的和非常有效的學(xué)習(xí)算法,它通過逐步從權(quán)重解開的權(quán)重中的每個層中更高的層。2.1在一個無限定向模型綁權(quán)重我們可以從在無限向網(wǎng)在圖3中通過啟動與隨機(jī)配置以在網(wǎng)絡(luò)連接奈特雷深藏層,然后進(jìn)行自頂向下的生成數(shù)據(jù)“祖先”傳遞,其中,每個變量在一個層中的二進(jìn)制狀態(tài)從選擇貝努利分布通過自上而下輸入從其活躍父母在上面的層未來確定的。在這方面,它只是像任何其他向無環(huán)信念網(wǎng)。不同于其他定向網(wǎng),然而,我們可以從以上所有隱藏層的真實(shí)后驗(yàn)分布通過啟動上的可見單元的數(shù)據(jù)向量,然后使用轉(zhuǎn)置權(quán)重矩陣來推斷在每個隱藏層依次階乘分布進(jìn)行采樣。在每一個隱藏層,我們計(jì)算階乘后的上述2附錄A層,從之前的階乘樣品后表明,該方法給出了公正的樣品,因?yàn)橹盎パa(bǔ)每層保證后驗(yàn)分布真的是階乘。因?yàn)槲覀兛梢詮恼婧髽樱覀兛梢杂?jì)算數(shù)據(jù)的對數(shù)概率的衍生物。讓我們先來計(jì)算衍生的生成量,w00ij,從層H0單位J可我單位在層V0(見圖3)。在后勤信念網(wǎng),用于單個數(shù)據(jù)向量的最大似然學(xué)習(xí)規(guī)則,V0,是:其中<>表示平均過采樣的狀態(tài)和^V0i是概率單位我會被接通,如果可見載體從采樣的隱狀態(tài)隨機(jī)重建。計(jì)算在第一個隱藏層,H0后驗(yàn)分布在第二隱蔽層,V1,從采樣的二進(jìn)制狀態(tài),是完全相同的過程作為重建數(shù)據(jù),所以V1i是從概率伯努利隨機(jī)變量的樣本^V0我。該學(xué)習(xí)規(guī)則,因此可以寫為:對H0?V1我的依賴是沒有問題的公式的推導(dǎo)。從3方程2,因?yàn)閊V0i是一種期望,是有條件的,H0學(xué)家自的權(quán)重被復(fù)制,通過累加所有成對層之間的生成權(quán)重的導(dǎo)數(shù)得到的全衍生物的生成重量:所有的垂直排列的術(shù)語取消離開式.5玻爾茲曼機(jī)器學(xué)習(xí)規(guī)則。3受限玻爾茲曼機(jī)對比發(fā)散學(xué)習(xí)它可能不會立即明顯的是無限向網(wǎng)圖3是相當(dāng)于一個受限波爾茲曼機(jī)(RBM)。的成果管理具有未彼此連接的,并已無向,對稱連接到一個層可見單元的隱藏單元的單層。以從一個成果管理數(shù)據(jù),我們可以用一個隨機(jī)狀態(tài)啟動在所述層中的一個,然后執(zhí)行交替Gibbs抽樣:所有的單位中一個層的被并行更新給定的單元的當(dāng)前狀態(tài)中的其他層,這重復(fù)進(jìn)行,直到系統(tǒng)從它的平衡分布采樣。請注意,這是完全一樣的過程,從在無限的信念與凈重量綁生成數(shù)據(jù)。來執(zhí)行最大似然學(xué)習(xí)的成果管理,我們可以使用兩個相關(guān)之間的差。對于每個權(quán)重,WIJ,可見光單元i和一個隱藏的單元之間,J我們測量的相關(guān)性<v0ih0j>當(dāng)數(shù)據(jù)載體被夾緊在可見單元和隱狀態(tài)從它們的條件分布,這是階乘采樣。然后,交替使用Gibbs抽樣,我們運(yùn)行圖4所示的馬爾可夫鏈,直到它達(dá)到其平穩(wěn)分布和測量相關(guān)<V1H1J>。訓(xùn)練數(shù)據(jù)的對數(shù)概率的梯度,然后這種學(xué)習(xí)規(guī)則是相同的在無限物流信念凈綁權(quán)重最大似然學(xué)習(xí)規(guī)則,和Gibbs抽樣的每個步驟對應(yīng)于計(jì)算的層中的在無限物流信念凈的確切驗(yàn)分布。最大化的數(shù)據(jù)的對數(shù)概率是完全相同最小化的Kullback-Leibler散,KL(P0jjP1),數(shù)據(jù),P0的分布,以及借助該模型中,P1中定義的平衡分布之間。在對比發(fā)散學(xué)習(xí)(欣頓,2002年),我們只測量第二相關(guān)運(yùn)行前的馬爾可夫鏈n個完整步驟3。這等同于忽略了來自于無限網(wǎng)的更高層的衍生物。所有這些忽略衍生物的總和是在層Vn的,后驗(yàn)分布的對數(shù)概率由限定的衍生物也是在層Vn的,光合速率后驗(yàn)分布之間的Kullback-Leibler散的衍生物,和平衡分布模型。因此,對比分歧最小化學(xué)習(xí)兩個庫勒巴克-萊布勒分歧的區(qū)別:忽略抽樣噪音,這種差異絕不是負(fù)的,因?yàn)榧妓钩闃佑糜趶腜0和Gibbs抽樣產(chǎn)生的Pn總是降低庫勒巴克-Leibler距離的平衡分布。注意到,光合速率取決于當(dāng)前的模型參數(shù),并且其中的Pn變化的參數(shù)變化是由對比發(fā)散學(xué)習(xí)忽略的方式,它是重要的。與P0不會出現(xiàn)這個問題,因?yàn)橛?xùn)練數(shù)據(jù)不依賴于這些參數(shù)。最大似然和對比發(fā)散學(xué)習(xí)規(guī)則之間的關(guān)系進(jìn)行了實(shí)證研究可以在Carreira的-Perpinan和韓丁(2005)中找到。圖3:在一個無限的物流信念與凈權(quán)重追平。向下的箭頭表示的生成模型。向上的箭頭不是模型的一部分。它們代表了用于推斷從后驗(yàn)分布的樣本在網(wǎng)的每個隱藏層時一個數(shù)據(jù)矢量被夾持在V0的參數(shù)。圖4:這描述了使用交替Gibbs抽樣馬爾可夫鏈。在Gibbs抽樣的一個完整步驟中,隱藏單元在頂層中都并聯(lián)通過應(yīng)用公式更新。1到輸入從可見單元的當(dāng)前狀態(tài)容納在底部層,則可見單元并聯(lián)全部更新鑒于目前的隱藏狀態(tài)。鏈?zhǔn)峭ㄟ^設(shè)置的可見單元的二進(jìn)制狀態(tài)是相同的作為數(shù)據(jù)矢量初始化。在可見和隱藏單元的活動的相關(guān)性隱藏單元的第一個更新后并再次在鏈的末端被測量。這兩個相關(guān)的差異提供了學(xué)習(xí)信號為連接上更新的重量。對比發(fā)散學(xué)習(xí)在限制波爾茲曼機(jī)是足夠的效率是實(shí)際的(Mayraz和欣頓,2001年)。使用實(shí)值的單位和不同的采樣方案變化德等人的描述。(2003),并已相當(dāng)成功的建模形成地形圖(威靈等人,2003,),去噪自然圖像(羅斯和黑色,2005)或生物細(xì)胞的圖像(Ning等人,2005)。標(biāo)記和Movellan(2001)描述了使用對比發(fā)散進(jìn)行因子分析和威靈等人的方法。(2005)表明,與物流,二進(jìn)制可見單元和線性網(wǎng)絡(luò),高斯隱藏單元可用于快速文件檢索。但是,看來效率已經(jīng)買了高昂的代價:當(dāng)處于明顯的方式應(yīng)用,對比發(fā)散學(xué)習(xí)失敗深,多層網(wǎng)絡(luò)具有不同的權(quán)重,在每一層,因?yàn)檫@些網(wǎng)絡(luò)花費(fèi)的時間太長了,甚至達(dá)到使用條件的平衡被夾住的數(shù)據(jù)載體。我們現(xiàn)在表明,RBM的之間的無限的等價定向籃網(wǎng)并列權(quán)提出一個有效的學(xué)習(xí)算法的多層網(wǎng)絡(luò)中的權(quán)重是不依賴。4貪婪學(xué)習(xí)算法轉(zhuǎn)化交涉學(xué)習(xí)復(fù)雜模型的有效方式是結(jié)合的一組簡單的模型被順序教訓(xùn)。要強(qiáng)制每個模型的順序來學(xué)習(xí)的東西從以前的機(jī)型不同的是,數(shù)據(jù)以某種方式之后每個模型已經(jīng)學(xué)會了作案網(wǎng)絡(luò)版。在提高(弗氏,1995年),序列中的每個模型進(jìn)行訓(xùn)練上強(qiáng)調(diào),對于前代車型有錯的情況下重新加權(quán)數(shù)據(jù)。在主成分分析的一個版本,在模型化方向的方差被除去從而迫使下建模的方向躺在正交子空間(桑格,1989)。在投影尋蹤(Friedman和Stuetzle,1981),該數(shù)據(jù)是通過在數(shù)據(jù)空間非線性扭曲一個方向以除去所有非高斯在該方向變換。后面我們的貪婪算法的思想是,以允許序列中的每個模型來接收數(shù)據(jù)的一個不同的表示。該模型上執(zhí)行其輸入向量的非線性變換,并產(chǎn)生作為輸出將被用作輸入的序列中的下一個模型的向量。圖5示出的多層生成模型,其中,頂部的兩層經(jīng)由無向連接交互和所有其他連接的定向。頂部的無向連接等價于具有無限多的高層與并列的權(quán)重。有沒有層內(nèi)的連接和,為了簡化分析中,所有的層具有的單位數(shù)相同。有可能通過假設(shè)較高層之間的參數(shù)將被用于構(gòu)造互補(bǔ)之前為W0學(xué)習(xí)明智(盡管不是最佳的)的參數(shù)W0的值。這等同于假定所有的權(quán)重矩陣的被約束為相等。這個假設(shè)下學(xué)習(xí)W0的任務(wù)減少了學(xué)習(xí)的RBM的任務(wù),雖然這仍是困難的,良好的近似解可迅速通過最小化對比發(fā)現(xiàn)分歧。一旦W0已經(jīng)了解到,數(shù)據(jù)可以通過WT0被映射在第一個隱含層創(chuàng)造更高層次的“數(shù)據(jù)”。如果RBM的是原始數(shù)據(jù)的一個完美的模型中,較高級別的“數(shù)據(jù)”,將已被完全由上級權(quán)重矩陣建模。但是,一般來說,RBM的將不能夠完全模擬原始數(shù)據(jù),我們可以使生成模型更好使用以下貪婪算法:1.了解W0假設(shè)所有的權(quán)重矩陣并列。2.凍結(jié)W0,并致力于用WT0來推斷在變量的狀態(tài)階乘近似后驗(yàn)分布在第一個隱藏層的網(wǎng)絡(luò)連接,即使在更高級別的權(quán)重后續(xù)變化意味著這種推斷方法不再正確。3.保持所有的較高權(quán)重矩陣綁對方,但解開從W0,得知是通過使用WT0改造原有數(shù)據(jù)產(chǎn)生的更高級別的“數(shù)據(jù)”的RBM模式。如果此貪婪算法改變上級權(quán)重矩陣,它是保證改善生成模型。如圖(尼爾和欣頓,1998年)中,單個數(shù)據(jù)向量的負(fù)對數(shù)概率,v0,即多層生成模型下由變自由能是下近似分布的預(yù)期能量為界,Q(h0jv0)該分配,減去熵。對于定向模式,配置V0的“能量”;H0由下式給出:所以結(jié)合是:其中,H0為單位在第一個隱藏層的二元結(jié)構(gòu),第(H0)是當(dāng)前模型下ho與Q(JV0)(這是由上面的H0的權(quán)重定義)的先驗(yàn)概率是在任何概率分布在第一個隱藏層二元結(jié)構(gòu)。結(jié)合變得相等當(dāng)且僅當(dāng)Q(JV0)是真驗(yàn)分布。當(dāng)所有的權(quán)重矩陣的被連接在一起,階乘分布在H0通過施加WT0到數(shù)據(jù)載體產(chǎn)生是真正的后驗(yàn)分布,所以在貪婪算法的logP(V0)的第2步是等于結(jié)合。步驟2凍結(jié)兩個Q(JV0)和p(v0jh0)中,用這些術(shù)語固定的,結(jié)合的衍生物是一樣的衍生物因此,最大限度地結(jié)合w.r.T。在更高的層的權(quán)重,完全等同于最大化,其中H0發(fā)生概率Q(h0jv0)數(shù)據(jù)集的對數(shù)概率。如果結(jié)合的變緊,它有可能為日志ρ(V0)下降,即使下界它增加,但登錄ρ(V0)不能低于其值在貪婪算法的步驟2,因?yàn)榻Y(jié)合的是緊在這一點(diǎn)上與所述的約束總是增加。貪心算法可以清楚地遞歸應(yīng)用,因此,如果我們使用完整的最大似然波爾茲曼機(jī)器學(xué)習(xí)算法學(xué)習(xí)各組并列的權(quán)重,然后我們解開了一套從權(quán)重的底層上面,我們可以學(xué)習(xí)的權(quán)重一層在具有保證4,我們永遠(yuǎn)不會降低充分生成模型下的數(shù)據(jù)的對數(shù)概率一個時間。在實(shí)踐中,我們通過對比發(fā)散代替最大似然波爾茲曼機(jī)器學(xué)習(xí)算法學(xué)習(xí)的,因?yàn)樗\(yùn)作良好,并要快得多。采用對比發(fā)散空洞的保證,但它仍然是欣慰地知道,額外的層,保證改善不完美的車型,如果我們學(xué)會每一層有足夠的耐心。為了保證生成模型是通過貪婪地學(xué)習(xí)更多的層提高,方便的是考慮模型,其中所有的層具有相同的尺寸,以使更高級別的權(quán)重可以被初始化為學(xué)習(xí)值它們從權(quán)重解開之前層以下。相同的貪婪算法,然而,可以即使當(dāng)層的大小不同的應(yīng)用。5回到擬合與上下算法學(xué)習(xí)權(quán)重矩陣一層的時間是有效率的,但不是最優(yōu)的。一旦在更高的層的權(quán)重已經(jīng)了解到,無論是權(quán)重,也沒有簡單的推理過程是最適合于下層。被貪婪的學(xué)習(xí)產(chǎn)生的次優(yōu)性是相對無害的監(jiān)督方法,如提高。標(biāo)簽通常是稀缺和每個標(biāo)簽可以僅提供約束的幾比特的參數(shù),所以過度擬合通常比下擬合更多的問題?;厝ズ椭匦聰M合早期型號可能,因此,造成弊大于利。無監(jiān)督方法,但是,可以使用非常大的未標(biāo)記數(shù)據(jù)集和每一種情況下可以是非常高的維從而提供約束的許多位上的生成模型。不足擬合是隨后可以通過背擬合的后續(xù)階段,其中該被了解到第一個權(quán)重修改為科幻噸與后來了解到的重量更好地減輕的嚴(yán)重問題。后貪婪地學(xué)習(xí)良好的初始值中的每一層的權(quán)重,我們解開了用于推理從“生成”的權(quán)重定義該模型的“識別”的權(quán)重,但保留在每一層后必須由進(jìn)行近似的限制階乘分布,其中一個層內(nèi)的變量是條件獨(dú)立于下面的層中的變量的值。在寒春等人描述的喚醒睡眠算法的一個變種。(1995)隨后可以用于允許較高級別的權(quán)重來影響下層的。在“上通”,承認(rèn)權(quán)重用于自下而上的傳球被隨機(jī)選取一個狀態(tài),每一個隱變量。在定向連接生成使用權(quán)公式中的最大似然學(xué)習(xí)規(guī)則,然后進(jìn)行調(diào)整。25.在頂層的無向連接的權(quán)重作為了解到由前擬合頂級RBM到倒數(shù)第二層的后驗(yàn)分布?!跋蛳峦ā贝蝾^的頂層相聯(lián)存儲器的狀態(tài),并使用自上而下生成連接到隨機(jī)激活反過來每個較低層。在向下通,頂層無向連接和生成針對連接不改變。只有自下而上識別權(quán)重是改性音響編這等同于所述喚醒睡眠算法的睡眠階段,如果相聯(lián)存儲器被允許發(fā)起向下通之前沉降到它的平衡分布。但如果相聯(lián)存儲器是由一個向上通初始化,然后只允許運(yùn)行交替Gibbs抽樣發(fā)起向下通之前的幾個迭代,這是一個“對比”形式的喚醒睡眠算法的因而無需從相聯(lián)存儲器的平衡分布進(jìn)行采樣。該對比表格也連接XES睡眠階段的其他幾個問題。它確保了識別的權(quán)重被用于了解到,類似于那些用于實(shí)際的數(shù)據(jù)表示,它也有助于消除模式平均的問題。如果給定一個特定的數(shù)據(jù)矢量,當(dāng)前的識別權(quán)重總是在高于電平選擇一個特定的模式,并忽略其他非常不同的模式是在產(chǎn)生該數(shù)據(jù)同樣良好,在向下通學(xué)習(xí)不會嘗試改變這些識別權(quán)重來恢復(fù)任何其它模式,因?yàn)樗鼤绻唠A段中使用的純祖通。純祖通將不得不開始通過延長Gibbs抽樣獲得從頂層聯(lián)想記憶平衡樣本。通過使用頂層聯(lián)存儲器我們也消除在喚醒階段的一個問題:獨(dú)立頂層單位似乎需要允許一個祖先通,但它們表示的變分近似非常差為權(quán)重的頂層。附錄B特定網(wǎng)絡(luò)連接上課用matlab式偽代碼在圖1為了簡單起見示出的網(wǎng)絡(luò)上下算法的細(xì)節(jié),也沒有懲罰的重量,沒有動力,和同樣的學(xué)習(xí)速率為所有參數(shù)。另外,訓(xùn)練數(shù)據(jù)被減少到單個殼體。圖6:所有49例,其中網(wǎng)絡(luò)猜對了,但有一個第二猜測的概率是在0:最佳猜測的概率3。真正的類被布置在標(biāo)準(zhǔn)掃描順序。6.在MNIST數(shù)據(jù)庫的性能6.1訓(xùn)練網(wǎng)絡(luò)手寫數(shù)字的MNIST數(shù)據(jù)庫包含60000訓(xùn)練圖像和10000測試圖像。結(jié)果有許多不同的模式識別技術(shù)已公布了該公開的數(shù)據(jù)庫,所以它是理想的評估新的模式識別方法。為“基本”版本MNIST學(xué)習(xí)任務(wù),沒有知識的幾何設(shè)置,并且沒有特殊的預(yù)處理訓(xùn)練集的或增強(qiáng),所以一個未知但固定的隨機(jī)置換的象素不會影響學(xué)習(xí)算法。對于這種“排列不變”版本的任務(wù),我們的網(wǎng)絡(luò)的泛化性能是在網(wǎng)絡(luò)的官方測試集1.25%的誤差。在圖1所示的網(wǎng)絡(luò)進(jìn)行訓(xùn)練上分成440均衡各自含有每個數(shù)字類的10例迷你分批訓(xùn)練圖像44000。的權(quán)重的每個小批量后進(jìn)行了更新。圖7:125測試用例網(wǎng)絡(luò)得到了錯誤。每個案例是由網(wǎng)絡(luò)的猜測標(biāo)記。真正的類被布置在標(biāo)準(zhǔn)掃描順序。在訓(xùn)練的初始階段,在第4中描述的貪心算法被用來單獨(dú)訓(xùn)練權(quán)重的每一層,從底部開始。每一層都被訓(xùn)練,通過訓(xùn)練集30掃描(稱為“時代”)。在訓(xùn)練期間,各單位中的每個成果管理的“可見”層學(xué)習(xí)權(quán)重的底層時具有實(shí)值活動0和1之間,這些被歸一化的像素強(qiáng)度。用于訓(xùn)練權(quán)重的更高層,可見單位RBM的實(shí)數(shù)值活動是隱藏的單位在較低級別的成果管理的激活概率。每個RBM的隱層采用隨機(jī)二進(jìn)制值時RBM被訓(xùn)練。貪婪的培訓(xùn)花了幾個小時,每一層在Matlab上3GHz的至強(qiáng)處理器,它做的時候,在測試集上的誤差率為2.49%(參見下面的網(wǎng)絡(luò)是如何進(jìn)行測試的詳細(xì)信息)。當(dāng)訓(xùn)練權(quán)重的頂層(那些在相聯(lián)存儲器)的標(biāo)簽被提供作為輸入的一部分。標(biāo)簽通過在一個“軟最大”組的10個單位的接通一個單位來表示。當(dāng)在該組中的活動從在上面的層中的活動重建,正好一個單元被允許激活和拾取單元i的概率由下式給出:其中xi是我單位收到的總投入。奇怪的是,該學(xué)習(xí)規(guī)則不受在軟最大組單元之間的競爭,故突觸不需要知道哪些單元是與其它單元相互競爭。競爭會影響一個單元接通的概率,但它僅僅是這個概率,影響學(xué)習(xí)。貪婪層-層訓(xùn)練之后,網(wǎng)絡(luò)被訓(xùn)練,具有不同的學(xué)習(xí)率和重衰變,用于使用在部分5的學(xué)習(xí)速率,動量所述的上下算法300歷元,和重衰變分別通過訓(xùn)練網(wǎng)絡(luò)幾次,在一個單獨(dú)的驗(yàn)證集取自完整訓(xùn)練集的其余部分即10,000張觀察它的性能選擇。對于第一個上下算法100歷元,向上通隨后交替的三個完整迭代Gibbs抽樣在執(zhí)行下通之前,聯(lián)想記憶。對于第二個100歷元,六迭代被執(zhí)行,并且在過去的100歷元,10次重復(fù)進(jìn)行。每次Gibbs抽樣的迭代次數(shù)提高后,在驗(yàn)證集的誤差明顯減小。這對驗(yàn)證組表現(xiàn)最佳的網(wǎng)絡(luò),然后測試,有1.39%的誤差率。這個網(wǎng)絡(luò)然后上訓(xùn)練所有60000訓(xùn)練圖像直到對充分訓(xùn)練集其錯誤率較低,為它的最終的誤差率一直在44,000圖像的初始訓(xùn)練集。這花了59進(jìn)一步作出時期大約一個星期的總學(xué)習(xí)時間。最終網(wǎng)絡(luò)有一個誤差率1.25%。由網(wǎng)絡(luò)作出的錯誤顯示于圖7。49案件該網(wǎng)絡(luò)得到正確的,但對于其中第二最佳概率是內(nèi)最好概率0.3被示出在圖6中。誤差率的1.25%百分率較由具有一個或兩個隱藏層和被訓(xùn)練使用的反向傳播算法來優(yōu)化歧視前饋神經(jīng)網(wǎng)絡(luò)所取得的錯誤率(見表1中,引用后出現(xiàn))。當(dāng)沒有手工制作此特定任務(wù)這些網(wǎng)絡(luò)的詳細(xì)連接,最好報告錯誤率用于隨機(jī)在線學(xué)習(xí)對各10個輸出單元的單獨(dú)的平方誤差為2.95%。這些錯誤率可以為800單位一個隱藏層通過使用較小的初始權(quán)重,每個輸出單元上的單獨(dú)的交叉熵誤差函數(shù),和非常溫和的學(xué)習(xí)(約翰普拉特,個人通訊)減少到1.53%,在一個網(wǎng)1.51%,幾乎相同的結(jié)果,在一個網(wǎng),有500個單位,在第一個隱??含層300第二隱層中使用“SOFTMAX”輸出單元和正規(guī)化是由精心挑選的量懲罰平方的權(quán)重達(dá)到了使用驗(yàn)證集。為了便于比較,近鄰有3.1%,如果所有60000訓(xùn)練的情況下被用于報告的錯誤率(/wilder/Mnist/)(這是非常緩慢)和4.4%,如果20000頃使用。這可以通過使用三層規(guī)范被減少到2.8%和4.0%。來接近我們的基本任務(wù)生成模型的1.25%的誤差率的唯一標(biāo)準(zhǔn)機(jī)器學(xué)習(xí)技術(shù)是一種支持向量機(jī),它給出了1.4%(Decoste和Schoelkopf,2002年)中的錯誤率。但是,很難看到支持向量機(jī)怎樣可以利用的領(lǐng)域特定網(wǎng)絡(luò)?技巧,像體重共享和二次采樣,這LeCun等。(1998)使用,以改善判別神經(jīng)網(wǎng)絡(luò)的性能從1.5%至0.95%。還有就是為什么重共享和子采樣不能用于減小誤差率生成模型的和我們目前正在研究這種方法沒有明顯的原因。進(jìn)一步的改進(jìn)可以隨時通過平均多個網(wǎng)絡(luò)的意見來實(shí)現(xiàn),但這種技術(shù)可用于所有的方法。大幅度減少誤差率可以通過補(bǔ)充設(shè)定與訓(xùn)練數(shù)據(jù)的略變換版本的數(shù)據(jù)來實(shí)現(xiàn)。使用一個和兩個像素翻譯。Decoste和Schoelkopf(2002年)實(shí)現(xiàn)0:56%。在卷積神經(jīng)網(wǎng)絡(luò)中使用本地彈性變形,錫馬德等。(2003年)達(dá)到0:4%,這是比0稍好:63%的最好的手工編碼識別算法實(shí)現(xiàn)(Belongie等人,2002)。我們還沒有探索利用扭曲數(shù)據(jù)的學(xué)習(xí)生成模型,因?yàn)樵S多類型的失真需要進(jìn)行調(diào)查和FINE-調(diào)整算法是目前速度太慢。6.2測試網(wǎng)絡(luò)以測試網(wǎng)絡(luò)的一種方法是使用一個隨機(jī)向上通從圖像到固定相聯(lián)存儲器的較低層中的500個單位的二進(jìn)制狀態(tài)。與這些狀態(tài)固定的,標(biāo)簽單元被給定的0初始實(shí)值的活動:1和交替Gibbs抽樣的幾次迭代,然后用來激活正確的標(biāo)簽單元。這種測試方法,給出了比上述報道的利率高出近1%的誤差率。一種更好的方法是將第一個固定的相聯(lián)存儲器的較低層中的500個單位的二進(jìn)制狀態(tài),并然后打開每一個標(biāo)簽單元反過來,并計(jì)算所得到的510組分的二元載體的確切自由能。幾乎所有所需的計(jì)算是獨(dú)立于標(biāo)簽單元接通(德和欣頓,2001年),并且此方法計(jì)算由Gibbs抽樣這就是以前的方法是做逼近它超過標(biāo)簽的確切條件平衡分布來代替。此方法提供了比那些因?yàn)樵谙蛏贤ㄈ〉玫碾S機(jī)決定的引述高約0.5%的錯誤率。我們可以通過兩種方式消除這種噪音。最簡單的是使向上通確定性通過使用代替隨機(jī)二進(jìn)制狀態(tài)的激活的概率。二是挑選最好的前一個重復(fù)的隨機(jī)向上通二十次和平均無論是標(biāo)簽概率或標(biāo)簽日志概率在21重復(fù)。這兩種類型的平均得到幾乎相同的結(jié)果和這些結(jié)果也非常類似于使用一個確定性的向上通,這是用于報告的結(jié)果的方法。圖8:每行顯示了具有特定標(biāo)簽的生成模型10個樣品夾緊。頂層相聯(lián)存儲器是運(yùn)行1000次迭代交替取樣之間Gibbs抽樣的。7展望神經(jīng)網(wǎng)絡(luò)以產(chǎn)生從模型樣品,進(jìn)行交替Gibbs抽樣中的頂層相聯(lián)存儲器,直到馬爾可夫鏈?zhǔn)諗康狡胶夥植肌H缓?,我們使用的樣品從該分布作為輸入到下面的層,并通過生成的連接產(chǎn)生由單個向下通圖像。如果我們夾緊Gibbs抽樣期間標(biāo)簽單元到特定類中,我們可以看到從模型的類條件分布的圖像。圖8示出通過使1000次迭代樣本之間Gibbs抽樣的生成的用于每個類別的圖像的序列。我們還可以通過提供一種隨機(jī)二值圖象為輸入初始化頂部兩層的狀態(tài)。圖9示出了如何相聯(lián)存儲器的類條件狀態(tài)然后當(dāng)它被允許自由運(yùn)行的發(fā)展,但與標(biāo)簽夾緊。該內(nèi)部狀態(tài)是“觀察”通過執(zhí)行下每20次迭代,看看有什么聯(lián)想記憶在腦海。此使用的詞“記”不旨在是隱喻。我們相信,一種精神狀態(tài)是一個假設(shè),外部世界,在其中一個高層次的內(nèi)部表示將構(gòu)成不虛偽知覺的狀態(tài)。這假設(shè)的世界是什么樣的圖中顯示。圖9:每行顯示了具有特定標(biāo)簽的生成模型10個樣品夾緊。頂層相聯(lián)存儲器是由一個向上通從一個隨機(jī)二進(jìn)制圖像,其中每個像素是上為0的概率初始化:5。在第一個柱顯示了一個向下通從該最初的高電平狀態(tài)的結(jié)果。隨后列由20次迭代交替Gibbs抽樣的聯(lián)想記憶的產(chǎn)生。8結(jié)論我們已經(jīng)表明,它有可能在一個時間來學(xué)習(xí)深,密集的連接,信仰網(wǎng)絡(luò)一層。顯而易見的方法來做到這是假設(shè)學(xué)習(xí)下層時較高層不存在,但是這不是與使用簡單階乘近似值來代替頑固驗(yàn)分布兼容。對于這些近似很好地工作,我們需要真正的后路盡量靠近階乘越好。替代忽略較高層所以,我們假定它們存在但并列這些約束來實(shí)現(xiàn)的互補(bǔ)之前,使真實(shí)后恰好階乘權(quán)重。這相當(dāng)于具有能有效地利用對比發(fā)散而獲知無向的模型。它也可以被看作約束變學(xué)習(xí),因?yàn)橐粋€懲罰項(xiàng)-大致與真實(shí)后驗(yàn)之間的差異-已取代了現(xiàn)有必須使變分近似精確的約束。在每個層已經(jīng)了解到,其權(quán)重是來自更高層的權(quán)重解開。由于這些較高級別的權(quán)重變化,先驗(yàn)對于較低層不再是互補(bǔ)的,所以在下層的真實(shí)后驗(yàn)分布不再階乘和使用生成的權(quán)重為推斷的轉(zhuǎn)置的不再是正確的。然而,我們可以使用綁定到表明適應(yīng)較高級別的權(quán)重提高了整體生成模型一變。為了證明我們的快,貪婪學(xué)習(xí)算法的力量,我們用它來初始化權(quán)重低得多的微調(diào)算法,學(xué)習(xí)數(shù)字圖像和它們的標(biāo)簽的一個很好的生成模式。目前尚不清楚,這是使用快速,貪心算法的最佳方式。它可能會更好省略微調(diào)和使用貪婪算法的速度學(xué)習(xí)更大,更深的網(wǎng)絡(luò)的一個集合或一個更大的訓(xùn)練集。在圖1的網(wǎng)絡(luò)中有一樣多參數(shù)為0:(霍勒斯巴洛,個人通信)小鼠皮層002立方毫米,并且這種復(fù)雜幾百網(wǎng)絡(luò)可以適合于高分辨率功能磁共振成像掃描的一單個體素。這表明,更大的網(wǎng)絡(luò),可能需要與人體形狀識別能力競爭。我們當(dāng)前的生成模型在許多方面(Lee和芒福德,2003)的限制。它被設(shè)計(jì)為在其中非二進(jìn)制值可以被視為概率(這是不自然的圖像的情況下)的圖像;其感知中使用的自頂向下的反饋被限制在相聯(lián)存儲器中頂部兩層;它沒有涉及感知不變性的系統(tǒng)方法;它假定分割已經(jīng)執(zhí)行,并沒有學(xué)會順序參加對象的信息量最大的部件時判別是困難的。它然而說明一些生成模式的主要優(yōu)點(diǎn)相比,歧視性的:1.生成模式可以學(xué)習(xí)低級別的功能,而無需從標(biāo)簽的反饋,他們可以學(xué)到更多的參數(shù)比判別模型,無需過度擬合。在辨別學(xué)習(xí),每次訓(xùn)練情況下,只有約束的參數(shù)通過信息盡可能多的比特都需要指定標(biāo)簽。要生成模型中,每個訓(xùn)練情況下限制了參數(shù)所需要指定輸入的位數(shù)。
2.這是很容易看到網(wǎng)絡(luò)已經(jīng)從它的模型生成學(xué)會
3.有可能通過從它們產(chǎn)生的圖像來解釋非線性的,在深隱層分布的表示。
4.判別學(xué)習(xí)方法優(yōu)越的分類性能僅持有的域在它是不可能很好的學(xué)習(xí)生成模型。這組域正在侵蝕摩爾定律。附錄1.互補(bǔ)先驗(yàn)一般的互補(bǔ)性考慮聯(lián)合分布在觀測,X,和隱藏變量,Y。對于給定的似然函數(shù),P(XJY),我們定義互補(bǔ)先驗(yàn)的相應(yīng)家族是那些分布P(y)時,對其中的聯(lián)合分布P(X;Y)=P(XJY)P(y)的,引出后驗(yàn),P(YJX),即恰好事實(shí)上上升,即導(dǎo)致可以表示為P(YJX)=QJ個P(YJJX)后部。不是所有的函數(shù)形式可能性承認(rèn)先前的互補(bǔ)性。在本附錄中,我們將顯示以下家庭是一切似然函數(shù)承認(rèn)以前的互補(bǔ):哪里是規(guī)范化條件。這種說法持有我們需要假定分布陽性:這兩個P(Y)>0和P(XJY)>0的y和x的每一個值。互補(bǔ)先驗(yàn)相應(yīng)的家庭再假設(shè)的形式:其中,C是常數(shù),以確保正常化。功能形式的這種結(jié)合導(dǎo)致以下表達(dá)式為聯(lián)合:為了證明我們的主張,我們需要證明方程形式的每一個似然函數(shù)。11承認(rèn)互補(bǔ)之前,也即意味著互補(bǔ)式中的函數(shù)形式。11.首先,它可以直接證實(shí)方程圖12是互補(bǔ)的事先對公式1的似然函數(shù)。11.要顯示相反的,讓我們假定P(y)為互補(bǔ)現(xiàn)有一些似然函數(shù)P(XJY)。注意后的階乘形式簡單的說就是聯(lián)合分布P(X;Y)=P(Y)P(XJY)滿足下列一組條件獨(dú)立性:YJ?YK?x對于每次J的=K。這組條件獨(dú)立的正是那些與每個隱藏變量之間的邊緣清償無向圖模型,觀察變量,并在所有觀測變量(明珠,1988年)。由哈默斯利-克利福定理,利用我們的積極性的假設(shè),聯(lián)合分布必須是公式1的形式下。13,并且形成為似然函數(shù)式11和以前的公式。12遵循這一點(diǎn)?;パa(bǔ)性是無限堆棧我們現(xiàn)在考慮的方程形式的模型的一個子集。13其中的可能性也因素。這意味著,我們現(xiàn)在有兩套條件獨(dú)立性:這種情況是我們建設(shè)有向圖模型的是無限的堆棧有用的。識別公式的條件獨(dú)立性。14和15作為那些由一個完整的二分無向圖模型滿足,并使用哈默斯利-克利福德定理(假設(shè)陽性),我們再次看到以下形式充分刻畫所有感興趣的聯(lián)合分布,而似然函數(shù)采取的形式,雖然這不是立即顯而易見的,邊緣分布在觀測中,x,在方程16也可以被表示為在無限定向模型,其中限定層之間的條件分布的參數(shù)連接在一起。驗(yàn)證這一說法的一個直觀的方法如下。考慮的,使我們可以得出樣品從邊緣分布P(x)的由式隱含的方法之一。16.從y的任意配置開始,我們將使用迭代進(jìn)行Gibbs抽樣,在輪換時,分布在給定的公式。14和15.如果我們運(yùn)行這個馬爾科夫鏈足夠長的話,因?yàn)槲覀兊募僭O(shè),積極確保鏈條正確的混合,我們最終會得到公正的樣本在給定式的聯(lián)合分布16?,F(xiàn)在讓我們想象一下,我們展開吉布斯更新這個序列空間-比如,我們考慮的變量每個并行更新構(gòu)成圖中的一個單獨(dú)的層的狀態(tài)。該展開狀態(tài)序列具有純粹定向結(jié)構(gòu)(與條件分布采取等式交替14和15的形式)。由等價于Gibbs抽樣方案,在這樣的展開圖許多層后,相鄰的成對的層將有一個聯(lián)合分布如等式給出16。我們可以正式這種直覺的展開圖如下。其基本思想是通過展開圖“向上”,構(gòu)建聯(lián)合分布(即遠(yuǎn)離該數(shù)據(jù)層先后更深的隱藏層),這樣我們就可以把一個良好定義的分布在一個在變量無限堆棧。然后我們驗(yàn)證此聯(lián)合分布的一些簡單的邊緣和有條件的屬性,并表明,我們的結(jié)構(gòu)是相同的,通過從艾利深層向下展開的曲線獲得。令x=X;?=Y;X;?;X;?;:::是的第一其中兩個被標(biāo)識為我們的原始觀測和隱變量的變量的序列(堆棧),而X(i)和Y(I)將被解釋為依次更深層的序列。首先,定義功能在虛擬變量Y0,X0?,F(xiàn)在定義一個聯(lián)合分布在我們的變量(假設(shè)一階馬爾可夫依賴)如下順序:我們核實(shí)感應(yīng)的分布具有以下邊緣分布:對于i=0,這是通過在式中的分布的定義給出。23和公式。19和20.I>0,我們有:并且類似地對應(yīng)于P(Y(I))?,F(xiàn)在我們看到下面的“向下”的條件分布也持如此:因此,我們的聯(lián)合分布在變量的堆棧還給出了“向下”的方向展開圖,因?yàn)楣降臈l件分布。29和30是相同的那些用于產(chǎn)生在一個向下通和馬爾可夫鏈混合物的樣品。在推斷這無限有向圖的堆棧相當(dāng)于推理的聯(lián)合分布在變量的順序。換句話說,給定x(0),我們可以簡單地使用聯(lián)合分布方程的定義。23,24和25簡單地通過采樣Y(0)JX獲得從后一個樣品(0)中,x(1)的jy(0)中,y(1)JX(1),:::。這直接表明了我們的推論過程是精確的展開圖。2.上下算法的偽代碼我們現(xiàn)在提出“MATLAB”偽代碼在第5節(jié),并用于背景擬合上下算法的實(shí)現(xiàn)。(此方法是在喚醒睡眠算法(Hinton等人的對比版本,1995年)。)下面概述的代碼假定有可見的輸入,標(biāo)記節(jié)點(diǎn)和隱藏單元三層如圖1中所示的類型的網(wǎng)絡(luò)。之前施加上下算法,我們將第一個作為在第3及4所描述進(jìn)行逐層貪婪訓(xùn)練。\%UP-DOWNALGORITHM\%\%thedataandallbiasesarerowvectors.\%thegenerativemodelis:lab<-->top<-->pen-->hid-->vis\%thenumberofunitsinlayerfooisnumfoo\%weightmatriceshavenamesfromlayer_tolayer\%"rec"isforrecognitionbiasesand"gen"isforgenerativebiases.\%forsimplicity,thesamelearningrate,r,isusedeverywhere.\%PERFORMABOTTOM-UPPASSTOGETWAKE/POSITIVEPHASEPROBABILITIES\%ANDSAMPLESTATESwakehidprobs=logistic(data*vishid+hidrecbiases);wakehidstates=wakehidprobs>rand(1,numhid);wakepenprobs=logistic(wakehidstates*hidpen+penrecbiases);wakepenstates=wakepenprobs>rand(1,numpen);postopprobs=logistic(wakepenstates*pentop+targets*labtop+topbiases);postopstates=waketopprobs>rand(1,numtop));\%POSITIVEPHASESTATISTICSFORCONTRASTIVEDIVERGENCEposlabtopstatistics=targets’*waketopstates;pospentopstatistics=wakepenstates’*waketopstates;\%PERFORMnumCDitersGIBBSSAMPLINGITERATIONSUSINGTHETOPLEVEL\%UNDIRECTEDASSOCIATIVEMEMORYnegtopstates=waketopstates;\%toinitializeloopforiter=1:numCDitersnegpenprobs=logistic(negtopstates*pentop’+pengenbiases);negpenstates=negpenprobs>rand(1,numpen);neglabprobs=softmax(negtopstates*labtop’+labgenbiases);negtopprobs=logistic(negpenstates*pentop+neglabprobs*labtop+topbiases);negtopstates=negtopprobs>rand(1,numtop));end;\%NEGATIVEPHASESTATISTICS
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 美容專業(yè)畢業(yè)論文范例
- 改性生物炭對鎘污染土壤的修復(fù)作用及對菠菜營養(yǎng)品質(zhì)的影響
- 廣告公司轉(zhuǎn)正述職報告
- 八年級物理上冊第三章第二節(jié)生活中的透鏡練習(xí)無答案
- 2024秋四年級語文上冊第二單元習(xí)作二小攜物園教案新人教版
- 2025年電子、通信產(chǎn)品及軟件批發(fā)服務(wù)項(xiàng)目建議書
- 初中語文小小說青春花語刑警的兒子
- app轉(zhuǎn)讓合同范例
- 中介承包裝修合同范例
- 住建部物業(yè)合同范例
- GB/T 33365-2016鋼筋混凝土用鋼筋焊接網(wǎng)試驗(yàn)方法
- GB/T 16799-2018家具用皮革
- GB/T 14541-2017電廠用礦物渦輪機(jī)油維護(hù)管理導(dǎo)則
- GB 10133-2014食品安全國家標(biāo)準(zhǔn)水產(chǎn)調(diào)味品
- 講題比賽游戲中的必勝策略問題-(取棋子游戲)課件
- 旅游學(xué)概論李天元版復(fù)習(xí)總結(jié)
- 人教版八年級上歷史思維導(dǎo)圖課件
- 重慶大學(xué)介紹課件
- 江蘇省南京市2020年中考英語試題
- 《電氣裝配車間生產(chǎn)工序流程卡》中英文對譯版
- 四年級下冊英語課件:Unit 4 There are seven days in a week-Lesson 19人教精通版
評論
0/150
提交評論