深度學(xué)習(xí)課件:現(xiàn)代模型概述_第1頁
深度學(xué)習(xí)課件:現(xiàn)代模型概述_第2頁
深度學(xué)習(xí)課件:現(xiàn)代模型概述_第3頁
深度學(xué)習(xí)課件:現(xiàn)代模型概述_第4頁
深度學(xué)習(xí)課件:現(xiàn)代模型概述_第5頁
已閱讀5頁,還剩26頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

§8.1玻爾茲曼機(jī)§8.2自編碼器§8.3深度信念網(wǎng)絡(luò)§8.4殘差神經(jīng)網(wǎng)絡(luò)§8.5膠囊神經(jīng)網(wǎng)絡(luò)現(xiàn)代模型概述§8.1玻爾茲曼機(jī)玻爾茲曼機(jī)(BoltzmannMachine,BM)是一種由隨機(jī)神經(jīng)元全連接組成的神經(jīng)網(wǎng)絡(luò)模型,其具有對稱性與無反饋性。玻爾茲曼機(jī)的神經(jīng)元結(jié)構(gòu)分為可視層與隱含層。顧名思義,可視層所包含的神經(jīng)元被稱為可視節(jié)點,隱藏層所包含的神經(jīng)元被稱為隱含節(jié)點。在標(biāo)準(zhǔn)玻爾茲曼機(jī)模型下,所有的神經(jīng)元的激活值僅有0或者是1兩種狀態(tài),1表示激活而0表示未激活,其結(jié)構(gòu)原理如圖8.1.1標(biāo)準(zhǔn)玻爾茲曼機(jī)能量函數(shù)(EnergyFunctional):將待聚類的事物看成一個系統(tǒng),事物之間的相異程度看成系統(tǒng)元素間的能量,當(dāng)能量達(dá)到一定程度時,事物就形成一個新的類,表示系統(tǒng)需要重新分類。聚類過程中要求每個事物屬于一個類,每個簇中不存在能量大于閾值的系統(tǒng),不同的簇中不存在能量小于閾值的系統(tǒng)。換句話說,根據(jù)我們之前的基礎(chǔ)知識可以得知,在自然界中物體的能量越小,其狀態(tài)越趨于穩(wěn)定。所以,能量較大的不同簇被分類為不同類別,而能量較小的簇形成一個穩(wěn)定的團(tuán),也就是被聚為一類。玻爾茲曼機(jī)的學(xué)習(xí)算法即是基于能量函數(shù)的。其能量函數(shù):

玻爾茲曼機(jī)的目標(biāo)是最大化似然函數(shù),也就是說如果玻爾茲曼機(jī)在一組特定的參數(shù)下導(dǎo)出的可視節(jié)點的概率分布與可視節(jié)點被輸入向量所固定的狀態(tài)概率分布完全一樣,那么此時可以稱該玻爾茲曼機(jī)構(gòu)造了與輸入向量環(huán)境相同的完整模型。對數(shù)似然函數(shù)定義如下:

玻爾茲曼機(jī)的學(xué)習(xí)過程8.1.2受限玻爾茲曼機(jī)受限玻爾茲曼機(jī)(RestrictedBoltzmannMachines,RBM)是標(biāo)準(zhǔn)玻爾茲曼機(jī)的一種變形。雖然其只具有兩層結(jié)構(gòu),在嚴(yán)格意義上說還不是深度學(xué)習(xí)結(jié)構(gòu),但是可以被用作基本模塊來構(gòu)造自編碼器,深度信念網(wǎng)絡(luò),深層玻爾茲曼機(jī)等許多其它深度學(xué)習(xí)模型。顧名思義,相比于標(biāo)準(zhǔn)玻爾茲曼機(jī),受限玻爾茲曼機(jī)受到了更多的限制。正如我們之前所介紹的那樣,標(biāo)準(zhǔn)玻爾茲曼機(jī)的可視層的任意神經(jīng)元之間是可以相互通信的,隱藏層中任意兩個神經(jīng)元也是可以直接連接的。而受限玻爾茲曼機(jī)完全禁止可視層與隱藏層各自內(nèi)部節(jié)點之間的相互連接,只允許可視層與隱藏層之間的節(jié)點相互連接,如圖

與標(biāo)準(zhǔn)玻爾茲曼機(jī)原理相似,此時我們可以定義受限玻爾茲曼機(jī)的能量函數(shù)如下:

根據(jù)數(shù)學(xué)知識,對聯(lián)合概率分布去邊緣分布,就可以分別得到受限玻爾茲曼機(jī)的可視向量分布與隱含向量分布,這是由于聯(lián)合分布是由可視向量分布與隱含響亮分布聯(lián)合。可視向量分布為:

(和我們之前所講解的模型一樣,受限玻爾茲曼機(jī)的學(xué)習(xí)在本質(zhì)上就是對模型的一系列參數(shù)進(jìn)行更新,常用的方式為利用梯度上升的方法進(jìn)行最大似然估計,使總體的對數(shù)似然函數(shù)最大化。受限玻爾茲曼機(jī)的對數(shù)似然函數(shù)被定義為:

8.1.3深層玻爾茲曼機(jī)深層玻爾茲曼機(jī)(DeepBoltzmannMachine,DBM)從結(jié)構(gòu)上,類似于我們之前所介紹的簡單全連接神經(jīng)網(wǎng)絡(luò)。它僅包含鄰層之間的連接,而不包括同一層中的相互連接,但是與簡單全連接神經(jīng)網(wǎng)絡(luò)不一樣的是,深層玻爾茲曼機(jī)在整體上是一個無向概率圖模型。其結(jié)構(gòu)圖如圖

深層玻爾茲曼機(jī)可以看成由許多RBM堆疊起來的結(jié)構(gòu),因此深層玻爾茲曼機(jī)的參數(shù)的學(xué)習(xí)可以根據(jù)RBM的學(xué)習(xí)算法來進(jìn)行,但是正如我們之前所說的那樣,它的效率較低。在深層玻爾茲曼機(jī)的學(xué)習(xí)算法當(dāng)中,可以使用兩個階段的不同策略,這樣可以加速模型參數(shù)的學(xué)習(xí)效率。訓(xùn)練的第一階段為逐層預(yù)訓(xùn)練階段。在這個階段當(dāng)中,首先先把深層玻爾茲曼機(jī)的可視層

和第一層隱含層

捆綁起來看做一個受限玻爾茲曼機(jī)。然后,再把深層玻爾茲曼機(jī)的隱含層

看作一個受限玻爾茲曼機(jī)。這時,我們可以把

看作是該受限玻爾茲曼機(jī)的可視層,隱含層為

。以此類推,在計算深層玻爾茲曼機(jī)的最后兩個隱含層的時候,可以考慮是否使用標(biāo)簽。如果不使用標(biāo)簽,那么我們可以把這兩層看做是一個逆捆綁受限玻爾茲曼機(jī)整體過程如圖在多個受限玻爾茲曼機(jī)的訓(xùn)練完成以后,通過權(quán)值減半的方法,將其重新編輯成一個新的深層玻爾茲曼機(jī),最終重新編輯生成的深度玻爾茲曼機(jī)模型作為訓(xùn)練結(jié)果,如圖

第二階段,為利用類CD算法進(jìn)行調(diào)優(yōu)。這個階段首先利用算法估計深層玻爾茲曼機(jī)的后驗概率,然后利用訓(xùn)練集通過類CD算法調(diào)優(yōu)模型參數(shù)。估計后驗概率而非精確計算有助于我們提高模型的訓(xùn)練速度。其中,估計后驗概率的算法稱為平均場算法。平均場算法的基本思想是通過隨機(jī)變量均值的函數(shù)近似估計隨機(jī)變量的函數(shù)的均值。最終,我們便得到了對深層玻爾茲曼機(jī)后驗概率的估計。這里值得注意的是,深層玻爾茲曼機(jī)需要采用經(jīng)過編輯的受限玻爾茲曼機(jī)進(jìn)行逐層訓(xùn)練,才能獲得更好的學(xué)習(xí)訓(xùn)練效果。自編碼器(Autoencoder)可以用來對高維數(shù)據(jù)進(jìn)行降維處理,也可以理解成我們之前所了解的數(shù)據(jù)稀疏化。對于自編碼器,它的內(nèi)部具有兩部分結(jié)構(gòu),一部分為編碼器,另一部分為解碼器。編碼器可以看作是自編碼器內(nèi)部的隱含層

對數(shù)據(jù)

的處理

。而解碼器,可以看作是數(shù)據(jù)的重構(gòu)

。這就是對應(yīng)的映射過程,如圖傳統(tǒng)自編碼器被用于降維或特征學(xué)習(xí)。近年來,自編碼器與潛變量模型理論的聯(lián)系將自編碼器帶到了生成式建模的前沿。我們也可以對自編碼器加入約束,使之優(yōu)先地提取更為顯著的數(shù)據(jù)特征?!?.2自編碼器8.2.1標(biāo)準(zhǔn)自編碼器標(biāo)準(zhǔn)的自編碼器是一個關(guān)于中間層具有結(jié)構(gòu)對稱性的多層前饋網(wǎng)絡(luò)。它的期望輸出與輸入相同,可以用來學(xué)習(xí)恒等映射并抽取無監(jiān)督特征,如圖從自編碼器獲得有用特征的一種方法是限制

h的維度比x小,這種編碼維度小于輸入維度的自編碼器稱為欠完備(undercomplete)自編碼器。學(xué)習(xí)欠完備的表示將強(qiáng)制自編碼器捕捉訓(xùn)練數(shù)據(jù)中最顯著的特征。當(dāng)解碼器是線性的且L

為均方誤差損失函數(shù)時,欠完備的自編碼器會學(xué)習(xí)出與PCA相同的生成子空間。這種情況下,自編碼器在訓(xùn)練來執(zhí)行復(fù)制任務(wù)的同時學(xué)到了訓(xùn)練數(shù)據(jù)的主元子空間。當(dāng)然,編碼器函數(shù)也可以是非線性的,此時我們可以得到更為強(qiáng)大的PCA非線性推廣。但是,注意,如果我們賦予了編碼器與解碼器過大的容量,那么此時它們將起不到任何抽取數(shù)據(jù)特征的作用,只會單純地執(zhí)行復(fù)制任務(wù)。所以,這也告訴了我們不能僅僅一味地追求損失函數(shù)所體現(xiàn)的性能,還應(yīng)考慮與此同時對于模型究竟發(fā)生了什么。作為一個特殊的多層感知機(jī),從理論上講自編碼器是可以通過反向傳播算法來學(xué)習(xí)權(quán)重與偏置的。但是由于之前所提到的局部極小值的存在,一個深層的自編碼器如果僅僅采用反向傳播算法來學(xué)習(xí),結(jié)果常常是不穩(wěn)定的,甚至是不收斂的。所以,在實際的應(yīng)用當(dāng)中往往使用兩個階段方法來訓(xùn)練自編碼器,即無監(jiān)督預(yù)訓(xùn)練與有監(jiān)督調(diào)優(yōu)。8.2.2稀疏自編碼器理想情況下,根據(jù)要建模的數(shù)據(jù)分布的復(fù)雜性,選擇合適的編碼維數(shù)和編碼器、解碼器容量,就可以成功訓(xùn)練任意架構(gòu)的自編碼器。如何控制模型的容量呢,我們之前介紹過,當(dāng)我們?yōu)槟P驮黾恿讼鄳?yīng)的約束項之后,就可以制約模型的容量。換句話說,具有正則化能力的自編碼器實現(xiàn)了這樣的功能。正則自編碼器使用的損失函數(shù)可以鼓勵模型學(xué)習(xí)其他特性,而不必限制使用淺層的編碼器和解碼器以及小的編碼維數(shù)來限制模型的容量。我們使用稀疏自編碼器的目的一般是用來學(xué)習(xí)特征,以便用于類似于分類的任務(wù)。稀疏正則化的自編碼器必須反映訓(xùn)練數(shù)據(jù)集的獨特統(tǒng)計特征,而不是簡單地充當(dāng)恒等函數(shù)。以這種方式訓(xùn)練,執(zhí)行附帶稀疏懲罰的復(fù)制任務(wù)可以得到能學(xué)習(xí)有用特征的模型。為了能夠?qū)ψ跃幋a器進(jìn)行約束,稀自編碼器在模型的損失函數(shù)中加入了稀疏懲罰項,這樣我們得到了重構(gòu)誤差我們可以認(rèn)為整個稀疏自編碼器框架是對帶有潛變量的生成模型的近似最大似然訓(xùn)練,而不將稀疏懲罰視為復(fù)制任務(wù)的正則化。8.2.3降噪自編碼器降噪自編碼器(DenoisingAutoencoder,DAE)是一類接受損壞數(shù)據(jù)作為輸入,并訓(xùn)練來預(yù)測原始未被損壞數(shù)據(jù)作為輸出的自編碼器。具體的做法是,在輸入數(shù)據(jù)中增加一定的噪聲對自編碼器進(jìn)行學(xué)習(xí)訓(xùn)練,使其產(chǎn)生抗噪能力,從而獲得更加魯棒的數(shù)據(jù)重構(gòu)效果。假設(shè)X是無噪聲原始輸入,降噪自編碼器首先利用隨機(jī)映射把原始數(shù)據(jù)加入噪聲侵蝕,再將帶噪聲的樣本X

作為輸入,以X作為輸出,對自編碼器進(jìn)行學(xué)習(xí)訓(xùn)練,原理如圖深度信念網(wǎng)絡(luò)(DeepBeliefNetwork,DBN)是一種深度學(xué)習(xí)的生成模型,它可以通過受限玻爾茲曼機(jī)的堆疊來構(gòu)造。深層信念網(wǎng)絡(luò)既可以用來對數(shù)據(jù)的概率分布進(jìn)行建模,也可以用來實現(xiàn)對數(shù)據(jù)進(jìn)行分類。通常,深度信念網(wǎng)絡(luò)作為生成模型的學(xué)習(xí)過程可以分為兩個階段,先用受限玻爾茲曼機(jī)進(jìn)行逐層預(yù)訓(xùn)練,再使用睡醒算法調(diào)優(yōu)。當(dāng)模型作為判別模型的時候,深層信念網(wǎng)絡(luò)在經(jīng)過受限玻爾茲曼機(jī)的逐層與訓(xùn)練之后,再使用反向傳播算法進(jìn)行調(diào)優(yōu)?!?.3深度信念網(wǎng)絡(luò)深度信念網(wǎng)絡(luò)是具有若干潛變量層的生成模型。潛變量通常是二值的,而可見單元可以是二值或?qū)崝?shù)。盡管構(gòu)造連接比較稀疏的DBN是可能的,但在一般的模型中,每層的每個單元連接到每個相鄰層中的每個單元(沒有層內(nèi)連接)。頂部兩層之間的連接是無向的。而所有其他層之間的連接是有向的,箭頭指向最接近數(shù)據(jù)的層。從數(shù)學(xué)上看,深層新年網(wǎng)絡(luò)是一個混合圖模型,其中既包含無向部分,又包含有向部分,如圖

在了解了模型的基本結(jié)構(gòu)之后,我們需要開始訓(xùn)練模型。利用深層信念網(wǎng)絡(luò)學(xué)習(xí)樣本的概率分布稱為生成學(xué)習(xí)。和我們之前所介紹的自編碼器學(xué)習(xí)算法類似,深度信念網(wǎng)絡(luò)的訓(xùn)練過程分為兩個階段,即無監(jiān)督預(yù)訓(xùn)練過程與參數(shù)調(diào)優(yōu)過程。對于無監(jiān)督預(yù)訓(xùn)練階段,和自編碼器學(xué)習(xí)算法類似,把相鄰兩層看作是受限玻爾茲曼機(jī),進(jìn)行逐層訓(xùn)練。在參數(shù)調(diào)優(yōu)階段,我們使用上下算法對所有網(wǎng)絡(luò)參數(shù)調(diào)優(yōu)。

在醒階段,模型反復(fù)使用識別權(quán)值和識別偏置估計生成權(quán)值和生成偏置;在睡階段,模型則反復(fù)使用生成權(quán)值和生成偏置估計識別權(quán)值和識別偏置。從圖里不難看出,醒階段是一個由上至下的過程,其作用是根據(jù)估算識別權(quán)值和識別偏置調(diào)整整體網(wǎng)絡(luò)的生成權(quán)值和生成偏置,關(guān)于醒階段的算法,如圖當(dāng)作為判別模型的時候,深度信念網(wǎng)絡(luò)的學(xué)習(xí)過程像是我們之前所介紹的自編碼器,先使用受限玻爾茲曼機(jī)進(jìn)行逐層無監(jiān)督預(yù)訓(xùn)練,再使用反向傳播算法進(jìn)行有監(jiān)督調(diào)優(yōu)。具體過程如圖8.18所示。在無監(jiān)督訓(xùn)練階段,從可視層到第r-1隱含層,深度信念網(wǎng)絡(luò)的相鄰兩層被看作一個受限玻爾茲曼機(jī),并利用相應(yīng)算法進(jìn)行訓(xùn)練。對于聯(lián)想記憶部分,可以被看成是一個分類受限玻爾茲曼機(jī),標(biāo)簽層和第r-1隱含層可以看成可視層,隱含層就是深度信念網(wǎng)絡(luò)的第r隱含層。模型的深度越深,模型越可能學(xué)習(xí)到更多有關(guān)數(shù)據(jù)的細(xì)節(jié)特征,那么我們?nèi)绾卧谧非筝^深的模型深度的同時克服上述問題呢,此時殘差神經(jīng)網(wǎng)絡(luò)(ResidualNeuralNetwork,ResNet)被提出。ResNet由微軟研究院的KaimingHe等四名華人提出,通過使用ResNetUnit成功訓(xùn)練出了152層的神經(jīng)網(wǎng)絡(luò),并在ILSVRC2015比賽中取得冠軍,在top5上的錯誤率為3.57%,同時參數(shù)量比VGGNet低,效果非常突出。§8.4殘差神經(jīng)網(wǎng)絡(luò)由于許多數(shù)據(jù)其本身是十分復(fù)雜的,因此隨著模型深度增加,過擬合現(xiàn)象并不是約束模型深度的主要因素,主要的約束因素還是由梯度所引發(fā)的一些列問題,如梯度的消失與爆炸?,F(xiàn)在,我們考慮在很深的模型上恢復(fù)淺層模型的結(jié)構(gòu),即添加恒等映射,將淺層模型的結(jié)果復(fù)制到其他層,這種結(jié)構(gòu)可以緩解由于深度增加而使模型性能下降的問題。20ResNet連接示意圖當(dāng)將殘差神經(jīng)網(wǎng)絡(luò)應(yīng)用于卷積神經(jīng)網(wǎng)絡(luò)時,模型設(shè)計的原則如下:①對于輸出特征圖大小相同的層,有相同數(shù)量的濾波器,即通道數(shù)量數(shù)相同;②當(dāng)特征圖大小由于池化操作而減半時,濾波器的數(shù)量翻倍。當(dāng)維度不匹配時,同等映射有兩種可選方案:①通過補(bǔ)零的方法,維持?jǐn)?shù)據(jù)維數(shù)的不變;②通過乘以權(quán)值矩陣

的方式,將矩陣投影至新的矩陣空間以增加維度。ResNet連接示意圖在傳統(tǒng)的深度學(xué)習(xí)模型當(dāng)中,每一個神經(jīng)元的輸入輸出均為標(biāo)量,而在膠囊神經(jīng)網(wǎng)絡(luò)中,每一個神經(jīng)元被替換為一個小“膠囊”,這個“膠囊”變?yōu)榱艘粋€向量。它可包含任意個值,每個值代表了當(dāng)前需要識別的物體(比如圖片)的一個特征。由于神經(jīng)元被替換為了向量形式的表示,所以它可以增加對特征之間相對位置關(guān)系的表示,如此便能學(xué)習(xí)特征之間相對關(guān)系?!?.5膠囊神經(jīng)網(wǎng)絡(luò)膠囊網(wǎng)絡(luò)和全連接網(wǎng)絡(luò)的連接方式一模一樣。前一層每一個膠囊神經(jīng)單元都會和后一層每一個膠囊神經(jīng)單元相連。如圖所示。需要注意的是,圖中為了表示清晰,而畫出了部分連接線,實際上應(yīng)該是全連接的。CapsNet連接示意圖我們之前介紹了許多激活函數(shù),在膠囊神經(jīng)網(wǎng)絡(luò)當(dāng)中一種新的激活函數(shù)被提出,即Squashing激活函數(shù)。所以膠囊神經(jīng)元的輸入輸出關(guān)系為:我們?yōu)槭裁?/p>

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論