深度學(xué)習(xí)算法_第1頁
深度學(xué)習(xí)算法_第2頁
深度學(xué)習(xí)算法_第3頁
深度學(xué)習(xí)算法_第4頁
深度學(xué)習(xí)算法_第5頁
已閱讀5頁,還剩14頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

1、淺談深度學(xué)習(xí)DBN和CNN算法報告人:龔再文 院系:自動化學(xué)院時間:2015.7.4 2006年,加拿大多倫多大學(xué)教授、機(jī)器學(xué)習(xí)領(lǐng)域的泰斗G. E. Hinton和他的學(xué)生R. R. Salakhutdinov在science上發(fā)表了一篇文章(用神經(jīng)網(wǎng)絡(luò)實(shí)現(xiàn)數(shù)據(jù)降維),開啟了深度學(xué)習(xí)在學(xué)術(shù)界和工業(yè)界的浪潮。這篇文章有兩個主要觀點(diǎn):l多隱層的人工神經(jīng)網(wǎng)絡(luò)具有優(yōu)異的特征學(xué)習(xí)能力,學(xué)習(xí)得到的特征對數(shù)據(jù)有更本質(zhì)的刻畫,從而有利于可視化或分類;l深度神經(jīng)網(wǎng)絡(luò)在訓(xùn)練上的難度,可以通過“逐層初始化”(layer-wise pre-training)來有效克服,在這篇文章中,逐層初始化是通過無監(jiān)督學(xué)習(xí)實(shí)現(xiàn)的。

2、 深度學(xué)習(xí)的浪潮u深度學(xué)習(xí)(Deep Learning)是機(jī)器學(xué)習(xí)研究中的一個新的領(lǐng)域,深度學(xué)習(xí)是當(dāng)下最熱門的方向之一。其動機(jī)在于建立、模擬人腦進(jìn)行分析學(xué)習(xí)的神經(jīng)網(wǎng)絡(luò),它模仿人腦的機(jī)制來解釋數(shù)據(jù),例如圖像,聲音和文本。u深度學(xué)習(xí)熱潮爆發(fā)以來,諸多研究者都在不懈地努力著,希望能夠把它應(yīng)用于解決計算機(jī)視覺的各種任務(wù)上,從高層次(high-level)的識別(recognition),分類(classification)到低層次(low-level)的去噪(denoise)。讓人不禁聯(lián)想起當(dāng)年的稀疏表達(dá)(sparse representation)的熱潮,而深度學(xué)習(xí)如今的風(fēng)靡程度看上去是有過之而無不

3、及。深度學(xué)習(xí)也有橫掃h(yuǎn)igh-level問題的趨勢,high-level的很多方向都在被其不斷刷新著數(shù)據(jù)。u作為強(qiáng)大的特征(feature)學(xué)習(xí)工具,在給定足夠多的訓(xùn)練集的情況下,它可以幫助用戶學(xué)習(xí)到這個任務(wù)下的具有很強(qiáng)分辨能力的特征。深度學(xué)習(xí)的浪潮u深度學(xué)習(xí)可通過學(xué)習(xí)一種深層非線性網(wǎng)絡(luò)結(jié)構(gòu),實(shí)現(xiàn)復(fù)雜函數(shù)逼近,表征輸入數(shù)據(jù)分布式表示,并展現(xiàn)了強(qiáng)大的從少數(shù)樣本集中學(xué)習(xí)數(shù)據(jù)集本質(zhì)特征的能力。多層的好處在于可以用較少的參數(shù)表示復(fù)雜的函數(shù)。 u 深度學(xué)習(xí)的實(shí)質(zhì),是通過構(gòu)建具有很多隱層的機(jī)器學(xué)習(xí)模型和海量的訓(xùn)練數(shù)據(jù),來學(xué)習(xí)更有用的特征,從而最終提升分類或預(yù)測的準(zhǔn)確性。因此,“深度模型”是手段,“特征學(xué)習(xí)

4、”是目的。區(qū)別于傳統(tǒng)的淺層學(xué)習(xí),深度學(xué)習(xí)的不同在于:l強(qiáng)調(diào)了模型結(jié)構(gòu)的深度,通常有5層、6層,甚至10多層的隱層節(jié)點(diǎn);l明確突出了特征學(xué)習(xí)的重要性,也就是說,通過逐層特征變換,將樣本在原空間的特征表示變換到一個新特征空間,從而使分類或預(yù)測更加容易。與人工規(guī)則構(gòu)造特征的方法相比,利用大數(shù)據(jù)來學(xué)習(xí)特征,更能夠刻畫數(shù)據(jù)的豐富內(nèi)在信息。深度學(xué)習(xí)的實(shí)質(zhì)u深度學(xué)習(xí)在近期贏得了很多關(guān)注, 特別是 百度也開始發(fā)力深度學(xué)習(xí)后(Institute of Deep Learning), 更是在國內(nèi)引起了很多關(guān)注。在計算能力變得日益廉價的今天,深度學(xué)習(xí)試圖建立大得多也復(fù)雜得多的神經(jīng)網(wǎng)絡(luò)。u很多深度學(xué)習(xí)的算法是無監(jiān)督或

5、半監(jiān)督式學(xué)習(xí)算法,用來處理存在少量未標(biāo)識數(shù)據(jù)的大數(shù)據(jù)集。常見的深度學(xué)習(xí)算法包括:l受限波爾茲曼機(jī)(Restricted Boltzmann Machine)l深度信念網(wǎng)絡(luò)( Deep Belief Networks)l卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Networks)l堆棧式自動編碼器(Stacked Auto-encoders)深度學(xué)習(xí)算法深度學(xué)習(xí)算法Convolutional Neural Networks卷積神經(jīng)網(wǎng)絡(luò)Deep Belief Networks深度信念網(wǎng)絡(luò) DBNs由多個限制玻爾茲曼機(jī)(RBM)層組成。RBM被“限制”為一個可視層和一個隱層,層間存在連

6、接,但層內(nèi)的單元間不存在連接。隱層單元被訓(xùn)練去捕捉在可視層表現(xiàn)出來的高階數(shù)據(jù)的相關(guān)性。Deep Belief Networks典型的神經(jīng)網(wǎng)絡(luò)類型深度信念網(wǎng)絡(luò)的框架Deep Belief Networksl分別單獨(dú)無監(jiān)督地訓(xùn)練每一層 RBM 網(wǎng)絡(luò),確保特征向量映射到不同特征空間時,都盡可能多地保留特征信息;l在 DBN 的最后一層設(shè)置 BP 網(wǎng)絡(luò),接收 RBM 的輸出特征向量作為它的輸入特征向量,有監(jiān)督地訓(xùn)練實(shí)體關(guān)系分類器。而且每一層 RBM 網(wǎng)絡(luò)只能確保自身層內(nèi)的 權(quán)值對該層特征向量映射達(dá)到最優(yōu),并不是對整個 DBN 的特征向量映射達(dá)到最優(yōu),所以反向傳播網(wǎng)絡(luò)還將錯誤信息自頂向下傳播至每一層 R

7、BM,微調(diào)整個 DBN 網(wǎng)絡(luò)。RBM 網(wǎng)絡(luò)訓(xùn)練模型的過程可以看作對一個深層 BP 網(wǎng)絡(luò)權(quán)值參數(shù)的初始化,使DBN 克服了 BP 網(wǎng)絡(luò)因隨機(jī)初始化權(quán)值參數(shù)而容易陷入局部最優(yōu)和訓(xùn)練時間長的缺點(diǎn)。 上述訓(xùn)練模型中第一步在深度學(xué)習(xí)的術(shù)語叫做預(yù)訓(xùn)練,第二步叫做微調(diào)。最上面有監(jiān)督學(xué)習(xí)的那一層,根據(jù)具體的應(yīng)用領(lǐng)域可以換成任何分類器模型,而不必是BP網(wǎng)絡(luò)。DBN 訓(xùn)練模型的過程Deep Belief NetworksCD Pseudo,對比散度算法偽代碼偽代碼中涉及到的后驗概率可以由能量模型和極大似然估計求出Deep Belief NetworksNotes On CD Pseudo,對比散度算法偽代碼注釋T

8、his is the RBM update procedure for binomial units. It can easily adapted to other types of units. is a sample from the training distribution for the RBM is a learning rate for the stochastic gradient descent in Contrastive DivergenceW is the RBM weight matrix, of dimension (number of hidden units,

9、number of inputs)b is the RBM offset vector for input unitsc is the RBM offset vector for hidden unitsNotation: Q(h2 = 1|x2) is the vector with elements Q(h2i = 1|x2)1XResults權(quán)重矩陣可視化結(jié)果0501001502002503005010015020025005010015020025030050100150200250迭代1次迭代10次Results重構(gòu)平均錯誤率l迭代1次:Average reconstruction

10、error is: 66.2661;Mini-batch mean squared error on training set is 0.13954; Full-batch train err = 0.068880;l迭代10次:epoch 10/10. Average reconstruction error is: 42.2354;Mini-batch mean squared error on training set is 0.026504; Full-batch train err = 0.025100。隨著迭代次數(shù)的增加,無論是特征的提取還是重構(gòu)錯誤率都有很好的改善;當(dāng)然,也不是迭

11、代次數(shù)越多越好,迭代次數(shù)的增加會消耗大量的時間和儲存空間,訓(xùn)練數(shù)據(jù)集較大時尤其明顯。Convolutional Neural Networksu卷積神經(jīng)網(wǎng)絡(luò)是人工神經(jīng)網(wǎng)絡(luò)的一種,已成為當(dāng)前語音分析和圖像識別領(lǐng)域的研究熱點(diǎn)。它的權(quán)值共享網(wǎng)絡(luò)結(jié)構(gòu)使之更類似于生物神經(jīng)網(wǎng)絡(luò),降低了網(wǎng)絡(luò)模型的復(fù)雜度,減少了權(quán)值的數(shù)量。該優(yōu)點(diǎn)在網(wǎng)絡(luò)的輸入是多維圖像時表現(xiàn)的更為明顯,使圖像可以直接作為網(wǎng)絡(luò)的輸入,避免了傳統(tǒng)識別算法中復(fù)雜的特征提取和數(shù)據(jù)重建過程。uconvolution和和pooling的優(yōu)勢為使網(wǎng)絡(luò)結(jié)構(gòu)中所需學(xué)習(xí)到的參數(shù)個的優(yōu)勢為使網(wǎng)絡(luò)結(jié)構(gòu)中所需學(xué)習(xí)到的參數(shù)個數(shù)變得更少,并且學(xué)習(xí)到的特征具有一些不變性,比

12、如說平移,旋轉(zhuǎn)數(shù)變得更少,并且學(xué)習(xí)到的特征具有一些不變性,比如說平移,旋轉(zhuǎn)不變性。不變性。以2維圖像提取為例,學(xué)習(xí)的參數(shù)個數(shù)變少是因為不需要用整張圖片的像素來輸入到網(wǎng)絡(luò),而只需學(xué)習(xí)其中一部分patch。而不變的特性則是由于采用了mean-pooling或者max-pooling等方法。uCNN是第一個真正成功訓(xùn)練多層網(wǎng)絡(luò)結(jié)構(gòu)的學(xué)習(xí)算法。它利用空間關(guān)系減少需要學(xué)習(xí)的參數(shù)數(shù)目以提高一般前向BP算法的訓(xùn)練性能。CNN作為一個深度學(xué)習(xí)架構(gòu)提出是為了最小化數(shù)據(jù)的預(yù)處理要求。在CNN中,圖像的一小部分(局部感受區(qū)域)作為層級結(jié)構(gòu)的最低層的輸入,信息再依次傳輸?shù)讲煌膶樱繉油ㄟ^一個數(shù)字濾波器去獲得觀測數(shù)據(jù)

13、的最顯著的特征。CNN簡介Convolutional Neural NetworksCNN的網(wǎng)絡(luò)結(jié)構(gòu)輸入圖像通過和三個可訓(xùn)練的濾波器和可加偏置進(jìn)行卷積,卷積后在C1層產(chǎn)生三個特征映射圖,然后特征映射圖中每組的四個像素再進(jìn)行求和,加權(quán)值,加偏置,通過一個Sigmoid函數(shù)得到三個S2層的特征映射圖。這些映射圖再進(jìn)過濾波得到C3層。這個層級結(jié)構(gòu)再和S2一樣產(chǎn)生S4。最終,這些像素值被光柵化,并連接成一個向量輸入到傳統(tǒng)的神經(jīng)網(wǎng)絡(luò),得到輸出。C:ConvolutionsS:SubsamplingConvolutional Neural Networks經(jīng)典的例子(LeNet5結(jié)構(gòu)圖)可以看出對于這個網(wǎng)

14、絡(luò),每輸入一張32*32大小的圖片,就輸出一個84維的向量,這個向量即我們提取出的特征向量。Convolutional Neural NetworksCNN訓(xùn)練過程訓(xùn)練算法與傳統(tǒng)的BP算法差不多。主要包括4步,這4步被分為兩個階段:第一階段,向前傳播階段:第一階段,向前傳播階段:a)從樣本集中取一個樣本(X,Yp),將X輸入網(wǎng)絡(luò);b)計算相應(yīng)的實(shí)際輸出Op。 在此階段,信息從輸入層經(jīng)過逐級的變換,傳送到輸出層。這個過程也是網(wǎng)絡(luò)在完成訓(xùn)練后正常運(yùn)行時執(zhí)行的過程。在此過程中,網(wǎng)絡(luò)執(zhí)行的是計算(實(shí)際上就是輸入與每層的權(quán)值矩陣相點(diǎn)乘,得到最后的輸出結(jié)果): Op=Fn(F2(F1(XpW(1)W(2)

15、W(n)第二階段,向后傳播階段第二階段,向后傳播階段a)算實(shí)際輸出Op與相應(yīng)的理想輸出Yp的差;b)按極小化誤差的方法反向傳播調(diào)整權(quán)矩陣。在開始訓(xùn)練前,所有的權(quán)值都應(yīng)該用一些不同的小隨機(jī)數(shù)進(jìn)行初始化?!靶‰S機(jī)數(shù)”用來保證網(wǎng)絡(luò)不會因權(quán)值過大而進(jìn)入飽和狀態(tài),從而導(dǎo)致訓(xùn)練失敗;“不同”用來保證網(wǎng)絡(luò)可以正常地學(xué)習(xí)。實(shí)際上,如果用相同的數(shù)去初始化權(quán)矩陣,則網(wǎng)絡(luò)無能力學(xué)習(xí)。Results均方誤差020040060080010001200140000.511.50100020003000400050006000700000.511.5迭代1次迭代5次Mean squared errorNum of patch深度學(xué)習(xí)未來的工作uTheoretical studies on Deep LearninguNew optimization and training algorithmsuParallel co

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論