深度置信網(wǎng)絡BDN課件_第1頁
深度置信網(wǎng)絡BDN課件_第2頁
深度置信網(wǎng)絡BDN課件_第3頁
深度置信網(wǎng)絡BDN課件_第4頁
深度置信網(wǎng)絡BDN課件_第5頁
已閱讀5頁,還剩57頁未讀 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

PPT模板下載:/moban/

深度置信網(wǎng)絡BDN

PPT模板下載:/moban/深度總結(jié)與展望DBN(深度信念網(wǎng))RBM(受限玻爾茲曼機)深度學習概述目錄總結(jié)與展望DBN(深度信念網(wǎng))RBM(受限玻爾茲曼機)深度學深度學習概述深度學習概述淺層學習是機器學習的第一次浪潮人工神經(jīng)網(wǎng)絡(BP算法)—雖被稱作多層感知機,但實際是種只含有一層隱層節(jié)點的淺層模型SVM、Boosting、最大熵方法(如LR,LogisticRegression)—帶有一層隱層節(jié)點(如SVM、Boosting),或沒有隱層節(jié)點(如LR)的淺層模型局限性:有限樣本和計算單元情況下對復雜函數(shù)的表示能力有限,針對復雜分類問題其泛化能力受限。基本概念淺層學習與深度學習淺層學習是機器學習的第一次浪潮基本概念淺層學習與深度學習2006年,加拿大多倫多大學教授、機器學習領(lǐng)域的泰斗GeoffreyHinton在《科學》上發(fā)表論文提出深度學習主要觀點:1)多隱層的人工神經(jīng)網(wǎng)絡具有優(yōu)異的特征學習能力,學習得到的特征對數(shù)據(jù)有更本質(zhì)的刻畫,從而有利于可視化或分類;2)深度神經(jīng)網(wǎng)絡在訓練上的難度,可以通過“逐層初始化”(layer-wisepre-training)來有效克服,逐層初始化可通過無監(jiān)督學習實現(xiàn)的?;靖拍?006年,加拿大多倫多大學教授、機器學習領(lǐng)域的泰斗Geof深度學習:深度學習通過組合低層特征形成更加抽象的高層表示屬性類別或特征,以發(fā)現(xiàn)數(shù)據(jù)的分布式特征表示深度神經(jīng)網(wǎng)絡:含有多個隱層的神經(jīng)網(wǎng)絡基本概念深度學習:深度學習通過組合低層特征形成更加抽象的高層表示屬性深度學習:一種基于無監(jiān)督特征學習和特征層次結(jié)構(gòu)的學習方法可能的的名稱:深度學習特征學習無監(jiān)督特征學習基本概念深度學習:一種基于無監(jiān)督特征學習和特征層次結(jié)構(gòu)的學習方法基本深度學習的優(yōu)勢:能以更加緊湊簡潔的方式來表達比淺層網(wǎng)絡大得多的函數(shù)集合訓練深度學習的困難:(1)數(shù)據(jù)獲取問題考慮到深度網(wǎng)絡具有強大的表達能力,在不充足的數(shù)據(jù)上進行訓練將會導致過擬合(2)局部極值問題與梯度下降法有關(guān)基本概念深度學習的優(yōu)勢:基本概念深度學習本質(zhì):通過構(gòu)建多隱層的模型和海量訓練數(shù)據(jù)(可為無標簽數(shù)據(jù)),來學習更有用的特征,從而最終提升分類或預測的準確性。“深度模型”是手段,“特征學習”是目的。與淺層學習區(qū)別:1)強調(diào)了模型結(jié)構(gòu)的深度,通常有5-10多層的隱層節(jié)點;2)明確突出了特征學習的重要性,通過逐層特征變換,將樣本在原空間的特征表示變換到一個新特征空間,從而使分類或預測更加容易。與人工規(guī)則構(gòu)造特征的方法相比,利用大數(shù)據(jù)來學習特征,更能夠刻畫數(shù)據(jù)的豐富內(nèi)在信息。深度學習本質(zhì):通過構(gòu)建多隱層的模型和海量訓練數(shù)據(jù)(可為無標簽深度學習好處:可通過學習一種深層非線性網(wǎng)絡結(jié)構(gòu),實現(xiàn)復雜函數(shù)逼近,表征輸入數(shù)據(jù)分布式表示。深度學習好處:可通過學習一種深層非線性網(wǎng)絡結(jié)構(gòu),實現(xiàn)復雜函數(shù)深度學習vs.神經(jīng)網(wǎng)絡相同點:二者均采用分層結(jié)構(gòu),系統(tǒng)包括輸入層、隱層(多層)、輸出層組成的多層網(wǎng)絡,只有相鄰層節(jié)點之間有連接,同一層以及跨層節(jié)點之間相互無連接,每一層可以看作是一個logistic回歸模型。不同點:神經(jīng)網(wǎng)絡:采用BP算法調(diào)整參數(shù),即采用迭代算法來訓練整個網(wǎng)絡。隨機設定初值,計算當前網(wǎng)絡的輸出,然后根據(jù)當前輸出和樣本真實標簽之間的差去改變前面各層的參數(shù),直到收斂;深度學習:采用逐層訓練機制。采用該機制的原因在于如果采用BP機制,對于一個deepnetwork(7層以上),殘差傳播到最前面的層將變得很小,出現(xiàn)所謂的gradientdiffusion(梯度擴散)。深度學習vs.神經(jīng)網(wǎng)絡相同點:二者均采用分層結(jié)構(gòu),系統(tǒng)包神經(jīng)網(wǎng)絡的局限性:1)比較容易過擬合,參數(shù)比較難調(diào)整,而且需要不少技巧;2)訓練速度比較慢,在層次比較少(小于等于3)的情況下效果并不比其它方法更優(yōu);神經(jīng)網(wǎng)絡的局限性:深度學習訓練過程不采用BP算法的原因(1)反饋調(diào)整時,梯度越來越稀疏,從頂層越往下,誤差校正信號越來越??;(2)收斂易至局部最小,由于是采用隨機值初始化,當初值是遠離最優(yōu)區(qū)域時易導致這一情況;(3)BP算法需要有標簽數(shù)據(jù)來訓練,但大部分數(shù)據(jù)是無標簽的;深度學習訓練過程不采用BP算法的原因深度學習訓練過程第一步:采用自下而上的無監(jiān)督學習1)逐層構(gòu)建單層神經(jīng)元。2)每層采用wake-sleep算法進行調(diào)優(yōu)。每次僅調(diào)整一層,逐層調(diào)整。這個過程可以看作是一個featurelearning的過程,是和傳統(tǒng)神經(jīng)網(wǎng)絡區(qū)別最大的部分。深度學習訓練過程第一步:采用自下而上的無監(jiān)督學習深度學習訓練過程wake-sleep算法:1)wake階段:認知過程,通過下層的輸入特征(Input)和向上的認知(Encoder)權(quán)重產(chǎn)生每一層的抽象表示(Code),再通過當前的生成(Decoder)權(quán)重產(chǎn)生一個重建信息(Reconstruction),計算輸入特征和重建信息殘差,使用梯度下降修改層間的下行生成(Decoder)權(quán)重。也就是“如果現(xiàn)實跟我想象的不一樣,改變我的生成權(quán)重使得我想象的東西變得與現(xiàn)實一樣”。2)sleep階段:生成過程,通過上層概念(Code)和向下的生成(Decoder)權(quán)重,生成下層的狀態(tài),再利用認知(Encoder)權(quán)重產(chǎn)生一個抽象景象。利用初始上層概念和新建抽象景象的殘差,利用梯度下降修改層間向上的認知(Encoder)權(quán)重。也就是“如果夢中的景象不是我腦中的相應概念,改變我的認知權(quán)重使得這種景象在我看來就是這個概念”。深度學習訓練過程wake-sleep算法:深度學習訓練過程EncoderDecoderInputImageClasslabele.g.FeaturesEncoderDecoderFeaturesEncoderDecoderAutoEncoder:深度學習訓練過程EncoderDecoderInputIm深度學習訓練過程第二步:自頂向下的監(jiān)督學習

這一步是在第一步學習獲得各層參數(shù)進的基礎上,在最頂?shù)木幋a層添加一個分類器(例如羅杰斯特回歸、SVM等),而后通過帶標簽數(shù)據(jù)的監(jiān)督學習,利用梯度下降法去微調(diào)整個網(wǎng)絡參數(shù)。深度學習的第一步實質(zhì)上是一個網(wǎng)絡參數(shù)初始化過程。區(qū)別于傳統(tǒng)神經(jīng)網(wǎng)絡初值隨機初始化,深度學習模型是通過無監(jiān)督學習輸入數(shù)據(jù)的結(jié)構(gòu)得到的,因而這個初值更接近全局最優(yōu),從而能夠取得更好的效果。深度學習訓練過程第二步:自頂向下的監(jiān)督學習

點擊添加文本點擊添加文本點擊添加文本點擊添加文本深度神經(jīng)網(wǎng)絡的演化神經(jīng)網(wǎng)絡深度神經(jīng)網(wǎng)絡多層感知器點擊添加文本點擊添加文本點擊添加文本點擊添加文本深度神經(jīng)網(wǎng)絡在有了多層感知器之后為什么還需要提出深度學習?在有了多層感知器之后為什么還需要提出深度學習?1)強調(diào)了模型結(jié)構(gòu)的深度,通常有5-10多層的隱層節(jié)點;2)明確突出了特征學習的重要性,通過逐層特征變換,將樣本在原空間的特征表示變換到一個新特征空間,從而使分類或預測更加容易。與人工規(guī)則構(gòu)造特征的方法相比,利用大數(shù)據(jù)來學習特征,更能夠刻畫數(shù)據(jù)的豐富內(nèi)在信息。3)可通過學習一種深層非線性網(wǎng)絡結(jié)構(gòu),實現(xiàn)復雜函數(shù)逼近,表征輸入數(shù)據(jù)分布式表示。深度神經(jīng)網(wǎng)絡1)強調(diào)了模型結(jié)構(gòu)的深度,通常有5-10多層的隱層節(jié)點;深度深度神經(jīng)網(wǎng)絡神經(jīng)網(wǎng)絡:深度學習:深度神經(jīng)網(wǎng)絡神經(jīng)網(wǎng)絡:1)自動編碼器(AutoEncoder)2)稀疏自編碼(SparseAutoEncoder)3)卷積神經(jīng)網(wǎng)絡4)限制玻爾茲曼機降噪自動編碼器(DenoisingAutoEncoders);深度玻爾茲曼機(DeepBoltzmannMachine);卷積波爾茲曼機;深度學習的具體模型與方法1)自動編碼器(AutoEncoder)深度學習的具體模RBM(受限玻爾茲曼機)RBM受限玻爾茲曼機(RestrictedBoltzmannMachine,簡稱RBM)是由Hinton和Sejnowski于1986年提出的一種生成式隨機神經(jīng)網(wǎng)絡(generativestochasticneuralnetwork),該網(wǎng)絡由一些可見單元(visibleunit,對應可見變量,亦即數(shù)據(jù)樣本)和一些隱藏單元(hiddenunit,對應隱藏變量)構(gòu)成,可見變量和隱藏變量都是二元變量,亦即其狀態(tài)取{0,1}。整個網(wǎng)絡是一個二部圖,只有可見單元和隱藏單元之間才會存在邊,可見單元之間以及隱藏單元之間都不會有邊連接基本概念受限玻爾茲曼機

上圖所示的RBM含有9個可見單元(構(gòu)成一個向量v)和3個隱藏單元(構(gòu)成一個向量h),W是一個9*3的矩陣,表示可見單元和隱藏單元之間的邊的權(quán)重。受限玻爾茲曼機(RestrictedBoltzmannMRBM是玻爾茲曼機(Boltzmannmachine,BM)的一種特殊拓撲結(jié)構(gòu)。BM的原理起源于統(tǒng)計物理學,是一種基于能量函數(shù)的建模方法,能夠描述變量之間的高階相互作用,BM的學習算法較復雜,但所建模型和學習算法有比較完備的物理解釋和嚴格的數(shù)理統(tǒng)計理論作基礎。BM是一種對稱耦合的隨機反饋型二值單元神經(jīng)網(wǎng)絡,由可見層和多個隱層組成,網(wǎng)絡節(jié)點分為可見單元(visibleunit)和隱單元(hiddenunit),用可見單元和隱單元來表達隨機網(wǎng)絡與隨機環(huán)境的學習模型,通過權(quán)值表達單元之間的相關(guān)性。BM是由Hinton和Sejnowski提出的一種隨機遞歸神經(jīng)網(wǎng)絡,可以看做是一種隨機生成的Hopfield網(wǎng)絡,是能夠通過學習數(shù)據(jù)的固有內(nèi)在表示解決困難學習問題的最早的人工神經(jīng)網(wǎng)絡之一,因樣本分布遵循玻爾茲曼分布而命名為BM。BM由二值神經(jīng)元構(gòu)成,每個神經(jīng)元只取1或0這兩種狀態(tài),狀態(tài)1代表該神經(jīng)元處于接通狀態(tài),狀態(tài)0代表該神經(jīng)元處于斷開狀態(tài)?;靖拍頡BM是玻爾茲曼機(Boltzmannmachine,BM正如名字所提示的那樣,受限玻爾茲曼機是一種玻爾茲曼機的變體,但限定模型必須為二分圖。模型中包含對應輸入?yún)?shù)的輸入(可見)單元和對應訓練結(jié)果的隱單元,圖中的每條邊必須連接一個可見單元和一個隱單元。(與此相對,“無限制”玻爾茲曼機包含隱單元間的邊,使之成為遞歸神經(jīng)網(wǎng)絡。)這一限定使得相比一般玻爾茲曼機更高效的訓練算法成為可能,特別是基于梯度的對比分歧(contrastivedivergence)算法?;靖拍钍芟薏柶澛鼨C正如名字所提示的那樣,受限玻爾茲曼機是一種玻爾茲曼機的變體,“預訓練”方法——限制玻爾茲曼機(RBM)RBM網(wǎng)絡共有2層,其中第一層稱為可視層,一般來說是輸入層,另一層是隱含層,也就是我們一般指的特征提取層。是可視層與隱藏層之間的權(quán)重矩陣,是可視節(jié)點的偏移量,是隱藏節(jié)點的偏移量。隱含層可視層“預訓練”方法——限制玻爾茲曼機(RBM)RBM網(wǎng)絡共有2層“預訓練”方法——限制玻爾茲曼機(RBM)“預訓練”方法——限制玻爾茲曼機(RBM)RBM的學習目標-最大化似然(Maximizinglikelihood)RBM是一種基于能量(Energy-based)的模型,其可見變量v和隱藏變量h的聯(lián)合配置(jointconfiguration)的能量為:其中θ是RBM的參數(shù){W,a,b},W為可見單元和隱藏單元之間的邊的權(quán)重,b和a分別為可見單元和隱藏單元的偏置(bias)。有了v和h的聯(lián)合配置的能量之后,我們就可以得到v和h的聯(lián)合概率:其中Z(θ)是歸一化因子,也稱為配分函數(shù)(partitionfunction)。RBM的學習目標-最大化似然(類似于可能性)(1)(2)RBM的學習目標-最大化似然(Maximizinglike根據(jù)式子(1),可以將(2)式寫為:我們希望最大化觀測數(shù)據(jù)的似然函數(shù)P(v),P(v)可由式(3)求P(v,h)對h的邊緣分布得到:通過最大化P(v)來得到RBM的參數(shù),最大化P(v)等同于最大化log(P(v))=L(θ):(3)(4)(5)根據(jù)式子(1),可以將(2)式寫為:(3)(4)(5)定義能量函數(shù):聯(lián)合概率分布:Z為歸一化系數(shù),其定義為:輸入層的邊緣概率為:限制玻爾茲曼機(RBM)定義能量函數(shù):聯(lián)合概率分布:限制玻爾茲曼機(RBM)可以通過隨機梯度下降(stochasticgradientdescent)來最大化L(θ),首先需要求得L(θ)對W的導數(shù)經(jīng)過簡化可以得到:(7)中后項等于(6)(7)(8)可以通過隨機梯度下降(stochasticgradient可以通過隨機梯度下降(stichasticgradientdescent)來最大化L(θ),首先需要求得L(θ)對W的導數(shù)經(jīng)過簡化可以得到:(7)中后項等于式子(7)中的前者比較好計算,只需要求vihj在全部數(shù)據(jù)集上的平均值即可,而后者涉及到v,h的全部2|v|+|h|種組合,計算量非常大(基本不可解)。(6)(7)(8)可以通過隨機梯度下降(stichasticgradient計算方法計算方法網(wǎng)絡學習的目的是最大可能的擬合輸入數(shù)據(jù),即最大化。Hinton提出了一種快速算法,稱作contrastivedivergence(對比分歧)算法。這種算法只需迭代k次,就可以獲得對模型的估計,而通常k等于1.CD算法在開始是用訓練數(shù)據(jù)去初始化可見層,然后用條件分布計算隱層;然后,再根據(jù)隱層,同樣,用條件分布來計算可見層。這樣產(chǎn)生的結(jié)果是對輸入的一個重構(gòu)。根據(jù)CD算法:其中,是學習率,是樣本數(shù)據(jù)的期望,是重構(gòu)后可視層數(shù)據(jù)的期望網(wǎng)絡學習的目的是最大可能的擬合輸入數(shù)據(jù),即最大化RBM的學習方法-CD(ContrastiveDivergence,對比散列)網(wǎng)絡學習的目的是最大可能的擬合輸入數(shù)據(jù),即最大化。Hinton提出了一種快速算法,稱作contrastivedivergence(對比分歧,又稱對比散列)算法。這種算法只需迭代k次,就可以獲得對模型的估計,而通常k等于1.CD算法在開始是用訓練數(shù)據(jù)去初始化可見層,然后用條件分布計算隱層;然后,再根據(jù)隱層,同樣,用條件分布來計算可見層。這樣產(chǎn)生的結(jié)果是對輸入的一個重構(gòu)。根據(jù)CD算法:權(quán)值更新RBM的學習方法-CD(ContrastiveDivergRBM的學習方法-CD(ContrastiveDivergence,對比散列)首先根據(jù)數(shù)據(jù)v來得到h的狀態(tài),然后通過h來重構(gòu)(Reconstruct)可見向量v1,然后再根據(jù)v1來生成新的隱藏向量h1。因為RBM的特殊結(jié)構(gòu)(層內(nèi)無連接,層間有連接),所以在給定v時,各個隱藏單元hj的激活狀態(tài)之間是相互獨立的,反之,在給定h時,各個可見單元的激活狀態(tài)vi也是相互獨立的,可得到:RBM的學習方法-CD(ContrastiveDiverg深度置信網(wǎng)絡BDNppt課件抽樣概率重構(gòu)的可見向量v1和隱藏向量h1就是對P(v,h)的一次抽樣,多次抽樣得到的樣本集合可以看做是對P(v,h)的一種近似,使得式子(7)的計算變得可行。抽樣概率RBM的權(quán)重的學習算法:取一個樣本數(shù)據(jù),把可見變量的狀態(tài)設置為這個樣本數(shù)據(jù)。隨機初始化W。根據(jù)式(9)的第一個公式來更新隱藏變量的狀態(tài),亦即hj以P(hj=1|v)的概率設置為狀態(tài)1,否則為0。然后對于每個邊vihj,計算Pdata(vihj)=vi*hj(vi和hj的狀態(tài)都是取{0,1})。根據(jù)h的狀態(tài)和式(9)的第二個公式來重構(gòu)v1,并且根據(jù)v1和式(9)的第一個公式來求得h1,計算Pmodel(v1ih1j)=v1i*h1j。更新邊vihj的權(quán)重Wij為Wij=Wij+alpha*(Pdata(vihj)-Pmodel(v1ih1j))。取下一個數(shù)據(jù)樣本,重復1-4的步驟。以上過程迭代K次。RBM的權(quán)重的學習算法:DBN(深度信念網(wǎng))DBN深度學習深度學習的實質(zhì),是通過構(gòu)建具有很多隱層的機器學習模型組合低層特征形成更加抽象的高層來表示屬性類別或特征,以發(fā)現(xiàn)數(shù)據(jù)的分布式特征。其動機在于建立模擬人腦進行分析學習的神經(jīng)網(wǎng)絡,模仿人腦的機制來解釋數(shù)據(jù),例如圖像,聲音和文本。因此,“深度模型”是手段,“特征學習”是目的。深度學習的核心思路如下:①無監(jiān)督學習用于每一層網(wǎng)絡的pre-train;②每次用無監(jiān)督學習只訓練一層,將其訓練結(jié)果作為其高一層的輸入;③用自頂而下的監(jiān)督算法去調(diào)整所有層。深度學習深度學習的實質(zhì),是通過構(gòu)建具有很多隱層的機器學習模型

逐層迭代推斷FineTurningDeepBeliefNetworksdatahiddenvariableshiddenvariableshiddenvariableslikelihoodWpriorv1h1v0h0v2h2逐層迭代推斷DeepBeliefNetworks深度信念網(wǎng)絡(DeepBeliefNetwork,DBN)由GeoffreyHinton在2006年提出。它是一種生成模型,通過訓練其神經(jīng)元間的權(quán)重,我們可以讓整個神經(jīng)網(wǎng)絡按照最大概率來生成訓練數(shù)據(jù)。我們不僅可以使用DBN識別特征、分類數(shù)據(jù),還可以用它來生成數(shù)據(jù)。右→面的圖片展示的是用DBN識別手寫數(shù)字:圖1用深度信念網(wǎng)絡識別手寫數(shù)字。圖中右下角是待識別數(shù)字的黑白位圖,它的上方有三層隱性神經(jīng)元。每一個黑色矩形代表一層神經(jīng)元,白點代表處于開啟狀態(tài)的神經(jīng)元,黑色代表處于關(guān)閉狀態(tài)的神經(jīng)元。注意頂層神經(jīng)元的左下方即使別結(jié)果,與畫面左上角的對應表比對,得知這個DBN正確地識別了該數(shù)字。DBNs是一個概率生成模型,與傳統(tǒng)的判別模型的神經(jīng)網(wǎng)絡相對,生成模型是建立一個觀察數(shù)據(jù)和標簽之間的聯(lián)合分布,對P(Observation|Label)和P(Label|Observation)都做了評估,而判別模型僅僅而已評估了后者,也就是P(Label|Observation)。對于在深度神經(jīng)網(wǎng)絡應用傳統(tǒng)的BP算法的時候,DBNs遇到了以下問題:(1)需要為訓練提供一個有標簽的樣本集;(2)學習過程較慢;(3)不適當?shù)膮?shù)選擇會導致學習收斂于局部最優(yōu)解。深度信念網(wǎng)絡(DeepBeliefNetwork,DDBN是由多層RBM組成的一個神經(jīng)網(wǎng)絡,它既可以被看作一個生成模型,也可以當作判別模型,其訓練過程是:使用非監(jiān)督貪婪逐層方法去預訓練獲得權(quán)值。DBN由多層神經(jīng)元構(gòu)成,這些神經(jīng)元又分為顯性神經(jīng)元和隱性神經(jīng)元(以下簡稱顯元和隱元)。顯元用于接受輸入,隱元用于提取特征。因此隱元也有個別名,叫特征檢測器(featuredetectors)。最頂上的兩層間的連接是無向的,組成聯(lián)合內(nèi)存(associativememory)。較低的其他層之間有連接上下的有向連接。最底層代表了數(shù)據(jù)向量(datavectors),每一個神經(jīng)元代表數(shù)據(jù)向量的一維。DBN的組成元件是受限玻爾茲曼機(RestrictedBoltzmannMachines,RBM)。訓練DBN的過程是一層一層地進行的。在每一層中,用數(shù)據(jù)向量來推斷隱層,再把這一隱層當作下一層(高一層)的數(shù)據(jù)向量。這些網(wǎng)絡被“限制”為一個可視層和一個隱層,層間存在連接,但層內(nèi)的單元間不存在連接。隱層單元被訓練去捕捉在可視層表現(xiàn)出來的高階數(shù)據(jù)的相關(guān)性。不考慮最頂構(gòu)成一個聯(lián)想記憶(associativememory)的兩層,一個DBN的連接是通過自頂向下的生成權(quán)值來指導確定的,RBMs就像一個建筑塊一樣,相比傳統(tǒng)和深度分層的sigmoid信念網(wǎng)絡,它能易于連接權(quán)值的學習。DBN是由多層RBM組成的一個神經(jīng)網(wǎng)絡,它既可以被看作不同的稱呼:DeepBeliefNetwork,DBN深度信念網(wǎng)絡;深度置信網(wǎng);深信度網(wǎng)絡;深信網(wǎng);多層置信網(wǎng)絡;......不同的稱呼:DBN神經(jīng)網(wǎng)絡模型

使用BP算法單獨訓練每一層的時候,我們發(fā)現(xiàn),必須丟掉網(wǎng)絡的第三層,才能級聯(lián)自聯(lián)想神經(jīng)網(wǎng)絡。然而,有一種更好的神經(jīng)網(wǎng)絡模型,這就是受限玻爾茲曼機。使用層疊波爾茲曼機組成深度神經(jīng)網(wǎng)絡的方法,在深度學習里被稱作深度信念網(wǎng)絡DBN,這是目前非常流行的方法。

經(jīng)典的DBN網(wǎng)絡結(jié)構(gòu)是由若干層RBM和一層BP組成的一種深層神經(jīng)網(wǎng)絡,結(jié)構(gòu)如下圖所示.:DBN在訓練模型的過程中主要分為兩步:第1步:分別單獨無監(jiān)督地訓練每一層RBM網(wǎng)絡,確保特征向量映射到不同特征空間時,都盡可能多地保留特征信息;第2步:在DBN的最后一層設置BP網(wǎng)絡,接收RBM的輸出特征向量作為它的輸入特征向量,有監(jiān)督地訓練實體關(guān)系分類器.而且每一層RBM網(wǎng)絡只能確保自身層內(nèi)的權(quán)值對該層特征向量映射達到最優(yōu),并不是對整個DBN的特征向量映射達到最優(yōu),所以反向傳播網(wǎng)絡還將錯誤信息自頂向下傳播至每一層RBM,微調(diào)整個DBN網(wǎng)絡.RBM網(wǎng)絡訓練模型的過程可以看作對一個深層BP網(wǎng)絡權(quán)值參數(shù)的初始化,使DBN克服了BP網(wǎng)絡因隨機初始化權(quán)值參數(shù)而容易陷入局部最優(yōu)和訓練時間長的缺點.DBN神經(jīng)網(wǎng)絡模型使用BP算法單獨訓練每一層的時候,我上述訓練模型中第一步在深度學習的術(shù)語叫做預訓練,第二步叫做微調(diào)。最上面有監(jiān)督學習的那一層,根據(jù)具體的應用領(lǐng)域可以換成任何分類器模型,而不必是BP網(wǎng)絡。上述訓練模型中第一步在深度學習的術(shù)語叫做預訓練,第二步叫做微多層置信網(wǎng)絡結(jié)構(gòu)首先,你需要用原始輸入x(k)訓練第一個自編碼器,它能夠?qū)W習得到原始輸入的一階特征表示h^{(1)(k)}。多層置信網(wǎng)絡結(jié)構(gòu)首先,你需要用原始輸入x(k)訓練第一個多層置信網(wǎng)絡結(jié)構(gòu)接著,你需要把原始數(shù)據(jù)輸入到上述訓練好的稀疏自編碼器中,對于每一個輸入x(k),都可以得到它對應的一階特征表示h^{(1)(k)}。然后你再用這些一階特征作為另一個稀疏自編碼器的輸入,使用它們來學習二階特征h^{(2)(k)}。多層置信網(wǎng)絡結(jié)構(gòu)接著,你需要把原始數(shù)據(jù)輸入到上述訓練好的稀疏多層置信網(wǎng)絡結(jié)構(gòu)再把一階特征輸入到剛訓練好的第二層稀疏自編碼器中,得到每個h^{(1)(k)}對應的二階特征激活值h^{(2)(k)}。接下來,你可以把這些二階特征作為softmax分類器的輸入,訓練得到一個能將二階特征映射到數(shù)字標簽的模型。多層置信網(wǎng)絡結(jié)構(gòu)再把一階特征輸入到剛訓練好的第二層稀疏自編碼多層置信網(wǎng)絡結(jié)構(gòu)最終,你可以將這三層結(jié)合起來構(gòu)建一個包含兩個隱藏層和一個最終softmax分類器層的棧式自編碼網(wǎng)絡,這個網(wǎng)絡能夠如你所愿地對MNIST數(shù)字進行分類。多層置信網(wǎng)絡結(jié)構(gòu)最終,你可以將這三層結(jié)合起來構(gòu)建一個包含兩個多層置信網(wǎng)絡結(jié)構(gòu)DBNs由多個限制玻爾茲曼機(RestrictedBoltzmannMachines)層組成,一個典型的神經(jīng)網(wǎng)絡類型如圖所示。多層置信網(wǎng)絡結(jié)構(gòu)DBNs由多個限制玻爾茲曼機(Restri多層置信網(wǎng)絡結(jié)構(gòu)·最終在構(gòu)筑好整個網(wǎng)絡后,相當于進行了一次完整的無監(jiān)督學習?!ぴ诖_定了網(wǎng)絡的權(quán)值后,再次根據(jù)樣本,以BP神經(jīng)網(wǎng)絡的算法,進行一次有監(jiān)督的學習過程。這一過程被稱為多層置信網(wǎng)絡的微調(diào)。多層置信網(wǎng)絡結(jié)構(gòu)·最終在構(gòu)筑好整個網(wǎng)絡后,相當于進行了一次完總結(jié)與展望總結(jié)與展望多層置信網(wǎng)的應用DBNs的靈活性使得它的拓展比較容易。一個拓展就是卷積DBNs(ConvolutionalDeepBeliefNetworks(CDBNs))。DBNs并沒有考慮到圖像的2維結(jié)構(gòu)信息,因為輸入是簡單的從一個圖像矩陣一維向量化的。而CDBNs就是考慮到了這個問題,它利用鄰域像素的空域關(guān)系,通過一個稱為卷積RBMs的模型區(qū)達到生成模型的變換不變性,而且可以容易得變換到高維圖像。DBNs并沒有明確地處理對觀察變量的時間聯(lián)系的學習上,雖然目前已經(jīng)有這方面的研究,例如堆疊時間RBMs,以此為推廣,有序列學習的dubbedtemporalconvolutionmachines,這種序列學習的應用,給語音信號處理問題帶來了一個讓人激動的未來研究方向。多層置信網(wǎng)的應用DBNs的靈活性使得它的拓展比較容易。ConvolutionalDBNonfaceimagespixelsedgesobjectparts(combinationofedges)objectmodelsNote:Sparsityimportantfortheseresults.ConvolutionalDBNonfaceimag對于一個特定的框架,多少維的輸入它可以表現(xiàn)得較優(yōu)?對捕捉短時或者長時間的時間依賴,哪種架構(gòu)才是有效的?如何對于一個給定的深度學習架構(gòu),融合多種感知的信息?如何分辨和利用學習獲得的中、高層特征語義知識?有什么正確的機理可以去增強一個給定的深度學習架構(gòu),以改進其魯棒性和對變形及數(shù)據(jù)丟失的不變性?模型方面是否有其他更為有效且有理論依據(jù)的深度模型學習算法?是否存在更有效的可并行訓練算法?未來需解決的問題:對于一個特定的框架,多少維的輸入它可以表現(xiàn)得較優(yōu)?未來需解決相關(guān)程序軟件及鏈接DeepLearningwebsite

–/MatlabcodeforR-ICAunsupervisedalgorithm–/Python-basedlearninglibrary–/C++codeforConvNets

–/software/theano/LushlearninglibrarywhichincludesConvNets–/~quocle/rica_release.ziplearninglibrarythatsupportsneuralnettraining–http://www.torch.chCodeusedtogeneratedemoforthistutorialRanzato–/~fergus/tutorials/deep_learning_cvpr12/相關(guān)程序軟件及鏈接DeepLearningwebsite相關(guān)文獻推薦Arel,I.,Rose,D.C.andKarnowski,T.P.Deepmachinelearning-anewfrontierinartificialintelligenceresearch.ComputationalIntelligenceMagazine,IEEE,vol.5,pp.13-18,2010.深度學習的介紹性文章,可做入門材料。Bengio,Y.LearningdeeparchitectureforAI.FoundationsandTrendsinMachineLearning,vol.2,pp:1-127,2009.(深度學習的經(jīng)典論文,集大成者??梢援斪魃疃葘W習的學習材料)Hinton,G.E.Learningmultiplelayersofrepresentation.TrendsinCognitiveSciences,vol.11,pp.428-434,2007.不需要太多數(shù)學知識即可掌握DBNs的關(guān)鍵算法。這篇論文語言淺白,篇幅短小,適合初學者理解DBNs。Hinton,G.E.Torecognizeshapes,firstlearntogenerateimages.TechnicalReportUTMLTR2006-003,UniversityofToronto,2006.(多倫多大學的內(nèi)部講義。推薦閱讀)Hinton,G.E.,Osindero,S.andTeh,Y.W.Afastlearningalgorithmfordeepbeliefnets.NeuralComputation,vol18,pp.1527-1554,2006。(DBNs的開山之作,意義非凡,一定要好好看幾遍。在這篇論文中,作者詳細闡述了DBNs的方方面面,論證了其和一組層疊的RBMs的等價性,然后引出DBNs的學習算法)Hinton,G.E.andSalakhutdinov,R.R.Reducingthedimensionalityofdatawithneuralnetworks.Science,vol.313,no.5786,pp.504–507,2006.(Science上的大作。這篇論文可是算作一個里程碑,它標志著深度學習總算有了高效的可行的算法。)Hinton,G.E.Apracticalguidetotrainingrestrictedboltzmannmachines.TechnicalReportUTMLTR2010-003,UniversityofToronto,2010.(一份訓練RBM的最佳實踐)Erhan,D.,Manzagol,P.A.,Bengio,Y.,Bengio,S.andVincent,P.Thedifficultyoftrainingdeeparchitecturesandtheeffectofunsupervisedpretraining.InTheTwelfthInternationalConferenceonArtificialIntelligenceandSt

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論