深度學習的基本理論與方法_第1頁
深度學習的基本理論與方法_第2頁
深度學習的基本理論與方法_第3頁
深度學習的基本理論與方法_第4頁
深度學習的基本理論與方法_第5頁
已閱讀5頁,還剩28頁未讀 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

深度學習的基本理論與方法王雪2014年12月24日目錄概述深度學習簡介深度學習的訓練過程深度學習的具體模型及方法深度學習的應(yīng)用總結(jié)展望參考文獻概述2012年6月,《紐約時報》披露了GoogleBrain項目,吸引了公眾的廣泛關(guān)注。這個項目是由著名的斯坦福大學機器學習教授AndrewNg和在大規(guī)模計算機系統(tǒng)方面的世界頂尖專家JeffDean共同主導,用16000個CPUCore的并行計算平臺訓練一種稱為“深層神經(jīng)網(wǎng)絡(luò)”(DNN,DeepNeuralNetworks)的機器學習模型,在語音識別和圖像識別等領(lǐng)域獲得了巨大的成功。2012年11月,微軟在中國天津的一次活動上公開演示了一個全自動的同聲傳譯系統(tǒng),講演者用英文演講,后臺的計算機一氣呵成自動完成語音識別、英中機器翻譯,以及中文語音合成,效果非常流暢。據(jù)報道,后面支撐的關(guān)鍵技術(shù)也是DNN,或者深度學習(DL,DeepLearning)。2013年1月,在百度的年會上,創(chuàng)始人兼CEO李彥宏高調(diào)宣布要成立百度研究院,其中第一個重點方向就是深度學習,并為此而成立InstituteofDeepLearning(IDL)。這是百度成立十多年以來第一次成立研究院。2013年4月,《麻省理工學院技術(shù)評論》雜志將深度學習列為2013年十大突破性技術(shù)(BreakthroughTechnology)之首。百度首席科學家吳恩達2014年12月19日表示,百度在深度學習領(lǐng)域的發(fā)展已經(jīng)超過了谷歌與蘋果,如果這項技術(shù)真具有劃時代的革命意義,那么百度就此開啟并且引領(lǐng)了語音2.0時代,也即是人工智能時代的一個重要分支,改變搜索,更改變交互。概述深度學習:一種基于無監(jiān)督特征學習和特征層次結(jié)構(gòu)的學習方法可能的的名稱:深度學習特征學習無監(jiān)督特征學習概述良好的特征表達,對最終算法的準確性起了非常關(guān)鍵的作用;識別系統(tǒng)主要的計算和測試工作耗時主要集中在特征提取部分;特征的樣式目前一般都是人工設(shè)計的,靠人工提取特征;手工選取特征費時費力,需要啟發(fā)式專業(yè)知識,很大程度上靠經(jīng)驗和運氣;是否能自動地學習特征?Low-levelsensingPre-processingFeatureextract.FeatureselectionInference:prediction,recognition傳統(tǒng)的模式識別方法:深度學習就是用來解答這個問題的??!淺層學習淺層學習——人工神經(jīng)網(wǎng)絡(luò)(BP算法)

采用BP算法調(diào)整參數(shù),即采用迭代算法來訓練整個網(wǎng)絡(luò)。隨機設(shè)定初值,計算當前網(wǎng)絡(luò)的輸出,然后根據(jù)當前輸出和樣本真實標簽之間的差去改變前面各層的參數(shù),直到收斂,整體是一個梯度下降法。神經(jīng)網(wǎng)絡(luò)神經(jīng)網(wǎng)絡(luò)的局限性:1)比較容易過擬合,參數(shù)比較難調(diào)整,而且需要不少技巧;2)訓練速度比較慢,在層次比較少(小于等于3)的情況下效果并不比其它方法更優(yōu);深度學習2006年,加拿大多倫多大學教授、機器學習領(lǐng)域的泰斗GeoffreyHinton在《科學》上發(fā)表論文提出深度學習主要觀點:1)多隱層的人工神經(jīng)網(wǎng)絡(luò)具有優(yōu)異的特征學習能力,學習得到的特征對數(shù)據(jù)有更本質(zhì)的刻畫,從而有利于可視化或分類;2)深度神經(jīng)網(wǎng)絡(luò)在訓練上的難度,可以通過“逐層初始化”(layer-wisepre-training)來有效克服,逐層初始化可通過無監(jiān)督學習實現(xiàn)的。采用逐層訓練機制的原因在于如果采用BP機制,對于一個deepnetwork(7層以上),殘差傳播到最前面的層將變得很小,出現(xiàn)所謂的gradientdiffusion(梯度擴散)。深度學習本質(zhì):通過構(gòu)建多隱層的模型和海量訓練數(shù)據(jù)(可為無標簽數(shù)據(jù)),來學習更有用的特征,從而最終提升分類或預(yù)測的準確性。“深度模型”是手段,“特征學習”是目的。與淺層學習區(qū)別:1)強調(diào)了模型結(jié)構(gòu)的深度,通常有5-10多層的隱層節(jié)點;2)明確突出了特征學習的重要性,通過逐層特征變換,將樣本在原空間的特征表示變換到一個新特征空間,從而使分類或預(yù)測更加容易。與人工規(guī)則構(gòu)造特征的方法相比,利用大數(shù)據(jù)來學習特征,更能夠刻畫數(shù)據(jù)的豐富內(nèi)在信息。深度學習好處:可通過學習一種深層非線性網(wǎng)絡(luò)結(jié)構(gòu),實現(xiàn)復(fù)雜函數(shù)逼近,表征輸入數(shù)據(jù)分布式表示。深度學習訓練過程不采用BP算法的原因(1)反饋調(diào)整時,梯度越來越稀疏,從頂層越往下,誤差校正信號越來越??;(2)收斂易至局部最小,由于是采用隨機值初始化,當初值是遠離最優(yōu)區(qū)域時易導致這一情況;(3)BP算法需要有標簽數(shù)據(jù)來訓練,但大部分數(shù)據(jù)是無標簽的;深度學習訓練過程第一步:采用自下而上的無監(jiān)督學習1)逐層構(gòu)建單層神經(jīng)元。2)每層采用wake-sleep算法進行調(diào)優(yōu)。每次僅調(diào)整一層,逐層調(diào)整。這個過程可以看作是一個featurelearning的過程,是和傳統(tǒng)神經(jīng)網(wǎng)絡(luò)區(qū)別最大的部分。深度學習訓練過程wake-sleep算法:1)wake階段:認知過程,通過下層的輸入特征(Input)和向上的認知(Encoder)權(quán)重產(chǎn)生每一層的抽象表示(Code),再通過當前的生成(Decoder)權(quán)重產(chǎn)生一個重建信息(Reconstruction),計算輸入特征和重建信息殘差,使用梯度下降修改層間的下行生成(Decoder)權(quán)重。也就是“如果現(xiàn)實跟我想象的不一樣,改變我的生成權(quán)重使得我想象的東西變得與現(xiàn)實一樣”。2)sleep階段:生成過程,通過上層概念(Code)和向下的生成(Decoder)權(quán)重,生成下層的狀態(tài),再利用認知(Encoder)權(quán)重產(chǎn)生一個抽象景象。利用初始上層概念和新建抽象景象的殘差,利用梯度下降修改層間向上的認知(Encoder)權(quán)重。也就是“如果夢中的景象不是我腦中的相應(yīng)概念,改變我的認知權(quán)重使得這種景象在我看來就是這個概念”。深度學習訓練過程EncoderDecoderInputImageClasslabel.FeaturesEncoderDecoderFeaturesEncoderDecoder深度學習訓練過程第二步:自頂向下的監(jiān)督學習

這一步是在第一步學習獲得各層參數(shù)進的基礎(chǔ)上,在最頂?shù)木幋a層添加一個分類器(例如羅杰斯特回歸、SVM等),而后通過帶標簽數(shù)據(jù)的監(jiān)督學習,利用梯度下降法去微調(diào)整個網(wǎng)絡(luò)參數(shù)。深度學習的第一步實質(zhì)上是一個網(wǎng)絡(luò)參數(shù)初始化過程。區(qū)別于傳統(tǒng)神經(jīng)網(wǎng)絡(luò)初值隨機初始化,深度學習模型是通過無監(jiān)督學習輸入數(shù)據(jù)的結(jié)構(gòu)得到的,因而這個初值更接近全局最優(yōu),從而能夠取得更好的效果。深度學習的具體模型及方法自動編碼器(AutoEncoder)

稀疏自動編碼器(SparseAutoEncoder)

降噪自動編碼器(DenoisingAutoEncoders)深度置信網(wǎng)絡(luò)(DeepBeliefNetworks—DBN)卷積神經(jīng)網(wǎng)絡(luò)(CNNs)深度學習的具體模型及方法自動編碼器(AutoEncoder)這個AutoEncoder還不能用來分類數(shù)據(jù),因為它還沒有學習如何去連結(jié)一個輸入和一個類。它只是學會了如何去重構(gòu)或者復(fù)現(xiàn)它的輸入而已。在AutoEncoder的最頂?shù)木幋a層添加一個分類器(例如羅杰斯特回歸、SVM等),然后通過標準的多層神經(jīng)網(wǎng)絡(luò)的監(jiān)督訓練方法(梯度下降法)去訓練。我們需要將最后層的特征code輸入到最后的分類器,通過有標簽樣本,通過監(jiān)督學習進行微調(diào),這也分兩種深度學習的具體模型及方法自動編碼器(AutoEncoder)只調(diào)整分類器(黑色部分)通過有標簽樣本,微調(diào)整個系統(tǒng):(如果有足夠多的數(shù)據(jù),這個是最好的。end-to-endlearning端對端學習)

在研究中可以發(fā)現(xiàn),如果在原有的特征中加入這些自動學習得到的特征可以大大提高精確度,甚至在分類問題中比目前最好的分類算法效果還要好!深度學習的具體模型及方法稀疏自動編碼器(SparseAutoEncoder)在AutoEncoder的基礎(chǔ)上加上L1的Regularity限制(L1主要是約束每一層中的節(jié)點中大部分都要為0,只有少數(shù)不為0,這就是Sparse名字的來源)在計算機視覺中,稀疏性的約束是使得學習到的表達更有意義的一種重要約束;深度學習中要優(yōu)化的參數(shù)非常多,如果不加入稀疏性的約束往往會使得學習到的權(quán)重矩陣為單位矩陣,這樣就失去了深度的意義

深度學習的具體模型及方法降噪自動編碼器(DenoisingAutoEncoders)

在自動編碼器的基礎(chǔ)上,對訓練數(shù)據(jù)加入噪聲,自動編碼器必須學習去去除這種噪聲而獲得真正的沒有被噪聲污染過的輸入。因此,這就迫使編碼器去學習輸入信號的更加魯棒的表達,這也是它的泛化能力比一般編碼器強的原因。深度學習的具體模型及方法限制波爾茲曼機(RestrictedBoltzmannMachine)玻爾茲曼機(Boltzmannmachine)本質(zhì)上是一種能量模型。限制條件是在給定可見層或者隱層中的其中一層后,另一層的單元彼此獨立。定義:假設(shè)有一個二部圖,同層節(jié)點之間沒有鏈接,一層是可視層,即輸入數(shù)據(jù)層(v),一層是隱藏層(h),如果假設(shè)所有的節(jié)點都是隨機二值(0,1值)變量節(jié)點,同時假設(shè)全概率分布p(v,h)滿足Boltzmann分布,我們稱這個模型RestrictedBoltzmannMachine(RBM)。深度學習的具體模型及方法限制波爾茲曼機(RestrictedBoltzmannMachine)輸入v的時候,通過p(h|v)可以得到隱藏層h,而得到隱藏層h之后,通過p(v|h)又能得到可視層,通過調(diào)整參數(shù),我們就是要使得從隱藏層得到的可視層v1與原來的可視層v如果一樣,那么得到的隱藏層就是可視層另外一種表達,因此隱藏層可以作為可視層輸入數(shù)據(jù)的特征用近似極大似然隨機梯度下降算法訓練BM,通常用蒙特卡羅馬爾可夫鏈(Monte-CarloMarkovchain,MCMC)方法來得到模型樣例限制波爾茲曼機(RBM)是一種深度學習模型。深度學習的具體模型及方法深度置信網(wǎng)絡(luò)(DeepBeliefNetworks)-DBNDeepBeliefNetworks是在靠近可視層的部分使用貝葉斯信念網(wǎng)絡(luò)(即有向圖模型),而在最遠離可視層的部分使用RestrictedBoltzmannMachine的模型。深度學習的具體模型及方法卷積波爾茲曼機(ConvolutionalRBM)

CRBM是為識別二維圖像信息而特殊設(shè)計的一個多層感知器。卷積限制玻爾茲曼機的基本思想是使用卷積的方式使得圖像各個像素共享一組濾波器

濾波器卷積(權(quán)重矩陣、偏置頂共享)特點:特征提取是不用考慮局部特征位置;減少了要學習的參數(shù)數(shù)量最大池采樣:對圖像進行分塊,取每一塊的最大(或平均值),實現(xiàn)了平移不變性深度學習的具體模型及方法卷積神經(jīng)網(wǎng)絡(luò)(ConvolutionalNeuralNetworks)—CNNsCNN的優(yōu)點:1、避免了顯式的特征抽取,而隱式地從訓練數(shù)據(jù)中進行學習;2、同一特征映射面上的神經(jīng)元權(quán)值相同,從而網(wǎng)絡(luò)可以并行學習,降低了網(wǎng)絡(luò)的復(fù)雜性;3、采用時間或者空間的子采樣結(jié)構(gòu),可以獲得某種程度的位移、尺度、形變魯棒性;3、輸入信息和網(wǎng)絡(luò)拓撲結(jié)構(gòu)能很好的吻合,在語音識別和圖像處理方面有著獨特優(yōu)勢,成為這兩方面的研究熱點。卷積限制玻爾茲曼機逐層疊加,就得到卷積神經(jīng)網(wǎng)絡(luò)

深度學習的應(yīng)用語音識別語音識別系統(tǒng)長期以來,在描述每個建模單元的統(tǒng)計概率模型時,大多采用的是混合高斯模型(GMM)。微軟研究院語音識別專家鄧立和俞棟從2009年開始和深度學習專家GeofferyHinton合作。2011年微軟宣布基于深度神經(jīng)網(wǎng)絡(luò)的識別系統(tǒng)取得成果并推出產(chǎn)品,徹底改變了語音識別原有的技術(shù)框架。百度在實踐中發(fā)現(xiàn),采用DNN進行聲音建模的語音識別系統(tǒng)相比于傳統(tǒng)的GMM語音識別系統(tǒng)而言,相對誤識別率能降低25%。最終在2012年11月,百度上線了第一款基于DNN的語音搜索系統(tǒng),成為最早采用DNN技術(shù)進行商業(yè)語音服務(wù)的公司之一。Google也采用了深層神經(jīng)網(wǎng)絡(luò)進行聲音建模,是最早突破深層神經(jīng)網(wǎng)絡(luò)工業(yè)化應(yīng)用的企業(yè)之一。深度學習的應(yīng)用圖像識別圖像是深度學習最早嘗試的應(yīng)用領(lǐng)域。早在1989年,YannLeCun(現(xiàn)紐約大學教授)和他的同事們就發(fā)表了卷積神經(jīng)網(wǎng)絡(luò)(ConvolutionNeuralNetworks,簡稱CNN)的工作。但是在大規(guī)模的圖像上效果不好所以沒有得到計算機視覺領(lǐng)域的足夠重視。直到2012年10月GeoffreyHinton和他的兩個學生在著名的ImageNet問題上用更深的CNN取得世界最好結(jié)果,使得圖像識別大踏步前進。在Hinton的模型里,輸入就是圖像的像素,沒有用到任何的人工特征。百度在2012年底將深度學習技術(shù)成功應(yīng)用于自然圖像OCR識別和人臉識別等問題,并推出相應(yīng)的桌面和移動搜索產(chǎn)品,2013年,深度學習模型被成功應(yīng)用于一般圖片的識別和理解。深度學習的應(yīng)用深度學習在圖像識別上的應(yīng)用空間金字塔(SpatialPyramids)深度學習的應(yīng)用深度學習在圖像識別上的應(yīng)用總結(jié)深度學習是關(guān)于自動學習要建模的數(shù)據(jù)的潛在(隱含)分布的多層(復(fù)雜)表達的算法。換句話來說,深度學習算法自動的提取分類需要的低層次或者高層次特征。高層次特征,一是指該特征可以分級(層次)地依賴其他特征,例如:對于機器視覺,深度學習算法從原始圖像去學習得到它的一個低層次表達,例如邊緣檢測器,小波濾波器等,然后在這些低層次表達的基礎(chǔ)上再建立表達,例如這些低層次表達的線性或者非線性組合,然后重復(fù)這個過程,最后得到一個高層次的表達。Deeplearning能夠得到更好地表示數(shù)據(jù)的feature,同時由于模型的層次、參數(shù)很多,capacity足夠,因此,模型有能力表示大規(guī)模數(shù)據(jù),所以對于圖像、語音這種特征不明顯(需要手工設(shè)計且很多沒有直觀物理含義)的問題,能夠在大規(guī)模訓練數(shù)據(jù)上取得更好的效果。此外,從模式識別特征和分類器的角度,deeplearning框架將feature和分類器結(jié)合到一個框架中,用數(shù)據(jù)去學習feature,在使用中減少了手工設(shè)計feature的巨大工作量(這是目前工業(yè)界工程師付出努力最多的方面),因此,不僅僅效果可以更好,而且,使用起來也有很多方便之處總結(jié)目前的關(guān)注點還是從機器學習的領(lǐng)域借鑒一些可以在深度學習使用的方法,特別是降維領(lǐng)域。稀疏編

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論