版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)
文檔簡介
模式識別與機器學(xué)習
PatternRecognition&MachineLearning第六講人工神經(jīng)網(wǎng)絡(luò)與深度學(xué)習本節(jié)學(xué)習目標掌握感知機模型和學(xué)習算法掌握多層神經(jīng)網(wǎng)絡(luò)模型和誤差反向傳播訓(xùn)練算法理解深度神經(jīng)網(wǎng)絡(luò)的典型挑戰(zhàn)問題能夠熟練運用至少兩種常見的深度神經(jīng)網(wǎng)絡(luò)第六講人工神經(jīng)網(wǎng)絡(luò)與深度學(xué)習
第六講人工神經(jīng)網(wǎng)絡(luò)與深度學(xué)習目錄感知機多層神經(jīng)網(wǎng)絡(luò)深層神經(jīng)網(wǎng)絡(luò)常用的深度神經(jīng)網(wǎng)絡(luò)第六講人工神經(jīng)網(wǎng)絡(luò)與深度學(xué)習
第六講人工神經(jīng)網(wǎng)絡(luò)與深度學(xué)習感知機(perceptron)
感知機
第六講人工神經(jīng)網(wǎng)絡(luò)與深度學(xué)習
感知機
第六講人工神經(jīng)網(wǎng)絡(luò)與深度學(xué)習感知機
第六講人工神經(jīng)網(wǎng)絡(luò)與深度學(xué)習目錄感知機多層神經(jīng)網(wǎng)絡(luò)神經(jīng)元多層神經(jīng)網(wǎng)絡(luò)反向傳播算法深層神經(jīng)網(wǎng)絡(luò)常用的深度神經(jīng)網(wǎng)絡(luò)第六講人工神經(jīng)網(wǎng)絡(luò)與深度學(xué)習
第六講人工神經(jīng)網(wǎng)絡(luò)與深度學(xué)習神經(jīng)元
多層神經(jīng)網(wǎng)絡(luò)
第六講人工神經(jīng)網(wǎng)絡(luò)與深度學(xué)習
多層神經(jīng)網(wǎng)絡(luò)
第六講人工神經(jīng)網(wǎng)絡(luò)與深度學(xué)習多層神經(jīng)網(wǎng)絡(luò)圖8?3三種激活函數(shù)的形態(tài)
第六講人工神經(jīng)網(wǎng)絡(luò)與深度學(xué)習多層神經(jīng)網(wǎng)絡(luò)多層神經(jīng)網(wǎng)絡(luò)
第六講人工神經(jīng)網(wǎng)絡(luò)與深度學(xué)習反向傳播算法
多層神經(jīng)網(wǎng)絡(luò)
第六講人工神經(jīng)網(wǎng)絡(luò)與深度學(xué)習
多層神經(jīng)網(wǎng)絡(luò)
第六講人工神經(jīng)網(wǎng)絡(luò)與深度學(xué)習
多層神經(jīng)網(wǎng)絡(luò)
第六講人工神經(jīng)網(wǎng)絡(luò)與深度學(xué)習
多層神經(jīng)網(wǎng)絡(luò)
第六講人工神經(jīng)網(wǎng)絡(luò)與深度學(xué)習多層神經(jīng)網(wǎng)絡(luò)
第六講人工神經(jīng)網(wǎng)絡(luò)與深度學(xué)習目錄感知機多層神經(jīng)網(wǎng)絡(luò)深層神經(jīng)網(wǎng)絡(luò)淺層與深度神經(jīng)網(wǎng)絡(luò)過擬合問題局部極值問題梯度消失問題常用的深度神經(jīng)網(wǎng)絡(luò)第六講人工神經(jīng)網(wǎng)絡(luò)與深度學(xué)習
第六講人工神經(jīng)網(wǎng)絡(luò)與深度學(xué)習淺層與深度神經(jīng)網(wǎng)絡(luò)thin+tall深度神經(jīng)網(wǎng)絡(luò)fat+shortVS
第六講人工神經(jīng)網(wǎng)絡(luò)與深度學(xué)習過擬合問題過擬合問題是深度神經(jīng)網(wǎng)絡(luò)的主要挑戰(zhàn)之一,其主要原因是模型過于復(fù)雜或者訓(xùn)練集過少。深度神經(jīng)網(wǎng)絡(luò)
第六講人工神經(jīng)網(wǎng)絡(luò)與深度學(xué)習早停止是指在模型訓(xùn)練過程中,可通過觀察驗證集上的預(yù)測性能來決定何時停止對參數(shù)的優(yōu)化,從而可以在產(chǎn)生過擬合之前停止訓(xùn)練。權(quán)重衰減是指為了防止得到的權(quán)重參數(shù)過大,而采取的在每步迭代中少量減少權(quán)重的方法。丟棄法是指在深度神經(jīng)網(wǎng)絡(luò)的訓(xùn)練過程中,對于網(wǎng)絡(luò)中的神經(jīng)單元(包括節(jié)點以及與之連接的邊),按照一定的概率將其暫時從網(wǎng)絡(luò)中丟棄。深度神經(jīng)網(wǎng)絡(luò)(a)丟棄情況(b)丟棄后剩余的網(wǎng)絡(luò)結(jié)構(gòu)
第六講人工神經(jīng)網(wǎng)絡(luò)與深度學(xué)習局部極值問題隨機梯度下降使用隨機梯度下降代替批量的梯度下降,不僅使得優(yōu)化速度得以提升,而且還可以提高模型的整體性能。性能提高的主要原因是每次用于迭代的隨機梯度并非梯度的確切方向,使得模型容易跳出局部極值點?;趧恿康奶荻认陆祷趧恿康奶荻认陆档淖龇ㄊ敲看芜M行梯度下降時,在當前梯度方向上增加歷史梯度的加權(quán)值。動量方法能夠使得梯度更新的大小可以根據(jù)上一步的梯度進行適當調(diào)節(jié),增加跳出局部極值點的幾率。多次隨機初始化假設(shè)損失函數(shù)的曲面具有許多局部極值點,多次隨機初始化待優(yōu)化的參數(shù)值可以增加離開局部極值的可能性,有助于找到更好的解。深度神經(jīng)網(wǎng)絡(luò)
第六講人工神經(jīng)網(wǎng)絡(luò)與深度學(xué)習梯度消失問題當使用反向傳播方法求解梯度時,使用sigmoid函數(shù)或者tanh函數(shù)作為激活函數(shù)的深度神經(jīng)網(wǎng)絡(luò)隨著網(wǎng)絡(luò)層數(shù)的增加,從輸出層到網(wǎng)絡(luò)最初幾層的反向傳播得到的梯度的幅度值可能會急劇增大(梯度爆炸)或減?。ㄌ荻认В?。深度神經(jīng)網(wǎng)絡(luò)
第六講人工神經(jīng)網(wǎng)絡(luò)與深度學(xué)習逐層與訓(xùn)練結(jié)合微調(diào)深度神經(jīng)網(wǎng)絡(luò)圖8?6逐層預(yù)訓(xùn)練加微調(diào)方法示意圖(黑色方框表示需要微調(diào)的結(jié)構(gòu)。)
圖8?7預(yù)訓(xùn)練網(wǎng)絡(luò)中的自編碼器結(jié)構(gòu)示意圖
第六講人工神經(jīng)網(wǎng)絡(luò)與深度學(xué)習使用合適的激活函數(shù)深度神經(jīng)網(wǎng)絡(luò)圖8?8ReLU函數(shù)圖8?9ReLU函數(shù)的變體
第六講人工神經(jīng)網(wǎng)絡(luò)與深度學(xué)習使用合適的激活函數(shù)深度神經(jīng)網(wǎng)絡(luò)圖8?10Maxout函數(shù)原理示意圖(將每層的節(jié)點分組,并選擇組內(nèi)最大數(shù)的作為下一層的輸入。)
第六講人工神經(jīng)網(wǎng)絡(luò)與深度學(xué)習目錄感知機多層神經(jīng)網(wǎng)絡(luò)深層神經(jīng)網(wǎng)絡(luò)常用的深度神經(jīng)網(wǎng)絡(luò)自編碼網(wǎng)絡(luò)深度玻爾茲曼機深度信念網(wǎng)絡(luò)卷積神經(jīng)網(wǎng)絡(luò)循環(huán)神經(jīng)網(wǎng)絡(luò)Transformer第六講人工神經(jīng)網(wǎng)絡(luò)與深度學(xué)習
第六講人工神經(jīng)網(wǎng)絡(luò)與深度學(xué)習自編碼網(wǎng)絡(luò)常用的深度神經(jīng)網(wǎng)絡(luò)圖8?11自編碼器架構(gòu)
第六講人工神經(jīng)網(wǎng)絡(luò)與深度學(xué)習深度玻爾茲曼機常用的深度神經(jīng)網(wǎng)絡(luò)
第六講人工神經(jīng)網(wǎng)絡(luò)與深度學(xué)習波爾茲曼機常用的深度神經(jīng)網(wǎng)絡(luò)圖8?12玻爾茲曼機示例
第六講人工神經(jīng)網(wǎng)絡(luò)與深度學(xué)習受限波爾茲曼機常用的深度神經(jīng)網(wǎng)絡(luò)圖8?13受限玻爾茲曼機示例
第六講人工神經(jīng)網(wǎng)絡(luò)與深度學(xué)習
常用的深度神經(jīng)網(wǎng)絡(luò)
第六講人工神經(jīng)網(wǎng)絡(luò)與深度學(xué)習深度波爾茲曼機常用的深度神經(jīng)網(wǎng)絡(luò)圖8?13深度玻爾茲曼機示例
第六講人工神經(jīng)網(wǎng)絡(luò)與深度學(xué)習深度信念網(wǎng)絡(luò)常用的深度神經(jīng)網(wǎng)絡(luò)圖8?14深度信念網(wǎng)絡(luò)示例
第六講人工神經(jīng)網(wǎng)絡(luò)與深度學(xué)習卷積神經(jīng)網(wǎng)絡(luò)(convolutionalneuralnetworks)三條性質(zhì):某些模式總是存在于局部區(qū)域相同的模式會出現(xiàn)在多個區(qū)域?qū)D像中的像素做下采樣(subsampling)不會影響物體的識別常用的深度神經(jīng)網(wǎng)絡(luò)
第六講人工神經(jīng)網(wǎng)絡(luò)與深度學(xué)習卷積層與一般的全連接層不同,不再使用權(quán)重矩陣表示所有神經(jīng)元節(jié)點在相鄰網(wǎng)絡(luò)層之間的一一對應(yīng)關(guān)系,而是使用多組共享參數(shù)來構(gòu)建兩個網(wǎng)絡(luò)層之間的聯(lián)系。在卷積網(wǎng)絡(luò)中,共享參數(shù)叫做卷積核。常用的深度神經(jīng)網(wǎng)絡(luò)圖8?18卷積操作的原理示意圖
第六講人工神經(jīng)網(wǎng)絡(luò)與深度學(xué)習循環(huán)神經(jīng)網(wǎng)絡(luò)(recurrentneuralnetworks,RNN)
常用的深度神經(jīng)網(wǎng)絡(luò)
第六講人工神經(jīng)網(wǎng)絡(luò)與深度學(xué)習常用的深度神經(jīng)網(wǎng)絡(luò)圖8?20使用seq2seq模型進行機器翻譯示意圖
第六講人工神經(jīng)網(wǎng)絡(luò)與深度學(xué)習
常用的深度神經(jīng)網(wǎng)絡(luò)
第六講人工神經(jīng)網(wǎng)絡(luò)與深度學(xué)習LSTM通過引入一個變量存儲“記憶”,增強了RNN把握長距離關(guān)系的能力,也可以緩解梯度消失問題。除了LSTM之外,門循環(huán)單元(gatedrecurrentunit,GRU)也是RNN的變體,它進一步簡化了LSTM的結(jié)構(gòu),能使用更少的參數(shù)達到近似的性能。常用的深度神經(jīng)網(wǎng)絡(luò)
第六講人工神經(jīng)網(wǎng)絡(luò)與深度學(xué)習TransformerTransformer是一種seq2seq模型,其核心思想是使用注意力(attention)和自注意力(self-attention)機制。注意力機制用于捕獲輸入序列和輸出序列之間的關(guān)系。自注意力機制用于捕獲文本序列內(nèi)部的依賴關(guān)系,構(gòu)建對原始文本的語義表示。其中的自注意力是一種特殊的注意力模型。常用的深度神經(jīng)網(wǎng)絡(luò)
第六講人工神經(jīng)網(wǎng)絡(luò)與深度學(xué)習
常用的深度神經(jīng)網(wǎng)絡(luò)
第六講人工神經(jīng)網(wǎng)絡(luò)與深度學(xué)習常用的深度神經(jīng)網(wǎng)絡(luò)圖8?22有注意力機制的seq2seq模型進行機器翻譯的示意圖
第六講人工神經(jīng)網(wǎng)絡(luò)與深度學(xué)習自注意力所謂自注意力,是指輸入序列中的每個單詞(或字)都要和該序列中的所有單詞(或字)進行注意力計算。好處是學(xué)習序列內(nèi)部的單詞(或字)的依賴關(guān)系,捕獲句子的內(nèi)部結(jié)構(gòu)。Transformer編碼網(wǎng)絡(luò)包含“多頭自注意力(multi-headself-attention)”子結(jié)構(gòu),用于表示多組不同的注意力分配機制。這個子結(jié)構(gòu)的實現(xiàn)方式是同時構(gòu)建多個自注意力單元,并在最后匯總。Transformer也用到了在解碼器中增加“遮蔽的多頭自注意力(maskedmulti-headself-attention)”和在輸入層增加位置編碼等技巧常用的深度神經(jīng)網(wǎng)絡(luò)
第六講人工神經(jīng)網(wǎng)絡(luò)與深度學(xué)習NovikoffABJ.OnConvergenceProofsforPerceptrons[C]//ProceedingsofSymposiumonMathematicalTheoryofAutomata,Brooklyn,N.Y.:PolytechnicPress,1962:615-622.RumelhartD,HintonG,WilliamsR.LearningRepresentationsbyBack-PropagatingErrors[J].Nature,1986,323(10):533–536.NgA.SparseAutoencoder[R/OL].Stanford,CA:StanfordUniversity,2011./~socherr/sparseAutoencoder_2011new.pdf.HornikK,StinchcombeM,WhiteH.MultilayerFeedforwardNetworksAreUniversalApproximators[J].NeuralNetworks,1989,2(5):359-366.SeideF,LiG,YuD.ConversationalSpeechTranscriptionUsingContext-DependentDeepNeuralNetworks[C/OL]//TwelfthAnnualConferenceofInternationalSpeechCommunicationAssociation.2011:437-440[2020-02-28]./archive/archive_papers/interspeech_2011/i11_0437.pdf.ZeilerMD,FergusR.VisualizingandUnderstandingConvolutionalNetworks[C]//ComputerVision--ECCV2014.Switzerland:SpringerInternationalPublishing,2014:818-833.SrivastavaN,HintonG,KrizhevskyA,etal.Dropout:ASimpleWaytoPreventNeuralNetworksfromOverfitting[J].JournalofMachineLearningResearch,2014,15(1):1929-1958.AckleyDH,HintonGE,SejnowskiTJ.ALearningAlgorithmforBoltzmannMachines[J].CognitiveScience,1985,9(1):147-169.參考文獻
第六講人工神經(jīng)網(wǎng)絡(luò)與深度學(xué)習SmolenskyP.InformationProcessinginDynamicalSystems:FoundationsofHarmonyTheory[M]//ParallelDistributedProcessing:ExplorationsintheMicrostructureofCognition,Volume1:Foundations.Cambridge,MA:ABradfordBook,1986:194-281.HintonGE,OsinderoS,TehYW.AFastLearningAlgorithmforDeepBeliefNets[J].NeuralComputation,2006,18(7):1527-1554.LeCunY.GeneralizationandNetworkDesignStrategies[M]//ConnectionisminPerspective.Switzerland:Elsevier,1989,19:143-155.GoodfellowI,BengioY,CourvilleA.DeepLearning[M].Cambridge,MA:MITPre
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025屆高考專題復(fù)習:文言斷句指導(dǎo)課
- 離婚協(xié)議書(律師審閱)
- 胡同-北京西城區(qū)鴉兒胡同小學(xué)
- 部編版三年級語文《大青樹下的小學(xué)》課文
- 吉安縣2024年數(shù)學(xué)六上期末考試試題含解析
- 江蘇省常州市教科院附中2024-2025學(xué)年九年級上學(xué)期診斷物理試卷(9月份)
- 2024年新人教版七年級上冊數(shù)學(xué)教學(xué)課件 3.1 列代數(shù)式表示數(shù)量關(guān)系 第1課時 代數(shù)式
- 作文:這一次我沒有害怕
- 醫(yī)養(yǎng)結(jié)合-醫(yī)養(yǎng)結(jié)合
- 【課件】科學(xué)記數(shù)法(課件)人教版數(shù)學(xué)七年級上冊
- 投資固定收益合同范本
- 醫(yī)保政策培訓(xùn)知識普及課件
- 七年級上冊英語STARTER UNITS 1-3 單元測試卷(人教廣東版)
- 產(chǎn)品發(fā)布與上市管理制度
- 紅色教育現(xiàn)狀及發(fā)展趨勢分析(3篇模板)
- 2024版《供電營業(yè)規(guī)則》考試復(fù)習題庫大全-下(填空、簡答題)
- 2024年十八項醫(yī)療核心制度考試題附有答案
- 2024年03月上海博物館2024年公開招考6名輔助人員(非事業(yè)編)筆試歷年典型考題及考點研判與答案解析
- 2024-2030年少兒圖書行業(yè)市場發(fā)展分析及發(fā)展前景與投資機會研究報告
- 第五章運動中的中樞控制
- 代謝重編程對免疫療法反應(yīng)的影響
評論
0/150
提交評論