《人工智能控制技術(shù)》 課件 chap4-深度強(qiáng)化學(xué)習(xí)_第1頁
《人工智能控制技術(shù)》 課件 chap4-深度強(qiáng)化學(xué)習(xí)_第2頁
《人工智能控制技術(shù)》 課件 chap4-深度強(qiáng)化學(xué)習(xí)_第3頁
《人工智能控制技術(shù)》 課件 chap4-深度強(qiáng)化學(xué)習(xí)_第4頁
《人工智能控制技術(shù)》 課件 chap4-深度強(qiáng)化學(xué)習(xí)_第5頁
已閱讀5頁,還剩59頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

《人工智能控制技術(shù)》深度強(qiáng)化學(xué)習(xí)深度強(qiáng)化學(xué)習(xí)概述深度學(xué)習(xí)和強(qiáng)化學(xué)習(xí)是目前機(jī)器學(xué)習(xí)領(lǐng)域內(nèi)比較熱門的兩個(gè)分支,深度學(xué)習(xí)是通過堆疊多層網(wǎng)絡(luò)結(jié)構(gòu)和非線性變換方法,組合低層特征,實(shí)現(xiàn)對輸入數(shù)據(jù)的分級表達(dá);強(qiáng)化學(xué)習(xí)不是通過直接監(jiān)督信號指導(dǎo)智能體的動作,而是智能體通過不斷試錯與環(huán)境進(jìn)行交互從而最大化的獲得獎勵回報(bào)。深度強(qiáng)化學(xué)習(xí)是將兩者結(jié)合,利用深度學(xué)習(xí)的感知和強(qiáng)化學(xué)習(xí)的決策,初步形成從輸入原始數(shù)據(jù)到輸出動作控制的完整智能系統(tǒng)。深度強(qiáng)化學(xué)習(xí)概述近年來,深度學(xué)習(xí)作為機(jī)器學(xué)習(xí)的一個(gè)重要研究領(lǐng)城,得到了長足的發(fā)展,為強(qiáng)化學(xué)習(xí)提供了強(qiáng)有力的支撐,使強(qiáng)化學(xué)習(xí)能夠解決以前難以處理的問題,例如學(xué)習(xí)直接從像素玩視頻游戲等。深度強(qiáng)化學(xué)習(xí)是深度學(xué)習(xí)和強(qiáng)化學(xué)習(xí)相結(jié)合的產(chǎn)物,有望徹底改變?nèi)斯ぶ悄茴I(lǐng)域的主要目標(biāo)即生成完全自主的智能體,這些智能體通過與環(huán)境的相互作用來學(xué)習(xí)最優(yōu)行為。深度強(qiáng)化學(xué)習(xí)概述一直以來,從可以感知和響應(yīng)其所處環(huán)境的機(jī)器人到基于軟件與自然語言和多媒體進(jìn)行交互的智能體,建立一個(gè)能夠有效學(xué)習(xí)且實(shí)時(shí)響應(yīng)的人工智能系統(tǒng)是人工智能研究的重要方向,深度強(qiáng)化學(xué)習(xí)的出現(xiàn)使我們向這樣的目標(biāo)邁出了更近的一步。深度強(qiáng)化學(xué)習(xí)算法還有許多其他方面的應(yīng)用,比如機(jī)器人控制技術(shù),允許我們直接從現(xiàn)實(shí)世界中的攝像機(jī)輸人來學(xué)習(xí)對機(jī)器人進(jìn)行控制和操作的策略等。深度強(qiáng)化學(xué)習(xí)發(fā)展歷程早期的深度學(xué)習(xí)與強(qiáng)化學(xué)習(xí)結(jié)合解決決策問題,主要思路是利用深度神經(jīng)網(wǎng)絡(luò)對高維度輸入數(shù)據(jù)降維。蘭格(Lange)將深度學(xué)習(xí)中的自動編碼器模型應(yīng)用于強(qiáng)化學(xué)習(xí)算法中,提出深度自動編碼器(DAE)。里德米勒(Riedmiller)使用多層感知器近似表示Q值函數(shù),并提出神經(jīng)擬合Q迭代算法(NFQ)。阿布塔西(Abtahi)用深度信念網(wǎng)絡(luò)(DBN)作為強(qiáng)化學(xué)習(xí)的函數(shù)逼近器。蘭格(Lange)提出了基于視覺感知的深度擬合Q學(xué)習(xí)算法(DFQ)。深度強(qiáng)化學(xué)習(xí)發(fā)展歷程DeepMind團(tuán)隊(duì)的杰出工作讓深度強(qiáng)化學(xué)習(xí)稱為人工智能領(lǐng)域研究熱點(diǎn)。明(Mnih)等將深度學(xué)習(xí)中的卷積神經(jīng)網(wǎng)絡(luò)模型和強(qiáng)化學(xué)習(xí)中的Q學(xué)習(xí)算法結(jié)合,提出了深度Q網(wǎng)(DQN)。DeepMind團(tuán)隊(duì),將卷積神經(jīng)網(wǎng)絡(luò)、策略梯度和蒙特卡洛樹搜索相結(jié)合開發(fā)出了AlphaGo圍棋算法。哈塞爾特(Hasselt)把雙重Q學(xué)習(xí)算法與深度神經(jīng)網(wǎng)絡(luò)結(jié)合,提出了雙重深度Q網(wǎng)絡(luò)(DDQN)。紹爾(Schaul)把優(yōu)先級采用與深度強(qiáng)化學(xué)習(xí)結(jié)合,提出了基于優(yōu)先級采樣的深度強(qiáng)化學(xué)習(xí)算法。深度強(qiáng)化學(xué)習(xí)發(fā)展歷程馬哈德萬(Lakshminarayanan)將動態(tài)跳幀法與深度Q網(wǎng)絡(luò)結(jié)合,提出了一種基于跳幀的深度Q網(wǎng)絡(luò)算法?;艨速囂兀℉ochreiter)和施米德胡貝(Schmidhuber)提出一種長短期記憶網(wǎng)絡(luò)(LSTM)。和蔡(Cho)等提出的門限循環(huán)神經(jīng)單元(GRU)。納拉辛漢(Narasimhan)等提出了一種深度循環(huán)Q網(wǎng)絡(luò)(DRQN)在文本游戲類表現(xiàn)出色。豪斯克希特(Hausknecht)為了解決部分可觀測的馬爾可夫決策過程(POMDP)問題,提出了基于循環(huán)神經(jīng)網(wǎng)絡(luò)的深度循環(huán)Q學(xué)習(xí)算法,深度強(qiáng)化學(xué)習(xí)發(fā)展歷程由于深度強(qiáng)化學(xué)習(xí)處理的數(shù)據(jù)維數(shù)較高以及需要的迭代次數(shù)較多來獲取最優(yōu)解,所以需要大量訓(xùn)練時(shí)間。學(xué)者們提出的異步深度強(qiáng)化學(xué)習(xí)(ADRL)和基于經(jīng)驗(yàn)重放機(jī)制的行動者-評論家(ACER)方法可以以更少的時(shí)間代價(jià)獲得更高的效率、穩(wěn)定性和更優(yōu)的性能,在實(shí)際應(yīng)用中也取得了更好的表現(xiàn)。深度強(qiáng)化學(xué)習(xí)基本學(xué)習(xí)思想深度強(qiáng)化學(xué)習(xí)是一種端對端的感知與控制系統(tǒng),具有很強(qiáng)的通用性,學(xué)習(xí)過程可以描述為:在每個(gè)時(shí)刻智能體與環(huán)境交互實(shí)現(xiàn)高維觀察,利用深度學(xué)習(xí)方法感知觀察,得到抽象具體的狀態(tài)特征表示;根據(jù)預(yù)期回報(bào)評價(jià)各種動作的價(jià)值函數(shù),通過某種策略將當(dāng)前狀態(tài)映射為相應(yīng)的動作;環(huán)境對此動作做出反應(yīng),并得到下一個(gè)觀察。依次循環(huán),直到得到最優(yōu)策略,深度強(qiáng)化學(xué)習(xí)原理如圖所示。深度強(qiáng)化學(xué)習(xí)原理框圖深度強(qiáng)化學(xué)習(xí)基本學(xué)習(xí)思想深度強(qiáng)化學(xué)習(xí)方法主要有兩類:一類是基于值函數(shù)的深度強(qiáng)化學(xué)習(xí)方法,另一類時(shí)基于策略梯度的深度強(qiáng)化學(xué)習(xí)方法。典型的基于值函數(shù)法的深度強(qiáng)化學(xué)習(xí)方法是深度Q網(wǎng)絡(luò)算法(DQN)和雙重深度Q網(wǎng)絡(luò)算法(DDQN)。通過狀態(tài)-動作的值函數(shù)和回報(bào)評價(jià)動作?;谥岛瘮?shù)的深度強(qiáng)化學(xué)習(xí)方法主要問題是難以處理連續(xù)動作的問題,而基于策略梯度強(qiáng)化學(xué)習(xí)方法則可以處理連續(xù)動作問題。基于策略梯度深度強(qiáng)化學(xué)習(xí)法通過在策略空間中直接搜索最優(yōu)策略,不僅能夠處理連續(xù)動作空間任務(wù),還適合處理大規(guī)模狀態(tài)動作空間任務(wù)。采用策略梯度深度強(qiáng)化學(xué)習(xí)算法往往會導(dǎo)致一個(gè)高方差的估計(jì)器,為了平衡策略梯度法中梯度項(xiàng)的方差與偏差,廣義優(yōu)勢估計(jì)法(GAE)、置信區(qū)間策略優(yōu)化法(TRPO)等不斷被提出,取得了不錯的效果。深度強(qiáng)化學(xué)習(xí)基本學(xué)習(xí)思想深度強(qiáng)化學(xué)習(xí)算法由于能夠基于深度神經(jīng)網(wǎng)絡(luò)實(shí)現(xiàn)從感知到?jīng)Q策控制的端到端自學(xué)習(xí),因此具有非常廣闊的應(yīng)用前景,比如在機(jī)器人控制、自然語言處理和計(jì)算機(jī)視覺等領(lǐng)域都取得了一定的成功,它的發(fā)展也將進(jìn)一步推動人工智能的革命。其部分應(yīng)用領(lǐng)域包括:在電子游戲方面,其利用深度強(qiáng)化學(xué)習(xí)技術(shù)學(xué)習(xí)控制策略為游戲主體提供動作,在某些游戲方面其能力已經(jīng)超過了人類頂級水平。在機(jī)器人方面,利用機(jī)器人觀察到的周邊環(huán)境,通過深度強(qiáng)化學(xué)習(xí)模型給出具體的動作指令,控制機(jī)器人之間的競爭和協(xié)作。在無人車領(lǐng)域,根據(jù)汽車傳感器獲得的環(huán)境信息,利用深度強(qiáng)化學(xué)習(xí)技術(shù)對汽車的行為進(jìn)行控制,比如加速、剎車和轉(zhuǎn)向等。在無人機(jī)或無人機(jī)群方面,深度強(qiáng)化學(xué)習(xí)控制模型可以控制每個(gè)無人機(jī)對環(huán)境的自身行為響應(yīng),也可以為無人機(jī)群的協(xié)作任務(wù)提供自主控制策略。深度強(qiáng)化學(xué)習(xí)基本學(xué)習(xí)思想雖然深度強(qiáng)化學(xué)習(xí)在很多領(lǐng)域已經(jīng)取得了許多重要的理論和應(yīng)用成果,但是由于深度強(qiáng)化學(xué)習(xí)本身的復(fù)雜性,還需要在以下幾個(gè)方面繼續(xù)深入研究:有價(jià)值的離線轉(zhuǎn)移樣本的利用率不高。深度Q網(wǎng)絡(luò)是通過經(jīng)驗(yàn)回放機(jī)制實(shí)時(shí)處理模型訓(xùn)練過程中得到的轉(zhuǎn)移樣本,每次從樣本池中等概率抽取小批量樣本用于訓(xùn)練模型,因此無法區(qū)分樣本的差異性和重要程度,對有價(jià)值的樣本利用率不一定高。延遲回報(bào)和部分狀態(tài)可觀測。在一些較為復(fù)雜的場景中,普遍存在稀疏、延遲回報(bào)等問題,這些問題對學(xué)習(xí)效果極為重要,需要攻克。傳統(tǒng)的深度Q網(wǎng)絡(luò)缺乏應(yīng)對延遲回報(bào)和部分狀態(tài)可觀測的問題,在應(yīng)對戰(zhàn)略性任務(wù)時(shí)表現(xiàn)不理想。連續(xù)動作空間下算法性能和穩(wěn)定性不足。在連續(xù)動作空間決策任務(wù)中深度Q網(wǎng)絡(luò)等方法估計(jì)不夠精確,影響算法的穩(wěn)定性和精度。深度強(qiáng)化學(xué)習(xí)基本學(xué)習(xí)思想深度強(qiáng)化學(xué)未來可能向以下幾個(gè)方向發(fā)展:一是更加趨向于通過增量式、組合式學(xué)習(xí)方式訓(xùn)練深度強(qiáng)化學(xué)習(xí)模型;二是深度強(qiáng)化學(xué)習(xí)中不同的記憶單元功能更加完善,主動推理和認(rèn)知能力會極大提高;三是加強(qiáng)神經(jīng)科學(xué)對深度強(qiáng)化學(xué)習(xí)的啟發(fā),使智能體逐漸掌握類似人類大腦的記憶、規(guī)劃等能力;四是遷移學(xué)習(xí)更多的應(yīng)用到深度強(qiáng)化學(xué)習(xí)方法中,以緩解真實(shí)任務(wù)場景中訓(xùn)練數(shù)據(jù)缺乏的問題。深度卷積神經(jīng)網(wǎng)絡(luò)深度卷積神經(jīng)網(wǎng)絡(luò)概述卷積神經(jīng)網(wǎng)絡(luò)(CNN)與全連接神經(jīng)網(wǎng)絡(luò)不同,卷積神經(jīng)網(wǎng)絡(luò)的神經(jīng)元只與上一層中部分神經(jīng)元連接,并且不同的神經(jīng)元共享權(quán)值。其特點(diǎn)為:局部連接、權(quán)值共享和下采樣。卷積神經(jīng)網(wǎng)絡(luò)已經(jīng)廣泛應(yīng)用于圖像處理中,這主要是卷積神經(jīng)網(wǎng)絡(luò)與圖像數(shù)據(jù)特征類似:一個(gè)像素值與其附近的值通常是高度相關(guān)的,形成了比較容易被探測到的有區(qū)分性的局部特征,同樣的特征可能出現(xiàn)在不同區(qū)域,所以不同位置的像素可以共享權(quán)值。深度卷積神經(jīng)網(wǎng)絡(luò)概述卷積神經(jīng)網(wǎng)絡(luò)作為優(yōu)秀的特征提取器,允許從原始圖像數(shù)據(jù)中對特征表示進(jìn)行端到端的分類學(xué)習(xí),從而避免了人類手工提取特征的過程。當(dāng)處理復(fù)雜的大數(shù)據(jù)問題時(shí),深度卷積神經(jīng)網(wǎng)絡(luò)(DCNN)通常比淺層卷積神經(jīng)網(wǎng)絡(luò)具有優(yōu)勢。多層線性和非線性處理單元以分層方式疊加提供了在不同抽象級別學(xué)習(xí)復(fù)雜表示的能力。因此,在包含數(shù)百個(gè)類別的識別任務(wù)中,深度卷積神經(jīng)網(wǎng)絡(luò)比傳統(tǒng)機(jī)器學(xué)習(xí)模型有顯著的性能提升。深度架構(gòu)可以提高卷積神經(jīng)網(wǎng)絡(luò)的表示能力,這一發(fā)現(xiàn)提高了卷積神經(jīng)網(wǎng)絡(luò)在機(jī)器學(xué)習(xí)任務(wù)中的應(yīng)用。基本網(wǎng)絡(luò)類型卷積神經(jīng)網(wǎng)絡(luò)將輸入通過一系列的中間層變換為輸出,完成操作的中間量不再是神經(jīng)網(wǎng)絡(luò)中的向量,而是立體結(jié)構(gòu)。卷積運(yùn)算后要進(jìn)行池化。池化也稱為匯聚,在卷積層和激活層后進(jìn)行。池化是指將輸入數(shù)據(jù)通過下采樣在空間上進(jìn)行壓縮,降低特征圖的空間分辨率?;揪W(wǎng)絡(luò)類型深度卷積神經(jīng)網(wǎng)絡(luò)是一種多層前饋神經(jīng)網(wǎng)絡(luò),每一層使用一組卷積核進(jìn)行多次變換。卷積運(yùn)算有助于從局部相關(guān)的數(shù)據(jù)中提取有用的特征,將卷積核的輸出分配給非線性處理單元,這種非線性為不同的反應(yīng)產(chǎn)生了不同的激活模式,從而有助于學(xué)習(xí)圖像中的語義差異。深度卷積神經(jīng)網(wǎng)絡(luò)的重要屬性是分級學(xué)習(xí)、自動特征提取、多任務(wù)處理和權(quán)值共享,主要是由卷積層、激勵層、池化層以及完全連接層組成。目前廣泛應(yīng)用的深度卷積神經(jīng)網(wǎng)絡(luò)有AlexNet,VGGNet,NIN,GoogleLeNet和ResNet等。卷積運(yùn)算卷積運(yùn)算可以看作是濾波,例如一幅長寬和深度為32×32×3的圖像,假設(shè)卷積核為5×5×3,則卷積核在圖像上不斷移動,每個(gè)位置卷積核和圖像做點(diǎn)乘,得到的輸出稱為特征圖,這個(gè)過程稱為卷積運(yùn)算。如圖所示:假設(shè)有6個(gè)這樣的卷積核以相同的方式在輸入數(shù)據(jù)上滑動運(yùn)算,經(jīng)過激活函數(shù)后得到6個(gè)28×28×6的特征圖。卷積層將以這些特征圖重構(gòu)圖像,繼續(xù)做卷積運(yùn)算。卷積運(yùn)算深度卷積神經(jīng)網(wǎng)絡(luò)特點(diǎn)局部感知:面對低維數(shù)據(jù)時(shí),可以將神經(jīng)網(wǎng)絡(luò)的每一層都設(shè)計(jì)為全連接層。然而,當(dāng)處理圖像這種高維輸入時(shí),將神經(jīng)元連接到前一層中的所有神經(jīng)元是不切實(shí)際的。為此,可以將圖片劃分為多個(gè)區(qū)域進(jìn)行考慮,然后將每個(gè)神經(jīng)元連接到輸入的一個(gè)局部區(qū)域。這種連通性的范圍稱為神經(jīng)元的感受野,相當(dāng)于濾波器的大小。在處理空間維度和深度維度時(shí),必須強(qiáng)調(diào)這種不對稱性是很重要的,連接在空間中是局部的,但在輸入的整個(gè)深度上始終是全局的。深度卷積神經(jīng)網(wǎng)絡(luò)特點(diǎn)權(quán)值共享:神經(jīng)網(wǎng)絡(luò)層數(shù)的增加產(chǎn)生了大量的參數(shù),深度卷積神經(jīng)網(wǎng)絡(luò)采用權(quán)值共享機(jī)制來控制參數(shù)的數(shù)量。假設(shè)每個(gè)神經(jīng)元連接數(shù)據(jù)窗的權(quán)重是固定的,通過參數(shù)共享可以大大減少參數(shù)的數(shù)量。通俗的理解就是用相同的濾波器去掃一遍圖像,相當(dāng)于一次特征提取,從而得到一個(gè)特征映射,而濾波器的參數(shù)是固定的,因此圖像的每個(gè)不同區(qū)域是被同樣的濾波器掃的,所以權(quán)值是相同的,這就是所謂的權(quán)值共享。深度卷積神經(jīng)網(wǎng)絡(luò)特點(diǎn)池化:經(jīng)過局部感知和參數(shù)共享兩個(gè)步驟之后,原本訓(xùn)練過程中產(chǎn)生的權(quán)值數(shù)量會有一定程度的減少,然而特征維度會增加,導(dǎo)致過擬合現(xiàn)象的發(fā)生,因此在訓(xùn)練分類器之前需要對高維特征進(jìn)行降維,因此設(shè)計(jì)出池化操作,降低卷積神經(jīng)網(wǎng)絡(luò)的復(fù)雜性。與卷積層相同的是,池化層也是將神經(jīng)元通過前一層的寬度和高度維度連接到一個(gè)正方形大小的區(qū)域。卷積和池化的主要區(qū)別在于卷積層的神經(jīng)元在訓(xùn)練過程中可以學(xué)習(xí)到權(quán)重或偏差,而池化層中的神經(jīng)元在訓(xùn)練過程中并沒有學(xué)習(xí)到權(quán)重或偏差,而是對其輸入執(zhí)行某種固定功能,因此池化操作是一個(gè)非參數(shù)化的過程。最常見的池化操作是最大池化,將多個(gè)神經(jīng)元合并得到的結(jié)果是其中任何一個(gè)返回的最大值。因?yàn)榫矸e層的所有神經(jīng)元都識別相同的模式,所以最大池化操作的結(jié)果可以理解為該模式在池化區(qū)域是否被識別。深度卷積神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu)一般來講深度卷積神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu)與LeNet-5網(wǎng)絡(luò)圖類似,由輸入層、卷積層、采樣層、池化層、全連接層和輸出層構(gòu)成。卷積層是深度卷積神經(jīng)網(wǎng)絡(luò)的核心,同時(shí)也是與其他神經(jīng)網(wǎng)絡(luò)之間最大的區(qū)別之處,通常把卷積層和采樣層統(tǒng)一看成卷積層。LeNet-5的結(jié)構(gòu)圖深度卷積神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu)輸入層:輸入的圖片、文本等數(shù)據(jù)。以圖片為例,例如輸入層為一個(gè)32×32×3的矩陣,3代表RGB三通道。通常在輸入前會對原始樣本進(jìn)行數(shù)據(jù)預(yù)處理,如歸一化、去均值、白化等操作。卷積層:在卷積層中,每個(gè)神經(jīng)元只連接到前一層神經(jīng)元的一個(gè)小的局部子集,這是一個(gè)跨越高度和寬度維度的正方形區(qū)域。用來做卷積運(yùn)算的部分叫做卷積核,需要指定大小,例如5×5×3。在輸入矩陣中選取和卷積核大小一樣的數(shù)據(jù),進(jìn)行卷積運(yùn)算,也就是求對應(yīng)位置的乘積和作為輸出,因此可以將輸出看作輸入的另一種形式,為W^TX+b,卷積核可以看作神經(jīng)網(wǎng)絡(luò)的權(quán)重W,b是偏置。通常情況下,為了提取多個(gè)特征,可以在網(wǎng)絡(luò)中設(shè)計(jì)多個(gè)卷積核,經(jīng)過卷積層后得到的圖像叫做特征圖。深度卷積神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu)池化層:池化層將數(shù)據(jù)通過下采樣在空間上壓縮,降低特征圖的空間分辨率。假設(shè)輸入維度是224×224×64的特征圖,采用最大池化可以變成112×112×64的特征圖,深度方向不變化。池化的目的是使用某一位置相鄰輸出的總體特征代替網(wǎng)絡(luò)在該位置的輸出,減少網(wǎng)絡(luò)參數(shù)以減少計(jì)算量,避免過擬合。池化可以實(shí)現(xiàn)輸入數(shù)據(jù)的平移不變性,只關(guān)心某個(gè)特征是否出現(xiàn)而不關(guān)心它出現(xiàn)的具體位置。比如識別一張圖像中是否包含人臉時(shí),不關(guān)心人臉的位置,只關(guān)心有沒有兩個(gè)眼睛一個(gè)鼻子一個(gè)嘴即可。全連接層:全連接層主要對神經(jīng)網(wǎng)絡(luò)的末端進(jìn)行分類。不同于池化層和卷積層,這是一個(gè)全局操作,它從特征提取階段獲取輸入,并對前面所有層的輸出進(jìn)行全局分析,再對選定的特征進(jìn)行非線性組合,將這些特征用于分類任務(wù)。深度卷積神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu)輸出層:輸出層節(jié)點(diǎn)數(shù)是根據(jù)實(shí)際應(yīng)用進(jìn)行設(shè)置的,通常采用一個(gè)分類器。分類任務(wù)的輸出層中每個(gè)類別包含一個(gè)神經(jīng)元,這些神經(jīng)元的值表示每個(gè)類的得分。如果我們選擇一個(gè)分?jǐn)?shù)分布,其中每個(gè)分?jǐn)?shù)都在0和1之間,所有的類別分?jǐn)?shù)加起來是1,那么每個(gè)神經(jīng)元的值就可以被解釋為樣本屬于每個(gè)類別的概率。深度卷積神經(jīng)網(wǎng)絡(luò)訓(xùn)練方式深度卷積神經(jīng)網(wǎng)絡(luò)的訓(xùn)練包括前向傳播和后向傳播兩個(gè)過程。前向傳播時(shí),數(shù)據(jù)從輸入層逐層向后傳播至輸出層,并計(jì)算網(wǎng)絡(luò)各層的激活值,直到最后一層;后向傳播時(shí),根據(jù)誤差計(jì)算梯度,梯度由最后一層逐層向前傳播,當(dāng)所有層的梯度計(jì)算完畢時(shí),采用梯度下降法更新網(wǎng)絡(luò)參數(shù),通過計(jì)算損失函數(shù)相對于網(wǎng)絡(luò)參數(shù)的偏導(dǎo)數(shù),不斷更新參數(shù),訓(xùn)練過程如下:深度卷積神經(jīng)網(wǎng)絡(luò)訓(xùn)練方式

改進(jìn)網(wǎng)絡(luò)自從1998年LeNet-5定義了卷積神經(jīng)網(wǎng)絡(luò)基本結(jié)構(gòu)以后,并沒有引起重視,主要原因是機(jī)器計(jì)算能力有限,而其他算法也能達(dá)到類似功能。大數(shù)據(jù)時(shí)代的來臨使得計(jì)算能力大幅提升,2012年AlexNet取得了歷史性突破,一舉在ILSVRC挑戰(zhàn)賽上取得冠軍。AlexNet取得成功以來,深度卷積神經(jīng)網(wǎng)絡(luò)已經(jīng)有了各種各樣的改進(jìn)。由于深度卷積神經(jīng)網(wǎng)絡(luò)的層數(shù)往往較多,大量參數(shù)需要學(xué)習(xí),如果不正確處理的話會帶來過擬合問題。為了防止模型過擬合,一般會從數(shù)據(jù)本身和模型訓(xùn)練優(yōu)化等方面進(jìn)行有效地控制,以下方法常作為改進(jìn)深度卷積神經(jīng)網(wǎng)絡(luò)的技巧。改進(jìn)網(wǎng)絡(luò)數(shù)據(jù)增強(qiáng):深度卷積神經(jīng)網(wǎng)絡(luò)的成功應(yīng)用依賴于海量可用的標(biāo)簽數(shù)據(jù)。然而常常會遇到數(shù)據(jù)不足的情況,那么如何獲取更多的數(shù)據(jù)是問題的關(guān)鍵。如果考慮利用人工收集數(shù)據(jù)或標(biāo)注數(shù)據(jù),將會耗費(fèi)大量成本,可以利用數(shù)據(jù)增強(qiáng)解決此類問題。數(shù)據(jù)增強(qiáng)指的是在不實(shí)質(zhì)性增加數(shù)據(jù)的情況下,用已有數(shù)據(jù)獲取更多的數(shù)據(jù)。為了獲取更多的數(shù)據(jù),需要對已有數(shù)據(jù)集作常用的幾何變換,比如旋轉(zhuǎn)、采樣、移動等改變。學(xué)者們做了一些研究,例如波林(Paulin)提出一種基于圖像變換追蹤的自動選擇算法,該方法采用貪婪策略,通過在每次迭代中選擇最高精度增益的變換,有效地探索基本轉(zhuǎn)換的組合方法。哈登(Hardoon)提出核正則相關(guān)分析法,提供了從互聯(lián)網(wǎng)收集圖像的額外方法等。改進(jìn)網(wǎng)絡(luò)權(quán)重初始化:細(xì)致的權(quán)重初始化是當(dāng)前深度卷積神經(jīng)網(wǎng)絡(luò)訓(xùn)練技術(shù)的主流。當(dāng)網(wǎng)絡(luò)較深時(shí),神經(jīng)網(wǎng)絡(luò)對初始權(quán)值高度敏感,其分布直接影響到網(wǎng)絡(luò)的運(yùn)動神經(jīng)。因此,需要調(diào)整初始的權(quán)值分布,以避免梯度消失和梯度爆炸。對于偏置,一般將其初始化為零;對于權(quán)重參數(shù)的初始化,常用的初始化方法有預(yù)訓(xùn)練、均勻分布初始化、批標(biāo)準(zhǔn)化。權(quán)重參數(shù)初始化方法

權(quán)重參數(shù)初始化方法

權(quán)重參數(shù)初始化方法

深度循環(huán)神經(jīng)網(wǎng)絡(luò)深度循環(huán)神經(jīng)網(wǎng)絡(luò)概述深度循環(huán)神經(jīng)網(wǎng)絡(luò)(DRNN),其本質(zhì)上是一種通常意義的深度神經(jīng)網(wǎng)絡(luò),其構(gòu)造特點(diǎn)是利用層的疊加,讓每層都攜帶時(shí)序反饋循環(huán)。深度循環(huán)神經(jīng)網(wǎng)絡(luò),即擁有多個(gè)循環(huán)層(一種特殊的隱含層)的循環(huán)神經(jīng)網(wǎng)絡(luò)。其中,循環(huán)神經(jīng)網(wǎng)絡(luò)擁有特殊的架構(gòu),這種網(wǎng)絡(luò)的提出是基于“人的認(rèn)知是基于過往的經(jīng)驗(yàn)和記憶”這一觀點(diǎn)。循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)與深度神經(jīng)網(wǎng)絡(luò)(DNN)和卷積神經(jīng)網(wǎng)絡(luò)(CNN)的不同之處為:不但考慮了之前多個(gè)時(shí)刻的輸入數(shù)據(jù),同時(shí)也給予了當(dāng)前網(wǎng)絡(luò)對先前內(nèi)容的“記憶”功能。這也表明循環(huán)神經(jīng)網(wǎng)絡(luò)非常適合處理時(shí)序數(shù)據(jù),因此被廣泛應(yīng)用到以下領(lǐng)域:自然語言處理,其中主要有視頻處理,文本生成,語言模型,圖像處理。還有機(jī)器翻譯、語音識別、圖像描述生成、股價(jià)預(yù)測、新聞、商品推薦等。深度循環(huán)神經(jīng)網(wǎng)絡(luò)概述深度循環(huán)神經(jīng)網(wǎng)絡(luò)可以理解為循環(huán)神經(jīng)網(wǎng)絡(luò)的隱含層層數(shù)從原來的單層增加到了多層。而隨著網(wǎng)絡(luò)隱含層層數(shù)的增加,網(wǎng)絡(luò)的復(fù)雜程度變高了,其泛化能力也得到了提高。復(fù)雜網(wǎng)絡(luò)架構(gòu)的其中一個(gè)優(yōu)勢在于隨著迭代周期和樣本數(shù)的提高,其預(yù)測精度仍可以緩慢提高,而這是簡單神經(jīng)網(wǎng)絡(luò)無法做到的。循環(huán)神經(jīng)網(wǎng)絡(luò)與其他簡單神經(jīng)網(wǎng)絡(luò)最大的不同點(diǎn)在于其當(dāng)前時(shí)刻的輸出不僅取決于當(dāng)前時(shí)刻的輸入,還取決于過去時(shí)刻的輸入,而具體到前幾個(gè)時(shí)刻的輸出,則是由截?cái)嗖綌?shù)確定的,其值表明了當(dāng)前時(shí)刻的輸出由前多少個(gè)時(shí)刻的輸入共同運(yùn)算得出。截?cái)嗖綌?shù)取較小值時(shí)表明輸出更依賴最近的輸入,取較大值時(shí)表明輸出綜合考慮長跨度的輸入。深度循環(huán)神經(jīng)網(wǎng)絡(luò)概述在深度循環(huán)神經(jīng)網(wǎng)絡(luò)中,循環(huán)層中每一層的輸出在經(jīng)過加權(quán)求和后會進(jìn)入下一循環(huán)層,并在下一層中通過某種函數(shù)關(guān)系進(jìn)行變換,這種函數(shù)被稱之為激活函數(shù)。假使不使用激活函數(shù)對數(shù)據(jù)進(jìn)行變換,那么每一層的輸出相當(dāng)于上一層輸出的線性累加。這將會導(dǎo)致最終的輸出均為輸入的線性組合,也就意味著隱含層的作用失效,同時(shí),神經(jīng)網(wǎng)絡(luò)的逼近能力也會受到極大地限制。正因如此,激活函數(shù)通常選擇非線性函數(shù),使輸出為輸入的非線性組合,這樣就可以逼近幾乎所有函數(shù)。深度循環(huán)神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)深度神經(jīng)網(wǎng)絡(luò)的神經(jīng)元有兩種狀態(tài):為激活狀態(tài)和未激活狀態(tài)。激活函數(shù)是一種映射H:R→R的關(guān)系,并且?guī)缀跆幪幙蓪?dǎo)。由于神經(jīng)元需要經(jīng)過激活函數(shù)處理,因此激活函數(shù)的選用是至關(guān)重要的環(huán)節(jié),在神經(jīng)網(wǎng)絡(luò)的前向及反向傳播算法中有著舉足輕重的影響。合適的激活函數(shù)可以抑制網(wǎng)絡(luò)反向傳播過程中殘差信息的衰減以及提升模型的收斂效果。常見的深度循環(huán)神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)如圖所示。深度循環(huán)神經(jīng)網(wǎng)絡(luò)常用非線性激活函數(shù)

深度循環(huán)神經(jīng)網(wǎng)絡(luò)的計(jì)算深度循環(huán)神經(jīng)網(wǎng)絡(luò)的理論部分包括前向計(jì)算、誤差項(xiàng)計(jì)算和權(quán)值梯度計(jì)算。前向計(jì)算

誤差項(xiàng)計(jì)算

誤差項(xiàng)計(jì)算

誤差項(xiàng)計(jì)算

誤差項(xiàng)計(jì)算

權(quán)值梯度計(jì)算

深度循環(huán)神經(jīng)網(wǎng)絡(luò)變體和改進(jìn)深度循環(huán)神經(jīng)網(wǎng)絡(luò)常常需要大量的時(shí)間和機(jī)算資源進(jìn)行訓(xùn)練,這也是困擾深度學(xué)習(xí)算法開發(fā)的重大原因。因此需要資源更少、令模型收斂更快的最優(yōu)化算法,才能從根本上加速深度循環(huán)神經(jīng)網(wǎng)絡(luò)速度和效果。深度循環(huán)神經(jīng)網(wǎng)絡(luò)算法實(shí)質(zhì)和BP算法是一致的,但是隨時(shí)間反向傳播算法的序列太長可以導(dǎo)致梯度消失或梯度爆炸,難以訓(xùn)練,因此需要做出改進(jìn),常見的有LSTM和GRN。LSTM通過輸入門、輸出門和遺忘門結(jié)構(gòu)可以更好的控制信息的流動和傳遞,具有長短時(shí)記憶功能。雖然LSTM的計(jì)算復(fù)雜度比深度神經(jīng)網(wǎng)絡(luò)大,但整體性能比深度神經(jīng)網(wǎng)絡(luò)有穩(wěn)定的提升。GRN只有兩個(gè)門,也是通過門控制信息流量,這在一定程度上減少了計(jì)算量,能夠加速網(wǎng)絡(luò)訓(xùn)練。除了采用門控制流量外,改進(jìn)權(quán)值更新算法也是一種思路。Adam算法和交叉熵算法都是可以實(shí)現(xiàn)快速更新網(wǎng)絡(luò)權(quán)重的算法。Adam優(yōu)化算法

交叉熵算法

交叉熵算法交叉熵反映的是q表達(dá)p的難易程度,因此交叉熵?cái)?shù)值越小,分類效果越理想。在知道了神經(jīng)網(wǎng)絡(luò)預(yù)測值和真實(shí)值間的差值后,需要通過優(yōu)化算法(優(yōu)化器)對神經(jīng)網(wǎng)絡(luò)不同層之間的連接權(quán)重進(jìn)行修正,使得新的預(yù)測值更接近于真實(shí)值。大多數(shù)研究表明,增加神經(jīng)網(wǎng)絡(luò)中隱含層的層數(shù)可以有效降低神經(jīng)網(wǎng)絡(luò)的誤差,提高預(yù)測精度。但與此同時(shí),網(wǎng)絡(luò)的復(fù)雜程度也隨之增加,網(wǎng)絡(luò)訓(xùn)練時(shí)長也相應(yīng)增加,并容易出現(xiàn)“過擬合”現(xiàn)象。因此需要不斷改進(jìn)網(wǎng)絡(luò)算法解決這些問題。深度價(jià)值與策略學(xué)習(xí)深度Q網(wǎng)絡(luò)深度Q網(wǎng)絡(luò)(DQN)作為深度強(qiáng)化學(xué)習(xí)的代表算法之一,對于強(qiáng)化學(xué)習(xí)在復(fù)雜任務(wù)上的應(yīng)用有里程碑式的意義

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論