《人工智能》全套PPT第8章 循環(huán)神經(jīng)網(wǎng)絡(luò)_第1頁
《人工智能》全套PPT第8章 循環(huán)神經(jīng)網(wǎng)絡(luò)_第2頁
《人工智能》全套PPT第8章 循環(huán)神經(jīng)網(wǎng)絡(luò)_第3頁
《人工智能》全套PPT第8章 循環(huán)神經(jīng)網(wǎng)絡(luò)_第4頁
《人工智能》全套PPT第8章 循環(huán)神經(jīng)網(wǎng)絡(luò)_第5頁
已閱讀5頁,還剩49頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

1、第八章循環(huán)神經(jīng)網(wǎng)絡(luò)8.1循環(huán)神經(jīng)網(wǎng)絡(luò)的工作原理8.2改進(jìn)的循環(huán)神經(jīng)網(wǎng)絡(luò)8.3深層循環(huán)神經(jīng)網(wǎng)絡(luò)8.4雙向循環(huán)神經(jīng)網(wǎng)絡(luò)of3118.5循環(huán)神經(jīng)網(wǎng)絡(luò)的應(yīng)用習(xí)題8.1 循環(huán)神經(jīng)網(wǎng)絡(luò)的工作原理第八章 循環(huán)神經(jīng)網(wǎng)絡(luò)of312 循環(huán)神經(jīng)網(wǎng)絡(luò)(Recurrent Neural Network,RNN)是一種對序列數(shù)據(jù)建模的神經(jīng)網(wǎng)絡(luò),即一個(gè)序列當(dāng)前的輸出與前面的輸出也有關(guān)。具體的表現(xiàn)形式為網(wǎng)絡(luò)會對前面的信息進(jìn)行記憶并應(yīng)用于當(dāng)前輸出的計(jì)算中,即隱藏層之間的節(jié)點(diǎn)不在無連接而是有連接的,并且隱藏層的輸入不僅包括輸入層的輸出還包括上一時(shí)刻隱藏層的輸出。RNN模型的連接如圖所示。1循環(huán)神經(jīng)網(wǎng)絡(luò)的模型結(jié)構(gòu)yVhUxWUnf

2、oldyt-1VUxt-1ht-1WytxthtVUWWyt+1xt+1ht+1VUWRNN模型結(jié)構(gòu)圖8.1 循環(huán)神經(jīng)網(wǎng)絡(luò)的工作原理第八章 循環(huán)神經(jīng)網(wǎng)絡(luò)of3131前向計(jì)算每個(gè)神經(jīng)元的輸出值。2反向計(jì)算每個(gè)神經(jīng)元的誤差項(xiàng)值,它是誤差函數(shù)E對神經(jīng)元j的加權(quán)輸入的偏導(dǎo)數(shù)。3計(jì)算每個(gè)權(quán)重的梯度。 循環(huán)神經(jīng)網(wǎng)絡(luò)的工程原理或是工作過程其實(shí)就是循環(huán)神經(jīng)網(wǎng)絡(luò)的訓(xùn)練算法,一種基于時(shí)間的反向傳播算法BPTT(Bach Propagation Through Time)。BPTT算法是針對循環(huán)層設(shè)計(jì)的訓(xùn)練算法,它的基本原理和反向傳播BP(Back Propagation)算法是一樣的,也包含同樣的三個(gè)步驟。2循環(huán)

3、神經(jīng)網(wǎng)絡(luò)的基本工作原理8.1 循環(huán)神經(jīng)網(wǎng)絡(luò)的工作原理第八章 循環(huán)神經(jīng)網(wǎng)絡(luò)of3142循環(huán)神經(jīng)網(wǎng)絡(luò)的基本工作原理(8-1)(8-2)(8-3)8.1 循環(huán)神經(jīng)網(wǎng)絡(luò)的工作原理第八章 循環(huán)神經(jīng)網(wǎng)絡(luò)of3152循環(huán)神經(jīng)網(wǎng)絡(luò)的基本工作原理(8-4)(8-5)8.1 循環(huán)神經(jīng)網(wǎng)絡(luò)的工作原理第八章 循環(huán)神經(jīng)網(wǎng)絡(luò)of316 循環(huán)神經(jīng)網(wǎng)絡(luò)中循環(huán)的意思就是同一網(wǎng)絡(luò)結(jié)構(gòu)不停的重復(fù)。相比普通的神經(jīng)網(wǎng)絡(luò),循環(huán)神經(jīng)網(wǎng)絡(luò)的不同之處在于,隱層的神經(jīng)元之間還有相互的連接,在隱層上增加了一個(gè)反饋連接,也就是說,RNN隱層當(dāng)前時(shí)刻的輸入有一部分是前一時(shí)刻隱層的輸出,這使得RNN可以通過循環(huán)反饋連接保留前面所有時(shí)刻的信息,這賦予了R

4、NN的記憶功能。這些特點(diǎn)使得RNN非常適合用于對時(shí)序信號的建模。3循環(huán)神經(jīng)網(wǎng)絡(luò)的前向計(jì)算 整理一下可以寫為:(8-6)(8-7)(8-8)8.1 循環(huán)神經(jīng)網(wǎng)絡(luò)的工作原理第八章 循環(huán)神經(jīng)網(wǎng)絡(luò)of317 循環(huán)神經(jīng)網(wǎng)絡(luò)正向計(jì)算如圖所示。3循環(huán)神經(jīng)網(wǎng)絡(luò)的前向計(jì)算yt-1xt-1ht-1ytxt htztfV=whygU=wh,h-1W=wxht-1t前向計(jì)算示意圖8.1 循環(huán)神經(jīng)網(wǎng)絡(luò)的工作原理第八章 循環(huán)神經(jīng)網(wǎng)絡(luò)of3183循環(huán)神經(jīng)網(wǎng)絡(luò)的前向計(jì)算8.1 循環(huán)神經(jīng)網(wǎng)絡(luò)的工作原理第八章 循環(huán)神經(jīng)網(wǎng)絡(luò)of319 BPTT算法將循環(huán)神經(jīng)網(wǎng)絡(luò)看作是一個(gè)展開的多層前饋網(wǎng)絡(luò),其中“每一層”對應(yīng)循環(huán)網(wǎng)絡(luò)中的“每個(gè)時(shí)刻

5、”。這樣,循環(huán)神經(jīng)網(wǎng)絡(luò)就可以按照前饋網(wǎng)絡(luò)中的反向傳播算法進(jìn)行參數(shù)梯度計(jì)算。在“展開”的前饋網(wǎng)絡(luò)中,所有層的參數(shù)是共享的,因此參數(shù)的真實(shí)梯度是所有“展開層”的參數(shù)梯度之和,其誤差反向傳播示意圖如圖所示。4循環(huán)神經(jīng)網(wǎng)絡(luò)的梯度計(jì)算Lt-2ht-2xt-2Lt-1ht-1xt-1Lthtxtt, tt, t-1t-1, t-1t, t-2t-1, t-2t-2, t-2誤差反向傳播示意圖8.1 循環(huán)神經(jīng)網(wǎng)絡(luò)的工作原理第八章 循環(huán)神經(jīng)網(wǎng)絡(luò)of31104循環(huán)神經(jīng)網(wǎng)絡(luò)的梯度計(jì)算 整個(gè)序列的損失函數(shù) 關(guān)于隱層間參數(shù)U的梯度為(8-9)(8-10)(8-11)8.1 循環(huán)神經(jīng)網(wǎng)絡(luò)的工作原理第八章 循環(huán)神經(jīng)網(wǎng)絡(luò)o

6、f31114循環(huán)神經(jīng)網(wǎng)絡(luò)的梯度計(jì)算(8-12)(8-13)8.1 循環(huán)神經(jīng)網(wǎng)絡(luò)的工作原理第八章 循環(huán)神經(jīng)網(wǎng)絡(luò)of31124循環(huán)神經(jīng)網(wǎng)絡(luò)的梯度計(jì)算 將式(8-14)和(8-13)代入公式(8-12)得到(8-14)(8-15) 將式(8-15)寫成矩陣形式為(8-16)8.1 循環(huán)神經(jīng)網(wǎng)絡(luò)的工作原理第八章 循環(huán)神經(jīng)網(wǎng)絡(luò)of3113 將式(8-16)代入到將式(8-11)得到整個(gè)序列的損失函數(shù)L關(guān)于參數(shù)U的梯度:4循環(huán)神經(jīng)網(wǎng)絡(luò)的梯度計(jì)算 同理可得,L關(guān)于權(quán)重W、偏置b以及參數(shù)V的梯度為: (8-17)(8-18) 在BPTT算法中,參數(shù)的梯度需要在一個(gè)完整的“前向”計(jì)算和“反向”計(jì)算后才能得到并進(jìn)

7、行參數(shù)更新。(8-19)(8-20)第八章循環(huán)神經(jīng)網(wǎng)絡(luò)8.1循環(huán)神經(jīng)網(wǎng)絡(luò)的工作原理8.2改進(jìn)的循環(huán)神經(jīng)網(wǎng)絡(luò)8.3深層循環(huán)神經(jīng)網(wǎng)絡(luò)8.4雙向循環(huán)神經(jīng)網(wǎng)絡(luò)of31148.5循環(huán)神經(jīng)網(wǎng)絡(luò)的應(yīng)用習(xí)題8.2 改進(jìn)的循環(huán)神經(jīng)網(wǎng)絡(luò)第八章 循環(huán)神經(jīng)網(wǎng)絡(luò)of3115 循環(huán)神經(jīng)網(wǎng)絡(luò)在學(xué)習(xí)過程中的主要問題是長期依賴問題。 在BPTT算法中,將公式(8-14)展開得到1梯度爆炸與梯度消失(8-21)(8-22)8.2 改進(jìn)的循環(huán)神經(jīng)網(wǎng)絡(luò)第八章 循環(huán)神經(jīng)網(wǎng)絡(luò)of3116 為了避免梯度爆炸或消失問題,一種最直接的方式就是選取合適的參數(shù),同時(shí)使用非飽和的激活函數(shù),盡量使得 這種方式需要足夠的人工調(diào)參經(jīng)驗(yàn),限制了模型的廣泛應(yīng)

8、用。采用比較有效的方式改進(jìn)模型或優(yōu)化方法來緩解循環(huán)神經(jīng)網(wǎng)絡(luò)的梯度爆炸和梯度消失問題。1梯度爆炸與梯度消失梯度爆炸一般而言,循環(huán)網(wǎng)絡(luò)的梯度爆炸問題比較容易解決,主要通過權(quán)重衰減或梯度截?cái)鄟肀苊?。梯度消失梯度消失是循環(huán)神經(jīng)網(wǎng)絡(luò)的主要問題。除了使用一些優(yōu)化技巧外,更有效的方式就是改變模型。8.2 改進(jìn)的循環(huán)神經(jīng)網(wǎng)絡(luò)第八章 循環(huán)神經(jīng)網(wǎng)絡(luò)of31172長短時(shí)記憶神經(jīng)網(wǎng)絡(luò) Long Short-Term Memory Neural Network一般就叫做LSTM,是一種RNN特殊的類型,可以學(xué)習(xí)長期依賴信息。LSTM 由Hochreiter & Schmidhuber (1997)提出,并在近期被Ale

9、x Graves進(jìn)行了改良和推廣。在很多問題,LSTM 都取得相當(dāng)巨大的成功,并得到了廣泛的使用。LSTM 通過刻意的設(shè)計(jì)來避免長期依賴問題。記住長期的信息在實(shí)踐中是 LSTM 的默認(rèn)行為,而非需要付出很大代價(jià)才能獲得的能力,所有RNN都具有一種重復(fù)神經(jīng)網(wǎng)絡(luò)模塊的鏈?zhǔn)降男问?。LSTM能避免RNN的梯度消失問題,其使用“累加”的形式計(jì)算狀態(tài),這種累加形式導(dǎo)致導(dǎo)數(shù)也是累加形式,因此避免了梯度消失。8.2 改進(jìn)的循環(huán)神經(jīng)網(wǎng)絡(luò)第八章 循環(huán)神經(jīng)網(wǎng)絡(luò)of31182長短時(shí)記憶神經(jīng)網(wǎng)絡(luò) 所有循環(huán)神經(jīng)網(wǎng)絡(luò)都有一個(gè)重復(fù)結(jié)構(gòu)的模型形式,在標(biāo)準(zhǔn)的RNN中,重復(fù)的結(jié)構(gòu)是一個(gè)簡單的循環(huán)體,如圖所示的A循環(huán)體。(1)LST

10、M的結(jié)構(gòu)tanhhtxtAht-1xt-1Aht-1xt-1循環(huán)神經(jīng)網(wǎng)絡(luò)重復(fù)結(jié)構(gòu)圖8.2 改進(jìn)的循環(huán)神經(jīng)網(wǎng)絡(luò)第八章 循環(huán)神經(jīng)網(wǎng)絡(luò)of31192長短時(shí)記憶神經(jīng)網(wǎng)絡(luò) LSTM的循環(huán)體是一個(gè)擁有四個(gè)相互關(guān)聯(lián)的全連接前饋神經(jīng)網(wǎng)絡(luò)的復(fù)制結(jié)構(gòu),如圖所示。(1)LSTM的結(jié)構(gòu)tanh+tanhhtxttanh+tanhht-1xt-1tanh+tanhht+1xt+1AA LSTM結(jié)構(gòu)圖8.2 改進(jìn)的循環(huán)神經(jīng)網(wǎng)絡(luò)第八章 循環(huán)神經(jīng)網(wǎng)絡(luò)of31202長短時(shí)記憶神經(jīng)網(wǎng)絡(luò) LSTM結(jié)構(gòu)圖中具體的符號語義如圖所示。其中英文對應(yīng)的意思是:Neural Network Layer: 該圖表示一個(gè)神經(jīng)網(wǎng)絡(luò)層;Pointwi

11、se Operation: 該圖表示一種操作;Vector Transfer: 每一條線表示一個(gè)向量,從一個(gè)節(jié)點(diǎn)輸出到另一個(gè)節(jié)點(diǎn);Concatenate: 該圖表示兩個(gè)向量的合并,即由兩個(gè)向量合并為一個(gè)向量;Copy: 該圖表示一個(gè)向量復(fù)制了兩個(gè)向量,其中兩個(gè)向量值相同。(1)LSTM的結(jié)構(gòu)Neural NetworkLayerPointwise OperationVector TransferConcatenateCopy LSTM符號語義圖8.2 改進(jìn)的循環(huán)神經(jīng)網(wǎng)絡(luò)第八章 循環(huán)神經(jīng)網(wǎng)絡(luò)of31212長短時(shí)記憶神經(jīng)網(wǎng)絡(luò) 1)核心設(shè)計(jì) LSTM設(shè)計(jì)的關(guān)鍵是神經(jīng)元的狀態(tài),即為圖所示頂部的水平線。

12、神經(jīng)元的狀態(tài)類似傳送帶一樣,按照傳送方向從左端被傳送到右端,在傳送過程中基本不會改變,只是進(jìn)行一些簡單的線性運(yùn)算:加或減操作。神經(jīng)元間通過線性操作能夠小心地管理神經(jīng)元的狀態(tài)信息,將這種管理方式稱為門操作(gate)。門操作能夠隨意地控制神經(jīng)元狀態(tài)信息的流動,如圖所示,它由一個(gè)sigmoid激活函數(shù)的神經(jīng)網(wǎng)絡(luò)層和一個(gè)點(diǎn)乘運(yùn)算組成。LSTM有三個(gè)門來管理和控制神經(jīng)元的狀態(tài)信息。(2)LSTM結(jié)構(gòu)分析tanh+tanhCt-1CththtxtftitotLSTM的C線LSTM的基本控制門8.2 改進(jìn)的循環(huán)神經(jīng)網(wǎng)絡(luò)第八章 循環(huán)神經(jīng)網(wǎng)絡(luò)222長短時(shí)記憶神經(jīng)網(wǎng)絡(luò)(2)LSTM結(jié)構(gòu)分析tanh+tanhCt

13、-1Cththt-1xtftitotLSTM的遺忘門圖(8-25)8.2 改進(jìn)的循環(huán)神經(jīng)網(wǎng)絡(luò)第八章 循環(huán)神經(jīng)網(wǎng)絡(luò)of31232長短時(shí)記憶神經(jīng)網(wǎng)絡(luò)(2)LSTM結(jié)構(gòu)分析Cttanh+tanhCt-1Cththt-1xtftitotLSTM的輸入門(8-26)(8-27)8.2 改進(jìn)的循環(huán)神經(jīng)網(wǎng)絡(luò)第八章 循環(huán)神經(jīng)網(wǎng)絡(luò)of31242長短時(shí)記憶神經(jīng)網(wǎng)絡(luò)(2)LSTM結(jié)構(gòu)分析tanh+tanhCt-1CththtxtftitotLSTM狀態(tài)控制圖(8-28)8.2 改進(jìn)的循環(huán)神經(jīng)網(wǎng)絡(luò)第八章 循環(huán)神經(jīng)網(wǎng)絡(luò)2長短時(shí)記憶神經(jīng)網(wǎng)絡(luò)(2)LSTM結(jié)構(gòu)分析tanh+tanhCt-1Cththt-1xtftitoth

14、t LSTM的輸出門(8-29)(8-30)8.2 改進(jìn)的循環(huán)神經(jīng)網(wǎng)絡(luò)第八章 循環(huán)神經(jīng)網(wǎng)絡(luò)2長短時(shí)記憶神經(jīng)網(wǎng)絡(luò) 上述介紹的LSTM結(jié)構(gòu)是一個(gè)正常的網(wǎng)絡(luò)結(jié)構(gòu),然而并不是所有的LSTM網(wǎng)絡(luò)都是這種結(jié)構(gòu),實(shí)際上,LSTM有很多種變體,即為多種變化形態(tài)。如下介紹幾種常用形態(tài)結(jié)構(gòu): 1)Peephole Connections一種流行的LSTM變體是由Gers&Schmidhuber(2000)提出的網(wǎng)絡(luò)結(jié)構(gòu),如圖所示。(3)LSTM的延伸網(wǎng)絡(luò)LSTM的peepholes連接圖tanh+tanhCt-1ht-1xthtCtht8.2 改進(jìn)的循環(huán)神經(jīng)網(wǎng)絡(luò)第八章 循環(huán)神經(jīng)網(wǎng)絡(luò)2長短時(shí)記憶神經(jīng)網(wǎng)絡(luò) 1)Pee

15、phole Connections 通過將上一時(shí)刻的狀態(tài)Ct-1合并到各個(gè)門上,從而更詳細(xì)控制各個(gè)門的管理。其具體的各層函數(shù)關(guān)系式為:(3)LSTM的延伸網(wǎng)絡(luò)(8-31)(8-32)(8-33)8.2 改進(jìn)的循環(huán)神經(jīng)網(wǎng)絡(luò)第八章 循環(huán)神經(jīng)網(wǎng)絡(luò)2長短時(shí)記憶神經(jīng)網(wǎng)絡(luò) 2) Coupled Forget and Input Gates 另一種變體是使用耦合的遺忘門和輸入門,如圖所示。 LSTM網(wǎng)絡(luò)中的輸入門和遺忘門有些互補(bǔ)關(guān)系,因此同時(shí)用兩個(gè)門比較冗余。為了減少LSTM網(wǎng)絡(luò)的計(jì)算復(fù)雜度,將這兩個(gè)門合并為一個(gè)門。其具體的函數(shù)關(guān)系為:(3)LSTM的延伸網(wǎng)絡(luò)LSTM變體形式圖tanh+tanhCt-1Ct

16、htht-1xtftot1-ht(8-34)8.2 改進(jìn)的循環(huán)神經(jīng)網(wǎng)絡(luò)第八章 循環(huán)神經(jīng)網(wǎng)絡(luò)2長短時(shí)記憶神經(jīng)網(wǎng)絡(luò) 3) Gated Recurrent Unit 門限循環(huán)單元(Gated Recurrent Unit, GRU)是一種比LSTM更加簡化的版本,是LSTM的一種變體,如圖8-15所示。在LSTM中,輸入門和遺忘門是互補(bǔ)關(guān)系,因?yàn)橥瑫r(shí)用兩個(gè)門比較冗余。GRU將輸入門與遺忘門合并成一個(gè)門:更新門(Update Gate),同時(shí)還合并了記憶單元和神經(jīng)元的活性值。(3)LSTM的延伸網(wǎng)絡(luò)+rt1-zttanhxtht-1htGRU模型結(jié)構(gòu)圖8.2 改進(jìn)的循環(huán)神經(jīng)網(wǎng)絡(luò)第八章 循環(huán)神經(jīng)網(wǎng)絡(luò)2長

17、短時(shí)記憶神經(jīng)網(wǎng)絡(luò)(3)LSTM的延伸網(wǎng)絡(luò)(8-35)(8-36)(8-37)(8-38)第八章循環(huán)神經(jīng)網(wǎng)絡(luò)8.1循環(huán)神經(jīng)網(wǎng)絡(luò)的工作原理8.2改進(jìn)的循環(huán)神經(jīng)網(wǎng)絡(luò)8.3深層循環(huán)神經(jīng)網(wǎng)絡(luò)8.4雙向循環(huán)神經(jīng)網(wǎng)絡(luò)of31318.5循環(huán)神經(jīng)網(wǎng)絡(luò)的應(yīng)用習(xí)題8.3 深層循環(huán)神經(jīng)網(wǎng)絡(luò)第八章 循環(huán)神經(jīng)網(wǎng)絡(luò)328.3 深層循環(huán)神經(jīng)網(wǎng)絡(luò)第八章 循環(huán)神經(jīng)網(wǎng)絡(luò)of3133 一種常見的做法是將多個(gè)循環(huán)網(wǎng)絡(luò)堆疊起來,稱為堆疊循環(huán)神經(jīng)網(wǎng)絡(luò)(Stacked Recurrent Neural Network,SRNN)。一個(gè)堆疊的簡單循環(huán)神經(jīng)網(wǎng)絡(luò)也稱為循環(huán)網(wǎng)絡(luò)多層感知器(Recurrent Multi-layer Percepti

18、on,RMLP)。下圖給出了按時(shí)間展開的堆疊循環(huán)神經(jīng)網(wǎng)絡(luò)。h1(3)x1y1h2(3)x2y2h3(3)x3y3h4(3)x4y4hT(3)xTyTh1(2)h2(2)h3(2)h4(2)hT(2)h1(1)h2(1)h3(1)h4(1)hT(1)按時(shí)間展開的堆疊循環(huán)神經(jīng)網(wǎng)絡(luò)8.3 深層循環(huán)神經(jīng)網(wǎng)絡(luò)第八章 循環(huán)神經(jīng)網(wǎng)絡(luò)(8-39)第八章循環(huán)神經(jīng)網(wǎng)絡(luò)8.1循環(huán)神經(jīng)網(wǎng)絡(luò)的工作原理8.2改進(jìn)的循環(huán)神經(jīng)網(wǎng)絡(luò)8.3深層循環(huán)神經(jīng)網(wǎng)絡(luò)8.4雙向循環(huán)神經(jīng)網(wǎng)絡(luò)of31358.5循環(huán)神經(jīng)網(wǎng)絡(luò)的應(yīng)用習(xí)題8.4 雙向循環(huán)神經(jīng)網(wǎng)絡(luò)第八章 循環(huán)神經(jīng)網(wǎng)絡(luò)of3136 從單向的循環(huán)神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)中可以知道它的下一刻預(yù)測輸出是根

19、據(jù)前面多個(gè)時(shí)刻的輸入來共同影響的,而有些時(shí)候預(yù)測可能需要由前面若干輸入和后面若干輸入共同決定,這樣會更加準(zhǔn)確。 鑒于單向循環(huán)神經(jīng)網(wǎng)絡(luò)在某些情況下的不足,提出了雙向循環(huán)神經(jīng)網(wǎng)絡(luò),因?yàn)樵谠S多應(yīng)用中是需要能關(guān)聯(lián)未來的數(shù)據(jù),而單向循環(huán)神經(jīng)網(wǎng)絡(luò)屬于關(guān)聯(lián)歷史數(shù)據(jù),所以對于未來數(shù)據(jù)的關(guān)聯(lián)就提出了反向循環(huán)神經(jīng)網(wǎng)絡(luò),兩個(gè)方向的網(wǎng)絡(luò)結(jié)合到一起就能關(guān)聯(lián)歷史與未來了。 雙向循環(huán)神經(jīng)網(wǎng)絡(luò)(Bidirectional Recurrent Neural Network,Bi-RNN)由兩層循環(huán)神經(jīng)網(wǎng)絡(luò)組成,它們的輸入相同,只是信息傳遞的方向不同。8.4 雙向循環(huán)神經(jīng)網(wǎng)絡(luò)第八章 循環(huán)神經(jīng)網(wǎng)絡(luò)of3137 雙向循環(huán)神經(jīng)網(wǎng)絡(luò)按時(shí)

20、刻展開的結(jié)構(gòu)如圖8-17所示,可以看到向前和向后層共同連接著輸出層,其中包含了6個(gè)共享權(quán)值,分別為輸入到向前層和向后層兩個(gè)權(quán)值、向前層和向后層各自隱含層到隱含層的權(quán)值、向前層和向后層各自隱含層到輸出層的權(quán)值。x1y1x2y2x3y3x4y4xTyTh1(2)h2(2)h3(2)h4(2)hT(2)h1(1)h2(1)h3(1)h4(1)hT(1)+按時(shí)間展開的雙向循環(huán)神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)圖8.4 雙向循環(huán)神經(jīng)網(wǎng)絡(luò)第八章 循環(huán)神經(jīng)網(wǎng)絡(luò)(8-40)(8-41)(8-42)第八章循環(huán)神經(jīng)網(wǎng)絡(luò)8.1循環(huán)神經(jīng)網(wǎng)絡(luò)的工作原理8.2改進(jìn)的循環(huán)神經(jīng)網(wǎng)絡(luò)8.3深層循環(huán)神經(jīng)網(wǎng)絡(luò)8.4雙向循環(huán)神經(jīng)網(wǎng)絡(luò)of31398.5循環(huán)

21、神經(jīng)網(wǎng)絡(luò)的應(yīng)用習(xí)題8.5 循環(huán)神經(jīng)網(wǎng)絡(luò)的應(yīng)用第八章 循環(huán)神經(jīng)網(wǎng)絡(luò)of31401情感分析 情感分析(Sentiment Analysis),又稱傾向性分析,意見抽取(Opinion Extraction),意見挖掘(Opinion Mining),情感挖掘(Sentiment Mining),主觀分析(Subjectivity Analysis),它是對帶有情感色彩的主觀性文本進(jìn)行分析、處理、歸納和推理的過程。 情感分析最常用的做法就是在文中找到具有各種感情色彩屬性的詞,統(tǒng)計(jì)每個(gè)屬性詞的個(gè)數(shù),哪個(gè)類多,這段話就屬于哪個(gè)屬性。但是這存在一個(gè)問題,例如 dont like,一個(gè)屬于否定,一個(gè)屬于肯定

22、,統(tǒng)計(jì)之后變成 0 了,而實(shí)際上應(yīng)該是否定的態(tài)度。再有一種情況是,前面幾句是否定,后面又是肯定,那整段到底是中立還是肯定呢,為了解決這樣的問題,就需要考慮上下文的環(huán)境。8.5 循環(huán)神經(jīng)網(wǎng)絡(luò)的應(yīng)用第八章 循環(huán)神經(jīng)網(wǎng)絡(luò)2語音識別 語音識別技術(shù)是一門交叉技術(shù),近二十年來,語音識別技術(shù)取得顯著進(jìn)步,開始從實(shí)驗(yàn)室走向市場。人們預(yù)計(jì),未來10年內(nèi),語音識別技術(shù)將進(jìn)入工業(yè)、家電、通信、汽車電子、醫(yī)療、家庭服務(wù)、消費(fèi)電子產(chǎn)品等各個(gè)領(lǐng)域。語音識別技術(shù),也被稱為自動語音識別,其目標(biāo)是將人類的語音中的詞匯內(nèi)容轉(zhuǎn)換為計(jì)算機(jī)可讀的輸入,要實(shí)現(xiàn)語音識別,其實(shí)現(xiàn)過程如圖所示。 語音識別方法主要是模式匹配法,其包括兩個(gè)階段,

23、其一是訓(xùn)練階段,用戶將詞匯表中的所有詞依次說一遍,并且將其特征矢量作為模板存入模型庫;其二是識別階段,將輸入語音的特征矢量依次與模型庫中的每個(gè)模板進(jìn)行相似度比較,將相似度最高者作為識別結(jié)果的輸出。語音識別過程8.5 循環(huán)神經(jīng)網(wǎng)絡(luò)的應(yīng)用第八章 循環(huán)神經(jīng)網(wǎng)絡(luò)3機(jī)器翻譯 機(jī)器翻譯(Machine Translation,簡稱MT)是采用電子計(jì)算機(jī)來進(jìn)行自然語言之間翻譯的一門新興實(shí)驗(yàn)性學(xué)科,是將一種源語言語句變成意思相同的另一種源語言語句,如將英語語句變成同樣意思的中文語句。 機(jī)器翻譯也是計(jì)算語言學(xué)的一個(gè)應(yīng)用領(lǐng)域,它的研究是建立在語言學(xué)、數(shù)學(xué)和計(jì)算技術(shù)這三門學(xué)科的基礎(chǔ)之上,語言學(xué)家提供適合于機(jī)器進(jìn)行加

24、工的詞典和語法規(guī)則,數(shù)學(xué)家把語言學(xué)家提供的材料進(jìn)行形式化和代碼化,計(jì)算技術(shù)專家給機(jī)器翻譯提供軟件手段和硬件設(shè)備,缺少上述任何一方面,機(jī)器翻譯就不能實(shí)現(xiàn)。機(jī)器翻譯效果的好壞,也完全取決于上述三方面的共同努力。 機(jī)器翻譯與語言模型的關(guān)鍵區(qū)別在于,機(jī)器翻譯需要將源語言語句序列輸入后,才進(jìn)行輸出,即輸出第一個(gè)單詞時(shí),便需要從完整的輸入序列中進(jìn)行獲取第二個(gè)單詞、依次進(jìn)行。8.5 循環(huán)神經(jīng)網(wǎng)絡(luò)的應(yīng)用第八章 循環(huán)神經(jīng)網(wǎng)絡(luò)3機(jī)器翻譯 機(jī)器翻譯如圖所示。將整個(gè)句子輸入循環(huán)神經(jīng)網(wǎng)絡(luò)后,這個(gè)時(shí)候最后一刻的輸出就已經(jīng)處理完了整個(gè)句子。機(jī)器翻譯示意圖8.5 循環(huán)神經(jīng)網(wǎng)絡(luò)的應(yīng)用第八章 循環(huán)神經(jīng)網(wǎng)絡(luò)4基于循環(huán)神經(jīng)網(wǎng)絡(luò)的語言

25、模型 基于循環(huán)神經(jīng)網(wǎng)絡(luò)的語言模型就是把詞依次輸入到循環(huán)神經(jīng)網(wǎng)絡(luò)中,每輸入一個(gè)詞,循環(huán)神經(jīng)網(wǎng)絡(luò)就輸出截止到目前為止,下一個(gè)最可能的詞。例如,當(dāng)依次輸入:我-昨天-上學(xué)-遲到-了。神經(jīng)網(wǎng)絡(luò)的輸出如圖所示。RNN輸入與輸出示例8.5 循環(huán)神經(jīng)網(wǎng)絡(luò)的應(yīng)用第八章 循環(huán)神經(jīng)網(wǎng)絡(luò)4基于循環(huán)神經(jīng)網(wǎng)絡(luò)的語言模型(1)向量化(8-43)8.5 循環(huán)神經(jīng)網(wǎng)絡(luò)的應(yīng)用第八章 循環(huán)神經(jīng)網(wǎng)絡(luò)4基于循環(huán)神經(jīng)網(wǎng)絡(luò)的語言模型 公式8-43)的含義,可以用圖8-21來直觀的表示。使用這種向量化方法,就得到了一個(gè)高維、稀疏的向量(稀疏是指絕大部分元素的值都是0)。RNN語言模型向量化示意圖(1)向量化8.5 循環(huán)神經(jīng)網(wǎng)絡(luò)的應(yīng)用第八章

26、 循環(huán)神經(jīng)網(wǎng)絡(luò)4基于循環(huán)神經(jīng)網(wǎng)絡(luò)的語言模型 語言模型要求的輸出是下一個(gè)最可能的詞,可以讓循環(huán)神經(jīng)網(wǎng)絡(luò)計(jì)算詞典中每個(gè)詞其下一個(gè)詞的概率,這樣,概率最大的詞就是下一個(gè)最可能的詞。因此,神經(jīng)網(wǎng)絡(luò)的輸出向量也是一個(gè)N維向量,向量中的每個(gè)元素對應(yīng)著詞典中相應(yīng)詞的下一個(gè)詞的概率,如圖所示。RNN的語言模型詞典示意圖(1)向量化8.5 循環(huán)神經(jīng)網(wǎng)絡(luò)的應(yīng)用第八章 循環(huán)神經(jīng)網(wǎng)絡(luò)4基于循環(huán)神經(jīng)網(wǎng)絡(luò)的語言模型 語言模型是對下一個(gè)詞出現(xiàn)的概率進(jìn)行建模,那么,怎樣讓循環(huán)神經(jīng)網(wǎng)絡(luò)輸出概率呢?方法就是用SoftMax層作為循環(huán)神經(jīng)網(wǎng)絡(luò)的輸出層。 SoftMax函數(shù)的定義:(2)SoftMax層(8-44) 式(8-44)看起來很

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論