動(dòng)態(tài)驅(qū)動(dòng)遞歸網(wǎng)絡(luò)介紹_第1頁
動(dòng)態(tài)驅(qū)動(dòng)遞歸網(wǎng)絡(luò)介紹_第2頁
動(dòng)態(tài)驅(qū)動(dòng)遞歸網(wǎng)絡(luò)介紹_第3頁
動(dòng)態(tài)驅(qū)動(dòng)遞歸網(wǎng)絡(luò)介紹_第4頁
動(dòng)態(tài)驅(qū)動(dòng)遞歸網(wǎng)絡(luò)介紹_第5頁
已閱讀5頁,還剩15頁未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

1、第15章動(dòng)態(tài)驅(qū)動(dòng)遞歸網(wǎng)絡(luò)15.1 介紹給定多層感知器作為基本模塊,應(yīng)用全局反饋可以有不同的形式。反饋可以從多層感知器的輸出神經(jīng)元到輸入層。而且另一個(gè)可能的全局反饋可以從網(wǎng)絡(luò)的隱單元到輸入層。遞歸網(wǎng)絡(luò)有兩個(gè)基本功能:l 聯(lián)想記憶l 輸入輸出映射網(wǎng)絡(luò)遞歸網(wǎng)絡(luò)動(dòng)態(tài)地響應(yīng)外部應(yīng)用的輸入信號,稱遞歸網(wǎng)絡(luò)為動(dòng)態(tài)驅(qū)動(dòng)遞歸網(wǎng)絡(luò).而且,反饋的應(yīng)用使得遞歸網(wǎng)絡(luò)獲得狀態(tài)表示.優(yōu)勢: 大大減少記憶需求.本章分四部分:體系結(jié)構(gòu),理論,學(xué)習(xí)算法和應(yīng)用。第一部分15.2討論遞歸網(wǎng)絡(luò)的結(jié)構(gòu)。第二部分,包括15.3節(jié)至15.5節(jié),討論遞歸網(wǎng)絡(luò)的理論部分。15.3討論了狀態(tài)空間模型和相關(guān)的可控性和可觀察性的問題。15.4導(dǎo)出了一

2、個(gè)狀態(tài)空間模型的等價(jià)模型,被稱為有外部輸入的非線性自回歸的模型。15.5討論了遞歸網(wǎng)絡(luò)計(jì)算能力的一些理論問題。第三部分,包括15.6節(jié)至15.12節(jié),討論遞歸網(wǎng)絡(luò)的學(xué)習(xí)算法和相關(guān)問題.開始在15.6節(jié)有個(gè)綜述,15.7討論了在第4章的材料基礎(chǔ)上所建立的通過時(shí)間的反向傳播算法。15.8討論了另一個(gè)流行算法:實(shí)時(shí)回歸學(xué)習(xí). 15.2遞歸網(wǎng)絡(luò)體系結(jié)構(gòu)遞歸網(wǎng)絡(luò)的結(jié)構(gòu)布局有很多不同形式。本節(jié)我們討論了四個(gè)特殊結(jié)構(gòu),每一個(gè)都強(qiáng)調(diào)了全局反饋的一種特殊形式1。他們都有如下特點(diǎn):l 都有結(jié)合了靜態(tài)多層感知器或一部分。l 都利用了多層感知器的非線性映射能力。輸入輸出遞歸網(wǎng)絡(luò)圖15.1顯示了一個(gè)多層感知器的自然推廣

3、得到的遞歸網(wǎng)絡(luò)的模型。模型有唯一的輸入,被應(yīng)用到q個(gè)單元的分支延遲線記憶。單一的輸出通過另一個(gè)q個(gè)單元分支延遲線記憶反饋到輸入。利用兩個(gè)分支延遲線記憶的內(nèi)容反饋到多層感知器的輸入。模型輸入的當(dāng)前值用u(n)代表,相對應(yīng)的輸出用y(n+1)表示;也就是輸出領(lǐng)先輸入一個(gè)時(shí)間單位。因此應(yīng)用到多層感知器輸入層的的信號向量的數(shù)據(jù)窗口數(shù)據(jù)如下:l 現(xiàn)在和過去的輸入,即u(n), u(n-1), u(n-q+1),表示來自網(wǎng)絡(luò)外部的輸入。l 輸出的延遲值,即y(n), y(n-1), y(n-q+1),在此基礎(chǔ)上對y(n+1)進(jìn)行回歸。有外部輸入的非線性自回歸模型(nonlinear autoregress

4、ive with exogenous inputs model, NARX)2。NARX的動(dòng)態(tài)行為描述如下:y(n+1)=F(y(n),y(n-p+1),u(n),u(n-q+1)狀態(tài)空間模型狀態(tài)空間模型,隱層的神經(jīng)元定義了網(wǎng)絡(luò)的狀態(tài)。隱層的輸出通過一個(gè)延遲模塊反饋回輸入。輸入層為反饋節(jié)點(diǎn)和源節(jié)點(diǎn)聯(lián)合。網(wǎng)絡(luò)是通過源節(jié)點(diǎn)和外部連接的。用于將隱層輸出反饋回輸入層的延遲單元的數(shù)目決定了模型的階數(shù)。m´1維的向量u(n)代表輸入,q´1向量x(n) 代表隱層在n時(shí)刻的輸出向量。我們可以用下列兩個(gè)聯(lián)立方程組描述在圖15.2中的模型的動(dòng)態(tài)行為:x(n+1)=f(x(n),u(n)y(n

5、)=Cx(n)這里f(×)是一個(gè)刻劃隱層特征的非線性函數(shù),C是代表輸出層特征的的突觸權(quán)值矩陣。隱層是非線性的,但輸出是線性的。 回歸多層感知器 回歸多層感知器,它有一個(gè)或多個(gè)隱層,同樣的原因,靜態(tài)多層感知器比那些用在單個(gè)隱層的感知器更有效和節(jié)約。RMLP的每一個(gè)計(jì)算層對它的鄰近層有一個(gè)反饋,如圖15.4所示,此時(shí)RMLP有兩個(gè)隱層3??捎萌缦侣?lián)立方程組描述:x1(n+1)=j1(x1(n),u(n)x11(n+1)=j11(x11(n),x1(n+1) x0(n+1)=j0(x0(n),uk(n+1)(15.4)這里j1(. , .), j11(. , .), .j0(. , .)分

6、別表示代表第一隱層,第二隱層 和RMLP輸出層的激活函數(shù);K表示網(wǎng)絡(luò)中隱層的數(shù)目。二階網(wǎng)絡(luò)在圖15.2的狀態(tài)空間模型中,我們用“階”來表示隱層的數(shù)目,其輸出通過延遲單元模塊反饋回輸入層。例如:一個(gè)多層感知器神經(jīng)元k的誘導(dǎo)局部域vk定義如下: (15.5)這里xj源于隱層神經(jīng)j的反饋信號,ui是輸入層應(yīng)用于節(jié)點(diǎn)i的源信號;w表示網(wǎng)絡(luò)中對應(yīng)的突觸權(quán)值。把方程15.5所描述的神經(jīng)元稱為一階神經(jīng)元。但是,有時(shí)誘導(dǎo)局部域vk由乘法組成,表示如下: (15.6)我們稱這里神經(jīng)元為二階神經(jīng)元。二階神經(jīng)元k用了單一的權(quán)值wkij ,使得它和輸入輸出信號i,j連接起來。二階神經(jīng)元組成了基本的二階遞歸網(wǎng)絡(luò)(Gil

7、es et al,1990),它的一個(gè)例子如圖15.5所示。網(wǎng)絡(luò)接受時(shí)間順序的輸入并且動(dòng)態(tài)進(jìn)行發(fā)展,由下方程組所定義: (15.7)且xk(n+1)=j(vk(n) =1/(1+exp(-vk(n) (15.8)這里vk(n)隱單元k的誘導(dǎo)局部域,bk為相關(guān)偏置,xk(n)神經(jīng)元k的狀態(tài)(輸出),uj(n)是應(yīng)用于原信號j的輸入,w,kij二次神經(jīng)元k的權(quán)值。15.3狀態(tài)空間建模假設(shè)無噪聲,系統(tǒng)的動(dòng)態(tài)行為的數(shù)學(xué)表達(dá)用下非線性方程表示:x(n+1)=j(wax(n)+wbu(n)(15.10)y(n)=Cx(n)(15.11)這里wa是一個(gè)q×q的矩陣,wb是一個(gè)q×(m+1

8、)的矩陣,C是一個(gè)p×q的矩陣,j是對角映射: (15.12)對于一些無記憶的,各個(gè)分量都非線性的 j:R ®R. 空間Rm, Rq 和Rp 分別稱為輸入空間,狀態(tài)空間和輸出空間。狀態(tài)空間的大小,即q就是系統(tǒng)的階。因此圖15.2狀態(tài)空間模型是m輸入,p輸出的q階回歸模型。方程(15.10)是模型的運(yùn)行方程,方程(15.11)是觀測方程。 運(yùn)行方程(15.10)是方程(15.2)的特殊形式。方程(15.10)和(15.11)描述的狀態(tài)空間模型的遞歸網(wǎng)絡(luò)一個(gè)重要的性質(zhì)是它能逼近一個(gè)很大范圍的非線性動(dòng)力系統(tǒng)。但這種逼近只在一個(gè)狀態(tài)空間緊子集和有限的時(shí)間區(qū)間的情況下有效,因此感興趣

9、的動(dòng)態(tài)特征并沒有反映出來??煽匦院涂捎^察性研究系統(tǒng)論時(shí),穩(wěn)定性、可控性和可觀察性是重要的特征。這節(jié)我們討論可控性和可觀察性,因?yàn)樗鼈兘?jīng)常一起討論。前面以討論過,許多遞歸網(wǎng)絡(luò)能用圖15.2的狀態(tài)空間模型來表示,這里狀態(tài)定義為通過一系列延遲單元反饋回輸入層的隱層輸出。在此背景下,知道遞歸網(wǎng)絡(luò)是否可控和可觀察是很重要的??煽匦允侵肝覀兡芊窨刂七f歸網(wǎng)絡(luò)的動(dòng)態(tài)行為。可觀察性是指我們能否觀察到應(yīng)用于遞歸網(wǎng)絡(luò)的控制結(jié)果。從這種意義來說,可觀察性是可控性的對偶。遞歸網(wǎng)絡(luò)可控是指在有限時(shí)間步內(nèi),初始狀態(tài)可以控制到任意想達(dá)到的狀態(tài);輸出與這個(gè)定義無關(guān)。遞歸網(wǎng)絡(luò)可觀察是指在有限的輸入/輸出觀測中網(wǎng)絡(luò)的狀態(tài)可以確定。

10、我們把自己限制在可控性和可觀察性的局部形式。局部是指將這些概念應(yīng)用于網(wǎng)絡(luò)平衡狀態(tài)的鄰域。如果狀態(tài)是方程(15.10)的平衡狀態(tài),那么對于輸入u,它滿足如下條件:=j(A+B) (15.15)不失一般性,讓=0,=0。平衡狀態(tài)如下:x=j(0)換句話說,原點(diǎn)(0,0)代表平衡點(diǎn)。也不失一般性,我們可以限制到一個(gè)單一的輸入,單輸出系統(tǒng)以簡化一下我們的論述??梢詫Ψ匠?15.10)和(15.11)分別改寫如下:x(n+1)=j(wax(n)+wbu(n)(15.16)y(n)=cTx(n)(15.17)這里wb和c都是q列向量,u(n)是標(biāo)量輸入,y(n) 標(biāo)量輸出。既然j對應(yīng)于(15.13)的或方

11、程(15.14)的Sigmoid函數(shù)是連續(xù)可微的,我們可以通過展開它在平衡點(diǎn)附近=0,=0的Taylor級數(shù),而僅保留一次項(xiàng)得到如下:dx(n+1)=j¢(0)wadx(n)+ j¢(0)wbdu(n)(15.18)這里dx(n)和du(n)是分別應(yīng)用到狀態(tài)和輸入的小擾動(dòng)。q´q矩陣j¢(0)是j(v)的關(guān)于v的在v=0時(shí)Jaccobi式。我們可以描述線性化的系統(tǒng)如下:dx(n+1)=Adx(n)+bdu(n) (15.19)dy(n)=cTdx(n)(15.20)這里q´q矩陣A和q´1列向量b分別定義如下:A=j¢(0)

12、wa15.21及b=j¢(0)wb狀態(tài)方程(15.19)和(15.20)是標(biāo)準(zhǔn)線性形式。利用線性動(dòng)力系統(tǒng)的可控性和可觀察性的著名的結(jié)果。 局部可控性從線性化的方程(15.19),重復(fù)迭代產(chǎn)生下列結(jié)果:dx(n+1)=Adx(n)+bdu(n)dx(n+2)=Adx(n+1)+bdu(n+1).dx(n+q)= Aqbdx(n)+ Aq-1bdu(n+q-1)+Abdu(n+1)+ bdu(n)這里q是狀態(tài)空間的維數(shù)。方程(15.19)表示的線性化的系統(tǒng)是可控的如果矩陣滿足下列條件 Mc= Aq-1b, Ab,b(15.23)有秩q,即滿秩,因?yàn)檫@樣線性化方程(15.19)有唯一的解。

13、矩陣Mc叫做線性系統(tǒng)的可控矩陣。方程(15.16)描述的遞歸網(wǎng)絡(luò)由一系列輸入系列uq(n)所驅(qū)動(dòng),其定義如下:uq(n)u(n), u(n+1), u(n+q-1)T(15.24)因此考慮映射G(x(n), uq(n)=(x(n),x(n+q) (15.25)這里G:R2q ®R2q。可以證明:· 狀態(tài)x(n+q)是關(guān)于過去的值x(n)和輸入u(n), u(n+1), , u(n+q-1) 的嵌套非線性函數(shù).· 關(guān)于uq(n)的x(n+q)的Jaccobi矩陣在原點(diǎn)的值等于(15.23)的可控性的矩陣Mc 。我們可以表示映射G關(guān)于uq(n)和x(n)的Jaccob

14、i矩陣在原點(diǎn)(0,0)的值如下:= 這里I是單位矩陣,0是空矩陣,X關(guān)緊要。因?yàn)樗奶厥庑问?,J(c)(0,0)的行列式等于單位矩陣I的行列式(等于1)和可控矩陣Mc的行列式乘積。如果Mc是滿秩矩陣,那么J(c)(0,0)也是。(x(n),x(n+q))=G-1(x(n),uq(n) (15.27)方程(15.27)實(shí)際上指出存在一個(gè)輸入序列能局部驅(qū)動(dòng)網(wǎng)絡(luò)在q個(gè)時(shí)間步中從狀態(tài)x(n) 到x(n+q)。相應(yīng)的,正式的局部可控定理如下:對于(15.16)和(15.17)定義的遞歸網(wǎng)絡(luò),它在原點(diǎn)附近(即,平衡點(diǎn))的線性化方程由(15.19)和(15.20)所定義。如果線性系統(tǒng)是可控的,則遞歸網(wǎng)絡(luò)是在

15、原點(diǎn)附近是局部可控的。局部觀察性重復(fù)用線性化的方程(15.19)和(15.20),可以得 dy(n) = cTdx(n) dy(n1) = cTdx(n+1)=cTAdx(n)+cTbdu(n)dy(n+q-1)= cTAq-1dx(n)+ cTAq-2bdu(n+q-1)+cTAbdu(n+q-3)+ cTbdu(n+q-2)這里q是狀態(tài)空間的維數(shù)??梢躁愂龇匠蹋?5.19)和(15.20)描述的線性化系統(tǒng)是可觀察的,如果下列矩陣Mo=c,cAT,c(AT)q-1的秩為q,即滿秩。矩陣Mc稱為線性系統(tǒng)的可觀察矩陣。如果線性化系統(tǒng)的可觀察性矩陣Mo是滿秩的,則存在一個(gè)反映射:( uq-1(n)

16、 ,x(n) H1(uq-1(n),yq(n) (15.33)實(shí)際上,這個(gè)方程表明在原點(diǎn)的局部鄰域,x(n)是uq-1(n)和yq(n)的非線性函數(shù),非線性函數(shù)是遞歸網(wǎng)絡(luò)的觀察者。因此局部可觀察性定理可正式地陳述如下由(15.16)和(15.17)所定義的遞歸網(wǎng)絡(luò),讓它在原點(diǎn)(即,平衡點(diǎn))附近線性化的形式由(15.19)和(15.20)所定義。如果線性系統(tǒng)是可觀察的,則遞歸網(wǎng)絡(luò)在原點(diǎn)局部是可觀察的。15.4 有外輸入的非線性自回歸模型考慮單輸入單輸出的遞歸網(wǎng)絡(luò),其行為由狀態(tài)方程組(15.16)和(15.17)所描述。給定這種狀態(tài)模型,希望把它修改為一個(gè)輸入輸出模形,作為代表遞歸網(wǎng)絡(luò)的一個(gè)等價(jià)物

17、。用方程(15.16)和(15.17),輸出y(n+1)可以用狀態(tài)x(n)和輸入向量uq(n)表示如下:y(n+q)=f(x(n), uq(n) (15.34)這里q是狀態(tài)空間的大小,f:R2q®R。假設(shè)遞歸網(wǎng)絡(luò)為可觀察的,可以用局部可觀察定理的得到:x(n)=y( yq(n), uq-1(n)(15.35)這里映射y:R2q-1®Rq。用方程(15.35)代替(15.34),得到y(tǒng)(n+q)=f(y( yq(n), uq-1(n), uq(n))(15.36)=F(yq(n), uq(n)這里uq-1(n)包含在uq(n)的最先q-1個(gè)元素里,非線性映射f:R2q

18、4;R和f,y有關(guān)。用方程(15.30)和(15.29)給出的yq(n) 和uq(n)定義,可以把方程(15.36)擴(kuò)展為:y(n+q)=F(y(n+q-1),y(n),u(n+q-1),u(n)用n-q+1代替n,可以得到:y(n+1)=F(y(n),y(n-q+1),u(n),u(n-q+1)15.37必須指出,對于這個(gè)非線性映射F:R2q®R只有當(dāng)現(xiàn)在的輸出y(n+1)由過去值y(n), y(n-q+1)以及現(xiàn)在和過去的輸入u(n),u(n-q+1)所唯一決定的,這個(gè)映射才是存在的。因?yàn)檫@個(gè)輸入輸出表示等價(jià)于方程(15.16)和(15.17)的狀態(tài)模型,因此遞歸網(wǎng)絡(luò)必須是可觀測

19、的。等價(jià)的實(shí)際含義是圖15.1的NARX模型,它的全局反饋限制在輸出神經(jīng)元,實(shí)際上它是能夠模仿圖15.2的完全回歸模型(假設(shè)m=1,p=1)并且它們的輸入輸出行為無差別。15.5 遞歸網(wǎng)絡(luò)的計(jì)算能力從一般意義來討論,遞歸網(wǎng)絡(luò)的計(jì)算能力主要體現(xiàn)在兩個(gè)定理:定理I(siegelmann and sontag,1991) 所有圖靈機(jī)都可被建立在有Sigmoid激活函數(shù)的基礎(chǔ)上的完全連接神經(jīng)元遞歸網(wǎng)絡(luò)來模擬。定理二(Siegelmann,et al. 1997)對于NARX網(wǎng)絡(luò),若具有一隱層單元且其激活函數(shù)為有界的和單側(cè)飽和的并且有一個(gè)線性輸出神經(jīng)元,那么不計(jì)線性延遲(linear slowdown)

20、,它可以模擬完全連接的具有單側(cè)飽和且有界的激活函數(shù)的遞歸網(wǎng)絡(luò)。函數(shù)j(×)如果滿足下列條件則說它是有界的,單邊飽和的函數(shù):1. 函數(shù)j(×)值域有界;即aj(x)b.2. 函數(shù)j(×)是左飽和的,即存在值s和S,對于所有的xs,j(x)S。3. 函數(shù)j(×)非常數(shù),即存在 不相同的兩個(gè)數(shù)x1和x2, 滿足j(x1) j(x2)。作為定理I和II的必然推論,我們可以得到:有一個(gè)隱層神經(jīng)元且激活函數(shù)為BOSS函數(shù)及一個(gè)線性輸出神經(jīng)元的NARX網(wǎng)絡(luò)是Turing等價(jià)的。15.6 學(xué)習(xí)算法現(xiàn)在來研究遞歸網(wǎng)絡(luò)的訓(xùn)練的問題。第四章討論過普通(靜態(tài))多層感知器的兩個(gè)方

21、式:集中方式和串行方式。集中方式中,網(wǎng)絡(luò)的敏感度是在調(diào)整網(wǎng)絡(luò)的自由參數(shù)前針對整個(gè)訓(xùn)練集合計(jì)算的。在串行方式,參數(shù)的調(diào)整是在給出訓(xùn)練集合的每一個(gè)模式之后進(jìn)行的。同樣,有兩個(gè)訓(xùn)練的遞歸網(wǎng)絡(luò)的方式如下:1.分回合(epochwise)的訓(xùn)練:在給定的回合,遞歸網(wǎng)絡(luò)從初始狀態(tài)出發(fā)達(dá)到一個(gè)新的狀態(tài)后停止,此時(shí)訓(xùn)練亦停止;然后對于下一個(gè)回合又重新設(shè)置一個(gè)新的初始狀態(tài)。初始狀態(tài)在每個(gè)訓(xùn)練時(shí)期并不總是一樣的。重要的是對于新的回合的初始狀態(tài)和網(wǎng)絡(luò)在此前一個(gè)回合達(dá)到的狀態(tài)不一樣。例如,用遞歸網(wǎng)絡(luò)模仿有限狀態(tài)機(jī)器的運(yùn)行,它的內(nèi)部可區(qū)分的設(shè)置(狀態(tài))在數(shù)量上是有限的。在這種條件下,我們有理由使用分回合的訓(xùn)練,因?yàn)槲覀?/p>

22、有很大的可能性用遞歸網(wǎng)絡(luò)去模仿機(jī)器中大量的不同的初始狀態(tài)和不同的最終狀態(tài)的集合。在遞歸網(wǎng)絡(luò)的分時(shí)段訓(xùn)練中,“回合”與一般普通多層感知器中使用的意義不同?,F(xiàn)在的術(shù)語,遞歸網(wǎng)絡(luò)的回合對應(yīng)普通多層感知器的一個(gè)訓(xùn)練樣本模式。2.連續(xù)訓(xùn)練。訓(xùn)練的第二種方法適合于沒有可用的重置狀態(tài)/或需要在線學(xué)習(xí)的情況。連續(xù)訓(xùn)練的顯著特征是網(wǎng)絡(luò)學(xué)習(xí)和被網(wǎng)絡(luò)處理的信號處理過程同時(shí)進(jìn)行。簡單地說,學(xué)習(xí)過程永不停止。例如讓遞歸網(wǎng)絡(luò)去對一個(gè)非穩(wěn)態(tài)過程如語音信號進(jìn)行建模。在這種情況下,網(wǎng)絡(luò)的連續(xù)運(yùn)行不能提供方便的時(shí)間以決定何時(shí)停止訓(xùn)練而學(xué)習(xí)新 的對于自由參數(shù)有不同的值的網(wǎng)絡(luò) 。記住這兩種訓(xùn)練的方式。在下面的兩部分中我們將描述遞歸網(wǎng)

23、絡(luò)的不同的學(xué)習(xí)算法,可總結(jié)如下:l 15.7節(jié)里討論的通過時(shí)間的反向傳播算法(back-propagation-through-time)是在遞歸網(wǎng)絡(luò)的時(shí)序操作可以展開為一個(gè)多層感知器的前提下提出的。這就為標(biāo)準(zhǔn)反向傳播算法提供了應(yīng)用。通過時(shí)間的反向傳播算法可以用分回合的方式,連續(xù)方式或兩種方式的組合來實(shí)現(xiàn)。l 15.8節(jié)討論的實(shí)時(shí)回歸學(xué)習(xí)算法是由方程(15.10)和(15.11)描述的狀態(tài)空間模型所導(dǎo)出。兩種算法有很多共同點(diǎn)。首先它們都是基于梯度下降的方法,因此代價(jià)函數(shù)的瞬間值(基于平方誤差準(zhǔn)則)關(guān)于網(wǎng)絡(luò)的突觸權(quán)值被最小化。第二,它們實(shí)現(xiàn)都很簡單,但可能收斂很慢。第三,它們是相關(guān)的,因?yàn)橥ㄟ^時(shí)

24、間的反向傳播算法的信號流圖能夠由實(shí)時(shí)回歸學(xué)習(xí)算法的一定形式的信號流圖轉(zhuǎn)置而得到(Lefebvre,1991;Beaufays & Wan,1994)。一些啟發(fā)在進(jìn)行剛才提到的新學(xué)習(xí)算法的描述之前,我們羅列一些對于改進(jìn)遞歸網(wǎng)絡(luò)訓(xùn)練的啟發(fā),這將包括梯度下降方法的作用。1. 訓(xùn)練樣本應(yīng)該按照字典順序的排序,最短的符號字符串首先提交給網(wǎng)絡(luò)。2. 訓(xùn)練應(yīng)該開始于一個(gè)小的訓(xùn)練樣本集,爾后隨著訓(xùn)練過程而增量式增加。3. 只有當(dāng)正在被網(wǎng)絡(luò)處理的訓(xùn)練樣本的絕對誤差比指定的標(biāo)準(zhǔn)大的時(shí)候才網(wǎng)絡(luò)的突觸權(quán)值更新。4. 在訓(xùn)練過程中建議使用權(quán)值衰減;權(quán)值衰減作為復(fù)雜性正歸化的一個(gè)粗略的形式。 第一個(gè)啟發(fā)有特別重要

25、的意義。如果可以實(shí)現(xiàn)的話,它提供了減輕在采用梯度下降法訓(xùn)練遞歸網(wǎng)絡(luò)時(shí)出現(xiàn)的梯度消失的問題。15.7 通過時(shí)間的反向傳播對于訓(xùn)練一個(gè)遞歸網(wǎng)絡(luò)的通過時(shí)間的反向傳播算法是標(biāo)準(zhǔn)反向傳播算法的擴(kuò)展8。它通過把網(wǎng)絡(luò)的時(shí)序操作展開到一個(gè)分層的前饋網(wǎng)絡(luò)來實(shí)現(xiàn),它的拓?fù)浣Y(jié)構(gòu)對每個(gè)時(shí)間步增加一層。具體地,讓N表示需要學(xué)習(xí)時(shí)序任務(wù)的遞歸網(wǎng)絡(luò),從時(shí)間n0到時(shí)間n。N*表示對遞歸網(wǎng)絡(luò)N的時(shí)序操作進(jìn)行展開所得的前饋網(wǎng)絡(luò).展開后的網(wǎng)絡(luò)N* 和初始網(wǎng)絡(luò)N的關(guān)系如下:1. 對區(qū)間n0,n內(nèi)的每一個(gè)時(shí)間步,網(wǎng)絡(luò)N*有一個(gè)包含K個(gè)神經(jīng)元的層,K是在網(wǎng)絡(luò)N中的神經(jīng)元的數(shù)量。2. 在網(wǎng)絡(luò)N*的每一層有網(wǎng)絡(luò)N的每一個(gè)神經(jīng)元的復(fù)制。3.

26、每一個(gè)時(shí)間步ln0,n,第l層第i個(gè)神經(jīng)元到網(wǎng)絡(luò)N*的第l+1層的第j個(gè)神經(jīng)元的突觸連接是在網(wǎng)絡(luò)N中的神經(jīng)元i到j(luò)的突觸連接的復(fù)制。分回合的通過時(shí)間的反向傳播將用于遞歸網(wǎng)絡(luò)訓(xùn)練的數(shù)據(jù)集分割為獨(dú)立的回合,每一回合表示感興趣的時(shí)間模式。令n0表示一個(gè)回合的開始時(shí)間,n1表示其結(jié)束時(shí)間。在這個(gè)回合里,可以定義代價(jià)函數(shù)(15.38)這里A為網(wǎng)絡(luò)中被指定期望響應(yīng)的那些神經(jīng)元標(biāo)號j的集合,ej(n)是該神經(jīng)元關(guān)于期望響應(yīng)和計(jì)算出的實(shí)際輸出之間的誤差信號。想計(jì)算網(wǎng)絡(luò)的敏感度,即計(jì)算代價(jià)函數(shù)關(guān)于網(wǎng)絡(luò)突觸權(quán)值的偏導(dǎo)數(shù)。為此,可以用通過時(shí)間的反向傳播算法(BPTT),這是基于在第四章中討論過的標(biāo)準(zhǔn)反向傳播學(xué)習(xí)的集

27、中方式.分回合的BPTT算法處理如下:l 首先,關(guān)于時(shí)間段n0,n執(zhí)行單純的數(shù)據(jù)前向傳播通過網(wǎng)絡(luò)這個(gè)操作。保存完整的輸入數(shù)據(jù)記錄、網(wǎng)絡(luò)的狀態(tài)(即,網(wǎng)絡(luò)的突觸權(quán)值)以及期望響應(yīng)。l 關(guān)于這條過去記錄執(zhí)行一個(gè)單純的后向傳播通過網(wǎng)絡(luò)以用來計(jì)算局部梯度的值(15.39)對于所有的jA,n0<nn1。用如下公式進(jìn)行計(jì)算: (15.40)這里j¢(×)是激活函數(shù)關(guān)于它的自變量的導(dǎo)數(shù),vj(n)是神經(jīng)元j的誘導(dǎo)局部域。這里假設(shè)了網(wǎng)絡(luò)的所有神經(jīng)元有同樣的激活函數(shù)j¢(×)。重復(fù)使用方程(15.40),從時(shí)刻n1出發(fā),向后進(jìn)行,一步一步直到時(shí)刻n0;這里涉及的步數(shù)與

28、包含在這個(gè)回合內(nèi)的步數(shù)相同。l 一旦執(zhí)行反向傳播的計(jì)算到n0+1的時(shí),執(zhí)行神經(jīng)元j的突觸權(quán)值wij的調(diào)整如下:= (15.41)這里h是學(xué)習(xí)率參數(shù),xi(n-1)是在時(shí)刻n-1時(shí)作用于神經(jīng)元j的第i個(gè)突觸的輸入。比較剛才描述的分回合的BPTT的過程和標(biāo)準(zhǔn)反向傳播學(xué)習(xí)的集中方式,可以看到它們根本的的差別是前者在網(wǎng)絡(luò)的許多層里指定神經(jīng)元的期望響應(yīng),因?yàn)閷?shí)際輸出層在網(wǎng)絡(luò)的時(shí)序行為展開時(shí)被重復(fù)很多次。截?cái)嗟耐ㄟ^時(shí)間的反向傳播為了使用通過時(shí)間的反向傳播的實(shí)時(shí)形式,我們用誤差平方和的瞬時(shí)值,即: 作為需要最小化的代價(jià)函數(shù)。根據(jù)標(biāo)準(zhǔn)反向傳播學(xué)習(xí)的串行(隨機(jī))模式,我們使用代價(jià)函數(shù)的負(fù)梯度去計(jì)算對于每個(gè)時(shí)刻n

29、的網(wǎng)絡(luò)的突觸權(quán)值的適當(dāng)調(diào)整量。當(dāng)網(wǎng)絡(luò)運(yùn)行時(shí),調(diào)整建立在連續(xù)的基礎(chǔ)上。但是為了采用計(jì)算可行的方式,我們只在一個(gè)固定數(shù)目的時(shí)間步里儲(chǔ)存相關(guān)的輸入數(shù)據(jù)和網(wǎng)絡(luò)狀態(tài)的歷史記錄,該時(shí)間步數(shù)目稱作截?cái)嗌疃?truncation depth)。此后截?cái)嗌疃扔胔表示。任何比h時(shí)間步長還時(shí)間靠前的信息是無關(guān)的,因此可以省略。如果不截?cái)嘤?jì)算,因此可以容許回到開始時(shí)間,計(jì)算時(shí)間和儲(chǔ)存要求將會(huì)隨著網(wǎng)絡(luò)運(yùn)行隨時(shí)間線性增長,最終達(dá)到某點(diǎn)使得整個(gè)學(xué)習(xí)過程不可行。算法的第二種形式稱為截?cái)嗟耐ㄟ^時(shí)間的反向傳播算法。神經(jīng)元j的局部梯度定義為任給且 (15.42)即: (15.43)一旦執(zhí)行反向傳播的計(jì)算到達(dá)時(shí)刻n-h+1時(shí),對神經(jīng)

30、元j的突觸權(quán)值調(diào)整為: (15.44)這里h和xi(l-1)如前定義。注意到方程(15.43)中wkj(l)的使用需要保留權(quán)值的歷史記錄。只有當(dāng)學(xué)習(xí)率參數(shù)h小到能確保權(quán)值從一個(gè)時(shí)間步到下一時(shí)間步時(shí)不會(huì)很大的改變的時(shí)候,在方程里wkj的使用才會(huì)被調(diào)整。比較方程(15.43)和(15.40),我們可以看到與分回合的BPTT算法不同,誤差信號只有在當(dāng)前時(shí)間n的時(shí)候才會(huì)進(jìn)入計(jì)算。這就解釋了為什么不保存過去期望響應(yīng)的值的原因。實(shí)際上,截?cái)嗟耐ㄟ^時(shí)間的反向傳播算法對前期時(shí)間步的處理和隨機(jī)反向傳播算法(在第四章討論)對待多層感知器中的隱單元的計(jì)算一樣。15.8 實(shí)時(shí)回歸學(xué)習(xí)本節(jié)學(xué)習(xí)另一算法即實(shí)時(shí)回歸學(xué)習(xí)(r

31、eal time recurrent learning, RTRL)9。算法的名稱來自于下面的事實(shí),完全連接網(wǎng)絡(luò)的突觸權(quán)值調(diào)整是實(shí)時(shí)的,也就是說,是在網(wǎng)絡(luò)繼續(xù)進(jìn)行它的信號處理功能的時(shí)候。網(wǎng)絡(luò)的狀態(tài)空間描述由方程(15.10)和(15.11) 定義。處理方程(15.10)擴(kuò)展為以下形式:x(n+1)=(15.46)這里假設(shè)了所有的神經(jīng)元有相同的激活函數(shù)j(×)。(q+m-1)×1向量wj是遞歸網(wǎng)絡(luò)的神經(jīng)元j的突觸權(quán)值向量,即(15.47)這里wa,j和wb,j分別是轉(zhuǎn)置矩陣waT和wbT的第j列。(q+m1)×1向量x(n)定義如下:(15.48)x(n)是q

32、15;1狀態(tài)向量,u(n)是(m+1)×1輸入向量。u(n)的第一個(gè)元素是1,對應(yīng)的wb,j的第一個(gè)元素等于應(yīng)用到神經(jīng)元j的偏移bj。為表達(dá)簡單起見,引入新的矩陣Lj(n), Uj(n)和 F(n),分別描述如下:1.Lj(n)是狀態(tài)向量x(n)關(guān)于權(quán)值wj的偏導(dǎo)數(shù)所構(gòu)成的q×(q+m+1)矩陣:j=1,2,q(15.49)2. Uj(n)是q×(q+m+1)矩陣,除了第j行等于向量x(n)外,其它行都為0:(15.50)3 F(n)是q×q的對角矩陣,它的第k個(gè)對角元素是激活函數(shù)關(guān)于其自變量的偏導(dǎo)數(shù)。(15.51)有了這些定義,就可以對方程(15.46)關(guān)于wj求導(dǎo)。用微積分的鏈?zhǔn)椒▌t,得到下列遞歸方程:Lj(n+1)= F(n) Wa(n) Lj(n)+ Uj(n)j=1,2,.,q(15.52)該方程描述了實(shí)時(shí)回歸學(xué)習(xí)過程的非線性狀態(tài)動(dòng)力系統(tǒng)(即,狀態(tài)演化)。為了完成描述該學(xué)習(xí)過程,需要將矩陣Lj(n)和誤差曲面關(guān)于wj的梯度相聯(lián)系。為此,首先用觀測方程(15.11)定義p×1誤差向量:e(n)=d(n)-y(n) =d(n)-Cx(

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論