多層神經(jīng)網(wǎng)絡(luò)解析課件_第1頁(yè)
多層神經(jīng)網(wǎng)絡(luò)解析課件_第2頁(yè)
多層神經(jīng)網(wǎng)絡(luò)解析課件_第3頁(yè)
多層神經(jīng)網(wǎng)絡(luò)解析課件_第4頁(yè)
多層神經(jīng)網(wǎng)絡(luò)解析課件_第5頁(yè)
已閱讀5頁(yè),還剩26頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

第六章多層神經(jīng)網(wǎng)絡(luò)第六章多層神經(jīng)網(wǎng)絡(luò)16.1引言神經(jīng)網(wǎng)絡(luò)定義一個(gè)神經(jīng)網(wǎng)絡(luò)是一個(gè)由簡(jiǎn)單處理元構(gòu)成的規(guī)模宏大的并行分布式處理器。天然具有存儲(chǔ)經(jīng)驗(yàn)知識(shí)和使之可用的特性。神經(jīng)網(wǎng)絡(luò)與人腦的相似性:

a.神經(jīng)網(wǎng)絡(luò)獲取的知識(shí)是從外界環(huán)境中學(xué)習(xí)得來(lái)。

b.互連神經(jīng)元的連接強(qiáng)度,即突觸權(quán)值,用于存儲(chǔ)獲取的知識(shí)。6.1引言神經(jīng)網(wǎng)絡(luò)定義神經(jīng)元模型

a.突觸權(quán)值

b.加法器—凈激活

c.激活函數(shù)輸入信號(hào)突觸權(quán)值偏置輸出求和結(jié)點(diǎn)激活函數(shù)輸入信號(hào)突觸權(quán)值偏置輸出求和結(jié)點(diǎn)激活函數(shù)6.2前饋運(yùn)算和分類(lèi)前饋運(yùn)算定義:

a.無(wú)反饋,可用一有向無(wú)環(huán)圖表示。

b.圖的節(jié)點(diǎn)分為兩類(lèi),即輸入節(jié)點(diǎn)與計(jì)算單元。

c.每個(gè)計(jì)算單元可有任意個(gè)輸入,但只有一個(gè)輸出,而輸出可耦合到任意多個(gè)其他節(jié)點(diǎn)的輸入。前饋網(wǎng)絡(luò)通常分為不同的層,第i層的輸入只與第i-1層的輸出相聯(lián)。

d.輸入和輸出節(jié)點(diǎn)由于可與外界相連,直接受環(huán)境影響,稱(chēng)為可見(jiàn)層,而其他的中間層則稱(chēng)為隱層。如圖。6.2前饋運(yùn)算和分類(lèi)前饋運(yùn)算定義:激活函數(shù):隱單元對(duì)它的各個(gè)輸入進(jìn)行加權(quán)求和運(yùn)算而形成標(biāo)量的“凈激活”(netactivation,或簡(jiǎn)稱(chēng)net)。也就是說(shuō),凈激活是輸入信號(hào)與隱含層權(quán)值的內(nèi)積。

下面介紹幾種常用的激活函數(shù):符號(hào)函數(shù):netk0激活函數(shù):符號(hào)函數(shù):netk0netk-0.50.5

分段線性函數(shù):

Sigmoid函數(shù):0netk-0.50.5分段線性函數(shù):Sigmoid函6.2.1一般的前饋運(yùn)算顯然,我們可以把之前的討論推廣為更多的更多的輸入單元、其他的非線性函數(shù)、任意多個(gè)輸出單元。在分類(lèi)方面,我們有c個(gè)輸出單元,每個(gè)類(lèi)別一個(gè),每個(gè)輸出單元產(chǎn)生的信號(hào)就是判別式函數(shù)gk(x).判別函數(shù)如下:6.2.2多層網(wǎng)絡(luò)的表達(dá)能力戈?duì)柲炅_夫證明了:只要選取適當(dāng)?shù)暮瘮?shù),任何連續(xù)函數(shù)g(x)都呆以定義在單位超立方體上,即可以表示為:可惜的是,上述構(gòu)造性的描述確實(shí)顯示任期望函數(shù)都可以通過(guò)一個(gè)三層網(wǎng)絡(luò)來(lái)執(zhí)行,但它更多的價(jià)值在理論方面,而實(shí)用意義不大。6.2.1一般的前饋運(yùn)算顯然,我們可以把之前的討論推廣為更6.3反向傳播算法誤差反向傳播學(xué)習(xí)分為四個(gè)過(guò)程:

a.模式順傳播:一個(gè)輸入向量作用于網(wǎng)絡(luò)感知節(jié)點(diǎn),它的影響經(jīng)過(guò)網(wǎng)絡(luò)一層接一層的傳播。最后,產(chǎn)生一個(gè)輸出作為網(wǎng)絡(luò)的實(shí)際響應(yīng)。在前向通過(guò)中,網(wǎng)絡(luò)的突觸權(quán)為固定的。

b.誤差逆?zhèn)鞑ィ涸诜聪蛲ㄟ^(guò)中,突觸權(quán)值全部根據(jù)誤差修正規(guī)則調(diào)整。

c.記憶訓(xùn)練:反復(fù)學(xué)習(xí)過(guò)程,也就是根據(jù)教師示教的希望輸出與網(wǎng)絡(luò)實(shí)際輸出的誤差調(diào)整連接權(quán)的過(guò)程。

d.學(xué)習(xí)收斂:網(wǎng)絡(luò)全局誤差收斂于極小值的過(guò)程。6.3反向傳播算法誤差反向傳播學(xué)習(xí)分為四個(gè)過(guò)程:

神經(jīng)元j的輸出神經(jīng)元j的凈激活連接權(quán)初始化學(xué)習(xí)模式提供給網(wǎng)絡(luò)計(jì)算輸出層的輸入輸出模式順傳播:

神經(jīng)元j的輸出神經(jīng)元j的凈激活連接權(quán)初始化學(xué)習(xí)模式提供給網(wǎng)絡(luò)誤差傳播階段(1)計(jì)算訓(xùn)練誤差:(2)按與LMS算法類(lèi)似的方式對(duì)突觸權(quán)值w應(yīng)用一個(gè)修正值隱含層到輸出層學(xué)習(xí)規(guī)則:輸入層到隱含層學(xué)習(xí)規(guī)則:

誤差傳播階段更新學(xué)習(xí)模式計(jì)算輸出層各神經(jīng)元的誤差計(jì)算隱含層各神經(jīng)元的誤差調(diào)整輸出層到隱含層的連接權(quán)調(diào)整隱含層到輸入層的連接權(quán)更新學(xué)習(xí)次數(shù)判斷誤差或?qū)W習(xí)次數(shù)更新學(xué)習(xí)模式計(jì)算輸出層各神經(jīng)元的誤差計(jì)算隱含層各神經(jīng)元的誤差6.3.3

BP網(wǎng)絡(luò)——學(xué)習(xí)曲線6.3.2訓(xùn)練協(xié)議

廣義地說(shuō),有監(jiān)督的訓(xùn)練就是給出一個(gè)類(lèi)別標(biāo)記已知的模式——訓(xùn)練集——找到網(wǎng)絡(luò)輸出,并調(diào)整權(quán)值以使實(shí)際輸出更加接近于期望的目標(biāo)值。三種最有用的“訓(xùn)練協(xié)義”是:隨機(jī)訓(xùn)練、成批訓(xùn)練和在線訓(xùn)練。6.3.3BP網(wǎng)絡(luò)——學(xué)習(xí)曲線6.3.2訓(xùn)練協(xié)議

6.4誤差曲面小型的網(wǎng)絡(luò):6.4誤差曲面小型的網(wǎng)絡(luò):

較大型的網(wǎng)絡(luò):

高維空間里局部極小值問(wèn)題有所不同:在學(xué)習(xí)中,高維空間可以給系統(tǒng)提供更多的方式(維數(shù)、或自由度)以“避開(kāi)”障礙或局部極小值。權(quán)值數(shù)越過(guò)剩,網(wǎng)絡(luò)越不可能陷入局部極小值。但存在過(guò)擬和問(wèn)題。關(guān)于多重極?。?/p>

局部極小問(wèn)題,當(dāng)誤差較低時(shí),非全局極小是可以接受的。關(guān)于多重極?。?.5反向傳播作為特征映射隱含層到輸出層是一個(gè)線性判別函數(shù),多層神經(jīng)網(wǎng)絡(luò)所提供的新的計(jì)算能力可以歸因于輸入層到隱含層單元上的表示的非線性彎曲能力。隨著學(xué)習(xí)的進(jìn)行,輸入層到隱含層的權(quán)值在數(shù)量上增加,隱含層單元的非線性彎曲扭曲了從輸入層到隱含層單元的空間映射。6.5反向傳播作為特征映射隱含層到輸出層是一個(gè)線性判別函數(shù)6.6反向傳播、貝葉斯理論及概率貝葉斯理論與神經(jīng)網(wǎng)絡(luò)盡管多層神經(jīng)網(wǎng)顯得有點(diǎn)專(zhuān)門(mén)化,我們可以證明,當(dāng)采用均方差準(zhǔn)則進(jìn)行反向傳播訓(xùn)練,且樣本數(shù)量趨于無(wú)窮極限時(shí),多層神經(jīng)網(wǎng)可產(chǎn)生一個(gè)相應(yīng)于貝葉斯理論判別函數(shù)的最小二乘判別。

作為概率的輸出實(shí)際生活時(shí)常不滿足無(wú)限個(gè)訓(xùn)練數(shù)據(jù),這時(shí)可以作概率逼近。其中一個(gè)方法是softmax方法,即選擇指數(shù)型的辦理出單元非線性函數(shù),并對(duì)每種模式將輸出和歸一化為1.0,并用0-1目標(biāo)信號(hào)進(jìn)行訓(xùn)練:

6.6反向傳播、貝葉斯理論及概率貝葉斯理論與神經(jīng)網(wǎng)絡(luò)投影尋蹤回歸:廣義疊加模型:多元自適應(yīng)回歸樣條(MARS):6.7相關(guān)統(tǒng)計(jì)技術(shù)投影尋蹤回歸:6.7相關(guān)統(tǒng)計(jì)技術(shù)6.8改進(jìn)反向傳播的一些實(shí)用技術(shù)激活函數(shù)

BP網(wǎng)絡(luò)中每一個(gè)神經(jīng)元的需要關(guān)于神經(jīng)元的激活函數(shù)的導(dǎo)數(shù)知識(shí)。要導(dǎo)數(shù)存在,則需要函數(shù)連續(xù)。常用的例子為sigmoid函數(shù),主要有兩種形式:

1.logistic函數(shù)

2.雙曲正切函數(shù)6.8改進(jìn)反向傳播的一些實(shí)用技術(shù)激活函數(shù)沖量項(xiàng)

實(shí)驗(yàn)表明:增加隱含層的層數(shù)和隱含層神經(jīng)元個(gè)數(shù)不一定總能夠提高網(wǎng)絡(luò)精度和表達(dá)能力。

BP網(wǎng)一般都選用三層網(wǎng)絡(luò)。沖量項(xiàng)權(quán)值初始化

a.初始權(quán)值的選擇對(duì)于局部極小點(diǎn)的防止和網(wǎng)絡(luò)收斂速度的提高均有一定程度的影響,如果初始權(quán)值范圍選擇不當(dāng),學(xué)習(xí)過(guò)程一開(kāi)始就可能進(jìn)入“假飽和”現(xiàn)象,甚至進(jìn)入局部極小點(diǎn),網(wǎng)絡(luò)根本不收斂。

b.在前饋多層神經(jīng)網(wǎng)絡(luò)的BP算法中,初始權(quán)、閾值一般是在一個(gè)固定范圍內(nèi)按均勻分布隨機(jī)產(chǎn)生的。一般文獻(xiàn)認(rèn)為初始權(quán)值范圍為-1~+1之間,初始權(quán)、閾值的選擇因具體的網(wǎng)絡(luò)結(jié)構(gòu)模式和訓(xùn)練樣本不同而有所差別,一般應(yīng)視實(shí)際情況而定。

c.本書(shū)中考慮有d個(gè)輸入單元,假設(shè)用相同的分布初始化權(quán)值,那么輸入權(quán)值的范圍為:

d.隱含層輸出權(quán)值:權(quán)值初始化學(xué)習(xí)率學(xué)習(xí)率參數(shù)越小,從一次迭代到下一次迭代的網(wǎng)絡(luò)突觸權(quán)值的變化量就越小,軌跡在權(quán)值空間就越光滑。然而,這種改進(jìn)是以減慢學(xué)習(xí)速度為代價(jià)的。另一方面,如果我們讓的值太大以加速學(xué)習(xí)速度的話,結(jié)果有可能使網(wǎng)絡(luò)的突觸權(quán)值的變化量不穩(wěn)定。學(xué)習(xí)率沖量項(xiàng)一個(gè)既要加快學(xué)習(xí)速度又要保持穩(wěn)定的簡(jiǎn)單方法是修改delta法則,使它包括沖量項(xiàng)(慣量項(xiàng)):

a是沖量常數(shù),通常是正數(shù)。沖量項(xiàng)權(quán)值衰減

網(wǎng)絡(luò)的權(quán)值大致分兩類(lèi):對(duì)網(wǎng)絡(luò)具有很大影響的權(quán)值和對(duì)網(wǎng)絡(luò)影響很少或者根本沒(méi)有影響的權(quán)值。后者常常造成網(wǎng)絡(luò)推廣性差。復(fù)雜性正則化的使用鼓勵(lì)多余權(quán)值取得接近0,提高泛化能力。

訓(xùn)練方式

a.隨機(jī)訓(xùn)練:模式是隨機(jī)地從訓(xùn)練集中取出的,權(quán)值也根據(jù)不同的模式進(jìn)行更新b.成批訓(xùn)練:所有的模式已在訓(xùn)練之前全部送往網(wǎng)絡(luò)中。

c.在線訓(xùn)練:每種模式只提供一次,不需要存儲(chǔ)器來(lái)保存模式權(quán)值衰減訓(xùn)練方式誤差準(zhǔn)則函數(shù)原來(lái)的平方誤差準(zhǔn)則是最常見(jiàn)的訓(xùn)練準(zhǔn)則,然而,其他的訓(xùn)練準(zhǔn)則有時(shí)候也有一些好處。下面介紹兩個(gè)有用的準(zhǔn)則函數(shù):

互熵(crossentropy):(可用來(lái)度量概率分布間的“距離”)基于閔可夫斯基誤差:可通過(guò)選擇R值來(lái)調(diào)節(jié)分類(lèi)器的局部性:R值越小,分類(lèi)器的局部性越強(qiáng)。誤差準(zhǔn)則函數(shù)牛頓法:在梯度下降中使用牛頓法,可利用下式迭代計(jì)算w的值:

(其中H為赫森矩陣)Quickprop算法:

Quickprop算法中權(quán)值假設(shè)為獨(dú)立的。可以證明,這種方法可導(dǎo)出如下的權(quán)值更新規(guī)則:

其中的導(dǎo)數(shù)是由m和m-1次迭代估計(jì)得出6.9二階技術(shù)牛頓法:6.9二階技術(shù)共軛梯度法共軛條件:,其中H為赫森矩陣

在第m步的下降方向是梯度方向加上一個(gè)沿著前面的下降方向的元素:

各項(xiàng)間的相互比例由控制。通常它可以用如下兩個(gè)公式中的一個(gè)來(lái)計(jì)算:

Fletcher-Reeves:Polak-Ribiere:共軛梯度法徑向基函數(shù)網(wǎng)絡(luò)徑向基函數(shù)(radialbasisfunction,RBF)網(wǎng)絡(luò)的設(shè)計(jì)可以看作是一個(gè)高維空間中的曲線擬和(逼近)問(wèn)題。這里考慮插值函數(shù)(內(nèi)核)的通用形式,該函數(shù)的變量是從中心到輸入變量的歐氏距離,稱(chēng)為RBF。函數(shù)可以有多種形式,例如:6.10其他網(wǎng)絡(luò)和訓(xùn)練算法徑向基函數(shù)網(wǎng)絡(luò)6.10其他網(wǎng)絡(luò)和訓(xùn)練算法卷積網(wǎng)絡(luò)卷積網(wǎng)絡(luò)遞歸網(wǎng)絡(luò)遞歸網(wǎng)絡(luò)級(jí)數(shù)相關(guān)

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論