第6神經(jīng)網(wǎng)絡(luò)._第1頁
第6神經(jīng)網(wǎng)絡(luò)._第2頁
第6神經(jīng)網(wǎng)絡(luò)._第3頁
第6神經(jīng)網(wǎng)絡(luò)._第4頁
第6神經(jīng)網(wǎng)絡(luò)._第5頁
已閱讀5頁,還剩95頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

1、1Artificial Neural Networks內(nèi)容:內(nèi)容:nANN引入引入nANN基礎(chǔ)基礎(chǔ)nPerceptronnBP2一、一、ANN引入引入 n人工神經(jīng)網(wǎng)絡(luò)(人工神經(jīng)網(wǎng)絡(luò)(Artificial Neural Networks,簡記,簡記ANN),是對人類大腦),是對人類大腦系統(tǒng)的一種微觀模擬。簡單地講,它是系統(tǒng)的一種微觀模擬。簡單地講,它是一個一個數(shù)學模型數(shù)學模型,可以用,可以用電子線路電子線路來實現(xiàn),來實現(xiàn),也可以用也可以用計算機程序計算機程序來模擬,是人工智來模擬,是人工智能研究的一種方法。能研究的一種方法。 3人工神經(jīng)網(wǎng)絡(luò)的概念人工神經(jīng)網(wǎng)絡(luò)的概念1、定義、定義 (1)Hecht

2、Nielsen(1988年)年)人工神經(jīng)網(wǎng)絡(luò)是一個并行、分布處理結(jié)構(gòu),它由處人工神經(jīng)網(wǎng)絡(luò)是一個并行、分布處理結(jié)構(gòu),它由處理單元及其稱為聯(lián)接的無向訊號通道互連而成。這理單元及其稱為聯(lián)接的無向訊號通道互連而成。這些處理單元(些處理單元(PEProcessing Element)具有局部內(nèi))具有局部內(nèi)存,并可以完成局部操作。每個處理單元有一個單存,并可以完成局部操作。每個處理單元有一個單一的輸出聯(lián)接,這個輸出可以根據(jù)需要被分枝成希一的輸出聯(lián)接,這個輸出可以根據(jù)需要被分枝成希望個數(shù)的許多并行聯(lián)接,且這些并行聯(lián)接都輸出相望個數(shù)的許多并行聯(lián)接,且這些并行聯(lián)接都輸出相同的信號,即相應處理單元的信號,信號的大

3、小不同的信號,即相應處理單元的信號,信號的大小不因分支的多少而變化。因分支的多少而變化。4處理單元的輸出信號可以是任何需要處理單元的輸出信號可以是任何需要的數(shù)學模型,每個處理單元中進行的數(shù)學模型,每個處理單元中進行的操作必須是完全局部的。也就是的操作必須是完全局部的。也就是說,它必須僅僅依賴于經(jīng)過輸入聯(lián)說,它必須僅僅依賴于經(jīng)過輸入聯(lián)接到達處理單元的所有輸入信號的接到達處理單元的所有輸入信號的當前值和存儲在處理單元局部內(nèi)存當前值和存儲在處理單元局部內(nèi)存中的值。中的值。5n強調(diào):強調(diào):n 并行、分布處理結(jié)構(gòu);并行、分布處理結(jié)構(gòu);n 一個處理單元的輸出可以被任意分枝,一個處理單元的輸出可以被任意分枝

4、,且大小不變;且大小不變;n 輸出信號可以是任意的數(shù)學模型;輸出信號可以是任意的數(shù)學模型;n 處理單元完全的局部操作處理單元完全的局部操作 6(2) Rumellhart,McClelland,Hinton的的PDP n1) 一組處理單元一組處理單元(PE或或AN););n2) 處理單元的處理單元的激活狀態(tài)激活狀態(tài)(ai););n3) 每個處理單元的每個處理單元的輸出函數(shù)輸出函數(shù)(fi););n4) 處理單元之間的處理單元之間的聯(lián)接模式聯(lián)接模式;n5) 傳遞規(guī)則傳遞規(guī)則(wijoi););n6) 把處理單元的輸入及當前狀態(tài)結(jié)合起來產(chǎn)生激活把處理單元的輸入及當前狀態(tài)結(jié)合起來產(chǎn)生激活值的值的激活規(guī)

5、則激活規(guī)則(Fi););n7) 通過經(jīng)驗修改聯(lián)接強度的通過經(jīng)驗修改聯(lián)接強度的學習規(guī)則學習規(guī)則;n8) 系統(tǒng)運行的環(huán)境(系統(tǒng)運行的環(huán)境(樣本樣本集合)。集合)。 7人工神經(jīng)網(wǎng)絡(luò)的概念人工神經(jīng)網(wǎng)絡(luò)的概念2、關(guān)鍵點、關(guān)鍵點(1 1)信息的分布表示)信息的分布表示(2 2)運算的全局并行與局部操作)運算的全局并行與局部操作(3 3)處理的非線性特征)處理的非線性特征3、對大腦基本特征的模擬、對大腦基本特征的模擬1) 形式上:神經(jīng)元及其聯(lián)接;形式上:神經(jīng)元及其聯(lián)接;BN對對AN2) 表現(xiàn)特征:信息的存儲與處理表現(xiàn)特征:信息的存儲與處理84 4 特點特點-基本特征的自動提取基本特征的自動提取 n由于其運算

6、的由于其運算的不精確性不精確性,表現(xiàn)成,表現(xiàn)成“去噪去噪音、容殘缺音、容殘缺”的能力,利用這種不精確的能力,利用這種不精確性,比較自然地實現(xiàn)模式的自動分類。性,比較自然地實現(xiàn)模式的自動分類。n泛化(泛化(Generalization)能力與抽象能力)能力與抽象能力 9n4 4 特點特點-信息的分布存放信息的分布存放n信息的分布存放提供了容錯功能信息的分布存放提供了容錯功能n由于信息被分布存放在幾乎整個網(wǎng)絡(luò)中,所以,當由于信息被分布存放在幾乎整個網(wǎng)絡(luò)中,所以,當其中的某一個點或者某幾個點被破壞時,信息仍然其中的某一個點或者某幾個點被破壞時,信息仍然可以被存取??梢员淮嫒?。n系統(tǒng)在受到系統(tǒng)在受到局

7、部局部損傷時還可以正常工作。損傷時還可以正常工作。n并不是說可以任意地對完成學習的網(wǎng)絡(luò)進行修并不是說可以任意地對完成學習的網(wǎng)絡(luò)進行修改。也正是由于信息的分布存放,對一類網(wǎng)絡(luò)改。也正是由于信息的分布存放,對一類網(wǎng)絡(luò)來說,當它完成學習后,如果再讓它學習新的來說,當它完成學習后,如果再讓它學習新的東西,這時就會破壞原來已學會的東西。東西,這時就會破壞原來已學會的東西。 104 4 特點特點-適應性適應性( (Applicability)問題問題 n擅長兩個方面:擅長兩個方面:n對大量的數(shù)據(jù)進行分類,并且只有較少的幾種情況;對大量的數(shù)據(jù)進行分類,并且只有較少的幾種情況;n必須學習一個復雜的非線性映射。

8、必須學習一個復雜的非線性映射。n目前應用:目前應用:n人們主要將其用于語音、視覺、知識處理、輔助決策人們主要將其用于語音、視覺、知識處理、輔助決策等方面。等方面。n在數(shù)據(jù)壓縮、模式匹配、系統(tǒng)建模、模糊控制、組合在數(shù)據(jù)壓縮、模式匹配、系統(tǒng)建模、模糊控制、組合優(yōu)化近似求解等方面也有較好的應用。優(yōu)化近似求解等方面也有較好的應用。 11二、二、 ANN基礎(chǔ)基礎(chǔ)n主要內(nèi)容主要內(nèi)容:n神經(jīng)元神經(jīng)元;n拓撲結(jié)構(gòu);拓撲結(jié)構(gòu);n存儲;存儲;n訓練訓練n難點:難點:訓練訓練122.1 2.1 生物神經(jīng)網(wǎng)生物神經(jīng)網(wǎng)1、構(gòu)成、構(gòu)成胞體胞體(Soma)枝蔓(枝蔓(Dendrite)胞體胞體(Soma) 軸突(軸突(Ax

9、on)突觸(突觸(Synapse)2、工作過程、工作過程132.1 2.1 生物神經(jīng)網(wǎng)生物神經(jīng)網(wǎng)n3、六個基本特征:、六個基本特征:n1)神經(jīng)元及其聯(lián)接神經(jīng)元及其聯(lián)接;n2)神經(jīng)元之間的聯(lián)接強度決定神經(jīng)元之間的聯(lián)接強度決定信號傳遞信號傳遞的強弱;的強弱;n3)神經(jīng)元之間的聯(lián)接強度是可以隨神經(jīng)元之間的聯(lián)接強度是可以隨訓練訓練改變的;改變的;n4)信號可以是起信號可以是起刺激刺激作用的,也可以是起作用的,也可以是起抑制抑制作用的;作用的;n5)一個神經(jīng)元接受的信號的一個神經(jīng)元接受的信號的累積效果累積效果決定該神經(jīng)元的狀決定該神經(jīng)元的狀態(tài);態(tài);n6) 每個神經(jīng)元可以有一個每個神經(jīng)元可以有一個“閾值閾

10、值”。142.2 人工神經(jīng)元人工神經(jīng)元 n神經(jīng)元是構(gòu)成神經(jīng)網(wǎng)絡(luò)的基本單元神經(jīng)元是構(gòu)成神經(jīng)網(wǎng)絡(luò)的基本單元n人工神經(jīng)元模型應該具有生物神經(jīng)元的人工神經(jīng)元模型應該具有生物神經(jīng)元的六個基本特性六個基本特性152.2.1 人工神經(jīng)元的基本構(gòu)成人工神經(jīng)元的基本構(gòu)成 n人工神經(jīng)元模擬生物神經(jīng)元的人工神經(jīng)元模擬生物神經(jīng)元的一階特性一階特性。n輸入:輸入:X=(x1,x2,xn)n聯(lián)接權(quán):聯(lián)接權(quán):W=(w1,w2,wn)Tn網(wǎng)絡(luò)輸入:網(wǎng)絡(luò)輸入: net=xiwin向量形式:向量形式: net=XWxn wnx1 w1x2 w2net=XW162.2.2 激活函數(shù)激活函數(shù)(Activation Function)

11、 n激活函數(shù)激活函數(shù)執(zhí)行對該神經(jīng)元所獲得的執(zhí)行對該神經(jīng)元所獲得的網(wǎng)絡(luò)輸入的變換,也可以稱為激勵函數(shù)、網(wǎng)絡(luò)輸入的變換,也可以稱為激勵函數(shù)、活化函數(shù):活化函數(shù): o=f(net) n1、線性函數(shù)(、線性函數(shù)(Liner Function) f(net)=k*net+c netooc172、非線性斜面函數(shù)、非線性斜面函數(shù)(Ramp Function) if netf(net)= k*net if |net|0為一常數(shù),被稱為飽和值,為該神經(jīng)元的為一常數(shù),被稱為飽和值,為該神經(jīng)元的最大輸出。最大輸出。 18Ramp Function - - net o 193、閾值函數(shù)(、閾值函數(shù)(Threshold

12、 Function)階躍函數(shù))階躍函數(shù)if netf(net)=-if net 、均為非負實數(shù),均為非負實數(shù),為閾值為閾值二值形式:二值形式:1if netf(net)=0if net 雙極形式:雙極形式:1if netf(net)=-1if net 203、Threshold Function -onet0214、S形函數(shù)形函數(shù) 壓縮函數(shù)(壓縮函數(shù)(Squashing Function)和邏輯斯)和邏輯斯特函數(shù)(特函數(shù)(Logistic Function)。)。f(net)=a+b/(1+exp(-d*net)a,b,d為常數(shù)。為常數(shù)。最簡單形式為:最簡單形式為:f(net)= 1/(1+e

13、xp(-d*net)nS形函數(shù)有較好的增益控制形函數(shù)有較好的增益控制 224、S形函數(shù)形函數(shù) a+b o(0,c)netac=a+b/2232.2.3 M-P模型模型 x2 w2 fo=f(net)xn wnnet=XWx1 w1McCullochPitts(MP)模型,)模型,也稱為處理單元(也稱為處理單元(PE) 242.3 人工神經(jīng)網(wǎng)絡(luò)的拓撲特性人工神經(jīng)網(wǎng)絡(luò)的拓撲特性 連接的拓撲表示連接的拓撲表示 ANiwijANj 252.3.1 聯(lián)接模式聯(lián)接模式 n用正號(用正號(“+”,可省略)表示傳送來的,可省略)表示傳送來的信號起信號起刺激刺激作用,它用于增加神經(jīng)元的作用,它用于增加神經(jīng)元的活

14、躍度;活躍度;n用負號(用負號(“-”)表示傳送來的信號起)表示傳送來的信號起抑抑制制作用,它用于降低神經(jīng)元的活躍度。作用,它用于降低神經(jīng)元的活躍度。n層次層次(又稱為(又稱為“級級”)的劃分,導致了)的劃分,導致了神經(jīng)元之間的三種不同的神經(jīng)元之間的三種不同的互連模式互連模式: 262.3.1 聯(lián)接模式聯(lián)接模式 n1、 層(級)內(nèi)聯(lián)接層(級)內(nèi)聯(lián)接n層內(nèi)聯(lián)接又叫做區(qū)域內(nèi)(層內(nèi)聯(lián)接又叫做區(qū)域內(nèi)(Intra-field)聯(lián)接或側(cè)聯(lián)接(聯(lián)接或側(cè)聯(lián)接(Lateral)。)。n用來加強和完成層內(nèi)神經(jīng)元之間的競用來加強和完成層內(nèi)神經(jīng)元之間的競爭爭n2 2、 循環(huán)聯(lián)接循環(huán)聯(lián)接n反饋信號。反饋信號。 272.

15、3.1 聯(lián)接模式聯(lián)接模式n3、層(級)間聯(lián)接、層(級)間聯(lián)接 n層間(層間(Inter-field)聯(lián)接指不同層中的)聯(lián)接指不同層中的神經(jīng)元之間的聯(lián)接。這種聯(lián)接用來實神經(jīng)元之間的聯(lián)接。這種聯(lián)接用來實現(xiàn)層間的信號傳遞現(xiàn)層間的信號傳遞n前饋信號前饋信號n反饋信號反饋信號 282.3.2 網(wǎng)絡(luò)的分層結(jié)構(gòu)網(wǎng)絡(luò)的分層結(jié)構(gòu) n單級網(wǎng)單級網(wǎng) 29簡單單級網(wǎng)簡單單級網(wǎng)x1x2xno1o2omwnmw11w1mw2mwn1輸出層輸出層輸入層輸入層30簡單單級網(wǎng)簡單單級網(wǎng)nW=(wij)n輸出層的第輸出層的第j個神經(jīng)元的網(wǎng)絡(luò)輸入記為個神經(jīng)元的網(wǎng)絡(luò)輸入記為netj:nnetj=x1w1j+x2w2j+xnwnjn其

16、中其中, 1 j m。取。取nNET=(net1,net2,netm)nNET=XWnO=F(NET)31多級網(wǎng)多級網(wǎng)o1o2omx1x2xn輸出層輸出層隱藏層隱藏層輸入層輸入層32n層次劃分層次劃分 n信號只被允許從較低層流向較高層。信號只被允許從較低層流向較高層。n層號確定層的高低:層號較小者,層次較低,層號較大者,層次較高。層號確定層的高低:層號較小者,層次較低,層號較大者,層次較高。n輸入層輸入層:被記作第:被記作第0層。該層負責接收來自網(wǎng)絡(luò)外部的信息層。該層負責接收來自網(wǎng)絡(luò)外部的信息輸出層輸出層隱藏層隱藏層輸入層輸入層o1o2omx1x2xn33n第第j層層:第:第j-1層的直接后繼

17、層(層的直接后繼層(j0),它直接接受第),它直接接受第j-1層的輸出。層的輸出。n輸出層輸出層:它是網(wǎng)絡(luò)的最后一層,具有該網(wǎng)絡(luò)的最大層號,負責輸出網(wǎng)絡(luò)的:它是網(wǎng)絡(luò)的最后一層,具有該網(wǎng)絡(luò)的最大層號,負責輸出網(wǎng)絡(luò)的計算結(jié)果。計算結(jié)果。n隱藏層隱藏層:除輸入層和輸出層以外的其它各層叫隱藏層。隱藏層不直接接受:除輸入層和輸出層以外的其它各層叫隱藏層。隱藏層不直接接受外界的信號,也不直接向外界發(fā)送信號外界的信號,也不直接向外界發(fā)送信號輸出層輸出層隱藏層隱藏層輸入層輸入層o1o2omx1x2xn34n約定約定 :n輸出層的層號為該網(wǎng)絡(luò)的層數(shù):輸出層的層號為該網(wǎng)絡(luò)的層數(shù):n層網(wǎng)絡(luò),或?qū)泳W(wǎng)絡(luò),或n級網(wǎng)絡(luò)。級

18、網(wǎng)絡(luò)。n第第j-1層到第層到第j層的聯(lián)接矩陣為第層的聯(lián)接矩陣為第j層聯(lián)接矩陣,輸出層對應的矩陣叫輸層聯(lián)接矩陣,輸出層對應的矩陣叫輸出層聯(lián)接矩陣。今后,在需要的時候,一般我們用出層聯(lián)接矩陣。今后,在需要的時候,一般我們用W(j)表示第表示第j層矩層矩陣陣。輸出層輸出層隱藏層隱藏層輸入層輸入層o1o2omx1x2xnW(1)W(2)W(3)W(h)35循環(huán)網(wǎng)循環(huán)網(wǎng)x1o1輸出層輸出層隱藏層隱藏層輸入層輸入層x2o2omxn36循環(huán)網(wǎng)循環(huán)網(wǎng) n如果將輸出信號反饋到輸入端如果將輸出信號反饋到輸入端,就可構(gòu)成一個多就可構(gòu)成一個多層的循環(huán)網(wǎng)絡(luò)。層的循環(huán)網(wǎng)絡(luò)。n輸入的原始信號被逐步地輸入的原始信號被逐步地“

19、加強加強”、被、被“修修復復”。n大腦的大腦的短期記憶特征短期記憶特征看到的東西不是一下看到的東西不是一下子就從腦海里消失的。子就從腦海里消失的。n穩(wěn)定穩(wěn)定:反饋信號會引起網(wǎng)絡(luò)輸出的不斷變化。:反饋信號會引起網(wǎng)絡(luò)輸出的不斷變化。我們希望這種變化逐漸減小,并且最后能消失。我們希望這種變化逐漸減小,并且最后能消失。當變化最后消失時,網(wǎng)絡(luò)達到了平衡狀態(tài)。如當變化最后消失時,網(wǎng)絡(luò)達到了平衡狀態(tài)。如果這種變化不能消失,則稱該網(wǎng)絡(luò)是不穩(wěn)定的。果這種變化不能消失,則稱該網(wǎng)絡(luò)是不穩(wěn)定的。 372.4 人工神經(jīng)網(wǎng)絡(luò)的訓練人工神經(jīng)網(wǎng)絡(luò)的訓練 n人工神經(jīng)網(wǎng)絡(luò)最具有吸引力的特點是它人工神經(jīng)網(wǎng)絡(luò)最具有吸引力的特點是它的

20、學習能力。的學習能力。n1962年,年,Rosenblatt給出了人工神經(jīng)網(wǎng)絡(luò)給出了人工神經(jīng)網(wǎng)絡(luò)著名的學習定理:人工神經(jīng)網(wǎng)絡(luò)可以學著名的學習定理:人工神經(jīng)網(wǎng)絡(luò)可以學會它可以表達的任何東西。會它可以表達的任何東西。n人工神經(jīng)網(wǎng)絡(luò)的表達能力大大地限制了人工神經(jīng)網(wǎng)絡(luò)的表達能力大大地限制了它的學習能力。它的學習能力。n人工神經(jīng)網(wǎng)絡(luò)的學習過程就是對它的訓人工神經(jīng)網(wǎng)絡(luò)的學習過程就是對它的訓練過程練過程382.4.1無導師學習無導師學習 n無導師學習無導師學習(Unsupervised Learning)與無與無導師訓練導師訓練(Unsupervised Training)相對應相對應 n學習的目的:抽取樣

21、本集合中蘊含的統(tǒng)學習的目的:抽取樣本集合中蘊含的統(tǒng)計特性計特性,并以神經(jīng)元之間的聯(lián)接權(quán)的形,并以神經(jīng)元之間的聯(lián)接權(quán)的形式存于網(wǎng)絡(luò)中。式存于網(wǎng)絡(luò)中。392.4.1無導師學習無導師學習nHebb學習律、競爭與協(xié)同(學習律、競爭與協(xié)同(Competitive and Cooperative)學習、隨機聯(lián)接系統(tǒng)()學習、隨機聯(lián)接系統(tǒng)(Randomly Connected Learning)等。)等。nHebb算法算法D. O. Hebb在在1961年年的核心:的核心:n當兩個神經(jīng)元同時處于激發(fā)狀態(tài)時被加強,否當兩個神經(jīng)元同時處于激發(fā)狀態(tài)時被加強,否則被減弱。則被減弱。n數(shù)學表達式表示:數(shù)學表達式表示:

22、nWij(t+1)=Wij(t)+oi(t)oj(t)402.4.2 有導師學習有導師學習 n有導師學習有導師學習(Supervised Learning)與有導師訓與有導師訓練練(Supervised Training)相對應。相對應。n輸入向量與其對應的輸出向量構(gòu)成一個輸入向量與其對應的輸出向量構(gòu)成一個“訓練訓練對對”。n有導師學習的訓練算法的主要步驟包括:有導師學習的訓練算法的主要步驟包括:1) 從樣本集合中取一個樣本(從樣本集合中取一個樣本(Ai,Bi););2) 計算出網(wǎng)絡(luò)的實際輸出計算出網(wǎng)絡(luò)的實際輸出O; 3) 求求D=Bi-O;4) 根據(jù)根據(jù)D調(diào)整權(quán)矩陣調(diào)整權(quán)矩陣W; 5 5)

23、對每個樣本重復上述過程,直到對整個樣本集對每個樣本重復上述過程,直到對整個樣本集來說,誤差不超過規(guī)定范圍。來說,誤差不超過規(guī)定范圍。 41Delta規(guī)則規(guī)則 Widrow和和Hoff的寫法的寫法:Wij( (t+1) )=Wij( (t) )+( (yj- aj( (t)oi( (t) )也可以寫成:也可以寫成:Wij( (t+1) )=Wij( (t) )+ Wij( (t) ) Wij(t)(t)=joi(t)(t)j=yj- aj(t)(t)Grossberg的寫法為:的寫法為: Wij(t)=a(t)=ai i(t)(o(t)(oj j(t)-W(t)-Wijij(t)(t)更一般的更

24、一般的Delta規(guī)則為:規(guī)則為: Wij( (t) )=g( (ai(t),yj,oj( (t) ),Wij( (t)42三、感知器三、感知器 n重點:重點:感知器的結(jié)構(gòu)感知器的結(jié)構(gòu) 表達能力表達能力 學習算法學習算法n難點:難點:感知器的表達能力感知器的表達能力 433.1 感知器結(jié)構(gòu)感知器結(jié)構(gòu)o1多輸出感知器多輸出感知器x1x2o2omxn 輸入層輸入層輸出層輸出層443.2 感知器的學習算法感知器的學習算法 n 感知器的學習是有導師學習感知器的學習是有導師學習n 感知器的訓練算法的基本原理來源于感知器的訓練算法的基本原理來源于著名的著名的Hebb學習律學習律n 基本思想:逐步地將樣本集中

25、的樣本基本思想:逐步地將樣本集中的樣本輸入到網(wǎng)絡(luò)中輸入到網(wǎng)絡(luò)中,根據(jù)輸出結(jié)果和理想輸出根據(jù)輸出結(jié)果和理想輸出之間的差別來調(diào)整網(wǎng)絡(luò)中的權(quán)矩陣之間的差別來調(diào)整網(wǎng)絡(luò)中的權(quán)矩陣 453.2.1離散單輸出感知器訓練算法離散單輸出感知器訓練算法 n二值網(wǎng)絡(luò):自變量及其函數(shù)的值、向量二值網(wǎng)絡(luò):自變量及其函數(shù)的值、向量分量的值只取分量的值只取0和和1函數(shù)、向量。函數(shù)、向量。n權(quán)向量:權(quán)向量:W=( (w1,w2,wn) )n輸入向量:輸入向量:X=( (x1,x2,xn) )n訓練樣本集:訓練樣本集:n(X,Y) )|Y為輸入向量為輸入向量X對應的輸出對應的輸出 46算法算法3-1離散單輸出感知器訓練算法離散

26、單輸出感知器訓練算法 1. 初始化權(quán)向量初始化權(quán)向量W;2. 重復下列過程,直到訓練完成:重復下列過程,直到訓練完成:2.1 對每個樣本(對每個樣本(X,Y),重復如下過程:),重復如下過程:2.1.1 輸入輸入X;2.1.2 計算計算o=F(XW););2.1.3 如果輸出不正確,則如果輸出不正確,則當當o=0時,取時,取 W=W+X,當當o=1時,取時,取 W=W-X 473.2.2離散多輸出感知器訓練算法離散多輸出感知器訓練算法 n樣本集:樣本集:( (X, ,Y)|Y為輸入向量為輸入向量X對應的輸出對應的輸出n輸入向量:輸入向量:X=( (x1, ,x2, , ,xn) )n理想輸出向

27、量:理想輸出向量:Y=( (y1, ,y2, , ,ym) )n激活函數(shù):激活函數(shù):F n權(quán)矩陣權(quán)矩陣W=( (wij) )n實際輸出向量:實際輸出向量:O=( (o1, ,o2, , ,om) )o1多輸出感知器多輸出感知器x1x2o2omxn 輸入層輸入層輸出層輸出層48算法算法3-2離散多輸出感知器訓練算法離散多輸出感知器訓練算法 1.初始化權(quán)矩陣初始化權(quán)矩陣W;2.重復下列過程,直到訓練完成:重復下列過程,直到訓練完成: 2.1 對每個樣本(對每個樣本(X,Y),重復如下過程:),重復如下過程:2.1.1 輸入輸入X;2.1.2 計算計算O=F(XW););2.1.3 for j=1

28、to m do 執(zhí)行如下操作:執(zhí)行如下操作:if oj yj then if oi = 0 then for i = 1 to n wij=wij+xi else for i= 1 to n do wij=wij-xi493.2.3 連續(xù)多輸出感知器訓練算法連續(xù)多輸出感知器訓練算法 n用公式用公式wij=wij+(yj-oj)xi取代了算法取代了算法3-2 第第2.1.3步中的多個判斷步中的多個判斷nyj與與oj之間的差別對之間的差別對wij的影響由的影響由(yj-oj)xi表現(xiàn)出來表現(xiàn)出來n好處:不僅使得算法的控制在結(jié)構(gòu)上更好處:不僅使得算法的控制在結(jié)構(gòu)上更容易理解,而且還使得它的適應面更寬

29、容易理解,而且還使得它的適應面更寬 50算法3-3 連續(xù)多輸出感知器訓練算法連續(xù)多輸出感知器訓練算法 1用適當?shù)男坞S機數(shù)初始化權(quán)矩陣用適當?shù)男坞S機數(shù)初始化權(quán)矩陣W;2. 初置精度控制參數(shù)初置精度控制參數(shù),學習率,學習率,精度控制變量,精度控制變量d=+1;3While d do 3.1 d=0; 3.2 for 每個樣本(每個樣本(X,Y)do3.2.1 輸入輸入X(=(x1,x2,xn)););3.2.2 求求O=F(XW););3.2.3 修改權(quán)矩陣修改權(quán)矩陣W:for i=1 to n,j=1 to m dowij=wij+(yj-oj)xi;3.2.4 累積誤差累積誤差for j

30、= 1 to m dod=d+(yj-oj)251算法算法3-3 連續(xù)多輸出感知器訓練算法連續(xù)多輸出感知器訓練算法 1、程序?qū)崿F(xiàn)程序?qū)崿F(xiàn): :、d、i、j、n、m為簡單變量來表示,為簡單變量來表示,W為為n行行m列的二維數(shù)組。樣本集二維數(shù)組列的二維數(shù)組。樣本集二維數(shù)組2、系統(tǒng)的調(diào)試系統(tǒng)的調(diào)試3、Minsky在在1969年證明,有許多基本問題是感知器無年證明,有許多基本問題是感知器無法解決法解決4、問題線性可分性可能與時間有關(guān)問題線性可分性可能與時間有關(guān)5、很難從樣本數(shù)據(jù)集直接看出問題是否線性可分很難從樣本數(shù)據(jù)集直接看出問題是否線性可分6、未能證明,一個感知器究竟需要經(jīng)過多少步才能完未能證明,一

31、個感知器究竟需要經(jīng)過多少步才能完成訓練。成訓練。523.3 線性不可分問題線性不可分問題 3.3.1 異或異或(Exclusive OR)問題問題 g(x,y)y01x00111053用于求解用于求解XORXOR的單神經(jīng)元感知器的單神經(jīng)元感知器 xyo單神經(jīng)元感知器單神經(jīng)元感知器的圖像的圖像ax+by=1yx1(0,0)(1,1)54線性不可分函數(shù)線性不可分函數(shù)變量變量函數(shù)及其值函數(shù)及其值xyf1f2f3f4f5f6f7f8f9f10f11f12f13f14f15f16000000000011111111010000111100001111100011001100110011110101010

32、10101010155線性不可分函數(shù)線性不可分函數(shù)nR. O. Windner 1960年年 自變量個數(shù)自變量個數(shù)函數(shù)的個數(shù)函數(shù)的個數(shù)線性可分函數(shù)的個數(shù)線性可分函數(shù)的個數(shù)144216143256104465,536188254.3*10994,57261.8*10195,028,134563.3.2 線性不可分問題的克服線性不可分問題的克服 n用多個單級網(wǎng)組合在一起,并用其中的用多個單級網(wǎng)組合在一起,并用其中的一個去綜合其它單級網(wǎng)的結(jié)果,我們就一個去綜合其它單級網(wǎng)的結(jié)果,我們就可以構(gòu)成一個兩級網(wǎng)絡(luò),該網(wǎng)絡(luò)可以被可以構(gòu)成一個兩級網(wǎng)絡(luò),該網(wǎng)絡(luò)可以被用來在平面上劃分出一個封閉或者開放用來在平面上劃分

33、出一個封閉或者開放的凸域來的凸域來n一個非凸域可以拆分成多個凸域。按照一個非凸域可以拆分成多個凸域。按照這一思路,三級網(wǎng)將會更一般一些,我這一思路,三級網(wǎng)將會更一般一些,我們可以用它去識別出一些非凸域來。們可以用它去識別出一些非凸域來。n解決好隱藏層的聯(lián)接權(quán)的調(diào)整問題是非解決好隱藏層的聯(lián)接權(quán)的調(diào)整問題是非常關(guān)鍵的常關(guān)鍵的 57四、四、BP網(wǎng)絡(luò)網(wǎng)絡(luò) 4.1 概述概述 4.2 基本基本BP算法算法 4.3 算法的改進算法的改進 4.4 算法的實現(xiàn)算法的實現(xiàn) 4.5 算法的理論基礎(chǔ)算法的理論基礎(chǔ) 4.6 幾個問題的討論幾個問題的討論 584.1 概述概述 1、BP算法的出現(xiàn)算法的出現(xiàn)非循環(huán)多級網(wǎng)絡(luò)的

34、訓練算法非循環(huán)多級網(wǎng)絡(luò)的訓練算法U C S D P D P 小 組 的小 組 的 R u m e l h a r t 、 H i n t o n 和和Williams1986年獨立地給出了年獨立地給出了BP算法清楚而簡單的描算法清楚而簡單的描述述1982年,年,Paker就完成了相似的工作就完成了相似的工作1974年,年,Werbos已提出了該方法已提出了該方法2、弱點、弱點:訓練速度非常慢、局部極小點的逃離:訓練速度非常慢、局部極小點的逃離問題、算法不一定收斂。問題、算法不一定收斂。3、優(yōu)點:、優(yōu)點:廣泛的適應性和有效性。廣泛的適應性和有效性。594.2 基本基本BP算法算法 n4.2.1

35、網(wǎng)絡(luò)的構(gòu)成網(wǎng)絡(luò)的構(gòu)成 神經(jīng)元的網(wǎng)絡(luò)輸入:神經(jīng)元的網(wǎng)絡(luò)輸入:neti=x1w1i+x2w2i+xnwni神經(jīng)元的輸出:神經(jīng)元的輸出:netenetfo11)()1 ()()1 (1)(22ooooeenetfnetnet60輸出函數(shù)分析輸出函數(shù)分析 0.5f (net)0.25o0 1 1(0,0.5) net(0,0)oneteo11n應該將應該將net的值盡量控制在收斂比較快的范圍內(nèi)的值盡量控制在收斂比較快的范圍內(nèi)n可以用其它的函數(shù)作為激活函數(shù),只要該函數(shù)是處處可導的可以用其它的函數(shù)作為激活函數(shù),只要該函數(shù)是處處可導的61網(wǎng)絡(luò)的拓撲結(jié)構(gòu)網(wǎng)絡(luò)的拓撲結(jié)構(gòu)x1o1輸出層輸出層隱藏層隱藏層輸入層輸入

36、層x2o2omxnW(1)W(2)W(3)W(L)62網(wǎng)絡(luò)的拓撲結(jié)構(gòu)網(wǎng)絡(luò)的拓撲結(jié)構(gòu) nBP網(wǎng)的結(jié)構(gòu)網(wǎng)的結(jié)構(gòu)n輸入向量、輸出向量的維數(shù)、網(wǎng)絡(luò)隱藏輸入向量、輸出向量的維數(shù)、網(wǎng)絡(luò)隱藏層的層數(shù)和各個隱藏層神經(jīng)元的個數(shù)的層的層數(shù)和各個隱藏層神經(jīng)元的個數(shù)的決定決定n實驗:增加隱藏層的層數(shù)和隱藏層神經(jīng)實驗:增加隱藏層的層數(shù)和隱藏層神經(jīng)元個數(shù)不一定總能夠提高網(wǎng)絡(luò)精度和表元個數(shù)不一定總能夠提高網(wǎng)絡(luò)精度和表達能力。達能力。nBPBP網(wǎng)一般都選用二級網(wǎng)絡(luò)。網(wǎng)一般都選用二級網(wǎng)絡(luò)。63網(wǎng)絡(luò)的拓撲結(jié)構(gòu)網(wǎng)絡(luò)的拓撲結(jié)構(gòu)x1o1輸出層輸出層隱藏層隱藏層輸入層輸入層x2o2omxnWV644.2.24.2.2訓練過程概述訓練過程

37、概述 樣本:樣本:(輸入向量,理想輸出向量輸入向量,理想輸出向量) )權(quán)初始化:權(quán)初始化:“小隨機數(shù)小隨機數(shù)”與飽和狀態(tài);與飽和狀態(tài);“不同不同”保證網(wǎng)絡(luò)可以學。保證網(wǎng)絡(luò)可以學。1 1、前向傳播階段:、前向傳播階段:(1)從樣本集中取一個樣本)從樣本集中取一個樣本(Xp,Yp),將,將Xp輸入網(wǎng)絡(luò);輸入網(wǎng)絡(luò);(2)計算相應的實際輸出)計算相應的實際輸出Op:Op=Fl(F2(F1(XpW(1)W(2)W(L)65訓練過程概述訓練過程概述 2 2、后向傳播階段、后向傳播階段誤差傳播階段:誤差傳播階段:(1)計算實際輸出)計算實際輸出Op與相應的理想輸出與相應的理想輸出Yp的差;的差;(2)按極小

38、化誤差的方式調(diào)整權(quán)矩陣。)按極小化誤差的方式調(diào)整權(quán)矩陣。(3)網(wǎng)絡(luò)關(guān)于第)網(wǎng)絡(luò)關(guān)于第p p個樣本的誤差測度:個樣本的誤差測度:mjpjpjpoyE1221(4) 網(wǎng)絡(luò)關(guān)于整個樣本集的誤差測度:網(wǎng)絡(luò)關(guān)于整個樣本集的誤差測度:ppEE664.2.3 誤差傳播分析誤差傳播分析 1、輸出層權(quán)的調(diào)整、輸出層權(quán)的調(diào)整wpq= wpq+wpqwpq=qop=fn (netq)(yq-oq)op=oq(1-oq) (yq-oq)op wpqANpANq第第L-1層層第第L層層wpq672 2、隱藏層權(quán)的調(diào)整、隱藏層權(quán)的調(diào)整 ANpANqANhvhppk-11kwp1wpqqkwpmmk第第k-2層層第第k層層

39、第第k-1層層682 2、隱藏層權(quán)的調(diào)整、隱藏層權(quán)的調(diào)整pk-1的值和的值和1k,2k,mk 有關(guān)有關(guān)不妨認為不妨認為pk-1通過權(quán)通過權(quán)wp1對對1k做出貢獻,做出貢獻,通過權(quán)通過權(quán)wp2對對2k做出貢獻,做出貢獻,通過權(quán)通過權(quán)wpm對對mk做出貢獻。做出貢獻。pk-1= fk-1(netp) (wp11k+ wp22k+ wpmm k)692 2、隱藏層權(quán)的調(diào)整、隱藏層權(quán)的調(diào)整vhp=vhp+vhp vhp=pk-1ohk-2 =fk-1 (netp)( wp11k+ wp22k+ wpmmk)ohk-2=opk-1(1-opk-1)( wp11k+ wp22k+ wpmmk)ohk-2A

40、NpANqANhvhppk-11kwp1wpmqkwpqmk第第k-2層層第第k層層第第k-1層層704.2.4 基本的基本的BP算法算法 n樣本集:樣本集:S=(X1,Y1),(,(X2,Y2),),(,(Xs,Ys) ) n基本思想基本思想 :n逐一地根據(jù)樣本集中的樣本逐一地根據(jù)樣本集中的樣本(Xk,Yk)計算出實際輸出計算出實際輸出Ok和誤和誤差測度差測度E1,對,對W(1) ,W(2) ,W(L)各做一次調(diào)整,重復各做一次調(diào)整,重復這個循環(huán),直到這個循環(huán),直到Ep do 4.1 E=0; 72 4.2 對對S中的每一個樣本(中的每一個樣本(Xp,Yp):): 4.2.1 計算出計算出X

41、p對應的實際輸出對應的實際輸出Op; 4.2.2 計算出計算出Ep; 4.2.3 E=E+Ep; 4.2.4 根據(jù)相應式子調(diào)整根據(jù)相應式子調(diào)整W(L); 4.2.5 k=L-1; 4.2.6 while k0 do 4.2.6.1 根據(jù)相應式子調(diào)整根據(jù)相應式子調(diào)整W(k); 4.2.6.2 k=k-1 4.3 E=E/2.0 734.3 算法的改進算法的改進 1、BP網(wǎng)絡(luò)接受樣本的順序?qū)τ柧毥Y(jié)果有較大影響。網(wǎng)絡(luò)接受樣本的順序?qū)τ柧毥Y(jié)果有較大影響。它更它更“偏愛偏愛”較后出現(xiàn)的樣本較后出現(xiàn)的樣本2、給樣本集中的樣本安排一個適當?shù)捻樞?,是非常困給樣本集中的樣本安排一個適當?shù)捻樞?,是非常困難的。難的

42、。3、樣本順序影響結(jié)果的原因:樣本順序影響結(jié)果的原因:“分別分別”、“依次依次” 4、用用(X1,Y1),(,(X2,Y2),),(,(Xs,Ys)的)的“總效果總效果”修改修改W(1) ,W(2) ,W(L)。w(k)ij=p w(k)ij74算法算法4-2 4-2 消除樣本順序影響的消除樣本順序影響的BP算法算法 1 for k=1 to L do1.1 初始化初始化W(k);2 初始化精度控制參數(shù)初始化精度控制參數(shù);3 E=+1;4 while E do 4.1 E=0;4.2 對所有的對所有的i,j,k: w (k)ij=0; 754.3 對對S中的每一個樣本(中的每一個樣本(Xp,Y

43、p):):4.3.1 計算出計算出Xp對應的實際輸出對應的實際輸出Op;4.3.2 計算出計算出Ep;4.3.3 E=E+Ep;4.3.4 對所有對所有i,j根據(jù)相應式子計算根據(jù)相應式子計算p w (L)ij;4.3.5 對所有對所有i,j: w (L)ij= w (L)ij+p w (L)ij;4.3.6 k=L-1;4.3.7 while k0 do4.3.7.1 對所有對所有i, ,j根據(jù)相應式子計算根據(jù)相應式子計算p w (k)ij;4.3.7.2 對所有對所有i, ,j: w (k)ij= w (k)ij+p w (k)ij;4.3.7.3 k=k-1 4.4 對所有對所有i,j,k

44、:w (k)ij= w (k)ij+ w (k)ij;4.5 E=E/2.0 76算法算法4-2 分析分析 n較好地解決了因樣本的順序引起的精度較好地解決了因樣本的順序引起的精度問題和訓練的抖動問題問題和訓練的抖動問題 n收斂速度:比較慢收斂速度:比較慢n偏移量:給每一個神經(jīng)元增加一個偏移偏移量:給每一個神經(jīng)元增加一個偏移量來加快收斂速度量來加快收斂速度 n沖量沖量:聯(lián)接權(quán)的本次修改要考慮上次修聯(lián)接權(quán)的本次修改要考慮上次修改的影響,以減少抖動問題改的影響,以減少抖動問題 77算法算法4-2 分析分析沖量設(shè)置沖量設(shè)置nRumelhart等人等人1986年年nwij=joi+wijnwij為上一次

45、的修改量,為上一次的修改量,為沖量系數(shù),一般可為沖量系數(shù),一般可取到取到0.9 nSejnowski與與Rosenberg ,1987年年nwij=(1-) )joi+wij) nwij也是上一次的修改量,也是上一次的修改量,在在0和和1之間取值之間取值 784.4 算法的實現(xiàn)算法的實現(xiàn) n主要數(shù)據(jù)結(jié)構(gòu)主要數(shù)據(jù)結(jié)構(gòu)WH,m輸出層的權(quán)矩陣;輸出層的權(quán)矩陣;Vn,H輸入(隱藏)層的權(quán)矩陣;輸入(隱藏)層的權(quán)矩陣;om輸出層各聯(lián)接權(quán)的修改量組成的向量;輸出層各聯(lián)接權(quán)的修改量組成的向量;hH隱藏層各聯(lián)接權(quán)的修改量組成的向量;隱藏層各聯(lián)接權(quán)的修改量組成的向量;O1隱藏層的輸出向量;隱藏層的輸出向量;O2輸出層的輸出向量;輸出層的輸出向量;(X,Y)一個樣本。一個樣本。 79算法的主要實現(xiàn)步驟算法的主要實現(xiàn)步驟 n用不同的小偽隨機數(shù)初始化用不同的小偽隨機數(shù)初始化W,V;n初始化精度控制參數(shù)初始化精度控制參數(shù);

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論