基于BP神經(jīng)網(wǎng)絡(luò)的手寫數(shù)字識(shí)別_第1頁
基于BP神經(jīng)網(wǎng)絡(luò)的手寫數(shù)字識(shí)別_第2頁
基于BP神經(jīng)網(wǎng)絡(luò)的手寫數(shù)字識(shí)別_第3頁
基于BP神經(jīng)網(wǎng)絡(luò)的手寫數(shù)字識(shí)別_第4頁
基于BP神經(jīng)網(wǎng)絡(luò)的手寫數(shù)字識(shí)別_第5頁
已閱讀5頁,還剩24頁未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

1、基于BP神經(jīng)網(wǎng)絡(luò)的手寫數(shù)字識(shí)別 本文使用BP網(wǎng)絡(luò)進(jìn)行手寫數(shù)字識(shí)別,與以往將特征向量作為輸入不同,該網(wǎng)絡(luò)直接將圖像作為輸入,說明BP網(wǎng)絡(luò)具有處理大量低級(jí)信息(low level information)的能力.早前對(duì)簡單數(shù)字圖像的工作說明網(wǎng)絡(luò)結(jié)構(gòu)極大地影響了網(wǎng)絡(luò)泛化能力。良好的泛化能力可通過在網(wǎng)絡(luò)設(shè)計(jì)過程中引入先驗(yàn)知識(shí)得到。一個(gè)基本設(shè)計(jì)原則是減少自由參數(shù)(free parameters),而不用過度減少網(wǎng)絡(luò)的計(jì)算能力。另一方面,要在網(wǎng)絡(luò)結(jié)構(gòu)中涉及合適的約束條件。INTRODUCTION第1頁/共29頁ZIPCODE RECOGNITION選擇手寫數(shù)字識(shí)別作為研究對(duì)象是因?yàn)檫@是一個(gè)相對(duì)簡單的機(jī)器視

2、覺任務(wù):1.將黑白像素點(diǎn)作為輸入;2.數(shù)字能夠很好地與背景分離開;3.輸出只有10個(gè)類別;第2頁/共29頁存在的問題:1. 一般要得到較好的訓(xùn)練效果,隱層數(shù)目不能太少,當(dāng)圖片大的時(shí)候,需要的權(quán)值會(huì)非常多!2. 對(duì)平移、尺度變化敏感(比如數(shù)字偏左上角,右下角時(shí)即識(shí)別失?。?. 圖片在相鄰區(qū)域是相關(guān)的,而這種網(wǎng)絡(luò)只是一股腦把所有像素扔進(jìn)去,沒有考慮圖片相關(guān)性。用最簡單的神經(jīng)網(wǎng)絡(luò)進(jìn)行識(shí)別28*28像素的圖片第3頁/共29頁ZIPCODE RECOGNITION選用的數(shù)據(jù)集來自紐約郵局真實(shí)的數(shù)據(jù),包括各式各樣的手寫數(shù)字。作為補(bǔ)充,還加入了35種字體的打印數(shù)字。訓(xùn)練集:7291條手寫數(shù)字,2549條打印

3、數(shù)字測(cè)試集:2007條手寫數(shù)字,700條打印數(shù)字訓(xùn)練集與測(cè)試集中的打印數(shù)字的字體不同訓(xùn)練集與測(cè)試集中包含歧義的、未分類、無分類的數(shù)據(jù)第4頁/共29頁P(yáng)REPROCESSING 在字符識(shí)別的過程中,識(shí)別算法不需要關(guān)心圖像的彩色信息。因此,需要將彩色圖像轉(zhuǎn)化為灰度圖像。經(jīng)過灰度化處理后的圖像中還包含有背景信息。因此,我們還得進(jìn)一步處理,將背景噪聲屏蔽掉,突顯出字符輪廓信息。二值化處理就能夠?qū)⑵渲械淖址@現(xiàn)出來,并將背景去除掉。第5頁/共29頁THE NETWORK預(yù)處理之后,多層神經(jīng)網(wǎng)絡(luò)進(jìn)行識(shí)別。網(wǎng)絡(luò)中的所有連接都是自適應(yīng)的。輸入:歸一化圖像輸出:10個(gè)類,如數(shù)字 2 的結(jié)果如下:-1 -1 1

4、-1 -1 -1 -1 -1 -1 -1全連接的網(wǎng)絡(luò)由于有太多的自由參數(shù)而不能進(jìn)行良好的泛化:全局、局部局部感受野、權(quán)值共享、feature map第6頁/共29頁每種濾波器的參數(shù)不一樣,表示它提出輸入圖像的不同特征,例如不同的邊緣。這樣每種濾波器去卷積圖像就得到對(duì)圖像的不同特征的放映,我們稱之為Feature Map。一個(gè)feature map中的所有神經(jīng)元使用相同過濾器,不同層的feature map 使用不同的過濾器。第7頁/共29頁卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)一般地,C層為特征提取層,每個(gè)神經(jīng)元的輸入與前一層的局部感受野相連,并提取該局部的特征,一旦該局部特征被提取后,它與其他特征間的位置關(guān)系也隨

5、之確定下來;S層是特征映射層,網(wǎng)絡(luò)的每個(gè)計(jì)算層由多個(gè)特征映射組成,每個(gè)特征映射為一個(gè)平面,平面上所有神經(jīng)元的權(quán)值相等。特征映射結(jié)構(gòu)采用影響函數(shù)核小的sigmoid函數(shù)作為卷積網(wǎng)絡(luò)的激活函數(shù),使得特征映射具有位移不變性。最終,這些像素值被光柵化,并連接成一個(gè)向量輸入到傳統(tǒng)的神經(jīng)網(wǎng)絡(luò),得到輸出。卷積神經(jīng)網(wǎng)絡(luò)中的每一個(gè)特征提取層(C-層)都緊跟著一個(gè)用來求局部平均與二次提取的計(jì)算層(S-層),這種特有的兩次特征提取結(jié)構(gòu)減小了特征分辨率。第8頁/共29頁卷積和子采樣過程用一個(gè)可訓(xùn)練的濾波器fx去卷積一個(gè)輸入的圖像(第一階段是輸入的圖像,后面的階段就是卷積的feature map),然后加一個(gè)偏置bx,

6、得到卷積層Cx。卷積層的輸出= Sigmoid( Sum(卷積) +偏移量)子采樣(subsampling)過程包括:每鄰域四個(gè)像素求和變?yōu)橐粋€(gè)像素,然后通過標(biāo)量Wx+1加權(quán),再增加偏置bx+1,然后通過一個(gè)sigmoid激活函數(shù),產(chǎn)生一個(gè)大概縮小四倍的feature map Sx+1輸出= Sigmoid( 采樣*權(quán)重 +偏移量)第9頁/共29頁6個(gè)5X5模板LeNet-5手寫識(shí)別系統(tǒng) LeNet-5共有7層,不包含輸入,每層都包含可訓(xùn)練參數(shù)(連接權(quán)重)。輸入圖像為32*32大小。這要比Mnist數(shù)據(jù)庫(一個(gè)公認(rèn)的手寫數(shù)據(jù)庫)中最大的字母還大。這樣做的原因是希望潛在的明顯特征如筆畫斷電或角點(diǎn)

7、能夠出現(xiàn)在最高層特征監(jiān)測(cè)子感受野的中心第10頁/共29頁輸入圖像是32x32的大小,局部滑動(dòng)窗(卷積核)的大小是5x5的,由于不考慮對(duì)圖像的邊界進(jìn)行拓展,則滑動(dòng)窗將有28x28個(gè)不同的位置,也就是C1層的大小是28x28。這里設(shè)定有6個(gè)不同的C1層,每一個(gè)C1層內(nèi)的權(quán)值是相同的。C1層是一個(gè)卷積層(為什么是卷積?卷積運(yùn)算一個(gè)重要的特點(diǎn)就是,通過卷積運(yùn)算,可以使原信號(hào)特征增強(qiáng),并且降低噪音)每個(gè)層有多個(gè)Feature Map,每個(gè)Feature Map通過一種卷積濾波器提取輸入的一種特征(每種特征都不一樣),然后每個(gè)Feature Map有多個(gè)神經(jīng)元。第11頁/共29頁下一頁卷積的過程第12頁/

8、共29頁 S2層是一個(gè)下采樣層(利用圖像局部相關(guān)性的原理,對(duì)圖像進(jìn)行子抽樣,減小圖像規(guī)模同時(shí)保留有用信息),有6個(gè)14*14的特征圖。特征圖中的每個(gè)單元與C1中相對(duì)應(yīng)特征圖的2*2鄰域相連接,局部感受野互不覆蓋。S2層每個(gè)單元的4個(gè)輸入相加,乘以一個(gè)可訓(xùn)練參數(shù),再加上一個(gè)可訓(xùn)練偏置。結(jié)果通過sigmoid函數(shù)計(jì)算。每個(gè)單元的2*2感受野并不重疊,因此S2中每個(gè)特征圖的大小是C1中特征圖大小的1/4(行和列各1/2)LeNet-5文字識(shí)別第13頁/共29頁C3層也是一個(gè)卷積層,它同樣通過5x5的卷積核去卷積層S2,然后得到的feature map就只有10 x10個(gè)神經(jīng)元,但是它有16種不同的卷

9、積核,所以就存在16個(gè)feature map了。這里需要注意的一點(diǎn)是:C3中的每個(gè)feature map是連接到S2中的所有6個(gè)或者幾個(gè)feature map的,表示本層的feature map是上一層提取到的特征map的不同組合LeNet-5LeNet-5文字識(shí)別第14頁/共29頁S4層是一個(gè)下采樣層,由16個(gè)5*5大小的特征圖構(gòu)成。特征圖中的每個(gè)單元與C3中相應(yīng)特征圖的2*2鄰域相連接,跟C1和S2之間的連接一樣。LeNet-5LeNet-5文字識(shí)別第15頁/共29頁C5層是一個(gè)卷積層,有120個(gè)特征圖。每個(gè)單元與S4層的全部16個(gè)單元的5*5鄰域相連。由于S4層特征圖的大小也為5*5(同

10、濾波器一樣),故C5特征圖的大小為1*1:這構(gòu)成了S4和C5之間的全連接。之所以仍將C5標(biāo)示為卷積層而非全相聯(lián)層,是因?yàn)槿绻鸏eNet-5的輸入變大,而其他的保持不變,那么此時(shí)特征圖的維數(shù)就會(huì)比1*1大。LeNet-5LeNet-5文字識(shí)別第16頁/共29頁F6層有84個(gè)單元(之所以選這個(gè)數(shù)字的原因來自于輸出層的設(shè)計(jì)),與C5層全相連。F6層計(jì)算輸入向量和權(quán)重向量之間的點(diǎn)積,再加上一個(gè)偏置。然后將其傳遞給sigmoid函數(shù)產(chǎn)生單元i的一個(gè)狀態(tài)。由于經(jīng)典的BP網(wǎng)絡(luò)是一個(gè)一維節(jié)點(diǎn)分布排列,而卷積神經(jīng)網(wǎng)絡(luò)是二維網(wǎng)絡(luò)結(jié)構(gòu)。所以,要把卷積神經(jīng)網(wǎng)絡(luò)的每一層,按照一定的順序和規(guī)則映射為一維節(jié)點(diǎn)分布,然后,按

11、照這個(gè)分布創(chuàng)建一個(gè)多層反向傳播算法的網(wǎng)絡(luò)結(jié)構(gòu),就可以按照一般的BP訓(xùn)練算法去學(xué)習(xí)網(wǎng)絡(luò)參數(shù)輸出一般組織為“one-of-c”的形式,也就是只有該輸入對(duì)應(yīng)的類的輸出節(jié)點(diǎn)輸出為正,其他類的位或者節(jié)點(diǎn)為-1LeNet-5LeNet-5文字識(shí)別第17頁/共29頁第一階段,向前傳播階段:a)從樣本集中取一個(gè)樣本(X,Yp),X是輸入向量,Yp是理想輸出向量,將X輸入網(wǎng)絡(luò);b)計(jì)算相應(yīng)的實(shí)際輸出Op。 在此階段,信息從輸入層經(jīng)過逐級(jí)的變換,傳送到輸出層。這個(gè)過程也是網(wǎng)絡(luò)在完成訓(xùn)練后正常運(yùn)行時(shí)執(zhí)行的過程。在此過程中,網(wǎng)絡(luò)執(zhí)行的是計(jì)算(實(shí)際上就是輸入與每層的權(quán)值矩陣相點(diǎn)乘,得到最后的輸出結(jié)果): Op=Fn(F

12、2(F1(XpW(1)W(2)W(n)第二階段,向后傳播階段a)算實(shí)際輸出Op與相應(yīng)的理想輸出Yp的差;b)按極小化誤差的方法反向傳播調(diào)整權(quán)矩陣。BP訓(xùn)練過程第18頁/共29頁RESULTS在SUN SPARC上花了3天時(shí)間模擬訓(xùn)練了30次30次訓(xùn)練之后,訓(xùn)練集(7291條手寫數(shù)字和2549個(gè)打印數(shù)字)上的錯(cuò)誤率為1.1%,均方差為0.017在測(cè)試集(2007條手寫數(shù)字加上700條打印數(shù)字)上,錯(cuò)誤率為3.4%,均方差為0.024第19頁/共29頁CONCLUSION 卷積神經(jīng)網(wǎng)絡(luò)(CNNs)是第一個(gè)真正成功訓(xùn)練多層網(wǎng)絡(luò)結(jié)構(gòu)的學(xué)習(xí)算法。它利用空間關(guān)系減少需要學(xué)習(xí)的參數(shù)數(shù)目以提高一般前向BP算法

13、的訓(xùn)練性能。CNNs作為一個(gè)深度學(xué)習(xí)架構(gòu)提出是為了最小化數(shù)據(jù)的預(yù)處理要求。在CNN中,圖像的一小部分(局部感受野)作為層級(jí)結(jié)構(gòu)的最低層的輸入,信息再依次傳輸?shù)讲煌膶?,每層通過一個(gè)數(shù)字濾波器去獲得觀測(cè)數(shù)據(jù)的最顯著的特征。 卷積神經(jīng)網(wǎng)絡(luò)每一個(gè)隱藏層的神經(jīng)元提取圖像局部特征,將其映射成一個(gè)平面,特征映射函數(shù)采用 sigmoid 函數(shù)作為卷積網(wǎng)絡(luò)的激活函數(shù),使得特征映射具有位移不變性。第20頁/共29頁CONCLUSION 每個(gè)神經(jīng)元與前一層的局部感受野(local receptive field)相連。注意,不是局部連接的神經(jīng)元權(quán)值相同,而是同一平面層的神經(jīng)元權(quán)值相同,有相同程度的位移、旋轉(zhuǎn)不變性

14、,所以網(wǎng)絡(luò)能夠并行學(xué)習(xí)。其局部權(quán)值共享的特殊結(jié)構(gòu)布局更接近于實(shí)際的生物神經(jīng)網(wǎng)絡(luò),權(quán)值共享降低了網(wǎng)絡(luò)的復(fù)雜性,特別是多維輸入向量的圖像可以直接輸入網(wǎng)絡(luò)這一特點(diǎn)降低了特征提取和分類過程中數(shù)據(jù)重建的復(fù)雜度。 每個(gè)特征提取后都緊跟著一個(gè)用來求局部平均與二次提取的子采樣層。這種特有的兩次特征提取結(jié)構(gòu)使得網(wǎng)絡(luò)對(duì)輸入樣本有較高的畸變?nèi)萑棠芰?。綜上,卷積神經(jīng)網(wǎng)絡(luò)通過局部感受野、共享權(quán)值和子取樣(池化)來保證圖像對(duì)位移、縮放、扭曲的魯棒性。第21頁/共29頁THANKS第22頁/共29頁 本文使用BP網(wǎng)絡(luò)進(jìn)行手寫數(shù)字識(shí)別,與以往將特征向量作為輸入不同,該網(wǎng)絡(luò)直接將圖像作為輸入,說明BP網(wǎng)絡(luò)具有處理大量低級(jí)信息(

15、low level information)的能力.早前對(duì)簡單數(shù)字圖像的工作說明網(wǎng)絡(luò)結(jié)構(gòu)極大地影響了網(wǎng)絡(luò)泛化能力。良好的泛化能力可通過在網(wǎng)絡(luò)設(shè)計(jì)過程中引入先驗(yàn)知識(shí)得到。一個(gè)基本設(shè)計(jì)原則是減少自由參數(shù)(free parameters),而不用過度減少網(wǎng)絡(luò)的計(jì)算能力。另一方面,要在網(wǎng)絡(luò)結(jié)構(gòu)中涉及合適的約束條件。INTRODUCTION第23頁/共29頁存在的問題:1. 一般要得到較好的訓(xùn)練效果,隱層數(shù)目不能太少,當(dāng)圖片大的時(shí)候,需要的權(quán)值會(huì)非常多!2. 對(duì)平移、尺度變化敏感(比如數(shù)字偏左上角,右下角時(shí)即識(shí)別失敗)3. 圖片在相鄰區(qū)域是相關(guān)的,而這種網(wǎng)絡(luò)只是一股腦把所有像素扔進(jìn)去,沒有考慮圖片相關(guān)性

16、。用最簡單的神經(jīng)網(wǎng)絡(luò)進(jìn)行識(shí)別28*28像素的圖片第24頁/共29頁THE NETWORK預(yù)處理之后,多層神經(jīng)網(wǎng)絡(luò)進(jìn)行識(shí)別。網(wǎng)絡(luò)中的所有連接都是自適應(yīng)的。輸入:歸一化圖像輸出:10個(gè)類,如數(shù)字 2 的結(jié)果如下:-1 -1 1 -1 -1 -1 -1 -1 -1 -1全連接的網(wǎng)絡(luò)由于有太多的自由參數(shù)而不能進(jìn)行良好的泛化:全局、局部局部感受野、權(quán)值共享、feature map第25頁/共29頁每種濾波器的參數(shù)不一樣,表示它提出輸入圖像的不同特征,例如不同的邊緣。這樣每種濾波器去卷積圖像就得到對(duì)圖像的不同特征的放映,我們稱之為Feature Map。一個(gè)feature map中的所有神經(jīng)元使用相同過濾器,不同層的feature map 使用不同的過濾器。第26頁/共29頁C3層也是一個(gè)卷積層,它同樣通過5x5的卷積核去卷積層S2,然后得到的feature map就只有10 x10個(gè)神經(jīng)元,但是它有16種不同的卷積核,所以就存在16個(gè)feature map了。這里需要注意的一點(diǎn)是:C3中的每個(gè)feature map是連接到S2中的所有6個(gè)或者幾個(gè)feature map的,表示本層的featur

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論