字符識別的神經(jīng)網(wǎng)絡(luò)方法研究_第1頁
字符識別的神經(jīng)網(wǎng)絡(luò)方法研究_第2頁
字符識別的神經(jīng)網(wǎng)絡(luò)方法研究_第3頁
字符識別的神經(jīng)網(wǎng)絡(luò)方法研究_第4頁
字符識別的神經(jīng)網(wǎng)絡(luò)方法研究_第5頁
已閱讀5頁,還剩24頁未讀 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

目錄TOC\o"1-1"\t"標(biāo)題2,1,標(biāo)題3,1"\h\u10642前言 111334第一章緒論 2225301.1研究背景及意義 2165031.2深度學(xué)習(xí)的發(fā)展現(xiàn)狀 3283051.3字符識別發(fā)展及研究 4282971.4本文的主要組織結(jié)構(gòu) 619899第二章神經(jīng)網(wǎng)絡(luò)基礎(chǔ)介紹 8227862.1引言 8107602.2神經(jīng)網(wǎng)絡(luò)介紹 8220392.2.1神經(jīng)元基本簡介 8198282.2.2前向傳播算法(Forwardpropagation) 9107302.2.3反向傳播算法與梯度下降算法 11279852.3手寫字符數(shù)據(jù)集簡介 13305822.4本章小結(jié) 1432750第三章基于卷積神經(jīng)網(wǎng)絡(luò)的手寫字符識別 15179203.1引言 1563473.2卷積 15100043.3權(quán)值共享 16182163.4池化 16105753.5LetNet識別手寫字符 1746433.5.1使用LeNet進(jìn)行訓(xùn)練 17262403.5.2神經(jīng)網(wǎng)絡(luò)模型改進(jìn) 18181233.5.3改進(jìn)模型實驗結(jié)果 19122753.5.4識別錯誤原因分析 20122423.5.5對影響收斂速度因素的實驗測試 21127623.6本章小結(jié) 2119396第四章總結(jié)與展望 23284634.1本文工作總結(jié) 23322314.2后續(xù)工作展望 2316777參考文獻(xiàn) 2522323致謝 27摘要深度學(xué)習(xí)(DeepLearning)在機(jī)器學(xué)習(xí)領(lǐng)域中是一種重要的方法,也是在近年來越來越受到關(guān)注的一門機(jī)器學(xué)習(xí)算法。隨著神經(jīng)網(wǎng)絡(luò)技術(shù)的飛速發(fā)展,在目標(biāo)檢測、語義檢測、情感識別、圖像分割、圖像分類等領(lǐng)域取得了不少突破性的進(jìn)展。卷積神經(jīng)網(wǎng)絡(luò)是深度學(xué)習(xí)領(lǐng)域中的一項非常重要的網(wǎng)絡(luò)結(jié)構(gòu),它是一個前饋神經(jīng)網(wǎng)絡(luò)。人工神經(jīng)元可以響應(yīng)周圍的神經(jīng)單元,具有許多傳統(tǒng)神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)所不具備的優(yōu)異特性。本文針對手寫數(shù)字字符數(shù)據(jù)集,利用深度神經(jīng)網(wǎng)絡(luò)構(gòu)建了LeNet網(wǎng)絡(luò)進(jìn)行訓(xùn)練、識別,并對數(shù)據(jù)進(jìn)行了不同的數(shù)據(jù)增強(qiáng)(DataAugmentation),以此來研究比較最終網(wǎng)絡(luò)結(jié)構(gòu)的識別準(zhǔn)確率。本文的網(wǎng)絡(luò)結(jié)構(gòu)對手寫字符數(shù)據(jù)集的識別率達(dá)到了97.65%,并且在測試其他測試集時表現(xiàn)出了良好的適應(yīng)性。關(guān)鍵詞:深度學(xué)習(xí),字符識別,卷積神經(jīng)網(wǎng)絡(luò),模式識別,數(shù)據(jù)增強(qiáng)AbstractDeeplearningisasignificantmethodinmachinelearning,anditisalsoamachinelearningalgorithmthathasattractedmoreandmoreattentioninrecentyears.Withtherapiddevelopmentofneuralnetworktechnology,manybreakthroughshavebeenmadeinthefieldsoftargetdetection,semanticdetection,emotionrecognition,imagesegmentation,imageclassificationandsoon.Convolutionneuralnetworkisaveryimportantnetworkstructureinthefieldofdeeplearning.Itisafeedforwardneuralnetwork.Artificialneuronscanrespondtothesurroundingneuralunits,andhavemanyexcellentfeaturesthatmanytraditionalneuralnetworkstructuresdonotpossess.Inthispaper,forhandwrittendigitalcharacterdatasets,theLeNetnetworkistrainedandidentifiedbyusingdeepneuralnetwork,anddifferentDataAugmentationiscarriedouttothedatatocomparetherecognitionaccuracyofthefinalnetworkstructure.Therecognitionrateofthenetworkstructureinthispaperforhandwrittencharacterdatasetreaches97.65%,anditshowsgoodadaptabilityintestingothertestsets.Keywords:Deeplearning,characterrecognition,convolutionneuralnetwork,patternrecognition,machinelearning前言AI,也就是我們所說的人工智能,是人類所探求了許多年的終極理想。在最近幾年,隨著技術(shù)的飛躍,我們的生活已經(jīng)大大地被人工智能技術(shù)所改變,但是在目前,還沒有任何一臺計算機(jī)可以達(dá)到真正像人類一樣擁有自我意識的階段。圖靈在自己1950年的論文中曾經(jīng)提出過這樣一個理論,即被測試者與測試的人或機(jī)器分隔在兩個不同的房間,如果超過百分之三十的被測試人無法區(qū)分開與自己交流對話的是人類還是機(jī)器人,那么可以說這臺機(jī)器已經(jīng)通過了“圖靈測試”,可以認(rèn)為它一定程度上擁有了人類的智能。但是,人工智能的發(fā)展并沒有人們預(yù)料的那么順利,因為技術(shù)的發(fā)展并沒有達(dá)到圖靈測試的標(biāo)準(zhǔn),許多計算機(jī)科學(xué)家對此感到心灰意冷,漸漸開始冷落這項技術(shù),還有些技術(shù)員認(rèn)為這完全是一項遙不可及的偽科學(xué)。但是依舊有很多像LeCun這樣的計算機(jī)科學(xué)家沒有放棄對這一技術(shù)的追求,他們引領(lǐng)了深度學(xué)習(xí)的重新崛起,在多個領(lǐng)域取得了突破性的進(jìn)展。利用深度學(xué)習(xí)的相關(guān)算法,讓計算機(jī)可以從海量的數(shù)據(jù)集中歸納出相應(yīng)的特征,在用之前歸納得出的結(jié)果模型去匹配其他的樣本數(shù)據(jù)。從網(wǎng)絡(luò)結(jié)構(gòu)和算法的角度來分類的話,我們大致可以把機(jī)器學(xué)習(xí)的發(fā)展分為兩個階段:淺層學(xué)習(xí)與深度學(xué)習(xí)。階段一:淺層學(xué)習(xí)(shallowlearning)BP算法,即反向傳播算法是三十年前廣受關(guān)注的一種算法,科研人員發(fā)現(xiàn)它可以在人工神經(jīng)網(wǎng)絡(luò)(ANN)中發(fā)揮巨大的作用,并且大大的加快了機(jī)器學(xué)習(xí)領(lǐng)域的發(fā)展,在那之后有大量的研究人員投身于機(jī)器學(xué)習(xí)的研究和發(fā)展之中。并且在當(dāng)今學(xué)術(shù)界,仍然有不少的計算機(jī)科學(xué)家在從事這方面的研究工作。事實上,在一些問題的解決上,BP算法反而有著更加適宜的應(yīng)用場景。因為在之前更多使用的是基于人工規(guī)則的方式,所以這樣一種基于統(tǒng)計規(guī)則的機(jī)器學(xué)習(xí)算法在很多地方表現(xiàn)出了更加優(yōu)越的特性。階段二:深度學(xué)習(xí)(DeepLearning)2006年時,多倫多大學(xué)教授GeoffreyHinton發(fā)表了一篇產(chǎn)生了巨大影響的論文,在文中提出了以下兩個重要的觀點:1.當(dāng)需要處理分類和圖像問題時,使用多層神經(jīng)網(wǎng)絡(luò)可以對數(shù)據(jù)的特征進(jìn)行更充分的學(xué)習(xí)和表達(dá)。2.如果神經(jīng)網(wǎng)絡(luò)的隱層層數(shù)較多,應(yīng)該使用逐層訓(xùn)練的方式來解決。本文也主要采用了卷積神經(jīng)網(wǎng)絡(luò)來解決圖像訓(xùn)練和識別的相關(guān)問題。緒論本章首先介紹了深度學(xué)習(xí)相關(guān)領(lǐng)域的研究背景以及研究意義,并陳述了國內(nèi)外學(xué)者的研究現(xiàn)狀,主要包括了深度學(xué)習(xí)以及字符識別的發(fā)展歷程、目前的研究成果。其次介紹了當(dāng)前深度學(xué)習(xí)存在的一些不足,最后簡述了論文的組織結(jié)構(gòu)和主要工作。1.1研究背景及意義在機(jī)器學(xué)習(xí)領(lǐng)域中,深度學(xué)習(xí)(DeepLearning)是一種很重要的方法,它在語音及圖像識別領(lǐng)域已經(jīng)進(jìn)行了大規(guī)模的商業(yè)應(yīng)用。在過去的幾十年中,計算機(jī)科學(xué)家們一直致力于讓計算機(jī)變得更加智能,可以像人一樣進(jìn)行思考或用有感情的變化,總而言之,更加近似于人類大腦。目前,深度學(xué)習(xí)是一個正在飛速發(fā)展的領(lǐng)域,許多和我們生活息息相關(guān)的應(yīng)用以及研究方向也隨之誕生。在2016年的3月,Google的DeepMind團(tuán)隊與圍棋排名世界第一的韓國選手李世石展開了一場舉世矚目的圍棋大賽,最終AlphaGo4:1大勝李世石,為深度學(xué)習(xí)的廣泛傳播和快速發(fā)展提供了一次極佳的機(jī)遇。眾所周知,圍棋在所有棋類游戲中是屬于最復(fù)雜的一類,它擁有許多苦難復(fù)雜的數(shù)學(xué)問題,因此不得不說深度學(xué)習(xí)的發(fā)展速度之快令所有人感到震驚。在機(jī)器學(xué)習(xí)的早期發(fā)展階段,它研究和處理的主要內(nèi)容是對于人類十分困難而對于計算機(jī)卻又比較簡單的任務(wù)。在1997年,IBM科學(xué)計算中心研究發(fā)明的AI超級計算機(jī)“深藍(lán)”擊敗了國際象棋世界冠軍加里·卡斯帕羅夫。因為國際象棋的基本規(guī)則相對圍棋來說更加簡單,僅僅含有32個棋子以及64個位置,并且它們的移動方式是限定的,所以使用計算機(jī)針對性的建模也更加容易。然而隨著科技的不斷發(fā)展,計算機(jī)科學(xué)家認(rèn)為機(jī)器學(xué)習(xí)要解決的問題并不僅僅是數(shù)學(xué)與公式,而是人類平時需要面對的問題,并且傳統(tǒng)上這些問題難以用計算機(jī)來解決。如果我們把機(jī)器學(xué)習(xí)的發(fā)展方向定為讓機(jī)器也能像人一樣做到認(rèn)人臉、辨語音,那么首先要解決的是如何讓計算機(jī)可以像人類一樣通過認(rèn)知,即根據(jù)某些先驗知識來發(fā)展出自己的認(rèn)知體系,以表達(dá)出事物、工作的相關(guān)特征。最開始,計算機(jī)科學(xué)家們想到的解決方案是盡可能多地來提取一些特征,以供計算機(jī)學(xué)習(xí)。但他們面臨的最大挑戰(zhàn)是無法有效地提取一些事物的特征,比如科學(xué)家想要識別一幅畫面中的電腦。電腦都有鍵盤,所以計算機(jī)科學(xué)家想要把電腦的鍵盤作為識別的特征。但是計算機(jī)面對圖像與人類的思維并不一致,在像素的角度我們很難說一塊鍵盤到底應(yīng)該如何來組成。即使鍵盤的按鍵形狀比較規(guī)則和簡單,在實際檢測中它們卻經(jīng)常會受到各種其他因素的影響,比如光線的照射、屏幕投射下的陰影造成遮蔽、甚至鍵盤的各種顏色所造成的差異都會對識別造成影響。因為我們不可能把鍵盤在所有情況下的圖像數(shù)據(jù)全部收錄到學(xué)習(xí)數(shù)據(jù)中,我們必須根據(jù)電腦的相關(guān)特征來推斷出一臺電腦應(yīng)該具有的樣子。為了解決以上的問題,深度學(xué)習(xí)為我們提供了一種良好的方案。以上面的計算機(jī)識別為例,原始輸入的數(shù)據(jù)是訓(xùn)練集組成的像素矩陣,想要直接創(chuàng)造一個把它們映射到目標(biāo)的函數(shù)是不太現(xiàn)實的,因此,神經(jīng)網(wǎng)絡(luò)把這一過程分解成一個個的簡單的映射,在神經(jīng)網(wǎng)絡(luò)中一個這種簡單的映射看作是一層網(wǎng)絡(luò),把最開始輸入數(shù)據(jù)的那一層稱之為輸入層,最后輸出結(jié)果的稱之為輸出層,在他們之間的稱之為隱層。在隱層中包含了許多層,每一層都在逐步提取之前輸入層傳遞的特征,最終提取出可以用于分類的特征信息。在學(xué)習(xí)結(jié)束后,原始輸入的圖像已經(jīng)被神經(jīng)網(wǎng)絡(luò)重構(gòu)成一個新的特征。最后,隱層輸出到分類器,由分類器對訓(xùn)練樣本進(jìn)行分類??偠灾疃葘W(xué)習(xí)是一種將復(fù)雜的數(shù)據(jù)映射到相對簡單的特征的很好的方法,它的每一層都只是比較簡單的輸入和映射,但經(jīng)過一層層的迭代,可以表達(dá)出符合我們預(yù)期的相對精確的輸出。1.2深度學(xué)習(xí)的發(fā)展現(xiàn)狀卷積神經(jīng)網(wǎng)絡(luò)(CNN)是一種十分重要的深度學(xué)習(xí)算法,在人工神經(jīng)網(wǎng)絡(luò)中已經(jīng)成為了圖像識別與融合、自然語言處理等最常用的手段之一。與之前比較常見的檢測分類方法相比,它提供了更多的優(yōu)良特性,因為它采用了一種比較簡潔易懂的網(wǎng)絡(luò)模型,使用全新的網(wǎng)絡(luò)結(jié)構(gòu)從而將權(quán)值的數(shù)量減少。我們接下來測試的手寫字符訓(xùn)練數(shù)據(jù)是多維的,如果采用老式的檢測方法的話,首先無法避免的是要檢測多維數(shù)據(jù)的特征,而這過于復(fù)雜以至于接下來重建時常常遇到無法預(yù)料的問題,而如果使用CNN就可以避免這些問題,將圖像數(shù)據(jù)直接輸入,解決了復(fù)雜度帶來的許多問題。LeNet-5[1]是由加拿大多倫多大學(xué)教授LeCun等人于1998年推出的7級的創(chuàng)新神經(jīng)網(wǎng)絡(luò)模型,這種網(wǎng)絡(luò)模型投入了幾家銀行應(yīng)用,用于識別32x32像素圖像中的手寫數(shù)字(支票)。然而,當(dāng)處理高分辨率圖像的能力需要更大、更復(fù)雜的層次,因此這種技術(shù)明顯受到了當(dāng)時計算資源可用性的限制,但它的誕生為后來更加復(fù)雜的深度卷積神經(jīng)網(wǎng)絡(luò)的研究奠定了基礎(chǔ),是CNN發(fā)展的一座重要里程碑。深度卷積神經(jīng)網(wǎng)絡(luò)通過疊加卷積特征提取層,把若干個全連接層加入到卷積層之后。在這一結(jié)構(gòu)被發(fā)明后,在圖像檢測分類識別領(lǐng)域迅速的投入了使用,并且取得了令人滿意的結(jié)果。在近些年,又有許多優(yōu)秀的神經(jīng)網(wǎng)絡(luò)模型,在識別和解決復(fù)雜問題上實現(xiàn)了較大的突破。如GianlucaBissacco[2]等學(xué)者提出的HistogramOfGradient輸入深度神經(jīng)網(wǎng)絡(luò)可以在干擾源較多的情況下取得令人滿意的字符識別精準(zhǔn)度,并且在13年的比賽上達(dá)到了較為理想的性能。Girshick[3]等人提出了鄰域卷積神經(jīng)網(wǎng)絡(luò)(RegionsWithConvolutionalNeuralNetworks),它首先對目標(biāo)物體的顏色進(jìn)行初步分類,再用卷積網(wǎng)絡(luò)對這些特征進(jìn)行進(jìn)一步的學(xué)習(xí),取得了非常理想的結(jié)果。在這些年取得了如此多令人欣喜的進(jìn)步,與這些外在要素是密不可分的①計算機(jī)性能在近些年的飛速發(fā)展,針對深度學(xué)習(xí)神經(jīng)網(wǎng)絡(luò)等專用的處理芯片不斷問世②神經(jīng)網(wǎng)絡(luò)算法的不斷改進(jìn)和提升,更多有效的方法的問世,如ModelRegularization③越來越多的商業(yè)及學(xué)術(shù)機(jī)構(gòu)對神經(jīng)網(wǎng)絡(luò)的重視,數(shù)據(jù)的爆發(fā)產(chǎn)生了更多有效的訓(xùn)練數(shù)據(jù)。1.3字符識別發(fā)展及研究字符識別是神經(jīng)網(wǎng)絡(luò)領(lǐng)域較早應(yīng)用到實際商業(yè)場景的應(yīng)用之一,近年來,我們可以看到生活中不斷有各種場景使用到了這一技術(shù)。因為每個人的寫字習(xí)慣不同,筆鋒的角度、筆畫的力度都有所差異,所以針對手寫字符的識別一度遇到了較大的困難。在這一技術(shù)發(fā)展的早期階段,計算機(jī)科學(xué)家們提出了若干個針對這一問題的解決方法,比如用以提高弱分類方法的Boosting提升算法[4]、支持向量機(jī)SVM判別方法[5]、K近鄰分類方法[6,7]等等。在相當(dāng)長的一段時間內(nèi),計算機(jī)學(xué)者對手寫字符識別率的提升做出了巨大的貢獻(xiàn),但是當(dāng)面對一些更加復(fù)雜的文字識別時,之前所采取的這些方法仍然存在較大的局限性。第一,某些文字種類數(shù)量比較大,樣本量等問題會造成將不同的字符識別為同一種的情況;第二,每個人的書寫習(xí)慣不同,連筆草書等情況對計算機(jī)的分辨能力造成了巨大的影響,即使是人類面對某些潦草的字體都無法做到百分百的準(zhǔn)確率,只能依靠上下文的內(nèi)容來達(dá)成理解,但機(jī)器面對這樣的情況時常常顯得無能為力。當(dāng)我們把目光放到中文漢字的識別研究上時,可以看到在過去的幾十年里很多計算機(jī)科研工作者在這個領(lǐng)域的研究和努力為面向復(fù)雜程度更高的文字識別技術(shù)提供了一些值得參考借鑒的方法。比如針對特定域進(jìn)行相關(guān)處理[8],對其特征之間的差別提取。還有對常用的二次判別函數(shù)進(jìn)行修改,它們都可以在相對復(fù)雜一些的字符識別上得到比較理想的結(jié)果。在后一類方法中,我們常常需要在手寫字符圖片的采集、預(yù)處理、特征處理等方面進(jìn)行相關(guān)優(yōu)化,比如使用隨機(jī)裁剪、增加高斯噪聲、隨機(jī)旋轉(zhuǎn)等數(shù)據(jù)增強(qiáng)手段來擴(kuò)充訓(xùn)練集,比如人工來進(jìn)行標(biāo)注數(shù)據(jù)的相關(guān)特征,或者使用非線性正則化。以上提到的這些手段在比較早期的中文漢字識別上取得了不錯的結(jié)果,他們主要基于特定域來進(jìn)行分類等工作。在最近數(shù)十年中,深度學(xué)習(xí)獲得了更加飛速的發(fā)展,手寫英文字符識別領(lǐng)域引入了自動特征學(xué)習(xí),而基于類似深度神經(jīng)網(wǎng)絡(luò)的技術(shù)在識別手寫數(shù)字?jǐn)?shù)據(jù)時也取得了非常理想的準(zhǔn)確率。對于中文手寫字符庫CASIA-HWDB[9],這種技術(shù)也得到了較為充分的驗證,實現(xiàn)了較高的精準(zhǔn)度。隨著技術(shù)的進(jìn)一步提升,深度卷積神經(jīng)網(wǎng)絡(luò)在手寫字符識別領(lǐng)域展現(xiàn)出了更加優(yōu)異的性能。最令人矚目的是Ciresan等學(xué)者研究的多列深度神經(jīng)網(wǎng)絡(luò)[10],這種神經(jīng)網(wǎng)絡(luò)模型在不少商業(yè)化的應(yīng)用中取得了令人滿意的結(jié)果,而且可以在手寫字符的識別上取得不亞于人類識別能力的精準(zhǔn)度。隨后,Graham教授將傳統(tǒng)的卷積神經(jīng)網(wǎng)絡(luò)模型進(jìn)行了一定修改和優(yōu)化,提出了DeepCNet[11]模型,它可以理解成CNN的一種變體,在2013年ICDAR中文漢字手寫識別的比賽上識別精準(zhǔn)度名列第一。圖1-1多列深度神經(jīng)網(wǎng)絡(luò)圖1-2DeepCNet模型1.4本文的主要組織結(jié)構(gòu)本文主要研究了深度學(xué)習(xí)神經(jīng)網(wǎng)絡(luò)對手寫阿拉伯?dāng)?shù)字識別的問題,首先歸納總結(jié)了卷積神經(jīng)網(wǎng)絡(luò)的基本結(jié)構(gòu)和理論知識,主要含有向前傳播、向后傳播和梯度下降算法的相關(guān)內(nèi)容,再針對手寫字符的特性進(jìn)行不同的數(shù)據(jù)增強(qiáng),研究比較相關(guān)處理對訓(xùn)練精準(zhǔn)度的提升效果,最后研究了網(wǎng)絡(luò)結(jié)構(gòu)的優(yōu)化問題。第一章:緒論。首先介紹了過去數(shù)十年中深度學(xué)習(xí)的發(fā)展歷程和當(dāng)前的研究情況,以及這項技術(shù)對我們的生活所造成的影響。接著引出了當(dāng)今深度學(xué)習(xí)專家提出的LeNet網(wǎng)絡(luò)結(jié)構(gòu)以及它對神經(jīng)網(wǎng)絡(luò)后續(xù)發(fā)展所造成的深遠(yuǎn)影響,并列舉了以此為基礎(chǔ)發(fā)展出的部分成果,然后介紹了當(dāng)今字符識別發(fā)展的歷程已經(jīng)研究狀況,對手寫數(shù)字識別以及手寫中文漢字識別進(jìn)行了較為詳細(xì)的闡述,最后說明了本文主要的工作以及文章結(jié)構(gòu)。第二章:神經(jīng)網(wǎng)絡(luò)的基礎(chǔ)介紹。本章主要介紹了本文所使用技術(shù)的相關(guān)基礎(chǔ)原理。深度學(xué)習(xí)所采用的網(wǎng)絡(luò)構(gòu)成以及其中必須要有所了解的相關(guān)算法,如梯度下降法、前饋傳播以及反向傳播算法。最后對本文所主要采用的數(shù)據(jù)集MNIST進(jìn)行了基本的介紹。第三章:基于LeNet卷積神經(jīng)網(wǎng)絡(luò)的手寫字符識別。首先使用基本的手寫字符數(shù)據(jù)集進(jìn)行訓(xùn)練及測試,然后使用不同的dataaugmentation對數(shù)據(jù)集進(jìn)行變換擴(kuò)增,研究比較不同的方法對測試精準(zhǔn)度的影響,并研究網(wǎng)絡(luò)結(jié)構(gòu)的改良。第四章:總結(jié)并展望了未來工作,探討了改進(jìn)路線。神經(jīng)網(wǎng)絡(luò)基礎(chǔ)介紹2.1引言在最近幾年的圖像檢測和目標(biāo)識別領(lǐng)域我們主要采用深度學(xué)習(xí)算法來達(dá)成目標(biāo),本章節(jié)主要對深度學(xué)習(xí)的基礎(chǔ)人工神經(jīng)網(wǎng)絡(luò)進(jìn)行了簡單的介紹,并對其中所含的基本算法進(jìn)行了闡述。在2.2小節(jié)中對神經(jīng)網(wǎng)絡(luò)的基礎(chǔ)結(jié)構(gòu)、訓(xùn)練時所用到的相關(guān)算法進(jìn)行了說明,比如基本的神經(jīng)元包含哪些結(jié)構(gòu)、梯度下降算法、前饋傳播算法以及后向傳播算法。在2.3小節(jié)中對數(shù)據(jù)集進(jìn)行了簡單的介紹。本章主要為后續(xù)章節(jié)的理解進(jìn)行了基礎(chǔ)性的介紹。2.2神經(jīng)網(wǎng)絡(luò)介紹2.2.1神經(jīng)元基本簡介在監(jiān)督學(xué)習(xí)時,設(shè)樣本集為,我們會用神經(jīng)網(wǎng)絡(luò)中的一種非線性模型,這個模型的基本參數(shù)有權(quán)重W,偏置項b,訓(xùn)練的數(shù)據(jù)通常使用該模型來擬合。神經(jīng)元在這里是最基本的一種神經(jīng)網(wǎng)絡(luò),它是組成通常意義上神經(jīng)網(wǎng)絡(luò)的最基本單元,下面給出它的結(jié)構(gòu)圖[12]。圖2-1“神經(jīng)元”的基本結(jié)構(gòu)圖片2-1給出了神經(jīng)元的圖示,它是神經(jīng)網(wǎng)絡(luò)的基本單元,輸入了,,以及截距b,而 公式(2-1)在神經(jīng)網(wǎng)絡(luò)中起輸出作用的函數(shù)是,我們稱其為激活函數(shù),它主要分為兩種形式,sigmoid函數(shù)是較為傳統(tǒng)的一種,另外還有雙曲正切函數(shù)。前者的公式為: 公式(2-2)后者的公式為: 公式(2-3)sigmoid函數(shù)設(shè)計的出發(fā)點是生物神經(jīng)學(xué),科學(xué)家主要是為了模擬自然界生物的神經(jīng)元在接受到外界的刺激,并且當(dāng)這種刺激達(dá)到了一定的程度就會做出相應(yīng)的反應(yīng)。而在sigmoid函數(shù)的基礎(chǔ)上又衍生發(fā)展出了雙曲正切激活函數(shù),如果我們選擇它作為激活函數(shù),其輸出范圍指定為[-1,1],其導(dǎo)數(shù)公式為。而如果我們選擇前者作為激活函數(shù),其輸出范圍是[0,1],導(dǎo)數(shù)公式為。下面兩張圖展示了sigmoid函數(shù)和雙曲正切函數(shù)這兩種激活函數(shù)的圖像[13]。圖2-2兩種激活函數(shù)的示意圖(a)sigmoid函數(shù)(b)雙曲正切函數(shù)從上面的圖片上我們可以看出,在神經(jīng)元的輸出和輸入之間,實際上構(gòu)成了一個邏輯回歸。2.2.2前向傳播算法(Forwardpropagation)在上面一節(jié)中我們了解了神經(jīng)元這一基本單元在神經(jīng)網(wǎng)絡(luò)中的結(jié)構(gòu),在這一節(jié)我們將了解神經(jīng)元是如何逐層連接,那些在輸入端附近的神經(jīng)元的輸出數(shù)據(jù)是如何作為靠近輸出端的那些神經(jīng)元的輸入數(shù)據(jù)的過程,下面給出一個基本的神經(jīng)網(wǎng)絡(luò)模型[14]。圖2-3基本的神經(jīng)網(wǎng)絡(luò)模型以上這張圖片展示了在一個基本的神經(jīng)網(wǎng)絡(luò)模型中,最基本的神經(jīng)元是如何連接的。在最左邊的那一排是輸入層,它由若干個節(jié)點單元所組成。最右邊一排是輸出層,而中間的是一系列節(jié)點組成的隱層。因為這一層夾在輸入輸出層之間,所以我們無法直接觀測到它的值。在這張圖中我們畫了3個輸入單元,,,3個隱藏單元所組成的隱層和1個輸出單元。在隱層和輸入層下面還有兩個+1符號的單元,我們稱它為偏置節(jié)點,并且一般不會把它計算在隱藏或輸入單元上。我們需要表示整個模型中的總層數(shù),所以引入變量,那么在上圖中為3。接下來我們把第i層表示為,其表示為輸入層,把輸出層寫成,最后我們得到了這個神經(jīng)網(wǎng)絡(luò)的總參數(shù)。我們再把第l層第i節(jié)點的輸出值表示為,當(dāng)在第1層時,表示為,即第i個輸入特征。只要知道參數(shù)集合W,b,我們就可以依靠上面的公式計算出神經(jīng)網(wǎng)絡(luò)的輸出值。以上面的神經(jīng)網(wǎng)絡(luò)模型圖為例子,每層的輸出值可以用下面的公式計算得到[15]。 公式(2-4)在上面的公式中,表示l層j節(jié)點與下一層i節(jié)點間的權(quán)重參數(shù)。另外,偏置節(jié)點并不被其他單元所指向。以上這個公式我們稱之為前向傳播算法。2.2.3反向傳播算法與梯度下降算法之前一節(jié)中簡單說明了向前傳播算法的基本思想,它可以將神經(jīng)網(wǎng)絡(luò)模型中每層的輸出值,即激活值算出來,也可以由此得到深度神經(jīng)網(wǎng)絡(luò)計算完成后得到的輸出值,但是到這里我們還沒有完成全部的工作,整個網(wǎng)絡(luò)模型還需要進(jìn)一步的迭代優(yōu)化。在這一小節(jié),將要說明如何運用反向傳播算法[16]以及梯度下降法來優(yōu)化相關(guān)參數(shù)。第一步要做的是求出代價函數(shù),我們把數(shù)據(jù)樣本集設(shè)為,已擁有的樣本數(shù)量一共是m組,輸入的變量為,的標(biāo)簽為,表明了屬于哪種類別。首先通過上一節(jié)講的前向傳播算法求出,它是網(wǎng)絡(luò)對的預(yù)測值,我們接下來所做工作都是為了使得更加接近真實值。為了達(dá)成這個目標(biāo),需要求出損失代價函數(shù)。當(dāng)只有一個樣本時,loss代價函數(shù)可以用公式來表達(dá),同樣是一個方差代價函數(shù)。如果樣本數(shù)量為m個,即,那么我們可以用公式公式(2-5)在以上公式中,網(wǎng)絡(luò)的層級數(shù)用l來表示,l層的單元數(shù)量用符號sl來表示。根據(jù)上面的公式所述,代價函數(shù)由兩部分組成,前面為均方差,后面為權(quán)重衰減項,它的作用是讓權(quán)重幅度減小,來防止過擬合等情況出現(xiàn)。上式的代價函數(shù)可以表示真實值和預(yù)測值之前的差值,如果神經(jīng)網(wǎng)絡(luò)模型的預(yù)測能力良好那么代表這個值越低。我們最終的目的是想要使代價函數(shù)最小,我們面對的第一個問題是參數(shù)如何初始化。偏置項和權(quán)重參數(shù)一般是隨機(jī)值,這個值接近0。接下來使用梯度下降算法來優(yōu)化神經(jīng)網(wǎng)絡(luò),權(quán)重以及偏置項使用下面的公式來更新[17]:公式(2-6)在上面的公式中,α為學(xué)習(xí)速率,我們可以看到求解參數(shù)偏導(dǎo)數(shù)是梯度下降算法的目標(biāo),下面來介紹如何用反向傳播算法來解偏導(dǎo)數(shù)。當(dāng)只有一個樣本時,我們首先要計算,即損失代價函數(shù)。下一步計算整體代價函數(shù)的偏導(dǎo),下面的公式為詳細(xì)計算過程[18]:公式(2-7)下面簡單介紹一下BP算法的構(gòu)想。第一步,需要使用前向傳播,以計算出每層網(wǎng)絡(luò)的輸出值和預(yù)測值hW,b(x)。每一層網(wǎng)絡(luò)的激活節(jié)點的差值也需要計算出來,這個值表示這層的輸出對αi(l)和真實值的的差,變量δi(l)表示了l層殘差。當(dāng)神經(jīng)網(wǎng)絡(luò)的總層數(shù)為nl時,輸出層即為這一層。它的殘差可以用下面列出的公式來計算:公式(2-8)以上的公式表示了最頂層輸出值的殘差,如果想要計算隱層中某一層的輸出殘差,第i節(jié)點的殘差可以用下面的公式計算。公式(2-9)在這個公式中,通過計算l+1層節(jié)點殘差的加權(quán)平均數(shù)來得出δi(l)的值,它們的輸入值是αi(l),當(dāng)計算得出結(jié)果后,接著計算偏置項的偏導(dǎo)和loss函數(shù)的偏導(dǎo)[19],以下為詳細(xì)計算公式:公式(2-10)上面兩個公式展示了計算殘差偏導(dǎo)的方法。2.3手寫字符數(shù)據(jù)集簡介本文的數(shù)據(jù)來源于蘇州大學(xué)機(jī)器學(xué)習(xí)與類腦計算國際合作聯(lián)合實驗室,其包括了85775個訓(xùn)練樣本和1440個測試樣本,它們都已經(jīng)進(jìn)行了一定的預(yù)處理:二值化和歸一化[20]。下圖是訓(xùn)練集的手寫數(shù)字部分示例,很明顯這些字與正常印刷字體有較大差異,因此為了考慮某些變形嚴(yán)重的手寫體,在樣本中加入了這部分?jǐn)?shù)據(jù),如最后一行的“4”。圖2-1手寫數(shù)字?jǐn)?shù)據(jù)集部分示例由于數(shù)據(jù)集是由許多參與者參與書寫,所以即使是同一個數(shù)字,實際字體也有較大的差別,如圖2-2所示。圖2-2不同參與者書寫的數(shù)字22.4本章小結(jié)本章首先簡要介紹了神經(jīng)網(wǎng)絡(luò)的基本結(jié)構(gòu)及其中比較重要的一些算法,如前向反向傳播和梯度下降算法,接著對所使用的數(shù)據(jù)集的構(gòu)成和特點進(jìn)行了介紹?;诰矸e神經(jīng)網(wǎng)絡(luò)的手寫字符識別3.1引言卷積神經(jīng)網(wǎng)絡(luò)是目前比較熱門的多層神經(jīng)網(wǎng)絡(luò),它和傳統(tǒng)的神經(jīng)網(wǎng)絡(luò)存在著一些不同,主要體現(xiàn)在其中引入了三個新概念:權(quán)值共享、感受野和池化。其中神經(jīng)網(wǎng)絡(luò)的第一層輸入源是感受野,下采樣把最后提取到的特征的維度進(jìn)行一定的降低,而權(quán)值共享使每一層間的連接參數(shù)數(shù)量進(jìn)行降低。引入這三種處理手段最大的好處是當(dāng)處理一些高分辨率的圖像時可以更加高效輕松。在傳統(tǒng)的深度學(xué)習(xí)模型中,輸入層和隱層通常采用全連接的方法,需要的參數(shù)數(shù)量龐大,當(dāng)訓(xùn)練分辨率較高的圖片時,用全連接的方式來計算特征會耗費大量的時間。比如有一萬個輸入單元時,想要學(xué)習(xí)一百個特征,參數(shù)的數(shù)量將會達(dá)到10^6個,96*96的圖像比28*28的圖像所需要的時間的100倍。所以卷積大大減少了連接參數(shù)的數(shù)量。下面對卷積神經(jīng)網(wǎng)絡(luò)的相關(guān)特點進(jìn)行介紹。3.2卷積[21]卷積(Convolution)的過程即對圖像做濾波的過程,濾波器(Filter)的大小取決于感受野,下面的圖片展示了卷積的過程。圖3-1卷積過程圖每一個圖片都具有一定的特征,這些特征不管在哪些區(qū)域都具有相似性,所以我們在圖片的任意位置都能使用同樣的濾波器。當(dāng)我們有一幅尺寸為的高分辨率圖像,首先提取分辨率為的樣本,計算,可以得到m個特征,其中和是可視層及隱層間的權(quán)重和偏置項,代表了激活函數(shù)。對于每一個樣本,我們接下來需要算出,對f卷積后可以計算出個卷積后的特征矩陣。3.3權(quán)值共享[22]在卷積網(wǎng)絡(luò)中,卷積層與采樣層一般是成對出現(xiàn)的。卷積層中的濾波器對輸入圖的不同區(qū)域進(jìn)行濾波,一張完整的圖片濾波后輸出為特征圖。對于一個分辨率為5×5的圖片,F(xiàn)ilter為3×3,感受野大小為3×3,F(xiàn)ilter步長1,輸出的圖片大小為,3×3。在傳統(tǒng)的不使用權(quán)值共享的方案中,感受野數(shù)量為9個,連接參數(shù)數(shù)量加上偏置項為10,則參數(shù)個數(shù)共有90個。若使用權(quán)值共享,這個數(shù)字則下降為10。很明顯,權(quán)值共享可以使得訓(xùn)練參數(shù)數(shù)量大大減少。3.4池化當(dāng)我們獲得了特征圖像后,需要利用它們進(jìn)行分類。雖然我們可以用所有特征去訓(xùn)練分類器,但是當(dāng)使用的圖片數(shù)據(jù)分辨率較高時,會面臨巨大的效率問題。所以我們需要池化層,以減少重要性較低的樣本數(shù),從而進(jìn)一步使參數(shù)數(shù)量減少。因為一個感受野的特征對其他區(qū)域也是有效的,我們對不同位置的特征進(jìn)行統(tǒng)計,其結(jié)果既可以體現(xiàn)特征,又可以防止過擬合。以下圖片表現(xiàn)了池化的常用方法maxpooling的原理。圖3-2maxpooling原理3.5LetNet識別手寫字符本實驗所使用的網(wǎng)絡(luò)模型由LeNet-5修改而來,其網(wǎng)絡(luò)結(jié)構(gòu)圖如下所示,其中C1、C3、C5為卷積層,而C2、C4為池化層,之后是F6全連接層,最后為十個節(jié)點組成的輸出層。圖3-3LeNet網(wǎng)絡(luò)結(jié)構(gòu)圖3.5.1使用LeNet進(jìn)行訓(xùn)練圖3-4LeNet訓(xùn)練初始結(jié)果在一般情況下,訓(xùn)練樣本越多,神經(jīng)網(wǎng)絡(luò)的訓(xùn)練結(jié)果就越理想,所以使用各種數(shù)據(jù)增強(qiáng)方法來擴(kuò)充訓(xùn)練樣本,有很大可能可以提高模型的識別精度??梢詫υ加?xùn)練數(shù)據(jù)進(jìn)行旋轉(zhuǎn),裁剪,平移,加噪聲等手段進(jìn)行數(shù)據(jù)增強(qiáng),擴(kuò)大樣本數(shù)量,提高識別精度。本文中對數(shù)據(jù)進(jìn)行如下變換:對手寫數(shù)字圖像進(jìn)行旋轉(zhuǎn)變換,所有圖片分別旋轉(zhuǎn)±5度,±10度,±15度。對手寫數(shù)字圖像進(jìn)行平移變換,所有圖片平移[-6,6],[-4,4]。對手寫數(shù)字圖像進(jìn)行加噪處理,具體為加入0.03、0.06的高斯噪聲。4、對手寫數(shù)字圖像進(jìn)行裁剪處理,以中心為基準(zhǔn)裁剪5%。圖3-5數(shù)據(jù)增強(qiáng)處理對數(shù)據(jù)進(jìn)行增強(qiáng)后,使用不同組合的形式對數(shù)據(jù)集進(jìn)行擴(kuò)增,最終分類準(zhǔn)確率如下表所示:表3-1不同數(shù)據(jù)增強(qiáng)對準(zhǔn)確率的影響訓(xùn)練集初始集平移加噪裁剪旋轉(zhuǎn)準(zhǔn)確率95.6%96.2%95.9%96.5%97.1%表3-2不同組合對準(zhǔn)確率的影響訓(xùn)練集平移+加噪平移+裁剪平移+旋轉(zhuǎn)裁剪+旋轉(zhuǎn)平移旋轉(zhuǎn)裁剪整合所有數(shù)據(jù)準(zhǔn)確率96.1%96.3%96.8%96.4%97.2%96.8%3.5.2神經(jīng)網(wǎng)絡(luò)模型改進(jìn)為了進(jìn)一步提高LeNet的識別精度,嘗試對其進(jìn)行改進(jìn)。方案一:將C1層卷積核的數(shù)量提升至10,S2池化層的特征圖數(shù)量改為10。將C3層Filter數(shù)量改為35,S4池化層特征圖數(shù)量也改為35。C5卷積層維度提升至300,并將全連接層去掉,輸出層直接與C5相連。方案二:繼續(xù)增加C1的卷積核數(shù)量,提升至20,S2池化層特征圖數(shù)量也改為20。C3的Filter個數(shù)提升至50,S4特征圖同時改為50。C5卷積維度提升至500,將全連接層去掉。方案三:C1卷積核減至4,S2特征圖數(shù)減至4。C3的Filter數(shù)減至9個,S3的特征圖數(shù)減至9。C5的卷積核數(shù)減至90,將全連接層去除。3.5.3改進(jìn)模型實驗結(jié)果圖3-5方案一與LeNet對手寫數(shù)字準(zhǔn)確率上圖為方案一改進(jìn)的網(wǎng)絡(luò)與LeNet對手寫數(shù)字分類精準(zhǔn)度的對比,方案一中卷積層加了濾波器,雖然去掉全連接層,但是收斂速度較慢,分類準(zhǔn)確率稍有提升,這說明卷積核的提升可以一定程度上提高網(wǎng)絡(luò)提取特征的能力,但是復(fù)雜度會增加。表3-3方案二、三的實驗結(jié)果LeNet方案一方案二方案三準(zhǔn)確率95.60%96.71%98.61%95.20%收斂次數(shù)1000120065001400方案二對LeNet進(jìn)行了較大變動,卷積層的Filter數(shù)量大大增加,以提取更多特征。雖然識別率相比LeNet有提升,但是收斂速度大大降低。方案三的卷積層中少了三個濾波器,收斂次數(shù)有所降低,但是準(zhǔn)確率也受到了一定的影響。和方案一相比,方案二中卷積層中卷積核的數(shù)量有了一些提高,我們接下來嘗試調(diào)整方案二中C1層的濾波器數(shù)量,發(fā)現(xiàn)繼續(xù)擴(kuò)大數(shù)量對網(wǎng)絡(luò)識別率沒有太大的幫助,這說明精準(zhǔn)度和卷積核數(shù)量之間并無嚴(yán)格的線性關(guān)系,甚至隨著卷積核數(shù)量的不斷增加,出現(xiàn)了訓(xùn)練次數(shù)大大增加才能使網(wǎng)絡(luò)收斂的情況。表3-4方案二中卷積層卷積核數(shù)量對網(wǎng)絡(luò)性能的影響卷積核數(shù)量能否收斂Accuracy能否提高20可以√30可以×40可以×50可以×以上實驗可以得出,為了使網(wǎng)絡(luò)對訓(xùn)練集有更好的特征描述能力,可以適當(dāng)提升卷積層中卷積核數(shù)量,但是不能無限制的增加,以免收斂性能受到影響。3.5.4識別錯誤原因分析本文中對手寫數(shù)字識別率最高的網(wǎng)絡(luò)模型是方案二中LeNet的結(jié)構(gòu)修改版本,本小節(jié)將對識別錯誤的樣本進(jìn)行分析。圖3-6方案二對手寫數(shù)字識別錯誤的樣本上圖是方案二中的網(wǎng)絡(luò)對測試樣本分類出錯的一些數(shù)據(jù),標(biāo)簽左邊為正確分類,右邊為被錯誤分類的結(jié)果。可以看出,被錯誤分類的樣本主要有以下幾種特點:字體部分結(jié)構(gòu)缺失,組成字符完整性的筆畫缺失,如最后一行第一個“8”就是因為結(jié)構(gòu)缺失而被錯誤分類。字體過于潦草,如第一行第三個“3”,形變程度過大,人眼也難以分辨。存在臟數(shù)據(jù),由于對文字進(jìn)行了涂抹,從而造成分類錯誤,如第一行第四個“2”。3.5.5對影響收斂速度因素的實驗測試在初始的LeNet中學(xué)習(xí)率被設(shè)定為0.001,這表明了梯度下降更新網(wǎng)絡(luò)權(quán)重的幅度大小。當(dāng)越大,更新的幅度就隨之變大。權(quán)重的更新用以下公式:公式(3-1)在這里我們使用方案一中的網(wǎng)絡(luò)進(jìn)行測試,只改變其中的學(xué)習(xí)率,將其從0.01開始逐步增加,下圖展示了需要多少次訓(xùn)練網(wǎng)絡(luò)能夠收斂??梢钥吹皆O(shè)定為0.022時需要的迭代次數(shù)是最小的,并且最后輸出的模型分類準(zhǔn)確度不會受到很大的影響,因此我們可以一定程度上增大學(xué)習(xí)率來優(yōu)化網(wǎng)絡(luò)收斂速度。圖3-7學(xué)習(xí)率與收斂次數(shù)的關(guān)系3.6本章小結(jié)本章主要介紹了卷積神經(jīng)網(wǎng)絡(luò)的相關(guān)內(nèi)容,說明了主要的特征并概括了一般訓(xùn)練樣本的過程。在介紹完理論過后,使用LeNet卷積網(wǎng)絡(luò)對字符進(jìn)行了訓(xùn)練,并對訓(xùn)練集進(jìn)行了dataaugmentation,比較了各種方法對識別率的影響。接著對LeNet進(jìn)行了一定的改進(jìn)并研究它們的性能,最后研究了學(xué)習(xí)率對網(wǎng)絡(luò)收斂次數(shù)的影響??偨Y(jié)與展望4.1本文工作總結(jié)深度學(xué)習(xí)是機(jī)器學(xué)習(xí)領(lǐng)域中一種比較特殊的學(xué)習(xí)算法,在近十年的圖像檢測、目標(biāo)分類、語音識別、情感分析、圖像分割等領(lǐng)域均取得了巨大的成果。而卷積神經(jīng)網(wǎng)絡(luò)是深度學(xué)習(xí)中一種比較熱門的領(lǐng)域,其擁有許多優(yōu)異的特性,這是在傳統(tǒng)的分類算法上很難實現(xiàn)的。本文針對手寫阿拉伯?dāng)?shù)字的相關(guān)特點,將深度卷積網(wǎng)絡(luò)應(yīng)用在了字符識別上,主要的工作內(nèi)容如下:使用深度卷積神經(jīng)網(wǎng)絡(luò)LeNet,將手寫數(shù)字圖像訓(xùn)練集作為輸入數(shù)據(jù),輸出最終的分類結(jié)果。通過梯度下降算法、前向傳播和反向傳播算法來更新網(wǎng)絡(luò),逐步優(yōu)化,以確定網(wǎng)絡(luò)模型的參數(shù)。針對手寫數(shù)字的特點進(jìn)行各種數(shù)據(jù)增強(qiáng)手段以擴(kuò)充訓(xùn)練集,研究比較其對最終訓(xùn)練結(jié)果的影響。對LeNet進(jìn)行一定的修改優(yōu)化,研究其對訓(xùn)練的影響和測試結(jié)果,最后研究了學(xué)習(xí)率對收斂次數(shù)的影響。4.2后續(xù)工作展望由于我所掌握的理論知識和實驗環(huán)境所限,本文還存在一些不足之處,具體如下:近年來隨著神經(jīng)網(wǎng)絡(luò)的飛速發(fā)展,出現(xiàn)了許多新的技術(shù)和算法,合理使用這些算法可以加快收斂網(wǎng)絡(luò),提高識別的準(zhǔn)確度。影響最終識別準(zhǔn)確率的因素除了訓(xùn)練樣本,還有網(wǎng)絡(luò)深度、卷積核的數(shù)量及size、移動步長等,將來可以針對這些因素做進(jìn)一步實驗以研究他們對訓(xùn)練的影響。接下來可以討論如何改進(jìn)網(wǎng)絡(luò)結(jié)構(gòu),如對深度和卷積核進(jìn)行一些改進(jìn),進(jìn)一步提高網(wǎng)絡(luò)的可靠性,這將是未來工作的重中之重。在今后的工作中可以嘗試使用其他的數(shù)據(jù)集,或者可以將不同的訓(xùn)練集融合,使得樣本更加健壯。除了研究手寫數(shù)字的識別,還可以嘗試對更加復(fù)雜的問題,如手寫中文甚至某些少數(shù)民族文字的識別進(jìn)行研究。由于互聯(lián)網(wǎng)用戶數(shù)量的飛速增長,在移動終端上也產(chǎn)生了許多應(yīng)用場景對運行卷積網(wǎng)絡(luò)提出了要求。本文中的深度卷積網(wǎng)絡(luò)對移動終端不太友好,移植性也不是很強(qiáng)。希望在未來的工作中可以找到解決這一問題的方案,可以減小網(wǎng)絡(luò)的大小的同時不對識別率造成太大的影響,使其更容易應(yīng)用到相關(guān)產(chǎn)品中。參考文獻(xiàn)[1]LecunY,BoserB,DenkerJS,etal.Backpropagationappliedtohandwrittenzipcoderecognition[J].NeuralComputation,2014,1(4):541-551.[2]BissaccoA,CumminsM,NetzerY,etal.Photoocr:Readingtextinuncontrolledconditions[C]//ComputerVision(ICCV),2013IEEEInternationalConferenceon.IEEE,2013:785-792.[3]SermanetP,EigenD,ZhangX,etal.Overfeat:Integratedrecognition,localizationanddetectionusingconvolutionalnetworks[J].arXivpreprintarXiv:1312.6229,2013.[4]BalázsKégl.Boostingproductsofbaseclassifiers[C]//InternationalConferenceonMachineLearning,ICML2009,Montreal,Quebec,Canada,June.DBLP,2009:497-504.[5]LauerF,SuenCY.Atrainablefeatureextractorforhandwrittendigitrecognition[M].ElsevierScienceInc.2007:1397-1404.[6]KeysersD,DeselaersT,GollanC,etal.DeformationModelsforImageRecognition[J].IEEETransactionsonPatternAnalysis&MachineIntelligence,2007,29(8):1422-1435.[7]MizukamiY,TadamuraK,WarrellJ,etal.CUDAimplementationofdeformablepatternrecognitionanditsapplicationtoMNISThandwrittendigitdatabase[C]//PatternRecognition(ICPR),201020thInternationalConferenceon.IEEE,2010:2001-2004.[8]LiuCL,MineR,KogaM.BuildingCompactClassifierforLargeCharacterSetRecognitionUsingDiscriminativeFeatureExtraction[C]//EighthInternationalConferenceonDocumentAnalysisandRecognition.DBLP,2005:846-850.[9]LiuCL,YinF,WangDH,etal.CASIAOnlineandOfflineChineseHandwritingDatabases[J].模式識別國家重點實驗室,2011:37-41.[10]SzegedyC,ZarembaW,SutskeverI,etal.Intriguingpropertiesofneuralne

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論