版權說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權,請進行舉報或認領
文檔簡介
1、自由手寫體數(shù)字識別系統(tǒng)的設計與實現(xiàn)戴建輝信息科學與工程學院,電子信息工程系指導老師:吳謹摘要:本文論述并設計實現(xiàn)了一個脫機自由手寫體數(shù)字識別系統(tǒng)。文中首先對待識別數(shù)字的預處理進行了介紹,包括二值化、平滑濾波、規(guī)范化、細化等圖像處理方法;其次,探討了如何提取數(shù)字字符的結構特征和筆劃特征,并詳細地描述了知識庫的構造方法;最后采用了以知識庫為基礎的模板匹配識別方法,并以MATLAB作為編程工具實現(xiàn)了具有友好的圖形用戶界面的自由手寫體數(shù)字識別系統(tǒng)。實驗結果表明,本方法具有較高的識別率,并具有較好的抗噪性能。關鍵詞:手寫體數(shù)字;預處理;模式識別;特征提取Abstrct: This paper descr
2、ibes and designs a free handwritten number recognition system. Firstly,the pretreatment of the character to be recognized is introduced, including binarization, smoothing, normalization and thinning. Next, how to extract the structural features of the numbers is discussed, and we describe the constr
3、ucting method of repository. Finally, we use the method of template matching, based on repository, to recognize the digital number. Matlab is used as a program tool to realize this free handwritten digital recognition system with friendly graphical user interface. The experimental results show that
4、the rate of the recognition system is high, and the proposed method is robust to noise.Keywords: handwritten number; pretreatment;pattern recognition; feature extraction 1 引言OCR(Optical Character Recognition)即光學字符識別技術,是通過掃描儀把印刷體或手寫體文稿掃描成圖像,然后識別成相應的計算機可直接處理的字符。OCR是模式識別的一個分支,按字體分類主要分為印刷體識別和手寫體識別兩大類。對于
5、印刷體識別又可以分成單一字體單一字號和多種字體多種字號幾類。而手寫體識別又可分為受限手寫體和不受限手寫體兩類;按識別方式可分為在線識別和脫機識別兩類。字符識別處理的信息可分為兩大類:一類是文字信息,處理的主要是用各國家、各民族的文字(如:漢字,英文等)書寫或印刷的文本信息,目前在印刷體和聯(lián)機手寫方面技術已趨向成熟,并推出了很多應用系統(tǒng);另一類是數(shù)據(jù)信息,主要是由阿拉伯數(shù)字及少量特殊符號組成的各種編號和統(tǒng)計數(shù)據(jù),如:郵政編碼、統(tǒng)計報表、財務報表、銀行票據(jù)等等,處理這類信息的核心技術是手寫數(shù)字識別。因此,手寫數(shù)字的識別研究有著重大的現(xiàn)實意義,一旦研究成功并投入應用,將產(chǎn)生巨大的社會和經(jīng)濟效益。在整
6、個OCR領域中,最為困難的就是脫機自由手寫字符的識別。到目前為止,盡管人們在脫機手寫英文、漢字識別的研究中已取得很多可喜成就,但距離實用還有一定距離。而在手寫數(shù)字識別這個方向上,經(jīng)過多年研究,研究工作者已經(jīng)開始把它向各種實際應用推廣,為手寫數(shù)據(jù)的高速自動輸入提供了一種解決方案。本文首先介紹了自由手寫體數(shù)字識別的基本原理,包括數(shù)字圖像預處理、特征提取和模式識別的基本原理和方法;其次介紹了;最后通過基于MATLAB的實驗結果,對本系統(tǒng)的性能進行了分析。2 手寫體數(shù)字識別的基本原理本系統(tǒng)主要由手寫體數(shù)字識別的訓練過程和識別過程組成,訓練過程和識別過程均包括預處理、特征提取和模式識別三部分。系統(tǒng)構成如
7、圖2.1所示。識別過程訓練過程 數(shù)據(jù)采集,預處理特征提取與選擇分類識別 數(shù)據(jù)采集,預處理分類識別改進數(shù)據(jù)采集,預處理改進分類識別待識對象訓練樣本人工干預特征提取與選擇改進特征提取與選擇正確率測試圖2.1 系統(tǒng)流程圖下面分別介紹各部分工作的基本原理。2.1 預處理預處理主要由二值化,平滑去噪,規(guī)范化,細化等組成。本文采用了基于閾值的二值化算法,通過最大類間方差法即OTSU方法,統(tǒng)計圖像的灰度直方圖選取全局閾值,然后進行二值化處理。其次,在二值化后利用均值濾波的方法消除孤立點、線的噪聲,這樣圖中就只剩下手寫體數(shù)字。在濾波中本文采用的是3*3大小的模板。平滑去噪后,對圖像進行規(guī)范化處理。找出圖像中數(shù)
8、字的邊界,然后提取出數(shù)字把它居中放置在正方形方框中,再對此正方形圖像進行線性插值縮放,使它變?yōu)榻y(tǒng)一規(guī)格大小的圖像,本文中歸一化圖像的大小是36*36。在提取特征之前,要對手寫體數(shù)字進行細化。本文是采用的基于數(shù)學形態(tài)學的細化算法。細化可用兩步腐蝕來實現(xiàn):第一步是正常的腐蝕,但它是有條件的,也就是說,那些被標為可除去的像素點并不立即消去;在第二步中,只將那些消除后并不破壞連通性的點消除,否則保留。以上每一步都是一個3*3鄰域運算。細化是將一個曲線性數(shù)字細化為一條單像素寬的線,從而圖形化地顯示出其拓撲性質(zhì)。數(shù)字圖像預處理前后效果比較如下圖所示。圖2.2為數(shù)字“5”的原始圖像,圖2.3為對圖2.2預處
9、理后的結果圖。類似地,圖2.4為數(shù)字“6”的原始圖像,圖2.5為對圖2.4預處理后的結果圖。圖2.2 原始圖像圖2.3 預處理后圖像圖2.4 原始圖像 圖2.5 預處理后圖像2.2 特征提取特征提取的目的是從原始數(shù)據(jù)中抽取出用于區(qū)分不同類型的本質(zhì)特征。無論是識別過程還是學習過程,都要對研究對象固有的、本質(zhì)的重要特征或?qū)傩赃M行量測并將結果數(shù)值化,形成特征矢量。通常能描述對象的元素很多,為了節(jié)約資源,節(jié)省計算機存儲空間、處理時間、特征提取的費用,有時更是為了可行性,在保證滿足分類識別正確率要求的條件下,按某種準則盡量選用對正確分類識別作用較大的特征,使得用較少的特征就能完成分類識別任務。這項工作表
10、現(xiàn)為減少特征矢量的維數(shù)或符號字符數(shù)。在本系統(tǒng)中采用對待識別數(shù)字圖像進行行列掃描與數(shù)字起點結合的方法提取特征。2.2.1 結構特征的提取首先對經(jīng)預處理后的圖像進行分割,如圖2.6所示。圖2.6 圖像分割對圖像分割后,結構特征提取的算法如下:(1) 對細化后的數(shù)字圖像取豎直的三條直線,分別取在5/12,1/2,7/12處,記下這三條豎直直線與數(shù)字筆段的交點數(shù)。(2) 再取水平三條直線,分別取在1/3,1/2,2/3處, 分別記下這三條水平直線與數(shù)字筆段的交點數(shù)。(3) 再取對角兩條直線, 分別記下這兩條對角直線與數(shù)字筆段的交點數(shù)。2.2.2 筆劃特征的提取經(jīng)細化后的數(shù)字圖像其特征較為穩(wěn)定,且筆劃簡
11、單,因此對其抽取的基本結構組件能反映數(shù)字的本質(zhì)特征,從而可快速有效地識別數(shù)字符,并達到較好的分類效果。數(shù)字端點如圖2.7所示。提取筆劃特征的算法如下:(1) 按從上到下,從左到右的順序掃描預處理后圖像并選擇黑像素點P;(2) 計算像素P的8鄰域之和N;(3) 若N=1,則像素P為端點,端點計數(shù)器加一;(4) 重復步驟(1)-(3),直到遍歷整個圖像。圖2.7 數(shù)字端點2.2.3 數(shù)字的特征向量說明依據(jù)上述特征提取方法,本系統(tǒng)中的特征矢量由9個分量組成,其排列如下所示:DATA= 豎直中線交點數(shù),豎直5/12處,豎直7/12處,水平中線交點數(shù),水平1/3處交點數(shù),水平2/3處交點數(shù),左對角線交點
12、數(shù),右對角線交點數(shù),端點數(shù) ;2.3 知識庫的建立由于本文采用的是基于模式知識庫的識別方法,所以對字符的結構特征的分析以及字符模型的構造是一個十分重要的環(huán)節(jié),圖2.8就是對識別數(shù)字的標準形態(tài)進行具體分析而構造的模板。圖2.8 規(guī)范手寫體數(shù)字形態(tài)DATA012,2,2,2,2,2,2,2,0;DATA111,0,0,1,1,1,1,1,2;DATA213,3,3,1,1,1,1,1,3;DATA313,2,3,1,1,1,2,2,3;DATA411,1,1,2,2,1,3,2,4;DATA513,3,3,1,1,1,2,2,4;DATA613,3,2,1,1,2,3,2,1;DATA712,2,
13、2,1,1,1,1,1,2;DATA814,4,4,2,2,2,2,2,0;DATA913,3,3,1,2,1,3,1,1。由于本系統(tǒng)是對自由手寫體進行識別, 因而要考慮數(shù)字書寫體的多變性。通過對圖2.9所示數(shù)字變體的分析來對知識庫進行補充。圖2.9 手寫體數(shù)字變體DATA021,1,2,2,2,2,1,2,2;DATA223,2,2,1,1,1,1,3,2;DATA323,1,4,2,1,1,2,2,3;DATA421,2,2,3,3,1,2,2,2;DATA523,3,3,1,1,1,2,2,4;DATA623,1,3,1,1,2,2,2,2;DATA824,4,4,2,1,2,1,2,2
14、;DATA923,2,3,2,1,1,3,1,3。最后得到知識庫由上述兩套模板所組成。2.4 本系統(tǒng)的模式識別方法在本次設計過程中,我們選擇了模板匹配的識別方法。通過計算歐氏距離來衡量匹配程度。本系統(tǒng)中的特征矢量有9個分量,其計算距離公式如下: 公式(2.1)但在本次設計中我們計算距離時對上述公式進行了改進,對于可靠性較高的端點數(shù)即最后一維特征值加大了權重,改進后的距離計算公式如下: 公式(2.2)在識別過程,分別計算待識別圖像的特征值與知識庫中兩個模板的距離,與10個數(shù)字逐個比較,距離最小的對應的數(shù)字就是最后識別結果。該算法具有特征提取和模板建立都比較直觀,時間復雜度低,易于實現(xiàn)等優(yōu)點。其缺
15、點是在建立知識庫時需要進行大量的訓練,當知識庫中的模板增多時,特征矢量間的距離會減小。3 MATLAB程序設計本次設計使用MATLAB語言實現(xiàn)該系統(tǒng),其用戶界面分別介紹如下。(1) 讀入圖像:讀入圖像的用戶界面如圖3.1所示。圖3.1 讀入圖像(2) 對圖像進行各種處理:選擇對圖像的各種操作的用戶界面如圖3.2所示,對圖像取反的用戶界面如圖3.3所示,對圖像平滑去噪的用戶界面如圖3.4所示,對圖像進行二值化操作的用戶界面如圖3.5所示,對圖像進行規(guī)范化處理的用戶界面如圖3.6所示,對圖像進行細化操作的用戶界面如圖3.7所示,圖3.2 選擇對圖像的各種操作 圖3.3 圖像取反圖3.4 平滑去噪
16、圖3.5 二值化圖3.6 規(guī)范化圖3.7 細化(3) 數(shù)字圖像的識別:對手寫體數(shù)字進行識別的結果顯示界面如圖3.8所示。圖3.8識別結果顯示在上述界面中, 系統(tǒng)可根據(jù)用戶對識別結果正誤的選擇,自動計算識別率, 識別率結果顯示在圖像界面上方。4 實驗結果及分析在實驗過程中我們以兩組樣本作為訓練樣本對知識庫的參數(shù)進行調(diào)整,這兩組訓練樣本分別為100個規(guī)范手寫體樣本和100個自由手寫體樣本,規(guī)范手寫體樣本訓練結果如表4.1所示,自由手寫體樣本訓練結果如表4.2所示。表4.1 規(guī)范手寫體訓練結果數(shù)字類別正識樣本數(shù)誤識樣本數(shù)識別率0100100%1100100%29190%39190%49190%591
17、90%6100100%7100100%8100100%99190%合計95595% 表4.2 自由手寫體訓練結果數(shù)字類別正識樣本數(shù)誤識樣本數(shù)識別率0100100%1100100%28280%39190%49190%58280%6100100%7100100%8100100%99190%合計93793%在測試實驗中,我們以200個規(guī)范手寫體和200個自由手寫體共兩組樣本作為測試樣本,識別實驗結果分別如表4.3,4.4所示。表4.3 規(guī)范手寫體識別實驗結果數(shù)字類別正識樣本數(shù)誤識樣本數(shù)識別率0200100%1200100%217385%318290%418290%517385%618290%7200
18、100%819195%918290%合計1851592.5%由上表可以看出,本系統(tǒng)對規(guī)范的手寫體有較好的識別效果,識別率達到92.5%。表4.4 自由手寫體識別結果數(shù)字類別正識樣本數(shù)誤識樣本數(shù)識別率019195%1200100%216480%318290%418290%517385%618290%7200100%819195%917385%合計1821891由上表所示,字符2和5的誤識率較高,常誤識別為對方數(shù)字,對待識別數(shù)字要求嚴格,這是由于它們的標準特征向量距離較小,需要通過增添標準庫或參數(shù)調(diào)整對此情況進行改進。5 結論本文對自由手寫體數(shù)字識別的基本原理及方法作了介紹,并用MATLAB工具實
19、現(xiàn)了自由手寫體數(shù)字識別系統(tǒng)。實驗結果表明,基于所用結構模型和知識庫的識別方法對規(guī)范手寫體數(shù)字是可行的,具有較高的識別率及較好的抗噪性能,也可以識別一定條件下的自由手寫體數(shù)字。為了提高識別率和可靠性,除了要增強對噪聲的濾除能力外,還要增大知識庫,以解決細化中出現(xiàn)的結構畸變問題,這些都有待我們進一步的研究。參考文獻1 張平等.matlab基礎與應用簡明教程M. 北京:北京航空航天大學出版社, 2001.2 飛思科技產(chǎn)品研發(fā)中心.matlab6.5輔助圖像處理M. 北京:電子工業(yè)出版社, 2003.3 章毓晉.圖象處理和分析.北京:清華大學出版社M, 2003.4 蔡炯熙.基于旋轉不變性的印刷體數(shù)字識別J.計算機應用, no.3,2002.5 郝紅衛(wèi).手寫體字符的識別與集成D.北京:中國科學院聲學研究所,
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經(jīng)權益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 養(yǎng)老服務課件教學課件
- 住宅培訓課件教學課件
- 2024年度無人機研發(fā)與制造勞務分包合同
- 2024年度亞馬遜FBA服務費用結算合同
- 2024年勞動合同提前終止協(xié)議
- 2024年工程環(huán)境健康協(xié)議
- 2024年度大數(shù)據(jù)分析與服務合同標的詳細描述
- 2024年建筑工程招標文件編制與合同條款設定
- 2024年大型風力發(fā)電機組生產(chǎn)與銷售合同
- 04年百花廣場物業(yè)服務監(jiān)督合同
- 憲法是根本法教案-2.憲法是根本法-六年級上冊道德與法治(新版)
- 商家入駐進場協(xié)議書范本
- 爭做“四有好老師”-當好“四個引路人”
- 4.19北朝政治和北方民族大交融 課件-2024-2025學年統(tǒng)編版(2024)七年級歷史上冊
- 機動車商業(yè)保險條款(2020版)
- 2024年江西省“振興杯”職業(yè)技能品酒師競賽考試題庫(含答案)
- DL∕T 1764-2017 電力用戶有序用電價值評估技術導則
- 四年級上冊英語教案-UNIT FOUR REVISION lesson 14 北京版
- YDT 4565-2023物聯(lián)網(wǎng)安全態(tài)勢感知技術要求
- 幼兒園故事繪本《賣火柴的小女孩兒》課件
- 【工商企業(yè)管理專業(yè)實操實訓報告2600字(論文)】
評論
0/150
提交評論