![印刷體漢字識(shí)別技術(shù)研究PPT_第1頁](http://file3.renrendoc.com/fileroot_temp3/2022-1/15/1ade62c6-35df-404f-bfbb-f5b5410fea60/1ade62c6-35df-404f-bfbb-f5b5410fea601.gif)
![印刷體漢字識(shí)別技術(shù)研究PPT_第2頁](http://file3.renrendoc.com/fileroot_temp3/2022-1/15/1ade62c6-35df-404f-bfbb-f5b5410fea60/1ade62c6-35df-404f-bfbb-f5b5410fea602.gif)
![印刷體漢字識(shí)別技術(shù)研究PPT_第3頁](http://file3.renrendoc.com/fileroot_temp3/2022-1/15/1ade62c6-35df-404f-bfbb-f5b5410fea60/1ade62c6-35df-404f-bfbb-f5b5410fea603.gif)
![印刷體漢字識(shí)別技術(shù)研究PPT_第4頁](http://file3.renrendoc.com/fileroot_temp3/2022-1/15/1ade62c6-35df-404f-bfbb-f5b5410fea60/1ade62c6-35df-404f-bfbb-f5b5410fea604.gif)
![印刷體漢字識(shí)別技術(shù)研究PPT_第5頁](http://file3.renrendoc.com/fileroot_temp3/2022-1/15/1ade62c6-35df-404f-bfbb-f5b5410fea60/1ade62c6-35df-404f-bfbb-f5b5410fea605.gif)
版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
1、印刷體漢字識(shí)別技術(shù)的研究0910321220 沈佳駿指導(dǎo)教師:陳嵐印刷體漢字識(shí)別技術(shù)的研究背景 印刷體漢字識(shí)別技術(shù)是一種高速、自動(dòng)的信息錄入手段,成為未來計(jì)算機(jī)的重要職能接口,還可以作為辦公自動(dòng)化、新聞出版、機(jī)器翻譯等領(lǐng)域的理想輸入方式,有著廣泛的應(yīng)用前景。漢字識(shí)別的最終目的是使中文信息能更自然,更方便地輸入計(jì)算機(jī),以便于進(jìn)一步處理。實(shí)際生活中,大量的書信、報(bào)紙、雜志內(nèi)容需要輸入計(jì)算機(jī),隨著勞動(dòng)力價(jià)格的升高,利用人工方法進(jìn)行漢字輸入也將面臨經(jīng)濟(jì)效益的挑戰(zhàn)。人們要求有一種能將文字信息高速、自動(dòng)輸入計(jì)算機(jī)的方法,于是印刷體漢字識(shí)別技術(shù)便應(yīng)運(yùn)而生。印刷體漢字識(shí)別技術(shù)存在的難點(diǎn)(1)類別較大(2)結(jié)構(gòu)
2、復(fù)雜(3)相似字多 漢字的以上幾個(gè)特點(diǎn)就決定了沒有單一的一種特征就可以完成對(duì)漢字的識(shí)別,因此如何有效的選取各種特征,有效的進(jìn)行組合,使它們?cè)谄ヅ渌俣群妥R(shí)別率上都能滿足實(shí)際需求就成為整個(gè)系統(tǒng)的關(guān)鍵。印刷體漢字識(shí)別的流程簡介 該系統(tǒng)由輸入設(shè)備、漢字識(shí)別模塊和計(jì)算機(jī)硬、軟件三部分組成。核心部分是漢字識(shí)別模塊部分,印刷體漢字識(shí)別的過程主要過程包括預(yù)處理、版面分析理解、文本行字切分、特征提取、漢字識(shí)別、識(shí)別后處理。印刷體漢字識(shí)別流程圖 系統(tǒng)的Matlab仿真 系統(tǒng)的分析 系統(tǒng)的實(shí)現(xiàn) 系統(tǒng)性能的進(jìn)一步驗(yàn)證 仿真結(jié)果分析系統(tǒng)的分析 本設(shè)計(jì)要實(shí)現(xiàn)的是一個(gè)能識(shí)別三十二個(gè)印刷體漢字的識(shí)別系統(tǒng)。由于字庫容量較小,因
3、此本設(shè)計(jì)對(duì)系統(tǒng)的預(yù)期識(shí)別率指標(biāo)定為100%。 印刷體漢字識(shí)別系統(tǒng)采用的是十三點(diǎn)特征提取法和神經(jīng)網(wǎng)絡(luò)識(shí)別相結(jié)合的原理。十三點(diǎn)特征提取法負(fù)責(zé)提取漢字中的特征點(diǎn),形成一個(gè)1X13的向量,作為神經(jīng)網(wǎng)絡(luò)的輸入,我們可以實(shí)現(xiàn)一個(gè)標(biāo)準(zhǔn)庫神經(jīng)網(wǎng)絡(luò),由于不同的漢字對(duì)應(yīng)的特征向量不同,當(dāng)輸入相應(yīng)的特征向量就輸出對(duì)應(yīng)的漢字。 待識(shí)別文件首先由文件管理器加載。送入圖像管理模塊,經(jīng)二值化,轉(zhuǎn)灰度,均值濾波,二值化,行、字切割等圖像處理操作后,得到待識(shí)別文字的點(diǎn)陣,漢字識(shí)別模塊從點(diǎn)陣中提取識(shí)別特征,通過十三點(diǎn)特征提取,精確匹配識(shí)別結(jié)果。系統(tǒng)的工作流程如圖所示。 印刷體漢字識(shí)別工作流程圖系統(tǒng)的實(shí)現(xiàn) 特征提取 BP神經(jīng)網(wǎng)絡(luò)的
4、建立 BP神經(jīng)網(wǎng)絡(luò)的訓(xùn)練 系統(tǒng)的仿真 十三點(diǎn)特征所產(chǎn)生的數(shù)據(jù)形成一個(gè)矢量作為神經(jīng)網(wǎng)絡(luò)的輸入,此數(shù)據(jù)用于神經(jīng)網(wǎng)絡(luò)的訓(xùn)練和識(shí)別過程(十三點(diǎn)特征提取的程序見參考附錄1)。十三點(diǎn)特征提取分塊特征提取BP神經(jīng)網(wǎng)絡(luò)的建立神經(jīng)網(wǎng)絡(luò)輸出向量中的元素個(gè)數(shù)由我們的標(biāo)準(zhǔn)庫中字符的個(gè)數(shù)確定,由于所要建立的標(biāo)準(zhǔn)庫字符的個(gè)數(shù)是32,并且因?yàn)橛?jì)算機(jī)語言只能識(shí)別0和1這二個(gè)值,所以神經(jīng)網(wǎng)絡(luò)輸出向量中最少有5個(gè)元素才能搭配出32個(gè)不同的數(shù)值。神經(jīng)網(wǎng)絡(luò)的建立可以參見以下程序:net=newff(minmax(P),50,40,5,tansig,tansig,tansig,traingd); 其中P是神經(jīng)網(wǎng)絡(luò)的輸入向量,tansi
5、g,tansig,tansig是包含每層用到的傳遞函數(shù)名稱的細(xì)胞數(shù)組。traingd是用到的訓(xùn)練函數(shù)的名稱。神經(jīng)網(wǎng)絡(luò)建立后,需要對(duì)神經(jīng)網(wǎng)絡(luò)進(jìn)行訓(xùn)練以產(chǎn)生標(biāo)準(zhǔn)庫。訓(xùn)練參數(shù)如下所示: net.trainParam.show=100; %每100顯示1次 net.trainParam.Ir=0.005; %設(shè)置學(xué)習(xí)速率 net.trainParam.epochs=30000; %設(shè)置訓(xùn)練次數(shù) net.trainParam.goal=0; %設(shè)置性能函數(shù) net=train(net,P,T); %訓(xùn)練BP網(wǎng)絡(luò) save zmn123 net %保存文件名為 zmn123BP神經(jīng)網(wǎng)絡(luò)的訓(xùn)練 神經(jīng)網(wǎng)絡(luò)建立
6、后,需要對(duì)神經(jīng)網(wǎng)絡(luò)進(jìn)行訓(xùn)練以產(chǎn)生標(biāo)準(zhǔn)庫。下圖(圖4.2.2)是輸出向量為五個(gè)元素和輸入向量為三十二個(gè)元素的BP神經(jīng)網(wǎng)絡(luò)的訓(xùn)練誤差,最終訓(xùn)練誤差是0.00447779。五輸出元素系統(tǒng)的訓(xùn)練誤差曲線系統(tǒng)的仿真 系統(tǒng)首先對(duì)標(biāo)準(zhǔn)圖像(見圖4.2.3)進(jìn)行識(shí)別,運(yùn)行程序后處理過程分別進(jìn)行轉(zhuǎn)灰度(見圖4.2.4),均值濾波(見圖4.2.5),二值化(見圖4.2.6),經(jīng)行列切分后得到處理結(jié)果(見圖4.2.7),最后在命令窗口輸出識(shí)別結(jié)果(見圖4.2.8)。圖4.2.3 標(biāo)準(zhǔn)圖像圖4.2.4 標(biāo)準(zhǔn)轉(zhuǎn)灰度圖像圖4.2.5 標(biāo)準(zhǔn)均值濾波圖像圖4.2.6 標(biāo)準(zhǔn)二值化圖像圖4.2.7 標(biāo)準(zhǔn)圖像處理結(jié)果圖4.2.8
7、標(biāo)準(zhǔn)圖像識(shí)別結(jié)果 基于這個(gè)已建立的標(biāo)準(zhǔn)庫,我們通過Matlab程序仿真結(jié)果得知,此系統(tǒng)經(jīng)過自學(xué)習(xí)后對(duì)標(biāo)準(zhǔn)圖像中漢字的識(shí)別率是100%,系統(tǒng)的技術(shù)指標(biāo)符合我們的預(yù)期。通過對(duì)標(biāo)準(zhǔn)圖像識(shí)別學(xué)習(xí)訓(xùn)練,然后再對(duì)輸入亂序圖像(見4.2.9)進(jìn)行識(shí)別,運(yùn)行程序后識(shí)別過程中分別進(jìn)行轉(zhuǎn)灰度(見圖4.2.10),均值濾波(見圖4.2.11),二值化(見圖4.2.12),經(jīng)行列切分后得到處理結(jié)果(見圖4.2.13),最后在命令窗口輸出識(shí)別結(jié)果(見圖4.2.14)。圖4.2.9 亂序圖像圖4.2.4 亂序轉(zhuǎn)灰度圖像圖4.2.11 亂序均值濾波圖像圖4.2.12 亂序二值化圖像圖4.2.13 亂序圖像處理結(jié)果圖 4.2
8、.14 亂序圖像識(shí)別結(jié)果 基于這個(gè)已建立的標(biāo)準(zhǔn)庫,我們通過Matlab程序仿真結(jié)果得知,此系統(tǒng)對(duì)亂序圖像的漢字也能100%識(shí)別,初步驗(yàn)證了本系統(tǒng)具有一定高度的識(shí)別率。系統(tǒng)性能的進(jìn)一步驗(yàn)證 但由于本系統(tǒng)設(shè)定的字庫容量較小僅為三十二個(gè)字,即使以上漢字都能夠一一識(shí)別也并不能完全證明本系統(tǒng)具有較高的識(shí)別率。因此,為了進(jìn)一步驗(yàn)證本系統(tǒng)的性能,下面我們將采用一組總數(shù)32個(gè)字的相似字圖片讓系統(tǒng)對(duì)其進(jìn)行識(shí)別,標(biāo)準(zhǔn)庫的建立及識(shí)別過程同第一組漢字圖片的識(shí)別方法。相似字標(biāo)準(zhǔn)及亂序圖片如下所示 相似字標(biāo)準(zhǔn)圖片相似字亂序圖片圖4.2.27 相似字亂序圖像識(shí)別結(jié)果 我們通過Matlab程序仿真結(jié)果得知,此系統(tǒng)對(duì)相似字亂序
9、圖像的漢字也能100%識(shí)別,進(jìn)一步證明了本系統(tǒng)具有卓越的性能。仿真結(jié)果分析 經(jīng)過兩組圖像的仿真結(jié)果可以看出,系統(tǒng)能夠在學(xué)習(xí)標(biāo)準(zhǔn)圖像識(shí)別后建立標(biāo)準(zhǔn)庫,并根據(jù)標(biāo)準(zhǔn)字庫與以后的輸入圖像進(jìn)行匹配識(shí)別輸出,說明系統(tǒng)基本實(shí)現(xiàn)預(yù)先設(shè)想的功能,本系統(tǒng)采用的算法有一定的實(shí)用價(jià)值。但本系統(tǒng)仍有一些技術(shù)薄弱環(huán)節(jié)可繼續(xù)改進(jìn),一是程序的自動(dòng)適應(yīng)能力還不強(qiáng),往往只能識(shí)別有限的幾種標(biāo)準(zhǔn)印刷字體。其原因是在二值化與均值濾波時(shí)選取的參數(shù)不能適應(yīng)像素值的變化等;二是由于字庫的局限性,只能識(shí)別預(yù)先設(shè)定的三十二個(gè)漢字,僅能用來進(jìn)行實(shí)驗(yàn)原理的驗(yàn)證而不能投入到日常使用。因此在拓展字庫的同時(shí)如何提高參數(shù)的適應(yīng)性,即如何提高識(shí)別的自動(dòng)適應(yīng)能力,仍是漢字識(shí)別領(lǐng)域急需改進(jìn)的難點(diǎn)問題。未來展望我認(rèn)為未來的漢字識(shí)別技術(shù)將著重突破于以下幾個(gè)方面: (1)進(jìn)一步提高漢字識(shí)別率。 (2)提高版面的自動(dòng)分析能力。(3)系統(tǒng)能適用于各種應(yīng)用環(huán)境。(4)發(fā)展Intrnet上的網(wǎng)絡(luò)版版。 致謝 在這里,我首先要由衷地感謝我的論文指導(dǎo)老師陳嵐教授對(duì)我的悉心指導(dǎo)。在整個(gè)畢業(yè)課題的設(shè)計(jì)以及論文的撰寫過程中,她對(duì)我悉心指導(dǎo)、嚴(yán)格要求、熱情鼓勵(lì)并給予我極大的支持和具有啟發(fā)性的建議,使得我的畢業(yè)設(shè)計(jì)得以順利的完成
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025-2030全球蒸汽甲烷重整藍(lán)氫行業(yè)調(diào)研及趨勢(shì)分析報(bào)告
- 2025年全球及中國寵物蔓越莓補(bǔ)充劑行業(yè)頭部企業(yè)市場(chǎng)占有率及排名調(diào)研報(bào)告
- 2025-2030全球可調(diào)節(jié)軌道燈行業(yè)調(diào)研及趨勢(shì)分析報(bào)告
- 2025年全球及中國核電用金屬管行業(yè)頭部企業(yè)市場(chǎng)占有率及排名調(diào)研報(bào)告
- 2025-2030全球可見光波段高光譜成像(HSI)設(shè)備行業(yè)調(diào)研及趨勢(shì)分析報(bào)告
- 2025-2030全球玻璃煙斗行業(yè)調(diào)研及趨勢(shì)分析報(bào)告
- 2025年全球及中國魚雷泵行業(yè)頭部企業(yè)市場(chǎng)占有率及排名調(diào)研報(bào)告
- 2025-2030全球I型陽極氧化服務(wù)行業(yè)調(diào)研及趨勢(shì)分析報(bào)告
- 2025農(nóng)村買房子合同范本
- 工程汽車租賃合同范本
- 2025版茅臺(tái)酒出口業(yè)務(wù)代理及銷售合同模板4篇
- 2025年N1叉車司機(jī)考試試題(附答案)
- 《醫(yī)院財(cái)務(wù)分析報(bào)告》課件
- 2024年考研政治試題及答案
- 不銹鋼欄桿施工工藝
- 陜西演藝集團(tuán)有限公司招聘筆試題庫2023
- 小型餐飲店退股協(xié)議書
- 第九講 全面依法治國PPT習(xí)概論2023優(yōu)化版教學(xué)課件
- 兩淮礦區(qū)地面定向多分支水平井鉆進(jìn)作業(yè)技術(shù)規(guī)程
- vc約起來史上最全180個(gè)知名投資人聯(lián)系方式
- 社會(huì)穩(wěn)定風(fēng)險(xiǎn)評(píng)估報(bào)告風(fēng)險(xiǎn)評(píng)估參考
評(píng)論
0/150
提交評(píng)論