模板匹配視角下大小寫同形字母識(shí)別算法_第1頁
模板匹配視角下大小寫同形字母識(shí)別算法_第2頁
模板匹配視角下大小寫同形字母識(shí)別算法_第3頁
模板匹配視角下大小寫同形字母識(shí)別算法_第4頁
模板匹配視角下大小寫同形字母識(shí)別算法_第5頁
全文預(yù)覽已結(jié)束

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

模板匹配視角下大小寫同形字母識(shí)別算法

0新維文的特點(diǎn)五四運(yùn)動(dòng)的識(shí)別始于新疆大學(xué),然后開始緩慢。對新維文中的同形字母的識(shí)別,鮮有前人有針對性地研究過。在其它文字中對同形字母識(shí)別的研究也很少,英文中使用的同形字母判別的方法主要是通過排版來判斷英文字母的大小寫,但排版分析也只能糾正部分符合排版規(guī)律的錯(cuò)誤。印刷體英文識(shí)別和印刷體中文識(shí)別很成熟,維吾爾新文字識(shí)別可以借鑒中英文方面的文獻(xiàn)[3,4]成果,但是相對于中英文,新維文也有自己的特點(diǎn):新維文是字母拼寫文字;新文字比英文多出11個(gè)字母,而且大小寫同形字母有15對;在新文字文章中大小寫交替出現(xiàn)比較頻繁。印刷體維吾爾新文字的識(shí)別在民族語言識(shí)別中占有一定地位,受到了的關(guān)注與研究。根據(jù)新文字自身特點(diǎn)和借鑒中英文識(shí)別,新文字識(shí)別使用了模板匹配識(shí)別方法并在此基礎(chǔ)上進(jìn)行優(yōu)化。但是模板匹配識(shí)別方法對大小寫同形字母的識(shí)別仍停留在特征提取上,由于特征提取是在字符歸一化以后進(jìn)行的,而大小寫同形字母的外形基本一致,所以利用字符特征很難區(qū)分開同形字母的大小寫。而新維文大小寫同形字母較多,所以識(shí)別出同形字母的大小寫便成了提高系統(tǒng)識(shí)別率的關(guān)鍵。大小寫同形字母識(shí)別方法在字符歸一化之前記錄其外輪廓大小的映射值,在匹配識(shí)別之后對其錯(cuò)誤識(shí)別進(jìn)行糾正,能有效區(qū)分字母大小寫,提高了系統(tǒng)識(shí)別率。1模板匹配識(shí)別方法及系統(tǒng)新維文的識(shí)別方法是在傳統(tǒng)模板匹配識(shí)別方法的基礎(chǔ)上建立的,再根據(jù)新維文的自身特點(diǎn)對系統(tǒng)進(jìn)行改進(jìn)和優(yōu)化,所有必須先對模板匹配識(shí)別方法和新維文的特點(diǎn)進(jìn)行介紹。下面將介紹新文字字母及特點(diǎn)和傳統(tǒng)模板匹配識(shí)別,最后介紹新文字識(shí)別系統(tǒng)。其中包含使用模板匹配方法是遇到的問題及如何在新維文識(shí)別系統(tǒng)中解決。1.1新維文同形同形字表1中‘新維文字母’部分可以看出維吾爾新文字共有37對字母,分為大小寫,前26對是英文基本字母;序號27到33是7對拉丁文擴(kuò)展字母;序號34到37是4對雙字母。表1中的‘大小寫同形字母’部分可以看出新維文大小寫同形字母共有15對。大小寫同形字母數(shù)是總字母數(shù)的2/5左右??梢姶笮懲巫帜篙^多,又因?yàn)閭鹘y(tǒng)模板匹配識(shí)別方法很難區(qū)分大小寫同形字母,所以識(shí)別出同形字母的大小寫對提高識(shí)別率很重要。如何區(qū)分出同形字母的大小寫是需要研究的主要內(nèi)容。1.2在模板庫中的應(yīng)用(1)模板匹配識(shí)別系統(tǒng)識(shí)別系統(tǒng)是根據(jù)《印刷體維吾爾新文字文檔識(shí)別技術(shù)》建立的,研究對象是印刷體維吾爾新文字,識(shí)別系統(tǒng)主要模塊有預(yù)處理、特征提取、建立模板庫、匹配識(shí)別等模塊。如圖1所示,在識(shí)別時(shí),是先將新維文的印刷體掃描圖片輸入,經(jīng)過預(yù)處理,特征提取,匹配識(shí)別等最終得到識(shí)別結(jié)果。1)預(yù)處理是將輸入圖片進(jìn)行灰度化、二值化、去噪、傾斜校正、字符分割、字符歸一化等處理。2)特征提取是從預(yù)處理后的字符圖片中提提取出字符的對應(yīng)特征。字符特征是字符圖片的映射,用來實(shí)現(xiàn)對不同字符的區(qū)分。3)匹配識(shí)別是待識(shí)別字符的特征與模板庫中字符的特征進(jìn)行匹配,從匹配結(jié)果中取出最相近的字符,即為識(shí)別結(jié)果。4)字符模板庫是在特征提取后,人為給每個(gè)特征添加對應(yīng)字符,特征和字符綁定放入同一個(gè)庫中,從而形成模板庫。(2)模板匹配識(shí)別中遇到的問題新維文識(shí)別系統(tǒng)用的是以模板匹配識(shí)別方法上建立的,模板匹配方法是先對字符進(jìn)行歸一化,然后在根據(jù)字符特征對字符進(jìn)行識(shí)別。因?yàn)榇笮懲巫帜傅淖址麍D片在歸一化后基本一樣,提取的特征也趨近相同,因此很難區(qū)分開待識(shí)別字符是大寫字母還是小寫字母。經(jīng)實(shí)驗(yàn),識(shí)別系統(tǒng)很容易混淆同形字母的大小寫,容易出現(xiàn)錯(cuò)誤識(shí)別的字母見表1的‘大小寫同形字母’部分??梢娡巫帜篙^多,區(qū)分出同形字母的大小寫是提高識(shí)別率的關(guān)鍵。1.3大小寫判斷模塊的實(shí)現(xiàn)如圖2所示,可知新維文識(shí)別系統(tǒng)是在傳統(tǒng)模板匹配(如圖1所示)的基礎(chǔ)上添加了大小寫判斷模塊。圖2中的大小寫判斷模塊的主要功能是區(qū)分出同形字母中的大小寫,該模塊使用了大小寫同形字母識(shí)別算法,是下面研究的主要內(nèi)容。2同形聲母的小寫對于待識(shí)別的一篇文章,大小寫同形字母最顯著的差別就是大寫字母大,小寫字母小。那么對于大小寫同形的字母而言,我們只要對外輪廓較大的字母標(biāo)記為大寫,相對較小的字母標(biāo)記為小寫,這樣便可區(qū)分出同形字母的大小寫了。大小寫同形字母識(shí)別算法就是根據(jù)這一原理,在待識(shí)別字符歸一化之前記錄其外輪廓大小,并計(jì)算出其外輪廓大小相對于全文字符外輪廓平均大小的比例值,此比例值是個(gè)相對大小。在匹配識(shí)別之后,從識(shí)別結(jié)果中逐個(gè)找出大小寫同形字母,并對找出的每一個(gè)字母進(jìn)行大小寫判斷,判斷依據(jù)是若字母的相對大小大于某一閥值則待判斷該字母為大寫,否則為小寫。在預(yù)處理中對待識(shí)別圖片進(jìn)行切分后(如圖3所示)。記錄下切分后每個(gè)字符的長和寬,在識(shí)別出結(jié)果后,若識(shí)別結(jié)果是大小寫同形字母則再根據(jù)字母長寬的大小區(qū)分出字母的大小寫。2.1計(jì)算邊界條件轉(zhuǎn)換中每一個(gè)字的長度和寬度對于一篇待識(shí)別文章進(jìn)行如下處理:在切分后歸一化前,記錄下第i個(gè)字符的長度Length[i]和寬度Width[i],直到記錄下每個(gè)字符的長度和寬度。例如在圖3中對于字母?,其Length[i]為四邊形abcd的ab邊長,Width[i]為四邊形abcd的bc邊長。計(jì)算第i個(gè)字符的長Length[i]與寬Width[i]的和,并記錄為LengWidth[i]即(2)計(jì)算長寬之和的平均值計(jì)算出待識(shí)別文章中第i個(gè)字符的長寬之和LengWidth[i],直到計(jì)算出待識(shí)別文章中每個(gè)字符的長寬之和。長寬之和的平均值記錄為averag,等于每個(gè)字符長寬之和相加后除以待識(shí)別文章中字符總數(shù)n2.2確定字段的長度與averag的比率計(jì)算第i個(gè)待識(shí)別字符的長寬之和LengWidth[i]與averag的比值,并記錄為RLWth[i]即2.3計(jì)算rth1[j]的計(jì)算表(1)如果匹配識(shí)別出的結(jié)果是表2中的任何一個(gè)字母,則進(jìn)行大小寫判斷。判斷原則:如果第i個(gè)字符的識(shí)別結(jié)果是表2中的一個(gè)字母,那么必須進(jìn)行以下判斷以上條件如果成立則是大寫字母,反之則是小寫字母,直到判斷所有字母。式(4)的Rth1[j]、Rth2[j]與表2中的相同,下面將給出計(jì)算。(2)表2中Rth1[j]、Rth2[j]和Var[j]的計(jì)算表2中Rth1[j]是大寫字母對應(yīng)比值,Rth2[j]是小寫字母對應(yīng)比值。其中j的取值決定Rth1[j]、Rth2[j]、Var[j]在應(yīng)表2中的取值。例如:字母C的Rth1等于145,字母c的Rth2等于95,字母C、c對應(yīng)的Var等于25。仍以字母C為例:從文章中統(tǒng)計(jì)出10個(gè)大C的長寬之和的平均值LengWidth_C與10小c的長寬之和的平均值LengWidth_c。(1)Rth1[j],Rth2[j]的計(jì)算余下字母Rth1[j],Rth2[j]計(jì)算方式相同,j取值范圍(0,1,2,……,13)。(2)計(jì)算Var[j]對多張新維文待識(shí)別圖片進(jìn)行統(tǒng)計(jì),得出Rth1[j],Rth2[j],Var[j]具有穩(wěn)定性,所以Rth1[j]、Rth2[j]和Var[j]只需要計(jì)算一次,便可針對所有的新維文待識(shí)別文章。當(dāng)此方法應(yīng)用于其它語言時(shí),Rth1[j]、Rth2[j]和Var[j]需要從新統(tǒng)計(jì)計(jì)算。3實(shí)驗(yàn)與分析3.1對比掃碼識(shí)別方法在20世紀(jì)60年代到80年代初,新維文被廣泛應(yīng)用,所以很多需要整理和電子化的資料大多是年代久遠(yuǎn),為此選用實(shí)驗(yàn)圖片是來自于1976和1978年出版的《新疆文藝》的掃描,分辨率為300dpi、256灰度級。由于掃描的資料年代久遠(yuǎn),紙質(zhì)和印刷較差,導(dǎo)致掃描圖片較差。從中挑大多選取了7張待識(shí)別圖片,對其進(jìn)行識(shí)別。分別進(jìn)行了:1、未加入?yún)^(qū)分大小寫方法的模板匹配識(shí)別(如圖1所示),2、加入了區(qū)分大小寫方法的模板匹配識(shí)別(如圖2所示)。經(jīng)過1和2這2種識(shí)別,并將結(jié)果進(jìn)行對比(見表3)。表3是實(shí)驗(yàn)結(jié)果,其中n1表示待識(shí)別文章中的字符總數(shù);n2表示在未加入?yún)^(qū)分大小寫方法的識(shí)別時(shí),出現(xiàn)的誤識(shí)別字符數(shù);n3表示在未加入?yún)^(qū)分大小寫方法的識(shí)別時(shí),因字母大小寫同形原因出現(xiàn)的誤識(shí)別數(shù);n4表示在加入了區(qū)分大小寫方法的識(shí)別時(shí),糾正的個(gè)數(shù);n5表示在未加入了區(qū)分大小寫方法的識(shí)別時(shí)的識(shí)別率;n6表示在加入了區(qū)分大小寫方法的識(shí)別時(shí)的識(shí)別率。通過表3可知,加入了區(qū)分大小寫識(shí)別算法后,系統(tǒng)的識(shí)別率平均提升了3.39%。總體來說加入了區(qū)分大小寫算法的識(shí)別效果較好。3.2形聲母的識(shí)別根據(jù)實(shí)驗(yàn)結(jié)果可知,大小寫同形字母識(shí)別算法能夠很好的判斷字母的大小寫,顯著提高系統(tǒng)的識(shí)別率。在傳統(tǒng)匹配識(shí)別很難區(qū)分同形字母的大小寫,大小寫同形字母識(shí)別算法能很好的彌補(bǔ)其缺點(diǎn)。但其也有自身的局限性:(1)在識(shí)別時(shí),大小寫同形字母的長寬之和相差不明顯的字母識(shí)別用此方法識(shí)別效果較差,例如:P,p。(2)在系統(tǒng)使用之前需要進(jìn)行一次對大小寫同形字母外輪廓的相對大小進(jìn)行統(tǒng)計(jì),統(tǒng)計(jì)過程較繁瑣。(3)對于待識(shí)別文章要求文章中的字號必須相同,否則對于判斷效果較差,很多新文字資料基本符合一篇文章中的字符具有相同字號,此方法有很好的應(yīng)用性。當(dāng)一篇文章中有不同字號的字符時(shí),根據(jù)平均值averag計(jì)算方式可知,會(huì)影響平均值averag的穩(wěn)定性,對于有不同字號的待識(shí)別文章,解決方法是在對文章字符外輪廓大小進(jìn)行統(tǒng)計(jì)判斷時(shí)排除對外輪廓較大的字符(如:字號較大的標(biāo)題等)和外輪廓較小的字符(如:標(biāo)點(diǎn)及小號字符等)進(jìn)行統(tǒng)計(jì)判斷,因此可以加強(qiáng)平均值averag的穩(wěn)定性,以適應(yīng)一篇文章中字號不同的文章。4更方便的同形聲母識(shí)別

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論