




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)
文檔簡介
非限定性工筆非定性防范字串的組合識別方法
消費(fèi)支出在人們的日常生活中起著重要作用。它可以自動輸入、存儲、管理和搜索。這是一個非常重要的現(xiàn)實(shí)意義。關(guān)于這一領(lǐng)域的科學(xué)文章很多,但其中大部分是為了確定大的和小的金額而寫的,關(guān)于日期識別的報告也很少。由于中國不能接受到期退款,因此日期識別也非常重要。手寫漢字分割是手寫漢字識別研究中的一項(xiàng)既關(guān)鍵又困難的課題.首先,漢字的字集龐大,書寫風(fēng)格變化多樣,僅一級字庫就有3755個字,粘粘情況復(fù)雜,出現(xiàn)多處粘粘的情況也比較多;第二,漢字中有很多“左右”、“左中右”結(jié)構(gòu)的字符,并且常常是組成字符的每個部分也是一個獨(dú)立的字符,這容易造成過分割;第三,不同于英文,中文字詞之間沒有空格,只有標(biāo)點(diǎn)符號分割,因此當(dāng)句子很長時對分割的要求較高.由于漢字分割的復(fù)雜性,在實(shí)際應(yīng)用中,非限定手寫漢字串的識別率普遍不高.手寫漢字的分割從策略上主要分為結(jié)構(gòu)分析法和分割-識別法.結(jié)構(gòu)分析法中漢字圖像被切割成各種特定部件,切割的原則主要是根據(jù)事先定義的字符高度、字符寬度、連續(xù)筆畫走向和字符之間的間距等特性.如Tseng等人提出的筆畫分離和歸并的方法;Zhao等人提出的兩階段分割方法;呂岳等人提出的基于組件合并的分割方法.分割-識別法是通過投影、結(jié)構(gòu)分析等方法尋找字串中所有可能的分割線,然后根據(jù)識別評價選取其中最優(yōu)的一組分割線.如Qiang等人提出的用隱Markov模型分割手寫中文地址字串.日期具有其特殊性,已經(jīng)有專門針對日期域分割識別的討論,但是主要處理的是數(shù)字和英文.如文獻(xiàn)提出的基于知識的分割方法;文獻(xiàn)提出的支票手寫日期分割的HMM-MLP混合模型方法.我國的支票日期具有統(tǒng)一的填寫格式,年月日3部分分別用中文從左到右順序填寫,其格式為:YYYY年MM月DD日,其中:YYYY={貳零零零,貳零零壹,貳零零貳,…,貳零玖玖};MM={(零)壹,(零)貳,…,(零)玖,(零)壹拾,壹拾壹,壹拾貳};DD={(零)壹,(零)貳,…,(零)玖,(零)壹拾,壹拾壹,…,(零)貳拾,貳拾壹,…,(零)叁拾,叁拾壹}.文獻(xiàn)提出了支票中預(yù)打印字符的檢測和去除算法.根據(jù)預(yù)打印字符的位置信息,我們將較容易地獲得日期域中的年、月、日子圖像.本文主要討論‘日’部分的分割識別.圖1是日期域的示例圖以及背景去除后的二值圖.‘日’部分可以看做是一個詞或者短語,字符串長度從1~3.由于是非限制手寫體并且填寫的范圍比較緊湊,字符之間常常粘粘,因此檢測候選分割點(diǎn)和判斷字符的個數(shù)都比較困難.每個月份最多有31天,加上它們在書寫格式上的各種變化,一般有43個詞組形式,是一個有限集.我們把整個日域作為一個單字進(jìn)行訓(xùn)練和識別就能夠避免復(fù)雜的字符串分割過程.從已有的識別經(jīng)驗(yàn)來看,多字組成的詞在模式上比單字有更多的變化,要達(dá)到較好的識別效果就需要更大的訓(xùn)練樣本集;同時,不同的詞中會包含有多個相同的字符,它們可能影響到整詞的識別結(jié)果,如“壹拾壹”和“壹拾貳”的前兩個字符相同.因此我們設(shè)計(jì)了定長分割識別算法,將其識別結(jié)果與整詞識別結(jié)果組合,達(dá)到了更好的識別效果.1圖像對于圖像的識別一般的字符串識別是將字符串分割成孤立的字符,然后進(jìn)行單字識別,最后再將識別結(jié)果組合成詞或句子.分割的目的是使識別的類別數(shù)盡可能的少,避免模式的爆炸性增長.對于日期這樣類別有限的集合來說,完全可以不分割,直接識別.我們的整詞識別引擎采用了多特征多分類器組合策略,輸入為待識別字符圖像,輸出為識別結(jié)果的前兩義和可信度度量.它在0~10的大寫漢字集{‘零’,‘壹’,…,‘玖’,‘拾’}上的識別率高于99%.由于類別數(shù)越多,樣本收集越困難,在識別前我們對整詞圖像做大小和筆畫寬度的規(guī)正化處理.首先將圖像規(guī)范到64×128大小,然后預(yù)測字符筆畫寬度Ws,如果Ws小于給定閾值,進(jìn)行單側(cè)的膨脹運(yùn)算,否則,進(jìn)行單側(cè)的腐蝕運(yùn)算,將筆畫寬度Ws調(diào)整到同一個固定的數(shù)值.筆畫寬度通過游程長度直方圖估計(jì):Ws=(t-1)Η(t-1)+tΗ(t)+(t+1)Η(t+1)Η(t-1)+Η(t)+Η(t+1)?其中,t=argmax(H(t))且t>1,H為像素游程長度直方圖.在整詞識別時,如果將每一種變化形式作為一個類別,識別結(jié)果對應(yīng)集合DD;如果將字符串長度相同的日期詞作為同一類,可以有3種類別,識別結(jié)果對應(yīng)著字符串的長度.一般類別數(shù)越多,識別率越低.后一種方式識別只有3種類別,可以獲得較高的識別率.在預(yù)測了字符串的長度以后,字符串分割的難度將大大降低.2日期詞中字符的個數(shù)和編碼分割線的確定在任意手寫漢字字串中,很多字符具有左右結(jié)構(gòu),其結(jié)構(gòu)部件之間的距離與字符之間的距離區(qū)別不明顯.另外,字符之間也常常粘粘,因此確定字符串的長度和分割線的位置都是很困難的過程.日期詞中字符的個數(shù)已經(jīng)在前面通過識別的方法獲得,下面我們分兩步確定分割方案:首先分析圖像中所有可能的分割線,然后給定一個字串長度,根據(jù)識別的可信度確定最優(yōu)的分割路徑.2.1分割線位置的獲取在這一階段,我們通過投影和輪廓分析的方法選取圖像中所有可能的分割線.首先通過輪廓分析獲得圖像中的連通區(qū)CC;然后合并水平方向重疊的連通區(qū),得到多個連通區(qū)組成的分割部件CCS;最后檢測CCS內(nèi)的分割線.假設(shè)兩個連通區(qū)的最小外接矩形分別為(xl1,xr1,yt1,yb1)和(xl2,xr2,yt2,yb2),并且xl1≤xl2.當(dāng)xl2≤xr1時,兩連通區(qū)重疊.重疊度定義為novlap=xr1-xl2min(xr1-xl1,xr2-xl3).如果novlap>0.5,則合并這兩個部分.投影直方圖采用垂直方向的穿透筆畫數(shù)和像素投影:proj(x)=CrossCount(x)?ΡrojΡixel(x)?其中,其中,b(x,y)為二值圖.圖2是幾個日期詞圖像和它們的投影圖示例.直方圖中‘谷’的位置對應(yīng)著可能的分割線位置,但是當(dāng)字符粘粘嚴(yán)重時可能會造成部分分割線的漏檢.為了盡量減少這樣的情況發(fā)生,我們在字符平均寬度整數(shù)倍位置的附近沒能檢測到‘谷’時,根據(jù)字符的平均寬度強(qiáng)制增加部分的分割線.字符寬度的估算Wc(絕對字符寬度)是基于投影直方圖的:Wc=∑ΡrojFlag(x)?Ν?其中,為字串的字?jǐn)?shù).增加的分割線位置{pos(k)|1≤k≤N-1}滿足:pos(k)-1∑i=1ΡrojFlag(i)<Wc×k且pos(k)∑i=1ΡrojFlag(i)≥Wc×k.由于這些分割位置是根據(jù)平均字符寬度預(yù)測的,我們也稱pos(k)為平均分割位置.在分割線位置直接用豎線將字符分開常常會造成字符的殘缺.我們通過輪廓分析確定分割線的像素組成.假設(shè)x=ValleyPos對應(yīng)著直方圖中的一個‘谷’,其中任意一個連通區(qū)的分割線選取過程分以下幾步:Step1.獲得該連通區(qū)的外輪廓,將外輪廓在最左端點(diǎn)與最右端點(diǎn)分開,形成上下兩個部分,分別稱為上輪廓線和下輪廓線.上輪廓線用順時針方向的鏈碼表示為ConT={(ConTx(i),ConTy(i))|1≤i≤LT},其中LT為上輪廓線的鏈碼長度;下輪廓線用逆時針方向的鏈碼表示為ConB={(ConBx(i),ConBy(i))|1≤i≤LB},其中LB為下輪廓線的鏈碼長度.ConT和ConB都是從最左端點(diǎn)開始,到最右端點(diǎn)結(jié)束.Step2.在ConT和ConB上分別選取初始分割點(diǎn)PT(ConTx(kt),ConTy(kt))和PB(ConBx(kb),ConBy(kb)),其中:kt=argmax1≤i≤LΤ{ConΤy(i)|ConΤx(i)=ValleyΡos}?kb=argmin1≤i≤LB{ConBy(i)|ConBx(i)=ValleyΡos}.Step3.判斷連通區(qū)是否需要被分開.nl是連通區(qū)左側(cè)滿足D(x)-U(x)>λWs的列數(shù).D(x)=minConBx(i)=x(ConBy(i)),1≤i≤kb;U(x)=maxConΤx(i)=x(ConTy(i)),1≤i≤kt;λ為給定常數(shù).若nl<Tnl或ConTx(kt)-ConTx(1)<Tl,則結(jié)束,連通區(qū)不被分割,其中Tnl和Tl為經(jīng)驗(yàn)常數(shù).類似可以考察連通區(qū)右側(cè).Step4.檢測分割點(diǎn).分割點(diǎn)一般位于上輪廓的‘谷’和下輪廓的‘峰’.在PT附近(下標(biāo)kt±Δ區(qū)間)檢測凹點(diǎn)SPT={(SPTx(i),SPTy(i))|1≤i≤nt},nt表示檢測到的凹點(diǎn)個數(shù).凹點(diǎn)滿足SPTy(i)=max(ConTy(j)|ti-2≤j≤ti+2),ti表示點(diǎn)(SPTx(i),SPTy(i))在ConT中的下標(biāo).類似的方法可以檢測下輪廓的凸點(diǎn)SPB={(SPBx(i),SPBy(i))|1≤i≤nb},nb表示檢測到的凹點(diǎn)個數(shù),bi表示點(diǎn)(SPBx(i),SPBy(i))在ConB中的下標(biāo).凸點(diǎn)滿足SPBy(i)=max(SPBy(j)|bi-2≤j≤bi+2).Step5.確定分割線.在上輪廓線和下輪廓線上分別選取分割點(diǎn)Q1和Q2,用這個點(diǎn)將確定的直線ˉQ1Q2作為連通區(qū)的分割線.一般分割線的長度要短,位置要低,因此定義評價函數(shù):D(u,v)=√(ux-vx)2+(uy-vy)2-(uy+vy)?2?其中,u(ux,uy),v(vx,vy)為圖像中的任意兩個像素.分割點(diǎn)滿足在Q1和Q2的取值范圍內(nèi)D(Q1,Q2)有最小值.當(dāng)nt>0時,Q1∈SPT,否則Q1∈{(ConΤx(i),ConΤy(i))|max(1,kt-Δ)≤i≤min(LΤ,kt+Δ)}.當(dāng)nb>0時,Q2∈SPB,否則Q2∈{(ConBx(j),ConBy(j))|max(1,kb-Δ)≤j≤min(LB,kbS+Δ)}.如果CCS包含有多個CC,可以分別對每個CC進(jìn)行分割,然后將得到的結(jié)果合并.如果一個CC中檢測到多個投影‘谷’,可以在一次分割后,用新得到部分的外輪廓與分割線組成一個新的閉環(huán),用類似的方法分割.2.2對于分類器的分類分割線有3種類型:連通區(qū)分析確定的分割線;投影‘谷’確定的強(qiáng)制分割線;平均字寬對應(yīng)的分割線.第1種分割線通常是字符之間或部首之間的間隙位置,一般比較可靠;后兩種主要是為了解決字符粘粘的情況.如果有M條候選分割線,字符串長度為N,則分割有CΝ-1Μ種可選路徑.依據(jù)識別結(jié)果選取最優(yōu)的分割路徑是一種行之有效的方法.很多的分類器在給出分類結(jié)果的同時,可以給出待識別字符與識別類之間的相似程度,稱為置信度或可信度.假設(shè)字符串中各個字符相互獨(dú)立,分割結(jié)果的字串平均可信度表示為:Ρ=∑ipi?Ν,其中pi為單字識別的可信度.字串的平均可信度越大說明分割結(jié)果中字符的識別效果越好.最大字串平均可信度對應(yīng)著字串的最優(yōu)分割路徑.字符識別是一個比較耗時的過程,而且識別評價體系受噪聲和非字符模式的影響很大.為了盡量減少最終分割路徑的數(shù)量,提高系統(tǒng)的效率和性能,我們提出了一些規(guī)則.如果分割結(jié)果滿足下列條件之一,則刪除這一分割路徑:1)其中一個字符的寬度小于Wc2;2)其中一個字符的寬高比大于2或小于13;3)分割線到最近的平均分割線的距離大于Wc3.圖3是圖2對應(yīng)的分割線以及可能的分割結(jié)果.3日期詞的識別算法從現(xiàn)有的文獻(xiàn)來看,傳統(tǒng)的分割-識別方法在任意手寫字符串中的識別效果并不太理想.一方面隨著字符串長度的增加,識別率呈指數(shù)下降,如果單字識別率為p,那么長度為N的字符串識別率的理論上限為pN;另一方面,在字符串分割過程中,分割線的多檢與漏檢、字符的殘缺與噪聲、字符識別的可信度度量不可靠等也是目前字符串識別率低的一個重要原因.本文提出的整詞識別方法避免了分割過程引起的誤識.但是整詞識別增加了類別數(shù),而且一些詞中存在部分相同的字符,這可能影響到整詞識別的效果.因此我們設(shè)計(jì)了整詞識別和定長分割-識別相結(jié)合的日期詞識別方案.設(shè)WordRes1={cw1i|1≤i≤n1},WordRes2={cw2i|1≤i≤n2}分別表示整詞識別結(jié)果的第1和第2義,n1和n2分別為它們的字符串長度;pw表示整詞識別的可信度;CharRes(nc)={cci|1≤i≤nc}表示給定字符串長度nc時的分割識別結(jié)果,對應(yīng)的字符cci的識別可信度為pci;Tpw(str)表示識別結(jié)果為字符串str時的可信度閾值;Tpc(char)表示識別結(jié)果為字符char時的可信度閾值.組合規(guī)則如下:1)如果字符串長度為1,取結(jié)果CharRes(1);2)如果WordRes1=CharRes(nc)或WordRes2=CharRes(nc),取CharRes(nc);3)如果pw>Tpw(WordRes1)或n1≠n2,取結(jié)果WordRes1;4)如果cw1i≠cw2i,①當(dāng)cw1i=cci時,取結(jié)果WordRes1;②當(dāng)cw2i=cci時,取結(jié)果WordRes2;③pci>Tpc(cci),取結(jié)果WordRes1并用cci替換cw1i;5)?cci∈CharRes(nc),滿足pci>Tpc(cci),取結(jié)果CharRes(nc);依次嘗試規(guī)則1)~5),如果均不滿足,則取結(jié)果WordRes1.圖3給出了圖2中日期詞的整詞識別結(jié)果的前兩義和候選分割路徑的分割識別結(jié)果.4實(shí)驗(yàn)結(jié)果和分析實(shí)驗(yàn)數(shù)據(jù)采用了我國銀行使用的真實(shí)支票圖像.圖像由清分機(jī)掃描獲得,分辨率為200DPI,灰度級為256級.在圖像預(yù)處理后,獲得有效的日期‘日’部分二值子圖像5569張,共43類.選取其中的3637張作為訓(xùn)練樣本集,其余的1932張作為測試樣本集.給定長度的分割-識別方案中需要識別‘零’到‘拾’共11類漢字,訓(xùn)練樣本是從支票大寫金額字符串中采集的單字圖像,在訓(xùn)練樣本集上的識別率高于99%.訓(xùn)練集中字符串長度為1,2,3的樣本
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025年吉林省《保密知識競賽必刷50題》考試題庫及參考答案帶解析
- 2025年遼寧省《保密知識競賽必刷50題》考試題庫【原創(chuàng)題】帶解析
- 客戶客情維護(hù)體系構(gòu)建與實(shí)施
- 核安全事故分析與應(yīng)對策略
- 課間安全永記心間
- 旅店業(yè)禁毒課件
- 良品鋪?zhàn)忧拦芾眢w系
- 醫(yī)學(xué)教學(xué)典型案例設(shè)計(jì)與實(shí)施
- 2025屆江蘇省金壇市堯塘河頭水北中學(xué)生物七下期末經(jīng)典模擬試題含解析
- 福建省廈門市海滄區(qū)鰲冠學(xué)校2025年七年級生物第二學(xué)期期末聯(lián)考試題含解析
- 2025年智慧城市建設(shè)相關(guān)知識考試試卷及答案
- (三模)合肥市2025屆高三年級5月教學(xué)質(zhì)量檢測英語試卷(含答案)
- 2025年采煤機(jī)司機(jī)技能比賽理論考試題庫(共400題含答案)
- 中國網(wǎng)絡(luò)廣告行業(yè)十四五發(fā)展分析及投資前景與戰(zhàn)略規(guī)劃研究報告2025-2028版
- 2024-2025學(xué)年福建省泉州市晉江市安海中學(xué)等五校七年級(下)期中數(shù)學(xué)試卷
- 2025-2030中國建筑智能化工程行業(yè)市場發(fā)展分析及發(fā)展趨勢前景研究報告
- 和醫(yī)院簽運(yùn)營合同協(xié)議
- 2025-2030有機(jī)肥料產(chǎn)業(yè)市場深度調(diào)研及發(fā)展趨勢與投資前景研究報告
- 2025年人教版小學(xué)五年級下冊奧林匹克數(shù)學(xué)競賽測試卷(附參考答案)
- 2024年高考數(shù)學(xué)真題(北京卷)試題試卷原卷答案解析
- 2025年安全生產(chǎn)月主題培訓(xùn)課件:如何查找身邊安全隱患
評論
0/150
提交評論