非限定性工筆非定性防范字串的組合識(shí)別方法_第1頁(yè)
非限定性工筆非定性防范字串的組合識(shí)別方法_第2頁(yè)
非限定性工筆非定性防范字串的組合識(shí)別方法_第3頁(yè)
非限定性工筆非定性防范字串的組合識(shí)別方法_第4頁(yè)
非限定性工筆非定性防范字串的組合識(shí)別方法_第5頁(yè)
已閱讀5頁(yè),還剩1頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

非限定性工筆非定性防范字串的組合識(shí)別方法

消費(fèi)支出在人們的日常生活中起著重要作用。它可以自動(dòng)輸入、存儲(chǔ)、管理和搜索。這是一個(gè)非常重要的現(xiàn)實(shí)意義。關(guān)于這一領(lǐng)域的科學(xué)文章很多,但其中大部分是為了確定大的和小的金額而寫的,關(guān)于日期識(shí)別的報(bào)告也很少。由于中國(guó)不能接受到期退款,因此日期識(shí)別也非常重要。手寫漢字分割是手寫漢字識(shí)別研究中的一項(xiàng)既關(guān)鍵又困難的課題.首先,漢字的字集龐大,書寫風(fēng)格變化多樣,僅一級(jí)字庫(kù)就有3755個(gè)字,粘粘情況復(fù)雜,出現(xiàn)多處粘粘的情況也比較多;第二,漢字中有很多“左右”、“左中右”結(jié)構(gòu)的字符,并且常常是組成字符的每個(gè)部分也是一個(gè)獨(dú)立的字符,這容易造成過分割;第三,不同于英文,中文字詞之間沒有空格,只有標(biāo)點(diǎn)符號(hào)分割,因此當(dāng)句子很長(zhǎng)時(shí)對(duì)分割的要求較高.由于漢字分割的復(fù)雜性,在實(shí)際應(yīng)用中,非限定手寫漢字串的識(shí)別率普遍不高.手寫漢字的分割從策略上主要分為結(jié)構(gòu)分析法和分割-識(shí)別法.結(jié)構(gòu)分析法中漢字圖像被切割成各種特定部件,切割的原則主要是根據(jù)事先定義的字符高度、字符寬度、連續(xù)筆畫走向和字符之間的間距等特性.如Tseng等人提出的筆畫分離和歸并的方法;Zhao等人提出的兩階段分割方法;呂岳等人提出的基于組件合并的分割方法.分割-識(shí)別法是通過投影、結(jié)構(gòu)分析等方法尋找字串中所有可能的分割線,然后根據(jù)識(shí)別評(píng)價(jià)選取其中最優(yōu)的一組分割線.如Qiang等人提出的用隱Markov模型分割手寫中文地址字串.日期具有其特殊性,已經(jīng)有專門針對(duì)日期域分割識(shí)別的討論,但是主要處理的是數(shù)字和英文.如文獻(xiàn)提出的基于知識(shí)的分割方法;文獻(xiàn)提出的支票手寫日期分割的HMM-MLP混合模型方法.我國(guó)的支票日期具有統(tǒng)一的填寫格式,年月日3部分分別用中文從左到右順序填寫,其格式為:YYYY年MM月DD日,其中:YYYY={貳零零零,貳零零壹,貳零零貳,…,貳零玖玖};MM={(零)壹,(零)貳,…,(零)玖,(零)壹拾,壹拾壹,壹拾貳};DD={(零)壹,(零)貳,…,(零)玖,(零)壹拾,壹拾壹,…,(零)貳拾,貳拾壹,…,(零)叁拾,叁拾壹}.文獻(xiàn)提出了支票中預(yù)打印字符的檢測(cè)和去除算法.根據(jù)預(yù)打印字符的位置信息,我們將較容易地獲得日期域中的年、月、日子圖像.本文主要討論‘日’部分的分割識(shí)別.圖1是日期域的示例圖以及背景去除后的二值圖.‘日’部分可以看做是一個(gè)詞或者短語(yǔ),字符串長(zhǎng)度從1~3.由于是非限制手寫體并且填寫的范圍比較緊湊,字符之間常常粘粘,因此檢測(cè)候選分割點(diǎn)和判斷字符的個(gè)數(shù)都比較困難.每個(gè)月份最多有31天,加上它們?cè)跁鴮懜袷缴系母鞣N變化,一般有43個(gè)詞組形式,是一個(gè)有限集.我們把整個(gè)日域作為一個(gè)單字進(jìn)行訓(xùn)練和識(shí)別就能夠避免復(fù)雜的字符串分割過程.從已有的識(shí)別經(jīng)驗(yàn)來看,多字組成的詞在模式上比單字有更多的變化,要達(dá)到較好的識(shí)別效果就需要更大的訓(xùn)練樣本集;同時(shí),不同的詞中會(huì)包含有多個(gè)相同的字符,它們可能影響到整詞的識(shí)別結(jié)果,如“壹拾壹”和“壹拾貳”的前兩個(gè)字符相同.因此我們?cè)O(shè)計(jì)了定長(zhǎng)分割識(shí)別算法,將其識(shí)別結(jié)果與整詞識(shí)別結(jié)果組合,達(dá)到了更好的識(shí)別效果.1圖像對(duì)于圖像的識(shí)別一般的字符串識(shí)別是將字符串分割成孤立的字符,然后進(jìn)行單字識(shí)別,最后再將識(shí)別結(jié)果組合成詞或句子.分割的目的是使識(shí)別的類別數(shù)盡可能的少,避免模式的爆炸性增長(zhǎng).對(duì)于日期這樣類別有限的集合來說,完全可以不分割,直接識(shí)別.我們的整詞識(shí)別引擎采用了多特征多分類器組合策略,輸入為待識(shí)別字符圖像,輸出為識(shí)別結(jié)果的前兩義和可信度度量.它在0~10的大寫漢字集{‘零’,‘壹’,…,‘玖’,‘拾’}上的識(shí)別率高于99%.由于類別數(shù)越多,樣本收集越困難,在識(shí)別前我們對(duì)整詞圖像做大小和筆畫寬度的規(guī)正化處理.首先將圖像規(guī)范到64×128大小,然后預(yù)測(cè)字符筆畫寬度Ws,如果Ws小于給定閾值,進(jìn)行單側(cè)的膨脹運(yùn)算,否則,進(jìn)行單側(cè)的腐蝕運(yùn)算,將筆畫寬度Ws調(diào)整到同一個(gè)固定的數(shù)值.筆畫寬度通過游程長(zhǎng)度直方圖估計(jì):Ws=(t-1)Η(t-1)+tΗ(t)+(t+1)Η(t+1)Η(t-1)+Η(t)+Η(t+1)?其中,t=argmax(H(t))且t>1,H為像素游程長(zhǎng)度直方圖.在整詞識(shí)別時(shí),如果將每一種變化形式作為一個(gè)類別,識(shí)別結(jié)果對(duì)應(yīng)集合DD;如果將字符串長(zhǎng)度相同的日期詞作為同一類,可以有3種類別,識(shí)別結(jié)果對(duì)應(yīng)著字符串的長(zhǎng)度.一般類別數(shù)越多,識(shí)別率越低.后一種方式識(shí)別只有3種類別,可以獲得較高的識(shí)別率.在預(yù)測(cè)了字符串的長(zhǎng)度以后,字符串分割的難度將大大降低.2日期詞中字符的個(gè)數(shù)和編碼分割線的確定在任意手寫漢字字串中,很多字符具有左右結(jié)構(gòu),其結(jié)構(gòu)部件之間的距離與字符之間的距離區(qū)別不明顯.另外,字符之間也常常粘粘,因此確定字符串的長(zhǎng)度和分割線的位置都是很困難的過程.日期詞中字符的個(gè)數(shù)已經(jīng)在前面通過識(shí)別的方法獲得,下面我們分兩步確定分割方案:首先分析圖像中所有可能的分割線,然后給定一個(gè)字串長(zhǎng)度,根據(jù)識(shí)別的可信度確定最優(yōu)的分割路徑.2.1分割線位置的獲取在這一階段,我們通過投影和輪廓分析的方法選取圖像中所有可能的分割線.首先通過輪廓分析獲得圖像中的連通區(qū)CC;然后合并水平方向重疊的連通區(qū),得到多個(gè)連通區(qū)組成的分割部件CCS;最后檢測(cè)CCS內(nèi)的分割線.假設(shè)兩個(gè)連通區(qū)的最小外接矩形分別為(xl1,xr1,yt1,yb1)和(xl2,xr2,yt2,yb2),并且xl1≤xl2.當(dāng)xl2≤xr1時(shí),兩連通區(qū)重疊.重疊度定義為novlap=xr1-xl2min(xr1-xl1,xr2-xl3).如果novlap>0.5,則合并這兩個(gè)部分.投影直方圖采用垂直方向的穿透筆畫數(shù)和像素投影:proj(x)=CrossCount(x)?ΡrojΡixel(x)?其中,其中,b(x,y)為二值圖.圖2是幾個(gè)日期詞圖像和它們的投影圖示例.直方圖中‘谷’的位置對(duì)應(yīng)著可能的分割線位置,但是當(dāng)字符粘粘嚴(yán)重時(shí)可能會(huì)造成部分分割線的漏檢.為了盡量減少這樣的情況發(fā)生,我們?cè)谧址骄鶎挾日麛?shù)倍位置的附近沒能檢測(cè)到‘谷’時(shí),根據(jù)字符的平均寬度強(qiáng)制增加部分的分割線.字符寬度的估算Wc(絕對(duì)字符寬度)是基于投影直方圖的:Wc=∑ΡrojFlag(x)?Ν?其中,為字串的字?jǐn)?shù).增加的分割線位置{pos(k)|1≤k≤N-1}滿足:pos(k)-1∑i=1ΡrojFlag(i)<Wc×k且pos(k)∑i=1ΡrojFlag(i)≥Wc×k.由于這些分割位置是根據(jù)平均字符寬度預(yù)測(cè)的,我們也稱pos(k)為平均分割位置.在分割線位置直接用豎線將字符分開常常會(huì)造成字符的殘缺.我們通過輪廓分析確定分割線的像素組成.假設(shè)x=ValleyPos對(duì)應(yīng)著直方圖中的一個(gè)‘谷’,其中任意一個(gè)連通區(qū)的分割線選取過程分以下幾步:Step1.獲得該連通區(qū)的外輪廓,將外輪廓在最左端點(diǎn)與最右端點(diǎn)分開,形成上下兩個(gè)部分,分別稱為上輪廓線和下輪廓線.上輪廓線用順時(shí)針方向的鏈碼表示為ConT={(ConTx(i),ConTy(i))|1≤i≤LT},其中LT為上輪廓線的鏈碼長(zhǎng)度;下輪廓線用逆時(shí)針方向的鏈碼表示為ConB={(ConBx(i),ConBy(i))|1≤i≤LB},其中LB為下輪廓線的鏈碼長(zhǎng)度.ConT和ConB都是從最左端點(diǎn)開始,到最右端點(diǎn)結(jié)束.Step2.在ConT和ConB上分別選取初始分割點(diǎn)PT(ConTx(kt),ConTy(kt))和PB(ConBx(kb),ConBy(kb)),其中:kt=argmax1≤i≤LΤ{ConΤy(i)|ConΤx(i)=ValleyΡos}?kb=argmin1≤i≤LB{ConBy(i)|ConBx(i)=ValleyΡos}.Step3.判斷連通區(qū)是否需要被分開.nl是連通區(qū)左側(cè)滿足D(x)-U(x)>λWs的列數(shù).D(x)=minConBx(i)=x(ConBy(i)),1≤i≤kb;U(x)=maxConΤx(i)=x(ConTy(i)),1≤i≤kt;λ為給定常數(shù).若nl<Tnl或ConTx(kt)-ConTx(1)<Tl,則結(jié)束,連通區(qū)不被分割,其中Tnl和Tl為經(jīng)驗(yàn)常數(shù).類似可以考察連通區(qū)右側(cè).Step4.檢測(cè)分割點(diǎn).分割點(diǎn)一般位于上輪廓的‘谷’和下輪廓的‘峰’.在PT附近(下標(biāo)kt±Δ區(qū)間)檢測(cè)凹點(diǎn)SPT={(SPTx(i),SPTy(i))|1≤i≤nt},nt表示檢測(cè)到的凹點(diǎn)個(gè)數(shù).凹點(diǎn)滿足SPTy(i)=max(ConTy(j)|ti-2≤j≤ti+2),ti表示點(diǎn)(SPTx(i),SPTy(i))在ConT中的下標(biāo).類似的方法可以檢測(cè)下輪廓的凸點(diǎn)SPB={(SPBx(i),SPBy(i))|1≤i≤nb},nb表示檢測(cè)到的凹點(diǎn)個(gè)數(shù),bi表示點(diǎn)(SPBx(i),SPBy(i))在ConB中的下標(biāo).凸點(diǎn)滿足SPBy(i)=max(SPBy(j)|bi-2≤j≤bi+2).Step5.確定分割線.在上輪廓線和下輪廓線上分別選取分割點(diǎn)Q1和Q2,用這個(gè)點(diǎn)將確定的直線ˉQ1Q2作為連通區(qū)的分割線.一般分割線的長(zhǎng)度要短,位置要低,因此定義評(píng)價(jià)函數(shù):D(u,v)=√(ux-vx)2+(uy-vy)2-(uy+vy)?2?其中,u(ux,uy),v(vx,vy)為圖像中的任意兩個(gè)像素.分割點(diǎn)滿足在Q1和Q2的取值范圍內(nèi)D(Q1,Q2)有最小值.當(dāng)nt>0時(shí),Q1∈SPT,否則Q1∈{(ConΤx(i),ConΤy(i))|max(1,kt-Δ)≤i≤min(LΤ,kt+Δ)}.當(dāng)nb>0時(shí),Q2∈SPB,否則Q2∈{(ConBx(j),ConBy(j))|max(1,kb-Δ)≤j≤min(LB,kbS+Δ)}.如果CCS包含有多個(gè)CC,可以分別對(duì)每個(gè)CC進(jìn)行分割,然后將得到的結(jié)果合并.如果一個(gè)CC中檢測(cè)到多個(gè)投影‘谷’,可以在一次分割后,用新得到部分的外輪廓與分割線組成一個(gè)新的閉環(huán),用類似的方法分割.2.2對(duì)于分類器的分類分割線有3種類型:連通區(qū)分析確定的分割線;投影‘谷’確定的強(qiáng)制分割線;平均字寬對(duì)應(yīng)的分割線.第1種分割線通常是字符之間或部首之間的間隙位置,一般比較可靠;后兩種主要是為了解決字符粘粘的情況.如果有M條候選分割線,字符串長(zhǎng)度為N,則分割有CΝ-1Μ種可選路徑.依據(jù)識(shí)別結(jié)果選取最優(yōu)的分割路徑是一種行之有效的方法.很多的分類器在給出分類結(jié)果的同時(shí),可以給出待識(shí)別字符與識(shí)別類之間的相似程度,稱為置信度或可信度.假設(shè)字符串中各個(gè)字符相互獨(dú)立,分割結(jié)果的字串平均可信度表示為:Ρ=∑ipi?Ν,其中pi為單字識(shí)別的可信度.字串的平均可信度越大說明分割結(jié)果中字符的識(shí)別效果越好.最大字串平均可信度對(duì)應(yīng)著字串的最優(yōu)分割路徑.字符識(shí)別是一個(gè)比較耗時(shí)的過程,而且識(shí)別評(píng)價(jià)體系受噪聲和非字符模式的影響很大.為了盡量減少最終分割路徑的數(shù)量,提高系統(tǒng)的效率和性能,我們提出了一些規(guī)則.如果分割結(jié)果滿足下列條件之一,則刪除這一分割路徑:1)其中一個(gè)字符的寬度小于Wc2;2)其中一個(gè)字符的寬高比大于2或小于13;3)分割線到最近的平均分割線的距離大于Wc3.圖3是圖2對(duì)應(yīng)的分割線以及可能的分割結(jié)果.3日期詞的識(shí)別算法從現(xiàn)有的文獻(xiàn)來看,傳統(tǒng)的分割-識(shí)別方法在任意手寫字符串中的識(shí)別效果并不太理想.一方面隨著字符串長(zhǎng)度的增加,識(shí)別率呈指數(shù)下降,如果單字識(shí)別率為p,那么長(zhǎng)度為N的字符串識(shí)別率的理論上限為pN;另一方面,在字符串分割過程中,分割線的多檢與漏檢、字符的殘缺與噪聲、字符識(shí)別的可信度度量不可靠等也是目前字符串識(shí)別率低的一個(gè)重要原因.本文提出的整詞識(shí)別方法避免了分割過程引起的誤識(shí).但是整詞識(shí)別增加了類別數(shù),而且一些詞中存在部分相同的字符,這可能影響到整詞識(shí)別的效果.因此我們?cè)O(shè)計(jì)了整詞識(shí)別和定長(zhǎng)分割-識(shí)別相結(jié)合的日期詞識(shí)別方案.設(shè)WordRes1={cw1i|1≤i≤n1},WordRes2={cw2i|1≤i≤n2}分別表示整詞識(shí)別結(jié)果的第1和第2義,n1和n2分別為它們的字符串長(zhǎng)度;pw表示整詞識(shí)別的可信度;CharRes(nc)={cci|1≤i≤nc}表示給定字符串長(zhǎng)度nc時(shí)的分割識(shí)別結(jié)果,對(duì)應(yīng)的字符cci的識(shí)別可信度為pci;Tpw(str)表示識(shí)別結(jié)果為字符串str時(shí)的可信度閾值;Tpc(char)表示識(shí)別結(jié)果為字符char時(shí)的可信度閾值.組合規(guī)則如下:1)如果字符串長(zhǎng)度為1,取結(jié)果CharRes(1);2)如果WordRes1=CharRes(nc)或WordRes2=CharRes(nc),取CharRes(nc);3)如果pw>Tpw(WordRes1)或n1≠n2,取結(jié)果WordRes1;4)如果cw1i≠cw2i,①當(dāng)cw1i=cci時(shí),取結(jié)果WordRes1;②當(dāng)cw2i=cci時(shí),取結(jié)果WordRes2;③pci>Tpc(cci),取結(jié)果WordRes1并用cci替換cw1i;5)?cci∈CharRes(nc),滿足pci>Tpc(cci),取結(jié)果CharRes(nc);依次嘗試規(guī)則1)~5),如果均不滿足,則取結(jié)果WordRes1.圖3給出了圖2中日期詞的整詞識(shí)別結(jié)果的前兩義和候選分割路徑的分割識(shí)別結(jié)果.4實(shí)驗(yàn)結(jié)果和分析實(shí)驗(yàn)數(shù)據(jù)采用了我國(guó)銀行使用的真實(shí)支票圖像.圖像由清分機(jī)掃描獲得,分辨率為200DPI,灰度級(jí)為256級(jí).在圖像預(yù)處理后,獲得有效的日期‘日’部分二值子圖像5569張,共43類.選取其中的3637張作為訓(xùn)練樣本集,其余的1932張作為測(cè)試樣本集.給定長(zhǎng)度的分割-識(shí)別方案中需要識(shí)別‘零’到‘拾’共11類漢字,訓(xùn)練樣本是從支票大寫金額字符串中采集的單字圖像,在訓(xùn)練樣本集上的識(shí)別率高于99%.訓(xùn)練集中字符串長(zhǎng)度為1,2,3的樣本

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論