文字識別算法_第1頁
文字識別算法_第2頁
文字識別算法_第3頁
文字識別算法_第4頁
文字識別算法_第5頁
已閱讀5頁,還剩7頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

1、題 目 圖像分割技術(shù)學(xué) 院 計算機科學(xué)與技術(shù)班 級 計軟1401學(xué) 生 蘭俊鋒學(xué) 號 20141214023文字識別是智能識別技術(shù)中的一個重要技術(shù)。文字具有便于信息保存和傳遞的優(yōu)點,使信息在時間和空間上得以迅速擴散。在人們的日常生活中,在機關(guān)事務(wù)處理、工業(yè)以及商業(yè)交往中,需要識別文字的數(shù)量如同天文數(shù)字,但利用計算機識別的文字量卻很少。最近幾年,隨著計算機技術(shù)、數(shù)學(xué)和圖像技術(shù)的發(fā)展,文字識別的應(yīng)用領(lǐng)域逐步擴大,目前較為活躍的應(yīng)用包括數(shù)字識別,文字識別等。文字識別是指用計算機字典、高速地識別現(xiàn)在介質(zhì)(如紙張等)上的數(shù)字、英文符號或漢字。文字識別實際上就是解決文字的分類問題,一般通過特征及特征匹配的

2、方法來進行處理。本文將從算法、應(yīng)用兩方面介紹文字識別技術(shù),本文介紹的文字識別應(yīng)用有英文字母識別、車牌特殊文字識別、書寫文字識別、特殊文字識別。文字是人類相互交流信息的重要工具。社會發(fā)展進入信息時代,人們已不再停留在用自己的耳朵和眼睛去直接獲得這些信息,而是使用計算機將文字自動的輸入計算機,用計算機對他們進行處理,隨時以各種方式滿足人們的不同需要。因此,研究如何用計算機自動識別文字圖像,解決文字信息自動輸入計算機,并進行高速加工處理的問題已引起大家的廣泛關(guān)注。歸一化算法一般作為一種圖像的預(yù)處理技術(shù),其目的是將采集到的原始圖像轉(zhuǎn)換成特征提取器所能接受的形式(灰度圖像或二值圖像),消除一些與類別無關(guān)

3、的因素(噪聲消除、歸一化等) 。從理論上講,經(jīng)過歸一化后的骨架應(yīng)該是寬度為一的中心線,但這是不可能的。不同的硬件設(shè)備和不同的算法得出的結(jié)果可能不是唯一的,其結(jié)果與原圖案的扭曲程度也是不樣的,扭曲程度盡量的小應(yīng)該是歸一化算法追求的目的之一 。既然預(yù)處理是為后續(xù)的特征提取和分類器設(shè)計服務(wù)的,那么預(yù)處理方法的選擇就應(yīng)該有利于特征的提取,以使分類變得簡單。汽車牌照識別,在高速公路收費、電子警察和治安卡口等系統(tǒng)中有重要的應(yīng)用價值。作為圖像識別的典型問題,汽車牌照識別的研究有很長的歷史,但因為實際路況的高度復(fù)雜性(如車速、光線、污染及變形等),目前的性能還不能令人滿意。1. 文字識別過程概述一般來說,文字

4、圖像的識別過程主要由以下4 個部分組成:正確地分割文字圖像區(qū)域;正確地分離單個文字;正確識別單個文字;正確地連接單個文字。其中、屬于文字圖像分析技術(shù)問題,屬于文字識別技術(shù)問題。關(guān)于,由于僅從分割處理不能對其進行評價,通常采用文字識別地評價值來判斷分離的正確性。單純的文字識別是指經(jīng)二值化處理后的單個文字識別。1.1. 文字識別系統(tǒng)的原理及組成文字圖像的識別的原理如下圖所示。圖中光電變換檢測部分的主要功能,是對紙面上的文字進行光電轉(zhuǎn)換,然后經(jīng)模數(shù)轉(zhuǎn)換成具有一定灰度的數(shù)字信號,送往其后的各部分進行處理和識別。常用的檢測設(shè)備是掃描儀,CCD 攝像頭等。文字圖像分割的目的就是根據(jù)文字圖像的特征的視線文字

5、圖像區(qū)域的定位和分割,將真正的文字圖形分割出來,以便后續(xù)進行識別,識別與處理部分的功能是將已分割出的文字圖形信息加以區(qū)分,去除信號中的污點、空白等噪聲,增強文字圖像的信息。并根據(jù)一定的準則除掉一些非本質(zhì)信號,對文字的大小、位置和筆畫粗細等進行規(guī)范化,以便簡化判斷部分的復(fù)雜性。特征提取部分是從整形和規(guī)范化的信號中抽取反映字符本身的有用信息,供識別部分進行識別。作為特征提取的內(nèi)容是比較多的,可以是幾何特征,如文字線條的端點、折點和交點等。識別判斷部分則是根據(jù)抽取的特征,運用一定的識別原理,對文字進行分類,確定其屬性,達到識別的目的,實際上判斷部分就是一個分離器。識別系統(tǒng)學(xué)習(xí)部分的功能是生成計算機特

6、征字典,學(xué)習(xí)根據(jù)已準備好的多個字樣,抽出代表該字的特征,進行修改,按照字典的規(guī)定位置存放該特征。學(xué)習(xí)分為兩種:一種是在人的參與下進行,稱為“有教師”學(xué)習(xí);一種由計算機自動進行,稱為“無教師學(xué)習(xí)”。1.2. 文字識別的方法文字識別是指用計算機字典、高速地識別現(xiàn)在介質(zhì)(如紙張等)上的數(shù)字、英文符號或漢字。文字識別實際上就是解決文字的分類問題,一般通過特征及特征匹配的方法來進行處理。特征判別是通過文字類別(例如英文或漢字)的共同規(guī)則(如區(qū)域特征、四周邊特征等)進行分類判別。它不需要利用各種文字的具體知識,根據(jù)特征抽取的程度(知識的使用程度) 分解到地使用結(jié)構(gòu)分析的辦法完成字符的識別。匹配的方法則是根

7、據(jù)各國文字的知識(稱為自動)采取按形式匹配的方法進行。按實現(xiàn)的技術(shù)途徑不同又可分為兩種:一種是直接利用輸入的二維平面圖像與字典中記憶的圖像進行全域匹配;另一種是只抽出部分圖像與字典進行匹配。然后根據(jù)各部分形狀及相對位置關(guān)系,與保存在字典中的知識進行對照,從而識別出每一個具體的文字。前一種匹配方法適合于數(shù)字、英文符號一類的小字符集;后一種匹配方法適用于漢字一類的大字符集。1.3. 邊緣檢測邊緣(Edge)是指圖像局部亮度變化量最顯著的部分。邊緣主要存在于目標與木板、目標與背景、區(qū)域與區(qū)域(包括不同色彩)之間,是圖像分割、紋理特征提前和形狀特征提取等圖像分析的重要基礎(chǔ)。圖像分析和理解的第一步常常是

8、邊緣檢測。由于邊緣檢測十分重要,因此成為機器視覺研究領(lǐng)域最活躍的課題之一。圖像中的邊緣通常與圖像亮度或圖像亮度的一階導(dǎo)數(shù)的不連續(xù)性有關(guān)。圖像亮度的不連續(xù)可分為:階躍不連續(xù),即圖像亮度在不連續(xù)處的兩邊的像素灰度值有著顯著的差異;線條不連續(xù),即圖像亮度突然從一個值變化到另一個值,保持一個較小的行程后又返回到原來的值。在實際中,階躍和線條邊緣圖像是很少見的,由于大多數(shù)傳感元件具有低頻特性,使得階躍邊緣變成斜坡型邊緣,線條邊緣變成屋頂形邊緣,其中的亮度變化不是瞬間的,而是跨越一定的距離。對一個邊緣來說,有可能同時具有階躍和線條邊緣特性,例如在一個表面上,由一個平面變化到發(fā)線方向不同的另一個平面上就會產(chǎn)

9、生階躍邊緣;如果這一表面具有鏡面反射特性且兩平面形成的棱角比較圓滑,則當棱角圓滑表面的法線經(jīng)過鏡面反射角時,由于鏡面反射分量,在棱角圓滑表面上會產(chǎn)生明亮光條,這樣的邊緣看起來像在階躍邊緣上疊加了一個線條邊緣。由于邊緣可能與場景中物體的重要特征對應(yīng),所以它是很重要的圖像特征。比如,一個物體的輪廓通常產(chǎn)生階躍邊緣,因為物體的圖像亮度不同于背景的圖像亮度。2. 簡單貝葉斯分類器簡單貝葉斯分類器(Simple Bayes Classifier或Naïve Bayes Classifier)1假定特征向量的各分量間相對于決策變量是相對獨立的。對于特征向量為X=x1,x2,xdT的測試樣本,它屬

10、于第Ci類的條件概率為:P(Ci|X)=P(X|Ci)*P(Ci)/P(X) =(P(Ci)/P(X) (1)對每一個類別(即取不同的值)都計算上面的條件概率,最終的識別結(jié)果為條件概率最大的那一類別。雖然簡單貝葉斯分類器是基于獨立性假設(shè)的,在違背這種假定的條件下簡單貝葉斯也表現(xiàn)出相當?shù)慕研院透咝?78,它已經(jīng)成功地應(yīng)用到分類、聚類等問題中。2.1. 簡單貝葉斯分類器在切分中的應(yīng)用在確定文字的最佳候選后邊界時,假設(shè)有m個候選后邊界,分別對應(yīng)m個候選切分結(jié)果,用d種特征來衡量其合理性,記為Xj=x1,x2,xdT, j(=1,2m)。則,當文字為Ci類(C1、C2、C3)分別表示漢字、英文和數(shù)

11、字、標點類別),且后邊界為第j個候選后邊界的概率為:P(Xj,Ci)=P(Xj|Ci)*P(Ci) = P(Ci) (i=1,2,3 j=1,2m) (2)以上公式(2)與公式(1)不同的是,公式(1)只需要確定一個值,即觀測值X對應(yīng)的類別;而公式(2)不僅需要確定一個候選后邊界切分出文字的種類,還需要確定m個候選后邊界那一個最合適。顯然,使P(Xj|Ci) 取最大值時的j就對應(yīng)了最佳切分位置,而相應(yīng)的i即為對文字類別的定義。2.2. 特征提取文中的貝葉斯分類器用到的特征可分為兩種:一種是文字形狀和結(jié)構(gòu)方面的特征,包括6種文字外形特征(文字高度、寬度、字間距離、覆蓋率、高寬比2 、縱向起始位置

12、)和3種后邊界特征(后邊界穿越筆劃數(shù)、后邊界投影值、后邊界上下穿越筆劃點距離);另一種是文字內(nèi)容特征,包括16維方向線素特征(把文字分成不重疊的2×2塊,每塊提取出水平、垂直、45°和135°4個方向的方向線素特征)。第一種特征里,除了覆蓋率和高寬比外都需要特征歸一化。這里用圖像中的漢字平均高和寬對它們歸一化。因此,切分過程的第一步需要估計基本參數(shù):漢字平均高和寬。在研究中發(fā)現(xiàn),文字切分中最容易出現(xiàn)的錯誤是:(1)把漢字的偏旁、部首等部件當成英文、數(shù)字或標點單獨切開;(2)把英文、數(shù)字或標點與漢字切在一起。為了有較好的切分效果,就需要抽取出能夠區(qū)分這些錯誤的特征。

13、一級漢字中容易切開的漢字有以下幾種:(1)“八”,“兒”,“川”,“非”,“加”,“舊”,“別”,“訓(xùn)”;(2)“叫”,“禮”,“仆”,“討”,“引”,“很”;(3)“必”,“小”,“心”;(4)“懊”。第1、3 種字,單個字左右部分容易切開;第2、4種字,由于有左邊的部首,左右部分也容易切開;第1、2種漢字易被當成英文或數(shù)字類文字切開;第2、4種漢字左邊的點易被當成標點類文字切開。為此,把上面4種文字易被切開的部分定義為新的文字類別:部件類,用C4來表示它;該類僅用于提取特征。3. 歸一化算法的研究漢字圖像的歸一化包括位置、大小、旋轉(zhuǎn)、傾斜和筆畫寬度的歸一化。在整個漢字識別系統(tǒng)中會進行字符切

14、分、傾斜校正等步驟,本文主要研究漢字的大小和筆畫寬度的歸一化。3.1. 字體大小歸一化由于漢字字形、字體繁多,同一漢字的特征也因此而不同,為了便于統(tǒng)一描述和提取同一漢字的特征,對不同字形、字體漢字均能識別,為漢字識別工作打好基礎(chǔ),在漢字特征提取前還需對漢字圖像進行大小歸一化的操作。所謂大小歸一化就是對實際提取的字符進行縮放操作,最后得到預(yù)定大小的字符圖像。一般漢字圖像預(yù)處理的第一步是進行二值化處理,二值化處理的目的是把灰度圖像轉(zhuǎn)換為二值圖像。二值化處理后圖像中的像素點不是1(黑點)就是0(白點)。記為:GM*N = (Pi,j) (1iM,1JN)其中,M和N分別為G的長和寬;Pi,j 為第i

15、行、第j列的像素點。Pi,j=1時表示一個黑像素點(前景點),Pi,j =0時表示一個白像素點(背景點)。簡記為G。一般的縮放算法是對一個區(qū)域的灰度值進行運算,由四個以上的輸入像素決定輸出像素的灰度值。而對于二值圖像,只有黑白像素,此時可以對圖G進行劃分而得到一組圖塊g,使得每個g內(nèi)黑像素點的分布是比較均勻的,記為:gm*n = (Pa,b) (Pa,bG,1am,1bn)其中,m 和n(mM,nN)分別稱為該圖塊的長和寬。定義了圖塊之后,二值點陣圖像又可表示為:GM*N =(gx,ym*n ) (1xMm,1yNn)其中,(x,y)表示圖塊g在圖像G中的位置。在圖塊g中,值為1的像素點個數(shù)與

16、全部像素點個數(shù)之比,稱為該圖塊的灰度值。記為:P(g)=( Pi,j(m×n)×100% (1im, 1jm)若g中所有的像素點為1,則稱將g置1,若所有的像素點為0,則稱將g置0。本文所用的大小歸一化算法不是簡單地將g壓縮為一個像素點,而是按壓縮比將g縮小成為另一個圖塊g,使得g具有與g相同的特征,即二者的黑像素點分布是相似的。這樣,由g構(gòu)成的縮小圖G就可基本上保持原圖G的特征,從而減小了由縮小所造成的失真。設(shè):GM*N =(gi,jm*n) (1iMm,1JNn)G =(gi,j) (gi,j為g縮小后形成的圖塊)算法描述如下: 讀入原圖G,根據(jù)G的行列數(shù)、特征及壓縮比

17、,確定圖塊g的行、列數(shù)及g的行、列數(shù); i=1,j=1; 讀人gi,j,根據(jù)第一次劃分得到的圖塊的灰度值P(gi,j)及圖塊的特征構(gòu)造gi,j; 若iMm或jNn,則修改i,j的值使之指向下一個像素點,然后轉(zhuǎn)向步驟 繼續(xù);否則結(jié)束。算法的關(guān)鍵是根據(jù)原圖塊g的黑點分布特征來動態(tài)地構(gòu)成g。為了提高處理效率,可在分布特征基本相似的一個較大的區(qū)域采用相同的g。而當特征發(fā)生較大變化時再重新構(gòu)造新的g。3.2. 筆畫寬度歸一化對筆畫寬度進行歸一一化的目的是使二值圖像變?yōu)閮H有一個像素寬度的骨架,這個過程也稱之為細化。細化的本質(zhì)就是尋找圖形的中軸線或骨架。并以其骨架來取代該圖形。細化后的圖形的像素寬度變?yōu)?,

18、但仍能保持原圖形的結(jié)構(gòu)性信息,如位置、方向、長度等。在現(xiàn)代模式識別系統(tǒng)中,細化處理已經(jīng)成為最為關(guān)鍵的預(yù)處理步驟之一,細化效果的好壞將直接影響識別速度及識別的準確率??梢哉f能否進行有效的細化,已成為識別系統(tǒng)成功與否的關(guān)鍵所在。對一個圖像細化之后的骨架必須能夠反映出原來物體的形狀特征才具有實用價值。因此,一個好的細化算法一般需要滿足以下要求: 保留物體形狀的連通性,可以是4向連通也可以是8向連通。 無過度腐蝕,即保留位置重要的點(如線段終點)。 骨架圖像盡可能是原圖像的中心線。 骨架必須與原物體是拓撲等價的。 抗噪聲性能好,出現(xiàn)在物體邊界上的噪聲不應(yīng)該過分影響細化結(jié)果。細化分成串行細化和并行細化,

19、串行細化即是一邊檢測滿足細化條件的點,一邊刪除細化點;并行細化即是檢測細化點的時候不進行點的刪除只進行標記,而在檢測完整幅圖像后一次性去除要細化的點。經(jīng)典的圖像細化算法有Hilditch算法,Pavlidis算法和Rosenfeld算法等。Zhang細化算法2 是目前應(yīng)用最為普遍的方法之一,是在上面三種細化算法的基礎(chǔ)上演變而來的,也是本系統(tǒng)所采用的算法。每當人們開發(fā)出一種新的算法時,也經(jīng)常引用Zhang細化算法來與新算法進行比較,以評定新算法的優(yōu)劣。定義邊界點是本身標記為1而其8向連通鄰域中至少有一個點標記為0的點。以邊界點為中心的8向鄰域,即中心點為p1,其鄰域的8個點繞中心點順時針依次進行

20、標記,如圖所示。首先標記同時滿足下列條件的邊界點:連接數(shù)=1。 26個零像素。 p2,p4,p6中至少有一個像素是背景像素(即白色點)。 p4,p6,p8中至少有一個像素是背景像素。在一次迭代運算后,刪除被標記的像素點,然后進行另一個迭代,其步驟和第一次迭代相同,只是把上述 、 條件替換成如下的形式: p2,p4,p8中至少有一個像素是背景像素。 p4,p6,p8中至少有一個像素是背景像素。第二個迭代后,同樣刪除所有被標記像素。然后轉(zhuǎn)入下一輪循環(huán),直到兩次迭代中均無像素被刪除時,算法結(jié)束。3.3. 算法修正由于圖像邊界的不規(guī)則和骨架對噪聲的敏感,使抽取骨架存在大量的畸變從而使數(shù)據(jù)擬合和矢量化跟蹤的結(jié)果不能正確表示原始信息,嚴重地影響到今后對圖像的識別質(zhì)量。對此,一般的修正策略是對給定骨架的兩個連通成分,考查它們之間的距離與某一域值的關(guān)系,以決定這兩個連通成分的連接性。較為常用的 法訂:3.3.1. 固定視口法為校正骨架化畸變,可設(shè)定固定的視口,根據(jù)固定視口

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論