畢業(yè)論文印刷體漢字識別方法的研究

上傳人：伊*** IP屬地：上海上傳時間：2022-03-05 格式：DOCX 頁數(shù)：37 大?。?97.01KB 積分：20 舉報 版權申訴

已閱讀5頁，還剩32頁未讀，繼續(xù)免費閱讀

版權說明：本文檔由用戶提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權，請進行舉報或認領

文檔簡介

1、畢業(yè)論文印刷體漢字識別方法的研究作者姓名 xx專業(yè) 電子信息工程指導教師姓名王導專業(yè)技術職務目錄摘要1第一章緒論31.1漢字識別研究的意義31.2印刷體漢字識別研究的背景3第二章漢字識別技術42.1漢字識別概述42.2漢字識別的原理42.3漢字識別的一般方法52.4 印刷體漢字識別問題與困難6第三章印刷體漢字識別的研究73.1 印刷體漢字識別技術的發(fā)展歷程73.2 印刷體漢字識別的原理分析及算法研究83.2.1 預處理93.2.2 漢字特征提取113.2.3 漢字的分類識別133.2.4 后處理153.3印刷體漢字識別技術分析163.3.1結構模式識別方法163.3.2 統(tǒng)計模式

2、識別方法173.4印刷體漢字識別的分類19第四章系統(tǒng)的實現(xiàn)與仿真194.1系統(tǒng)的實現(xiàn)194.2系統(tǒng)的仿真20第五章總結與展望235.1總結235.2 展望23參考文獻25附錄26致謝34摘要漢字識別技術是一種高速、自動的信息錄入手段,成為未來計算機的重要職能接口，還可以作為辦公自動化、新聞出版、機器翻譯等領域的理想輸入方式，有著廣泛的應用前景。漢字識別的最終目的是使中文信息能更自然，更方便地輸入計算機，以便于進一步處理實際生活中，大量的書信、報紙、雜志內(nèi)容需要輸入計算機，這就是印刷體漢字識別要解決的問題。本文首先就漢字識別研究的意義及背景作了綜述。第二章介紹了漢字識別的基本過程以及印刷體漢字

3、識別研究存在的問題與困難。第三章對印刷體漢字識別作了詳細闡述，論述了印刷體漢字識別的原理和預處理、特征抽取與分析、后處理過程；著重分析了統(tǒng)計模式識別方法、結構模式識別方法以及匹配識別；第四章用Matlab對系統(tǒng)進行了仿真；最后闡明了漢字識別技術研究今后發(fā)展的方向。關鍵詞：印刷體漢字識別特征提取匹配識別統(tǒng)計模式識別Matlab仿真ABSTRACTChinese character recognition technology is a kind of automatic high-speed, information input method, become the important fun

4、ctions of the computer interface, still can as office automation, the press and publishing, machine translation, etc, the ideal input has wide application prospects. The aim of Chinese character recognition is to make the Chinese input more natural and convenient so that the computer could process C

5、hinese information more easily. In practice, large volume of letters, newspaper, magazines need to be covered into a coded representation of the input characters. That's what printed Chinese character recognition can do. Firstly, this thesis gives what is the significance of research and backgro

6、und of Chinese character recognition. In chapter 2, the basic procedure of Chinese character recognition and defects and difficulties of printed Chinese character recognition is introduced. Every step of recognition is elaborated in details. In chapter 3, we describe printed Chinese character recogn

7、ition system in details, discussing the print character recognition technology, and looks forward to the development trend of Chinese character recognition technology. Discusses the principles and printed character recognition, feature extraction and analysis, the post-processing process, Emphatical

8、ly analyses the statistical pattern recognition method, structural pattern recognition method and matching recognition. In chapter 4, giving an simulation for the system. Expounded characters identification technology research directions of future development.Key words:Printed Chinese character reco

9、gnition;feature extraction;Matching recognition;Statistical pattern recognition; MatlabSimulation第一章緒論1.1漢字識別研究的意義漢字已有數(shù)千年的歷史，是中華民族文化的重要結晶，閃爍著中國人民智慧的光芒。同時也是世界上使用人數(shù)最多和數(shù)量最多的文字之一?，F(xiàn)如今，漢字印刷材料的數(shù)量大大增加，一些專業(yè)單位如新聞社、圖書館、古籍出版社、檔案館等所接觸的印刷材料更是浩如煙海，信息量均是爆炸性增長，畢竟閱讀印刷材料更為符合人的自然閱讀習慣。然而，漢字是非字母化、非拼音化的文字，因此，如何將漢字快速高效地輸

10、入計算機，是信息處理的一個關鍵問題1，也是關系到計算機技術能否在我國真正普及的關鍵問題，更是傳播與弘揚中華民族悠久歷史文化的關鍵問題。但人工鍵入速度不僅慢而且勞動強度大，一般的使用者每分鐘只能輸入4050個漢字。這種方法不適用于需要處理大量文字資料的辦公自動化、文檔管理、圖書情報管理等場合。而且隨著勞動力價格的升高，利用人工方法進行漢字輸入也將面臨經(jīng)濟效益的挑戰(zhàn)。因此，對于大量已有的文檔資料，漢字自動識別輸入就成為了最佳的選擇。因此，漢字識別技術也越來越受到人們的重視。漢字識別技術已經(jīng)呈現(xiàn)出了廣泛的應用前景，它主要應用在中文信息處理、辦公室自動化、機器翻譯、人工智能等高技術領域。漢字識別是模式

11、識別的重要應用領域，也是光學字符識別OCR（Optical CharacterRecognition）的重要組成部分2。漢字識別是一門多學科綜合的研究課題，它不僅與人工智能的研究有關，而且與數(shù)字信號處理、圖像處理、信息論、計算機科學、幾何學、統(tǒng)計學、語言學、生物學、模糊數(shù)學、決策論等都有著千絲萬縷的聯(lián)系。一方面各學科的發(fā)展給它的研究提供了工具；另一方面，它的研究與發(fā)展也必將促進各學科的發(fā)展。因而有著重要的實用價值和理論意義。1.2印刷體漢字識別研究的背景印刷體漢字識別是漢字識別研究中的一個重要課題。在以往的研究中，均十分重視印刷體漢字特征點提取的工作。所謂特征點，是指反映漢字形體特征整體分布狀

12、況的關鍵點集，即構成漢字筆劃骨架線的端點、折點、交點等。如圖1-1所示漢字圖像“大”：漢字圖像“大”的特征點。圓圈標出的點為特征點表示圖1-1 圖像“大”特征點通常，對大多數(shù)結構穩(wěn)定的漢字，一旦獲得了正確的特征點集，就可能順利地按照一定的策略和步驟（比如漢字的連接筆劃、結構匹配等），將漢字形體劃歸為正確的字類，印刷體漢字識別的正確性就能夠得到保證。當前，印刷體漢字特征點的識別效率還有進一步改進的空間。特征點提取方法屬于句法結構模式識別方法之一。另一方面，隨著數(shù)字圖像處理技術的發(fā)展和實際應用的需求，許多問題不要求其輸出結果是一幅完整圖像本身，而是將經(jīng)過特定處理的圖像，再分割和描述，提取有效的特征

13、，進而加以判決分類。這種技術就是圖像的模式識別。隨著數(shù)字圖像處理和模式識別技術的不斷發(fā)展與廣泛應用，圖像的編碼技術得到了飛速發(fā)展，并以其優(yōu)良的特性在圖像處理領域得到越來越多的運用。第二章漢字識別技術2.1漢字識別概述漢字識別（CCR：Chinese Character Recognition）是用電子計算機自動辨識印刷在紙上和人寫在紙（或者介質）上的漢字。漢字識別技術是計算機智能接口的一個重要組成部分。從學科上劃分漢字識別屬于模式識別和人工智能的范疇。它涉及到模式識別和圖像處理、人工智能、形式語言學、模糊數(shù)學等眾多學科，是一門綜合性的技術。2.2漢字識別的原理漢字識別的基本思想是匹配判別。漢

14、字識別可簡單的分為兩個過程：學習（訓練）過程和識別過程。學習過程就是讓計算機通過樣本學習或訓練提取出每個漢字的特征并存儲起來，作為標準特征庫，即模板庫。識別過程中，計算機首先按學習過程中的特征提取方法提取出輸入模式的特征，然后再與標準特征庫中的特征進行匹配，匹配程度最大的漢字即為識別結果。因此，如何確定表達待識別漢字模式的最佳特征（組合優(yōu)化特征），如何進行特征匹配，從而進行高效、快速的識別，是漢字識別技術的關鍵所在。抽取代表未知漢字模式本質的表達形式（如漢字的各種特征）和預先存儲在機器中的標準漢字模式表達形式的集合（稱為字典）逐一匹配，用一定的準則進行判別，在機器存儲的標準漢字模式表達形式的集

15、合中，找出最接近輸入模式的表達形式，該表達模式對應的字就是識別結果。圖2-1 漢字識別原理框圖漢字識別原理如圖2-1所示：光電掃描器掃描紙上的文字，產(chǎn)生模擬電信號，經(jīng)模數(shù)轉器轉換為由灰度值表達的數(shù)字信號，并送至預處理環(huán)節(jié)。預處理的內(nèi)容和要求取決于識別方法，一般包括行、字切分，二值化，細化或抽取輪廓，平滑，規(guī)范化等等。經(jīng)過預處理，漢字模式成為規(guī)范化的二值數(shù)字點陣信息，其中“l(fā)”部分反映了漢字筆劃部分，“0”部分是文字的空白背景。對該二值化漢字點陣，抽取一定的表達形式后，和存儲在字典中的已知標準漢字表達形式匹配判別，就可以識別出輸入的未知漢字。2.3漢字識別的一般方法漢字的模式表達形式有多種，每

16、種形式又可以選擇不同的特征。每種特征又有不同的抽取方法。這些就使得判別方法和準則有不同，乃至形成多種不同形式的漢字識別方法。這些方法可以歸結為兩類一般性處理方法統(tǒng)計決策的方法和句法結構的方法。1. 統(tǒng)計決策的方法（statistical decision method）在漢字識別中，每個字的特征不是一維，而是一個m維的特征向量;字典的每類標準模板也不是一個，而是一批；判別輸入文字屬于哪一類時，也不是只把它的特征向量和字典內(nèi)標準特征向量逐一簡單比較從而得到完全相同的結果才能分類識別，而是根據(jù)某種判別準則，相似到一定程度而且彼此又能區(qū)分時就可以分類識別。這些就需要用統(tǒng)計決策的概念、理論、方法來指導

17、，這就產(chǎn)生了漢字識別的統(tǒng)計決策方法。統(tǒng)計決策的方法分類判別時，常用的判別準則是距離和類似度，它們是分類識別的依據(jù)。2. 句法結構的方法（syntactic structure method）在漢字模式中，代表字形本質特征的結構信息很重要，研究這類結構信息豐富的模式時，可以用簡單的子模式（sub pattern）（如筆劃）構成多級結構來描述一個復雜模式（如整個漢字）。例如把“葉”字先分解為部件“口”和部件“十”，并知道“十”在“口”的右面，再把這兩個部件分解為筆劃“|”、“”、“一”和“一”、“|”，也知道部件內(nèi)這些筆劃之間相對位置和連接關系，這樣就可以把“葉”字表達成一維的符號串。若用（、）表

18、示部件的界符，用、×分別表示部件筆劃間的上下、左右、交叉關系，則可以把“葉”字表示為符號串（|一）（一×|）。漢字是一個模式，部件則是子模式，而筆劃是一種最簡單的子模式。組成一個模式的最簡單的而且不再分割的子模式叫做基元（Pattern primitive）。上例中，各筆劃以及、×都是基元，基元根據(jù)一定規(guī)律組合成模式。這種對于一個模式。用層層更為簡單的子模式，最后用基元來描述的方法，就是結構分析的方法。2.4漢字識別問題與困難當今許多漢字識別技術研究者想提升漢字識別系統(tǒng)的識別效果都遇到了一些同樣的問題3。這些問題包括漢字量大、漢字結構復雜、字體字號多以及相似字多。

19、這也使得漢字識別難度遠遠大于其它語言文字識別。由于漢字自身的特殊性，研究者也無法借鑒其它語言特別是西方發(fā)達國家的已有的技術來識別漢字。（1）漢字量特別大，類別繁多我國1980年公布的國家標準GB231280中第一級常用漢字共有3755個，第二級有3008個，兩級共有6763個漢字。其中常用漢字有3000至4000個之多。第一級漢字使用頻度為997，兩級漢字總使用頻度為9999。一個漢字識別系統(tǒng)至少要識別這些常用漢字才能滿足需求，才具有實際應用價值。顯然，漢字樣本數(shù)量眾多，這對一個系統(tǒng)來說是一種考驗。大量的樣本要占據(jù)更多的內(nèi)存空間，更多的尋址時間，這對一個RTS（Real Time System

20、s）來說是致命的。為了提高識別速度而采取一些措施之后，又可能會導致識別率的降低。這也導致了漢字識別系統(tǒng)不得不在識別率和識別速度之間有個妥協(xié)。（2）漢字結構復雜印刷體漢字識別系統(tǒng)的特征提取和匹配識別研究漢字是世界上結構最為復雜的文字之一。它的構成方法主要有三種：象形法、會意法和形聲法。不同的構成方法，具備不同的構字規(guī)律，這對采用統(tǒng)一標準處理如此大樣本的漢字集來既是一大困難。筆畫和部首的不同排列組合，構成了表達不同含義的結構異常復雜的漢字字符。非字母化，不同于拼字母文字，與世界上常用的其它民族的文字相比，漢字的結構是最為復雜的。（3）字體字號多我國印刷體漢字種類有超過一百種之多，其中主要以宋體、黑

21、體、楷體和仿宋體為主，其它多為這四種字體的衍生字體。另外，印刷體漢字同一個字的不同字體即使拓撲結構大致相同，但字形點陣還是有很大差別。筆畫的粗細、長短、位置及姿態(tài)，都有一定的差別，各個部件（如偏旁、部首與主體）的大小比例與位置，也都有所變異。對于手寫漢字，這種差別就更大。手寫體有楷體、行書和草書三類，但其自由發(fā)揮度很大，以致識別難度更大。印刷體漢字的字號更是繁多，這給漢字歸一化帶來了一定的計算量，歸一化后也有可能使得漢字信息損失一部分，這給漢字識別也帶來了困難。（4）相似字多由于我國漢字種類繁多以及構成方法的原因，漢字集中包含了大量的相似字。這些相似字不僅在形狀上、構造上相似，而且在筆畫上也相

22、近。例如，“大”和“太”兩個字只相差一個短捺，常用的特征提取算法根本無法區(qū)分這兩個字的不同之處。這個相似字區(qū)分的問題往往出現(xiàn)在漢字識別系統(tǒng)的最后一級，也是至關重要的一級。第三章印刷體漢字識別的研究3.1 印刷體漢字識別技術的發(fā)展歷程計算機技術的快速發(fā)展和普及，為文字識別技術應運而生提供了必備條件。加上人們對信息社會發(fā)展的要求越來越高，文字識別技術的快速發(fā)展可想而知。印刷體文字的識別可以說很早就成為人們的夢想，早在1929年，Taushek就在德國獲得了一項有關OCR的專利4。為了將多年以來印刷在紙上的浩如煙海、與日俱增的報刊雜志、文獻資料和單據(jù)報表等文字材料輸入計算機進行信息處理，單靠人工擊

23、鍵輸入，其速度利效率已遠遠不能滿足要求，這就迫切需要研制以印刷體漢字識別為核心的光學漢字字符閱讀器（Optical Chinese Character Reader，簡稱OCCR），使印刷體漢字可以高速自動地輸入計算機。印刷體漢字的識別最早可以追溯到60年代。1966年，IBM公司的Casey和Nagy發(fā)表了第一篇關于印刷體漢字識別的論文5。在這篇論文中他們利用簡單的模板匹配法識別了l.000個印刷體漢字。70年代以來，日本學者做了許多工作，其中有代表性的系統(tǒng)有1977年東芝綜合研究所研制的可以識別2000個漢字的單體印刷漢字識別系統(tǒng)；80年代初期，日本武藏野電氣研究所研制的可以識別2300個

24、多體漢字的印刷體漢字識別系統(tǒng)，代表了當時漢字識別的最高水平。此外，日本的三洋、松下、理光和富士等公司也有其研制的印刷體漢字識別系統(tǒng)。這些系統(tǒng)在方法上，大都采用基于數(shù)字變換的匹配方案，使用了大量專用硬件，其設備有的相當于小型機甚至大型機，價格極其昂貴，沒有得到廣泛應用。我國對印刷體漢字識別的研究始于70年代末80年代初。大致可以分為三大階段6：（1）第一階段從70年代末期到80年代末期，主要是算法和方案探索。研究人員提出了用于漢字識別的各種方法和特征，如特征點方法、漢字周邊特征、漢字的結構元特征等，并在此基礎上成功地研究出一批漢字識別系統(tǒng)。這一階段是印刷漢字識別成果倍出的時期。但是，這些成果還僅

25、僅處于實驗室階段，沒有轉化為產(chǎn)品來實際解決印刷漢字的自動輸入問題。（2）第二階段是90年代初期，中文OCR由實驗室走向市場，初步實用。在實際的漢字識別輸入應用條件下，檢驗和考查這些研究成果。而一個漢字識別系統(tǒng)能否通過這一嚴峻的考驗，并進一步發(fā)展，取決于三個重要因素：第一該系統(tǒng)能否根掘社會的發(fā)展，用戶需求的變化，靈活地改進或者增加系統(tǒng)功能，以適應市場需求；第二該系統(tǒng)是否能在識別效率、識別速度和系統(tǒng)資源三者之間協(xié)調好關系；第三該系統(tǒng)是否具有足夠高的抗噪性能，以適應各種各樣的實際應用壞境。（3）第三階段也就是目前，主要是印刷體漢字識別技術和系統(tǒng)性能的提高，包括漢英雙語混排識別率的提高和穩(wěn)定性的增強。

26、同國外相比，我國的印刷體漢字識別研究起步較晚。從80年代開始，漢字ORC的研究開發(fā)一直受到國家重視，經(jīng)過科研人員十多年的辛勤努力，印刷體漢字識別技術的發(fā)展和應用，有了長足進步，從簡單的單體識別發(fā)展到多種字體混排的多體識別，從中文印刷材料的識別發(fā)展到中英混排印刷材料的雙語識別。各個系統(tǒng)可以支持簡、繁體漢字的識別，解決了多體多字號混排文本的識別問題，對于簡單的版面可以進行有效的定量分析。同時漢字識別率已達到了98以上。但印刷體漢字識別系統(tǒng)的研究還要解決好實用漢字識別系統(tǒng)所必須解決的一些問題，如版面的自動分析、行字切分、人機界面和良好的應用環(huán)境等等。3.2 印刷體漢字識別的原理分析及算法研究漢字識別

27、實質是解決文字的分類問題,一般通過特征辨別及特征匹配的方法來實現(xiàn)。目前漢字識別技術按照識別的漢字不同可以分為印刷體漢字識別和手寫體漢字識別。印刷體漢字識別從識別字體上可分為單體印刷體漢字識別（printed character recognition）與多體印刷體漢字識別（multiple printedcharacter recognition）；手寫體漢字識別根據(jù)實時性又可以分為聯(lián)機手寫體識別（on - line handwritten character recognition）和脫機手寫體識別（off - line handwritten character recognition）

28、。印刷體漢字識別的流程7如圖3-1所示：圖3-1 漢字識別流程框圖印刷在紙張上的漢字,通過用掃描儀掃描或者數(shù)碼相機拍攝等光學方式輸入后得到灰度圖像（Grayscale image）或者二值圖像（Binary image）,然后利用各種模式識別算法對漢字圖像進行分析,提取漢字的特征，與標準漢字進行匹配判別,從而達到識別漢字的目的。印刷體漢字識別技術主要包括預處理、特征提取、匹配識別和后處理等步驟。預處理是在所有識別處理之前進行的，它將從各種不同輸入方式獲得的漢字圖像中的干擾因素降到最低。隨著漢字識別技術的深入研究，漢字的特征提取的算法越來越多，如何選擇特征和如何組合優(yōu)化特征已經(jīng)成了研究的重要領域

29、。匹配識別技術涉及到分類器的設計等重要問題，這也是非常重要的一個環(huán)節(jié)。漢字的后處理是出于獲得最大化識別率考慮，它在前期已有識別水平上，通過調整參數(shù)或反饋處理獲得更高的識別率。預處理由于用數(shù)碼相機或掃描儀作為輸入設備得到的數(shù)據(jù)不可避免地存在著各種外在的干擾，圖像質量也有偏差,對識別效果有一定影響。因此,在對原始圖像進行識別處理之前，盡可能將干擾因素影響降低，是非常有必要的，也就是要先對原始采樣信號進行預處理。預處理8通常包括去除噪聲、版面分析、二值化、傾斜校正、行列切分、平滑、歸一化、細化等。（1）版面分析印刷體文字識別常遇到的識別主體不是一個文字段，而是整個版面，所以版面分析是印刷體文字識別

30、系統(tǒng)中的重要組成部分。它是指對印刷體文檔圖像進行分析，提取出文本、圖像圖形、表格等區(qū)域，并確定其邏輯關系，并將相應的文本塊連接在一起。這一過程的自動完成算法還不是很完善，有些部分常由手工完成，最終的系統(tǒng)能夠自動完成所有的版面分析。（2）二值化將一幅具有多種灰度值的圖像變成白黑分布的二值圖像的工作稱為二值化處理，二值化的主要目的是將漢字從圖像中分離出來。通常的方法為先確定像素的閾值，比較像素值和閾值的大小，從而確定為1或0，這個二值化閾值的選取較為關鍵。若閾值取的過大，則保留的信息過多，其中許多雜點無用信息造成了對以后處理的干擾；若閾值取得過小，則丟失的信息過多，其中許多文字信息產(chǎn)生續(xù)斷或丟失，

31、造成最終文字提取分割的信息丟失。如何確定此閾值的過程也就成了研究二值化算法的重點?，F(xiàn)如今，漢字圖像二值化方法多種多樣，但大多都有應用限制。研究一種適合各種文字圖像的二值化方法也是預處理環(huán)節(jié)的重點。（3）傾斜校正通過輸入設備獲得的圖像不可避免地會發(fā)生傾斜，這會給后面的行字分割、文字識別等圖像處理與分析帶來困難，因此，在漢字識別系統(tǒng)中，傾斜校正是圖像預處理的重要部分。傾斜校正的核心在于如何檢測出圖像的傾斜角。目前，傾斜角檢測的方法有許多種，主要可分為5類：基于Hough變換的方法；基于交叉相關性的方法；基于投影的方法；基于Fourier變換的方法和K-最近鄰簇方法。靈活運用傾斜角度檢測算法將是傾斜

32、校正環(huán)節(jié)的重要研究方向。（4）行字切分漢字切分的目的是利用字與字之間、行與行之間的空隙，將單個漢字從整個圖像中分離出來。漢字的切分分為行切分和字切分9。行切分是利用行與行之間的直線型空隙來分辨行，將各行的行上界和行下界記錄下來。典型的算法是，從上到下，對二值漢字點陣的每行像素值進行累加，若從某行開始的若干累加和均大于一個試驗常數(shù)，則可認為該行是一漢字文本行的開始，即行上界。同理，當出現(xiàn)連續(xù)大約一個漢字高度的大累加和情況后突然出現(xiàn)一系列小累加和甚至零值時，判定為行下界。字切分是利用字與字之間的直線型空隙來分辨字，將各字的左邊界和右邊界記錄下來。典型的算法是，在確定這一行的行上界和行下界之后，從左

33、到右搜索一行文字的左右邊界，切分出單字或標點符號。從左邊開始垂直方向的行距內(nèi)像素單列累加和均大于一個試驗常數(shù)，則可認為是該漢字的左邊界。同理，當出現(xiàn)連續(xù)一個漢字寬度的大累加和情況后突然出現(xiàn)一系列小累加和甚至零值時，判定為該漢字的右邊界。對文本漢字行來說，由于存在左右分離字，寬窄字，字間交連等，加上行間混有英文、數(shù)字、符號、和字間污點干擾，使得字切分比行切分困難得多。（5）歸一化歸一化也稱規(guī)格化，它是把文字尺寸變換成統(tǒng)一大小，糾正文字位置（平移），文字筆畫粗細變換等文字圖像的規(guī)格化處理，并只對文字圖像進行投影。漢字圖像的歸一化往往會帶來兩個問題：一是字符圖像的縮放可能會引入一些干擾;二是圖像縮放

34、本身的運算量較大。所以，必須采用恰當?shù)臍w一化方法來消除尺度變化對特征值的影響。（6）平滑對數(shù)字圖像進行平滑，目的是去處孤立的噪聲干擾，以平滑筆畫邊緣。平滑在圖像處理中實質是一幅文字圖像通過一個低通濾波器，去除高頻分量，保留低頻分量，在實際應用中，采用WXW（一般采用3x3）的輔助矩陣對二值文字圖像進行掃描。根據(jù)輔助矩陣中各像素0、1的分布，使處于矩陣中心的被平滑的像素X從“0”變成“1”或者從“1”變成“O”。（7）細化細化處理是在圖像處理中相當重要和關鍵的一環(huán)，它是將二值化文字點陣逐層剝?nèi)ポ喞吘壣系狞c，變成筆畫寬度只有一個比特的文字骨架圖形。細化處理的目的是搜索圖像的骨架，去除圖像上多余的

35、像素，從而在不改變圖像主要特征的前提下，減少圖像的信息量。細化處理結果的好壞，直接影響到識別的效果和質量。在細化處理過程中，一方面，去除的像素太少，則不能充分有效地減少圖像的信息量；另一方面，去除的像素太多，特別是某些關鍵像素若被去除，則改變了原始圖像的主要特征。因此，高質量的細化算法程序對圖像識別有很大的實用價值。針對文字圖像的細化算法已有很多，它的優(yōu)劣對系統(tǒng)的識別效果影響很大。對細化的一般要求是保持原有筆畫的連續(xù)性，不能由于細化造成筆畫斷開；細化成為單層像素線；保持文字原有特征，既不要增加，也不要丟失，保持筆畫特征，最好細化掉筆鋒：細化結果是原曲線的中心線，保留曲線的端點，交叉部分中心線不

36、畸變。針對各種不同的應用，國內(nèi)外已發(fā)表了許多細化算法，如Hilditch經(jīng)典細化算法10、Deutsch算法11等。然而，細化過程本身固有的弱點總是造成筆畫骨架線的畸變，增加對識別的干擾，主要的畸變包括：交叉筆畫畸變、轉折處出現(xiàn)分叉筆畫、失去短筆畫和筆畫合并等?？梢哉f，這些問題依賴細化算法本身是無法克服的，需要在后續(xù)的處理中盡量消除這些畸變的干擾。漢字特征提取預處理的最終目的是為了更加方便、準確地進行漢字的特征提取，從而提高漢字識別率。對于漢字，其特征大致分為兩類，包括結構特征和統(tǒng)計特征，至今總數(shù)已經(jīng)不下百種。但每種漢字特征的適用環(huán)境都有所不同，有的特征在一些情況下有很強的魯棒性，但在另外一

37、些情況下卻完全失去了效用。例如，漢字特征點特征算法本身是一種比較簡單、完善的特征提取算法。在漢字圖像滿足清晰、無筆畫連聯(lián)、無斷筆等細化要求時，是能夠完全將漢字的各種特征點位置提取處理的；若漢字圖像本身模糊不清，預處理工作也無法達到要求，這樣再好的漢字特征點特征提取算法也無法提取正確的漢字特征點特征，已經(jīng)獲得的特征點特征一旦應用到漢字識別系統(tǒng)中去，將會極大地影響整個系統(tǒng)的實用性。針對不同的系統(tǒng)需求，應該選擇不同的漢字特征，進行優(yōu)化特征組合，這樣才能達到系統(tǒng)最佳識別效果。所以選擇哪種特征，如何組合特征將是漢字特征提取這一部分的重點研究領域。要做到有的放矢，就需要研究已有的獲得良好效果的各種漢字特征

38、，分析它們的優(yōu)點、缺點和適用環(huán)境。如下介紹并分析一下常用的一些的漢字結構特征和漢字統(tǒng)計特征。（1）結構特征抽取筆畫法抽取筆畫法是利用漢字由筆畫所構成的特點進行識別，它利用漢字的結構信息來進行漢字的聯(lián)機識別，在印刷體和脫機手寫識別中，由于筆畫提取的困難，結果不是很理想。松弛匹配法松弛匹配法是一種基于全局特征的匹配方法，它對輸入漢字作多邊近似，抽取邊界線段，將這些邊界線段組成臨近線段表，然后用松弛匹配操作，完成邊與邊的匹配。這種方法利用彈性吸收漢字的變形，一個字只用一個樣本。其缺點是操作速度較慢，計算量大。非線性匹配法非線性匹配法是由Tsukumo等提出的，用以解決字形的位移、筆畫的變形等現(xiàn)象。此

39、方法試圖克服從圖形中正確抽取筆畫的困難，以提高正確判別的能力。（2）統(tǒng)計特征筆畫復雜性（Complexity Index）筆畫復雜性指數(shù)是指文字筆畫的線段密度，其定義如下：（3-1）（3-2）式（3-1）和（3-2）中、一橫向和縱向的筆畫復雜性指數(shù)；、一橫向和縱向的文字線段總長度；、一橫向和縱向質心二次矩的平方根；、分別反應了橫向和縱向的筆畫復雜性，橫多的大，豎多的大。筆畫復雜性指數(shù)與漢字的位移無關，受字體和字號的影響較小，但易受筆畫斷裂和粘連的影響，且其分類能力較差，常與另一種粗分類方法“四邊碼”連用。四邊碼（Four-side Code）四邊碼是在漢字點陣圖的四周各取一條帶，計算其中的文字

40、圖像素點數(shù)，并將它分成四級，構成一個四元組。由于漢字邊框不但含有豐富的結構信息，而且邊框部分筆畫一般較少，不易粘連，抗干擾能力強，但對漢字的位移和旋轉比較敏感，與筆畫復雜性指數(shù)正好形成互補。特征點特征點提取算法的主要思想是利用字符點陣中一些有代表性的黑點（筆畫）、白點（背景）作為特征來區(qū)分不同的字符。特征點包括筆畫骨架線的端點、折點、歧點和交點，漢字的背景也含有一定的區(qū)別于其它漢字的信息，選擇若干背景點作為特征點，有利于提高系統(tǒng)的抗干擾能力。其特點是能夠大大壓縮特征庫的容量，對于內(nèi)部筆畫粘連字符，其識別的適應性較強、直觀性好，但不易表示為矢量形式，匹配難度大，不適合作為粗分類的特征。筆段特征漢

41、字是由筆畫組成的，而筆畫又由筆段組成，筆段可近似為一定方向、長度和寬度的矩形段。利用筆段與筆段之間的關系組成特征對漢字進行識別，受字體和字號的影響小，對于多體漢字的識別獲得了良好效果。其缺點是筆段的提取會較為困難，匹配的難度大，抗內(nèi)部筆畫斷裂或者粘連能力差。當然，漢字的特征多種多樣，各有各的優(yōu)點、短處和不同的適用范圍。選擇什么樣的特征使得此單分類環(huán)節(jié)的識別效果達到最佳，選擇哪些特征來優(yōu)化組合來達到整個系統(tǒng)的識別效果達到最佳，這就是本文需要研究的問題。漢字的分類識別識別算法是整個識別過程的核心部分。原始圖像經(jīng)過預處理后,得到一個較為理想的二值圖像,然后就可以對這個處理后的二值圖像進行識別。識別

42、的過程包括根據(jù)識別算法選擇和提取漢字的特征、與標準文字的特征進行匹配判別。漢字的分類識別方法也是漢字識別系統(tǒng)的重要環(huán)節(jié)之一。諸多分類方法各自有其優(yōu)缺點。（1）相關匹配這是一種統(tǒng)計識別方法，它通過在特征空間中計算輸入特征向量與各模板向量之間的距離進行分類判決。距離度量的定義：設X，S分別為輸入特征向量和模板特征向量，n為特征維數(shù)。 S階Minkowski度量（3-3）（3-4）其中最為常用的是一階度量，又稱為絕對距離。即：（3-5）歐氏距離S階Minkowski度量中，令s=2，得到歐氏距離。（3-6）加權距離考慮到輸入分量對模板的作用大小不同，故采用加權值來表示（3-7）下標j表示不

43、同的模板可以有不同的加權值。另一個描述輸入向量與模板間關系的度量是相似度，最簡單的相似度定義為二者方向夾角的余弦S，即：（3-8）與距離一樣，相似度也可以加權，得到加權相似度：（3-9）其中，Wi為權值，且，當一個類別有多個模板時，還可以使用多重相似度：（3-10）其中，Si是S類中的一個模板。P(i)是該模板的概率。相關匹配是一種統(tǒng)計識別方法。統(tǒng)計方法的優(yōu)點是特征提取和模板的建立都比較容易，抗干擾能力強，使局部噪聲不敏感：缺點是分辨相似字的能力較弱，對書寫風格的變化比較敏感。（2）文法分析文法分析的基本思想是將輸入的漢字看作是一個語句或符號串，將識別問題轉化為判斷輸入的語句是否屬于某種

44、語言，即句子是否符合某種語言的語法約束條件，這種方法在漢字識別中也得到了應用。文法分析是典型的結構識別方法，由于其側重點是在筆段形狀、位置以及筆段之間相互關系的分析上，所以它的優(yōu)點是分辨相似字的能力較強，對書寫風格的變化不敏感：缺點是對局部噪聲敏感，特征提取比較復雜。（3）松弛匹配無論是相關匹配還是文法分析，都要求輸入特征向量和模板特征向量的各分量之間具有確切的對應關系，然而在結構分析中，往往事先難以確定兩者各分量間的對應關系，此時可以采用松弛匹配法。松弛匹配法首先通過迭代運算，找出輸入向量與模板向量各分量間的對應關系，然后再根據(jù)這一對應關系進行匹配。迭代開始之前，首先根據(jù)輸入向量各分量與模板

45、向量各分量之間的相似度構成一個初始權值矩陣。矩陣中各元素的值為相應分量之間的初始匹配概率，然后通過迭代運算對各個權值進行修正，并將其中趨近于零的值置為零，直至權值的變化趨于穩(wěn)定，此時，可以認為權值矩陣中非零元素所對應的分量之間只有對應關系，然后根據(jù)這一對應關系計算輸入量與該模板問的距離，重復上述過程。求出輸入量與每個模板間的距離，取其中距離最小的模板所代表的類別為識別結果。松弛匹配法兼具統(tǒng)計方法和結構方法的特長。由于它是根據(jù)總體的匹配程度來決定識別結果的，所以這一點它類似于統(tǒng)計方法，同時它在迭代中還把基元間位置關系等結構信息考慮在內(nèi)，這一點又很像結構方法。因此松弛匹配法在漢字識別中取得了很好的

46、效果，它不僅可以用于特征點的匹配，而且還可以用于筆段、筆畫和部件的匹配。其主要缺點是運算量較大，識別中往往需要增加預分類環(huán)節(jié)以減小運算量。另外，它吸收畸變的能力仍有不足。（4）人工神經(jīng)網(wǎng)絡漢字識別是一個非常活躍的分支，不斷有新的方法涌現(xiàn)出來，為漢字識別的研究注入新的活力，其中基于人工神經(jīng)網(wǎng)絡的識別方法是非常引人注目的方向。目前神經(jīng)網(wǎng)絡理論的應用己經(jīng)滲透到各個領域，并在模式識別、智能控制、計算機視覺、自適應濾波和信號處理、非線性優(yōu)化、自動目標識別，連續(xù)語音識別、聲納信號的處理、知識處理、傳感技術與機器人、生物等領域都有廣泛地應用。后處理后處理就是利用相關算法對識別后的漢字文本或者初級識別結果做

47、進一步的處理，糾正誤識的漢字，給出拒識的漢字，確定模棱兩可的漢字。漢字識別的后處理方法12，13從用戶的參與程度來說，可分為三類：手工處理，交互式處理和計算機自動處理。以下對各種常用的后處理方法做簡單的介紹。（1）簡單的詞匹配簡單的詞匹配就是利用文本中字的上下文匹配關系和詞的使用頻度，給識別后文本中的拒識字提供一個“最佳”的候選字，其關鍵是建立漢語詞條數(shù)據(jù)庫。該數(shù)據(jù)庫應具印刷體漢字識別系統(tǒng)的特征提取和匹配識別研究有完善的詞條存儲、維修功能，應該能夠反映不同詞的使用頻度，應盡可能的提高詞條的檢索速度，只有這樣才能方便漢字后處理程序的使用。（2）綜合詞匹配綜合詞匹配方法，就是綜合利用初級識別結果和

48、字的上下文關系及詞的使用頻度，來決定最后的識別結果。這種方法實際上己把識別過程和后處理過程融為一體了。綜合利用初級識別結果與詞條信息的糾錯優(yōu)于單純利用詞條的糾錯。綜合詞匹配法可以減少搜索詞條關系時的搜索空間，從而提高糾錯速度。這是因為在尋找字的上下文匹配關系時，利用初級識別結果的待選集，可以大大縮小搜索范圍，避免了在整個詞條庫中查詢。在不利用待選集時，對于有可能識別出錯的地方，只能采用拒識，而拒識不提供任何未知漢字與已知漢字字符集中漢字相似度的信息，所以尋找詞條時的搜索空間只能是整個詞條庫。另外，當某一個詞前后兩個字都被拒識時，簡單的詞匹配法就無能為力，而綜合詞匹配法仍能利用詞條信息進行糾錯。

49、（3）詞法分析語言是語音和意義的結合體。語素是最小的語言單位。無論是詞還是短語，都有其構成規(guī)則，利用這些規(guī)則，將它們分類。另外，不同的應用背景，也有不同的分類結果。漢字識別后處理的詞法分析方法，就是在詞匹配的基礎上，對仍難以確定的漢字，找出這些漢字與前后漢字所能組成的詞，然后通過詞法分析，確定一個能和該詞的前后詞組成“最佳”匹配的詞，從而確定要識別的漢字。基于詞法分析的漢字識別后處理的關鍵是構造一個完善的詞條數(shù)據(jù)庫。該數(shù)據(jù)庫中的每一個詞條項都要包括本詞條的詞性、詞頻、連接屬性、語義信息等。（4）句法、語義分析語句無論是從結構上，還是從意思上都有一種人類共同理解、共同接受和共同遵守的語言組合法則

50、。所以利用語義句法的方法，在初級識別結果的基礎上，在利用詞法分析進行匹配之后或匹配的同時，再進行句法分析和語義分析，從而確定要識別的漢字。進行語義句法分析也要首先建立詞條庫。這時詞條庫中的每一個詞條項，還要包括該詞的句法信息和語義信息。另外，還要建立起一套句法規(guī)則和語義規(guī)則，以便指導語法分析和語義分析。（5）人工神經(jīng)元網(wǎng)絡利用人工神經(jīng)元網(wǎng)絡的漢字識別后處理可以采取兩種方式。一種是把識別過程和后處理過程分開，網(wǎng)絡的輸入是初級識別結果的短語或者句子，其中包含不確定的漢字（或拒識的漢字），通過網(wǎng)絡的運行，最終確定這些字。另一種方法是把識別過程和后處理過程綜合在一起，初級識別給出的結果是每一個待識漢字

51、的前幾個候選字和每一候選字與待識字之間的相似度。然后，把這些候選字以及與之相連的相似度輸入網(wǎng)絡，通過網(wǎng)絡的并行作用，找到最符合漢語語法和語義組合關系的詞或句子，從而確定出要識別的漢字。3.3印刷體漢字識別技術分析3.3.1結構模式識別方法漢字的數(shù)量巨大，結構復雜，但其特殊的組成結構中蘊藏著相當嚴的規(guī)律14。從筆畫上講，漢字有包括橫、豎、撇、捺、點、折、勾等七種基本筆畫，還有提挑、撇點、橫捺等七種變形筆畫。從部件上講，部件是有特殊的筆畫組合而成，故部件也是一定的。換而言之，漢字圖形具有豐富的有規(guī)律可循的結構信息，可以設法提取含有這些信息的結構特征和組字規(guī)律，將它們作為漢字識別的依據(jù)。這就是結構模

52、式識別。結構模式識別理論在20 世紀70 年代初形成,是早期漢字識別研究的主要方法。其思想是直接從字符的輪廓或骨架上提取的字符像素分布特征，如筆畫、圈、端點、節(jié)點、弧、突起、凹陷等多個基元組合，再用結構方法描述基元組合所代表的結構和關系。通常抽取筆段或基本筆畫作為基元,由這些基元組合及其相互關系完全可以精確地對漢字加以描述,最后利用形式語言及自動機理論進行文法推斷,即識別。結構模式識別方法的主要優(yōu)點在于對字體變化的適應性強,區(qū)分相似字能力強；缺點是抗干擾能力差,從漢字圖像中精確的抽取基元、輪廓、特征點比較困難,匹配過程復雜。因此,有人采用漢字輪廓結構信息作為特征,但這一方案需要進行松弛迭代匹配

53、,耗時太長,而且對于筆畫較模糊的漢字圖像,抽取輪廓會遇到極大困難。也有些學者采用抽取漢字圖像中關鍵特征點來描述漢字,但是特征點的抽取易受噪聲點、筆畫的粘連與斷裂等影響。總之單純采用結構模式識別方法的脫機手寫漢字識別系統(tǒng),識別率較低。3.3.2 統(tǒng)計模式識別方法統(tǒng)計模式識別方法是用概率統(tǒng)計模型提取待識別漢字的特征向量,然后根據(jù)決策函數(shù)進行分類,識別就是判別待識漢字的特征向量屬于哪一類。常用的判別準則是距離準則和類似度準則,典型的統(tǒng)計模式識別方法有最小距離分類、最鄰近分類等。a 最小距離分類最小距離分類器（Minimum - Distance Classifier）是以漢字與特征空間模型點之間的

54、距離作為分類準則，它有著圖3-2所描述的結構。其中，x是輸入特征向量，他將被分配到C個類別中的某一個類k（ k = 1 ，2 ，C） ,這些類有各自的典型模式mk表示。圖3-2 最小距離分類器系統(tǒng)圖b. 最鄰近分類最鄰近法的思想是對于C個類別i （ i = 1 ，2 ，C） ,每類有標明類別的樣本Ni個（i = 1 , 2 , ,C）。規(guī)定i的判別函數(shù)如式（3-1）所示。其中的角標i 表示i類，k 表示i類Ni個樣本中的第k個。,k=1,2（3-11）, i = 1 ,2 ，C（3-12）若式（3-2）成立,則決策x j。即對未知樣本x，比較x 與N 個已知類別的樣本之間的歐式距離并決策x

55、與離它最近的樣本同類。其中,統(tǒng)計模式識別方法具有良好的魯棒性（Robustness），適合有噪聲的文字,它一般采用多維特征值累加的辦法，減少噪聲的影響，但是,累加也會使相似漢字的結構的差異消失，因此區(qū)分相似字的能力較差。常用的漢字統(tǒng)計模式識別方法包括15：（1）模板匹配模板匹配是將漢字的圖像直接作為特征，將之與特征庫中的漢字圖像逐一比較，相似度最高的漢字即為待選漢字。這種需要將左右漢字圖像的像素點陣均存儲起來，既占用大量的內(nèi)存空間，特別是對嵌入式系統(tǒng)來說是不可容忍的，也將在尋找最相似漢字過程中耗費大量的時間，這對實時系統(tǒng)也是致命的。另外，其對于傾斜、筆畫變粗變細均無良好的適應能力。（2）利用

56、變換特征的方法該方法利用各種函數(shù)變換，例如K-L變換、Fourier變換和Gabor變換等對漢字圖像特征進行變換。但這些變換如果沒有合適的處理，都多少存在缺陷。有的抗噪性能差，有的代碼復雜度高。（3）筆畫方向特征筆畫方向的統(tǒng)計特征總共有3種：全局筆畫方向密度G-DCD，局部筆畫方向密度L-DCD和周邊筆畫方向PDC。前兩者用于預分類，后者用于單字識別。這些特征都是以筆畫方向貢獻（Direction Contribution）為基礎。（4）外圍特征漢字的外圍特征是由漢字輪廓信息獲得的。漢字輪廓具有豐富的特征，即使在稍微傾斜或者筆畫粘連的情況，也能提取較為完全的輪廓信息。（5）特征點特征漢字信息的

57、絕大部分集中在漢字骨架上，而漢字骨架信息又大多集中在若干特征點上。一旦確定這些筆畫特征點，漢字筆畫以及結構形狀就可以確定。它們包括端點、折點、歧點和交點等。漢字特征點的提取一般是基于漢字細化后的單像素圖像，而往往細化算法不能達到算法的要求，經(jīng)常有斷筆、非單層像素等情況，一點點變形或噪聲都會影響漢字特征點的提取。也就是它的魯棒性一般不好。隨著漢字識別技術的發(fā)展，已經(jīng)有越來越多的統(tǒng)計特征出現(xiàn)。但幾乎每種特征都不是完美的，都要在特殊條件下施加一些特殊的處理。如表1-1所示為統(tǒng)計方法和結構方法特征比較：表1-1 統(tǒng)計方法和結構方法特征比較項目方法識別策略判別方法文字變形變體特征提取相似文字區(qū)分統(tǒng)計方法向量維數(shù)距離、類似度適應性差容易不易區(qū)分結構方法分而治之串行判決適應性好不容易容易區(qū)分3.4印刷體漢字識別的分類在進行漢字

人人文庫> 全部分類> 教育資料 > 課件下載

溫馨提示

1. 本站所有資源如無特殊說明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁內(nèi)容里面會有圖紙預覽，若沒有圖紙預覽就沒有圖紙。
4. 未經(jīng)權益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 人人文庫網(wǎng)僅提供信息存儲空間，僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理，對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對任何下載內(nèi)容負責。
6. 下載文件中如有侵權或不適當內(nèi)容，請與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

畢業(yè)論文印刷體漢字識別方法的研究

文檔簡介

溫馨提示

最新文檔

評論

畢業(yè)論文印刷體漢字識別方法的研究

文檔簡介

溫馨提示

最新文檔

評論

相關文檔