版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
1、畢業(yè)論文印刷體漢字識別方法的研究作 者 姓 名 xx專 業(yè) 電子信息工程 指導(dǎo)教師姓名 王導(dǎo)專業(yè)技術(shù)職務(wù) 目錄摘要1第一章緒論31.1漢字識別研究的意義31.2印刷體漢字識別研究的背景3第二章漢字識別技術(shù)42.1漢字識別概述42.2漢字識別的原理42.3漢字識別的一般方法52.4 印刷體漢字識別問題與困難6第三章印刷體漢字識別的研究73.1 印刷體漢字識別技術(shù)的發(fā)展歷程73.2 印刷體漢字識別的原理分析及算法研究83.2.1 預(yù)處理93.2.2 漢字特征提取113.2.3 漢字的分類識別133.2.4 后處理153.3印刷體漢字識別技術(shù)分析163.3.1結(jié)構(gòu)模式識別方法163.3.2 統(tǒng)計(jì)模式
2、識別方法173.4印刷體漢字識別的分類19第四章系統(tǒng)的實(shí)現(xiàn)與仿真194.1系統(tǒng)的實(shí)現(xiàn)194.2系統(tǒng)的仿真20第五章總結(jié)與展望235.1總結(jié)235.2 展望23參考文獻(xiàn)25附錄26致謝34摘 要漢字識別技術(shù)是一種高速、自動的信息錄入手段,成為未來計(jì)算機(jī)的重要職能接口,還可以作為辦公自動化、新聞出版、機(jī)器翻譯等領(lǐng)域的理想輸入方式,有著廣泛的應(yīng)用前景。漢字識別的最終目的是使中文信息能更自然,更方便地輸入計(jì)算機(jī),以便于進(jìn)一步處理實(shí)際生活中,大量的書信、報(bào)紙、雜志內(nèi)容需要輸入計(jì)算機(jī),這就是印刷體漢字識別要解決的問題。本文首先就漢字識別研究的意義及背景作了綜述。第二章介紹了漢字識別的基本過程以及印刷體漢字
3、識別研究存在的問題與困難。第三章對印刷體漢字識別作了詳細(xì)闡述,論述了印刷體漢字識別的原理和預(yù)處理、特征抽取與分析、后處理過程;著重分析了統(tǒng)計(jì)模式識別方法、 結(jié)構(gòu)模式識別方法以及匹配識別;第四章用Matlab對系統(tǒng)進(jìn)行了仿真;最后闡明了漢字識別技術(shù)研究今后發(fā)展的方向。關(guān)鍵詞:印刷體漢字識別特征提取匹配識別統(tǒng)計(jì)模式識別Matlab仿真ABSTRACTChinese character recognition technology is a kind of automatic high-speed, information input method, become the important fun
4、ctions of the computer interface, still can as office automation, the press and publishing, machine translation, etc, the ideal input has wide application prospects. The aim of Chinese character recognition is to make the Chinese input more natural and convenient so that the computer could process C
5、hinese information more easily. In practice, large volume of letters, newspaper, magazines need to be covered into a coded representation of the input characters. That's what printed Chinese character recognition can do. Firstly, this thesis gives what is the significance of research and backgro
6、und of Chinese character recognition. In chapter 2, the basic procedure of Chinese character recognition and defects and difficulties of printed Chinese character recognition is introduced. Every step of recognition is elaborated in details. In chapter 3, we describe printed Chinese character recogn
7、ition system in details, discussing the print character recognition technology, and looks forward to the development trend of Chinese character recognition technology. Discusses the principles and printed character recognition, feature extraction and analysis, the post-processing process, Emphatical
8、ly analyses the statistical pattern recognition method, structural pattern recognition method and matching recognition. In chapter 4, giving an simulation for the system. Expounded characters identification technology research directions of future development.Key words:Printed Chinese character reco
9、gnition;feature extraction;Matching recognition;Statistical pattern recognition; MatlabSimulation第一章 緒論1.1漢字識別研究的意義 漢字已有數(shù)千年的歷史,是中華民族文化的重要結(jié)晶,閃爍著中國人民智慧的光芒。同時(shí)也是世界上使用人數(shù)最多和數(shù)量最多的文字之一?,F(xiàn)如今,漢字印刷材料的數(shù)量大大增加,一些專業(yè)單位如新聞社、圖書館、古籍出版社、檔案館等所接觸的印刷材料更是浩如煙海,信息量均是爆炸性增長,畢竟閱讀印刷材料更為符合人的自然閱讀習(xí)慣。然而,漢字是非字母化、非拼音化的文字,因此,如何將漢字快速高效地輸
10、入計(jì)算機(jī),是信息處理的一個(gè)關(guān)鍵問題1,也是關(guān)系到計(jì)算機(jī)技術(shù)能否在我國真正普及的關(guān)鍵問題,更是傳播與弘揚(yáng)中華民族悠久歷史文化的關(guān)鍵問題。但人工鍵入速度不僅慢而且勞動強(qiáng)度大,一般的使用者每分鐘只能輸入4050個(gè)漢字。這種方法不適用于需要處理大量文字資料的辦公自動化、文檔管理、圖書情報(bào)管理等場合。而且隨著勞動力價(jià)格的升高,利用人工方法進(jìn)行漢字輸入也將面臨經(jīng)濟(jì)效益的挑戰(zhàn)。因此,對于大量已有的文檔資料,漢字自動識別輸入就成為了最佳的選擇。因此,漢字識別技術(shù)也越來越受到人們的重視。漢字識別技術(shù)已經(jīng)呈現(xiàn)出了廣泛的應(yīng)用前景,它主要應(yīng)用在中文信息處理、辦公室自動化、機(jī)器翻譯、人工智能等高技術(shù)領(lǐng)域。漢字識別是模式
11、識別的重要應(yīng)用領(lǐng)域,也是光學(xué)字符識別OCR(Optical CharacterRecognition)的重要組成部分2。漢字識別是一門多學(xué)科綜合的研究課題,它不僅與人工智能的研究有關(guān),而且與數(shù)字信號處理、圖像處理、信息論、計(jì)算機(jī)科學(xué)、幾何學(xué)、統(tǒng)計(jì)學(xué)、語言學(xué)、生物學(xué)、模糊數(shù)學(xué)、決策論等都有著千絲萬縷的聯(lián)系。一方面各學(xué)科的發(fā)展給它的研究提供了工具;另一方面,它的研究與發(fā)展也必將促進(jìn)各學(xué)科的發(fā)展。因而有著重要的實(shí)用價(jià)值和理論意義。1.2印刷體漢字識別研究的背景印刷體漢字識別是漢字識別研究中的一個(gè)重要課題。在以往的研究中,均十分重視印刷體漢字特征點(diǎn)提取的工作。所謂特征點(diǎn),是指反映漢字形體特征整體分布狀
12、況的關(guān)鍵點(diǎn)集,即構(gòu)成漢字筆劃骨架線的端點(diǎn)、折點(diǎn)、交點(diǎn)等。如圖1-1所示漢字圖像“大”:漢字圖像“大”的特征點(diǎn)。圓圈標(biāo)出的點(diǎn)為特征點(diǎn)表示圖1-1 圖像“大”特征點(diǎn)通常,對大多數(shù)結(jié)構(gòu)穩(wěn)定的漢字,一旦獲得了正確的特征點(diǎn)集,就可能順利地按照一定的策略和步驟(比如漢字的連接筆劃、結(jié)構(gòu)匹配等),將漢字形體劃歸為正確的字類,印刷體漢字識別的正確性就能夠得到保證。當(dāng)前,印刷體漢字特征點(diǎn)的識別效率還有進(jìn)一步改進(jìn)的空間。特征點(diǎn)提取方法屬于句法結(jié)構(gòu)模式識別方法之一。另一方面,隨著數(shù)字圖像處理技術(shù)的發(fā)展和實(shí)際應(yīng)用的需求,許多問題不要求其輸出結(jié)果是一幅完整圖像本身,而是將經(jīng)過特定處理的圖像,再分割和描述,提取有效的特征
13、,進(jìn)而加以判決分類。這種技術(shù)就是圖像的模式識別。隨著數(shù)字圖像處理和模式識別技術(shù)的不斷發(fā)展與廣泛應(yīng)用,圖像的編碼技術(shù)得到了飛速發(fā)展,并以其優(yōu)良的特性在圖像處理領(lǐng)域得到越來越多的運(yùn)用。第二章 漢字識別技術(shù)2.1漢字識別概述漢字識別(CCR:Chinese Character Recognition)是用電子計(jì)算機(jī)自動辨識印刷在紙上和人寫在紙(或者介質(zhì))上的漢字。漢字識別技術(shù)是計(jì)算機(jī)智能接口的一個(gè)重要組成部分。從學(xué)科上劃分漢字識別屬于模式識別和人工智能的范疇。它涉及到模式識別和圖像處理、人工智能、形式語言學(xué)、模糊數(shù)學(xué)等眾多學(xué)科,是一門綜合性的技術(shù)。2.2漢字識別的原理漢字識別的基本思想是匹配判別。漢
14、字識別可簡單的分為兩個(gè)過程:學(xué)習(xí)(訓(xùn)練)過程和識別過程。學(xué)習(xí)過程就是讓計(jì)算機(jī)通過樣本學(xué)習(xí)或訓(xùn)練提取出每個(gè)漢字的特征并存儲起來,作為標(biāo)準(zhǔn)特征庫,即模板庫。識別過程中,計(jì)算機(jī)首先按學(xué)習(xí)過程中的特征提取方法提取出輸入模式的特征,然后再與標(biāo)準(zhǔn)特征庫中的特征進(jìn)行匹配,匹配程度最大的漢字即為識別結(jié)果。因此,如何確定表達(dá)待識別漢字模式的最佳特征(組合優(yōu)化特征),如何進(jìn)行特征匹配,從而進(jìn)行高效、快速的識別,是漢字識別技術(shù)的關(guān)鍵所在。抽取代表未知漢字模式本質(zhì)的表達(dá)形式(如漢字的各種特征)和預(yù)先存儲在機(jī)器中的標(biāo)準(zhǔn)漢字模式表達(dá)形式的集合(稱為字典)逐一匹配,用一定的準(zhǔn)則進(jìn)行判別,在機(jī)器存儲的標(biāo)準(zhǔn)漢字模式表達(dá)形式的集
15、合中,找出最接近輸入模式的表達(dá)形式,該表達(dá)模式對應(yīng)的字就是識別結(jié)果。 圖2-1 漢字識別原理框圖漢字識別原理如圖2-1所示:光電掃描器掃描紙上的文字,產(chǎn)生模擬電信號,經(jīng)模數(shù)轉(zhuǎn)器轉(zhuǎn)換為由灰度值表達(dá)的數(shù)字信號,并送至預(yù)處理環(huán)節(jié)。預(yù)處理的內(nèi)容和要求取決于識別方法,一般包括行、字切分,二值化,細(xì)化或抽取輪廓,平滑,規(guī)范化等等。經(jīng)過預(yù)處理,漢字模式成為規(guī)范化的二值數(shù)字點(diǎn)陣信息,其中“l(fā)”部分反映了漢字筆劃部分,“0”部分是文字的空白背景。對該二值化漢字點(diǎn)陣,抽取一定的表達(dá)形式后,和存儲在字典中的已知標(biāo)準(zhǔn)漢字表達(dá)形式匹配判別,就可以識別出輸入的未知漢字。2.3漢字識別的一般方法漢字的模式表達(dá)形式有多種,每
16、種形式又可以選擇不同的特征。每種特征又有不同的抽取方法。這些就使得判別方法和準(zhǔn)則有不同,乃至形成多種不同形式的漢字識別方法。這些方法可以歸結(jié)為兩類一般性處理方法統(tǒng)計(jì)決策的方法和句法結(jié)構(gòu)的方法。1. 統(tǒng)計(jì)決策的方法(statistical decision method)在漢字識別中,每個(gè)字的特征不是一維,而是一個(gè)m維的特征向量;字典的每類標(biāo)準(zhǔn)模板也不是一個(gè),而是一批;判別輸入文字屬于哪一類時(shí),也不是只把它的特征向量和字典內(nèi)標(biāo)準(zhǔn)特征向量逐一簡單比較從而得到完全相同的結(jié)果才能分類識別,而是根據(jù)某種判別準(zhǔn)則,相似到一定程度而且彼此又能區(qū)分時(shí)就可以分類識別。這些就需要用統(tǒng)計(jì)決策的概念、理論、方法來指導(dǎo)
17、,這就產(chǎn)生了漢字識別的統(tǒng)計(jì)決策方法。統(tǒng)計(jì)決策的方法分類判別時(shí),常用的判別準(zhǔn)則是距離和類似度,它們是分類識別的依據(jù)。2. 句法結(jié)構(gòu)的方法(syntactic structure method)在漢字模式中,代表字形本質(zhì)特征的結(jié)構(gòu)信息很重要,研究這類結(jié)構(gòu)信息豐富的模式時(shí),可以用簡單的子模式(sub pattern)(如筆劃)構(gòu)成多級結(jié)構(gòu)來描述一個(gè)復(fù)雜模式(如整個(gè)漢字)。例如把“葉”字先分解為部件“口”和部件“十”,并知道“十”在“口”的右面,再把這兩個(gè)部件分解為筆劃“|”、“”、“一”和“一”、“|”,也知道部件內(nèi)這些筆劃之間相對位置和連接關(guān)系,這樣就可以把“葉”字表達(dá)成一維的符號串。若用(、)表
18、示部件的界符,用、×分別表示部件筆劃間的上下、左右、交叉關(guān)系,則可以把“葉”字表示為符號串(|一)(一×|)。漢字是一個(gè)模式,部件則是子模式,而筆劃是一種最簡單的子模式。組成一個(gè)模式的最簡單的而且不再分割的子模式叫做基元(Pattern primitive)。上例中,各筆劃以及、×都是基元,基元根據(jù)一定規(guī)律組合成模式。這種對于一個(gè)模式。用層層更為簡單的子模式,最后用基元來描述的方法,就是結(jié)構(gòu)分析的方法。2.4漢字識別問題與困難當(dāng)今許多漢字識別技術(shù)研究者想提升漢字識別系統(tǒng)的識別效果都遇到了一些同樣的問題3。這些問題包括漢字量大、漢字結(jié)構(gòu)復(fù)雜、字體字號多以及相似字多。
19、這也使得漢字識別難度遠(yuǎn)遠(yuǎn)大于其它語言文字識別。由于漢字自身的特殊性,研究者也無法借鑒其它語言特別是西方發(fā)達(dá)國家的已有的技術(shù)來識別漢字。(1)漢字量特別大,類別繁多我國1980年公布的國家標(biāo)準(zhǔn)GB231280中第一級常用漢字共有3755個(gè),第二級有3008個(gè),兩級共有6763個(gè)漢字。其中常用漢字有3000至4000個(gè)之多。第一級漢字使用頻度為997,兩級漢字總使用頻度為9999。一個(gè)漢字識別系統(tǒng)至少要識別這些常用漢字才能滿足需求,才具有實(shí)際應(yīng)用價(jià)值。顯然,漢字樣本數(shù)量眾多,這對一個(gè)系統(tǒng)來說是一種考驗(yàn)。大量的樣本要占據(jù)更多的內(nèi)存空間,更多的尋址時(shí)間,這對一個(gè)RTS(Real Time System
20、s)來說是致命的。為了提高識別速度而采取一些措施之后,又可能會導(dǎo)致識別率的降低。這也導(dǎo)致了漢字識別系統(tǒng)不得不在識別率和識別速度之間有個(gè)妥協(xié)。(2)漢字結(jié)構(gòu)復(fù)雜印刷體漢字識別系統(tǒng)的特征提取和匹配識別研究漢字是世界上結(jié)構(gòu)最為復(fù)雜的文字之一。它的構(gòu)成方法主要有三種:象形法、會意法和形聲法。不同的構(gòu)成方法,具備不同的構(gòu)字規(guī)律,這對采用統(tǒng)一標(biāo)準(zhǔn)處理如此大樣本的漢字集來既是一大困難。筆畫和部首的不同排列組合,構(gòu)成了表達(dá)不同含義的結(jié)構(gòu)異常復(fù)雜的漢字字符。非字母化,不同于拼字母文字,與世界上常用的其它民族的文字相比,漢字的結(jié)構(gòu)是最為復(fù)雜的。(3)字體字號多我國印刷體漢字種類有超過一百種之多,其中主要以宋體、黑
21、體、楷體和仿宋體為主,其它多為這四種字體的衍生字體。另外,印刷體漢字同一個(gè)字的不同字體即使拓?fù)浣Y(jié)構(gòu)大致相同,但字形點(diǎn)陣還是有很大差別。筆畫的粗細(xì)、長短、位置及姿態(tài),都有一定的差別,各個(gè)部件(如偏旁、部首與主體)的大小比例與位置,也都有所變異。對于手寫漢字,這種差別就更大。手寫體有楷體、行書和草書三類,但其自由發(fā)揮度很大,以致識別難度更大。印刷體漢字的字號更是繁多,這給漢字歸一化帶來了一定的計(jì)算量,歸一化后也有可能使得漢字信息損失一部分,這給漢字識別也帶來了困難。(4)相似字多由于我國漢字種類繁多以及構(gòu)成方法的原因,漢字集中包含了大量的相似字。這些相似字不僅在形狀上、構(gòu)造上相似,而且在筆畫上也相
22、近。例如,“大”和“太”兩個(gè)字只相差一個(gè)短捺,常用的特征提取算法根本無法區(qū)分這兩個(gè)字的不同之處。這個(gè)相似字區(qū)分的問題往往出現(xiàn)在漢字識別系統(tǒng)的最后一級,也是至關(guān)重要的一級。第三章 印刷體漢字識別的研究3.1 印刷體漢字識別技術(shù)的發(fā)展歷程計(jì)算機(jī)技術(shù)的快速發(fā)展和普及,為文字識別技術(shù)應(yīng)運(yùn)而生提供了必備條件。加上人們對信息社會發(fā)展的要求越來越高,文字識別技術(shù)的快速發(fā)展可想而知。印刷體文字的識別可以說很早就成為人們的夢想,早在1929年,Taushek就在德國獲得了一項(xiàng)有關(guān)OCR的專利4。為了將多年以來印刷在紙上的浩如煙海、與日俱增的報(bào)刊雜志、文獻(xiàn)資料和單據(jù)報(bào)表等文字材料輸入計(jì)算機(jī)進(jìn)行信息處理,單靠人工擊
23、鍵輸入,其速度利效率已遠(yuǎn)遠(yuǎn)不能滿足要求,這就迫切需要研制以印刷體漢字識別為核心的光學(xué)漢字字符閱讀器(Optical Chinese Character Reader,簡稱OCCR),使印刷體漢字可以高速自動地輸入計(jì)算機(jī)。印刷體漢字的識別最早可以追溯到60年代。1966年,IBM公司的Casey和Nagy發(fā)表了第一篇關(guān)于印刷體漢字識別的論文5。在這篇論文中他們利用簡單的模板匹配法識別了l.000個(gè)印刷體漢字。70年代以來,日本學(xué)者做了許多工作,其中有代表性的系統(tǒng)有1977年東芝綜合研究所研制的可以識別2000個(gè)漢字的單體印刷漢字識別系統(tǒng);80年代初期,日本武藏野電氣研究所研制的可以識別2300個(gè)
24、多體漢字的印刷體漢字識別系統(tǒng),代表了當(dāng)時(shí)漢字識別的最高水平。此外,日本的三洋、松下、理光和富士等公司也有其研制的印刷體漢字識別系統(tǒng)。這些系統(tǒng)在方法上,大都采用基于數(shù)字變換的匹配方案,使用了大量專用硬件,其設(shè)備有的相當(dāng)于小型機(jī)甚至大型機(jī),價(jià)格極其昂貴,沒有得到廣泛應(yīng)用。我國對印刷體漢字識別的研究始于70年代末80年代初。大致可以分為三大階段6:(1)第一階段從70年代末期到80年代末期,主要是算法和方案探索。研究人員提出了用于漢字識別的各種方法和特征,如特征點(diǎn)方法、漢字周邊特征、漢字的結(jié)構(gòu)元特征等,并在此基礎(chǔ)上成功地研究出一批漢字識別系統(tǒng)。這一階段是印刷漢字識別成果倍出的時(shí)期。但是,這些成果還僅
25、僅處于實(shí)驗(yàn)室階段,沒有轉(zhuǎn)化為產(chǎn)品來實(shí)際解決印刷漢字的自動輸入問題。(2)第二階段是90年代初期,中文OCR由實(shí)驗(yàn)室走向市場,初步實(shí)用。在實(shí)際的漢字識別輸入應(yīng)用條件下,檢驗(yàn)和考查這些研究成果。而一個(gè)漢字識別系統(tǒng)能否通過這一嚴(yán)峻的考驗(yàn),并進(jìn)一步發(fā)展,取決于三個(gè)重要因素:第一該系統(tǒng)能否根掘社會的發(fā)展,用戶需求的變化,靈活地改進(jìn)或者增加系統(tǒng)功能,以適應(yīng)市場需求;第二該系統(tǒng)是否能在識別效率、識別速度和系統(tǒng)資源三者之間協(xié)調(diào)好關(guān)系;第三該系統(tǒng)是否具有足夠高的抗噪性能,以適應(yīng)各種各樣的實(shí)際應(yīng)用壞境。(3)第三階段也就是目前,主要是印刷體漢字識別技術(shù)和系統(tǒng)性能的提高,包括漢英雙語混排識別率的提高和穩(wěn)定性的增強(qiáng)。
26、同國外相比,我國的印刷體漢字識別研究起步較晚。從80年代開始,漢字ORC的研究開發(fā)一直受到國家重視,經(jīng)過科研人員十多年的辛勤努力,印刷體漢字識別技術(shù)的發(fā)展和應(yīng)用,有了長足進(jìn)步,從簡單的單體識別發(fā)展到多種字體混排的多體識別,從中文印刷材料的識別發(fā)展到中英混排印刷材料的雙語識別。各個(gè)系統(tǒng)可以支持簡、繁體漢字的識別,解決了多體多字號混排文本的識別問題,對于簡單的版面可以進(jìn)行有效的定量分析。同時(shí)漢字識別率已達(dá)到了98以上。但印刷體漢字識別系統(tǒng)的研究還要解決好實(shí)用漢字識別系統(tǒng)所必須解決的一些問題,如版面的自動分析、行字切分、人機(jī)界面和良好的應(yīng)用環(huán)境等等。3.2 印刷體漢字識別的原理分析及算法研究漢字識別
27、實(shí)質(zhì)是解決文字的分類問題,一般通過特征辨別及特征匹配的方法來實(shí)現(xiàn)。目前漢字識別技術(shù)按照識別的漢字不同可以分為印刷體漢字識別和手寫體漢字識別。印刷體漢字識別從識別字體上可分為單體印刷體漢字識別(printed character recognition)與多體印刷體漢字識別(multiple printedcharacter recognition) ;手寫體漢字識別根據(jù)實(shí)時(shí)性又可以分為聯(lián)機(jī)手寫體識別(on - line handwritten character recognition)和脫機(jī)手寫體識別(off - line handwritten character recognition)
28、。印刷體漢字識別的流程7如圖3-1所示:圖3-1 漢字識別流程框圖印刷在紙張上的漢字,通過用掃描儀掃描或者數(shù)碼相機(jī)拍攝等光學(xué)方式輸入后得到灰度圖像(Grayscale image)或者二值圖像(Binary image),然后利用各種模式識別算法對漢字圖像進(jìn)行分析,提取漢字的特征,與標(biāo)準(zhǔn)漢字進(jìn)行匹配判別,從而達(dá)到識別漢字的目的。印刷體漢字識別技術(shù)主要包括預(yù)處理、特征提取、匹配識別和后處理等步驟。預(yù)處理是在所有識別處理之前進(jìn)行的,它將從各種不同輸入方式獲得的漢字圖像中的干擾因素降到最低。隨著漢字識別技術(shù)的深入研究,漢字的特征提取的算法越來越多,如何選擇特征和如何組合優(yōu)化特征已經(jīng)成了研究的重要領(lǐng)域
29、。匹配識別技術(shù)涉及到分類器的設(shè)計(jì)等重要問題,這也是非常重要的一個(gè)環(huán)節(jié)。漢字的后處理是出于獲得最大化識別率考慮,它在前期已有識別水平上,通過調(diào)整參數(shù)或反饋處理獲得更高的識別率。 預(yù)處理由于用數(shù)碼相機(jī)或掃描儀作為輸入設(shè)備得到的數(shù)據(jù)不可避免地存在著各種外在的干擾,圖像質(zhì)量也有偏差,對識別效果有一定影響。因此,在對原始圖像進(jìn)行識別處理之前,盡可能將干擾因素影響降低,是非常有必要的,也就是要先對原始采樣信號進(jìn)行預(yù)處理。預(yù)處理8通常包括去除噪聲、版面分析、二值化、傾斜校正、行列切分、平滑、歸一化、細(xì)化等。(1)版面分析印刷體文字識別常遇到的識別主體不是一個(gè)文字段,而是整個(gè)版面,所以版面分析是印刷體文字識別
30、系統(tǒng)中的重要組成部分。它是指對印刷體文檔圖像進(jìn)行分析,提取出文本、圖像圖形、表格等區(qū)域,并確定其邏輯關(guān)系,并將相應(yīng)的文本塊連接在一起。這一過程的自動完成算法還不是很完善,有些部分常由手工完成,最終的系統(tǒng)能夠自動完成所有的版面分析。(2)二值化將一幅具有多種灰度值的圖像變成白黑分布的二值圖像的工作稱為二值化處理,二值化的主要目的是將漢字從圖像中分離出來。通常的方法為先確定像素的閾值,比較像素值和閾值的大小,從而確定為1或0,這個(gè)二值化閾值的選取較為關(guān)鍵。若閾值取的過大,則保留的信息過多,其中許多雜點(diǎn)無用信息造成了對以后處理的干擾;若閾值取得過小,則丟失的信息過多,其中許多文字信息產(chǎn)生續(xù)斷或丟失,
31、造成最終文字提取分割的信息丟失。如何確定此閾值的過程也就成了研究二值化算法的重點(diǎn)?,F(xiàn)如今,漢字圖像二值化方法多種多樣,但大多都有應(yīng)用限制。研究一種適合各種文字圖像的二值化方法也是預(yù)處理環(huán)節(jié)的重點(diǎn)。(3)傾斜校正通過輸入設(shè)備獲得的圖像不可避免地會發(fā)生傾斜,這會給后面的行字分割、文字識別等圖像處理與分析帶來困難,因此,在漢字識別系統(tǒng)中,傾斜校正是圖像預(yù)處理的重要部分。傾斜校正的核心在于如何檢測出圖像的傾斜角。目前,傾斜角檢測的方法有許多種,主要可分為5類:基于Hough變換的方法;基于交叉相關(guān)性的方法;基于投影的方法;基于Fourier變換的方法和K-最近鄰簇方法。靈活運(yùn)用傾斜角度檢測算法將是傾斜
32、校正環(huán)節(jié)的重要研究方向。(4)行字切分漢字切分的目的是利用字與字之間、行與行之間的空隙,將單個(gè)漢字從整個(gè)圖像中分離出來。漢字的切分分為行切分和字切分9。行切分是利用行與行之間的直線型空隙來分辨行,將各行的行上界和行下界記錄下來。典型的算法是,從上到下,對二值漢字點(diǎn)陣的每行像素值進(jìn)行累加,若從某行開始的若干累加和均大于一個(gè)試驗(yàn)常數(shù),則可認(rèn)為該行是一漢字文本行的開始,即行上界。同理,當(dāng)出現(xiàn)連續(xù)大約一個(gè)漢字高度的大累加和情況后突然出現(xiàn)一系列小累加和甚至零值時(shí),判定為行下界。字切分是利用字與字之間的直線型空隙來分辨字,將各字的左邊界和右邊界記錄下來。典型的算法是,在確定這一行的行上界和行下界之后,從左
33、到右搜索一行文字的左右邊界,切分出單字或標(biāo)點(diǎn)符號。從左邊開始垂直方向的行距內(nèi)像素單列累加和均大于一個(gè)試驗(yàn)常數(shù),則可認(rèn)為是該漢字的左邊界。同理,當(dāng)出現(xiàn)連續(xù)一個(gè)漢字寬度的大累加和情況后突然出現(xiàn)一系列小累加和甚至零值時(shí),判定為該漢字的右邊界。對文本漢字行來說,由于存在左右分離字,寬窄字,字間交連等,加上行間混有英文、數(shù)字、符號、和字間污點(diǎn)干擾,使得字切分比行切分困難得多。(5)歸一化歸一化也稱規(guī)格化,它是把文字尺寸變換成統(tǒng)一大小,糾正文字位置(平移),文字筆畫粗細(xì)變換等文字圖像的規(guī)格化處理,并只對文字圖像進(jìn)行投影。漢字圖像的歸一化往往會帶來兩個(gè)問題:一是字符圖像的縮放可能會引入一些干擾;二是圖像縮放
34、本身的運(yùn)算量較大。所以,必須采用恰當(dāng)?shù)臍w一化方法來消除尺度變化對特征值的影響。(6)平滑對數(shù)字圖像進(jìn)行平滑,目的是去處孤立的噪聲干擾,以平滑筆畫邊緣。平滑在圖像處理中實(shí)質(zhì)是一幅文字圖像通過一個(gè)低通濾波器,去除高頻分量,保留低頻分量,在實(shí)際應(yīng)用中,采用WXW(一般采用3x3)的輔助矩陣對二值文字圖像進(jìn)行掃描。根據(jù)輔助矩陣中各像素0、1的分布,使處于矩陣中心的被平滑的像素X從“0”變成“1”或者從“1”變成“O”。(7)細(xì)化細(xì)化處理是在圖像處理中相當(dāng)重要和關(guān)鍵的一環(huán),它是將二值化文字點(diǎn)陣逐層剝?nèi)ポ喞吘壣系狞c(diǎn),變成筆畫寬度只有一個(gè)比特的文字骨架圖形。細(xì)化處理的目的是搜索圖像的骨架,去除圖像上多余的
35、像素,從而在不改變圖像主要特征的前提下,減少圖像的信息量。細(xì)化處理結(jié)果的好壞,直接影響到識別的效果和質(zhì)量。在細(xì)化處理過程中,一方面,去除的像素太少,則不能充分有效地減少圖像的信息量;另一方面,去除的像素太多,特別是某些關(guān)鍵像素若被去除,則改變了原始圖像的主要特征。因此,高質(zhì)量的細(xì)化算法程序?qū)D像識別有很大的實(shí)用價(jià)值。針對文字圖像的細(xì)化算法已有很多,它的優(yōu)劣對系統(tǒng)的識別效果影響很大。對細(xì)化的一般要求是保持原有筆畫的連續(xù)性,不能由于細(xì)化造成筆畫斷開;細(xì)化成為單層像素線;保持文字原有特征,既不要增加,也不要丟失,保持筆畫特征,最好細(xì)化掉筆鋒:細(xì)化結(jié)果是原曲線的中心線,保留曲線的端點(diǎn),交叉部分中心線不
36、畸變。針對各種不同的應(yīng)用,國內(nèi)外已發(fā)表了許多細(xì)化算法,如Hilditch經(jīng)典細(xì)化算法10、Deutsch算法11等。然而,細(xì)化過程本身固有的弱點(diǎn)總是造成筆畫骨架線的畸變,增加對識別的干擾,主要的畸變包括:交叉筆畫畸變、轉(zhuǎn)折處出現(xiàn)分叉筆畫、失去短筆畫和筆畫合并等。可以說,這些問題依賴細(xì)化算法本身是無法克服的,需要在后續(xù)的處理中盡量消除這些畸變的干擾。 漢字特征提取預(yù)處理的最終目的是為了更加方便、準(zhǔn)確地進(jìn)行漢字的特征提取,從而提高漢字識別率。對于漢字,其特征大致分為兩類,包括結(jié)構(gòu)特征和統(tǒng)計(jì)特征,至今總數(shù)已經(jīng)不下百種。但每種漢字特征的適用環(huán)境都有所不同,有的特征在一些情況下有很強(qiáng)的魯棒性,但在另外一
37、些情況下卻完全失去了效用。例如,漢字特征點(diǎn)特征算法本身是一種比較簡單、完善的特征提取算法。在漢字圖像滿足清晰、無筆畫連聯(lián)、無斷筆等細(xì)化要求時(shí),是能夠完全將漢字的各種特征點(diǎn)位置提取處理的;若漢字圖像本身模糊不清,預(yù)處理工作也無法達(dá)到要求,這樣再好的漢字特征點(diǎn)特征提取算法也無法提取正確的漢字特征點(diǎn)特征,已經(jīng)獲得的特征點(diǎn)特征一旦應(yīng)用到漢字識別系統(tǒng)中去,將會極大地影響整個(gè)系統(tǒng)的實(shí)用性。針對不同的系統(tǒng)需求,應(yīng)該選擇不同的漢字特征,進(jìn)行優(yōu)化特征組合,這樣才能達(dá)到系統(tǒng)最佳識別效果。所以選擇哪種特征,如何組合特征將是漢字特征提取這一部分的重點(diǎn)研究領(lǐng)域。要做到有的放矢,就需要研究已有的獲得良好效果的各種漢字特征
38、,分析它們的優(yōu)點(diǎn)、缺點(diǎn)和適用環(huán)境。如下介紹并分析一下常用的一些的漢字結(jié)構(gòu)特征和漢字統(tǒng)計(jì)特征。(1)結(jié)構(gòu)特征抽取筆畫法抽取筆畫法是利用漢字由筆畫所構(gòu)成的特點(diǎn)進(jìn)行識別,它利用漢字的結(jié)構(gòu)信息來進(jìn)行漢字的聯(lián)機(jī)識別,在印刷體和脫機(jī)手寫識別中,由于筆畫提取的困難,結(jié)果不是很理想。松弛匹配法松弛匹配法是一種基于全局特征的匹配方法,它對輸入漢字作多邊近似,抽取邊界線段,將這些邊界線段組成臨近線段表,然后用松弛匹配操作,完成邊與邊的匹配。這種方法利用彈性吸收漢字的變形,一個(gè)字只用一個(gè)樣本。其缺點(diǎn)是操作速度較慢,計(jì)算量大。非線性匹配法非線性匹配法是由Tsukumo等提出的,用以解決字形的位移、筆畫的變形等現(xiàn)象。此
39、方法試圖克服從圖形中正確抽取筆畫的困難,以提高正確判別的能力。(2)統(tǒng)計(jì)特征筆畫復(fù)雜性(Complexity Index)筆畫復(fù)雜性指數(shù)是指文字筆畫的線段密度,其定義如下:(3-1)(3-2)式(3-1)和(3-2)中、一橫向和縱向的筆畫復(fù)雜性指數(shù);、一橫向和縱向的文字線段總長度;、一橫向和縱向質(zhì)心二次矩的平方根;、分別反應(yīng)了橫向和縱向的筆畫復(fù)雜性,橫多的大,豎多的大。筆畫復(fù)雜性指數(shù)與漢字的位移無關(guān),受字體和字號的影響較小,但易受筆畫斷裂和粘連的影響,且其分類能力較差,常與另一種粗分類方法“四邊碼”連用。四邊碼(Four-side Code)四邊碼是在漢字點(diǎn)陣圖的四周各取一條帶,計(jì)算其中的文字
40、圖像素點(diǎn)數(shù),并將它分成四級,構(gòu)成一個(gè)四元組。由于漢字邊框不但含有豐富的結(jié)構(gòu)信息,而且邊框部分筆畫一般較少,不易粘連,抗干擾能力強(qiáng),但對漢字的位移和旋轉(zhuǎn)比較敏感,與筆畫復(fù)雜性指數(shù)正好形成互補(bǔ)。特征點(diǎn)特征點(diǎn)提取算法的主要思想是利用字符點(diǎn)陣中一些有代表性的黑點(diǎn)(筆畫)、白點(diǎn)(背景)作為特征來區(qū)分不同的字符。特征點(diǎn)包括筆畫骨架線的端點(diǎn)、折點(diǎn)、歧點(diǎn)和交點(diǎn),漢字的背景也含有一定的區(qū)別于其它漢字的信息,選擇若干背景點(diǎn)作為特征點(diǎn),有利于提高系統(tǒng)的抗干擾能力。其特點(diǎn)是能夠大大壓縮特征庫的容量,對于內(nèi)部筆畫粘連字符,其識別的適應(yīng)性較強(qiáng)、直觀性好,但不易表示為矢量形式,匹配難度大,不適合作為粗分類的特征。筆段特征漢
41、字是由筆畫組成的,而筆畫又由筆段組成,筆段可近似為一定方向、長度和寬度的矩形段。利用筆段與筆段之間的關(guān)系組成特征對漢字進(jìn)行識別,受字體和字號的影響小,對于多體漢字的識別獲得了良好效果。其缺點(diǎn)是筆段的提取會較為困難,匹配的難度大,抗內(nèi)部筆畫斷裂或者粘連能力差。當(dāng)然,漢字的特征多種多樣,各有各的優(yōu)點(diǎn)、短處和不同的適用范圍。選擇什么樣的特征使得此單分類環(huán)節(jié)的識別效果達(dá)到最佳,選擇哪些特征來優(yōu)化組合來達(dá)到整個(gè)系統(tǒng)的識別效果達(dá)到最佳,這就是本文需要研究的問題。 漢字的分類識別識別算法是整個(gè)識別過程的核心部分。原始圖像經(jīng)過預(yù)處理后,得到一個(gè)較為理想的二值圖像,然后就可以對這個(gè)處理后的二值圖像進(jìn)行識別。識別
42、的過程包括根據(jù)識別算法選擇和提取漢字的特征、與標(biāo)準(zhǔn)文字的特征進(jìn)行匹配判別。 漢字的分類識別方法也是漢字識別系統(tǒng)的重要環(huán)節(jié)之一。諸多分類方法各自有其優(yōu)缺點(diǎn)。(1)相關(guān)匹配這是一種統(tǒng)計(jì)識別方法,它通過在特征空間中計(jì)算輸入特征向量與各模板向量之間的距離進(jìn)行分類判決。距離度量的定義:設(shè)X,S分別為輸入特征向量和模板特征向量,n為特征維數(shù)。 S階Minkowski度量 (3-3)(3-4)其中最為常用的是一階度量,又稱為絕對距離。即: (3-5)歐氏距離S階Minkowski度量中,令s=2,得到歐氏距離。 (3-6)加權(quán)距離考慮到輸入分量對模板的作用大小不同,故采用加權(quán)值來表示 (3-7)下標(biāo)j表示不
43、同的模板可以有不同的加權(quán)值。另一個(gè)描述輸入向量與模板間關(guān)系的度量是相似度,最簡單的相似度定義為二者方向夾角的余弦S,即: (3-8)與距離一樣,相似度也可以加權(quán),得到加權(quán)相似度: (3-9)其中,Wi為權(quán)值,且,當(dāng)一個(gè)類別有多個(gè)模板時(shí),還可以使用多重相似度: (3-10)其中,Si是S類中的一個(gè)模板。P(i)是該模板的概率。相關(guān)匹配是一種統(tǒng)計(jì)識別方法。統(tǒng)計(jì)方法的優(yōu)點(diǎn)是特征提取和模板的建立都比較容易,抗干擾能力強(qiáng),使局部噪聲不敏感:缺點(diǎn)是分辨相似字的能力較弱,對書寫風(fēng)格的變化比較敏感。(2)文法分析文法分析的基本思想是將輸入的漢字看作是一個(gè)語句或符號串,將識別問題轉(zhuǎn)化為判斷輸入的語句是否屬于某種
44、語言,即句子是否符合某種語言的語法約束條件,這種方法在漢字識別中也得到了應(yīng)用。文法分析是典型的結(jié)構(gòu)識別方法,由于其側(cè)重點(diǎn)是在筆段形狀、位置以及筆段之間相互關(guān)系的分析上,所以它的優(yōu)點(diǎn)是分辨相似字的能力較強(qiáng),對書寫風(fēng)格的變化不敏感:缺點(diǎn)是對局部噪聲敏感,特征提取比較復(fù)雜。(3)松弛匹配無論是相關(guān)匹配還是文法分析,都要求輸入特征向量和模板特征向量的各分量之間具有確切的對應(yīng)關(guān)系,然而在結(jié)構(gòu)分析中,往往事先難以確定兩者各分量間的對應(yīng)關(guān)系,此時(shí)可以采用松弛匹配法。松弛匹配法首先通過迭代運(yùn)算,找出輸入向量與模板向量各分量間的對應(yīng)關(guān)系,然后再根據(jù)這一對應(yīng)關(guān)系進(jìn)行匹配。迭代開始之前,首先根據(jù)輸入向量各分量與模板
45、向量各分量之間的相似度構(gòu)成一個(gè)初始權(quán)值矩陣。矩陣中各元素的值為相應(yīng)分量之間的初始匹配概率,然后通過迭代運(yùn)算對各個(gè)權(quán)值進(jìn)行修正,并將其中趨近于零的值置為零,直至權(quán)值的變化趨于穩(wěn)定,此時(shí),可以認(rèn)為權(quán)值矩陣中非零元素所對應(yīng)的分量之間只有對應(yīng)關(guān)系,然后根據(jù)這一對應(yīng)關(guān)系計(jì)算輸入量與該模板問的距離,重復(fù)上述過程。求出輸入量與每個(gè)模板間的距離,取其中距離最小的模板所代表的類別為識別結(jié)果。松弛匹配法兼具統(tǒng)計(jì)方法和結(jié)構(gòu)方法的特長。由于它是根據(jù)總體的匹配程度來決定識別結(jié)果的,所以這一點(diǎn)它類似于統(tǒng)計(jì)方法,同時(shí)它在迭代中還把基元間位置關(guān)系等結(jié)構(gòu)信息考慮在內(nèi),這一點(diǎn)又很像結(jié)構(gòu)方法。因此松弛匹配法在漢字識別中取得了很好的
46、效果,它不僅可以用于特征點(diǎn)的匹配,而且還可以用于筆段、筆畫和部件的匹配。其主要缺點(diǎn)是運(yùn)算量較大,識別中往往需要增加預(yù)分類環(huán)節(jié)以減小運(yùn)算量。另外,它吸收畸變的能力仍有不足。(4)人工神經(jīng)網(wǎng)絡(luò)漢字識別是一個(gè)非?;钴S的分支,不斷有新的方法涌現(xiàn)出來,為漢字識別的研究注入新的活力,其中基于人工神經(jīng)網(wǎng)絡(luò)的識別方法是非常引人注目的方向。目前神經(jīng)網(wǎng)絡(luò)理論的應(yīng)用己經(jīng)滲透到各個(gè)領(lǐng)域,并在模式識別、智能控制、計(jì)算機(jī)視覺、自適應(yīng)濾波和信號處理、非線性優(yōu)化、自動目標(biāo)識別,連續(xù)語音識別、聲納信號的處理、知識處理、傳感技術(shù)與機(jī)器人、生物等領(lǐng)域都有廣泛地應(yīng)用。 后處理后處理就是利用相關(guān)算法對識別后的漢字文本或者初級識別結(jié)果做
47、進(jìn)一步的處理,糾正誤識的漢字,給出拒識的漢字,確定模棱兩可的漢字。漢字識別的后處理方法12,13從用戶的參與程度來說,可分為三類:手工處理,交互式處理和計(jì)算機(jī)自動處理。以下對各種常用的后處理方法做簡單的介紹。(1)簡單的詞匹配簡單的詞匹配就是利用文本中字的上下文匹配關(guān)系和詞的使用頻度,給識別后文本中的拒識字提供一個(gè)“最佳”的候選字,其關(guān)鍵是建立漢語詞條數(shù)據(jù)庫。該數(shù)據(jù)庫應(yīng)具印刷體漢字識別系統(tǒng)的特征提取和匹配識別研究有完善的詞條存儲、維修功能,應(yīng)該能夠反映不同詞的使用頻度,應(yīng)盡可能的提高詞條的檢索速度,只有這樣才能方便漢字后處理程序的使用。(2)綜合詞匹配綜合詞匹配方法,就是綜合利用初級識別結(jié)果和
48、字的上下文關(guān)系及詞的使用頻度,來決定最后的識別結(jié)果。這種方法實(shí)際上己把識別過程和后處理過程融為一體了。綜合利用初級識別結(jié)果與詞條信息的糾錯優(yōu)于單純利用詞條的糾錯。綜合詞匹配法可以減少搜索詞條關(guān)系時(shí)的搜索空間,從而提高糾錯速度。這是因?yàn)樵趯ふ易值纳舷挛钠ヅ潢P(guān)系時(shí),利用初級識別結(jié)果的待選集,可以大大縮小搜索范圍,避免了在整個(gè)詞條庫中查詢。在不利用待選集時(shí),對于有可能識別出錯的地方,只能采用拒識,而拒識不提供任何未知漢字與已知漢字字符集中漢字相似度的信息,所以尋找詞條時(shí)的搜索空間只能是整個(gè)詞條庫。另外,當(dāng)某一個(gè)詞前后兩個(gè)字都被拒識時(shí),簡單的詞匹配法就無能為力,而綜合詞匹配法仍能利用詞條信息進(jìn)行糾錯。
49、(3)詞法分析語言是語音和意義的結(jié)合體。語素是最小的語言單位。無論是詞還是短語,都有其構(gòu)成規(guī)則,利用這些規(guī)則,將它們分類。另外,不同的應(yīng)用背景,也有不同的分類結(jié)果。漢字識別后處理的詞法分析方法,就是在詞匹配的基礎(chǔ)上,對仍難以確定的漢字,找出這些漢字與前后漢字所能組成的詞,然后通過詞法分析,確定一個(gè)能和該詞的前后詞組成“最佳”匹配的詞,從而確定要識別的漢字?;谠~法分析的漢字識別后處理的關(guān)鍵是構(gòu)造一個(gè)完善的詞條數(shù)據(jù)庫。該數(shù)據(jù)庫中的每一個(gè)詞條項(xiàng)都要包括本詞條的詞性、詞頻、連接屬性、語義信息等。(4)句法、語義分析語句無論是從結(jié)構(gòu)上,還是從意思上都有一種人類共同理解、共同接受和共同遵守的語言組合法則
50、。所以利用語義句法的方法,在初級識別結(jié)果的基礎(chǔ)上,在利用詞法分析進(jìn)行匹配之后或匹配的同時(shí),再進(jìn)行句法分析和語義分析,從而確定要識別的漢字。進(jìn)行語義句法分析也要首先建立詞條庫。這時(shí)詞條庫中的每一個(gè)詞條項(xiàng),還要包括該詞的句法信息和語義信息。另外,還要建立起一套句法規(guī)則和語義規(guī)則,以便指導(dǎo)語法分析和語義分析。(5)人工神經(jīng)元網(wǎng)絡(luò)利用人工神經(jīng)元網(wǎng)絡(luò)的漢字識別后處理可以采取兩種方式。一種是把識別過程和后處理過程分開,網(wǎng)絡(luò)的輸入是初級識別結(jié)果的短語或者句子,其中包含不確定的漢字(或拒識的漢字),通過網(wǎng)絡(luò)的運(yùn)行,最終確定這些字。另一種方法是把識別過程和后處理過程綜合在一起,初級識別給出的結(jié)果是每一個(gè)待識漢字
51、的前幾個(gè)候選字和每一候選字與待識字之間的相似度。然后,把這些候選字以及與之相連的相似度輸入網(wǎng)絡(luò),通過網(wǎng)絡(luò)的并行作用,找到最符合漢語語法和語義組合關(guān)系的詞或句子,從而確定出要識別的漢字。3.3印刷體漢字識別技術(shù)分析3.3.1結(jié)構(gòu)模式識別方法漢字的數(shù)量巨大,結(jié)構(gòu)復(fù)雜,但其特殊的組成結(jié)構(gòu)中蘊(yùn)藏著相當(dāng)嚴(yán)的規(guī)律14。從筆畫上講,漢字有包括橫、豎、撇、捺、點(diǎn)、折、勾等七種基本筆畫,還有提挑、撇點(diǎn)、橫捺等七種變形筆畫。從部件上講,部件是有特殊的筆畫組合而成,故部件也是一定的。換而言之,漢字圖形具有豐富的有規(guī)律可循的結(jié)構(gòu)信息,可以設(shè)法提取含有這些信息的結(jié)構(gòu)特征和組字規(guī)律,將它們作為漢字識別的依據(jù)。這就是結(jié)構(gòu)模
52、式識別。結(jié)構(gòu)模式識別理論在20 世紀(jì)70 年代初形成,是早期漢字識別研究的主要方法。其思想是直接從字符的輪廓或骨架上提取的字符像素分布特征,如筆畫、圈、端點(diǎn)、節(jié)點(diǎn)、弧、突起、凹陷等多個(gè)基元組合,再用結(jié)構(gòu)方法描述基元組合所代表的結(jié)構(gòu)和關(guān)系。通常抽取筆段或基本筆畫作為基元,由這些基元組合及其相互關(guān)系完全可以精確地對漢字加以描述,最后利用形式語言及自動機(jī)理論進(jìn)行文法推斷,即識別。結(jié)構(gòu)模式識別方法的主要優(yōu)點(diǎn)在于對字體變化的適應(yīng)性強(qiáng),區(qū)分相似字能力強(qiáng);缺點(diǎn)是抗干擾能力差,從漢字圖像中精確的抽取基元、輪廓、特征點(diǎn)比較困難,匹配過程復(fù)雜。因此,有人采用漢字輪廓結(jié)構(gòu)信息作為特征,但這一方案需要進(jìn)行松弛迭代匹配
53、,耗時(shí)太長,而且對于筆畫較模糊的漢字圖像,抽取輪廓會遇到極大困難。也有些學(xué)者采用抽取漢字圖像中關(guān)鍵特征點(diǎn)來描述漢字,但是特征點(diǎn)的抽取易受噪聲點(diǎn)、筆畫的粘連與斷裂等影響??傊畣渭儾捎媒Y(jié)構(gòu)模式識別方法的脫機(jī)手寫漢字識別系統(tǒng),識別率較低。3.3.2 統(tǒng)計(jì)模式識別方法統(tǒng)計(jì)模式識別方法是用概率統(tǒng)計(jì)模型提取待識別漢字的特征向量,然后根據(jù)決策函數(shù)進(jìn)行分類,識別就是判別待識漢字的特征向量屬于哪一類。常用的判別準(zhǔn)則是距離準(zhǔn)則和類似度準(zhǔn)則,典型的統(tǒng)計(jì)模式識別方法有最小距離分類、最鄰近分類等。a 最小距離分類最小距離分類器(Minimum - Distance Classifier) 是以漢字與特征空間模型點(diǎn)之間的
54、距離作為分類準(zhǔn)則,它有著圖3-2所描述的結(jié)構(gòu)。其中,x是輸入特征向量,他將被分配到C個(gè)類別中的某一個(gè)類k( k = 1 ,2 ,C) ,這些類有各自的典型模式mk表示。圖3-2 最小距離分類器系統(tǒng)圖b. 最鄰近分類最鄰近法的思想是對于C個(gè)類別i ( i = 1 ,2 ,C) ,每類有標(biāo)明類別的樣本Ni個(gè)(i = 1 , 2 , ,C)。規(guī)定i的判別函數(shù)如式(3-1) 所示。其中的角標(biāo)i 表示i類,k 表示i類Ni個(gè)樣本中的第k個(gè)。,k=1,2(3-11), i = 1 ,2 ,C(3-12)若式(3-2) 成立,則決策x j。即對未知樣本x,比較x 與N 個(gè)已知類別的樣本之間的歐式距離并決策x
55、 與離它最近的樣本同類。其中,統(tǒng)計(jì)模式識別方法具有良好的魯棒性(Robustness),適合有噪聲的文字,它一般采用多維特征值累加的辦法,減少噪聲的影響,但是,累加也會使相似漢字的結(jié)構(gòu)的差異消失,因此區(qū)分相似字的能力較差。常用的漢字統(tǒng)計(jì)模式識別方法包括15:(1)模板匹配模板匹配是將漢字的圖像直接作為特征,將之與特征庫中的漢字圖像逐一比較,相似度最高的漢字即為待選漢字。這種需要將左右漢字圖像的像素點(diǎn)陣均存儲起來,既占用大量的內(nèi)存空間,特別是對嵌入式系統(tǒng)來說是不可容忍的,也將在尋找最相似漢字過程中耗費(fèi)大量的時(shí)間,這對實(shí)時(shí)系統(tǒng)也是致命的。另外,其對于傾斜、筆畫變粗變細(xì)均無良好的適應(yīng)能力。(2)利用
56、變換特征的方法該方法利用各種函數(shù)變換,例如K-L變換、Fourier變換和Gabor變換等對漢字圖像特征進(jìn)行變換。但這些變換如果沒有合適的處理,都多少存在缺陷。有的抗噪性能差,有的代碼復(fù)雜度高。(3)筆畫方向特征筆畫方向的統(tǒng)計(jì)特征總共有3種:全局筆畫方向密度G-DCD,局部筆畫方向密度L-DCD和周邊筆畫方向PDC。前兩者用于預(yù)分類,后者用于單字識別。這些特征都是以筆畫方向貢獻(xiàn)(Direction Contribution)為基礎(chǔ)。(4)外圍特征漢字的外圍特征是由漢字輪廓信息獲得的。漢字輪廓具有豐富的特征,即使在稍微傾斜或者筆畫粘連的情況,也能提取較為完全的輪廓信息。(5)特征點(diǎn)特征漢字信息的
57、絕大部分集中在漢字骨架上,而漢字骨架信息又大多集中在若干特征點(diǎn)上。一旦確定這些筆畫特征點(diǎn),漢字筆畫以及結(jié)構(gòu)形狀就可以確定。它們包括端點(diǎn)、折點(diǎn)、歧點(diǎn)和交點(diǎn)等。漢字特征點(diǎn)的提取一般是基于漢字細(xì)化后的單像素圖像,而往往細(xì)化算法不能達(dá)到算法的要求,經(jīng)常有斷筆、非單層像素等情況,一點(diǎn)點(diǎn)變形或噪聲都會影響漢字特征點(diǎn)的提取。也就是它的魯棒性一般不好。隨著漢字識別技術(shù)的發(fā)展,已經(jīng)有越來越多的統(tǒng)計(jì)特征出現(xiàn)。但幾乎每種特征都不是完美的,都要在特殊條件下施加一些特殊的處理。如表1-1所示為統(tǒng)計(jì)方法和結(jié)構(gòu)方法特征比較:表1-1 統(tǒng)計(jì)方法和結(jié)構(gòu)方法特征比較 項(xiàng)目方法識別策略判別方法文字變形變體特征提取相似文字區(qū)分統(tǒng)計(jì)方法向量維數(shù)距離、類似度適應(yīng)性差容易不易區(qū)分結(jié)構(gòu)方法分而治之串行判決適應(yīng)性好不容易容易區(qū)分3.4印刷體漢字識別的分類在進(jìn)行漢字
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2024年鶴崗道路旅客運(yùn)輸從業(yè)資格證模擬考試
- 2024年銀川客運(yùn)資格證實(shí)操考試題目內(nèi)容
- 2024年海北c1客運(yùn)資格證考試項(xiàng)目
- 《計(jì)算機(jī)組裝與維護(hù)》課程標(biāo)準(zhǔn)
- 人教版部編(2019)高中語文選擇性必修上冊《學(xué)習(xí)任務(wù)二:舉辦文津微論壇》名師單元教學(xué)設(shè)計(jì)(2課時(shí))
- 農(nóng)產(chǎn)品貯藏與加工學(xué)
- 混合動力汽車發(fā)動機(jī)構(gòu)造與維修 教案 項(xiàng)目一任務(wù)2教案(參考)
- 壓力控制器技術(shù)協(xié)議
- 員工離職文件歸檔流程
- 港口碼頭挖機(jī)手招聘合同
- 風(fēng)機(jī)安裝工程質(zhì)量通病及預(yù)防措施
- 三角形鋼管懸挑斜撐腳手架計(jì)算書
- 文件和文件夾的基本操作教案
- 剪紙教學(xué)課件53489.ppt
- 旅游業(yè)與公共關(guān)系PPT課件
- 施工單位資質(zhì)報(bào)審表(共4頁)
- 勞動法講解PPT-定稿..完整版
- 彩色的翅膀_《彩色的翅膀》課堂實(shí)錄
- 假如你愛我的正譜
- 中醫(yī)住院醫(yī)師規(guī)范化培訓(xùn)基地工作指南
- 人教PEP四年級上冊英語《Unit 5 A Let's talk 》PPT課件
評論
0/150
提交評論