中文識(shí)別論文

上傳人：大*** IP屬地：上海上傳時(shí)間：2022-09-23 格式：DOC 頁(yè)數(shù)：28 大小：540.50KB 積分：15 舉報(bào) 版權(quán)申訴

已閱讀5頁(yè)，還剩23頁(yè)未讀，繼續(xù)免費(fèi)閱讀

版權(quán)說(shuō)明：本文檔由用戶(hù)提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、緒論目錄中文摘要ABSTRACT目錄III圖片索引目錄緒論11 漢字識(shí)別原理及常用算法4 1.1 漢字識(shí)別的原理4 1.2 基于統(tǒng)計(jì)決策方法的漢字識(shí)別5 1.3基于結(jié)構(gòu)特征方法的漢字識(shí)別62 基于多特征提取的識(shí)別算法9 2.1手寫(xiě)漢字識(shí)別的現(xiàn)行算法分析92.1.1以筆劃序列為特征的識(shí)別算法92.1.2基于統(tǒng)計(jì)特征的漢字識(shí)別算法11 2.2現(xiàn)行算法的結(jié)合和改進(jìn)123 識(shí)別算法對(duì)應(yīng)的VC代碼14 3.1輸入預(yù)處理15 3.2識(shí)別算法184 算法實(shí)現(xiàn)結(jié)果和分析20 4.1 模擬結(jié)果介紹20 4.2 結(jié)果分析215 總結(jié)與展望24 5.1 論文總結(jié)24 5.2 算法的前景展望24參考文獻(xiàn)25重慶大

2、學(xué)本科學(xué)生畢業(yè)設(shè)計(jì)（論文）圖片索引目錄 PAGE V附：圖片索引目錄圖1.1 漢字識(shí)別原理框圖4圖 1.2 漢字圖像的粗外圍圖5圖 2.1 二維平面的劃分圖9圖 2.4 漢字圖像的統(tǒng)計(jì)特征圖11圖 2.6 漢字識(shí)別算法流程圖13圖 4.1 程序運(yùn)行界面20圖 4.2 漢字的寫(xiě)入20圖 4.3 系統(tǒng)識(shí)別寫(xiě)入的漢字圖像21圖 4.4 通過(guò)“學(xué)習(xí)”過(guò)程向字庫(kù)中添加漢字特征21圖 4.5 能夠識(shí)別的漢字圖像示例22圖 4.6 不能識(shí)別的漢字圖像示例22重慶大學(xué)本科學(xué)生畢業(yè)論文緒論 PAGE 1緒論世界上的文字有兩大類(lèi)，一種是拼音類(lèi)文字（如英文），另一種是象形類(lèi)或圖形類(lèi)文字（如漢字）。在人機(jī)交互

3、中，拼音文字顯示出了極大的優(yōu)越性，利用鍵盤(pán)可以把一個(gè)個(gè)字母很自然很方便的輸入計(jì)算機(jī)，而對(duì)與圖形類(lèi)文字，一直沒(méi)有適當(dāng)?shù)妮斎朐O(shè)備。從80年代開(kāi)始，微機(jī)大量地進(jìn)入我國(guó)，許多用于中文信息處理，但輸入設(shè)備仍然只是鍵盤(pán)，為了將漢字輸入計(jì)算機(jī)，涌現(xiàn)出了各種各樣的漢字編碼方案，所謂編碼方案就是通過(guò)人為的規(guī)則，把漢字轉(zhuǎn)換成字符或數(shù)字以方便利用鍵盤(pán)輸入。利用編碼方案進(jìn)行漢字輸入需要記憶，這給計(jì)算機(jī)在生活領(lǐng)域的普及帶來(lái)了很大的不便，利用西文鍵盤(pán)輸入漢字的限制成了計(jì)算機(jī)普及應(yīng)用的瓶頸和桎酷。隨著科學(xué)技術(shù)的發(fā)展，人們意識(shí)到要用圖形輸入設(shè)備輸入漢字，輸入后由計(jì)算機(jī)自動(dòng)識(shí)別并轉(zhuǎn)化成內(nèi)碼，至于計(jì)算機(jī)怎樣把輸入的漢字圖像識(shí)別出

4、來(lái)，就是漢字識(shí)別技術(shù)。從學(xué)科上來(lái)說(shuō)，漢字識(shí)別屬于模式識(shí)別與圖像處理的范疇，還涉及到人工智能、形式語(yǔ)言與自動(dòng)機(jī)、統(tǒng)計(jì)決策理論、模糊數(shù)學(xué)、信息論、語(yǔ)言文字學(xué)、計(jì)算機(jī)科學(xué)等學(xué)科，是一門(mén)綜合性技術(shù)科學(xué)。由于漢字?jǐn)?shù)量多，結(jié)構(gòu)復(fù)雜，相似字很多，所以漢字識(shí)別是難度較大的文字識(shí)別。近年來(lái)，隨著模式識(shí)別技術(shù)及計(jì)算機(jī)科學(xué)技術(shù)的發(fā)展，漢字識(shí)別也取的了極大的進(jìn)展。漢字識(shí)別的基本過(guò)程包括漢字輸入、預(yù)處理、特征提取、分類(lèi)識(shí)別、識(shí)別后處理五個(gè)大步驟。根據(jù)識(shí)別對(duì)象的不同，漢字識(shí)別分為手寫(xiě)體漢字識(shí)別和印刷體漢字識(shí)別兩種，前者因?yàn)楦魅说臅?shū)寫(xiě)習(xí)慣不同和手寫(xiě)漢字變化太大而顯的比較困難，后者要相對(duì)容易一些。在手寫(xiě)漢字識(shí)別這個(gè)范疇

5、中，根據(jù)漢字輸入方式不同又可以分為聯(lián)機(jī)手寫(xiě)漢字識(shí)別和脫機(jī)手寫(xiě)漢字識(shí)別。通俗地講，聯(lián)機(jī)手寫(xiě)就是在書(shū)寫(xiě)的同時(shí)，根據(jù)筆劃順序等特征對(duì)漢字進(jìn)行識(shí)別，該技術(shù)較多地應(yīng)用在漢字輸入設(shè)備如手機(jī)的手寫(xiě)板中。與聯(lián)機(jī)手寫(xiě)漢字識(shí)別不同，脫機(jī)手寫(xiě)漢字識(shí)別主要是多一副漢字圖像進(jìn)行分類(lèi)識(shí)別，多用于簽名識(shí)別，筆跡鑒別等領(lǐng)域。漢字識(shí)別應(yīng)用在以下幾個(gè)方面：使?jié)h字高速自動(dòng)地輸入計(jì)算機(jī)，以徹底解決漢字信息處理系統(tǒng)中手動(dòng)輸入效率底這個(gè)關(guān)鍵重慶大學(xué)本科學(xué)生畢業(yè)論文緒論辦公自動(dòng)化和下一代印刷技術(shù)的文字信息自動(dòng)輸入。做為新一代計(jì)算機(jī)智能接口的重要組成部分重慶大學(xué)本科學(xué)生畢業(yè)設(shè)計(jì)（論文）緒論重慶大學(xué)本科學(xué)生畢業(yè)設(shè)計(jì)（論文）緒論 PAG

6、E 27漢字文本高倍壓縮存儲(chǔ)和傳輸。下面講述漢字識(shí)別的研究現(xiàn)狀和發(fā)展前景。漢字識(shí)別研究始于20世紀(jì)60年代，當(dāng)時(shí)大多數(shù)文字識(shí)別研究者都集中在英文印刷體文本識(shí)別，美國(guó)科學(xué)家Casey和Nagy率先進(jìn)行印刷體漢字識(shí)別的研究工作，并于1966年發(fā)表了第一篇有關(guān)漢字識(shí)別的論文，隨后在這個(gè)領(lǐng)域有了大量的研究，這些嚴(yán)重主要是在亞洲進(jìn)行的，如日本、中國(guó)大陸、臺(tái)灣等地。我國(guó)在70年代末開(kāi)始了漢字識(shí)別的研究工作，到現(xiàn)在關(guān)于這方面的研究非?；钴S，有些產(chǎn)品已經(jīng)進(jìn)入市場(chǎng)。眼下印刷體漢字識(shí)別系統(tǒng)對(duì)實(shí)際文本的識(shí)別率一般達(dá)94%98%，識(shí)別速度為510字每秒；聯(lián)機(jī)手寫(xiě)漢字識(shí)別系統(tǒng)的識(shí)別率最高可大95%；脫機(jī)非特定手寫(xiě)漢

7、字識(shí)別率最高達(dá)85%，速度為1字每秒；脫機(jī)特定手寫(xiě)漢字的識(shí)別率85%93%，速度35字每秒；其中前兩個(gè)已經(jīng)達(dá)到實(shí)用化要求，臺(tái)灣的研究水平與大陸相當(dāng)，日本的研究水平比大陸稍高。從總體來(lái)說(shuō)，漢字識(shí)別技術(shù)的廣泛應(yīng)用將產(chǎn)生一個(gè)新的產(chǎn)業(yè)，而這個(gè)產(chǎn)業(yè)將覆蓋社會(huì)生活的各個(gè)方面，從筆式電腦到辦公自動(dòng)化設(shè)備，從郵政信函的自動(dòng)分揀到各種表格的自動(dòng)錄入，從證件識(shí)別到證券識(shí)別，從自動(dòng)閱讀機(jī)到智能視覺(jué)系統(tǒng)。而與漢字識(shí)別密切相關(guān)的筆跡鑒別設(shè)備將會(huì)廣泛應(yīng)用于銀行、保安等部門(mén)。漢字識(shí)別最直接的用途是漢字輸入。針對(duì)我國(guó)漢字錄入的現(xiàn)狀，漢字識(shí)別技術(shù)能很好地滿(mǎn)足不同層次的單位、個(gè)人需要。對(duì)有大量漢字錄入任務(wù)的單位如報(bào)社、出版社

8、、印刷廠等，一方面可以大幅度提高漢字輸入的效率，建設(shè)漢字輸入時(shí)間，另一方面還能縮小龐大的錄入員隊(duì)伍及相應(yīng)的設(shè)備。漢字識(shí)別的另一大用途是在筆式電腦中。筆式電腦沒(méi)有鍵盤(pán)，用筆進(jìn)行輸入和操作。該設(shè)備的一個(gè)技術(shù)關(guān)鍵是聯(lián)機(jī)手寫(xiě)字符識(shí)別技術(shù)。筆式電腦是計(jì)算機(jī)發(fā)展的一個(gè)重要趨勢(shì)。目前已經(jīng)有多中英文筆式電腦產(chǎn)品。筆式電腦的市場(chǎng)前景很大，據(jù)IDG預(yù)測(cè)，到1966年，英文筆式電腦的全球銷(xiāo)售量將達(dá)到500萬(wàn)臺(tái)。中文筆式電腦的市場(chǎng)前景同樣也是十分巨大的，所以漢字識(shí)別技術(shù)的研究十分重要。郵政信函的分揀也是漢字識(shí)別技術(shù)應(yīng)用前景看好的領(lǐng)域，目前我國(guó)使用的郵政信函分揀機(jī)是依據(jù)郵政編碼的，也就是手寫(xiě)數(shù)字識(shí)別。但是單純基于郵

9、政編碼識(shí)別的正確分揀率只能達(dá)到30%左右，所以手寫(xiě)漢字識(shí)別技術(shù)將使郵政信函的分揀更加完善。表格信息自動(dòng)錄入也是漢字識(shí)別技術(shù)大有可為的方向。表格信息的自動(dòng)錄入需要印刷體漢字識(shí)別技術(shù)、脫機(jī)手寫(xiě)漢字識(shí)別技術(shù)及手寫(xiě)數(shù)字識(shí)別技術(shù)。同樣地漢字識(shí)別技術(shù)還將應(yīng)用于證件識(shí)別和證券識(shí)別、智能計(jì)算機(jī)的智能接口和視覺(jué)系統(tǒng)、筆跡鑒別等，由于篇幅有限，不在細(xì)述。在本文的第一部分我們將介紹漢字識(shí)別的一般算法和原理，以便對(duì)漢字識(shí)別實(shí)現(xiàn)算法形成初步認(rèn)識(shí)；第二部分主要講述現(xiàn)在用的比較多的兩個(gè)算法以及將它們改進(jìn)結(jié)合形成的新的方法，第三和第四部分將對(duì)算法模擬工具（vc）和主要程序代碼做必要講解，第五部分為對(duì)結(jié)果的分析。重慶大學(xué)

10、本科學(xué)生畢業(yè)設(shè)計(jì)（論文）漢字識(shí)別的原理及常用算法1 漢字識(shí)別的原理及常用算法1.1 漢字識(shí)別的原理和其他模式識(shí)別一樣，漢字識(shí)別的基本思想也是匹配判別。抽取代表未知漢字模式本質(zhì)的表達(dá)形式（如各種特征）和預(yù)先存儲(chǔ)在機(jī)器中的標(biāo)準(zhǔn)漢字模式表達(dá)形式的集合（稱(chēng)為辭典）逐一匹配，用一定的準(zhǔn)則進(jìn)行判別，并在機(jī)器存儲(chǔ)的標(biāo)準(zhǔn)漢字模式表達(dá)形式的集合中，找出最接近輸入文字的模式表達(dá)形式，該表達(dá)形式對(duì)應(yīng)的字就是識(shí)別結(jié)果。漢字識(shí)別的原理框圖見(jiàn)圖1.1。光電掃描紙面文字產(chǎn)生模擬電信號(hào)，經(jīng)模數(shù)轉(zhuǎn)換成為帶灰度值的數(shù)字信號(hào)送至預(yù)處理環(huán)節(jié)。預(yù)處理的內(nèi)容和要求取決于識(shí)別方法。一般包括行、字切分，二值化，細(xì)化和抽取輪廓，平滑，規(guī)

11、范化等。預(yù)處理后，漢字模式成為規(guī)范化的二值數(shù)字點(diǎn)陣，其中1代表筆畫(huà)，0代表文字的空白背景。預(yù)處理后即可對(duì)文字圖像提取特征（一種類(lèi)型的表達(dá)式），和存儲(chǔ)在辭典里的已知標(biāo)準(zhǔn)漢字表達(dá)形式進(jìn)行匹配判別，就可識(shí)別出輸入的未知漢字。圖1.1 漢字識(shí)別原理框圖在上圖中中間橫線(xiàn)以下是系統(tǒng)的學(xué)習(xí)部分，學(xué)習(xí)是根據(jù)多個(gè)未知子樣（一個(gè)文字的不同字樣稱(chēng)為子樣）提取出的模式表達(dá)形式，自動(dòng)構(gòu)成或修改、充實(shí)辭典，不斷提高系統(tǒng)的識(shí)別率。漢字的模式表達(dá)式和相應(yīng)的辭典形式有多種，每一種形式可以選擇不同的特征（或基元），每種特征又有不同的提取方法。這些造成了判別方法和準(zhǔn)則以及所用的數(shù)學(xué)工具的不同，形成了種類(lèi)繁多、形式各異的漢字識(shí)

12、別方法。不過(guò)，所有這些方法可以歸結(jié)為兩類(lèi)一般的處理方法統(tǒng)計(jì)決策方法和句法結(jié)構(gòu)方法。最近還有人提出用人工智能方法識(shí)別漢字。接下來(lái)的兩節(jié)中將對(duì)上面來(lái)種常用算法分別闡述。必須指出的是，漢字識(shí)別有聯(lián)機(jī)識(shí)別和脫機(jī)識(shí)別之分。在聯(lián)機(jī)的情況下，漢字結(jié)構(gòu)的輸入順序可以做為重要特征來(lái)識(shí)別漢字，在第二章將詳細(xì)介紹這種方法及其實(shí)現(xiàn)。1.2 基于統(tǒng)計(jì)決策方法的漢字識(shí)別漢字識(shí)別的統(tǒng)計(jì)決策方法提取字符圖像的特征形成特征矢量，特征矢量并不直接表示筆跡，而是表示字符圖像的特性。統(tǒng)計(jì)字符識(shí)別方法根據(jù)訓(xùn)練樣本集估計(jì)特征矢量的分布，具有優(yōu)異的抗干擾能力，因此在漢字識(shí)別中得到廣泛應(yīng)用該方法需要一個(gè)表達(dá)樣本分布的函數(shù)，多變量正態(tài)分布概率

13、密度函數(shù)通常被認(rèn)為是樣本分布的近似函數(shù)漢字的統(tǒng)計(jì)特征種類(lèi)很多,比如筆劃密度特征,漢字粗外圍特征、漢字網(wǎng)格特征等。下面簡(jiǎn)單介紹漢字粗外圍特征的提取。漢字粗外圍特征的提取漢字輪廓結(jié)構(gòu)包含了漢字特征的重要信息, 粗外圍特征(即從漢字四邊向中間掃描, 以第1 次碰到筆劃象素所經(jīng)過(guò)的行程值作為特征) 分類(lèi)就是抽取漢字四周輪廓信息作為特征來(lái)進(jìn)行分類(lèi)的, 它被認(rèn)為是印刷體漢字識(shí)別方面比較有效的粗分類(lèi)方法。也可以采用一種改進(jìn)的粗外圍特征來(lái)進(jìn)行粗分類(lèi)，其基本思路是對(duì)原圖進(jìn)行變換, 以使內(nèi)部結(jié)構(gòu)受外圍信息影響, 以圖1.2為例，具體實(shí)現(xiàn)過(guò)程為: 先從文字四邊框?qū)ξ淖诌M(jìn)行掃描, 然后把原文字背景部分中, 從所

14、有方向都不能連續(xù)掃描到的區(qū)域設(shè)為筆劃部分, 這樣就得到所謂的粗外圍圖. 由其實(shí)現(xiàn)過(guò)程可以看出, 原文字內(nèi)部區(qū)域的特征也受輪廓影響, 如圖1.2 (b) 所示, 其中“件”字內(nèi)部一小塊區(qū)域原來(lái)是背景(黑象素) , 但因?yàn)檩喞挠绊? 變換后成為筆劃區(qū)域(白象素).特征的計(jì)算方法為: 首先將3636 點(diǎn)陣的粗外圍圖劃分為44= 16 個(gè)網(wǎng)格(每個(gè)網(wǎng)格包括99pixel) , 再統(tǒng)計(jì)其中的白象素?cái)?shù), 以構(gòu)成16 維粗外圍特征. 實(shí)際上, 雖然特征實(shí)現(xiàn)時(shí)仍然使用了粗外圍特征, 但原始粗外圍特征僅考慮漢字的輪廓信息, 而改進(jìn)方法則在利用漢字內(nèi)部結(jié)構(gòu)信息的基礎(chǔ)上, 又加強(qiáng)了粗外圍輪廓信息在特征量中的比重.

15、圖1.2 漢字圖像粗外圍圖基于結(jié)構(gòu)特征方法的漢字識(shí)別目前,文字結(jié)構(gòu)特征的提取有兩種方法,第一種方法是基于像素的字符輪廓獲取方法,這種方法沒(méi)有考慮全局信息和結(jié)構(gòu)信息,因而結(jié)果中存在諸如毛邊和交叉點(diǎn)變形等問(wèn)題. 為此,研究人員提出了其它一些特征提取方法 ,但這使得基于像素的字符識(shí)別更加復(fù)雜而不穩(wěn)定。第二種方法是用一組線(xiàn)段及它們相互間的關(guān)系來(lái)描述文字并進(jìn)行識(shí)別,但是這些方法步驟繁多、計(jì)算復(fù)雜,難以實(shí)現(xiàn),而且易受邊界噪聲和交叉點(diǎn)的影響。無(wú)約束手寫(xiě)漢字?jǐn)?shù)量龐大、結(jié)構(gòu)復(fù)雜、形近字多而且無(wú)規(guī)則變形嚴(yán)重,所以各種不同字體手寫(xiě)漢字的識(shí)別是字符識(shí)別領(lǐng)域中一個(gè)極為困難的問(wèn)題,被認(rèn)為是該領(lǐng)域最具挑戰(zhàn)性的研究課題和最

16、高目標(biāo)之一 . 在已有的方法中,有些只能識(shí)別相對(duì)簡(jiǎn)單的手寫(xiě)數(shù)字,有些雖然可以識(shí)別少量的手寫(xiě)漢字 ,但它們都無(wú)法從根本上克服誤識(shí)別率高這一不足。貝葉斯分類(lèi)器等傳統(tǒng)的模式識(shí)別方法因先驗(yàn)知識(shí)不足而無(wú)法取得理想的效果,語(yǔ)法推理法和繼電器法等新的識(shí)別方法因編碼過(guò)程復(fù)雜、計(jì)算量大或可識(shí)別的文字?jǐn)?shù)量有限等原因而難以實(shí)現(xiàn) 。神經(jīng)網(wǎng)絡(luò)具有很強(qiáng)的知識(shí)獲取能力和分類(lèi)能力,有很高的容錯(cuò)性和魯棒性,可以在特征空間內(nèi)形成任意復(fù)雜的決策區(qū)域,它所具有的自組織、自學(xué)習(xí)功能大大放寬了傳統(tǒng)模式識(shí)別方法所受的約束條件,為漢字識(shí)別提供了新的有力工具。1.3.1 文字輸入預(yù)處理及特征提取因?yàn)槭謱?xiě)漢字大小不一,所以在提取結(jié)構(gòu)特征和進(jìn)

17、行識(shí)別時(shí)首先需要對(duì)其進(jìn)行歸一化處理。目前,大小歸一化有兩種方法,一是在水平和垂直方向都進(jìn)行歸一化;二是僅在一個(gè)方向歸一化,同時(shí)保持輸入漢字的形狀比例。前者在減小不同人的手寫(xiě)漢字差異方面較為有效,但可能使?jié)h字在某一方向上發(fā)生失真。這里根據(jù)手寫(xiě)漢字特征提取和識(shí)別的需要,對(duì)不同的輸入手寫(xiě)漢字采用不同的歸一化策略. 設(shè)原始手寫(xiě)漢字為Y 行*X 列,歸一化后為列, 則: (1) 如果X 且Y ,文字只做平移操作; (2) 如果X且Y ,則將文字寬度歸一化為,高度按比例歸一化; ( 3) 如果X ,則將文字高度歸一化為,寬度按比例歸一化; (4) 如果X 且Y ,則將文字歸一化為行列?，F(xiàn)在來(lái)討論歸一

18、化手寫(xiě)漢字的結(jié)構(gòu)特征提取問(wèn)題。該方法選擇的結(jié)構(gòu)特征包括:特征點(diǎn)、線(xiàn)段、基本筆畫(huà)以及筆畫(huà)方向圖等?；竟P畫(huà)定義為長(zhǎng)度有限的直線(xiàn),而筆畫(huà)方向圖描述了字符幾何結(jié)構(gòu)特征,其提取是以筆畫(huà)方向?yàn)榛A(chǔ)的?？紤]了沿逆時(shí)針與水平方向夾角分別為0,45,90和135的四個(gè)方向,并用1 ,2 ,3 ,4 以及- 1 , - 2 , - 3 , - 4 分別標(biāo)記這四個(gè)方向及其反方向. 令為像素的灰度級(jí),對(duì)于黑色像素 ,對(duì)于白色像素,字符是由黑色像素組成的圖像。一個(gè)黑色像素的方向碼是根據(jù)沿四個(gè)方向經(jīng)過(guò)該像素的筆畫(huà)長(zhǎng)度而確定的。該方法定義向筆畫(huà)為沿方向的一系列連續(xù)黑色像素( = 1 ,2 ,3 ,4) ,將經(jīng)過(guò)黑色

19、像素的最長(zhǎng)向筆畫(huà)的方向定義為該點(diǎn)的方向碼。具有相同方向碼的相連黑色像素構(gòu)成一個(gè)像塊,且稱(chēng)方向碼為的像塊為向像塊。如果某個(gè)像塊與其它像塊交叉或相接,則需要將該塊進(jìn)而分解為筆畫(huà)段和交叉段。下面來(lái)提取結(jié)構(gòu)特征量。首先需要提取的是輪廓段,它是從筆畫(huà)段中提取出來(lái)的，對(duì)于方向代碼為的筆畫(huà)段,它可以分解成一組連續(xù)的向筆畫(huà),提取輪廓段之前先確定該組兩端的向筆畫(huà),將它們用一條直線(xiàn)連接起來(lái),形成筆畫(huà)段的輪廓. 雖然根據(jù)其方向碼可將輪廓段分為四種,但輪廓段可能是任意方向. 如果某個(gè)輪廓段的長(zhǎng)度小于或等于一個(gè)允許長(zhǎng)度,就稱(chēng)其為短輪廓段. 如果短輪廓段的兩端都不與交叉點(diǎn)相接,即為一個(gè)孤立輪廓段,則認(rèn)為該短輪廓段是

20、噪聲. 如果只有一段與交叉點(diǎn)相接,這樣的短輪廓段稱(chēng)為毛邊.該算法根據(jù)這樣的邏輯去除了所提取的輪廓段中的噪聲和毛邊現(xiàn)象。接下來(lái)提取交叉點(diǎn)和輪廓。假設(shè)交叉段只包括一個(gè)交叉點(diǎn),當(dāng)程序發(fā)現(xiàn)一個(gè)交叉段后,就首先計(jì)算交叉度和交叉點(diǎn)的位置,然后延長(zhǎng)所有與該交叉段相接的輪廓段到該交叉點(diǎn)處,從而形成完整的字符輪廓。假設(shè)代表方向代碼同為且與同一個(gè)交叉段相接的輪廓段的個(gè)數(shù),令為該交叉段的交叉度,則有。為了確定交叉點(diǎn)的位置,本文按照方向代碼考慮了全部四種不同的情況:(1) ,即沒(méi)有輪廓段。(2) ,只有一個(gè)輪廓段,確定該輪廓段方向上與白色像素相鄰接的黑色像素為交叉點(diǎn)。(3) 且至少有兩個(gè)輪廓段,而且一個(gè)方向上

21、最多只有一個(gè)輪廓段。選擇任意兩個(gè)輪廓段并沿各自的方向?qū)⑵溲娱L(zhǎng),延長(zhǎng)線(xiàn)的交點(diǎn)即為交叉點(diǎn)。(4) ,至少有兩個(gè)具有相同方向代碼的輪廓段. 如果有一對(duì)延伸方向相反的向輪廓段,則標(biāo)識(shí)量置為1 ,相反則為0.此時(shí)確定交叉點(diǎn)時(shí)需要分三種情況討論:(a) ,不存在延伸方向相反的一對(duì)輪廓段. 如果有兩個(gè)輪廓段方向碼不相同,則將其沿各自的方向延長(zhǎng)后必然會(huì)形成一個(gè)交叉點(diǎn). 而如果所有輪廓段的方向碼都相同,則將其中一段按估計(jì)的筆畫(huà)寬度的某一倍數(shù)延長(zhǎng)后即得到所期望的交叉點(diǎn)。(b) ,只存在一對(duì)延伸方向相反的輪廓段. 用一段直線(xiàn)將它們連接起來(lái),取該直線(xiàn)的中點(diǎn)作為交叉點(diǎn)。(c) ,至少存在兩個(gè)延伸方向相反的輪廓段. 任

22、選兩對(duì)輪廓段,將每對(duì)用一條直線(xiàn)相連,兩條直線(xiàn)的交點(diǎn)便是所期望的交叉點(diǎn)。提取出一個(gè)交叉點(diǎn)后,將每個(gè)在該交叉點(diǎn)相接的輪廓段與該交叉點(diǎn)連接起來(lái),這樣把所有輪廓段和交叉點(diǎn)都連接起來(lái)便構(gòu)成了字符輪廓,即瘦化字符。在提取出交叉點(diǎn)和輪廓段(即點(diǎn)特征和線(xiàn)段特征) 后,就可根據(jù)這兩種信息進(jìn)而提取基本筆畫(huà),根據(jù)輪廓段信息還可以提取出筆畫(huà)方向圖. 該處用一種簡(jiǎn)單的輪廓段合并策略將輪廓段合并成基本筆畫(huà). 依次檢查各個(gè)交叉點(diǎn)處所有相接的輪廓段中是否有兩個(gè)輪廓段共線(xiàn),如果有就將它們合并成一個(gè)新的輪廓段,即基本筆畫(huà). 記1 和2 分別為兩個(gè)輪廓段的方向角,令= min (| 1 - 2 | ,360- | 1- 2 | )

23、為兩段的夾角,若155180,則允許將兩段合并. 然后以合并后的輪廓段取代原來(lái)的兩個(gè)輪廓段,且更新輪廓段和交叉點(diǎn)的端點(diǎn)標(biāo)記,同時(shí)選擇與新輪廓段方向最接近的方向代碼作為新的方向代碼。當(dāng)檢查完所有交叉點(diǎn)后,全部基本筆畫(huà)便最終確定了。最后根據(jù)各輪廓段的方向代碼來(lái)繪制筆畫(huà)方向圖. 首先將字符沿水平和垂直方向分成個(gè)單元,每個(gè)單元為,其中。選擇每個(gè)單元中像素?cái)?shù)目最多的輪廓段的方向代碼為該單元方向碼。如果某單元沒(méi)有輪廓段經(jīng)過(guò),則其方向碼置空() ,所有單元的方向代碼一起就構(gòu)成了筆畫(huà)方向圖.重慶大學(xué)本科學(xué)生畢業(yè)設(shè)計(jì)（論文）基于多特征提取的識(shí)別算法2 基于多特征提取的識(shí)別算法現(xiàn)在對(duì)于聯(lián)機(jī)手寫(xiě)體的漢字識(shí)別算法

24、很多，在本章第一節(jié)，我們先對(duì)這些算法做初步的分析認(rèn)識(shí)，然后在其基礎(chǔ)上導(dǎo)出多特征提取的算法，而用于實(shí)現(xiàn)這些算法的代碼將在下章給出。2.1 手寫(xiě)漢字識(shí)別的現(xiàn)行算法分析2.1.1 以筆劃序列為特征的算法該算法將漢字的筆畫(huà)分為若干類(lèi)，然后根據(jù)各類(lèi)筆畫(huà)的輸入順序做為一個(gè)漢字的特征并存入字庫(kù)，當(dāng)漢字聯(lián)機(jī)輸入時(shí)，得到該文字圖像的筆畫(huà)序列特征并和字庫(kù)中的特征進(jìn)行比較，若有一組特征與該圖像特征的差別很小，即可認(rèn)為是同一字。下面我們先介紹筆畫(huà)的分類(lèi)方法，然后在分別介紹圖像的預(yù)處理和距離定義。在介紹筆劃的劃分前，我們先把二維平面做一個(gè)劃分，如下圖所示：圖2.1 二維平面的劃分在上圖基礎(chǔ)上，筆劃通常劃分為以下幾種：

25、橫，用數(shù)字1標(biāo)識(shí)，方向?yàn)?；豎，用數(shù)字2標(biāo)識(shí)，方向?yàn)?；撇，用數(shù)字3標(biāo)識(shí)，方向?yàn)?；捺，用數(shù)字4標(biāo)識(shí)，方向?yàn)?；折，用數(shù)字5標(biāo)識(shí)，有至少兩個(gè)方向；在有些算法中，又把折細(xì)分為順時(shí)針?lè)较蛘?、逆時(shí)針?lè)较蛘酆突旌戏较蛘廴N，在此不再細(xì)述。將筆劃分類(lèi)以后，我們就要面臨一個(gè)問(wèn)題，如何從文字圖像的讀入過(guò)程中得到方向序列，自然地我們會(huì)想到斜率，即得到一個(gè)筆劃中每一相素點(diǎn)的斜率，然后依照上圖得到該筆劃的方向，但嚴(yán)格來(lái)講，用斜率表示并不明智，比如方向3和7的斜率根本不存在。得到一個(gè)相素點(diǎn)方向的可行方法是：用該相素后面第二個(gè)點(diǎn)的坐標(biāo)與該相素坐標(biāo)做比較，如下：若pointa+2.y=pointa.y且pointa+2

26、.xpointa.x,方向1。若pointa+2.y=pointa.y且pointa+2.xpointa.y,方向3。若pointa+2.x=pointa.x且pointa+2.ypointa.x且pointa+2.ypointa.y,方向2。若pointa+2.xpointa.x且pointa+2.ypointa.y,方向8。若pointa+2.xpointa.y,方向4。若pointa+2.xpointa.x且pointa+2.ypointa.y,方向6。為得到一筆劃方向，在得到該筆劃內(nèi)各相素的方向后，我們還要做一些去噪處理。比如為消除下筆和收筆時(shí)的抖動(dòng)誤差而去除兩邊若干相素點(diǎn)、為消除書(shū)

27、寫(xiě)時(shí)的歪曲而除去若干奇異點(diǎn)等。得到筆劃方向序列后，就必須為以后的匹配定義距離，即定義何謂相似的標(biāo)準(zhǔn)。通常做以下定義：距離d= 2.2其中m為輸入文字圖像的筆劃數(shù)，為輸入文字圖像第筆testi的筆劃與字庫(kù)中某組待比較特征的第筆的相似度，經(jīng)過(guò)大量的調(diào)查分析，一般取值如下表：橫豎撇捺折橫100.20.60.25豎010.60.60.1撇0.20.6100.1捺0.60.6010折0.250.10.101 表2.3 筆劃的相似度表該算法的一般步驟如下：從輸入端得到輸入點(diǎn)序列。由輸入點(diǎn)序列去噪、計(jì)算得到方向碼序列。將方向碼序列去噪處理得到筆畫(huà)碼序列。根據(jù)筆畫(huà)碼序列參照表2.3得到距離d，匹配判別識(shí)別

28、漢字。根據(jù)此定義得到距離后與事先設(shè)定的闕值dis進(jìn)行比較，若ddis 可認(rèn)識(shí)兩字相同，即對(duì)手寫(xiě)漢字圖像做了識(shí)別。這種識(shí)別算法原理簡(jiǎn)單且易于實(shí)現(xiàn)，但也有其不足之處，例如：漢字“六”和“文”的筆劃序列都是“4134”，所以無(wú)法正確識(shí)別。2.1.2 基于統(tǒng)計(jì)特征的漢字識(shí)別算法統(tǒng)計(jì)特征即漢字圖像的相素分布特征，為簡(jiǎn)化起見(jiàn)，一般把漢字圖像轉(zhuǎn)換成二值圖像再做處理，通常把一副漢字圖像分成4*4=16或3*3=9個(gè)區(qū)，統(tǒng)計(jì)每個(gè)區(qū)的黑色相素點(diǎn)數(shù)，然后與字庫(kù)里已有特征做比較，將距離最小的做為匹配字符。這種算法中的距離也有多種定義，通常采用兩種方法，方差距離和絕對(duì)值距離，下面以絕對(duì)值距離為例，講述一下該方法的具體

29、應(yīng)用。下圖是一個(gè)漢字圖像并對(duì)其做了4*4劃分，其中各區(qū)的特征值如圖所示：圖2.4 漢字圖像的統(tǒng)計(jì)特征圖現(xiàn)在把其特征表示為一個(gè)數(shù)組即test.p16，若字庫(kù)中第組特征為tezi.p16,則待識(shí)別漢字圖像與字庫(kù)里第個(gè)字的距離為： 2.5為了便于識(shí)別，需要定義闕值dis,若ddis，即可認(rèn)為輸入漢字為字庫(kù)中第i個(gè)字符。至此該算法的步驟可以歸納如下：對(duì)輸入圖形進(jìn)行4*4分區(qū)，統(tǒng)計(jì)每區(qū)黑色相素點(diǎn)數(shù)。將每區(qū)黑色相素點(diǎn)數(shù)除以圖像總黑相素點(diǎn)數(shù)，的到pi，i=1，29。由2.5式得到距離d，然后匹配判別。該方法形象直觀，也很容易實(shí)現(xiàn)，但其弊端很多，表現(xiàn)在以下幾個(gè)方面，（1）這種方法只局限于一種字體且多用于印

30、刷體漢字的識(shí)別，手寫(xiě)體漢字由于字形變化、歪曲教大，只使用該方法收效甚微。（2）由于漢字圖像大小不一，在讀如圖像后需要對(duì)其做規(guī)范化預(yù)處理。（3）在漢字中存在很多字形十分相似的字，如“?！焙汀凹摇?，“狼”和“狠”等，基于統(tǒng)計(jì)的識(shí)別算法對(duì)這些字不能區(qū)分。（4）由于直接對(duì)圖像進(jìn)行分析，所以該方法主要用于脫機(jī)漢字識(shí)別。2.2 現(xiàn)行算法的結(jié)合和改進(jìn) 上節(jié)我們分別講述了基因筆劃特征和基于基于統(tǒng)計(jì)特征的的漢字識(shí)別算法，也講了兩種方法的優(yōu)缺點(diǎn)，下面我面介紹怎么將兩種算法結(jié)合并改進(jìn)以進(jìn)行聯(lián)機(jī)手寫(xiě)漢字識(shí)別。漢字是一種結(jié)構(gòu)文字，即它的輸入有一定的順序，每一筆也有一定的結(jié)構(gòu)，所以在進(jìn)行聯(lián)機(jī)手寫(xiě)漢字識(shí)別時(shí)，筆劃信

31、息一定要充分利用起來(lái)，同時(shí)我們知道，單純的筆劃特征不足以區(qū)分所有漢字，現(xiàn)在我們考慮將輸入漢字圖像分別從筆劃和相素角度做兩次分類(lèi)識(shí)別，以下分別稱(chēng)為粗分類(lèi)和細(xì)分類(lèi)。在粗分類(lèi)階段，我們根據(jù)2.1.1小節(jié)中的算法先把漢字定位于小范圍內(nèi)，即根據(jù)筆劃數(shù)和筆劃順序從字庫(kù)選出幾個(gè)可能的漢字，至于怎樣從這幾個(gè)漢字中找出正確的對(duì)應(yīng)字符就由細(xì)分類(lèi)部分完成。在細(xì)分類(lèi)階段，可以根據(jù)2.1.2小節(jié)中的算法對(duì)粗分類(lèi)后的若干漢字進(jìn)行識(shí)別，由于范圍已經(jīng)很小，所以該步驟不需要?jiǎng)澐痔?xì)，通常情況下做3*3分區(qū)即可取得理想結(jié)果。注意，正如2.1.2小節(jié)中所說(shuō)，用該方法要對(duì)漢字圖像做規(guī)范化處理，我們可以稍做改進(jìn)，把每區(qū)的黑色相素點(diǎn)

32、數(shù)改為次數(shù)與漢字總相素點(diǎn)數(shù)的比值，這樣就可以排除漢字大小不一的干擾。在以上兩個(gè)階段，闕值的選取都十分重要，闕值太大則無(wú)法選出具體的漢字，闕值太小又可能由于書(shū)寫(xiě)不規(guī)范而無(wú)法識(shí)別，具體值可以根據(jù)多次實(shí)踐、觀察結(jié)果分析得出，同樣處理的還有2.1.1小節(jié)的筆劃相似度表，若結(jié)果不理想可以適當(dāng)修改該表。至此我們已經(jīng)很詳細(xì)的講述了要采取聯(lián)機(jī)手寫(xiě)漢字的識(shí)別算法，但不管什么算法都需要一種計(jì)算機(jī)語(yǔ)言去實(shí)現(xiàn)（通常使用高級(jí)語(yǔ)言），在下章，我們將給出各步驟實(shí)現(xiàn)的vc 代碼，以便分析結(jié)果。附注：在下圖中給出了基于多特征提取的聯(lián)機(jī)手寫(xiě)漢字識(shí)別算法的流程圖，借助此圖可以更清晰地理解該算法。圖2.6 漢字識(shí)別算法流程

33、圖重慶大學(xué)本科學(xué)生畢業(yè)設(shè)計(jì)（論文）識(shí)別算法對(duì)應(yīng)的vc代碼3 識(shí)別算法對(duì)應(yīng)的vc代碼在本章中，我們將介紹文字預(yù)處理、識(shí)別、識(shí)別后處理的代碼，語(yǔ)句一般大都簡(jiǎn)單，有難度的語(yǔ)句后面都有文章注釋?zhuān)栽谖闹胁辉谠敿?xì)講解，每一程序都在vc平臺(tái)中調(diào)試過(guò)并成功運(yùn)行，如不能允許請(qǐng)檢查代碼是否抄錯(cuò)。因?yàn)槠?，用?hù)界面、鼠標(biāo)手寫(xiě)筆模擬等程序代碼不再給出，有需要可自行查閱參考數(shù)目。首先介紹一下程序?qū)崿F(xiàn)所需的數(shù)據(jù)結(jié)構(gòu)：int num,Time;int xmax,ymax,xmin,ymin;/隨時(shí)記錄最大x,y坐標(biāo)int mouseDown;/鼠標(biāo)按下標(biāo)記int fxm15300;/方向碼int zong;/字

34、庫(kù)中的字符總數(shù)struct int x; int y;store15300;/一筆劃點(diǎn)序列/備份的序列struct int x; int y;storeback15300;struct char zifu2;/代表字符 int total;/總的筆劃數(shù) int bh15;/每個(gè)筆劃的點(diǎn)數(shù) double p9;/每區(qū)相素比重tez4000;struct char zifu2; int total;/筆畫(huà)數(shù) int bh15;/筆畫(huà)碼序列 double p9;/每區(qū)相素比重test;/意義同上，為測(cè)試點(diǎn)的結(jié)構(gòu) struct fangxtz int b8;/每方向點(diǎn)數(shù) int total;/共有方向

35、數(shù) int totaldian;/共有點(diǎn)數(shù)fxtz15;3.1 輸入預(yù)處理/數(shù)據(jù)去噪、處理函數(shù)，得到筆劃碼序列void CRecogDlg:DealDat()int i,j,k;for(i=0;i15;i+) /得到方向序列碼fxm15300,已驗(yàn)證，正確for(j=0;(jstoreij.x)fxmij=1;else if(storeij+2.xstoreij.y)fxmij=3;else if(storeij+2.ystoreij.y)if(storeij+2.xstoreij.x)fxmij=2;else if(storeij+2.xstoreij.x)fxmij=4;if(storei

36、j+2.ystoreij.x)fxmij=8;else if(storeij+2.xstoreij.x)fxmij=6;/去除噪聲點(diǎn)for(i=0;i15;i+)for(j=0;j288;j+)fxmij=fxmij+2;for(i=0;i15;i+)for(j=3;(j300)&(fxmij!=0);j+)if(fxmij-1!=fxmij)&(fxmij+1!=fxmij)for(k=j;fxmik!=0;k+)fxmik=fxmik+1;/得到方向特征for(i=0;i15;i+)for(j=0;(j300)&fxmij!=0;j+)fxtzi.totaldian+;for(k=1;k=

37、8;k+)if(fxmij=k)fxtzi.bk-1+;/去除噪聲方向點(diǎn)for(i=0;i15;i+)for(j=0;j8;j+)if(float(fxtzi.bj)/float(fxtzi.totaldian)0.3)fxtzi.bj=0;if(fxtzi.bj!=0)fxtzi.total+;/得到筆畫(huà)序列for(i=0;i1)test.bhi=5;/將圖像3*3分區(qū)，得到各區(qū)特征（具體見(jiàn)2.3節(jié)）void CRecogDlg:obtp()int x1,x2,y1,y2,x,y,i;int sum=0;int po9;char s20;HDC hdc=:GetDC(m_hWnd);x1=x

38、min+(xmax-xmin)/3;x2=x1+(xmax-xmin)/3;y1=ymin+(ymax-ymin)/3;y2=y1+(ymax-ymin)/3;for(i=0;i9;i+)poi=0;for(y=ymin;yy1;y+)for(x=xmin;xx1;x+)if(GetPixel(hdc,x,y)!=16777215)po0+;sum+;for(x=x1;xx2;x+)if(GetPixel(hdc,x,y)!=16777215)po1+;sum+;for(x=x2;xxmax;x+)if(GetPixel(hdc,x,y)!=16777215)po2+;sum+;for(y=y

39、1;yy2;y+)for(x=xmin;xx1;x+)if(GetPixel(hdc,x,y)!=16777215)po3+;sum+;for(x=x1;xx2;x+)if(GetPixel(hdc,x,y)!=16777215)po4+;sum+;for(x=x2;xxmax;x+)if(GetPixel(hdc,x,y)!=16777215)po5+;sum+;for(y=y2;yymax;y+)for(x=xmin;xx1;x+)if(GetPixel(hdc,x,y)!=16777215)po6+;sum+;for(x=x1;xx2;x+)if(GetPixel(hdc,x,y)!=1

40、6777215)po7+;sum+;for(x=x2;xxmax;x+)if(GetPixel(hdc,x,y)!=16777215)po8+;sum+;for(i=0;i9;i+)test.pi=float(poi)/float(sum);/sprintf(s,%d,%d,%lf,po0,sum,test.p0);/AfxMessageBox(s);3.2 識(shí)別算法/識(shí)別函數(shù)void CRecogDlg:OnRecogn() / TODO: Add your control notification handler code hereint i,j;int flagok=0;char s20

41、;double d1,d2;OnOpenMenu();DealDat();obtp();for(i=0;i=zong;i+)if(tezi.total=test.total)d1=0;for(j=0;jtest.total;j+)d1=d1+(1-dis(test.bhj,tezi.bhj);d1=d1/float(test.total); d2=0;for(j=0;j9;j+)d2=d2+fabs(test.pj-tezi.pj);if(d10.02) if(d2zong)AfxMessageBox(無(wú)法識(shí)別！書(shū)寫(xiě)不規(guī)范或字庫(kù)中無(wú)次字。);重慶大學(xué)本科學(xué)生畢業(yè)設(shè)計(jì)（論文）算法實(shí)現(xiàn)結(jié)果和分析

42、4 算法實(shí)現(xiàn)結(jié)果和分析4.1 模擬結(jié)果介紹 MFC支持界面操作，在vc平臺(tái)上建立一MFC AppWizard.exe文件，根據(jù)系統(tǒng)提示建立一對(duì)話(huà)框后拖入需要的控件（按扭、文本框等），在控件的消息響應(yīng)里寫(xiě)如響應(yīng)代碼，按此步驟程序運(yùn)行結(jié)果如下：圖 4.1 程序運(yùn)行界面其中中間的白色區(qū)域是模擬手寫(xiě)板，用鼠標(biāo)可以在里面進(jìn)行寫(xiě)字操作，右邊四個(gè)按扭的功能分別為：識(shí)別：對(duì)寫(xiě)如的漢字圖像進(jìn)行識(shí)別；清除：清除手寫(xiě)板中內(nèi)容以重新書(shū)寫(xiě)；學(xué)習(xí)：若想要往字庫(kù)中添加字符，可先寫(xiě)如要添加的漢字然后點(diǎn)擊此鍵；退出：結(jié)束軟件運(yùn)行；下面演示手寫(xiě)漢字的識(shí)別操作，首先寫(xiě)入漢字圖4.2 漢字的寫(xiě)入點(diǎn)擊“識(shí)別”按扭進(jìn)行識(shí)別

43、操作圖4.3 系統(tǒng)識(shí)別寫(xiě)入的漢字圖像漢字被成功識(shí)別。若字庫(kù)中沒(méi)有寫(xiě)如的漢字，可以點(diǎn)擊“學(xué)習(xí)”按扭向字庫(kù)中添加此字。如下圖所示：圖4.4 通過(guò)“學(xué)習(xí)”過(guò)程向字庫(kù)添加漢字特征4.2 結(jié)果分析通過(guò)前面幾章的講述，至此基于多特征提前的聯(lián)機(jī)手寫(xiě)漢字識(shí)別算法及起計(jì)算機(jī)實(shí)現(xiàn)都已完成，下面是部分實(shí)驗(yàn)的識(shí)別效果和對(duì)算法的分析。在實(shí)驗(yàn)中能識(shí)別的漢字圖像如：圖4.5 能夠識(shí)別的漢字圖像示例圖4.6 不能識(shí)別的漢字圖像示例算法對(duì)書(shū)寫(xiě)規(guī)范性不同的漢字圖像的識(shí)別率見(jiàn)下表：漢字書(shū)寫(xiě)的規(guī)范性樣本容量能識(shí)別數(shù)量不能識(shí)別數(shù)量識(shí)別率很規(guī)范8074692.5%較規(guī)范80681285.0%不規(guī)范80423852.5% 表4

44、.7 對(duì)不同程度規(guī)范漢字圖像的識(shí)別率其中，規(guī)范性主要是指筆劃的標(biāo)準(zhǔn)程度，比如說(shuō)“橫”的歪曲度等。下表給出了該算法對(duì)不同結(jié)構(gòu)的漢字的識(shí)別效果：漢字結(jié)構(gòu)類(lèi)型樣本容量能識(shí)別數(shù)量不能識(shí)別數(shù)量識(shí)別率上下結(jié)構(gòu)5046492.0%左右結(jié)構(gòu)5048296.0%半包圍5041982.0%全包圍5045590.0%復(fù)合5044688.0% 表4.8 對(duì)不同結(jié)構(gòu)漢字的識(shí)別率(很規(guī)范)從上表可以看出,該算法對(duì)半包圍和復(fù)合結(jié)構(gòu)的漢字識(shí)別效果不太理想,主要因?yàn)檫@兩種結(jié)構(gòu)的漢字書(shū)寫(xiě)起來(lái)難度較大,用鼠標(biāo)很難把每一筆劃寫(xiě)得標(biāo)準(zhǔn),這就直接導(dǎo)致了識(shí)別率的降低.從以上實(shí)驗(yàn)結(jié)果，我們可以得出結(jié)論：基于多特征提取的識(shí)別算法通過(guò)兩級(jí)識(shí)別機(jī)

45、制，彌補(bǔ)了單純基于筆劃特征算法和單純基于統(tǒng)計(jì)特征算法的不足，同時(shí)在計(jì)算量上也沒(méi)有增大太多，多寫(xiě)的比較規(guī)范的漢字能識(shí)別90%以上，在實(shí)際應(yīng)用中取得了比較好的效果，但有實(shí)現(xiàn)該算法有兩點(diǎn)必須注意：基于筆劃特征提取算法強(qiáng)調(diào)書(shū)寫(xiě)每一個(gè)字時(shí)都要遵循一定的筆順（此處的“筆順”是廣義的，即第一次向字庫(kù)中讀入該字時(shí)的書(shū)寫(xiě)順序），不然將無(wú)法識(shí)別，現(xiàn)在字庫(kù)中的常用字都是嚴(yán)格按筆順寫(xiě)入的，如使用者的書(shū)寫(xiě)習(xí)慣不同，可在第一次使用時(shí)向字庫(kù)中添加。此外還有一點(diǎn)，書(shū)寫(xiě)漢字時(shí)不能有連筆現(xiàn)象，這樣將無(wú)法識(shí)別或得到錯(cuò)誤結(jié)果。由于手寫(xiě)體和印刷體差別很大，欲使通常應(yīng)用于印刷體漢字識(shí)別的基于統(tǒng)計(jì)特征的算法在手寫(xiě)體漢字識(shí)別中取的較好效果，漢字的書(shū)寫(xiě)就必須強(qiáng)調(diào)規(guī)范、工整，不然可能無(wú)法正確識(shí)別。上述兩點(diǎn)注意事項(xiàng)其實(shí)可以看做是本算法的不足，目前基于漢字特征點(diǎn)的識(shí)別算法和小波分析算法可以對(duì)以上不足做出比較好的補(bǔ)充，具體請(qǐng)查閱參考書(shū)目。重慶大學(xué)本科學(xué)生畢業(yè)設(shè)計(jì)（論文）總結(jié)和展望5 總結(jié)和展望5.1 論文總結(jié) 論文選題是在第七學(xué)期后期確定的,之后發(fā)放了任務(wù)書(shū)。第八

人人文庫(kù)> 全部分類(lèi)> 教育資料 > 備課教案

溫馨提示

1. 本站所有資源如無(wú)特殊說(shuō)明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶(hù)所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽，若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間，僅對(duì)用戶(hù)上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理，對(duì)用戶(hù)上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容，請(qǐng)與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶(hù)因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

中文識(shí)別論文

文檔簡(jiǎn)介

溫馨提示

最新文檔

評(píng)論

中文識(shí)別論文

文檔簡(jiǎn)介

溫馨提示

最新文檔

評(píng)論

相關(guān)文檔