中文識(shí)別論文_第1頁(yè)
中文識(shí)別論文_第2頁(yè)
中文識(shí)別論文_第3頁(yè)
中文識(shí)別論文_第4頁(yè)
中文識(shí)別論文_第5頁(yè)
已閱讀5頁(yè),還剩23頁(yè)未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶(hù)提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、 緒論目 錄中文摘要ABSTRACT目錄III圖片索引目錄緒論11 漢字識(shí)別原理及常用算法4 1.1 漢字識(shí)別的原理4 1.2 基于統(tǒng)計(jì)決策方法的漢字識(shí)別5 1.3基于結(jié)構(gòu)特征方法的漢字識(shí)別62 基于多特征提取的識(shí)別算法9 2.1手寫(xiě)漢字識(shí)別的現(xiàn)行算法分析92.1.1以筆劃序列為特征的識(shí)別算法92.1.2基于統(tǒng)計(jì)特征的漢字識(shí)別算法11 2.2現(xiàn)行算法的結(jié)合和改進(jìn)123 識(shí)別算法對(duì)應(yīng)的VC代碼14 3.1輸入預(yù)處理15 3.2識(shí)別算法184 算法實(shí)現(xiàn)結(jié)果和分析20 4.1 模擬結(jié)果介紹20 4.2 結(jié)果分析215 總結(jié)與展望24 5.1 論文總結(jié)24 5.2 算法的前景展望24參考文獻(xiàn)25重慶大

2、學(xué)本科學(xué)生畢業(yè)設(shè)計(jì)(論文) 圖片索引目錄 PAGE V附:圖片索引目錄圖1.1 漢字識(shí)別原理框圖4圖 1.2 漢字圖像的粗外圍圖5圖 2.1 二維平面的劃分圖9圖 2.4 漢字圖像的統(tǒng)計(jì)特征圖11圖 2.6 漢字識(shí)別算法流程圖13圖 4.1 程序運(yùn)行界面20圖 4.2 漢字的寫(xiě)入20圖 4.3 系統(tǒng)識(shí)別寫(xiě)入的漢字圖像21圖 4.4 通過(guò)“學(xué)習(xí)”過(guò)程向字庫(kù)中添加漢字特征21圖 4.5 能夠識(shí)別的漢字圖像示例22圖 4.6 不能識(shí)別的漢字圖像示例22重慶大學(xué)本科學(xué)生畢業(yè)論文 緒論 PAGE 1緒 論 世界上的文字有兩大類(lèi),一種是拼音類(lèi)文字(如英文),另一種是象形類(lèi)或圖形類(lèi)文字(如漢字)。在人機(jī)交互

3、中,拼音文字顯示出了極大的優(yōu)越性,利用鍵盤(pán)可以把一個(gè)個(gè)字母很自然很方便的輸入計(jì)算機(jī),而對(duì)與圖形類(lèi)文字,一直沒(méi)有適當(dāng)?shù)妮斎朐O(shè)備。從80年代開(kāi)始,微機(jī)大量地進(jìn)入我國(guó),許多用于中文信息處理,但輸入設(shè)備仍然只是鍵盤(pán),為了將漢字輸入計(jì)算機(jī),涌現(xiàn)出了各種各樣的漢字編碼方案,所謂編碼方案就是通過(guò)人為的規(guī)則,把漢字轉(zhuǎn)換成字符或數(shù)字以方便利用鍵盤(pán)輸入。利用編碼方案進(jìn)行漢字輸入需要記憶,這給計(jì)算機(jī)在生活領(lǐng)域的普及帶來(lái)了很大的不便,利用西文鍵盤(pán)輸入漢字的限制成了計(jì)算機(jī)普及應(yīng)用的瓶頸和桎酷。隨著科學(xué)技術(shù)的發(fā)展,人們意識(shí)到要用圖形輸入設(shè)備輸入漢字,輸入后由計(jì)算機(jī)自動(dòng)識(shí)別并轉(zhuǎn)化成內(nèi)碼,至于計(jì)算機(jī)怎樣把輸入的漢字圖像識(shí)別出

4、來(lái),就是漢字識(shí)別技術(shù)。 從學(xué)科上來(lái)說(shuō),漢字識(shí)別屬于模式識(shí)別與圖像處理的范疇,還涉及到人工智能、形式語(yǔ)言與自動(dòng)機(jī)、統(tǒng)計(jì)決策理論、模糊數(shù)學(xué)、信息論、語(yǔ)言文字學(xué)、計(jì)算機(jī)科學(xué)等學(xué)科,是一門(mén)綜合性技術(shù)科學(xué)。由于漢字?jǐn)?shù)量多,結(jié)構(gòu)復(fù)雜,相似字很多,所以漢字識(shí)別是難度較大的文字識(shí)別。近年來(lái),隨著模式識(shí)別技術(shù)及計(jì)算機(jī)科學(xué)技術(shù)的發(fā)展,漢字識(shí)別也取的了極大的進(jìn)展。漢字識(shí)別的基本過(guò)程包括漢字輸入、預(yù)處理、特征提取、分類(lèi)識(shí)別、識(shí)別后處理五個(gè)大步驟。 根據(jù)識(shí)別對(duì)象的不同,漢字識(shí)別分為手寫(xiě)體漢字識(shí)別和印刷體漢字識(shí)別兩種,前者因?yàn)楦魅说臅?shū)寫(xiě)習(xí)慣不同和手寫(xiě)漢字變化太大而顯的比較困難,后者要相對(duì)容易一些。 在手寫(xiě)漢字識(shí)別這個(gè)范疇

5、中,根據(jù)漢字輸入方式不同又可以分為聯(lián)機(jī)手寫(xiě)漢字識(shí)別和脫機(jī)手寫(xiě)漢字識(shí)別。通俗地講,聯(lián)機(jī)手寫(xiě)就是在書(shū)寫(xiě)的同時(shí),根據(jù)筆劃順序等特征對(duì)漢字進(jìn)行識(shí)別,該技術(shù)較多地應(yīng)用在漢字輸入設(shè)備如手機(jī)的手寫(xiě)板中。與聯(lián)機(jī)手寫(xiě)漢字識(shí)別不同,脫機(jī)手寫(xiě)漢字識(shí)別主要是多一副漢字圖像進(jìn)行分類(lèi)識(shí)別,多用于簽名識(shí)別,筆跡鑒別等領(lǐng)域。 漢字識(shí)別應(yīng)用在以下幾個(gè)方面:使?jié)h字高速自動(dòng)地輸入計(jì)算機(jī),以徹底解決漢字信息處理系統(tǒng)中手動(dòng)輸入效率底這個(gè)關(guān)鍵重慶大學(xué)本科學(xué)生畢業(yè)論文 緒論辦公自動(dòng)化和下一代印刷技術(shù)的文字信息自動(dòng)輸入。做為新一代計(jì)算機(jī)智能接口的重要組成部分重慶大學(xué)本科學(xué)生畢業(yè)設(shè)計(jì)(論文) 緒論重慶大學(xué)本科學(xué)生畢業(yè)設(shè)計(jì)(論文) 緒論 PAG

6、E 27漢字文本高倍壓縮存儲(chǔ)和傳輸。 下面講述漢字識(shí)別的研究現(xiàn)狀和發(fā)展前景。漢字識(shí)別研究始于20世紀(jì)60年代,當(dāng)時(shí)大多數(shù)文字識(shí)別研究者都集中在英文印刷體文本識(shí)別,美國(guó)科學(xué)家Casey和Nagy率先進(jìn)行印刷體漢字識(shí)別的研究工作,并于1966年發(fā)表了第一篇有關(guān)漢字識(shí)別的論文,隨后在這個(gè)領(lǐng)域有了大量的研究,這些嚴(yán)重主要是在亞洲進(jìn)行的,如日本、中國(guó)大陸、臺(tái)灣等地。 我國(guó)在70年代末開(kāi)始了漢字識(shí)別的研究工作,到現(xiàn)在關(guān)于這方面的研究非?;钴S,有些產(chǎn)品已經(jīng)進(jìn)入市場(chǎng)。眼下印刷體漢字識(shí)別系統(tǒng)對(duì)實(shí)際文本的識(shí)別率一般達(dá)94%98%,識(shí)別速度為510字每秒;聯(lián)機(jī)手寫(xiě)漢字識(shí)別系統(tǒng)的識(shí)別率最高可大95%;脫機(jī)非特定手寫(xiě)漢

7、字識(shí)別率最高達(dá)85%,速度為1字每秒;脫機(jī)特定手寫(xiě)漢字的識(shí)別率85%93%,速度35字每秒;其中前兩個(gè)已經(jīng)達(dá)到實(shí)用化要求,臺(tái)灣的研究水平與大陸相當(dāng),日本的研究水平比大陸稍高。 從總體來(lái)說(shuō),漢字識(shí)別技術(shù)的廣泛應(yīng)用將產(chǎn)生一個(gè)新的產(chǎn)業(yè),而這個(gè)產(chǎn)業(yè)將覆蓋社會(huì)生活的各個(gè)方面,從筆式電腦到辦公自動(dòng)化設(shè)備,從郵政信函的自動(dòng)分揀到各種表格的自動(dòng)錄入,從證件識(shí)別到證券識(shí)別,從自動(dòng)閱讀機(jī)到智能視覺(jué)系統(tǒng)。而與漢字識(shí)別密切相關(guān)的筆跡鑒別設(shè)備將會(huì)廣泛應(yīng)用于銀行、保安等部門(mén)。 漢字識(shí)別最直接的用途是漢字輸入。針對(duì)我國(guó)漢字錄入的現(xiàn)狀,漢字識(shí)別技術(shù)能很好地滿(mǎn)足不同層次的單位、個(gè)人需要。對(duì)有大量漢字錄入任務(wù)的單位如報(bào)社、出版社

8、、印刷廠等,一方面可以大幅度提高漢字輸入的效率,建設(shè)漢字輸入時(shí)間,另一方面還能縮小龐大的錄入員隊(duì)伍及相應(yīng)的設(shè)備。 漢字識(shí)別的另一大用途是在筆式電腦中。筆式電腦沒(méi)有鍵盤(pán),用筆進(jìn)行輸入和操作。該設(shè)備的一個(gè)技術(shù)關(guān)鍵是聯(lián)機(jī)手寫(xiě)字符識(shí)別技術(shù)。筆式電腦是計(jì)算機(jī)發(fā)展的一個(gè)重要趨勢(shì)。目前已經(jīng)有多中英文筆式電腦產(chǎn)品。筆式電腦的市場(chǎng)前景很大,據(jù)IDG預(yù)測(cè),到1966年,英文筆式電腦的全球銷(xiāo)售量將達(dá)到500萬(wàn)臺(tái)。中文筆式電腦的市場(chǎng)前景同樣也是十分巨大的,所以漢字識(shí)別技術(shù)的研究十分重要。 郵政信函的分揀也是漢字識(shí)別技術(shù)應(yīng)用前景看好的領(lǐng)域,目前我國(guó)使用的郵政信函分揀機(jī)是依據(jù)郵政編碼的,也就是手寫(xiě)數(shù)字識(shí)別。但是單純基于郵

9、政編碼識(shí)別的正確分揀率只能達(dá)到30%左右,所以手寫(xiě)漢字識(shí)別技術(shù)將使郵政信函的分揀更加完善。 表格信息自動(dòng)錄入也是漢字識(shí)別技術(shù)大有可為的方向。表格信息的自動(dòng)錄入需要印刷體漢字識(shí)別技術(shù)、脫機(jī)手寫(xiě)漢字識(shí)別技術(shù)及手寫(xiě)數(shù)字識(shí)別技術(shù)。同樣地漢字識(shí)別技術(shù)還將應(yīng)用于證件識(shí)別和證券識(shí)別、智能計(jì)算機(jī)的智能接口和視覺(jué)系統(tǒng)、筆跡鑒別等,由于篇幅有限,不在細(xì)述。 在本文的第一部分我們將介紹漢字識(shí)別的一般算法和原理,以便對(duì)漢字識(shí)別實(shí)現(xiàn)算法形成初步認(rèn)識(shí);第二部分主要講述現(xiàn)在用的比較多的兩個(gè)算法以及將它們改進(jìn)結(jié)合形成的新的方法,第三和第四部分將對(duì)算法模擬工具(vc)和主要程序代碼做必要講解,第五部分為對(duì)結(jié)果的分析。 重慶大學(xué)

10、本科學(xué)生畢業(yè)設(shè)計(jì)(論文) 漢字識(shí)別的原理及常用算法1 漢字識(shí)別的原理及常用算法1.1 漢字識(shí)別的原理 和其他模式識(shí)別一樣,漢字識(shí)別的基本思想也是匹配判別。抽取代表未知漢字模式本質(zhì)的表達(dá)形式(如各種特征)和預(yù)先存儲(chǔ)在機(jī)器中的標(biāo)準(zhǔn)漢字模式表達(dá)形式的集合(稱(chēng)為辭典)逐一匹配,用一定的準(zhǔn)則進(jìn)行判別,并在機(jī)器存儲(chǔ)的標(biāo)準(zhǔn)漢字模式表達(dá)形式的集合中,找出最接近輸入文字的模式表達(dá)形式,該表達(dá)形式對(duì)應(yīng)的字就是識(shí)別結(jié)果。 漢字識(shí)別的原理框圖見(jiàn)圖1.1。光電掃描紙面文字產(chǎn)生模擬電信號(hào),經(jīng)模數(shù)轉(zhuǎn)換成為帶灰度值的數(shù)字信號(hào)送至預(yù)處理環(huán)節(jié)。預(yù)處理的內(nèi)容和要求取決于識(shí)別方法。一般包括行、字切分,二值化,細(xì)化和抽取輪廓,平滑,規(guī)

11、范化等。預(yù)處理后,漢字模式成為規(guī)范化的二值數(shù)字點(diǎn)陣,其中1代表筆畫(huà),0代表文字的空白背景。預(yù)處理后即可對(duì)文字圖像提取特征(一種類(lèi)型的表達(dá)式),和存儲(chǔ)在辭典里的已知標(biāo)準(zhǔn)漢字表達(dá)形式進(jìn)行匹配判別,就可識(shí)別出輸入的未知漢字。 圖1.1 漢字識(shí)別原理框圖 在上圖中中間橫線(xiàn)以下是系統(tǒng)的學(xué)習(xí)部分,學(xué)習(xí)是根據(jù)多個(gè)未知子樣(一個(gè)文字的不同字樣稱(chēng)為子樣)提取出的模式表達(dá)形式,自動(dòng)構(gòu)成或修改、充實(shí)辭典,不斷提高系統(tǒng)的識(shí)別率。 漢字的模式表達(dá)式和相應(yīng)的辭典形式有多種,每一種形式可以選擇不同的特征(或基元),每種特征又有不同的提取方法。這些造成了判別方法和準(zhǔn)則以及所用的數(shù)學(xué)工具的不同,形成了種類(lèi)繁多、形式各異的漢字識(shí)

12、別方法。不過(guò),所有這些方法可以歸結(jié)為兩類(lèi)一般的處理方法統(tǒng)計(jì)決策方法和句法結(jié)構(gòu)方法。最近還有人提出用人工智能方法識(shí)別漢字。接下來(lái)的兩節(jié)中將對(duì)上面來(lái)種常用算法分別闡述。必須指出的是,漢字識(shí)別有聯(lián)機(jī)識(shí)別和脫機(jī)識(shí)別之分。在聯(lián)機(jī)的情況下,漢字結(jié)構(gòu)的輸入順序可以做為重要特征來(lái)識(shí)別漢字,在第二章將詳細(xì)介紹這種方法及其實(shí)現(xiàn)。1.2 基于統(tǒng)計(jì)決策方法的漢字識(shí)別漢字識(shí)別的統(tǒng)計(jì)決策方法提取字符圖像的特征形成特征矢量,特征矢量并不直接表示筆跡,而是表示字符圖像的特性。統(tǒng)計(jì)字符識(shí)別方法根據(jù)訓(xùn)練樣本集估計(jì)特征矢量的分布,具有優(yōu)異的抗干擾能力,因此在漢字識(shí)別中得到廣泛應(yīng)用該方法需要一個(gè)表達(dá)樣本分布的函數(shù),多變量正態(tài)分布概率

13、密度函數(shù)通常被認(rèn)為是樣本分布的近似函數(shù)漢字的統(tǒng)計(jì)特征種類(lèi)很多,比如筆劃密度特征,漢字粗外圍特征、漢字網(wǎng)格特征等。下面簡(jiǎn)單介紹漢字粗外圍特征的提取。 漢字粗外圍特征的提取 漢字輪廓結(jié)構(gòu)包含了漢字特征的重要信息, 粗外圍特征(即從漢字四邊向中間掃描, 以第1 次碰到筆劃象素所經(jīng)過(guò)的行程值作為特征) 分類(lèi)就是抽取漢字四周輪廓信息作為特征來(lái)進(jìn)行分類(lèi)的, 它被認(rèn)為是印刷體漢字識(shí)別方面比較有效的粗分類(lèi)方法。也可以采用一種改進(jìn)的粗外圍特征來(lái)進(jìn)行粗分類(lèi), 其基本思路是對(duì)原圖進(jìn)行變換, 以使內(nèi)部結(jié)構(gòu)受外圍信息影響, 以圖1.2為例,具體實(shí)現(xiàn)過(guò)程為: 先從文字四邊框?qū)ξ淖诌M(jìn)行掃描, 然后把原文字背景部分中, 從所

14、有方向都不能連續(xù)掃描到的區(qū)域設(shè)為筆劃部分, 這樣就得到所謂的粗外圍圖. 由其實(shí)現(xiàn)過(guò)程可以看出, 原文字內(nèi)部區(qū)域的特征也受輪廓影響, 如圖1.2 (b) 所示, 其中“件”字內(nèi)部一小塊區(qū)域原來(lái)是背景(黑象素) , 但因?yàn)檩喞挠绊? 變換后成為筆劃區(qū)域(白象素).特征的計(jì)算方法為: 首先將3636 點(diǎn)陣的粗外圍圖劃分為44= 16 個(gè)網(wǎng)格(每個(gè)網(wǎng)格包括99pixel) , 再統(tǒng)計(jì)其中的白象素?cái)?shù), 以構(gòu)成16 維粗外圍特征. 實(shí)際上, 雖然特征實(shí)現(xiàn)時(shí)仍然使用了粗外圍特征, 但原始粗外圍特征僅考慮漢字的輪廓信息, 而改進(jìn)方法則在利用漢字內(nèi)部結(jié)構(gòu)信息的基礎(chǔ)上, 又加強(qiáng)了粗外圍輪廓信息在特征量中的比重.

15、 圖1.2 漢字圖像粗外圍圖基于結(jié)構(gòu)特征方法的漢字識(shí)別目前,文字結(jié)構(gòu)特征的提取有兩種方法,第一種方法是基于像素的字符輪廓獲取方法,這種方法沒(méi)有考慮全局信息和結(jié)構(gòu)信息,因而結(jié)果中存在諸如毛邊和交叉點(diǎn)變形等問(wèn)題. 為此,研究人員提出了其它一些特征提取方法 ,但這使得基于像素的字符識(shí)別更加復(fù)雜而不穩(wěn)定。第二種方法是用一組線(xiàn)段及它們相互間的關(guān)系來(lái)描述文字并進(jìn)行識(shí)別,但是這些方法步驟繁多、計(jì)算復(fù)雜,難以實(shí)現(xiàn),而且易受邊界噪聲和交叉點(diǎn)的影響。無(wú)約束手寫(xiě)漢字?jǐn)?shù)量龐大、結(jié)構(gòu)復(fù)雜、形近字多而且無(wú)規(guī)則變形嚴(yán)重,所以各種不同字體手寫(xiě)漢字的識(shí)別是字符識(shí)別領(lǐng)域中一個(gè)極為困難的問(wèn)題,被認(rèn)為是該領(lǐng)域最具挑戰(zhàn)性的研究課題和最

16、高目標(biāo)之一 . 在已有的方法中,有些只能識(shí)別相對(duì)簡(jiǎn)單的手寫(xiě)數(shù)字,有些雖然可以識(shí)別少量的手寫(xiě)漢字 ,但它們都無(wú)法從根本上克服誤識(shí)別率高這一不足。貝葉斯分類(lèi)器等傳統(tǒng)的模式識(shí)別方法因先驗(yàn)知識(shí)不足而無(wú)法取得理想的效果,語(yǔ)法推理法和繼電器法等新的識(shí)別方法因編碼過(guò)程復(fù)雜、計(jì)算量大或可識(shí)別的文字?jǐn)?shù)量有限等原因而難以實(shí)現(xiàn) 。神經(jīng)網(wǎng)絡(luò)具有很強(qiáng)的知識(shí)獲取能力和分類(lèi)能力,有很高的容錯(cuò)性和魯棒性,可以在特征空間內(nèi)形成任意復(fù)雜的決策區(qū)域,它所具有的自組織、自學(xué)習(xí)功能大大放寬了傳統(tǒng)模式識(shí)別方法所受的約束條件,為漢字識(shí)別提供了新的有力工具 。1.3.1 文字輸入預(yù)處理及特征提取 因?yàn)槭謱?xiě)漢字大小不一,所以在提取結(jié)構(gòu)特征和進(jìn)

17、行識(shí)別時(shí)首先需要對(duì)其進(jìn)行歸一化處理。目前,大小歸一化有兩種方法,一是在水平和垂直方向都進(jìn)行歸一化;二是僅在一個(gè)方向歸一化,同時(shí)保持輸入漢字的形狀比例。 前者在減小不同人的手寫(xiě)漢字差異方面較為有效,但可能使?jié)h字在某一方向上發(fā)生失真。 這里根據(jù)手寫(xiě)漢字特征提取和識(shí)別的需要,對(duì)不同的輸入手寫(xiě)漢字采用不同的歸一化策略. 設(shè)原始手寫(xiě)漢字為Y 行*X 列,歸一化后為列, 則: (1) 如果X 且Y ,文字只做平移操作; (2) 如果X且Y ,則將文字寬度歸一化為,高度按比例歸一化; ( 3) 如果X ,則將文字高度歸一化為,寬度按比例歸一化; (4) 如果X 且Y ,則將文字歸一化為行 列?,F(xiàn)在來(lái)討論歸一

18、化手寫(xiě)漢字的結(jié)構(gòu)特征提取問(wèn)題。該方法選擇的結(jié)構(gòu)特征包括:特征點(diǎn)、線(xiàn)段、基本筆畫(huà)以及筆畫(huà)方向圖等?;竟P畫(huà)定義為長(zhǎng)度有限的直線(xiàn),而筆畫(huà)方向圖描述了字符幾何結(jié)構(gòu)特征,其提取是以筆畫(huà)方向?yàn)榛A(chǔ)的??紤]了沿逆時(shí)針與水平方向夾角分別為0,45,90和135的四個(gè)方向,并用1 ,2 ,3 ,4 以及- 1 , - 2 , - 3 , - 4 分別標(biāo)記這四個(gè)方向及其反方向. 令 為像素 的灰度級(jí),對(duì)于黑色像素 ,對(duì)于白色像素,字符是由黑色像素組成的圖像。 一個(gè)黑色像素的方向碼是根據(jù)沿四個(gè)方向經(jīng)過(guò)該像素的筆畫(huà)長(zhǎng)度而確定的。該方法定義向筆畫(huà)為沿方向的一系列連續(xù)黑色像素( = 1 ,2 ,3 ,4) ,將經(jīng)過(guò)黑色

19、像素的最長(zhǎng)向筆畫(huà)的方向定義為該點(diǎn)的方向碼。 具有相同方向碼的相連黑色像素構(gòu)成一個(gè)像塊,且稱(chēng)方向碼為的像塊為向像塊。 如果某個(gè)像塊與其它像塊交叉或相接,則需要將該塊進(jìn)而分解為筆畫(huà)段和交叉段。下面來(lái)提取結(jié)構(gòu)特征量。首先需要提取的是輪廓段,它是從筆畫(huà)段中提取出來(lái)的, 對(duì)于方向代碼為的筆畫(huà)段,它可以分解成一組連續(xù)的向筆畫(huà),提取輪廓段之前先確定該組兩端的向筆畫(huà),將它們用一條直線(xiàn)連接起來(lái),形成筆畫(huà)段的輪廓. 雖然根據(jù)其方向碼可將輪廓段分為四種,但輪廓段可能是任意方向. 如果某個(gè)輪廓段的長(zhǎng)度小于或等于一個(gè)允許長(zhǎng)度,就稱(chēng)其為短輪廓段. 如果短輪廓段的兩端都不與交叉點(diǎn)相接,即為一個(gè)孤立輪廓段,則認(rèn)為該短輪廓段是

20、噪聲. 如果只有一段與交叉點(diǎn)相接,這樣的短輪廓段稱(chēng)為毛邊.該算法根據(jù)這樣的邏輯去除了所提取的輪廓段中的噪聲和毛邊現(xiàn)象。 接下來(lái)提取交叉點(diǎn)和輪廓。 假設(shè)交叉段只包括一個(gè)交叉點(diǎn),當(dāng)程序發(fā)現(xiàn)一個(gè)交叉段后,就首先計(jì)算交叉度和交叉點(diǎn)的位置,然后延長(zhǎng)所有與該交叉段相接的輪廓段到該交叉點(diǎn)處,從而形成完整的字符輪廓。 假設(shè)代表方向代碼同為且與同一個(gè)交叉段相接的輪廓段的個(gè)數(shù),令為該交叉段的交叉度,則有。 為了確定交叉點(diǎn)的位置,本文按照方向代碼考慮了全部四種不同的情況:(1) ,即沒(méi)有輪廓段。(2) ,只有一個(gè)輪廓段,確定該輪廓段方向上與白色像素相鄰接的黑色像素為交叉點(diǎn)。(3) 且至少有兩個(gè)輪廓段,而且一個(gè)方向上

21、最多只有一個(gè)輪廓段。 選擇任意兩個(gè)輪廓段并沿各自的方向?qū)⑵溲娱L(zhǎng),延長(zhǎng)線(xiàn)的交點(diǎn)即為交叉點(diǎn)。(4) ,至少有兩個(gè)具有相同方向代碼的輪廓段. 如果有一對(duì)延伸方向相反的向輪廓段,則標(biāo)識(shí)量置為1 ,相反則為0.此時(shí)確定交叉點(diǎn)時(shí)需要分三種情況討論:(a) ,不存在延伸方向相反的一對(duì)輪廓段. 如果有兩個(gè)輪廓段方向碼不相同,則將其沿各自的方向延長(zhǎng)后必然會(huì)形成一個(gè)交叉點(diǎn). 而如果所有輪廓段的方向碼都相同,則將其中一段按估計(jì)的筆畫(huà)寬度的某一倍數(shù)延長(zhǎng)后即得到所期望的交叉點(diǎn)。(b) ,只存在一對(duì)延伸方向相反的輪廓段. 用一段直線(xiàn)將它們連接起來(lái),取該直線(xiàn)的中點(diǎn)作為交叉點(diǎn)。(c) ,至少存在兩個(gè)延伸方向相反的輪廓段. 任

22、選兩對(duì)輪廓段,將每對(duì)用一條直線(xiàn)相連,兩條直線(xiàn)的交點(diǎn)便是所期望的交叉點(diǎn)。提取出一個(gè)交叉點(diǎn)后,將每個(gè)在該交叉點(diǎn)相接的輪廓段與該交叉點(diǎn)連接起來(lái),這樣把所有輪廓段和交叉點(diǎn)都連接起來(lái)便構(gòu)成了字符輪廓,即瘦化字符。在提取出交叉點(diǎn)和輪廓段(即點(diǎn)特征和線(xiàn)段特征) 后,就可根據(jù)這兩種信息進(jìn)而提取基本筆畫(huà),根據(jù)輪廓段信息還可以提取出筆畫(huà)方向圖. 該處用一種簡(jiǎn)單的輪廓段合并策略將輪廓段合并成基本筆畫(huà). 依次檢查各個(gè)交叉點(diǎn)處所有相接的輪廓段中是否有兩個(gè)輪廓段共線(xiàn),如果有就將它們合并成一個(gè)新的輪廓段,即基本筆畫(huà). 記1 和2 分別為兩個(gè)輪廓段的方向角,令= min (| 1 - 2 | ,360- | 1- 2 | )

23、 為兩段的夾角,若155180,則允許將兩段合并. 然后以合并后的輪廓段取代原來(lái)的兩個(gè)輪廓段,且更新輪廓段和交叉點(diǎn)的端點(diǎn)標(biāo)記,同時(shí)選擇與新輪廓段方向最接近的方向代碼作為新的方向代碼。當(dāng)檢查完所有交叉點(diǎn)后,全部基本筆畫(huà)便最終確定了。最后根據(jù)各輪廓段的方向代碼來(lái)繪制筆畫(huà)方向圖. 首先將字符沿水平和垂直方向分成個(gè)單元,每個(gè)單元為,其中。選擇每個(gè)單元中像素?cái)?shù)目最多的輪廓段的方向代碼為該單元方向碼。如果某單元沒(méi)有輪廓段經(jīng)過(guò),則其方向碼置空() ,所有單元的方向代碼一起就構(gòu)成了筆畫(huà)方向圖.重慶大學(xué)本科學(xué)生畢業(yè)設(shè)計(jì)(論文) 基于多特征提取的識(shí)別算法2 基于多特征提取的識(shí)別算法現(xiàn)在對(duì)于聯(lián)機(jī)手寫(xiě)體的漢字識(shí)別算法

24、很多,在本章第一節(jié),我們先對(duì)這些算法做初步的分析認(rèn)識(shí),然后在其基礎(chǔ)上導(dǎo)出多特征提取的算法,而用于實(shí)現(xiàn)這些算法的代碼將在下章給出。2.1 手寫(xiě)漢字識(shí)別的現(xiàn)行算法分析2.1.1 以筆劃序列為特征的算法該算法將漢字的筆畫(huà)分為若干類(lèi),然后根據(jù)各類(lèi)筆畫(huà)的輸入順序做為一個(gè)漢字的特征并存入字庫(kù),當(dāng)漢字聯(lián)機(jī)輸入時(shí),得到該文字圖像的筆畫(huà)序列特征并和字庫(kù)中的特征進(jìn)行比較,若有一組特征與該圖像特征的差別很小,即可認(rèn)為是同一字。下面我們先介紹筆畫(huà)的分類(lèi)方法,然后在分別介紹圖像的預(yù)處理和距離定義。在介紹筆劃的劃分前,我們先把二維平面做一個(gè)劃分,如下圖所示: 圖2.1 二維平面的劃分在上圖基礎(chǔ)上,筆劃通常劃分為以下幾種:

25、橫,用數(shù)字1標(biāo)識(shí),方向?yàn)?;豎,用數(shù)字2標(biāo)識(shí),方向?yàn)?;撇,用數(shù)字3標(biāo)識(shí),方向?yàn)?;捺,用數(shù)字4標(biāo)識(shí),方向?yàn)?;折,用數(shù)字5標(biāo)識(shí),有至少兩個(gè)方向;在有些算法中,又把折細(xì)分為順時(shí)針?lè)较蛘?、逆時(shí)針?lè)较蛘酆突旌戏较蛘廴N,在此不再細(xì)述。將筆劃分類(lèi)以后,我們就要面臨一個(gè)問(wèn)題,如何從文字圖像的讀入過(guò)程中得到方向序列,自然地我們會(huì)想到斜率,即得到一個(gè)筆劃中每一相素點(diǎn)的斜率,然后依照上圖得到該筆劃的方向,但嚴(yán)格來(lái)講,用斜率表示并不明智,比如方向3和7的斜率根本不存在。得到一個(gè)相素點(diǎn)方向的可行方法是:用該相素后面第二個(gè)點(diǎn)的坐標(biāo)與該相素坐標(biāo)做比較,如下:若pointa+2.y=pointa.y且pointa+2

26、.xpointa.x,方向1。若pointa+2.y=pointa.y且pointa+2.xpointa.y,方向3。若pointa+2.x=pointa.x且pointa+2.ypointa.x且pointa+2.ypointa.y,方向2。若pointa+2.xpointa.x且pointa+2.ypointa.y,方向8。若pointa+2.xpointa.y,方向4。若pointa+2.xpointa.x且pointa+2.ypointa.y,方向6。 為得到一筆劃方向,在得到該筆劃內(nèi)各相素的方向后,我們還要做一些去噪處理。比如為消除下筆和收筆時(shí)的抖動(dòng)誤差而去除兩邊若干相素點(diǎn)、為消除書(shū)

27、寫(xiě)時(shí)的歪曲而除去若干奇異點(diǎn)等。得到筆劃方向序列后,就必須為以后的匹配定義距離,即定義何謂相似的標(biāo)準(zhǔn)。通常做以下定義: 距離d= 2.2其中m為輸入文字圖像的筆劃數(shù), 為輸入文字圖像第筆testi的筆劃與字庫(kù)中某組待比較特征的第筆的相似度,經(jīng)過(guò)大量的調(diào)查分析,一般取值如下表:橫豎撇捺折橫100.20.60.25豎010.60.60.1撇0.20.6100.1捺0.60.6010折0.250.10.101 表2.3 筆劃的相似度表該算法的一般步驟如下:從輸入端得到輸入點(diǎn)序列。由輸入點(diǎn)序列去噪、計(jì)算得到方向碼序列。將方向碼序列去噪處理得到筆畫(huà)碼序列。根據(jù)筆畫(huà)碼序列參照表2.3得到距離d,匹配判別識(shí)別

28、漢字。 根據(jù)此定義得到距離后與事先設(shè)定的闕值dis進(jìn)行比較,若ddis 可認(rèn)識(shí)兩字相同,即對(duì)手寫(xiě)漢字圖像做了識(shí)別。這種識(shí)別算法原理簡(jiǎn)單且易于實(shí)現(xiàn),但也有其不足之處,例如:漢字“六”和“文”的筆劃序列都是“4134”,所以無(wú)法正確識(shí)別。2.1.2 基于統(tǒng)計(jì)特征的漢字識(shí)別算法統(tǒng)計(jì)特征即漢字圖像的相素分布特征,為簡(jiǎn)化起見(jiàn),一般把漢字圖像轉(zhuǎn)換成二值圖像再做處理,通常把一副漢字圖像分成4*4=16或3*3=9個(gè)區(qū),統(tǒng)計(jì)每個(gè)區(qū)的黑色相素點(diǎn)數(shù),然后與字庫(kù)里已有特征做比較,將距離最小的做為匹配字符。這種算法中的距離也有多種定義,通常采用兩種方法,方差距離和絕對(duì)值距離,下面以絕對(duì)值距離為例,講述一下該方法的具體

29、應(yīng)用。下圖是一個(gè)漢字圖像并對(duì)其做了4*4劃分,其中各區(qū)的特征值如圖所示: 圖2.4 漢字圖像的統(tǒng)計(jì)特征圖現(xiàn)在把其特征表示為一個(gè)數(shù)組即test.p16,若字庫(kù)中第組特征為tezi.p16,則待識(shí)別漢字圖像與字庫(kù)里第個(gè)字的距離為: 2.5為了便于識(shí)別,需要定義闕值dis,若ddis,即可認(rèn)為輸入漢字為字庫(kù)中第i個(gè)字符。至此該算法的步驟可以歸納如下:對(duì)輸入圖形進(jìn)行4*4分區(qū),統(tǒng)計(jì)每區(qū)黑色相素點(diǎn)數(shù)。將每區(qū)黑色相素點(diǎn)數(shù)除以圖像總黑相素點(diǎn)數(shù),的到pi,i=1,29。由2.5式得到距離d,然后匹配判別。該方法形象直觀,也很容易實(shí)現(xiàn),但其弊端很多,表現(xiàn)在以下幾個(gè)方面,(1) 這種方法只局限于一種字體且多用于印

30、刷體漢字的識(shí)別,手寫(xiě)體漢字由于字形變化、歪曲教大,只使用該方法收效甚微。(2) 由于漢字圖像大小不一,在讀如圖像后需要對(duì)其做規(guī)范化預(yù)處理。(3) 在漢字中存在很多字形十分相似的字,如“?!焙汀凹摇?,“狼”和“狠”等,基于統(tǒng)計(jì)的識(shí)別算法對(duì)這些字不能區(qū)分。(4) 由于直接對(duì)圖像進(jìn)行分析,所以該方法主要用于脫機(jī)漢字識(shí)別。2.2 現(xiàn)行算法的結(jié)合和改進(jìn) 上節(jié)我們分別講述了基因筆劃特征和基于基于統(tǒng)計(jì)特征的的漢字識(shí)別算法,也講了兩種方法的優(yōu)缺點(diǎn),下面我面介紹怎么將兩種算法結(jié)合并改進(jìn)以進(jìn)行聯(lián)機(jī)手寫(xiě)漢字識(shí)別。 漢字是一種結(jié)構(gòu)文字,即它的輸入有一定的順序,每一筆也有一定的結(jié)構(gòu),所以在進(jìn)行聯(lián)機(jī)手寫(xiě)漢字識(shí)別時(shí),筆劃信

31、息一定要充分利用起來(lái),同時(shí)我們知道,單純的筆劃特征不足以區(qū)分所有漢字,現(xiàn)在我們考慮將輸入漢字圖像分別從筆劃和相素角度做兩次分類(lèi)識(shí)別,以下分別稱(chēng)為粗分類(lèi)和細(xì)分類(lèi)。 在粗分類(lèi)階段,我們根據(jù)2.1.1小節(jié)中的算法先把漢字定位于小范圍內(nèi),即根據(jù)筆劃數(shù)和筆劃順序從字庫(kù)選出幾個(gè)可能的漢字,至于怎樣從這幾個(gè)漢字中找出正確的對(duì)應(yīng)字符就由細(xì)分類(lèi)部分完成。 在細(xì)分類(lèi)階段,可以根據(jù)2.1.2小節(jié)中的算法對(duì)粗分類(lèi)后的若干漢字進(jìn)行識(shí)別,由于范圍已經(jīng)很小,所以該步驟不需要?jiǎng)澐痔?xì),通常情況下做3*3分區(qū)即可取得理想結(jié)果。注意,正如2.1.2小節(jié)中所說(shuō),用該方法要對(duì)漢字圖像做規(guī)范化處理,我們可以稍做改進(jìn),把每區(qū)的黑色相素點(diǎn)

32、數(shù)改為次數(shù)與漢字總相素點(diǎn)數(shù)的比值,這樣就可以排除漢字大小不一的干擾。 在以上兩個(gè)階段,闕值的選取都十分重要,闕值太大則無(wú)法選出具體的漢字,闕值太小又可能由于書(shū)寫(xiě)不規(guī)范而無(wú)法識(shí)別,具體值可以根據(jù)多次實(shí)踐、觀察結(jié)果分析得出,同樣處理的還有2.1.1小節(jié)的筆劃相似度表,若結(jié)果不理想可以適當(dāng)修改該表。 至此我們已經(jīng)很詳細(xì)的講述了要采取聯(lián)機(jī)手寫(xiě)漢字的識(shí)別算法,但不管什么算法都需要一種計(jì)算機(jī)語(yǔ)言去實(shí)現(xiàn)(通常使用高級(jí)語(yǔ)言),在下章,我們將給出各步驟實(shí)現(xiàn)的vc 代碼,以便分析結(jié)果。 附注: 在下圖中給出了基于多特征提取的聯(lián)機(jī)手寫(xiě)漢字識(shí)別算法的流程圖,借助此圖可以更清晰地理解該算法。 圖2.6 漢字識(shí)別算法流程

33、圖重慶大學(xué)本科學(xué)生畢業(yè)設(shè)計(jì)(論文) 識(shí)別算法對(duì)應(yīng)的vc代碼3 識(shí)別算法對(duì)應(yīng)的vc代碼 在本章中,我們將介紹文字預(yù)處理、識(shí)別、識(shí)別后處理的代碼,語(yǔ)句一般大都簡(jiǎn)單,有難度的語(yǔ)句后面都有文章注釋?zhuān)栽谖闹胁辉谠敿?xì)講解,每一程序都在vc平臺(tái)中調(diào)試過(guò)并成功運(yùn)行,如不能允許請(qǐng)檢查代碼是否抄錯(cuò)。因?yàn)槠?,用?hù)界面、鼠標(biāo)手寫(xiě)筆模擬等程序代碼不再給出,有需要可自行查閱參考數(shù)目。首先介紹一下程序?qū)崿F(xiàn)所需的數(shù)據(jù)結(jié)構(gòu):int num,Time;int xmax,ymax,xmin,ymin;/隨時(shí)記錄最大x,y坐標(biāo)int mouseDown;/鼠標(biāo)按下標(biāo)記int fxm15300;/方向碼int zong;/字

34、庫(kù)中的字符總數(shù)struct int x; int y;store15300;/一筆劃點(diǎn)序列/備份的序列struct int x; int y;storeback15300;struct char zifu2;/代表字符 int total;/總的筆劃數(shù) int bh15;/每個(gè)筆劃的點(diǎn)數(shù) double p9;/每區(qū)相素比重tez4000;struct char zifu2; int total;/筆畫(huà)數(shù) int bh15;/筆畫(huà)碼序列 double p9;/每區(qū)相素比重test;/意義同上,為測(cè)試點(diǎn)的結(jié)構(gòu) struct fangxtz int b8;/每方向點(diǎn)數(shù) int total;/共有方向

35、數(shù) int totaldian;/共有點(diǎn)數(shù)fxtz15;3.1 輸入預(yù)處理/數(shù)據(jù)去噪、處理函數(shù),得到筆劃碼序列void CRecogDlg:DealDat()int i,j,k;for(i=0;i15;i+) /得到方向序列碼fxm15300,已驗(yàn)證,正確for(j=0;(jstoreij.x)fxmij=1;else if(storeij+2.xstoreij.y)fxmij=3;else if(storeij+2.ystoreij.y)if(storeij+2.xstoreij.x)fxmij=2;else if(storeij+2.xstoreij.x)fxmij=4;if(storei

36、j+2.ystoreij.x)fxmij=8;else if(storeij+2.xstoreij.x)fxmij=6;/去除噪聲點(diǎn)for(i=0;i15;i+)for(j=0;j288;j+)fxmij=fxmij+2;for(i=0;i15;i+)for(j=3;(j300)&(fxmij!=0);j+)if(fxmij-1!=fxmij)&(fxmij+1!=fxmij)for(k=j;fxmik!=0;k+)fxmik=fxmik+1;/得到方向特征for(i=0;i15;i+)for(j=0;(j300)&fxmij!=0;j+)fxtzi.totaldian+;for(k=1;k=

37、8;k+)if(fxmij=k)fxtzi.bk-1+;/去除噪聲方向點(diǎn)for(i=0;i15;i+)for(j=0;j8;j+)if(float(fxtzi.bj)/float(fxtzi.totaldian)0.3)fxtzi.bj=0;if(fxtzi.bj!=0)fxtzi.total+;/得到筆畫(huà)序列for(i=0;i1)test.bhi=5;/將圖像3*3分區(qū),得到各區(qū)特征(具體見(jiàn)2.3節(jié))void CRecogDlg:obtp()int x1,x2,y1,y2,x,y,i;int sum=0;int po9;char s20;HDC hdc=:GetDC(m_hWnd);x1=x

38、min+(xmax-xmin)/3;x2=x1+(xmax-xmin)/3;y1=ymin+(ymax-ymin)/3;y2=y1+(ymax-ymin)/3;for(i=0;i9;i+)poi=0;for(y=ymin;yy1;y+)for(x=xmin;xx1;x+)if(GetPixel(hdc,x,y)!=16777215)po0+;sum+;for(x=x1;xx2;x+)if(GetPixel(hdc,x,y)!=16777215)po1+;sum+;for(x=x2;xxmax;x+)if(GetPixel(hdc,x,y)!=16777215)po2+;sum+;for(y=y

39、1;yy2;y+)for(x=xmin;xx1;x+)if(GetPixel(hdc,x,y)!=16777215)po3+;sum+;for(x=x1;xx2;x+)if(GetPixel(hdc,x,y)!=16777215)po4+;sum+;for(x=x2;xxmax;x+)if(GetPixel(hdc,x,y)!=16777215)po5+;sum+;for(y=y2;yymax;y+)for(x=xmin;xx1;x+)if(GetPixel(hdc,x,y)!=16777215)po6+;sum+;for(x=x1;xx2;x+)if(GetPixel(hdc,x,y)!=1

40、6777215)po7+;sum+;for(x=x2;xxmax;x+)if(GetPixel(hdc,x,y)!=16777215)po8+;sum+;for(i=0;i9;i+)test.pi=float(poi)/float(sum);/sprintf(s,%d,%d,%lf,po0,sum,test.p0);/AfxMessageBox(s);3.2 識(shí)別算法/識(shí)別函數(shù)void CRecogDlg:OnRecogn() / TODO: Add your control notification handler code hereint i,j;int flagok=0;char s20

41、;double d1,d2;OnOpenMenu();DealDat();obtp();for(i=0;i=zong;i+)if(tezi.total=test.total)d1=0;for(j=0;jtest.total;j+)d1=d1+(1-dis(test.bhj,tezi.bhj);d1=d1/float(test.total); d2=0;for(j=0;j9;j+)d2=d2+fabs(test.pj-tezi.pj);if(d10.02) if(d2zong)AfxMessageBox(無(wú)法識(shí)別!書(shū)寫(xiě)不規(guī)范或字庫(kù)中無(wú)次字。);重慶大學(xué)本科學(xué)生畢業(yè)設(shè)計(jì)(論文) 算法實(shí)現(xiàn)結(jié)果和分析

42、4 算法實(shí)現(xiàn)結(jié)果和分析4.1 模擬結(jié)果介紹 MFC支持界面操作,在vc平臺(tái)上建立一MFC AppWizard.exe文件,根據(jù)系統(tǒng)提示建立一對(duì)話(huà)框后拖入需要的控件(按扭、文本框等),在控件的消息響應(yīng)里寫(xiě)如響應(yīng)代碼,按此步驟程序運(yùn)行結(jié)果如下: 圖 4.1 程序運(yùn)行界面其中中間的白色區(qū)域是模擬手寫(xiě)板,用鼠標(biāo)可以在里面進(jìn)行寫(xiě)字操作,右邊四個(gè)按扭的功能分別為: 識(shí)別:對(duì)寫(xiě)如的漢字圖像進(jìn)行識(shí)別; 清除:清除手寫(xiě)板中內(nèi)容以重新書(shū)寫(xiě); 學(xué)習(xí):若想要往字庫(kù)中添加字符,可先寫(xiě)如要添加的漢字然后點(diǎn)擊此鍵; 退出:結(jié)束軟件運(yùn)行;下面演示手寫(xiě)漢字的識(shí)別操作,首先寫(xiě)入漢字 圖4.2 漢字的寫(xiě)入 點(diǎn)擊“識(shí)別”按扭進(jìn)行識(shí)別

43、操作 圖4.3 系統(tǒng)識(shí)別寫(xiě)入的漢字圖像漢字被成功識(shí)別。若字庫(kù)中沒(méi)有寫(xiě)如的漢字,可以點(diǎn)擊“學(xué)習(xí)”按扭向字庫(kù)中添加此字。如下圖所示: 圖4.4 通過(guò)“學(xué)習(xí)”過(guò)程向字庫(kù)添加漢字特征4.2 結(jié)果分析 通過(guò)前面幾章的講述,至此基于多特征提前的聯(lián)機(jī)手寫(xiě)漢字識(shí)別算法及起計(jì)算機(jī)實(shí)現(xiàn)都已完成,下面是部分實(shí)驗(yàn)的識(shí)別效果和對(duì)算法的分析。 在實(shí)驗(yàn)中能識(shí)別的漢字圖像如: 圖4.5 能夠識(shí)別的漢字圖像示例 圖4.6 不能識(shí)別的漢字圖像示例算法對(duì)書(shū)寫(xiě)規(guī)范性不同的漢字圖像的識(shí)別率見(jiàn)下表:漢字書(shū)寫(xiě)的規(guī)范性樣本容量能識(shí)別數(shù)量不能識(shí)別數(shù)量識(shí)別率很規(guī)范8074692.5%較規(guī)范80681285.0%不規(guī)范80423852.5% 表4

44、.7 對(duì)不同程度規(guī)范漢字圖像的識(shí)別率其中,規(guī)范性主要是指筆劃的標(biāo)準(zhǔn)程度,比如說(shuō)“橫”的歪曲度等。下表給出了該算法對(duì)不同結(jié)構(gòu)的漢字的識(shí)別效果:漢字結(jié)構(gòu)類(lèi)型樣本容量能識(shí)別數(shù)量不能識(shí)別數(shù)量識(shí)別率上下結(jié)構(gòu)5046492.0%左右結(jié)構(gòu)5048296.0%半包圍5041982.0%全包圍5045590.0%復(fù)合5044688.0% 表4.8 對(duì)不同結(jié)構(gòu)漢字的識(shí)別率(很規(guī)范)從上表可以看出,該算法對(duì)半包圍和復(fù)合結(jié)構(gòu)的漢字識(shí)別效果不太理想,主要因?yàn)檫@兩種結(jié)構(gòu)的漢字書(shū)寫(xiě)起來(lái)難度較大,用鼠標(biāo)很難把每一筆劃寫(xiě)得標(biāo)準(zhǔn),這就直接導(dǎo)致了識(shí)別率的降低.從以上實(shí)驗(yàn)結(jié)果,我們可以得出結(jié)論:基于多特征提取的識(shí)別算法通過(guò)兩級(jí)識(shí)別機(jī)

45、制,彌補(bǔ)了單純基于筆劃特征算法和單純基于統(tǒng)計(jì)特征算法的不足,同時(shí)在計(jì)算量上也沒(méi)有增大太多,多寫(xiě)的比較規(guī)范的漢字能識(shí)別90%以上,在實(shí)際應(yīng)用中取得了比較好的效果,但有實(shí)現(xiàn)該算法有兩點(diǎn)必須注意:基于筆劃特征提取算法強(qiáng)調(diào)書(shū)寫(xiě)每一個(gè)字時(shí)都要遵循一定的筆順(此處的“筆順”是廣義的,即第一次向字庫(kù)中讀入該字時(shí)的書(shū)寫(xiě)順序),不然將無(wú)法識(shí)別,現(xiàn)在字庫(kù)中的常用字都是嚴(yán)格按筆順寫(xiě)入的,如使用者的書(shū)寫(xiě)習(xí)慣不同,可在第一次使用時(shí)向字庫(kù)中添加。此外還有一點(diǎn),書(shū)寫(xiě)漢字時(shí)不能有連筆現(xiàn)象,這樣將無(wú)法識(shí)別或得到錯(cuò)誤結(jié)果。由于手寫(xiě)體和印刷體差別很大,欲使通常應(yīng)用于印刷體漢字識(shí)別的基于統(tǒng)計(jì)特征的算法在手寫(xiě)體漢字識(shí)別中取的較好效果,漢字的書(shū)寫(xiě)就必須強(qiáng)調(diào)規(guī)范、工整,不然可能無(wú)法正確識(shí)別。 上述兩點(diǎn)注意事項(xiàng)其實(shí)可以看做是本算法的不足,目前基于漢字特征點(diǎn)的識(shí)別算法和小波分析算法可以對(duì)以上不足做出比較好的補(bǔ)充,具體請(qǐng)查閱參考書(shū)目。重慶大學(xué)本科學(xué)生畢業(yè)設(shè)計(jì)(論文) 總結(jié)和展望5 總結(jié)和展望5.1 論文總結(jié) 論文選題是在第七學(xué)期后期確定的,之后發(fā)放了任務(wù)書(shū)。第八

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶(hù)所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶(hù)上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶(hù)上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶(hù)因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論