




版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
1、第第10講講 印刷體漢字的特印刷體漢字的特征提取征提取要點:印刷體漢字的歸一化方法特征提取的重要性印刷體漢字的常用識別特征課堂練習印刷體漢字的歸一化方法漢字被輸入到計算機中提取特征前通常需要做歸一化處理。歸一化有三種:位置歸一化大小歸一化筆劃粗細歸一化返回位置歸一化什么是位置歸一化位置歸一化的方法噪聲對位置歸一化的影響返回什么是位置歸一化為了消除漢字點陣位置上的偏差,需要把整個漢字點陣圖形移動到規(guī)定的位置上,這個過程被稱做位置歸一化。返回位置歸一化的方法基于質心的位置歸一化基于漢字外邊框的位置歸一化返回基于質心的位置歸一化首先計算漢字的質心,然后再把質心移動到指定的位置上來。質心計算舉例返回漢
2、字質心的計算水平質心:n垂直質心: IiJjIiJjxjicjiciG1111),(/ ),( IiJjIiJjyjicjicjG1111),(/ ),(設c(i,j)表示漢字點陣,質心計算如下:返回質心計算舉例各行各列黑點數各行黑點數:I=161,1,12,2,2,8,1,1,1,14,1,1,1,1,2,1各列黑點數:J=160,2,3,3,3,4,5,10,4,4,3,2,3,3,1,0質心計算結果3 . 7),(/ ),(1111 IiJjIiJjxjicjiciG16. 8),(/ ),(1111 IiJjIiJjyjicjicjG50),(11 IiJjjic365),(11 Ii
3、Jjjici408),(11 jicjIiJj返回基于漢字外邊框的位置歸一化首先計算漢字的外邊框,并找出中心,然后把漢字中心移動到指定的位置上來。返回噪聲對位置歸一化的影響基于質心的位置歸一化方法抗干擾力更強。返回大小歸一化什么是大小歸一化大小歸一化的作用大小歸一化的方法大小歸一化的缺點返回什么是大小歸一化對不同大小的文字做變換,使之成為同一尺寸大小的文字,這個過程被稱做大小歸一化。返回大小歸一化的作用通過大小歸一化,許多特征就能夠用于識別不同字號混排的文字返回大小歸一化的方法基于外框的大小歸一化基于散度的大小歸一化返回基于外框的大小歸一化將漢字的外邊框按比例線性放大或縮小成為規(guī)定尺寸的漢字。
4、舉例放大時需要考慮如何加點的問題縮小時需要考慮如何減點的問題不同的近似方法可能產生不同的結果返回基于外框的大小歸一化舉例返回放大時的加點問題放大加點LXLYlxlyyYxXlyLYlxLX,返回縮小時的減點問題縮小減點LXLYlylxYyXxLYlyLXlx,返回基于散度的大小歸一化根據水平和垂直兩個方向文字黑像素的分布進行大小歸一化。水平散度x和垂直散度y的計算散度的計算舉例基于散度的歸一化舉例返回水平散度和垂直散度的計算返回 IiJjxIiJjxjicGijic112112),(/)(),( IiJjyJjIiyjicGjjic112112),(/)(),(散度計算舉例x =3.869y
5、=3.325返回0544.119700.1422yx基于散度的歸一化舉例返回大小歸一化的缺點基于外框的大小歸一化對噪聲影響很敏感基于散度的大小歸一化對于有些字,如“目”、“且”,歸一化后會使它們的形狀更相似而難以區(qū)別返回筆劃粗細歸一化什么是圖像細化圖像細化的作用圖像細化的特點圖像細化的方法圖像細化舉例返回什么是圖像細化一個圖像的“骨架”是指圖像中央的骨骼部分,是描述圖像幾何及拓撲性質的重要特征之一。求一個圖像骨架的過程通常稱為對圖像的“細化”過程。返回圖像的骨架舉例原圖像圖像骨架細化處理返回圖像細化的作用在字符識別、地質構造識別、工業(yè)零件形狀識別或圖像理解中,先對被處理的圖像進行細化有助于突出
6、形狀特點和減少冗余的信息量返回圖像細化的特點在細化過程中,圖像有規(guī)律的縮小在縮小過程中,圖像的連通性質保持不變返回圖像細化的方法把一幅圖像中的一個33區(qū)域,對各點標記名稱P1, P2, P9, 其中P1位于中心。如果P1 =1(即黑點),在下面四個條件同時滿足時,刪除P1 (即使P1 =0)。返回33區(qū)域的各點標記返回P3P2P9P4P1P8P5P6P7圖像細化的四個條件2NZ(P1)6, NZ(P1)=P2+ P3+P9Z0(P1)=1, Z0(P1)=P2*P3 + P8*P9 + P9*P2P2* P4* P8=0 或者Z0(P2)1P2* P4* P6=0 或者Z0(P4)1返回圖像細
7、化舉例返回特征提取的重要性印刷體漢字識別中的關鍵問題是特征提取問題,尤其是提取那些比較具有分類價值,同時又比較容易通過程序計算得到的那些特征,以及那些對字體的不同、漢字大小的不同和噪聲的影響等因素不敏感的特征。返回印刷體漢字的常用識別特征復雜指數, 四邊碼, 粗外圍特征粗網格特征, 筆劃密度特征漢字特征點, 包含配選法基于小筆段的層次結構, 差筆劃返回復雜指數字符在x和y方向的復雜指數定義為:復雜指數反映了字符的x和y方向筆劃的復雜程度,對字符的位置和大小不敏感。復雜指數舉例返回yJjIiyxIiJjxjiccjicc 1 111),(,),(復雜指數舉例x =3.869y =3.325cx
8、=12.92cy =15.04返回四邊碼從字符周圍邊框開始,向內取適當的寬度,以此寬度分割出四周的四個部分。根據每一個部分中含有的文字黑像素的多少分為四級編碼(0,1,2,3)。四邊碼特征對字符的斷線適應性較強。四邊碼舉例返回四邊碼舉例下圖中“昨”字的四邊碼為“0102”。返回粗外圍特征粗外圍特征的提取方法粗外圍特征舉例粗外圍特征的作用返回粗外圍特征的提取方法先求出文字的外邊框,再把pq點陣文字分割成nn份,n通常取8。從文字四邊框各向對邊掃描,計算最初與文字筆劃相碰的非文字部分的面積和全部面積之比作為一次粗外圍特征p1i(4n維),再將第二次與文字線相碰的非文字部分面積和全部文字面積之比作為
9、二次粗外圍特征p2i (4n維) ,形成8n維的特征向量。返回粗外圍特征舉例返回粗外圍特征的作用一次粗外圍特征反映了文字輪廓特征,二次粗外圍特征在某種程度上反映了文字內部結構。返回粗網格特征把加框pq點陣文字分割成nn份,n通常取8,取每份中黑像素對整個文字黑像素的比例,將所有nn值排成一列形成 維特征向量粗網格特征體現了文字整體形狀的分布,但該特征抗筆劃位置干擾的能力差返回2n筆劃密度特征筆劃密度特征的提取方法筆劃密度特征舉例筆劃密度特征的作用返回筆劃密度特征的提取方法在加框的pq點陣中,向不同的方向投影,對文字黑像素的個數做累加計算,形成筆劃密度直方圖。通常取水平、垂直、45度和135度四
10、個掃描方向,每個方向取n個值(通常n=16)作為特征,形成4n維特征向量。返回筆劃密度特征舉例返回筆劃密度特征的作用這種從文字四個方向抽取的筆劃密度特征叫做四方向筆劃密度特征,它不但對印刷體漢字分類有較好的效果,對手寫印刷體漢字分類也具有價值。返回漢字特征點什么是漢字特征點漢字筆劃骨架和特征點的關系漢字特征點的分類漢字特征點舉例漢字特征點的作用漢字特征點的穩(wěn)定性返回什么是漢字特征點一個漢字的筆劃上和背景中的關鍵點是漢字結構的一種本質字形特征。漢字基本上由直線筆劃構成,是一種直線型文字。在一幅二值化圖像中,漢字信息絕大部分集中在漢字骨架上,而漢字骨架信息又大多集中在若干筆劃特征點上。這些點稱為筆
11、劃特征點。返回漢字筆劃骨架和特征點的關系確定筆劃特征點后,根據若干連接規(guī)則,漢字的筆劃骨架就可以確定。返回漢字特征點的分類漢字筆劃特征點可以取端點、折點、歧點和交點。端點是筆劃的起(或終)點且不與別的筆劃相接;折點是筆劃方向出現顯著變化的點;歧點是三叉點,要求其中兩個筆段分支方向相同;交點是四叉點且有兩對等的對頂角。返回漢字特征點舉例返回漢字特征點的作用漢字筆劃特征點集中了主要的漢字結構信息。端、折點決定了一個漢字的筆劃位置和形狀;歧點、交點決定了不同筆劃間的相互連接關系。漢字特征點反映了漢字結構特征所以,用特征點來識別漢字,可以增加抗噪聲能力,提高實用性。 返回漢字特征點的穩(wěn)定性由于漢字特征
12、點是由漢字結構本質所決定的,所以無論是北方印刷漢字還是南方印刷漢字;無論是書版還是報版字,無論是宋體印刷漢字還是其他體印刷漢字,甚至是書寫規(guī)整的手寫印刷體漢字,同一漢字的特征點很少變動。其中折點、交點更穩(wěn)定。返回包含配選法什么是包含配選法包含配選法的原理圖包含配選法的特點使用包含配選法應注意的問題返回什么是包含配選法許多漢字具有相同的偏旁部首,包含配選法就是利用這一點對漢字分類。分類用的模板是漢字偏旁部首的骨架圖形。分類時,將輸入文字和各標準模板做“與”運算。根據未知輸入文字圖像和分類用標準模板圖像“與”的結果是否相同于該標準圖像,可以判斷出未知文字屬于哪一類。 返回包含配選法的原理圖包含配選
13、法實際上是一種模板匹配法。返回包含配選法的特點當識別字數增多時,由于偏旁部首的標準模板增加很少,其分類速度比粗外圍和粗網格法容易提高,而存儲量要求較少。返回使用包含配選法應注意的問題在沒有和標準圖像相“與”匹配前,先把未知文字圖像橫線加粗成大于等于3個像素寬,以利于包含相匹配的模板,但是也加大了包含其他標準模板的概率,因而誤識率會增加。為避免文字筆劃絕對位置移動帶來的干擾,需要把圖像沿上下左右四個方向平移一個像素,然后分別與標準模板相匹配。只要有一次匹配成功,就判定該文字屬于標準模板圖像的類別。返回基于小筆段的層次結構什么是小筆段小筆段舉例小筆段的作用小筆段的優(yōu)點小筆段的缺點返回什么是小筆段小
14、筆段是組成漢字筆劃的基元漢字筆劃由若干小筆段首尾相連構成返回小筆段舉例返回小筆段的作用小筆段組成了筆劃,筆劃又組成了漢字。由小筆段到筆劃,再到漢字的層次結構描述,反映了漢字結構不同層次的約束關系。返回小筆段的優(yōu)點小筆段作為基元一方面易于提??;另一方面它又保留了漢字基本的筆劃結構信息,且在字體變化或噪聲干擾條件下,仍能保持筆劃結構的絕大部分信息。返回小筆段的缺點漢字字體改變和干擾影響會使得小筆段特征向量有變化。 因此,用層次結構法對未知漢字匹配判別時,采用精確匹配方法往往不能奏效。較好的辦法是采用由漢字小筆段相關系數(相關系數反映了相互約束關系) 約束的松弛匹配算法。返回差筆劃差筆劃法是一種適用于多體印刷漢字細分的方法。舉例粗分類后,通常每類中含有許多形狀相似的文字,采用差筆劃方法,可以較好地區(qū)分這些形狀相似的文字。返回差筆劃法舉例返回課堂練習計算右邊字符矩陣的質心計算右邊字符矩陣的水平和垂直投影密度向量判斷第2行第2列的1是否滿足圖像細化的刪除條件返回計算質心質心的計算過程如下:返回72. 543/24643/ )610594847464534434251 (43/ ),(),(/ ),(101811111 ijIiJjIiJjxjicijicjiciG43),(11 IiJj
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 合伙服裝生意合同范本
- 合作餐飲小吃合同范本
- 桉樹買賣合同范本
- 合同性聯營合同范本
- 共同銷售合作合同范本
- 2025年紫外激光傳輸光纖合作協議書
- 上海車位過戶合同范本
- 廠家和員工合同范例
- 介紹焊工提成合同范本
- 下發(fā)合同范例通知
- Python爬蟲技術基礎介紹
- 中華民族共同體概論教案第四講-天下秩序與華夏共同體演進
- 《傳媒法律法規(guī)》課件
- 人力資源行業(yè)人力資源管理信息系統實施方案
- 客服服務合同范例
- 歌曲《wake》中英文歌詞對照
- 論語誠信課件教學課件
- 中醫(yī)院中醫(yī)文化傳承制度
- 2024改性瀝青路面施工技術規(guī)范
- GB/T 44399-2024移動式金屬氫化物可逆儲放氫系統
- 急性中毒的診斷與治療新進展課件
評論
0/150
提交評論