淺談漢字特征字母及其提取規(guī)則_第1頁
淺談漢字特征字母及其提取規(guī)則_第2頁
淺談漢字特征字母及其提取規(guī)則_第3頁
全文預覽已結束

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

1、淺談漢字特征字母及其提取規(guī)那么所謂特征字母,是指那些最能表征漢字輪廓特點的漢字字母。人們看到一個漢字時,一般首先注意到的是它的輪廓特征,然后才是它的局部細節(jié)。這就是漢字的認知規(guī)律。從圖形識別的角度來看,漢字認知更加注重輪廓性和整體性,字形的細微變化并不會給漢字認知造成多大影響。因此,特征字母一定是構成漢字輪廓的漢字字母。研究發(fā)現(xiàn):人們通常是從漢字左上角開始,沿著順時針方向掃描漢字輪廓的見以下列圖。因此,最能表征漢字輪廓特點的特征字母,首先是構成漢字左上角的漢字字母,其次是構成漢字右上角的漢字字母,再次是構成漢字右下角的漢字字母,最后是構成漢字左下角的漢字字母。左上角一右上角一右下角一左下角對于

2、左右構造的漢字來說:左上角特征字母通常就是字首首字母第一個字母角特征字母通常就是字身首字母;右下角特征字母通常就是字身末字母最后一個字母左下角特征字母通常就是字首末字母見以下列圖。磁)字首首字置字首末字母因此,左右構造漢字的特征字母依次是字首首字母、字身首字母、字身末字母和字首末字母。對于上下構造的漢字來說:左上角特征字母通常就是字首首字母;右下角特征字母通常就是字身末字母;右上角特征字母有時是字首首字母如“京字,有時是字首末字母如“簡字,有時是中間字母如“雪字,難以確定;左下角特征字母有時是字身首字母如“四字,有時是字身末字母如“全字,有時是中間字母如“罷字,同樣難以確定。對于多數(shù)上下構造的

3、漢字來說,人們通過一次掃描還無法辨識出漢字,還要進展第二次掃描,即掃描字身左上角和右上角,掃描的角度較第一次要小些。字身左上角特征字母通常就是字首首字母,而字身右上角特征字母的位置那么難以確定見以下列圖。字首首字£字身首字母f15字身未字母因此,上下構造漢字的特征字母依次是字首首字母,字身末字母和字身首字母。正因為上下構造漢字的辨識需要進展兩次掃描,所以,人們辨識上下構造漢字所花費的時間要比辨識左右構造漢字要多些;正因為上下構造漢字的特征字母為3個,比左右構造漢字的特征字母數(shù)量少1個,所以,人們對上下構造漢字辨識的錯誤率比上下構造漢字要高些。這就是在漢字構造類型中,左右構造漢字數(shù)量占

4、絕對優(yōu)勢的原因見下表。7785個常用漢字構造類型的統(tǒng)計數(shù)據(jù):構造類型獨體上下左右包圍字數(shù)323P164875055754占總字數(shù)百分比%對于半包圍構造漢字,其特征字母的提取類似于上下構造漢字或左右構造漢字。對于全包圍構造漢字,仍然需要進展兩次掃描,第一次是對漢字外輪廓的掃描,第二次是對漢字內輪廓的掃描,第二次掃描角度較上下構造漢字要大些見以下列圖。字首R字母字身首字母47字身末字母第一次掃描提取的特征字母是字首首字母和字首末字母,第二次掃描提取的特征字母是字身首字母和字身末字母。因此,全包圍構造漢字的特征字母依次是字首首字母、字首末字母、字身首字母和字身末字母。正因為全包圍構造漢字的辨識需要進

5、展兩次一樣角度的掃描,所以,人們辨識全包圍構造漢字所花費的時間甚至比辨識上下構造漢字還要多些;正因為全包圍構造漢字的特征字母為4個,與左右構造漢字的特征字母數(shù)量一樣,比上下構造漢字的特征字母數(shù)量多1個,所以,人們對全包圍構造漢字辨識的錯誤率比上下構造漢字要低些,與左右構造漢字大體相當。這就是在漢字構造類型中,全包圍構造漢字數(shù)量比較少的原因。對于獨體字,其特征字母是獨體字的首字母和末字母見以下列圖。雖然特征字母只有兩個,比其他構造漢字都要少些,但是,獨體字的筆畫數(shù)普遍較少,兩個特征字母足以反映其輪廓特征。對兩個特征字母的掃描識別速度顯然比其他構造漢字要快些。這就是獨體字漢字的第1個特征字母應當是

6、字首首字母,第2個特征字母應當是字身末字特別容易識記、識別速度最快的原因。綜合起來看,母,因為這兩個特征字母最能反映漢字的輪廓特征,無論是什么樣構造的漢字,它的首字母和末字母都是極易確定的。漢字的第3個特征字母應當是字身首字母,因為它除了可以反映漢字的外部輪廓特征之外,還能反映漢字的內部構造特點。不過,獨體字是沒有字首和字身之分的。為了統(tǒng)一規(guī)那么,我們仿照們將獨體字的第一個漢字字母視為字首,將其余漢字字母視為字身,這樣一來,獨體字也是由字首和字身兩個局部組成的。特征字母的提取,應當遵循以下原那么:假設是提取漢字的一個特征字母,應當提取其字首首字母;假設是提取漢字的兩個特征字母,應當提取其字首首

7、字母和字身末字母,或者提取其字首首字母和字身首字母;假設是提取漢字的三個特征字母,應當提取其字首首字母、字身首字母和字身末字母。下表列出了5654個常用漢字特征字母組字次數(shù)的統(tǒng)計數(shù)據(jù):漢字字母12345678字首首字母r5311004475330957118214707001字身首字母3851252646260985939589547字身末字母643503176113410814161071584根據(jù)表中統(tǒng)計數(shù)據(jù),制作成以下坐標圖便于比較:觀察上述坐標圖發(fā)現(xiàn):字首首字母的組字次數(shù)分布折線波動幅度最小,其最大波幅出如今2一畫豎和6兩畫豎上,這說明字首首字母中所包含的豎筆最多;字身末字母的組字次數(shù)分布折線波動幅度最大,其最大波幅出如今4一畫捺和8兩畫捺上,這說明字身末字母中所包含的捺筆含點最多;字身首字母的組字次數(shù)分布折線波動幅度居中,其最大波幅出如今2一畫豎和5兩畫橫上,這說明字身首字母中所包含的豎筆和橫筆最多。從前面分析中,特征字母的組字次數(shù)分布折線波動越小,由這些特征字母所組成的詞語字母組合的區(qū)分度就越高,用術語來說,就是這些詞語字母組合的重碼率就越低。因此,特征字母首選字首首字母,次選字身首字母,后選字身末字母。然而,鑒于字首首字母就是整個漢

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論