第三章漢字編碼原理_第1頁(yè)
第三章漢字編碼原理_第2頁(yè)
第三章漢字編碼原理_第3頁(yè)
第三章漢字編碼原理_第4頁(yè)
第三章漢字編碼原理_第5頁(yè)
已閱讀5頁(yè),還剩90頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶(hù)提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、第三章漢字編碼原理第三節(jié) 漢字編碼原理一、什么是漢字編碼 漢字外碼:漢字的字母數(shù)字代碼 計(jì)算機(jī)人機(jī)界面:鍵盤(pán) 字母 數(shù)字 控制符號(hào) 功能鍵位二、漢字編碼的歷史發(fā)展 廣義的漢字編碼是從漢字字書(shū)的編撰算起的。因?yàn)樽值涞木幾?,離不開(kāi)字的排序和檢索。 字典是供人來(lái)*查閱,編碼輸入法是讓機(jī)器到字庫(kù)中去查找。都是按照某種規(guī)則排列和檢索漢字*的。 可以說(shuō),早期的漢字排字檢字法就是漢字編碼的早期形式。比如, 筆畫(huà)部首法、四角號(hào)碼法、拼音查字法、筆形查字法等。最早的漢字代碼 年清政府創(chuàng)辦電報(bào)局,由丹麥人設(shè)計(jì)的漢字電報(bào)碼。它的方法是將電報(bào)用的漢字按照筆畫(huà)順序由少到多排列成一個(gè)字表。 使用的字?jǐn)?shù)不到一萬(wàn),就以字的順

2、序號(hào)作該字的代碼。第一個(gè)字的代碼就是,第五個(gè)字的代碼就是,第個(gè)字的代碼就是。 電報(bào)碼一直使用到今天,經(jīng)過(guò)不斷的修訂完善成為標(biāo)準(zhǔn)電碼本。 十個(gè)數(shù)字如果轉(zhuǎn)換為二進(jìn)制表示,則只需四位二進(jìn)制單位。這樣,用“嘀嗒”兩種狀態(tài)就可以傳輸漢字了。 電報(bào)碼的特點(diǎn)是“字”“碼”一一對(duì)應(yīng),沒(méi)有重碼。 缺點(diǎn)是難以記憶,非經(jīng)過(guò)專(zhuān)門(mén)訓(xùn)練無(wú)法使用。三、編碼原理 、確定編碼對(duì)象 漢字的總字?jǐn)?shù)有萬(wàn)多,現(xiàn)代漢語(yǔ)常用的也有萬(wàn)左右。信息交換用漢字編碼字符集基本集根據(jù)各種統(tǒng)計(jì)數(shù)據(jù)確定收入漢字個(gè)。這些漢字就是一個(gè)編碼對(duì)象的數(shù)量級(jí)。 “大字符集” 包括大陸、臺(tái)灣、日本、韓國(guó)所使用的全部漢字的集合。有0902字。 數(shù)量不同,有關(guān)參數(shù)也不同。

3、、確定碼元類(lèi)型和數(shù)量 碼元是用來(lái)作為漢字代碼的元素。例如, 電報(bào)碼的碼元就是這十個(gè)阿拉伯?dāng)?shù)字。 碼元的種類(lèi)和數(shù)量與編碼容量、以及碼長(zhǎng)、重碼數(shù)等指標(biāo)直接相關(guān)。 比如電報(bào)碼,采用十個(gè)數(shù)目字作碼元,四位碼長(zhǎng)的編碼容量至多個(gè)漢字,從到。超過(guò)萬(wàn)字就是出現(xiàn)重碼,否則就必須增加碼長(zhǎng)。 一般的編碼方案多采用個(gè)英文字母作碼元, 也有的在這個(gè)基礎(chǔ)上再增加個(gè)數(shù)目字,使碼元數(shù)增加到個(gè)的方案, 還有的把字母鍵盤(pán)區(qū)的其它功能鍵也利用上的。 這種需要增加碼元數(shù)的方案多數(shù)是形碼方案。、確定編碼規(guī)則 理想的規(guī)則是“字碼意義對(duì)應(yīng)” 、規(guī)則簡(jiǎn)單,好學(xué)易記,沒(méi)有復(fù)雜的條件限制或特例情況。 實(shí)際上最難做到。 比如按形排序,同筆畫(huà)數(shù)的字

4、很多,同筆畫(huà)的字當(dāng)中,起筆相同的也不少,甚至筆順相同的也有。究竟誰(shuí)先誰(shuí)后,難以給出一個(gè)標(biāo)準(zhǔn)。 按音排序也有個(gè)同音字的先后問(wèn)題。同音、同調(diào)、同筆畫(huà)數(shù)的漢字再按什么條件排先后,都是難題。 人為地增加許多規(guī)定,勢(shì)必增加用戶(hù)的學(xué)習(xí)量。、編制碼表 所謂碼表就是“字”“碼”對(duì)照表。 按照確定的編碼規(guī)則將基本集中的全部漢字逐個(gè)給出正確的代碼,形成一個(gè)字碼對(duì)照表。、編制軟件、上機(jī)實(shí)現(xiàn) 這部分是軟件人員的工作。軟件人員根據(jù)編碼規(guī)則和碼表, 設(shè)計(jì)一個(gè)查字管理程序,經(jīng)過(guò)調(diào)試,準(zhǔn)確無(wú)誤,就可以投入使用。 至此,一個(gè)漢字編碼系統(tǒng)就完成了從設(shè)計(jì)到實(shí)現(xiàn)的整個(gè)過(guò)程。四、漢字編碼的技術(shù)參數(shù)指標(biāo) 漢字編碼是一個(gè)理論與實(shí)踐性都很強(qiáng)

5、的課題,而最重要的是它的實(shí)踐性,也即在實(shí)際應(yīng)用中的效果。 因?yàn)檫@是要解決漢字信息處理的第一個(gè)“人機(jī)界面”,所以,幾乎全部技術(shù)指標(biāo)都與“人”密切相關(guān)。 在“人服從機(jī)器”還是“機(jī)器服從人”這個(gè)問(wèn)題上,曾經(jīng)有過(guò)一個(gè)認(rèn)識(shí)過(guò)程。 開(kāi)始為了使機(jī)器能夠處理漢字,主要是從機(jī)器出發(fā)的,重點(diǎn)考慮機(jī)器的特點(diǎn)和條件,較少考慮人的特點(diǎn)和需要。 后來(lái)才將立腳點(diǎn)轉(zhuǎn)移到“人”這方面來(lái),將許多困難都留給機(jī)器,使機(jī)器對(duì)人服務(wù)得友好、周到,人的操作變得輕松、愉快。什么是理想的編碼 、規(guī)則簡(jiǎn)單。 一般具有中等文化水平的人不需要經(jīng)過(guò)專(zhuān)門(mén)培訓(xùn)就可以通過(guò)“自學(xué)”完全掌握。 如果能夠利用人的常識(shí)和知識(shí),如果這種常識(shí)和知識(shí)中涉及或包括了關(guān)于漢

6、字的基本知識(shí), 編碼規(guī)則應(yīng)當(dāng)簡(jiǎn)化到不需要特殊的規(guī)則的地步。、碼元數(shù)量少 一般不超過(guò)個(gè),即個(gè)字母外加個(gè)數(shù)字鍵。最好只使用個(gè)字母鍵。 這樣,對(duì)于人來(lái)說(shuō)記憶量減少,對(duì)于機(jī)器來(lái)說(shuō),在鍵盤(pán)管理方面較好處理。、碼長(zhǎng)短 每個(gè)漢字的代碼不超過(guò)四碼。如果采用簡(jiǎn)碼和不等長(zhǎng)碼處理的話(huà), 平均碼長(zhǎng)應(yīng)當(dāng)在碼以下。、編碼容量具有可擴(kuò)展性 漢字信息處理除了基本集的個(gè)漢字外,隨著實(shí)際應(yīng)用的發(fā)展,不可避免地出現(xiàn)繁體漢字的問(wèn)題以及大字符集的問(wèn)題。 理想的漢字編碼應(yīng)當(dāng)在不增加或少增加規(guī)則的基礎(chǔ)上,就能夠使編碼容量擴(kuò)展到繁體漢字或更大的范圍。、采用詞語(yǔ)編碼 應(yīng)具有足夠的詞匯編碼容量。詞語(yǔ)碼最長(zhǎng)不超過(guò)碼。 應(yīng)該給用戶(hù)提供足夠的詞庫(kù)擴(kuò)展

7、空間和擴(kuò)展手段,使用戶(hù)能夠方便自如地根據(jù)自己的需要增加用戶(hù)詞匯。、重碼率低 一般用戶(hù)可以實(shí)現(xiàn)“盲打”,即不用看鍵盤(pán)(有一定的鍵盤(pán)基礎(chǔ)的情況下)和提示行就能夠輸入漢字。 只有能實(shí)現(xiàn)盲打,才能提高輸入速度。、服務(wù)功能 系統(tǒng)能提供方便周到的自學(xué)檢索服務(wù)功能。例如, 對(duì)規(guī)則的訓(xùn)練指導(dǎo)、查詢(xún)疑難字,容錯(cuò)處理、允許模糊輸入等等。、具有廣泛的適應(yīng)性 適合不同年齡層次、不同地域、不同文化背景的人學(xué)習(xí)使用, 同時(shí),又能適應(yīng)各種類(lèi)型的輸入,比如 “照打”、“想打”、“聽(tīng)打”、“盲打”等。第四節(jié)漢字編碼類(lèi)型、流水碼 流水碼的特點(diǎn)是: 碼元只有個(gè)阿拉伯?dāng)?shù)字; 一般多為等長(zhǎng)四碼,有效數(shù)字不足四位的在前面加零補(bǔ)足四位;

8、字、碼一一對(duì)應(yīng),沒(méi)有重碼; 字、碼之間沒(méi)有理?yè)?jù)性,就是沒(méi)經(jīng)過(guò)專(zhuān)門(mén)訓(xùn)練不能做到“見(jiàn)字識(shí)碼”;、拼音碼 是以漢字的讀音屬性為編碼依據(jù),采用鍵盤(pán)上的拉丁字母做為碼元的編碼方法。又分為 “全拼音碼”、 “簡(jiǎn)化拼音碼”、 “雙拼音碼”三種。 一般不加聲調(diào)。全拼音碼的特點(diǎn) 碼元為個(gè)拉丁字母; 與教學(xué)、社會(huì)應(yīng)用的拼音規(guī)則完全一致,只要會(huì)拼音的人就會(huì)編碼,能夠作到“見(jiàn)字識(shí)碼”; 因?yàn)槭恰鞍匆艟幋a”,怎么讀就怎么輸入,便于思路的連續(xù)性,適于“想打”即寫(xiě)作者邊想邊打的方式; 為不等長(zhǎng)碼,最長(zhǎng)的如“裝”“創(chuàng)”“雙”音節(jié)都是碼; 重碼較多,有的音節(jié)多達(dá)上百個(gè)重碼,多次翻頁(yè),很不方便;簡(jiǎn)化拼音碼 主要為了解決碼長(zhǎng)過(guò)長(zhǎng)的

9、問(wèn)題,減少擊鍵次數(shù),提高輸入速度,在拼寫(xiě)規(guī)則上加以簡(jiǎn)化處理,將雙字母聲母“”“”“”以及許多兩字母以上的復(fù)韻母都各用一個(gè)字母代替。比較常用的如前面介紹的所配置的拼音碼。 簡(jiǎn)化拼音碼的特點(diǎn),除了比全拼音碼減少碼長(zhǎng)外,其余與全拼音碼都一樣。但是,因?yàn)?,增加了字母替換規(guī)則,所以,就比全拼音碼增加了學(xué)習(xí)量。雙拼音碼 根據(jù)漢字傳統(tǒng)的“反切”拼音的原理,采用一聲一韻的字母拼寫(xiě)形式,進(jìn)一步將每字的碼長(zhǎng)減少到兩碼。 雙拼音碼的特點(diǎn)是: 碼元為個(gè)拉丁字母; 較復(fù)雜的聲母、韻母替換規(guī)則,須經(jīng)過(guò)一段時(shí)間的學(xué)習(xí)才能掌握; 重碼仍然與普通音碼一樣多; 由于碼長(zhǎng)短可以提高輸入速度;標(biāo)調(diào)拼音碼 漢語(yǔ)是有聲調(diào)的語(yǔ)言,漢語(yǔ)的聲

10、調(diào)是一個(gè)重要的“音位”,具有重要的辨義功能。有一種樂(lè)器叫做“雷琴”,可以只用“音高”就能模擬漢語(yǔ)的句子。這個(gè)例子足以說(shuō)明漢語(yǔ)聲調(diào)的重要性。 拼音碼為了降低重碼率,采用標(biāo)調(diào)的辦法,這樣的拼音碼,我們稱(chēng)之為“標(biāo)調(diào)拼音碼”。 漢語(yǔ)的音節(jié)是有數(shù)的:不加聲調(diào)只有個(gè),加聲調(diào)則有個(gè)左右。 漢字共有萬(wàn)個(gè)。收在基本集中的有個(gè)。 不加聲調(diào)平均每個(gè)音節(jié)約有個(gè)重碼,加上重碼分布的不平衡,個(gè)別的音節(jié)就有幾十甚至上百個(gè); 如果加上聲調(diào),平均每個(gè)音節(jié)只有不到個(gè)重碼了。 在漢語(yǔ)拼音方案中規(guī)定了“陰平、陽(yáng)平、上聲、去聲”四種聲調(diào)的調(diào)號(hào),調(diào)號(hào)的位置要標(biāo)在一個(gè) 音 節(jié) 的 主 要 元 音 的 上 面 。 比 如 ,“”等。雖然字庫(kù)

11、中做好了帶調(diào)號(hào)的主要元音的字模點(diǎn)陣,但是鍵盤(pán)上卻沒(méi)有相應(yīng)的鍵位,所以,采用通用鍵盤(pán)輸入漢字就無(wú)法輸入調(diào)號(hào),所以只好采用變通的辦法。 漢語(yǔ)拼音歷史上標(biāo)調(diào)的方法有三種:符號(hào)標(biāo)調(diào)法、數(shù)字標(biāo)調(diào)法和字母標(biāo)調(diào)法。符號(hào)標(biāo)調(diào)法 年注音字母公布時(shí)采用小圓圈標(biāo)調(diào),以一個(gè)拼音音節(jié)的四個(gè)角表示四個(gè)不同的聲調(diào),叫做“四聲點(diǎn)法”或叫“點(diǎn)角法”。后來(lái),改用現(xiàn)在的調(diào)號(hào)來(lái)表示。數(shù)字標(biāo)調(diào)法 比如用、分別表示一聲、二聲、三聲、四聲,將表示調(diào)號(hào)的數(shù)字放在一個(gè)音節(jié)的末尾。 在實(shí)際使用當(dāng)中,又有一些變通的處理辦法。比如, 挑選出一個(gè)含字?jǐn)?shù)最多的聲調(diào),作為“默認(rèn)值”,用“零位”表示,即用不加調(diào)號(hào)來(lái)表示該調(diào)號(hào)。其余的分別加上數(shù)字調(diào)號(hào),實(shí)際上

12、等于只增加了三個(gè)調(diào)號(hào)符號(hào)。 這樣作可以縮短碼長(zhǎng),減少擊鍵次數(shù)。采用這種方法的編碼方案如山東煙臺(tái)唐懋寬的“聲數(shù)碼”就是其中較有代表性的一個(gè)。字母標(biāo)調(diào)法 在具體做法上各有不同。這種方法在漢語(yǔ)拼音方案的設(shè)計(jì)過(guò)程中就有人試驗(yàn)過(guò), 其中比較有代表性的例子是“國(guó)語(yǔ)羅馬字拼音方案”等?!皣?guó)羅”的聲調(diào)表示法 陰平(包括輕聲)用基本形式; 陽(yáng)平濁音半濁音聲母()用基本形式; “”、“”作韻頭時(shí)改為、,如: 黃、元、今, 但是,單獨(dú)作韻母時(shí)則用雙字母表示,如: 皮、湖; 開(kāi)口韻在元音后加“”,如 拔、達(dá)、啥;上聲 單元音連寫(xiě),如閃,版、比; 復(fù)韻母“”改“ ” 、 “ ” 改“”,如檢、廣、百、好; 、四韻采用連

13、寫(xiě)法,如北、手、姐、妥;去聲 韻尾改寫(xiě):改為、改為、改為、改為、改為或,如在、占、勝; 采用字母標(biāo)調(diào)的漢字編碼方案如山東青島丁天鐸的“漢語(yǔ)輔助字編碼方案”。拼音編碼的瓶頸 同音字繁多,影響輸入 新華字典中,讀SHI音的字有72個(gè), 漢語(yǔ)詞典中,讀YI音的字有164個(gè)。 同音詞也影響編碼輸入 Shi-shi的詞就有如下的24條: 失實(shí)、失時(shí)、詩(shī)史、失事、 失勢(shì)、施事、實(shí)施、時(shí)時(shí)、 事事、時(shí)事、時(shí)勢(shì)、時(shí)世、 時(shí)式、史詩(shī)、史實(shí)、試試、 誓師、事實(shí)、適時(shí)、事勢(shì)、 逝世、世事、視事、實(shí)時(shí) 形碼 字“形”具有“音”和“義”都無(wú)法比擬的唯一性。 字“形” 圖形信息豐富,可供采用。 字“形”不受不同口音、不同

14、國(guó)家的影響。 形碼主要根據(jù)漢字的字形特征信息進(jìn)行編碼。 漢字的形體分析有筆畫(huà)、字根、結(jié)構(gòu)方式、部位特征等。 從不同的角度選擇特征信息、設(shè)計(jì)編碼規(guī)則,就形成了不同類(lèi)型的編碼方案。筆畫(huà)筆形碼 以漢字的基本筆畫(huà)特征為取碼依據(jù),參考筆順、部位特征等信息的編碼方案統(tǒng)稱(chēng)為“筆畫(huà)筆形碼”。 這類(lèi)編碼方案的基本方法是, 首先確定漢字的基本筆畫(huà)數(shù),一般有“五種”、“六種”或“八種”不等, 然后確定這些基本筆畫(huà)的固定順序,給每種筆畫(huà)一個(gè)順序代號(hào)。 按照寫(xiě)字時(shí)筆順的先后就可以將一個(gè)漢字轉(zhuǎn)換成筆畫(huà)代碼的線(xiàn)性排列。 例如,假設(shè)確定的漢字基本筆畫(huà)為“橫、豎、撇、捺、點(diǎn)、折”這樣的六種,并且代號(hào)依次為“、”, 這時(shí),任何一

15、個(gè)漢字都可以轉(zhuǎn)換成用這六個(gè)數(shù)字組成的“數(shù)字串”來(lái)表示了。如:“中”,“國(guó)”等。筆畫(huà)筆形碼的特點(diǎn) 碼元數(shù)少; 規(guī)則極其簡(jiǎn)單,幾乎沒(méi)有記憶量; 平均碼長(zhǎng)過(guò)長(zhǎng),因?yàn)闈h字的平均筆畫(huà)約為劃,基本集中筆畫(huà)最多的“齄”有劃。所以,單純用筆畫(huà)編碼由于碼長(zhǎng)過(guò)長(zhǎng)而降低了實(shí)用價(jià)值。 由于有些字的筆順缺乏統(tǒng)一和規(guī)范,在具體編碼時(shí)會(huì)出現(xiàn)二義性情況;字根碼 漢字是可以分析的,從說(shuō)文解字開(kāi)始,漢字就有兩分法的傳統(tǒng),就有所謂“獨(dú)體”“合體”之說(shuō)。至今仍沿用的“部首查字法”實(shí)際上就是將漢字拆分成有限數(shù)量的結(jié)構(gòu)單位,依此作為漢字檢索的依據(jù)和途徑。字根碼的特點(diǎn) 克服表音碼不知讀音就不會(huì)編碼的缺點(diǎn),同時(shí)也避免了漢語(yǔ)方言對(duì)拼音碼的干擾

16、。即使不認(rèn)識(shí)的漢字也能根據(jù)字根給出正確的編碼; 重碼率比音碼大幅度降低; 規(guī)則較復(fù)雜,包括拆字、取碼、確定字根代碼等都有許多硬性規(guī)定的規(guī)則; 學(xué)習(xí)量較大,尤其是字根與鍵位的對(duì)應(yīng)關(guān)系難學(xué)難記。通常要把一、二百個(gè)字根安排在個(gè)鍵位上不經(jīng)過(guò)專(zhuān)門(mén)訓(xùn)練無(wú)法使用。一般學(xué)習(xí)期要周到一個(gè)月; 因漢字的拆分沒(méi)有統(tǒng)一的標(biāo)準(zhǔn)和規(guī)范,在字根的數(shù)量、大小、拆分方法、名稱(chēng)等方面都沒(méi)有標(biāo)準(zhǔn)。各個(gè)編碼方案的作者按照自己的認(rèn)識(shí)去做,這些做法又與傳統(tǒng)的漢字教學(xué)有許多不同,因此,給用戶(hù)造成許多困惑。字根碼的瓶頸 部首只是漢字分析結(jié)果的一部分。 傳統(tǒng)的漢字分析結(jié)果有偏旁、部首、聲符、形符等名稱(chēng)。 它們之間雖然有區(qū)別,但是尚缺乏統(tǒng)一的稱(chēng)

17、呼。比如說(shuō)“偏旁”包括“部首”,但又有“左偏右旁”之說(shuō); 又比如,上下結(jié)構(gòu)的字,部首在上部,該怎么稱(chēng)呼它的結(jié)構(gòu)成分呢; 而且一個(gè)漢字去掉部首之后的部分,該叫什么名稱(chēng)呢。 許多表形碼的作者自發(fā)地使用“字元”、“字素”、“構(gòu)件”、“部件”、“構(gòu)字成份”、“筆畫(huà)組合”、“字根”等名稱(chēng)。這些名稱(chēng)的稱(chēng)謂對(duì)象并沒(méi)有根本的區(qū)別。經(jīng)研討,大家基本傾向于使用“字根”的名稱(chēng)。本書(shū)就用“字根”一詞作為筆畫(huà)與漢字之間的成份的稱(chēng)呼。所以,字根碼就包括了所有進(jìn)行漢字拆分的編碼方案。 大小、標(biāo)準(zhǔn)都不同。比如“韶”字有分成“ 音 ” “ 召 ” 二 根 的 , 也 有 分 成“立”“日”“刀”“口”四根的。字形特征碼 利用漢

18、字的結(jié)構(gòu)特征信息對(duì)漢字進(jìn)行的編碼叫做“字形特征碼”。如“四角號(hào)碼”、“三角號(hào)碼”、“高低筆號(hào)編碼”等。 字形特征碼的編碼依據(jù)是漢字部位信息量分布不平衡的特點(diǎn)。這使?jié)h字作為圖形符號(hào),在識(shí)別和使用中具有“模糊識(shí)別”的特點(diǎn),就是說(shuō),在一個(gè)字中總有些部位的筆畫(huà)、結(jié)構(gòu)成分所含有的信息量大、成為重要的區(qū)別性特征;而有些筆畫(huà)和結(jié)構(gòu)成分的信息量很少,區(qū)別性意義不大,在識(shí)別過(guò)程中往往被忽略。在編碼規(guī)則上,就選取具有區(qū)別性特征的部位的信息進(jìn)行編碼。字形特征碼的特點(diǎn) 除了具有形碼的不受字音影響的特點(diǎn)外,也克服了筆畫(huà)筆形碼受筆順的限制、字根碼拆分標(biāo)準(zhǔn)不統(tǒng)一等二義性的干擾; 規(guī)則相對(duì)簡(jiǎn)單; 碼元少,碼長(zhǎng)不長(zhǎng),所以重碼較

19、多,為了區(qū)別重碼,只好增加規(guī)則或增加碼長(zhǎng);、音形結(jié)合碼 漢字是一個(gè)形、音、義的統(tǒng)一體。漢字的信息特征分布在字形、字音、字義方面。在編碼實(shí)踐中,人們逐漸認(rèn)識(shí)到,單純的按“音”或按“形”編碼都不很理想,都不符合“近字性”原則。從漢字本身分析,同音字的原因主要在于漢字形旁的辨義功能;而具有相同的部首的一批漢字的區(qū)別性特征在于讀音的不同。顯然,字音和字形都是漢字的重要區(qū)別性特征,二者都不可缺少。 字音屬性主要有聲、韻、調(diào),字形屬性有筆畫(huà)、字根、部位、結(jié)構(gòu)特征等。而筆畫(huà)、字根也可以有“形”、有“音”、有“名稱(chēng)”。因此,究竟利用哪些特征信息來(lái)編碼,實(shí)在大有資源潛力。這也是造成漢字編碼多樣化的一個(gè)重要原因。

20、聲形碼 以漢字的語(yǔ)音特征為主、以字形信息為輔的編碼叫做“聲形碼”。比如,一組同音字中再用該字的偏旁讀音的聲母作為區(qū)別碼。這種重碼字的區(qū)別碼是有理?yè)?jù)的,可以不必特別記憶。此外也可以用字形的結(jié)構(gòu)特征或某一個(gè)部位的特征等作為區(qū)別碼,都屬于聲形碼。因?yàn)槭羌骖櫫俗忠襞c字形兩種信息,所以,每種信息都取其中的一部分而不是全部。比如,也可以先取整個(gè)字的聲母,再將該字一分為二,分別取各部分的讀音的聲母,組成這個(gè)字的編碼。聲形碼的特點(diǎn) 因?yàn)椴皇亲忠舻娜啃畔?,所以容許使用者發(fā)音不準(zhǔn),比如只取聲母,發(fā)不準(zhǔn)韻母的用戶(hù)也照樣能用; 基本符合漢字使用習(xí)慣,如平時(shí)所說(shuō)的“人言為信”、“弓長(zhǎng)張”、“立早章”則“信”的編碼就是

21、“”、“張”的編碼是“”、“章”的編碼是“”。 因?yàn)槭褂昧俗中涡畔?,所以,在編碼的同時(shí),破壞了語(yǔ)言思維的連續(xù)性,不便于“想打”,而且難以提高速度; 字形屬性信息仍然由于缺乏統(tǒng)一標(biāo)準(zhǔn)而干擾取碼。形聲碼 以形為主以音為輔的編碼叫做“形聲碼”。字形屬性一般多分析出字根,再根據(jù)字根的讀音特征,按音編碼。例如,組成“韶”字的幾個(gè)字根的讀音分別是“、”若取這些字根的讀音的首字母可以組成“”四個(gè)字母代碼。這就是“韶”字的形聲碼。當(dāng)然,形聲碼的取碼規(guī)則各有不同的特點(diǎn),形成各類(lèi)大同小異的形聲碼。形聲碼的特點(diǎn) 避免了記憶復(fù)雜的字根鍵位分布對(duì)應(yīng)關(guān)系,按讀音確定字根代碼,比形碼大大地減少了學(xué)習(xí)記憶量; 以字形信息為主

22、,利用的信息量大,重碼率相對(duì)少; 基本保留了形碼不受方音干擾的優(yōu)點(diǎn),對(duì)于不認(rèn)識(shí)的漢字,拆成字根后就都能認(rèn)識(shí)了;聲形義結(jié)合碼 除了字形和讀音信息之外,還有的方案作者利用漢字的意義信息來(lái)編碼,目的是進(jìn)一步區(qū)別重碼,作到“全息編碼”。所謂“意義”信息其實(shí)只是“義類(lèi)”信息,即漢字所表示的意義的大類(lèi)。這種對(duì)漢字“義類(lèi)”的認(rèn)識(shí)來(lái)源于說(shuō)文解字。 許慎在說(shuō)文解字中分析出的個(gè)部首都具有表“義類(lèi)”的功能。個(gè)部首的排列依據(jù)也不是象今天似的按筆畫(huà)多少,而是按“意義”。 關(guān)于部首表義的研究一直沒(méi)有間斷,在清代達(dá)到了一個(gè)高峰。所以,漢字的意義屬性的確屬于漢字屬性的一部分。 現(xiàn)代漢字已經(jīng)不斷地“符號(hào)化”了,究竟具有多少表義性,大可疑問(wèn)。因此,利用意義屬性給漢字編碼,就應(yīng)當(dāng)考慮意義信息的比重、客觀理?yè)?jù)性和可接受性。 聲形義結(jié)合碼的例子如郭秀珍的“聲韻部形碼”,在意義類(lèi)型上,將部首分成“ 自 然 ” “ 生 物 ” “ 生 理 ” “ 生活”“余類(lèi)”五大類(lèi)。臺(tái)灣的“倉(cāng)頡輸入法”將“倉(cāng)頡字母 ” 分 成 “ 哲 理類(lèi)”“筆畫(huà)類(lèi)”“人身類(lèi)”“字形類(lèi)”四大類(lèi)。聲形義結(jié)合碼的特點(diǎn) 綜合利用漢字的形、聲

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶(hù)所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶(hù)上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶(hù)上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶(hù)因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論