第三章漢字編碼原理

上傳人：0*** IP屬地：湖北上傳時(shí)間：2022-05-07 格式：PPT 頁(yè)數(shù)：95 大?。?30.51KB 積分：28 舉報(bào) 版權(quán)申訴

已閱讀5頁(yè)，還剩90頁(yè)未讀，繼續(xù)免費(fèi)閱讀

版權(quán)說(shuō)明：本文檔由用戶(hù)提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、第三章漢字編碼原理第三節(jié) 漢字編碼原理一、什么是漢字編碼漢字外碼：漢字的字母數(shù)字代碼計(jì)算機(jī)人機(jī)界面：鍵盤(pán) 字母數(shù)字控制符號(hào) 功能鍵位二、漢字編碼的歷史發(fā)展廣義的漢字編碼是從漢字字書(shū)的編撰算起的。因?yàn)樽值涞木幾?，離不開(kāi)字的排序和檢索。字典是供人來(lái)*查閱，編碼輸入法是讓機(jī)器到字庫(kù)中去查找。都是按照某種規(guī)則排列和檢索漢字*的。可以說(shuō)，早期的漢字排字檢字法就是漢字編碼的早期形式。比如，筆畫(huà)部首法、四角號(hào)碼法、拼音查字法、筆形查字法等。最早的漢字代碼年清政府創(chuàng)辦電報(bào)局，由丹麥人設(shè)計(jì)的漢字電報(bào)碼。它的方法是將電報(bào)用的漢字按照筆畫(huà)順序由少到多排列成一個(gè)字表。使用的字?jǐn)?shù)不到一萬(wàn)，就以字的順

2、序號(hào)作該字的代碼。第一個(gè)字的代碼就是，第五個(gè)字的代碼就是，第個(gè)字的代碼就是。電報(bào)碼一直使用到今天，經(jīng)過(guò)不斷的修訂完善成為標(biāo)準(zhǔn)電碼本。十個(gè)數(shù)字如果轉(zhuǎn)換為二進(jìn)制表示，則只需四位二進(jìn)制單位。這樣，用“嘀嗒”兩種狀態(tài)就可以傳輸漢字了。電報(bào)碼的特點(diǎn)是“字”“碼”一一對(duì)應(yīng)，沒(méi)有重碼。缺點(diǎn)是難以記憶，非經(jīng)過(guò)專(zhuān)門(mén)訓(xùn)練無(wú)法使用。三、編碼原理、確定編碼對(duì)象漢字的總字?jǐn)?shù)有萬(wàn)多，現(xiàn)代漢語(yǔ)常用的也有萬(wàn)左右。信息交換用漢字編碼字符集基本集根據(jù)各種統(tǒng)計(jì)數(shù)據(jù)確定收入漢字個(gè)。這些漢字就是一個(gè)編碼對(duì)象的數(shù)量級(jí)。 “大字符集” 包括大陸、臺(tái)灣、日本、韓國(guó)所使用的全部漢字的集合。有0902字。數(shù)量不同，有關(guān)參數(shù)也不同。

3、、確定碼元類(lèi)型和數(shù)量碼元是用來(lái)作為漢字代碼的元素。例如，電報(bào)碼的碼元就是這十個(gè)阿拉伯?dāng)?shù)字。碼元的種類(lèi)和數(shù)量與編碼容量、以及碼長(zhǎng)、重碼數(shù)等指標(biāo)直接相關(guān)。比如電報(bào)碼，采用十個(gè)數(shù)目字作碼元，四位碼長(zhǎng)的編碼容量至多個(gè)漢字，從到。超過(guò)萬(wàn)字就是出現(xiàn)重碼，否則就必須增加碼長(zhǎng)。一般的編碼方案多采用個(gè)英文字母作碼元，也有的在這個(gè)基礎(chǔ)上再增加個(gè)數(shù)目字，使碼元數(shù)增加到個(gè)的方案，還有的把字母鍵盤(pán)區(qū)的其它功能鍵也利用上的。這種需要增加碼元數(shù)的方案多數(shù)是形碼方案。、確定編碼規(guī)則理想的規(guī)則是“字碼意義對(duì)應(yīng)” 、規(guī)則簡(jiǎn)單，好學(xué)易記，沒(méi)有復(fù)雜的條件限制或特例情況。實(shí)際上最難做到。比如按形排序，同筆畫(huà)數(shù)的字

4、很多，同筆畫(huà)的字當(dāng)中，起筆相同的也不少，甚至筆順相同的也有。究竟誰(shuí)先誰(shuí)后，難以給出一個(gè)標(biāo)準(zhǔn)。按音排序也有個(gè)同音字的先后問(wèn)題。同音、同調(diào)、同筆畫(huà)數(shù)的漢字再按什么條件排先后，都是難題。人為地增加許多規(guī)定，勢(shì)必增加用戶(hù)的學(xué)習(xí)量。、編制碼表所謂碼表就是“字”“碼”對(duì)照表。按照確定的編碼規(guī)則將基本集中的全部漢字逐個(gè)給出正確的代碼，形成一個(gè)字碼對(duì)照表。、編制軟件、上機(jī)實(shí)現(xiàn) 這部分是軟件人員的工作。軟件人員根據(jù)編碼規(guī)則和碼表，設(shè)計(jì)一個(gè)查字管理程序，經(jīng)過(guò)調(diào)試，準(zhǔn)確無(wú)誤，就可以投入使用。至此，一個(gè)漢字編碼系統(tǒng)就完成了從設(shè)計(jì)到實(shí)現(xiàn)的整個(gè)過(guò)程。四、漢字編碼的技術(shù)參數(shù)指標(biāo) 漢字編碼是一個(gè)理論與實(shí)踐性都很強(qiáng)

5、的課題，而最重要的是它的實(shí)踐性，也即在實(shí)際應(yīng)用中的效果。因?yàn)檫@是要解決漢字信息處理的第一個(gè)“人機(jī)界面”，所以，幾乎全部技術(shù)指標(biāo)都與“人”密切相關(guān)。在“人服從機(jī)器”還是“機(jī)器服從人”這個(gè)問(wèn)題上，曾經(jīng)有過(guò)一個(gè)認(rèn)識(shí)過(guò)程。開(kāi)始為了使機(jī)器能夠處理漢字，主要是從機(jī)器出發(fā)的，重點(diǎn)考慮機(jī)器的特點(diǎn)和條件，較少考慮人的特點(diǎn)和需要。后來(lái)才將立腳點(diǎn)轉(zhuǎn)移到“人”這方面來(lái)，將許多困難都留給機(jī)器，使機(jī)器對(duì)人服務(wù)得友好、周到，人的操作變得輕松、愉快。什么是理想的編碼、規(guī)則簡(jiǎn)單。一般具有中等文化水平的人不需要經(jīng)過(guò)專(zhuān)門(mén)培訓(xùn)就可以通過(guò)“自學(xué)”完全掌握。如果能夠利用人的常識(shí)和知識(shí)，如果這種常識(shí)和知識(shí)中涉及或包括了關(guān)于漢

6、字的基本知識(shí)，編碼規(guī)則應(yīng)當(dāng)簡(jiǎn)化到不需要特殊的規(guī)則的地步。、碼元數(shù)量少一般不超過(guò)個(gè)，即個(gè)字母外加個(gè)數(shù)字鍵。最好只使用個(gè)字母鍵。這樣，對(duì)于人來(lái)說(shuō)記憶量減少，對(duì)于機(jī)器來(lái)說(shuō)，在鍵盤(pán)管理方面較好處理。、碼長(zhǎng)短每個(gè)漢字的代碼不超過(guò)四碼。如果采用簡(jiǎn)碼和不等長(zhǎng)碼處理的話(huà)，平均碼長(zhǎng)應(yīng)當(dāng)在碼以下。、編碼容量具有可擴(kuò)展性漢字信息處理除了基本集的個(gè)漢字外，隨著實(shí)際應(yīng)用的發(fā)展，不可避免地出現(xiàn)繁體漢字的問(wèn)題以及大字符集的問(wèn)題。理想的漢字編碼應(yīng)當(dāng)在不增加或少增加規(guī)則的基礎(chǔ)上，就能夠使編碼容量擴(kuò)展到繁體漢字或更大的范圍。、采用詞語(yǔ)編碼應(yīng)具有足夠的詞匯編碼容量。詞語(yǔ)碼最長(zhǎng)不超過(guò)碼。應(yīng)該給用戶(hù)提供足夠的詞庫(kù)擴(kuò)展

7、空間和擴(kuò)展手段，使用戶(hù)能夠方便自如地根據(jù)自己的需要增加用戶(hù)詞匯。、重碼率低一般用戶(hù)可以實(shí)現(xiàn)“盲打”，即不用看鍵盤(pán)（有一定的鍵盤(pán)基礎(chǔ)的情況下）和提示行就能夠輸入漢字。只有能實(shí)現(xiàn)盲打，才能提高輸入速度。、服務(wù)功能系統(tǒng)能提供方便周到的自學(xué)檢索服務(wù)功能。例如，對(duì)規(guī)則的訓(xùn)練指導(dǎo)、查詢(xún)疑難字，容錯(cuò)處理、允許模糊輸入等等。、具有廣泛的適應(yīng)性適合不同年齡層次、不同地域、不同文化背景的人學(xué)習(xí)使用，同時(shí)，又能適應(yīng)各種類(lèi)型的輸入，比如 “照打”、“想打”、“聽(tīng)打”、“盲打”等。第四節(jié)漢字編碼類(lèi)型、流水碼流水碼的特點(diǎn)是：碼元只有個(gè)阿拉伯?dāng)?shù)字；一般多為等長(zhǎng)四碼，有效數(shù)字不足四位的在前面加零補(bǔ)足四位；

8、字、碼一一對(duì)應(yīng)，沒(méi)有重碼；字、碼之間沒(méi)有理?yè)?jù)性，就是沒(méi)經(jīng)過(guò)專(zhuān)門(mén)訓(xùn)練不能做到“見(jiàn)字識(shí)碼”；、拼音碼是以漢字的讀音屬性為編碼依據(jù)，采用鍵盤(pán)上的拉丁字母做為碼元的編碼方法。又分為 “全拼音碼”、 “簡(jiǎn)化拼音碼”、 “雙拼音碼”三種。一般不加聲調(diào)。全拼音碼的特點(diǎn) 碼元為個(gè)拉丁字母；與教學(xué)、社會(huì)應(yīng)用的拼音規(guī)則完全一致，只要會(huì)拼音的人就會(huì)編碼，能夠作到“見(jiàn)字識(shí)碼”；因?yàn)槭恰鞍匆艟幋a”，怎么讀就怎么輸入，便于思路的連續(xù)性，適于“想打”即寫(xiě)作者邊想邊打的方式；為不等長(zhǎng)碼，最長(zhǎng)的如“裝”“創(chuàng)”“雙”音節(jié)都是碼；重碼較多，有的音節(jié)多達(dá)上百個(gè)重碼，多次翻頁(yè)，很不方便；簡(jiǎn)化拼音碼主要為了解決碼長(zhǎng)過(guò)長(zhǎng)的

9、問(wèn)題，減少擊鍵次數(shù)，提高輸入速度，在拼寫(xiě)規(guī)則上加以簡(jiǎn)化處理，將雙字母聲母“”“”“”以及許多兩字母以上的復(fù)韻母都各用一個(gè)字母代替。比較常用的如前面介紹的所配置的拼音碼。簡(jiǎn)化拼音碼的特點(diǎn)，除了比全拼音碼減少碼長(zhǎng)外，其余與全拼音碼都一樣。但是，因?yàn)椋黾恿俗帜柑鎿Q規(guī)則，所以，就比全拼音碼增加了學(xué)習(xí)量。雙拼音碼根據(jù)漢字傳統(tǒng)的“反切”拼音的原理，采用一聲一韻的字母拼寫(xiě)形式，進(jìn)一步將每字的碼長(zhǎng)減少到兩碼。雙拼音碼的特點(diǎn)是：碼元為個(gè)拉丁字母；較復(fù)雜的聲母、韻母替換規(guī)則，須經(jīng)過(guò)一段時(shí)間的學(xué)習(xí)才能掌握；重碼仍然與普通音碼一樣多；由于碼長(zhǎng)短可以提高輸入速度；標(biāo)調(diào)拼音碼漢語(yǔ)是有聲調(diào)的語(yǔ)言，漢語(yǔ)的聲

10、調(diào)是一個(gè)重要的“音位”，具有重要的辨義功能。有一種樂(lè)器叫做“雷琴”，可以只用“音高”就能模擬漢語(yǔ)的句子。這個(gè)例子足以說(shuō)明漢語(yǔ)聲調(diào)的重要性。拼音碼為了降低重碼率，采用標(biāo)調(diào)的辦法，這樣的拼音碼，我們稱(chēng)之為“標(biāo)調(diào)拼音碼”。漢語(yǔ)的音節(jié)是有數(shù)的：不加聲調(diào)只有個(gè)，加聲調(diào)則有個(gè)左右。漢字共有萬(wàn)個(gè)。收在基本集中的有個(gè)。不加聲調(diào)平均每個(gè)音節(jié)約有個(gè)重碼，加上重碼分布的不平衡，個(gè)別的音節(jié)就有幾十甚至上百個(gè)；如果加上聲調(diào)，平均每個(gè)音節(jié)只有不到個(gè)重碼了。在漢語(yǔ)拼音方案中規(guī)定了“陰平、陽(yáng)平、上聲、去聲”四種聲調(diào)的調(diào)號(hào)，調(diào)號(hào)的位置要標(biāo)在一個(gè) 音節(jié) 的主要元音的上面。比如，“”等。雖然字庫(kù)

11、中做好了帶調(diào)號(hào)的主要元音的字模點(diǎn)陣，但是鍵盤(pán)上卻沒(méi)有相應(yīng)的鍵位，所以，采用通用鍵盤(pán)輸入漢字就無(wú)法輸入調(diào)號(hào)，所以只好采用變通的辦法。漢語(yǔ)拼音歷史上標(biāo)調(diào)的方法有三種：符號(hào)標(biāo)調(diào)法、數(shù)字標(biāo)調(diào)法和字母標(biāo)調(diào)法。符號(hào)標(biāo)調(diào)法年注音字母公布時(shí)采用小圓圈標(biāo)調(diào)，以一個(gè)拼音音節(jié)的四個(gè)角表示四個(gè)不同的聲調(diào)，叫做“四聲點(diǎn)法”或叫“點(diǎn)角法”。后來(lái)，改用現(xiàn)在的調(diào)號(hào)來(lái)表示。數(shù)字標(biāo)調(diào)法比如用、分別表示一聲、二聲、三聲、四聲，將表示調(diào)號(hào)的數(shù)字放在一個(gè)音節(jié)的末尾。在實(shí)際使用當(dāng)中，又有一些變通的處理辦法。比如，挑選出一個(gè)含字?jǐn)?shù)最多的聲調(diào)，作為“默認(rèn)值”，用“零位”表示，即用不加調(diào)號(hào)來(lái)表示該調(diào)號(hào)。其余的分別加上數(shù)字調(diào)號(hào)，實(shí)際上

12、等于只增加了三個(gè)調(diào)號(hào)符號(hào)。這樣作可以縮短碼長(zhǎng)，減少擊鍵次數(shù)。采用這種方法的編碼方案如山東煙臺(tái)唐懋寬的“聲數(shù)碼”就是其中較有代表性的一個(gè)。字母標(biāo)調(diào)法在具體做法上各有不同。這種方法在漢語(yǔ)拼音方案的設(shè)計(jì)過(guò)程中就有人試驗(yàn)過(guò)，其中比較有代表性的例子是“國(guó)語(yǔ)羅馬字拼音方案”等。“國(guó)羅”的聲調(diào)表示法陰平（包括輕聲）用基本形式；陽(yáng)平濁音半濁音聲母（）用基本形式； “”、“”作韻頭時(shí)改為、，如：黃、元、今，但是，單獨(dú)作韻母時(shí)則用雙字母表示，如：皮、湖；開(kāi)口韻在元音后加“”，如拔、達(dá)、啥；上聲單元音連寫(xiě)，如閃，版、比；復(fù)韻母“”改“ ” 、 “ ” 改“”，如檢、廣、百、好；、四韻采用連

13、寫(xiě)法，如北、手、姐、妥；去聲韻尾改寫(xiě)：改為、改為、改為、改為、改為或，如在、占、勝；采用字母標(biāo)調(diào)的漢字編碼方案如山東青島丁天鐸的“漢語(yǔ)輔助字編碼方案”。拼音編碼的瓶頸同音字繁多，影響輸入新華字典中，讀SHI音的字有72個(gè)，漢語(yǔ)詞典中，讀YI音的字有164個(gè)。同音詞也影響編碼輸入 Shi-shi的詞就有如下的24條：失實(shí)、失時(shí)、詩(shī)史、失事、失勢(shì)、施事、實(shí)施、時(shí)時(shí)、事事、時(shí)事、時(shí)勢(shì)、時(shí)世、時(shí)式、史詩(shī)、史實(shí)、試試、誓師、事實(shí)、適時(shí)、事勢(shì)、逝世、世事、視事、實(shí)時(shí) 形碼字“形”具有“音”和“義”都無(wú)法比擬的唯一性。字“形” 圖形信息豐富，可供采用。字“形”不受不同口音、不同

14、國(guó)家的影響。形碼主要根據(jù)漢字的字形特征信息進(jìn)行編碼。漢字的形體分析有筆畫(huà)、字根、結(jié)構(gòu)方式、部位特征等。從不同的角度選擇特征信息、設(shè)計(jì)編碼規(guī)則，就形成了不同類(lèi)型的編碼方案。筆畫(huà)筆形碼以漢字的基本筆畫(huà)特征為取碼依據(jù)，參考筆順、部位特征等信息的編碼方案統(tǒng)稱(chēng)為“筆畫(huà)筆形碼”。這類(lèi)編碼方案的基本方法是，首先確定漢字的基本筆畫(huà)數(shù)，一般有“五種”、“六種”或“八種”不等，然后確定這些基本筆畫(huà)的固定順序，給每種筆畫(huà)一個(gè)順序代號(hào)。按照寫(xiě)字時(shí)筆順的先后就可以將一個(gè)漢字轉(zhuǎn)換成筆畫(huà)代碼的線(xiàn)性排列。例如，假設(shè)確定的漢字基本筆畫(huà)為“橫、豎、撇、捺、點(diǎn)、折”這樣的六種，并且代號(hào)依次為“、”，這時(shí)，任何一

15、個(gè)漢字都可以轉(zhuǎn)換成用這六個(gè)數(shù)字組成的“數(shù)字串”來(lái)表示了。如：“中”，“國(guó)”等。筆畫(huà)筆形碼的特點(diǎn) 碼元數(shù)少；規(guī)則極其簡(jiǎn)單，幾乎沒(méi)有記憶量；平均碼長(zhǎng)過(guò)長(zhǎng)，因?yàn)闈h字的平均筆畫(huà)約為劃，基本集中筆畫(huà)最多的“齄”有劃。所以，單純用筆畫(huà)編碼由于碼長(zhǎng)過(guò)長(zhǎng)而降低了實(shí)用價(jià)值。由于有些字的筆順缺乏統(tǒng)一和規(guī)范，在具體編碼時(shí)會(huì)出現(xiàn)二義性情況；字根碼漢字是可以分析的，從說(shuō)文解字開(kāi)始，漢字就有兩分法的傳統(tǒng)，就有所謂“獨(dú)體”“合體”之說(shuō)。至今仍沿用的“部首查字法”實(shí)際上就是將漢字拆分成有限數(shù)量的結(jié)構(gòu)單位，依此作為漢字檢索的依據(jù)和途徑。字根碼的特點(diǎn) 克服表音碼不知讀音就不會(huì)編碼的缺點(diǎn)，同時(shí)也避免了漢語(yǔ)方言對(duì)拼音碼的干擾

16、。即使不認(rèn)識(shí)的漢字也能根據(jù)字根給出正確的編碼；重碼率比音碼大幅度降低；規(guī)則較復(fù)雜，包括拆字、取碼、確定字根代碼等都有許多硬性規(guī)定的規(guī)則；學(xué)習(xí)量較大，尤其是字根與鍵位的對(duì)應(yīng)關(guān)系難學(xué)難記。通常要把一、二百個(gè)字根安排在個(gè)鍵位上不經(jīng)過(guò)專(zhuān)門(mén)訓(xùn)練無(wú)法使用。一般學(xué)習(xí)期要周到一個(gè)月；因漢字的拆分沒(méi)有統(tǒng)一的標(biāo)準(zhǔn)和規(guī)范，在字根的數(shù)量、大小、拆分方法、名稱(chēng)等方面都沒(méi)有標(biāo)準(zhǔn)。各個(gè)編碼方案的作者按照自己的認(rèn)識(shí)去做，這些做法又與傳統(tǒng)的漢字教學(xué)有許多不同，因此，給用戶(hù)造成許多困惑。字根碼的瓶頸部首只是漢字分析結(jié)果的一部分。傳統(tǒng)的漢字分析結(jié)果有偏旁、部首、聲符、形符等名稱(chēng)。它們之間雖然有區(qū)別，但是尚缺乏統(tǒng)一的稱(chēng)

17、呼。比如說(shuō)“偏旁”包括“部首”，但又有“左偏右旁”之說(shuō)；又比如，上下結(jié)構(gòu)的字，部首在上部，該怎么稱(chēng)呼它的結(jié)構(gòu)成分呢；而且一個(gè)漢字去掉部首之后的部分，該叫什么名稱(chēng)呢。許多表形碼的作者自發(fā)地使用“字元”、“字素”、“構(gòu)件”、“部件”、“構(gòu)字成份”、“筆畫(huà)組合”、“字根”等名稱(chēng)。這些名稱(chēng)的稱(chēng)謂對(duì)象并沒(méi)有根本的區(qū)別。經(jīng)研討，大家基本傾向于使用“字根”的名稱(chēng)。本書(shū)就用“字根”一詞作為筆畫(huà)與漢字之間的成份的稱(chēng)呼。所以，字根碼就包括了所有進(jìn)行漢字拆分的編碼方案。大小、標(biāo)準(zhǔn)都不同。比如“韶”字有分成“ 音 ” “ 召 ” 二根的，也有分成“立”“日”“刀”“口”四根的。字形特征碼利用漢

18、字的結(jié)構(gòu)特征信息對(duì)漢字進(jìn)行的編碼叫做“字形特征碼”。如“四角號(hào)碼”、“三角號(hào)碼”、“高低筆號(hào)編碼”等。字形特征碼的編碼依據(jù)是漢字部位信息量分布不平衡的特點(diǎn)。這使?jié)h字作為圖形符號(hào)，在識(shí)別和使用中具有“模糊識(shí)別”的特點(diǎn)，就是說(shuō)，在一個(gè)字中總有些部位的筆畫(huà)、結(jié)構(gòu)成分所含有的信息量大、成為重要的區(qū)別性特征；而有些筆畫(huà)和結(jié)構(gòu)成分的信息量很少，區(qū)別性意義不大，在識(shí)別過(guò)程中往往被忽略。在編碼規(guī)則上，就選取具有區(qū)別性特征的部位的信息進(jìn)行編碼。字形特征碼的特點(diǎn) 除了具有形碼的不受字音影響的特點(diǎn)外，也克服了筆畫(huà)筆形碼受筆順的限制、字根碼拆分標(biāo)準(zhǔn)不統(tǒng)一等二義性的干擾；規(guī)則相對(duì)簡(jiǎn)單；碼元少，碼長(zhǎng)不長(zhǎng)，所以重碼較

19、多，為了區(qū)別重碼，只好增加規(guī)則或增加碼長(zhǎng)；、音形結(jié)合碼漢字是一個(gè)形、音、義的統(tǒng)一體。漢字的信息特征分布在字形、字音、字義方面。在編碼實(shí)踐中，人們逐漸認(rèn)識(shí)到，單純的按“音”或按“形”編碼都不很理想，都不符合“近字性”原則。從漢字本身分析，同音字的原因主要在于漢字形旁的辨義功能；而具有相同的部首的一批漢字的區(qū)別性特征在于讀音的不同。顯然，字音和字形都是漢字的重要區(qū)別性特征，二者都不可缺少。字音屬性主要有聲、韻、調(diào)，字形屬性有筆畫(huà)、字根、部位、結(jié)構(gòu)特征等。而筆畫(huà)、字根也可以有“形”、有“音”、有“名稱(chēng)”。因此，究竟利用哪些特征信息來(lái)編碼，實(shí)在大有資源潛力。這也是造成漢字編碼多樣化的一個(gè)重要原因。

20、聲形碼以漢字的語(yǔ)音特征為主、以字形信息為輔的編碼叫做“聲形碼”。比如，一組同音字中再用該字的偏旁讀音的聲母作為區(qū)別碼。這種重碼字的區(qū)別碼是有理?yè)?jù)的，可以不必特別記憶。此外也可以用字形的結(jié)構(gòu)特征或某一個(gè)部位的特征等作為區(qū)別碼，都屬于聲形碼。因?yàn)槭羌骖櫫俗忠襞c字形兩種信息，所以，每種信息都取其中的一部分而不是全部。比如，也可以先取整個(gè)字的聲母，再將該字一分為二，分別取各部分的讀音的聲母，組成這個(gè)字的編碼。聲形碼的特點(diǎn) 因?yàn)椴皇亲忠舻娜啃畔?，所以容許使用者發(fā)音不準(zhǔn)，比如只取聲母，發(fā)不準(zhǔn)韻母的用戶(hù)也照樣能用；基本符合漢字使用習(xí)慣，如平時(shí)所說(shuō)的“人言為信”、“弓長(zhǎng)張”、“立早章”則“信”的編碼就是

21、“”、“張”的編碼是“”、“章”的編碼是“”。因?yàn)槭褂昧俗中涡畔ⅲ?，在編碼的同時(shí)，破壞了語(yǔ)言思維的連續(xù)性，不便于“想打”，而且難以提高速度；字形屬性信息仍然由于缺乏統(tǒng)一標(biāo)準(zhǔn)而干擾取碼。形聲碼以形為主以音為輔的編碼叫做“形聲碼”。字形屬性一般多分析出字根，再根據(jù)字根的讀音特征，按音編碼。例如，組成“韶”字的幾個(gè)字根的讀音分別是“、”若取這些字根的讀音的首字母可以組成“”四個(gè)字母代碼。這就是“韶”字的形聲碼。當(dāng)然，形聲碼的取碼規(guī)則各有不同的特點(diǎn)，形成各類(lèi)大同小異的形聲碼。形聲碼的特點(diǎn) 避免了記憶復(fù)雜的字根鍵位分布對(duì)應(yīng)關(guān)系，按讀音確定字根代碼，比形碼大大地減少了學(xué)習(xí)記憶量；以字形信息為主

22、，利用的信息量大，重碼率相對(duì)少；基本保留了形碼不受方音干擾的優(yōu)點(diǎn)，對(duì)于不認(rèn)識(shí)的漢字，拆成字根后就都能認(rèn)識(shí)了；聲形義結(jié)合碼除了字形和讀音信息之外，還有的方案作者利用漢字的意義信息來(lái)編碼，目的是進(jìn)一步區(qū)別重碼，作到“全息編碼”。所謂“意義”信息其實(shí)只是“義類(lèi)”信息，即漢字所表示的意義的大類(lèi)。這種對(duì)漢字“義類(lèi)”的認(rèn)識(shí)來(lái)源于說(shuō)文解字。許慎在說(shuō)文解字中分析出的個(gè)部首都具有表“義類(lèi)”的功能。個(gè)部首的排列依據(jù)也不是象今天似的按筆畫(huà)多少，而是按“意義”。關(guān)于部首表義的研究一直沒(méi)有間斷，在清代達(dá)到了一個(gè)高峰。所以，漢字的意義屬性的確屬于漢字屬性的一部分。現(xiàn)代漢字已經(jīng)不斷地“符號(hào)化”了，究竟具有多少表義性，大可疑問(wèn)。因此，利用意義屬性給漢字編碼，就應(yīng)當(dāng)考慮意義信息的比重、客觀理?yè)?jù)性和可接受性。聲形義結(jié)合碼的例子如郭秀珍的“聲韻部形碼”，在意義類(lèi)型上，將部首分成“ 自然 ” “ 生物 ” “ 生理 ” “ 生活”“余類(lèi)”五大類(lèi)。臺(tái)灣的“倉(cāng)頡輸入法”將“倉(cāng)頡字母 ” 分成 “ 哲理類(lèi)”“筆畫(huà)類(lèi)”“人身類(lèi)”“字形類(lèi)”四大類(lèi)。聲形義結(jié)合碼的特點(diǎn) 綜合利用漢字的形、聲

人人文庫(kù)> 全部分類(lèi)> 教育資料 > 輔導(dǎo)培訓(xùn)

溫馨提示

1. 本站所有資源如無(wú)特殊說(shuō)明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶(hù)所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽，若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間，僅對(duì)用戶(hù)上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理，對(duì)用戶(hù)上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容，請(qǐng)與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶(hù)因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

第三章漢字編碼原理

文檔簡(jiǎn)介

溫馨提示

最新文檔

評(píng)論

第三章漢字編碼原理

文檔簡(jiǎn)介

溫馨提示

最新文檔

評(píng)論

相關(guān)文檔