下載本文檔
版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)
文檔簡介
1、統(tǒng)一的中日韓漢字編碼字符集(CJK)字根系統(tǒng)研究統(tǒng)一的中日韓漢字編碼字符集(CJK)作為新的漢字信息處理國際標(biāo)準(zhǔn),使?jié)h字信息處理向國際化方向邁出了重要的一步,對漢字字形的定量定性研究也提出了更高的要求。在此基礎(chǔ)上,依靠計算機字形技術(shù)的支持,采用字根分解與合成的方法,有可能表示出CJK的全部字符從而實現(xiàn)其無字庫化處理。因此,研究CJK字根系2統(tǒng),對于CJK的工程應(yīng)用具有重要作用。中日韓漢字字形有別而音義互異,但都是可分析的文字,其基本構(gòu)形單位都是筆畫或字根,因此,字根分析法對其同樣適用。本文認(rèn)為,要得出一個較為科學(xué)的CJK字根系統(tǒng),在理論和實踐上必須著重解決兩個問題,一個是筆畫與字根的分野即單筆
2、字根的問題,另一個就是字根變體的問題。本文主要分析了CJK的單筆字根和字根變體,并對統(tǒng)計得出的CJK676個字根的有關(guān)數(shù)據(jù)進(jìn)行了系統(tǒng)的分析,希望能為CJK的相關(guān)研究提供參考。一、 CJK的單筆字根(一)為什么要提出"單筆字根"字根是漢字字符的直接構(gòu)形成分,是可以獨立運用的最小構(gòu)形單位。一般說來,字根包含兩個以上筆畫,但當(dāng)單一筆畫與字根直接參與漢字字符構(gòu)形時,這一筆畫由于具備了字根的價值和功能而上升到字根層級,稱為"單筆字根"。提出這一概念主要基于以下考慮:1、漢字字符的構(gòu)形成分中確實存在許多相對獨立的單一筆畫,歸入鄰近的任一字根都不合適,CJK中就有40
3、0多個字符包含這種筆畫。如果說漢字字符都是由作為筆畫組合體的字根構(gòu)成的,顯然不符合事實;如果說漢字字符是由字根與筆畫組成的,固然也未嘗不可,但這樣就難以清晰地體現(xiàn)字符構(gòu)形的層級性,故"單筆字根"的提出有其現(xiàn)實的必要性。2、CJK字符集收入了"一丨丶丿 乀 乁 乙 乚 乛 亅"十個單筆畫的字符,如果不引入"單筆字根"的概念,則這十個字符無法進(jìn)行字根分析。3、適當(dāng)拆出字符中的單筆字根,可以大大簡化字根系統(tǒng)。(二)如何析出單筆字根筆畫與字根畢竟是不同層級的構(gòu)形成分,因此單筆字根以盡量少析出為宜。我們在分析CJK單筆字根的過程中,主要采用了以
4、下方法:1、某一單筆畫如果與字符中其它筆畫處于相交或相接的關(guān)系,則不能析為單筆字根。如"子、孑、孓"都是由字根"了"與單筆畫相交或相接而成,故不再析出單筆字根。2、如果單筆畫與字符中其它筆畫均處于相離的關(guān)系,則根據(jù)以下情況處理:(1)對于點筆來說,若其與某一字根呈內(nèi)聚之勢,且作為整體具有構(gòu)字能力,則合為一個字根,如"犬、太、刃、玉"等;反之,若作為整體無構(gòu)字能力,則立點筆為單筆字根,如"乓"。這樣處理可使字根系統(tǒng)的層級性得以體現(xiàn),同時也照顧了通常的字根拆分習(xí)慣。(2)如果某一單筆畫用另一筆畫或字根替換后成了另一字符
5、,則只能析為單筆字根,如"糺"中的"乚"替換為"工"后成了另一字符"紅",因此"乚"為單筆字根。能用這種方法來判斷的單筆字根在CJK單筆字根中約占24%。(3)偏旁部首通常使用頻率較高,一般作為整體進(jìn)入字根系統(tǒng),不再拆出單筆字根,如"纟"、"刂"、"寸"、"灬"等。 為簡化字根系統(tǒng),有時也需要作變通處理,如"示"中與第一橫筆相鄰的也不是分筆字根,但將其析出后,余部分無構(gòu)字能力,為簡化字根系統(tǒng),&q
6、uot;示"拆為"二、小",不涉及單筆字根問題。(三)CJK的單筆字根統(tǒng)計我們采用上述方法得出了CJK單筆字根的有關(guān)數(shù)據(jù),詳見下表:如果把提歸入橫,捺歸入點,豎鉤歸入豎,其它的歸入折,則五種基本筆畫在CJK中的出現(xiàn)次數(shù)、出現(xiàn)頻率以及作為單筆字根時的出現(xiàn)次數(shù)與出現(xiàn)頻率可列表比較如下:統(tǒng)計結(jié)果表明,CJK的20902字符總筆畫數(shù)為211436,平均每個字符含10.116個筆畫,與漢字信息字典對基本集平均筆畫數(shù)的統(tǒng)計結(jié)果類似1。在CJK的五種基本筆畫中,橫的出現(xiàn)頻率最高,其次為點、豎、折、撇。五種基本筆畫作單筆字根時的總出現(xiàn)次數(shù)為1569次,占CJK字根總出現(xiàn)次數(shù)(76
7、743)的百分比為2.0445%。二、CJK的字根變體字根是以各種"變體"參與字符構(gòu)形的,所謂"正體"其實是對其各種"變體"的歸納,例如我們把作獨體字用的"止"定為"正體",但它在合體字"肯、恥、此"中卻呈現(xiàn)不同的形狀。此外,對于CJK的同一字符,中臺日韓"三國四方"可能有不同的字形標(biāo)準(zhǔn),有的字符結(jié)構(gòu)相同而字根異形,這就產(chǎn)生了字根變體。這種變體在CJK中數(shù)以千計,假如均單獨立為字根,則CJK字根系統(tǒng)將不堪重負(fù)。因此,我們在拆分CJK字根的過程中采用并堅持了
8、"變體歸一"的原則。概言之,CJK的字根變體主要有兩種形式,即字根結(jié)構(gòu)變體與字根地域變體,下面分開來談。(一)字根結(jié)構(gòu)變體1、什么是"字根結(jié)構(gòu)變體"漢字字形呈拓?fù)浣Y(jié)構(gòu),字根在組形結(jié)體時都要受到其它字根的制約,不得不調(diào)整其形狀,甚至改變某一筆形,以保持字形整體的勻稱美觀。這種由于字形結(jié)構(gòu)的整體制約而形成的字根變體,我們稱為"字根結(jié)構(gòu)變"。字根結(jié)構(gòu)變體是字根經(jīng)常存在的形式,廣義的字根結(jié)構(gòu)變體,包括同一字根的不同長短、肥瘦、高低等不同形狀的變體,其范圍之廣幾乎無法囊括。我們這里僅討論狹義變體,即因為結(jié)構(gòu)整體制約而引起某一筆形變化的字根結(jié)構(gòu)變
9、體。2、字根結(jié)構(gòu)變體的本質(zhì)-筆形通借同一字根,由于處在字形結(jié)構(gòu)中的不同部位而引起外部制約格局的變化,這一字根相關(guān)部位的筆形往往調(diào)整為另一相似的筆形,并且呈現(xiàn)出一定的分布規(guī)律,這就是筆形通借。字根結(jié)構(gòu)變體就是由此而形成的。筆形通借有兩個互相制約的條件。首先,通借筆形與原筆形相似,但不屬于同一種筆形,通常是橫借為提、捺借為點、豎鉤借為豎、豎借為豎撇、豎彎鉤借為豎提等。其次,通借筆形與原筆形沒有辨字作用?quot;筆形通借,在一個字的全體結(jié)構(gòu)中,要接受內(nèi)部所具有的組形結(jié)體的制約;在整個現(xiàn)行漢字體系中仍要接受外部來的別的字的制約。"2如果兩個筆形因其不同形而構(gòu)成了不同的字符,則它們之間不構(gòu)成
10、通借關(guān)系,如"地"中的"土"字旁是"土"的變體而非"士"的變體,則其提筆與"士"中短橫不構(gòu)成通借關(guān)系。"干"與"千"、"天"與"夭"中的短橫與平撇都是相似筆形,但均具有辨字作用,因此也不能構(gòu)成通借關(guān)系。筆形通借與筆勢(即運筆的方向和氣勢)有著十分密切的關(guān)系。相通借的筆形一般都有相通的筆勢,如橫與提的筆勢從左往右,捺與點的筆勢從左上往右下,豎彎鉤與豎提的筆勢先自上而下,再從左往右。"千"的平撇與&q
11、uot;干"的短橫,之所以不相通借,除了它們具有辨字作用的因素外,筆勢在其中也起著重要的作用。印刷通用漢字字形表和現(xiàn)代漢語通用字表把漢字的基本筆畫確定為"橫豎撇點折"五種,是深入研究筆形通借現(xiàn)象而得出的科學(xué)結(jié)論。同樣,由于"丨"與"亅"之間的通借關(guān)系,我們也可以據(jù)此確定"亅"在五種基本筆畫中的歸屬。我們根據(jù)筆形通借的不同情況,對CJK字根結(jié)構(gòu)變體作了分析統(tǒng)計,統(tǒng)計結(jié)果表明,CJK常見的字根結(jié)構(gòu)變體共110個,尚難以概括其全貌,假如把這些變體都作為字根的話,那么CJK總字根數(shù)將增加至少110個,這個代價不可
12、謂不大!武漢大學(xué)和文改會辭海字根統(tǒng)計也進(jìn)行了變體的合并,如把" "歸入"土",把"朩"歸入"木", 但其字根總表中卻收入了"牛、 車、 月"的結(jié)構(gòu)變體"牜、 、 ",3應(yīng)該說是一個不小的失誤。(二)字根地域變體CJK是一個繁簡異兼有、新舊字形并存的跨國大字符集,由于語言、文化條件的差異以及地理因素的影響,"三國四方"漢字字形發(fā)生了某種程度的分化,我們把這種由于地域差異而形成的字根變體稱為"字根地域變?quot;。CJK字形分歧主要有以下情況:筆畫
13、數(shù)相同,個別筆形或筆畫組合方式有差異,如"氐"、"與"等;筆畫數(shù)不同,但字形總體相似,如"及"、"垂"等;筆畫數(shù)和個別筆畫組合方式均有差異,字形相似度低,如"丑"。我們在判斷一個筆畫組合體是否為某字根地域變體時,一般采用下面的方法:1、如果"三國四方"只有一方有此筆畫組合體,且在CJK中有單獨的區(qū)位碼,則獨立字根,如(4E2F)"丯"、(4E8A)"亊"等。2、如果兩個筆畫組合體在"三國四方"的某一方中是兩個字根,則
14、其中任一個都不視為地域變體,如" "和" "在臺灣字形中是兩個字根(7DD2)"緒"、(7DD6)"緖",因此分立字根。3、我們在CJK的字形標(biāo)準(zhǔn)中通常采用大陸字形為優(yōu)先級,依次為中(C)、臺(T)、日(J)、韓(K)。按照優(yōu)先級順序,如果C中的某一字根在T(或J、K)中斷為兩個相離的筆畫組合體,則按兩個字根處理,如"艸"在T、K中斷開為"卝",則拆"卝"為"十、十",不視為"艸"的地域變體。這樣處理可以有效減少字根
15、總數(shù),也便于保持字根拆分標(biāo)準(zhǔn)的一致性。三、CJK字根系統(tǒng)的定量分析明確了單筆字根及字根變體的原則與方法,字根的拆分就有章可循了。我們在拆分工作完成以后,在FOXBASE+環(huán)境下建立了CJK字根數(shù)據(jù)庫,對有關(guān)數(shù)據(jù)進(jìn)行分類匯總后,得出了CJK的676個字根及其出現(xiàn)次數(shù)和出現(xiàn)頻率,建立了CJK字根系統(tǒng)。初步測試結(jié)果表明,該字根系統(tǒng)基本覆蓋了CJK全部字符,有一定的系統(tǒng)優(yōu)化度,對于CJK工程應(yīng)用有一定的參考價值。統(tǒng)計結(jié)果表明,CJK的字根總出現(xiàn)次數(shù)為76743次,平均每個字符含3.672個字根,下面將其有關(guān)數(shù)據(jù)與國內(nèi)其它字根系統(tǒng)作一比較4:在CJK中,出現(xiàn)頻率最高的10個字根依次為"口、人、
16、木、八、日、土、亠、艸、亻、氵",這些高頻字根在各個字根系統(tǒng)中大致相似,"口"在所有系統(tǒng)中都是頻率最高的字根,而且字根的頻率分布都很不均勻。下面我們根據(jù)統(tǒng)計數(shù)據(jù),繪出CJK字根出現(xiàn)頻率的分布曲線圖:字根出現(xiàn)頻率,指的是字根在某一字符集中出現(xiàn)的次數(shù)占全部字根出現(xiàn)總次數(shù)的百分比,它可以衡量字根在字符集中的常用程度。統(tǒng)計結(jié)果表明,在CJK中50個高頻字根(頻率0.5%以上)總出現(xiàn)頻率達(dá)到58.92%,再加上223個中頻字根(頻率0.05%以上0.5%以下)總出現(xiàn)頻率就達(dá)到了92.95%,而403個低頻字根(頻率0.05%以下)的總出現(xiàn)頻率只有7.05%,最低頻的184個字根總出現(xiàn)頻率甚至還不到1%。由此可見,CJK字根的頻率分布是很不均勻的,高頻、中頻字根在編碼設(shè)計與信息處理領(lǐng)域中扮演著重要的角色。對CJK字根系統(tǒng)作全面的定量、定性研究并將其應(yīng)用于CJK信息處理,是一個涉及文字學(xué)、數(shù)理統(tǒng)計學(xué)、系統(tǒng)論、信息論和計算機字形技術(shù)的綜合工程,本文僅就CJK字根研究的幾個問題談了一點看法,并就統(tǒng)計得出的數(shù)據(jù)作了一些比較分
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 血腫的應(yīng)急處理
- 應(yīng)收會計年終總結(jié)
- 2023年氣相色譜儀資金需求報告
- 病例討論周圍神經(jīng)病
- 3.3.3離子反應(yīng) 課件高一上學(xué)期化學(xué)蘇教版(2019)必修第一冊
- 背影教案反思
- 好玩的冰說課稿
- 開展我為同學(xué)辦實事活動
- 神經(jīng)病學(xué)臨床案例分享
- 安全生產(chǎn)變更索賠管理細(xì)則
- 慢性阻塞性肺疾病伴急性加重教學(xué)查房COPD
- 鐵路集裝箱運輸規(guī)則
- 2023年上海16區(qū)高考一模英語聽力合集附音頻含答案含原文
- 《IT人員職業(yè)規(guī)劃》
- 維勒夫特優(yōu)質(zhì)獲獎?wù)n件
- 初級社會統(tǒng)計學(xué)智慧樹知到答案章節(jié)測試2023年哈爾濱工程大學(xué)
- 無犯罪記錄證明公函
- 詩歌鑒賞基本知識點
- 人文英語3范文+人文英語3閱讀740
- GB/T 3274-2007碳素結(jié)構(gòu)鋼和低合金結(jié)構(gòu)鋼熱軋厚鋼板和鋼帶
- GB/T 311.3-2007絕緣配合第3部分:高壓直流換流站絕緣配合程序
評論
0/150
提交評論