機(jī)器翻譯基礎(chǔ)_第1頁
機(jī)器翻譯基礎(chǔ)_第2頁
機(jī)器翻譯基礎(chǔ)_第3頁
機(jī)器翻譯基礎(chǔ)_第4頁
機(jī)器翻譯基礎(chǔ)_第5頁
已閱讀5頁,還剩13頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

1、機(jī)器翻譯基礎(chǔ)1. 機(jī)器翻譯概述機(jī)器翻譯概述 1.1中文漢字內(nèi)部編碼體系1.1.1字符編碼字符編碼就是以二進(jìn)制的數(shù)字來對應(yīng)字符集的字符,目前用得最普遍的字符集是ANSI,對應(yīng)ANSI字符集的二進(jìn)制編碼就稱為ANSI碼,DOS和Windows系統(tǒng)都使用了ANSI碼,但在系統(tǒng)中使用的字符編碼要經(jīng)過二進(jìn)制轉(zhuǎn)換,稱為系統(tǒng)內(nèi)碼。1.1.2漢字內(nèi)碼 ANSI碼是單一字節(jié)(8位二進(jìn)制數(shù))的編碼集,最多只能表示256個字符,不能表示眾多的漢字字符,各個國家和地區(qū)在ANSI碼的基礎(chǔ)上又設(shè)計了各種不同的漢字編碼集,以能夠處理大數(shù)量的漢字字符。這些編碼使用單字節(jié)來表示ANSI的英文字符(即兼容ANSI碼),使用雙字節(jié)

2、來表示漢字字符。1.1.3GB碼 GB碼是1980年國家公布的簡體漢字編碼方案,在大陸、新加坡得到廣泛的使用,也稱國標(biāo)碼。國標(biāo)碼對6763個漢字集進(jìn)行了編碼,涵蓋了大多數(shù)正在使用的漢字。 區(qū)位碼(轉(zhuǎn)換成16進(jìn)制)+0 xA0A0。1.1.4GBK碼 GBK碼是GB碼的擴(kuò)展字符編碼,對多達(dá)2萬多的簡繁漢字進(jìn)行了編碼,簡體版的Win98、2000/XP都是使用GBK作系統(tǒng)內(nèi)碼。(1)GBK碼的由來 GB2312-80僅收漢字6763個,這大大少于現(xiàn)有漢字,隨著時間推移及漢字文化的不斷延伸推廣,有些原來很少用的字,現(xiàn)在變成了常用字,例如:朱鎔基的“鎔”字,未收入GB2312-80,報業(yè)出刊只得使用(

3、金+容)、(金容)、(左金右容)等來表示,形式不一而同,這使得表示、存儲、輸入、處理都非常不方便,對于搜索引擎等軟件的構(gòu)造來說也不是好消息,而且這種表示沒有統(tǒng)一標(biāo)準(zhǔn)。從我們對人民日報98年數(shù)據(jù)的處理過程中,得出這樣的經(jīng)驗:回填外字最困難的就是如何得到這種表示方法的集合。(1)GBK碼的由來 為了解決這些問題,以及配合UNICODE的實施,全國信息技術(shù)化技術(shù)委員會于1995年編制了漢字內(nèi)碼擴(kuò)展規(guī)范。GBK向下與GB2312完全兼容,向上支持ISO-10646國際標(biāo)準(zhǔn),GB向ISO-10646過渡過程中起到的承上啟下的作用。(2)GBK碼字集GBK共收入21886個漢字和圖形符號,包括: GB23

4、12中的全部漢字、非漢字符號。 Big5中的全部漢字。 ISO-10646相應(yīng)的國家標(biāo)準(zhǔn)GB13000中的其它CJK漢字以上合計20902個漢字。 其它漢字、部首、符號,共計984個。(3)GBK編碼區(qū) GBK/1:OXA1A1-A9FE,除GB2312的符號外,還增補(bǔ)了其它符號 GBK/2:OXBOA1-F7FE,收錄GB2312漢字6763個,按原序排列; GBK/3:OX8140-AOFE,收錄CJK漢字6080個; GBK/4:OXAA40-FEAO,收錄CJK漢字和增補(bǔ)的漢字8160個。 GBK/5:OXA840-A9AO,擴(kuò)充非漢字區(qū) 用戶自定義區(qū):GBK中的空白區(qū),用戶可自己定義

5、字符。(4)GBK的編碼區(qū)間 GBK亦采用雙字節(jié)表示,總體編碼范圍為8140-FEFE之間,首字節(jié)在81-FE之間,尾字節(jié)在40-FE之間,剔除XX7F一條線。GBK編碼區(qū)示意圖 GBK/4 GBK/4GBK/2(GB2312)GBK/5GBK/5GBK/1(GB2312)GBK/3FEF7B0AAA9A8A1A081407FA0,A1FE(5)GBK”標(biāo)準(zhǔn)” 微軟公司自 Windows 95 簡體中文版開始支持 GBK 代碼,標(biāo)準(zhǔn)名稱是Windows Codepage936,也叫做 GBK(國標(biāo)擴(kuò)展) GBK從來沒有成為過正式的國家標(biāo)準(zhǔn),只不過因為Windows的普及,它已經(jīng)成為事實上的標(biāo)準(zhǔn)

6、了。很多搜索引擎都能很好地支持 GBK 漢字。1.1.5BIG5碼 BIG5碼是針對繁體漢字的漢字編碼,目前在臺灣、香港的電腦系統(tǒng)中得到普遍應(yīng)用。 編碼區(qū)間:A140-F9FE. 首字節(jié)在A1-F9之間,尾字節(jié)在40-7E,A1-FE之間,剔除了XX7F-XX9F。實際區(qū)間:A140-F97E,A1A1-F9FE1.1.5BIG5碼(擴(kuò)展) 擴(kuò)充理由:與Unicode和GBK配合,兼容日文漢字和簡體中文漢字。 擴(kuò)展后的Big5編碼區(qū)間8240-FE7E,82A0FEFE即高位字節(jié)區(qū)間:82-FE低位字節(jié)區(qū)間:40-7E,A0-FE1.1.6HZ碼 HZ碼是主要是為了在Internet上傳輸漢字

7、而制訂的一種漢字編碼。主要是中國留學(xué)生為了使?jié)h字信息能在網(wǎng)絡(luò)上直接傳送而產(chǎn)生的。因目前大多數(shù)(西方)網(wǎng)絡(luò)系統(tǒng)為位,最高位被屏蔽掉,因此 GB 碼無法被直接傳輸。 HZ碼的編碼:標(biāo)志著從此開始的代碼是國標(biāo)碼,一直到遇到,或本行結(jié)束為止。 利用國標(biāo)碼高字節(jié)(區(qū))中沒有的(7EH),形成進(jìn)入(Escape in)-,及退出(Escape out)-標(biāo)志,以達(dá)到在位網(wǎng)絡(luò)系統(tǒng)中直接傳遞漢字信息的目的。此時真正的一個的及后接符號由兩個連續(xù)的及后接來表示。1.1.7 JIS碼(Japan Industry Standard) JIS碼是日本工業(yè)標(biāo)準(zhǔn)。目前在日本的計算機(jī)中使用的編碼系統(tǒng)有: JIS 碼,Shift-JIS 碼,EUC 編碼 JIS碼編碼區(qū)間:0 x2121-0 x7E7E Shift-JIS碼:0 x8140-0 x9FFC 0 xE040-0 xFCFC 剔除XX7F一條線。 EUC碼:JIS碼+0 x8080(與GB碼的編碼方式一樣)1.1.8Unicode碼 Unicode碼是一種國際標(biāo)準(zhǔn)編碼,采用二個字節(jié)編碼,與ANSI碼不兼容。目前,在網(wǎng)絡(luò)、Windows系統(tǒng)和很多大型軟件中得到應(yīng)用。 編碼區(qū)間:0 x0000-0 xF

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論