版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)
文檔簡介
1、機(jī)器翻譯基礎(chǔ)1. 機(jī)器翻譯概述機(jī)器翻譯概述 1.1中文漢字內(nèi)部編碼體系1.1.1字符編碼字符編碼就是以二進(jìn)制的數(shù)字來對應(yīng)字符集的字符,目前用得最普遍的字符集是ANSI,對應(yīng)ANSI字符集的二進(jìn)制編碼就稱為ANSI碼,DOS和Windows系統(tǒng)都使用了ANSI碼,但在系統(tǒng)中使用的字符編碼要經(jīng)過二進(jìn)制轉(zhuǎn)換,稱為系統(tǒng)內(nèi)碼。1.1.2漢字內(nèi)碼 ANSI碼是單一字節(jié)(8位二進(jìn)制數(shù))的編碼集,最多只能表示256個字符,不能表示眾多的漢字字符,各個國家和地區(qū)在ANSI碼的基礎(chǔ)上又設(shè)計了各種不同的漢字編碼集,以能夠處理大數(shù)量的漢字字符。這些編碼使用單字節(jié)來表示ANSI的英文字符(即兼容ANSI碼),使用雙字節(jié)
2、來表示漢字字符。1.1.3GB碼 GB碼是1980年國家公布的簡體漢字編碼方案,在大陸、新加坡得到廣泛的使用,也稱國標(biāo)碼。國標(biāo)碼對6763個漢字集進(jìn)行了編碼,涵蓋了大多數(shù)正在使用的漢字。 區(qū)位碼(轉(zhuǎn)換成16進(jìn)制)+0 xA0A0。1.1.4GBK碼 GBK碼是GB碼的擴(kuò)展字符編碼,對多達(dá)2萬多的簡繁漢字進(jìn)行了編碼,簡體版的Win98、2000/XP都是使用GBK作系統(tǒng)內(nèi)碼。(1)GBK碼的由來 GB2312-80僅收漢字6763個,這大大少于現(xiàn)有漢字,隨著時間推移及漢字文化的不斷延伸推廣,有些原來很少用的字,現(xiàn)在變成了常用字,例如:朱鎔基的“鎔”字,未收入GB2312-80,報業(yè)出刊只得使用(
3、金+容)、(金容)、(左金右容)等來表示,形式不一而同,這使得表示、存儲、輸入、處理都非常不方便,對于搜索引擎等軟件的構(gòu)造來說也不是好消息,而且這種表示沒有統(tǒng)一標(biāo)準(zhǔn)。從我們對人民日報98年數(shù)據(jù)的處理過程中,得出這樣的經(jīng)驗:回填外字最困難的就是如何得到這種表示方法的集合。(1)GBK碼的由來 為了解決這些問題,以及配合UNICODE的實施,全國信息技術(shù)化技術(shù)委員會于1995年編制了漢字內(nèi)碼擴(kuò)展規(guī)范。GBK向下與GB2312完全兼容,向上支持ISO-10646國際標(biāo)準(zhǔn),GB向ISO-10646過渡過程中起到的承上啟下的作用。(2)GBK碼字集GBK共收入21886個漢字和圖形符號,包括: GB23
4、12中的全部漢字、非漢字符號。 Big5中的全部漢字。 ISO-10646相應(yīng)的國家標(biāo)準(zhǔn)GB13000中的其它CJK漢字以上合計20902個漢字。 其它漢字、部首、符號,共計984個。(3)GBK編碼區(qū) GBK/1:OXA1A1-A9FE,除GB2312的符號外,還增補(bǔ)了其它符號 GBK/2:OXBOA1-F7FE,收錄GB2312漢字6763個,按原序排列; GBK/3:OX8140-AOFE,收錄CJK漢字6080個; GBK/4:OXAA40-FEAO,收錄CJK漢字和增補(bǔ)的漢字8160個。 GBK/5:OXA840-A9AO,擴(kuò)充非漢字區(qū) 用戶自定義區(qū):GBK中的空白區(qū),用戶可自己定義
5、字符。(4)GBK的編碼區(qū)間 GBK亦采用雙字節(jié)表示,總體編碼范圍為8140-FEFE之間,首字節(jié)在81-FE之間,尾字節(jié)在40-FE之間,剔除XX7F一條線。GBK編碼區(qū)示意圖 GBK/4 GBK/4GBK/2(GB2312)GBK/5GBK/5GBK/1(GB2312)GBK/3FEF7B0AAA9A8A1A081407FA0,A1FE(5)GBK”標(biāo)準(zhǔn)” 微軟公司自 Windows 95 簡體中文版開始支持 GBK 代碼,標(biāo)準(zhǔn)名稱是Windows Codepage936,也叫做 GBK(國標(biāo)擴(kuò)展) GBK從來沒有成為過正式的國家標(biāo)準(zhǔn),只不過因為Windows的普及,它已經(jīng)成為事實上的標(biāo)準(zhǔn)
6、了。很多搜索引擎都能很好地支持 GBK 漢字。1.1.5BIG5碼 BIG5碼是針對繁體漢字的漢字編碼,目前在臺灣、香港的電腦系統(tǒng)中得到普遍應(yīng)用。 編碼區(qū)間:A140-F9FE. 首字節(jié)在A1-F9之間,尾字節(jié)在40-7E,A1-FE之間,剔除了XX7F-XX9F。實際區(qū)間:A140-F97E,A1A1-F9FE1.1.5BIG5碼(擴(kuò)展) 擴(kuò)充理由:與Unicode和GBK配合,兼容日文漢字和簡體中文漢字。 擴(kuò)展后的Big5編碼區(qū)間8240-FE7E,82A0FEFE即高位字節(jié)區(qū)間:82-FE低位字節(jié)區(qū)間:40-7E,A0-FE1.1.6HZ碼 HZ碼是主要是為了在Internet上傳輸漢字
7、而制訂的一種漢字編碼。主要是中國留學(xué)生為了使?jié)h字信息能在網(wǎng)絡(luò)上直接傳送而產(chǎn)生的。因目前大多數(shù)(西方)網(wǎng)絡(luò)系統(tǒng)為位,最高位被屏蔽掉,因此 GB 碼無法被直接傳輸。 HZ碼的編碼:標(biāo)志著從此開始的代碼是國標(biāo)碼,一直到遇到,或本行結(jié)束為止。 利用國標(biāo)碼高字節(jié)(區(qū))中沒有的(7EH),形成進(jìn)入(Escape in)-,及退出(Escape out)-標(biāo)志,以達(dá)到在位網(wǎng)絡(luò)系統(tǒng)中直接傳遞漢字信息的目的。此時真正的一個的及后接符號由兩個連續(xù)的及后接來表示。1.1.7 JIS碼(Japan Industry Standard) JIS碼是日本工業(yè)標(biāo)準(zhǔn)。目前在日本的計算機(jī)中使用的編碼系統(tǒng)有: JIS 碼,Shift-JIS 碼,EUC 編碼 JIS碼編碼區(qū)間:0 x2121-0 x7E7E Shift-JIS碼:0 x8140-0 x9FFC 0 xE040-0 xFCFC 剔除XX7F一條線。 EUC碼:JIS碼+0 x8080(與GB碼的編碼方式一樣)1.1.8Unicode碼 Unicode碼是一種國際標(biāo)準(zhǔn)編碼,采用二個字節(jié)編碼,與ANSI碼不兼容。目前,在網(wǎng)絡(luò)、Windows系統(tǒng)和很多大型軟件中得到應(yīng)用。 編碼區(qū)間:0 x0000-0 xF
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 物流配送司機(jī)薪酬方案
- 光學(xué)儀器工廠租賃合同樣本
- 電力公司用戶數(shù)據(jù)保密制度
- 城市綠化養(yǎng)護(hù)招投標(biāo)合同審查
- 水利教師聘用合同模板
- 環(huán)保工程庫房施工合同
- 油氣管道施工員勞動合同樣本
- 購物中心設(shè)施安裝物業(yè)合同
- 醫(yī)療衛(wèi)生評審員管理辦法
- 2025版教育機(jī)構(gòu)安全責(zé)任保險合同2篇
- 2024屆甘肅省平?jīng)鍪徐o寧縣英語九年級第一學(xué)期期末教學(xué)質(zhì)量檢測模擬試題含解析
- 滄源永弄華能100MW茶光互補(bǔ)光伏發(fā)電項目環(huán)評報告
- 倉儲業(yè)行業(yè)SWOT分析
- 輔導(dǎo)員工作匯報課件
- 公司金融學(xué)張德昌課后參考答案
- 商務(wù)英語口語與實訓(xùn)學(xué)習(xí)通課后章節(jié)答案期末考試題庫2023年
- DB3302-T 1015-2022 城市道路清掃保潔作業(yè)規(guī)范
- 手術(shù)室提高患者術(shù)中保溫措施的執(zhí)行率PDCA課件
- 報刊雜志發(fā)放登記表
- 大學(xué)物理(下)(太原理工大學(xué))知到章節(jié)答案智慧樹2023年
- 布袋除塵器項目可行性分析報告
評論
0/150
提交評論