字符、編碼、Unicode雜談_第1頁
字符、編碼、Unicode雜談_第2頁
字符、編碼、Unicode雜談_第3頁
字符、編碼、Unicode雜談_第4頁
字符、編碼、Unicode雜談_第5頁
已閱讀5頁,還剩22頁未讀 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

1、字符的編碼歷史摩爾斯電碼計算機二進制表達的字符集ASCIIEBCDIC計算機之前的時代摩爾斯電碼將字母表和簡單的標點符號進行了編碼化盲文是另外一種類型的編碼遠在DOS時代計算機主要應用于英文和拉丁語系ASCII-美國信息交換標準編碼編碼范圍 0127(單字節(jié)編碼)不滿足其他國家地區(qū)特殊字符IBM的解決方案使用ASCII碼表沒有使用的128255的編碼空間在計算機的BIOS中間提供不同國家語言的不同編碼CodePage也叫做OEM Code Page.IBM的解決方案解決了不同國家對于DOS下顯示字符的問題問題:不能交換數(shù)據(jù)。顯示希臘語言的機器如果需要顯示日文,就必須要考慮更換Rom芯片目前存在

2、的各種代碼頁OEM (IBM PC) 代碼頁437 最初的 IBM PC 代碼頁,實現(xiàn)了擴展ASCII字符集737 希臘語850 “多語言 (Latin-1)” (西歐語言)852 “斯拉夫 (Latin-2)” (中歐及東歐語言)855 西里爾(Cyril)字母857 土耳其語858 帶歐元符號的“多語言”860 葡萄牙語861 冰島語863 法語 加拿大英語865 北歐866 西里爾(Cyril)字母869 希臘語目前存在的各種代碼頁(二)中日韓語言代碼頁932 日文936 簡體中文(GBK)949 韓文950 繁體中文(大五碼)目前存在的各種代碼頁(三)Windows (ANSI)代碼頁

3、874 泰文字母1250 東歐拉丁字母1251 古斯拉夫語1252 西歐拉丁字母 ISO-8859-1.1253 希臘語1254 土耳其語1255 希伯來語1256 阿拉伯語1257 巴爾1258 越南1254 土耳其語Sample使用C#做的字符到不同編碼的轉換Sample主要的中文編碼標準GB23121981年實施,中國國家標準中國和新加坡采用6763個漢字,包括拉丁字母,希臘字母和日文假名、GBK漢字內碼擴展規(guī)范,由微軟制定,最早實現(xiàn)于Windows95中文版微軟的CP936通常被視為等同GBK主要的中文編碼標準GB 13000.1-93等同于Unicode 1.1標準GBK收錄了GB1

4、3000.1-93全部字符但是編碼方式不同。GB 18030-2005目前最新的字符集全面兼容GBK和UTF-8相同采用多字節(jié)編碼。更新至 Unicode 4.1標準(2000年標準兼容Unicode3.0)主要日文編碼標準ShiftJISShift_JIS是一個日本電腦系統(tǒng)常用的編碼表。它能容納全角及半角拉丁字母、平假名、片假名、符號及日語漢字。它被命名為Shift_JIS的原因,是它在放置全角字符時,要避開原本在0 xA1-0 xDF放置的半角假名字符。在微軟及IBM的日語電腦系統(tǒng)中,即使用了這個編碼表。這個編碼表稱為CP932。JIS-X0201 & JIS-X 0208Unic

5、ode志在一統(tǒng)全球語言文字編碼官網(wǎng)www.U最新標準Unicode現(xiàn)行6.2準備中標準目的在于為每一個可用的字符設置一個唯一編號,沒有涉及任何編碼方式,字長等。Unicode 6.x早在5.x 版本,Unicode已經(jīng)開始使用超過 0 xFFFF的值為字符進行編碼/versions/Unicode6.0.0/主要新增區(qū)塊0840.085FMandaic1BC0.1BFFBatakAB00.AB2FEthiopic Extended-A11000.1107FBrahmi16800.16A3FBamum Supplement1B000.

6、1B0FFKana Supplement1F0A0.1F0FFPlaying Cards1F300.1F5FFMiscellaneous Symbols And Pictographs1F600.1F64FEmoticons1F680.1F6FFTransport And Map Symbols1F700.1F77FAlchemical Symbols2B740.2B81FCJK Unified Ideographs Extension DEmoticons絵文字 in Japanese/wiki/Unicode6.0%E3%81%AE%E6%90%

7、BA%E5%B8%AF%E9%9B%BB%E8%A9%B1%E3%81%AE%E7%B5%B5%E6%96%87%E5%AD%97%E3%81%AE%E4%B8%80%E8%A6%A7IVShttp:/xa-wiki:8080/display/IMWIN7X/SRS_NewFormatKeyword_IVS_KnowledgeIdeographic Variation Sequence(表意文字變化序列)Adobe和微軟(Windows8)Windows支持Unicode情況Win7支持到Unicode 5.1標準Win8支持到Unicode 6.0標準Unicode in .NET.NET

8、Char字長為Short,雙字節(jié),采用UTF-16等效編碼方式表示字符。超長字符串使用UTF32編碼到UTF16編碼等效映射方式保存,一對Char表示一個Unicode 字符。代理字符SurrogateCharStringInfo & TextElementChar.IsHiSurrogate()/Char.IsLowSurrogate()TextElement概念IVS孟加拉語Unicode 中其他用超過一個.NET字符表達的字形文件編碼UTF-8/UTF-16/UTF-32UTF-16 Big Endian/UTF-32 Big EndianShfitJIS/GB2312UTF-8 Without Signature不明真相的Default Encoding 方式保存文件打開文件Demo其他討論打開文件發(fā)現(xiàn)亂碼的時候,

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論