西文字符的編碼_第1頁
西文字符的編碼_第2頁
西文字符的編碼_第3頁
西文字符的編碼_第4頁
西文字符的編碼_第5頁
已閱讀5頁,還剩20頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權,請進行舉報或認領

文檔簡介

1、一、 西文字符的編碼1. 西文字符集:由拉丁字母、數(shù)字、標點符號及一些特殊符號組成。2. 字符的編碼:字符集中每一個字符各有一個代碼,即字符的二進制表示,稱為該字符的編碼。3. 字符代碼表:字符集中不同字符的編碼互相區(qū)別,構成該字符集的代碼表。 4. ASCII字符集和ASCII碼1) 美國標準信息交換碼(American Standard Code for Information Interchange):使用7個二進位對字符進行編碼(叫做標準ASCII碼),稱為ISO-646標準。2) 基本的ASCII字符集共有128個字符,96個可打印字符(常用字母、數(shù)字、標點符號等)32個控制字符,特

2、殊字符的ASCII碼空格(32)、A(65)、a(97)、0(48)l 數(shù)字,字母的ASCII碼是連續(xù)的,對應大小寫字母ASCII碼相差32。l 不同類型的ASCII碼的十進制數(shù)值由小到大:數(shù)字、大寫字母、小寫字母3) 漢字的編碼(一)l GB2312-80漢字編碼A. 第一部分:字母、數(shù)字和各種符號,包括拉丁字母、俄文、日文平假名與片假名、希臘字母、漢語拼音等共682個(統(tǒng)稱為GB2312圖形符號)B. 第二部分:一級常用漢字,共3755個,按漢語拼音排列C. 第三部分:二級常用字,共3008個,按偏旁部首排列ü 區(qū)位碼:GB2312國標字符集構成一個二維平面,它分成94行、94列

3、,行號稱為區(qū)號,列號稱為位號。每一個漢字或符號在碼表中都有各自的位置,字符的位置用它所在的區(qū)號(行號)及位號(列號)來表示。每個漢字的區(qū)號和位號分別用1個字節(jié)來表示如:“大”字的區(qū)號20,位號83,區(qū)位碼是20 83用2個字節(jié)表示為:00010100 010100114) 國標交換碼:l 問題:信息通信中,漢字的區(qū)位碼與通信使用的控制碼(00H1FH)發(fā)生沖突。解決方案:為了避免漢字區(qū)位碼與通信控制碼的沖突,ISO2022規(guī)定,每個漢字的區(qū)號和位號必須分別加上32(20H)得到國標交換碼。5) 機內(nèi)碼:l 問題:文本中的漢字與西文字符經(jīng)常是混合在一起使用的,漢字信息如不予以特別的標識,它與單字

4、節(jié)的標準ASCII碼就會混淆不清。解決方法:把一個漢字看作兩個擴展ASCII碼,使表示GB2312漢字的兩個字節(jié)的最高位(b7)都等于“1”。這種高位為l的雙字節(jié)(16位)漢字編碼就稱為GB2312漢字的“機內(nèi)碼”,又稱內(nèi)碼。(如:“大”字的內(nèi)碼是:10110100 11110011(B4F3)l 漢字編碼例l 國標碼=區(qū)位碼+2020Hl 機內(nèi)碼=國標碼+8080Hl 機內(nèi)碼=區(qū)位碼+A0A0H例如:“啊”區(qū)位碼: 16 01 => 10 01H 0001 0000 0000 0001 國標碼: 30 21H <= 10 01H 20 20H 0011 0000 0010 000

5、1機內(nèi)碼: B0 A1H <= 30 21H 80 80H 1011 0000 1010 00016) GBK漢字內(nèi)碼擴充規(guī)范l 問題:GB2312-80只有6763個漢字,使用時功能不夠。解決方法:1995年發(fā)布GBK,全稱為漢字內(nèi)碼擴展規(guī)范GBK字符集中一共有21003個漢字和883個圖形l GBK字符集中的每個字符都采用雙字節(jié)表示,總的編碼范圍為8140-FEFE,首字節(jié)在81-FE之間,尾字節(jié)在40-FE之間(剔除xx7F一條線不安排字符),總計23940個碼位,共收入21886個漢字和圖形符號,未使用的區(qū)域作為用戶自定義區(qū)。l 應用:操作系統(tǒng)Windows 95以上簡體中文版,

6、采用GBK代碼,并提供了多種輸入法和字體應用軟件Office 95以上簡體中文版本提供GBK碼的檢索和排序互聯(lián)網(wǎng)應用許多網(wǎng)站的網(wǎng)頁使用GBK代碼,但目前還不是所有搜索引擎都支持 GBK 漢字文本的搜索7) UCS/Unicode與GB18030漢字編碼標準 l 通用編碼字符集UCS/Unicode約有6800種語言和文字在使用,需要建立一個多文種(Multilingual)處理環(huán)境在ISO2022基礎上,使用代碼頁號切換不同字符集的方法過于繁瑣,且與其他系統(tǒng)不兼容目標與途徑:實現(xiàn)所有字符在同一字符集中統(tǒng)一編碼l UCS/Unicode與GB18030漢字編碼標準 優(yōu)點:編碼空間極大,能容納足夠

7、多的各種字符集(13億字符)缺點:4字節(jié)的字符編碼使存儲空間浪費嚴重5. 文字與文本 1) 文本(text):文字信息在計算機中的表示形式,組成文本的基本元素是字符,字符在計算機中采用二進制編碼表示。2) 文本處理過程 l 文本在計算機中的處理過程:文本的準備(例如漢字的輸入),文本編輯,文本處理,文本存儲與傳輸、文本展現(xiàn)等,根據(jù)應用的不同,各個處理環(huán)節(jié)的內(nèi)容和 要求可能有很大的差別。l 文本信息的輸入方法A. 人工輸入:通過鍵盤、手寫筆或語音輸入方式輸入字符特點:速度慢、成本高,不適合需處理大批量文字的應用B. 自動輸入:將紙介質(zhì)上的文本通過識別技術自動轉(zhuǎn)換為文字的編碼特點:速度快,效率高C

8、. 文字的自動識別分為:印刷體識別和手寫體識別l 文本信息的輸入方法由于漢字字數(shù)很多,無法使每個漢字與西文鍵盤上的鍵一一對應,因此必須使用一個或幾個鍵來表示漢字,這就稱為漢字的“鍵盤輸入編碼”。 好的漢字鍵盤輸入編碼方案的特點:易學習、易記憶、效率高(平均擊鍵次數(shù)較少)、重碼少、容量大(可輸入的漢字字數(shù)多)等ü 漢字的輸入編碼與漢字的內(nèi)碼是不同范疇的概念。使用不同的輸入編碼方法向計算機輸入的同一個漢字,它們的內(nèi)碼是相同的 數(shù)字編碼:使用一串數(shù)字來表示漢字的編碼方法,例如電報碼、區(qū)位碼等。缺點: 難以記憶,不易推廣字音編碼:一種基于漢語拼音的編碼方法,簡單易學,適合于非專業(yè)人員。缺點:

9、同音字引起的重碼多,需增加選擇操作字形編碼:將漢字的字形分解歸類而給出的編碼方法,重碼少、輸入速度較快,如五筆字形法和表形碼。缺點:編碼規(guī)則不易掌握形音編碼:吸取了字音編碼和字形編碼的優(yōu)點,使編碼規(guī)則適當簡化、重碼減少。缺點:不易掌握聯(lián)機手寫漢字識別(筆輸入)使用語音輸入文本的系統(tǒng)也叫做“聽寫機”或“語音打字機”印刷體漢字識別(漢字OCR)。印刷體漢字識別:將傳統(tǒng)紙介質(zhì)上的文字信息自動輸入計算機并轉(zhuǎn)換為數(shù)字文本形式的一種技術,也叫做漢字OCR(Optical Character Recognition)。l 脫機手寫漢字識別:手寫漢字識別。聯(lián)機與脫機(手寫漢字識別)的比較容易。3) 使用計算機

10、制作的數(shù)字文本,根據(jù)用途分為:簡單文本、豐富格式文本和超文本三類。 l 簡單文本(plain text):是由一連串的字符組成的,除了用于表達正文內(nèi)容的字符(包括漢字)及“回車”、“換行”、“制表”等有限的幾個打?。@示)控制字符之外,幾乎不包含任何其他格式信息和結構信息。這種文本通常稱為純文本或ASCII文本,在PC機中的文件后綴名是.txt特性:呈現(xiàn)為一種線性結構,以行、字為單位,順序?qū)懽髋c閱讀是最通用的文本文件格式,文件體積小,閱讀不受限制,幾乎所有的文字處理軟件都能識別和處理不能插入圖片、表格等,不能建立超鏈接l 豐富格式文本豐富格式文本(rich text、fancy text、fo

11、rmatted text),RTF格式,中間格式。l 超文本A. 超文本(hypertext)的閱讀方式:傳統(tǒng)的順序式閱讀,通過鏈接、跳轉(zhuǎn)、導航、回溯等操作實現(xiàn)跳躍式閱讀B. 超文本的結構節(jié)點(node)節(jié)點包含的內(nèi)容超鏈(hyperlink)鏈源鏈宿l 超媒體(Hypermedia):超文本中的節(jié)點不單是文本節(jié)點,還包含圖形、圖像、聲音或動畫節(jié)點,這種基于多媒體信息結點的超文本,有時也稱為“超媒體” l 超文本的應用:Windows等一些軟件中的“幫助”文件,使用瀏覽器從Web服務器上下載的網(wǎng)頁(html或htm文件),文本編輯與文本處理l “所見即所得”(What You See Is W

12、hat You Get, 簡稱WYSIWYG):一方面所有的編輯操作效果立即可以在屏幕上看到,另一方面在屏幕上看到的效果與打印機的輸出結果相同。二、 圖像與圖形1. 圖像按生成方法分類1) 從現(xiàn)實世界中通過數(shù)字化設備獲取的圖像,稱為:取樣圖像(sampled image)、點陣圖像(dot matrix image)、位圖圖像(bitmap image)簡稱圖像(image)2) 計算機合成的圖像(synthetic image),稱為:矢量圖形(vector graphics),簡稱圖形(graphics)2. 圖像的數(shù)字化1) 圖像獲取的過程實質(zhì)上是模擬信號的數(shù)字化過程,它的處理步驟:l

13、掃描 l 取樣l 分色l 量化2) 圖像的表示方法與主要參數(shù),從取樣圖像的獲取過程可以知道,一幅取樣圖像由M(行)* N(列)個取樣點組成,每個取樣點是組成取樣圖像的基本單位,稱為像素(picture element, 簡寫為pel)。彩色圖像的像素是矢量,它由多個彩色分量組成,黑白圖像的像素只有1個亮度值l 圖像的屬性信息A. 圖像大小,也稱圖像分辨率(包括垂直分辨率和水平分辨率)B. 位平面的數(shù)目,即矩陣的數(shù)目,也就是彩色分量的數(shù)目C. 顏色空間的類型,指彩色圖像所使用的顏色描述方法,也叫顏色模型。常用顏色模型:RGB(紅、綠、藍)、CMYK(青、品紅、黃、黑)、HSV(色彩、飽和度、亮度

14、)、YUV(亮度、色度)等D. 像素深度,即像素的所有顏色分量的位數(shù)之和,它決定了不同顏色(亮度)的最大數(shù)目 3) 圖像的壓縮編碼l 一幅圖像的數(shù)據(jù)量可按下面的公式進行計算(以字節(jié)為單位):圖像數(shù)據(jù)量圖像水平分辨率×圖像垂直分辨率×像素深度8 l 數(shù)據(jù)壓縮類型 A. 無損壓縮:壓縮以后的數(shù)據(jù)進行圖像還原(也稱為解壓縮)時,重建的圖像與原始圖像完全相同B. 有損壓縮:使用壓縮后的數(shù)據(jù)進行圖像重建時,重建后的圖像與原始圖像雖有一定的誤差,但不影響人們對圖像含義的正確理解。如變換編碼、矢量編碼等l 壓縮編碼方法優(yōu)劣的評價壓縮倍數(shù)的大小重建圖像的質(zhì)量(有損壓縮時)壓縮算法的復雜程度

15、圖像的壓縮編碼ü 圖像壓縮編碼方法的國際標準和工業(yè)標準:ISO和IEC兩個國際機構聯(lián)合組成了一個專家組 (Joint Photographic Experts Group, JPEG),制定了一個靜止圖像數(shù)據(jù)壓縮編碼的國際標準,稱為JPEG標準JPEG標準的特點:適用范圍廣;能處理各種連續(xù)色調(diào)的彩色或灰度圖像;算法復雜度適中;既可用硬件實現(xiàn),也可用軟件實現(xiàn);圖像的壓縮比可控制(壓縮比越低,圖像質(zhì)量越好;壓縮比越高,圖像質(zhì)量越差)JPEG 2000:適用于各種不同類型(黑白、灰度、彩色等)和不同特性(自然、醫(yī)學、遙感、合成)的圖像,可用于不同的應用模式(實時傳輸、檢索、存檔等)。采用了

16、小波分析等先進算法,提供了更好的圖像質(zhì)量,更低的碼率,更適合在WWW網(wǎng)上傳輸?shù)?,它兼容JPEG常用圖像文件格式常用圖像文件格式ü BMP(BitMaP-file)圖像:微軟公司在Windows操作系統(tǒng)下使用的一種標準圖像文件格式,一個文件存放一幅圖像,可以使用行程長度編碼(RLC)進行無損壓縮,也可不壓縮。不壓縮的BMP文件是一種通用的圖像文件格式,幾乎所有Windows應用軟件都能支持。ü TIFF(Tagged Image File Format)圖像文件格式:用于掃描儀和桌面出版,能支持多種壓縮方法和多種不同類型的圖像,有許多圖像圖形應用軟件支持這種文件格式。由文件頭

17、、文件目錄、目錄條目三個部分組成。ü GIF(Graphics Interchange Format):互聯(lián)網(wǎng)上廣泛使用的一種圖像文件格式,它的顏色數(shù)目較少(不超過256色),文件特別小,適合網(wǎng)絡傳輸。由于顏色數(shù)目有限,GIF適用于插圖、剪貼畫等色彩數(shù)目不多的應用場合。GIF格式能夠支持透明背景,具有在屏幕上漸進顯示的功能。尤為突出的是,它可以將許多張圖像保存在同一個文件中,顯示時按預先規(guī)定的時間間隔逐一進行顯示,從而形成動畫的效果,因而在網(wǎng)頁制作中大量使用。由CompuServe公司1987年開發(fā),基于Lempel-Ziv Walch(LZW)壓縮算法、使用特殊碼、可變長度。 4)

18、 數(shù)字圖像處理l 數(shù)字圖像處理:使用計算機對來自照相機、攝像機、傳真機、掃描儀、醫(yī)用CT機、X光機等的圖像,進行去噪、增強、復原、分割、提取特征、壓縮、存儲、檢索等操作處理l 對圖像進行處理的主要目的提高圖像的視感質(zhì)量圖像復原與重建圖像分析圖像的存儲、管理、檢索,以及圖像內(nèi)容與知識產(chǎn)權的保護等l 圖像處理軟件:使用較多的是面向辦公、出版與信息發(fā)布的圖像處理軟件,也稱為圖像修飾(image retouching)或圖像編輯軟件,支持多種不同的圖像文件格式,提供多種圖像編輯處理功能,可制作出生動形象的圖像。如美國Adobe公司的PhotoShop,集圖像掃描、圖像編輯、繪圖、圖像合成及圖像輸出等多

19、種功能于一體,是一個流行的圖像處理工具。PhotoShop的主要功能包括l 數(shù)字圖像的應用圖像通信 遙感 醫(yī)療診斷 工業(yè)生產(chǎn)中的應用 機器人視覺 軍事、公安、檔案管理5) 計算機圖形景物的模型(model ):景物在計算機內(nèi)的描述景物的建模(modeling):人們進行景物描述的過程繪制(rendering):也稱圖像合成(image synthesis),根據(jù)景物的模型生成圖像的過程,所產(chǎn)生的數(shù)字圖像稱為計算機合成圖像計算機圖形學(Computer Graphics):研究如何使用計算機描述景物并生成其圖像的原理、方法與技術l 計算機合成圖像的繪制,使用計算機合成圖像的主要優(yōu)點:能生成實際存

20、在的具體景物的圖像,還能生成假想或抽象景物的圖像,能生成靜止圖像,還能生成各種運動、變化的動態(tài)圖像l 計算機合成圖像的應用:計算機輔助設計和輔助制造(CADCAM)利用計算機生成各種地形圖、交通圖、天氣圖、海洋圖、石油開采圖等作戰(zhàn)指揮和軍事訓練 計算機動畫和計算機藝術其他:電子出版、數(shù)據(jù)處理、工業(yè)監(jiān)控、輔助教學(CAI)、軟件工程等l 矢量繪圖軟件矢量圖形:計算機合成圖像矢量繪圖軟件:制作矢量圖形的軟件:如:AutoCAD、MAPInfo、ARCInfo等2D的矢量繪圖軟件:Corel公司的CorelDraw。Adobe公司的Illustrator。Macromedia公司的FreeHand。

21、微軟公司的Microsoft Visio。微軟公司Office辦公套件中的Word和PowerPoint3. 數(shù)字聲音及應用1) 聲音信號的數(shù)字化l 聲音:由振動而產(chǎn)生,通過空氣進行傳播。它由許多不同頻率的諧波所組成,諧波的頻率范圍稱為聲音的帶寬(bandwidth),帶寬是聲音的一項重要參數(shù)。l 多媒體技術處理的聲音信號主要是人耳可聽到的2020kHz的音頻信號(audio)言語(speech)/語音:人說話的聲音,其頻率范圍約為3003400Hz全頻帶聲音:音樂聲、風雨聲、汽車聲等其他聲音,其帶寬可達到2020kHz2) 聲音信號的數(shù)字化l 聲音信號的數(shù)字化:將模擬聲音信號轉(zhuǎn)換成數(shù)字編碼形

22、式以便于計算機進行處理的過程l 聲音信號數(shù)字化的過程:取樣量化編碼l 模擬的聲音信號轉(zhuǎn)變成數(shù)字形式進行處理的優(yōu)點:以數(shù)字形式存儲的聲音重放性能好,復制時沒有失真數(shù)字聲音的可編輯性強,易于進行效果處理數(shù)字聲音能進行數(shù)據(jù)壓縮,傳輸時抗干擾能力強數(shù)字聲音容易與其他媒體相互結合(集成)數(shù)字聲音為自動提取“元數(shù)據(jù)”和實現(xiàn)基于內(nèi)容的檢索創(chuàng)造了條件3) 波形聲音的獲取設備l 麥克風:將聲波轉(zhuǎn)換為電信號l 聲卡(sound card):進行數(shù)字化波形聲音的獲?。喊涯M的聲音信號轉(zhuǎn)換為數(shù)字形式。(話筒或線路輸入、單雙道)波形聲音的重建與播放MIDI(Musical Instrument Digital Inte

23、rface)聲音的輸入MIDI聲音的合成與播放4) 波形聲音的主要參數(shù)DVD,DTV,家庭影院5.1,7.164kbpsDolby AC-3同MPEG-15.1,7.0與MPEG-1層1,層2,層3相同MPEG-2層audioInternet,MP3音樂2128112kbps(壓縮1012倍)MPEG-1層3DAB,VCD,DVD2256192kbps(壓縮68倍)MPEG-1層2數(shù)字盒式錄音帶2384kbps(壓縮4倍)MPEG-1層1主要應用聲道數(shù)目壓縮后的碼率(每個聲道)名稱全頻帶聲音的壓縮編碼v 第2代全頻帶聲音壓縮編碼標準l 取樣頻率l 量化位數(shù)l 聲道數(shù)目l 使用的壓縮編碼方法l 數(shù)碼率(bit rate):指的是每秒鐘

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論