![了解文本媒體的編碼方式培訓(xùn)資料(共38頁).ppt_第1頁](http://file3.renrendoc.com/fileroot_temp3/2022-3/7/c401be5b-2c9c-4a09-a1ed-bc615e711619/c401be5b-2c9c-4a09-a1ed-bc615e7116191.gif)
![了解文本媒體的編碼方式培訓(xùn)資料(共38頁).ppt_第2頁](http://file3.renrendoc.com/fileroot_temp3/2022-3/7/c401be5b-2c9c-4a09-a1ed-bc615e711619/c401be5b-2c9c-4a09-a1ed-bc615e7116192.gif)
![了解文本媒體的編碼方式培訓(xùn)資料(共38頁).ppt_第3頁](http://file3.renrendoc.com/fileroot_temp3/2022-3/7/c401be5b-2c9c-4a09-a1ed-bc615e711619/c401be5b-2c9c-4a09-a1ed-bc615e7116193.gif)
![了解文本媒體的編碼方式培訓(xùn)資料(共38頁).ppt_第4頁](http://file3.renrendoc.com/fileroot_temp3/2022-3/7/c401be5b-2c9c-4a09-a1ed-bc615e711619/c401be5b-2c9c-4a09-a1ed-bc615e7116194.gif)
![了解文本媒體的編碼方式培訓(xùn)資料(共38頁).ppt_第5頁](http://file3.renrendoc.com/fileroot_temp3/2022-3/7/c401be5b-2c9c-4a09-a1ed-bc615e711619/c401be5b-2c9c-4a09-a1ed-bc615e7116195.gif)
版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
1、任務(wù)任務(wù)2 了解文本媒體的編碼方式了解文本媒體的編碼方式 5.2.1 文本媒體的分類和表示文本媒體的分類和表示 5.2.2 常用的編碼方式常用的編碼方式 5.2.3 文本的編輯和處理文本的編輯和處理 文本媒體的分類和表示文本媒體的分類和表示 文字是一種書面語言,它由一系列字符組文字是一種書面語言,它由一系列字符組成,包含中文和西文。成,包含中文和西文。文字信息在計(jì)算機(jī)中稱為文字信息在計(jì)算機(jī)中稱為“文本文本”,它是,它是計(jì)算機(jī)中最常用的一種數(shù)字媒體,在計(jì)算計(jì)算機(jī)中最常用的一種數(shù)字媒體,在計(jì)算機(jī)中采用二進(jìn)制編碼表示。機(jī)中采用二進(jìn)制編碼表示。文本的分類文本的分類 根據(jù)它們是否具有排版格式,文本可分為
2、簡單文本、根據(jù)它們是否具有排版格式,文本可分為簡單文本、豐富格式文本和超文本三大類。豐富格式文本和超文本三大類。l(1)簡單文本)簡單文本簡單文本又稱為純文本,是由一連串字符或漢字的編簡單文本又稱為純文本,是由一連串字符或漢字的編碼組成,它幾乎不包含任何其他的格式信息和結(jié)構(gòu)信碼組成,它幾乎不包含任何其他的格式信息和結(jié)構(gòu)信息,其文件后綴名是息,其文件后綴名是.txt。Windows附件中的記事附件中的記事本程序所編輯處理的文本就是簡單文本。本程序所編輯處理的文本就是簡單文本。簡單文本簡單文本(純文本純文本 ) 本本 書書 由由 南南 京京 大大 學(xué)學(xué) 出出 版版 社社 ( P u b l i s
3、 h i n g H o u s e o f N a n j i n g U n i v e r s i t y ) 出出 版版 文文本本例:例:本書由南京大學(xué)出版社本書由南京大學(xué)出版社(Publishing House of Nanjing University)(Publishing House of Nanjing University)出版出版文文本本在在計(jì)計(jì)算算機(jī)機(jī)中中的的表表示示 B1 BE CA E9 D3 C9 C4 CF BE A9 B4 F3 D1 A7 B3 F6 B0 E6 C9 E7 28 50 75 62 6C 69 73 68 69 6E 67 20 48 6F
4、75 73 65 20 6F 66 20 4E 61 6E 6A 69 6E 67 20 55 6E 69 76 65 72 73 69 74 79 29 B3 F6 B0 E6 文本的分類文本的分類(2)豐富格式文本)豐富格式文本l在日常生活中,為了文本能美觀、醒目的展現(xiàn)給用戶,在日常生活中,為了文本能美觀、醒目的展現(xiàn)給用戶,人們通常需要對純文本進(jìn)行加工、排版,這樣的文本人們通常需要對純文本進(jìn)行加工、排版,這樣的文本就是就是“豐富格式文本豐富格式文本”,如微軟公司的,如微軟公司的Word軟件所軟件所處理的處理的DOC文件、文件、Adobe公司的公司的Acrobat軟件所處軟件所處理的理的PD
5、F文件等。文件等。l在豐富格式文本中,除正文之外,還有許多用來說明在豐富格式文本中,除正文之外,還有許多用來說明文本的版面結(jié)構(gòu)、內(nèi)容組織、文字屬性的信息,這些文本的版面結(jié)構(gòu)、內(nèi)容組織、文字屬性的信息,這些信息被稱為信息被稱為“標(biāo)記標(biāo)記”,這些標(biāo)記及其使用規(guī)則被稱為,這些標(biāo)記及其使用規(guī)則被稱為“標(biāo)記語言標(biāo)記語言”。不同的軟件使用的標(biāo)記語言并不相同,。不同的軟件使用的標(biāo)記語言并不相同,相互之間不一定兼容。為了便于豐富格式文本在不同相互之間不一定兼容。為了便于豐富格式文本在不同的軟件和系統(tǒng)中互換使用,一些公司還聯(lián)合提出了一的軟件和系統(tǒng)中互換使用,一些公司還聯(lián)合提出了一種公用的中間格式,稱為種公用的中
6、間格式,稱為RTF格式。格式。豐富格式文本豐富格式文本本書由南京大學(xué)出版社本書由南京大學(xué)出版社(Publishing House of Nanjing University)(Publishing House of Nanjing University)出版出版舉例:下面標(biāo)題的格式為:中文用黑體,西文用舉例:下面標(biāo)題的格式為:中文用黑體,西文用Arial Black體,居中體,居中 使用使用HTML語言描述為:語言描述為: 本書由南京大學(xué)出版社本書由南京大學(xué)出版社(Publishing House of Nanjing University)出版出版用一對用一對指出的是標(biāo)記,如指出的是標(biāo)記,如
7、 和和 等,用于說明排版的格式和文字屬性,它等,用于說明排版的格式和文字屬性,它們不屬于正文內(nèi)容們不屬于正文內(nèi)容正文內(nèi)容正文內(nèi)容文本的分類文本的分類超文本超文本:它是用超鏈接的方法,將各種不同空間它是用超鏈接的方法,將各種不同空間的文字信息組織在一起的網(wǎng)狀文本。的文字信息組織在一起的網(wǎng)狀文本。超鏈接是有向的,起點(diǎn)位置稱為鏈源,它可以是超鏈接是有向的,起點(diǎn)位置稱為鏈源,它可以是網(wǎng)頁中的一個標(biāo)題、一個句子、一副畫等;目的網(wǎng)頁中的一個標(biāo)題、一個句子、一副畫等;目的地稱為鏈宿,它可以是另一個網(wǎng)頁(在本網(wǎng)站或地稱為鏈宿,它可以是另一個網(wǎng)頁(在本網(wǎng)站或其他網(wǎng)站中),也可以是同一個網(wǎng)頁中的其他部其他網(wǎng)站中)
8、,也可以是同一個網(wǎng)頁中的其他部分。分。超文本的格式有很多,目前最常使用的是超文本超文本的格式有很多,目前最常使用的是超文本標(biāo)記語言標(biāo)記語言(Hyper Text Markup Language,HTML) 及豐富文本格式及豐富文本格式(Rich Text Format,RTF)。超文本(超文本(www網(wǎng)頁)網(wǎng)頁)WWW網(wǎng)頁按照其內(nèi)容的關(guān)聯(lián)性相互進(jìn)行鏈接,網(wǎng)網(wǎng)頁按照其內(nèi)容的關(guān)聯(lián)性相互進(jìn)行鏈接,網(wǎng)頁就是典型的頁就是典型的 “超文本超文本”超文本也屬于豐富格式文本超文本也屬于豐富格式文本網(wǎng)頁網(wǎng)頁A網(wǎng)頁網(wǎng)頁B網(wǎng)頁網(wǎng)頁C網(wǎng)頁網(wǎng)頁D網(wǎng)頁網(wǎng)頁E網(wǎng)頁網(wǎng)頁F網(wǎng)頁網(wǎng)頁G網(wǎng)頁網(wǎng)頁Ha1 a2b2c2 f1d1c1
9、b1e1g1h1a3“超鏈超鏈”實(shí)際上就是一個實(shí)際上就是一個指針,用于指向其他網(wǎng)頁,指針,用于指向其他網(wǎng)頁,也可以指向同一網(wǎng)頁中的也可以指向同一網(wǎng)頁中的其他部分其他部分 超鏈?zhǔn)怯邢虻?,起點(diǎn)位置稱為超鏈?zhǔn)怯邢虻模瘘c(diǎn)位置稱為鏈源,它可以是網(wǎng)頁中的一個鏈源,它可以是網(wǎng)頁中的一個標(biāo)題、一句句子、一個關(guān)鍵詞、標(biāo)題、一句句子、一個關(guān)鍵詞、一幅畫、一個圖標(biāo)等一幅畫、一個圖標(biāo)等小結(jié):文本的分類小結(jié):文本的分類文本文本類型類型 特點(diǎn)特點(diǎn) 在計(jì)算機(jī)內(nèi)的表示在計(jì)算機(jī)內(nèi)的表示 文件文件擴(kuò)展名擴(kuò)展名 用途用途簡單簡單文本文本沒有字體、字號和版沒有字體、字號和版面格式的變化,文本面格式的變化,文本在頁面上逐行排列,在頁
10、面上逐行排列,也不含圖片和表格也不含圖片和表格由一連串與正文內(nèi)容對應(yīng)由一連串與正文內(nèi)容對應(yīng)的字符的編碼所組成,幾的字符的編碼所組成,幾乎不包含任何其他的格式乎不包含任何其他的格式信息和結(jié)構(gòu)信息信息和結(jié)構(gòu)信息.txt網(wǎng)上聊天網(wǎng)上聊天短信短信文字錄入文字錄入OCR輸入輸入豐富豐富格式格式文本文本(線性線性文本文本)有字體、字號、顏色有字體、字號、顏色等變化,文本在頁面等變化,文本在頁面上可以自由定位和布上可以自由定位和布局,還可插入圖片和局,還可插入圖片和表格表格除了與正文對應(yīng)的字符編除了與正文對應(yīng)的字符編碼之外,還使用某種碼之外,還使用某種“標(biāo)標(biāo)記語言記語言”所規(guī)定的一些標(biāo)所規(guī)定的一些標(biāo)記來說明
11、該文本的文字屬記來說明該文本的文字屬性和排版格式等性和排版格式等.doc.rtf.htm.html.pdf公文公文論文論文書稿書稿網(wǎng)頁網(wǎng)頁豐富豐富格式格式文本文本(超文超文本本)除上述特征外,文本除上述特征外,文本中還含有超鏈,使文中還含有超鏈,使文本呈現(xiàn)為一種網(wǎng)狀結(jié)本呈現(xiàn)為一種網(wǎng)狀結(jié)構(gòu)構(gòu)同上,但還應(yīng)包含用于指同上,但還應(yīng)包含用于指出出“鏈源鏈源”和和“鏈宿鏈宿”的的標(biāo)記標(biāo)記.doc.rtf.htm.html.pdf.hlp同上,以同上,以及軟件的及軟件的聯(lián)機(jī)文檔聯(lián)機(jī)文檔(幫助文件幫助文件)文本的輸入文本的輸入 使用計(jì)算機(jī)制作文本,首先要向計(jì)算機(jī)輸入該文使用計(jì)算機(jī)制作文本,首先要向計(jì)算機(jī)輸入該
12、文本所包含的字符信息。本所包含的字符信息。l人工輸入人工輸入 即通過鍵盤完成信息輸入,某些場合也會使用語音輸即通過鍵盤完成信息輸入,某些場合也會使用語音輸入和聯(lián)機(jī)手寫輸入等方法。入和聯(lián)機(jī)手寫輸入等方法。人工輸入速度慢、成本高、使用方便。人工輸入速度慢、成本高、使用方便。l印刷體自動識別技術(shù)印刷體自動識別技術(shù) 該技術(shù)是將紙介質(zhì)上的文本通過識別技術(shù)自動轉(zhuǎn)換為該技術(shù)是將紙介質(zhì)上的文本通過識別技術(shù)自動轉(zhuǎn)換為文字的編碼。文字的編碼。這種輸入方式速度快、效率高,通常應(yīng)用于需要大批這種輸入方式速度快、效率高,通常應(yīng)用于需要大批量輸入文字資料的檔案管理、圖書情報(bào)等應(yīng)用領(lǐng)域。量輸入文字資料的檔案管理、圖書情報(bào)等
13、應(yīng)用領(lǐng)域。文字符號輸入計(jì)算機(jī)的方法文字符號輸入計(jì)算機(jī)的方法印刷體識別印刷體識別手寫體識別手寫體識別鍵盤輸入鍵盤輸入聯(lián)機(jī)手寫輸入聯(lián)機(jī)手寫輸入語音輸入語音輸入自動識別輸入自動識別輸入字符信息的輸入字符信息的輸入人工輸入人工輸入 技術(shù)上非常困難,還無法實(shí)用技術(shù)上非常困難,還無法實(shí)用目前準(zhǔn)備先突破工整的楷書手寫體的識別目前準(zhǔn)備先突破工整的楷書手寫體的識別!漢字的鍵盤輸入漢字的鍵盤輸入 漢字與鍵盤上的鍵無法一一對應(yīng),因此漢字與鍵盤上的鍵無法一一對應(yīng),因此必須使用幾個鍵來表示一個漢字,這就稱必須使用幾個鍵來表示一個漢字,這就稱為漢字的為漢字的“鍵盤輸入編碼鍵盤輸入編碼” 優(yōu)秀的漢字鍵盤輸入編碼應(yīng)具有的特點(diǎn)
14、:優(yōu)秀的漢字鍵盤輸入編碼應(yīng)具有的特點(diǎn):l易學(xué)習(xí)、易記憶易學(xué)習(xí)、易記憶l效率高效率高(平均擊鍵次數(shù)較少平均擊鍵次數(shù)較少)l重碼少重碼少l容量大容量大(可輸入的漢字字?jǐn)?shù)多可輸入的漢字字?jǐn)?shù)多)漢字鍵盤輸入方法的比較漢字鍵盤輸入方法的比較類型類型原理原理舉例舉例優(yōu)點(diǎn)優(yōu)點(diǎn)缺點(diǎn)缺點(diǎn)數(shù)字?jǐn)?shù)字編碼編碼使用一串?dāng)?shù)字來表示使用一串?dāng)?shù)字來表示漢字漢字電報(bào)碼電報(bào)碼區(qū)位碼區(qū)位碼僅使用僅使用10個數(shù)個數(shù)字鍵字鍵難記憶難記憶字音字音編碼編碼把漢語的拼音作為漢把漢語的拼音作為漢字的輸入編碼字的輸入編碼智能智能ABC紫光華宇紫光華宇微軟拼音輸入微軟拼音輸入簡單易學(xué),適簡單易學(xué),適合于非專業(yè)人合于非專業(yè)人員員重碼多,需增加選擇重
15、碼多,需增加選擇操作,不會漢語拼音操作,不會漢語拼音或不知道讀音時無法或不知道讀音時無法使用使用字形字形編碼編碼把漢字的部件或筆畫把漢字的部件或筆畫作為碼元,按照漢字作為碼元,按照漢字結(jié)構(gòu)及其切分規(guī)則作結(jié)構(gòu)及其切分規(guī)則作為編碼依據(jù),確定每為編碼依據(jù),確定每個漢字的輸入代碼個漢字的輸入代碼五筆字形五筆字形表形碼表形碼鄭碼鄭碼重碼少、輸入重碼少、輸入速度較快,適速度較快,適合于專業(yè)錄入合于專業(yè)錄入員、打字員使員、打字員使用用缺乏統(tǒng)一的規(guī)范,編缺乏統(tǒng)一的規(guī)范,編碼規(guī)則不易掌握碼規(guī)則不易掌握音形音形編碼編碼(或形音或形音編碼編碼)采用字音及字形兩種采用字音及字形兩種屬性作為碼元的漢字屬性作為碼元的漢字
16、編碼輸入方法編碼輸入方法粵音輸入法粵音輸入法同上同上同時要掌握音、形兩同時要掌握音、形兩種取碼方法或規(guī)則,種取碼方法或規(guī)則,對普通用戶比較困難對普通用戶比較困難文本的輸出文本的輸出 文本的輸出通常分為打印輸出和屏幕輸出。文本的輸出通常分為打印輸出和屏幕輸出。由于存放在計(jì)算機(jī)存儲器中的文本是數(shù)字由于存放在計(jì)算機(jī)存儲器中的文本是數(shù)字形式的、不可見的,因此,無論是打印還形式的、不可見的,因此,無論是打印還是屏幕顯示,它們都需要專門的軟件進(jìn)行是屏幕顯示,它們都需要專門的軟件進(jìn)行文本格式的翻譯和顯示。文本格式的翻譯和顯示。承擔(dān)文本輸出任務(wù)的軟件稱為閱讀器或?yàn)g承擔(dān)文本輸出任務(wù)的軟件稱為閱讀器或?yàn)g覽器,如微
17、軟的覽器,如微軟的Word、IE瀏覽器,瀏覽器,Adobe公司的公司的Adobe Reader等。等。輸出過程中字形的生成輸出過程中字形的生成 過程:過程:l先根據(jù)字符的字體確定相應(yīng)的字庫(先根據(jù)字符的字體確定相應(yīng)的字庫(font),),l再按照該字符的代碼從字庫中取出該字符的形狀描述再按照該字符的代碼從字庫中取出該字符的形狀描述信息信息l然后按形狀描述信息生成字形,并按照字號大小及有然后按形狀描述信息生成字形,并按照字號大小及有關(guān)屬性(粗體、斜體、下橫線)將字形作必要的變換關(guān)屬性(粗體、斜體、下橫線)將字形作必要的變換l最后將變換得到的字形放置在頁面的指定位置處最后將變換得到的字形放置在頁面
18、的指定位置處2種不同的字庫:種不同的字庫:點(diǎn)陣點(diǎn)陣描述描述輪廓輪廓描述描述輪廓點(diǎn)輪廓點(diǎn)直線直線二次曲線二次曲線西文字符的編碼西文字符的編碼 西文字符是由拉丁字母、數(shù)字、標(biāo)點(diǎn)符號西文字符是由拉丁字母、數(shù)字、標(biāo)點(diǎn)符號及一些特殊符號組成及一些特殊符號組成目前在計(jì)算機(jī)中使用最廣泛的是標(biāo)準(zhǔn)目前在計(jì)算機(jī)中使用最廣泛的是標(biāo)準(zhǔn)ASCII字符集及其編碼。字符集及其編碼。ASCII碼又稱為美國標(biāo)準(zhǔn)信息交換碼,國碼又稱為美國標(biāo)準(zhǔn)信息交換碼,國際上通用的是際上通用的是7位二進(jìn)制數(shù)版本,共位二進(jìn)制數(shù)版本,共128個元素。個元素。西文字符的編碼西文字符的編碼 012345670 1 2 3 4 5 6 7 8 9 A B
19、 C D E Fb6b5b4b3b2b1b0 標(biāo)準(zhǔn)ASCII字符集及其編碼32個控制字符,不可打印空格通常一個通常一個ASCII碼值占一個字節(jié)(碼值占一個字節(jié)(8個二進(jìn)制位個二進(jìn)制位),每個字節(jié),每個字節(jié)中多余出來的一位(最高位)可設(shè)為中多余出來的一位(最高位)可設(shè)為“0”,用作數(shù)據(jù)傳輸時,用作數(shù)據(jù)傳輸時的奇偶校驗(yàn)。的奇偶校驗(yàn)。漢字的編碼漢字的編碼 漢字的歷史源遠(yuǎn)流長,世界四分之一的人漢字的歷史源遠(yuǎn)流長,世界四分之一的人口使用漢字,漢語被聯(lián)合國列為法定六種口使用漢字,漢語被聯(lián)合國列為法定六種正式語言和工作語言之一。正式語言和工作語言之一。中文文本的基本組成單位是漢字,漢字?jǐn)?shù)中文文本的基本組成單
20、位是漢字,漢字?jǐn)?shù)量大,同音、異體字多,它們在計(jì)算機(jī)內(nèi)量大,同音、異體字多,它們在計(jì)算機(jī)內(nèi)部的表示與處理則是一個非常重要的問題。部的表示與處理則是一個非常重要的問題。常用的漢字編碼字符集常用的漢字編碼字符集國家標(biāo)準(zhǔn)國家標(biāo)準(zhǔn)GB2312-1980漢字?jǐn)U充規(guī)范漢字?jǐn)U充規(guī)范 GBK (已被已被GB 18030取代取代)國家標(biāo)準(zhǔn)國家標(biāo)準(zhǔn)GB18030-2005港澳臺使用的漢字編碼字符集港澳臺使用的漢字編碼字符集CNS 11643 (BIG 5,俗稱,俗稱“大五碼大五碼”)UCS/Unicode多文種大字符集多文種大字符集lUnicode的的UTF-8lUnicode的的UTF-16GB2312漢字編碼漢
21、字編碼 GB2312漢字編碼是我國在漢字編碼是我國在1981年頒布的第一個年頒布的第一個國家標(biāo)準(zhǔn)國家標(biāo)準(zhǔn)在該標(biāo)準(zhǔn)中有在該標(biāo)準(zhǔn)中有3755個一級常用漢字(按漢語拼音個一級常用漢字(按漢語拼音排列)、排列)、3008個二級常用漢字(按偏旁部首排列)個二級常用漢字(按偏旁部首排列)和和682個非漢字字符。個非漢字字符。一級漢字一級漢字(3755個)個)二級漢字二級漢字(3008個)個)(擴(kuò)充使用)(擴(kuò)充使用)字母、數(shù)字和各種符號字母、數(shù)字和各種符號 19423位號位號 191655568794區(qū)區(qū) 號號(按漢語拼音排列按漢語拼音排列)(按偏旁部首排列按偏旁部首排列)共共6763個漢字和個漢字和682
22、個符號,個符號,每個每個漢字和符號都有一漢字和符號都有一個確定位置個確定位置拉丁字母、俄拉丁字母、俄文、日文平假文、日文平假名與片假名、名與片假名、希臘字母、漢希臘字母、漢語拼音等共語拼音等共682個個GB2312漢字編碼漢字編碼GB2312的所有字符分布在一個的所有字符分布在一個94行行94列的列的二維平面內(nèi),行號稱為區(qū)號,列號稱為位號,各二維平面內(nèi),行號稱為區(qū)號,列號稱為位號,各用兩位十進(jìn)制數(shù)表示。用兩位十進(jìn)制數(shù)表示。在計(jì)算機(jī)內(nèi)部每個漢字采用在計(jì)算機(jī)內(nèi)部每個漢字采用2個字節(jié)來表示,并個字節(jié)來表示,并把每個字節(jié)的最高位均規(guī)定為把每個字節(jié)的最高位均規(guī)定為“1”。這種高位均。這種高位均為為“1”
23、的雙字節(jié)漢字編碼就稱為的雙字節(jié)漢字編碼就稱為GB2312漢字漢字的的“機(jī)內(nèi)碼機(jī)內(nèi)碼”,又稱為,又稱為“內(nèi)碼內(nèi)碼”。目前目前PC機(jī)中機(jī)中GB2312漢字不論用何種方法錄入,漢字不論用何種方法錄入,在機(jī)器內(nèi)部都統(tǒng)一用機(jī)內(nèi)碼表示。在機(jī)器內(nèi)部都統(tǒng)一用機(jī)內(nèi)碼表示。GB2312漢字的編碼漢字的編碼每一個每一個GB2312漢字使用漢字使用16位位(2個字個字節(jié)節(jié))表示表示為了與為了與ASCII字符相區(qū)別,每個字節(jié)的字符相區(qū)別,每個字節(jié)的最高位均為最高位均為“1”例如:例如:“南南”字的代碼是字的代碼是11000100 11001111(用十六進(jìn)制表示為(用十六進(jìn)制表示為C4CF) 11第第1字節(jié)字節(jié)第第2字
24、節(jié)字節(jié)X X X X X X XX X X X X X XGBK漢字漢字內(nèi)碼擴(kuò)充規(guī)范內(nèi)碼擴(kuò)充規(guī)范 GB2312的不足:的不足:l漢字字?jǐn)?shù)太少,缺少繁體字漢字字?jǐn)?shù)太少,缺少繁體字,無法滿足人名、地名、古籍無法滿足人名、地名、古籍整理、古典文獻(xiàn)研究等應(yīng)用的需要;與整理、古典文獻(xiàn)研究等應(yīng)用的需要;與ASCII碼不兼容碼不兼容GBK漢字漢字內(nèi)碼擴(kuò)充規(guī)范(內(nèi)碼擴(kuò)充規(guī)范(1995):):l在在GB2312基礎(chǔ)上,增加了基礎(chǔ)上,增加了1萬多漢字萬多漢字(包括繁體字包括繁體字)和符和符號號l共有共有21003個漢字和個漢字和883個圖形符號,如個圖形符號,如“計(jì)計(jì)算算機(jī)機(jī)”、冃冃、冄冄、円円、冇冇等繁體字和生
25、僻字等繁體字和生僻字 l與與GB8312保持向下兼容,也使用雙字節(jié)表示,第保持向下兼容,也使用雙字節(jié)表示,第1字節(jié)字節(jié)最高位必須為最高位必須為“1”:1 X第第1字節(jié)字節(jié)第第2字節(jié)字節(jié)X X X X X X XX X X X X X XUCS/Unicode多文種大字符集多文種大字符集背景:為了實(shí)現(xiàn)全球數(shù)以千計(jì)的不同語言文字的統(tǒng)一編碼背景:為了實(shí)現(xiàn)全球數(shù)以千計(jì)的不同語言文字的統(tǒng)一編碼方案:方案:ISO將全球所有文字字母和符號集中在一個字符集中進(jìn)行將全球所有文字字母和符號集中在一個字符集中進(jìn)行統(tǒng)一編碼統(tǒng)一編碼(目前共收集了目前共收集了17x2161,114,112 個個) ,稱為,稱為UCS/U
26、nicodeUCS/Unicode的編碼方案:的編碼方案:l先實(shí)現(xiàn)部分字符的編碼(近先實(shí)現(xiàn)部分字符的編碼(近11萬個字符)萬個字符)l盡量與已有編碼標(biāo)準(zhǔn)兼容盡量與已有編碼標(biāo)準(zhǔn)兼容l包含有中、日、韓統(tǒng)一整理出來的約包含有中、日、韓統(tǒng)一整理出來的約7萬漢字(稱萬漢字(稱CJK漢字)漢字)l允許有若干不同的編碼方案允許有若干不同的編碼方案, 常用的兩種是:常用的兩種是:單字節(jié):單字節(jié):ASCII字符字符雙字節(jié):拉丁、希臘、阿拉伯,雙字節(jié):拉丁、希臘、阿拉伯,三字節(jié):三字節(jié):CJK漢字漢字四字節(jié):其他四字節(jié):其他Unicode:UTF-8 單字節(jié)可變長編碼單字節(jié)可變長編碼應(yīng)用:應(yīng)用:Linux,Web
27、網(wǎng)頁,電子郵件網(wǎng)頁,電子郵件雙字節(jié):雙字節(jié): ASCII字符、拉丁、希臘、字符、拉丁、希臘、 阿阿 拉伯,常用拉伯,常用CJK漢字,漢字,四字節(jié):非常用四字節(jié):非常用CJK漢字漢字Unicode:UTF-16雙字節(jié)可變長編碼雙字節(jié)可變長編碼應(yīng)用:應(yīng)用:Windows,Mac,Java,GB18030漢字編碼標(biāo)準(zhǔn)漢字編碼標(biāo)準(zhǔn)背景:無論是背景:無論是Unicode的的UTF-8還是還是UTF-16,其,其CJK漢字字漢字字符集雖然覆蓋了我國已使用多年的符集雖然覆蓋了我國已使用多年的GB2312和和GBK標(biāo)準(zhǔn)中的漢字,標(biāo)準(zhǔn)中的漢字,但它們的但它們的編碼并不相同編碼并不相同為了既能與為了既能與UCS/
28、Unicode編碼標(biāo)準(zhǔn)接軌,又能保護(hù)我國已有的編碼標(biāo)準(zhǔn)接軌,又能保護(hù)我國已有的大量漢字信息資源,我國在大量漢字信息資源,我國在2000年和年和2005年兩次發(fā)布年兩次發(fā)布GB18030漢字編碼國家標(biāo)準(zhǔn)漢字編碼國家標(biāo)準(zhǔn)。GB18030實(shí)質(zhì)上是實(shí)質(zhì)上是UCS/Unicode字符集的另一種編碼方案:字符集的另一種編碼方案:l單字節(jié)編碼(單字節(jié)編碼(128個)表示個)表示ASCII字符字符l雙字節(jié)編碼(雙字節(jié)編碼(23940個)表示漢字,與個)表示漢字,與GBK(以及(以及GB2312)保持向)保持向下兼容,下兼容,GBK不再使用不再使用l四字節(jié)編碼(約四字節(jié)編碼(約158萬個)用于表示萬個)用于表示
29、 UCS/Unicode中的其他字符中的其他字符GB18030目前已在我國信息處理產(chǎn)品中強(qiáng)制貫徹執(zhí)行。目前已在我國信息處理產(chǎn)品中強(qiáng)制貫徹執(zhí)行。 標(biāo)準(zhǔn)名稱標(biāo)準(zhǔn)名稱GB2312GBKGB18030UCS-2(Unicode)字符集字符集6763個漢字個漢字(簡體字簡體字)21003個漢字個漢字(包括(包括GB2312漢字漢字在內(nèi))在內(nèi))近近3萬漢字萬漢字(包括包括GBK漢漢字和字和CJK及其及其擴(kuò)充中的漢字?jǐn)U充中的漢字)包含近包含近11萬字符,萬字符,其中的漢字與其中的漢字與GB18030相同相同編碼方法編碼方法雙字節(jié)存儲和雙字節(jié)存儲和表示,每個字表示,每個字節(jié)的最高位均節(jié)的最高位均為為“1” 雙
30、字節(jié)存儲和雙字節(jié)存儲和表示,第表示,第1個字個字節(jié)的最高位必節(jié)的最高位必為為“1”部分雙字節(jié)、部分雙字節(jié)、部分部分4字節(jié)表字節(jié)表示,雙字節(jié)表示,雙字節(jié)表示方案與示方案與GBK相同相同 UTF-8采用單字采用單字節(jié)可變長編碼節(jié)可變長編碼 UTF-16采用雙采用雙字節(jié)可變長編碼字節(jié)可變長編碼兼容性兼容性編碼編碼不兼容!不兼容!小結(jié):幾種漢字編碼的對比小結(jié):幾種漢字編碼的對比編碼保持向下兼容編碼保持向下兼容小結(jié):不同標(biāo)準(zhǔn),不同的表示!小結(jié):不同標(biāo)準(zhǔn),不同的表示!與字符的編碼一樣,圖像、聲音、視頻等也分別有許多編碼與字符的編碼一樣,圖像、聲音、視頻等也分別有許多編碼標(biāo)準(zhǔn):國際標(biāo)準(zhǔn)標(biāo)準(zhǔn):國際標(biāo)準(zhǔn)(ISO
31、)、國家標(biāo)準(zhǔn)、國家標(biāo)準(zhǔn)(GB)、工業(yè)標(biāo)準(zhǔn)、企業(yè)、工業(yè)標(biāo)準(zhǔn)、企業(yè)標(biāo)準(zhǔn)等,這也是信息處理復(fù)雜性的原因之一。標(biāo)準(zhǔn)等,這也是信息處理復(fù)雜性的原因之一。n由于經(jīng)濟(jì)利益和政治體制等多種原因,相同的信息在計(jì)算機(jī)由于經(jīng)濟(jì)利益和政治體制等多種原因,相同的信息在計(jì)算機(jī)中可以有不同的表示,即采用不同的編碼進(jìn)行表示中可以有不同的表示,即采用不同的編碼進(jìn)行表示n例如:例如: “南京大學(xué)南京大學(xué)1234ABCD”的的3種表示:種表示:C4 CF BE A9 B4 F3 D1 A7 31 32 33 34 41 42 43 44E5 8D 97 E4 BA AC E5 A4 A7 E5 ADA6 31 32 33 34 4
32、1 42 43 4457 53 AC 4E 27 59 66 5B 31 00 32 00 33 00 34 00 41 00 42 00 43 00 44 00GBUTF-8UTF-16文本的編輯和處理文本的編輯和處理 1. 文本編輯和排版文本編輯和排版l在許多場合,為了實(shí)際需要,文本必須美觀、清晰,在許多場合,為了實(shí)際需要,文本必須美觀、清晰,所以需要對字、詞、段落進(jìn)行添加、刪除、修改、格所以需要對字、詞、段落進(jìn)行添加、刪除、修改、格式的設(shè)置等排版工作。式的設(shè)置等排版工作。l這些解決文本外觀的問題就是文本編輯的主要任務(wù)。這些解決文本外觀的問題就是文本編輯的主要任務(wù)。常用的文字處理軟件如常用
33、的文字處理軟件如Microsoft Word 、WPS等。等。2. 文本處理文本處理l文本處理強(qiáng)調(diào)的是使用計(jì)算機(jī)對文本中所含文字信息文本處理強(qiáng)調(diào)的是使用計(jì)算機(jī)對文本中所含文字信息的形、音、義等進(jìn)行分析和處理,如字?jǐn)?shù)統(tǒng)計(jì)、詞語的形、音、義等進(jìn)行分析和處理,如字?jǐn)?shù)統(tǒng)計(jì)、詞語錯誤檢測、文語轉(zhuǎn)換等。錯誤檢測、文語轉(zhuǎn)換等。l文本處理最廣泛的應(yīng)用就是文本檢索,如文本處理最廣泛的應(yīng)用就是文本檢索,如Google檢檢索或百度檢索。索或百度檢索。目的:確保文本內(nèi)容正確無誤目的:確保文本內(nèi)容正確無誤操作:對字、詞、句和段落進(jìn)行添加、刪操作:對字、詞、句和段落進(jìn)行添加、刪除、修改等操作除、修改等操作MS Word的
34、功能:的功能:l在文本的任何位置都可以在文本的任何位置都可以插入插入新的文字新的文字l從文本的任何位置都可以從文本的任何位置都可以刪除刪除不需要的文字不需要的文字l將一段文字從一處將一段文字從一處移動移動到另一處到另一處l將一段文字從一處將一段文字從一處復(fù)制復(fù)制到另一處到另一處l在文本中自動在文本中自動查找查找指定的詞語指定的詞語l用一個詞語自動用一個詞語自動替換替換文本中指定的詞語文本中指定的詞語文本編輯文本編輯(text editing)目的:使文本清晰、美觀、目的:使文本清晰、美觀、便于閱讀便于閱讀操作內(nèi)容:對文本中的字操作內(nèi)容:對文本中的字符、段落乃至整篇文章的符、段落乃至整篇文章的格
35、式進(jìn)行設(shè)計(jì)和調(diào)整,分格式進(jìn)行設(shè)計(jì)和調(diào)整,分成成3個層次:個層次:l對字符格式進(jìn)行設(shè)置對字符格式進(jìn)行設(shè)置l對段落格式進(jìn)行設(shè)置對段落格式進(jìn)行設(shè)置l對文檔頁面進(jìn)行格式設(shè)置對文檔頁面進(jìn)行格式設(shè)置文本排版文本排版(Typesetting )設(shè)置字符的格式設(shè)置字符的格式字號字號( (八號八號 初號初號, 5磅磅72磅以上磅以上) ) 1 1磅相當(dāng)于磅相當(dāng)于1/721/72英寸英寸 字體字體( (宋體、宋體、楷體楷體、黑體黑體、仿宋仿宋、隸書隸書) )字符的修飾字符的修飾l字符的形狀字符的形狀( (字形字形) ):正常、加粗、加粗、傾斜、加粗傾斜加粗傾斜l字形的修飾:字形的修飾:下劃線下劃線、著重號、上下標(biāo)
36、、刪除線、著重號、上下標(biāo)、刪除線l字符的顏色字符的顏色l字符的寬度字符的寬度l字符的間距字符的間距l(xiāng)字符的效果字符的效果字符的排列方向字符的排列方向什么是段落?用什么是段落?用“回車回車”相互隔開的一組文相互隔開的一組文字字段落格式的設(shè)置:段落格式的設(shè)置:l段落的對齊方式段落的對齊方式( (兩端對齊、分散對齊、居中對齊、兩端對齊、分散對齊、居中對齊、左對齊、右對齊左對齊、右對齊)l段落的縮進(jìn)方式段落的縮進(jìn)方式( (首行縮進(jìn)、懸掛縮進(jìn)、左縮進(jìn)、右縮進(jìn)首行縮進(jìn)、懸掛縮進(jìn)、左縮進(jìn)、右縮進(jìn))l段間距和段內(nèi)行距段間距和段內(nèi)行距l(xiāng)使用編號和項(xiàng)目符號使用編號和項(xiàng)目符號l段落段落添加邊框和底紋添加邊框和底紋l首字下沉或懸掛首字下沉或懸掛l段落與分頁的關(guān)系段落與分頁的關(guān)系設(shè)置段落的格式設(shè)置段落的格式控制段落的縮進(jìn)控制段落的縮進(jìn)段落縮進(jìn)是指段落中的文本到正文區(qū)左、右邊界的距離,包括段落段落縮進(jìn)是指段落
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 上海市標(biāo)準(zhǔn)租賃合同樣本
- 中外房屋租賃合同樣本
- 個人與雇主家政服務(wù)合同
- 鄉(xiāng)村振興項(xiàng)目裝修合同
- 不可撤銷貸款合同范文
- 三人合作房地產(chǎn)開發(fā)合同范本(版)
- 個人貨車租賃標(biāo)準(zhǔn)合同樣本
- 世界游泳錦標(biāo)賽服務(wù)合同
- 二手房購買合同樣本集錦
- LED租賃服務(wù)合同范本
- 【大學(xué)課件】機(jī)電設(shè)備管理技術(shù)概論
- (2024)甘肅省公務(wù)員考試《行測》真題及答案解析
- 醫(yī)院醫(yī)務(wù)人員醫(yī)德考評標(biāo)準(zhǔn)
- 小紅書種草營銷師(初級)認(rèn)證考試真題試題庫(含答案)
- 癲癇病人的護(hù)理(課件)
- 企業(yè)資產(chǎn)管理培訓(xùn)
- 2024年WPS計(jì)算機(jī)二級考試題庫350題(含答案)
- 2024年4月27日浙江省事業(yè)單位招聘《職業(yè)能力傾向測驗(yàn)》試題
- 2024年6月浙江省高考地理試卷真題(含答案逐題解析)
- 醫(yī)院培訓(xùn)課件:《如何撰寫護(hù)理科研標(biāo)書》
- 河南省鄭州市2023-2024學(xué)年高二上學(xué)期期末考試 數(shù)學(xué) 含答案
評論
0/150
提交評論