第5章51 文本與文本處理_第1頁
第5章51 文本與文本處理_第2頁
第5章51 文本與文本處理_第3頁
第5章51 文本與文本處理_第4頁
第5章51 文本與文本處理_第5頁
已閱讀5頁,還剩35頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領

文檔簡介

1、第第5章章 數(shù)字媒體及應用數(shù)字媒體及應用5.1 文本與文本處理文本與文本處理 5.2 圖像與圖形圖像與圖形 5.3 數(shù)字聲音及應用數(shù)字聲音及應用5.4 數(shù)字視頻及應用數(shù)字視頻及應用25.1 文本與文本處理5.1 文本與文本處理文本與文本處理 5.1.1 字符的編碼字符的編碼5.1.2 文本準備文本準備5.1.4 文本編輯、排版與處理文本編輯、排版與處理5.1.3 文本的分類文本的分類5.1.5 文本的展現(xiàn)文本的展現(xiàn) 35.1 文本與文本處理文字處理是計算機應用的基礎文字處理是計算機應用的基礎n 計算機應用使用計算機進行信息處理計算機應用使用計算機進行信息處理n 其中,其中,文字處理是涉及面最廣

2、的一種計算機應用,文字處理是涉及面最廣的一種計算機應用,幾乎與任何領域任何人都有關(guān)。幾乎與任何領域任何人都有關(guān)。文字文字數(shù)值數(shù)值語言語言音樂音樂圖像圖像信息的形態(tài)有多種信息的形態(tài)有多種45.1 文本與文本處理計算機文字處理過程計算機文字處理過程n 文字信息在計算機中稱為文字信息在計算機中稱為“文本文本”(text),文本是計算機中最),文本是計算機中最常用的一種數(shù)字媒體常用的一種數(shù)字媒體n 文本由一系列文本由一系列 “字符字符”(character)組成,每個字符均使用二)組成,每個字符均使用二進制編碼表示進制編碼表示n 文本在計算機中的處理過程是:文本在計算機中的處理過程是:(文本編輯器文本

3、編輯器)文本編輯文本編輯與排版與排版格式化的格式化的電子文本電子文本(2)文本文本展現(xiàn)展現(xiàn)(文本閱讀器文本閱讀器)(5)文本處理文本處理 (文本處理文本處理)(3)文本準備文本準備電子電子文本文本(1)(文字與圖表文字與圖表 的輸入的輸入)文本存儲文本存儲與傳輸與傳輸(4)( (存檔存檔/ /通信軟件通信軟件) )55.1 文本與文本處理5.1.1. 字符在計算機中的表示字符在計算機中的表示 65.1 文本與文本處理字符、字符集及其編碼表字符、字符集及其編碼表 n 文字的基本元素是字母和符號,統(tǒng)稱為文字的基本元素是字母和符號,統(tǒng)稱為“字符字符” (character),它包括:字母、數(shù)字、標點

4、、符號等,它包括:字母、數(shù)字、標點、符號等n 字符集:一組特定字符的集合字符集:一組特定字符的集合n 不同的字符集包含的字符數(shù)目與內(nèi)容不同,如:不同的字符集包含的字符數(shù)目與內(nèi)容不同,如:中文字符集、西文字符集、日文字符集等中文字符集、西文字符集、日文字符集等n 字符的編碼:字符的編碼:n 字符集中每個字符的二進位表示,稱為該字符的編碼或代碼字符集中每個字符的二進位表示,稱為該字符的編碼或代碼(code) n 不同的字符其編碼各不相同不同的字符其編碼各不相同75.1 文本與文本處理西文字符的編碼西文字符的編碼ASCII碼碼n 西文是表音文字西文是表音文字(拼音文字拼音文字),它由拉丁字母、數(shù)字、

5、標點符號,它由拉丁字母、數(shù)字、標點符號以及一些特殊符號所組成以及一些特殊符號所組成n 美國標準信息交換碼美國標準信息交換碼(ASCII碼碼):n ASCII字符集包含字符集包含96個可打印字符和個可打印字符和32個控制字符個控制字符n 采用采用7個二進位進行編碼個二進位進行編碼n 計算機中使用計算機中使用1個字節(jié)存儲個字節(jié)存儲1個個ASCII 字符字符n 存在問題:存在問題:n 字符集太?。ㄖ挥凶址。ㄖ挥?28個字符)個字符)n 不同國家和地區(qū)使用不同的字符集及其編碼,互不兼容不同國家和地區(qū)使用不同的字符集及其編碼,互不兼容0X X X X X X X85.1 文本與文本處理漢字如何編碼

6、?漢字如何編碼?n 漢字是記錄漢語(國語,華語)的文字,屬于表漢字是記錄漢語(國語,華語)的文字,屬于表意文字,它用符號直接表達詞或詞素,有多個國意文字,它用符號直接表達詞或詞素,有多個國家和地區(qū)使用(中、日、韓、新、馬家和地區(qū)使用(中、日、韓、新、馬)n 漢字的特點漢字的特點n數(shù)量大;字形復雜,同音字多,異體字多數(shù)量大;字形復雜,同音字多,異體字多n 如何編碼?如何編碼?n確定收入多少字、哪些字?確定收入多少字、哪些字?n在字符集中如何排列?在字符集中如何排列?n使用多少個二進位進行編碼?使用多少個二進位進行編碼?95.1 文本與文本處理常用的漢字編碼字符集常用的漢字編碼字符集n國家標準國家

7、標準GB2312-1980n漢字擴充規(guī)范漢字擴充規(guī)范 GBK (已被已被GB 18030取代取代)n國家標準國家標準GB18030-2005n港澳臺使用的漢字編碼字符集港澳臺使用的漢字編碼字符集BIG 5,俗稱,俗稱“大大五碼五碼” UCS/Unicode多文種大字符集多文種大字符集nUnicode的的UTF-8nUnicode的的UTF-16105.1 文本與文本處理一級漢字一級漢字(3755個)個)二級漢字二級漢字(3008個)個)(擴充使用)(擴充使用)字母、數(shù)字和各種符號字母、數(shù)字和各種符號 19423位號位號 191655568794區(qū)區(qū) 號號(按漢語拼音排列按漢語拼音排列)(按偏旁

8、部首排列按偏旁部首排列)GB2312漢字編碼字符集漢字編碼字符集n 1980年頒布年頒布信息交換用漢字編碼字符集信息交換用漢字編碼字符集基本基本集集GB2312-1980n GB2312字符集由三個部分構(gòu)成:字符集由三個部分構(gòu)成:拉丁字母、俄拉丁字母、俄文、日文平假文、日文平假名與片假名、名與片假名、希臘字母、漢希臘字母、漢語拼音等共語拼音等共682個個共共6763個漢字和個漢字和682個符號,個符號,每個每個漢字和符號都有一漢字和符號都有一個確定位置個確定位置115.1 文本與文本處理GB2312漢字的編碼漢字的編碼n 每一個每一個GB2312漢字使用漢字使用16位位(2個字節(jié)個字節(jié))表示表

9、示n 為了與為了與ASCII字符相區(qū)別,每個字節(jié)的最高位均字符相區(qū)別,每個字節(jié)的最高位均為為“1”n 例如:例如:“南南”字的代碼是字的代碼是11000100 11001111(用十六進制表示為(用十六進制表示為C4CF) 11第第1字節(jié)字節(jié)第第2字節(jié)字節(jié)X X X X X X XX X X X X X X125.1 文本與文本處理GBK漢字漢字內(nèi)碼擴充規(guī)范內(nèi)碼擴充規(guī)范 n GB2312的不足:的不足:n 漢字字數(shù)太少,缺少繁體字漢字字數(shù)太少,缺少繁體字,無法滿足無法滿足人名、地名、古籍整理、人名、地名、古籍整理、古典文獻研究古典文獻研究等應用的需要;與等應用的需要;與ASCII碼不兼容碼不兼

10、容n GBK漢字漢字內(nèi)碼擴充規(guī)范(內(nèi)碼擴充規(guī)范(1995):):n 在在GB2312基礎上,增加了基礎上,增加了1萬多漢字萬多漢字(包括繁體字包括繁體字)和符號和符號n 共有共有21003個漢字和個漢字和883個圖形符號,如個圖形符號,如“計計算算機機”、冃冃、冄冄、円円、冇冇等繁體字和生僻字等繁體字和生僻字 n 與與GB8312保持向下兼容,也使用雙字節(jié)表示,第保持向下兼容,也使用雙字節(jié)表示,第1字節(jié)最高位必字節(jié)最高位必須為須為“1”:1 X第第1字節(jié)字節(jié)第第2字節(jié)字節(jié)X X X X X X XX X X X X X X135.1 文本與文本處理UCS/Unicode多文種大字符集多文種大字

11、符集n 背景:為了實現(xiàn)全球數(shù)以千計的不同語言文字的統(tǒng)一編碼背景:為了實現(xiàn)全球數(shù)以千計的不同語言文字的統(tǒng)一編碼n 方案:方案:ISO將全球所有文字字母和符號集中在一個字符集中進行統(tǒng)一將全球所有文字字母和符號集中在一個字符集中進行統(tǒng)一編碼編碼(目前共收集了目前共收集了17x2161,114,112 個個) ,稱為,稱為UCS/Unicoden UCS/Unicode的編碼方案:的編碼方案:n 先實現(xiàn)部分字符的編碼(近先實現(xiàn)部分字符的編碼(近11萬個字符)萬個字符)n 盡量與已有編碼標準兼容盡量與已有編碼標準兼容n 包含有中、日、韓、越統(tǒng)一整理出來的約包含有中、日、韓、越統(tǒng)一整理出來的約7萬漢字(稱

12、萬漢字(稱CJKV漢字)漢字)n 允許有若干不同的編碼方案允許有若干不同的編碼方案, 常用的兩種是:常用的兩種是:單字節(jié):單字節(jié):ASCII字符字符雙字節(jié):拉丁、希臘、阿拉伯,雙字節(jié):拉丁、希臘、阿拉伯,三字節(jié):三字節(jié):CJKV漢字漢字四字節(jié):其他四字節(jié):其他Unicode:UTF-8 單字節(jié)可變長編碼單字節(jié)可變長編碼應用:應用:Linux,Web網(wǎng)頁,電子郵件網(wǎng)頁,電子郵件雙字節(jié):雙字節(jié): ASCII字符、拉丁、希臘、字符、拉丁、希臘、 阿阿 拉伯,常用拉伯,常用CJKV漢字,漢字,四字節(jié):非常用四字節(jié):非常用CJKV漢字漢字Unicode:UTF-16雙字節(jié)可變長編碼雙字節(jié)可變長編碼應用:

13、應用:Windows,Mac,Java,145.1 文本與文本處理GB18030漢字編碼標準漢字編碼標準n 背景:無論是背景:無論是Unicode的的UTF-8還是還是UTF-16,其,其CJK漢字字符集雖然漢字字符集雖然覆蓋了我國已使用多年的覆蓋了我國已使用多年的GB2312和和GBK標準中的漢字,但它們的標準中的漢字,但它們的編編碼并不相同碼并不相同n 為了既能與為了既能與UCS/Unicode編碼標準接軌,又能保護我國已有的大量編碼標準接軌,又能保護我國已有的大量漢字信息資源,我國在漢字信息資源,我國在2000年和年和2005年兩次發(fā)布年兩次發(fā)布GB18030漢字編碼漢字編碼國家標準國家

14、標準。n GB18030實質(zhì)上是實質(zhì)上是UCS/Unicode字符集的另一種編碼方案:字符集的另一種編碼方案:n 單字節(jié)編碼(單字節(jié)編碼(128個)表示個)表示ASCII字符字符n 雙字節(jié)編碼(雙字節(jié)編碼(23940個)表示漢字,與個)表示漢字,與GBK(以及(以及GB2312)保持向)保持向下兼容,下兼容,GBK不再使用不再使用n 四字節(jié)編碼(約四字節(jié)編碼(約158萬個)用于表示萬個)用于表示 UCS/Unicode中的其他字符中的其他字符n GB18030目前已在我國信息處理產(chǎn)品中強制貫徹執(zhí)行。目前已在我國信息處理產(chǎn)品中強制貫徹執(zhí)行。 155.1 文本與文本處理標準名稱標準名稱GB2312

15、GBKGB18030UCS-2(Unicode)字符集字符集6763個漢字個漢字(簡簡體字體字)21003個漢字個漢字(包括(包括GB2312漢字在內(nèi))漢字在內(nèi))近近3萬漢字萬漢字(包括包括GBK漢字漢字和和CJKV及其擴及其擴充中的漢字充中的漢字)包含近包含近11萬字符,其萬字符,其中的漢字與中的漢字與GB18030相同相同編碼方法編碼方法雙字節(jié)存儲和雙字節(jié)存儲和表示,每個字表示,每個字節(jié)的最高位均節(jié)的最高位均為為“1” 雙字節(jié)存儲和表雙字節(jié)存儲和表示,第示,第1個字節(jié)個字節(jié)的最高位必為的最高位必為“1”部分雙字節(jié)、部分雙字節(jié)、部分部分4字節(jié)表示,字節(jié)表示,雙字節(jié)表示方雙字節(jié)表示方案與案與G

16、BK相同相同(1) UTF-8采用單字節(jié)采用單字節(jié)可變長編碼可變長編碼(2) UTF-16采用雙字采用雙字節(jié)可變長編碼節(jié)可變長編碼兼容性兼容性編碼編碼不兼容!不兼容!小結(jié):幾種漢字編碼的對比小結(jié):幾種漢字編碼的對比編碼保持向下兼容編碼保持向下兼容165.1 文本與文本處理小結(jié):不同標準,不同的表示!小結(jié):不同標準,不同的表示!n 與字符的編碼一樣,圖像、聲音、視頻等也分別有許多編碼標與字符的編碼一樣,圖像、聲音、視頻等也分別有許多編碼標準準, 如:國際標準如:國際標準(ISO)、國家標準、國家標準(GB)、工業(yè)標準、企業(yè)標準、工業(yè)標準、企業(yè)標準等,這也是信息處理復雜性的原因之一。等,這也是信息

17、處理復雜性的原因之一。n由于經(jīng)濟利益和政治體制等多種原因,相同的信息在計算機由于經(jīng)濟利益和政治體制等多種原因,相同的信息在計算機中可以有不同的表示,即采用不同的編碼進行表示中可以有不同的表示,即采用不同的編碼進行表示n例如:例如: “南京大學南京大學1234ABCD”的的3種表示:種表示:C4 CF BE A9 B4 F3 D1 A7 31 32 33 34 41 42 43 44E5 8D 97 E4 BA AC E5 A4 A7 E5 AD A6 31 32 33 34 41 42 43 4457 53 AC 4E 27 59 66 5B 31 00 32 00 33 00 34 00 4

18、1 00 42 00 43 00 44 00GBUTF-8UTF-16175.1 文本與文本處理5.1.2. 文本準備文本準備 文稿如何輸入計算機文稿如何輸入計算機 185.1 文本與文本處理文字符號輸入計算機的方法文字符號輸入計算機的方法鍵盤輸入鍵盤輸入自動識別輸入自動識別輸入字符信息的輸入字符信息的輸入人工輸入人工輸入(1)數(shù)字編碼數(shù)字編碼, 如電報碼、區(qū)位碼等如電報碼、區(qū)位碼等, (2)字音編碼字音編碼, 如智能如智能ABC等等(3)字形編碼,如五筆字形和表形碼等字形編碼,如五筆字形和表形碼等, (4)形音編碼形音編碼發(fā)展趨勢:基于統(tǒng)計和學習功能的以詞語發(fā)展趨勢:基于統(tǒng)計和學習功能的以詞

19、語(短語短語)或句子作為輸入單或句子作為輸入單位的輸入方法位的輸入方法195.1 文本與文本處理文字符號輸入計算機的方法文字符號輸入計算機的方法鍵盤輸入鍵盤輸入聯(lián)機手寫輸入聯(lián)機手寫輸入自動識別輸入自動識別輸入字符信息的輸入字符信息的輸入人工輸入人工輸入優(yōu)點:優(yōu)點:自然,流暢自然,流暢小型化,適合移動計算小型化,適合移動計算不足:不足:識別速度和正確性還需提高識別速度和正確性還需提高書寫要求還要降低書寫要求還要降低205.1 文本與文本處理文字符號輸入計算機的方法文字符號輸入計算機的方法鍵盤輸入鍵盤輸入聯(lián)機手寫輸入聯(lián)機手寫輸入語音輸入語音輸入自動識別輸入自動識別輸入字符信息的輸入字符信息的輸入人

20、工輸入人工輸入優(yōu)點:優(yōu)點:自然,方便,適合移動計算自然,方便,適合移動計算不足:不足:對說話人、說話方式、說話內(nèi)容的對說話人、說話方式、說話內(nèi)容的適應能力要大適應能力要大大增強大增強識別速度和正確性還需大大提高識別速度和正確性還需大大提高215.1 文本與文本處理文字符號輸入計算機的方法文字符號輸入計算機的方法光學字符識別光學字符識別鍵盤輸入鍵盤輸入聯(lián)機手寫輸入聯(lián)機手寫輸入語音輸入語音輸入自動識別輸入自動識別輸入字符信息的輸入字符信息的輸入人工輸入人工輸入掃描儀掃描儀OCR數(shù)字數(shù)字文本文本紙介質(zhì)紙介質(zhì)文本文本文本的文本的映象映象(image)識別率已達到識別率已達到98%功能功能: 簡、繁體字

21、簡、繁體字混合識別混合識別 中文、西文混合識別中文、西文混合識別 文字、表格混合識別文字、表格混合識別 智能校對功能智能校對功能225.1 文本與文本處理文字符號輸入計算機的方法文字符號輸入計算機的方法光學字符識別光學字符識別條形碼、磁卡、條形碼、磁卡、IC卡、卡、RFID識別識別鍵盤輸入鍵盤輸入聯(lián)機手寫輸入聯(lián)機手寫輸入語音輸入語音輸入自動識別輸入自動識別輸入字符信息的輸入字符信息的輸入人工輸入人工輸入 預先進行標識預先進行標識 掃描識別輸入掃描識別輸入235.1 文本與文本處理漢字的鍵盤輸入漢字的鍵盤輸入n 漢字與鍵盤上的鍵無法一一對應,因此必須使用漢字與鍵盤上的鍵無法一一對應,因此必須使用

22、幾個鍵來表示一個漢字,這就稱為漢字的幾個鍵來表示一個漢字,這就稱為漢字的“鍵盤輸鍵盤輸入編碼入編碼”n 優(yōu)秀的漢字鍵盤輸入編碼應具有的特點:優(yōu)秀的漢字鍵盤輸入編碼應具有的特點:n易學習、易記憶易學習、易記憶n效率高效率高(平均擊鍵次數(shù)較少平均擊鍵次數(shù)較少)n重碼少重碼少n容量大容量大(可輸入的漢字字數(shù)多可輸入的漢字字數(shù)多)245.1 文本與文本處理條形碼條形碼定位標志定位標志數(shù)據(jù)區(qū)數(shù)據(jù)區(qū) 一維條形碼將寬度不等的黑條和白一維條形碼將寬度不等的黑條和白條按一定的編碼規(guī)則排列成平行線條按一定的編碼規(guī)則排列成平行線圖案,用以對物品進行標識圖案,用以對物品進行標識只在一個方向表達信息,信息量有只在一個方

23、向表達信息,信息量有限(幾十個字符),只能包含字母、限(幾十個字符),只能包含字母、數(shù)字和一些特殊符號數(shù)字和一些特殊符號 二維條形碼在平面(二維方向)上以黑白相二維條形碼在平面(二維方向)上以黑白相間的圖形記錄文字和符號信息,信息容量大間的圖形記錄文字和符號信息,信息容量大QR條碼可容納條碼可容納7089個數(shù)字,或者個數(shù)字,或者4296個字母,個字母,或者或者1800個漢字,也可以表示簽字、指紋等信個漢字,也可以表示簽字、指紋等信息息檢錯和糾錯功能較強,能檢錯和糾錯功能較強,能360度全方位識讀,度全方位識讀,可靠性高可靠性高可引入加密技術(shù),保密性、防偽性較好可引入加密技術(shù),保密性、防偽性較好

24、(QR條碼)條碼)(商品條碼)(商品條碼)255.1 文本與文本處理5.1.4 文本的編輯與排版文本的編輯與排版265.1 文本與文本處理n 目的:確保文本內(nèi)容正確無誤目的:確保文本內(nèi)容正確無誤n 操作:對字、詞、句和段落進行添加、刪除、修操作:對字、詞、句和段落進行添加、刪除、修改等操作改等操作n MS Word的功能:的功能:n在文本的任何位置都可以在文本的任何位置都可以插入插入新的文字新的文字n從文本的任何位置都可以從文本的任何位置都可以刪除刪除不需要的文字不需要的文字n將一段文字從一處將一段文字從一處移動移動到另一處到另一處n將一段文字從一處將一段文字從一處復制復制到另一處到另一處n在

25、文本中自動在文本中自動查找查找指定的詞語指定的詞語n用一個詞語自動用一個詞語自動替換替換文本中指定的詞語文本中指定的詞語文本編輯文本編輯(text editing)275.1 文本與文本處理n 目的:使文本清晰、美觀、目的:使文本清晰、美觀、便于閱讀便于閱讀n 操作內(nèi)容:對文本中的字操作內(nèi)容:對文本中的字符、段落乃至整篇文章的符、段落乃至整篇文章的格式進行設計和調(diào)整,分格式進行設計和調(diào)整,分成成3個層次:個層次:n對字符格式進行設置對字符格式進行設置n對段落格式進行設置對段落格式進行設置n對文檔頁面進行格式設置對文檔頁面進行格式設置文本排版文本排版(Typesetting )285.1 文本與

26、文本處理設置字符的格式設置字符的格式n 字號字號( (八號八號 初號初號, 5磅磅72磅以上磅以上) ) 1 1磅相當于磅相當于1/721/72英寸英寸 n 字體字體( (宋體、宋體、楷體楷體、黑體黑體、仿宋仿宋、隸書隸書) )n 字符的修飾字符的修飾n 字符的形狀字符的形狀( (字形字形) ):正常、加粗、加粗、傾斜、加粗傾斜加粗傾斜n 字形的修飾:字形的修飾:下劃線下劃線、著重號、上下標、刪除線、著重號、上下標、刪除線n 字符的顏色字符的顏色n 字符的寬度字符的寬度n 字符的間距字符的間距n 字符的效果字符的效果n 字符的排列方向字符的排列方向Demo1295.1 文本與文本處理n 什么是

27、段落?用什么是段落?用“回車回車”相互隔開的一組文字相互隔開的一組文字n 段落格式的設置:段落格式的設置:n 段落的對齊方式段落的對齊方式( (兩端對齊、分散對齊、居中對齊、左對齊、兩端對齊、分散對齊、居中對齊、左對齊、右對齊右對齊)n 段落的縮進方式段落的縮進方式( (首行縮進、懸掛縮進、左縮進、右縮進首行縮進、懸掛縮進、左縮進、右縮進)n 段間距和段內(nèi)行距段間距和段內(nèi)行距n 使用編號和項目符號使用編號和項目符號n 段落段落添加邊框和底紋添加邊框和底紋n 首字下沉或懸掛首字下沉或懸掛n 段落與分頁的關(guān)系段落與分頁的關(guān)系設置段落的格式設置段落的格式Demo2305.1 文本與文本處理控制段落的

28、縮進控制段落的縮進n 段落縮進是指段落中的文本到正文區(qū)左、右邊界的距段落縮進是指段落中的文本到正文區(qū)左、右邊界的距離,包括段落左縮進、右縮進和首行縮進。其縮進的離,包括段落左縮進、右縮進和首行縮進。其縮進的距離可由水平標尺上對應的三個縮進標記來指示距離可由水平標尺上對應的三個縮進標記來指示左縮進標記左縮進標記首行縮進標記首行縮進標記右縮進標記右縮進標記右縮進右縮進左縮進左縮進首行縮進首行縮進正文區(qū)正文區(qū)右邊界右邊界正文區(qū)正文區(qū)左邊界左邊界懸掛縮進懸掛縮進標標記記315.1 文本與文本處理n頁面格式的設置:頁面格式的設置:n設置紙張大小和頁邊距設置紙張大小和頁邊距n設置每頁的行、列數(shù)目設置每頁的

29、行、列數(shù)目n設置分欄數(shù)目與格式設置分欄數(shù)目與格式n設置頁碼設置頁碼n設置頁眉和頁腳設置頁眉和頁腳 設置頁面的格式設置頁面的格式325.1 文本與文本處理設置頁面的分欄設置頁面的分欄335.1 文本與文本處理文本處理初步文本處理初步345.1 文本與文本處理5.1.3 文本的分類文本的分類355.1 文本與文本處理簡單文本簡單文本(純文本純文本 ) 本本 書書 由由 南南 京京 大大 學學 出出 版版 社社 ( P u b l i s h i n g H o u s e o f N a n j i n g U n i v e r s i t y ) 出出 版版 文文本本 沒有字體、字號的變化,無

30、圖片和表格,也不能建立超鏈接,其沒有字體、字號的變化,無圖片和表格,也不能建立超鏈接,其文件后綴名是文件后綴名是 .txt 在計算機中在計算機中.txt文件由一串字符代碼所組成,幾乎不包含任何其他文件由一串字符代碼所組成,幾乎不包含任何其他的格式信息和結(jié)構(gòu)信息的格式信息和結(jié)構(gòu)信息例:例:本書由南京大學出版社本書由南京大學出版社(Publishing House of Nanjing University)(Publishing House of Nanjing University)出版出版文文本本在在計計算算機機中中的的表表示示 B1 BE CA E9 D3 C9 C4 CF BE A9 B

31、4 F3 D1 A7 B3 F6 B0 E6 C9 E7 28 50 75 62 6C 69 73 68 69 6E 67 20 48 6F 75 73 65 20 6F 66 20 4E 61 6E 6A 69 6E 67 20 55 6E 69 76 65 72 73 69 74 79 29 B3 F6 B0 E6 365.1 文本與文本處理豐富格式文本豐富格式文本本書由南京大學出版社本書由南京大學出版社(Publishing House of Nanjing University)(Publishing House of Nanjing University)出版出版 有字體字號等屬性變化、設置了段落和頁面排版格式的文本稱為有字體字號等屬性變化、設置了段落和頁面排版格式的文本稱為“豐富豐富格式文本格式文本” 豐富格式文本中,除了正文內(nèi)容之外,還使用了許多豐富格式文本中,除了正文內(nèi)容之外,還使用了許多“標記標記”來描述字來描述字符的屬性和格式的設置符的屬性和格式的設置 舉例:下面標題的格式為:中文用黑體,西文用舉例:下面標題的格式為:中文用黑體,西文用Arial Black體,居中體,居中 使用使用HTML語言描述為:語言描述為: 本書由南京大學出版社本書由南京大學出版社(Publishing House of Na

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論