




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
任務(wù)2了解文本媒體的編碼方式5.2.1文本媒體的分類和表示5.2.2常用的編碼方式5.2.3文本的編輯和處理文本媒體的分類和表示文字是一種書面語言,它由一系列字符組成,包含中文和西文。文字信息在計(jì)算機(jī)中稱為“文本”,它是計(jì)算機(jī)中最常用的一種數(shù)字媒體,在計(jì)算機(jī)中采用二進(jìn)制編碼表示。文本的分類根據(jù)它們是否具有排版格式,文本可分為簡單文本、豐富格式文本和超文本三大類。(1)簡單文本簡單文本又稱為純文本,是由一連串字符或漢字的編碼組成,它幾乎不包含任何其他的格式信息和結(jié)構(gòu)信息,其文件后綴名是.txt。Windows附件中的記事本程序所編輯處理的文本就是簡單文本。簡單文本(純文本)
本書由南京大學(xué)出
版社(Publishing
HouseofNanjin
gUniversity)出版
文本例:本書由南京大學(xué)出版社(PublishingHouseofNanjingUniversity)出版文本在計(jì)算機(jī)中的表示
B1BECAE9D3C9C4CFBEA9B4F3D1A7B3F6
B0E6C9E7285075626C697368696E67
20486F757365206F66204E616E6A696E
6720556E697665727369747929B3F6B0E6
文本的分類(2)豐富格式文本在日常生活中,為了文本能美觀、醒目的展現(xiàn)給用戶,人們通常需要對(duì)純文本進(jìn)行加工、排版,這樣的文本就是“豐富格式文本”,如微軟公司的Word軟件所處理的DOC文件、Adobe公司的Acrobat軟件所處理的PDF文件等。在豐富格式文本中,除正文之外,還有許多用來說明文本的版面結(jié)構(gòu)、內(nèi)容組織、文字屬性的信息,這些信息被稱為“標(biāo)記”,這些標(biāo)記及其使用規(guī)則被稱為“標(biāo)記語言”。不同的軟件使用的標(biāo)記語言并不相同,相互之間不一定兼容。為了便于豐富格式文本在不同的軟件和系統(tǒng)中互換使用,一些公司還聯(lián)合提出了一種公用的中間格式,稱為RTF格式。豐富格式文本本書由南京大學(xué)出版社(PublishingHouseofNanjingUniversity)出版舉例:下面標(biāo)題的格式為:中文用黑體,西文用ArialBlack體,居中使用HTML語言描述為:<palign="center"><fontface="黑體">本書由南京大學(xué)出版社</font><fontface="ArialBlack">(PublishingHouseofNanjingUniversity)</font><fontface="黑體">出版</font></p>用一對(duì)<>指出的是標(biāo)記,如<fontface=“黑體”>和</font>等,用于說明排版的格式和文字屬性,它們不屬于正文內(nèi)容正文內(nèi)容文本的分類超文本:它是用超鏈接的方法,將各種不同空間的文字信息組織在一起的網(wǎng)狀文本。超鏈接是有向的,起點(diǎn)位置稱為鏈源,它可以是網(wǎng)頁中的一個(gè)標(biāo)題、一個(gè)句子、一副畫等;目的地稱為鏈宿,它可以是另一個(gè)網(wǎng)頁(在本網(wǎng)站或其他網(wǎng)站中),也可以是同一個(gè)網(wǎng)頁中的其他部分。超文本的格式有很多,目前最常使用的是超文本標(biāo)記語言(HyperTextMarkupLanguage,HTML)及豐富文本格式(RichTextFormat,RTF)。超文本(www網(wǎng)頁)WWW網(wǎng)頁按照其內(nèi)容的關(guān)聯(lián)性相互進(jìn)行鏈接,網(wǎng)頁就是典型的“超文本”超文本也屬于豐富格式文本網(wǎng)頁A網(wǎng)頁B網(wǎng)頁C網(wǎng)頁D網(wǎng)頁E網(wǎng)頁F網(wǎng)頁G網(wǎng)頁Ha1a2b2c2f1d1c1b1e1g1h1a3“超鏈”實(shí)際上就是一個(gè)指針,用于指向其他網(wǎng)頁,也可以指向同一網(wǎng)頁中的其他部分
超鏈?zhǔn)怯邢虻模瘘c(diǎn)位置稱為鏈源,它可以是網(wǎng)頁中的一個(gè)標(biāo)題、一句句子、一個(gè)關(guān)鍵詞、一幅畫、一個(gè)圖標(biāo)等小結(jié):文本的分類文本類型特點(diǎn)在計(jì)算機(jī)內(nèi)的表示文件擴(kuò)展名用途簡單文本沒有字體、字號(hào)和版面格式的變化,文本在頁面上逐行排列,也不含圖片和表格由一連串與正文內(nèi)容對(duì)應(yīng)的字符的編碼所組成,幾乎不包含任何其他的格式信息和結(jié)構(gòu)信息.txt網(wǎng)上聊天短信文字錄入OCR輸入豐富格式文本(線性文本)有字體、字號(hào)、顏色等變化,文本在頁面上可以自由定位和布局,還可插入圖片和表格除了與正文對(duì)應(yīng)的字符編碼之外,還使用某種“標(biāo)記語言”所規(guī)定的一些標(biāo)記來說明該文本的文字屬性和排版格式等.doc.rtf.htm.html.pdf公文論文書稿網(wǎng)頁豐富格式文本(超文本)除上述特征外,文本中還含有超鏈,使文本呈現(xiàn)為一種網(wǎng)狀結(jié)構(gòu)同上,但還應(yīng)包含用于指出“鏈源”和“鏈宿”的標(biāo)記.doc.rtf.htm.html.pdf.hlp同上,以及軟件的聯(lián)機(jī)文檔(幫助文件)文本的輸入使用計(jì)算機(jī)制作文本,首先要向計(jì)算機(jī)輸入該文本所包含的字符信息。人工輸入:即通過鍵盤完成信息輸入,某些場合也會(huì)使用語音輸入和聯(lián)機(jī)手寫輸入等方法。人工輸入速度慢、成本高、使用方便。印刷體自動(dòng)識(shí)別技術(shù)。該技術(shù)是將紙介質(zhì)上的文本通過識(shí)別技術(shù)自動(dòng)轉(zhuǎn)換為文字的編碼。這種輸入方式速度快、效率高,通常應(yīng)用于需要大批量輸入文字資料的檔案管理、圖書情報(bào)等應(yīng)用領(lǐng)域。文字符號(hào)輸入計(jì)算機(jī)的方法印刷體識(shí)別手寫體識(shí)別鍵盤輸入聯(lián)機(jī)手寫輸入語音輸入自動(dòng)識(shí)別輸入字符信息的輸入人工輸入技術(shù)上非常困難,還無法實(shí)用目前準(zhǔn)備先突破工整的楷書手寫體的識(shí)別!漢字的鍵盤輸入漢字與鍵盤上的鍵無法一一對(duì)應(yīng),因此必須使用幾個(gè)鍵來表示一個(gè)漢字,這就稱為漢字的“鍵盤輸入編碼”優(yōu)秀的漢字鍵盤輸入編碼應(yīng)具有的特點(diǎn):易學(xué)習(xí)、易記憶效率高(平均擊鍵次數(shù)較少)重碼少容量大(可輸入的漢字字?jǐn)?shù)多)漢字鍵盤輸入方法的比較類型原理舉例優(yōu)點(diǎn)缺點(diǎn)數(shù)字編碼使用一串?dāng)?shù)字來表示漢字電報(bào)碼區(qū)位碼僅使用10個(gè)數(shù)字鍵難記憶字音編碼把漢語的拼音作為漢字的輸入編碼智能ABC紫光華宇微軟拼音輸入簡單易學(xué),適合于非專業(yè)人員重碼多,需增加選擇操作,不會(huì)漢語拼音或不知道讀音時(shí)無法使用字形編碼把漢字的部件或筆畫作為碼元,按照漢字結(jié)構(gòu)及其切分規(guī)則作為編碼依據(jù),確定每個(gè)漢字的輸入代碼五筆字形表形碼鄭碼重碼少、輸入速度較快,適合于專業(yè)錄入員、打字員使用缺乏統(tǒng)一的規(guī)范,編碼規(guī)則不易掌握音形編碼(或形音編碼)采用字音及字形兩種屬性作為碼元的漢字編碼輸入方法粵音輸入法同上同時(shí)要掌握音、形兩種取碼方法或規(guī)則,對(duì)普通用戶比較困難文本的輸出文本的輸出通常分為打印輸出和屏幕輸出。由于存放在計(jì)算機(jī)存儲(chǔ)器中的文本是數(shù)字形式的、不可見的,因此,無論是打印還是屏幕顯示,它們都需要專門的軟件進(jìn)行文本格式的翻譯和顯示。承擔(dān)文本輸出任務(wù)的軟件稱為閱讀器或?yàn)g覽器,如微軟的Word、IE瀏覽器,Adobe公司的AdobeReader等。輸出過程中字形的生成
過程:先根據(jù)字符的字體確定相應(yīng)的字庫(font),再按照該字符的代碼從字庫中取出該字符的形狀描述信息然后按形狀描述信息生成字形,并按照字號(hào)大小及有關(guān)屬性(粗體、斜體、下橫線)將字形作必要的變換最后將變換得到的字形放置在頁面的指定位置處2種不同的字庫:點(diǎn)陣描述輪廓描述輪廓點(diǎn)直線二次曲線西文字符的編碼西文字符是由拉丁字母、數(shù)字、標(biāo)點(diǎn)符號(hào)及一些特殊符號(hào)組成目前在計(jì)算機(jī)中使用最廣泛的是標(biāo)準(zhǔn)ASCII字符集及其編碼。ASCII碼又稱為美國標(biāo)準(zhǔn)信息交換碼,國際上通用的是7位二進(jìn)制數(shù)版本,共128個(gè)元素。西文字符的編碼012345670123456789ABCDEFb6b5b4b3b2b1b0圖5-2標(biāo)準(zhǔn)ASCII字符集及其編碼32個(gè)控制字符,不可打印空格通常一個(gè)ASCII碼值占一個(gè)字節(jié)(8個(gè)二進(jìn)制位),每個(gè)字節(jié)中多余出來的一位(最高位)可設(shè)為“0”,用作數(shù)據(jù)傳輸時(shí)的奇偶校驗(yàn)。漢字的編碼漢字的歷史源遠(yuǎn)流長,世界四分之一的人口使用漢字,漢語被聯(lián)合國列為法定六種正式語言和工作語言之一。中文文本的基本組成單位是漢字,漢字?jǐn)?shù)量大,同音、異體字多,它們?cè)谟?jì)算機(jī)內(nèi)部的表示與處理則是一個(gè)非常重要的問題。目前漢字編碼主要有GB2312、GBK、GB18030等。常用的漢字編碼字符集國家標(biāo)準(zhǔn)GB2312-1980漢字?jǐn)U充規(guī)范GBK(已被GB18030取代)國家標(biāo)準(zhǔn)GB18030-2005港澳臺(tái)使用的漢字編碼字符集CNS11643(BIG5,俗稱“大五碼”)UCS/Unicode多文種大字符集Unicode的UTF-8Unicode的UTF-16GB2312漢字編碼GB2312漢字編碼是我國在1981年頒布的第一個(gè)國家標(biāo)準(zhǔn)在該標(biāo)準(zhǔn)中有3755個(gè)一級(jí)常用漢字(按漢語拼音排列)、3008個(gè)二級(jí)常用漢字(按偏旁部首排列)和682個(gè)非漢字字符。一級(jí)漢字(3755個(gè))二級(jí)漢字(3008個(gè))(擴(kuò)充使用)字母、數(shù)字和各種符號(hào)
………………19423位號(hào)
…………191655568794區(qū)號(hào)(按漢語拼音排列)(按偏旁部首排列)共6763個(gè)漢字和682個(gè)符號(hào),每個(gè)漢字和符號(hào)都有一個(gè)確定位置拉丁字母、俄文、日文平假名與片假名、希臘字母、漢語拼音等共682個(gè)GB2312漢字編碼GB2312的所有字符分布在一個(gè)94行×94列的二維平面內(nèi),行號(hào)稱為區(qū)號(hào),列號(hào)稱為位號(hào),各用兩位十進(jìn)制數(shù)表示。在計(jì)算機(jī)內(nèi)部每個(gè)漢字采用2個(gè)字節(jié)來表示,并把每個(gè)字節(jié)的最高位均規(guī)定為“1”。這種高位均為“1”的雙字節(jié)漢字編碼就稱為GB2312漢字的“機(jī)內(nèi)碼”,又稱為“內(nèi)碼”。目前PC機(jī)中GB2312漢字不論用何種方法錄入,在機(jī)器內(nèi)部都統(tǒng)一用機(jī)內(nèi)碼表示。GB2312漢字的編碼每一個(gè)GB2312漢字使用16位(2個(gè)字節(jié))表示為了與ASCII字符相區(qū)別,每個(gè)字節(jié)的最高位均為“1”例如:“南”字的代碼是1100010011001111(用十六進(jìn)制表示為C4CF)
11第1字節(jié)第2字節(jié)XXXXXXXXXXXXXX漢字編碼對(duì)照表由于GB2312編碼只有6763個(gè)漢字,且均為簡體字,在實(shí)際應(yīng)用中經(jīng)常不夠使用,所以我國又陸續(xù)發(fā)布了其它一些漢字編碼標(biāo)準(zhǔn),它們之間的關(guān)系如表所示。GB2312GBKGB18030-2005Unicode5.0漢字?jǐn)?shù)目6763個(gè)漢字(簡體字)21003個(gè)漢字(簡、繁體均有)70244個(gè)漢字(包括中、日、韓統(tǒng)一漢字)70217個(gè)漢字(國際標(biāo)準(zhǔn))字節(jié)數(shù)雙字節(jié)存儲(chǔ)和表示,每個(gè)字節(jié)的最高位均為“1”雙字節(jié)存儲(chǔ)和表示,第1個(gè)字節(jié)的最高位必為“1”部分雙字節(jié)、部分4字節(jié)表示變字節(jié)編碼兼容性只與GB18030編碼兼容GBK漢字內(nèi)碼擴(kuò)充規(guī)范GB2312的不足:漢字字?jǐn)?shù)太少,缺少繁體字,無法滿足人名、地名、古籍整理、古典文獻(xiàn)研究等應(yīng)用的需要;與ASCII碼不兼容GBK漢字內(nèi)碼擴(kuò)充規(guī)范(1995):在GB2312基礎(chǔ)上,增加了1萬多漢字(包括繁體字)和符號(hào)共有21003個(gè)漢字和883個(gè)圖形符號(hào),如“計(jì)算機(jī)”、冃、冄、円、冇等繁體字和生僻字與GB8312保持向下兼容,也使用雙字節(jié)表示,第1字節(jié)最高位必須為“1”:1
X第1字節(jié)第2字節(jié)XXXXXXXXXXXXXXUCS/Unicode多文種大字符集背景:為了實(shí)現(xiàn)全球數(shù)以千計(jì)的不同語言文字的統(tǒng)一編碼方案:ISO將全球所有文字字母和符號(hào)集中在一個(gè)字符集中進(jìn)行統(tǒng)一編碼(目前共收集了17x216=1,114,112個(gè)),稱為UCS/UnicodeUCS/Unicode的編碼方案:先實(shí)現(xiàn)部分字符的編碼(近11萬個(gè)字符)盡量與已有編碼標(biāo)準(zhǔn)兼容包含有中、日、韓統(tǒng)一整理出來的約7萬漢字(稱CJK漢字)允許有若干不同的編碼方案,常用的兩種是:單字節(jié):ASCII字符雙字節(jié):拉丁、希臘、阿拉伯,···三字節(jié):CJK漢字四字節(jié):其他Unicode:UTF-8單字節(jié)可變長編碼應(yīng)用:Linux,Web網(wǎng)頁,電子郵件雙字節(jié):ASCII字符、拉丁、希臘、阿拉伯,常用CJK漢字,···四字節(jié):非常用CJK漢字Unicode:UTF-16雙字節(jié)可變長編碼應(yīng)用:Windows,Mac,Java,···GB18030漢字編碼標(biāo)準(zhǔn)背景:無論是Unicode的UTF-8還是UTF-16,其CJK漢字字符集雖然覆蓋了我國已使用多年的GB2312和GBK標(biāo)準(zhǔn)中的漢字,但它們的編碼并不相同為了既能與UCS/Unicode編碼標(biāo)準(zhǔn)接軌,又能保護(hù)我國已有的大量漢字信息資源,我國在2000年和2005年兩次發(fā)布GB18030漢字編碼國家標(biāo)準(zhǔn)。GB18030實(shí)質(zhì)上是UCS/Unicode字符集的另一種編碼方案:單字節(jié)編碼(128個(gè))表示ASCII字符雙字節(jié)編碼(23940個(gè))表示漢字,與GBK(以及GB2312)保持向下兼容,GBK不再使用四字節(jié)編碼(約158萬個(gè))用于表示UCS/Unicode中的其他字符GB18030目前已在我國信息處理產(chǎn)品中強(qiáng)制貫徹執(zhí)行。標(biāo)準(zhǔn)名稱GB2312GBKGB18030UCS-2(Unicode)字符集6763個(gè)漢字(簡體字)21003個(gè)漢字(包括GB2312漢字在內(nèi))近3萬漢字(包括GBK漢字和CJK及其擴(kuò)充中的漢字)包含近11萬字符,其中的漢字與GB18030相同編碼方法雙字節(jié)存儲(chǔ)和表示,每個(gè)字節(jié)的最高位均為“1”雙字節(jié)存儲(chǔ)和表示,第1個(gè)字節(jié)的最高位必為“1”部分雙字節(jié)、部分4字節(jié)表示,雙字節(jié)表示方案與GBK相同
UTF-8采用單字節(jié)可變長編碼
UTF-16采用雙字節(jié)可變長編碼兼容性編碼不兼容!小結(jié):幾種漢字編碼的對(duì)比編碼保持向下兼容小結(jié):不同標(biāo)準(zhǔn),不同的表示!與字符的編碼一樣,圖像、聲音、視頻等也分別有許多編碼標(biāo)準(zhǔn):國際標(biāo)準(zhǔn)(ISO)、國家標(biāo)準(zhǔn)(GB)、工業(yè)標(biāo)準(zhǔn)、企業(yè)標(biāo)準(zhǔn)等,這也是信息處理復(fù)雜性的原因之一。由于經(jīng)濟(jì)利益和政治體制等多種原因,相同的信息在計(jì)算機(jī)中可以有不同的表示,即采用不同的編碼進(jìn)行表示例如:“南京大學(xué)1234ABCD”的3種表示:C4CFBEA9B4F3D1A73132333441424344E58D97E4BAACE5A4A7E5ADA631323334414243445753AC4E2759665B31003200330034004100420043004400GBUTF-8UTF-16文本的編輯和處理1.文本編輯和排版在許多場合,為了實(shí)際需要,文本必須美觀、清晰,所以需要對(duì)字、詞、段落進(jìn)行添加、刪除、修改、格式的設(shè)置等排版工作。這些解決文本外觀的問題就是文本編輯的主要任務(wù)。常用的文字處理軟件如MicrosoftWord、WPS等。2.文本處理文本處理強(qiáng)調(diào)的是使用計(jì)算機(jī)對(duì)文本中所含文字信息的形、音、義等進(jìn)行分析和處理,如字?jǐn)?shù)統(tǒng)計(jì)、詞語錯(cuò)誤檢測(cè)、文語轉(zhuǎn)換等。文本處理最廣泛的應(yīng)用就是文本檢索,如Google檢索或百度檢索。目的:確保文本內(nèi)容正確無誤操作:對(duì)字、詞、句和段落進(jìn)行添加、刪除、修改等操作MSWord的功能:在文本的任何位置都可以插入新的文字從文本的任何位置都可以刪除不需要的文字將一段文字從一處移動(dòng)到另一處將一段文字從一處復(fù)制到另一處在文本中自動(dòng)查找指定的詞語用一個(gè)詞語自動(dòng)替換文本中指定的詞語文本編輯(textediting)目的:使文本清晰、美觀、便于閱讀操作內(nèi)容:對(duì)文本中的字符、段落乃至整篇文章的格式進(jìn)行設(shè)計(jì)和調(diào)整,分成3個(gè)層次:對(duì)字符格式進(jìn)行設(shè)置對(duì)段落格式進(jìn)行設(shè)置對(duì)文檔頁面進(jìn)行格式設(shè)置文本排版(Typesetting)設(shè)置字符的格式字號(hào)(八號(hào)→初號(hào),
5磅→72磅以上)1磅相當(dāng)于1/72英寸
字體(宋體、楷體、黑體、仿宋、隸書···)字符的修飾字符的形狀(字形):正常、加粗、傾斜、加粗傾斜字形的修飾:下劃線、著重號(hào)、上下標(biāo)、刪除線···字符的顏色字符的寬度字符的間距字符
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 鋁合金材料施工方案
- (三模)榆林市2025屆高三第三次模擬檢測(cè)生物試卷(含答案詳解)
- 數(shù)控加工工藝與編程技術(shù)基礎(chǔ) 教案 模塊一 任務(wù)4 數(shù)控加工機(jī)床夾具基礎(chǔ)
- 結(jié)合農(nóng)業(yè)植保技術(shù)的現(xiàn)代農(nóng)業(yè)病蟲害防治思路與具體辦法探討
- 醫(yī)療機(jī)構(gòu)水污染物排放的管理制度與組織架構(gòu)
- 石油化工靜電接地系統(tǒng)的組成與功能
- 綠色發(fā)展與可持續(xù)城鎮(zhèn)化策略
- 積極穩(wěn)妥推進(jìn)碳達(dá)峰碳中和的策略及實(shí)施路徑
- 采購鐵皮保溫施工方案
- 2018年數(shù)學(xué)(北師大版選修2-2)練習(xí)第3章22最大值最小值問題活頁作業(yè)14
- 水產(chǎn)生物遺傳育種學(xué)課件
- 婦產(chǎn)科醫(yī)患溝通護(hù)理課件
- 第3課《萬物共存》課件
- 精致的八寶飯
- GB/T 43602-2023物理氣相沉積多層硬質(zhì)涂層的成分、結(jié)構(gòu)及性能評(píng)價(jià)
- 醫(yī)院預(yù)算執(zhí)行情況分析報(bào)告
- 生活老師培訓(xùn)資料課件
- 年終存貨盤點(diǎn)管理制度
- 智能化弱電工程維保方案全套
- 三對(duì)三籃球賽記錄表
- 教科版科學(xué)五年級(jí)下冊(cè)第一單元《生物與環(huán)境》測(cè)試卷含完整答案(奪冠系列)
評(píng)論
0/150
提交評(píng)論