文本與文本處理(課堂)課件_第1頁
文本與文本處理(課堂)課件_第2頁
文本與文本處理(課堂)課件_第3頁
文本與文本處理(課堂)課件_第4頁
文本與文本處理(課堂)課件_第5頁
已閱讀5頁,還剩113頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

第5章數(shù)字媒體及應(yīng)用10/28/20221.第5章數(shù)字媒體及應(yīng)用10/22/20221.什么是數(shù)字媒體?“媒體”指的是信息的各種表示形式(如數(shù)值、文字、圖像、聲音、視頻等)數(shù)字媒體就是數(shù)值、文字、聲音、圖像等的二進制數(shù)字表示10/28/20222.什么是數(shù)字媒體?“媒體”指的是信息的各種表示形式(如數(shù)值、文2種不同類型的數(shù)字媒體自然媒體(使用數(shù)字化方法從現(xiàn)實世界獲取的媒體)合成媒體(使用計算機制作的媒體)Model(description)采用特定符號(語言)表示的文本,合成語音,MIDI,圖形,動畫Modeling(describing)人工交互方式命令語言方式rendering人可以感知的形式聲波光波力溫度檢測與轉(zhuǎn)換器電信號數(shù)字化數(shù)字自然媒體取樣聲音,掃描圖像,數(shù)字視頻10/28/20223.2種不同類型的數(shù)字媒體自然媒體(使用數(shù)字化方法從現(xiàn)實世界獲為什么要學(xué)習數(shù)字媒體?數(shù)字媒體是各種計算機應(yīng)用的處理對象,也是網(wǎng)絡(luò)的傳輸對象。不了解“對象”,就不能透徹地理解計算機和網(wǎng)絡(luò)的工作原理。進一步理解計算機的工作原理更好地理解常用工具軟件的操作原理擴大知識面,了解更多的計算機應(yīng)用為各個專業(yè)和學(xué)科進一步學(xué)習、使用計算機打下必要的基礎(chǔ)10/28/20224.為什么要學(xué)習數(shù)字媒體?數(shù)字媒體是各種計算機應(yīng)用的處理對象,也5.1文本與文本處理10/28/20225.5.1文本與文本處理10/22/20225.什么是文本?文本(text):文字信息在計算機中的表示形式是基于特定字符集的、具有上下文相關(guān)性的一個(二進制編碼)字符流,是計算機中最常用的一種數(shù)字媒體。10/28/20226.什么是文本?文本(text):文字信息在計算機中的表示形文本的處理文本在計算機中的處理過程:文本的準備(例如漢字的輸入),文本編輯,文本處理,文本存儲與傳輸、文本展現(xiàn)等,根據(jù)應(yīng)用的不同,各個處理環(huán)節(jié)的內(nèi)容和要求可能有很大的差別。10/28/20227.文本的處理文本在計算機中的處理過程:文本的準備(例如漢字的輸文本處理其他媒體文本展現(xiàn)(閱讀器)文本準備文本處理文本處理軟件電子文本文本編輯(編輯器)格式化的電子文本網(wǎng)絡(luò)傳輸10/28/20228.文本處理其他媒體文本展現(xiàn)(閱讀器)文本準備文本處理文本處理軟組成文本的基本元素是字符(character),字符與數(shù)值信息一樣,在計算機中也采用二進位編碼表示。10/28/20229.組成文本的基本元素是字符(chara5.1.1字符的編碼10/28/202210.5.1.1字符的編碼10/22/202210.字符編碼的屬性字匯:編碼字符集中有哪些字符編碼規(guī)則:如何確定每個字符的代碼碼長:字符代碼的長度。它決定了代碼空間的大小定長碼:7位,8位,雙字節(jié),4字節(jié)可變長碼:單-雙-4字節(jié)碼10/28/202211.字符編碼的屬性字匯:編碼字符集中有哪些字符10/22/202復(fù)習:西文字符的編碼——ASCII碼西文是表音文字(拼音文字),它由拉丁字母、數(shù)字、標點符號以及一些特殊符號所組成美國標準信息交換碼(ASCII碼):ASCII字符集包含96個可打印字符和32個控制字符采用7個二進位進行編碼計算機中使用1個字節(jié)存儲1個ASCII字符0XXXXXXX10/28/202212.復(fù)習:西文字符的編碼——ASCII碼西文是表音文字(拼音文字空格(32)20H0(48)30HA(65)41Ha(97)61H回車(13)0DH特殊字符的ASCII碼10/28/202213.空格(32)20H特殊字符的ASCII碼10/22/20222、漢字編碼字符集漢字的特點:數(shù)量大(我國漢字自古至今累計已超過7萬字,國家語委頒布的“現(xiàn)代漢語通用字表”包含7000漢字)多個國家和地區(qū)使用:港臺地區(qū),日、韓、朝、新、馬等字形復(fù)雜,同音字多,異體字多。10/28/202214.2、漢字編碼字符集漢字的特點:10/22/202214.常用的漢字編碼字符集國家標準GB2312-1980漢字擴充規(guī)范GBK-1995國家標準GB18030-2000/2005臺灣地區(qū)的標準漢字字符集CNS11643(BIG5,俗稱“大五碼”)日本工業(yè)標準漢字字符集JISX0208-90韓國國家標準漢字字符集KSC5601-87UCS/Unicode多文種大字符集10/28/202215.常用的漢字編碼字符集國家標準GB2312-198010/22一級漢字(3755個)二級漢字(3008個)(擴充使用)字母、數(shù)字和各種符號 ………………19423位號…………191655568794區(qū)號(按漢語拼音排列)(按偏旁部首排列)(1)GB2312漢字編碼字符集1980年頒布《信息交換用漢字編碼字符集·基本集》——GB2312-1980GB2312字符集由三個部分構(gòu)成:拉丁字母、俄文、日文平假名與片假名、希臘字母、漢語拼音等共682個共6763個漢字10/28/202216.字母、數(shù)字和各種符號19423位號GB2312漢字的編碼每一個GB2312漢字使用16位(2個字節(jié))表示為了與ASCII字符相區(qū)別,每個字節(jié)的最高位均為“1”例如:“南”字的代碼是1100010011001111(用十六進制表示為C4CF)

11第1字節(jié)第2字節(jié)XXXXXXXXXXXXXX10/28/202217.GB2312漢字的編碼每一個GB2312漢字使用16位(2個練習1MB的內(nèi)存空間可以存放

個GB2312-80的漢字機內(nèi)碼。

A.1024B.512

C.1024×512D.1024×1024設(shè)有一串字符的內(nèi)碼為:B5C8BCB6BF3DF1E3,則這串字符中包含

個GB2312-80漢字。10/28/202218.練習1MB的內(nèi)存空間可以存放個GB2312-8(2)GBK漢字內(nèi)碼擴充規(guī)范GB2312的不足:漢字字數(shù)太少,缺少繁體字,無法滿足人名、地名、古籍整理、古典文獻研究等應(yīng)用的需要;與ASCII碼不兼容GBK漢字內(nèi)碼擴充規(guī)范(1995):在GB2312基礎(chǔ)上,增加了1萬多漢字(包括繁體字)和符號共有21003個漢字和883個圖形符號,如“計算機”、冃、冄、円、冇等繁體字和生僻字與GB8312保持向下兼容,也使用雙字節(jié)表示,第1字節(jié)最高位必須為“1”:1

X第1字節(jié)第2字節(jié)XXXXXXXXXXXXXX10/28/202219.(2)GBK漢字內(nèi)碼擴充規(guī)范GB2312的不足:1X第1臺灣、香港地區(qū)使用。注意:GB2312(GBK)與Big5并不兼容。(3)Big5(大五碼)10/28/202220.臺灣、香港地區(qū)使用。(3)Big5(大五碼)10/22/20(4)UCS/Unicode多文種大字符集背景:為了實現(xiàn)全球數(shù)以千計的不同語言文字的統(tǒng)一編碼方案:ISO將全球所有文字字母和符號集中在一個字符集中進行統(tǒng)一編碼(目前共收集了17x216=1,114,112個),稱為UCS。UCS:ISO/IEC10646UniversalMultiple-OctetCodedCharacterSet,通用多8位編碼字符集Unicode:統(tǒng)一碼或聯(lián)合碼,微軟、IBM等聯(lián)合制定、與UCS完全等同的工業(yè)標準

UCS/Unicode用4個字節(jié)對全世界現(xiàn)代書面文字所使用的所有字符、符號進行編碼(記作UCS-4)10/28/202221.(4)UCS/Unicode多文種大字符集背景:為了實現(xiàn)全球單字節(jié):ASCII字符雙字節(jié):拉丁、希臘、阿拉伯,···三字節(jié):CJK漢字四字節(jié):其他Unicode:UTF-8單字節(jié)可變長編碼應(yīng)用:Linux,Web網(wǎng)頁,電子郵件雙字節(jié):ASCII字符、拉丁、希臘、阿拉伯,常用CJK漢字,···四字節(jié):非常用CJK漢字Unicode:UTF-16雙字節(jié)可變長編碼應(yīng)用:Windows,Mac,Java,···UCS/Unicode的編碼方案先實現(xiàn)部分字符的編碼(共107,361個字符)盡量與已有編碼標準兼容其中包含有中、日、韓統(tǒng)一整理出來的近3萬漢字(稱CJK漢字)允許有若干不同的編碼方案,例如:10/28/202222.單字節(jié):ASCII字符Unicode:UTF-8單字節(jié)可變優(yōu)點:編碼空間極大,能容納足夠多的各種字符集(13億字符)缺點:4字節(jié)的字符編碼使存儲空間浪費嚴重克服:在UCS/Unicode編碼空間中,把第1和第2字節(jié)均為“0”的一個子空間,作為UCS/Unicode的子集來使用,記作UCS-2。UCS/Unicode的優(yōu)缺點10/28/202223.優(yōu)點:編碼空間極大,能容納足夠多的各種字符集(13億字符)U(5)GB18030漢字編碼標準背景:無論是Unicode的UTF-8還是UTF-16,其CJK漢字字符集雖然覆蓋了我國已使用多年的GB2312和GBK標準中的漢字,但它們的編碼并不相同為了既能與UCS/Unicode編碼標準接軌,又能保護我國已有的大量漢字信息資源,我國在2000年和2005年兩次發(fā)布GB18030漢字編碼國家標準。GB18030實質(zhì)上是UCS/Unicode字符集的另一種編碼方案:單字節(jié)編碼(128個)表示ASCII字符雙字節(jié)編碼(23940個)表示漢字,與GBK(以及GB2312)保持向下兼容,GBK不再使用四字節(jié)編碼(約158萬個)用于表示UCS/Unicode中的其他字符GB18030目前已在我國信息處理產(chǎn)品中強制貫徹執(zhí)行。10/28/202224.(5)GB18030漢字編碼標準背景:無論是Unicode的標準名稱GB2312GBKGB18030UCS-2(Unicode)字符集6763個漢字(簡體字)21003個漢字(包括GB2312漢字在內(nèi))近3萬漢字(包括GBK漢字和CJK及其擴充中的漢字)包含10萬多字符,其中的漢字與GB18030相同編碼方法雙字節(jié)存儲和表示,每個字節(jié)的最高位均為“1”雙字節(jié)存儲和表示,第1個字節(jié)的最高位必為“1”部分雙字節(jié)、部分4字節(jié)表示,雙字節(jié)表示方案與GBK相同UTF-8采用單字節(jié)可變長編碼UTF-16采用雙字節(jié)可變長編碼兼容性編碼不兼容!小結(jié):幾種漢字編碼的對比編碼保持向下兼容10/28/202225.標準名稱GB2312GBKGBUCS-2字符集6763個漢字例:IE瀏覽網(wǎng)頁時文字編碼的選擇10/28/202226.例:IE瀏覽網(wǎng)頁時文字編碼的選擇10/22/202226.編碼小結(jié)GB2312-80GB18030-2000/2005GBK-95CJK漢字字匯兼容兼容UCS/UnicodeISO646(ASCII碼)兼容兼容映射10/28/202227.編碼小結(jié)GB2312-80GB18030-2000/2005.1.2.文本準備

——文稿如何輸入計算機

10/28/202228.5.1.2.文本準備

——文稿如何輸入計算機文字符號輸入計算機的方法鍵盤輸入自動識別輸入字符信息的輸入人工輸入(1)數(shù)字編碼,如電報碼、區(qū)位碼等,(2)字音編碼,如智能ABC等(3)字形編碼,如五筆字形和表形碼等,(4)形音編碼發(fā)展趨勢:基于統(tǒng)計和學(xué)習功能的以詞語(短語)或句子作為輸入單位的輸入方法10/28/202229.文字符號輸入計算機的方法鍵盤輸入自動識別輸入字符信息的輸入人文字符號輸入計算機的方法鍵盤輸入聯(lián)機手寫輸入自動識別輸入字符信息的輸入人工輸入優(yōu)點:自然,流暢小型化,適合移動計算不足:識別速度和正確性還需提高書寫要求還要降低10/28/202230.文字符號輸入計算機的方法鍵盤輸入聯(lián)機手寫輸入自動識別輸入字符文字符號輸入計算機的方法鍵盤輸入聯(lián)機手寫輸入語音輸入自動識別輸入字符信息的輸入人工輸入優(yōu)點:自然,方便,適合移動計算不足:對說話人、說話方式、說話內(nèi)容的適應(yīng)能力要大大增強識別速度和正確性還需大大提高10/28/202231.文字符號輸入計算機的方法鍵盤輸入聯(lián)機手寫輸入語音輸入自動識別文字符號輸入計算機的方法印刷體識別鍵盤輸入聯(lián)機手寫輸入語音輸入自動識別輸入字符信息的輸入人工輸入掃描儀OCR數(shù)字文本紙介質(zhì)文本文本的映象(image)識別率已達到98%功能:簡、繁體字混合識別中文、西文混合識別文字、表格混合識別智能校對功能10/28/202232.文字符號輸入計算機的方法印刷體識別鍵盤輸入聯(lián)機手寫輸入語音輸文字符號輸入計算機的方法印刷體識別手寫體識別鍵盤輸入聯(lián)機手寫輸入語音輸入自動識別輸入字符信息的輸入人工輸入技術(shù)上非常困難,還無法實用目前準備先突破工整的楷書手寫體的識別!10/28/202233.文字符號輸入計算機的方法印刷體識別手寫體識別鍵盤輸入聯(lián)機手寫5.1.3文本的分類與表示10/28/202234.5.1.3文本的分類與表示10/22/202234.簡單文本(純文本)

本書由南京大學(xué)出

B1BECAE9D3C9C4CFBEA9B4F3D1A7B3F6

版社(Publishing

B0E6C9E7285075626C697368696E67

HouseofNanjin

20486F757365206F66204E616E6A696E

gUniversity)出版

6720556E697665727369747929B3F6B0E6

文本的內(nèi)容文本在計算機中的表示沒有字體、字號的變化,不能插入圖片、表格,也不能建立超鏈接,這種文本通常稱為純文本或ASCII文本,在PC機中的文件后綴名是.txt由一串用于表達正文內(nèi)容的字符編碼所組成,幾乎不包含任何其他的格式信息和結(jié)構(gòu)信息舉例:10/28/202235.簡單文本(純文本)本書有字體字號等屬性變化、設(shè)置了段落和頁面排版格式的文本稱為“豐富格式文本”豐富格式文本(richtext、fancytext、formattedtext)doc、xls、RTF等多媒體文檔(MultimediaDocument)

豐富格式文本10/28/202236.有字體字號等屬性變化、設(shè)置了段落和頁面排版格式的文本稱為“豐超文本的結(jié)構(gòu)超文本ABCDEFGH10/28/202237.超文本的結(jié)構(gòu)超文本ABCDEFGH10/22/202237.超文本(hypertext)的閱讀方式線性文本是順序式閱讀通過鏈接、跳轉(zhuǎn)、導(dǎo)航、回溯等操作實現(xiàn)跳躍式閱讀超鏈(hyperlink):鏈源、鏈宿超鏈的鏈宿有兩種:書簽,指的是文本內(nèi)部標記有書簽的某個地方互聯(lián)網(wǎng)上的某個信息資源(文件),它用統(tǒng)一資源定位器(URL)指定超文本10/28/202238.超文本(hypertext)的閱讀方式超文本10/22/20超文本中的節(jié)點不單是文本節(jié)點,還包含圖形、圖像、聲音或動畫節(jié)點,這種基于多媒體信息結(jié)點的超文本,有時也稱為“超媒體”

超文本的應(yīng)用Windows等一些軟件中的“幫助”文件使用瀏覽器從Web服務(wù)器上下載的網(wǎng)頁(html或htm文件)超媒體(Hypermedia)10/28/202239.超文本中的節(jié)點不單是文本節(jié)點,還包含圖形、圖像、聲音或動畫節(jié)5.1.4文本編輯、排版與處理10/28/202240.5.1.4文本編輯、排版與處理10/22/202240.復(fù)習:使用Word的操作流程創(chuàng)建新文檔或打開老文檔文稿輸入編輯排版文檔存盤、打印或發(fā)送輸入中西文字、符號和圖表進行增、刪、改操作,保證文本的正確性滿足清晰、美觀、便于使用等要求10/28/202241.復(fù)習:使用Word的操作流程創(chuàng)建新文檔或打開老文檔文稿輸入編目的:確保文本內(nèi)容正確無誤操作:對字、詞、句和段落進行添加、刪除、修改等操作MSWord的功能:在文本的任何位置都可以插入新的文字從文本的任何位置都可以刪除不需要的文字將一段文字從一處移動到另一處將一段文字從一處復(fù)制到另一處在文本中自動查找指定的詞語用一個詞語自動替換文本中指定的詞語文本編輯(textediting)10/28/202242.目的:確保文本內(nèi)容正確無誤文本編輯(textediting目的:使文本清晰、美觀、便于閱讀操作內(nèi)容:對文本中的字符、段落乃至整篇文章的格式進行設(shè)計和調(diào)整,分成3個層次:對字符格式進行設(shè)置對段落格式進行設(shè)置對文檔頁面進行格式設(shè)置文本排版(格式化)10/28/202243.目的:使文本清晰、美觀、便于閱讀文本排版(格式化)10/22設(shè)置字符的格式字號(八號→初號,

5磅→72磅以上)1磅相當于1/72英寸字體(宋體、楷體、黑體、仿宋、隸書···)字符的修飾字符的形狀(字形):正常、加粗、傾斜、加粗傾斜字形的修飾:下劃線、著重號、上下標、刪除線···字符的顏色字符的寬度字符的間距字符的效果字符的排列方向10/28/202244.設(shè)置字符的格式字號(八號→初號,5磅→72磅以上)什么是段落?用“回車”相互隔開的一組文字段落格式的設(shè)置:段落的對齊方式(兩端對齊、分散對齊、居中對齊、左對齊、右對齊)段落的縮進方式(首行縮進、懸掛縮進、左縮進、右縮進)段間距和段內(nèi)行距使用編號和項目符號段落添加邊框和底紋首字下沉或懸掛段落與分頁的關(guān)系設(shè)置段落的格式10/28/202245.什么是段落?用“回車”相互隔開的一組文字設(shè)置段落的格式10/控制段落的縮進段落縮進是指段落中的文本到正文區(qū)左、右邊界的距離,包括段落左縮進、右縮進和首行縮進。其縮進的距離可由水平標尺上對應(yīng)的三個縮進標記來指示左縮進標記首行縮進標記右縮進標記右縮進左縮進首行縮進正文區(qū)右邊界正文區(qū)左邊界懸掛縮進標記10/28/202246.控制段落的縮進段落縮進是指段落中的文本到正文區(qū)左、右邊界的距頁面格式的設(shè)置:設(shè)置紙張大小和頁邊距設(shè)置每頁的行、列數(shù)目設(shè)置分欄數(shù)目與格式設(shè)置頁碼設(shè)置頁眉和頁腳設(shè)置頁面的格式10/28/202247.頁面格式的設(shè)置:設(shè)置頁面的格式10/22/202247設(shè)置頁面的分欄10/28/202248.設(shè)置頁面的分欄10/22/202248.“所見即所得”(操作效果屏幕立即可見,打印結(jié)果與屏幕所見完全相同)撤銷(undo)和恢復(fù)(redo)操作格式刷多種視圖(大綱視圖與大綱編輯)自動更正、自動套用格式、自動編號、自動圖文集······自動保存功能和自動備份功能樣式、模板和向?qū)?wizard)功能宏操作(Macro)提高Word操作效率的若干措施10/28/202249.“所見即所得”(操作效果屏幕立即可見,打印結(jié)果與屏幕所見完全文本處理初步10/28/202250.文本處理初步10/22/202250.使用計算機對文本中的字、詞、短語、句子、篇章進行識別、轉(zhuǎn)換、分析、理解、壓縮、加密和檢索等有關(guān)的處理文本處理內(nèi)容:字數(shù)統(tǒng)計,詞頻統(tǒng)計,簡/繁體相互轉(zhuǎn)換,漢字/拼音相互轉(zhuǎn)換詞語排序,詞語錯誤檢測,文句語法檢查自動分詞,詞性標注,詞義辨識,大陸/臺灣術(shù)語轉(zhuǎn)換關(guān)鍵詞提取,文摘自動生成,文本分類文本檢索(關(guān)鍵詞檢索、全文檢索),文本過濾文語轉(zhuǎn)換(語音合成),文種轉(zhuǎn)換(機器翻譯)篇章理解,自動問答,自動寫作等文本壓縮,文本加密,文本著作權(quán)保護

什么是文本處理?10/28/202251.使用計算機對文本中的字、詞、短語、句子、篇章進行識別、轉(zhuǎn)換、例:Word2003的文本處理功能英文拼寫檢查和英語同義詞檢查字數(shù)統(tǒng)計自動編寫摘要中文簡繁體轉(zhuǎn)換和術(shù)語轉(zhuǎn)換中英詞語翻譯語法和格式檢查語音識別(口授命令和聽寫)文檔保護(防止打開或修改文檔)10/28/202252.例:Word2003的文本處理功能英文拼寫檢查和英語同義詞常用文本處理軟件(1)面向通信的文本處理軟件:

OutlookExpress(2)面向辦公的文本處理軟件:MSWord,WPS2000(3)面向印刷出版的文本處理軟件:“飛騰”排版軟件,PageMaker,PDFWriter(4)面向網(wǎng)絡(luò)信息發(fā)布和電子出版的文本處理軟件:FrontPage,PDFWriter10/28/202253.常用文本處理軟件(1)面向通信的文本處理軟件:10/22/5.1.5文本的展現(xiàn)(輸出)10/28/202254.5.1.5文本的展現(xiàn)(輸出)10/22/202254.文本的展現(xiàn)(閱讀、瀏覽與打印)過程:對文本的格式描述進行解釋生成文字和圖表的映像(bitmap)傳送到顯示器或打印機輸出2種文本閱讀器/瀏覽器:嵌入在文本編輯(處理)軟件中,如微軟的Word,獨立的軟件:如Adobe公司的AcrobatReader,微軟公司的IE等。

10/28/202255.文本的展現(xiàn)(閱讀、瀏覽與打印)過程:10/22/202255輸出過程中字形的生成

過程:先根據(jù)字符的字體確定相應(yīng)的字型庫(font),再按照該字符的代碼從字型庫中取出該字符的形狀描述信息,然后按形狀描述信息生成字形,并按照字號大小及有關(guān)屬性(粗體、斜體、下橫線)將字形作必要的變換,最后將變換得到的字形放置在頁面的指定位置處。10/28/202256.輸出過程中字形的生成過程:10/22/202256.字型庫(FONT):簡稱字庫,同一種字體的所有字符(例如GB2312中的7000多字符)的形狀描述信息的集合。不同的字體(如宋體、仿宋、楷體、黑體等)對應(yīng)不同的字庫。文本的輸出10/28/202257.字型庫(FONT):簡稱字庫,同一種字體的所有字符(例如GB輸出過程中字形的生成

2種不同的字庫:點陣描述輪廓描述10/28/202258.輸出過程中字形的生成2種不同的字庫:輪廓描述10/22/2漢字庫的作用是用于

。A.漢字的存取B.漢字的傳輸C.漢字的輸入D.漢字的顯示與打印

在下列漢字編碼標準(字符集)中,不支持簡化漢字的是

。A.GB2312-80B.GBKC.BIG5D.Unicode24×24點陣的字形碼占——字節(jié)。A.72B.572

C.24D.36練習10/28/202259.漢字庫的作用是用于。練習10/22/20225第5章數(shù)字媒體及應(yīng)用10/28/202260.第5章數(shù)字媒體及應(yīng)用10/22/20221.什么是數(shù)字媒體?“媒體”指的是信息的各種表示形式(如數(shù)值、文字、圖像、聲音、視頻等)數(shù)字媒體就是數(shù)值、文字、聲音、圖像等的二進制數(shù)字表示10/28/202261.什么是數(shù)字媒體?“媒體”指的是信息的各種表示形式(如數(shù)值、文2種不同類型的數(shù)字媒體自然媒體(使用數(shù)字化方法從現(xiàn)實世界獲取的媒體)合成媒體(使用計算機制作的媒體)Model(description)采用特定符號(語言)表示的文本,合成語音,MIDI,圖形,動畫Modeling(describing)人工交互方式命令語言方式rendering人可以感知的形式聲波光波力溫度檢測與轉(zhuǎn)換器電信號數(shù)字化數(shù)字自然媒體取樣聲音,掃描圖像,數(shù)字視頻10/28/202262.2種不同類型的數(shù)字媒體自然媒體(使用數(shù)字化方法從現(xiàn)實世界獲為什么要學(xué)習數(shù)字媒體?數(shù)字媒體是各種計算機應(yīng)用的處理對象,也是網(wǎng)絡(luò)的傳輸對象。不了解“對象”,就不能透徹地理解計算機和網(wǎng)絡(luò)的工作原理。進一步理解計算機的工作原理更好地理解常用工具軟件的操作原理擴大知識面,了解更多的計算機應(yīng)用為各個專業(yè)和學(xué)科進一步學(xué)習、使用計算機打下必要的基礎(chǔ)10/28/202263.為什么要學(xué)習數(shù)字媒體?數(shù)字媒體是各種計算機應(yīng)用的處理對象,也5.1文本與文本處理10/28/202264.5.1文本與文本處理10/22/20225.什么是文本?文本(text):文字信息在計算機中的表示形式是基于特定字符集的、具有上下文相關(guān)性的一個(二進制編碼)字符流,是計算機中最常用的一種數(shù)字媒體。10/28/202265.什么是文本?文本(text):文字信息在計算機中的表示形文本的處理文本在計算機中的處理過程:文本的準備(例如漢字的輸入),文本編輯,文本處理,文本存儲與傳輸、文本展現(xiàn)等,根據(jù)應(yīng)用的不同,各個處理環(huán)節(jié)的內(nèi)容和要求可能有很大的差別。10/28/202266.文本的處理文本在計算機中的處理過程:文本的準備(例如漢字的輸文本處理其他媒體文本展現(xiàn)(閱讀器)文本準備文本處理文本處理軟件電子文本文本編輯(編輯器)格式化的電子文本網(wǎng)絡(luò)傳輸10/28/202267.文本處理其他媒體文本展現(xiàn)(閱讀器)文本準備文本處理文本處理軟組成文本的基本元素是字符(character),字符與數(shù)值信息一樣,在計算機中也采用二進位編碼表示。10/28/202268.組成文本的基本元素是字符(chara5.1.1字符的編碼10/28/202269.5.1.1字符的編碼10/22/202210.字符編碼的屬性字匯:編碼字符集中有哪些字符編碼規(guī)則:如何確定每個字符的代碼碼長:字符代碼的長度。它決定了代碼空間的大小定長碼:7位,8位,雙字節(jié),4字節(jié)可變長碼:單-雙-4字節(jié)碼10/28/202270.字符編碼的屬性字匯:編碼字符集中有哪些字符10/22/202復(fù)習:西文字符的編碼——ASCII碼西文是表音文字(拼音文字),它由拉丁字母、數(shù)字、標點符號以及一些特殊符號所組成美國標準信息交換碼(ASCII碼):ASCII字符集包含96個可打印字符和32個控制字符采用7個二進位進行編碼計算機中使用1個字節(jié)存儲1個ASCII字符0XXXXXXX10/28/202271.復(fù)習:西文字符的編碼——ASCII碼西文是表音文字(拼音文字空格(32)20H0(48)30HA(65)41Ha(97)61H回車(13)0DH特殊字符的ASCII碼10/28/202272.空格(32)20H特殊字符的ASCII碼10/22/20222、漢字編碼字符集漢字的特點:數(shù)量大(我國漢字自古至今累計已超過7萬字,國家語委頒布的“現(xiàn)代漢語通用字表”包含7000漢字)多個國家和地區(qū)使用:港臺地區(qū),日、韓、朝、新、馬等字形復(fù)雜,同音字多,異體字多。10/28/202273.2、漢字編碼字符集漢字的特點:10/22/202214.常用的漢字編碼字符集國家標準GB2312-1980漢字擴充規(guī)范GBK-1995國家標準GB18030-2000/2005臺灣地區(qū)的標準漢字字符集CNS11643(BIG5,俗稱“大五碼”)日本工業(yè)標準漢字字符集JISX0208-90韓國國家標準漢字字符集KSC5601-87UCS/Unicode多文種大字符集10/28/202274.常用的漢字編碼字符集國家標準GB2312-198010/22一級漢字(3755個)二級漢字(3008個)(擴充使用)字母、數(shù)字和各種符號 ………………19423位號…………191655568794區(qū)號(按漢語拼音排列)(按偏旁部首排列)(1)GB2312漢字編碼字符集1980年頒布《信息交換用漢字編碼字符集·基本集》——GB2312-1980GB2312字符集由三個部分構(gòu)成:拉丁字母、俄文、日文平假名與片假名、希臘字母、漢語拼音等共682個共6763個漢字10/28/202275.字母、數(shù)字和各種符號19423位號GB2312漢字的編碼每一個GB2312漢字使用16位(2個字節(jié))表示為了與ASCII字符相區(qū)別,每個字節(jié)的最高位均為“1”例如:“南”字的代碼是1100010011001111(用十六進制表示為C4CF)

11第1字節(jié)第2字節(jié)XXXXXXXXXXXXXX10/28/202276.GB2312漢字的編碼每一個GB2312漢字使用16位(2個練習1MB的內(nèi)存空間可以存放

個GB2312-80的漢字機內(nèi)碼。

A.1024B.512

C.1024×512D.1024×1024設(shè)有一串字符的內(nèi)碼為:B5C8BCB6BF3DF1E3,則這串字符中包含

個GB2312-80漢字。10/28/202277.練習1MB的內(nèi)存空間可以存放個GB2312-8(2)GBK漢字內(nèi)碼擴充規(guī)范GB2312的不足:漢字字數(shù)太少,缺少繁體字,無法滿足人名、地名、古籍整理、古典文獻研究等應(yīng)用的需要;與ASCII碼不兼容GBK漢字內(nèi)碼擴充規(guī)范(1995):在GB2312基礎(chǔ)上,增加了1萬多漢字(包括繁體字)和符號共有21003個漢字和883個圖形符號,如“計算機”、冃、冄、円、冇等繁體字和生僻字與GB8312保持向下兼容,也使用雙字節(jié)表示,第1字節(jié)最高位必須為“1”:1

X第1字節(jié)第2字節(jié)XXXXXXXXXXXXXX10/28/202278.(2)GBK漢字內(nèi)碼擴充規(guī)范GB2312的不足:1X第1臺灣、香港地區(qū)使用。注意:GB2312(GBK)與Big5并不兼容。(3)Big5(大五碼)10/28/202279.臺灣、香港地區(qū)使用。(3)Big5(大五碼)10/22/20(4)UCS/Unicode多文種大字符集背景:為了實現(xiàn)全球數(shù)以千計的不同語言文字的統(tǒng)一編碼方案:ISO將全球所有文字字母和符號集中在一個字符集中進行統(tǒng)一編碼(目前共收集了17x216=1,114,112個),稱為UCS。UCS:ISO/IEC10646UniversalMultiple-OctetCodedCharacterSet,通用多8位編碼字符集Unicode:統(tǒng)一碼或聯(lián)合碼,微軟、IBM等聯(lián)合制定、與UCS完全等同的工業(yè)標準

UCS/Unicode用4個字節(jié)對全世界現(xiàn)代書面文字所使用的所有字符、符號進行編碼(記作UCS-4)10/28/202280.(4)UCS/Unicode多文種大字符集背景:為了實現(xiàn)全球單字節(jié):ASCII字符雙字節(jié):拉丁、希臘、阿拉伯,···三字節(jié):CJK漢字四字節(jié):其他Unicode:UTF-8單字節(jié)可變長編碼應(yīng)用:Linux,Web網(wǎng)頁,電子郵件雙字節(jié):ASCII字符、拉丁、希臘、阿拉伯,常用CJK漢字,···四字節(jié):非常用CJK漢字Unicode:UTF-16雙字節(jié)可變長編碼應(yīng)用:Windows,Mac,Java,···UCS/Unicode的編碼方案先實現(xiàn)部分字符的編碼(共107,361個字符)盡量與已有編碼標準兼容其中包含有中、日、韓統(tǒng)一整理出來的近3萬漢字(稱CJK漢字)允許有若干不同的編碼方案,例如:10/28/202281.單字節(jié):ASCII字符Unicode:UTF-8單字節(jié)可變優(yōu)點:編碼空間極大,能容納足夠多的各種字符集(13億字符)缺點:4字節(jié)的字符編碼使存儲空間浪費嚴重克服:在UCS/Unicode編碼空間中,把第1和第2字節(jié)均為“0”的一個子空間,作為UCS/Unicode的子集來使用,記作UCS-2。UCS/Unicode的優(yōu)缺點10/28/202282.優(yōu)點:編碼空間極大,能容納足夠多的各種字符集(13億字符)U(5)GB18030漢字編碼標準背景:無論是Unicode的UTF-8還是UTF-16,其CJK漢字字符集雖然覆蓋了我國已使用多年的GB2312和GBK標準中的漢字,但它們的編碼并不相同為了既能與UCS/Unicode編碼標準接軌,又能保護我國已有的大量漢字信息資源,我國在2000年和2005年兩次發(fā)布GB18030漢字編碼國家標準。GB18030實質(zhì)上是UCS/Unicode字符集的另一種編碼方案:單字節(jié)編碼(128個)表示ASCII字符雙字節(jié)編碼(23940個)表示漢字,與GBK(以及GB2312)保持向下兼容,GBK不再使用四字節(jié)編碼(約158萬個)用于表示UCS/Unicode中的其他字符GB18030目前已在我國信息處理產(chǎn)品中強制貫徹執(zhí)行。10/28/202283.(5)GB18030漢字編碼標準背景:無論是Unicode的標準名稱GB2312GBKGB18030UCS-2(Unicode)字符集6763個漢字(簡體字)21003個漢字(包括GB2312漢字在內(nèi))近3萬漢字(包括GBK漢字和CJK及其擴充中的漢字)包含10萬多字符,其中的漢字與GB18030相同編碼方法雙字節(jié)存儲和表示,每個字節(jié)的最高位均為“1”雙字節(jié)存儲和表示,第1個字節(jié)的最高位必為“1”部分雙字節(jié)、部分4字節(jié)表示,雙字節(jié)表示方案與GBK相同UTF-8采用單字節(jié)可變長編碼UTF-16采用雙字節(jié)可變長編碼兼容性編碼不兼容!小結(jié):幾種漢字編碼的對比編碼保持向下兼容10/28/202284.標準名稱GB2312GBKGBUCS-2字符集6763個漢字例:IE瀏覽網(wǎng)頁時文字編碼的選擇10/28/202285.例:IE瀏覽網(wǎng)頁時文字編碼的選擇10/22/202226.編碼小結(jié)GB2312-80GB18030-2000/2005GBK-95CJK漢字字匯兼容兼容UCS/UnicodeISO646(ASCII碼)兼容兼容映射10/28/202286.編碼小結(jié)GB2312-80GB18030-2000/2005.1.2.文本準備

——文稿如何輸入計算機

10/28/202287.5.1.2.文本準備

——文稿如何輸入計算機文字符號輸入計算機的方法鍵盤輸入自動識別輸入字符信息的輸入人工輸入(1)數(shù)字編碼,如電報碼、區(qū)位碼等,(2)字音編碼,如智能ABC等(3)字形編碼,如五筆字形和表形碼等,(4)形音編碼發(fā)展趨勢:基于統(tǒng)計和學(xué)習功能的以詞語(短語)或句子作為輸入單位的輸入方法10/28/202288.文字符號輸入計算機的方法鍵盤輸入自動識別輸入字符信息的輸入人文字符號輸入計算機的方法鍵盤輸入聯(lián)機手寫輸入自動識別輸入字符信息的輸入人工輸入優(yōu)點:自然,流暢小型化,適合移動計算不足:識別速度和正確性還需提高書寫要求還要降低10/28/202289.文字符號輸入計算機的方法鍵盤輸入聯(lián)機手寫輸入自動識別輸入字符文字符號輸入計算機的方法鍵盤輸入聯(lián)機手寫輸入語音輸入自動識別輸入字符信息的輸入人工輸入優(yōu)點:自然,方便,適合移動計算不足:對說話人、說話方式、說話內(nèi)容的適應(yīng)能力要大大增強識別速度和正確性還需大大提高10/28/202290.文字符號輸入計算機的方法鍵盤輸入聯(lián)機手寫輸入語音輸入自動識別文字符號輸入計算機的方法印刷體識別鍵盤輸入聯(lián)機手寫輸入語音輸入自動識別輸入字符信息的輸入人工輸入掃描儀OCR數(shù)字文本紙介質(zhì)文本文本的映象(image)識別率已達到98%功能:簡、繁體字混合識別中文、西文混合識別文字、表格混合識別智能校對功能10/28/202291.文字符號輸入計算機的方法印刷體識別鍵盤輸入聯(lián)機手寫輸入語音輸文字符號輸入計算機的方法印刷體識別手寫體識別鍵盤輸入聯(lián)機手寫輸入語音輸入自動識別輸入字符信息的輸入人工輸入技術(shù)上非常困難,還無法實用目前準備先突破工整的楷書手寫體的識別!10/28/202292.文字符號輸入計算機的方法印刷體識別手寫體識別鍵盤輸入聯(lián)機手寫5.1.3文本的分類與表示10/28/202293.5.1.3文本的分類與表示10/22/202234.簡單文本(純文本)

本書由南京大學(xué)出

B1BECAE9D3C9C4CFBEA9B4F3D1A7B3F6

版社(Publishing

B0E6C9E7285075626C697368696E67

HouseofNanjin

20486F757365206F66204E616E6A696E

gUniversity)出版

6720556E697665727369747929B3F6B0E6

文本的內(nèi)容文本在計算機中的表示沒有字體、字號的變化,不能插入圖片、表格,也不能建立超鏈接,這種文本通常稱為純文本或ASCII文本,在PC機中的文件后綴名是.txt由一串用于表達正文內(nèi)容的字符編碼所組成,幾乎不包含任何其他的格式信息和結(jié)構(gòu)信息舉例:10/28/202294.簡單文本(純文本)本書有字體字號等屬性變化、設(shè)置了段落和頁面排版格式的文本稱為“豐富格式文本”豐富格式文本(richtext、fancytext、formattedtext)doc、xls、RTF等多媒體文檔(MultimediaDocument)

豐富格式文本10/28/202295.有字體字號等屬性變化、設(shè)置了段落和頁面排版格式的文本稱為“豐超文本的結(jié)構(gòu)超文本ABCDEFGH10/28/202296.超文本的結(jié)構(gòu)超文本ABCDEFGH10/22/202237.超文本(hypertext)的閱讀方式線性文本是順序式閱讀通過鏈接、跳轉(zhuǎn)、導(dǎo)航、回溯等操作實現(xiàn)跳躍式閱讀超鏈(hyperlink):鏈源、鏈宿超鏈的鏈宿有兩種:書簽,指的是文本內(nèi)部標記有書簽的某個地方互聯(lián)網(wǎng)上的某個信息資源(文件),它用統(tǒng)一資源定位器(URL)指定超文本10/28/202297.超文本(hypertext)的閱讀方式超文本10/22/20超文本中的節(jié)點不單是文本節(jié)點,還包含圖形、圖像、聲音或動畫節(jié)點,這種基于多媒體信息結(jié)點的超文本,有時也稱為“超媒體”

超文本的應(yīng)用Windows等一些軟件中的“幫助”文件使用瀏覽器從Web服務(wù)器上下載的網(wǎng)頁(html或htm文件)超媒體(Hypermedia)10/28/202298.超文本中的節(jié)點不單是文本節(jié)點,還包含圖形、圖像、聲音或動畫節(jié)5.1.4文本編輯、排版與處理10/28/202299.5.1.4文本編輯、排版與處理10/22/202240.復(fù)習:使用Word的操作流程創(chuàng)建新文檔或打開老文檔文稿輸入編輯排版文檔存盤、打印或發(fā)送輸入中西文字、符號和圖表進行增、刪、改操作,保證文本的正確性滿足清晰、美觀、便于使用等要求10/28/2022100.復(fù)習:使用Word的操作流程創(chuàng)建新文檔或打開老文檔文稿輸入編目的:確保文本內(nèi)容正確無誤操作:對字、詞、句和段落進行添加、刪除、修改等操作MSWord的功能:在文本的任何位置都可以插入新的文字從文本的任何位置都可以刪除不需要的文字將一段文字從一處移動到另一處將一段文字從一處復(fù)制到另一處在文本中自動查找指定的詞語用一個詞語自動替換文本中指定的詞語文本編輯(textediting)10/28/2022101.目的:確保文本內(nèi)容正確無誤文本編輯(textediting目的:使文本清晰、美觀、便于閱讀操作內(nèi)容:對文本中的字符、段落乃至整篇文章的格式進行設(shè)計和調(diào)整,分成3個層次:對字符格式進行設(shè)置對段落格式進行設(shè)置對文檔頁面進行格式設(shè)置文本排版(格式化)10/28/2022102.目的:使文本清晰、美觀、便于閱讀文本排版(格式化)10/22設(shè)置字符的格式字號(八號→初號,

5磅→72磅以上)1磅相當于1/72英寸字體(宋體、楷體、黑體、仿宋、隸書···)字符的修飾字符的形狀(字形):正常、加粗、傾斜、加粗傾斜字形的修飾:下劃線、著重號、上下標、刪除線···字符的顏色字符的寬度字符的間距字符的效果字符的排列方向10/28/2022103.設(shè)置字符的格式字號(八號→初號,5磅→72磅以上)什么是段落?用“回車”相互隔開的一組文字段落格式的設(shè)置:段落的對齊方式(兩端對齊、分散對齊、居中對齊、左對齊、右對齊)段落的縮進方式(首行縮進、懸掛縮進、左縮進、右縮進)段間距和段內(nèi)行距使用編號和項目符號段落添加邊框和底紋首字下沉或懸掛段落與分頁的關(guān)系設(shè)置段落的格式10/28/2022104.什么是段落?用“回車”相互隔開的一組文字設(shè)置段落的格式10/控制段落的縮進段落縮進是指段落中的文本到正文區(qū)左、右邊界的距離,包括段落左縮進、右縮進和首行縮進。其縮進的距離可由水平標尺上對應(yīng)的三個縮進標記來指示左縮進標記首行縮進標記右縮進標記右縮進左縮進首行縮進正文區(qū)右邊界正文區(qū)左邊界懸掛縮進標記10/28/2022105.控制段落的縮進段落縮進是指段落中的文本到正文區(qū)左、右邊界的距頁面格式的設(shè)置:

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論