數(shù)字文本處理的基礎(chǔ)舒明全課件_第1頁(yè)
數(shù)字文本處理的基礎(chǔ)舒明全課件_第2頁(yè)
數(shù)字文本處理的基礎(chǔ)舒明全課件_第3頁(yè)
數(shù)字文本處理的基礎(chǔ)舒明全課件_第4頁(yè)
數(shù)字文本處理的基礎(chǔ)舒明全課件_第5頁(yè)
已閱讀5頁(yè),還剩59頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

數(shù)字文本處理的基礎(chǔ)

舒明全Email:mqshu@數(shù)字文本處理的基礎(chǔ)1數(shù)字文本的概念

文本:通過(guò)文字、符號(hào)的形式表現(xiàn)、傳遞信息的方式。讀者能通過(guò)閱讀文本數(shù)據(jù)中的文字、符號(hào)獲得信息,文本數(shù)據(jù)是學(xué)習(xí)、生活、研究資料的主要成分,主要載體形態(tài)為:圖書、報(bào)刊、政府文獻(xiàn)、會(huì)議論文、學(xué)位論文、單位論文、技術(shù)報(bào)告、產(chǎn)品說(shuō)明書、網(wǎng)頁(yè)等。數(shù)字文本:紙質(zhì)的文本轉(zhuǎn)換成計(jì)算機(jī)能識(shí)別的二進(jìn)制文件,也稱為文本數(shù)據(jù)資源。數(shù)字文本的概念文本:通過(guò)文字、符號(hào)的形式表現(xiàn)、傳遞信息的方2數(shù)字文本的特征提供和獲取文本,需具備一定的文字和符號(hào)的識(shí)別、表達(dá)能力。文本數(shù)據(jù)是文檔的主要組成部分。文本數(shù)據(jù)都有一個(gè)邏輯結(jié)構(gòu)。文本是人和計(jì)算機(jī)交互的重要方式。數(shù)字文本的特征3數(shù)字文本的分類數(shù)字文本的三種類型:1.純文字文本:使用字處理軟件,通過(guò)錄入、編輯、排版后生成,生成后的文本包含排版信息,顯示效果受系統(tǒng)字庫(kù)和軟件平臺(tái)的影響,在不同機(jī)器上顯示會(huì)出現(xiàn)不同的效果,嚴(yán)重時(shí)還會(huì)出現(xiàn)亂碼等現(xiàn)象。使用文本文字素材占用的字節(jié)數(shù)比較小,導(dǎo)入后設(shè)置字體、大小、顏色比較方便。2.圖像文本:運(yùn)用繪圖工具軟件(如Photoshop)生成,使用圖像文本可提高多媒體作品的表現(xiàn)力,存儲(chǔ)圖像文本時(shí)可存為JPG、BMP、GIF、TIF等不同的格式,在作品中使用不會(huì)出現(xiàn)亂碼,但所占的字節(jié)數(shù)要大于純文本格式。3.動(dòng)態(tài)文本:運(yùn)用動(dòng)畫制作軟件(如3DStudioMAX)制作,可根據(jù)作品的需要,設(shè)置不同的動(dòng)作,具有很強(qiáng)的動(dòng)感和三維立體效果,制作片頭時(shí)使用的比較多,一般存儲(chǔ)為動(dòng)態(tài)的GIF和Flash格式,這兩種格式所占字節(jié)數(shù)比較少,也可以存儲(chǔ)為視頻文件(如AVI、MPEG),但所占用的字節(jié)數(shù)較大。數(shù)字文本的分類數(shù)字文本的三種類型:4數(shù)字文本的格式

文本格式的定義文本格式指用來(lái)對(duì)數(shù)據(jù)以及相關(guān)信息(包括結(jié)構(gòu)、布局、壓縮算法等)進(jìn)行編碼的軟件算法。在文本數(shù)據(jù)的數(shù)字化過(guò)程中,很多公司和組織機(jī)構(gòu)都根據(jù)需要制定了自己的數(shù)字文本格式,導(dǎo)致了多種數(shù)字文本格式并存的局面。數(shù)字文本的格式文本格式的定義5數(shù)字文本的基本格式

數(shù)字文本的基本格式:可編輯的文本格式網(wǎng)頁(yè)文本格式電子資源文本格式數(shù)學(xué)文本格式數(shù)字文本的基本格式數(shù)字文本的基本格式:6可編輯的文本格式TXT格式(也稱純文本格式)

使用Windows操作系統(tǒng)的寫字板、記事本和Word可查看這種格式的文件。優(yōu)點(diǎn):文件體積?。婚喿x不受限制。缺點(diǎn):不能插入圖片、圖表等;不能建立超鏈接;不支持字體樣式編輯。可編輯的文本格式TXT格式(也稱純文本格式)7CSV格式(純文本文件)特點(diǎn):它的數(shù)據(jù)項(xiàng)(對(duì)應(yīng)于表格的列)之間用逗號(hào)隔開,各條記錄(對(duì)應(yīng)于表格的行)之間用“換行”和“回車”隔開。可以被任何文本編輯器調(diào)用,如記事本、寫字板。默認(rèn)打開方式是MSExcel,而MSExcel是和多種數(shù)據(jù)庫(kù)相通的,因此,CSV本身也能被一般的數(shù)據(jù)庫(kù)調(diào)用。優(yōu)點(diǎn):可用任何文本編輯軟件編輯、修改;文件體積很小、便于攜帶。

CSV格式(純文本文件)8DOC格式

使用MicrosoftWord或WordPerfectforWindows創(chuàng)建和打開的。優(yōu)點(diǎn):DOC格式可以在文件中嵌入圖表、圖片、數(shù)學(xué)公式,建立超鏈接等。缺點(diǎn):由于文件中包含了字體信息、段落格式、文字色彩、頁(yè)眉頁(yè)腳等信息,文件體積相對(duì)純文本文件較大。DOC格式保密,且不開放源代碼,因此,其他公司的字處理程序都無(wú)法識(shí)別微軟的文檔。DOC格式文件版本向下不兼容。新版本的Office用了老版本不支持的新格式,所以O(shè)ffice的用戶必須升級(jí)(即使你并不需要什么新功能),從而提高用戶成本。DOC格式9RTF格式是由Microsoft創(chuàng)建的,RTF文件的組成包含控制字、控制符以及表明文檔屬性的組。使用MicrosoftWord打開。優(yōu)點(diǎn):RTF格式文件容易識(shí)別。RTF格式文件可以在不同程序和同一程序不同版本之間傳遞數(shù)據(jù),且它的格式信息不會(huì)丟失或破壞。RTF格式文件具有很強(qiáng)的編排功能,可以實(shí)現(xiàn)文字和各種插入對(duì)象的混排,文字也可以實(shí)現(xiàn)各式各樣的格式編排。缺點(diǎn):內(nèi)容繁多??刂谱痔?,增加了文檔編寫的難度。RTF格式賦予作為控制符的字符特殊含義,使其作為文本出現(xiàn)時(shí)容易產(chǎn)生混亂。RTF格式

RTF格式是由Microsoft創(chuàng)建的,10WPS格式

香港金山公司開發(fā)的,也是我國(guó)唯一一套成熟的擁有完全自主知識(shí)產(chǎn)權(quán)的辦公系統(tǒng)軟件。

優(yōu)點(diǎn):兼容性強(qiáng)。可以與MSOffice的兼容,可以插入DOC格式文件的圖形、表格和頁(yè)眉等;WPSOffice2002可以讀入和生成DOC格式文件;新老版本之間的上下兼容。WPS文檔具有圖文混排的功能。WPS格式技術(shù)先進(jìn)。引入XML數(shù)據(jù)中間層;文字與代碼的唯一對(duì)應(yīng)關(guān)系,不會(huì)出現(xiàn)亂碼現(xiàn)象;WPS格式文件可以適應(yīng)126種語(yǔ)言;開放的數(shù)據(jù)接口。缺點(diǎn):不能被微軟公司的Office2000直接識(shí)別。

WPS格式香港金山公司開發(fā)的,也是我國(guó)唯一一套成熟的擁有完11

HTML格式

1989年誕生于歐洲核子研究中心,是W3C協(xié)會(huì)專為WorldWideWeb而設(shè)計(jì)的,專用于Web頁(yè)的開發(fā)??捎脤iT的HTML編輯器或Frontpage、Dreamweaver等網(wǎng)頁(yè)制作工具進(jìn)行編輯,通過(guò)Navigator、InternetExplorer等瀏覽器顯示文本、圖形和其它的任何內(nèi)容。

優(yōu)點(diǎn):簡(jiǎn)單和統(tǒng)一。

缺點(diǎn):

①可重用性差;②信息交互的局限性;③擴(kuò)展性差,無(wú)法支持精確查詢;④處理能力差,影響效率;⑤固定的標(biāo)簽集合;⑥對(duì)特殊字符的支持不夠

網(wǎng)頁(yè)文本格式HTML格式

1989年誕生于歐洲核子研究中心,是W312SGML格式

通用標(biāo)準(zhǔn)標(biāo)記語(yǔ)言的簡(jiǎn)稱,是一種系統(tǒng)描述各類文獻(xiàn)結(jié)構(gòu)和內(nèi)容以建立通用數(shù)字化文獻(xiàn)的國(guó)際標(biāo)準(zhǔn)(ISO8879),1986年首次公布。一個(gè)SGML文件由三部分組成:SGML聲明、文件類型定義、SGML文檔。優(yōu)點(diǎn):可擴(kuò)展性好,可針對(duì)各種類型的文件結(jié)構(gòu)制定出合適的標(biāo)簽集,擴(kuò)展生成用來(lái)處理新數(shù)據(jù)格式的各種語(yǔ)言。可適應(yīng)性強(qiáng),SGML不專屬于某一特定平臺(tái)或特定應(yīng)用系統(tǒng),它可以在彼此不相容的系統(tǒng)間進(jìn)行數(shù)據(jù)交換,而不會(huì)造成數(shù)據(jù)丟失??芍赜眯院茫顾蓱?yīng)用于Web數(shù)據(jù)庫(kù)和電子數(shù)據(jù)交換。缺點(diǎn):它相當(dāng)復(fù)雜且價(jià)格昂貴。不易在網(wǎng)上傳送。SGML格式通用標(biāo)準(zhǔn)標(biāo)記語(yǔ)言的簡(jiǎn)稱,是13可擴(kuò)展標(biāo)識(shí)語(yǔ)言的簡(jiǎn)稱,W3C于1998年初推出的一種用于標(biāo)識(shí)數(shù)據(jù)格式的標(biāo)識(shí)語(yǔ)言,是一個(gè)基于SMGL上的簡(jiǎn)單、靈活的文本格式,將SGML的豐富功能與HTML的易用性結(jié)合到Web應(yīng)用中,保留了SGML的可擴(kuò)展功能。主要有如下要素:Schema(模式)、XQL(基于XML的查詢語(yǔ)言)、XSL(可擴(kuò)展樣式語(yǔ)言)和XLL(可擴(kuò)展鏈接語(yǔ)言)。XML可在任何平臺(tái)和操作系統(tǒng)上運(yùn)行,具有以下特點(diǎn):靈活簡(jiǎn)單,能把顯示格式從文檔中分離出來(lái),另存放在樣式表中。擴(kuò)展性良好。具有自解釋性。良好的共享性。強(qiáng)大的超鏈接機(jī)制。

XML格式

可擴(kuò)展標(biāo)識(shí)語(yǔ)言的簡(jiǎn)稱,W3C于199814PS格式

電子資源文本格式Adobe公司于1985年開發(fā)成功的專門為打印圖形和文字而設(shè)計(jì)的一種可編程打印控制語(yǔ)言??捎肁crobatAdobereader打開。優(yōu)點(diǎn):(1)輸出的多向性⑵文件格式的可轉(zhuǎn)換性⑶顯示的靈活性⑷獨(dú)立于設(shè)備(5)占用磁盤空間小(6)支持跨平臺(tái)操作缺點(diǎn):⑴使用不太方便。⑵只能利用有關(guān)瀏覽軟件對(duì)PS格式文件進(jìn)行瀏覽、查找、拷貝、打印等操作,而無(wú)法對(duì)已有PS格式文件進(jìn)行編輯修改。PS格式電子資源文本格式Adobe公司于1985年15CAJ格式《中國(guó)學(xué)術(shù)期刊全文數(shù)據(jù)庫(kù)》的專用格式,用中國(guó)學(xué)術(shù)期刊電子雜志社開發(fā)的專用“CAJ全文瀏覽器”才能打開閱讀。優(yōu)點(diǎn):可原版原貌顯示原文。缺點(diǎn):與其它的格式互不兼容。

CAJ格式《中國(guó)學(xué)術(shù)期刊全文數(shù)據(jù)庫(kù)》的專用格式,用中國(guó)學(xué)術(shù)期16VIP格式

維普公司系列數(shù)據(jù)庫(kù)使用的是vip全文瀏覽器,它支持vip、tif、wp等格式文件。它可以在線閱讀維普數(shù)據(jù)庫(kù)原文,也可以閱讀下載到本地硬盤的電子數(shù)據(jù)全文。

優(yōu)點(diǎn):可原版原貌顯示原文。缺點(diǎn):與其它的格式互不兼容。

VIP格式維普公司系列數(shù)據(jù)庫(kù)使用的是vip全文瀏覽器,17IFR格式

北京書生公司開發(fā)的書生電子圖書格式。目前書生電子圖書分為基礎(chǔ)掃描版、高級(jí)掃描版及全息版3種,用書生專用圖像格式瀏覽。優(yōu)點(diǎn):具有全文檢索功能,比較方便。缺點(diǎn):版面效果一般。需專門瀏覽器閱讀。文件體積偏大。只能聯(lián)機(jī)閱讀。IFR格式北京書生公司開發(fā)的書生電子圖書18PDG格式

由北京世紀(jì)超星公司開發(fā)的,是一種掃描的圖片格式,它必須用其專用閱讀器軟件——超星圖書閱覽器(SSReaser)才能閱讀,已成為通用的數(shù)字圖書格式之一。優(yōu)點(diǎn):電子圖書數(shù)量大,種類齊全;缺點(diǎn):必需用超星圖書閱讀器,掃描質(zhì)量較差,文件體積偏大。PDG格式由北京世紀(jì)超星公司開發(fā)的,是一種掃描19CEB格式

專為中文電子安全文檔而設(shè)計(jì)的文件格式,是一種“文字+圖像”的格式,能保留原有排版文件中有關(guān)字符、字體和色彩等的全部信息和原文件的版式、圖片、數(shù)學(xué)公式、化學(xué)公式、表格、棋牌以及樂(lè)譜等內(nèi)容能對(duì)文字、圖片等內(nèi)容進(jìn)行很好的壓縮,大大減小了對(duì)存儲(chǔ)空間的需求。優(yōu)點(diǎn):完善的版權(quán)保護(hù)和加密控制。CEB格式專為中文電子安全文檔而設(shè)計(jì)的文件格式,是20EBK格式

Voyager公司的MAC機(jī)(也有PC格式)讀書軟件格式。目前國(guó)內(nèi)某些站點(diǎn)已經(jīng)開始使用這種格式了。特點(diǎn):先下載一個(gè)客戶端軟件,才能在軟件指定的站點(diǎn)上登錄后,才能下載圖書。EBK格式Voyager公司的MAC機(jī)(也有PC格21

美國(guó)微軟公司開發(fā)的軟件MicrosoftReader的一種專有的文件格式,只能使用MicrosoftReader來(lái)閱讀。優(yōu)點(diǎn):支持全屏閱讀。沒(méi)有滾動(dòng)條,翻頁(yè)全部使用點(diǎn)擊頁(yè)碼來(lái)實(shí)現(xiàn),像看一本真正的紙質(zhì)書。缺點(diǎn):不支持與HTML相關(guān)的各種技術(shù),只是支持圖片的瀏覽。對(duì)中文支持得不是很好。LIT格式

美國(guó)微軟公司開發(fā)的軟件MicrosoftReade22WDL格式

北京華康公司開發(fā)的一種電子讀物格式,需要使用該公司專門的閱讀器DynaDocFreeReader來(lái)閱讀,可從該公司的網(wǎng)站免費(fèi)下載。優(yōu)點(diǎn):較好地保留了原來(lái)的版面設(shè)計(jì)。可將電子讀物下載到本地閱讀。適當(dāng)保護(hù)了作者和出版商的利益。壓縮率都比較高。能與任何軟件產(chǎn)生的文檔兼容,可以跨平臺(tái)使用。缺點(diǎn):需要專門的瀏覽器制作該種格式的電子讀物的軟件DynaDoc生成器沒(méi)有共享版本。WDL格式北京華康公司開發(fā)的一種電子讀物格式,需要使用該公23TeX/LaTeX/CteX格式

數(shù)學(xué)文本格式Stanford大學(xué)DonaldE.Knuth在1977年5月開始設(shè)計(jì)的一個(gè)排版文件系統(tǒng)。強(qiáng)調(diào)數(shù)學(xué)文本的印刷是程序功能中不可分割的一部分。TeX系統(tǒng)是公認(rèn)的數(shù)學(xué)公式排得最好的系統(tǒng),美國(guó)數(shù)學(xué)學(xué)會(huì)推薦的非常適合于數(shù)學(xué)家使用的AMS-TeX以及適合于一般文章、報(bào)告、書籍的LaTeX系統(tǒng)。世界上許多出版社利用TeX系統(tǒng)出版書籍和期刊。美國(guó)數(shù)學(xué)學(xué)會(huì)(AMS)鼓勵(lì)數(shù)學(xué)家們使用TeX系統(tǒng)向它的期刊投稿。已有中文版的CHINATeX。優(yōu)點(diǎn):⑴高質(zhì)量的輸出。⑵超常的穩(wěn)定性。⑶TeX是可編程的。⑷高度的靈活性。⑸簡(jiǎn)單識(shí)別。⑹良好的通用性。⑺低廉的價(jià)格。缺點(diǎn):⑴學(xué)習(xí)TeX比較困難。⑵難以調(diào)試。⑶TeX不是熟悉。TeX/LaTeX/CteX格式數(shù)學(xué)文本格式Stanfo24當(dāng)然文本數(shù)據(jù)格式除了以上常用的格式以外,還有其他一些不太常用的格式,如OEB、WRI、TTZ、PPT、KDH、PDB、PRC、RB、SETEXT、CyberBook、RocketeBook(.RB)、PocketPC等。其它文本格式當(dāng)然文本數(shù)據(jù)格式除了以上常用的格式以外,還有其他一些不太25文本格式的標(biāo)準(zhǔn)

標(biāo)準(zhǔn)來(lái)源:國(guó)外:美國(guó)Adobe公司開發(fā)的電子讀物PDF文件格式,由于國(guó)外文本主要采用PDF文件格式,所以PDF文件格式是數(shù)字文本的事實(shí)標(biāo)準(zhǔn)。國(guó)內(nèi):我國(guó)數(shù)字圖書館標(biāo)準(zhǔn)規(guī)范建設(shè)項(xiàng)目的《數(shù)字資源加工標(biāo)準(zhǔn)與操作指南》規(guī)定文本采用PDF文件格式。我國(guó)教育部門的CALIS項(xiàng)目建設(shè)技術(shù)規(guī)范項(xiàng)目的《CALIS

文獻(xiàn)資源數(shù)字加工與發(fā)布標(biāo)準(zhǔn)》也規(guī)定文本采用PDF文件格式。文本格式的標(biāo)準(zhǔn)標(biāo)準(zhǔn)來(lái)源:26文本的標(biāo)準(zhǔn)格式:

PDF簡(jiǎn)介:PDF是從頁(yè)面描述語(yǔ)言PS發(fā)展而來(lái),具有與PS幾乎相同的頁(yè)面描述能力和相似的描述方法。與PS不同的是,PDF除了能描述復(fù)雜版面外,還具有交互功能(如超鏈接和交互表單等)、頁(yè)面隨機(jī)存取及字體仿真描述等特性。該軟件最新的版本是7.0,PDF格式的電子圖書可以使用AdobeAcrobat來(lái)制作和編輯。PDF文件閱讀需要AdobeAcrobatReader來(lái)閱讀。文本的標(biāo)準(zhǔn)格式:PDF簡(jiǎn)介:27PDF文件結(jié)構(gòu)分四個(gè)部分:標(biāo)頭:包含PDF文件版本信息。主體:描述所有頁(yè)面中的各個(gè)元素。相互參照表:主體中查找所有頁(yè)面中的各個(gè)元素。標(biāo)尾:告訴軟件或RIP,去哪兒尋找相互參照表。如果沒(méi)有標(biāo)尾,PDF格式文件則不能被任何軟件或RIP處理。

PDF文件結(jié)構(gòu)分四個(gè)部分:28PDF文件構(gòu)成PDF格式文件由以下三個(gè)數(shù)據(jù)層構(gòu)成:文件底層數(shù)據(jù)層:包括字體信息、交叉參考表等所有的控制文件的重要底層數(shù)據(jù)。文本圖像數(shù)據(jù)層:包括文件中顯示的所有文本、矢量圖形和點(diǎn)陣圖像數(shù)據(jù)。由于PDF文本圖像數(shù)據(jù)層獨(dú)立存在,用戶替換頁(yè)面內(nèi)容時(shí),可以只改變文本圖像數(shù)據(jù)層的內(nèi)容,而不會(huì)影響其他數(shù)據(jù)層內(nèi)的相應(yīng)數(shù)據(jù),例如,不會(huì)改變字體、字號(hào),能保留所有的頁(yè)面鏈接,這在文檔電子管理中是很重要的,能給電子出版帶來(lái)很大的方便。附屬信息數(shù)據(jù)層:包括文件書簽和文件或頁(yè)面鏈接等等所有的功能擴(kuò)展數(shù)據(jù)。PDF文件構(gòu)成PDF格式文件由以下三個(gè)數(shù)據(jù)層構(gòu)成:29PDF文本示例PDF文本示例30

特點(diǎn)PDF是文本、矢量圖形和點(diǎn)陣圖像數(shù)據(jù)兼容的文件格式(簡(jiǎn)稱文字+圖像)。PDF文件格式可以將文字、字型、格式、顏色獨(dú)立于設(shè)備和分辨力的圖形圖像等封裝在一個(gè)文件??砂谋炬溄?、聲音和動(dòng)態(tài)影像等電子信息。PDF將其它格式的文件轉(zhuǎn)變成文件格式時(shí),并保留原文件的所有信息,包括字符、字體、版式和色彩;PDF是獨(dú)立于各種平臺(tái)和應(yīng)用程序的高兼容性文件格式。

特點(diǎn)PDF是文本、矢量圖形和點(diǎn)陣圖像數(shù)據(jù)兼容的文件格式(簡(jiǎn)31優(yōu)點(diǎn)PDF具有保持原文特性,頁(yè)面獨(dú)立性,多媒體鏈接等。文件的壓縮倍率高,文件的尺寸很小,適于網(wǎng)絡(luò)傳輸和光盤存儲(chǔ),具有高保真的印刷特性。Acrobat還具有密碼保護(hù)功能,允許使用盡可能高的保密層次來(lái)給敏感的文件分配密碼,以便控制對(duì)這些敏感文檔的訪問(wèn)。PDF格式文件可以圖文并茂地展現(xiàn)原書的原貌,顯示大小可任意調(diào)節(jié),閱讀時(shí)給人賞心悅目的感覺(jué),深受大眾的青睞,已經(jīng)成為電子出版領(lǐng)域事實(shí)上的工業(yè)標(biāo)準(zhǔn)。AdobePDF表單中的數(shù)據(jù)可以以標(biāo)準(zhǔn)的XML格式提交,將后端系統(tǒng)和PDF表單相集成。PDF文件創(chuàng)建了指定的搜索標(biāo)準(zhǔn),即在AdobePDF文件中創(chuàng)建和嵌入元數(shù)據(jù),這樣可擴(kuò)展文件查找的方式。優(yōu)點(diǎn)PDF具有保持原文特性,頁(yè)面獨(dú)立性,多媒體鏈接等。32數(shù)字文本的處理流程

數(shù)字文本信息的特點(diǎn)是易于傳播、所需存儲(chǔ)空間小,使用范圍廣?,F(xiàn)在的公文、文件、信函、報(bào)表、各種印刷出版物等絕大多數(shù)都使用文字的形式來(lái)記錄,文本信息處理的應(yīng)用范圍非常廣泛,從編輯文稿、建立文件檔案資料、排版印刷到行政管理、辦公室自動(dòng)化,凡是需要用文字表達(dá)信息的應(yīng)用場(chǎng)合,都可以利用文字信息處理技術(shù)。但是由于世界各國(guó)語(yǔ)言文字存在較大差異,交流的群體受到限制,文本信息處理一直在不斷的開發(fā)和應(yīng)用,可以利用計(jì)算機(jī)人工智能,在字、詞處理的基礎(chǔ)上增添語(yǔ)法和句法處理、書面和自然語(yǔ)言處理等新功能。數(shù)字文本的處理流程數(shù)字文本信息的特點(diǎn)是易于傳播、33文本處理的實(shí)質(zhì)先把文字信息數(shù)字化,即用一個(gè)固定的數(shù)碼代表一個(gè)字母或文字。例如,在英文信息中,以26個(gè)字母作為文字信息處理的單位,因此要對(duì)26個(gè)字母逐個(gè)地確定代替它的數(shù)碼。在漢字的情況下,一般是以一個(gè)整字作為文字信息處理的單位,因此要對(duì)每一個(gè)整字惟一地確定代表它的數(shù)碼。這一數(shù)碼統(tǒng)稱為代碼(code)。在計(jì)算機(jī)內(nèi)部處理文字信息時(shí),就像處理數(shù)據(jù)一樣對(duì)待。處理完畢后,再把替代的數(shù)碼還原成相應(yīng)的字母或文字。利用計(jì)算機(jī)能夠調(diào)整處理數(shù)據(jù)的性能,使文字信息處理也能夠分享計(jì)算機(jī)技術(shù)的這一獨(dú)特優(yōu)點(diǎn),從而實(shí)現(xiàn)文字信息處理的高效化。文本處理的實(shí)質(zhì)34數(shù)字文本的處理流程

從總體上看,數(shù)字文本處理大致包含如下三個(gè)過(guò)程:文本采集:通常是通過(guò)鍵盤把組成英文詞匯的各個(gè)英文字母逐個(gè)地輸入、全文掃描輸入等。文本處理:包括編輯、格式轉(zhuǎn)換等多種不同的處理要求。如在文稿的編輯操作中有對(duì)文字的增、刪、改操作;有對(duì)若干個(gè)字、整個(gè)句子或整段文字的增、刪、改操作。在對(duì)文字串的處理中,有分類、合并、比較、排序、檢索以及對(duì)齊等操作。這些種類的操作都可以通過(guò)預(yù)先編制相應(yīng)的處理程序來(lái)實(shí)現(xiàn)。文本輸出:文字信息處理完畢后,要把處理結(jié)果的代碼信息轉(zhuǎn)換成文字的形式輸出,輸出方式包括顯示和打印,在顯示時(shí),文本制作人為了保護(hù)自己的知識(shí)產(chǎn)權(quán),可設(shè)置對(duì)用戶權(quán)限的管理。數(shù)字文本的處理流程從總體上看,數(shù)字文本處理大致包含如下三個(gè)35

從信息編碼角度看數(shù)字文本處理,可抽象為下圖所示的五層結(jié)構(gòu)模型:

數(shù)字文本處理流程示意圖從信息編碼角度看數(shù)字文本處理,可抽象為下圖所示的五層結(jié)構(gòu)模36圖示說(shuō)明

外部碼輸入層:通過(guò)鍵盤、文字識(shí)別、語(yǔ)音識(shí)別等將文本信息輸入計(jì)算機(jī)。外部碼向內(nèi)部碼轉(zhuǎn)換層:將外部碼輸入層信息轉(zhuǎn)換成一致的內(nèi)部碼,供內(nèi)部碼處理層使用。內(nèi)部碼處理層:包括運(yùn)算碼、存儲(chǔ)碼、地址碼、控制碼、語(yǔ)音碼等字符處理內(nèi)部碼。內(nèi)部碼向外部碼轉(zhuǎn)換層:將內(nèi)部碼處理層的結(jié)果,按照需要轉(zhuǎn)換成相應(yīng)外部碼輸出,供外部碼輸出層使用。外部碼輸出層:包括文字顯示輸出、文字印刷輸出、語(yǔ)音合成輸出、交換碼輸出等輸出形式。

圖示說(shuō)明外部碼輸入層:通過(guò)鍵盤、文字識(shí)別、語(yǔ)音識(shí)別等將文37數(shù)字文本采集采集途徑

數(shù)字文本的采集途徑有輸入和下載兩種,其中輸入又分為人工輸入和自動(dòng)輸入。人工輸入:鍵盤輸入,即英文直接輸入,中文輸入采用拼音法、五筆輸入法、鄭碼輸入法、智能拼音法等,人工輸入速度慢且勞動(dòng)強(qiáng)度大,不適用于需要處理大量文字資料的辦公自動(dòng)化、文檔管理、圖書情報(bào)管理等場(chǎng)合。

數(shù)字文本采集采集途徑數(shù)字文本的采集途徑有輸入和下載兩種,其38自動(dòng)輸入分為手寫板輸入法、語(yǔ)音輸入法、掃描輸入法。手寫板輸入法:利用壓敏或磁感應(yīng)等方法識(shí)別文字信號(hào),被計(jì)算機(jī)接收后再在顯示器中顯示。語(yǔ)音輸入法:利用語(yǔ)音識(shí)別手段將人們讀書的聲音通過(guò)麥克風(fēng)輸入計(jì)算機(jī),由計(jì)算機(jī)分析判斷整理出人們讀出的內(nèi)容,并用文字形式顯示出來(lái)。掃描輸入法:利用掃描儀、數(shù)碼相機(jī)等外圍設(shè)備將印刷型或手寫體的文字轉(zhuǎn)換為數(shù)字信號(hào)輸入計(jì)算機(jī),此方法輸入的文字是以圖像的形式出現(xiàn)的,再利用識(shí)別軟件轉(zhuǎn)換為人們常用的文本文字。自動(dòng)輸入分為手寫板輸入法、語(yǔ)音輸入法、掃描輸入法。39文本下載:下載分為電子資源下載和網(wǎng)頁(yè)下載兩種。電子資源下載:主要是下載數(shù)據(jù)庫(kù)和網(wǎng)上的非網(wǎng)頁(yè)文本,一般是原格式(如doc、pdf、pdg、caj等)文件下載。網(wǎng)上下載:主要是html格式的網(wǎng)頁(yè)文本,采用復(fù)制、粘貼的方法轉(zhuǎn)到Word、寫字板、記事本中以便于編輯,采用此方法復(fù)制到Word時(shí),可采用“選擇性粘貼”—“無(wú)格式粘貼”的方式去掉粘貼過(guò)來(lái)的網(wǎng)頁(yè)格式。文本下載:40主要有鍵盤、鼠標(biāo)、麥克風(fēng)、圖形輸入板和筆、Microtek掃描儀等。鍵盤:把漢字輸入計(jì)算機(jī)的主要工具,目前主要是按漢字的字形或發(fā)音特征,或利用漢字的形、音特征相結(jié)合的編碼方法將漢字輸入計(jì)算機(jī)。麥克風(fēng):將人類自然語(yǔ)言轉(zhuǎn)化為計(jì)算機(jī)能識(shí)別的文本信息的主要工具。圖形輸入板和筆:將人們的手寫文本直接輸入到計(jì)算機(jī)的主要工具。只有在微機(jī)配上圖形輸入板才能進(jìn)行手寫文本,以讓機(jī)器自動(dòng)識(shí)別轉(zhuǎn)換為數(shù)字文本信息。Microtek掃描儀:目前常用的掃描儀是上海中晶科技有限公司生產(chǎn)的Microtek掃描儀,最新產(chǎn)品是MicrotekArtixScan2020彩色雙平臺(tái)掃描儀,分辨率為2000dpi×2000dpi、雙鏡頭及恒溫冷卻系統(tǒng),最大掃描幅面為A3。采集工具主要有鍵盤、鼠標(biāo)、麥克風(fēng)、圖形輸入板和筆、Mic41

采集軟件數(shù)字文本的采集軟件主要有:word、Windows附件的記事本:主要用于鍵盤輸入和網(wǎng)上下載的采集過(guò)程。識(shí)別軟件:分為文本識(shí)別軟件和語(yǔ)音識(shí)別軟件,文本識(shí)別軟件有尚書和漢王等,其核心技術(shù)是OCR技術(shù);語(yǔ)音識(shí)別軟件有IBM公司生產(chǎn)的ViaVoice9.1和微軟公司開發(fā)的語(yǔ)音大師3.6等。采集軟件數(shù)字文本的采集軟件主要有:42

文本識(shí)別是用電子計(jì)算機(jī)自動(dòng)辨識(shí)印刷在紙上和錄寫在紙(或介質(zhì))上的字形,是一種文本處理中的高速、自動(dòng)輸入方式。文本識(shí)別技術(shù)可以分為印刷體識(shí)別及手寫體識(shí)別技術(shù),而手寫體識(shí)別又可以分為聯(lián)機(jī)與脫機(jī)兩種。文本識(shí)別文本識(shí)別是用電子計(jì)算機(jī)自動(dòng)辨識(shí)印刷在紙上和錄寫在紙43

文本識(shí)別的原理

根據(jù)匹配判別,抽取代表未知漢字模式本質(zhì)的表達(dá)形式(如各種特征)和預(yù)先存儲(chǔ)在機(jī)器中的標(biāo)準(zhǔn)漢字模式表達(dá)形式的集合(稱為字典)逐一匹配,用一定的準(zhǔn)則進(jìn)行判別,在機(jī)器存儲(chǔ)的標(biāo)準(zhǔn)漢字模式表達(dá)形式的集合中,找出最接近輸入字模式表達(dá)形式,該表達(dá)形式對(duì)應(yīng)的文字就是識(shí)別結(jié)果。文本識(shí)別的原理根據(jù)匹配判別,抽取代表未知漢字模44

文本識(shí)別的原理圖

文本識(shí)別的原理圖45OCR識(shí)別技術(shù)OCR,光學(xué)漢字識(shí)別的簡(jiǎn)稱,是一種智能化的漢字輸入方法,主要是對(duì)印刷體漢字進(jìn)行識(shí)別,原稿上的印刷體漢字經(jīng)光學(xué)掃描后,通過(guò)二值化處理(即模數(shù)轉(zhuǎn)換行字切分等預(yù)處理過(guò)程)送入計(jì)算機(jī),由程序把送入計(jì)算機(jī)的字模信息和原先存在計(jì)算機(jī)中的標(biāo)準(zhǔn)字模信息進(jìn)行比較,判定和識(shí)別輸入的漢字,這種方法的識(shí)別速度較高。對(duì)于一般質(zhì)量的文稿,目前OCR產(chǎn)品的漢字識(shí)別準(zhǔn)確率已達(dá)95%以上,個(gè)別系統(tǒng)可達(dá)98%以上,并可實(shí)現(xiàn)對(duì)中文、英文和數(shù)字符號(hào)的混合識(shí)別,基本進(jìn)入實(shí)用階段,并在不斷發(fā)展之中。

OCR識(shí)別技術(shù)主要應(yīng)用于掃描儀中,目前也有不少數(shù)據(jù)庫(kù)公司將它嵌入自己的瀏覽器中,如:重慶維普、中國(guó)期刊網(wǎng)、書生和超星電子圖書等。OCR識(shí)別技術(shù)OCR,光學(xué)漢字識(shí)別的簡(jiǎn)稱,是一種智能化46印刷體文本識(shí)別印刷體文本識(shí)別的過(guò)程如:掃描:通過(guò)光電掃描儀獲得的二維原始圖像。預(yù)處理:對(duì)原始圖像的去噪、傾斜校正或各種濾波處理。版面分析:對(duì)于文本圖像的總體分析,區(qū)分出文本段落及排版順序、圖像、表格的區(qū)域,對(duì)于文本區(qū)域?qū)⑦M(jìn)行識(shí)別處理,對(duì)于表格區(qū)域進(jìn)行專用的表格分析及識(shí)別處理,對(duì)于圖像區(qū)域進(jìn)行壓縮或簡(jiǎn)單存儲(chǔ)。將大幅的圖像先切割為行,再?gòu)膱D像行中分離出單個(gè)字符的過(guò)程特征提?。簭膯蝹€(gè)字符圖像上提取統(tǒng)計(jì)特征或結(jié)構(gòu)特征的過(guò)程,包括細(xì)化、歸一化等步驟。整個(gè)環(huán)節(jié)中最重要的一環(huán),提取的特征的穩(wěn)定性及有效性,決定了識(shí)別的性能。文字識(shí)別:從學(xué)習(xí)得到的特征庫(kù)中找到與待識(shí)字符相似度最高的字符類的過(guò)程。后處理:利用詞義、詞頻、語(yǔ)法規(guī)則或語(yǔ)料庫(kù)等語(yǔ)言先驗(yàn)知識(shí)對(duì)識(shí)別結(jié)果進(jìn)行校正的過(guò)程。印刷體文本識(shí)別印刷體文本識(shí)別的過(guò)程如:47印刷體文本識(shí)別的過(guò)程圖注:圈內(nèi)部分是印刷漢字識(shí)別中最為核心的技術(shù)

印刷體文本識(shí)別的過(guò)程圖注:圈內(nèi)部分是印刷漢字識(shí)別中最為核心的48手寫體文本識(shí)別手寫文本識(shí)別是只在微機(jī)配上圖形輸入板就可以進(jìn)行手寫文本,機(jī)器自動(dòng)識(shí)別。手寫文本是一種很方便的輸入手段,不需要進(jìn)行任何訓(xùn)練,可以隨著思路書寫,圖形輸入板方便編輯、修改,缺點(diǎn)是輸入速度慢和不適應(yīng)大量的文本輸入。其識(shí)別過(guò)程如下:

手寫體文本識(shí)別手寫文本識(shí)別是只在微機(jī)配上圖形輸入板就可以進(jìn)行49文本識(shí)別操作:尚書六號(hào)目前市場(chǎng)上銷售的每一款Microtek掃描儀產(chǎn)品,都附贈(zèng)了“尚書六號(hào)”文字識(shí)別軟件?!吧袝?hào)”突破了“尚書五號(hào)”只能對(duì)“黑白二色”圖像進(jìn)行識(shí)別的限制,可對(duì)彩色、灰度圖像文件直接進(jìn)行識(shí)別,同時(shí)支持更多的掃描文件格式(如TIFF、BMP和JPG),完善了表格識(shí)別功能,各式各樣的表格幾乎都可以原封不動(dòng)的由圖片格式轉(zhuǎn)變?yōu)榭梢宰杂删庉嫷奈淖指袷剑惭b“尚書六號(hào)”完畢后,程序組圖標(biāo)里面會(huì)自動(dòng)出現(xiàn)“尚書六號(hào)說(shuō)明”,借助這本用戶手冊(cè),即使是初學(xué)者也可以迅速掌握軟件的使用。文本識(shí)別操作:尚書六號(hào)目前市場(chǎng)上銷售的每一款Microtek50尚書六號(hào)的使用方法Step1:掃描圖像文件

首先點(diǎn)擊桌面上ScanWizard5軟件的圖標(biāo),進(jìn)入Microtek掃描儀驅(qū)動(dòng)軟件的界面,直接進(jìn)行掃描工作,而不需要啟動(dòng)其他的掃描程序或圖像編輯程序,這樣可以大大加快掃描進(jìn)程。同時(shí),注意將ScanWizard5軟件切換到高級(jí)工作模式(如圖1所示),以便于用戶檢查掃描儀工作時(shí)的分辨率。在文字識(shí)別時(shí),推薦使用的掃描分辨率設(shè)定在300ppi,色彩模式可以選擇“RGB彩色”或者“灰階”,選擇“掃描到”的文件格式是TIF或者JPG兩者都可以,然后將掃描得到的文件保存在用戶確定的目錄下面。尚書六號(hào)的使用方法Step1:掃描圖像文件51圖1.圖1.52Step2:打開尚書六號(hào)讀取掃描好的圖像文件。圖2Step2:打開尚書六號(hào)讀取掃描好的圖像文件。圖253Step3:被識(shí)別圖片的預(yù)處理

包括傾斜校正和設(shè)定正確的識(shí)別區(qū)域兩個(gè)過(guò)程。傾斜校正過(guò)程:如圖3所示,按下工具欄的最下面

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論