


下載本文檔
版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
1、如何將繁體豎排掃描版 pdf 電子圖書轉(zhuǎn)化為可編輯的文本文件2010年8月5日4:01一、背景酷暑難熬,心情煩躁,讀書是最好的“清涼飲料”。最近,閑暇時(shí)間正在讀春秋左傳。我讀的版本 為李夢生撰、上海古籍出版社出版的左傳譯注。在讀的過程中,總是感覺有的地方?jīng)]有注釋, 只能看譯文幫助理解。于是,就想找其它的版本作參考。該書“前言”中提到:“特別需要說明的 是,楊伯峻先生的春秋左傳注一書,對我的幫助尤大?!彼?,就在網(wǎng)上下載了此書(修訂 本)的電子文檔。楊伯峻先生的春秋左傳注一書是春秋左傳的經(jīng)典必讀之書。遺憾的是,此書為繁體豎排,注釋 插在正文中,并且沒有譯文。此書對于大陸讀者來說,可能很不習(xí)慣。能
2、不能將此書重新排版,采 用更適合大陸讀者閱讀習(xí)慣的格式,重新出版呢?這或許是我的一個(gè)夢想,因?yàn)闂畈壬呀?jīng)去 世,而且全書有 1800多頁。我一時(shí)沖動(dòng)居然想實(shí)現(xiàn)這個(gè)夢想。我在網(wǎng)上下載的版本是掃描圖像制成的pdf 格式,要想重新排版,需要可以編輯的文檔。我在網(wǎng)上還沒有找到此書可編輯的版本。所以,我就試著自己將這本書 的掃描版本轉(zhuǎn)化為可編輯的版本。二、方法 我在網(wǎng)上看了一些相關(guān)的資料,借鑒了別人的一些經(jīng)驗(yàn),通過反復(fù)試驗(yàn),終于找到了將繁體豎排掃 描圖像的pdf電子圖書轉(zhuǎn)化為可編輯文本的方法。1、將掃描版Pdf圖書轉(zhuǎn)化為圖像文件由于掃描后制成pdf格式的圖書,內(nèi)部的每頁都是一個(gè)圖像,所以必須把其中的
3、圖像文件提取出 來,米用OCRS別的方法,才能轉(zhuǎn)化為可編輯的文本格式。轉(zhuǎn)化為圖像文件,有兩種方法:(1 直接由Adobe Acrobat導(dǎo)出圖像文件。我采用的是Adobe Acrobat Pro 9。選擇“文件一導(dǎo)出一圖像一TIFF功能即可從掃描圖像的pdf文中 提取出多個(gè)掃描文檔(每頁一個(gè))。這種方法非常簡單適用,推薦使用。之所以要轉(zhuǎn)化成TIFF格式的圖像文件,是因?yàn)橛薪榻B說 TIFF格式的圖像文件,OCR勺識別率高。(2)用 Microsoft Office Document Image Writer 打印生成 pdf文檔的圖像文件。Microsoft Office Document Im
4、age Writer是Office中帶的一個(gè)工具。如果在安裝 Office時(shí)沒有安裝,對 于2003和2007版本的Office,只須重新安裝一遍即可。在需要安裝的內(nèi)容中,在“工具”中選擇后 安裝即可。我使用的是 Office 2010,在安裝內(nèi)容選項(xiàng)中沒有找到這個(gè)工具。不知道是版本問題,還 是2010版本本身就沒有這個(gè)工具。我用 Office 2007安裝了此工具,使用正常。因?yàn)檫@就是一個(gè)虛擬 打印機(jī),所以可以采用以前版本的。安裝時(shí),只選擇此工具,其它內(nèi)容全部不選。這樣安裝后,可 以保證Office 2010的正常使用。Microsoft Office Document Image Writ
5、er 安裝正常后,在 Adobe Acrobat Pro 9中打印時(shí),選擇此打印機(jī) 即可將pdf格式的圖書轉(zhuǎn)化為一個(gè)TIFF文檔。2、對提取到的圖像文件進(jìn)行處理。此項(xiàng)工作的主要目的是,提高 OCR識別率,減少校對編輯時(shí)間。如果掃描文件的質(zhì)量很高,可以不 進(jìn)行此項(xiàng)工作。進(jìn)行此項(xiàng)工作 我之所以要進(jìn)行此項(xiàng)工作,并不是因?yàn)閽呙栉募馁|(zhì)量不高,而是因?yàn)楸緯鵀榉斌w豎排,而且專有 名詞下面都帶了下劃線。就是這些下劃線影響了識別率。我在沒進(jìn)行圖像處理前進(jìn)行識別,識別出 來的文本錯(cuò)誤很多,需要花費(fèi)很長時(shí)間來進(jìn)行校對。去掉下劃線后,識別率顯著提高?;藭r(shí)間去 掉下劃線,節(jié)約了校對時(shí)間,但是效率卻大幅提高了。我采用
6、的圖像處理軟件為 PhotoFiltre Studio X 10.2.1。這個(gè)軟件能夠滿足對掃描文件的處理。我最初 采用的是Windows自帶的“畫筆”軟件,但是存盤后,發(fā)現(xiàn)分辨率降低了,以致識別率極低。所以 我最后才選定PhotoFiltre Studio X這個(gè)軟件。使用其中的選擇工具,把下劃線和所有污點(diǎn)去掉。3、OCF識別經(jīng)過比較,我選定了“漢王文本王 文豪7600”(專業(yè)版)這個(gè)軟件。這個(gè)軟件對于繁體豎排的掃 描文件識別率很高(去掉掃描文件中的下劃線后),而且校對功能很方便。這是我沒有想到的,說 明漢王的技術(shù)確實(shí)不錯(cuò),不愧為“漢王”。最好一頁一頁地識別。打開需要識別的掃描文件,( 1)
7、在工具欄中選擇選項(xiàng)“豎排”、“簡繁” 等配置項(xiàng);( 2)選擇工具欄中的“版面分析”分析掃描文件的版面。可以將不需要識別的版面去 掉。版面會(huì)影響識別后的排版格式。(3)選擇工具欄中的“識別”進(jìn)行 OCR識別。(4)校對。在 校對窗口中校對文本。( 5)文本輸出。可以將識別后的文本輸出到 Word 2003,輸出到2010可能有 些問題。所以我直接將文本復(fù)制到 Word 2010中,在其中重新編輯排版。4、繁體字的輸入對于繁體書,在OCF識別后的校對過程中,需要輸入繁體字,特別一些生僻的繁體字。對于大陸讀 者來講,輸入和處理繁體字非常令人頭痛。( 1)繁體字庫。要處理繁體字,最好還是裝一些繁體字庫
8、。我裝的有: PMingLiU -Fixed.ttf 、方 正蘭亭字庫5.0繁體和UniFonts.exe,這些字庫在網(wǎng)上搜索下載安裝即可,安裝到 Windows的Fonts 目錄下。 UniFonts.exe 字庫是為了采用海峰五筆而安裝的。( 2)繁體字的輸入 網(wǎng)上介紹了很多種輸入繁體字的方法,采用哪種方法取決于你所熟悉的輸入法。現(xiàn)在,很多輸入 法,輸入簡體可以自動(dòng)轉(zhuǎn)換輸出繁體。因?yàn)槲也捎玫氖俏骞P,所以采用了萬能五筆和海峰五筆。萬能五筆對于一般的繁體字輸入是沒有問題的,但是對于生僻一點(diǎn)的繁體字就無法輸入了。為此, 我發(fā)現(xiàn)了可以支持大字庫 Uni code編碼的海峰五筆,可以解決繁體生僻字的
9、輸入問題。但是對于此 書中的個(gè)別生僻繁體字,仍然無法輸入。( 3)生僻繁體字的輸入生僻繁體字的輸入讓我傷透了腦筋,總算有了比較好的解決方法。采用海峰五筆可以解決絕大多數(shù)繁體字的輸入。 對于海峰五筆無法輸入或不會(huì)拆字的生僻字,我采用的是Word中的插入字符的方法。先在Word中寫一個(gè)相似的字(部首相同),選擇這個(gè)字,選擇“插入一符號”,即可找 到與這個(gè)字相似的漢字,在其中查找,找到后插入。在一個(gè)字庫中找不到,就只能在另外的繁體字 庫中查找了,相當(dāng)費(fèi)時(shí)間,不過沒辦法,這是最后一招了。最麻煩的是字庫中沒有的生僻繁體字,就只能采用造字或其它方法了。三、效果經(jīng)過一段時(shí)間的摸索,上述方法解決了將繁體豎排掃描版pdf圖書轉(zhuǎn)化為可編輯的文本文件。目前,我已成功將楊伯峻先生的春秋左傳注一書的“前言”部分(近60頁, 3萬多字)轉(zhuǎn)化為可前,我已成功將楊伯峻先生的春秋左傳注一書的“前言”部分(近60頁, 3萬多字)轉(zhuǎn)化為可編
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 評價(jià)自己的健康狀況教學(xué)反思
- 管焊工安全培訓(xùn)課件
- 研究生的自我總結(jié)
- 動(dòng)漫制作培訓(xùn)
- 小學(xué)竹編非遺課件
- 基本飲食護(hù)理
- 中班雨水科學(xué)活動(dòng)教案
- 家校合作共同助力學(xué)生進(jìn)步
- 腫瘤標(biāo)志物臨床應(yīng)用與進(jìn)展
- 關(guān)注學(xué)生全面發(fā)展打造特色學(xué)校
- PCBA元件焊點(diǎn)強(qiáng)度推力測試標(biāo)準(zhǔn)
- 食用菌的保鮮技術(shù)研究進(jìn)展
- 可持續(xù)建筑(綠色建筑)外文翻譯文獻(xiàn)
- 2023年春國家開放大學(xué)工具書與文獻(xiàn)檢索形考任務(wù)1-4及答案
- 2023年03月北京海淀區(qū)衛(wèi)生健康委所屬事業(yè)單位招聘430人(第一次)筆試參考題庫含答案解析
- ISTA-3A(中文版)運(yùn)輸-試驗(yàn)標(biāo)準(zhǔn)
- 小學(xué)科學(xué)-蠶變了新摸樣教學(xué)課件設(shè)計(jì)
- 企業(yè)資產(chǎn)評估工作底稿模版
- 人教版五年級下冊分?jǐn)?shù)的基本性質(zhì)說課稿
- 市場監(jiān)督管理局企業(yè)注冊、經(jīng)營范圍登記規(guī)范表述:行業(yè)分類及條目代碼
- 廣西大學(xué)宏觀經(jīng)濟(jì)學(xué)期末復(fù)習(xí)題及參考答案
評論
0/150
提交評論