HOCR2009文通數(shù)據(jù)錄入工廠_第1頁
HOCR2009文通數(shù)據(jù)錄入工廠_第2頁
HOCR2009文通數(shù)據(jù)錄入工廠_第3頁
HOCR2009文通數(shù)據(jù)錄入工廠_第4頁
HOCR2009文通數(shù)據(jù)錄入工廠_第5頁
已閱讀5頁,還剩21頁未讀 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

1、TH-OCR 2009文通數(shù)據(jù)錄入工廠 ChenJZ1編輯ppt產(chǎn)品概述 隨著信息社會的發(fā)展,科技的進步,目前,我國的信息產(chǎn)業(yè),面臨著電子出版、Internet網(wǎng)上出版、建立數(shù)字圖書館的新型發(fā)展。我國現(xiàn)有常見報刊3000余種,各類雜志4500余種,報刊、雜志的電子出版已經(jīng)成為媒體潮流和競爭的熱點。百科全書、地方志以及建筑、金融、醫(yī)藥、法律等各行各業(yè)的檔案資料、行業(yè)信息也都有待于數(shù)字化和電子出版;數(shù)字圖書館建設(shè)也成為國家關(guān)注的重點項目。 如何以低成本、快速度、高質(zhì)量地將我國浩如煙海,取之不竭的文檔資料和行業(yè)信息數(shù)字化,是“TH-OCR 2009文通數(shù)據(jù)錄入工廠”能夠解決的問題。TH-OCR 20

2、09文通數(shù)據(jù)錄入工廠是在國家863計劃、國家自然科學(xué)基金長期支持下,清華大學(xué)電子工程系智能圖文信息處理研究室長期漢字識別研究工作的基礎(chǔ)上,在八六三計劃863306ZD03021重點課題和國家自然科學(xué)基金項目69682003的支持下開發(fā)完成的。清華大學(xué)電子工程系的漢字識別技術(shù)一直處于國內(nèi)外領(lǐng)先地位,是海量數(shù)據(jù)電子化首選,圖書館數(shù)據(jù)電子化必備,可以全方位實現(xiàn)與大型報社以及數(shù)據(jù)加工企業(yè)的立體鏈結(jié)與無縫合作。 2軟件功能識別核心TH-OCR 2009文通數(shù)據(jù)錄入工廠內(nèi)置文通科技最新研發(fā)的高性能文字識別引擎,中文漢字識別率達99.8%以上。英文、日文、韓文的識別率居世界領(lǐng)先水平。Unicode編碼采用U

3、NICODE國際編碼標準。系統(tǒng)可在一個統(tǒng)一的平臺下,同時處理包括中文、日文、韓文、英文在內(nèi)的多種文字的識別和校對修改。XML技術(shù)系統(tǒng)基于開放式的XML數(shù)據(jù)結(jié)構(gòu),可以對數(shù)據(jù)進行擴充和再定義。支持第三方開發(fā)廠商方便地進行文檔數(shù)據(jù)的轉(zhuǎn)換、遷移和再利用。3版面還原強大的版面還原技術(shù),可將識別后的報刊、雜志、圖書等多種形式的文檔,通過還原字體、字號、版面位置、字體顏色等信息以原版原式呈現(xiàn)在讀者面前,最終生成優(yōu)質(zhì)的全息PDF文檔。集字校對集字校對是TH-OCR 2009文通數(shù)據(jù)錄入工廠特有的文字校對技術(shù),該技術(shù)打破了傳統(tǒng)校對工具圖像與識別結(jié)果文本比對顯示的模式,將多篇文檔中所有識別結(jié)果相同的字符圖像集中呈

4、現(xiàn)在一個視圖中,給校對人員強烈的視覺沖擊,讓錯字自動“跳”入校對人員的眼中,避免了校對人員因陷入文檔的上下文語境而產(chǎn)生視覺疲勞,引起的校對準確率下降。同時,由于常用漢字集中在3000-4000個左右,面對海量文字的校對時,不會因文字量的上升帶來相應(yīng)的校對量的上升,仍只需校對這幾千個不同的漢字,明顯提高工作效率。4增量識別增量識別功能允許用戶只識別手工編輯修改過的或新增加的區(qū)域,而保留其他已經(jīng)完成校對的文字區(qū)域,為用戶使用提供最大的靈活性與方便性。自學(xué)習(xí)針對古籍、科研等特殊領(lǐng)域文檔中經(jīng)常出現(xiàn)的特殊文字,即使不在國家標準范圍以內(nèi)或者TH-OCR字庫中并沒有支持,用戶也可通過自學(xué)習(xí)功能,將這些文字的

5、圖像學(xué)習(xí)進入系統(tǒng),使得調(diào)整后的核心可以支持這些文字的識別。雙層PDF批量制作將指定的圖像或者文件內(nèi)的圖像批量轉(zhuǎn)化為雙層可檢索PDF。5全新簡捷的界面頁面視圖區(qū)文本視圖區(qū)縮略圖和列表欄圖像視圖區(qū)索引欄工具欄6步驟一:導(dǎo)入圖像TH-OCR 2009可以通過直接連接掃描儀來得到掃描文件,也可以直接從本地或者網(wǎng)絡(luò)文件夾中導(dǎo)入已存在的圖像文件。 TH-OCR 2009可以創(chuàng)建一個工程,然后在工程中創(chuàng)建文件夾或者直接導(dǎo)入頁,可以對整個工程和工程內(nèi)的文件夾進行批量處理、識別以及導(dǎo)出掃描圖像導(dǎo)入已存在的圖像7步驟二:圖像處理TH-OCR 2009提供了簡單的圖像處理功能,可以滿足基本的圖像處理需求旋轉(zhuǎn)圖像,可

6、以將掃描得到的圖像或者導(dǎo)入進來的圖像進行旋轉(zhuǎn)來得到正確的圖像閱讀方向刪除區(qū)域,對不需要的區(qū)域可以該功能將區(qū)域抹白裁剪圖像,如果只需要保留圖像的某一區(qū)域,可以使用裁剪功能反轉(zhuǎn)圖像,對一些黑底白字的圖像,可以使用該功能使其反轉(zhuǎn)變成白底黑字的圖像傾斜校正,對掃描時因放置不當而造成的圖像傾斜可以進行自動或者是手動傾斜校正,通過增強圖像質(zhì)量,提高識別率8圖像處理實例 反轉(zhuǎn)圖像 傾斜校正 裁剪 刪除區(qū)域9TH-OCR 2009可以對如雜志、書本、報刊等進行自動版面分析。TH-OCR 2009將版面分為橫排文本、豎排文本、圖像、表格四種類型,正確的版面分析可以提高識別效果。用戶也可以根據(jù)需求,進行手動版面分

7、析。步驟三:版面分析 豎排文本 圖像 表格 橫排文本10自動調(diào)整區(qū)域邊界對黑白二值的圖像,TH-OCR 2009可以自動進行區(qū)域調(diào)整,使區(qū)域自動適應(yīng)到區(qū)域的邊界。11刪除被覆蓋的區(qū)域該功能可以在進行新區(qū)域劃分的時候,自動將新區(qū)域所覆蓋的區(qū)域刪除。12遺漏檢查對于版面較多和比較復(fù)雜的頁面,例如報紙,進行版面分析時,可能會有遺漏。通過遺漏檢查則可以很清楚的看清那些版面是沒有做過版面分析的。13步驟四:識別TH-OCR 2009可以進行簡繁日韓英五種語言的文字識別:簡體多體繁體多體簡體全字集繁體全字集手寫體純英文日文韓文14增量識別增量識別可以大大提高識別效率。增量識別可以僅對版面分析中新增加的活著

8、區(qū)域?qū)傩灶愋陀凶兓膮^(qū)域進行識別,而保留其他未改動的區(qū)域的識別結(jié)果,這樣可以很好的提高識別效率,增量識別后對區(qū)域?qū)傩詻]有改動的區(qū)域內(nèi)的文字不會有絲毫影響。整頁識別增量識別修改區(qū)域15步驟五:校對橫向校對在識別結(jié)果區(qū)域中,通過人工逐字逐句比較識別結(jié)果與原始圖像,找到錯誤的地方并修改。浮動跟蹤條可以提高橫向校對的速度,它是將識別的原始圖像塊跟蹤顯示在識別結(jié)果上,使識別結(jié)果與原始圖像一一對應(yīng)的顯示,直觀、方便、快捷16集字校對器橫向校對是逐字逐句的對原始圖像和識別結(jié)果進行校對,這種方法既費時費力,又容易疏忽而漏掉錯誤,僅僅使用該方法能夠把錯誤率降低到千分之一左右。為了解決橫向校對速度慢,效率低這一系

9、列難題,TH-OCR 2009提供了集字校對: 查錯率高,集字校對編輯器把識別結(jié)果相同的文字對應(yīng)的圖像顯示在一起。由于少數(shù)錯誤的字與大量正確的字有差別,可以比較容易地發(fā)現(xiàn)錯字,不易漏掉錯誤。 集字校對編輯器重新組織文字順序,不會使校對人員陷入到識別文字的故事情節(jié)中。 校對效率高,不易疲勞。 把集字校對的結(jié)果與傳統(tǒng)方法校對的結(jié)果進行比較、綜合,就能得到最高的查錯和糾錯效果,得到盡可能低的錯誤率和最好的最終結(jié)果。 17簡潔方便的縱校界面識別結(jié)果與原始圖像塊對照區(qū):第一個方格為識別結(jié)果,其后的方格為原始圖像塊識別結(jié)果列表區(qū):顯示當前校對圖像的識別結(jié)果文字列表原始圖像區(qū)直接輸入的結(jié)果字符,可以跳到該字

10、符18識別結(jié)果經(jīng)修改編輯后,可根據(jù)需要將文檔存為RTF、PDF或直接保存為TXT格式。導(dǎo)出為PDF格式導(dǎo)出為RTF格式導(dǎo)出為TXT格式步驟六:識別結(jié)果輸出19導(dǎo)出為RTF在導(dǎo)出識別結(jié)果為RTF時,可以選擇在結(jié)果文件中保留圖像和還原版面。不輸出圖像,取消精確還原版面輸出圖像,精確還原版面20導(dǎo)出為PDF由于PDF文件是一種跨平臺的通用文件格式,能夠保存任何源文檔的所有字體、格式、顏色和圖形,閱讀方便,具有高效的瀏覽性。廣泛應(yīng)用于各種行業(yè) 。利用PDF的特性,可以將原始圖片不加修改的放入PDF文件中,再將識別結(jié)果的文字以透明字體的形式置于其在原始圖像上的位置。當用戶瀏覽PDF文檔的時候,看到的是原

11、始的圖像,這樣可以避免在瀏覽時,識別錯誤帶來的影響。但是其中的文字是可以被檢索、選中、復(fù)制、再利用的。 TH-OCR 2009可以將文件根據(jù)需要導(dǎo)出為四種類型的PDF格式,并且新增了PDF書簽功能,可以直接將書簽導(dǎo)入到PDF中。純圖像PDF文本PDF雙層PDF21雙層PDF的特點PDF中的文字層用于查詢、檢索、利用,圖像層用于瀏覽,提供給用戶多種應(yīng)用方式。圖像部分壓縮存儲。對黑白圖像采用G4壓縮,對彩色、灰度圖像采用JPEG壓縮。文字部分所占空間極小。整個文件與壓縮過的圖像文件大小相差無幾。識別圖像文本層圖像層雙層PDF22ImageToPDFImageToPDF可以實現(xiàn)圖像文件到PDF文件的自動轉(zhuǎn)換,生成的PDF文件能夠?qū)崿F(xiàn)全文檢索,可以復(fù)制粘貼,也可以對某個指定目錄進行長期監(jiān)視,真正實現(xiàn)無人操作。23ImageToPDF 強大功能支持TIF、BMP、JPG、PDF格式文件的識別可將結(jié)果文件導(dǎo)出為三種不同格式的PDF圖像PDF圖在文上PDF公文PDF直接將圖像文件加入到隊列中,進行識別直接加入需要識別的文件夾,可以識別文件夾內(nèi)所有的圖像自動監(jiān)視需要識別的文件夾更穩(wěn)定、識別效果更好24典型應(yīng)用圖書館中國國家圖書館清華大學(xué)圖書館上海交大圖書館天津

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論