文通THOCR資料數(shù)字化系統(tǒng)_第1頁
文通THOCR資料數(shù)字化系統(tǒng)_第2頁
文通THOCR資料數(shù)字化系統(tǒng)_第3頁
文通THOCR資料數(shù)字化系統(tǒng)_第4頁
文通THOCR資料數(shù)字化系統(tǒng)_第5頁
已閱讀5頁,還剩17頁未讀 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權,請進行舉報或認領

文檔簡介

文通TH-OCR資料數(shù)字化系統(tǒng)自有產(chǎn)品事業(yè)部編寫人:王亞鵬

專業(yè)的檔案、公文、圖書、剪報冊等紙介質(zhì)文檔及電子文檔的數(shù)字化工具。1.系統(tǒng)特點:雙層PDF技術及版式還原技術處于業(yè)內(nèi)領先水平單字識別率達到行業(yè)內(nèi)領先水平題錄信息可以自定義工序可以自定義2.應用領域政府部門出版社圖書館電力行業(yè)報社一.軟件用途二.軟件簡介資料數(shù)字化系統(tǒng)管理端ACCESS數(shù)據(jù)庫(備選SQL數(shù)據(jù)庫)加工端1.總體架構(gòu)2.管理端管理端角色管理用戶管理工作量統(tǒng)計題錄數(shù)據(jù)設置2.1管理端簡介:角色管理角色管理分為:角色創(chuàng)建、修改、刪除、成員管理用戶管理用戶管理:用戶管理包括添加用戶、用戶資料修改、用戶權限設置工作量統(tǒng)計按照工作量、時間段等進行各種統(tǒng)計及生成報表題錄數(shù)據(jù)設置根據(jù)客戶要求進行題錄項的設置3.加工端任務調(diào)度掃描及圖處版面分析識別校對制作多種格式文件題錄制作質(zhì)檢及導出完成制作是否返工否是加工工序選擇生成加工工序數(shù)據(jù)流通道3.1任務調(diào)度中心自動傾斜校正二值化去裝訂孔去黑邊去雜點3.2圖像處理可以對檔案、圖書、公文、報紙等進行自動版面分析。將版面分為橫排文本、豎排文本、圖像、表格四種類型。用戶也可以根據(jù)需求,進行手動版面分析。3.3版面分析豎排文本圖像表格橫排文本識別核心流程版內(nèi)置文通科技最新研發(fā)的高性能文字識別引擎,識別率達99.8%以上。Unicode編碼采用UNICODE國際編碼標準。系統(tǒng)可在一個統(tǒng)一的平臺下,同時處理包括中文、日文、韓文、英文在內(nèi)的多種文字的識別和校對修改。XML技術系統(tǒng)基于開放式的XML數(shù)據(jù)結(jié)構(gòu),可以對數(shù)據(jù)進行擴充和再定義。支持第三方開發(fā)廠商方便地進行文檔數(shù)據(jù)的轉(zhuǎn)換、遷移和再利用。3.4識別核心技術可以進行簡繁日韓英五種語言的文字識別:簡體多體繁體多體簡體全字集繁體全字集手寫體純英文日文韓文識別語言種類橫向校對在識別結(jié)果區(qū)域中,通過人工逐字逐句比較識別結(jié)果與原始圖像,找到錯誤的地方并修改。浮動跟蹤條可以提高橫向校對的速度,它是將識別的原始圖像塊跟蹤顯示在識別結(jié)果上,使識別結(jié)果與原始圖像一一對應的顯示,直觀、方便、快捷3.5校對查錯率高,集字校對編輯器把識別結(jié)果相同的文字對應的圖像顯示在一起。由于少數(shù)錯誤的字與大量正確的字有差別,可以比較容易地發(fā)現(xiàn)錯字,不易漏掉錯誤。集字校對編輯器重新組織文字順序,不會使校對人員陷入到識別文字的故事情節(jié)中。校對效率高,不易疲勞。把集字校對的結(jié)果與傳統(tǒng)方法校對的結(jié)果進行比較、綜合,就能得到最高的查錯和糾錯效果,得到盡可能低的錯誤率和最好的最終結(jié)果。集字校對識別結(jié)果與原始圖像塊對照區(qū):第一個方格為識別結(jié)果,其后的方格為原始圖像塊識別結(jié)果列表區(qū):顯示當前校對圖像的識別結(jié)果文字列表原始圖像區(qū)直接輸入的結(jié)果字符,可以跳到該字符集字校對識別結(jié)果經(jīng)修改編輯后,可根據(jù)需要將文檔存為RTF、PDF或直接保存為TXT格式。導出為PDF格式導出為RTF格式導出為TXT格式導出題錄數(shù)據(jù)3.6生成多種格式文件PDF中的文字層用于查詢、檢索、利用,圖像層用于瀏覽,提供給用戶多種應用方式。圖像部分壓縮存儲。對黑白圖像采用G4壓縮,對彩色、灰度圖像采用JPEG壓縮。文字部分所占空間極小。整個文件與壓縮過的圖像文件大小相差無幾。識別圖像文本層圖像層雙層PDF雙層PDF特點題錄著錄:根據(jù)題錄項要求錄入題錄數(shù)據(jù)3.7題錄數(shù)據(jù)錄入題錄校驗、全文文件檢查、題錄項修改、數(shù)據(jù)導出或上傳3.8質(zhì)檢、導出或上傳三、典型應用政府行業(yè):中央辦公廳、組織部、紀檢委、保密局等圖書館:清華大學圖書館、北京大學圖書館等出版社:商務印書館、中華書局等電力行業(yè):國電信息中心、各省市電力設計院、各省市電力科學院報杜:大連日報社、深圳特區(qū)報、南方周末四、銷售策略1、政府行業(yè)客戶:省級中共辦公廳:機要局、秘書局、交通局等中共紀檢委:各省市的紀檢辦公室組織部:省委組織部、市委組織部保密局、國安局等需求:檔案數(shù)字化需求2、圖書館行業(yè)客戶:高校圖書館、國家圖書館、省圖、

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論