文通THOCR資料數(shù)字化系統(tǒng)課件_第1頁(yè)
文通THOCR資料數(shù)字化系統(tǒng)課件_第2頁(yè)
文通THOCR資料數(shù)字化系統(tǒng)課件_第3頁(yè)
文通THOCR資料數(shù)字化系統(tǒng)課件_第4頁(yè)
文通THOCR資料數(shù)字化系統(tǒng)課件_第5頁(yè)
已閱讀5頁(yè),還剩17頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

文通TH-OCR資料數(shù)字化系統(tǒng)自有產(chǎn)品事業(yè)部編寫(xiě)人:王亞鵬

專業(yè)的檔案、公文、圖書(shū)、剪報(bào)冊(cè)等紙介質(zhì)文檔及電子文檔的數(shù)字化工具。1.系統(tǒng)特點(diǎn):雙層PDF技術(shù)及版式還原技術(shù)處于業(yè)內(nèi)領(lǐng)先水平單字識(shí)別率達(dá)到行業(yè)內(nèi)領(lǐng)先水平題錄信息可以自定義工序可以自定義2.應(yīng)用領(lǐng)域政府部門出版社圖書(shū)館電力行業(yè)報(bào)社一.軟件用途二.軟件簡(jiǎn)介資料數(shù)字化系統(tǒng)管理端ACCESS數(shù)據(jù)庫(kù)(備選SQL數(shù)據(jù)庫(kù))加工端1.總體架構(gòu)2.管理端管理端角色管理用戶管理工作量統(tǒng)計(jì)題錄數(shù)據(jù)設(shè)置2.1管理端簡(jiǎn)介:角色管理角色管理分為:角色創(chuàng)建、修改、刪除、成員管理用戶管理用戶管理:用戶管理包括添加用戶、用戶資料修改、用戶權(quán)限設(shè)置工作量統(tǒng)計(jì)按照工作量、時(shí)間段等進(jìn)行各種統(tǒng)計(jì)及生成報(bào)表題錄數(shù)據(jù)設(shè)置根據(jù)客戶要求進(jìn)行題錄項(xiàng)的設(shè)置3.加工端任務(wù)調(diào)度掃描及圖處版面分析識(shí)別校對(duì)制作多種格式文件題錄制作質(zhì)檢及導(dǎo)出完成制作是否返工否是可以對(duì)檔案、圖書(shū)、公文、報(bào)紙等進(jìn)行自動(dòng)版面分析。將版面分為橫排文本、豎排文本、圖像、表格四種類型。用戶也可以根據(jù)需求,進(jìn)行手動(dòng)版面分析。3.3版面分析豎排文本圖像表格橫排文本識(shí)別核心流程版內(nèi)置文通科技最新研發(fā)的高性能文字識(shí)別引擎,識(shí)別率達(dá)99.8%以上。Unicode編碼采用UNICODE國(guó)際編碼標(biāo)準(zhǔn)。系統(tǒng)可在一個(gè)統(tǒng)一的平臺(tái)下,同時(shí)處理包括中文、日文、韓文、英文在內(nèi)的多種文字的識(shí)別和校對(duì)修改。XML技術(shù)系統(tǒng)基于開(kāi)放式的XML數(shù)據(jù)結(jié)構(gòu),可以對(duì)數(shù)據(jù)進(jìn)行擴(kuò)充和再定義。支持第三方開(kāi)發(fā)廠商方便地進(jìn)行文檔數(shù)據(jù)的轉(zhuǎn)換、遷移和再利用。3.4識(shí)別核心技術(shù)可以進(jìn)行簡(jiǎn)繁日韓英五種語(yǔ)言的文字識(shí)別:簡(jiǎn)體多體繁體多體簡(jiǎn)體全字集繁體全字集手寫(xiě)體純英文日文韓文識(shí)別語(yǔ)言種類橫向校對(duì)在識(shí)別結(jié)果區(qū)域中,通過(guò)人工逐字逐句比較識(shí)別結(jié)果與原始圖像,找到錯(cuò)誤的地方并修改。浮動(dòng)跟蹤條可以提高橫向校對(duì)的速度,它是將識(shí)別的原始圖像塊跟蹤顯示在識(shí)別結(jié)果上,使識(shí)別結(jié)果與原始圖像一一對(duì)應(yīng)的顯示,直觀、方便、快捷3.5校對(duì)查錯(cuò)率高,集字校對(duì)編輯器把識(shí)別結(jié)果相同的文字對(duì)應(yīng)的圖像顯示在一起。由于少數(shù)錯(cuò)誤的字與大量正確的字有差別,可以比較容易地發(fā)現(xiàn)錯(cuò)字,不易漏掉錯(cuò)誤。集字校對(duì)編輯器重新組織文字順序,不會(huì)使校對(duì)人員陷入到識(shí)別文字的故事情節(jié)中。校對(duì)效率高,不易疲勞。把集字校對(duì)的結(jié)果與傳統(tǒng)方法校對(duì)的結(jié)果進(jìn)行比較、綜合,就能得到最高的查錯(cuò)和糾錯(cuò)效果,得到盡可能低的錯(cuò)誤率和最好的最終結(jié)果。集字校對(duì)識(shí)別結(jié)果與原始圖像塊對(duì)照區(qū):第一個(gè)方格為識(shí)別結(jié)果,其后的方格為原始圖像塊識(shí)別結(jié)果列表區(qū):顯示當(dāng)前校對(duì)圖像的識(shí)別結(jié)果文字列表原始圖像區(qū)直接輸入的結(jié)果字符,可以跳到該字符集字校對(duì)識(shí)別結(jié)果經(jīng)修改編輯后,可根據(jù)需要將文檔存為RTF、PDF或直接保存為TXT格式。導(dǎo)出為PDF格式導(dǎo)出為RTF格式導(dǎo)出為TXT格式導(dǎo)出題錄數(shù)據(jù)3.6生成多種格式文件PDF中的文字層用于查詢、檢索、利用,圖像層用于瀏覽,提供給用戶多種應(yīng)用方式。圖像部分壓縮存儲(chǔ)。對(duì)黑白圖像采用G4壓縮,對(duì)彩色、灰度圖像采用JPEG壓縮。文字部分所占空間極小。整個(gè)文件與壓縮過(guò)的圖像文件大小相差無(wú)幾。識(shí)別圖像文本層圖像層雙層PDF雙層PDF特點(diǎn)題錄著錄:根據(jù)題錄項(xiàng)要求錄入題錄數(shù)據(jù)3.7題錄數(shù)據(jù)錄入題錄校驗(yàn)、全文文件檢查、題錄項(xiàng)修改、數(shù)據(jù)導(dǎo)出或上傳3.8質(zhì)檢、導(dǎo)出或上傳三、典型應(yīng)用政府行業(yè):中央辦公廳、組織部、紀(jì)檢委、保密局等圖書(shū)館:清華大學(xué)圖書(shū)館、北京大學(xué)圖書(shū)館等出版社:商務(wù)印書(shū)館、中華書(shū)局等電力行業(yè):國(guó)電信息中心、各省市電力設(shè)計(jì)院、各省市電力科學(xué)院報(bào)杜:大連日?qǐng)?bào)社、深圳特區(qū)報(bào)、南方周末四、銷售策略1、政府行業(yè)客戶:省級(jí)中共辦公廳:機(jī)要局、秘書(shū)局、交通局等中共紀(jì)檢委:各省市的紀(jì)檢辦公室組織部:省委組織部、市委組織部保密局、國(guó)安局等需求:檔案數(shù)字化需求2、圖書(shū)館行業(yè)客戶:高校圖書(shū)館、國(guó)家圖書(shū)館、省圖、市圖、區(qū)

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論