OCR 分析報(bào)告_第1頁
OCR 分析報(bào)告_第2頁
OCR 分析報(bào)告_第3頁
OCR 分析報(bào)告_第4頁
OCR 分析報(bào)告_第5頁
全文預(yù)覽已結(jié)束

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

1、OCR定義OCR(Optical Character Recognition)即光學(xué)字符識(shí)別,是指電子設(shè)備(如掃描儀或數(shù)碼相機(jī))檢查紙上打印的字符,通過檢測(cè)暗、亮的模式確定其形狀,然后用字符識(shí)別方法 將形狀翻譯成計(jì)算機(jī)文字的過程:即對(duì)文本資料進(jìn)行掃描,然后對(duì)圖像文件進(jìn)行分析處理,獲取文字及版面信息的過程。如何除錯(cuò)或利用輔助信息提高識(shí)別正確率, 是OCR最重要的課題,衡量一個(gè)OCR系統(tǒng)性能好壞的主要指標(biāo)有:拒識(shí)率、誤識(shí)率、識(shí)別速度、用戶界面的友好性,產(chǎn)品的穩(wěn)定性,易用性及可行性等。目前項(xiàng)目使用需求項(xiàng)目名稱:吉?jiǎng)P隨訪系統(tǒng);項(xiàng)目甲方:吉?jiǎng)P基因技術(shù)有限公司;。需求目標(biāo):吉?jiǎng)P隨訪系統(tǒng)中規(guī)劃的OCR技術(shù)需

2、求范圍:利用OCR技術(shù)功能模塊,解析用戶所上傳的病歷文檔圖片(包含病歷、醫(yī)囑、檢查、檢驗(yàn)等文書),將圖片轉(zhuǎn)換為計(jì)算機(jī)可識(shí)別的文字語言;根據(jù)轉(zhuǎn)換的結(jié)果進(jìn)行分析、統(tǒng)計(jì)等應(yīng)用;對(duì)所建議開發(fā)的軟件基本要求如下:l 病例圖片文字識(shí)別;l 識(shí)別率90%以上,識(shí)別時(shí)間小于10分鐘;l 輸出病例相關(guān)內(nèi)容,需要按照病例格式輸出,否則無法判斷最終結(jié)果;l 患者上傳相關(guān)病例文檔圖片,上傳之后后臺(tái)識(shí)別反饋結(jié)果給患者或者醫(yī)生。;l 數(shù)據(jù)詞庫自己訓(xùn)練,需要程序自動(dòng)帶有學(xué)習(xí)功能;l 開發(fā)周期兩個(gè)月。現(xiàn)狀目前市面上OCR技術(shù)應(yīng)用于醫(yī)療行業(yè)的APP及軟件如下:漢王OCR(PC端軟件):漢王OCR是一個(gè)帶有 PDF&#

3、160;文件處理功能的 OCR 軟件;具有識(shí)別正確率高,識(shí)別速度快的特點(diǎn)。有批量處理功能,避免了單頁處理的麻煩;支持處理灰度、彩色、黑白三種色彩的BMP、TIF、JPG、PDF多種格式的圖像文件;可識(shí)別簡體、繁體和英文三種語言;具有簡單易用的表格識(shí)別功能;具有TXT、RTF、HTM和XLS多種輸出格式,并有所見即所得的版面還原功能。新增打開與識(shí)別PDF文件功能,支持文字型PDF的直接轉(zhuǎn)換和圖像型PDF的OCR識(shí)別,既可以采用OCR的方式將PDF文件轉(zhuǎn)換為可編輯文檔,也可以采用格式轉(zhuǎn)換的方式直接轉(zhuǎn)換文字型PDF文件為RTF文件或文本文件; 實(shí)際測(cè)試漢王OCR后發(fā)現(xiàn)其受圖片質(zhì)量

4、、圖片格式、圖片灰度、圖片大小等因素影響,實(shí)際對(duì)于病歷文檔的識(shí)別率不到30%,不能滿足項(xiàng)目需求;但其可接受定制化需求,定制化需要額外付費(fèi),初步估計(jì)在10W以上一個(gè)病歷模板,目前病歷的模板種類數(shù)量非常大,項(xiàng)目成本將無法預(yù)估;易道博識(shí)北京易道博識(shí)科技有限公司(簡稱“易道博識(shí)”)成立于2013年,由來自中科院、清華大學(xué)、北京大學(xué)的多名頂尖的模式識(shí)別專家共同組建。創(chuàng)始人朱軍民獲得了國家科技進(jìn)步二等獎(jiǎng)等多項(xiàng)業(yè)界成就。核心技術(shù)包括:3D人臉識(shí)別、銀行表單識(shí)別、增值稅發(fā)票識(shí)別、支票識(shí)別、各類證照識(shí)別、一維碼識(shí)別、二維碼識(shí)別、聯(lián)機(jī)手寫識(shí)別等。實(shí)際測(cè)試該公司OCR產(chǎn)品后發(fā)現(xiàn)其OCR對(duì)于證件識(shí)別率較高,但達(dá)不到9

5、0%。識(shí)別病歷圖片的準(zhǔn)確率達(dá)不到20%。但其可接受定制化需求,定制化需要額外付費(fèi),基礎(chǔ)功能起步價(jià)10W,病歷模板定制10W一個(gè)。項(xiàng)目成本無法預(yù)估。泰比(ABBYY)泰比(ABBYY)是一個(gè)在文檔轉(zhuǎn)換、數(shù)據(jù)捕獲和語言軟件領(lǐng)域領(lǐng)先的供應(yīng)商。泰比(ABBYY)研究和發(fā)展的關(guān)鍵領(lǐng)域包括文檔識(shí)別技術(shù)及應(yīng)用語言學(xué)。泰比(ABBYY)的識(shí)別技術(shù)和產(chǎn)品為人們?cè)絹碓蕉嗟馁Y料信息提供了強(qiáng)有力的工具,使他們能夠:從紙張和圖像上獲得信息,自動(dòng)獲取數(shù)據(jù),處理和存儲(chǔ)有用的信息。利用識(shí)別和數(shù)據(jù)采集產(chǎn)品,人們能夠在數(shù)據(jù)輸入方面節(jié)省大量的金錢和精力,并能以一種更新和更有效的方式來獲取信息和資料。我們的語言產(chǎn)品幫助打破語言障礙,

6、促進(jìn)交流和溝通變得更容易和更清晰。經(jīng)過電話咨詢,該公司主要專注于產(chǎn)品的研發(fā),如有需要定制費(fèi)用相當(dāng)之昂貴,具體價(jià)格沒有提供。捷速OCR捷速OCR文字識(shí)別軟件:是一款可以直接識(shí)別文字,將圖像轉(zhuǎn)化成文字的工具。很多時(shí)候我們需要一款軟件能夠直接把掃描文件上面的文字的變成直接可以編輯的文字,這樣我們工作就方便很多了,可以直接使用掃描儀掃描書籍和相關(guān)的文檔,然后使用捷速掃描文字識(shí)別軟件,就可以編輯這些文字,能夠節(jié)省我們辦公人員很多的時(shí)間,這些軟件特別是對(duì)那些處理文檔的人員和相關(guān)的從事編輯行業(yè)的人員特別適用,可以廣泛的應(yīng)用,并且軟件識(shí)別正確率高,可以批量的轉(zhuǎn)換掃描的文件。實(shí)際測(cè)試該公司OCR對(duì)圖片文字識(shí)別率

7、較高,識(shí)別率50%左右。識(shí)別病歷圖片的準(zhǔn)確率達(dá)不到30%。但其可接受定制化需求,定制化需要額外付費(fèi),基礎(chǔ)功能起步價(jià)3W,病歷模板定制價(jià)格沒有具體給出。項(xiàng)目成本無法預(yù)估。百度云OCR文字識(shí)別企業(yè)版、云識(shí)別、LEADTOOLS等等其它OCR產(chǎn)品價(jià)格都比較昂貴。醫(yī)療行業(yè)OCR類型APP易隨診:病例識(shí)別時(shí)間需要一天左右,識(shí)別率90%左右,后臺(tái)人工識(shí)別校正。拍醫(yī)拍:病例識(shí)別時(shí)間10分鐘左右,識(shí)別率90%左右,各大論壇評(píng)論為后臺(tái)人工識(shí)別校正。醫(yī)庫嘟嘟醫(yī)生可行性調(diào)研重新開發(fā)OCR無相關(guān)開發(fā)經(jīng)驗(yàn)人員,開發(fā)周期一年以上,還需訓(xùn)練詞庫,詞庫量越大識(shí)別率越高,訓(xùn)練周期長。開源OCR無相關(guān)技術(shù)支持,識(shí)別率低,不能滿足病例文檔識(shí)別的要求,安全性低,維護(hù)成本高,二次開發(fā)成本高,開發(fā)周期半年左右。也需要訓(xùn)練詞庫,訓(xùn)練周期長;第三方OCR收費(fèi),成本高,需要定制,定制的模塊多(1份文檔格式即1個(gè)模塊,其量非常大),但有相關(guān)技術(shù)支持。調(diào)研結(jié)論綜上所述,重新開發(fā)OCR,使用開源OCR,購買第三方OCR都有各自的優(yōu)缺點(diǎn),但都不適用于目前吉?jiǎng)P的項(xiàng)目;但就目前市面上產(chǎn)品而言,其他廠商的APP或軟件也使用了其他的方法來規(guī)避該問題來避免識(shí)別率低而造成的使用問題;目前而言,雖然項(xiàng)目合同中和技術(shù)方案中就此塊內(nèi)容沒有明確的要求,從技術(shù)及其他廠商的產(chǎn)品調(diào)研來看,單純的OCR技術(shù)無法達(dá)到實(shí)際使用的要求和積累;備選方案由于

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論