智能文字識別(OCR)能力評測與應(yīng)用白皮書_第1頁
智能文字識別(OCR)能力評測與應(yīng)用白皮書_第2頁
智能文字識別(OCR)能力評測與應(yīng)用白皮書_第3頁
智能文字識別(OCR)能力評測與應(yīng)用白皮書_第4頁
智能文字識別(OCR)能力評測與應(yīng)用白皮書_第5頁
已閱讀5頁,還剩23頁未讀 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

1、CONTENTS目錄序言/ 05-07OCR 發(fā)展背景概述/ 10-131. OCR 的基本概念和作用OCR 概念與內(nèi)涵OCR 是機(jī)器處理圖像文本的基礎(chǔ)2. OCR 持續(xù)向社會生產(chǎn)生活領(lǐng)域滲透人工智能技術(shù)發(fā)展提升 OCR 性能服務(wù)載體多樣化加快 OCR 的普及產(chǎn)業(yè)數(shù)字化進(jìn)一步擴(kuò)大 OCR 應(yīng)用場景3. OCR 在新基建背景下迎來新的機(jī)遇OCR 是新基建提供的重要能力之一新基建加速 OCR 產(chǎn)業(yè)新生態(tài)的構(gòu)建新基建推動 OCR 的新一輪技術(shù)創(chuàng)新OCR 技術(shù)發(fā)展現(xiàn)狀分析/ 14-2014 1. OCR 技術(shù)歷史沿革16 2. OCR 技術(shù)分類概述(1)傳統(tǒng)方法受限于手工設(shè)計特征(2)基于深度學(xué)習(xí)的

2、OCR 包括兩類19 3. OCR 技術(shù)發(fā)展趨勢一體化的端到端 OCR 模型兼具高性能高效率的 OCR從感知到認(rèn)知的智能 OCR智能文字識別能力評測與應(yīng)用白皮書OCR 產(chǎn)業(yè)發(fā)展現(xiàn)狀分析/ 21-251. OCR 產(chǎn)業(yè)情況概述OCR 產(chǎn)業(yè)規(guī)模逐年穩(wěn)步提升OCR 產(chǎn)業(yè)生態(tài)不斷豐富完善OCR 成為科技巨頭能力標(biāo)配2. OCR 應(yīng)用成熟度概述(1)標(biāo)準(zhǔn)場景文字識別相對成熟(2)手寫文字識別應(yīng)用逐步擴(kuò)大(3)復(fù)雜場景文字識別開始探索3. 典型應(yīng)用案例介紹(1)豐巢快遞柜實名驗證(2)順豐快遞單自主識別(3)寧波銀行票據(jù)自動錄入(4)搜狗廣告圖片文本審核OCR 技術(shù)標(biāo)準(zhǔn)化/ 26-3427 1. 評測標(biāo)準(zhǔn)

3、與規(guī)范(1)評測流程概述(2)評測數(shù)據(jù)構(gòu)建(3)主要評價指標(biāo)32 2. 自動化評測平臺(1)標(biāo)注層和樣本層實現(xiàn)測試樣本快速標(biāo)注(2)評測層實現(xiàn) OCR 能力自動測試總結(jié)/ 35OCR發(fā) 展 背 景 概 述OCR 發(fā)展背景概述OCR 的基本概念和作用OCR 概念與內(nèi)涵光學(xué)字符識別(Optical Character Recognition, OCR)是從圖像中識別出文字的技術(shù),利用機(jī)器將圖像中手寫或印刷文本轉(zhuǎn)換為計算機(jī)可以直接處理的格式。 OCR 技術(shù)能夠處理多種不同場景的圖像,包括拍攝或掃描得到的各種卡證、紙質(zhì)文檔圖像,也包括含有文字的自然場景圖像和疊加了字幕文本的視頻圖像等。OCR 是機(jī)器處

4、理圖像文本的基礎(chǔ)OCR 是計算機(jī)視覺領(lǐng)域的重要分支,通過圖像文字的識別實現(xiàn)信息錄入,有三智能文字識別能力評測與應(yīng)用白皮書大核心優(yōu)勢,一是提高效率,相比傳統(tǒng)的人工方式,顯著提升信息錄入效率。二是降低成本,通過機(jī)器代替人工,可大幅降低人力成本的開銷。三是適用性強(qiáng),OCR 技術(shù)能夠?qū)崿F(xiàn)多種場景、多種語言的識別。此外,通過 OCR 提取圖像中的文本,并進(jìn)一步分析這些文字和符號所包含的語義信息,能夠為機(jī)器理解圖像提供高層語義線索。OCR 持續(xù)向社會生產(chǎn)生活領(lǐng)域滲透人工智能技術(shù)發(fā)展提升 OCR 性能伴隨著人工智能領(lǐng)域技術(shù)的創(chuàng)新,作為一個經(jīng)典的模式識別問題,OCR 取得了巨大的突破。當(dāng)前深度學(xué)習(xí)技術(shù)不斷發(fā)展

5、,加速了 OCR 性能提升,為復(fù)雜場景的文字識別應(yīng)用提供先決條件。文字識別應(yīng)用范圍從簡單的印刷體數(shù)字、字母符號識別,逐步演進(jìn)到自然場景下多形態(tài)文本檢測與識別、手寫體文本檢測與識別等復(fù)雜情形。服務(wù)載體多樣化加快 OCR 的普及OCR 應(yīng)用需要基于計算和服務(wù)載體,隨著移動互聯(lián)網(wǎng)日益成熟和產(chǎn)業(yè)互聯(lián)網(wǎng)的加速發(fā)展,OCR 服務(wù)載體呈現(xiàn)出多樣化特征。一方面智能手機(jī)、電腦等電子產(chǎn)品已經(jīng)成為人們生產(chǎn)生活的標(biāo)配,為 OCR 應(yīng)用提供了多樣化終端載體,終端設(shè)備成本降低和性能提升為 OCR 發(fā)展提供利好條件。另一方面 OCR 已經(jīng)嵌入到云平臺中,演變?yōu)榭梢噪S時調(diào)用的云服務(wù),隨著云計算的大規(guī)模普及,大幅降低了使用門檻

6、和成本。產(chǎn)業(yè)數(shù)字化進(jìn)一步擴(kuò)大 OCR 應(yīng)用場景以圖像文字作為信息傳播載體,并使用 OCR 實現(xiàn)圖像和文字的轉(zhuǎn)換,成為流程自動化的前置基礎(chǔ),高效率、低成本的特點極大的加速產(chǎn)業(yè)數(shù)字化進(jìn)程,OCR 已經(jīng)是當(dāng)前產(chǎn)業(yè)數(shù)字化轉(zhuǎn)型不可或缺的支撐能力。產(chǎn)業(yè)數(shù)字化的浪潮進(jìn)一步釋放信息采集、交互需求,OCR 將在越來越多的行業(yè)中大展身手。OCROCR 在新基建背景下迎來新的機(jī)遇發(fā) 展 背 景 概 述OCR 是新基建提供的重要能力之一2018 年中央經(jīng)濟(jì)工作會議首次定義“新基建”,2020 年 4 月國家發(fā)展改革委進(jìn)一步明確“新基建”范圍。人工智能作為新技術(shù)基礎(chǔ)設(shè)施,與 5G、大數(shù)據(jù)等技術(shù)結(jié)合,將帶動諸多行業(yè)快速發(fā)

7、展,為很多領(lǐng)域數(shù)字化智能化轉(zhuǎn)型奠定基礎(chǔ)。OCR 作為人工智能應(yīng)用中商業(yè)推廣較為成熟的領(lǐng)域,正成為人工智能新基建落地應(yīng)用的“頭雁”,已經(jīng)成為人工智能新基建對外提供的重要智能化服務(wù)能力之一。新基建加速 OCR 產(chǎn)業(yè)新生態(tài)的構(gòu)建新基建戰(zhàn)略的實施必然會加速人工智能的快速落地和傳統(tǒng)產(chǎn)業(yè)的轉(zhuǎn)型升級,將從基礎(chǔ)設(shè)施支撐、應(yīng)用生態(tài)等多方面加速 OCR 產(chǎn)業(yè)新生態(tài)的完善。一是新基建將促進(jìn)云計算、大數(shù)據(jù)等新技術(shù)產(chǎn)業(yè)發(fā)展,這也將提升 OCR 產(chǎn)業(yè)在計算能力、數(shù)據(jù)處理等環(huán)節(jié)的基礎(chǔ)支撐能力。二是融合基礎(chǔ)設(shè)施建設(shè)將促進(jìn)傳統(tǒng)基礎(chǔ)設(shè)施智能化改造,而這將為 OCR 的應(yīng)用生態(tài)的發(fā)展提供動力。人工智能融入實體經(jīng)濟(jì)的過程,也將為 O

8、CR 產(chǎn)業(yè)生態(tài)引入豐富的人才、技術(shù)、場景等要素。智能文字識別能力評測與應(yīng)用白皮書新基建推動 OCR 的新一輪技術(shù)創(chuàng)新隨著新型基礎(chǔ)設(shè)施的建設(shè),人工智能和實體經(jīng)濟(jì)融合程度將進(jìn)一步加深,整個社會數(shù)字化、智能化程度不斷提高。以 OCR 為代表的人工智能技術(shù)在某種程度上是人與人、人與機(jī)器、機(jī)器與機(jī)器的溝通入口,將在未來數(shù)字社會中發(fā)揮重要作用。新技術(shù)、新需求催生新的業(yè)態(tài),構(gòu)建新型基礎(chǔ)設(shè)施是進(jìn)一步夯實新業(yè)態(tài)的底座,同時也是催生新一輪技術(shù)創(chuàng)新的基礎(chǔ),這將帶動 OCR 等人工智能技術(shù)的不斷創(chuàng)新。OCR 技術(shù)發(fā)展現(xiàn)狀分析OCR 技術(shù)歷史沿革OCR技 術(shù) 發(fā) 展 現(xiàn) 狀 分 析OCR 技術(shù)憑借著較高的實際應(yīng)用價值,

9、一直以來都是模式識別、人工智能以及計算機(jī)視覺領(lǐng)域的研究熱點。早期的 OCR 技術(shù)可追溯到 1870 年,電報技術(shù)和為盲人設(shè)計的閱讀設(shè)備的出現(xiàn)標(biāo)志著 OCR 技術(shù)的誕生。圖 1. OCR 技術(shù)的發(fā)展智能文字識別能力評測與應(yīng)用白皮書從 2000 年開始,在線服務(wù)成為 OCR 的主要業(yè)務(wù)形態(tài)之一,這一階段 OCR 技術(shù)僅在比較規(guī)整的印刷體文檔識別上性能良好。2014 年以來,隨著深度學(xué)習(xí)技術(shù)在 OCR 領(lǐng)域的應(yīng)用,加上海量訓(xùn)練數(shù)據(jù)的積累,OCR 取得了飛躍性發(fā)展,適用范圍明顯擴(kuò)大。2015 年,OCR 技術(shù)開始從對單個字符的識別轉(zhuǎn)變?yōu)閷φ形谋具M(jìn)行識別,通過更有效的利用文本行的序列信息,識別效果進(jìn)一

10、步提升。2017 年以來,OCR中開始引入自然語言處理技術(shù),增強(qiáng)了對內(nèi)容的“理解”能力,通過語義信息的關(guān)聯(lián),復(fù)雜場景下的文字識別能力得到增強(qiáng)。與此同時,隨著圖像處理等技術(shù)的發(fā)展,能夠?qū)⑴で突兊奈淖謭D像進(jìn)行矯正,也能夠改善 OCR 性能。16OCR 技術(shù)分類概述OCR文本檢測和識別是 OCR 技術(shù)的兩個重要核心技術(shù), OCR 技術(shù)可以分為傳統(tǒng)方法和深度學(xué)習(xí)方法。傳統(tǒng)方法受限于手工設(shè)計特征的表達(dá)能力和處理流程的復(fù)雜性,在復(fù)雜場景下很難達(dá)到理想的文字識別效果,深度學(xué)習(xí)技術(shù)的出現(xiàn)很好地彌補(bǔ)了這一不足。技 術(shù) 發(fā) 展 現(xiàn) 狀 分 析(1)傳統(tǒng)方法受限于手工設(shè)計特征傳統(tǒng)的 OCR 方法通過針對文本檢測

11、和識別分別設(shè)計魯棒的特征,來提高模型的文字識別效果。文本檢測主要用于定位圖片中文本的區(qū)域,傳統(tǒng)的文本檢測方法可以分為基于顯著特征的檢測方法和基于滑動窗口的檢測方法兩大類。文本識別階段,可劃分為文本二值化、文本行分段、字符分割、單字識別、字符矯正等一系列子問題。然而,傳統(tǒng)的文本檢測與識別方法受限于手工設(shè)計特征的表達(dá)能力和處理流程的復(fù)雜性,對于較為復(fù)雜的圖片情況,例如帶有大角度畸變以及模糊不清的文本圖像,很難達(dá)到理想的文字識別效果。智能文字識別能力評測與應(yīng)用白皮書圖 2 OCR 技術(shù)的傳統(tǒng)方法和深度學(xué)習(xí)方法(2)基于深度學(xué)習(xí)的 OCR 包括兩類近年來隨著深度學(xué)習(xí)技術(shù)的飛速發(fā)展,OCR 技術(shù)逐漸由手

12、工設(shè)計文本特征訓(xùn)練模型的方式演變成使用深度神經(jīng)網(wǎng)絡(luò)模型,在文字識別效果上也有了較大的提升。基于深度學(xué)習(xí)的方法可分為獨立兩階段方法以及端到端一段式的文本定識方法。獨立兩階段方法端到端一段式方法OCR獨立兩階段方法技 術(shù) 發(fā) 展 現(xiàn) 狀 分 析獨立兩階段是指對文本檢測和文本識別兩個階段分開建模的方法。文本檢測中不同方法優(yōu)劣點各異,基于回歸的檢測方法能夠很好的解決場景圖像中帶方向文字的檢測,但會受到文本區(qū)域形狀不規(guī)則的干擾;基于分割的方法不受限于文本的大小及形狀,但對距離較近的文本行容易出現(xiàn)文本行粘連而失效;基于分解的方法先定位文本片段或單個字符,再將它們組合成最終的檢測結(jié)果,可以很好地處理任意形狀

13、、方向的文本。文本識別的算法可分為基于 CTC 技術(shù)的方法和基于注意力機(jī)制的網(wǎng)絡(luò)模型兩大類。其中,CTC 技術(shù)可以有效地捕獲輸入序列的上下文依賴關(guān)系,同時能夠很好地解決圖像和文本字符對齊的問題,但在自由度較大的手寫場景下仍會出現(xiàn)識別錯誤。注意力機(jī)制主要應(yīng)用于卷積神經(jīng)網(wǎng)絡(luò)特征權(quán)重的分配上,提高強(qiáng)特征權(quán)重,降低弱特征的權(quán)重,同時在由圖像到文字的解碼過程中又具有天然的語義捕獲能力,因此在圖像特征提取以及語義提取方面都提升了 OCR 模型的性能。端到端一段式方法與獨立兩階段方法不同,端到端的方法是將文字檢測和識別整合到一個網(wǎng)絡(luò)模智能文字識別能力評測與應(yīng)用白皮書型中進(jìn)行訓(xùn)練,避免檢測模型和識別模型之間由

14、于誤差傳播而導(dǎo)致的性能下降。近些年來,許多端到端文本檢測和識別系統(tǒng)(即文本定識系統(tǒng))被提出。一種經(jīng)典的端到端文本定識方法是使用文本建議框生成器和經(jīng)過訓(xùn)練的聚合通道特征檢測器的組合來生成候選文本包圍框,對候選框進(jìn)行過濾和校正后,再進(jìn)行文本內(nèi)容識別,根據(jù)識別結(jié)果和標(biāo)注文字的差異來聯(lián)合調(diào)整網(wǎng)絡(luò)中文本檢測和識別兩部分參數(shù)。另一種字符級的端到端方法 Mask TextSpotter 被提出,該方法基于經(jīng)典的 Mask-RCNN 方法改進(jìn),針對圖像每個可能區(qū)域生成字符響應(yīng)圖,用于表示單個字符的存在和位置信息,模型使用字符響應(yīng)圖作為特征訓(xùn)練模型來識別單字符,最后將預(yù)測的單字符連接在一起后輸出文本預(yù)測結(jié)果。O

15、CR 技術(shù)發(fā)展趨勢近年來,隨著深度學(xué)習(xí)技術(shù)在 OCR 領(lǐng)域的應(yīng)用,機(jī)器識別文字的性能取得了顯著的提升,但距人理解圖像文字的能力依存在一定差距??傮w上來看,OCR 技術(shù)將朝著提升魯棒性、效率和智能的方向發(fā)展。(3)從感知到認(rèn)知的智能 OCROCR 技術(shù)通常從計算機(jī)視覺領(lǐng)域出發(fā),未來與自然語言處理技術(shù)、知識圖譜等更廣領(lǐng)域的交叉融合,通過語義及知識的深度挖掘提升 OCR 性能是重要趨勢。此外,在 OCR 中引入強(qiáng)化學(xué)習(xí)和元學(xué)習(xí)等新的學(xué)習(xí)范式,讓機(jī)器自主學(xué)習(xí)如何識別文字,也將成為研究熱點。(2)兼具高性能高效率的 OCR大量的 OCR 應(yīng)用需要在資源受限的移動端設(shè)備上運行,當(dāng)前移動端 OCR 算法大多

16、以犧牲一定的算法精度來換取運行速度,針對移動設(shè)備設(shè)計兼顧性能和效率的輕量 OCR 模型是未來趨勢。OCR一體化高效率智能 技 術(shù) 發(fā) 展 現(xiàn) 狀 分 析 (1)一體化的端到端 OCR 模型構(gòu)建一體化的端到端網(wǎng)絡(luò),同時對文字檢測和識別進(jìn)行訓(xùn)練,目前已成為了OCR 領(lǐng)域的一種重要技術(shù)趨勢。端到端的網(wǎng)絡(luò)設(shè)計,實現(xiàn)了基礎(chǔ)特征的共享,既能夠減少重復(fù)計算,又能夠提高特征的質(zhì)量,促進(jìn)任務(wù)性能的改善。智能文字識別能力評測與應(yīng)用白皮書OCR 產(chǎn)業(yè)發(fā)展現(xiàn)狀分析OCR 產(chǎn)業(yè)情況概述OCR 產(chǎn)業(yè)規(guī)模逐年穩(wěn)步提升OCR產(chǎn) 業(yè) 發(fā) 展 現(xiàn) 狀 分 析目前,OCR 技術(shù)已經(jīng)在金融、保險、醫(yī)療、交通、教育等諸多行業(yè)有著深入的

17、應(yīng)用,未來隨著傳統(tǒng)行業(yè)的數(shù)字化轉(zhuǎn)型程度進(jìn)一步深入,OCR 應(yīng)用范圍和場景將進(jìn)一步擴(kuò)展,市場規(guī)模將進(jìn)一步增大。根據(jù)美國權(quán)威機(jī)構(gòu) GRAND VIEW RESEARCH發(fā)布的全球 OCR(Optical Character Recognition)市場預(yù)測以及趨勢分析預(yù)測, 2018 年以來全球 OCR 市場將以 13.7% 的復(fù)合年增長率穩(wěn)健發(fā)展,至 2025 年全球 OCR 市場規(guī)模將達(dá)到 133.81 億美元。OCR 產(chǎn)業(yè)生態(tài)不斷豐富完善早期受限于技術(shù)發(fā)展水平,OCR 廠商通常從特定應(yīng)用切入,例如車牌識別系統(tǒng)等,形成了一系列專用設(shè)備。近年來,越來越多的終端設(shè)備及應(yīng)用均嵌入了 OCR 技術(shù),并

18、逐漸形成了從基礎(chǔ)設(shè)施、基礎(chǔ)能力到終端的完整產(chǎn)業(yè)鏈生態(tài),也衍生出了卡證、票據(jù)等一系列細(xì)分 OCR 能力,通過組合的方式服務(wù)于各個行業(yè),如圖 3 所示。OCR產(chǎn) 業(yè) 發(fā) 展 現(xiàn) 狀 分 析圖 3 OCR 產(chǎn)業(yè)生態(tài)示意圖OCR 成為科技巨頭能力標(biāo)配在各行各業(yè)數(shù)字化轉(zhuǎn)型的浪潮中,OCR 技術(shù)逐漸“下沉”為一項基本的能力,為上層不同的業(yè)務(wù)應(yīng)用提供底層技術(shù)支撐。國外以谷歌、微軟等為代表,國內(nèi)以騰訊、阿里、華為、百度等為代表的科技巨頭和云計算廠商,研發(fā)各類在線或離線 OCR 技術(shù)產(chǎn)品,一方面服務(wù)自身內(nèi)部業(yè)務(wù),同時也對外開放 OCR 能力。OCR 應(yīng)用成熟度概述(1)標(biāo)準(zhǔn)場景文字識別相對成熟標(biāo)準(zhǔn)化場景下OCR

19、 應(yīng)用相對成熟,主要包括名片、身份證、護(hù)照、港澳通行證、戶口薄、駕駛證、行駛證、銀行卡等卡證識別,以及增值稅發(fā)票、銀行票據(jù)、營業(yè)執(zhí)照等票據(jù)識別。由于這一類應(yīng)用場景下獲取的圖像較為規(guī)整,且文字內(nèi)容格式化程度高。這些識別技術(shù)在金融、政務(wù)等領(lǐng)域已經(jīng)得到了廣泛應(yīng)用。智能文字識別能力評測與應(yīng)用白皮書(2)手寫文字識別應(yīng)用逐步擴(kuò)大由于不同人手寫文字之間存在廣泛的差異,且相比于印刷體通常存在文字粘連,提升手寫體文字的識別性能依然具有一定挑戰(zhàn)。近年來,手寫體的識別能力逐步提升,在教育、物流等行業(yè)應(yīng)用不斷擴(kuò)大。例如在教育行業(yè),手寫字識別幫助機(jī)器識別學(xué)生作業(yè)等,輔助教師進(jìn)行標(biāo)準(zhǔn)答案比對;在物流行業(yè),手寫字識別能夠

20、幫助實現(xiàn)手寫運單的自動識別。(3)復(fù)雜場景文字識別開始探索目前,雖然特定場景的 OCR 技術(shù)已經(jīng)相對成熟,但是隨著 OCR 應(yīng)用領(lǐng)域的不斷拓寬,像人眼識別能力一樣的通用 OCR 技術(shù)成為業(yè)界研究的重點。具體一方面是追求自適應(yīng)識別不同的圖片以及圖片上的文字,如在銀行、財務(wù)等相關(guān)業(yè)務(wù)場景自動識別各類證照卡票;另一方面追求在不同光照、不同拍攝角度等方面識別的性能,如無人機(jī)器人攝像機(jī)的對拍攝內(nèi)容的自適應(yīng)識別。典型應(yīng)用案例介紹(1)豐巢快遞柜實名驗證目前我國快遞業(yè)務(wù)需要對寄件人進(jìn)行身份查驗并登記,豐巢快遞通過使用騰訊云身份證OCR 技術(shù),身份證字段識別準(zhǔn)確率達(dá) 99%,實現(xiàn)用戶自助進(jìn)行實名驗證,可以有效

21、提高用戶寄件、取件的效率。(2)順豐快遞單自主識別OCR快遞單的文字轉(zhuǎn)寫一直是快遞行業(yè)提升用戶體驗的重要需求。順豐使用手寫體文字識別技術(shù),可以自動識別運單的收寄件人信息,提高效率并降低了人力成本。據(jù)統(tǒng)計,順豐使用 OCR 產(chǎn)品后,實現(xiàn) 3 小時識別 2000 萬張運單的識別的能力,可以節(jié)約相關(guān)人力成本每年約 50%。產(chǎn) 業(yè) 發(fā) 展 現(xiàn) 狀 分 析圖 5 順豐基于 OCR 技術(shù)進(jìn)行快遞單識別(3)寧波銀行票據(jù)自動錄入銀行業(yè)大量金融票據(jù)的分類和錄入一直是簡單重復(fù)卻非常耗費人力成本的工作,提升分類和錄入速度、同時降低人力成本成為使用 OCR 技術(shù)的核心驅(qū)動。寧波銀行使用智能票據(jù) OCR 識別解決方案

22、,支持十余種票據(jù)的自動檢測分類、結(jié)構(gòu)化識別以及信息錄入,并對字跡模糊、印章干擾、打印錯位等問題進(jìn)行了優(yōu)化,將識別的字段準(zhǔn)確率提升至 90% 以上,更好地滿足了銀行業(yè)務(wù)場景的需要。智能文字識別能力評測與應(yīng)用白皮書圖 6 寧波銀行基于 OCR 技術(shù)進(jìn)行金融票據(jù)識別(4)搜狗廣告圖片文本審核目前敏感詞過濾技術(shù)已經(jīng)非常成熟,通過文字進(jìn)行惡意推廣往往會被網(wǎng)站屏蔽。所以很多不法分子開始在圖片、視頻中內(nèi)嵌一些非法信息和廣告。傳統(tǒng)方法是以人工肉眼來審查,在目前數(shù)據(jù)的體量下已經(jīng)基本無法滿足業(yè)務(wù)的需要。通用文字識別服務(wù)幫助客戶自動識別海量的圖片文字內(nèi)容,從而高效地進(jìn)行廣告圖片內(nèi)容審核,降低客戶業(yè)務(wù)的違規(guī)風(fēng)險。OC

23、R 技 術(shù) 標(biāo) 準(zhǔn) 化OCR 技術(shù)標(biāo)準(zhǔn)化OCR 是各個領(lǐng)域數(shù)字化的重要基礎(chǔ)支撐,具有廣闊的應(yīng)用市場。隨著基于深度學(xué)習(xí)的 OCR 技術(shù)成為主流方法,傳統(tǒng) OCR 的功能性能評測方法和工具已經(jīng)逐漸無法滿足目前的評估評測需求。主要原因分為以下幾個方面:從技術(shù)實現(xiàn)層面看,基于計算機(jī)視覺和自然語言理解融合的 OCR 技術(shù),與傳統(tǒng) OCR 技術(shù)實現(xiàn)的本質(zhì)有較大不同,僅評估字準(zhǔn)確率的傳統(tǒng)方法已經(jīng)無法滿足現(xiàn)階段 OCR 的評估需求;從測試工具層面看,大量覆蓋不同場景、不同特點的測試數(shù)據(jù)集為全面測試 OCR 在不同場景下的效率提供了支撐;從應(yīng)用層面看,商業(yè)用戶不僅關(guān)心識別的準(zhǔn)確率,在大負(fù)載下算法和系統(tǒng)的執(zhí)行效率

24、也是客戶關(guān)注的重點;從產(chǎn)業(yè)層面來看,隨著人工智能技術(shù)開源開放程度的提升,使進(jìn)入 OCR 的門檻逐步降低,但這也出現(xiàn)了 OCR 技術(shù)產(chǎn)品魚龍混雜的局面,大大增加了用戶企業(yè)的選擇成本。智能文字識別能力評測與應(yīng)用白皮書所以,如何科學(xué)的評價 OCR 技術(shù)及系統(tǒng)成為當(dāng)下迫切需要解決的問題,構(gòu)建新業(yè)態(tài)下的 OCR 技術(shù)標(biāo)準(zhǔn),對于樹立 OCR 行業(yè)標(biāo)桿,幫助企業(yè)選擇合適的 OCR 產(chǎn)品或服務(wù)、推動 OCR 領(lǐng)域技術(shù)革新具有重要意義。1.評測標(biāo)準(zhǔn)與規(guī)范2020 年 4 月,中國人工智能產(chǎn)業(yè)發(fā)展聯(lián)盟完成了OCR 服務(wù)智能化分級技術(shù)要求和評估方法,規(guī)定了 OCR 服務(wù)在功能、性能、安全等方面的技術(shù)要求以及評估方法

25、。7 月,OCR 服務(wù)要求及評估方法在國際電信聯(lián)盟 ITU-T SG16 組成功立項(Requirements and Evaluation Methods for AI-based Optical Character Recognition Service),標(biāo)志著深度學(xué)習(xí)背景下的 OCR 評測方法已經(jīng)逐漸被國際標(biāo)準(zhǔn)組織所接受。(1)評測流程概述OCR 的標(biāo)準(zhǔn)評測流程主要有以下幾步。第一步是對測試圖片進(jìn)行人工標(biāo)注,標(biāo)注任務(wù)分為標(biāo)簽標(biāo)注和字符標(biāo)注:標(biāo)簽標(biāo)注是指根據(jù)自定義的樣本類型進(jìn)行樣本打標(biāo)簽,便于測試引擎在不同場景下的 OCR 文字識別能力;字符標(biāo)注是指對樣本圖片上的字符進(jìn)行人工標(biāo)注,字符包

26、括了文字和標(biāo)點符號。第二步是將測試圖片輸入到 OCR 引擎中得到引擎的文字識別結(jié)果;第三步是將經(jīng)過格式標(biāo)準(zhǔn)化處理后的標(biāo)注結(jié)果和引擎輸出結(jié)果進(jìn)行評測指標(biāo)計算,分析各個評測指標(biāo),完成對 OCR 引擎能力的評測。技 術(shù) 標(biāo) 準(zhǔn) 化(2)評測數(shù)據(jù)構(gòu)建票據(jù)類樣本數(shù)據(jù):包括增值稅發(fā)票、出租車發(fā)票、火車票、機(jī)票行程單、定額發(fā)票、車輛通行費發(fā)票、機(jī)動車銷售發(fā)票等票據(jù)類圖片;OCR 在OCR 評測過程中,如何構(gòu)建測試數(shù)據(jù)集對于正確評價OCR 系統(tǒng)性能十分重要。實際應(yīng)用過程中,針對不同應(yīng)用場景會調(diào)用不同的 OCR 能力,因此需要準(zhǔn)備不同應(yīng)用場景的測試數(shù)據(jù),主要涵蓋以下幾類??ㄗC類樣本數(shù)據(jù):包括身份證、銀行卡、營業(yè)

27、執(zhí)照、駕駛證、行駛證、護(hù)照、道路運輸證等證件類圖片;通用印刷體類樣本數(shù)據(jù):包括菜單、表格、試卷、行業(yè)文檔、電商廣告等圖片。車牌類樣本數(shù)據(jù):包括警用車、港澳車、教練車、外交機(jī)構(gòu)用車、臨時車牌、雙行車牌等車牌類圖片;此外,為了更全面模擬實際應(yīng)用時出現(xiàn)的干擾情形,測試數(shù)據(jù)盡可能覆蓋不同干擾場景,主要包括:不同拍攝角度:指通過正拍、斜拍和圖像反轉(zhuǎn)等不同角度進(jìn)行拍攝;不同光線:指在亮光(可能會出現(xiàn)反光)、暗光和部分亮光部分暗光的情形下拍攝;智能文字識別能力評測與應(yīng)用白皮書文字不清晰:指存在因污損、遮擋、折痕、印章、背景紋理等造成文字不清楚的樣本;邊框不完整:主要指圖片樣本中物體(證件、票據(jù)、車牌等)邊框

28、沒有完整出現(xiàn)在畫面中;其他特殊情況:主要指卡證類樣本需考慮帶有少數(shù)民族文字、生僻字,同時考慮到證件等用于高安全場景,對復(fù)印、掃描、屏幕翻拍、PS 等樣本進(jìn)行告警;印刷體樣本需考慮不同字號、不同排版方向,以及彎曲的文本。(3)主要評價指標(biāo)主要考慮 OCR 識別效果、OCR 服務(wù)性能、OCR 告警功能三個方面作為主要評價指標(biāo)。1OCR 識別效果指標(biāo)包括字段粒度和字符粒度的識別效果評價指標(biāo)。以字段為單位的統(tǒng)計和分析,適用于卡證類、票據(jù)類等結(jié)構(gòu)化程度較高的 OCR 應(yīng)用評測。以字符(文字和標(biāo)點符號)為單位的統(tǒng)計和分析,適用于通用印刷體、手寫體類非結(jié)構(gòu)化數(shù)據(jù)的 OCR 應(yīng)用評測。具體指標(biāo)包括以下幾個:

29、a 字段召回率,指被完全正確識別字段(測試輸出結(jié)果與字段的所有字符完全匹配)數(shù)量與總字段數(shù)比值。 b 字段準(zhǔn)確率,指被完全正確識別字段(測試輸出結(jié)果與字段的所有字符完全匹配)數(shù)量與測試返回識別結(jié)果的字段數(shù)量比值。 c 字符召回率,指被完全正確識別字符數(shù)量與真實字符總數(shù)的比值,可以反應(yīng)識別錯和漏識別的情況。 d 字符準(zhǔn)確率,指被完全正確識別字符數(shù)量與測試返回的字符數(shù)的比值,可以反應(yīng)識別錯和多識別的情況。 e,可以綜合反映字符識別召回效果和字符識別準(zhǔn)確效果,計算公式如下:OCR 技 術(shù) 標(biāo) 準(zhǔn) 化 f 最小編輯距離,表示測試結(jié)果要與標(biāo)注結(jié)果一致需要修改的字符數(shù),忽略引擎返回行的順序與原圖標(biāo)注的順序

30、,適用于電商廣告、手機(jī)截圖等樣本版式不規(guī)范的 OCR 應(yīng)用評測。 g 全圖編輯距離,表示測試返回結(jié)果要與標(biāo)注結(jié)果一致需要修改的字符數(shù),要求引擎返回的每一行文字順序要和標(biāo)注順序一致,適用于文檔、表格等樣本版式較為規(guī)范的 OCR 應(yīng)用評測。2OCR 服務(wù)性能指標(biāo) a 識出率,表示成功返回識別結(jié)果的概率,識出率越高表示 OCR 服務(wù)被調(diào)用成功的概率越大。計算公式為: b 平均耗時,表示成功調(diào)用引擎的所有請求耗時的平均值(不包括調(diào)用 OCR 服務(wù)失敗的請求),用于衡量引擎的處理速度。計算公式為:智能文字識別能力評測與應(yīng)用白皮書 c TOP99 耗時,指將引擎成功被調(diào)用的所有請求的耗時按升序進(jìn)行排列,排

31、序在第 99% 位的耗時數(shù)據(jù),表示當(dāng)前測試環(huán)境下,99% 的請求耗時都在這個時間范圍內(nèi),用于衡量 OCR 系統(tǒng)處理性能。3OCR 告警功能指標(biāo)告警功能指標(biāo)適用于樣本安全性要求較高的卡證、票據(jù)類場景,用于衡量 OCR服務(wù)對復(fù)印件、掃描件、屏幕翻拍件和 PS 樣本等高風(fēng)險樣本的告警能力。 a 負(fù)樣本正確告警率,指復(fù)印件、掃描件、屏幕翻拍件和 PS 樣本等高風(fēng)險樣本,負(fù)樣本正確告警率用于衡量 OCR 服務(wù)對負(fù)樣本的正確告警概率。計算公式為: b 正樣本誤告警率,指證件或票據(jù)原件圖片,正樣本誤告警率用于衡量 OCR 服務(wù)對正樣本的錯誤告警概率。計算公式為:2.自動化評測平臺OCR 服務(wù)評測需考慮的應(yīng)用場景豐富,且不同場景下還應(yīng)模擬真實情形構(gòu)建完備的測試數(shù)據(jù)集,同時也

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論