版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)
文檔簡介
粘連字符的分割有很多種方法:第一種方法:利用閾值法提取聯(lián)通區(qū)域,再利用形態(tài)學分離字符;第二種方法:每個字符定義一個感興趣區(qū)域;第三種方法:
計算區(qū)域每列像素數(shù)目,由于不同字符之間連接部分非常狹窄,求取每列像素的全局最小值;......其中第一種方法最為常見,也是本文介紹的方法。粘連字符分割識別本次采用halcon自帶的分類器文件;一般用于識別數(shù)字和字符,以及少數(shù)特殊字符;字符庫的使用望文生義即可;Document文檔字符、DotPrint點陣字符、Industrial工業(yè)字符等;可以嘗試切換不同的字符庫進行識別;還可自行訓練字符庫。待識別原圖圖中數(shù)字倆倆連在一起根據(jù)直方圖閾值法閾值分割結(jié)果填充孔洞后利用矩形元素在垂直方向開運算此步驟為關(guān)鍵一步此時已分離單個字符利用halcon自帶字符庫最終識別結(jié)果核心程序*(1)字符分割*關(guān)閉更新dev_update_window('off')*讀取圖像read_image(Bottle,'bottle2.png')*獲得圖像大小get_image_size(Bottle,Width,Height)*關(guān)閉窗口dev_close_window()*打開一個圖像大小兩倍的窗口dev_open_window(0,0,2*Width,2*Height,'black',WindowHandle)set_display_font(WindowHandle,20,'mono','true','false')dev_display(Bottle)disp_continue_message(WindowHandle,'black','true')*全局閾值處理,獲得區(qū)域threshold(Bottle,RawSegmentation,0,95)*根據(jù)形狀特征填充孔洞fill_up_shape(RawSegmentation,RemovedNoise,'area',1,5)*利用圓形結(jié)構(gòu)元素執(zhí)行開運算opening_circle(RemovedNoise,ThickStructures,2.5)dev_display(Bottle)*填充孔洞fill_up(ThickStructures,Solid)*利用矩形結(jié)構(gòu)元素執(zhí)行開運算。矩形寬設(shè)為1,高為7,相當于低于7的連接被截斷opening_rectangle1(Solid,Cut,1,7)*計算連通區(qū)域connection(Cut,ConnectedPatterns)*計算區(qū)域交集intersection(ConnectedPatterns,ThickStructures,NumberCandidates)*根據(jù)區(qū)域面積進行選擇select_shape(NumberCandidates,Numbers,'area','and',300,9999)*區(qū)域排序sort_region(Numbers,FinalNumbers,'first_point','true','column')*(2)讀取數(shù)字*讀取OCR分類器(多層感知器)read_ocr_class_mlp('Industrial_0-9A-Z_NoRej.omc',OCRHandle)*使用分類器進行字符分類do_ocr_multi_class_mlp(FinalNumbers,Bottle,OCRHandle,RecNum,Confidence)*求取字符區(qū)域中心坐標及面積area_center(FinalNumbers,Area,Row,Column)set_display_font(WindowHandle,27,'mono','true','false')*循環(huán)顯示讀取得到的數(shù)字fori:=0to|RecNum|-1by1*顯示結(jié)果disp_message(WindowHandle,RecNum[i],'image',80,Column[i]-3,'green','false')endfor*清除分類器clear_ocr_class_mlp(OCRHandle)dev_update_window('off')發(fā)展簡史OCR的概念是在1929年由德國科學家Tausheck最先提出來的,后來美國科學家Handel也提出了利用技術(shù)對文字進行識別的想法。而最早對印刷體漢字識別進行研究的是IBM公司的Casey和Nagy,1966年他們發(fā)表了第一篇關(guān)于漢字識別的文章,采用了模板匹配法識別了1000個印刷體漢字。早在60、70年代,世界各國就開始有OCR的研究,而研究的初期,多以文字的識別方法研究為主,且識別的文字僅為0至9的數(shù)字。以同樣擁有方塊文字的日本為例,1960年左右開始研究OCR的基本識別理論,初期以數(shù)字為對象,直至1965至1970年之間開始有一些簡單的產(chǎn)品,如印刷文字的郵政編碼識別系統(tǒng),識別郵件上的郵政編碼,幫助郵局作區(qū)域分信的作業(yè);也因此至今郵政編碼一直是各國所倡導的地址書寫方式。20世紀70年代初,日本的學者開始研究漢字識別,并做了大量的工作。中國在OCR技術(shù)方面的研究工作起步較晚,在70年代才開始對數(shù)字、英文字母及符號的識別進行研究,70年代末開始進行漢字識別的研究,到1986年,我國提出“863”高新科技研究計劃,漢字識別的研究進入一個實質(zhì)性的階段,清華大學的丁曉青教授和中科院分別開發(fā)研究,相繼推出了中文OCR產(chǎn)品,現(xiàn)為中國最領(lǐng)先漢字OCR技術(shù)。早期的OCR軟件,由于識別率及產(chǎn)品化等多方面的因素,未能達到實際要求。同時,由于硬件設(shè)備成本高,運行速度慢,也沒有達到實用的程度。只有個別部門,如信息部門、新聞出版單位等使用OCR軟件。進入20世紀90年代以后,隨著平臺式掃描儀的廣泛應(yīng)用,以及我國信息自動化和辦公自動化的普及,大大推動了OCR技術(shù)的進一步發(fā)展,使OCR的識別正確率、識別速度滿足了廣大用戶的要求。軟件結(jié)構(gòu)編輯由于掃描儀的普及與廣泛應(yīng)用,OCR軟件只需提供與掃描儀的接口,利用掃描儀驅(qū)動軟件即可。因此,OCR軟件主要是由下面幾個部分組成。圖像輸入、預(yù)處理:圖像輸入:對于不同的圖像格式,有著不同的存儲格式,不同的壓縮方式,目前有OpenCV,CxImage等開源項目。預(yù)處理:主要包括二值化,噪聲去除,傾斜較正等。二值化:對攝像頭拍攝的圖片,大多數(shù)是彩色圖像,彩色圖像所含信息量巨大,對于圖片的內(nèi)容,我們可以簡單的分為前景與背景,為了讓計算機更快的,更好的識別文字,我們需要先對彩色圖進行處理,使圖片只前景信息與背景信息,可以簡單的定義前景信息為黑色,背景信息為白色,這就是二值化圖了。噪聲去除:對于不同的文檔,我們對噪聲的定義可以不同,根據(jù)噪聲的特征進行去噪,就叫做噪聲去除。傾斜較正:由于一般用戶,在拍照文檔時,都比較隨意,因此拍照出來的圖片不可避免的產(chǎn)生傾斜,這就需要文字識別軟件進行較正。版面分析:將文檔圖片分段落,分行的過程就叫做版面分析,由于實際文檔的多樣性,復(fù)雜性,因此,目前還沒有一個固定的,最優(yōu)的切割模型。字符切割:由于拍照條件的限制,經(jīng)常造成字符粘連,斷筆,因此極大限制了識別系統(tǒng)的性能,這就需要文字識別軟件有字符切割功能。字符識別:這一研究,已經(jīng)是很早的事情了,比較早有模板匹配,后來以特征提取為主,由于文字的位移,筆畫的粗細,斷筆,粘連,旋轉(zhuǎn)等因素的影響,極大影響特征的提取的難度。版面恢復(fù):人們希望識別后的文字,仍然像原文檔圖片那樣排列著,段落不變,位置不變,順序不變,的輸出到word文檔,pdf文檔等,這一過程就叫做版面恢復(fù)。后處理、校對:根據(jù)特定的語言上下文的關(guān)系,對識別結(jié)果進行較正,就是后處理。工作流程編輯一個OCR識別系統(tǒng),其目的很簡單,只是要把影像作一個轉(zhuǎn)換,使影像內(nèi)的圖形繼續(xù)保存、有表格則表格內(nèi)資料及影像內(nèi)的文字,一律變成計算機文字,使能達到影像資料的儲存量減少、識別出的文字可再使用及分析,當然也可節(jié)省因鍵盤輸入的人力與時間。從影像到結(jié)果輸出,須經(jīng)過影像輸入、影像前處理、文字特征抽取、比對識別、最后經(jīng)人工校正將認錯的文字更正,將結(jié)果輸出。影像輸入欲經(jīng)過OCR處理的標的物須透過光學儀器,如影像掃描儀、傳真機或任何攝影器材,將影像轉(zhuǎn)入計算機。科技的進步,掃描儀等的輸入裝置已制作的愈來愈精致,輕薄短小、品質(zhì)也高,對OCR有相當大的幫助,掃描儀的分辨率使影像更清晰、掃除速度更增進OCR處理的效率。影像預(yù)處理:影像預(yù)處理是OCR系統(tǒng)中,須解決問題最多的一個模塊。影像須先將圖片、表格及文字區(qū)域分離出來,甚至可將文章的編排方向、文章的提綱及內(nèi)容主體區(qū)分開,而文字的大小及文字的字體亦可如原始文件一樣的判斷出來。對待識別圖像進行如下預(yù)處理,可以降低特征提取算法的難度,并能提高識別的精度。二值化:由于彩色圖像所含信息量過于巨大,在對圖像中印刷體字符進行識別處理前,需要對圖像進行二值化處理,使圖像只包含黑色的前景信息和白色的背景信息,提升識別處理的效率和精確度。圖像降噪:由于待識別圖像的品質(zhì)受限于輸入設(shè)備、環(huán)境、以及文檔的印刷質(zhì)量,在對圖像中印刷體字符進行識別處理前,需要根據(jù)噪聲的特征對待識別圖像進行去噪處理,提升識別處理的精確度。傾斜校正:由于掃描和拍攝過程涉及人工操作,輸入計算機的待識別圖像或多或少都會存在一些傾斜,在對圖像中印刷體字符進行識別處理前,就需要進行圖像方向檢測,并校正圖像方向。文字特征抽?。簡我宰R別率而言,特征抽取可說是OCR的核心,用什么特征、怎么抽取,直接影響識別的好壞,也所以在OCR研究初期,特征抽取的研究報告特別的多。而特征可說是識別的籌碼,簡易的區(qū)分可分為兩類:一為統(tǒng)計的特征,如文字區(qū)域內(nèi)的黑/白點數(shù)比,當文字區(qū)分成好幾個區(qū)域時,這一個個區(qū)域黑/白點數(shù)比之聯(lián)合,就成了空間的一個數(shù)值向量,在比對時,基本的數(shù)學理論就足以應(yīng)付了。而另一類特征為結(jié)構(gòu)的特征,如文字影像細線化后,取得字的筆劃端點、交叉點之數(shù)量及位置,或以筆劃段為特征,配合特殊的比對方法,進行比對,市面上的線上手寫輸入軟件的識別方法多以此種結(jié)構(gòu)的方法為主。對比數(shù)據(jù)庫:當輸入文字算完特征后,不管是用統(tǒng)計或結(jié)構(gòu)的特征,都須有一比對數(shù)據(jù)庫或特征數(shù)據(jù)庫來進行比對,數(shù)據(jù)庫的內(nèi)容應(yīng)包含所有欲識別的字集文字,根據(jù)與輸入文字一樣的特征抽取方法所得的特征群組。對比識別這是可充分發(fā)揮數(shù)學運算理論的一個模塊,根據(jù)不同的特征特性,選用不同的數(shù)學距離函數(shù),較有名的比對方法有,歐式空間的比對方法、松弛比對法(Relaxation)、動態(tài)程序比對法(DynamicProgramming,DP),以及類神經(jīng)網(wǎng)絡(luò)的數(shù)據(jù)庫建立及比對、HMM(HiddenMarkovModel)…等著名的方法,為了使識別的結(jié)果更穩(wěn)定,也有所謂的專家系統(tǒng)(ExpertsSystem)被提出,利用各種特征比對方法的相異互補性,使識別出的結(jié)果,其信心度特別的高。字詞后處理:由于OCR的識別率并無法達到百分之百,或想加強比對的正確性及信心值,一些除錯或甚至幫忙更正的功能,也成為OCR系統(tǒng)中必要的一個模塊。字詞后處理就是一例,利用比對后的識別文字與其可能的相似候選字群中,根據(jù)前后的識別文字找出最合乎邏輯的詞,做更正的功能。字詞數(shù)據(jù)庫:為字詞后處理所建立的詞庫。人工校正OCR最后的關(guān)卡,在此之前,使用者可能只是拿支鼠標,跟著軟件設(shè)計的節(jié)奏操作或僅是觀看,而在此有可能須特別花使用者的精神及時間,去更正甚至找尋可能是OCR出錯的地方。一個好的OCR軟件,除了有一個穩(wěn)定的影像處理及識別核心,以降低錯誤率外,人工校正的操作流程及其功能,亦影響OCR的處理效率,因此,文字影像與識別文字的對照,及其屏幕信息擺放的位置、還有每一識別文字的候選字功能、拒認字的功能、及字詞后處
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 二零二五版交通設(shè)施地形圖保密及規(guī)劃合同3篇
- 二零二五版建筑工程施工圖紙審查招標投標合同書3篇
- 二零二五年度花展工程花卉品種研發(fā)與專利申請合同3篇
- 二零二五年度綠色建筑項目采購合同3篇
- 二零二五版XX個人商業(yè)秘密保護合同樣本3篇
- 二零二五年度私人墓地購置與墓園墓碑雕刻人才培養(yǎng)合同3篇
- 二零二五年度金融機構(gòu)貸款擔保與信用管理合同3篇
- 二零二五版家庭水電維修與改造兼職合同3篇
- 二零二五版廢舊電線電纜回收與資源化利用合同3篇
- 二零二五年度食品行業(yè)環(huán)境保護設(shè)施租賃合同2篇
- DISC性格與能力測試題及答案解析
- 年產(chǎn)12萬噸裝配式智能鋼結(jié)構(gòu)項目可行性研究報告模板-立項備案
- TB 10106-2023鐵路工程地基處理技術(shù)規(guī)程
- 三年級下冊綜合實踐活動教學設(shè)計- 嶺南水果|粵教版 52張
- 滬教版數(shù)學六年級(上)第二章分數(shù)課課練和單元練習卷及參考答案
- 承包意向書2024年
- 小學心理健康教師資格考試面試2024年下半年試題與參考答案
- (正式版)QC∕T 1206.2-2024 電動汽車動力蓄電池熱管理系統(tǒng) 第2部分:液冷系統(tǒng)
- (正式版)CB∕T 4550-2024 船舶行業(yè)企業(yè)安全設(shè)備設(shè)施管理規(guī)定
- 完整版肺癌護理查房課件
- 正規(guī)光伏屋頂租賃合同
評論
0/150
提交評論