【字符分割與圖像處理識(shí)別系統(tǒng)的設(shè)計(jì)及探析9200字(論文)】_第1頁(yè)
【字符分割與圖像處理識(shí)別系統(tǒng)的設(shè)計(jì)及探析9200字(論文)】_第2頁(yè)
【字符分割與圖像處理識(shí)別系統(tǒng)的設(shè)計(jì)及探析9200字(論文)】_第3頁(yè)
【字符分割與圖像處理識(shí)別系統(tǒng)的設(shè)計(jì)及探析9200字(論文)】_第4頁(yè)
【字符分割與圖像處理識(shí)別系統(tǒng)的設(shè)計(jì)及探析9200字(論文)】_第5頁(yè)
已閱讀5頁(yè),還剩9頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

引言 11.1研究的目的及意義 11.2字符識(shí)別研究現(xiàn)狀 12圖像預(yù)處理 12.1圖像處理發(fā)展概況 12.2圖像灰度化 22.3圖像增強(qiáng) 22.4圖像二值化 22.5梯度銳化 32.6去除離散的雜點(diǎn)噪聲 32.7圖像的傾斜校正 32.8歸一化處理 33字符分割 33.1投影法分割字符 33.2連通域法分割字符 44圖像處理識(shí)別系統(tǒng)的設(shè)計(jì)及分析 54.1總體設(shè)計(jì) 54.2硬件設(shè)計(jì) 54.3軟件設(shè)計(jì) 54.4視頻讀取與轉(zhuǎn)碼模塊 64.5預(yù)處理模塊 64.6圖像特征提取模塊 74.7字符識(shí)別模塊 84.8樣本字符識(shí)別的過(guò)程 95字符識(shí)別識(shí)別過(guò)程 105.1統(tǒng)計(jì)特征字符識(shí)別技術(shù) 115.2結(jié)構(gòu)特征字符識(shí)別技術(shù) 115.3基于神經(jīng)網(wǎng)絡(luò)的字符識(shí)別技術(shù) 12結(jié)論 13參考文獻(xiàn) 141引言1.1研究的目的及意義人類(lèi)社會(huì)己開(kāi)始進(jìn)入信息時(shí)代,信息產(chǎn)業(yè)的發(fā)展將對(duì)國(guó)家的發(fā)達(dá)和民族的興旺產(chǎn)生重大的影響。因此,世界各國(guó)對(duì)信息產(chǎn)業(yè)的發(fā)展都給予了極大的關(guān)注和重視。人類(lèi)社會(huì)的不斷進(jìn)步帶來(lái)了信息空間的增長(zhǎng)和積累,而計(jì)算機(jī)的出現(xiàn)為現(xiàn)代化信息處理提供了有效的手段。但是,在信息技術(shù)高速發(fā)展的同時(shí),一個(gè)難題也擺在我們面前,那就是計(jì)算機(jī)數(shù)據(jù)處理和網(wǎng)絡(luò)傳輸?shù)母咚俣扰c數(shù)據(jù)輸入的低速度之間的矛盾。目前,人類(lèi)的許多信息是記錄在紙上的文字圖像,將這些信息輸入計(jì)算機(jī)是非常繁瑣而低效率的工作,這在一定的程度上減緩了社會(huì)信息化的進(jìn)程。因而,作為信息化基礎(chǔ)的數(shù)據(jù)輸入成了計(jì)算機(jī)應(yīng)用中的瓶頸問(wèn)題。人們接受信息最頻繁的是視覺(jué)通道.在日常學(xué)習(xí)和生活中,所處理的信息有75%-85%是視覺(jué)信息,其中文字信息愈來(lái)愈占重要地位.比如對(duì)各種期刊文獻(xiàn)的閱讀、查找、翻譯:對(duì)各種統(tǒng)計(jì)報(bào)表的匯總、計(jì)算、分析;對(duì)各種函件票證的分揀、傳送、驗(yàn)核等。要實(shí)現(xiàn)對(duì)這些文字信息處理過(guò)程的機(jī)械化、自動(dòng)化,其先決條件就是利用計(jì)算機(jī)對(duì)這些文字信息進(jìn)行識(shí)別。1.2字符識(shí)別研究現(xiàn)狀最早的文字識(shí)別始于50年代初期的歐美,1955年出現(xiàn)了印刷體數(shù)字OCR產(chǎn)品,此后轉(zhuǎn)向手寫(xiě)體英文和數(shù)字的識(shí)別。對(duì)漢字識(shí)別研究最早的是美國(guó)IBM公司的Casey和Nagy。1966年他們發(fā)表了第一篇關(guān)于漢字識(shí)別的文章,用模板匹配法識(shí)別1000個(gè)印刷體漢字,從此在世界范圍內(nèi)拉開(kāi)了漢字識(shí)別研究的序幕.而手寫(xiě)體漢字識(shí)別的研究最早始于70年代中期的日本。我國(guó)則在80年代初期開(kāi)始進(jìn)行手寫(xiě)體漢字識(shí)別的研究。目前進(jìn)行手寫(xiě)體漢字識(shí)別研究的國(guó)家和地區(qū)主要集中在中國(guó)、日本、中國(guó)臺(tái)灣、美國(guó)和加拿大,實(shí)際應(yīng)用水平最高的首推日本。2圖像預(yù)處理2.1圖像處理發(fā)展概況數(shù)字圖像處理(DigitalImageProcessing)又稱(chēng)為計(jì)算機(jī)圖像處理,它是指將圖像信號(hào)轉(zhuǎn)換成數(shù)字信號(hào)并利用計(jì)算機(jī)對(duì)其進(jìn)行處理的過(guò)程。數(shù)字圖像處理最早出現(xiàn)于20世紀(jì)50年代,當(dāng)時(shí)的電子計(jì)算機(jī)已經(jīng)發(fā)展到一定水平,人們開(kāi)始利用計(jì)算機(jī)來(lái)處理圖形和圖像信息。數(shù)字圖像處理作為一門(mén)學(xué)科大約形成于20世紀(jì)60年代初期。早期的圖像處理的目的是改善圖像的質(zhì)量,它以人為對(duì)象,以改善人的視覺(jué)效果為目的。圖像處理中,輸入的是質(zhì)量低的圖像,輸出的是改善質(zhì)量后的圖像,常用的圖像處理方法有圖像增強(qiáng)、復(fù)原、編碼、壓縮等。2.2圖像灰度化圖像樣本目前大都是通過(guò)攝像頭等設(shè)備捕獲的,因而未處理的圖像都是彩色圖像。彩色圖像包含著大量的顏色信息,不但在存儲(chǔ)上開(kāi)銷(xiāo)很大,而且在處理上也會(huì)降低系統(tǒng)的執(zhí)行速度,因此在對(duì)圖像進(jìn)行識(shí)別等處理中經(jīng)常講彩色圖像轉(zhuǎn)變?yōu)榛叶葓D像,以加快處理速度。由彩色轉(zhuǎn)換為灰度的過(guò)程叫灰度化處理?;叶葓D像就是只有強(qiáng)度信息而沒(méi)有顏色信息的圖像,存儲(chǔ)灰度圖像只需要一個(gè)數(shù)據(jù)矩陣,矩陣每個(gè)元素表示對(duì)應(yīng)位置像素的灰度值。2.3圖像增強(qiáng)圖像增強(qiáng)用于調(diào)整圖像的對(duì)比度,突出圖像中的重要細(xì)節(jié),改善視覺(jué)質(zhì)量。采用圖像灰度拉伸的方法可有效地增強(qiáng)圖像對(duì)比度,增強(qiáng)后的圖像中字符清晰、區(qū)域分明,便于圖像二值化和字符分割處理。對(duì)比度增強(qiáng)是一種比較簡(jiǎn)明但又十分重要的空域法圖像增強(qiáng)。這種處理只是逐點(diǎn)修改輸入圖像每一個(gè)像素的灰度,圖像各像素的位置并不改變,是一種輸入與輸出像素間一對(duì)一的運(yùn)算。對(duì)比度增強(qiáng)又叫點(diǎn)運(yùn)算。對(duì)比度增強(qiáng)一般用來(lái)擴(kuò)大圖像的灰度范圍。2.4圖像二值化二值圖像是指整幅圖像畫(huà)面內(nèi)盡黑、白二值的圖像。在數(shù)字圖像處理中,二值圖像占有著非常重要的地位。在實(shí)際的圖像處理系統(tǒng)中,進(jìn)行圖像二值變換的關(guān)鍵是要確定合適的閾值,使得字符與背景能夠分割開(kāi)來(lái),二值變換的結(jié)果圖像必須要具備良好的保形性,不丟掉有用的形狀信息,不會(huì)產(chǎn)生額外的空缺等等。字符識(shí)別系統(tǒng)要求處理的速度高、成本低、信息量大,采用二值圖像進(jìn)行處理,能大大地提高處理效率。二值化的閾值選取有很多方法,主要分為三類(lèi):全局閾值法、局部閾值法和動(dòng)態(tài)閾值法。2.5梯度銳化由于需要處理的圖像由拍攝而來(lái),所以在很多情況下字符模糊,對(duì)識(shí)別造成了一定的困難,所以要對(duì)圖像進(jìn)行銳化處理時(shí)模糊的圖像變得清晰,圖像銳化的實(shí)質(zhì)就是增強(qiáng)圖像的邊緣或輪廓,其銳化后的結(jié)果通過(guò)微分而使圖像邊緣突出、清晰。圖像銳化的方法有兩種:微分法和高通濾波法。2.6去除離散的雜點(diǎn)噪聲圖像可能在掃描或者傳輸過(guò)程中夾帶了噪聲,去噪聲是圖像處理中常用的手法。通常去噪聲用濾波的方法,比如中值濾波、均值濾波。但是那樣的算法不合適用在處理字符這樣目標(biāo)較長(zhǎng)的圖像中,因?yàn)樵跒V波的過(guò)程中很有可能會(huì)去掉字符本身的像素2.7圖像的傾斜校正因?yàn)樽x進(jìn)來(lái)的圖像可能存在傾斜,所以必須對(duì)它進(jìn)行調(diào)整,使得字符都處于同一水平位置,那樣既有利于字符的分割也可以提高字符識(shí)別的準(zhǔn)確率。調(diào)整的算法主要是根據(jù)圖像上左右兩邊的黑色像素的平均高度來(lái)的。一般來(lái)說(shuō),眾多的字符組成的圖像它的左右兩邊的字符像素的高度應(yīng)該是處于水平位置附近的,如果兩邊字符像素的平均位置有比較大的起落,那就說(shuō)明圖像存在傾斜,需要進(jìn)行調(diào)整。2.8歸一化處理因?yàn)閽呙柽M(jìn)來(lái)的圖像中字符大小存在較大的差異,而相對(duì)來(lái)說(shuō),統(tǒng)一尺寸的字符識(shí)別的標(biāo)準(zhǔn)性更強(qiáng),準(zhǔn)確率自然也更高,標(biāo)準(zhǔn)化圖像就是要把原來(lái)各不相同的字符統(tǒng)一到統(tǒng)一尺寸,在系統(tǒng)實(shí)現(xiàn)中是統(tǒng)一到同一高度,然后根據(jù)高度來(lái)調(diào)整字符的寬度。3字符分割3.1投影法分割字符傳統(tǒng)的字符分割方法是使用投影法來(lái)進(jìn)行分割。字符圖像二值化后,以像素點(diǎn)為單位逐列掃描圖像,累加該列值為1的像素點(diǎn),累積的結(jié)果即為該列的垂直投影。對(duì)圖像的所有列掃描完畢后即得到整幅圖像的垂直投影。在垂直投影直方圖中由于字符的分界處灰度為1的像素點(diǎn)很少,故投影后該處表現(xiàn)為很低的波谷,將統(tǒng)計(jì)值等于零的列最為字符分割的界限。但簡(jiǎn)單的垂直投影法也存在很大的缺陷,由于字符中經(jīng)常存在空洞,導(dǎo)致字符的垂直投影有多處波谷,在進(jìn)行分割時(shí)難以依據(jù)波谷來(lái)確定字符的分界點(diǎn)。而且當(dāng)獲取的圖像質(zhì)量不高時(shí)二值化后字符會(huì)粘連在一起,這時(shí)垂直投影基本上不會(huì)出現(xiàn)十分明顯的波谷。對(duì)傳統(tǒng)投影法的一種改進(jìn)是使用上下邊緣投影。上下邊緣投影是指字符上邊緣與下邊緣間的距離,其中“字符上邊緣”指以像素為單位沿圖像某列自上而下搜索直到遇到字符區(qū)域的第一個(gè)點(diǎn),“字符下邊緣”指以像素為單位沿圖像某列自下而上搜索直到遇到字符區(qū)域的第一個(gè)點(diǎn),則上下邊緣投影即為字符上邊緣與字符下邊緣兩者之差。3.2連通域法分割字符字符連通域發(fā)既從一定程度上避免了預(yù)處理效果不好帶來(lái)的影響,又可以從根本上解決傾斜字符分割的問(wèn)題。對(duì)字符進(jìn)行研究發(fā)現(xiàn),其根本的特征在于其連通性,無(wú)論字符如何傾斜或者變形,連通域這個(gè)根本特征是不會(huì)改變的。如果把書(shū)寫(xiě)的筆畫(huà)作為連通域看待,那么數(shù)字和英文字母都是由一個(gè)連通域構(gòu)成,而漢字則是由多個(gè)連通域構(gòu)成,這多個(gè)連通域又由于漢字本身的結(jié)構(gòu)特征相距很近。依據(jù)字符的這一特點(diǎn),我們認(rèn)為連通域方法可以實(shí)現(xiàn)對(duì)字符的精確分割。對(duì)連通域的定義涉及到像素的連通,文中我們采用的是八連通定義。經(jīng)典的連通域方法是連通域生長(zhǎng)法,使用的是遞歸算法。首先掃面圖像,找到?jīng)]有標(biāo)記的像素點(diǎn),進(jìn)行標(biāo)記。其次遞歸標(biāo)記該點(diǎn)的臨點(diǎn),如果不存在未標(biāo)記的點(diǎn)則停止并循環(huán)往復(fù)。這種遞歸算法形式很簡(jiǎn)單,但效率很差,主要用于并行機(jī)上,這里我們使用了一種新的算法,可以在較小的時(shí)間復(fù)雜度內(nèi)完成連通域生長(zhǎng)法的計(jì)算。首先自左向右,自上而下掃描整幅圖像,找到第一個(gè)未標(biāo)記的像素點(diǎn),接著初始化像素隊(duì)列為空,把該像素點(diǎn)標(biāo)記,加入隊(duì)列。其次搜索隊(duì)列頭像素點(diǎn)周?chē)祟I(lǐng)域的像素并標(biāo)記、加入隊(duì)列并刪除隊(duì)頭元素以此重復(fù)直到隊(duì)列空為止。使用該算法可以快速準(zhǔn)確定位圖像中的所有連通域,由于噪聲干擾以及二值化時(shí)可能出現(xiàn)的誤差,我們必須去掉區(qū)域中一些明顯不可能是字符區(qū)域的連通域,例如寬度過(guò)大或是連通域中像素的個(gè)數(shù)過(guò)小的區(qū)域。再找出圖像中的連通域后,再做出各個(gè)連通域的外接矩形。4圖像處理識(shí)別系統(tǒng)的設(shè)計(jì)及分析4.1總體設(shè)計(jì)本題中通過(guò)攝像頭對(duì)視頻顯示界面進(jìn)行信息采集,對(duì)視頻中關(guān)注的數(shù)據(jù)進(jìn)行識(shí)別并記錄。4.2硬件設(shè)計(jì)對(duì)顯示視頻的字符提取與識(shí)別系統(tǒng)的硬件要求為整機(jī)結(jié)構(gòu)設(shè)計(jì)合理,擴(kuò)展能力強(qiáng),易于安裝維護(hù),同時(shí)要求其外形合理,重量輕,在便攜性方面具有一定的優(yōu)勢(shì),此外要求訓(xùn)練系統(tǒng)具有良好的環(huán)境適應(yīng)性,可耐高低溫、抗振、抗沖擊等,運(yùn)行穩(wěn)定可靠。根據(jù)上述要求,在實(shí)際設(shè)計(jì)顯示視頻的字符提取與識(shí)別系統(tǒng)硬件時(shí)采用一體成型技術(shù)構(gòu)建框架,系統(tǒng)的硬件主要有視頻采集裝置、數(shù)據(jù)傳輸線及視頻分析處理設(shè)備三部分組成,視頻采集裝置。該裝置采用靜態(tài)分辨率為1280960、動(dòng)態(tài)分辨率為1280720的視頻采集設(shè)備,最大幀頻為30FPS,輸出的格式靜態(tài)時(shí)為BMP/JPEG,動(dòng)態(tài)時(shí)為AVI/YUY2,感光元件為CMOS。數(shù)據(jù)傳輸線。采用傳輸速率為800Mbps的FireWire(火線)1394傳輸線。視頻分析處理設(shè)備。其芯片組選用IntelQ77ChipsetCPU選用INTELCoreI7-3770,內(nèi)存選用DDR3/4G,顯卡顯存選用1G,顯示屏選用20.1寸液晶顯示器(分辨率16001200),配備2個(gè)USB接口,2個(gè)千兆光纖網(wǎng)口。在選擇硬盤(pán)時(shí),考慮到顯示視頻的字符提取與識(shí)別軟件運(yùn)行的可行性問(wèn)題,采用80G2.5英寸固態(tài)硬盤(pán)作為系統(tǒng)安裝盤(pán),采用4T3.5英寸硬盤(pán)用于存儲(chǔ)應(yīng)用軟件和必要數(shù)據(jù)。4.3軟件設(shè)計(jì)整個(gè)系統(tǒng)的軟件設(shè)計(jì),主要包括視頻讀取與轉(zhuǎn)碼模塊、預(yù)處理模塊、特征提取模塊及字符識(shí)別模塊四個(gè)主要模塊,通過(guò)以上模塊功能的實(shí)現(xiàn),最終得出識(shí)別的結(jié)果。各模式的主要作用為:視頻讀取與轉(zhuǎn)碼模塊:通過(guò)MATLAB讀取將視頻讀入系統(tǒng)并將不同壓縮格式的視頻文件轉(zhuǎn)換為MATLAB易于識(shí)別及處理的AVI格式。預(yù)處理模塊:將轉(zhuǎn)碼得到的視頻文件處理為可供特征提取的圖像。特征提取模塊:為了獲取字符間差異的本質(zhì)特征,為字符識(shí)別提供前提條件。字符識(shí)別模塊:選用適用性強(qiáng)的識(shí)別方法,通過(guò)MATLAB編程最終實(shí)現(xiàn)本題的字符識(shí)別功能。4.4視頻讀取與轉(zhuǎn)碼模塊隨著科技的飛速發(fā)展,人們對(duì)視頻清晰度的要求越來(lái)越高,高質(zhì)量的視頻圖像同時(shí)也會(huì)占用大的存儲(chǔ)空間,另外不同品牌的視頻采集裝置采集到的視頻會(huì)有不同的格式。本系統(tǒng)應(yīng)用的是MATLAB進(jìn)行系統(tǒng)的實(shí)現(xiàn),此軟件主要支持AVI格式的視頻文件,所以系統(tǒng)在軟件設(shè)計(jì)的時(shí)候,設(shè)計(jì)了其它格式的視頻圖像轉(zhuǎn)碼為AVI格式的模塊。4.5預(yù)處理模塊此模塊主要實(shí)現(xiàn)的是對(duì)系統(tǒng)程序讀取到的視頻信息進(jìn)行處理,目的是做好圖像處理前一切準(zhǔn)備工作。此模塊主要包括視頻預(yù)處理和圖像預(yù)處理兩個(gè)部分。視頻鏡頭分割。若干個(gè)鏡頭在一起有序的銜接成為一個(gè)視頻,所以鏡頭也是視頻檢索的基本單元。鏡頭間的銜接也稱(chēng)為鏡頭的切換,有些視頻為了增加觀看效果有意地進(jìn)行了編輯,為的是鏡頭間切換更加美觀、緊密。鏡頭的切換方式通常分為漸變和突變兩種。顧名思義,漸變就是鏡頭在切換的時(shí)候是一個(gè)逐漸的過(guò)程,沒(méi)有明顯的跳躍;突變就是一個(gè)鏡頭的結(jié)束直接切換到另一個(gè)鏡頭的開(kāi)始,兩個(gè)鏡頭間的切換沒(méi)有過(guò)渡,切換是一個(gè)瞬間完成的過(guò)程。鏡頭邊界檢測(cè)是視頻結(jié)構(gòu)化的重要工作,也是代表幀選取的前提。其方法根據(jù)視覺(jué)特征的不同,主要有邊緣差值法、像素差值法、壓縮域方法、運(yùn)動(dòng)矢量法等,不同方法的運(yùn)用主要取決于視頻流鏡頭切換方式的不同。代表幀的選取。代表幀概括地表示了所屬鏡頭的內(nèi)容,是視頻流中提取的靜止圖像。通常情況下,一個(gè)鏡頭中的幀所含的內(nèi)容不會(huì)是完全一樣的。代表幀一般要選取最能代表鏡頭的幀,此幀要具有盡可能強(qiáng)的鏡頭概括力。根據(jù)攝像頭采集視頻特征的不同,可以采用時(shí)間自適應(yīng)算法、平均法及大運(yùn)動(dòng)變化鏡頭的代表幀提取方法等算法進(jìn)行代表幀的選取。對(duì)獲取的視頻圖像一般要灰度化、二值化、邊緣檢測(cè)等圖像的預(yù)處理過(guò)程。圖像灰度化。AVI格式的視頻為BMP格式的彩色圖像,所以對(duì)提取幀圖像的處理首先要進(jìn)行灰度化、二值化等幀圖像的預(yù)操作。圖像的灰度化又稱(chēng)灰度的歸一化,顧名思義就是將讀取的圖片由彩色轉(zhuǎn)為灰度顏色,因?yàn)檫x取的代表幀一般都是調(diào)色板內(nèi)容比較復(fù)雜的彩色圖像,這樣很多算法都無(wú)法適用于圖像的處理,所以使圖像有一致的灰度尺度,便于下一步對(duì)圖像進(jìn)行二值化處理。圖像二值化。圖像的二值化是數(shù)字識(shí)別中重要的一步,上一步得到的灰度圖像通過(guò)二值化將變?yōu)楹诎變煞N顏色的二值圖。這步很大程度地方便了最后的數(shù)字識(shí)別的實(shí)現(xiàn)。關(guān)于圖像的二值化成熟的算法比較多,比如可以在處理時(shí)應(yīng)用特定閾值法,也可應(yīng)用自適應(yīng)閾值法。整體傾斜度調(diào)整。采集到的視頻信息會(huì)因?yàn)橐曨l采集裝置相對(duì)于顯示界面角度的不同,圖像發(fā)生傾斜的問(wèn)題,這不利于對(duì)圖像中的字符進(jìn)行識(shí)別,所以對(duì)它進(jìn)行傾斜度的調(diào)整是十分必要的,處理后得到的字符均在同一水平位置,這樣便于下部的圖像邊緣檢測(cè),更不利于提高字符識(shí)別的準(zhǔn)確率。(4)圖像邊緣檢測(cè)。在復(fù)雜背景下的文字提取過(guò)程中,首先必須將彩色復(fù)雜背景變換為灰度圖像,然后運(yùn)用邊緣檢測(cè)方法提取出邊緣信息。Roberts,Sobel和Canny算子等都屬于常見(jiàn)的邊緣檢測(cè)算子。當(dāng)Roberts算子運(yùn)用到彩色圖像時(shí),與灰度化彩色圖像不同,它是將彩色圖像中兩個(gè)像素的RGB顏色空間的三個(gè)分量(r,g,b)的偶數(shù)距離代入Roberts算子中計(jì)算,確定圖像邊緣,最終獲得文本區(qū)域。在檢測(cè)視頻字符的算法中,利用其邊緣檢測(cè)和線條特征,將Canny算子進(jìn)行改進(jìn),然后應(yīng)用于圖像邊緣檢測(cè)中。一旦候選圖像的邊緣被檢測(cè)出,用連通掃描算法追蹤相鄰的邊緣像素,形成線條,然后過(guò)濾線條,再將相鄰的線條聚集起來(lái),從而候選文字區(qū)域獲得,最后依照文本特征確定文本區(qū)域。各個(gè)尺度下沿著邊界的模極大曲線是由沿邊界方向?qū)⒃摮叨认碌倪吘夁B接起來(lái)而獲得,通過(guò)檢測(cè)二維小波變換的模極大點(diǎn)可確定圖像的邊緣點(diǎn)。當(dāng)圖像經(jīng)小波變換分解成多個(gè)尺度,對(duì)每個(gè)尺度上的成分采用相應(yīng)的時(shí)域或空域取樣步長(zhǎng),能不斷地聚焦到對(duì)象的任意微小細(xì)節(jié)。正因?yàn)樾〔ㄗ儞Q所具備的這種多尺度特性,恰好將其用于檢測(cè)圖像邊緣。字符歸一化處理。圖像中字符的大小一般是不同的,視頻采集裝置與顯示界面距離的不同,也會(huì)造成字符在被系統(tǒng)識(shí)別的時(shí)候出現(xiàn)大小不一的問(wèn)題,所以有必要對(duì)字符進(jìn)行歸一化的調(diào)整。顧名思義,結(jié)字符進(jìn)行歸一化就是將像素值不同的字符歸一化為相同的尺寸,在本系統(tǒng)中指的是歸一化為相同的寬度和高度。本系統(tǒng)設(shè)定的字符歸一化值為1625個(gè)像素。4.6圖像特征提取模塊特征提取為的是獲取字符間差異的本質(zhì)特征。在整個(gè)字符的識(shí)別過(guò)程中,需要將圖像的固有屬性或本質(zhì)特征進(jìn)行量測(cè),形成數(shù)值化的特征向量。圖像特征的選擇和提取直接影響識(shí)別過(guò)程。如果選擇的特征對(duì)不同的類(lèi)別有大的區(qū)分度,這樣設(shè)計(jì)的分類(lèi)器的性能就會(huì)比較好,這樣會(huì)直接影響到字符識(shí)別的效果。根據(jù)不同的情況會(huì)選擇不同的特征提取方法,現(xiàn)階段使用較為普遍的方法有:骨架特征提取法、逐像素特征提取法及弧度梯度特征提取法等。4.7字符識(shí)別模塊復(fù)雜背景就是指圖像的背景中蘊(yùn)含著豐富紋理信息。圖像中的字符有時(shí)候是嵌入在紋理之中的,有時(shí)候字符本身就是一種紋理,它所具備的信息包括可能出現(xiàn)的位置、字體、大小和顏色也不盡相同,而且這些信息在字符定位前都是不知道的。一般的字符識(shí)別的方法都有很強(qiáng)的局限性,當(dāng)識(shí)別的樣本發(fā)生一定的變形或環(huán)境發(fā)生變化等干擾時(shí),幾種方法的識(shí)別準(zhǔn)確率和抗干擾性都不是很理想?;贐P神經(jīng)網(wǎng)絡(luò)的數(shù)字識(shí)別方法對(duì)于復(fù)雜的視頻數(shù)字識(shí)別環(huán)境有較強(qiáng)的自適應(yīng)性,該方法的決策區(qū)域由自身的學(xué)習(xí)機(jī)制形成,不需要事先給出判別函數(shù)和經(jīng)驗(yàn)知識(shí),神經(jīng)元的拓?fù)浣Y(jié)構(gòu)決定了此方法的特征,通過(guò)訓(xùn)練得到可以進(jìn)行識(shí)別的映射。另外神經(jīng)網(wǎng)絡(luò)的基本成果幾乎均被MATLAB所包括,所以在應(yīng)用MATLAB實(shí)現(xiàn)本系統(tǒng)的設(shè)計(jì)中,采用神經(jīng)網(wǎng)絡(luò)的字符識(shí)別方法可以很大程度地減少工作量。鑒于基于BP神經(jīng)網(wǎng)絡(luò)在字符識(shí)別中的特點(diǎn)優(yōu)勢(shì),本系統(tǒng)識(shí)別模塊采用此方法實(shí)現(xiàn)。神經(jīng)網(wǎng)絡(luò)由神經(jīng)元、電子元件、處理元件及光電元件等處理單元互連組成的網(wǎng)絡(luò)。它反映的基本特征類(lèi)似于人腦的功能,但它只是人腦的某種簡(jiǎn)化、抽象與模擬,并不是人腦的真實(shí)描寫(xiě)。神經(jīng)元間的互相作用實(shí)現(xiàn)了網(wǎng)絡(luò)的信息處理。對(duì)不同字號(hào)的印刷體數(shù)字在清晰的背景下進(jìn)行識(shí)別,基于BP神經(jīng)網(wǎng)絡(luò)的方法,能取得較好的識(shí)別率。此方法也可用于文本分類(lèi)、手寫(xiě)體數(shù)字的識(shí)別等領(lǐng)域。用此方法進(jìn)行字符的識(shí)別,視頻幀圖像首先要進(jìn)行預(yù)處理,之后要對(duì)圖像的特征進(jìn)行提取,接著根據(jù)需要識(shí)別的實(shí)際設(shè)計(jì)BP神經(jīng)網(wǎng)絡(luò),將事先得到的特征向量輸入神經(jīng)網(wǎng)絡(luò),網(wǎng)絡(luò)會(huì)進(jìn)行迭代訓(xùn)練一直到網(wǎng)絡(luò)穩(wěn)定。另外也要相應(yīng)地處理測(cè)試的圖像,網(wǎng)絡(luò)訓(xùn)練完成后,把得到的特征向量輸入到神經(jīng)網(wǎng)絡(luò)中,對(duì)字符進(jìn)行識(shí)別,并記錄識(shí)別得到的結(jié)果。4.8樣本字符識(shí)別的過(guò)程樣本以及待識(shí)別的樣本的處理過(guò)程。首先二值化,閾值100時(shí)的效果圖。第一步:檢測(cè)圖像Blob塊,去掉圖像左上端的黑快,如圖1。方法:直接對(duì)二值圖像進(jìn)行從左上開(kāi)始的像素掃描,連續(xù)的黑色像素值,遇到白像素時(shí)停止掃描,然后對(duì)掃描遇到的黑色像素點(diǎn)賦值為白色像素。圖1樣本字符識(shí)別第二步:確定字符在豎直方向上的跨度:將圖像對(duì)豎直方向上做投影,確定豎直方向上的像素區(qū)間,根據(jù)區(qū)間,可以將字符分成三塊。這樣得到豎直方向的區(qū)域。水平區(qū)域類(lèi)似處理:第三步:針對(duì)序列號(hào)進(jìn)行細(xì)分割,做向下方向的投影,由于數(shù)字和漢子的寬度不一樣,通過(guò)閾值可以區(qū)分出一個(gè)一個(gè)的數(shù)字。圖2閾值100時(shí)的效果圖第四步:對(duì)分割出來(lái)的數(shù)字在分別做水平方向和垂直方向的一階差分,進(jìn)一步得到單個(gè)字符區(qū)域的圖像。這里比如可能會(huì)出現(xiàn)中間斷裂的情況,這時(shí)候可以通過(guò)先驗(yàn)知識(shí),數(shù)字的大致長(zhǎng)寬作為閾值,分割得到3第五步:對(duì)要識(shí)別的數(shù)字進(jìn)行樣本歸一化處理,比如都取20*10的像素比。圖3將樣本分成8*4共32塊第六步:對(duì)歸一化后的待識(shí)別樣本提取特征,這里由于識(shí)別的內(nèi)容比較簡(jiǎn)單,直接采取像素值作為特征即可,這里的方式很多種,比如采用將樣本分成8*4共32塊,統(tǒng)計(jì)每一塊中的黑色像素所占的每一塊中總像素值的比率,作為特征值,這樣,每一個(gè)待識(shí)別的樣本就有一組一行32列的數(shù)組作為特征。第七步:樣本制作以及樣本的庫(kù)的處理:樣本的前期處理和對(duì)待測(cè)樣本的處理思路一樣,同上4-6步。這里樣本集的大小盡量為待測(cè)樣本特征的5—10倍。識(shí)別數(shù)字3,我們制作32*5個(gè)的樣本集,10個(gè)數(shù)字就是10*32*5個(gè)樣本集。第八步:對(duì)樣本集和待測(cè)的樣本提取的特征進(jìn)行PCA主成分分析,根據(jù)貢獻(xiàn)率提取主要的特征即前m個(gè)分量。第九步:將待測(cè)樣本與樣本集比較,做識(shí)別。5字符識(shí)別識(shí)別過(guò)程首先使識(shí)別設(shè)備學(xué)習(xí)、記憶將要辨識(shí)字符的特征,使這些特征成為識(shí)別系統(tǒng)自身的知識(shí),然后再利用這些先驗(yàn)知識(shí)對(duì)輸入圖像進(jìn)行判決,得到字符的識(shí)別結(jié)果。字符的特征不僅僅局限于平而上的點(diǎn)陣位置信息,在頻率空間、投影空間,甚至語(yǔ)義空間字符都有各自的特征。這些特征在識(shí)別字符時(shí)又有各自的特點(diǎn)及優(yōu)勢(shì)。根據(jù)識(shí)別字符所采用具體特征的不同便衍生出了不同的識(shí)別技術(shù)。通常,根據(jù)不同的技術(shù)策略,識(shí)別方法可以分為如下3類(lèi):統(tǒng)計(jì)特征字符識(shí)別技術(shù)、結(jié)構(gòu)字符識(shí)別技術(shù)和基于神經(jīng)網(wǎng)絡(luò)的識(shí)別技術(shù)。5.1統(tǒng)計(jì)特征字符識(shí)別技術(shù)這種識(shí)別方法一般選取同一類(lèi)字符中共有的、相對(duì)穩(wěn)定的并且分類(lèi)性能好的統(tǒng)計(jì)特征作為特征向量。常用的統(tǒng)計(jì)特征有字符二維平而的位置特征、字符在水平或者垂直方向投影的直方圖特征、矩特征和字符經(jīng)過(guò)頻域變換或其它形式變換后的特征等。大量字符的統(tǒng)計(jì)特征經(jīng)過(guò)提取、學(xué)習(xí)、分類(lèi)形成關(guān)于字符原型知識(shí),構(gòu)成識(shí)別字符的模板信息,這些模板信息存儲(chǔ)在識(shí)別系統(tǒng)中。未知圖像在識(shí)別時(shí)首先提取相同的統(tǒng)計(jì)特征,然后與識(shí)別系統(tǒng)存儲(chǔ)的字符原型知識(shí)匹配比較,根據(jù)比較結(jié)果確定字符最終分類(lèi),達(dá)到識(shí)別的目的。衡量匹配程度的指標(biāo)常采用各種向量間的距離指標(biāo),例如歐式距離、絕對(duì)值距離等,為了表達(dá)方式的統(tǒng)一,以這些距離為基礎(chǔ),以得到歸一化匹配程度。其中,基于字符像素點(diǎn)平而分布的識(shí)別算法,因?yàn)樗惴ê?jiǎn)單、實(shí)現(xiàn)方便的特點(diǎn)而成為最常用的匹配方法。這種算法一般先將字符圖像歸一化為模板的幾何維數(shù),然后根據(jù)像素點(diǎn)的位置逐個(gè)匹配,求出模板和圖像的某種距離指標(biāo)。由于要對(duì)每個(gè)像素點(diǎn)逐個(gè)匹配,造成算法實(shí)現(xiàn)計(jì)算量大,且對(duì)噪音、字符的偏移和變形非常敏感,因此對(duì)輸入的待識(shí)別圖像要求較高。5.2結(jié)構(gòu)特征字符識(shí)別技術(shù)實(shí)際應(yīng)用中,更一般的情況是相近字符的識(shí)別和像手寫(xiě)字符那樣字型變化很大的字符的識(shí)別,因此,發(fā)展出了基于結(jié)構(gòu)的字符識(shí)別技術(shù)。這種技術(shù)首先要提取字符的結(jié)構(gòu)。根據(jù)識(shí)別策略的不同,結(jié)構(gòu)的選擇也有所不同??梢赃x擇字根、筆劃,也可以選擇比筆劃更小的筆段。提取出的結(jié)構(gòu)又稱(chēng)作字符的子模式、部件、基元,所有基元按照某種序排列起來(lái)就成了字符的特征?;诮Y(jié)構(gòu)的文字識(shí)別實(shí)際上是將字符映射到了基元組成的結(jié)構(gòu)空間進(jìn)行識(shí)別。識(shí)別過(guò)程是在提取基元的基礎(chǔ)上,利用形式語(yǔ)言和自動(dòng)機(jī)理論,采取詞法分析、樹(shù)匹配、圖匹配和知識(shí)推理的方法分析字符結(jié)構(gòu)的過(guò)程。常用的結(jié)構(gòu)特征有:筆劃的走向、孤立的點(diǎn),以及是否含有閉合筆畫(huà)等。由于漢字自身具有很強(qiáng)的結(jié)構(gòu)性,利用漢字的結(jié)構(gòu)特點(diǎn)進(jìn)行識(shí)別同樣可以達(dá)到很好的效果。傳統(tǒng)識(shí)別方法中,對(duì)輸入圖像采取統(tǒng)一分辨率進(jìn)行識(shí)別,分辨率由系統(tǒng)的計(jì)算和存儲(chǔ)資源先期決定,造成了系統(tǒng)資源的浪費(fèi)和識(shí)別效率的降低。5.3基于神經(jīng)網(wǎng)絡(luò)的字符識(shí)別技術(shù)迄今為止,人類(lèi)識(shí)別文字的能力遠(yuǎn)遠(yuǎn)勝于計(jì)算機(jī),無(wú)論是變形的字符、模糊的字符,甚至是破損的字符,人類(lèi)都能很好地識(shí)別?;谌斯ど窠?jīng)網(wǎng)絡(luò)的字符識(shí)別技術(shù)目的就是力圖通過(guò)對(duì)人腦功能和結(jié)構(gòu)的模擬來(lái)實(shí)現(xiàn)字符的高效識(shí)別。經(jīng)過(guò)近幾年的迅速發(fā)展,人工神經(jīng)網(wǎng)絡(luò)在字符識(shí)別方而得到了廣泛的應(yīng)用。在OCR系統(tǒng)中,人工神經(jīng)網(wǎng)絡(luò)主要充當(dāng)分類(lèi)器的功能。網(wǎng)絡(luò)的輸入是字符的特征向量,輸出是字符的分類(lèi)結(jié)果,即識(shí)別結(jié)果。由于識(shí)別策略的不同和對(duì)問(wèn)題理解水平的限制,輸入的特征向量所包含的信息常常是冗余的,甚至是矛盾的。

結(jié)論本課題以印刷體字符為研究對(duì)象,通過(guò)研究圖像處理、字符分割、字符識(shí)別方法,探究了整個(gè)系統(tǒng)的實(shí)現(xiàn)方法。這一課題對(duì)減輕人工識(shí)別的勞動(dòng)強(qiáng)度,提高識(shí)別速度及識(shí)別準(zhǔn)確率,適應(yīng)計(jì)算機(jī)數(shù)據(jù)輸入的要求具有積極的促進(jìn)作用。參考文獻(xiàn)[1]陳虎,周朝輝,王守尊.HYPERLINK"/kcms/detail/detail.aspx?filename=GCTX200402020&dbcode=CJFQ&dbname=CJFD2004&v="\t"/kcms/detail/frame/_blank"基于數(shù)學(xué)形態(tài)學(xué)的圖像去噪方法研究[J].工程圖學(xué)學(xué)報(bào).2004(02)[2]呂同富,劉寶軍,畢秀芝.HYPERLINK"/kcms/detail/detail.aspx?filename=JSJZ200304031&dbcode=CJFQ&dbname=CJFD2003&v="\t"/kcms/detail/frame/_blank"圖像邊緣提取的簡(jiǎn)單方法及應(yīng)用[J].計(jì)算機(jī)仿真.2003(04)[3]饒秀勤,應(yīng)義斌.HYPERLINK"/kcms/detail/detail.aspx?filename=NYGU200301033&dbcode=CJFQ&dbname=CJFD2003&v="\t"/kcms/detail/frame/_blank"基于機(jī)器視覺(jué)的水果尺寸檢測(cè)誤差分析[J].農(nóng)業(yè)工程學(xué)報(bào).2003(01)[4]關(guān)貞珍,霍曉靜,錢(qián)東平,楊世鳳.HYPERLINK"/kcms/detail/detai

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論