視頻與圖像處理文字特征提取_第1頁(yè)
視頻與圖像處理文字特征提取_第2頁(yè)
視頻與圖像處理文字特征提取_第3頁(yè)
視頻與圖像處理文字特征提取_第4頁(yè)
視頻與圖像處理文字特征提取_第5頁(yè)
已閱讀5頁(yè),還剩3頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、圖像文本提取算法研究摘 要: 根據(jù)圖像中文字與背景區(qū)城的形態(tài)特征,提出了一種基于形態(tài)運(yùn)算和連通域標(biāo)記的復(fù)雜背景圖像文檔提取算法。實(shí)驗(yàn)結(jié)果表明,即使在圖像分辨率不高以及文字布局較復(fù)雜的情況下,該算法仍然較快較準(zhǔn)確地提取出復(fù)雜背景圖像中的文字。關(guān)鍵詞: Ostu,二值化,形態(tài)學(xué),連通域1 引 言近年來(lái),隨著計(jì)算機(jī)和網(wǎng)絡(luò)技術(shù)的發(fā)展,網(wǎng)頁(yè)上的數(shù)字化圖像和視頻呈現(xiàn)爆炸式增長(zhǎng)。而隨著移動(dòng)數(shù)碼攝像設(shè)備的普及,用戶也可以方便地使用移動(dòng)設(shè)備拍攝自然場(chǎng)景中的數(shù)字化圖像。同時(shí),傳統(tǒng)的圖書館為了滿足用戶對(duì)多媒體內(nèi)容的查詢需求,也開(kāi)始收藏圖像和音視頻等內(nèi)容。多樣的信息給人們的生產(chǎn)和生活帶來(lái)了巨大便利的同時(shí),也使如何能讓

2、用戶準(zhǔn)確迅速地找到自己所需的多媒體內(nèi)容成為日益突出和緊迫的需求,因而也需要有效的方法來(lái)組織和檢索這些多媒體內(nèi)容。以往的文檔分析與識(shí)別領(lǐng)域,主要著眼于對(duì)一些布局較有規(guī)律的二值文檔進(jìn)行字符/圖形分割與識(shí)別。目前,隨著WWW頁(yè)面中圖片的大量使用,以及圖像、視頻數(shù)據(jù)庫(kù)的廣泛應(yīng)用,使得圖像成為另一種重要的信息載體。Loprest指出,互聯(lián)網(wǎng)上相當(dāng)一部分文字是嵌入在圖像中的,而且其中大部分文字并沒(méi)有在HTML頁(yè)面的其他地方重復(fù)出現(xiàn)1。Wong則認(rèn)為視頻圖像中的文字可為我們提供關(guān)于該視頻產(chǎn)品的豐富語(yǔ)義信息圖。不幸的是,目前大多數(shù)的搜索引擎都無(wú)法直接對(duì)嵌人在圖像中的文字內(nèi)容進(jìn)行檢索。因此,如何在復(fù)雜的圖像背景

3、下快速、準(zhǔn)確地分割與提取文字將具有廣泛的應(yīng)用前景和研究?jī)r(jià)值。文獻(xiàn)1文獻(xiàn)6分別在Web圖像及視頻圖像的文字分割領(lǐng)域進(jìn)行了相關(guān)研究。經(jīng)大量觀察后我們發(fā)現(xiàn),WWW圖片、Video圖像及雜志封面圖片一般具有以下特點(diǎn):(1)圖像中包含色彩較為豐富的文字與背景;(2)圖像背景可能由一些具有較多灰度變化的復(fù)雜圖案構(gòu)成;(3)圖像中文字的分辨率一般不高,這是由于在生成文字時(shí)使用了圖像處理軟件中的反鋸齒效果(Anti-Aliased)而造成的;(4)圖像中文字布局的隨意性較大,而且文字與背景的層次關(guān)系可能很復(fù)雜。我們稱這類圖像為包含復(fù)雜背景及文字的圖像。本文將討論如何在這一類圖像中提取文字。2 算法描述本文設(shè)計(jì)

4、用于實(shí)現(xiàn)文本的提取的方法,改方法主要分為三個(gè)步驟:第一步:閾值分割,通過(guò)Ostu法計(jì)算圖像的閾值,并對(duì)圖像進(jìn)行二值化,實(shí)現(xiàn)目標(biāo)和背景的分離;第二步:形態(tài)學(xué)處理,二值化的圖像進(jìn)行膨脹、腐蝕、開(kāi)、閉運(yùn)算,實(shí)現(xiàn)文字區(qū)域的連通,便于文字區(qū)域的提??;第三步:連通域標(biāo)記,處理后的圖像的大部分連通區(qū)域是文字區(qū)域。利用連通域標(biāo)記算法實(shí)現(xiàn)連通域的標(biāo)記,再對(duì)每個(gè)連通域畫矩形框從而實(shí)現(xiàn)文檔的提取。21 閾值分割2.1.1 閾值分割方法為了便于對(duì)文字的識(shí)別,我們需要將檢測(cè)到的文字進(jìn)行二值化。圖像二值化的方法主要分為局部閾值二值化和全局閾值二值化兩種7,全局閾值二值化是整幅圖像都用同一個(gè)閾值進(jìn)行二值化的方法,其計(jì)算簡(jiǎn)單

5、,但是適合背景簡(jiǎn)單,灰度直方圖只有連個(gè)明顯的波峰的圖像。對(duì)于背景復(fù)雜、噪聲嚴(yán)重或者圖像光照分布不均時(shí)全局閾值二值化的效果就會(huì)很差,造成很多虛景或者造成目標(biāo)的丟失8。局部閾值的方法是將圖像分塊,對(duì)每塊使用不同的閾值進(jìn)行二值化。局部閾值能很好的克服全局閾值所面臨的問(wèn)題,但是局部閾值計(jì)算相對(duì)較為復(fù)雜,對(duì)圖像的分塊方式不同會(huì)影響二值化的效果9。圖像閾值分割技術(shù)的關(guān)鍵在于如何選取閾值。根據(jù)其對(duì)像素的處理方式,主要分為三類:(1)全局閾值法:是指在二值化過(guò)程中只使用一個(gè)全局閾值T的方法。它將圖像的每個(gè)像素的灰度值與T進(jìn)行比較,若大于T,則取為前景色(白色);否則,取為背景色(黑色)。設(shè)圖像的灰度函數(shù)為f(

6、x,y),則二值化算法的表達(dá)式: (1)全局閾值法主要適合于質(zhì)量較好、目標(biāo)和背景對(duì)比度較大,且直方圖呈現(xiàn)雙峰的圖像。典型的全局閾值法有Ostu法10、最大熵方法等。(2)局部閾值法:由當(dāng)前像素灰度值與該像素周圍點(diǎn)局部灰度特征來(lái)確定像素的閾值。例如可以將原圖像劃分為一些不相交的小塊,將各塊圖像的灰度均值作為該部塊圖像的閾值,局部采用全局閾值法。典型的局部閾值法有Bernsen法。(3)動(dòng)態(tài)閾值法:它的閾值選擇不僅取決于該像素及周圍像素的灰度值,而且還與該像素的坐標(biāo)位置有關(guān)。例如我們可以在局部上統(tǒng)計(jì)該區(qū)域灰度值分布特征,根據(jù)統(tǒng)計(jì)結(jié)果來(lái)確定不同的局部閾值。在下面的小節(jié)中我們主要討論本實(shí)驗(yàn)使用的ost

7、u法的原理和特點(diǎn)。2.1.2 OSTU法在眾多閾值分割算法中,1979年由Otsu提出的基于類間方差最大化的分割算法一直被認(rèn)為是分割閾值自動(dòng)選取的最優(yōu)方法。它將圖像分為背景與目標(biāo)兩類,通過(guò)搜索計(jì)算類間方差最大值,得到最優(yōu)閾值。圖像中像素值0-T的均值為: (2)式中為圖像中像素值為K的概率。圖像中像素值0-T的概率和為: (3)圖像總的均值為: (4)圖像背景和目標(biāo)兩類像素的類間方差定義為: (5)在Ostu方法中,圖像最佳閾值g則為max(G(T)下的T值。根據(jù)閾值g,整幅圖像可以分為背景和目標(biāo)兩部分。由于方差是衡量圖像中像素灰度分布均勻性的一個(gè)度量,方差值越大,說(shuō)明組成圖像的背景和目標(biāo)兩部

8、分的差別越大。當(dāng)部分背景被錯(cuò)誤地劃分為目標(biāo)或者部分目標(biāo)被錯(cuò)誤地劃分為背景時(shí),會(huì)導(dǎo)致兩部分的差別變小。因此,Ostu方法實(shí)際上是以錯(cuò)分概率最小作為分割閾值的選取準(zhǔn)則的。以下是采用Ostu方法二值化和固定閾值二值化的比較圖。圖1 原圖效果 圖2 Ostu二值化效果 圖3 固定閾值二值化效果原圖中比較灰暗的文字如果當(dāng)做文檔來(lái)提取增加了文檔提取的難度,所以當(dāng)做背景來(lái)處理。從效果圖比較可以看出采用Ostu法二值化效果較好,適應(yīng)性較強(qiáng)。本實(shí)驗(yàn)中要對(duì)20幅圖像進(jìn)行處理,采用固定閾值二值化對(duì)于不知道背景和目標(biāo)像素區(qū)別的情況下,效果不好。而Ostu對(duì)于這種情況較好。2.2 圖像形態(tài)學(xué)處理2.2.1 基本原理原理

9、:在特殊領(lǐng)域運(yùn)算形式結(jié)構(gòu)元素(Sturcture Element),在每個(gè)像素位置上與二值圖像對(duì)應(yīng)的區(qū)域進(jìn)行特定的邏輯運(yùn)算。運(yùn)算結(jié)構(gòu)是輸出圖像的相應(yīng)像素。運(yùn)算效果取決于結(jié)構(gòu)元素大小內(nèi)容以及邏輯運(yùn)算性質(zhì)。結(jié)構(gòu)元素:膨脹和腐蝕操作的最基本組成部分,用于測(cè)試輸出圖像,通常要比待處理的圖像小還很多。二維平面結(jié)構(gòu)元素由一個(gè)數(shù)值為0或1的矩陣組成。結(jié)構(gòu)元素的原點(diǎn)指定了圖像中需要處理的像素范圍,結(jié)構(gòu)元素中數(shù)值為1的點(diǎn)決定結(jié)構(gòu)元素的鄰域像素在進(jìn)行膨脹或腐蝕操作時(shí)是否需要參與計(jì)算。先來(lái)定義一些基本符號(hào)和關(guān)系。1. 元素設(shè)有一幅圖象X,若點(diǎn)a在X的區(qū)域以內(nèi),則稱a為X的元素,記作aX,如圖4所示。2. B包含于X

10、設(shè)有兩幅圖象B,X。對(duì)于B中所有的元素ai,都有aiX,則稱B包含于(included in)X,記作B X,如圖5所示。3. B擊中X設(shè)有兩幅圖象B,X。若存在這樣一個(gè)點(diǎn),它即是B的元素,又是X的元素,則稱B擊中(hit)X,記作BX,如圖6所示。4. B不擊中X設(shè)有兩幅圖象B,X。若不存在任何一個(gè)點(diǎn),它即是B的元素,又是X的元素,即B和X的交集是空,則稱B不擊中(miss)X,記作BX=;其中是集合運(yùn)算相交的符號(hào),表示空集。如圖7所示。圖4 元素圖5 包含圖6 擊中圖7 不擊中5. 補(bǔ)集設(shè)有一幅圖象X,所有X區(qū)域以外的點(diǎn)構(gòu)成的集合稱為X的補(bǔ)集,記作Xc,如圖6.5所示。顯然,如果BX=,則

11、B在X的補(bǔ)集內(nèi),即B Xc。圖8 補(bǔ)集的示意圖6. 結(jié)構(gòu)元素設(shè)有兩幅圖象B,X。若X是被處理的對(duì)象,而B(niǎo)是用來(lái)處理X的,則稱B為結(jié)構(gòu)元素(structure element),又被形象地稱做刷子。結(jié)構(gòu)元素通常都是一些比較小的圖象。7. 對(duì)稱集設(shè)有一幅圖象B,將B中所有元素的坐標(biāo)取反,即令(x,y)變成(-x,-y),所有這些點(diǎn)構(gòu)成的新的集合稱為B的對(duì)稱集,記作Bv,如圖9所示。8. 平移設(shè)有一幅圖象B,有一個(gè)點(diǎn)a(x0,y0),將B平移a后的結(jié)果是,把B中所有元素的橫坐標(biāo)加x0,縱坐標(biāo)加y0,即令(x,y)變成(x+x0,y+y0),所有這些點(diǎn)構(gòu)成的新的集合稱為B的平移,記作Ba,如圖10所示

12、。圖9 對(duì)稱集的示意圖圖10 平移的示意圖2.2.2 腐蝕 把結(jié)構(gòu)元素B平移a后得到Ba,若Ba包含于X,我們記下這個(gè)a點(diǎn),所有滿足上述條件的a點(diǎn)組成的集合稱做X被B腐蝕(Erosion)的結(jié)果。用公式表示為:E(X)=a| Ba X=X B,如圖11所示。圖11 腐蝕的示意圖圖11中X是被處理的對(duì)象,B是結(jié)構(gòu)元素。不難知道,對(duì)于任意一個(gè)在陰影部分的點(diǎn)a,Ba包含于X,所以X被B腐蝕的結(jié)果就是那個(gè)陰影部分。陰影部分在X的范圍之內(nèi),且比X小,就象X被剝掉了一層似的,這就是為什么叫腐蝕的原因。值得注意的是,上面的B是對(duì)稱的,即B的對(duì)稱集Bv=B,所以X被B腐蝕的結(jié)果和X被Bv腐蝕的結(jié)果是一樣的。如

13、果B不是對(duì)稱的,讓我們看看圖12,就會(huì)發(fā)現(xiàn)X被B腐蝕的結(jié)果和X被Bv腐蝕的結(jié)果不同。圖12 結(jié)構(gòu)元素非對(duì)稱時(shí),腐蝕的結(jié)果不同圖11和圖12都是示意圖,讓我們來(lái)看看實(shí)際上是怎樣進(jìn)行腐蝕運(yùn)算的。在圖13中,左邊是被處理的圖象X(二值圖象,我們針對(duì)的是黑點(diǎn)),中間是結(jié)構(gòu)元素B,那個(gè)標(biāo)有origin的點(diǎn)是中心點(diǎn),即當(dāng)前處理元素的位置,我們?cè)诮榻B模板操作時(shí)也有過(guò)類似的概念。腐蝕的方法是,拿B的中心點(diǎn)和X上的點(diǎn)一個(gè)一個(gè)地對(duì)比,如果B上的所有點(diǎn)都在X的范圍內(nèi),則該點(diǎn)保留,否則將該點(diǎn)去掉;右邊是腐蝕后的結(jié)果??梢钥闯?,它仍在原來(lái)X的范圍內(nèi),且比X包含的點(diǎn)要少,就象X被腐蝕掉了一層。圖13 腐蝕運(yùn)算圖14為原圖

14、,圖15為腐蝕后的結(jié)果圖,能夠很明顯地看出腐蝕的效果。 圖14原圖 圖15 腐蝕后的結(jié)果圖2.2.3 膨脹膨脹(dilation)可以看做是腐蝕的對(duì)偶運(yùn)算,其定義是:把結(jié)構(gòu)元素B平移a后得到Ba,若Ba擊中X,我們記下這個(gè)a點(diǎn)。所有滿足上述條件的a點(diǎn)組成的集合稱做X被B膨脹的結(jié)果。用公式表示為:D(X)=a | BaX=X B,如圖16所示。圖16中X是被處理的對(duì)象,B是結(jié)構(gòu)元素,不難知道,對(duì)于任意一個(gè)在陰影部分的點(diǎn)a,Ba擊中X,所以X被B膨脹的結(jié)果就是那個(gè)陰影部分。陰影部分包括X的所有范圍,就象X膨脹了一圈似的,這就是為什么叫膨脹的原因。同樣,如果B不是對(duì)稱的,X被B膨脹的結(jié)果和X被 Bv

15、膨脹的結(jié)果不同。讓我們來(lái)看看實(shí)際上是怎樣進(jìn)行膨脹運(yùn)算的。在圖17中,左邊是被處理的圖象X(二值圖象,我們針對(duì)的是黑點(diǎn)),中間是結(jié)構(gòu)元素B。膨脹的方法是,拿B的中心點(diǎn)和X上的點(diǎn)及X周圍的點(diǎn)一個(gè)一個(gè)地對(duì),如果B上有一個(gè)點(diǎn)落在X的范圍內(nèi),則該點(diǎn)就為黑;右邊是膨脹后的結(jié)果??梢钥闯?,它包括X的所有范圍,就象X膨脹了一圈似的。圖16 膨脹的示意圖圖17 膨脹運(yùn)算圖19為圖18膨脹后的結(jié)果圖,能夠很明顯的看出膨脹的效果。圖18 原圖圖19 膨脹后效果圖形態(tài)學(xué)處理中開(kāi)運(yùn)算是對(duì)原圖先進(jìn)行腐蝕處理,后再進(jìn)行膨脹的處理。開(kāi)運(yùn)算可以在分離粘連目標(biāo)物的同時(shí),基本保持原目標(biāo)物的大小。閉運(yùn)算是對(duì)原圖先進(jìn)行膨脹處理,后再進(jìn)

16、行腐蝕的處理。閉運(yùn)算可以在合并斷裂目標(biāo)物的同時(shí),基本保持原目標(biāo)物的大小。3 連通域標(biāo)記算法3.1 圖像初始標(biāo)記連通域標(biāo)號(hào):圖像像素點(diǎn)所在的連通域的序號(hào),用與圖像大小相同的二維數(shù)組保存每個(gè)像素點(diǎn)的連通域標(biāo)號(hào)。連通域標(biāo)號(hào)在本算法有兩個(gè)階段:第一階段,對(duì)二值圖像掃描取得的臨時(shí)連通域標(biāo)號(hào),此階段,會(huì)有不同的連通域標(biāo)號(hào)屬于同一目標(biāo)。因此,將此階段的像素點(diǎn)連通域標(biāo)號(hào)稱為待合并連通域標(biāo)號(hào)或臨時(shí)連通域標(biāo)號(hào)。第二階段,合并等價(jià)連通域標(biāo)號(hào),即利用共同連通域標(biāo)號(hào)替換第一階段的臨時(shí)連通域標(biāo)號(hào),此階段的像素點(diǎn)連通域標(biāo)號(hào)就是最終的目標(biāo)標(biāo)號(hào),稱為目標(biāo)連通域標(biāo)號(hào)。等價(jià)標(biāo)號(hào):在待合并連通域標(biāo)號(hào)矩陣中,會(huì)有不同的連通域標(biāo)號(hào)屬于同

17、一目標(biāo),則將此類連通域標(biāo)號(hào)稱為等價(jià)標(biāo)號(hào),也稱為沖突標(biāo)號(hào)。共同連通域標(biāo)號(hào): 指示待合并連通域標(biāo)號(hào)所標(biāo)記的連通域所屬的目標(biāo)的標(biāo)號(hào),用一維數(shù)組保存,以待合并連通域標(biāo)號(hào)為下標(biāo),該值指示臨時(shí)連通域標(biāo)號(hào)所標(biāo)記的連通域?qū)儆谀膫€(gè)目標(biāo)。3.2 算法簡(jiǎn)介本算法分為兩個(gè)階段。第一階段,對(duì)二值圖像進(jìn)行一次掃描,按某種連通(4鄰域或8鄰域) 規(guī)則,標(biāo)記所有像素點(diǎn)的待合并連通域標(biāo)號(hào),同時(shí),按一定的規(guī)則,標(biāo)記待合并連通域標(biāo)號(hào)的共同連通域標(biāo)號(hào)。由于4鄰域和8鄰域的模板核過(guò)小,無(wú)法一次正確標(biāo)記所有的目標(biāo),會(huì)有大量等價(jià)標(biāo)號(hào)存在。用共同連通域標(biāo)號(hào)標(biāo)記各等價(jià)標(biāo)號(hào)所屬的共同連通域。第二階段,掃描臨時(shí)連通域標(biāo)號(hào)矩陣,糾正矩陣中的臨時(shí)連通

18、域標(biāo)號(hào),即用共同連通域標(biāo)號(hào)替換各像素點(diǎn)的臨時(shí)連通域標(biāo)號(hào),實(shí)現(xiàn)連通域的合并。合并時(shí),按共同連通域標(biāo)號(hào)出現(xiàn)的次序,重新定序,確保目標(biāo)連通域標(biāo)號(hào)連續(xù)。合并后,矩陣中的像素點(diǎn)連通域標(biāo)號(hào)即是最終所得的目標(biāo)連通域標(biāo)號(hào)。3.3 算法原理本算法的8鄰域和4鄰域的處理方法相似,以4鄰域?yàn)槔?,?duì)算法閾述。設(shè)某像素點(diǎn)f(x,y),則f(x-1,y),f(x+1,y),f(x,y-1),f(x,y+1)為其四鄰域左、右、上、下像素點(diǎn)。設(shè)merge(x,y)是f(x,y)像素點(diǎn)連通域標(biāo)號(hào)。當(dāng)掃描f(x,y)時(shí),已完成了f(x-1,y)和f(x,y-1)掃描,merge(x-1,y)和merge(x,y-1)為已知數(shù)。因

19、此在4鄰域內(nèi),f(x,y)像素點(diǎn)連通域標(biāo)號(hào)merge(x,y)僅和像素點(diǎn)f(x-1,y)、f(x,y-1)及其像素點(diǎn)連通域標(biāo)號(hào)merge(x-1,y)、merge(x,y-1)有關(guān),如式(6)所示。(6)式(6)表示:(1)當(dāng)像素點(diǎn)f(x,y)=f(x-1,y)且f(x,y)!f(x,y-1),即f(x,y)和左鄰域像素點(diǎn)值相等時(shí),表明f(x,y)與左鄰域像素點(diǎn)是連通的,則f(x,y)的像素點(diǎn)連通域標(biāo)號(hào)merge(x,y)與merge(x-1,y)標(biāo)號(hào)相同。(2)當(dāng)像素點(diǎn)f(x,y)!f(x-1,y)且f(x,y)=f(x,y-1)時(shí),表示f(x,y)與上鄰域連通,但與左鄰域不連通,則f(x,

20、y)的像素點(diǎn)連通域標(biāo)號(hào)merge(x,y)與merge(x,y-1)標(biāo)號(hào)相等。(3)當(dāng)像素點(diǎn)f(x,y)=f(x,y-1)且f(x,y)=f(x-1,y)時(shí),則f(x,y)與上鄰域、左鄰域在同一個(gè)連通域內(nèi),則需考慮:(i)若merge(x,y-1)=merge(x-1,y),則表明f(x,y)的上鄰域和左鄰域連通域標(biāo)號(hào)一致,僅需merge(x,y)=merge(x,y-1)即可。(ii)若merge(x,y-1)!merge(x-1,y),則表明f(x,y)的上鄰域和左鄰域連通域標(biāo)號(hào)沖突,需按2.4節(jié)處理沖突標(biāo)號(hào),然后merge(x,y)=merge(x,y-1)。(4)若f(x,y)!f(x

21、-1,y)且f(x,y)!f(x,y-1)時(shí),表明像素點(diǎn)f(x,y)屬于新的連通域,因此連通域標(biāo)號(hào)自動(dòng)加1,即Newlabel=Newlabel+1,并將新的連通域標(biāo)號(hào)Newlabel賦予merge(x,y)。3.4 等價(jià)標(biāo)號(hào)處理本算法的實(shí)現(xiàn)難點(diǎn)主要是等價(jià)標(biāo)號(hào)的處理和共同連通域的標(biāo)記。如上節(jié)所述,在算法的第一階段,掃描圖像后獲得臨時(shí)連通域標(biāo)號(hào)merge,其中會(huì)出現(xiàn)大量的等價(jià)標(biāo)號(hào)即標(biāo)號(hào)沖突,用一維數(shù)組記錄各臨時(shí)連通域標(biāo)號(hào)的共同連通域標(biāo)號(hào),數(shù)組的下標(biāo)為臨時(shí)連通域標(biāo)號(hào),其值為共同連通域標(biāo)號(hào)。當(dāng)遇到標(biāo)號(hào)沖突時(shí),要合并等價(jià)連通域標(biāo)號(hào),即對(duì)共同連通域數(shù)組掃描一遍,將等價(jià)標(biāo)號(hào)的共同連通域標(biāo)號(hào)標(biāo)記成一致。設(shè)一

22、維數(shù)組common,其下標(biāo)為臨時(shí)連通域標(biāo)號(hào),即merge(x,y)的值,common元素的值表示某個(gè)共同連通域標(biāo)號(hào)。common(merge(x,y)表示像素點(diǎn)f(x,y)的共同連通域標(biāo)號(hào)。掃描二值圖像時(shí),common按如下方法處理:(i)當(dāng)f(x,y)!f(x,y-1)且f(x,y)!f(x-1,y)時(shí),表明像素點(diǎn)f(x,y)屬于新的連通,則共同連通域標(biāo)號(hào)common新增一個(gè)元素,即common(merge(x,y)=merge(x,y)。(ii)掃描圖像時(shí),當(dāng)出現(xiàn)f(x,y)=f(x,y-1)且f(x,y)=f(x-1,y)和merge(x-1,y)!merge(x,y-1)時(shí),則說(shuō)明遇到

23、標(biāo)號(hào)沖突,需掃描common數(shù)組一遍,對(duì)于任一元素i,若common(i)=common(merge(x-1,y)則修改其共同連通域標(biāo)號(hào)common(i)=common(merge(x,y-1)。掃描圖像時(shí),(i)表明出現(xiàn)新的孤點(diǎn),共同連通域標(biāo)號(hào)common新增元素標(biāo)記該元素。(ii)表明元素f(x,y)與它的左鄰域f(x-1,y)和上鄰域f(x,y-1)連通,且連通域標(biāo)號(hào)merge(x-1,y)與merge(x,y-1)不一致,即左鄰域和上鄰域沖突,需要合并,因此要對(duì)共同連通域標(biāo)號(hào)common中所有的值等于merge(x-1,y)的元素改為merge(x,y-1)。經(jīng)合并處理后,merge的

24、元素仍是臨時(shí)連通域標(biāo)號(hào),有大量的沖突標(biāo)號(hào),但圖像的每個(gè)像素點(diǎn)f(x,y)可通過(guò)common(merge(x,y),得到共同連通域標(biāo)號(hào),且是唯一的。此時(shí),common的值是斷續(xù)的,對(duì)后續(xù)的處理很不利,需要對(duì)common及merge的標(biāo)號(hào)調(diào)整。調(diào)整方法如下:定義臨時(shí)一維數(shù)組temp及變量nIndex,temp大小與common相同。temp元素初始化為-1,nIndex初始化為0。掃描merge數(shù)組,對(duì)任一元素merge(x,y)作如下操作:(i)若temp(common(merge(x,y)0,即該共同連通域標(biāo)號(hào)首次掃描到,則nIndex=nIndex+1;temp(common(merge(x

25、,y)=nIndex;merge(x,y)=temp(common(merge(x,y);(ii)若temp(common(merge(x,y)0,即該共同連域已出現(xiàn)過(guò),則merge(x,y)=temp(common(merge(x,y);上述調(diào)整主要完成合并圖像等價(jià)連通域即用唯一的標(biāo)號(hào)標(biāo)記連通域,并按出現(xiàn)的先后次序,標(biāo)記連通域。操作(i)表示:該等價(jià)標(biāo)號(hào)所指的共同連通域標(biāo)號(hào)首次出現(xiàn),因此標(biāo)號(hào)自動(dòng)加1。操作(ii)表示:該等價(jià)標(biāo)號(hào)所指的共同連通域標(biāo)號(hào)至少已出現(xiàn)過(guò)1次,因此只需temp的已分配的標(biāo)號(hào)直接賦給merge(x,y)即可。至此,對(duì)于每個(gè)像素點(diǎn)f(x,y),均可在merge的相同位置檢索

26、到連通域標(biāo)號(hào)merge(x,y)。圖像的第一行像素點(diǎn)沒(méi)有上鄰域,第一列沒(méi)有左鄰域,需特殊處理。如下所示:(i)二值圖像左上角的像素f(0,0),由于是第1個(gè)掃描的像素,無(wú)需考慮相鄰點(diǎn)連通性。(ii)二值圖像第1行(最上行)的像素f(x,0),只需考慮左相鄰像素的連通性。(iii)二值圖像第1列(最左列)的像素f(0,y),只需考慮上相鄰像素的連通性。除此之外的所有像素都要考慮左、上2個(gè)相鄰像素的連通性來(lái)確定自己的連通性。4 實(shí)驗(yàn)結(jié)果與分析利用本文提出的算法對(duì)20幅書刊封面圖像二值化,形態(tài)處理,文檔提取。實(shí)驗(yàn)效果圖如下圖所示:圖20 實(shí)驗(yàn)效果圖(1)圖21 實(shí)驗(yàn)效果圖(2)圖22 實(shí)驗(yàn)效果圖(3

27、)圖23 實(shí)驗(yàn)效果圖(4)從實(shí)驗(yàn)效果圖分析,文檔提取效果較好,基本能提取出文檔區(qū)域,但有些區(qū)域產(chǎn)生誤檢。主要原因是產(chǎn)生誤檢的區(qū)域與文字區(qū)域的像素值相近,在圖像處理過(guò)程中誤當(dāng)作文字區(qū)域來(lái)處理。本實(shí)驗(yàn)方法中通過(guò)提取的方框長(zhǎng)、寬限制可以略去很大一部分誤檢區(qū)域。本實(shí)驗(yàn)中的20幅中,有15幅圖像文字提取效果較好,能夠提取出大部分的文字區(qū)域;而剩下的5幅圖像提取效果略差。4 結(jié) 論本實(shí)驗(yàn)在詳細(xì)分析圖像的預(yù)處理知識(shí)、文本區(qū)域定位方法、文字識(shí)別方法的基礎(chǔ)上,給出了識(shí)別的三個(gè)主要步驟,分別為圖像二值化,形態(tài)學(xué)處理,連通域標(biāo)記的文本區(qū)域定位。經(jīng)過(guò)最后階段的試驗(yàn),實(shí)現(xiàn)了復(fù)雜背景下彩色圖像中的文檔提取。本實(shí)驗(yàn)方法還存

28、在不足之處,以下兩點(diǎn)可以繼續(xù)探討深究:(1)本方法還不能實(shí)現(xiàn)所有圖像的文檔提取,通用性有待加強(qiáng)。(2)對(duì)圖像文檔提取的處理過(guò)程時(shí)間略長(zhǎng),主要是連通域標(biāo)記算法花費(fèi)的時(shí)間較長(zhǎng),可對(duì)此算法加以改進(jìn),提高運(yùn)算速度。參考文獻(xiàn)(References)1 Zhou J Y Lopresti D. Extraeting Text from WWW Image, In:Proc of the4th International Conference on docuument Analysis,15 and Recognition.Ulm,Germany,1997,248-252.2 Wong E K,Chen M

29、A New Robust Algorithm for Video Text ExtraetionPattern Recognition,2003,36(6):1397-14063 Lienhart R,Wernieke ALocalizing and Segmenting Text in Images and VideosIEEE Transon Cireuirs and System,for Video Technology2002,12:256-2684 Mao W,Chung F,Lanm K,Siu W. Hybrid Chinese/English Text Detectionin Images and

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論