視頻圖像中文本的檢測、定位與提取_第1頁
視頻圖像中文本的檢測、定位與提取_第2頁
視頻圖像中文本的檢測、定位與提取_第3頁
視頻圖像中文本的檢測、定位與提取_第4頁
全文預(yù)覽已結(jié)束

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

1、    視頻圖像中文本的檢測、定位與提取目前,基于內(nèi)容的視頻信息檢索(ContentBasedVideoRetrieval,簡稱CBVR)的研究已取得了較大的進(jìn)展,但是檢索所采用的特征基本上都是低級視覺特征,如顏色、紋理、形狀、空間關(guān)系和運(yùn)動等。這其中存在的主要問題是低級視覺特征對視頻的描述與人對視頻的描述存在較大差異,而且用戶也不熟悉特征值的變化對視覺效果帶來的影響。而視頻本質(zhì)上是由文本、視頻和音頻等多種媒質(zhì)融合而成,它們之間存在語義關(guān)聯(lián),一種媒質(zhì)和另外一種媒質(zhì)表目前,基于內(nèi)容的視頻信息檢索(ContentBased Video Retrieval,簡

2、稱CBVR)的研究已取得了較大的進(jìn)展,但是檢索所采用的特征基本上都是低級視覺特征,如顏色、紋理、形狀、空間關(guān)系和運(yùn)動等。這其中存在的主要問題是低級視覺特征對視頻的描述與人對視頻的描述存在較大差異,而且用戶也不熟悉特征值的變化對視覺效果帶來的影響。而視頻本質(zhì)上是由文本、視頻和音頻等多種媒質(zhì)融合而成,它們之間存在語義關(guān)聯(lián),一種媒質(zhì)和另外一種媒質(zhì)表示同一語義或是其補(bǔ)充。只有通過挖掘構(gòu)成視頻的各種媒質(zhì)所表達(dá)的豐富語義信息,克服單純的視覺特征語義表達(dá)能力較弱這一缺點(diǎn),充分提取視頻中的高層語義,才能符合人們對視頻信息的理解習(xí)慣,實現(xiàn)實用的基于內(nèi)容的視頻檢索系統(tǒng)。    在視頻

3、中,文本信息(如新聞標(biāo)題、節(jié)目內(nèi)容、旁白、工作人員名單等)均包含了豐富的高層語義信息,可用于對相應(yīng)視頻流所表達(dá)的事件、情節(jié)以及情感等進(jìn)行高級語義標(biāo)注。如果這些文本能自動地被檢測、分割、識別出來,則對視頻高層語義的自動理解、索引和檢索是非常有價值的。視頻中的文本分為人工文本和場景文本。目前的研究主要集中于人工文本,而場景文本的研究才剛剛起步。正是由于文本的種類、形狀的多樣差異性,目前文本提取算法還沒有一個通用的評價準(zhǔn)則和標(biāo)準(zhǔn)數(shù)據(jù)庫。    文中針對水平和豎直排列的靜止及滾動文本,提出利用小波多尺度局部模極大值邊緣檢測算法來檢測文本圖像邊緣,利用形態(tài)學(xué)處理生成候選文本

4、區(qū)域,用由粗到精的多次水平、豎直投影來定位精確的文本位置。然后,對于文本子圖用局部Otsu方法和區(qū)域填充處理進(jìn)行文字二值化提取。1 小波模極大值算法提取視頻圖像的文字邊緣11 二維小波變換模極大值原理    設(shè)(x,y)是一個二維平滑函數(shù),引入尺度因   模M2jf(x,y)取極大值的點(diǎn)(x,y)對應(yīng)于f*s(x,y)的突變點(diǎn)或尖銳陡峭變化的位置,從而對應(yīng)于圖像f(x,y)的邊緣。梯度grad(f*s)(x,y)在點(diǎn)(x,y)處的方向表示在圖像平面(x,y)上f(x,y)的方向?qū)?shù)的絕對值取極大值的方向。即計算一個光滑函數(shù)的導(dǎo)數(shù)沿梯度

5、方向的模極大值等價于計算其小波變換的模極大值。12 文本圖像的邊緣提取    在圖像中,文本字符具有特殊的線條結(jié)構(gòu)和紋理特點(diǎn),其灰度(顏色)與背景相差較大,邊緣變化劇烈,呈現(xiàn)出明顯的橫向、豎向、斜向邊緣特征,中、高頻信息較強(qiáng)。在小波圖像中表現(xiàn)為相應(yīng)區(qū)域高頻細(xì)節(jié)子圖的系數(shù)較大;橫向線條、豎向線條和斜向線條分別在LH,HL以及HH子圖相應(yīng)位置表現(xiàn)為較大的小波系數(shù)。    根據(jù)上述原理,在實際計算時,采用3次B樣條小波,對輸入灰度文中圖像進(jìn)行保持圖像大小不變的二維小波變換,得到W12jf(x,y)和W22jf(x,y)。改變j的值得到在不同

6、尺度下圖像的小波變換,文中選取小波分解最大尺度為J=3,其中1JJ。由式(2)、式(3)計算每一點(diǎn)的模值和幅角,找出模圖像在梯度方向上的極大值。設(shè)置閾值T>0,保留大于T的像素的模值。最后連接邊界點(diǎn),形成邊緣。    圖1(a)為使用小波模極大值算法提取的視頻圖像中的文字邊緣,圖1(b)、(c)、(d)分別為使用Canny算子、LOG算子和Sobel算子的結(jié)果。由圖1可知,文中方法比傳統(tǒng)邊緣檢測方法,能在檢測出文本邊緣的同時很好的抑制背景邊緣。2 文本定位    由于有的圖像背景過于復(fù)雜,在上階段處理得到的邊緣圖中仍存在一定數(shù)量

7、的背景邊緣噪聲,將其通過局部閾值處理來濾除;在采用形態(tài)學(xué)處理生成候選文本區(qū)域后,用基于局部區(qū)域直方圖和閾值的定位方法對水平和豎直文本進(jìn)行定位;為適應(yīng)不同尺度文本,采用兩層金字塔模型分別定位并合成結(jié)果。21 背景噪聲濾除    受文獻(xiàn)的啟發(fā),用兩個同心窗對當(dāng)前待處理的二值邊緣圖像EMP進(jìn)行掃描。在實驗中,選擇經(jīng)驗值,外窗高為3h=30,內(nèi)窗高為h=10,以h為步長進(jìn)行掃描。根據(jù)外窗中的邊緣密度直方圖來決定對內(nèi)窗處理時的閾值。同心窗的結(jié)構(gòu)及外窗內(nèi)的邊緣水平投影,如圖2所示,Pi(i=1,3h)是第i行的邊緣像素數(shù)目。內(nèi)窗內(nèi)的局部閾值Tkernel就可以按照下面的公式計

8、算       其中,Smax是最高邊緣強(qiáng)度(O或255)。由式(4)可見,如果外窗內(nèi)的邊緣像素的數(shù)量非常少,密度小于某個閾值,那么內(nèi)窗內(nèi)就很可能是背景噪聲,則將內(nèi)窗內(nèi)的閾值設(shè)置為Smax;否則,內(nèi)窗內(nèi)很可能是一個文本區(qū)域,將內(nèi)窗內(nèi)的閾值設(shè)置為Tmiddle,Tmiddle可以是0255中任意一個數(shù)字。則在當(dāng)前掃描窗口,內(nèi)窗內(nèi)大于閾值的邊緣像素被標(biāo)記為文本;否則,將其值設(shè)置為0,即小于閾值的邊緣像素被覆蓋掉。22 基于形態(tài)學(xué)的候選文本區(qū)域生成    形態(tài)學(xué)可將圖像信號與其幾何形狀聯(lián)系起來,用具有一定形態(tài)的結(jié)構(gòu)元素去量度和提取圖像中的對應(yīng)形狀以達(dá)到對圖像分析和識別的目的。所以文中采用形態(tài)學(xué)處理來形成候選文本區(qū)域。形態(tài)學(xué)最基本的概念是腐蝕和膨脹,以及由它們組合而成的各種形態(tài)操作算子。    設(shè)為二

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論