視頻圖像中文本的檢測(cè)、定位與提取

上傳人：7*** IP屬地：湖北上傳時(shí)間：2022-02-12 格式：DOC 頁數(shù)：4 大?。?4KB 積分：15 舉報(bào) 版權(quán)申訴

全文預(yù)覽已結(jié)束

 下載本文檔

版權(quán)說明：本文檔由用戶提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、視頻圖像中文本的檢測(cè)、定位與提取目前，基于內(nèi)容的視頻信息檢索(ContentBasedVideoRetrieval，簡(jiǎn)稱CBVR)的研究已取得了較大的進(jìn)展，但是檢索所采用的特征基本上都是低級(jí)視覺特征，如顏色、紋理、形狀、空間關(guān)系和運(yùn)動(dòng)等。這其中存在的主要問題是低級(jí)視覺特征對(duì)視頻的描述與人對(duì)視頻的描述存在較大差異，而且用戶也不熟悉特征值的變化對(duì)視覺效果帶來的影響。而視頻本質(zhì)上是由文本、視頻和音頻等多種媒質(zhì)融合而成，它們之間存在語義關(guān)聯(lián)，一種媒質(zhì)和另外一種媒質(zhì)表目前，基于內(nèi)容的視頻信息檢索(ContentBased Video Retrieval，簡(jiǎn)

2、稱CBVR)的研究已取得了較大的進(jìn)展，但是檢索所采用的特征基本上都是低級(jí)視覺特征，如顏色、紋理、形狀、空間關(guān)系和運(yùn)動(dòng)等。這其中存在的主要問題是低級(jí)視覺特征對(duì)視頻的描述與人對(duì)視頻的描述存在較大差異，而且用戶也不熟悉特征值的變化對(duì)視覺效果帶來的影響。而視頻本質(zhì)上是由文本、視頻和音頻等多種媒質(zhì)融合而成，它們之間存在語義關(guān)聯(lián)，一種媒質(zhì)和另外一種媒質(zhì)表示同一語義或是其補(bǔ)充。只有通過挖掘構(gòu)成視頻的各種媒質(zhì)所表達(dá)的豐富語義信息，克服單純的視覺特征語義表達(dá)能力較弱這一缺點(diǎn)，充分提取視頻中的高層語義，才能符合人們對(duì)視頻信息的理解習(xí)慣，實(shí)現(xiàn)實(shí)用的基于內(nèi)容的視頻檢索系統(tǒng)。在視頻

3、中，文本信息(如新聞標(biāo)題、節(jié)目?jī)?nèi)容、旁白、工作人員名單等)均包含了豐富的高層語義信息，可用于對(duì)相應(yīng)視頻流所表達(dá)的事件、情節(jié)以及情感等進(jìn)行高級(jí)語義標(biāo)注。如果這些文本能自動(dòng)地被檢測(cè)、分割、識(shí)別出來，則對(duì)視頻高層語義的自動(dòng)理解、索引和檢索是非常有價(jià)值的。視頻中的文本分為人工文本和場(chǎng)景文本。目前的研究主要集中于人工文本，而場(chǎng)景文本的研究才剛剛起步。正是由于文本的種類、形狀的多樣差異性，目前文本提取算法還沒有一個(gè)通用的評(píng)價(jià)準(zhǔn)則和標(biāo)準(zhǔn)數(shù)據(jù)庫。文中針對(duì)水平和豎直排列的靜止及滾動(dòng)文本，提出利用小波多尺度局部模極大值邊緣檢測(cè)算法來檢測(cè)文本圖像邊緣，利用形態(tài)學(xué)處理生成候選文本

4、區(qū)域，用由粗到精的多次水平、豎直投影來定位精確的文本位置。然后，對(duì)于文本子圖用局部Otsu方法和區(qū)域填充處理進(jìn)行文字二值化提取。1 小波模極大值算法提取視頻圖像的文字邊緣11 二維小波變換模極大值原理設(shè)（x，y）是一個(gè)二維平滑函數(shù)，引入尺度因模M2jf(x,y)取極大值的點(diǎn)(x，y)對(duì)應(yīng)于f*s(x，y)的突變點(diǎn)或尖銳陡峭變化的位置，從而對(duì)應(yīng)于圖像f(x，y)的邊緣。梯度grad(f*s)(x，y)在點(diǎn)(x，y)處的方向表示在圖像平面(x，y)上f(x，y)的方向?qū)?shù)的絕對(duì)值取極大值的方向。即計(jì)算一個(gè)光滑函數(shù)的導(dǎo)數(shù)沿梯度

5、方向的模極大值等價(jià)于計(jì)算其小波變換的模極大值。12 文本圖像的邊緣提取在圖像中，文本字符具有特殊的線條結(jié)構(gòu)和紋理特點(diǎn)，其灰度(顏色)與背景相差較大，邊緣變化劇烈，呈現(xiàn)出明顯的橫向、豎向、斜向邊緣特征，中、高頻信息較強(qiáng)。在小波圖像中表現(xiàn)為相應(yīng)區(qū)域高頻細(xì)節(jié)子圖的系數(shù)較大；橫向線條、豎向線條和斜向線條分別在LH，HL以及HH子圖相應(yīng)位置表現(xiàn)為較大的小波系數(shù)。根據(jù)上述原理，在實(shí)際計(jì)算時(shí)，采用3次B樣條小波，對(duì)輸入灰度文中圖像進(jìn)行保持圖像大小不變的二維小波變換，得到W12jf(x，y)和W22jf(x，y)。改變j的值得到在不同

6、尺度下圖像的小波變換，文中選取小波分解最大尺度為J=3，其中1JJ。由式(2)、式(3)計(jì)算每一點(diǎn)的模值和幅角，找出模圖像在梯度方向上的極大值。設(shè)置閾值T>0，保留大于T的像素的模值。最后連接邊界點(diǎn)，形成邊緣。圖1(a)為使用小波模極大值算法提取的視頻圖像中的文字邊緣，圖1(b)、(c)、(d)分別為使用Canny算子、LOG算子和Sobel算子的結(jié)果。由圖1可知，文中方法比傳統(tǒng)邊緣檢測(cè)方法，能在檢測(cè)出文本邊緣的同時(shí)很好的抑制背景邊緣。2 文本定位由于有的圖像背景過于復(fù)雜，在上階段處理得到的邊緣圖中仍存在一定數(shù)量

7、的背景邊緣噪聲，將其通過局部閾值處理來濾除；在采用形態(tài)學(xué)處理生成候選文本區(qū)域后，用基于局部區(qū)域直方圖和閾值的定位方法對(duì)水平和豎直文本進(jìn)行定位；為適應(yīng)不同尺度文本，采用兩層金字塔模型分別定位并合成結(jié)果。21 背景噪聲濾除受文獻(xiàn)的啟發(fā)，用兩個(gè)同心窗對(duì)當(dāng)前待處理的二值邊緣圖像EMP進(jìn)行掃描。在實(shí)驗(yàn)中，選擇經(jīng)驗(yàn)值，外窗高為3h=30，內(nèi)窗高為h=10，以h為步長(zhǎng)進(jìn)行掃描。根據(jù)外窗中的邊緣密度直方圖來決定對(duì)內(nèi)窗處理時(shí)的閾值。同心窗的結(jié)構(gòu)及外窗內(nèi)的邊緣水平投影，如圖2所示，Pi(i=1，3h)是第i行的邊緣像素?cái)?shù)目。內(nèi)窗內(nèi)的局部閾值Tkernel就可以按照下面的公式計(jì)

8、算其中，Smax是最高邊緣強(qiáng)度(O或255)。由式(4)可見，如果外窗內(nèi)的邊緣像素的數(shù)量非常少，密度小于某個(gè)閾值，那么內(nèi)窗內(nèi)就很可能是背景噪聲，則將內(nèi)窗內(nèi)的閾值設(shè)置為Smax；否則，內(nèi)窗內(nèi)很可能是一個(gè)文本區(qū)域，將內(nèi)窗內(nèi)的閾值設(shè)置為Tmiddle，Tmiddle可以是0255中任意一個(gè)數(shù)字。則在當(dāng)前掃描窗口，內(nèi)窗內(nèi)大于閾值的邊緣像素被標(biāo)記為文本；否則，將其值設(shè)置為0，即小于閾值的邊緣像素被覆蓋掉。22 基于形態(tài)學(xué)的候選文本區(qū)域生成形態(tài)學(xué)可將圖像信號(hào)與其幾何形狀聯(lián)系起來，用具有一定形態(tài)的結(jié)構(gòu)元素去量度和提取圖像中的對(duì)應(yīng)形狀以達(dá)到對(duì)圖像分析和識(shí)別的目的。所以文中采用形態(tài)學(xué)處理來形成候選文本區(qū)域。形態(tài)學(xué)最基本的概念是腐蝕和膨脹，以及由它們組合而成的各種形態(tài)操作算子。設(shè)為二

人人文庫> 全部分類> 教育資料 > 輔導(dǎo)培訓(xùn)

溫馨提示

1. 本站所有資源如無特殊說明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽，若沒有圖紙預(yù)覽就沒有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間，僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理，對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容，請(qǐng)與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

視頻圖像中文本的檢測(cè)、定位與提取

文檔簡(jiǎn)介

溫馨提示

最新文檔

評(píng)論

視頻圖像中文本的檢測(cè)、定位與提取

文檔簡(jiǎn)介

溫馨提示

最新文檔

評(píng)論

相關(guān)文檔

視頻圖像中文本的檢測(cè)、定位與提取