《模式識(shí)別原理與應(yīng)用》課件第14章_第1頁
《模式識(shí)別原理與應(yīng)用》課件第14章_第2頁
《模式識(shí)別原理與應(yīng)用》課件第14章_第3頁
《模式識(shí)別原理與應(yīng)用》課件第14章_第4頁
《模式識(shí)別原理與應(yīng)用》課件第14章_第5頁
已閱讀5頁,還剩102頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

第14章視頻識(shí)別14.1

視頻結(jié)構(gòu)分析14.2主持人識(shí)別14.3

標(biāo)題條識(shí)別習(xí)題14.1視頻結(jié)構(gòu)分析14.1.1視頻結(jié)構(gòu)模型

視頻包括電影、電視節(jié)目、錄像等,它是存儲(chǔ)動(dòng)態(tài)信息和進(jìn)行信息通信的媒體。視頻數(shù)據(jù)可用幕(Act)、場(chǎng)景(Scene)、鏡頭(Shot)、幀(Frame)等描述。視頻結(jié)構(gòu)化分析就是將連續(xù)視頻流分割成包括場(chǎng)景、鏡頭、幀等視頻單元。幀是一幅靜態(tài)的圖像,是組成視頻的最小視覺單位。視頻數(shù)據(jù)流是由連續(xù)的幀構(gòu)成的。每一幀都可以看成獨(dú)立的圖像。幀是視頻流的基本單元,它蘊(yùn)含了少許的語義內(nèi)容。鏡頭由一系列的幀組成,它描繪攝像機(jī)拍下的一組連續(xù)幀序列,是視頻數(shù)據(jù)流進(jìn)一步結(jié)構(gòu)化的基礎(chǔ)結(jié)構(gòu)層。一般來講,同一個(gè)鏡頭中,視頻幀的圖像特征保持穩(wěn)定。比如,在拍攝“日落”這個(gè)鏡頭時(shí),畫面的色彩和紋理等圖像特征將基本保持不變。鏡頭是對(duì)視頻流進(jìn)行處理的最小物理單元。由于在同一個(gè)鏡頭內(nèi)的視頻幀之間的特征保持穩(wěn)定,如果相鄰視頻幀之間的特征發(fā)生了明顯變化,則認(rèn)為發(fā)生了鏡頭切換,就可以對(duì)視頻流進(jìn)行切分。對(duì)視頻流進(jìn)行結(jié)構(gòu)化時(shí),首先要找出每個(gè)獨(dú)立的鏡頭單元。一個(gè)個(gè)獨(dú)立的鏡頭單元就構(gòu)成了視頻流。代表幀是可以用來表示鏡頭內(nèi)容的圖像。在切分出鏡頭后,代表幀被用來表示各鏡頭的特征,從而進(jìn)行進(jìn)一步的結(jié)構(gòu)化。一般地,在一組視頻鏡頭中,代表幀數(shù)目遠(yuǎn)遠(yuǎn)小于鏡頭所包含的視頻幀數(shù)量。語義上相關(guān)和時(shí)間上相鄰的若干個(gè)鏡頭組成了一個(gè)場(chǎng)景。場(chǎng)景是視頻所蘊(yùn)含的高層抽象概念和語義的表達(dá)。比如,“網(wǎng)球比賽”這個(gè)場(chǎng)景可以由“運(yùn)動(dòng)員特寫”、“記分牌”、“觀眾助威”和“運(yùn)動(dòng)員比賽”等若干個(gè)鏡頭組成。雖然每個(gè)鏡頭所代表的語義不多,但是若干個(gè)鏡頭所組合成的場(chǎng)景就表達(dá)了一個(gè)符合人們思維的比較豐富的語義。由于不同人對(duì)同一場(chǎng)景的文字標(biāo)注可能是不一樣的,因此,一般使用代表幀(本質(zhì)上是視覺信息)來表示鏡頭和場(chǎng)景,而不使用文字信息來標(biāo)注場(chǎng)景。鏡頭由代表幀表示,所以場(chǎng)景可以使用屬于這個(gè)場(chǎng)景的若干個(gè)鏡頭所對(duì)應(yīng)的代表幀來表示。視頻結(jié)構(gòu)化模型如圖14-1所示。視頻數(shù)據(jù)流進(jìn)行結(jié)構(gòu)化的過程如下:

(1)一組連續(xù)的視頻幀通過鏡頭邊界檢測(cè)被分割成長(zhǎng)短不一的鏡頭單元。

(2)對(duì)每個(gè)鏡頭單元提取代表幀,得到可以表征這些鏡頭單元的代表幀。由于每個(gè)鏡頭長(zhǎng)短不一,代表幀選取方法不同,因此提取的代表幀數(shù)目也不一樣。

(3)分析鏡頭代表幀,提取視覺特征,建立視頻索引結(jié)構(gòu)。圖14-1視頻結(jié)構(gòu)化模型需要注意的是,雖然視頻數(shù)據(jù)流中存在“鏡頭”或者“場(chǎng)景”等結(jié)構(gòu),但是對(duì)于不同的人而言,所劃分的視頻結(jié)構(gòu)卻很不同,這樣就給視頻結(jié)構(gòu)化算法的評(píng)價(jià)帶來困難。比如,對(duì)于新聞?lì)愐曨l,它存在著明顯的視頻結(jié)構(gòu);對(duì)于體育比賽類的視頻,如足球比賽、籃球比賽等,它的視頻結(jié)構(gòu)也比較明顯,而對(duì)于電影、藝術(shù)類節(jié)目等視頻,它們的結(jié)構(gòu)就比較復(fù)雜,往往難以確切地進(jìn)行結(jié)構(gòu)劃分。14.1.2非壓縮域鏡頭邊界檢測(cè)方法任何視頻都是由一個(gè)個(gè)鏡頭銜接起來的,鏡頭是視頻檢索的基本單元。鏡頭之間的銜接方式是多種多樣的。兩個(gè)鏡頭之間的銜接稱之為鏡頭切換,它表示從一個(gè)鏡頭到另一個(gè)鏡頭的銜接和轉(zhuǎn)換,是通過鏡頭編輯做出來的。為了讓鏡頭的銜接更加緊密、美觀,視頻中往往采用了許多鏡頭編輯方法,經(jīng)過對(duì)鏡頭邊界的編輯處理,將鏡頭和鏡頭完美地連接起來。鏡頭切換主要分為突變和漸變兩種方式。突變(Cut)是指鏡頭與鏡頭之間沒有過渡,由一個(gè)鏡頭的結(jié)束瞬間直接轉(zhuǎn)換到另一個(gè)鏡頭的開始瞬間的方法。一個(gè)鏡頭猛然切換到另一個(gè)鏡頭,也叫直接切換。直接切換可使畫面的情節(jié)和動(dòng)作發(fā)生直接的跳躍,不存在時(shí)間上的差異,給人以輕快、利索的感覺。漸變是指一個(gè)鏡頭到另一個(gè)鏡頭的逐漸過渡,沒有明顯的鏡頭跳躍。漸變包括淡入(Fadein)、淡出(Fadeout)、溶化(Dissolve)、擦出(Wipe)等。將后面鏡頭的畫面逐漸加強(qiáng)的方式稱為淡入;將前面鏡頭的畫面逐漸關(guān)閉直至消失的方式稱為淡出;將前面鏡頭畫面消失的同時(shí)后面鏡頭畫面逐漸出現(xiàn)的方式稱為溶化;將前面鏡頭從畫面的某一部分開始逐漸地被后面鏡頭畫面取而代之的方式稱為擦出。在視頻編輯的過程中,鏡頭的漸變過程都是由特技發(fā)生器產(chǎn)生出來的。圖14-2是鏡頭邊界編輯和產(chǎn)生的示意圖。圖14-2鏡頭邊界編輯和產(chǎn)生的示意圖鏡頭邊界檢測(cè)是對(duì)視頻流進(jìn)行后續(xù)分析和識(shí)別的基礎(chǔ)。目前,鏡頭邊界檢測(cè)的方法有很多種,主要有像素差值法、顏色直方圖法、邊緣差值法、運(yùn)動(dòng)矢量法、壓縮域方法等,這些方法的名字來源于每種方法所提取的視覺特征。本節(jié)介紹幾種經(jīng)典的鏡頭邊界檢測(cè)方法,這幾種方法的基本思想是,比較相鄰視頻幀之間的視覺特征是否發(fā)生了較大變化,如果發(fā)生了較大變化,則意味著視頻發(fā)生了鏡頭突變,發(fā)生較大特征變化的地方就是鏡頭邊緣。對(duì)于漸變切換,特征變化雖然存在,但卻不明顯。另外,由于鏡頭是漸變的,相鄰兩幀的特征值也是逐漸地改變,因此,需要采用一定的方法突現(xiàn)這種變化。

1.單一閾值比較法

單一閾值比較法是最早的突變鏡頭檢測(cè)方法。它主要考慮視頻中相鄰兩幀的直方圖間的差異,當(dāng)前后兩幀的直方圖差異超過某一閾值時(shí),就認(rèn)為此處是鏡頭突變點(diǎn)。用于比較直方圖差異的算法很多,主要有歐幾里德距離法、直方圖交集檢測(cè)法和矢量間的夾角余弦等。假設(shè)對(duì)于視頻中的相鄰兩幀圖像fi、fj,其歸一化直方圖分別為Hi、Hj,直方圖共包含n種顏色。兩幀圖像的直方圖距離為(14-1)直方圖交集表示為(14-2)(14-3)其中,Hi(k)、Hj(k)分別為歸一化直方圖Hi、

Hj在第k個(gè)顏色上的取值。如果前后兩幀的顏色分布基本相同,那么式(14-1)的距離值幾乎等于0,而式(14-2)的相似性測(cè)度為1,式(14-3)的不相似性測(cè)度為0。如果前后兩幀的顏色分布完全不同,則結(jié)果正好相反。在進(jìn)行鏡頭邊界檢測(cè)時(shí),順序計(jì)算視頻流相鄰兩幀的直方圖差異,當(dāng)D(Hi,Hj)大于某個(gè)預(yù)先設(shè)定的閾值時(shí),說明兩幀間發(fā)生了較大的變化,即認(rèn)為它們之間存在一個(gè)鏡頭突變切換。通常,可以把這個(gè)全局的閾值設(shè)定為視頻流中所有相鄰幀直方圖差值平均值的5至6倍,當(dāng)某相鄰兩幀的直方圖差值大于這個(gè)閾值時(shí),就可判斷視頻在這兩幀之間發(fā)生了突變,這兩幀之間是一個(gè)鏡頭切換點(diǎn)。圖14-3中的虛線是計(jì)算得出的某段視頻直方圖差值的平均值,點(diǎn)畫線是5倍的差值平均值。可見,a、b兩點(diǎn)的直方圖差值均大于這個(gè)閾值。顯然,a點(diǎn)和b點(diǎn)分別是兩個(gè)鏡頭分割點(diǎn),整個(gè)視頻片段可以分為A、B、C三個(gè)鏡頭,視頻片段的鏡頭分割便完成了。圖14-3某視頻片段相鄰幀間直方圖差值圖單一閾值比較法能較好地檢測(cè)出視頻中明顯的鏡頭突變。然而對(duì)于漸變過程和色彩差別較小的突變鏡頭,直方圖差值雖然有變化,但并不明顯。如果仍采用單一閾值比較方法,就識(shí)別不出鏡頭的切換點(diǎn),或者使識(shí)別出的鏡頭切換點(diǎn)有誤。

2.雙重比較法(twincomparison)為了找到漸變切換在直方圖差值圖中的規(guī)律,考察圖14-4所示的漸變切換的例子。觀察圖14-4,可以看出幀圖像變化的規(guī)律:從第0幀起,畫面中有一白色幾何體自左向右逐漸消退,而新畫面(椰樹)則隨之逐漸完整顯現(xiàn)。當(dāng)此組圖片作為視頻播放時(shí),就表現(xiàn)出翻頁切換的效果。圖14-4鏡頭漸變切換——鏡頭掃換連續(xù)幀圖像圖14-5(a)是此組圖像的直方圖差值圖。直接從幀間直方圖差值圖中無法找出如突變鏡頭般確定的鏡頭切換點(diǎn)。在漸變過程中,由于漸變起始幀的畫面不斷地被其隨后鏡頭的畫面所替代,因而隨后出現(xiàn)的幀圖像與漸變起始幀圖像的差值會(huì)越來越大。因此,如果確定了漸變起始幀的位置,就可以計(jì)算出相對(duì)于起始幀的直方圖累積差值圖。圖14-5根據(jù)圖14-4計(jì)算出的直方圖差值圖(a)幀間直方圖差值圖;(b)直方圖累積差值圖假設(shè)s為選定的漸變起始幀號(hào),則對(duì)于其隨后的幀i=s+1,s+2,…,計(jì)算相對(duì)于s幀的直方圖累積差值Di:(i=s+1,s+2,…)

(14-4)其中,n為直方圖的顏色數(shù)目。圖14-5(b)是根據(jù)式(14-4)計(jì)算得出的相對(duì)于第0幀的直方圖累積差值圖。累積差值曲線呈單調(diào)遞增,到翻頁切換結(jié)束位置(大約在第35幀)處遞增結(jié)束。此后各幀由于屬于同一個(gè)鏡頭,因此相對(duì)第0幀的差值不再有太大波動(dòng)。所謂雙重比較法,是在選定一個(gè)較高閾值的基礎(chǔ)上,再引入一個(gè)較低的閾值作為對(duì)可能存在的漸變切換作雙重比較的算法。首先用較低的閾值來確定出漸變切換過程可能的起始幀。一旦確定了這個(gè)起始幀,就用它與后續(xù)的幀進(jìn)行比較,用累積的差值來取代相鄰幀間的差值。這個(gè)累積是單調(diào)的,應(yīng)該不斷地加大,直到這個(gè)單調(diào)過程中止。這時(shí),將累積差值與較高閾值相比較,如果超過了這個(gè)閾值,就可以認(rèn)為這個(gè)累積值單調(diào)遞增的序列對(duì)應(yīng)的就是一個(gè)漸變切換過程。雙重比較法示意圖如圖14-6所示。圖14-6雙重比較法示意圖雙重比較法存在的問題是,它不能較好地判定出漸變序列的終點(diǎn)。因?yàn)樵诓钪道鄯e的過程中,即使?jié)u變切換過程已經(jīng)結(jié)束,積累的差值可能還會(huì)增大,只是此時(shí)圖像已處于下一個(gè)鏡頭之內(nèi),增大的幅度將不會(huì)如切換過程中那么大。如此導(dǎo)致的結(jié)果,就是錯(cuò)過實(shí)際的漸變切換終點(diǎn)而造成誤判。

3.滑動(dòng)窗口檢測(cè)算法單一閾值算法選取某一全局性的參數(shù)作為判定閾值,這對(duì)于整個(gè)畫面變化平緩的視頻來說具有較好的檢測(cè)效果。但是對(duì)那些畫面變化較為劇烈的視頻片段而言,此算法存在明顯的不足。因此,應(yīng)對(duì)直方圖差值的局部變化進(jìn)行分析。圖14-7是滑動(dòng)窗口檢測(cè)算法示意圖。此算法定義一個(gè)合適大小的窗口,此窗口沿著幀間差值圖的橫坐標(biāo)方向移動(dòng),在窗口內(nèi)部對(duì)直方圖差值進(jìn)行計(jì)算,找出區(qū)域性的極大值點(diǎn),然后將其與窗口內(nèi)第二大差值相比較,當(dāng)極大值與第二大差值差別達(dá)到某一系數(shù)時(shí),即判定此極大值點(diǎn)為鏡頭切換點(diǎn)。圖14-7滑動(dòng)窗口檢測(cè)算法示意圖該算法可以用以下語言來描述:

(1)定義一個(gè)大小為2m-1的窗口,使待檢測(cè)的幀位于窗口的正中位置。

(2)根據(jù)下式計(jì)算第i幀與第i+1幀的差異:(14-5)其中:Hi是第i幀直方圖;n為直方圖的顏色數(shù)目。

(3)如果同時(shí)滿足以下條件,則認(rèn)為第l幀是鏡頭切換位置:①Dl>Dj,j=l-m+1,…,l-1,l+1,…,l+m-1;②Dl>b·Dk,Dk為窗口中第二大的差值,b為給定的系數(shù)。滑動(dòng)窗口檢測(cè)算法充分利用了鏡頭切換位置附近的局部信息,計(jì)算簡(jiǎn)便。它認(rèn)為在鏡頭切換位置附近的一個(gè)局部區(qū)域內(nèi),鏡頭切換點(diǎn)處的幀間差值要遠(yuǎn)遠(yuǎn)大于鏡頭內(nèi)部的幀間差值,這也是鏡頭邊界檢測(cè)的基本思想。從實(shí)驗(yàn)效果看,滑動(dòng)窗口檢測(cè)算法的檢測(cè)效果比單一閾值方法有相當(dāng)大的提高。圖14-8是采用滑動(dòng)窗口檢測(cè)方法對(duì)一段廣告視頻進(jìn)行鏡頭檢測(cè)的結(jié)果。圖14-8滑動(dòng)窗口檢測(cè)方法分析結(jié)果

4.閃光檢測(cè)視頻中常有突然的閃光出現(xiàn),閃光持續(xù)時(shí)間很短,亮度很大,但是場(chǎng)景卻由于時(shí)間短暫而變化很小。在幀間差值圖中閃光表現(xiàn)為兩個(gè)相鄰很近、高度相當(dāng)?shù)耐黄?而在兩峰之間和兩峰的旁邊,差異很小。按照一般的檢測(cè)算法,閃光出現(xiàn)時(shí)和結(jié)束時(shí)都會(huì)被認(rèn)為是鏡頭突變。但是無論是從突變的定義來看,還是從視頻內(nèi)容上來看,把閃光位置認(rèn)為是突變是不合理的。因此,有必要檢測(cè)閃光的位置,把它從鏡頭切換中除去。圖14-9是視頻《電影的故事》中的一段幀間差值圖。A和B是兩個(gè)典型的閃光位置。由圖可見,A與B的形狀非常類似,兩處均是相鄰很近的雙峰值,而且雙峰值均比5倍的差值平均線大很多。圖14-9視頻片段《電影的故事》中的兩個(gè)閃光位置圖14-10所示為閃光位置B處相鄰幀圖像及其直方圖。這組鏡頭描述的是男女主人公在街道上照相的情景。為了表現(xiàn)出較強(qiáng)的藝術(shù)效果,鏡頭在第251幀處加入了極高亮度的一幀,目的是為了表現(xiàn)照相機(jī)閃光燈點(diǎn)亮的瞬間。觀察第251幀前后鄰近的幀可以看出,雖然此組圖像被第251幀的閃光打斷,但是仍然屬于同一個(gè)鏡頭。如果按照全局單一閾值算法進(jìn)行判斷,由于幀間差值均高于5倍的差值平均線,因此它們將全部被判定為鏡頭突變點(diǎn)。顯然,這是不符合實(shí)際的。應(yīng)用其他檢測(cè)算法也會(huì)出現(xiàn)類似的情況。圖14-10閃光位置B處相鄰幀圖像及其直方圖閃光因?yàn)橛猩鲜雒黠@的特征,所以可以得出以下檢測(cè)依據(jù):局部最大值同局部第二大值很接近,并且兩者都比其他的值大許多。圖14-11是閃光檢測(cè)算法示意圖。閃光檢測(cè)是鏡頭檢測(cè)算法中必須考慮的,它對(duì)鏡頭檢測(cè)的準(zhǔn)確率影響較。圖14-11閃光檢測(cè)算法示意圖14.1.3鏡頭的表示將視頻分割為鏡頭以后,就需要采用某種方法來表示這些鏡頭的內(nèi)容。傳統(tǒng)的方法是采用文字索引來代表鏡頭。顯然這種方法需要人工的干預(yù),這不但增加了建立視頻數(shù)據(jù)庫(kù)的工作量,而且由于用來描述一個(gè)鏡頭的文字因人而異,因此用文字來代表鏡頭內(nèi)容存在一定的片面性。基于內(nèi)容的鏡頭表示方法采用從鏡頭本身提取的視頻特征(如圖像、聲音等)作為鏡頭的屬性。一旦確定了合適的算法,這種表示方法可以由計(jì)算機(jī)自動(dòng)完成,而且由于特征取自鏡頭本身,因此具有較強(qiáng)的代表性?;趦?nèi)容的鏡頭表示方法可分為兩類:靜止的和運(yùn)動(dòng)的。靜止的表示方法是用與鏡頭內(nèi)容相關(guān)的某幾幅圖像來代表鏡頭內(nèi)容,這些圖像被稱作代表幀。運(yùn)動(dòng)的表示方法利用了視頻中的運(yùn)動(dòng)特性,主要包括攝像機(jī)操作和目標(biāo)運(yùn)動(dòng)等。代表幀,又稱作關(guān)鍵幀,是用于描述一個(gè)鏡頭的關(guān)鍵圖像,它反映了鏡頭的主要內(nèi)容。用代表幀來代表鏡頭有幾個(gè)原因。首先,在視頻數(shù)據(jù)庫(kù)生成時(shí),需要對(duì)代表幀按照靜態(tài)圖像的方法進(jìn)行處理,并提取代表幀的特征作為鏡頭的索引。其次,在查詢過程中,代表幀是視頻查詢返回的基本單元。例如,當(dāng)查詢“主色調(diào)為紅色的鏡頭”時(shí),可能會(huì)得到一組鏡頭,并由一組代表幀來表示。如果要看視頻鏡頭本身,則只要在查詢系統(tǒng)中點(diǎn)擊相應(yīng)的代表幀圖像即可。另外,從鏡頭中提取代表幀的算法一般較為簡(jiǎn)單,且用代表幀表示鏡頭內(nèi)容較為直觀,符合人們的邏輯思維過程。因此代表幀成為鏡頭最主要的表示形式。在拍攝視頻時(shí),根據(jù)劇情需要,一個(gè)鏡頭可以采用多種攝像機(jī)運(yùn)動(dòng)方式進(jìn)行處理,這樣就得到具有不同運(yùn)動(dòng)狀態(tài)的鏡頭。攝像機(jī)的操作主要有搖鏡頭、推拉攝影、跟蹤攝影等。搖鏡頭(panning),指攝像機(jī)的位置不變,在拍攝過程中僅靠鏡頭移動(dòng),它是轉(zhuǎn)動(dòng)“眼球”或“脖子”觀看對(duì)象方式的再現(xiàn);推拉(zooming),指從遠(yuǎn)處開始,逐漸推近到拍攝對(duì)象(稱為“推”),或從近處開始,逐漸地拍成全景(稱為“拉”);跟蹤(tracking),指鏡頭跟蹤著被拍攝對(duì)象移動(dòng),形成追蹤的效果。在進(jìn)行視頻檢索時(shí),可以通過查詢鏡頭的攝像機(jī)運(yùn)動(dòng)方式來檢索出所需要的視頻片斷,如查詢“包含攝像機(jī)跟蹤對(duì)象的鏡頭”。鏡頭內(nèi)主體目標(biāo)的運(yùn)動(dòng)是非常重要的信息。目標(biāo)運(yùn)動(dòng)可以用運(yùn)動(dòng)方向和運(yùn)動(dòng)幅度來描述。事實(shí)上,許多目標(biāo)的運(yùn)動(dòng)也與攝像機(jī)操作有關(guān)。通過對(duì)視頻的研究發(fā)現(xiàn),當(dāng)目標(biāo)運(yùn)動(dòng)時(shí),在視頻上表現(xiàn)為背景在迅速地變化,運(yùn)動(dòng)目標(biāo)實(shí)際上相對(duì)鏡頭沒有太大的運(yùn)動(dòng),而是攝像機(jī)在操作,這樣就可以利用攝像機(jī)操作的特征進(jìn)行檢索。除此之外,也存在一些鏡頭,攝像機(jī)本身不動(dòng),而目標(biāo)物體在鏡頭內(nèi)部運(yùn)動(dòng)。14.1.4代表幀的選取方法

代表幀是從原始的視頻中提取的一些靜止圖像,它們可以概括地表示各個(gè)鏡頭的內(nèi)容。一方面,代表幀集合可以支持對(duì)整個(gè)視頻內(nèi)容的快速瀏覽;另一方面,通過提取每個(gè)代表幀的視覺特征并建立索引,可以實(shí)現(xiàn)對(duì)視頻內(nèi)容的檢索。代表幀的選取方法有多種。提取代表幀不僅要注意能夠接近全面地反映鏡頭的內(nèi)容,同時(shí)還要考慮到計(jì)算過程的復(fù)雜性。選取的代表幀應(yīng)該能夠提供給用戶一個(gè)鏡頭內(nèi)的場(chǎng)景運(yùn)動(dòng)以及表示出鏡頭內(nèi)容的含義。通常在一個(gè)鏡頭中,各幀對(duì)鏡頭內(nèi)容的表達(dá)力并不是相同的。在進(jìn)行代表幀選取時(shí)總希望選擇那些最具內(nèi)容表達(dá)概括力的幀。最簡(jiǎn)單的方式就是選用鏡頭的任何一幀作為代表幀,如鏡頭的起始幀、時(shí)間中點(diǎn)幀或者鏡頭的結(jié)束幀作為該鏡頭的代表幀。這種方法運(yùn)算量最小,可以獲得最少數(shù)目的代表幀,非常適合于內(nèi)容活動(dòng)性小或基本不變的鏡頭。

1.平均法平均法是指通過對(duì)整個(gè)鏡頭的計(jì)算,將具有一定平均意義的視頻幀作為鏡頭代表幀。通常,平均法分為幀平均值法和直方圖平均法。

(1)幀平均值法:即取一個(gè)鏡頭中所有幀的某個(gè)目標(biāo)位置上的像素值的平均值,將鏡頭中該位置的像素值最接近平均值的幀作為代表幀。該方法的難點(diǎn)在于對(duì)目標(biāo)位置的選定。由于鏡頭中任意兩相鄰幀之間的差異體現(xiàn)的位置并不是固定的,這樣就降低了幀平均法選取代表幀的正確性。

(2)直方圖平均法:即將鏡頭中所有幀的統(tǒng)計(jì)直方圖取平均,選擇與該平均直方圖最接近的幀作為代表幀。由于視頻中的幀已經(jīng)由三維的視頻流退化成了二維的圖像,因此可以選擇圖像處理中常用的低級(jí)視覺特征,例如顏色、紋理、形狀等,作為幀圖像的特征進(jìn)行統(tǒng)計(jì)平均。而在諸多的可視特征中,選擇顏色特征是較直接而有效的。這是因?yàn)?一方面,并非所有的鏡頭都有顯著的紋理、形狀等其他可視特征;另一方面,雖然幾何線索是識(shí)別對(duì)象最可靠的依據(jù),但是在視頻信息中有意義的對(duì)象或場(chǎng)景常常反復(fù)交錯(cuò)出現(xiàn)。顏色特征實(shí)際上是最為有效的手段,兩個(gè)包含不同對(duì)象或背景的鏡頭一般來說顏色不會(huì)非常相似。各種顏色特征中最常用的是顏色直方圖,它反映了圖像幀顏色的統(tǒng)計(jì)分布和基本色調(diào)。幀平均值法和直方圖平均法從計(jì)算量來說都不大,并且具有一定的平均意義。但對(duì)于有大運(yùn)動(dòng)變化的鏡頭,整個(gè)鏡頭的任何一幀都無法反映出其全部?jī)?nèi)容。

2.時(shí)間自適應(yīng)算法

對(duì)于那些存在攝像機(jī)頻繁運(yùn)動(dòng)或多個(gè)對(duì)象進(jìn)出的高活動(dòng)性鏡頭,以上的方法可能會(huì)丟掉許多原鏡頭中所包含的信息。所以,一種較合理的代表幀提取策略是根據(jù)鏡頭內(nèi)容隨時(shí)間的變化適應(yīng)性地選取代表幀。對(duì)于一個(gè)一維的連續(xù)信號(hào)g(x),若想選擇一組離散點(diǎn){x1,x2,…,xn},使得{g(x1),g(x2),…,g(xn)}形成對(duì)信號(hào)g(x)變化特點(diǎn)的良好簡(jiǎn)要表示,顯然希望g(xi)與g(xi+1)(i=1,2,…,n-1)間存在足夠的差異。根據(jù)上述思想,可以得到時(shí)間自適應(yīng)的代表幀提取算法。設(shè)鏡頭S由如下幀序列f1,If2,…,fn構(gòu)成,算法如下:

(1)選擇f1為代表幀輸出;

(2)i=1,l=2;

(3)計(jì)算

(4)若sd>δ,則選擇fl為代表幀輸出,并令i=l;

(5)l=l+1;

(6)若l>n,則結(jié)束退出,否則轉(zhuǎn)(3)。其中:δ是一個(gè)閾值,用來控制選取代表幀的數(shù)量;d(·)用于度量基于某個(gè)特征的兩幀之間的相似程度,值越小則兩幀越相似,一般可以采用顏色直方圖來度量。

3.大運(yùn)動(dòng)變化鏡頭的代表幀提取方法對(duì)于包含有場(chǎng)景或目標(biāo)變化的大運(yùn)動(dòng)鏡頭,如一個(gè)球在草地上來回滾動(dòng),有時(shí)候球可能占據(jù)了整個(gè)畫面,有時(shí)候又可能向后滾得很遠(yuǎn)以至于只剩下草地占據(jù)大部分畫面,或者兩者都有的情況,使得整個(gè)鏡頭的變化很大。如果取這三種情況的任何一種作為代表幀都不太合適,如果取這三幀作為整個(gè)鏡頭的表示,則能較好地反映整個(gè)鏡頭的情況。大運(yùn)動(dòng)變化鏡頭的代表幀提取方法是基于視頻幀顏色數(shù)據(jù)和直方圖分布來選取鏡頭代表幀的。在檢測(cè)到一個(gè)鏡頭以后,首先可以確定該鏡頭是平穩(wěn)鏡頭還是大運(yùn)動(dòng)變化的鏡頭或是攝像機(jī)引起的變化鏡頭。如果是平穩(wěn)鏡頭,則幀間差值維持較小的數(shù)值,且取值比較穩(wěn)定。如果是大運(yùn)動(dòng)變化的鏡頭(包括攝像機(jī)運(yùn)動(dòng)引起的變化),則幀間差值一直維持較大的數(shù)值,且起伏很大。對(duì)于平穩(wěn)鏡頭,選取一個(gè)代表幀就足夠了;對(duì)于大運(yùn)動(dòng)變化的鏡頭,可用如下方法來提取代表幀。設(shè)一個(gè)鏡頭的第i個(gè)圖像幀為fi,其直方圖表示為H(fi),幀間差值為Di,δ1和δ2分別為較低的閾值和較高的閾值,則代表幀RF提取過程如下:

(1)對(duì)于所有i,如果有δ1<Di<δ2,則取RF=fi,i為鏡頭中的任何一幀。

(2)如果在i0處,Di0滿足Di0>δ2,則取RF1=fj1,RF2=fj2,其中j1為小于i0的某個(gè)數(shù),j2為大于i0的某個(gè)數(shù)。

(3)如果差值Di不滿足(1)中的條件,且有多個(gè)差值滿足(2)中的條件,其中最大的差值為Dj0,則取RF1=fj0-1;對(duì)于其他滿足(2)中條件的對(duì)應(yīng)幀,計(jì)算如果Dji>δ2,取RF2=fji-1(ji≠j0),然后再將其余滿足(2)中條件的對(duì)應(yīng)幀與RF1和RF2比較,計(jì)算Dj(j≠ji,j≠j0),如果與上述兩幀的差都滿足(2)中的條件,則RF3=fj-1。以此類推,可得到所有與前面所選的代表幀不相似的幀作為代表幀。上述算法表明:

(1)對(duì)于變化不太強(qiáng)烈的大運(yùn)動(dòng)變化鏡頭,可取鏡頭中任何一幀作為代表幀。

(2)對(duì)于有強(qiáng)烈變化的鏡頭,取變化前和變化后的兩幀作為代表幀。

(3)如果鏡頭內(nèi)變化很多,且它還是一個(gè)鏡頭,則并不需要選取所有變化前后的幀作為代表幀。而先取運(yùn)動(dòng)變化最明顯的前一幀作為初始代表幀,其他代表幀的選取通過與此代表幀比較,如果與此代表幀相似,則不再作為代表幀,只有與初始代表幀不相似的幀才可作為后面選定的代表幀。

4.基于鏡頭運(yùn)動(dòng)的拼接圖法對(duì)于平穩(wěn)的鏡頭,選取一個(gè)代表幀即可。但對(duì)于有些特殊的鏡頭,如時(shí)間較長(zhǎng)的、緩慢轉(zhuǎn)動(dòng)的、攝取全景的鏡頭或長(zhǎng)距離搖動(dòng)的鏡頭,一個(gè)代表幀往往不能完全表示整個(gè)鏡頭的內(nèi)容,這時(shí)候就需要提取多個(gè)代表幀。但直接提取的多個(gè)代表幀在表現(xiàn)上具有很多相似之處,如果直接將多個(gè)代表幀表現(xiàn)出來,不僅會(huì)造成空間的浪費(fèi),而且用戶瀏覽時(shí)也無法區(qū)別這多個(gè)代表幀是一個(gè)鏡頭還是多個(gè)鏡頭。因此,需要將整個(gè)鏡頭用一幅能反映全部鏡頭內(nèi)容的圖像來表示,這幅圖像需要通過拼接來實(shí)現(xiàn)。所謂拼接圖,又叫全景圖,即通過計(jì)算主要背景的運(yùn)動(dòng)轉(zhuǎn)換,將運(yùn)動(dòng)變化的視頻幀圖像無縫地拼接成一個(gè)合成的圖像作為整個(gè)鏡頭捕獲的所有運(yùn)動(dòng)情況的真正描述,這個(gè)合成的圖像即為拼接圖。拼接圖將視頻鏡頭的多個(gè)視頻幀拼接成一個(gè)全景圖,這個(gè)全景圖作為代表幀可以將整個(gè)鏡頭的運(yùn)動(dòng)狀態(tài)反映出來。全景圖的拼接方法簡(jiǎn)單地說就是將相鄰的兩幀圖像中的相同地方保留,再加上不同的地方,以此類推,得到包括全景的圖像。拼接圖像的生成包括以下3個(gè)步驟:

(1)圖像對(duì)準(zhǔn)。此步驟根據(jù)圖像運(yùn)動(dòng)模型,計(jì)算相鄰幀運(yùn)動(dòng)參數(shù),使得各幀圖像都在一個(gè)統(tǒng)一的坐標(biāo)系下對(duì)準(zhǔn),以進(jìn)行拼接。

(2)圖像整合。在經(jīng)過圖像對(duì)準(zhǔn)后,對(duì)于統(tǒng)一坐標(biāo)下的同一點(diǎn),往往有多個(gè)幀中的像素與其對(duì)應(yīng)。圖像整合即從這些像素求出拼接中像素的過程。

(3)殘差估計(jì)。在得到圖像拼接以后,預(yù)測(cè)圖像和實(shí)際的幀之間存在著誤差,稱為殘差,這需要根據(jù)具體的情況進(jìn)行估計(jì)和相應(yīng)的處理。顯然,采用圖像拼接算法提取鏡頭代表幀是最為有效、可靠的。但此算法的復(fù)雜程度較高,其本身亦是值得深入研究的課題,因此,在基于內(nèi)容的視頻檢索中,一般不采用這種拼接算法選取代表幀。14.2主持人識(shí)別在新聞視頻分析和新聞視頻數(shù)據(jù)庫(kù)的研究中,主持人鏡頭檢測(cè)具有重要的意義。主持人鏡頭是新聞視頻所特有的,是新聞視頻與其他視頻類型的最明顯的區(qū)別之一。主持人鏡頭是新聞場(chǎng)景的重要結(jié)構(gòu)特征,它的出現(xiàn)往往表示一個(gè)新聞故事的結(jié)束和新的故事的開始,故可以作為新聞場(chǎng)景分割的邊界。因而對(duì)主持人鏡頭的檢測(cè)已成為新聞節(jié)目?jī)?nèi)容分析的重要手段。在新聞節(jié)目中,當(dāng)主持人報(bào)道新聞主要內(nèi)容時(shí),視頻幀有明顯固定的模式。例如,當(dāng)有一個(gè)主持人進(jìn)行新聞報(bào)道時(shí),畫面可以分為三個(gè)部分:主持人人臉、節(jié)目圖標(biāo)和背景畫面。目前,新聞視頻主持人鏡頭檢測(cè)方法大致分為模板匹配方法和聚類方法兩類。模板匹配方法的核心思想是利用主持人鏡頭在時(shí)間和空間結(jié)構(gòu)的先驗(yàn)知識(shí)建立播音員鏡頭模板,然后把候選播音員鏡頭和模板進(jìn)行匹配,根據(jù)某種相似度度量決定其是否為播音員鏡頭。在此基礎(chǔ)上出現(xiàn)了眾多改進(jìn)算法,比如,基于主色特征模板方法、基于背景不變性的模板匹配方法、二階段模板匹配方法、基于人臉膚色特征的模板匹配方法。這類方法依賴于模板中內(nèi)容的穩(wěn)健性,當(dāng)主持人出現(xiàn)的方式、演播室背景、主持人的位置和大小、光照條件等發(fā)生變化時(shí),性能受到很大影響,通用性不強(qiáng)。聚類方法抓住一段新聞節(jié)目中主持人鏡頭重復(fù)出現(xiàn)、內(nèi)容變化不大的特點(diǎn),對(duì)鏡頭的關(guān)鍵幀提取特征后進(jìn)行聚類,根據(jù)類的大小確定主持人鏡頭。當(dāng)非主持人鏡頭也重復(fù)出現(xiàn),并且內(nèi)容相似的時(shí)候,聚類方法往往產(chǎn)生誤判,并且主持人鏡頭的背景也會(huì)動(dòng)態(tài)變化,聚類方法會(huì)產(chǎn)生漏判。通過對(duì)各種類型的新聞節(jié)目進(jìn)行大量的分析、統(tǒng)計(jì),可以發(fā)現(xiàn)主持人鏡頭中相對(duì)穩(wěn)定的就是主持人本身。因此提取主持人自身的特征是充分刻畫主持人鏡頭和非主持人鏡頭差異的有效途徑。一種簡(jiǎn)單、有效的改進(jìn)是首先在線提取主持人鏡頭,從鏡頭關(guān)鍵幀中獲得擴(kuò)展人臉區(qū)域模板(一般為自動(dòng)選取,有時(shí)也需要人工協(xié)助),將其作為主持人鏡頭模板,然后利用該模板對(duì)檢測(cè)出的擴(kuò)展人臉區(qū)域進(jìn)行匹配,根據(jù)匹配結(jié)果確定主持人鏡頭。在匹配中,為了克服人臉檢測(cè)算法帶來的虛警問題,引入了多重查詢的思想,并對(duì)結(jié)果進(jìn)行融合得到最終匹配結(jié)果。該方法稱為擴(kuò)展人臉區(qū)域(ExtendedFaceRegion)方法,簡(jiǎn)稱EFR方法。

EFR方法具有計(jì)算簡(jiǎn)單、檢測(cè)精度高的特點(diǎn),同時(shí)它集成到鏡頭分割的算法中,在一次掃描視頻序列的過程中不僅可以完成鏡頭分割,而且能夠準(zhǔn)確定位主持人鏡頭。下面介紹EFR算法的具體步驟,如圖14-12所示。圖14-12

EFR方法原理框圖

1.擴(kuò)展人臉區(qū)域提取和特征表示

主持人的擴(kuò)展人臉區(qū)域(EFR)的提取是建立在鏡頭檢測(cè)的基礎(chǔ)上,對(duì)鏡頭的關(guān)鍵幀進(jìn)行處理。由于一個(gè)主持人鏡頭內(nèi)部運(yùn)動(dòng)變化相對(duì)于非主持人鏡頭來說較小,因此直接選取鏡頭的時(shí)間中點(diǎn)幀作為關(guān)鍵幀,然后利用OpenCV里的人臉檢測(cè)函數(shù)對(duì)關(guān)鍵幀進(jìn)行掃描,對(duì)檢測(cè)到的人臉區(qū)域按比例向下延伸得到人的上半身區(qū)域,從而得到代表這個(gè)鏡頭的EFR。主持人鏡頭的EFR包含了主持人人臉信息、主持人衣服的顏色和風(fēng)格信息。它與演播室背景、主持人的位置、標(biāo)題字幕無關(guān),也可與現(xiàn)場(chǎng)報(bào)道中類似于主持人鏡頭的EFR區(qū)別開來,這為檢測(cè)新聞視頻中主持人鏡頭提供了有力的依據(jù)和保證。圖14-13(a)、(b)、(c)給出了一段英國(guó)BBC新聞中不同時(shí)刻的主持人鏡頭,可以看出,主持人的位置、演播室背景、字幕位置都出現(xiàn)了明顯改變,但是,不同鏡頭中的EFR,即白色矩形邊框中區(qū)域,與圖14-13(d)相比非常相似。圖14-13(e)和(f)是兩個(gè)容易與主持人鏡頭混淆的例子,但是從EFR來比較,會(huì)發(fā)現(xiàn)與圖14-13(d)差別明顯。圖14-13一段BBC新聞中不同時(shí)刻鏡頭與主持人EFR模板

2.建立EFR模板對(duì)于大多數(shù)的新聞節(jié)目,在新聞的主題音樂結(jié)束之后的一個(gè)相對(duì)固定的時(shí)間間隔內(nèi)通常會(huì)有主持人鏡頭出現(xiàn),如果該新聞節(jié)目是由多主持人聯(lián)合播報(bào),那么在這個(gè)主持人鏡頭中會(huì)包含所有主持人,例如CCTV1新聞聯(lián)播節(jié)目、英國(guó)BBC等,這樣就可以利用檢測(cè)到的主題音樂的結(jié)束點(diǎn)和固定的時(shí)間間隔來定位第一個(gè)主持人鏡頭。提取EFR,建立主持人的EFR模板,采用分塊HSV顏色直方圖作為模板參數(shù)。對(duì)于一些特殊情況,可以在播放新聞時(shí),與系統(tǒng)交互地選取典型主持人畫面,提取畫面中的主持人EFR作為模板。模板的數(shù)目與主持人的數(shù)目相同。

3.EFR匹配

在EFR匹配時(shí),計(jì)算對(duì)應(yīng)區(qū)間直方圖之間的差異,并對(duì)不同的區(qū)間設(shè)置不同的加權(quán)系數(shù),以加權(quán)后的平均距離作為二者之間的相似度。在對(duì)EFR進(jìn)行分塊時(shí),綜合考慮計(jì)算的復(fù)雜度和檢測(cè)結(jié)果的精度,分割成3×3個(gè)區(qū)域。在得到了每個(gè)區(qū)域的HSV直方圖矢量后,需選擇合適的距離度量來表示對(duì)應(yīng)區(qū)域直方圖的差異,可以簡(jiǎn)單用絕對(duì)值距離來表示,這樣計(jì)算簡(jiǎn)單,滿足計(jì)算速度的需要:(14-6)通過實(shí)驗(yàn),EFR的各個(gè)區(qū)域的相對(duì)加權(quán)系數(shù)如式(14-7)所示,式中加權(quán)值的位置和圖像分割區(qū)域相對(duì)應(yīng)。分割區(qū)域的加權(quán)體現(xiàn)了各分割區(qū)域的重要程度。(14-7)計(jì)算出候選主持人EFR與EFR模板各對(duì)應(yīng)區(qū)間域直方圖距離,分別記為d1,d2,…,d9,則二者之間的相似度由加權(quán)系數(shù)和區(qū)域直方圖差值計(jì)算得到(14-8)這個(gè)值在0和1之間,越是接近0,則表明候選主持人EFR與EFR模板越相似。雖然這種匹配方法能取得不錯(cuò)的性能,但是由于人臉檢測(cè)算法存在誤檢或者將候選關(guān)鍵幀中的非主持人人臉檢出,會(huì)導(dǎo)致主持人鏡頭的關(guān)鍵幀中存在多個(gè)候選EFR,這些EFR中,有的的確是主持人EFR,有的卻不是,因此還需要采用合適的匹配策略來判定候選鏡頭是否是主持人鏡頭。這里引入多重查詢的思想,對(duì)于候選鏡頭中的每個(gè)EFR都與EFR模板進(jìn)行匹配得到相似度Simi(i=1,…,

m),m為候選EFR個(gè)數(shù)。如果EFR模板數(shù)不只一個(gè),則取該候選EFR與模板進(jìn)行匹配時(shí)的最小值作為相似度。當(dāng)計(jì)算完所有候選區(qū)域的相似度后,取相似度中的最小值Min(Simi)作為候選鏡頭是否是主持人鏡頭的得分,如果小于指定的閾值,則判定為主持人鏡頭。這里,以東森新聞中一主持人鏡頭為例,給出EFR模板匹配流程圖,如圖14-14所示,可見,只要候選EFR中有一個(gè)是主持人EFR,那么該鏡頭就判別為主持人鏡頭。圖14-14

EFR模板匹配流程圖從新聞視頻數(shù)據(jù)庫(kù)中選取比較有代表性的幾類新聞節(jié)目作為實(shí)驗(yàn)對(duì)象。其中包括:1個(gè)小時(shí)CCTV1的新聞聯(lián)播,它的主持人鏡頭畫面變化比較小,沒有太多的動(dòng)態(tài)背景和標(biāo)題條,屬于標(biāo)準(zhǔn)的雙主持人交替播報(bào)形式;1個(gè)小時(shí)CCTV2的全球咨詢榜,它的主持人鏡頭內(nèi)有較大的動(dòng)態(tài)窗口(約占2/3),主持人表情和姿態(tài)變化豐富,屬于單主持人連續(xù)播報(bào)的形式;1個(gè)小時(shí)的東森新聞,它的主持人鏡頭畫面變化非常大,有動(dòng)態(tài)變化的背景和標(biāo)題;1個(gè)小時(shí)的英國(guó)BBC新聞,它的主持人鏡頭畫面變化也非常大,類似主持人鏡頭出現(xiàn)較多。以上測(cè)試數(shù)據(jù)約為4個(gè)小時(shí),共計(jì)有2811個(gè)鏡頭,其中實(shí)際的主持人鏡頭為106個(gè)。在測(cè)試前手工標(biāo)注出樣本的所有主持人鏡頭,作為方法檢測(cè)結(jié)果的標(biāo)準(zhǔn)參照。對(duì)以上實(shí)驗(yàn)數(shù)據(jù)分別采用模板匹配法、人臉檢測(cè)法、動(dòng)態(tài)聚類法和EFR方法進(jìn)行主持人鏡頭檢測(cè)。采用常用的查準(zhǔn)率(準(zhǔn)確率)和查全率(召回率)兩個(gè)指標(biāo)來評(píng)估主持人鏡頭檢測(cè)算法的性能。查全率和查準(zhǔn)率的定義如下:四種方法的平均查全率和查準(zhǔn)率如圖14-15所示,各類新聞視頻的檢測(cè)結(jié)果如表14-1所示。從圖14-15可以看出,EFR方法具有很好的適應(yīng)性,在平均查全率上達(dá)到了94.1%,與模板匹配法、人臉檢測(cè)法和動(dòng)態(tài)聚類法相比分別提高了9.1%、7.3%和5.2%,在平均查準(zhǔn)率上達(dá)到了96.4%,與模板匹配法、人臉檢測(cè)法和動(dòng)態(tài)聚類法相比分別提高了6.9%、6.4%和8.0%,效果明顯。圖14-15四種方法的平均查全率和查準(zhǔn)率14.3標(biāo)題條識(shí)別標(biāo)題條作為新聞視頻的一個(gè)重要特征,在新聞視頻的研究中占有非常重要的地位。標(biāo)題條的出現(xiàn)往往表示一個(gè)新聞故事的結(jié)束和另一個(gè)新聞故事的開始,故可以作為新聞場(chǎng)景分割的標(biāo)志。標(biāo)題條的文字信息是對(duì)當(dāng)前新聞場(chǎng)景內(nèi)容的最簡(jiǎn)練且準(zhǔn)確的概述,它能很好地代表新聞故事的內(nèi)容,因而對(duì)標(biāo)題條的檢測(cè)已成為新聞節(jié)目?jī)?nèi)容分析的重要手段。這里所說的標(biāo)題條識(shí)別包括兩方面內(nèi)容:一方面,檢測(cè)在時(shí)間維上有哪些視頻幀中存在標(biāo)題條;另一方面,對(duì)于一個(gè)特定視頻幀在空間維上識(shí)別標(biāo)題條文字所在的具體子區(qū)域。14.3.1含有標(biāo)題條的圖像幀檢測(cè)在對(duì)大量新聞樣本進(jìn)行觀察后發(fā)現(xiàn)以下幾條規(guī)律:

(1)標(biāo)題條出現(xiàn)的位置相對(duì)固定,一般都在屏幕下方1/3范圍內(nèi)。

(2)標(biāo)題條的背景都為不透明或半透明,通常選取白、藍(lán)、黃色的醒目的顏色,文字選取與背景相差明顯的顏色,以達(dá)到醒目、易于閱讀的效果。

(3)標(biāo)題條都為矩形。對(duì)一幅典型的帶有標(biāo)題條的新聞視頻幀(如圖14-16所示),可從上而下將其分為:區(qū)域1:新聞故事視頻內(nèi)容;區(qū)域2:新聞故事內(nèi)容文字描述;區(qū)域3:報(bào)道記者及電視臺(tái)(有時(shí)不存在);區(qū)域4:滾動(dòng)純文字新聞(有時(shí)不存在)。圖14-16典型的標(biāo)題條視頻幀在這四個(gè)區(qū)域的交界處對(duì)應(yīng)著三條邊緣直線,把它們分別指定為邊緣直線L1、L2、L3。在通過大量實(shí)驗(yàn)后注意到,幾乎所有存在標(biāo)題條的新聞視頻幀至少可以檢測(cè)到一條邊緣直線,因此可以將水平邊緣直線作為標(biāo)題條識(shí)別的依據(jù)。進(jìn)一步觀察后發(fā)現(xiàn):為了便于區(qū)別,新聞節(jié)目中的區(qū)域2和區(qū)域3所采用的顏色相差較大,因而邊緣L2如果存在的話,一般不會(huì)漏檢。邊緣L1、L3有可能受到干擾而沒有被全部檢測(cè)出來,這時(shí)可以根據(jù)已檢測(cè)到的邊緣直線的具體位置初步判定其類型,然后通過文字區(qū)域檢測(cè)部分確定未檢測(cè)到的水平邊緣直線的位置。下面詳細(xì)介紹具體步驟:首先把新聞視頻幀轉(zhuǎn)化為灰度圖像。在一些文獻(xiàn)中常采用RGB顏色空間的R通道進(jìn)行變換。這樣做的依據(jù)是視頻中出現(xiàn)的文字大多為白、黃和黑色,選擇R通道進(jìn)行變換會(huì)得到清晰的文字邊緣。但考慮到視頻中文字顏色的不確定性,為增加算法的適應(yīng)性,在此選擇如下公式:(14-11)其中:Y(x,y)為像素點(diǎn)(x,y)的灰度值;R(x,y)、G(x,y)、B(x,y)分別為(x,y)點(diǎn)像素RGB顏色的紅、綠、藍(lán)分量。得到灰度圖后,采用Roberts邊緣檢測(cè)算子對(duì)圖像進(jìn)行邊緣檢測(cè)。Roberts算子是2×2算子,是一種利用局部差分尋找邊緣的算子,由下式給出:(14-12)由于Roberts算子對(duì)邊緣陡峭的低噪聲圖像響應(yīng)效果比較好,因此經(jīng)它處理后的水平邊緣直線可以比較容易地被檢測(cè)到。在具體檢測(cè)過

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論