數(shù)字音視頻處理 課件 第7章 數(shù)字圖像視頻處理技術(shù)_第1頁(yè)
數(shù)字音視頻處理 課件 第7章 數(shù)字圖像視頻處理技術(shù)_第2頁(yè)
數(shù)字音視頻處理 課件 第7章 數(shù)字圖像視頻處理技術(shù)_第3頁(yè)
數(shù)字音視頻處理 課件 第7章 數(shù)字圖像視頻處理技術(shù)_第4頁(yè)
數(shù)字音視頻處理 課件 第7章 數(shù)字圖像視頻處理技術(shù)_第5頁(yè)
已閱讀5頁(yè),還剩184頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

第7章

數(shù)字圖像/視頻處理技術(shù)7.1圖像的低層視覺(jué)處理7.2圖像的中層視覺(jué)處理7.3視頻處理中的關(guān)鍵技術(shù)研究7.4本章小結(jié)

7.1圖像的低層視覺(jué)處理

7.1.1概述圖像的低層視覺(jué)處理主要是指通過(guò)各種濾波器來(lái)實(shí)現(xiàn)圖像增強(qiáng)。圖像濾波即在盡量保留圖像細(xì)節(jié)特征的條件下對(duì)目標(biāo)圖像的噪聲進(jìn)行抑制,是圖像預(yù)處理中不可缺少的操作,其處理效果的好壞將直接影響到后續(xù)圖像處理和分析的有效性和可靠性。

圖像增強(qiáng)方法按作用域可分為空域法和頻域法兩類??沼蚍ㄖ苯訉?duì)圖像中像素灰度值進(jìn)行操作。常用的空域法包括圖像的灰度變換、直方圖修正、空域平滑、銳化處理和彩色增強(qiáng)等,本節(jié)重點(diǎn)介紹空域?yàn)V波增強(qiáng)。頻域法是在圖像的變換域中,對(duì)圖像的變換值進(jìn)行操作,然后經(jīng)逆變換獲得所需的增強(qiáng)結(jié)果。常用的方法包括低通濾波、高通濾波以及同態(tài)濾波等。

7.1.2空域?yàn)V波增強(qiáng)

空域?yàn)V波是在圖像空間中借助模板進(jìn)行鄰域操作完成的,根據(jù)其特點(diǎn)一般可分為線性和非線性兩類。線性系統(tǒng)的轉(zhuǎn)移函數(shù)和脈沖函數(shù)或點(diǎn)擴(kuò)散函數(shù)構(gòu)成傅里葉變換對(duì),所以線性濾波器的設(shè)計(jì)常常基于對(duì)傅里葉變換的分析。非線性空間濾波器則一般直接對(duì)鄰域進(jìn)行操作。另外,各種空域?yàn)V波器根據(jù)功能又主要分成平滑的和銳化的。平滑可用低通濾波實(shí)現(xiàn)。

平滑的目的又可分為兩類:一類是模糊,目的是在提取較大的目標(biāo)前去除太小的細(xì)節(jié)或?qū)⒛繕?biāo)內(nèi)的小間斷連接起來(lái);另一類是消除噪聲。銳化可用高通濾波實(shí)現(xiàn)。銳化的目的是為了增強(qiáng)被模糊的細(xì)節(jié)。空間濾波器的工作原理可借助頻域進(jìn)行分析。它們的基本特點(diǎn)是讓圖像在傅里葉空間某個(gè)范圍內(nèi)的分量受到抑制而讓其他分量不受影響,從而改變輸出圖像的頻率分布,以達(dá)到增強(qiáng)的目的。

圖像增強(qiáng)中用到的空間濾波器主要有兩類。一類是平滑(低通)濾波器,它能減弱或消除傅里葉空間的高頻分量,但不影響低頻分量。因?yàn)楦哳l分量對(duì)應(yīng)圖像中的區(qū)域邊緣等灰度值變化較大較快的部分,濾波器將這些分量濾去可使圖像平滑。另一類是銳化(高通)濾波器,它能減弱或消除傅里葉空間的低頻分量,但不影響高頻分量。

1.平滑濾波器

1)鄰域平均法

鄰域平均法是經(jīng)典的線性濾波器方法。我們知道,圖像中的大部分噪聲是隨機(jī)噪聲,其對(duì)某一像素點(diǎn)的影響可以看成是孤立的。因此,噪聲點(diǎn)與該像素點(diǎn)的鄰近各點(diǎn)相比,其灰度值有顯著的不同(突跳變大或變小)?;谶@一事實(shí),可以采用鄰域平均的方法來(lái)判定圖像中每一像素點(diǎn)是否有噪聲,并用適當(dāng)?shù)姆椒▉?lái)減弱或消除該噪聲。

圖7-1像素點(diǎn)(m,n)和其鄰域的坐標(biāo)示意圖

鄰域平均能很大程度上削弱噪聲,但同時(shí)會(huì)引起失真,具體表現(xiàn)為圖像中目標(biāo)物的邊緣或細(xì)節(jié)變模糊。圖像鄰域平均示例如圖7-2所示。圖7-2圖像鄰域平均示例

2)中值濾波法

中值濾波法是經(jīng)典的非線性濾波方法。我們知道,低通濾波器在消除噪聲的同時(shí)會(huì)使圖像中的一些細(xì)節(jié)變模糊。在含噪圖像中,噪聲往往以孤立點(diǎn)的形式出現(xiàn),尤其是干擾脈沖和椒鹽噪聲。這些噪聲所占的像素很少,而圖像則是由像素?cái)?shù)目較多、面積較大的塊組成的。如果既要消除噪聲又要保持圖像的細(xì)節(jié),可以使用中值濾波器。由于它在實(shí)際運(yùn)算中并不需要圖像的統(tǒng)計(jì)特性,因此比較方便。在一定的條件下,中值濾波法可以克服線性濾波器所帶來(lái)的圖像細(xì)節(jié)模糊問(wèn)題,而且對(duì)濾除脈沖干擾及圖像掃描噪聲最為有效。但是對(duì)一些細(xì)節(jié)多的圖像,特別是點(diǎn)、線、尖頂細(xì)節(jié)多的圖像不宜采用中值濾波的方法。

中值濾波法的原理是:對(duì)一個(gè)窗口(記為W)內(nèi)的所有像素灰度值進(jìn)行排序,取排序結(jié)果的中間值作為W中心點(diǎn)處像素的灰度值。用公式表示為

通常W內(nèi)像素個(gè)數(shù)選為奇數(shù),以保證有一個(gè)中間值。而若W內(nèi)像素?cái)?shù)選為偶數(shù),則取中間兩個(gè)值的平均值作為中值。

中值濾波的作用是:抑制干擾脈沖和點(diǎn)噪聲,并且能較好地保持圖像邊緣。

中值濾波的依據(jù)是:噪聲以孤立點(diǎn)的形式出現(xiàn),這些點(diǎn)對(duì)應(yīng)的像素?cái)?shù)很少,而圖像則由像素?cái)?shù)目較多、面積較大的塊構(gòu)成。

中值濾波的關(guān)鍵是:選擇合適的窗口形狀和大小,因?yàn)椴煌螤詈痛笮〉臑V波窗會(huì)帶來(lái)不同的濾波結(jié)果。一般要根據(jù)噪聲和圖像中目標(biāo)物細(xì)節(jié)的情況來(lái)選擇。常用的中值濾波窗口有線狀、十字形、X狀、方形、菱形和圓形等。對(duì)于有緩慢變化的較長(zhǎng)輪廓線物體的圖像,采用方形或圓形窗口為宜,對(duì)于包括尖頂角物體的圖像,適宜用十字形窗口。使用二維中值濾波最值得注意的是保持圖像中有效的細(xì)線狀物體。

中值濾波法與平均濾波法的對(duì)比:已知原始圖像塊(包含點(diǎn)噪聲)為f(m,n),加權(quán)平均法用模板

M1

處理,結(jié)構(gòu)為g1(m,n);中值濾波法用模板

M2

處理,結(jié)構(gòu)為g2(m,n);用矩陣可分別表示為

圖7-3給出了圖像平均濾波和中值濾波的對(duì)比結(jié)果。從圖中可以看出,加權(quán)平均法在濾掉點(diǎn)噪聲的同時(shí),使目標(biāo)物的邊緣變模糊;中值濾波法在濾掉點(diǎn)噪聲的同時(shí),保留了目標(biāo)物的邊緣。

圖7-3圖像平均濾波和中值濾波的對(duì)比

相對(duì)于平均濾波,中值濾波對(duì)于椒鹽噪聲及干擾脈沖有很好的濾除作用,同時(shí)還能保持目標(biāo)物的邊緣,但這要在合適的應(yīng)用場(chǎng)合和合適的濾波窗口形狀和大小的情況下,因?yàn)闉V波的目的是既要濾除噪聲和干擾,又要保持圖像中目標(biāo)物的細(xì)節(jié)。因此,在使用中值濾波時(shí),要注意以下事項(xiàng):①

中值濾波適合濾除椒鹽噪聲和干擾脈沖,尤其適合目標(biāo)物形狀是塊狀時(shí)的圖像濾波;②

具有豐富尖角幾何結(jié)構(gòu)的圖像,一般采用十字形濾波窗,且窗口大小最好不要超過(guò)圖像中最小目標(biāo)物的尺寸,否則會(huì)丟失目標(biāo)物的細(xì)小幾何特征;③

需要保持細(xì)線狀及尖頂角目標(biāo)物細(xì)節(jié)時(shí),最好不要采用中值濾波。

2.銳化濾波器

圖像在形成和傳輸過(guò)程中,如果成像系統(tǒng)聚焦不好或信道的帶寬過(guò)窄,會(huì)使圖像目標(biāo)物輪廓變模糊,細(xì)節(jié)不清晰。同時(shí),圖像平滑后也會(huì)變模糊,究其原因,主要是對(duì)圖像進(jìn)行了平均或積分運(yùn)算。對(duì)此,可采用相反的運(yùn)算(如微分運(yùn)算)來(lái)增強(qiáng)圖像,使圖像變得更清晰。圖像銳化處理要求輸入的圖像有較高的信噪比,否則經(jīng)過(guò)銳化后信噪比更低,因?yàn)殇J化將使噪聲受到比信號(hào)還強(qiáng)的增強(qiáng)。一般是先去除或減輕干擾噪聲后,才能進(jìn)行銳化處理。

微分作為數(shù)學(xué)中求變化率的一種方法,可用來(lái)求解圖像中目標(biāo)物輪廓和細(xì)節(jié)(統(tǒng)稱為邊緣)等突變部分的變化。對(duì)于數(shù)字信號(hào),微分通常用差分來(lái)表示。常用的一階和二階微分的差分表示為

在圖像銳化增強(qiáng)中,我們希望找到一種各向同性的邊緣檢測(cè)算子,使不同走向的邊緣都能達(dá)到增強(qiáng)的效果。這個(gè)算子就是拉普拉斯算子,該算子及其對(duì)f(x,y)的作用可表示為

則數(shù)字圖像的銳化公式為

用差分表示為

則圖像的拉普拉斯銳化表示為

式中,α

為銳化強(qiáng)度系數(shù)(一般取為正整數(shù)),α

越大,銳化的程度就越強(qiáng)。圖像在不同α

取值下的銳化結(jié)果對(duì)比如圖7-4所示。

圖7-4圖像在不同α取值下的銳化結(jié)果對(duì)比

將式(7-9)寫(xiě)成模板形式,則有

當(dāng)α取1和2時(shí),就有

圖7-4中的(b)和(c)就相當(dāng)于W2

和W3

對(duì)圖7-4(a)銳化的結(jié)果。同理,我們可以根據(jù)實(shí)際需要,設(shè)計(jì)出其他具有不同特性的銳化模板,如

式中,W1、W2

和W3

為拉普拉斯銳化模板,也稱為4鄰銳化模板;W4、W5

和W6

為8鄰銳化模板,也稱為8鄰拉普拉斯銳化模板,它們既能像8鄰模板一樣對(duì)水平和垂直方向邊緣有銳化增強(qiáng)作用,也對(duì)邊角方向的邊緣有增強(qiáng)作用;W7-

和W8

與其他模板不同的是,W7-在對(duì)水平和垂直方向邊緣增強(qiáng)的同時(shí),在對(duì)角方向還有平滑作用,W8在對(duì)對(duì)角方向邊緣增強(qiáng)的同時(shí),在水平和垂直方向還有平滑作用,即W7-

和W8

在銳化的同時(shí)還有抑制噪聲的作用。

圖7-5圖像、邊緣和銳化結(jié)果的關(guān)系(α=2)

7.1.3頻域增強(qiáng)

1.低通濾波

信息(包括信號(hào)和噪聲)在空域和頻域存在對(duì)應(yīng)關(guān)系,即隨空間位置突變的信息在頻域表現(xiàn)為高頻,而緩變的信息在頻域表現(xiàn)為低頻。具體到圖像中,邊緣和噪聲對(duì)應(yīng)頻域的高頻區(qū)域,背景及信號(hào)緩變部分則對(duì)應(yīng)頻域的低頻區(qū)域。因此,我們可以利用頻域的低通濾波法來(lái)達(dá)到濾除(高頻)噪聲的目的,這就是圖像的頻域平滑法,一般稱為頻域低通濾波法。

由于圖像中的邊緣反映在頻域上也是高頻,因此,在低通濾波的同時(shí),也會(huì)損失邊緣信息,使圖像變模糊。

設(shè)F(u,v)和G(u,v)分別由含噪圖像f(m,n)和濾波結(jié)果圖像g(m,n)的頻域表示,H(u,v)為低通濾波器。圖7-6給出了采用離散傅里葉變換(FFT)的頻域低通濾波法的處理過(guò)程。當(dāng)然這里的變換方法不僅僅局限于離散傅里葉變換。

圖7-6頻域低通濾波法的處理過(guò)程

由圖7-6可知,對(duì)含噪圖像f(m,n)進(jìn)行傅里葉變換,得到F(u,v),即

設(shè)計(jì)給定低通濾波器

H(u,v),則由卷積定理得

經(jīng)過(guò)傅里葉逆變換(IFFT)得到濾波結(jié)果圖像g(m,n),即

一個(gè)理想低通濾波器的傳遞函數(shù)定義為

式中,D0

為理想低通濾波器的截止頻率;D(u,v)為從頻域平面原點(diǎn)到點(diǎn)(u,v)的距離,即

理想低通濾波器的特征曲線如圖7-7所示。其濾波特征為:以D0為半徑的圓內(nèi)的所有頻率分量無(wú)失真地通過(guò),而圓外的所有頻率分量完全被抑制。事實(shí)上,這種理想低通濾波器是無(wú)法用硬件實(shí)現(xiàn)的,因?yàn)閷?shí)際的器件無(wú)法實(shí)現(xiàn)從1到0的突變。同時(shí),既然是理想的矩形特性,那么其反變換的特性必然會(huì)產(chǎn)生無(wú)限的振鈴現(xiàn)象。截止頻率半徑越小,這種現(xiàn)象就越嚴(yán)重。當(dāng)然,其濾波效果也就越差。這是理想低通濾波器不可克服的缺點(diǎn)。不同截止頻率的理想低通濾波結(jié)果的比較如圖7-8所示,其中,圖7-8(b)和圖7-8(c)中有明顯的振鈴現(xiàn)象出現(xiàn),而且圖像變模糊了。

圖7-7-理想低通濾波特性曲線

圖7-8不同截止頻率的理想低通濾波結(jié)果的比較

2.高通濾波

圖像的邊緣反映在頻域的高頻部分,通過(guò)頻域上高通濾波器可以得到圖像邊緣的信息,再對(duì)圖像進(jìn)行銳化,其結(jié)果相當(dāng)于對(duì)高頻(邊緣)分量的提升,可稱為頻域高通濾波法。

設(shè)F(u,v)和ΔF(u,v)分別表示原圖像f(m,m)和高通濾波結(jié)果Δf(m,n)的頻域,H(u,v)為高通濾波器,g(m,n)為銳化結(jié)果。圖7-9給出了頻域高通濾波法的處理過(guò)程。與低通濾波器相似,幾種常用的高通濾波器的特性曲線如圖7-10所示。高通濾波所得到的并不是銳化圖像,而是原圖像的高頻圖像,即圖像的邊緣,我們需要按如圖7-9所示的方法將該高頻圖像附加到原圖像中去,才能夠得到期望的銳化圖像。

圖7-9頻域高通濾波法的處理過(guò)程

圖7-10高通濾波器的特性曲線

與低通濾波器的性能相類似,由于理想高通濾波器是突變的,因此由它得到的高頻圖像中存在有較強(qiáng)的振鈴現(xiàn)象。不同截止頻率的理想高通濾波結(jié)果的比較如圖7-11所示。在圖7-11(b)和(c)中可以看到明顯的振鈴現(xiàn)象,即使在截止頻率較大的圖7-11(d)中也存在輕微的振鈴現(xiàn)象。

圖7-11不同截止頻率的理想高通濾波結(jié)果的比較

3.同態(tài)濾波

從圖像的形成和其光特性方面考慮,一幅圖像是由光源的照度分量(也稱為照度場(chǎng))i(m,n)和目標(biāo)場(chǎng)的反射分量r(m,n)組成的,即

圖7-12圖像同態(tài)濾波的處理過(guò)程

圖7-13同態(tài)濾波器的特性曲線

圖7-14圖像經(jīng)同態(tài)濾波后增晰的示例

7.2圖像的中層視覺(jué)處理

7.2.1概述圖像的低層視覺(jué)處理主要是對(duì)圖像進(jìn)行加工和處理,得到滿足人的視覺(jué)和心理需要的改進(jìn)形式。中層視覺(jué)處理則是對(duì)圖像中目標(biāo)物(或稱為景物)進(jìn)行分析和理解,主要包括:①

把圖像分割成目標(biāo)物和背景區(qū)域兩部分;②

提取正確代表不同目標(biāo)物特點(diǎn)的特征參數(shù),并進(jìn)行描述;③

對(duì)圖像中目標(biāo)物進(jìn)行識(shí)別和分類。

在對(duì)圖像的研究和應(yīng)用中,人們往往僅對(duì)各幅圖像中的某些部分感興趣。這些部分常稱為目標(biāo)或前景(其他部分稱為背景),它們一般對(duì)應(yīng)圖像中特定的、具有獨(dú)特性質(zhì)的區(qū)域。為了辨識(shí)和分析目標(biāo),需要將這些有關(guān)區(qū)域分離提取出來(lái),在此基礎(chǔ)上才有可能對(duì)目標(biāo)進(jìn)一步利用,如進(jìn)行特征提取和測(cè)量。圖像分割就是指把圖像分成各具特性的區(qū)域并提取出感興趣目標(biāo)區(qū)域的技術(shù)和過(guò)程。這里的特性可以是灰度、顏色和紋理等,目標(biāo)可以對(duì)應(yīng)單個(gè)區(qū)域,也可以對(duì)應(yīng)多個(gè)區(qū)域。

圖像分割是由圖像處理到圖像分析的關(guān)鍵步驟,也是一種基本的計(jì)算機(jī)視覺(jué)技術(shù)。這是因?yàn)閳D像的分割、目標(biāo)的分離、特征的提取和參數(shù)的測(cè)量可將原始圖像轉(zhuǎn)化為更抽象、更緊湊的形式,使更高層的分析和理解成為可能。圖像分割多年來(lái)一直得到人們的高度重視。

7.2.2圖像分割的定義和依據(jù)

1.圖像分割的定義

令集合R

代表整個(gè)圖像區(qū)域,對(duì)R

的分割可看成將R

分成N個(gè)滿足以下五個(gè)條件的非空子集(子區(qū)域)R1,R2,…,Rn。

2.圖像分割方法分類

利用不同區(qū)域的交界(邊緣)處像素灰度值的不連續(xù)(突變)性,先找到區(qū)域交界處的點(diǎn)、線(邊緣線),邊緣線圍成的區(qū)域就是分割的子區(qū);也可以利用同一區(qū)域內(nèi)像素一般具有灰度相似性的特點(diǎn),據(jù)此找到灰度值相似的區(qū)域;區(qū)域的外輪廓就是對(duì)象的邊緣。所以,無(wú)論是利用像素灰度取值的突變性還是連續(xù)性,都可以達(dá)到圖像分割的目的。

據(jù)此,可將圖像分割的方法分為兩種:一種是利用區(qū)域間灰度的突變性,確定區(qū)域的邊界或邊緣的位置,稱為邊緣檢測(cè)法;另一種是利用區(qū)域內(nèi)灰度的相似性,將圖像像素點(diǎn)分成若干相似的區(qū)域,稱為區(qū)域生成法。這兩種方法互為對(duì)偶,相輔相成。前者相當(dāng)于用邊緣點(diǎn)定義線(邊緣線),而后者可由兩個(gè)面的交界形成一條曲線(邊緣線)。圖像分割的兩種方法示例如圖7-15所示。

圖7-15圖像分割的兩種方法示例

7.2.3邊緣點(diǎn)檢測(cè)

邊緣定義為圖像局部特性的不連續(xù)性,具體到灰度圖像中就是圖像差別較大的兩個(gè)區(qū)域的交界線。邊緣作為圖像的最基本特征廣泛存在于目標(biāo)物與背景之間、目標(biāo)物與目標(biāo)物之間,在圖像處理中有著重要的作用和廣泛的應(yīng)用。

1.邊緣點(diǎn)檢測(cè)的基本原理

邊緣點(diǎn)檢測(cè)就是要確定圖像中有無(wú)邊緣點(diǎn),還要進(jìn)一步確定其位置。在具體實(shí)施時(shí),可分為兩步:首先對(duì)圖像中每一個(gè)像素施以檢測(cè)算子,然后根據(jù)確定的準(zhǔn)則對(duì)檢測(cè)算子的輸出進(jìn)行判定,確定該像素點(diǎn)是否為邊緣點(diǎn)。具體檢測(cè)算子和判定準(zhǔn)則取決于實(shí)際應(yīng)用環(huán)境及被檢測(cè)的邊緣類型。

在一幅圖像中,邊緣有方向和幅度兩個(gè)特性。一般沿著邊緣走向的灰度值緩變或不變,而垂直于邊緣走向的灰度則突變。這種變化形式的不同就形成了不同類型的邊緣。幾種類型邊緣的截面圖如圖7-16所示。

圖7-16幾種類型邊緣的截面圖

圖7-17給出了階躍式邊緣與其一階、二階導(dǎo)數(shù)的關(guān)系示意圖。圖7-17-階躍式邊緣與其一階、二階導(dǎo)數(shù)關(guān)系的示意圖

2.邊緣點(diǎn)檢測(cè)常用算子

1)正交梯度算子法

在圖像處理中,一階導(dǎo)數(shù)是通過(guò)梯度來(lái)實(shí)現(xiàn)的,因此,利用一階導(dǎo)數(shù)檢測(cè)邊緣點(diǎn)的方法就稱為梯度算子法。

在求解梯度時(shí),既可以利用兩個(gè)垂直方向的一階導(dǎo)數(shù),也可以利用不同方向的一階導(dǎo)數(shù)集。前者可稱為正交梯度,由此生成的邊緣點(diǎn)檢測(cè)模板稱為正交模板;后者稱為方向梯度,用它在檢測(cè)邊緣點(diǎn)的同時(shí),還可以確定其方向,由此生成的邊緣點(diǎn)檢測(cè)模板稱為方向匹配模板。

(1)正交梯度法。

在數(shù)字圖像處理中,常用差分來(lái)近似導(dǎo)數(shù)。連續(xù)函數(shù)f(x,y)的梯度在x

和y方向的分量就對(duì)應(yīng)于數(shù)字圖像f(m,n)的水平和垂直方向的差分。水平和垂直方向的梯度可定義為

對(duì)應(yīng)水平及垂直方向的梯度模板可表示為

利用模板對(duì)圖像進(jìn)行處理相當(dāng)于模板與圖像的卷積,因此,水平和垂直方向梯度為

式中,*為卷積運(yùn)算符號(hào)。梯度幅度為

在實(shí)際應(yīng)用中,根據(jù)不同圖像需要來(lái)選用上述三種梯度幅度公式,所得結(jié)果稱為梯度圖像。

為檢測(cè)邊緣點(diǎn),可選取適當(dāng)?shù)拈撝礣,對(duì)梯度圖像進(jìn)行二值化,即

這樣就形成了一幅邊緣二值化圖像,其中為1的像素點(diǎn)就是階躍狀邊緣點(diǎn)。據(jù)此可得到利用正交梯度法檢測(cè)邊緣點(diǎn)的過(guò)程如圖7-18所示。

圖7-18利用正交梯度法檢測(cè)邊緣點(diǎn)的過(guò)程

圖7-19給出了一個(gè)通過(guò)正交梯度法對(duì)一副圖像邊緣點(diǎn)進(jìn)行檢測(cè)的示例。圖7-19利用正交梯度法檢測(cè)邊緣點(diǎn)的示例

(2)Roberts梯度算子法。

事實(shí)上,任意一對(duì)相互垂直方向上的差分都可用來(lái)估計(jì)梯度。Roberts梯度就是采用對(duì)角方向相鄰兩像素之差,故也稱為四點(diǎn)差分點(diǎn)。其水平和垂直方向梯度定義為

對(duì)應(yīng)的水平和垂直方向的模板為

根據(jù)式(7-32)就可以計(jì)算Roberts梯度。

(3)平滑梯度算子法。

梯度算子類邊緣檢測(cè)方法的效果類似于高通濾波,有增強(qiáng)高頻分量、抑制低頻分量的作用。這類算子對(duì)噪聲比較敏感,它們會(huì)把噪聲當(dāng)作邊緣點(diǎn)而檢測(cè)出來(lái),這就給后續(xù)的邊緣特征提取和邊緣線追蹤帶來(lái)很大的困難。為此,在對(duì)實(shí)際含噪聲圖像進(jìn)行邊緣點(diǎn)檢測(cè)時(shí),人們希望檢測(cè)算法同時(shí)具有噪聲抑制作用。

①Prewitt梯度算子法。Prewitt算子是一階微分算子的邊緣檢測(cè),利用像素點(diǎn)上下、左右鄰點(diǎn)的灰度差,在邊緣處達(dá)到極值檢測(cè)邊緣,去掉部分偽邊緣,對(duì)噪聲具有平滑作用。其噪聲抑制是在圖像空間利用兩個(gè)方向模板與圖像進(jìn)行領(lǐng)域卷積來(lái)完成的,這兩個(gè)方向模板一個(gè)檢測(cè)水平邊緣,一個(gè)檢測(cè)垂直邊緣。

水平和垂直梯度模板分別為

有了檢測(cè)模板,就可以利用式(7-32)求得水平和垂直方向的梯度,再通過(guò)梯度合成和邊緣點(diǎn)判定,就可得到平均差分法的檢測(cè)結(jié)果。按照同樣的原理,可以進(jìn)一步擴(kuò)大窗口,則抑制噪聲會(huì)更明顯,但同時(shí)也會(huì)損失一些邊緣信息。

②Sobel算子法。將Prewitt算子中的平均差分改為加權(quán)平均差分,即對(duì)當(dāng)前行或列對(duì)應(yīng)值加權(quán)后,再進(jìn)行平均差分,就形成Sobel差分,也稱為加權(quán)平均差分。其水平和垂直梯度模板分別為

圖7-20幾種梯度算子檢測(cè)邊緣點(diǎn)的示例

2)二階導(dǎo)數(shù)算子法

寫(xiě)成檢測(cè)模板為

該模板也稱為4鄰域Laplacian檢測(cè)模板,同理也可給出8鄰域檢測(cè)模板為

(2)LoG算子法。在實(shí)際應(yīng)用中,由于噪聲的影響,對(duì)噪聲敏感的邊緣點(diǎn)檢測(cè)算法(如Laplacian算子法)可能會(huì)把噪聲當(dāng)成邊緣點(diǎn)檢測(cè)出來(lái),而真正的邊緣點(diǎn)會(huì)被噪聲淹沒(méi)而未檢測(cè)出。為此,馬爾(Marr)和希爾德雷斯(Hildreth)提出了高斯

拉普拉斯(LaplacianofaGaussian,LoG)邊緣檢測(cè)算子,簡(jiǎn)稱LoG算子法。該方法是先采用高斯算子對(duì)原圖像進(jìn)行平滑,然后再施加Laplacian算子,這就克服了Laplacian算子對(duì)噪聲敏感的缺點(diǎn),減少了噪聲的影響。

圖7-21H(x,y)的截面圖

圖7-22Laplacian算子和LoG算子邊緣點(diǎn)檢測(cè)結(jié)果對(duì)比

7.2.4邊緣線跟蹤

7.2.3節(jié)之所以稱為邊緣點(diǎn)檢測(cè),是因?yàn)闊o(wú)論是通過(guò)梯度算子、方向梯度算子、線檢測(cè)模板還是二階導(dǎo)數(shù)算子,檢測(cè)結(jié)果都是滿足算子條件的離散點(diǎn),包括真正的邊緣點(diǎn),也有噪聲點(diǎn)和其他干擾點(diǎn)。因?yàn)樵肼?、干擾及成像時(shí)不均勻光照的影響,所以很少能真正得到一組完整描述一條邊緣線的邊緣點(diǎn)集,檢測(cè)到的邊緣點(diǎn)可能是不同的邊緣線上的像素點(diǎn),也可能是噪聲點(diǎn)或干擾點(diǎn),同時(shí)在邊緣點(diǎn)組成邊緣線時(shí)還會(huì)發(fā)現(xiàn)中間斷裂或間斷的現(xiàn)象。

本節(jié)介紹的邊緣線跟蹤就是要把檢測(cè)到的邊緣點(diǎn)連接成邊緣線,因?yàn)檫吘壘€是描述目標(biāo)物特性的最基本特征,也是基于邊緣檢測(cè)的圖像分割中分割區(qū)域的邊界最佳表示方式。邊緣線跟蹤也稱為邊緣連接或邊界檢測(cè)。

以下介紹幾種常用的方法。

1.局部邊緣連接法

將邊緣點(diǎn)連成邊緣線的最簡(jiǎn)單的方法是依據(jù)預(yù)先確定的準(zhǔn)則,把相似的邊緣點(diǎn)連成線。該方法以局部梯度算子處理后的梯度圖像作為輸入,連接過(guò)程分為以下兩步。

(1)選擇可能位于邊緣線上的邊緣點(diǎn)。在邊緣點(diǎn)(m,n)的一個(gè)小鄰域(如3×3、4×4或5×5)內(nèi),若其中梯度值超過(guò)某一預(yù)定閾值,則具有最大梯度值的點(diǎn)被稱為候選邊緣點(diǎn)。對(duì)每一個(gè)候選點(diǎn),利用方向梯度或模板匹配的方法確定其邊緣方向。

(2)對(duì)相鄰的候選邊緣點(diǎn),根據(jù)事先確定的相似準(zhǔn)則判定是否連接。如果相鄰的小鄰域內(nèi)的兩個(gè)候選點(diǎn)的梯度和方向差值都在某閾值之內(nèi),則這兩點(diǎn)被認(rèn)為屬于同一邊緣線,可以連接起來(lái)。相似準(zhǔn)則定義為

式中,G1(m,n)和G2(i,j)分別為邊緣點(diǎn)(m,n)和(i,j)的梯度模值;?1(m,n)和?2(i,j)分別為兩邊緣點(diǎn)的方向(角度)值。

2.光柵掃描跟蹤法

光柵掃描跟蹤法是一種按照電視光柵行的掃描順序,對(duì)遇到的像素進(jìn)行閾值判定而實(shí)現(xiàn)的邊緣跟蹤方法,也稱為順序掃描跟蹤法。下面結(jié)合一個(gè)實(shí)例來(lái)介紹這種方法。

圖7-23為光柵掃描跟蹤法的示例。圖7-23(a)為一幅含有三條曲線的模糊圖像,其各條曲線與水平方向夾角近似于90度,現(xiàn)在要檢測(cè)出這些曲線。

圖7-23光柵掃描跟蹤法的示例

圖7-23光柵掃描跟蹤法的示例

光柵掃描跟蹤法的實(shí)施步驟如下:

(1)先設(shè)立兩種門限:檢測(cè)門限d和跟蹤門限t,且d>t。在本例中,d=7,t=4。

(2)將每一行中像素灰度值大于檢測(cè)門限的點(diǎn)記為1,作為下一步的跟蹤起點(diǎn),這就是檢測(cè)準(zhǔn)則。本例檢測(cè)結(jié)果如圖7-23(b)所示。

(3)對(duì)第m

行上被記為1的點(diǎn)(m,n),就在下一行的(m+1,n-1)、(m+1,n)和(m+1,n+1)點(diǎn)上進(jìn)行跟蹤判決,只要這些點(diǎn)的灰度值達(dá)到跟蹤門限t,這些也被記為1,這就是跟蹤準(zhǔn)則。本例中的跟蹤結(jié)果如圖7-23(d)所示。

3.Hough變換法

一般地,邊緣線的檢測(cè)要經(jīng)過(guò)兩個(gè)過(guò)程。首先進(jìn)行邊緣點(diǎn)的檢測(cè),再將邊緣點(diǎn)連接成邊緣線。由于噪聲、干擾及成像時(shí)不均勻光照的影響,通過(guò)邊緣點(diǎn)檢測(cè)很少能真正得到一組完整描述一條邊緣線的點(diǎn)跡,那么通過(guò)局部邊緣連接也就很難得到準(zhǔn)確的邊緣線。而Hough變換能根據(jù)待檢測(cè)曲線對(duì)應(yīng)像素間的整體關(guān)系,檢測(cè)出已知形狀的曲線并用參數(shù)方程描述出來(lái)。其主要優(yōu)點(diǎn)是可以抗噪聲、干擾點(diǎn)及斷點(diǎn)的影響。因此,Hough變換是將邊緣點(diǎn)連成邊緣線的全局最優(yōu)方法。

1)Hough變換的基本原理

已知圖像中檢測(cè)出的n

個(gè)邊緣點(diǎn),希望找到位于同一條直線上的點(diǎn)組成的子集。一種可行的方法是根據(jù)數(shù)學(xué)上兩點(diǎn)成一線的原理,對(duì)這n

個(gè)點(diǎn)組成的直線(最多有n(n-1)/2條)中的每一條求其共線點(diǎn)(位于該直線上的點(diǎn))個(gè)數(shù),則共線點(diǎn)最多的那條直線就是要找的直線。這種方法原理上看似簡(jiǎn)單,但要完成最多n(n-1)/2條線段的判定,運(yùn)算量較大,在實(shí)際應(yīng)用中很難得到滿足。對(duì)此,Hough巧妙利用坐標(biāo)變換使圖像變換到另一坐標(biāo)系后在其特定位置上出現(xiàn)峰值,則曲線(包括直線)檢測(cè)就變成了尋找峰值位置的問(wèn)題,這樣就能大大減少運(yùn)算量。

現(xiàn)在觀察以x

和y

為坐標(biāo)的圖像空間(如圖7-24(a)所示)和以ρ和θ為坐標(biāo)的參數(shù)空間(如圖7-24(b)所示),得到以下的對(duì)應(yīng)關(guān)系:

(1)圖像空間中的一條直線,在參數(shù)空間映射為一個(gè)點(diǎn)(ρ,θ)(分別如圖7-24(a)和圖7-24(b)所示)。

(2)圖像空間的一個(gè)點(diǎn)映射為參數(shù)空間的一條正弦曲線(分別如圖7-24(c)和圖7-24(d)所示)。

(3)圖像空間的一條直線上的多個(gè)共線點(diǎn)映射為參數(shù)空間相交于一點(diǎn)的多條正弦曲線(分別如圖7-24(e)和圖7-24(f)所示)。

這種圖像空間上的點(diǎn)和參數(shù)空間上的線之間的映射關(guān)系就稱為Hough變換。據(jù)此,要檢測(cè)圖像空間共線點(diǎn)最多的直線,就變成了參數(shù)空間相交于一點(diǎn)正弦曲線最多的這個(gè)峰值點(diǎn)。這就是Hough變換檢測(cè)直線的原理。

圖7-24Hough變換的基本原理示意圖

Hough變換不僅可以檢測(cè)直線,也可以檢測(cè)圓、橢圓和拋物線等形狀的曲線,其示例如圖7-25所示。

圖7-25Hough變換檢測(cè)示例

2)廣義Hough變換

Hough變換除了能檢測(cè)可以用解析形式表示的曲線及形狀(有規(guī)曲線)外,也可以推廣到任意形狀的檢測(cè),一般稱為廣義Hough變換,如圖7-26所示。這里以給定形狀、大小及方向而位置未知,且形狀不能用解析式表示的目標(biāo)物檢測(cè)為例,來(lái)說(shuō)明廣義Hough變換的檢測(cè)過(guò)程。

圖7-26廣義Hough變換

圖7-26所示的任意形狀目標(biāo)物內(nèi)任意確定一點(diǎn)(xc,yc)作為參考點(diǎn),并通過(guò)它向邊界上的點(diǎn)(x,y)作直線,連線的長(zhǎng)度為r,連線與x

軸夾角為α,r

和α都是?

的函數(shù)。?是邊界點(diǎn)(x,y)的梯度方向,即邊界點(diǎn)(x,y)的切線與x軸的夾角。這時(shí),可通過(guò)下式計(jì)算參考點(diǎn)位置(xc,yc),即

7.2.5門限化分割

根據(jù)圖像分割的定義,同一個(gè)分割區(qū)的圖像灰度值具有相似(相近)性,不同的分割區(qū)具有較大差別。尤其圖像中的目標(biāo)物與背景、不同目標(biāo)物之間的灰度值具有明顯的差別,其灰度直方圖呈雙峰或多峰形狀,如圖7-27所示,此時(shí)可通過(guò)取門限的方法將圖像分割成不同的目標(biāo)物和背景區(qū)域?;叶乳T限法主要分為單閾值分割和多閾值分割。

圖7-27-具有雙峰和多峰的灰度直方圖

1.單閾值分割

當(dāng)圖像的灰度直方圖呈雙峰形狀時(shí),如圖7-27(a)所示,可通過(guò)取單閾值,將圖像分割成目標(biāo)物和背景兩類,即

式中,T為灰度門限,一般取直方圖雙峰間波谷的灰度值,此時(shí)就將圖像分成了標(biāo)記為“1”的區(qū)域和標(biāo)記為“0”的另一區(qū)域。至于哪個(gè)區(qū)域是目標(biāo)物,哪個(gè)區(qū)域是背景,要看目標(biāo)物和背景灰度取值的相對(duì)大小。這種方法也稱為門限化二值分割。圖7-28所示的是單閾值分割的示例。

圖7-28單閾值分割的示例

2.多閾值分割

當(dāng)圖像的灰度直方圖呈多峰形狀時(shí),如圖7-27(b)所示,可通過(guò)取多個(gè)閾值的方法,將圖像分割成不同目標(biāo)物和背景區(qū)域,即

式中,T0,T1,…,Tk

為一系列門限值;k

為分割后各區(qū)域的標(biāo)記,k=1,2,…,M。這樣就將圖像分割成了M+1個(gè)區(qū)域。圖7-29所示的是多閾值分割的示例。

圖7-29多閾值分割的示例

門限化分割方法具有簡(jiǎn)單、高效的特點(diǎn),但是其局限性也大:對(duì)目標(biāo)和背景灰度級(jí)有明顯差別的圖像分割效果較好;但對(duì)于目標(biāo)物和背景灰度一致性或均勻性較差(如目標(biāo)的部分區(qū)域與背景灰度相近或者低于背景灰度)的圖像分割效果不好。

7.2.6區(qū)域分割法

區(qū)域分割法就是利用同一區(qū)域內(nèi)灰度值的相似性,將相似的區(qū)域合并,把不相似區(qū)域分開(kāi),最終形成不同的分割區(qū)域。常用的區(qū)域分割方法有區(qū)域生長(zhǎng)法、分裂合并法及空間聚類法等。

1.區(qū)域生長(zhǎng)法

區(qū)域生長(zhǎng)是把圖像分割成特征相似的若干小區(qū)域,比較相鄰小區(qū)域的特征,若相似則合并為同一區(qū)域,如此進(jìn)行直到不能再合并為止,最后生成特征不同的各區(qū)域。這種分割方法也稱為區(qū)域擴(kuò)張法。

根據(jù)所用鄰域方式和相似性準(zhǔn)則的不同,區(qū)域生長(zhǎng)法可以分為簡(jiǎn)單生長(zhǎng)法(像素+像素)、質(zhì)心生長(zhǎng)法(區(qū)域+像素)和混合生長(zhǎng)法(區(qū)域+區(qū)域)。分述如下:

(1)簡(jiǎn)單生長(zhǎng)法。按事先確定的相似性準(zhǔn)則,生長(zhǎng)點(diǎn)(種子點(diǎn)為第一個(gè)生長(zhǎng)點(diǎn))接收(合并)其鄰域(如4鄰域)的像素點(diǎn),該區(qū)域開(kāi)始生長(zhǎng)。接收后的像素點(diǎn)稱為生長(zhǎng)點(diǎn),其值取種子點(diǎn)的值。重復(fù)該過(guò)程,直到不能再生長(zhǎng)為止,到此該區(qū)域生成。簡(jiǎn)單生長(zhǎng)法的相似性準(zhǔn)則為

(2)質(zhì)心生長(zhǎng)法。修改簡(jiǎn)單生長(zhǎng)法的相似性準(zhǔn)則,即相似性準(zhǔn)則變?yōu)?/p>

(3)混合生長(zhǎng)法?;旌仙L(zhǎng)法是按相似性準(zhǔn)則進(jìn)行相鄰區(qū)域的合并,其相似性準(zhǔn)則是相鄰兩區(qū)域的灰度均值相近,即

圖7-30給出了一個(gè)區(qū)域生長(zhǎng)法分割圖像的示例。圖7-30(a)為原圖像塊,其中標(biāo)定的兩個(gè)種子點(diǎn)(灰度低值區(qū)的灰度1和灰度高值區(qū)的灰度6)用陰影標(biāo)出。圖7-30(b)和圖7-30(c)分別為當(dāng)門限T1=T2=3時(shí)簡(jiǎn)單生長(zhǎng)法和質(zhì)心生長(zhǎng)法的分割結(jié)果,圖像塊被分成兩個(gè)區(qū)域。雖然兩種方法的分割結(jié)果恰巧相同,但生長(zhǎng)過(guò)程中所用相似性準(zhǔn)則是不同的。在簡(jiǎn)單生長(zhǎng)法中,是用生長(zhǎng)點(diǎn)與其鄰域點(diǎn)直接比較,質(zhì)心生長(zhǎng)法則是用生長(zhǎng)區(qū)域內(nèi)所有生長(zhǎng)點(diǎn)的均值與其鄰域點(diǎn)比較。

圖7-30區(qū)域生長(zhǎng)法分割圖像的示例

2.分裂合并法

當(dāng)事先完全不了解區(qū)域形狀和區(qū)域數(shù)目時(shí),可采用分裂合并法。這種方法首先將圖像分解成互不重疊的區(qū)域,再按相似準(zhǔn)則進(jìn)行合并。若用R表示圖像,則利用四叉樹(shù)分裂合并法實(shí)現(xiàn)圖像分割的步驟如下:

(1)給定一相似準(zhǔn)則P,如果對(duì)圖像中的任一區(qū)域Ri,有P(Ri)=false,即不滿足相似性準(zhǔn)則,則把Ri區(qū)域等分為四個(gè)子區(qū),即Ri1、Ri2、Ri3和Ri4。

(2)對(duì)相鄰的區(qū)域Ri和Rj,若P(Ri∪Rj)=true,則合并這兩個(gè)區(qū)域。

(3)直到合并和分割都無(wú)法再進(jìn)行時(shí),分割結(jié)束。

圖7-31利用四叉樹(shù)分裂合并法進(jìn)行二值圖像分割的示例

7.3視頻處理中的關(guān)鍵技術(shù)研究

7.3.1概述視頻是用來(lái)記錄信息的重要載體,由于它同時(shí)可以包含圖像、聲音和字幕信息,因此被人們廣泛使用。隨著數(shù)字技術(shù)日新月異的發(fā)展,數(shù)字視頻的數(shù)量飛速增長(zhǎng)。一方面,包括數(shù)字?jǐn)z像機(jī)在內(nèi)的一些數(shù)字視頻獲取設(shè)備已經(jīng)有了很廣泛的應(yīng)用;另一方面,原來(lái)的使用膠片記錄的模擬視頻也有著轉(zhuǎn)化為數(shù)字視頻的需要,以便于更好地進(jìn)行處理和保存。這就對(duì)數(shù)字視頻的處理和管理技術(shù)提出了很大的挑戰(zhàn)。

視頻的數(shù)據(jù)從結(jié)構(gòu)上自頂向下可分為視頻序列、場(chǎng)景、鏡頭和幀。幀是視頻數(shù)據(jù)的最小單元,是一幅靜止的畫(huà)面。鏡頭是視頻數(shù)據(jù)的基本單位,它是由一個(gè)攝像機(jī)連續(xù)拍攝得到的時(shí)間上連續(xù)的若干幀圖像組成的。視頻組成的層次結(jié)構(gòu)越高,其中所含的內(nèi)容信息也越豐富,也就意味著處理的難度越高。

7.3.2鏡頭邊界檢測(cè)

鏡頭是視頻流在編輯制作及檢索中的基本結(jié)構(gòu)單元,因此鏡頭的自動(dòng)分割是視頻結(jié)構(gòu)化的基礎(chǔ),也是視頻分析和檢索過(guò)程中的首要任務(wù)。鏡頭分割的效果將直接影響到更高一級(jí)的視頻結(jié)構(gòu)化以及后續(xù)的瀏覽和檢索。

鏡頭邊界檢測(cè)是視頻摘要提取系統(tǒng)的一個(gè)重要組成部分,鏡頭邊界檢測(cè)的準(zhǔn)確率直接關(guān)系到視頻摘要提取系統(tǒng)后續(xù)的關(guān)鍵幀提取的效果。鏡頭的邊界類型可以被分為三類:突變類型、淡入淡出類型和溶解類型,分別如圖7-32、圖7-33和圖7-34所示。

圖7-32突變類型的鏡頭

圖7-33淡入淡出類型的鏡頭

圖7-34溶解類型的鏡頭

1.像素域中的鏡頭邊界檢測(cè)方法

像素域中的鏡頭邊界檢測(cè)方法主要是利用空時(shí)域中的顏色、紋理和形狀等特征來(lái)進(jìn)行的,常見(jiàn)的方法有以下幾種。

1)像素差異法

2)統(tǒng)計(jì)量法

3)直方圖法

4)塊匹配法

5)邊界變化率法

6)距離差異法

7)聚類算法

以上七種方法為像素域中鏡頭邊界檢測(cè)的常用方法,表7-1列出了這七種方法的綜合比較。

2.壓縮域中的鏡頭邊界檢測(cè)方法

1)離散余弦變換(DiscreteCosineTransform,DCT)系數(shù)法

2)小波變換法

小波變換法是在子帶域上對(duì)鏡頭邊界進(jìn)行檢測(cè)的一種檢測(cè)方法,其基本思想是將圖像進(jìn)行小波分解后,分別對(duì)它的低頻部分和高頻部分進(jìn)行分析和處理。

3)空時(shí)分析法

空時(shí)分析法利用圖像在空間上的特點(diǎn)以及其在時(shí)間上與前后幀圖像間的相關(guān)性來(lái)檢測(cè)漸變過(guò)渡。

4)矢量量化法

根據(jù)編譯碼理論,最好的接收形式是矢量而不是標(biāo)量。因此,矢量量化的技術(shù)無(wú)論是在傳輸中還是在檢索中都非常重要。根據(jù)這一特點(diǎn),很多學(xué)者將矢量量化的方法應(yīng)用到視頻漸變檢測(cè)中,其基本思想是構(gòu)造相似性函數(shù),通過(guò)幀間相似性來(lái)檢測(cè)鏡頭的變化。

5)運(yùn)動(dòng)矢量法

在漸變檢測(cè)中,運(yùn)動(dòng)分析是一個(gè)非常重要的檢測(cè)手段,它對(duì)于描述視頻的內(nèi)容具有非常重要的作用,許多專家、學(xué)者在這方面做了很多的研究工作。

表7-2列出了上述五種壓縮域中漸變鏡頭檢測(cè)方法的綜合比較??傮w來(lái)看,該類算法檢測(cè)精度不太高,但是速度卻是相當(dāng)快的。

7.3.3視頻關(guān)鍵幀提取

關(guān)鍵幀也稱為代表幀,它是用來(lái)描述一個(gè)鏡頭的關(guān)鍵圖像幀,反映了一個(gè)鏡頭的主要內(nèi)容。把它作為視頻流的索引,比用原始的視頻數(shù)據(jù)更有效,同時(shí)關(guān)鍵幀也為檢索和瀏覽視頻提供了一個(gè)組織框架。

1.非壓縮域關(guān)鍵幀提取算法

1)基于鏡頭邊界法

基于鏡頭邊界法是指由切分得到的鏡頭中的第一幅圖像和最后一幅圖像作為鏡頭關(guān)鍵幀。這種方法的原理和思想是:在一組鏡頭中,相鄰圖像幀之間的特征變化很少,整個(gè)鏡頭中圖像幀的特征變化也不大,因此選擇鏡頭的第一幀和最后一幀可以將鏡頭的內(nèi)容全部表達(dá)出來(lái)。

2)基于平均值法

基于平均值法包括幀平均法和直方圖平均法,這兩種方法是關(guān)鍵幀提取的經(jīng)典方法。幀平均法是指從鏡頭中取所有幀在某個(gè)位置上像素值的平均值,然后將鏡頭中該點(diǎn)位置的像素值最接近平均值的幀作為關(guān)鍵幀;直方圖平均法則是將鏡頭中所有幀的統(tǒng)計(jì)直方圖取平均值,然后選擇與該平均直方圖最接近的幀作為關(guān)鍵幀。平均值法的優(yōu)點(diǎn)是計(jì)算比較簡(jiǎn)單;缺點(diǎn)是從一個(gè)鏡頭中選取一個(gè)關(guān)鍵幀,無(wú)法準(zhǔn)確描述有多個(gè)物體運(yùn)動(dòng)的鏡頭。

3)基于內(nèi)容的自適應(yīng)提取算法

基于內(nèi)容的自適應(yīng)提取算法的基礎(chǔ)是基于內(nèi)容的,因此必須分析視頻圖像的局部特征變化。該算法在理論上首先假設(shè)用連續(xù)關(guān)鍵幀之間特征點(diǎn)的變化來(lái)代表連續(xù)單元之間的特征變化。在此基礎(chǔ)上,該算法的具體操作步驟如下:

(1)設(shè)視頻鏡頭S

的總幀數(shù)為n,預(yù)計(jì)提取的關(guān)鍵幀數(shù)為n'=n×6%,將其劃分為長(zhǎng)度均為L(zhǎng)

的小單元,使得相鄰兩單元中的第一幀和最后一幀相同。

(2)定義差異度量Change=Dc(Ri,Ri+1,Ri

表示第i幀的顏色直方圖),此處

Dc

用來(lái)計(jì)算相鄰兩幀的顏色直方圖的幀間方差值。在每個(gè)單元內(nèi)計(jì)算第一幀和最后一幀的差異。

(3)選擇率值r,0<r<1,將分組根據(jù)單元內(nèi)的變化分為兩類,第一類為變化小的,長(zhǎng)度為k×r,稱為小類,k

為一個(gè)常數(shù)。剩下的則為變化較大的,長(zhǎng)度為k×(1-r),稱為大類。

(4)將大類中的元素對(duì)應(yīng)的單元所包含的幀全部作為當(dāng)前的關(guān)鍵幀,將小類對(duì)應(yīng)單元中所包含的幀只保留首、末兩幀添加到當(dāng)前關(guān)鍵幀,刪除k×r×(L-2)的冗余幀。

(5)假設(shè)當(dāng)前取得的關(guān)鍵幀數(shù)為n',如果n'≤n,則停止。如果n'≥n,將當(dāng)前關(guān)鍵幀按序重組。重復(fù)進(jìn)行上述操作,直到滿足條件為止。

通過(guò)研究發(fā)現(xiàn),基于內(nèi)容的自適應(yīng)提取算法的主要思想是將單元內(nèi)特征變化小的逐漸縮小聚合,這樣經(jīng)過(guò)幾次重復(fù),剩下的將是單元內(nèi)特征變化大的,而其中這些幀就可以用來(lái)表達(dá)視頻內(nèi)容的變化,每次縮小聚合的執(zhí)行都會(huì)有冗余的幀從小單元中刪除,不論期望數(shù)有多少,算法最終都將收斂。

4)基于運(yùn)動(dòng)分析法

在視頻拍攝過(guò)程中,攝像機(jī)運(yùn)動(dòng)是產(chǎn)生圖像變化的重要因素,這也可以作為提取關(guān)鍵幀的一個(gè)依據(jù)。這種方法將攝像機(jī)造成的圖像變化分成兩類:一類是由相機(jī)焦距變化而引起的;另一類是由相機(jī)角度變化而引起的。對(duì)于第一類,選擇首、末兩幀作為關(guān)鍵幀。對(duì)于第二類,如果當(dāng)前幀與前一幀重疊小于30%,則選當(dāng)前幀為關(guān)鍵幀。

5)基于聚類的關(guān)鍵幀提取算法

聚類分析的方法在語(yǔ)音識(shí)別、人工智能和模式識(shí)別等領(lǐng)域都有十分廣泛的應(yīng)用。聚類分析是給定大量的樣本,在不知道樣本的分類,甚至連樣本分成幾類也不知道的情況下,希望用某種方法將觀測(cè)進(jìn)行合理的分類,使同一類的觀測(cè)比較接近,不同類的觀測(cè)相差較多。它是無(wú)監(jiān)督學(xué)習(xí)算法的一種。聚類分析依賴于對(duì)觀測(cè)間的接近程度或相似程度的理解,定義不同的距離量度和相似性量度就可以產(chǎn)生不同的聚類結(jié)果。將它用于提取視頻關(guān)鍵幀也是現(xiàn)在的主流技術(shù)。

基于聚類的關(guān)鍵幀提取算法大致描述如下:

(1)假設(shè)某個(gè)鏡頭Si

包含n

個(gè)圖像幀,可以表示為Si={Fi1,…,F(xiàn)in},其中,F(xiàn)i1為首幀,F(xiàn)in為尾幀。設(shè)定相鄰兩幀之間的相似度度量。相似度度量可以采用任何有用的視覺(jué)或語(yǔ)義特征,也可以是各種特征的組合。在此我們以顏色直方圖為例,并預(yù)定義一個(gè)閾值s控制聚類的密度。

(2)計(jì)算當(dāng)前幀F(xiàn)ii與現(xiàn)有某個(gè)聚類質(zhì)心間的距離。如果當(dāng)前位于首幀,將第一幀作為第一個(gè)聚類與其后的圖像幀相比較。

(3)如果該值大于s,則該幀與該聚類之間的距離太大,不能加入。如果Fii與所有現(xiàn)存類質(zhì)心的距離都小于s,則以Fii為質(zhì)心形成一個(gè)新的聚類。否則,將該幀加入與之相似度最大的聚類中,使該幀與這個(gè)聚類的質(zhì)心之間的距離最小,并調(diào)整該聚類的質(zhì)心為

式中,centrod、centrod'和Fn

分別是聚類群原有的質(zhì)心、更新后的質(zhì)心和聚類群的總幀數(shù)。

(4)在整個(gè)鏡頭聚類完成后,就可以選擇關(guān)鍵幀,從每個(gè)聚類中抽取距離質(zhì)心最近的幀作為這個(gè)聚類的代表幀,所有聚類的代表幀就構(gòu)成了鏡頭Si

的關(guān)鍵幀。鏡頭Si

形成了

N

個(gè)聚類,那么就可以提取N

個(gè)關(guān)鍵幀。算法的優(yōu)劣主要由閾值s控制,s越大,形成的聚類越多,鏡頭劃分越細(xì),選擇的關(guān)鍵幀越多;反之,s越小,形成的聚類個(gè)數(shù)越少,鏡頭劃分越粗。

6)基于圖論分析法

基于圖論分析法是關(guān)鍵幀提取算法在理論上的最新進(jìn)展之一。該方法將視頻看成高維特征空間上的點(diǎn)。這樣,提取關(guān)鍵幀就等價(jià)于在這些點(diǎn)中選取一個(gè)子集,這個(gè)子集中的點(diǎn)的特點(diǎn)是:

一是能在指定特征距離內(nèi)覆蓋其他點(diǎn);

二是反映了鏡頭內(nèi)容上的顯著變化。

2.壓縮域視頻關(guān)鍵幀提取算法

1)I幀等價(jià)算法

上節(jié)討論的方法都是針對(duì)非壓縮域的視頻流,直接分析鏡頭內(nèi)的幀,但目前網(wǎng)絡(luò)上的很多視頻都是以MPEG等壓縮形式存取的。

2)比較宏塊互異數(shù)算法

根據(jù)MPEG數(shù)據(jù)流編碼的特性,還有一些專門的提取關(guān)鍵幀方法。其中比較典型的方法是比較宏塊互異數(shù)算法。

3.關(guān)鍵幀提取結(jié)果示例

有三類鏡頭是視頻中最常見(jiàn)的,第一類是攝像機(jī)縮放鏡頭,第二類是具有豐富運(yùn)動(dòng)特性的鏡頭,第三類是攝像機(jī)平移鏡頭。下面分別給出這三類具有代表性的鏡頭的關(guān)鍵幀提取結(jié)果示例。

1)攝像機(jī)縮放鏡頭的關(guān)鍵幀提取

圖7-35顯示了一個(gè)含有186幀的攝像機(jī)縮放鏡頭以30幀為抽樣間隔的抽樣幀。圖7-36顯示了從這段視頻中抽取出的關(guān)鍵幀??梢钥吹剑槿〉年P(guān)鍵幀很好地表示了整個(gè)縮放鏡頭的內(nèi)容。圖7-35攝像機(jī)縮放鏡頭的抽樣幀圖7-36攝像機(jī)縮放鏡頭的關(guān)鍵幀

2)具有豐富運(yùn)動(dòng)特性的鏡頭的關(guān)鍵幀提取

具有豐富運(yùn)動(dòng)特性的鏡頭在視頻中較為常見(jiàn)。圖7-37是從包含了395幀的豐富運(yùn)動(dòng)場(chǎng)景鏡頭中的50幀為采樣間隔的抽樣幀。圖7-38則給出了從這段視頻中抽取出的關(guān)鍵幀。圖7-37-

圖7-38豐富運(yùn)動(dòng)特性的鏡頭的關(guān)鍵幀

3)攝像機(jī)平移鏡頭的關(guān)鍵幀提取

對(duì)于攝像機(jī)平移鏡頭,實(shí)驗(yàn)中選取了一段含有263幀的足球比賽視頻。圖7-39為這段視頻的每隔50幀的抽樣幀。圖7-40給出了我們?cè)谶@段視頻中抽取出的關(guān)鍵幀。圖7-40攝像機(jī)平移鏡頭的關(guān)鍵幀

4)基于多模式的新聞視頻中主持人幀檢測(cè)和提取

對(duì)于已得到的候選主持人關(guān)鍵幀和我們提取到的主持人模板進(jìn)行模板匹配的過(guò)程,實(shí)質(zhì)上是一個(gè)類似圖像檢索的過(guò)程。所不同的是,候選主持人幀中找到的并不一定是與模板完全匹配的鏡頭幀,而是相似的主持人幀。該檢測(cè)方法的具體步驟如下:

步驟1:從音頻檢測(cè)中找到音樂(lè)向語(yǔ)音過(guò)渡的靜音幀(即新聞的開(kāi)始部分),如果其長(zhǎng)度大于某一閾值,則將其后面的視頻幀作為主持人幀;

步驟2:提取出主持人幀模板;

步驟3:提取鏡頭的第一幀作為關(guān)鍵幀,進(jìn)行模板匹配,從而減少了運(yùn)算復(fù)雜度以及閾值選擇帶來(lái)的誤差;

步驟4:用檢測(cè)到的主持人幀對(duì)新聞視頻進(jìn)行粗分類。

圖7-41(a)為主持人鏡頭模板幀,圖7-41(b)為提取出的主持人關(guān)鍵幀。圖7-41基于多模式的新聞視頻中主持人幀檢測(cè)和提取

7.3.4視頻目標(biāo)檢測(cè)

1.基于視頻的目標(biāo)檢測(cè)方法

目標(biāo)是指一個(gè)待探測(cè)、定位、識(shí)別和確認(rèn)的物體。目標(biāo)檢測(cè)分為純檢測(cè)和辨別檢測(cè),前者是指從局部均勻的背景中檢測(cè)出一個(gè)物體,后者是指識(shí)別出某些外形或形狀,以便從背景的雜亂物體中區(qū)分出來(lái)。如何從圖像中檢測(cè)出目標(biāo)是計(jì)算機(jī)視覺(jué)的基礎(chǔ)問(wèn)題之一,目標(biāo)的檢測(cè)可以在靜態(tài)圖像中進(jìn)行,也可以在視頻序列中進(jìn)行。對(duì)于靜態(tài)圖像中目標(biāo)的檢測(cè),可以采用基于圖像分割技術(shù)的方法。

它利用目標(biāo)圖像的灰度、紋理等特征將目標(biāo)和背

景分開(kāi),再利用先驗(yàn)知識(shí)將兩者進(jìn)行分離。同時(shí)也可以采用基于模板匹配的方法,這種方法根據(jù)已有的模板在場(chǎng)景中匹配尋找最相似的目標(biāo)。靜態(tài)圖像中的目標(biāo)檢測(cè)在本章中不再介紹,在這里我們主要介紹視頻序列中的目標(biāo)檢測(cè)方法。常見(jiàn)的基于視頻的運(yùn)動(dòng)目標(biāo)檢測(cè)方法主要有以下幾種。

1)背景相減法

背景相減法是利用當(dāng)前幀圖像與背景幀圖像對(duì)應(yīng)的灰度值相減,在環(huán)境亮度變化不大的情況下,認(rèn)為像素灰度差值很小時(shí),物體是靜止的;當(dāng)像素灰度值變化很大時(shí),認(rèn)為該區(qū)域是由運(yùn)動(dòng)物體引起的。背景相減法的關(guān)鍵技術(shù)在于對(duì)圖像背景進(jìn)行建模,然后將當(dāng)前幀與背景幀對(duì)應(yīng)灰度值進(jìn)行比較,獲得運(yùn)動(dòng)變化區(qū)域。背景相減法的算法簡(jiǎn)單,但其對(duì)光照、運(yùn)動(dòng)目標(biāo)陰影的變化比較敏感,并且當(dāng)攝像機(jī)運(yùn)動(dòng)時(shí)該算法需要不斷更新背景模型,檢測(cè)效果較差。

2)鄰幀差分法

鄰幀差分法是將相鄰幀對(duì)應(yīng)的像素點(diǎn)灰度值相減,在環(huán)境變化不大的情況下,可以認(rèn)為灰度變化大的區(qū)域是由物體運(yùn)動(dòng)引起的,利用這些標(biāo)志像素的區(qū)域即可確定目標(biāo)在圖像中的大小和位置。該算法的優(yōu)點(diǎn)是對(duì)于像素灰度變化明顯的點(diǎn)容易檢測(cè)且利于實(shí)時(shí)實(shí)現(xiàn),缺點(diǎn)首先是對(duì)于像素變化較小的點(diǎn)難以準(zhǔn)確檢測(cè),如紋理單一的目標(biāo)往往出現(xiàn)空洞現(xiàn)象,還需要利用相關(guān)算法進(jìn)行填充,其次對(duì)光照變化、背景變化和噪聲干擾無(wú)能為力。因此該算法只適合背景單一或背景不變、環(huán)境干擾較小場(chǎng)合的目標(biāo)檢測(cè)。

鄰幀差分法有三種形式:正差分、負(fù)差分和全差分。圖7-42(a)和7-42(b)是視頻序列中連續(xù)兩幀,圖7-42(c)和圖7-42(d)分別為正差分和負(fù)差分檢測(cè)結(jié)果,與圖7-42(e)所示的全差分檢測(cè)結(jié)果相比較,全差分效果最好。圖7-42鄰幀差分法

3)光流法

光流法是利用運(yùn)動(dòng)目標(biāo)隨時(shí)間變化的光流特性,計(jì)算位移向量光流場(chǎng)來(lái)初始化基于輪廓的跟蹤算法,從而提取出運(yùn)動(dòng)目標(biāo)。與鄰幀差分法和背景相減法不同的是,光流法可以用于攝像機(jī)靜止和攝像機(jī)運(yùn)動(dòng)兩種狀態(tài)下的運(yùn)動(dòng)目標(biāo)檢測(cè),但該算法比較復(fù)雜,不利于硬件實(shí)現(xiàn)。

2.視頻序列中字幕檢測(cè)

為了更好地理解各種字幕檢測(cè)與提取算法的思想,有必要對(duì)字幕的特點(diǎn)進(jìn)行說(shuō)明。視頻字幕可以分為兩類:一類是標(biāo)注字幕,這種字幕是通過(guò)后期制作合成到視頻流中去的,包含了對(duì)當(dāng)前視頻流內(nèi)容的語(yǔ)義描述;另一類是場(chǎng)景字幕,這類字幕是錄制中環(huán)境和物體本身所攜帶的文字,如路牌上的路名、服裝上的文字和產(chǎn)品上的商標(biāo)等。

與光學(xué)字符識(shí)別(OpticalCharacterRecognition,OCR)相比,視頻字幕的提取面臨如下幾個(gè)問(wèn)題:

視頻圖像的復(fù)雜背景使字幕提取和分割極其困難;

為避免遮擋圖像的主體部分,許多視頻字符的尺寸都相當(dāng)小且分辨率低;

數(shù)字視頻采用有損壓縮方式的格式存儲(chǔ),再次降低了其分辨率。

另外,視頻字幕一般有幾個(gè)特點(diǎn):

字幕的尺寸限定在一定的范圍之內(nèi);

采用通用且規(guī)范的粗筆畫(huà)字體,如黑體和宋體等;

字幕按照水平方向排列形式聚集在一起;

采用邊影,邊影是字幕前景或襯底顏色的補(bǔ)色。

利用這些特性,可以降低字幕的提取難度,并使提取出的字幕具有更高的準(zhǔn)確性。

近年來(lái)出現(xiàn)了許多字幕檢測(cè)提取方法,它們大致可分為三類:連通分量法、紋理分類法和邊緣檢測(cè)法。

(1)連通分量法。連通分量法是假設(shè)字幕被表示為統(tǒng)一的顏色,經(jīng)過(guò)顏色量化后,提取出符合某種大小、形狀和空間限制條件的單色連通分量作為字符。這種方法在背景雜亂的情況下有效性較低。

(2)紋理分類法。紋理分類法是將字幕區(qū)作為一類特殊的紋理來(lái)處理,通過(guò)多路處理和計(jì)算空間變化來(lái)提取紋理特征或者利用神經(jīng)網(wǎng)絡(luò)檢測(cè)字幕區(qū)??傮w上講,在處理復(fù)雜背景時(shí),紋理分類法比連通分量法更有效。然而,當(dāng)背景具有與字幕區(qū)相似的紋理結(jié)構(gòu)時(shí),紋理分類法將變得更困難。此外,對(duì)大量的視頻數(shù)據(jù),由于計(jì)算復(fù)雜性,許多紋理分類方法不適用。

下面給出一個(gè)視頻序列字幕檢測(cè)示例。

在檢測(cè)出了相應(yīng)的字幕幀后,進(jìn)行字幕定位,主要是字幕行的檢測(cè)和字幕列的檢測(cè),分別如圖7-43和圖7-44所示。然后進(jìn)行字幕提取,主要是進(jìn)行字幕增強(qiáng)和切分字幕,分別如圖7-45和圖7-46所示。

圖7-43字幕行的檢測(cè)

圖7-44字幕列的檢測(cè)

圖7-44字幕列的檢測(cè)

圖7-45字幕增強(qiáng)

圖7-46切分字幕

3.視頻序列中人臉檢測(cè)

傳統(tǒng)的人臉檢測(cè)的基本思想是用知識(shí)或統(tǒng)計(jì)的方法對(duì)人臉進(jìn)行建模,比較所有可能的待檢測(cè)區(qū)域與人臉模型的匹配度,從而得到可能存在人臉的區(qū)域。其方法大致可分為基于統(tǒng)計(jì)和基于知識(shí)兩類。前者將人臉圖像視為一個(gè)高維向量,從而將人臉檢測(cè)問(wèn)題轉(zhuǎn)化為高維空間中分布信號(hào)的檢測(cè)問(wèn)題;而后者則利用人的知識(shí)建立若干規(guī)則,從而將人臉檢測(cè)問(wèn)題轉(zhuǎn)化為假設(shè)/驗(yàn)證問(wèn)題。

1)基于統(tǒng)計(jì)的人臉檢測(cè)方法

(1)示例學(xué)習(xí)

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論