![《網(wǎng)絡(luò)信息檢索》課件第10章_第1頁(yè)](http://file4.renrendoc.com/view14/M08/04/2D/wKhkGWbNxhuAVbSaAAD_C3RT640669.jpg)
![《網(wǎng)絡(luò)信息檢索》課件第10章_第2頁(yè)](http://file4.renrendoc.com/view14/M08/04/2D/wKhkGWbNxhuAVbSaAAD_C3RT6406692.jpg)
![《網(wǎng)絡(luò)信息檢索》課件第10章_第3頁(yè)](http://file4.renrendoc.com/view14/M08/04/2D/wKhkGWbNxhuAVbSaAAD_C3RT6406693.jpg)
![《網(wǎng)絡(luò)信息檢索》課件第10章_第4頁(yè)](http://file4.renrendoc.com/view14/M08/04/2D/wKhkGWbNxhuAVbSaAAD_C3RT6406694.jpg)
![《網(wǎng)絡(luò)信息檢索》課件第10章_第5頁(yè)](http://file4.renrendoc.com/view14/M08/04/2D/wKhkGWbNxhuAVbSaAAD_C3RT6406695.jpg)
版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
第10章多媒體信息檢索10.1基于內(nèi)容的圖像信息檢索10.2圖像特征提取10.3圖像相似量度10.4基于內(nèi)容的視頻信息檢索10.5基于內(nèi)容的音頻信息檢索10.6小結(jié)思考題隨著網(wǎng)絡(luò)帶寬的增加,通過(guò)網(wǎng)絡(luò)提供音頻、視頻服務(wù)成為可能。第十六次中國(guó)互聯(lián)網(wǎng)絡(luò)發(fā)展?fàn)顩r統(tǒng)計(jì)報(bào)告表明,最受歡迎的八大熱門(mén)服務(wù)中,在線音樂(lè)占45.6%,在線影視占37.8%??梢?jiàn),包含音視頻等多媒體的信息服務(wù)已經(jīng)成為互聯(lián)網(wǎng)絡(luò)上的熱點(diǎn)。
但是,如何在浩如煙海的網(wǎng)絡(luò)中找到所需要的多媒體信息呢?前面的章節(jié)已經(jīng)學(xué)習(xí)了文本檢索的相關(guān)技術(shù),在某種程度上,這些技術(shù)同樣適用于多媒體信息檢索,但多媒體信息本身具有獨(dú)特的性質(zhì),所以多媒體信息檢索還需要特殊的處理技術(shù)。多媒體信息檢索是根據(jù)用戶的要求,對(duì)圖像、文本、聲音、視頻等多媒體信息進(jìn)行檢索,得到用戶所需的信息。本章將從網(wǎng)絡(luò)圖像、音頻、視頻等三方面展開(kāi)多媒體信息檢索技術(shù)的學(xué)習(xí)。
多媒體信息檢索主要分為兩種:基于關(guān)鍵字的多媒體信息檢索和基于內(nèi)容的多媒體信息檢索。前者通過(guò)對(duì)多媒體信息作文字標(biāo)注或描述來(lái)建立索引,后者則通過(guò)提取多媒體信息的內(nèi)容特征來(lái)建立索引。從網(wǎng)絡(luò)上進(jìn)行多媒體信息檢索的流程示意圖如圖10-1所示。圖10-1網(wǎng)絡(luò)多媒體信息檢索流程示意圖可見(jiàn),多媒體信息檢索的流程類似于普通的信息檢索流程,所不同的主要是解析和特征提取兩個(gè)步驟。在解析時(shí),不丟棄圖像、音頻、視頻等信息,而是需要對(duì)它們進(jìn)行一定的預(yù)處理,例如對(duì)圖像來(lái)說(shuō),每個(gè)網(wǎng)頁(yè)上的圖像非常多,但大多數(shù)是網(wǎng)頁(yè)的裝飾圖,并不是真正反映網(wǎng)頁(yè)內(nèi)容的圖像。所以,應(yīng)該把這些圖像去掉,去掉的原則可以根據(jù)具體的情況制定,如像素值小于某個(gè)閾值,或者圖像的長(zhǎng)寬比例大于某個(gè)閾值的圖像先被去掉,初篩后留下的圖像才送去進(jìn)行特征提取。采取文本標(biāo)注的方式建立索引,一般需要人工進(jìn)行,隨著多媒體數(shù)據(jù)的飛速增長(zhǎng),人工標(biāo)注變得越來(lái)越不現(xiàn)實(shí),而且受到語(yǔ)言種類的限制。所以,基于內(nèi)容的多媒體信息檢索引起了極大的關(guān)注。本章也將重點(diǎn)介紹基于內(nèi)容的多媒體信息檢索以及相關(guān)的特征提取技術(shù)。
多媒體信息資源包括圖形圖像,音頻和視頻等信息,多媒體信息檢索除了可以按照傳統(tǒng)的關(guān)鍵字檢索外,還可以按照多媒體資源中涵蓋的內(nèi)容來(lái)檢索,如可以檢索所有含有老虎的圖像,雖然可能錯(cuò)誤地檢索出含有貓的圖像,但比起傳統(tǒng)的檢索方法,已經(jīng)有了本質(zhì)的不同。本章重點(diǎn)介紹基于內(nèi)容的多媒體信息檢索,并且根據(jù)多媒體資源的表現(xiàn)形式,把它分為基于內(nèi)容的圖像檢索、基于內(nèi)容的視頻檢索、基于內(nèi)容的音頻檢索三大類。
10.1基于內(nèi)容的圖像信息檢索
可以說(shuō),幾乎每一個(gè)Web頁(yè)面上都有圖像,這些圖像有些是和頁(yè)面主題相關(guān)的,而大部分是一些Logo或廣告圖像。如何有效地檢索出所需的網(wǎng)絡(luò)圖像是一個(gè)難題。
傳統(tǒng)的按照關(guān)鍵字的圖像檢索仍然起著重要的作用,如著名網(wǎng)站Google,它提供的圖像檢索基本是按照關(guān)鍵字進(jìn)行的,Google分析頁(yè)面上圖像附近的文字、圖像標(biāo)題以及許多其他元素來(lái)確定圖像的內(nèi)容,Google還使用復(fù)雜的算法來(lái)刪除重復(fù)的內(nèi)容,并確保在搜索結(jié)果中首先顯示質(zhì)量最好的圖像。目前,可通過(guò)Google檢索到的圖像超過(guò)3.9億幅。這種檢索方法的檢索性能關(guān)鍵要看對(duì)內(nèi)容的描述是否準(zhǔn)確,相對(duì)于基于內(nèi)容的圖像檢索來(lái)說(shuō),按照關(guān)鍵字檢索圖像準(zhǔn)確率效果更好。但是按照關(guān)鍵字的檢索具有如下缺點(diǎn):
(1)面對(duì)WWW上成千上萬(wàn)幅的圖像,對(duì)它們進(jìn)行正確的文本索引,是非常困難的事情。
(2)文本描述不可避免地帶有主觀性,不同的人從同一幅圖像里讀出的信息可能大相徑庭。
(3)一幅圖像勝似千言萬(wàn)語(yǔ),多少關(guān)鍵詞才可能代表一幅圖像呢?
(4)依賴于文本描述所使用的語(yǔ)言種類。
基于內(nèi)容的圖像檢索(Content-BasedImageRetrieval,CBIR)可以在一定程度克服上述缺陷。CBIR提取每幅圖像的視覺(jué)內(nèi)容(如色彩、紋理和形狀等)作為其索引,用戶選擇具有代表性的一幅或多幅例子圖像,依據(jù)圖像視覺(jué)特征的相似度進(jìn)行查詢,然后由系統(tǒng)查找與例子圖像在視覺(jué)內(nèi)容上相似的圖像,按相似度大小排列返回給用戶,或者用戶制定圖像的主要視覺(jué)特征,如紅色,按照指定的顏色來(lái)檢索。一般來(lái)說(shuō),基于內(nèi)容的網(wǎng)絡(luò)圖像檢索流程如圖10-2所示。圖10-2基于內(nèi)容的網(wǎng)絡(luò)圖像檢索流程示意圖首先將機(jī)器人下載回來(lái)的圖像進(jìn)行視覺(jué)特征分析,主要包括顏色、形狀和紋理特征的提取,形成特征索引;用戶檢索時(shí),通過(guò)提交例圖或直接的特征查詢,再通過(guò)同樣的顏色、形狀和紋理特征提取,形成特征向量;然后,將該特征向量和索引庫(kù)中的特征向量進(jìn)行相似度計(jì)算;最后輸出超過(guò)閾值或者按相似度大小排列的圖像。
可見(jiàn),基于內(nèi)容的圖像檢索關(guān)鍵在于特征提取和相似度的計(jì)算,所以,這也是本章重點(diǎn)講述的內(nèi)容。
目前國(guó)內(nèi)外已有不少應(yīng)用于實(shí)驗(yàn)環(huán)境的CBIR系統(tǒng),其中比較有名的有IBM公司開(kāi)發(fā)的最早商業(yè)化QBIC系統(tǒng),哥倫比亞大學(xué)研發(fā)的WebSEEK系統(tǒng)、麻省理工學(xué)院研發(fā)的Photobook系統(tǒng)。
1.QBIC
QBIC[1]是基于圖像內(nèi)容查詢的英文縮寫(xiě)(QueryByImageContent)。QBIC系統(tǒng)是由國(guó)際商用機(jī)器公司IBM(InternationalBusinessMachinery)Almaden研究中心研發(fā)的第一個(gè)商業(yè)化的基于內(nèi)容的圖像檢索系統(tǒng)。該系統(tǒng)的框架和采用的技術(shù)對(duì)后來(lái)的圖像檢索系統(tǒng)產(chǎn)生了深刻的影響。QBIC系統(tǒng)支持基于范例圖像的查詢方式,也支持通過(guò)由用戶構(gòu)造的草圖、輪廓和選定的色彩與紋理樣式的查找方式,以及其他一些查詢方式。在QBIC的最新版系統(tǒng)中,基于文本的關(guān)鍵字查找方式與基于內(nèi)容的相似性查找方式相結(jié)合,共同完成查找功能。
2.Virage
Virage[2]是由Virage有限公司開(kāi)發(fā)的基于內(nèi)容的圖像檢索引擎。同QBIC系統(tǒng)一樣,它也支持基于色彩、色彩布局、紋理和結(jié)構(gòu)特征(對(duì)象邊緣)的視覺(jué)查詢功能。但Virage比QBIC在技術(shù)上向前邁了一步,Virage支持以上四種基本查詢的任意組合的查詢方式。用戶還可以根據(jù)需要來(lái)調(diào)整一些基本圖像特征的權(quán)重。Jeffery等人進(jìn)一步提出了圖像管理的開(kāi)放式框架,他們將圖像的視覺(jué)特征分為兩類:一類是通用特征(如色彩、形狀或紋理),一類是領(lǐng)域相關(guān)的特征(如用于人臉識(shí)別、癌細(xì)胞檢測(cè)的特征)。根據(jù)不同領(lǐng)域的具體需要,各種專用的基本特征就可以加入到這個(gè)開(kāi)放式結(jié)構(gòu)中來(lái)。
3.Photobook
Photobook[3]是美國(guó)麻省理工學(xué)院的多媒體實(shí)驗(yàn)室所開(kāi)發(fā)的用于圖像查詢和瀏覽的交互式工具。它由三個(gè)子系統(tǒng)組成,分別負(fù)責(zé)提取形狀、紋理、人臉特征。這樣一來(lái),用戶就可以分別在這三個(gè)子系統(tǒng)中根據(jù)相應(yīng)的特征來(lái)進(jìn)行查找。然而,對(duì)于不同的領(lǐng)域,沒(méi)有哪一種“最好”的特征能夠完美地描述一幅圖像,所以,在Photobook更新一些的版本FourEyes中,Picard等人提出了把用戶加入到圖像注釋和檢索過(guò)程中的想法。更進(jìn)一步,由于人的感知是主觀的,他們又提出了“模型集合”來(lái)結(jié)合人的因素。實(shí)驗(yàn)表明,這種方法對(duì)于交互式圖像注釋來(lái)說(shuō)非常有效。
4.VisualSEEK和WebSEEK
VisualSEEK[4]是美國(guó)哥倫比亞大學(xué)電子工程系與電信研究中心圖像和高級(jí)電視實(shí)驗(yàn)室共同研究的基于內(nèi)容的搜索引擎,而WebSEEK是一種面向WWW的文本或圖像搜索引擎,也都是由哥倫比亞大學(xué)開(kāi)發(fā)的。這兩個(gè)系統(tǒng)的主要技術(shù)特點(diǎn)是采用了圖像區(qū)域之間空間關(guān)系和從壓縮域中提取的視覺(jué)特征,包括顏色特征和基于小波變換的紋理特征。為了加快檢索速度,系統(tǒng)采用基于二叉樹(shù)的索引算法。VisualSEEK可同時(shí)支持基于視覺(jué)特征的查詢和基于空間關(guān)系的查詢。比如,用戶如果要查找一幅“日落”的圖像,那用戶的查詢可以是一幅草圖:草圖的上半部分是桔紅色的區(qū)域,下半部分是藍(lán)綠色的區(qū)域。而WebSEEK是一個(gè)面向WWW的搜索引擎,它不僅支持基于關(guān)鍵字的查找,還支持基于視覺(jué)內(nèi)容的查找。
5.MARS
MARS[5]是伊利諾斯大學(xué)Urbana-Champaign分校(UIUC)開(kāi)發(fā)的多媒體分析和檢索系統(tǒng)(MultimediaAnalysisandRetrievalSystem)的英文縮寫(xiě)。MARS無(wú)論在研究角度還是應(yīng)用領(lǐng)域都和其他的圖像檢索系統(tǒng)有很大的差異。這主要體現(xiàn)在MARS是一個(gè)多學(xué)科交叉融合的產(chǎn)物,包括計(jì)算機(jī)視覺(jué)、數(shù)據(jù)庫(kù)管理系統(tǒng)以及傳統(tǒng)的信息檢索技術(shù)。MARS在科研方面的主要特點(diǎn)包括數(shù)據(jù)庫(kù)管理系統(tǒng)DBMS和信息檢索技術(shù)IR的結(jié)合(如何進(jìn)行分級(jí)的精確匹配),索引和檢索技術(shù)的融合(即檢索算法如何發(fā)揮底層索引結(jié)構(gòu)的優(yōu)點(diǎn)),以及計(jì)算機(jī)和人的融合(相關(guān)反饋技術(shù))。MARS系統(tǒng)的重點(diǎn)并不在于找到所謂“最好”的圖像特征,而在于根據(jù)實(shí)際的應(yīng)用環(huán)境和用戶需要在檢索框架中動(dòng)態(tài)地組合調(diào)整各種不同的圖像特征。MARS在圖像檢索領(lǐng)域正式提出了相關(guān)反饋的體系結(jié)構(gòu)。相關(guān)反饋的技術(shù)在各種層次上融合到檢索的過(guò)程中,包括查詢向量的優(yōu)化、相似度算法的自動(dòng)選擇以及圖像特征權(quán)重的調(diào)整。
10.2圖像特征提取
10.2.1顏色特征
1.顏色模型
顏色、形狀和紋理是圖像中三種最重要的低層視覺(jué)特征,相比之下,其中的顏色特征提取方法又較為成熟。在基于內(nèi)容的圖像檢索中,希望提取出來(lái)的特征具有尺度不變性、旋轉(zhuǎn)不變性、平移不變性等優(yōu)良特性,以使圖像在發(fā)生了縮放、移動(dòng)或旋轉(zhuǎn)等變化后,不影響檢索的效果,或影響很小。
圖像中的顏色具有鮮明的特點(diǎn),顏色特征提取的方法很多,相對(duì)形狀特征和紋理特征而言,顏色特征提取方法較為有效和成熟,在基于內(nèi)容圖像檢索中顏色特征得到了廣泛的應(yīng)用。顏色特征的提取可以選擇不同的顏色模型進(jìn)行,其提取的效果也會(huì)截然不同,直接影響檢索的效果。下面分別介紹幾種常用的顏色模型[6],針對(duì)不同的應(yīng)用,可選擇合適的顏色模型。
根據(jù)顏色模型的用途,常用的顏色模型可分為兩類:一類是面向諸如彩色顯示器或打印機(jī)之類的硬設(shè)備的顏色模型,如RGB模型、CMY模型等;另一類是面向視覺(jué)感知的顏色模型,這類模型更接近人的視覺(jué)感知,適合用來(lái)分析圖像特征,如HSI模型、HSV模型、Lab模型等,本節(jié)重點(diǎn)介紹RGB模型和HSI模型。
1)RGB模型
RGB模型是面向硬設(shè)備的最常用的顏色模型,如圖10-3所示。根據(jù)人眼結(jié)構(gòu),所有顏色都可看做是三個(gè)基本顏色——紅、綠、藍(lán)的不同組合,用(R,G,B)表示,例如:(255,0,0)表示紅色,(0,0,0)表示黑色。每種顏色分量的值在[0,255]區(qū)間變化。
將RGB模型建立在笛卡兒坐標(biāo)系統(tǒng)里,其中3個(gè)軸分別為R、G、B,如圖10-3所示。RGB模型的空間是個(gè)正方形,從黑到白的灰度值分布在從原點(diǎn)到離原點(diǎn)最遠(yuǎn)頂點(diǎn)間的連線上,而立方體內(nèi)其余各點(diǎn)對(duì)應(yīng)不同的顏色,可用從原點(diǎn)到該點(diǎn)的向量表示。有時(shí)為了計(jì)算方便,將立方體歸一化為單位立方體,讓所有的R、G、B的值都在區(qū)間[0,1]之中。圖10-3RGB色彩立方體面向硬設(shè)備的顏色模型與人類的視覺(jué)感知有一定距離,很難將一個(gè)顏色和一個(gè)(R,G,B)向量畫(huà)上等號(hào),換句話說(shuō),看到一種顏色,不太可能知道它對(duì)應(yīng)的RGB分量值,或者反過(guò)來(lái),看到一個(gè)RGB向量,不可能很快直覺(jué)到它的顏色。所以,為了分析圖像的顏色特征,一般不直接采用RGB模型,而是將它轉(zhuǎn)換成其他與人的視覺(jué)感知接近的顏色模型。
2)HSI模型
HSI模型如圖10-4所示,它是面向顏色處理的最常見(jiàn)的模型,其中H表示色調(diào),S表示飽和度,I表示亮度,人區(qū)分顏色就常用這三種基本特征量。亮度與物體的反射率成正比,一般來(lái)說(shuō),如果一個(gè)圖像無(wú)色彩,那么就只有亮度這一個(gè)分量。對(duì)彩色來(lái)說(shuō),顏色中滲入白色越多就越明亮,滲入黑色越多亮度就越小。色調(diào)是與混合光譜中主要光波長(zhǎng)相聯(lián)系的。飽和度與一定色調(diào)的純度有關(guān),純光譜色是完全飽和的,隨
著白光的加入飽和度逐漸減少。色調(diào)和飽和度合起來(lái)又稱為色度,所以顏色可用亮度和色度共同表示。圖10-4HSI模型的坐標(biāo)系統(tǒng)[6]從圖10-4可見(jiàn)HSI模型的坐標(biāo)系統(tǒng)接近圓柱坐標(biāo)系統(tǒng)。對(duì)其中的任意一個(gè)色點(diǎn)P,其H值對(duì)應(yīng)指向該點(diǎn)的向量與R軸的夾角。這個(gè)點(diǎn)的S值與指向該點(diǎn)的向量長(zhǎng)度成正比,越長(zhǎng)越飽和。在這個(gè)模型中,I的值與該點(diǎn)所在平面與最下對(duì)應(yīng)黑色點(diǎn)的距離成正比。如果色點(diǎn)在I軸上,則其S值為零而H沒(méi)有定義,這些點(diǎn)也稱奇異點(diǎn)。奇異點(diǎn)的存在是HSI模型的一個(gè)缺點(diǎn),而且在奇異點(diǎn)附近,R、G、B值的微小變化會(huì)引起H、S、I值的明顯變化。
RGB空間的彩色圖像可以方便地轉(zhuǎn)換到HSI空間。如果一幀圖像的R、G、B分量都已經(jīng)歸一化到了[0,1]區(qū)間,則其對(duì)應(yīng)的HSI模型中的H、S、I分量可由下面的公式計(jì)算求得:(10-1)(10-2)(10-3)由公式直接算出的H值在[0°,360°]之間,為使H落在[0,1]之間,可令H=H/360°進(jìn)行轉(zhuǎn)換。當(dāng)S=0時(shí),H沒(méi)有意義,此時(shí)可定義H為0;另外,當(dāng)I=0或I=1時(shí),討論S也沒(méi)有意義。
2.顏色特征提取
顏色特征的表達(dá)方法有很多,常用的有直方圖法、累加直方圖法、局部累加直方圖法等。本節(jié)重點(diǎn)介紹這3種方法,并作簡(jiǎn)要的比較。
1)顏色直方圖
顏色直方圖是表示圖像顏色統(tǒng)計(jì)特征的最直觀的方法,就是在選定顏色模型的基礎(chǔ)上,統(tǒng)計(jì)出每種分量在各個(gè)顏色級(jí)別的像素?cái)?shù)占圖像像素總數(shù)的比例,得到圖像各種顏色分量的比例分布,即直方圖。直方圖可以用數(shù)學(xué)公式表示為(10-4)式中:k代表顏色特征值的級(jí)別;L是顏色特征級(jí)別的總數(shù);nk是圖像中具有K級(jí)別顏色特征值的像素的個(gè)數(shù);N是圖像像素總數(shù)。
圖10-5(a)用三個(gè)級(jí)別構(gòu)造了一幀圖像,假設(shè)這三個(gè)級(jí)別的顏色的I分量分別為I1、I2和I3,例圖中I分量為I1和I2的像素?cái)?shù)均占總像素?cái)?shù)的25%,I分量為I3的像素?cái)?shù)占總像素?cái)?shù)的50%,所以得出的I分量直方圖如圖10-5(b)所示。上述的顏色直方圖也稱為統(tǒng)計(jì)直方圖。
圖10-6是原圖及它的縮放圖、旋轉(zhuǎn)圖和位移圖。圖10-7是原圖及其縮放圖、旋轉(zhuǎn)圖和位移圖的RGB分量和灰度直方圖,其各分量的直方圖是一樣的,這是一個(gè)非常優(yōu)美的特性。圖10-5直方圖統(tǒng)計(jì)方法示例圖10-6原圖及其縮放、旋轉(zhuǎn)和位移圖圖10-7原圖及其縮放圖、旋轉(zhuǎn)圖和位移圖的RGB分量和灰度直方圖一般來(lái)說(shuō),統(tǒng)計(jì)直方圖具有如下一些優(yōu)點(diǎn):
(1)縮放不變性。圖像進(jìn)行縮放,不引起顏色直方圖變化。
(2)旋轉(zhuǎn)不變性。圖像進(jìn)行旋轉(zhuǎn),不引起顏色直方圖的變化。
(3)位移不變性。圖像進(jìn)行移動(dòng),不引起顏色直方圖的變化。
(4)雙峰特性。如果圖像中的前景和背景分明,直方圖出現(xiàn)明顯的雙峰特性。
但是,顏色直方圖也有一些缺點(diǎn),不利于表征圖像的內(nèi)容本質(zhì),如:顏色直方圖只是對(duì)顏色分量級(jí)別的像素點(diǎn)進(jìn)行了統(tǒng)計(jì),完全丟失了空間信息,由此造成兩幅不同內(nèi)容的圖像,顏色直方圖卻可能相同,如圖10-8所示。圖10-8兩幅不同的圖像具有相同的顏色直方圖對(duì)圖10-8所示的這種情況,如果單憑顏色直方圖來(lái)辨識(shí)圖像,就會(huì)跟實(shí)際情況發(fā)生很大的偏差。這時(shí)可采用分塊計(jì)算直方圖的方法,稍后介紹分塊直方圖。
另外,當(dāng)圖像中的顏色級(jí)別不能取遍所有級(jí)別時(shí),統(tǒng)計(jì)直方圖中會(huì)出現(xiàn)一些零值。這些零值的出現(xiàn)會(huì)對(duì)計(jì)算直方圖的相交帶來(lái)很大影響,從而使得算出的匹配值并不能正確地反映兩圖間的顏色差別。這個(gè)問(wèn)題在一定程度上可通過(guò)加大圖像特征取值的間隔(即量化間隔Δ),減少特征取值數(shù)量來(lái)克服。但這種簡(jiǎn)單量化存在一個(gè)問(wèn)題。以色調(diào)特征為例,對(duì)兩個(gè)相近顏色,量化既可能將它們量化到同一個(gè)色調(diào)上,也可能將其量化到不同的兩個(gè)色調(diào)上,即量化可能拉近它們的距離也可能拉大它們的距離。這種問(wèn)題多出現(xiàn)在量化間隔的邊界附近,由量化本身造成。另外一種解決方法是采用累積直方圖(或累加直方圖),累積直方圖能大大減少原統(tǒng)計(jì)直方圖中出現(xiàn)的零值數(shù)量,使兩種顏色在特征軸上的距離保持與它們之間的相似度成正比。
2)累加直方圖
在選定顏色模型的基礎(chǔ)上,統(tǒng)計(jì)每種顏色分量的像素?cái)?shù)占圖像像素總數(shù)的比例,并把前面i級(jí)顏色分量的比例累加起來(lái),得到一個(gè)逐漸遞增的直方圖,這就是累加直方圖,如圖10-9所示。累加直方圖用數(shù)學(xué)公式表示為(10-5)式中:k表示特征的取值;L是特征可取值的個(gè)數(shù);nk是圖像中具有特征值為K的像素的個(gè)數(shù);N是圖像像素總數(shù)。圖10-9累加直方圖的計(jì)算示例圖10-9(b)是圖10-9(a)的累加直方圖,圖中橫軸表示按照從低到高的顏色分量級(jí)別,不難理解,最后那個(gè)級(jí)別的值為100%。
累加直方圖比起一般直方圖有它的優(yōu)越性,基本解決了前面提到的“零值”問(wèn)題。
3)分塊直方圖
為了克服統(tǒng)計(jì)直方圖丟失空間信息帶來(lái)的問(wèn)題,將圖像劃分為不同的塊,對(duì)每個(gè)塊再計(jì)算直方圖,這種方法叫做分塊直方圖。
正如圖10-8所示,因?yàn)榻y(tǒng)計(jì)直方圖丟失了空間信號(hào),兩幅完全不同的圖像,它們的統(tǒng)計(jì)直方圖表示可能完全相同。為了克服這個(gè)問(wèn)題,有人提出分塊直方圖的方法[7-8]。利用分塊直方圖進(jìn)行檢索時(shí),首先把整幅圖像進(jìn)行劃分,這樣圖像就由劃分出的小塊組成;然后對(duì)每小塊圖像計(jì)算統(tǒng)計(jì)直方圖;最后,計(jì)算并累加不同圖像對(duì)應(yīng)小塊的直方圖距離,并據(jù)此進(jìn)行圖像的相似匹配,完成圖像的檢索。這種方法找回了部分的空間信息,所以,可以部分解決上面提到的問(wèn)題。該算法由于在圖像各小塊的基礎(chǔ)上探討顏色的比例關(guān)系,因而摻入了圖像的部分空間信息。讀者可以想象,假如分塊足夠小,小到只有一個(gè)像素,這時(shí)會(huì)出現(xiàn)什么情況呢?使用分塊直方圖方法,最重要的是如何分塊。塊分得越大,計(jì)算量的增加雖然不會(huì)太大,但摻入的空間信息會(huì)越粗;塊分得越小,計(jì)算量越大,但摻入的空間信息越多。如何分塊,需要針對(duì)實(shí)際應(yīng)用問(wèn)題進(jìn)行權(quán)衡。Stricker認(rèn)為圖像中最有意義的區(qū)域位于圖像的中心部分,因而將圖像固定分為5塊,如圖10-10(a)所示。MARS檢索系統(tǒng)則將圖像分為5×5塊。還有很多分塊的方法,圖10-10(b)是一種規(guī)則的分塊方法,所分塊的大小可變。圖10-10分塊方法圖例分塊直方圖的計(jì)算方法很簡(jiǎn)單,下面介紹兩種計(jì)算方法。
(1)首先,將一幅圖像P分成M×M個(gè)小塊(M不宜太大),每一塊用Pi表示,其中i=1,2,…,M×M。然后,分別對(duì)每一小塊Pi,用前面介紹的一般直方圖的方法計(jì)算各小塊的一般直方圖,得到:(10-6)式中:Hi(k)為Pi的顏色統(tǒng)計(jì)直方圖;k表示顏色級(jí)別;L是顏色級(jí)別總數(shù);nik是分塊Pi中顏色級(jí)別為K的像素的個(gè)數(shù),Ni是分塊Pi的像素總數(shù)。然后,把每個(gè)塊的顏色統(tǒng)計(jì)直方圖結(jié)合起來(lái),得到一個(gè)L×(M×M)維向量,它可作為圖像P的顏色特征。這種方法能夠很好地表達(dá)圖像的空間分布信息,但它的缺點(diǎn)是增大了顏色特征的維數(shù),增大了要儲(chǔ)存的信息量,也增大了計(jì)算量。
(2)首先,將一幅圖P分成M×M個(gè)小塊(M可取較大值),每一塊用Pi表示,其中i=1,2,…,M×M。然后,分別計(jì)算每一小塊Pi的顏色分量平均值,可得:(10-7)其中,Di為分塊Pi的區(qū)域,f(x,y)為像素點(diǎn)(x,y)的顏色值,Ni是分塊Pi的像素總數(shù)。計(jì)算所得的M×M維向量H(i)便可作為圖像P的特征向量。10.2.2形狀特征提取
形狀是刻畫(huà)物體的本質(zhì)特征之一,利用形狀來(lái)檢索圖像無(wú)疑可提高檢索的準(zhǔn)確率。利用形狀進(jìn)行匹配有3個(gè)問(wèn)題值得注意[6]:首先,要獲得有關(guān)目標(biāo)的形狀參數(shù),常要先對(duì)圖像進(jìn)行分割、增強(qiáng),從而得到圖像中物體的邊界點(diǎn);其次,目標(biāo)形狀的描述是一個(gè)非常復(fù)雜的問(wèn)題,要受到人的主觀感受的影響;最后,從不同視角角度獲取的圖像中目標(biāo)形狀可能會(huì)有很大差別,為準(zhǔn)確進(jìn)行匹配,需要解決平移、尺度、旋轉(zhuǎn)不變性的問(wèn)題。通常形狀表達(dá)可分成兩類:基于邊界的和基于區(qū)域的,前者利用的是形狀的外邊界,而后者則利用整個(gè)形狀區(qū)域?;谶吔绲拿枋鲋饕校憾噙呅蚊枋?、樣條曲線擬合和傅里葉描述子等?;趨^(qū)域的特征描述法有區(qū)域的面積、圓形度、形狀的縱橫比(AspectRation)、不變矩(InvariantMoment)等。
不變矩在形狀特征表達(dá)中具有重要的作用,本節(jié)重點(diǎn)介紹Hu[9]的不變矩。Hu在1962年首先基于代數(shù)不變量引入矩不變量,通過(guò)對(duì)幾何矩的非線性組合,導(dǎo)出了一組對(duì)于圖像平移、旋轉(zhuǎn)、尺度變化的不變矩,可用于圖像的檢索。下面主要介紹Hu不變矩的計(jì)算[9]:
定義10-1
大小為M×N的二維圖像,{f(i,j),i=0,1,2,…,M;j=0,1,2,…,N},其p+q階矩定義如下式所示:(10-8)其中,p和q可取所有的非負(fù)整數(shù)值。特殊地,當(dāng)p=0,q=0時(shí),其零階矩為(10-9)對(duì)于二值圖像,令其背景值為0,形狀區(qū)域內(nèi)值為1,則零階矩表示該形狀區(qū)域的面積。
定義10-2
圖像的p+q階中心矩:為了保證形狀特征的位置不變性,還必須計(jì)算中心矩,即以物體的質(zhì)心為原點(diǎn)計(jì)算圖像的不變矩值,p+q階中心矩定義如下:(10-10)式中,(,)是圖像的質(zhì)心,其定義如下:(10-11)再利用下式對(duì)中心矩進(jìn)行歸一化處理,得到歸一化的中心矩ηpq:(10-12)Hu將中心矩進(jìn)行不同的組合,得到7個(gè)具有平移、旋轉(zhuǎn)和尺度不變性的矩:(10-12)為了加深讀者對(duì)Hu矩的理解,特構(gòu)造了如圖10-11的原圖、縮放圖、平移圖及旋轉(zhuǎn)圖,分別計(jì)算它們的7個(gè)Hu矩。
利用本節(jié)的定義,計(jì)算上述各圖的7個(gè)不變矩,得到結(jié)果如表10-1所示。圖10-11原圖及其平移圖、縮小圖、放大圖和旋轉(zhuǎn)圖從表中數(shù)據(jù)清晰地看到,這7個(gè)矩具有平移、尺度和旋轉(zhuǎn)不變的優(yōu)美特性。利用這些不變矩可以檢索到即使經(jīng)過(guò)了平移、旋轉(zhuǎn)、縮放的相似圖像。10.2.3紋理特征提取
目前,圖像的紋理尚無(wú)統(tǒng)一明確的定義,不同的學(xué)者對(duì)紋理有不同的理解,但涵義基本相同。Hawkins[10]認(rèn)為紋理標(biāo)志具有三個(gè)要素:①局部的空間變化次序在更大的區(qū)域內(nèi)不斷重復(fù);②次序是由基本元素非隨機(jī)排列而組成;③紋理區(qū)域內(nèi)任何地方都有大致相同的結(jié)構(gòu)尺寸。Duda[11]認(rèn)為紋理可以看成是表示灰度空間分布的屬性。Haralick[12]則認(rèn)為紋理是由大量或多或少相似的紋理元(texton)或模式組成的一種結(jié)構(gòu),即組成紋理的基元及它們之間的相互關(guān)系,這二者構(gòu)成了紋理的兩個(gè)基本特征。徐建華[13]則把紋理理解為圖像灰度在空間上的變化和重復(fù),或圖像中反復(fù)出現(xiàn)的局部模式(紋理單元)和它們的排列規(guī)則。圖10-12是選自Brodatz紋理圖像庫(kù)中的具有典型紋理特征的一些紋理圖像。圖10-12Brodatz紋理圖像如何識(shí)別出圖像中的紋理,方法有很多,可分為兩大類:結(jié)構(gòu)方法和統(tǒng)計(jì)方法。結(jié)構(gòu)方法主要描述紋理單元及其周期性排列的空間幾何特征和排列規(guī)則,如形態(tài)學(xué)、圖論、拓?fù)涞确椒?;將?fù)雜的紋理圖像通過(guò)特征提取和分割,得到局部基元和它們的屬性及其相互關(guān)系,對(duì)紋理基元及其排列規(guī)則進(jìn)行描述、分析和解釋。統(tǒng)計(jì)方法是以人的直觀感覺(jué)為基礎(chǔ)的,它根據(jù)像素灰度的統(tǒng)計(jì)特征確定紋理特征,如直方圖統(tǒng)計(jì)特征法、自相關(guān)函數(shù)法等。相比之下,紋理的統(tǒng)計(jì)分析方法占主導(dǎo)地位,紋理的統(tǒng)計(jì)分析方法可進(jìn)一步分為傳統(tǒng)的統(tǒng)計(jì)方法、基于模型的統(tǒng)計(jì)方法、基于頻譜分析的方法。紋理識(shí)別的關(guān)鍵是紋理特征的表示方法。
下面就介紹兩種常用的紋理特征描述方法。
1.Tamura紋理特征
從圖10-12這些典型的紋理圖像中可以發(fā)現(xiàn),圖像中的紋理是像素值在空間分布上呈現(xiàn)一定的規(guī)律,使感官上的紋理呈現(xiàn)出一定的方向性、粗細(xì)、線像性、對(duì)比性等。Tamura在人類視覺(jué)心理學(xué)的基礎(chǔ)上,提出了一種數(shù)學(xué)方法來(lái)描述紋理的這些特征[14],包括:粗糙度(coarseness)、對(duì)比度(contrast)、方向度(directionality)、線像度(linelikeness)、規(guī)整度(regularity)和粗略度(roughness)。其中,前三個(gè)分量對(duì)于圖像檢索來(lái)說(shuō)尤其重要,下面簡(jiǎn)要介紹這些紋理特征參數(shù)的定義。
粗糙度:一幅大小為M×N的二維圖像,{f(i,j),i=0,1,2,…,M;j=0,1,2,…,N},粗糙度定義為如下計(jì)算公式:
式中,Sbest(i,j)=2k,而每個(gè)像素點(diǎn)k值的計(jì)算可以通過(guò)使式(10-14)中的E值最大獲得:(10-13)(10-14)而平均像素強(qiáng)度Ak(i,j)由式(10-15)求得:(10-15)上述的粗糙度計(jì)算結(jié)果是一個(gè)數(shù),對(duì)于一幅大而復(fù)雜的圖像,這種定義未免粗糙,所以,有人也使用直方圖方式來(lái)描述Sbest的分布,這種改進(jìn)后的粗糙度特征能夠表達(dá)具有多種不同紋理特征的圖像或區(qū)域,因此對(duì)圖像檢索更為有利。
對(duì)比度:對(duì)比度定義為公式(10-16):(10-16)其中,μA是圖像灰度的四階中心矩,σ是圖像的標(biāo)準(zhǔn)方差。對(duì)比度值從某個(gè)角度反映了整幅圖像的全局灰度分布狀況。方向度:方向度的計(jì)算需要首先計(jì)算每個(gè)像素處的梯度向量。該向量的模和方向分別定義為(10-17)
其中ΔH和ΔV分別是通過(guò)圖像卷積圖10-13所示的兩個(gè)3×3操作符所得的水平和垂直方向上的變化量。圖10-13梯度計(jì)算的卷積算子(10-18)在圖像陣列上移動(dòng)卷積算子,即可得到每個(gè)像素點(diǎn)的梯度向量。在此基礎(chǔ)上,定義方向直方圖HD(k)如下:(10-19)式中:Nθ(k)表示滿足的像素點(diǎn)個(gè)數(shù),t是梯度閾值。如果一幅圖像的紋理具有明顯的方向性,在方向直方圖上就會(huì)表現(xiàn)出局部峰值;反之,如果是沒(méi)有明顯方向性的圖像,其方向直方圖則無(wú)明顯的峰值表現(xiàn)。為了更定量地表達(dá)圖像總體的方向性,Tamura還通過(guò)采用統(tǒng)計(jì)每個(gè)峰值二階矩的方法來(lái)定義,具體如下所示:
式中:p代表方向直方圖中的某個(gè)峰值;np為方向直方圖中所有的峰值個(gè)數(shù);ωp代表該峰值p所對(duì)應(yīng)的谷范圍;而fp是峰值p對(duì)應(yīng)的位置;r是影響離散化水平的一個(gè)規(guī)范化因子。
線像度:如果一幅圖像的紋理是由一些線條組成的,那么該圖像的線像度很高,為此首先構(gòu)造一個(gè)大小為M×M的方向共生矩陣PDd。矩陣的元素PDd(i,j)是兩個(gè)距離相隔為d的像素之間的相關(guān)性,其中一個(gè)像素的方向值為i,另外一個(gè)像素的方向值為j,這里的方向值可以用上述的梯度方向來(lái)表示。則紋理的線像度定義為(10-20)
規(guī)整度:紋理的規(guī)整度定義為Fcrs、Fcon、Fdir、Fltn的標(biāo)準(zhǔn)方差和,計(jì)算公式如下:(10-21)(10-22)粗略度:根據(jù)心理學(xué)實(shí)驗(yàn),該參數(shù)計(jì)算方法如下:(10-23)上述公式給出了Tamura紋理特征的計(jì)算方法。該方法的優(yōu)點(diǎn)是從視覺(jué)的心理學(xué)角度出發(fā)提出了紋理表示方法,各個(gè)性質(zhì)都具有直觀的視覺(jué)意義,所以,在QBIC和MARS系統(tǒng)中都包含了這一特征。
2.基于灰度共生矩陣的紋理特征
20世紀(jì)70年代,Haralick等提出了著名的灰度共生矩陣紋理特征表示方法,主要的依據(jù)是他們認(rèn)為紋理是通過(guò)灰度的空間相關(guān)性展現(xiàn)出來(lái)的,所以,該方法首先根據(jù)圖像像素之間的關(guān)系,構(gòu)造一個(gè)灰度共生矩陣(graytonecooccurrencematrix),再?gòu)闹刑岢鲇幸饬x的統(tǒng)計(jì)數(shù)據(jù)作為紋理特征的表示。
灰度共生矩陣以統(tǒng)計(jì)成對(duì)灰度值出現(xiàn)的概率為基礎(chǔ)。設(shè)M是某幅圖像的灰度共生矩陣,則每個(gè)矩陣元素表示θ方向上相隔d像素遠(yuǎn)的一對(duì)像素分別具有灰度級(jí)i和j的出現(xiàn)概率,可用式(10-24)計(jì)算:(10-24)式中,N(d,θ)表示處于位置關(guān)系(d,θ)的像素對(duì)的個(gè)數(shù),N(i,j|d,θ)表示處于位置關(guān)系(d,θ)的像素對(duì)中,一對(duì)像素分別具有的灰度級(jí)i和j的像素對(duì)個(gè)數(shù)。相應(yīng)的矩陣可記為M(d,θ)。請(qǐng)注意,θ方向可以有0°、45°、90°、135°等,如圖10-14所示。圖10-14灰度級(jí)分別為i和j,相距d=1的一對(duì)像素點(diǎn)的θ示意一般來(lái)說(shuō),圖像的灰度有256級(jí),灰度共生矩陣的構(gòu)建需要消耗很大的計(jì)算量和存儲(chǔ)量,為了減少計(jì)算和存儲(chǔ)開(kāi)銷,往往采取降低灰度級(jí)數(shù)的方法。下面舉例說(shuō)明如何構(gòu)造灰度共生矩陣。
【例10-1】
設(shè)有一幀4×4大小的圖像,灰度級(jí)別是0、1、2和3共4個(gè)級(jí)別,圖像點(diǎn)陣的灰度分布如下所示,試構(gòu)建灰度共生矩陣M(1,0°)。解:根據(jù)題意,d=1,θ=0°,灰度級(jí)別的組合(i,j)可以有(0,0)、(0,1)、(0,2)、(0,3)、(1,0)、(1,1)、(1,2)、(1,3)、(2,0)、(2,1)、(2,2)、(2,3)、(3,0)、(3,1)(3,2)(3,3)等幾種情況,則有:
N(0,0|1,0°)=#{{(1,1),(1,2)},{(1,2),(1,1)},{(2,1),
(2,2)},{(2,2),(2,1)}}=4
N(0,1|1,0°)=#{{(1,2),(1,3)},{(2,2),(2,3)}}=2
N(0,2|1,0°)=#{{(3,1),(3,2)}}=1
N(0,3|1,0°)=#{}=0
N(1,0|1,0°)=#{{(1,2),(1,3)},{(2,2),(2,3)}}=2
N(1,1|1,0°)=#{{(1,3),(1,4)},{(1,4),(1,3)},{(2,3),
(2,4)},{(2,4),(2,3)}}=4
N(1,2|1,0°)=#{}=0
N(1,3|1,0°)=#{}=0
N(2,0|1,0°)=#{{(3,2),(3,1)}}=1
N(2,1|1,0°)=#{}=0
N(2,2|1,0°)=#{{(3,2),(3,3)},{(3,3),(3,2)},{(3,3),
(3,4)},{(3,4),(3,3)},{(4,1),(4,2)},
{(4,2),(4,1)}}=6
N(2,3|1,0°)=#{{(4,2),(4,3)}}=1
N(3,0|1,0°)=#{}=0
N(3,1|1,0°)=#{}=0
N(3,2|1,0°)=#{{(4,3),(4,2)}}=1
N(3,3|1,0°)=#{{(4,3),(4,4)},{(4,4),(4,3)}}=1
而N(d,θ)=24,用N(d,θ)去除上述各項(xiàng),得到共生矩陣的各個(gè)元素P,比如:
P(0,0|1,0°)=4/24,其他各項(xiàng)略,最后得到灰度共生矩陣M(1,0°)如下:
從上面的求解過(guò)程可以清晰地看到,θ=0°的灰度共生矩陣反映了水平方向的成對(duì)灰度分布狀況,一定程度上表征了圖像的紋理特征。讀者可以試著計(jì)算M(1,45°)、M(1,90°)等。
由于灰度共生矩陣體現(xiàn)了圖像的紋理特征,從該矩陣得到的一些統(tǒng)計(jì)參數(shù)可以定量地描述這些紋理特征,常用的參數(shù)有灰度共生矩陣熵、慣性矩、能量、對(duì)比度、均勻性等,它們可分別使用下面的公式來(lái)計(jì)算。熵:(10-25)能量(二階矩):(10-26)對(duì)比度(慣性矩):(10-27)均勻度(局部平穩(wěn)):(10-28)熵表示圖像中紋理的非均勻程度或復(fù)雜程度,紋理越均勻,熵越大;紋理越復(fù)雜,熵越小。能量是對(duì)圖像灰度均勻性的測(cè)量。
10.3圖像相似量度
上一節(jié)介紹的顏色、形狀和紋理等低級(jí)視覺(jué)特征的提取,是基于內(nèi)容的圖像檢索的基礎(chǔ)和關(guān)鍵,它可以將圖像的內(nèi)容用數(shù)學(xué)的方法進(jìn)行定量的表示,接下來(lái)就是如何比較待檢索的圖像和數(shù)據(jù)庫(kù)中的圖像,看它們是否相似,是否可以作為檢索結(jié)果輸出給用戶。
相似性度量方法的好壞影響到圖像檢索的性能;而相似性度量的計(jì)算復(fù)雜性影響到圖像檢索的用戶響應(yīng)時(shí)間。所以,選擇一種恰當(dāng)?shù)南嗨屏慷扔?jì)算方法,可以提高圖像檢索的性能。相似度量實(shí)際上可以使用兩個(gè)向量間的距離來(lái)量度,兩個(gè)向量間的距離越大,相似度越小。反之,兩個(gè)向量間的距離越小,相似度越大。下面介紹幾種常見(jiàn)的距離量度[15]。首先定義D(e,d)為示例圖像e和圖像數(shù)據(jù)庫(kù)中圖像d之間的距離量度,Hd(k)和He(k)分別為圖像d、e的特征量(一般是向量)。
1.Minkowski量度
Minkowski距離可以定義為(10-29)
如果圖像特征的每維元素都同等重要,那么可以使用Minkowski距離來(lái)表示兩幅圖像之間的距離,距離越大,相似度越小??梢允褂镁嚯x的倒數(shù)來(lái)表征相似度。上面的定義中,p=1,2,3,…,對(duì)應(yīng)的D(e,d)分別被稱為L(zhǎng)1,L2,L3距離。當(dāng)p=2時(shí),此時(shí)的Minkowski距離稱為歐式距離。當(dāng)p=1時(shí),Minkowski距離變成如下的形式(L1距離):(10-30)直方圖相交法可以認(rèn)為是L1距離的一種特殊形式,圖像e和圖像d的直方圖之間的相交距離(也叫city-block距離)定義為(10-31)
2.Quadratic量度
Minkowski量度對(duì)所有的特征向量平均對(duì)待,而沒(méi)有考慮特征向量之間的關(guān)系。然而在實(shí)際情況下,各個(gè)特征向量之間是有關(guān)聯(lián)的,為了解決這個(gè)問(wèn)題,可以采用以下Quadratic量度:(10-32)這里A=[Aij]為一個(gè)對(duì)稱矩陣,表示特征向量之間的相關(guān)性,元素Aij表示特征i和特征j之間的相似程度。相對(duì)于歐氏距離,Ouadratic量度考慮到各特征向量之間的相關(guān)性,檢索結(jié)果更加符合人的視覺(jué)感觀,只是要計(jì)算出特征間的相關(guān)性是一件費(fèi)時(shí)耗力的工作。
3.Mahalanobis量度
當(dāng)特征向量之間具有相關(guān)性,而且各個(gè)特征向量對(duì)圖像內(nèi)容展現(xiàn)的貢獻(xiàn)大小不同時(shí),一般可以采用Mahalanobis量度。Mahalanobis量度定義為(10-33)式中,C表示特征向量協(xié)方差矩陣??梢宰魅缦碌亩x來(lái)表示兩個(gè)圖像向量之間的相似程度:(10-34)式中,di表示圖像庫(kù)中第i個(gè)圖像。當(dāng)樣例圖e和待比較圖d完全相似時(shí),S(e,d)=1。當(dāng)樣例圖e和待比較圖d完全不相似時(shí),S(e,d)=0。
10.4基于內(nèi)容的視頻信息檢索
多媒體信息檢索中,視頻信息檢索是一個(gè)不可分割的分支,廣泛應(yīng)用于電視臺(tái)、傳媒、教學(xué)、安防等多種行業(yè)。要完成視頻信息檢索,首先要了解視頻信息的特點(diǎn)。
視頻信息可以看成由一系列連續(xù)的視頻幀構(gòu)成,在一個(gè)鏡頭下拍攝下來(lái)的連續(xù)視頻幀構(gòu)成一個(gè)鏡頭,鏡頭內(nèi)的視頻幀內(nèi)容變化不大,所以可以用關(guān)鍵幀來(lái)描述鏡頭;表達(dá)某個(gè)特定獨(dú)立故事或語(yǔ)義的鏡頭構(gòu)成場(chǎng)景,即場(chǎng)景是由一些語(yǔ)義相關(guān)的鏡頭組成,值得注意的是構(gòu)成場(chǎng)景的鏡頭不一定在時(shí)間上連續(xù)。圖10-15是一個(gè)視頻幀、鏡頭和場(chǎng)景的示意圖。圖10-15數(shù)字視頻序列結(jié)構(gòu)視頻幀是組成一段視頻最基本的單元。一系列的視頻幀組成人眼所看見(jiàn)的連續(xù)的視頻。為了方便地檢索視頻,一般先將視頻進(jìn)行鏡頭分割(鏡頭邊界檢測(cè))、關(guān)鍵幀提取;得到關(guān)鍵幀以后,就可以按照?qǐng)D像檢索的方法來(lái)檢索視頻了。所以視頻檢索的關(guān)鍵是進(jìn)行鏡頭分割和關(guān)鍵幀提取。
視頻序列被分割為鏡頭,并提取出關(guān)鍵幀及其特征作為鏡頭的描述后,就可以建立基于關(guān)鍵幀的視頻檢索框架了。用戶可以根據(jù)需要,給出一幅類似的圖像、手繪的圖像輪廓、大致的對(duì)象形狀等。根據(jù)用戶的例子,系統(tǒng)計(jì)算得到相應(yīng)的特征,然后跟存儲(chǔ)下來(lái)的視頻關(guān)鍵幀相應(yīng)的特征進(jìn)行匹配,最后將關(guān)聯(lián)的視頻序列或其指針按相似度大小排序輸出給用戶。10.4.1鏡頭分割
鏡頭是視頻數(shù)據(jù)的基本單元,大部分視頻是通過(guò)編輯一個(gè)個(gè)鏡頭連接而成,所以首先要把視頻自動(dòng)地分割成一個(gè)個(gè)的鏡頭,作為基本的索引單元,這個(gè)過(guò)程就稱為鏡頭分割,或鏡頭邊界檢測(cè)(ShotBoundaryDetection)。它是實(shí)現(xiàn)基于內(nèi)容的視頻檢索的第一步,直接影響到視頻檢索的效果,鏡頭邊界的檢測(cè)算法按處理對(duì)象可分為[16]:非壓縮域鏡頭邊界檢測(cè)算法和壓縮域鏡頭邊界檢測(cè)算法。非壓縮域(像素域)鏡頭邊界檢測(cè)算法是針對(duì)未經(jīng)壓縮的數(shù)字視頻的,它可以利用視頻幀的像素域信息,提取其特征向量,然后比較在連續(xù)的時(shí)間段內(nèi),相鄰兩幀視頻圖像的特征向量在某個(gè)時(shí)刻是否發(fā)生了質(zhì)的變化(比如差值是否超過(guò)了設(shè)定的閾值),如果是,就認(rèn)為在該時(shí)刻發(fā)生了鏡頭的切換,標(biāo)記為鏡頭的邊界。
壓縮域鏡頭邊界檢測(cè)算法主要是針對(duì)MPEG壓縮視頻的。由于越來(lái)越多的視頻數(shù)據(jù)以MPEG壓縮形式進(jìn)行捕捉、傳輸和存儲(chǔ),因而有必要對(duì)MPEG壓縮視頻進(jìn)行研究。近年來(lái)開(kāi)始出現(xiàn)的直接對(duì)壓縮視頻進(jìn)行鏡頭檢測(cè)的算法,主要有以下兩類:
一類以日本的Yasuyaki[17]和美國(guó)普林斯頓的Yeo[18]為代表,他們都是利用I幀的DC序列,考察前后兩個(gè)I幀DC圖的色度相似性,在鏡頭轉(zhuǎn)換時(shí),色度變化一般較大。這類方法的缺點(diǎn)是檢測(cè)精度不高,因?yàn)殓R頭轉(zhuǎn)換可能發(fā)生在兩個(gè)I幀之間,另外沒(méi)有利用運(yùn)動(dòng)信息,難以區(qū)分鏡頭運(yùn)動(dòng)和漸變。另一類方法以Zhang[19]為代表,利用B幀和P幀的運(yùn)動(dòng)向量,在鏡頭轉(zhuǎn)換時(shí),B幀和P幀中采用預(yù)測(cè)編碼的宏塊數(shù)較少,這類方法雖然比較簡(jiǎn)單,但是I幀中沒(méi)有運(yùn)動(dòng)向量,且MPEG中運(yùn)動(dòng)估計(jì)采用了塊匹配方法,運(yùn)動(dòng)向量不一定表示真實(shí)的運(yùn)動(dòng),因而檢測(cè)精度不高。
按出發(fā)點(diǎn)的不同,鏡頭邊界檢測(cè)算法可分為:基于幀間差的方法和基于模型的方法;基于幀間差的方法因其簡(jiǎn)單有效,使用較為廣泛,下面就介紹這種方法。在發(fā)生鏡頭轉(zhuǎn)換時(shí)視頻數(shù)據(jù)將發(fā)生一系列的變化,這種變化表現(xiàn)在顏色差異突然增大、對(duì)象形狀的改變和運(yùn)動(dòng)的不連續(xù)性等各方面。一般而言,同一個(gè)鏡頭內(nèi)的各幀之間差異較小,不同鏡頭的幀間差異較大?;趲g差的方法就是利用某種特征,對(duì)視頻幀進(jìn)行比較,當(dāng)幀間差大于某個(gè)閾值時(shí)就認(rèn)為是鏡頭的邊界。基于幀間差的方法必須選擇合適的閾值,同時(shí)鏡頭漸變時(shí)幀間差增大不夠明顯,而鏡頭內(nèi)的運(yùn)動(dòng)也會(huì)引起幀間差的增大,可能造成鏡頭的誤判。按計(jì)算幀間差使用特征向量的不同,鏡頭邊界檢測(cè)算法又可分為:基于像素或塊的方法、基于直方圖的方法、基于邊緣特征的方法、基于運(yùn)動(dòng)向量的方法和基于DCT系數(shù)的方法等。
這些方法各有優(yōu)缺點(diǎn),基于像素或塊的方法由Nagasaka和Tanaka提出,它計(jì)算前后兩幀對(duì)應(yīng)像素(或塊)亮度差或顏色差的絕對(duì)值之和。它的一種改進(jìn)是計(jì)算亮度差或顏色差的絕對(duì)值超過(guò)某一閾值的像素總數(shù)。這類方法的缺點(diǎn)是對(duì)噪聲和運(yùn)動(dòng)比較敏感,因?yàn)樗鼑?yán)格地局限于像素的位置,噪聲和物體運(yùn)動(dòng)都會(huì)使幀間差增大,從而導(dǎo)致錯(cuò)誤的鏡頭邊界檢測(cè)。10.4.2關(guān)鍵幀提取
關(guān)鍵幀是指在一個(gè)鏡頭內(nèi)存在的一幀或者若干視頻幀,能夠表達(dá)該鏡頭的主要內(nèi)容。提取關(guān)鍵幀之后,就可以用很小的數(shù)據(jù)量把一個(gè)鏡頭的特性表示出來(lái),從而達(dá)到壓縮龐大檢索容量的目的。
視頻關(guān)鍵幀的提取算法一般分為靜態(tài)關(guān)鍵幀提取和動(dòng)態(tài)關(guān)鍵幀提取兩種類型。靜態(tài)關(guān)鍵幀提取是以鏡頭為單位來(lái)提取的。靜態(tài)關(guān)鍵幀提取一般只適合于靜止的鏡頭。動(dòng)態(tài)關(guān)鍵幀提取則是根據(jù)鏡頭內(nèi)視頻幀之間的變化程度來(lái)動(dòng)態(tài)地將鏡頭分割成分鏡頭,進(jìn)而對(duì)每個(gè)分鏡頭提取關(guān)鍵幀。
根據(jù)關(guān)鍵幀提取機(jī)理的不同,關(guān)鍵幀提取算法又可分為特定關(guān)鍵幀法[20]、幀平均法[21]和基于邊緣信息特征的方法等。
1.特定幀提取法
特定幀提取算法就是在一個(gè)鏡頭或分鏡頭內(nèi)選定特定位置的視頻幀作為關(guān)鍵幀。它分為靜態(tài)特定幀法和動(dòng)態(tài)特定幀法兩種類型。
靜態(tài)特定幀法是在已經(jīng)分好的鏡頭內(nèi)選取特定位置的視頻幀作為關(guān)鍵幀,比如可以選取鏡頭或者分鏡頭的首幀、中間幀、尾幀來(lái)作為該鏡頭或者分鏡頭的關(guān)鍵幀。靜態(tài)特定幀算法簡(jiǎn)單,計(jì)算量非常小,但是它往往不能夠正確地放映鏡頭內(nèi)視頻內(nèi)容的變化,不適用于在運(yùn)動(dòng)變化較多的視頻內(nèi)提取關(guān)鍵幀。動(dòng)態(tài)特定幀法則首先根據(jù)鏡頭內(nèi)視頻內(nèi)容的變化情況,用幀間差比較的方法來(lái)劃分鏡頭,對(duì)每個(gè)被劃分出來(lái)的分鏡頭選取特定位置的視頻幀作為該分鏡頭的關(guān)鍵幀。動(dòng)態(tài)特定幀法通常用鏡頭或者分鏡頭的第一幀作為關(guān)鍵幀,然后將后續(xù)的視頻幀與其比較,當(dāng)發(fā)現(xiàn)當(dāng)前幀和關(guān)鍵幀的幀間差大于某個(gè)閾值時(shí),則認(rèn)為鏡頭內(nèi)發(fā)生了較大的變化或者運(yùn)動(dòng)較為激烈,將當(dāng)前幀設(shè)定為關(guān)鍵幀,后續(xù)的視頻幀序列繼續(xù)與其作比較來(lái)提取關(guān)鍵幀。因此,動(dòng)態(tài)特定幀法可以看成是將一個(gè)鏡頭劃分為多個(gè)分鏡頭,提取每個(gè)分鏡頭的首幀作為關(guān)鍵幀。其流程圖如圖10-16所示。圖10-16動(dòng)態(tài)特定關(guān)鍵幀提取算法流程圖特定幀算法的特點(diǎn)是計(jì)算簡(jiǎn)單,計(jì)算量小,獲得的關(guān)鍵幀數(shù)目最少,特別適合于內(nèi)容活動(dòng)性很小或者基本不變的鏡頭,但該方法對(duì)于提取的關(guān)鍵幀往往并不是最好的代表幀,其視頻檢索的性能可能較差。
2.幀平均法
幀平均法選取鏡頭中特性與鏡頭內(nèi)所有視頻幀的平均特性最為接近的視頻幀作為該鏡頭的關(guān)鍵幀。一般存在兩種計(jì)算視頻段幀平均的方法:像素幀平均計(jì)算法和直方圖幀平均計(jì)算方法。像素幀平均方法計(jì)算視頻段中所有視頻幀在每一個(gè)像素點(diǎn)位置的平均值作為視頻段在該點(diǎn)的平均值,直方圖幀平均法則是計(jì)算視頻段中所有視頻幀的直方圖的平均值作為幀平均值。一般采用直方圖幀平均方法來(lái)計(jì)算視頻段的幀平均,直方圖幀平均法的優(yōu)點(diǎn)是能夠抑止視頻運(yùn)動(dòng)對(duì)幀平均計(jì)算和關(guān)鍵幀提取的影響,并且計(jì)算量相對(duì)較小。對(duì)于視頻關(guān)鍵幀提取的幀平均法,也分為靜態(tài)幀平
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 未來(lái)十年移動(dòng)支付的科技發(fā)展趨勢(shì)預(yù)測(cè)
- 標(biāo)準(zhǔn)化管理在生產(chǎn)現(xiàn)場(chǎng)的挑戰(zhàn)與對(duì)策
- 現(xiàn)代音樂(lè)文化的全球化傳播路徑
- 13人物描寫(xiě)一組(說(shuō)課稿)2023-2024學(xué)年統(tǒng)編版語(yǔ)文五年級(jí)下冊(cè)
- Unit 1 Playtime Lesson 3(說(shuō)課稿)-2023-2024學(xué)年人教新起點(diǎn)版英語(yǔ)二年級(jí)下冊(cè)001
- 25 少年閏土 第二課時(shí) 說(shuō)課稿-2024-2025學(xué)年語(yǔ)文六年級(jí)上冊(cè) 統(tǒng)編版
- Unit1 London is a big city(說(shuō)課稿)2023-2024學(xué)年外研版(三起)四年級(jí)下冊(cè)
- 2024-2025學(xué)年高中生物 第七章 現(xiàn)代生物進(jìn)化理論 第1節(jié) 現(xiàn)代生物進(jìn)化理論的由來(lái)說(shuō)課稿3 新人教版必修2
- Unit 2 Being a good language learner Exploring and Using 說(shuō)課稿-2024-2025學(xué)年高中英語(yǔ)重大版(2019)必修第一冊(cè)
- 2025挖掘機(jī)勞動(dòng)合同范文
- 2024年全國(guó)現(xiàn)場(chǎng)流行病學(xué)調(diào)查職業(yè)技能競(jìng)賽考試題庫(kù)-上部分(600題)
- 2025年中國(guó)鐵路設(shè)計(jì)集團(tuán)有限公司招聘筆試參考題庫(kù)含答案解析
- (一模)晉城市2025年高三年第一次模擬考試 物理試卷(含AB卷答案解析)
- 實(shí)驗(yàn)室5S管理培訓(xùn)
- 安徽省蚌埠市2025屆高三上學(xué)期第一次教學(xué)質(zhì)量檢查考試(1月)數(shù)學(xué)試題(蚌埠一模)(含答案)
- 醫(yī)院工程施工重難點(diǎn)分析及針對(duì)性措施
- 2025年春節(jié)安全專題培訓(xùn)(附2024年10起重特大事故案例)
- 2025年江蘇太倉(cāng)水務(wù)集團(tuán)招聘筆試參考題庫(kù)含答案解析
- 遼寧省沈陽(yáng)名校2025屆高三第一次模擬考試英語(yǔ)試卷含解析
- 【政治】法律保障生活課件-+2024-2025學(xué)年統(tǒng)編版道德與法治七年級(jí)下冊(cè)
- 智研咨詢-2025年中國(guó)生鮮農(nóng)產(chǎn)品行業(yè)市場(chǎng)全景調(diào)查、投資策略研究報(bào)告
評(píng)論
0/150
提交評(píng)論