數(shù)字音視頻處理 課件 第8章 基于內(nèi)容的音頻、圖像、視頻檢索技術(shù)_第1頁(yè)
數(shù)字音視頻處理 課件 第8章 基于內(nèi)容的音頻、圖像、視頻檢索技術(shù)_第2頁(yè)
數(shù)字音視頻處理 課件 第8章 基于內(nèi)容的音頻、圖像、視頻檢索技術(shù)_第3頁(yè)
數(shù)字音視頻處理 課件 第8章 基于內(nèi)容的音頻、圖像、視頻檢索技術(shù)_第4頁(yè)
數(shù)字音視頻處理 課件 第8章 基于內(nèi)容的音頻、圖像、視頻檢索技術(shù)_第5頁(yè)
已閱讀5頁(yè),還剩136頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

第8章

基于內(nèi)容的音頻、圖像、

視頻檢索技術(shù)8.1多媒體信息檢索概述8.2基于內(nèi)容的音頻檢索8.3基于內(nèi)容的圖像檢索技術(shù)8.4基于內(nèi)容的視頻檢索技術(shù)8.5本章小結(jié)

8.1多媒體信息檢索概述

8.1.1信息檢索信息檢索泛指用戶從包含各種信息的文檔集中查找所需要的信息或知識(shí)的過(guò)程。信息檢索從手工建立關(guān)鍵字索引的檢索,發(fā)展到計(jì)算機(jī)自動(dòng)索引的全文信息檢索,直到現(xiàn)今的基于各種特征描述的,甚至是多種模態(tài)(如圖像、視頻和音頻等)下的信息檢索。檢索方法也從簡(jiǎn)單地查找關(guān)鍵詞發(fā)展到現(xiàn)在各種復(fù)雜的檢索算法并存的局面。信息檢索包括對(duì)信息的表示、存儲(chǔ)、組織和訪問(wèn)等各個(gè)環(huán)節(jié)。

不同于以往的數(shù)據(jù)檢索,信息檢索既不具有明確的條件定義(如正則表達(dá)式等),也不具有良好的結(jié)構(gòu)性和非歧義性;相反,它具有一定的容錯(cuò)性和基于任務(wù)的導(dǎo)向性。信息檢索的基本處理框架如圖8-1所示。

圖8-1信息檢索的基本處理框架

8.1.2多媒體信息檢索

多媒體信息檢索是指從各種不同種類的復(fù)雜媒體資源中尋找所需要的信息或知識(shí)的過(guò)程,它是信息檢索中非常重要的組成部分。與傳統(tǒng)的信息檢索相比,多媒體信息檢索主要有兩方面的不同。

首先,多媒體資源的結(jié)構(gòu)比起以往典型的文本數(shù)據(jù)而言更為復(fù)雜,需要對(duì)大量高維數(shù)據(jù)進(jìn)行處理,因此這就需要“多媒體數(shù)據(jù)處理系統(tǒng)”來(lái)表示、存儲(chǔ)和訪問(wèn)它們。

其次,多媒體資源的檢索是基于相似度比較的,因此它的輸入、輸出方式都是多模態(tài)的,不再是以往純文本的輸入、輸出方式,這就需要對(duì)查詢需求等提出更高的要求,如MPEG-7就提出了非常詳盡的多媒體描述方法。多媒體信息檢索的基本框架如圖8-2所示。它包括多種媒體資源,常見(jiàn)的如圖像、音樂(lè)、影視和動(dòng)畫(huà)等。

圖8-2多媒體信息檢索的基本處理框架

最為流行的檢索就是基于內(nèi)容的檢索,基于內(nèi)容的檢索主要有以下類型。

1)文本檢索

文本檢索通過(guò)關(guān)鍵詞進(jìn)行標(biāo)引,并采用傳統(tǒng)的數(shù)據(jù)庫(kù)技術(shù)來(lái)實(shí)現(xiàn)管理和檢索。然而,關(guān)鍵詞標(biāo)引工作量大,而且標(biāo)引同用戶的檢索概念不一致,導(dǎo)致查準(zhǔn)率和查全率較低。因此,就需要直接對(duì)文本進(jìn)行任意詞和字的檢索。根據(jù)實(shí)現(xiàn)方法的不同,其檢索技術(shù)可分為串搜索、串匹配和全文檢索,它們以字、詞及其邏輯組合為條件進(jìn)行查詢。

2)音頻檢索

音頻檢索利用聲學(xué)和主觀的特性來(lái)進(jìn)行查詢。聲音的一些感知特性,如音調(diào)、響度和音色等,與音頻信號(hào)的測(cè)量屬性非常接近,因此,可在音頻數(shù)據(jù)庫(kù)中記錄這些特征,并利用這些特征進(jìn)行示例和特定特征值查詢。

3)圖像檢索

圖像檢索主要依據(jù)圖像的顏色、紋理、形狀特征以及圖像中子圖像的特征進(jìn)行檢索。其中包括:顏色查詢幫助用戶查到與用戶所選擇的顏色相似的圖像;紋理查詢則幫助用戶查到含有相似紋理的圖像;使用形狀查詢的用戶選擇某一形狀或勾勒一幅草圖,利用形狀特征(如區(qū)域、主軸方向、矩、偏心率、圓形率和正切角等)或匹配主要邊界進(jìn)行檢索;圖像對(duì)象查詢是對(duì)圖像中所包含的靜態(tài)子對(duì)象進(jìn)行查詢。

4)視頻檢索

視頻可用場(chǎng)景、鏡頭、幀來(lái)描述。幀是一幅靜態(tài)的圖像,是組成視頻的最小單元。鏡頭是由一系列幀組成的一段視頻,它描繪同一場(chǎng)景,表示的是一個(gè)攝像機(jī)操作、一個(gè)事件或連續(xù)的動(dòng)作,而一個(gè)鏡頭則是由一個(gè)或多個(gè)關(guān)鍵幀表示的。場(chǎng)景包含多個(gè)鏡頭,針對(duì)同一批對(duì)象,拍攝的角度不同,表達(dá)的含義也不同?;陉P(guān)鍵幀的檢索對(duì)代表視頻鏡頭的關(guān)鍵幀進(jìn)行檢索。關(guān)鍵幀的獲取可以采用與圖像檢索相似的方法。一旦檢索到目標(biāo)關(guān)鍵幀,就可以播放這些關(guān)鍵幀來(lái)觀看它所代表的視頻片段了。

8.2基于內(nèi)容的音頻檢索

音頻信息按內(nèi)容可以分成語(yǔ)音類和非語(yǔ)音類,非語(yǔ)音類又包括音樂(lè)、音效、非規(guī)則聲音等。語(yǔ)音是人類發(fā)出的含語(yǔ)義內(nèi)容的聲音,含有字、詞、語(yǔ)法等語(yǔ)素,是一種高度抽象的概念交流媒體;而音樂(lè)是人聲和(或)樂(lè)器聲響等配合所構(gòu)成的一種聲音,具有節(jié)奏、旋律或和聲等語(yǔ)義要素。按照存在的形式,音頻信息還可以分為靜態(tài)音頻信息和動(dòng)態(tài)音頻信息。

靜態(tài)音頻信息是指那些以某種格式保存在文件或數(shù)據(jù)庫(kù)中,且可一次性全部獲取的音頻數(shù)據(jù),如以WAV格式保存的語(yǔ)音數(shù)據(jù)、以MP3格式保存的歌曲等。

動(dòng)態(tài)音頻信息是指以數(shù)據(jù)流的形式出現(xiàn)的、不可預(yù)知的音頻信息,即實(shí)時(shí)音頻流信息,如廣播、電視節(jié)目伴音、通信會(huì)話中的語(yǔ)音以及網(wǎng)絡(luò)流媒體中的音頻流等。

不同類型的音頻具有不同的音頻內(nèi)容。從整體來(lái)看,音頻內(nèi)容可分為四個(gè)級(jí)別:最底層的物理樣本級(jí)、中間層的聲學(xué)特征級(jí)、感知特征級(jí)和最高層的語(yǔ)義級(jí),如圖8-3所示。

圖8-3音頻內(nèi)容的級(jí)別

8.2.1國(guó)內(nèi)外研究現(xiàn)狀

國(guó)內(nèi)的一些研究單位已相繼開(kāi)展了基于內(nèi)容的音頻檢索研究,并開(kāi)發(fā)了一些實(shí)驗(yàn)系統(tǒng)。主要有浙江大學(xué)人工智能研究所對(duì)基于內(nèi)容的音頻檢索、廣播新聞分割等領(lǐng)域進(jìn)行了深入的研究。中科院聲學(xué)所信利語(yǔ)音實(shí)驗(yàn)室在語(yǔ)音的分類和檢索、哼唱檢索方面也進(jìn)行了較為深入的研究,并開(kāi)發(fā)出了相關(guān)產(chǎn)品。清華大學(xué)計(jì)算機(jī)科學(xué)與語(yǔ)音實(shí)驗(yàn)室在語(yǔ)音方面開(kāi)展了相關(guān)研究工作。

從目前的研究狀況來(lái)看,基于內(nèi)容的音頻檢索,一般分為音頻特征提取、音頻識(shí)別分類和檢索三個(gè)過(guò)程。在提取音頻特征之前,一般還需要對(duì)音頻數(shù)據(jù)進(jìn)行預(yù)處理,預(yù)處理主要包括預(yù)加重和加窗,預(yù)加重提高音頻高頻部分抗干擾能力,加窗使音頻數(shù)據(jù)形成音頻幀。預(yù)處理是音頻檢索的基礎(chǔ)。特征提取是提取音頻的物理、聽(tīng)覺(jué)或語(yǔ)義特征,是以音頻幀為單位或者以若干個(gè)幀組成的音頻片段為單位來(lái)進(jìn)行。音頻識(shí)別和分類是對(duì)音頻進(jìn)行歸類劃分,分類本身可以是一種檢索方式,也可以作為檢索的一個(gè)輔助手段。

一般來(lái)說(shuō),分類越精確,檢索就越準(zhǔn)確。檢索的過(guò)程是一個(gè)匹配的過(guò)程,根據(jù)音頻特征間的相似度給出檢索結(jié)果。檢索系統(tǒng)一般分為兩部分:一部分是生成數(shù)據(jù)庫(kù),即音頻數(shù)據(jù)及其特征錄入到數(shù)據(jù)庫(kù);另一部分是查詢數(shù)據(jù)庫(kù),即用戶通過(guò)輸入音頻或特征字符串在數(shù)據(jù)庫(kù)中查找所需要的音頻?;趦?nèi)容的音頻檢索系統(tǒng)的基本結(jié)構(gòu)如圖8-4所示。

圖8-4基于內(nèi)容的音頻檢索系統(tǒng)的基本結(jié)構(gòu)

下面以三種類型的音頻檢索為例對(duì)國(guó)內(nèi)外的部分研究工作進(jìn)行介紹。

1.音頻分類及相似類別的檢索

音頻分類是根據(jù)音頻的相關(guān)特征將不同內(nèi)容的音頻劃分為若干個(gè)類別,類別相同的音頻即為相似音頻。分類方法也是一種檢索方法。

Liu將音頻數(shù)據(jù)分割成不同的片段,使用高斯混合模型(GaussianMixtureModel,GMM)對(duì)片段的MFCC特征的數(shù)值分布進(jìn)行參數(shù)估計(jì),這些參數(shù)構(gòu)成片段的特征向量,然后對(duì)特征向量進(jìn)行聚類。查詢時(shí),采用同樣的方式對(duì)查詢音頻分段建立高斯模型,并根據(jù)查詢音頻與數(shù)據(jù)庫(kù)中各聚類中心的距離,在數(shù)據(jù)庫(kù)中檢索相似音頻數(shù)據(jù)。

2.基于聲學(xué)特征描述的相同內(nèi)容檢索

相同內(nèi)容的音頻在聽(tīng)覺(jué)特性上往往具有相似性。這種類型的檢索稱為音頻例子檢索。柏野(Kashino)和史密斯(Smith)研究了基于特征直方圖的音頻例子檢索。拉維亞(Lavia)采用過(guò)零率(ZeroCrossingRate,ZCR)及其一階、二階差分作為特征,提出了一種稱為活動(dòng)搜索的直方圖快速搜索方法。

克里斯汀(Christian)等人開(kāi)發(fā)了音頻檢索系統(tǒng)Soundspotter。Soundspotter系統(tǒng)采用MFCC特征,對(duì)五種匹配搜索方法進(jìn)行了比較研究:

直接使用MFCC特征進(jìn)行軌跡匹配;

用MFCC特征經(jīng)自組織映射后形成的軌跡進(jìn)行匹配;

直接使用MFCC特征和動(dòng)態(tài)時(shí)間規(guī)正(DynamicTimeWarping,DTW)算法進(jìn)行匹配;

將MFCC特征經(jīng)聚類后進(jìn)行字符串匹配;

⑤MFCC特征經(jīng)聚類后用直方圖進(jìn)行匹配。

3.基于語(yǔ)義級(jí)描述的樂(lè)曲語(yǔ)音檢索

1)樂(lè)曲檢索

在檢索方式上,樂(lè)曲檢索可以采用哼唱檢索(QueryByHumming,QBH)、節(jié)拍拍打檢索(QueryByTapping,QBT)、演奏輸入檢索(如使用MIDI鍵盤(pán)等)和樂(lè)譜錄入檢索(如直接輸入音符序列)等多種方式。

2)語(yǔ)音檢索

語(yǔ)音檢索(SpeechRetrieval)是文檔庫(kù)為語(yǔ)音文件的一種信息檢索方式,目的是從大量語(yǔ)音文件中找到與查詢相關(guān)的一系列語(yǔ)音文件,并且會(huì)根據(jù)文件與查詢的相關(guān)度大小進(jìn)行排序。文本形式的信息檢索技術(shù)已趨于成熟,然而語(yǔ)音文件形式的信息檢索才剛剛起步。與文本形式的信息檢索不同的是,語(yǔ)音文件無(wú)法直接與查詢?cè)~進(jìn)行對(duì)比,語(yǔ)音文件必須通過(guò)語(yǔ)音識(shí)別轉(zhuǎn)換成內(nèi)容特征,如關(guān)鍵詞、音節(jié)串和文字等。

統(tǒng)計(jì)語(yǔ)言建模(StatisticalLanguageModeling,SLM)技術(shù)是指基于概率的模型并利用統(tǒng)計(jì)學(xué)和概率論的知識(shí)對(duì)自然語(yǔ)言進(jìn)行建模,從而捕獲自然語(yǔ)言中的規(guī)律和特性,以解決語(yǔ)言信息處理中的特定問(wèn)題。

對(duì)于中文語(yǔ)音文件建立索引的特征,一般來(lái)說(shuō)有三種:以詞為基礎(chǔ)(Word-based)、以字為基礎(chǔ)(Character-based)和以音節(jié)為基礎(chǔ)(Syllable-based)。根據(jù)之前的研究,對(duì)于西方語(yǔ)言如英文,通常以詞為基礎(chǔ)的索引特征會(huì)比其他兩者有較好的索引率;而對(duì)于中文而言,以音節(jié)為基礎(chǔ)的索引特征會(huì)有比較好的效果。以詞為基礎(chǔ)的索引特征會(huì)提供較多的語(yǔ)義信息,而以音節(jié)為索引特征,在處理語(yǔ)音識(shí)別時(shí)更具有魯棒性,因此,近幾年來(lái)有學(xué)者提出將這兩種檢索特征相結(jié)合。

語(yǔ)音文件檢索中語(yǔ)音文件的表示形式通常有三種:

One.best、WCN(混

網(wǎng)

絡(luò))和Lattice(網(wǎng)格)。One.best是語(yǔ)音文件經(jīng)語(yǔ)音識(shí)別系統(tǒng)處理過(guò)后的最優(yōu)譯本,形式上類似于傳統(tǒng)的文本文件;WCN為L(zhǎng)attice的一種特殊結(jié)構(gòu);語(yǔ)音識(shí)別結(jié)果中間結(jié)構(gòu)——Lattice,是一種有向無(wú)環(huán)圖,在網(wǎng)格中可能存在多個(gè)潛在路徑,這種多候選特性可以在一定程度上補(bǔ)償由于模型不匹配等帶來(lái)的語(yǔ)音識(shí)別錯(cuò)誤,提高系統(tǒng)的穩(wěn)健性。

語(yǔ)音文件的表示形式均采用的是One.best。對(duì)于One.best輸出,索引單位是詞與音節(jié)的結(jié)合方法主要有三種:

分別檢索以詞為單位和以音節(jié)為單位的識(shí)別結(jié)果,然后將檢索結(jié)果相加;

對(duì)于屬于字典的查詢?cè)~,搜索以詞為識(shí)別結(jié)果的索引,對(duì)于詞表外的查詢?cè)~,搜索以音節(jié)為識(shí)別結(jié)果的索引;

搜索詞的索引,如果沒(méi)有結(jié)果返回,則搜索音節(jié)的索引。

從目前總體研究和應(yīng)用現(xiàn)狀來(lái)看,基于內(nèi)容的音頻檢索研究有著良好的發(fā)展趨勢(shì),各種新的研究方法和手段不斷被提出,階段性成果明顯。但該領(lǐng)域的發(fā)展離技術(shù)成熟還有一段距離,較高水平的自動(dòng)化和智能化的要求還沒(méi)有達(dá)到。另外,針對(duì)海量數(shù)據(jù)的特點(diǎn)如何快速地進(jìn)行音頻的檢索,以及如何引入相關(guān)性反饋更好地滿足用戶的檢索需求的問(wèn)題還需要解決。

8.2.2基于內(nèi)容的音頻檢索的總體框架

基于內(nèi)容的音頻檢索系統(tǒng)的應(yīng)用可以分為許多不同的場(chǎng)合,這里討論的是基于哼唱的音樂(lè)檢索技術(shù)。歌曲庫(kù)中共20首歌,均為附帶人聲的中文歌曲,在實(shí)際檢索時(shí),需要人通過(guò)哼唱來(lái)進(jìn)行檢索。圖8-5是基于內(nèi)容的音頻檢索的總體框圖。由圖可以看出整個(gè)系統(tǒng)主要可以分為三大部分:音頻數(shù)據(jù)獲取、音頻內(nèi)容描述(語(yǔ)音與樂(lè)音特征提取)和特征相似度匹配。

圖8-5基于內(nèi)容的音頻檢索的總體框圖

音頻內(nèi)容描述是整個(gè)基于內(nèi)容的音頻檢索的核心技術(shù)。音頻內(nèi)容可以分為語(yǔ)音內(nèi)容和樂(lè)音內(nèi)容兩部分。音頻內(nèi)容描述是在音頻內(nèi)容獲取的基礎(chǔ)之上進(jìn)行的,同時(shí)是進(jìn)一步進(jìn)行音頻特征相似度匹配的必要前提。音頻內(nèi)容描述主要是指旋律包絡(luò)曲線,這是因?yàn)橐话銇?lái)說(shuō),人在哼唱歌曲時(shí),可以根據(jù)所哼唱的歌曲的旋律信息判斷其哼唱的歌曲名字,而旋律信息以旋律包絡(luò)曲線表示,主要包含兩個(gè)重要的參數(shù)序列:一是音調(diào)變化信息;二是節(jié)奏信息。這兩種音頻內(nèi)容描述與音調(diào)持續(xù)時(shí)間長(zhǎng)短及音調(diào)間的高低變化有關(guān)。

8.2.3基于內(nèi)容的音頻檢索的難點(diǎn)

音頻檢索是指從音頻資源中找出滿足用戶需求的音頻的過(guò)程。音頻本身具有的特點(diǎn)如下:

(1)音頻信號(hào)是帶有語(yǔ)音、音樂(lè)和音效的有規(guī)律的聲波的頻率、幅度變化信息載體,它也是一種時(shí)間依賴的連續(xù)媒體。

(2)人接收聲音有兩個(gè)通道(左耳、右耳),計(jì)算機(jī)模擬接收自然聲音也有兩個(gè)聲道。

(3)語(yǔ)音或樂(lè)音信號(hào)不僅僅是聲音的載體,同時(shí)還攜帶了情感和意向,故對(duì)音頻信號(hào)的處理不僅是信號(hào)處理,還要抽取語(yǔ)義等其他信息。

由于音頻具有以上特點(diǎn),基于人工輸入的屬性和描述來(lái)進(jìn)行音頻檢索有其固有的缺陷,勢(shì)必要尋找一種新的途徑來(lái)進(jìn)行音頻檢索。然而,盡管國(guó)內(nèi)外研究者就音頻信息檢索技術(shù)開(kāi)展了大量的研究工作,音頻檢索技術(shù)在應(yīng)用領(lǐng)域仍面臨著重重困境。在理論研究方面,與文本信息檢索及圖像和視頻信息檢索技術(shù)相比,音頻檢索技術(shù)仍然是一個(gè)未成熟的、具有極大潛力的研究領(lǐng)域,還存在以下一些問(wèn)題需要解決:

(1)有效音頻特征提取問(wèn)題。

(2)動(dòng)態(tài)音頻檢索問(wèn)題。

(3)噪聲魯棒的靜態(tài)音頻檢索與索引問(wèn)題。

8.2.4現(xiàn)有的音頻檢索系統(tǒng)

音頻信息可以劃分為語(yǔ)音、音樂(lè)和波形聲音三種類型,相應(yīng)的檢索處理方法也分為以下三種。

1.語(yǔ)音檢索

語(yǔ)音檢索指以語(yǔ)音為中心,通過(guò)語(yǔ)音輸入進(jìn)行信息檢索的技術(shù)。它允許用戶使用口語(yǔ)或語(yǔ)音指令來(lái)提出查詢并獲取相關(guān)的搜索結(jié)果。

。圖8-6為使用Google語(yǔ)音檢索獲取天氣信息的示例。

圖8-6Google語(yǔ)音檢索天氣示例

另一個(gè)常見(jiàn)的語(yǔ)音檢索網(wǎng)站是Amazon的Alexa。Alexa是一款智能助手設(shè)備,支持語(yǔ)音命令和查詢。用戶可以使用Alexa執(zhí)行各種任務(wù),如播放音樂(lè)、設(shè)定鬧鐘、控制智能家居設(shè)備等。通過(guò)語(yǔ)音交互,Alexa能夠理解用戶的指令并提供相應(yīng)的反饋和執(zhí)行操作。圖8-7為AmazonAlexa控制智能家居設(shè)備示例。

圖8-7AmazonAlexa控制智能家居設(shè)備示例

在這個(gè)領(lǐng)域中,Houndify是一個(gè)令人印象深刻的語(yǔ)音檢索平臺(tái)。Houndify不僅具備優(yōu)秀的語(yǔ)音識(shí)別能力,還提供了強(qiáng)大的語(yǔ)義理解功能。例如,用戶可以通過(guò)簡(jiǎn)單的語(yǔ)音指令向Houndify詢問(wèn)天氣情況,Houndify能夠理解用戶的意圖并提供準(zhǔn)確的天氣預(yù)報(bào)。此外,Houndify還能夠回答關(guān)于股票行情、音樂(lè)、新聞、交通和地理位置等方面的查詢。圖8-8-為Houndify的應(yīng)用程序開(kāi)發(fā)界面。

圖8-8-Houndify的應(yīng)用程序開(kāi)發(fā)界面

2.音樂(lè)檢索

音樂(lè)檢索是一種查找和獲取音樂(lè)資源的過(guò)程。這種檢索可以基于各種音樂(lè)特性,如歌手、歌曲名、專輯名、流派、節(jié)奏、聲調(diào)、情感等關(guān)鍵詞進(jìn)行。它為用戶提供了便捷的方式,讓他們能夠快速地找到自己喜歡的音樂(lè)作品或了解更多關(guān)于特定歌曲、歌手或樂(lè)隊(duì)的信息。

圖8-9為千千音樂(lè)的分類檢索界面,界面中給出了語(yǔ)種、流派、主題、情感和場(chǎng)景等多種檢索方式。圖8-10為QQ音樂(lè)的分類檢索界面,可以看出其檢索方式還包括熱門(mén)、主題、場(chǎng)景和心情等。

圖8-9千千音樂(lè)的分類檢索界面

圖8-10QQ音樂(lè)的分類檢索界面

3.音頻檢索

音頻檢索是一種基于波形聲音的檢索方法,它允許用戶通過(guò)音頻內(nèi)容來(lái)查找相關(guān)的信息或資源。這種技術(shù)利用了聲音的唯一特征和波形形狀,以實(shí)現(xiàn)準(zhǔn)確的匹配和識(shí)別。

Shazam是一款廣受歡迎的音頻識(shí)別應(yīng)用程序,它能夠迅速識(shí)別和標(biāo)識(shí)幾乎任何播放中的歌曲。Shazam音頻識(shí)別界面如圖8-11(a)所示。

QQ音樂(lè)的音樂(lè)識(shí)別功能允許用戶通過(guò)錄制或上傳一段音頻來(lái)識(shí)別該音頻所對(duì)應(yīng)的歌曲信息,如圖8-11(b)所示。

圖8-11Shazam與QQ音樂(lè)的聽(tīng)歌識(shí)曲功能

8.3基于內(nèi)容的圖像檢索技術(shù)

圖像數(shù)據(jù)的爆炸性增長(zhǎng)使得對(duì)圖像的管理和檢索越來(lái)越受到關(guān)注。傳統(tǒng)的圖像檢索方法從本質(zhì)上來(lái)說(shuō)是一種基于文本的圖像檢索技術(shù),它的歷史可以追溯到20世紀(jì)70年代末期,當(dāng)時(shí)流行的圖像檢索技術(shù)是將圖像作為數(shù)據(jù)庫(kù)中存儲(chǔ)的一個(gè)對(duì)象,用關(guān)鍵字或自由文本對(duì)其進(jìn)行描述,查詢操作是基于該圖像的文本描述進(jìn)行精確匹配或概率匹配。然而,傳統(tǒng)的圖像檢索方法具有以下難以克服的缺點(diǎn):

(1)每一幅圖像都需要人工進(jìn)行注釋,因此標(biāo)注較大的圖像數(shù)據(jù)庫(kù)需要大量的人工勞動(dòng)。

(2)人工注釋具有很強(qiáng)的主觀性,即使對(duì)于同一幅圖像,不同的人有著不同的看法,而且,一旦人工注釋完成就很難更新和改變。

(3)一幅圖像所包含的意義非常豐富,“一幅圖像勝過(guò)千言萬(wàn)語(yǔ)”,人工注釋的少量文字很難充分表達(dá)圖像的內(nèi)涵。

(4)不同國(guó)家、不同民族很難用同一種語(yǔ)言對(duì)圖像加注標(biāo)識(shí),而且對(duì)圖像語(yǔ)義理解的差異也很大,不可能形成一種統(tǒng)一的檢索方法。

8.3.1基于內(nèi)容的圖像檢索系統(tǒng)的檢索過(guò)程和關(guān)鍵技術(shù)

圖8-12給出了一個(gè)典型CBIR系統(tǒng)的基本結(jié)構(gòu)框圖。從圖中可以看出,系統(tǒng)主要由圖像查詢子系統(tǒng)和圖像庫(kù)建立子系統(tǒng)兩部分組成。圖像庫(kù)建立子系統(tǒng)的主要功能是建立和維護(hù)整個(gè)圖像庫(kù)及相關(guān)文件,其核心是特征提取技術(shù)。特征提取技術(shù)對(duì)圖像庫(kù)中的圖像提取特定的特征,生成特征矢量,并與圖像一起存儲(chǔ)在圖像庫(kù)中,從而形成基于內(nèi)容的圖像數(shù)據(jù)庫(kù)。

圖8-12典型CBIR系統(tǒng)的基本結(jié)構(gòu)框圖

根據(jù)上述對(duì)CBIR系統(tǒng)基本功能的描述,下面我們著重介紹基于內(nèi)容的圖像檢索系統(tǒng)中的關(guān)鍵技術(shù)。

1.特征提取

圖像特征的提取與表達(dá)描述是圖像檢索技術(shù)的基礎(chǔ)。圖像的內(nèi)容特征可以分為兩類:低層視覺(jué)特征和高層語(yǔ)義特征。低層視覺(jué)特征主要包括顏色、紋理、形狀和空間關(guān)系等,可以通過(guò)特征提取獲得。高層語(yǔ)義特征則包含圖像對(duì)應(yīng)的語(yǔ)義信息,需要對(duì)圖像中目標(biāo)進(jìn)行檢測(cè)、識(shí)別和解釋,往往要借助人類的知識(shí)推理,依靠人機(jī)交互的方式獲得。

1)低層視覺(jué)特征

(1)顏色特征提取。顏色被認(rèn)為是CBIR系統(tǒng)中最主要的視覺(jué)特征,最早在基于內(nèi)容的圖像索引中得到應(yīng)用。每個(gè)物體都有其特有的顏色特征,同一類事物往往有著相似或相同的顏色特征,因此可以利用顏色特征來(lái)區(qū)分不同物體。對(duì)圖像檢索比較有效的顏色特征的表達(dá)方法有顏色直方圖、顏色相關(guān)圖、顏色矩和顏色一致性矢量等。顏色包含兩個(gè)概念:一個(gè)對(duì)應(yīng)全局顏色分布;一個(gè)對(duì)應(yīng)局部顏色信息。

基于全局顏色特征的檢索方法中,目前采用最多的是色彩直方圖的方法,它的主要思想是:根據(jù)色彩直方圖統(tǒng)計(jì)每種色彩在圖像中出現(xiàn)的概率,然后采用色彩直方圖的交集來(lái)度量?jī)煞鶊D像色彩的相似性。該方法優(yōu)點(diǎn)在于簡(jiǎn)單有效,而且對(duì)圖像旋轉(zhuǎn)、伸縮變換不敏感,缺點(diǎn)是忽略了色彩的空間分布信息。在此基礎(chǔ)上,又出現(xiàn)了累積直方圖、模糊直方圖和合并直方圖等改進(jìn)方法。

局部顏色信息是指局部相似的顏色區(qū)域,它考慮了顏色的分布與一些初級(jí)的幾何特征。局部區(qū)域中的顏色信息可以表示為平均色彩、主色彩、色彩直方圖和二進(jìn)制色彩集。Xu等人試圖結(jié)合圖像的色彩信息和圖像色彩的部分空間信息對(duì)顏色直方圖進(jìn)行檢索。Chang等人采用色彩的自動(dòng)分割方法,形成一個(gè)二進(jìn)制的色彩索引集,在圖像匹配中,比較這些圖像色彩集的距離和色彩區(qū)域的空間信息。

(2)紋理特征提取。紋理特征是一種不依賴于顏色或亮度的反映圖像中同質(zhì)現(xiàn)象的視覺(jué)特征,它是圖像中既重要而又難以描述的特征,反映的是圖像像素灰度級(jí)空間分布的屬性。紋理是與物體表面材質(zhì)相關(guān)的視覺(jué)特性,可以視為某些近似形狀的重復(fù)分布。從人類的感知經(jīng)驗(yàn)出發(fā),紋理特征的基本特征大致包括粗糙度、對(duì)比度、方向度、線像度、規(guī)整度和粗略度,其中最重要的特征是粗糙度、對(duì)比度和方向度。這些紋理特征集很好地對(duì)應(yīng)人類視覺(jué)感知特性,也是用于檢索的主要特征。紋理分析的方法大致可以分為兩類:統(tǒng)計(jì)方法和結(jié)構(gòu)方法。另外,近年來(lái)小波理論和分形理論的發(fā)展,為紋理分析提供了新的工具。

統(tǒng)計(jì)方法是最簡(jiǎn)單的,它借助于灰度直方圖的矩來(lái)描述紋理。紋理統(tǒng)計(jì)特征分析方法主要有共生矩陣分析法、馬爾可夫分析法、多尺度自回歸模型以及遺傳算法等。基于二階灰度統(tǒng)計(jì)特征的統(tǒng)計(jì)方法通常在頻率域和空間域上進(jìn)行。在頻率域上,主要采用傅里葉變換和小波分析方法。圖像在傅里葉變換后,其能量譜在一定程度上反映了圖像的粗糙度和方向性。用Gabor小波模型表示紋理也是紋理分析的一大方向。

結(jié)構(gòu)方法是根據(jù)紋理基元及其排列規(guī)則來(lái)描述紋理的結(jié)構(gòu)、特征以及特征與參數(shù)之間的關(guān)系。結(jié)構(gòu)方法的紋理描述包括圖像的對(duì)比度、粗細(xì)度、方向性、重復(fù)性和復(fù)雜性等。這種描述方法通常將計(jì)算特征與語(yǔ)義聯(lián)系起來(lái),有利于高層語(yǔ)義的獲取。

(3)形狀特征提取。物體或區(qū)域的形狀是圖像表達(dá)和圖像檢索中的另一重要特征。許多物體具有不同的顏色,但其形狀總是類似的。形狀常與目標(biāo)聯(lián)系在一起,有一定的語(yǔ)義含義,因而形狀特征可以看成比顏色或紋理更高層一些的特征。

形狀特征的表達(dá)必須以對(duì)圖像中物體或區(qū)域的劃分為基礎(chǔ)。形狀可用面積、周長(zhǎng)、連通性、離心率、拐點(diǎn)數(shù)、圓形度、偏心率、主軸方向形狀矩、曲率、分形維等全局和局部特征來(lái)表示。

一般來(lái)說(shuō),形狀特征有兩種表示方法:一種是輪廓特征;另一種是區(qū)域特征。圖像的輪廓特征主要針對(duì)物體的外邊界,而圖像的區(qū)域特征則關(guān)系到整個(gè)形狀區(qū)域。這兩類形狀特征提取的最典型方法是傅里葉形狀描述符(FourierShapeDescriptor)和

無(wú)

關(guān)

矩(MomentInvariant)。傅里葉形狀描述符是用物體邊界的傅里葉變換作為其形狀描述的。形狀無(wú)關(guān)矩是基于區(qū)域的物體形狀表示方法。

(4)圖像空間關(guān)系特征提取。顏色、紋理和形狀等多種特征反映的都是圖像的整體特征,而無(wú)法體現(xiàn)圖像中所包含的對(duì)象或目標(biāo)。事實(shí)上,圖像中對(duì)象所在的位置和對(duì)象之間的空間關(guān)系同樣是圖像檢索中非常重要的特征。空間關(guān)系是指空間對(duì)象之間的空間特性關(guān)系,主要包括拓?fù)?、方向、度量這三大類關(guān)系。

提取圖像空間關(guān)系特征的方法可分為兩類。

一類是基于圖像分割的方法。對(duì)圖像進(jìn)行自動(dòng)分割,劃分出其中所含的對(duì)象或顏色區(qū)域,然后根據(jù)這些區(qū)域進(jìn)行圖像索引。

另一類是基于圖像子塊的方法。簡(jiǎn)單地將圖像均勻劃分成若干規(guī)則子塊,然后提取每個(gè)圖像子塊特征并建立索引。

2)高層語(yǔ)義特征

在CBIR系統(tǒng)中,存在一個(gè)低層視覺(jué)特征和高層語(yǔ)義特征理解之間的差異,也就是著名的語(yǔ)義鴻溝(SemanticGap)。語(yǔ)義鴻溝存在的主要原因是低層視覺(jué)特征不能完全反映或者匹配用戶的檢索意圖。彌補(bǔ)這個(gè)鴻溝的技術(shù)手段主要有相關(guān)反饋、圖像分割、建立復(fù)雜的分類模型以及完善圖像語(yǔ)義抽取規(guī)則知識(shí)庫(kù)等,這些圖像檢索技術(shù)都有需要完善的地方。

提取圖像的語(yǔ)義特征依據(jù)的是圖像的視覺(jué)特征,這與基于文本的圖像檢索有本質(zhì)區(qū)別。過(guò)去的基于文本的圖像檢索只是簡(jiǎn)單機(jī)械地進(jìn)行字符串匹配,而現(xiàn)在提出的語(yǔ)義特征提取概念則是在文字與圖像之間建立起映射關(guān)系。這種映射關(guān)系不是一對(duì)一的,相同的文字在不同的圖像內(nèi)容中可以代表不同的含義,不同的文字也可以表示相似或是相同內(nèi)容的圖像。

基于語(yǔ)義的圖像檢索主要致力于兩個(gè)方面的技術(shù)研究:景物分析與分類技術(shù)和目標(biāo)識(shí)別與檢索技術(shù)。景物分析與分類技術(shù)對(duì)于基于語(yǔ)義的圖像檢索是非常重要的,因?yàn)槠洳粌H可作為檢索時(shí)一個(gè)重要的過(guò)濾器,還可以識(shí)別特殊物體。目標(biāo)識(shí)別與檢索技術(shù)主要是利用數(shù)據(jù)庫(kù)檢索技術(shù)來(lái)識(shí)別和分類目標(biāo),它包括全自動(dòng)目標(biāo)識(shí)別和基于用戶的相關(guān)反饋學(xué)習(xí)這兩種技術(shù)。

2.索引技術(shù)

在Internet上存儲(chǔ)的圖像數(shù)據(jù)一般都是海量數(shù)據(jù),必須建立合適的高維索引方法對(duì)特征空間進(jìn)行索引,使得在檢索時(shí),不必比較數(shù)據(jù)庫(kù)中的每一幅圖像,而是通過(guò)索引直接找到相似圖像。美國(guó)匹茲堡大學(xué)的張系國(guó)教授在研究圖像信息系統(tǒng)時(shí)指出,對(duì)于圖像數(shù)據(jù)其索引應(yīng)從三個(gè)方面(索引的表示、索引的組織和索引的提取)進(jìn)行研究,并用一個(gè)三維坐標(biāo)來(lái)表示。

3.相似性匹配

圖像檢索的效果很大程度上取決于相似度匹配算法的優(yōu)劣,即如何以一定的計(jì)量或測(cè)量方法來(lái)判斷圖像內(nèi)容是否相關(guān)。在模式識(shí)別技術(shù)中,特征的相似度測(cè)量一般采用距離

法,即特征的相似程度用特征向量的空間距離來(lái)表示,常用的有歐氏距離、馬氏距離等。在基于內(nèi)容的圖像檢索中,兩幅圖像是否相似是指它們的視覺(jué)特征是否相似。通常將圖像的特征看成坐標(biāo)空間(即特征空間)中的點(diǎn),兩個(gè)點(diǎn)的接近程度通常用它們之間的距離表示,即它們之間的不相似程度。距離度量函數(shù)的定義通常要滿足距離公理的自相似性、最小性、對(duì)稱性和三角不等性等條件。

8.3.2現(xiàn)有的圖像檢索系統(tǒng)

1.QBIC

QBIC(QuerybyImageContent)系統(tǒng)是由IBM提出的、在基于內(nèi)容的圖像檢索領(lǐng)域應(yīng)用最早的商用產(chǎn)品。圖8-13為QBIC系統(tǒng)界面。QBIC系統(tǒng)提供了多種查詢方式,包括支持用戶使用例子(系統(tǒng)自身提供)查詢、用戶素描草圖查詢、掃描輸入圖像查詢、指定特征(紋理、顏色等)查詢方式、用戶輸入動(dòng)態(tài)影像片段和前景中運(yùn)動(dòng)的對(duì)象等查詢方式。在此系統(tǒng)中,顏色主要使用在RGB、YIQ和Lab等顏色空間直方圖。紋理特征主要基于文獻(xiàn)的紋理描述方法。

圖8-13QBIC系統(tǒng)界面

2.Virage

Virage是由Virage公司開(kāi)發(fā)研制的基于內(nèi)容的圖像搜索引擎。Virage的特點(diǎn)包括:提供了完善的用戶開(kāi)發(fā)功能,例如用于用戶開(kāi)發(fā)界面的工具包;提出Primitive概念,用于支持用戶定義新的圖像視覺(jué)特征(包括該特征的類型、計(jì)算和相似性度量方法);支持五種抽象數(shù)據(jù)結(jié)構(gòu),便于圖像特征的描述;提供用戶相關(guān)反饋檢索機(jī)制。該系統(tǒng)比較適合用來(lái)進(jìn)行特定應(yīng)用領(lǐng)域圖像數(shù)據(jù)庫(kù)的二次開(kāi)發(fā)。Virage已經(jīng)和多種商業(yè)數(shù)據(jù)庫(kù)進(jìn)行了集成。

3.VisualSEEK和WebSEEK

VisualSEEK和WebSEEK是由美國(guó)哥倫比亞大學(xué)開(kāi)發(fā)的姊妹系統(tǒng)。它們的主要特點(diǎn)是利用圖像區(qū)域空間關(guān)系進(jìn)行查詢和從壓縮域提取視覺(jué)特征來(lái)進(jìn)行檢索。系統(tǒng)中主要使用的特征是顏色特征和基于小波變換的紋理特征,并且使用基于Quad-Tree和R-Tree的索引結(jié)構(gòu)以提高檢索速度。VisualSEEK和WebSEEK支持基于視覺(jué)特征及其相互之間空間關(guān)系的檢索。WebSEEK主要是面向Web的搜索引擎,它包括三個(gè)模塊:圖像/視頻收集,分類、索引和搜索,瀏覽和檢索。VisualSEEK和WebSEEK支持關(guān)鍵詞檢索,并使用用戶相關(guān)反饋技術(shù)來(lái)改善檢索結(jié)果。

4.AuroraEye

極光是唯一能夠用肉眼看見(jiàn)的反映極區(qū)特征的地球物理現(xiàn)象,對(duì)其形態(tài)和演變的觀測(cè)可以獲得大量有關(guān)磁層和日地空間電磁活動(dòng)的信息。隨著全天空數(shù)字成像系統(tǒng)的出現(xiàn),每年數(shù)以百萬(wàn)計(jì)的極光圖像被采集存儲(chǔ),為研究極光現(xiàn)象提供了極為重要的數(shù)據(jù)來(lái)源。如果沒(méi)有高效準(zhǔn)確的檢索工具,人們很難從海量極光數(shù)據(jù)中搜索到自己所需的圖像。

基于內(nèi)容的極光影像序列檢索系統(tǒng)AuroraEye的總體結(jié)構(gòu)框圖如圖8-14所示。

圖8-14基于內(nèi)容的極光影像序列檢索系統(tǒng)AuroraEye的總體結(jié)構(gòu)框

圖8-15給出了基于內(nèi)容的全天空極光圖像檢索示例。該示例為基于LBP表征的圖像匹配結(jié)果。每組的左圖為輸入圖像,右圖為使用LBP表征和最近鄰匹配器檢索到的與左圖最相似的圖像。由圖中可以看出,該系統(tǒng)檢索到的兩幅全天空極光圖像非常相似。其中,每幅極光圖像下方標(biāo)示了該圖像拍攝的時(shí)間。

圖8-15基于內(nèi)容的全天空極光圖像檢索示例

5.MARS

MARS是伊利諾伊大學(xué)厄巴納-香檳分校開(kāi)發(fā)的支持圖像底層特征的復(fù)合檢索的圖像檢索系統(tǒng)。其特點(diǎn)是使用比較全面的圖像底層特征,提供基于樹(shù)結(jié)構(gòu)的多特征組合檢索。在圖像特征方面:使用HSV顏色空間的HS上的色彩直方圖來(lái)描述圖像的顏色;抽取圖像紋理的粗糙程度和方向性以及對(duì)比度等特征來(lái)描述紋理;采用圖像的規(guī)劃分割方法對(duì)圖像特征的空間分布進(jìn)行描述;根據(jù)紋理對(duì)圖像進(jìn)行分割來(lái)實(shí)現(xiàn)圖像中對(duì)象的描述;對(duì)分割后的對(duì)象區(qū)域按照敏感性進(jìn)行分組;使用傅里葉描述子對(duì)圖像中對(duì)象的形狀進(jìn)行描述。

檢索時(shí)對(duì)上述特征分別采用相應(yīng)的相似性度量方法,最后給出綜合排序。由于采用多方面的圖像特征描述和相應(yīng)的相似度度量方法,因此該系統(tǒng)可以提供比較復(fù)雜的檢索功能。這個(gè)系統(tǒng)的突出特點(diǎn)在于引入了相關(guān)反饋機(jī)制,能夠根據(jù)用戶的交互動(dòng)態(tài)地組織和優(yōu)化查詢,從而提高檢索效率。

8.3.3圖像檢索系統(tǒng)的發(fā)展趨勢(shì)

目前,CBIR技術(shù)的研究熱點(diǎn)主要集中在以下幾個(gè)方面:

(1)基于全局特征的圖像檢索。

(2)基于區(qū)域的圖像檢索(Region-basedImageRetrieval)。

(3)基于圖像語(yǔ)義的研究。

(4)高維特征索引技術(shù)。

(5)相關(guān)反饋技術(shù)(RelevanceFeedback,RF)。

(6)相關(guān)反饋與機(jī)器學(xué)習(xí)相結(jié)合。

8.4基于內(nèi)容的視頻檢索技術(shù)

8.4.1概述多媒體技術(shù)與網(wǎng)絡(luò)技術(shù)的發(fā)展,信息豐富的多媒體數(shù)據(jù)逐漸成為信息處理與傳輸?shù)闹饕獙?duì)象,尤其是視頻數(shù)據(jù)。視頻是一種較特殊的媒體,有時(shí)也稱為圖像序列、連續(xù)圖像和運(yùn)動(dòng)圖像等,具有數(shù)據(jù)量大、蘊(yùn)涵信息豐富的特點(diǎn),已經(jīng)成為多媒體信息的一種主要表達(dá)形式。

信息社會(huì)的特點(diǎn)不僅僅在于信息數(shù)據(jù)的爆炸性增長(zhǎng),更在于信息的有效利用。但是,視頻本身是一種無(wú)結(jié)構(gòu)的、時(shí)間依賴的數(shù)據(jù)流,難以組織與索引。要尋找感興趣的視頻信息,通常的做法是要從頭至尾觀看整個(gè)視頻,這是非常耗時(shí)且令人厭煩的。第一代視頻檢索系統(tǒng)基本上基于文本方式,所使用的信息主要有兩種:內(nèi)容無(wú)關(guān)的元數(shù)據(jù)與人工標(biāo)注的內(nèi)容相關(guān)的關(guān)鍵詞或自由文本。這種方式的不足之處是:①

需要大量的人力對(duì)視頻數(shù)據(jù)進(jìn)行注釋;②

視頻蘊(yùn)涵的信息非常豐富,而人的感知是主觀的,不同的人對(duì)同樣的視頻內(nèi)容有不同的感知,這種主觀性和注釋的不準(zhǔn)確性會(huì)導(dǎo)致視頻檢索的失配。

視頻中包含的內(nèi)容可以分為視覺(jué)內(nèi)容與語(yǔ)義內(nèi)容兩個(gè)部分:視覺(jué)內(nèi)容是客觀的,如顏色、紋理、形狀、空間關(guān)系和運(yùn)動(dòng)信息等;語(yǔ)義內(nèi)容卻常常具有一定的主觀性,是人類的一種感知,與觀察者密切相關(guān),如事件、情節(jié)等。即使視覺(jué)內(nèi)容是客觀的,但要用文字進(jìn)行準(zhǔn)確描述與標(biāo)注,也是一件非常困難的事情,如一幅紋理圖像,用文字描述有時(shí)是不可能的。語(yǔ)義內(nèi)容受觀察者、環(huán)境的影響更大,其標(biāo)注往往因人而異,難以準(zhǔn)確和客觀。

基于內(nèi)容的視頻檢索指的是對(duì)視頻數(shù)據(jù)中蘊(yùn)涵的視覺(jué)和語(yǔ)義內(nèi)容進(jìn)行計(jì)算機(jī)處理、分析與理解并根據(jù)內(nèi)容進(jìn)行檢索,其本質(zhì)是對(duì)無(wú)序的視頻數(shù)據(jù)結(jié)構(gòu)化,提取視覺(jué)與語(yǔ)義信息,保證視頻內(nèi)容能被快速檢索?;趦?nèi)容的視頻檢索與以往基于整個(gè)視頻文件的檢索相對(duì)應(yīng),是基于視頻數(shù)據(jù)局部且與內(nèi)容相關(guān)的檢索。基于內(nèi)容的視頻檢索不需要人工注釋文本關(guān)鍵詞,是由計(jì)算機(jī)自動(dòng)完成的。目前基于內(nèi)容的視頻檢索的研究主要集中在基于視覺(jué)特征的檢索方式上,還不能很好地實(shí)現(xiàn)基于語(yǔ)義特征的檢索。

另一方面,隨著網(wǎng)絡(luò)技術(shù)與視頻壓縮技術(shù)的發(fā)展,視頻已成為網(wǎng)絡(luò)傳輸中一種主要的數(shù)據(jù)形式。但是,相對(duì)于視頻的大數(shù)據(jù)量來(lái)說(shuō),現(xiàn)有硬件的計(jì)算、存儲(chǔ)和網(wǎng)絡(luò)傳輸能力仍然面臨嚴(yán)峻的考驗(yàn),難以滿足服務(wù)要求。相對(duì)于視頻用戶的需求來(lái)說(shuō),網(wǎng)絡(luò)中傳輸?shù)囊曨l是相當(dāng)冗余的,有許多是無(wú)用的。因?yàn)闆](méi)有有效的視頻檢索技術(shù),用戶往往需要將視頻下載到本地來(lái)瀏覽,這樣有可能存在兩種情況:

一是下載的視頻是無(wú)用的;

二是在一段相當(dāng)長(zhǎng)的視頻中只有極少的一部分是滿足用戶需求的。

8.4.2基于內(nèi)容的視頻檢索及關(guān)鍵技術(shù)

1.CBVR的組成與特點(diǎn)

從數(shù)據(jù)庫(kù)管理系統(tǒng)的角度來(lái)分析基于內(nèi)容的視頻檢索系統(tǒng),CBVR系統(tǒng)的組成結(jié)構(gòu)如圖8-16所示。

圖8-16CBVR系統(tǒng)的組成結(jié)構(gòu)

CBVR系統(tǒng)主要包括以下五個(gè)部分。

1)視頻數(shù)據(jù)庫(kù)(VideoDatabase)

視頻數(shù)據(jù)庫(kù)是視頻數(shù)據(jù)的物理存儲(chǔ),主要存放各種類型與格式的視頻。它可以是抽象的,也可以是具體的。抽象是指視頻數(shù)據(jù)庫(kù)與具體的視頻媒體類型、存儲(chǔ)形式等無(wú)關(guān),可以是壓縮視頻,也可以是未壓縮視頻,可以是傳統(tǒng)的模擬視頻如存儲(chǔ)在錄像帶中的視頻,也可以是數(shù)字視頻,如存儲(chǔ)在存儲(chǔ)器中的視頻文件,甚至還可以指分布在整個(gè)因特網(wǎng)中的視頻。具體而言,通常是特指存儲(chǔ)在本地的視頻數(shù)據(jù),一般是壓縮的數(shù)字視頻。

2)特征數(shù)據(jù)庫(kù)(FeatureDatabase)

特征數(shù)據(jù)庫(kù)用來(lái)存放視頻數(shù)據(jù)管理的目標(biāo)模式,用這些目標(biāo)模式可以把視頻數(shù)據(jù)的邏輯位置與物理位置聯(lián)系起來(lái)。在基于內(nèi)容的視頻檢索系統(tǒng)中,目標(biāo)模式通常是用視頻數(shù)據(jù)的內(nèi)容特征來(lái)表示的。在這里,特征既可以是文本形式的元數(shù)據(jù),也可以是視覺(jué)特征(如顏色、形狀、紋理和運(yùn)動(dòng)信息等)。特征數(shù)據(jù)庫(kù)是在視頻歸檔時(shí)建立的,其關(guān)鍵作用是建立視頻數(shù)據(jù)與邏輯表達(dá)之間的聯(lián)系。特征數(shù)據(jù)庫(kù)實(shí)質(zhì)是視頻數(shù)據(jù)庫(kù)的索引,因此特征數(shù)據(jù)庫(kù)中目標(biāo)模式以什么樣的方式來(lái)組織與存儲(chǔ),對(duì)CBVR系統(tǒng)的性能有著非常重要的影響。

3)視頻查詢

視頻查詢的作用是將用戶提交的不同類型的查詢轉(zhuǎn)換為上述特征數(shù)據(jù)庫(kù)中一致的目標(biāo)模式,并將目標(biāo)模式與特征數(shù)據(jù)庫(kù)中存儲(chǔ)的目標(biāo)模式進(jìn)行相似匹配,以實(shí)現(xiàn)所查詢視頻的物理定位。基于內(nèi)容的視頻查詢有兩種含義:①

查詢與視頻內(nèi)容相關(guān)的概念,這種查詢比較抽象,最簡(jiǎn)單的概念表達(dá)方式是基于文字的,一般常使用自由文本或關(guān)鍵詞;②

查詢視頻中目標(biāo)的運(yùn)動(dòng)、紋理和顏色等特征,這種查詢比較具體,如關(guān)鍵幀的顏色、紋理、形狀和運(yùn)動(dòng)信息等。

4)視頻歸檔

視頻歸檔的作用是將原始視頻數(shù)據(jù)加入視頻數(shù)據(jù)庫(kù)中,其主要功能是對(duì)視頻數(shù)據(jù)進(jìn)行結(jié)構(gòu)與內(nèi)容分析,將提取的目標(biāo)模式存儲(chǔ)在特征數(shù)據(jù)庫(kù)中。目標(biāo)模式以手工、半自動(dòng)、全自動(dòng)的方式抽取,其實(shí)質(zhì)是提取表達(dá)目標(biāo)模式所需的各種特征。在基于內(nèi)容的視頻檢索中,實(shí)現(xiàn)目標(biāo)模式的半自動(dòng)或全自動(dòng)提取,盡量減少人工操作,是CBVR系

統(tǒng)

本目標(biāo)。

5)用戶接口

用戶接口的作用是接受用戶的查詢請(qǐng)求,并將查詢結(jié)果以直觀可視的方式表現(xiàn)出來(lái)。用戶接口應(yīng)是用戶友好的,支持用戶的多種查詢方式,支持個(gè)性化查詢。由于基于內(nèi)容的視頻檢索是一種相似檢索,因此還應(yīng)具有相關(guān)反饋機(jī)制。

從系統(tǒng)使用的角度來(lái)分析,可以將基于內(nèi)容的視頻檢索系統(tǒng)分為兩個(gè)子系統(tǒng):視頻歸檔與視頻檢索,其流程如圖8-17所示。

圖8-17視頻歸檔與視頻檢索系統(tǒng)流程

基于內(nèi)容的視頻檢索一般是根據(jù)查詢(如例子幀或例子視頻段)提取的特征向量與特征數(shù)據(jù)庫(kù)進(jìn)行相似性匹配,這就存在一些問(wèn)題:

視頻的描述具有主觀性,用一組確定的特征不一定能表達(dá)用戶的主觀意圖;

低層視覺(jué)特征與高層語(yǔ)義特征存在著目前難以克服的語(yǔ)義鴻溝;

采用的相似性測(cè)度不一定與用戶的主觀評(píng)價(jià)一致;

用戶不一定開(kāi)始就明確知道或能明確表達(dá)其查詢要求。

因此,期望通過(guò)一次搜索就找到所需的視頻單元在具體應(yīng)用中通常是不現(xiàn)實(shí)的,基于內(nèi)容的視頻檢索技術(shù)需要隨應(yīng)用和用戶的不同而調(diào)整,采用的技術(shù)就是相關(guān)反饋技術(shù),使用戶可以動(dòng)態(tài)地、交互地調(diào)整其查詢,將用戶的特殊要求反饋給系統(tǒng),使檢索更有效且更接近用戶的需求?;趦?nèi)容的視頻檢索應(yīng)該是一個(gè)漸進(jìn)的處理過(guò)程,并且應(yīng)該能實(shí)現(xiàn)個(gè)性化查詢,如圖8-18所示。

圖8-18-用戶查詢處理過(guò)程

由于視頻數(shù)據(jù)通常是一種無(wú)結(jié)構(gòu)的碼流,從以上基于內(nèi)容的視頻檢索系統(tǒng)的分析可知,要實(shí)現(xiàn)基于內(nèi)容的視頻檢索,關(guān)鍵就是怎樣根據(jù)內(nèi)容對(duì)視頻數(shù)據(jù)進(jìn)行組織,使之支持基于內(nèi)容的視頻檢索。因此,一個(gè)理想的基于內(nèi)容的視頻檢索系統(tǒng),有幾個(gè)關(guān)鍵問(wèn)題需要解決:

將無(wú)結(jié)構(gòu)的視頻流結(jié)構(gòu)化,組織成不同層次的視頻單元,以支持不同粒度的視頻檢索,即通常所說(shuō)的狹義的視頻結(jié)構(gòu)分析;

對(duì)視頻進(jìn)行內(nèi)容分析,確定能夠充分描述視頻內(nèi)容的特征,包括視覺(jué)與語(yǔ)義特征等,即通常所說(shuō)的視頻內(nèi)容分析;

要有有效的特征提取方法及相應(yīng)的特征降維與約簡(jiǎn)方法;

對(duì)于大型的視頻數(shù)據(jù)庫(kù),要有有效且快速的組織與索引技術(shù),即要有一種快速的訪問(wèn)機(jī)制;

要有準(zhǔn)確的特征匹配算法,支持視頻的相似性檢索;

要有有效的顯示與交互技術(shù),支持用戶瀏覽、相關(guān)反饋等。

2.視頻檢索關(guān)鍵技術(shù)

1)視頻數(shù)據(jù)模型

從上面的討論可知,要實(shí)現(xiàn)基于內(nèi)容的視頻檢索,就必須對(duì)無(wú)結(jié)構(gòu)的視頻數(shù)據(jù)流進(jìn)行有效的組織。要對(duì)視頻數(shù)據(jù)進(jìn)行有效的組織,就要有合適的視頻數(shù)據(jù)模型。在視頻數(shù)據(jù)模型實(shí)例化的過(guò)程中,有兩個(gè)關(guān)鍵問(wèn)題需要解決:①

時(shí)域分割,即將視頻數(shù)據(jù)重新組織為不同層次的視頻單元,以實(shí)現(xiàn)視頻檢索的局部化;②

內(nèi)容分析,即確定能刻畫(huà)視頻單元的區(qū)域、目標(biāo)、運(yùn)動(dòng)等屬性,提取特征向量,建立索引,以實(shí)現(xiàn)基于內(nèi)容的檢索。從廣義上說(shuō),視頻結(jié)構(gòu)化應(yīng)該包括分析視頻內(nèi)容、提取特征、對(duì)內(nèi)容進(jìn)行描述,以獲得視頻結(jié)構(gòu)化的表達(dá)。

視頻數(shù)據(jù)模型的設(shè)計(jì)應(yīng)遵循以下原則:首先,它應(yīng)反映不同層次的視頻單元中所蘊(yùn)含的各種特征,這些特征作為特征數(shù)據(jù)庫(kù)中的目標(biāo)模式把視頻數(shù)據(jù)的邏輯信息與物理信息聯(lián)系起來(lái),以實(shí)現(xiàn)基于內(nèi)容的視頻檢索;其次,視頻數(shù)據(jù)模型應(yīng)該能支持一定的視頻操作;最后,視頻數(shù)據(jù)模型應(yīng)該能夠應(yīng)用MPEG-7標(biāo)準(zhǔn)建立統(tǒng)一的視頻內(nèi)容描述。

以下是幾種常用的視頻數(shù)據(jù)模型:

(1)時(shí)間類描述模型。

(2)基于應(yīng)用及生成的視頻數(shù)據(jù)模型。

(3)代數(shù)視頻數(shù)據(jù)模型。

它引入了視頻段

之間的層次關(guān)系及視頻代數(shù)操作,具有的特點(diǎn)是:①

模型支持嵌套視頻結(jié)構(gòu)單元,如鏡頭、場(chǎng)景及視頻序列等;②

模型可表示視頻段的時(shí)間組成;③

模型定義了視頻段的表現(xiàn)特征;④

模型提供了與邏輯視頻段相關(guān)的內(nèi)容信息;⑤

模型提供了基于內(nèi)容、結(jié)構(gòu)及空間信息的存取。

(4)通用視頻數(shù)據(jù)框架模型。通用視頻數(shù)據(jù)框架模型是借助傳統(tǒng)數(shù)據(jù)庫(kù)模型的表達(dá)方式建立起來(lái)的,它具有以下特征:①

模型借助E-R(Entity-Relationship)圖建立一個(gè)概念模型,模型中提供了核心概念及模塊,在應(yīng)用中可以使用其核心概念或是其子集,所以該模型具有較強(qiáng)的靈活性,適合不同需要,具有通用性;②

模型采用視頻分段的方法定義視頻文檔結(jié)構(gòu),有良好的層次抽象結(jié)構(gòu),支持鏡頭、場(chǎng)景、序列及復(fù)合單元等多級(jí)抽象;③

模型采用了面向?qū)ο蟮募夹g(shù),每個(gè)視頻對(duì)象都有唯一的標(biāo)識(shí)符,并可具有復(fù)雜的屬性;④

模型中引入了視頻數(shù)據(jù)上下文的概念,借助于上下文可把原始視頻合成為新視頻流,并由此可能產(chǎn)生新的語(yǔ)義;⑤

模型中定義了視頻查詢代數(shù),可對(duì)視頻數(shù)據(jù)進(jìn)行方便的操作。

(5)面向?qū)ο蟮囊曨l數(shù)據(jù)模型。面向?qū)ο蟮囊曨l數(shù)據(jù)模型是基于面向?qū)ο蟮母拍钐岢龅?。在視頻數(shù)據(jù)模型中引入面向?qū)ο蟮母拍睿哂幸欢ǖ膬?yōu)點(diǎn):①

借助于面向?qū)ο蠹夹g(shù)中的復(fù)合及泛化聯(lián)系的概念可表達(dá)視頻數(shù)據(jù)對(duì)象之間的復(fù)雜關(guān)系,有助于視頻數(shù)據(jù)的表達(dá)和管理;②

借助于面向?qū)ο蠹夹g(shù)中數(shù)據(jù)及相關(guān)方法的封裝概念,可減少視頻數(shù)據(jù)之間類型及描述的差異為構(gòu)造模型增加的難度;③

借助于基于類層的屬性結(jié)構(gòu)及方法的繼承性,可解決視頻數(shù)據(jù)的表達(dá)及擴(kuò)充的問(wèn)題。在視頻數(shù)據(jù)模型中引入面向?qū)ο蟮母拍?,與MPEG系列標(biāo)準(zhǔn)的發(fā)展方向是一致的。

2)視頻時(shí)域分割

要做到基于內(nèi)容的視頻檢索,就必須按照視頻數(shù)據(jù)模型對(duì)視頻數(shù)據(jù)進(jìn)行結(jié)構(gòu)分析,例如將視頻流中的連續(xù)幀序列分割成若干“有意義”的不同層次的視頻單元(如鏡頭、場(chǎng)景等),建立層次結(jié)構(gòu),以支持不同粒度的視頻檢索。視頻數(shù)據(jù)一般都是分層組織的,但是,將視頻數(shù)據(jù)按多少個(gè)層次進(jìn)行組織以及不同層次的劃分標(biāo)準(zhǔn)等問(wèn)題存在較大的分歧。目前,比較一致的看法是將視頻數(shù)據(jù)按“幀(Frame)—鏡

頭(Shot)—場(chǎng)

景(Scene)—視

頻(Video)”的層次形式進(jìn)行組織。視頻的分層組織結(jié)構(gòu)如圖8-19所示。

圖8-19視頻的分層組織結(jié)構(gòu)

視頻數(shù)據(jù)結(jié)構(gòu)化一般有兩種方法:

一種是人工方法,非常煩瑣且無(wú)法保證視頻分析的效果;

另一種是計(jì)算機(jī)自動(dòng)分割,受目前相關(guān)技術(shù)的限制,該方法只能在較低的層次上實(shí)現(xiàn),還無(wú)法在高層語(yǔ)義上實(shí)現(xiàn)視頻流的自動(dòng)分割,因此計(jì)算機(jī)自動(dòng)視頻流分割是未來(lái)的發(fā)展方向。

3)視頻內(nèi)容分析

視頻內(nèi)容分析指視頻時(shí)域分割后,確定能刻畫(huà)視頻單元的屬性,并提取相應(yīng)的特征,對(duì)內(nèi)容進(jìn)行描述與表達(dá)。在基于內(nèi)容的視頻檢索中,使用的信息大體上可以分為三類:①

內(nèi)容無(wú)關(guān)的元數(shù)據(jù),指與視頻內(nèi)容不直接相關(guān)但有某種聯(lián)系的數(shù)據(jù),如視頻格式、作者、日期、所有權(quán)等;②

內(nèi)容相關(guān)的元數(shù)據(jù),如顏色、紋理、形狀、空間關(guān)系、運(yùn)動(dòng)等低層或中層的數(shù)據(jù),通常這些元數(shù)據(jù)與視覺(jué)感知相聯(lián)系;③

內(nèi)容描述元數(shù)據(jù),如高層語(yǔ)義內(nèi)容數(shù)據(jù),一般以文字形式描述,它關(guān)心視頻實(shí)體與客觀世界實(shí)體的關(guān)系,或者與視覺(jué)符號(hào)和場(chǎng)景相聯(lián)系的時(shí)間事件、感受和意圖的聯(lián)系。

根據(jù)人類視覺(jué)感知特點(diǎn),內(nèi)容處理、分析或建模通常在三個(gè)層次上進(jìn)行,下面簡(jiǎn)單介紹這三個(gè)層次。第一個(gè)層次是低層內(nèi)容建模,即原始視頻數(shù)據(jù)建模,采用的技術(shù)是傳統(tǒng)的圖像處理與視頻處理技術(shù),提取顏色、紋理、形狀、空間關(guān)系和運(yùn)動(dòng)軌跡等視覺(jué)特征,能實(shí)現(xiàn)諸如“上邊是紅色,下邊是藍(lán)色的鏡頭查詢”“目標(biāo)從左下角運(yùn)動(dòng)到右下角的鏡頭查詢”等,典型的系統(tǒng)是IBM開(kāi)發(fā)的QBIC系統(tǒng)。

第二個(gè)層次是中層內(nèi)容建模,即派生或邏輯特征表示,采

用的技術(shù)是計(jì)算機(jī)視覺(jué)技術(shù),使用邏輯與統(tǒng)計(jì)推理,提取對(duì)象及其相互關(guān)系等特征,也就是通常所說(shuō)的高層特征,如車、人、塔等,能實(shí)現(xiàn)諸如“包含塔的鏡頭查詢”“包含車的鏡頭查詢”等,典型的系統(tǒng)是哥倫比亞大學(xué)開(kāi)發(fā)的VideoQ系統(tǒng)。中層內(nèi)容分析提取的對(duì)象可以說(shuō)是介于低層視覺(jué)特征與高層語(yǔ)義內(nèi)容之間,描述對(duì)象的特征既包括視覺(jué)特征,如對(duì)象的顏色、紋理和形狀等,又包括語(yǔ)義特征,如車、人等概念,是實(shí)現(xiàn)低層視覺(jué)特征向高層語(yǔ)義特征映射的關(guān)鍵步驟。

第三個(gè)層次是高層內(nèi)容建模,即語(yǔ)義層摘要,相關(guān)的技術(shù)包括人工智能、認(rèn)知科學(xué)和哲學(xué)等。高層內(nèi)容建模使用智能多媒體推理、知識(shí)庫(kù)等產(chǎn)生對(duì)象或場(chǎng)景意義或目的等語(yǔ)義摘要,能實(shí)現(xiàn)“包含表情痛苦的人的鏡頭查詢”等,典型的系統(tǒng)是IBM與哥倫比亞大學(xué)聯(lián)合開(kāi)發(fā)的MediaNet系統(tǒng)。進(jìn)行語(yǔ)義內(nèi)容分析和采用多模態(tài)方法,即融合場(chǎng)景文字、字幕、音頻和視頻等信息進(jìn)行多媒體推理是一種有效的手段。

4)視頻特征提取與索引

視頻索引是與視頻數(shù)據(jù)模型緊密相關(guān)的一個(gè)概念,用視頻數(shù)據(jù)實(shí)例化視頻數(shù)據(jù)模型的過(guò)程就稱之為視頻索引。視頻索引與傳統(tǒng)數(shù)據(jù)庫(kù)的索引有很大的不同,視頻索引不僅僅是一種索引結(jié)構(gòu),還在于它要能提供一種抽象數(shù)據(jù)類型,用來(lái)封裝視頻數(shù)據(jù)的視覺(jué)特征和語(yǔ)義特征,以支持基于內(nèi)容的視頻檢索。

提高多維數(shù)據(jù)索引的效率可以從兩個(gè)途徑考慮:一是特征降維;二是采用空間訪問(wèn)方法(SpatialAccessMethod,SAM)。

8.4.3現(xiàn)有的基于內(nèi)容的視頻檢索系統(tǒng)

本節(jié)主要介紹以下幾種常見(jiàn)的基于內(nèi)容的視頻檢索系統(tǒng):

(1)SVS(SportsVideoSummarization):一個(gè)僅使用音頻特征進(jìn)行體育視頻精彩內(nèi)容提取的系統(tǒng)。該系統(tǒng)在視頻的壓縮域使用視頻的顏色和運(yùn)動(dòng)量?jī)蓚€(gè)最底層的特征來(lái)檢測(cè)精彩片段,通過(guò)減少音頻類型(興奮的語(yǔ)音、音樂(lè)、掌聲、歡呼聲、正常的語(yǔ)音)的數(shù)量以及高斯混合模型的復(fù)雜度來(lái)提高系統(tǒng)的效率。實(shí)驗(yàn)證明該系統(tǒng)也可以用于音樂(lè)的分類。由于系統(tǒng)構(gòu)建簡(jiǎn)單,因此很容易集成到其他的系統(tǒng)中去。

(2)SVSS(SmartVideoSurveillanceSystem):一個(gè)專門(mén)針對(duì)航空領(lǐng)域開(kāi)發(fā)的系統(tǒng)。該系統(tǒng)綜合使用人臉識(shí)別算法(FaceRecognitionAlgorithms,F(xiàn)RA)、主成分分析方法(PrincipleComponentAnalysis,PCA)、線性判別分析(LinearDiscriminationAnalysis,LDA)等技術(shù)對(duì)異常事件進(jìn)行檢測(cè)并報(bào)警。

(3)VideoZapper:一個(gè)能夠基于音視頻內(nèi)容的屬性(元數(shù)據(jù))以及其他用戶對(duì)內(nèi)容的使用情況將音視頻內(nèi)容進(jìn)行個(gè)性化的選擇與傳輸?shù)南到y(tǒng)。每一個(gè)用戶使用音視頻內(nèi)容的信息都被存儲(chǔ)在與該內(nèi)容對(duì)應(yīng)的數(shù)據(jù)庫(kù)中,對(duì)所有用戶的這些信息進(jìn)行統(tǒng)計(jì),從而識(shí)別出大部分用戶感興趣的信息,在其他用戶使用該音頻和視頻內(nèi)容時(shí),首先將最吸引人的內(nèi)容傳輸給用戶。

(4)BIS(BowlingInformationSystem):該系統(tǒng)包含視頻內(nèi)容信息、與比賽有關(guān)的信息以及運(yùn)動(dòng)員的相關(guān)信息。所有的這些信息都用MPEG-7的規(guī)范進(jìn)行描述。另外,該系統(tǒng)還設(shè)計(jì)了一個(gè)半自動(dòng)標(biāo)注機(jī),該標(biāo)注機(jī)集成了可感知特征的手動(dòng)標(biāo)注與可感知特征的自動(dòng)提取。通過(guò)一個(gè)查詢接口,用戶可以檢索他想要的關(guān)于保齡球比賽的任何信息。

(5)BilVideo:一個(gè)視頻數(shù)據(jù)庫(kù)管理系統(tǒng)。該系統(tǒng)由事件提取機(jī)、視頻標(biāo)注機(jī)、基于網(wǎng)絡(luò)的可視查詢接口以及類似SQL的查詢語(yǔ)言等部分組成。該系統(tǒng)支持顏色、形狀和紋理等查詢方式,并且可以實(shí)現(xiàn)剪輯視頻內(nèi)部任何片段的檢索。

(6)IHVMS(IntelligentHomeVideoManagementSystem):由臺(tái)灣清華大學(xué)開(kāi)發(fā)的智能家庭視頻管理系統(tǒng)。該系統(tǒng)首先計(jì)算每個(gè)視頻的五個(gè)特征,即顏色直方圖、紋理、運(yùn)動(dòng)幅度、運(yùn)動(dòng)方向直方圖和小波系數(shù),然后使用計(jì)算機(jī)視覺(jué)中的一些技術(shù),例如SVM、NeuralNetwork、Adaboost、K-means聚類算法等進(jìn)行攝像機(jī)異常操作的檢測(cè)、鏡頭邊界檢測(cè)、人臉識(shí)別、關(guān)鍵幀提取、可變長(zhǎng)度視頻摘要提取。該系統(tǒng)能夠使用戶有效地管理家庭中的各類視頻。

(7)NVBS(NewsVideoBrowsingSystem):由臺(tái)灣的一所大學(xué)開(kāi)發(fā)的新聞視頻瀏覽系統(tǒng)。該系統(tǒng)首先利用所有新聞故事的文字信息對(duì)各個(gè)故事進(jìn)行分類,并根據(jù)所提出的基于熵的方法把這些故事聚類成分等級(jí)的樹(shù)型結(jié)構(gòu)。同時(shí),為了減少無(wú)線環(huán)境下的網(wǎng)絡(luò)負(fù)載荷,該系統(tǒng)提取每個(gè)故事的視頻摘要并進(jìn)行顯示。

(8)MDSS(Music-DrivenSummarizationSystem):一個(gè)專門(mén)針對(duì)家庭視頻開(kāi)發(fā)的管理系統(tǒng)。在該系統(tǒng)中,首先提取音頻中的聲音能量和過(guò)零率,基于這兩個(gè)特征對(duì)音頻進(jìn)行分割;同時(shí),在視頻中,首先進(jìn)行鏡頭邊界檢測(cè),然后提取視頻中的一些特征,即人臉、燈光閃爍、運(yùn)動(dòng)和圖像幀的平均量度等特征,最后根據(jù)音頻和視頻特征的相關(guān)性實(shí)現(xiàn)音頻和視頻的同步。

(9)NewBR(NewsVideoBrowsingandRetrievalSystem):由武漢大學(xué)計(jì)算機(jī)科學(xué)系研究與開(kāi)發(fā)的一個(gè)新聞視頻瀏覽與檢索系統(tǒng)。該系統(tǒng)的特點(diǎn)是基于類型的新聞故事瀏覽、基于關(guān)鍵幀的視頻摘要、基于關(guān)鍵詞的新聞視頻檢索。該系統(tǒng)的基礎(chǔ)是準(zhǔn)確的新聞故事分割及其文本標(biāo)題提取。新聞故事分割采用的方法是鏡頭邊界檢測(cè)和故事標(biāo)題檢測(cè)等。該系統(tǒng)采用的一些策略(如音頻和視頻集成的方法)也可以用到其他類似的系統(tǒng)中去。

(10)SportBR(BroadcastedSpotsVideoRetrievalSystem):由華中師范大學(xué)計(jì)算機(jī)科學(xué)系開(kāi)發(fā)的一個(gè)廣播體育視頻檢索系統(tǒng)。該系統(tǒng)采用基于事件的體育視頻瀏覽方法和基于關(guān)鍵詞的體育視頻檢索方法。首先將視頻分解為音頻流和視頻流,然后分別提取它們的特征。在視頻流中提取的特征是鏡頭檢測(cè)和文本提取等;在音頻流中提取的特征是語(yǔ)音信號(hào)能量等。這種多模特征集成的方法有效地提高了檢索的準(zhǔn)確性。

(11)VISS(VideoIntelligentSurveillanceSystem):由清華大學(xué)自動(dòng)化系研究與開(kāi)發(fā)的一個(gè)實(shí)時(shí)的智能視頻監(jiān)控系統(tǒng)。該系統(tǒng)采用魯棒的運(yùn)動(dòng)對(duì)象檢測(cè)與跟蹤算法,即用碼本模

型(CodebookModel)的方法檢測(cè)場(chǎng)景中的運(yùn)動(dòng)對(duì)象,隨后用LayerHiddenSemi-MarkovModel(LHSMM)對(duì)運(yùn)動(dòng)場(chǎng)景(如在公園里偷車的行為)進(jìn)行建模,最后用卡爾曼濾波器(KalmanFilter)跟蹤算法記錄每個(gè)對(duì)象的運(yùn)動(dòng)路徑。

(12)IVDCS(InteractiveVideoDeliveryandCachingSystem):一個(gè)交互式的視頻傳輸與緩存系統(tǒng)。它主要使用視頻內(nèi)容分析與視頻摘要技術(shù)。視頻內(nèi)容分析技術(shù)包括鏡頭邊界檢測(cè)與關(guān)鍵幀提取。在一個(gè)用戶查詢某一個(gè)視頻時(shí),系統(tǒng)并不是直接就把整個(gè)視頻提供給用戶,而是首先將該視頻的摘要提供給用戶,然后用戶快速瀏覽該摘要,確定是否觀看該視頻或者其中的某一個(gè)部分。該系統(tǒng)節(jié)省了用戶的時(shí)間與網(wǎng)絡(luò)帶寬。

(13)ISVCE(InteractiveSystemforVideoContentExploration):一個(gè)面向用戶的交互式視頻內(nèi)容瀏覽與搜索系統(tǒng)。該系統(tǒng)能使用戶訪問(wèn)任何視頻片段的任何詳細(xì)的內(nèi)容。該系統(tǒng)由兩個(gè)子系統(tǒng)構(gòu)成:第一個(gè)子系統(tǒng)是兩級(jí)的視頻緩存系統(tǒng),主要是濾除不重要的視頻幀,并且把剩下的重要幀組織成圖索引的結(jié)構(gòu),這樣可以分等級(jí)地訪問(wèn)視頻內(nèi)容;第二個(gè)子系統(tǒng)是用戶接口,該接口幫助用戶交互式地瀏覽視頻的內(nèi)容。該系統(tǒng)有三個(gè)主要特點(diǎn):交互式的視頻瀏覽、語(yǔ)義視頻內(nèi)容總結(jié)和語(yǔ)義視頻內(nèi)容瀏覽。

(14)TQIBS(Two-levelQueuingSystemforInteractiveBrowsingandSearchingof

VideoContentMultimediaSystems):一種兩級(jí)排隊(duì)的查詢系統(tǒng)。該系統(tǒng)支持基于關(guān)鍵幀的視頻摘要和面向用戶的交互式視頻內(nèi)容搜索。在第一級(jí)排隊(duì)中,用能量最小化的方法去除過(guò)渡幀;在第二級(jí)排隊(duì)中,通過(guò)度量視頻幀之間的相似性來(lái)去除冗余幀。最后剩余的關(guān)鍵幀以“有向圖”的方式進(jìn)行組織與管理,此種方式使得用戶對(duì)視頻內(nèi)容的查詢變得容易。該系統(tǒng)有一個(gè)用戶界面,使用戶可以交互式地搜索視頻內(nèi)容。該系統(tǒng)的特點(diǎn)是計(jì)算復(fù)雜性小,內(nèi)存占用率少。

(15)LBVR:一個(gè)基于改進(jìn)的AdaBoost學(xué)習(xí)算法的交互式視頻事件檢索系統(tǒng)。該系統(tǒng)的操作由三個(gè)步驟組成:

使用基于分布的方法將一段長(zhǎng)的視頻序列分割成若干段視頻序列;

在每段序列中,提取音頻視頻的特征(顏色、運(yùn)動(dòng)和音頻特征);

使用改進(jìn)的AdaBoost學(xué)習(xí)算法實(shí)現(xiàn)具有相關(guān)反饋的交互式視頻檢索。

(16)NewsEye:西安電子科技大學(xué)影像處理實(shí)驗(yàn)室自主開(kāi)發(fā)的一種面向Web的基于內(nèi)容的新聞視頻檢索系統(tǒng)。該系統(tǒng)通過(guò)分析新聞視頻的結(jié)構(gòu)特點(diǎn),利用視頻語(yǔ)義分割技術(shù)和基于內(nèi)容的搜索技術(shù),使得系統(tǒng)具有檢索效率高、檢索便捷和人機(jī)交互友好等特點(diǎn)。NewsEye系統(tǒng)的結(jié)構(gòu)框圖如圖8-20所示。

圖8-20NewsEye系統(tǒng)的結(jié)構(gòu)框圖

圖8-21為系統(tǒng)歡迎界面。在此系統(tǒng)中,“視頻管理”部分實(shí)現(xiàn)視頻鏡頭分割、關(guān)鍵幀提取部分的功能;“視頻檢索”部分實(shí)現(xiàn)本機(jī)的檢索功能;“查看幫助”為用戶提供了該軟件的使用說(shuō)明。圖8-22和圖8-23分別為視頻管理界面和操作示例界面。

圖8-21系統(tǒng)歡迎界面

圖8-22視頻管理界面

圖8-23操作示例界面

8.4.4TRECVI

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論