基于內(nèi)容的視頻檢索技術_第1頁
基于內(nèi)容的視頻檢索技術_第2頁
基于內(nèi)容的視頻檢索技術_第3頁
基于內(nèi)容的視頻檢索技術_第4頁
全文預覽已結(jié)束

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權,請進行舉報或認領

文檔簡介

1、精選優(yōu)質(zhì)文檔-傾情為你奉上基于內(nèi)容的視頻檢索技術蔡曉東摘要 隨之信息技術不斷的發(fā)展,視頻信息越來越廣泛的應用,本文介紹了實現(xiàn)基于內(nèi)容的視頻檢索技術的一般過程、結(jié)構的構造視頻檢索的工作原理 、關鍵幀提取技術、 從視頻流中構造場景或組的技術特征提取技術以及視頻檢索瀏覽等。關鍵字 視頻結(jié)構 圖像檢測 關鍵技術 隨著信息技術的快速發(fā)展和普及,視頻形式的多媒體數(shù)據(jù)在不斷的增加,因此如何在海量的視頻信息中檢索出想要的內(nèi)容成為了一個要急需解決的問題。因而,近幾年來在國內(nèi)外基于內(nèi)容的視頻檢索技術成為了研究的重點。1、 基于內(nèi)容的視頻檢索技術 基于內(nèi)容的視頻檢索(CBVR)是根據(jù)視頻的內(nèi)容和上下文關系,對大規(guī)模

2、視頻數(shù)據(jù)庫中的視頻數(shù)據(jù)進行檢索。它提供一種算法在沒有人工參與的情況下,自動提取并描述視頻的特征和內(nèi)容。目前基于內(nèi)容的視頻檢索研究,除了識別和描述圖像的顏色、紋理形狀和空間關系外,主要的研究集中在視頻分割,特征提取和描述(包括,視覺特征、顏色紋理和形狀及運動信息和對象信息等)關鍵幀提取和結(jié)構分析等方面。2、 視頻結(jié)構的分析為了對視頻數(shù)據(jù)庫進行基于內(nèi)容的查詢,首要要構造便于檢索的視頻結(jié)構,視頻數(shù)據(jù)可以按照由粗到細的順序劃分為四個層次結(jié)構: 視頻(Video)、場景( Scene)、鏡頭(Shot)和圖像幀(Frame)。一個視頻序列可以是多個視頻場景來構成,一個視頻場景又是由多個鏡頭構成,而鏡頭是

3、有幀構成。鏡頭是指攝像機從打開到關閉的過程中記錄下來的一組連續(xù)圖像幀。鏡頭邊界是客觀存在的,可以采用一定的方法自動檢測鏡頭邊界。在實際應用中,用戶瀏覽一個鏡頭中所有圖像幀是非常耗時的,因此常用關鍵幀技術實現(xiàn)快速瀏覽。關鍵幀是指代表鏡頭中最重要的、有代表性的一幅或多幅圖像。依據(jù)鏡頭內(nèi)容的復雜程度,可以從一個鏡頭中提取一個或多個關鍵幀或構造一個關鍵幀。為了在語義層建立視頻結(jié)構模型,需要對視頻進行場景劃分。場景定義為語義上相關、時間上相鄰的一組鏡頭,它們能夠表達視頻的高層次概念或故事等。鏡頭是組成視頻的基本物理單位,而場景(又稱故事)則是視頻在語義層的單位,通常只有場景才能向觀看者傳達相對完整的語義

4、。鏡頭組是一組在時間上相鄰并在內(nèi)容上相似的一組鏡頭,它是界于鏡頭和場景之間的一組連續(xù)的物理實體,是聯(lián)系鏡頭和場景的橋梁。節(jié)目則是由時間上有序的場景組成,例如新聞節(jié)目、娛樂節(jié)目、體育節(jié)目、天氣預報等。視頻結(jié)構化分析是指對視頻流進行鏡頭分割、關鍵幀提取和場景分割等處理,從而得到視頻的結(jié)構化信息。鏡頭分割的關鍵在于確定鏡頭的邊界,其中漸變鏡頭邊界的檢測目前仍然是一個具有挑戰(zhàn)性的課題?,F(xiàn)有鏡頭分割方法多以視頻內(nèi)容的不連續(xù)性為劃分鏡頭的依據(jù)。研究者們通常選取視頻的某種特征來度量視頻內(nèi)容的不連續(xù)性,如顏色特征、運動矢量特征、邊緣特征等。由于同一個鏡頭中的各幀圖像之間的內(nèi)容有相當程度的冗余,因此可以選取反映

5、鏡頭中主要信息內(nèi)容的幀圖像作為關鍵幀。鏡頭分割后,對每個鏡頭可提取若干關鍵幀,并用關鍵幀來簡潔地表示鏡頭。場景分割通常也稱為故事單元分割,其目標在于獲取視頻的最小語義結(jié)構單元場景。一般而言,場景是由一組連續(xù)的、同屬于一個故事單元的多個鏡頭組成。通過融合視頻的文本、聲音等信息對已分割出的鏡頭進行聚類,將內(nèi)容相近的連續(xù)鏡頭合并為一個單元組,從而得到場景信息,為進一步進行視頻內(nèi)容分析提供基礎。3、基于內(nèi)容的視頻檢索關鍵技術31、鏡頭分割是實現(xiàn)基于內(nèi)容視頻檢索的第一步,它是通過對鏡頭切換點的檢測找出連續(xù)出現(xiàn)的兩個鏡頭之間的邊界,把屬于同一個鏡頭的幀聚集在一起的過程 鏡頭切換主要有突變和漸變兩種方式突變

6、是指一個鏡頭與另一個鏡頭之間沒有過渡,由一個鏡頭瞬間直接轉(zhuǎn)換為另一個鏡頭的方法; 漸變是指一個鏡頭到另一個鏡頭漸漸過渡的過程,主要包括: 淡入淡出溶解和掃換等。突變鏡頭切換的相鄰兩幀之間差別很大,所以無論在像素域還是壓縮域,檢測突變的方法都比較成熟,檢測成功率也高而鏡頭漸變切換時相鄰兩個幀之間的差別不是很大,并且?guī)g結(jié)構上具有相關性,使得漸變檢測有一定難度鏡頭邊界檢測典型方法包括模板匹配法 直方圖法基于邊緣的方法和基于模型的方法等。此外,還有顏色柱狀圖法, 域中的 系數(shù)法,運動矢量法以及基于多維空間仿生信息學理論的方法等鏡頭邊界檢測作為視頻檢索的第一步具有重要意義,其結(jié)果將對整個視頻檢索結(jié)果產(chǎn)

7、生直接的影響。3.2、關鍵幀提取一個鏡頭包含大量信息,在視頻結(jié)構化的基礎上,依據(jù)鏡頭內(nèi)容的復雜程度選擇一個或多個關鍵幀代表鏡頭的主要內(nèi)容,因此關鍵幀( 或關鍵幀序列) 便成為對鏡頭內(nèi)容進行表示的手段關鍵幀的選取方法很多,比較經(jīng)典的有幀平均法和直方圖平均法。幀平均法: 是從鏡頭中計算所有幀在某個位置上像素值的平均值,然后將鏡頭中該點位置的像素值最接近平均值的幀作為關鍵幀直方圖平均法: 是將鏡頭中所有幀的統(tǒng)計直方圖取平均,然后選擇與該平均直方圖最接近的幀作為關鍵幀這些方法的優(yōu)點是計算比較簡單,所選取的幀具有平均代表意義 缺點是從一個鏡頭中選取一個關鍵幀,無法描述有多個物體運動的鏡頭 一般說來,從鏡

8、頭中選取固定數(shù)目的關鍵幀不是一種好的方法,因為這種方法對于變化很少的鏡頭選取的關鍵幀過多,而對于運動較多的鏡頭,用一兩個關鍵幀又無法充分描述 等人通過光流分析來選取關鍵幀的這種基于運動的方法可以根據(jù)鏡頭的結(jié)構選擇相應數(shù)目的鍵幀 此外,很多學者提出了多種關鍵幀提取算法。3.3、視頻特征提取對于不同級別的視頻單元,所提取的特征也是不同的 在場景級,提取故事情節(jié); 對于鏡頭 視頻檢索的最小單位,提取運動對象基本信息( 定位形狀) 及視頻的運動信息( 對象運動攝像機運動) ;在關鍵幀層次上,提取顏色紋理形狀語義等低級特征 縱觀現(xiàn)有的特征提取方法,有自動方式和手動方式兩種 提取低級特征比較簡單,往往可以

9、全自動的進行 而高級語義特征的提取難度相當大,需要更多的人工交互。較常用的特征大部分建立在鏡頭級上 當視頻分割成鏡頭后,就要對各個鏡頭進行特征提取,得到一個盡可能充分反映鏡頭內(nèi)容的特征空間,這個特征空間將作為視頻檢索的依據(jù) 視頻數(shù)據(jù)的特征分為靜態(tài)特征和動態(tài)特征。靜態(tài)特征的提取主要針對關鍵幀,可以采用通常的圖像特征提取 方 法,如提取顏色特征 紋 理 特征形狀和邊緣特征等。動態(tài)特征也稱為運動特征,是視頻鏡頭的重要特征,是反映視頻變化的重要信息 傳統(tǒng)的獲取視頻運動特征的方法是運動估計,通過匹配算法估計出每個像素或區(qū)域的運動矢量,作為視頻的運動特征 典型方法有像素域運動估計,首先估計出圖像中每個像素

10、點的運動矢量,然后取主運動矢量為全局運動矢量像素域運動估計算法雖然結(jié)果很好,但針對該方法計算量大效率低的問題,衍生出很多種快速算法,如塊匹配運動估計可變形塊匹配以及分層塊匹配估計等運動對象的軌跡也是常用的運動特征之一,它描述了視頻對象的運動過程,通過從視頻序列中抽取運動信息及其軌跡來提取視頻特征 此外,還有基于運動建模的視頻運動特征等等 然而僅靠運動信息對一般的視頻數(shù)據(jù)實現(xiàn)較好的檢索還有一定困難,在實際應用中需結(jié)合其他的特征,才能達到比較滿意的檢索效果。3.4、 視頻聚類高效的索引技術是基于內(nèi)容的檢索在大型數(shù)據(jù)庫中發(fā)揮優(yōu)勢的保證。索引技術隨著數(shù)據(jù)庫的發(fā)展而發(fā)展, 提高索引效率有縮減特征向量的維

11、度和聚類索引算法兩種方法, 針對圖像檢索需要3個步驟: (1) 進行維度約減; (2) 對存在的索引方法進行評價;(3)根據(jù)評價定制自己的索引方式。目前多維索引技術研究較多的是聚類和神經(jīng)網(wǎng)絡。聚類就是按照一定的要求和規(guī)律對事物進行區(qū)分和分類的過程,在圖像數(shù)據(jù)庫中,聚類就是在研究大量圖像特征的基礎上通過學習產(chǎn)生出類別,然后按次類別對圖像進行分類。它的優(yōu)勢就是可以動態(tài)地進行圖像分類, 而且可以有效地降低維度和查詢范圍, 提高查詢效率。常用的聚類算法有分割算法、層次算法、基于密度的方法、基于網(wǎng)格的方法和基于模型的方法3.分割算法是將n個目標劃分到k個聚類中去, k為輸入的參數(shù)。首先選擇k個代表點,其

12、余目標根據(jù)到各類代表點的距離劃分到k個聚類中;然后用每個類的中心(k-means算法)或離中心最近的點(k-medoid 算法)代表這個聚類, 將目標重新分割,這一過程迭代進行,直至收斂。這個算法簡單、有效,但要先確定類的數(shù)目, 即初始類別數(shù)和初始聚類中心要預先設定,這些初始參數(shù)將直接影響最后的聚類結(jié)果;分割算法適用于聚類為凸形狀和各類相距較遠且直徑相差不多的情況, 否則可能產(chǎn)生錯誤的分割。層次算法將數(shù)據(jù)集分解成樹狀圖, 即循環(huán)地將數(shù)據(jù)集分裂成子集, 直到每個子集只包含一個目標。樹狀圖可采用分裂或合并的方法構建。層次算法不像分割算法那樣需要聚類數(shù)這個參數(shù),但需要定義停止條件。層次算法的難點在于

13、最優(yōu)停止條件難以確定, 同時也難以處理聚類形狀復雜的情況。3.5、視頻檢索和瀏覽視頻檢索方法完全不像全文檢索, 在很大程度上也不同于圖像檢索。視頻本身的層次化結(jié)構則要求視頻檢索必須層次化進行。因此, 視頻的特征決定了視頻檢索必須是層次化的, 且用戶接口是多表現(xiàn)模式的,下面提出幾種常用的檢索方法:(1) 基于框架的方法:該方法通過知識輔助對視頻內(nèi)容建立框架, 并進行層次化檢索。(2) 基于瀏覽的方法:基于瀏覽的方法始終是視頻檢索中一個不可缺少的方法。如果用戶沒有明確的查詢主題或用戶的主題在框架中沒有被定義等, 用戶可以通過瀏覽來確定其大概目的。( 3) 基于描述特征的檢索:該檢索針對視頻的局部特征檢索,描述特征包括說明性特征和手繪特征。( 4) 視頻的檢索反饋在檢索的實現(xiàn)中除利用圖像的視覺特征進行檢索外, 還應根據(jù)用戶的反饋信息不斷學習改變閾值重新檢索, 實現(xiàn)人機交互, 直到達到用戶的檢索要求。4、發(fā)展前景隨著網(wǎng)路技術的不斷的發(fā)展,視頻數(shù)據(jù)會用更多的應用,因此對于基于內(nèi)容的視頻檢索技術有著很大的發(fā)展前途,雖然在其技術發(fā)發(fā)展過程中遇到了很多的問題,也有好多的機構放棄了對它的研究,但是,根

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論