



下載本文檔
版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)
文檔簡介
1、摘要文章簡要介紹了從基于內(nèi)容的視頻分析與檢索問題的提出到所涉及的關(guān)鍵技術(shù)以及目前研究狀況,并簡要介紹了現(xiàn)階段在這方面的研究熱點及以后要做的工作。一、問題的提出:互聯(lián)網(wǎng)的出現(xiàn)給人類帶來了很大的便利,特別是實現(xiàn)資源共享之后的互聯(lián)網(wǎng),但面對這浩如煙海的資源到底哪些是對自己有利用價值的呢?而90年代以來,多媒體技術(shù)和網(wǎng)絡(luò)技術(shù)的突飛猛進,人們正快速的進入一個信息化社會?,F(xiàn)代技術(shù)已能運用各種手段采集和生產(chǎn)大量各種類型的多媒體信息數(shù)據(jù),出現(xiàn)了數(shù)字圖書館、數(shù)字博物館、數(shù)字電影、可視電話、交互電視、會議電視、點播視頻服務(wù)、遠程教育以及遠程醫(yī)療等多種新的服務(wù)形式和信息交流手段,在眾多的多媒體信息中最大也是最主要的
2、一種就是視頻信息,人類接受的信息約有70豚自視覺,視頻所攜帶的信息量遠遠大于語音和數(shù)據(jù)。在視頻信息高度膨脹的今天,隨之而來的問題就是對海量視頻信息的高效檢索和瀏覽,即人們?nèi)绾慰焖儆行У夭榭创罅康囊曨l信息,并從中找出自己感興趣的內(nèi)容。傳統(tǒng)的視頻信息檢索方案是使用文字標示符進行檢索,具體到對視頻幀的查詢是借助對幀圖像的編號和注釋來進行的,首先給幀圖像加上一個對其描述的文字或數(shù)字注釋,然后在檢索時對注釋進行檢索,這樣一來對幀圖像的查詢就變成了基于注釋的查詢。這種方法雖然簡單,但不能完全滿足對視頻數(shù)據(jù)檢索的需要,首先視頻數(shù)據(jù)量很大,用手工方式添加注釋工作量很大,而且效率很低;其次視頻內(nèi)容豐富很難用文字
3、標簽完全表達;再次文字描述是一種特定的抽象,特定的標簽只適合特定的查詢;最后文字標簽是靠觀察者加上去的,因此受主觀因素的影響,不同的觀察者可能有不同的描述。從而需要一種客觀全面的視頻自動檢索方法,基于內(nèi)容的視頻檢索(Content-BasedVideoRetrieval,CBVR亞運而生。它根據(jù)視頻的內(nèi)容及上下文關(guān)系,對大規(guī)模視頻數(shù)據(jù)庫中的視頻數(shù)據(jù)進行檢索。提供這樣一種算法:在沒有人工參與的情況下,自動提取并描述視頻的特征和內(nèi)容。區(qū)別于傳統(tǒng)的基于關(guān)鍵字的檢索手段。融合了圖像理解、模式識別、計算機視覺等技術(shù)。近年來隨著多媒體信息在娛樂、商業(yè)、生產(chǎn)、醫(yī)學、安全、國防、軍事等領(lǐng)域的大量應(yīng)用,基于內(nèi)容
4、的視頻檢索技術(shù)己經(jīng)成為近年來國內(nèi)外研究的熱點問題研究視頻數(shù)據(jù)的高效分類、處理和索引技術(shù),建立和完善視頻信息的快速瀏覽檢索機制,開發(fā)功能強大、使用便捷的視頻信息瀏覽檢索系統(tǒng),既具有極大的理論價值,也具有巨大的應(yīng)用潛力。二、解決方案:視頻標注:視頻標注是通過人工的方式將某一段視頻進行主觀的屬性標注,然后以文本的方法進行檢索。視頻標注技術(shù)己相當成熟,但有其固有的不足,第一,要人工手動完成,工作量極大,且效率很低。第二,某些視頻和感知特征很難用文字來描述。第三,主觀性很強,沒有統(tǒng)一的標準,不同的人對同一段視頻有不同的理解,必然導(dǎo)致不同的標注結(jié)果。視頻摘要:視頻摘要以自動或半自動的方式,從原視頻中提取有
5、意義的部分,將它們合并而成的緊湊的、能充分表現(xiàn)視頻語義內(nèi)容的視頻概要。視頻摘要技術(shù)也有一定的發(fā)展,同時給基于內(nèi)容的視頻檢索提供了思路,但與真正的基于內(nèi)容的視頻檢索有一定的距離?;诜菈嚎s域的視頻內(nèi)容檢索:基于非壓縮域的視頻內(nèi)容檢索是以視頻的低層特征為基礎(chǔ)進行分析,特征提取等,最后以視頻的本質(zhì)特征為檢索依據(jù),完全實現(xiàn)檢索的自動化?;诜菈嚎s域的視頻內(nèi)容檢索己有相當?shù)难芯砍晒?,但由于其所有算法均要在完全解壓的基礎(chǔ)上進行,而視頻數(shù)據(jù)不但數(shù)據(jù)量很大,而且運算量也很大,所以在具體實現(xiàn)時并不理想?;趬嚎s域的視頻內(nèi)容檢索:基于壓縮域的視頻內(nèi)容檢索是在不完全解壓或不解壓的前提下以視頻流的低層特征為基礎(chǔ)進行分
6、析、特征提取等,最后以視頻的本質(zhì)特征為檢索依據(jù),完全實現(xiàn)檢索的自動化。由于基于壓縮域的視頻內(nèi)容檢索在沒有解壓或沒有完全解壓的前提下進行,所以其優(yōu)點是:第一,大大減小了數(shù)據(jù)量,第二,減少了數(shù)據(jù)運算量,從而大大提高了系統(tǒng)的效率。三、國外研究現(xiàn)狀:1、QBIC是舊M研究中心開發(fā)的基于內(nèi)容的檢索系統(tǒng),它是第一個功能齊全的視頻數(shù)據(jù)庫系統(tǒng),也是基于內(nèi)容檢索系統(tǒng)的典型代表,對視頻數(shù)據(jù)庫發(fā)展有較遠的影響。QBIC系統(tǒng)支持示例查詢和用戶草圖查詢,抽取顏色、紋理、形狀特征、以及鏡頭和目標運動等信息,并采用R-tree作為高維索引結(jié)構(gòu),進而結(jié)合關(guān)鍵字對大型圖像和視頻數(shù)據(jù)庫進行檢索。2、Informedia數(shù)字視頻庫
7、工程是卡耐基梅隆大學(CMU關(guān)于數(shù)字視頻媒體的處理與管理的一個重大項目,是較為完整的基于內(nèi)容視頻分析原型系統(tǒng)的先驅(qū)。該系統(tǒng)率先將數(shù)字音頻處理技術(shù)和文本處理技術(shù)運用到基于內(nèi)容視頻分析中,通過語音識別和文字識別獲取視頻語義、輔助視頻分段、抽取有意義的視頻片段生成視頻摘要,支持自動的全方位的視頻信息查詢,以支撐基于內(nèi)容的視頻瀏覽、檢索和服務(wù)。3、videoQ是一套全自動的面向?qū)ο蟮幕趦?nèi)容的視頻查詢系統(tǒng),是由哥倫比亞大學的圖像與高級電視實驗室研制的一個原型系統(tǒng)。它拓展了基于關(guān)鍵詞或主題瀏覽的傳統(tǒng)檢索方式,提出了全新的基于豐富視覺特征和時空關(guān)系的查詢技術(shù),可以幫助用戶查詢視頻中的對象,其目的在于探究視
8、頻中潛在的所有視覺線索并用于面向?qū)ο蟮幕趦?nèi)容的視頻查詢。目前VideoQ支持著一個巨大的視頻數(shù)據(jù)庫,同時,VideoQ又是一個面向Web勺視頻搜索系統(tǒng)。4、visualSEEK是一個視覺特征查詢系統(tǒng),WebSEEK一個面向WWW文本/圖像/視頻查詢系統(tǒng),它們是由哥倫比亞大學開發(fā)的。visualSEEK/WebSEEK勺主要特點是根據(jù)圖像區(qū)域的空間關(guān)系檢索和從壓縮域提取的視覺特征,它們采用的視覺特征是顏色集和基于小波變換的紋理特征,為了加快檢索速度,使用了二叉樹索引算法。這套系統(tǒng)具有某些概念強大的模塊:基于內(nèi)容的圖像檢索概念、根據(jù)用戶相似度反饋的查詢優(yōu)化、視覺信息的自動提取、查詢結(jié)果視頻/圖像
9、的縮微表示、圖像/視頻的主題瀏覽功能、基于文本的查找、對查詢結(jié)果的操作等。5、CVEPS!COLUMBIA:學開發(fā)的視頻檢索和操作系統(tǒng)的軟件原型,支持自動視頻分割,基于關(guān)鍵幀和對象的視頻檢索和壓縮視頻編輯。6、JAKOB1意大利Plerm大學開發(fā)的視頻數(shù)據(jù)庫查詢系統(tǒng),該系統(tǒng)通過鏡頭提取器把視頻數(shù)據(jù)分割成鏡頭,從每個鏡頭中選取一些具有代表性的幀。根據(jù)顏色和紋理描述這些代表幀,然后計算與這些短序列相關(guān)的運動特征并給出一個動態(tài)描述。當向該系統(tǒng)提交一個查詢或是例子直接查詢時,查詢模型會對它做出解釋,排列好匹配參數(shù),給出最相似的鏡頭。用戶可以瀏覽這些結(jié)果,必要的話,改變參數(shù),反復(fù)地進行查詢。7、viSI
10、ON是KANSAS:學開發(fā)的數(shù)字視頻圖書館原型系統(tǒng),在該系統(tǒng)中綜合了視頻處理和語音識別,根據(jù)基于視頻和音頻內(nèi)容的兩段式算法,自動把視頻分成大量具有邏輯語義的視頻剪輯,在系統(tǒng)中加入標題譯碼器和字指示器提取文本信息,通過他們索引視頻剪輯。8、gnalgle足球視頻搜索引擎是Alllsterdam大學開發(fā)的足球視頻分析系統(tǒng)。該系統(tǒng)基于web應(yīng)用,具有樹型結(jié)構(gòu)框架。用戶可以很方便的找到如進球,黃牌,紅牌警告,換人,或者搜索到特殊的球員。9、Rochester大學的體育視頻分析系統(tǒng),能較好的對體育比賽視頻進行物體目標和事件的檢測,并且最終形成精彩鏡頭的視頻摘要,該系統(tǒng)已用于2004年奧運會,將足球比賽視
11、頻處理,傳送到用戶的手機上。四、國內(nèi)研究現(xiàn)狀:1、Tv-FI(TsinghuaVideoFindIt)是由清華大學開發(fā)的視頻節(jié)目管理系統(tǒng),功能包括:視頻數(shù)據(jù)入庫,基于內(nèi)容的瀏覽、檢索等。2、iVideo是由中國科學院計算技術(shù)研究所數(shù)字化技術(shù)研究室開發(fā)的視頻檢索系統(tǒng),是一套基于J2EE平臺的具有視頻分析、內(nèi)容管理、基于Web僉索和瀏覽等功能的視頻檢索系統(tǒng)。3 、Videowser是由國防科技大學胡曉峰教授和李國輝教授主持的研究組所開發(fā)的原型系統(tǒng)。該研究組的研究工作主要集中在視頻的結(jié)構(gòu)分析方面,他們對鏡頭分割、關(guān)鍵幀提取和鏡頭聚類等問題進行了研究和探討,最近該研究組開始了對音頻特征提取和檢索方面的
12、研究。以及多媒體研究中心和系統(tǒng)工程系研究開發(fā)出了新聞節(jié)目瀏覽檢索系統(tǒng)伽(NewVideoCAR)和多媒體信息查詢和檢索系統(tǒng)。4 、浙江大學潘云鶴院士和莊越挺教授研究組主要針對視頻檢索和視頻相似度衡量等問題進行的研究,提出了基于鏡頭質(zhì)心特征向量的視頻相似度衡量方法,從而提供了一種從圖像序列特征方面來進行視頻檢索的方法。另外,該研究組還試圖從視頻流中的閉路(Closed-Caption)中提取信息來進行視頻檢索。5 、北京大學高文教授主持的研究組主要進行在復(fù)雜背景下的人臉檢測與跟蹤系統(tǒng)方面的研究,他們設(shè)計并實現(xiàn)了一種基于特征子臉(EigenSubface)的人臉檢測與跟蹤系統(tǒng),它首先利用模板匹配的
13、方法進行粗檢測(利用一種灰度分布的人臉模板),并在此基礎(chǔ)上收集有效的反例樣本集(非人臉樣本集),來提高識別的精度。目前該研究組正在進行綜合音頻特征和圖像序列特征的唇讀(Lip-reading/Speech-reading)研究。6 、Ifind信息檢索系統(tǒng)是微軟亞洲研究院的張宏江博士所帶領(lǐng)的小組研制出的系統(tǒng),取得的成果最為突出。五、關(guān)鍵技術(shù)第一部分為鏡頭分割,第二部分為關(guān)鍵幀提取,第三部分為基于特征的視頻索引與存儲組織。鏡頭分割:鏡頭分割的主要思想為依據(jù)兩幀圖像的特征值的差值與給定閡值進行比較,如果差值大于給定的閡值,說明兩幀的特征變化較大,可以認為兩幀為不同的主題,在此兩幀之間進行鏡頭分割;
14、如果差值小于給定的閡值,則說明兩幀的特征變化較小,可以認為兩幀為同一主題,可以繼續(xù)進行下兩幀的比較170特征提取:視頻特征主要包括文本特征、聲音特征和圖像特征。從基于內(nèi)容的角度來說,文本特征指的是由視頻內(nèi)容本身抽取出來的文本信息,主要是自動語音識別(ASR)和視頻字符識別(VOCR)勺結(jié)果。自動語音識別和視頻字符識別所得到的文本信息可以像傳統(tǒng)文本那樣抽取特征和進行索引。基本的聲音特征包括全局和局部的頻譜信息,在此之上還可以獲得響度、音調(diào)、亮度、帶寬、調(diào)合性等信息,或者是安靜、語音、音樂、汽車、爆炸等分類信息?;谶@些信息,人們可以進行基于聲音的檢索或者過濾。由于圖像是視頻中不可或缺的要素,同時
15、圖像檢索已經(jīng)有了相當長時間的研究,所以圖像特征的研究較為廣泛。對一個鏡頭,一般先根據(jù)某種標準來選取一個或幾個關(guān)鍵幀,然后再對關(guān)鍵幀提取圖像特征。常用的圖像特征包括顏色、紋理和形狀,這是當前基于內(nèi)容的圖像和視頻檢索中最常用的特征。近幾年來,語義概念特征成為研究的熱點。語義概念特征是指對視頻的語義層次上的描述特征。它是通過機器學習的方法,利用文本、聲音和圖像等特征來自動建模和抽取的。語義概念特征能夠允許人們自然地在語義層次上進行檢索,同時對更有效的瀏覽也有很大的幫助。自動檢索:在自動檢索中,用戶的有效的查詢輸入是第一個問題,盡管它往往被簡單地忽略。大多數(shù)基于內(nèi)容的視頻檢索系統(tǒng)假定用戶的查詢輸入為示
16、例圖片,當文本特征存在時,用戶可以用文本做輸入,以視頻片斷為輸入的系統(tǒng)很少見,這種輸入方式實際上并不是很現(xiàn)實和有效,因為用戶不一定能找到合適的示例圖片,而文本特征在基于內(nèi)容的視頻檢索系統(tǒng)中并不總是存在的7。對用戶給出的查詢,基于抽取出來的特征,最常用的檢索方法就是文本檢索(文本特征、語義概念特征),相似性檢索(聲音、圖像特征、語義概念特征)和基于機器學習的檢索(聲音、圖像特征、語義概念特征)。高維索引技術(shù):許多檢索算法的實驗數(shù)據(jù)僅僅幾百個或上千個,雖然采用順序搜索,但感覺不出檢索的響應(yīng)時間。而對于大型媒體庫,則肯定需要建立索引,因此,需要研究新的索引結(jié)構(gòu)和算法,以支持快速檢索。目前,一般采用先
17、減少維數(shù),然后再用適當?shù)亩嗑S索引結(jié)構(gòu)的方法。雖然過去己經(jīng)取得了一些進展,但仍然需要研究和探索有效的高維索引方法,以支持多特征、異構(gòu)特征、權(quán)重、主鍵特征方面的查詢要求2。六、展望目前國際標準化組織正致力于研究基于內(nèi)容的編碼,它將編碼與基于內(nèi)容的檢索應(yīng)用緊密地聯(lián)系起來。MPEG-但開始在一定程度上考慮基于內(nèi)容檢索的一些特點。目前,MPEGS準組織正致力于制定和完善多媒體內(nèi)容描述標準MPEG-7其目標是要制定一個標準化的多媒體內(nèi)容描述的框架,以便于實現(xiàn)多媒體內(nèi)容的有效表示和檢索。MPEG-7A視聽內(nèi)容描述的不同的角度定義了一系列的方法和工具。從總體上講,研究者們己從CBV陳統(tǒng)的不同技術(shù)著手,取得了相
18、應(yīng)的成果。大部分研究沿襲了計算機視覺、模式識別、數(shù)據(jù)庫索引等領(lǐng)域的研究思路,在研究更符合基于內(nèi)容的視頻檢索自身特點的技術(shù)方面也取得了一些進展,如相關(guān)反饋、語義特征提取等。但這些研究還遠不能滿足實際應(yīng)用的需要。所以今后很長一段時間內(nèi)還有很多工作要做:(1)選取更為有效的視頻特征。現(xiàn)有的顏色、紋理等特征還不能有效表示視頻的內(nèi)容。為了提高鏡頭和場景視頻特征,在這些特征的選取過程中,可以結(jié)合用戶反饋,通過機器學習自動完成。(2)多特征融合檢索技術(shù)。目前的研究大部分集中在可視媒體,尤其是圖像和視頻方面。但我們生活的信息環(huán)境是全方位的,多媒體信息還包括典型的音頻媒體,以及圖形、動畫等媒體。隨著信息化進程的
19、深入,這些媒體數(shù)據(jù)將會越來越多,不可避免要面臨檢索問題。即需要對數(shù)字音頻、語音和音樂進行基于內(nèi)容的檢索,對合成媒體如動畫、VRM!據(jù)進行檢索等。在研究單一媒體的檢索同時,注意研究多種媒體的互相關(guān)聯(lián)和互補關(guān)系,以提高檢索算法的效率。(3)視頻相關(guān)反饋。CBV陳統(tǒng)的一個重要特征就是信息獲取過程的交互性,同時用戶查詢接口智能化是今后發(fā)展的一大趨勢。查詢接口應(yīng)提供豐富的交互能力,為用戶在主動的交互過程中表達對媒體語義的感知,調(diào)整查詢參數(shù)及其組合,最終獲得滿意的查詢結(jié)果。研究主要涉及如何轉(zhuǎn)換用戶的查詢表達到可以執(zhí)行檢索的特征矢量,如何從交互過程中獲取用戶的內(nèi)容感知以便選擇合適的檢索特征等問題6。(4)在
20、鏡頭檢測方面。經(jīng)過多年的發(fā)展,基于內(nèi)容的視頻檢索技術(shù)在鏡頭的檢測上已經(jīng)取得了一定的進展,很多不同的算法被提出來,但是還有一些不完善的地方需要改進,特別是在鏡頭漸變檢測方面由于鏡頭漸變類型很多而且很復(fù)雜,要完全準確檢測出漸變鏡頭還有很多工作需要去做。(5)人機交互功能。視頻檢索系統(tǒng)最終的功能是給人提供一個方便的檢索平臺,因此一個人性化的人機交互平臺是必不可少的。例如多種的輸入手段、靈活的交互手段、有效的反饋機制等等,都是一個人性化的檢索系統(tǒng)所必需考慮的,一個檢索系統(tǒng)在人機交互上的好壞將是系統(tǒng)性能很重要的方面,在這方面也有很多需要我們?nèi)パ芯康墓ぷ鳌?6)性能評價指標。目前對視頻檢索系統(tǒng)性能的評價還沒有統(tǒng)一的標準可以遵循,而且檢索系統(tǒng)的性能應(yīng)考慮系統(tǒng)已具有或者應(yīng)具有的各種性能。對于基于內(nèi)容的視頻檢索系統(tǒng),不僅搜索功能很重要,其他如瀏覽,組織和數(shù)據(jù)挖掘等方面的能力也很重要,所以對系統(tǒng)的衡量一定要全面。這方面的研究也正成為研究的熱點,也有很多工作值得我們?nèi)プ觥?7)基于壓縮域的檢索。視頻壓縮技術(shù)的發(fā)展勢頭是非常迅猛的,尤其目前以HDTV為代表的壓縮技術(shù)己經(jīng)與市場緊密結(jié)合,影響日益擴大。視頻
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025年中國特級茉莉花茶行業(yè)投資前景及策略咨詢研究報告
- 醫(yī)療與教育結(jié)合共創(chuàng)公平未來
- 智慧法務(wù)在醫(yī)療領(lǐng)域的應(yīng)用與展望
- 數(shù)字化教室的布局與實施案例
- 兒童中醫(yī)養(yǎng)生教育的實踐與探索
- 大數(shù)據(jù)背景下學生綜合素質(zhì)評價研究
- 四年級數(shù)學(四則混合運算帶括號)計算題專項練習與答案
- 高中教師2025職業(yè)培訓英語客觀題答案
- 財務(wù)培訓匯報總結(jié)
- 江蘇省2025年資產(chǎn)評估師《資產(chǎn)評估》:第五章土地使用權(quán)評估考試試題
- 2023年補腎類藥物行業(yè)營銷策略方案
- 設(shè)備日常點檢表
- 讀書分享之《反脆弱》
- 小學生主題班會 書香校園+共享閱讀 課件(共23張PPT)
- 2023年06月湖北孝感市檢察機關(guān)招考聘用雇員制檢察輔助人員73人筆試題庫含答案詳解
- 電力市場交易體系規(guī)則培訓PPT
- 抽樣檢驗知識培訓
- 急性肺栓塞搶救流程
- 零件清理、精整作業(yè)指導(dǎo)書
- 2023年廣東省廣州市南沙區(qū)萬頃沙鎮(zhèn)社區(qū)工作人員考試模擬題含答案
- GB/T 9634.8-2018鐵氧體磁心表面缺陷極限導(dǎo)則第8部分:PQ型磁心
評論
0/150
提交評論