版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認(rèn)領(lǐng)
文檔簡介
圖像檢索視頻檢索音頻檢索第五章多媒體信息檢索第1節(jié)基于內(nèi)容的多媒體檢索1概念:Content-basedRetrieval,簡稱CBR,主要指根據(jù)多媒體對象的聽覺、視覺特征及其中蘊含的內(nèi)容和語義特征進行識別,并希望能夠借助于模式識別、語音識別、圖像理解等相關(guān)領(lǐng)域的研究成果,對多媒體信息的特征進行自動分析、表達(dá)和組織。2多媒體信息檢索系統(tǒng)框架
教材132①用戶提交查詢,利用系統(tǒng)提供的查詢方式形成查詢條件;②將查詢特征與數(shù)據(jù)庫中的特征按照一定的匹配算法進行匹配;③滿足一定相似性的一組候選結(jié)果按相似度大小排列返回給用戶;④對系統(tǒng)返回的一組初始特征的查詢結(jié)果,用戶可以通過遍歷(瀏覽)挑選出滿意的結(jié)果,也可以從候選結(jié)果中選擇一個示例進行特征調(diào)整,形成一個新的查詢,這個過程可以多次進行,直到用戶對查詢結(jié)果滿意。整個過程是是一個逐步逼近和相關(guān)反饋的過程。第2節(jié)圖像檢索WhyisImageIRimportant?“apictureiswortha1000words”AlternativeformofcommunicationNoteverythingcanbedescribedintext;NoteverythingcanbedescribedinimagesPopularmediumofinformationontheInternet1.圖像的構(gòu)成AnImageComponentTextDescriptor
(animal,instrument,etc.)ContentDescriptionThecontentofanimagecanberepresentedasasetofnumericfeatures:
ComponentCF1F2FMText2圖像檢索的發(fā)展階段主要經(jīng)歷了兩個發(fā)展階段text-basedretrieval:基于語詞的檢索Content-basedretrieval:基于內(nèi)容的檢索利用圖像自身的特征,如顏色、紋理、形狀等特征來進行檢索Theimagesaredownloadedfromaspeciallydesigneddatabasesystem,usingcolour,textureandshapeasthekeyforthesearch…..圖像檢索系統(tǒng)的結(jié)構(gòu)圖3圖像檢索系統(tǒng)的建立
3.1圖像的獲?。?)首先,根據(jù)目前一些流行的搜索引擎的分類,建立相應(yīng)的圖像分類的層次結(jié)構(gòu);然后針對每個類別選擇一些熱門的、具有代表性的站點作為候選。TraversalSpider–
“assembleslistsofcandidateWebdocumentsthatmayincludeimages,videos,orhyperlinkstothem”(2)然后,設(shè)計一個高效率的軟件工具(Crawler),針對選定的代表性站點自動進行圖像的收集。站點內(nèi)所有的頁面都將送給頁面分析器進行分析,頁面內(nèi)所有的圖像都將以鏈接的方式存儲到相應(yīng)的數(shù)據(jù)庫中。HyperlinkParser–
“whichextractstheWebaddressesofimagesandvideos”DataCollectionProcess3.2圖像特征的抽取及索引
圖像的特征分為兩種,一種是圖像的低層特征,如圖像的顏色、紋理及其形狀等。另外一類特征則是圖像的語義特征。圖像的低層特征,主要采用的是圖像的顏色、紋理及其形狀等特征。3.2.1圖像的低層特征顏色特征:和圖像的大小、方向無關(guān),而且對圖像的背景顏色不敏感,因此顏色特征被廣泛應(yīng)用于圖像檢索。顏色特征中包括顏色直方圖、顏色相關(guān)圖、顏色矩等。紋理特征:代表了物體的視覺模式,它包含了物體表面的組織結(jié)構(gòu)以及與周圍環(huán)境之間的關(guān)系。常用的方法有相關(guān)矩陣法,粗糙度、對比度等紋理表示方法,以及小波變換等。形狀特征:一種是基于邊界的形狀特征,另外一種則是基于區(qū)域的形狀特征。最成功的表示方法有傅利葉變換和不變矩等空間關(guān)系特征3.2.2圖像的語義特征圖像的文件名及其網(wǎng)址。如redflower.jpg、/images/animals/anim_birds.jpg圖像的替代文字(AlternateText)替代文字在網(wǎng)頁中通常用來表示圖像的語義信息,而且也是最為準(zhǔn)確的一個特征。圖像周圍的文字(SurroundingText)在網(wǎng)頁中圖像周圍的文字是最可能表達(dá)圖像所有包含的內(nèi)容的,雖然有些文字可能與圖像并不相關(guān),不過這些文字在一定程度上還是表達(dá)了圖像的語義信息圖像所在頁面的標(biāo)題(title)有些圖像用來加強作者的意圖,因此有些圖像的內(nèi)容同頁面的標(biāo)題內(nèi)容直接相關(guān)。頁面的標(biāo)題也就成為語義特征之一。圖像的超鏈接(Hyperlink)圖像的超鏈接信息在一定程度上與圖像的內(nèi)容相關(guān)。因此一些語義特征可以通過對超鏈接的分析計算得到。所有這些特征,都將通過頁面分析器從網(wǎng)頁中自動抽取出來,并被賦予不同的重要性,并按照傳統(tǒng)的文本信息檢索技術(shù)建庫。SubjectClassificationProcessTermextractionExtractedfromURLs,alttags,hyperlinktextbyremovingnon-alphacharactersFkey(URL)=Fchop(“animals/domestic-beasts1/dog37”)=“animals,”
“domestic,”
“beasts,”
“dog.”DictionarynameextractionFdir(URL)=“animals/domestic-beasts.”Key-termdictionaryTermsandDictionarynamesareusedtocreatet*ktermst*ktermsidentifiedsemanticallyrelatedtosubjectclassessmMkm:t*k
sm3.2.3生成壓縮圖采用壓縮方式生成功用戶瀏覽和顯示檢索結(jié)果的壓縮圖“generatesanicon,ormotionicon,whichsufficientlycompactsandrepresentsthevisualinformationtobeusedforbrowsinganddisplayingqueryresults”Compressionalgorithms3.3圖像的檢索提交的查詢將首先轉(zhuǎn)換成為一個由低層特征和高層特征結(jié)合的向量,然后分別與數(shù)據(jù)庫中圖像的向量計算相似度。相似度的計算分類兩步完成:一是計算低層特征的相似度二是計算高層語義特征的相似度,然后采用線性組合的方法得到最后的相似度。相似度高的圖像成為檢索的結(jié)果。SearchandRetrievalProcessSearchresultslistmanipulationA=Query(Term=“sunset”)ReturnsQueryAresultsSelectQueryBfromQueryAresultsB=Query(Term=“nature”)C=A∩B=Query(Term=“sunset”andTerm=“nature”)SearchandRetrievalProcessSearchandRetrievalProcessContent-basedTechniquesColorhistogramsdissimilarity“determinesthecolordissimilaritybetweenaqueryimageandatargetimage.”IndexesimagesbyglobalcolorIntegratedspatialandcolorquery“userscangraphicallyconstructaquerybyplacingcolorregionsonaquerygrid”Analyzes“sizes,spatiallocations,andrelationshipsofcolorregionswithintheimages”SearchandRetrievalProcess例子:Webseek“WebSEEKisaContent-BasedImageandVideoSearchandCatalogToolfortheWeb.Searchthroughmorethan650,000imagesandvideos.”(AdventProject)DevelopedbyTheAdventProjectatColumbiaUniversityFounded1995FosterindustrialcollaborationbetweenresearchersandmediatechnologyWebseekMoreSpecifically…Usesmultipleagentstoautomaticallyanalyze,index,andassignimages/videostosubjectclassesUsesbothvisualcontentandtextforcatalogingandsearchingFeaturesSearchingusingimagecontent-basedtechniquesQuerymodificationusingcontent-basedrelevancefeedbackAutomatedcollectionofvisualinformationCompactpresentationofimagesandvideosfordisplayingqueryresultsImageandvideosubjectsearchandnavigationText-basedsearchingSearchresultslistsmanipulationsintersection,subtractionandconcatenation./webseek
QBICIBM公司開發(fā)QueryByImageContent已經(jīng)在俄羅斯使用。第3節(jié)視頻檢索
1主要概念幀:運動圖像實際上是一系列圖像組成的序列,其中的每幅圖像稱為一幀(frame)。幀速率:播放運動圖像時連續(xù)兩幀之間的時間間隔通常是恒定的.稱為幀速率(framepersecond,fps)。幀序列之所以能夠形成運動圖像,在于相鄰幀圖像一般都是關(guān)聯(lián)的,當(dāng)幀速率快到-定程度時,人的視覺暫留效應(yīng)會使人產(chǎn)生連續(xù)運動的印象,每秒20幀(20fps)差不多是人腦把靜態(tài)圖像序列合成感覺中的平滑動態(tài)畫面的下限,電影的標(biāo)準(zhǔn)速度是24fps,PAL制式的電視為25fps,NTSC制式則為30fps,高清晰度電視(HDTV)中的一種制式的幀速率為60fps,從而使變化迅速的畫面也能得到平穩(wěn)的印象。2視頻信息的特點1視頻數(shù)據(jù)既有空間屬性又有時間屬性
文本、圖形和圖像稱為離散媒體,因為它們和時間無關(guān)。
與離散媒體相反,運動圖像(視頻)、運動圖形(動畫)、聲音是時間有關(guān)的,需要在一定的時間段內(nèi)連續(xù)播放,故稱連續(xù)媒體(也稱時基媒體)。2巨大的數(shù)據(jù)量目前MPEG,DVI,H261等壓縮標(biāo)準(zhǔn)的壓絡(luò)比可達(dá)50:1~200:1.但即使壓縮后的視頻數(shù)據(jù)量仍是相當(dāng)大的3幀內(nèi)圖像特點我們可以把幀內(nèi)的圖像看作是一副靜止的圖像,因此幀內(nèi)圖像具有靜止圖像的一切特性。對幀內(nèi)圖像的處理也可用靜止圖像處理和壓縮的方法。3相關(guān)技術(shù)參數(shù)
3.1光柵掃描格式
視頻圖像通常是二維的.將二維視頻圖像轉(zhuǎn)換為一維電信號是通過光柵掃描實現(xiàn)的。主要有兩種方式:(1)逐行掃描:從圖像的左上角開始掃描.水平移動到圖像的右端,成為一個掃描行.然后,快速返回到下一行的開始點,開始第2個掃描行,依此繼續(xù),直到掃描完整個圖像,這稱之為逐行掃描,所有逐行掃描行的集合稱之為幀。(2)隔行掃描,顧名思義,即不是逐行進行掃描,而是隔一行后再掃描下一行.隔行掃描行的集合稱之為場.逐行掃描有以下優(yōu)點;圖像垂直清晰度高,空間處理效果好,有利于電視轉(zhuǎn)換和制式轉(zhuǎn)換,能改善視頻壓縮效果等等.其缺點是:數(shù)碼率高,行掃描頻率增高.硬件難度加大.目前的電視系統(tǒng)(包括HDTV系統(tǒng))大都采用隔行掃描,因為隔行掃描能節(jié)省頻帶.且硬件實現(xiàn)簡單。3.2寬高比視頻圖像的寬高比指1幀圖像的寬度與高度的比值.普通電視的寬高比一般為4:3,高清晰度電視的寬高比為16:9。
3.3水平分辨率水平分辨率是度量水平清晰度的指標(biāo).在電視中,水平分辨率由能夠再現(xiàn)黑白相間的垂直線條的數(shù)目來測定。當(dāng)一個系統(tǒng)的水平分辨率為400線時,是指其在所對應(yīng)的圖像高度內(nèi)能交替顯示200條黑線和200條白線.NTSC電視系統(tǒng)的最高水平分辨率為360線.3.4垂直分辨率視系統(tǒng)的垂直分辨率由1幀內(nèi)所使用的掃描行數(shù)來決定.行數(shù)越多,垂直分辨率就越高,反之亦然.例如,NTSC為525線,PAL為625線。3.5幀頻和場頻幀頻是指幀重復(fù)的頻率,例如,每秒10幀.場頻指場重復(fù)的頻率.根據(jù)人眼的視覺惰性,當(dāng)幀(場)重復(fù)頻率太低時,會有閃爍感覺.不引起閃爍感的最低重復(fù)頻率稱之為臨界閃爍頻率,當(dāng)幀頻高于臨界頻率時,主觀感覺亮度為顯示亮度的平均值.隔行掃描就是利用這一特性克服閃爍現(xiàn)象的,這可降低行掃描的頻率,使得傳輸頻帶得以壓縮。4常見視頻文件格式
1動畫文件GIF文件--.GIFGIF是圖形交換格式(GraphicsInterchangeFormat)的英文縮寫,是由CompuServe公司于80年代推出的一種高壓縮比的彩色圖像文件格式。目前Internet上大量采用的彩色動畫文件多為這種格式的GIF文件。Flic文件是Autodesk公司在其出品的AutodeskAnimator/AnimatorPro/3DStudio等2D/3D動畫制作軟件中采用的彩色動畫文件格式。GIF和Flic文件,通常用來表示由計算機生成的動畫序列,其圖像相對而言比較簡單,因此可以得到比較高的無損壓縮率,文件尺寸也不大。然而,對于來自外部世界的真實而復(fù)雜的影像信息而言,無損壓縮便顯得無能為力,而且,即使采用了高效的有損壓縮算法,影像文件的尺寸也仍然相當(dāng)龐大。2影像文件
AVI是音頻視頻交錯(AudioVideoInterleaved)的英文縮寫,它是Microsoft公司開發(fā)的一種符合RIFF文件規(guī)范的數(shù)字音頻與視頻文件格式。AVI文件目前主要應(yīng)用在多媒體光盤上,用來保存電影、電視等各種影像信息,有時也出現(xiàn)在Internet上,供用戶下載、欣賞新影片的精彩片斷。
QuickTime文件--.MOV/.QTQuickTime是Apple計算機公司開發(fā)的一種音頻、視頻文件格式,用于保存音頻和視頻信息,具有先進的視頻和音頻功能,目前已成為數(shù)字媒體軟件技術(shù)領(lǐng)域的事實上的工業(yè)標(biāo)準(zhǔn)。MPEG文件--.MPEG/.MPG/.DATMPEG的平均壓縮比為50∶1,最高可達(dá)200∶1,壓縮效率非常高,同時圖像和音響的質(zhì)量也非常好。RealVideo文件是RealNetworks公司開發(fā)的一種新型流式視頻文件格式5視頻信息的檢索基于文本:人工采用關(guān)鍵字對視頻內(nèi)容進行標(biāo)引,在檢索鐘銅鼓哦匹配用戶查詢進行檢索?;趦?nèi)容:沒有人工參與的情況下,自動提取并描述視頻的特征和內(nèi)容。5.1視頻結(jié)構(gòu)
鏡頭:由攝像機記錄下來的一段連續(xù)的幀序列,它是一段視頻的物理組成單元。
關(guān)鍵幀:描述鏡頭主要內(nèi)容的幀。根據(jù)內(nèi)容的復(fù)雜程度,一個鏡頭可以有一個或多個關(guān)鍵幀。場景:由一些語義相關(guān)的鏡頭組成,這些鏡頭不一定在時間上連續(xù)。場景描述了一個獨立的故事單元(或者說是一個高層概念),它是一段視頻的語義組成單元。鏡頭組:物理鏡頭和語義場景之間的結(jié)構(gòu)部分。例如一段采訪錄像,鏡頭在主持人預(yù)備采訪者之間頻繁切換,整個采訪屬于一個場景,那些關(guān)于支持人的鏡頭屬于一組,關(guān)于被采訪者的鏡頭屬于一組。一般來說,一段視頻由一些描述獨立故事單元的場景構(gòu)成;一個場景由一些語義相關(guān)的鏡頭組成;而每個鏡頭是由一些連續(xù)的幀構(gòu)成,它可由一個或多個關(guān)鍵幀表示。
見下圖5.2基于內(nèi)容的視頻處理過程
視頻首先被分割成各個鏡頭,并對每個鏡頭進行運動分析(主要針對攝像機運動和物體運動)?;谶\動分析,我們可以提取并跟蹤鏡頭中的對象,同時選擇或構(gòu)造關(guān)鍵幀,來描述視頻內(nèi)容。然后,根據(jù)提取鏡頭、關(guān)鍵幀和對象的視覺特征,進行索引。通過視覺特征的相似度計算,鏡頭被組織成場景。最終,用戶可以通過一種簡單方便的方法瀏覽和檢索視頻。
5.3關(guān)鍵技術(shù)(1)鏡頭分割通常視頻流中的鏡頭,是由時間連續(xù)的視頻幀組成的。它對應(yīng)著攝像機一次紀(jì)錄的起停操作,代表一個場景在時間上和空間上的連續(xù)的動作。鏡頭之間有多種類型的過渡方式,最常見的是“切變”,表現(xiàn)為在相鄰兩幀間發(fā)生的突變性的鏡頭轉(zhuǎn)換。此外,還存在一些較復(fù)雜的過渡方式,如淡入、淡出等。鏡頭分割方法分為非壓縮域和壓縮域兩類。(2)特征分析基本的特征分析包括:顏色、紋理、形狀、運動和對象等。前三種是圖像和視頻共有的,屬于數(shù)字圖像處理中較為成熟的技術(shù)。對象提取和跟蹤,是視頻分析中最困難的部分,可利用運動信息進行處理:先將每幀圖像分割成具有相似視覺特征(顏色、紋理等)的區(qū)域,然后根據(jù)各個區(qū)域的運動特征,按照一定的約束(例如區(qū)域之間的連通性),將它們合并成對象。國際標(biāo)準(zhǔn)MPEG-4便是以對象提取和合成作為焦點的,它提出了使用VOP(視頻對象平面)的概念,對視頻對象進行索引。
(3)關(guān)鍵幀提取
為了克服基于鏡頭的方法存在的問題,人們提出了一種基于內(nèi)容分析的方法。這種方法通過分析視頻內(nèi)容(顏色直方圖、運動信息)隨時間的變化情況,來選取所需關(guān)鍵幀的數(shù)目,并按照一定的規(guī)則為鏡頭抽取關(guān)鍵幀。(4)視頻結(jié)構(gòu)分析
視頻結(jié)構(gòu)分析的過程,就是將語義相關(guān)的鏡頭組合、聚類的過程。假設(shè)有一段兩人對話的視頻段,在拍攝過程中,攝像機的焦點在兩人之間來回切換,用我們前面所述的鏡頭分割技術(shù),必然會把這一段視頻分割為多個鏡頭。而這一組在時間上連續(xù)的鏡頭是相關(guān)的,因為這一組鏡頭是一個情節(jié)(稱為場景)。結(jié)構(gòu)分析的目的,便是使視頻數(shù)據(jù)形成結(jié)構(gòu)化的層次,可以方便用戶進行有效的瀏覽。5.4基于內(nèi)容的視頻檢索系統(tǒng)
·QBIC系統(tǒng)QueryByImageContent是由IBMAlmaden研究中心開發(fā)的,是“基于內(nèi)容”檢索系統(tǒng)的典型代表。QBIC系統(tǒng)允許使用例子圖像、用戶構(gòu)建的草圖和圖畫及其選擇的顏色和紋理模式、以及鏡頭和目標(biāo)運動等圖形信息,對大型圖像和視頻數(shù)據(jù)庫進行查詢。視頻方面主要利用了顏色、紋理、形狀、攝像機和對象運動來描述內(nèi)容。/
·VisualSeek系統(tǒng)美國哥倫比亞大學(xué)電子工程系與電信研究中心圖像和高級電視實驗室共同研究的、一種在互聯(lián)網(wǎng)上使用的“基于內(nèi)容”的檢索系統(tǒng)。它實現(xiàn)了互聯(lián)網(wǎng)上的“基于內(nèi)容”的圖像/視頻檢索系統(tǒng),提供了供人們在Web上搜索和檢索圖像及視頻的工具。
第4節(jié)音頻檢索聲音媒體是除視覺媒體外最重要的媒體,占有總信息量的20%左右1音頻信息的類型1)波形聲音:對模擬聲音數(shù)字化而得到的數(shù)字音頻信號,它可以代表語音、音樂、自然界和合成的聲響;2)語音:具有字詞、語法等語素,是一種高度抽象的概念交流媒體,語音經(jīng)過識別可以轉(zhuǎn)換為文本,文本是語音的一種腳本形式;3)音樂:具有節(jié)奏、旋律和聲音等要素,是人聲和樂器音響等配合所構(gòu)成的一種聲音,音樂可以用樂譜來表示。1)外部特征:音頻信息在計算機內(nèi)部以文件格式存貯,文件屬性包括:文件名、創(chuàng)建時間、創(chuàng)建者、文件格式等。2)文本著錄特征:人工標(biāo)引,選擇主題詞、關(guān)鍵詞等來描述音頻信息的內(nèi)容。3)物理特征:模擬音頻信息通過采樣、量化、編碼等過程轉(zhuǎn)變成數(shù)字信號,數(shù)字信號在計算機內(nèi)部以流媒體的形式存放,具有時間屬性。4)聲學(xué)特征:主要有音強、基音、音調(diào)、節(jié)奏、旋律、樂器標(biāo)識等。5)語義特征:主要包括語音識別、檢測的結(jié)果,也可以是音樂旋律和敘
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2024工裝裝修合同協(xié)議
- 2024年工程變更與施工實施補充協(xié)議
- 2024年展覽場地租賃與布置合同
- 2024委托代理采購合同范本委托代理采購合同范文
- 2024電子版產(chǎn)品代理合同書
- 2024正規(guī)的企業(yè)代理合同樣書
- 2024部分廠房轉(zhuǎn)讓合同范本
- 2024幼兒園活動場地租賃合同樣本
- 2024委托居間合同模板
- 2024年太陽能供暖系統(tǒng)施工合同
- 第八章_噪聲控制技術(shù)——隔聲
- 資金調(diào)撥和內(nèi)部往來管理流程手冊
- 常用抗癲癇藥物簡介
- 樹立反對拜金主義人生觀教育教育PPT講座課件
- 國旗下校長關(guān)于誠信考試的講話稿
- 急性胰腺炎ppt課件
- 廣告設(shè)計制作框架合同協(xié)議書范本詳細(xì)版
- 教師績效考核綜合評價表.doc
- 鐵路工程預(yù)算定額工程量計算規(guī)則使用說明
- 新形勢下如何創(chuàng)新統(tǒng)計工作
- 副校長年度考核評語
評論
0/150
提交評論