多媒體內容檢索與管理演示文稿_第1頁
多媒體內容檢索與管理演示文稿_第2頁
多媒體內容檢索與管理演示文稿_第3頁
多媒體內容檢索與管理演示文稿_第4頁
多媒體內容檢索與管理演示文稿_第5頁
已閱讀5頁,還剩111頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

多媒體內容檢索與管理演示文稿當前第1頁\共有116頁\編于星期四\22點多媒體內容檢索與管理ppt課件當前第2頁\共有116頁\編于星期四\22點3多媒體內容檢索與管理1多媒體數(shù)據(jù)庫2多媒體內容管理3多媒體內容檢索6基于內容視頻檢索5基于內容音頻檢索4基于內容圖像檢索當前第3頁\共有116頁\編于星期四\22點

41.1多媒體概念多媒體信息媒體多媒體技術多媒體即媒介,承載、傳輸和表現(xiàn)信息的手段指集數(shù)據(jù)、文字、圖形、圖像、聲音和視頻等為一體的綜合媒體信息指利用計算機將文本、圖形、圖像、聲音、動畫、視頻等多種媒體信息進行處理和綜合集成,以供人機交互使用的一個計算機應用分支當前第4頁\共有116頁\編于星期四\22點Page

51.2多媒體數(shù)據(jù)庫系統(tǒng)多媒體數(shù)據(jù)的特點數(shù)據(jù)量大

結構復雜數(shù)據(jù)傳輸?shù)倪B續(xù)性時序性-同步機制當前第5頁\共有116頁\編于星期四\22點Page

61.2多媒體數(shù)據(jù)庫系統(tǒng)多媒體數(shù)據(jù)庫傳統(tǒng)數(shù)據(jù)庫存儲和處理復雜對象面向應用強調媒體獨立性處理的應用對象不同,處理的方式也不同具有更強的對象訪問手段強調終端用戶界面的靈活性和多樣性存儲和處理格式化數(shù)據(jù)單一的數(shù)據(jù)模型簡單的查詢方式提供準確的查詢當前第6頁\共有116頁\編于星期四\22點1.2多媒體數(shù)據(jù)庫系統(tǒng)MDBS的層次結構多媒體數(shù)據(jù)庫系統(tǒng)的核心任務是實時地綜合處理圖、文、聲信息集中型A指由單獨一個MDBMS來建立和管理不同媒體的數(shù)據(jù)庫,并由這個MDBMS來管理對象空間及目的數(shù)據(jù)的集成。協(xié)作型C協(xié)作型MDBS是由多個數(shù)據(jù)庫管理系統(tǒng)組成的,這些數(shù)據(jù)庫管理系統(tǒng)之間沒有主從之分,但能相互通信,協(xié)調工作。主從型B每一個數(shù)據(jù)庫都有自己的管理系統(tǒng),稱為從MDBMS,各自管理自己的數(shù)據(jù)庫。這些從MDBMS又受一個被稱為主MDBMS的統(tǒng)一控制和管理。當前第7頁\共有116頁\編于星期四\22點1.2多媒體數(shù)據(jù)庫系統(tǒng)集中型組織結構Page8當前第8頁\共有116頁\編于星期四\22點1.2多媒體數(shù)據(jù)庫系統(tǒng)主從型組織結構Page9當前第9頁\共有116頁\編于星期四\22點1.2多媒體數(shù)據(jù)庫系統(tǒng)協(xié)作型組織結構Page10當前第10頁\共有116頁\編于星期四\22點1.3多媒體數(shù)據(jù)庫(MDB)

傳統(tǒng)數(shù)據(jù)庫系統(tǒng)的主要處理對象是整數(shù)、實數(shù)、字符串等簡單類型數(shù)據(jù),但這種格式數(shù)據(jù)很難實現(xiàn)對人臉、指紋、人的聲音等事物的有效描述。傳統(tǒng)數(shù)據(jù)庫的層次結構如下:Page11當前第11頁\共有116頁\編于星期四\22點1.3多媒體數(shù)據(jù)庫(MDB)

傳統(tǒng)數(shù)據(jù)庫的層次結構可以在用戶給出查詢條件后迅速地檢索到正確的信息,但面對圖像、聲音、視頻等無格式數(shù)據(jù),如何設定檢索條件,如何查詢所需結果等,都是無法直接實現(xiàn)的。

因此就必須尋找恰當?shù)慕Y構分層形式,已有多種層次劃分,包括對傳統(tǒng)數(shù)據(jù)庫的擴展、對面向對象數(shù)據(jù)庫的擴展、超媒體層次擴展等。雖然各有所不同,但大都是從最低層增加對多媒體數(shù)據(jù)的控制與支持,在最高層支持多媒體的綜合表現(xiàn)和用戶的查詢描述,在中間增加對多媒體數(shù)據(jù)的關聯(lián)和超鏈的處理。Page12當前第12頁\共有116頁\編于星期四\22點1.3多媒體數(shù)據(jù)庫(MDB)綜合各多媒體數(shù)據(jù)的層次結構如下:最高層支持多媒體的綜合表現(xiàn)和用戶的查詢描述,完成用戶對多媒體信息的查詢描述和得到多媒體信息的查詢結果中間層增加對多媒體數(shù)據(jù)的關聯(lián)和超鏈的處理,對現(xiàn)實世界用多媒體數(shù)據(jù)信息進行的描述,也是多媒體數(shù)據(jù)庫中在全局概念下的一個整體視圖,該層為上層的用戶接口、下層的多媒體數(shù)據(jù)存儲和存取建立起一個在邏輯上統(tǒng)一的通道通過存取與存儲數(shù)據(jù)模型描述媒體數(shù)據(jù)的邏輯位置安排、相互的內容關聯(lián)、特征與數(shù)據(jù)的關系等,并完成多媒體數(shù)據(jù)的邏輯存儲與存取。底層增加對多媒體數(shù)據(jù)的控制與支持。建立在多媒體操作系統(tǒng)之上,對不同性質媒體分別進行相應的分割、識別、變換等操作,并確定物理存儲的位置和方法,以實現(xiàn)對各種媒體的最基本數(shù)據(jù)的管理和操縱Page13當前第13頁\共有116頁\編于星期四\22點1.4多媒體數(shù)據(jù)庫管理系統(tǒng)(MDBMS)

在多媒體系統(tǒng)中存在著聲音、文字、圖形、視頻等媒體信息,與傳統(tǒng)的計算機應用系統(tǒng)中只存在字符、數(shù)值相比擴充很大,這就需要一種新的管理系統(tǒng)對多媒體數(shù)據(jù)庫進行管理。這種MDBMS能像傳統(tǒng)的數(shù)據(jù)庫那樣對多媒體數(shù)據(jù)進行有效地組織、管理和存取,并可以實現(xiàn)以下功能:多媒體數(shù)據(jù)庫對象的定義、多媒體數(shù)據(jù)存取、多媒體數(shù)據(jù)庫運行控制、多媒體數(shù)據(jù)庫建立與維護、多媒體數(shù)據(jù)庫在網絡上的通信功能等。Page14當前第14頁\共有116頁\編于星期四\22點Page

151.4多媒體數(shù)據(jù)庫管理系統(tǒng)(MDBMS)數(shù)據(jù)操作功能管理各種媒體數(shù)據(jù)網絡功能MDBMS的基本功能A、表示和處理各種媒體數(shù)據(jù),如文本、圖像、音頻、視頻等。B、反映和管理各種媒體數(shù)據(jù)的特性,或各種媒體數(shù)據(jù)之間的空間或時間的關聯(lián)。A、提供對無格式數(shù)據(jù)的查詢搜索功能B、對不同媒體提供不同的操作方法,如圖形、圖像的編輯處理,聲音數(shù)據(jù)的剪輯等。A、解決分布在網絡上的多媒體庫中數(shù)據(jù)的定義、存儲、操作問題。B、對數(shù)據(jù)的一致性、安全性、并發(fā)性進行管理。當前第15頁\共有116頁\編于星期四\22點1.4多媒體數(shù)據(jù)庫管理系統(tǒng)(MDBMS)多媒體數(shù)據(jù)庫管理系統(tǒng)MDBMS(MultimediaDatabaseManagementSystem)一般由用戶界面、存儲子系統(tǒng)、特征數(shù)據(jù)庫、索引子系統(tǒng)、檢索子系統(tǒng)和數(shù)據(jù)分析子系統(tǒng)等部分組成。其中用戶界面采用B/S方式實現(xiàn),該用戶界面需要支持用戶以圖形方式進行基于內容的查詢,同時也需要支持傳統(tǒng)文本方式的查詢。其體系結構如下圖:Page16當前第16頁\共有116頁\編于星期四\22點1.4多媒體數(shù)據(jù)庫管理系統(tǒng)(MDBMS)Page17當前第17頁\共有116頁\編于星期四\22點18多媒體內容檢索與管理1多媒體數(shù)據(jù)庫2多媒體內容管理3多媒體內容檢索6基于內容視頻檢索5基于內容音頻檢索4基于內容圖像檢索當前第18頁\共有116頁\編于星期四\22點Page

192.1多媒體內容處理概念級內容感知特性邏輯關系特指特征多媒體數(shù)據(jù)的內容概念的層次視覺特性,如顏色、視覺對象、紋理、草圖、形狀、體積、空間關系、輪廓、等,聽覺特性如音調、音色、音質等。音視頻對象的時間和空間關系,語義和上下文關聯(lián)等。與應用相關的媒體特征,如人的體形特征、面部特征、指紋特征等。對象的語義表達,例如利用文本的描述,通過分類和目錄來組織層次瀏覽,用鏈來組織上下文關聯(lián)。當前第19頁\共有116頁\編于星期四\22點2.1多媒體內容處理多媒體內容的處理如下圖所示可分為三大部分:a、內容獲取、b、內容描述和c、內容操縱。首先要對原始媒體進行處理并提取內容,然后用標準形式描述所提取的內容,以支持各種內容的查詢、檢索、索引等內容的操縱。Page20當前第20頁\共有116頁\編于星期四\22點2.1多媒體內容處理

內容獲取是通過對各種內容的分析和處理而獲得媒體內容的過程。多媒體數(shù)據(jù)的重要成分是空間和時間結構,首先必須分割出圖像對象、視頻的時間結構、運動對象,以及這些對象之間的關系,然后提取顯著的區(qū)別特征和人的視覺、聽覺感知特征來表示媒體和媒體對象的性質。Page21當前第21頁\共有116頁\編于星期四\22點2.1多媒體內容處理

內容描述就是針對獲取的內容進行描述。為了支持數(shù)據(jù)管理的靈活性、數(shù)據(jù)資源的全球化和互操作性,描述必須基于一定的標準。MPEG-7標準被稱為“多媒體內容描述接口”,主要采用描述子(Descriptor)和描述模式來分別描述媒體的特性及其關系。描述子是特征的表示法,一個描述子就是定義特征的語法和語義學。MPEG-7標準定義了一系列的描述結構、一種詳細說明描述結構的語言、描述定義語言(DDL)和多種編碼描述方法。Page22當前第22頁\共有116頁\編于星期四\22點2.1多媒體內容處理內容操縱主要針對內容的用戶操作和應用。有許多這方面的名詞和術語。查詢(Query)是面向用戶的術語,多用于數(shù)據(jù)庫操作、檢索(Retrieval)是在索引支持下的快速信息獲取方式、搜索(Search)常用于Internet的搜索引擎、摘要(Summarization,Excerpt)是適合于視頻和音頻等時基媒體的特殊操作、瀏覽(Browsing)可以線性或非線性地存取結構化的內容、過濾(Filtering)是與檢索相反的一種信息存取方式。Page23當前第23頁\共有116頁\編于星期四\22點2.2基于內容的多媒體信息檢索基于內容檢索(Contentbased),就是從媒體數(shù)據(jù)中提取出特定的信息線索,根據(jù)這些線索從大量存儲在數(shù)據(jù)庫中的媒體中進行查找,檢索出具有相似特征的媒體數(shù)據(jù)出來。

多媒體數(shù)據(jù)的“內容”表示多媒體信息的含義、要旨、主題和顯著的性質、實質性的東西、物理細節(jié)等,而多媒體內容處理技術要基于對內容的基本定義。Page24當前第24頁\共有116頁\編于星期四\22點Page

252.2基于內容的多媒體信息檢索多媒體信息檢索的特點相似性檢索:CBR采用一種近似匹配的方法和技術,逐步求精來獲得查詢和檢索結果,每一層的中間結果是一個集合,不斷減少集合的范圍,直到定位到查找的目標直接從內容中提取信息線索:CBR直接對文本、圖像、視頻、音頻進行分析,從中抽取內容特征,然后利用這些內容特征建立索引并進行檢索。滿足用戶多層次的檢索要求:CBR檢索系統(tǒng)通常由媒體庫、特征庫和知識庫組成。大型數(shù)據(jù)庫(集)的快速檢索:CBR往往擁有數(shù)量巨大、種類繁多的多媒體數(shù)據(jù)庫,能夠實現(xiàn)對多媒體信息的快速檢索。當前第25頁\共有116頁\編于星期四\22點2.3內容檢索的關鍵技術基于內容的多媒體數(shù)據(jù)庫管理系統(tǒng)除了解決媒體信息的存儲,還要求能夠從媒體數(shù)據(jù)中分析、抽取可供檢索的內容特征,用于信息的檢索。其關鍵技術主要有特征抽取、特征分析和特征匹配。特征提?。禾崛「鞣N特征,如顏色,紋理,形狀等。根據(jù)提取的特征不同,采取不同的處理,例如提取形狀特征,就需要先進行圖像分割和邊緣提取等步驟。選擇合適的算法,并在效率和精確性方面加以改進,以適應檢索的需要,并實現(xiàn)特征的提取。特征分析:對圖像的各種特征進行分析,選擇提取效率高、信息濃縮性好的特征,或者將幾種特征進行組合,用到檢索領域。特征匹配:選擇何種模型來衡量圖像特征間的相似度。Page26當前第26頁\共有116頁\編于星期四\22點2.3內容檢索的關鍵技術基于內容多媒體數(shù)據(jù)庫管理系統(tǒng)的的功能框架如下圖所示。Page27當前第27頁\共有116頁\編于星期四\22點2.4基于內容的多媒體信息檢索體系結構基于內容檢索系統(tǒng)結構由特征分析子系統(tǒng)、特征提取子系統(tǒng)、數(shù)據(jù)庫、查詢接口、檢索引擎和索引過濾等子系統(tǒng)組成,同時需要相應的知識輔助支持特定領域的內容處理。Page28當前第28頁\共有116頁\編于星期四\22點2.4基于內容的多媒體信息檢索體系結構特征分析:該子系統(tǒng)負責將需要入庫的媒體進行分割或節(jié)段化,標識出需要的對象或內容關鍵點,以便有針對性的對目標進行特征提取。特征標識可通過用戶輸入或系統(tǒng)定義。特征提取對用戶提供或系統(tǒng)標明的媒體對象進行特征提取處理。提取特征時需要知識處理模塊的輔助,與標準化的知識定義直接有關。數(shù)據(jù)庫包含多媒體數(shù)據(jù)庫和特征數(shù)據(jù)庫,分別存放多媒體數(shù)據(jù)同對應的特征數(shù)據(jù),它們彼此之間存在著一定的對應關系。特征庫中包含了由用戶輸入的和預處理自動提取的特征數(shù)據(jù),通過檢索引擎組織與媒體類型相匹配的索引來達到快速搜索的目的。Page29當前第29頁\共有116頁\編于星期四\22點2.4基于內容的多媒體信息檢索體系結構查詢接口,即人機交互界面,友好的人機交互界面是檢索系統(tǒng)不可缺少的。在基于內容的檢索中,由于特征不直觀,因此必須為用戶提供一個可視化的輸入手段,還應在用戶界面提供查詢結果的創(chuàng)覽功能,即為用戶提供初步查詢結果的返回,系統(tǒng)會根據(jù)用戶選擇的排序標準(如顏色、旋律、節(jié)拍等),按照相似度的大小將結果排列后,返回給用戶。檢索引擎,檢索要將特征提取值和特征庫中的值進行比較,得到一個相似度。不同的媒體各自具有不同的相似度算法,這些算法也稱為相似性測度函數(shù)。檢索引擎使用相似性測度函數(shù)集去進行比較,從而確定與特征庫的值最接近的多媒體數(shù)據(jù)。索引過濾在大規(guī)模多媒體數(shù)據(jù)檢索過程中,為了提高檢索效率,常在檢索引擎進行匹配之前采用索引過濾方法,取出高維特征用于匹配。Page30當前第30頁\共有116頁\編于星期四\22點2.4基于內容的多媒體信息檢索體系結構如果用戶對系統(tǒng)返回的查詢結果不滿意怎么辦?相關返饋技術Page31當前第31頁\共有116頁\編于星期四\22點2.5基于內容的多媒體信息檢索中的相關反饋技術在基于內容的檢索過程中相關反饋是一個相當重要的過程。因為僅僅基于圖像低層特征很難給出令人滿意的結果,主要原因是圖像低層特征和高層語義間存在著很大的差距。相關反饋技術就是為了解決這個問題而提出的,一方面需要找出更有效的多媒體表示方法,另一方面通過人機交互來捕捉和建立低層特征和高層語義之間的關聯(lián)。

相關反饋技術的基本思想是建立一個由用戶參與的交互過程,在交互過程逐步求得精確的查詢結果。在檢索過程中,系統(tǒng)根據(jù)用戶的查詢要求返回檢索結果,用戶可以對檢索結果進行評價和標記,并將這些信息反饋給系統(tǒng),系統(tǒng)則根據(jù)這些反饋信息進行學習,并返回新的查詢結果,從而使得檢索結果更加滿足用戶的要求。Page32當前第32頁\共有116頁\編于星期四\22點2.5基于內容的多媒體信息檢索中的相關反饋技術相關反饋結構圖如下:Page33當前第33頁\共有116頁\編于星期四\22點參考文獻[1]鄭繼文,吳吉義.多媒體數(shù)據(jù)庫管理系統(tǒng)的關鍵技術分析[J].微型機與應用,2007(6):94-96.[2]徐險峰.基于內容的多媒體信息檢索技術[J].現(xiàn)代情報,2005,25(3):134-136.[3]李松濤,鐘建寧.基于內容的多媒體數(shù)據(jù)庫管理系統(tǒng)研究[J].計算機技術與發(fā)展,2008,18(12):214-216.[4]柳群英.基于內容的音頻信息檢索技術[J].現(xiàn)代情報,2005(6):91-93.[5]黃麗娟.基于內容的多媒體信息檢索[J].現(xiàn)代圖書情報技術,2000(5):40-43.[6]武獻宇,謝金龍,米志強.基于內容信息檢索技術研究[J].電腦知識與技術,2009,5(8):1923-1924.[7]李廣建,黃永文.基于內容的信息檢索[J].中國圖書館學會2000年會論文,2000:111-118.[8]黃敬泉,韓冰.基于內容的檢索新進展[J].現(xiàn)代計算機,2010:38-40.[9]黃志軍,曾斌.多媒體數(shù)據(jù)庫技術[M].北京:國防工業(yè)出版社,2005:91-115.[10]高陽.數(shù)據(jù)庫技術與應用[M].北京:電子工業(yè)出版社,2003:316-318.當前第34頁\共有116頁\編于星期四\22點35多媒體內容檢索與管理1多媒體數(shù)據(jù)庫2多媒體內容管理3多媒體內容檢索6基于內容視頻檢索5基于內容音頻檢索4基于內容圖像檢索當前第35頁\共有116頁\編于星期四\22點Page

363.1基于內容檢索的實現(xiàn)技術1、模式識別將用戶提供的目標媒體數(shù)據(jù)對象與數(shù)據(jù)庫中的源媒體數(shù)據(jù)對象進行模糊匹配,然后讀取數(shù)據(jù)進行表示。這種檢索方式精確度較低,查詢執(zhí)行時間較長。2、特征提取將基于媒體內容的檢索轉換為基于媒體內容特征的檢索。特征檢索就是從媒體數(shù)據(jù)中提取特定的信息線索特征,然后再根據(jù)這些數(shù)據(jù)特征在數(shù)據(jù)集合中檢索出具有相似特征的媒體數(shù)據(jù)來。當前第36頁\共有116頁\編于星期四\22點Page

373.1基于內容檢索的實現(xiàn)技術多媒體特征的多維性空間特征,有對象的紋理和形狀特征以及對象的空間關系等;時間特征,有對象隨時間變化的軌跡,如音樂片段的持續(xù)時間。特征表示是多層的:(1)客觀特征:反映多媒體數(shù)據(jù)本身具備的特性,如對象的顏色、形狀、紋理、音頻頻率等。(2)主觀特征:指人們對多媒體數(shù)據(jù)的主觀感知,如對情緒(快樂、憤怒)和風格的描述。(3)作品特征:如作者、廠家、導演等信息。(4)合成特征:包括場景合成、編輯信息、用戶的喜好等。(5)概念(高層特征):用于描述事件和活動等概念。當前第37頁\共有116頁\編于星期四\22點Page

383.1基于內容檢索的實現(xiàn)技術基本檢索步驟:對入庫的多媒體數(shù)據(jù)進行特征提取以提取的媒體特征建立索引輸入用戶描述將用戶描述與庫中媒體進行相似性匹配在相似性匹配的結果中選擇最終結果常用的圖像特征有顏色、紋理、形狀等,音頻特征有音量、頻率分布、無聲率等,視頻特征有關鍵幀、運動對象等當前第38頁\共有116頁\編于星期四\22點Page

393.2多媒體內容檢索過程整個過程可以分為下面幾個步驟:(1)初始查詢說明。用戶查找一個對象時,最初可以用示例查詢(QBE)或查詢語言來形成一個查詢。系統(tǒng)提取該示例的特征或把查詢描述映射為具體的特征向量。(2)相似性匹配。將查詢特征與特征庫中的特征按照一定的匹配算法進行相似匹配。(3)滿足一定相似性條件的一組候選結果,按相似度大小排列后返回給用戶。(4)特征調整。用戶可以挑選系統(tǒng)返回的查詢結果,直至得到滿意的結果;或者從候選結果中選擇一個示例。根據(jù)用戶給出的結果相關度反饋,對查詢進行特征調整,形成一個新的查詢。(5)逐步縮小查詢范圍,重復步驟(2)~(5),直到用戶對查詢結果滿意為止。當前第39頁\共有116頁\編于星期四\22點Page

403.3基于內容檢索系統(tǒng)概念基于內容檢索(CBR,Content-BasedRetrieval)每一種媒體數(shù)據(jù)都有難以用符號化方法來描述的信息線索(如圖像中的顏色、視頻中的事件、音頻中的音調等)。當用戶希望利用這些信息線索來對多媒體數(shù)據(jù)進行檢索時,傳統(tǒng)的數(shù)據(jù)庫檢索多采用基于關鍵字的檢索方式,并且在許多情況下媒體內容難以用幾個關鍵字來進行充分描述,作為關鍵字的圖像特征的選取也有很大的主觀性。另一方面,用戶很難將這些信息線索轉化成某種符號形式。因此,要求數(shù)據(jù)庫系統(tǒng)能對多媒體數(shù)據(jù)進行內容語義分析,以便達到更深的檢索層次,這就是所謂的基于內容檢索當前第40頁\共有116頁\編于星期四\22點Page

413.3基于內容檢索系統(tǒng)概念基于內容檢索主要特點①從媒體內容中提取信息線索?;趦热輽z索突破了傳統(tǒng)的基于關鍵字檢索的局限,直接對圖像、視頻、音頻等進行分析,抽取特征,使得檢索更接近于媒體對象。②提取特征的方法多種多樣。以圖像特征提取為例,可以提取形狀、顏色、紋理和輪廓等多種特征。③人機交互。一般來說,用戶對特征比較敏感,能夠迅速分辨出目標的輪廓、音樂的旋律等。如果對象很多,則用戶很難記住這些對象的特征,從大量數(shù)據(jù)中查找目標的效率也非常低,但計算機能夠輕松地做到這一點。因此,在使用基于內容檢索系統(tǒng)時,用戶與計算機配合進行檢索。當前第41頁\共有116頁\編于星期四\22點Page

423.3基于內容檢索系統(tǒng)概念基于內容檢索主要特點④近似匹配?;趦热輽z索時一種近似匹配過程。在檢索過程中,采用逐步求精的方法,每一層的中間結果是一個集合,不斷地減小該集合的范圍,直到定位到目標為止。這一特點與數(shù)據(jù)庫檢索的精確匹配算法顯然不一樣。⑤綜合利用多種相關技術?;趦热輽z索可以利用圖像處理、語音信號處理、模式識別、知識庫系統(tǒng)、計算機圖形學、數(shù)據(jù)庫管理系統(tǒng)、信息檢索等眾多領域的研究成果和研究方法,來研究各種新的媒體數(shù)據(jù)表示和數(shù)據(jù)模型、高效可靠的查詢處理算法、智能查詢接口以及與應用領域無關的系統(tǒng)結構。當前第42頁\共有116頁\編于星期四\22點Page

433.3基于內容檢索系統(tǒng)概念基于內容檢索系統(tǒng)體系結構主要模塊如下:(1)目標標識模塊(2)特征提取模塊(3)數(shù)據(jù)庫模塊(4)查詢接口模塊(5)檢索引擎模塊(6)索引/過濾模塊當前第43頁\共有116頁\編于星期四\22點Page

443.4未來的主要研究問題(1)綜合的多特征檢索技術(2)高層概念和低層特征的關聯(lián)。(3)高維索引技術(4)時序媒體的內容結構化(5)用戶查詢界面(6)數(shù)據(jù)模型(7)性能評價(8)內容描述標準(9)多媒體信息安全當前第44頁\共有116頁\編于星期四\22點45多媒體內容檢索與管理1多媒體數(shù)據(jù)庫2多媒體內容管理3多媒體內容檢索6基于內容視頻檢索5基于內容音頻檢索4基于內容圖像檢索當前第45頁\共有116頁\編于星期四\22點Page

464.1圖像檢索的發(fā)展基于內容的圖像檢索涉及信息檢索、圖像處理、計算機視覺、機器學習、人工智能等諸多研究領域關于圖像信息的檢索技術經歷了圖像特征文本描述→圖像表層視覺特征→圖像語義內在特征的3個階段。當前第46頁\共有116頁\編于星期四\22點Page

474.1圖像檢索的發(fā)展圖像特征文本描述20世紀70年代末人工文字注解圖像利用文本檢索實現(xiàn)對圖像特征的查找費時費力不完整反映圖像表層視覺特征20世紀90年代初使用顏色、紋理及形狀等視覺特征實現(xiàn)了圖像視覺內容特征的檢索以圖找圖查詢模式圖像語義內在特征智能檢索解決圖像簡單視覺特征和用戶檢索豐富語義之間存在的"語義鴻溝"問題的關鍵當前第47頁\共有116頁\編于星期四\22點Page

484.1圖像檢索的發(fā)展基于內容的圖像檢索技術研究的4個熱點最初的圖像檢索研究主要集中于如何選擇合適的全局特征去描述圖像內容和采用什么樣的相似性度量方法進行圖像匹配。第二個研究熱點是基于區(qū)域的圖像檢索方法,其主要思想是通過圖像分割技術提取出圖像中的物體,然后對每個區(qū)域使用局部特征來描述,綜合每個區(qū)域特征可得到圖像的特征描述。前兩個研究方向可稱為以圖像為中心的方法,對于用戶的需求缺乏分析。第三個研究熱點就是針對這一問題展開的,借助相關反饋的思想,根據(jù)用戶需求及時調整系統(tǒng)檢索時用的特征和相似性度量方法,從而縮小底層特征和高層語義之間的差距。第四個研究熱點是研究如何從多種渠道獲取圖像語義信息,如何將圖像底層特征與圖像關鍵詞結合進行圖像自動標注以提高檢索準確率等。當前第48頁\共有116頁\編于星期四\22點Page

494.2基于內容圖像檢索的系統(tǒng)結構圖基于內容圖像檢索的體系結構分為特征提取和查詢兩個子系統(tǒng):(1)預處理包括圖像格式的轉換、規(guī)格化,圖像的增強與去噪等功能。(2)目標標識即標識出圖像中用戶感興趣的區(qū)域或對象,以便針對目標進行特征提取并查詢。(3)特征提取包括提取圖像顏色、紋理、形狀、空間位置關系等特征。當前第49頁\共有116頁\編于星期四\22點Page

504.2基于內容圖像檢索的系統(tǒng)結構圖基于內容圖像檢索的體系結構(4)數(shù)據(jù)庫由圖像庫、特征庫和知識庫組成。圖像庫為數(shù)字化的圖像信息,特征庫包含自動提取的內容特征,知識庫包含專門和通用知識,有利于查詢優(yōu)化和快速匹配,知識庫中知識表達可以更換以適用于各種不同的應用領域。當前第50頁\共有116頁\編于星期四\22點Page

514.2基于內容圖像檢索的系統(tǒng)結構圖基于內容圖像檢索的體系結構(5)查詢接口提供一個友好的用戶界面。包括可視化的輸入手段和結果瀏覽功能。(6)檢索引擎中包括一個有效可靠的相似性測度函數(shù)集。(7)檢索引擎通過索引/過濾模塊達到快速檢索的目的。當前第51頁\共有116頁\編于星期四\22點Page

524.3基于內容圖像檢索的特點主要特點有:(1)基于內容檢索突破了傳統(tǒng)的基于表達式檢索的局限,從媒體內容中提取信息線索。利用圖像內容特征建立索引進行檢索。使得檢索過程更加有效,適應性更強。(2)基于內容圖像檢索是一種近似匹配的技術。由于相同內容的圖像有不同的表現(xiàn)方式,例如同一場景下的圖片有遠景和近景之分。而且圖像信息的內容比較豐富,相互關聯(lián)性比較強。(3)大型數(shù)據(jù)庫的快速檢索。在實際的多媒體數(shù)據(jù)庫中,不僅數(shù)據(jù)量巨大,而且種類和數(shù)量繁多,因此要求CBIR技術快速地實現(xiàn)對多媒體信息的檢索。(4)以相關反饋為有效手段。當用戶提供一幅查詢草圖(sketch)或圖像,并要求找出與此相似的圖像時,其意識中已經有了相似性判別標準。理想情況下,系統(tǒng)的相似性度量應該與用戶的判別一致,它涉及人類視覺系統(tǒng)對圖像的認知和高層語義的解釋。因此通過用戶的相關反饋,檢索系統(tǒng)學習用戶的意圖和準則來指導圖像檢索過程,有效提高圖像檢索的效率。當前第52頁\共有116頁\編于星期四\22點Page

534.4基于內容圖像檢索方法的分類基于內容的圖像檢索方法可分為外部圖例查詢、內部圖例查詢、草圖查詢和綜合查詢。早在1980年就有文獻提出了圖倒查詢的概念,圖例查詢是一種由一幅或多幅圖像實例構造查詢的圖像檢索技術。1、外部圖例查詢示例圖像來源于檢索系統(tǒng)的外部優(yōu)勢在于用戶在表達其信息需求時的簡單性。用戶僅需提供一幅或多幅圖像,或許也需要調整一些參數(shù),如各種特征的權重等。檢索過程中并不需要特定的數(shù)據(jù)庫查詢語言方面的知識。

缺點當用戶很難提供一個示例圖像時,外部圖倒查詢的可用性將大打折扣。也許在某種情況下,在系統(tǒng)外部尋找一幅示例圖片所付出的代價甚至有可能超過直接在數(shù)據(jù)庫中尋找圖像的代價??傊獠繄D例查詢的優(yōu)點是易用,缺點是需要付出一定的努力向系統(tǒng)提供外部示例圖像。當前第53頁\共有116頁\編于星期四\22點Page

544.4基于內容圖像檢索方法的分類2、內部圖例查詢示例圖片是從檢索系統(tǒng)的數(shù)據(jù)庫中選出的。系統(tǒng)在其他方面的功能與外部示例圖片基本上一致。為了比較內部與外部示例查詢,拿搶劫嫌疑犯的照片的檢索作例子。目擊者沒有必要一張一張地翻閱警察局存檔的嫌疑犯照片庫,通過圖例查詢,目擊者可以先選擇一張看上去比較像嫌疑犯的照片,比如兩者都有絡腮胡子,然后從系統(tǒng)給出的所有相似者列表中快速確定搜索目標。優(yōu)勢在于不再需要為了進行圖例查詢而首先從外界尋求或構造一幅示例圖片。缺點:系統(tǒng)要求用戶必須首先在數(shù)據(jù)庫中找到一幅類似的圖片,這個過程可能是相當費時費力的。所以內部圖例查詢經常與其他檢索方法結合使用以避免這個問題。比如可以先通過直接查詢縮小圖像搜索范圍,然后再使用內部圖例查詢??傊?,內部圖例查詢的優(yōu)點是用戶不再為獲得一個外部示例圖片而煩惱,缺點是仍然需要用戶付出努力在數(shù)據(jù)庫中找到一幅合適的示例圖片。當前第54頁\共有116頁\編于星期四\22點Page

554.4基于內容圖像檢索方法的分類3、草圖查詢示例圖像由用戶創(chuàng)建。用戶為他希望得到的圖像勾畫一張草圖。檢索系統(tǒng)為此必須為用戶提供一些圖像部件(如各類紋理)和作圖工具。我們還是拿前面提到的搶劫嫌疑犯的照片檢索作例子,這里向系統(tǒng)輸入的示例圖像是一張嫌疑犯的簡略肖像草圖,它是由有關專家根據(jù)目擊者的敘述描畫的。有時目擊者可以通過組合一些諸如頭發(fā)、鼻子、眼睛等部件的照片而構造一張臉。缺點是它要求用戶或多或少要有一些藝術才能。由于大多數(shù)的用戶不具備足夠的這方面的才能,草圖查詢在大多數(shù)的場合下僅用來指出圖像中對象的位置或一些對象的全局屬性??梢?,草圖查詢的優(yōu)點是用戶可以根據(jù)需要指出最重要、最感興趣的圖像細節(jié),缺點是草圖的創(chuàng)建不像想象的那么容易,而且很難建立草圖與圖像之間的映射關系。當前第55頁\共有116頁\編于星期四\22點Page

564.4基于內容圖像檢索方法的分類4、綜合檢索方法大多數(shù)的圖像檢索系統(tǒng)都或多或少地綜合應用了上述的各種檢索方法。系統(tǒng)可以對同一個數(shù)據(jù)庫提供多種檢索方法的接口,但更有意義的是在一次檢索會話中綜合應用不同的檢索技術。后一種情況下,檢索系統(tǒng)將是多個應用不同檢索方法的子系統(tǒng)的有機集成,子系統(tǒng)之間通過輸入與輸出的對接完成通信與交互。當前第56頁\共有116頁\編于星期四\22點Page

574.5基于內容圖像檢索的應用1.知識產權保護許多知識產權的載體都是圖像,最明顯的是商標和藝術作品。毫無疑問,利用基于內容的圖像檢索技術實現(xiàn)商標的專用圖形標記的自動審查具有非?,F(xiàn)實的意義。2.新一代網上搜索和數(shù)字圖書館新一代網上搜索引擎應該具有協(xié)助用戶從海量而且無序的網上圖像資源中尋找符合要求的圖像的能力。除了對圖像內容的分析外,基于Web的圖像搜索引擎還要提供友好的查詢界面和快速的聯(lián)機反應能力。3.醫(yī)學和遙感圖像的分析和處理盡管傳統(tǒng)的圖像處理領域早就開始涉足醫(yī)學和遙感圖像的分析和處理的研究,但它們仍然是一個開放的研究課題,無論是民用還是軍事,醫(yī)學和遙感圖像的分析和處理都具有非常重大的現(xiàn)實意義。特別當圖像規(guī)模增加時,準確有效的圖像分析手段以及快速的圖像識別和檢索技術將凸現(xiàn)其重要性。當前第57頁\共有116頁\編于星期四\22點Page

584.5基于內容圖像檢索的應用4.犯罪與安全預防當將圖像的內容限制在特定領域時,基于內容的圖像檢索技術將找到更為具體的應用。例如,安全部門可以將人的主要特征(如指紋和臉部)的圖像存儲在數(shù)據(jù)庫中,通過指紋識別和人臉識別就有可能從大量的指紋庫或者人臉庫中自動識別出特定的目標。毫無疑問,這具有重大的社會價值?;ヂ?lián)網的飛速發(fā)展也帶來另外一個負面的影響,即網上不健康內容的大量增加,特別是一些低級趣味的圖片。在某些情況下可能需要對這些信息進行過濾?;趦热莸膱D像檢索技術完全可以應用到類似的具有圖像過濾需求的應用中。除此以外,基于內容的圖像檢索技術還可以應用到設計(時裝、裝潢和結構)、遠程教育以及個人相冊管理等方面。當前第58頁\共有116頁\編于星期四\22點Page

594.6基于文本與基于內容的圖像檢索技術的比較1.基于文本的圖像檢索TBIR傳統(tǒng)的圖像檢索方法.它是在對圖像進行文本標注的基礎上,對圖像進行基于關鍵字的檢索.在這種技術下,對圖像的檢索變成了對關鍵字的查找,是一種基于關鍵詞的匹配查找過程.其基本步驟是先對圖像文件建立相應的關鍵詞或描述字段,它通過對圖像的名稱、編號、內容描述、圖像大小、圖像所在文件的大小、圖像來源、作者、建立圖像的時間、存儲地點等關鍵性的信息采用自動標引或進行人工注釋,并進行圖像的特征抽取,建立圖像索引數(shù)據(jù)庫,然后按全文數(shù)據(jù)庫管理,采用全文數(shù)據(jù)庫檢索方法.該方法的實質是把圖像檢索轉換為對與該圖像對應的文本檢索.當前第59頁\共有116頁\編于星期四\22點Page

604.6基于文本與基于內容的圖像檢索技術的比較2.

TBIR的優(yōu)點和問題優(yōu)點:易于實現(xiàn)人工干預,所以它的查準率是相當高,仍常用于輔助其他圖像檢索技術,以進一步提高檢索性能.存在的困難:文本描述難以充分表達圖像的豐富內容圖像中則往往含有大量需要定量描述的信息許多圖像的特征難以用文本描述表達文本描述又具有一定的主觀性文本描述難以實現(xiàn)基于圖像視覺特征的相似性檢索海量數(shù)據(jù)下人工標注的開銷太大當前第60頁\共有116頁\編于星期四\22點Page

614.6基于文本與基于內容的圖像檢索技術的比較3.

TBIR與CBIR的比較TBIR與CBIR有著各自的優(yōu)勢和不足,下面列表比較了兩種方法.當前第61頁\共有116頁\編于星期四\22點Page

624.6基于文本與基于內容的圖像檢索技術的比較3.

TBIR與CBIR的比較TBIR在一定程度上回避了對復雜的可視化元素的識別難題,符合人們熟悉的檢索習慣,實現(xiàn)簡單,由于圖像在手工標注時圖像的標注有太多的主觀性、缺乏統(tǒng)一的標準,仍舊局限在文本檢索的范圍下,通過受控詞匯來描述圖像,無法對圖像內容理解,而且其在表達復雜的或是難以表達的圖像內容時有極大的局限性.

CBIR恰相反,主要利用對直觀形象的特征元素的分析來標引圖像,具有一定的客觀性,如每幅圖像的色彩直方圖是確定的.但是CBIR算法復雜,實現(xiàn)成本高,難以建立從底層圖像特征到高層語義的聯(lián)系,檢索的準確性較低.如果能將二者結合起來取長補短,則網絡環(huán)境下圖像檢索技術必有新的進展.當前第62頁\共有116頁\編于星期四\22點Page

634.6基于文本與基于內容的圖像檢索技術的比較4.TBIR與CBIR的結合運用網頁圖像的內容不僅包含在自身的圖像數(shù)據(jù)中又包含于它所HTML檔的文字描述中.Web圖像的這種特點提供了TBIR與CBIR結合運用的機會.人們對圖像間相似度的判斷體現(xiàn)出多重標準,既有語義標準又有低層特征標準,而且不同的人在判斷標準上也有差異.因此,一個有效的Web圖像檢索系統(tǒng)要便于根據(jù)不同用戶的標準進行調整,這就要求將文字描述和圖像低層屬性進行合理利用.當前第63頁\共有116頁\編于星期四\22點Page

644.6基于文本與基于內容的圖像檢索技術的比較4.TBIR與CBIR的結合運用為此有機整合TBIR和CBIR,構建了一個基于web的圖像檢索系統(tǒng),使二者互為補充,這樣系統(tǒng)就可同時獲取圖像的低層和高層特征.

用戶可以通過關鍵詞開始檢索一個查詢,而返回結果后再選擇可以作為查詢樣圖的圖像進行基于內容屬性的檢索.通過頁面分析器從網頁中自動抽取能反映圖像語義信息的符號和文字,然后按照傳統(tǒng)的文本信息檢索技術,建立圖像的語義特征庫.利用概念之間的關系對提取的語義概念進行關聯(lián)映射,從而對其進行更廣泛意義的自動標注.當前第64頁\共有116頁\編于星期四\22點Page

654.6基于文本與基于內容的圖像檢索技術的比較4.TBIR與CBIR的結合運用這種結合方式有利于從更全面準確的分析Web圖像,同時可以緩解基于內容檢索在獲取圖像抽象的高級語義上的難度.當前第65頁\共有116頁\編于星期四\22點Page

664.7基于內容圖像檢索的典型系統(tǒng)當前第66頁\共有116頁\編于星期四\22點Page

67主要參考文獻[1].張騫,基于文本的與基于內容的圖像檢索技術比較研究.情報探索,2012(01):第111-113頁.[1].阿斯艷·哈米提與阿不都熱西提·哈米提,基于文本的圖像檢索與基于內容的圖像檢索技術的比較研究.首都師范大學學報(自然科學版),2012(04):第6-9頁.[3]肖明.基于內容的多媒體信息索引與檢索概論[M].北京:人民郵電出版社,2009.8.

[4]馬修軍.多媒體數(shù)據(jù)庫與內容檢索[M].北京:北京大學出版社,2007.7.[5]周明全,耿國華,等.基于內容圖像檢索技術[M].北京:清華大學出版社,2007.7.當前第67頁\共有116頁\編于星期四\22點68多媒體內容檢索與管理1多媒體數(shù)據(jù)庫2多媒體內容管理3多媒體內容檢索6基于內容視頻檢索5基于內容音頻檢索4基于內容圖像檢索當前第68頁\共有116頁\編于星期四\22點基于內容的音頻檢索基本概念基于內容的音頻檢索系統(tǒng)基本結構關鍵技術音頻特征提取基于內容的音頻分割與識別分類音頻檢索方式典型的音頻系統(tǒng)簡介Page69當前第69頁\共有116頁\編于星期四\22點5.1基于內容的音頻檢索—基本概念思考:

傳統(tǒng)的音頻檢索?存在的問題?Page70當前第70頁\共有116頁\編于星期四\22點5.1基于內容的音頻檢索—基本概念傳統(tǒng)的音頻檢索基于文本的,即通過人工方式生成多媒體信息的文本描述,如文件說明、歌曲名稱等,然后采用文本檢索技術實現(xiàn)對多媒體信息的檢索。存在的問題Page71當前第71頁\共有116頁\編于星期四\22點5.1基于內容的音頻檢索—基本概念基于內容的音頻檢索

指研究如何利用音頻的幅度、頻譜等物理特征,響度、音高、音色等聽覺特征,詞字、旋律等語義特征實現(xiàn)與音頻內容信息相關的檢索。

核心思想是通過一定的計算處理,分析音頻的結構和語義,建立它們的結構化的組織和索引,使得“無序”的音頻變的“有序”,從而有利于用戶的檢索和瀏覽。

主要有兩個方面的含義:一是檢索音頻內容本身,如通過“哼”某音樂的曲調查找此音樂;二是檢索與音頻內容相關的信息,如通過語音查找說話人等。Page72當前第72頁\共有116頁\編于星期四\22點5.2基于內容的音頻檢索—系統(tǒng)基本結構一般可把基于內容的音頻數(shù)據(jù)庫檢索系統(tǒng)看作是介于信息用戶和數(shù)據(jù)庫之間的一種信息服務系統(tǒng)?;趦热莸囊纛l檢索,一般分為音頻特征提取、音頻識別分類、檢索三個過程。Page73當前第73頁\共有116頁\編于星期四\22點Page

745.2基于內容的音頻檢索—系統(tǒng)基本結構特征提取特征提取指的是尋找原始音頻信號表達形式,提取能代表原始信號的數(shù)據(jù)。要提取特征和屬性,通常要對數(shù)據(jù)庫中的多媒體數(shù)據(jù)項進行預處理。因為在檢索過程中,其實是對這些特征和屬性而不是對信息項本身進行搜索和比較,所以特征提取的質量決定著檢索結果。音頻識別分類音頻識別分類是對音頻進行歸類劃分,分類本身可以是一種檢索方式,也可以作為檢索的一個輔助手段,歸類越精確,一般來說檢索就越準確。檢索檢索的過程是一個匹配的過程,根據(jù)音頻特征問的相似度給出檢索結果。檢索系統(tǒng)一般分為兩部分:一部分是數(shù)據(jù)庫的生成,即音頻數(shù)據(jù)及其特征錄入到數(shù)據(jù)庫;一部分是數(shù)據(jù)庫查詢,即用戶通過輸入音頻或輸入特征字符串在數(shù)據(jù)庫中查找所需要的音頻。當前第74頁\共有116頁\編于星期四\22點5.2基于內容的音頻檢索——系統(tǒng)基本結構圖:音頻檢索系統(tǒng)的一般結構Page75當前第75頁\共有116頁\編于星期四\22點5.3關鍵技術(音頻特征提取)音頻特征提取

音頻特征提取是整個基于內容的音頻檢索技術的核心技術。音頻內容描述是在音頻內容獲取的基礎之上進行的,同時是進一步進行音頻特征相似度匹配的必要前提。音頻時域特征的提取音頻頻域特征的提取Page76當前第76頁\共有116頁\編于星期四\22點5.3關鍵技術(音頻特征提?。┮纛l時域特征的提取時域(時間—幅值)表示法是最基本的音頻信號表示技術,它把音頻信號表示成隨時間變化而變化的幅值。假定靜音表示成0,若聲壓高于靜音時的平衡氣壓,則信號值為正,否則為負。平均能量:說明了音頻信號的強度,可用于靜音檢測,對于一個音頻例子,如這個音頻例子中的某一短時幀的平均能量低于一個事先設定的閾值,則可判定該短時幀為靜音。過零率:指每秒內信號值通過零值的次數(shù),一定程度上說,它說明了平均信號頻率。一般語音信號由單詞構成,單詞又由元音和輔音交替的音節(jié)組成,輔音信號的過零率低,而元音信號的過零率高。語音信號開始和結束都大量集中了輔音信號,所以其開始和結束部分的過零率總會有顯著升高,利用過零率可判斷語音是否開始和結束。靜音比:表示靜音的聲音片段的比例??捎嬎銥殪o音時段的總和與音頻片段總長度之間的比值。Page77當前第77頁\共有116頁\編于星期四\22點5.3關鍵技術(音頻特征提?。┮纛l頻域特征的提取傅里葉變換可分解出音頻信號的頻率成分,可提取的音頻頻域特征有帶寬、頻譜中心、諧音、音調等。帶寬:說明了聲音的頻率范圍,音樂通常比語音信號具有更高的帶寬。頻譜中心:也稱亮度,是一個聲音頻譜能量分布的中心點。語音與音樂相比,頻譜中心較低。諧音:頻率為最低頻率的倍數(shù)的頻譜成分稱為諧音。在有諧音的聲音中,頻譜成分大部分是最低頻率的整數(shù)倍數(shù),音樂通常比其他聲音具有更多的諧音。音調:是聽覺分辨聲音高低的特性,完全由頻率決定,可通過頻譜估計。是一個主觀特征,與基本頻率有關,但不等同于基本頻率。然而,在實踐中,一般將基本頻率作為音調的近似值。Page78當前第78頁\共有116頁\編于星期四\22點5.4關鍵技術(音頻分割與識別)基于內容的音頻分割與識別基于特征閾值的分割和分類算法基于模型的音頻分割和識別算法Page79當前第79頁\共有116頁\編于星期四\22點5.4關鍵技術(音頻分割與識別)基于特征閾值的分割和分類算法

利用不同類型音頻信號轉換時某些聽覺特征會發(fā)生較大變化的現(xiàn)象,在特征發(fā)生突變的地方對音頻序列進行分割,再進行后續(xù)處理。這種方法需要預先確定不同特征之間變化的閾值,根據(jù)閾值判斷是否應該分割。

優(yōu)點:計算比較簡單

缺點:特征閾值的選取比較困難,主要依靠前人的經驗值,并且

對于不同的應用,閾值也是不確定的。Page80當前第80頁\共有116頁\編于星期四\22點5.4關鍵技術(音頻分割與識別)基于模型的音頻分割和識別算法這種方法是基于模型的,它通過訓練模型去模擬某類音頻的動態(tài)變化,然后根據(jù)這個模型的變化確定最佳的分割。這種方法要求事先給出一批帶有類別標記的訓練樣本,通過有指導的學習訓練來生成分類器,進而對測試樣本集合的待分類樣本進行測試以衡量其分類性能。目前應用比較成功的是隱馬爾可夫模型(HiddenMarkovModel:HMM)和高斯模型(GaussianModel)。

基于模型的分割分類方法具有豐實的理論基礎、簡單的實現(xiàn)機制等特點,因而為目前的大多數(shù)音頻分類系統(tǒng)所采用。Page81當前第81頁\共有116頁\編于星期四\22點基于內容的音頻索引和檢索通常采用的步驟(1)將音頻數(shù)據(jù)分類,通??煞譃檎Z音、音樂和噪聲等類型。(2)不同類型的音頻數(shù)據(jù)可以以不同的方式進行處理和索引。如,對語音可運用語音識別技術且可基于識別過的詞匯對其進行索引。(3)查詢音頻片段要同樣地進行分類、處理和索引。(4)根據(jù)查詢索引和數(shù)據(jù)中音頻索引之間的相似性,對音頻片段進行檢索。5.5關鍵技術(音頻檢索)Page82當前第82頁\共有116頁\編于星期四\22點5.5關鍵技術(音頻檢索)基于內容的音頻檢索方式基于語音技術的檢索音樂索引和檢索結構化音樂的索引和檢索

基于樣本的音樂的索引和檢索Page83當前第83頁\共有116頁\編于星期四\22點5.6關鍵技術(基于語音技術的檢索)基于語音技術的檢索

語音檢索是以語音為中心的檢索,采用語音識別等處理技術。如電臺節(jié)目、電話交談、會議錄音等?;谡Z音技術的檢索是利用語音處理技術檢索音頻信息。過去人們對語音信號處理開展了大量的研究,許多成果可以用于語音檢索。Page84當前第84頁\共有116頁\編于星期四\22點5.6關鍵技術(基于語音技術的檢索)1利用大詞匯語音識別技術進行檢索

這種方法是利用自動語音識別(ASR)技術把語音轉換為文本,從而可以采用文本檢索方法進行檢索。雖然好的連續(xù)語音識別系統(tǒng)在小心地操作下可以達到90%以上的詞語正確度,但在實際應用中,如電話和新聞產播等,識別率并不高。2基于子詞單元進行檢索當語音識別系統(tǒng)處理各方面無限制主題的大范圍語音資料時,識別性能會變差,尤其當一些專業(yè)詞匯(如人名、地點)不在系統(tǒng)詞庫中時。一種變通的方法是利用子詞(SubWord)索引單元,當執(zhí)行查詢時,用戶的查詢首先被分解為子詞單元,然后將這些單元的特征與庫中預先計算好的特征進行匹配。Page85當前第85頁\共有116頁\編于星期四\22點5.6關鍵技術(基于語音技術的檢索)3基于識別關鍵詞進行檢索在無約束的語音中自動檢測詞或短語通常稱為關鍵詞的發(fā)現(xiàn)(Spotting)。利用該技術,識別或標記出長段錄音或音軌中反映用戶感興趣的事件,這些標記就可以用于檢索。如通過捕捉體育比賽解說詞中“進球”的詞語可以標記進球的內容。4基于說話人的辨認進行分割這種技術是簡單地辨別出說話人話音的差別,而不是識別出說的是什么。它在合適的環(huán)境中可以做到非常準確。利用這種技術,可以根據(jù)說話人的變化分割錄音,并建立錄音索引。如用這種技術檢測視頻或多媒體資源的聲音軌跡中的說話人的變化,建立索引和確定某種類型的結構(如對話)。例如,分割和分析會議錄音,分割的區(qū)段對應于不同的說話人,可以方便地直接瀏覽長篇的會議資料。Page86當前第86頁\共有116頁\編于星期四\22點音樂索引和檢索音樂的類型有兩種:結構化的(或綜合的)音樂和基于樣本的音樂。5.7關鍵技術(音樂索引和檢索)Page87當前第87頁\共有116頁\編于星期四\22點5.7關鍵技術(音樂索引和檢索)結構化音樂的索引和檢索結構化音樂和聲音效果是由一系列指令或算法來表示的。最常見的結構化音樂是MIDI,它把音樂表示成大量的音符和控制指令。由于結構化音頻的簡明結構和音符描述的原因,沒有必要從音頻信號中抽取特征,因此結構化音頻更便于檢索。對于結構化音樂和聲音效果,由于兩個音符序列之間的相似性定義的困難性,基于相似性的檢索很復雜。目前一種可行的方法是基于音符序列的音調變化來檢索音樂。其基本思想是:查詢聲音和數(shù)據(jù)庫聲音文件中的每個音符(第一個音符除外)都被轉換成相對前一個音符的音調變化。音調變化有三種狀態(tài):該音符比前一音符高(U)、該音符比前一音符低(D)和該音符與前一音符相同或相似(S)。按這種規(guī)則,任意一段旋律可轉化為一個包含字母u、D、S的符號序列,檢索任務也就變成了一個字符串匹配過程。該方法是針對基于樣本的聲音檢索提出的,也同樣適用于結構化聲音檢索,根據(jù)音符音階可較容易地獲得音調變化。Page88當前第88頁\共有116頁\編于星期四\22點5.7關鍵技術(音樂索引和檢索)基于樣本的音樂的索引和檢索一是基于抽取的聲音特征集合

在這種音樂檢索方法中,對每種聲音(包括查詢)抽取聽覺特征集,將其表示成一個矢量。通過計算查詢音樂和每個存儲音樂片段相應的特征矢量之間的近似度來計算它們的相似性。二是基于音樂音符的音調該方法與基于音調的結構化音樂檢索相似。二者之間的主要區(qū)別在于基于音調的音樂檢索必須抽取或估計每個音符的音調。該方法的基本思想為:由于音樂的每個音符都是由它的音調表示的,因此一個音樂片段或部分可表示成一個序列或音調串。檢索是以查詢音樂和每個存儲音樂片段相應的音調串之間的相似性為基礎,音調跟蹤和串相似測量是檢索過程的關鍵。Page89當前第89頁\共有116頁\編于星期四\22點典型音頻系統(tǒng)介紹IBM的ViaVoice語音識別已趨于成熟劍橋大學的VMR系統(tǒng)VideoMailRetrievalUsingVoice音頻處理較出色美國Musclefish公司基于內容的音頻檢索系統(tǒng)Content-BasedRetrievalofAudio較為完整的原型系統(tǒng)對音頻的檢索和分類有較高的準確率Page90當前第90頁\共有116頁\編于星期四\22點91多媒體內容檢索與管理1多媒體數(shù)據(jù)庫2多媒體內容管理3多媒體內容檢索6基于內容視頻檢索5基于內容音頻檢索4基于內容圖像檢索當前第91頁\共有116頁\編于星期四\22點基于內容的視頻檢索基本概念基于內容的視頻檢索的基本原理關鍵技術鏡頭切割關鍵幀提取特征提取視頻索引和檢索典型的視頻系統(tǒng)簡介Page92當前第92頁\共有116頁\編于星期四\22點6.1基于內容的視頻檢索—基本概念思考:一:傳統(tǒng)的視頻檢索?存在的問題?二:基于內容的視頻檢索?Page93當前第93頁\共有116頁\編于星期四\22點6.1基于內容的視頻檢索—基本概念Page94當前第94頁\共有116頁\編于星期四\22點6.1基于內容的視頻檢索—基本概念基于內容的視頻檢索基于內容的視頻檢索(Content-BasedVideoRetrieval),根據(jù)視頻的內容和上下文關系,對大規(guī)模視頻數(shù)據(jù)庫中的視頻數(shù)據(jù)進行檢索。它在沒有人工參與的情況下,自動提取并描述視頻的特征和內容。

通過對非結構化的視頻數(shù)據(jù)進行結構化分析和處理,采用視頻分割技術,將連續(xù)的視頻流劃分為具有特定語義的視頻片段—鏡頭,作為檢索的基本單元,在此基礎上進行代表幀(representativeframe)的提取和動態(tài)特征的提取,形成描述鏡頭的特征索引鏡頭組織和特征索引,采用視頻聚類等方法研究鏡頭之間的關系,把內容相近的鏡頭組合起來,逐步縮小檢索范圍,直至查詢到所需的視頻數(shù)據(jù)視頻分割、代表幀和動態(tài)特征提取是基于內容的視頻檢索的關鍵技術。Page95當前第95頁\共有116頁\編于星期四\22點6.1基于內容的視頻檢索—基本概念基于內容的視頻檢索的特點

它區(qū)別于傳統(tǒng)的基于關鍵字的檢索手段,融合了視頻分割、關鍵幀和動態(tài)特征提取等關鍵技術,具有如下特點:Page96當前第96頁\共有116頁\編于星期四\22點6.1基于內容的視頻檢索—基本概念基本概念幀

組成視頻的最小單位,一幀可以看作一幅靜態(tài)的圖像。視頻數(shù)據(jù)流就是由連續(xù)圖像幀構成的。鏡頭

由一系列幀組成的一段視頻,是相鄰幀的短序列,它描述同一場景,表示的是一個攝像機操作、一個事件或連續(xù)的動作。例如,在新聞視頻中,每個新聞項目都對應著一個鏡頭。

鏡頭是視頻檢索的基本單位。關鍵幀

即指從視頻數(shù)據(jù)中抽取出來的、能概括鏡頭特征和內容的一些靜態(tài)圖像。場景

是一組語義上相關聯(lián)及時間上相鄰的連續(xù)鏡頭序列,是視頻信息最小的語義單位。Page97當前第97頁\共有116頁\編于星期四\22點6.2基于內容的視頻檢索—基本原理基于內容的視頻處理過程視頻首先被分割成各個鏡頭,并實現(xiàn)對各個鏡頭的特征提取,得到一個盡可能充分反映鏡頭內容的特征空間,這個特征空間將作為視頻聚類和檢索的依據(jù)。其中,特征提取包括關鍵幀中的視覺特征(靜態(tài)特征,如從顏色、紋理、形狀)和鏡頭的運動特征(動態(tài)特征)的提取。然后,根據(jù)提取的關于鏡頭的動態(tài)特性和關鍵幀的一些靜態(tài)特性,進行索引。最終,用戶可以通過一種簡單方便的方法瀏覽和檢索視頻。圖視頻數(shù)據(jù)處理流程Page98當前第98頁\共有116頁\編于星期四\22點6.2基于內容的視頻檢索—基本原理基于內容的視頻檢索系統(tǒng)由索引、查詢、檢索三大模塊組成。索引模塊中,系統(tǒng)運用鏡頭切割,關鍵幀抽取,特征提取等技術對視頻信息進行預處理,并實現(xiàn)視頻特征索引的建立;查詢模塊是實現(xiàn)人機交互的重要接口,通過該模塊用戶可以容易地實現(xiàn)互信息查詢,即用戶可以較容易地向系統(tǒng)提交自己的各項特征要求(包括視頻示例特征提取),并可根據(jù)對檢索結果的進一步特征提取實現(xiàn)較精確檢索;檢索模塊主要實現(xiàn)視頻特征索引與用戶提交的各項特征的相似度計算、特征匹配,并根據(jù)相關度進行結果排序提交。Page99當前第99頁\共有116頁\編于星期四\22點6.3關鍵技術(鏡頭切割)鏡頭切割基本概念從一個鏡頭到一個鏡頭的轉換稱為鏡頭切換。通常,鏡頭之間的切換方式主要可分為兩大類:突變和漸變。Page100當前第100頁\共有116頁\編于星期四\22點6.3關鍵技術(鏡頭切割)鏡頭切割基本思想鏡頭檢測的基本思想:對比相鄰圖像幀之間的特征,確定其是否發(fā)生較大變化。如果發(fā)生較大變化,則意味著視頻鏡頭發(fā)生轉變。目前視頻鏡頭分割技術主要根據(jù)鏡頭在發(fā)生切換時其視頻數(shù)據(jù)所反映的變化來進行。由于一個鏡頭內的相鄰幀間的變化不會很大,它們之間的特征差值總會限定在某個閾值內。在鏡頭突變時,突變點前后兩個相鄰幀通常在內容上都顯示著很大的量的變化,如果特征差值超過了給定的閾值,則意味著出現(xiàn)一個分割邊界。因此,鏡頭檢測的關鍵問題一:如何測量相鄰幀之間的差別;二:選擇合適的閾值。Page101當前第101頁\共有116頁\編于星期四\22點6.3關鍵技術(鏡頭切割)鏡頭突變檢測Page102當前第102頁\共有116頁\編于星期四\22點6.3關鍵技術(鏡頭切割)鏡頭漸變檢測

對于鏡頭的漸變切換,由于相鄰幀之間的特征差值很小,通常要比鏡頭閾值低得多,但卻又高于鏡頭內的差值,因此,很難用單個的閾值來檢測,更為復雜有效的分割方法必須被采用。

雙比較技術要求使用兩個差值閾值:閾值Tb用于檢測正常的鏡頭切變;閾值Ts則較小,用于檢測在漸變可能出現(xiàn)的地方、可能出現(xiàn)的幀。在鏡頭邊界檢測過程中,使用差值度量對相鄰的幀進行比較。Page103當前第103頁\共有116頁\編于星期四\22點6.3關鍵技術(鏡頭切割)Page104當前第104頁\共有116頁\編于星期四\22點6.3關鍵技術(鏡頭切割)閾值的確定

所謂合適的閾值,指這個閾值既能容忍單個幀較小的變化,同時又能檢測到真實的邊界。一個“嚴格”的切分閾值如果對視頻幀中的細微差別都比較敏感,就會使視頻流切分過細,可能使得在沒有鏡頭轉移的時候,視頻幀仍然被切分。這會使視頻鏡頭的切分失去意義。另一方面,如果一個切分閾值過于“寬松”,則不能檢測到視頻幀所發(fā)生的強烈特征變化,也就不能檢測到視頻鏡頭發(fā)生轉化。

通常閾值被選定為幀與幀之差的平均值加上一個小的容忍值。Page105當前第105頁\共有116頁\編于星期四\22點6.4關鍵技術(關鍵幀提?。╆P鍵幀提取關鍵幀是表達鏡頭內容的代表幀,是從視頻數(shù)據(jù)中抽取出來的、能概括鏡頭內容的靜態(tài)圖像。因此,關鍵幀的抽取是建立視頻數(shù)據(jù)索引的關鍵。Page106當前第106頁\共有116頁\編于星期四\22點6.4關鍵技術(關鍵幀提?。┌宴R頭首幀和尾幀選為關鍵幀通過對拍攝者或制作者的心理分析,研究者認為視頻信息制造者總是希望鏡頭的開始就能抓住觀眾的眼球,鏡頭的結尾能夠讓觀眾回味無窮。因此,首幀往往決定了鏡頭的主題,尾幀通常表示一種特寫。所以,選擇首幀和尾幀作為鏡頭的關鍵幀不失為一種較為簡便和有效的方法。選擇顯著變化幀作為關鍵幀一個鏡頭其幀序列的圖像特征可能變化很大,即首幀和尾幀不能概括鏡頭全部內容,需要從中抽取新的幀。這種選取方法為:將鏡頭中的每一幀與首尾幀顏色直方圖進行比較,如果它與首尾幀均存在顯著變化,將其作為關鍵幀,繼續(xù)將未比較過的幀與這三個幀比較,若三個幀均有顯著差異也作為關鍵幀。如此比較下去,直至比較完畢。Page107當前第107頁\共有116頁\編于星期四\22點6.4關鍵技術(關鍵幀提取

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論