多媒體數(shù)據(jù)庫(kù)技術(shù)_第1頁(yè)
多媒體數(shù)據(jù)庫(kù)技術(shù)_第2頁(yè)
多媒體數(shù)據(jù)庫(kù)技術(shù)_第3頁(yè)
多媒體數(shù)據(jù)庫(kù)技術(shù)_第4頁(yè)
多媒體數(shù)據(jù)庫(kù)技術(shù)_第5頁(yè)
已閱讀5頁(yè),還剩51頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

第十章

多媒體數(shù)據(jù)庫(kù)技術(shù)講授朱山立主要內(nèi)容第一節(jié)多媒體數(shù)據(jù)庫(kù)概述第二節(jié)多媒體的相關(guān)數(shù)據(jù)模型第三節(jié)多媒體數(shù)據(jù)庫(kù)管理系統(tǒng)第四節(jié)基于內(nèi)容檢索的結(jié)構(gòu)和方法第五節(jié)圖像和視頻的檢索與分析方法第六節(jié)分布式多媒體數(shù)據(jù)庫(kù)系統(tǒng)第一節(jié)多媒體數(shù)據(jù)庫(kù)概述多媒體數(shù)據(jù)庫(kù)MDB(MultimediaDataBase)是對(duì)多媒體數(shù)據(jù)進(jìn)行統(tǒng)一存儲(chǔ)管理、操縱與控制的數(shù)據(jù)庫(kù),多媒體數(shù)據(jù)庫(kù)技術(shù)是研究多媒體數(shù)據(jù)庫(kù)的數(shù)據(jù)模型、MDB管理系統(tǒng)、MDB體系結(jié)構(gòu)、MDB查詢與檢索、MDB系統(tǒng)及其應(yīng)用等多學(xué)科交叉的高級(jí)數(shù)據(jù)庫(kù)技術(shù)。武P167數(shù)據(jù)模型是核心及基礎(chǔ),數(shù)據(jù)模型的好壞直接關(guān)系到數(shù)據(jù)庫(kù)系統(tǒng)的性能,傳統(tǒng)數(shù)據(jù)庫(kù)技術(shù)已經(jīng)非常成功,但不適應(yīng)多媒體數(shù)據(jù)的需求。引入數(shù)據(jù)模型是為在數(shù)據(jù)庫(kù)中,抽象表示及處理現(xiàn)實(shí)世界中的信息。10.1.1數(shù)據(jù)庫(kù)數(shù)據(jù)模型P167數(shù)據(jù)模型可分為兩類(lèi)1、概念模型(信息模型)按用戶的觀點(diǎn)對(duì)數(shù)據(jù)和信息建模,主要用于數(shù)據(jù)庫(kù)的設(shè)計(jì)。2、數(shù)據(jù)模型按計(jì)算機(jī)系統(tǒng)的觀點(diǎn)對(duì)數(shù)據(jù)建模,主要用于數(shù)據(jù)庫(kù)管理系統(tǒng)DBMS的實(shí)現(xiàn)。主要的數(shù)據(jù)模型有10.1.1數(shù)據(jù)庫(kù)數(shù)據(jù)模型P167網(wǎng)狀模型、層次模型和關(guān)系模型。數(shù)據(jù)建模過(guò)程是將現(xiàn)實(shí)世界轉(zhuǎn)化為機(jī)器世界的過(guò)程10.1.1數(shù)據(jù)庫(kù)數(shù)據(jù)模型P168現(xiàn)實(shí)世界認(rèn)識(shí)抽象信息世界概念模型機(jī)器世界數(shù)據(jù)模型轉(zhuǎn)換概念模型是現(xiàn)實(shí)世界事物在信息世界的反映

組成要素:實(shí)體客觀存在并相互區(qū)分的事物屬性一個(gè)實(shí)體可以由多個(gè)屬性描述聯(lián)系事物之間的聯(lián)系,有三種(1︰1)(1︰n)(m︰n)實(shí)體型用實(shí)體名及屬性名集合描述和抽象同類(lèi)實(shí)體。實(shí)體集同類(lèi)型實(shí)體的集合碼(Key)唯一標(biāo)識(shí)實(shí)體的屬性集合(如ID號(hào))域(Domain)屬性的取值范圍10.1.1數(shù)據(jù)庫(kù)數(shù)據(jù)模型P168概念模型常用E-R圖描述10.1.1數(shù)據(jù)庫(kù)數(shù)據(jù)模型數(shù)據(jù)模型組成要素?cái)?shù)據(jù)結(jié)構(gòu)數(shù)據(jù)操作完整性約束10.1.1數(shù)據(jù)庫(kù)數(shù)據(jù)模型P169數(shù)據(jù)結(jié)構(gòu)是研究對(duì)象類(lèi)型的集合,對(duì)象可分為兩類(lèi):一是與數(shù)據(jù)類(lèi)型、內(nèi)容、性質(zhì)有關(guān)的對(duì)象二是與數(shù)據(jù)之間聯(lián)系的對(duì)象

數(shù)據(jù)結(jié)構(gòu)描述一個(gè)數(shù)據(jù)模型性質(zhì)最重要的方面,一般按數(shù)據(jù)結(jié)構(gòu)的類(lèi)型來(lái)命名數(shù)據(jù)模型。是對(duì)數(shù)據(jù)庫(kù)的靜態(tài)描述數(shù)據(jù)模型組成要素?cái)?shù)據(jù)結(jié)構(gòu)數(shù)據(jù)操作完整性約束10.1.1數(shù)據(jù)庫(kù)數(shù)據(jù)模型P169數(shù)據(jù)操作是指數(shù)據(jù)為中對(duì)各種對(duì)象的取值執(zhí)行的操作的集合(包括操作及相關(guān)的規(guī)則)。主要操作有插入、刪除、修改、檢索等。數(shù)據(jù)操作是對(duì)數(shù)據(jù)庫(kù)的靜態(tài)描述數(shù)據(jù)模型組成要素?cái)?shù)據(jù)結(jié)構(gòu)數(shù)據(jù)操作完整性約束P169數(shù)據(jù)的約束條件是一組完整性規(guī)則的集合。完整性規(guī)則是給定的模型中數(shù)據(jù)及聯(lián)系所具有的制約和依存規(guī)則,是保證數(shù)據(jù)的正確、有效和相容。10.1.1數(shù)據(jù)庫(kù)數(shù)據(jù)模型字符數(shù)據(jù)文本數(shù)據(jù)聲音數(shù)據(jù)圖形數(shù)據(jù)圖像數(shù)據(jù)視頻數(shù)據(jù)武P17010.1.2多媒體數(shù)據(jù)庫(kù)數(shù)據(jù)類(lèi)型多媒體數(shù)據(jù)庫(kù)數(shù)據(jù)類(lèi)型有哪些?多媒體數(shù)據(jù)模型概述傳統(tǒng)數(shù)據(jù)庫(kù)模型只對(duì)數(shù)據(jù)本身的信息內(nèi)容進(jìn)行建模。多媒體數(shù)據(jù)的主要任務(wù):能表示不同媒體數(shù)據(jù)的構(gòu)造及屬性特征;能指出不同媒體數(shù)據(jù)之間的關(guān)系,包括相互間的信息語(yǔ)義關(guān)系,媒體特性之間的關(guān)系,如時(shí)空特性關(guān)系。多媒體數(shù)據(jù)系統(tǒng)要對(duì)數(shù)據(jù)進(jìn)行時(shí)空建模,還有表現(xiàn)建模。P17010.1.3多媒體數(shù)據(jù)庫(kù)層次描述表現(xiàn)是多媒體的合成再現(xiàn),加工再現(xiàn),創(chuàng)作再現(xiàn)。既要表達(dá)應(yīng)用的語(yǔ)義,也要表現(xiàn)時(shí)空關(guān)系。多媒體數(shù)據(jù)庫(kù)的層次傳統(tǒng)數(shù)據(jù)庫(kù)系統(tǒng)分為三個(gè)層次。多媒體數(shù)據(jù)庫(kù)的分層結(jié)構(gòu)有很多研究,如對(duì)傳統(tǒng)數(shù)據(jù)庫(kù)的擴(kuò)展、對(duì)面向?qū)ο髷?shù)據(jù)庫(kù)的擴(kuò)展、超媒體層次擴(kuò)展等。但思想相近。多媒體數(shù)據(jù)庫(kù)的四層結(jié)構(gòu):武P17110.1.3多媒體數(shù)據(jù)庫(kù)層次描述媒體支持層媒體數(shù)據(jù)模式層多媒體概念模式層多媒體用戶接口層用戶第二節(jié)多媒體的相關(guān)數(shù)據(jù)模型超媒體數(shù)據(jù)模型來(lái)源于超文本數(shù)據(jù)模型。節(jié)點(diǎn)有圖形、圖像、視頻、音頻、動(dòng)畫(huà);鏈要表現(xiàn)語(yǔ)義關(guān)系,也要表現(xiàn)時(shí)空關(guān)系。超媒體信息網(wǎng)絡(luò)超媒體節(jié)點(diǎn)多媒體數(shù)據(jù)元10.2.1超媒體數(shù)據(jù)模型超媒體信息網(wǎng)絡(luò)超媒體節(jié)點(diǎn)多媒體數(shù)據(jù)元內(nèi)容表現(xiàn)關(guān)系數(shù)據(jù)庫(kù)RDB是以關(guān)系模型為基礎(chǔ)的,利用關(guān)系描述世界。關(guān)系就是一張二維表,行稱為元組,列是屬性。傳統(tǒng)的關(guān)系數(shù)據(jù)庫(kù)是第一范式的(1NF),表中不能有表。多媒體數(shù)據(jù)庫(kù)要求表中有表,才夠用,即NF2方法。這種數(shù)據(jù)庫(kù)稱為擴(kuò)展關(guān)系數(shù)據(jù)庫(kù)E-RDB。主要的擴(kuò)展是引進(jìn)抽象數(shù)據(jù)的表示方法,能夠定義和表示多媒體數(shù)據(jù),并可用擴(kuò)展的SQL語(yǔ)言定義和操縱多媒體數(shù)據(jù)對(duì)象。武P17310.2.2

NF2數(shù)據(jù)模型缺點(diǎn)是什么?面向?qū)ο蟮幕靖拍睿ㄒ?jiàn)書(shū))。參考面向?qū)ο蟮幕靖拍罴疤卣?new_wlkj/mis/chapter8/8th1th1.htmOODM語(yǔ)義關(guān)聯(lián)的描述媒體(實(shí)體)之間的關(guān)聯(lián)有:聚集關(guān)聯(lián)概括關(guān)聯(lián)E-R關(guān)聯(lián)示例關(guān)聯(lián)規(guī)則關(guān)聯(lián)與方法關(guān)聯(lián)武P17410.2.3面向?qū)ο蟮臄?shù)據(jù)模型3.面向?qū)ο竽P蛿?shù)據(jù)運(yùn)算體系定義了三種數(shù)據(jù)操縱:定義操作查詢操作操縱運(yùn)算P17510.2.3面向?qū)ο蟮臄?shù)據(jù)模型定義主要包括類(lèi)的創(chuàng)建、對(duì)象的創(chuàng)建。類(lèi)的創(chuàng)建主要有:類(lèi)標(biāo)識(shí)、一組相關(guān)屬性、一組完整性約束條件、一組操作方法和超類(lèi)集合。3.面向?qū)ο竽P蛿?shù)據(jù)運(yùn)算體系定義了三種數(shù)據(jù)操縱:定義操作查詢操作操縱運(yùn)算P17510.2.3面向?qū)ο蟮臄?shù)據(jù)模型查詢是數(shù)據(jù)庫(kù)的基本操作方法。主要有:通過(guò)類(lèi)名稱查詢類(lèi)結(jié)構(gòu);通過(guò)對(duì)象名稱或標(biāo)識(shí)查詢對(duì)象的屬性值;通過(guò)類(lèi)名稱查詢對(duì)象及對(duì)象屬性;基于內(nèi)容的檢索。3.面向?qū)ο竽P蛿?shù)據(jù)運(yùn)算體系定義了三種數(shù)據(jù)操縱:定義操作查詢操作操縱運(yùn)算P17510.2.3面向?qū)ο蟮臄?shù)據(jù)模型操縱運(yùn)算主要有:插入、刪除、修改4.面向?qū)ο髷?shù)據(jù)模型的特點(diǎn)聚集層次方法管理模型容易擴(kuò)展版本控制快速查詢面向?qū)ο髷?shù)據(jù)模型對(duì)多媒體數(shù)據(jù)的管理有明顯的優(yōu)點(diǎn)。P17610.2.3面向?qū)ο蟮臄?shù)據(jù)模型繼承性能夠‥‥封裝性能夠‥‥對(duì)方法的管理‥‥對(duì)象類(lèi)與實(shí)例的概念有效地‥‥超文本模型是從上層“應(yīng)用級(jí)”入手研究上層組織信息元模型是從中層入手,用“信息元”的概念來(lái)研究中層組織。目的是制定一個(gè)標(biāo)準(zhǔn),使“信息元”公共化、通用化,成為上層各類(lèi)應(yīng)用都能調(diào)用的信息元,方便多媒體數(shù)據(jù)的交互和通信。多媒體信息元自上而下看:是信息子塊。自下而上看:是超數(shù)據(jù)元。P17610.2.4信息元數(shù)據(jù)模型多媒體信息元應(yīng)具有三個(gè)基本特性。數(shù)據(jù)的組織附加其表現(xiàn)屬性,是基本對(duì)象的內(nèi)容與表現(xiàn)及單媒體的表現(xiàn)。多個(gè)數(shù)據(jù)元的時(shí)空同步描述,是復(fù)合對(duì)象的同步及多媒體的同步。成分之間的鏈接描述是基本的鏈接功能。多媒體信息元與面向?qū)ο蠹夹g(shù)有密切關(guān)系,面向?qū)ο蟮姆庋b、繼承、聚合等特點(diǎn),都適合復(fù)雜的多媒體數(shù)據(jù)和信息,提供了強(qiáng)有力的抽象機(jī)制。多媒體信息元模型利用了面向?qū)ο蟮姆椒āN銹17610.2.4信息元數(shù)據(jù)模型多媒體和超媒體信息編碼專家組MHEG標(biāo)準(zhǔn)超文本信息元標(biāo)準(zhǔn),是為了在不同領(lǐng)域里開(kāi)發(fā)多媒體和超媒體應(yīng)用,定義的公共基礎(chǔ)框架。

MHEG標(biāo)準(zhǔn)分兩個(gè)部分:一是概念原理性的定義,主要包括多媒體和超媒體MH對(duì)象編碼原理和系統(tǒng)要求。二是表示超媒體信息對(duì)象及MHEG鏈。超媒體MH對(duì)象分為6類(lèi):輸出內(nèi)容對(duì)象一般輸入對(duì)象投射器對(duì)象武P17710.2.4信息元數(shù)據(jù)模型基本對(duì)象合成對(duì)象條件和動(dòng)作第三節(jié)多媒體數(shù)據(jù)庫(kù)管理系統(tǒng)多媒體數(shù)據(jù)庫(kù)MDMS的功能除了數(shù)據(jù)庫(kù)管理系統(tǒng)的主要任務(wù)(存儲(chǔ)和處理信息)外,還有以下特性:滿足多媒體數(shù)據(jù)的獨(dú)立性:保持各種媒體的獨(dú)立性與透明性信息重組織:應(yīng)支持符合媒體在各通道分離后存入數(shù)據(jù)庫(kù)。例如,將Vedio分解為影像、配音等信息,把這些信息分別存儲(chǔ)到數(shù)據(jù)庫(kù)中,必要時(shí)各種分離的信息可能會(huì)重新組織后輸出。長(zhǎng)事務(wù):在MDBMS中,長(zhǎng)事務(wù)的運(yùn)行意味著在一個(gè)可靠的方式下花費(fèi)大量的時(shí)間傳輸大容量的數(shù)據(jù)。檢索一場(chǎng)電影就是長(zhǎng)事務(wù)的典型例子。武P182數(shù)據(jù)實(shí)時(shí)傳輸:連續(xù)數(shù)據(jù)的讀和寫(xiě)操作必須實(shí)時(shí)完成,連續(xù)數(shù)據(jù)的傳輸應(yīng)優(yōu)先于其他數(shù)據(jù)庫(kù)的管理行為。

干預(yù)系統(tǒng)資源的調(diào)度:常見(jiàn)的數(shù)據(jù)庫(kù)管理系統(tǒng)不干預(yù)操作系統(tǒng)的工作,但在多媒體數(shù)據(jù)庫(kù)管理系統(tǒng)中,信息處理有大數(shù)據(jù)量、長(zhǎng)事務(wù)等方面的特性,所以要參與操作系統(tǒng)相關(guān)資源的調(diào)度。BLOB類(lèi)型的結(jié)構(gòu)化問(wèn)題:BLOB是數(shù)據(jù)庫(kù)系統(tǒng)的多媒體信息存儲(chǔ)類(lèi)型。但BLOB本身不支持結(jié)構(gòu)化,應(yīng)對(duì)BLOB進(jìn)行結(jié)構(gòu)化處理。描述性的搜索方法:多媒體數(shù)據(jù)的查詢應(yīng)基于一個(gè)描述性的、面向?qū)ο蟮牟樵兏袷健_@種搜索方法與所有媒體都相關(guān),包括視頻和音頻。10.3.1多媒體數(shù)據(jù)庫(kù)的功能P182多媒體數(shù)據(jù)帶來(lái)的管理問(wèn)題:數(shù)據(jù)量巨大且媒體之間的差異也極大。媒體的種類(lèi)增多,要求能擴(kuò)充新的媒體類(lèi)型。數(shù)據(jù)庫(kù)的多解查詢。用戶接口的支持,要有瀏覽,查詢,表現(xiàn)的新方法。多媒體信息的分布帶來(lái)了巨大的影響。服務(wù)質(zhì)量要根據(jù)系統(tǒng)的運(yùn)行情況進(jìn)行控制。版本控制問(wèn)題。10.3.2多媒體數(shù)據(jù)庫(kù)的管理問(wèn)題武P1831、松散型(協(xié)作型)結(jié)構(gòu)

針對(duì)各種媒體單獨(dú)建立數(shù)據(jù)庫(kù),每一種媒體的數(shù)據(jù)庫(kù)都有自己獨(dú)立的數(shù)據(jù)庫(kù)管理系統(tǒng)。雖然他們是相互獨(dú)立的,但是可以通過(guò)相互通信進(jìn)行協(xié)調(diào)和執(zhí)行相應(yīng)的操作。特點(diǎn):對(duì)多媒體數(shù)據(jù)庫(kù)的管理是分開(kāi)進(jìn)行的,可以利用現(xiàn)在地研究成果直接進(jìn)行“組裝”,每一種媒體數(shù)據(jù)庫(kù)的設(shè)計(jì)也不用考慮與其他媒體的區(qū)別和協(xié)調(diào)。

缺點(diǎn):對(duì)不同類(lèi)型媒體的聯(lián)合操作實(shí)際上是交給用戶去完成了。使得對(duì)多種媒體的聯(lián)合操作、合成處理、概念查詢等較難完成。10.3.3多媒體數(shù)據(jù)庫(kù)的體系結(jié)構(gòu)武P18610.3.3多媒體數(shù)據(jù)庫(kù)的體系結(jié)構(gòu)P1862、集中型結(jié)構(gòu)

只存在一個(gè)單一的多媒體數(shù)據(jù)庫(kù)和單一的多媒體數(shù)據(jù)庫(kù)管理系統(tǒng)。各種媒體被統(tǒng)一建模,對(duì)這種媒體的管理與操縱被集中到一個(gè)數(shù)據(jù)庫(kù)管理系統(tǒng)中,各種用戶的需求被統(tǒng)一到一個(gè)多媒體用戶接口上。優(yōu)點(diǎn):建模統(tǒng)一、管理/操作統(tǒng)一、用戶接口統(tǒng)一、查詢和檢索結(jié)果統(tǒng)一表示。理論上,能夠充分地做到對(duì)多媒體數(shù)據(jù)進(jìn)行有效的管理和使用。但實(shí)際上這種多媒體數(shù)據(jù)庫(kù)系統(tǒng)是很難實(shí)現(xiàn)的。

10.3.3多媒體數(shù)據(jù)庫(kù)的體系結(jié)構(gòu)P1863、客戶/服務(wù)器型結(jié)構(gòu)

減少集中統(tǒng)一型多媒體數(shù)據(jù)庫(kù)系統(tǒng)復(fù)雜性的一個(gè)很有效的辦法是采用主從結(jié)構(gòu)。

不同數(shù)據(jù)類(lèi)型的媒體數(shù)據(jù)仍然相互獨(dú)立,系統(tǒng)將每一種媒體的管理與操縱各用一個(gè)服務(wù)器來(lái)實(shí)現(xiàn)。

所有服務(wù)器的綜合和操縱也用一個(gè)服務(wù)器來(lái)完成。與用戶的接口采用客戶進(jìn)程來(lái)實(shí)現(xiàn)。優(yōu)點(diǎn):可以針對(duì)不同的需求采用不同的服務(wù)器、客戶進(jìn)程組合,所以很容易符合應(yīng)用的需求,對(duì)每一種媒體也可以采用與這種媒體相符合的處理辦法。缺點(diǎn):但采用這種體系結(jié)構(gòu)必須對(duì)服務(wù)器和客戶進(jìn)行仔細(xì)的規(guī)劃和統(tǒng)一考慮,采用標(biāo)準(zhǔn)化和開(kāi)放的接口界面。

10.3.3多媒體數(shù)據(jù)庫(kù)的體系結(jié)構(gòu)P18710.3.3多媒體數(shù)據(jù)庫(kù)的體系結(jié)構(gòu)P1864、超媒體型結(jié)構(gòu)這種多媒體數(shù)據(jù)庫(kù)體系結(jié)構(gòu),強(qiáng)調(diào)對(duì)數(shù)據(jù)時(shí)空索引的組織。在這種結(jié)構(gòu)的理論下,世界上所有計(jì)算機(jī)中的信息和其他系統(tǒng)中的信息都應(yīng)該連接在一起,而且信息也要能夠隨意擴(kuò)展和訪問(wèn)。數(shù)據(jù)庫(kù)分散到網(wǎng)絡(luò)上,形成信息空間,只要設(shè)計(jì)好訪問(wèn)工具就能訪問(wèn)和使用這個(gè)信息空間。10.3.3多媒體數(shù)據(jù)庫(kù)的體系結(jié)構(gòu)P188第四節(jié)基于內(nèi)容檢索的結(jié)構(gòu)和方法基于內(nèi)容的檢索CBR,是根據(jù)媒體和媒體對(duì)象的內(nèi)容語(yǔ)義及上下文語(yǔ)義環(huán)境進(jìn)行檢索,如圖像中顏色、紋理、形狀,視頻中的鏡頭、場(chǎng)景、運(yùn)動(dòng)等。利用內(nèi)容特征建立索引并進(jìn)行檢索。多媒體數(shù)據(jù)庫(kù)基于內(nèi)容的檢索特點(diǎn):基于內(nèi)容的檢索是一種近似的匹配:一般來(lái)說(shuō),在檢索的過(guò)程中,采用逐步求精的辦法,每一層的中間結(jié)果是一個(gè)集合,不斷減少集合的范圍,知道定位目標(biāo),這一點(diǎn)與數(shù)據(jù)庫(kù)檢索的精確匹配算法有明顯的不同。從媒體內(nèi)容中提取信息線索:力圖突破傳統(tǒng)的基于關(guān)鍵字檢索的局限,直接對(duì)圖像、視頻、音頻進(jìn)行分析、抽取特征,使得檢索更加接近媒體對(duì)象。滿足用戶多層次的檢索要求:CBR檢索系統(tǒng)通常由媒體庫(kù)、特征庫(kù)和知識(shí)庫(kù)組成。大型數(shù)據(jù)庫(kù)的快速檢索。10.4.1基于內(nèi)容的檢索武P188基于內(nèi)容的檢索中常用的幾種媒體特征如下:

(1)音頻:常利用的音頻特征包括基音、共振峰等音頻底層特征,以及聲紋、關(guān)鍵詞等高層次的特征。

(2)靜態(tài)圖像:其底層特征包括顏色直方圖、紋理、輪廓;高層次特征包括人臉部特征、表情特征、物體(或零件)和景物特征。

(3)視頻:視頻包含的信息最豐富最復(fù)雜,其底層特征包括鏡頭切換類(lèi)型、特技效果、攝像機(jī)運(yùn)動(dòng)、物體運(yùn)動(dòng)軌跡、代表幀、全景圖等;高層特征包括描述鏡頭內(nèi)容的事件等。

(4)文本:關(guān)鍵字。

(5)圖形:由一定空間關(guān)系的幾何體構(gòu)成。幾何體的各種形狀特征、周長(zhǎng)、面積、位置、幾何體空間關(guān)系的類(lèi)型等,被選為圖形內(nèi)容屬性。10.4.1基于內(nèi)容的檢索10.4.2

CBR系統(tǒng)結(jié)構(gòu)和檢索過(guò)程

各個(gè)模塊的主要功能

1、對(duì)象注釋:為用戶提供一種工具,以全自動(dòng)或半自動(dòng)(需要用戶干預(yù))的方式標(biāo)識(shí)圖像、視頻鏡頭等媒體中感興趣的區(qū)域,以及視頻序列中的動(dòng)態(tài)目標(biāo),以便針對(duì)目標(biāo)進(jìn)行特征提取并查詢。

2、特征提?。簩?duì)多媒體數(shù)據(jù)進(jìn)行特征提取,提取用戶感興趣的,適合檢索要求的特征,兩種類(lèi)型的特征提?。喝中缘模喝缯鶊D像和視頻鏡頭。針對(duì)某個(gè)目標(biāo):如圖像中的人,視頻中的運(yùn)動(dòng)對(duì)象等。

3、數(shù)據(jù)庫(kù):生成的數(shù)據(jù)庫(kù)由媒體庫(kù)、特征庫(kù)和知識(shí)庫(kù)組成,媒體庫(kù)包含多媒體數(shù)據(jù),特征庫(kù)包含用戶輸入的特征和視頻處理自動(dòng)提取得內(nèi)容特征,知識(shí)庫(kù)中存放知識(shí)表達(dá)(人工智能領(lǐng)域,專家系統(tǒng)等經(jīng)常會(huì)用到的概念),知識(shí)表達(dá)可以更換,以適用于不同的應(yīng)用領(lǐng)域。

10.4.2

CBR系統(tǒng)結(jié)構(gòu)和檢索過(guò)程

武P189各個(gè)模塊的主要功能

4、查詢接口:友好的人機(jī)界面是一個(gè)成功檢索系統(tǒng)不可缺少的條件,它可以大大提高檢索的效率。一般來(lái)說(shuō),有3種方式,操縱交互輸入方法,模板選擇輸入方式,用戶提交特征樣本的輸入方式,同時(shí)應(yīng)支持多種方式的組合。

5、檢索引擎:檢索是利用特征之間的距離函數(shù)來(lái)進(jìn)行相似性檢索。模仿人類(lèi)的認(rèn)知過(guò)程,對(duì)不同類(lèi)型的媒體數(shù)據(jù)有各自不同的相似性測(cè)度算法.檢索引擎中包括一個(gè)較為有效可靠的相似性測(cè)量函數(shù)集。6、索引/過(guò)濾器:檢索引擎通過(guò)索引/過(guò)濾模塊達(dá)到快速搜索的目的。10.4.2

CBR系統(tǒng)結(jié)構(gòu)和檢索過(guò)程

武P18910.4.2

CBR系統(tǒng)結(jié)構(gòu)和檢索過(guò)程

基于內(nèi)容檢索過(guò)程

第五節(jié)圖像和視頻的檢索與分析方法10.5.1基于顏色直方圖檢索

顏色直方圖就是記錄一副圖中各種顏色像素點(diǎn)數(shù)量的比例圖。若一副圖像的顏色(灰度)有N級(jí),具有每種顏色的像素?cái)?shù)為h1,h2,…,hN,這組像素統(tǒng)計(jì)值稱為圖像的顏色直方圖。它反映了圖像關(guān)于顏色的數(shù)量特征,但失去了顏色的位置特性。P190顏色直方圖檢索方法:

(1)指明顏色的構(gòu)成。

如查詢"約35%紅色,45%藍(lán)色的圖像",實(shí)際上限定了紅色和藍(lán)色在直方圖的比例,系統(tǒng)將查詢轉(zhuǎn)換為對(duì)顏色直方圖的匹配模式。查詢中獲得的結(jié)果圖像顏色分布是符合模式的圖像,盡管查到的大多數(shù)不是所要的圖像,但縮小了查詢空間。

(2)指明一幅圖像

從而也得到它的顏色直方圖,然后用該顏色直方圖與數(shù)據(jù)庫(kù)中的圖像顏色直方圖進(jìn)行匹配,最后確定所要找的圖像集合。

(3)指明圖像的一塊子圖

它可能是圖像分割后的一塊子區(qū)域,或利用對(duì)象輪廓法確定的一個(gè)對(duì)象。利用這個(gè)子圖確定相應(yīng)的顏色直亦圖,再?gòu)臄?shù)據(jù)庫(kù)中確定具有相似圖像顏色特征的目標(biāo)圖像集合。10.5.1基于顏色直方圖檢索

武P191

基于輪廓的檢索是用戶通過(guò)勾勒?qǐng)D像的大致輪廓,從數(shù)據(jù)庫(kù)中檢索出輪廓相似的圖像。其中,取圖像的輪廓線是一個(gè)困難的事情,較好的方法是采用圖像自動(dòng)分割的方法結(jié)合識(shí)別目標(biāo)的前景和背景模型來(lái)得到比較精確的輪廓。對(duì)輪廓進(jìn)行檢索的過(guò)程是交互完成的。首先,對(duì)圖像的輪廓進(jìn)行提取,并計(jì)算輪廓特征,存于特征庫(kù)中。檢索時(shí),通過(guò)計(jì)算用戶手繪輪廓的特征與特征庫(kù)的輪廓特征的相似度來(lái)決定匹配程度。輪廓特征也可結(jié)合顏色特征檢索。10.5.2基于骨架或輪廓的檢索武P192紋理是通過(guò)色彩或明暗度的變化體現(xiàn)出來(lái)的圖像表面細(xì)節(jié)(圖像局部不規(guī)則而宏觀有規(guī)律的特性)。其特征包括粗糙性、方向性、對(duì)比度等。紋理的分析方法主要有統(tǒng)計(jì)法和結(jié)構(gòu)法統(tǒng)計(jì)法用于分析像木紋、沙地、草坪等細(xì)密而規(guī)則的對(duì)象,并根據(jù)像素間灰度的統(tǒng)計(jì)性質(zhì)對(duì)紋理規(guī)定出特征,以及特征與參數(shù)的關(guān)系。結(jié)構(gòu)法適于像布紋圖案、磚墻表面等排列規(guī)則對(duì)象的紋理,可根據(jù)紋理基元及其排列規(guī)則描述紋理的結(jié)構(gòu)和特征,以及特征與參數(shù)的關(guān)系。基于紋理的檢索往往采用示例法QBE:

檢索時(shí)首先將一些大致的圖像紋理以小圖像形式全部呈現(xiàn)給用戶,一旦用戶選中其中某個(gè)和查詢要求最接近的紋理形式,則以查詢表的形式讓用戶適當(dāng)調(diào)整紋理特征,并逐步返回越來(lái)越精確的結(jié)果。10.5.3基于紋理的檢索武P193視頻媒體的組成

·視頻數(shù)據(jù)是連續(xù)的圖像序列(幀)。

·一個(gè)故事的視頻序列主要由鏡頭(shot)組成,每個(gè)鏡頭的內(nèi)容發(fā)生在一個(gè)場(chǎng)景中。

·

一個(gè)場(chǎng)景可分散在多個(gè)鏡頭中。鏡頭的切換點(diǎn)視頻序列中兩個(gè)不同鏡頭的分隔和銜接。

·

切換的方法主要有直接切換和漸變切換。

·

在拍攝時(shí)根據(jù)劇情的需要,可采用多種鏡頭的運(yùn)動(dòng)方式對(duì)鏡頭進(jìn)行處理,包括推拉(zooming)、搖移(panning)、跟蹤(tracking)等鏡頭運(yùn)、動(dòng)方式。10.5.4視頻檢索常用關(guān)鍵技術(shù)P194

關(guān)鍵幀用來(lái)標(biāo)識(shí)場(chǎng)景、故事的語(yǔ)義單元,比幀高級(jí)一些的基本單元是鏡頭。典型的關(guān)鍵幀抽取算法可分為5類(lèi),基于鏡頭的方法、基于內(nèi)容分析的方法、基于運(yùn)動(dòng)分析的方法、基于鏡頭活動(dòng)性的方法、基于聚類(lèi)的方法?;阽R頭的方法是為每個(gè)鏡頭選取一個(gè)關(guān)鍵幀(如第一幀)基于內(nèi)容分析的方法是通過(guò)分析視頻的內(nèi)容(顏色直方圖、運(yùn)動(dòng)信息)隨時(shí)間的變化情況選取關(guān)鍵幀的數(shù)目?;谶\(yùn)動(dòng)分析的方法選擇關(guān)鍵幀認(rèn)為運(yùn)動(dòng)鏡頭停留時(shí)意味著存在重要的人物或事件。10.5.4視頻檢索常用關(guān)鍵技術(shù)P194鏡頭分割:鏡頭分割主要根據(jù)鏡頭圖像的差別。

·直方圖比較是一種簡(jiǎn)單的鏡頭分割方法。同一鏡頭中的兩幅相鄰圖像特征相差不多,如果發(fā)生鏡頭轉(zhuǎn)換,直方圖的差值會(huì)很明顯,這樣我們就可基于一個(gè)設(shè)定的閥值來(lái)判斷鏡頭是否切換。

·但對(duì)于漸變的圖像切換來(lái)說(shuō),直方圖的差值不很明顯,我們可采用雙重比較法來(lái)解決這個(gè)問(wèn)題。即采用兩個(gè)閥值。

·第一個(gè)較低閥值來(lái)確定出潛在漸變切換的起始幀,確定這個(gè)幀后,將它與后續(xù)幀進(jìn)行比較,得到的差值來(lái)取代幀間的差值,這個(gè)差值必須是單調(diào)的不斷增加,直到這個(gè)單調(diào)過(guò)程為止。

這時(shí),這個(gè)差值與第二個(gè)較大的閥值比較,若超過(guò)這個(gè)閥值,就可認(rèn)為這個(gè)不斷比較差值單調(diào)增的視頻序列對(duì)應(yīng)的就是一個(gè)漸變切換點(diǎn)。

·

其他的鏡頭切換點(diǎn)識(shí)別方法包括識(shí)別淡入淡出的明暗度識(shí)別法,識(shí)別空間操作的空間編輯識(shí)別算法等。P19410.5.4視頻檢索常用關(guān)鍵技術(shù)視頻結(jié)構(gòu)重構(gòu) 將語(yǔ)義相關(guān)的鏡頭聚類(lèi)到一起。

故事情節(jié)是比鏡頭更高抽象的結(jié)構(gòu),不同研究者給出了不同的名稱,如視頻段落、故事單元。情節(jié)更符合人們的理解方式。P19410.5.4視頻檢索常用關(guān)鍵技術(shù)MPEG-7“多媒體內(nèi)容描述接口”(multimediacontentdescriptioninterface)。

其目標(biāo)就是產(chǎn)生一種描述多媒體信息的標(biāo)準(zhǔn),并將該描述與所描述的內(nèi)容相聯(lián)系,以實(shí)現(xiàn)快速有效的檢索。只有首先解決了多媒體信息的規(guī)范化描述后,才能更好地實(shí)現(xiàn)信息定位。該標(biāo)準(zhǔn)不包括對(duì)描述特征的自動(dòng)提取。

MPEG-7標(biāo)準(zhǔn)可以獨(dú)立于其他MPEG標(biāo)準(zhǔn)使用,但MPEG4中所定義的音頻、視頻對(duì)象的描述適用于MPEG7。MPEG-7的適用范圍廣泛,既可以應(yīng)用于存儲(chǔ),也可以用于流式應(yīng)用,它還可以在實(shí)時(shí)或非實(shí)時(shí)的環(huán)境下應(yīng)用。10.5.5

MPEG-7P195MPEG-7的相關(guān)概念

特征:指數(shù)據(jù)的特性。特征本身不能比較,而要用有意義的特征表示(描述子)和它的實(shí)例(描述值)。如圖像的顏色、語(yǔ)音的聲調(diào)、音頻的旋律等。

描述子

(descriptor,D)是特征的表示。它定義特征表示的句法和語(yǔ)義,可以賦予描述值。一個(gè)特征可能有多個(gè)描述子,如顏色特征可能的描述子有:顏色直方圖、頻率分量的平均值、運(yùn)動(dòng)的場(chǎng)描述、標(biāo)題文本等。

描述值是描述子的實(shí)例。描述值與描述模式結(jié)合,形成描述。

描述模式

(descriptionscheme,DS)說(shuō)明其成員之間的關(guān)系結(jié)構(gòu)和語(yǔ)義。成員可以是描述子和描述模式。描述模式和描述子的區(qū)別是:描述子僅僅包含基本的數(shù)據(jù)類(lèi)型,不引用其他描述子或描述模式。如對(duì)于影片,按時(shí)間結(jié)構(gòu)化為場(chǎng)景和鏡頭,在場(chǎng)景級(jí)包括一些文本描述子,在鏡頭級(jí)包含顏色、運(yùn)動(dòng)和一些音頻描述子。

描述由一個(gè)描述模式和一組描述值組成。

編碼的描述是對(duì)已完成編碼的描述,滿足諸如壓縮效率、差錯(cuò)恢

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論