媒資管理07-多媒體數(shù)據(jù)庫技術(shù)_第1頁
媒資管理07-多媒體數(shù)據(jù)庫技術(shù)_第2頁
媒資管理07-多媒體數(shù)據(jù)庫技術(shù)_第3頁
媒資管理07-多媒體數(shù)據(jù)庫技術(shù)_第4頁
媒資管理07-多媒體數(shù)據(jù)庫技術(shù)_第5頁
已閱讀5頁,還剩101頁未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

第7章:多媒體數(shù)據(jù)庫技術(shù)第7章多媒體數(shù)據(jù)庫技術(shù)多媒體數(shù)據(jù)庫技術(shù)是數(shù)據(jù)庫技術(shù)與多媒體技術(shù)結(jié)合的產(chǎn)物。多媒體數(shù)據(jù)庫要解決三個(gè)難題。第一是信息媒體的多樣化,多媒體數(shù)據(jù)的存儲(chǔ)、組織、使用和管理。第二要解決多媒體數(shù)據(jù)集成或表現(xiàn)集成,實(shí)現(xiàn)多媒體數(shù)據(jù)之間的交叉調(diào)用和融合,集成粒度越細(xì),多媒體一體化表現(xiàn)才越強(qiáng),應(yīng)用的價(jià)值也才越大。第三是多媒體數(shù)據(jù)與人之間的交互性,也就是多媒體數(shù)據(jù)的檢索問題,其中包括基于元數(shù)據(jù)的檢索模式和基于內(nèi)容的檢索模式。MEDIAASSETMANAGEMENTMEDIAASSETMANAGEMENT第7章多媒體數(shù)據(jù)庫技術(shù)關(guān)系數(shù)據(jù)庫概述1多媒體數(shù)據(jù)庫概述

2面向?qū)ο髷?shù)據(jù)庫技術(shù)

3分布式多媒體數(shù)據(jù)庫

4檢索技術(shù)簡(jiǎn)介

5§7.1.1關(guān)系數(shù)據(jù)庫基本知識(shí)數(shù)據(jù)庫的數(shù)據(jù)模型先后經(jīng)歷了網(wǎng)狀模型、層次模型、關(guān)系模型和面向?qū)ο竽P偷入A段。其中關(guān)系模型因?yàn)橛型暾睦碚摶A(chǔ),取代了網(wǎng)狀模型和層次模型,目前關(guān)系數(shù)據(jù)庫在實(shí)際應(yīng)用中居于主導(dǎo)地位。MEDIAASSETMANAGEMENT面向?qū)ο竽P完P(guān)系模型層次模型網(wǎng)狀模型§7.1.1關(guān)系數(shù)據(jù)庫基本知識(shí)1.關(guān)系數(shù)據(jù)庫的特征數(shù)據(jù)結(jié)構(gòu)化。按照某種數(shù)據(jù)模型組織成為一個(gè)結(jié)構(gòu)化的數(shù)據(jù)整體。它不僅描述了數(shù)據(jù)本身的特性,而且描述了數(shù)據(jù)與數(shù)據(jù)之間的各種聯(lián)系,這使數(shù)據(jù)庫具備了復(fù)雜的內(nèi)部組織結(jié)構(gòu)。實(shí)現(xiàn)數(shù)據(jù)共享。實(shí)現(xiàn)了多個(gè)應(yīng)用程序、多種語言及多個(gè)用戶共享一個(gè)庫中的數(shù)據(jù),甚至在一個(gè)單位或更大的范圍內(nèi)共享,因而大大提高了數(shù)據(jù)的利用率,提高了工作效率。MEDIAASSETMANAGEMENT§7.1.1關(guān)系數(shù)據(jù)庫基本知識(shí)減少數(shù)據(jù)冗余度。由于數(shù)據(jù)庫實(shí)現(xiàn)了數(shù)據(jù)共享,因而減少了數(shù)據(jù)的重復(fù)存儲(chǔ),節(jié)省了存儲(chǔ)空間,減少了數(shù)據(jù)冗余。數(shù)據(jù)獨(dú)立性。數(shù)據(jù)庫技術(shù)中的數(shù)據(jù)與程序相互獨(dú)立,互不依賴,不因一方的改變而改變另一方,這大大簡(jiǎn)化了應(yīng)用程序設(shè)計(jì)與維護(hù)的工作量,同時(shí)數(shù)據(jù)也不會(huì)隨程序的結(jié)束而消失,可長(zhǎng)期保留在計(jì)算機(jī)系統(tǒng)中。MEDIAASSETMANAGEMENT§7.1.1關(guān)系數(shù)據(jù)庫基本知識(shí)姓名

地址年齡月薪工齡張非北京

2750004李奎上海2965003王西風(fēng)廣州38800010MEDIAASSETMANAGEMENT數(shù)據(jù)庫示例2.關(guān)系數(shù)據(jù)庫的基本組成關(guān)系數(shù)據(jù)庫由一組數(shù)據(jù)表組成。表中的每行稱為記錄,每列稱為字段。表是一組彼此相關(guān)的記錄的組合。例如,有一張包含公司中員工信息的表。每條記錄里都存儲(chǔ)了公司一名員工的姓名、地址和月薪等數(shù)據(jù)?!?.1.1關(guān)系數(shù)據(jù)庫基本知識(shí)3.DBS和DBMS數(shù)據(jù)庫系統(tǒng)(DBS)是采用了數(shù)據(jù)庫(DB)技術(shù)的計(jì)算機(jī)系統(tǒng)。DBS是一個(gè)實(shí)際可運(yùn)行的,按照數(shù)據(jù)庫方法存儲(chǔ)、維護(hù)和向應(yīng)用系統(tǒng)提供數(shù)據(jù)支持的系統(tǒng),它是數(shù)據(jù)庫、硬件、軟件和數(shù)據(jù)庫管理員的集合體。數(shù)據(jù)庫管理系統(tǒng)(DBMS)是指數(shù)據(jù)庫系統(tǒng)中對(duì)數(shù)據(jù)進(jìn)行管理的軟件系統(tǒng),它是DBS的核心組成部分。對(duì)DB的一切操作,包括定義、查詢、更新及各種控制,都是通過DBMS進(jìn)行的。MEDIAASSETMANAGEMENT§7.1.2關(guān)系數(shù)據(jù)庫管理系統(tǒng)RDBMS通常利用數(shù)據(jù)庫管理系統(tǒng)來處理諸如人們用文件柜來完成的那樣一些任務(wù)。從某種意義上來說,數(shù)據(jù)庫就像一個(gè)大文件柜,只不過是一個(gè)內(nèi)建的文件編排系統(tǒng)而已。電子化處理記錄相對(duì)手工處理記錄有很多優(yōu)點(diǎn):MEDIAASSETMANAGEMENT§7.1.3關(guān)系數(shù)據(jù)庫的數(shù)據(jù)模型關(guān)系數(shù)據(jù)庫是一些相關(guān)的表和其他數(shù)據(jù)庫對(duì)象的集合。該定義表達(dá)了三部分含義:第一,在關(guān)系數(shù)據(jù)庫中,信息被存放在二維表格結(jié)構(gòu)的表(table)中,一個(gè)關(guān)系數(shù)據(jù)庫包含了多個(gè)數(shù)據(jù)表,而每一個(gè)表又包含行(記錄)和列(字段),可以將表想象為一個(gè)電子表格,其中與行對(duì)應(yīng)的是記錄,與列對(duì)應(yīng)的是字段;第二,這些表之間是相互關(guān)聯(lián)的,表之間的這種關(guān)聯(lián)性是由主鍵和外鍵所體現(xiàn)的參照關(guān)系來實(shí)現(xiàn)的;第三,數(shù)據(jù)庫不僅包合表,而且包含了其他數(shù)據(jù)庫對(duì)象,如視圖、存儲(chǔ)過程、索引等。MEDIAASSETMANAGEMENT§7.1.3關(guān)系數(shù)據(jù)庫的數(shù)據(jù)模型主關(guān)鍵字(primarykey,也稱主鍵)是指表中的某一列,該列的值可唯一標(biāo)識(shí)一行。外部關(guān)鍵字(foreignkey,也稱外鍵)是指如果表中含有與另一個(gè)表的主關(guān)鍵字相對(duì)應(yīng)的列組,那么該列組就被稱為外部關(guān)鍵字。從該定義可以看出,外部關(guān)鍵字也是由一個(gè)或多個(gè)列組成。如果兩個(gè)表中具有相同的列或列組,那么該列或列組就被稱為這兩個(gè)表的公共關(guān)鍵字(commonkey)。如果公共關(guān)鍵字是其中一個(gè)表的主關(guān)鍵字,那么該公共關(guān)鍵字在另一個(gè)表中就被稱為外部關(guān)鍵字。MEDIAASSETMANAGEMENT§7.1.4RDBMS的特點(diǎn)RDBMS的特點(diǎn)如下:數(shù)據(jù)完整性:所有RDBMS都使用SQL或其變體來控制包含在任意數(shù)據(jù)庫中的數(shù)據(jù)。RDBMS必須保證數(shù)據(jù)的完整性。數(shù)據(jù)的安全性:多數(shù)RDBMS都堅(jiān)持把實(shí)際數(shù)據(jù)和業(yè)務(wù)邏輯區(qū)分開,以確保數(shù)據(jù)庫中的數(shù)據(jù)可以保持持久狀態(tài)。MEDIAASSETMANAGEMENTMEDIAASSETMANAGEMENT第7章多媒體數(shù)據(jù)庫技術(shù)關(guān)系數(shù)據(jù)庫概述1多媒體數(shù)據(jù)庫概述

2面向?qū)ο髷?shù)據(jù)庫技術(shù)

3分布式多媒體數(shù)據(jù)庫

4檢索技術(shù)簡(jiǎn)介

5§7.2多媒體數(shù)據(jù)庫概述多媒體數(shù)據(jù)庫(MMDB)與傳統(tǒng)的關(guān)系數(shù)據(jù)庫相比,具有數(shù)據(jù)量大、數(shù)據(jù)類型多、數(shù)據(jù)類型之間差距大、多媒體數(shù)據(jù)的輸入和輸出復(fù)雜的特點(diǎn)。當(dāng)今時(shí)代,網(wǎng)絡(luò)技術(shù)與信息傳輸技術(shù)的發(fā)達(dá),更增加了多媒體數(shù)據(jù)的復(fù)雜性。一般來講,多媒體數(shù)據(jù)有靜態(tài)與動(dòng)態(tài)之分,靜態(tài)數(shù)據(jù)有字符、數(shù)值、文本、圖形、圖像等靜態(tài)的數(shù)據(jù),而動(dòng)態(tài)數(shù)據(jù)有音頻、視頻、動(dòng)畫等。

MEDIAASSETMANAGEMENT§7.2.1多媒體數(shù)據(jù)的特點(diǎn)多媒體數(shù)據(jù)庫信息媒體的多樣性MEDIAASSETMANAGEMENT§7.2.1多媒體數(shù)據(jù)的特點(diǎn)(1)數(shù)據(jù)量大圖像、聲頻和視頻對(duì)象一般需要大的存儲(chǔ)容量。(2)數(shù)據(jù)長(zhǎng)度可變多媒體數(shù)據(jù)的數(shù)據(jù)量大小可變,且無法預(yù)先估計(jì)。(3)多數(shù)據(jù)流多媒體展示時(shí)涉及多種數(shù)據(jù)類型的靜態(tài)和連續(xù)媒體的集成及顯示。(4)數(shù)據(jù)流的連續(xù)記錄和檢索多媒體數(shù)據(jù)要求連續(xù)記錄(存儲(chǔ))和播放(檢索),否則將導(dǎo)致嚴(yán)重失真,大大影響效果,使用戶無法接受。MEDIAASSETMANAGEMENT§7.2.2MMDB的主要需求多媒體數(shù)據(jù)庫(MMDB)就是要實(shí)現(xiàn)對(duì)結(jié)構(gòu)化和非結(jié)構(gòu)化的多媒體數(shù)據(jù)的存儲(chǔ)、管理和查詢,其主要需求有:1.MMDB應(yīng)能夠表示多種媒體的數(shù)據(jù),如圖形、圖像、聲音等。非結(jié)構(gòu)化數(shù)據(jù)表示起來比較復(fù)雜,需要根據(jù)多媒體系統(tǒng)的特點(diǎn)來決定表示方法。

2.MMDB應(yīng)能夠協(xié)調(diào)處理各種媒體數(shù)據(jù),正確識(shí)別各種媒體數(shù)據(jù)之間在空間或時(shí)間上的關(guān)系。3.除必須滿足物理數(shù)據(jù)獨(dú)立性和邏輯數(shù)據(jù)獨(dú)立性外,還應(yīng)該滿足媒體數(shù)據(jù)獨(dú)立性。

MEDIAASSETMANAGEMENT§7.2.2MMDB的主要需求4.更強(qiáng)的數(shù)據(jù)查詢和操縱。多媒體數(shù)據(jù)既有其外在的表現(xiàn)形式,又有其自身內(nèi)在的結(jié)構(gòu)。

5.媒體的集成和編輯。媒體的有機(jī)組合(集成)是多媒體數(shù)據(jù)庫系統(tǒng)的一項(xiàng)重要而且難度較大的功能。6.網(wǎng)絡(luò)功能。應(yīng)解決分布在網(wǎng)絡(luò)上的MMDB中的數(shù)據(jù)的定義、存儲(chǔ)、操作問題,并對(duì)數(shù)據(jù)的一致性、安全性、并發(fā)性進(jìn)行管理。7.多媒體數(shù)據(jù)庫系統(tǒng)(MMDBS)應(yīng)具有開放功能,提供MMDB的應(yīng)用程序接口API。

MEDIAASSETMANAGEMENT§7.2.2MMDB的主要需求8.交互性強(qiáng)。最常見的是用鼠標(biāo)選擇調(diào)用有關(guān)的信息,供用戶觀察、決策。9.MMDB還應(yīng)提供數(shù)據(jù)和版本管理功能。MEDIAASSETMANAGEMENT§7.2.3MMDBS的層次結(jié)構(gòu)

MEDIAASSETMANAGEMENT§7.2.3MMDBS的層次結(jié)構(gòu)(1)物理存儲(chǔ)層:描述如何在文件系統(tǒng)中存儲(chǔ)多媒體數(shù)據(jù)。(2)數(shù)據(jù)描述層:也是核心層。這一層負(fù)責(zé)對(duì)原始信息的解釋和描述,并處理索引提出的數(shù)據(jù)快速存取請(qǐng)求。(3)網(wǎng)絡(luò)層:媒體對(duì)象可能存儲(chǔ)在不同的系統(tǒng)中,用戶可以在計(jì)算機(jī)網(wǎng)絡(luò)上進(jìn)行數(shù)據(jù)存取。(4)過濾層:負(fù)責(zé)分析和處理用戶的查詢要求。用戶可以用不同的方法查詢數(shù)據(jù)庫,這取決于用戶所需要信息的類型。(5)用戶層:應(yīng)用和用戶之間的接口,負(fù)責(zé)實(shí)現(xiàn)數(shù)據(jù)庫中數(shù)據(jù)的瀏覽以及人機(jī)交互。MEDIAASSETMANAGEMENT§7.2.4多媒體數(shù)據(jù)模型(1)支持結(jié)構(gòu)化數(shù)據(jù)(如字符數(shù)值)和非結(jié)構(gòu)化數(shù)據(jù)(如視頻、聲音、圖象等)的表示及其屬性特征的描述。(2)支持多媒體的表現(xiàn)(Presentation)建模,即多媒體數(shù)據(jù)模型應(yīng)能表示各媒體對(duì)象間的語義關(guān)系、時(shí)態(tài)關(guān)系和空間關(guān)系。MEDIAASSETMANAGEMENT§7.2.4多媒體數(shù)據(jù)模型目前開發(fā)出來的MMDBS大多是專用的MMDB,對(duì)信息的處理進(jìn)行了折中,缺乏通用性。在多媒體數(shù)據(jù)模型方面主要存在以下問題:(1)沒有表示多媒體數(shù)據(jù)模型經(jīng)典完善的理論及技術(shù)。在建立多媒體數(shù)據(jù)模型時(shí),雖然可能借助其它方面的研究成果,但表示多媒體數(shù)據(jù)的統(tǒng)一完善的理論還沒有形成。(2)目前研究者各自從不同的方向?qū)Χ嗝襟w數(shù)據(jù)模型進(jìn)行探討,所建立的多媒體數(shù)據(jù)模型一般也只能反映和強(qiáng)調(diào)多媒體數(shù)據(jù)的某一類特征,其應(yīng)用也側(cè)重于某一類領(lǐng)域。(3)受目前圖像理解、計(jì)算機(jī)視覺、人工智能等學(xué)科發(fā)展水平的限制。圖像數(shù)據(jù)自動(dòng)語義識(shí)別和視頻數(shù)據(jù)自動(dòng)分段,以及抽取高級(jí)語義特征還存在不少困難。MEDIAASSETMANAGEMENT§7.2.4多媒體數(shù)據(jù)模型建立多媒體數(shù)據(jù)模型的方法可以概括為如下幾種:擴(kuò)充關(guān)系的模型:在傳統(tǒng)關(guān)系數(shù)據(jù)庫的基礎(chǔ)上加以擴(kuò)充,使之支持多媒體數(shù)據(jù)類型?;诿嫦?qū)ο笳Z言的模型:在面向?qū)ο笳Z言中嵌入數(shù)據(jù)庫功能而形成MMDB。

基于超文本或超媒體的模型:此種模型由節(jié)點(diǎn)和鏈組成,節(jié)點(diǎn)是信息單位(信息元),鏈用于組織信息,表達(dá)信息間的關(guān)系,把節(jié)點(diǎn)連接成網(wǎng)狀結(jié)構(gòu)。

開發(fā)全新的數(shù)據(jù)模型:該方法從低層來實(shí)現(xiàn)MMDBS,首先建立一個(gè)包含面向?qū)ο髷?shù)據(jù)庫核心概念的數(shù)據(jù)模型,然后設(shè)計(jì)相應(yīng)的語言和相應(yīng)的面向?qū)ο髷?shù)據(jù)庫管理系統(tǒng)的核心。MEDIAASSETMANAGEMENT§7.2.4多媒體數(shù)據(jù)模型1.擴(kuò)充關(guān)系的模型:傳統(tǒng)的關(guān)系模型結(jié)構(gòu)簡(jiǎn)單,是單一的二維表,很難用于空間數(shù)據(jù)和時(shí)態(tài)數(shù)據(jù),缺乏演繹和推理操作,表達(dá)數(shù)據(jù)特性的能力有限。在基于RDB的MMDB中,必須對(duì)現(xiàn)有的關(guān)系模型進(jìn)行擴(kuò)充,使它不但能支持結(jié)構(gòu)化數(shù)據(jù),也能處理非結(jié)構(gòu)化數(shù)據(jù),分為以下三種擴(kuò)充方式:

MEDIAASSETMANAGEMENT§7.2.4多媒體數(shù)據(jù)模型(1)擴(kuò)展現(xiàn)有的數(shù)據(jù)類型

一般是利用標(biāo)準(zhǔn)擴(kuò)展字段(General)來描述多媒體數(shù)據(jù)。在Oracle和Sybase系統(tǒng)中采用二進(jìn)制大對(duì)象(BLOB)存放各種多媒體數(shù)據(jù)(可達(dá)2GB)。常規(guī)數(shù)據(jù)用關(guān)系數(shù)據(jù)庫處理,多媒體數(shù)據(jù)則存儲(chǔ)在數(shù)據(jù)庫之外的圖像或視頻服務(wù)器上,關(guān)系數(shù)據(jù)庫中包括了BLOB的位置信息,這些位置信息相當(dāng)于指向多媒體文件的指針。MEDIAASSETMANAGEMENT§7.2.4多媒體數(shù)據(jù)模型(2)擴(kuò)充用戶自定義的數(shù)據(jù)類型用戶自定義一個(gè)抽象數(shù)據(jù)類型作為另一關(guān)系的值,而不僅僅是采用系統(tǒng)己定義的數(shù)據(jù)類型。

例如,用函數(shù)定義的擴(kuò)展系統(tǒng)允許用戶將程序加到一個(gè)關(guān)系上,使系統(tǒng)的查詢語言具備調(diào)用程序的能力。這種方法旨在擴(kuò)充關(guān)系數(shù)據(jù)庫,使之支持ADT(抽象數(shù)據(jù)類型)的定義和使用。以極小的代價(jià)拓寬的對(duì)多種媒體的管理能力。但由于基于二維構(gòu)造的多媒體數(shù)據(jù)模型無法反映各媒體之間的空間、時(shí)間和語義關(guān)系,有關(guān)的處理必須用其它應(yīng)用程序來實(shí)現(xiàn),所以在多媒體數(shù)據(jù)的同步和集成方面存在很多問題,且對(duì)多媒體數(shù)據(jù)的基于內(nèi)容的檢索和查詢更加難以實(shí)現(xiàn)。MEDIAASSETMANAGEMENT§7.2.4多媒體數(shù)據(jù)模型3)擴(kuò)充嵌套語義,采用NF2數(shù)據(jù)模型。傳統(tǒng)的關(guān)系模型要求關(guān)系數(shù)據(jù)庫中的所有關(guān)系必須滿足第一范式(FirstNormalForm,1NF),即一個(gè)關(guān)系中的所有屬性都必須是原子型的,表中不能有表。由于MMDB具有各種各樣的媒體數(shù)據(jù),格式、大小都不相同,因此必須打破關(guān)系數(shù)據(jù)庫中關(guān)于范式的要求,允許表中有表,即采用非第一范式(NonFirstNormalForm,NF2)模型,也叫嵌套關(guān)系數(shù)據(jù)模型。NF2模型提供描述屬性嵌套定義的手段,一個(gè)對(duì)象的值也可以是一個(gè)對(duì)象。雖然NF2方法可以利用關(guān)系數(shù)據(jù)庫傳統(tǒng)優(yōu)勢(shì),延用關(guān)系數(shù)據(jù)庫語言或其他通用語言。但無法增強(qiáng)建模能力,不能較好地反映多媒體數(shù)據(jù)所特有的時(shí)空關(guān)系,同時(shí)多媒體對(duì)象的存取、檢索或其它處理上仍存在相當(dāng)大的困難。MEDIAASSETMANAGEMENT§7.2.4多媒體數(shù)據(jù)模型2.面向?qū)ο蟮臄?shù)據(jù)模型面向?qū)ο髷?shù)據(jù)庫建立在對(duì)象模型的基礎(chǔ)上,以定義對(duì)象的屬性、集合、行為、狀態(tài)和聯(lián)系等為主要描述方式,引入了類、對(duì)象、方法、消息、封裝、繼承等概念。面向?qū)ο蟮姆椒樾乱淮亩嗝襟w數(shù)據(jù)模型打下了良好的基礎(chǔ),許多多媒體資料可以抽象為被類型鏈連接在一起的結(jié)點(diǎn)網(wǎng)絡(luò),可以自然地用面向?qū)ο蠓椒ㄋ枋?。這種機(jī)制可以很好地滿足MMDB在建模方面的要求,并且能更好地實(shí)現(xiàn)數(shù)據(jù)庫的存儲(chǔ)、查詢以及其他操作。MEDIAASSETMANAGEMENT§7.2.4多媒體數(shù)據(jù)模型其特點(diǎn)主要表現(xiàn)為:(1)面向?qū)ο竽P椭С帧熬酆稀迸c“概括”的概念,從而可以更好地處理多媒體數(shù)據(jù)等復(fù)雜對(duì)象的結(jié)構(gòu)語義。(2)面向?qū)ο竽P椭С殖橄髷?shù)據(jù)類型和用戶定義的方法,便于系統(tǒng)支持定義新的數(shù)據(jù)類型和操作。(3)面向?qū)ο笙到y(tǒng)的數(shù)據(jù)抽象、功能抽象與消息傳遞的特點(diǎn)使對(duì)象在系統(tǒng)中是獨(dú)立的,具有良好的封閉性,封閉了多媒體數(shù)據(jù)之間的類型及其它方面的巨大差異,并且容易實(shí)現(xiàn)并行處理,也便于系統(tǒng)模式的擴(kuò)充和修改。(4)面向?qū)ο笙到y(tǒng)的對(duì)象類、類層次和繼承性的特點(diǎn),不僅減少了冗余和由此引起的一系列問題,還非常有利于版本控制。MEDIAASSETMANAGEMENT§7.2.4多媒體數(shù)據(jù)模型(5)面向?qū)ο笙到y(tǒng)中實(shí)體是獨(dú)立于值存在的,因而避免了關(guān)系數(shù)據(jù)庫中討論的各種異常。(6)面向?qū)ο笙到y(tǒng)的查詢語言通常是沿著系統(tǒng)提供的內(nèi)部固有聯(lián)系進(jìn)行的,避免了大量的查詢優(yōu)化工作。MEDIAASSETMANAGEMENT§7.2.5MMDBMS的體系結(jié)構(gòu)1.組合型結(jié)構(gòu)通過整合技術(shù)連接的。如圖,組合型結(jié)構(gòu)中可以擁有多個(gè)獨(dú)立的媒體數(shù)據(jù)庫,每一種媒體數(shù)據(jù)庫的設(shè)計(jì)都有自己獨(dú)立的數(shù)據(jù)庫管理系統(tǒng)。MEDIAASSETMANAGEMENT§7.2.5MMDBMS的體系結(jié)構(gòu)2.集中統(tǒng)一型結(jié)構(gòu)各種媒體被集中統(tǒng)一地建在單一的MMDB里,由單一的MMDBMS統(tǒng)一管理和操縱。實(shí)際較難實(shí)現(xiàn)。MEDIAASSETMANAGEMENT§7.2.5MMDBMS的體系結(jié)構(gòu)3.客戶/服務(wù)型結(jié)構(gòu)各種單媒體數(shù)據(jù)仍然相對(duì)獨(dú)立,各用一個(gè)服務(wù)器來實(shí)現(xiàn)管理和操縱,客戶與服務(wù)器之間通過特定的中間件系統(tǒng)連接。MEDIAASSETMANAGEMENT§7.2.5MMDBMS的體系結(jié)構(gòu)4.超媒體型結(jié)構(gòu)數(shù)據(jù)庫分散到網(wǎng)絡(luò)上,把它看成一個(gè)信息空間,只要設(shè)計(jì)好訪問工具就能夠訪問和使用這些信息。在多媒體的數(shù)據(jù)模型上,通過超鏈接建立起各種數(shù)據(jù)的時(shí)空關(guān)系。MEDIAASSETMANAGEMENT§7.2.6MMDBMS的查詢管理數(shù)據(jù)庫的查詢是數(shù)據(jù)庫最重要的功能之一。MMDBMS查詢系統(tǒng)需完成以下幾個(gè)方面的設(shè)計(jì):用戶查詢接口、多媒體數(shù)據(jù)提交、提交過程干預(yù)。用戶查詢接口應(yīng)允許用戶根據(jù)內(nèi)容、實(shí)例、時(shí)間、空間及其可能的組合進(jìn)行查詢。對(duì)實(shí)例查詢,用戶接口需從適當(dāng)?shù)脑O(shè)備中獲得實(shí)例對(duì)象(如實(shí)例對(duì)象可通過掃描儀或存儲(chǔ)的文件獲得)。MEDIAASSETMANAGEMENT§7.2.6MMDBMS的查詢管理查詢生成器產(chǎn)生一個(gè)適當(dāng)?shù)目杀徊樵兲幚砥魈幚淼牟樵?;查詢處理器訪問需要的元數(shù)據(jù)并作出反應(yīng);響應(yīng)表示模塊向用戶提供顯示和反饋。如果用戶對(duì)響應(yīng)不滿意,可重新設(shè)計(jì)并生成新的查詢。MEDIAASSETMANAGEMENTMEDIAASSETMANAGEMENT第7章多媒體數(shù)據(jù)庫技術(shù)關(guān)系數(shù)據(jù)庫概述1多媒體數(shù)據(jù)庫概述

2面向?qū)ο髷?shù)據(jù)庫技術(shù)

3分布式多媒體數(shù)據(jù)庫

4檢索技術(shù)簡(jiǎn)介

5§7.3面向?qū)ο蟮臄?shù)據(jù)庫技術(shù)面向?qū)ο髷?shù)據(jù)庫系統(tǒng)(OODB)的思想產(chǎn)生于上世紀(jì)80年代初。結(jié)合特定應(yīng)用領(lǐng)域,分為:多媒體數(shù)據(jù)庫(結(jié)合多媒體技術(shù))、空間數(shù)據(jù)庫(結(jié)合空間信息學(xué)和GIS)、演繹數(shù)據(jù)庫(結(jié)合人工智能)、工程數(shù)據(jù)庫(結(jié)合軟件工程)等。與傳統(tǒng)數(shù)據(jù)庫相比,它們既具有多樣性(學(xué)科交叉的必然結(jié)果),又有統(tǒng)一性,建立它們的主要目的是為了處理海量信息和復(fù)雜數(shù)據(jù)結(jié)構(gòu)。MEDIAASSETMANAGEMENT§7.3面向?qū)ο蟮臄?shù)據(jù)庫技術(shù)與擴(kuò)充的RDB不同,OODB傾向于以數(shù)據(jù)模型入手,重新考慮系統(tǒng)結(jié)構(gòu)、對(duì)象類層次的存儲(chǔ)結(jié)構(gòu)、存取方法和繼承性的實(shí)現(xiàn)方法、用戶定義的數(shù)據(jù)類型和方法的處理策略、必要的版本控制和友好的用戶界面,建立一個(gè)全新的DBMS。對(duì)于大型應(yīng)用而言,OODB技術(shù)是解決多媒體數(shù)據(jù)庫中復(fù)雜關(guān)系的最根本的解決辦法。MEDIAASSETMANAGEMENT§7.3.1OODB的特點(diǎn)首先,它是一個(gè)數(shù)據(jù)庫管理系統(tǒng),具有數(shù)據(jù)庫管理系統(tǒng)的基本功能:一是永久性,數(shù)據(jù)庫中的數(shù)據(jù)永久保存;二是存儲(chǔ)管理,包括索引管理、數(shù)據(jù)聚集、數(shù)據(jù)緩沖、存取路徑選擇、查詢優(yōu)化等;三是能并發(fā)控制,提供高于當(dāng)前已有數(shù)據(jù)庫管理系統(tǒng)同樣級(jí)別的、對(duì)多個(gè)用戶并發(fā)操作的支持;四是故障恢復(fù)能力,提供不低于當(dāng)前已有的數(shù)據(jù)庫管理系統(tǒng)同樣級(jí)別的、將數(shù)據(jù)庫從故障后的錯(cuò)誤狀態(tài)中恢復(fù)到某個(gè)正確狀態(tài)的功能;五是交互式查詢功能,且是非過程化的、高效的、獨(dú)立于應(yīng)用的。MEDIAASSETMANAGEMENT§7.3.1OODB的特點(diǎn)其次,它是一個(gè)面向?qū)ο蟮南到y(tǒng),具有支持OODB模型,支持復(fù)雜對(duì)象,具有運(yùn)用各種構(gòu)造機(jī)制從簡(jiǎn)單對(duì)象組成復(fù)雜對(duì)象的能力。復(fù)雜對(duì)象構(gòu)造能力加強(qiáng)了對(duì)客觀現(xiàn)實(shí)世界的模擬能力,且方法自然、易理解、具有對(duì)象標(biāo)識(shí),對(duì)象標(biāo)識(shí)獨(dú)立于其值而存在的特性,可以極大地加快查詢速度。對(duì)象既封裝了數(shù)據(jù),又封裝操作,實(shí)現(xiàn)了信息隱藏,使用戶不必知道操作的實(shí)現(xiàn)細(xì)節(jié),只利用設(shè)計(jì)者提供的消息即可訪問對(duì)象。MEDIAASSETMANAGEMENT§7.3.1OODB的特點(diǎn)OODB與傳統(tǒng)的RDB相比,其優(yōu)勢(shì)主要體現(xiàn)在:1.OODB更易于掌握OODB可基于面向?qū)ο蟪绦蛟O(shè)計(jì)語言,如C++。熟悉面向?qū)ο蟪绦蛟O(shè)計(jì)語言的人能很方便地掌握并使用這類系統(tǒng)。2.支持復(fù)雜應(yīng)用面向?qū)ο竽P椭饕糜趶?fù)雜應(yīng)用。將特定對(duì)象放入高緩沖區(qū)或內(nèi)存,使系統(tǒng)性能得到優(yōu)化。3.存儲(chǔ)大型數(shù)據(jù)結(jié)構(gòu)OODB不僅能存儲(chǔ)復(fù)雜的應(yīng)用數(shù)據(jù),而且還能存儲(chǔ)較大的數(shù)據(jù)結(jié)構(gòu)。OODB不會(huì)因?yàn)橛写罅繉?duì)象的存在而降低了性能。4.直接引用對(duì)象OODB支持對(duì)象的直接引用,減少了系統(tǒng)的數(shù)據(jù)冗余,提供了數(shù)據(jù)共享能力,有利于數(shù)據(jù)完整性維護(hù),同時(shí)還大大提高了搜索和導(dǎo)航訪問能力。MEDIAASSETMANAGEMENT§7.3.1OODB的特點(diǎn)5.優(yōu)良的應(yīng)用開發(fā)環(huán)境RDB的應(yīng)用開發(fā)離不開數(shù)據(jù)操作語言和相應(yīng)的宿主語言等。OODB的應(yīng)用開發(fā)并沒有這些限制。6.簡(jiǎn)化并發(fā)控制在RDB中,并發(fā)控制理論實(shí)現(xiàn)起來卻比較復(fù)雜。而OODB的并發(fā)控制以對(duì)象為封鎖單位,相關(guān)數(shù)據(jù)由對(duì)象本身的結(jié)構(gòu)決定,一些控制可由對(duì)象的方法和觸發(fā)器完成,并發(fā)控制簡(jiǎn)單而有效。7.實(shí)現(xiàn)無縫連接OODB的產(chǎn)生主要是為了解決“阻抗失配”,它強(qiáng)調(diào)高級(jí)程序設(shè)計(jì)語言與數(shù)據(jù)庫的無縫連接。由于實(shí)現(xiàn)了無縫連接,使得OODB能夠支持非常復(fù)雜的數(shù)據(jù)模型,從而特別適用于工程設(shè)計(jì)領(lǐng)域。MEDIAASSETMANAGEMENT§7.3.1OODB的特點(diǎn)OODB技術(shù)可望成為繼RDB技術(shù)之后的新一代數(shù)據(jù)管理技術(shù)。存在的問題如下:1.性能方面:由于OODB中數(shù)據(jù)被存放在許多地方,因此,有效對(duì)象聚集是性能好壞的關(guān)鍵因素。2.模式修改:當(dāng)需要OODB的升級(jí)或新版本時(shí),數(shù)據(jù)庫的模式修改或重構(gòu)將是個(gè)問題。3.標(biāo)準(zhǔn)化:標(biāo)準(zhǔn)化和形式化是OODB研究和發(fā)展的一個(gè)重要方向。4.技術(shù)仍須趨向成熟:OODB的發(fā)展有賴于面向?qū)ο笳Z言的發(fā)展。隨著面向?qū)ο笳Z言的發(fā)展,OODB將趨于成熟。MEDIAASSETMANAGEMENT§7.3.2OODB的系統(tǒng)結(jié)構(gòu)現(xiàn)有OODB管理系統(tǒng)功能各異,因而有各種不同的系統(tǒng)結(jié)構(gòu)。下面介紹一種由美國(guó)MCC公司研制的ORION系統(tǒng)的系統(tǒng)結(jié)構(gòu)。ORION系統(tǒng)由4個(gè)子系統(tǒng)構(gòu)成:MEDIAASSETMANAGEMENT§7.3.2OODB的系統(tǒng)結(jié)構(gòu)ORION系統(tǒng)由4個(gè)子系統(tǒng)構(gòu)成:(1)消息處理子系統(tǒng):處理發(fā)送到系統(tǒng)中的所有消息。(2)對(duì)象子系統(tǒng):提供高級(jí)數(shù)據(jù)管理功能,包括查詢優(yōu)化、模式管理、長(zhǎng)數(shù)據(jù)管理(包括全文檢索),以及支持版本對(duì)象、復(fù)合對(duì)象和多媒體對(duì)象。(3)存儲(chǔ)子系統(tǒng):完成對(duì)存儲(chǔ)在磁盤上對(duì)象的存取,它包括兩個(gè)子系統(tǒng)——頁緩沖區(qū)管理和磁盤段管理,分別負(fù)責(zé)內(nèi)存頁緩沖區(qū)管理和磁盤中頁段管理。(4)事務(wù)管理子系統(tǒng):采用鎖和日志技術(shù)協(xié)調(diào)系統(tǒng)的并發(fā)控制與恢復(fù)機(jī)制。MEDIAASSETMANAGEMENT§7.3.2OODB的系統(tǒng)結(jié)構(gòu)ORION系統(tǒng)的客戶機(jī)/服務(wù)器視圖

:MEDIAASSETMANAGEMENT§7.3.3OODBS的存儲(chǔ)管理存儲(chǔ)管理是一個(gè)數(shù)據(jù)庫系統(tǒng)的物理實(shí)現(xiàn)層,存儲(chǔ)管理設(shè)計(jì)與實(shí)現(xiàn)的好壞直接影響著系統(tǒng)的性能、安全與恢復(fù),并與整個(gè)系統(tǒng)的總體結(jié)構(gòu)和數(shù)據(jù)模型息息相關(guān)。存儲(chǔ)管理主要涉及對(duì)象存儲(chǔ)、聚簇策略和索引等內(nèi)容。MEDIAASSETMANAGEMENT§7.3.3OODBS的存儲(chǔ)管理1.對(duì)象存儲(chǔ)(1)對(duì)象數(shù)據(jù)的存儲(chǔ)結(jié)構(gòu)對(duì)象的存儲(chǔ)由兩部分組成第一部分是數(shù)據(jù)庫類的結(jié)構(gòu)信息和語義關(guān)聯(lián),包括數(shù)據(jù)項(xiàng)構(gòu)成、函數(shù)動(dòng)作及與其它類的語義關(guān)聯(lián)等。同一類的所有對(duì)象具有相同的結(jié)構(gòu)和行為,因此這些信息只需存儲(chǔ)一次,我們把它們存放在該類的數(shù)據(jù)字典中。函數(shù)體的源代碼和目標(biāo)代碼則分別存于系統(tǒng)的源代碼庫和目標(biāo)代碼庫中。第二部分是該類對(duì)象的實(shí)例數(shù)據(jù),它們被一一存放在對(duì)象庫中。MEDIAASSETMANAGEMENT§7.3.3OODBS的存儲(chǔ)管理(2)對(duì)象數(shù)據(jù)的存儲(chǔ)一個(gè)OODB系統(tǒng)包含若干個(gè)磁盤卷,每個(gè)磁盤卷包含若干個(gè)頁面,對(duì)象存儲(chǔ)在頁面上。頁面包含一個(gè)頁首和一組頁槽。對(duì)象的物理地址由磁盤卷號(hào)、頁面號(hào)和頁槽號(hào)組成。頁槽用于記錄對(duì)象在頁面中的位置,也就是距離頁面開始處的偏移量。當(dāng)向一個(gè)空頁面中插人第一個(gè)對(duì)象(即對(duì)象0)時(shí),對(duì)象0緊接頁首位置,其位置由頁槽0記錄。對(duì)象標(biāo)識(shí)符(ObjectIdentifier,OID)被用來唯一標(biāo)識(shí)數(shù)據(jù)庫中的每個(gè)對(duì)象,對(duì)象標(biāo)識(shí)符分為物理對(duì)象標(biāo)識(shí)符和邏輯對(duì)象標(biāo)識(shí)符。MEDIAASSETMANAGEMENT§7.3.3OODBS的存儲(chǔ)管理通常,根據(jù)對(duì)象的大小,將對(duì)象進(jìn)行分類,如果對(duì)象大小超過頁面的大小,那么稱其為大對(duì)象;否則,稱為小對(duì)象。大對(duì)象的存儲(chǔ)方法主要分為兩種:基于塊的大對(duì)象存儲(chǔ)方法和基于段的大對(duì)象存儲(chǔ)方法。目前,許多對(duì)象存儲(chǔ)系統(tǒng)都采用基于段的大對(duì)象存儲(chǔ)方法?;诙蔚拇髮?duì)象存儲(chǔ)方法是將大對(duì)象存儲(chǔ)在物理上相鄰的若干磁盤塊上的存儲(chǔ)方法。對(duì)于合成對(duì)象,OODB系統(tǒng)采用把主體對(duì)象與成員對(duì)象分開存儲(chǔ)的策略。主體對(duì)象中相應(yīng)位置存放成員對(duì)象的標(biāo)識(shí)符(OID),成員對(duì)象則存放在其對(duì)應(yīng)的數(shù)據(jù)文件中。MEDIAASSETMANAGEMENT§7.3.3OODBS的存儲(chǔ)管理對(duì)象的分開存儲(chǔ)策略具有以下優(yōu)點(diǎn):(1)查詢效率高,尤其是對(duì)那些從某個(gè)類中找出滿足條件的所有對(duì)象這樣的查詢。(2)能很好地支持對(duì)象變遷。如某一對(duì)象在某一時(shí)刻變?yōu)槠渥宇愔械囊粋€(gè)實(shí)例或退化為其超類的一個(gè)實(shí)例,此時(shí)只需增減某些片段,只對(duì)某一類的數(shù)據(jù)文件進(jìn)行修改而不會(huì)影響其他抽象類的存儲(chǔ)。(3)方便大對(duì)象的處理。一個(gè)大對(duì)象在按抽象類分割后就變成了一些較小的片段,這些片段具有相對(duì)的獨(dú)立性,可以單獨(dú)調(diào)入內(nèi)存處理。(4)能為不同版本的對(duì)象提供共享機(jī)制。如果一個(gè)對(duì)象的不同版本在某些數(shù)據(jù)片段上沒有差異,則這兩個(gè)版本在這些數(shù)據(jù)片段上可以共享同一份存儲(chǔ)。MEDIAASSETMANAGEMENT§7.3.3OODBS的存儲(chǔ)管理2.聚簇策略聚簇是指將相關(guān)對(duì)象組合起來的過程。聚簇過程的基本意圖是為了當(dāng)用戶程序存取一個(gè)對(duì)象時(shí),可以在相同或相鄰物理頁中很快找到該對(duì)象或其相關(guān)對(duì)象。聚簇的基本目標(biāo)是將頻繁相互引用的對(duì)象彼此相近地存放在內(nèi)存或外存上,物理存儲(chǔ)單元通常都作為聚簇的容器,這些容器的參數(shù)決定了聚簇的大小尺寸,從而減少查詢處理所需要的I/O操作數(shù)。MEDIAASSETMANAGEMENT§7.3.3OODBS的存儲(chǔ)管理聚簇策略有靜態(tài)和動(dòng)態(tài)之分:(1)靜態(tài)聚簇:此種聚簇是在對(duì)象創(chuàng)建時(shí)實(shí)施的,當(dāng)對(duì)象之間的鏈被更新時(shí),不重新進(jìn)行。(2)動(dòng)態(tài)聚簇:此種聚簇是在運(yùn)行時(shí)實(shí)施的,在做聚簇的同時(shí)還可以并發(fā)地訪問對(duì)象。一個(gè)聚簇策略到底選取靜態(tài)技術(shù)還是動(dòng)態(tài)技術(shù),這取決于對(duì)象庫的行為方面的特征,包括更新操作頻度的高低、讀寫比率的大小等。動(dòng)態(tài)聚簇技術(shù)需要一定的CPU時(shí)間開銷,它對(duì)寫者的響應(yīng)速度要慢些,對(duì)讀者的響應(yīng)速度要快些。僅當(dāng)一個(gè)系統(tǒng)讀操作的次數(shù)遠(yuǎn)遠(yuǎn)超過寫操作的次數(shù)時(shí),動(dòng)態(tài)聚簇技術(shù)才可能提高系統(tǒng)的整體性能。MEDIAASSETMANAGEMENT§7.3.3OODBS的存儲(chǔ)管理3.索引在OODB中,索引是加速查詢操作的一種重要技術(shù)。與傳統(tǒng)的關(guān)系數(shù)據(jù)庫在一個(gè)屬性或一組屬性上建立一個(gè)索引有所不同,OODB引入三類新的索引:類層次索引、嵌套屬性索引和復(fù)雜的二維索引。其中嵌套屬性索引建立在一個(gè)聚集類層次上,又可分為嵌套索引、路徑索引和多重索引。嵌套索引維護(hù)比較困難,但檢索性能最好,適用于對(duì)象的反向引用存在的情況;路徑索引不需要反向游歷,實(shí)現(xiàn)起來較方便,檢索性能次之;多重索引結(jié)構(gòu)簡(jiǎn)單,維護(hù)最方便,但檢索性能不理想。選用何種索引,須對(duì)索引性能、維護(hù)代價(jià)和實(shí)現(xiàn)技術(shù)復(fù)雜度綜合權(quán)衡而定。MEDIAASSETMANAGEMENTMEDIAASSETMANAGEMENT第7章多媒體數(shù)據(jù)庫技術(shù)關(guān)系數(shù)據(jù)庫概述1多媒體數(shù)據(jù)庫概述

2面向?qū)ο髷?shù)據(jù)庫技術(shù)

3分布式多媒體數(shù)據(jù)庫

4檢索技術(shù)簡(jiǎn)介

5§7.4.1DDBS的基本概念

分布式數(shù)據(jù)庫系統(tǒng)(DDBS)是數(shù)據(jù)庫技術(shù)與網(wǎng)絡(luò)技術(shù)相結(jié)合的產(chǎn)物,在數(shù)據(jù)庫領(lǐng)域已形成一個(gè)重要分支。分布式數(shù)據(jù)庫的研究始于20世紀(jì)70年代中期。世界上第一個(gè)DDBS是由美國(guó)計(jì)算機(jī)公司(CCA)于1979年在DEC計(jì)算機(jī)上實(shí)現(xiàn)的。20世紀(jì)90年代以來,DDBS進(jìn)入商品化應(yīng)用階段,傳統(tǒng)的關(guān)系數(shù)據(jù)庫產(chǎn)品均發(fā)展成以計(jì)算機(jī)網(wǎng)絡(luò)及多任務(wù)操作系統(tǒng)為核心的分布式數(shù)據(jù)庫產(chǎn)品,同時(shí)分布式數(shù)據(jù)庫逐步向客戶機(jī)/服務(wù)器模式發(fā)展。MEDIAASSETMANAGEMENT§7.4.1DDBS的基本概念

MEDIAASSETMANAGEMENT網(wǎng)絡(luò)CMGDBMSLDBMSCMGDBMSLDBMSCMGDBMSLDBMS全局用戶GDD/GDB局部用戶LDDLDB全局用戶GDD/GDB局部用戶LDDLDBGDD/GDB局部用戶GDD/GDB全局用戶

分布式數(shù)據(jù)庫系統(tǒng)的系統(tǒng)結(jié)構(gòu)§7.4.1DDBS的基本概念

DDBS系統(tǒng)組成如下:1.硬件:分布式系統(tǒng)所依賴的硬件環(huán)境是分布的。這需要多臺(tái)計(jì)算機(jī)設(shè)備,計(jì)算機(jī)網(wǎng)絡(luò)設(shè)備,并由計(jì)算機(jī)網(wǎng)絡(luò)連接。2.軟件:每個(gè)場(chǎng)地必須選擇一個(gè)適合的操作系統(tǒng),還必須配備高層的DDBMS(分布式數(shù)據(jù)庫管理系統(tǒng)),它包括GDBMS(全局?jǐn)?shù)據(jù)庫管理系統(tǒng))、LDBMS(局部數(shù)據(jù)庫管理系統(tǒng))和CM(通信管理器)。3.數(shù)據(jù):DDBS中的數(shù)據(jù)是以DDB為核心的,包括GDB(全局?jǐn)?shù)據(jù)庫)和LDB(局部數(shù)據(jù)庫),以及對(duì)應(yīng)的LDD(局部數(shù)據(jù)目錄)和GDD(全局?jǐn)?shù)據(jù)目錄)。4.管理員:DDBA(分布式數(shù)據(jù)庫管理員),它可分為兩級(jí),一級(jí)為GDBA(全局?jǐn)?shù)據(jù)庫管理員),另一級(jí)為局部或自治場(chǎng)地?cái)?shù)據(jù)庫管理員,稱為L(zhǎng)DBA(局部數(shù)據(jù)庫管理員)。MEDIAASSETMANAGEMENT§7.4.1DDBS的基本概念

分布式數(shù)據(jù)庫(DDB)是計(jì)算機(jī)網(wǎng)絡(luò)環(huán)境中各場(chǎng)地(Site)或節(jié)點(diǎn)(Node)上數(shù)據(jù)庫的邏輯集合。它是一組結(jié)構(gòu)化的數(shù)據(jù)集合,邏輯上屬于同一系統(tǒng),而物理上分布在計(jì)算機(jī)網(wǎng)絡(luò)的不同節(jié)點(diǎn)上,具有分布性和邏輯協(xié)調(diào)性的特點(diǎn)。分布性是指數(shù)據(jù)不是存放在單一場(chǎng)地為單個(gè)計(jì)算機(jī)配置的存儲(chǔ)設(shè)備上,而是按全局需要將數(shù)據(jù)劃分成一定結(jié)構(gòu)的數(shù)據(jù)子集,分散地存儲(chǔ)在各個(gè)場(chǎng)地(節(jié)點(diǎn))上。邏輯協(xié)調(diào)性是指各場(chǎng)地上的數(shù)據(jù)子集,相互間由嚴(yán)密的約束規(guī)則加以限定,而在邏輯上是一個(gè)整體。MEDIAASSETMANAGEMENT§7.4.1DDBS的基本概念

一個(gè)分布式的數(shù)據(jù)庫系統(tǒng)應(yīng)滿足以下四個(gè)假設(shè)條件:1是數(shù)據(jù)存儲(chǔ)在一些場(chǎng)所(任意地理位置)中,每個(gè)場(chǎng)所邏輯上假定為單個(gè)處理器;2是場(chǎng)所中的處理器由計(jì)算機(jī)網(wǎng)絡(luò)互聯(lián)。松散互聯(lián)的處理器有它們自己的操作系統(tǒng),并可進(jìn)行獨(dú)立操作(獨(dú)立計(jì)算機(jī));3是分布式數(shù)據(jù)庫不是一個(gè)能在每個(gè)網(wǎng)絡(luò)節(jié)點(diǎn)上單獨(dú)存儲(chǔ)的文件的匯集,而是一個(gè)實(shí)實(shí)在在的數(shù)據(jù)庫(獨(dú)立數(shù)據(jù)庫)。4是系統(tǒng)具有DBMS的完備功能,它不僅包括事務(wù)處理和分布式文件系統(tǒng),還有查詢處理和結(jié)構(gòu)數(shù)據(jù)組織等功能(完備的管理功能)。MEDIAASSETMANAGEMENT§7.4.2DDBS的數(shù)據(jù)分片在構(gòu)成DDBS的運(yùn)行環(huán)境時(shí),必須考慮構(gòu)成DDBS所應(yīng)用的各個(gè)組成部分各自如何使用數(shù)據(jù)的問題,所以,DDBS同樣存在著分布式數(shù)據(jù)庫(DDB)的設(shè)計(jì)問題,這就是數(shù)據(jù)分片。它包括了分布式數(shù)據(jù)庫的邏輯劃分和物理分配,以及用戶對(duì)分布式數(shù)據(jù)庫的劃分或分配的感知程度(透明度)。數(shù)據(jù)分片的主要目的是提高訪問的局部性。當(dāng)然,既然是分布式數(shù)據(jù)庫,就不可能使所有數(shù)據(jù)的訪問都局部化。一個(gè)成功的DDBS的設(shè)計(jì)應(yīng)使訪問的局部性能更好,盡量減少遠(yuǎn)程訪問,這就是數(shù)據(jù)分片的目的。MEDIAASSETMANAGEMENT§7.4.2DDBS的數(shù)據(jù)分片數(shù)據(jù)分片包括兩個(gè)步驟:數(shù)據(jù)分割和數(shù)據(jù)分配:先從邏輯上將全局關(guān)系模式劃分成若干邏輯片斷(子關(guān)系)——分割;再按一定的冗余度將片斷分配到各個(gè)節(jié)點(diǎn)上,這時(shí)邏輯片斷就成為具體的物理映象(數(shù)據(jù)存儲(chǔ))——分配。分割后的各邏輯關(guān)系之間應(yīng)遵循下列原則:1.完整性原則:全局關(guān)系的所有數(shù)據(jù)項(xiàng)必須包括在任何一個(gè)片斷中。不允許出現(xiàn)某個(gè)數(shù)據(jù)項(xiàng)屬于全局關(guān)系,但卻不屬于任何片斷。2.重構(gòu)性原則:所有片斷必須能重構(gòu)(逆操作)成全局關(guān)系。3.不相交原則:不相交原則不是必須的,但有這條原則可以使分割不致引起太復(fù)雜。分割時(shí)不相交,則分配時(shí)的冗余可以得到控制。MEDIAASSETMANAGEMENT§7.4.2DDBS的數(shù)據(jù)分片1.水平分割將關(guān)系R按行分為若干個(gè)互不相交的子集R1,R2,……,Rn,每個(gè)子集Ri

稱為一個(gè)水平片段。一個(gè)水平片段可以看成是關(guān)系上的一個(gè)選擇:R=R1∪R2∪…∪Rn通過對(duì)全局關(guān)系施加選擇運(yùn)算得到,并可通過對(duì)這些片段執(zhí)行合并操作來恢復(fù)該全局關(guān)系。2.垂直分割將關(guān)系R按列分為若干屬性子集R1,R2,……,Rn,每個(gè)子集Ri

稱為一個(gè)垂直片段。一個(gè)垂直片段可以看成是關(guān)系上的一個(gè)投影。關(guān)系的重構(gòu)可以通過連接運(yùn)算來實(shí)現(xiàn):R=R1∧R2∧…∧RnMEDIAASSETMANAGEMENT§7.4.2DDBS的數(shù)據(jù)分片3.導(dǎo)出分割導(dǎo)出水平分割,分割的條件不是關(guān)系本身屬性條件,而是其它關(guān)系的屬性條件。4.混合分割混合分割是水平分割和垂直分割的混合操作,即對(duì)關(guān)系的選擇和投影視應(yīng)用需要進(jìn)行操作。MEDIAASSETMANAGEMENT學(xué)號(hào)姓名出生年月籍貫入學(xué)時(shí)間畢業(yè)時(shí)間200414013001張菲1986河北20042008200512312001吳空1987陜西20052009200710213001李奎1988山東20072011201010013012朱各良1990河南2010在讀201110124025伍永1991廣東2011在讀201210235058趙蓋1992北京2012在讀已畢業(yè)學(xué)生表在讀學(xué)生表§7.4.2DDBS的數(shù)據(jù)分片MEDIAASSETMANAGEMENT水平分割垂直分割§7.4.2DDBS的數(shù)據(jù)分片分割的輸出是分配的輸入。顯然,分割與分配有著天然的聯(lián)系,二者的區(qū)別僅在于分割著眼于全局,分配則考慮片斷關(guān)系。分割是在邏輯上對(duì)數(shù)據(jù)庫進(jìn)行分解,所以分割的片段稱之為邏輯片段;而分配的內(nèi)容是考慮物理上數(shù)據(jù)表的存儲(chǔ),因此稱為物理映象。MEDIAASSETMANAGEMENT§7.4.2DDBS的數(shù)據(jù)分片數(shù)據(jù)分配一般有以下幾種方式:1.集中型數(shù)據(jù)雖經(jīng)分片,但所有邏輯片斷完全集中在一個(gè)場(chǎng)地上,仍然像一個(gè)集中數(shù)據(jù)庫一樣。2.分割型數(shù)據(jù)被分片后,所有邏輯片斷各自分配在一個(gè)場(chǎng)地上,所有場(chǎng)地上分配的只是全局關(guān)系的一個(gè)子關(guān)系。3.混合型數(shù)據(jù)被分片后的邏輯片斷根據(jù)需要分配,共享的片斷在需要共享的場(chǎng)地上重復(fù)設(shè)置,高度私用的片斷只設(shè)置在所需要的場(chǎng)地上。MEDIAASSETMANAGEMENT§7.4.2DDBS的數(shù)據(jù)分片為了保證數(shù)據(jù)分片的有效性,需滿足以下幾項(xiàng)條件:1.完備性條件:必須把全局關(guān)系的所有數(shù)據(jù)映射到片段中,決不允許有屬于全局關(guān)系的數(shù)據(jù)卻不屬于它的任何一個(gè)片段。2.可重構(gòu)條件:必須保證能夠由同一個(gè)全局關(guān)系的各個(gè)片段來重建該全局關(guān)系。對(duì)于水平分片可用并操作重構(gòu)全局關(guān)系;對(duì)于垂直分片可用聯(lián)接操作重構(gòu)全局關(guān)系。3.不相交條件:要求一個(gè)全局關(guān)系被分割后所得的各個(gè)數(shù)據(jù)片段互不重疊(對(duì)垂直分片的主鍵除外)。MEDIAASSETMANAGEMENT§7.4.3DDBS的一些特點(diǎn)1.數(shù)據(jù)的物理分布性與邏輯整體性這種邏輯整體性也可以稱之為數(shù)據(jù)的分布透明性。也就是用戶不必關(guān)心數(shù)據(jù)的邏輯分片,不必關(guān)心數(shù)據(jù)物理位置的分布細(xì)節(jié),同時(shí)也不必關(guān)心數(shù)據(jù)的冗余處理、不必關(guān)心具體某個(gè)場(chǎng)地的數(shù)據(jù)庫類型。在用戶看來,所有的這些不同的數(shù)據(jù)庫都是一個(gè)完整的整體。

MEDIAASSETMANAGEMENT§7.4.3DDBS的一些特點(diǎn)2.場(chǎng)地自治和協(xié)調(diào)

數(shù)據(jù)的共享分為兩個(gè)層次,局部共享和全局共享。局部共享是指局部場(chǎng)地上存儲(chǔ)的該場(chǎng)地上用戶之間的共享數(shù)據(jù),在本地用戶之間共享這些數(shù)據(jù);全局共享則是DDBS中各個(gè)場(chǎng)地存儲(chǔ)的供其它場(chǎng)地用戶使用的共享數(shù)據(jù),支持全局的應(yīng)用。所以,DDBS常采用集中和自治相結(jié)合的控制策略。局部的DBMS可以管理該場(chǎng)地的數(shù)據(jù)庫,具有自治功能;同時(shí),系統(tǒng)中又設(shè)置有全局集中控制機(jī)構(gòu),來對(duì)各個(gè)獨(dú)立的數(shù)據(jù)庫進(jìn)行協(xié)調(diào),執(zhí)行全局應(yīng)用。

MEDIAASSETMANAGEMENT§7.4.3DDBS的一些特點(diǎn)3.數(shù)據(jù)的冗余及冗余透明性

在DDBS中,常常需要增加冗余數(shù)據(jù),在不同的場(chǎng)地存儲(chǔ)數(shù)據(jù)的多個(gè)副本。通過增加冗余數(shù)據(jù),可以提高系統(tǒng)的可靠性,當(dāng)某個(gè)場(chǎng)地的數(shù)據(jù)出現(xiàn)故障之后,可以利用其它場(chǎng)地的數(shù)據(jù)進(jìn)行操作;另外也提高了系統(tǒng)性能,用戶可以選擇最近的副本,減小網(wǎng)絡(luò)開銷。這種冗余對(duì)用戶來說是透明的,但是,數(shù)據(jù)冗余也增加了分布式數(shù)據(jù)庫更新維護(hù)方面的操作成本,需要著重處理數(shù)據(jù)的不一致問題。

MEDIAASSETMANAGEMENT§7.4.3DDBS的一些特點(diǎn)4.事務(wù)管理的分布性

數(shù)據(jù)分布性造成事務(wù)執(zhí)行和管理的分布性。在DDBS中,全局的應(yīng)用需要涉及到兩個(gè)以上的節(jié)點(diǎn),而全局的事務(wù)則可能由不同場(chǎng)地上的多個(gè)操作組成。這樣,如果在一個(gè)某一個(gè)節(jié)點(diǎn)發(fā)生故障,操作失敗了,那么就會(huì)有這樣的一些問題:如何執(zhí)行事務(wù)的回滾,如何通知其它節(jié)點(diǎn)撤回操作,或者是其它節(jié)點(diǎn)不必執(zhí)行事務(wù)其它操作等等。

MEDIAASSETMANAGEMENT§7.4.4DMDBS的特點(diǎn)傳統(tǒng)的DDBS提倡有一定的數(shù)據(jù)冗余,以增加數(shù)據(jù)通信量為代價(jià),增加局部數(shù)據(jù)庫的自治性。但是,分布式多媒體數(shù)據(jù)庫系統(tǒng)(DMDBS)已不再提倡這種數(shù)據(jù)冗余,這是因?yàn)槎嗝襟w數(shù)據(jù)的尺寸龐大,冗余存儲(chǔ)這樣的數(shù)據(jù)會(huì)造成嚴(yán)重的資源浪費(fèi)。傳統(tǒng)DDBS的其它特點(diǎn)仍適用于多媒體的情況,除此之外,DMDBS還增加了一些新的特點(diǎn):MEDIAASSETMANAGEMENT§7.4.4DMDBS的特點(diǎn)1.實(shí)時(shí)性多媒體數(shù)據(jù)的展示具有實(shí)時(shí)性,即數(shù)據(jù)按一定的速率進(jìn)行展示,傳統(tǒng)的DDBS總是將查詢的結(jié)果一并傳送到用戶所在結(jié)點(diǎn),對(duì)于具有實(shí)時(shí)性的多媒體數(shù)據(jù)已不再適合,其原因有兩方面:用戶的等待時(shí)間過長(zhǎng):具有時(shí)序?qū)傩缘亩嗝襟w對(duì)象的尺寸巨大,一次性地傳輸會(huì)花費(fèi)很長(zhǎng)的時(shí)間。用戶所在結(jié)點(diǎn)的存儲(chǔ)容量有限:用于存儲(chǔ)連續(xù)媒體的節(jié)點(diǎn)計(jì)算機(jī)一般都要采用磁盤陣列,但網(wǎng)絡(luò)系統(tǒng)中不可能每個(gè)節(jié)點(diǎn)都具有這樣的存儲(chǔ)容量。連續(xù)媒體需要高速、等時(shí)的傳輸,而對(duì)于傳輸時(shí)所產(chǎn)生的誤碼并不特別敏感;傳統(tǒng)數(shù)據(jù)對(duì)傳輸?shù)恼_性要求較高,但對(duì)傳輸時(shí)的延時(shí)與抖動(dòng)并不敏感。這種要求對(duì)傳統(tǒng)的網(wǎng)絡(luò)通信協(xié)議提出了新的挑戰(zhàn)。MEDIAASSETMANAGEMENT§7.4.4DMDBS的特點(diǎn)2.同步性對(duì)于傳統(tǒng)的DDBS,其查詢結(jié)果的輸出,一般只考慮各片段的聯(lián)結(jié)運(yùn)算。對(duì)于多媒體數(shù)據(jù)而言,不但要考慮內(nèi)容上的合成,而且還要考慮各多媒體對(duì)象在時(shí)序以及空間上的合成。所以,分布式MMDB需要在同步的描述和同步的實(shí)現(xiàn)這兩個(gè)層次上考慮多媒體對(duì)象的同步集成。MEDIAASSETMANAGEMENT§7.4.4DMDBS的特點(diǎn)3.服務(wù)質(zhì)量QoS系統(tǒng)的資源是有限的,不可能滿足無限多用戶的需求。各個(gè)用戶針對(duì)自己的具體應(yīng)用,并不一定需要嚴(yán)格按存儲(chǔ)數(shù)據(jù)的原始的分辨率、播放速率和展示尺寸提供。為了能夠得到系統(tǒng)的服務(wù),用戶一般容許有一定的質(zhì)量降低,這與用戶對(duì)傳統(tǒng)數(shù)據(jù)的需求有很大差別。例如,字符數(shù)值串所反映的含義會(huì)因?yàn)榇心骋淮a的丟失或錯(cuò)誤而不能被理解。但對(duì)于視頻、聲頻、圖像等多媒體數(shù)據(jù),即使其分辨率降低、部分碼丟失,用戶一般也能理解其展示的含義。所以,為了盡量多地增加用戶數(shù)量,充分滿足不同用戶的需求,系統(tǒng)應(yīng)提供服務(wù)質(zhì)量(QoS)的描述接口。MEDIAASSETMANAGEMENT§7.4.5DMDBS的系統(tǒng)結(jié)構(gòu)分布式MMDBS的典型結(jié)構(gòu)。全局模式管理完成數(shù)據(jù)的一致性維護(hù),進(jìn)行必要的模式變換以及對(duì)全局事務(wù)的并發(fā)控制,使數(shù)據(jù)的結(jié)構(gòu)、物理存儲(chǔ)、分布性等對(duì)外透明,向上提供一個(gè)統(tǒng)一的多媒體操作接口。MEDIAASSETMANAGEMENT§7.4.6DMDBS的實(shí)現(xiàn)途徑1.遠(yuǎn)程調(diào)用范型對(duì)于DDBS,RPC(遠(yuǎn)程調(diào)用)是實(shí)現(xiàn)Client/Server結(jié)構(gòu)的最原始的方法。但是傳統(tǒng)的RPC方式一般只適合于短消息的通信控制,而連續(xù)媒體的操作則要求批量數(shù)據(jù)的均勻的、長(zhǎng)時(shí)間無干擾的通信控制。因此,RPC接口標(biāo)準(zhǔn)中應(yīng)增加對(duì)多媒體數(shù)據(jù)時(shí)序同步描述的定義。另外,RPC接口標(biāo)準(zhǔn)應(yīng)該能夠處理用戶對(duì)服務(wù)質(zhì)量的定義,以便盡可能多地增加用戶數(shù)。遠(yuǎn)程調(diào)用方式的不足:企業(yè)可能有多個(gè)數(shù)據(jù)庫服務(wù)器,用戶必須了解它們所提供的不同接口、數(shù)據(jù)的分布情況,以協(xié)調(diào)對(duì)各個(gè)服務(wù)器的調(diào)用;軟件的復(fù)用性差,企業(yè)的各個(gè)數(shù)據(jù)庫服務(wù)器可能是在不同時(shí)期建立的,當(dāng)需要利用各服務(wù)器中的數(shù)據(jù)共同完成某項(xiàng)任務(wù)時(shí),用戶不得不在RPC接口層上重新編輯應(yīng)用程序,這樣就極大地浪費(fèi)了人力和物力。MEDIAASSETMANAGEMENT§7.4.6DMDBS的實(shí)現(xiàn)途徑2.中間件(Middleware)技術(shù)為了提高分布式系統(tǒng)構(gòu)造的靈活性和軟件的可復(fù)用性,屏蔽各廠家數(shù)據(jù)庫服務(wù)器接口的不統(tǒng)一,現(xiàn)在多采用中間件技術(shù)。中間件的作用是為了屏蔽不同操作系統(tǒng)接口的差異及分布性,為用戶提供一個(gè)統(tǒng)一的應(yīng)用開發(fā)接口。MEDIAASSETMANAGEMENT§7.4.6DMDBS的實(shí)現(xiàn)途徑分布式面向?qū)ο蠓缎褪橇硪活愔虚g件技術(shù),這一范型標(biāo)準(zhǔn)充分利用面向?qū)ο竽P偷膬?yōu)點(diǎn),屏蔽了由于對(duì)象所在平臺(tái)的不同、位置的不同以及對(duì)象的遷移等所帶來的問題,為用戶提供了一個(gè)一致的、分布透明的面向?qū)ο蠼涌?。因?yàn)镸MDB一般傾向于采用面向?qū)ο蟮姆缎蛯?shí)現(xiàn),所以這種接口方式對(duì)于MMDB的分布式構(gòu)造較為平滑。這一范型的工業(yè)標(biāo)準(zhǔn)較多,如Microsoft公司的COM(ComponentObjectModel)、IBM公司的SOM(SystemObjectModel)、國(guó)際標(biāo)準(zhǔn)組織(CommonManagementGroup,CMG)的CORBA等。MEDIAASSETMANAGEMENT§7.4.6DMDBS的實(shí)現(xiàn)途徑3.Agent技術(shù)利用Agent模型構(gòu)造分布式系統(tǒng)。Agent技術(shù)是分布式人工智能領(lǐng)域中發(fā)展起來的一種新型計(jì)算模型,具有智能化程度高、分布式系統(tǒng)構(gòu)造靈活、軟件的復(fù)用性強(qiáng)等優(yōu)點(diǎn)。Agent能夠感知外界發(fā)生的消息,根據(jù)自己所具有的知識(shí)自動(dòng)做出反應(yīng)。利用這一技術(shù)實(shí)現(xiàn)DMDBS時(shí),應(yīng)考慮:(1)如何將已有的計(jì)算實(shí)體(多媒體對(duì)象、元組、一般的數(shù)據(jù)文件等)構(gòu)造成Agent;(2)如何實(shí)現(xiàn)Agent之間的通信。Agent技術(shù)還有待進(jìn)一步標(biāo)準(zhǔn)化。MEDIAASSETMANAGEMENTMEDIAASSETMANAGEMENT第7章多媒體數(shù)據(jù)庫技術(shù)關(guān)系數(shù)據(jù)庫概述1多媒體數(shù)據(jù)庫概述

2面向?qū)ο髷?shù)據(jù)庫技術(shù)

3分布式多媒體數(shù)據(jù)庫

4檢索技術(shù)簡(jiǎn)介

5§7.5.1

全文檢索全文檢索也稱為自然語言檢索,是指不對(duì)信息資源進(jìn)行人工標(biāo)引,由計(jì)算機(jī)直接對(duì)文本正文進(jìn)行匹配查找。全文檢索解決了一般非結(jié)構(gòu)化文字信息內(nèi)容的查詢問題,有效解決了關(guān)系數(shù)據(jù)庫管理系統(tǒng)不能很好查詢非結(jié)構(gòu)化信息的問題。全文檢索通常有兩種方式:一是文本正文用分詞詞典進(jìn)行自動(dòng)切詞,使用停用詞表排除無檢索意義的詞語,將所有有用的詞建立索引,實(shí)際檢索時(shí),不是在文本中檢索,而是在詞語索引中檢索。二是不建立索引,直接對(duì)檢索文本逐字進(jìn)行匹配。MEDIAASSETMANAGEMENT§7.5.1

全文檢索文本檢索系統(tǒng)的系列檢索的技術(shù)方法:(1)精確檢索。就是要與用戶的檢索詞精確匹配。在英文檢索中對(duì)大小寫敏感。(2)布爾檢索。即按照布爾邏輯,采用邏輯運(yùn)算符將檢索提問轉(zhuǎn)換為相應(yīng)的邏輯表達(dá)式進(jìn)行檢索。一般包括邏輯與(概念的限定)、邏輯或(概念的聯(lián)合)、邏輯非(概念的排除)。(3)截詞檢索。采用截?cái)嗟姆绞?,利用詞的片段進(jìn)行檢索。截詞檢索是一種用字面相似檢索相關(guān)資料的檢索方法,在西文檢索中使用較為普遍,例如在西文中利用詞根進(jìn)行檢索。中文檢索系統(tǒng)中的模糊檢索實(shí)際上就是一種截詞檢索。

MEDIAASSETMANAGEMENT§7.5.1

全文檢索(4)限定范圍檢索??梢酝ㄟ^限定檢索范圍(或字段),縮小檢索范圍,使檢索更具有針對(duì)性。幾個(gè)字段的邏輯組合檢索及位置檢索也屬于限定范圍檢索。(5)相關(guān)檢索。即提供各種相關(guān)資料檢索的手段。包括:在顯示檢索結(jié)果時(shí),也顯示相似檢索結(jié)果,供用戶擴(kuò)大檢索范圍;在顯示檢索結(jié)果的同時(shí)顯示相關(guān)詞,只有當(dāng)用戶點(diǎn)擊這些相關(guān)詞時(shí),系統(tǒng)才利用這些相關(guān)詞檢索并顯示相關(guān)檢索結(jié)果。(6)二次檢索。這是目前的全文檢索系統(tǒng)中使用最為廣泛的一種檢索方法。就是對(duì)檢出的結(jié)果進(jìn)一步加以限定,改進(jìn)查準(zhǔn)率。MEDIAASSETMANAGEMENT§7.5.1

全文檢索另外,在全文檢索系統(tǒng)中,檢索結(jié)果的顯示也是影響檢索效果的一個(gè)重要方面。檢索結(jié)果的排序方式有很多種,如:按時(shí)間排序、按檢索詞在命中資源中的詞頻排序、按范疇分組排序等。目前,較多的是采用相關(guān)度排序。它以檢索詞與信息資源的相關(guān)性為依據(jù)對(duì)檢索結(jié)果排序,相關(guān)性是對(duì)詞頻、詞語在信息資源中出現(xiàn)的位置以及其它的一些因素加權(quán)得到的結(jié)果。MEDIAASSETMANAGEMENT§7.5.1

全文檢索衡量全文檢索系統(tǒng)的優(yōu)劣,主要包括如下幾個(gè)方面:(1)查全率:指系統(tǒng)在進(jìn)行某一檢索時(shí),檢索出的相關(guān)資料量與系統(tǒng)資料庫中相關(guān)資料總量的比率。(2)查準(zhǔn)率:指系統(tǒng)在進(jìn)行某一檢索時(shí),檢索出的有用資料數(shù)量與檢索出資料總量的比率。(3)響應(yīng)時(shí)間:指的是從提交檢索課題到查出資料結(jié)果所需的時(shí)間。最基本的檢索速度是應(yīng)該達(dá)到“千萬漢字,秒級(jí)響應(yīng)”。(4)用戶負(fù)擔(dān):指用戶在檢索過程中付出精力的總和。(5)輸出形式:指全文檢索系統(tǒng)的檢索結(jié)果的排序方式和顯示方式。MEDIAASSETMANAGEMENT§7.5.1

全文檢索在全文檢索系統(tǒng)中查全率并不是一個(gè)很突出的問題。查準(zhǔn)率卻顯得日益重要。查全率與查準(zhǔn)率是互為消長(zhǎng)的。也就是說,當(dāng)要保證系統(tǒng)有較高的查全率時(shí),必然會(huì)犧牲系統(tǒng)的查準(zhǔn)率,反之亦然。當(dāng)信息量非常大時(shí),查全率高不僅要犧牲系統(tǒng)的查準(zhǔn)率,還會(huì)給用戶帶來比較大的負(fù)擔(dān)。因?yàn)?,用戶需要從?shù)量巨大的檢索結(jié)果中挑選其真正需要的信息。雖然,系統(tǒng)可以通過改進(jìn)相關(guān)性排序的算法,來減少用戶的挑選時(shí)間,但是對(duì)于相關(guān)性的判斷卻具有很強(qiáng)的主觀性,不同知識(shí)結(jié)構(gòu)和不同需求的用戶對(duì)同一資源的相關(guān)性判斷可能會(huì)不同。因此,提高系統(tǒng)的查準(zhǔn)率是非常重要的。MEDIAASSETMANAGEMENT§7.5.1

全文檢索2.后控詞檢索“后控”是相對(duì)于“先控”而言的,是指在標(biāo)引階段不進(jìn)行控制,而在檢索階段進(jìn)行控制,一般的后控檢索在后臺(tái)都有一個(gè)后控詞表。在標(biāo)引階段,類似于自然語言的標(biāo)引階段,通過自由標(biāo)引,利用作者語言或標(biāo)引員的語言來描述文本,也可以不標(biāo)引。在檢索階段,拋棄了自然語言不作任何控制的作法,而是借鑒了先控語言的思想,在用戶概念化其信息需求,形成自己的檢索表達(dá)式之后,由檢索系統(tǒng)自動(dòng)用事先已經(jīng)建立好的后控詞表,進(jìn)行同義檢索、等級(jí)檢索和相關(guān)檢索。MEDIAASSETMANAGEMENT§7.5.1

全文檢索在全文檢索系統(tǒng)中使用后控詞檢索技術(shù),是因?yàn)椋海?)在全文檢索系統(tǒng)中,由于沒有進(jìn)行同義控制,同一主題文獻(xiàn)在檢索系統(tǒng)中大量分散,系統(tǒng)的查全率相應(yīng)降低。(2)在全文檢索系統(tǒng)中,非同一主題的文獻(xiàn)由于沒有區(qū)分多義詞和詞義含糊詞,只是一種簡(jiǎn)單的字面匹配,必然會(huì)造成在檢出的條目中有大量的無用信息,這樣在很大程度上降低了檢索系統(tǒng)的查準(zhǔn)率,增加了用戶的檢索負(fù)擔(dān)。(3)由于自然語言檢索所用的詞語都是相互獨(dú)立的,詞語之間缺乏關(guān)系的控制與揭示,所以,在全文檢索系統(tǒng)中難以靈活地進(jìn)行擴(kuò)檢、縮檢和改變檢索范圍。(4)在全文檢索系統(tǒng)中,由于對(duì)檢索者的要求相對(duì)較高。檢索輸出的條目信息數(shù)量非常大,也增加了檢索者判斷和挑選的時(shí)間,從這個(gè)角度講,也增加了檢索者的智力負(fù)擔(dān)。MEDIAASSETMANAGEMENT§7.5.1

全文檢索利用后控詞表進(jìn)行檢索,既可以提高查全率,又可以提高查準(zhǔn)率。后控詞表主要通過進(jìn)行詞間關(guān)系控制,來實(shí)現(xiàn)檢索時(shí)的后控作用。包括:(1)等級(jí)關(guān)系控制:指上下位概念之間的關(guān)系。作用是用于揭示主題詞之間的分屬關(guān)系,通過對(duì)它們的顯示,引導(dǎo)用戶擴(kuò)大和縮小檢索范圍,提高檢索的靈活性。(2)等同關(guān)系控制:作用是通過對(duì)同義關(guān)系詞的聯(lián)結(jié),增加檢索入口,提高檢全率。等同關(guān)系涉及的類型包括:語義同義詞之間、近義詞之間、學(xué)稱與俗稱之間、全稱與簡(jiǎn)稱之間、外文與中文名之間以及短語和它的各種組配形式之間等多種情況。MEDIAASSETMANAGEMENT§7.5.1

全文檢索(3)相關(guān)關(guān)系控制:指主題詞之間除等同關(guān)系、等級(jí)關(guān)系之外,語義相關(guān)的一種關(guān)系。相關(guān)關(guān)系是揭示主題詞之間各種聯(lián)系、擴(kuò)大檢索范圍、進(jìn)行相關(guān)資料查找的重要手段。相關(guān)關(guān)系涉及范圍廣、種類多、靈活性大,很難嚴(yán)格界定,一般無法也沒有必要做到完全意義上的相關(guān)關(guān)系控制。在有后控詞檢索的全文檢索系統(tǒng)中,當(dāng)用戶輸入檢索詞后,系統(tǒng)不直接進(jìn)行檢索,而是先與后控詞表里的詞進(jìn)行匹配,如果詞表中有這個(gè)檢索詞,系統(tǒng)將自動(dòng)利用這個(gè)詞及其等同詞進(jìn)行檢索,同時(shí)在檢索結(jié)果中顯示等級(jí)關(guān)系詞和相關(guān)詞,供檢索用戶參考、選用。這樣將大大提高檢索系統(tǒng)的查全率和查準(zhǔn)率。MEDIAASSETMANAGEMENT§7.5.2多媒體數(shù)據(jù)的檢索對(duì)于多媒體數(shù)據(jù)檢索而言,從其檢索模式來看,經(jīng)歷了從上世紀(jì)70年代到80年代的基于元數(shù)據(jù)(文本)的多媒體檢索,發(fā)展到上世紀(jì)90年代初的基于內(nèi)容的多媒體檢索,再發(fā)展到上世紀(jì)90年代末的基于語義和內(nèi)容相結(jié)合的混合多媒體檢索,最后發(fā)展到目前正在研究的跨媒體檢索。其中前兩者是針對(duì)單一類型的媒體對(duì)象的檢索,后兩者則針對(duì)多種類型媒體對(duì)象的綜合檢索。MEDIAASSETMANAGEMENT§7.5.2多媒體數(shù)據(jù)的檢索1.基于元數(shù)據(jù)(文本)的檢索模式文本信息檢索技術(shù)在過去的幾十年中得到了充分的研究,并已成功運(yùn)用于諸如Google、Lycos等商用搜索引擎中。在

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論