多媒體信息處理MultimediaComputing張福炎2000117課件_第1頁
多媒體信息處理MultimediaComputing張福炎2000117課件_第2頁
多媒體信息處理MultimediaComputing張福炎2000117課件_第3頁
多媒體信息處理MultimediaComputing張福炎2000117課件_第4頁
多媒體信息處理MultimediaComputing張福炎2000117課件_第5頁
已閱讀5頁,還剩135頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

1、 多媒體信息處理( Multimedia Computing )張福炎2000/11/72022/9/221內(nèi) 容0 Space of Multimedia Computing1 Media and Multimedia2 Media Processing2.1 Media Food(Value) Chain2.2 Digital Item Declaration2.3 Multimedia Content Representation(coding)2.4 Digital Item Identification and Description2.5 Content Management an

2、d Usage3 Networked Multimedia Applications2022/9/222以文本為主以音頻為主以視(音)頻為主離散媒體:text, image,連續(xù)媒體:audio, video, .0 多媒體信息處理空間媒體處理媒體類型單媒體復(fù)合媒體應(yīng)用模式單機(jī)應(yīng)用模式網(wǎng)絡(luò)應(yīng)用模式獲取(創(chuàng)建)編 輯管 理 傳 輸檢 索描 述展 現(xiàn)說 明編 碼2022/9/223多媒體信息處理的總目標(biāo) To enable transparent and augmented use of multimedia resources across a wide range of networks an

3、d devices.使能跨越各種不同網(wǎng)絡(luò)和設(shè)備, 透明地、強(qiáng)化地使用多媒體資源。2022/9/2241.1 計(jì)算機(jī)與媒體媒體又稱媒介、媒質(zhì),指的是用于表示、存儲、分發(fā)、傳輸和展現(xiàn)數(shù)據(jù)(信息) 的手段、方法、工具、設(shè)備或裝置。 ( In general, one describes medium as a means for representation, storage, distribution, transmission and presentation of data. )2022/9/226計(jì)算機(jī)與媒體CPUOutputDeviceStorageInputDevice表示媒體存儲媒體展

4、現(xiàn)媒體展現(xiàn)媒體感覺媒體感覺媒體表示媒體傳輸媒體2022/9/227 感覺媒體 表示媒體舉例視覺媒體文字景象聽覺媒體語言聲音觸覺媒體嗅覺媒體味覺媒體力,運(yùn)動,溫度氣味滋味聲音景象類 型 名 稱 分類 時(shí)間屬性/空間屬性/生成屬性 圖象(image)圖形(graphics)文本(text)視頻(video)動畫(animation)合成語音MIDI音樂(MIDI)MP3音樂波形聲音(wave)2022/9/229表示媒體的時(shí)間屬性time-independent ( discrete ) media(離散媒體,值不會隨著時(shí)間而變化)text , graphics , static image, .

5、time-dependent ( continuous ) media (連續(xù)媒體,值隨著時(shí)間而變化)speech , music , video , animation, .2022/9/2210表示媒體的空間屬性1D媒體單聲道speech , music , 2D媒體雙聲道m(xù)usic ; text , image , 2D graphics ,3D及多維媒體3D graphics , 全景圖像 , 空間立體聲music , 2022/9/2211表示媒體的生成屬性自然媒體(使用數(shù)字化方法從現(xiàn)實(shí)世界獲取的媒體)取樣聲音 , image , video合成媒體(使用計(jì)算機(jī)創(chuàng)建的媒體)合成語音,

6、 MIDI , graphics , animation2022/9/2212多媒體系統(tǒng)中聽覺媒體的分類 來源 機(jī)外形式 空間屬性 媒體名稱 語言 1D 波形語音 語言 多維 多聲道波形語音 非語言 1D 波形聲音 非語言 多維 雙聲道/3D立體聲 語言 1D 合成語音 語言 多維 多聲道合成語音 音樂 1D 合成音樂(MIDI音樂) 音樂 多維 多聲道合成音樂自然媒體合成媒體2022/9/2213多媒體系統(tǒng)中視覺媒體的分類 來源 機(jī)外形式 時(shí)間 空間屬性 媒體名稱 文字 靜止 2D 取樣文本 圖畫 靜止 2D 取樣圖像(image) 圖畫 靜止 3D 全景圖像 圖畫 活動 2D 視頻(vid

7、eo) 圖畫 活動 3D 臨境視頻 文字 靜止 2D 編碼文本(簡稱文本) 圖畫 靜止 2D 二維圖形 圖畫 靜止 3D 三維圖形 圖畫 活動 2D 二維動畫 圖畫 活動 3D 三維動畫自然媒體合成媒體2022/9/22141.3 多媒體 多媒體強(qiáng)調(diào)的是使用多種媒體、綜合表達(dá)信息內(nèi)容并進(jìn)行交互式處理的技術(shù)。從本質(zhì)上來說,它具有三種最重要的特性:1 媒體的多樣性,其中至少有一種連續(xù)媒體;2 媒體的集成性(綜合性),多種不同媒體綜合地表現(xiàn)某個(gè)內(nèi)容,取得更好的效果;3 處理的交互性,使人們獲取和使用信息的過程中具有細(xì)粒度的控制和操縱能力。2022/9/2216多媒體是信息技術(shù)發(fā)展的必然趨勢計(jì)算機(jī)通

8、信大眾傳媒數(shù)值計(jì)算數(shù)據(jù)處理圖形、圖象處理聲音處理視頻處理郵 政電 報(bào)電 話傳 真數(shù)據(jù)通信綜合業(yè)務(wù)(N-ISDN)多媒體書,刊,報(bào)紙廣 播電 影電 視光盤出版物交互電視網(wǎng)絡(luò)出版支持寬帶綜合業(yè)務(wù)的數(shù)據(jù)通信網(wǎng)絡(luò)信息技術(shù)走向匯聚和融合2022/9/22172.1 媒體食物(價(jià)值)鏈2022/9/2219媒體處理內(nèi)容對媒體進(jìn)行的各種處理:媒體準(zhǔn)備(media preparation)媒體獲取/媒體創(chuàng)建媒體編輯(media editing)媒體集成/組合(media integration / composition)結(jié)構(gòu)描述、特征描述、應(yīng)用描述.媒體通信/發(fā)送(media communication /

9、 delivery)媒體消費(fèi)(media consumption)媒體轉(zhuǎn)換(碼),展現(xiàn), 瀏覽, 檢索,.2022/9/2220媒體食物(價(jià)值)鏈多媒體作品(文檔)媒體集成媒體編輯媒體準(zhǔn)備媒體編輯媒體準(zhǔn)備媒體編輯媒體準(zhǔn)備媒體編輯媒體準(zhǔn)備網(wǎng)絡(luò)媒體通信媒體消費(fèi)文本圖像音頻視頻內(nèi)容(content)媒體展現(xiàn)媒體消費(fèi)媒體展現(xiàn)數(shù)字項(xiàng) (digital item)2022/9/2221多媒體(內(nèi)容)處理的7要素1 數(shù)字項(xiàng)目說明(Digital Item Declaration)2 內(nèi)容表示(Content Representation)3 數(shù)字項(xiàng)目的標(biāo)識與描述(Digital Item Identific

10、ation and Description)4 內(nèi)容管理與使用(Content Management and Usage)5 知識產(chǎn)權(quán)管理與保護(hù)(Inte11ectual Property Management and Protection)6 內(nèi)容發(fā)送與終端及網(wǎng)絡(luò)(Terminals and Networks)7 事件報(bào)告(Event Reporting)。2022/9/22222.2 Digital Item Declaration2022/9/2223GoalEstablish a uniform and flexible abstraction and interoperable sc

11、hema for defining digital items.為定義數(shù)字項(xiàng)而建立一個(gè)統(tǒng)一、靈活的抽象表示和可互操作的模式。2022/9/2224Digital Item Declaration的需求An individual element may be referenced by multiple locations within a digital item. 一個(gè)元素可以被數(shù)字項(xiàng)中的多個(gè)地方引用.To enable applications to correctly manipulate and validate digital items.能使應(yīng)用程序正確操縱和驗(yàn)證數(shù)字項(xiàng).Ident

12、ification and revision of digital items and their components must be supportable in an open and extensible manner.對數(shù)字項(xiàng)及其組件的標(biāo)識和修改必須以開放和可擴(kuò)展的方式進(jìn)行.2022/9/2226Digital Item Declaration的需求2Digital items explicitly define the relationships between elements and their corresponding descriptors.數(shù)字項(xiàng)對其元素與相應(yīng)描述符之間

13、的關(guān)系顯式地進(jìn)行定義Descriptors may be simple statements or full media components.描述符可以是簡單語句也可以是整個(gè)媒體組件Descriptors can be described by other descriptors.描述符也可以由其它描述符描述Anchors must be declarable within a component that allow:descriptors to be associated with a specific point or range within a media resource.lin

14、king back from within a media resource to the anchor.錨(anchor)必須在一個(gè)組件中予以說明,從而允許描述符與媒體資源中的一個(gè)指定點(diǎn)或指定范圍相關(guān)聯(lián),也允許從媒體資源反向鏈接到錨。2022/9/2227舉例: MPEG-4的場景說明MPEG-4 視聽場景(audiovisual scenes) 是由若干媒體對象(media objects)以層次方式組合而成的,最低層的稱為初級(primitive) 媒體對象, 如: still images (e.g. as a fixed background), video objects (e.g

15、. a talking person - without the background) audio objects (e.g. the voice associated with that person); text and graphics; talking synthetic heads and associated text used to synthesize the speech and animate the head;synthetic sound初級媒體對象既可以是自然媒體,也可以是合成媒體,既可以是 2維的,也可以是3維的。2022/9/2229MPEG-4的場景說明MPE

16、G-4視聽場景的描述可以看作一棵樹, 葉節(jié)點(diǎn)是初級媒體對象, 中間節(jié)點(diǎn)是復(fù)合媒體對象(compound media objects),根節(jié)點(diǎn)則為場景。使用這種方法, 內(nèi)容提供商(作者)可以構(gòu)造出相當(dāng)復(fù)雜的場景, 例如: place media objects anywhere in a given coordinate system; apply transforms to change the geometrical or acoustical appearance of a media object; group primitive media objects in order to fo

17、rm compound media objects; apply streamed data to media objects, in order to modify their attributes (e.g. a sound, a moving texture belonging to an object; animation parameters driving a synthetic face); change, interactively, the users viewing and listening points anywhere in the scene. 2022/9/223

18、0視聽場景的說明由4個(gè)復(fù)合媒體對象(人,背景,家具,音視演示)組成。系統(tǒng)定義了一個(gè)場景坐標(biāo)系, 然后可以指定組成該場景的媒體對象在該坐標(biāo)系中的位置,并可設(shè)定用戶觀察該場景時(shí)所在的坐標(biāo)位置,這些位置信息都會包含在場景的描述中。2022/9/2231視聽場景的說明2022/9/2232視聽場景的說明1 對象是如何組合在一起的。MPEG-4的場景的組織呈樹狀結(jié)構(gòu),它是一個(gè)無回路的有向圖,圖中每個(gè)節(jié)點(diǎn)代表一個(gè)媒體對象。樹的結(jié)構(gòu)未必是不變的,當(dāng)增加節(jié)點(diǎn)、刪除節(jié)點(diǎn)或替換節(jié)點(diǎn)時(shí),節(jié)點(diǎn)的屬性(如位置參數(shù))就會發(fā)生修改。2 對象的空間和時(shí)間定位。MPEG-4中,每一個(gè)視聽對象都有其空間和時(shí)間范圍, 有自己的局部

19、坐標(biāo)系。局部坐標(biāo)系是用作在空間和時(shí)間范圍內(nèi)操縱該媒體對象的手柄(handle) ,通過指定一個(gè)將對象從局部坐標(biāo)系變換到全局坐標(biāo)系的坐標(biāo)變換,可以將媒體對象放置在場景中規(guī)定位置處。3屬性值選擇。單個(gè)的媒體對象和場景描述節(jié)點(diǎn)向組合層(composition layer)提供了一組參數(shù),從而使它們的部分行為可以進(jìn)行控制。例如: 聲音的音調(diào),合成對象的顏色,可分級編碼的增強(qiáng)信息的起用和停止等。2022/9/2233多媒體內(nèi)容的展現(xiàn)2022/9/22342.3 Multimedia Content Representation(coding)2022/9/2235 Rationale (基本原理)Con

20、tent 是多媒體技術(shù)框架中最重要的要素, 它需要進(jìn)行編碼、標(biāo)識、描述、存儲、分發(fā)、保護(hù)、交易、消費(fèi)等等。它以滿足一組需求的數(shù)字編碼方式表示,數(shù)字內(nèi)容的有效表示將會允許開展許多新的服務(wù).2022/9/2236Requirements 1Data Types it shall be possible to represent a large range of data types, both with natural and synthetic origin, as well as any combination of these data types, e.g. still pictures,

21、 frame-based as well as arbitrarily shaped video, specific and generic 3D models, graphics, text, natural and synthetic audio, natural and synthetic speech, etc.數(shù)據(jù)類型:應(yīng)能夠表示各種不同的數(shù)據(jù)類型,包括自然的和合成的,也包括兩者的組合。如:靜止圖像,其于幀的視頻,任意形狀的視頻,專用的和通用的3D模型,圖形,文本,自然聲音和合成聲音,自然語音和合成語音等。 2022/9/2237Requirements 2Content Varie

22、ty it shall be possible to represent any type of content for all the data types considered. 內(nèi)容種類:上述所有數(shù)據(jù)類型應(yīng)能表示任何種類的內(nèi)容。 2022/9/2238Requirements 3Efficiency it shall be possible to represent content for each of the data types above mentioned in the most bit efficient way for different target qualities;

23、 for a multimedia scene composed as a combination of various elements of the data types mentioned above, it shall be possible to selectively choose the coding efficiency/quality for each one of them. 有效性:根據(jù)不同的目標(biāo)質(zhì)量,上述每一種數(shù)據(jù)類型都使用最有效的數(shù)據(jù)位來表示內(nèi)容。對于由不同數(shù)據(jù)類型的多種元素組成的多媒體場景,應(yīng)能對每個(gè)元素選擇其編碼的效率/質(zhì)量。2022/9/2239Requirem

24、ents 4Scalability it shall be possible to represent all the elements in the multimedia scene in a scalable way and with a fine granularity in the dimensions considered relevant, e.g. spatial, temporal, quality.可分級性:應(yīng)能以一種可分級的方法來表示多媒體場景中的所有元素,且在所考慮的相關(guān)維度如時(shí)間、空間、質(zhì)量上是細(xì)粒度可分級的。2022/9/2240Requirements 5Rando

25、m Access it shall be possible to randomly access, within a limited time and with fine resolution, at all scalable layers, all elements in the multimedia scene; for a multimedia scene composed as a combination of various elements of the data types mentioned above, it shall be possible to randomly acc

26、ess each one of them.隨機(jī)存?。涸谝欢〞r(shí)間內(nèi),以比較精細(xì)的分辨率,在所有可分級的層次中,對多媒體場景中的所有元素可以進(jìn)行隨機(jī)存??;對于由不同數(shù)據(jù)類型元素組成的多媒體場景,應(yīng)能隨機(jī)存取場景中的每一個(gè)元素。2022/9/2241Requirements 6Error Resilience it shall be possible to selectively protect the various elements in a multimedia scene against channel errors with relevant error patterns, e.g. mo

27、bile networks, ATM networks or storage media.出錯恢復(fù):對多媒體場景中的各種元素,應(yīng)能有選擇地進(jìn)行保護(hù),以免受到通道錯誤的影響,如移動網(wǎng)絡(luò)、 ATM網(wǎng)絡(luò)或存儲介質(zhì)錯誤等。 2022/9/2242Requirements 7Interaction it shall be possible to interact with the various elements in the multimedia scene, with a fine granularity, both in space and time; for a multimedia scene

28、 composed as a combination of various elements of the data types mentioned above, it shall be possible to independently interact with each one of them.交互:無論是時(shí)間和空間,應(yīng)能以細(xì)粒度方式與多媒體場景中的各種元素進(jìn)行交互;對于由不同數(shù)據(jù)類型元素組成的多媒體場景,應(yīng)能單獨(dú)同其中的每個(gè)元素進(jìn)行交互。2022/9/2243Requirements 8Synchronization it shall be possible to synchroniz

29、e all the elements in the multimedia scene as well as other relevant data.同步:應(yīng)能對多媒體場景中所有元素以及其它相關(guān)數(shù)據(jù)進(jìn)行同步。2022/9/2244Requirements 9Multiplexing it shall be possible to multiplex the coded data corresponding to the various elements in the multimedia scene as well as other relevant data. 復(fù)用:應(yīng)能對多媒體場景中不同元素

30、的編碼數(shù)據(jù)以及其它相關(guān)數(shù)據(jù)進(jìn)行復(fù)用。2022/9/2245Current Situation編碼問題已研究了很多年,已經(jīng)有了很多有名的標(biāo)準(zhǔn),涉及許多種媒體, 滿足了不同類型的需求. 例如:still pictures: JPEG, JPEG-LS and JPEG2000frame-based video: H.261, H.263, MPEG-1 and MPEG-2 Video object-based pictures and video: MPEG-4 Visual. audio: MPEG-1, MPEG-2 and MPEG-4 Audio, speech: G.723, G.72

31、8 and MPEG-4 Audio.synthetic visual content, VRML and MPEG-4 synthetic audio content , MIDI and MPEG-4 Audio.盡管這些標(biāo)準(zhǔn)在滿足相關(guān)需求方面已相當(dāng)完整,但現(xiàn)有標(biāo)準(zhǔn)并不完全滿足某些需求。2022/9/2246例1: 數(shù)字聲音的編碼標(biāo)準(zhǔn)ITU(CCITT): G.711,721,722,編碼對象:自然語音應(yīng)用領(lǐng)域:通信ISO/IEC:MPEG-1 audio (11172-3) : 1993MPEG-2 BC (13818-3) : 1995MPEG-2 AAC (13818-7) : 19

32、98MPEG-4 audio (14496-3) : 19992022/9/2247編碼對象:自然聲音(全頻道) 取樣頻率(kHz) 聲道數(shù)目MPEG-1 audio : 32, 44.1, 48 單,雙MPEG-2 BC : 增加16, 22.05, 24 5.1, 7.1MPEG-2 AAC : 8-96 48個(gè)主聲道, 16個(gè)LFE, MPEG-4 audio : 8-962022/9/2248編碼對象:合成聲音 MPEG-1 audio : 無MPEG-2 BC : 無MPEG-2 AAC : 無MPEG-4 audio : 合成語音, 合成音樂2022/9/2249輸出碼率 碼率范圍

33、(kbps) 全頻道聲音MPEG-1 audio : 32-384 384(I), 256-192(II), 128-112(III)MPEG-2 BC : 8-640 同MPEG-1MPEG-2 AAC : 8-160/CH 約 64/CHMPEG-4 audio : 2-64/CH 約 64/CH2022/9/2250功能(functionality)MPEG-1 audio :對錯誤的魯棒性功能MPEG-2 BC : 對錯誤的魯棒性功能MPEG-2 AAC :對錯誤的魯棒性,可分級性功能MPEG-4 audio : 播放速度控制功能音調(diào)(pitch)變化功能對錯誤的魯棒性功能可分級性(s

34、caleability)功能2022/9/2251可分級性(scaleability)功能MPEG-1 audio :無MPEG-2 BC : 無MPEG-2 AAC : 取樣率可分級(SSR)MPEG-4 audio : Bit rate scalabilityBandwidth scalabilityEncoder complexity scalabilitydecoder complexity scalability2022/9/2252編碼原理MPEG-1 audio ,MPEG-2 BC, MPEG-2 AAC : 基于心理聲學(xué)的感知編碼,特別是頻率域的聽覺掩蔽特性.MPEG-4 a

35、udio : 各種編碼技術(shù)通用聲音編碼器對MPEG-2 AAC 作了改進(jìn)和擴(kuò)充;自然語音編碼器對LPC, CELP等作了改進(jìn)和擴(kuò)充,增加了可分級性功能.2022/9/2253Scalabilities in MPEG-4/CELP2022/9/2254對“對象”的支持MPEG-1 audio ,MPEG-2 BC, MPEG-2 AAC : 不支持MPEG-4 audio:把聲音對象定義為“可聽見的語義實(shí)體”.若干聲音對象可以組合或混合在一起成為一個(gè)復(fù)合對象, 稱為Audio-Composition Objects:Natural audio,Synthetic audio,ControlOp

36、erations on objects:SynchronizeDecodeCompose into compound objectsPresentInteract2022/9/2255MPEG-4 聲音的應(yīng)用2022/9/2256例2: JPEG2000的目標(biāo)1 Superior low bit-rate performance: 例如具有豐富細(xì)節(jié)的灰度圖像在不犧牲其性能時(shí)壓縮比低于0.25 bpp. 這是優(yōu)先級最高的目標(biāo),網(wǎng)絡(luò)圖像傳輸和遙感需要此特性.2022/9/2257JPEG2000的目標(biāo)2 Continuous-tone and bi-level compression: 使用相似的

37、系統(tǒng)資源,既能壓縮連續(xù)色調(diào)圖像又能壓縮2值圖像. 可處理各種動態(tài)范圍的圖像 (如每個(gè)顏色分量 1 bit to 16 bit). 此類應(yīng)用有混合文檔,帶有注釋的醫(yī)學(xué)圖像,圖表及帶有2值或近似2值區(qū)域、 alpha平面和透明面的計(jì)算機(jī)合成圖像,傳真圖像等。2022/9/2258JPEG2000的目標(biāo)3 Lossless and lossy compression: 提供無失真壓縮累進(jìn)式解碼。此類應(yīng)用有醫(yī)學(xué)圖像,圖像存檔,網(wǎng)絡(luò)應(yīng)用,印前圖像處理。4 Progressive transmission by pixel accuracy and resolution: 以像素精度或分辨率作為單位的累進(jìn)

38、式傳輸。此類應(yīng)用有WWW,圖像存檔,打印機(jī)等。2022/9/2259JPEG2000的目標(biāo)5 Fixed-rate, fixed-size, limited workspace memory: 固定速率指的是給定數(shù)目的連續(xù)像素編碼后比特?cái)?shù)應(yīng)小于等于一定值,這就允許解碼器在帶寬有限的通道上進(jìn)行實(shí)時(shí)解碼,如遙感圖像,運(yùn)動編碼等。 固定大小指的是一幅完整圖像的碼流的大小應(yīng)為定值,這就允許存儲空間有限的硬件能保存一個(gè)完整的碼流(不管圖像大小), 例如掃描儀,打印機(jī)等。2022/9/2260JPEG2000的目標(biāo)6 Random codestream access and processing: 隨機(jī)碼

39、流存取指:允許用戶定義圖像中感興趣的區(qū)域( Regions-Of-Interest, ROI) ,并能以較小的失真對它進(jìn)行隨機(jī)存取and/or 解碼; 隨機(jī)碼流處理包括:rotation, translation, filtering, feature extraction, scaling, etc.2022/9/2261JPEG2000的目標(biāo)7 Robustness to bit-errors: 這在無線通信時(shí)很重要。由于解碼時(shí)碼流中的某些部分在決定圖像質(zhì)量方面比其它部分更加重要, 碼流的正確設(shè)計(jì)能幫助后繼的錯誤改正系統(tǒng)以減輕解碼錯誤。2022/9/2262JPEG2000的目標(biāo)8 Ope

40、n architecture: 開放的體系結(jié)構(gòu)能為不同類型的圖像和應(yīng)用優(yōu)化系統(tǒng)性能。做法是開發(fā)高靈活性的編碼工具或采用描述語言分發(fā)和集成新的壓縮工具。允許用戶選擇適合其應(yīng)用和將來發(fā)展的工具,解碼器只要實(shí)現(xiàn)核心的一組工具和能理解碼流的一個(gè)語法分析器,在需要時(shí),解碼器可以向“源”請求發(fā)送一個(gè)未知的工具。2022/9/2263JPEG2000的目標(biāo)9 Sequential build-up capability (real time coding): 能順序地一趟對圖像進(jìn)行編碼和解碼,對圖像的分量可以交錯地也可以順序地進(jìn)行處理。壓縮和解壓縮期間,使用的上下文應(yīng)限定在合理的像素線數(shù)目內(nèi)。2022/9/

41、2264JPEG2000的目標(biāo)10 Backwards compatibility with JPEG: It is desirable to provide for backwards compatibility (or easy transcoding) with the current JPEG standards.2022/9/2265JPEG2000的目標(biāo)11 Content-based description: Finding an image in a large database of images is an important problem in image proces

42、sing. For example, a doctor could request only images from a set that are recognized to have a certain type of tumor. This could have major applicability to the medical, law enforcement and environmental communities, and for image archival applications. Regardless of the techniques used, JPEG 2000 s

43、hould strive to provide the opportunity for solutions to this problem.2022/9/2266JPEG2000的目標(biāo)12 Protective image security: 保護(hù)數(shù)字圖像安全。方法如: watermarking, labeling, stamping, fingerprinting, encryption, scrambling, etc. Labeling is already implemented in SPIFF and must be easy to transfer back and forth

44、to JPEG 2000 image file. Stamping is a mark set on top of a displayed image that can only be removed by a specific process. Encryption, and scrambling can be applied on the whole image file or limited to part of it (header, directory, image data) to avoid unauthorized use of the image. (Note: The is

45、sue of whether JPEG2000 should cover specific solutions to encryption, watermarking, authentication algorithms should be revisited)2022/9/2267JPEG2000的目標(biāo)13 Compatibility with ITU-T recommendations for image exchange: 傳真也是JPEG 2000的應(yīng)用, ITU-T關(guān)于圖像交換的建議也將用來交換和發(fā)送JPEG 2000的編碼圖像 ,JPEG 2000編碼圖像也會符合 ITU-T Re

46、c關(guān)于灰度圖像和彩色圖像編碼的需求。2022/9/2268JPEG2000的目標(biāo)14 Interface with MPEG-4: JPEG2000所開發(fā)的壓縮靜止圖像的編碼工具應(yīng)當(dāng)以合適的接口提供給MPEG-4,從而允許交換和集成(與MPEG-4之類的面向語法的編碼方案框架),特別是在向/從運(yùn)動圖像嵌入/抽取靜止圖像時(shí),必須保持知識產(chǎn)權(quán)信息IPR。2022/9/2269JPEG2000的目標(biāo)15 Side channel spatial information (transparency): alpha平面和透明平面之類的邊通道空間信息,可用于傳輸有關(guān)圖像處理(如顯示、打印或編輯等)信息時(shí)有

47、用,例如透明平面可用于WWW應(yīng)用。2022/9/2270JPEG2000的目標(biāo)16 Object Based Functionality -Object based composition: 具有任意形狀(或透明性)的多個(gè)對象將允許用戶能非常靈活地復(fù)合出許多不同的靜止圖像。Object based information embedding: 附加在每個(gè)對象上的對象描述信息,為數(shù)字圖像的索引和檢索提供了一種有效的方法。2022/9/22712.4 Digital Item Identification and Description2022/9/2272Rationaledigital ite

48、m that is identified and described is more manageable and bears a higher value. A digital item that is identified and described enables a large number of possible applications including IPMP, search, filtering, cataloguing, 經(jīng)過標(biāo)識和描述的數(shù)據(jù)項(xiàng)更便于管理,因而具有更高的使用價(jià)值。經(jīng)過標(biāo)識和描述的數(shù)據(jù)項(xiàng)將會使大量的應(yīng)用成為可能,例如: IPMP、搜索、濾波、分類 。 202

49、2/9/2273Expected impact A framework for common identification and description of digital items will enable efficient deployment of business models and applications requiring rights management, automated transaction and billing, monitoring, search, retrieval, cataloguing, 一個(gè)用于數(shù)字項(xiàng)的公用標(biāo)識和描述框架,將會使得需要版權(quán)管理

50、、自動交易和支付、監(jiān)控、搜索、檢索、目錄服務(wù)等功能的商業(yè)模型和應(yīng)用得到更加有效的開展。2022/9/2274Requirements 1(標(biāo)識什么?)Content: which could be a representation of the abstract work(內(nèi)容的摘要表示)Transactions and/or Contracts: such as transaction number(內(nèi)容交易和/或合同的標(biāo)識)Physical and/or Legal Persons: Rights Holders, Licensees, Publishers, Providers, Dis

51、tributors, Retailers, Consumers(物理人和/或法人的標(biāo)識)Usage rules: Copy, Pay per view, Pay per listen, (使用規(guī)則的標(biāo)識)2022/9/2275Requirements 2 (對標(biāo)識的使用)Access authorization(訪問授權(quán)): read, change, write, 與標(biāo)識符和描述符的交互應(yīng)是靈活的、多種多樣的。例如,根據(jù)不同的應(yīng)用,對它們的存取可以采用簡單的、加密的或者嵌入的方式,可以授權(quán)也可以不授權(quán)。2022/9/2276Requirements 3 (標(biāo)識的操作模式)Systems an

52、d processes for identification should ensure persistency and consistency.標(biāo)識系統(tǒng)和標(biāo)識方法應(yīng)保證持久性和一致性。 Systems for description should ensure consistency. Identification and description should be coherent with each other.描述系統(tǒng)應(yīng)保證一致性。標(biāo)識與描述應(yīng)連貫一致。More over, they should also allow both static and dynamic identific

53、ation and description schemas e.g. the ID and description of a digital item could be changed when its right holder changes.應(yīng)既允許靜態(tài)的標(biāo)識與描述方案也允許動態(tài)的方案,例如當(dāng)數(shù)字項(xiàng)的版權(quán)持有者改變時(shí), 其ID和描述也應(yīng)隨之改變。2022/9/2277Requirements 4 (標(biāo)識的成本)Systems and processes for identification and description should allow a full range of appli

54、cations and business models from low cost and simple approaches to richer and more sophisticated ones. 用于標(biāo)識與描述的系統(tǒng)和方法,應(yīng)允許全范圍的應(yīng)用和商業(yè)模型, 從低成本、簡單方法到高代價(jià)、復(fù)雜方法都能支持。2022/9/2278Current Situation 1所有權(quán)標(biāo)識(辨認(rèn))是一項(xiàng)支離破碎的、無窮盡的、動態(tài)變化的工作,它涉及法律(legal)和契約(contractual)問題.目前,所有權(quán)標(biāo)識系統(tǒng)與標(biāo)準(zhǔn)化的標(biāo)識方法同時(shí)存在,一些標(biāo)識符已成功地應(yīng)用了多年,但只是針對單媒體類型, 如

55、ISBN(國際標(biāo)準(zhǔn)書號)、ISRC(International Standard Recording Code)、URN(Universal Resource Number全球資源號)、 URI(Universal Resource Identifier全球資源標(biāo)識符)等。有些工作正在進(jìn)行之中,如 ISAN(International Standard Audiovisual Number國際標(biāo)準(zhǔn)音視頻號碼)、 ISWC(Information System Work Code信息系統(tǒng)工作碼)、 DOI(Digital Object Initiative數(shù)字對象創(chuàng)新計(jì)劃)、 cIDf(cont

56、ent ID forum,內(nèi)容 ID論壇)。2022/9/2279Current Situation 2Lack of integration between the different schemas of different sectors(不同部門不同方案之間缺少集成)Lack of standard dynamic identification schemas when entities related to the content (digital item) change(當(dāng)與內(nèi)容關(guān)聯(lián)的實(shí)體變化時(shí),缺乏標(biāo)準(zhǔn)的動態(tài)標(biāo)識方法)Lack of standard methods to di

57、fferentiate between versions of a digital item when it is revised(缺乏區(qū)分不同版本數(shù)字項(xiàng)的標(biāo)準(zhǔn)方法)2022/9/2280Current Situation 3Lack of interoperability among identification schemas for the purpose of common applications e.g. automated transaction/billing systems.(在自動交易/支付系統(tǒng)之類的公共應(yīng)用中,標(biāo)識方案缺少互操作性)Lack of internationa

58、l standard identification schemas for some entities (i.e. text, images, speech, etc.)(某些實(shí)體缺少國際標(biāo)準(zhǔn)的標(biāo)識方案)Lack of granularity definition/guideline for giving an ID to a digital item(為數(shù)字項(xiàng)賦于ID時(shí),缺少粒度大小的定義/指導(dǎo))2022/9/2281Current Situation 4Lack of scalability in the identification process accommodating from

59、self-publishing to large scale identification.(標(biāo)識過程中缺少可分級性)Conflicting requirements to identify a digital item depending on the purpose of identification, such asCommerce (search, purchase, acquisition, etc) Rights management 由于標(biāo)識的目的不同(如商業(yè)目的和版權(quán)管理目的),引起需求的沖突.Inconsistency of schemas between and withi

60、n media sectors(在媒體之間或媒體內(nèi)部標(biāo)識方案的不一致性)2022/9/2282舉例: MPEG-7 (Multimedia Content Description Interface) Context(背景)世界各地的數(shù)字化視聽信息越來越多. 人們在使用任何信息之前,首先要找到信息。然而,信息越來越多,檢索越來越困難. 目前,檢索文本信息有一些辦法,WWW上就有許多text-based search engines . 然而,由于視聽材料沒有通用的可識別的描述,因此無法進(jìn)行識別. 尋找內(nèi)容的問題不僅在數(shù)據(jù)庫檢索應(yīng)用中存在,在其它領(lǐng)域也存在,如數(shù)字廣播的頻道越來越多,如何找到感興

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論