國際視頻壓縮標準簡介_第1頁
國際視頻壓縮標準簡介_第2頁
國際視頻壓縮標準簡介_第3頁
國際視頻壓縮標準簡介_第4頁
國際視頻壓縮標準簡介_第5頁
已閱讀5頁,還剩113頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

1、1 國際視頻壓縮標準簡介國際視頻壓縮標準簡介 多媒體技術(shù) 2 主要內(nèi)容 視頻壓縮標準發(fā)展歷史 H.26X系列壓縮標準簡介 MPEG系列壓縮標準簡介 3 視頻壓縮標準發(fā)展歷史 ITU: ISO/IEC: H.261 H.262 H.263 H.263+ H.264 MPEG1 MPEG2MPEG4 (Part2) MPEG7 MPEG21MPEG4(Part10) 4 MPEG是什么 MPEG(Moving Picture Expert Group)是在1988年由國際標 準化組織(International Organization for Standardization, ISO)和國際電工

2、委員會(International Electrotechnical Commission,IEC)聯(lián)合成立的專家組,負責(zé)開發(fā)電視圖像 數(shù)據(jù)和聲音數(shù)據(jù)的編碼、解碼和它們的同步等標準。這個專 家組開發(fā)的標準稱為MPEG標準,到目前為止,已經(jīng)開發(fā)和 正在開發(fā)的MPEG標準有: MPEG-1:數(shù)字電視標準,1992年正式發(fā)布。 MPEG-2:數(shù)字電視標準。 MPEG-3:已于1992年7月合并到高清晰度電視(High-Definition TV, HDTV)工作組。 MPEG-4:多媒體應(yīng)用標準(1999年發(fā)布)。 MPEG-5:直至1998年9月還沒有見到定義。 MPEG-6:直至1998年9月還

3、沒有見到定義。 MPEG-7:多媒體內(nèi)容描述接口標準(正在研究)。 5 MPEG-1和-2標準已經(jīng)正式發(fā)布,并且得到廣泛應(yīng)用。例如,CD-交 互系統(tǒng),在網(wǎng)絡(luò)上的數(shù)字聲音廣播、數(shù)字電視廣播和影視點播等。表 8-01是MPEG-1和-2的典型編碼參數(shù)。 6 MPEG文件的創(chuàng)建過程 與其他ISO標準文件一樣,MPEG標準文件的創(chuàng)建過程分 成4個階段: 工作文件(Working Draft,WD):工作組(Working Group,WG)準 備的工作文件 委員會草案(Committee Draft,CD):從工作組WG準備好的工作 文件WD提升上來的文件。這是ISO文檔的最初形式,它由ISO內(nèi) 部正

4、式調(diào)查研究和投票表決。 國際標準草案(Draft International Standard,DIS):投票成員國對 CD的內(nèi)容和說明滿意之后由委員會草案CD提升上來的文件。 國際標準(International Standard,IS):由投票成員國、ISO的其 他部門和其他委員會投票通過之后出版發(fā)布的文件。 7 視頻壓縮標準對比 H.261 p64k b/s視頻 編碼標 準 時間 1990年12月 輸入 176144(QCIF) 352288(CIF) 幀速率可變H.263MPEG2 壓縮算法 運動補償幀間預(yù)測(單雙向預(yù)測) DCT 局部算法改進 可伸縮性 應(yīng)用 通用電話交換網(wǎng)、局域網(wǎng)的

5、視頻通信 11 視頻壓縮標準對比(續(xù)) MPEG 4(Part 2) MPEG 4 Visual 甚 低 碼 率 活 動 圖 像 及 其 伴 音 編 碼 標 準 時間 1999年 輸入 176144的多種分辨率格式 輸出 4.6Kb/s64Kb/s 壓縮率 100 壓縮算法 基于對象的新一代編碼技術(shù),注重交 互性,即可包含自然對象,又可包含 人工合成對象 應(yīng)用 可應(yīng)用范圍很廣、目前多用于因特網(wǎng) 視頻傳輸、流媒體應(yīng)用 12 視頻壓縮標準對比(續(xù)) H.264 MPEG 4(Part1 0) MPEG 4 AVC 時間 2003年5月 輸入 多種分辨率格式 輸出 壓縮率 壓縮率最高的視頻壓縮標準,

6、比 MPEG4 Visual節(jié)約50的碼率 壓縮算法 基于傳統(tǒng)框架的混合編碼系統(tǒng),只是 做了局部優(yōu)化。更注重編碼效率和可 靠性 應(yīng)用 視頻廣播、視頻通信和存儲媒體(CD DVD)等多種應(yīng)用 13 MPEG-1視頻壓縮標準 MPEG-1處理的是標準圖像交換格式(Standard Interchange format,SIF)或者稱為源輸入格式(Source Input Format, SIF)的電視,即NTSC制為352像素x 240行/幀x 30幀/秒, PAL制為352像素x 288行/幀x25幀/秒,壓縮的輸出速率定 義在1.5 Mbit/s以下。這個標準主要是針對當(dāng)時具有這種數(shù) 據(jù)傳輸率

7、的CD-ROM和網(wǎng)絡(luò)而開發(fā)的,用于在CD-ROM上 存儲數(shù)字影視和在網(wǎng)絡(luò)上傳輸數(shù)字影視。 MPEG-1的標準號為ISO/IEC 11172,標準名稱為“信息技術(shù)用于數(shù) 據(jù)速率高達大約1.5 Mbit/s的數(shù)字存儲媒體的電視圖像和伴音編 碼”Information technology Coding of moving pictures and associated audio for digital storage media at up to about 1.5 Mbit/s)。 14 MPEG-1視頻壓縮標準 MPEG-1已于1991年底被ISO/IEC采納,由五個部分組成: MPEG-1

8、系統(tǒng),寫成MPEG-1 Systems,規(guī)定電視圖像數(shù)據(jù)、聲音數(shù)據(jù) 及其他相關(guān)數(shù)據(jù)的同步,標準名是ISO/IEC 11172-1:1993 Information technology Coding of moving pictures and associated audio for digital storage media at up to about 1.5 Mbit/s Part 1: Systems。 MPEG-1電視圖像,寫成MPEG-1 Video, 規(guī)定電視數(shù)據(jù)的編碼和解碼, 標準名是ISO/IEC 11172-2:1993 Information technology Co

9、ding of moving pictures and associated audio for digital storage media at up to about 1.5 Mbit/s Part 2:Video。 MPEG-1聲音,寫成MPEG-1 Audio, 規(guī)定聲音數(shù)據(jù)的編碼和解碼,標準 名是ISO/IEC 11172-3:1993 Information technology Coding of moving pictures and associated audio for digital storage media at up to about 1.5 Mbit/s Par

10、t 3:Audio。 15 MPEG-1一致性測試,寫成MPEG-1 Conformance testing,標準 名是ISO/IEC 11172-4:1995 Information technology Coding of moving pictures and associated audio for digital storage media at up to about 1.5 Mbit/s Part 4:Conformance testing。 這個標準詳細說明如何測試比特數(shù)據(jù)流(bitstreams)和解碼器是否 滿足MPEG-1前3個部分(Part1,2和3)中所規(guī)定的要求。這

11、些測 試可由廠商和用戶實施。 MPEG-1軟件模擬,寫成MPEG-1 Software simulation,標準名 是ISO/IEC TR 11172-5 Information technology Coding of moving pictures and associated audio for digital storage media up to about 1.5 Mbit/s Part 5:Software simulation。實際上, 這部分的內(nèi)容不是一個標準,而是一個技術(shù)報告,給出了用軟件 執(zhí)行MPEG-1標準前3個部分的結(jié)果。 MPEG-1譯碼器方框圖 16 MPEG-

12、2數(shù)字電視標準 MPEG-2標準從1990年開始研究,1994發(fā)布DIS。 它是一個直接與數(shù)字電視廣播有關(guān)的高質(zhì)量圖像 和聲音編碼標準。 MPEG-2可以說是MPEG-1的擴充,因為它們的 基本編碼算法都相同。但MPEG-2增加了許多 MPEG-1所沒有的功能: 例如增加了隔行掃描電視的編碼, 提供了位速率的可變性能(scalability)功能。 MPEG-2要達到的最基本目標是:位速率為49 Mbit/s, 最高達15 Mbit/s。 17 MPEG-2的標準號為ISO/IEC 13818,標準名稱為“信息 技術(shù)電視圖像和伴音信息的通用編碼(Information technology G

13、eneric coding of moving pictures and associated audio information )”。MPEG-2包含10個部分: MPEG-2系統(tǒng),寫成MPEG-2 Systems,規(guī)定電視圖像數(shù) 據(jù)、聲音數(shù)據(jù)及其他相關(guān)數(shù)據(jù)的同步,標準名是ISO/IEC 13818-1:1996 Information technology Generic coding of moving pictures and associated audio information :Systems。 18 MPEG-2的系統(tǒng)模型如圖所示。這個標準主要是用來定義電視圖 像數(shù)據(jù)、聲音

14、數(shù)據(jù)和其他數(shù)據(jù)的組合,把這些數(shù)據(jù)組合成一個或 者多個適合于存儲或者傳輸?shù)幕緮?shù)據(jù)流。數(shù)據(jù)流有兩種形式: 一種稱為程序數(shù)據(jù)流(Program Stream,PS) 程序數(shù)據(jù)流是組合一個或者多個規(guī)格化的即包化基本數(shù)據(jù)流 (Packetised Elementary Streams,PES)而生成的一種數(shù)據(jù)流, 用在出現(xiàn)錯誤相對比較少的環(huán)境下,適合使用軟件處理的應(yīng)用; 另一種稱為傳輸數(shù)據(jù)流(Transport Stream,TS)。 傳輸數(shù)據(jù)流也是組合一個或者多個PES而生成的一種數(shù)據(jù)流, 它用在出現(xiàn)錯誤相對比較多的環(huán)境下,例如在有損失或者有噪 聲的傳輸系統(tǒng)中。 圖MPEG-2的系統(tǒng)模型 19 MP

15、EG-2電視圖像,寫成MPEG-2 Video,規(guī)定電視數(shù)據(jù)的編碼和解碼, 標準名是ISO/IEC 13818-2:1996 Information technology Generic coding of moving pictures and associated audio information :Video。 為了適應(yīng)各種應(yīng)用,這個標準定義了電視圖像的各種規(guī)格,稱為配置 (profile),如表所示。表中的“X”符號表示MPEG-2支持的配置。 有些人認為使用4:2:0子采樣格式的圖像質(zhì)量還不夠好, 因此在1996年的標準中增加了4:2:2子采樣格式的圖像。 多視角配置(Multiv

16、iew Profile,MVP)是附加的配置。 20 MPEG-2聲音,寫成MPEG-2 Audio,規(guī)定聲音數(shù)據(jù)的編碼 和解碼,是MPEG-1 Audio的擴充,支持多個聲道,標準名 是ISO/IEC 13818-3:1998 Information technology Generic coding of moving pictures and associated audio information Part 3:Audio。 MPEG-2一致性測試,寫成MPEG-2 Conformance testing, 標準名是ISO/IEC DIS 13818-4 Information tec

17、hnology Generic coding of moving pictures and associated audio information Part 4:Conformance testing。 MPEG-2軟件模擬,寫成MPEG-2 Software simulation,標 準名是ISO/IEC TR 13818-5:1997 Information technology Generic coding of moving pictures and associated audio information Part 5:Software simulation。 21 MPEG-2數(shù)

18、字存儲媒體命令和控制擴展協(xié)議,寫成MPEG-2 Extensions for DSM-CC,標準名是ISO/IEC DIS 13818-6 Information technology Generic coding of moving pictures and associated audio information Part 6:Extensions for DSM-CC。 這是一個數(shù)字存儲媒體命令和控制(Digital Storage Media Command and Control,DSM-CC)擴展協(xié)議,用于管理MPEG-1和MPEG-2的數(shù) 據(jù)流,使數(shù)據(jù)流既可在單機上運行,又可在異

19、構(gòu)網(wǎng)絡(luò)(即用類似設(shè)備構(gòu) 造但運行不同協(xié)議的網(wǎng)絡(luò))環(huán)境下運行。 在DSM-CC模型中,服務(wù)器(server)和客戶器(client)都被認為是DSM- CC網(wǎng)絡(luò)的用戶(user),DSM-CC定義了一個稱為會話和資源管理 (Session and Resource Manager,SRM)的實體,用來集中管理網(wǎng)絡(luò) 中的會話和資源,如圖所示。 DSM-CC參考模型 22 MPEG-2先進聲音編碼,寫成MPEG-2 AAC,是多聲道聲音編碼算法標準。 這個標準除后向兼容MPEG-1 Audio標準之外,還有非后向兼容的聲音標 準。標準名是ISO/IEC 13818-7:1997 Informatio

20、n technology Generic coding of moving pictures and associated audio information Part 7:Advanced Audio Coding (AAC)。 MPEG-2系統(tǒng)解碼器實時接口擴展標準,標準名是ISO/IEC 13818-9: 1996 Information technology Generic coding of moving pictures and associated audio information Part 9:Extension for real time interface for sys

21、tems decoders。 這是與傳輸數(shù)據(jù)流(Transport Stream)的實時接口(real-time interface, RTI)標準,它可以用來適應(yīng)來自網(wǎng)絡(luò)的傳輸數(shù)據(jù)流,如圖所示。 實時接口參考模型 23 MPEG-2 DSM-CC一致性擴展測試,標準名是ISO/IEC DIS 13818-10 Information technology Generic coding of moving pictures and associated audio information Part 10:Conformance extensions for Digital Storage Me

22、dia Command and Control (DSM-CC)。 10 MPEG-2先進聲音編碼標準修正版,標準名是Amendment 1 to ISO/IEC TR 13818-5:1997 Amendment 1 to ISO/IEC TR 13818-5: 1997 Advanced Audio Coding (AAA)。 最后要說明的是,MPEG-2的Part 8原計劃用于采樣精度為10比特的 電視圖像編碼,但由于目前工業(yè)界對此興趣不大,因此該標準已暫停 開發(fā)。 24 MPEG-4多媒體應(yīng)用標準 標準概要 MPEG-4從1994年開始工作,它是為視聽(audio-visual)數(shù)據(jù)的

23、編碼和 交互播放開發(fā)算法和工具,是一個數(shù)據(jù)速率很低的多媒體通信標準。 MPEG-4的目標是要在異構(gòu)網(wǎng)絡(luò)環(huán)境下能夠高度可靠地工作,并且具 有很強的交互功能。 為了達到這個目標,MPEG-4引入了對象基表達(object-based representation)的概念,用來表達視聽對象(audio/visual objects, AVO); MPEG-4擴充了編碼的數(shù)據(jù)類型,由自然數(shù)據(jù)對象擴展到計算機生成 的合成數(shù)據(jù)對象,采用合成對象/自然對象混合編碼(Synthetic/Natural Hybrid Coding,SNHC)算法; 25 在實現(xiàn)交互功能和重用對象中引入了組合、合成和編排等重要概

24、念。 MPEG-4系統(tǒng)構(gòu)造如圖8-05所示,接收端的構(gòu)造部件如圖8-06所示。 26 27 MPEG-4中制定了一個稱為傳輸多媒體集成框架(Delivery Multimedia Integration Framework,DMIF)的會話協(xié)議,它 用來管理多媒體數(shù)據(jù)流。 該協(xié)議在原則上與文件傳輸協(xié)議FTP(File Transfer Protocol) 類似,其差別是: FTP返回的是數(shù)據(jù), 而DMIF返回的是指向到何處獲取數(shù)據(jù)流的指針。 DMIF覆蓋了三種主要技術(shù): 廣播技術(shù), 交互網(wǎng)絡(luò)技術(shù) 光盤技術(shù), 如圖所示。 DMIF覆蓋 的三種主 要技術(shù) 28 MPEG-4將應(yīng)用在移動通信和公用電

25、話交換 網(wǎng)(public switched telephone network, PSTN)上,并支持可視電話(videophone)、 電視郵件(video mail)、電子報紙(electronic newspapers)和其他低數(shù)據(jù)傳輸速率場合下 的應(yīng)用。 29 MPEG-4的標準名是Very-low bitrate audio-visual coding (甚低速率 視聽編碼)。截止到1998年9月,已作為國際標準草案(Draft International Standard,DIS)的MPEG-4文件有6個部分,它們是: MPEG-4系統(tǒng)標準,標準名是ISO/IEC DIS 1449

26、6-1 Very-low bitrate audio-visual coding Part 1: Systems。 MPEG-4電視圖像標準,標準名是ISO/IEC DIS 14496-2 Very low bitrate audio-visual coding Part 2: Video。 MPEG-4聲音標準,標準名是ISO/IEC DIS 14496-3 Very low bitrate audio-visual coding Part 3: Audio。 MPEG-4一致性測試標準,標準名是ISO/IEC DIS 14496-4 Very- low bitrate audio-visu

27、al coding Part 4: Conformance Testing。 MPEG-4參考軟件,標準名是ISO/IEC DIS 14496-5 Very-low bitrate audio-visual coding Part 5: Reference software MPEG-4傳輸多媒體集成框架,標準名是ISO/IEC DIS 14496-6 Very-low bitrate audio-visual coding Part 6: Delivery Multimedia Integration Framework (DMIF)。 30 MPEG-7多媒體內(nèi)容描述接口 MPEG-7的工

28、作于1996年啟動,名稱叫做多媒體內(nèi)容描述 接口(Multimedia Content Description Interface) , 目的是制定一套描述符標準,用來描述各種類型的多媒體信息及它 們之間的關(guān)系,以便更快更有效地檢索信息。 這些媒體材料可包括靜態(tài)圖像、圖形、3D模型、聲音、話音、電視 以及在多媒體演示中它們之間的組合關(guān)系。 在某些情況下,數(shù)據(jù)類型還可包括面部特性和個人特性的表達。 與其他的MPEG標準一樣,MPEG-7是為滿足特定需求而制 定的視聽信息標準。MPEG-7標準也是建筑在其他的標準之 上的, 例如,PCM, MPEG-1, MPEG-2和MPEG-4等等。 在MPE

29、G-7中,例如MPEG-4中使用的形狀描述符、MPEG-1和 MPEG-2中使用的移動矢量(motion vector)等都可能在MPEG-7中用 到。 31 圖8-08表示了MPEG-7的處理鏈(processing chain), 這是高度抽象的方框圖。在這個處理鏈中包含有三 個方框: 特征抽取(feature extraction)、 標準描述(standard description) 檢索工具(search engine)。 特征的自動分析和抽取對MPEG-7是至關(guān)重要的, 抽象程度越高,自動抽取也越困難,而且不是都能 夠自動抽取的,因此開發(fā)自動的和交互式半自動抽 取的算法和工具都是

30、很有用的。盡管如此,特征抽 取和檢索工具都不包含在MPEG-7標準中,而是留 給大家去競爭,以便得到最好的算法和工具。 32 MPEG-7的應(yīng)用領(lǐng)域 數(shù)字圖書館(Digital library), 例如圖像目錄、音樂詞典等; 多媒體目錄服務(wù)(multimedia directory services), 例如黃頁(yellow pages); 廣播媒體的選擇, 例如無線電頻道,TV頻道等; 多媒體編輯, 例如個人電子新聞服務(wù),多媒體創(chuàng)作等等。 潛在應(yīng)用的應(yīng)用領(lǐng)域包括: 教育、娛樂、新聞、旅游、醫(yī)療、購物等等。 33 MPEG聲音 與前面章節(jié)介紹的波形聲音壓縮編碼(如ADPCM) 和參數(shù)編碼(如

31、LPC)不同,MPEG-1和MPEG-2的 聲音數(shù)據(jù)壓縮編碼不是依據(jù)波形本身的相關(guān)性和 模擬人的發(fā)音器官的特性,而是利用人的聽覺系 統(tǒng)的特性來達到壓縮聲音數(shù)據(jù)的目的,這種壓縮 編碼稱為感知聲音編碼(perceptual audio coding)。 進入20世紀80年代之后,尤其最近幾年,人類在 利用自身的聽覺系統(tǒng)的特性來壓縮聲音數(shù)據(jù)方面 取得了很大的進展,先后制定了MPEG-1 Audio, MPEG-2 Audio和MPEG-2 AAC等標準。 34 MPEG聲音 MPEG Audio壓縮編碼算法中的三個特性: 響度、 音高 掩蔽效應(yīng)。 35 MPEG聲音 對響度的感知 聲音的響度就是聲音

32、的強弱。 在物理上,聲音的響度使用客觀測量單位來度量,即 dyn/cm2(達因/平方厘米)(聲壓)或W/cm2(瓦特/平方厘 米)(聲強)。 在心理上,主觀感覺的聲音強弱使用響度級“方(phon)” 或者“宋(sone)”來度量。 這兩種感知聲音強弱的計量單位是完全不同的兩 種概念,但是它們之間又有一定的聯(lián)系。 36 MPEG聲音 當(dāng)聲音弱到人的耳朵剛剛可以聽見時,我們稱此時的聲音 強度為“聽閾”。 例如,1 kHz純音的聲強達到10-16w/cm2(定義成零dB聲強級)時, 人耳剛能聽到,此時的主觀響度級定為零方。實驗表明,聽閾是 隨頻率變化的。測出的“聽閾頻率”曲線如圖9-01所示。圖中

33、最靠下面的一根曲線叫做“零方等響度級”曲線,也稱“絕對聽 閾”曲線,即在安靜環(huán)境中,能被人耳聽到的純音的最小值。 另一種極端的情況是聲音強到使人耳感到疼痛。 實驗表明,如果頻率為1 kHz的純音的聲強級達到120 dB左右時, 人的耳朵就感到疼痛,這個閾值稱為“痛閾”。對不同的頻率進 行測量,可以得到“痛閾頻率”曲線,如圖9-01中最靠上面所 示的一根曲線。這條曲線也就是120方等響度級曲線。 37 MPEG聲音 在“聽閾頻率”曲線和“痛閾頻 率”曲線之間的區(qū)域就是人耳的聽覺 范圍。這個范圍內(nèi)的等響度級曲線也 是用同樣的方法測量出來的。由圖9- 01可以看出,1 kHz的10 dB的聲音和 2

34、00 Hz的30 dB的聲音,在人耳聽起 來具有相同的響度。 圖9-01說明人耳對不同頻率的敏感程 度差別很大,其中對2 kHz4 kHz范 圍的信號最為敏感,幅度很低的信號 都能被人耳聽到。而在低頻區(qū)和高頻 區(qū),能被人耳聽到的信號幅度要高得 多。 圖9-01 “聽閾頻率”曲線 38 MPEG聲音 對音高的感知 客觀上用頻率來表示聲音的音高,其單位是Hz。而主觀感 覺的音高單位則是“美(Mel)”,主觀音高與客觀音高的關(guān)系 是:Mel=log2(1+f),其中 的單位為Hz,這也是兩個既不相同 又有聯(lián)系的單位。 人耳對響度的感覺有一個范圍,即從聽閾到痛閾。同樣, 人耳對頻率的感覺也有一個范圍。

35、人耳可以聽到的最低頻 率約20 Hz,最高頻率約18000 Hz。正如測量響度時是以 1 kHz純音為基準一樣,在測量音高時則以40 dB聲強為基 準,并且同樣由主觀感覺來確定。 39 MPEG聲音 測量主觀音高時,讓實驗者聽兩個聲強級為40 dB的純 音,固定其中一個純音的頻率,調(diào)節(jié)另一個純音的頻 率,直到他感到后者的音高為前者的兩倍,就標定這 兩個聲音的音高差為兩倍。實驗表明,音高與頻率之 間也不是線性關(guān)系。測出的“音高頻率”曲線如圖 所示。 “音高頻率”曲 線 40 MPEG聲音 掩蔽效應(yīng)掩蔽效應(yīng) 一種頻率的聲音阻礙聽覺系統(tǒng)感受另一 種頻率的聲音的現(xiàn)象稱為掩蔽效應(yīng)。 前者稱為掩蔽聲音(m

36、asking tone), 后者稱為被掩蔽聲音(masked tone)。 掩蔽可分成頻域掩蔽和時域掩蔽。 41 一個強純音會掩蔽在其附近同時發(fā)聲的弱純音,這種特性稱為頻域掩蔽, 也稱同時掩蔽(simultaneous masking)。 如圖9-03所示,一個聲強為60 dB、頻率為1000 Hz的純音,另外還 有一個1100 Hz的純音,前者比后者高18 dB,在這種情況下我們的 耳朵就只能聽到那個1000 Hz的強音。如果有一個1000 Hz的純音和 一個聲強比它低18 dB的2000 Hz的純音,那么我們的耳朵將會同時 聽到這兩個聲音。要想讓2000 Hz的純音也聽不到,則需要把它降到

37、 比1000 Hz的純音低45 dB。一般來說,弱純音離強純音越近就越容 易被掩蔽。 聲強為60 dB、頻率為1000 Hz純音的掩蔽效應(yīng) 42 在圖9-04中的一組曲線分別表示頻率為250 Hz、1 kHz、4 kHz和8 kHz純音的掩蔽效應(yīng),它們的聲強均為60 dB。從圖 中可以看到: 在250 Hz、1 kHz、4 kHz和8 kHz純音附近,對其他純音的掩蔽效 果最明顯, 低頻純音可以有效地掩蔽高頻純音,但高頻純音對低頻純音的掩蔽 作用則不明顯。 不同純音的掩蔽效應(yīng)曲線 43 由于聲音頻率與掩蔽曲線不是線性關(guān)系 ,為從感知上來統(tǒng)一度量聲音頻率,引 入了“臨界頻帶(critical b

38、and)”的概念 。通常認為,在20 Hz到16 kHz范圍內(nèi) 有24個臨界頻帶,如下表所示。臨界頻 帶的單位叫Bark(巴克) 44 MPEG聲音 時域掩蔽時域掩蔽 除了同時發(fā)出的聲音之間有掩蔽現(xiàn)象之外,在時間上相鄰的聲音之間也 有掩蔽現(xiàn)象,并且稱為時域掩蔽。 時域掩蔽又分為超前掩蔽(pre-masking)和滯后掩蔽(post-masking),如 圖所示。產(chǎn)生時域掩蔽的主要原因是人的大腦處理信息需要花費一定的 時間。一般來說,超前掩蔽很短,只有大約520 ms,而滯后掩蔽可以 持續(xù)50200 ms。這個區(qū)別也是很容易理解的。 45 MPEG Audio與感知特性 MPEG Audio標準

39、在本書中是指MPEG-1 Audio、MPEG-2 Audio和MPEG-2 AAC, 它們處理10 Hz20000 Hz范圍里的聲音數(shù) 據(jù)。 數(shù)據(jù)壓縮的的主要依據(jù)是人耳朵的聽覺特 性,使用“心理聲學(xué)模型(psychoacoustic model)”來達到壓縮聲音數(shù)據(jù)的目的。 46 MPEG Audio與感知特性 心理聲學(xué)模型中一個基本的概念就是聽覺系統(tǒng)中存在一個聽覺閾值電 平,低于這個電平的聲音信號就聽不到,因此就可以把這部分信號去 掉。 聽覺閾值的大小隨聲音頻率的改變而改變,各個人的聽覺閾值也不同。 大多數(shù)人的聽覺系統(tǒng)對2 kHz5 kHz之間的聲音最敏感。 一個人是否能聽到聲音取決于聲音

40、的頻率,以及聲音的幅度是否高于這 種頻率下的聽覺閾值。 心理聲學(xué)模型中的另一個概念是聽覺掩飾特性,意思是聽覺閾值電平 是自適應(yīng)的,即聽覺閾值電平會隨聽到的不同頻率的聲音而發(fā)生變化。 例如,同時有兩種頻率的聲音存在,一種是1000 Hz的聲音,另一種是 1100 Hz的聲音,但它的強度比前者低18分貝,在這種情況下,1100 Hz 的聲音就聽不到。 也許你有這樣的體驗,在一安靜房間里的普通談話可以聽得很清楚,但 在播放搖滾樂的環(huán)境下同樣的普通談話就聽不清楚了。聲音壓縮算法也 同樣可以確立這種特性的模型來取消更多的冗余數(shù)據(jù)。 47 MPEG-1 Audio 聲音的數(shù)據(jù)量由兩方面決定: 采樣頻率和樣

41、本精度。 對單聲道信號而言,每秒鐘的數(shù)據(jù)量(位數(shù))=采樣頻率 x 樣本精度。 要減小數(shù)據(jù)量,就需要降低采樣頻率或者降低樣本精度。 但是人耳可聽到的頻率范圍大約是20 Hz20 kHz。根據(jù)奈奎斯特 理論,要想不失真地重構(gòu)信號,采樣頻率不能低于40 kHz。 再考慮到實際中使用的濾波器都不可能是理想濾波器,以及考慮 各國所用的交流電源的頻率,為保證聲音頻帶的寬度,所以采樣 頻率一般不能低于44.1 kHz。 這樣,壓縮就必須從降低樣本精度這個角度出發(fā),即減少每位樣 本所需要的位數(shù)。 48 MPEG-1 Audio 前面介紹了線性預(yù)測編碼(linear predictive coding,LPC)

42、 的方法,這種方法主要是針對話音的編碼,這種編碼方法 稱為音源特定編碼法(source specific methods)。 MPEG-1和MPEG-2的聲音壓縮采用了另一種方法,稱為 子帶編碼(sub-band coding,SBC)方法,這也是一種功 能很強而且很有效的聲音信號編碼方法。 與音源特定編碼法不同,SBC不局限于只對話音進行編碼,也不 局限于哪一種聲源。 這種方法的具體思想是首先把時域中的聲音數(shù)據(jù)變換到頻域,對 頻域內(nèi)的子帶分量分別進行量化和編碼,然后根據(jù)心理聲學(xué)模型 確定樣本的精度,從而達到壓縮數(shù)據(jù)量的目的。 49 MPEG-1 Audio MPEG聲音數(shù)據(jù)壓縮的基礎(chǔ)是量化。

43、 雖然量化會帶來失真,但MPEG標準要求量化失真對于人耳來說 是感覺不到的。在MPEG標準的制定過程中,MPEG-Audio委員 會作了大量的主觀測試實驗。實驗表明,采樣頻率為48 kHz、樣 本精度為16比特的聲音數(shù)據(jù)壓縮到256 kb/s時,即在6:1的壓縮 率下,即使是專業(yè)測試員也很難分辨出是原始聲音還是編碼壓縮 后的聲音。 MPEG Audio是一個子帶編碼系統(tǒng)。 聲音數(shù)據(jù)壓縮算法的根據(jù)是心理聲學(xué)模型,心理聲學(xué)模型中一個 最基本的概念是聽覺系統(tǒng)中存在一個聽覺閾值電平,低于這個電 平的聲音信號就聽不到。 聽覺閾值的大小隨聲音頻率的改變而改變,各個人的聽覺閾值也 不同。大多數(shù)人的聽覺系統(tǒng)對

44、2 kHz5 kHz之間的聲音最敏感。 一個人是否能聽到聲音取決于聲音的頻率,以及聲音的幅度是否 高于這種頻率下的聽覺閾值。 50 MPEG-1 Audio 心理聲學(xué)模型中的另一個概念是聽覺掩飾特性,意思是聽覺閾值 電平是自適應(yīng)的,即聽覺閾值電平會隨聽到的頻率不同的聲音而 發(fā)生變化。 例如,在一般環(huán)境下房間里的普通談話可以聽得很清楚,但 在搖滾樂環(huán)境下同樣的普通談話就聽不清楚了。聲音壓縮算 法也同樣可以確立這種特性的模型,根據(jù)這個模型可取消冗 余的聲音數(shù)據(jù)。MPEG Audio的壓縮算法框圖如圖所示。 51 而MPEG聲音(ISO/IEC 11172-3)壓縮算法是世界上第一個高 保真聲音數(shù)據(jù)

45、壓縮國際標準,并且得到了極其廣泛的應(yīng)用。 雖然MPEG聲音標準是MPEG標準的一部分,但它也完全可 以獨立應(yīng)用。 MPEG-1聲音標準的主要性能如下: (1) 如圖所示,MPEG編碼器的輸入信號為線性PCM信號, 采樣率為32, 44.1或48 kHz,輸出為32 kb/s384 kb/s。 MPEG編碼器的輸入/輸出 52 (2) MPEG聲音標準提供三個獨立的壓縮層次:層1(Layer 1)、層2(Layer 2)和層3(Layer 3),用戶對層次的選擇可在 復(fù)雜性和聲音質(zhì)量之間進行權(quán)衡。 層1的編碼器最為簡單,編碼器的輸出數(shù)據(jù)率為384 kb/s,主要用 于小型數(shù)字盒式磁帶(digit

46、al compact cassette,DCC)。 層2的編碼器的復(fù)雜程度屬中等,編碼器的輸出數(shù)據(jù)率為256 kb/s192 kb/s,其應(yīng)用包括數(shù)字廣播聲音(digital broadcast audio,DBA)、數(shù)字音樂、CD-I(compact disc-interactive)和 VCD(video compact disc)等。 層3的編碼器最為復(fù)雜,編碼器的輸出數(shù)據(jù)率為64 kb/s,主要應(yīng) 用于ISDN上的聲音傳輸。 53 在盡可能保持CD音質(zhì)為前提的條件下,MPEG聲音標準一般 所能達到的壓縮率如表9-02所示,從編碼器的輸入到輸出的 延遲時間如表9-03所示。 表9-02

47、MPEG聲音的壓縮率 表9-03 MPEG編碼解碼器的延遲時間 54 (3) 可預(yù)先定義壓縮后的數(shù)據(jù)率,如表9-04所示。另外,MPEG 聲音標準也支持用戶預(yù)定義的數(shù)據(jù)率。 (4) 編碼后的數(shù)據(jù)流支持循環(huán)冗余校驗CRC(cyclic redundancy check)。 (5) MPEG聲音標準還支持在數(shù)據(jù)流中添加附加信息。 表9-04 MPEG層3在各種數(shù)據(jù)率下的性能: 55 子帶編碼 MPEG-1使用子帶編碼來達到既壓縮聲音數(shù)據(jù)又 盡可能保留聲音原有質(zhì)量的目的。 聽覺系統(tǒng)有許多特性,子帶編碼的理論根據(jù)是聽覺系 統(tǒng)的掩蔽特性,并且主要是利用頻域掩蔽特性。 SBC的基本想法就是在編碼過程中保留

48、信號的帶寬而 扔掉被掩蔽的信號,其結(jié)果是編碼之后還原的聲音, 也就是解碼或者叫做重構(gòu)的聲音信號與編碼之前的聲 音信號不相同,但人的聽覺系統(tǒng)很難感覺到它們之間 的差別。 這也就是說,對聽覺系統(tǒng)來說這種壓縮是“無損壓 縮”。 56 子帶編碼 大多數(shù)SBC編碼器都使用如圖9-09所示的結(jié)構(gòu),這也 是MPEG-1聲音編碼器的結(jié)構(gòu)圖。 輸入聲音信號經(jīng)過一個“時間-頻率多相濾波器組”變換到頻 域里的多個子帶中。 輸入聲音信號同時經(jīng)過“心理聲學(xué)模型(計算掩蔽特性)”,該 模型計算以頻率為自變量的噪聲掩蔽閾值(masking threshold), 查看輸入信號和子帶中的信號以確定每個子帶里的信號能量 與掩蔽

49、閾值的比率。 “量化和編碼”部分用信掩比(signal-to-mask ratio,SMR)來 決定分配給子帶信號的量化位數(shù),使量化噪聲低于掩蔽閾值。 最后通過“數(shù)據(jù)流幀包裝”將量化的子帶樣本和其他數(shù)據(jù)按 照規(guī)定的稱為“幀(frame)”的格式組裝成位數(shù)據(jù)流。 57 子帶編碼 信掩比是指最大的信號功率與全局掩蔽閾值之比,下 圖表示了某個子帶中的信掩比。 SNR(signal noise ratio) 信號噪聲比 SMR(signal-to-mask ratio) 信號掩蔽比 NMR(noise-to-mask ratio) 噪聲掩蔽比 58 子帶編碼 圖9-11是MPEG-1聲音解碼器的結(jié)構(gòu)圖

50、。解碼器對位數(shù) 據(jù)流進行解碼,恢復(fù)被量化的子帶樣本值以重建聲音 信號。由于解碼器無需心理聲學(xué)模型,只需拆包、重 構(gòu)子帶樣本和把它們變換回聲音信號,因此解碼器就 比編碼器簡單得多。 圖9-11 MPEG聲音解碼器結(jié)構(gòu)圖 59 多相濾波器組 用來分割子帶也就是時間-頻率變換部件是一個多相濾波器組。 在MPEG-1中,多相濾波器組是MPEG聲音壓縮的關(guān)鍵部分部件之一, 它把輸入信號變換到32個頻域子帶中去。 子帶的劃分方法有兩種,一種是線性劃分,另一種是非線性劃分。如 果把聲音頻帶劃分成帶寬相等的子帶,這種劃分就不能精確地反映人 耳的聽覺特性,因為人耳的聽覺特性是以“臨界頻帶”來劃分的,在 一個臨界

51、頻帶之內(nèi),很多心理聲學(xué)特性都是一樣的。 在低頻區(qū)域,一個子帶覆蓋好幾個臨界頻帶。在這種情況下,某個子 帶中量化器的比特分配就不能根據(jù)每個臨界頻帶的掩蔽閾值進行分配, 而要以其中最低的掩蔽閾值為準。 60 編碼層 MPEG聲音壓縮定義了3個分明的層次,它們的基 本模型是相同的。 層1是最基礎(chǔ)的,層2和層3都在層1的基礎(chǔ)上有所提高。 每個后繼的層次都有更高的壓縮比,但需要更復(fù)雜的編 碼解碼器。 MPEG聲音的每一個層都自含SBC編碼器,其中包含如 圖9-09所示的“時間-頻率多相濾波器組”、“心理聲學(xué) 模型(計算掩蔽特性)”、“量化和編碼”和“數(shù)據(jù)流幀包 裝”,而高層SBC可使用低層SBC編碼的聲

52、音數(shù)據(jù)。 61 MPEG的聲音數(shù)據(jù)分成幀(frame),層1每幀包含384個樣本 的數(shù)據(jù),每幀由32個子帶分別輸出的12個樣本組成。層2和 層3每幀為1152個樣本,如圖9-13所示。 圖9-13 層1、2和層3的子帶樣本 62 MPEG-2 Audio MPEG-2標準委員會定義了兩種聲音數(shù)據(jù)壓縮格 式: 一種稱為MPEG-2 Audio,或者稱為MPEG-2多通道 (Multichannel)聲音,因為它與MPEG-1 Audio是兼容的, 所以又稱為MPEG-2 BC (Backward Compatible)。 另一種稱為MPEG-2 AAC (Advanced Audio Codin

53、g), 因為它與MPEG-1聲音格式不兼容,因此通常稱為非后 向兼容MPEG-2 NBC(Non-Backward-Compatible)標準。 這節(jié)先介紹MPEG-2 Audio。 63 MPEG-2 Audio(ISO/IEC 13818-3)和MPEG-1 Audio(ISO/IEC 1117-3)標 準都使用相同種類的編譯碼器,層-1, -2和-3的結(jié)構(gòu)也相同。 MPEG-2聲音標準與MPEG-1標準相比,MPEG-2做了如下擴充: 增加了16 kHz, 22.05 kHz和24 kHz采樣頻率, 擴展了編碼器的輸出速率范圍,由32384 kb/s擴展到8640 kb/s, 增加了聲道

54、數(shù),支持5.1聲道和7.1聲道的環(huán)繞聲。 此外MPEG-2還支持Linear PCM(線性PCM)和Dolby AC-3(Audio Code Number 3)編碼。它們的差別如表9-05所示。 MPEG-1和-2的聲音數(shù)據(jù)規(guī)格 64 MPEG-2 Audio的“5.1環(huán)繞聲”也稱為“3/2-立體聲加LFE”,其中的“.1” 就是指LFE聲道。它的含義是播音現(xiàn)場的前面可有3個喇叭聲道(左、中、 右),后面可有2個環(huán)繞聲喇叭聲道,LFE(low frequency effects)是低頻音 效的加強聲道,如圖9-19(a)所示。 7.1聲道環(huán)繞立體聲與5.1類似,如圖9-19(b)所示。 圖9

55、-19(a) 5.1聲道立體環(huán)繞聲 圖9-19(b) 7.1聲道立體環(huán)繞聲 65 MPEG-2聲音標準的第3部分(Part 3)是MPEG-1聲音標準的擴展,擴展部 分就是多聲道擴展(multichannel extension),如圖9-20所示。這個標準稱 為MPEG-2后向兼容多聲道聲音編碼(MPEG-2 backwards compatible multichannel audio coding)標準,簡稱為MPEG-2 BC。 66 MPEG-2 AAC MPEG-2 AAC是MPEG-2標準中的一種非常靈活的聲音感知編碼標準。 就像所有感知編碼一樣,MPEG-2 AAC主要使用聽覺

56、系統(tǒng)的掩蔽特性 來減少聲音的數(shù)據(jù)量,并且通過把量化噪聲分散到各個子帶中,用全 局信號把噪聲掩蔽掉。 AAC支持的采用頻率可從8 kHz到96 kHz, AAC編碼器的音源可以是單聲道的、立體聲的和多聲道的聲音。 AAC標準可支持48個主聲道、16個低頻音效加強通道LFE (low frequency effects)、16個配音聲道(overdub channel)或者叫做多語言聲 道(multilingual channel)和16個數(shù)據(jù)流。 MPEG-2 AAC在壓縮比為11:1,即每個聲道的數(shù)據(jù)率為 (44.116 )/11=64 kb/s,而5個聲道的總數(shù)據(jù)率為320 kb/s的情況下

57、,很 難區(qū)分還原后的聲音與原始聲音之間的差別。與MPEG的層2相比, MPEG-2 AAC的壓縮率可提高1倍,而且質(zhì)量更高,與MPEG的層3相比, 在質(zhì)量相同的條件下數(shù)據(jù)率是它的70。 67 MPEG-2 AAC的配置 開發(fā)MPEG-2 AAC標準采用的方法與開發(fā) MPEG Audio標準采用的方法不同。 后者采用的方法是對整個系統(tǒng)進行標準化, 前者采用的方法是模塊化的方法,把整個AAC 系統(tǒng)分解成一系列模塊,用標準化的AAC工具 (advanced audio coding tools)對模塊進行定義。 68 MPEG-2 AAC的配置 AAC標準定義了三種配置: 基本配置基本配置(Main

58、 Profile): 在這種配置中,除了“增益控制(Gain Control)”模塊之外,AAC系統(tǒng)使用了圖中所示的所有模塊,在三種 配置中提供最好的聲音質(zhì)量,而且AAC的解碼器可以對低復(fù)雜性配 置編碼的聲音數(shù)據(jù)進行解碼,但對計算機的存儲器和處理能力的要 求方面,基本配置比低復(fù)雜性配置的要求高。 低復(fù)雜性配置低復(fù)雜性配置(Low Complexity Profile): 在這種配置中,不使用 預(yù)測模塊和預(yù)處理模塊,瞬時噪聲定形(temporal noise shaping, TNS)濾波器的級數(shù)也有限,這就使聲音質(zhì)量比基本配置的聲音質(zhì)量 低,但對計算機的存儲器和處理能力的要求可明顯減少。 可變

59、采樣率配置可變采樣率配置(Scalable Sampling Rate Profile): 在這種配置中, 使用增益控制對信號作預(yù)處理,不使用預(yù)測模塊,TNS濾波器的級 數(shù)和帶寬也都有限制,因此它比基本配置和低復(fù)雜性配置更簡單, 可用來提供可變采樣頻率信號。 69 MPEG-2 AAC的基本模塊 增益控制增益控制(Gain control) 增益控制模塊用在可變采樣率配置中,它由多相正交濾波器增益控制模塊用在可變采樣率配置中,它由多相正交濾波器 PQF(polyphase quadrature filter)、增益檢測器、增益檢測器(gain detector)和增和增 益修正器益修正器(ga

60、in modifier)組成。這個模塊把輸入信號分離到組成。這個模塊把輸入信號分離到4個相等帶個相等帶 寬的頻帶中。在解碼器中也有增益控制模塊,通過忽略寬的頻帶中。在解碼器中也有增益控制模塊,通過忽略PQF的高子帶信的高子帶信 號獲得低采樣率輸出信號。號獲得低采樣率輸出信號。 濾波器組濾波器組(Filter Bank) 濾波器組是把輸入信號從時域變換到頻域的轉(zhuǎn)換模塊,它是濾波器組是把輸入信號從時域變換到頻域的轉(zhuǎn)換模塊,它是MPEG-2 AAC系統(tǒng)的基本模塊。這個模塊采用了改進離散余弦變換系統(tǒng)的基本模塊。這個模塊采用了改進離散余弦變換MDCT,它是,它是 一種線性正交交迭變換,使用了一種稱為時域

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論