國際視頻壓縮標準簡介

上傳人：2*** IP屬地：湖北上傳時間：2021-10-10 格式：PPT 頁數(shù)：118 大小：1.84MB 積分：30 舉報 版權(quán)申訴

已閱讀5頁，還剩113頁未讀，繼續(xù)免費閱讀

版權(quán)說明：本文檔由用戶提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請進行舉報或認領(lǐng)

文檔簡介

1、1 國際視頻壓縮標準簡介國際視頻壓縮標準簡介多媒體技術(shù) 2 主要內(nèi)容視頻壓縮標準發(fā)展歷史 H.26X系列壓縮標準簡介 MPEG系列壓縮標準簡介 3 視頻壓縮標準發(fā)展歷史 ITU: ISO/IEC: H.261 H.262 H.263 H.263+ H.264 MPEG1 MPEG2MPEG4 (Part2) MPEG7 MPEG21MPEG4(Part10) 4 MPEG是什么 MPEG(Moving Picture Expert Group)是在1988年由國際標準化組織(International Organization for Standardization， ISO)和國際電工

2、委員會(International Electrotechnical Commission，IEC)聯(lián)合成立的專家組，負責(zé)開發(fā)電視圖像數(shù)據(jù)和聲音數(shù)據(jù)的編碼、解碼和它們的同步等標準。這個專家組開發(fā)的標準稱為MPEG標準，到目前為止，已經(jīng)開發(fā)和正在開發(fā)的MPEG標準有： MPEG-1：數(shù)字電視標準，1992年正式發(fā)布。 MPEG-2：數(shù)字電視標準。 MPEG-3：已于1992年7月合并到高清晰度電視(High-Definition TV， HDTV)工作組。 MPEG-4：多媒體應(yīng)用標準(1999年發(fā)布)。 MPEG-5：直至1998年9月還沒有見到定義。 MPEG-6：直至1998年9月還

3、沒有見到定義。 MPEG-7：多媒體內(nèi)容描述接口標準(正在研究)。 5 MPEG-1和-2標準已經(jīng)正式發(fā)布，并且得到廣泛應(yīng)用。例如，CD-交互系統(tǒng)，在網(wǎng)絡(luò)上的數(shù)字聲音廣播、數(shù)字電視廣播和影視點播等。表 8-01是MPEG-1和-2的典型編碼參數(shù)。 6 MPEG文件的創(chuàng)建過程與其他ISO標準文件一樣，MPEG標準文件的創(chuàng)建過程分成4個階段：工作文件(Working Draft，WD)：工作組(Working Group，WG)準備的工作文件委員會草案(Committee Draft，CD)：從工作組WG準備好的工作文件WD提升上來的文件。這是ISO文檔的最初形式，它由ISO內(nèi) 部正

4、式調(diào)查研究和投票表決。國際標準草案(Draft International Standard，DIS)：投票成員國對 CD的內(nèi)容和說明滿意之后由委員會草案CD提升上來的文件。國際標準(International Standard，IS)：由投票成員國、ISO的其他部門和其他委員會投票通過之后出版發(fā)布的文件。 7 視頻壓縮標準對比 H.261 p64k b/s視頻編碼標準時間 1990年12月輸入 176144(QCIF) 352288(CIF) 幀速率可變H.263MPEG2 壓縮算法運動補償幀間預(yù)測（單雙向預(yù)測） DCT 局部算法改進可伸縮性應(yīng)用通用電話交換網(wǎng)、局域網(wǎng)的

5、視頻通信 11 視頻壓縮標準對比（續(xù)） MPEG 4(Part 2) MPEG 4 Visual 甚低碼率活動圖像及其伴音編碼標準時間 1999年輸入 176144的多種分辨率格式輸出 4.6Kb/s64Kb/s 壓縮率 100 壓縮算法基于對象的新一代編碼技術(shù)，注重交互性，即可包含自然對象，又可包含人工合成對象應(yīng)用可應(yīng)用范圍很廣、目前多用于因特網(wǎng) 視頻傳輸、流媒體應(yīng)用 12 視頻壓縮標準對比（續(xù)） H.264 MPEG 4(Part1 0) MPEG 4 AVC 時間 2003年5月輸入多種分辨率格式輸出壓縮率壓縮率最高的視頻壓縮標準，

6、比 MPEG4 Visual節(jié)約50的碼率壓縮算法基于傳統(tǒng)框架的混合編碼系統(tǒng)，只是做了局部優(yōu)化。更注重編碼效率和可靠性應(yīng)用視頻廣播、視頻通信和存儲媒體（CD DVD）等多種應(yīng)用 13 MPEG-1視頻壓縮標準 MPEG-1處理的是標準圖像交換格式(Standard Interchange format，SIF)或者稱為源輸入格式(Source Input Format， SIF)的電視，即NTSC制為352像素x 240行/幀x 30幀/秒， PAL制為352像素x 288行/幀x25幀/秒，壓縮的輸出速率定義在1.5 Mbit/s以下。這個標準主要是針對當(dāng)時具有這種數(shù) 據(jù)傳輸率

7、的CD-ROM和網(wǎng)絡(luò)而開發(fā)的，用于在CD-ROM上存儲數(shù)字影視和在網(wǎng)絡(luò)上傳輸數(shù)字影視。 MPEG-1的標準號為ISO/IEC 11172，標準名稱為“信息技術(shù)用于數(shù) 據(jù)速率高達大約1.5 Mbit/s的數(shù)字存儲媒體的電視圖像和伴音編碼”Information technology Coding of moving pictures and associated audio for digital storage media at up to about 1.5 Mbit/s)。 14 MPEG-1視頻壓縮標準 MPEG-1已于1991年底被ISO/IEC采納，由五個部分組成： MPEG-1

8、系統(tǒng)，寫成MPEG-1 Systems，規(guī)定電視圖像數(shù)據(jù)、聲音數(shù)據(jù) 及其他相關(guān)數(shù)據(jù)的同步，標準名是ISO/IEC 11172-1：1993 Information technology Coding of moving pictures and associated audio for digital storage media at up to about 1.5 Mbit/s Part 1： Systems。 MPEG-1電視圖像，寫成MPEG-1 Video, 規(guī)定電視數(shù)據(jù)的編碼和解碼，標準名是ISO/IEC 11172-2：1993 Information technology Co

9、ding of moving pictures and associated audio for digital storage media at up to about 1.5 Mbit/s Part 2：Video。 MPEG-1聲音，寫成MPEG-1 Audio, 規(guī)定聲音數(shù)據(jù)的編碼和解碼，標準名是ISO/IEC 11172-3：1993 Information technology Coding of moving pictures and associated audio for digital storage media at up to about 1.5 Mbit/s Par

10、t 3：Audio。 15 MPEG-1一致性測試，寫成MPEG-1 Conformance testing，標準名是ISO/IEC 11172-4：1995 Information technology Coding of moving pictures and associated audio for digital storage media at up to about 1.5 Mbit/s Part 4：Conformance testing。這個標準詳細說明如何測試比特數(shù)據(jù)流(bitstreams)和解碼器是否滿足MPEG-1前3個部分(Part1，2和3)中所規(guī)定的要求。這

11、些測試可由廠商和用戶實施。 MPEG-1軟件模擬，寫成MPEG-1 Software simulation，標準名是ISO/IEC TR 11172-5 Information technology Coding of moving pictures and associated audio for digital storage media up to about 1.5 Mbit/s Part 5：Software simulation。實際上，這部分的內(nèi)容不是一個標準，而是一個技術(shù)報告，給出了用軟件執(zhí)行MPEG-1標準前3個部分的結(jié)果。 MPEG-1譯碼器方框圖 16 MPEG-

12、2數(shù)字電視標準 MPEG-2標準從1990年開始研究，1994發(fā)布DIS。它是一個直接與數(shù)字電視廣播有關(guān)的高質(zhì)量圖像和聲音編碼標準。 MPEG-2可以說是MPEG-1的擴充，因為它們的基本編碼算法都相同。但MPEG-2增加了許多 MPEG-1所沒有的功能：例如增加了隔行掃描電視的編碼，提供了位速率的可變性能(scalability)功能。 MPEG-2要達到的最基本目標是：位速率為49 Mbit/s，最高達15 Mbit/s。 17 MPEG-2的標準號為ISO/IEC 13818，標準名稱為“信息技術(shù)電視圖像和伴音信息的通用編碼(Information technology G

13、eneric coding of moving pictures and associated audio information )”。MPEG-2包含10個部分： MPEG-2系統(tǒng)，寫成MPEG-2 Systems，規(guī)定電視圖像數(shù) 據(jù)、聲音數(shù)據(jù)及其他相關(guān)數(shù)據(jù)的同步，標準名是ISO/IEC 13818-1：1996 Information technology Generic coding of moving pictures and associated audio information ：Systems。 18 MPEG-2的系統(tǒng)模型如圖所示。這個標準主要是用來定義電視圖像數(shù)據(jù)、聲音

14、數(shù)據(jù)和其他數(shù)據(jù)的組合，把這些數(shù)據(jù)組合成一個或者多個適合于存儲或者傳輸?shù)幕緮?shù)據(jù)流。數(shù)據(jù)流有兩種形式：一種稱為程序數(shù)據(jù)流(Program Stream，PS) 程序數(shù)據(jù)流是組合一個或者多個規(guī)格化的即包化基本數(shù)據(jù)流 (Packetised Elementary Streams，PES)而生成的一種數(shù)據(jù)流，用在出現(xiàn)錯誤相對比較少的環(huán)境下，適合使用軟件處理的應(yīng)用；另一種稱為傳輸數(shù)據(jù)流(Transport Stream，TS)。傳輸數(shù)據(jù)流也是組合一個或者多個PES而生成的一種數(shù)據(jù)流，它用在出現(xiàn)錯誤相對比較多的環(huán)境下，例如在有損失或者有噪聲的傳輸系統(tǒng)中。圖MPEG-2的系統(tǒng)模型 19 MP

15、EG-2電視圖像，寫成MPEG-2 Video，規(guī)定電視數(shù)據(jù)的編碼和解碼，標準名是ISO/IEC 13818-2：1996 Information technology Generic coding of moving pictures and associated audio information ：Video。為了適應(yīng)各種應(yīng)用，這個標準定義了電視圖像的各種規(guī)格，稱為配置 (profile)，如表所示。表中的“X”符號表示MPEG-2支持的配置。有些人認為使用4:2:0子采樣格式的圖像質(zhì)量還不夠好，因此在1996年的標準中增加了4:2:2子采樣格式的圖像。多視角配置(Multiv

16、iew Profile，MVP)是附加的配置。 20 MPEG-2聲音，寫成MPEG-2 Audio，規(guī)定聲音數(shù)據(jù)的編碼和解碼，是MPEG-1 Audio的擴充，支持多個聲道，標準名是ISO/IEC 13818-3：1998 Information technology Generic coding of moving pictures and associated audio information Part 3：Audio。 MPEG-2一致性測試，寫成MPEG-2 Conformance testing，標準名是ISO/IEC DIS 13818-4 Information tec

17、hnology Generic coding of moving pictures and associated audio information Part 4：Conformance testing。 MPEG-2軟件模擬，寫成MPEG-2 Software simulation，標準名是ISO/IEC TR 13818-5：1997 Information technology Generic coding of moving pictures and associated audio information Part 5：Software simulation。 21 MPEG-2數(shù)

18、字存儲媒體命令和控制擴展協(xié)議，寫成MPEG-2 Extensions for DSM-CC，標準名是ISO/IEC DIS 13818-6 Information technology Generic coding of moving pictures and associated audio information Part 6：Extensions for DSM-CC。這是一個數(shù)字存儲媒體命令和控制(Digital Storage Media Command and Control，DSM-CC)擴展協(xié)議，用于管理MPEG-1和MPEG-2的數(shù) 據(jù)流，使數(shù)據(jù)流既可在單機上運行，又可在異

19、構(gòu)網(wǎng)絡(luò)(即用類似設(shè)備構(gòu) 造但運行不同協(xié)議的網(wǎng)絡(luò))環(huán)境下運行。在DSM-CC模型中，服務(wù)器(server)和客戶器(client)都被認為是DSM- CC網(wǎng)絡(luò)的用戶(user)，DSM-CC定義了一個稱為會話和資源管理 (Session and Resource Manager，SRM)的實體，用來集中管理網(wǎng)絡(luò) 中的會話和資源，如圖所示。 DSM-CC參考模型 22 MPEG-2先進聲音編碼，寫成MPEG-2 AAC，是多聲道聲音編碼算法標準。這個標準除后向兼容MPEG-1 Audio標準之外，還有非后向兼容的聲音標準。標準名是ISO/IEC 13818-7：1997 Informatio

20、n technology Generic coding of moving pictures and associated audio information Part 7：Advanced Audio Coding (AAC)。 MPEG-2系統(tǒng)解碼器實時接口擴展標準，標準名是ISO/IEC 13818-9： 1996 Information technology Generic coding of moving pictures and associated audio information Part 9：Extension for real time interface for sys

21、tems decoders。這是與傳輸數(shù)據(jù)流(Transport Stream)的實時接口(real-time interface， RTI)標準，它可以用來適應(yīng)來自網(wǎng)絡(luò)的傳輸數(shù)據(jù)流，如圖所示。實時接口參考模型 23 MPEG-2 DSM-CC一致性擴展測試，標準名是ISO/IEC DIS 13818-10 Information technology Generic coding of moving pictures and associated audio information Part 10：Conformance extensions for Digital Storage Me

22、dia Command and Control (DSM-CC)。 10 MPEG-2先進聲音編碼標準修正版，標準名是Amendment 1 to ISO/IEC TR 13818-5：1997 Amendment 1 to ISO/IEC TR 13818-5： 1997 Advanced Audio Coding (AAA)。最后要說明的是，MPEG-2的Part 8原計劃用于采樣精度為10比特的電視圖像編碼，但由于目前工業(yè)界對此興趣不大，因此該標準已暫停開發(fā)。 24 MPEG-4多媒體應(yīng)用標準標準概要 MPEG-4從1994年開始工作，它是為視聽(audio-visual)數(shù)據(jù)的

23、編碼和交互播放開發(fā)算法和工具，是一個數(shù)據(jù)速率很低的多媒體通信標準。 MPEG-4的目標是要在異構(gòu)網(wǎng)絡(luò)環(huán)境下能夠高度可靠地工作，并且具有很強的交互功能。為了達到這個目標，MPEG-4引入了對象基表達(object-based representation)的概念，用來表達視聽對象(audio/visual objects， AVO)； MPEG-4擴充了編碼的數(shù)據(jù)類型，由自然數(shù)據(jù)對象擴展到計算機生成的合成數(shù)據(jù)對象，采用合成對象/自然對象混合編碼(Synthetic/Natural Hybrid Coding，SNHC)算法； 25 在實現(xiàn)交互功能和重用對象中引入了組合、合成和編排等重要概

24、念。 MPEG-4系統(tǒng)構(gòu)造如圖8-05所示，接收端的構(gòu)造部件如圖8-06所示。 26 27 MPEG-4中制定了一個稱為傳輸多媒體集成框架(Delivery Multimedia Integration Framework，DMIF)的會話協(xié)議，它用來管理多媒體數(shù)據(jù)流。該協(xié)議在原則上與文件傳輸協(xié)議FTP(File Transfer Protocol) 類似，其差別是： FTP返回的是數(shù)據(jù)，而DMIF返回的是指向到何處獲取數(shù)據(jù)流的指針。 DMIF覆蓋了三種主要技術(shù)：廣播技術(shù)，交互網(wǎng)絡(luò)技術(shù) 光盤技術(shù)，如圖所示。 DMIF覆蓋的三種主要技術(shù) 28 MPEG-4將應(yīng)用在移動通信和公用電

25、話交換網(wǎng)(public switched telephone network， PSTN)上，并支持可視電話(videophone)、電視郵件(video mail)、電子報紙(electronic newspapers)和其他低數(shù)據(jù)傳輸速率場合下的應(yīng)用。 29 MPEG-4的標準名是Very-low bitrate audio-visual coding (甚低速率視聽編碼)。截止到1998年9月，已作為國際標準草案(Draft International Standard，DIS)的MPEG-4文件有6個部分，它們是： MPEG-4系統(tǒng)標準，標準名是ISO/IEC DIS 1449

26、6-1 Very-low bitrate audio-visual coding Part 1: Systems。 MPEG-4電視圖像標準，標準名是ISO/IEC DIS 14496-2 Very low bitrate audio-visual coding Part 2: Video。 MPEG-4聲音標準，標準名是ISO/IEC DIS 14496-3 Very low bitrate audio-visual coding Part 3: Audio。 MPEG-4一致性測試標準，標準名是ISO/IEC DIS 14496-4 Very- low bitrate audio-visu

27、al coding Part 4: Conformance Testing。 MPEG-4參考軟件，標準名是ISO/IEC DIS 14496-5 Very-low bitrate audio-visual coding Part 5: Reference software MPEG-4傳輸多媒體集成框架，標準名是ISO/IEC DIS 14496-6 Very-low bitrate audio-visual coding Part 6: Delivery Multimedia Integration Framework (DMIF)。 30 MPEG-7多媒體內(nèi)容描述接口 MPEG-7的工

28、作于1996年啟動，名稱叫做多媒體內(nèi)容描述接口(Multimedia Content Description Interface) ，目的是制定一套描述符標準，用來描述各種類型的多媒體信息及它們之間的關(guān)系，以便更快更有效地檢索信息。這些媒體材料可包括靜態(tài)圖像、圖形、3D模型、聲音、話音、電視以及在多媒體演示中它們之間的組合關(guān)系。在某些情況下，數(shù)據(jù)類型還可包括面部特性和個人特性的表達。與其他的MPEG標準一樣，MPEG-7是為滿足特定需求而制定的視聽信息標準。MPEG-7標準也是建筑在其他的標準之上的，例如，PCM, MPEG-1, MPEG-2和MPEG-4等等。在MPE

29、G-7中，例如MPEG-4中使用的形狀描述符、MPEG-1和 MPEG-2中使用的移動矢量(motion vector)等都可能在MPEG-7中用到。 31 圖8-08表示了MPEG-7的處理鏈(processing chain)，這是高度抽象的方框圖。在這個處理鏈中包含有三個方框：特征抽取(feature extraction)、標準描述(standard description) 檢索工具(search engine)。特征的自動分析和抽取對MPEG-7是至關(guān)重要的，抽象程度越高，自動抽取也越困難，而且不是都能夠自動抽取的，因此開發(fā)自動的和交互式半自動抽取的算法和工具都是

30、很有用的。盡管如此，特征抽取和檢索工具都不包含在MPEG-7標準中，而是留給大家去競爭，以便得到最好的算法和工具。 32 MPEG-7的應(yīng)用領(lǐng)域數(shù)字圖書館(Digital library)，例如圖像目錄、音樂詞典等；多媒體目錄服務(wù)(multimedia directory services)，例如黃頁(yellow pages)；廣播媒體的選擇，例如無線電頻道，TV頻道等；多媒體編輯，例如個人電子新聞服務(wù)，多媒體創(chuàng)作等等。潛在應(yīng)用的應(yīng)用領(lǐng)域包括：教育、娛樂、新聞、旅游、醫(yī)療、購物等等。 33 MPEG聲音與前面章節(jié)介紹的波形聲音壓縮編碼(如ADPCM) 和參數(shù)編碼(如

31、LPC)不同，MPEG-1和MPEG-2的聲音數(shù)據(jù)壓縮編碼不是依據(jù)波形本身的相關(guān)性和模擬人的發(fā)音器官的特性，而是利用人的聽覺系統(tǒng)的特性來達到壓縮聲音數(shù)據(jù)的目的，這種壓縮編碼稱為感知聲音編碼(perceptual audio coding)。進入20世紀80年代之后，尤其最近幾年，人類在利用自身的聽覺系統(tǒng)的特性來壓縮聲音數(shù)據(jù)方面取得了很大的進展，先后制定了MPEG-1 Audio, MPEG-2 Audio和MPEG-2 AAC等標準。 34 MPEG聲音 MPEG Audio壓縮編碼算法中的三個特性：響度、音高掩蔽效應(yīng)。 35 MPEG聲音對響度的感知聲音的響度就是聲音

32、的強弱。在物理上，聲音的響度使用客觀測量單位來度量，即 dyn/cm2(達因/平方厘米)(聲壓)或W/cm2(瓦特/平方厘米)(聲強)。在心理上，主觀感覺的聲音強弱使用響度級“方(phon)” 或者“宋(sone)”來度量。這兩種感知聲音強弱的計量單位是完全不同的兩種概念，但是它們之間又有一定的聯(lián)系。 36 MPEG聲音當(dāng)聲音弱到人的耳朵剛剛可以聽見時，我們稱此時的聲音強度為“聽閾”。例如，1 kHz純音的聲強達到10-16w/cm2(定義成零dB聲強級)時，人耳剛能聽到，此時的主觀響度級定為零方。實驗表明，聽閾是隨頻率變化的。測出的“聽閾頻率”曲線如圖9-01所示。圖中

33、最靠下面的一根曲線叫做“零方等響度級”曲線，也稱“絕對聽閾”曲線，即在安靜環(huán)境中，能被人耳聽到的純音的最小值。另一種極端的情況是聲音強到使人耳感到疼痛。實驗表明，如果頻率為1 kHz的純音的聲強級達到120 dB左右時，人的耳朵就感到疼痛，這個閾值稱為“痛閾”。對不同的頻率進行測量，可以得到“痛閾頻率”曲線，如圖9-01中最靠上面所示的一根曲線。這條曲線也就是120方等響度級曲線。 37 MPEG聲音在“聽閾頻率”曲線和“痛閾頻率”曲線之間的區(qū)域就是人耳的聽覺范圍。這個范圍內(nèi)的等響度級曲線也是用同樣的方法測量出來的。由圖9- 01可以看出，1 kHz的10 dB的聲音和 2

34、00 Hz的30 dB的聲音，在人耳聽起來具有相同的響度。圖9-01說明人耳對不同頻率的敏感程度差別很大，其中對2 kHz4 kHz范圍的信號最為敏感，幅度很低的信號都能被人耳聽到。而在低頻區(qū)和高頻區(qū)，能被人耳聽到的信號幅度要高得多。圖9-01 “聽閾頻率”曲線 38 MPEG聲音對音高的感知客觀上用頻率來表示聲音的音高，其單位是Hz。而主觀感覺的音高單位則是“美(Mel)”,主觀音高與客觀音高的關(guān)系是:Mel=log2(1+f),其中的單位為Hz，這也是兩個既不相同又有聯(lián)系的單位。人耳對響度的感覺有一個范圍，即從聽閾到痛閾。同樣，人耳對頻率的感覺也有一個范圍。

35、人耳可以聽到的最低頻率約20 Hz，最高頻率約18000 Hz。正如測量響度時是以 1 kHz純音為基準一樣，在測量音高時則以40 dB聲強為基準，并且同樣由主觀感覺來確定。 39 MPEG聲音測量主觀音高時，讓實驗者聽兩個聲強級為40 dB的純音，固定其中一個純音的頻率，調(diào)節(jié)另一個純音的頻率，直到他感到后者的音高為前者的兩倍，就標定這兩個聲音的音高差為兩倍。實驗表明，音高與頻率之間也不是線性關(guān)系。測出的“音高頻率”曲線如圖所示。 “音高頻率”曲線 40 MPEG聲音掩蔽效應(yīng)掩蔽效應(yīng) 一種頻率的聲音阻礙聽覺系統(tǒng)感受另一種頻率的聲音的現(xiàn)象稱為掩蔽效應(yīng)。前者稱為掩蔽聲音(m

36、asking tone)，后者稱為被掩蔽聲音(masked tone)。掩蔽可分成頻域掩蔽和時域掩蔽。 41 一個強純音會掩蔽在其附近同時發(fā)聲的弱純音，這種特性稱為頻域掩蔽，也稱同時掩蔽(simultaneous masking)。如圖9-03所示，一個聲強為60 dB、頻率為1000 Hz的純音，另外還有一個1100 Hz的純音，前者比后者高18 dB，在這種情況下我們的耳朵就只能聽到那個1000 Hz的強音。如果有一個1000 Hz的純音和一個聲強比它低18 dB的2000 Hz的純音，那么我們的耳朵將會同時聽到這兩個聲音。要想讓2000 Hz的純音也聽不到，則需要把它降到

37、比1000 Hz的純音低45 dB。一般來說，弱純音離強純音越近就越容易被掩蔽。聲強為60 dB、頻率為1000 Hz純音的掩蔽效應(yīng) 42 在圖9-04中的一組曲線分別表示頻率為250 Hz、1 kHz、4 kHz和8 kHz純音的掩蔽效應(yīng)，它們的聲強均為60 dB。從圖中可以看到：在250 Hz、1 kHz、4 kHz和8 kHz純音附近，對其他純音的掩蔽效果最明顯，低頻純音可以有效地掩蔽高頻純音，但高頻純音對低頻純音的掩蔽作用則不明顯。不同純音的掩蔽效應(yīng)曲線 43 由于聲音頻率與掩蔽曲線不是線性關(guān)系，為從感知上來統(tǒng)一度量聲音頻率，引入了“臨界頻帶(critical b

38、and)”的概念。通常認為，在20 Hz到16 kHz范圍內(nèi) 有24個臨界頻帶，如下表所示。臨界頻帶的單位叫Bark(巴克) 44 MPEG聲音時域掩蔽時域掩蔽除了同時發(fā)出的聲音之間有掩蔽現(xiàn)象之外，在時間上相鄰的聲音之間也有掩蔽現(xiàn)象，并且稱為時域掩蔽。時域掩蔽又分為超前掩蔽(pre-masking)和滯后掩蔽(post-masking)，如圖所示。產(chǎn)生時域掩蔽的主要原因是人的大腦處理信息需要花費一定的時間。一般來說，超前掩蔽很短，只有大約520 ms，而滯后掩蔽可以持續(xù)50200 ms。這個區(qū)別也是很容易理解的。 45 MPEG Audio與感知特性 MPEG Audio標準

39、在本書中是指MPEG-1 Audio、MPEG-2 Audio和MPEG-2 AAC，它們處理10 Hz20000 Hz范圍里的聲音數(shù) 據(jù)。數(shù)據(jù)壓縮的的主要依據(jù)是人耳朵的聽覺特性，使用“心理聲學(xué)模型(psychoacoustic model)”來達到壓縮聲音數(shù)據(jù)的目的。 46 MPEG Audio與感知特性心理聲學(xué)模型中一個基本的概念就是聽覺系統(tǒng)中存在一個聽覺閾值電平，低于這個電平的聲音信號就聽不到，因此就可以把這部分信號去掉。聽覺閾值的大小隨聲音頻率的改變而改變，各個人的聽覺閾值也不同。大多數(shù)人的聽覺系統(tǒng)對2 kHz5 kHz之間的聲音最敏感。一個人是否能聽到聲音取決于聲音

40、的頻率，以及聲音的幅度是否高于這種頻率下的聽覺閾值。心理聲學(xué)模型中的另一個概念是聽覺掩飾特性，意思是聽覺閾值電平是自適應(yīng)的，即聽覺閾值電平會隨聽到的不同頻率的聲音而發(fā)生變化。例如，同時有兩種頻率的聲音存在，一種是1000 Hz的聲音，另一種是 1100 Hz的聲音，但它的強度比前者低18分貝，在這種情況下，1100 Hz 的聲音就聽不到。也許你有這樣的體驗，在一安靜房間里的普通談話可以聽得很清楚，但在播放搖滾樂的環(huán)境下同樣的普通談話就聽不清楚了。聲音壓縮算法也同樣可以確立這種特性的模型來取消更多的冗余數(shù)據(jù)。 47 MPEG-1 Audio 聲音的數(shù)據(jù)量由兩方面決定：采樣頻率和樣

41、本精度。對單聲道信號而言，每秒鐘的數(shù)據(jù)量(位數(shù))=采樣頻率 x 樣本精度。要減小數(shù)據(jù)量，就需要降低采樣頻率或者降低樣本精度。但是人耳可聽到的頻率范圍大約是20 Hz20 kHz。根據(jù)奈奎斯特理論，要想不失真地重構(gòu)信號，采樣頻率不能低于40 kHz。再考慮到實際中使用的濾波器都不可能是理想濾波器，以及考慮各國所用的交流電源的頻率，為保證聲音頻帶的寬度，所以采樣頻率一般不能低于44.1 kHz。這樣，壓縮就必須從降低樣本精度這個角度出發(fā)，即減少每位樣本所需要的位數(shù)。 48 MPEG-1 Audio 前面介紹了線性預(yù)測編碼(linear predictive coding，LPC)

42、的方法，這種方法主要是針對話音的編碼，這種編碼方法稱為音源特定編碼法(source specific methods)。 MPEG-1和MPEG-2的聲音壓縮采用了另一種方法，稱為子帶編碼(sub-band coding，SBC)方法，這也是一種功能很強而且很有效的聲音信號編碼方法。與音源特定編碼法不同，SBC不局限于只對話音進行編碼，也不局限于哪一種聲源。這種方法的具體思想是首先把時域中的聲音數(shù)據(jù)變換到頻域，對頻域內(nèi)的子帶分量分別進行量化和編碼，然后根據(jù)心理聲學(xué)模型確定樣本的精度，從而達到壓縮數(shù)據(jù)量的目的。 49 MPEG-1 Audio MPEG聲音數(shù)據(jù)壓縮的基礎(chǔ)是量化。

43、雖然量化會帶來失真，但MPEG標準要求量化失真對于人耳來說是感覺不到的。在MPEG標準的制定過程中，MPEG-Audio委員會作了大量的主觀測試實驗。實驗表明，采樣頻率為48 kHz、樣本精度為16比特的聲音數(shù)據(jù)壓縮到256 kb/s時，即在6：1的壓縮率下，即使是專業(yè)測試員也很難分辨出是原始聲音還是編碼壓縮后的聲音。 MPEG Audio是一個子帶編碼系統(tǒng)。聲音數(shù)據(jù)壓縮算法的根據(jù)是心理聲學(xué)模型，心理聲學(xué)模型中一個最基本的概念是聽覺系統(tǒng)中存在一個聽覺閾值電平，低于這個電平的聲音信號就聽不到。聽覺閾值的大小隨聲音頻率的改變而改變，各個人的聽覺閾值也不同。大多數(shù)人的聽覺系統(tǒng)對

44、2 kHz5 kHz之間的聲音最敏感。一個人是否能聽到聲音取決于聲音的頻率，以及聲音的幅度是否高于這種頻率下的聽覺閾值。 50 MPEG-1 Audio 心理聲學(xué)模型中的另一個概念是聽覺掩飾特性，意思是聽覺閾值電平是自適應(yīng)的，即聽覺閾值電平會隨聽到的頻率不同的聲音而發(fā)生變化。例如，在一般環(huán)境下房間里的普通談話可以聽得很清楚，但在搖滾樂環(huán)境下同樣的普通談話就聽不清楚了。聲音壓縮算法也同樣可以確立這種特性的模型，根據(jù)這個模型可取消冗余的聲音數(shù)據(jù)。MPEG Audio的壓縮算法框圖如圖所示。 51 而MPEG聲音(ISO/IEC 11172-3)壓縮算法是世界上第一個高保真聲音數(shù)據(jù)

45、壓縮國際標準，并且得到了極其廣泛的應(yīng)用。雖然MPEG聲音標準是MPEG標準的一部分，但它也完全可以獨立應(yīng)用。 MPEG-1聲音標準的主要性能如下： (1) 如圖所示，MPEG編碼器的輸入信號為線性PCM信號，采樣率為32, 44.1或48 kHz，輸出為32 kb/s384 kb/s。 MPEG編碼器的輸入/輸出 52 (2) MPEG聲音標準提供三個獨立的壓縮層次：層1(Layer 1)、層2(Layer 2)和層3(Layer 3)，用戶對層次的選擇可在復(fù)雜性和聲音質(zhì)量之間進行權(quán)衡。層1的編碼器最為簡單，編碼器的輸出數(shù)據(jù)率為384 kb/s，主要用于小型數(shù)字盒式磁帶(digit

46、al compact cassette，DCC)。層2的編碼器的復(fù)雜程度屬中等，編碼器的輸出數(shù)據(jù)率為256 kb/s192 kb/s，其應(yīng)用包括數(shù)字廣播聲音(digital broadcast audio，DBA)、數(shù)字音樂、CD-I(compact disc-interactive)和 VCD(video compact disc)等。層3的編碼器最為復(fù)雜，編碼器的輸出數(shù)據(jù)率為64 kb/s，主要應(yīng) 用于ISDN上的聲音傳輸。 53 在盡可能保持CD音質(zhì)為前提的條件下，MPEG聲音標準一般所能達到的壓縮率如表9-02所示，從編碼器的輸入到輸出的延遲時間如表9-03所示。表9-02

47、MPEG聲音的壓縮率表9-03 MPEG編碼解碼器的延遲時間 54 (3) 可預(yù)先定義壓縮后的數(shù)據(jù)率，如表9-04所示。另外，MPEG 聲音標準也支持用戶預(yù)定義的數(shù)據(jù)率。 (4) 編碼后的數(shù)據(jù)流支持循環(huán)冗余校驗CRC(cyclic redundancy check)。 (5) MPEG聲音標準還支持在數(shù)據(jù)流中添加附加信息。表9-04 MPEG層3在各種數(shù)據(jù)率下的性能： 55 子帶編碼 MPEG-1使用子帶編碼來達到既壓縮聲音數(shù)據(jù)又盡可能保留聲音原有質(zhì)量的目的。聽覺系統(tǒng)有許多特性，子帶編碼的理論根據(jù)是聽覺系統(tǒng)的掩蔽特性，并且主要是利用頻域掩蔽特性。 SBC的基本想法就是在編碼過程中保留

48、信號的帶寬而扔掉被掩蔽的信號，其結(jié)果是編碼之后還原的聲音，也就是解碼或者叫做重構(gòu)的聲音信號與編碼之前的聲音信號不相同，但人的聽覺系統(tǒng)很難感覺到它們之間的差別。這也就是說，對聽覺系統(tǒng)來說這種壓縮是“無損壓縮”。 56 子帶編碼大多數(shù)SBC編碼器都使用如圖9-09所示的結(jié)構(gòu)，這也是MPEG-1聲音編碼器的結(jié)構(gòu)圖。輸入聲音信號經(jīng)過一個“時間-頻率多相濾波器組”變換到頻域里的多個子帶中。輸入聲音信號同時經(jīng)過“心理聲學(xué)模型(計算掩蔽特性)”，該模型計算以頻率為自變量的噪聲掩蔽閾值(masking threshold)，查看輸入信號和子帶中的信號以確定每個子帶里的信號能量與掩蔽

49、閾值的比率。 “量化和編碼”部分用信掩比(signal-to-mask ratio，SMR)來決定分配給子帶信號的量化位數(shù)，使量化噪聲低于掩蔽閾值。最后通過“數(shù)據(jù)流幀包裝”將量化的子帶樣本和其他數(shù)據(jù)按照規(guī)定的稱為“幀(frame)”的格式組裝成位數(shù)據(jù)流。 57 子帶編碼信掩比是指最大的信號功率與全局掩蔽閾值之比，下圖表示了某個子帶中的信掩比。 SNR(signal noise ratio) 信號噪聲比 SMR(signal-to-mask ratio) 信號掩蔽比 NMR(noise-to-mask ratio) 噪聲掩蔽比 58 子帶編碼圖9-11是MPEG-1聲音解碼器的結(jié)構(gòu)圖

50、。解碼器對位數(shù) 據(jù)流進行解碼，恢復(fù)被量化的子帶樣本值以重建聲音信號。由于解碼器無需心理聲學(xué)模型，只需拆包、重構(gòu)子帶樣本和把它們變換回聲音信號，因此解碼器就比編碼器簡單得多。圖9-11 MPEG聲音解碼器結(jié)構(gòu)圖 59 多相濾波器組用來分割子帶也就是時間-頻率變換部件是一個多相濾波器組。在MPEG-1中，多相濾波器組是MPEG聲音壓縮的關(guān)鍵部分部件之一，它把輸入信號變換到32個頻域子帶中去。子帶的劃分方法有兩種，一種是線性劃分，另一種是非線性劃分。如果把聲音頻帶劃分成帶寬相等的子帶，這種劃分就不能精確地反映人耳的聽覺特性，因為人耳的聽覺特性是以“臨界頻帶”來劃分的，在一個臨界

51、頻帶之內(nèi)，很多心理聲學(xué)特性都是一樣的。在低頻區(qū)域，一個子帶覆蓋好幾個臨界頻帶。在這種情況下，某個子帶中量化器的比特分配就不能根據(jù)每個臨界頻帶的掩蔽閾值進行分配，而要以其中最低的掩蔽閾值為準。 60 編碼層 MPEG聲音壓縮定義了3個分明的層次，它們的基本模型是相同的。層1是最基礎(chǔ)的，層2和層3都在層1的基礎(chǔ)上有所提高。每個后繼的層次都有更高的壓縮比，但需要更復(fù)雜的編碼解碼器。 MPEG聲音的每一個層都自含SBC編碼器，其中包含如圖9-09所示的“時間-頻率多相濾波器組”、“心理聲學(xué) 模型(計算掩蔽特性)”、“量化和編碼”和“數(shù)據(jù)流幀包裝”，而高層SBC可使用低層SBC編碼的聲

52、音數(shù)據(jù)。 61 MPEG的聲音數(shù)據(jù)分成幀(frame)，層1每幀包含384個樣本的數(shù)據(jù)，每幀由32個子帶分別輸出的12個樣本組成。層2和層3每幀為1152個樣本，如圖9-13所示。圖9-13 層1、2和層3的子帶樣本 62 MPEG-2 Audio MPEG-2標準委員會定義了兩種聲音數(shù)據(jù)壓縮格式：一種稱為MPEG-2 Audio，或者稱為MPEG-2多通道 (Multichannel)聲音，因為它與MPEG-1 Audio是兼容的，所以又稱為MPEG-2 BC (Backward Compatible)。另一種稱為MPEG-2 AAC (Advanced Audio Codin

53、g)，因為它與MPEG-1聲音格式不兼容，因此通常稱為非后向兼容MPEG-2 NBC(Non-Backward-Compatible)標準。這節(jié)先介紹MPEG-2 Audio。 63 MPEG-2 Audio(ISO/IEC 13818-3)和MPEG-1 Audio(ISO/IEC 1117-3)標準都使用相同種類的編譯碼器，層-1, -2和-3的結(jié)構(gòu)也相同。 MPEG-2聲音標準與MPEG-1標準相比，MPEG-2做了如下擴充：增加了16 kHz, 22.05 kHz和24 kHz采樣頻率，擴展了編碼器的輸出速率范圍，由32384 kb/s擴展到8640 kb/s，增加了聲道

54、數(shù)，支持5.1聲道和7.1聲道的環(huán)繞聲。此外MPEG-2還支持Linear PCM(線性PCM)和Dolby AC-3(Audio Code Number 3)編碼。它們的差別如表9-05所示。 MPEG-1和-2的聲音數(shù)據(jù)規(guī)格 64 MPEG-2 Audio的“5.1環(huán)繞聲”也稱為“3/2-立體聲加LFE”，其中的“.1” 就是指LFE聲道。它的含義是播音現(xiàn)場的前面可有3個喇叭聲道(左、中、右)，后面可有2個環(huán)繞聲喇叭聲道，LFE(low frequency effects)是低頻音效的加強聲道，如圖9-19(a)所示。 7.1聲道環(huán)繞立體聲與5.1類似，如圖9-19(b)所示。圖9

55、-19(a) 5.1聲道立體環(huán)繞聲圖9-19(b) 7.1聲道立體環(huán)繞聲 65 MPEG-2聲音標準的第3部分(Part 3)是MPEG-1聲音標準的擴展，擴展部分就是多聲道擴展(multichannel extension)，如圖9-20所示。這個標準稱為MPEG-2后向兼容多聲道聲音編碼(MPEG-2 backwards compatible multichannel audio coding)標準，簡稱為MPEG-2 BC。 66 MPEG-2 AAC MPEG-2 AAC是MPEG-2標準中的一種非常靈活的聲音感知編碼標準。就像所有感知編碼一樣，MPEG-2 AAC主要使用聽覺

56、系統(tǒng)的掩蔽特性來減少聲音的數(shù)據(jù)量，并且通過把量化噪聲分散到各個子帶中，用全局信號把噪聲掩蔽掉。 AAC支持的采用頻率可從8 kHz到96 kHz， AAC編碼器的音源可以是單聲道的、立體聲的和多聲道的聲音。 AAC標準可支持48個主聲道、16個低頻音效加強通道LFE (low frequency effects)、16個配音聲道(overdub channel)或者叫做多語言聲道(multilingual channel)和16個數(shù)據(jù)流。 MPEG-2 AAC在壓縮比為11:1，即每個聲道的數(shù)據(jù)率為 (44.116 )/11=64 kb/s，而5個聲道的總數(shù)據(jù)率為320 kb/s的情況下

57、，很難區(qū)分還原后的聲音與原始聲音之間的差別。與MPEG的層2相比， MPEG-2 AAC的壓縮率可提高1倍，而且質(zhì)量更高，與MPEG的層3相比，在質(zhì)量相同的條件下數(shù)據(jù)率是它的70。 67 MPEG-2 AAC的配置開發(fā)MPEG-2 AAC標準采用的方法與開發(fā) MPEG Audio標準采用的方法不同。后者采用的方法是對整個系統(tǒng)進行標準化，前者采用的方法是模塊化的方法，把整個AAC 系統(tǒng)分解成一系列模塊，用標準化的AAC工具 (advanced audio coding tools)對模塊進行定義。 68 MPEG-2 AAC的配置 AAC標準定義了三種配置：基本配置基本配置(Main

58、 Profile)：在這種配置中，除了“增益控制(Gain Control)”模塊之外，AAC系統(tǒng)使用了圖中所示的所有模塊，在三種配置中提供最好的聲音質(zhì)量，而且AAC的解碼器可以對低復(fù)雜性配置編碼的聲音數(shù)據(jù)進行解碼，但對計算機的存儲器和處理能力的要求方面，基本配置比低復(fù)雜性配置的要求高。低復(fù)雜性配置低復(fù)雜性配置(Low Complexity Profile)：在這種配置中，不使用預(yù)測模塊和預(yù)處理模塊，瞬時噪聲定形(temporal noise shaping， TNS)濾波器的級數(shù)也有限，這就使聲音質(zhì)量比基本配置的聲音質(zhì)量低，但對計算機的存儲器和處理能力的要求可明顯減少。可變

59、采樣率配置可變采樣率配置(Scalable Sampling Rate Profile)：在這種配置中，使用增益控制對信號作預(yù)處理，不使用預(yù)測模塊，TNS濾波器的級數(shù)和帶寬也都有限制，因此它比基本配置和低復(fù)雜性配置更簡單，可用來提供可變采樣頻率信號。 69 MPEG-2 AAC的基本模塊增益控制增益控制(Gain control) 增益控制模塊用在可變采樣率配置中，它由多相正交濾波器增益控制模塊用在可變采樣率配置中，它由多相正交濾波器 PQF(polyphase quadrature filter)、增益檢測器、增益檢測器(gain detector)和增和增益修正器益修正器(ga

60、in modifier)組成。這個模塊把輸入信號分離到組成。這個模塊把輸入信號分離到4個相等帶個相等帶寬的頻帶中。在解碼器中也有增益控制模塊，通過忽略寬的頻帶中。在解碼器中也有增益控制模塊，通過忽略PQF的高子帶信的高子帶信號獲得低采樣率輸出信號。號獲得低采樣率輸出信號。濾波器組濾波器組(Filter Bank) 濾波器組是把輸入信號從時域變換到頻域的轉(zhuǎn)換模塊，它是濾波器組是把輸入信號從時域變換到頻域的轉(zhuǎn)換模塊，它是MPEG-2 AAC系統(tǒng)的基本模塊。這個模塊采用了改進離散余弦變換系統(tǒng)的基本模塊。這個模塊采用了改進離散余弦變換MDCT，它是，它是一種線性正交交迭變換，使用了一種稱為時域

人人文庫> 全部分類> 教育資料 > 課件下載

溫馨提示

1. 本站所有資源如無特殊說明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽，若沒有圖紙預(yù)覽就沒有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 人人文庫網(wǎng)僅提供信息存儲空間，僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理，對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對任何下載內(nèi)容負責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容，請與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

國際視頻壓縮標準簡介

文檔簡介

溫馨提示

最新文檔

評論

國際視頻壓縮標準簡介

文檔簡介

溫馨提示

最新文檔

評論

相關(guān)文檔