第三章 新 音頻信息處理_第1頁
第三章 新 音頻信息處理_第2頁
第三章 新 音頻信息處理_第3頁
第三章 新 音頻信息處理_第4頁
第三章 新 音頻信息處理_第5頁
已閱讀5頁,還剩90頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

1、1 多媒體技術(shù)的特點(diǎn)是多媒體技術(shù)的特點(diǎn)是交互式交互式地地綜合處理聲文圖綜合處理聲文圖信息。在信息。在多媒體系統(tǒng)中語音和音樂是不可少的。沒有音頻的視頻是不多媒體系統(tǒng)中語音和音樂是不可少的。沒有音頻的視頻是不可接受的。音頻和視頻同步,才能使視頻圖像更具真實(shí)性。可接受的。音頻和視頻同步,才能使視頻圖像更具真實(shí)性。娓娓動(dòng)聽的音樂和解說,會使靜態(tài)圖像變得更加豐富多彩。娓娓動(dòng)聽的音樂和解說,會使靜態(tài)圖像變得更加豐富多彩??梢曤娫挕㈦娨晻h中的聲音更為重要??梢曤娫挕㈦娨晻h中的聲音更為重要。 音頻:音頻:audio frequencyaudio frequency(AFAF) voice frequenc

2、y (VF)voice frequency (VF)23.1 3.1 聲音概述聲音概述(重點(diǎn))(重點(diǎn))3.2 3.2 音頻信息數(shù)字化音頻信息數(shù)字化(重點(diǎn))(重點(diǎn))3.3 3.3 音頻文件的格式音頻文件的格式(重點(diǎn)(重點(diǎn), ,會用)會用)3.4 3.4 語音壓縮編碼及其語音壓縮編碼及其標(biāo)準(zhǔn)標(biāo)準(zhǔn)(標(biāo)準(zhǔn)標(biāo)準(zhǔn)重點(diǎn))重點(diǎn))3.5 3.5 音樂合成和音樂合成和MIDI MIDI 3.6 3.6 語音識別技術(shù)概述語音識別技術(shù)概述3.7 3.7 音頻編輯軟件音頻編輯軟件3一、一、聲音及其分類聲音及其分類1、聲音的概念、聲音的概念 聲音是通過空氣傳播的一種連續(xù)的波,聲音是通過空氣傳播的一種連續(xù)的波,稱為聲波稱為

3、聲波。是隨。是隨時(shí)間連續(xù)變化的物理量。時(shí)間連續(xù)變化的物理量。4 聲音的聲音的基本參數(shù)基本參數(shù) 振幅振幅聲波壓力的聲波壓力的大小或大小或高低幅度,高低幅度,體現(xiàn)聲音的體現(xiàn)聲音的強(qiáng)弱強(qiáng)弱 頻率頻率每秒鐘振動(dòng)的次數(shù),每秒鐘振動(dòng)的次數(shù),體現(xiàn)音調(diào)的體現(xiàn)音調(diào)的高低,高低,單位單位Hz (由一個(gè)名叫海里奇(由一個(gè)名叫海里奇R.赫茲赫茲的人命名)的人命名) 周期周期兩個(gè)相鄰波之間的時(shí)間長度兩個(gè)相鄰波之間的時(shí)間長度5 聲音如何傳播聲音如何傳播聲音依靠介質(zhì)的振動(dòng)進(jìn)行傳播。聲音依靠介質(zhì)的振動(dòng)進(jìn)行傳播。聲音在不同介質(zhì)中的傳播速度和衰減率不一樣,導(dǎo)致聲音聲音在不同介質(zhì)中的傳播速度和衰減率不一樣,導(dǎo)致聲音在不同介質(zhì)中傳播

4、的距離不同。在不同介質(zhì)中傳播的距離不同??諝猓諝猓?5)340m/s海水(海水(25)1531m/s鐵棒鐵棒 5200m/s6 聲音是復(fù)合信號聲音是復(fù)合信號 聲音信號由許多頻率不同的信號組成,是聲音信號由許多頻率不同的信號組成,是復(fù)合信號。復(fù)合信號。 重要參數(shù)重要參數(shù)帶寬帶寬:復(fù)合信號的頻率范圍復(fù)合信號的頻率范圍例如:例如: 高保真聲音的頻率范圍為高保真聲音的頻率范圍為10Hz20KHz,帶寬約為,帶寬約為20KHz。 而視頻信號的帶寬而視頻信號的帶寬是是6MHz。72 2、聲音的分類、聲音的分類 聲音:聲音:無規(guī)則的噪音無規(guī)則的噪音和和有規(guī)則的音頻信號有規(guī)則的音頻信號。 音頻信號攜帶的信息

5、可分為:語言、音樂和音效等三類。音頻信號攜帶的信息可分為:語言、音樂和音效等三類。 物體規(guī)則震動(dòng)發(fā)出的聲音稱為物體規(guī)則震動(dòng)發(fā)出的聲音稱為樂音樂音,由有組織的樂音來表,由有組織的樂音來表達(dá)人們思想感情、反映現(xiàn)實(shí)達(dá)人們思想感情、反映現(xiàn)實(shí) 音效就是指由音效就是指由聲音聲音所制造的效果,是指為增進(jìn)一場面之真所制造的效果,是指為增進(jìn)一場面之真實(shí)感、實(shí)感、氣氛氣氛或戲劇訊息,而加于聲帶上的或戲劇訊息,而加于聲帶上的雜音雜音或聲音。所謂或聲音。所謂的聲音則包括了的聲音則包括了樂音樂音和效果音。包括和效果音。包括數(shù)字音效數(shù)字音效、環(huán)境音效、環(huán)境音效、MP3音效音效(普通音效、專業(yè)音效)。(普通音效、專業(yè)音效)

6、。83 3、聲聲音的三要素音的三要素 音音調(diào)調(diào) 指聲音的高低。音調(diào)與聲音的指聲音的高低。音調(diào)與聲音的頻率頻率有關(guān),頻率越高,音調(diào)有關(guān),頻率越高,音調(diào)就越高;通常把音調(diào)高的聲音叫高音,音調(diào)低的聲音叫低音。就越高;通常把音調(diào)高的聲音叫高音,音調(diào)低的聲音叫低音。男高音:男高音:160-523Hz160-523Hz女高音:女高音:220-1100Hz220-1100Hz160-1280 Hz160-1280 Hz幾乎囊括所有的人類發(fā)出的聲音頻率幾乎囊括所有的人類發(fā)出的聲音頻率150 Hz150 Hz以下(以下(低音低音)豐滿,柔和富有彈性)豐滿,柔和富有彈性150-500 Hz 150-500 Hz

7、(中低音)渾厚有力而不渾濁(中低音)渾厚有力而不渾濁500-5kHz500-5kHz(中高音)明亮透徹不生硬(中高音)明亮透徹不生硬5k Hz5k Hz以上(高音)纖細(xì)圓順不尖銳刺耳以上(高音)纖細(xì)圓順不尖銳刺耳9 音色音色 指聲音的感覺特性,與聲音波形相關(guān)。聲音分純音指聲音的感覺特性,與聲音波形相關(guān)。聲音分純音和復(fù)音兩種類型。純音,指振幅和周期均為常數(shù)的聲音;和復(fù)音兩種類型。純音,指振幅和周期均為常數(shù)的聲音;復(fù)音,指具有不同頻率和不同振幅的混合聲音。復(fù)音,指具有不同頻率和不同振幅的混合聲音。 音強(qiáng)音強(qiáng) 指聲音的強(qiáng)度,即常說的指聲音的強(qiáng)度,即常說的“音量音量”。音強(qiáng)與聲波的。音強(qiáng)與聲波的振幅成

8、正比,振幅越大,音強(qiáng)越大。振幅成正比,振幅越大,音強(qiáng)越大。10說明:說明: 人耳在辨別聲音的能力只有在音強(qiáng)適中時(shí)才最靈敏;人耳在辨別聲音的能力只有在音強(qiáng)適中時(shí)才最靈敏; 一般用一般用動(dòng)態(tài)范圍動(dòng)態(tài)范圍來定義音頻信號的相對強(qiáng)度,來定義音頻信號的相對強(qiáng)度,單位:單位:dBdB 由于人的聽覺響應(yīng)與聲音信號強(qiáng)度不是成線性關(guān)系,因由于人的聽覺響應(yīng)與聲音信號強(qiáng)度不是成線性關(guān)系,因此一般用聲音信號幅度取對數(shù)后再乘此一般用聲音信號幅度取對數(shù)后再乘2020所得值來描述聲強(qiáng),所得值來描述聲強(qiáng),以以分貝(分貝(dBdB)為單位,此時(shí)稱為為單位,此時(shí)稱為音量音量。在處理音頻信號時(shí),。在處理音頻信號時(shí),一般用一般用動(dòng)態(tài)范

9、圍動(dòng)態(tài)范圍來定義音頻信號的相對強(qiáng)度:來定義音頻信號的相對強(qiáng)度: 動(dòng)態(tài)范圍動(dòng)態(tài)范圍=20=20loglog(信號的最大強(qiáng)度(信號的最大強(qiáng)度/ /信號最小強(qiáng)度)信號最小強(qiáng)度)11說明:說明: 2008年頒布的年頒布的聲環(huán)境質(zhì)量標(biāo)準(zhǔn)聲環(huán)境質(zhì)量標(biāo)準(zhǔn)GB3096-2008規(guī)定規(guī)定 ,以,以居住、文教機(jī)關(guān)為主居住、文教機(jī)關(guān)為主的區(qū)域噪音最高限值的區(qū)域噪音最高限值白天為白天為5555分貝,夜間為分貝,夜間為4545分貝。分貝。 0-200-20分貝,很靜,幾乎感覺不到分貝,很靜,幾乎感覺不到20-4020-40分貝,安靜,猶如輕聲絮語分貝,安靜,猶如輕聲絮語40-6040-60分貝,一般分貝,一般普通室內(nèi)談

10、話普通室內(nèi)談話60-7060-70分貝,比較吵鬧分貝,比較吵鬧70-90 70-90 分貝,很吵,神經(jīng)細(xì)胞受到破壞分貝,很吵,神經(jīng)細(xì)胞受到破壞90-10090-100分貝,吵鬧加劇,聽力受損,分貝,吵鬧加劇,聽力受損,100100以上致聾!以上致聾! 12(高高)(低低)(弱弱)(強(qiáng)強(qiáng))(停停)鋼琴鋼琴 吉他吉他 小號小號 小提琴小提琴13二、音頻信號二、音頻信號(1 1)語音:具有語言內(nèi)涵和人類約定成俗的特殊媒體。)語音:具有語言內(nèi)涵和人類約定成俗的特殊媒體。(2 2)音樂:規(guī)范的符號化了的聲音。)音樂:規(guī)范的符號化了的聲音。(3 3)音效)音效( (響)響):人類熟悉的其他聲音,如動(dòng)物發(fā)聲

11、、機(jī)器產(chǎn):人類熟悉的其他聲音,如動(dòng)物發(fā)聲、機(jī)器產(chǎn)生的聲音、自然界的風(fēng)雨雷電聲等。生的聲音、自然界的風(fēng)雨雷電聲等。 音頻的音頻的作用作用:直接通過講話表達(dá)信息、制造某種效果和氣直接通過講話表達(dá)信息、制造某種效果和氣氛、演奏音樂等。氛、演奏音樂等。141、 音頻音頻人類聽覺所感知范圍內(nèi)的頻率,也稱人類聽覺所感知范圍內(nèi)的頻率,也稱聲頻。聲頻。 音頻音頻(Audio):頻率范圍:頻率范圍-20Hz20KHz(人耳能聽到)(人耳能聽到) 次聲波次聲波(subsonic):頻率低于頻率低于20Hz的信號的信號(亞音)亞音) 超聲波超聲波(ultrasonic):頻率高于:頻率高于20KHz的信號的信號(超

12、音頻)超音頻) 超聲波超聲波152 2、音頻信號的技術(shù)指標(biāo)音頻信號的技術(shù)指標(biāo) 頻帶寬度頻帶寬度:音頻信號的頻率范圍,是衡量:音頻信號的頻率范圍,是衡量音質(zhì)音質(zhì)的標(biāo)準(zhǔn)。的標(biāo)準(zhǔn)。頻帶越寬,包含的音頻信號分量越豐富,則音質(zhì)越好。頻帶越寬,包含的音頻信號分量越豐富,則音質(zhì)越好。 通常將音質(zhì)定義為通常將音質(zhì)定義為4 4個(gè)等級標(biāo)準(zhǔn):個(gè)等級標(biāo)準(zhǔn): CD-DA唱盤為唱盤為10Hz22KHz; FM廣播為廣播為20Hz15KHz; AM廣播為廣播為50Hz7KHz; 數(shù)字電話為數(shù)字電話為200Hz3.4KHz。1617 動(dòng)態(tài)范圍動(dòng)態(tài)范圍 動(dòng)態(tài)范圍動(dòng)態(tài)范圍2020loglog(信號的最大強(qiáng)度(信號的最大強(qiáng)度/ /

13、信號的最小強(qiáng)度)信號的最小強(qiáng)度) 動(dòng)態(tài)范圍越大,說明音頻信號的相對變化范圍大,動(dòng)態(tài)范圍越大,說明音頻信號的相對變化范圍大,音響音響效效果越好。果越好。 1 1分貝大約是人剛剛能感覺到的聲音,適宜的生活環(huán)境不分貝大約是人剛剛能感覺到的聲音,適宜的生活環(huán)境不應(yīng)超過應(yīng)超過4545分貝,不低于分貝,不低于1515分貝。分貝。 信噪比信噪比SRN(Signal to Noise Rate ,dB) 信噪比:信噪比:有用信號有用信號的平均功率與的平均功率與噪音噪音的平均功率之比。的平均功率之比。 信噪比越高,則音效越好。信噪比越高,則音效越好。183.3.音頻信號的特點(diǎn)音頻信號的特點(diǎn) 由于音頻由于音頻是是

14、依賴時(shí)間的連續(xù)媒體,因此音頻處理的依賴時(shí)間的連續(xù)媒體,因此音頻處理的時(shí)序性時(shí)序性要求高;要求高; 由于人類接收聲音有兩個(gè)通道,因此計(jì)算機(jī)合成的聲音應(yīng)由于人類接收聲音有兩個(gè)通道,因此計(jì)算機(jī)合成的聲音應(yīng)是是立體聲立體聲; 由于語音信號攜帶了情感意向,因此對語音信號的處理還由于語音信號攜帶了情感意向,因此對語音信號的處理還要抽取要抽取語意語意等其等其它它信息。信息。19三、數(shù)字音頻三、數(shù)字音頻1. 1. 數(shù)字音頻數(shù)字音頻 將模擬的將模擬的( (連續(xù)的連續(xù)的) )聲音波形數(shù)字化聲音波形數(shù)字化( (離散化離散化) ),以便利用數(shù),以便利用數(shù)字計(jì)算機(jī)進(jìn)行處理的過程。(字計(jì)算機(jī)進(jìn)行處理的過程。(A/DA/D

15、轉(zhuǎn)換)轉(zhuǎn)換) 主要包括主要包括采樣采樣、量化量化和和編碼編碼幾個(gè)方面。幾個(gè)方面。2. 2. 數(shù)字音頻的技術(shù)指標(biāo)數(shù)字音頻的技術(shù)指標(biāo) 采樣頻率采樣頻率、量化位數(shù)量化位數(shù)、聲道數(shù)聲道數(shù)、編碼算法編碼算法 數(shù)字音頻的數(shù)字音頻的質(zhì)量質(zhì)量取決于:取決于:采樣頻率采樣頻率和和量化位數(shù)量化位數(shù)這兩個(gè)重要這兩個(gè)重要參數(shù)。此外,聲道的數(shù)目、相應(yīng)的音頻設(shè)備也是影響參數(shù)。此外,聲道的數(shù)目、相應(yīng)的音頻設(shè)備也是影響音頻質(zhì)量音頻質(zhì)量的原因。的原因。203. 3. 數(shù)字音頻等級數(shù)字音頻等級信號類型 頻率范圍(Hz) 采樣率(kHz) 量化精度(位) 電話話音 2003400 8 8 寬帶音頻 507000 16 16 調(diào)頻廣

16、播 2015k 37.8 16 高質(zhì)量音頻 2020k 44.1 16 各種聲音質(zhì)量的壓縮比各種聲音質(zhì)量的壓縮比聲音質(zhì)量聲音質(zhì)量寬帶(寬帶(kHz)聲道聲道數(shù)據(jù)率(數(shù)據(jù)率(Kb/s)壓縮比壓縮比CD音質(zhì)音質(zhì)15雙聲道立體聲雙聲道立體聲1121281:141:12接近接近CD15雙聲道立體聲雙聲道立體聲961:16調(diào)頻廣播調(diào)頻廣播11雙聲道立體聲雙聲道立體聲56641:271:24中波廣播中波廣播7.5單聲道單聲道321:24短波廣播短波廣播4.5單聲道單聲道161:48電話音質(zhì)電話音質(zhì)2.5單聲道單聲道81:9622一、模擬信號與數(shù)字信號一、模擬信號與數(shù)字信號 在時(shí)間和幅度上都在時(shí)間和幅度上都

17、連續(xù)連續(xù)的信號稱為的信號稱為模擬信號。模擬信號。在時(shí)間和幅度上都在時(shí)間和幅度上都離散離散,用數(shù)字表示的信號稱為,用數(shù)字表示的信號稱為數(shù)字信號。數(shù)字信號。 對模擬信號的處理:比較對模擬信號的處理:比較復(fù)雜復(fù)雜,難于精確控制難于精確控制,成本高。,成本高。 將模擬信號數(shù)字化目的:處理將模擬信號數(shù)字化目的:處理簡單,控制精確簡單,控制精確。23二、模擬聲音數(shù)字化過程二、模擬聲音數(shù)字化過程采樣采樣在某特定時(shí)刻對模擬信號進(jìn)行測量叫在某特定時(shí)刻對模擬信號進(jìn)行測量叫采樣。采樣。 每隔相等的一段時(shí)間進(jìn)行采樣,稱為每隔相等的一段時(shí)間進(jìn)行采樣,稱為均勻采樣均勻采樣,否則為否則為非均勻采樣。非均勻采樣。量化量化把信

18、號幅度劃分成若干小段,若每段都是相等的,稱為把信號幅度劃分成若干小段,若每段都是相等的,稱為線性量化線性量化,否則稱為,否則稱為非線性量化非線性量化。編碼編碼:將離散的模擬信號轉(zhuǎn)化為數(shù)字信號,即對量化后:將離散的模擬信號轉(zhuǎn)化為數(shù)字信號,即對量化后的離散值用二進(jìn)制代碼取代。的離散值用二進(jìn)制代碼取代。241、采樣、采樣采樣采樣(sampling)在時(shí)間軸上對信號數(shù)字化。在時(shí)間軸上對信號數(shù)字化。采樣周期采樣周期:對連續(xù)信號采樣的時(shí)間間隔:對連續(xù)信號采樣的時(shí)間間隔T采樣頻率采樣頻率:單位時(shí)間內(nèi)的采樣次數(shù)(:單位時(shí)間內(nèi)的采樣次數(shù)(1/T)。)。采樣頻率越高,可恢復(fù)的聲音保真度越好。采樣頻率越高,可恢復(fù)的

19、聲音保真度越好。常用采樣頻率常用采樣頻率 11.025KHz、22.05KHz、44.1KHz、48KHz。如何保證采樣的聲音不失真?如何保證采樣的聲音不失真?25奈魁斯特奈魁斯特(Nyquiest)采樣定理采樣定理: 若對某一模擬信號進(jìn)行采樣,只要采樣頻率若對某一模擬信號進(jìn)行采樣,只要采樣頻率f(1/T)高于高于輸入信號最高頻率輸入信號最高頻率fC的兩倍的兩倍(f2fC),則經(jīng)過采樣后的采樣信,則經(jīng)過采樣后的采樣信號能夠包含原模擬信號的全部信息,且經(jīng)過反變換和低通濾號能夠包含原模擬信號的全部信息,且經(jīng)過反變換和低通濾波后可不失真地恢復(fù)原模擬信號。波后可不失真地恢復(fù)原模擬信號。例如,例如,電話

20、話音信號的頻率約為電話話音信號的頻率約為 3.4kHz,采樣頻率選,采樣頻率選 8kHz。262 2、 量化:量化:對聲音信號波形振幅值的離散化對聲音信號波形振幅值的離散化量化誤差(或量化噪音)量化誤差(或量化噪音): 量化后的振幅代表值與真實(shí)振幅值之間的差。量化后的振幅代表值與真實(shí)振幅值之間的差。量化跨度量化跨度:在分割振幅時(shí)一個(gè)個(gè)小區(qū)間的寬度:在分割振幅時(shí)一個(gè)個(gè)小區(qū)間的寬度量化精度量化精度(位數(shù)位數(shù)): 每個(gè)聲音樣本的二進(jìn)制位數(shù)每個(gè)聲音樣本的二進(jìn)制位數(shù)(bit per sample,bps)27283 3、編碼編碼按一定格式記錄采樣和量化后的數(shù)字?jǐn)?shù)據(jù)按一定格式記錄采樣和量化后的數(shù)字?jǐn)?shù)據(jù) 將

21、離散的模擬信號轉(zhuǎn)化為數(shù)字信號,即對量化后的離散將離散的模擬信號轉(zhuǎn)化為數(shù)字信號,即對量化后的離散值用二進(jìn)制代碼(值用二進(jìn)制代碼(2 28 8或或2 21616)取代。)取代。29量化位數(shù)決定了量化等級量化位數(shù)決定了量化等級M=2n。常用的。常用的量化位數(shù)為量化位數(shù)為8bit或或16bit。顯然,量化位數(shù)越多,則量化精度越高。即量化后聲。顯然,量化位數(shù)越多,則量化精度越高。即量化后聲音信號越接近原始信號,但量化后的數(shù)據(jù)量也越大。音信號越接近原始信號,但量化后的數(shù)據(jù)量也越大。30聲道數(shù)聲道數(shù) 一次同時(shí)產(chǎn)生的聲波組數(shù)。若一次產(chǎn)生兩組聲波數(shù)據(jù),則一次同時(shí)產(chǎn)生的聲波組數(shù)。若一次產(chǎn)生兩組聲波數(shù)據(jù),則為雙聲道

22、或立體聲。為雙聲道或立體聲。聲道數(shù):聲道數(shù): 2.02.0(雙聲道立體聲)(雙聲道立體聲) 2.12.1(雙聲道加一超重低音聲道)(雙聲道加一超重低音聲道) 4.14.1(發(fā)音點(diǎn):前左、前右、后左、后右、超重低音)(發(fā)音點(diǎn):前左、前右、后左、后右、超重低音) 5.15.1(比比4.14.1聲道增加一個(gè)中置單元,增加整體影院效果)聲道增加一個(gè)中置單元,增加整體影院效果) 7.17.1(比比4.14.1聲道增加中左、中右發(fā)音點(diǎn)聲道增加中左、中右發(fā)音點(diǎn))31三種最常用的采樣指標(biāo)及等效音質(zhì):三種最常用的采樣指標(biāo)及等效音質(zhì):324 4、數(shù)字音頻的存儲量、數(shù)字音頻的存儲量存儲量存儲量=(采樣頻率采樣頻率量

23、化位數(shù)量化位數(shù)聲道數(shù)聲道數(shù)持續(xù)時(shí)間持續(xù)時(shí)間)/8(字節(jié)數(shù)字節(jié)數(shù))如:如:CD光盤采用了光盤采用了雙聲道雙聲道 16 位位采樣,采樣頻率為采樣,采樣頻率為 44.1 KHz,可達(dá)專業(yè)級水平。若某首流行歌曲的長度為可達(dá)專業(yè)級水平。若某首流行歌曲的長度為 3.5 分鐘,則該歌分鐘,則該歌曲占用的存儲容量為:曲占用的存儲容量為:161644.144.1100010002 2(3.5(3.560)60)8=370440008=37044000(B B)=35.33MB=35.33MB33一、音頻文件的分類一、音頻文件的分類1 1、波形文件波形文件(聲音文件)(聲音文件) 模擬音頻信號經(jīng)數(shù)字化后由計(jì)算機(jī)處

24、理、存儲及傳輸,輸模擬音頻信號經(jīng)數(shù)字化后由計(jì)算機(jī)處理、存儲及傳輸,輸出時(shí)經(jīng)出時(shí)經(jīng)D/AD/A轉(zhuǎn)換將數(shù)字信號還原為原來波形的音頻文件。該文轉(zhuǎn)換將數(shù)字信號還原為原來波形的音頻文件。該文件屬于獲取件屬于獲取聲音文件聲音文件。聲音文件:聲音文件:指的是通過聲音錄入設(shè)備錄制的原始聲音,指的是通過聲音錄入設(shè)備錄制的原始聲音,直接記錄了真實(shí)聲音的二進(jìn)制采樣數(shù)據(jù),通常文件較大。直接記錄了真實(shí)聲音的二進(jìn)制采樣數(shù)據(jù),通常文件較大。342、非波形文件、非波形文件(MIDI文件)文件) 通過語音合成器產(chǎn)生相應(yīng)聲音的非波形格式的通過語音合成器產(chǎn)生相應(yīng)聲音的非波形格式的MIDI(Musical Instrument Di

25、gital Interface)文件)文件(.MID)。)。 MIDI文件文件:它是一種音樂演奏指令序列,相當(dāng)于樂譜,:它是一種音樂演奏指令序列,相當(dāng)于樂譜,可以利用聲音輸出設(shè)備或與計(jì)算機(jī)相連的電子樂器進(jìn)行可以利用聲音輸出設(shè)備或與計(jì)算機(jī)相連的電子樂器進(jìn)行演奏,由于不包含聲音數(shù)據(jù),其文件尺寸較小。演奏,由于不包含聲音數(shù)據(jù),其文件尺寸較小。353、混合型文件、混合型文件(MOD文件)文件) 既有既有波形文件波形文件的特征,又有的特征,又有非波形文件非波形文件的特征的文件。的特征的文件。 MOD文件文件 最初由最初由Commodor公司發(fā)明,用于公司發(fā)明,用于Amiga計(jì)算機(jī)中的智能音樂計(jì)算機(jī)中的智

26、能音樂芯片上,后來主要由業(yè)余愛好者使用的一種共享、自由軟件。芯片上,后來主要由業(yè)余愛好者使用的一種共享、自由軟件。 該文件既含有該文件既含有聲音的采樣數(shù)據(jù),又含有這些樣本的描述性指令聲音的采樣數(shù)據(jù),又含有這些樣本的描述性指令,適用于網(wǎng)絡(luò)和適用于網(wǎng)絡(luò)和BBC等。等。 31種采樣聲音,可產(chǎn)生大型樂隊(duì)的效果。但其采樣位數(shù)只是種采樣聲音,可產(chǎn)生大型樂隊(duì)的效果。但其采樣位數(shù)只是8位,采樣頻率是位,采樣頻率是32KHz,不可能達(dá)到,不可能達(dá)到CD音質(zhì)的效果。音質(zhì)的效果。36二、音頻文件的格式二、音頻文件的格式 波形文件(聲音文件):波形文件(聲音文件): WAV、 VOC、 AU、MP3、RM(RA/RA

27、M)、)、WMA、 PCM、CD唱片唱片、AIF等等 非波形文件:非波形文件:MIDI 、RMI 混合文件:混合文件:MOD、S3M、XM、MTM、FAR、KAR371、Wave文件文件.WAV 由由Microsoft公司專門為公司專門為Windows開發(fā)的一種標(biāo)準(zhǔn)數(shù)字音頻文件。開發(fā)的一種標(biāo)準(zhǔn)數(shù)字音頻文件。該文件是通過對該文件是通過對模擬音頻模擬音頻以不同的采樣頻率、不同的量化位數(shù)進(jìn)行以不同的采樣頻率、不同的量化位數(shù)進(jìn)行數(shù)數(shù)字化字化而得到的數(shù)字信號存入磁盤而形成的而得到的數(shù)字信號存入磁盤而形成的波形文件波形文件。 只要采樣率高、采樣字節(jié)長、機(jī)器速度快,利用該格式記錄的只要采樣率高、采樣字節(jié)長、

28、機(jī)器速度快,利用該格式記錄的聲音文件能夠和原聲基本一致,聲音文件能夠和原聲基本一致,質(zhì)量非常高質(zhì)量非常高,但代價(jià)是,但代價(jià)是文件太大文件太大。Wave文件特點(diǎn):文件特點(diǎn):聲音不失真聲音不失真未經(jīng)壓縮的聲音文件占用存儲盤空間太大。未經(jīng)壓縮的聲音文件占用存儲盤空間太大。382、Voice文件文件.VOC Voice文件是文件是Creative Labs(創(chuàng)新公司)開發(fā)的聲音文件格式,(創(chuàng)新公司)開發(fā)的聲音文件格式,多用于保存多用于保存Creative Sound Blaster(創(chuàng)新聲霸)系列聲卡所采集的(創(chuàng)新聲霸)系列聲卡所采集的聲音數(shù)據(jù),被聲音數(shù)據(jù),被Windows平臺和平臺和DOS平臺所支持

29、,支持平臺所支持,支持CCITT A Law和和CCITT Law等壓縮算法。等壓縮算法。Voice文件是聲霸卡(文件是聲霸卡(sound blaster)使用的音頻文件格式。使用的音頻文件格式。3 3、AudioAudio文件文件.AU.AU Audio Audio文件是文件是Sun MicrosystemsSun Microsystems公司推出的一種經(jīng)過壓縮公司推出的一種經(jīng)過壓縮的數(shù)字聲音格式,是的數(shù)字聲音格式,是InternetInternet中常用的聲音文件格式,中常用的聲音文件格式,Netscape NavigatorNetscape Navigator瀏覽器中的瀏覽器中的Live

30、 Audio Live Audio 也支持也支持AudioAudio格格式的聲音文件。式的聲音文件。394、MPEG音頻文件音頻文件.MP1/.MP2/.MP3 MPEG(Moving Picture Experts Group)音頻文件格音頻文件格式是式是MPEG標(biāo)準(zhǔn)中的音頻部分,即標(biāo)準(zhǔn)中的音頻部分,即MPEG音頻層音頻層(MPEG-1 Audio Layer);MPEGMPEG標(biāo)準(zhǔn)主要有以下五個(gè)標(biāo)準(zhǔn)主要有以下五個(gè): MPEG-1MPEG-1、MPEG-2MPEG-2、MPEG-4MPEG-4、MPEG-7MPEG-7及及MPEG-21MPEG-21等。該專等。該專家組建于家組建于19881

31、988年,專門負(fù)責(zé)為年,專門負(fù)責(zé)為CDCD建立建立視頻視頻和和音頻音頻標(biāo)準(zhǔn)標(biāo)準(zhǔn)。及后,建立了及后,建立了ISOISO/IEC1172/IEC1172壓縮壓縮編碼編碼標(biāo)準(zhǔn),現(xiàn)時(shí)泛指的標(biāo)準(zhǔn),現(xiàn)時(shí)泛指的MPEG-XMPEG-X版本,就是由版本,就是由ISO(International Organization ISO(International Organization for Standardizationfor Standardization)所制定而發(fā)布的視頻、音頻數(shù))所制定而發(fā)布的視頻、音頻數(shù)據(jù)的壓縮標(biāo)準(zhǔn)。據(jù)的壓縮標(biāo)準(zhǔn)。 40 MPEG-1MPEG-1音頻文件的壓縮是一種有損壓縮,根據(jù)壓縮質(zhì)

32、量和編碼復(fù)雜程音頻文件的壓縮是一種有損壓縮,根據(jù)壓縮質(zhì)量和編碼復(fù)雜程 度的不同可分為三層度的不同可分為三層(MPEG-1AudioLayer1/2/3)(MPEG-1AudioLayer1/2/3),分別對應(yīng),分別對應(yīng)MP1MP1、MP2MP2和和 MP3 MP3這三種聲音文件;這三種聲音文件; MPEG-1AudioLayer1/2/3MPEG-1AudioLayer1/2/3的壓縮比和采樣率的壓縮比和采樣率 層層1(Layer 11(Layer 1):編碼簡單,用于數(shù)字盒式錄音磁帶):編碼簡單,用于數(shù)字盒式錄音磁帶 層層2(Layer 22(Layer 2):):算法復(fù)雜度算法復(fù)雜度中等,

33、用于數(shù)字音頻廣(中等,用于數(shù)字音頻廣(DABDAB)和)和VCDVCD等等; 層層3(Layer 33(Layer 3):編碼復(fù)雜,用于):編碼復(fù)雜,用于互聯(lián)網(wǎng)互聯(lián)網(wǎng)上的高質(zhì)量聲音的傳輸,如上的高質(zhì)量聲音的傳輸,如 MP3 MP3音樂壓縮音樂壓縮1010倍倍 壓縮比壓縮比采樣率采樣率Layer-11:4384kbpsMP1Layer-21:6到到1:8192kbpsMP2Layer-31:10到到1:12112kbpsMP341MPEG-2MPEG-2MPEG-2MPEG-2標(biāo)準(zhǔn)標(biāo)準(zhǔn)于于19941994年公布,年公布, MPEG-2 MPEG-2編碼標(biāo)準(zhǔn)希望囊括數(shù)字電視、編碼標(biāo)準(zhǔn)希望囊括數(shù)字電

34、視、圖像通信圖像通信各領(lǐng)域的各領(lǐng)域的編碼標(biāo)準(zhǔn),編碼標(biāo)準(zhǔn),MPEG-2MPEG-2按壓縮比大小的不同分成五個(gè)檔次按壓縮比大小的不同分成五個(gè)檔次(profileprofile),每一個(gè)檔次又按),每一個(gè)檔次又按圖像清晰度圖像清晰度的不同分成四種的不同分成四種圖圖像格式像格式,或稱為級別(,或稱為級別(levellevel)。五個(gè)檔次四種級別共有)。五個(gè)檔次四種級別共有2020種種組合組合,但實(shí)際應(yīng)用中有些組合不太可能出現(xiàn),較常用的是,但實(shí)際應(yīng)用中有些組合不太可能出現(xiàn),較常用的是1111種組合。這種組合。這1111種組合分別應(yīng)用在不同的場合,如種組合分別應(yīng)用在不同的場合,如MPMLMPML(主檔(主

35、檔次與主級別)用在具有演播室質(zhì)量標(biāo)準(zhǔn)清晰度電視次與主級別)用在具有演播室質(zhì)量標(biāo)準(zhǔn)清晰度電視SDTVSDTV中,中, 特性:特性:MPEG-2MPEG-2的聲音壓縮編碼采用與的聲音壓縮編碼采用與MPEG-1MPEG-1聲音相同的聲音相同的編譯碼器,層編譯碼器,層1 1,層,層2 2和層和層3 3的結(jié)構(gòu)也相同,但它能支持的結(jié)構(gòu)也相同,但它能支持5.15.1聲聲道道和和7.17.1聲道聲道的環(huán)繞立體聲。的環(huán)繞立體聲。42MPEG-4MPEG-4MPEG-4MPEG-4在在19951995年年7 7月開始研究,月開始研究,19981998年年1111月被月被ISO/IECISO/IEC批批準(zhǔn)為正式標(biāo)準(zhǔn)

36、,它不僅針對一定比特率下的視頻、準(zhǔn)為正式標(biāo)準(zhǔn),它不僅針對一定比特率下的視頻、音頻編碼音頻編碼,更加注重更加注重多媒體多媒體系統(tǒng)的交互性和靈活性。這個(gè)標(biāo)準(zhǔn)主要應(yīng)用系統(tǒng)的交互性和靈活性。這個(gè)標(biāo)準(zhǔn)主要應(yīng)用于視像電話、視像于視像電話、視像電子郵件電子郵件等,等, MPEG-7MPEG-7MPEG-7MPEG-7(它的由來是(它的由來是1+2+4=71+2+4=7)于)于19961996年年1010月開始研究。月開始研究。MPEGMPEG7 7并不是一種壓縮編碼方法,其正規(guī)的名字叫做并不是一種壓縮編碼方法,其正規(guī)的名字叫做多多媒體內(nèi)容描述媒體內(nèi)容描述接口接口,其目的是生成一種用來描述多媒體內(nèi)容,其目的是

37、生成一種用來描述多媒體內(nèi)容的標(biāo)準(zhǔn),建立的標(biāo)準(zhǔn),建立MPEG-7MPEG-7標(biāo)準(zhǔn)的出發(fā)點(diǎn)是依靠眾多的標(biāo)準(zhǔn)的出發(fā)點(diǎn)是依靠眾多的參數(shù)參數(shù)對圖象對圖象與聲音實(shí)現(xiàn)分類,并對它們的與聲音實(shí)現(xiàn)分類,并對它們的數(shù)據(jù)庫數(shù)據(jù)庫實(shí)現(xiàn)查詢。實(shí)現(xiàn)查詢。 435、RealAudio文件文件.RA/.RM/.RAM RealAudio文件是文件是 Real Networks公司開發(fā)的一種新型公司開發(fā)的一種新型流式流式音頻音頻(Streaming Audio)文件格式。)文件格式。 傳統(tǒng)的音頻文件傳統(tǒng)的音頻文件可以存入硬盤或其它的存儲介質(zhì)中。一般來說,可以存入硬盤或其它的存儲介質(zhì)中。一般來說,這種音樂文件在播放之前,需要完全

38、下載。這種音樂文件在播放之前,需要完全下載。 流式文件流式文件(如(如RealAudio和和QuickTime使用的文件格式)可以一使用的文件格式)可以一邊下載一邊聽,但無法很容易地把整個(gè)文件保存到硬盤上。邊下載一邊聽,但無法很容易地把整個(gè)文件保存到硬盤上。 注意:注意:一些文件格式,如一些文件格式,如MP3和和WMA,既可以是傳統(tǒng)文件,也可以,既可以是傳統(tǒng)文件,也可以是流式文件。是流式文件。446、PCM文件文件.PCM 由模擬音頻信號直接通過由模擬音頻信號直接通過A/D轉(zhuǎn)換而形成的二進(jìn)制序列文轉(zhuǎn)換而形成的二進(jìn)制序列文件。件。特點(diǎn):特點(diǎn):保真度高,解碼速度快,但編碼后的數(shù)據(jù)量大。保真度高,解

39、碼速度快,但編碼后的數(shù)據(jù)量大。如:如:CD-DA就是采用該編碼方式,每分鐘的音樂約需要就是采用該編碼方式,每分鐘的音樂約需要10MB磁盤存儲空間。一般可通過轉(zhuǎn)換工具將磁盤存儲空間。一般可通過轉(zhuǎn)換工具將PCM文件轉(zhuǎn)換成文件轉(zhuǎn)換成WAV文文件。件。45三、三、MIDI文件格式文件格式.MID/.RMI通過語音合成器產(chǎn)生相應(yīng)聲音的非波形格式的通過語音合成器產(chǎn)生相應(yīng)聲音的非波形格式的MIDI(Musical Instrument DigitalInterface)文件()文件(.MID)。)。 屬于合成聲音文件,屬于合成聲音文件,即采用數(shù)字方式對樂器所演奏出來的聲音即采用數(shù)字方式對樂器所演奏出來的聲音

40、進(jìn)行記錄,然后在播發(fā)時(shí)再對這些記錄進(jìn)行合成。進(jìn)行記錄,然后在播發(fā)時(shí)再對這些記錄進(jìn)行合成。 存儲的是指令和數(shù)據(jù),不是數(shù)字化的實(shí)際聲音。存儲的是指令和數(shù)據(jù),不是數(shù)字化的實(shí)際聲音。即存儲的是發(fā)即存儲的是發(fā)給音頻合成器的一系列指令,給音頻合成器的一系列指令,MIDI 傳輸?shù)牟皇锹曇粜盘杺鬏數(shù)牟皇锹曇粜盘? 而是音符、而是音符、控制參數(shù)等控制參數(shù)等指令指令, 它指示它指示MIDI 設(shè)備要做什么設(shè)備要做什么,怎么做怎么做, 如演奏哪個(gè)音如演奏哪個(gè)音符、多大符、多大音量音量等。等。占用磁盤空間非常?。ㄕ加么疟P空間非常小(MID文件每文件每1分鐘只用大約分鐘只用大約510KB)。)。 缺點(diǎn):缺點(diǎn):處理語音能力

41、和效果相對較差。一般只適用于記錄樂曲。處理語音能力和效果相對較差。一般只適用于記錄樂曲。46四、模塊文件四、模塊文件MOD/.S3M/.XM/.MTM/.FAR/.KAR/ 同時(shí)具有同時(shí)具有MIDI與數(shù)字音頻(聲音文件)的共同特性;與數(shù)字音頻(聲音文件)的共同特性; 文件中既包括如何演奏樂器的指令,又保存了數(shù)字聲音信號的文件中既包括如何演奏樂器的指令,又保存了數(shù)字聲音信號的采樣數(shù)據(jù),為此,其聲音回放質(zhì)量對音頻硬件的依賴性較小,采樣數(shù)據(jù),為此,其聲音回放質(zhì)量對音頻硬件的依賴性較小,即,在不同的機(jī)器上可以獲得基本相似的聲音回放質(zhì)量;即,在不同的機(jī)器上可以獲得基本相似的聲音回放質(zhì)量; 根據(jù)不同的編碼

42、方法有根據(jù)不同的編碼方法有MOD、S3M、XM、MTM、FAR、KAR、IT等多種不同格式。等多種不同格式。47WAVE文件與文件與MIDI文件的區(qū)別:文件的區(qū)別:1、文件格式:文件格式:WAVE文件是通過直接對模擬聲波進(jìn)行數(shù)字化得到的文件是通過直接對模擬聲波進(jìn)行數(shù)字化得到的音頻信號數(shù)據(jù);而音頻信號數(shù)據(jù);而MIDI文件只是記錄了一系列樂譜指令。文件只是記錄了一系列樂譜指令。2、聲音來源:聲音來源:WAVE文件是直接通過聲卡輸入端口獲取的音源,并文件是直接通過聲卡輸入端口獲取的音源,并可從輸出端口直接播放;而可從輸出端口直接播放;而MIDI是通過是通過MIDI接口由音序器記錄電接口由音序器記錄電

43、子樂譜的指令數(shù)據(jù)。子樂譜的指令數(shù)據(jù)。3、存儲容量:存儲容量:采用采用MIDI格式記錄比采用格式記錄比采用WAVE格式記錄的數(shù)據(jù)量格式記錄的數(shù)據(jù)量小兩個(gè)數(shù)量級以上。小兩個(gè)數(shù)量級以上。格格 式式描描 述述適用的播放軟件適用的播放軟件Wav未經(jīng)壓縮的波形(未經(jīng)壓縮的波形(Wav)聲音文件,質(zhì)量好,)聲音文件,質(zhì)量好,占用空間大。占用空間大。Windows中的媒體播放器、中的媒體播放器、錄音機(jī)。錄音機(jī)。MP3是是Wav文件經(jīng)過特殊壓縮后產(chǎn)生的一種音樂格文件經(jīng)過特殊壓縮后產(chǎn)生的一種音樂格式文件,壓縮比式文件,壓縮比1012。媒體播放器、超級解霸,媒體播放器、超級解霸,Realone Player、Win

44、mapRM/RA是是Real Audio,是目前最流行的格式支持,是目前最流行的格式支持流媒流媒體體技術(shù)。技術(shù)。Realone playerWMAWindows Media,功能齊全,使用方便,功能齊全,使用方便Windows平臺平臺CD唱片唱片是最好的一種聲音格式文件,是最好的一種聲音格式文件,16位采樣精度,位采樣精度,44.1kHz,可重現(xiàn)原來的聲音。,可重現(xiàn)原來的聲音。Windows自帶工具自帶工具CD唱機(jī)唱機(jī)MIDI樂器數(shù)字化接口(樂器數(shù)字化接口(Musical Instrumment DigitalInterface)媒體播放器,超級解霸。媒體播放器,超級解霸。MP4不是不是Mp3

45、的改進(jìn)版本,是美國網(wǎng)絡(luò)技術(shù)公司的改進(jìn)版本,是美國網(wǎng)絡(luò)技術(shù)公司(GMO)采用)采用MPEG2中的音頻壓縮技術(shù)。中的音頻壓縮技術(shù)。壓縮比壓縮比1:15,比,比Mp3的的1:12高。高。Vcd、DVD播放軟件:播放軟件:格格 式式特點(diǎn)特點(diǎn)適用的播放軟件適用的播放軟件是否流媒體是否流媒體Wav音質(zhì)好,容量大音質(zhì)好,容量大媒體播放器媒體播放器否否MP3媒體播放器、超級解霸,媒體播放器、超級解霸,Realone Player、WinmapRM/RARealone playerWMAWindows平臺平臺CD唱片唱片Windows自帶工具自帶工具CD唱機(jī)唱機(jī)MIDI媒體播放器,超級解霸媒體播放器,超級解霸M

46、P4Vcd、DVD播放軟件播放軟件音頻文件總結(jié)音頻文件總結(jié)50一、概述一、概述1、壓縮編碼的、壓縮編碼的目的目的 在保證一定圖像(或聲音)質(zhì)量的條件下,以在保證一定圖像(或聲音)質(zhì)量的條件下,以最小的數(shù)據(jù)最小的數(shù)據(jù)率率來表達(dá)和傳送圖像(或聲音)信息。來表達(dá)和傳送圖像(或聲音)信息。2、壓縮編碼的壓縮編碼的重要性重要性 實(shí)際應(yīng)用中,未壓縮編碼的音頻數(shù)據(jù)量很大,進(jìn)行實(shí)際應(yīng)用中,未壓縮編碼的音頻數(shù)據(jù)量很大,進(jìn)行傳輸或傳輸或存儲存儲數(shù)據(jù)量很不現(xiàn)實(shí)數(shù)據(jù)量很不現(xiàn)實(shí)。513、數(shù)據(jù)能夠得到壓縮的數(shù)據(jù)能夠得到壓縮的可能性可能性(1)原始數(shù)據(jù)中存在著大量的原始數(shù)據(jù)中存在著大量的冗余冗余信息;信息;(2)視頻和音頻

47、信息的最終接收者是人,人的視覺和聽覺器官視頻和音頻信息的最終接收者是人,人的視覺和聽覺器官都具有某種都具有某種不敏感性不敏感性,舍去人的感官所不敏感的信息對圖像或,舍去人的感官所不敏感的信息對圖像或聲音質(zhì)量的影響很小,在有些情況下,甚至可以忽略不計(jì);聲音質(zhì)量的影響很小,在有些情況下,甚至可以忽略不計(jì);(3)對聲音波形取樣后,相鄰樣值之間存在著很強(qiáng)的對聲音波形取樣后,相鄰樣值之間存在著很強(qiáng)的相關(guān)性相關(guān)性。524.語音壓縮編碼算法的評價(jià)語音壓縮編碼算法的評價(jià)音頻質(zhì)量音頻質(zhì)量數(shù)據(jù)量數(shù)據(jù)量 數(shù)據(jù)量數(shù)據(jù)量=(采樣頻率采樣頻率量化位數(shù)量化位數(shù))/8(字節(jié)數(shù)字節(jié)數(shù))聲道數(shù)目聲道數(shù)目算法復(fù)雜度算法復(fù)雜度 在保

48、證質(zhì)量的前提下,盡量減少算法復(fù)雜度在保證質(zhì)量的前提下,盡量減少算法復(fù)雜度53分?jǐn)?shù)分?jǐn)?shù)質(zhì)量級別質(zhì)量級別失真級別失真級別5優(yōu)優(yōu)(Excellent)無察覺無察覺4良良(Good)(剛剛)察覺但不討厭察覺但不討厭3中中(Fair)(察覺察覺)有點(diǎn)討厭有點(diǎn)討厭2差差(Poor)討厭但不反感討厭但不反感1劣劣(Bad)極討厭極討厭(令人反感令人反感)音頻質(zhì)量:音頻質(zhì)量:主觀評價(jià):主觀意見打分,歌詠比賽主觀評價(jià):主觀意見打分,歌詠比賽客觀評價(jià):客觀評價(jià):信噪比信噪比SNR (signal to noise ratio)聲音質(zhì)量評分標(biāo)準(zhǔn)聲音質(zhì)量評分標(biāo)準(zhǔn)54說明:說明:聲音質(zhì)量的評價(jià)是一個(gè)很聲音質(zhì)量的評價(jià)是一

49、個(gè)很困難困難的,目前還在繼續(xù)研究的課題。的,目前還在繼續(xù)研究的課題。兩種方法兩種方法:一種是客觀質(zhì)量度量,另一種是:一種是客觀質(zhì)量度量,另一種是主觀質(zhì)量度量主觀質(zhì)量度量。用聲音信號的用聲音信號的帶寬來衡量聲音的質(zhì)量帶寬來衡量聲音的質(zhì)量,等級由低到高分別是:,等級由低到高分別是: 數(shù)字電話(數(shù)字電話(telephone) 調(diào)幅(調(diào)幅(amplitude modulation,AM)廣播)廣播 調(diào)頻(調(diào)頻((frequency modulation,F(xiàn)M)廣播)廣播 激光唱盤(激光唱盤(CD-Audio) 數(shù)字錄音帶(數(shù)字錄音帶(digital audio tape,DAT)的聲音。)的聲音。55

50、二、數(shù)字音頻文件的編碼標(biāo)準(zhǔn)二、數(shù)字音頻文件的編碼標(biāo)準(zhǔn)1. ITU標(biāo)準(zhǔn)標(biāo)準(zhǔn) G.711標(biāo)準(zhǔn):標(biāo)準(zhǔn):1972年制定,年制定,采樣率為采樣率為8kHz,8位位/樣本,速率為樣本,速率為64kb/s,采用,采用PCM算法。算法。(其質(zhì)量相當(dāng)于(其質(zhì)量相當(dāng)于12bit線性量化線性量化 )。)。應(yīng)用:電話質(zhì)量應(yīng)用:電話質(zhì)量的語音信號編碼的語音信號編碼所需頻寬:所需頻寬:64Kbps( 8kHz 8bit)特性:特性:算法復(fù)雜度小,音質(zhì)一般算法復(fù)雜度小,音質(zhì)一般優(yōu)點(diǎn):優(yōu)點(diǎn):算法復(fù)雜度低,壓縮比?。ㄋ惴◤?fù)雜度低,壓縮比小(CD音質(zhì)音質(zhì)400kbps),), 編解碼延時(shí)最短(相對其它技術(shù))編解碼延時(shí)最短(相對其

51、它技術(shù))缺點(diǎn):缺點(diǎn):占用的帶寬較高占用的帶寬較高56 G.721標(biāo)準(zhǔn):標(biāo)準(zhǔn):1984年公布年公布(1986年修訂年修訂),采樣率為采樣率為8kHz,4位位/樣本,數(shù)據(jù)率為樣本,數(shù)據(jù)率為32kb/s,采用,采用ADPCM算法。算法。應(yīng)用:應(yīng)用:調(diào)幅廣播和交互式激光唱盤的音頻信號壓縮。調(diào)幅廣播和交互式激光唱盤的音頻信號壓縮。所需頻寬:所需頻寬:32Kbps特性:特性:相對于相對于PCM,其壓縮比較高,可以提供,其壓縮比較高,可以提供 2:1的壓縮比。的壓縮比。優(yōu)點(diǎn):優(yōu)點(diǎn):壓縮比大壓縮比大缺點(diǎn):缺點(diǎn):聲音質(zhì)量一般聲音質(zhì)量一般備注:備注:使用使用ADPCM轉(zhuǎn)換技術(shù)轉(zhuǎn)換技術(shù),實(shí)現(xiàn),實(shí)現(xiàn)64 kb/s A

52、律或律或律律PCM 速率和速率和32 kb/s速率之間的相互轉(zhuǎn)換。速率之間的相互轉(zhuǎn)換。57 G.722標(biāo)準(zhǔn):標(biāo)準(zhǔn):以以16kHz采樣,采樣,14bit量化,信號數(shù)據(jù)速率為量化,信號數(shù)據(jù)速率為224kbit/s,可以被壓縮為,可以被壓縮為64kb/s。利用。利用G.722標(biāo)準(zhǔn)可以在窄標(biāo)準(zhǔn)可以在窄帶綜合服務(wù)數(shù)據(jù)網(wǎng)帶綜合服務(wù)數(shù)據(jù)網(wǎng)N-ISDN中的一個(gè)中的一個(gè)B信道上傳送調(diào)幅廣播信道上傳送調(diào)幅廣播質(zhì)量的音頻信號。質(zhì)量的音頻信號。 應(yīng)用:調(diào)頻廣播應(yīng)用:調(diào)頻廣播和和需存儲大量高質(zhì)量音頻信號需存儲大量高質(zhì)量音頻信號的編碼。的編碼。所需頻寬:所需頻寬:64Kbps特性:特性:G.722能提供高保真的語音質(zhì)量能

53、提供高保真的語音質(zhì)量優(yōu)點(diǎn):優(yōu)點(diǎn):音質(zhì)好音質(zhì)好缺點(diǎn):缺點(diǎn):帶寬要求高帶寬要求高備注:備注:子帶子帶ADPCM(SB-ADPCM)技術(shù))技術(shù)58 G.723(低碼率語音編碼算法)(低碼率語音編碼算法)所需頻寬:所需頻寬:5.3Kbps/6.3Kbps特性:特性:語音質(zhì)量接近良,帶寬要求低,高效實(shí)現(xiàn),性能穩(wěn)定。語音質(zhì)量接近良,帶寬要求低,高效實(shí)現(xiàn),性能穩(wěn)定。可用于可用于IP電話電話語音信源編碼或高效語音壓縮存儲。語音信源編碼或高效語音壓縮存儲。優(yōu)點(diǎn):優(yōu)點(diǎn):碼率低,帶寬要求較小。并達(dá)到碼率低,帶寬要求較小。并達(dá)到ITU-TG723要求的語音要求的語音質(zhì)量,性能穩(wěn)定。質(zhì)量,性能穩(wěn)定。缺點(diǎn):缺點(diǎn):聲音質(zhì)量

54、一般聲音質(zhì)量一般備注備注:可以應(yīng)用于可以應(yīng)用于IPIP電話電話等系統(tǒng)中等系統(tǒng)中59G.723.1(雙速率語音編碼算法)(雙速率語音編碼算法)所需頻寬:所需頻寬:5.3Kbps特性:特性:能夠?qū)σ魳泛推渌纛l信號進(jìn)行壓縮和解壓縮,但它對能夠?qū)σ魳泛推渌纛l信號進(jìn)行壓縮和解壓縮,但它對語音信號最優(yōu)的。語音信號最優(yōu)的。優(yōu)點(diǎn):優(yōu)點(diǎn):碼率低,帶寬要求較小。并達(dá)到碼率低,帶寬要求較小。并達(dá)到ITU-TG723要求的語音要求的語音質(zhì)量,性能穩(wěn)定質(zhì)量,性能穩(wěn)定,避免了載波信號的時(shí)通時(shí)斷。避免了載波信號的時(shí)通時(shí)斷。缺點(diǎn):缺點(diǎn):語音質(zhì)量一般語音質(zhì)量一般備注:備注:目前該算法已成為目前該算法已成為IP電話系統(tǒng)電話系

55、統(tǒng)中的必選算法之一。中的必選算法之一。60 G.728所需頻寬:所需頻寬:16Kbps/8Kbps,其質(zhì)量與,其質(zhì)量與32kbit/s的的G.721標(biāo)準(zhǔn)基標(biāo)準(zhǔn)基本相當(dāng)本相當(dāng) 應(yīng)用:應(yīng)用:用于用于IP電話、衛(wèi)星通信、語音存儲等多個(gè)領(lǐng)域。電話、衛(wèi)星通信、語音存儲等多個(gè)領(lǐng)域。優(yōu)點(diǎn):優(yōu)點(diǎn):后向自適應(yīng),采用自適應(yīng)后置濾波器來提高其性能。后向自適應(yīng),采用自適應(yīng)后置濾波器來提高其性能。缺點(diǎn):缺點(diǎn):比其它的編碼器都復(fù)雜比其它的編碼器都復(fù)雜61 G.729所需頻寬:所需頻寬:8Kbps特性:特性:可以應(yīng)用于廣泛的領(lǐng)域,包括可以應(yīng)用于廣泛的領(lǐng)域,包括 IP 電話電話、無線通信、數(shù)、無線通信、數(shù)字衛(wèi)星系統(tǒng)和數(shù)字專用

56、線路。字衛(wèi)星系統(tǒng)和數(shù)字專用線路。優(yōu)點(diǎn):優(yōu)點(diǎn):語音質(zhì)量良好,應(yīng)用領(lǐng)域很廣泛。語音質(zhì)量良好,應(yīng)用領(lǐng)域很廣泛。缺點(diǎn):缺點(diǎn):在處理隨機(jī)比特錯(cuò)誤方面性能不好。在處理隨機(jī)比特錯(cuò)誤方面性能不好。62G.729A所需頻寬:所需頻寬:8Kbps特性:特性:復(fù)雜性較復(fù)雜性較G.729低,性能較低,性能較G.729差。差。優(yōu)點(diǎn):優(yōu)點(diǎn):語音質(zhì)量良,降低了計(jì)算的復(fù)雜度以便于實(shí)時(shí)實(shí)現(xiàn),提語音質(zhì)量良,降低了計(jì)算的復(fù)雜度以便于實(shí)時(shí)實(shí)現(xiàn),提供了對幀丟失和分組丟失的隱藏處理機(jī)制供了對幀丟失和分組丟失的隱藏處理機(jī)制缺點(diǎn):缺點(diǎn):性能較性能較G.729差差備注:備注:96年年ITU-T又制定了又制定了G.729的簡化方案的簡化方案G.

57、729A,主要降,主要降低了計(jì)算的低了計(jì)算的復(fù)雜度復(fù)雜度以便于實(shí)時(shí)實(shí)現(xiàn),因此目前使用的都以便于實(shí)時(shí)實(shí)現(xiàn),因此目前使用的都是是G.729A。632、MPEG標(biāo)準(zhǔn)標(biāo)準(zhǔn)有有MPEG、MPEG、MPEG和和MPEG幾種。幾種。MPEG中中 ISO/IEC 11172-3(音頻):速率為(音頻):速率為1.5Mb/s,采樣頻率分別為采樣頻率分別為48、32、44.1kHz,與,與PCM標(biāo)準(zhǔn)兼容。標(biāo)準(zhǔn)兼容。廣泛應(yīng)用在多媒體領(lǐng)域的廣泛應(yīng)用在多媒體領(lǐng)域的高保真高保真音頻編碼的壓縮標(biāo)準(zhǔn)。音頻編碼的壓縮標(biāo)準(zhǔn)。適用于適用于20Hz20kHz的寬頻范圍。的寬頻范圍。643、AC-3標(biāo)準(zhǔn)標(biāo)準(zhǔn)由由Dolby實(shí)驗(yàn)室在實(shí)驗(yàn)室

58、在AC-2的基礎(chǔ)上開發(fā)出來的音頻編碼技術(shù)。的基礎(chǔ)上開發(fā)出來的音頻編碼技術(shù)。目前是美國目前是美國HDTV的音頻標(biāo)準(zhǔn)。的音頻標(biāo)準(zhǔn)。該標(biāo)準(zhǔn)將該標(biāo)準(zhǔn)將6個(gè)聲道個(gè)聲道進(jìn)行數(shù)字編碼,并將其壓縮成一個(gè)通道,進(jìn)行數(shù)字編碼,并將其壓縮成一個(gè)通道,比特率為比特率為320kb/s。適用于電視廣播、數(shù)字廣播、有限電視、直播衛(wèi)星以及家適用于電視廣播、數(shù)字廣播、有限電視、直播衛(wèi)星以及家庭音響等各個(gè)領(lǐng)域。庭音響等各個(gè)領(lǐng)域。654、GSM標(biāo)準(zhǔn)標(biāo)準(zhǔn)由歐洲數(shù)字移動(dòng)特別工作組制定。速率為由歐洲數(shù)字移動(dòng)特別工作組制定。速率為13kb/s,適用,適用于于移動(dòng)通信的低速語音移動(dòng)通信的低速語音編碼。編碼。5、CTIA標(biāo)準(zhǔn)標(biāo)準(zhǔn)美國數(shù)字移動(dòng)通

59、信標(biāo)準(zhǔn)。速率為美國數(shù)字移動(dòng)通信標(biāo)準(zhǔn)。速率為8kb/s,壓縮率高,計(jì)算,壓縮率高,計(jì)算量適中,適用于移動(dòng)通信的低速語音編碼。量適中,適用于移動(dòng)通信的低速語音編碼。音頻數(shù)字壓縮編碼算法及其特性音頻數(shù)字壓縮編碼算法及其特性 算法算法 名稱名稱 數(shù)據(jù)率數(shù)據(jù)率 bps 標(biāo)準(zhǔn)標(biāo)準(zhǔn) 應(yīng)用應(yīng)用 質(zhì)量質(zhì)量 波波 形形 編編 碼碼 PCM 脈沖編碼調(diào)制 公共網(wǎng) ISDN 配音 4.04.5 -lawA-law -律,A-律 64kG.711 APCM 自適應(yīng)脈沖編碼調(diào)制 DPCM 差分脈沖編碼調(diào)制 ADPCM 自適應(yīng)差分脈沖編碼調(diào)制 32kG.721 SB-ADPCM 子帶-自適應(yīng)差分脈沖編碼調(diào)制 64kG.72

60、2 5.3k6.3kG.723 音頻數(shù)字壓縮編碼算法及其特性音頻數(shù)字壓縮編碼算法及其特性 算法算法 名稱名稱 數(shù)據(jù)率數(shù)據(jù)率 bps 標(biāo)準(zhǔn)標(biāo)準(zhǔn) 應(yīng)用應(yīng)用 質(zhì)量質(zhì)量 參數(shù)參數(shù)編碼編碼 LPC LPC 線性預(yù)測編碼線性預(yù)測編碼 2.4k2.4k保密保密話聲話聲 2.53.5 混混 合合 編編 碼碼 CELPC CELPC 碼激勵(lì)碼激勵(lì)LPC LPC 4.6k4.6k移動(dòng)移動(dòng)通信通信 4.03.7 VSELP VSELP 矢量和激勵(lì)矢量和激勵(lì)LPC LPC 8k8k語音語音郵件郵件 RPE-LTP RPE-LTP 規(guī)則碼激勵(lì)長時(shí)預(yù)測規(guī)則碼激勵(lì)長時(shí)預(yù)測 13.2k 13.2k ISDN ISDN LD-

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論