




版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
1、1第第4 4章章 音頻處理音頻處理2第第4 4章章 音頻處理音頻處理 音頻信號(hào) 音頻數(shù)字壓縮 MPEG-1音頻 MPEG-2音頻 MPEG-4音頻 電子音樂(lè)合成與MIDI 語(yǔ)音識(shí)別 3D音頻 音頻應(yīng)用3 聲音是指人耳能識(shí)別的音頻信息聲音是指人耳能識(shí)別的音頻信息.如人發(fā)出的話音,樂(lè)器聲,動(dòng)物發(fā)出的聲音,機(jī)器產(chǎn)生如人發(fā)出的話音,樂(lè)器聲,動(dòng)物發(fā)出的聲音,機(jī)器產(chǎn)生的聲音,自然界的雷聲,風(fēng)聲、雨聲、閃電聲等,也包的聲音,自然界的雷聲,風(fēng)聲、雨聲、閃電聲等,也包括各種人工合成的聲音括各種人工合成的聲音。 聲音涉及到聲波的物理傳播特點(diǎn)和電聲信號(hào)處聲音涉及到聲波的物理傳播特點(diǎn)和電聲信號(hào)處理技術(shù)。多媒體技術(shù)的發(fā)
2、展使計(jì)算機(jī)處理音頻理技術(shù)。多媒體技術(shù)的發(fā)展使計(jì)算機(jī)處理音頻信息已達(dá)到較成熟的階段。信息已達(dá)到較成熟的階段。聲音聲音4聲音的特征指標(biāo)聲音的特征指標(biāo) 聲音是由于空氣振動(dòng)引起耳膜的振動(dòng),由人聲音是由于空氣振動(dòng)引起耳膜的振動(dòng),由人耳接收,最后被大腦所感知。因此,聲音的特耳接收,最后被大腦所感知。因此,聲音的特征體現(xiàn)為物理特征和認(rèn)知屬性。這兩類特性的征體現(xiàn)為物理特征和認(rèn)知屬性。這兩類特性的基本對(duì)比見(jiàn)表:基本對(duì)比見(jiàn)表:物理特征物理特征認(rèn)知屬性認(rèn)知屬性強(qiáng)度(強(qiáng)度(IntensityIntensity)響度(響度(LoudnessLoudness)基頻(基頻(Fundamental FrequencyFund
3、amental Frequency)基音(基音(PitchPitch)譜形狀(譜形狀(Spectral ShapeSpectral Shape)音色(音色(TimbreTimbre)開始開始/ /結(jié)束時(shí)間(結(jié)束時(shí)間(Onset/Offset TimeOnset/Offset Time)定時(shí)(定時(shí)(TimingTiming)相位差相位差( (雙耳聽(tīng)雙耳聽(tīng)) )(Phase DifferenceBinaural Phase DifferenceBinaural HearingHearing)位置(位置(LocationLocation)4.1 4.1 音頻信號(hào)音頻信號(hào)5人的聽(tīng)覺(jué)響應(yīng)與強(qiáng)度成對(duì)數(shù)關(guān)系
4、。只有在強(qiáng)度適中時(shí)才最人的聽(tīng)覺(jué)響應(yīng)與強(qiáng)度成對(duì)數(shù)關(guān)系。只有在強(qiáng)度適中時(shí)才最靈敏。靈敏。 一般的人只能察覺(jué)出一般的人只能察覺(jué)出3 3 分貝的音強(qiáng)變化。分貝的音強(qiáng)變化。 常用音量或響度來(lái)描述聲音強(qiáng)度,以分貝(常用音量或響度來(lái)描述聲音強(qiáng)度,以分貝(dBdB)為單位。)為單位。 在處理音頻信號(hào)時(shí),相對(duì)強(qiáng)度更有意義。在處理音頻信號(hào)時(shí),相對(duì)強(qiáng)度更有意義。 動(dòng)態(tài)范圍定義:動(dòng)態(tài)范圍定義: 動(dòng)態(tài)范圍動(dòng)態(tài)范圍20 log20 log(信號(hào)的最大強(qiáng)度(信號(hào)的最大強(qiáng)度 / / 信號(hào)的最小強(qiáng)度)信號(hào)的最小強(qiáng)度)(dBdB) 動(dòng)態(tài)范圍越大,信號(hào)強(qiáng)度的相對(duì)變化范圍越大,音響效動(dòng)態(tài)范圍越大,信號(hào)強(qiáng)度的相對(duì)變化范圍越大,音響效果
5、越好。果越好。 音質(zhì)效果音質(zhì)效果AMAM廣播廣播FMFM廣播廣播數(shù)字電話數(shù)字電話CDCDDADA動(dòng)態(tài)范圍(動(dòng)態(tài)范圍(dBdB)404060605050100100表表4.1.2 4.1.2 幾種音頻業(yè)務(wù)的動(dòng)態(tài)范圍幾種音頻業(yè)務(wù)的動(dòng)態(tài)范圍動(dòng)態(tài)范圍6分貝示例7 基頻:基頻:O O ,決定音調(diào)決定音調(diào) 泛音:泛音:n nO O 稱為稱為基頻的高次諧波分量基頻的高次諧波分量 音色:由混入基音的泛音所決定的音色:由混入基音的泛音所決定的 高次諧波越豐富高次諧波越豐富, ,音色就越有明亮感和穿透力音色就越有明亮感和穿透力 不同的諧波具有不同的幅值和相位偏移,產(chǎn)生各種音色效果不同的諧波具有不同的幅值和相位偏移
6、,產(chǎn)生各種音色效果 能夠用來(lái)描述樂(lè)器聲的區(qū)別能夠用來(lái)描述樂(lè)器聲的區(qū)別 頻率特性8頻率特性 如果一個(gè)物體振動(dòng)所發(fā)出的泛音為基音的整數(shù)倍,這個(gè)音就會(huì)具有清晰可辨的音高,我們稱之為樂(lè)音,如鋼琴,小提琴等發(fā)出的都是樂(lè)音樂(lè)音;如果泛音是基音的非整數(shù)倍,這個(gè)音就不具備清晰可辨的音高,我們稱之為噪音噪音,如汽車發(fā)動(dòng)機(jī)、計(jì)算機(jī)風(fēng)扇等發(fā)出的都是噪音。9音色 因?yàn)槁曇舻牟ㄐ谓^大多數(shù)都不是簡(jiǎn)單的正弦波,而是一種復(fù)雜的波。分析表明這種復(fù)雜的波形,可以分解為一系列的正弦波,這些正弦波中有基頻f0,還有與f0成整數(shù)倍關(guān)系的諧波:f1、f2、f3、f4,它們的振幅有特定的比例。這種比例,賦予每種樂(lè)器以特有的“色彩”音色。如
7、果沒(méi)有諧波成分,單純的基音正弦信號(hào)是毫無(wú)音樂(lè)感的。 比如:大提琴音色、黑管音色不同 雖然演奏同一音高(基頻)的音符,但人們能夠明確分辨出是哪個(gè)樂(lè)器10頻率特性頻率特性 帶寬:帶寬:用來(lái)描述復(fù)合聲音信號(hào)的頻率范圍。如高保真音信號(hào)(high-fidelityaudio)的頻率范圍為10Hz20,000Hz,帶寬約為20kHz11l信噪比(信噪比(SNRSNR,Signal to Noise RatioSignal to Noise Ratio)是)是有用信號(hào)與噪聲之比的簡(jiǎn)稱有用信號(hào)與噪聲之比的簡(jiǎn)稱l是衡量聲音質(zhì)量的一種指標(biāo)是衡量聲音質(zhì)量的一種指標(biāo)l噪音可分為環(huán)境噪音和設(shè)備噪音噪音可分為環(huán)境噪音和設(shè)
8、備噪音l信噪比越大,聲音質(zhì)量越好信噪比越大,聲音質(zhì)量越好信噪比信噪比12其他音頻質(zhì)量指標(biāo) 感覺(jué)上的、主觀上的測(cè)試是評(píng)價(jià)聲音質(zhì)感覺(jué)上的、主觀上的測(cè)試是評(píng)價(jià)聲音質(zhì)量不可缺少的部分。量不可缺少的部分。 可靠的主觀度量值是較難獲得的??煽康闹饔^度量值是較難獲得的。13聽(tīng)覺(jué)生理 人耳最容易聽(tīng)到的就是4000Hz的頻率,不管頻率是增高或降低,即使是響度相同的情況下,大家都會(huì)覺(jué)得聲音在變小。 當(dāng)響度降到一定程度時(shí),人耳就聽(tīng)不到了,每一個(gè)頻率都有著不同的值,當(dāng)頻率超過(guò)15000Hz時(shí),人耳的會(huì)感覺(jué)到聲音很小, 很多聽(tīng)覺(jué)不是很好的人,根本就聽(tīng)不到20000Hz的頻率,不管響度有多大。 當(dāng)人耳同時(shí)聽(tīng)到兩個(gè)不同頻率
9、、不同響度的聲音時(shí),響度較小的那個(gè)也會(huì)被忽略14l采樣頻率采樣頻率:采樣頻率是指一秒鐘內(nèi)采樣的次數(shù)。采樣頻采樣頻率是指一秒鐘內(nèi)采樣的次數(shù)。采樣頻率的選擇應(yīng)該遵循奈奎斯特(率的選擇應(yīng)該遵循奈奎斯特(Harry NyquistHarry Nyquist)采樣理論:)采樣理論:如果對(duì)某一模擬信號(hào)進(jìn)行采樣,則采樣后可還原的最高信如果對(duì)某一模擬信號(hào)進(jìn)行采樣,則采樣后可還原的最高信號(hào)頻率只有采樣頻率的一半。號(hào)頻率只有采樣頻率的一半。l量化位數(shù):量化位數(shù):量化位是對(duì)模擬音頻信號(hào)的幅度軸進(jìn)行數(shù)字量化位是對(duì)模擬音頻信號(hào)的幅度軸進(jìn)行數(shù)字化所采用的位數(shù),它決定了模擬信號(hào)數(shù)字化以后的動(dòng)態(tài)范化所采用的位數(shù),它決定了模擬
10、信號(hào)數(shù)字化以后的動(dòng)態(tài)范圍圍l聲道數(shù):聲道數(shù):有單聲道、雙聲道、多聲道之分。雙聲道在硬有單聲道、雙聲道、多聲道之分。雙聲道在硬件中要占兩條線路,音質(zhì)、音色好,但數(shù)字化后所占空間件中要占兩條線路,音質(zhì)、音色好,但數(shù)字化后所占空間比單聲道多一倍。比單聲道多一倍。數(shù)字音頻技術(shù)指標(biāo)數(shù)字音頻技術(shù)指標(biāo)量化位等份動(dòng)態(tài)范圍(dB)應(yīng)用825648 - 50數(shù)字電話166553696 -100CD-DA15聲音質(zhì)量與數(shù)據(jù)率聲音質(zhì)量與數(shù)據(jù)率 數(shù)據(jù)率=取樣頻率x量化位數(shù)x通道數(shù)目例:電話語(yǔ)音=8kx8bx1=64kbps=8kB/s=28MB/h例:CD的數(shù)據(jù)率44.1KHz,16bits,2,16l編碼算法編碼算法
11、作用作用采用一定的格式來(lái)紀(jì)錄數(shù)字?jǐn)?shù)據(jù)采用一定的格式來(lái)紀(jì)錄數(shù)字?jǐn)?shù)據(jù)采用一定的算法來(lái)壓縮數(shù)字?jǐn)?shù)據(jù)以減少存貯空采用一定的算法來(lái)壓縮數(shù)字?jǐn)?shù)據(jù)以減少存貯空間和提高傳輸效率間和提高傳輸效率包括有損壓縮和無(wú)損壓縮包括有損壓縮和無(wú)損壓縮有損壓縮指解壓后數(shù)據(jù)不能完全復(fù)原,要丟失有損壓縮指解壓后數(shù)據(jù)不能完全復(fù)原,要丟失一部分信息。一部分信息。基本指標(biāo)之一是壓縮比基本指標(biāo)之一是壓縮比壓縮越多,信息丟失越多、信號(hào)還原后失真越壓縮越多,信息丟失越多、信號(hào)還原后失真越大大應(yīng)根據(jù)不同的應(yīng)用選用不同的壓縮編碼算法應(yīng)根據(jù)不同的應(yīng)用選用不同的壓縮編碼算法 數(shù)字音頻技術(shù)指標(biāo)(續(xù))數(shù)字音頻技術(shù)指標(biāo)(續(xù))17音頻壓縮編碼技術(shù)音頻壓縮編
12、碼技術(shù)主要依據(jù)是人耳的聽(tīng)覺(jué)特性:主要依據(jù)是人耳的聽(tīng)覺(jué)特性: 1. 人的聽(tīng)覺(jué)系統(tǒng)中存在一個(gè)人的聽(tīng)覺(jué)系統(tǒng)中存在一個(gè) 聽(tīng)覺(jué)閾值電聽(tīng)覺(jué)閾值電平平 ,低于這個(gè)電平的聲音,低于這個(gè)電平的聲音 信號(hào)人耳聽(tīng)不信號(hào)人耳聽(tīng)不到到 . 2. 人的聽(tīng)覺(jué)存在人的聽(tīng)覺(jué)存在 屏蔽效應(yīng)屏蔽效應(yīng) 。當(dāng)幾個(gè)強(qiáng)弱。當(dāng)幾個(gè)強(qiáng)弱不同的聲音同時(shí)存在時(shí),強(qiáng)不同的聲音同時(shí)存在時(shí),強(qiáng) 聲使弱聲難以聲使弱聲難以聽(tīng)到,并且兩者之間的關(guān)系與其相對(duì)頻率聽(tīng)到,并且兩者之間的關(guān)系與其相對(duì)頻率的大小有的大小有 關(guān)。關(guān)。4.2音頻數(shù)字壓縮音頻數(shù)字壓縮18l熵編碼熵編碼 如如HufmanHufman編碼、算術(shù)編碼以及行程編碼等。編碼、算術(shù)編碼以及行程編碼等。l
13、波形編碼波形編碼 全頻帶編碼如全頻帶編碼如PCMPCM、自適應(yīng)差分、自適應(yīng)差分PCMPCM等,子帶編碼如自等,子帶編碼如自適應(yīng)變換編碼適應(yīng)變換編碼ATCATC、心理學(xué)模型等,以及向量量化等在音、心理學(xué)模型等,以及向量量化等在音頻中均常常采用。波形編碼的特點(diǎn)是在高碼率的條件下頻中均常常采用。波形編碼的特點(diǎn)是在高碼率的條件下獲得高質(zhì)量的音頻信號(hào),適用于高保真度語(yǔ)音和音樂(lè)信獲得高質(zhì)量的音頻信號(hào),適用于高保真度語(yǔ)音和音樂(lè)信號(hào)的壓縮技術(shù)。號(hào)的壓縮技術(shù)。l參數(shù)編碼參數(shù)編碼 參數(shù)編碼的方法是將音頻信號(hào)以某種模型表示,再抽參數(shù)編碼的方法是將音頻信號(hào)以某種模型表示,再抽出合適的模型參數(shù)和參考激勵(lì)信號(hào)進(jìn)行編碼;聲
14、音重放出合適的模型參數(shù)和參考激勵(lì)信號(hào)進(jìn)行編碼;聲音重放時(shí),再根據(jù)這些參數(shù)重建即可。時(shí),再根據(jù)這些參數(shù)重建即可。參數(shù)編碼壓縮比很高,但計(jì)參數(shù)編碼壓縮比很高,但計(jì)算量大,而且不適合高保真度要求的場(chǎng)合。算量大,而且不適合高保真度要求的場(chǎng)合。 主要的音頻壓縮編碼類型主要的音頻壓縮編碼類型19l混合編碼混合編碼 是一種吸取波形和參數(shù)編碼的優(yōu)點(diǎn),進(jìn)行綜合的編碼方是一種吸取波形和參數(shù)編碼的優(yōu)點(diǎn),進(jìn)行綜合的編碼方法。法。l感知編碼感知編碼 感知編碼利用心理聲學(xué)分析原理來(lái)實(shí)現(xiàn)音頻壓縮。感知編碼利用心理聲學(xué)分析原理來(lái)實(shí)現(xiàn)音頻壓縮。例如例如MPEG Audio Layer 3 MPEG Audio Layer 3
15、采用的算法采用的算法ASPECASPEC(Adaptive Adaptive Spectral Perceptual Entropy Coding of high Spectral Perceptual Entropy Coding of high quality musical signalquality musical signal,高質(zhì)量音樂(lè)信號(hào)自適應(yīng)譜感,高質(zhì)量音樂(lè)信號(hào)自適應(yīng)譜感知熵編碼),將原始音頻信息數(shù)據(jù)壓縮率達(dá)到知熵編碼),將原始音頻信息數(shù)據(jù)壓縮率達(dá)到10:1 10:1 甚甚至至12:112:1。當(dāng)然這是一種有損壓縮,但是人耳卻基本不能。當(dāng)然這是一種有損壓縮,但是人耳卻基本不能分
16、辨出失真來(lái)。分辨出失真來(lái)。主要的音頻壓縮編碼類型(續(xù))主要的音頻壓縮編碼類型(續(xù))20波波 形形 編編 碼碼 算法算法 名稱名稱 數(shù)據(jù)率數(shù)據(jù)率 標(biāo)準(zhǔn)標(biāo)準(zhǔn) 應(yīng)用應(yīng)用 質(zhì)量質(zhì)量 PCM PCM 脈沖編碼調(diào)制脈沖編碼調(diào)制 公共網(wǎng)公共網(wǎng)SDNSDN配音配音 4.04.5 4.04.5 -law-law,A-law A-law -律,律,A-A-律律 64kbps 64kbps G.711 G.711 APCM APCM 自適應(yīng)脈沖編碼調(diào)制自適應(yīng)脈沖編碼調(diào)制 DPCM DPCM 差分脈沖編碼調(diào)制差分脈沖編碼調(diào)制 ADPCM ADPCM 自適應(yīng)差分脈沖編碼調(diào)制自適應(yīng)差分脈沖編碼調(diào)制 32kbps 32kb
17、ps G.721 G.721 SB-ADPCM SB-ADPCM 子帶子帶- -自適應(yīng)差分脈沖編碼調(diào)自適應(yīng)差分脈沖編碼調(diào)制制64kbps 64kbps G.722 G.722 5.3kbps 5.3kbps 6.3kbps 6.3kbps G.723 G.723 參參數(shù)數(shù)編編碼碼 LPC LPC 線性預(yù)測(cè)編碼線性預(yù)測(cè)編碼 2.4kbps 2.4kbps 保密話聲保密話聲 2.53.5 2.53.5 混混 合合 編編 碼碼 CELPC CELPC 碼激勵(lì)碼激勵(lì)LPC LPC 4.6kbps 4.6kbps 移動(dòng)通信移動(dòng)通信 4.03.7 4.03.7 VSELP VSELP 向量和激勵(lì)向量和激勵(lì)
18、LPC LPC 8kbps 8kbps 語(yǔ)音郵件語(yǔ)音郵件 RPE-LTP RPE-LTP 規(guī)則碼激勵(lì)長(zhǎng)時(shí)預(yù)測(cè)規(guī)則碼激勵(lì)長(zhǎng)時(shí)預(yù)測(cè) 13.2kbps 13.2kbps ISDN ISDN LD-CELP LD-CELP 低延時(shí)碼激勵(lì)低延時(shí)碼激勵(lì)LPC LPC 16kbps 16kbps G.728 G.728 G.729 G.729 MPEG MPEG 多子帶,感知編碼多子帶,感知編碼 128kbPs 128kbPs CD CD 5.0 5.0 Dolby AC-3 Dolby AC-3 感知編碼感知編碼 音響音響 5.0 5.0 音頻數(shù)字壓縮編碼算法及其特性比較音頻數(shù)字壓縮編碼算法及其特性比較2
19、1l實(shí)際應(yīng)用中為了得到高的壓縮率和好的聲音質(zhì)實(shí)際應(yīng)用中為了得到高的壓縮率和好的聲音質(zhì)量,常常要同時(shí)利用時(shí)域量,常常要同時(shí)利用時(shí)域- -頻域分析與心理聲學(xué)頻域分析與心理聲學(xué)分析,并使用多種編碼方法分析,并使用多種編碼方法實(shí)際應(yīng)用考慮22實(shí)際應(yīng)用考慮(續(xù))l時(shí)時(shí)- -頻分析可以包含下述技術(shù):頻分析可以包含下述技術(shù):l單元變換單元變換l時(shí)不變均勻帶通濾波器組時(shí)不變均勻帶通濾波器組l時(shí)時(shí)變變邊、臨界采樣的非均勻帶通濾波器組邊、臨界采樣的非均勻帶通濾波器組l混合變換混合變換/ /濾波器組信號(hào)分析器濾波器組信號(hào)分析器l諧波諧波/ /正弦波分析器正弦波分析器l源系統(tǒng)分析(源系統(tǒng)分析(LPC/LPC/多脈沖激
20、勵(lì)等)多脈沖激勵(lì)等)l心理聲學(xué)分析模塊根據(jù)聽(tīng)覺(jué)絕對(duì)門限、臨界帶頻率分析、心理聲學(xué)分析模塊根據(jù)聽(tīng)覺(jué)絕對(duì)門限、臨界帶頻率分析、掩蔽效應(yīng)等心理聲學(xué)原理估計(jì)出信號(hào)掩蔽功率,使量化和熵掩蔽效應(yīng)等心理聲學(xué)原理估計(jì)出信號(hào)掩蔽功率,使量化和熵編碼模塊可以充分利用時(shí)編碼模塊可以充分利用時(shí)- -頻分析得到的參數(shù)集中的感知不相頻分析得到的參數(shù)集中的感知不相關(guān)性。關(guān)性。 l量化和編碼模塊同時(shí)也采用經(jīng)典技術(shù)如差分脈沖碼調(diào)制量化和編碼模塊同時(shí)也采用經(jīng)典技術(shù)如差分脈沖碼調(diào)制(DPCMDPCM)或自適應(yīng))或自適應(yīng)DPCMDPCM(ADPCMADPCM)等來(lái)壓縮信號(hào)的統(tǒng)計(jì)冗余。)等來(lái)壓縮信號(hào)的統(tǒng)計(jì)冗余。l熵編碼可能使用熵編碼可
21、能使用RLERLE、算術(shù)編碼、赫夫曼編碼以及、算術(shù)編碼、赫夫曼編碼以及LZWLZW等。等。 23電話質(zhì)量的音頻壓縮編碼技術(shù)標(biāo)準(zhǔn)電話質(zhì)量的音頻壓縮編碼技術(shù)標(biāo)準(zhǔn) 電話質(zhì)量語(yǔ)音信號(hào)頻率規(guī)定在電話質(zhì)量語(yǔ)音信號(hào)頻率規(guī)定在300Hz300Hz至至3.4kHz3.4kHz,采用標(biāo)準(zhǔn)的,采用標(biāo)準(zhǔn)的脈沖編碼調(diào)制(脈沖編碼調(diào)制(PCMPCM),當(dāng)采樣頻率為),當(dāng)采樣頻率為8kHz8kHz,進(jìn)行,進(jìn)行8bit8bit量化時(shí),量化時(shí),所得數(shù)據(jù)速率為所得數(shù)據(jù)速率為64kb/s64kb/s。G.711G.711(19721972年,年,CCITTCCITT):):PCMPCM標(biāo)準(zhǔn),速率為標(biāo)準(zhǔn),速率為64kbit/s64k
22、bit/s,采用,采用非線性量化,其質(zhì)量相當(dāng)于非線性量化,其質(zhì)量相當(dāng)于12bit12bit線性量化線性量化G.721 G.721 (19841984年,年,CCITT CCITT ):):ADPCMADPCM,32kb/s32kb/sG.728G.728(19921992年,年,CCITTCCITT):):LD-CELPLD-CELP,16kb/s16kb/s,質(zhì)量與,質(zhì)量與32kb/s32kb/s的的G.721G.721相當(dāng)相當(dāng)GSMGSM(19881988年,歐洲數(shù)字移動(dòng)特別工作組):年,歐洲數(shù)字移動(dòng)特別工作組): RPE-LTPRPE-LTP,13kb/s13kb/sVSELPVSELP
23、(8kb/s8kb/s)、)、LPCLPC(2.4b/s2.4b/s)、)、CELPCELP(4.8kb/s4.8kb/s)(美國(guó))(美國(guó))音頻編碼技術(shù)標(biāo)準(zhǔn)音頻編碼技術(shù)標(biāo)準(zhǔn)24調(diào)幅廣播質(zhì)量的音頻壓縮編碼技術(shù)標(biāo)準(zhǔn)調(diào)幅廣播質(zhì)量的音頻壓縮編碼技術(shù)標(biāo)準(zhǔn) 頻率在頻率在50Hz50Hz至至7kHz7kHz范圍。范圍。將輸入音頻信號(hào)經(jīng)濾波器分成高子帶和低子帶兩個(gè)部分,分將輸入音頻信號(hào)經(jīng)濾波器分成高子帶和低子帶兩個(gè)部分,分別進(jìn)行別進(jìn)行ADPCMADPCM編碼,再混合形成輸出碼流。編碼,再混合形成輸出碼流??梢栽谡瓗ЬC合服務(wù)數(shù)據(jù)網(wǎng)可以在窄帶綜合服務(wù)數(shù)據(jù)網(wǎng)N-ISDNN-ISDN中的一個(gè)中的一個(gè)B B信道(信道(
24、64kbit64kbits s)上傳送調(diào)幅廣播質(zhì)量的音頻信號(hào)。)上傳送調(diào)幅廣播質(zhì)量的音頻信號(hào)。高保真度立體聲音頻壓縮編碼技術(shù)標(biāo)準(zhǔn)高保真度立體聲音頻壓縮編碼技術(shù)標(biāo)準(zhǔn) 頻率范圍是頻率范圍是50Hz50Hz至至20kHz20kHz,采用,采用44.1kHz44.1kHz采樣頻率,采樣頻率,16bit16bit量化量化進(jìn)行數(shù)字化轉(zhuǎn)換,其數(shù)據(jù)速率每聲道達(dá)進(jìn)行數(shù)字化轉(zhuǎn)換,其數(shù)據(jù)速率每聲道達(dá)705kbit705kbits s。音頻編碼技術(shù)標(biāo)準(zhǔn)音頻編碼技術(shù)標(biāo)準(zhǔn)25 MPEG-1 MPEG-1音頻音頻MPEG-1MPEG-1音頻標(biāo)準(zhǔn)音頻標(biāo)準(zhǔn) MPEG-1MPEG-1音頻編碼標(biāo)準(zhǔn)包括三部分(音頻編碼標(biāo)準(zhǔn)包括三部分
25、(Layer 1, 2, 3Layer 1, 2, 3) 層層1 1的編碼器最為簡(jiǎn)單,編碼器的輸出數(shù)據(jù)的編碼器最為簡(jiǎn)單,編碼器的輸出數(shù)據(jù)率為率為384 kbps384 kbps,主要用于小型數(shù)字盒式磁帶。,主要用于小型數(shù)字盒式磁帶。 層層2 2的編碼器的復(fù)雜程度屬中等,編碼器的的編碼器的復(fù)雜程度屬中等,編碼器的輸出數(shù)據(jù)率為輸出數(shù)據(jù)率為256 kb/s192 kb/s256 kb/s192 kb/s,其應(yīng)用包括,其應(yīng)用包括數(shù)字廣播、數(shù)字音樂(lè)、數(shù)字廣播、數(shù)字音樂(lè)、CD-ICD-I和和VCDVCD。 層層3 3的編碼器最為復(fù)雜,編碼器的輸出數(shù)據(jù)的編碼器最為復(fù)雜,編碼器的輸出數(shù)據(jù)率為率為64 kbps
26、64 kbps,是目前最為流行的一種音樂(lè)格式是目前最為流行的一種音樂(lè)格式。26聲音編碼系統(tǒng)基本結(jié)構(gòu)聲音編碼系統(tǒng)基本結(jié)構(gòu) 在編碼器中,輸入聲音信號(hào)經(jīng)過(guò)一個(gè)在編碼器中,輸入聲音信號(hào)經(jīng)過(guò)一個(gè)“時(shí)間時(shí)間- -頻率多相濾頻率多相濾波器組波器組”變換到頻域里的多個(gè)子帶中。變換到頻域里的多個(gè)子帶中。 輸入聲音信號(hào)同時(shí)經(jīng)過(guò)輸入聲音信號(hào)同時(shí)經(jīng)過(guò)“心理聲學(xué)模型心理聲學(xué)模型”,計(jì)算掩蔽特性。,計(jì)算掩蔽特性。 “ “量化和編碼量化和編碼”部分用信掩比(部分用信掩比(SMRSMR,signal-to-mask signal-to-mask ratio)ratio)來(lái)決定分配給子帶信號(hào)的量化位數(shù),使量化噪聲低于來(lái)決定分配
27、給子帶信號(hào)的量化位數(shù),使量化噪聲低于掩蔽域值。掩蔽域值。 通過(guò)通過(guò)“數(shù)據(jù)流幀包裝數(shù)據(jù)流幀包裝”將量化的子帶樣本和其他數(shù)據(jù)按照將量化的子帶樣本和其他數(shù)據(jù)按照規(guī)定的稱為規(guī)定的稱為“幀幀(frame)”(frame)”的格式組裝成數(shù)據(jù)流。的格式組裝成數(shù)據(jù)流。 解碼器對(duì)數(shù)據(jù)流進(jìn)行解碼,恢復(fù)被量化的子帶樣本值以重解碼器對(duì)數(shù)據(jù)流進(jìn)行解碼,恢復(fù)被量化的子帶樣本值以重建聲音信號(hào)。由于解碼器無(wú)需心理聲學(xué)模型,因此解碼器就建聲音信號(hào)。由于解碼器無(wú)需心理聲學(xué)模型,因此解碼器就比編碼器簡(jiǎn)單得多。比編碼器簡(jiǎn)單得多。27(a)編碼器 (b)解碼器 MPEG音頻編解碼器基本框圖28第第1 1層和第層和第2 2層編碼層編碼在
28、這兩層中,用有在這兩層中,用有3232個(gè)等間距子帶的濾波器組將輸入聲音個(gè)等間距子帶的濾波器組將輸入聲音PCMPCM信信號(hào)子帶分離,再由生理聲學(xué)模型導(dǎo)出動(dòng)態(tài)比特分配,然后進(jìn)行子號(hào)子帶分離,再由生理聲學(xué)模型導(dǎo)出動(dòng)態(tài)比特分配,然后進(jìn)行子帶樣值的塊壓縮和比特流打包。帶樣值的塊壓縮和比特流打包。三層音頻系統(tǒng)三層音頻系統(tǒng)29 使用的濾波器組是多相混合濾波器組使用的濾波器組是多相混合濾波器組 使用了心理聲學(xué)模型來(lái)評(píng)估掩蔽門限。使用了心理聲學(xué)模型來(lái)評(píng)估掩蔽門限。為了增加編碼增益,采用了非均勻量化和為了增加編碼增益,采用了非均勻量化和HuffmanHuffman編碼。編碼。并且使用了稱為比特池的緩存技術(shù)來(lái)維持編
29、碼效率和使并且使用了稱為比特池的緩存技術(shù)來(lái)維持編碼效率和使量化噪聲保持在掩蔽門限以下。量化噪聲保持在掩蔽門限以下。第第3層編解碼層編解碼30 MP3(MPEG-1 Layer 3),是當(dāng)今較流行的一種音頻格式,全稱為MPEG(MPEG:Moving Picture Experts Group) Audio Layer-3。MP3是一種有損壓縮,它利用了人耳的聽(tīng)覺(jué)特性來(lái)提高壓縮率的算法。在基本上保持CD音質(zhì)的前提下,MP3能將音頻數(shù)據(jù)壓縮到原有的1/10甚至更少。 MP3格式最早由德國(guó)弗朗霍夫研究院和法國(guó)湯姆生公司在1993年合作研制成功。但當(dāng)時(shí)的MP3格式并不完善,由于MP3的編碼方式開放,人
30、們可以選擇不同的原理進(jìn)行壓縮,所以就出現(xiàn)了CBR、VBR、ABR等一批不同的編碼方式,并導(dǎo)致了當(dāng)今MP3編碼方式較為混亂的局面,但現(xiàn)在通用的編碼器為運(yùn)用VBR或ABR編碼方式的LAME。MP3編解碼編解碼31兩種聲音數(shù)據(jù)壓縮格式:兩種聲音數(shù)據(jù)壓縮格式:MPEG-2 AudioMPEG-2 Audio,或者稱為或者稱為MPEG-2MPEG-2多聲道多聲道(MultichannelMultichannel)聲音,又稱為聲音,又稱為MPEG-2 BCMPEG-2 BC(Backward CompatibleBackward Compatible,后向兼容),與后向兼容),與MPEG-1 AudioM
31、PEG-1 Audio是兼容的。是兼容的。MPEG-2 AACMPEG-2 AAC(Advanced Audio CodingAdvanced Audio Coding,先先進(jìn)的音頻編碼),通常稱為非后向兼容進(jìn)的音頻編碼),通常稱為非后向兼容MPEG-2 MPEG-2 NBC(Non-Backward-CompatibleNBC(Non-Backward-Compatible,非后向兼容非后向兼容) )標(biāo)準(zhǔn),與標(biāo)準(zhǔn),與MPEG-1MPEG-1聲音格式不兼容。聲音格式不兼容。 MPEG-2音頻音頻32MPEG-2MPEG-2音頻特點(diǎn)音頻特點(diǎn) MPEG-2 Audio MPEG-2 Audio是是
32、MPEGMPEG為多聲道聲音開發(fā)的低碼率編碼方案,為多聲道聲音開發(fā)的低碼率編碼方案,它是在它是在MPEG-1MPEG-1音頻標(biāo)準(zhǔn)基礎(chǔ)上發(fā)展而來(lái)的。和音頻標(biāo)準(zhǔn)基礎(chǔ)上發(fā)展而來(lái)的。和MPEG-1MPEG-1音頻相比,音頻相比,MPEG-2MPEG-2音頻主要增加了三個(gè)方面的內(nèi)容:音頻主要增加了三個(gè)方面的內(nèi)容: 增加了聲道數(shù),支持增加了聲道數(shù),支持5.15.1聲道和聲道和7.17.1聲道的環(huán)繞聲。聲道的環(huán)繞聲。 擴(kuò)展了編碼器的輸出速率范圍,由擴(kuò)展了編碼器的輸出速率范圍,由32kbps32kbps至至384kbps384kbps擴(kuò)展擴(kuò)展到到8 kbps8 kbps至至640kbps640kbps。 增加
33、了低取樣和低碼率。在保持增加了低取樣和低碼率。在保持MPEG-1MPEG-1音頻的單聲道和立音頻的單聲道和立體聲的原有取樣率體聲的原有取樣率32/44.1/48kHz32/44.1/48kHz的情況下,的情況下,MPEG-2MPEG-2又增加了又增加了三種取樣率,即把三種取樣率,即把MPEG-1MPEG-1的取樣率降低了一半(的取樣率降低了一半(16kHz16kHz、22.05kHz22.05kHz、24kHz24kHz),),以便提高碼率低于以便提高碼率低于64kbits/s64kbits/s時(shí)的每個(gè)聲時(shí)的每個(gè)聲道的聲音質(zhì)量。道的聲音質(zhì)量。33 MPEG-2 MPEG-2音頻標(biāo)準(zhǔn)把多聲道中的
34、中心聲道音頻標(biāo)準(zhǔn)把多聲道中的中心聲道C C、左右環(huán)繞、左右環(huán)繞LsLs、RsRs及低音效果增強(qiáng)聲道及低音效果增強(qiáng)聲道LFELFE等多聲道擴(kuò)展信息看做等多聲道擴(kuò)展信息看做是是MPEG-1MPEG-1左右聲道的輔助數(shù)據(jù)而傳送。左右聲道的輔助數(shù)據(jù)而傳送。而多聲道擴(kuò)展部分包含了與而多聲道擴(kuò)展部分包含了與MPEG-1MPEG-1聲音幀結(jié)構(gòu)相似的聲音幀結(jié)構(gòu)相似的信息類型。信息類型。 MPEG-2音頻碼流的幀結(jié)構(gòu) MPEG-2音頻多聲道擴(kuò)展部分的數(shù)據(jù)結(jié)構(gòu)MPEG-2MPEG-2音頻特點(diǎn)音頻特點(diǎn) 34MPEG-2 MPEG-2 的的AACAAC是是MPEG-2MPEG-2標(biāo)準(zhǔn)中的一種非常靈活標(biāo)準(zhǔn)中的一種非常靈
35、活的聲音感知編碼標(biāo)準(zhǔn):的聲音感知編碼標(biāo)準(zhǔn): 使用聽(tīng)覺(jué)系統(tǒng)的掩蔽特性來(lái)減少聲音的數(shù)據(jù)使用聽(tīng)覺(jué)系統(tǒng)的掩蔽特性來(lái)減少聲音的數(shù)據(jù) 量量 通過(guò)把量化噪聲分散到各個(gè)子帶中,用全局通過(guò)把量化噪聲分散到各個(gè)子帶中,用全局信號(hào)把噪聲掩蔽掉信號(hào)把噪聲掩蔽掉 AACAAC支持的采樣頻率可從支持的采樣頻率可從 8kHz8kHz到到 96kHz96kHz AAC AAC編碼器的音源可以是單聲道的、立體聲編碼器的音源可以是單聲道的、立體聲的和多聲道的聲音。的和多聲道的聲音。 MPEG-2的的AAC35 MPEG-2MPEG-2音頻還支持音頻還支持DolbyDolby公司的數(shù)字聲音數(shù)據(jù)壓縮算法公司的數(shù)字聲音數(shù)據(jù)壓縮算法AC
36、-3AC-3(Audio Code Number 3Audio Code Number 3)。)。 AC-3AC-3的主要特點(diǎn)是利用人的聽(tīng)覺(jué)系統(tǒng)特性來(lái)壓縮聲音的主要特點(diǎn)是利用人的聽(tīng)覺(jué)系統(tǒng)特性來(lái)壓縮聲音數(shù)據(jù),并支持?jǐn)?shù)據(jù),并支持5 5個(gè)聲道個(gè)聲道( (左、中、右、左環(huán)繞、右環(huán)繞和左、中、右、左環(huán)繞、右環(huán)繞和0.1 0.1 kHzkHz以下的低音音效聲道以下的低音音效聲道) ),聲音樣本的精度為,聲音樣本的精度為2020比特,每比特,每個(gè)聲道的采樣率可以是個(gè)聲道的采樣率可以是32kHz32kHz,44.1kHz44.1kHz或者或者48kHz48kHz。 AC-3AC-3系統(tǒng)具有系統(tǒng)具有100100
37、的自適應(yīng)比特分配能力,允許數(shù)的自適應(yīng)比特分配能力,允許數(shù)據(jù)傳輸率在據(jù)傳輸率在32kbps32kbps至至640kbps640kbps之間變化。之間變化。AC-3AC-3質(zhì)量高,編質(zhì)量高,編碼器的復(fù)雜度也高,時(shí)延達(dá)到碼器的復(fù)雜度也高,時(shí)延達(dá)到100ms100ms。 AC-3編碼編碼36 MPEG-4 MPEG-4音頻標(biāo)準(zhǔn)分為自然音頻編碼和合成音頻編碼兩音頻標(biāo)準(zhǔn)分為自然音頻編碼和合成音頻編碼兩大類。大類。 自然音頻編碼提供三種編碼方案,即參數(shù)編碼,碼本自然音頻編碼提供三種編碼方案,即參數(shù)編碼,碼本激勵(lì)線性預(yù)測(cè)編碼,時(shí)間激勵(lì)線性預(yù)測(cè)編碼,時(shí)間/ /頻率(頻率(T/FT/F)編碼。)編碼。 合成音頻編
38、碼提供兩種編碼方案,即結(jié)構(gòu)音頻(和文合成音頻編碼提供兩種編碼方案,即結(jié)構(gòu)音頻(和文語(yǔ)轉(zhuǎn)換(語(yǔ)轉(zhuǎn)換(TTSTTS,text-to-speechtext-to-speech)。)。 每個(gè)編碼方案都按照兩部分來(lái)組織標(biāo)準(zhǔn)的內(nèi)容:標(biāo)準(zhǔn)每個(gè)編碼方案都按照兩部分來(lái)組織標(biāo)準(zhǔn)的內(nèi)容:標(biāo)準(zhǔn)部分描述解碼的語(yǔ)法和解碼過(guò)程,附錄部分描述編碼器部分描述解碼的語(yǔ)法和解碼過(guò)程,附錄部分描述編碼器和接口。和接口。 MPEG-4音頻音頻37 MPEG-4MPEG-4(ISO/IEC 14496ISO/IEC 14496)已建立了兩個(gè)版本,正在開)已建立了兩個(gè)版本,正在開發(fā)第發(fā)第3 3版。版。MPEG-4MPEG-4音頻部分促進(jìn)廣
39、泛的應(yīng)用,這些應(yīng)用可能音頻部分促進(jìn)廣泛的應(yīng)用,這些應(yīng)用可能包括從智能語(yǔ)音到高質(zhì)量多聲道音頻,從自然聲音到合成包括從智能語(yǔ)音到高質(zhì)量多聲道音頻,從自然聲音到合成聲音。它支持下述成分組成的音頻對(duì)象:聲音。它支持下述成分組成的音頻對(duì)象: 語(yǔ)音信號(hào):能通過(guò)使用語(yǔ)音編碼工具實(shí)現(xiàn)位速在語(yǔ)音信號(hào):能通過(guò)使用語(yǔ)音編碼工具實(shí)現(xiàn)位速在2kbps2kbps到到24kbps24kbps間的語(yǔ)音編碼。間的語(yǔ)音編碼。 合成語(yǔ)音:合成語(yǔ)音:可縮放的可縮放的TTSTTS編碼器的位速在編碼器的位速在200bps200bps到到1.2kbps1.2kbps之間。它允許一個(gè)文本或帶有韻律參數(shù)的文本(基之間。它允許一個(gè)文本或帶有韻律
40、參數(shù)的文本(基音輪廓,音素持續(xù)期等等)音輪廓,音素持續(xù)期等等)MPEG-4音頻音頻38MPEG-4ALS2005年7月形成了MPEG-4ALS的最終規(guī)格,并被國(guó)際標(biāo)準(zhǔn)組織接納成為標(biāo)準(zhǔn)ISO/IEC14496-3:2005/Amd2:2006AudioLosslessCoding(ALS)MPEG-4ALS同時(shí)面向?qū)I(yè)應(yīng)用和消費(fèi)應(yīng)用而定義了高效、快速的無(wú)損音頻壓縮技術(shù)。它提供了許多其它無(wú)損壓縮方案所缺乏的特性:對(duì)幾乎所有未壓縮數(shù)字音頻格式的通用性支持,包括wav、aiff、au、bwf以及raw格式;支持PCM格式音頻最大采樣位數(shù)32位以及任意采樣頻率的任意組合,包括最常見(jiàn)的16位/44.1kH
41、z、16位/48kHz、24位/48kHz、24位/96kHz和24位/192kHz;支持多聲道/多音軌,最高支持65536個(gè)聲道,包括5.1環(huán)繞方式;支持32位IEEE浮點(diǎn)數(shù)音頻數(shù)據(jù);可快速地隨機(jī)訪問(wèn)已編碼數(shù)據(jù)的任何部分;可選擇以MP4文件格式保存,支持與視頻復(fù)合。高度靈活的編解碼參數(shù),可適應(yīng)各種場(chǎng)合的應(yīng)用。39mp3HD 在各種開放源碼的無(wú)損音頻壓縮格式流行了多年之后,mp3也終于搭上了這趟車。mp3專利的持有人之一,紐約期貨市場(chǎng)上市公司Thomson于2009年3月19日發(fā)布了mp3格式的最新技術(shù):mp3HD。 mp3HD與mp3相比是完全不同的技術(shù):mp3HD是無(wú)損壓縮格式,也即從壓縮
42、的音頻中可以還原出與原始音頻一模一樣的數(shù)據(jù)。 使用mp3HD技術(shù)可以把音頻數(shù)據(jù)的大小縮減為在最好情況下是原來(lái)的37%的大小,而在最壞情況下也能達(dá)到原數(shù)據(jù)大小的65%左右 由于有著mp3這個(gè)被廣泛使用的有損音頻壓縮格式,因此mp3HD保留了對(duì)舊格式的兼容能力,包括:mp3HD本身的解碼器將會(huì)向后兼容原來(lái)的mp3格式;對(duì)于舊有的mp3播放器,mp3HD文件可以通過(guò)內(nèi)嵌有損壓縮的mp3文件來(lái)達(dá)到兼容播放的目的;mp3HD文件也同樣使用mp3作為文件擴(kuò)展名;依舊使用ID3標(biāo)記來(lái)在音頻文件中存儲(chǔ)與音頻相關(guān)的文本信息。保持兼容型既是mp3HD的優(yōu)點(diǎn),也是mp3HD的歷史包袱。40 文文- -語(yǔ)轉(zhuǎn)換是將文本
43、形式的信息轉(zhuǎn)換成自然語(yǔ)音的一種技術(shù),其最終語(yǔ)轉(zhuǎn)換是將文本形式的信息轉(zhuǎn)換成自然語(yǔ)音的一種技術(shù),其最終目標(biāo)是使計(jì)算機(jī)輸出清晰而又自然的聲音,也就是說(shuō),要使計(jì)算機(jī)像人目標(biāo)是使計(jì)算機(jī)輸出清晰而又自然的聲音,也就是說(shuō),要使計(jì)算機(jī)像人一樣,根據(jù)文本的內(nèi)容可帶各種情調(diào)來(lái)朗讀任意的文本。一樣,根據(jù)文本的內(nèi)容可帶各種情調(diào)來(lái)朗讀任意的文本。TTSTTS是一個(gè)十分是一個(gè)十分復(fù)雜的系統(tǒng),涉及到語(yǔ)言學(xué)、語(yǔ)音學(xué)、信號(hào)處理、人工智能等諸多的學(xué)復(fù)雜的系統(tǒng),涉及到語(yǔ)言學(xué)、語(yǔ)音學(xué)、信號(hào)處理、人工智能等諸多的學(xué)科???。文本合成語(yǔ)音理解韻律生成韻律控制語(yǔ)音生成文本-音素轉(zhuǎn)換 TTS系統(tǒng)方框圖文文-語(yǔ)轉(zhuǎn)換語(yǔ)轉(zhuǎn)換41電子音樂(lè)合成電子音樂(lè)
44、合成 產(chǎn)生樂(lè)音的方法很多,現(xiàn)在用得較多的方法有模擬合成產(chǎn)生樂(lè)音的方法很多,現(xiàn)在用得較多的方法有模擬合成和數(shù)字合成兩大類。和數(shù)字合成兩大類。l模擬合成法,包括減法合成(濾波器模擬合成法,包括減法合成(濾波器 )和加法合成。)和加法合成。l數(shù)字合成法,包括頻率調(diào)制合成(數(shù)字合成法,包括頻率調(diào)制合成(FMFM),),波表合成波表合成(WavetableWavetable),),線線性性形合成(形合成(LALA),),先進(jìn)集成式合成先進(jìn)集成式合成(AIAI),),先進(jìn)向量合成(先進(jìn)向量合成(AVAV),),可變結(jié)構(gòu)合成技術(shù)可變結(jié)構(gòu)合成技術(shù)(VASTVAST)。)。 計(jì)算機(jī)中采用數(shù)字音樂(lè)合成技術(shù),主要采
45、用兩種方法:計(jì)算機(jī)中采用數(shù)字音樂(lè)合成技術(shù),主要采用兩種方法: 頻率調(diào)制合成法(頻率調(diào)制合成法(Frequency Modulation SynthesisFrequency Modulation Synthesis) 波表合成法(波表合成法(Wavetable SynthesisWavetable Synthesis,也稱為樂(lè)音樣本,也稱為樂(lè)音樣本合成法)合成法) 電子音樂(lè)合成與電子音樂(lè)合成與MIDI42頻率調(diào)制(頻率調(diào)制(FMFM,F(xiàn)requency ModulationFrequency Modulation)合)合成成 是通過(guò)硬件產(chǎn)生正弦信號(hào),再經(jīng)處理合是通過(guò)硬件產(chǎn)生正弦信號(hào),再經(jīng)處理合
46、成音樂(lè)。成音樂(lè)。合成的方式是將波形組合在一起,理論上可合成的方式是將波形組合在一起,理論上可以有無(wú)限多組波形。以有無(wú)限多組波形。每一個(gè)每一個(gè)FMFM聲音最少需要兩個(gè)信號(hào)發(fā)生器,一聲音最少需要兩個(gè)信號(hào)發(fā)生器,一般稱為般稱為“操作器(操作器(operatorsoperators)”。復(fù)雜的。復(fù)雜的FMFM系統(tǒng)每一個(gè)音可以使用系統(tǒng)每一個(gè)音可以使用4 4或或6 6個(gè)操作器。個(gè)操作器。 頻率調(diào)制合成頻率調(diào)制合成43 使用使用FMFM合成法來(lái)產(chǎn)生各種逼真的樂(lè)音是相當(dāng)困合成法來(lái)產(chǎn)生各種逼真的樂(lè)音是相當(dāng)困難的,有些樂(lè)音幾乎不能產(chǎn)生。難的,有些樂(lè)音幾乎不能產(chǎn)生。 波表合成(樂(lè)音樣本合成)法是將每種真實(shí)樂(lè)波表合成
47、(樂(lè)音樣本合成)法是將每種真實(shí)樂(lè)器發(fā)出的聲音抽樣,加以適當(dāng)?shù)奶幚砗蟠鎯?chǔ)成器發(fā)出的聲音抽樣,加以適當(dāng)?shù)奶幚砗蟠鎯?chǔ)成聲音樣本(音色文件),記錄在合成器的內(nèi)存聲音樣本(音色文件),記錄在合成器的內(nèi)存當(dāng)中,需要時(shí),調(diào)用相應(yīng)樣本來(lái)合成該樂(lè)器的當(dāng)中,需要時(shí),調(diào)用相應(yīng)樣本來(lái)合成該樂(lè)器的樂(lè)音。樂(lè)音。 內(nèi)存器的容量越大,合成效果越好,價(jià)格也越內(nèi)存器的容量越大,合成效果越好,價(jià)格也越貴。貴。 波表合成合成器所需要的輸入控制參數(shù)比較少,波表合成合成器所需要的輸入控制參數(shù)比較少,可控的數(shù)字音效也不多,產(chǎn)生的聲音質(zhì)量比可控的數(shù)字音效也不多,產(chǎn)生的聲音質(zhì)量比FMFM合成方法產(chǎn)生的聲音質(zhì)量要高。合成方法產(chǎn)生的聲音質(zhì)量要高。
48、波表合成波表合成44 Wavetable合成器的工作原理Wavetable合成器的工作原理45MIDIMIDI(Musical Instrument Digital Musical Instrument Digital InterfaceInterface,樂(lè)器數(shù)字接口),樂(lè)器數(shù)字接口)2020世紀(jì)世紀(jì)8080年代早期年代早期問(wèn)世問(wèn)世MIDIMIDI提供一種標(biāo)準(zhǔn)的方式實(shí)現(xiàn)與音樂(lè)控制器如提供一種標(biāo)準(zhǔn)的方式實(shí)現(xiàn)與音樂(lè)控制器如鍵盤之類到聲音生成器如合成器和鼓鍵盤之類到聲音生成器如合成器和鼓聲合成器聲合成器等等的接口的接口MIDIMIDI并不傳輸聲音,而是傳輸非常簡(jiǎn)單的消息并不傳輸聲音,而是傳輸非常簡(jiǎn)
49、單的消息MIDI概述概述46 從電氣角度看從電氣角度看,MIDIMIDI是一個(gè)半雙工的是一個(gè)半雙工的5ma5ma電流回路,以電流回路,以31.25 K31.25 K波特(波特(kilobaudkilobaud)的位率運(yùn)載)的位率運(yùn)載8-bit8-bit的序列數(shù)據(jù)流的序列數(shù)據(jù)流經(jīng)由經(jīng)由MIDI “MIDI “交談交談”的兩個(gè)裝置能夠用光隔離器的兩個(gè)裝置能夠用光隔離器(optoopto-isolators-isolators)被電氣地隔離,確保硬件系統(tǒng)的被電氣地隔離,確保硬件系統(tǒng)的安全和無(wú)干擾運(yùn)行安全和無(wú)干擾運(yùn)行音頻卡連結(jié)到一個(gè)外部的聲音生成器或音頻卡連結(jié)到一個(gè)外部的聲音生成器或MIDIMIDI控
50、制器時(shí)控制器時(shí)需要特定的電纜需要特定的電纜 從信息的角度從信息的角度,MIDIMIDI是一種描述音樂(lè)上重要實(shí)時(shí)事件的語(yǔ)是一種描述音樂(lè)上重要實(shí)時(shí)事件的語(yǔ)言言通過(guò)通過(guò)1616個(gè)信道通信個(gè)信道通信 ,一個(gè)接口允許多達(dá),一個(gè)接口允許多達(dá)1616個(gè)個(gè)MIDIMIDI樂(lè)器樂(lè)器播放播放,16,16個(gè)樂(lè)器能夠從一個(gè)裝置同時(shí)地播放個(gè)樂(lè)器能夠從一個(gè)裝置同時(shí)地播放增加第二個(gè)增加第二個(gè)MIDIMIDI接口則連通另外的接口則連通另外的 1616個(gè)個(gè)MIDIMIDI信道信道一些一些MIDIMIDI接口提供多達(dá)接口提供多達(dá)1616個(gè)輸出,使它能夠在同一時(shí)個(gè)輸出,使它能夠在同一時(shí)間存取間存取256256個(gè)信道。個(gè)信道。MID
51、I概述(續(xù))概述(續(xù))47MIDIMIDI并不傳輸聲音,而是傳輸接收裝置回應(yīng)的非常簡(jiǎn)單的消息并不傳輸聲音,而是傳輸接收裝置回應(yīng)的非常簡(jiǎn)單的消息樂(lè)器經(jīng)由一個(gè)標(biāo)準(zhǔn)的樂(lè)器經(jīng)由一個(gè)標(biāo)準(zhǔn)的5-DIN5-DIN插頭連接起來(lái)插頭連接起來(lái)例如:當(dāng)在鍵盤上壓一個(gè)鍵的時(shí)候,它向例如:當(dāng)在鍵盤上壓一個(gè)鍵的時(shí)候,它向MIDIMIDI電纜送一個(gè)音符響電纜送一個(gè)音符響(Note OnNote On)消息,命令接收裝置播放一個(gè)音符。消息由三種元素消息,命令接收裝置播放一個(gè)音符。消息由三種元素所組成:所組成:l一個(gè)狀態(tài)字節(jié):關(guān)于事件類型(在這種情況時(shí)是一個(gè)狀態(tài)字節(jié):關(guān)于事件類型(在這種情況時(shí)是Note OnNote On)的
52、信的信息以及它要被送往的信道息以及它要被送往的信道 (1(1至至1616號(hào)信道號(hào)信道) )l一個(gè)音符號(hào):描述被壓的鍵,例如是中一個(gè)音符號(hào):描述被壓的鍵,例如是中C C調(diào)調(diào)l速度值:指出打擊鍵的力量速度值:指出打擊鍵的力量接收裝置將會(huì)播放這一個(gè)音符直到收到包含相同數(shù)據(jù)的一個(gè)音符停止接收裝置將會(huì)播放這一個(gè)音符直到收到包含相同數(shù)據(jù)的一個(gè)音符停止(Note OffNote Off)消息。)消息。合成器根據(jù)正在被播放的聲音將以不同速度回應(yīng)合成器根據(jù)正在被播放的聲音將以不同速度回應(yīng)例如,當(dāng)更激烈地?fù)翩I時(shí),鋼琴聲將更大聲。音調(diào)的質(zhì)量也要改變。例如,當(dāng)更激烈地?fù)翩I時(shí),鋼琴聲將更大聲。音調(diào)的質(zhì)量也要改變。專業(yè)的
53、合成器時(shí)常引入額外的音色來(lái)模仿槌敲擊弦的聲音。專業(yè)的合成器時(shí)常引入額外的音色來(lái)模仿槌敲擊弦的聲音。連續(xù)控制器連續(xù)控制器 (CC(CC,Continuous Controllers)Continuous Controllers)通常用來(lái)控制設(shè)定通常用來(lái)控制設(shè)定音量、效果水平和改換聲道(音量、效果水平和改換聲道(panpan,即橫過(guò)一個(gè)立體聲場(chǎng)的聲音的即橫過(guò)一個(gè)立體聲場(chǎng)的聲音的定位)等。許多定位)等。許多MIDIMIDI裝置可以分配內(nèi)部參數(shù)到裝置可以分配內(nèi)部參數(shù)到 CCCC,有有128128種選擇。種選擇。MMAMMA(MIDI Manufacturers AssociationMIDI Manu
54、facturers Association,MIDIMIDI制造業(yè)者協(xié)會(huì))為合制造業(yè)者協(xié)會(huì))為合成器開發(fā)了規(guī)范,稱為通用成器開發(fā)了規(guī)范,稱為通用MIDIMIDI。MIDI概述(續(xù))概述(續(xù))48 MIDIMIDI電子樂(lè)器通過(guò)電子樂(lè)器通過(guò)MIDIMIDI接口與計(jì)算機(jī)相連接口與計(jì)算機(jī)相連 計(jì)算機(jī)可采集計(jì)算機(jī)可采集MIDIMIDI電子樂(lè)器發(fā)出的一系列指令并記錄到電子樂(lè)器發(fā)出的一系列指令并記錄到以以 .MID.MID為擴(kuò)展名的為擴(kuò)展名的MIDIMIDI文件中文件中 計(jì)算機(jī)可對(duì)計(jì)算機(jī)可對(duì)MIDIMIDI文件進(jìn)行編輯和修改。最后,將文件進(jìn)行編輯和修改。最后,將MIDIMIDI指指令送往音樂(lè)合成器令送往音樂(lè)
55、合成器 合成器將合成器將MIDIMIDI指令符號(hào)進(jìn)行解釋并產(chǎn)生波形,然后送往指令符號(hào)進(jìn)行解釋并產(chǎn)生波形,然后送往揚(yáng)聲器播放出來(lái)?yè)P(yáng)聲器播放出來(lái)用PC構(gòu)成的MIDI系統(tǒng)MIDI音樂(lè)的產(chǎn)生音樂(lè)的產(chǎn)生49MIDIMIDI的新進(jìn)展包括:的新進(jìn)展包括: 新新MIDIMIDI接口接口 多工多工MIDIMIDI操作系統(tǒng)操作系統(tǒng) 網(wǎng)絡(luò)音樂(lè)網(wǎng)絡(luò)音樂(lè) 可下載聲音(可下載聲音(DLSDLS,downloadable downloadable soundssounds) MIDI的新進(jìn)展的新進(jìn)展50 語(yǔ)音識(shí)別一直是人類的夢(mèng)想,語(yǔ)音識(shí)別一直是人類的夢(mèng)想,其最終目標(biāo)是實(shí)現(xiàn)人與機(jī)器進(jìn)行其最終目標(biāo)是實(shí)現(xiàn)人與機(jī)器進(jìn)行自然語(yǔ)言通信
56、自然語(yǔ)言通信 。 最早的機(jī)器自動(dòng)語(yǔ)音識(shí)別研究工作開始于最早的機(jī)器自動(dòng)語(yǔ)音識(shí)別研究工作開始于2020世紀(jì)世紀(jì)5050年代。當(dāng)時(shí)年代。當(dāng)時(shí)的的BellBell實(shí)驗(yàn)室實(shí)現(xiàn)了第一個(gè)可識(shí)別十個(gè)英文孤立數(shù)字的語(yǔ)音識(shí)實(shí)驗(yàn)室實(shí)現(xiàn)了第一個(gè)可識(shí)別十個(gè)英文孤立數(shù)字的語(yǔ)音識(shí)別系統(tǒng)別系統(tǒng)AudryAudry系統(tǒng)。系統(tǒng)。 2020世紀(jì)世紀(jì)6060年代,計(jì)算機(jī)的應(yīng)用推動(dòng)了語(yǔ)音識(shí)別的發(fā)展。提出了年代,計(jì)算機(jī)的應(yīng)用推動(dòng)了語(yǔ)音識(shí)別的發(fā)展。提出了動(dòng)態(tài)規(guī)劃和線性預(yù)測(cè)分析技術(shù)。動(dòng)態(tài)規(guī)劃和線性預(yù)測(cè)分析技術(shù)。 2020世紀(jì)世紀(jì)7070年代,取得了突破。實(shí)現(xiàn)了基于線性預(yù)測(cè)倒譜和年代,取得了突破。實(shí)現(xiàn)了基于線性預(yù)測(cè)倒譜和DTWDTW技技術(shù)的特
57、定人孤立語(yǔ)音識(shí)別系統(tǒng)。術(shù)的特定人孤立語(yǔ)音識(shí)別系統(tǒng)。 2020世紀(jì)世紀(jì)8080年代,語(yǔ)音識(shí)別研究進(jìn)一步走向深入。年代,語(yǔ)音識(shí)別研究進(jìn)一步走向深入。HMMHMM模型和人工模型和人工神經(jīng)元網(wǎng)絡(luò)(神經(jīng)元網(wǎng)絡(luò)(ANNANN)在語(yǔ)音識(shí)別中成功應(yīng)用。)在語(yǔ)音識(shí)別中成功應(yīng)用。 進(jìn)入進(jìn)入2020世紀(jì)世紀(jì)9090年代,隨著多媒體時(shí)代的來(lái)臨,許多著名公司都年代,隨著多媒體時(shí)代的來(lái)臨,許多著名公司都為語(yǔ)音識(shí)別系統(tǒng)的實(shí)用化開發(fā)研究投以巨資。為語(yǔ)音識(shí)別系統(tǒng)的實(shí)用化開發(fā)研究投以巨資。 我國(guó)語(yǔ)音識(shí)別研究工作一直緊跟國(guó)際水平,國(guó)家也很重視。鑒我國(guó)語(yǔ)音識(shí)別研究工作一直緊跟國(guó)際水平,國(guó)家也很重視。鑒于中國(guó)未來(lái)龐大的市場(chǎng),國(guó)外也非常
58、重視漢語(yǔ)語(yǔ)音識(shí)別的研究。于中國(guó)未來(lái)龐大的市場(chǎng),國(guó)外也非常重視漢語(yǔ)語(yǔ)音識(shí)別的研究。語(yǔ)音識(shí)別語(yǔ)音識(shí)別51 按說(shuō)話方式分:孤立字(詞)語(yǔ)音識(shí)別系統(tǒng)、連接字語(yǔ)按說(shuō)話方式分:孤立字(詞)語(yǔ)音識(shí)別系統(tǒng)、連接字語(yǔ)音識(shí)別系統(tǒng)以及連續(xù)語(yǔ)音識(shí)別系統(tǒng)。音識(shí)別系統(tǒng)以及連續(xù)語(yǔ)音識(shí)別系統(tǒng)。 根據(jù)對(duì)說(shuō)話人的依賴程度分:特定人和非特定人語(yǔ)音根據(jù)對(duì)說(shuō)話人的依賴程度分:特定人和非特定人語(yǔ)音識(shí)別系統(tǒng)。識(shí)別系統(tǒng)。 根據(jù)詞匯量大小分:小詞匯量、中等詞匯量、大詞匯根據(jù)詞匯量大小分:小詞匯量、中等詞匯量、大詞匯量以及無(wú)限詞匯量語(yǔ)音識(shí)別系統(tǒng)。量以及無(wú)限詞匯量語(yǔ)音識(shí)別系統(tǒng)。 面向任務(wù)的語(yǔ)音識(shí)別系統(tǒng)的一般方塊圖語(yǔ)音識(shí)別系統(tǒng)的分類語(yǔ)音識(shí)別系統(tǒng)的分
59、類52 語(yǔ)音識(shí)別技術(shù)主要包括特征提取技術(shù)、模式匹配準(zhǔn)則及模型訓(xùn)練技語(yǔ)音識(shí)別技術(shù)主要包括特征提取技術(shù)、模式匹配準(zhǔn)則及模型訓(xùn)練技術(shù)三個(gè)方面。此外,還涉及到語(yǔ)音識(shí)別單元的選取。術(shù)三個(gè)方面。此外,還涉及到語(yǔ)音識(shí)別單元的選取。 語(yǔ)音識(shí)別單元有單詞(句)、音節(jié)和音素三種,具體選擇哪一種,語(yǔ)音識(shí)別單元有單詞(句)、音節(jié)和音素三種,具體選擇哪一種,由具體的研究任務(wù)決定。由具體的研究任務(wù)決定。 單詞(句)單元廣泛應(yīng)用于中小詞匯語(yǔ)音識(shí)別系統(tǒng),但不適合單詞(句)單元廣泛應(yīng)用于中小詞匯語(yǔ)音識(shí)別系統(tǒng),但不適合大詞匯系統(tǒng),原因在于模型庫(kù)太龐大,訓(xùn)練模型任務(wù)繁重,模型大詞匯系統(tǒng),原因在于模型庫(kù)太龐大,訓(xùn)練模型任務(wù)繁重,模型
60、匹配算法復(fù)雜,難以滿足實(shí)時(shí)性要求。匹配算法復(fù)雜,難以滿足實(shí)時(shí)性要求。 音節(jié)單元多見(jiàn)于漢語(yǔ)語(yǔ)音識(shí)別,主要因?yàn)闈h語(yǔ)是單音節(jié)結(jié)構(gòu)的音節(jié)單元多見(jiàn)于漢語(yǔ)語(yǔ)音識(shí)別,主要因?yàn)闈h語(yǔ)是單音節(jié)結(jié)構(gòu)的語(yǔ)言,而英語(yǔ)是多音節(jié),并且漢語(yǔ)雖然有語(yǔ)言,而英語(yǔ)是多音節(jié),并且漢語(yǔ)雖然有13001300多個(gè)音節(jié),但若不多個(gè)音節(jié),但若不考慮聲調(diào),約有考慮聲調(diào),約有410410來(lái)來(lái)個(gè)無(wú)調(diào)音節(jié),數(shù)量相對(duì)較少。個(gè)無(wú)調(diào)音節(jié),數(shù)量相對(duì)較少。 音素單元以前多見(jiàn)于英語(yǔ)語(yǔ)音識(shí)別的研究中,但目前中、大詞音素單元以前多見(jiàn)于英語(yǔ)語(yǔ)音識(shí)別的研究中,但目前中、大詞匯量漢語(yǔ)語(yǔ)音識(shí)別系統(tǒng)也在越來(lái)越多地采用。雖然增加了模型數(shù)匯量漢語(yǔ)語(yǔ)音識(shí)別系統(tǒng)也在越來(lái)越多地采用。
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 倉(cāng)儲(chǔ)管理員崗位面試問(wèn)題及答案
- 威海市重點(diǎn)中學(xué)2025屆化學(xué)高二下期末預(yù)測(cè)試題含解析
- 2025屆黑龍江省齊齊哈爾市第八中學(xué)高二下化學(xué)期末統(tǒng)考試題含解析
- 河北省承德市豐寧縣鳳山第一中學(xué)2025年高二下化學(xué)期末聯(lián)考模擬試題含解析
- 2025屆廣西欽州市靈山縣化學(xué)高一下期末監(jiān)測(cè)模擬試題含解析
- 江蘇裝飾裝修管理辦法
- 新疆旅居人員管理辦法
- 機(jī)械外協(xié)加工管理辦法
- 人臉3D建模與渲染-洞察及研究
- 北京隔離薪資管理辦法
- 2025年廣東高考政治試卷真題答案詳解講評(píng)(課件)
- 2025年家庭照護(hù)師職業(yè)資格考試試題及答案
- 國(guó)家開放大學(xué)2024年春季學(xué)期期末統(tǒng)一考試《中文學(xué)科論文寫作》試題(試卷代號(hào)11332)
- GB/T 33855-2017母嬰保健服務(wù)場(chǎng)所通用要求
- GB 8109-2005推車式滅火器
- 支架植入知情同意書模板
- 人教版四年級(jí)上冊(cè)語(yǔ)文生字組詞
- 茶文化講座優(yōu)選ppt資料
- 水不同溫度的熱焓值
- 綠化工程施工技術(shù)方案及措施(可編輯)
- 國(guó)航特殊餐食代碼表
評(píng)論
0/150
提交評(píng)論