語音處理的基本知識

上傳人：姚*** IP屬地：廣東上傳時間：2023-06-07 格式：PPT 頁數：88 大小：3.92MB 積分：18 舉報 版權申訴

已閱讀5頁，還剩83頁未讀，繼續(xù)免費閱讀

版權說明：本文檔由用戶提供并上傳，收益歸屬內容提供方，若內容存在侵權，請進行舉報或認領

文檔簡介

語音處理的基本知識第一頁，共八十九頁，編輯于2023年，星期一音頻處理技術的研究意義聲音(音頻)是信息交流的一種主要手段，是數字媒體信息的重要組成部分；信息技術、計算機技術和網絡技術的迅猛發(fā)展，使音頻處理技術受到重視并得到廣泛應用，需求也日益多樣。第二頁，共八十九頁，編輯于2023年，星期一2.1數字音頻基礎聲音的物理描述產生原理物理特性聽覺特性聲音信號數字化聲音質量評價第三頁，共八十九頁，編輯于2023年，星期一（1）聲音簡介音頻信號聲音是聽覺器官對聲波的感知，人們之所以能聽到各種聲音，是因為不同頻率的聲波通過空氣產生振動，對人耳刺激的結果。聲波是聲源產生的，通過空氣或其他媒體傳播的連續(xù)振動的波。因聲波是在時間和幅度上都連續(xù)變化的量，聲波是一種連續(xù)變化的模擬信號，可用一條連續(xù)的曲線來表示，稱為聲波，或者叫做音頻信號。第四頁，共八十九頁，編輯于2023年，星期一（1）聲音簡介用函數關系表示模擬聲波時，它是在時間和幅度上都是連續(xù)的一維模擬信號，如圖1所示

圖1聲音是一種連續(xù)的波第五頁，共八十九頁，編輯于2023年，星期一（1）聲音簡介模擬音頻信號基本參數：頻率和幅度。音頻信號的幅度是從信號的基線到當前波峰的距離。幅度決定了信號音量的強弱程度。幅度越大，聲音越強。一般用聲壓（達因／平方厘米）或聲強（瓦特／平方厘米）。聲源每秒鐘可產生成百上千個波峰，每秒鐘波峰所發(fā)生的數目就是音頻信號的頻率，聲音的頻率體現音調的高低。聲音的強弱體現在聲波壓力的大小上，音調的高低體現在聲音的頻率上。第六頁，共八十九頁，編輯于2023年，星期一（1）聲音簡介聲音的量化參數：

強度：dB動物的呼吸聲大約為20dB，人們正常談話的聲音約為60dB，汽車鳴笛的聲音約為100dB，飛機起飛的聲音約為120dB，超過120dB會使人感到痛苦。

頻率：Hz高保真聲音(high-fidelityaudio):10~20000Hz聲音(audio):20~20000Hz話音(speech):300~3000/3400Hz亞音/次音(subsonic):<20Hz超聲(ultrasonic):>20000Hz相位:波的位置。復雜的聲音是由多個不同振幅、頻率、相位的正弦波組成第七頁，共八十九頁，編輯于2023年，星期一（1）聲音簡介聲音的聽覺特性：目前主要研究人的心理聲學和語言聲學特性。聽覺心理的主觀感受包括：響度、音高、音色、音量、噪聲、聽覺掩蔽、定位等。第八頁，共八十九頁，編輯于2023年，星期一（1）聲音簡介對響度的感知聲音的響度就是聲音的強弱在物理上，用dyn/cm2(達因/平方厘米)(聲壓)或W/cm2(瓦特/平方厘米)(聲強)度量在心理上，主觀感覺的聲音強弱使用響度級“方(phon)”或“宋(sone)”來度量這兩種計量單位完全不同，但它們之間有一定的聯系人耳的聽覺范圍聽閾：當聲音弱到人耳朵剛可聽見時的聲音強度痛域：聲音強到使人耳感到疼痛時的聲音強度聽覺范圍：位于聽閾和痛域之間，見圖2第九頁，共八十九頁，編輯于2023年，星期一（1）聲音簡介圖2“聽閾—頻率”曲線和“痛閾—頻率”曲線第十頁，共八十九頁，編輯于2023年，星期一（1）

聲音簡介對音高(頻率)的感知客觀上用頻率表示聲音的音高，其單位是Hz。而主觀感覺的音高單位則是“美(Mel)”。Hz和Mel不同但有聯系主觀音高與客觀音高的關系為其中，f的單位為Hz，人耳對頻率的感知范圍，可以聽到最低頻率約20Hz最高頻率約20000Hz

第十一頁，共八十九頁，編輯于2023年，星期一（1）

聲音簡介測量主觀音高時，讓實驗者聽兩個聲強級為40dB的純音，固定其中一個純音的頻率，調節(jié)另一個純音的頻率，直到他感到后者的音高為前者的兩倍，就標定這兩個聲音的音高差為兩倍。測出的“音高—頻率”曲線見圖3圖3“音高—頻率”曲線第十二頁，共八十九頁，編輯于2023年，星期一（1）聲音簡介掩蔽效應一種頻率的聲音阻礙聽覺系統(tǒng)感受另一種頻率的聲音的現象前者稱為掩蔽聲音(maskingtone)后者稱為被掩蔽聲音(maskedtone)掩蔽可分成頻域掩蔽和時域掩蔽第十三頁，共八十九頁，編輯于2023年，星期一（1）

聲音簡介圖4頻域掩蔽頻域掩蔽一個強純音掩蔽在其附近同時發(fā)聲的弱純音的特性，也稱同時掩蔽(simultaneousmasking),如圖4所示第十四頁，共八十九頁，編輯于2023年，星期一（1）聲音簡介圖5中的一組曲線表示為250Hz，1kHz和4kHz純音的掩蔽效應，它們的聲強均為60dB250Hz，1kHz和4kHz附近，對其他純音的掩蔽效果最明顯低頻純音可有效地掩蔽高頻純音，相反則不明顯圖5不同純音的掩蔽效應曲線第十五頁，共八十九頁，編輯于2023年，星期一（1）聲音簡介時域掩蔽在時間上相鄰的聲音之間的掩蔽現象一個強掩蔽音出現前、同時存在時或消失后的掩蔽效果產生時域掩蔽的主要原因人的大腦處理信息需要花費一定的時間第十六頁，共八十九頁，編輯于2023年，星期一（1）聲音簡介同時掩蔽(simultaneousmasking)：信號和掩蔽音同時產生的現象滯后掩蔽(post-masking)：信號出現在掩蔽音消失后出現的現象，可以持續(xù)50～200ms超前掩蔽(pre-masking)：信號出現在掩蔽音出現之前產生的現象。雖然對超前掩蔽有許多研究報告，但這種現象依然令人費解。超前掩蔽很短，通常只有大約2～20ms，第十七頁，共八十九頁，編輯于2023年，星期一（1）聲音簡介臨界頻帶(criticalband)當噪聲掩蔽純音時，起作用的是以純音頻率為中心頻率的一定頻帶寬度內的噪聲頻率。如這頻帶內的噪聲功率等于在噪聲中剛能聽到的該純音的功率，則這頻帶就稱為聽覺臨界頻帶。臨界頻帶表征了人類最主要的聽覺特性,它是在研究純音對窄帶噪聲掩蔽量的規(guī)律時被發(fā)現的,在加寬噪聲帶寬時,最初是掩蔽量增大,但帶寬超過某一定值后,掩蔽量就不再增加,這一帶寬就稱為臨界頻帶。通常認為聲音(audio)有25個臨界頻帶，見表臨界頻帶的寬度隨聲音頻率的變化而變化第十八頁，共八十九頁，編輯于2023年，星期一（1）聲音簡介第十九頁，共八十九頁，編輯于2023年，星期一（2）

模擬音頻的數字化數字化的概念如果要用計算機對音頻信息進行處理，則首先要通過A/D（模/數）轉換將模擬音頻信號變成數字信號，實現音頻信號的數字化。數字化的聲音易于用計算機軟件處理，現在幾乎所有的專業(yè)化聲音錄制器、編輯器都是數字的。對模擬音頻的數字化過程涉及到音頻的采樣、量化和編碼。當需要播放數字音頻時，按照相反過程還原回模擬音頻第二十頁，共八十九頁，編輯于2023年，星期一聲音信號的數字化過程模擬聲音信號采樣量化編碼數字聲音011010011101……第二十一頁，共八十九頁，編輯于2023年，星期一（a）采樣和量化連續(xù)時間的離散化通過采樣來實現，就是每隔相等的一段時間采樣一次，這種采樣稱為均勻采樣連續(xù)幅度的離散化通過量化(quantization)來實現，就是把信號的強度劃分成一小段一小段，如果幅度的劃分是等間隔的，就稱為線性量化，否則就稱為非線性量化。第二十二頁，共八十九頁，編輯于2023年，星期一圖7聲音的采樣、量化、編碼第二十三頁，共八十九頁，編輯于2023年，星期一（2）

模擬音頻的數字化影響數字音頻質量的因素：采樣精度采樣頻率聲道個數第二十四頁，共八十九頁，編輯于2023年，星期一（2）

模擬音頻的數字化采樣頻率采樣頻率由根據奈奎斯特理論(Nyquisttheory)確定奈奎斯特理論指出，采樣頻率不應低于聲音信號最高頻率的兩倍，這樣就能把以數字表達的聲音還原成原來的聲音，這叫做無損數字化(losslessdigitization)假設被采樣信號的最高頻率為fmax，則采樣定律可用公式表示為第二十五頁，共八十九頁，編輯于2023年，星期一（2）

模擬音頻的數字化采樣精度度量聲音波形幅度的精確程度，用每個聲音樣本的位數表示例如每個聲音樣本用16位表示，測得的聲音樣本值是在[0～65535]范圍里的數，它的精度是1/65536精度是在模擬信號數字化過程中度量模擬信號的最小單位，因此也稱量化階(quantizationstepsize)0～1V的電壓用256個數表示時，量化階等于1/256V樣本位數的大小影響到聲音的質量，位數越多，聲音質量越高，所需存儲空間也越多；位數越少，聲音質量就越低，所需存儲空間也越少第二十六頁，共八十九頁，編輯于2023年，星期一（2）

模擬音頻的數字化聲音質量和數據率——質量度量質量采樣頻率(kHz)樣本精度(bit/s)單道聲/立體聲(未壓縮的)數據率(kb/s)頻率范圍(Hz)電話*88單道聲64.0200～3400AM11.0258單道聲88.220～15000FM22.05016立體聲705.650～7000CD44.116立體聲1411.220～20000DAT4816立體聲1536.020～20000第二十七頁，共八十九頁，編輯于2023年，星期一（b）編碼

所謂編碼，就是按照一定的格式把經過采樣和量化得到的離散數據記錄下來，用二進制數據表示，以后續(xù)達到可以形成數據文件進行存儲的目的。并在有效的數據中加入一些用于糾錯同步和控制的數據。在數據回放時，可以根據所記錄的糾錯數據判別讀出的聲音數據是否有錯，如果有錯，可加以糾正。音頻信號編碼常用的是波形編碼方法，它是直接對波形采樣、量化和編碼，算法簡單，易于實現。而且，聲音恢復時能保持原有的特點，因此被廣泛應用。此外還有參數編碼、混合編碼等。（2）

模擬音頻的數字化第二十八頁，共八十九頁，編輯于2023年，星期一編碼方法（1）PCM（PulseCodeModulation）脈沖編碼調制PCM簡稱脈碼調制，可以直接對聲音信號做A/D轉換，用一組二進制數字編碼表示，得到的是未經壓縮的音頻數據。這是一種最常用、最簡單的編碼方法。PCM編碼方法不需要復雜的信號處理技術就能實現瞬時的數據的量化和還原，而且信噪比高。在解碼后恢復的聲音，只要采樣頻率足夠高，量化位數足夠多，就會有很好的質量。但是，這種對聲音信號直接量化的方法編碼數據量很大，需要很高的傳輸速率。第二十九頁，共八十九頁，編輯于2023年，星期一編碼方法PCM是概念上最簡單、理論上最完善、最早研制成功、使用最為廣泛、數據量最大的編碼系統(tǒng)。目前的聲卡一般都具有PCM編碼和解碼的功能。激光唱盤（CD-DA）記錄聲音時就采用這種方法，存儲未經壓縮的數字音頻信號。第三十頁，共八十九頁，編輯于2023年，星期一編碼方法算法思想：首先對音頻信號進行μ律或A律壓擴，也就是放大小信號，抑制大信號，然后進行均勻量化，等效于對小信號進行小量化級量化，對大信號進行大量化級量化，使大小信號的量化信噪比趨于接近，從而避免了小信號產生較大的量化噪聲誤差，而大信號卻有不必要的高量化信噪比。第三十一頁，共八十九頁，編輯于2023年，星期一編碼方法——脈沖編碼調制(PCM)輸入是模擬信號，輸出是PCM樣本。防失真濾波器：低通濾波器，用來濾除聲音頻帶以外的信號波形編碼器：可理解為采樣器量化器：可理解為“量化階大小(step-size)”生成器或者稱為“量化間隔”生成器。PCM實際上是模擬信號數字化。第三十二頁，共八十九頁，編輯于2023年，星期一量化的方法:均勻量化、非均勻量化均勻量化采用相等的量化間隔/等分尺度量采樣得到的信號幅度，也稱為線性量化。量化后的樣本值Y和原始值X的差E=Y-X稱為量化誤差或量化噪聲。

均勻量化編碼方法第三十三頁，共八十九頁，編輯于2023年，星期一編碼方法非均勻量化大的輸入信號采用大的量化間隔，小的輸入信號采用小的量化間隔可在滿足精度要求的情況下用較少的位數來表示聲音數據還原時，采用相同的規(guī)則

非均勻量化第三十四頁，共八十九頁，編輯于2023年，星期一編碼方法——DPCM（DifferentialPulseCodeModulation）差分脈沖編碼調制

DPCM編碼是利用音頻信號的相關性，通過只傳輸聲音的預測值和樣本值的差值來降低音頻數據的編碼率的一種方法。它采用預測編碼技術，實現音頻數據的壓縮編碼。因為音頻信號一般不會發(fā)生突然變化，相鄰的語音采樣值之間存在很大的相關性，從一個采樣值到相鄰的另一個采樣值的差值要比樣值本身小得多。利用預測編碼方法建立預測模型，通過預測器對未來的樣本進行預測，然后對樣本值與預測器得到的預測值之差進行量化和傳輸。由于這個差值的幅度遠遠小于樣本值本身，需要較少的比特數來表示，這樣可以降低數據的編碼率，從而使編碼數據得到壓縮。第三十五頁，共八十九頁，編輯于2023年，星期一編碼方法——ADPCM（AdaptiveDifferentialPulseCodeModulation）自適應差分編碼調制在實際使用中，由于輸入信號的不穩(wěn)定性，造成DPCM方法的信噪比大大降低。因此在DPCM編碼中加入自適應的方法，就形成了自適應差分編碼調制（ADPCM）方案。所以，ADPCM是對DPCM方法的改進，通過調整量化步長，對不同的頻段設置不同的量化字長，可使數據得到進一步壓縮。

ADPCM壓縮方案壓縮倍率可達2~5倍，信噪比高，性能優(yōu)越，因此，多媒體計算機所獲得的數字化的聲音信息大都采用此壓縮方法。MPC的音頻卡也提供有ADPCM算法，如將16位的采樣值壓縮成4位，將8位的采樣值壓縮成4位、3位或2位。第三十六頁，共八十九頁，編輯于2023年，星期一音頻信號編碼算法名稱碼速率標準應用波形編碼PCM壓擴64kbpsG．711電話、公共網ADPCM自適應差分量化32kbpsG．721SB-ADPCM子帶-自適應差分量化64kbpsG．7225.3kbps6.3kbpsG．723參數編碼LPC線性預測編碼2.4-16kbpsFS1015保密、衛(wèi)星通信混合編碼CELPC碼激勵LPC4.6kbpsIS95移動通信VSELP矢量和激勵LPC8kbps語音郵件LD-CELP低延時碼激勵LPC8kbpsG．729移動通信MPEG多子帶、感知編碼128kbpsMPEG1，2，H.261DVD、運動圖像伴音第三十七頁，共八十九頁，編輯于2023年，星期一音頻信號編碼編碼后形成二進制數據，就可以在計算機上進行存儲、傳輸和處理，即數字音頻語音信號存在多種冗余度，可以進行壓縮。時域冗余度頻域冗余度聽覺特性冗余度第三十八頁，共八十九頁，編輯于2023年，星期一（3）

聲音質量的評價——數字音頻信息的質量與存儲量采樣、量化和編碼技術是音頻數字化的關鍵技術。而采樣頻率、每個采樣值的量化位數以及音頻信息的聲道數目，是影響數字化音頻信息質量和容量的三個重要因素。采樣頻率越高、量化為數越大、聲道數目越多，音頻的質量就越高，但存儲量就越大。第三十九頁，共八十九頁，編輯于2023年，星期一（3）聲音質量的評價——音頻質量的評價（a）客觀質量的度量對聲波的測量包括評價值的測量、聲源的測量和音質的測量，其測量與分析工作，是使用帶計算機處理系統(tǒng)的高級聲學測量儀器來完成。度量聲音客觀質量的一個主要指標是信噪比SNR（SignaltoNoiseRation），信噪比是有用信號與噪聲之比的簡稱，其單位是分貝（dB）。信噪比越大，聲音質量越好。第四十頁，共八十九頁，編輯于2023年，星期一（3）聲音質量的評價——音頻質量的評價（b）主觀質量的度量采用客觀標準方法很難真正評定編碼器的質量，在實際評價中，主觀的質量度量比客觀質量的度量更為恰當和合理。主觀的質量度量通常是對某編碼器的輸出的聲音質量進行評價。度量方法類似于電視節(jié)目中的歌手比賽，由評委對每個歌手的表現進行評分，然后求出平均值。例如播放一段音樂，記錄一段話，然后重放給一批實驗者聽，再由實驗者進行綜合評定，得出平均判分（MeanOpnionScose，MOS）。第四十一頁，共八十九頁，編輯于2023年，星期一主觀平均分(meanopinionscore，MOS)對聲音主觀質量度量比較通用的標準是5分制，各檔次的評分標準見表3-2分數質量等級失真級別5優(yōu)(Excellent)無察覺4良(Good)(剛)察覺但不討厭3中(Fair)(察覺)有點討厭2差(Poor)討厭但不反感1劣(Bad)極討厭(令人反感)第四十二頁，共八十九頁，編輯于2023年，星期一聲音質量的衡量方法客觀質量度量用信噪比(SNR)表示主觀質量度量有時同時采取兩種方法評估，有時以主觀質量度量為主聲音帶寬法等級由高到低依次是DAT、CD、FM、AM和數字電話第四十三頁，共八十九頁，編輯于2023年，星期一2.2數字音頻壓縮技術數據的冗余聲音的壓縮原理聲音的壓縮分類聲音的壓縮標準數字音頻格式第四十四頁，共八十九頁，編輯于2023年，星期一什么是音頻壓縮音頻壓縮技術指的是對原始數字音頻信號流（如PCM編碼）運用適當的數字信號處理技術，在不損失有用信息量，或所引入損失可忽略的條件下，降低（壓縮）其碼率，以減少數據量，也稱為壓縮編碼。它必須具有相應的逆變換，稱為解壓縮或解碼。音頻信號在通過一個編解碼系統(tǒng)后可能引入大量的噪聲和一定的失真。第四十五頁，共八十九頁，編輯于2023年，星期一

雖然表示數字音頻需要大量的數據，但數字音頻數據是高度相關的，或者說存在冗余（Redundancy）信息，去掉這些冗余信息后可以有效壓縮數據量，同時又不會損害聲音的有效信息。數據的冗余第四十六頁，共八十九頁，編輯于2023年，星期一你的妻子，Helen，將于明天晚上6點零5分在上海的虹橋機場接你。

(23*2+10=56個半角字符)你的妻子將于明天晚上6點零5分在虹橋機場接你

(20*2+2=42個半角字符）

Helen將于明晚6點在虹橋接你

(10*2+6=26個半角字符）結論：表達信息的文字存在冗余。只要接收端不會產生誤解，就可以減少承載信息的數據量。我們從一個互動游戲來體會數據冗余的概念。在下面的例子中，用一種最好的方式來發(fā)送一封電報。第四十七頁，共八十九頁，編輯于2023年，星期一數據壓縮的基本原理為了滿足對數字化的信息進行存儲、傳輸的需要，就必須進行數據壓縮，即去掉數據的冗余性。評價壓縮技術的3個重要指標：

1)壓縮比要大 2)算法簡單

3)恢復效果要好第四十八頁，共八十九頁，編輯于2023年，星期一按照一致性分類：可逆編碼（無失真編碼，lossless）：解碼信號與原始信號嚴格相同。如Huffman編碼、算術編碼、游程編碼。不可逆編碼方法（無失真編碼，lossy）：還原信號與原始信號存在一定的誤差，但效果可以接收。按照壓縮方案的不同：

又可將其劃分為時域壓縮、變換壓縮、子帶壓縮，以及多種技術相互融合的混合壓縮等等。各種不同的壓縮技術，其算法的復雜程度、壓縮質量、算法效率（即壓縮比例），以及編解碼延時等都有很大的不同。各種壓縮技術的應用場合也因之而各不相同。數據壓縮方法的分類第四十九頁，共八十九頁，編輯于2023年，星期一按照壓縮方法分類：預測編碼：利用空間中相鄰數據的相關性，利用過去和現在出現過的點的數據情況來預測未來點的數據。如差分脈沖編碼調制（DPCM）、自適應差分脈沖編碼調制（ADPCM）等。變換編碼：將時域信號變換到頻域空間上處理。比如K-L變換、DCT(離散余弦變換)變換等。信息熵編碼：讓出現概率大的用短的碼字表達，反之用長的碼字表示。如Huffman編碼。子帶編碼：將圖像數據變換到頻域后，按頻域分帶，然后用不同的量化器進行量化，從而達到最優(yōu)的組合。數據壓縮方法的分類第五十頁，共八十九頁，編輯于2023年，星期一音頻信號壓縮編碼不僅利用一般壓縮編碼方法，而且利用人耳的聽覺特性，主要有兩點：1.人的聽覺系統(tǒng)中存在一個聽覺閾值電平，低于這個電平的聲音信號人耳聽不到.2.人的聽覺存在屏蔽效應。當幾個強弱不同的聲音同時存在時，強聲使弱聲難以聽到，并且兩者之間的關系與其相對頻率的大小有關.

聲音編碼算法通過這些特性來去掉更多的冗余數據，來達到壓縮數據的目的。音頻壓縮第五十一頁，共八十九頁，編輯于2023年，星期一音頻壓縮聲音包括語音和音樂，聲音數據表征的是一個一維時變系統(tǒng)，故聲音數據的壓縮要易于圖像數據的壓縮。根據時域冗余度、頻域冗余度和人聽覺感知機理進行壓縮，主要方法有：基于音頻數據的統(tǒng)計特性進行編碼，如波形編碼?；谝纛l的聲學參數進行編碼，或者混合編碼?；谌说穆犛X特性進行編碼，如DolbyAC-3。第五十二頁，共八十九頁，編輯于2023年，星期一電話質量的語音壓縮標準：300Hz~3.4KHz。當采樣頻率為8KHz，量化位數為8bit時所對應的速率為6kbit/s。調幅廣播質量的音頻壓縮標準：50Hz~7KHz。當使用16KHz的抽樣頻率和14bit的量化位數時，信號速率為224kbit/s。符合1988年ITU制定的G.722標準。高保真立體聲音頻壓縮標準：50Hz~20KHz。在44.1KHz抽樣頻率下用16bit量化，信號速率為每聲道705kbit/s。目前比較成熟的標準為“MPEG音頻”。音頻壓縮標準第五十三頁，共八十九頁，編輯于2023年，星期一數字音頻格式WAV是微軟公司開發(fā)的一種聲音文件格式，也叫波形聲音文件。是最早的數字音頻格式，被Windows平臺及其應用程序廣泛支持。WAV格式支持許多壓縮算法、支持多種音頻位數、采樣頻率和聲道，經常見到的WAV格式的文件多采用44.1kHz的采樣頻率。16位量化位數，其音質與CD相同，但WAV格式對存儲空問需求太大而不便于通過網絡交流和傳播WAV也是音樂編輯創(chuàng)作的首選格式，適合保存音樂素材。第五十四頁，共八十九頁，編輯于2023年，星期一數字音頻格式AIFF音頻交換文件格式(AudioInterchangeFileFormat，簡寫為AIF／AIFF)，是蘋果計算機公司開發(fā)的一種標準聲音文件格式，被Macintosh平臺及其應用程序所支持，它屬于Quick—Time技術中的一部分，而且是一種優(yōu)秀的文件格式，投入使用后便很快得到Microsoft公司青睞，NetscapeNavigator瀏覽器中的LiveAudio、SGI及其他專業(yè)音頻軟件包都支持它。AIF／AIFF支持支持l6位,44.1kHz立體聲，現在幾乎所有的音頻編輯軟件和播放軟件都支持這種格式。第五十五頁，共八十九頁，編輯于2023年，星期一數字音頻格式MIDI：MusicalInstrumentDigitalInterface，是數字音樂／電子合成樂器的統(tǒng)一國際標準。它定義了計算機音樂程序、數字合成器及其它電子設備交換音樂信號的方式。規(guī)定了不同廠家的電子樂器與計算機連接的電纜和硬件及設備間數據傳輸的協(xié)議，可以模擬多種樂器的聲音。MIDI文件就是MIDI格式的文件，它存儲的只是一些指令，我們要聽到聲音，必須把這些指令發(fā)送給音源，再由音源按照指令將聲音合成和播放出來。CD：擴展名CDA，其取樣頻率為44.1kHz，16位量化位數。CD存儲采用了音軌的形式，又叫“紅皮書”格式。記錄的是波形流，是一種近似無損的格式。第五十六頁，共八十九頁，編輯于2023年，星期一數字音頻格式MP3：全稱是MPEG—lAudioLayer3，它在1992年合并至MPEG規(guī)范中。MP3能夠以高音質、低采樣率對數字音頻文件進行壓縮。音頻文件(WAV文件)能夠在音質丟失很小的情況下把文件壓縮到更小的程度。它是利用人耳的掩蔽效應對聲音進行壓縮，使文件在較低的比特率下，盡可能地保持了原有的音質，是目前最為流行的壓縮方式，也是現在網上收集音樂的最主要的方式，大多數播放器都支持這一文件格式。MP3格式的聲音文件的壓縮比達10：1～12：l，在不小于128kbps傳輸率下，基本保持了原有音質。第五十七頁，共八十九頁，編輯于2023年，星期一數字音頻格式SACD(SA=SuperAudio)：是由Sony公司發(fā)布的。它的采樣率為CD格式的64倍，即2.8224MHz。SACD重放頻率帶寬達100kHz，為CD格式的5倍，24位量化位數，遠遠超過CD。聲音的細節(jié)表現更為豐富、清晰。VQF格式：是由YAMAHA和NTT共同開發(fā)的一種音頻壓縮技術，它的壓縮率能夠達到1：18。因此，相同情況下壓縮后VQF的文件體積比MP3小30％～50％，更便利于網上傳播。同時音質極佳，接近CD音質(16位44．1kHz立體聲)。但VQF未公開技術標準，至今未能流行開來。第五十八頁，共八十九頁，編輯于2023年，星期一數字音頻格式DVDAudio：是新一代的數字音頻格式，與DVDVideo尺寸以及容量相同，為音樂格式的DVD光碟，取樣頻率為“48kHz／96kHz／l92kHz‘’和“44.1kHz／88.2kHz／l76.4kHz”

可選擇，量化位數可以為16、20或24比特，它們之間可自由地進行組合。低采樣率的92kHz、176.4kHz雖然是2聲道重播專用，但它最多可收錄到6聲道。而以2聲道192kHz／24b或6聲道96kHz／24b收錄聲音，可容納74分鐘以上的錄音，動態(tài)范圍達144dB，整體效果出類拔萃。第五十九頁，共八十九頁，編輯于2023年，星期一數字音頻格式MD(MiniDisc)：由日本Sony公司開發(fā)。MD之所以能在一張盤中存儲60~80分鐘、采用44.1khz采樣的立體聲音樂，就是因為使用了ATRAC算法(自適應聲學轉換編碼)壓縮音源。這是一套基于心理聲學原理的音響譯碼系統(tǒng)，它可以把CD唱片的音頻壓縮到原來數據量的大約1／5，而聲音質量沒有明顯的損失。ATRAC利用人耳聽覺的心理聲學特性(頻譜掩蔽特性和時間掩蔽特性)以及入耳對信號幅度、頻率、時間的有限分辨能力。編碼時將人耳感覺不到的成分不編碼、不傳送，這樣就可以相應減少某些數據量的存儲，從而既保證音質又達到縮小體積的目的。第六十頁，共八十九頁，編輯于2023年，星期一數字音頻格式RealAudio：是由RealNetworks公司推出的一種文件格式。最大的特點是可以實時傳輸音頻信息，尤其是在網速較慢的情況下，仍然可以較為流暢地傳送數據。因此RealAudio主要適用于網絡上的在線播放。現在的RealAudio文件格式主要有RA(RealAudio)、RM(RealMedia，RealAudioG2)、RMX(RealAudioSecured)等三種，這些文件的共同性在于隨著網絡帶寬的不同而改變聲音的質量。在保證大多數人聽到流暢聲音的前提下，令帶寬較寬敞的聽眾獲得較好的音質。第六十一頁，共八十九頁，編輯于2023年，星期一數字音頻格式AAC：高級音頻編碼的縮寫。AAC是由FraunhoferIIS—A、杜比和AT&T共同開發(fā)的一種音頻格式，它是MPEG一2規(guī)范的一部分。AAC所采用的運算法則與MP3的運算法則有所不同，AAC通過結合其他的功能來提高編碼效率。AAC的音頻算法在壓縮能力上遠遠超過了以前的一些壓縮算法(比如MP3等)。它還同時支持多達48個音軌、l5個低頻音軌、更多種采樣率和比特率、多種語言的兼容能力、更高的解碼效率。總之，AAC可以在比MP3文件縮小30％的前提下提供更好的音質。第六十二頁，共八十九頁，編輯于2023年，星期一數字音頻格式APE：Monkey’SAudio提供的一種無損壓縮格式。Monkey’SAudio提供了Winamp的插件支持，因此這就意味著壓縮后的文件不再是單純的壓縮格式，而是和MP3一樣可以播放的音頻文件格式。壓縮效果大約為2：l左右，但能夠做到真正無損，因此獲得了不少發(fā)燒用戶的青睞。令人滿意的壓縮比以及飛快的壓縮速度，成為了不少朋友私下交流發(fā)燒音樂的唯一選擇。第六十三頁，共八十九頁，編輯于2023年，星期一數字音頻格式OGG格式：全稱是OGGVobis。它是一種新的音頻壓縮格式，類似于MP3等現有的音樂格式。但有所不同的是，它是完全免費、開放和沒有專利限制的。OGGVobis有一個很出眾的特點，就是支持多聲道，隨著它的流行，以后用隨身聽來聽DTS編碼的多聲道作品將不會是夢想。OGGVobis在壓縮技術上比MP3好，使它很有可能成為一個流行的趨勢，這也正是一些MP3播放器對其支持的原因。另外，如果相同速率錄制音頻mp3和ogg不分上下，ogg采用更先進的算法還可能會好一些。第六十四頁，共八十九頁，編輯于2023年，星期一2.3計算機音樂音樂合成MIDI規(guī)范數字音頻工作站第六十五頁，共八十九頁，編輯于2023年，星期一一個樂音必備的三要素是：音高、音色和音強。運動的旋律中的樂音還應具備時值，即持續(xù)時間。音高：音高指聲音的基頻。聲音的基頻越高，給人的感覺就越激越；相反，聲音的基頻越低，給人的感覺就越低沉。。音色：音色是由聲音的頻譜決定的：各階諧波的比例不同，隨時間衰減的程度不同，音色就不同。各種樂器的音色是由其自身結構特點決定的。要用計算機模擬具有強烈真實感的旋律，音色的變化非常重要的。音強和時值：音強也叫響度，是指聲音信號的強弱程度，是由聲波振動的振幅決定的。聲波振動的持續(xù)時間稱為時值，它具有明顯的相對性，一個音只有在包含了比它更短的音的旋律才會顯得長。音樂合成第六十六頁，共八十九頁，編輯于2023年，星期一任何一種波形信號都可以被分解成若干個頻率不同的正弦波，一個樂器的聲音也可以由若干個正弦波合成得到。調頻（FM）是使高頻振蕩波的頻率按調制信號規(guī)律變化的一種調制方式。采用不同調制波頻率和調制指數，就可以方便地合成具有不同頻譜分布的波形，再現某些樂器的音色。我們可以采用這種方法得到具有獨特效果的“電子模擬聲”，創(chuàng)造出豐富多彩的、真實樂器所不具備的音色。為使音樂更加真實，人們開發(fā)出波形表（wavetable）音樂合成技術。波表合成是把真實音樂聲音數字信號錄制后，保存在存儲器中，當選擇某個樂器時，將所錄制的樣本信號回放。目前這兩種音樂合成技術都應用于多媒體計算機的音頻卡中。第六十七頁，共八十九頁，編輯于2023年，星期一

1．什么是MIDIMIDI（MusicalInstrumentDigitalInterface，樂器數字接口）是一種技術規(guī)范，定義了為把電子樂器連接到計算機所需要的電纜和端口的硬件標準，計算機和具有MIDI接口的設備之間進行信息交換的規(guī)則，電子樂器之間傳送數據的通信協(xié)議。

MIDI聲音是記錄電子樂器鍵盤的彈奏過程，是將樂曲進行一種數字化的描述，這種描述稱為MIDI消息（MIDIMessage）。當需要播放這段音樂時，從相應的MIDI文件中讀出MIDI消息，由合成器來解釋這些消息中的符號，并生成所需要的樂器的聲音波形，經放大后由揚聲器輸出。在計算機中播放MIDI信息須使用帶有合成器的聲卡。

MIDI規(guī)范第六十八頁，共八十九頁，編輯于2023年，星期一2．

MIDI聲音的優(yōu)點：（1）存儲容量小因為MIDI文件中記錄的是一系列指令的集合，所以，MIDI文件所占的存儲量非常小。在需要播放長時間的高質量音樂時，往往采用MIDI文件。（2）可以提供背景音樂或音響效果的配音功能當多媒體計算機播放圖像、文字、圖表時，或者播放波形音頻、語音時，可以同時播放MIDI音樂作為背景音響效果。（3）便于編輯和修改

MIDI聲音記錄的是符號，是樂譜的數字化表示。因此，它可以在計算機中很方便地任意修改樂曲的速度、音調，甚至可以更換的樂器，從而得到不同的效果。（4）可以在MIDI合成器中完全重現原來的演奏

MIDI是把MIDI設備上產生的每個活動記錄下來，形成MIDI文件，把它再傳送到MIDI合成器時，就可以完全重現原來的演奏效果。第六十九頁，共八十九頁，編輯于2023年，星期一3．MIDl規(guī)范

MIDI規(guī)范是一個國際的標準，主要包括以下3個方面的內容。（1）MIDI的硬件規(guī)范指的是各種MIDI設備之間連接的硬件接口標準和信號傳輸機制，包括輸入/輸出通道的類型，連接電纜樣式及插座形式等。（2）MIDI聲音信息的規(guī)范指的是使音樂信息互相交換的一種編碼標準。它包括有關音樂成分的信息，如音符、音量、音調、音符時間長短等，是一種表達各種聲音的作曲系統(tǒng)。（3）MIDI聲音合成的規(guī)范指的是各種聲音的表達方式，即真實聲音信號的規(guī)范，它可以采用FM合成技術和波形表合成技術的標準。第七十頁，共八十九頁，編輯于2023年，星期一4．MIDI的有關術語

（1）MIDI文件

MIDI文件是存放MIDI信息的標準文件，文件名后綴為.MID。（2）通道（Channels）MIDI可為16個通道提供數據，每個通道可以訪問一個獨立的邏輯合成器。（3）音序器（Sequencer）音序器是為了MIDI作曲而設計的計算機程序或電子裝置，用于記錄、編輯、播放MIDI文件。（4）合成器（Synthesizer）合成器是利用數字信號處理器或其他芯片產生音樂或聲音的電子設備。它可以產生并修改波形，然后通過聲音產生器和揚聲器發(fā)出聲音。（5）樂器（Instrument）合成器能產生的特定聲音稱為樂器。每種樂器都有自己的波形，合成器按音色和音調的要求，由不同的樂器組合成最終的聲音組合。第七十一頁，共八十九頁，編輯于2023年，星期一（6）復音（Polyphony）復音是合成器同時支持的最多音符數。（7）音色（Timbre）音色指的是聲音的音質，它取決于聲音頻率。（8）音軌（Track）一種用通道把MIDI數據分隔成單獨組，每條音軌分別定義了該條音軌的屬性，如音軌的音色，音色庫，通道數，輸入/輸出端口，音量等。

一條音軌對應于音樂的一個聲部，每一音軌可認為一種樂器的演奏。

（9）合成音色映射器（Patchappear）合成音色映射器是一種軟件。為了適應Microsoft的MIDI合成音色，分配表規(guī)定了合成音色的編號。軟件為特定的合成器重新分配編號。（10）通道映射（Channelmapping）通道映射把發(fā)送裝置的MIDI通道號變換成適當的接收裝置的通道號。第七十二頁，共八十九頁，編輯于2023年，星期一數字音頻工作站（DigitalAudioWorkstation，簡稱DAW）是集中多種音頻處理工具的、以計算機為平臺的數字音頻制作系統(tǒng)。或者說是一種用來處理、交換音頻信息的計算機系統(tǒng)。它是數字音頻技術的和計算機技術結合的產物，數字音頻工作站的出現，實現了廣播系統(tǒng)高質量的節(jié)目錄制自動化播出，同時也創(chuàng)造了更加良好的高效的工作環(huán)境。它把眾多繁瑣的音頻制作過程集中在通用多媒體計算機上完成，與傳統(tǒng)數字音頻制作相比，省去了大量周邊輔助數字音頻設備，省去了大量設備的連接、安裝、調試等，操作集中在計算機上完成，方便簡單；目前DAW已被用到了廣播電臺的廣播節(jié)目制作、播出、管理與控制的各個環(huán)節(jié)，是廣播電臺播控中心數字化、網絡化關鍵設備之一。第七十三頁，共八十九頁，編輯于2023年，星期一數字音頻工作站從硬件角度來說，數字音頻工作站的構成可以歸結為以下幾個部分：計算機控制部分，核心音頻處理部分，數據存儲設備及其它外設設備；從軟件角度來說，數字音頻工作站可分為以下幾個模塊：操作平臺，音頻處理界面，文件格式，第三方軟件及其他相關軟件。第七十四頁，共八十九頁，編輯于2023年，星期一數字音頻工作站功能DAW提供了制作廣播與影視節(jié)目中音頻部分所需要的所有功能，包括：專業(yè)要求的音質錄入和聲音播放；采樣頻率最低44.1kHz，16bit的量化級別，頻響范圍達到20Hz~20000Hz，信噪比接近90dB

錄音放音和合成；能夠同時播放8個以上音軌、可同時看到波形剪輯功能。刪除、靜音、復制、移位、拼接、淡入淡出、移調、伸縮等數字效果處理；調音、實時均衡、聲音擴壓、聲像移動、電平調整、混響、延時、降噪、變速調節(jié)等第七十五頁，共八十九頁，編輯于2023年，星期一第七十六頁，共八十九頁，編輯于2023年，星期一2.4數字語音處理技術語音增強語音合成語音識別數字音頻水印技術第七十七頁，共八十九頁，編輯于2023年，星期一語音增強語音增強是指當語音信號被各種噪聲干擾、甚至淹沒后，從噪聲背景中提取有用的語音信號，抑制、降低噪聲干擾的技術，即從含噪聲語音中盡可能提取純凈的原始語音。第七十八頁，共八十九頁，編輯于2023年，星期一語音增強的意義1，日常生活中，經常遇到在噪聲干擾中進行語音通信的問題，如在汽車、火車上使用移動電話，在鬧市、馬路邊、商場里打電話。2，軍事通信中，指揮員的作戰(zhàn)命令、情報員的匯報、戰(zhàn)地會議等受到惡劣戰(zhàn)場環(huán)境，如槍炮聲、馬達聲等的干擾。3，竊聽技術的需要進行增強。4，語音識別技術需要先進行增強。第七十九頁，共八十九頁，編輯于2023年，星期一語音增強的方法1，噪聲對消法。2，諧波增強法。3，基于參數估計的語音再合成法。4，基于語音短時譜估計的增強算法。第八十頁，共八十

人人文庫> 全部分類> 教育資料 > 課件下載

溫馨提示

1. 本站所有資源如無特殊說明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請聯系上傳者。文件的所有權益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網頁內容里面會有圖紙預覽，若沒有圖紙預覽就沒有圖紙。
4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
5. 人人文庫網僅提供信息存儲空間，僅對用戶上傳內容的表現方式做保護處理，對用戶上傳分享的文檔內容本身不做任何修改或編輯，并不能對任何下載內容負責。
6. 下載文件中如有侵權或不適當內容，請與我們聯系，我們立即糾正。
7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

語音處理的基本知識

文檔簡介

溫馨提示

最新文檔

評論

語音處理的基本知識

文檔簡介

溫馨提示

最新文檔

評論

相關文檔