多媒體音頻處理技術(shù)_第1頁
多媒體音頻處理技術(shù)_第2頁
多媒體音頻處理技術(shù)_第3頁
多媒體音頻處理技術(shù)_第4頁
多媒體音頻處理技術(shù)_第5頁
已閱讀5頁,還剩51頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

Chap2多媒體音頻處理技術(shù)聲音信息的處理

聲音的處理:壓縮和編碼聲音的表示與存儲(chǔ)聲音的采集:波形聲音數(shù)字化電子樂器(MIDI)話音(語音識(shí)別)Chap2多媒體音頻處理技術(shù)本章內(nèi)容:2.1聲音信號(hào)概述2.2聲音信號(hào)數(shù)字化2.3聲音文件的存儲(chǔ)格式2.4聲音處理軟件2.5聲音質(zhì)量的度量2.6MIDI系統(tǒng)2.7語音處理技術(shù)2.1聲音信號(hào)概述什么是聲音?

——聲音是通過空氣傳播的一種連續(xù)的波。

聲音是攜帶信息的極其重要的媒體,是多媒體技術(shù)研究中的一個(gè)重要內(nèi)容。單一頻率的聲波可用一條正弦波表示,如下圖所示。振幅周期基線振幅——表示聲音信號(hào)的強(qiáng)弱程度。頻率——指聲音信號(hào)每秒鐘變化的次數(shù),用Hz表示。亞音信號(hào)(次聲帶):小于20Hz

音頻信號(hào):20~20KHz

超聲波信號(hào)(超聲帶):大于20KHz

頻率反映出聲音的音調(diào),聲音細(xì)尖表示頻率高,聲音粗低表示頻率低。想想按住單放機(jī)的快鍵,會(huì)有什么聲音?聲音的聽覺特性聲音的三要素。音調(diào)表示聲音的高低,取決于聲音的頻率。音色即特色的聲音,指聲音的感覺特性。聲音分純音和復(fù)音,復(fù)音包括基音和泛音。 音色由基音與泛音的比例、泛音的分布、泛音隨時(shí)間的衰減變化決定。音強(qiáng)聲音的強(qiáng)度,取決于聲音的振幅。即“音量”。樂音以小提琴為例,當(dāng)A弦振動(dòng)時(shí),

基音:整根弦的振動(dòng)產(chǎn)生了最主要的頻率; 泛音:弦長的二分之一、三分之一、四分之一等處的振動(dòng)則產(chǎn)生了一些次要的頻率。

樂音:如果一個(gè)物體振動(dòng)所發(fā)出的泛音為基音的整數(shù)倍,這個(gè)音就會(huì)具有清晰可辨的音調(diào),我們稱之為樂音;噪音:如果泛音是基音的非整數(shù)倍,這個(gè)音就不具備清晰可辨的音調(diào),我們稱之為噪音。

2.2聲音信號(hào)數(shù)字化聲音信號(hào)數(shù)字化的過程模擬信號(hào)數(shù)字信號(hào)采樣量化編碼采樣:在某些特定時(shí)刻對(duì)模擬信號(hào)進(jìn)行測(cè)量,即使音頻信號(hào)在時(shí)間軸上離散化。量化:對(duì)采樣后的離散音頻信號(hào)幅值樣本進(jìn)行離散化處理,即將每一個(gè)樣本歸入預(yù)先編排的量化級(jí)上。編碼:對(duì)量化級(jí)以二進(jìn)制數(shù)碼按一定數(shù)據(jù)格式表示的過程。聲音的采樣和量化

01010100001100100001000010011010101111001101影響數(shù)字音頻質(zhì)量的技術(shù)參數(shù)

對(duì)模擬音頻信號(hào)進(jìn)行采樣量化編碼后,得到數(shù)字音頻。數(shù)字音頻的質(zhì)量取決于采樣頻率、量化位數(shù)和聲道數(shù)三個(gè)因素。1)采用頻率

——指一秒鐘時(shí)間內(nèi)采樣的次數(shù)。

奈奎斯特理論(Nyquisttheory):采樣頻率不應(yīng)低于聲音信號(hào)的最高頻率的兩倍,這樣就能把以數(shù)字表達(dá)的聲音還原成原來的聲音,叫做無損數(shù)字化。采樣頻率通常采用三種:

11.025KHz(語音效果)、

22.05KHz(音樂效果)、

44.1KHz(高保真效果)。常見的CD唱盤的采樣頻率即為44.1KHz。2)量化精度——描述每個(gè)采樣點(diǎn)樣本值的二進(jìn)制位數(shù)。 例如,8位量化位數(shù)表示量化精度為1/256。3)聲道數(shù)——聲音通道的個(gè)數(shù)稱為聲道數(shù),是指一次采樣所記錄產(chǎn)生的聲音波形個(gè)數(shù)。單聲道:記錄聲音時(shí),每次生成一個(gè)聲波數(shù)據(jù);雙聲道(立體聲):每次生成兩個(gè)聲波數(shù)據(jù)。

隨著聲道數(shù)的增加,所占用的存儲(chǔ)容量也成倍增加。數(shù)字音頻文件的存儲(chǔ)量

以字節(jié)為單位,模擬波形聲音被數(shù)字化后音頻文件的存儲(chǔ)量(假定未經(jīng)壓縮)為:

存儲(chǔ)量=采樣頻率×量化位數(shù)/8×聲道數(shù)×?xí)r間

例如,用44.1KHz的采樣頻率進(jìn)行采樣,量化位數(shù)選用16位,則錄制1秒的立體聲節(jié)目,其波形文件所需的存儲(chǔ)量為:

44100×16/8×2×1=176400(字節(jié))聲音質(zhì)量和數(shù)據(jù)率

說明:*電話使用μ

律編碼,動(dòng)態(tài)范圍為13位,而不是8位。質(zhì)量采樣頻率/kHz樣本精度/b/s單道聲/立體聲數(shù)據(jù)率(未壓縮)/kb/s頻率范圍/Hz電話*AMFMCDDAT811.02522.05044道聲單道聲立體聲立體聲立體聲64.088.2705.61411.21536.0200~340050~700020~1500020~2000020~200002.3聲音文件的存儲(chǔ)格式

1.WAV文件3.MP3文件2.MIDI4.WMA文件WAV文件波形音頻文件:

-文件的擴(kuò)展名是“.WAV”

;

-它記錄了采樣數(shù)據(jù),可重現(xiàn)各種聲音,但文件很大;

-壓縮方法:主要有PCM和APCM等;

-特點(diǎn):易于生成和編輯,壓縮比不高。

-還原質(zhì)量: 人的講話聲:8位量化級(jí)、11.025KHz采樣率

CD音質(zhì):16位量化級(jí)、44.1KHz的采樣率MIDIMIDI文件:

-擴(kuò)展名為“.MID”;

-記錄的不是聲音本身,而是將每個(gè)音符記錄為一個(gè)數(shù)字,

-節(jié)省空間,可以滿足長時(shí)間音樂的需要。

-主要限制是缺乏重現(xiàn)真實(shí)自然的能力。 采用波表法進(jìn)行音樂合成的聲音卡可以使MIDI音樂的質(zhì)量大大提高。CDAudio,擴(kuò)展名CDA:

唱片采用的格式,音質(zhì)非常好,記錄的是波形流,但缺點(diǎn)是無法編輯,文件長度太大。MPEG-3,擴(kuò)展名MP3:

非常流行,因其壓縮率大(10:1~12:1),在網(wǎng)絡(luò)可視電話通信方面應(yīng)用廣泛,但和CD唱片相比,音質(zhì)不能令人非常滿意。

WMA(WindowsMedia

Audio)

文件:

是微軟力推的一種音頻格式。WMA格式壓縮率一般可以達(dá)到18:1,生成的文件大小只有相應(yīng)MP3文件的一半,但音質(zhì)不減。RealAudio文件,擴(kuò)展名RA:

RealNetworks公司的“流式播放”聲音文件格式,強(qiáng)大的壓縮量(可達(dá)96:1)和極小的失真,主要適用于在網(wǎng)絡(luò)上的在線音樂欣賞。常見的聲音文件擴(kuò)展名

文件的擴(kuò)展名說明au

Sun和NeXT公司的聲音文件存儲(chǔ)格式aif(AudioInterchange) Apple計(jì)算機(jī)上的聲音文件存儲(chǔ)格式cmf(CreativeMusicFormat) 聲霸(SB)卡帶的MIDI文件存儲(chǔ)格式mct MIDI文件存儲(chǔ)格式mff(MIDIFileFormat) MIDI文件存儲(chǔ)格式1/2mid(MIDI) Windows的MIDI文件存儲(chǔ)格式mp2 MPEGLayerⅠ,Ⅱmp3 MPEGLayerⅢmod(Module) MIDI文件的存儲(chǔ)格式rm(RealMedia) RealNetworks公司的流放式聲音文件格式ra(RealAudio) RealNetworks公司的流放式聲音文件格式續(xù):常見的聲音文件擴(kuò)展名

rol Adlib聲音卡文件存儲(chǔ)格式snd(sound) Apple計(jì)算機(jī)上的聲音文件存儲(chǔ)格式seq MIDI文件存儲(chǔ)格式sng MIDI文件存儲(chǔ)格式voc(CreativeVoice) 聲霸卡存儲(chǔ)的聲音文件存儲(chǔ)格式wav(Waveform)* Windows采用的波形聲音文件存儲(chǔ)格式wrk CakewalkPro軟件采用的MIDI文件存儲(chǔ)格式說明:*支持PCM,ADPCM,μ率和A率波形2.4聲音處理軟件聲音處理軟件:即聲音工具,是用來錄放、編輯和分析聲音文件的。常見的聲音工具有:1、Window95/98/XP本身帶的“SoundRecorder”2、買聲卡時(shí)帶的工具

3、網(wǎng)絡(luò)上下載的工具2.5聲音質(zhì)量的度量評(píng)價(jià)聲音質(zhì)量的主觀方法:平均判分法(MOS),召集若干實(shí)驗(yàn)者,由他們對(duì)聲音質(zhì)量的好壞進(jìn)行評(píng)分,求出平均值作為對(duì)聲音質(zhì)量的評(píng)價(jià),所得分?jǐn)?shù)為MOS。分?jǐn)?shù)質(zhì)量級(jí)別失真級(jí)別5優(yōu)無察覺

4良(剛)察覺但不討厭

3中(察覺)有點(diǎn)討厭

2差討厭但不反感

1劣極討厭(令人反感)客觀方法:信噪比(SNR)

SNR=1)SNR大,在一定程度上能夠隱蔽噪聲,從而獲得較好的聲音效果;2)在聲音的錄制和播放時(shí),要注意環(huán)境噪聲的影響。2.6電子樂器數(shù)字接口(MIDI)系統(tǒng)電子樂器數(shù)字接口(musicalinstrumentdigitalinterface,MIDI)

——是用于在音樂合成器、電子樂器、音序器和計(jì)算機(jī)之間交換音樂信息的一種標(biāo)準(zhǔn)協(xié)議。從80年代初問世至今,MIDI經(jīng)歷了長時(shí)間的發(fā)展,現(xiàn)已成為電腦音樂的代名詞。MIDI文件的特點(diǎn)(1).指令集合,文件小。(2).編輯靈活,在音序器的幫助下,用戶可自由地改變音調(diào)、音色以及樂曲速度等,以達(dá)到需要的效果。(3).表現(xiàn)力弱,不能與真正的樂器完全相似,音質(zhì)有待提高。(4).MIDI聲音適于重現(xiàn)打擊樂或一些電子樂器的聲音,利用MIDI聲音方式可用計(jì)算機(jī)來進(jìn)行作曲。(5).使用MIDI文件,其聲音卡上必需含有硬件音序器或者配置有軟件音序器。數(shù)字式頻率調(diào)制(FM

)合成法由以下五部分組成:數(shù)字載波器調(diào)制器數(shù)字運(yùn)算器聲音包絡(luò)發(fā)生器模數(shù)轉(zhuǎn)換器從理論上講,F(xiàn)M合成方法可以產(chǎn)生任何樂音,但是,這種“物理課式”的合成方法合成出來的聲音不夠真實(shí)。樂音樣本合成法此法產(chǎn)生的聲音質(zhì)量比FM合成方法產(chǎn)生的聲音質(zhì)量要高。把真實(shí)樂器發(fā)出的聲音以數(shù)字的形式記錄下來,播放時(shí)再加以調(diào)整、修飾和放大,生成各種音階的音符。MIDI系統(tǒng)設(shè)備配置

MIDI設(shè)備就是處理MIDI信息所需的硬件設(shè)備,其基本組成包括:合成器揚(yáng)聲器MIDI鍵盤MIDI端口音序器(1).MIDI鍵盤 MIDI鍵盤是用于MIDI樂曲演奏的,MIDI鍵盤本身并不發(fā)出聲音,當(dāng)作曲人員觸動(dòng)鍵盤上的按鍵時(shí),就發(fā)出按鍵信息,所產(chǎn)生的僅僅是MIDI音樂消息,從而由音序器錄制生成MIDI文件。(2).MIDI端口

一臺(tái)MID設(shè)備可以有一至三個(gè)MIDI端口,分別稱為MIDIIn、MIDIOut、MIDIThru。它們的作用是:

MIDIIn:接收來自其它MIDI設(shè)備的MIDI信息。

MIDIOut:發(fā)送本設(shè)備生成的MIDI信息到其它設(shè)備。

MIDIThru:將從MIDIIn端口傳來的信息轉(zhuǎn)發(fā)到相連的另一臺(tái)MIDI設(shè)備上。(3).音序器

用于記錄、編輯、播放MIDI的聲音文件,音序器有以硬件形式提供的,目前大多為軟件音序器。音序器可捕捉MIDI消息,將其存入MIDI文件,MIDI文件擴(kuò)展名為.MID。音序器還可編輯MIDI文件。(4).合成器MIDI文件的播放是通過MIDI合成器,合成器解釋MIDI文件中的指令符號(hào),生成所需要的聲音波形,經(jīng)放大后由揚(yáng)聲器輸出,聲音的效果比較豐富。

MIDI合成方式主要有調(diào)頻合成(FM)和樂音樣本合成兩種方式。MIDI的通道概念單個(gè)物理MIDI通道分為16個(gè)邏輯通道,每個(gè)邏輯通道可指定一種樂器。MIDI鍵盤可設(shè)置在這16個(gè)通道中的任何一個(gè),MIDI合成器可以被設(shè)置在指定的通道上接受。電子樂器數(shù)字接口(MIDI)

MIDI實(shí)質(zhì)上是由MIDI控制器產(chǎn)生的指示電子音樂合成器要做什么、怎么做的一套標(biāo)準(zhǔn)指令。

MIDI傳送的不是聲音,而是動(dòng)作指令。

各個(gè)MIDI設(shè)備通過專用的串行電纜(MIDI線)連接,并以31.25kbps(每字節(jié)10位)的速度傳送著數(shù)字音樂信息。MIDIThruOutInMIDI的物理接口標(biāo)準(zhǔn)MIDI設(shè)備的連接不妨把MIDI理解成一種局域網(wǎng)。不同的聲音模塊可設(shè)置成接收不同通道的曲子。MIDI軟件產(chǎn)品中文名稱:音效合成工具英文名稱:PROPELLERHEADS.REASON.V3.0.ISO-RiSE2.7語音處理技術(shù)語音識(shí)別(SpeechRecognition)文本語音轉(zhuǎn)換(TextToSpeech)語音壓縮編碼(SpeechCoding)語音識(shí)別什么是語音識(shí)別?

——目的是讓機(jī)器具有人的聽覺功能,在人機(jī)語音通訊中“聽懂”人類口述的語言。語音識(shí)別要求:識(shí)別字詞句,語義和語境語音識(shí)別的應(yīng)用: 語音輸入、電話查詢、信息查詢網(wǎng)上交談、語音教學(xué)、語音控制數(shù)字音頻信號(hào)的編碼

模擬音頻信號(hào)輸入采樣/量化編碼傳輸/存儲(chǔ)解碼播放

音頻信號(hào)壓縮編碼的依據(jù):

1)聽覺域值電平的存在;

2)聽覺存在屏蔽效應(yīng)。(強(qiáng)聲掩蓋弱聲)

音頻信號(hào)的壓縮編碼方式:

1)波形編碼;

2)音源(參數(shù))編碼;

3)混合編碼三種。話音編譯碼器的分類波形編譯碼器(waveformcoder): 不利用生成話音的信號(hào)的任何知識(shí),將話音視為一種普通的聲音,直接對(duì)波形信號(hào)進(jìn)行采樣和量化。 特點(diǎn):編譯碼器簡單,話音質(zhì)量高,但數(shù) 據(jù)率也很高; 例如:PCM、DM、DPCM、ADPCM等。音源編譯碼器(Sourcecoder): 也叫參數(shù)編譯碼器、聲碼器(vocoder)。它從話音波形信號(hào)中提取生成話音的參數(shù),使用這些參數(shù)通過話音生成模型重構(gòu)出話音。 特點(diǎn):算法復(fù)雜,計(jì)算量大,壓縮率高,但還原聲音的質(zhì)量不高。混合編譯碼器(Hybridcoder): 把波形編碼的高質(zhì)量和音頻編碼的低數(shù)據(jù)率結(jié)合在一起,取得了較好效果。三種話音編譯碼器的對(duì)比

1)波形編碼

波形編碼的算法簡單,易于實(shí)現(xiàn),可獲得高質(zhì)量的語音。常見的波形編碼方法為:

脈沖編碼調(diào)制(PCM)增量調(diào)制(DM)自適應(yīng)脈沖編碼調(diào)制(APCM)差分脈沖編碼調(diào)制(DPCM)

自適應(yīng)差分脈沖編碼調(diào)制(ADPCM)脈沖編碼調(diào)制(PCM)PulseCodeModulation,PCM ——是把模擬信號(hào)變換為數(shù)字信號(hào)的一種調(diào)制方式。PCM的量化方式:均勻量化與非均勻量化

均勻量化:采用相等的量化間隔對(duì)采樣得到的信號(hào)作量化,線性量化。非均勻量化:大的輸入信號(hào)采用大的量化間隔,小的輸入信號(hào)采用小的量化間隔,即非線性量化。

非均勻量化是在滿足精度要求的情況下用較少的位數(shù)來表示。增量調(diào)制(DM)DeltaModulation,DM——是對(duì)實(shí)際的采樣信號(hào)與預(yù)測(cè)的采樣信號(hào)之差的極性進(jìn)行編碼,將極性變成0或1這兩種可能的取值之一。斜率

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論