多媒體音頻處理技術(shù)課件_第1頁(yè)
多媒體音頻處理技術(shù)課件_第2頁(yè)
多媒體音頻處理技術(shù)課件_第3頁(yè)
多媒體音頻處理技術(shù)課件_第4頁(yè)
多媒體音頻處理技術(shù)課件_第5頁(yè)
已閱讀5頁(yè),還剩51頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、Chap2 多媒體音頻處理技術(shù)聲音信息的處理 聲音的處理:聲音的處理:壓縮和編碼壓縮和編碼聲音的表示聲音的表示與存儲(chǔ)與存儲(chǔ)聲音的采集:聲音的采集:波形聲音數(shù)字化波形聲音數(shù)字化電子樂器(電子樂器(MIDI)話音(語(yǔ)音識(shí)別)話音(語(yǔ)音識(shí)別)Chap2 多媒體音頻處理技術(shù)本章內(nèi)容: 2.1 聲音信號(hào)概述 2.2 聲音信號(hào)數(shù)字化 2.3 聲音文件的存儲(chǔ)格式 2.4 聲音處理軟件 2.5 聲音質(zhì)量的度量 2.6 MIDI系統(tǒng) 2.7 語(yǔ)音處理技術(shù)2.1 聲音信號(hào)概述聲音信號(hào)概述 什么是聲音? 聲音是通過空氣傳播的一種連續(xù)的波。聲音是攜帶信息的極其重要的媒體,是多媒體技術(shù)研究中的一個(gè)重要內(nèi)容。 單一頻率的

2、聲波可用一條正弦波表示,如下圖所示。振幅周期基線 振幅表示聲音信號(hào)的強(qiáng)弱程度。 頻率指聲音信號(hào)每秒鐘變化的次數(shù),用Hz表示。 亞音信號(hào)(次聲帶):小于20Hz 音頻信號(hào): 2020K Hz 超聲波信號(hào)(超聲帶) :大于20K Hz 頻率反映出聲音的音調(diào),聲音細(xì)尖表示頻率高,聲音粗低表示頻率低。 想想按住單放機(jī)的快鍵,會(huì)有什么聲音?聲音的聽覺特性聲音的聽覺特性 聲音的三要素。 音調(diào) 表示聲音的高低,取決于聲音的頻率。 音色 即特色的聲音,指聲音的感覺特性。 聲音分純音和復(fù)音,復(fù)音包括基音和泛音。 音色由基音與泛音的比例、泛音的分布、泛音隨時(shí)間的衰減變化決定。 音強(qiáng) 聲音的強(qiáng)度,取決于聲音的振幅。

3、即“音量”。樂音樂音 以小提琴為例,當(dāng)A弦振動(dòng)時(shí),基音基音:整根弦的振動(dòng)產(chǎn)生了最主要的頻率;泛音泛音:弦長(zhǎng)的二分之一、三分之一、四分之一等 處的振動(dòng)則產(chǎn)生了一些次要的頻率。 樂音:樂音:如果一個(gè)物體振動(dòng)所發(fā)出的泛音為基音的整數(shù)倍,這個(gè)音就會(huì)具有清晰可辨的音調(diào),我們稱之為樂音;噪音:噪音:如果泛音是基音的非整數(shù)倍,這個(gè)音就不具備清晰可辨的音調(diào),我們稱之為噪音。 2.2 聲音信號(hào)數(shù)字化 聲音信號(hào)數(shù)字化的過程模擬信號(hào)數(shù)字信號(hào)采樣量化編碼 采樣:在某些特定時(shí)刻對(duì)模擬信號(hào)進(jìn)行測(cè)量,即使音頻信號(hào)在時(shí)間軸上離散化。 量化:對(duì)采樣后的離散音頻信號(hào)幅值樣本進(jìn)行離散化處理,即將每一個(gè)樣本歸入預(yù)先編排的量化級(jí)上。

4、編碼:對(duì)量化級(jí)以二進(jìn)制數(shù)碼按一定數(shù)據(jù)格式表示的過程。聲音的采樣和量化聲音的采樣和量化 01010100001100100001000010011010101111001101影響數(shù)字音頻質(zhì)量的技術(shù)參數(shù)影響數(shù)字音頻質(zhì)量的技術(shù)參數(shù) 對(duì)模擬音頻信號(hào)進(jìn)行采樣量化編碼后,得到數(shù)字音頻。數(shù)字音頻的質(zhì)量取決于采樣頻率、量化位數(shù)和聲道數(shù)三個(gè)因素。1)采用頻率 指一秒鐘時(shí)間內(nèi)采樣的次數(shù)。 奈奎斯特理論(Nyquist theory):采樣頻率不應(yīng)低于聲音信號(hào)的最高頻率的兩倍,這樣就能把以數(shù)字表達(dá)的聲音還原成原來的聲音,叫做無損數(shù)字化。 采樣頻率通常采用三種:11.025KHz(語(yǔ)音效果)、22.05KHz(音樂

5、效果)、44.1KHz(高保真效果)。 常見的CD唱盤的采樣頻率即為44.1KHz。2)量化精度描述每個(gè)采樣點(diǎn)樣本值的二進(jìn)制位數(shù)。例如,8位量化位數(shù)表示量化精度為1/256。)聲道數(shù)聲音通道的個(gè)數(shù)稱為聲道數(shù),是指一次采樣所記錄產(chǎn)生的聲音波形個(gè)數(shù)。 單聲道:記錄聲音時(shí),每次生成一個(gè)聲波數(shù)據(jù); 雙聲道(立體聲):每次生成兩個(gè)聲波數(shù)據(jù)。隨著聲道數(shù)的增加,所占用的存儲(chǔ)容量也成倍增加。數(shù)字音頻文件的存儲(chǔ)量數(shù)字音頻文件的存儲(chǔ)量以字節(jié)為單位,模擬波形聲音被數(shù)字化后音頻文件的存儲(chǔ)量(假定未經(jīng)壓縮)為:存儲(chǔ)量=采樣頻率量化位數(shù)/8聲道數(shù)時(shí)間例如,用44.1KHz的采樣頻率進(jìn)行采樣,量化位數(shù)選用16位,則錄制1秒

6、的立體聲節(jié)目,其波形文件所需的存儲(chǔ)量為:4410016821=176400(字節(jié))聲音質(zhì)量和數(shù)據(jù)率聲音質(zhì)量和數(shù)據(jù)率 說明:*電話使用 律編碼,動(dòng)態(tài)范圍為13位,而不是8位。質(zhì)量 采樣頻率/kHz 樣本精度/b/s 單道聲/立體聲 數(shù)據(jù)率(未壓縮)/kb/s 頻率范圍/Hz電話*AMFMCDDAT811.02522.05044道聲單道聲立體聲立體聲立體聲64.088.2705.61411.21536.02003400 507000 2015000 2020000 20200002.3 聲音文件的存儲(chǔ)格式聲音文件的存儲(chǔ)格式 1. WAV 文件3. MP3 文件2. MID

7、I 4. WMA 文件WAV 文件 波形音頻文件:- 文件的擴(kuò)展名是“.WAV” ;- 它記錄了采樣數(shù)據(jù),可重現(xiàn)各種聲音,但文件很大;- 壓縮方法:主要有PCM和APCM等; - 特點(diǎn):易于生成和編輯,壓縮比不高。- 還原質(zhì)量:人的講話聲:8位量化級(jí)、11.025 KHz采樣率CD音質(zhì): 16位量化級(jí)、44.1 KHz的采樣率MIDI MIDI文件:- 擴(kuò)展名為“.MID”;- 記錄的不是聲音本身,而是將每個(gè)音符記錄為一個(gè)數(shù)字,- 節(jié)省空間,可以滿足長(zhǎng)時(shí)間音樂的需要。- 主要限制是缺乏重現(xiàn)真實(shí)自然的能力。采用波表法進(jìn)行音樂合成的聲音卡可以使MIDI 音樂的質(zhì)量大大提高。 CD Audio,擴(kuò)展

8、名CDA:唱片采用的格式,音質(zhì)非常好,記錄的是波形流,但缺點(diǎn)是無法編輯,文件長(zhǎng)度太大。 MPEG-3,擴(kuò)展名MP3:非常流行,因其壓縮率大(10:112:1),在網(wǎng)絡(luò)可視電話通信方面應(yīng)用廣泛,但和CD唱片相比,音質(zhì)不能令人非常滿意。 WMA (Windows Media Audio) 文件:是微軟力推的一種音頻格式。WMA格式壓縮率一般可以達(dá)到18:1,生成的文件大小只有相應(yīng)MP3文件的一半,但音質(zhì)不減。 RealAudio文件,擴(kuò)展名RA :RealNetworks公司的“流式播放”聲音文件格式,強(qiáng)大的壓縮量(可達(dá)96:1)和極小的失真,主要適用于在網(wǎng)絡(luò)上的在線音樂欣賞。常見的聲音文件擴(kuò)展名

9、常見的聲音文件擴(kuò)展名 文件的擴(kuò)展名 說明au Sun和NeXT公司的聲音文件存儲(chǔ)格式aif(Audio Interchange) Apple計(jì)算機(jī)上的聲音文件存儲(chǔ)格式cmf(Creative Music Format) 聲霸(SB)卡帶的MIDI文件存儲(chǔ)格式mct MIDI文件存儲(chǔ)格式mff(MIDI File Format) MIDI文件存儲(chǔ)格式1/2mid(MIDI) Windows的MIDI文件存儲(chǔ)格式mp2 MPEG Layer , mp3 MPEG Layer mod(Module) MIDI文件的存儲(chǔ)格式rm(RealMedia) RealNetworks公司的流放式聲音文件格式r

10、a(RealAudio) RealNetworks 公司的流放式聲音文件格式續(xù):常見的聲音文件擴(kuò)展名續(xù):常見的聲音文件擴(kuò)展名 rol Adlib 聲音卡文件存儲(chǔ)格式snd(sound) Apple 計(jì)算機(jī)上的聲音文件存儲(chǔ)格式seq MIDI文件存儲(chǔ)格式sng MIDI文件存儲(chǔ)格式voc(Creative Voice) 聲霸卡存儲(chǔ)的聲音文件存儲(chǔ)格式wav(Waveform)* Windows采用的波形聲音文件存儲(chǔ)格式wrk Cakewalk Pro 軟件采用的MIDI文件存儲(chǔ)格式說明:*支持PCM,ADPCM, 率和A率波形2.4 聲音處理軟件聲音處理軟件 聲音處理軟件:即聲音工具,是用來錄放、

11、編輯和分析聲音文件的。 常見的聲音工具有:、Window 95/98/ 本身帶的“Sound Recorder”、買聲卡時(shí)帶的工具 3、網(wǎng)絡(luò)上下載的工具2.5 聲音質(zhì)量的度量聲音質(zhì)量的度量 評(píng)價(jià)聲音質(zhì)量的主觀方法:平均判分法(MOS),召集若干實(shí)驗(yàn)者,由他們對(duì)聲音質(zhì)量的好壞進(jìn)行評(píng)分,求出平均值作為對(duì)聲音質(zhì)量的評(píng)價(jià),所得分?jǐn)?shù)為MOS。分?jǐn)?shù) 質(zhì)量級(jí)別 失真級(jí)別 5 優(yōu) 無察覺 4 良 (剛)察覺但不討厭 3 中 (察覺)有點(diǎn)討厭 2 差 討厭但不反感 1 劣 極討厭(令人反感) 客觀方法: 信噪比() SNR=1)SNR大,在一定程度上能夠隱蔽噪聲,從而獲得較好的聲音效果;2)在聲音的錄制和播放時(shí)

12、,要注意環(huán)境噪聲的影響。噪聲的平均功率有用信號(hào)的平均功率噪聲的平均功率有用信號(hào)的平均功率2.6電子樂器數(shù)字接口(電子樂器數(shù)字接口(MIDI)系統(tǒng))系統(tǒng) 電子樂器數(shù)字接口(musical instrument digital interface, MIDI)是用于在音樂合成器、電子樂器、音序器和計(jì)算機(jī)之間交換音樂信息的一種標(biāo)準(zhǔn)協(xié)議。 從80年代初問世至今,MIDI經(jīng)歷了長(zhǎng)時(shí)間的發(fā)展,現(xiàn)已成為電腦音樂的代名詞。MIDI文件的特點(diǎn)(1). 指令集合,文件小。(2). 編輯靈活,在音序器的幫助下,用戶可自由地改變音調(diào)、音色以及樂曲速度等,以達(dá)到需要的效果。 (3). 表現(xiàn)力弱,不能與真正的樂器完全相似

13、,音質(zhì)有待提高。(4).MIDI聲音適于重現(xiàn)打擊樂或一些電子樂器的聲音,利用MIDI聲音方式可用計(jì)算機(jī)來進(jìn)行作曲。(5).使用MIDI文件,其聲音卡上必需含有硬件音序器或者配置有軟件音序器。數(shù)字式頻率調(diào)制(數(shù)字式頻率調(diào)制(FM )合成法)合成法由以下五部分組成: 數(shù)字載波器 調(diào)制器數(shù)字運(yùn)算器聲音包絡(luò)發(fā)生器 模數(shù)轉(zhuǎn)換器從理論上講,從理論上講,F(xiàn)M合成方法可以產(chǎn)生任何樂音,但是,這種合成方法可以產(chǎn)生任何樂音,但是,這種“物理課物理課式式”的合成方法合成出來的聲音不夠真實(shí)。的合成方法合成出來的聲音不夠真實(shí)。樂音樣本合成法樂音樣本合成法此法產(chǎn)生的聲音質(zhì)量比FM合成方法產(chǎn)生的聲音質(zhì)量要高。把真實(shí)樂器發(fā)出

14、的聲音以數(shù)字的形式記錄下來,播放時(shí)再加以調(diào)整、修飾和放大,生成各種音階的音符。MIDI系統(tǒng)設(shè)備配置系統(tǒng)設(shè)備配置 MIDI設(shè)備就是處理MIDI信息所需的硬件設(shè)備,其基本組成包括:合成器揚(yáng)聲器MIDI鍵盤MIDI端口音序器(1). MIDI鍵盤MIDI鍵盤是用于MIDI樂曲演奏的,MIDI鍵盤本身并不發(fā)出聲音,當(dāng)作曲人員觸動(dòng)鍵盤上的按鍵時(shí),就發(fā)出按鍵信息,所產(chǎn)生的僅僅是MIDI音樂消息,從而由音序器錄制生成MIDI文件。(2). MIDI端口一臺(tái)MID設(shè)備可以有一至三個(gè)MIDI端口,分別稱為MIDI In、MIDI Out、MIDI Thru。它們的作用是:MIDI In:接收來自其它MIDI設(shè)備

15、的MIDI信息。MIDI Out:發(fā)送本設(shè)備生成的MIDI信息到其它設(shè)備。MIDI Thru:將從MIDI In端口傳來的信息轉(zhuǎn)發(fā)到相連的另一臺(tái)MIDI設(shè)備上。(3). 音序器 用于記錄、編輯、播放MIDI的聲音文件,音序器有以硬件形式提供的,目前大多為軟件音序器。音序器可捕捉MIDI消息,將其存入MIDI文件,MIDI文件擴(kuò)展名為 .MID。音序器還可編輯MIDI文件。(4). 合成器 MIDI文件的播放是通過MIDI合成器,合成器解釋MIDI文件中的指令符號(hào),生成所需要的聲音波形,經(jīng)放大后由揚(yáng)聲器輸出,聲音的效果比較豐富。MIDI合成方式主要有調(diào)頻合成(FM)和樂音樣本合成兩種方式。MID

16、I的通道概念的通道概念單個(gè)物理MIDI通道分為16個(gè)邏輯通道,每個(gè)邏輯通道可指定一種樂器。MIDI鍵盤可設(shè)置在這16個(gè)通道中的任何一個(gè),MIDI合成器可以被設(shè)置在指定的通道上接受。 電子樂器數(shù)字接口(電子樂器數(shù)字接口(MIDI)MIDI實(shí)質(zhì)上是由MIDI控制器產(chǎn)生的指示電子音樂合成器要做什么、怎么做的一套標(biāo)準(zhǔn)指令。MIDI傳送的不是聲音,而是動(dòng)作指令。 各個(gè)MIDI設(shè)備通過專用的串行電纜(MIDI線)連接, 并以 31.25 kbps(每字節(jié)10位) 的速度傳送著數(shù)字音樂信息。MIDIThru Out InMIDI的物理接口標(biāo)準(zhǔn)的物理接口標(biāo)準(zhǔn)MIDI設(shè)備的連接設(shè)備的連接不妨把MIDI理解成一種

17、局域網(wǎng)。不同的聲音模塊可設(shè)置成接收不同通道的曲子。 MIDI軟件產(chǎn)品中文名稱:音效合成工具英文名稱:PROPELLERHEADS.REASON.V3.0.ISO-RiSE2.7 語(yǔ)音處理技術(shù) 語(yǔ)音識(shí)別(Speech Recognition) 文本語(yǔ)音轉(zhuǎn)換(Text To Speech) 語(yǔ)音壓縮編碼(Speech Coding)語(yǔ)音識(shí)別 什么是語(yǔ)音識(shí)別?目的是讓機(jī)器具有人的聽覺功能,在人機(jī)語(yǔ)音通訊中“聽懂”人類口述的語(yǔ)言。 語(yǔ)音識(shí)別要求:識(shí)別字詞句,語(yǔ)義和語(yǔ)境 語(yǔ)音識(shí)別的應(yīng)用:語(yǔ)音輸入、 電話查詢、信息查詢 網(wǎng)上交談、 語(yǔ)音教學(xué)、語(yǔ)音控制數(shù)字音頻信號(hào)的編碼 模擬音頻信號(hào)輸入采樣/量化編碼傳輸/

18、存儲(chǔ)解碼播放音頻信號(hào)壓縮編碼的依據(jù):1)聽覺域值電平的存在;2)聽覺存在屏蔽效應(yīng)。(強(qiáng)聲掩蓋弱聲) 音頻信號(hào)的壓縮編碼方式:1)波形編碼;2)音源(參數(shù))編碼;3)混合編碼三種。話音編譯碼器的分類話音編譯碼器的分類 波形編譯碼器(waveform coder):不利用生成話音的信號(hào)的任何知識(shí),將話音視為一種普通的聲音,直接對(duì)波形信號(hào)進(jìn)行采樣和量化。特點(diǎn):編譯碼器簡(jiǎn)單,話音質(zhì)量高,但數(shù) 據(jù)率也很高;例如:PCM、DM、DPCM、ADPCM等。 音源編譯碼器(Source coder):也叫參數(shù)編譯碼器、聲碼器(vocoder)。它從話音波形信號(hào)中提取生成話音的參數(shù),使用這些參數(shù)通過話音生成模型重

19、構(gòu)出話音。特點(diǎn):算法復(fù)雜,計(jì)算量大,壓縮率高,但還原聲音的質(zhì)量不高。 混合編譯碼器(Hybrid coder):把波形編碼的高質(zhì)量和音頻編碼的低數(shù)據(jù)率結(jié)合在一起,取得了較好效果。三種話音編譯碼器的對(duì)比 1)波形編碼波形編碼的算法簡(jiǎn)單,易于實(shí)現(xiàn),可獲得高質(zhì)量的語(yǔ)音。常見的波形編碼方法為: 脈沖編碼調(diào)制(PCM) 增量調(diào)制(DM) 自適應(yīng)脈沖編碼調(diào)制(APCM) 差分脈沖編碼調(diào)制(DPCM) 自適應(yīng)差分脈沖編碼調(diào)制(ADPCM)脈沖編碼調(diào)制(脈沖編碼調(diào)制(PCM) Pulse Code Modulation, PCM是把模擬信號(hào)變換為數(shù)字信號(hào)的一種調(diào)制方式。PCM的量化方式:均勻量化與非均勻量化均勻量化:采用相等的量化間隔對(duì)采樣得到的信號(hào)作量化,線性量化。非均勻量化:大的輸入信號(hào)采用大的量化間隔,小的輸入信號(hào)采用小的量化間隔,即非線性量化。 非均勻量化是在滿足精度要求的情況下用較少的位數(shù)來表示。增量調(diào)制(增量調(diào)制(DM) Delta Modulation,DM是對(duì)實(shí)際的采樣信號(hào)與預(yù)測(cè)的采樣信號(hào)之差的極性進(jìn)行編碼,將極性變成0或1這兩種可能的取值之一。 斜率過載:在開始階段增量調(diào)制器的輸出不能保持跟蹤輸入信號(hào)的快速變化。在輸入信號(hào)變化快的區(qū)域,斜率過載是關(guān)心的焦點(diǎn)。 粒狀噪聲:在輸入信號(hào)與預(yù)測(cè)信號(hào)的差值接近零的區(qū)域,增量調(diào)制器的輸出出現(xiàn)隨機(jī)交變得0和1。在輸入信號(hào)變化慢的區(qū)域,

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論