多媒體音頻處理技術(shù)_第1頁
多媒體音頻處理技術(shù)_第2頁
多媒體音頻處理技術(shù)_第3頁
多媒體音頻處理技術(shù)_第4頁
多媒體音頻處理技術(shù)_第5頁
已閱讀5頁,還剩51頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

1、Chap2 多媒體音頻處理技術(shù) 聲音信息的處理 聲音的處理:聲音的處理: 壓縮和編碼壓縮和編碼 聲音的表示聲音的表示 與存儲(chǔ)與存儲(chǔ) 聲音的采集:聲音的采集: 波形聲音數(shù)字化波形聲音數(shù)字化 電子樂器(電子樂器(MIDI) 話音(語音識(shí)別)話音(語音識(shí)別) Chap2 多媒體音頻處理技術(shù) 本章內(nèi)容: 2.1 聲音信號(hào)概述 2.2 聲音信號(hào)數(shù)字化 2.3 聲音文件的存儲(chǔ)格式 2.4 聲音處理軟件 2.5 聲音質(zhì)量的度量 2.6 MIDI系統(tǒng) 2.7 語音處理技術(shù) 2.1 聲音信號(hào)概述聲音信號(hào)概述 什么是聲音? 聲音是通過空氣傳播的一種連續(xù)的波。 聲音是攜帶信息的極其重要的媒體,是多媒體技術(shù)研 究中的

2、一個(gè)重要內(nèi)容。 單一頻率的聲波可用一條正弦波表示,如下圖所 示。 振幅 周期 基線 振幅 表示聲音信號(hào)的強(qiáng)弱程度。 頻率 指聲音信號(hào)每秒鐘變化的次數(shù),用Hz表示。 亞音信號(hào)(次聲帶):小于20Hz 音頻信號(hào): 2020K Hz 超聲波信號(hào)(超聲帶) :大于20K Hz 頻率反映出聲音的音調(diào),聲音細(xì)尖表示頻率高, 聲音粗低表示頻率低。 想想按住單放機(jī)的快鍵,會(huì)有什么聲音? 聲音的聽覺特性聲音的聽覺特性 聲音的三要素。 音調(diào) 表示聲音的高低,取決于聲音的頻率。 音色 即特色的聲音,指聲音的感覺特性。 聲音分純音和復(fù)音,復(fù)音包括基音和泛音。 音色由基音與泛音的比例、泛音的分布、泛音隨時(shí) 間的衰減變化

3、決定。 音強(qiáng) 聲音的強(qiáng)度,取決于聲音的振幅。即“音量”。 樂音樂音 以小提琴為例,當(dāng)A弦振動(dòng)時(shí), 基音基音:整根弦的振動(dòng)產(chǎn)生了最主要的頻率; 泛音泛音:弦長的二分之一、三分之一、四分之一等 處的 振動(dòng)則產(chǎn)生了一些次要的頻率。 樂音:樂音:如果一個(gè)物體振動(dòng)所發(fā)出的泛音為基音的整數(shù)倍, 這個(gè)音就會(huì)具有清晰可辨的音調(diào),我們稱之為樂音; 噪音:噪音:如果泛音是基音的非整數(shù)倍,這個(gè)音就不具備清 晰可辨的音調(diào),我們稱之為噪音。 2.2 聲音信號(hào)數(shù)字化 聲音信號(hào)數(shù)字化的過程 模擬 信號(hào) 數(shù)字 信號(hào) 采樣量化編碼 采樣:在某些特定時(shí)刻對(duì)模擬信號(hào)進(jìn)行測量,即使音頻信 號(hào)在時(shí)間軸上離散化。 量化:對(duì)采樣后的離散音

4、頻信號(hào)幅值樣本進(jìn)行離散化處理, 即將每一個(gè)樣本歸入預(yù)先編排的量化級(jí)上。 編碼:對(duì)量化級(jí)以二進(jìn)制數(shù)碼按一定數(shù)據(jù)格式表示的過程。 聲音的采樣和量化聲音的采樣和量化 0101 0100 0011 0010 0001 0000 1001 1010 1011 1100 1101 影響數(shù)字音頻質(zhì)量的技術(shù)參數(shù)影響數(shù)字音頻質(zhì)量的技術(shù)參數(shù) 對(duì)模擬音頻信號(hào)進(jìn)行采樣量化編碼后,得到數(shù)字音頻。數(shù) 字音頻的質(zhì)量取決于采樣頻率、量化位數(shù)和聲道數(shù)三個(gè)因素。 1)采用頻率 指一秒鐘時(shí)間內(nèi)采樣的次數(shù)。 奈奎斯特理論(Nyquist theory):采樣頻率不應(yīng)低于聲音 信號(hào)的最高頻率的兩倍,這樣就能把以數(shù)字表達(dá)的聲音還原成 原

5、來的聲音,叫做無損數(shù)字化。 采樣頻率通常采用三種: 11.025KHz(語音效果)、 22.05KHz(音樂效果)、 44.1KHz(高保真效果)。 常見的CD唱盤的采樣頻率即為44.1KHz。 2)量化精度 描述每個(gè)采樣點(diǎn)樣本值的二進(jìn)制位數(shù)。 例如,8位量化位數(shù)表示量化精度為1/256。 )聲道數(shù) 聲音通道的個(gè)數(shù)稱為聲道數(shù),是指一次采樣所記錄產(chǎn)生 的聲音波形個(gè)數(shù)。 單聲道:記錄聲音時(shí),每次生成一個(gè)聲波數(shù)據(jù); 雙聲道(立體聲):每次生成兩個(gè)聲波數(shù)據(jù)。 隨著聲道數(shù)的增加,所占用的存儲(chǔ)容量也成倍增加。 數(shù)字音頻文件的存儲(chǔ)量數(shù)字音頻文件的存儲(chǔ)量 以字節(jié)為單位,模擬波形聲音被數(shù)字化后音頻 文件的存儲(chǔ)量

6、(假定未經(jīng)壓縮)為: 存儲(chǔ)量=采樣頻率量化位數(shù)/8聲道數(shù)時(shí)間 例如,用44.1KHz的采樣頻率進(jìn)行采樣,量化 位數(shù)選用16位,則錄制1秒的立體聲節(jié)目,其波 形文件所需的存儲(chǔ)量為: 4410016821=176400(字節(jié)) 聲音質(zhì)量和數(shù)據(jù)率聲音質(zhì)量和數(shù)據(jù)率 說明:*電話使用 律編碼,動(dòng)態(tài)范圍為13位,而不是8位。 質(zhì)量 采樣頻率/kHz 樣本精度/b/s 單道聲/立體聲 數(shù)據(jù)率(未壓縮)/kb/s 頻率范圍/Hz 電話* AM FM CD DAT 8 11.025 22.050 44.1 48 8 8 16 16 16 單道聲 單道聲 立體聲 立體聲 立體聲 64.0 88.2 705.6 1

7、411.2 1536.0 2003400 507000 2015000 2020000 2020000 2.3 聲音文件的存儲(chǔ)格式聲音文件的存儲(chǔ)格式 1. WAV 文件 3. MP3 文件 2. MIDI 4. WMA 文件 WAV 文件 波形音頻文件: - 文件的擴(kuò)展名是“.WAV” ; - 它記錄了采樣數(shù)據(jù),可重現(xiàn)各種聲音,但文件很大; - 壓縮方法:主要有PCM和APCM等; - 特點(diǎn):易于生成和編輯,壓縮比不高。 - 還原質(zhì)量: 人的講話聲:8位量化級(jí)、11.025 KHz采樣率 CD音質(zhì): 16位量化級(jí)、44.1 KHz的采樣率 MIDI MIDI文件: - 擴(kuò)展名為“.MID”;

8、- 記錄的不是聲音本身,而是將每個(gè)音符記錄為一個(gè)數(shù)字, - 節(jié)省空間,可以滿足長時(shí)間音樂的需要。 - 主要限制是缺乏重現(xiàn)真實(shí)自然的能力。 采用波表法進(jìn)行音樂合成的聲音卡可以使MIDI 音樂的 質(zhì)量大大提高。 CD Audio,擴(kuò)展名CDA: 唱片采用的格式,音質(zhì)非常好,記錄的是波形流,但 缺點(diǎn)是無法編輯,文件長度太大。 MPEG-3,擴(kuò)展名MP3: 非常流行,因其壓縮率大(10:112:1),在網(wǎng)絡(luò)可 視電話通信方面應(yīng)用廣泛,但和CD唱片相比,音質(zhì)不能 令人非常滿意。 WMA (Windows Media Audio) 文件: 是微軟力推的一種音頻格式。WMA格式壓縮率一般 可以達(dá)到18:1,

9、生成的文件大小只有相應(yīng)MP3文件的一半, 但音質(zhì)不減。 RealAudio文件,擴(kuò)展名RA : RealNetworks公司的“流式播放”聲音文件格式,強(qiáng) 大的壓縮量(可達(dá)96:1)和極小的失真,主要適用于在網(wǎng)絡(luò) 上的在線音樂欣賞。 常見的聲音文件擴(kuò)展名常見的聲音文件擴(kuò)展名 文件的擴(kuò)展名 說明 au Sun和NeXT公司的聲音文件存儲(chǔ)格式 aif(Audio Interchange) Apple計(jì)算機(jī)上的聲音文件存儲(chǔ)格式 cmf(Creative Music Format) 聲霸(SB)卡帶的MIDI文件存儲(chǔ)格式 mct MIDI文件存儲(chǔ)格式 mff(MIDI File Format) MID

10、I文件存儲(chǔ)格式1/2 mid(MIDI) Windows的MIDI文件存儲(chǔ)格式 mp2 MPEG Layer , mp3 MPEG Layer mod(Module) MIDI文件的存儲(chǔ)格式 rm(RealMedia) RealNetworks公司的流放式聲音文件格式 ra(RealAudio) RealNetworks 公司的流放式聲音文件格式 續(xù):常見的聲音文件擴(kuò)展名續(xù):常見的聲音文件擴(kuò)展名 rol Adlib 聲音卡文件存儲(chǔ)格式 snd(sound) Apple 計(jì)算機(jī)上的聲音文件存儲(chǔ)格式 seq MIDI文件存儲(chǔ)格式 sng MIDI文件存儲(chǔ)格式 voc(Creative Voice)

11、 聲霸卡存儲(chǔ)的聲音文件存儲(chǔ)格式 wav(Waveform)* Windows采用的波形聲音文件存儲(chǔ)格式 wrk Cakewalk Pro 軟件采用的MIDI文件存儲(chǔ)格式 說明:*支持PCM,ADPCM, 率和A率波形 2.4 聲音處理軟件聲音處理軟件 聲音處理軟件:即聲音工具,是用來錄放、編輯 和分析聲音文件的。 常見的聲音工具有: 、Window 95/98/ 本身帶的“Sound Recorder” 、買聲卡時(shí)帶的工具 3、網(wǎng)絡(luò)上下載的工具 2.5 聲音質(zhì)量的度量聲音質(zhì)量的度量 評(píng)價(jià)聲音質(zhì)量的主觀方法:平均判分法(MOS),召集 若干實(shí)驗(yàn)者,由他們對(duì)聲音質(zhì)量的好壞進(jìn)行評(píng)分,求出平 均值作為

12、對(duì)聲音質(zhì)量的評(píng)價(jià),所得分?jǐn)?shù)為MOS。 分?jǐn)?shù) 質(zhì)量級(jí)別 失真級(jí)別 5 優(yōu) 無察覺 4 良 (剛)察覺但不討厭 3 中 (察覺)有點(diǎn)討厭 2 差 討厭但不反感 1 劣 極討厭(令人反感) 客觀方法: 信噪比() SNR= 1)SNR大,在一定程度上能夠隱蔽噪聲,從 而獲得較好的聲音效果; 2)在聲音的錄制和播放時(shí),要注意環(huán)境噪聲 的影響。 噪聲的平均功率 有用信號(hào)的平均功率 噪聲的平均功率 有用信號(hào)的平均功率 2.6電子樂器數(shù)字接口(電子樂器數(shù)字接口(MIDI)系統(tǒng))系統(tǒng) 電子樂器數(shù)字接口(musical instrument digital interface, MIDI) 是用于在音樂合成器、

13、電子樂器、音序器 和計(jì)算機(jī)之間交換音樂信息的一種標(biāo)準(zhǔn)協(xié)議。 從80年代初問世至今,MIDI經(jīng)歷了長時(shí)間的發(fā) 展,現(xiàn)已成為電腦音樂的代名詞。 MIDI文件的特點(diǎn) (1). 指令集合,文件小。 (2). 編輯靈活,在音序器的幫助下,用戶可自由地 改變音調(diào)、音色以及樂曲速度等,以達(dá)到需要的 效果。 (3). 表現(xiàn)力弱,不能與真正的樂器完全相似,音質(zhì) 有待提高。 (4).MIDI聲音適于重現(xiàn)打擊樂或一些電子樂器的聲音, 利用MIDI聲音方式可用計(jì)算機(jī)來進(jìn)行作曲。 (5).使用MIDI文件,其聲音卡上必需含有硬件音序器 或者配置有軟件音序器。 數(shù)字式頻率調(diào)制(數(shù)字式頻率調(diào)制(FM )合成法)合成法 由以

14、下五部分組成: 數(shù)字載波器 調(diào)制器 數(shù)字運(yùn)算器 聲音包絡(luò)發(fā)生器 模數(shù)轉(zhuǎn)換器 從理論上講,從理論上講,F(xiàn)M合成方法可以產(chǎn)生任何樂音,但是,這種合成方法可以產(chǎn)生任何樂音,但是,這種“物理課物理課 式式”的合成方法合成出來的聲音不夠真實(shí)。的合成方法合成出來的聲音不夠真實(shí)。 樂音樣本合成法樂音樣本合成法 此法產(chǎn)生的聲音質(zhì)量比FM合成方法產(chǎn)生的聲音質(zhì)量要高。 把真實(shí)樂器發(fā)出的聲音 以數(shù)字的形式記錄下來, 播放時(shí)再加以調(diào)整、修 飾和放大,生成各種音 階的音符。 MIDI系統(tǒng)設(shè)備配置系統(tǒng)設(shè)備配置 MIDI設(shè)備就是處理MIDI信息所需的硬件設(shè)備, 其基本組成包括: 合成器 揚(yáng)聲器 MIDI鍵盤MIDI端口音序

15、器 (1). MIDI鍵盤 MIDI鍵盤是用于MIDI樂曲演奏的,MIDI鍵 盤本身并不發(fā)出聲音,當(dāng)作曲人員觸動(dòng)鍵 盤上的按鍵時(shí),就發(fā)出按鍵信息,所產(chǎn)生 的僅僅是MIDI音樂消息,從而由音序器錄 制生成MIDI文件。 (2). MIDI端口 一臺(tái)MID設(shè)備可以有一至三個(gè)MIDI端口,分別 稱為MIDI In、MIDI Out、MIDI Thru。它們的作用 是: MIDI In:接收來自其它MIDI設(shè)備的MIDI信息。 MIDI Out:發(fā)送本設(shè)備生成的MIDI信息到其 它設(shè)備。 MIDI Thru:將從MIDI In端口傳來的信息轉(zhuǎn)發(fā) 到相連的另一臺(tái)MIDI設(shè)備上。 (3). 音序器 用于記

16、錄、編輯、播放MIDI的聲音文件,音序器有以硬 件形式提供的,目前大多為軟件音序器。音序器可捕捉MIDI 消息,將其存入MIDI文件,MIDI文件擴(kuò)展名為 .MID。音序 器還可編輯MIDI文件。 (4). 合成器 MIDI文件的播放是通過MIDI合成器,合 成器解釋MIDI文件中的指令符號(hào),生成所需 要的聲音波形,經(jīng)放大后由揚(yáng)聲器輸出,聲音 的效果比較豐富。 MIDI合成方式主要有調(diào)頻合成(FM)和樂 音樣本合成兩種方式。 MIDI的通道概念的通道概念 單個(gè)物理MIDI通道分為16個(gè)邏輯通道,每個(gè)邏輯通道 可指定一種樂器。MIDI鍵盤可設(shè)置在這16個(gè)通道中的任何 一個(gè),MIDI合成器可以被設(shè)

17、置在指定的通道上接受。 電子樂器數(shù)字接口(電子樂器數(shù)字接口(MIDI) MIDI實(shí)質(zhì)上是由MIDI控制器產(chǎn)生的指示電 子音樂合成器要做什么、怎么做的一套標(biāo)準(zhǔn)指 令。 MIDI傳送的不是聲音,而是動(dòng)作指令。 各個(gè)MIDI設(shè)備通過專用的串行電纜(MIDI線) 連接, 并以 31.25 kbps(每字節(jié)10位) 的速 度傳送著數(shù)字音樂信息。 MIDI Thru Out In MIDI的物理接口標(biāo)準(zhǔn)的物理接口標(biāo)準(zhǔn) MIDI設(shè)備的連接設(shè)備的連接 不妨把MIDI理解成一種局域網(wǎng)。 不同的聲音模塊可設(shè)置成接收不同通道的曲子。 MIDI軟件產(chǎn)品 中文名稱:音效合成工具 英文名稱:PROPELLERHEADS.

18、REASON.V3.0.ISO-RiSE 2.7 語音處理技術(shù) 語音識(shí)別(Speech Recognition) 文本語音轉(zhuǎn)換(Text To Speech) 語音壓縮編碼(Speech Coding) 語音識(shí)別 什么是語音識(shí)別? 目的是讓機(jī)器具有人的聽覺功能,在 人機(jī)語音通訊中“聽懂”人類口述的語言。 語音識(shí)別要求:識(shí)別字詞句,語義和語境 語音識(shí)別的應(yīng)用: 語音輸入、 電話查詢、信息查詢 網(wǎng)上交談、 語音教學(xué)、語音控制 數(shù)字音頻信號(hào)的編碼 模擬音頻信號(hào)輸入采樣/量化編碼 傳輸/存儲(chǔ)解碼播放 音頻信號(hào)壓縮編碼的依據(jù): 1)聽覺域值電平的存在; 2)聽覺存在屏蔽效應(yīng)。(強(qiáng)聲掩蓋弱聲) 音頻信號(hào)的

19、壓縮編碼方式: 1)波形編碼; 2)音源(參數(shù))編碼; 3)混合編碼三種。 話音編譯碼器的分類話音編譯碼器的分類 波形編譯碼器(waveform coder): 不利用生成話音的信號(hào)的任何知識(shí),將 話音視為一種普通的聲音,直接對(duì)波形信 號(hào)進(jìn)行采樣和量化。 特點(diǎn):編譯碼器簡單,話音質(zhì)量高,但數(shù) 據(jù)率也很高; 例如:PCM、DM、DPCM、ADPCM等。 音源編譯碼器(Source coder): 也叫參數(shù)編譯碼器、聲碼器(vocoder)。它 從話音波形信號(hào)中提取生成話音的參數(shù),使用這 些參數(shù)通過話音生成模型重構(gòu)出話音。 特點(diǎn):算法復(fù)雜,計(jì)算量大,壓縮率高,但還原 聲音的質(zhì)量不高。 混合編譯碼器

20、(Hybrid coder): 把波形編碼的高質(zhì)量和音頻編碼的低數(shù)據(jù)率結(jié) 合在一起,取得了較好效果。 三種話音編譯碼器的對(duì)比 1)波形編碼 波形編碼的算法簡單,易于實(shí)現(xiàn),可獲 得高質(zhì)量的語音。常見的波形編碼方法為: 脈沖編碼調(diào)制(PCM) 增量調(diào)制(DM) 自適應(yīng)脈沖編碼調(diào)制(APCM) 差分脈沖編碼調(diào)制(DPCM) 自適應(yīng)差分脈沖編碼調(diào)制(ADPCM) 脈沖編碼調(diào)制(脈沖編碼調(diào)制(PCM) Pulse Code Modulation, PCM 是把模擬信號(hào)變換為數(shù)字信號(hào)的一種調(diào)制方式。 PCM的量化方式:均勻量化與非均勻量化 均勻量化:采用相等的量化間隔對(duì)采樣得到的信號(hào)作量化,線性量化。 非均勻量化:大的輸入信號(hào)采用大的量化間隔,小的輸入信號(hào)采用小 的量化間隔,即非線性量化。 非均勻量化是在滿足精度要求的情況下用較少的位數(shù)來表示。 增量調(diào)制(增量調(diào)制(DM) Delta Modulation,DM 是對(duì)實(shí)際的采樣信號(hào)與預(yù)測的采樣信號(hào)之差的極性進(jìn)行 編碼,將極性變成0或1這兩種可能的取值之一。 斜率過載:在開始階段增量調(diào)制器的輸出不能 保持跟蹤輸入信號(hào)的快速變化。 在輸入信號(hào)變化快的區(qū)域,斜率過載是關(guān)心的 焦點(diǎn)。 粒狀噪聲:在輸入信號(hào)與預(yù)測信號(hào)的差值接近 零的區(qū)域,增量調(diào)制器的輸出出現(xiàn)隨機(jī)交變得0和 1。 在輸入信號(hào)

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論