第二章-音頻信息的獲取與處理課件_第1頁(yè)
第二章-音頻信息的獲取與處理課件_第2頁(yè)
第二章-音頻信息的獲取與處理課件_第3頁(yè)
第二章-音頻信息的獲取與處理課件_第4頁(yè)
第二章-音頻信息的獲取與處理課件_第5頁(yè)
已閱讀5頁(yè),還剩201頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

第二章

音頻信息的獲取與處理§21多媒體技術(shù)基礎(chǔ)及應(yīng)用第二章

音頻信息的獲取與處理§21多媒體技術(shù)基礎(chǔ)及應(yīng)用本章學(xué)習(xí)要點(diǎn)音頻信號(hào)的特點(diǎn);模擬音頻與數(shù)字音頻;音頻采樣與量化以及數(shù)字音頻文件格式。音頻卡的功能、分類及其基本工作原理。音頻編碼基本原理及標(biāo)準(zhǔn)。音樂(lè)合成及MIDI規(guī)范。語(yǔ)音識(shí)別與合成原理及分類。§22多媒體技術(shù)基礎(chǔ)及應(yīng)用本章學(xué)習(xí)要點(diǎn)音頻信號(hào)的特點(diǎn);模擬音頻與數(shù)字音頻;音頻采樣與量學(xué)習(xí)要求熟練掌握:音頻卡的工作原理及應(yīng)用開發(fā)。掌握:音頻編碼基礎(chǔ)及標(biāo)準(zhǔn);音樂(lè)合成及MIDI。了解:本章其他內(nèi)容?!?3多媒體技術(shù)基礎(chǔ)及應(yīng)用學(xué)習(xí)要求熟練掌握:音頻卡的工作原理及應(yīng)用開發(fā)?!?3多媒體技2.1數(shù)字音頻基礎(chǔ)§24多媒體技術(shù)基礎(chǔ)及應(yīng)用2.1數(shù)字音頻基礎(chǔ)§24多媒體技術(shù)基礎(chǔ)及應(yīng)用

聲音是一種由機(jī)械振動(dòng)引起并在彈性介質(zhì)中傳播的連續(xù)的波。聲音的強(qiáng)弱體現(xiàn)在聲波壓力的大小上。聲音的高低體現(xiàn)在聲波的頻率上??蓪⒙暡ㄞD(zhuǎn)換為電信號(hào)。代表聲波的電信號(hào)在時(shí)間和幅度上都是連續(xù)的,即模擬信號(hào)。聲音的產(chǎn)生§2.1數(shù)字音頻基礎(chǔ)5多媒體技術(shù)基礎(chǔ)及應(yīng)用聲音是一種由機(jī)械振動(dòng)引起并在彈性介質(zhì)中聲音信號(hào)a聲音信號(hào)由許多不同頻率的信號(hào)組成,稱為復(fù)合信號(hào)。單一頻率的信號(hào)稱為分量信號(hào)。帶寬是聲音信號(hào)的一個(gè)重要參數(shù),它描述復(fù)合信號(hào)的頻率范圍?!?.1數(shù)字音頻基礎(chǔ)6多媒體技術(shù)基礎(chǔ)及應(yīng)用聲音信號(hào)a聲音信號(hào)由許多不同頻率的信號(hào)組成,稱為復(fù)合信號(hào)?!炻曇粜盘?hào)b人耳的聽覺范圍是20Hz~20KHz,稱為音頻(Audio)信號(hào)。人說(shuō)話的頻率范圍是300~3000Hz,稱為話音(speech)信號(hào)?!?.1數(shù)字音頻基礎(chǔ)7多媒體技術(shù)基礎(chǔ)及應(yīng)用聲音信號(hào)b人耳的聽覺范圍是20Hz~20KHz,稱為音頻(A聲音的聽覺特性——

聲音三要素聲音三要素即音調(diào)音強(qiáng)音色音色是由混入基音中的泛音所決定的?!?.1數(shù)字音頻基礎(chǔ)8多媒體技術(shù)基礎(chǔ)及應(yīng)用聲音的聽覺特性——

聲音三要素聲音三要素即§2.1數(shù)字音

聲音是一種彈性波,可分為周期性和非周期性信號(hào)。周期信號(hào)是單一頻率的信號(hào),是線性譜。非周期信號(hào)包含一定連續(xù)頻帶的所有頻率分量,是連續(xù)譜。完全的連續(xù)譜(如平滑噪聲)完全無(wú)調(diào)。自然界的聲音大多是線性譜中混有一段段較弱的連續(xù)譜,聽來(lái)既有調(diào)又飽滿、生動(dòng)。聲音的聽覺特性——

聲音中的連續(xù)譜§2.1數(shù)字音頻基礎(chǔ)9多媒體技術(shù)基礎(chǔ)及應(yīng)用聲音是一種彈性波,可分為周期性和非周期聲音的聽覺特性——

聲音的方向性

人能分辨出聲音到達(dá)左右兩耳的時(shí)差和強(qiáng)度差異,即能辨別聲源方向。由于聲波在空間來(lái)回反射,能產(chǎn)生空間效果?!?.1數(shù)字音頻基礎(chǔ)10多媒體技術(shù)基礎(chǔ)及應(yīng)用聲音的聽覺特性——

聲音的方向性人能分聲音的聽覺特性——

聲音是時(shí)基類媒體聲音是時(shí)間連續(xù)的,人耳能感覺到25毫秒的延遲。沒有時(shí)間就無(wú)法表現(xiàn)聲音。聲音是連續(xù)型時(shí)基媒體?!?.1數(shù)字音頻基礎(chǔ)11多媒體技術(shù)基礎(chǔ)及應(yīng)用聲音的聽覺特性——

聲音是時(shí)基類媒體聲音是時(shí)間連續(xù)的,人耳能聲音的質(zhì)量評(píng)判聲音的質(zhì)量與其頻率范圍(即頻帶)有關(guān)。一般,頻帶越寬,音質(zhì)越好。對(duì)語(yǔ)音常用可懂度、清晰度和自然度衡量。對(duì)音樂(lè),保真度、空間感和音響效果是重要指標(biāo)。平均主觀打分(MOS)是最簡(jiǎn)單的評(píng)判法?!?.1數(shù)字音頻基礎(chǔ)12多媒體技術(shù)基礎(chǔ)及應(yīng)用聲音的質(zhì)量評(píng)判聲音的質(zhì)量與其頻率范圍(即頻帶)有關(guān)。一般,頻模擬聲音的錄制與播放模擬聲音信號(hào)的錄制一般是先將聲波信號(hào)通過(guò)機(jī)電轉(zhuǎn)換獲得電信號(hào),之后再通過(guò)電磁轉(zhuǎn)換等方式記錄到適當(dāng)?shù)慕橘|(zhì)上。模擬聲音的播放即使把記錄在介質(zhì)上的信號(hào)通過(guò)電磁轉(zhuǎn)換、機(jī)電轉(zhuǎn)換等手段還原為聲音信號(hào)?!?.1數(shù)字音頻基礎(chǔ)13多媒體技術(shù)基礎(chǔ)及應(yīng)用模擬聲音的錄制與播放模擬聲音信號(hào)的錄制一般是先將聲波信號(hào)通過(guò)模擬信號(hào)的數(shù)字化在某個(gè)特定時(shí)刻對(duì)模擬信號(hào)進(jìn)行測(cè)量稱為采樣。采樣獲得的信號(hào)稱為離散時(shí)間信號(hào)。對(duì)幅值連續(xù)的采樣信號(hào)限定取值范圍,可以獲得由有限個(gè)幅值組成的信號(hào),稱其為離散幅度信號(hào)。采樣值在某個(gè)數(shù)值附近的一定范圍內(nèi)都用這個(gè)值表示,這種處理稱為量化?!?.1數(shù)字音頻基礎(chǔ)14多媒體技術(shù)基礎(chǔ)及應(yīng)用模擬信號(hào)的數(shù)字化在某個(gè)特定時(shí)刻對(duì)模擬信號(hào)進(jìn)行測(cè)量稱為采樣。§細(xì)看采樣和量化均勻采樣:每?jī)纱尾蓸又g的間隔時(shí)間相等。否則為非均勻采樣。采樣的時(shí)間間隔稱為采樣周期。每秒鐘采樣的次數(shù)稱為采樣頻率。線性量化:量化的幅度間隔均等。否則為非線性量化?!?.1數(shù)字音頻基礎(chǔ)15多媒體技術(shù)基礎(chǔ)及應(yīng)用細(xì)看采樣和量化均勻采樣:每?jī)纱尾蓸又g的間隔時(shí)間相等。否則為數(shù)字化音頻a在計(jì)算機(jī)內(nèi)聲音信息同其他信息一樣也用一系列二進(jìn)制數(shù)字表示,稱其為數(shù)字音頻。數(shù)字音頻是對(duì)模擬聲音信號(hào)進(jìn)行采樣和量化得到的。§2.1數(shù)字音頻基礎(chǔ)16多媒體技術(shù)基礎(chǔ)及應(yīng)用數(shù)字化音頻a在計(jì)算機(jī)內(nèi)聲音信息同其他信息一樣也用一系列二進(jìn)制數(shù)字化音頻b采樣和量化的主要硬件是模數(shù)轉(zhuǎn)換器(ADC)。數(shù)字音頻的回放需先進(jìn)行數(shù)模轉(zhuǎn)換(DAC)得到模擬電信號(hào),然后再放大輸出?!?.1數(shù)字音頻基礎(chǔ)17多媒體技術(shù)基礎(chǔ)及應(yīng)用數(shù)字化音頻b采樣和量化的主要硬件是模數(shù)轉(zhuǎn)換器(ADC)?!?采樣定理a

采樣頻率的高低應(yīng)根據(jù)奈奎斯特理論和聲音信號(hào)本身的最高頻率決定。奈氏理論指出:如果采樣頻率不低于信號(hào)最高頻率的兩倍,則由此獲得的離散信號(hào)能夠完全確定被采樣的連續(xù)信號(hào)。§2.1數(shù)字音頻基礎(chǔ)18多媒體技術(shù)基礎(chǔ)及應(yīng)用采樣定理a采樣頻率的高低應(yīng)根據(jù)奈奎斯特理論采樣定理b設(shè)被采樣信號(hào)的最高頻率為f,則

§2.1數(shù)字音頻基礎(chǔ)19多媒體技術(shù)基礎(chǔ)及應(yīng)用采樣定理b設(shè)被采樣信號(hào)的最高頻率為f,則§2量化精度和量化誤差a

若量化后的值用B位二進(jìn)制碼表示。B位二進(jìn)制碼可以表示2B個(gè)不同的量化電平。顯然,位數(shù)越多表示的精度就越高?!?.1數(shù)字音頻基礎(chǔ)20多媒體技術(shù)基礎(chǔ)及應(yīng)用量化精度和量化誤差a若量化后的值用B位二進(jìn)量化精度和量化誤差b存儲(chǔ)數(shù)字音頻信號(hào)的比特率為:設(shè)量化階距(兩個(gè)量化值的幅度差)為△則量化誤差為:§2.1數(shù)字音頻基礎(chǔ)21多媒體技術(shù)基礎(chǔ)及應(yīng)用量化精度和量化誤差b存儲(chǔ)數(shù)字音頻信號(hào)的比特率為:§2.1數(shù)字音頻文件存儲(chǔ)量計(jì)算字節(jié)數(shù)=采樣頻率(Hz)*量化位數(shù)*聲道數(shù)*錄音時(shí)間(s)/8§2.1數(shù)字音頻基礎(chǔ)22多媒體技術(shù)基礎(chǔ)及應(yīng)用數(shù)字音頻文件存儲(chǔ)量計(jì)算字節(jié)數(shù)=采樣頻率(Hz)*量化位數(shù)*聲數(shù)字音頻的文件格式多媒體技術(shù)中常見音頻文件:Wav文件:Microsoft的音頻文件格式。對(duì)聲音波形采樣、量化后進(jìn)行存儲(chǔ),故稱波形文件。Voc文件:是creative公司的波形文件格式。Mid(midi)文件:是遵循樂(lè)器數(shù)字接口(midi)規(guī)范,產(chǎn)生數(shù)字樂(lè)音的文件?!?.1數(shù)字音頻基礎(chǔ)23多媒體技術(shù)基礎(chǔ)及應(yīng)用數(shù)字音頻的文件格式多媒體技術(shù)中常見音頻文件:§2.12.2音頻卡的工作原理主要完成模數(shù)轉(zhuǎn)換、音頻信號(hào)壓縮及解壓縮、數(shù)模轉(zhuǎn)換、音頻接口以及與微機(jī)接口五大功能§2.2音頻卡的工作原理24多媒體技術(shù)基礎(chǔ)及應(yīng)用2.2音頻卡的工作原理主要完成模數(shù)轉(zhuǎn)換、音頻信號(hào)壓縮及解音頻卡的功能---

錄制與播放a音頻錄放數(shù)字化采樣頻率范圍:8~44.1kHz量化位數(shù):8位/16位通道數(shù):?jiǎn)温暤?立體聲自動(dòng)動(dòng)態(tài)濾波§2.2音頻卡的工作原理25多媒體技術(shù)基礎(chǔ)及應(yīng)用音頻卡的功能---

錄制與播放a音頻錄放§2.2音頻卡的工音頻卡的功能---

錄制與播放b編碼與壓縮基本編碼方法:PCM壓縮編碼方法:ADPCM實(shí)時(shí)硬件/軟件壓縮錄音聲源:mic,line-in,CD§2.2音頻卡的工作原理26多媒體技術(shù)基礎(chǔ)及應(yīng)用音頻卡的功能---

錄制與播放b編碼與壓縮§2.2音頻卡的音頻卡的功能---

編輯與合成應(yīng)用工具軟件對(duì)數(shù)字音頻進(jìn)行編輯以及實(shí)現(xiàn)特殊效果處理,如:倒播、增加回音、靜噪、淡入和淡出、往返播放、聲道交換?!?.2音頻卡的工作原理27多媒體技術(shù)基礎(chǔ)及應(yīng)用音頻卡的功能---

編輯與合成應(yīng)用工具軟件對(duì)數(shù)字音頻音頻卡的功能---

MIDI音樂(lè)合成利用軟件通過(guò)音頻卡的MIDI接口對(duì)電子樂(lè)器進(jìn)行操作控制,產(chǎn)生聲音。音樂(lè)合成的性能依賴于音頻卡上合成芯片的性能。合成方式:調(diào)頻方式(FM)波形表方式§2.2音頻卡的工作原理28多媒體技術(shù)基礎(chǔ)及應(yīng)用音頻卡的功能---

MIDI音樂(lè)合成利用軟件通過(guò)音頻卡的音頻卡的功能---

文語(yǔ)轉(zhuǎn)換和語(yǔ)音識(shí)別文語(yǔ)轉(zhuǎn)換(texttospeech)是利用聲卡提供的軟件將機(jī)內(nèi)文本轉(zhuǎn)換為聲音輸出。語(yǔ)音識(shí)別使用者通過(guò)軟件利用聲音控制計(jì)算機(jī)或執(zhí)行一些命令。§2.2音頻卡的工作原理29多媒體技術(shù)基礎(chǔ)及應(yīng)用音頻卡的功能---

文語(yǔ)轉(zhuǎn)換和語(yǔ)音識(shí)別文語(yǔ)轉(zhuǎn)換(textt音頻卡的工作原理—

混合信號(hào)處理器

內(nèi)置數(shù)字/模擬混合器。完成對(duì)聲音信號(hào)的混合處理;輸入聲源:MIDI信號(hào)、CD音頻、線路輸入、麥克風(fēng)輸入等;可以選擇一個(gè)或多個(gè)聲源進(jìn)行混合。§2.2音頻卡的工作原理30多媒體技術(shù)基礎(chǔ)及應(yīng)用音頻卡的工作原理—

混合信號(hào)處理器內(nèi)置數(shù)字/模擬混合器。完音頻卡的工作原理—

功率放大器

用于對(duì)混合信號(hào)進(jìn)行放大使之達(dá)到足夠的功率去推動(dòng)揚(yáng)聲器發(fā)聲?!?.2音頻卡的工作原理31多媒體技術(shù)基礎(chǔ)及應(yīng)用音頻卡的工作原理—

功率放大器用于對(duì)混合信號(hào)進(jìn)行放大使之達(dá)音頻卡的工作原理—

總線和控制器a總線接口類型:早期是ISA,現(xiàn)在幾乎都是PCI。組成:數(shù)據(jù)總線雙向驅(qū)動(dòng)器、總線接口控制邏輯、總線中斷邏輯和DMA控制邏輯?!?.2音頻卡的工作原理32多媒體技術(shù)基礎(chǔ)及應(yīng)用音頻卡的工作原理—

總線和控制器a總線接口類型:早期是IS音頻卡的工作原理—

總線和控制器b可以通過(guò)軟件或硬跳線設(shè)定基本I/O地址、中斷向量(IRQ)和直接存儲(chǔ)器存取(DMA)通道號(hào)這三個(gè)參數(shù),以避免與其他設(shè)備發(fā)生沖突?!?.2音頻卡的工作原理33多媒體技術(shù)基礎(chǔ)及應(yīng)用音頻卡的工作原理—

總線和控制器b可以通過(guò)軟件或硬跳線設(shè)定音頻卡的工作原理—

音頻卡的安裝a

自動(dòng)安裝:現(xiàn)在的音頻卡產(chǎn)品一般都是即插即用的。安裝連接好之后,開啟電源,WIN9X會(huì)提示找到新硬件,照屏幕提示一步步操作,即可完成軟件安裝,之后重啟系統(tǒng)就能使用了?!?.2音頻卡的工作原理34多媒體技術(shù)基礎(chǔ)及應(yīng)用音頻卡的工作原理—

音頻卡的安裝a自動(dòng)安裝:現(xiàn)在的音頻卡音頻卡的工作原理—

音頻卡的安裝b

手動(dòng)安裝:開始->設(shè)置->控制面板->添加新硬件驅(qū)動(dòng)程序的安裝需要WINDOWS系統(tǒng)盤?!?.2音頻卡的工作原理35多媒體技術(shù)基礎(chǔ)及應(yīng)用音頻卡的工作原理—

音頻卡的安裝b手動(dòng)安裝:開始->設(shè)置-聲音工具請(qǐng)參閱《輔導(dǎo)與實(shí)驗(yàn)》之“實(shí)驗(yàn)一音頻信號(hào)的獲取與處理”§2.2音頻卡的工作原理36多媒體技術(shù)基礎(chǔ)及應(yīng)用聲音工具請(qǐng)參閱《輔導(dǎo)與實(shí)驗(yàn)》之“實(shí)驗(yàn)一音頻信號(hào)的獲取與處理2.3音頻編碼基礎(chǔ)和標(biāo)準(zhǔn)本節(jié)內(nèi)容:學(xué)習(xí)音頻編碼的基本知識(shí)學(xué)習(xí)音頻編碼的相關(guān)標(biāo)準(zhǔn)§2.3音頻編碼基礎(chǔ)和標(biāo)準(zhǔn)37多媒體技術(shù)基礎(chǔ)及應(yīng)用2.3音頻編碼基礎(chǔ)和標(biāo)準(zhǔn)本節(jié)內(nèi)容:§2.3音頻編碼音頻編碼的目的音頻編碼的主要目的就是壓縮數(shù)據(jù),以節(jié)約存儲(chǔ)空間和提高通信傳輸量。數(shù)據(jù)壓縮通常會(huì)降低音頻質(zhì)量。數(shù)據(jù)壓縮還會(huì)增大計(jì)算量。因此,音頻壓縮時(shí)要綜合考慮數(shù)據(jù)量、聲音質(zhì)量和計(jì)算的復(fù)雜度?!?.3音頻編碼基礎(chǔ)和標(biāo)準(zhǔn)38多媒體技術(shù)基礎(chǔ)及應(yīng)用音頻編碼的目的音頻編碼的主要目的就是壓縮數(shù)據(jù),以節(jié)約存儲(chǔ)空間壓縮編碼的可能性只有當(dāng)信源本身具有冗余度時(shí)才能對(duì)其進(jìn)行壓縮。統(tǒng)計(jì)分析表明,語(yǔ)音信號(hào)中存在多種冗余度:時(shí)域信息冗余和頻域信息冗余根據(jù)人的聽覺機(jī)理,語(yǔ)音也是可以壓縮的?!?.3音頻編碼基礎(chǔ)和標(biāo)準(zhǔn)39多媒體技術(shù)基礎(chǔ)及應(yīng)用壓縮編碼的可能性只有當(dāng)信源本身具有冗余度時(shí)才能對(duì)其進(jìn)行壓縮。時(shí)域信息冗余1.幅度的非均勻分布1.幅度的非均勻分布統(tǒng)計(jì)表明,語(yǔ)音中的小幅度樣本出現(xiàn)概率要高一些。又,通話中存在間歇,必然出現(xiàn)大量的低電平;此外,實(shí)際的講話信號(hào)器功率電平也趨向于出現(xiàn)在編碼范圍的較低電平端?!?.3音頻編碼基礎(chǔ)和標(biāo)準(zhǔn)40多媒體技術(shù)基礎(chǔ)及應(yīng)用時(shí)域信息冗余1.幅度的非均勻分布1.幅度的非均勻分布統(tǒng)計(jì)時(shí)域信息冗余2.樣本間的相關(guān)2.樣本間的相關(guān)對(duì)于音信號(hào)的分析表明,取樣數(shù)據(jù)的最大相關(guān)存在于臨近樣本之間。當(dāng)采樣率為8KHz是相鄰樣本間相關(guān)系數(shù)大于0.85。如果采樣率提高,樣本見的相關(guān)性將會(huì)更高?!?.3音頻編碼基礎(chǔ)和標(biāo)準(zhǔn)41多媒體技術(shù)基礎(chǔ)及應(yīng)用時(shí)域信息冗余2.樣本間的相關(guān)2.樣本間的相關(guān)對(duì)于音信號(hào)的時(shí)域信息冗余3.周期之間的相關(guān)3.周期之間的相關(guān)話音帶寬為300~3400Hz,但在某特定瞬間,一個(gè)聲音信號(hào)卻往往只是該頻帶內(nèi)的少數(shù)幾個(gè)頻率成分在起作用。當(dāng)聲音中只有少數(shù)幾個(gè)頻率時(shí),就會(huì)象某些振蕩波形一樣,在周期和周期之間存在一定的相關(guān)性。§2.3音頻編碼基礎(chǔ)和標(biāo)準(zhǔn)42多媒體技術(shù)基礎(chǔ)及應(yīng)用時(shí)域信息冗余3.周期之間的相關(guān)3.周期之間的相關(guān)話音帶寬時(shí)域信息冗余4.基音之間的相關(guān)4.基音之間的相關(guān)人的說(shuō)話聲音可分為清音和濁音兩類。濁音波形不僅表現(xiàn)出周期相關(guān)性,而且還具有對(duì)應(yīng)于音調(diào)間隔的長(zhǎng)期重復(fù)波形。因此,對(duì)音濁音部分的編碼最有效的方法之一就是只對(duì)一個(gè)音調(diào)間隔的波形進(jìn)行編碼,并把它作為同樣本中其它基音段的模板?!?.3音頻編碼基礎(chǔ)和標(biāo)準(zhǔn)43多媒體技術(shù)基礎(chǔ)及應(yīng)用時(shí)域信息冗余4.基音之間的相關(guān)4.基音之間的相關(guān)人的說(shuō)話時(shí)域信息冗余5.靜止系數(shù)5.靜止系數(shù)靜止系數(shù):兩人在通話時(shí),平均每人的講話時(shí)間占總通話時(shí)間的一半,且存在字詞句之間的停頓。分析表明:話音間歇使得全雙工話路的典型效率約為通話時(shí)間的40%。顯然話音間歇(波形靜止段)本身就是一種冗余?!?.3音頻編碼基礎(chǔ)和標(biāo)準(zhǔn)44多媒體技術(shù)基礎(chǔ)及應(yīng)用時(shí)域信息冗余5.靜止系數(shù)5.靜止系數(shù)靜止系數(shù):兩人在通話時(shí)域信息冗余6.長(zhǎng)時(shí)自相關(guān)6.長(zhǎng)時(shí)自相關(guān)上述相關(guān)性都是在短時(shí)(20ms)間隔內(nèi)作出的統(tǒng)計(jì)分析。如果在較長(zhǎng)時(shí)間內(nèi)進(jìn)行統(tǒng)計(jì)就可以得到長(zhǎng)時(shí)自相關(guān)函數(shù)。長(zhǎng)時(shí)間統(tǒng)計(jì)表明,如采樣頻率為8kHz,則話音相鄰樣本間的相關(guān)系數(shù)高達(dá)0.9?!?.3音頻編碼基礎(chǔ)和標(biāo)準(zhǔn)45多媒體技術(shù)基礎(chǔ)及應(yīng)用時(shí)域信息冗余6.長(zhǎng)時(shí)自相關(guān)6.長(zhǎng)時(shí)自相關(guān)上述相關(guān)性都是在短時(shí)頻域信息冗余非均勻的長(zhǎng)時(shí)功率譜密度

呈現(xiàn)強(qiáng)烈的非平坦性;高頻能量較低;直流分量并非最大。語(yǔ)音特有的短時(shí)功率譜密度

存在共振峰頻率,其第一、第二個(gè)共振頻率決定了語(yǔ)音特征;整個(gè)譜密度隨頻率的增加而遞減;整個(gè)功率譜的細(xì)節(jié)以基音的頻率為基礎(chǔ),形成高次諧波結(jié)構(gòu)?!?.3音頻編碼基礎(chǔ)和標(biāo)準(zhǔn)46多媒體技術(shù)基礎(chǔ)及應(yīng)用頻域信息冗余非均勻的長(zhǎng)時(shí)功率譜密度§2.3音頻編碼基礎(chǔ)和標(biāo)人的聽覺感知機(jī)理人的聽覺具有掩蔽效應(yīng)強(qiáng)音能掩蔽弱音,分同時(shí)掩蔽和異時(shí)掩蔽。人耳對(duì)不同頻段聲音的敏感度不同對(duì)低頻聲的敏感度高于對(duì)高頻聲的敏感度。人耳對(duì)語(yǔ)音信號(hào)的相位變化不敏感§2.3音頻編碼基礎(chǔ)和標(biāo)準(zhǔn)47多媒體技術(shù)基礎(chǔ)及應(yīng)用人的聽覺感知機(jī)理人的聽覺具有掩蔽效應(yīng)§2.3音頻編碼基礎(chǔ)和音頻編碼的分類波形編碼音源編碼基于人的聽覺特性進(jìn)行編碼利用人耳掩蔽效應(yīng),設(shè)計(jì)心理聲學(xué)模型實(shí)現(xiàn)高效音頻壓縮。(圖3.5)基于音頻數(shù)據(jù)的統(tǒng)計(jì)特性,目標(biāo)是使生成的波形盡可能與原始波形保持一致;音質(zhì)高,數(shù)據(jù)率也很高;編譯碼器的復(fù)雜程度較低。它企圖從聲音波形中提出生成聲音的聲學(xué)參數(shù),利用生成模型重構(gòu)出聲音;數(shù)據(jù)率低(2.4kb/s左右),自然度差,保密性好?!?.3音頻編碼基礎(chǔ)和標(biāo)準(zhǔn)48多媒體技術(shù)基礎(chǔ)及應(yīng)用音頻編碼的分類波形編碼利用人耳掩蔽效應(yīng),設(shè)計(jì)心理聲學(xué)模型實(shí)現(xiàn)脈沖編碼調(diào)制(PCM)脈沖編碼調(diào)制概念上最簡(jiǎn)單、理論上最完善,最早研制成功、使用最廣,但數(shù)據(jù)量也最大。PCM的原理框圖如圖所示。PCM的概念§2.3音頻編碼基礎(chǔ)和標(biāo)準(zhǔn)49多媒體技術(shù)基礎(chǔ)及應(yīng)用脈沖編碼調(diào)制(PCM)脈沖編碼調(diào)制概念上最簡(jiǎn)單、理論上最完善脈沖編碼調(diào)制(PCM)—

均勻量化和非均勻量化均勻量化、非均勻量化和量化誤差非線性量化的基本思想在非線性量化中,采樣輸入信號(hào)幅度和量化輸出數(shù)據(jù)之間定義了兩種對(duì)應(yīng)關(guān)系,這是基于對(duì)語(yǔ)音信號(hào)的統(tǒng)計(jì)分析后由CCITT建議的:m律壓擴(kuò)算法和A律壓擴(kuò)算法§2.3音頻編碼基礎(chǔ)和標(biāo)準(zhǔn)50多媒體技術(shù)基礎(chǔ)及應(yīng)用脈沖編碼調(diào)制(PCM)—

均勻量化和非均勻量化均勻量化、非音頻編碼標(biāo)準(zhǔn)G.711公布于1972年的話音編碼標(biāo)準(zhǔn)。采樣率8kHz;將采樣樣本精度為13、14或16位的輸入信號(hào),使用m律壓擴(kuò)編碼或者使用A律壓擴(kuò)編碼;經(jīng)過(guò)PCM編碼器之后每個(gè)樣本的精度為8位,輸出的數(shù)據(jù)率為64kb/s?!?.3音頻編碼基礎(chǔ)和標(biāo)準(zhǔn)51多媒體技術(shù)基礎(chǔ)及應(yīng)用音頻編碼標(biāo)準(zhǔn)G.711公布于1972年的話音編碼標(biāo)準(zhǔn)。§2自適應(yīng)脈碼調(diào)制概念A(yù)PCM是根據(jù)輸入信號(hào)幅度大小來(lái)改變量化階大小的一種波形編碼技術(shù)。自適應(yīng)可以是:瞬時(shí)自適應(yīng)音節(jié)自適應(yīng)§2.3音頻編碼基礎(chǔ)和標(biāo)準(zhǔn)52多媒體技術(shù)基礎(chǔ)及應(yīng)用自適應(yīng)脈碼調(diào)制概念A(yù)PCM是根據(jù)輸入信號(hào)幅度大小來(lái)改變量化階APCM的量化階改變量化階大小的方法有兩種:前向自適應(yīng)根據(jù)未量化的樣本值的均方根值來(lái)估算輸入信號(hào)的電平,以此來(lái)確定量化階的大小,并對(duì)其電平進(jìn)行編碼作為邊信息(sideinformation)傳送到接收端。后向自適應(yīng)§2.3音頻編碼基礎(chǔ)和標(biāo)準(zhǔn)53多媒體技術(shù)基礎(chǔ)及應(yīng)用APCM的量化階改變量化階大小的方法有兩種:§2.3音頻編APCM的量化階改變量化階大小的方法有兩種:前向自適應(yīng)根據(jù)未量化的樣本值的均方根值來(lái)估算輸入信號(hào)的電平,以此來(lái)確定量化階的大小,并對(duì)其電平進(jìn)行編碼作為邊信息(sideinformation)傳送到接收端。后向自適應(yīng)§2.3音頻編碼基礎(chǔ)和標(biāo)準(zhǔn)54多媒體技術(shù)基礎(chǔ)及應(yīng)用APCM的量化階改變量化階大小的方法有兩種:§2.3音頻編差分脈碼調(diào)制(DPCM)DPCM的思想:根據(jù)過(guò)去的樣本去估算下一個(gè)樣本信號(hào)的幅度大小(稱為預(yù)測(cè)值),然后對(duì)實(shí)際信號(hào)值與預(yù)測(cè)值之差進(jìn)行量化編碼,從而就減少了表示每個(gè)樣本信號(hào)的位數(shù)。DPCM原理示意圖§2.3音頻編碼基礎(chǔ)和標(biāo)準(zhǔn)55多媒體技術(shù)基礎(chǔ)及應(yīng)用差分脈碼調(diào)制(DPCM)DPCM的思想:根據(jù)過(guò)去的樣本去估自適應(yīng)差分脈碼調(diào)制ADPCM的核心思想:自適應(yīng)量化:利用自適應(yīng)的思想改變量化階的大??;自適應(yīng)預(yù)測(cè):使用過(guò)去的樣本值估算下一個(gè)輸入樣本的預(yù)測(cè)值,使實(shí)際樣本值和預(yù)測(cè)值之間的差值總是最小。ADPCM框圖。§2.3音頻編碼基礎(chǔ)和標(biāo)準(zhǔn)56多媒體技術(shù)基礎(chǔ)及應(yīng)用自適應(yīng)差分脈碼調(diào)制ADPCM的核心思想:§2.3音頻編碼基G.721ADPCM編譯碼器CCITT制定的G.721推薦標(biāo)準(zhǔn)叫做32kb/s自適應(yīng)差分脈沖編碼調(diào)制。在此基礎(chǔ)上還制定了G.721的擴(kuò)充推薦標(biāo)準(zhǔn)G.723,使用該標(biāo)準(zhǔn)的編碼器其數(shù)據(jù)率可降低到40kb/s和24kb/s?!?.3音頻編碼基礎(chǔ)和標(biāo)準(zhǔn)57多媒體技術(shù)基礎(chǔ)及應(yīng)用G.721ADPCM編譯碼器CCITT制定的G.721G.721ADPCM編譯碼器CCITT推薦的G.721ADPCM標(biāo)準(zhǔn)是一個(gè)代碼轉(zhuǎn)換系統(tǒng)。它使用ADPCM轉(zhuǎn)換技術(shù),實(shí)現(xiàn)64kb/sA律或μ律PCM速率和32kb/s速率之間的相互轉(zhuǎn)換。

ADPCM編碼器框圖ADPCM解碼器框圖§2.3音頻編碼基礎(chǔ)和標(biāo)準(zhǔn)58多媒體技術(shù)基礎(chǔ)及應(yīng)用G.721ADPCM編譯碼器CCITT推薦的G.721G.721ADPCM編譯碼器G.721ADPCM編譯碼器的輸入是G.711PCM代碼(8位),其采樣率8kHz,數(shù)據(jù)率是64kb/s。G.721的輸出是:4位差分信號(hào),采樣率仍然是8kHz,數(shù)據(jù)率32kb/s。數(shù)據(jù)率從64kb/s變換為32kb/s,壓縮率2:1?!?.3音頻編碼基礎(chǔ)和標(biāo)準(zhǔn)59多媒體技術(shù)基礎(chǔ)及應(yīng)用G.721ADPCM編譯碼器G.721ADPCM編譯G.722SB-ADPCM編譯碼器G.722推薦標(biāo)準(zhǔn)(“數(shù)據(jù)率為64kb/s的7kHz聲音信號(hào)編碼”),把話質(zhì)提高到了AM廣播質(zhì)量,而其數(shù)據(jù)率仍保持為64kb/s(16kHz采樣)。G.722采用高低兩個(gè)子帶(子帶的劃分以4KHz為界),然后再對(duì)每個(gè)子帶采用類似G.721建議的ADPCM?!?.3音頻編碼基礎(chǔ)和標(biāo)準(zhǔn)60多媒體技術(shù)基礎(chǔ)及應(yīng)用G.722SB-ADPCM編譯碼器G.722推薦標(biāo)準(zhǔn)(“子帶編碼(SBC)子帶編碼的基本思想:使用一組帶通濾波器(band-passfilter,BPF)把輸入音頻信號(hào)的頻帶分成若干個(gè)連續(xù)的頻段,每個(gè)頻段稱為子帶。對(duì)每個(gè)子帶中的音頻信號(hào)采用單獨(dú)的編碼方案去編碼。在信道上傳送時(shí),將每個(gè)子帶的代碼復(fù)合起來(lái)。在接收端譯碼時(shí),將每個(gè)子帶的代碼單獨(dú)譯碼,然后把它們組合起來(lái),還原成原來(lái)的音頻信號(hào)。子帶編碼的方塊圖如圖3-17所示,圖中的編碼/譯碼器,可以采用ADPCM,APCM,PCM等?!?.3音頻編碼基礎(chǔ)和標(biāo)準(zhǔn)61多媒體技術(shù)基礎(chǔ)及應(yīng)用子帶編碼(SBC)子帶編碼的基本思想:§2.3音頻編碼基礎(chǔ)G.728低延時(shí)-碼激勵(lì)

線性預(yù)測(cè)編碼是以美國(guó)AT&T公司貝爾實(shí)驗(yàn)室提出的LD_CELP(低延時(shí)碼激勵(lì)線性預(yù)測(cè))算法為基礎(chǔ),它充分考慮了聽覺特性。其基本思想如下:§2.3音頻編碼基礎(chǔ)和標(biāo)準(zhǔn)62多媒體技術(shù)基礎(chǔ)及應(yīng)用G.728低延時(shí)-碼激勵(lì)

線性預(yù)測(cè)編碼是以美國(guó)AT&T公DL_CELP編碼思想(a)1.語(yǔ)音輸入每幀5個(gè)取樣值,并附上10bit的描述激勵(lì)信號(hào)波形與增益的信息;2.編碼時(shí)用事先準(zhǔn)備好的激勵(lì)矢量的所有組合去合成語(yǔ)音;§2.3音頻編碼基礎(chǔ)和標(biāo)準(zhǔn)63多媒體技術(shù)基礎(chǔ)及應(yīng)用DL_CELP編碼思想(a)1.語(yǔ)音輸入每幀5個(gè)取樣值,并DL_CELP編碼思想(b)3.將合成結(jié)果與輸入信號(hào)相比較,選出聽覺加權(quán)后距離最小的碼元作為信息傳輸;4.解碼端將發(fā)送端制定的激勵(lì)矢量、3bit增益碼以及自身已經(jīng)合成過(guò)的語(yǔ)音波形一起合成為語(yǔ)音?!?.3音頻編碼基礎(chǔ)和標(biāo)準(zhǔn)64多媒體技術(shù)基礎(chǔ)及應(yīng)用DL_CELP編碼思想(b)3.將合成結(jié)果與輸入信號(hào)相比較MPEG-1中的音頻概況:Mpeg標(biāo)準(zhǔn)是由ISO/IEC的運(yùn)動(dòng)圖像專家組(WG11)制定的。該系列已推出Mpeg-1、Mpeg-2、Mpeg-4、Mpeg-7,目前正在研究討論Mpeg-21?!?.3音頻編碼基礎(chǔ)和標(biāo)準(zhǔn)65多媒體技術(shù)基礎(chǔ)及應(yīng)用MPEG-1中的音頻概況:Mpeg標(biāo)準(zhǔn)是由ISO/IECMPEG-1的音頻標(biāo)準(zhǔn)ISO/IEC11172-3(Mpeg音頻標(biāo)準(zhǔn))編碼器的輸入和解碼器的輸出與PCM標(biāo)準(zhǔn)兼容MPEG-1的數(shù)據(jù)率:由參數(shù)控制§2.3音頻編碼基礎(chǔ)和標(biāo)準(zhǔn)66多媒體技術(shù)基礎(chǔ)及應(yīng)用MPEG-1的音頻標(biāo)準(zhǔn)ISO/IEC11172-3(MpegMPEG中的音頻編碼Mpeg中的音頻采用子帶編碼(SBC).子帶編碼的根據(jù):聽覺系統(tǒng)的隱蔽特性;重構(gòu)的聲音與編碼前的信號(hào)不同,但對(duì)聽覺來(lái)講是“無(wú)損壓縮”有四種編碼模式?!?.3音頻編碼基礎(chǔ)和標(biāo)準(zhǔn)67多媒體技術(shù)基礎(chǔ)及應(yīng)用MPEG中的音頻編碼Mpeg中的音頻采用子帶編碼(SBC).MPEG中的音頻

編碼器§2.3音頻編碼基礎(chǔ)和標(biāo)準(zhǔn)68多媒體技術(shù)基礎(chǔ)及應(yīng)用MPEG中的音頻

編碼器§2.3音頻編碼基礎(chǔ)和標(biāo)準(zhǔn)68多媒MPEG中的音頻編碼層次MPEG聲音標(biāo)準(zhǔn)提供三個(gè)獨(dú)立的壓縮層次:層1、層2和層3后繼層次的壓縮比更高,編碼解碼器也更復(fù)雜每層都自含SBC編碼器,高層的SBC可以使用低層SBC的聲音數(shù)據(jù)§2.3音頻編碼基礎(chǔ)和標(biāo)準(zhǔn)69多媒體技術(shù)基礎(chǔ)及應(yīng)用MPEG中的音頻編碼層次MPEG聲音標(biāo)準(zhǔn)提供三個(gè)獨(dú)立的壓縮MPEG中的音頻編碼層次1層1包括將數(shù)字音頻變成32個(gè)子帶的基本映射。將數(shù)據(jù)格式化成塊的固定分段。決定自適應(yīng)位分配的心理聲學(xué)模型。利用塊壓擴(kuò)合格石化的量化器。編碼/解碼理論延時(shí)最小為19ms,數(shù)據(jù)傳輸率384kb/s?!?.3音頻編碼基礎(chǔ)和標(biāo)準(zhǔn)70多媒體技術(shù)基礎(chǔ)及應(yīng)用MPEG中的音頻編碼層次1層1包括將數(shù)字音頻變成32個(gè)子帶MPEG中的音頻編碼層次2層2提供了位分配,縮放因子和抽樣的附加編碼。使用了不同的幀格式。理論上最小編解碼延時(shí)35ms,數(shù)據(jù)傳輸率256kb/s~192kb/s。用于數(shù)字廣播、CD-I、VCD等?!?.3音頻編碼基礎(chǔ)和標(biāo)準(zhǔn)71多媒體技術(shù)基礎(chǔ)及應(yīng)用MPEG中的音頻編碼層次2層2提供了位分配,縮放因子和抽樣MPEG中的音頻編碼層次3層3采用混合帶通濾波器以提高頻率分辨率。增加了差值量化、自適應(yīng)分段和量化值的熵編碼。理論上最小編解碼延時(shí)59ms,數(shù)據(jù)傳輸率64kb/s。用于ISDN上的聲音傳播。§2.3音頻編碼基礎(chǔ)和標(biāo)準(zhǔn)72多媒體技術(shù)基礎(chǔ)及應(yīng)用MPEG中的音頻編碼層次3層3采用混合帶通濾波器以提高頻率MPEG的聲音壓縮率128~112(kbps)10:1~12:13256~192(kbps)6:1~8:12384(kbps)4:11立體聲信號(hào)所對(duì)應(yīng)的位率壓縮率層次§2.3音頻編碼基礎(chǔ)和標(biāo)準(zhǔn)73多媒體技術(shù)基礎(chǔ)及應(yīng)用MPEG的聲音壓縮率128~112(kbps)10:1~1MPEG中的音頻解碼解碼器按編碼器定義的語(yǔ)法接受壓縮的音頻數(shù)據(jù)流,按解碼部分的方法解出數(shù)據(jù)元素,按濾波器的規(guī)定用這些數(shù)據(jù)產(chǎn)生數(shù)字音頻輸出?!?.3音頻編碼基礎(chǔ)和標(biāo)準(zhǔn)74多媒體技術(shù)基礎(chǔ)及應(yīng)用MPEG中的音頻解碼解碼器按編碼器定義的語(yǔ)法接受壓縮的音頻MPEG音頻解碼結(jié)構(gòu)框圖§2.3音頻編碼基礎(chǔ)和標(biāo)準(zhǔn)75多媒體技術(shù)基礎(chǔ)及應(yīng)用MPEG音頻解碼結(jié)構(gòu)框圖§2.3音頻編碼基礎(chǔ)和標(biāo)準(zhǔn)75多DOLBYAC-3編碼和解碼由美國(guó)DOLBY實(shí)驗(yàn)室開發(fā)提供5.1聲道從20Hz~20KHz的平滑帶寬(圖)將六個(gè)聲道壓縮成一個(gè)通道數(shù)據(jù)率320Kbps§2.3音頻編碼基礎(chǔ)和標(biāo)準(zhǔn)76多媒體技術(shù)基礎(chǔ)及應(yīng)用DOLBYAC-3編碼和解碼由美國(guó)DOLBY實(shí)驗(yàn)室開發(fā)§AC-3的應(yīng)用范圍制作影碟、CD、VHS錄像帶數(shù)字廣播、有線電視直播衛(wèi)星美國(guó)的HDTV音頻標(biāo)準(zhǔn)§2.3音頻編碼基礎(chǔ)和標(biāo)準(zhǔn)77多媒體技術(shù)基礎(chǔ)及應(yīng)用AC-3的應(yīng)用范圍制作影碟、CD、VHS錄像帶§2.3音AC-3的技術(shù)特色充分利用心理聲學(xué)特性實(shí)現(xiàn)噪聲掩蔽可用某一聲道的聲壓掩蔽其他聲道的噪聲§2.3音頻編碼基礎(chǔ)和標(biāo)準(zhǔn)78多媒體技術(shù)基礎(chǔ)及應(yīng)用AC-3的技術(shù)特色充分利用心理聲學(xué)特性實(shí)現(xiàn)噪聲掩蔽§2.3AC-3同步幀的構(gòu)成(1)同步信息(SI)同步字:標(biāo)志幀的開始檢驗(yàn)碼(CRC1):循環(huán)冗余校驗(yàn)采樣頻率:說(shuō)明PCM碼流的采樣率(48,44.1、32KHz)幀長(zhǎng)度代碼:§2.3音頻編碼基礎(chǔ)和標(biāo)準(zhǔn)79多媒體技術(shù)基礎(chǔ)及應(yīng)用AC-3同步幀的構(gòu)成(1)同步信息(SI)§2.3音頻編AC-3同步幀的構(gòu)成(2)比特流標(biāo)識(shí)(BSI)包括版本、編碼模式等信息音頻數(shù)據(jù)塊包含音頻數(shù)據(jù)以及相關(guān)的解碼控制信息§2.3音頻編碼基礎(chǔ)和標(biāo)準(zhǔn)80多媒體技術(shù)基礎(chǔ)及應(yīng)用AC-3同步幀的構(gòu)成(2)比特流標(biāo)識(shí)(BSI)§2.3音AC-3同步幀的構(gòu)成(3)附加信息用于保留用戶自己定義的信息錯(cuò)誤校驗(yàn)碼包含錯(cuò)誤校驗(yàn)字§2.3音頻編碼基礎(chǔ)和標(biāo)準(zhǔn)81多媒體技術(shù)基礎(chǔ)及應(yīng)用AC-3同步幀的構(gòu)成(3)附加信息§2.3音頻編碼基礎(chǔ)和AC-3的解碼分析碼流的正確性(CRC)根據(jù)頭部信息解出聲道指數(shù)分析指數(shù)并解出尾數(shù)指數(shù)、尾數(shù)合成頻域參數(shù)反變換、輸出時(shí)域PCM碼流§2.3音頻編碼基礎(chǔ)和標(biāo)準(zhǔn)82多媒體技術(shù)基礎(chǔ)及應(yīng)用AC-3的解碼分析碼流的正確性(CRC)§2.3音頻編碼再見!§283多媒體技術(shù)基礎(chǔ)及應(yīng)用再見!§283多媒體技術(shù)基礎(chǔ)及應(yīng)用幾種聲源的頻率帶寬10Hz—20KHz數(shù)字光盤20Hz—20KHz寬頻帶音響20Hz—15KHz調(diào)頻廣播(FM)50Hz—7kHz調(diào)頻廣播(AM)200Hz—3.4KHz電話頻率帶寬聲源§2.1數(shù)字音頻基礎(chǔ)84多媒體技術(shù)基礎(chǔ)及應(yīng)用幾種聲源的頻率帶寬10Hz—20KHz數(shù)字光盤20Hz—圖示:音調(diào)、音色和音強(qiáng)§285多媒體技術(shù)基礎(chǔ)及應(yīng)用圖示:音調(diào)、音色和音強(qiáng)§285多媒體技術(shù)基礎(chǔ)及應(yīng)用采樣信號(hào)的形成§286多媒體技術(shù)基礎(chǔ)及應(yīng)用采樣信號(hào)的形成§286多媒體技術(shù)基礎(chǔ)及應(yīng)用圖示:均勻采樣和非均勻采樣§287多媒體技術(shù)基礎(chǔ)及應(yīng)用圖示:均勻采樣和非均勻采樣§287多媒體技術(shù)基礎(chǔ)及應(yīng)用聲音采樣和量化§288多媒體技術(shù)基礎(chǔ)及應(yīng)用聲音采樣和量化§288多媒體技術(shù)基礎(chǔ)及應(yīng)用MIDI音樂(lè)合成----

調(diào)頻方式數(shù)字式頻率調(diào)制合成法(digitalfrequencymodulationsynthesis),簡(jiǎn)稱為FM合成器。是把幾種樂(lè)音的波形用數(shù)字來(lái)表達(dá),并且用數(shù)字計(jì)算機(jī)把它們組合起來(lái),通過(guò)數(shù)模轉(zhuǎn)換器(digitaltoanalogconvertor,DAC)來(lái)生成樂(lè)音。§2.2音頻卡的工作原理89多媒體技術(shù)基礎(chǔ)及應(yīng)用MIDI音樂(lè)合成----

調(diào)頻方式數(shù)字式頻率調(diào)制合成MIDI音樂(lè)合成----

調(diào)頻方式§290多媒體技術(shù)基礎(chǔ)及應(yīng)用MIDI音樂(lè)合成----

調(diào)頻方式§290多媒體技術(shù)基礎(chǔ)及應(yīng)MIDI音樂(lè)合成----

調(diào)頻方式改變參數(shù),可以生成不同的樂(lè)音如:改變數(shù)字載波頻率、幅度改變波形的類型快速改變調(diào)制波形的頻率改變反饋量選擇的算法不同§291多媒體技術(shù)基礎(chǔ)及應(yīng)用MIDI音樂(lè)合成----

調(diào)頻方式改變參數(shù),可以生成不同的樂(lè)MIDI音樂(lè)合成----

波形表方式

這種方法是把真實(shí)樂(lè)器發(fā)出的聲音以數(shù)字的形式記錄下來(lái),播放時(shí)改變播放速度,從而改變音調(diào)周期,生成各種音階的音符?!?92多媒體技術(shù)基礎(chǔ)及應(yīng)用MIDI音樂(lè)合成----

波形表方式這種方MIDI音樂(lè)合成----

波形表方式§293多媒體技術(shù)基礎(chǔ)及應(yīng)用MIDI音樂(lè)合成----

波形表方式§293多媒體技術(shù)基礎(chǔ)及數(shù)字化音頻:信號(hào)變化過(guò)程圖示模擬信號(hào)采樣信號(hào)數(shù)字信號(hào)§294多媒體技術(shù)基礎(chǔ)及應(yīng)用數(shù)字化音頻:信號(hào)變化過(guò)程圖示模擬信號(hào)采樣信號(hào)數(shù)字信號(hào)§294數(shù)字化音頻:離散時(shí)間信號(hào)圖示§295多媒體技術(shù)基礎(chǔ)及應(yīng)用數(shù)字化音頻:離散時(shí)間信號(hào)圖示§295多媒體技術(shù)基礎(chǔ)及應(yīng)用數(shù)字化音頻:離散幅度信號(hào)圖示§296多媒體技術(shù)基礎(chǔ)及應(yīng)用數(shù)字化音頻:離散幅度信號(hào)圖示§296多媒體技術(shù)基礎(chǔ)及應(yīng)用PCM示意圖§297多媒體技術(shù)基礎(chǔ)及應(yīng)用PCM示意圖§297多媒體技術(shù)基礎(chǔ)及應(yīng)用均勻量化和非均勻量化如果采用相等的量化間隔對(duì)采樣所得信號(hào)作量化,則這種量化稱為均勻量化或線性量化。若量化間隔不相等則為非均勻量化。量化后的樣本值Y和原始值X的差E=Y-X稱為量化誤差或量化噪聲。§2.3音頻編碼基礎(chǔ)和標(biāo)準(zhǔn)98多媒體技術(shù)基礎(chǔ)及應(yīng)用均勻量化和非均勻量化如果采用相等的量化間隔對(duì)采樣所得信號(hào)作量非線性量化的基本思想量化時(shí),大的輸入信號(hào)采用大的量化間隔,小信號(hào)采用小的量化間隔。聲音數(shù)據(jù)還原時(shí),采用相同的規(guī)則。目的是在滿足精度要求的情況下使用較少的位數(shù)。§2.3音頻編碼基礎(chǔ)和標(biāo)準(zhǔn)99多媒體技術(shù)基礎(chǔ)及應(yīng)用非線性量化的基本思想量化時(shí),大的輸入信號(hào)采用大的量化間隔,小APCM示意圖插入林圖3-13APCM方塊圖§2.3音頻編碼基礎(chǔ)和標(biāo)準(zhǔn)100多媒體技術(shù)基礎(chǔ)及應(yīng)用APCM示意圖插入林圖3-13APCM方塊圖§2.3音頻編DPCM示意圖插入林圖3-14DPCM方塊圖§2.3音頻編碼基礎(chǔ)和標(biāo)準(zhǔn)101多媒體技術(shù)基礎(chǔ)及應(yīng)用DPCM示意圖插入林圖3-14DPCM方塊圖§2.3音頻編ADPCM示意圖插入林圖3-15ADPCM方塊圖§2.3音頻編碼基礎(chǔ)和標(biāo)準(zhǔn)102多媒體技術(shù)基礎(chǔ)及應(yīng)用ADPCM示意圖插入林圖3-15ADPCM方塊圖§2.3音ADPCM解碼器示意圖插入林圖3-16b.ADPCM解碼器§2.3音頻編碼基礎(chǔ)和標(biāo)準(zhǔn)103多媒體技術(shù)基礎(chǔ)及應(yīng)用ADPCM解碼器示意圖插入林圖3-16b.ADPCM解碼器§5.1聲道示意圖§2.3音頻編碼基礎(chǔ)和標(biāo)準(zhǔn)104多媒體技術(shù)基礎(chǔ)及應(yīng)用5.1聲道示意圖§2.3音頻編碼基礎(chǔ)和標(biāo)準(zhǔn)104多媒體技第二章

音頻信息的獲取與處理§2105多媒體技術(shù)基礎(chǔ)及應(yīng)用第二章

音頻信息的獲取與處理§21多媒體技術(shù)基礎(chǔ)及應(yīng)用本章學(xué)習(xí)要點(diǎn)音頻信號(hào)的特點(diǎn);模擬音頻與數(shù)字音頻;音頻采樣與量化以及數(shù)字音頻文件格式。音頻卡的功能、分類及其基本工作原理。音頻編碼基本原理及標(biāo)準(zhǔn)。音樂(lè)合成及MIDI規(guī)范。語(yǔ)音識(shí)別與合成原理及分類?!?106多媒體技術(shù)基礎(chǔ)及應(yīng)用本章學(xué)習(xí)要點(diǎn)音頻信號(hào)的特點(diǎn);模擬音頻與數(shù)字音頻;音頻采樣與量學(xué)習(xí)要求熟練掌握:音頻卡的工作原理及應(yīng)用開發(fā)。掌握:音頻編碼基礎(chǔ)及標(biāo)準(zhǔn);音樂(lè)合成及MIDI。了解:本章其他內(nèi)容?!?107多媒體技術(shù)基礎(chǔ)及應(yīng)用學(xué)習(xí)要求熟練掌握:音頻卡的工作原理及應(yīng)用開發(fā)?!?3多媒體技2.1數(shù)字音頻基礎(chǔ)§2108多媒體技術(shù)基礎(chǔ)及應(yīng)用2.1數(shù)字音頻基礎(chǔ)§24多媒體技術(shù)基礎(chǔ)及應(yīng)用

聲音是一種由機(jī)械振動(dòng)引起并在彈性介質(zhì)中傳播的連續(xù)的波。聲音的強(qiáng)弱體現(xiàn)在聲波壓力的大小上。聲音的高低體現(xiàn)在聲波的頻率上。可將聲波轉(zhuǎn)換為電信號(hào)。代表聲波的電信號(hào)在時(shí)間和幅度上都是連續(xù)的,即模擬信號(hào)。聲音的產(chǎn)生§2.1數(shù)字音頻基礎(chǔ)109多媒體技術(shù)基礎(chǔ)及應(yīng)用聲音是一種由機(jī)械振動(dòng)引起并在彈性介質(zhì)中聲音信號(hào)a聲音信號(hào)由許多不同頻率的信號(hào)組成,稱為復(fù)合信號(hào)。單一頻率的信號(hào)稱為分量信號(hào)。帶寬是聲音信號(hào)的一個(gè)重要參數(shù),它描述復(fù)合信號(hào)的頻率范圍?!?.1數(shù)字音頻基礎(chǔ)110多媒體技術(shù)基礎(chǔ)及應(yīng)用聲音信號(hào)a聲音信號(hào)由許多不同頻率的信號(hào)組成,稱為復(fù)合信號(hào)?!炻曇粜盘?hào)b人耳的聽覺范圍是20Hz~20KHz,稱為音頻(Audio)信號(hào)。人說(shuō)話的頻率范圍是300~3000Hz,稱為話音(speech)信號(hào)?!?.1數(shù)字音頻基礎(chǔ)111多媒體技術(shù)基礎(chǔ)及應(yīng)用聲音信號(hào)b人耳的聽覺范圍是20Hz~20KHz,稱為音頻(A聲音的聽覺特性——

聲音三要素聲音三要素即音調(diào)音強(qiáng)音色音色是由混入基音中的泛音所決定的?!?.1數(shù)字音頻基礎(chǔ)112多媒體技術(shù)基礎(chǔ)及應(yīng)用聲音的聽覺特性——

聲音三要素聲音三要素即§2.1數(shù)字音

聲音是一種彈性波,可分為周期性和非周期性信號(hào)。周期信號(hào)是單一頻率的信號(hào),是線性譜。非周期信號(hào)包含一定連續(xù)頻帶的所有頻率分量,是連續(xù)譜。完全的連續(xù)譜(如平滑噪聲)完全無(wú)調(diào)。自然界的聲音大多是線性譜中混有一段段較弱的連續(xù)譜,聽來(lái)既有調(diào)又飽滿、生動(dòng)。聲音的聽覺特性——

聲音中的連續(xù)譜§2.1數(shù)字音頻基礎(chǔ)113多媒體技術(shù)基礎(chǔ)及應(yīng)用聲音是一種彈性波,可分為周期性和非周期聲音的聽覺特性——

聲音的方向性

人能分辨出聲音到達(dá)左右兩耳的時(shí)差和強(qiáng)度差異,即能辨別聲源方向。由于聲波在空間來(lái)回反射,能產(chǎn)生空間效果。§2.1數(shù)字音頻基礎(chǔ)114多媒體技術(shù)基礎(chǔ)及應(yīng)用聲音的聽覺特性——

聲音的方向性人能分聲音的聽覺特性——

聲音是時(shí)基類媒體聲音是時(shí)間連續(xù)的,人耳能感覺到25毫秒的延遲。沒有時(shí)間就無(wú)法表現(xiàn)聲音。聲音是連續(xù)型時(shí)基媒體?!?.1數(shù)字音頻基礎(chǔ)115多媒體技術(shù)基礎(chǔ)及應(yīng)用聲音的聽覺特性——

聲音是時(shí)基類媒體聲音是時(shí)間連續(xù)的,人耳能聲音的質(zhì)量評(píng)判聲音的質(zhì)量與其頻率范圍(即頻帶)有關(guān)。一般,頻帶越寬,音質(zhì)越好。對(duì)語(yǔ)音常用可懂度、清晰度和自然度衡量。對(duì)音樂(lè),保真度、空間感和音響效果是重要指標(biāo)。平均主觀打分(MOS)是最簡(jiǎn)單的評(píng)判法?!?.1數(shù)字音頻基礎(chǔ)116多媒體技術(shù)基礎(chǔ)及應(yīng)用聲音的質(zhì)量評(píng)判聲音的質(zhì)量與其頻率范圍(即頻帶)有關(guān)。一般,頻模擬聲音的錄制與播放模擬聲音信號(hào)的錄制一般是先將聲波信號(hào)通過(guò)機(jī)電轉(zhuǎn)換獲得電信號(hào),之后再通過(guò)電磁轉(zhuǎn)換等方式記錄到適當(dāng)?shù)慕橘|(zhì)上。模擬聲音的播放即使把記錄在介質(zhì)上的信號(hào)通過(guò)電磁轉(zhuǎn)換、機(jī)電轉(zhuǎn)換等手段還原為聲音信號(hào)。§2.1數(shù)字音頻基礎(chǔ)117多媒體技術(shù)基礎(chǔ)及應(yīng)用模擬聲音的錄制與播放模擬聲音信號(hào)的錄制一般是先將聲波信號(hào)通過(guò)模擬信號(hào)的數(shù)字化在某個(gè)特定時(shí)刻對(duì)模擬信號(hào)進(jìn)行測(cè)量稱為采樣。采樣獲得的信號(hào)稱為離散時(shí)間信號(hào)。對(duì)幅值連續(xù)的采樣信號(hào)限定取值范圍,可以獲得由有限個(gè)幅值組成的信號(hào),稱其為離散幅度信號(hào)。采樣值在某個(gè)數(shù)值附近的一定范圍內(nèi)都用這個(gè)值表示,這種處理稱為量化。§2.1數(shù)字音頻基礎(chǔ)118多媒體技術(shù)基礎(chǔ)及應(yīng)用模擬信號(hào)的數(shù)字化在某個(gè)特定時(shí)刻對(duì)模擬信號(hào)進(jìn)行測(cè)量稱為采樣。§細(xì)看采樣和量化均勻采樣:每?jī)纱尾蓸又g的間隔時(shí)間相等。否則為非均勻采樣。采樣的時(shí)間間隔稱為采樣周期。每秒鐘采樣的次數(shù)稱為采樣頻率。線性量化:量化的幅度間隔均等。否則為非線性量化?!?.1數(shù)字音頻基礎(chǔ)119多媒體技術(shù)基礎(chǔ)及應(yīng)用細(xì)看采樣和量化均勻采樣:每?jī)纱尾蓸又g的間隔時(shí)間相等。否則為數(shù)字化音頻a在計(jì)算機(jī)內(nèi)聲音信息同其他信息一樣也用一系列二進(jìn)制數(shù)字表示,稱其為數(shù)字音頻。數(shù)字音頻是對(duì)模擬聲音信號(hào)進(jìn)行采樣和量化得到的。§2.1數(shù)字音頻基礎(chǔ)120多媒體技術(shù)基礎(chǔ)及應(yīng)用數(shù)字化音頻a在計(jì)算機(jī)內(nèi)聲音信息同其他信息一樣也用一系列二進(jìn)制數(shù)字化音頻b采樣和量化的主要硬件是模數(shù)轉(zhuǎn)換器(ADC)。數(shù)字音頻的回放需先進(jìn)行數(shù)模轉(zhuǎn)換(DAC)得到模擬電信號(hào),然后再放大輸出?!?.1數(shù)字音頻基礎(chǔ)121多媒體技術(shù)基礎(chǔ)及應(yīng)用數(shù)字化音頻b采樣和量化的主要硬件是模數(shù)轉(zhuǎn)換器(ADC)?!?采樣定理a

采樣頻率的高低應(yīng)根據(jù)奈奎斯特理論和聲音信號(hào)本身的最高頻率決定。奈氏理論指出:如果采樣頻率不低于信號(hào)最高頻率的兩倍,則由此獲得的離散信號(hào)能夠完全確定被采樣的連續(xù)信號(hào)?!?.1數(shù)字音頻基礎(chǔ)122多媒體技術(shù)基礎(chǔ)及應(yīng)用采樣定理a采樣頻率的高低應(yīng)根據(jù)奈奎斯特理論采樣定理b設(shè)被采樣信號(hào)的最高頻率為f,則

§2.1數(shù)字音頻基礎(chǔ)123多媒體技術(shù)基礎(chǔ)及應(yīng)用采樣定理b設(shè)被采樣信號(hào)的最高頻率為f,則§2量化精度和量化誤差a

若量化后的值用B位二進(jìn)制碼表示。B位二進(jìn)制碼可以表示2B個(gè)不同的量化電平。顯然,位數(shù)越多表示的精度就越高?!?.1數(shù)字音頻基礎(chǔ)124多媒體技術(shù)基礎(chǔ)及應(yīng)用量化精度和量化誤差a若量化后的值用B位二進(jìn)量化精度和量化誤差b存儲(chǔ)數(shù)字音頻信號(hào)的比特率為:設(shè)量化階距(兩個(gè)量化值的幅度差)為△則量化誤差為:§2.1數(shù)字音頻基礎(chǔ)125多媒體技術(shù)基礎(chǔ)及應(yīng)用量化精度和量化誤差b存儲(chǔ)數(shù)字音頻信號(hào)的比特率為:§2.1數(shù)字音頻文件存儲(chǔ)量計(jì)算字節(jié)數(shù)=采樣頻率(Hz)*量化位數(shù)*聲道數(shù)*錄音時(shí)間(s)/8§2.1數(shù)字音頻基礎(chǔ)126多媒體技術(shù)基礎(chǔ)及應(yīng)用數(shù)字音頻文件存儲(chǔ)量計(jì)算字節(jié)數(shù)=采樣頻率(Hz)*量化位數(shù)*聲數(shù)字音頻的文件格式多媒體技術(shù)中常見音頻文件:Wav文件:Microsoft的音頻文件格式。對(duì)聲音波形采樣、量化后進(jìn)行存儲(chǔ),故稱波形文件。Voc文件:是creative公司的波形文件格式。Mid(midi)文件:是遵循樂(lè)器數(shù)字接口(midi)規(guī)范,產(chǎn)生數(shù)字樂(lè)音的文件?!?.1數(shù)字音頻基礎(chǔ)127多媒體技術(shù)基礎(chǔ)及應(yīng)用數(shù)字音頻的文件格式多媒體技術(shù)中常見音頻文件:§2.12.2音頻卡的工作原理主要完成模數(shù)轉(zhuǎn)換、音頻信號(hào)壓縮及解壓縮、數(shù)模轉(zhuǎn)換、音頻接口以及與微機(jī)接口五大功能§2.2音頻卡的工作原理128多媒體技術(shù)基礎(chǔ)及應(yīng)用2.2音頻卡的工作原理主要完成模數(shù)轉(zhuǎn)換、音頻信號(hào)壓縮及解音頻卡的功能---

錄制與播放a音頻錄放數(shù)字化采樣頻率范圍:8~44.1kHz量化位數(shù):8位/16位通道數(shù):?jiǎn)温暤?立體聲自動(dòng)動(dòng)態(tài)濾波§2.2音頻卡的工作原理129多媒體技術(shù)基礎(chǔ)及應(yīng)用音頻卡的功能---

錄制與播放a音頻錄放§2.2音頻卡的工音頻卡的功能---

錄制與播放b編碼與壓縮基本編碼方法:PCM壓縮編碼方法:ADPCM實(shí)時(shí)硬件/軟件壓縮錄音聲源:mic,line-in,CD§2.2音頻卡的工作原理130多媒體技術(shù)基礎(chǔ)及應(yīng)用音頻卡的功能---

錄制與播放b編碼與壓縮§2.2音頻卡的音頻卡的功能---

編輯與合成應(yīng)用工具軟件對(duì)數(shù)字音頻進(jìn)行編輯以及實(shí)現(xiàn)特殊效果處理,如:倒播、增加回音、靜噪、淡入和淡出、往返播放、聲道交換?!?.2音頻卡的工作原理131多媒體技術(shù)基礎(chǔ)及應(yīng)用音頻卡的功能---

編輯與合成應(yīng)用工具軟件對(duì)數(shù)字音頻音頻卡的功能---

MIDI音樂(lè)合成利用軟件通過(guò)音頻卡的MIDI接口對(duì)電子樂(lè)器進(jìn)行操作控制,產(chǎn)生聲音。音樂(lè)合成的性能依賴于音頻卡上合成芯片的性能。合成方式:調(diào)頻方式(FM)波形表方式§2.2音頻卡的工作原理132多媒體技術(shù)基礎(chǔ)及應(yīng)用音頻卡的功能---

MIDI音樂(lè)合成利用軟件通過(guò)音頻卡的音頻卡的功能---

文語(yǔ)轉(zhuǎn)換和語(yǔ)音識(shí)別文語(yǔ)轉(zhuǎn)換(texttospeech)是利用聲卡提供的軟件將機(jī)內(nèi)文本轉(zhuǎn)換為聲音輸出。語(yǔ)音識(shí)別使用者通過(guò)軟件利用聲音控制計(jì)算機(jī)或執(zhí)行一些命令。§2.2音頻卡的工作原理133多媒體技術(shù)基礎(chǔ)及應(yīng)用音頻卡的功能---

文語(yǔ)轉(zhuǎn)換和語(yǔ)音識(shí)別文語(yǔ)轉(zhuǎn)換(textt音頻卡的工作原理—

混合信號(hào)處理器

內(nèi)置數(shù)字/模擬混合器。完成對(duì)聲音信號(hào)的混合處理;輸入聲源:MIDI信號(hào)、CD音頻、線路輸入、麥克風(fēng)輸入等;可以選擇一個(gè)或多個(gè)聲源進(jìn)行混合?!?.2音頻卡的工作原理134多媒體技術(shù)基礎(chǔ)及應(yīng)用音頻卡的工作原理—

混合信號(hào)處理器內(nèi)置數(shù)字/模擬混合器。完音頻卡的工作原理—

功率放大器

用于對(duì)混合信號(hào)進(jìn)行放大使之達(dá)到足夠的功率去推動(dòng)揚(yáng)聲器發(fā)聲?!?.2音頻卡的工作原理135多媒體技術(shù)基礎(chǔ)及應(yīng)用音頻卡的工作原理—

功率放大器用于對(duì)混合信號(hào)進(jìn)行放大使之達(dá)音頻卡的工作原理—

總線和控制器a總線接口類型:早期是ISA,現(xiàn)在幾乎都是PCI。組成:數(shù)據(jù)總線雙向驅(qū)動(dòng)器、總線接口控制邏輯、總線中斷邏輯和DMA控制邏輯?!?.2音頻卡的工作原理136多媒體技術(shù)基礎(chǔ)及應(yīng)用音頻卡的工作原理—

總線和控制器a總線接口類型:早期是IS音頻卡的工作原理—

總線和控制器b可以通過(guò)軟件或硬跳線設(shè)定基本I/O地址、中斷向量(IRQ)和直接存儲(chǔ)器存取(DMA)通道號(hào)這三個(gè)參數(shù),以避免與其他設(shè)備發(fā)生沖突?!?.2音頻卡的工作原理137多媒體技術(shù)基礎(chǔ)及應(yīng)用音頻卡的工作原理—

總線和控制器b可以通過(guò)軟件或硬跳線設(shè)定音頻卡的工作原理—

音頻卡的安裝a

自動(dòng)安裝:現(xiàn)在的音頻卡產(chǎn)品一般都是即插即用的。安裝連接好之后,開啟電源,WIN9X會(huì)提示找到新硬件,照屏幕提示一步步操作,即可完成軟件安裝,之后重啟系統(tǒng)就能使用了。§2.2音頻卡的工作原理138多媒體技術(shù)基礎(chǔ)及應(yīng)用音頻卡的工作原理—

音頻卡的安裝a自動(dòng)安裝:現(xiàn)在的音頻卡音頻卡的工作原理—

音頻卡的安裝b

手動(dòng)安裝:開始->設(shè)置->控制面板->添加新硬件驅(qū)動(dòng)程序的安裝需要WINDOWS系統(tǒng)盤?!?.2音頻卡的工作原理139多媒體技術(shù)基礎(chǔ)及應(yīng)用音頻卡的工作原理—

音頻卡的安裝b手動(dòng)安裝:開始->設(shè)置-聲音工具請(qǐng)參閱《輔導(dǎo)與實(shí)驗(yàn)》之“實(shí)驗(yàn)一音頻信號(hào)的獲取與處理”§2.2音頻卡的工作原理140多媒體技術(shù)基礎(chǔ)及應(yīng)用聲音工具請(qǐng)參閱《輔導(dǎo)與實(shí)驗(yàn)》之“實(shí)驗(yàn)一音頻信號(hào)的獲取與處理2.3音頻編碼基礎(chǔ)和標(biāo)準(zhǔn)本節(jié)內(nèi)容:學(xué)習(xí)音頻編碼的基本知識(shí)學(xué)習(xí)音頻編碼的相關(guān)標(biāo)準(zhǔn)§2.3音頻編碼基礎(chǔ)和標(biāo)準(zhǔn)141多媒體技術(shù)基礎(chǔ)及應(yīng)用2.3音頻編碼基礎(chǔ)和標(biāo)準(zhǔn)本節(jié)內(nèi)容:§2.3音頻編碼音頻編碼的目的音頻編碼的主要目的就是壓縮數(shù)據(jù),以節(jié)約存儲(chǔ)空間和提高通信傳輸量。數(shù)據(jù)壓縮通常會(huì)降低音頻質(zhì)量。數(shù)據(jù)壓縮還會(huì)增大計(jì)算量。因此,音頻壓縮時(shí)要綜合考慮數(shù)據(jù)量、聲音質(zhì)量和計(jì)算的復(fù)雜度。§2.3音頻編碼基礎(chǔ)和標(biāo)準(zhǔn)142多媒體技術(shù)基礎(chǔ)及應(yīng)用音頻編碼的目的音頻編碼的主要目的就是壓縮數(shù)據(jù),以節(jié)約存儲(chǔ)空間壓縮編碼的可能性只有當(dāng)信源本身具有冗余度時(shí)才能對(duì)其進(jìn)行壓縮。統(tǒng)計(jì)分析表明,語(yǔ)音信號(hào)中存在多種冗余度:時(shí)域信息冗余和頻域信息冗余根據(jù)人的聽覺機(jī)理,語(yǔ)音也是可以壓縮的。§2.3音頻編碼基礎(chǔ)和標(biāo)準(zhǔn)143多媒體技術(shù)基礎(chǔ)及應(yīng)用壓縮編碼的可能性只有當(dāng)信源本身具有冗余度時(shí)才能對(duì)其進(jìn)行壓縮。時(shí)域信息冗余1.幅度的非均勻分布1.幅度的非均勻分布統(tǒng)計(jì)表明,語(yǔ)音中的小幅度樣本出現(xiàn)概率要高一些。又,通話中存在間歇,必然出現(xiàn)大量的低電平;此外,實(shí)際的講話信號(hào)器功率電平也趨向于出現(xiàn)在編碼范圍的較低電平端?!?.3音頻編碼基礎(chǔ)和標(biāo)準(zhǔn)144多媒體技術(shù)基礎(chǔ)及應(yīng)用時(shí)域信息冗余1.幅度的非均勻分布1.幅度的非均勻分布統(tǒng)計(jì)時(shí)域信息冗余2.樣本間的相關(guān)2.樣本間的相關(guān)對(duì)于音信號(hào)的分析表明,取樣數(shù)據(jù)的最大相關(guān)存在于臨近樣本之間。當(dāng)采樣率為8KHz是相鄰樣本間相關(guān)系數(shù)大于0.85。如果采樣率提高,樣本見的相關(guān)性將會(huì)更高。§2.3音頻編碼基礎(chǔ)和標(biāo)準(zhǔn)145多媒體技術(shù)基礎(chǔ)及應(yīng)用時(shí)域信息冗余2.樣本間的相關(guān)2.樣本間的相關(guān)對(duì)于音信號(hào)的時(shí)域信息冗余3.周期之間的相關(guān)3.周期之間的相關(guān)話音帶寬為300~3400Hz,但在某特定瞬間,一個(gè)聲音信號(hào)卻往往只是該頻帶內(nèi)的少數(shù)幾個(gè)頻率成分在起作用。當(dāng)聲音中只有少數(shù)幾個(gè)頻率時(shí),就會(huì)象某些振蕩波形一樣,在周期和周期之間存在一定的相關(guān)性?!?.3音頻編碼基礎(chǔ)和標(biāo)準(zhǔn)146多媒體技術(shù)基礎(chǔ)及應(yīng)用時(shí)域信息冗余3.周期之間的相關(guān)3.周期之間的相關(guān)話音帶寬時(shí)域信息冗余4.基音之間的相關(guān)4.基音之間的相關(guān)人的說(shuō)話聲音可分為清音和濁音兩類。濁音波形不僅表現(xiàn)出周期相關(guān)性,而且還具有對(duì)應(yīng)于音調(diào)間隔的長(zhǎng)期重復(fù)波形。因此,對(duì)音濁音部分的編碼最有效的方法之一就是只對(duì)一個(gè)音調(diào)間隔的波形進(jìn)行編碼,并把它作為同樣本中其它基音段的模板。§2.3音頻編碼基礎(chǔ)和標(biāo)準(zhǔn)147多媒體技術(shù)基礎(chǔ)及應(yīng)用時(shí)域信息冗余4.基音之間的相關(guān)4.基音之間的相關(guān)人的說(shuō)話時(shí)域信息冗余5.靜止系數(shù)5.靜止系數(shù)靜止系數(shù):兩人在通話時(shí),平均每人的講話時(shí)間占總通話時(shí)間的一半,且存在字詞句之間的停頓。分析表明:話音間歇使得全雙工話路的典型效率約為通話時(shí)間的40%。顯然話音間歇(波形靜止段)本身就是一種冗余?!?.3音頻編碼基礎(chǔ)和標(biāo)準(zhǔn)148多媒體技術(shù)基礎(chǔ)及應(yīng)用時(shí)域信息冗余5.靜止系數(shù)5.靜止系數(shù)靜止系數(shù):兩人在通話時(shí)域信息冗余6.長(zhǎng)時(shí)自相關(guān)6.長(zhǎng)時(shí)自相關(guān)上述相關(guān)性都是在短時(shí)(20ms)間隔內(nèi)作出的統(tǒng)計(jì)分析。如果在較長(zhǎng)時(shí)間內(nèi)進(jìn)行統(tǒng)計(jì)就可以得到長(zhǎng)時(shí)自相關(guān)函數(shù)。長(zhǎng)時(shí)間統(tǒng)計(jì)表明,如采樣頻率為8kHz,則話音相鄰樣本間的相關(guān)系數(shù)高達(dá)0.9?!?.3音頻編碼基礎(chǔ)和標(biāo)準(zhǔn)149多媒體技術(shù)基礎(chǔ)及應(yīng)用時(shí)域信息冗余6.長(zhǎng)時(shí)自相關(guān)6.長(zhǎng)時(shí)自相關(guān)上述相關(guān)性都是在短時(shí)頻域信息冗余非均勻的長(zhǎng)時(shí)功率譜密度

呈現(xiàn)強(qiáng)烈的非平坦性;高頻能量較低;直流分量并非最大。語(yǔ)音特有的短時(shí)功率譜密度

存在共振峰頻率,其第一、第二個(gè)共振頻率決定了語(yǔ)音特征;整個(gè)譜密度隨頻率的增加而遞減;整個(gè)功率譜的細(xì)節(jié)以基音的頻率為基礎(chǔ),形成高次諧波結(jié)構(gòu)?!?.3音頻編碼基礎(chǔ)和標(biāo)準(zhǔn)150多媒體技術(shù)基礎(chǔ)及應(yīng)用頻域信息冗余非均勻的長(zhǎng)時(shí)功率譜密度§2.3音頻編碼基礎(chǔ)和標(biāo)人的聽覺感知機(jī)理人的聽覺具有掩蔽效應(yīng)強(qiáng)音能掩蔽弱音,分同時(shí)掩蔽和異時(shí)掩蔽。人耳對(duì)不同頻段聲音的敏感度不同對(duì)低頻聲的敏感度高于對(duì)高頻聲的敏感度。人耳對(duì)語(yǔ)音信號(hào)的相位變化不敏感§2.3音頻編碼基礎(chǔ)和標(biāo)準(zhǔn)151多媒體技術(shù)基礎(chǔ)及應(yīng)用人的聽覺感知機(jī)理人的聽覺具有掩蔽效應(yīng)§2.3音頻編碼基礎(chǔ)和音頻編碼的分類波形編碼音源編碼基于人的聽覺特性進(jìn)行編碼利用人耳掩蔽效應(yīng),設(shè)計(jì)心理聲學(xué)模型實(shí)現(xiàn)高效音頻壓縮。(圖3.5)基于音頻數(shù)據(jù)的統(tǒng)計(jì)特性,目標(biāo)是使生成的波形盡可能與原始波形保持一致;音質(zhì)高,數(shù)據(jù)率也很高;編譯碼器的復(fù)雜程度較低。它企圖從聲音波形中提出生成聲音的聲學(xué)參數(shù),利用生成模型重構(gòu)出聲音;數(shù)據(jù)率低(2.4kb/s左右),自然度差,保密性好?!?.3音頻編碼基礎(chǔ)和標(biāo)準(zhǔn)152多媒體技術(shù)基礎(chǔ)及應(yīng)用音頻編碼的分類波形編碼利用人耳掩蔽效應(yīng),設(shè)計(jì)心理聲學(xué)模型實(shí)現(xiàn)脈沖編碼調(diào)制(PCM)脈沖編碼調(diào)制概念上最簡(jiǎn)單、理論上最完善,最早研制成功、使用最廣,但數(shù)據(jù)量也最大。PCM的原理框圖如圖所示。PCM的概念§2.3音頻編碼基礎(chǔ)和標(biāo)準(zhǔn)153多媒體技術(shù)基礎(chǔ)及應(yīng)用脈沖編碼調(diào)制(PCM)脈沖編碼調(diào)制概念上最簡(jiǎn)單、理論上最完善脈沖編碼調(diào)制(PCM)—

均勻量化和非均勻量化均勻量化、非均勻量化和量化誤差非線性量化的基本思想在非線性量化中,采樣輸入信號(hào)幅度和量化輸出數(shù)據(jù)之間定義了兩種對(duì)應(yīng)關(guān)系,這是基于對(duì)語(yǔ)音信號(hào)的統(tǒng)計(jì)分析后由CCITT建議的:m律壓擴(kuò)算法和A律壓擴(kuò)算法§2.3音頻編碼基礎(chǔ)和標(biāo)準(zhǔn)154多媒體技術(shù)基礎(chǔ)及應(yīng)用脈沖編碼調(diào)制(PCM)—

均勻量化和非均勻量化均勻量化、非音頻編碼標(biāo)準(zhǔn)G.711公布于1972年的話音編碼標(biāo)準(zhǔn)。采樣率8kHz;將采樣樣本精度為13、14或16位的輸入信號(hào),使用m律壓擴(kuò)編碼或者使用A律壓擴(kuò)編碼;經(jīng)過(guò)PCM編碼器之后每個(gè)樣本的精度為8位,輸出的數(shù)據(jù)率為64kb/s。§2.3音頻編碼基礎(chǔ)和標(biāo)準(zhǔn)155多媒體技術(shù)基礎(chǔ)及應(yīng)用音頻編碼標(biāo)準(zhǔn)G.711公布于1972年的話音編碼標(biāo)準(zhǔn)?!?自適應(yīng)脈碼調(diào)制概念A(yù)PCM是根據(jù)輸入信號(hào)幅度大小來(lái)改變量化階大小的一種波形編碼技術(shù)。自適應(yīng)可以是:瞬時(shí)自適應(yīng)音節(jié)自適應(yīng)§2.3音頻編碼基礎(chǔ)和標(biāo)準(zhǔn)156多媒體技術(shù)基礎(chǔ)及應(yīng)用自適應(yīng)脈碼調(diào)制概念A(yù)PCM是根據(jù)輸入信號(hào)幅度大小來(lái)改變量化階APCM的量化階改變量化階大小的方法有兩種:前向自適應(yīng)根據(jù)未量化的樣本值的均方根值來(lái)估算輸入信號(hào)的電平,以此來(lái)確定量化階的大小,并對(duì)其電平進(jìn)行編碼作為邊信息(sideinformation)傳送到接收端。后向自適應(yīng)§2.3音頻編碼基礎(chǔ)和標(biāo)準(zhǔn)157多媒體技術(shù)基礎(chǔ)及應(yīng)用APCM的量化階改變量化階大小的方法有兩種:§2.3音頻編APCM的量化階改變量化階大小的方法有兩種:前向自適應(yīng)根據(jù)未量化的樣本值的均方根值來(lái)估算輸入信號(hào)的電平,以此來(lái)確定量化階的大小,并對(duì)其電平進(jìn)行編碼作為邊信息(sideinformation)傳送到接收端。后向自適應(yīng)§2.3音頻編碼基礎(chǔ)和標(biāo)準(zhǔn)158多媒體技術(shù)基礎(chǔ)及應(yīng)用APCM的量化階改變量化階大小的方法有兩種:§2.3音頻編差分脈碼調(diào)制(DPCM)DPCM的思想:根據(jù)過(guò)去的樣本去估算下一個(gè)樣本信號(hào)的幅度大小(稱為預(yù)測(cè)值),然后對(duì)實(shí)際信號(hào)值與預(yù)測(cè)值之差進(jìn)行量化編碼,從而就減少了表示每個(gè)樣本信號(hào)的位數(shù)。DPCM原理示意圖§2.3音頻編碼基礎(chǔ)和標(biāo)準(zhǔn)159多媒體技術(shù)基礎(chǔ)及應(yīng)用差分脈碼調(diào)制(DPCM)DPCM的思想:根據(jù)過(guò)去的樣本去估自適應(yīng)差分脈碼調(diào)制ADPCM的核心思想:自適應(yīng)量化:利用自適應(yīng)的思想改變量化階的大小;自適應(yīng)預(yù)測(cè):使用過(guò)去的樣本值估算下一個(gè)輸入樣本的預(yù)測(cè)值,使實(shí)際樣本值和預(yù)測(cè)值之間的差值總是最小。ADPCM框圖?!?.3音頻編碼基礎(chǔ)和標(biāo)準(zhǔn)160多媒體技術(shù)基礎(chǔ)及應(yīng)用自適應(yīng)差分脈碼調(diào)制ADPCM的核心思想:§2.3音頻編碼基G.721ADPCM編譯碼器CCITT制定的G.721推薦標(biāo)準(zhǔn)叫做32kb/s自適應(yīng)差分脈沖編碼調(diào)制。在此基礎(chǔ)上還制定了G.721的擴(kuò)充推薦標(biāo)準(zhǔn)G.723,使用該標(biāo)準(zhǔn)的編碼器其數(shù)據(jù)率可降低到40kb/s和24kb/s?!?.3音頻編碼基礎(chǔ)和標(biāo)準(zhǔn)161多媒體技術(shù)基礎(chǔ)及應(yīng)用G.721ADPCM編譯碼器CCITT制定的G.721G.721ADPCM編譯碼器CCITT推薦的G.721ADPCM標(biāo)準(zhǔn)是一個(gè)代碼轉(zhuǎn)換系統(tǒng)。它使用ADPCM轉(zhuǎn)換技術(shù),實(shí)現(xiàn)64kb/sA律或μ律PCM速率和32kb/s速率之間的相互轉(zhuǎn)換。

ADPCM編碼器框圖ADPCM解碼器框圖§2.3音頻編碼基礎(chǔ)和標(biāo)準(zhǔn)162多媒體技術(shù)基礎(chǔ)及應(yīng)用G.721ADPCM編譯碼器CCITT推薦的G.721G.721ADPCM編譯碼器G.721ADPCM編譯碼器的輸入是G.711PCM代碼(8位),其采樣率8kHz,數(shù)據(jù)率是64kb/s。G.721的輸出是:4位差分信號(hào),采樣率仍然是8kHz,數(shù)據(jù)率32kb/s。數(shù)據(jù)率從64kb/s變換為32kb/s,壓縮率2:1?!?.3音頻編碼基礎(chǔ)和標(biāo)準(zhǔn)163多媒體技術(shù)基礎(chǔ)及應(yīng)用G.721ADPCM編譯碼器G.721ADPCM編譯G.722SB-ADPCM編譯碼器G.722推薦標(biāo)準(zhǔn)(“數(shù)據(jù)率為64kb/s的7kHz聲音信號(hào)編碼”),把話質(zhì)提高到了AM廣播質(zhì)量,而其數(shù)據(jù)率仍保持為64kb/s(16kHz采樣)。G.722采用高低兩個(gè)子帶(子帶的劃分以4KHz為界),然后再對(duì)每個(gè)子帶采用類似G.721建議的ADPCM。§2.3音頻編碼基礎(chǔ)和標(biāo)準(zhǔn)164多媒體技術(shù)基礎(chǔ)及應(yīng)用G.722SB-ADPCM編譯碼器G.722推薦標(biāo)準(zhǔn)(“子帶編碼(SBC)子帶編碼的基本思想:使用一組帶通濾波器(band-passfilter,BPF)把輸入音頻信號(hào)的頻帶分成若干個(gè)連續(xù)的頻段,每個(gè)頻段稱為子帶。對(duì)每個(gè)子帶中的音頻信號(hào)采用單獨(dú)的編碼方案去編碼。在信道上傳送時(shí),將每個(gè)子帶的代碼復(fù)合起來(lái)。在接收端譯碼時(shí),將每個(gè)子帶的代碼單獨(dú)譯碼,然后把它們組合起來(lái),還原成原來(lái)的音頻信號(hào)。子帶編碼的方塊圖如圖3-17所示,圖中的編碼/譯碼器,可以采用ADPCM,APCM,PCM等。§2.3音頻編碼基礎(chǔ)和標(biāo)準(zhǔn)165多媒體技術(shù)基礎(chǔ)及應(yīng)用子帶編碼(SBC)子帶編碼的基本思想:§2.3音頻編碼基礎(chǔ)G.728低延時(shí)-碼激勵(lì)

線性預(yù)測(cè)編碼是以美國(guó)AT&T公司貝爾實(shí)驗(yàn)室提出的LD_CELP(低延時(shí)碼激勵(lì)線性預(yù)測(cè))算法為基礎(chǔ),它充分考慮了聽覺特性。其基本思想如下:§2.3音頻編碼基礎(chǔ)和標(biāo)準(zhǔn)166多媒體技術(shù)基礎(chǔ)及應(yīng)用G.728低延時(shí)-碼激勵(lì)

線性預(yù)測(cè)編碼是以美國(guó)AT&T公DL_CELP編碼思想(a)1.語(yǔ)音輸入每幀5個(gè)取樣值,并附上10bit的描述激勵(lì)信號(hào)波形與增益的信息;2.編碼時(shí)用事先準(zhǔn)備好的激勵(lì)矢量的所有組合去合成語(yǔ)音;§2.3音頻編碼基礎(chǔ)和標(biāo)準(zhǔn)167多媒體技術(shù)基礎(chǔ)及應(yīng)用DL_CELP編碼思想(a)1.語(yǔ)音輸入每幀5個(gè)取樣值,并DL_CELP編碼思想(b)3.將合成結(jié)果與輸入信號(hào)相比較,選出聽覺加權(quán)后距離最小的碼元作為信息傳輸;4.解碼端將發(fā)送端制定的激勵(lì)矢量、3bit增益碼以及自身已經(jīng)合成過(guò)的語(yǔ)音波形一起合成為語(yǔ)音。§2.3音頻編碼基礎(chǔ)和標(biāo)準(zhǔn)168多媒體技術(shù)基礎(chǔ)及應(yīng)用DL_CELP編碼思想(b)3.將合成結(jié)果與輸入信號(hào)相比較MPEG-1中的音頻概況:Mpeg標(biāo)準(zhǔn)是由ISO/IEC的運(yùn)動(dòng)圖像專家組(WG11)制定的。該系列已推出Mpeg-1、Mpeg-2、Mpeg-4、Mpeg-7,目前正在研究討論Mpeg-21?!?.3音頻編碼基礎(chǔ)和標(biāo)準(zhǔn)169多媒體技術(shù)基礎(chǔ)及應(yīng)用MPEG-1中的音頻概況:Mpeg標(biāo)準(zhǔn)是由ISO/IECMPEG-1的音頻標(biāo)準(zhǔn)ISO/IEC11172-3(Mpeg音頻標(biāo)準(zhǔn))編碼器的輸入和解碼器的輸出與PCM標(biāo)準(zhǔn)兼容MPEG-1的數(shù)據(jù)率:由參數(shù)控制§2.3音頻編碼基礎(chǔ)和標(biāo)準(zhǔn)170多媒體技術(shù)基礎(chǔ)及應(yīng)用MPEG-1的音頻標(biāo)準(zhǔn)ISO/IEC11172-3(MpegMPEG中的音頻編碼Mpeg中的音頻采用子帶編碼(SBC).子帶編碼的根據(jù):聽覺系統(tǒng)的隱蔽特性;重構(gòu)的聲音與編碼前的信號(hào)不同,但對(duì)聽覺來(lái)講是“無(wú)損壓縮”有四種編碼模式?!?.3音頻編碼基礎(chǔ)和標(biāo)準(zhǔn)171多媒體技術(shù)基礎(chǔ)及應(yīng)用MPEG中的音頻編碼Mpeg中的音頻采用子帶編碼(SBC).MPEG中的音頻

編碼器§2.3音頻編碼基礎(chǔ)和標(biāo)準(zhǔn)172多媒體技術(shù)基礎(chǔ)及應(yīng)用MPEG中的音頻

編碼器§2.3音頻編碼基礎(chǔ)和標(biāo)準(zhǔn)68多媒MPEG中的音頻編碼層次MPEG聲音標(biāo)準(zhǔn)提供三個(gè)獨(dú)立的壓縮層次:層1、層2和層3后繼層次的壓縮比更高,編碼解碼器也更復(fù)雜每層都自含SBC編碼器,高層的SBC可以使用低層SBC的聲音數(shù)據(jù)§2.3音頻編碼基礎(chǔ)和標(biāo)準(zhǔn)173多媒體技術(shù)基礎(chǔ)及應(yīng)用MPEG中的音頻編碼層次MPEG聲音標(biāo)準(zhǔn)提供三個(gè)獨(dú)立的壓縮MPEG中的音頻編碼層次1層1包括將數(shù)字音頻變成32個(gè)子帶的基本映射。將數(shù)據(jù)格式化成塊的固定分段。決定自適應(yīng)位分配的心理聲學(xué)模型。利用塊壓擴(kuò)合格石化的量化器。編碼/解碼理論延時(shí)最小為19ms,數(shù)據(jù)傳輸率384kb/s?!?.3音頻編碼基礎(chǔ)和標(biāo)準(zhǔn)174多媒體技術(shù)基礎(chǔ)及應(yīng)用MPEG中的音頻編碼層次1層1包括將數(shù)字音頻變成32個(gè)子帶MPEG中的音頻編碼層次2層2提供了位分配,縮放因子和抽樣的附加編碼。使用了不同的幀格式。理論上最小編解碼延時(shí)35ms,數(shù)據(jù)傳輸率256kb/s~192kb/s。用于數(shù)字廣播、CD-I、VCD等?!?.3音頻編碼基礎(chǔ)和標(biāo)準(zhǔn)175多媒體技術(shù)基礎(chǔ)及應(yīng)用MPEG中的音頻編碼層次2層2提供了位分配,縮放因子和抽樣MPEG中的音頻編碼層次3層3采用混合帶通濾波器以提高頻率分辨率。增加了差值量化、自適應(yīng)分段和量化值的熵編碼。理論上最小編解碼延時(shí)59ms,數(shù)據(jù)傳輸率64kb/s。用于ISDN上的聲音傳播?!?.3音頻編碼基礎(chǔ)和標(biāo)準(zhǔn)176多媒體技術(shù)基礎(chǔ)及應(yīng)用MPEG中的音頻編碼層次3層3采用混合帶通濾波器以提高頻率MPEG的聲音壓縮率128~112(kbps)10:1~12:13256~192(kbps)6:1~8:12384(kbps)4:11立體聲信號(hào)所對(duì)應(yīng)的位率壓縮率層次§2.3音頻編碼基礎(chǔ)和標(biāo)準(zhǔn)177多媒體技術(shù)基礎(chǔ)及應(yīng)用MPEG的聲音壓縮率128~112(kbps)10:1~1MPEG中的音頻解碼解碼器按編碼器定義的語(yǔ)法接受壓縮的音頻數(shù)據(jù)流,按解碼部分的方法解出數(shù)據(jù)元素,按濾波器的規(guī)定用這些數(shù)據(jù)產(chǎn)生數(shù)字音頻輸出。§2.3音頻編碼基礎(chǔ)和標(biāo)準(zhǔn)178多媒體技術(shù)基礎(chǔ)及應(yīng)用MPEG中的音頻解碼解碼器按編碼器定義的語(yǔ)法接受壓縮的音頻MPEG音頻解碼結(jié)構(gòu)框圖§2.3音頻編碼基礎(chǔ)和標(biāo)準(zhǔn)179多媒體技術(shù)基礎(chǔ)及應(yīng)用MPEG音頻解碼結(jié)構(gòu)框圖§2.3音頻編碼基礎(chǔ)和標(biāo)準(zhǔn)75多DOLBYAC-3編碼和解碼由美國(guó)DOLBY實(shí)驗(yàn)室開發(fā)提供5.1聲道從20Hz~20KHz的平滑帶寬(圖)將

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論