第2章-音頻信息處理教學(xué)課件_第1頁
第2章-音頻信息處理教學(xué)課件_第2頁
第2章-音頻信息處理教學(xué)課件_第3頁
第2章-音頻信息處理教學(xué)課件_第4頁
第2章-音頻信息處理教學(xué)課件_第5頁
已閱讀5頁,還剩33頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1.聲波

(1)聲波:由各種機(jī)械振動(dòng)或氣流擾動(dòng)引起周圍的彈性媒質(zhì)發(fā)生波動(dòng)。

(2)聲源:產(chǎn)生聲波的物體,如人的聲帶和樂器等。

(3)聲音:人的聽覺系統(tǒng)所能感知到的聲波。

音頻的頻率范圍:20Hz~20000Hz

語音的頻率范圍:300Hz~3000Hz

次聲波的頻率范圍:<20Hz

超聲波的頻率范圍:

>20kHz(4)聲強(qiáng):對(duì)于一定頻率的聲音,要能引起聽覺,其聲強(qiáng)也有一定的范圍。

下限:是恰能引起人聽覺的最小聲強(qiáng),叫做該頻率的可聞閾;

上限:是指人耳能聽聞的最大聲強(qiáng),高于上限的聲強(qiáng),人耳感覺疼痛,所以叫做該頻率的疼痛閾。常見聲音的分貝量級(jí)分貝數(shù)低于2020~4040~6060~7070~90>90聽覺效果能分辨輕聲正常交談聲吵鬧很吵聽力受損2.聲音的基本特征(1)聲波信號(hào)的物理特征

周期(T):聲波的兩個(gè)波峰或波谷之間的相對(duì)時(shí)間。

頻率(f):周期的倒數(shù)(f=1/T),即每秒波峰或波谷出現(xiàn)的次數(shù)。

幅度:從聲波信號(hào)的基線到波峰的距離,幅度越大聲波的強(qiáng)度也越大。通常也用聲壓、聲強(qiáng)或聲功率來表示聲音的強(qiáng)弱。

人們感知到的聲音特征稱為心理學(xué)特征音調(diào):由發(fā)聲物體的振動(dòng)頻率決定,振動(dòng)越快(即頻率越大),音調(diào)越高,振動(dòng)越慢,音調(diào)越低。

音色:這是一個(gè)主觀評(píng)價(jià)聲音的量,聲音的音色取決于聲音的頻譜結(jié)構(gòu),一般高次諧波越豐富,音色越明亮并具有穿透力。響度:人耳對(duì)聲音強(qiáng)弱的感覺程度,主要取決于振幅和聲壓。通常振幅越大聲音越響,其次人耳距離聲源越遠(yuǎn),聲音越小。(2)聲音信號(hào)的心理學(xué)特征

(3)聲音質(zhì)量的評(píng)價(jià)

聲音質(zhì)量與帶寬有關(guān),頻率范圍越寬,聲音質(zhì)量越高。1)聲音質(zhì)量分級(jí):按照聲音信號(hào)的頻率范圍將聲音質(zhì)量分為5級(jí)。質(zhì)量頻率范圍采樣頻率(kHz)采樣精度(bits)聲道數(shù)數(shù)據(jù)率(非壓縮)(kB/s)電話200~3400Hz88單道聲8AM100~5500Hz11.0258單道聲11.0FM20~11000Hz22.05016立體聲88.2CD-DA5~20000Hz44.116立體聲176.4DVD0~96000Hz192246聲道12002)信噪比(SNR):即有用信號(hào)與噪音信號(hào)的強(qiáng)度之比,單位是分貝。3)聲音質(zhì)量的主觀度量:主觀度量就是大多數(shù)人對(duì)聲音質(zhì)量的感覺。3.音頻信號(hào)的表示(1)音頻信號(hào):通過麥克風(fēng)等設(shè)備轉(zhuǎn)換成的電信號(hào)。規(guī)則音頻信號(hào):帶有語音、音樂和音效的有規(guī)律的音頻信號(hào),承載了一定的信息。

語音:語言的載體,有豐富的語言內(nèi)涵,是人類交流的信息載體。

音樂:是一種規(guī)范的符號(hào)化的聲音。

音效:自然界中各種聲音效果,如掌聲、雷鳴聲,爆破聲等。不規(guī)則音頻信號(hào):不包含任何信息的聲音,比如噪聲。(2)音頻信號(hào)的表示

1)音頻信號(hào)的數(shù)學(xué)表示ω0:聲音的基音,決定了音調(diào)的高低nω0:聲音的泛音,決定了聲音的音色An:聲波的振幅,表示聲音的強(qiáng)弱2)音頻信號(hào)的波形表示3)音頻信號(hào)的頻譜表示

聲音信號(hào)的頻率分布曲線。復(fù)雜的聲音是由振幅和頻率不同的正弦聲波疊加而成的,這些正弦波的幅值按頻率排列的圖形就叫做頻譜。男聲的基頻較低,低頻分量更加豐富,因此聽起來會(huì)更加低沉、渾厚。1.音頻信號(hào)數(shù)字化

聲音信號(hào)在時(shí)間上是連續(xù)的,在幅度上也是連續(xù)的,屬于模擬信號(hào)。

(1)采樣

聲音信號(hào)在時(shí)間上的離散化,即每隔一段時(shí)間抽取一個(gè)信號(hào)樣本。采樣頻率:每秒采樣的次數(shù)。奈奎斯特理論(Nyquisttheory):采樣頻率不低于聲音信號(hào)最高頻率的兩倍,這樣就能把數(shù)字聲音還原成原來的聲音,稱為無損數(shù)字化。

fs>=2fmax

電話話音信號(hào)的最高頻率約為3.4kHz,所以采樣頻率取為8kHz。2.1.2音頻信號(hào)的數(shù)字化

聲音信號(hào)在幅度上的離散化

也就是采樣過程中對(duì)每一個(gè)采樣點(diǎn)的幅度值用數(shù)字量來表示。如果幅度的劃分是等間隔的,稱為線性量化,否則為非線性量化。采樣精度:即量化的位數(shù),位數(shù)越多量化等級(jí)數(shù)也越多,所能表示的聲波幅度的動(dòng)態(tài)范圍也越大,當(dāng)然需要的存儲(chǔ)空間也越大。

(2)量化(3)編碼就是用一組二進(jìn)制碼組來表示每一個(gè)有固定電平的量化值,或者說將量化值轉(zhuǎn)換成二進(jìn)制碼組。典型的音頻編碼方法:脈沖編碼調(diào)制法(PCM)。(4)數(shù)字音頻的數(shù)據(jù)量

數(shù)據(jù)量=采樣頻率*采樣精度*采樣時(shí)間*聲道數(shù)/8(字節(jié)數(shù))

單聲道:一次只產(chǎn)生一組聲波數(shù)據(jù)

立體聲:一次產(chǎn)生兩組聲波數(shù)據(jù)例2.1

計(jì)算一分鐘未壓縮的高保真立體聲數(shù)字聲音數(shù)據(jù)的大小。

60*(44100*16*2)/8=10.09MB

一首未經(jīng)壓縮的4分鐘的歌曲文件的大小約為40MB,那么一個(gè)容量為512MB的MP3播放器也只能播放12首這樣的歌曲。2.數(shù)字音頻壓縮標(biāo)準(zhǔn)(1)電話質(zhì)量的語音壓縮標(biāo)準(zhǔn)(2)調(diào)幅廣播語音壓縮標(biāo)準(zhǔn)

G.722(3)寬帶音頻壓縮標(biāo)準(zhǔn)標(biāo)準(zhǔn)編碼方法采樣頻率采樣精度數(shù)據(jù)傳輸率G.711PCM8kHz8位64kb/sG.721ADPCM8kHz8位32kb/sG.723ADPCM8kHz8位24kb/sG.728LD-CELP8kHz8位16kb/s

MPEG音頻:第一個(gè)高保真立體聲音頻壓縮的國際標(biāo)準(zhǔn)

MPEG音頻壓縮標(biāo)準(zhǔn)提供三個(gè)獨(dú)立的壓縮層次:1)Layer1:編碼器簡(jiǎn)單,輸出數(shù)據(jù)率為384kb/s,主要用于小型數(shù)字盒式磁帶。2)Layer2:編碼器較復(fù)雜,輸出數(shù)據(jù)率為256kb/s~192kb/s,主要應(yīng)用于數(shù)字廣播聲音、數(shù)字音樂、CD-I和VCD等。3)Layer3:編碼器復(fù)雜,輸出數(shù)據(jù)率為64kb/s,主要用于ISDN(綜合業(yè)務(wù)數(shù)字網(wǎng),一種數(shù)字電話網(wǎng)的國際標(biāo)準(zhǔn))上的聲音傳輸。1.WAV文件:波形文件,微軟開發(fā),需要的存儲(chǔ)量大,多用于存儲(chǔ)簡(jiǎn)短的聲音片段和旁白。2.MIDI文件:記錄的是生成音樂的指令,MIDI文件短小。由于MIDI記錄的并不是真正的聲音,所以不同的聲卡,不同軟波表,不同硬件音源的音色是不相同的,相同的MIDI文件在不同的設(shè)備上播放也會(huì)有不同的效果。MIDI文件適合作為背景音樂來播放。3.MP3文件:是MPEG音頻第3層的簡(jiǎn)稱,有損壓縮,壓縮比達(dá)12:1。MP3利用人耳的掩蔽特性,削減音頻中人耳聽不到的成分,同時(shí)盡可能地維持原來的聲音質(zhì)量。4.RA文件:屬于RealMedia的音頻部分,采用流式傳輸方式,可以在非常低的帶寬下提供足夠好的音質(zhì)讓用戶能在線聆聽。5.WMA文件:WindowsMedia的音頻部分。無損壓縮,支持多聲道編碼。6.AC3文件:又叫杜比數(shù)碼環(huán)繞立體聲,壓縮比10:1,提供的環(huán)繞聲系統(tǒng)由5個(gè)全頻域聲道和1個(gè)超低音聲道組成,稱為5.1聲道,一般作為DVD的伴音。3.數(shù)字音頻文件的格式2)語音識(shí)別系統(tǒng)分類對(duì)說話人說話方式的要求孤立字(詞)語音識(shí)別系統(tǒng)連接字語音識(shí)別系統(tǒng)連續(xù)語音識(shí)別系統(tǒng)。對(duì)說話人的依賴程度特定人語音識(shí)別系統(tǒng)非特定人語音識(shí)別系統(tǒng)詞匯量大小小詞匯量語音識(shí)別系統(tǒng)中等詞匯量語音識(shí)別系統(tǒng)大詞匯量語音識(shí)別系統(tǒng)無限詞匯量語音識(shí)別系統(tǒng)。(1)語音識(shí)別技術(shù)1)語音識(shí)別的發(fā)展50年代:Bell實(shí)驗(yàn)室實(shí)現(xiàn)了第一個(gè)可識(shí)別十個(gè)英文數(shù)字的語音識(shí)別系統(tǒng)——Audry系統(tǒng)。60年代:提出動(dòng)態(tài)規(guī)劃(DP)和線性預(yù)測(cè)分析技術(shù)(LP)。70年代:提出了動(dòng)態(tài)時(shí)間歸正技術(shù),實(shí)現(xiàn)了特定人孤立語音識(shí)別系統(tǒng)。90年代:開始進(jìn)入實(shí)用階段。2.1.3智能語音處理技術(shù)

利用計(jì)算機(jī)合成語音的技術(shù),使計(jì)算機(jī)具有類似人的說話能力。語音合成的三個(gè)層次從文字到語音從概念到語音從意向到語音語音合成技術(shù)的特點(diǎn)清晰度、自然度、表現(xiàn)力、復(fù)雜度語音合成的應(yīng)用文語轉(zhuǎn)換、語音查詢(2)語音合成技術(shù)本小節(jié)介紹的要點(diǎn)Audition軟件的功能Audition界面的組成聲音文件的導(dǎo)入錄音單軌狀態(tài)下的編輯2.2音頻處理軟件AdobeAudition

多軌狀態(tài)下的編輯包絡(luò)編輯效果控制消除人聲多軌合成,混縮輸出一、Audition軟件的界面組成

了解界面的各個(gè)組成部分及其作用重點(diǎn)聲音文件的管理水平和垂直標(biāo)尺的含義以及如何更改電平顯示刻度-60dB~0dB問題:為什么數(shù)字音量的最大標(biāo)記為0dB?1、單軌編輯模式2、多軌編輯模式

二、音頻信號(hào)的獲取1、直接導(dǎo)入文件

2、提取視頻文件中的音頻部分

VCD上的dat文件直接將擴(kuò)展名改為mpg(2.0版可以直接打開)

將mpg格式的視頻利用格式工廠轉(zhuǎn)換成mov格式(CS5.5)

如何提取“沉默是金.mov”中的伴奏注意:左聲道:伴奏(選取后復(fù)制到新文件即可提取伴奏)

右聲道:原唱

3、單軌狀態(tài)下錄音(1)錄音前聲卡的設(shè)置

音頻硬件設(shè)置

注意控制錄音電平(2)“文件|新建音頻文件”(3)單擊“錄音”請(qǐng)觀察自己錄制的人聲其左右聲道的波形是否一樣?Windows7下麥克風(fēng)設(shè)置麥克風(fēng)音量設(shè)置

Win7下不能錄音時(shí),更改該選項(xiàng)(1)保存會(huì)話文件

會(huì)話文件保存了導(dǎo)入的文件以及添加的效果,在多軌下的編排等信息。

(2)導(dǎo)入伴奏

注意控制伴奏的音量(3)按下“R”,軌道進(jìn)入錄音狀態(tài)(4)單擊“

”開始錄音4、多軌狀態(tài)下錄音三、音頻的編輯1、單軌狀態(tài)下(1)波形的選取

注意:?jiǎn)为?dú)選擇左聲道或右聲道(將其中一個(gè)聲道鎖定)(2)波形的剪切、復(fù)制與粘貼注意:混合粘貼(3)波形的裁剪、刪除注意:刪除靜音區(qū)(診斷面板|刪除靜默)(4)波形的反轉(zhuǎn)與倒轉(zhuǎn)的區(qū)別反轉(zhuǎn):波形相位的反轉(zhuǎn)前后反向(倒轉(zhuǎn)):達(dá)到逆向播放的效果2、多軌狀態(tài)下(1)音量旋鈕:可提升或降低當(dāng)前軌道的音量大小一般降低背景音樂所在軌道的音量,提升旁白所在軌道的音量(2)聲相旋鈕:可控制聲音在左耳與右耳之間的均衡輸出(3)輸入:默認(rèn)為立體聲,如果選擇“無”,則該軌道不能進(jìn)行錄音(4)輸出:默認(rèn)為主控,如果選擇“無”,則該軌道不會(huì)發(fā)出聲音,相當(dāng)于靜音(1)工具的選擇

移動(dòng)工具:左鍵用于移動(dòng)選中的波形片段,右鍵拖移可以移動(dòng)或復(fù)制當(dāng)前波形片段。

剃刀工具:在單擊處剪開波形。滑動(dòng)工具:用于滑動(dòng)選擇想要的波形片段。

例如有一個(gè)聲音錄制了30秒,現(xiàn)在截取了第10秒到第20秒的聲音片段,那么利用滑動(dòng)工具在該波形片段上拖曳鼠標(biāo)即可實(shí)現(xiàn)往前或往后滑動(dòng)選擇想要的那10秒的聲音。

時(shí)間選擇工具:左鍵選取波形片段,右鍵移動(dòng)波形。

框選、套索和筆刷工具:在單軌狀態(tài)下單擊工具欄左邊的

(頻譜頻率顯示)按鈕后將激活這些工具按鈕,用于選取所要操作的頻譜區(qū)域。

污點(diǎn)修復(fù)工具:用于修復(fù)頻譜信號(hào)(一般是不到4秒的劣音,如咔噠聲,破音等)。(2)時(shí)間鎖定鎖定音頻的絕對(duì)時(shí)間,只能在上下軌道上移動(dòng),不能左右移動(dòng)(3)波紋刪除

“編輯|刪除(Del)”:那么可以清除選中的波形片段,不影響該軌道上其他波形的位置;

“編輯|波紋刪除”:將選定的波形片段刪除,同時(shí)該軌道上后續(xù)波形后自動(dòng)前移;

“波紋刪除|gap”,把波形之間的空隙刪除;四.包絡(luò)編輯

包絡(luò)編輯:其實(shí)就是控制聲音屬性變化的一種手段(1)音量包絡(luò)

控制音量變化的走勢(shì)曲線,如控制聲音的淡入淡出(2)聲相包絡(luò)

控制聲相變化的走勢(shì)曲線,控制聲音在左耳和右耳的均衡五、EQ均衡EQ均衡器用于調(diào)節(jié)聲音的音色,不改變聲音的音調(diào)。調(diào)節(jié)頻率范圍效果超低音20Hz~

40Hz適當(dāng)時(shí)使聲音強(qiáng)而有力,控制雷聲、低音鼓等,過度提升會(huì)使聲音渾濁不清晰。低音40Hz~

150Hz低音部分是表現(xiàn)音樂風(fēng)格的主要成分,適當(dāng)時(shí)使聲音豐滿而柔和,不足時(shí)使聲音單薄,150Hz處過度提升會(huì)使聲音發(fā)悶,鼻音增強(qiáng)。中低音150Hz~

500Hz是人聲的主要組成部分,不足時(shí)使聲音軟而無力,適當(dāng)提升會(huì)使聲音渾厚有力,提高聲音的力度和響度,過度提升則使會(huì)聲音變得生硬。中音500Hz~

2KHz包含了大多數(shù)樂器的泛音,適當(dāng)時(shí)使聲音明亮透徹,不足時(shí)使聲音變得朦朧,過度提升得到類似電話的聲音。中高音2KHz~

5KHz這部分是弦樂的特征音,不足時(shí)使聲音的穿透力降低。高音5KHz~

8KHz過度提升會(huì)使語音的齒音加重。極高音8KHz~

10KHz過度提升會(huì)使聲音不自然。不同頻率段聲音的效果“效果|濾波與均衡”多軌下,顯示EQ編輯窗口改變音調(diào)“效果|時(shí)間/變調(diào)|伸縮與變調(diào)”童聲處理:Helium

男聲女聲:RaisePitch

女聲男聲:LowPitch六、效果器的應(yīng)用1、單軌狀態(tài)下添加效果

作用于選定的波形,如果不選,默認(rèn)為全選,會(huì)改變波形(屬于破壞性編輯)

效果|調(diào)制|和聲”(即合奏)未加效果的聲音加了效果的聲音預(yù)覽即試聽2、多軌狀態(tài)下添加效果

作用于整個(gè)軌道上的所有波形片

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論