多媒體技術(shù)及應(yīng)用(第3版) 課件第2章 音頻處理技術(shù)與應(yīng)用16-9_第1頁
多媒體技術(shù)及應(yīng)用(第3版) 課件第2章 音頻處理技術(shù)與應(yīng)用16-9_第2頁
多媒體技術(shù)及應(yīng)用(第3版) 課件第2章 音頻處理技術(shù)與應(yīng)用16-9_第3頁
多媒體技術(shù)及應(yīng)用(第3版) 課件第2章 音頻處理技術(shù)與應(yīng)用16-9_第4頁
多媒體技術(shù)及應(yīng)用(第3版) 課件第2章 音頻處理技術(shù)與應(yīng)用16-9_第5頁
已閱讀5頁,還剩49頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

多媒體技術(shù)與應(yīng)用

第2章音頻處理技術(shù)與應(yīng)用電信學(xué)院計算機系2.1.1聲音的基本特征2.1.2音頻的數(shù)字化2.1.3智能語音處理技術(shù)2.1音頻處理基礎(chǔ)1.聲波(1)聲波:由各種機械振動或氣流擾動引起周圍的彈性媒質(zhì)發(fā)生波動。(2)聲源:產(chǎn)生聲波的物體,如人的聲帶和樂器等。(3)聲音:人的聽覺系統(tǒng)所能感知到的聲波。

頻率(Hz)20300300020000語音音頻次聲波超聲波(1)聲波信號的物理特征2.聲音的基本特征周期(T):相鄰兩個波峰或波谷之間的時間。頻率(f):周期的倒數(shù)(f=1/T),即每秒波峰或波谷出現(xiàn)的次數(shù)。幅度:從基線到波峰或波谷的距離,幅度越大聲音越響。音調(diào):由發(fā)聲物體的振動頻率決定。頻率越大(即振動越快),音調(diào)越高,反之音調(diào)越低。(2)聲音信號的心理學(xué)特征音色:主觀評價聲音的量,聲音的音色取決于聲音的頻譜結(jié)構(gòu),高次諧波越豐富,音色越明亮并具有穿透力。響度:人耳對聲音強弱的感覺程度,主要取決于振幅和聲壓。人耳距離聲源越遠,聲音越小。人們感知到的聲音特征:音調(diào)、音色和響度 聲音的頻率范圍越寬,聲音的質(zhì)量越高。(3)聲音質(zhì)量的評價質(zhì)量頻率范圍采樣頻率(kHz)采樣精度(bits)聲道數(shù)數(shù)據(jù)率(kB/s)電話200~3400Hz88單聲道8AM100~5500Hz11.0258單聲道11.0FM20~11000Hz22.05016立體聲88.2CD-DA5~20000Hz44.116立體聲176.4DVD0~96000Hz192246聲道12002)信噪比:有用信號與噪音信號的強度之比(分貝)。3)聲音質(zhì)量的主觀度量:大多數(shù)人對聲音質(zhì)量的感覺。1)聲音質(zhì)量分級:按聲音頻率范圍將聲音質(zhì)量分為5級

音頻信號:通過麥克風(fēng)等設(shè)備轉(zhuǎn)換成的電信號。規(guī)則音頻信號:帶有語音、音樂和音效的有規(guī)律的音頻信號。

語音:語言的載體,有豐富的語言內(nèi)涵。

音樂:是一種規(guī)范的符號化的聲音。

音效:自然界中各種聲音效果,如掌聲和雷聲等。不規(guī)則音頻信號:不包含任何信息的聲音,如噪聲。3.音頻信號的表示2)音頻信號的波形表示3)音頻信號的頻譜表示

聲音信號的頻率分布曲線。男聲的基頻較低,低頻分量更加豐富,聽起來會更加低沉、渾厚。ω0:聲音的基音,決定了音調(diào)的高低nω0:聲音的泛音,決定了聲音的音色An:聲波的振幅,表示聲音的強弱1)音頻信號的數(shù)學(xué)表示“同濟大學(xué)”女聲“同濟大學(xué)”男聲3.音頻信號的表示2.1.1聲音的基本特征2.1.2音頻的數(shù)字化2.1.3智能語音處理技術(shù)2.1音頻處理基礎(chǔ)(1)采樣:聲音信號在時間上的離散化。即每隔一定時間抽取一個信號樣本采樣頻率:每秒采樣的次數(shù)。奈奎斯特理論:采樣頻率不低于聲音信號最高頻率的兩倍,這樣就能把數(shù)字聲音還原成原來的聲音,稱為無損數(shù)字化。語音的最高頻率約為3.4kHz,電話采樣頻率為8kHz;音頻的最高頻率為20kHz,CD音質(zhì)的采樣頻率為44.1kHz;1.音頻信號的數(shù)字化聲波在時間和幅度上都是連續(xù)的,是一種模擬信號。數(shù)字化過程:就是采樣、量化和編碼的過程。采樣過程中對每一個采樣點的幅度值用數(shù)字量來表示。(2)量化:聲音信號在幅度上的離散化采樣精度:即量化的位數(shù),8位可以將幅度分成256等份,位數(shù)越多量化等級數(shù)也越多,所能表示的聲波幅度的動態(tài)范圍也越大,當(dāng)然需要的存儲空間也越大。如果幅度的劃分是等間隔的,則稱為線性量化,否則為非線性量化。(3)編碼如何計算數(shù)字化音頻的數(shù)據(jù)量?數(shù)據(jù)量=采樣頻率*采樣精度*采樣時間*聲道數(shù)/8(字節(jié)數(shù))例2.1計算1分鐘未壓縮的高保真立體聲數(shù)字聲音數(shù)據(jù)的大小。60*(44100*16*2)/8=10.09MB一個容量為4GB的MP3播放器可存放100首這樣的歌曲。脈沖編碼調(diào)制法(PCM):用二進制來表示每一個有固定電平的量化值。2.數(shù)字音頻壓縮標(biāo)準(zhǔn)(1)電話質(zhì)量的語音壓縮標(biāo)準(zhǔn)G.711,G.721,

G.723,G.729等采樣頻率:8kHz,量化位數(shù):8位(2)調(diào)幅廣播語音壓縮標(biāo)準(zhǔn)G.722:第一個寬帶語音編碼算法,采樣頻率:16kHz(3)寬帶音頻壓縮標(biāo)準(zhǔn)

MPEG-1的音頻:第一個高保真立體聲音頻壓縮國際標(biāo)準(zhǔn),提供三個獨立的壓縮層次,mp3則采用了其中第三層的標(biāo)準(zhǔn)。WAV文件:波形文件,文件大,適合存儲簡短的聲音片段和旁白。MP3文件:是MPEG音頻第3層的簡稱,有損壓縮,壓縮比達12:1。RA文件:RealMedia音頻部分,采用流式傳輸,適合在線聆聽。WMA文件:微軟推出的流式音頻格式。AC3文件:又叫杜比數(shù)碼環(huán)繞立體聲,提供5個全頻域聲道和1個超低音聲道,稱為5.1聲道,一般作為DVD的伴音。AIFF

文件:Apple公司開發(fā),被Macintosh平臺及其應(yīng)用程序所支持。FLAC文件:無損壓縮,源碼開放,支持所有操作系統(tǒng)平臺。AMR文件:移動通信中廣泛使用的語音標(biāo)準(zhǔn),用于保存手機錄音。3.常見音頻文件2.1.1聲音的基本特征2.1.2音頻的數(shù)字化2.1.3智能語音處理技術(shù)2.1音頻處理基礎(chǔ)語音識別:讓計算機能夠聽懂人說話1.語音識別技術(shù)Windows的語音識別語音合成的三個層次

從文字到語音從概念到語音從意向到語音語音合成的特點標(biāo)準(zhǔn)清晰,但缺少感情色彩語音合成的應(yīng)用文語轉(zhuǎn)換、語音查詢2.語音合成技術(shù)語音合成:使計算機具有類似人的說話能力2.2.1基本操作2.2.2音頻的編輯2.2.3效果控制2.2.4多軌合成與混縮輸出2.2AdobeAuditionCCAudition的操作界面(單軌)

Audition的操作界面(多軌)

1.新建和保存項目(1)新建多軌合成項目(2)保存項目項目文件中保存的是:1)導(dǎo)入了哪些素材(存放快捷方式)2)放置在什么軌道3)設(shè)置了什么參數(shù)4)添加了什么效果(1)新建音頻文件2.新建和保存波形(2)保存音頻文件文件/打開文件/導(dǎo)入Ctrl+i打開視頻,支持avi,mov,mp4,wmv等視頻格式。CC版可以直接在單軌下播放;拖放到多軌下,音頻與視頻自動分離,放在不同的軌道上,畫面顯示在視頻面板。3.打開文件提取CD中的音頻類似于WindowsMediaPlayer中的翻錄VCD光盤中伴奏的提取伴奏原唱梁祝.mov鎖定原唱所在聲道執(zhí)行菜單“編輯/復(fù)制到新文件”即可提取伴奏伴奏沉默是金.mp4原唱4.錄音麥克風(fēng)的選擇(信噪比越大越好)1)動圈麥和電容麥(專業(yè))2)全指向和單一指向3)有線和無線在麥克風(fēng)的“高級”屬性中,選擇聲卡合適的輸入格式,然后重啟Audition。無法錄音的問題(1)外錄:選擇麥克風(fēng),單擊錄制。(2)內(nèi)錄:選擇立體聲混音,播放視頻或音頻,單擊錄制即可。單軌下錄音注意:1)錄制的波形振幅要盡量大;2)沒有聲音的地方應(yīng)該是一條直線,否則有噪音;3)可以將錄錯的波形調(diào)到靜音以后重新錄制;多軌下錄音背景音樂錄制的波形(1)新建多軌合成項目(2)導(dǎo)入伴奏(3)按下R,使該軌道進入錄音狀態(tài)(4)定位好時間線(5)單擊錄制按鈕穿插錄音對已經(jīng)錄制好的聲音片段進行重新錄制注意:只有選區(qū)內(nèi)會錄音,不影響其他波形。選取重錄部分按下定位好時間線點按(自動清除選區(qū))2.2.1基本操作2.2.2音頻的編輯2.2.3效果控制2.2.4多軌合成與混縮輸出2.2AdobeAuditionCC1.單軌下的編輯(1)波形的選取拖曳鼠標(biāo)左鍵即可選擇單個聲道的波形(把另一聲道鎖定)(2)波形移動與復(fù)制(剪切、復(fù)制與粘貼、混合粘貼)(3)波形的裁剪與刪除裁剪:只留下選擇的波形,其余刪除刪除:刪除選擇的波形,后面的波形會自動前移,若刪除的是單個聲道的波形,則不影響后面的波形,實質(zhì)設(shè)為靜音。(5)波形的反相與反向反相:波形相位的反轉(zhuǎn)反向:前后反向,達到逆向播放的效果反相前的波形反相后的波形反向后的波形反向前的波形2.多軌下的編輯音量旋鈕:背景音量降低,旁白音量提升聲相旋鈕:可控制聲音在左耳與右耳之間的均衡輸入:默認為立體聲,若選擇“無”,則不能錄音輸出:默認為主控,若選擇“無”,則不會發(fā)聲(1)多軌面板效果發(fā)送輸入/輸出軌道名EQ靜音獨奏錄音音量旋鈕聲相旋鈕輸入輸出音軌自動化監(jiān)視輸入切換節(jié)拍器切換全局剪輯伸縮切換對齊移動工具:左鍵移動選中的波形片段,右鍵拖移可移動或復(fù)制波形片段。剃刀工具:在單擊處剪開波形滑動工具:用于滑動選擇想要的波形片段時間選擇工具:左鍵選波形,右鍵移動波形(2)工具欄框選、套索和筆刷工具:在單軌狀態(tài)下單擊頻譜頻率顯示,用于選取所要操作的頻譜區(qū)域。污點修復(fù)工具:修復(fù)頻譜信號,一般是不到4秒的劣音,如咔噠聲,破音等移動工具剃刀滑動工具時間選擇框選套索筆刷污點修復(fù)頻譜頻率頻譜音調(diào)(3)多軌下編輯拆分:在當(dāng)前時間線位置剪開時間鎖定:只能上下移動,不能左右移動刪除“編輯|刪除”:刪除選中的波形片段,不影響該軌道上的其他波形“編輯|波紋刪除”:將選定的波形刪除,其后面的波形會自動前移“波紋刪除|gap”,把兩個波形之間的空隙刪除循環(huán):拖曳波形的邊界,可以使波形往前或往后重復(fù)出現(xiàn)靜音:使選定的波形片段靜音淡入淡出:設(shè)置開始時淡入,結(jié)束時淡出(4)包絡(luò)編輯包絡(luò)編輯:一般用于控制聲音屬性的變化音量包絡(luò):控制音量的變化,如淡入淡出或忽高忽低聲相包絡(luò):控制聲相的變化,實現(xiàn)左耳和右耳的均衡展開擴展控制區(qū)音量包絡(luò)線靜音包絡(luò)線聲相包絡(luò)線2.2.1基本操作2.2.2音頻的編輯2.2.3效果控制2.2.4多軌合成與混縮輸出2.2AdobeAuditionCC作用于選定的波形(默認為全選),屬于破壞性編輯。單軌下加效果作用于整個軌道上的所有波形片段,不會立即改變波形,在混縮輸出時才會改變波形。多軌下加效果錄音人聲處理的一般步驟效果|恢復(fù)|降噪處理降低環(huán)境噪音效果|幅度|標(biāo)準(zhǔn)化使音量達到最大不失真效果|幅度|動態(tài)處理避免聲音忽高忽低效果|延遲效果|混響使聲音更加豐滿降噪標(biāo)準(zhǔn)化處理壓限人聲潤色1.降噪1)選擇環(huán)境噪音樣本信號;2)效果/降噪/捕捉噪聲樣本;3)單擊“選擇完整文件”;4)單擊“應(yīng)用”即可;噪音樣本2.診斷

在診斷面板中選擇對應(yīng)的效果,通過預(yù)設(shè)選擇合適的參數(shù),先掃描是否存在問題,檢測到問題后再點擊“修復(fù)”或“全部修復(fù)”。3.振幅與壓限增幅:提升或降低音量,直接改變振幅大小。聲道混合:可用于人聲消除。動態(tài)處理:以圖形方式顯示,能直觀地實現(xiàn)壓限。標(biāo)準(zhǔn)化:使音量達到最大化不失真的程度。音量包絡(luò):控制音量的變化可實現(xiàn)聲音淡入淡出)效果|振幅與壓限|聲道混合器例:人聲消除

比較:未添加任何效果的人聲消除,

添加了混響的人聲消除效果|立體聲聲像|中置聲道提取,選擇預(yù)設(shè)“人聲移除”4.延遲與回聲

通過設(shè)置延遲時間和反饋等參數(shù)模擬聲音在空間傳播中的漫反射效果。5.調(diào)制

通過設(shè)置延遲時間、延遲率、反饋和擴散等參數(shù)模擬和聲效果。6.濾波與均衡濾波:一般用于過濾掉某些頻率成分的波形高通:讓高頻部分通過低通:讓低頻部分通過均衡器:通過調(diào)節(jié)各個頻率段的振幅達到改變音色的目的。單軌下:效果|濾波與均衡多軌下:切換到EQ

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論