音頻處理技術與應用_第1頁
音頻處理技術與應用_第2頁
音頻處理技術與應用_第3頁
音頻處理技術與應用_第4頁
音頻處理技術與應用_第5頁
已閱讀5頁,還剩25頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

音頻處理技術與應用第一頁,共三十頁,編輯于2023年,星期二2.1音頻處理基礎

2.1.1音頻信號概述

1.聲波

(1)聲波:由各種機械振動或氣流的擾動引起周圍的彈性媒質發(fā)生波動。

(2)聲源:產生聲波的物體,如人的聲帶和樂器等。

(3)聲音:人的聽覺系統(tǒng)所能感知到的聲波。

音頻的頻率范圍:20Hz~20000Hz

語音的頻率范圍:300Hz~3000Hz

次聲波的頻率范圍:<20Hz

超聲波的頻率范圍:>20kHz(4)聲強:對于一定頻率的聲音,要能引起聽覺,其聲強也有一定的范圍。

下限:是恰能引起人聽覺的最小聲強,叫做該頻率的可聞閾;

上限:是指人耳能聽聞的最大聲強,高于上限的聲強,人耳感覺疼痛,所以叫做該頻率的疼痛閾。第二頁,共三十頁,編輯于2023年,星期二2.聲音的基本特征(1)聲波信號的物理特征

周期(T):聲波的兩個波峰或波谷之間的相對時間。

頻率(f):周期的倒數(f=1/T),即每秒波峰或波谷出現的次數。聲波的幅度:從聲波信號的基線到波峰的距離,幅度越大聲波的強度也越大。通常也用聲壓、聲強或聲功率來表示聲音的強弱。

常見聲音的分貝量級分貝數低于2020~4040~6060~7070~90>90聽覺效果能分辨輕聲正常交談聲吵鬧很吵聽力受損第三頁,共三十頁,編輯于2023年,星期二

(2)聲音信號的心理學特征

人們感知到的聲音特征稱為心理學特征。音調:在音樂中又叫音高,是由發(fā)聲物體的振動頻率決定,振動越快(即頻率越大),音調越高,振動越慢,音調越低。音調的高低與聲音基頻的對數(20*log)成線性關系?;l越低,給人的感覺是聲音越低沉,基頻頻率增加一倍,在音樂上就叫升高了一個八度。音色:這是一個主觀評價聲音的量,聲音的音色取決于聲音的頻譜結構,一般高次諧波越豐富,音色越明亮并具有穿透力。響度:人耳對聲音強弱的感覺程度,主要取決于振幅和聲壓。通常振幅越大聲音越響,其次人耳距離聲源越遠,聲音越小。第四頁,共三十頁,編輯于2023年,星期二

(3)聲音質量的評價 聲音質量與帶寬有關,頻率范圍越寬,聲音質量越高。1)聲音質量分級:按照聲音信號的頻率范圍將聲音質量分為5級。質量頻率范圍采樣頻率(kHz)采樣精度(bits)聲道數數據率(非壓縮)(kB/s)電話200~3400Hz88單道聲8AM100~5500Hz11.0258單道聲11.0FM20~11000Hz22.05016立體聲88.2CD-DA5~20000Hz44.116立體聲176.4DVD0~96000Hz192246聲道12002)信噪比(SNR):即有用信號與噪音信號的強度之比,對于聲卡或音箱則是其產生的最大不失真聲音信號強度與同時發(fā)出的噪音強度之比,單位是分貝。3)聲音主觀質量的度量:主觀度量就是大多數人對聲音質量的感覺。第五頁,共三十頁,編輯于2023年,星期二

3.音頻信號的表示聲音信號通過麥克風等設備轉換成電信號以后稱之為音頻信號。

(1)規(guī)則音頻信號

規(guī)則音頻(Audio)是帶有語音、音樂和音效的有規(guī)律的音頻信號,承載了一定的信息。

語音:是語言的載體,有豐富的語言內涵,是人類交流的信息載體。

音樂:是一種規(guī)范的符號化的聲音。

音效:是指自然界中的其他各種聲音效果,如掌聲、雷鳴聲,爆破聲等。

不規(guī)則聲音:不包含任何信息的聲音,比如噪聲。(2)音頻信號的表示

1)音頻信號的數學表示其中:ω0表示聲音的基音,決定了音調的高低,nω0是ω0的n次諧波分量,代表了聲音的泛音,決定了聲音的音色,An

是聲波的振幅,表示聲音的強弱。第六頁,共三十頁,編輯于2023年,星期二2)音頻信號的波形表示3)音頻信號的頻譜表示信號頻譜即信號頻率的分布曲線。復雜的聲音可以認為是振幅不同和頻率不同的正弦聲波疊加而成的,這些正弦聲波的幅值按頻率排列的圖形就叫做頻譜。男聲的基頻較低,低頻分量更加豐富,因此聽起來會更加低沉、渾厚。第七頁,共三十頁,編輯于2023年,星期二

聲音信號是典型的連續(xù)信號,不僅在時間上是連續(xù)的,而且在幅度上也是連續(xù)的,屬于模擬信號。

(1)采樣

聲音信號在時間軸上的離散化,即每隔相等的一段時間抽取一個信號樣本。采樣頻率:每秒采樣的次數。奈奎斯特理論(Nyquisttheory):采樣頻率不應低于聲音信號最高頻率的兩倍,這樣就能把以數字聲音還原成原來的聲音,稱為無損數字化。

fs>=2fmax

電話話音信號的最高頻率約為3.4kHz,所以采樣頻率取為8kHz。2.1.2音頻信號的數字化1.音頻信號數字化第八頁,共三十頁,編輯于2023年,星期二

(2)量化

將連續(xù)的聲音信號的幅度離散化。也就是采樣過程中對每一個采樣點的幅度值用數字量來表示。如果幅度的劃分是等間隔的,稱為線性量化,否則為非線性量化。采樣精度:即量化的位數,位數越多量化等級數也越多,所能表示的聲波幅度的動態(tài)范圍也越大,當然需要的存儲空間也越大。

第九頁,共三十頁,編輯于2023年,星期二

(3)編碼就是用一組二進制碼組來表示每一個有固定電平的量化值,或者說將量化值轉換成二進制碼組。典型的音頻編碼方法:脈沖編碼調制法(PCM)。

(4)數字音頻的數據量

數據量=采樣頻率*采樣精度*采樣時間*聲道數/8(字節(jié)數)

單聲道:一次只產生一組聲波數據,

立體聲:一次產生兩組聲波數據,分別送往左聲道和右聲道,根據聲音到達人耳的時間差產生空間立體效果,因此立體聲聲波數據所需存儲空間是單聲道的一倍。例2.1

計算一分鐘未壓縮的高保真立體聲數字聲音數據的大小。

60*(44100*16*2)/8=10.09MB

一首未經壓縮的4分鐘的歌曲文件的大小約為40MB,那么一個容量為512MB的MP3播放器也只能播放12首這樣的歌曲。第十頁,共三十頁,編輯于2023年,星期二(1)電話質量的語音壓縮標準(2)調幅廣播語音壓縮標準:G.722(3)高保真立體聲的寬帶音頻壓縮標準2.數字音頻壓縮標準標準編碼方法采樣頻率采樣精度數據傳輸率G.711PCM8kHz8位64kb/sG.721ADPCM8kHz8位32kb/sG.723ADPCM8kHz8位24kb/sG.728LD-CELP8kHz8位16kb/s電話質量的語音壓縮標準

MPEG音頻:是第一個高保真立體聲音頻壓縮的國際標準,MPEG音頻壓縮標準提供三個獨立的壓縮層次:1)Layer1:編碼器簡單,輸出數據率為384kb/s,主要用于小型數字盒式磁帶。2)Layer2:編碼器較復雜,輸出數據率為256kb/s~192kb/s,主要應用于數字廣播聲音、數字音樂、CD-I和VCD等。3)Layer3:編碼器復雜,輸出數據率為64kb/s,主要用于ISDN上的聲音傳輸。第十一頁,共三十頁,編輯于2023年,星期二1.WAV文件:波形文件,微軟開發(fā),需要的存儲量大,多用于存儲簡短的聲音片段和旁白。2.MIDI文件:記錄的是生成音樂的指令,MIDI文件短小。由于MIDI記錄的并不是真正的聲音,所以不同的聲卡,不同軟波表,不同硬件音源的音色是不相同的,相同的MIDI文件在不同的設備上播放也會有不同的效果。MIDI文件適合作為背景音樂來播放。3.MP3文件:是MPEG音頻第3層的簡稱,有損壓縮,壓縮比達12:1。MP3利用人耳的掩蔽特性,削減音頻中人耳聽不到的成分,同時盡可能地維持原來的聲音質量。4.RA文件:屬于RealMedia的音頻部分,采用流式傳輸方式,可以在非常低的帶寬下提供足夠好的音質讓用戶能在線聆聽。5.WMA文件:WindowsMedia的音頻部分。無損壓縮,支持多聲道編碼。6.AC3文件:又叫杜比數碼環(huán)繞立體聲,壓縮比10:1,提供的環(huán)繞聲系統(tǒng)由5個全頻域聲道和1個超低音聲道組成,稱為5.1聲道,一般作為DVD的伴音。3.數字音頻文件的格式第十二頁,共三十頁,編輯于2023年,星期二2.1.3數字音頻處理技術

1.數字音頻技術

是一門結合數字技術和計算機技術而實現傳統(tǒng)音頻處理的技術。

(1)特點

1)處理長樣本文件的能力,錄音時間只受硬盤本身大小的限制。

2)隨機存取編輯

3)無損編輯

(2)應用1)聲音剪輯和CD刻錄。2)日常音樂錄制。3)大規(guī)模音樂錄音和混音。4)影視音樂的制作與合成。5)多媒體音樂制作與合成。數字音頻工作站

第十三頁,共三十頁,編輯于2023年,星期二2)語音識別系統(tǒng)分類對說話人說話方式的要求孤立字(詞)語音識別系統(tǒng)連接字語音識別系統(tǒng)連續(xù)語音識別系統(tǒng)。對說話人的依賴程度特定人語音識別系統(tǒng)非特定人語音識別系統(tǒng)詞匯量大小小詞匯量語音識別系統(tǒng)中等詞匯量語音識別系統(tǒng)大詞匯量語音識別系統(tǒng)無限詞匯量語音識別系統(tǒng)。2.智能語音處理技術(1)語音識別技術1)語音識別的發(fā)展50年代:AT&TBell實驗室實現了第一個可識別十個英文數字的語音識別系統(tǒng)——Audry系統(tǒng)。60年代:提出動態(tài)規(guī)劃(DP)和線性預測分析技術(LP)。70年代:提出了動態(tài)時間歸正技術(DTW),矢量量化(VQ)和隱馬爾可夫模型(HMM)理論,實現了特定人孤立語音識別系統(tǒng)。90年代:開始進入實用階段。第十四頁,共三十頁,編輯于2023年,星期二語音合成技術:指利用計算機合成語音信號的技術,使計算機能夠產生高清晰度和高自然度的連續(xù)語音,能夠具有類似普通人的說話能力。語音合成的三個層次從文字到語音從概念到語音從意向到語音語音合成技術的特點清晰度自然度表現力復雜度語音合成的應用文語轉換語音查詢(2)語音合成技術第十五頁,共三十頁,編輯于2023年,星期二2.2音頻處理軟件AdobeAudition

單軌編輯界面2.2.3Audition界面及基本操作

第十六頁,共三十頁,編輯于2023年,星期二多軌編輯界面第十七頁,共三十頁,編輯于2023年,星期二第十八頁,共三十頁,編輯于2023年,星期二2.2.4音頻信號獲取直接讀取計算機磁盤上的音頻文件;提取視頻信息中的音頻信號;直接錄音。Audition允許同時進行多音軌錄音,當然需要有相應的硬件支持,比如多個音頻輸入接口、多個錄音源等。1.錄音前聲卡設置

“選項|Windows錄音控制臺”2.建立錄音文件3.導入伴奏音樂4.控制錄音電平5.錄制聲音第十九頁,共三十頁,編輯于2023年,星期二2.2.5音頻編輯單軌編輯狀態(tài):可以進行波形的各種編輯處理和效果的設置,還可以分別對左右聲道單獨進行編輯處理。多軌編輯狀態(tài):適合對多個音頻軌道進行編輯、錄制和合成處理。最多可以同時處理的軌道數為128個。按鈕“R”表示錄音、“S”表示獨奏、“M”表示靜音。1.常用編輯(1)裁剪音頻波形波形的選擇波形的刪除波形的移動與復制

混合工具:拖曳左鍵選中波形,拖曳右鍵移動波形。

時間選擇工具:拖曳左鍵選中波形。移動/復制剪輯工具:拖曳左鍵移動波形,拖曳右鍵移動或復制。刷選工具:拖曳左鍵可以播放選中波形。第二十頁,共三十頁,編輯于2023年,星期二(2)切分和合并音頻

在多軌編輯狀態(tài)下,可以對活動音軌上的波形進行分割,使其變成多個波形片段,定位播放線,執(zhí)行“剪輯|分割”或右擊鼠標點選“分割”。使兩段波形首尾相接,按住Ctrl鍵將兩段波形都選中,執(zhí)行“剪輯|合并”或右擊鼠標點選“合并”即可完成。(3)鎖定音頻波形鎖定使音頻的絕對時間位置不變。(4)編組音頻波形編組則可以使多個音頻片段的相對位置固定,移動時可整體移動。第二十一頁,共三十頁,編輯于2023年,星期二2.包絡編輯(1)音量包絡編輯

音量包絡是指音頻波形隨時間變化而產生的音量變化,也即是音量變化的走勢曲線。通過控制音量包絡曲線來改變某音軌上音頻信號的音量大小,是一個非常直觀和簡單有效的方法。(2)聲相包絡編輯

聲相就是聲音在左右聲道中所處的位置。聲相包絡線處于中間時(0點),聲音在左右聲道中達到平衡的效果,聲相包絡線位于上半部,聲音偏向左聲道,聲相包絡線位于下半部,聲音偏向右聲道。第二十二頁,共三十頁,編輯于2023年,星期二(3)音量淡化包絡編輯

Audition提供了簡單快速的音量淡化包絡。在音樂制作領域,淡化(fade)指音量的逐漸變化,音量由小到大變化稱為淡入(fadein),音量由大到小變化稱為淡出(fadeout)。3.時間伸縮用于改變聲音播放的速度,且不影響音高?!安榭磡啟用剪輯時間伸展”時間伸縮第二十三頁,共三十頁,編輯于2023年,星期二2.2.6加載效果器

加載效果器按照使用方法可分為:

插入效果器:作用的聲音范圍是一整條音軌;

波形效果器:作用于音軌中的某一段音頻片段;

總線效果器

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論