多媒體技術(shù)(初級)第二章上-國家人才網(wǎng)_第1頁
多媒體技術(shù)(初級)第二章上-國家人才網(wǎng)_第2頁
多媒體技術(shù)(初級)第二章上-國家人才網(wǎng)_第3頁
多媒體技術(shù)(初級)第二章上-國家人才網(wǎng)_第4頁
多媒體技術(shù)(初級)第二章上-國家人才網(wǎng)_第5頁
已閱讀5頁,還剩13頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

1、PAGE PAGE 18第二章 多媒體音頻處理技術(shù)本章主要學(xué)習(xí):了解聲音的基本概念及其屬性特征、聲音的數(shù)字化原理、常見的音頻文件及其特點,等等。需要掌握的內(nèi)容: Cool Edit Pro2.0聲音編輯軟件的使用方法。第一節(jié) 數(shù)字音頻基礎(chǔ)一、聲音的基本概念 聲音是因為物體的振動而產(chǎn)生的。機械振動或氣流擾動引起周圍彈性媒介發(fā)生波動,產(chǎn)生聲波。產(chǎn)生聲波的物體稱為聲源,如樂器、音箱等。聲波所及的空間范圍稱為聲場。聲波傳入到人耳,經(jīng)過人類聽覺系統(tǒng)的感知就是聲音。聲音主要具有以下3種屬性。 1音調(diào) 音頻信號可分為語音信號和非語音信號兩類。語音信號包含清楚、豐富的意義和內(nèi)涵,是人類進行信息交流特有的形式;

2、非語音信號主要包括音樂和自然界存在的其他聲音,非語音信號的特點是不具有復(fù)雜的語義和語法信息,識別較簡單。 2音色 音色,即聲音的特色。聲音分純音和復(fù)音兩種類型,純音是指振幅和周期均固定的聲音;復(fù)音則是指具有不同頻率和不同振幅的聲音混合。大自然中存在的聲音絕大部分是復(fù)音。在復(fù)音中,最低頻率的聲音是“基音”,它是聲音的基調(diào),其他頻率的聲音稱為“諧音”,也叫泛音?;艉椭C音是構(gòu)成復(fù)音音色的重要因素。各種聲源都具有自己獨特的音色,例如各種樂器的聲音、人的話語、動物的叫聲等,人們絕大部分情況下是依據(jù)音色來辨別聲源種類的。 3音強 音強是聲音的強度,也稱為聲音的響度,即常說的“音量”。音強與聲波的振幅成正

3、比,振幅越大,強度越大。磁帶、CD光盤等聲音載體中的聲音強度是一定的,但是可以通過播放設(shè)備的音量控制來改變聆聽時的響度。由于物體在振動的時候并不總是規(guī)則的,所以聲音又有“樂音”和“噪音”之分。規(guī)則振動發(fā)出的是樂音,反之則稱為噪音。二、聲音的質(zhì)量 有3種常用方法可以衡量聲音的質(zhì)量:一是用聲音信號的帶寬來度量,二是客觀度量,三是主觀度量。評價語音質(zhì)量時,經(jīng)常采取復(fù)合法評估,即采取兩種以上的方法綜合評估。 1帶寬度量圖1顯示了幾種常見的聲音帶寬,帶寬越大,聲音的質(zhì)量越好。其質(zhì)量等級由高到低依次是CD、FM、AM和電話。圖1 幾種覺的聲音帶寬對比 2客觀度量 聲音客觀質(zhì)量的度量主要用信噪比(Signa

4、l to Noise Ratio,SNR)來度量。信噪比是指聲源產(chǎn)生最大不失真聲音信號強度與同時發(fā)出噪音強度的比率,通常以SN表示,以分貝(dB)為單位,信噪比越高,表示聲音的質(zhì)量越好。 3主觀度量 與客觀度量相比較,應(yīng)該說人的感覺更具有決定意義。感覺上的、主觀上的印象應(yīng)該成為評價聲音質(zhì)量不可缺少的部分。有的學(xué)者認為,在語音信號編碼中使用主觀度量比使用客觀度量更加直接和恰當(dāng),更有意義。三、數(shù)字音頻壓縮標(biāo)準(zhǔn)(1)音頻壓縮方法概述在多媒體音頻處理中,一般需要對數(shù)字化后的音頻信號進行壓縮編碼,使其成為具有一定字長的二進制數(shù)字序列,并以這種形式在計算機內(nèi)傳輸和存儲,最后由解碼器將二進制編碼恢復(fù)成原來的

5、音頻信號播放,如圖2所示。圖2 音頻壓縮處理流程 所謂壓縮編碼技術(shù),就是指用某種方法使數(shù)字化信息的編碼率降低的技術(shù)。音頻信號能進行壓縮編碼的基本依據(jù)有兩個:一是聲音信號中存在很大的冗余度,通過識別和去除這些冗余度,便能達到壓縮編碼率的目的;二是人的聽覺具有一個強音能抑制一個同時存在的弱音的現(xiàn)象,這樣就可以抑制與信號同時存在的量化噪聲。另外,人耳對低頻端比較敏感,而對高頻端不太敏感,由此引出了“子帶編碼技術(shù)”。 一般來說,音頻信號的壓縮編碼主要分為無損壓縮編碼和有損壓縮編碼兩大類,無損壓縮編碼包括不引入任何數(shù)據(jù)失真的各種熵編碼;有損壓縮編碼又分為波形編碼、參數(shù)編碼和混合編碼。 1熵編碼 這是以信

6、息論變長編碼定理為理論基礎(chǔ)的編碼方法,如霍夫曼編碼、算術(shù)編碼和行程編碼等。 2波形編碼 波形編碼是利用采樣和量化過程來表示音頻信號的波形,使編碼后的音頻信號與原始信號的波形盡可能匹配。它主要根據(jù)人耳的聽覺特性進行量化,以達到壓縮數(shù)據(jù)的目的。波形編碼的特點是適應(yīng)性強,音頻質(zhì)量好,在較高碼率的條件下可以獲得高質(zhì)量的音頻信號,適合于高質(zhì)量的音頻信號,也適合于高保真語音和音樂信號。由于易受量化噪聲影響,進一步降低編碼率較困難。 波形編碼方法有全頻帶編碼(脈沖編碼調(diào)制(PCM)、差分脈沖編碼調(diào)制(DPCM)、自適應(yīng)差分脈沖編碼調(diào)制(ADPCM)、子帶編碼(自適應(yīng)變換編碼(ATC)、心理學(xué)模型)和矢量量化

7、編碼等。 3參數(shù)編碼 參數(shù)編碼是將音頻信號以某種模型來表示,利用特征提取的方法抽取必要的模型參數(shù)和激勵信號的信息,并對這些信息編碼,最后在輸出端合成原始信號。其目的是重建音頻,保持原始音頻的特性。參數(shù)編碼的壓縮率很大,但計算量大,保真度不高,適合于語音信號的編碼。 參數(shù)編碼方法有線性預(yù)測(LPC)聲碼器、通道聲碼器、共振峰聲碼器等。 4混合編碼 混合編碼是在參數(shù)編碼方法的基礎(chǔ)上,引用波形編碼準(zhǔn)則優(yōu)化激勵源信號的一種方案,可以在較低的碼率上得到較高的音質(zhì)。 混合編碼方法有多脈沖線性預(yù)測編碼(MPLPC)、碼本激勵線性預(yù)測編碼(CELP)、短延時碼本激勵線性預(yù)測編碼(TDCELP)、長延時線性預(yù)測

8、規(guī)則碼激勵(RPELTP)等。(2)音頻壓縮技術(shù)標(biāo)準(zhǔn) 1電話質(zhì)量的音頻壓縮標(biāo)準(zhǔn)電話質(zhì)量語音信號的頻率范圍是2003400Hz,采用標(biāo)準(zhǔn)的脈沖編碼調(diào)制(PCM),當(dāng)采樣頻率為8kHz、量化位數(shù)為8位時,對應(yīng)的數(shù)據(jù)速率為64kbs。為了壓縮音頻數(shù)據(jù),國際上從CCITT最初的G711標(biāo)準(zhǔn)開始,已制定了一系列的語音壓縮編碼的標(biāo)準(zhǔn)。表1所列是ITU建議的用于電話質(zhì)量的語音壓縮標(biāo)準(zhǔn)。表1 ITU建議的用于電話質(zhì)量的語音壓縮標(biāo)準(zhǔn) 隨著數(shù)字移動通信的發(fā)展,人們對于低速語音編碼有了更迫切的要求。1989年美國公布的數(shù)字移動通信標(biāo)準(zhǔn)CTIA,采用矢量和激勵線性預(yù)測技術(shù)(VSELP),速率為8kb/s。為了適應(yīng)保密

9、通信的要求,美國國家安全局NSA分別于1982年和1989年制定了基于LPC、速率為2.4kb/s和基于CELP、速率為4.8kb/s的編碼方案。2調(diào)幅廣播質(zhì)量的音頻壓縮標(biāo)準(zhǔn)調(diào)幅廣播質(zhì)量音頻信號的頻率范圍是507 000Hz,當(dāng)使用16kHz的采樣頻率和14位的量化位數(shù)時,信號速率為224kbs。1988年,ITU制定了G722標(biāo)準(zhǔn),它可把信號速率壓縮成64kbs。G.722標(biāo)準(zhǔn)采用基于子帶的ADPCM技術(shù),將現(xiàn)有的帶寬分成兩個獨立的子帶信道,使輸入信號進入濾波器組分成高子信號和低子信號,然后分別進行ADPCM編碼,最后進入混合器形成輸出碼流。利用G.722標(biāo)準(zhǔn),可以在窄帶ISDN的一個B信道

10、上傳輸調(diào)幅廣播質(zhì)量的音頻信號。由于這種壓縮方法能夠在8kb/s的存儲量下給出相當(dāng)好的音樂信號,因此也適合于需要存儲大量高質(zhì)量音頻信號的多媒體系統(tǒng)使用。 3高保真立體聲音頻壓縮標(biāo)準(zhǔn) 高保真立體聲音頻信號的頻率范圍是5020000Hz,在441kHz采樣頻率下用16位量化,信號速率為每聲道705khs。目前,世界上第一個高保真立體聲音頻壓縮標(biāo)準(zhǔn)為MPEG音頻壓縮算法,雖然MPEG音頻標(biāo)準(zhǔn)是MPEG標(biāo)準(zhǔn)的一部分,但它也完全可以獨立使用。MPEG音頻標(biāo)準(zhǔn)提供了3個獨立的壓縮層次,用戶對層次的選擇可在復(fù)雜性和聲音質(zhì)量之間進行權(quán)衡第一層的編碼器最為簡單,編碼器的輸出數(shù)據(jù)率為384kb/s,主要用于小型數(shù)字

11、合式磁帶(Digital Compact Cassette,DCC);第二層的編碼器的復(fù)雜程度屬于中等,編碼器的輸出數(shù)據(jù)率為192256kb/s,其應(yīng)用包括數(shù)字廣播音頻、數(shù)字音樂、CD-I和VCD等;第三層的編碼器最為復(fù)雜,編碼器的輸出數(shù)據(jù)率為64kb/s,主要應(yīng)用于ISDN上的聲音傳輸。(3)音頻壓縮工具 MP3、WMA、RA格式都是比較流行的音頻壓縮文件格式,而Yamaha公司曾推出一款音頻壓縮文件格式VQF。無論在音頻壓縮率還是音質(zhì)上,VQF比起MP3都有很大的優(yōu)勢,但由于推廣不得力,加之MP3早已深入人心,VQF格式的音樂文件在Internet上已經(jīng)逐漸銷聲匿跡了。下面介紹豪杰公司出品

12、的MP3壓縮工具,即豪杰超級解霸3000中的一個實用工具MP3格式轉(zhuǎn)換器。運行MP3格式轉(zhuǎn)換器,出現(xiàn)的界面如圖3所示。圖3 MP3格式轉(zhuǎn)換器單擊【設(shè)置】按鈕,在彈出的【MP3設(shè)置】對話框中可以對壓縮層次、位率、頻率和輸出路徑等進行調(diào)節(jié)。通過【添加目錄】、【添加文件】、【刪除所選】等操作,可以把需要壓縮的各種音頻文件(wav、mid、mpg、dat、ra和rm等)添加到左側(cè)的列表框中,右邊列表框自動出現(xiàn)相應(yīng)的MP3文件。單擊【開始壓縮】按鈕,則壓縮進度欄會顯示當(dāng)前的進程。壓縮完畢后,所壓縮的文件即可保存到設(shè)置的目錄中??傊琈P3壓縮工具能方便地將各種音頻格式文件轉(zhuǎn)換成MP3文件,也能轉(zhuǎn)換成波形

13、文件。第二節(jié) 音頻處理軟件一、音頻處理軟件Cool Edit概述(1)Cool Edit Pro 2O簡介 Cool Edit Pro 20是一個音頻編輯兼多軌音頻混音軟件,由美國Syntrillium軟件公司開發(fā),Cool Edit是一個非常出色的數(shù)字音樂編輯器和MP3制作軟件,可同時處理多達128個音頻文件,輕松地在多個音頻文件中進行剪切、粘貼、合并、重疊等操作;它還提供多種特效,對音頻進行放大、降低噪音、壓縮、擴展、回聲、失真、延遲等處理;并可以模擬生成噪音、低音、靜音、電話信號等。該軟件包含有CD播放器,還包括支持可選的插件、崩潰恢復(fù)、自動靜音檢測和刪除、自動節(jié)拍查找、錄制等功能。另外

14、,它還可以在AIF、AU、MP3、Raw PCM、SAM、VOC、VOX、WAV等文件格式之間進行轉(zhuǎn)換,并且能夠保存為RealAudio格式。 Cool Edit的主要特性:128軌增強的音頻編輯能力,超過40種音頻效果器,mastering和音頻分析工具,以及音頻降噪、修復(fù)工具、音樂CD燒錄、實時效果器和EQ32-bit處理精度,支持最高達32bit192kHz精度的編輯、混音,支持視頻,多軌狀態(tài)下支持MIDI輸入。(2)Cool Edit 20的基本操作 Cool Edit 20的操作界面如圖4所示。其常用菜單命令簡介如下。 1File(文件) 此菜單中包含了常用的新建、打開、關(guān)閉、保存、

15、另存為等命令。其中需要注意的幾個命令是:Close 關(guān)閉當(dāng)前波形文件;Close All(Waves and Session) 關(guān)閉所有的波形文件和任務(wù),包括駐留在內(nèi)存中的未關(guān)閉波形文件;Close Only Non-Session Wavefrom關(guān)閉當(dāng)前未使用波形文件,打開的波形多了,可以用這個命令來釋放一部分內(nèi)存;Save Selection 保存任務(wù),如果任務(wù)中有未保存的波形也一起保存,但會提示;Free Up Space in Temp Files 刪除臨時文件,釋放部分硬盤空間。圖4 Cool Edit2.0的操作界面 2Edit(編輯) 此菜單中包含了常用的拷貝、剪切、粘貼、調(diào)整

16、采樣速率、轉(zhuǎn)換采樣格式等命令,在多軌狀態(tài)下,還有縮混命令。其中需要注意區(qū)分的幾個命令是:Zero Crossings 零點穿越,使選中區(qū)域的開始和結(jié)尾調(diào)整到最近的零點位置,方便音軌的對齊、剪切、拼貼等操作;Adjust Sample Rate 調(diào)整采樣率,這個操作不能改變波形的采樣率,而是調(diào)節(jié)聲卡播放該波形時用的采樣率;Convert Sample Type 轉(zhuǎn)換采樣格式,這個操作可以改變當(dāng)前波形的采樣率,文件大小也會改變。 3View(視圖) 此菜單中包含了一些常用視圖的選擇設(shè)置。其中需要注意的幾個命令是:Muititrack View 選中則就切換到多軌編輯狀態(tài);Waveform View

17、 波形顯示;Spectral View 頻譜顯示;Show Level Meters 顯示電平;Status Bars 顯示狀態(tài)條。 4Effect(效果) 此菜單包含了在編輯音頻時用的一些功能,如反相、靜音、放大、延時、混響、均衡、降噪、失真、變調(diào)以及調(diào)用Directx的插件。其中需要注意的幾個命令是:Reverse 將波形反相,可以制造一些奇妙的音效;Delay Effects 延遲,包括有合唱、延遲、動態(tài)、回聲、鑲邊等幾個效果器;DirectX 打開DirectX的效果器插件,它支持絕大多數(shù)的插件,每次安裝新的插件后,要使用refresh this list這個命令,新的插件就可以顯示出

18、來了;Filters 濾波器,包括FFT濾波器、圖形均衡器、帶阻尼濾波器、參量均衡器、快速濾波器等,可用于調(diào)整音頻的均衡;Noise Reduction 降噪;PanExpand 相位調(diào)節(jié)和聲場擴張;Special 特殊處理;TimePitch 變速變調(diào)處理。(3)聲音素材數(shù)字化與后期處理 在處理音頻數(shù)據(jù)時,經(jīng)常要用到波形文件,所謂波形文件,就是基于Windows系統(tǒng)所使用的標(biāo)準(zhǔn)數(shù)字音頻文件,它記錄了對實際聲音進行采集的數(shù)據(jù),支持各種不同音質(zhì)的單聲道或立體聲數(shù)字聲音,文件的擴展名為WAV。 聲音素材數(shù)字化也就是聲音素材電腦采集的過程,原理其實很簡單,就是將麥克風(fēng)、CD、VCD、DVD或其他外部

19、音源輸出的模擬音頻電流,通過聲卡的采樣轉(zhuǎn)換成數(shù)字序列,然后再使用WAV音頻文件格式,將其保存到計算機上。以后我們就可以隨時將這些數(shù)字聲音文件進行編輯或調(diào)用到其他應(yīng)用程序中使用。 數(shù)字化聲音素材的質(zhì)量與大小取決于數(shù)字化時的采樣頻率和采樣位深度,聲音采樣頻率和采樣位深度越高,音質(zhì)就越好,但聲音素材的數(shù)據(jù)量也越大。通常,CD唱片的音質(zhì)是指以441kHz的采樣頻率及16位采樣位深度采集的聲音文件。 1音頻文件的采集與格式轉(zhuǎn)換 在采集前,要將硬件設(shè)備進行連接,利用音頻線將外部音源(CD、VCD、DVD)的音頻輸出口(Audio Out)和聲卡的線路輸入口(Line ln)相連接。如果你需要采集語音,將麥

20、克風(fēng)插入聲卡的麥克風(fēng)輸入孔(Mic In)。 Windows附帶的錄音機只能采集1min的音頻文件,而使用cool Edit軟件,可無時間限制地采集音頻文件(只要你的硬盤夠大),還提供出色的音頻編輯功能。 連接了硬件設(shè)備和安裝了Cool Edit軟件,還要進行音量屬性設(shè)置,不同的聲卡其設(shè)置可能有所不同。雙擊windows任務(wù)欄的【音量】圖標(biāo),打開“音量”窗口,執(zhí)行【選項】【屬性】菜單命令,彈出“屬性”對話框,如圖5所示。在“調(diào)整音量”選項中選擇【錄音】,在“顯示下列音量控制”欄中出現(xiàn)多個音量控制選項,在這些選項中選擇【線路輸入】和【麥克風(fēng)】,按【確定】按鈕退出窗口,出現(xiàn)“主音量”窗口,如圖6所

21、示。圖5 主音量“屬性”對話框 圖6 “主音量”窗口在“主音量”窗口,可以通過勾選音量調(diào)節(jié)按鈕下的“選擇”項選擇要使用的輸入方式,即選擇“外部音源采集”以進行線路輸入,選擇“話筒采集”將采用麥克風(fēng)輸入;然后再通過勾選主音量窗口中的有關(guān)選項,將欄中聲道的音量比例調(diào)到合適的位置,關(guān)閉窗口,結(jié)束錄音屬性設(shè)置。 (1)外部音源的采集 打開Cool Edit程序。執(zhí)行【File】【New】菜單命令或點取工具條上的Creaet a new Wave(建立一個新波形文件)按鈕,將打開一個Newr Waveform(新波形格式)對話框,如圖7所示。圖7 New Waveform對話框按默認,Sample Ra

22、te(采樣頻率)為441kHz,Channels(聲道)為Stereo(立體聲),Resolution(采樣深度)為16bit選取,單擊【OK】按鈕,建立一個空白的波形文件。 單擊Cool Edit窗口下面的【Record】(記錄)按鈕,然后播放外部音源,即開始采集聲音文件,單擊【Stop】按鈕,即可停止采集。 聲音錄制好后,執(zhí)行【File】(文件)【SaveAs】菜單命令,打開Save Waveform As對話框,輸入文件名然后,單擊【保存】按鈕,保存采集的聲音文件。(2)聲音素材CD的抓取 在Cool Edit操作界面下,執(zhí)行【File】【Opert】菜單命令,將彈出Open a Waveform(打開波形格式)對話框,如圖8所示,選擇打開后綴名為“cda的CD音頻文件格式。就可以直接把CD中的音樂文件打開了,并且可以一次選取打開多個文件,然后可以通過save as(另存為),把它作為wav或者MP3等文件格式保存到硬盤上。圖8 Open a Waveform(打開波形格式)對話框 (3)音頻文件的批處理格式轉(zhuǎn)換 批處理壓縮和格式轉(zhuǎn)換功能,能批量地把CD光盤的磁道文件或wav文件壓縮成MP3文件格式,不需一個一個文件的壓縮轉(zhuǎn)換,而可以把任務(wù)批處理化,極大地提高了轉(zhuǎn)換效率。 下面以批量壓縮CD上的*cda歌曲文件成MP3文件為例來說明:在Cool Edit操作界面下

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論