第二講 音頻處理技術(shù)基礎(chǔ)_第1頁
第二講 音頻處理技術(shù)基礎(chǔ)_第2頁
第二講 音頻處理技術(shù)基礎(chǔ)_第3頁
第二講 音頻處理技術(shù)基礎(chǔ)_第4頁
第二講 音頻處理技術(shù)基礎(chǔ)_第5頁
已閱讀5頁,還剩46頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

音頻處理技術(shù)1.2多媒體特性與關(guān)鍵技術(shù)聲學(xué)基本知識(shí)物理學(xué)意義上的聲音心理學(xué)與生理學(xué)意義上的聲音聲音信號的數(shù)字化過程采樣量化數(shù)據(jù)壓縮算法簡介相關(guān)標(biāo)準(zhǔn)簡介音頻文件格式音頻處理軟件1.1物理學(xué)意義上的聲音聲音的本質(zhì)聲音是由于物體的振動(dòng)產(chǎn)生的機(jī)械波1.1物理學(xué)意義上的聲音聲音的頻率20Hz——20kHz:聲波(人耳可聞)20kHz以上:超聲波20Hz以下:次聲波聲音的強(qiáng)度:與聲波的振幅成正比聲波在單位時(shí)間內(nèi)作用在與其傳遞方向垂直的單位面積上的能量聲音的種類純音:振幅和頻率均為常數(shù)的聲音復(fù)音:多種不同頻率和振幅的混合聲音基音:復(fù)印中頻率最低的聲音,復(fù)音的基調(diào)泛音、諧音:其他頻率聲音的統(tǒng)稱噪音:多頻率、多強(qiáng)度的無規(guī)律聲音頻率振幅頻率振幅純音復(fù)音基音泛音/諧音1.1物理學(xué)意義上的聲音聲音強(qiáng)度的計(jì)量聲強(qiáng)(物理學(xué)上常用)聲強(qiáng)是指單位時(shí)間(1秒鐘)內(nèi)聲音通過垂直于聲音傳播方向單位面積(cm2)的聲能量。聲壓(聽覺生理學(xué)上常用)聲音在空氣中傳播而改變了空氣原來的恒定靜壓力,導(dǎo)致了原有靜壓力的微小增加。1.1物理學(xué)意義上的聲音這兩種1.2生理及心理學(xué)意義上的聲音人耳聽到的聲音≠自然界的聲音聽域(AuditoryArea):人耳可聞的聲音范圍頻率范圍:20Hz-20kHz強(qiáng)度范圍:可用聲壓、聲壓級、聲強(qiáng)、聲強(qiáng)級表示聽閾(AuditoryThreshold):人耳可聞的最小強(qiáng)度痛閾:引起人耳疼痛的最小強(qiáng)度聲強(qiáng)與響度的關(guān)系聲強(qiáng):聲音強(qiáng)度的客觀度量(概念與度量前面已述)響度:聲音強(qiáng)度的主觀感受響度:聲音強(qiáng)度的主觀感受響度與聲強(qiáng)不是線性關(guān)系聲音能量(強(qiáng)度)增加近4倍,主觀感覺響度增加1倍響度與聲音能量是一種近似對數(shù)關(guān)系響度與頻率有關(guān):1000~4000Hz的聲音人耳聽起來最響響度的單位為宋(sone)頻率1000Hz,強(qiáng)度為聽閾以上40dB(感覺級)的純音所產(chǎn)生的響度為1sone。絕對聽覺閾限指一個(gè)人在沒有噪聲的環(huán)境下,能夠產(chǎn)生聽覺,感知到一個(gè)純音信號(某各頻率點(diǎn))的最小能量幅度。通常絕對聽覺門限用聲壓級表示(dB)人耳的等響度曲線音調(diào):聲音頻率的主觀感受音調(diào)的高低與頻率的高低一致頻率不變,強(qiáng)度的變化對音調(diào)稍有影響。強(qiáng)度增大時(shí),低頻率音調(diào)顯得更低,而高頻率音調(diào)顯得更高。音色:人耳對復(fù)合音中各種諧音成分總和的主觀印象人耳通過音色區(qū)分不同的樂器,如:基音為100Hz的鋼琴聲與基音100Hz的黑管聲音的

基音頻率相同鋼琴有15個(gè)泛音(諧音)黑管有10個(gè)泛音(諧音)聲音的掩蔽效應(yīng)當(dāng)兩個(gè)響度不等的聲音作用于人耳時(shí),響度較高的頻率成分的存在會(huì)影響到對響度較低的頻率成分的感知同時(shí)掩蔽(頻域掩蔽)掩蔽聲音與被掩蔽聲音同時(shí)出現(xiàn)當(dāng)兩個(gè)或更多的音頻信號到達(dá)人內(nèi)耳時(shí),掩蔽聲與被掩蔽聲同時(shí)作用發(fā)生掩蔽效應(yīng),就稱同時(shí)掩蔽。即在一個(gè)臨界頻帶內(nèi),一個(gè)大的信號可以掩蔽掉若干小的信號,無論這個(gè)信號是音調(diào)還是噪音。25個(gè)臨界頻帶臨界頻帶頻率(Hz)臨界頻帶頻率(Hz)低端高端寬度低端高端寬度0010010013200023203201100200100142320270038022003001001527003150450330040010016315037005504400510110173700440070055106301201844005300900663077014019530064001100777092015020640077001300892010801602177009500180091080127019022950012000250010127014802102312000155003500111480172024024155002205065501217202000280

異時(shí)掩蔽(時(shí)域掩蔽)掩蔽聲音與被掩蔽聲音不同時(shí)出現(xiàn)一個(gè)強(qiáng)音頻信號可以掩蔽到之前若干時(shí)間和之后若干時(shí)間的音頻信號的感知,即導(dǎo)前掩蔽或滯后掩蔽對之前音頻信號的掩蔽效應(yīng)衰減的很快,大概只能掩蔽到幾毫秒對之后音頻信號的掩蔽可以持續(xù)到最長200ms的時(shí)間。2.聲音信號的數(shù)字化過程從聲波到數(shù)字音頻文件的過程拾音放大A/D轉(zhuǎn)換(模數(shù)轉(zhuǎn)換)采樣量化編碼聲—電模擬信號模擬信號—數(shù)字信號—二進(jìn)制數(shù)據(jù)采樣與量化:模數(shù)轉(zhuǎn)換的核心采樣(Sampling)采樣:把模擬信號在時(shí)間域上以固定的時(shí)間間隔對波形的值進(jìn)行抽取,再用若干位二進(jìn)制數(shù)表示采樣周期:兩個(gè)取樣點(diǎn)之間的間隔稱為采樣頻率:采樣周期的倒數(shù)采樣定理:當(dāng)采樣頻率大于信號最高頻率的兩倍時(shí),在采樣過程中就不會(huì)丟失信息,能不失真地還原出原始的聲音信號

若超過此取樣頻率,就會(huì)包含冗余的信息

若低于此頻率,則將產(chǎn)生不同程度的失真對于音頻,最常用的采樣頻率有三種:44.1KHz22.05KHz11.025KHz哪種采樣頻率產(chǎn)生的數(shù)字音頻音質(zhì)最佳?Why?聲道數(shù):聲音通道的個(gè)數(shù),指一次采樣的聲音波形個(gè)數(shù)。

單聲道一次采樣一個(gè)聲音波形

雙聲道一次采樣兩個(gè)聲音波形,又稱為“立體聲”。量化(Quantity)量化的目的是將采樣后的信號波形的幅度值(樣本)進(jìn)行離散化處理,樣本從模擬量轉(zhuǎn)化成了數(shù)字量。量化位數(shù)(量化級):用于表示幅度值(樣本)的二進(jìn)制位數(shù)

量化位數(shù)越多,所得到的量化值越接近原始波形的采樣值。一個(gè)量化器就是將整個(gè)信號的幅度值分成若干個(gè)有限的區(qū)間,并且把落入同一個(gè)區(qū)間的樣本點(diǎn)都用同一個(gè)幅度值來表示,這個(gè)幅度值稱為量化值。均勻量化非均勻量化數(shù)據(jù)率的概念數(shù)據(jù)率(比特率):

一秒鐘的數(shù)字音頻信號所需的二進(jìn)制位數(shù)單位:bps(bitspersecond位每秒)計(jì)算公式:采樣率×采樣位數(shù)×聲道數(shù)例如:44.1KHz、16bit的立體聲數(shù)字音頻信號的數(shù)據(jù)率

44.1k*16b*2=1411.2kbps這就是CD音頻的數(shù)據(jù)率如果不進(jìn)行任何編碼和壓縮,

則產(chǎn)生的聲音文件體積會(huì)非常大,不利于存儲(chǔ)和傳輸減小音頻文件大小的思路1.降低采樣頻率和量化位數(shù)——降低音質(zhì)2.數(shù)據(jù)壓縮(編碼)無損壓縮算法減少數(shù)據(jù)量,但不減少信息量典型實(shí)例:哈夫曼編碼、Winrar有損壓縮算法原理:有選擇地舍棄一些信息,如人類不敏感信息典型實(shí)例:PCM編碼(WAV)、MPEG編碼(MP3)數(shù)據(jù)壓縮算法常用音頻編碼標(biāo)準(zhǔn)編碼方法算法名稱數(shù)據(jù)率標(biāo)準(zhǔn)應(yīng)用質(zhì)量波形編碼PCM均勻量化

公共網(wǎng)ISDN配音4.0~4.5μ(A)μ(A)64kbpsG.711APCM自適應(yīng)量化

DPCM差值量化ADPCM自適應(yīng)差值量化32kbpsG.721SB—

ADPCM子帶—自適應(yīng)差值量化64kbpsG.7225.3kbps6.3kbpsG.723參數(shù)編碼LPC線性預(yù)測編碼2.4kbps

保密話聲2.5~3.5混合編碼CELPC碼激勵(lì)LPC4.6kbps

移動(dòng)通信3.7~4.0VSELP矢量和激勵(lì)LPC8kbps

語音通信RPE-LTP長時(shí)預(yù)測規(guī)則碼激勵(lì)13.2kbps

ISDNLD-CELP低延時(shí)碼激勵(lì)LPC16kbpsG.728G.729

MPEG多自帶感知編碼128kbps

CD5.0

AC-3感知編碼

音響5.0編碼(壓縮)的效果CD音質(zhì)的音頻未編碼(壓縮):1411.2kbps經(jīng)MPEG-Layer3算法壓縮后(mp3格式):128kbps1分鐘的原始CD音頻文件大?。?0.34MB1分鐘的接近CD音質(zhì)的MP3文件:0.96MB衡量音質(zhì)的指標(biāo)采樣頻率量化位數(shù)(量化級)例如:CD音質(zhì):44.1kHz16bitDVD-Audio音質(zhì):192kHz24bit(目前最高音質(zhì))衡量編碼算法(壓縮效率)的指標(biāo)同等音質(zhì)(采樣頻率、量化位數(shù)、聲道數(shù))下的

數(shù)據(jù)率。典型音頻編碼簡介PCM(PulsePulseCodeModulation脈沖代碼調(diào)制編碼)原理:直接存儲(chǔ)采樣量化后的數(shù)據(jù)特點(diǎn):沒有編碼的編碼

數(shù)據(jù)量大、無失真代表文件格式:wav文件PCM的實(shí)際應(yīng)用形式:加入了壓縮算法A律PCM:我國和歐洲采用μ律PCM:日本和北美采用標(biāo)準(zhǔn)制定組織:CCITT(CommitteeConsultationInternationalTechnicandTelegraph)國際電報(bào)電話咨詢委員會(huì)標(biāo)準(zhǔn)名稱:G.711MPEG1(MovingPictureExpertsGroup)音頻編碼特點(diǎn):根據(jù)人的聽覺特性進(jìn)行編碼

有損壓縮

音質(zhì)較好,文件體積較小

三種層次的編碼系統(tǒng),可根據(jù)需要選用

層次越高,性能越好編碼層次MPEG-Layer1MPEG-Layer2MPEG-Layer3代表文件格式:mp3標(biāo)準(zhǔn)制定組織:ISO(InternationalStandardOrganization)

國際標(biāo)準(zhǔn)化組織IEC(InternationalElectroTechnicalCommission)

國際電工委員會(huì)標(biāo)準(zhǔn)名稱:ISO/IEC11172-3(MPEG-音頻)AC音頻編碼AC-1應(yīng)用的編碼技術(shù)是自適應(yīng)增量調(diào)制20kHz寬帶立體聲音頻信號編碼后的數(shù)據(jù)率為512kb/sAC-1曾在衛(wèi)星電視和調(diào)頻廣播上得到廣泛應(yīng)用。1990年DOLBY實(shí)驗(yàn)室推出了立體聲編碼標(biāo)準(zhǔn)AC-2比特率(數(shù)據(jù)率)降至256kb/s以下AC-2被應(yīng)用在PC聲卡和綜合業(yè)務(wù)數(shù)字網(wǎng)等方面。AC-3音頻編碼標(biāo)準(zhǔn)的起源是DOLBYAC-1。AC-31994年,日本先鋒公司宣布與美國杜比實(shí)驗(yàn)室合作研制成功一種嶄新的環(huán)繞聲制式,并命名為“杜比AC-3”(DolbySurroundAudioCoding-3)。1997年初,杜比實(shí)驗(yàn)室正式將“杜比AC-3環(huán)繞聲”改為“杜比數(shù)碼環(huán)繞聲”(DolbySurroundDigital),我們常稱為DolbyDigital。杜比AC-3提供的環(huán)繞聲系統(tǒng)由5個(gè)全頻域聲道和1個(gè)超低音聲道組成,被稱為5.1聲道。6個(gè)聲道的信息在制作和還原過程中全部數(shù)字化,信息損失很少,是一種高音質(zhì)音頻標(biāo)準(zhǔn)。DVD中的音頻編碼采用AC-3標(biāo)準(zhǔn)播放AC-3格式的音頻文件,需要安裝解碼插件

如:AC-3Filter3音頻文件格式波形格式WAVWAV是MicrosoftWindows本身提供的音頻格式,用.wav作為擴(kuò)展名,其文件格式稱為波形文件格式(WAVEFileFormat)WAV格式是一種文件格式,而非一種編碼文件格式:文件數(shù)據(jù)的組織結(jié)構(gòu)編碼:編碼(壓縮)算法比如:書信是一種文件格式,英語是一種編碼。WAV格式可以支持多種音頻編碼基于PCM編碼的WAV格式是應(yīng)用最廣泛的音頻文件格式,所有音頻播放、編輯軟件都支持。WAV是一種RIFF文件格式RIFF(ResourceInterchangeFileFormat)在Windows環(huán)境下,大部分多媒體文件都遵循RIFF結(jié)構(gòu)來存放信息,RIFF可以看做是一種樹狀結(jié)構(gòu),其基本構(gòu)成單位為Chunk,就像樹形結(jié)構(gòu)中的節(jié)點(diǎn),每個(gè)Chunk由辨別碼、數(shù)據(jù)長度及數(shù)據(jù)組成。記錄采樣頻率、

采樣位數(shù)等參數(shù)記錄聲音數(shù)據(jù)WAV格式的特點(diǎn)通用性極強(qiáng)(基于PCM編碼的)一般音質(zhì)較好(基于PCM編碼的)占用存儲(chǔ)空間較大音頻素材與中間處理結(jié)果的最佳格式MIDI格式MIDI(MusicalInstrumentDigitalInterface)的首寫字母組合詞,可譯成“電子樂器數(shù)字接口”。用于在音樂合成器(MusicSynthesizers)、樂器(MusicalInstruments)和計(jì)算機(jī)之間交換音樂信息、播放和錄制音樂的一種標(biāo)準(zhǔn)協(xié)議。MIDI標(biāo)準(zhǔn)確定了將計(jì)算機(jī)與電聲樂器、錄音設(shè)備連接起來所需的電纜線、硬件及通信協(xié)議。MIDI可用于基于計(jì)算機(jī)的作曲和電子音樂合成制作MP3格式MP3文件格式TAG_V2(ID3V2)+Frame+TAG_V1(ID3V1)ID3V1:存放歌曲的描述信息

歌名、作者、專輯名、年份、附注、音樂類別

位于文件尾

mp3播放器軟件廣泛支持ID3V2:對ID3V1的擴(kuò)展

可存放更多描述信息如專輯封面圖等

位于文件頭

軟件支持有限Frame:一系列的幀,存放音頻編碼信息Frame:一系列的幀,存放音頻編碼信息幀的個(gè)數(shù)由文件大小和幀長決定每個(gè)FRAME的長度可能不固定,也可能固定,

由數(shù)據(jù)率bitrate決定恒定數(shù)據(jù)率(CBR):96kbps、128kbps、192kbps變化數(shù)據(jù)率(VBR):針對歌曲不同的部分采用不同的數(shù)據(jù)率,用以節(jié)省存儲(chǔ)空間。數(shù)據(jù)率越高,音質(zhì)越好每個(gè)FRAME

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論