聲音的數(shù)位化課件_第1頁(yè)
聲音的數(shù)位化課件_第2頁(yè)
聲音的數(shù)位化課件_第3頁(yè)
聲音的數(shù)位化課件_第4頁(yè)
聲音的數(shù)位化課件_第5頁(yè)
已閱讀5頁(yè),還剩33頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、Audio1聲音的數(shù)位化什麼是聲音?聲音是像光一樣的波長(zhǎng)的現(xiàn)象,但是這是巨觀來(lái)看,它其實(shí)是牽涉到空氣中的分子在一些實(shí)體設(shè)備運(yùn)作下被壓縮與放大的結(jié)果。例如,一個(gè)音效系統(tǒng)中的喇叭前後的震動(dòng)產(chǎn)生一個(gè)縱向的壓力波,而這個(gè)波就是我們所接受到的聲音。.因?yàn)槁曇羰且粋€(gè)壓力波,它是一個(gè)連續(xù)的數(shù)值,而不是數(shù)位資料。即使這樣的壓力波是縱向的,它們?nèi)匀挥胁ǖ奶刭|(zhì)與行為,如反射(反彈,bouncing), 折射(強(qiáng)度的不同的波進(jìn)入媒介後角度的改變與繞射(沿著物體周圍彎曲)。假使我們希望使用聲音的數(shù)位版本,必須形成聲音資訊的數(shù)位表示方式。2數(shù)位化(Digitization)數(shù)位化意味著轉(zhuǎn)換成一串?dāng)?shù)字。下圖是聲音的一維表

2、示圖:振幅值取決於一個(gè)一維的變數(shù),就是時(shí)間。3數(shù)位化(Digitization)上圖必須把時(shí)間及振幅 作為數(shù)位化的參數(shù),也就是取樣時(shí)要將它們記錄:一個(gè)時(shí)間對(duì)應(yīng)一個(gè)振幅。取樣即是測(cè)量我們想要知道訊號(hào)上的數(shù)值,取樣的間距通常會(huì)是許多相同大小的區(qū)間。第一種取樣方式,就是利用在相同長(zhǎng)度的時(shí)間間隔做測(cè)量。 這樣測(cè)量的速率叫做測(cè)量頻率(sampling frequency)對(duì)聲音而言,典型的取樣頻率是8 kHz (8,000 samples per second) 到48 kHz。在振幅或電壓的象限來(lái)取樣叫做quantization45數(shù)位化(Digitization)數(shù)位化因此決定要如何將聲音資料數(shù)位化

3、,我們需要知道下列的問(wèn)題:取樣速率是多少?資料可以量化到什麼程度,量化的量是一致的嗎?聲音資料的格式為何? 6Nyquist Theorem訊號(hào)可以被拆成一組正弦波的總和,左圖顯示有比重的正弦撥可以建立一個(gè)複雜的訊號(hào)。7Nyquist TheoremNyquist理論是要告知取樣的頻率要多快才可以還原本來(lái)的聲音。下圖(a)顯示單一的一個(gè)正弦波:它是一個(gè)單純的頻率 。假使取樣速率恰好與實(shí)際頻率相等,下圖(b)顯示會(huì)還原一個(gè)錯(cuò)誤的訊號(hào):它只是一個(gè)沒(méi)有頻率的常數(shù)。再來(lái),如果取樣變成了1.5倍,下圖(c)顯示所得到仍是一個(gè)不正確頻率的波 (alias) ,這個(gè)波的頻率小於原來(lái)訊號(hào):是原來(lái)的一半 (頂點(diǎn)

4、間的波長(zhǎng)是原來(lái)的兩倍)。因此正確的取樣頻率必須至少是原來(lái)訊號(hào)的兩倍,這就是所謂的Nyquist rate。8Nyquist Theorem9Signal to Noise Ratio (SNR)正確訊號(hào)與雜訊的的能量比就叫做signal to noise ratio (SNR) 測(cè)量訊號(hào)品值的方法。SNR通常是以decibel為單位(dB),而1 dB就是1bel的十分之一。以db為單位SNR值被定義成電壓平方的以10 x為底的對(duì)數(shù),詳細(xì)定義如下:SNR = 10log10V2signal /V2noise=20log10Vsignal /Vnoise10Signal to Noise Rat

5、io (SNR)訊號(hào)的能量是與電壓的平方成比正比. 例如: 假始訊號(hào)電壓為雜訊訊號(hào)電壓的十倍, 那SNR就是20log10(10)=20dB.就能量而言,10把小提琴的能量當(dāng)然是一把小提琴能量的十倍,然而以能量比的SNR就是10dB, or 1B.通常我們所聽(tīng)到四周的聲音的層級(jí)就是靠decibel來(lái)區(qū)分,也就是以我們可以聽(tīng)到最安靜的聲音來(lái)做比例,下表就是四周聲音大概的分級(jí)。11Signal to Quantization Noise Ratio除了在原來(lái)類比訊號(hào)中會(huì)出現(xiàn)雜訊外,另外也會(huì)有因?yàn)榱炕a(chǎn)生的誤差。假使電壓設(shè)在0到1之間,但是我們只有8個(gè)位元來(lái)表示不同的電壓,所以我們也只能有效地將所

6、有連續(xù)的電壓值用256個(gè)不同的值來(lái)代表。這樣當(dāng)然會(huì)有所謂的進(jìn)位誤差(round-off error),這不算真的雜訊,通常我們會(huì)稱它為量化誤差(quantization noise 或 quantization error).12Signal to Quantization Noise Ratio量化的品質(zhì)是由Signal to Quantization Noise Ratio (SQNR)來(lái)區(qū)分。Quantization noise:對(duì)一個(gè)特定的取樣時(shí)間,在最接近量化區(qū)間的量化數(shù)值與實(shí)際類比訊號(hào)數(shù)值之間差異。最多,這樣的誤差就是區(qū)間值的一半。對(duì)每個(gè)取樣有N個(gè)位元量化準(zhǔn)確度下,SQNR 可以簡(jiǎn)

7、單地由下表示:SQNR = 20log10Vsignal /Vquan noise = 20log10 2N-1/(1/2)= 20Nlog2 = 6.02N(dB)13線性與非線性量化線性量化方式:樣本是以平均的量化值來(lái)儲(chǔ)存。非平均方式量化(Non-uniform quantization): 以人的聽(tīng)力敏感度為準(zhǔn)來(lái)設(shè)定更適當(dāng)且不同大小的區(qū)間。14聲音的過(guò)濾在取樣與AD轉(zhuǎn)換之前,聲音訊號(hào)通常也會(huì)做過(guò)濾來(lái)清除不需要的頻率訊號(hào)。 而要保留的訊號(hào)與其應(yīng)用有關(guān):對(duì)語(yǔ)音而言,頻率是保留在50Hz到10kHz之間,通??梢岳靡粋€(gè)可以濾掉較低及較高頻訊號(hào)波的band-pass filter將其它的訊號(hào)去

8、掉。一個(gè)音樂(lè)的訊號(hào)一般是落在20Hz與20kHz之間在DA 轉(zhuǎn)換器的末端,高頻可以在輸出重現(xiàn)因?yàn)槿蛹傲炕?,原?lái)平順的訊號(hào)會(huì)被一系列含有所有可能頻率的step functions所取代。所以在解碼端,在DA線路後端會(huì)使用一個(gè)low-pass filter。15聲音品質(zhì)與資料速率16Synthetic SoundsFM (Frequency Modulation),一個(gè)產(chǎn)生合成聲音的方法:x(t) = A(t) cosct+I(t)cos(mt+m)+c17Synthetic SoundsWave Table synthesis: 一個(gè)更準(zhǔn)確產(chǎn)生聲音數(shù)位訊號(hào)的方法,也就是在取樣時(shí)用到的方法:在這

9、個(gè)技術(shù)中,聲音的取樣是來(lái)自真實(shí)樂(lè)器上所儲(chǔ)存的資料。因?yàn)閣ave tables是放在音效卡上的記憶體中,它們可以用軟體來(lái)處理,所以聲音可以組合,編修與強(qiáng)化。18Musical Instrument Digital Interface使用音效卡上對(duì)聲音處理的基本設(shè)定:使用一套簡(jiǎn)單的scripting language以及硬體上 的設(shè)定稱為MIDI. MIDI OverviewMIDI是一個(gè)scripting language,它會(huì)將所謂的事件編碼,事件就是代表某個(gè)聲音的產(chǎn)生。,例如一個(gè)MIDI事件可能包含一個(gè)音階的音調(diào),它持續(xù)的時(shí)間及音量。MIDI是一個(gè)被電子樂(lè)器廠商所採(cǎi)納的標(biāo)準(zhǔn),它是用來(lái)控制像用

10、來(lái)產(chǎn)生音樂(lè)的合成樂(lè)器與音效卡等設(shè)備。大多數(shù)的合成樂(lè)器都支援MIDI,所以經(jīng)由一個(gè)合成樂(lè)器所產(chǎn)生的聲音可以在其他的合成樂(lè)器上播放及處理,而且播放出來(lái)聲音會(huì)相當(dāng)接近。 電腦必須有一個(gè)特別的MIDI介面,但是它是放在音效卡上,音效卡也必須同時(shí)有D/A與A/D轉(zhuǎn)換器。19MIDI的觀念MIDI的channels是用來(lái)分開(kāi)(指令)訊息.有編號(hào)從0到15的16個(gè)通道。訊息中的最後面的的四個(gè)位元(LSB)代表通道。通常通道對(duì)應(yīng)的是一個(gè)特別的樂(lè)器:例如通道1是給鋼琴,通道10是給鼓等等。然而視需要,可以中途換樂(lè)器給任何一個(gè)通道。20MIDI的觀念系統(tǒng)訊息像是給所有樂(lè)器變換調(diào)子或時(shí)序的一般訊息。假使最前面的四個(gè)

11、位元都是1,這個(gè)訊息就被認(rèn)為是一個(gè)系統(tǒng)共用訊息。一個(gè)合成樂(lè)器對(duì)於一個(gè)不屬它所在通道的MIDI訊息是不會(huì)理會(huì)的假使有好幾個(gè)訊息是給它所在的通道,這個(gè)樂(lè)器的反應(yīng)就是提供多聲音,也就是一次播放超過(guò)一個(gè)音符。21聲音的量化與傳輸對(duì)聲音所產(chǎn)生量化後的取樣輸出叫做 PCM (Pulse Code Modulation)。另外一個(gè)版本是 DPCM (一個(gè)原始但有效的變形叫DM)。具有適應(yīng)性的版本叫ADPCM。22Pulse Code Modulation產(chǎn)生從類比訊號(hào)到數(shù)位訊號(hào)的基本技術(shù)就是取樣與量化(sampling and quantization).量化包含選擇量值上的中斷點(diǎn),然後重新對(duì)應(yīng)任意在一段區(qū)

12、間的值到一個(gè)具有代表性的級(jí)數(shù)。23PCM區(qū)間界限的集合稱為decision boundaries,而代表值稱為reconstruction levels.量化器輸入的區(qū)間界限將會(huì)對(duì)應(yīng)到相同輸出級(jí)數(shù)形成一個(gè)所謂的coder mapping.從量化器輸出的代表值是一個(gè)所謂的decoder mapping.最後我們希望能壓縮資料經(jīng)由一個(gè)較少的位元數(shù)來(lái)代表一個(gè)最常出現(xiàn)的訊號(hào)值,來(lái)有效代表聲音的位元串流。24PCM每種壓縮方法有三步驟:Transformation將輸入資料轉(zhuǎn)換成一個(gè)較容易壓縮或更有效壓縮的新格式。Loss過(guò)程中資訊會(huì)漏失,量化就是一個(gè)主要產(chǎn)生漏失的步驟,我們使用一個(gè)比原來(lái)訊號(hào)少而且有限

13、的 reconstruction levels。Coding對(duì)每一個(gè)輸出級(jí)數(shù)或符號(hào)配一個(gè) codeword (這樣就形成了二進(jìn)位位元流)。Codeword可以是固定長(zhǎng)度或者是像Huffman coding一樣的可變長(zhǎng)度編碼(VLC) (Chap. 7).對(duì)聲音訊號(hào)而言,我們先介紹最單純的PCM的數(shù)位化,也會(huì)看到與無(wú)漏失可預(yù)測(cè)的編碼方式(Lossless Predictive Coding)與DPCM,這兩個(gè)方法是使用所謂差異化編碼方式(differential coding). 同樣也會(huì)看到所謂的適應(yīng)性版本: ADPCM,一個(gè)可以提供較好的壓縮方式。25語(yǔ)音壓縮的PCM假使語(yǔ)音的頻寬從50 H

14、z到10 kHz,所以Nyquist所建議的取樣速率是20 kHz。如果使用等量量化(uniform quantization)而沒(méi)有採(cǎi)用所謂動(dòng)態(tài)壓縮在不同大小的範(fàn)圍內(nèi),這樣最小的取樣大小可能需要12個(gè)位元。26聲音的差值編碼聲音不再以簡(jiǎn)單的PCM方式儲(chǔ)存,取而代之的是利用取樣訊號(hào)間的差異,這些差異通常來(lái)說(shuō)是比較小的數(shù)字,當(dāng)然有可能可以使用較少的位元數(shù)來(lái)儲(chǔ)存。零次預(yù)測(cè)器一次預(yù)測(cè)器27破壞性壓縮在可攜性、複雜度與品質(zhì)間取得平衡日常見(jiàn)到的VCD, DVD, MP3都經(jīng)過(guò)破壞性壓縮大多可同步播放最小聽(tīng)覺(jué)門(mén)檻人耳聽(tīng)覺(jué)的frequency response集中於2KHz5KHz的音訊利用類似BPF的手法

15、使壓縮後的音訊集中於此頻段,進(jìn)而減少資料量最小聽(tīng)覺(jué)門(mén)檻B(tài)EFOREAFTER遮蔽效應(yīng)由聽(tīng)覺(jué)心理學(xué)的模型而來(lái):太陽(yáng)位元儲(chǔ)存槽可以產(chǎn)生類似VBR的效果:波形簡(jiǎn)單時(shí)用較低的bit rate將省下的空間留給波形複雜時(shí)用維持整個(gè)流量的大小Joint Stereo立體音Intensity Stereo:減少高頻的音場(chǎng)資訊Mid/Side (M/S) Stereo:以左右聲道都有收到的訊號(hào)為主,對(duì)左右不同的訊號(hào)加以處理一般MP3兩者交互使用Huffman Coding一種常見(jiàn)的無(wú)失真壓縮的方法利用使用機(jī)率來(lái)編碼實(shí)際使用約可節(jié)省20%之空間無(wú)失真壓縮APE的壓縮技巧基本上有三大技巧:Mid/Side CodingPredictorRice CodingMid/Side Coding像先前提到的Mid/Side Stereo,將訊號(hào)分為兩喇叭的mean和differ

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論