音頻數(shù)字化簡(jiǎn)單原理.doc_第1頁(yè)
音頻數(shù)字化簡(jiǎn)單原理.doc_第2頁(yè)
音頻數(shù)字化簡(jiǎn)單原理.doc_第3頁(yè)
音頻數(shù)字化簡(jiǎn)單原理.doc_第4頁(yè)
音頻數(shù)字化簡(jiǎn)單原理.doc_第5頁(yè)
免費(fèi)預(yù)覽已結(jié)束,剩余1頁(yè)可下載查看

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

音頻數(shù)字化簡(jiǎn)單原理 2007-3-13 9:41:00 | By: 林俊桂 從字面上來說,數(shù)字化(Digital)就是以數(shù)字來表示,例如用數(shù)字去記錄一張桌子的長(zhǎng)寬尺寸,各木料間的角度,這就是一種數(shù)字化。跟數(shù)位常常一起被提到的字是模擬(Analog/Analogue),模擬的意思就是用一種相似的東西去表達(dá),例如將桌子用傳統(tǒng)相機(jī)將三視圖拍下來,就是一種模擬的記錄方式。兩個(gè)概念:1、分貝(dB):聲波振幅的度量單位,非絕對(duì)、非線性、對(duì)數(shù)式度量方式。以人耳所能聽到的最靜的聲音為1dB,那么會(huì)造成人耳聽覺損傷的最大聲音為100dB。人們正常語(yǔ)音交談大約為20dB。10dB意味著音量放大10倍,而20dB卻不是20倍,而是100倍(10的2次方)。2、頻率(Hz):人們能感知的聲音音高。男性語(yǔ)音為180Hz,女性歌聲為600Hz,鋼琴上C調(diào)至A調(diào)間為440Hz,電視機(jī)發(fā)出人所能聽到的聲音是17kHz,人耳能夠感知的最高聲音頻率為20kHz。將音頻數(shù)字化,其實(shí)就是將聲音數(shù)字化。最常見的方式是透過PCM(脈沖)。運(yùn)作原理如下。首先我們考慮聲音經(jīng)過麥克風(fēng),轉(zhuǎn)換成一連串電壓變化的信號(hào),如下圖所示。這張圖的橫座標(biāo)為秒,縱座標(biāo)為電壓大小。要將這樣的信號(hào)轉(zhuǎn)為PCM格式的方法,是先以等時(shí)距分割。我們把分割線與信號(hào)圖形交叉處的座標(biāo)位置記錄下來,可以得到如下資料,(0.01,11.65),(0.02,14.00)、(0.03,16.00)、(0.04,17.74).(0.18,15.94)、(0.19,17.7)、(0.20,20)。好了,我們現(xiàn)在已經(jīng)把這個(gè)波形以數(shù)字記錄下來了。由于我們已經(jīng)知道時(shí)間間隔是固定的0.01秒,因此我們只要把縱座標(biāo)記錄下來就可以了,得到的結(jié)果是11.6514.0016.0017.7419.0019.8920.3420.0719.4418.5917.4716.3115.2314.4313.8913.7114.4915.9417.7020.00這一數(shù)列。這一串?dāng)?shù)字就是將以上信號(hào)數(shù)字化的結(jié)果。看吧,我們確實(shí)用數(shù)字記錄了事物。在以上的范例中,我們的采樣頻率是100Hz(1/0.01秒)。其實(shí)電腦中的.WAV檔的內(nèi)容就是類似這個(gè)樣子,文件頭中記錄了采樣頻率和可容許最大記錄振幅,后面就是一連串表示振幅大小的數(shù)字,有正有負(fù)。常見CD唱盤是以PCM格式記錄,而它的采樣頻率(SampleRate)是44100Hz,振幅采樣精度/數(shù)位是16Bits,也就是說振幅最小可達(dá)-32768(-216/2),最大可達(dá)+32767(216/2-1)。CD唱盤是以螺旋狀由內(nèi)到外儲(chǔ)存資料,可以存儲(chǔ)74分鐘的音樂。CD唱盤的規(guī)格為什么是44.1kHz、16Bits呢?關(guān)于44.1kHz這個(gè)數(shù)字的選取分為兩個(gè)層面。首先人耳的聆聽范圍是20Hz到20kHz,根據(jù)Nyquists,理論上只要用40kHz以上的采樣頻率就可以完整記錄20kHz以下的信號(hào)。那么為什么要用44.1kHz這個(gè)數(shù)字呢?那是因?yàn)樵贑D發(fā)明前硬盤還很貴,所以主要將數(shù)字音頻信號(hào)儲(chǔ)存媒體是錄像帶,用黑白來記錄0與1。而當(dāng)時(shí)的錄像帶格式為每秒30張,而一張圖又可以分為490條線,每一條線又可以儲(chǔ)存三個(gè)取樣信號(hào),因此每秒有30*490*3=44100個(gè)取樣點(diǎn),而為了研發(fā)的方便,CD唱盤也繼承了這個(gè)規(guī)格,這就是44.1kHz的由來。在這里我們可以發(fā)現(xiàn)無論使用多么高的采樣精度/數(shù)位,記錄的數(shù)字跟實(shí)際的信號(hào)大小總是有誤差,因此數(shù)字化無法完全記錄原始信號(hào)。我們稱這個(gè)數(shù)字化造成失真稱為量化失真。數(shù)字化的最大好處是資料傳輸與保存的不易失真。記錄的資料只要數(shù)字大小不改變,記錄的資料內(nèi)容就不會(huì)改變。如果我們用傳統(tǒng)類比的方式記錄以上信號(hào),例如使用錄音帶表面的磁場(chǎng)強(qiáng)度來表達(dá)振幅大小,我們?cè)趶?fù)制資料時(shí),無論電路設(shè)計(jì)多么嚴(yán)謹(jǐn),總是無法避免雜訊的介入。這些雜訊會(huì)變成復(fù)制后資料的一部份,造成失真,且復(fù)制越多次信噪比(信號(hào)大小與噪音大小的比值)會(huì)越來越低,資料的細(xì)節(jié)也越來越少。如果多次復(fù)制過錄音帶,對(duì)以上的經(jīng)驗(yàn)應(yīng)該不陌生。在數(shù)字化的世界里,這串?dāng)?shù)字轉(zhuǎn)換為二進(jìn)制,以電壓的高低來判讀1與0,還可以加上各種檢查碼,使得出錯(cuò)機(jī)率很低,因此在一般的情況下無論復(fù)制多少次,資料的內(nèi)容都是相同,達(dá)到不失真的目的。那么,數(shù)字化的資料如何轉(zhuǎn)換成原來的音頻信號(hào)呢?在計(jì)算機(jī)的聲卡中一塊芯片叫做DAC(DigitaltoAnalogConverter),中文稱數(shù)模轉(zhuǎn)換器。DAC的功能如其名是把數(shù)字信號(hào)轉(zhuǎn)換回模擬信號(hào)。我們可以把DAC想像成16個(gè)小電阻,各個(gè)電阻值是以二的倍數(shù)增大。當(dāng)DAC接受到來自計(jì)算機(jī)中的二進(jìn)制PCM信號(hào),遇到0時(shí)相對(duì)應(yīng)的電阻就開啟,遇到1相對(duì)應(yīng)的電阻不作用,如此每一批16Bits數(shù)字信號(hào)都可以轉(zhuǎn)換回相對(duì)應(yīng)的電壓大小。我們可以想像這個(gè)電壓大小看起來似乎會(huì)像階梯一樣一格一格,跟原來平滑的信號(hào)有些差異,因此再輸出前還要通過一個(gè)低通濾波器,將高次諧波濾除,這樣聲音就會(huì)變得比較平滑了。從前面的內(nèi)容可以看出,音頻數(shù)字化就是將模擬的(連續(xù)的)聲音波形數(shù)字化(離散化),以便利用數(shù)字計(jì)算機(jī)進(jìn)行處理的過程,主要包參數(shù)括采樣頻率(SampleRate)和采樣數(shù)位/采樣精度(Quantizing,也稱量化級(jí))兩個(gè)方面,這二者決定了數(shù)字化音頻的質(zhì)量。采樣頻率是對(duì)聲音波形每秒鐘進(jìn)采樣的次數(shù)。根據(jù)這種采樣方法,采樣頻率是能夠再現(xiàn)聲音頻率的一倍。人耳聽覺的頻率上限在2OkHz左右,為了保證聲音不失真,采樣頻率應(yīng)在4OkHz左右。經(jīng)常使用的采樣頻率有11.025kHz、22.05kHz和44.lkHz等。采樣頻率越高,聲音失真越小、音頻數(shù)據(jù)量越大。采樣數(shù)位是每個(gè)采樣點(diǎn)的振幅動(dòng)態(tài)響應(yīng)數(shù)據(jù)范圍,經(jīng)常采用的有8位、12位和16位。例如,8位量化級(jí)表示每個(gè)采樣點(diǎn)可以表示256個(gè)(0-255)不同量化值,而16位量化級(jí)則可表示65536個(gè)不同量化值。采樣量化位數(shù)越高音質(zhì)越好,數(shù)據(jù)量也越大。反映音頻數(shù)字化質(zhì)量的另一個(gè)因素是通道(或聲道)個(gè)數(shù)。記錄聲音時(shí),如果每次生成一個(gè)聲波數(shù)據(jù),稱為單聲道;每次生成二個(gè)聲波數(shù)據(jù),稱為立體聲(雙聲道),立體聲更能反映人的聽覺感受。除了上述因素外,數(shù)字化音頻的質(zhì)量還受其它一些因素(如揚(yáng)聲器質(zhì)量,麥克風(fēng)優(yōu)劣,計(jì)算機(jī)聲卡A/D與D/A(模/數(shù)、數(shù)/模)轉(zhuǎn)換芯片品質(zhì),各個(gè)設(shè)備連接線屏蔽效果好壞等)的影響。綜上所述,聲音數(shù)字化的采樣頻率和量化級(jí)越高,結(jié)果越接近原始聲音,但記錄數(shù)字聲音所需存儲(chǔ)空間也隨之增加??梢杂孟旅娴墓焦浪懵曇魯?shù)字化后每秒所需的存儲(chǔ)量(假定不經(jīng)壓縮):存儲(chǔ)量=(采樣頻率*采樣數(shù)位)/8(字節(jié)數(shù))若采用雙聲道錄音,存儲(chǔ)量再增加一倍。例如,數(shù)字激光唱盤(CDDA,紅皮書標(biāo)準(zhǔn))的標(biāo)準(zhǔn)采樣頻率為44.lkHz,采樣數(shù)位為16位,立體聲,可以幾乎無失真地播出頻率高達(dá)22kHz的聲音,這也是人類所能聽到的最高頻率聲音。激光唱盤一分鐘音樂需要的存儲(chǔ)量為:44.1*1000*l6*2*60/8=10,584,000(字節(jié))=10.584MBytes這個(gè)數(shù)值就是微軟Windows系統(tǒng)中WAVE(.WAV)聲音文件在硬盤中所占磁盤空間的存儲(chǔ)量。由MICROSOFT公司開發(fā)的WAV聲音文件格式,是如今計(jì)算機(jī)中最為常見的聲音文件類型之一,它符合RIFF文件規(guī)范,用于保存WINDOWS平臺(tái)的音頻信息資源,被WINDOWS平臺(tái)機(jī)器應(yīng)用程序所廣泛支持。另外,WAVE格式支持MSADPCM、CCIPTALAW、CCIPT-LAW和其他壓縮算法,支持多種音頻位數(shù),采樣頻率和聲道,但其缺點(diǎn)是文件體積較大,所以不適合長(zhǎng)時(shí)間記錄。因此,才會(huì)出現(xiàn)各種音頻壓縮編/解碼技術(shù)的出現(xiàn),例如,MP3,RM,WMA,VQF,ASF等等它們各自有自己的應(yīng)用領(lǐng)域,并且不斷在競(jìng)爭(zhēng)中求得發(fā)展。WAVE、MIDI、MP3、RM常見音頻格式簡(jiǎn)介WAVE-WINDOWS系統(tǒng)最基本音頻格式-*.wav1、占用巨大硬盤空間,音質(zhì)最好,支持音樂與語(yǔ)音2、通常采樣使用44KHZ采樣/秒,16位/采樣,立體聲,雙聲道,CD音質(zhì)3、一分鐘音樂占用大約10M硬盤空間,56K調(diào)制解調(diào)器需要30分鐘才能完成網(wǎng)絡(luò)傳送MIDI-電子合成音樂-*.mid1、與WAVE格式截然不同,只有音樂,沒有語(yǔ)音2、使用音色庫(kù)回放,有軟硬波表之分,3、十分節(jié)省磁盤空間,但是音質(zhì)回放對(duì)聲卡依賴較大4、無法使用TotalRecorder錄制mid音樂5、可以使用Wingroove軟波表或其它軟件轉(zhuǎn)為waveMP3-最流行音頻壓縮格式-*.mp31、節(jié)省硬盤空間,有損壓縮,無法復(fù)原2、音質(zhì)與不同

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論