多媒體技術(shù)教程(林福宗)第2章數(shù)字聲音及midi簡介

上傳人：s*** IP屬地：天津上傳時間：2021-05-22 格式：DOCX 頁數(shù)：12 大小：12.21KB 積分：18 舉報 版權(quán)申訴

多媒體技術(shù)教程(林福宗)第2章數(shù)字聲音及midi簡介_第2頁

多媒體技術(shù)教程(林福宗)第2章數(shù)字聲音及midi簡介_第3頁

多媒體技術(shù)教程(林福宗)第2章數(shù)字聲音及midi簡介_第4頁

多媒體技術(shù)教程(林福宗)第2章數(shù)字聲音及midi簡介_第5頁

已閱讀5頁，還剩7頁未讀，繼續(xù)免費閱讀

版權(quán)說明：本文檔由用戶提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

1、多媒體技術(shù)教程(林福宗)第 2 章數(shù)字聲音及 MIDI 簡介聲音是攜帶信息的極其重要的媒體，是多媒體技術(shù)研究中的一個重要內(nèi)容。聲音的種類繁多，如人的話音、樂器聲、動物發(fā)出的聲音、機(jī)器產(chǎn)生的聲音以及自然界的雷聲、風(fēng)聲、雨聲、閃電聲等。這些聲音有許多共同的特性，也有它們各自的特性。在用計算機(jī)處理這些聲音時，既要考慮它們的共性，又要利用它們的各自的特性。本章將介紹聲音的基礎(chǔ)知識，重點掌握聲音數(shù)字化的兩個最基本的概念。此外，還介紹在上網(wǎng)瀏覽或者脫機(jī)工作時你會經(jīng)常遇到的聲音文件存儲格式和聲音工具。 2.1 聲音與聽覺器官聲音是通過空氣傳播的一種連續(xù)的波，叫聲波。聲音的強(qiáng)

2、弱體現(xiàn)在聲波壓力的大小上，音調(diào)的高低體現(xiàn)在聲音的頻率上。聲音用電表示時，聲音信號在時間和幅度上都是連續(xù) 的模擬信號，如圖 2 01 所示。聲波具有普通波所具有的特性，例如反射 (reflection) 、折射 (refraction) 和衍射 (diffraction) 等。圖 2 01 聲音是一種連續(xù)的波對聲音信號的分析表明，聲音信號由許多頻率不同的信號組成，這類信號稱為復(fù)合信號，而單一頻率的信號稱為分量信號。聲音信號的一個重要參數(shù)就是帶寬，它用來描述組成復(fù)合信號的頻率范圍。如高保真音信號 (high-fidelity audio) 的頻率范圍為 10 Hz20 000 Hz

3、，它的帶寬約為 20 kHz , 而視頻信號的帶寬是 6 MHz 。聲音信號的兩個基本參數(shù)是頻率和幅度。信號的頻率是指信號每秒鐘變化的次數(shù)，用 Hz 表示。例如，大氣壓的變化周期很長，以小時或天數(shù)計算，一般人不容易感到這種氣壓信號的變化，更聽不到這種變化。對于頻率為幾 Hz 到 20 Hz 的空氣壓力信號，人們也聽不到，如果它的強(qiáng)度足夠大，也許可以感覺到。人們把頻率小于 20 Hz 的信號稱為亞音信號，或稱為次音信號 (subsonic) ；頻率范圍為 20 Hz 20 kHz 的信號稱為音頻 (Audio) 信號；雖然人的發(fā)音器官發(fā)出的聲音頻率大約是 803400 Hz

4、，但人說話的信號頻率通常為 3003000 Hz ，人們把在這種頻率范圍的信號稱為話音 (speech) 信號；高于 20 kHz 的信號稱為超音頻信號，或稱超聲波 (ultrasonic) 信號。超音頻信號具有很強(qiáng)的方向性，而且可以形成波束，在工業(yè)上得到廣泛的應(yīng)用，如超聲波探測儀，超聲波焊接設(shè)備等就是利用這種信號。在多媒體技術(shù)中，處理的信號主要是音頻信號，它包括音樂、話音、風(fēng)聲、雨聲、鳥叫聲、機(jī)器聲等。人們是否都能聽到音頻信號，這主要取決于各個人的年齡和耳朵的特性。一般來說，人的聽覺器官能感知的聲音頻率大約在2020000 Hz之間，在這種頻率范圍里感知的聲音幅度大約在0

5、120 dB之間。除此之外，人的聽覺器官對聲音的感知還有一些重要特性，這些特性將在第 9 章中介紹，它們在聲音數(shù)據(jù)壓縮中已經(jīng)得到廣泛的應(yīng)用。 2.2 聲音信號數(shù)字化 2.2.1 從模擬過渡到數(shù)字回顧歷史，大多數(shù)電信號的處理一直是用模擬元部件(如晶體管、變壓器、電阻、電容等 )對模擬信號進(jìn)行處理。但是，開發(fā)一個具有相當(dāng)精度、且?guī)缀醪皇墉h(huán)境變化影響的模擬信號處理元部件是相當(dāng)困難的，而且成本也很高。如果把模擬信號轉(zhuǎn)變成數(shù)字信號，用數(shù)字來表示模擬量，對數(shù)字信號做計算，那末難點就發(fā)生了轉(zhuǎn)移，把開發(fā)模擬運算部件的問題轉(zhuǎn)變成開發(fā)數(shù)字運算部件的問題，這就出現(xiàn)了數(shù)字信號處理器 (dig

6、ital signal processor ， DSP) 。 DSP 與通用微處理器相比，除了它們的結(jié)構(gòu)不同外，其基本差別是， DSP 有能力響應(yīng)和處理采樣模擬信號得到的數(shù)據(jù)流，如做乘法和累加求和運算。在數(shù)字域而不在模擬域中做信號處理的主要優(yōu)點是：首先，數(shù)字信號計算是一種精確的運算方法，它不受時間和環(huán) 境變化的影響；其次，表示部件功能的數(shù)學(xué)運算不是物理上實現(xiàn)的功能部件，而是僅用數(shù)學(xué)運算去模擬，其中的數(shù)學(xué)運算也相對容易實現(xiàn)；此外，可以對數(shù)字運算部件進(jìn)行編程，如欲改變算法或改變某些功能，還可對數(shù)字部件進(jìn)行再編程。 2.2.2 模擬信號與數(shù)字信號話音信號是典型的連續(xù)信號，不僅在時間

7、上是連續(xù)的，而且在幅度上也是連續(xù)的。在時間上“連續(xù)”是指在一個指定的時間范圍里聲音信號的幅值有無窮多個，在幅度上“連續(xù)” 是指幅度的數(shù)值有無窮多個。我們把在時間和幅度上都是連續(xù)的信號稱為模擬信號。在某些特定的時刻對這種模擬信號進(jìn)行測量叫做采樣 (sampling) ，由這些特定時刻采樣得到的信號稱為離散時間信號。采樣得到的幅值是無窮多個實數(shù)值中的一個，因此幅度還是連續(xù)的。如果把信號幅度取值的數(shù)目加以限定，這種由有限個數(shù)值組成的信號就稱為離散幅度信號。例如，假設(shè) 輸入電壓的范圍是0.0V0.7V ,并假設(shè)它的取值只限定在 0、 0.1、0.2，0.7共8個值。如果采樣得到的幅度值是

8、0.123V , 它的取值就應(yīng)算作 0.1V，如果采樣得到的幅度值是0.26V，它的取值就算作 0.3，這種數(shù)值就稱為離散數(shù)值。我們把時間和幅度都用離散的數(shù)字表示的信號就稱為數(shù)字信號。 2.2.3 聲音信號數(shù)字化聲音進(jìn)入計算機(jī)的第一步就是數(shù)字化，數(shù)字化實際上就是采樣和量化。如前所述，連續(xù)時間的離散化通過采樣來實現(xiàn)，就是每隔相等的一小段時間采樣一次，這種采樣稱為均勻采樣 (uniform sampling) ；連續(xù)幅度的離散化通過量化 (quantization) 來實現(xiàn)，就是把信號的強(qiáng)度劃分成一小段一小段，如果幅度的劃分是等間隔的，就稱為線性量化，否則就稱為非線性量化。圖 2

9、-02表示了聲音數(shù)字化的概念。圖 202 聲音的采樣和量化聲音數(shù)字化需要回答兩個問題：每秒鐘需要采集多少個聲音樣本，也就是采樣頻率(fs)是多少，每個聲音樣本的位數(shù) (bit per sample ， bps) 應(yīng)該是多少，也就是量化精度。 2.2.4 采樣頻率采樣頻率的高低是根據(jù)奈奎斯特理論 (Nyquist theory) 和聲音信號本身的最高頻率決定的。奈奎斯特理論指出，采樣頻率不應(yīng)低于聲音信號最高頻率的兩倍，這樣就能把以數(shù) 字表達(dá)的聲音還原成原來的聲音，這叫做無損數(shù)字化 (lossless digitization) 。采樣定律用公式表示為 fs 3 2f 或者 Ts T/

10、2 其中 f 為被采樣信號的最高頻率。你可以這樣來理解奈奎斯特理論：聲音信號可以看成由許許多多正弦波組成的，一個振幅為 A、頻率為f的正弦波至少需要兩個采樣樣本表示，因此，如果一個信號中的最高頻率為 fmax, 采樣頻率最低要選擇 2。例如，電話話音的信號頻率約為 3.4 kHz ，采樣頻率就選為 8 kHz 。 2.2.5 采樣精度樣本大小是用每個聲音樣本的位數(shù)bit/s (即 bps )表示的，它反映度量聲音波形幅度的精度。例如，每個聲音樣本用16位(2字節(jié))表示，測得的聲音樣本值是在065536 的范圍里，它的精度就是輸入信號的 1/65536 。樣本位數(shù)的大小影響到聲

11、音的質(zhì)量，位數(shù)越多，聲音的質(zhì)量越高，而需要的存儲空間也越多；位數(shù)越少，聲音的質(zhì)量越低，需要的存儲空間越少。采樣精度的另一種表示方法是信號噪聲比，簡稱為信噪比(signal-to-noise ratio , SNR)，并用下式計算： SNR = 10log(Vsignal)2/(Vnoise)2= 20log(Vsignal/Vnoise) 其中， Vsignal 表示信號電壓， Vnoise 表示噪聲電壓； SNR 的單位為分貝 (db) 例1 :假設(shè) Vnoise = 1，米樣精度為 1位表示 Vsignal =21，它的信噪比SNR = 6分貝。例 2：假設(shè) Vnoise = 1

12、，采樣精度為 16位表示 Vsignal =216，它的信噪比 SNR=96 分貝。 2.2.6 聲音質(zhì)量與數(shù)據(jù)率根據(jù)聲音的頻帶，通常把聲音的質(zhì)量分成 5 個等級，由低到高分別是電話 ( telephone )、調(diào)幅( amplitude modulation AM )廣播、調(diào)頻( frequency modulation ， FM )廣播、激光唱盤(CD-Audio )和數(shù)字錄音帶(digital audio tape , DAT ) 的聲音。在這 5 個等級中，使用的采樣頻率、樣本精度、通道數(shù)和數(shù)據(jù)率列于表2 -01 o 表2 -01聲音質(zhì)量和數(shù)據(jù)率質(zhì)量采樣頻率 (kHz) 樣本精度

人人文庫> 全部分類> 行業(yè)資料 > 信息產(chǎn)業(yè)

溫馨提示

1. 本站所有資源如無特殊說明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽，若沒有圖紙預(yù)覽就沒有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 人人文庫網(wǎng)僅提供信息存儲空間，僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理，對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對任何下載內(nèi)容負(fù)責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容，請與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

多媒體技術(shù)教程(林福宗)第2章數(shù)字聲音及midi簡介

文檔簡介

溫馨提示

最新文檔

評論

多媒體技術(shù)教程(林福宗)第2章數(shù)字聲音及midi簡介

文檔簡介

溫馨提示

最新文檔

評論

相關(guān)文檔