版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)
文檔簡介
1、多媒體技術(shù)教程(林福宗)第 2 章 數(shù)字聲音及 MIDI 簡介 聲音是攜帶信息的極其重要的媒體,是多媒體技術(shù)研究 中的一個重要內(nèi)容。 聲音的種類繁多, 如人的話音、 樂器聲、 動物發(fā)出的聲音、 機(jī)器產(chǎn)生的聲音以及自然界的雷聲、 風(fēng)聲、 雨聲、閃電聲等。這些聲音有許多共同的特性,也有它們各 自的特性。在用計算機(jī)處理這些聲音時,既要考慮它們的共 性,又要利用它們的各自的特性。本章將介紹聲音的基礎(chǔ)知 識,重點掌握聲音數(shù)字化的兩個最基本的概念。此外,還介 紹在上網(wǎng)瀏覽或者脫機(jī)工作時你會經(jīng)常遇到的聲音文件存 儲格式和聲音工具。 2.1 聲音與聽覺器官 聲音是通過空氣傳播的一種連續(xù)的波,叫聲波。聲音的 強(qiáng)
2、弱體現(xiàn)在聲波壓力的大小上,音調(diào)的高低體現(xiàn)在聲音的頻 率上。聲音用電表示時,聲音信號在時間和幅度上都是連續(xù) 的模擬信號,如圖 2 01 所示。聲波具有普通波所具有的特 性,例如反射 (reflection) 、折射 (refraction) 和衍射 (diffraction) 等。 圖 2 01 聲音是一種連續(xù)的波 對聲音信號的分析表明,聲音信號由許多頻率不同的信 號組成,這類信號稱為復(fù)合信號,而單一頻率的信號稱為分 量信號。聲音信號的一個重要參數(shù)就是帶寬,它用來描述組 成復(fù)合信號的頻率范圍。 如高保真音信號 (high-fidelity audio) 的頻率范圍為 10 Hz20 000 Hz
3、,它的帶寬約為 20 kHz , 而視頻信號的帶寬是 6 MHz 。 聲音信號的兩個基本參數(shù)是頻率和幅度。信號的頻率是 指信號每秒鐘變化的次數(shù),用 Hz 表示。例如,大氣壓的變 化周期很長,以小時或天數(shù)計算,一般人不容易感到這種氣 壓信號的變化,更聽不到這種變化。對于頻率為幾 Hz 到 20 Hz 的空氣壓力信號, 人們也聽不到, 如果它的強(qiáng)度足夠大, 也許可以感覺到。 人們把頻率小于 20 Hz 的信號稱為亞音信 號,或稱為次音信號 (subsonic) ;頻率范圍為 20 Hz 20 kHz 的信號稱為音頻 (Audio) 信號;雖然人的發(fā)音器官發(fā)出的聲音 頻率大約是 803400 Hz
4、,但人說話的信號頻率通常為 3003000 Hz ,人們把在這種頻率范圍的信號稱為話音 (speech) 信號;高于 20 kHz 的信號稱為超音頻信號,或稱 超聲波 (ultrasonic) 信號。超音頻信號具有很強(qiáng)的方向性,而 且可以形成波束,在工業(yè)上得到廣泛的應(yīng)用,如超聲波探測 儀,超聲波焊接設(shè)備等就是利用這種信號。 在多媒體技術(shù)中, 處理的信號主要是音頻信號,它包括音樂、話音、風(fēng)聲、雨 聲、鳥叫聲、機(jī)器聲等。 人們是否都能聽到音頻信號,這主要取決于各個人的年 齡和耳朵的特性。一般來說,人的聽覺器官能感知的聲音頻 率大約在2020000 Hz之間,在這種頻率范圍里感知的聲 音幅度大約在0
5、120 dB之間。除此之外,人的聽覺器官對 聲音的感知還有一些重要特性, 這些特性將在第 9 章中介紹, 它們在聲音數(shù)據(jù)壓縮中已經(jīng)得到廣泛的應(yīng)用。 2.2 聲音信號數(shù)字化 2.2.1 從模擬過渡到數(shù)字 回顧歷史, 大多數(shù)電信號的處理一直是用模擬元部件(如 晶體管、變壓器、電阻、電容等 )對模擬信號進(jìn)行處理。 但是, 開發(fā)一個具有相當(dāng)精度、且?guī)缀醪皇墉h(huán)境變化影響的模擬信 號處理元部件是相當(dāng)困難的,而且成本也很高。 如果把模擬信號轉(zhuǎn)變成數(shù)字信號,用數(shù)字來表示模擬量, 對數(shù)字信號做計算,那末難點就發(fā)生了轉(zhuǎn)移,把開發(fā)模擬運 算部件的問題轉(zhuǎn)變成開發(fā)數(shù)字運算部件的問題,這就出現(xiàn)了 數(shù)字信號處理器 (dig
6、ital signal processor , DSP) 。 DSP 與通 用微處理器相比,除了它們的結(jié)構(gòu)不同外,其基本差別是, DSP 有能力響應(yīng)和處理采樣模擬信號得到的數(shù)據(jù)流, 如做乘 法和累加求和運算。 在數(shù)字域而不在模擬域中做信號處理的主要優(yōu)點是:首 先,數(shù)字信號計算是一種精確的運算方法,它不受時間和環(huán) 境變化的影響;其次,表示部件功能的數(shù)學(xué)運算不是物理上 實現(xiàn)的功能部件,而是僅用數(shù)學(xué)運算去模擬,其中的數(shù)學(xué)運 算也相對容易實現(xiàn);此外,可以對數(shù)字運算部件進(jìn)行編程, 如欲改變算法或改變某些功能,還可對數(shù)字部件進(jìn)行再編程。 2.2.2 模擬信號與數(shù)字信號 話音信號是典型的連續(xù)信號,不僅在時間
7、上是連續(xù)的, 而且在幅度上也是連續(xù)的。在時間上“連續(xù)”是指在一個指定 的時間范圍里聲音信號的幅值有無窮多個,在幅度上“連續(xù)” 是指幅度的數(shù)值有無窮多個。我們把在時間和幅度上都是連 續(xù)的信號稱為模擬信號。 在某些特定的時刻對這種模擬信號進(jìn)行測量叫做采樣 (sampling) ,由這些特定時刻采樣得到的信號稱為離散時間 信號。采樣得到的幅值是無窮多個實數(shù)值中的一個,因此幅 度還是連續(xù)的。如果把信號幅度取值的數(shù)目加以限定,這種 由有限個數(shù)值組成的信號就稱為離散幅度信號。例如,假設(shè) 輸入電壓的范圍是0.0V0.7V ,并假設(shè)它的取值只限定在 0、 0.1、0.2,0.7共8個值。如果采樣得到的幅度值是
8、0.123V , 它的取值就應(yīng)算作 0.1V,如果采樣得到的幅度值是0.26V, 它的取值就算作 0.3,這種數(shù)值就稱為離散數(shù)值。我們把時 間和幅度都用離散的數(shù)字表示的信號就稱為數(shù)字信號。 2.2.3 聲音信號數(shù)字化 聲音進(jìn)入計算機(jī)的第一步就是數(shù)字化,數(shù)字化實際上 就是采樣和量化。如前所述,連續(xù)時間的離散化通過采樣來 實現(xiàn),就是每隔相等的一小段時間采樣一次,這種采樣稱為 均勻采樣 (uniform sampling) ;連續(xù)幅度的離散化通過量化 (quantization) 來實現(xiàn),就是把信號的強(qiáng)度劃分成一小段一小 段,如果幅度的劃分是等間隔的,就稱為線性量化,否則就 稱為非線性量化。圖 2
9、-02表示了聲音數(shù)字化的概念。 圖 202 聲音的采樣和量化 聲音數(shù)字化需要回答兩個問題:每秒鐘需要采集多少 個聲音樣本,也就是采樣頻率(fs)是多少,每個聲音樣本的 位數(shù) (bit per sample , bps) 應(yīng)該是多少,也就是量化精度。 2.2.4 采樣頻率 采樣頻率的高低是根據(jù)奈奎斯特理論 (Nyquist theory) 和聲音信號本身的最高頻率決定的。奈奎斯特理論指出,采 樣頻率不應(yīng)低于聲音信號最高頻率的兩倍,這樣就能把以數(shù) 字表達(dá)的聲音還原成原來的聲音,這叫做無損數(shù)字化 (lossless digitization) 。采樣定律用公式表示為 fs 3 2f 或者 Ts T/
10、2 其中 f 為被采樣信號的最高頻率。 你可以這樣來理解奈奎斯特理論:聲音信號可以看成 由許許多多正弦波組成的,一個振幅為 A、頻率為f的正弦 波至少需要兩個采樣樣本表示,因此,如果一個信號中的最 高頻率為 fmax, 采樣頻率最低要選擇 2。例如,電話話音的 信號頻率約為 3.4 kHz ,采樣頻率就選為 8 kHz 。 2.2.5 采樣精度 樣本大小是用每個聲音樣本的位數(shù)bit/s (即 bps )表示 的,它反映度量聲音波形幅度的精度。例如,每個聲音樣本 用16位(2字節(jié))表示,測得的聲音樣本值是在065536 的范圍里,它的精度就是輸入信號的 1/65536 。樣本位數(shù)的 大小影響到聲
11、音的質(zhì)量,位數(shù)越多,聲音的質(zhì)量越高,而需 要的存儲空間也越多;位數(shù)越少,聲音的質(zhì)量越低,需要的 存儲空間越少。 采樣精度的另一種表示方法是信號噪聲比,簡稱為信噪 比(signal-to-noise ratio , SNR),并用下式計算: SNR = 10log(Vsignal)2/(Vnoise)2= 20log(Vsignal/Vnoise) 其中, Vsignal 表示信號電壓, Vnoise 表示噪聲電壓; SNR 的單位為分貝 (db) 例1 :假設(shè) Vnoise = 1,米樣精度為 1位表示 Vsignal =21,它的信噪比SNR = 6分貝。 例 2:假設(shè) Vnoise = 1
12、 ,采樣精度為 16位表示 Vsignal =216,它的信噪比 SNR=96 分貝。 2.2.6 聲音質(zhì)量與數(shù)據(jù)率 根據(jù)聲音的頻帶,通常把聲音的質(zhì)量分成 5 個等級,由 低到高分別是電話 ( telephone )、調(diào)幅( amplitude modulation AM )廣播、調(diào)頻( frequency modulation , FM )廣播、激 光唱盤(CD-Audio )和數(shù)字錄音帶(digital audio tape , DAT ) 的聲音。在這 5 個等級中,使用的采樣頻率、樣本精度、通 道數(shù)和數(shù)據(jù)率列于表2 -01 o 表2 -01聲音質(zhì)量和數(shù)據(jù)率質(zhì)量 采樣頻率 (kHz) 樣本精度
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025智能化系統(tǒng)工程合同
- 江淮合作合同范例
- 2025駕駛員聘用管理合同范本
- 政府采購員合同范例
- 石材欄桿護(hù)欄合同范例
- 2025農(nóng)產(chǎn)品運輸合同(綜合農(nóng)產(chǎn)品類)
- 海報印刷服務(wù)合同范例
- 市政合同范例制作
- 合同以外合同范例
- 出售個人土地合同范例
- 記賬實操-紅十字會的會計賬務(wù)處理分錄
- 空運陸運操作崗位招聘面試題及回答建議(某大型國企)2024年
- 《元旦新氣象夢想再起航》主題班會
- 2024-2030年中國集中供熱行業(yè)供需平衡與投資運行模式規(guī)劃研究報告
- TCSRME 034-2023 隧道巖溶堵水注漿技術(shù)規(guī)程
- 藝坊尋美-藝術(shù)實踐體驗坊智慧樹知到答案2024年黑龍江幼兒師范高等??茖W(xué)校
- 桂枝顆粒營銷策略與品牌定位
- 墻布訂購合同協(xié)議書
- 爭做“四有好老師”-當(dāng)好“四個引路人”
- 支持企業(yè)建設(shè)中試平臺實施方案
- 腦血管造影課件
評論
0/150
提交評論