第2章音頻信號處理技術(shù)

上傳人：a*** IP屬地：湖北上傳時間：2023-02-05 格式：PPT 頁數(shù)：104 大小：1.06MB 積分：28 舉報 版權(quán)申訴

已閱讀5頁，還剩99頁未讀，繼續(xù)免費閱讀

版權(quán)說明：本文檔由用戶提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

第二章:音頻信號處理技術(shù)

教學(xué)建議以介紹多媒體計算機(jī)中聲音的特性、類型與處理等音頻信號處理技術(shù)的基本原理為主，并講述常用軟件的使用以及應(yīng)用前景。本章需6~8學(xué)時。2/5/2023第二章:音頻信號處理技術(shù)教學(xué)提示

聲音是攜帶信息的極其重要的媒體,音頻信號處理技術(shù)是多媒體信息處理中的核心技術(shù)之一，它是多媒體技術(shù)和多媒體產(chǎn)品開發(fā)中的重要內(nèi)容。本章主要介紹多媒體計算機(jī)中音頻信號處理技術(shù)的基本原理、硬件、軟件以及應(yīng)用前景。教學(xué)目標(biāo)

通過學(xué)習(xí)本章內(nèi)容，要求大家掌握計算機(jī)聲音處理的常用技術(shù)與原理，了解聲音處理硬件的基本構(gòu)成、常用的聲音合成方法、聲音的編碼與壓縮技術(shù)、數(shù)字音頻的合成以及數(shù)字聲音的應(yīng)用知識。

2/5/2023教學(xué)內(nèi)容1聲音的特性、類型與處理2聲卡的構(gòu)成與功能3聲音信號的數(shù)字化4聲音文件的存儲格式5電子樂器數(shù)字接口(MIDI)系統(tǒng)

2/5/2023

MultimediaTechnology&Application教學(xué)內(nèi)容6音頻信息的壓縮技術(shù)7數(shù)字語音的應(yīng)用語音識別語音合成8聲音媒體編輯軟件的應(yīng)用

Windows的錄音機(jī)軟件聲音編輯軟件CoolEdit9本章小結(jié)

2/5/2023

MultimediaTechnology&Application

2.１聲音的特性、類型與處理

2.1.1聲音的特性

自然界中聲音是靠空氣傳播的聲音在空氣中能引起非常小的壓力變化聲源所引起的空氣壓力變化，被耳朵的耳膜所檢測，然后產(chǎn)生電信號刺激大腦的聽覺神經(jīng)，從而使人們能感覺到聲音的存在。自然界的各種聲音大都具有周期性的強(qiáng)弱變化的特性，因而也使得輸出的壓力信號周期變化

2/5/2023

MultimediaTechnology&Application聲音的正弦波特性

2/5/2023

MultimediaTechnology&Application2.1.1聲音的特性有關(guān)的名詞術(shù)語將曲線上的任一點再次出現(xiàn)所需時間間隔稱為周期。而一秒鐘內(nèi)聲音由高(壓力強(qiáng))到低(壓力低)再到高(壓力強(qiáng))，這樣一個循環(huán)出現(xiàn)的次數(shù)稱為頻率。頻率越高，聲音越高，以赫茲(Hz)為其度量單位。一個系統(tǒng)能夠接收的頻率是有限的，人們把系統(tǒng)能夠接受的最低的聽覺和最高頻率之間的范圍稱為系統(tǒng)的帶寬(Bandwidth）。人類能夠接受的聽覺帶寬是從20Hz到20KHz。

2/5/2023

MultimediaTechnology&Application2.1.1聲音的特性聲音的三要素即為音調(diào)、音強(qiáng)、音色。音調(diào)與聲音的頻率有關(guān)，頻率快則聲音高，頻率慢則聲音低。音強(qiáng)又稱響度，取決于聲音的幅度，即振幅的大小和強(qiáng)弱。而音色則由混入基音的泛音所決定的，每個基音又都有其固有的頻率和不同音強(qiáng)的泛音，從而使得每個聲音具有特殊的音色效果。

2/5/2023

MultimediaTechnology&Application2.1.1聲音的特性聲音的連續(xù)譜特性聲音是一種彈性波，聲音信號可以分成周期信號與非周期信號兩類。周期信號即為單一頻率音調(diào)的信號，其頻譜是線性譜；而非周期信號包含一定頻帶的所有頻率分量，其頻譜是連續(xù)譜。真正的線性譜僅可從計算機(jī)或類似的聲音設(shè)備中才能聽到，這種聲音聽起來十分單調(diào)。

2/5/2023

MultimediaTechnology&Application2.1.1聲音的特性聲音的方向感特性聲音的傳播是以聲波形式進(jìn)行的。由于人類的耳朵能夠判別出聲音到達(dá)左右耳的相對時差、聲音強(qiáng)度，所有能夠判別出聲音的方向以及由于空間使聲音來回反射而造成聲音的特殊空間效果?，F(xiàn)在的音響設(shè)備都在竭力模擬這種立體聲效果和空間感效果。

2/5/2023

MultimediaTechnology&Application2.1.1聲音的特性聲音的時效性聲音具有很強(qiáng)的時效性，沒有時間也就沒有聲音，聲音適合在一個時間段中表現(xiàn)。聲音常常處于一種伴隨狀態(tài)，如伴音、伴奏等，起一種氣氛渲染的作用。由于時間性，聲音數(shù)據(jù)具有很強(qiáng)的前后相關(guān)性，因而，數(shù)據(jù)量要大得多，實時性要求也比較高。

2/5/2023

MultimediaTechnology&Application2.1.1聲音的特性聲音的質(zhì)量聲音的質(zhì)量與聲音的頻率范圍有關(guān)。一般說來，頻率范圍越寬聲音的質(zhì)量就越高。對語音而言，常用可懂度、清晰度、自然度來衡量；而對音樂來說，保真度、空間感、音響效果都是重要的指標(biāo)。

2/5/2023

MultimediaTechnology&Application2.1.2聲音的類型與處理不同種類聲音頻寬次聲（Infra-sound） 0-20Hz 電話語音 200Hz—3.4KHz 調(diào)幅廣播 50Hz—7KHz 調(diào)頻廣播 20Hz—15KHz 音響 20Hz—20KHz 超聲（Ultrasound）20kHZ-1GHz特（強(qiáng)）超聲（Hypersound) 1GHz-10THz

2/5/2023

MultimediaTechnology&Application2.1.2聲音的類型與處理聲音質(zhì)量評價標(biāo)準(zhǔn)級別評價失真級別

1優(yōu)（Excellent）感覺不到聲音失2 良（Good）

剛察覺但不討厭3 中（Fair）

聲音有些失真，有點討厭4 差（Poor）

聲音失真，不令人反感5 劣（Bad）

嚴(yán)重失真，令人反感

2/5/2023

MultimediaTechnology&Application2.1.2聲音的類型與處理自然界中的聲音可分為四種類型：次聲、可聽聲、超聲與特超聲（1GHz—10THz）人類的聽覺能范圍是20Hz—20KHz,次聲、超聲與特超聲均非可聽聲。多媒體計算機(jī)主要處理的是人類聽覺范圍內(nèi)的可聽聲。聲音的處理主要有：聲音的錄制、回放、壓縮、傳輸和編輯等

2/5/2023

MultimediaTechnology&Application2.1.2聲音的類型與處理模擬音頻和數(shù)字音頻（1）模擬音頻(Analogaudio)

模擬音頻是一種連續(xù)的模擬量，以電的、磁的等形式表示。例如當(dāng)我們對著麥克風(fēng)講話時，麥克風(fēng)能根據(jù)它周圍空氣壓力的不同變化而輸出相應(yīng)連續(xù)變化的電壓值，這種變化的電壓值便是一種對我們講話聲音的模擬，是一種模擬量，稱為模擬音頻。計算機(jī)不能直接處理模擬音頻

2/5/2023

MultimediaTechnology&Application2.1.2聲音的類型與處理模擬音頻和數(shù)字音頻（2）數(shù)字音頻(Digitalaudio)數(shù)字化音頻的獲得是通過每隔一定的時間間隔測一次模擬音頻的值(如電壓)并將其數(shù)字化。這一過程稱為采樣，每秒鐘采樣的次數(shù)稱為采樣率一般地，采樣率越高，記錄的聲音就越自然，反之，若采樣率太低將失去原有聲音的自然特性，這一現(xiàn)象稱為失真。由模擬量變?yōu)閿?shù)字量的過程稱為?！獢?shù)轉(zhuǎn)換。由上述可知：數(shù)字音頻是離散的，而模擬音頻是連續(xù)的，數(shù)字音頻質(zhì)量的好壞與采樣率密切相關(guān)。數(shù)字音頻信息可以被計算機(jī)存儲、處理和播放。

2/5/2023

MultimediaTechnology&Application2.1.2聲音的類型與處理多媒體計算機(jī)中錄音/放音的處理過程

2/5/2023

MultimediaTechnology&Application2.2聲卡的構(gòu)成與功能

聲卡可分為三類：第一類為低檔聲卡，此類卡僅提供比較單一的聲音，音質(zhì)較差，無錄音功能第二類為中檔聲卡，這類聲卡具有立體聲音質(zhì)，ＭＩＤＩ音樂、錄音、播放等功能，能滿足一般的多媒體應(yīng)用需求。第三類為高檔聲卡，此類聲卡除具有中檔聲卡的所有特點外，一般都帶有專用的數(shù)字信號處理器DSP，可用于高級音樂編輯、創(chuàng)作，實時語言識別等功能。

2/5/2023

MultimediaTechnology&Application2.2聲卡的構(gòu)成與功能2.2.1聲卡的組成

聲卡的結(jié)構(gòu)聲卡主要有四個組成：AD/DA轉(zhuǎn)換器AD/DA轉(zhuǎn)換器負(fù)責(zé)錄音及播放*.WAV格式的波形文件。電子合成器（Synthesizer）電子合成器負(fù)責(zé)MIDI樂曲的合成可以及時創(chuàng)造各種音樂?；煲羝鳎∕ixer）混音器（Mixer）它是一個處理音效控制的芯片，負(fù)責(zé)調(diào)節(jié)各聲音來源的音量、混音與調(diào)整錄放音的音量大小。CD音頻連接器(CD-Audioconnector)CD音頻連接器可以接收光盤機(jī)中的音樂信號。

2/5/2023

MultimediaTechnology&Application2.2聲卡的構(gòu)成與功能聲卡的基本結(jié)構(gòu)

2/5/2023

MultimediaTechnology&Application2.2聲卡的構(gòu)成與功能聲卡的基本結(jié)構(gòu)

2/5/2023

MultimediaTechnology&Application2.2聲卡的構(gòu)成與功能

2.2.2聲卡的主要功能

（1）錄制與播放聲音通過接在聲卡上的話筒錄制聲音，并以文件形式保存在計算機(jī)中，隨時可打開聲音文件進(jìn)行播放。聲音文件的格式可因使用不同的軟件而不同。（2）音樂合成利用聲卡上的合成器將存儲在計算機(jī)內(nèi)存中的MIDI文件合成為音樂樂曲。通過混合器混合和處理多個不同音頻源的聲音，控制和調(diào)節(jié)音量大小，最后送至音箱或耳機(jī)播放。

2/5/2023

MultimediaTechnology&Application2.2聲卡的構(gòu)成與功能

2.2.2聲卡的主要功能

（3）壓縮和解壓縮音頻文件目前，大多數(shù)聲卡上都固化了不同標(biāo)準(zhǔn)的音頻壓縮和解壓縮軟件，常用的壓縮編碼方法有ADPCM(自適應(yīng)差分脈沖編碼調(diào)制)和ACM(微軟音頻壓縮管理器)等，壓縮比大約為2:1~5:l。（4）與MIDI設(shè)備和CD驅(qū)動器的連接通過聲卡上的MIDI接口，計算機(jī)可以同外界的MIDI設(shè)備相連接，如連接電子琴、電吉他等，使MPC具有創(chuàng)作電腦樂曲和播放MIDI文件的功能。游戲桿也可通過MIDI接口與計算機(jī)相連接，使游戲玩起來得心應(yīng)手。

2/5/2023

MultimediaTechnology&Application2.2聲卡的構(gòu)成與功能聲卡與其它設(shè)備連接（圖2.3）

2/5/2023

MultimediaTechnology&Application2.2聲卡的構(gòu)成與功能聲卡中的插孔連接方法聲卡中的linein插孔可連接錄音機(jī)、袖珍CD播放機(jī)和合成器等，將其播放的音信息輸入計算機(jī)；Microphone插孔與麥克風(fēng)相連，用于錄音；Lineout可與喇叭、耳機(jī)或功放相連Joystick/MIDIAdapter可與游戲操縱竿,MIDI設(shè)備相連。

2/5/2023

MultimediaTechnology&Application2.2.3聲卡的性能指標(biāo)

聲卡的性能指標(biāo)決定了聲卡聲音采集、合成與播放的質(zhì)量，主要取決于以下幾個方面：

(l)采樣分辨率

(2)采樣速率

(3)

聲道數(shù)

(4)兼容性

(5)功能接口

2/5/2023

MultimediaTechnology&Application聲卡的技術(shù)標(biāo)準(zhǔn)具有常用多媒體功能的聲卡，一般應(yīng)具備下列技術(shù)標(biāo)準(zhǔn)：ＰＣＭ播放和錄音數(shù)字音頻格式樂器數(shù)字接口MIDI

其他標(biāo)準(zhǔn)

2/5/2023

MultimediaTechnology&ApplicationPCM播放和錄音PCM(PulseCodemodulation:脈沖編碼調(diào)制)是一種數(shù)字化音頻的處理技術(shù),該技術(shù)被目前大多數(shù)聲卡所采用。提供播放和錄制PCM音頻文件的功能對任何一個實用的聲音裝置都是必須的。因為有大量的數(shù)字語音的應(yīng)用需要用到PCM播放和錄音功能,在這些應(yīng)用中,包括語音注釋、語言識別、語音合成、語音郵件、語音剪輯、娛樂軟件的聲音效果等。

2/5/2023

MultimediaTechnology&Application數(shù)字音頻格式對大多數(shù)應(yīng)用而言,聲卡應(yīng)能支持下列每一種播放和錄音格式。11.025KHz,22.05KHz和44.1KHz的8位/16位單聲道/立體聲采樣。自適應(yīng)增量脈沖編碼調(diào)制(ADPCM)4:1壓縮/解壓縮u律/a律2:1壓縮/解壓縮

上述第一條軟件所構(gòu)成的格式直接由多媒體Windows95/Windows98/Windows2000提供支持。

2/5/2023

MultimediaTechnology&Application樂器數(shù)字接口MIDI聲卡中的MIDI（MusicalInstrumentDigitalInterface）及音樂合成功能也是一個聲卡最基本的性能指標(biāo)。作為一個用于控制電子音樂設(shè)備的標(biāo)準(zhǔn)化的串行通訊協(xié)議于1983年提出來的。MIDI音樂的制作與播放

MIDI鍵盤實時演奏計算機(jī)鍵盤輸入樂譜音序器軟件MIDI文件媒體播放器MIDI合成器MIDI音樂樂器數(shù)字接口MIDI

MIDI協(xié)議允許電子合成器之間相互通訊,而不管是誰家生產(chǎn)的。具有這種功能的聲卡能夠和MIDI樂器相連,供作曲家或?qū)I(yè)音樂人員演奏音樂,并轉(zhuǎn)換成專用的MIDI代碼存貯在計算機(jī)中,同時這種聲卡也能根據(jù)計算機(jī)存放的MIDI代碼,合成各種電子樂器聲音?？删哂卸喾N旋律、音調(diào)、速度,并可多種樂器合奏。2.3聲音信號的數(shù)字化為什么要將聲音數(shù)字化？自然界的聲音是一種模擬的音頻信息，是連續(xù)量。而計算機(jī)只能處理離散的數(shù)字量，這就要求必須。優(yōu)點：傳輸時抗干擾強(qiáng)，存儲時重放性能好，易處理，能進(jìn)行數(shù)據(jù)壓縮，可糾錯，容易混合，bitsaboutbits...音頻信息數(shù)字化，其關(guān)鍵的步驟是采樣、量化和編碼。

方法（即數(shù)字化有3個步驟）：1.采樣（Sampling）2.量化(quantization:ADconversion）3.編碼(Encoding）2.3聲音信號的數(shù)字化采樣量化編碼模擬音頻數(shù)字音頻01101001……

2/5/2023

MultimediaTechnology&Application

2.3.1

采樣

數(shù)字化音頻的獲得是通過每隔一定的時間間隔測一次模擬音頻的值(如電壓)并將其數(shù)字化。這一過程稱為采樣原理:用一定速率的離散采樣序列可以代替一個連續(xù)的頻帶有限的信號而不丟失任何信息奈奎斯特采樣定理“Forlosslessdigitization,thesamplingrateshouldbeatleasttwicethemaximumfrequencyresponse.”

即：我們要獲得一個無損的采樣，就必須以波形最高允許頻率的兩倍作為采樣率。

2/5/2023

MultimediaTechnology&Application采樣率每秒鐘采樣的次數(shù)稱為采樣率取樣頻率的大小決定帶寬例如：人類能夠接受的聽覺帶寬是：２０Ｈｚ--２０ＫＨｚ。按照這個理論，要產(chǎn)生聽得見的頻率范圍需要大于40KHz的采樣率。所以，菲利浦和索尼公司在設(shè)計光盤(ＣＤ)時，選擇了44.1KHz的采樣率。這個采樣頻率也是Windows所支持的較高采樣率。在Windows下所支持的其它采樣率還有11.025KHz和22.05KHz，

2/5/2023

MultimediaTechnology&Application采樣精度

采樣精度:在數(shù)字化系統(tǒng)中，樣本大小是用每個聲音樣本的位數(shù)bit/s(即bps)表示的，它反映度量聲音波形幅度的精度。樣本位數(shù)的大小影響到聲音的質(zhì)量，位數(shù)越多，聲音的質(zhì)量越高，而需要的存儲空間也越多；位數(shù)越少，聲音的質(zhì)量越低，需要的存儲空間越少。通常，采樣率越高，記錄的聲音就越自然，反之，若采樣率太低將失去原有聲音的自然特性，這一現(xiàn)象稱為失真。

2/5/2023

MultimediaTechnology&Application聲音的采樣（a）與量化(b)量化采樣圖2.5

2/5/2023

MultimediaTechnology&Application2.3.2

量化（Quantization）what?：將采樣后得到的音頻信息數(shù)字化的過程稱為量化A/Dconversion？：由模擬量變?yōu)閿?shù)字量的過程稱為?！獢?shù)轉(zhuǎn)換。methods：均勻量化，非均勻量化

resolution(4,6,8,12,16bits)量化位數(shù)決定了動態(tài)范圍和噪聲大小輸入輸出輸入輸出均勻量化非均勻量化

2/5/2023

MultimediaTechnology&Application量化器的分類：標(biāo)量量化器（無記憶量化器）：每次只量化一個取樣值。矢量量化器（有記憶量化器）：每次量化一組取樣值。

2/5/2023

MultimediaTechnology&Application2.3.3

編碼（Encoding）

見2.6音頻信息的壓縮技術(shù)

數(shù)據(jù)編碼技術(shù)又稱壓縮技術(shù)由于聲音的數(shù)字化,將有大量的數(shù)據(jù)需要計算機(jī)存貯，如果對這些音頻數(shù)據(jù)不加編碼壓縮，則很難在個人計算機(jī)上實現(xiàn)多媒體功能。實時地壓縮音頻信號的數(shù)據(jù)量是多媒體計算機(jī)不可回避的關(guān)鍵技術(shù)問題之一。數(shù)據(jù)壓縮是可以實現(xiàn)的

2/5/2023

MultimediaTechnology&Application數(shù)字化聲音的基本參數(shù)

（BasicParametersofDigitalSounds）采樣率（samplingfrequency）量化位數(shù)（quantizationbits）聲道數(shù)（numberofsoundchannels）編碼方法（encodingmethod/compressionmethod)

2/5/2023

MultimediaTechnology&Application

2.3.4

聲音的重構(gòu)

（ReconstructionofSound）若要播放數(shù)字化聲音，就要經(jīng)過解碼、DA轉(zhuǎn)換和插值。數(shù)字音頻模擬音頻

2/5/2023

MultimediaTechnology&Application2.3.4

聲音的重構(gòu)

（ReconstructionofSound）解碼（Decoding）：編碼的逆過程，又稱解壓縮數(shù)模轉(zhuǎn)化De-quantization(D/Aconversion)：將數(shù)字量再轉(zhuǎn)化為模擬量插值Interpolation：是為了彌補(bǔ)在采樣過程中引起的語音信號失真而采取的一種補(bǔ)救措施，使得聲音更加自然。

2/5/2023

MultimediaTechnology&Application2.4聲音文件的存儲格式

如同存儲文本文件一樣，存儲聲音數(shù)據(jù)也需要有存儲格式。在因特網(wǎng)上和各種機(jī)器上運(yùn)行的聲音文件格式很多，但目前比較流行的有以.wav(waveform)，au(audio)，.aiff(AudioInterchangeableFileFormat)和.snd(sound)為擴(kuò)展名的文件格式。.wav格式主要用在PC上，.au主要用在Unix工作站上，.aiff和snd主要用在蘋果機(jī)和美國視算科技有限公司(SiliconGraphics，Inc.，SGI)的工作站上。表2-3給出了常見的聲音文件擴(kuò)展名

2.5電子樂器數(shù)字接口(MIDI)系統(tǒng)

2.5.1

MIDI

（MusicalInstrumentDigitalInterface）簡介

MIDI可譯成“電子樂器數(shù)字接口”。用于在音樂合成器、樂器和計算機(jī)之間交換音樂信息的一種標(biāo)準(zhǔn)協(xié)議。從20世紀(jì)80年代初期開始，MIDI已經(jīng)逐步被音樂家和作曲家廣泛接受和使用。MIDI是樂器和計算機(jī)使用的標(biāo)準(zhǔn)語言，是一套指令(即命令的約定)，它指示樂器即MIDI設(shè)備要做什么，怎么做，如演奏音符、加大音量、生成音響效果等。MIDI不是聲音信號，在MIDI電纜上傳送的不是聲音，而是發(fā)給MIDI設(shè)備或其它裝置讓它產(chǎn)生聲音或執(zhí)行某個動作的指令。2.5電子樂器數(shù)字接口(MIDI)系統(tǒng)

2.5.2

FM合成聲音

FM合成器生成樂音的基本原理如圖2.8所示。它由5個基本模塊組成：數(shù)字載波器、調(diào)制器、聲音包絡(luò)發(fā)生器、數(shù)字運(yùn)算器和模數(shù)轉(zhuǎn)換器。

2.5電子樂器數(shù)字接口(MIDI)系統(tǒng)

2.5.2

FM合成聲音

在樂音合成器中，數(shù)字載波波形和調(diào)制波形有很多種，不同型號的FM合成器所選用的波形也不同。圖2.9是YamahaOPL-III數(shù)字式FM合成器采用的波形。圖2.9聲音合成器的波形2.5電子樂器數(shù)字接口(MIDI)系統(tǒng)

2.5.3樂音樣本合成聲音

樂音樣本的采集相對比較直觀。音樂家在真實樂器上演奏不同的音符，選擇44.1kHz的采樣頻率、16位的樂音樣本，這相當(dāng)于CD-DA的質(zhì)量，把不同音符的真實聲音記錄下來，這就完成了樂音樣本的采集。通常樂音樣本放在ROM芯片上，ROM是超大規(guī)模集成電路(verylargescaleintegrated，VLSI)芯片。2.5電子樂器數(shù)字接口(MIDI)系統(tǒng)

2.5.3樂音樣本合成聲音

原理：圖2.10是樂音樣本合成器的框圖。樂音樣本合成器所需要的輸入控制參數(shù)比較少，可控的數(shù)字音效也不多，大多數(shù)采用這種合成方法的聲音設(shè)備都可以控制聲音包絡(luò)的ADSR參數(shù)，產(chǎn)生的聲音質(zhì)量比FM合成方法產(chǎn)生的聲音質(zhì)量要高。2.5電子樂器數(shù)字接口(MIDI)系統(tǒng)

2.5.4

MIDI系統(tǒng)MIDI協(xié)議提供了一種標(biāo)準(zhǔn)的和有效的方法，用來把演奏信息轉(zhuǎn)換成電子數(shù)據(jù)。MIDI信息是以“MIDImessages”傳輸?shù)?，它可以被認(rèn)為是告訴音樂合成器(musicsynthesizer)如何演奏一小段音樂的一種指令，而合成器把接收到的MIDI數(shù)據(jù)轉(zhuǎn)換成聲音。MIDI數(shù)據(jù)流是單向異步的數(shù)據(jù)位流(bitstream)，其速率為31.25kbps，每個字節(jié)為10位(1位開始位，8位數(shù)據(jù)位和1位停止位)。MIDI樂器上的MIDI接口通常包含3種不同的MIDI連接器，用IN(輸入),OUT(輸出)和THRU(穿越)。MIDI數(shù)據(jù)流通常由MIDI控制器

2.5電子樂器數(shù)字接口(MIDI)系統(tǒng)

2.5.4

MIDI系統(tǒng)圖2.11簡單的MIDI系統(tǒng)

2.5電子樂器數(shù)字接口(MIDI)系統(tǒng)

2.5.4

MIDI系統(tǒng)圖2.12復(fù)雜MIDI系統(tǒng)

2.5電子樂器數(shù)字接口(MIDI)系統(tǒng)

2.5.5

MIDI消息

MIDI文件的內(nèi)容被稱為MIDI消息(MIDImessages)。

一個MIDI消息由1個8位的狀態(tài)字節(jié)并通常跟著2個數(shù)據(jù)字節(jié)組成。

MIDI消息可分成通道消息(ChannelMessages)和系統(tǒng)消息(SystemMessages)兩大類。2.5電子樂器數(shù)字接口(MIDI)系統(tǒng)

2.5.5

MIDI消息

MIDI文件的內(nèi)容被稱為MIDI消息(MIDImessages)。

一個MIDI消息由1個8位的狀態(tài)字節(jié)并通常跟著2個數(shù)據(jù)字節(jié)組成。

MIDI消息可分成通道消息(ChannelMessages)和系統(tǒng)消息(SystemMessages)兩大類。MIDI的一些基本概念MIDI音源相當(dāng)于一個電子樂隊，它劃分成16個

Channel（通道），每個通道相當(dāng)于一個聲部（組），各個聲部演奏不同的樂器和不同的樂譜。每個通道能演奏不同樂器(最多128種)，稱為音色。不同樂器有不同編號（Program或Patch號）。每個通道在同一時間內(nèi)只能演奏一種樂器，可隨時改變；但聲部數(shù)可以有若干個。即，每個MIDI通道在某一時間里可進(jìn)行一種音色的獨奏、齊奏或合奏。音序器是樂隊的指揮，它發(fā)出的是MIDI消息，對整體起作用的是systemmessage，對個體起作用的是channelmessage.

2/5/2023

MultimediaTechnology&ApplicationMIDIMessage作用：每個message對應(yīng)一個音樂事件。（如鍵壓下、鍵釋放等)數(shù)據(jù)格式：1個狀態(tài)字節(jié)(最高位為“1”)+

n個數(shù)據(jù)字節(jié)(最高位為“0”)分類：Channelmessage(帶channel號，只對對應(yīng)的MIDI通道起作用)voicemessage實際的演奏數(shù)據(jù),控制樂器的發(fā)聲modemessage決定樂器對聲音消息如何響應(yīng)Systemmessage（不帶channel號,對所有通道起作用）commonmessagereal-timemessageexclusivemessage（獨占消息）

2/5/2023

MultimediaTechnology&ApplicationPolyphony(復(fù)音),同時演奏多個音符稱為Poly(如鋼琴，吉他)，一次只演奏1個音符稱為Mono(單音)。Multi-timbre（多音色）一個MIDI接收器可同時演奏多種樂器，稱為“多音色”。MIDI合成器的4種接收模式:Mode1:Omnion/PolyMode2:Omnion/MonoMode3:Omnioff/PolyMode4:Omnioff/MonoOmnion----MIDI設(shè)備響應(yīng)所有的channelmessageOmnioff---MIDI設(shè)備只響應(yīng)自己的channelmessagePoly----一次可同時演奏多個音符Mono---一次只能演奏一個音符

2/5/2023

MultimediaTechnology&ApplicationMIDImessage舉例noteon:noteoff:

音符#01224364860728496108120127音階C-1C0C1C2C3C4C5C6C7C8C9C10

擊鍵力度01,,,,,,,64,,,,,,,127

offppppppmpmfffffff903c40003c90key#CH#speed

2/5/2023

MultimediaTechnology&Application2.5電子樂器數(shù)字接口(MIDI)系統(tǒng)

2.5.6

MIDI文件規(guī)范

標(biāo)準(zhǔn)MIDI文件(StandardMIDIFile)規(guī)范定義了3種MIDI文件格式，MIDI音序器能夠管理文件標(biāo)準(zhǔn)規(guī)定的多個MIDI數(shù)據(jù)流，即聲軌(tracks)。MIDI文件格式0(Format0)規(guī)定所有MIDI音序數(shù)據(jù)(MIDIsequencedata)必須存儲在單個聲軌上，它僅用于簡單的單聲軌設(shè)備；MIDI文件格式1(Format1)規(guī)定數(shù)據(jù)以一個聲軌集的方式存儲；MIDI文件格式2(Format2)可用幾個獨立模式存儲數(shù)據(jù)。2.5電子樂器數(shù)字接口(MIDI)系統(tǒng)

2.5.7合成器的音序、音調(diào)和音色

合成器或者聲音發(fā)生器能夠產(chǎn)生的不同聲音一般用配音(patche)、指令(program)、算法(algorithm)、聲音(sound)或者音色(timbre)來表示?，F(xiàn)代合成器通常使用指令號(programnumber)來表示它們產(chǎn)生的不同聲音。使用指令號(programnumber)或者配音號(patchnumber)來指定想要獲得的聲音(sound)。

2.5電子樂器數(shù)字接口(MIDI)系統(tǒng)

2.5.8通用MIDI(GM)

通用MIDI規(guī)范(GeneralMIDISpecification)是由國際MIDI協(xié)會(InternationalMIDIAssociation)頒布的，用于通用MIDI樂器(GeneralMIDIInstruments)。該規(guī)范包括通用MIDI聲音集(GeneralMIDISoundSet)即配音映射(patchmap)、通用MIDI打擊樂音集(GeneralMIDIPercussionSet)即打擊樂音與音符號之間的映射、以及一套通用MIDI演奏(GeneralMIDIPerformance)能力，包括聲音數(shù)目和MIDI消息類型等。

2.5電子樂器數(shù)字接口(MIDI)系統(tǒng)

MIDI軟件

4種類型：Musicrecordingandperformance（音樂錄制和演奏）Musicalnotationsandprinting（樂譜生成和打?。㏒ynthesizerpatcheditorsandlibrarians（合成器編輯和管理）Musiceducation（音樂教育軟件）音序器軟件MIDI鍵盤作曲軟件MIDI文件管理MIDI編輯器MIDI合成器輸出MIDI小結(jié)

優(yōu)點數(shù)據(jù)量少（比CD-DA少3個數(shù)量級）。可以與波形聲音同時播放。易于編輯修改。缺點音樂質(zhì)量與硬件有關(guān)。尚不能用于描述語音。2.6音頻信息的壓縮技術(shù)

數(shù)據(jù)編碼技術(shù)又稱壓縮技術(shù)

壓縮方法（compressionmethod）有損壓縮無損壓縮編碼選擇（codeselection）ＰＣ機(jī)常用的聲卡上有自適應(yīng)差分脈沖碼調(diào)制方案,μ律／a律等，format(structure)

2/5/2023

MultimediaTechnology&Application2.6音頻信息的壓縮技術(shù)

2/5/2023

MultimediaTechnology&Application2.7數(shù)字語音的應(yīng)用

2.7.1語音識別數(shù)字語音的應(yīng)用主要在語音識別和語音合成兩個方面。語音識別：指機(jī)器收到語音信號后，如何模仿人的聽覺器官辨別所聽到的語音內(nèi)容或講話人的特征，進(jìn)而模仿人腦理解出該語音的含義或判別出講話人的過程。分類1.按講話者分類

(1)特定人的語音識別系統(tǒng):其特點是依賴于說話者只有在用特定單詞組形成的詞匯表系統(tǒng)訓(xùn)練后，它才能識別。

(2)非特定人識別系統(tǒng):此類系統(tǒng)可識別任何用戶的語音。2.7數(shù)字語音的應(yīng)用

2.7.1語音識別2.按識別詞的性質(zhì)分類

(1)孤立詞(語音)識別系統(tǒng):一次只提供一個單一詞的識別。

(2)連接詞語音識別:連接詞的語音由所說的短語組成，而短語又是由詞序列組成

。連接詞語音識別可用于命令和控制應(yīng)用。

(3)連續(xù)語音識別:這種方法比孤立單詞或連接詞語音識別都復(fù)雜許多。

2.7.1語音識別

2.7.1語音識別連續(xù)語音識別系統(tǒng)可以分成三部分：①數(shù)字化、幅度歸一化、時間歸一化和參數(shù)表示。②分割并把語音段標(biāo)記成在基于知識或基于規(guī)則系統(tǒng)上的符號串。③識別詞序列并進(jìn)行語音段匹配。

2/5/2023

MultimediaTechnology&Application2.7.1語音識別

語音識別系統(tǒng)的組成采樣、量化語音端點檢測計算語音譜估價音調(diào)輪廓圖分解、鑒定語音特征單詞識別識別后的語音語音輸入?yún)⒖即辶蠋煺Z義分析理解后的語音語義庫

2/5/2023

MultimediaTechnology&Application

2.7.1語音識別——有困難語音變化大，不同人不一樣，同一人也會有變化。語音有模糊性，不同詞語聽起耒很相似。同一字和詞的發(fā)音受上下文影響而有不同（語音的同化、異化、換位、弱化、脫落等音變現(xiàn)象）。環(huán)境噪聲的干擾，例如墻壁與物體對聲波的反射會與主聲波重迭。連續(xù)語音流不易把單字（詞）區(qū)分出來（端點檢測）例如，若單字（詞）識別正確率為0.95，則：3個單字（詞）組成的句子識別正確率為0.8578個單字（詞）組成的句子識別正確率為0.663單字（詞）與庫中的模板比較之前，必須進(jìn)行復(fù)雜的“時間歸一化”處理。

2/5/2023

MultimediaTechnology&Application

2.7.2語音合成

(TexttoSpeech)（1）引言（2）語音基礎(chǔ)（3）漢語語音（4）語音生成過程的兩類方法（5）文語轉(zhuǎn)換器

2/5/2023

MultimediaTechnology&Application語音合成（Speechsynthesis）是指人們根據(jù)語言學(xué)的知識，在語音分析技術(shù)和語音存儲技術(shù)的基礎(chǔ)上，利用適當(dāng)方法和手段，重構(gòu)語音的過程。有兩種情況：第一種是語音再現(xiàn)。這是一個聲音的還原過程。第二種是模仿人說話。首先形成要說的內(nèi)容；其次轉(zhuǎn)成基本發(fā)音編碼序列；然后進(jìn)行判斷理解，決定聲調(diào)、重音和語氣，形成“言語碼”；最后控制并輸出語音。（1）引言

2/5/2023

MultimediaTechnology&Application語音合成的要求與應(yīng)用：要求：可理解，自然（understandable,natural）應(yīng)用：自動報警,自動應(yīng)答,有聲校對,有聲電子郵件,殘疾人服務(wù)等

2/5/2023

MultimediaTechnology&Application（2）語音基礎(chǔ)音素(phoneme)是語音的最小單位。音素分為：元音(vowel)（濁音），不受聲道阻礙的音。輔音(consonant)（濁音或清音），受聲道阻礙的音。英語語音每字(詞)一個或幾個音節(jié)(syllable)（多音節(jié)字）音節(jié)由一個或幾個音素組成英語的音素（元音20個，輔音28個）漢語語音每字一個音節(jié)(syllable)（單音節(jié)字）音節(jié)由一個或幾個音素組成漢語的音素（元音42個，輔音22個；或者分為：聲母21個，韻母39個）

2/5/2023

MultimediaTechnology&Application語音基礎(chǔ)語音信號在30ms左右的持續(xù)期內(nèi)，是一種準(zhǔn)周期(靜態(tài))信號。語音信號的頻譜中有3~5個峰值，稱為共振峰（formant）。語音信號最重要的參數(shù)：基頻、共振峰。共振峰是語音信號頻譜包絡(luò)線的峰值，從低頻到高頻方向記為F1,F2,F3…。不同的音素各有其不同的參數(shù)。

2/5/2023

MultimediaTechnology&Application（3）漢語語音漢語語音的三要素是聲母(21)、韻母(39)和音調(diào)(4)。這三要素都是由音素組成的，漢語共有4種音素:輔音音素22個，單元音音素13個，復(fù)元單音素13個，復(fù)鼻尾音音素16個，總計共有64個音素。通常把含有聲調(diào)（陰平、陽平、上聲和去聲）的韻母合稱“調(diào)母”，再由調(diào)母或由聲母加調(diào)母組拼為音節(jié)。一個音節(jié)就是一個漢語語音。漢語語音的數(shù)目：無聲調(diào)的音節(jié)數(shù)目：412個帶聲調(diào)的音節(jié)數(shù)目：1282個

2/5/2023

MultimediaTechnology&Application（１）音系簡單。即音節(jié)少、音素少。漢語普通話每個字的語音都是單音節(jié)字，每個字音雖為多音素。音素是語音的最小單位。（２）聽感清亮、柔和。這是因為：清輔音多，所以沒有快促之感；沒有入聲短促發(fā)音，所以使高頻成份較多；開口音節(jié)多，所以聽感好。（３）含有鮮明的輕重音和兒化韻。從而使字詞分隔清楚，語言表達(dá)準(zhǔn)確而豐富。漢字比其它國家的文字復(fù)雜，但漢語語言卻比其它國家的語音簡練得多。漢語語音的特點

2/5/2023

MultimediaTechnology&Application（4）語音生成過程的方法（兩類）Time-dependentSoundConcatenation音素——音節(jié)——字——詞——詞組——句(可以在不同級別的語音單位上進(jìn)行,最低級是音素。)(難點在于語音單位之間怎樣自然過渡)Frequency-dependentSoundConcatenation(參數(shù)——)音素——音節(jié)——字——詞——詞組——句脈沖序列發(fā)生器隨機(jī)噪聲發(fā)生器基音周期(聲帶振動)(聲帶不振動)音源幅度音源幅度濁音清音線性濾波器聲道參數(shù)音素、音節(jié)

2/5/2023

MultimediaTechnology&Application兩類方法對比較波形合成法規(guī)則合成法語音單位字、詞、短語等音素(元音,輔音;聲母,韻母等)存儲形式波形形式特性參數(shù)（基頻,幅度,共振峰等）合成方法波形連接優(yōu)缺點存儲量大；可懂度、自然度受語音單元大小的影響由音素組成音節(jié)，音節(jié)組成字和詞，然后再組成句子在儲量小，但很難得到高質(zhì)量的語音波形合成法規(guī)則合成法語音單位字、詞、短語等音素(元音,輔音;聲母,韻母等)存儲形式波形形式特性參數(shù)（基頻,幅度,共振峰等）合成方法波形連接優(yōu)缺點存儲量大；可懂度、自然度受語音單元大小的影響由音素組成音節(jié)，音節(jié)組成字和詞，然后再組成句子在儲量小，但很難得到高質(zhì)量的語音

2/5/2023

MultimediaTechnology&Application語音生成困難困難如下：語音單元的自然連接問題語氣、語調(diào)問題多音字（詞）問題

趨勢：Sound-specificmethods(兩種方法相結(jié)合)

2/5/2023

MultimediaTechnology&Application語音合成方法（三種）①基于波形編碼的合成；②基于分析-合成法的合成；③按規(guī)則合成。見如圖2.14

2/5/2023

MultimediaTechnology&Application語音合成方法（三種）波形編碼分析合成按規(guī)則合成波形特性參數(shù)語言符號存儲器（模擬/數(shù)字）存儲器（參數(shù)）合成規(guī)則（參數(shù)轉(zhuǎn)換）存儲單元波形連接存儲器（參數(shù)）參數(shù)連接存儲器（參數(shù)）參數(shù)序列的生成存儲器（參數(shù)）信息的基本形成輸入數(shù)據(jù)語音語音語音見如圖2.14

2/5/2023

MultimediaTechnology&Application（5）文語轉(zhuǎn)換器文—語轉(zhuǎn)換：與錄音的重放不同，它是從輸入的任何文本產(chǎn)生合成語音輸出，這就相當(dāng)于人去讀書面文章的過程。這個過程既包含有很高級的信息處理，又包含發(fā)音器官復(fù)雜的生理控制。

2/5/2023

MultimediaTechnology&Application（5）文語轉(zhuǎn)換器文—語轉(zhuǎn)換系統(tǒng)由兩個部分組成：1、發(fā)音器，這里主要是指語音合成器，它相當(dāng)人的發(fā)音系統(tǒng)。2、是發(fā)聲的驅(qū)動器，它的輸入是要發(fā)聲的文本串或其它語言信息，而它的輸出用來驅(qū)動發(fā)聲器發(fā)音。這兩個部件都可用軟件實現(xiàn)。

2/5/2023

MultimediaTechnology&Application（5）文語轉(zhuǎn)換器語法規(guī)則詞庫發(fā)音詞典文本分析語音控制韻律控制(節(jié)奏,音調(diào))語音合成器音素庫韻律規(guī)則庫語音輸出文本音標(biāo)韻律音長，加重，聲調(diào)，停頓綜合譜，形狀反射，聲道特性圖2.15文語轉(zhuǎn)化系統(tǒng)結(jié)構(gòu)

2/5/2023

MultimediaTechnology&Application2.8聲音媒體編輯軟件的應(yīng)用

2.8.1Windows的錄音機(jī)軟件

如果在計算機(jī)上安裝了聲卡和錄音話筒（麥克風(fēng)），使用便捷的Windows錄音機(jī)軟件便可直接進(jìn)行聲音的錄制、編輯或播放。Windows錄音機(jī)的主要功能涉及聲音的錄制、播放、編輯、效果處理和文件的管理。在Windows中使用“開始”/“程序”/“附件”/“娛樂”/“錄音機(jī)”來打開聲音控制面板。如圖2.16所示。

2/5/2023

MultimediaTechnology&Application2.8聲音媒體編輯軟件的應(yīng)用

2.8.1Windows的錄音機(jī)軟件

1．聲音的錄制和播放(1)錄制聲音：按下程序界面上的紅色“錄音”按鈕，程序開始接收傳入的聲音。默認(rèn)錄音“長度”值為60秒，當(dāng)錄音進(jìn)行到60秒時將自動停止。如果再次按下“錄音”按鈕，“長度”值將會增加60秒。錄音之后，選擇“文件”/“保存”命令，輸入文件名，便可將剛錄入的數(shù)字聲音存盤。(2)播放聲音：可針對剛錄制的聲音，或者選擇“文件”/“打開”命令打開已存在的聲音文件。單擊軟件面板上的“放音”按鈕可使聲音文件從頭播放，而移動滑塊可隨意改變播放位置。

2/5/2023

MultimediaTechnology&Application2.8聲音媒體編輯軟件的應(yīng)用

2.8.1Windows的錄音機(jī)軟件

2．聲音的編輯(1)裁剪首、尾聲音片段:拖曳滑塊到要分隔聲音的位置，使用“編輯”/“刪除當(dāng)前位置之前的內(nèi)容”或“刪除當(dāng)前位置之后的內(nèi)容”命令，確定后完成首部或尾部聲音的裁剪。(2)裁剪中間聲音片段:拖曳滑塊到第一部分要保留的聲音結(jié)束位置，單擊“編輯”/“復(fù)制”命令。拖曳滑塊到要刪除部分的結(jié)束位置，單擊“編輯”/“粘貼插入”命令。然后選擇“編輯”/“刪除當(dāng)前位置之前的內(nèi)容”，確定后可完成中間片段的裁剪。

2/5/2023

MultimediaTechnology&Application2.8聲音媒體編輯軟件的應(yīng)用

2.8.1Windows的錄音機(jī)軟件

2．聲音的編輯（續(xù)）(3)插入聲音片段:先打開聲音文件如“w1.wav”，將滑塊移動到需要插入其他聲音文件的位置。選擇“編輯”/“插入文件”，可將其他聲音文件如“w2.wav”從滑塊位置插入“w1.wav”(4)合并聲音片段：先打開聲音文件如“w1.wav”，將滑塊移動到需要與其他聲音文件合并的位置。選擇“編輯”/“與文件混音”命令，可將其他聲音文件與當(dāng)前文件聲音效果相混合。

2/5/2023

MultimediaTechnology&Application2.8聲音媒體編輯軟件的應(yīng)用

2.8.1Windows的錄音機(jī)軟件

3．編輯聲音使形成特殊效果

單擊“效果”菜單，選擇相應(yīng)的命令可以使錄制的聲音變調(diào)而產(chǎn)生特殊的效果。如圖2.17所示。

2/5/2023

MultimediaTechnology&Application2.8聲音媒體編輯軟件的應(yīng)用

2.8.2聲音編輯軟件CoolEdit

1.啟動運(yùn)行CoolEdit首先安裝CoolEdit，然后啟動它，運(yùn)行后的界面如圖2.18所示。Cool1Edit是一個功能強(qiáng)大的多音軌音頻混合編輯軟件，集錄音、混音、編輯于一體。它對聲音的編輯非常簡單，如同Word對文字的編輯一樣，首先選中要編輯的部分，然后進(jìn)行編輯操作(如復(fù)制、插入、刪除等)。

2/5/2023

MultimediaTechnology&Application2.8聲音媒體編輯軟件的應(yīng)用

2.數(shù)字音頻的簡單編輯例如，將聲音文件的某一段移動到另外一個位置。操作步驟為：①用鼠標(biāo)選擇要移動波形的部分，被選中的部分將會反色顯示（左圖）；②單擊Edit菜單，選擇Cut命令（或鍵入Ctrl+X）；③將光標(biāo)移到另外一個所要的位置，單擊Edit菜單，選擇Past命令（或鍵入Ctrl+

人人文庫> 全部分類> 教育資料 > 課件下載

溫馨提示

1. 本站所有資源如無特殊說明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽，若沒有圖紙預(yù)覽就沒有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 人人文庫網(wǎng)僅提供信息存儲空間，僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理，對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對任何下載內(nèi)容負(fù)責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容，請與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

第2章音頻信號處理技術(shù)

文檔簡介

溫馨提示

最新文檔

評論

第2章 音頻信號處理技術(shù)

文檔簡介

溫馨提示

最新文檔

評論

相關(guān)文檔

第2章音頻信號處理技術(shù)