![第3音頻信息處理_第1頁](http://file2.renrendoc.com/fileroot_temp3/2021-11/10/cc90e524-4fa0-48fd-84ab-47be8bcd7f02/cc90e524-4fa0-48fd-84ab-47be8bcd7f021.gif)
![第3音頻信息處理_第2頁](http://file2.renrendoc.com/fileroot_temp3/2021-11/10/cc90e524-4fa0-48fd-84ab-47be8bcd7f02/cc90e524-4fa0-48fd-84ab-47be8bcd7f022.gif)
![第3音頻信息處理_第3頁](http://file2.renrendoc.com/fileroot_temp3/2021-11/10/cc90e524-4fa0-48fd-84ab-47be8bcd7f02/cc90e524-4fa0-48fd-84ab-47be8bcd7f023.gif)
![第3音頻信息處理_第4頁](http://file2.renrendoc.com/fileroot_temp3/2021-11/10/cc90e524-4fa0-48fd-84ab-47be8bcd7f02/cc90e524-4fa0-48fd-84ab-47be8bcd7f024.gif)
![第3音頻信息處理_第5頁](http://file2.renrendoc.com/fileroot_temp3/2021-11/10/cc90e524-4fa0-48fd-84ab-47be8bcd7f02/cc90e524-4fa0-48fd-84ab-47be8bcd7f025.gif)
版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)
文檔簡介
1、 第第3章章 音頻信息處理音頻信息處理 學(xué)習(xí)目標(biāo)學(xué)習(xí)目標(biāo)l 了解聲音信號的特點(diǎn)、存儲格式及質(zhì)量的度量方法l 理解音頻信號壓縮方法及音頻編碼標(biāo)準(zhǔn)l 掌握常用的音頻處理軟件對聲音信號進(jìn)行處理l了解語音識別技術(shù)及其應(yīng)用3.1 音頻信息處理基礎(chǔ)音頻信息處理基礎(chǔ) 音頻信息音頻信息在多媒體中的應(yīng)用應(yīng)用極為廣泛:視頻圖像配以娓娓動聽的音樂和語音 ;靜態(tài)或動態(tài)圖像配以解說和背景音樂 ;立體聲音樂可增加空間感 ;游戲中的音響效果等。 音頻處理技術(shù)主要包括音頻處理技術(shù)主要包括電聲轉(zhuǎn)換、音頻信號的存儲、重放技術(shù)、加工處理技術(shù)以及數(shù)字化音頻信號的編碼、壓縮、傳輸、存取、糾錯等。 3.1.1 3.1.1 音頻信號的特點(diǎn)
2、音頻信號的特點(diǎn) 1.1.音頻信號的分類音頻信號的分類音頻信號可分為兩類:語音信號和非語音信號音頻信號可分為兩類:語音信號和非語音信號。語音語音是語言的物質(zhì)載體,是社會交際工具的符號, 它包含了豐富的語言內(nèi)涵,是人類進(jìn)行信息交流所特有的形式。非語音信號非語音信號主要包括音樂和自然界存在的其他聲音形式。非語音信號的特點(diǎn)是不具有復(fù)雜的語義和語法信息,信息量低、識別簡單。 規(guī)則音頻規(guī)則音頻是一種連續(xù)變化的模擬信號,可用一條連續(xù)的曲線來表示,稱為聲波聲波。因聲波是在時間和幅度上都連續(xù)變化的量,我們稱之為模擬量模擬量。用聲音錄制軟件記錄的英文單詞用聲音錄制軟件記錄的英文單詞“hello”hello”的語音
3、實際波形的語音實際波形 2.2.模擬音頻信號的兩個重要參數(shù)模擬音頻信號的兩個重要參數(shù) 模擬音頻信號有兩個重要參數(shù):頻率和幅度頻率和幅度。聲音的頻率體現(xiàn)音調(diào)的高低,聲波幅度的大小體現(xiàn)聲音的強(qiáng)弱。 一個聲源每秒鐘可產(chǎn)生成百上千個波,我們把每秒鐘波峰所發(fā)生的數(shù)目稱之為信號的頻率頻率,單位用赫茲(hz)或千赫茲(khz)表示。信號的幅度信號的幅度是從信號的基線到當(dāng)前波峰的距離。幅度決定了信號音量的強(qiáng)弱程度。幅度越大,聲音越強(qiáng)。對音頻信號,聲音的強(qiáng)度用分貝聲音的強(qiáng)度用分貝(db)(db)表示表示,分貝的幅度就是音量。 幅度限周期 基線3. 3. 聲音的聲音的a/da/d與與d/ad/a轉(zhuǎn)換轉(zhuǎn)換 a/da
4、/d轉(zhuǎn)換轉(zhuǎn)換就是把模擬信號轉(zhuǎn)換成數(shù)字信號的過程,模擬電信號變?yōu)榱擞伞?”和“1”組成的bit信號。這樣做的好處是顯而易見的,聲音存儲質(zhì)量得到了加強(qiáng),數(shù)字化的聲音信息使計算機(jī)能夠進(jìn)行識別、處理和壓縮 。a/d轉(zhuǎn)換的一個關(guān)鍵步驟是聲音的采樣和量化采樣和量化,得到數(shù)字音頻信號,它在時間上是不連續(xù)的離散信號。 借助于a/d或d/a轉(zhuǎn)換器,模擬信號和數(shù)字信號可以互相轉(zhuǎn)換。 4. 4. 聲音的三要素聲音的三要素 1 1)音調(diào))音調(diào):代表了聲音的高低。音調(diào)與頻率有關(guān),頻率越高,音調(diào)越高,反之亦然。 讀者也許有這樣的經(jīng)驗,當(dāng)提高磁帶錄音機(jī)的轉(zhuǎn)速時,其旋轉(zhuǎn)加快,聲音信號的頻率提高,其喇叭放出來聲音的音調(diào)提高了。
5、同樣,在使用音頻處理軟件對聲音的頻率進(jìn)行調(diào)整時,也可明顯感到音調(diào)隨之而產(chǎn)生的變化。各種不同的聲源具有自己特定的音調(diào),如果改變了某種聲源的音調(diào),則聲音會發(fā)生質(zhì)的轉(zhuǎn)變,使人們無法辨別聲源本來的面目。 2 2)音色)音色:即特色的聲音。聲音分純音純音和復(fù)音復(fù)音兩種類型。所謂純音,是指振幅和周期均為常數(shù)的聲音;復(fù)音則是具有不同頻率和不同振幅的混合聲音。大自然中的聲音絕大部分是復(fù)音。在復(fù)音中,最低頻率的聲音是“基音基音”,它是聲音的基調(diào)。其他頻率的聲音稱為“諧音”,也叫泛音泛音。基音和諧音是構(gòu)成聲音音色的重要因素。各種聲源都具有自己獨(dú)特的音色,例如各種樂器的聲音、每個人的聲音、各種生物的聲音等,人們就是
6、依據(jù)音色來辨別聲源種類的。 3 3)音強(qiáng))音強(qiáng):聲音的強(qiáng)度,也被稱為聲音的響度,常說的“音量”也是指音強(qiáng)。音強(qiáng)與聲波的振幅成正比,振幅越大,強(qiáng)度越大。唱盤、cd激光盤以及其他形式聲音載體中的聲音強(qiáng)度是一定的,通過播放設(shè)備的音量控制,可改變聆聽時的響度。 聲音的頻譜有線性頻譜和連續(xù)頻譜之分。線性頻譜線性頻譜是具有周期性的單一頻率聲波;連續(xù)頻譜連續(xù)頻譜是具有非周期性的帶有一定頻帶所有頻率分量的聲波。純粹的單一頻率的聲波只能在專門的設(shè)備中創(chuàng)造出來,聲音效果單調(diào)而乏味。自然界中的聲音幾乎全部屬于非周期性聲波,該聲波具有廣泛的頻率分量,聽起來聲音飽滿、音色多樣且具有生氣。 5.5.聲音的頻譜聲音的頻譜3
7、.1.2 3.1.2 模擬音頻的數(shù)字化過程模擬音頻的數(shù)字化過程 數(shù)字化的聲音易于用計算機(jī)軟件處理,現(xiàn)在幾乎所有的專業(yè)化聲音錄制、編輯器都是數(shù)字方式。對模擬音頻數(shù)字化過程涉及到音頻的采樣、量化和編碼。音頻的采樣、量化和編碼。 采樣和量化的過程可由采樣和量化的過程可由a/da/d轉(zhuǎn)換器轉(zhuǎn)換器實現(xiàn)實現(xiàn)。a/d轉(zhuǎn)換器以固定的頻率去采樣,即每個周期測量和量化信號一次。經(jīng)采樣和量化后聲音信號經(jīng)編碼后就成為數(shù)字音頻信號,可以將其以文件形式保存在計算機(jī)的存儲介質(zhì)中,這樣的文件一般稱為數(shù)字聲波文件。 模擬信號的數(shù)字化過程 100101100011101 信息論的奠基者香農(nóng)(shannon)指出:在一定條件下,用
8、在一定條件下,用離散的序列可以完全代表一個連續(xù)函數(shù)離散的序列可以完全代表一個連續(xù)函數(shù),這是采樣定理的基本內(nèi)容。 為實現(xiàn)a/d轉(zhuǎn)換,需要把模擬音頻信號波形進(jìn)行分割把模擬音頻信號波形進(jìn)行分割,這種這種方法稱為采樣方法稱為采樣(sampling)。采樣的過程是每隔一個時間間隔在采樣的過程是每隔一個時間間隔在模擬聲音的波形上取一個幅度值模擬聲音的波形上取一個幅度值,把時間上的連續(xù)信號變成時間上的離散信號。該時間間隔稱為采樣周期,其倒數(shù)為采樣頻率。采樣頻率采樣頻率是指計算機(jī)每秒鐘采集多少個聲音樣本。 1. 1. 采樣采樣 采樣頻率與聲音頻率之間有一定的關(guān)系,根據(jù)奈奎斯特(nyquist)理論,只有采樣頻
9、率高于聲音信號最高頻率的兩只有采樣頻率高于聲音信號最高頻率的兩倍時,才能把數(shù)字信號表示的聲音還原成為原來的聲音倍時,才能把數(shù)字信號表示的聲音還原成為原來的聲音。 2f2ff fs s 采樣只解決了音頻波形信號在時間坐標(biāo)時間坐標(biāo)(即橫軸即橫軸)上把一個波形切成若干個等分的數(shù)字化問題,但是還需要用某種數(shù)字化的方法來反映某一瞬間聲波幅度的電壓值大小。該值的大小影響音量的高低。我們把對聲波波形幅度的數(shù)字化表示稱之為對聲波波形幅度的數(shù)字化表示稱之為“量量化化”。 量化的過程量化的過程是先將采樣后的信號按整個聲波的幅度劃分成有限個區(qū)段的集合,把落入某個區(qū)段內(nèi)的樣值歸為一類,并賦于相同的量化值。如何分割采樣
10、信號的幅度呢? 我們還是采取二進(jìn)制的方式,以位以位(bit)或或16位位(bit)的方式來劃分縱軸的方式來劃分縱軸。也就是說在一個以8位為記錄模式的音效中,其縱軸將會被劃分為個量化等級,用以記錄其幅度大小。2. 量化量化 以下圖所示的原始模擬波形為例進(jìn)行采樣和量化。假設(shè)采樣頻率為1000次/秒,即每1/1000秒a/d轉(zhuǎn)換器采樣一次,其幅度被劃分成0到9共10個量化等級,并將其采樣的幅度值取最接近0 9之間的一個數(shù)來表示,如下圖所示。圖中每個正方形表示一次采樣。 d/a轉(zhuǎn)換器轉(zhuǎn)換器從上圖得到的數(shù)值中重構(gòu)原來信號時,得到下圖中藍(lán)色(直線段)線段所示的波形。從圖中可以看出,藍(lán)色線與原波形(紅色線)
11、相比,其波形的細(xì)節(jié)部分丟失了很多。這意味著重構(gòu)后的信號波形有較大的失真。 失真失真在采樣過程中是不可避免的,如何減少失真呢如何減少失真呢?可以直觀地看出,我們可以把上圖中的波形劃分成更為細(xì)小的區(qū)間,即采用更高的采樣頻率。同時,增加量化精度采用更高的采樣頻率。同時,增加量化精度,以得到更高的量化等級,即可減少失真的程度。在下圖(左)中,采樣率和量化等級均提高了一倍,分別為2000次/秒和20個量化等級。在下圖(右)中,采樣率和量化等級再提高了一倍,分別達(dá)到4000次/秒和40個量化等級。從圖中可以看出,當(dāng)用d/a轉(zhuǎn)換器重構(gòu)原來信號時(圖中的輪廓線),信號的失真明顯減少,信號質(zhì)量得到了提高。3.
12、3. 編碼編碼 模擬信號量經(jīng)過采樣和量化以后,形成一系列的離散信號脈沖數(shù)字信號。這種脈沖數(shù)字信號可以一定的方式進(jìn)行編碼,形成計算機(jī)內(nèi)部運(yùn)行的數(shù)據(jù)。所謂編碼,就是按照一定編碼,就是按照一定的格式把經(jīng)過采樣和量化得到的離散數(shù)據(jù)記錄下來,并在有用的格式把經(jīng)過采樣和量化得到的離散數(shù)據(jù)記錄下來,并在有用的數(shù)據(jù)中加入一些用于糾錯、同步和控制的數(shù)據(jù)的數(shù)據(jù)中加入一些用于糾錯、同步和控制的數(shù)據(jù)。在數(shù)據(jù)回放時,可以根據(jù)所記錄的糾錯數(shù)據(jù)判別讀出的聲音數(shù)據(jù)是否有錯,如在一定范圍內(nèi)有錯,可加以糾正。 編碼的形式比較多,常用的編碼方式是pcm脈沖調(diào)制。脈沖編碼調(diào)制(脈沖編碼調(diào)制(pcm)是把模擬信號變換為數(shù)字信號的一種調(diào)
13、)是把模擬信號變換為數(shù)字信號的一種調(diào)制方式,即把連續(xù)輸入的模擬信號變換為在時域和振幅上都離制方式,即把連續(xù)輸入的模擬信號變換為在時域和振幅上都離散的量,然后將其轉(zhuǎn)化為代碼形式傳輸或存儲散的量,然后將其轉(zhuǎn)化為代碼形式傳輸或存儲。3.1.3 3.1.3 數(shù)字音頻的文件格式數(shù)字音頻的文件格式 在多媒體技術(shù)中,存儲音頻信息的文件格式主要有:wav文件、voc文件和mp3文件等。 1. wavwav文件文件 wav文件又稱波形文件,來源于對聲音模擬波形的采樣,并以不同的量化位數(shù)把這些采樣點(diǎn)的值輪換成二進(jìn)制數(shù),然后存入磁盤,這就產(chǎn)生了波形文件。wav文件用于保存windows平臺的音頻信息資源,被wind
14、ows平臺及其應(yīng)用程序所廣泛支持。 wav聲音文件是使用riff(resource interchange file format資源交換文件)的格式描述的,它由文件頭和波形音頻文件數(shù)據(jù)塊組成。文件頭包括標(biāo)志符、語音特征值、聲道特征以及pcm格式類型標(biāo)志等。wav數(shù)據(jù)塊是由數(shù)據(jù)子塊標(biāo)記、數(shù)據(jù)子塊長度和波形音頻數(shù)據(jù)3個數(shù)據(jù)子塊組成。 wave格式支持多種壓縮算法,支持多種音頻位數(shù)、采樣頻率和聲道,是pc機(jī)上最為流行的聲音文件格式,但其文件尺寸較大,多用于存儲簡短的聲音片斷。 未壓縮的聲音文件的存儲量未壓縮的聲音文件的存儲量可用下式計算:可用下式計算: 存儲量(存儲量(kbkb)= =(采樣頻率(
15、采樣頻率khzkhz采樣位數(shù)采樣位數(shù)bitbit聲道數(shù)聲道數(shù)時間秒)時間秒)/8/8 2.voc2.voc文件文件 voc文件是creative公司所使用的標(biāo)準(zhǔn)音頻文件格式,多用于保存 creative sound blaster(創(chuàng)新聲霸)系列聲卡所采集的聲音數(shù)據(jù),被windows平臺和dos平臺所支持。 與wav格式類似,voc文件由文件頭塊和音頻數(shù)據(jù)塊組成。文件頭包含一個標(biāo)識、版本號和一個指向數(shù)據(jù)塊起始地址的指針,這個指針幫助數(shù)據(jù)塊定位以便順利找到第一個數(shù)據(jù)塊。數(shù)據(jù)塊分成各種類型的子塊,如聲音數(shù)據(jù)、靜音、標(biāo)記、ascii碼文件、重復(fù)、重復(fù)的結(jié)束及終止標(biāo)記等。 3.mpeg音頻文件.mp1
16、/.mp2/.mp3 這里的音頻文件格式指的是mpeg標(biāo)準(zhǔn)中的音頻部分,即mpeg音頻層(mpeg audio layer)。mpeg音頻文件的壓縮是一種有損壓縮,根據(jù)壓縮質(zhì)量和編碼復(fù)雜程度的不同可分為三層(mpeg audio layer 1/2/3),分別對應(yīng)mp1、mp2和mp3這三種聲音文件; mpeg音頻編碼具有很高的壓縮率,mp1和mp2的壓縮率分別為41和6181,而mp3的壓縮率則高達(dá)101121,也就是說一分鐘cd音質(zhì)的音樂,未經(jīng)壓縮需要10mb存儲空間,而經(jīng)過mp3壓縮編碼后只有1mb左右,同時其音質(zhì)基本保持不失真。 4. realaudio文件文件.ra/.rm/.ram
17、 realaudio文件是realnetworks公司開發(fā)的一種新型流式音頻(streaming audio)文件格式;它包含在realnetworks所制定的音頻、視頻壓縮規(guī)范realmedia中,主要用于在低速率的廣域網(wǎng)上實時傳輸音頻信息;網(wǎng)絡(luò)連接速率不同,客戶端所獲得的聲音質(zhì)量也不盡相同:對于28.8kb/s的連接,可以達(dá)到廣播級的聲音質(zhì)量;如果擁有isdn或更快的線路連接,則可獲得cd音質(zhì)的聲音。 5.aiff文件文件.aif/.aiff aiff是音頻交換文件格式(audio interchange file format)的英文縮寫,是蘋果計算機(jī)公司開發(fā)的一種聲音文件格式;被mac
18、intosh平臺及其應(yīng)用程序所支持,其他專業(yè)音頻軟件包也同樣支持這種格式。3.1.4 3.1.4 聲音質(zhì)量的評價聲音質(zhì)量的評價 目前有三種方法可以衡量聲音的質(zhì)量。一是用聲音信號的帶寬來衡量聲音的質(zhì)量,等級由高到低依次是dat,cd,fm,am和數(shù)字電話。此外,聲音質(zhì)量的度量還有兩種基本的方法:一種是客觀質(zhì)量度量,另一種是主觀質(zhì)量度量。評價語音質(zhì)量時,有時同時采取兩種方法評估,有時以主觀質(zhì)量度量為主。 1 1以聲音的帶寬衡量聲音的質(zhì)量以聲音的帶寬衡量聲音的質(zhì)量 2 2、聲音客觀質(zhì)量的度量、聲音客觀質(zhì)量的度量聲音客觀質(zhì)量的度量主要用信噪比(s signal to n niose r ratio,s
19、nr)來度量。它指音源產(chǎn)生最大不失真聲音信號強(qiáng)度與同時發(fā)出噪音強(qiáng)度之間的比率,通常以s/n表示。一般用分貝(db)為單位,信噪比越高表示音頻質(zhì)量越好。信噪比(snr)用下式計算:snr 10 log (vsignal)2 / (vnoise)220 log (vsignal / vnoise)其中,vsignal表示信號電壓,vnoise表示噪聲電壓;snr的單位為分貝(db)。 3 3、聲音主觀質(zhì)量的度量、聲音主觀質(zhì)量的度量 與用snr客觀質(zhì)量度量相比較,應(yīng)該可以說人的感覺(如聽覺、視覺等)更具有決定意義,感覺上的、主觀上的測試應(yīng)該成為評價聲音質(zhì)量和圖像質(zhì)量不可缺少的部分。而有的學(xué)者則認(rèn)為,
20、在語音和圖像信號編碼中使用主觀質(zhì)量度量比使用客觀質(zhì)量度量更加恰當(dāng),更有意義??墒且话銇碚f,可靠的主觀度量值也是比較難獲得的,所獲得的值也是一個相對值。對聲音主觀質(zhì)量度量比較通用的標(biāo)準(zhǔn)是5分制 :優(yōu)(excellent)、良(good) 、中(fair) 、差(poor) 、劣(bad) 。3.2音頻信號壓縮技術(shù)音頻信號壓縮技術(shù) 音頻信號壓縮編碼的主要依據(jù)是人耳的聽覺特性,主要有兩點(diǎn): 1.人的聽覺系統(tǒng)中存在一個聽覺閾值電平,低于這個電平的聲音信號人耳聽不到 .2.人的聽覺存在屏蔽效應(yīng)。當(dāng)幾個強(qiáng)弱不同的聲音同時存在時,強(qiáng)聲使弱聲難以聽到,并且兩者之間的關(guān)系與其相對頻率的大小有關(guān) . 聲音編碼算法
21、就是通過這些特性來去掉更多的冗余數(shù)據(jù),來達(dá)到壓縮數(shù)據(jù)的目的。 3.2.1 脈沖編碼調(diào)制脈沖編碼調(diào)制 1編碼的原理編碼的原理 它的原理框圖下圖所示 3.2.1 脈沖編碼調(diào)制脈沖編碼調(diào)制 1編碼的原理編碼的原理 它的原理框圖下圖所示 模擬信號數(shù)字化一般有三個步驟:第一步是采樣,就是每隔一段時間間隔讀一次聲音的幅度;第二步是量化,就是把采樣得到的聲音信號幅度轉(zhuǎn)換成數(shù)字值。但那時并沒有涉及如何進(jìn)行量化。量化有好幾種方法,但可歸納成兩類:一類稱為均勻量化,另一類稱為非均勻量化。采用的量化方法不同,量化后的數(shù)據(jù)量也就不同。因此,可以說量化也是一種壓縮數(shù)據(jù)的方法;第三步是編碼,就是按一定格式記錄采樣和量化后
22、的數(shù)據(jù)。 2均勻量化均勻量化 采用相同的“等分尺”來度量采樣得到的幅度,也稱為線性量化,如圖3-4所示。量化后的樣本值y和原始值x的差 e=y-x稱為量化誤差或量化噪聲。 3非均勻量化非均勻量化 對輸入信號進(jìn)行量化時,大的輸入信號采用大的量化間隔,小的輸入信號采用小的量化間隔,如圖3-5所示。 一個cdda采用脈沖編碼調(diào)制pcm編碼的實例 首先用一組脈沖采樣時鐘信號與輸入的模擬音頻信號相乘,相乘的結(jié)果即輸入信號在時間軸上的數(shù)字化。然后對采樣以后的信號幅值進(jìn)行量化。最簡單的量化方法是均衡量化,這個量化的過程由量化器來完成。對經(jīng)量化器a/d變換后的信號再進(jìn)行編碼,即把量化的信號電平轉(zhuǎn)換成二進(jìn)制碼組
23、,就得到了離散的二進(jìn)制輸出數(shù)據(jù)序列x(n),n表示量化的時間序列,x(n)的值就是n時刻量化后的幅值,以二進(jìn)制的形式表示和記錄。 3.2.2 3.2.2 增量調(diào)制增量調(diào)制 它是一種預(yù)測編碼技術(shù),是pcm編碼的一種變形。dm是對實際的采樣信號與預(yù)測的采樣信號之差的極性進(jìn)行編碼,將極性變成“0”和“1”這兩種可能的取值之一。如果實際的采樣信號與預(yù)測的采樣信號之差的極性為“正”,則用“1”表示;相反則用“0”表示,或者相反。圖3-7 dm波形示意圖 從上圖中可以看到,在開始階段增量調(diào)制器的輸出不能保持跟蹤輸入信號的快速變化,這種現(xiàn)象稱為增量調(diào)制器的“斜率過載”(slope overload)。 在輸
24、入信號緩慢變化部分,即輸入信號與預(yù)測信號的差值接近零的區(qū)域,增量調(diào)制器的輸出出現(xiàn)隨機(jī)交變的“0”和“1”。這種現(xiàn)象稱為增量調(diào)制器的粒狀噪聲(granular noise),這種噪聲是不可能消除的。 在輸入信號變化快的區(qū)域,斜率過載是關(guān)心的焦點(diǎn),而在輸入信號變化慢的區(qū)域,關(guān)心的焦點(diǎn)是粒狀噪聲。 3.2.3 自適應(yīng)脈沖編碼調(diào)制自適應(yīng)脈沖編碼調(diào)制 是根據(jù)輸入信號幅度大小來改變量化階大小的一種波形編碼技術(shù)。這種自適應(yīng)可以是瞬時自適應(yīng),即量化階的大小每隔幾個樣本就改變,也可以是非瞬時自適應(yīng),即量化階的大小在較長時間才發(fā)生變化。 改變量化階大小的方法有兩種:一種稱為前向自適應(yīng) ,后向自適應(yīng) 。前者是根據(jù)未
25、量化的樣本值的均方根值來估算輸入信號的電平,以此來確定量化階的大小,并對其電平進(jìn)行編碼作為邊信息(side information)傳送到接收端。后者是從量化器剛輸出的過去樣本中來提取量化階信息。 (a) 前向自適應(yīng) (b) 后向自適應(yīng)后向自適應(yīng) 3.2.4 差分脈沖編碼調(diào)制差分脈沖編碼調(diào)制 是利用樣本與樣本之間存在的信息冗余度來進(jìn)行編碼的一種數(shù)據(jù)壓縮技術(shù)。差分脈沖編碼調(diào)制的思想是,根據(jù)過去的樣本去估算(estimate)下一個樣本信號的幅度大小,這個值稱為預(yù)測值,然后對實際信號值與預(yù)測值之差進(jìn)行量化編碼,從而就減少了表示每個樣本信號的位數(shù)。它與脈沖編碼調(diào)制(pcm)不同的是,pcm是直接對采
26、樣信號進(jìn)行量化編碼,而dpcm是對實際信號值與預(yù)測值之差進(jìn)行量化編碼,存儲或者傳送的是差值而不是幅度絕對值。 差分脈沖編碼調(diào)制的概念示于圖差分脈沖編碼調(diào)制的概念示于圖3-93-9。圖中的。圖中的差分信號差分信號d(k)d(k)是離散輸入信號是離散輸入信號s(k)s(k)和預(yù)測器輸和預(yù)測器輸出的估算值出的估算值se(k-1)se(k-1)之差。注意,之差。注意,se(k-1)se(k-1)是對是對s(k)s(k)的預(yù)測值,的預(yù)測值, 3.2.5 自適應(yīng)差分脈沖編碼調(diào)制自適應(yīng)差分脈沖編碼調(diào)制 綜合了apcm的自適應(yīng)特性和dpcm系統(tǒng)的差分特性,是一種性能比較好的波形編碼。它的核心想法是:利用自適應(yīng)
27、的思想改變量化階的大小,即使用小的量化階(step-size)去編碼小的差值,使用大的量化階去編碼大的差值,使用過去的樣本值估算下一個輸入樣本的預(yù)測值,使實際樣本值和預(yù)測值之間的差值總是最小。它的編碼簡化框圖如圖3-10所示。 3.3 音頻編碼標(biāo)準(zhǔn) 3.3.1 ccitt g系列聲音壓縮標(biāo)準(zhǔn)系列聲音壓縮標(biāo)準(zhǔn) ccitt和iso先后提出了一系列有關(guān)語音數(shù)據(jù)編譯碼標(biāo)準(zhǔn),下面簡要介紹幾種音頻編碼技術(shù)標(biāo)準(zhǔn)。 1電話質(zhì)量的音頻壓縮編碼技術(shù)標(biāo)準(zhǔn)電話質(zhì)量的音頻壓縮編碼技術(shù)標(biāo)準(zhǔn) 信號頻率規(guī)定在300hz3.4khz,采用標(biāo)準(zhǔn)的脈沖編碼調(diào)制(pcm),當(dāng)采樣頻率為8khz,進(jìn)行8bit量化時,所得數(shù)據(jù)速率為64
28、kb/s,即一個數(shù)字電話。1972年ccitt為電話質(zhì)量和語音壓縮制定了pcm標(biāo)準(zhǔn)g.711,其速率為64kbs,使用非線性量化技術(shù),主要用于公共電話網(wǎng)中。 2 2調(diào)幅廣播質(zhì)量的音頻壓縮編碼技術(shù)標(biāo)準(zhǔn)調(diào)幅廣播質(zhì)量的音頻壓縮編碼技術(shù)標(biāo)準(zhǔn) 頻率在50hz一7khz范圍。g.722標(biāo)準(zhǔn)是采用16khz采樣,14bit量化,信號數(shù)據(jù)速率為224kbits,采用子帶編碼方法,將輸入音頻信號經(jīng)濾波器分成高子帶和低子帶兩個部分,分別進(jìn)行adpcm編碼,再混合形成輸出碼流,224kbits可以被壓縮成64kbits,最后進(jìn)行數(shù)據(jù)插入(最高插入速率達(dá)16kbits),因此利用g.722標(biāo)準(zhǔn)可以在窄帶綜合服務(wù)數(shù)據(jù)網(wǎng)
29、n-isdn中的一個b信道上傳送調(diào)幅廣播質(zhì)量的音頻信號。 3 3高保真度立體聲音頻壓縮編碼技術(shù)標(biāo)準(zhǔn)高保真度立體聲音頻壓縮編碼技術(shù)標(biāo)準(zhǔn) 高保真立體聲音頻信號頻率范圍是50hz20khz,采用441khz采樣頻率,16bit量化進(jìn)行數(shù)字化轉(zhuǎn)換,其數(shù)據(jù)速率每聲道達(dá)705kbits。1991年國際標(biāo)準(zhǔn)化組織iso和ccitt開始聯(lián)合制定mpeg標(biāo)準(zhǔn),其中isocdlll72-3作為“mpeg音頻”標(biāo)準(zhǔn),成為國際上公認(rèn)的高保真立體聲音頻壓縮標(biāo)準(zhǔn)。mpeg音頻第一和第二層次編碼是將輸入音頻信號進(jìn)行采樣頻率為48khz,44.1khz,32khz的采樣,經(jīng)濾波器組將其分為32個子帶,同時利用人耳屏蔽效應(yīng),根
30、據(jù)音頻信號的性質(zhì)計算各頻率分量的人耳屏蔽門限,選擇各子帶的量化參數(shù),獲得高的壓縮比。mpeg第三層次是在上述處理后再引入輔助子帶,非均勻量化和熵編碼技術(shù),再進(jìn)一步提高壓縮比。mpeg音頻壓縮技術(shù)的數(shù)據(jù)速率為每聲道32448kbits,適合于cdda光盤應(yīng)用。 3.3.2 mp33.3.2 mp3壓縮技術(shù)壓縮技術(shù) mp3的全名是mpeg audio layer-3,簡單地說就是一種聲音文件的壓縮格式。 iso/mpeg音頻壓縮標(biāo)準(zhǔn)里包括了三個使用高性能音頻數(shù)據(jù)壓縮方法的感知編碼方案 ,按照壓縮質(zhì)量(每bit的聲音效果)和編碼方案的復(fù)雜程度分別是layer1、layer2、layer3。所有這三層
31、的編碼采用的基本結(jié)構(gòu)是相同的。它們在采用傳統(tǒng)的頻譜分析和編碼技術(shù)的基礎(chǔ)上還應(yīng)用了子帶分析和心理聲學(xué)模型理論。也就是通過研究人耳和大腦聽覺神經(jīng)對音頻失真的敏感度,在編碼時先分析聲音文件的波形,利用濾波器找出噪音電平(noise level),然后濾去人耳不敏感的信號,通過矩陣量化的方式將余下的數(shù)據(jù)每一位打散排列,最后編碼形成mpeg的文件。而音質(zhì)聽起來與cd相差不大。 mpegmpeg的層次與壓縮比率的層次與壓縮比率 layer1(相當(dāng)于384kbps立體聲信號)4:1layer2(相當(dāng)于192256kbps立體聲信號)6:18:1layer3 (相當(dāng)于112154kbps立體聲信號)10:11
32、2:1 3.3.3 mp4壓縮技術(shù)壓縮技術(shù) mp4并不是mpeg-4或者mpeg-1layer4,它的出現(xiàn)是針對mp3的大眾化、無版權(quán)的一種保護(hù)格式,由美國網(wǎng)絡(luò)技術(shù)公司開發(fā),美國唱片行業(yè)聯(lián)合會倡導(dǎo)公布的一種新的網(wǎng)絡(luò)下載和音樂播放格式。 mp4使用的是mpeg-2 aac技術(shù)也就是俗稱的a2b或aac。其中,mpeg-2是mpeg于1994年11月針對數(shù)碼電視(數(shù)碼影像)提出的。它的特點(diǎn)就是,音質(zhì)更加完美而壓縮比更加大(1:15)。mpeg-2 aac(iso/iec 13818-7)在采樣率為896khz下提供了148個聲道可選范圍的高質(zhì)量音頻編碼。aac就是advanced audio co
33、ding(先進(jìn)音頻編碼)的意思,適用于從比特率在8kbit/s單聲道的電話音質(zhì)到160kbit/s多聲道的超高質(zhì)量音頻范圍內(nèi)的編碼,并且允許對多媒體進(jìn)行編碼/解碼。 aac與mp3相比,增加了諸如對立體聲的完美再現(xiàn)、比特流效果音掃描、多媒體控制、降噪優(yōu)異等mp3沒有的特性,使得在音頻壓縮后仍能完美的再現(xiàn)cd音質(zhì)。 aac技術(shù)主要由以下三個部分組成。第一,at&t的音頻壓縮技術(shù)專利。它可以將aac壓縮比提高到20:1而不損失音質(zhì)。這樣,一首3分鐘的歌僅僅需要2.25mb,這在互聯(lián)網(wǎng)上的下載速度是很驚人的。第二、安全數(shù)據(jù)庫。它可以為你的aac music創(chuàng)建一個特定的密鑰,將此密鑰存于其數(shù)
34、據(jù)庫中。同時,只有aac的播放器才能播放含有這種密鑰第三、協(xié)議認(rèn)證。這個認(rèn)證包含了復(fù)制許可、允許復(fù)制副本數(shù)目、歌曲總時間、歌曲可以播放時間以及售賣許可等信息。 mp4技術(shù)的優(yōu)越性要遠(yuǎn)遠(yuǎn)高于mp3,因為它更適合多媒體技術(shù)的發(fā)展以及視聽欣賞的需求。但是,mp4是一種商品,它利用改良后的mpeg-2 aac技術(shù)并強(qiáng)加上由出版公司直接授權(quán)的知識產(chǎn)權(quán)協(xié)議作為新的標(biāo)準(zhǔn);而mp3是一種自由音樂格式,任何人都可以自由使用。此外,mp4實際上是由音樂出版界聯(lián)合授意的官方標(biāo)準(zhǔn);mp3則是廣為流傳的民間標(biāo)準(zhǔn)。相比之下,mp3的靈活和自由度要遠(yuǎn)遠(yuǎn)大于mp4,這使得音樂發(fā)燒友們更傾向于使用mp3。更重要的一點(diǎn)是,mp3
35、是目前最為流行的一種音樂格式,它占據(jù)著大量的網(wǎng)絡(luò)資源,這使得mp4的推廣普及難上加難。 3.3.4樂器數(shù)字接口樂器數(shù)字接口midi 產(chǎn)生midi樂音的方法很多,現(xiàn)在用得較多的方法有兩種:一種是頻率調(diào)制(frequency modulation,fm)合成法,另一種是樂音樣本合成法,也稱為波形表(wavetable)合成法。這兩種方法目前主要用來生成音樂。 fm合成器生成樂音的工作原理主要是把幾種樂音的波形用數(shù)字來表達(dá),并且用數(shù)字計算機(jī)而不是用模擬電子器件把它們組合起來,通過數(shù)模轉(zhuǎn)換器(digital to analog convertor,dac)來生成樂音。但是使用fm合成法來產(chǎn)生各種逼真的
36、樂音是相當(dāng)困難的,有些樂音幾乎不能產(chǎn)生。 樂音樣本合成法就是把真實樂器發(fā)出的聲音以數(shù)字的形式記錄下來,播放時改變播放速度,從而改變音調(diào)周期,生成各種音階的音符。樂音樣本的采集相對比較直觀。 midi協(xié)議協(xié)議提供了一種標(biāo)準(zhǔn)的和有效的方法,用來把演奏信息轉(zhuǎn)換成電子數(shù)據(jù)。 midi信息是以“midi messages”傳輸?shù)?,它可以被認(rèn)為是告訴音樂合成器(music synthesizer)如何演奏一小段音樂的一種指令,而合成器把接收到的midi數(shù)據(jù)轉(zhuǎn)換成聲音。國際midi協(xié)會(international midi association)出版的midi 1.0規(guī)范對midi協(xié)議作了完整的說明。mi
37、dimidi數(shù)據(jù)流數(shù)據(jù)流是單向異步的數(shù)據(jù)位流(bit stream),其速率為31.25 kbps,每個字節(jié)為10位(1位開始位,8位數(shù)據(jù)位和1位停止位)。midi樂器上的midi接口通常包含3種不同的midi連接器,用in(輸入), out(輸出)和thru(穿越)。midi數(shù)據(jù)流通常由midi控制器(midi controller)產(chǎn)生,如樂器鍵盤(musical instrument keyboard),或者由midi音序器(midi sequencer)產(chǎn)生。midi控制器是當(dāng)作樂器使用的一種設(shè)備,在播放時把演奏轉(zhuǎn)換成實時的midi數(shù)據(jù)流,midi音序器是一種裝置,允許midi數(shù)據(jù)被捕
38、獲、存儲、編輯、組合和重奏。來自midi控制器或者音序器的midi數(shù)據(jù)輸出通過該裝置的midi out連接器傳輸。3.4 常用音頻處理軟件簡介常用音頻處理軟件簡介 3.4.1 cool edit pro cooledit pro是著名的syntrillium公司開發(fā)的數(shù)字音頻處理軟件,其運(yùn)行環(huán)境為windows啟動后其界面如右圖所示。cooledit pro的主要特色有: (1).(1).支持的音頻格式十分豐富支持的音頻格式十分豐富,多達(dá)十余種,還提供了對5種不同類型wav文件的支持。(2).(2).提供豐富的特殊效果提供豐富的特殊效果。包括3d混響、降噪、濾波、音頻縮/放、合聲、延遲、變形、
39、反轉(zhuǎn)、靜音等。(3).(3).提供了強(qiáng)大的提供了強(qiáng)大的dspdsp(數(shù)字信號處理)能力。能夠同時(數(shù)字信號處理)能力。能夠同時處理處理6464條音軌。條音軌。支持錄音、回放、混音、音頻編輯。借助它,能夠方便地制作出自己想要的任何特殊音效,并添加到各種類型的多媒體作品中去。 (4).(4).操作界面設(shè)計簡捷方便操作界面設(shè)計簡捷方便。在工具欄中,提供了56個圖形化按鈕。幾乎所有的編輯操作都能夠方便地進(jìn)行操作。3.4.2 gold wavegoldwave的窗口界面如圖下圖所示。 goldwave是一款相當(dāng)不錯的數(shù)碼錄音及編輯軟件,除了附有許多的效果處理功能外,它還能將編輯好的文件存為wav、au、
40、snd、raw和afc等格式,而且它可以不經(jīng)由聲卡直接抽取scsi形式的cd rom中的音樂來錄制編輯。 作為wave文件編輯處理工具,支持從mp3、mpg、avi、asf、mov等文件中提取音頻進(jìn)行編輯,所以除了它強(qiáng)大的編輯功能外,用作把以上格式的音頻轉(zhuǎn)換成wav文件也是很方便的。 goldwave同時是較新的、適合于一般進(jìn)行音頻素材采集與制作的軟件,它集音頻錄制和編輯于一體,不僅是一個錄音程序,可以很方便地制作cai課件的背景音樂、音效、錄制cd、轉(zhuǎn)換音樂格式等,而且還具有各種復(fù)雜的音樂編輯和特效處理功能。該軟件不需要安裝,只要運(yùn)行程序文件夾中的可執(zhí)行程序即可。goldwave小巧玲瓏,只
41、有600k左右,可從http:/下載。 3.4.3 cakewalk(音樂大師)(音樂大師) 作為一種圖形化的音樂編輯軟件,cakewalk的主要工作界面就是各種工作窗口,我們對midi事件和音頻事件的所有編輯和操作都是在工作窗口中完成的。如下圖所示,音軌窗既是cakewalk主界面的主要組成部分,也是重要的工作窗口。類似的還有鋼琴窗簾、事件列表窗、調(diào)音臺窗等,每個窗口各有所長,分別適用于不同的編輯對象和編輯特征。1. cakewalkakewalk的調(diào)音臺的調(diào)音臺可以自動混音,可以一邊播放樂曲,一邊記錄控制鍵(滑鍵)的調(diào)整動作,而且多個控制鍵可以編組控制,這為制作漸強(qiáng)減弱效果提供了最為簡單的
42、操作手段。2.對于所有連續(xù)變化的數(shù)據(jù),例如彎音、調(diào)制、控制器、鍵速和速度等,cakewalk都提供了手工劃線的編輯方式提供了手工劃線的編輯方式,用鼠標(biāo)劃一條斜線或曲線便可隨意改變數(shù)值。因此,對于像彎音輪的細(xì)微變化過程、速度的自由變化等之類較難處理的數(shù)據(jù),在cakewalk中都變得異常簡單。3.cakewalk可以將其所有菜單操作命令賦予midi鍵盤,也就是說,可以用合成器的鍵盤來控制軟件的各種操作可以用合成器的鍵盤來控制軟件的各種操作,其功能是所有音序軟件中最全面的。4. cakewalk可以將音符的位置、控制器的變化等將音符的位置、控制器的變化等midimidi信息圖形信息圖形化地顯示出來化
43、地顯示出來,因此看起來更加接近總譜。 cakewalk pro audiocakewalk pro audio的的 一些特色功能一些特色功能3.5波形音頻文件的采集與制作波形音頻文件的采集與制作 3.5.1利用利用“錄音機(jī)錄音機(jī)”生成和編輯波形文件生成和編輯波形文件 windows錄音機(jī)的主要功能是錄音和放音,使用“錄音機(jī)”可以錄制、混合、播放和編輯聲音,也可以將聲音鏈接或插入到另一文檔中。其主要功能操作如下所述:(1)波形文件的錄制:確保音頻輸入設(shè)備已經(jīng)連接到計算機(jī)。錄音機(jī)常用的輸入設(shè)備是麥克風(fēng)和cd-rom播放機(jī)。(2)波形文件的存儲:存儲的文件格式為波形(.wav)文件。(3)聲音的編輯
44、:復(fù)制、粘貼、插入、刪除等操作。(4)音頻變換與特殊效果:更改聲音的大小、速度、回音等。 cool edit pro是一種非常出色的聲音編輯器,其主要功能操作如下所述。 (1)波形文件的錄制:錄制及錄制參數(shù)(采樣率、量化位數(shù)、單雙聲道等)的設(shè)定。 ( 2 ) 波 形 文 件 的 存 儲 : 存 儲 的 文 件 格 式(.wav、.au、.smp、.asf、.wma等)的選擇,文件格式與參數(shù)(采樣率、量化位數(shù)、單雙聲道)的變換。 (3)波形文件選定范圍播放,記錄播放時間。 (4)聲音的編輯:剪切、拷貝、混合粘貼、插入多軌工程、插入多軌播放列表、刪除靜音、零點(diǎn)定位、確定節(jié)拍等。 (5)聲音的變換與
45、特殊效果:降噪、擴(kuò)音、剪接、添加立體環(huán)繞、淡入淡出、3d回響等音效。3.5.2用用cool edit pro編輯制作波形文件編輯制作波形文件 3.6 聲音文件格式的互換聲音文件格式的互換 1 1選擇聲音文件格式的部分原則 1)wav文件:不僅所有的windows的音效處理應(yīng)用程序都可以播放wave文件,而且常見的各種多媒體編輯制作軟件的音效播放都能直接使用wav文件。再者,wav格式的音質(zhì)效果也不錯 。 2)mp3文件 :如果通過適當(dāng)?shù)墓ぞ邅斫厝d上的數(shù)字音頻并保存為cd音質(zhì)的wave文件,然后進(jìn)行mpeg layer 3的壓縮編碼形成mp3文件,再用合適的解碼軟件對mp3解碼。那么可以形成
46、一個節(jié)約大量存儲空間,保持cd音質(zhì)的整體解決方案。 3)midi文件:是多媒體計算機(jī)產(chǎn)生音頻(特別是音樂)的另一種主要方式,可以滿足需要長時間音樂的場合。 4)swa文件:swa格式的音樂文件,是authorware4.0以上版本支持的特殊音樂格式,它的容量類似于流行的mp3,也非常小。在authorware4.0或4.0以上版本中,自帶wavswa轉(zhuǎn)換器, 3.6.2轉(zhuǎn)換轉(zhuǎn)換cd音軌音軌 下面以比較常用的cdcopy為例來說明一下如何轉(zhuǎn)換cd音軌。cdcopy是一個常用的抓音軌工具,它對爛盤的糾錯性能非常好,還可以把cd音軌轉(zhuǎn)換為wav、au、ra、yamaha vqf、aac、mp3等多種
47、聲音格式,而且cdcopy是一個共享軟件,我們可以從http:/下載到它的最新版本。抓取及轉(zhuǎn)換音軌 步驟分以下3步:1選擇文件格式 2設(shè)置文件保存路徑 3轉(zhuǎn)換音軌 3.7.1語音識別的發(fā)展歷史語音識別的發(fā)展歷史 可以將語音識別近六十年的發(fā)展歷史劃分為4個時期: (1)初始發(fā)展期 (2)基礎(chǔ)突破期 (3)綜合發(fā)展期 (4)成熟期 3.7 語音識別技術(shù)及應(yīng)用語音識別技術(shù)及應(yīng)用 3.7.2語音識別技術(shù)語音識別技術(shù) 語音識別以語音為研究對象,是語音信號處理的一個重要研究方向,是模式識別的一個分支,其目的就是要讓機(jī)器具有人的聽覺功能,在人機(jī)語音通訊中“聽懂”人類口述的語言。根據(jù)不同的需求,語音識別的識別
48、內(nèi)容可分為狹義的語音識別和說話人語音識別 。 1語音識別技術(shù)的基礎(chǔ)語音識別技術(shù)的基礎(chǔ) 一個完整的語音識別系統(tǒng)可大致分為三部分:(1)語音特征提?。浩淠康氖菑恼Z音波形中提取出隨時間變化的語音特征序列。(2)聲學(xué)模型與模式匹配(識別算法):聲學(xué)模型通常將獲取的語音特征通過學(xué)習(xí)算法產(chǎn)生。在識別時將輸入的語音特征同聲學(xué)模型(模式)進(jìn)行匹配與比較,得到最佳的識別結(jié)果。(3)語言模型與語言處理:語言模型包括由識別語音命令構(gòu)成的語法網(wǎng)絡(luò)或由統(tǒng)計方法構(gòu)成的語言模型,語言處理可以進(jìn)行語法、語義分析。對小詞表語音識別系統(tǒng),往往不需要語言處理部分。 聲學(xué)模型是識別系統(tǒng)的底層模型,并且是語音識別系統(tǒng)中最關(guān)鍵的一部分。
49、聲學(xué)模型的目的是提供一種有效的方法計算語音的特征矢量序列和每個發(fā)音模板之間的距離。聲學(xué)模型的設(shè)計和語言發(fā)音特點(diǎn)密切相關(guān)。聲學(xué)模型單元大?。ㄗ职l(fā)音模型、半音節(jié)模型或音素模型)對語音訓(xùn)練數(shù)據(jù)量大小、系統(tǒng)識別率,以及靈活性有較大的影響。必須根據(jù)不同語言的特點(diǎn)、識別系統(tǒng)詞匯量的大小決定識別單元的大小。 語言模型對中、大詞匯量的語音識別系統(tǒng)特別重要。當(dāng)分類發(fā)生錯誤時可以根據(jù)語言學(xué)模型、語法結(jié)構(gòu)、語義學(xué)進(jìn)行判斷糾正,特別是一些同音字則必須通過上下文結(jié)構(gòu)才能確定詞義。語言學(xué)理論包括語義結(jié)構(gòu)、語法規(guī)則、語言的數(shù)學(xué)描述模型等有關(guān)方面。目前比較成功的語言模型通常是采用統(tǒng)計語法的語言模型與基于規(guī)則語法結(jié)構(gòu)命令語言模
50、型。語法結(jié)構(gòu)可以限定不同詞之間的相互連接關(guān)系,減少了識別系統(tǒng)的搜索空間,這有利于提高系統(tǒng)的識別。 2語音識別的基本原理語音識別的基本原理 預(yù)處理預(yù)處理包括語音信號采樣、反混疊帶通濾波、去除個體發(fā)音差異和設(shè)備、環(huán)境引起的噪聲影響等,并涉及到語音識別基元的選取和端點(diǎn)檢測問題: 特征提取部分特征提取部分用于提取語音中反映本質(zhì)特征的聲學(xué)參數(shù),如平均能量、平均跨零率、共振峰等; 訓(xùn)練訓(xùn)練在識別之前進(jìn)行,通過讓講話者多次重復(fù)語音,從原始語音樣本中去除冗余信息,保留關(guān)鍵數(shù)據(jù),再按照一定規(guī)則對數(shù)據(jù)加以聚類,形成模式庫; 模式匹配部分模式匹配部分是整個語音識別系統(tǒng)的核心,它是根據(jù)一定的準(zhǔn)則(如某種距離測度)以及專家知識(如構(gòu)詞規(guī)則、語法規(guī)則、語義規(guī)則等),計算輸入特征與庫存模式之間的相似度,判斷出輸入語音的語意信息。 3 3處理的方法:處理的方法:(1) 連續(xù)語音流的預(yù)處理波形硬件采樣率的確定、分幀大小與幀移策略的確定;剔除噪聲的帶通濾波、高頻預(yù)加重處理、各種變換策略;波形的自動切分(依賴于識別基元的選擇方案)。 (2) 特征參數(shù)提取 識別語音的過程,實際上
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025車輛抵債合同書
- 2025煉化工程建設(shè)總承包合同
- 2025油漆工程承包合同
- 2024-2025學(xué)年新教材高中語文 第七單元 16.2 登泰山記說課稿(1)部編版必修上冊
- 2024-2025學(xué)年高中地理 第1章 旅游和旅游資源 第2節(jié) 旅游資源的類型說課稿 中圖版選修3
- 二手房交易時合同范例
- 飲料公司組建方案
- 《 負(fù)數(shù)》(說課稿)-2023-2024學(xué)年六年級下冊數(shù)學(xué)人教版
- 石材礦山起料方案
- 鑄造企業(yè)整治方案制定
- 湖南省懷化市2024-2025學(xué)年九年級上學(xué)期期末化學(xué)試題(含答案)
- “5E”教學(xué)模式下高中數(shù)學(xué)教學(xué)實踐研究
- 急救藥品知識培訓(xùn)內(nèi)容
- 人教版初中英語單詞大全七八九年級(帶音標(biāo)) mp3聽力音頻下載
- 四川省成都市成華區(qū)2024年中考語文二模試卷附參考答案
- 《西蘭花全程質(zhì)量安全控制技術(shù)規(guī)范》
- 2024-2030年中國豆腐市場發(fā)展趨勢展望與投資策略分析報告
- 營銷策劃 -嘉華鮮花餅「正宗」戰(zhàn)略重塑
- 胸腰椎骨折中醫(yī)護(hù)理
- 解剖臺市場發(fā)展預(yù)測和趨勢分析
- DB14∕T 92-2010 M5、M15車用甲醇汽油
評論
0/150
提交評論