語音信號預(yù)處理技術(shù)綜述_第1頁
語音信號預(yù)處理技術(shù)綜述_第2頁
語音信號預(yù)處理技術(shù)綜述_第3頁
語音信號預(yù)處理技術(shù)綜述_第4頁
全文預(yù)覽已結(jié)束

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

1、語音信號預(yù)處理技術(shù)綜述        【摘要】簡要介紹了語音預(yù)處理技術(shù),包括放大與自動增益控制、反混疊濾波、模數(shù)變換等,可以用兩種方法來實現(xiàn)語音預(yù)處理,即硬件方法和基于多媒體WAV文件的聲卡技術(shù)。 【關(guān)鍵詞】WAV文件,硬件方法,聲卡技術(shù),語音信號預(yù)處理預(yù)處理通常包括:放大與自動增益控制、反混疊濾波、模數(shù)變換等內(nèi)容。這些問題原理上都比較成熟,我們可以有兩種方法加以實現(xiàn),第一種是用硬件方法來實現(xiàn)放大與自動增益控制、反混疊濾波、模數(shù)變換等,第二種方法是借助多媒體聲卡技術(shù),因為高質(zhì)量的多媒體聲卡基本都采用了放大與自動增益

2、控制、反混疊濾波、模數(shù)變換等技術(shù)。1硬件方法的實現(xiàn)11數(shù)字式自動增益控制與模數(shù)變換采用數(shù)字式比之模擬式有如下優(yōu)點:精度高、設(shè)計靈活、能區(qū)別語音和噪聲、控制范圍大(可達(dá)5080dB),其系統(tǒng)方框圖如圖1所示。該系統(tǒng)采用了一種所謂“快啟動慢釋放”的控制方案,即按信號幅值分為快速衰減、正常、慢速釋放和??厮膫€區(qū),所有改變的衰減量都小于3dBs;在160個樣點的一幀中用158點,留下2點作為AGC的運算時間。在圖1中:數(shù)控衰減器用5G7520(也可用AD7110)來實現(xiàn),AD變換器用AD574來實現(xiàn),接口用8255來實現(xiàn),而控制器則用CPU、8228系統(tǒng)控制器224時鐘發(fā)生器組成的最小微處理系統(tǒng)來實現(xiàn)

3、。12反混疊濾波該03400Hz的模擬低通濾波器,過去常用無源LC元件或有源的運算放大器來實現(xiàn),但其體積較大,效果不理想。而由開關(guān)電容濾波單片MC14413組成的電路效果較好,具體電路可參看文獻(xiàn)3。除了MC14413之外,還可用四片AF151集成電路(每片內(nèi)含有兩個二階濾波器和兩個獨立的運算放大器)構(gòu)成一個十階低通濾波器和一個六階低通濾波器,前者用作反混疊,后者用作平滑。片中的兩個運算放大器可用作隔離、放大等。每個二階濾波器還可以根據(jù)需要接成高通、帶通和低通等形式。根據(jù)指標(biāo)要求,只需外接四個電阻就可構(gòu)成一個二階濾波器,具體電路不再詳述。2基于多媒體WAV文件的聲卡技術(shù)多媒體技術(shù)近年來發(fā)展很快,

4、較好品質(zhì)的聲卡可以提供16位的立體聲,具備44kHz的播放錄制能力,它不僅可以提供原音逼真的取樣,其合成的音質(zhì)也十分理想,有的聲卡還加入了數(shù)字信號處理器,可編程控制的DSP具有強(qiáng)大的運算能力,它可以用作聲音信息的壓縮和一些特殊效果的處理。具有此功能的聲卡提供的WAV文件所具有的語音信息可以滿足語音特征識別的要求。在Windows環(huán)境下,大部分的多媒體文件都依循一種結(jié)構(gòu)來存放信息,這種結(jié)構(gòu)稱為“資源互換文件格式”(Resources Interchange File Format),簡稱RIFF。例如聲音的WAV文件、視頻的AV1文件等均是由此結(jié)構(gòu)衍生出來的。RIFF可以看作是一種樹狀結(jié)構(gòu),其基

5、本構(gòu)成單位為chunk,猶如樹狀結(jié)構(gòu)中的節(jié)點,每個chunk由“辨別碼”、“數(shù)據(jù)大小”及“數(shù)據(jù)”所組成。辨別碼由4個ASCII碼構(gòu)成,數(shù)據(jù)大小則標(biāo)示出緊跟其后數(shù)據(jù)的長度(單位為Byte),而數(shù)據(jù)大小本身也用掉4個Byte,所以事實上一個chunk的長度為數(shù)據(jù)大小加8。一般而言,chunk本身并不允許內(nèi)部再包含chunk,但有兩種例外,分別為以“RIFF”及“L1ST”為辨別碼的chunk。而針對此兩種chunk,RIFF又從原先的“數(shù)據(jù)”中切出4個Byte,此4個Byte稱為“格式辨別碼”,然而RIFF又規(guī)定文件中僅能有一個以“RIFF”為辨別碼的chunk。凡依循此一結(jié)構(gòu)的文件,我們均稱為R

6、IFF檔。該結(jié)構(gòu)提供了一種系統(tǒng)化的分類,如果和MSDOS文件系統(tǒng)作比較,“RIFF”chunk就好比是一臺硬盤的根目錄,其格式辨別碼便是此硬盤的邏輯代碼(C:或D:),而L1STchunk即為其下的子目錄,其他的chunk則為一般的文件。至于RIFF文件的處理,微軟則提供了相關(guān)的函數(shù)。視窗下的各種多媒體文件格式就如同在磁盤機(jī)下規(guī)定僅能放怎樣的目錄,而在該目錄下即為僅能放何種數(shù)據(jù)。    WAV為WAVEFORM(波形)的縮寫。聲音文件的結(jié)構(gòu)如圖2所示,“RIFF)的格式辨別碼為”WAVE”。整個文件由兩個chunk所組成:辨別碼“fmt”(注意,最后一個是空白字符

7、?。┘啊癲ata”。    在“fmt”的chunk下包含了一個PCMWAVEFORMAT數(shù)據(jù)結(jié)構(gòu),其定義如下:     其意義分別為:wFormatTag:記錄著此聲音的格式代號,例如WAVEFORMAT  PCM,WAVEFORAM  ADPCM等等;    nChannels:記錄聲音的頻道數(shù);    nSamp1esPerSec:記錄每秒取樣數(shù);    nAvgBytesPerSec:記錄每秒的數(shù)據(jù)量; &#

8、160;  nBlockA1ign:記錄區(qū)塊的對齊單位;    wBitsPerSample:記錄每個取樣所需的位元數(shù)。 “data”Chunk包含真正的聲音數(shù)據(jù)。Windows目前僅提供WAVEFORMATPCM一種數(shù)據(jù)格式,所代表的意義是脈派編碼調(diào)變(Pu1se CodeModulation)。針對此格式,Windows定義了在“data”的chunk中數(shù)據(jù)的存放情形,圖3中列出了四種不同頻道數(shù)及取樣所需的位元數(shù)以及位元位置的安排。    第一排表示單聲道8位元,第二排表示雙聲道8位元,第三排表示單聲道16位元,第四排表

9、示雙聲道16位元。8位元代表音量大小由8個位元來表示,16位元則代表音量大小由16個位元來表示。理論上8位元可以表示0255,16位元可表示065536,不過Windows規(guī)定16位元值的范圍為3216832167。還有一點要注意的是,0并不一定代表無聲,而是由中間的數(shù)值來決定其是否有聲,也就是在8位元時為128,16位元時為0才是無聲。所以,若程序設(shè)計時需放入無聲的數(shù)據(jù),就特別要注意聲音格式是16位還是8位元,以放入適當(dāng)?shù)闹怠?#160;   WAV文件中包括了對原始聲音的高速率采樣,并且以WAVE   PCM   FORMAT脈派編碼調(diào)變格式存在,我們可以在VISUALC程序中實現(xiàn),在讀出WAVEHDR文件頭之后,下面就是原始聲音的高速率采樣信息,我們可以在時域內(nèi)采用聲韻分割的方法分離出鼻音聲母,以便于提取它的信號特征。以上兩

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論