版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)
文檔簡介
數(shù)字信號處理(DSP)綜合設(shè)計性實驗報告北京交通大學(xué)電工電子教學(xué)基地
目錄一、實驗?zāi)康?②抑制50Hz的電源工頻干擾。這樣,預(yù)濾波器必須是一個帶通濾波器,設(shè)其上、下截止顏率分別是fH和fL,則對于絕大多數(shù)語音編譯碼器,fH=3400Hz、fL=60~100Hz、采樣率為fs=8kHz;而對于語音識別而言,當用于電話用戶時,指標與語音編譯碼器相同。當使用要求較高或很高的場合時fH=4500Hz或8000Hz、fL=60Hz、fs=10kHz或20kHz。(3)端點檢測端點檢測是從含噪聲的環(huán)境中檢測出說話人語音信號的起點和終點。系統(tǒng)采用短時能量和過零率來實現(xiàn),前者描述了信號的能量,后者描述了1幀信號穿越0電平的次數(shù)。語音信號是非平穩(wěn)的,是時變的,但由于人的發(fā)音器官的運動速度緩慢,所以可以認為語音信號是局部平穩(wěn)的,或短時平穩(wěn)的。因此,語音信號分析常通過分段或分幀來進行。語音短時能量與短時平均過零率為端點檢測的兩種常用方法。根據(jù)語音的統(tǒng)計特性,可以把語音段分為清音、濁音以及靜音(包括背景噪聲)三種。在本算法中,短時能量檢測可以較好地區(qū)分出濁音和靜音。對于清音,由于其能量較小,在短時能量檢測中會因為低于能量門限而被誤判為靜音;短時過零率則可以從語音中區(qū)分出靜音和清音。將兩種檢測結(jié)合起來,就可以檢測出語音段(清音和濁音)及靜音段。(4)提取特征參數(shù)在語音識別和說話人識別中,常用的語音特征是基于Mel頻率的倒譜系數(shù)(melfrequencycepstrumcoefficient,MFCC).由于MFCC參數(shù)是將人耳的聽覺感知特征和語音的產(chǎn)生機制相結(jié)合,因此目前大多數(shù)語音識別系統(tǒng)中廣泛使用這種特征。人的耳朵具有一些特殊的功能,這些功能使得人耳能夠從嘈雜的背景噪聲中,以及各種變異情況下聽到語音信號,這是因為人的內(nèi)耳基礎(chǔ)膜對外來信號會產(chǎn)生調(diào)節(jié)作用。對不同的頻率,在相應(yīng)的臨界帶寬內(nèi)的信號會引起基礎(chǔ)膜上不同位置的振動。由此可用帶通濾波器組來模仿人耳聽覺,從而減少噪聲對語音的影響。耳蝸實質(zhì)上相當于一個濾波器組,耳蝸的濾波作用是在對數(shù)頻率尺度上進行的,在1000Hz以下為線性尺度,而1000Hz以上為對數(shù)尺度,這就使得人耳對低頻信號比對高頻信號更敏感。根據(jù)這一原則,研究者根據(jù)心理學(xué)實驗得到了類似于耳蝸作用的一組濾波器組,就是Mel頻率濾波器組。對頻率軸的不均勻劃分是MFCC特征的特點。(5)語音識別的方法動態(tài)時間規(guī)整DTW算法是一種運用動態(tài)規(guī)劃原理計算時間矢量相似度的方法,在語音識別等領(lǐng)域有著廣泛的應(yīng)用。窗口法是針DTW對算法的特點,采用了動態(tài)高效的空間管理辦法,解決了通常的DTW算法需要存儲一個較大的矩陣,因而在存儲空間有限的硬件系統(tǒng)中難以實現(xiàn)的問題,窗口法已經(jīng)在實際系統(tǒng)中得到了應(yīng)用。2、算法實現(xiàn)(1)端點檢測算法算法流程:對輸入信號先進行高通濾波,減弱以噪聲為主的信號能量。接著進行分幀處理,然后計算各幀的平均能量和平均過零率。根據(jù)各幀的平均能量和平均過零率以及最大過零率,最小過零率,最大能量和最小能量,得出低過零率值,高過零率值,低能量值,高能量值,從而將整個采集的信號分為靜音段,過渡段,語音段,結(jié)束段共四段,從而達到達到端點檢測的目的。(2)MFCC算法設(shè)某語音信號為x(n),則算法處理流程為eq\o\ac(○,1)預(yù)加重,其中k為預(yù)加重系數(shù),一般取0.95;eq\o\ac(○,2)加窗(hamming窗),幀長為N;eq\o\ac(○,3)DFT變換;eq\o\ac(○,4)設(shè)計一個具有M個帶通濾波器的濾波器組,采用三角濾波器,中心頻率從0~F/2間按Mel頻率分布;eq\o\ac(○,5)按式(2-1)計算每個濾波器組輸出的對數(shù)能量;(2-1)eq\o\ac(○,6)按式(2-2)求得MFCC系數(shù)。(2-2)(3)DTW算法假設(shè)測試和參考模板分別用T和R表示,為了比較它們之間的相似度,可以計算它們之間的距離
D[T,R],距離越小則相似度越高。為了計算這一失真距離,應(yīng)從T和R中各個對應(yīng)幀之間的距離算起。設(shè)n和m分別是T和R中任意選擇的幀號,d[T(n),R(m)]表示這兩幀特征矢量之間的距離。距離函數(shù)取決于實際采用的距離度量,在DTW算法中通常采用歐氏距離。如果把測試模板的各個幀號n=1~N在一個二維直角坐標系中的橫軸上標出,把參考模板的各幀號m=1~M在縱軸上標出,通過這些表示幀號的整數(shù)坐標畫出一些縱橫線即可形成一個網(wǎng)絡(luò),網(wǎng)絡(luò)中的每一個交叉點(n,m)表示測試模式中某一幀的交匯點。DP算法可以歸結(jié)為尋找一條通過此網(wǎng)絡(luò)中若干格點的路徑,路徑通過的格點即為測試和參考模板中進行計算的幀號。參考模板3、方案流程設(shè)計參考模板閾值設(shè)置,判斷是否開啟預(yù)處理預(yù)加重閾值設(shè)置,判斷是否開啟預(yù)處理預(yù)加重加漢明窗端點檢測提取特征參數(shù)獲取語音數(shù)據(jù)DTW算法獲取語音數(shù)據(jù)DTW算法測試測試模板四、軟件仿真驗證1、MATLAB仿真代碼見附錄MATLAB(1)端點檢測仿真圖如圖4-1-1,圖4-1-1說明:語音信號為“開門”,時間為2s,采樣頻率為8Khz/s(2)MFCC仿真a.24階Mel濾波器組仿真圖如圖4-1-2,圖4-1-2
b.功率譜如圖4-1-3,圖4-1-3(3)DTW檢測正在計算參考模板的參數(shù)...正在計算測試模板的參數(shù)...正在進行模板匹配...正在計算匹配結(jié)果...測試模板0.wav的識別結(jié)果為:0歐氏距離=1.574830e+04測試模板1.wav的識別結(jié)果為:0歐氏距離=1.544861e+04測試模板2.wav的識別結(jié)果為:0歐氏距離=1.680318e+04測試模板3.wav的識別結(jié)果為:0歐氏距離=1.592201e+04測試模板4.wav的識別結(jié)果為:0歐氏距離=1.489193e+04測試模板5.wav的識別結(jié)果為:0歐氏距離=1.770742e+04測試模板6.wav的識別結(jié)果為:0歐氏距離=1.582468e+04測試模板7.wav的識別結(jié)果為:0歐氏距離=1.409963e+04測試模板8.wav的識別結(jié)果為:0歐氏距離=1.856497e+04測試模板9.wav的識別結(jié)果為:0歐氏距離=1.282401e+04說明:參考模板1個,測試模板10個,均為同一人所說的“開門”,經(jīng)以上而知,閾值(歐氏距離)=2.0e+04,即可。(4)數(shù)據(jù)測試驗證鑰匙界面圖如圖4-1-4,4-1-5,4-1-6,4-1-7,4-1-8圖4-1-4圖4-1-5圖4-1-6圖4-1-7圖4-1-82、DSP5502仿真代碼見附錄CCS-C(1)仿真設(shè)計圖如圖4-2-1CODECCODEC語音輸入測試模板參考模版測試模板參考模版端點檢測端點檢測檢測到起始點和終止點,停止采集檢測到起始點和終止點,停止采集分幀,重疊1/4分幀,重疊1/4加漢明窗加漢明窗提取MFCC特征參數(shù)(FFT-加三角濾波器提取MFCC特征參數(shù)(FFT-加三角濾波器—去自然對數(shù)-DCT)DTW測距DTW測距比較與閾值的大小比較與閾值的大小請進不是本人請進不是本人圖4-2-1(2)測試圖如圖4-2-2,4-2-3,4-4-4,4-2-5eq\o\ac(○,1)編譯結(jié)果圖4-2-2
eq\o\ac(○,2)下載程序圖4-2-3eq\o\ac(○,3)測試結(jié)果圖4-2-4五、實驗結(jié)果總結(jié)1、MATLAB在做MATLAB仿真的過程中,(1)對于語音的錄取,采樣率一定要大于聲音最高頻率的2倍因為后邊采用的DTW算法適合用于孤立的詞語,所以采集的語音信號為1或2個字,采集時間為1或2s。播放采用相同的頻率,語音信號便可很好的還原。(2)對于端點的檢測,首先對語音信號進行低通濾波器,濾除高頻噪音,對其進行分幀加窗處理,然后將過零率和平均能量一起用,根據(jù)這兩個參數(shù)設(shè)定不同的閾值,從而將語音段從整個采集的信號中提取出來。通過觀察圖像,提取的效果很好(3)對于MFCC特征提取,MEL濾波器設(shè)計可以直接調(diào)用函數(shù),所以較為方便,設(shè)為24階,能達到很好的提取特征參數(shù)。(4)用DTW算法參考模版和測試模板之間的歐氏距離時,可以采用多個測試模板和多個參考模板來進行比對,從而來驗證程序的正確性。(5)對于閾值,閾值的選擇很關(guān)鍵,直接關(guān)系到語音鑰匙能否很好的使用,需要用DTW來測試多個測試模板和一個參考模板之間的歐氏距離,從而選取合適的閾值。最終選擇的閾值為2.0*10^4,因為MATLAB使用的MFCC中濾波器階數(shù)較高,特征參數(shù)很好,所以不同的語音歐式距離會有明顯的差異,閾值設(shè)定后很好的達到了語音識別的功能。對于男女生辨別比較明顯,對于不同語音的內(nèi)容識別也比較明顯,對于男生之間的比較不是很明顯,主要和語音的頻率有關(guān)。2、DSP在做DSP仿真時,(1)采用CODEC和MCBSP對語音進行采集,采樣頻率初始化為8Khz(2)端點檢測時,首先提取參考過零率和參考平均能量,對單一幀進行處理但交疊分幀,三幀的總過零率和總能量為參考過零率和參考平均能量,然后進行端點的檢測,作為起始點和結(jié)束點的判別閾值。從而減少偶然誤差帶來的影響。(3)DSP使用MFCC時,無法直接調(diào)用濾波器組,需要從MATALB中導(dǎo)出濾波器的參數(shù),只采用了5階的濾波器,一幀幀的通過FFT,濾波器組,取自然對數(shù),進行DCT變換,再加各幀的參數(shù)放到矩陣數(shù)組中。(5)DTW測距,因為MEL濾波器只有5階,所以為了減小誤差,采用多個訓(xùn)練模板,測試模板與多個訓(xùn)練模板同時進行歐式距離的計算,設(shè)置得閾值只要大于其中一部分的歐式距離即可,從而減小誤差帶來的影響。最終的實驗結(jié)果能達到80%的成功率,其中受周圍環(huán)境的影響較大,仿真結(jié)果并不是很滿意。
六、過程個人體會趙碩:在整個課程設(shè)計的過程中,自己首先進行資料的搜取,搜取了大量的資料,將其中有關(guān)的知識及其算法,程序進行整理,從而慢慢對整個語音鑰匙的原理有了個大體的了解,有了設(shè)置語音鑰匙的整個方案。進一步將整體方案分為四個模塊,語音的獲取,端點檢測,特征參數(shù)提取,語音匹配四個環(huán)節(jié),之后一個個模塊的來選取使用的算法和程序,語音的獲取和端點檢測方面較為簡單些,最為麻煩和重要的是語音信號特征參數(shù)的提取,因為特征參數(shù)提取的好壞直接關(guān)系到語音匹配結(jié)果的好壞,提取方法有時域也有頻域,因MFCC參數(shù)是將人耳的聽覺感知特征和語音的產(chǎn)生機制相結(jié)合,能夠夠好的模擬,因此選用MFCC算法,但設(shè)計MEL濾波器時,DSP仿真受到很大的影響,算法較為麻煩,只能利用網(wǎng)上已有的程序,所以自己在DSP仿真中MFCC程序沒有很懂,所以進行修改的很少,比較被動,而且只用了5階,仿真結(jié)果就遠遠不如MATLAB。本次課程設(shè)計自己感覺自己沒有做好,因為MATLAB語言和C語言都掌握的不是很好,雖然很早就明白了原理,但是程序的實現(xiàn)方面進行的很慢,而且處理的問題的能力也較差,導(dǎo)致整體的進程和最后仿真的效果沒有達到自己的預(yù)期,只能停留在學(xué)習(xí)別人的階段,對于創(chuàng)新感覺少之又少。通過本次課程設(shè)計,自己對MATLAB和C語言有了一些提升,對于調(diào)試程序也有了些進步,也學(xué)習(xí)到了有關(guān)語音信號的許多知識,收獲還是很多,希望在以后的設(shè)計過程中能夠更好的學(xué)會處理問題,激發(fā)創(chuàng)新,謝達川:經(jīng)過這一次的實驗,個人體會是題目雖然很難,但是在成功的那一刻,感覺很滿足。本實驗之初,我們對實驗一籌莫展,完全沒有頭緒,在最開始的時候結(jié)合實驗說明我們對整個實驗的程序結(jié)構(gòu)做了很多的假設(shè),但經(jīng)過討論每次都發(fā)現(xiàn)我們的想法存在各種各樣的缺陷的缺陷,于是我們開始查閱相關(guān)資料,最終對實驗的整個流程有了一個清楚的認知,然后才做出了正確的實驗構(gòu)思。在完成構(gòu)思后,我們首先進行了MATLAB的仿真驗證,在驗證的過程中我們也遇到了許多的問題,比如閾值的設(shè)定,關(guān)于這個問題我們試驗了好多次最終才得到了一個合適的閾值。仿真完畢,我們便開始了在試驗箱上的程序,幾經(jīng)努力我們還是把最初的模板編寫了出來,在程序在試驗箱上運行的時候常常會出現(xiàn)莫名其妙的錯誤,而我們只能根據(jù)錯誤去不斷地修改,不斷地完善,最后在大家的合作之下,我們的程序圓滿的完成,完成在試驗箱的正常運行。通過這次試驗,我明白了團隊合作的重要性。希望以后能有更多實驗的機會,讓自己成長。
七、參考文獻高海林,錢滿義.DSP技術(shù)及其應(yīng)用【M】.北京:北京交通大學(xué)出版社,清華大學(xué)出版社,2009.胡航.語音信號處理【M】.哈爾濱:哈爾濱工業(yè)大學(xué)出版社.2005蔡蓮紅,黃德智,蔡銳.現(xiàn)代語音技術(shù)基礎(chǔ)與應(yīng)用【M】.北京:清華大學(xué)出版社,2003.張雄偉,陳亮,楊吉斌.現(xiàn)代語音處理技術(shù)及應(yīng)用【M】北京:機械工業(yè)出版社.2003.武文娟,顧宏斌,潘秀林.基于臨界帶特征矢量距離的端點檢測算法【J】.計算機科學(xué),2009,36(2):220-221,237.何翔,劉大健.孤立詞語音識別系統(tǒng)的DSP實現(xiàn)【J】.杭州:自動化技術(shù), 2008:118-120,123.付中華,趙榮椿.用窗口法在小存儲器中實現(xiàn)DTW算法【J】西安:西北工業(yè)大學(xué)學(xué)報.2002:20(4):540-543.陳斌,郭大勇,施克仁.基于DSPMCBSP的語音實時采集和噪聲環(huán)境下的端點檢測【J】.北京:測控技術(shù),2004,23:212-214【9】閆文娟,張雪英.基于TMS320C5409的語音識別系統(tǒng)【J】.太原:太原理工 大學(xué)學(xué)報,2007,38(6):524—527【10】程刊忠,張憲民.基于語音識別的說話人身份辨識系【J】.上海變通大學(xué)學(xué)報,1998,32(9):86-89【11】楊傻,樊昌信.聽覺模型及其應(yīng)用【J】.電子科學(xué)學(xué)
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025編輯部工作計劃
- 六年級語文教學(xué)計劃進度
- 小班學(xué)期工作計劃范文匯編
- 2025年小班保育員工作計劃 幼兒園小班保育員計劃
- 幼兒園2025年度小班安全計劃
- 2025-2025政教處學(xué)期工作計劃
- 行政助理下半年工作計劃
- 個人提升計劃范文
- 《基礎(chǔ)攝影》課件
- 2025年臨夏貨運從業(yè)資格考試題
- 西安交通大學(xué)《臨床流行病學(xué)》2023-2024學(xué)年第一學(xué)期期末試卷
- 2024年中考語文試題分類匯編:基礎(chǔ)知識綜合(教師版)
- 廣告色彩與視覺傳達考核試卷
- 2024-2025學(xué)年人教版高一上冊物理必修一知識清單
- GB/T 36547-2024電化學(xué)儲能電站接入電網(wǎng)技術(shù)規(guī)定
- 品牌合作經(jīng)營合同
- 期末測試卷(一)2024-2025學(xué)年 人教版PEP英語五年級上冊(含答案含聽力原文無聽力音頻)
- 學(xué)校食堂安全工作匯報
- 2023-2024學(xué)年廣東省深圳市南山區(qū)八年級(上)期末英語試卷
- 中醫(yī)跨文化傳播智慧樹知到期末考試答案章節(jié)答案2024年浙江中醫(yī)藥大學(xué)
評論
0/150
提交評論