基于BP神經(jīng)網(wǎng)絡(luò)的語音識別技術(shù)課件_第1頁
基于BP神經(jīng)網(wǎng)絡(luò)的語音識別技術(shù)課件_第2頁
基于BP神經(jīng)網(wǎng)絡(luò)的語音識別技術(shù)課件_第3頁
基于BP神經(jīng)網(wǎng)絡(luò)的語音識別技術(shù)課件_第4頁
基于BP神經(jīng)網(wǎng)絡(luò)的語音識別技術(shù)課件_第5頁
已閱讀5頁,還剩14頁未讀 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

基于BP神經(jīng)網(wǎng)絡(luò)的語音識別技術(shù)匯報人:基于BP神經(jīng)網(wǎng)絡(luò)的語音識別技術(shù)匯報人:1目錄一.語音識別概述二.語音識別流程三.語音信號預(yù)處理四.語音識別特征提取五.BP神經(jīng)網(wǎng)絡(luò)原理六.語音識別程序設(shè)計目錄一.語音識別概述2一.語音識別概述

語音識別以語音為研究對象,涉及到生理學、心理學、語言學、計算機科學,以及信號處理等諸多領(lǐng)域,最終目的是實現(xiàn)人與機器進行自然語言通信,用語言操縱計算機。一.語音識別概述

語音識別以語音為研究對象,涉及到生理學、心3

語音識別系統(tǒng)可以分為孤立字(詞)語音識別系統(tǒng)、連接字語音識別系統(tǒng)以及連續(xù)語音識別系統(tǒng)。語音識別系統(tǒng)分為兩個方向:一是根據(jù)對說話人的依賴程度可以分為特定人和非特定人語音識別系統(tǒng);二是根據(jù)詞匯量大小,可以分為小詞匯量、中等詞匯量、大詞匯量,以及無限詞匯量語音識別系統(tǒng)。

語音識別系統(tǒng)可以分為孤立字(詞)語音識別系統(tǒng)、連接字語音識4二.語音識別流程從圖的系統(tǒng)整體架構(gòu)可以看到,建立基于BP神經(jīng)網(wǎng)絡(luò)的語音識別系統(tǒng)可分為兩個階段,即訓練階段和識別階段。首先由用戶通過麥克風輸入語音形成原始語音,然后系統(tǒng)對其進行預(yù)處理。預(yù)處理包括預(yù)加重,加窗分幀和端點檢測三個過程。系統(tǒng)的前端采用了端點檢測,目的是在一段語音信號中確定起點和終點。在特征提取部分,本系統(tǒng)采用了MFCC作為特征參數(shù),用于有效地區(qū)分數(shù)字1-5.二.語音識別流程從圖的系統(tǒng)整體架構(gòu)可以看到5三.語音信號預(yù)處理1.預(yù)加重語音從嘴唇輻射會有6dB/oct的衰減,因此在對語音信號進行處理之前,希望能按6dB/oct的比例對信號加以提升(或加重),以使得輸出信號的電平相近似??刹捎靡韵虏罘址匠潭x的數(shù)字濾波器:式中,系數(shù)常在0.9至1之間選取。三.語音信號預(yù)處理1.預(yù)加重語音從嘴唇輻射會有6dB/oct62.語音信號的分幀語音信號是一種典型的非平穩(wěn)信號,它的均值函數(shù)u(x)和自相關(guān)函數(shù)R(xl,x2)都隨時間而發(fā)生較大的變化。但研究發(fā)現(xiàn),語音信號在短時間內(nèi)頻譜特性保持平穩(wěn),即具有短時平穩(wěn)特性。因此,在實際處理時可以將語音信號分成很小的時間段(約10~30ms),稱之為“幀”。在語音信號數(shù)字處理中常用的窗函數(shù)是矩形窗、漢明窗等,它們的表達式如下(其中N為幀長):矩形窗:漢明窗:2.語音信號的分幀73.端點檢測基于短時能量和短時過零率的雙門限檢測法在該算法中,短時能量檢測可以較好地區(qū)分出濁音和靜音。對于清音,由于其能量較小,在短時能量檢測中會因為低于能量門限而被誤判為靜音,短時過零率則可以從語音中區(qū)分出靜音和清音。將兩種檢測結(jié)合起來,就可以檢測出語音段及靜音段。3.端點檢測基于短時能量和短時過零率的雙門限檢測法在該算法中8下圖是我本科課程設(shè)計中一個關(guān)于端點檢測的程序GUI界面,其中語音是教材中的示例語音“他去無錫市”,我通過cooledit在示例語音中加入了白噪音,可以看出清音段混雜在噪音中,如果短時能量的門限值選取過高可能會屏蔽掉清音段,所以加入過零率能更好的識別出清音段。下圖是我本科課程設(shè)計中一個關(guān)于端點檢測的程序9由此圖可以看出門限值選取的合不合理很大程度上影響到端點識別的效果由此圖可以看出門限值選取的合不合理很大程度上影響到端點識別的10四.語音識別特征提取特征提?。杭磳Σ煌恼Z音尋找其內(nèi)在特征,由此來判別出未知語音,所以每個語音識別系統(tǒng)都必須進行特征提取。語音信號的特征主要有時域和頻域兩種。

時域特征:短時平均能量、短時平均過零率、共振峰、基音周期等;

頻域特征:線性預(yù)測系數(shù)(LPC)、LP倒譜系數(shù)(LPCC)、

Mel頻率倒譜系數(shù)(MFCC)等。

本實驗選取MEL頻率倒譜系數(shù)(MFCC)進行提取特征參數(shù)。

通過閱讀文獻了解到基于DTW算法和MFCC就已經(jīng)可以做到語音的識別了,但是泛化性比較差,中間測試過一個相關(guān)的程序只能識別特定的語音片段,更換說話人后識別效果很差。四.語音識別特征提取特征提取:即對不同的語音尋找其內(nèi)在特征,11五.BP神經(jīng)網(wǎng)絡(luò)原理BP神經(jīng)網(wǎng)絡(luò)又稱誤差反向傳遞神經(jīng)網(wǎng)絡(luò)。提取了語音的特征參數(shù)后,靠神經(jīng)網(wǎng)絡(luò)中大量的連接權(quán)對輸入模式進行非線性運算,產(chǎn)生最大興奮的輸入點就代表了輸入模式對應(yīng)的分類。神經(jīng)網(wǎng)絡(luò)的連接權(quán)系數(shù)是在使用中根據(jù)識別結(jié)果的正確與否不斷的進行自適應(yīng)修正。單隱層網(wǎng)絡(luò)的整個體系結(jié)構(gòu)如圖所示,分為輸入層、隱藏層和輸出層,其中隱藏層根據(jù)具體情況的需要,可以是一層結(jié)構(gòu)也可為多層結(jié)構(gòu)。五.BP神經(jīng)網(wǎng)絡(luò)原理BP神經(jīng)網(wǎng)絡(luò)又稱誤差反12六.語音識別程序設(shè)計數(shù)字的語音識別實驗?zāi)康模鹤R別135三個數(shù)字(選擇135是因為135三個數(shù)字的識別率最高)訓練樣本:每個數(shù)字選取5個樣本進行訓練(均為同一個人的樣本)測試樣本:每個數(shù)字選取3個樣本進行識別測試(均為同一個人的樣本)T1=[100]‘%代表1T3=[010]‘%代表3T5=[001]‘%代表5六.語音識別程序設(shè)計數(shù)字的語音識別13文件內(nèi)容備注./pic該文件夾中保存有實驗效果分析結(jié)果的圖片./S該文件夾中為所有的訓練樣本夾內(nèi)各個文件夾的名字代表其內(nèi)音頻的內(nèi)容,例如名字為1的文件夾中所有的音頻內(nèi)容均為1的發(fā)音./T該文件夾中為所有的測試樣本夾內(nèi)格式同上./enframe.m該函數(shù)將輸入向量分為固定長度固定重疊量的幀Matlab語音工具箱組件./melbankm該函數(shù)為Mel濾波器Matlab語音工具箱組件./mfcc.m該函數(shù)求出輸入數(shù)據(jù)的mfcc系數(shù)12維mfcc系數(shù)./MfccProcess.m將多組mfcc系數(shù)取平均對mfcc系數(shù)的預(yù)處理./SampleCreate.m將取所有音頻的mfcc系數(shù)處理成神經(jīng)網(wǎng)絡(luò)函數(shù)所需的輸入格式./Main.c主程序函數(shù),在這里設(shè)置參數(shù),控制運行下表格為所用到的matlab程序及其功能:文件內(nèi)容備注./pic該文件夾中保存有實驗效果分析結(jié)果的圖14netBP=newff(PR,[30,10,3],{'tansig','tansig','tansig'},'trainbfg');%使用TRAINSIG,即共軛梯度法,其好處是當訓練不收斂時,它會自動停止訓練,而且耗時較其他算法(TRAINLM,TRAINGD)少,也就是收斂很快netBP.trainParam.epochs=100;%設(shè)置訓練步數(shù)

[nettr]=train(netBP,PS,T);%網(wǎng)絡(luò)訓練

神經(jīng)網(wǎng)絡(luò)訓練:Y=sim(net,Test)%輸入測試語音參數(shù)進行識別神經(jīng)網(wǎng)絡(luò)測試:神經(jīng)網(wǎng)絡(luò)相關(guān)的部分程序:n

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論