基于mfcc和lpcc的說話人識別_第1頁
基于mfcc和lpcc的說話人識別_第2頁
基于mfcc和lpcc的說話人識別_第3頁
全文預覽已結(jié)束

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

基于mfcc和lpcc的說話人識別

0基于melfreque實物理的有機人機識說話者識別是指通過分析和處理說話者的聲音信號來提取相應(yīng)的特征,并建立相應(yīng)的模型,以確認說話者的身份。目前,在說話人識別中最常用的特征參數(shù)是基于聲道的LPCC(linearpredictioncepstrumcoefficient)和基于聽覺特性的MFCC(melfrequencycepstralcoefficients)參數(shù)。說話人識別的方法可以分為3類:模版匹配法、概率模型法、人工神經(jīng)網(wǎng)絡(luò)法。在說話人識別中,最終要做出的分類數(shù)目往往不大,而神經(jīng)網(wǎng)絡(luò)已被證實了對類別數(shù)目小但分類困難的模式識別問題有很好的效果,實驗將提取LPCC參數(shù)和MFCC參數(shù)并通過三層BP神經(jīng)網(wǎng)絡(luò)建立說話人識別系統(tǒng)來驗證兩種參數(shù)的魯棒性和優(yōu)劣性。1回復時間模型在提取特征參數(shù)之前,所采集的信號必須經(jīng)過預處理,一般包括預加重、加窗、分幀,為減少計算量提高計算精度,在預處理后進行端點檢測即利用短時平均能量和過零率的雙門限判決法得到有效語音段的起始端點和結(jié)束端點的幀數(shù)。1.1要=計1算通過線性預測(LPC)分析得到的聲道模型的系統(tǒng)函數(shù)為設(shè)其沖激響應(yīng)為,此處要=計1算的就是其倒譜<。根據(jù)倒譜的定義,有將式(1)代入式(2),并將其兩邊關(guān)于z求導,即有因而有得到<和之間的遞推關(guān)系,從而由求出<按式(5)可直接從預測系數(shù){}求得倒譜<,令=<即得到了本文的倒譜特征的統(tǒng)一式。1.2帶通濾波器頻率輸入語音信號經(jīng)離散傅立葉變換(DFT)后得到線性頻譜X(k),轉(zhuǎn)換公式為式中:——傅立葉變換的點數(shù)。定義若干個帶通濾波器,0≤≤,為濾波器個數(shù),采用的濾波器為三角濾波器,其中心頻率為,每個帶通濾波器的頻率響應(yīng)為頻率響應(yīng)波形如圖1所示。Mel濾波器的中心頻率定義為每個濾波器組的輸出的對數(shù)能量為經(jīng)離散余弦變換(DCT)得到MFCC系數(shù)2提取差分特征參數(shù)這里表示第個一階差分倒譜系數(shù),為倒譜系數(shù)的維數(shù),表示一階倒數(shù)的時間差,其值取1或2,1≤≤,表示第個倒譜系數(shù)。3實驗3.1特征變量的聚類分析一般5s的語音經(jīng)端點檢測后得到1000幀,如果取C1~C12共12階的MFCC參數(shù)或者LPCC參數(shù),得到的語音特征為1000×12的矩陣。如果將這么多數(shù)據(jù)直接送入神經(jīng)網(wǎng)絡(luò)訓練計算量會非常大,因此還需要通過k均值聚類算法對特征參數(shù)做進一步處理:將相同聚類和相同狀態(tài)的向量組合到K個向量中。MFCC參數(shù)和LPCC參數(shù)均值聚類圖如圖4、圖5所示,從圖中可以看出語音特征數(shù)據(jù)劃分成4(k取4)類,無論是MFCC參數(shù)還是LPCC參數(shù)都可以用均值聚類得到一組4×12的數(shù)據(jù),這樣再送入神經(jīng)網(wǎng)絡(luò)就合適多了。同時看出MFCC均值聚類圖變化差異大于LPCC均值聚類圖,容易將不同狀態(tài)的參數(shù)分成不同的類,有利于識別結(jié)果。3.2特征參數(shù)的訓練過程?本實驗是采用三層BP神經(jīng)網(wǎng)絡(luò)的說話人識別系統(tǒng)。采集的語音樣本是蘋果、香蕉、桃子、西瓜、橘子、水蜜桃等9種水果名稱。采集的語音樣本來自3男2女,每個說話人對每種水果發(fā)音30次,共采集的語音樣本為5×30×9個,分別以LPCC、MFCC、LPCC+LPCC、MFCC+MFCC、L+L+L、M+M+M結(jié)構(gòu)形式的特征參數(shù)作為神經(jīng)網(wǎng)絡(luò)的輸入,5個網(wǎng)絡(luò)輸出對應(yīng)5個說話人,訓練要求的精度為0.0001,學習率為0.01,MFCC參數(shù)和LPCC參數(shù)訓練過程如圖6、圖7所示。從圖中可知在相同的訓練條件下,MFCC參數(shù)訓練速度比LPCC參數(shù)訓練速度快,能較快達到所需誤差精度。其實驗統(tǒng)計結(jié)果如表1所示。測試1表示識別正確次數(shù)與待識別總數(shù)之比,實時測試2和實時測試3分別表示識別樣本經(jīng)過訓練和未經(jīng)過訓練的識別結(jié)果。按文獻中提出DTW算法進行識別,采用特征參數(shù)MFCC+MFCC在實時測試2中只得到22.2%的識別率,文獻將其原因解釋為只考慮一種特征參數(shù)及其差分參數(shù)引起的現(xiàn)象,其原因顯然是文獻中講到該算法運算量大,主要針對孤立詞和小詞匯語音識別等不足。文章提出的方法就用均值算法減少識別參數(shù)運算量及用神經(jīng)網(wǎng)絡(luò)適應(yīng)和調(diào)節(jié)能力提高識別率。從表中的結(jié)果可知LPCC參數(shù)的魯棒性比LPCC參數(shù)的魯棒性差,另外增加一階、二階差分參數(shù)能更好地提高識別性能。4實驗結(jié)果及分析文中詳細介紹了反映語音倒譜特征的LPCC參數(shù)和MFCC參數(shù)的提取算法,提出了一階、二階差分參數(shù)的提取方法,將這些參數(shù)進行組合并通過k均值算法與三層BP神經(jīng)網(wǎng)絡(luò)來進行說話人識別的實驗。通過實時實驗表明該方法能對說話人識別起到很好的效果,

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論