




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)
文檔簡介
基于PCANN的說話人識別方法研究
摘要本文利用主分量分析神經(jīng)網(wǎng)絡(luò)方法,得到一種新的說話人語音特征。該特征通過對相繼幾幀語音特征參數(shù)組成的特征向量作主分量分析得到.新的特征能有效的引入幀間相關(guān)信息,減小冗余度,削弱噪聲的影響。實驗表明,新特征提高了系統(tǒng)的識別性能。關(guān)鍵詞主分量分析神經(jīng)網(wǎng)絡(luò)(PCANN);特征提?。徽f話人識別;高斯混和模型(GMM)1引言說話人識別是根據(jù)從說話人所發(fā)語音中提取信息判斷說話人身份的過程。語音信號中包含了話音特征和說話人個性特征,說話人識別的關(guān)鍵問題之一是提取反映說話人個性的語音特征參數(shù)。在說話人識別系統(tǒng)中常用的語音特征參數(shù)主要有,LPC倒譜系數(shù)(LPCC)、Mel頻率倒譜系數(shù)、線譜對等。在純凈語音環(huán)境中,系統(tǒng)已經(jīng)達到很好的識別性能,但是在實際應(yīng)用的環(huán)境中,由于背景噪聲的存在,系統(tǒng)往往達不到令人滿意的效果。主分量分析PCA(primarycomponentanalyze)是統(tǒng)計學(xué)中一種根據(jù)數(shù)據(jù)的統(tǒng)計分布特性,提取數(shù)據(jù)主要成分的數(shù)據(jù)處理方法.它是最小均方誤差下的最優(yōu)正交變換,對消除模式間的相關(guān)性、突出模式間差異性有最佳的效果,所以常被用于數(shù)據(jù)的壓縮和模式識別的特征提取.由于它需要對原始數(shù)據(jù)的方差矩陣進行估值并求取其特征值和特征向量,計算量異常巨大,而基于神經(jīng)網(wǎng)絡(luò)的主分量分析算法不必進行矩陣求逆運算,并且神經(jīng)網(wǎng)絡(luò)具有并行運算能力,這將降低PCA計算量,提高PCA的實用性。對語音信號的原始特征作主分量分析后往往能得到更好的特征參數(shù)。本文選用LPC倒譜系數(shù)作為表征聲道的特征參數(shù),采用相繼的幾幀組成的特征參數(shù)矢量作為樣本,對其進行主分量分析,這樣去除了特征中的冗余信息,壓縮特征參數(shù)的維數(shù),得到新的PCA特征參數(shù),然后把PCA特征參數(shù)作為GMM模型的輸入向量,進行說話人識別的訓(xùn)練和識別。本文第二節(jié)介紹主分量分析神經(jīng)網(wǎng)絡(luò)的原理和算法,第三節(jié)介紹高斯混和模型和LPCC特征參數(shù),第四節(jié)給出相應(yīng)的說話人識別系統(tǒng)實驗和結(jié)果,最后是簡要的討論與展望。2主分量神經(jīng)網(wǎng)絡(luò)(PCANN)主分量神經(jīng)網(wǎng)絡(luò)是基于Hebb學(xué)習(xí)規(guī)則的線性無監(jiān)督學(xué)習(xí)神經(jīng)網(wǎng)絡(luò),它可以通過對權(quán)矩陣W的學(xué)習(xí),使W接近于原始數(shù)據(jù)X的關(guān)聯(lián)矩陣C中特征值所對應(yīng)的特征向量,而不必進行矩陣求逆運算,提高了運算速度?;贖ebb學(xué)習(xí)的最大特征濾波器基于Hebb學(xué)習(xí)的主分量分析網(wǎng)絡(luò)圖3:提取前m個主分量的神經(jīng)網(wǎng)絡(luò)解析圖
3識別系統(tǒng)特征參數(shù)以及模型語音的主分量特征參數(shù)本文選用線性預(yù)測倒譜系數(shù)作為語音的原始特征參數(shù)然后對其進行主分量分析。LPCC系數(shù)是一種非常重要的特征參數(shù)。它的主要優(yōu)點是比較徹底地去掉了語音產(chǎn)生過程中的激勵信息,主要反映聲道相應(yīng),而且往往只要十幾個倒譜系數(shù)就能較好地描述語音信號的共振峰特性,因此在識別中取得了較好的效果。在實際計算中,LPCC參數(shù)不是由信號直接得到的,而是由LPC系數(shù)得到的。關(guān)系式這里實際上是直流分量,反映頻譜能量,其值的大小不影響譜形,在識別中通常不用,也不去計算。當LPCC系數(shù)個數(shù)不大于LPC系數(shù)個數(shù)時用第二式,當LPCC系數(shù)個數(shù)大于LPC系數(shù)個數(shù)時,用第三式進行計算。4實驗及結(jié)果分析本文實現(xiàn)了一個在噪聲環(huán)境下與文本無關(guān)的說話人自動識別系統(tǒng)。使用的是一個含20人的語音數(shù)據(jù)庫,包括10名男性和10名女性,每人語音長度約90秒。采樣率為12kHz,采用16bit量化。首先對數(shù)據(jù)進行預(yù)處理,包括端點檢測、預(yù)加重(H(z)=)和加窗。原始特征選為12階的LPCC倒譜參數(shù),主分量特征個數(shù)選12階。高斯模型混合數(shù)M=16。訓(xùn)練音長為40s,測試音為3s。實驗結(jié)果如表(1):表1實驗結(jié)果信噪比方法_GMM2幀_GMM3幀_GMM5幀圖(4)是根據(jù)表(1)中的數(shù)據(jù)畫出的曲線。從表(1)可以看出,與傳統(tǒng)的GMM方法相比,PCANN_GMM方法明顯增強系統(tǒng)抗噪聲能力,改進了識別效果。并且在PCANN_GMM中,幀數(shù)不同對識別也有較小的影響,當幀數(shù)大于5幀時,系統(tǒng)的識別性能不再提高。5總結(jié)本文運用PCANN/GMM方法進行說話人識別,將多幀特征參數(shù)合并為一幀,利用了幀間相關(guān)性,對其進行主分量分析,減少了冗余度,提高了系統(tǒng)的魯棒性。另外,當前的說話人識別研究還主要集中在聲學(xué)特征層次進行,基于人們說話中含有的高級特征所進行的研究雖然很多,下一步的工作將結(jié)合聲學(xué)特征和高級特征,研究它們之間的關(guān)系,從而進一步提高說話人識別系統(tǒng)的性能。參考文獻[1]趙力.語音信號處理北京:機械工業(yè)出版社,2003“ASimplifiedNeuralModelasaPrincipalComponentsAnalyzer”,JournalofMathematicBiology,,,1982SangerTD.“OptimalUnsupervisedLearingInaSingerLayerLinearFeedforwardNeuralNetwork”,NeuralNetworks,pp459-473,1989何振亞顧明亮語音信號的主分量特征應(yīng)用科學(xué)學(xué)報,VOL17,,1999SimonHaykin.神經(jīng)網(wǎng)絡(luò)原理.北京:機械工業(yè)出版社,2004ChanchalChatterjee.andVwani“OnRelativeConvergencePropertiesofPrincipalComponentAnalysisAlgorithms”,IEEETransactionsOnNeuralNetworks,,,March1998Oh-Wook
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 庫板安裝合同范本
- 微信公司合同范本
- 廣州店鋪租賃合同范本
- 2025至2030年中國手磨黑芝麻糊數(shù)據(jù)監(jiān)測研究報告
- 銀行倉庫維修合同范本
- 2025至2030年中國地效翼船數(shù)據(jù)監(jiān)測研究報告
- 導(dǎo)游基礎(chǔ)知識:農(nóng)業(yè)篇教案
- 2025至2030年中國雙叉蝶形路燈數(shù)據(jù)監(jiān)測研究報告
- 2025至2030年中國列頭柜數(shù)據(jù)監(jiān)測研究報告
- 科普知識:動物介紹
- 2025年湖南大眾傳媒職業(yè)技術(shù)學(xué)院單招職業(yè)技能測試題庫學(xué)生專用
- 開學(xué)安全第一課主題班會課件
- 一年級珍惜糧食主題班會學(xué)習(xí)教案
- 新版《醫(yī)療器械經(jīng)營質(zhì)量管理規(guī)范》(2024)培訓(xùn)試題及答案
- 2025年人教版數(shù)學(xué)五年級下冊教學(xué)計劃(含進度表)
- 海岸動力學(xué)英文課件Coastal Hydrodynamics-復(fù)習(xí)
- 碳足跡研究-洞察分析
- DB11-T 1191.3-2024 實驗室危險化學(xué)品安全管理要求 第3部分:科研單位
- 硬質(zhì)巖層組合切割開挖技術(shù)
- 2024解析:第二章聲現(xiàn)象-講核心(解析版)
- 2024年考研管理類綜合能力(199)真題及解析完整版
評論
0/150
提交評論