說話人語(yǔ)音特征子空間分離及識(shí)別應(yīng)用_第1頁(yè)
說話人語(yǔ)音特征子空間分離及識(shí)別應(yīng)用_第2頁(yè)
說話人語(yǔ)音特征子空間分離及識(shí)別應(yīng)用_第3頁(yè)
說話人語(yǔ)音特征子空間分離及識(shí)別應(yīng)用_第4頁(yè)
全文預(yù)覽已結(jié)束

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、說話人語(yǔ)音特征子空間分離及識(shí)別應(yīng)用摘要:實(shí)現(xiàn)了一種全集成可變帶寬中頻寬帶低通濾波器,討論分析了跨導(dǎo)放大器-電容(OTAC)連續(xù)時(shí)間型濾波器的結(jié)構(gòu)、設(shè)計(jì)和具體實(shí)現(xiàn),使用外部可編程電路對(duì)所設(shè)計(jì)濾波器帶寬進(jìn)行控制,并利用ADS軟件進(jìn)行電路設(shè)計(jì)和仿真驗(yàn)證。仿真結(jié)果表明,該濾波器帶寬的可調(diào)范圍為126 MHz,阻帶抑制率大于35 dB,帶內(nèi)波紋小于05 dB,采用18 V電源,TSMC 018m CMOS工藝庫(kù)仿真,功耗小于21 mW,頻響曲線接近理想狀態(tài)。關(guān)鍵詞:Butte1 引言隨著電話銀行等網(wǎng)絡(luò)電子消費(fèi)的普及,說話人識(shí)別作為一種有效的身份認(rèn)證手段,其技術(shù)特點(diǎn)和優(yōu)越性越來越明顯,在國(guó)防安全、司法和金

2、融等各應(yīng)用領(lǐng)域的價(jià)值越來越顯得重要。目前說話人識(shí)別的主要方法一般通過在語(yǔ)音特征觀察空間建立說話人模型進(jìn)行,如基于VQ的碼本模型識(shí)別方法、基于GMM模型的識(shí)別方法以及其他一些方法,這些方法大都利用了說話人語(yǔ)音特征的統(tǒng)計(jì)特性。但是,說話人識(shí)別應(yīng)用中存在的兩個(gè)主要問題是:(1)由于語(yǔ)音特征的時(shí)變性,模型訓(xùn)練時(shí)期和實(shí)際識(shí)別時(shí)期語(yǔ)音特征發(fā)生變化而導(dǎo)致識(shí)別性能的下降,而目前這些方法只能在一定程度上處理這種變化;(2)實(shí)際應(yīng)用中往往需要能通過較短的語(yǔ)音及時(shí)識(shí)別說話人身份,但目前這些方法一般需要輸入3秒以上的語(yǔ)音才能得到較高的識(shí)別率。 語(yǔ)音信號(hào)中包含語(yǔ)義和說話人個(gè)性這兩大特征,如果能夠較好地將這兩類特征進(jìn)行分

3、離,并依據(jù)個(gè)性特征建立說話人模型,則說話人識(shí)別性能將會(huì)得到提高并大大增強(qiáng)識(shí)別系統(tǒng)的魯棒性,但兩類特征的完全分離非常困難。統(tǒng)計(jì)方法建立的模型不可避免地需要較大的數(shù)據(jù)量進(jìn)行訓(xùn)練和識(shí)別,在短時(shí)測(cè)試語(yǔ)音下識(shí)別性能下降是必然的。如果能夠建立一種非純粹統(tǒng)計(jì)模型或在統(tǒng)計(jì)模型的基礎(chǔ)上結(jié)合結(jié)構(gòu)性模型則可能會(huì)提高短時(shí)測(cè)試語(yǔ)音條件下的識(shí)別性能。 本文依據(jù)主元分析(PCA:Principal Component Analysis)原理和說話人語(yǔ)音特征在觀察空間的分布散度提取主要散度向量構(gòu)造說話人語(yǔ)音特征子空間,將說話人語(yǔ)音特征子空間從觀察空間分離出來。實(shí)驗(yàn)分析了基于特征子空間的說話人識(shí)別性能,結(jié)果證明了這種方法的有效

4、性,特別是在小于3秒的短時(shí)測(cè)試語(yǔ)音情況下識(shí)別性能明顯優(yōu)于VQ和GMM等方法。2 特征子空間分離基于語(yǔ)音特征子空間分離的說話人識(shí)別系統(tǒng)中,說話人模型由特征子空間表示,模式匹配部分則通過計(jì)算輸入測(cè)試語(yǔ)音特征矢量與子空間的距離進(jìn)行。特征子空間根據(jù)說話人訓(xùn)練語(yǔ)音提取的特征矢量在觀察空間的統(tǒng)計(jì)分布特性,依據(jù)PCA原理選取具有較大權(quán)值的散度向量構(gòu)成。 設(shè)一個(gè)說話人訓(xùn)練語(yǔ)音集合為S1,S2,SN,每一個(gè)訓(xùn)練語(yǔ)音樣本經(jīng)過特征提取后形成特征矢量序列,即如果特征矢量具有P個(gè)參數(shù),則特征矢量Vij表示P維觀察空間的一個(gè)點(diǎn),所有的特征矢量在觀察空間形成具有一定統(tǒng)計(jì)分布特性的點(diǎn)集V1,V2,VM,其中M是說話人所有訓(xùn)練

5、語(yǔ)音特征矢量的總數(shù)。描述說話人語(yǔ)音特征矢量在觀察空間分布的一個(gè)主要統(tǒng)計(jì)指標(biāo)是分布散度,它可以由平均特征矢量和自協(xié)方差矩陣表示,如下: 公式(1)中平均特征矢量V反映說話人所有特征矢量在觀察空問的中心點(diǎn)。公式(2)中自協(xié)方差矩陣R是一個(gè)PP正定對(duì)稱矩陣,它反映了說話人特征矢量各參數(shù)的平均偏離值,因此可以衡量特征矢量在觀察空間的分布散度。 求自協(xié)方差矩陣R的本征值1,2,P和相應(yīng)的本征向量e1,e2,eP,則它們之間的關(guān)系如下式(3)(5)所示。其中是由本征向量作為每一列構(gòu)成的PP矩陣,A是由本征值構(gòu)成的對(duì)角矩陣。 因?yàn)楸菊飨蛄縠i,i=1P是從描述說話人語(yǔ)音特征矢量分布散度的自協(xié)方差矩陣計(jì)算得到

6、,所以,從空間的角度看,說話人的語(yǔ)音特征分布完全可以由以平均特征矢量V為中心,本征向量ei,i=lP為正交歸一化基底的子空間描述,如圖1所示。這樣,就從語(yǔ)音特征觀察空問將說話人語(yǔ)音特征子空間分離了出來,不同的說話人具有不同的特征子空間。 雖然計(jì)算得到的本征向量個(gè)數(shù)與觀察空間維數(shù)相同,但有些本征向量對(duì)應(yīng)的本征值較小,在表示語(yǔ)音特征分布散度時(shí)影響較小。因此,實(shí)際應(yīng)用中可以選擇具有較大散度權(quán)值(本征值)的向量構(gòu)成子空間的基向量。圖1顯示了一個(gè)三維觀察空間中分離出的兩個(gè)二維說話人特征子空問例子,這些子空間的基底對(duì)應(yīng)前兩個(gè)較大的散度權(quán)值。第4小節(jié)分析了選取不同散度權(quán)值本征向量構(gòu)成子空間情況下的識(shí)別性能,

7、結(jié)果表明子空間維數(shù)并非越多越好。 說話人語(yǔ)音特征子空間本質(zhì)上是根據(jù)訓(xùn)練語(yǔ)音特征矢量在觀察空間的統(tǒng)計(jì)分布特性分析得到的一種結(jié)構(gòu)性說話人模型,各子空間的基底描述了說話人語(yǔ)音特征分布的框架結(jié)構(gòu)。因此,可以認(rèn)為子空間融合了說話人語(yǔ)音特征的統(tǒng)計(jì)特性和結(jié)構(gòu)特性,可由下式(6)表示:3 子空間距離測(cè)度與模式匹配 系統(tǒng)模式匹配對(duì)輸入測(cè)試語(yǔ)音與各說話人子空間的相關(guān)度進(jìn)行分析,提供說話人身份的判別依據(jù)。設(shè)輸入測(cè)試語(yǔ)音St相應(yīng)的特征矢量序列為則通過計(jì)算該特征矢量序列與說話人特征子空間的距離來分析測(cè)試語(yǔ)音與子空間的相關(guān)度,距離越小,相關(guān)度越大。最終的說話人識(shí)別判決可以依據(jù)最小距離準(zhǔn)則進(jìn)行,即測(cè)試語(yǔ)音說話人所對(duì)應(yīng)的子空

8、間應(yīng)該與測(cè)試語(yǔ)音之間的距離最小,即相關(guān)度最大。 輸入語(yǔ)音特征矢量Vt與子空間的距離測(cè)度采用子空問投影距離計(jì)算,如下式(7)所示。其中Q是子空間的維數(shù),QP。 上式第一項(xiàng)是觀察空間特征矢量Vt與說話人語(yǔ)音特征子空間中心矢量V之差向量Vt一V的平方模;第二項(xiàng)是這個(gè)差向量Vt一V在子空間各維投影的平方和,代表了這個(gè)差向量在子空間上的投影長(zhǎng)度的平方。兩項(xiàng)相減就是輸入測(cè)試語(yǔ)音特征矢量Vt與子空間的距離。 以上距離測(cè)度中采用了訓(xùn)練語(yǔ)音的平均特征矢量V,使觀察空間特征矢量轉(zhuǎn)換為適合子空間處理的差向量形式。實(shí)際應(yīng)用中,說話人語(yǔ)音特征是時(shí)變的,并引起特征矢量統(tǒng)計(jì)分布特性的變化,其表現(xiàn)之一是平均特征矢量隨時(shí)問的漂

9、移。從子空間角度看,這個(gè)平均特征矢量的變化代表了說話人語(yǔ)音特征子空間的一種整體時(shí)變漂移,在計(jì)算子空間距離時(shí)如果不能及時(shí)反映這種變化,將可能引起一定程度的失真,為此,定義第二種距離測(cè)度如下: 前面兩項(xiàng)的含義與第一種測(cè)度d1(Vt,SF)是一致的,但差向量不是根據(jù)訓(xùn)練語(yǔ)音的平均特征矢量V形成,而是由輸入測(cè)試語(yǔ)音的平均特征矢量Vt形成。這樣,不僅使觀察空間特征矢量轉(zhuǎn)換為適合子空間處理的差向量形式,并且使形成差向量的兩個(gè)特征矢量在時(shí)間上一致起來。但是,子空間是根據(jù)訓(xùn)練語(yǔ)音構(gòu)造的,其中心特征矢量是訓(xùn)練語(yǔ)音的平均特征矢量,距離測(cè)度中必須反映這一差異。所以,在第二種距離測(cè)度中增加第三項(xiàng)描述訓(xùn)練語(yǔ)音和測(cè)試語(yǔ)音特征矢量的平均差異,兩者通過加權(quán)系數(shù)c結(jié)合,其中N是測(cè)試語(yǔ)音短時(shí)幀個(gè)數(shù)。因此,這一距離測(cè)度不僅描述了特征矢量與說話人特征子空間的距離,而且描述了測(cè)試語(yǔ)音特征與子空間所表

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論