語(yǔ)音信號(hào)處理第10章_第1頁(yè)
語(yǔ)音信號(hào)處理第10章_第2頁(yè)
語(yǔ)音信號(hào)處理第10章_第3頁(yè)
語(yǔ)音信號(hào)處理第10章_第4頁(yè)
語(yǔ)音信號(hào)處理第10章_第5頁(yè)
已閱讀5頁(yè),還剩30頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶(hù)提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、10.110.1概述概述 10.210.2說(shuō)話(huà)人識(shí)別方法和系統(tǒng)結(jié)構(gòu)說(shuō)話(huà)人識(shí)別方法和系統(tǒng)結(jié)構(gòu) 10.310.3應(yīng)用應(yīng)用DTWDTW的說(shuō)話(huà)人確認(rèn)系統(tǒng)的說(shuō)話(huà)人確認(rèn)系統(tǒng) 10.410.4應(yīng)用應(yīng)用VQVQ的說(shuō)話(huà)人識(shí)別系統(tǒng)的說(shuō)話(huà)人識(shí)別系統(tǒng) 10.510.5應(yīng)用應(yīng)用HMMHMM的說(shuō)話(huà)人識(shí)別系統(tǒng)的說(shuō)話(huà)人識(shí)別系統(tǒng) 10.610.6應(yīng)用應(yīng)用GMMGMM的說(shuō)話(huà)人識(shí)別系統(tǒng)的說(shuō)話(huà)人識(shí)別系統(tǒng) 10.710.7說(shuō)話(huà)人識(shí)別尚需探索的問(wèn)題及應(yīng)用說(shuō)話(huà)人識(shí)別尚需探索的問(wèn)題及應(yīng)用 10.810.8語(yǔ)種辨別的原理和應(yīng)用語(yǔ)種辨別的原理和應(yīng)用 10.1 10.1 概述概述 v自動(dòng)說(shuō)話(huà)人識(shí)別(自動(dòng)說(shuō)話(huà)人識(shí)別(Automatic Speake

2、r Recognition Automatic Speaker Recognition 簡(jiǎn)稱(chēng)簡(jiǎn)稱(chēng) ASRASR),又稱(chēng)為話(huà)者識(shí)別或聲紋識(shí)別,),又稱(chēng)為話(huà)者識(shí)別或聲紋識(shí)別,是一種自動(dòng)識(shí)別說(shuō)話(huà)是一種自動(dòng)識(shí)別說(shuō)話(huà) 人的過(guò)程。說(shuō)話(huà)人識(shí)別和語(yǔ)音識(shí)別的人的過(guò)程。說(shuō)話(huà)人識(shí)別和語(yǔ)音識(shí)別的區(qū)別區(qū)別在于,它不注重包在于,它不注重包 含在語(yǔ)音信號(hào)內(nèi)的文字符號(hào)以及語(yǔ)意內(nèi)容信息,而是著眼于含在語(yǔ)音信號(hào)內(nèi)的文字符號(hào)以及語(yǔ)意內(nèi)容信息,而是著眼于 包含在語(yǔ)音信號(hào)中的個(gè)人特征,提取說(shuō)話(huà)人的這些個(gè)人信息包含在語(yǔ)音信號(hào)中的個(gè)人特征,提取說(shuō)話(huà)人的這些個(gè)人信息 特征,以達(dá)到識(shí)別說(shuō)別說(shuō)話(huà)人的目的。特征,以達(dá)到識(shí)別說(shuō)別說(shuō)話(huà)人的目的。 v按

3、其最終完成的任務(wù)可以分為兩類(lèi):按其最終完成的任務(wù)可以分為兩類(lèi): * * 自動(dòng)說(shuō)話(huà)人自動(dòng)說(shuō)話(huà)人確認(rèn)確認(rèn)( Automatic Speaker Verification Automatic Speaker Verification, 簡(jiǎn)稱(chēng)簡(jiǎn)稱(chēng)ASVASV):確認(rèn)一個(gè)人的身份,只涉及一個(gè)特定的參考模:確認(rèn)一個(gè)人的身份,只涉及一個(gè)特定的參考模 型和待識(shí)別模式之間的比較,只做型和待識(shí)別模式之間的比較,只做“是是”和和“不是不是”的判決。的判決。 * * 自動(dòng)說(shuō)話(huà)人自動(dòng)說(shuō)話(huà)人辨認(rèn)辨認(rèn)(Automatic Speaker Identification,(Automatic Speaker Identific

4、ation,簡(jiǎn)簡(jiǎn) 稱(chēng)稱(chēng)ASI)ASI):必須辨認(rèn)出待識(shí)別的語(yǔ)音是來(lái)自待考察人中的哪一:必須辨認(rèn)出待識(shí)別的語(yǔ)音是來(lái)自待考察人中的哪一 個(gè),有時(shí)還要對(duì)這個(gè)人以外的語(yǔ)音做出拒絕的判決。個(gè),有時(shí)還要對(duì)這個(gè)人以外的語(yǔ)音做出拒絕的判決。 10.2 10.2 說(shuō)話(huà)人識(shí)別方法和系統(tǒng)說(shuō)話(huà)人識(shí)別方法和系統(tǒng) 結(jié)構(gòu)結(jié)構(gòu) v說(shuō)話(huà)人識(shí)別說(shuō)話(huà)人識(shí)別就是從說(shuō)話(huà)人的一段語(yǔ)音中提取出說(shuō)話(huà)人的個(gè)性就是從說(shuō)話(huà)人的一段語(yǔ)音中提取出說(shuō)話(huà)人的個(gè)性 特征,通過(guò)對(duì)這些個(gè)人特征的分析和識(shí)別,從而達(dá)到對(duì)說(shuō)話(huà)特征,通過(guò)對(duì)這些個(gè)人特征的分析和識(shí)別,從而達(dá)到對(duì)說(shuō)話(huà) 人進(jìn)行辨認(rèn)或者確認(rèn)的目的。圖人進(jìn)行辨認(rèn)或者確認(rèn)的目的。圖10-110-1是說(shuō)話(huà)人識(shí)別系統(tǒng)

5、的結(jié)是說(shuō)話(huà)人識(shí)別系統(tǒng)的結(jié) 構(gòu)框圖,它由構(gòu)框圖,它由預(yù)處理、特征提取、模式匹配和判決預(yù)處理、特征提取、模式匹配和判決等幾大部等幾大部 分組成。分組成。 v10.2.110.2.1預(yù)處理預(yù)處理 包括對(duì)輸入計(jì)算機(jī)的語(yǔ)音數(shù)據(jù)進(jìn)行端點(diǎn)檢測(cè)、預(yù)加重、加窗、包括對(duì)輸入計(jì)算機(jī)的語(yǔ)音數(shù)據(jù)進(jìn)行端點(diǎn)檢測(cè)、預(yù)加重、加窗、 分針等。分針等。 v10.2.210.2.2說(shuō)話(huà)人識(shí)別特征的選取說(shuō)話(huà)人識(shí)別特征的選取 在說(shuō)話(huà)人識(shí)別系統(tǒng)中特征提取是最重要的一環(huán),特征提取就在說(shuō)話(huà)人識(shí)別系統(tǒng)中特征提取是最重要的一環(huán),特征提取就 是從說(shuō)話(huà)人的語(yǔ)音信號(hào)中提取出表示說(shuō)話(huà)人個(gè)性的基本特征。是從說(shuō)話(huà)人的語(yǔ)音信號(hào)中提取出表示說(shuō)話(huà)人個(gè)性的基本特征。

6、 在理想情況下,選取的特征應(yīng)當(dāng)滿(mǎn)足下述準(zhǔn)則:在理想情況下,選取的特征應(yīng)當(dāng)滿(mǎn)足下述準(zhǔn)則: 能夠有效地區(qū)分不同的說(shuō)話(huà)人,但又能在同一說(shuō)話(huà)人的語(yǔ)能夠有效地區(qū)分不同的說(shuō)話(huà)人,但又能在同一說(shuō)話(huà)人的語(yǔ) 音發(fā)生變化時(shí)相對(duì)保持穩(wěn)定。音發(fā)生變化時(shí)相對(duì)保持穩(wěn)定。 易于從語(yǔ)音信號(hào)中提取易于從語(yǔ)音信號(hào)中提取 不易被模仿不易被模仿 盡量不隨時(shí)間和空間變化盡量不隨時(shí)間和空間變化 v如果把說(shuō)話(huà)人識(shí)別中常用的參數(shù)加以簡(jiǎn)要?dú)w類(lèi),可如果把說(shuō)話(huà)人識(shí)別中常用的參數(shù)加以簡(jiǎn)要?dú)w類(lèi),可 劃分為以下幾類(lèi):劃分為以下幾類(lèi): 1.線(xiàn)性預(yù)測(cè)參數(shù)及其派生參數(shù)線(xiàn)性預(yù)測(cè)參數(shù)及其派生參數(shù) 2.語(yǔ)音頻譜直接導(dǎo)出的參數(shù)語(yǔ)音頻譜直接導(dǎo)出的參數(shù) 3.混合參數(shù)混合

7、參數(shù) 4.其他魯棒性參數(shù)其他魯棒性參數(shù) 上表是日本人上表是日本人Matui和和Furui在在1990年針對(duì)倒譜特征和基音特征所作的比較實(shí)驗(yàn)結(jié)年針對(duì)倒譜特征和基音特征所作的比較實(shí)驗(yàn)結(jié) 果果 所用特征所用特征誤識(shí)率誤識(shí)率/(%) 倒譜 差值倒譜 基音 差值基音 倒譜與差值倒譜 倒譜、差值倒譜與基音、差值基音 9.43 11.81 74.42 85.88 7.93 2.89 v10.2.310.2.3特征參量評(píng)估方法特征參量評(píng)估方法 F F比:比:在給定一種識(shí)別方法后,識(shí)別的效果主要取決于特征在給定一種識(shí)別方法后,識(shí)別的效果主要取決于特征 參數(shù)的選取。對(duì)于某一維單個(gè)的參數(shù)而言,可以用參數(shù)的選取。對(duì)于

8、某一維單個(gè)的參數(shù)而言,可以用F F來(lái)表征來(lái)表征 它在說(shuō)話(huà)人識(shí)別中的有效性。它在說(shuō)話(huà)人識(shí)別中的有效性。 F F越大表示越有效,即不同說(shuō)話(huà)人的特征量的均值分布的離散越大表示越有效,即不同說(shuō)話(huà)人的特征量的均值分布的離散 程度分布得越散越好;而同一個(gè)人的越集中越好。程度分布得越散越好;而同一個(gè)人的越集中越好。 2 ( )2 , ii i aia i F x 不同說(shuō)話(huà)人特征參數(shù)均值的方差 同一說(shuō)話(huà)人特征方差的均值 i i 是 指 對(duì) 第 個(gè) 說(shuō) 話(huà) 人 的 特 征 參 數(shù) 作 平 均 a 是指對(duì)某個(gè)說(shuō)話(huà)人各次的特征參數(shù)作平均 ( )i a xia是 指 對(duì) 第 個(gè) 說(shuō) 話(huà) 人 的 第次 特 征 參 數(shù)

9、( ) = i iaa xi是 指 第 個(gè) 說(shuō) 話(huà) 人 的 各 次 特 征 的 估 計(jì) 平 均 值 = iii uu 是 指 所 有 說(shuō) 話(huà) 人 的平 均 所 得 的 均 值 v10.2.310.2.3特征參量評(píng)估方法特征參量評(píng)估方法 D D比:比:把F比的概念推廣到多維,用以衡量多維特征矢量在說(shuō) 話(huà)人識(shí)別系統(tǒng)中的有效性。F比沒(méi)有考慮到特征矢量中各維 參數(shù)之間的相關(guān)性。 定義兩個(gè)協(xié)方差矩陣,即說(shuō)話(huà)人間的協(xié)方差矩陣B和說(shuō)話(huà)人內(nèi) 協(xié)方差矩陣W, T i ii B T ( )( ) , ii aiaia i xxW iii D T 1 W 定義對(duì)多維特征矢量的可分性測(cè)度散度 ,即D比為: v10.2

10、.4模式匹配方法模式匹配方法 1.概率統(tǒng)計(jì)方法概率統(tǒng)計(jì)方法 通過(guò)對(duì)穩(wěn)態(tài)特征(基音、聲門(mén)增益、低階反射系數(shù)等)的統(tǒng)計(jì)分析,通過(guò)對(duì)穩(wěn)態(tài)特征(基音、聲門(mén)增益、低階反射系數(shù)等)的統(tǒng)計(jì)分析, 利用均值、方差等統(tǒng)計(jì)量和概率密度函數(shù)進(jìn)行分類(lèi)判決。優(yōu)點(diǎn):不用對(duì)特征利用均值、方差等統(tǒng)計(jì)量和概率密度函數(shù)進(jìn)行分類(lèi)判決。優(yōu)點(diǎn):不用對(duì)特征 參量在時(shí)域上進(jìn)行規(guī)整,適合與文本無(wú)關(guān)的說(shuō)話(huà)人識(shí)別。參量在時(shí)域上進(jìn)行規(guī)整,適合與文本無(wú)關(guān)的說(shuō)話(huà)人識(shí)別。 2.動(dòng)態(tài)時(shí)間規(guī)整方法(動(dòng)態(tài)時(shí)間規(guī)整方法(DTW) 將識(shí)別模板與參考模板進(jìn)行時(shí)間對(duì)比,按照某種距離測(cè)度得出兩個(gè)模將識(shí)別模板與參考模板進(jìn)行時(shí)間對(duì)比,按照某種距離測(cè)度得出兩個(gè)模 板之間的相

11、似程度。常用的分法:基于最近鄰原則的動(dòng)態(tài)時(shí)間規(guī)整。板之間的相似程度。常用的分法:基于最近鄰原則的動(dòng)態(tài)時(shí)間規(guī)整。 3.矢量量化方法(矢量量化方法(VQ) 將每個(gè)人的特定文本訓(xùn)練成碼本,識(shí)別時(shí)將測(cè)試文本按此碼本進(jìn)行編碼將每個(gè)人的特定文本訓(xùn)練成碼本,識(shí)別時(shí)將測(cè)試文本按此碼本進(jìn)行編碼 ,以量化產(chǎn)生的失真度作為判決標(biāo)準(zhǔn)。優(yōu)點(diǎn):速度快,識(shí)別精度不低。,以量化產(chǎn)生的失真度作為判決標(biāo)準(zhǔn)。優(yōu)點(diǎn):速度快,識(shí)別精度不低。 v10.2.4模式匹配方法模式匹配方法 4.隱馬爾科夫模型方法(隱馬爾科夫模型方法(HMM) 為每個(gè)說(shuō)話(huà)人建立發(fā)聲模型,通過(guò)訓(xùn)練得到狀態(tài)轉(zhuǎn)移概率矩陣和符號(hào)輸為每個(gè)說(shuō)話(huà)人建立發(fā)聲模型,通過(guò)訓(xùn)練得到狀

12、態(tài)轉(zhuǎn)移概率矩陣和符號(hào)輸 出矩陣;識(shí)別時(shí)計(jì)算未知語(yǔ)音在狀態(tài)轉(zhuǎn)移過(guò)程中的最大概率,根據(jù)最大概率出矩陣;識(shí)別時(shí)計(jì)算未知語(yǔ)音在狀態(tài)轉(zhuǎn)移過(guò)程中的最大概率,根據(jù)最大概率 對(duì)應(yīng)的模型進(jìn)行判決。優(yōu)點(diǎn):無(wú)需時(shí)間規(guī)整,精度高;缺點(diǎn):訓(xùn)練耗時(shí)較大對(duì)應(yīng)的模型進(jìn)行判決。優(yōu)點(diǎn):無(wú)需時(shí)間規(guī)整,精度高;缺點(diǎn):訓(xùn)練耗時(shí)較大 。 5.人工神經(jīng)網(wǎng)絡(luò)方法(人工神經(jīng)網(wǎng)絡(luò)方法(ANN) 人工神經(jīng)網(wǎng)絡(luò)在某種程度上模擬了生物的感知特性,是一種分布式并人工神經(jīng)網(wǎng)絡(luò)在某種程度上模擬了生物的感知特性,是一種分布式并 行處理結(jié)構(gòu)的網(wǎng)絡(luò)模型,具有自組織和自學(xué)習(xí)能力、很強(qiáng)的復(fù)雜分類(lèi)邊界區(qū)行處理結(jié)構(gòu)的網(wǎng)絡(luò)模型,具有自組織和自學(xué)習(xí)能力、很強(qiáng)的復(fù)雜分類(lèi)邊界區(qū)

13、 分能力以及對(duì)不完全信息的魯棒性,其性能近似理想的分類(lèi)器。缺點(diǎn):訓(xùn)練分能力以及對(duì)不完全信息的魯棒性,其性能近似理想的分類(lèi)器。缺點(diǎn):訓(xùn)練 時(shí)間長(zhǎng)、動(dòng)態(tài)規(guī)整能力弱、網(wǎng)絡(luò)隨說(shuō)話(huà)人數(shù)碼的增加時(shí)可能大到難以訓(xùn)練的時(shí)間長(zhǎng)、動(dòng)態(tài)規(guī)整能力弱、網(wǎng)絡(luò)隨說(shuō)話(huà)人數(shù)碼的增加時(shí)可能大到難以訓(xùn)練的 程度。程度。 v10.2.510.2.5說(shuō)話(huà)人識(shí)別中判別方法和閾值的選擇說(shuō)話(huà)人識(shí)別中判別方法和閾值的選擇 加快系統(tǒng)響應(yīng)的判別分法:多門(mén)限判決、預(yù)分類(lèi)技術(shù)。加快系統(tǒng)響應(yīng)的判別分法:多門(mén)限判決、預(yù)分類(lèi)技術(shù)。 說(shuō)話(huà)人確認(rèn)系統(tǒng)的閾值選擇:說(shuō)話(huà)人確認(rèn)系統(tǒng)的閾值選擇: 確認(rèn)錯(cuò)誤由確認(rèn)錯(cuò)誤由誤拒率誤拒率(False Rejection, FR

14、)和)和誤受率誤受率 (False Acceptance, FA) 表示。判決門(mén)限一般由表示。判決門(mén)限一般由FR和和 FA的相等點(diǎn)附件來(lái)確定。的相等點(diǎn)附件來(lái)確定。 v10.2.6說(shuō)話(huà)人識(shí)別系統(tǒng)的評(píng)價(jià)說(shuō)話(huà)人識(shí)別系統(tǒng)的評(píng)價(jià) 一個(gè)說(shuō)話(huà)人識(shí)別系統(tǒng)的好壞是由一個(gè)說(shuō)話(huà)人識(shí)別系統(tǒng)的好壞是由 許多因素決定的。其中主要有正確許多因素決定的。其中主要有正確 識(shí)別率(或出錯(cuò)率)、訓(xùn)練時(shí)間的識(shí)別率(或出錯(cuò)率)、訓(xùn)練時(shí)間的 長(zhǎng)短、識(shí)別時(shí)間、對(duì)參考參量存儲(chǔ)長(zhǎng)短、識(shí)別時(shí)間、對(duì)參考參量存儲(chǔ) 量的要求、使用者適用的方便程度量的要求、使用者適用的方便程度 等,實(shí)用中還有價(jià)格因素。圖等,實(shí)用中還有價(jià)格因素。圖10.3 表示了說(shuō)話(huà)人

15、辨別與說(shuō)話(huà)人確認(rèn)系表示了說(shuō)話(huà)人辨別與說(shuō)話(huà)人確認(rèn)系 統(tǒng)性能與用戶(hù)數(shù)的關(guān)系。統(tǒng)性能與用戶(hù)數(shù)的關(guān)系。 10.310.3應(yīng)用應(yīng)用DTWDTW的說(shuō)話(huà)人確認(rèn)系統(tǒng)的說(shuō)話(huà)人確認(rèn)系統(tǒng) 一個(gè)應(yīng)用一個(gè)應(yīng)用DTW說(shuō)話(huà)人識(shí)別系統(tǒng)如圖說(shuō)話(huà)人識(shí)別系統(tǒng)如圖10-4所示。它采用所示。它采用 的識(shí)別特征是的識(shí)別特征是BPFG(附聽(tīng)覺(jué)特征處理),匹配時(shí)采用(附聽(tīng)覺(jué)特征處理),匹配時(shí)采用DTW 技術(shù)。技術(shù)。 10.410.4應(yīng)用應(yīng)用VQVQ的說(shuō)話(huà)人識(shí)別系統(tǒng)的說(shuō)話(huà)人識(shí)別系統(tǒng) 目前自動(dòng)說(shuō)話(huà)人識(shí)別的方法主要是基于參數(shù)模型的目前自動(dòng)說(shuō)話(huà)人識(shí)別的方法主要是基于參數(shù)模型的HMM的的 方法和基于非參數(shù)模型的方法和基于非參數(shù)模型的VQ的方法。應(yīng)用的

16、方法。應(yīng)用VQ的說(shuō)話(huà)人識(shí)別的說(shuō)話(huà)人識(shí)別 系統(tǒng)如圖系統(tǒng)如圖10-5所示。所示。 v應(yīng)用應(yīng)用VQ的說(shuō)話(huà)人識(shí)別過(guò)程的步驟如下:的說(shuō)話(huà)人識(shí)別過(guò)程的步驟如下: 1.訓(xùn)練過(guò)程訓(xùn)練過(guò)程 從訓(xùn)練語(yǔ)音提取特征矢量,得到特征矢量集;從訓(xùn)練語(yǔ)音提取特征矢量,得到特征矢量集; 通過(guò)通過(guò)LBG算法生成碼本;算法生成碼本; 重復(fù)訓(xùn)練修正優(yōu)化碼本;重復(fù)訓(xùn)練修正優(yōu)化碼本; 存儲(chǔ)碼本存儲(chǔ)碼本 2.識(shí)別過(guò)程識(shí)別過(guò)程 從測(cè)試語(yǔ)音提取特征矢量序列從測(cè)試語(yǔ)音提取特征矢量序列 由每個(gè)模板依次對(duì)特征矢量序列進(jìn)行矢量量化,計(jì)算各自的平均量由每個(gè)模板依次對(duì)特征矢量序列進(jìn)行矢量量化,計(jì)算各自的平均量 化誤差:化誤差: 式中式中 是第是第i個(gè)碼本

17、中第個(gè)碼本中第l個(gè)碼個(gè)碼 本矢量,而本矢量,而 是待測(cè)矢量是待測(cè)矢量 和碼矢量和碼矢量 之間的距之間的距 離離 選擇平均量化誤差最小的碼本所對(duì)應(yīng)的說(shuō)話(huà)人作為系統(tǒng)識(shí)別結(jié)果。選擇平均量化誤差最小的碼本所對(duì)應(yīng)的說(shuō)話(huà)人作為系統(tǒng)識(shí)別結(jié)果。 M n i ln Ll i YXd M D 1 1 ),(min 1 NiLlY i L ,.2 , 1,.2 , 1,),( i ln YXd n X i l Y 10.510.5應(yīng)用應(yīng)用HMMHMM的說(shuō)話(huà)人識(shí)別系統(tǒng)的說(shuō)話(huà)人識(shí)別系統(tǒng) v10.5.1 基于基于HMM的與文本有關(guān)的說(shuō)話(huà)人識(shí)別的與文本有關(guān)的說(shuō)話(huà)人識(shí)別 基于基于HMM的與文本有關(guān)的說(shuō)話(huà)人識(shí)別系統(tǒng)的結(jié)構(gòu)如圖的

18、與文本有關(guān)的說(shuō)話(huà)人識(shí)別系統(tǒng)的結(jié)構(gòu)如圖10-6所所 示。示。 v10.5.2基于基于HMM的與文本無(wú)關(guān)的說(shuō)話(huà)人識(shí)別的與文本無(wú)關(guān)的說(shuō)話(huà)人識(shí)別 v10.5.3基于基于HMM的指定文本型說(shuō)話(huà)人識(shí)別的指定文本型說(shuō)話(huà)人識(shí)別 指定文本型說(shuō)話(huà)人識(shí)別系統(tǒng)的基本構(gòu)造如圖指定文本型說(shuō)話(huà)人識(shí)別系統(tǒng)的基本構(gòu)造如圖10-7所示。所示。 文本內(nèi)容不確定,一般采用各態(tài)歷經(jīng)文本內(nèi)容不確定,一般采用各態(tài)歷經(jīng)HMM建立說(shuō)話(huà)人模型。建立說(shuō)話(huà)人模型。 v10.5.4說(shuō)話(huà)人識(shí)別說(shuō)話(huà)人識(shí)別HMM的學(xué)習(xí)方法的學(xué)習(xí)方法 v10.5.5魯棒的魯棒的HMM說(shuō)話(huà)人識(shí)別技術(shù)說(shuō)話(huà)人識(shí)別技術(shù) 利用少量的登錄說(shuō)話(huà)人學(xué)習(xí)數(shù)據(jù)的學(xué)習(xí)方法;利用非特定人 語(yǔ)音HM

19、M和登錄說(shuō)話(huà)人學(xué)習(xí)數(shù)據(jù)的學(xué)習(xí)方法。 對(duì)于由信號(hào)傳輸信道、濾波器等引起的識(shí)別率下降,通過(guò)倒 譜均值正規(guī)化法可以得到改善;由聲道特征、發(fā)音方式的時(shí) 間變動(dòng)等引起的識(shí)別率下降,可以通過(guò)似然度正規(guī)化法加以 改善。 10.610.6應(yīng)用應(yīng)用GMMGMM的說(shuō)話(huà)人識(shí)別系統(tǒng)的說(shuō)話(huà)人識(shí)別系統(tǒng) 混合高斯分布模型是只有一個(gè)狀態(tài)的模型,在這個(gè)狀態(tài)里具混合高斯分布模型是只有一個(gè)狀態(tài)的模型,在這個(gè)狀態(tài)里具 有多個(gè)高斯分布函數(shù)有多個(gè)高斯分布函數(shù) v10.6.1GMM模型的基本概念模型的基本概念 高斯混合模型(高斯混合模型(GMM)可以看做一種狀態(tài)數(shù)為)可以看做一種狀態(tài)數(shù)為1的連續(xù)分布的連續(xù)分布 隱馬爾科夫模型隱馬爾科夫模型

20、CDHMM。一個(gè)。一個(gè)M階混合高斯模型的概率密階混合高斯模型的概率密 度函數(shù)是由度函數(shù)是由M個(gè)高斯概率密度函數(shù)加權(quán)求和得到,所示如下:個(gè)高斯概率密度函數(shù)加權(quán)求和得到,所示如下: M i ii XbXP 1 )()/()710( 其中其中 是一個(gè)是一個(gè)D維隨即向量,維隨即向量, 是子分布,是子分布, ,是混合權(quán)重。,是混合權(quán)重。 每個(gè)子每個(gè)子 分布是分布是D維的聯(lián)合高斯概率分布,可表示為:維的聯(lián)合高斯概率分布,可表示為: 其中其中 是均值向量,是均值向量, 是協(xié)方差矩陣,混合權(quán)重值是協(xié)方差矩陣,混合權(quán)重值 滿(mǎn)足以下條件:滿(mǎn)足以下條件: 完整的混合高斯模型由參數(shù)均值向量、協(xié)方差矩陣和混合完整的混合

21、高斯模型由參數(shù)均值向量、協(xié)方差矩陣和混合 權(quán)重組成,表示為:權(quán)重組成,表示為: 對(duì)于給定的時(shí)間序列對(duì)于給定的時(shí)間序列 ,利,利 用用GMM模型求得的對(duì)數(shù)似然度可定義如下:模型求得的對(duì)數(shù)似然度可定義如下: XMiXb ti ,.,1),( Mi i ,.,1, )()( 2 1 exp |)2( 1 )( 1 2/12/ i i t i i D i XXXb i i 1 1 M i i Mi i ii ,.,1, TtXX t ,.,2 , 1, T i t XP T XL 1 )/(log 1 )/( v10.6.2GMM模型的參數(shù)估計(jì)模型的參數(shù)估計(jì) GMM模型的訓(xùn)練就是給定一組訓(xùn)練數(shù)據(jù),依據(jù)

22、某種準(zhǔn)則模型的訓(xùn)練就是給定一組訓(xùn)練數(shù)據(jù),依據(jù)某種準(zhǔn)則 確定模型參數(shù)。最常用的參數(shù)估計(jì)方法是最大似然估計(jì)(確定模型參數(shù)。最常用的參數(shù)估計(jì)方法是最大似然估計(jì)( ML)估計(jì)。對(duì)于一組長(zhǎng)度為)估計(jì)。對(duì)于一組長(zhǎng)度為T(mén)的訓(xùn)練矢量序列的訓(xùn)練矢量序列 ,GMM的似然度可以表示為:的似然度可以表示為: 由于上式是參數(shù)由于上式是參數(shù) 的非線(xiàn)性函數(shù),很難直接求出上式的的非線(xiàn)性函數(shù),很難直接求出上式的 最大值。因此,常常采用最大值。因此,常常采用EM算法估計(jì)參數(shù)算法估計(jì)參數(shù) 。EM算法算法 的計(jì)算是從參數(shù)的計(jì)算是從參數(shù) 的一個(gè)初值開(kāi)始,采用的一個(gè)初值開(kāi)始,采用EM算法估計(jì)出算法估計(jì)出 一個(gè)新的參數(shù)一個(gè)新的參數(shù) ,使得

23、新的模型參數(shù)下的似然度,使得新的模型參數(shù)下的似然度 新的模型參數(shù)再作為當(dāng)前參數(shù)進(jìn)行訓(xùn)練,這樣迭代運(yùn)算直新的模型參數(shù)再作為當(dāng)前參數(shù)進(jìn)行訓(xùn)練,這樣迭代運(yùn)算直 到模型收斂。每一次迭代運(yùn)算,下面的重估公式保證了模型到模型收斂。每一次迭代運(yùn)算,下面的重估公式保證了模型 似然度的單調(diào)遞增。似然度的單調(diào)遞增。 ,., 21T XXXX T t t XPXP 1 )/()/( )/() /(XPXP 混合權(quán)值的重估公式:混合權(quán)值的重估公式: 均值的重估公式:均值的重估公式: 方差的重估公式:方差的重估公式: 其中,分量其中,分量i的后驗(yàn)概率為:的后驗(yàn)概率為: T t ti XiP T 1 ),/( 1 T t

24、 t t T t t i XiP XXiP 1 1 ),/( ),/( T t t it T t t i XiP XXiP 1 2 1 2 ),/( )( ),/( M k tkk tii t Xb Xb XiP 1 )( )( ),/( v10.6.3訓(xùn)練數(shù)據(jù)不充分的問(wèn)題訓(xùn)練數(shù)據(jù)不充分的問(wèn)題 由于訓(xùn)練數(shù)據(jù)的不充分,由于訓(xùn)練數(shù)據(jù)的不充分,GMM模型的協(xié)方差矩陣的一些模型的協(xié)方差矩陣的一些 分量可能會(huì)很小,這些很小的值對(duì)模型參數(shù)的似然度函數(shù)影響分量可能會(huì)很小,這些很小的值對(duì)模型參數(shù)的似然度函數(shù)影響 很大,嚴(yán)重影響系統(tǒng)的性能。為了避免小的值對(duì)系統(tǒng)性能的影很大,嚴(yán)重影響系統(tǒng)的性能。為了避免小的值對(duì)系

25、統(tǒng)性能的影 響,一種方法是在響,一種方法是在EM算法的迭代計(jì)算中,對(duì)協(xié)方差的值設(shè)置算法的迭代計(jì)算中,對(duì)協(xié)方差的值設(shè)置 一個(gè)門(mén)限值,在訓(xùn)練過(guò)程中領(lǐng)協(xié)方差的值不小于這個(gè)設(shè)定的門(mén)一個(gè)門(mén)限值,在訓(xùn)練過(guò)程中領(lǐng)協(xié)方差的值不小于這個(gè)設(shè)定的門(mén) 限值,否則用這個(gè)門(mén)限值代替。限值,否則用這個(gè)門(mén)限值代替。 v10.6.4GMM模型的識(shí)別問(wèn)題模型的識(shí)別問(wèn)題 給定一個(gè)語(yǔ)音樣本,說(shuō)話(huà)人辨認(rèn)的目的是要確定這個(gè)語(yǔ)音給定一個(gè)語(yǔ)音樣本,說(shuō)話(huà)人辨認(rèn)的目的是要確定這個(gè)語(yǔ)音 屬于屬于N個(gè)說(shuō)話(huà)人中的哪一個(gè)。基于個(gè)說(shuō)話(huà)人中的哪一個(gè)?;贕MM的說(shuō)話(huà)人辨認(rèn)系統(tǒng)的說(shuō)話(huà)人辨認(rèn)系統(tǒng) 結(jié)構(gòu)框圖如圖結(jié)構(gòu)框圖如圖10-8所示。所示。 根據(jù)根據(jù)Bayes

26、理論,最大后驗(yàn)概率可表示為:理論,最大后驗(yàn)概率可表示為: 在這里:在這里: 其對(duì)數(shù)形式為:其對(duì)數(shù)形式為: 因?yàn)橐驗(yàn)?的先驗(yàn)概率未知,我們假定該語(yǔ)音信號(hào)出自的先驗(yàn)概率未知,我們假定該語(yǔ)音信號(hào)出自 封閉集里的每一個(gè)人的可能性相等,也就是說(shuō):封閉集里的每一個(gè)人的可能性相等,也就是說(shuō): )( )(),( ),( XP PXP XP ii i T t t XPXP 1 )/()/( T t t XPXP 1 )/(log)/(log )( i P Ni N P i 1 , 1 )( 對(duì)于一個(gè)確定的觀察值矢量對(duì)于一個(gè)確定的觀察值矢量X,P(X)是一個(gè)確定的常數(shù)值是一個(gè)確定的常數(shù)值 ,對(duì)所有說(shuō)話(huà)人都相等。因

27、此,求取后驗(yàn)概率的最大值可以,對(duì)所有說(shuō)話(huà)人都相等。因此,求取后驗(yàn)概率的最大值可以 通過(guò)求取通過(guò)求取 獲得,這樣,辨認(rèn)該語(yǔ)音屬于語(yǔ)音獲得,這樣,辨認(rèn)該語(yǔ)音屬于語(yǔ)音 庫(kù)中的哪一種說(shuō)話(huà)人可以表示為:庫(kù)中的哪一種說(shuō)話(huà)人可以表示為: 其中其中 即為識(shí)別出的說(shuō)話(huà)人。即為識(shí)別出的說(shuō)話(huà)人。 ),( i XP ),(maxarg * i i XPi * i 10.710.7說(shuō)話(huà)人識(shí)別尚需探索的問(wèn)題及說(shuō)話(huà)人識(shí)別尚需探索的問(wèn)題及 應(yīng)用應(yīng)用 1.基礎(chǔ)性的課題基礎(chǔ)性的課題 關(guān)于語(yǔ)音中語(yǔ)意內(nèi)容和說(shuō)話(huà)人的分離,系統(tǒng)全面地進(jìn)行關(guān)于語(yǔ)音中語(yǔ)意內(nèi)容和說(shuō)話(huà)人的分離,系統(tǒng)全面地進(jìn)行 研究的人還是很少的。研究的人還是很少的。 究竟什么

28、特征參數(shù)對(duì)說(shuō)話(huà)人識(shí)別最有效?如何有效的利究竟什么特征參數(shù)對(duì)說(shuō)話(huà)人識(shí)別最有效?如何有效的利 用非聲道特征?用非聲道特征? 說(shuō)話(huà)人特征的變化和樣本選擇問(wèn)題。說(shuō)話(huà)人特征的變化和樣本選擇問(wèn)題。 用聽(tīng)覺(jué)和視覺(jué)的說(shuō)話(huà)人識(shí)別研究是用計(jì)算機(jī)進(jìn)行說(shuō)話(huà)人用聽(tīng)覺(jué)和視覺(jué)的說(shuō)話(huà)人識(shí)別研究是用計(jì)算機(jī)進(jìn)行說(shuō)話(huà)人 識(shí)別的基礎(chǔ)。識(shí)別的基礎(chǔ)。 2.實(shí)用性的問(wèn)題實(shí)用性的問(wèn)題 說(shuō)話(huà)人識(shí)別系統(tǒng)設(shè)計(jì)的合理化及優(yōu)化問(wèn)題。說(shuō)話(huà)人識(shí)別系統(tǒng)設(shè)計(jì)的合理化及優(yōu)化問(wèn)題。 如何處理長(zhǎng)時(shí)和短時(shí)說(shuō)話(huà)人的語(yǔ)音波動(dòng)?如何區(qū)別有意如何處理長(zhǎng)時(shí)和短時(shí)說(shuō)話(huà)人的語(yǔ)音波動(dòng)?如何區(qū)別有意 模仿的聲音?模仿的聲音? 說(shuō)話(huà)人識(shí)別系統(tǒng)的性能評(píng)價(jià)問(wèn)題。說(shuō)話(huà)人識(shí)別系統(tǒng)的性能評(píng)價(jià)問(wèn)題

29、。 可靠性和經(jīng)濟(jì)性。可靠性和經(jīng)濟(jì)性。 目前說(shuō)話(huà)人識(shí)別的主要研究主要集中在如下幾個(gè)方面:目前說(shuō)話(huà)人識(shí)別的主要研究主要集中在如下幾個(gè)方面: 語(yǔ)音特征參數(shù)的提取和混合語(yǔ)音特征參數(shù)的提取和混合 HMM模型與其他模型混合,改善說(shuō)話(huà)人識(shí)別系統(tǒng)的性能。模型與其他模型混合,改善說(shuō)話(huà)人識(shí)別系統(tǒng)的性能。 3.說(shuō)話(huà)人識(shí)別技術(shù)的應(yīng)用說(shuō)話(huà)人識(shí)別技術(shù)的應(yīng)用 電話(huà)信道罪犯緝拿、法庭中電話(huà)錄音信息的身份確認(rèn)、電話(huà)信道罪犯緝拿、法庭中電話(huà)錄音信息的身份確認(rèn)、 電話(huà)語(yǔ)音跟蹤,為用戶(hù)提供防盜門(mén)開(kāi)啟功能等。電話(huà)語(yǔ)音跟蹤,為用戶(hù)提供防盜門(mén)開(kāi)啟功能等。 通信領(lǐng)域,說(shuō)話(huà)人識(shí)別技術(shù)可以應(yīng)用于諸如電話(huà)銀行、通信領(lǐng)域,說(shuō)話(huà)人識(shí)別技術(shù)可以應(yīng)用于諸如電話(huà)銀行、 電話(huà)購(gòu)物、數(shù)據(jù)庫(kù)訪問(wèn)、信息服務(wù)、安全控制、計(jì)算機(jī)電話(huà)購(gòu)物、數(shù)據(jù)庫(kù)訪問(wèn)、信息服務(wù)、安全控制、計(jì)算機(jī) 遠(yuǎn)程登陸等領(lǐng)域。遠(yuǎn)程登陸等領(lǐng)域。 呼叫中心應(yīng)用上,說(shuō)話(huà)人識(shí)別技術(shù)同樣可以提供更加個(gè)呼叫中心應(yīng)用上,說(shuō)話(huà)人識(shí)別技術(shù)同樣可以提供更加個(gè) 性化的人機(jī)交互界面。性化的人機(jī)交互界面。 10.810.8語(yǔ)種辨別的原理和應(yīng)用語(yǔ)種辨別的原理和應(yīng)用 語(yǔ)種辨別(語(yǔ)種辨別(Language Identification, LID)與語(yǔ)音識(shí)別)與語(yǔ)音識(shí)別 和說(shuō)話(huà)人識(shí)別有所不同,它是通過(guò)分析處理一個(gè)語(yǔ)言片段以和說(shuō)話(huà)人識(shí)別有所不同,它是通過(guò)分析處理一個(gè)語(yǔ)

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶(hù)所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶(hù)上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶(hù)上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶(hù)因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論