版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)
文檔簡介
1、基于說話人聚類的說話人自適應(yīng)摘要本文提出一種改良的基于模型差異度量的說話人聚類(Speakerlustering)方法,并將該說話人聚類算法結(jié)合最大似然線性回歸算法(axiuLikelihdLinearRegressin,LLR)構(gòu)成整體的說話人自適應(yīng)框架。將該方法應(yīng)用于以音素為識別基元的漢語連續(xù)語音識別系統(tǒng)中,可可以進步系統(tǒng)的識別率,較好的滿足快速性和漸進性。實驗結(jié)果說明,該方法可以在僅有一句自適應(yīng)數(shù)據(jù)的情況下,使系統(tǒng)字正識率由40.43%進步到50.86%。關(guān)鍵詞說話人聚類;說話人自適應(yīng)近年來,語音識別1技術(shù)已經(jīng)日趨成熟,尤其對于特定人的語音識別非常準確。大量實驗結(jié)果說明,在訓(xùn)練數(shù)據(jù)都很充
2、分而且各方面的條件都一樣時,特定人(SpeakerDependent,SD)識別系統(tǒng)的性能通常好于非特定人(SpeakerIndependent,SI)系統(tǒng)。然而,當某個特定人的訓(xùn)練數(shù)據(jù)受限時,由于缺少可靠估計模型所需要的足夠多的數(shù)據(jù),SD系統(tǒng)的這種優(yōu)越性就不能得到保證。說話人自適應(yīng)就是在一個針對原說話人充分訓(xùn)練的SD系統(tǒng)中,或是一個對許多說話者充分訓(xùn)練的SI系統(tǒng)中參加少量新說話人的訓(xùn)練語音數(shù)據(jù),通過一定的算法使新老數(shù)據(jù)結(jié)合,從而使系統(tǒng)的識別率接近于對新說話人經(jīng)過充分訓(xùn)練的SD系統(tǒng)的程度?;谡f話人聚類的說話人自適應(yīng)是說話人自適應(yīng)技術(shù)的一種2,就是將原有的訓(xùn)練數(shù)據(jù)按照一定的算法聚類,識別時選取
3、待識別語音所屬類別的模板進展匹配,可以擴大適用人群,進步系統(tǒng)性能。2主要自適應(yīng)算法說話人聚類是直接根據(jù)說話人的某種特性或者根據(jù)某種度量,將訓(xùn)練集中的說話人根據(jù)其語音特性分成假設(shè)干個子集,每一個子集內(nèi)的說話人都具有某種度量意義下的相似性,然后專門為每個子集訓(xùn)練聲學(xué)模型,從而得到一組離散度和混疊度較小的說話人聚類Speakerlustering,S模型;測試時,先判斷待測試的語音屬于哪一個說話人子集,然后用這個子集的聲學(xué)模型來進展測試3。應(yīng)用較為廣泛的是基于說話人特性的和基于模型間隔 的聚類方法:說話人特性包括說話人的性別、年齡、口音等。這種方法利用先驗的說話人的特性,在滿足模型訓(xùn)練量的條件下,將
4、說話人分到更小的子集合中。一個最常用的例子就是按性別將說話人進展分類。這種方法通常需要先驗知識,也就通常離不開人工干預(yù)。的說話人聚類方法直接根據(jù)不同說話人對應(yīng)的聲學(xué)模型間的間隔 來進展聚類。首先根據(jù)某種模型間隔 度量方法,建立模型間的間隔 矩陣,然后完成基于間隔 矩陣的聚類,其中的關(guān)鍵是聲學(xué)模型間間隔 的度量方法。高斯混合模型Gaussianixturedel,G是基于模型間隔 說話人聚類常用的模型,G的概率密度分布函數(shù)是由個高斯概率密度函數(shù)加權(quán)求和而得到的,如式(1)所示:1其中是觀測值x在某個G模型下的概率密度函數(shù)。x是k維的隨機向量,是高斯混元的權(quán)值。是第i個單高斯分布概率密度函數(shù),如(
5、2)式:2對高斯混合模型而言,模型間隔 的定義最終可以歸入分布間的間隔 衡量。其中常用的有如下幾種:歐式間隔 (EulideanDistane):3馬氏間隔 ahalanbisDistane4巴特查里亞間隔 BhattaharyyaDistane5其中,表示兩個多維高斯分布,為兩個分布的均值向量,表示兩個分布的協(xié)方差矩陣。最大似然線性回歸法(axiuLikelihdLinearRegressin,LLR)是一種基于變換的方法,它采用一組變換描繪從初始模型到說話人自適應(yīng)(SpeakerAdaptatin,SA)后模型的變換關(guān)系,另外LLR還能對不同的信道及附加噪聲有一定補償作用。一般認為不同說話
6、人之間的差異主要表如今均值矢量上,式(6)為均值轉(zhuǎn)換的估計式。6其中是混合成份s的轉(zhuǎn)移矩陣,是自適應(yīng)后的均值后的均值向量,是混合成分s的擴展均值向量,其定義如下:7可以將一個G的參數(shù)看作一組語音特征,考察這組特征在另一個G中的輸出概率。用輸出概率來衡量兩個模型間的間隔 4。其方法如下:把GA的個混元的均值向量當作個觀測向量,計算這個觀測矢量在GB下的概率。類似地,計算GB的個混元的均值向量在GA下的概率。定義GA和GB的單邊加權(quán)似然度為:8其中,Ai表示GA第i個混元的權(quán)值,Ai表示第i個混元的均值向量,表示GA第i個混元的均值向量在GB下的概率,同理可得GB和GA的單邊加權(quán)似然度:考慮到對稱
7、的因素,本文進一步定義GA和GB的加權(quán)穿插似然比為:9選擇好聚類測度后,一般采用自底向上的方法對備選說話人G進展聚類,合并的過程為選擇間隔 最小的兩個進展合并,直到得到需要的類數(shù)為止。4實驗內(nèi)容及結(jié)果分析4.1實驗系統(tǒng)構(gòu)成實驗基于漢語大詞匯量連續(xù)語音識別系統(tǒng),在聲學(xué)層上進展。語音特征參數(shù)采用梅爾頻標倒譜參數(shù)(elfrequenyepstrueffiient,F(xiàn)),共16維。聲學(xué)模型建立有調(diào)的三元音子模型,識別時測試每句話的漢字識別正確性。實驗系統(tǒng)所用到的訓(xùn)練語音庫是中科院訓(xùn)練語音庫,其中女性說話人有148位,每位100句話;相應(yīng)的測試語音庫分別包含女說話人20位,每個說話人都是20句測試語音。
8、測試語音庫都同其對應(yīng)的訓(xùn)練語音庫是環(huán)境匹配的,這樣可以排除因為環(huán)境差異帶來的自適應(yīng)性能提升,更加準確地反映說話人聚類的算法效果。全部實驗的自適應(yīng)訓(xùn)練和測試語音長度約為2到3s,實驗以這148位說話人語音訓(xùn)練的SI模型作為基線系統(tǒng)。實驗的根本流程為:首先,對訓(xùn)練語音庫中的所有說話人訓(xùn)練出一個基于H的SI整體模型,再對庫中每位參考說話人進展單個的G模型訓(xùn)練,然后用訓(xùn)練出的所有G模型進展說話人聚類,利用聚類后的語料重新訓(xùn)練每一類的G模型。對這些新說話人的自適應(yīng)語音數(shù)據(jù)作相似性判決,從中選出與每個新說話人最為近似的參考類,最后根據(jù)這些參考類的語音特征運用一定的自適應(yīng)算法對SI模型的部分參數(shù)進展修正,合
9、成出新說話人的自適應(yīng)模型。實驗流程如圖1所示。圖1基于差異度量的的說話人自適應(yīng)SA系統(tǒng)實現(xiàn)流程圖4.2實驗數(shù)據(jù)及結(jié)果分析表1參考類別數(shù)量對識別的影響漢字正識率SI3類5類7類9類SDP140.4350.8652.4356.9846.2458.46P244.4354.8650.2757.4851.1460.87P342.3548.8650.9652.3748.5658.43P446.7850.8653.2956.9951.3659.77P541.2950.8952.7655.9846.7459.23P641.6647.7651.4952.9846.1461.23實驗一:對于不同的測試說話人,考察
10、似然判決選出的參考類數(shù)量對最后識別結(jié)果的影響,P1等分別表示不同的測試說話人,自適應(yīng)語料都為三句。實驗結(jié)果如表1所示。從表1中可以看出,隨著參考說話人數(shù)量的增加,對于不同的測試說話人,其識別性能都有明顯進步。但也可以發(fā)現(xiàn),當參考說話人數(shù)量超過7類時,其識別性能反而有所下降。其原因是:隨著參考類的增加,說話人之間的差異也會明顯增加,這種差異有可能抵消根據(jù)相似性選擇出來的類之間對于特定的測試說話人的近似性。表2新說話人自適應(yīng)數(shù)據(jù)量的不同對識別效果的影響漢字正識率3句5句10句P156.9857.4557.64P257.4857.4358.02P352.3753.4453.67P456.9957.5
11、657.74P555.9856.2356.43P652.9853.4353.60實驗二:選擇的類的數(shù)據(jù)量的不同對識別效果的影響。參考類固定在7類。從表2中可以看出,隨著新說話人自適應(yīng)語料數(shù)量的增加,識別率有一定的上升,但增長不大,其原因可歸結(jié)為,用于類選擇的G模型在充分訓(xùn)練的根底上具有一定的穩(wěn)健性.本文主要研究了在構(gòu)建說話人自適應(yīng)模型的過程中參加基于差異度量的說話人聚類后的識別效果??梢缘贸鲆韵陆Y(jié)論:1G模型雖然具有計算量小,速度快等優(yōu)點,但它不能準確地描繪說話人語音信號的產(chǎn)生過程,因此在構(gòu)建SA模型中不能被用于合成新說話人的語音模型,只能在挑選近似說話人時起到充分的作用。2似然判決后選出的參考類的數(shù)量對自適應(yīng)模型的性能有相當?shù)挠绊懀弘S著這個數(shù)量的加大,我們可以看到SA的識別性能在逐漸向SD系統(tǒng)靠攏,這說明在各方面條件一樣的情況下,供選擇的參考類數(shù)量的多少是決定SA系統(tǒng)性能的一個因素,但同時我們也可以看到,并不是說這個數(shù)量越大識別性能就越好,因為說話人之間的差異也是
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- DB45T 2618.4-2022 行政復(fù)議工作規(guī)范 第4部分:基礎(chǔ)保障
- 2025企業(yè)食品原材料采購合同
- DB45T 2583-2022 特色旅游名鎮(zhèn)評定規(guī)范
- DB45T 2494-2022 桑蠶配合飼料飼育小蠶技術(shù)規(guī)程
- 2025產(chǎn)品合同協(xié)議模板書
- 讀書主題活動總結(jié)5篇
- 年度總結(jié)報告10篇
- 高中數(shù)學(xué)教學(xué)總結(jié)
- 2025網(wǎng)絡(luò)廣告投放合同樣書
- 網(wǎng)絡(luò)安全工作個人自查報告參考8篇
- 第3課 中古時期的歐洲(共51張PPT)
- 濟南律師行業(yè)分析
- 山東大學(xué)答辯專屬PPT模板
- 煙臺汽車西站工程施工組織設(shè)計
- 婦科常用藥物課件
- 2024年人口老齡化國情區(qū)情教育知識競賽試題及答案
- 《踝關(guān)節(jié)康復(fù)訓(xùn)練》課件
- 實驗用豬營養(yǎng)需要
- 2023年壓瘡護理年終總結(jié)
- 大班PPT課件《拍手歌》
- 體育教育專業(yè)大學(xué)生職業(yè)生涯規(guī)劃書
評論
0/150
提交評論