




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)
文檔簡介
以NIST的評估結(jié)果說明LID技術(shù)的發(fā)展一、93年、94年和95年1、NIST評估結(jié)果[1] 一這3年NIST(theNationalInstituteofStandardsandTechnology)評估采用的數(shù)據(jù)庫是OGI-TS數(shù)據(jù)庫,測試方案為閉集測試。其中93年測試10種語種,94年測試11種語種,95年測試9種語種。測試語音時長分為45秒和10秒。測試有兩種方案:一種是兩種語種測試(LanguagePariswithEnglish),也就只測英語和其他語種中的一種,取平均錯誤率;另一種是多個語種測試(N-WAYClassification),取平均錯誤率。每年的最好的性能(錯誤率)分別見下表:表1NIST93年LID的評估結(jié)果方案/時^技術(shù)方法LanguagePariswithEnglishN-WAYClassification45s10s45s10sSF7%13%22%41%表2NIST94年LID的評估結(jié)果方案/時長技術(shù)方法LanguagePariswithEnglishN-WAYClassification45s10s45s10sPR4%10%21%30%表3NIST95年LID的評估結(jié)果方案^時^技術(shù)方法LanguagePariswithEnglishN-WAYClassification45s10s45s10sSF/PR2%(SF/PR)4%(PR)12%(SF/PR)23%(SF)這里所采用的LID技術(shù)方法中,SF指的是syllabicfeaturesystem,PR指的是phonerecognitionfollowedbylanguagemodelingsystem。需要說明的是:在NIST95年評測中,SF/PR指的是上述兩種方法的融合方法。2、所采用的LID技術(shù)方法介紹在SF系統(tǒng)中,當(dāng)時比較有代表性的是基于倒譜特征建模的方法和基于韻律特征建模的方法。1)基于倒譜特征建模的方法[2,3]對語音提取LPCC、MFCC等倒譜特征,訓(xùn)練時采用VQ、GMM和HMM等方法對每個語種建立相應(yīng)的模型,識別時對測試語音提取倒譜特征向量,得到每個語種的模型概率得分,取得分最大的模型所對應(yīng)的語種為識別的語種。這種方法實現(xiàn)比較簡單,實時處理速度也很快,但是識別準(zhǔn)確率不是很高。2)基于韻律特征建模的方法[4,5]對語音的每個syllable提取基音和幅度包絡(luò)、時長特性和重音模式等韻律
特征,訓(xùn)練建立每個語種的相應(yīng)模型,識別時取得分最大的模型所對應(yīng)的語種為識別的語種。這種方法同樣實時處理速度較快,但是準(zhǔn)確率受不同語種測試組合的影響比較大。在PR系統(tǒng)中,當(dāng)時比較有代表性的是基于phone識別器的方法,即PPRLM方法[6],這種方法的結(jié)構(gòu)框圖如圖1所示:該方法前端是平行的多個phone識別器,分別生成每個語種的phone串,由phone串訓(xùn)練相應(yīng)的N-gramLanguageModel,測試句子的phone串在這些LanguageModel的得分相加,取得分最大的模型對應(yīng)的語種即為所識別語種。圖1PPRLM系統(tǒng)框圖PPRLM系統(tǒng)前端可以是任意語種的phone識別器,并且數(shù)目可以任意擴(kuò)展,但是需要每個語種帶標(biāo)注的語料訓(xùn)練相應(yīng)的phone識別器,而且數(shù)目越多,處理速度也越慢。二、1996年和2003年1、NIST評估結(jié)果[7,8]這兩年NIST均采用CallFriend數(shù)據(jù)庫作為評測數(shù)據(jù)庫,測試方案為開集測試,目標(biāo)語種均為12種,外加其他非目標(biāo)語種或者其他集上的目標(biāo)語種。測試語音時長分為30秒、10秒和3秒,最終以EER作為評測性能的比較。這兩年最好的系統(tǒng)性能分別如下表所示。表4NIST96年LID的評估結(jié)果1(EER)語音時長技術(shù)方法30s10s3sPPRLM9.6%17.8%26.4%而在參考文獻(xiàn)[1]中提到,如果采用95年的測試方案對96年的評估數(shù)據(jù)進(jìn)行閉集測試,評估結(jié)果則如下表所示。
表5NIST96年LID的評估結(jié)果2(ER)-方案/時^技術(shù)方法LanguagePariswithEnglishN-WAYClassification30s10s30s10sPPRLM5%13%23%46%在96年之后的長達(dá)6年里,NIST沒有對LID進(jìn)行評估,直到2003年,NIST提出和96年一樣的評估方案。共有6家單位參與了評估,最后以MITLincolnLaboratory的系統(tǒng)性能最好,該系統(tǒng)融合了PPRLM、GMM和SVM三種方法,其評估的結(jié)果如下表所示:表6NIST03年LID的評估結(jié)果(EER)語音時長技術(shù)方法30s10s3sPPRLM6.6%14.3%25.5%GMM4.8%9.8%19.8%SVM6.1%16.4%28.2%FUSE32.8%7.8%20.3%2、所采用的LID技術(shù)方法介紹PPRLM方法該方法前面已經(jīng)介紹過了,但03年所用的PPRLM方法是96年的改進(jìn)版本,主要做了兩方面改進(jìn),一是增加了靜音phone模型,二是采用TrigramLanguageModel代替原來的BigramLanguageModel.GMM方法此方法主要包含兩種:GMM_UBM方法和GMMTokenization方法,MIT03年評估所采用的是在參考文獻(xiàn)[]中提到的GMMTokenization方法的改進(jìn)版本。GMM_UBM方法[9]該方法使用所用語種的訓(xùn)練數(shù)據(jù)訓(xùn)練一個UniformBackgroundModel(UBM),然后再使用每個語種的部分訓(xùn)練數(shù)據(jù)從UBM中自適應(yīng)出每個語種的模型,該方法借助快速高斯的概念求出每個語種模型的概率得分,選模型得分最大者對應(yīng)的語種即為所識別的語種,其結(jié)構(gòu)框架如圖2所示[]:圖2GMM_UBM方法框圖采用94年NIST的評估方案和數(shù)據(jù),參考文獻(xiàn)[]使用該方法對11種OGI-TS語種測試,特征采用PLP特征,得到Baseline測試結(jié)果
(PLP_Baseline);然后Baseline基礎(chǔ)上,特征方面采用VTLN技術(shù),消除說話人聲道影響,5次迭代之后得到第二組測試結(jié)果(PLP_VTLN);最后把該方法和PPRLM方法的概率得分融合,得到第三組測試結(jié)果(FusedSystem)。每組實驗結(jié)果如表7所小:表7GMM_UBM的實驗結(jié)果(ER)語音時長技術(shù)方法45s10sPLP_Baseline23%34.4%PLP_VTLN14.4%27.0%FusedSystem10.2%18.4%GMMTokenization方法[10,11]該方法和PPRLM方法類似,不同之處是該方法采用每個語種的GMM代替PPRLM中的每個語種的phone識別器作為前端解碼器,從而把語音解碼生成一串最大得分高斯分量的索引序列,由此索引序列訓(xùn)練得到每個語種的LanguageModel。該方法的結(jié)構(gòu)框圖如圖3所示:圖3GMMTokenziation方法框圖在參考文獻(xiàn)[12]中基于GMMTokenization方法,采用SDC(shifteddeltacepstrum)特征,對CallFriend數(shù)據(jù)庫中12種語種的1492個30秒的語音片斷進(jìn)行測試,該方法和其他方法的比較試驗結(jié)果如表8所示:表8GMMTokenization方法于其他方法的比較實驗結(jié)果(EER)方法AcousticTOKFusionPPRLM結(jié)果8.78%8.78%6.90%7.84%其中,Acoustic方法指的是只用前端GMM得分作為決策的方法;TOK方法指的是只用后端LanguageModel得分決策的方法;Fusion指的是兩種得
分融合決策的方法。MIT03年評估所采用的GMM方法融合了GMM_UBM和GMMTokenization兩種方法,是GMMTokenization的改進(jìn)版本。它采用UBM自適應(yīng)出來的每個語種的GMM代替GMMTokenization前端的GMM編碼器,此外又作了兩項改進(jìn):一是采用特征映射技術(shù),消除了信道影響,二是每個語種分男女兩個模型,以消除說話人的部分影響。3)SVM方法[12]SVM方法只是近年來才用于語種識別,MIT03年LID評估所用的SVM方法系統(tǒng)框圖如圖4所示:圖4SVM方法框圖使用SVM方法、GMM方法以及這兩種方法融合的方法對NIST03年評估的30秒的數(shù)據(jù)進(jìn)行測試,其結(jié)果如下表9所示:表9SVM方法、GMM方法和Fused方法的實驗結(jié)果系統(tǒng)EERSVM6.1%GMM4.8%Fused3.2%三、總結(jié)PPRLM方法性能穩(wěn)定而且最好,GMM_UBM、GMMTokenization方法和SVM方法性能較差,但是其處理速度卻比PPRLM方法快得多。這些方法各有優(yōu)缺點(diǎn),有一定的互補(bǔ)性,所以現(xiàn)在國際上多是把這些方法融合以取得最佳的語種識別性能。參考文獻(xiàn)MarcA.ZissmanandKayM.Berkling,AutomaticLanguageIdentification,SpeechCommunication.VdI35,2001,pp:115-124.M.Sugiyama.AutomaticLanguageRecognitionusingAcousticFeature.Proc.ICASSP’91,Vd1.2,May,1991.M.A.Zissman,AutomaticLanguageIdentificationUsingGaussianMixtureandHiddenMarkovModels,inProceedingsoftheIEEEInternationalConferenceonAcoustics,Speech,andSignalProcessing,VdL2,pp.399-402,Minneapolis,USA,April1993.Itahashi,S.,Neuburg,E.P.,LanguageIdentificationbasedonspeechfundamentalfrequency,Eurospeech,Vol.2,pp:1359-1362,1995Thyme-Gobbel,A.E.,Hutchins,S.E.,Onusingprosodiccuesinautomaticlanguageidentification,InternationalConferenceonSpokenLanguageProcessing,Vol.3,pp:1768-1772,1996MarcA.Zissman,ComparisonforFourApproachestoAutomaticLanguageIdentificationofTelephoneSpeech,IEEETransactionsonSpeechandAudioProc.Vol.4,1996.E.Singer,P.A.Torres-Carrasquillo,T.P.Gleason,W.M.CampbellandD.A.Reynolds,Acoustic,PhoneticandDiscriminativeApproachestoAutomaticLanguageRecognition,Euroespeech,Sep.1-4,2003,Geneva,Switzerland.AlvinF.MartinandMarkA.Przybockl,NIST2003LanguageRecognitionEvaluation,ProceedingsofEurospeech,2003,pp:161-164E.WongandS.Sridharan,MethodstoImproveGaussianMixtureModelBasedLanguageIdentificationSystem,Proc.ICSLP,Sept.2002,pp:93-96P.A.Torres-Carrasquillo,D.A.ReynoldsandJ.R.Deller,Jr.,LanguageIdentificationusingGaussianMixtureModelTokenization,ICASSP,Orlando,Fl,USA,2002.P.A.Torres-Carrasquillo,E.Singer,M.A.Kohler,R.J.Greene,D.A.ReynoldsandJ.R.Dellar,Jr.,ApproachestoLanguageIdentificationusingGaussianMixtureModelandShiftedDeltaCepstralFeatures,Proc.ICSLP,Sept.2002,pp:89-92W.M.Campbell,E.Singer,P.A.Torres-CarrasquilloandD.A.Reynolds,LanguageRecognitionwithSupportVectorMachine,Proc.Odyssey:TheSpeakerandLanguageRecognitionWorkshopinToledo,Spain,ISCA,pp.41-44,31May-3June2004.2.詳細(xì)技術(shù)內(nèi)容語種識別在信息檢索和軍事領(lǐng)域都有很重要的應(yīng)用,主要包括多語種信息查詢、機(jī)器自動翻譯的前端處理以及軍事上對說話人身份和國籍的自動識別等。當(dāng)前,國際上主流的語種識別系統(tǒng)主要有以下三種:基于phone識別器的語種識別系統(tǒng)(PPRLM),其原理是語音信號經(jīng)過特征提取之后,通過多個平行的phone識別器生成phone序列,由這些序列訓(xùn)練相應(yīng)各語種的n-gram語言模型,測試句子的phone序列由語言模型打分,取得分最大的語言模型所對應(yīng)的語種作為所識別的語種。這種方法的優(yōu)點(diǎn)是性能最好而且穩(wěn)定,缺點(diǎn)是需要訓(xùn)練識別器,所以識別速度慢?;贕MM-UBM的語種識別系統(tǒng),其原理是由全局背景模型(UBM)自適應(yīng)獲得各目標(biāo)語種的高斯混合模型,然后計算測試句子在各語種模型上的得分,取得分最大的模型所對應(yīng)的語種為所識別的語種。這種方法的優(yōu)點(diǎn)是不需要訓(xùn)練識別器,識別速度快,但性能較PPRLM方法較差。基于支持向量機(jī)(SVM)的語種識別系統(tǒng),其原理是語音信號的每幀頻譜特征向量通過 GLDS(GeneralizedLinearDiscriminantSequence)模塊,轉(zhuǎn)換成帶有區(qū)分性的序列特征向量,以此訓(xùn)練得到各語種的SVM模型。測試句子的序列特征向量由各語種的SVM模型打分,取得分最大的模型所對應(yīng)的語種為所識別的語種。這種方法最近才用于語種識別,其性能還有待進(jìn)一步提高。我們在應(yīng)用于媒體資源管理時,所開發(fā)應(yīng)用的語種識別系統(tǒng)是基于GMM-UBM的語種識別系統(tǒng),其系統(tǒng)結(jié)構(gòu)框架如下:流程步驟:使用各語種的所有訓(xùn)練集數(shù)據(jù)獲得一個語言全局背景模型(UBM),然后由貝葉斯自適應(yīng)算法獲得各目標(biāo)語種的高斯混合模型(GMM);使用各語種的開發(fā)集數(shù)據(jù),計算得到各語種的模型得分,把該得分向量借助LDA降維,得到各語種的后端高斯分類器;測試時,首先由UBM獲得前N個得分最大的高斯混合分量,然后計算各語種在此N個分量上的模型得分,把該得分向量輸入各語種的后端高斯分類器,取得分最大的分類器所對應(yīng)的語種為所識別的語種。該系統(tǒng)涉及到的關(guān)鍵技術(shù)包括:倒譜SDC特征的提取、抗噪、靜音檢測叭信道和說話人歸一化技術(shù)等;模型的聚類(K均值聚類、ISODATA聚類等)、貝葉斯自適應(yīng)算法以及LDA算法等。國際上NIST2003年語種識別系統(tǒng)評估的最好結(jié)果是由MIT實驗室取得的,其把基于PPRLM、UBM-GMM和SVM三種系統(tǒng)融合,對12種語言的30秒、10秒和3秒的語音識別,其等錯誤率(EER)結(jié)果分別為2.8%、7.8%和20.3%;而我們的系統(tǒng)在對短波帶噪的60秒的語音識別時,10種語言的識別率達(dá)到90%以上。2.詳細(xì)技術(shù)內(nèi)容語種識別在信息檢索和軍事領(lǐng)域都有很重要的應(yīng)用,主要包括多語種信息查詢、機(jī)器自動翻譯的前端處理以及軍事上對說話人身份和國籍的自動識別等。世界上的不同語種間有很多區(qū)別,比如音素集合、音位序列、音節(jié)結(jié)構(gòu)、韻律特征、語法及語義等。利用這些特征和大詞匯量連續(xù)語音識別的一些關(guān)語音信號特征提取之后,經(jīng)過多個平行的phone識別器生成phone序列,由這些序列訓(xùn)練相應(yīng)各語種的n-gram語言模型,測試時由得分最大的語言模型所對應(yīng)的語種作為所識別的語種。5)基于GMM-UBM的語種識別系統(tǒng)這種系統(tǒng)的框架如圖2所示:
訓(xùn)練時,使用各語種的所有訓(xùn)練數(shù)據(jù)獲得一個語言全局背景模型(UBM),然后
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 房屋中介公司雇傭合同
- 個人授信額度借款合同
- 個人房屋出租協(xié)議書
- 鋁合金方管施工方案
- 懸挑翼緣板施工方案
- 廠房照明施工方案
- 瓷磚干掛施工方案
- 海西輕鋼別墅施工方案
- 沈陽地源熱泵井施工方案
- 河南省平頂山市汝州市2024-2025學(xué)年八年級上學(xué)期期末生物試題(原卷版+解析版)
- 廣東外語外貿(mào)大學(xué)會計專碩復(fù)試
- 行政處罰案件集體討論審理記錄
- 變電站綜合自動化
- 德語現(xiàn)代主義文學(xué)-浙江大學(xué)中國大學(xué)mooc課后章節(jié)答案期末考試題庫2023年
- 2022年安徽省公務(wù)員錄用考試《行測》真題及答案
- 2023年高中音樂課件大宅門-電視劇《大宅門》主題歌
- 國際貿(mào)易地理全套課件
- 內(nèi)科學(xué)支氣管擴(kuò)張癥(課件)
- 部編人教版五年級道德與法治下冊全冊完整課件ppt
- RB/T 115-2014能源管理體系石油化工企業(yè)認(rèn)證要求
- GB/T 32512-2016光伏發(fā)電站防雷技術(shù)要求
評論
0/150
提交評論