利用現(xiàn)有的語音辨識系統(tǒng)對這些語料進行自動轉(zhuǎn)寫.ppt_第1頁
利用現(xiàn)有的語音辨識系統(tǒng)對這些語料進行自動轉(zhuǎn)寫.ppt_第2頁
利用現(xiàn)有的語音辨識系統(tǒng)對這些語料進行自動轉(zhuǎn)寫.ppt_第3頁
利用現(xiàn)有的語音辨識系統(tǒng)對這些語料進行自動轉(zhuǎn)寫.ppt_第4頁
利用現(xiàn)有的語音辨識系統(tǒng)對這些語料進行自動轉(zhuǎn)寫.ppt_第5頁
免費預(yù)覽已結(jié)束,剩余22頁可下載查看

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認(rèn)領(lǐng)

文檔簡介

非監(jiān)督式學(xué)習(xí)於中文電視新聞自動轉(zhuǎn)寫之初步應(yīng)用,郭人瑋、蔡文鴻、陳柏琳國立臺灣師範(fàn)大學(xué)資訊工程研究所,ExploitingUnsupervisedLearningtoMandarinTVNewsTranscription:AnInitialStudy,Jen-WeiKuo,Wen-HungTsai,BerlinChenSpeechLab,NationalTaiwanNormalUniversity,序論,動機日常生活中能取得的多媒體影音資訊愈來愈多,若要在語音辨識系統(tǒng)上使用這些資訊,人工轉(zhuǎn)寫往往不易取得。解決方法非監(jiān)督式學(xué)習(xí)利用現(xiàn)有的語音辨識系統(tǒng)對這些語料進行自動轉(zhuǎn)寫,並使用信心度評評估來加以篩選。非監(jiān)督式學(xué)習(xí)包含非監(jiān)督式聲學(xué)模型訓(xùn)練利用發(fā)音確認(rèn)技術(shù)來挑選較正確的語料。非監(jiān)督式聲學(xué)模型調(diào)適引入信心度評估來作聲學(xué)模型調(diào)適。非監(jiān)督式語言模型調(diào)適使用自動轉(zhuǎn)寫的文字語料來作語言模型調(diào)適。非監(jiān)督式學(xué)習(xí)之流程與技術(shù),Introduction,Motivation日常生活中能取得的多媒體影音資訊愈來愈多,若要在語音辨識系統(tǒng)上使用這些資訊,人工轉(zhuǎn)寫往往不易取得。SolutionUnsupervisedLearning利用現(xiàn)有的語音辨識系統(tǒng)對這些語料進行自動轉(zhuǎn)寫,並使用信心度評評估來加以篩選。非監(jiān)督式學(xué)習(xí)包含UnsupervisedAcousticModelTraining利用發(fā)音確認(rèn)技術(shù)來挑選較正確的語料。UnsupervisedAcousticModelAdaptation引入信心度評估來作聲學(xué)模型調(diào)適。UnsupervisedLanguageModelAdaptation使用自動轉(zhuǎn)寫的文字語料來作語言模型調(diào)適。,臺師大資工所新聞?wù)Z音辨識系統(tǒng),大詞彙連續(xù)語音辨識系統(tǒng)詞典建立:利用前後雙連機率來作為複合詞合併的依據(jù)。詞彙樹複製搜尋:為一種結(jié)合語言模型與聲學(xué)模型的動態(tài)規(guī)劃搜尋演算法,配合語言模型前看分?jǐn)?shù)及光束剪栽能有效率的建立詞圖。詞圖搜尋:在詞圖上上使用更高階的語言模型,重新進行一次動態(tài)規(guī)劃搜尋,找出最佳的詞句。,NTNULVCSRSystem,LargeVocabularyContinuousSpeechRecognitionSystem詞典建立:利用前後雙連機率來作為複合詞合併的依據(jù)。詞彙樹複製搜尋:為一種結(jié)合語言模型與聲學(xué)模型的動態(tài)規(guī)劃搜尋演算法,配合語言模型前看分?jǐn)?shù)及光束剪栽能有效率的建立詞圖。詞圖搜尋:在詞圖上上使用更高階的語言模型,重新進行一次動態(tài)規(guī)劃搜尋,找出最佳的詞句。,詞圖,圖一、語音辨識器所產(chǎn)生的詞圖,對應(yīng)的轉(zhuǎn)寫為豪雨不斷臺東兩人死亡,非監(jiān)督式學(xué)習(xí)之流程,大量語料,語音辨識,對應(yīng)的自動轉(zhuǎn)寫(第一名詞序列),篩選,篩選,非監(jiān)督式聲學(xué)模型訓(xùn)練,聲學(xué)模型,語言模型,詞典,語音辨識系統(tǒng),詞彙樹複製搜尋,語音輸入,文字輸出,詞圖,詞彙樹複製搜尋,詞圖,MLLR,非監(jiān)督式聲學(xué)模型調(diào)適,詞圖搜尋,篩選,非監(jiān)督式語言模型調(diào)適,文字語料,語型言建模立,語言模型,少量人工轉(zhuǎn)寫語料,聲型學(xué)建模立,聲學(xué)模型,非監(jiān)督式學(xué)習(xí)技術(shù),候選詞事後機率,聲學(xué)信心,候選詞信心度評估,發(fā)音確認(rèn),非監(jiān)督式聲學(xué)模型訓(xùn)練,非監(jiān)督式語言模型調(diào)適,非監(jiān)督式聲學(xué)模型調(diào)適,候選詞事後機率,候選詞事後機率,根據(jù)觀察,以愈高階的語言模型進行詞圖搜尋,候選詞之間的事後機率差異愈是懸殊,例如以三連語言模型進行詞圖搜尋時,第一名詞序列(Top1WordSequence)中的候選詞往往佔有超過0.95的事後機率,換句話說,語言模型所用的階層(Order)愈高,則候選詞事後機率愈受語言模型所影響。將式子作一點修正,引入信心度比例係數(shù)來解決。,候選詞事後機率,其中為信心度比例係數(shù)(ConfidenceScaleFactor),介於0與1之間,表示對聯(lián)合機率施以壓縮,使候選詞間的事後機率差異變小。當(dāng)?shù)褥?時,則表示刻度不變;當(dāng)?shù)褥?時,事後機率為均勻機率(UniformProbability)。,聲學(xué)信心,臺東(taa_iduueng),ta,a_i,du,ueng,sic_a,sic_o,sil,候選詞信心度評估,候選詞信心度評估為候選詞事後機率與聲學(xué)信心的線性組合。,其中與為權(quán)重參數(shù),在以下的非監(jiān)督式聲學(xué)模型訓(xùn)練中,我們均設(shè)為0.5。,發(fā)音確認(rèn),決定某語句是否予以挑選成為非監(jiān)督式訓(xùn)練的語料。發(fā)音確認(rèn)可視為一個決斷函數(shù),根據(jù)平均候選詞信心度評估,來決定自動轉(zhuǎn)寫產(chǎn)生的第一名詞序列是否能成為訓(xùn)練語料。其中為篩選的基準(zhǔn)閥值。,非監(jiān)督式聲學(xué)模型調(diào)適,大多數(shù)的非監(jiān)督式聲學(xué)模型調(diào)適僅取第一次辨識所產(chǎn)生的第一名詞序列來做聲學(xué)模型調(diào)適的依據(jù)。然而語音辨識的錯誤可能會對聲學(xué)模型調(diào)適造成影響,使得調(diào)適效果有限。我們嘗試使用候選詞信心度評估為詞圖上的候選詞進行加權(quán),使得每一個候選詞依其信心度評估分?jǐn)?shù)對模型調(diào)適都有不同程度的貢獻。,非監(jiān)督式聲學(xué)模型調(diào)適,演算法:測試語句經(jīng)由詞彙樹複製搜尋(Tree-CopySearch),產(chǎn)生詞圖(WordGraph)。利用Forward-Backward演算法在詞圖上進行詞圖搜尋(WordGraphRescoring),為詞圖上的每一候選詞求出其對應(yīng)的信心度評估。針對每一候選詞的語音段落,再使用一次狀態(tài)層次(StateLevel)Forward-Backward演算法,為每一音框(Frame)t及狀態(tài)(State)i求其事後機率。,非監(jiān)督式聲學(xué)模型調(diào)適,演算法:最後,將乘上所屬候選詞的事後機率,並對所有候選詞語音段落加總??傻靡艨驎rt,狀態(tài)i的事後機率。重覆上述步驟,收集MLLR模型調(diào)適時所需的統(tǒng)計量,並進行MLLR模型調(diào)適。,廣播及電視新聞?wù)Z料,初始聲學(xué)模型:大約4小時語料收錄於1998至1999年之間。所有的語料都經(jīng)由人工切割為一則一則的新聞?wù)Z音檔,每一則新聞均由一個主播所播報,性別上男女都有。某些檔案因錄音的關(guān)係,含有相當(dāng)大的背景雜訊。初始語言模型:收錄2000及2001年中央社的新聞。約含有162M個中文字。,廣播及電視新聞?wù)Z料,公視新聞?wù)Z料為中央研究院資訊所口語小組耗時三年與公共電視臺合作錄製完成,預(yù)計將收錄200小時的廣播新聞。公視新聞?wù)Z料大致上可分內(nèi)場及外場兩個部份,內(nèi)場部分主要為主播(StudioAnchors)的語料,外場部分主要為記者(FieldReporters)與受訪者(Interviewees)的語料。經(jīng)由統(tǒng)計,MATBN2002與MATBN2003共120小時的語料內(nèi),只含有五位主播,其中以葉明蘭主播的語料佔絕大多數(shù),約85%,使得要在內(nèi)場中定義出一套較具代表性的訓(xùn)練及測試語料,顯得有些困難。,廣播及電視新聞?wù)Z料,本實驗的訓(xùn)練語料,廣播及電視新聞?wù)Z料,本實驗的測試語料,非監(jiān)督式聲學(xué)模型調(diào)適基礎(chǔ)實驗,基礎(chǔ)實驗與非監(jiān)督式聲學(xué)模型調(diào)適之語音辨識結(jié)果:嘗試改變信心度比例係數(shù)與計算候選詞事後機率時語言模型的階層。MLLR(Top1)為傳統(tǒng)只取用第一名辨識結(jié)果詞序列來做MLLR調(diào)適;MLLR(CM)為引入信心度評估的MLLR調(diào)適。字錯誤率減少百分比為相對於無聲學(xué)模型調(diào)適之字錯誤率。,MLLR(CM),MLLR(CM),MLLR(CM),MLLR(CM),MLLR(CM),MLLR(CM),MLLR(CM),MLLR(CM),非監(jiān)督式聲學(xué)模型訓(xùn)練實驗結(jié)果,非監(jiān)督式聲學(xué)模型訓(xùn)練在使用不同基準(zhǔn)閥值下的語音辨識結(jié)果。Thr為非監(jiān)督式聲學(xué)模型訓(xùn)練用以選取語句之基準(zhǔn)閥值,MLLR(CM)為引入信心度評估的MLLR調(diào)適,信心度比例係數(shù)在此設(shè)為1/16。同一列中,MLLR括弧內(nèi)的數(shù)據(jù)為相對於無聲學(xué)模型調(diào)適時字錯誤率減少百分比。最後一列的監(jiān)督式訓(xùn)練為對照組。,非監(jiān)督式語言模型調(diào)適實驗結(jié)果,自動轉(zhuǎn)寫用於語言模型調(diào)適的語音辨識結(jié)果。Thr為非監(jiān)督式聲學(xué)模型訓(xùn)練用以選取語句之基準(zhǔn)閥值,括弧內(nèi)之?dāng)?shù)據(jù)為相對於無語言模型調(diào)適之字錯誤率減少百分比。,領(lǐng)域內(nèi)之語言模型調(diào)適實驗結(jié)果,領(lǐng)域內(nèi)語言模型調(diào)適的語音辨識結(jié)果。MLLR(CM)為引入信心度評估的MLLR調(diào)適,信心度比例係數(shù)在此設(shè)為1/16。,結(jié)論與未來展望,發(fā)音確認(rèn)能有效地挑選較為可靠的語料來進行訓(xùn)練,節(jié)省大量的人力進行人工轉(zhuǎn)寫,使龐大的語料能被運用。信心度評估也使得詞圖上更多的資訊能應(yīng)用在非監(jiān)督式聲學(xué)模型調(diào)適上,不再只侷限於

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論