第12章-深度學(xué)習(xí)在語音中的應(yīng)用_第1頁
第12章-深度學(xué)習(xí)在語音中的應(yīng)用_第2頁
第12章-深度學(xué)習(xí)在語音中的應(yīng)用_第3頁
第12章-深度學(xué)習(xí)在語音中的應(yīng)用_第4頁
第12章-深度學(xué)習(xí)在語音中的應(yīng)用_第5頁
已閱讀5頁,還剩16頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

DEEPLEARNING深度學(xué)習(xí)第十二章深度學(xué)習(xí)在語音中的應(yīng)用12.1語音識別基礎(chǔ)12.2基于深度學(xué)習(xí)的連續(xù)語音識別12.3應(yīng)用舉例:語音輸入法of282習(xí)題12.1語音識別基礎(chǔ)第十二章深度學(xué)習(xí)在語音中的應(yīng)用of2831摩爾定律持續(xù)有效。有了多核處理器、通用計(jì)算圖形處理器(GeneralPurposeGraphicalProcessingUnit,

GPGPU)、CPU/GPU集群等技術(shù),這使得訓(xùn)練更加強(qiáng)大而復(fù)雜的模型變得可能。2借助越來越先進(jìn)的互聯(lián)網(wǎng)和云計(jì)算,我們得到了比先前多得多的數(shù)據(jù)資源。使用從真實(shí)場景收集的大數(shù)據(jù)進(jìn)行模型訓(xùn)練,提高了系統(tǒng)的可應(yīng)用性。3移動(dòng)設(shè)備、可穿戴設(shè)備、智能家居設(shè)備、車載信息娛樂系統(tǒng)正變得越來越游行。在這些設(shè)備和系統(tǒng)上,語音作為人類之間最自然交流方式,在這些設(shè)備和系統(tǒng)上成為更受歡迎的交互方式。語音識別最基本的定義是“電腦能聽懂人類說話的語句或命令,而做出相應(yīng)的工作“。50多年來,該技術(shù)漸漸開始改變我們的生活和工作方式,這種趨勢的出現(xiàn)和下面幾個(gè)關(guān)鍵領(lǐng)域的進(jìn)步是分不開的。1.從實(shí)驗(yàn)室環(huán)境到實(shí)際應(yīng)用場景語音識別系統(tǒng)可以用來消除人類之間的障礙。人們?nèi)绻胍c不同語言的使用者進(jìn)行交流,需要另一個(gè)人作為翻譯才行。S2S翻譯系統(tǒng)可以用來消除這種交流壁壘。同時(shí)還可以整合到像Skype這樣的一些交流工具中。下圖列舉了一個(gè)典型的S2S翻譯系統(tǒng)的心組成模塊,可以看到,語音識別是整個(gè)流水線中的第一環(huán)。第十二章深度學(xué)習(xí)在語音中的應(yīng)用of28412.1語音識別基礎(chǔ)-人類之間的交流語音與語音(Speech-to-Speech,S2S)翻譯系統(tǒng)

除此之外,語音識別技術(shù)還有其他形式用來幫助人類交流。1、消息發(fā)送者的語音信息可以通過語音轉(zhuǎn)文字系統(tǒng)轉(zhuǎn)換為文本信息。2、利用語音識別技術(shù)進(jìn)行輸入可以更便捷。提高用戶使用友好性。第十二章深度學(xué)習(xí)在語音中的應(yīng)用of28512.1語音識別基礎(chǔ)—人機(jī)交流人機(jī)

交流智能家居智能游戲語音搜索個(gè)人數(shù)碼助理(PDA)智能家居系統(tǒng)允許用戶使用語音與之交互,用戶通過它們來播放音樂、詢問信息或者控制系統(tǒng)。在融合語音識別技術(shù)后,游戲的體驗(yàn)將得到很大的提升。例如,在一些微軟Xbox的游戲中,玩家可以和卡通角色對話以詢問信息或者發(fā)出指令。用戶可以直接通過語音來搜索餐館、行駛路線和商品評價(jià)的信息。目前,語音搜索類應(yīng)用在iPhone、Android手機(jī)上已經(jīng)非常流行。PDA知曉移動(dòng)設(shè)備上的信息,了解一些常識,并記錄了用戶與系統(tǒng)的交互歷史。有了這些信息,PDA可以更好地服務(wù)用戶。比如,可以完成撥打電話、安排會(huì)議、回答問題和音樂搜索等工作。第十二章深度學(xué)習(xí)在語音中的應(yīng)用of28612.1語音識別基礎(chǔ)—基本結(jié)構(gòu)以上是語音識別系統(tǒng)的典型結(jié)構(gòu),語音識別系統(tǒng)主要由圖中的四部分組成:信息處理和特征提取、聲學(xué)模型(AM)、語言模型(LM)和解碼搜索部分。第十二章深度學(xué)習(xí)在語音中的應(yīng)用of28712.1語音識別基礎(chǔ)—特征提取

特征提取梅爾頻率倒譜系數(shù)(Mel-FrequencyCepstralCoefficients,MFCC)感知線性預(yù)測系數(shù)(PerceptualLinearPrediction,PLP)保留Mel濾波器輸出各維度之間相關(guān)性的濾波器組特征(FilterBankFeature)

原始模擬信號首先經(jīng)錄入器件轉(zhuǎn)化為數(shù)字信號,聲學(xué)特征提取部分負(fù)責(zé)從數(shù)字化后的語音中提取聲學(xué)特征信息。為保證識別準(zhǔn)確率,該特征應(yīng)該對聲學(xué)模型的建模單元具有較好的區(qū)分性。同時(shí),為了能夠高效的計(jì)算聲學(xué)模型參數(shù)和進(jìn)行解碼識別,聲學(xué)特征需要在盡量保留語音中文本信息的前提下,抑制諸如說話人、信道、環(huán)境噪聲等干擾信息,并且維持一個(gè)適中的維度。提取良好的具有區(qū)分性的聲學(xué)特征對提升語音識別系統(tǒng)的性能至關(guān)重要。第十二章深度學(xué)習(xí)在語音中的應(yīng)用of28812.1語音識別基礎(chǔ)—聲學(xué)模型

聲學(xué)模型高斯混合模型-隱馬爾可夫模型(GMM-HMM)最大似然準(zhǔn)則(MaximumLikelihood,ML)最小分類錯(cuò)誤(MCE)和最小音素錯(cuò)誤(MPE)上下文相關(guān)的深度神經(jīng)網(wǎng)絡(luò)—隱馬爾可夫模型(CD-DNN-HMM)

關(guān)于聲學(xué)模型,有兩個(gè)主要問題,分別是特征向量序列的可變長和音頻信號的豐富變化性??勺兓卣飨蛄啃蛄械膯栴}在學(xué)術(shù)上通常由動(dòng)態(tài)時(shí)間規(guī)整方法和隱馬爾可夫模型(HMM)方法來解決。音頻信息的易變性是由說話人的各種復(fù)雜的特征(如性別、健康狀況或緊張程度)交織,或是說話風(fēng)格與速度、環(huán)境噪聲、周圍人聲、信道扭曲(如麥克風(fēng)音的差異)、方言差異、非母語口音引起的。一個(gè)成功的語音識別系統(tǒng)必須能夠應(yīng)付所有這類聲音的變化因素。第十二章深度學(xué)習(xí)在語音中的應(yīng)用of28912.1語音識別基礎(chǔ)—語言模型

語言模型語音識別系統(tǒng)的目的是把語音轉(zhuǎn)換成文字。具體來說,是輸入一段語音信號,要找一個(gè)文字序列(由詞或文字組成),使得它與語音信號的匹配程度最高。這個(gè)匹配程度一般是用概率來表示。用學(xué)表示語音信號,

表示文字序列,則要求解的是表示給定文字后語音信號的概率表示一個(gè)文字序列本身的概率12.1語音識別基礎(chǔ)—解碼器第十二章深度學(xué)習(xí)在語音中的應(yīng)用of2810

解碼器解碼器(Decoder)是語音識別中的又一重要環(huán)節(jié),為了能夠識別出語音信息中所包含的文本信息,我們需要結(jié)合通過聲學(xué)模型計(jì)算得到的語音特征聲學(xué)概率和由語言模型計(jì)算出的語言模型概率,利用解碼器通過相關(guān)搜索算法分析出最有可能性的詞序列

?;趧?dòng)態(tài)規(guī)劃思想的維特比算法(ViterbiAlgorithm)

Beam裁剪算法高斯選擇算法語言模型前看算法12.1語音識別基礎(chǔ)—GMM-HMM模型第十二章深度學(xué)習(xí)在語音中的應(yīng)用of2811

傳統(tǒng)的GMM-HMM中,一般使用連續(xù)高斯混合模型刻畫產(chǎn)生觀察狀態(tài)的概率密度函數(shù)。GMM的許多優(yōu)點(diǎn)使它很適合于在HMM的狀態(tài)層面對輸入數(shù)據(jù)建模。例如,在有足夠多的混合成分時(shí),GMM能夠擬合任何一種概率分布:GMM模型參數(shù)的計(jì)算可以被并行化,從而高效實(shí)現(xiàn)訓(xùn)練。上圖給出了利用GMM-HMM建模語音信號的示例,我們可以觀測到語音信號中的特征矢量,具體該某一觀測特征矢量是由哪一個(gè)HMM狀態(tài)產(chǎn)生的我們就無從知道,需要通過訓(xùn)練數(shù)據(jù)建模從而估計(jì)出觀測值生成概率。12.1語音識別基礎(chǔ)—GMM-HMM模型第十二章深度學(xué)習(xí)在語音中的應(yīng)用of2812下面簡明講述GMM-HMM在語音識別上的原理,建模和測試過程。一個(gè)詞的識別全過程作為例子。1、將聲波分割成等長的語音幀,對每個(gè)語音幀提取特征(例如,梅爾頻率倒譜系數(shù))2、對每個(gè)語音幀的特征進(jìn)行GMM訓(xùn)練,得到每個(gè)語音幀frame(o_i)屬于每個(gè)狀態(tài)的概率3、根據(jù)每個(gè)單詞的HMM狀態(tài)轉(zhuǎn)移概率計(jì)算每個(gè)狀態(tài)序列生成該語音幀的概率。

哪個(gè)詞的HMM序列計(jì)算出來的概率最大,就判斷這段語音屬于該詞)12.1語音識別基礎(chǔ)—GMM-HMM模型第十二章深度學(xué)習(xí)在語音中的應(yīng)用of2813GMM-HMM在語音識別中應(yīng)用的系統(tǒng)框圖12.1語音識別基礎(chǔ)12.2基于深度學(xué)習(xí)的連續(xù)語音識別第十二章深度學(xué)習(xí)在語音中的應(yīng)用12.3應(yīng)用舉例:語音輸入法of2814習(xí)題12.2DNN-HMM混合系統(tǒng)第十二章深度學(xué)習(xí)在語音中的應(yīng)用of2815

在這個(gè)框架中,HMM用來描述語音信號的動(dòng)態(tài)變化,而觀察特征的概率則通過DNN來估計(jì)。在給定聲學(xué)觀察特征的條件下,我們用DNN的每個(gè)輸出節(jié)點(diǎn)來估計(jì)連續(xù)密度HMM的某個(gè)狀態(tài)的后驗(yàn)概率。除了DNN內(nèi)在的鑒別性屬性,DNN-HMM還有兩個(gè)額外的好處:訓(xùn)練過程可以使用維特比算法,解碼通常也非常高效。12.2CD-DNN-HMM系統(tǒng)第十二章深度學(xué)習(xí)在語音中的應(yīng)用of2816

CD-DNN-HMM包含三個(gè)組成部分,一個(gè)深度神經(jīng)網(wǎng)絡(luò)

,一個(gè)隱馬爾可夫模型

,以及一個(gè)狀態(tài)先驗(yàn)概率分布

。由于CD-DNN-HMM系統(tǒng)和GMM-HMM系統(tǒng)共享音素綁定結(jié)構(gòu),訓(xùn)練CD-DNN-HMM的第一步就是使用訓(xùn)練數(shù)據(jù)訓(xùn)練一個(gè)GMM-HMM系統(tǒng)。因?yàn)镈NN訓(xùn)練標(biāo)注是由GMM-HMM系統(tǒng)采用維特比算法產(chǎn)生得到的,而且標(biāo)注的質(zhì)量會(huì)影響DNN系統(tǒng)的性能。因此,訓(xùn)練一個(gè)好的GMM-HMM系統(tǒng)作為初始模型就非常重要。訓(xùn)練CD-DNN-HMM的主要步驟12.3應(yīng)用舉例:語音輸入法12.2基于深度學(xué)習(xí)的連續(xù)語音識別12.1語音識別基礎(chǔ)第十二章深度學(xué)習(xí)在語音中的應(yīng)用of2817習(xí)題12.3語音輸入法—案例背景

語音識別是指機(jī)器通過學(xué)習(xí)實(shí)現(xiàn)從語音信號到文字符號的理解過程,近幾十年取得了很大的進(jìn)展,并產(chǎn)生了一些實(shí)用的語音輸入系統(tǒng),如IBM的ViaVoice和微軟的語音輸入法。在國內(nèi)科大訊飛、搜狗知音、百度語音識別是中國三大語音技術(shù)的佼佼者。of2818第十二章深度學(xué)習(xí)在語音中的應(yīng)用如果將現(xiàn)有的語音識別技術(shù)和已經(jīng)發(fā)展的十分成熟的拼音輸入法相結(jié)合起來,使用語音識別技術(shù)代替手工敲擊鍵盤,使用成熟的拼音輸入法進(jìn)行組詞和選詞,將會(huì)很大地提高輸入效率。如果語音識別出現(xiàn)錯(cuò)誤,還可以使用鍵盤進(jìn)行修改,同時(shí)針對性地對識別錯(cuò)誤的詞語進(jìn)行再訓(xùn)練,提高識別率。12.3語音輸入法—語音輸入法設(shè)計(jì)of2819第十二章深度學(xué)習(xí)在語音中的應(yīng)用

語音輸入法是基于C/S結(jié)構(gòu)設(shè)計(jì)的。它有一個(gè)語音服務(wù)器,即語音中心SpeechCenter,負(fù)責(zé)從聲卡采集數(shù)據(jù)進(jìn)行語音識別,為各個(gè)輸入法客戶端提供識別結(jié)果(拼音)。輸入法的客戶端是由拼音輸入法FreeVoice的實(shí)體構(gòu)成的,在Windows里,每一個(gè)輸入法實(shí)際上是一個(gè)

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論