![數(shù)字圖像處理與深度學(xué)習(xí)技術(shù)應(yīng)用 課件 第12章 基于深度學(xué)習(xí)CNN模型的語(yǔ)音識(shí)別_第1頁(yè)](http://file4.renrendoc.com/view12/M06/09/28/wKhkGWbQNreAFbIPAACuIHOARKs729.jpg)
![數(shù)字圖像處理與深度學(xué)習(xí)技術(shù)應(yīng)用 課件 第12章 基于深度學(xué)習(xí)CNN模型的語(yǔ)音識(shí)別_第2頁(yè)](http://file4.renrendoc.com/view12/M06/09/28/wKhkGWbQNreAFbIPAACuIHOARKs7292.jpg)
![數(shù)字圖像處理與深度學(xué)習(xí)技術(shù)應(yīng)用 課件 第12章 基于深度學(xué)習(xí)CNN模型的語(yǔ)音識(shí)別_第3頁(yè)](http://file4.renrendoc.com/view12/M06/09/28/wKhkGWbQNreAFbIPAACuIHOARKs7293.jpg)
![數(shù)字圖像處理與深度學(xué)習(xí)技術(shù)應(yīng)用 課件 第12章 基于深度學(xué)習(xí)CNN模型的語(yǔ)音識(shí)別_第4頁(yè)](http://file4.renrendoc.com/view12/M06/09/28/wKhkGWbQNreAFbIPAACuIHOARKs7294.jpg)
![數(shù)字圖像處理與深度學(xué)習(xí)技術(shù)應(yīng)用 課件 第12章 基于深度學(xué)習(xí)CNN模型的語(yǔ)音識(shí)別_第5頁(yè)](http://file4.renrendoc.com/view12/M06/09/28/wKhkGWbQNreAFbIPAACuIHOARKs7295.jpg)
版權(quán)說(shuō)明:本文檔由用戶(hù)提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
第12章基于深度學(xué)習(xí)CNN模型的語(yǔ)音識(shí)別目錄12.1語(yǔ)音識(shí)別系統(tǒng)設(shè)計(jì)12.2語(yǔ)音信號(hào)預(yù)處理及特征提12.2.1語(yǔ)音信號(hào)預(yù)處理12.2.2MFCC特征提取12.3構(gòu)建語(yǔ)音識(shí)別模型12.3.1構(gòu)建卷積神經(jīng)網(wǎng)絡(luò)模型12.3.2識(shí)別模型訓(xùn)練12.4語(yǔ)音識(shí)別模型檢驗(yàn)12.1語(yǔ)音識(shí)別系統(tǒng)設(shè)計(jì)語(yǔ)音識(shí)別系統(tǒng)一般包含學(xué)習(xí)和識(shí)別兩個(gè)過(guò)程。圖12-1語(yǔ)音識(shí)別系統(tǒng)功能圖(1)數(shù)據(jù)收集和準(zhǔn)備。(2)對(duì)語(yǔ)音信號(hào)進(jìn)行預(yù)處理。包括語(yǔ)音信號(hào)分幀、預(yù)加重、提取語(yǔ)音信號(hào)的MFCC特征等操作。(3)構(gòu)建語(yǔ)音信號(hào)訓(xùn)練集。將收集的語(yǔ)音信號(hào)進(jìn)行預(yù)處理,按照幀的時(shí)間順序和特征值轉(zhuǎn)換成二維圖像。(4)選擇卷積神經(jīng)網(wǎng)絡(luò)(CNN)模型結(jié)構(gòu)。(5)模型構(gòu)建。在深度學(xué)習(xí)框架中構(gòu)建語(yǔ)音識(shí)別模型,包括輸入層、卷積/循環(huán)層、全連接層等組件,并選擇適當(dāng)?shù)募せ詈瘮?shù)。(6)模型訓(xùn)練。將數(shù)據(jù)集劃分為訓(xùn)練集、驗(yàn)證集和測(cè)試集。使用訓(xùn)練集對(duì)模型進(jìn)行訓(xùn)練,使用驗(yàn)證集對(duì)模型進(jìn)行模型調(diào)優(yōu),監(jiān)控模型在訓(xùn)練集和驗(yàn)證集上的性能。(7)模型評(píng)估。使用測(cè)試集對(duì)模型進(jìn)行評(píng)估,計(jì)算準(zhǔn)確率、WER(WordErrorRate)等性能指標(biāo)。語(yǔ)音處理技術(shù)與深度學(xué)習(xí)相結(jié)合的識(shí)別過(guò)程:(1)獲取待識(shí)別語(yǔ)音信號(hào)。(2)對(duì)待識(shí)別的語(yǔ)音信號(hào)進(jìn)行與學(xué)習(xí)過(guò)程相同的預(yù)處理,包括包括語(yǔ)音信號(hào)分幀、預(yù)加重、提取語(yǔ)音信號(hào)的MFCC特征等操作,按照幀的時(shí)間順序和特征值轉(zhuǎn)換成二維圖像。(3)使用訓(xùn)練好的模型對(duì)新的語(yǔ)音圖像進(jìn)行識(shí)別。(4)部署和應(yīng)用。(5)誤差分析和改進(jìn)。(6)用戶(hù)界面設(shè)計(jì)(可選)。12.2語(yǔ)音信號(hào)預(yù)處理及特征提取基本原理(1)語(yǔ)音信號(hào)預(yù)加重預(yù)加重的主要目的是為了使語(yǔ)音信號(hào)的頻譜變得平坦。值取的是0.97,(2)分幀(2)將n個(gè)采樣點(diǎn)結(jié)合在一起作為一個(gè)觀測(cè)點(diǎn)位,成為一幀。為了解決相鄰兩幀變化過(guò)大的問(wèn)題,相鄰幀之間會(huì)有一段重疊區(qū)域,重疊區(qū)域的大小為n的值的二分之一或三分之一。(3)加窗加窗的意思就是加漢明窗,把漢明窗與每一幀相乘,以增加幀的連續(xù)性。的值為0.9<<1.0,本模塊中基本原理式中,X(n)為語(yǔ)音信號(hào),N為傅里葉變換點(diǎn)數(shù)。(4)快速傅里葉變換得到語(yǔ)音信號(hào)頻譜上的分布。W(n)公式如下實(shí)現(xiàn)步驟實(shí)現(xiàn)步驟如下:①獲取語(yǔ)音信號(hào);②語(yǔ)音信號(hào)預(yù)加重;③語(yǔ)音信號(hào)分幀;④語(yǔ)音信號(hào)加窗;⑤語(yǔ)音信號(hào)快速傅里葉變換。12.2.2MFCC特征提取基本原理(1)三角帶通濾波器作用是使頻譜更平滑,并消除諧波,增強(qiáng)原語(yǔ)音的共振峰。濾波器的公式為:(2)計(jì)算經(jīng)過(guò)濾波器組后的語(yǔ)音信號(hào)對(duì)數(shù)能量公式如下:式中(3)通過(guò)離散余弦變化(DCT)得到MFCC特征MFCC特征提取步驟MFCC特征提取步驟如下:①獲取語(yǔ)音信號(hào);②語(yǔ)音信號(hào)預(yù)加重;③語(yǔ)音信號(hào)分幀;④語(yǔ)音信號(hào)加窗;⑤語(yǔ)音信號(hào)快速傅里葉變換;⑥語(yǔ)音信號(hào)的頻譜數(shù)據(jù)通過(guò)三角帶通濾波器;⑦三角帶通濾波器輸出結(jié)果對(duì)數(shù)運(yùn)算;⑧對(duì)數(shù)運(yùn)算結(jié)果進(jìn)行離散余弦變換得到MFCC特征矩陣;⑨根據(jù)MFCC特征矩陣值把特征矩陣轉(zhuǎn)換為圖像。效果展示提取MFCC特征后,需要將特征矩陣轉(zhuǎn)換為圖像組成訓(xùn)練集來(lái)進(jìn)行訓(xùn)練。圖12-2一條語(yǔ)音MFCC特征圖像12.3構(gòu)建語(yǔ)音識(shí)別模型12.3.1構(gòu)建卷積神經(jīng)網(wǎng)絡(luò)模型(神經(jīng)網(wǎng)絡(luò)有十三層,步驟如下:①第一層為卷積層,filters為32,卷積核3*3,步長(zhǎng)為1,padding為same。激活函數(shù)ReLU()激活,加入Dropout避免過(guò)度擬合;②第二層為卷積層,filters為32,卷積核3*3,步長(zhǎng)為1,padding為same。激活函數(shù)ReLU()激活;③第三層為池化層,池化層進(jìn)行MaxPool2d()取最大值,核的大小為2*2;④第四層為卷積層,filters為64,卷積核3*3,步長(zhǎng)為1,padding為same。激活函數(shù)ReLU()激活,加入Dropout避免過(guò)度擬合;⑤第五層為卷積層,filters為64,卷積核3*3,步長(zhǎng)為1,padding為same。激活函數(shù)ReLU()激活;⑥第六層為池化層,池化層進(jìn)行MaxPool2d()取最大值,卷積核2*2,加入Dropout避免過(guò)度擬合;⑦第七層為卷積層,filters為128,卷積核3*3,步長(zhǎng)為1,padding為same。激活函數(shù)ReLU()激活,加入Dropout避免過(guò)度擬合;⑧第八層為卷積層,filters為128,卷積核3*3,步長(zhǎng)為1,padding為same。激活函數(shù)ReLU()激活;⑨第九層為池化層,池化層進(jìn)行MaxPool2d()取最大值,卷積核2*2,加入Dropout避免過(guò)度擬合;⑩第十層為卷積層,filters為128,卷積核3*3,步長(zhǎng)為1,padding為same。激活函數(shù)ReLU()激活,加入Dropout避免過(guò)度擬合;
第十一層為卷積層,filters為128,卷積核3*3,步長(zhǎng)為1,padding為same。激活函數(shù)ReLU()激活;第十二層為池化層,池化層進(jìn)行MaxPool2d()取最大值,卷積核1*1,加入Dropout避免過(guò)度擬合;第十三層為卷積層,filters為128,卷積核3*3,步長(zhǎng)為1,padding為same。激活函數(shù)ReLU()激活,加入Dropout避免過(guò)度擬合;第十四層為卷積層,filters為128,卷積核3*3,步長(zhǎng)為1,padding為same。激活函數(shù)ReLU()激活;第十五層為池化層,池化層進(jìn)行MaxPool2d()取最大值,核的大小為1*1;第十六層為Reshape層,調(diào)整為(200,3200),加入Dropout避免過(guò)度擬合;第十七層為全連接層,共有128個(gè)神經(jīng)元,并且加入Dropout(0.3)避免過(guò)度擬合;第十八層為全連接層,共有49個(gè)神經(jīng)元,并且使用Softmax激活函數(shù)進(jìn)行轉(zhuǎn)換,經(jīng)全連接層分類(lèi)后輸出為49個(gè)類(lèi)別。將卷積神經(jīng)網(wǎng)絡(luò)保存到Model中,并且為其定義損失函數(shù)以及優(yōu)化器。12.3.2識(shí)別模型訓(xùn)練模型訓(xùn)練的步驟如下:①獲取訓(xùn)練集的路徑;②加載數(shù)據(jù)集,統(tǒng)計(jì)數(shù)據(jù)集中數(shù)據(jù)總數(shù);③設(shè)置batch_size的大小,計(jì)算出保存的步數(shù);④調(diào)用訓(xùn)練的模型函數(shù),模型為上步創(chuàng)建的卷積神經(jīng)網(wǎng)絡(luò)模型;⑤將訓(xùn)練出的結(jié)果數(shù)據(jù)保存在模型中,給識(shí)別過(guò)程使用。12.4語(yǔ)音識(shí)別模型檢驗(yàn)語(yǔ)音識(shí)別步驟語(yǔ)音識(shí)別步驟如下:①獲取待識(shí)別語(yǔ)音;②語(yǔ)
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶(hù)所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶(hù)上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶(hù)上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶(hù)因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 餐飲服務(wù)承攬合同三篇
- 管道行業(yè)安全管理工作心得
- 2025年全球及中國(guó)丙二醛行業(yè)頭部企業(yè)市場(chǎng)占有率及排名調(diào)研報(bào)告
- 2025年全球及中國(guó)頭發(fā)護(hù)理用神經(jīng)酰胺行業(yè)頭部企業(yè)市場(chǎng)占有率及排名調(diào)研報(bào)告
- 2025年全球及中國(guó)DHA微囊粉行業(yè)頭部企業(yè)市場(chǎng)占有率及排名調(diào)研報(bào)告
- 2025年全球及中國(guó)三維足底掃描系統(tǒng)行業(yè)頭部企業(yè)市場(chǎng)占有率及排名調(diào)研報(bào)告
- 2025-2030全球電動(dòng)跨式堆垛機(jī)行業(yè)調(diào)研及趨勢(shì)分析報(bào)告
- 2025年全球及中國(guó)介孔二氧化硅微球行業(yè)頭部企業(yè)市場(chǎng)占有率及排名調(diào)研報(bào)告
- 2025年全球及中國(guó)多相真空萃取機(jī)行業(yè)頭部企業(yè)市場(chǎng)占有率及排名調(diào)研報(bào)告
- 2025-2030全球豆莢酒店行業(yè)調(diào)研及趨勢(shì)分析報(bào)告
- 2025年春季學(xué)期學(xué)校德育工作計(jì)劃安排表(完整版)
- 2025年有機(jī)肥行業(yè)發(fā)展趨勢(shì)分析報(bào)告
- 五年級(jí)口算題卡每天100題帶答案
- 2024年全國(guó)初中數(shù)學(xué)聯(lián)合競(jìng)賽試題參考答案及評(píng)分標(biāo)準(zhǔn)
- Hadoop大數(shù)據(jù)開(kāi)發(fā)實(shí)例教程高職PPT完整全套教學(xué)課件
- 企業(yè)中層管理人員測(cè)評(píng)問(wèn)題
- 人教版高中地理必修一全冊(cè)測(cè)試題(16份含答案)
- 《民航服務(wù)溝通技巧》教案第11課孕婦旅客服務(wù)溝通
- 新東方四級(jí)詞匯-正序版
- 面向機(jī)器人柔順操作的力位精準(zhǔn)控制方法研究共3篇
- 《地下工程測(cè)試技術(shù)》課程教學(xué)大綱
評(píng)論
0/150
提交評(píng)論