版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
過的別識(shí)音語程目錄/Contents010203特征提取聲學(xué)模型語言模型04字典與解碼01特征提取一、特征提取1.1預(yù)加重1.2分幀1.3加窗1.4快速傅里葉變換FFT1.5梅爾濾波器組1.1預(yù)加重所謂語音識(shí)別,就是將一段語音信號(hào)轉(zhuǎn)換成相對應(yīng)的文本信息,系統(tǒng)主要包含特征提取、聲學(xué)模型,語言模型以及字典與解碼四大部分。1.1預(yù)加重預(yù)加重:在音頻錄制過程中,高頻信號(hào)更容易衰減,而像元音等一些因素的發(fā)音包含了較多的高頻信號(hào)的成分,高頻信號(hào)的丟失,可能會(huì)導(dǎo)致音素的共振峰并不明顯,使得聲學(xué)模型對這些音素的建模能力不強(qiáng)。預(yù)加重是個(gè)一階高通濾波器,可以提高信號(hào)高頻部分的能量。1.1預(yù)加重給定時(shí)域輸入信號(hào)
,預(yù)加重之后信號(hào)為:如下圖所示,元音音素:原始的頻譜圖(左)和經(jīng)過預(yù)加重之后的頻譜圖(右)。1.1預(yù)加重預(yù)加重是一種在發(fā)送端事先對發(fā)送信號(hào)的高頻分量進(jìn)行補(bǔ)償?shù)姆椒?。這種方法是增大信號(hào)跳變邊沿后第一個(gè)bit(跳變bit)的幅度(預(yù)加重)。比如對于一個(gè)00111的序列來說,做完預(yù)加重后序列里第一個(gè)1的幅度會(huì)比第二個(gè)和第三個(gè)1的幅度大。由于跳變bit代表了信號(hào)里的高頻分量,所以這種方法有助于提高發(fā)送信號(hào)里的高頻分量。1.2分幀語音信號(hào)是一個(gè)非穩(wěn)態(tài)的、時(shí)變的信號(hào)。但在短時(shí)間范圍內(nèi)可以認(rèn)為語音信號(hào)是穩(wěn)態(tài)的、時(shí)不變的。這個(gè)短時(shí)間一般取10-30ms,因此在進(jìn)行語音信號(hào)處理時(shí)。為減少語音信號(hào)整體的非穩(wěn)態(tài)、時(shí)變的影響,從而對語音信號(hào)進(jìn)行分段處理,其中每一段稱為一幀,幀長一般取25ms。為了使幀與幀之間平滑過渡,保持其連續(xù)性,分幀一般采用交疊分段的方法,保證相鄰兩幀相互重疊一部分。相鄰兩幀的起始位置的時(shí)間差稱為幀移,我們一般在使用中幀移取值為10ms。1.2分幀如下圖:這段語音的前三分之一和后三分之二明顯不一樣,所以整體來看語音信號(hào)不平穩(wěn)。紅框框出來的部分是一幀,在這一幀內(nèi)部的信號(hào)可以看成平穩(wěn)的。所以任何語音信號(hào)的分析和處理必須建立在“短時(shí)”的基礎(chǔ)上,即進(jìn)行“短時(shí)分析”,將語音信號(hào)分為一段一段來分析其特征參數(shù),其中每一段稱為一“幀”,幀長一般即取為10-30ms1.2分幀對于整體的語音信號(hào)而言,分析出的是由每一幀特征參數(shù)組成的特征參數(shù)時(shí)間序列。分幀示意圖如圖所示。(其中N為幀長,M為幀移)1.2分幀對于一個(gè)16000Hz采樣的音頻來說,幀長有16000*0.025=400個(gè)點(diǎn),幀移有16000*0.01=160個(gè)點(diǎn)。使用num_samples、frame_len、frame_shift分別代表音頻的數(shù)據(jù)點(diǎn)數(shù)、幀長和幀移,那么i幀的數(shù)據(jù)需要的點(diǎn)數(shù)為
,所以一個(gè)有n個(gè)點(diǎn)的音頻,總共能得幀數(shù)據(jù)。1.2分幀語音信號(hào)的分幀是采用可移動(dòng)的有限長度窗口進(jìn)行加權(quán)的方法來實(shí)現(xiàn)的。1.3加窗因?yàn)楹竺鏁?huì)對信號(hào)做FFT,而FFT變換的要求為:信號(hào)要么從-∞到+∞,要么為周期信號(hào)?,F(xiàn)實(shí)世界中,不可能采集時(shí)間從-∞到+∞的信號(hào),只能是有限時(shí)間長度的信號(hào)。由于分幀后的信號(hào)是非周期的,進(jìn)行FFT變換之后會(huì)有頻率泄露的問題發(fā)生,為了將這個(gè)泄漏誤差減少到最小程度(注意我說是的減少,而不是消除),我們需要使用加權(quán)函數(shù),也叫窗函數(shù)。加窗主要是為了使時(shí)域信號(hào)似乎更好地滿足FFT處理的周期性要求,減少泄漏。1.3加窗如左圖所示,若周期截?cái)啵瑒tFFT頻譜為單一譜線。若為非周期截?cái)?,則頻譜出現(xiàn)拖尾,如圖中部所示,可以看出泄漏很嚴(yán)重。為了減少泄漏,給信號(hào)施加一個(gè)窗函數(shù)(如圖中上部紅色曲線所示),原始截?cái)嗪蟮男盘?hào)與這個(gè)窗函數(shù)相乘之后得到的信號(hào)為上面右側(cè)的信號(hào)??梢钥闯?,此時(shí),信號(hào)的起始時(shí)刻和結(jié)束時(shí)刻幅值都為0,也就是說在這個(gè)時(shí)間長度內(nèi),信號(hào)為周期信號(hào),但是只有一個(gè)周期。對這個(gè)信號(hào)做FFT分析,得到的頻譜如下部右側(cè)所示。相比較之前未加窗的頻譜,可以看出,泄漏已明顯改善,但并沒有完全消除。因此,窗函數(shù)只能減少泄漏,不能消除泄漏。1.4快速傅里葉變換FFT快速傅里葉變換(fastFouriertransform),即利用計(jì)算機(jī)計(jì)算離散傅里葉變換(DFT)的高效、快速計(jì)算方法的統(tǒng)稱,簡稱FFT。FT與DFT公式如左圖所示??焖俑凳献儞Q(FFT),是離散傅氏變換的快速算法,它是根據(jù)離散傅氏變換的奇、偶、虛、實(shí)等特性,對離散傅立葉變換的算法進(jìn)行改進(jìn)獲得的。它對傅氏變換的理論并沒有新的發(fā)現(xiàn),但是對于在計(jì)算機(jī)系統(tǒng)或者說數(shù)字系統(tǒng)中應(yīng)用離散傅立葉變換,可以說是進(jìn)了一大步。1.4快速傅里葉變換FFT傅立葉變換的由來:傅立葉是一位法國數(shù)學(xué)家和物理學(xué)家的名字,英語原名是JeanBaptisteJosephFourier(1768-1830),Fourier對熱傳遞很感興趣,于1807年在法國科學(xué)學(xué)會(huì)上發(fā)表了一篇論文,運(yùn)用正弦曲線來描述溫度分布,論文里有個(gè)在當(dāng)時(shí)頗具爭議性的命題:任何連續(xù)周期信號(hào)可以由一組適當(dāng)?shù)恼仪€組合而成。1.4快速傅里葉變換FFT傅里葉變換的物理意義:傅立葉原理表明:任何連續(xù)測量的時(shí)序或信號(hào),都可以表示為不同頻率的正弦波信號(hào)的無限疊加。而根據(jù)該原理創(chuàng)立的傅立葉變換算法利用直接測量到的原始信號(hào),以累加方式來計(jì)算該信號(hào)中不同正弦波信號(hào)的頻率、振幅和相位。當(dāng)然這是從數(shù)學(xué)的角度去看傅立葉變換。1.5梅爾濾波器組從FFT出來的結(jié)果是每個(gè)頻帶上面的幅值,然而人類對不同頻率語音有不同的感知能力。對1kHz以下,與頻率成線性關(guān)系,對1kHz以上,與頻率成對數(shù)關(guān)系。頻率越高,感知能力就越差。
1.5梅爾濾波器組提取Mel頻率倒譜系數(shù)(MFCC)特征的過程:1)先對語音進(jìn)行預(yù)加重、分幀和加窗;2)對每一個(gè)短時(shí)分析窗,通過FFT得到對應(yīng)的頻譜;3)將上面的頻譜通過Mel濾波器組得到Mel頻譜;4)在Mel頻譜上面進(jìn)行倒譜分析,獲得Mel頻率倒譜系數(shù)MFCC,這個(gè)MFCC就是這幀語音的特征。02聲學(xué)模型2聲學(xué)模型聲學(xué)模型是將語音信號(hào)的觀測特征與句子的語音建模單元聯(lián)系起來,即計(jì)算。我們通常使用隱馬爾科夫模型(HiddenMarkovModel,HMM)解決語音與文本的不定長關(guān)系,比如左圖的隱馬爾科夫模型。2聲學(xué)模型聲學(xué)模型是語音識(shí)別系統(tǒng)中最為重要的部分之一,主流系統(tǒng)多采用隱馬爾科夫模型進(jìn)行建模。隱馬爾可夫模型的概念是一個(gè)離散時(shí)域有限狀態(tài)自動(dòng)機(jī),隱馬爾可夫模型HMM是指這一馬爾可夫模型的內(nèi)部狀態(tài)外界不可見,外界只能看到各個(gè)時(shí)刻的輸出值。聲學(xué)模型的輸入是由特征提取模塊提取的特征(比如mfcc特征)。03語言模型3語言模型語言模型與文本處理相關(guān),比如我們使用的智能輸入法,當(dāng)我們輸入“nihao”,輸入法候選詞會(huì)出現(xiàn)“你好”而不是“尼毫”,候選詞的排列參照語言模型得分的高低順序。3語言模型3語言模型3語言模型3語言模型04字典與解碼4字典與解碼4.1字典4.2解碼4.1字典語音識(shí)別中的字典也被稱為發(fā)音字典,顧名思義就是用來描述各個(gè)詞的發(fā)音或者說給出各個(gè)詞和音素之間的關(guān)系;4.1字典語音識(shí)別系統(tǒng)中所有詞的結(jié)果均出自于字典,也就是說他是識(shí)別系統(tǒng)處理詞和音素的集合;通過發(fā)音字典得到聲學(xué)模型的建模單元和語言模型建模單元間的映射關(guān)系,從而把聲學(xué)模型和語言模型連接起來,組成一個(gè)搜索的狀態(tài)空間用于解碼器進(jìn)行解碼工作;4.2解碼當(dāng)前主流的語音識(shí)別系統(tǒng)多基于統(tǒng)計(jì)理論的貝葉斯準(zhǔn)則。其典型框架一般包含前端處理、聲學(xué)模型、語言模型、解碼器和后處理等五個(gè)基本模塊。解碼器模塊主要完成的工作包括:給定輸入特征序列的情況下,在由聲學(xué)模型、聲學(xué)上下文、發(fā)音詞典和語言模型等四種知識(shí)源組成的搜索空間中,通過維特比(Viterbi)搜索,尋找最佳詞串。4.2解碼維特比算法是一個(gè)特殊但應(yīng)用最廣的動(dòng)態(tài)規(guī)劃算法,它是針對籬笆網(wǎng)絡(luò)的有向圖(Lattice)的最短路徑問題而提出的。凡是使用隱含馬爾可夫模型描述的問題都可以用維特比算法來解碼,包括今天的數(shù)字通信、語音識(shí)別、機(jī)器翻譯、拼音轉(zhuǎn)漢字、分詞等。如左圖,假如你從S和E之間找一條最短的路徑,除了遍歷完所有路徑,還有什么更好的方法?答案:viterbi(維特比)算法
4.2解碼維特比算法是一個(gè)特殊但應(yīng)用最廣的動(dòng)態(tài)規(guī)劃算法,它是針對籬笆網(wǎng)絡(luò)的有向圖(Lattice)的最短路徑問題而提出的。凡是使用隱含馬爾可夫模型描述的問題都可以用維特比算法來解碼,包括今天的數(shù)字通信、語音識(shí)別、機(jī)器翻譯、拼
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025年度毛石石材工程設(shè)計(jì)及施工合同4篇
- 2025年消防工程現(xiàn)場施工管理與監(jiān)督承攬施工合同3篇
- 2025年度羅馬柱工程抗震設(shè)計(jì)與施工合同4篇
- 二零二五年度智能監(jiān)控系統(tǒng)集成與技術(shù)服務(wù)協(xié)議3篇
- 二零二五年房地產(chǎn)投資風(fēng)險(xiǎn)評(píng)估與購買代理協(xié)議3篇
- 2025-2030年中國醬油調(diào)味料市場供求規(guī)模及未來發(fā)展建議研究報(bào)告
- 2025-2030年中國花炮行業(yè)十三五發(fā)展規(guī)劃及投資戰(zhàn)略研究報(bào)告新版
- 2025-2030年中國船用鋁合金板行業(yè)競爭狀況及投資發(fā)展前景分析報(bào)告
- 2025-2030年中國羽毛加工市場運(yùn)營狀況及發(fā)展前景預(yù)測分析報(bào)告
- 2025-2030年中國紙包裝材料行業(yè)發(fā)展動(dòng)態(tài)及前景趨勢分析報(bào)告
- 深圳2024-2025學(xué)年度四年級(jí)第一學(xué)期期末數(shù)學(xué)試題
- 中考語文復(fù)習(xí)說話要得體
- 《工商業(yè)儲(chǔ)能柜技術(shù)規(guī)范》
- 華中師范大學(xué)教育技術(shù)學(xué)碩士研究生培養(yǎng)方案
- 醫(yī)院醫(yī)學(xué)倫理委員會(huì)章程
- 風(fēng)浪流耦合作用下錨泊式海上試驗(yàn)平臺(tái)的水動(dòng)力特性試驗(yàn)
- 高考英語語法專練定語從句含答案
- Q∕GDW 12147-2021 電網(wǎng)智能業(yè)務(wù)終端接入規(guī)范
- 仁愛英語單詞默寫本(全六冊)英譯漢
- 公園廣場綠地文化設(shè)施維修改造工程施工部署及進(jìn)度計(jì)劃
- 塑料件缺陷匯總
評(píng)論
0/150
提交評(píng)論