![語音識別技術(shù)_第1頁](http://file4.renrendoc.com/view/c6f7be8575b1e663f78a06437424f984/c6f7be8575b1e663f78a06437424f9841.gif)
![語音識別技術(shù)_第2頁](http://file4.renrendoc.com/view/c6f7be8575b1e663f78a06437424f984/c6f7be8575b1e663f78a06437424f9842.gif)
![語音識別技術(shù)_第3頁](http://file4.renrendoc.com/view/c6f7be8575b1e663f78a06437424f984/c6f7be8575b1e663f78a06437424f9843.gif)
![語音識別技術(shù)_第4頁](http://file4.renrendoc.com/view/c6f7be8575b1e663f78a06437424f984/c6f7be8575b1e663f78a06437424f9844.gif)
![語音識別技術(shù)_第5頁](http://file4.renrendoc.com/view/c6f7be8575b1e663f78a06437424f984/c6f7be8575b1e663f78a06437424f9845.gif)
版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)
文檔簡介
1、語音識別技術(shù)的前世今生語音識別之語音信號特征提取技術(shù)科大訊飛 Siri語音識別與語音信號語音識別:能把語言和語聲轉(zhuǎn)換成可進行處理的信息的過程.語音信號:冗余度很高的隨機信號,必須經(jīng)過特征提取才能有效地降低信號的冗余度,而語音特征的提取又是通過對語音信號的分析來獲得表征語音信號的參數(shù)的.語音識別五大問題對自然語言的識別和理解。首先必須將連續(xù)的講話分解為詞、音素等單位,其次要建立一個理解語義的規(guī)則。語音信息量大。語音模式不僅對不同的說話人不同,對同一說話人也是不同的,例如,一個說話人在隨意說話和認真說話時的語音信息是不同的。一個人的說話方式隨著時間變化。語音的模糊性。說話者在講話時,不同的詞可能聽
2、起來是相似的。這在英語和漢語中常見。單個字母或詞、字的語音特性受上下文的影響,以致改變了重音、音調(diào)、音量和發(fā)音速度等。環(huán)境噪聲和干擾對語音識別有嚴重影響,致使識別率低。LPC基本思想:一個語音的采樣能夠用過去若干個語音采樣的線性組合來逼近。通過使線性預測的采樣在最小均方誤差意義上逼近實際語音采樣,可以求取一組唯一的預測系數(shù)。這里的預測系數(shù)就是線性組合中所用的加權(quán)系數(shù)。這種線性預測分析技術(shù)最早用于語音編碼中,因此也常被簡稱為LPC。目前進行語音特征分析的最有效、最重要的方法之一是線性預測分析(LPC)法,這是由于:1.它有效地解決了短時平穩(wěn)信號的模型化問題,可把語音信號看成是由全極點模型產(chǎn)生的;
3、2.能很好地逼近共振峰,提供譜估計;3.提供的語音信號模型參數(shù)(如基音、共振峰、譜、聲道面積函數(shù)等)簡潔而準確,計算量較小,便于實時處理;4.可用于低數(shù)率傳輸?shù)沫h(huán)境;5.將LPC參數(shù)形成的模型參數(shù)儲存起來,在語音識別中提高識別率和減少識別時間。呵呵小明,今晚上有思修課呢!你去不去?“我去!我不去!”呵呵 冬天:能穿多少穿多少; 夏天:能穿多少穿多少。剩女產(chǎn)生的原因有兩個: 一是誰都看不上, 二是誰都看不上。呵呵ToTwoTooLPC的基本概念是:語音的每個樣值均可由過去若干個樣值的線性組合來逼近,同時可采用使實際語音抽樣與線性預測抽樣之間的均方差最小的方式,來解出一組預測的系數(shù)。LPC系數(shù)算出
4、后,就可以直接進行倒譜系數(shù)C(k)的計算,語音信號特征的提取如圖所示,主要包括A/D轉(zhuǎn)換、端點檢測、預加重、加窗、自相關(guān)序列、LPC系數(shù)、倒譜系數(shù)計算等等.AD轉(zhuǎn)換就是模數(shù)轉(zhuǎn)換,就是把模擬信號轉(zhuǎn)換成數(shù)字信號。端點檢測就是從包含語音的一段信號中準確地確定語音的起始點和終止點,區(qū)分語音和非語音號,它是語音處理技術(shù)中的一個重要方面。預加重是一階網(wǎng)絡(luò),用來對語音信號進行高頻提升,可由軟件來實現(xiàn)。預加重的作用加窗是為了進行短時分析必須加窗,這在理論上應(yīng)使用兩端具有平滑過渡特性的窗口,如漢明窗口,以減小在信號兩端處的預測誤差,并避免頻譜出現(xiàn)“破碎”現(xiàn)象。預加重的作用A.將高頻提升,語音中只剩下聲道部分的影響,所提取的特征更加符合原聲道的模型B.由于語音信號基本上可以看成是一個隨著頻率的增高而頻譜包絡(luò)逐漸衰減的信號,因此預加重正好使這個頻譜包絡(luò)變得平坦,并相應(yīng)地加快了LPC系數(shù)的收斂速度。返回結(jié)論根據(jù)以上提取和分析的過程,可以得出以下結(jié)論:(1)在語音特征的提取中,預加重和漢明窗兩部分是必不可少的,其參數(shù)的選取關(guān)系決定了提取語音特征的正確與否;(2)LPC是語音分析的重要手段,因LPC系數(shù)能很好地進行譜估計,即可作為語音特征的參數(shù),因此僅用12個LPC系數(shù)就能很好地表示復雜語音信號的特征,這就大大降低了信號的冗余度,并有效地減少了計算量和存儲量,使之
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 店長助理個人工作總結(jié)
- 幼兒園班主任年度工作總結(jié)
- Ophiopogonin-D-Standard-生命科學試劑-MCE
- 浙江中醫(yī)藥大學《電子商務(wù)與支付》2023-2024學年第二學期期末試卷
- Etamivan-Standard-生命科學試劑-MCE
- 證書租賃協(xié)議書范本
- 共同購買房產(chǎn)約定協(xié)議書范本
- 曲靖職業(yè)技術(shù)學院《新課程理念與地理課程改革》2023-2024學年第二學期期末試卷
- 辦公寫字樓出租合同范本
- 湖南交通工程學院《公益項目設(shè)計與管理》2023-2024學年第二學期期末試卷
- 光伏電站小EPC規(guī)定合同范本
- 2024年醫(yī)療器械經(jīng)營質(zhì)量管理規(guī)范培訓課件
- 中華人民共和國學前教育法-知識培訓
- 2023年新高考(新課標)全國2卷數(shù)學試題真題(含答案解析)
- GB/T 19228.1-2024不銹鋼卡壓式管件組件第1部分:卡壓式管件
- 2024年計算機二級WPS考試題庫380題(含答案)
- 教科版三年級下冊科學全冊完整課件
- 小直徑開敞式TBM遇到軟弱破碎圍巖的施工技術(shù)
- 節(jié)流孔板孔徑計算
- 學生流失率考核辦法(試行)
- 年產(chǎn)20萬噸硫磺制酸工藝設(shè)計
評論
0/150
提交評論