語音信號處理復習資料公開課一等獎課件省賽課獲獎課件_第1頁
語音信號處理復習資料公開課一等獎課件省賽課獲獎課件_第2頁
語音信號處理復習資料公開課一等獎課件省賽課獲獎課件_第3頁
語音信號處理復習資料公開課一等獎課件省賽課獲獎課件_第4頁
語音信號處理復習資料公開課一等獎課件省賽課獲獎課件_第5頁
已閱讀5頁,還剩70頁未讀 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權,請進行舉報或認領

文檔簡介

語音信號處理SpeechSignalProcessing中國礦業(yè)大學信息工程系第1頁全書三篇,16章(講15章)第一篇語音信號處理基礎第二章語音信號處理基礎知識第一章緒論第2頁第二篇語音信號分析第三章語音信號時域分析第四章語音信號短時傅里葉分析第五章語音信號同態(tài)濾波及倒譜分析第六章語音信號線性預測分析第七章語音信號矢量量化第八章隱馬爾可夫模型(HMM)第九章語音檢測分析第3頁第三篇語音信號處理技術與應用第十章語音編碼(一)——波形編碼第十一章語音編碼(二)——聲碼器技術與混合編碼第十二章語音合成第十三章語音識別第十四章說話人識別第十五章語音增強第4頁第二章語音信號處理基礎知識語音產(chǎn)生語音分類語音基本特性語音時間波形和頻譜特性語音信號統(tǒng)計特性第5頁聲道模型語音信號產(chǎn)生模型鼓勵模型輻射模型聲管模型共振峰模型級聯(lián)型并聯(lián)型混合型第6頁語音感知定義人耳聽力范圍聲音三要素掩蔽效應第7頁第二章思考題:什么叫語言?什么叫語音?人類發(fā)音器官包括哪些?在發(fā)音時各起了什么作用?解釋下列概念:基音頻率、共振峰、濁音、清音。語音信號模型包括哪些子模型?鼓勵模型和輻射模型各屬于什么性質濾波器?第8頁第三章語音信號時域分析語音處理目標語音信號分析辦法短時分析技術第9頁語音信號數(shù)字化和預處理取樣率選擇量化字長選擇預處理短時能量分析短時平均能量定義窗口形狀選擇窗口長度主要用途直角窗和海明窗頻率特性比較第10頁短時平均幅度短時過零分析過零分析概念短時平均過零數(shù)實現(xiàn)短時平均過零數(shù)應用第11頁短時有關分析自有關函數(shù)定義自有關函數(shù)性質短時自有關函數(shù)定義修正短時自有關函數(shù)短時平均幅度差函數(shù)(AMDF)有關分析第12頁第三章思考題:1.在語音信號參數(shù)分析前為何要進行預處理,有哪些預處理過程?2.短時平均能量(平均幅度)和短時平均過零率定義。這兩種時域參數(shù)用途。窗口函數(shù)長度和形狀對它們有什么影響?3.短時自有關函數(shù)和短時平均幅度差函數(shù)定義和用途,它們間有什么差異?第13頁第四章語音信號短時傅里葉分析短時傅里葉變換定義短時傅里葉變換取樣率標準傅里葉變換解釋濾波器解釋語音信號短時綜合濾波器組求和法語譜圖可同步在時間和頻率上顯示語音頻譜隨時間變化。第14頁第四章思考題:語音信號短時譜定義。如何提升短時譜頻率辨別率?在求語音信號短時譜時,對窗函數(shù)有什么要求?對語音信號頻譜分析采取海明窗和矩形窗各有什么特點?3.什么是語譜圖?它有什么特性?第15頁第五章語音信號同態(tài)濾波及倒譜分析同態(tài)信號處理也叫同態(tài)濾波,它實現(xiàn)了將卷積關系變換為求和關系分離處理。復倒譜和倒譜同態(tài)信號處理基本原理卷積同態(tài)系統(tǒng)模型特性系統(tǒng)D*[]和D*-1[]三步數(shù)學運算語音信號兩個卷積分量復倒譜避免相位卷繞算法最小相位信號序列:信號零極點所有在z平面單位圓內(nèi)。第16頁1.卷積同態(tài)系統(tǒng)組成及意義?特性系統(tǒng)D*[]和逆特性系統(tǒng)D*-1[]運算三個步驟是什么?2.什么是復倒譜?什么是倒譜?清、濁音復倒譜或倒譜各有什么特點?第五章思考題:第17頁主要內(nèi)容6.1概述6.2線性預測分析基本原理6.3線性預測分析解法——自有關法6.4格型法6.5線性預測分析應用---LPC譜估計和LPC復倒譜第六章語音信號的線性預測分析第18頁線性預測分析就是根據(jù)已知信號s(n)對各參數(shù)和增益G進行估計。在這里為線性預測系數(shù)第19頁F(z)s(n)圖6-3線性預測器A(z)s(n)e(n)H(z)u(n)s(n)圖6-1信號s(n)模型化第20頁1.如何將信號模型化為模型參數(shù)?最常用是什么模型?什么叫線性預測?什么叫逆濾波器?2.什么叫LPC參數(shù)?PARCOR參數(shù)?LSP參數(shù)?3.什么是LPC譜?LPC譜估計特點。第六章思考題:第21頁7.1概述7.2矢量量化基本原理7.3失真測度7.4最佳矢量量化器和碼本設計7.5減少復雜度矢量量化系統(tǒng)7.6語音參數(shù)矢量量化第七章語音信號的矢量量化第22頁矢量量化定義2.什么是失真測度?常用失真測度有哪些?3.矢量量化器最佳設計兩個條件?4.LBG算法

第七章思考題:第23頁第8章隱馬爾可夫模型(HMM)8.1概述8.2隱馬爾可夫模型引入8.3隱馬爾可夫模型定義8.4隱馬爾可夫模型三項問題求解第24頁1.什么叫做隱馬爾可夫過程?為何說語音信號能夠當作隱馬爾可夫過程?隱馬爾可夫模型有哪些模型參數(shù)?請論述這些參數(shù)含義和定義式。2.HMM模型構造主要有哪兩種?主要用在什么場所?3.轉移概率矩陣計算。第八章思考題第25頁第九章語音檢測分析語音檢測分析——語音特性參數(shù)提取和分析。主要包括:基音檢測和共振峰參數(shù)估值。簡化逆濾波法(SIFT)基音檢測倒譜法自有關法共振峰估值帶通濾波器法DFT法倒譜法LPC法第26頁1.基音檢測自有關法中中心削波處理思緒及實現(xiàn)過程?2.用倒譜法實現(xiàn)基音檢測和共振峰檢測原理?第九章思考題第27頁第十章語音編碼--波形編碼語音編碼概念、應用和分類等語音信號壓縮編碼原理對語音進行壓縮編碼兩個基本根據(jù)等語音通信中語音質量

脈沖編碼調(diào)制(PCM)及其自適應自適應量化分為前饋或反饋兩種第28頁預測編碼及其自適應APC

自適應預測編碼APC系統(tǒng)框圖、總量化誤差預測編碼能夠改善信噪比原因短時預測和長時預測自適應差分編碼調(diào)制(ADPCM)第29頁1.在語音通信中,常將語音質量分為哪四等?2.語音信號能進行壓縮編碼根據(jù)是什么?語音編碼分類?3.自適應控制量有幾個?控制方式有幾個,其特點是什么?4.預測編碼能夠改善信噪比原因是什么?5.什么是短時預測和長時預測?第十章思考題第30頁參數(shù)編碼概念、與波形編碼不一樣聲碼器基本構造相位聲碼器和通道聲碼器同態(tài)聲碼器線性預測聲碼器混合編碼:

MPLPC、CELP原理、傳輸碼率計算等第十一章語音編碼-聲碼器技術及混合編碼第31頁第十二章語音合成

語音合成概念、目標語音合成系統(tǒng)與聲碼器中語音合成器區(qū)分

語音合成原理語音合成辦法:波形合成法、參數(shù)合成法規(guī)則合成法

語音合成系統(tǒng)特性共振峰合成線性預測合成:形式有兩種

用預測器系數(shù)ai直接組成遞歸型合成濾波器采取反射系數(shù)組成格型合成濾波器第32頁第十三章語音識別

語音識別概念、目標和分類語音識別原理:模式匹配原理、語音識別步驟框圖理解動態(tài)時間規(guī)整(DTW):目標、原理孤立詞識別系統(tǒng):原理和框圖理解端點檢測作用第33頁1.什么是語音識別?語音識別系統(tǒng)如何分類?目前,語音識別主流辦法是什么?2.語音識別系統(tǒng)由哪幾個部分組成?語音識別中常用語音特性參數(shù)有哪些?3.什么是動態(tài)時間規(guī)整?實際中,它處理了什么問題?4.孤立詞識別系統(tǒng)框圖?框圖中,參照模式庫和模式識別作用是什么?第十三章思考題第34頁第十四章說話人識別說話人識別定義、目標和關鍵問題說話人識別分類、應用特性提取

說話人識別所用特性特性類型優(yōu)選準則:F比作為有效性準則說話人識別系統(tǒng)構造:組成、基本構造、說話人識別系統(tǒng)性能評價如:說話人確認系統(tǒng)最主要兩個性能指標:錯誤回絕率(FR)、錯誤接收率(FA)第35頁說話人識別中識別辦法

DTW型說話人識別系統(tǒng):說話人確認系統(tǒng)應用VQ說話人識別系統(tǒng):說話人識別系統(tǒng)第36頁1.說話人識別和語音識別區(qū)分在什么地方?2.說話人確認和說話人識別有什么不一樣?3.在說話人識別中,應選擇哪些能夠表征個人特性識別參數(shù)?4.如何評價說話人識別特性參數(shù)選用好壞?即F比物理意義?5.說話人確認系統(tǒng)最主要兩個性能指標是什么?含義為何?6.基于DTW和VQ算法系統(tǒng)框圖理解。第十四章思考題第37頁人類語音是由人體發(fā)音器官在大腦控制下生理運動產(chǎn)生;人發(fā)音器官包括:肺、氣管、喉、咽、鼻、口等。聲帶啟動和閉合使氣流形成一系列脈沖。每啟動和閉合一次時間即振動周期稱為基音周期,其倒數(shù)為基音頻率,簡稱基頻?;l決定了聲音頻率高低,頻率快則音調(diào)高,頻率慢則音調(diào)低。

基音范圍約為70--350Hz,與說話人性別、年紀等情況有關。第38頁語音由聲帶振動或不經(jīng)聲帶振動來產(chǎn)生,其中:由聲帶振動產(chǎn)生音稱為濁音(VoiceSpeech);不由聲帶振動產(chǎn)生音稱為清音(UnvoiceSpeech)

。

使聲道完全閉合,在閉合后建立起氣壓,然后突然釋放,得到爆破音稱為爆破音(plosiveSpeech):第39頁聲道能夠等效為一種諧振腔,有許多諧振頻率。諧振頻率由每一瞬間聲道外形來決定。若聲道截面是均勻,則諧振頻率發(fā)生在:c為聲速,空氣中為350m/s,L為聲道長度,n為序號。第40頁音質:區(qū)分與其他聲音基本特性音調(diào):聲音高低;取決于頻率音量:聲音強弱;聲波振動幅度音長:聲音長短。發(fā)音連續(xù)時間長短第41頁圖2-7TenaboveInthesuburbs時域波形圖2-8元音【∧】頻譜圖2-9輔音【S】語譜基音周期計算

清音濁音判斷學習得到第42頁圖2-6輸出語音頻譜虛線為譜包絡,恢復譜包絡是許多語音處理應用中主要問題,由于譜包絡攜帶了主要發(fā)音信息第43頁根據(jù)長時間范圍內(nèi)一段語音信號大量取樣數(shù)據(jù)絕對值計算其直方圖辦法概率密度修正伽瑪概率密度拉普拉斯分布第44頁圖2-10修正伽瑪密度、拉普拉斯密度和高斯密度以及天氣預報語音長期幅度分布圖2-11語音幅度合計頻度分布觀測得到語音主要集中在幅度較小區(qū)域語音動態(tài)范圍都超出50dB第45頁鼓勵模型發(fā)不一樣性質音時,鼓勵情況是不一樣。(1)發(fā)濁音時

聲帶不停張開和關閉,產(chǎn)生間歇脈沖波。見圖2-13。則鼓勵信號是一種以基音周期為周期斜三角脈沖串。

從頻譜上看,是一種低通型濾波器。能夠表達為Z變換全極點模型形式:第46頁(2)發(fā)清音時聲道被妨礙形成湍流,可模擬為隨機白噪聲。見圖2-12。實際中使用均值為0、方差為1,并在時間或幅度上為白色分布序列第47頁聲道模型(1)聲管模型聲道數(shù)學模型目前有兩種觀點:將聲道看為由多種不一樣截面積管子串聯(lián)而成系統(tǒng)。在“短時”期間,聲道可表達為形狀穩(wěn)定管道。(2)共振峰模型將聲道看為一種諧振腔。共振峰就是腔體諧振頻率。

一般,用前三個共振峰來代表一種元音就足夠了。而輔音需要五個以上第48頁圖2-15級聯(lián)型共振峰模型級聯(lián)型比較簡單,用于描述一般元音。級聯(lián)級數(shù)取決于聲道長度。第49頁圖2-16并聯(lián)型共振峰模型

當鼻化元音或鼻腔參與共振以及發(fā)阻塞音或摩擦音時,此時腔體具有反諧振特性,必須考慮加入零點,成為極零點模型,每個諧振器幅度都要獨立控制。第50頁幅度獨立控制何調(diào)整,用來模擬輔音頻譜特性中能量集中區(qū)專為某些頻譜特性比較平坦原因而考慮圖2-17第51頁輻射模型一階類高通濾波器形式從聲道輸出是速度波,而語音信號是聲壓波,二者之比為輻射阻抗ZL。它表征口唇輻射效應,也包括圓形頭部繞射效應。研究表白,口唇端在高頻端比較顯著,而在低頻端時影響比較小。因此輻射模型為嘴唇輻射影響引發(fā)輸出信號高頻提升作用大約有每倍頻程6dB第52頁4.完整語音信號數(shù)字模型語音取樣值準周期脈沖序列發(fā)生器基音周期增益控制隨機噪聲發(fā)生器

時變線性系統(tǒng)時變參數(shù)濁音清音鼓勵模型聲道模型輻射模型第53頁注意一、這種模型是“短時模型”,其中U(Z)、R(Z)保持不變,而基音頻率、清音濁音幅度、清/濁音判決,聲道參數(shù)ak、P是時變二、聲道參數(shù)0~30ms內(nèi)近似不變,鼓勵參數(shù)在5ms左右近似不變,H(Z)是一種參數(shù)隨時間遲緩變化模型,能夠假定10~20ms內(nèi)固定不變。三、對于某些音,需要用某些修正或更精確模型來模型第54頁四、模型對語音產(chǎn)生模擬得是否成功,主要考查它所產(chǎn)生得語音信號聽上去是否合乎預期得成果,對于它是否能精確得描述發(fā)音器官產(chǎn)生語音得物理過程并不主要。五、語音分析和語音合成都是基于這個模型來實現(xiàn)。六、模型思想起源于30年代發(fā)明聲碼器。其基本思想是將鼓勵和系統(tǒng)相分離,使語音信號解體來分別描述,而不是直接研究信號波形本身特性第55頁

人耳朵接收聲音并轉換成神經(jīng)刺激。人耳聽到聲音后,還要通過大腦處理變成確定含義,這就是對語音感知。第56頁人耳能聽到頻率范圍大約為16Hz~16kHz,年輕人上限頻率可達20kHz,老年人則衰退為10kHz第57頁對于人耳感覺,用聲音三要素來描述:響度:人耳對聲音強弱程度反應。取決于聲音幅度,并和頻率有關。如:對3000~4000Hz最敏感。音調(diào):也叫音高。人耳對聲音頻率高低感受。如:對頻率高聲音感覺音調(diào)“高”,對頻率低聲音感覺音調(diào)“低”。音色:也叫音質。反應了聲音屬性。每個聲音具有特殊音色。第58頁掩蔽效應當兩個響度不一樣聲音作用于人耳時,則響度較高頻率成份存在會影響到對響度較低頻率成份感受,使其變得不易覺察,這就是掩蔽效應。對于中等掩蔽強度,純音最有效掩蔽出目前它頻率附近,低頻純音能夠有效地掩蔽高頻地純音,而高頻純音對低頻純音掩蔽作用很小。掩蔽效應會造成因一種聲音存在而使另一種聲音聽閾上升。當聲音強度小到人耳剛才能夠聽見時第59頁一、對語音信號進行分析,提取特性參數(shù)。二、加工語音信號。總之,在于方便有效地提取并表達語音信號所攜帶信息。語音處理目標:第60頁

語音信號分析辦法:時域分析:頻域分析:倒譜域分析:第61頁語音信號具有時變特性,是一種非平穩(wěn)隨機過程;不過,語音信號又具有“短時平穩(wěn)性”,即在一種短時間范圍內(nèi)其特性基本保持不變。這是語音信號處理一種主要出發(fā)點。即“短時分析”。“短時分析”——對語音信號采取分段或叫分幀來處理。短時分析技術:注:語音一般在10~30ms內(nèi)保持相對平穩(wěn),因此幀長取為:10~30ms第62頁模擬語音數(shù)字語音,須通過取樣、量化

語音信號:頻率范圍可高達10KHz。電話帶寬語音:300~3400Hz通信系統(tǒng)中,數(shù)字化取樣率一般為8KHz,語音信號處理中,取樣率為10KHz取樣率選擇第63頁2.量化字長選擇量化過程:將整個幅度值分割為有限個區(qū)間,落入同一種區(qū)間樣本都賦予相同幅度值。量化過程不可避免會產(chǎn)生量化誤差。能夠證明量化信噪比為:量化字長輸入語音信號方差噪聲序列方差信號峰值第64頁若語音信號服從拉普拉斯(Laplacian)分布,則:可見,每比特對SNR奉獻6dB。B=7Bit時,SNR=35dB,可滿足一般通信系統(tǒng)要求;實際中,因語音波形變化動態(tài)范圍可達55dB,因此,應取B>10Bit第65頁二、預處理預處理:模擬語音數(shù)字化、放大及增益控制、反混疊濾波、預加重等。反混疊濾波:在取樣前,為預防混疊失真和噪聲干擾,采取一種截止性能良好模擬低通濾波器。反混疊濾波器一般與A/D做在一塊集成片內(nèi)。預加重:因語音信號高頻端800Hz以上按6dB/倍頻程下降,因此在A/D前,能夠采取預加重辦法。即提升高頻部分,使信號頻譜變得平坦,便于頻譜分析和聲道參數(shù)分析。第66頁注:預加重也可在A/D后進行,此時可采取數(shù)字濾波器實現(xiàn):預加重后信號在分析后,還需要進行去加重處理還原為本來語音信號。第67頁一、短時平均能量定義注意:En以n為標志。由于窗序列是沿著平方值序列逐段移動。見圖3-6圖3-7短時能量序列計算辦法表白:短時平均能量相稱于語音信號平方通過一種單位脈沖響應為h(n)線性濾波器輸出。第68頁注

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論