語音信號處理 第4版 第3章 語音信號處理的常用算法 思考題答案_第1頁
語音信號處理 第4版 第3章 語音信號處理的常用算法 思考題答案_第2頁
語音信號處理 第4版 第3章 語音信號處理的常用算法 思考題答案_第3頁
語音信號處理 第4版 第3章 語音信號處理的常用算法 思考題答案_第4頁
語音信號處理 第4版 第3章 語音信號處理的常用算法 思考題答案_第5頁
已閱讀5頁,還剩1頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

第三章語音信號處理的常用算法思考題答案什么叫矢量量化,它在語音信號處理中有什么用途?什么叫碼本、碼本尺寸和碼矢(或碼字)?如何分配矢量量化的各項技術指標?矢量量化是對矢量進行量化,它把矢量空間分成若干個小區(qū)域,每個小區(qū)域尋找一個代表矢量,量化時落入小區(qū)域的矢量就用這個代表矢量代替,或者叫作被量化為這個代表矢量。在語音編碼方面,在原來編碼速率為2.4kbit/s的線性預測聲碼器基礎上,將每幀的10個反射系數加以10維的矢量量化,就可使編碼速率降低到800bit/s,而語音質量基本未下降;又如分段聲碼器,由于采用了矢量量化,可以使編碼速率降低到150bit/s;在語音識別、說話人識別等方面,矢量量化研究也得到很快的發(fā)展。矢量量化器里每個子空間的代表矢量就成為碼字,所有代表矢量組成的集合稱為碼本,碼本尺寸是該集合的大小。根據香農信息論,矢量維數越長優(yōu)度越好。顯然,矢量量化的過程與標量量化相似。在標量量化時,在一維的零至無窮大值之間設置若干個量化階梯,當某輸入信號的幅度值落在某相鄰的兩個量化階梯之間時,就被量化為兩階梯的中心值。與此相對應在矢量量化時,則將K維無限空間劃分為J塊區(qū)域邊界,然后將輸入矢量與這些邊界進行比較,并被量化為“距離”最小的區(qū)域邊界的中心矢量值。當然,矢量量化與標量量化一樣,是會產生量化誤差的(即量化噪聲),但只要碼本尺寸足夠大,量化誤差就會足夠小。另外,合理選擇碼本的碼字也可以降低誤差,這就是碼本優(yōu)化的問題。什么叫失真測度,理想的失真測度應具有什么特性?常用的有哪幾種失真測度,它們都是如何定義的?各有什么用途?失真測度(距離測度)是將輸入矢量Xi用碼本重構矢量Yj來表征時所產生的誤差或失真的度量方法,它可以描述兩個或多個模型矢量間的相似程度。失真測度的選擇的好壞將直接影響到聚類效果和量化精度,進而影響到語音信號矢量量化處理系統(tǒng)的性能。主要包括線性預測失真測度和識別失真測度。當語音信號特征矢量是用線性預測方法求出的LPC系數時,為了比較用這種參數表征的矢量,不宜直接使用歐氏距離。因為僅由預測器系數的差值不能完全表征這兩個語音信息的差別。此時應該直接用由這些系數所描述的信號模型的功率譜來進行比較。將矢量量化技術用于語音識別時,對失真測度還應該有其他一些考慮,如果僅僅靠功率譜作為失真比較的參數,則識別的性能將不夠理想,此時可采用識別失真測度。如何設計最佳矢量量化器?什么叫LBG算法?如何用程序加以實現(xiàn)?怎樣設計初始碼本,并用來訓練碼本?選擇了合適的失真測度后,就可進行矢量量化器的最佳設計。所謂最佳設計,就是從大量信號樣本中訓練出好的碼本;從實際效果出發(fā)尋找到好的失真測度定義公式;用最少的搜索和計算失真的運算量,來實現(xiàn)最大可能的平均信噪比。LBG算法的步驟如下:矢量量化存在量化誤差,通常減小量化誤差的思路有哪些?對應于這些思路,有哪些具體的實現(xiàn)方法?矢量量化與標量量化一樣,會產生量化誤差(即量化噪聲),但只要碼本尺寸足夠大,量化誤差就會足夠小。另外,合理選擇碼本的碼字也可以降低誤差,這就是碼本優(yōu)化的問題。什么叫馬爾可夫鏈?什么叫隱過程?什么叫隱馬爾可夫過程?為什么說語音信號可以看成隱馬爾可夫過程?隱馬爾可夫模型有哪些模型參數?請敘述這些參數的含義。在較短的時間內用線性模型參數來表示,然后,再將許多線性模型在時間上串接起來,這就是馬爾可夫鏈。HMM是一個輸出符號序列的統(tǒng)計模型,具有N個狀態(tài)S1,S2,…,SN,它按一定的周期從一個狀態(tài)轉移到另一個狀態(tài),每次轉移時,輸出一個符號。轉移到哪一個狀態(tài),轉移時輸出什么符號,分別由狀態(tài)轉移概率和轉移時的輸出概率來決定。因為只能觀測到輸出符號序列,而不能觀測到狀態(tài)轉移序列(即模型輸出符號序列時,是通過了哪些狀態(tài)路徑,不能知道),所以稱為隱馬爾可夫模型。HMM用于語音信號建模時,是對語音信號的時間序列結構建立統(tǒng)計模型,它是數學上的雙重隨機過程:一個是具有有限狀態(tài)數的Markov鏈來模擬語音信號統(tǒng)計特性變化的隱含的隨機過程,另一個是與Markov鏈的每一狀態(tài)相關聯(lián)的觀測序列的隨機過程。前者通過后者表現(xiàn)出來,但前者的具體參數(如狀態(tài)序列)是不可觀測的。人的言語過程實際上就是一個雙重隨機過程,語音信號本身是一個可觀測的時變序列,是由大腦根據語法知識和言語需要(不可觀測的狀態(tài))發(fā)出的音素的參數流??梢?,HMM合理地模仿了這一過程,很好地描述了語音信號的整體非平穩(wěn)性和局部平穩(wěn)性,是一種較為理想的語音信號模型。HMM可由六個模型參數來定義,具體含義見教材第33頁。給定一個輸出符號序列,怎樣計算HMM對于該符號序列的輸出似然概率?用前向—后向算法來計算HMM對于該符號序列的輸出似然概率,具體參見教材第35-36頁。為了應用HMM,有哪些基本算法?什么是前向-后向算法?它是怎樣解決似然概率的計算問題的?敘述前向-后向算法的工作原理及其節(jié)約運算量的原因。HMM有三個基本算法,具體如下:前向—后向算法用以計算HMM對于該符號序列的輸出似然概率,具體參見教材第35-36頁。什么是Viterbi算法?Viterbi算法是為了解決什么問題的?Viterbi算法的基本過程如下:簡述Baum-Welch算法的基本原理Baum-Welch算法利用遞歸的思想,使P(O|M)局部放大,最后得到優(yōu)化的模型參數M={A,B,π}。具體過程參見教材第37-38頁。深度學習的優(yōu)缺點各是什么?深度學習模型的主要優(yōu)點表現(xiàn)在以下幾方面。(1)學習能力強,在很多任務中性能優(yōu)于傳統(tǒng)機器學習模型。(2)適應性好:深度學習模型的網絡層數多,理論上可以映射到任意函數。(3)數據驅動、上限高:深度學習高度依賴數據,數據量越大,它的表現(xiàn)就越好。深度學習也存在如下的缺點:(1)計算量大:深度學習需要大量的數據與算力支持。(2)硬件需求高:普通的CPU無法滿足深度學習模型和算法的運算需求。(3)模型設計復雜:需要投入大量的人力物力與時間來開發(fā)新的模型。DNN、RNN和CNN各自有哪些特點?DNN是深度學習最基本的模型之一,它針對單層感知機難以應對復雜非線性函數的困難,將其在深度上做了有效拓展。因此,DNN是具有多個隱藏層和多個輸出的網絡,可以擬合復雜的非線性函數,模型的靈活性也大幅增強。在DNN中,各神經元分別屬于不同的層,每一層的神經元可以接收前一層神經元的信號,并產生信號輸出到下一層。DNN具有結構復雜、層次分明等特征,能夠更好地擬合輸入和輸出之間復雜的關系,挖掘出隱藏在數據中的深層次信息。RNN在DNN上擴展,通過加入循環(huán)連接使模型具有記憶能力。RNN由具有環(huán)路的神經網絡結構組成,其神經元不僅可以接收其他神經元的信息,也可以接收自身的信息。與DNN相比,RNN更符合生物神經網絡的結構,能夠更好地處理時序數據之間的內在關聯(lián),在語音識別、自然語言處理等任務上得到了廣泛的應用。CNN與DNN的區(qū)別在于,CNN中的神經元之間并非全連接,而是局部連接,即CNN中卷積層的某個神經元的輸出并不取決于輸入特征圖中的所有神經元的輸入,而是僅由卷積核對應位置的神經元的輸入決定。正是由于這種局部連接的特點,使得CNN能夠很好地捕捉輸入特征圖中的局部特征;同時,在進行卷積計算時,卷積核在輸入特征圖的不同位置其權值參數是不變的,并且通常將卷積層和池化層結合使用,這樣使得CNN的計算復雜度顯著降低,大大拓展了其應用領域。在深度學習中,長程依賴問題指的是什么?有哪些方法可以解決這個問題,是如何解決的?雖然理論上簡單RNN可以通過參數更新,自循環(huán)地學習長時序數據間的關聯(lián)性,但仍存在由序列長度增大所帶來的梯度消失或爆炸問題。本質上RNN只能學到短期的“記憶”,即,時刻t的輸出yt只與一定時間間隔k內的輸入有關,當時間間隔過長時,RNN就難以準確描述關聯(lián)性,這也稱為RNN長程依賴問題。長短期記憶網絡(LSTM)是RNN的一個變體。為了緩解RNN的長程依賴問題,LSTM中引入了門控單元,通過選擇性地遺忘過去時刻的累積信息來更新網絡參數。推導LSTM網絡中參數的梯度,并分析其避免梯度消失的效果。LSTM的基本原理詳見教材第44頁,需要結合其原理推導參數梯度。CNN是如何簡化參數,提高訓練效率的?CNN結構中隱藏層之間使用的是部分連接,即所謂的卷積層,而且為了進一步降低模型的計算復雜度,一般需要使用池化層結構對卷積層的輸出進行處理。在CNN計算過程中,首先通過輸入層向模型中輸入數據,然后經過卷積層對數據做進一步處理,逐層提取更抽象的特征,緊接著對輸出特征圖使用池化層達到特征降維的作用,按照該方式對卷積層和池化層進行多次堆疊,最后經過全連接的輸出層完成回歸、分類等任務;此外,每層網絡的輸出還需要經過激活函數的映射,從而使模型具有更強的表達能力。設計轉置卷積、微步卷積及空洞卷積的目的是什么?(1)轉置卷積:在一些任務中,需要將低維特征映射到高維特征,此時則需要轉置卷積。具體地,假設有一個轉換矩陣W,將一個高維向量映射為一個低維向量,那么可以很容易地通過對W進行轉置來實現(xiàn)從低維到高維的反向映射。也可以將卷積操作寫成矩陣變換的形式,通過轉置卷積操作對應的矩陣,就能實現(xiàn)將低維特征到高維特征的卷積操作。(2)微步卷積:可以通過增加卷積操作的步長S>1來實現(xiàn)對輸入特征的下采樣操作,從而大幅降低特征維數。同樣,也可以通過減少轉置卷積的步長S<1來實現(xiàn)上采樣操作,從而大幅

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論