![語音信號處理——基于線性預(yù)測下的語音信號合成_第1頁](http://file2.renrendoc.com/fileroot_temp3/2021-10/30/b7cd77d1-e516-49a9-9733-14c6f0e94098/b7cd77d1-e516-49a9-9733-14c6f0e940981.gif)
![語音信號處理——基于線性預(yù)測下的語音信號合成_第2頁](http://file2.renrendoc.com/fileroot_temp3/2021-10/30/b7cd77d1-e516-49a9-9733-14c6f0e94098/b7cd77d1-e516-49a9-9733-14c6f0e940982.gif)
![語音信號處理——基于線性預(yù)測下的語音信號合成_第3頁](http://file2.renrendoc.com/fileroot_temp3/2021-10/30/b7cd77d1-e516-49a9-9733-14c6f0e94098/b7cd77d1-e516-49a9-9733-14c6f0e940983.gif)
![語音信號處理——基于線性預(yù)測下的語音信號合成_第4頁](http://file2.renrendoc.com/fileroot_temp3/2021-10/30/b7cd77d1-e516-49a9-9733-14c6f0e94098/b7cd77d1-e516-49a9-9733-14c6f0e940984.gif)
![語音信號處理——基于線性預(yù)測下的語音信號合成_第5頁](http://file2.renrendoc.com/fileroot_temp3/2021-10/30/b7cd77d1-e516-49a9-9733-14c6f0e94098/b7cd77d1-e516-49a9-9733-14c6f0e940985.gif)
版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)
文檔簡介
1、 濱江學(xué)院課程論文 題 目 基于線性預(yù)測下的語音信號合成 學(xué)生姓名 楊 鑫 學(xué) 號 20142305047 系 別 電 子 系專 業(yè) 電子信息工程指導(dǎo)教師 周 曉 彥 二一七年六月六日 基于線性預(yù)測分析的語音合成的研究楊鑫 南京信息工程大學(xué)濱江學(xué)院,江蘇 南京 210044 摘要:語音合成是實現(xiàn)人機(jī)語言通信的關(guān)鍵技術(shù),而線性預(yù)測(LPC)是語音信號處理中最有效的分析方法。而最佳線性預(yù)測設(shè)計的核心是LPC系數(shù)的計算。本文闡述了線性預(yù)測的基本原理,對提取LPC系數(shù)中的自相關(guān)解法中的萊文遜杜賓遞推算法做出了具體驗算,并且給出相關(guān)MATLAB的實現(xiàn)以及其仿真結(jié)果,然后采用線性預(yù)測參數(shù)法合成語音。關(guān)鍵詞
2、:線性預(yù)測;萊文遜杜賓遞推算法;語音合成;MATLAB目 錄 1 緒論11.1 引言11.2 國內(nèi)外研究現(xiàn)狀11.3 研究的內(nèi)容22 線性預(yù)測分析的基本原理22.1語音信號的預(yù)處理22.2基本原理32.3 LPC和語音信號模型的關(guān)系42.4 線性預(yù)測方程組的建立52.5 線性預(yù)測方程組解法72.6 LPC方程自相關(guān)解法的MATLAB實現(xiàn)143 線性預(yù)測參數(shù)合成法合成語音153.1 語音合成的基本原理153.2 參數(shù)合成方法163.3 線性預(yù)測合成法164 總結(jié)17參考文獻(xiàn)17致謝18附錄191 緒論1.1 引言 語音合成是人機(jī)語聲通信的一個很重要組成部分,語音合成技術(shù)賦予機(jī)器“人工的嘴巴”的功
3、能,解決讓機(jī)器像人一樣說話的問題。 讓機(jī)器像人一樣說話,建立可以仿照人的語言過程的模型,設(shè)想在機(jī)器中首先形成一個要講的話語,它大多以表示信息的字符代碼的形式存在,然后按照復(fù)雜的語音規(guī)則,將信息的字符代碼形式轉(zhuǎn)換成由基本發(fā)音單元組成的序列,同時檢查話語的上下文,決定聲調(diào)、重音、必要的停頓等韻律特性,以及陳述、命令、疑問等語氣,最后給出相應(yīng)的符號代碼表示。這樣組成的字符代碼序列相當(dāng)于一種“言語碼”。從“言語碼”出發(fā),按照發(fā)音規(guī)則生成一組隨機(jī)變化的字符代碼序列,去控制語音合成器發(fā)出聲音,猶如人腦中的神經(jīng)命令,以電脈沖形式向發(fā)聲器官發(fā)出指令,使舌、唇、聲帶、肺等部分的肌肉相互協(xié)調(diào)動作發(fā)出聲音一樣,這樣
4、一個完整的過程就是語音合成的含義。 語音合成的研究已有很年的歷史,就目前的研究結(jié)果而言,從技術(shù)方式講可分為波形合成法,參數(shù)合成法和規(guī)則合成法。 線性預(yù)測(Linear Prediction)這一術(shù)語是維納1947年首次提出的,此后線性預(yù)測技術(shù)就應(yīng)用到很多領(lǐng)域中。1967年,日本學(xué)者板倉(Itakura)等人最先將線性預(yù)測運用到語音分析和合成之中1。 線性預(yù)測是語音信號處理中最核心的技術(shù)之一,普遍地應(yīng)用于語音信號處理的各個方面。這種方法是最有效,最流行的語音分析技術(shù)之一。在估計基本的語音參數(shù)(如共振峰、譜、聲道面積函數(shù)),以及用低速率傳輸或儲存語音等方面,線性預(yù)測是一種主要的技術(shù)。它能夠極其精確
5、地估計語音參數(shù),用很少的參數(shù)有效的,正確地表現(xiàn)語音波形及其頻譜性質(zhì),而且技術(shù)效率很高,在應(yīng)用上也靈活方便。 線性預(yù)測分析包括的基本概念是,一個語音的抽樣能夠由之前的若干個語音的抽樣的線性組合來逼近。使實際語音抽樣和線性預(yù)測抽樣之間差的平方和(在一個有限間隔內(nèi))達(dá)到最小值,即使最小均方誤差的逼近,可以確定唯一的一組預(yù)測系數(shù)。這里的預(yù)測系數(shù)就是指線性組合中所用的加權(quán)系數(shù)2。 將線性預(yù)測的分析方法應(yīng)用于語音信號處理,不但利用了其預(yù)測功能,而且提供了一個非常好的聲道模型。這樣的聲道模型對理論的研究和實際的應(yīng)用都是極其有用的。因此線性預(yù)測的基本原理和語音信號數(shù)字模型密切相關(guān)。聲道模型的優(yōu)良性能決定了線性
6、預(yù)測是語音編碼中特別適合的編碼,線性預(yù)測的預(yù)測系數(shù)也是語音識別中非常重要的信息來源。LPC技術(shù)運用于語音編碼時,利用模型參數(shù)可以有效地降低傳輸碼率;應(yīng)用于語音識別時,將LPC參數(shù)形成模板存儲,可以提高識別率和大大減少計算時間。 1.2 國內(nèi)外研究現(xiàn)狀就語音合成技術(shù)而言,最早的合成器是1835年由W.von Kempelen發(fā)明,經(jīng)Weston改進(jìn)的機(jī)械式會講話的機(jī)器。該機(jī)器完全模仿人的發(fā)音生理過程,分別用風(fēng)箱、特別設(shè)計的哨子和軟管來模擬肺部的空氣動力、模擬口腔。而最早的電子式語音合成器是1939年Homer Dudley發(fā)明的聲碼器3,它不是簡單地模擬人的發(fā)生機(jī)理,而是通過電子線路來實現(xiàn)基于語
7、音產(chǎn)生的源濾波器理論4。 線性預(yù)測合成方法是目前比較簡單和實用的一種語音合成方法,因為其低數(shù)據(jù)率、低復(fù)雜度,低成本,收到特別的重視。20世紀(jì)60年代后期后期發(fā)展起來的線性預(yù)測編碼(LPC)語音分析方法可以有效地估計基本的語音參數(shù),如基音、共振峰、譜、聲道面積函數(shù)等,可以對語音的基本模型給出精確地估計,而且計算速度很快。 自20世紀(jì)80年代末期至今,語音合成技術(shù)有了新的發(fā)展,特別是1990年提出的基音同步疊加(PSOLA)方法5,使基于時域波形拼接方法合成的語音的音色和自然度有了很大的提高。20世紀(jì)90年代初,基于PSOLA技術(shù)的法語、德語、英語、日語等語種的文語轉(zhuǎn)換系統(tǒng)都已經(jīng)研制成功。這些系統(tǒng)
8、的自然度比以前基于LPC方法或共振峰合成器的文語合成系統(tǒng)的自然度要高很多,并且基于PSOLA方法的合成器結(jié)構(gòu)簡單,便于實現(xiàn),有很大的商業(yè)前景。 我國的語音合成研究是從20世紀(jì)80年代開始的,中科院聲學(xué)研究所、中科院自動化所、社科院語音所較早地開展了這方面的工作。早期的工作主要是參數(shù)合成,尤其是共振峰的合成及線性預(yù)測合成。20世紀(jì)90年代初開始,真實語音的波形拼接技術(shù)最早由清華大學(xué)應(yīng)用到漢語中來,合成的語音清晰度明顯好于參數(shù)合成。之后聲學(xué)所將可以調(diào)節(jié)韻律參數(shù)的波形合成技術(shù)PSOLA引入漢語合成,并提出了一套韻律控制方法,使合成語音的質(zhì)量有突破性的提高。當(dāng)前的漢語語音合成系統(tǒng)中,很多單位也在開展基
9、于HMM參數(shù)語音合成方法的研究,如清華大學(xué)、中國科技大學(xué)、微軟亞洲研究院、IBM中國研究中心、摩托羅拉中國研究中心等,尤其是中國科技大學(xué)及大訊飛公司近年來在若干次國際語音評測中取得了突出的成績,其研發(fā)的語音合成系統(tǒng)已廣為使用6。1.3 研究的內(nèi)容 本文主要研究一下幾個方面。第一節(jié) 線性預(yù)測分析的基本原理。闡述如何將語音信號進(jìn)行預(yù)處理和線性預(yù)測的基本原理,主要講述了LPC和語音信號模型的關(guān)系,討論了如何將語音產(chǎn)生的數(shù)字模型向自回歸信號模型的轉(zhuǎn)換,如何將解非線性方程組的問題轉(zhuǎn)換為解線性方程組的問題。第二節(jié) LPC方程的建立與其解法。根據(jù)線性預(yù)測分析的原理,列出關(guān)于LPC系數(shù)的方程組,并采用自相關(guān)解
10、法中的萊文遜杜賓遞推算法進(jìn)行具體的驗算求出線性預(yù)測系數(shù)。第三節(jié) LPC方程的自相關(guān)解法的MATLAB的實現(xiàn)。根據(jù)萊文遜杜賓遞推算法的數(shù)學(xué)原理,利用MATLAB進(jìn)行仿真,并且進(jìn)行簡要闡述。第四節(jié) 線性預(yù)測參數(shù)合成法合成語音。介紹語音合成的概念和線性預(yù)測參數(shù)合成法的基本原理。第五節(jié) 總結(jié)??偨Y(jié)線性預(yù)測參數(shù)合成法的優(yōu)缺點。2 線性預(yù)測分析的基本原理2.1語音信號的預(yù)處理 在語音信號的A/ D轉(zhuǎn)換過程中,為防止頻域混疊,通常在對模擬語音信號取樣之前先進(jìn)行低通濾波,但濾波的同時也降低高頻區(qū)域信號的能量,這對線性預(yù)測分析是很不利的。由于高頻區(qū)域能量的降低可能會影響到自相關(guān)矩陣的正確性,導(dǎo)致自相關(guān)矩陣病態(tài)甚
11、至可逆,因而通常在計算LPC( Lin-ear Predictive Coding)系數(shù)之前利用只有一個零點的濾波器對語音信號進(jìn)行處理,以增強(qiáng)語音信號高頻區(qū)域的能量,這一過程稱為語音信號的預(yù)加重.用作預(yù)加重的濾波器被稱為預(yù)加重濾波器,其系統(tǒng)函數(shù)為: (2-1)式中稱為預(yù)加重因子,用來控制預(yù)加重的程度,其值接近于1. 在語音信號的合成端,為了去除預(yù)加重帶來的影響,通常在重建語音輸出之前,使其通過去加重濾波器,去加重濾波器是預(yù)加重濾波器的逆過程,其系統(tǒng)函數(shù)為: (2-2) 經(jīng)過預(yù)加重數(shù)字濾波后,接下來就要進(jìn)行加窗分幀處理,一般語音信號每幀數(shù)約為33 100幀,這要視實際情況而定。分幀雖然可以采用連
12、續(xù)分段的方法,但一般要采用交疊分段方法,這是為了使幀與幀之間平滑過渡,保持其連續(xù)性。前一幀和后一幀的交疊部分稱為幀移。幀移和幀長的比值通常取01/2。分幀是用可移動的有限長度窗口進(jìn)行加權(quán)的方法來實現(xiàn)的,這就是用合適的窗函數(shù)w(n)來乘以音信號s(n),從而形成加窗后的語音信號: (2-3) 在語音信號數(shù)字處理中常用的窗函數(shù)是矩形窗和漢明窗等,窗函數(shù)的選擇(形狀和長度)對于短時分析參數(shù)的特性影響很大,為此應(yīng)選擇合適的窗函數(shù),使其短時參數(shù)能夠更好地反應(yīng)語音信號的特性變化,這里本文選擇漢明窗7。2.2基本原理s(n)u(n) 線性預(yù)測分析的基本原理是將分析的信號用一個模型來表示,即將信號看做是某一個
13、模型的輸出。這樣就可以用模型參數(shù)來描述信號。圖1是信號s(n)的模型化框圖。其中u(n)表示模型的輸入,s(n)表示模型的輸出。H(Z) 圖1 信號是s(n)的模型化 一般情況下,設(shè)定的模型中只包含有極限極點而沒有有限值的零點,此系統(tǒng)函數(shù)表示為(2-4) 這種模型稱為“全極點模型”或“AR模型”8。式中,各系數(shù)和增益G就是模型參數(shù)。此時信號就可以用有限數(shù)目的參數(shù)構(gòu)成的信號模型來表示。線性預(yù)測分析就是根據(jù)已知的s(n)對各參數(shù)和G進(jìn)行估值。系數(shù)稱為線性預(yù)測系數(shù)。線性預(yù)測的基本原理是由語音信號直接確定一組預(yù)測器系數(shù),使預(yù)測誤差在某個準(zhǔn)則下最小。如果采用最小均方誤差LMS準(zhǔn)則進(jìn)行估值,就得到了著名的
14、線性預(yù)測分析(LPC)算法,這一過程就稱為線性預(yù)測分析。 實際上線性預(yù)測模型一般均采用全極點模型,在語音線性預(yù)測方面的文獻(xiàn)和資料中,絕大多數(shù)情況采用AR模型。主要是因為:AR模型易反映頻譜中的峰值,MA模型易反映頻譜中的谷值,而ARMA模型可以同時反映兩者??紤]到求解AR模型的正則方程(normal equation)是一組線性方程,而求MA和ARMA模型的方程是非線性方程9。有時無法知道輸入序列,比如對一些地震應(yīng)用、腦電圖及解卷積等問題。如果不考慮鼻音和摩擦音,那么語音的聲道傳遞函數(shù)就是一個全極點模型。人的聽覺對于那種只能用零點來表現(xiàn)的頻譜陡峭谷點是遲鈍的。 對于鼻音和摩擦音,聲學(xué)理論表明其
15、聲道傳輸函數(shù)既有極點又有零點,這時如果模型的階數(shù)P足夠高,可以用全基點模型來近似表示極零點模型。因為一個零點可以用許多個極點來近似,即(2-5) 如果分母多項式收斂得足夠快,只取其中少數(shù)幾項就可以了,所以全極點模型為實際應(yīng)用提供了較為合理的近似。2.3 LPC和語音信號模型的關(guān)系根據(jù)前面所說的模型化思想,可以對語音信號建立模型,如圖2所示。 圖2 語音產(chǎn)生的數(shù)字化模型簡化框圖 該模型的參數(shù)有清/濁判決、濁語音的基音周期、增益常數(shù)G及數(shù)字時變?yōu)V波器系數(shù),這些參數(shù)是隨時間緩慢變化的。其中輸入的語音信號可由周期脈沖序列的激勵(對于濁音)或者隨機(jī)噪聲序列的激勵(對于清音)來模擬,周期脈沖序列之間的間隔
16、即為基音周期。而聲門激勵、聲道調(diào)制和嘴唇輻射的合成,可用如下數(shù)字時變?yōu)V波器表示(2-6) 可以看出,圖1的模型是圖2語音產(chǎn)生的數(shù)字化模型的一種特殊形式,它將其中的輻射、聲道以及聲門激勵的全部譜效應(yīng)簡化為一個時變的數(shù)字濾波器來等效,其系統(tǒng)函數(shù)為(2-7)這樣把s(n)模型化為一個P階的AR模型。式中增益G以及數(shù)字濾波器系數(shù)都可以隨時間的變化而變化,p為預(yù)測器階數(shù)。當(dāng)階數(shù)p足夠大時,這個全極點模型幾乎可以模擬所有語音信號的聲道系數(shù),采用這樣一個簡化模型的主要優(yōu)點在于可以用線性預(yù)測分析法對增益G和濾波器系數(shù)進(jìn)行直接的,快速的運算。2.4 線性預(yù)測方程組的建立 模型的建立實際上是由信號來估計模型的參數(shù)
17、過程,而信號實際客觀存在的,用一個有限數(shù)目參數(shù)的模型表示它不可能完全精確,總會存在誤差,況且信號還是時變的,因此求線性預(yù)測系數(shù)的過程只是一個逼近的過程。 對于圖1所示的模型采用逼近的方法求解釋不科學(xué)的,因為這要求解一組非線性方程,實現(xiàn)起來非常困難。所以,實際中采用“逆濾波法”。 用系數(shù)可以定義一個p階線性預(yù)測器(2-8) 這個p階預(yù)測器從時域角度可理解為,用信號的前p個樣本來預(yù)測當(dāng)前的樣本得到預(yù)測值。(2-9) 因為預(yù)測器F(z)是用AR模型的系數(shù)來構(gòu)造的,而AR模型是在最小均方意義上對數(shù)據(jù)的擬合,所以預(yù)測器F(z)必然是一個最佳選擇器,即此時預(yù)測器的預(yù)測誤差短時能量最小。 語音信號的線性分析
18、就是根據(jù)這一性質(zhì),從語音信號s(n)出發(fā),依據(jù)最小均方誤差準(zhǔn)則,估計出一組線性預(yù)測器的系數(shù),它就是所求的信號AR模型的系數(shù)。稱為線性預(yù)測系數(shù)或LPC系數(shù)。 預(yù)測器的預(yù)測誤差e(n)為(2-10)由上式可知,e(n)是輸入為s(n),具有如下形式傳遞函數(shù)的濾波器的輸出(2-11) 因此稱A(z)為預(yù)測誤差濾波器。比較式(2-8)和式(2-11)可知A(z)=G/H(z),即預(yù)測誤差濾波器是系統(tǒng)H(z)的逆濾波器。 為了在最小均方誤差意義上計算一組最佳預(yù)測系數(shù),定義短時預(yù)測均方差為(2-12) 由于語音信號的時変特性,線性預(yù)測分析應(yīng)該是在短時的語音上進(jìn)行,即按幀進(jìn)行。因此上式求和通常也是在一幀的語
19、音范圍內(nèi)進(jìn)行。 使式(2-12)中的En達(dá)到最小,必須滿足,考慮式(2-11),則有(2-13)這樣可以得到以為變量的線性方程組(2-14)若定義,則式(2-14)可簡寫為(2-15)上式是一個由p個方程組成的有p個未知數(shù)的線性方程組,求解方程組就可以得到線性預(yù)測系數(shù)的估計值 。同樣也可以求得最小預(yù)測誤差能量值En,利用式(2-12)和式(2-14)有(2-16)或?qū)懗桑?-17)En又被稱為預(yù)測殘差能量,由式(2-17)可見,它由一個固定分量和一個依賴于預(yù)測系數(shù)的分量組成。 根據(jù)式(2-4)還可以求得增益常數(shù)G10,由圖2的系統(tǒng),語音抽樣信號s(n)和激勵信號之間的關(guān)系還可以用下列簡單的差分
20、方程來表示(2-18)對上式兩邊乘以是s(n)并求平均值,等式右邊為(2-19)等式左邊為(2-20) 激勵信號u(n)無法精確計算,但根據(jù)前文所訴的語音產(chǎn)生模型,在濁音情況下,激勵可以看做是準(zhǔn)脈沖串;在清音時,可以看做為高斯白噪聲11。因此有 ,所以 ,又由于u(n)和s(n-i)不相關(guān),所以將式(2-12)和式(2-20)比較,可以得出(2-21)2.5 線性預(yù)測方程組解法 為了有效地進(jìn)行線性預(yù)測分析,有必要用一種高效率的方法來解線性方程組。雖然可以用各種各樣的方法來解包含p個未知數(shù)的p個線性方程,但是系數(shù)矩陣的特殊性質(zhì)使得解方程的效率比普通情況下能達(dá)到的效率要高得多12。 在式(2-14
21、)所示的線性預(yù)測標(biāo)準(zhǔn)方程組中,n的上下限取決于使誤差最下的具體做法。當(dāng)n的求和范圍不同時,導(dǎo)致不同的線性預(yù)測解法。經(jīng)典的解法有三種:一種是自相關(guān)法,一種是協(xié)相關(guān)法,另一種是格型法。這里詳細(xì)介紹自相關(guān)法中的萊文遜杜賓遞推算法(另一種算法為舒爾遞推算法)。 這種方法在整個時間范圍內(nèi)使誤差最小,并設(shè)s(n)間隔在0nN-1以外等于0,即進(jìn)過分幀加窗處理。對加窗處理后的信號作自相關(guān)序列估計,顯然會引起誤差。為了減少窗作用于語音段時在兩端引起的誤差,所以通常不采用突變的矩形窗,而是使用兩端具有平滑過渡特性的窗口,如海明窗等。 通常,s(n)的自相關(guān)函數(shù)為(2-22)設(shè) 為加窗后的信號,加窗處理后,自相關(guān)
22、函數(shù)表示為(2-23)式中Rn(k)為短時自相關(guān)函數(shù)。 比較式(2-14)和(2-23)可知,式(2-14)中的 即為 ,即(2-24)式(2-23)中,Rn(j)仍然保留了信號s(n)自相關(guān)的特性。如Rn(j)為偶函數(shù),即Rn(j)=Rn(-j)。Rn(j-i)只與j和i的相對大小有關(guān),而與j和i的取值無關(guān),所以(2-25)此時式(2-15)可表示為(2-26)類似的式(2-17)也可以表示為(2-27)式(2-26)形式的方程組可以表示成如下的矩陣形式13 (2-28) 這種方程稱為Yule-Walker方程,其中系數(shù)矩陣即P×P階的自相關(guān)函數(shù)矩陣(相關(guān)矩陣)稱為托普利茲(Toe
23、plitz)矩陣14,它以對角線為對稱,且主對角線以及和主對角線平行的任何一條斜線上所有的元素都相等。對于這種矩陣方程無需像求解一般矩陣方程那樣進(jìn)行大量的計算,利用托普利茲矩陣的性質(zhì)可以得到高效的遞推算法。即只要求出(n-1)階方程組的解即(n-1)階預(yù)測器的系數(shù),就可以利用 求出n階方程的解,即n階預(yù)測器的系數(shù) (這里括號中的上標(biāo)表示預(yù)測系數(shù)的階數(shù),如 表示第i階預(yù)測器的第j個預(yù)測系數(shù), 表示第i個預(yù)測器的預(yù)測殘差能量)。萊文遜杜賓遞推算法如下(1) 計算自相關(guān)系數(shù) (2-29)(2) (2-30)(3) i=1;(4) 開始按公式進(jìn)行遞推運算:(2-31) (2-32) (2-33) (2
24、-34)(5) i=i+1。若i>p則算法結(jié)束退出,否則返回第(4)步,按式(2-31)和式(2-33)進(jìn)行遞推14。 這樣經(jīng)過遞推算法后,可得到i=1,2,p各階預(yù)測器的解。實際上只需要第p階的運算結(jié)果,最終結(jié)果為(2-35)和 (2-36) 下面給出詳細(xì)的計算過程,與萊文遜杜賓遞推算法略有不同的是這里使用n+1階來推導(dǎo)。 根據(jù)式(2-28)可設(shè)即有(2-37)進(jìn)而有(2-38)由式(2-27)可得(2-39) 根據(jù)式(2-28)利用遞推原理,寫出(P+1)階矩陣方程(2-40)利用矩陣的分塊性質(zhì),將上式矩陣方程分塊15。(2-41)即有(表示與行數(shù)列數(shù)相同但元素倒置的矩陣)從而有(2
25、-42)進(jìn)而有 (2-43) (2-44)由式(2-43)可得 (2-45)將其帶入到式(2-44)中,可得(2-46)又因為(2-48)(2-47)所以有(2-49)對于,有(2-50)將其遞推到(P+1)階則有(2-51)對于,有(2-52)對于,有 (2-53) 所以(2-54)(2-55)綜上(2-56) 令 ,最終有(2-58)(2-57) 比較式(2-35)和式(2-36),演算完畢。2.6 LPC方程自相關(guān)解法的MATLAB實現(xiàn) 給出用萊文遜杜賓遞推算求解線性預(yù)測系數(shù)的MATLAB實現(xiàn)lpc_coefficients.m% 此程序的功能是用自相關(guān)法求使信號s均方預(yù)測誤差為最小的預(yù)
26、測系數(shù)% 算法為LevinsonDurbin快速遞推算法% 首先對輸入語音進(jìn)行分幀,并給出LPC分析階次fid=fopen('sx86.txt','r');pl=fscanf(fid,'%f')fclose(fid);p2=filter(1-0.68,1,p1) % 預(yù)加重濾波x=fra(320,160,p2); % 將預(yù)加重后語音分幀,每幀320個樣點,幀重疊160x=x(60,:); % 取第60幀輸入信號進(jìn)行處理,x為行向量s=x' % x為行向量,s為列向量N=16; % LPC階次N=16p=N; % 獲得LPC階次n=leng
27、th(s); % 獲得信號長度% Rn(i)=sum(s(1:N-i).*s(1+i:N)for i=1:p Rp(i,1)=sum(s(i+1:n).*s(1:n-i) % 求向量的相關(guān)函數(shù),“.*”表示兩個同維矩陣相應(yīng) % 元素相乘endRp=Rp(:) % 將自相關(guān)函數(shù)變?yōu)榱邢蛄縍p_0=s'*s; % 即Rn(0)Ep=zeros(p,1); % Ep為p階最佳線性預(yù)測反濾波能量k=zeros(p,1); % k為自相關(guān)系數(shù)a=zeros(p,p); % 以上為初始化% i=1的情況需要特殊處理,也就是對p=1處理Ep_0=Rp_0;k(1,1)=Rp(1,1)/Rp_0;a(
28、1,1)=k(1,1);Ep(1,1)=(1-k(1,1)2)*Ep_0;% i>=2以后使用遞歸算法if p>1 for i=2:p k(i,1)=(Rp(i,1)-sum(a(1:i-1,i-1).*Rp(i-1:-1:1)/Ep(i-1,1); % 求式(2-31) a(i,i)=k(i,1); % 求式(2-32)a(i) Ep(i,1)=(1-k(i,1)2)*Ep(i-1,1); % 求式(2-34)Ei for j=1:i-1 a(j,i)=a(j,i-1)-k(i,1)*a(i-j,i-1) % 求式(2-33) end endendc=-a(:,p); % 將a矩
29、陣從第1到最后一行的第p列元素乘以以(-1)賦值給c,c即最 % 后求得的LPC系數(shù),不包括第一個系數(shù)1 % 得到最終的LPC系數(shù)a1,此處a1為行向量a1(1,1)=1.0; % 賦上第一個LPC系數(shù)1for i=2:p+1-0 a1(1,i)=c(i-1,1); % 得到第2個到第p+1個LPC系數(shù)end3 線性預(yù)測參數(shù)合成法合成語音3.1 語音合成的基本原理 實際上,人在發(fā)出聲音之前是要進(jìn)行一段大腦的高級神經(jīng)活動,即先有有個說話的意向,然后圍繞該意向生成一系列相關(guān)的概念,最后將這些概念組織成語句發(fā)音輸出,日本學(xué)者Fuji saki按照人在說話過程中所用到的各種知識,將語音合成由到深分成三
30、個層次(如圖3所示),按規(guī)則從文本到語音的合成(text- to-speech);按規(guī)則從概念到語音的合成(concept-to-speech);按規(guī)則從意向到語音的合成(intention- to- speech)。目前語音合成的研究還只是局限在從文本到語音的合成上,即通常所說的 TTS系統(tǒng)16。 意向 概念 文本 控制 合成語音信號語音產(chǎn)生發(fā)生編碼語音編碼語音表示圖3 語音合成的三個層次 語音合成是一個“分析存儲合成”的過程。一般是選擇合適的基音,將基音用一定參數(shù)編碼方式或波形方式進(jìn)行存儲,形成一個語音庫。合成時,根據(jù)待合成的語音庫中取出相應(yīng)的基音進(jìn)行拼接,并將其還原為語音信號。在語音合成
31、中,為了便于存儲,必須先將語音信號進(jìn)行分析或變換,因而在合成前還必須進(jìn)行相應(yīng)的反變換。其中,基音是語音合成系統(tǒng)所處理的最小的語言學(xué)基本單元,待合成詞語的語音庫就是所有合成基音的集合。根據(jù)基音的選擇方式以及其存儲方式不同,可以將合成方式大概地分成波形合成方法和參數(shù)合成方法。3.2 參數(shù)合成方法 人類的發(fā)音能力是一種非常普通的能力。但語音的產(chǎn)生機(jī)理卻足一個非常復(fù)雜的過程 ,無法用解析式對其進(jìn)行精確的描述?,F(xiàn)代講音學(xué),聲學(xué)、音位學(xué)研究表明:語音信號具有緩慢的時變特性??梢院喼械胤譃榍逡?。濁音、爆破音等。不同發(fā)音的激勵源不同其語音信號的頻譜圖也不相同。可以將肺部氣流通過聲帶的結(jié)果用一個激勵源模型來表示
32、將聲道調(diào)音運動的作用用一個聲道模型表示。一般情況下,語咅的產(chǎn)生是激勵源和聲道共同作用的結(jié)果。激勵源信號經(jīng)過聲道的調(diào)制作用后,經(jīng)過模擬唇部輻射作用的輻射模型,形成最后的合成語音,這個語音合成過程可以用圖2的簡化模型表示。3.3 線性預(yù)測合成法線性預(yù)測參數(shù)法是目前比較簡單和實用的一種語音信號合成方法,可以有效地估計基本語音參數(shù),可以對語音的基本模型繪出精確的估計。因此線性預(yù)測語音合成器利用線性預(yù)測語音分析方法,通過分析自然語音樣本,計算出 LPC系數(shù),根據(jù)信號產(chǎn)生模型,從而合成出語音。線性預(yù)測合成模型是一種“源濾波器”模型,由白噪聲序列和周期沖擊序列構(gòu)成的激勵信號,經(jīng)過選通、放大并通過時變數(shù)字濾波
33、(由語音參數(shù)控制的聲道模型),就可以獲得合成的語音信號. 這種語音合成器的框圖如圖2所示。 直接用LPC系數(shù)構(gòu)成遞歸型合成濾波器進(jìn)行語音合成的結(jié)構(gòu)如圖 4所示。圖4 LPC遞歸型合成濾波器 用這種方法定期地改變激勵信號s(n)和LPC系數(shù)就能合成語音。合成的語音樣本由下式給出:(3-1)式中:為預(yù)測系數(shù),G為增益模型,u(n)為激勵,合成語音樣本為s(n),P為預(yù)測器階數(shù)。4 總結(jié) 本學(xué)期選修語音信號處理這門課程,學(xué)習(xí)了語音信號處理的基礎(chǔ)、概念、原理、方法及應(yīng)用,同時了解了一定的背景知識、發(fā)展概況、研究現(xiàn)狀、應(yīng)用前景和發(fā)展趨勢與方向。本調(diào)查報告圍繞線性參數(shù)合成技術(shù)這一課題,進(jìn)行一定的分析討論與
34、擴(kuò)展,以此作為本門課程的總結(jié)。不敢妄談見解,謹(jǐn)以所學(xué)內(nèi)容加以總結(jié)與梳理、搜集相關(guān)文獻(xiàn)加以提煉與編纂。其中難免錯誤與疏漏之處,亦難免認(rèn)識膚淺、總結(jié)不到位之處. 本文對線性預(yù)測參數(shù)合成法進(jìn)行了細(xì)致的探討,參數(shù)直接形式的預(yù)測系數(shù)濾波器結(jié)構(gòu)的優(yōu)點是簡單、變于實現(xiàn),所以曾被廣泛采用。其缺點是和成語音樣本需要很高的計算精度。這是因為這種遞歸結(jié)構(gòu)對系數(shù)的變換非常敏感。其系數(shù)的微小變化就可以導(dǎo)致濾波器極點未知的很大變化,甚至出現(xiàn)不穩(wěn)定的現(xiàn)象。 參考文獻(xiàn)1 陳燕. 用戶定制口令聲紋識別系統(tǒng)研究與嵌入式實現(xiàn)D,廈門大學(xué),2009210 張雪英. 數(shù)字語音處理及MATLAB仿真M. 北京:電子工業(yè)出版社,2010:
35、95,1723 楊風(fēng)健. 輕松學(xué)會語音合成J. 電子制作,2011,(08):65-674 Lonnie C. Ludeman. 隨機(jī)過程濾波、估計與檢測M. 邱天爽. 譯,北京:電子工業(yè)出版社 2005:65-665616 韓紀(jì)慶,張磊,鄭鐵然. 語音信號處理M. 北京:清華大學(xué)出版社,2版,2013:369-375,7,1017 胡航. 語音信號處理M. 哈爾濱:哈爾濱工業(yè)大學(xué)出版社,2版,2002:27-3189 王沁著. 時間序列分析及其應(yīng)用M. 成都:西南交通大學(xué)出版社,2008:44-46,44-4611 樊昌信,曹麗娜. 通信原理. 北京:國防工業(yè)出版社. 7版, 2016:56
36、-5812 謝冬秀,雷紀(jì)剛,陳桂芝. 矩陣?yán)碚摷胺椒∕. 北京:科學(xué)出版社,2011:236-23813 張凱院,徐仲等. 矩陣論M. 北京:科學(xué)出版社,2012:282-2841415 同濟(jì)大學(xué)數(shù)學(xué)教研室. 工程數(shù)學(xué)線性代數(shù)M. 北京:高等教育出版社. 3版,1999:36-41,41-53,58-65致謝 歷時將近兩個星期時間終于把這篇論文寫完了,在論文的寫作過程中遇到不少的障礙,比如如何在網(wǎng)上查閱更多文獻(xiàn)。如何在校圖書館更快的查找書籍,如何規(guī)范論文格式,如何正確地使用文檔編輯軟件等,但這些都在同學(xué)和老師的幫助克服過了。在校圖書館查找資料的時候,圖書館的老師給我提供了很多方面的支持與幫助,
37、尤其要強(qiáng)烈感謝我的論文指導(dǎo)老師周曉彥老師,沒有她的指導(dǎo),就沒有我這篇論文的完成。在此,我向幫助過我的老師們表示感謝。 同時,我也要感謝本論文所引用的各位學(xué)者的專著,給了我很大的啟發(fā)和幫助。至此,我也要感謝我的朋友和同學(xué),他們在我寫論文的過程中給予我了很多有用的素材,也在論文的排版和撰寫過程中提供幫助。 說來慚愧,這篇論文是我從大學(xué)以來第一次認(rèn)認(rèn)真真完成的,以前大多是為了完成任務(wù),敷衍了事,又因為我的學(xué)術(shù)水平有限,所寫論文難免有不足之處,懇請老師批評和指正。附錄1 語音信號的預(yù)加重處理MATLAB仿真% 語音讀入 global X T x x,f
38、s,bits=wavread('4.wav'); sound(x,fs,bits); T=1/fs; X=fft(x,4000); axes(handles.axes1),plot(x);title('原始信號時域圖'); xlabel('時間') ylabel('幅值') axes(handles.axes2),plot(abs(X); title('原始信號頻譜圖'); xl
39、abel('頻率/Hz'); ylabel('幅值'); % 預(yù)加重 global x xx xx=double(x); xx=filter(1 -0.9375,1,xx); % 通過一個一階高通濾波器進(jìn)行濾波 XX=fft(xx,4000); %figure(2); axes(handles.axes3),plot(xx);title('預(yù)加重后信號波形');xlabel('時間');ylabel
40、('幅值') axes(handles.axes4),plot(abs(XX);title('預(yù)加重后信號頻譜'); xlabel('頻率/Hz'); ylabel('幅值') % 分幀 % 設(shè)定幀移和幀長 step=st; framelength =fr; % 分幀后如果有結(jié)余,則補(bǔ)足最后一幀數(shù)據(jù) lengthOfTailPad=framelength-rem(length(xx),framelength);
41、 % 求余數(shù) tailPad=xx(length(xx)-lengthOfTailPad+1:length(xx) ); nf=fix(length(xx)-framelength+step)/step); % 截尾取整,計算幀數(shù) sn=zeros(nf,framelength); %219*256indf=step*(0:(nf-1).' inds=(1:framelength); % 語音分幀 u=indf(:,ones(1,frameleng
42、th)+inds(ones(nf,1),:);%219*256 fx=x(u); sn(:)= x(u); t=sn(:); %figure(3); axes(handles.axes5),plot(fx);title('分幀處理后的波形'); xlabel('幀數(shù)'); ylabel('幅值/n');f=fft(fx); axes(handles.axes6),plot(abs(f);title('分幀處理后的頻譜圖'); xla
43、bel('幀數(shù)'); ylabel('幅值/n'); %過零檢測 global xx fx fr st x nf %figure(5) nt=length(xx); fxx=abs(fx); avap=sum(fxx,2); axes(handles.axes7),plot(avap);title('短時能量波形'); xlabel('幀數(shù)'); ylabel('能量') N=fr; for i=1:nt-1 if xx(i)>=0
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2024-2025學(xué)年新教材高中政治 第二單元 世界多極化 3.1 世界多極化的發(fā)展說課稿 新人教版選擇性必修1
- 二零二五年度城市綜合體土地及房屋銷售代理合同
- 2025年度購房貸款合同終止及解除范本
- 8-2《小二黑結(jié)婚》(說課稿)高二語文同步高效課堂(統(tǒng)編版 選擇性必修中冊)
- 2024年春八年級語文下冊 第1單元 口語交際 應(yīng)對說課稿 新人教版
- 2024-2025學(xué)年新教材高中政治 第一單元 探索世界與把握規(guī)律 2.1 世界的物質(zhì)性說課稿 部編版必修4
- 5《風(fēng)兒輕輕吹》說課稿-2023-2024學(xué)年道德與法治一年級下冊統(tǒng)編版001
- 2025年度大型項目財務(wù)預(yù)算編制與控制合同4篇
- 1-1氓〉說課稿 2023-2024學(xué)年統(tǒng)編版高中語文選擇性必修下冊
- 5生物的啟示 說課稿-2023-2024學(xué)年科學(xué)五年級下冊蘇教版
- 政治-湖北省湖部分名校(云學(xué)名校聯(lián)盟)2025屆高三1月聯(lián)考試題和答案
- 行政單位會計核算職責(zé)(4篇)
- 《義務(wù)教育道德與法治課程標(biāo)準(zhǔn)》解讀
- 醫(yī)院-9S管理共88張課件
- 高考作文復(fù)習(xí):議論文論證方法課件15張
- MySQL數(shù)據(jù)庫項目式教程完整版課件全書電子教案教材課件(完整)
- 藥品生產(chǎn)質(zhì)量管理工程完整版課件
- 《網(wǎng)絡(luò)服務(wù)器搭建、配置與管理-Linux(RHEL8、CentOS8)(微課版)(第4版)》全冊電子教案
- 降“四高”健康教育課件
- 五十鈴、豐田全球化研究
- 升降柱建設(shè)方案
評論
0/150
提交評論