語(yǔ)音信號(hào)處理——基于線性預(yù)測(cè)下的語(yǔ)音信號(hào)合成_第1頁(yè)
語(yǔ)音信號(hào)處理——基于線性預(yù)測(cè)下的語(yǔ)音信號(hào)合成_第2頁(yè)
語(yǔ)音信號(hào)處理——基于線性預(yù)測(cè)下的語(yǔ)音信號(hào)合成_第3頁(yè)
語(yǔ)音信號(hào)處理——基于線性預(yù)測(cè)下的語(yǔ)音信號(hào)合成_第4頁(yè)
語(yǔ)音信號(hào)處理——基于線性預(yù)測(cè)下的語(yǔ)音信號(hào)合成_第5頁(yè)
已閱讀5頁(yè),還剩28頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、 濱江學(xué)院課程論文 題 目 基于線性預(yù)測(cè)下的語(yǔ)音信號(hào)合成 學(xué)生姓名 楊 鑫 學(xué) 號(hào) 20142305047 系 別 電 子 系專(zhuān) 業(yè) 電子信息工程指導(dǎo)教師 周 曉 彥 二一七年六月六日 基于線性預(yù)測(cè)分析的語(yǔ)音合成的研究楊鑫 南京信息工程大學(xué)濱江學(xué)院,江蘇 南京 210044 摘要:語(yǔ)音合成是實(shí)現(xiàn)人機(jī)語(yǔ)言通信的關(guān)鍵技術(shù),而線性預(yù)測(cè)(LPC)是語(yǔ)音信號(hào)處理中最有效的分析方法。而最佳線性預(yù)測(cè)設(shè)計(jì)的核心是LPC系數(shù)的計(jì)算。本文闡述了線性預(yù)測(cè)的基本原理,對(duì)提取LPC系數(shù)中的自相關(guān)解法中的萊文遜杜賓遞推算法做出了具體驗(yàn)算,并且給出相關(guān)MATLAB的實(shí)現(xiàn)以及其仿真結(jié)果,然后采用線性預(yù)測(cè)參數(shù)法合成語(yǔ)音。關(guān)鍵詞

2、:線性預(yù)測(cè);萊文遜杜賓遞推算法;語(yǔ)音合成;MATLAB目 錄 1 緒論11.1 引言11.2 國(guó)內(nèi)外研究現(xiàn)狀11.3 研究的內(nèi)容22 線性預(yù)測(cè)分析的基本原理22.1語(yǔ)音信號(hào)的預(yù)處理22.2基本原理32.3 LPC和語(yǔ)音信號(hào)模型的關(guān)系42.4 線性預(yù)測(cè)方程組的建立52.5 線性預(yù)測(cè)方程組解法72.6 LPC方程自相關(guān)解法的MATLAB實(shí)現(xiàn)143 線性預(yù)測(cè)參數(shù)合成法合成語(yǔ)音153.1 語(yǔ)音合成的基本原理153.2 參數(shù)合成方法163.3 線性預(yù)測(cè)合成法164 總結(jié)17參考文獻(xiàn)17致謝18附錄191 緒論1.1 引言 語(yǔ)音合成是人機(jī)語(yǔ)聲通信的一個(gè)很重要組成部分,語(yǔ)音合成技術(shù)賦予機(jī)器“人工的嘴巴”的功

3、能,解決讓機(jī)器像人一樣說(shuō)話的問(wèn)題。 讓機(jī)器像人一樣說(shuō)話,建立可以仿照人的語(yǔ)言過(guò)程的模型,設(shè)想在機(jī)器中首先形成一個(gè)要講的話語(yǔ),它大多以表示信息的字符代碼的形式存在,然后按照復(fù)雜的語(yǔ)音規(guī)則,將信息的字符代碼形式轉(zhuǎn)換成由基本發(fā)音單元組成的序列,同時(shí)檢查話語(yǔ)的上下文,決定聲調(diào)、重音、必要的停頓等韻律特性,以及陳述、命令、疑問(wèn)等語(yǔ)氣,最后給出相應(yīng)的符號(hào)代碼表示。這樣組成的字符代碼序列相當(dāng)于一種“言語(yǔ)碼”。從“言語(yǔ)碼”出發(fā),按照發(fā)音規(guī)則生成一組隨機(jī)變化的字符代碼序列,去控制語(yǔ)音合成器發(fā)出聲音,猶如人腦中的神經(jīng)命令,以電脈沖形式向發(fā)聲器官發(fā)出指令,使舌、唇、聲帶、肺等部分的肌肉相互協(xié)調(diào)動(dòng)作發(fā)出聲音一樣,這樣

4、一個(gè)完整的過(guò)程就是語(yǔ)音合成的含義。 語(yǔ)音合成的研究已有很年的歷史,就目前的研究結(jié)果而言,從技術(shù)方式講可分為波形合成法,參數(shù)合成法和規(guī)則合成法。 線性預(yù)測(cè)(Linear Prediction)這一術(shù)語(yǔ)是維納1947年首次提出的,此后線性預(yù)測(cè)技術(shù)就應(yīng)用到很多領(lǐng)域中。1967年,日本學(xué)者板倉(cāng)(Itakura)等人最先將線性預(yù)測(cè)運(yùn)用到語(yǔ)音分析和合成之中1。 線性預(yù)測(cè)是語(yǔ)音信號(hào)處理中最核心的技術(shù)之一,普遍地應(yīng)用于語(yǔ)音信號(hào)處理的各個(gè)方面。這種方法是最有效,最流行的語(yǔ)音分析技術(shù)之一。在估計(jì)基本的語(yǔ)音參數(shù)(如共振峰、譜、聲道面積函數(shù)),以及用低速率傳輸或儲(chǔ)存語(yǔ)音等方面,線性預(yù)測(cè)是一種主要的技術(shù)。它能夠極其精確

5、地估計(jì)語(yǔ)音參數(shù),用很少的參數(shù)有效的,正確地表現(xiàn)語(yǔ)音波形及其頻譜性質(zhì),而且技術(shù)效率很高,在應(yīng)用上也靈活方便。 線性預(yù)測(cè)分析包括的基本概念是,一個(gè)語(yǔ)音的抽樣能夠由之前的若干個(gè)語(yǔ)音的抽樣的線性組合來(lái)逼近。使實(shí)際語(yǔ)音抽樣和線性預(yù)測(cè)抽樣之間差的平方和(在一個(gè)有限間隔內(nèi))達(dá)到最小值,即使最小均方誤差的逼近,可以確定唯一的一組預(yù)測(cè)系數(shù)。這里的預(yù)測(cè)系數(shù)就是指線性組合中所用的加權(quán)系數(shù)2。 將線性預(yù)測(cè)的分析方法應(yīng)用于語(yǔ)音信號(hào)處理,不但利用了其預(yù)測(cè)功能,而且提供了一個(gè)非常好的聲道模型。這樣的聲道模型對(duì)理論的研究和實(shí)際的應(yīng)用都是極其有用的。因此線性預(yù)測(cè)的基本原理和語(yǔ)音信號(hào)數(shù)字模型密切相關(guān)。聲道模型的優(yōu)良性能決定了線性

6、預(yù)測(cè)是語(yǔ)音編碼中特別適合的編碼,線性預(yù)測(cè)的預(yù)測(cè)系數(shù)也是語(yǔ)音識(shí)別中非常重要的信息來(lái)源。LPC技術(shù)運(yùn)用于語(yǔ)音編碼時(shí),利用模型參數(shù)可以有效地降低傳輸碼率;應(yīng)用于語(yǔ)音識(shí)別時(shí),將LPC參數(shù)形成模板存儲(chǔ),可以提高識(shí)別率和大大減少計(jì)算時(shí)間。 1.2 國(guó)內(nèi)外研究現(xiàn)狀就語(yǔ)音合成技術(shù)而言,最早的合成器是1835年由W.von Kempelen發(fā)明,經(jīng)Weston改進(jìn)的機(jī)械式會(huì)講話的機(jī)器。該機(jī)器完全模仿人的發(fā)音生理過(guò)程,分別用風(fēng)箱、特別設(shè)計(jì)的哨子和軟管來(lái)模擬肺部的空氣動(dòng)力、模擬口腔。而最早的電子式語(yǔ)音合成器是1939年Homer Dudley發(fā)明的聲碼器3,它不是簡(jiǎn)單地模擬人的發(fā)生機(jī)理,而是通過(guò)電子線路來(lái)實(shí)現(xiàn)基于語(yǔ)

7、音產(chǎn)生的源濾波器理論4。 線性預(yù)測(cè)合成方法是目前比較簡(jiǎn)單和實(shí)用的一種語(yǔ)音合成方法,因?yàn)槠涞蛿?shù)據(jù)率、低復(fù)雜度,低成本,收到特別的重視。20世紀(jì)60年代后期后期發(fā)展起來(lái)的線性預(yù)測(cè)編碼(LPC)語(yǔ)音分析方法可以有效地估計(jì)基本的語(yǔ)音參數(shù),如基音、共振峰、譜、聲道面積函數(shù)等,可以對(duì)語(yǔ)音的基本模型給出精確地估計(jì),而且計(jì)算速度很快。 自20世紀(jì)80年代末期至今,語(yǔ)音合成技術(shù)有了新的發(fā)展,特別是1990年提出的基音同步疊加(PSOLA)方法5,使基于時(shí)域波形拼接方法合成的語(yǔ)音的音色和自然度有了很大的提高。20世紀(jì)90年代初,基于PSOLA技術(shù)的法語(yǔ)、德語(yǔ)、英語(yǔ)、日語(yǔ)等語(yǔ)種的文語(yǔ)轉(zhuǎn)換系統(tǒng)都已經(jīng)研制成功。這些系統(tǒng)

8、的自然度比以前基于LPC方法或共振峰合成器的文語(yǔ)合成系統(tǒng)的自然度要高很多,并且基于PSOLA方法的合成器結(jié)構(gòu)簡(jiǎn)單,便于實(shí)現(xiàn),有很大的商業(yè)前景。 我國(guó)的語(yǔ)音合成研究是從20世紀(jì)80年代開(kāi)始的,中科院聲學(xué)研究所、中科院自動(dòng)化所、社科院語(yǔ)音所較早地開(kāi)展了這方面的工作。早期的工作主要是參數(shù)合成,尤其是共振峰的合成及線性預(yù)測(cè)合成。20世紀(jì)90年代初開(kāi)始,真實(shí)語(yǔ)音的波形拼接技術(shù)最早由清華大學(xué)應(yīng)用到漢語(yǔ)中來(lái),合成的語(yǔ)音清晰度明顯好于參數(shù)合成。之后聲學(xué)所將可以調(diào)節(jié)韻律參數(shù)的波形合成技術(shù)PSOLA引入漢語(yǔ)合成,并提出了一套韻律控制方法,使合成語(yǔ)音的質(zhì)量有突破性的提高。當(dāng)前的漢語(yǔ)語(yǔ)音合成系統(tǒng)中,很多單位也在開(kāi)展基

9、于HMM參數(shù)語(yǔ)音合成方法的研究,如清華大學(xué)、中國(guó)科技大學(xué)、微軟亞洲研究院、IBM中國(guó)研究中心、摩托羅拉中國(guó)研究中心等,尤其是中國(guó)科技大學(xué)及大訊飛公司近年來(lái)在若干次國(guó)際語(yǔ)音評(píng)測(cè)中取得了突出的成績(jī),其研發(fā)的語(yǔ)音合成系統(tǒng)已廣為使用6。1.3 研究的內(nèi)容 本文主要研究一下幾個(gè)方面。第一節(jié) 線性預(yù)測(cè)分析的基本原理。闡述如何將語(yǔ)音信號(hào)進(jìn)行預(yù)處理和線性預(yù)測(cè)的基本原理,主要講述了LPC和語(yǔ)音信號(hào)模型的關(guān)系,討論了如何將語(yǔ)音產(chǎn)生的數(shù)字模型向自回歸信號(hào)模型的轉(zhuǎn)換,如何將解非線性方程組的問(wèn)題轉(zhuǎn)換為解線性方程組的問(wèn)題。第二節(jié) LPC方程的建立與其解法。根據(jù)線性預(yù)測(cè)分析的原理,列出關(guān)于LPC系數(shù)的方程組,并采用自相關(guān)解

10、法中的萊文遜杜賓遞推算法進(jìn)行具體的驗(yàn)算求出線性預(yù)測(cè)系數(shù)。第三節(jié) LPC方程的自相關(guān)解法的MATLAB的實(shí)現(xiàn)。根據(jù)萊文遜杜賓遞推算法的數(shù)學(xué)原理,利用MATLAB進(jìn)行仿真,并且進(jìn)行簡(jiǎn)要闡述。第四節(jié) 線性預(yù)測(cè)參數(shù)合成法合成語(yǔ)音。介紹語(yǔ)音合成的概念和線性預(yù)測(cè)參數(shù)合成法的基本原理。第五節(jié) 總結(jié)。總結(jié)線性預(yù)測(cè)參數(shù)合成法的優(yōu)缺點(diǎn)。2 線性預(yù)測(cè)分析的基本原理2.1語(yǔ)音信號(hào)的預(yù)處理 在語(yǔ)音信號(hào)的A/ D轉(zhuǎn)換過(guò)程中,為防止頻域混疊,通常在對(duì)模擬語(yǔ)音信號(hào)取樣之前先進(jìn)行低通濾波,但濾波的同時(shí)也降低高頻區(qū)域信號(hào)的能量,這對(duì)線性預(yù)測(cè)分析是很不利的。由于高頻區(qū)域能量的降低可能會(huì)影響到自相關(guān)矩陣的正確性,導(dǎo)致自相關(guān)矩陣病態(tài)甚

11、至可逆,因而通常在計(jì)算LPC( Lin-ear Predictive Coding)系數(shù)之前利用只有一個(gè)零點(diǎn)的濾波器對(duì)語(yǔ)音信號(hào)進(jìn)行處理,以增強(qiáng)語(yǔ)音信號(hào)高頻區(qū)域的能量,這一過(guò)程稱(chēng)為語(yǔ)音信號(hào)的預(yù)加重.用作預(yù)加重的濾波器被稱(chēng)為預(yù)加重濾波器,其系統(tǒng)函數(shù)為: (2-1)式中稱(chēng)為預(yù)加重因子,用來(lái)控制預(yù)加重的程度,其值接近于1. 在語(yǔ)音信號(hào)的合成端,為了去除預(yù)加重帶來(lái)的影響,通常在重建語(yǔ)音輸出之前,使其通過(guò)去加重濾波器,去加重濾波器是預(yù)加重濾波器的逆過(guò)程,其系統(tǒng)函數(shù)為: (2-2) 經(jīng)過(guò)預(yù)加重?cái)?shù)字濾波后,接下來(lái)就要進(jìn)行加窗分幀處理,一般語(yǔ)音信號(hào)每幀數(shù)約為33 100幀,這要視實(shí)際情況而定。分幀雖然可以采用連

12、續(xù)分段的方法,但一般要采用交疊分段方法,這是為了使幀與幀之間平滑過(guò)渡,保持其連續(xù)性。前一幀和后一幀的交疊部分稱(chēng)為幀移。幀移和幀長(zhǎng)的比值通常取01/2。分幀是用可移動(dòng)的有限長(zhǎng)度窗口進(jìn)行加權(quán)的方法來(lái)實(shí)現(xiàn)的,這就是用合適的窗函數(shù)w(n)來(lái)乘以音信號(hào)s(n),從而形成加窗后的語(yǔ)音信號(hào): (2-3) 在語(yǔ)音信號(hào)數(shù)字處理中常用的窗函數(shù)是矩形窗和漢明窗等,窗函數(shù)的選擇(形狀和長(zhǎng)度)對(duì)于短時(shí)分析參數(shù)的特性影響很大,為此應(yīng)選擇合適的窗函數(shù),使其短時(shí)參數(shù)能夠更好地反應(yīng)語(yǔ)音信號(hào)的特性變化,這里本文選擇漢明窗7。2.2基本原理s(n)u(n) 線性預(yù)測(cè)分析的基本原理是將分析的信號(hào)用一個(gè)模型來(lái)表示,即將信號(hào)看做是某一個(gè)

13、模型的輸出。這樣就可以用模型參數(shù)來(lái)描述信號(hào)。圖1是信號(hào)s(n)的模型化框圖。其中u(n)表示模型的輸入,s(n)表示模型的輸出。H(Z) 圖1 信號(hào)是s(n)的模型化 一般情況下,設(shè)定的模型中只包含有極限極點(diǎn)而沒(méi)有有限值的零點(diǎn),此系統(tǒng)函數(shù)表示為(2-4) 這種模型稱(chēng)為“全極點(diǎn)模型”或“AR模型”8。式中,各系數(shù)和增益G就是模型參數(shù)。此時(shí)信號(hào)就可以用有限數(shù)目的參數(shù)構(gòu)成的信號(hào)模型來(lái)表示。線性預(yù)測(cè)分析就是根據(jù)已知的s(n)對(duì)各參數(shù)和G進(jìn)行估值。系數(shù)稱(chēng)為線性預(yù)測(cè)系數(shù)。線性預(yù)測(cè)的基本原理是由語(yǔ)音信號(hào)直接確定一組預(yù)測(cè)器系數(shù),使預(yù)測(cè)誤差在某個(gè)準(zhǔn)則下最小。如果采用最小均方誤差LMS準(zhǔn)則進(jìn)行估值,就得到了著名的

14、線性預(yù)測(cè)分析(LPC)算法,這一過(guò)程就稱(chēng)為線性預(yù)測(cè)分析。 實(shí)際上線性預(yù)測(cè)模型一般均采用全極點(diǎn)模型,在語(yǔ)音線性預(yù)測(cè)方面的文獻(xiàn)和資料中,絕大多數(shù)情況采用AR模型。主要是因?yàn)椋篈R模型易反映頻譜中的峰值,MA模型易反映頻譜中的谷值,而ARMA模型可以同時(shí)反映兩者??紤]到求解AR模型的正則方程(normal equation)是一組線性方程,而求MA和ARMA模型的方程是非線性方程9。有時(shí)無(wú)法知道輸入序列,比如對(duì)一些地震應(yīng)用、腦電圖及解卷積等問(wèn)題。如果不考慮鼻音和摩擦音,那么語(yǔ)音的聲道傳遞函數(shù)就是一個(gè)全極點(diǎn)模型。人的聽(tīng)覺(jué)對(duì)于那種只能用零點(diǎn)來(lái)表現(xiàn)的頻譜陡峭谷點(diǎn)是遲鈍的。 對(duì)于鼻音和摩擦音,聲學(xué)理論表明其

15、聲道傳輸函數(shù)既有極點(diǎn)又有零點(diǎn),這時(shí)如果模型的階數(shù)P足夠高,可以用全基點(diǎn)模型來(lái)近似表示極零點(diǎn)模型。因?yàn)橐粋€(gè)零點(diǎn)可以用許多個(gè)極點(diǎn)來(lái)近似,即(2-5) 如果分母多項(xiàng)式收斂得足夠快,只取其中少數(shù)幾項(xiàng)就可以了,所以全極點(diǎn)模型為實(shí)際應(yīng)用提供了較為合理的近似。2.3 LPC和語(yǔ)音信號(hào)模型的關(guān)系根據(jù)前面所說(shuō)的模型化思想,可以對(duì)語(yǔ)音信號(hào)建立模型,如圖2所示。 圖2 語(yǔ)音產(chǎn)生的數(shù)字化模型簡(jiǎn)化框圖 該模型的參數(shù)有清/濁判決、濁語(yǔ)音的基音周期、增益常數(shù)G及數(shù)字時(shí)變?yōu)V波器系數(shù),這些參數(shù)是隨時(shí)間緩慢變化的。其中輸入的語(yǔ)音信號(hào)可由周期脈沖序列的激勵(lì)(對(duì)于濁音)或者隨機(jī)噪聲序列的激勵(lì)(對(duì)于清音)來(lái)模擬,周期脈沖序列之間的間隔

16、即為基音周期。而聲門(mén)激勵(lì)、聲道調(diào)制和嘴唇輻射的合成,可用如下數(shù)字時(shí)變?yōu)V波器表示(2-6) 可以看出,圖1的模型是圖2語(yǔ)音產(chǎn)生的數(shù)字化模型的一種特殊形式,它將其中的輻射、聲道以及聲門(mén)激勵(lì)的全部譜效應(yīng)簡(jiǎn)化為一個(gè)時(shí)變的數(shù)字濾波器來(lái)等效,其系統(tǒng)函數(shù)為(2-7)這樣把s(n)模型化為一個(gè)P階的AR模型。式中增益G以及數(shù)字濾波器系數(shù)都可以隨時(shí)間的變化而變化,p為預(yù)測(cè)器階數(shù)。當(dāng)階數(shù)p足夠大時(shí),這個(gè)全極點(diǎn)模型幾乎可以模擬所有語(yǔ)音信號(hào)的聲道系數(shù),采用這樣一個(gè)簡(jiǎn)化模型的主要優(yōu)點(diǎn)在于可以用線性預(yù)測(cè)分析法對(duì)增益G和濾波器系數(shù)進(jìn)行直接的,快速的運(yùn)算。2.4 線性預(yù)測(cè)方程組的建立 模型的建立實(shí)際上是由信號(hào)來(lái)估計(jì)模型的參數(shù)

17、過(guò)程,而信號(hào)實(shí)際客觀存在的,用一個(gè)有限數(shù)目參數(shù)的模型表示它不可能完全精確,總會(huì)存在誤差,況且信號(hào)還是時(shí)變的,因此求線性預(yù)測(cè)系數(shù)的過(guò)程只是一個(gè)逼近的過(guò)程。 對(duì)于圖1所示的模型采用逼近的方法求解釋不科學(xué)的,因?yàn)檫@要求解一組非線性方程,實(shí)現(xiàn)起來(lái)非常困難。所以,實(shí)際中采用“逆濾波法”。 用系數(shù)可以定義一個(gè)p階線性預(yù)測(cè)器(2-8) 這個(gè)p階預(yù)測(cè)器從時(shí)域角度可理解為,用信號(hào)的前p個(gè)樣本來(lái)預(yù)測(cè)當(dāng)前的樣本得到預(yù)測(cè)值。(2-9) 因?yàn)轭A(yù)測(cè)器F(z)是用AR模型的系數(shù)來(lái)構(gòu)造的,而AR模型是在最小均方意義上對(duì)數(shù)據(jù)的擬合,所以預(yù)測(cè)器F(z)必然是一個(gè)最佳選擇器,即此時(shí)預(yù)測(cè)器的預(yù)測(cè)誤差短時(shí)能量最小。 語(yǔ)音信號(hào)的線性分析

18、就是根據(jù)這一性質(zhì),從語(yǔ)音信號(hào)s(n)出發(fā),依據(jù)最小均方誤差準(zhǔn)則,估計(jì)出一組線性預(yù)測(cè)器的系數(shù),它就是所求的信號(hào)AR模型的系數(shù)。稱(chēng)為線性預(yù)測(cè)系數(shù)或LPC系數(shù)。 預(yù)測(cè)器的預(yù)測(cè)誤差e(n)為(2-10)由上式可知,e(n)是輸入為s(n),具有如下形式傳遞函數(shù)的濾波器的輸出(2-11) 因此稱(chēng)A(z)為預(yù)測(cè)誤差濾波器。比較式(2-8)和式(2-11)可知A(z)=G/H(z),即預(yù)測(cè)誤差濾波器是系統(tǒng)H(z)的逆濾波器。 為了在最小均方誤差意義上計(jì)算一組最佳預(yù)測(cè)系數(shù),定義短時(shí)預(yù)測(cè)均方差為(2-12) 由于語(yǔ)音信號(hào)的時(shí)変特性,線性預(yù)測(cè)分析應(yīng)該是在短時(shí)的語(yǔ)音上進(jìn)行,即按幀進(jìn)行。因此上式求和通常也是在一幀的語(yǔ)

19、音范圍內(nèi)進(jìn)行。 使式(2-12)中的En達(dá)到最小,必須滿足,考慮式(2-11),則有(2-13)這樣可以得到以為變量的線性方程組(2-14)若定義,則式(2-14)可簡(jiǎn)寫(xiě)為(2-15)上式是一個(gè)由p個(gè)方程組成的有p個(gè)未知數(shù)的線性方程組,求解方程組就可以得到線性預(yù)測(cè)系數(shù)的估計(jì)值 。同樣也可以求得最小預(yù)測(cè)誤差能量值En,利用式(2-12)和式(2-14)有(2-16)或?qū)懗桑?-17)En又被稱(chēng)為預(yù)測(cè)殘差能量,由式(2-17)可見(jiàn),它由一個(gè)固定分量和一個(gè)依賴于預(yù)測(cè)系數(shù)的分量組成。 根據(jù)式(2-4)還可以求得增益常數(shù)G10,由圖2的系統(tǒng),語(yǔ)音抽樣信號(hào)s(n)和激勵(lì)信號(hào)之間的關(guān)系還可以用下列簡(jiǎn)單的差分

20、方程來(lái)表示(2-18)對(duì)上式兩邊乘以是s(n)并求平均值,等式右邊為(2-19)等式左邊為(2-20) 激勵(lì)信號(hào)u(n)無(wú)法精確計(jì)算,但根據(jù)前文所訴的語(yǔ)音產(chǎn)生模型,在濁音情況下,激勵(lì)可以看做是準(zhǔn)脈沖串;在清音時(shí),可以看做為高斯白噪聲11。因此有 ,所以 ,又由于u(n)和s(n-i)不相關(guān),所以將式(2-12)和式(2-20)比較,可以得出(2-21)2.5 線性預(yù)測(cè)方程組解法 為了有效地進(jìn)行線性預(yù)測(cè)分析,有必要用一種高效率的方法來(lái)解線性方程組。雖然可以用各種各樣的方法來(lái)解包含p個(gè)未知數(shù)的p個(gè)線性方程,但是系數(shù)矩陣的特殊性質(zhì)使得解方程的效率比普通情況下能達(dá)到的效率要高得多12。 在式(2-14

21、)所示的線性預(yù)測(cè)標(biāo)準(zhǔn)方程組中,n的上下限取決于使誤差最下的具體做法。當(dāng)n的求和范圍不同時(shí),導(dǎo)致不同的線性預(yù)測(cè)解法。經(jīng)典的解法有三種:一種是自相關(guān)法,一種是協(xié)相關(guān)法,另一種是格型法。這里詳細(xì)介紹自相關(guān)法中的萊文遜杜賓遞推算法(另一種算法為舒爾遞推算法)。 這種方法在整個(gè)時(shí)間范圍內(nèi)使誤差最小,并設(shè)s(n)間隔在0nN-1以外等于0,即進(jìn)過(guò)分幀加窗處理。對(duì)加窗處理后的信號(hào)作自相關(guān)序列估計(jì),顯然會(huì)引起誤差。為了減少窗作用于語(yǔ)音段時(shí)在兩端引起的誤差,所以通常不采用突變的矩形窗,而是使用兩端具有平滑過(guò)渡特性的窗口,如海明窗等。 通常,s(n)的自相關(guān)函數(shù)為(2-22)設(shè) 為加窗后的信號(hào),加窗處理后,自相關(guān)

22、函數(shù)表示為(2-23)式中Rn(k)為短時(shí)自相關(guān)函數(shù)。 比較式(2-14)和(2-23)可知,式(2-14)中的 即為 ,即(2-24)式(2-23)中,Rn(j)仍然保留了信號(hào)s(n)自相關(guān)的特性。如Rn(j)為偶函數(shù),即Rn(j)=Rn(-j)。Rn(j-i)只與j和i的相對(duì)大小有關(guān),而與j和i的取值無(wú)關(guān),所以(2-25)此時(shí)式(2-15)可表示為(2-26)類(lèi)似的式(2-17)也可以表示為(2-27)式(2-26)形式的方程組可以表示成如下的矩陣形式13 (2-28) 這種方程稱(chēng)為Yule-Walker方程,其中系數(shù)矩陣即P×P階的自相關(guān)函數(shù)矩陣(相關(guān)矩陣)稱(chēng)為托普利茲(Toe

23、plitz)矩陣14,它以對(duì)角線為對(duì)稱(chēng),且主對(duì)角線以及和主對(duì)角線平行的任何一條斜線上所有的元素都相等。對(duì)于這種矩陣方程無(wú)需像求解一般矩陣方程那樣進(jìn)行大量的計(jì)算,利用托普利茲矩陣的性質(zhì)可以得到高效的遞推算法。即只要求出(n-1)階方程組的解即(n-1)階預(yù)測(cè)器的系數(shù),就可以利用 求出n階方程的解,即n階預(yù)測(cè)器的系數(shù) (這里括號(hào)中的上標(biāo)表示預(yù)測(cè)系數(shù)的階數(shù),如 表示第i階預(yù)測(cè)器的第j個(gè)預(yù)測(cè)系數(shù), 表示第i個(gè)預(yù)測(cè)器的預(yù)測(cè)殘差能量)。萊文遜杜賓遞推算法如下(1) 計(jì)算自相關(guān)系數(shù) (2-29)(2) (2-30)(3) i=1;(4) 開(kāi)始按公式進(jìn)行遞推運(yùn)算:(2-31) (2-32) (2-33) (2

24、-34)(5) i=i+1。若i>p則算法結(jié)束退出,否則返回第(4)步,按式(2-31)和式(2-33)進(jìn)行遞推14。 這樣經(jīng)過(guò)遞推算法后,可得到i=1,2,p各階預(yù)測(cè)器的解。實(shí)際上只需要第p階的運(yùn)算結(jié)果,最終結(jié)果為(2-35)和 (2-36) 下面給出詳細(xì)的計(jì)算過(guò)程,與萊文遜杜賓遞推算法略有不同的是這里使用n+1階來(lái)推導(dǎo)。 根據(jù)式(2-28)可設(shè)即有(2-37)進(jìn)而有(2-38)由式(2-27)可得(2-39) 根據(jù)式(2-28)利用遞推原理,寫(xiě)出(P+1)階矩陣方程(2-40)利用矩陣的分塊性質(zhì),將上式矩陣方程分塊15。(2-41)即有(表示與行數(shù)列數(shù)相同但元素倒置的矩陣)從而有(2

25、-42)進(jìn)而有 (2-43) (2-44)由式(2-43)可得 (2-45)將其帶入到式(2-44)中,可得(2-46)又因?yàn)椋?-48)(2-47)所以有(2-49)對(duì)于,有(2-50)將其遞推到(P+1)階則有(2-51)對(duì)于,有(2-52)對(duì)于,有 (2-53) 所以(2-54)(2-55)綜上(2-56) 令 ,最終有(2-58)(2-57) 比較式(2-35)和式(2-36),演算完畢。2.6 LPC方程自相關(guān)解法的MATLAB實(shí)現(xiàn) 給出用萊文遜杜賓遞推算求解線性預(yù)測(cè)系數(shù)的MATLAB實(shí)現(xiàn)lpc_coefficients.m% 此程序的功能是用自相關(guān)法求使信號(hào)s均方預(yù)測(cè)誤差為最小的預(yù)

26、測(cè)系數(shù)% 算法為L(zhǎng)evinsonDurbin快速遞推算法% 首先對(duì)輸入語(yǔ)音進(jìn)行分幀,并給出LPC分析階次fid=fopen('sx86.txt','r');pl=fscanf(fid,'%f')fclose(fid);p2=filter(1-0.68,1,p1) % 預(yù)加重濾波x=fra(320,160,p2); % 將預(yù)加重后語(yǔ)音分幀,每幀320個(gè)樣點(diǎn),幀重疊160x=x(60,:); % 取第60幀輸入信號(hào)進(jìn)行處理,x為行向量s=x' % x為行向量,s為列向量N=16; % LPC階次N=16p=N; % 獲得LPC階次n=leng

27、th(s); % 獲得信號(hào)長(zhǎng)度% Rn(i)=sum(s(1:N-i).*s(1+i:N)for i=1:p Rp(i,1)=sum(s(i+1:n).*s(1:n-i) % 求向量的相關(guān)函數(shù),“.*”表示兩個(gè)同維矩陣相應(yīng) % 元素相乘endRp=Rp(:) % 將自相關(guān)函數(shù)變?yōu)榱邢蛄縍p_0=s'*s; % 即Rn(0)Ep=zeros(p,1); % Ep為p階最佳線性預(yù)測(cè)反濾波能量k=zeros(p,1); % k為自相關(guān)系數(shù)a=zeros(p,p); % 以上為初始化% i=1的情況需要特殊處理,也就是對(duì)p=1處理Ep_0=Rp_0;k(1,1)=Rp(1,1)/Rp_0;a(

28、1,1)=k(1,1);Ep(1,1)=(1-k(1,1)2)*Ep_0;% i>=2以后使用遞歸算法if p>1 for i=2:p k(i,1)=(Rp(i,1)-sum(a(1:i-1,i-1).*Rp(i-1:-1:1)/Ep(i-1,1); % 求式(2-31) a(i,i)=k(i,1); % 求式(2-32)a(i) Ep(i,1)=(1-k(i,1)2)*Ep(i-1,1); % 求式(2-34)Ei for j=1:i-1 a(j,i)=a(j,i-1)-k(i,1)*a(i-j,i-1) % 求式(2-33) end endendc=-a(:,p); % 將a矩

29、陣從第1到最后一行的第p列元素乘以以(-1)賦值給c,c即最 % 后求得的LPC系數(shù),不包括第一個(gè)系數(shù)1 % 得到最終的LPC系數(shù)a1,此處a1為行向量a1(1,1)=1.0; % 賦上第一個(gè)LPC系數(shù)1for i=2:p+1-0 a1(1,i)=c(i-1,1); % 得到第2個(gè)到第p+1個(gè)LPC系數(shù)end3 線性預(yù)測(cè)參數(shù)合成法合成語(yǔ)音3.1 語(yǔ)音合成的基本原理 實(shí)際上,人在發(fā)出聲音之前是要進(jìn)行一段大腦的高級(jí)神經(jīng)活動(dòng),即先有有個(gè)說(shuō)話的意向,然后圍繞該意向生成一系列相關(guān)的概念,最后將這些概念組織成語(yǔ)句發(fā)音輸出,日本學(xué)者Fuji saki按照人在說(shuō)話過(guò)程中所用到的各種知識(shí),將語(yǔ)音合成由到深分成三

30、個(gè)層次(如圖3所示),按規(guī)則從文本到語(yǔ)音的合成(text- to-speech);按規(guī)則從概念到語(yǔ)音的合成(concept-to-speech);按規(guī)則從意向到語(yǔ)音的合成(intention- to- speech)。目前語(yǔ)音合成的研究還只是局限在從文本到語(yǔ)音的合成上,即通常所說(shuō)的 TTS系統(tǒng)16。 意向 概念 文本 控制 合成語(yǔ)音信號(hào)語(yǔ)音產(chǎn)生發(fā)生編碼語(yǔ)音編碼語(yǔ)音表示圖3 語(yǔ)音合成的三個(gè)層次 語(yǔ)音合成是一個(gè)“分析存儲(chǔ)合成”的過(guò)程。一般是選擇合適的基音,將基音用一定參數(shù)編碼方式或波形方式進(jìn)行存儲(chǔ),形成一個(gè)語(yǔ)音庫(kù)。合成時(shí),根據(jù)待合成的語(yǔ)音庫(kù)中取出相應(yīng)的基音進(jìn)行拼接,并將其還原為語(yǔ)音信號(hào)。在語(yǔ)音合成

31、中,為了便于存儲(chǔ),必須先將語(yǔ)音信號(hào)進(jìn)行分析或變換,因而在合成前還必須進(jìn)行相應(yīng)的反變換。其中,基音是語(yǔ)音合成系統(tǒng)所處理的最小的語(yǔ)言學(xué)基本單元,待合成詞語(yǔ)的語(yǔ)音庫(kù)就是所有合成基音的集合。根據(jù)基音的選擇方式以及其存儲(chǔ)方式不同,可以將合成方式大概地分成波形合成方法和參數(shù)合成方法。3.2 參數(shù)合成方法 人類(lèi)的發(fā)音能力是一種非常普通的能力。但語(yǔ)音的產(chǎn)生機(jī)理卻足一個(gè)非常復(fù)雜的過(guò)程 ,無(wú)法用解析式對(duì)其進(jìn)行精確的描述?,F(xiàn)代講音學(xué),聲學(xué)、音位學(xué)研究表明:語(yǔ)音信號(hào)具有緩慢的時(shí)變特性。可以簡(jiǎn)中地分為清音。濁音、爆破音等。不同發(fā)音的激勵(lì)源不同其語(yǔ)音信號(hào)的頻譜圖也不相同。可以將肺部氣流通過(guò)聲帶的結(jié)果用一個(gè)激勵(lì)源模型來(lái)表示

32、將聲道調(diào)音運(yùn)動(dòng)的作用用一個(gè)聲道模型表示。一般情況下,語(yǔ)咅的產(chǎn)生是激勵(lì)源和聲道共同作用的結(jié)果。激勵(lì)源信號(hào)經(jīng)過(guò)聲道的調(diào)制作用后,經(jīng)過(guò)模擬唇部輻射作用的輻射模型,形成最后的合成語(yǔ)音,這個(gè)語(yǔ)音合成過(guò)程可以用圖2的簡(jiǎn)化模型表示。3.3 線性預(yù)測(cè)合成法線性預(yù)測(cè)參數(shù)法是目前比較簡(jiǎn)單和實(shí)用的一種語(yǔ)音信號(hào)合成方法,可以有效地估計(jì)基本語(yǔ)音參數(shù),可以對(duì)語(yǔ)音的基本模型繪出精確的估計(jì)。因此線性預(yù)測(cè)語(yǔ)音合成器利用線性預(yù)測(cè)語(yǔ)音分析方法,通過(guò)分析自然語(yǔ)音樣本,計(jì)算出 LPC系數(shù),根據(jù)信號(hào)產(chǎn)生模型,從而合成出語(yǔ)音。線性預(yù)測(cè)合成模型是一種“源濾波器”模型,由白噪聲序列和周期沖擊序列構(gòu)成的激勵(lì)信號(hào),經(jīng)過(guò)選通、放大并通過(guò)時(shí)變數(shù)字濾波

33、(由語(yǔ)音參數(shù)控制的聲道模型),就可以獲得合成的語(yǔ)音信號(hào). 這種語(yǔ)音合成器的框圖如圖2所示。 直接用LPC系數(shù)構(gòu)成遞歸型合成濾波器進(jìn)行語(yǔ)音合成的結(jié)構(gòu)如圖 4所示。圖4 LPC遞歸型合成濾波器 用這種方法定期地改變激勵(lì)信號(hào)s(n)和LPC系數(shù)就能合成語(yǔ)音。合成的語(yǔ)音樣本由下式給出:(3-1)式中:為預(yù)測(cè)系數(shù),G為增益模型,u(n)為激勵(lì),合成語(yǔ)音樣本為s(n),P為預(yù)測(cè)器階數(shù)。4 總結(jié) 本學(xué)期選修語(yǔ)音信號(hào)處理這門(mén)課程,學(xué)習(xí)了語(yǔ)音信號(hào)處理的基礎(chǔ)、概念、原理、方法及應(yīng)用,同時(shí)了解了一定的背景知識(shí)、發(fā)展概況、研究現(xiàn)狀、應(yīng)用前景和發(fā)展趨勢(shì)與方向。本調(diào)查報(bào)告圍繞線性參數(shù)合成技術(shù)這一課題,進(jìn)行一定的分析討論與

34、擴(kuò)展,以此作為本門(mén)課程的總結(jié)。不敢妄談見(jiàn)解,謹(jǐn)以所學(xué)內(nèi)容加以總結(jié)與梳理、搜集相關(guān)文獻(xiàn)加以提煉與編纂。其中難免錯(cuò)誤與疏漏之處,亦難免認(rèn)識(shí)膚淺、總結(jié)不到位之處. 本文對(duì)線性預(yù)測(cè)參數(shù)合成法進(jìn)行了細(xì)致的探討,參數(shù)直接形式的預(yù)測(cè)系數(shù)濾波器結(jié)構(gòu)的優(yōu)點(diǎn)是簡(jiǎn)單、變于實(shí)現(xiàn),所以曾被廣泛采用。其缺點(diǎn)是和成語(yǔ)音樣本需要很高的計(jì)算精度。這是因?yàn)檫@種遞歸結(jié)構(gòu)對(duì)系數(shù)的變換非常敏感。其系數(shù)的微小變化就可以導(dǎo)致濾波器極點(diǎn)未知的很大變化,甚至出現(xiàn)不穩(wěn)定的現(xiàn)象。 參考文獻(xiàn)1 陳燕. 用戶定制口令聲紋識(shí)別系統(tǒng)研究與嵌入式實(shí)現(xiàn)D,廈門(mén)大學(xué),2009210 張雪英. 數(shù)字語(yǔ)音處理及MATLAB仿真M. 北京:電子工業(yè)出版社,2010:

35、95,1723 楊風(fēng)健. 輕松學(xué)會(huì)語(yǔ)音合成J. 電子制作,2011,(08):65-674 Lonnie C. Ludeman. 隨機(jī)過(guò)程濾波、估計(jì)與檢測(cè)M. 邱天爽. 譯,北京:電子工業(yè)出版社 2005:65-665616 韓紀(jì)慶,張磊,鄭鐵然. 語(yǔ)音信號(hào)處理M. 北京:清華大學(xué)出版社,2版,2013:369-375,7,1017 胡航. 語(yǔ)音信號(hào)處理M. 哈爾濱:哈爾濱工業(yè)大學(xué)出版社,2版,2002:27-3189 王沁著. 時(shí)間序列分析及其應(yīng)用M. 成都:西南交通大學(xué)出版社,2008:44-46,44-4611 樊昌信,曹麗娜. 通信原理. 北京:國(guó)防工業(yè)出版社. 7版, 2016:56

36、-5812 謝冬秀,雷紀(jì)剛,陳桂芝. 矩陣?yán)碚摷胺椒∕. 北京:科學(xué)出版社,2011:236-23813 張凱院,徐仲等. 矩陣論M. 北京:科學(xué)出版社,2012:282-2841415 同濟(jì)大學(xué)數(shù)學(xué)教研室. 工程數(shù)學(xué)線性代數(shù)M. 北京:高等教育出版社. 3版,1999:36-41,41-53,58-65致謝 歷時(shí)將近兩個(gè)星期時(shí)間終于把這篇論文寫(xiě)完了,在論文的寫(xiě)作過(guò)程中遇到不少的障礙,比如如何在網(wǎng)上查閱更多文獻(xiàn)。如何在校圖書(shū)館更快的查找書(shū)籍,如何規(guī)范論文格式,如何正確地使用文檔編輯軟件等,但這些都在同學(xué)和老師的幫助克服過(guò)了。在校圖書(shū)館查找資料的時(shí)候,圖書(shū)館的老師給我提供了很多方面的支持與幫助,

37、尤其要強(qiáng)烈感謝我的論文指導(dǎo)老師周曉彥老師,沒(méi)有她的指導(dǎo),就沒(méi)有我這篇論文的完成。在此,我向幫助過(guò)我的老師們表示感謝。 同時(shí),我也要感謝本論文所引用的各位學(xué)者的專(zhuān)著,給了我很大的啟發(fā)和幫助。至此,我也要感謝我的朋友和同學(xué),他們?cè)谖覍?xiě)論文的過(guò)程中給予我了很多有用的素材,也在論文的排版和撰寫(xiě)過(guò)程中提供幫助。 說(shuō)來(lái)慚愧,這篇論文是我從大學(xué)以來(lái)第一次認(rèn)認(rèn)真真完成的,以前大多是為了完成任務(wù),敷衍了事,又因?yàn)槲业膶W(xué)術(shù)水平有限,所寫(xiě)論文難免有不足之處,懇請(qǐng)老師批評(píng)和指正。附錄1 語(yǔ)音信號(hào)的預(yù)加重處理MATLAB仿真% 語(yǔ)音讀入 global X T x x,f

38、s,bits=wavread('4.wav');    sound(x,fs,bits);  T=1/fs; X=fft(x,4000); axes(handles.axes1),plot(x);title('原始信號(hào)時(shí)域圖'); xlabel('時(shí)間') ylabel('幅值') axes(handles.axes2),plot(abs(X); title('原始信號(hào)頻譜圖'); xl

39、abel('頻率/Hz'); ylabel('幅值'); % 預(yù)加重 global  x xx  xx=double(x); xx=filter(1 -0.9375,1,xx); % 通過(guò)一個(gè)一階高通濾波器進(jìn)行濾波 XX=fft(xx,4000); %figure(2); axes(handles.axes3),plot(xx);title('預(yù)加重后信號(hào)波形');xlabel('時(shí)間');ylabel

40、('幅值') axes(handles.axes4),plot(abs(XX);title('預(yù)加重后信號(hào)頻譜'); xlabel('頻率/Hz'); ylabel('幅值') % 分幀 % 設(shè)定幀移和幀長(zhǎng) step=st;  framelength =fr; % 分幀后如果有結(jié)余,則補(bǔ)足最后一幀數(shù)據(jù) lengthOfTailPad=framelength-rem(length(xx),framelength);

41、 % 求余數(shù) tailPad=xx(length(xx)-lengthOfTailPad+1:length(xx) ); nf=fix(length(xx)-framelength+step)/step);  % 截尾取整,計(jì)算幀數(shù) sn=zeros(nf,framelength);    %219*256indf=step*(0:(nf-1).' inds=(1:framelength);  % 語(yǔ)音分幀 u=indf(:,ones(1,frameleng

42、th)+inds(ones(nf,1),:);%219*256 fx=x(u); sn(:)= x(u); t=sn(:); %figure(3); axes(handles.axes5),plot(fx);title('分幀處理后的波形'); xlabel('幀數(shù)'); ylabel('幅值/n');f=fft(fx); axes(handles.axes6),plot(abs(f);title('分幀處理后的頻譜圖'); xla

43、bel('幀數(shù)'); ylabel('幅值/n');  %過(guò)零檢測(cè) global  xx   fx fr st x nf %figure(5) nt=length(xx); fxx=abs(fx); avap=sum(fxx,2); axes(handles.axes7),plot(avap);title('短時(shí)能量波形'); xlabel('幀數(shù)'); ylabel('能量') N=fr; for i=1:nt-1     if xx(i)>=0   

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論