語音信號處理課件第九章_第1頁
語音信號處理課件第九章_第2頁
語音信號處理課件第九章_第3頁
語音信號處理課件第九章_第4頁
語音信號處理課件第九章_第5頁
已閱讀5頁,還剩46頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認(rèn)領(lǐng)

文檔簡介

第九章語音合成9.1概述19.2語音合成的原理及分類9.3共振峰合成法39.4線性預(yù)測參數(shù)合成法49.5基音同步疊加法59.6文語轉(zhuǎn)換系統(tǒng)621編輯ppt9.1概述

語音合成是人機語聲通信的一個重要組成部分,解決讓機器像人那樣說話的問題。最早的合成器是1835年由W.vonKempelen發(fā)明,經(jīng)Weston改進的機械式會講話的機器。而最早的電子式語音合成器是1939年HomerDudley發(fā)明的聲碼器,它不是簡單的模擬人的生理過程,而是通過電子線路來實現(xiàn)基于語音產(chǎn)生的源-濾波器理論。2編輯ppt

在語音合成技術(shù)發(fā)展中,早期研究主要是采用參數(shù)合成方法。

1990年提出的基音同步疊加PSOLA方法,使基于時域波形拼接方法合成的語音音色和自然度大大提高。我國的漢語語音合成研究從80年代初就基本上與國際研究同步發(fā)展。大致也經(jīng)歷了共振峰合成、LPC合成到應(yīng)用PSOLA技術(shù)的過程。3編輯ppt9.2語音合成的原理及分類

9.2.1波形合成法波形編碼合成法是一種波形合成法,類似于語音編碼中的波形編解碼方法,該方法直接把要合成的語音的發(fā)音波形進行存儲或者進行波形編碼壓縮后存儲,合成重放時再解碼組合輸出。特點:所需的存儲容量太大,詞匯量不能很大;相對簡單,通常只能合成有限詞匯的語音段。目前用于自動報時、報站和報警等。4編輯ppt

另一種波形合成法是波形編輯合成,它把波形編輯技術(shù)用于語音合成,通過選取音庫中采取自然語言的合成單元的波形,對這些波形進行編輯拼接后輸出。它采用語音編碼技術(shù),存儲適當(dāng)?shù)恼Z音基元,合成時,經(jīng)解碼、波形編輯拼接、平滑處理等輸出所需的短語、語句或段落。

5編輯ppt9.2.2

參數(shù)合成法

參數(shù)合成法也稱為分析合成法。參數(shù)合成法有:發(fā)音器官參數(shù)合成和聲道模型參數(shù)合成。

發(fā)音器官參數(shù)合成法:是對人的發(fā)音過程直接進行模擬。它定義了唇、舌、聲帶的相關(guān)參數(shù),如唇開口度、舌高度、舌位置、聲帶張力等,由發(fā)音參數(shù)估計聲道截面積函數(shù),進而計算聲波。缺點:合成語音的質(zhì)量不理想。6編輯ppt

參數(shù)合成方法的優(yōu)點:音庫一般較小,并且整個系統(tǒng)能適應(yīng)的韻律特征的范圍較寬,這類合成器比特率低,音質(zhì)適中。

缺點:算法復(fù)雜,參數(shù)多,并且在壓縮比較大時,信息丟失亦大,合成出的語音總是不夠自然、清晰。為了改善音質(zhì),近幾年發(fā)展了混合編碼技術(shù),以改善激勵信號的質(zhì)量。7編輯ppt9.2.3規(guī)則合成法

規(guī)則合成方法:一種高級的合成方法,通過語音學(xué)規(guī)則產(chǎn)生語音,可以合成無限詞匯的語句。合成的詞匯表不是事先確定,系統(tǒng)中存儲的是最小的語音單位的聲學(xué)參數(shù),以及由音素組成音節(jié)、由音節(jié)組成詞、由詞組成句子和控制音調(diào)、輕重音等韻律的各種規(guī)則。算法中,用于波形拼接和韻律控制的較有代表性的算法是基音同步疊加PSOLA技術(shù)。8編輯ppt9.2.3規(guī)則合成法

基音同步疊加PSOLA技術(shù)主要特點:在語音波形片斷拼接之前,首先根據(jù)語義,用PSOLA算法對拼接單元的韻律特征進行調(diào)整,使合成波形既保持了原始語音基元的主要音段特征,又使拼接單元的韻律特征符合語義,從而獲得很高的可懂度和自然度。9編輯ppt項目波形合成方式參數(shù)合成方式按規(guī)則合成方式語音質(zhì)量可懂度高高高自然度高中高詞匯量?。?00字以下)大(數(shù)千字)無限合成方法PCM,ADPCMLPC,LSP,共振峰LPC,LSP共振峰數(shù)碼率9.6~64kbit/s2.4~9.6kbit/s50~75kbit/s1兆比特可合成的語音長度15秒~100秒100秒~7分無限合成基元音節(jié)、詞組、句子音節(jié)、詞組、句子音素、雙音素、音節(jié)裝置簡單比較復(fù)雜復(fù)雜硬件主體存儲器存儲器和處理器處理器表9.1三種語音合成方式的比較10編輯ppt9.3共振峰合成法

共振峰合成理論中聲道參數(shù)、聲道諧振特性一直是研究的重點。共振峰合成模型是把聲道視為一個諧振腔,利用腔體的諧振特性,如共振峰頻率及帶寬,以此為參數(shù)構(gòu)成一個共振峰濾波器。因為音色各異的語音有不同的共振峰模式,以每個共振峰頻率及其寬帶為參數(shù),可以構(gòu)成一個共振峰濾波器。

11編輯ppt9.3共振峰合成法

共振峰語音合成器的構(gòu)成原理:將多個共振峰濾波器組合起來模擬聲道的傳輸特性,對激勵聲源發(fā)生的信號進行調(diào)制,經(jīng)過輻射得到合成語音?;诠舱穹宓睦碚撚腥N實用模型。12編輯ppt9.3.1級聯(lián)型共振峰模型

在該模型中,聲道被認(rèn)為是一組串聯(lián)的二階諧振器,共振峰濾波器首尾相接,其傳遞函數(shù)為各個共振峰的傳遞函數(shù)相乘的結(jié)果。13編輯ppt激勵源V1V2----V5輻射模型

語音G一個五個極點的共振峰級聯(lián)模型如下圖9.2共振峰級聯(lián)模型五個極點的共振峰級聯(lián)模型傳遞函數(shù)為:即:式中,G為增益因子。14編輯ppt9.3.2并聯(lián)型共振峰模型

在并聯(lián)型模型中,輸入信號先分別進行幅度調(diào)節(jié),再加到每一個共振峰濾波器上,然后將各路的輸出疊加起來。其傳遞函數(shù)為:15編輯ppt

上式可分解成以下部分分式之和:其中Al為各路的增益因子。16編輯ppt下圖就是一個M=5的并聯(lián)型共振峰模型。激勵源+輻射模型語音圖9.3并聯(lián)型共振峰模型17編輯ppt9.3.3混合型共振峰模型

比較以上兩種模型,對于大多數(shù)的元音,級聯(lián)型合乎語音產(chǎn)生的聲學(xué)理論,并且無需為每一個濾波器分設(shè)幅度調(diào)節(jié);而對于大多數(shù)清擦音和塞音,并聯(lián)型則比較合適,但是其幅度調(diào)節(jié)很復(fù)雜。于是考慮將兩者結(jié)合在一起,提出了混和型共振峰模型。18編輯ppt混和型共振峰模型如下圖所示:圖9.4混和型共振峰模型19編輯ppt

對于共振峰合成器的激勵,簡單地將其分為濁音和清音兩種類型是有缺陷的,為了得到高質(zhì)量的合成語音,激勵源應(yīng)具備多種選擇,以適應(yīng)不同的發(fā)音情況。混和型共振峰模型中激勵源有三種類型:合成濁音語音時用周期沖激序列;合成清音語音時用偽隨機噪聲;合成濁擦音語音時用周期沖激調(diào)制的噪聲。20編輯ppt

共振峰合成技術(shù)弱點:(1)由于它是建立在對聲道的模擬上,因此,聲道模型的不精確勢必會影響其合成質(zhì)量。(2)實際工作中共振峰模型并不能表征影響語音自然度的其他許多細微的語音成分,從而影響了合成語音的自然度。(3)共振峰合成器控制十分復(fù)雜,實現(xiàn)起來十分困難。

21編輯ppt9.4線性預(yù)測參數(shù)合成法

是一種“源濾波器”模型,由白噪聲序列和周期脈沖序列構(gòu)成的激勵信號,經(jīng)過選通、放大并通過時變數(shù)字濾波器,就可以再獲得原語音信號。圖9.5LPC語音合成器的框圖22編輯ppt

線性預(yù)測合成的形式有兩種:一種是直接用預(yù)測器系數(shù)構(gòu)成的遞歸型合成濾波器,用這種方法定期地改變激勵參數(shù)u(n)和預(yù)測系數(shù),就能合成出語音。它合成的語音樣本由下式?jīng)Q定:

其中:ai為預(yù)測系數(shù);G為模型增益;u(n)為激勵;合成樣本為s(n);p為預(yù)測器階數(shù)。23編輯ppt圖9.6直接用預(yù)測器系數(shù)ai構(gòu)成的合成濾波器24編輯ppt

另一種合成的形式是采用反射系數(shù)構(gòu)成的格型合成濾波器。它的合成語音樣本由下式?jīng)Q定:

其中:G為模型增益;u(n)為激勵;ki為反射系數(shù);

bi(n)為后向預(yù)測誤差;p為預(yù)測器階數(shù)。25編輯ppt

LPC語音合成和共振峰語音合成比較:(1)LPC語音合成有比較簡單和完全自動的分析步驟,合成器結(jié)構(gòu)也比較簡單,采用格形濾波器時,量化特性和穩(wěn)定性都比較好,硬件實現(xiàn)容易;而共振峰合成需要較多的參數(shù)調(diào)整,合成器結(jié)構(gòu)相對講要復(fù)雜些。(2)共振峰合成原理和實際發(fā)聲原理聯(lián)系緊密,它的模型控制參數(shù)對合成語音譜特性的影響比較直觀。LPC合成中,控制LPC系數(shù)的變化軌跡十分有限。26編輯ppt

(3)共振峰語音合成比較靈活,允許簡單地變換以模仿不同人的發(fā)音,通過共振峰頻率的移動,容易改變語聲中和講話人特征有關(guān)的部分;LPC合成較困難,只有將LPC的反射系數(shù)轉(zhuǎn)變成極點的位置,才有可能作類似的修正。(4)線性預(yù)測方法對譜包絡(luò)谷點的模型要比峰點差得多,因此共振峰帶寬的估計一般是不合適的;共振峰合成方法中,共振峰的帶寬還可以從離散傅里葉變換譜來估計。27編輯ppt(5)標(biāo)準(zhǔn)LPC的全極點模型,對具有零點譜特性的那些音,特別是鼻音,效果比較差;共振峰合成方法則可以采用反諧振器來直接模擬鼻音中最重要的頻譜零點,使得合成語音音質(zhì)得以提高。(6)從總體上說,選擇LPC語音合成還是共振峰合成,基于二個因素的折衷;LPC合成具有簡單,可自動進行系數(shù)分析的優(yōu)點;而比較復(fù)雜的共振峰合成可望產(chǎn)生較高質(zhì)量的合成語音。28編輯ppt9.5基音同步疊加法

基音同步疊加PSOLA算法核心思想:直接對存儲于音庫中的語音運用PSOLA算法進行拼接,從而整合成完整的語音。該系統(tǒng)首先要在大量語音庫中,選擇最合適的語音單元用于拼接,并且在選擇語音單元的過程中往往采用多種復(fù)雜的技術(shù),最后在拼接時,使用PSOLA算法,根據(jù)上下文的要求,對其合成語音的韻律特征進行修改。29編輯ppt

由于韻律修改所針對的側(cè)面不同,PSOLA算法的實現(xiàn)目前有3種方式。分別為:時域基音同步疊加TD-PSOLA

線性預(yù)測基音同步疊加LPC-PSOLA

頻域基音同步疊加FD-PSOLA

其中TD-PSOLA算法計算效率較高,已被廣泛應(yīng)用,是一種經(jīng)典算法,這里只介紹TD-PSOLA算法原理。30編輯ppt

9.5.1基音同步疊加PSOLA算法原理信號x(n)的短時傅里葉變換為:其中w(n)是長度為N的窗序列,Z表示全體整數(shù)集合。是變量n和ω的二維時頻函數(shù),對于n的每個取值都對應(yīng)有一個連續(xù)的頻譜函數(shù),顯然存在較大的信息冗余,所以可以在時域每隔若干個(例如R個)樣本取一個頻譜函數(shù)來重構(gòu)原信號x(n)。31編輯ppt令:其傅里葉逆變換為:然后將疊接相加便可得到:通常選w(n)是對稱的窗函數(shù),所以有w(rR-n)=w(n-rR)32編輯ppt

可以證明,對于漢明窗來說,當(dāng)時,無論m為何值都有:所以其中為w(n)的傅里葉變換。上式說明,用疊接相加法重構(gòu)的信號y(n)與原信號x(n)只相差一個常數(shù)因子。33編輯ppt

這里采用原始信號譜與合成信號譜均方誤差最小的疊接相加合成公式。定義兩信號x(n)和y(n)之間譜距離測度:

上式可改寫為:

(9-14)34編輯ppt

要求合成信號y(n)滿足譜距離最小,可以令:解得:

窗函數(shù)w1(n)和w2(n)可以是兩種不同的窗函數(shù),長度也可以不相等。上式就是在譜均方誤差最小意義下的時域基音同步疊接相加合成公式。35編輯ppt

實際合成時w1(n)和w2(n)可以用完全相同的窗,分母可視為常數(shù),而且可以加一個短時幅度因子來調(diào)整短時能量,即:

基音同步疊接相加法優(yōu)點:良好的韻律調(diào)整能力的;

缺點:基音頻率修改過大時可能出現(xiàn)嚴(yán)重的譜包絡(luò)失真。36編輯ppt9.5.2基音同步疊加PSOLA算法實現(xiàn)步驟

概括起來說,用PSOLA算法實現(xiàn)語音合成時主要有三個步驟。分別為基音同步分析、基音同步修改和基音同步合成。下面介紹這三個步驟。

37編輯ppt1.基音同步分析

同步標(biāo)記是與合成單元濁音段的基音保持同步的一系列位置點,用它們來準(zhǔn)確反映各基音周期的起始位置。同步分析的功能主要是對語音合成單元進行同步標(biāo)記設(shè)置。PSOLA技術(shù)中,短時信號的截取和疊加,時間長度的選擇,均是依據(jù)同步標(biāo)記進行的。對于濁音段有基音周期,而清音段信號則屬于白噪聲,所以這兩種類型需要區(qū)別對待。38編輯ppt2.基音同步修改同步修改通過對合成單元同步標(biāo)記的插入、刪除來改變合成語音的時長;通過對合成單元標(biāo)記間隔的增加、減小來改變合成語音的基頻等。若短時分析信號為x(ta(s),n),短時合成信號為x(ts(s),n),則有:式中ta(s)為分析基音標(biāo)記,ts(s)為合成基音標(biāo)記。39編輯ppt3.基音同步合成

基音同步合成是利用短時合成信號進行疊加合成。如果合成信號僅僅在時長上有變化,則增加或減少相應(yīng)的短時合成信號;如果是基頻上有變化,則首先將短時合成信號變換成符合要求的短時合成信號再進行合成。

40編輯ppt圖9.7時域基頻同步合成語音a)語音基頻被降低b)語音被延長但基頻保持不變41編輯ppt9.6文語轉(zhuǎn)換系統(tǒng)

9.6.1文語轉(zhuǎn)換系統(tǒng)的組成

在文語轉(zhuǎn)換系統(tǒng)中,必須事先對文本進行分析,根據(jù)上下文的關(guān)系來確定每個字發(fā)音的聲調(diào)應(yīng)如何變化,然后用這些聲調(diào)變化參數(shù)去控制語音的合成。42編輯ppt圖9.8TTS系統(tǒng)基本框圖

文本分析、韻律控制和語音合成這三個模塊是文語轉(zhuǎn)換系統(tǒng)的三個核心部分。其結(jié)構(gòu)如下圖所示:9.6.1文語轉(zhuǎn)換系統(tǒng)的組成43編輯ppt1.文本分析工作過程包括:①將輸入的文本規(guī)范化,并處理用戶可能的拼寫錯誤,將出現(xiàn)的不規(guī)范或無法發(fā)音的字符過濾掉;②分析文本中的詞或短語的邊界,確定文字的讀音,同時分析文本中出現(xiàn)的數(shù)字、姓氏、特殊字符以及各種多音字的讀音方式;③確定發(fā)音時語氣的變換及不同音的輕重方式。最終,將輸入的文字轉(zhuǎn)換成計算機能夠處理的內(nèi)部參數(shù),便于后續(xù)模塊進一步處理并生成相應(yīng)的信息。44編輯ppt2.韻律控制

任何人說話都有韻律特征,有不同的聲調(diào)、語氣、停頓方式,發(fā)音長短也各不相同,這些都屬于韻律特征。而韻律參數(shù)則包括了能影響這些特征的聲學(xué)參數(shù),如:基頻、音長、音強等。最終系統(tǒng)能夠用來進行語音信號合成的具體韻律參數(shù),還要靠韻律控制模塊。

3.語音合成

文語轉(zhuǎn)換系統(tǒng)的合成語音模塊一般采用波形拼接來合成語音的方法,其中最具代表性的是前面介紹過的基音同步疊加法PSOLA。45編輯ppt9.6.2漢語按規(guī)則合成

通過語音學(xué)規(guī)則產(chǎn)生語音,對于不同的語種,其規(guī)則是完全不同的,這里僅討論文語轉(zhuǎn)換層次上的漢語按規(guī)則合成中有關(guān)韻律規(guī)則的幾個基本問題。

46編輯ppt

1.重音規(guī)則

漢語的重音,是指說話或朗讀時讀的比較重的音節(jié)或詞語。漢語重音分為:詞重音和句

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論