語音合成的原理及分類課件_第1頁
語音合成的原理及分類課件_第2頁
語音合成的原理及分類課件_第3頁
語音合成的原理及分類課件_第4頁
語音合成的原理及分類課件_第5頁
已閱讀5頁,還剩95頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

9.1概述

語音合成是人機(jī)語聲通信的一個重要組成部分,解決讓機(jī)器像人那樣說話的問題。最早的合成器是1835年由W.vonKempelen發(fā)明,經(jīng)Weston改進(jìn)的機(jī)械式會講話的機(jī)器。而最早的電子式語音合成器也是1939年HomerDudley發(fā)明的聲碼器,它不是簡單的模擬人的生理過程,而是通過電子線路來實(shí)現(xiàn)基于語音產(chǎn)生的源-濾波器理論。9.1概述語音合成是人機(jī)語聲通信1

在語音合成技術(shù)發(fā)展中,早期研究主要是采用參數(shù)合成方法。

1990年提出的基音同步疊加PSOLA方法,使基于時域波形拼接方法合成的語音音色和自然度大大提高。

我國的漢語語音合成研究從80年代初就基本上與國際研究同步發(fā)展。大致也經(jīng)歷了共振峰合成、LPC合成到應(yīng)用PSOLA技術(shù)的過程。在語音合成技術(shù)發(fā)展中,早期研究主要是29.2語音合成的原理及分類

9.2.1波形合成法波形編碼合成法是一種波形合成法,類似于語音編碼中的波形編解碼方法,該方法直接把要合成的語音的發(fā)音波形進(jìn)行存儲或者進(jìn)行波形編碼壓縮后存儲,合成重放時再解碼組合輸出。特點(diǎn):所需的存儲容量太大,詞匯量不能很大;相對簡單,通常只能合成有限詞匯的語音段。目前用于自動報時、報站和報警等。9.2語音合成的原理及分類9.2.1波形合成法3

另一種波形合成法是波形編輯合成,它把波形編輯技術(shù)用于語音合成,通過選取音庫中采取自然語言的合成單元的波形,對這些波形進(jìn)行編輯拼接后輸出。它采用語音編碼技術(shù),存儲適當(dāng)?shù)恼Z音基元,合成時,經(jīng)解碼、波形編輯拼接、平滑處理等輸出所需的短語、語句或段落。

另一種波形合成法是波形編輯合成,它把49.2.2

參數(shù)合成法

參數(shù)合成法也稱為分析合成法。參數(shù)合成法有:發(fā)音器官參數(shù)合成和聲道模型參數(shù)合成。

發(fā)音器官參數(shù)合成法:是對人的發(fā)音過程直接進(jìn)行模擬。它定義了唇、舌、聲帶的相關(guān)參數(shù),如唇開口度、舌高度、舌位置、聲帶張力等,由發(fā)音參數(shù)估計聲道截面積函數(shù),進(jìn)而計算聲波。缺點(diǎn):合成語音的質(zhì)量不理想。9.2.2參數(shù)合成法參5

參數(shù)合成方法的優(yōu)點(diǎn):音庫一般較小,并且整個系統(tǒng)能適應(yīng)的韻律特征的范圍較寬,這類合成器比特率低,音質(zhì)適中。

缺點(diǎn):算法復(fù)雜,參數(shù)多,并且在壓縮比較大時,信息丟失亦大,合成出的語音總是不夠自然、清晰。為了改善音質(zhì),近幾年發(fā)展了混合編碼技術(shù),以改善激勵信號的質(zhì)量。參數(shù)合成方法的優(yōu)點(diǎn):音庫一般較小,并且69.2.3規(guī)則合成法

規(guī)則合成方法:一種高級的合成方法,通過語音學(xué)規(guī)則產(chǎn)生語音,可以合成無限詞匯的語句。合成的詞匯表不是事先確定,系統(tǒng)中存儲的是最小的語音單位的聲學(xué)參數(shù),以及由音素組成音節(jié)、由音節(jié)組成詞、由詞組成句子和控制音調(diào)、輕重音等韻律的各種規(guī)則。算法中,用于波形拼接和韻律控制的較有代表性的算法是基音同步疊加PSOLA技術(shù)。9.2.3規(guī)則合成法規(guī)則合成方79.2.3規(guī)則合成法

基音同步疊加PSOLA技術(shù)主要特點(diǎn):在語音波形片斷拼接之前,首先根據(jù)語義,用PSOLA算法對拼接單元的韻律特征進(jìn)行調(diào)整,使合成波形既保持了原始語音基元的主要音段特征,又使拼接單元的韻律特征符合語義,從而獲得很高的可懂度和自然度。9.2.3規(guī)則合成法8項(xiàng)目波形合成方式參數(shù)合成方式按規(guī)則合成方式語音質(zhì)量可懂度高高中自然度高中低詞匯量小(500字以下)大(數(shù)千字)無限合成方法PCM,ADPCMLPC,LSP,共振峰LPC,LSP共振峰數(shù)碼率9.6~64kbit/s2.4~9.6kbit/s50~75kbit/s1兆比特可合成的語音長度15秒~100秒100秒~7分無限合成基元音節(jié)、詞組、句子音節(jié)、詞組、句子音素、雙音素、音節(jié)裝置簡單比較復(fù)雜復(fù)雜硬件主體存儲器存儲器和處理器處理器表9.1三種語音合成方式的比較項(xiàng)目波形合成方式參數(shù)合成方式按規(guī)則合成方式語音可懂度高高中自99.3共振峰合成法

共振峰合成理論中聲道參數(shù)、聲道諧振特性一直是研究的重點(diǎn)。共振峰合成模型是把聲道視為一個諧振腔,利用腔體的諧振特性,如共振峰頻率及帶寬,以此為參數(shù)構(gòu)成一個共振峰濾波器。因?yàn)橐羯鳟惖恼Z音有不同的共振峰模式,以每個共振峰頻率及其寬帶為參數(shù),可以構(gòu)成一個共振峰濾波器。

9.3共振峰合成法共振峰合成109.3共振峰合成法

共振峰語音合成器的構(gòu)成原理:將多個共振峰濾波器組合起來模擬聲道的傳輸特性,對激勵聲源發(fā)生的信號進(jìn)行調(diào)制,經(jīng)過輻射得到合成語音?;诠舱穹宓睦碚撚腥N實(shí)用模型。9.3共振峰合成法共振峰語音合成器119.3.1級聯(lián)型共振峰模型

在該模型中,聲道被認(rèn)為是一組串聯(lián)的二階諧振器,共振峰濾波器首尾相接,其傳遞函數(shù)為各個共振峰的傳遞函數(shù)相乘的結(jié)果。9.3.1級聯(lián)型共振峰模型在該模12激勵源V1V2----V5輻射模型

語音G一個五個極點(diǎn)的共振峰級聯(lián)模型如下圖9.2共振峰級聯(lián)模型五個極點(diǎn)的共振峰級聯(lián)模型傳遞函數(shù)為:即:式中,G為增益因子。激勵源V1V2----V5輻射模型語音G一個五個極點(diǎn)139.3.2并聯(lián)型共振峰模型

在并聯(lián)型模型中,輸入信號先分別進(jìn)行幅度調(diào)節(jié),再加到每一個共振峰濾波器上,然后將各路的輸出疊加起來。其傳遞函數(shù)為:9.3.2并聯(lián)型共振峰模型在并聯(lián)14

上式可分解成以下部分分式之和:其中Al為各路的增益因子。上式可分解成以下部分分式之和:15下圖就是一個M=5的并聯(lián)型共振峰模型。激勵源+輻射模型語音圖9.3并聯(lián)型共振峰模型下圖就是一個M=5的并聯(lián)型共振峰模型。激勵源輻射模型語音圖9169.3.3混合型共振峰模型

比較以上兩種模型,對于大多數(shù)的元音,級聯(lián)型合乎語音產(chǎn)生的聲學(xué)理論,并且無需為每一個濾波器分設(shè)幅度調(diào)節(jié);而對于大多數(shù)清擦音和塞音,并聯(lián)型則比較合適,但是其幅度調(diào)節(jié)很復(fù)雜。于是考慮將兩者結(jié)合在一起,提出了混和型共振峰模型。9.3.3混合型共振峰模型比較以上17混和型共振峰模型如下圖所示:圖9.4混和型共振峰模型混和型共振峰模型如下圖所示:圖9.4混和型共振峰18

對于共振峰合成器的激勵,簡單地將其分為濁音和清音兩種類型是有缺陷的,為了得到高質(zhì)量的合成語音,激勵源應(yīng)具備多種選擇,以適應(yīng)不同的發(fā)音情況。混和型共振峰模型中激勵源有三種類型:合成濁音語音時用周期沖激序列;合成清音語音時用偽隨機(jī)噪聲;合成濁擦音語音時用周期沖激調(diào)制的噪聲。對于共振峰合成器的激勵,簡單地將其19

共振峰合成技術(shù)弱點(diǎn):(1)由于它是建立在對聲道的模擬上,因此,聲道模型的不精確勢必會影響其合成質(zhì)量。(2)實(shí)際工作中共振峰模型并不能表征影響語音自然度的其他許多細(xì)微的語音成分,從而影響了合成語音的自然度。(3)共振峰合成器控制十分復(fù)雜,實(shí)現(xiàn)起來十分困難。

共振峰合成技術(shù)弱點(diǎn):209.4線性預(yù)測參數(shù)合成法

是一種“源濾波器”模型,由白噪聲序列和周期脈沖序列構(gòu)成的激勵信號,經(jīng)過選通、放大并通過時變數(shù)字濾波器,就可以再獲得原語音信號。圖9.5LPC語音合成器的框圖9.4線性預(yù)測參數(shù)合成法是一21

線性預(yù)測合成的形式有兩種:一種是直接用預(yù)測器系數(shù)構(gòu)成的遞歸型合成濾波器,用這種方法定期地改變激勵參數(shù)u(n)和預(yù)測系數(shù),就能合成出語音。它合成的語音樣本由下式?jīng)Q定:

其中:ai為預(yù)測系數(shù);G為模型增益;u(n)為激勵;合成樣本為s(n);p為預(yù)測器階數(shù)。線性預(yù)測合成的形式有兩種:一種是直接22圖9.6直接用預(yù)測器系數(shù)ai構(gòu)成的合成濾波器圖9.6直接用預(yù)測器系數(shù)ai構(gòu)成的合成濾波器23

另一種合成的形式是采用反射系數(shù)構(gòu)成的格型合成濾波器。它的合成語音樣本由下式?jīng)Q定:

其中:G為模型增益;u(n)為激勵;ki為反射系數(shù);

bi(n)為后向預(yù)測誤差;p為預(yù)測器階數(shù)。其中:G為模型增益;u(n)為24

LPC語音合成和共振峰語音合成比較:(1)LPC語音合成有比較簡單和完全自動的分析步驟,合成器結(jié)構(gòu)也比較簡單,采用格形濾波器時,量化特性和穩(wěn)定性都比較好,硬件實(shí)現(xiàn)容易;而共振峰合成需要較多的參數(shù)調(diào)整,合成器結(jié)構(gòu)相對講要復(fù)雜些。(2)共振峰合成原理和實(shí)際發(fā)聲原理聯(lián)系緊密,它的模型控制參數(shù)對合成語音譜特性的影響比較直觀。LPC合成中,控制LPC系數(shù)的變化軌跡十分有限。LPC語音合成和共振峰語音合成比較:25

(3)共振峰語音合成比較靈活,允許簡單地變換以模仿不同人的發(fā)音,通過共振峰頻率的移動,容易改變語聲中和講話人特征有關(guān)的部分;LPC合成較困難,只有將LPC的反射系數(shù)轉(zhuǎn)變成極點(diǎn)的位置,才有可能作類似的修正。(4)線性預(yù)測方法對譜包絡(luò)谷點(diǎn)的模型要比峰點(diǎn)差得多,因此共振峰帶寬的估計一般是不合適的;共振峰合成方法中,共振峰的帶寬還可以從離散傅里葉變換譜來估計。(3)共振峰語音合成比較靈活,允許簡單地變換以模仿不26(5)標(biāo)準(zhǔn)LPC的全極點(diǎn)模型,對具有零點(diǎn)譜特性的那些音,特別是鼻音,效果比較差;共振峰合成方法則可以采用反諧振器來直接模擬鼻音中最重要的頻譜零點(diǎn),使得合成語音音質(zhì)得以提高。(6)從總體上說,選擇LPC語音合成還是共振峰合成,基于二個因素的折衷;LPC合成具有簡單,可自動進(jìn)行系數(shù)分析的優(yōu)點(diǎn);而比較復(fù)雜的共振峰合成可望產(chǎn)生較高質(zhì)量的合成語音。(5)標(biāo)準(zhǔn)LPC的全極點(diǎn)模型,對具有零點(diǎn)譜特性的那些音,特別279.5基音同步疊加法

基音同步疊加PSOLA算法核心思想:直接對存儲于音庫中的語音運(yùn)用PSOLA算法進(jìn)行拼接,從而整合成完整的語音。該系統(tǒng)首先要在大量語音庫中,選擇最合適的語音單元用于拼接,并且在選擇語音單元的過程中往往采用多種復(fù)雜的技術(shù),最后在拼接時,使用PSOLA算法,根據(jù)上下文的要求,對其合成語音的韻律特征進(jìn)行修改。9.5基音同步疊加法基音同28

由于韻律修改所針對的側(cè)面不同,PSOLA算法的實(shí)現(xiàn)目前有3種方式。分別為:時域基音同步疊加TD-PSOLA

線性預(yù)測基音同步疊加LPC-PSOLA

頻域基音同步疊加FD-PSOLA

其中TD-PSOLA算法計算效率較高,已被廣泛應(yīng)用,是一種經(jīng)典算法,這里只介紹TD-PSOLA算法原理。由于韻律修改所針對的側(cè)面不同,PSO29

9.5.1基音同步疊加PSOLA算法原理信號x(n)的短時傅里葉變換為:其中w(n)是長度為N的窗序列,Z表示全體整數(shù)集合。是變量n和ω的二維時頻函數(shù),對于n的每個取值都對應(yīng)有一個連續(xù)的頻譜函數(shù),顯然存在較大的信息冗余,所以可以在時域每隔若干個(例如R個)樣本取一個頻譜函數(shù)來重構(gòu)原信號x(n)。9.5.1基音同步疊加PSOLA算法原理30令:其傅里葉逆變換為:然后將疊接相加便可得到:通常選w(n)是對稱的窗函數(shù),所以有w(rR-n)=w(n-rR)

令:31

可以證明,對于漢明窗來說,當(dāng)時,無論m為何值都有:所以其中為w(n)的傅里葉變換。上式說明,用疊接相加法重構(gòu)的信號y(n)與原信號x(n)只相差一個常數(shù)因子??梢宰C明,對于漢明窗來說,當(dāng)時,無論32

這里采用原始信號譜與合成信號譜均方誤差最小的疊接相加合成公式。定義兩信號x(n)和y(n)之間譜距離測度:

上式可改寫為:

(9-14)這里采用原始信號譜與合成信號譜均方誤差最小的疊接相加33

要求合成信號y(n)滿足譜距離最小,可以令:解得:

窗函數(shù)w1(n)和w2(n)可以是兩種不同的窗函數(shù),長度也可以不相等。上式就是在譜均方誤差最小意義下的時域基音同步疊接相加合成公式。要求合成信號y(n)滿足譜距離最小,可以令:34

實(shí)際合成時w1(n)和w2(n)可以用完全相同的窗,分母可視為常數(shù),而且可以加一個短時幅度因子來調(diào)整短時能量,即:

基音同步疊接相加法優(yōu)點(diǎn):良好的韻律調(diào)整能力的;

缺點(diǎn):基音頻率修改過大時可能出現(xiàn)嚴(yán)重的譜包絡(luò)失真。實(shí)際合成時w1(n)和w2(n)可以用完全相359.5.2基音同步疊加PSOLA算法實(shí)現(xiàn)步驟

概括起來說,用PSOLA算法實(shí)現(xiàn)語音合成時主要有三個步驟。分別為基音同步分析、基音同步修改和基音同步合成。下面介紹這三個步驟。

9.5.2基音同步疊加PSOLA算法實(shí)現(xiàn)步驟361.基音同步分析

同步標(biāo)記是與合成單元濁音段的基音保持同步的一系列位置點(diǎn),用它們來準(zhǔn)確反映各基音周期的起始位置。同步分析的功能主要是對語音合成單元進(jìn)行同步標(biāo)記設(shè)置。PSOLA技術(shù)中,短時信號的截取和疊加,時間長度的選擇,均是依據(jù)同步標(biāo)記進(jìn)行的。對于濁音段有基音周期,而清音段信號則屬于白噪聲,所以這兩種類型需要區(qū)別對待。1.基音同步分析372.基音同步修改同步修改通過對合成單元同步標(biāo)記的插入、刪除來改變合成語音的時長;通過對合成單元標(biāo)記間隔的增加、減小來改變合成語音的基頻等。若短時分析信號為x(ta(s),n),短時合成信號為x(ts(s),n),則有:式中ta(s)為分析基音標(biāo)記,ts(s)為合成基音標(biāo)記。2.基音同步修改式中ta(s)為分析基音標(biāo)記,ts38

3.基音同步合成

基音同步合成是利用短時合成信號進(jìn)行疊加合成。如果合成信號僅僅在時長上有變化,則增加或減少相應(yīng)的短時合成信號;如果是基頻上有變化,則首先將短時合成信號變換成符合要求的短時合成信號再進(jìn)行合成。

3.基音同步合成39圖9.7時域基頻同步合成語音a)語音基頻被降低b)語音被延長但基頻保持不變圖9.7時域基頻同步合成語音409.6文語轉(zhuǎn)換系統(tǒng)

9.6.1文語轉(zhuǎn)換系統(tǒng)的組成

在文語轉(zhuǎn)換系統(tǒng)中,必須事先對文本進(jìn)行分析,根據(jù)上下文的關(guān)系來確定每個字發(fā)音的聲調(diào)應(yīng)如何變化,然后用這些聲調(diào)變化參數(shù)去控制語音的合成。9.6文語轉(zhuǎn)換系統(tǒng)9.6.1文41圖9.8TTS系統(tǒng)基本框圖

文本分析、韻律控制和語音合成這三個模塊是文語轉(zhuǎn)換系統(tǒng)的三個核心部分。其結(jié)構(gòu)如下圖所示:9.6.1文語轉(zhuǎn)換系統(tǒng)的組成圖9.8TTS系統(tǒng)基本框圖文本分析421.文本分析工作過程包括:①將輸入的文本規(guī)范化,并處理用戶可能的拼寫錯誤,將出現(xiàn)的不規(guī)范或無法發(fā)音的字符過濾掉;②分析文本中的詞或短語的邊界,確定文字的讀音,同時分析文本中出現(xiàn)的數(shù)字、姓氏、特殊字符以及各種多音字的讀音方式;③確定發(fā)音時語氣的變換及不同音的輕重方式。最終,將輸入的文字轉(zhuǎn)換成計算機(jī)能夠處理的內(nèi)部參數(shù),便于后續(xù)模塊進(jìn)一步處理并生成相應(yīng)的信息。

1.文本分析432.韻律控制

任何人說話都有韻律特征,有不同的聲調(diào)、語氣、停頓方式,發(fā)音長短也各不相同,這些都屬于韻律特征。而韻律參數(shù)則包括了能影響這些特征的聲學(xué)參數(shù),如:基頻、音長、音強(qiáng)等。最終系統(tǒng)能夠用來進(jìn)行語音信號合成的具體韻律參數(shù),還要靠韻律控制模塊。

3.語音合成

文語轉(zhuǎn)換系統(tǒng)的合成語音模塊一般采用波形拼接來合成語音的方法,其中最具代表性的是前面介紹過的基音同步疊加法PSOLA。2.韻律控制449.6.2漢語按規(guī)則合成

通過語音學(xué)規(guī)則產(chǎn)生語音,對于不同的語種,其規(guī)則是完全不同的,這里僅討論文語轉(zhuǎn)換層次上的漢語按規(guī)則合成中有關(guān)韻律規(guī)則的幾個基本問題。

9.6.2漢語按規(guī)則合成通過語音45

1.重音規(guī)則

漢語的重音,是指說話或朗讀時讀的比較重的音節(jié)或詞語。漢語重音分為:詞重音和句重音兩大類。詞重音:指詞的某個音節(jié)可分為重輕等級。音長特征是區(qū)分這個等級的主要標(biāo)志,輕聲的音長較短。另外一個重要的區(qū)分特征是聲調(diào)域,輕聲的聲調(diào)域縮小,這就使輕聲字所需的能量減少,但強(qiáng)度并不一定減弱。漢語重音的聲學(xué)特征表現(xiàn)在音域加寬、音程加大,氣流加強(qiáng)。1.重音規(guī)則462.轉(zhuǎn)接與音渡規(guī)則

轉(zhuǎn)接與音渡是音素序列轉(zhuǎn)變成語音流時的動態(tài)變化規(guī)律。在漢語發(fā)音中,存在兩種基本的過渡,即輔音與元音組合和元音與元音組合。前者出現(xiàn)在聲母和韻母的拼接過程中,稱為“轉(zhuǎn)接”;后者出現(xiàn)在復(fù)合韻母內(nèi)部,稱為“音渡”。

2.轉(zhuǎn)接與音渡規(guī)則47

轉(zhuǎn)接是指前一個輔音對其后元音共振峰的影響。同一元音的共振峰特性受不同輔音的影響會有很大的變化,表現(xiàn)出來的轉(zhuǎn)接現(xiàn)象不同;反之,同一輔音對不同元音的影響也是不同的。共振峰的轉(zhuǎn)接現(xiàn)象比較復(fù)雜,至今尚沒找到普遍的規(guī)律。

轉(zhuǎn)接是指前一個輔音對其后元音共振峰483.聲調(diào)與變調(diào)規(guī)則

漢語是一種“聲調(diào)語音”,在用漢語相互交談中,人們不但憑不同的聲母、韻母(或元音,輔音)來辨別字和詞的意義,還需要從不同的聲調(diào)來區(qū)別它們,這就是“聲調(diào)語音”的特點(diǎn)。漢語的聲調(diào)具有辨義的功能,它和輔音、元音在語音的區(qū)別特征上同樣重要。

3.聲調(diào)與變調(diào)規(guī)則494.音長問題

音長也是語音的重要特征之一,對語音的可懂度、自然度都有一定的影響。漢語中音長主要體現(xiàn)在韻母的調(diào)型段長度上,調(diào)長和調(diào)型是密切相關(guān)的,通常認(rèn)為,上聲音節(jié)最長,陰平、陽平次之,去聲最短。除音長外,音節(jié)之間的間隙也對合成語音效果有一定的影響,適當(dāng)?shù)拈g隙會使語言聽起來更為生動。4.音長問題509.1概述

語音合成是人機(jī)語聲通信的一個重要組成部分,解決讓機(jī)器像人那樣說話的問題。最早的合成器是1835年由W.vonKempelen發(fā)明,經(jīng)Weston改進(jìn)的機(jī)械式會講話的機(jī)器。而最早的電子式語音合成器也是1939年HomerDudley發(fā)明的聲碼器,它不是簡單的模擬人的生理過程,而是通過電子線路來實(shí)現(xiàn)基于語音產(chǎn)生的源-濾波器理論。9.1概述語音合成是人機(jī)語聲通信51

在語音合成技術(shù)發(fā)展中,早期研究主要是采用參數(shù)合成方法。

1990年提出的基音同步疊加PSOLA方法,使基于時域波形拼接方法合成的語音音色和自然度大大提高。

我國的漢語語音合成研究從80年代初就基本上與國際研究同步發(fā)展。大致也經(jīng)歷了共振峰合成、LPC合成到應(yīng)用PSOLA技術(shù)的過程。在語音合成技術(shù)發(fā)展中,早期研究主要是529.2語音合成的原理及分類

9.2.1波形合成法波形編碼合成法是一種波形合成法,類似于語音編碼中的波形編解碼方法,該方法直接把要合成的語音的發(fā)音波形進(jìn)行存儲或者進(jìn)行波形編碼壓縮后存儲,合成重放時再解碼組合輸出。特點(diǎn):所需的存儲容量太大,詞匯量不能很大;相對簡單,通常只能合成有限詞匯的語音段。目前用于自動報時、報站和報警等。9.2語音合成的原理及分類9.2.1波形合成法53

另一種波形合成法是波形編輯合成,它把波形編輯技術(shù)用于語音合成,通過選取音庫中采取自然語言的合成單元的波形,對這些波形進(jìn)行編輯拼接后輸出。它采用語音編碼技術(shù),存儲適當(dāng)?shù)恼Z音基元,合成時,經(jīng)解碼、波形編輯拼接、平滑處理等輸出所需的短語、語句或段落。

另一種波形合成法是波形編輯合成,它把549.2.2

參數(shù)合成法

參數(shù)合成法也稱為分析合成法。參數(shù)合成法有:發(fā)音器官參數(shù)合成和聲道模型參數(shù)合成。

發(fā)音器官參數(shù)合成法:是對人的發(fā)音過程直接進(jìn)行模擬。它定義了唇、舌、聲帶的相關(guān)參數(shù),如唇開口度、舌高度、舌位置、聲帶張力等,由發(fā)音參數(shù)估計聲道截面積函數(shù),進(jìn)而計算聲波。缺點(diǎn):合成語音的質(zhì)量不理想。9.2.2參數(shù)合成法參55

參數(shù)合成方法的優(yōu)點(diǎn):音庫一般較小,并且整個系統(tǒng)能適應(yīng)的韻律特征的范圍較寬,這類合成器比特率低,音質(zhì)適中。

缺點(diǎn):算法復(fù)雜,參數(shù)多,并且在壓縮比較大時,信息丟失亦大,合成出的語音總是不夠自然、清晰。為了改善音質(zhì),近幾年發(fā)展了混合編碼技術(shù),以改善激勵信號的質(zhì)量。參數(shù)合成方法的優(yōu)點(diǎn):音庫一般較小,并且569.2.3規(guī)則合成法

規(guī)則合成方法:一種高級的合成方法,通過語音學(xué)規(guī)則產(chǎn)生語音,可以合成無限詞匯的語句。合成的詞匯表不是事先確定,系統(tǒng)中存儲的是最小的語音單位的聲學(xué)參數(shù),以及由音素組成音節(jié)、由音節(jié)組成詞、由詞組成句子和控制音調(diào)、輕重音等韻律的各種規(guī)則。算法中,用于波形拼接和韻律控制的較有代表性的算法是基音同步疊加PSOLA技術(shù)。9.2.3規(guī)則合成法規(guī)則合成方579.2.3規(guī)則合成法

基音同步疊加PSOLA技術(shù)主要特點(diǎn):在語音波形片斷拼接之前,首先根據(jù)語義,用PSOLA算法對拼接單元的韻律特征進(jìn)行調(diào)整,使合成波形既保持了原始語音基元的主要音段特征,又使拼接單元的韻律特征符合語義,從而獲得很高的可懂度和自然度。9.2.3規(guī)則合成法58項(xiàng)目波形合成方式參數(shù)合成方式按規(guī)則合成方式語音質(zhì)量可懂度高高中自然度高中低詞匯量?。?00字以下)大(數(shù)千字)無限合成方法PCM,ADPCMLPC,LSP,共振峰LPC,LSP共振峰數(shù)碼率9.6~64kbit/s2.4~9.6kbit/s50~75kbit/s1兆比特可合成的語音長度15秒~100秒100秒~7分無限合成基元音節(jié)、詞組、句子音節(jié)、詞組、句子音素、雙音素、音節(jié)裝置簡單比較復(fù)雜復(fù)雜硬件主體存儲器存儲器和處理器處理器表9.1三種語音合成方式的比較項(xiàng)目波形合成方式參數(shù)合成方式按規(guī)則合成方式語音可懂度高高中自599.3共振峰合成法

共振峰合成理論中聲道參數(shù)、聲道諧振特性一直是研究的重點(diǎn)。共振峰合成模型是把聲道視為一個諧振腔,利用腔體的諧振特性,如共振峰頻率及帶寬,以此為參數(shù)構(gòu)成一個共振峰濾波器。因?yàn)橐羯鳟惖恼Z音有不同的共振峰模式,以每個共振峰頻率及其寬帶為參數(shù),可以構(gòu)成一個共振峰濾波器。

9.3共振峰合成法共振峰合成609.3共振峰合成法

共振峰語音合成器的構(gòu)成原理:將多個共振峰濾波器組合起來模擬聲道的傳輸特性,對激勵聲源發(fā)生的信號進(jìn)行調(diào)制,經(jīng)過輻射得到合成語音?;诠舱穹宓睦碚撚腥N實(shí)用模型。9.3共振峰合成法共振峰語音合成器619.3.1級聯(lián)型共振峰模型

在該模型中,聲道被認(rèn)為是一組串聯(lián)的二階諧振器,共振峰濾波器首尾相接,其傳遞函數(shù)為各個共振峰的傳遞函數(shù)相乘的結(jié)果。9.3.1級聯(lián)型共振峰模型在該模62激勵源V1V2----V5輻射模型

語音G一個五個極點(diǎn)的共振峰級聯(lián)模型如下圖9.2共振峰級聯(lián)模型五個極點(diǎn)的共振峰級聯(lián)模型傳遞函數(shù)為:即:式中,G為增益因子。激勵源V1V2----V5輻射模型語音G一個五個極點(diǎn)639.3.2并聯(lián)型共振峰模型

在并聯(lián)型模型中,輸入信號先分別進(jìn)行幅度調(diào)節(jié),再加到每一個共振峰濾波器上,然后將各路的輸出疊加起來。其傳遞函數(shù)為:9.3.2并聯(lián)型共振峰模型在并聯(lián)64

上式可分解成以下部分分式之和:其中Al為各路的增益因子。上式可分解成以下部分分式之和:65下圖就是一個M=5的并聯(lián)型共振峰模型。激勵源+輻射模型語音圖9.3并聯(lián)型共振峰模型下圖就是一個M=5的并聯(lián)型共振峰模型。激勵源輻射模型語音圖9669.3.3混合型共振峰模型

比較以上兩種模型,對于大多數(shù)的元音,級聯(lián)型合乎語音產(chǎn)生的聲學(xué)理論,并且無需為每一個濾波器分設(shè)幅度調(diào)節(jié);而對于大多數(shù)清擦音和塞音,并聯(lián)型則比較合適,但是其幅度調(diào)節(jié)很復(fù)雜。于是考慮將兩者結(jié)合在一起,提出了混和型共振峰模型。9.3.3混合型共振峰模型比較以上67混和型共振峰模型如下圖所示:圖9.4混和型共振峰模型混和型共振峰模型如下圖所示:圖9.4混和型共振峰68

對于共振峰合成器的激勵,簡單地將其分為濁音和清音兩種類型是有缺陷的,為了得到高質(zhì)量的合成語音,激勵源應(yīng)具備多種選擇,以適應(yīng)不同的發(fā)音情況。混和型共振峰模型中激勵源有三種類型:合成濁音語音時用周期沖激序列;合成清音語音時用偽隨機(jī)噪聲;合成濁擦音語音時用周期沖激調(diào)制的噪聲。對于共振峰合成器的激勵,簡單地將其69

共振峰合成技術(shù)弱點(diǎn):(1)由于它是建立在對聲道的模擬上,因此,聲道模型的不精確勢必會影響其合成質(zhì)量。(2)實(shí)際工作中共振峰模型并不能表征影響語音自然度的其他許多細(xì)微的語音成分,從而影響了合成語音的自然度。(3)共振峰合成器控制十分復(fù)雜,實(shí)現(xiàn)起來十分困難。

共振峰合成技術(shù)弱點(diǎn):709.4線性預(yù)測參數(shù)合成法

是一種“源濾波器”模型,由白噪聲序列和周期脈沖序列構(gòu)成的激勵信號,經(jīng)過選通、放大并通過時變數(shù)字濾波器,就可以再獲得原語音信號。圖9.5LPC語音合成器的框圖9.4線性預(yù)測參數(shù)合成法是一71

線性預(yù)測合成的形式有兩種:一種是直接用預(yù)測器系數(shù)構(gòu)成的遞歸型合成濾波器,用這種方法定期地改變激勵參數(shù)u(n)和預(yù)測系數(shù),就能合成出語音。它合成的語音樣本由下式?jīng)Q定:

其中:ai為預(yù)測系數(shù);G為模型增益;u(n)為激勵;合成樣本為s(n);p為預(yù)測器階數(shù)。線性預(yù)測合成的形式有兩種:一種是直接72圖9.6直接用預(yù)測器系數(shù)ai構(gòu)成的合成濾波器圖9.6直接用預(yù)測器系數(shù)ai構(gòu)成的合成濾波器73

另一種合成的形式是采用反射系數(shù)構(gòu)成的格型合成濾波器。它的合成語音樣本由下式?jīng)Q定:

其中:G為模型增益;u(n)為激勵;ki為反射系數(shù);

bi(n)為后向預(yù)測誤差;p為預(yù)測器階數(shù)。其中:G為模型增益;u(n)為74

LPC語音合成和共振峰語音合成比較:(1)LPC語音合成有比較簡單和完全自動的分析步驟,合成器結(jié)構(gòu)也比較簡單,采用格形濾波器時,量化特性和穩(wěn)定性都比較好,硬件實(shí)現(xiàn)容易;而共振峰合成需要較多的參數(shù)調(diào)整,合成器結(jié)構(gòu)相對講要復(fù)雜些。(2)共振峰合成原理和實(shí)際發(fā)聲原理聯(lián)系緊密,它的模型控制參數(shù)對合成語音譜特性的影響比較直觀。LPC合成中,控制LPC系數(shù)的變化軌跡十分有限。LPC語音合成和共振峰語音合成比較:75

(3)共振峰語音合成比較靈活,允許簡單地變換以模仿不同人的發(fā)音,通過共振峰頻率的移動,容易改變語聲中和講話人特征有關(guān)的部分;LPC合成較困難,只有將LPC的反射系數(shù)轉(zhuǎn)變成極點(diǎn)的位置,才有可能作類似的修正。(4)線性預(yù)測方法對譜包絡(luò)谷點(diǎn)的模型要比峰點(diǎn)差得多,因此共振峰帶寬的估計一般是不合適的;共振峰合成方法中,共振峰的帶寬還可以從離散傅里葉變換譜來估計。(3)共振峰語音合成比較靈活,允許簡單地變換以模仿不76(5)標(biāo)準(zhǔn)LPC的全極點(diǎn)模型,對具有零點(diǎn)譜特性的那些音,特別是鼻音,效果比較差;共振峰合成方法則可以采用反諧振器來直接模擬鼻音中最重要的頻譜零點(diǎn),使得合成語音音質(zhì)得以提高。(6)從總體上說,選擇LPC語音合成還是共振峰合成,基于二個因素的折衷;LPC合成具有簡單,可自動進(jìn)行系數(shù)分析的優(yōu)點(diǎn);而比較復(fù)雜的共振峰合成可望產(chǎn)生較高質(zhì)量的合成語音。(5)標(biāo)準(zhǔn)LPC的全極點(diǎn)模型,對具有零點(diǎn)譜特性的那些音,特別779.5基音同步疊加法

基音同步疊加PSOLA算法核心思想:直接對存儲于音庫中的語音運(yùn)用PSOLA算法進(jìn)行拼接,從而整合成完整的語音。該系統(tǒng)首先要在大量語音庫中,選擇最合適的語音單元用于拼接,并且在選擇語音單元的過程中往往采用多種復(fù)雜的技術(shù),最后在拼接時,使用PSOLA算法,根據(jù)上下文的要求,對其合成語音的韻律特征進(jìn)行修改。9.5基音同步疊加法基音同78

由于韻律修改所針對的側(cè)面不同,PSOLA算法的實(shí)現(xiàn)目前有3種方式。分別為:時域基音同步疊加TD-PSOLA

線性預(yù)測基音同步疊加LPC-PSOLA

頻域基音同步疊加FD-PSOLA

其中TD-PSOLA算法計算效率較高,已被廣泛應(yīng)用,是一種經(jīng)典算法,這里只介紹TD-PSOLA算法原理。由于韻律修改所針對的側(cè)面不同,PSO79

9.5.1基音同步疊加PSOLA算法原理信號x(n)的短時傅里葉變換為:其中w(n)是長度為N的窗序列,Z表示全體整數(shù)集合。是變量n和ω的二維時頻函數(shù),對于n的每個取值都對應(yīng)有一個連續(xù)的頻譜函數(shù),顯然存在較大的信息冗余,所以可以在時域每隔若干個(例如R個)樣本取一個頻譜函數(shù)來重構(gòu)原信號x(n)。9.5.1基音同步疊加PSOLA算法原理80令:其傅里葉逆變換為:然后將疊接相加便可得到:通常選w(n)是對稱的窗函數(shù),所以有w(rR-n)=w(n-rR)

令:81

可以證明,對于漢明窗來說,當(dāng)時,無論m為何值都有:所以其中為w(n)的傅里葉變換。上式說明,用疊接相加法重構(gòu)的信號y(n)與原信號x(n)只相差一個常數(shù)因子??梢宰C明,對于漢明窗來說,當(dāng)時,無論82

這里采用原始信號譜與合成信號譜均方誤差最小的疊接相加合成公式。定義兩信號x(n)和y(n)之間譜距離測度:

上式可改寫為:

(9-14)這里采用原始信號譜與合成信號譜均方誤差最小的疊接相加83

要求合成信號y(n)滿足譜距離最小,可以令:解得:

窗函數(shù)w1(n)和w2(n)可以是兩種不同的窗函數(shù),長度也可以不相等。上式就是在譜均方誤差最小意義下的時域基音同步疊接相加合成公式。要求合成信號y(n)滿足譜距離最小,可以令:84

實(shí)際合成時w1(n)和w2(n)可以用完全相同的窗,分母可視為常數(shù),而且可以加一個短時幅度因子來調(diào)整短時能量,即:

基音同步疊接相加法優(yōu)點(diǎn):良好的韻律調(diào)整能力的;

缺點(diǎn):基音頻率修改過大時可能出現(xiàn)嚴(yán)重的譜包絡(luò)失真。實(shí)際合成時w1(n)和w2(n)可以用完全相859.5.2基音同步疊加PSOLA算法實(shí)現(xiàn)步驟

概括起來說,用PSOLA算法實(shí)現(xiàn)語音合成時主要有三個步驟。分別為基音同步分析、基音同步修改和基音同步合成。下面介紹這三個步驟。

9.5.2基音同步疊加PSOLA算法實(shí)現(xiàn)步驟861.基音同步分析

同步標(biāo)記是與合成單元濁音段的基音保持同步的一系列位置點(diǎn),用它們來準(zhǔn)確反映各基音周期的起始位置。同步分析的功能主要是對語音合成單元進(jìn)行同步標(biāo)記設(shè)置。PSOLA技術(shù)中,短時信號的截取和疊加,時間長度的選擇,均是依據(jù)同步標(biāo)記進(jìn)行的。對于濁音段有基音周期,而清音段信號則屬于白噪聲,所以這兩種類型需要區(qū)別對待。1.基音同步分析872.基音同步修改同步修改通過對合成單元同步標(biāo)記的插入、刪除來改變合成語音的時長;通過對合成單元標(biāo)記間隔的增加、減小來改變合成語音的基頻等。若短時分析信號為x(ta(s),n),短時合成信號為x(ts(s),n),則有:式中ta(s)為分析基音標(biāo)記,ts(s)為合成基音標(biāo)記。2.基音同步修改式中ta(s)為分析基音標(biāo)記,ts88

3.基音同步合成

基音同步合成是利用短時合成信號進(jìn)行疊加合成。如果合成信號僅僅在時長上有變化,則增加或減少相應(yīng)的短時合成信號;如果是基頻上有變化,則首先將短時合成信號變換成符合要求的短時合成信號再進(jìn)行合成。

3.基音同步合成89圖9.7時域基頻同步合成語音a)語音基頻被降低b)語音被延長但基頻保持不變圖9.7時域基頻同步合成語音909.6文語轉(zhuǎn)換系統(tǒng)

9.6.1文語轉(zhuǎn)換系統(tǒng)的組成

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論