版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
1、數(shù)字語音處理及MATLAB仿真 張雪英編著 1 第九章第九章 語音合成語音合成 9.1 概述概述 1 9.2 語音合成的原理及分類語音合成的原理及分類 9.3 共振峰合成法共振峰合成法 3 9.4 線性預(yù)測參數(shù)合成法線性預(yù)測參數(shù)合成法 4 9.5 基音同步疊加法基音同步疊加法5 9.6 文語轉(zhuǎn)換系統(tǒng)文語轉(zhuǎn)換系統(tǒng) 6 2 數(shù)字語音處理及MATLAB仿真 張雪英編著 2 9.1 概述概述 語音合成是人機(jī)語聲通信的一個(gè)重要組成部分,語音合成是人機(jī)語聲通信的一個(gè)重要組成部分, 解決讓機(jī)器像人那樣說話的問題。解決讓機(jī)器像人那樣說話的問題。 最早的合成器是最早的合成器是1835年由年由W.von Kemp
2、elen發(fā)發(fā) 明,經(jīng)明,經(jīng)Weston改進(jìn)的機(jī)械式會(huì)講話的機(jī)器。而最改進(jìn)的機(jī)械式會(huì)講話的機(jī)器。而最 早的電子式語音合成器也是早的電子式語音合成器也是1939年年Homer Dudley 發(fā)明的聲碼器,它不是簡單的模擬人的生理過程,發(fā)明的聲碼器,它不是簡單的模擬人的生理過程, 而是通過電子線路來實(shí)現(xiàn)基于語音產(chǎn)生的源而是通過電子線路來實(shí)現(xiàn)基于語音產(chǎn)生的源-濾波濾波 器理論。器理論。 數(shù)字語音處理及MATLAB仿真 張雪英編著 3 在語音合成技術(shù)發(fā)展中,早期研究主要是采在語音合成技術(shù)發(fā)展中,早期研究主要是采 用參數(shù)合成方法。用參數(shù)合成方法。 1990年提出的基音同步疊加年提出的基音同步疊加PSOLA
3、方法,使方法,使 基于時(shí)域波形拼接方法合成的語音音色和自然度基于時(shí)域波形拼接方法合成的語音音色和自然度 大大提高。大大提高。 我國的漢語語音合成研究從我國的漢語語音合成研究從80年代初就基本年代初就基本 上與國際研究同步發(fā)展。大致也經(jīng)歷了共振峰合上與國際研究同步發(fā)展。大致也經(jīng)歷了共振峰合 成、成、LPC合成到應(yīng)用合成到應(yīng)用PSOLA技術(shù)的過程。技術(shù)的過程。 數(shù)字語音處理及MATLAB仿真 張雪英編著 4 9.2 語音合成的原理及分類語音合成的原理及分類 9.2.1 波形合成法波形合成法 波形編碼合成法是一種波形合成法,類似于語波形編碼合成法是一種波形合成法,類似于語 音編碼中的波形編解碼方法,
4、該方法直接把要合成音編碼中的波形編解碼方法,該方法直接把要合成 的語音的發(fā)音波形進(jìn)行存儲(chǔ)或者進(jìn)行波形編碼壓縮的語音的發(fā)音波形進(jìn)行存儲(chǔ)或者進(jìn)行波形編碼壓縮 后存儲(chǔ),合成重放時(shí)再解碼組合輸出。后存儲(chǔ),合成重放時(shí)再解碼組合輸出。 特點(diǎn):所需的存儲(chǔ)容量太大,詞匯量不能很大;特點(diǎn):所需的存儲(chǔ)容量太大,詞匯量不能很大; 相對(duì)簡單,通常只能合成有限詞匯的語音段。目前相對(duì)簡單,通常只能合成有限詞匯的語音段。目前 用于自動(dòng)報(bào)時(shí)、報(bào)站和報(bào)警等。用于自動(dòng)報(bào)時(shí)、報(bào)站和報(bào)警等。 數(shù)字語音處理及MATLAB仿真 張雪英編著 5 另一種波形合成法是波形編輯合成,它把波形另一種波形合成法是波形編輯合成,它把波形 編輯技術(shù)用于
5、語音合成,通過選取音庫中采取自然編輯技術(shù)用于語音合成,通過選取音庫中采取自然 語言的合成單元的波形,對(duì)這些波形進(jìn)行編輯拼接語言的合成單元的波形,對(duì)這些波形進(jìn)行編輯拼接 后輸出。它采用語音編碼技術(shù),存儲(chǔ)適當(dāng)?shù)恼Z音基后輸出。它采用語音編碼技術(shù),存儲(chǔ)適當(dāng)?shù)恼Z音基 元,合成時(shí),經(jīng)解碼、波形編輯拼接、平滑處理等元,合成時(shí),經(jīng)解碼、波形編輯拼接、平滑處理等 輸出所需的短語、語句或段落。輸出所需的短語、語句或段落。 數(shù)字語音處理及MATLAB仿真 張雪英編著 6 9.2.2 參數(shù)合成法參數(shù)合成法 參數(shù)合成法也稱為分析合成法。參數(shù)合成法也稱為分析合成法。 參數(shù)合成法有:發(fā)音器官參數(shù)合成和聲道模型參數(shù)合成法有:
6、發(fā)音器官參數(shù)合成和聲道模型 參數(shù)合成。參數(shù)合成。 發(fā)音器官參數(shù)合成法:發(fā)音器官參數(shù)合成法: 是對(duì)人的發(fā)音過程直接進(jìn)行模擬。它定義了唇、是對(duì)人的發(fā)音過程直接進(jìn)行模擬。它定義了唇、 舌、聲帶的相關(guān)參數(shù),如唇開口度、舌高度、舌位舌、聲帶的相關(guān)參數(shù),如唇開口度、舌高度、舌位 置、聲帶張力等,由發(fā)音參數(shù)估計(jì)聲道截面積函數(shù),置、聲帶張力等,由發(fā)音參數(shù)估計(jì)聲道截面積函數(shù), 進(jìn)而計(jì)算聲波。進(jìn)而計(jì)算聲波。 缺點(diǎn):合成語音的質(zhì)量不理想。缺點(diǎn):合成語音的質(zhì)量不理想。 數(shù)字語音處理及MATLAB仿真 張雪英編著 7 參數(shù)合成方法的參數(shù)合成方法的優(yōu)點(diǎn)優(yōu)點(diǎn):音庫一般較小,并且整:音庫一般較小,并且整 個(gè)系統(tǒng)能適應(yīng)的韻律特
7、征的范圍較寬,這類合成器個(gè)系統(tǒng)能適應(yīng)的韻律特征的范圍較寬,這類合成器 比特率低,音質(zhì)適中。比特率低,音質(zhì)適中。 缺點(diǎn)缺點(diǎn):算法復(fù)雜,參數(shù)多,并且在壓縮比較大:算法復(fù)雜,參數(shù)多,并且在壓縮比較大 時(shí),信息丟失亦大,合成出的語音總是不夠自然、時(shí),信息丟失亦大,合成出的語音總是不夠自然、 清晰。清晰。 為了改善音質(zhì),近幾年發(fā)展了混合編碼技術(shù),為了改善音質(zhì),近幾年發(fā)展了混合編碼技術(shù), 以改善激勵(lì)信號(hào)的質(zhì)量。以改善激勵(lì)信號(hào)的質(zhì)量。 數(shù)字語音處理及MATLAB仿真 張雪英編著 8 9.2.3 規(guī)則合成法規(guī)則合成法 規(guī)則合成方法:規(guī)則合成方法:一種高級(jí)的合成方法,通過一種高級(jí)的合成方法,通過 語音學(xué)規(guī)則產(chǎn)生
8、語音,可以合成無限詞匯的語句。語音學(xué)規(guī)則產(chǎn)生語音,可以合成無限詞匯的語句。 合成的詞匯表不是事先確定,系統(tǒng)中存儲(chǔ)的是最合成的詞匯表不是事先確定,系統(tǒng)中存儲(chǔ)的是最 小的語音單位的聲學(xué)參數(shù),以及由音素組成音節(jié)、小的語音單位的聲學(xué)參數(shù),以及由音素組成音節(jié)、 由音節(jié)組成詞、由詞組成句子和控制音調(diào)、輕重由音節(jié)組成詞、由詞組成句子和控制音調(diào)、輕重 音等韻律的各種規(guī)則。音等韻律的各種規(guī)則。 算法中,用于波形拼接和韻律控制的較有代算法中,用于波形拼接和韻律控制的較有代 表性的算法是基音同步疊加表性的算法是基音同步疊加PSOLA技術(shù)。技術(shù)。 數(shù)字語音處理及MATLAB仿真 張雪英編著 9 9.2.3 規(guī)則合成法
9、規(guī)則合成法 基音同步疊加基音同步疊加PSOLA技術(shù)技術(shù)主要特點(diǎn):主要特點(diǎn): 在語音波形片在語音波形片斷拼接之前,首先根據(jù)語義,用斷拼接之前,首先根據(jù)語義,用 PSOLA算法對(duì)拼接單元的韻律特征進(jìn)行調(diào)整,使算法對(duì)拼接單元的韻律特征進(jìn)行調(diào)整,使 合成波形既保持了原始語音基元的主要音段特征,合成波形既保持了原始語音基元的主要音段特征, 又使拼接單元的韻律特征符合語義,從而獲得很高又使拼接單元的韻律特征符合語義,從而獲得很高 的可懂度和自然度。的可懂度和自然度。 數(shù)字語音處理及MATLAB仿真 張雪英編著 10 項(xiàng)目項(xiàng)目波形合成方式波形合成方式參數(shù)合成方式參數(shù)合成方式按規(guī)則合成方式按規(guī)則合成方式 語音
10、語音 質(zhì)量質(zhì)量 可懂度可懂度高高高高中中 自然度自然度高高中中低低 詞匯量詞匯量?。ㄐ。?00字以下)字以下)大(數(shù)千字)大(數(shù)千字)無限無限 合成方法合成方法PCM,ADPCMLPC,LSP,共振峰共振峰LPC,LSP共振峰共振峰 數(shù)碼率數(shù)碼率9.664kbit/s 2.49.6 kbit/s5075 kbit/s 1兆比特可合成兆比特可合成 的語音長度的語音長度 15秒秒100秒秒100秒秒7分分無限無限 合成基元合成基元 音節(jié)、詞組、句音節(jié)、詞組、句 子子 音節(jié)、詞組、句子音節(jié)、詞組、句子 音素、雙音素、音音素、雙音素、音 節(jié)節(jié) 裝置裝置簡單簡單比較復(fù)雜比較復(fù)雜復(fù)雜復(fù)雜 硬件主體硬件主體
11、存儲(chǔ)器存儲(chǔ)器存儲(chǔ)器和處理器存儲(chǔ)器和處理器處理器處理器 表表9.1 三種語音合成方式的比較三種語音合成方式的比較 數(shù)字語音處理及MATLAB仿真 張雪英編著 11 9.3 共振峰合成法共振峰合成法 共振峰合成理論中聲道參數(shù)、聲道諧振特性共振峰合成理論中聲道參數(shù)、聲道諧振特性 一直是研究的重點(diǎn)。一直是研究的重點(diǎn)。 共振峰合成模型是把聲道視為一個(gè)諧振腔,共振峰合成模型是把聲道視為一個(gè)諧振腔, 利用腔體的諧振特性,如共振峰頻率及帶寬,以利用腔體的諧振特性,如共振峰頻率及帶寬,以 此為參數(shù)構(gòu)成一個(gè)共振峰濾波器。因?yàn)橐羯鳟惔藶閰?shù)構(gòu)成一個(gè)共振峰濾波器。因?yàn)橐羯鳟?的語音有不同的共振峰模式,以每個(gè)共振峰
12、頻率的語音有不同的共振峰模式,以每個(gè)共振峰頻率 及其寬帶為參數(shù),可以構(gòu)成一個(gè)共振峰濾波器。及其寬帶為參數(shù),可以構(gòu)成一個(gè)共振峰濾波器。 數(shù)字語音處理及MATLAB仿真 張雪英編著 12 9.3 共振峰合成法共振峰合成法 共振峰語音合成器的構(gòu)成原理:共振峰語音合成器的構(gòu)成原理: 將多個(gè)共振峰濾波器組合起來模擬聲道的傳將多個(gè)共振峰濾波器組合起來模擬聲道的傳 輸特性,對(duì)激勵(lì)聲源發(fā)生的信號(hào)進(jìn)行調(diào)制,經(jīng)過輸特性,對(duì)激勵(lì)聲源發(fā)生的信號(hào)進(jìn)行調(diào)制,經(jīng)過 輻射得到合成語音。輻射得到合成語音。 基于共振峰的理論有三種實(shí)用模型?;诠舱穹宓睦碚撚腥N實(shí)用模型。 數(shù)字語音處理及MATLAB仿真 張雪英編著 13 9.3
13、.1 級(jí)聯(lián)型共振峰模型級(jí)聯(lián)型共振峰模型 在該模型中,聲道被認(rèn)為是一組串聯(lián)的二階諧在該模型中,聲道被認(rèn)為是一組串聯(lián)的二階諧 振器,共振峰濾波器首尾相接,其傳遞函數(shù)為各個(gè)共振器,共振峰濾波器首尾相接,其傳遞函數(shù)為各個(gè)共 振峰的傳遞函數(shù)相乘的結(jié)果。振峰的傳遞函數(shù)相乘的結(jié)果。 數(shù)字語音處理及MATLAB仿真 張雪英編著 14 激勵(lì)源激勵(lì)源 V1V2- V5輻射模型輻射模型 語音語音 G 一個(gè)五個(gè)極點(diǎn)的共振峰級(jí)聯(lián)模型如下一個(gè)五個(gè)極點(diǎn)的共振峰級(jí)聯(lián)模型如下 圖圖9.2 共振峰級(jí)聯(lián)模型共振峰級(jí)聯(lián)模型 五個(gè)極點(diǎn)的共振峰級(jí)聯(lián)模型傳遞函數(shù)為:五個(gè)極點(diǎn)的共振峰級(jí)聯(lián)模型傳遞函數(shù)為: 10 1 ( ) 1 k k k G
14、 z a z 55 12 11 1 ( )( ) 1 i ii ii zGzG b zc z 即:即: 式中,式中,G為增益因子。為增益因子。 數(shù)字語音處理及MATLAB仿真 張雪英編著 15 9.3.2 并聯(lián)型共振峰模型并聯(lián)型共振峰模型 在并聯(lián)型模型中,輸入信號(hào)先分別進(jìn)行幅度在并聯(lián)型模型中,輸入信號(hào)先分別進(jìn)行幅度 調(diào)節(jié),再加到每一個(gè)共振峰濾波器上,然后將各調(diào)節(jié),再加到每一個(gè)共振峰濾波器上,然后將各 路的輸出疊加起來。路的輸出疊加起來。 0 1 ( ) 1 R r r r p k k k b z v z a z 其傳遞函數(shù)為其傳遞函數(shù)為: 數(shù)字語音處理及MATLAB仿真 張雪英編著 16 上式
15、可分解成以下部分分式之和:上式可分解成以下部分分式之和: 其中其中Al為各路的增益因子。為各路的增益因子。 12 1 ( ) 1 M l l ll A z B zC z 0 1 ( ) 1 R r r r p k k k b z v z a z 數(shù)字語音處理及MATLAB仿真 張雪英編著 17 下圖就是一個(gè)下圖就是一個(gè)M=5的并聯(lián)型共振峰模型。的并聯(lián)型共振峰模型。 激勵(lì)源激勵(lì)源 + 輻射模型輻射模型 語音語音 1 A 2 A 5 A 1 2 5 圖圖9.3 并聯(lián)型共振峰模型并聯(lián)型共振峰模型 數(shù)字語音處理及MATLAB仿真 張雪英編著 18 9.3.3 混合型共振峰模型混合型共振峰模型 比較以上
16、兩種模型,對(duì)于大多數(shù)的元音,級(jí)比較以上兩種模型,對(duì)于大多數(shù)的元音,級(jí) 聯(lián)型合乎語音產(chǎn)生的聲學(xué)理論,并且無需為每一聯(lián)型合乎語音產(chǎn)生的聲學(xué)理論,并且無需為每一 個(gè)濾波器分設(shè)幅度調(diào)節(jié);而對(duì)于大多數(shù)清擦音和個(gè)濾波器分設(shè)幅度調(diào)節(jié);而對(duì)于大多數(shù)清擦音和 塞音,并聯(lián)型則比較合適,但是其幅度調(diào)節(jié)很復(fù)塞音,并聯(lián)型則比較合適,但是其幅度調(diào)節(jié)很復(fù) 雜。于是考慮將兩者結(jié)合在一起,提出了混和型雜。于是考慮將兩者結(jié)合在一起,提出了混和型 共振峰模型。共振峰模型。 數(shù)字語音處理及MATLAB仿真 張雪英編著 19 混和型共振峰模型如下圖所示:混和型共振峰模型如下圖所示: 圖圖9.4 混和型共振峰模型混和型共振峰模型 數(shù)字語
17、音處理及MATLAB仿真 張雪英編著 20 對(duì)于共振峰合成器的激勵(lì),簡單地將其分為濁對(duì)于共振峰合成器的激勵(lì),簡單地將其分為濁 音和清音兩種類型是有缺陷的,為了得到高質(zhì)量的音和清音兩種類型是有缺陷的,為了得到高質(zhì)量的 合成語音,激勵(lì)源應(yīng)具備多種選擇,以適應(yīng)不同的合成語音,激勵(lì)源應(yīng)具備多種選擇,以適應(yīng)不同的 發(fā)音情況。發(fā)音情況。 混和型共振峰模型中激勵(lì)源有三種類型:合成混和型共振峰模型中激勵(lì)源有三種類型:合成 濁音語音時(shí)用周期沖激序列;合成清音語音時(shí)用偽濁音語音時(shí)用周期沖激序列;合成清音語音時(shí)用偽 隨機(jī)噪聲;合成濁擦音語音時(shí)用周期沖激調(diào)制的噪隨機(jī)噪聲;合成濁擦音語音時(shí)用周期沖激調(diào)制的噪 聲。聲。
18、數(shù)字語音處理及MATLAB仿真 張雪英編著 21 共振峰合成技術(shù)弱點(diǎn)共振峰合成技術(shù)弱點(diǎn): (1)由于它是建立在對(duì)聲道的模擬上,因此,聲道由于它是建立在對(duì)聲道的模擬上,因此,聲道 模型的不精確勢必會(huì)影響其合成質(zhì)量。模型的不精確勢必會(huì)影響其合成質(zhì)量。 (2 2)實(shí)際工作中共振峰模型并不能表征影響語音自)實(shí)際工作中共振峰模型并不能表征影響語音自 然度的其他許多細(xì)微的語音成分,從而影響了合成然度的其他許多細(xì)微的語音成分,從而影響了合成 語音的自然度。語音的自然度。 (3 3)共振峰合成器控制十分復(fù)雜,實(shí)現(xiàn)起來十分困)共振峰合成器控制十分復(fù)雜,實(shí)現(xiàn)起來十分困 難。難。 數(shù)字語音處理及MATLAB仿真 張
19、雪英編著 22 9.4 線性預(yù)測參數(shù)合成法線性預(yù)測參數(shù)合成法 是一種是一種“源濾波器源濾波器”模型,由白噪聲序列和周模型,由白噪聲序列和周 期脈沖序列構(gòu)成的激勵(lì)信號(hào),經(jīng)過選通、放大并通期脈沖序列構(gòu)成的激勵(lì)信號(hào),經(jīng)過選通、放大并通 過時(shí)變數(shù)字濾波器,就可以再獲得原語音信號(hào)。過時(shí)變數(shù)字濾波器,就可以再獲得原語音信號(hào)。 圖圖9.5 LPC語音合成器的框圖語音合成器的框圖 數(shù)字語音處理及MATLAB仿真 張雪英編著 23 線性預(yù)測合成的形式有兩種:一種是直接用預(yù)線性預(yù)測合成的形式有兩種:一種是直接用預(yù) 測器系數(shù)構(gòu)成的遞歸型合成濾波器,用這種方法定測器系數(shù)構(gòu)成的遞歸型合成濾波器,用這種方法定 期地改變激
20、勵(lì)參數(shù)期地改變激勵(lì)參數(shù)u(n)和預(yù)測系數(shù),就能合成出語和預(yù)測系數(shù),就能合成出語 音。它合成的語音樣本由下式?jīng)Q定音。它合成的語音樣本由下式?jīng)Q定: 其中:其中:ai為預(yù)測系數(shù);為預(yù)測系數(shù);G為模型增益;為模型增益;u(n)為激勵(lì);為激勵(lì); 合成樣本為合成樣本為s(n);p為預(yù)測器階數(shù)。為預(yù)測器階數(shù)。 p i i nGuinsans 1 )()()( 數(shù)字語音處理及MATLAB仿真 張雪英編著 24 1 a ap p i a 基音周期基音周期 沖激序列發(fā)生器沖激序列發(fā)生器 白噪聲發(fā)生白噪聲發(fā)生器器 濁音濁音/ /清音清音 控制控制 G u(n) 1 Z 1 Z 1 Z 圖圖9.6 直接用預(yù)測器系數(shù)直
21、接用預(yù)測器系數(shù)ai構(gòu)成的合成濾波器構(gòu)成的合成濾波器 數(shù)字語音處理及MATLAB仿真 張雪英編著 25 另一種合成的形式是采用反射系數(shù)構(gòu)成的格型另一種合成的形式是采用反射系數(shù)構(gòu)成的格型 合成濾波器。它的合成語音樣本由下式?jīng)Q定合成濾波器。它的合成語音樣本由下式?jīng)Q定: 1 1 ( )( )(1) p ii i s nGu nk bn 其中:其中:G為模型增益;為模型增益;u(n)為激勵(lì);為激勵(lì);ki為反射系數(shù);為反射系數(shù); bi(n)為后向預(yù)測誤差;為后向預(yù)測誤差;p為預(yù)測器階數(shù)。為預(yù)測器階數(shù)。 數(shù)字語音處理及MATLAB仿真 張雪英編著 26 LPC語音合成和共振峰語音合成比較:語音合成和共振峰語
22、音合成比較: (1)LPC語音合成有比較簡單和完全自動(dòng)的分析語音合成有比較簡單和完全自動(dòng)的分析 步驟,合成器結(jié)構(gòu)也比較簡單,采用格形濾波器時(shí),步驟,合成器結(jié)構(gòu)也比較簡單,采用格形濾波器時(shí), 量化特性和穩(wěn)定性都比較好,硬件實(shí)現(xiàn)容易;而共量化特性和穩(wěn)定性都比較好,硬件實(shí)現(xiàn)容易;而共 振峰合成需要較多的參數(shù)調(diào)整,合成器結(jié)構(gòu)相對(duì)講振峰合成需要較多的參數(shù)調(diào)整,合成器結(jié)構(gòu)相對(duì)講 要復(fù)雜些。要復(fù)雜些。 (2)共振峰合成原理和實(shí)際發(fā)聲原理聯(lián)系緊密,)共振峰合成原理和實(shí)際發(fā)聲原理聯(lián)系緊密, 它的模型控制參數(shù)對(duì)合成語音譜特性的影響比較直它的模型控制參數(shù)對(duì)合成語音譜特性的影響比較直 觀。觀。LPC合成中,控制合成中
23、,控制LPC系數(shù)的變化軌跡十分有系數(shù)的變化軌跡十分有 限。限。 數(shù)字語音處理及MATLAB仿真 張雪英編著 27 (3)共振峰語音合成比較靈活,允許簡單地變換以)共振峰語音合成比較靈活,允許簡單地變換以 模仿不同人的發(fā)音,通過共振峰頻率的移動(dòng),容易模仿不同人的發(fā)音,通過共振峰頻率的移動(dòng),容易 改變語聲中和講話人特征有關(guān)的部分;改變語聲中和講話人特征有關(guān)的部分;LPC合成較合成較 困難,只有將困難,只有將LPC的反射系數(shù)轉(zhuǎn)變成極點(diǎn)的位置,的反射系數(shù)轉(zhuǎn)變成極點(diǎn)的位置, 才有可能作類似的修正。才有可能作類似的修正。 (4)線性預(yù)測方法對(duì)譜包絡(luò)谷點(diǎn)的模型要比峰點(diǎn)差)線性預(yù)測方法對(duì)譜包絡(luò)谷點(diǎn)的模型要比峰
24、點(diǎn)差 得多,因此共振峰帶寬的估計(jì)一般是不合適的;得多,因此共振峰帶寬的估計(jì)一般是不合適的;共共 振峰合成方法中,共振峰的帶寬還可以從離散傅里振峰合成方法中,共振峰的帶寬還可以從離散傅里 葉變換譜來估計(jì)。葉變換譜來估計(jì)。 數(shù)字語音處理及MATLAB仿真 張雪英編著 28 (5)標(biāo)準(zhǔn))標(biāo)準(zhǔn)LPC的全極點(diǎn)模型,對(duì)具有零點(diǎn)譜特性的的全極點(diǎn)模型,對(duì)具有零點(diǎn)譜特性的 那些音,特別是鼻音,效果比較差;共振峰合成方那些音,特別是鼻音,效果比較差;共振峰合成方 法則可以采用反諧振器來直接模擬鼻音中最重要的法則可以采用反諧振器來直接模擬鼻音中最重要的 頻譜零點(diǎn),使得合成語音音質(zhì)得以提高。頻譜零點(diǎn),使得合成語音音質(zhì)
25、得以提高。 (6)從總體上說,選擇)從總體上說,選擇LPC語音合成還是共振峰合語音合成還是共振峰合 成,基于二個(gè)因素的折衷;成,基于二個(gè)因素的折衷;LPC合成具有簡單,可合成具有簡單,可 自動(dòng)進(jìn)行系數(shù)分析的優(yōu)點(diǎn);而比較復(fù)雜的共振峰合自動(dòng)進(jìn)行系數(shù)分析的優(yōu)點(diǎn);而比較復(fù)雜的共振峰合 成可望產(chǎn)生較高質(zhì)量的合成語音。成可望產(chǎn)生較高質(zhì)量的合成語音。 數(shù)字語音處理及MATLAB仿真 張雪英編著 29 9.5 基音同步疊加法基音同步疊加法 基音同步疊加基音同步疊加PSOLA算法核心思想:直接對(duì)算法核心思想:直接對(duì) 存儲(chǔ)于音庫中的語音運(yùn)用存儲(chǔ)于音庫中的語音運(yùn)用PSOLA算法進(jìn)行拼接,算法進(jìn)行拼接, 從而整合成完
26、整的語音。從而整合成完整的語音。 該系統(tǒng)首先要在大量語音庫中,選擇最合適的該系統(tǒng)首先要在大量語音庫中,選擇最合適的 語音單元用于拼接,并且在選擇語音單元的過程中語音單元用于拼接,并且在選擇語音單元的過程中 往往采用多種復(fù)雜的技術(shù),最后在拼接時(shí),使用往往采用多種復(fù)雜的技術(shù),最后在拼接時(shí),使用 PSOLA算法,根據(jù)上下文的要求,對(duì)其合成語音算法,根據(jù)上下文的要求,對(duì)其合成語音 的韻律特征進(jìn)行修改。的韻律特征進(jìn)行修改。 數(shù)字語音處理及MATLAB仿真 張雪英編著 30 由于韻律修改所針對(duì)的側(cè)面不同,由于韻律修改所針對(duì)的側(cè)面不同,PSOLA算法算法 的實(shí)現(xiàn)目前有的實(shí)現(xiàn)目前有3種方式。分別為:種方式。分
27、別為: 時(shí)域基音同步疊加時(shí)域基音同步疊加TD-PSOLA 線性預(yù)測基音同步疊加線性預(yù)測基音同步疊加LPC-PSOLA 頻域基音同步疊加頻域基音同步疊加FD-PSOLA 其中其中TD-PSOLA算法計(jì)算效率較高,已被廣泛應(yīng)算法計(jì)算效率較高,已被廣泛應(yīng) 用,是一種經(jīng)典算法,這里只介紹用,是一種經(jīng)典算法,這里只介紹TD-PSOLA算法原算法原 理。理。 數(shù)字語音處理及MATLAB仿真 張雪英編著 31 9.5.1 基音同步疊加基音同步疊加PSOLA算法原理算法原理 信號(hào)信號(hào)x(n)的短時(shí)傅里葉變換為:的短時(shí)傅里葉變換為: 其中其中w(n)是長度為是長度為N的窗序列,的窗序列,Z表示全體整數(shù)集合。表示
28、全體整數(shù)集合。 是變量是變量n和和的二維時(shí)頻函數(shù),對(duì)于的二維時(shí)頻函數(shù),對(duì)于n的每個(gè)的每個(gè) 取值都對(duì)應(yīng)有一個(gè)連續(xù)的頻譜函數(shù),顯然存在較大取值都對(duì)應(yīng)有一個(gè)連續(xù)的頻譜函數(shù),顯然存在較大 的信息冗余,所以可以在時(shí)域每隔若干個(gè)(例如的信息冗余,所以可以在時(shí)域每隔若干個(gè)(例如R 個(gè))樣本取一個(gè)頻譜函數(shù)來重構(gòu)原信號(hào)個(gè))樣本取一個(gè)頻譜函數(shù)來重構(gòu)原信號(hào)x(n)。 ZnmnwmxX m m n )e()()(e jj )( j n eX 數(shù)字語音處理及MATLAB仿真 張雪英編著 32 令:令: 其傅里葉逆變換為:其傅里葉逆變換為: 然后將然后將 疊接相加便可得到:疊接相加便可得到: 通常選通常選w(n)是對(duì)稱的
29、窗函數(shù),所以有是對(duì)稱的窗函數(shù),所以有 w(rR-n)=w(n-rR) ZnreXeY rRn j n j r ,| )()( ZmdeeYmy mjj rr )( 2 1 )( )( j r ey ZmmrRwmxmrRwmxmymy rrr r )()()()()()( 數(shù)字語音處理及MATLAB仿真 張雪英編著 33 可以證明,對(duì)于漢明窗來說,當(dāng)時(shí),無論可以證明,對(duì)于漢明窗來說,當(dāng)時(shí),無論m為為 何值都有:何值都有: 所以所以 其中其中 為為w(n)的傅里葉變換。上式說明,用疊接的傅里葉變換。上式說明,用疊接 相加法重構(gòu)的信號(hào)相加法重構(gòu)的信號(hào)y(n)與原信號(hào)與原信號(hào)x(n)只相差一個(gè)常數(shù)只
30、相差一個(gè)常數(shù) 因子。因子。 r j R eW mrRw )( )( 0 R eW nxny j )( )()( 0 )( j eW 數(shù)字語音處理及MATLAB仿真 張雪英編著 34 這里采用原始信號(hào)譜與合成信號(hào)譜均方誤差最小的這里采用原始信號(hào)譜與合成信號(hào)譜均方誤差最小的 疊接相加合成公式。定義兩信號(hào)疊接相加合成公式。定義兩信號(hào)x(n)和和y(n)之間譜之間譜 距離測度:距離測度: 上式可改寫為:上式可改寫為: 2 1 ( ), ( )|()()| 2 mg g jj tt t D x n y nXeY ed 2 12 2 12 ( ), ( ) () ()() () () ()() ( ) g
31、 g mmmggg tn ggmg tn D x n y nw tntx ntw tnty nt w ntx nttw nty n (9-14) 數(shù)字語音處理及MATLAB仿真 張雪英編著 35 要求合成信號(hào)要求合成信號(hào)y(n)滿足譜距離最小,可以令:滿足譜距離最小,可以令: 解得:解得: 窗函數(shù)窗函數(shù)w1(n)和和w2(n)可以是兩種不同的窗函數(shù),長度可以是兩種不同的窗函數(shù),長度 也可以不相等。上式就是在譜均方誤差最小意義下的也可以不相等。上式就是在譜均方誤差最小意義下的 時(shí)域基音同步疊接相加合成公式。時(shí)域基音同步疊接相加合成公式。 ( ), ( ) 0 ( ) D x ny n y n 1
32、2 2 2 ()() () ( ) () g g gggm t g t w ntw ntx ntt y n w nt 數(shù)字語音處理及MATLAB仿真 張雪英編著 36 實(shí)際合成時(shí)實(shí)際合成時(shí)w1(n)和和w2(n)可以用完全相同的窗,可以用完全相同的窗, 分母可視為常數(shù),而且可以加一個(gè)短時(shí)幅度因子分母可視為常數(shù),而且可以加一個(gè)短時(shí)幅度因子 來調(diào)整短時(shí)能量,即:來調(diào)整短時(shí)能量,即: 基音同步疊接相加法優(yōu)點(diǎn):基音同步疊接相加法優(yōu)點(diǎn): 良好的韻律調(diào)整能力的;良好的韻律調(diào)整能力的; 缺點(diǎn):缺點(diǎn):基音頻率修改過大時(shí)可能出現(xiàn)嚴(yán)重的譜基音頻率修改過大時(shí)可能出現(xiàn)嚴(yán)重的譜 包絡(luò)失真。包絡(luò)失真。 g t 12 2
33、2 ()() () ( ) () g g g tgggm t g t w tn w tn x ntt y n w tn 數(shù)字語音處理及MATLAB仿真 張雪英編著 37 9.5.2 基音同步疊加基音同步疊加PSOLA算法實(shí)現(xiàn)步驟算法實(shí)現(xiàn)步驟 概括起來說,用概括起來說,用PSOLA算法實(shí)現(xiàn)語音合成時(shí)主算法實(shí)現(xiàn)語音合成時(shí)主 要有三個(gè)步驟。分別為基音同步分析、基音同步修要有三個(gè)步驟。分別為基音同步分析、基音同步修 改和基音同步合成。下面介紹這三個(gè)步驟。改和基音同步合成。下面介紹這三個(gè)步驟。 數(shù)字語音處理及MATLAB仿真 張雪英編著 38 1.基音同步分析基音同步分析 同步標(biāo)記是與合成單元濁音段的基
34、音保持同步同步標(biāo)記是與合成單元濁音段的基音保持同步 的一系列位置點(diǎn),用它們來準(zhǔn)確反映各基音周期的的一系列位置點(diǎn),用它們來準(zhǔn)確反映各基音周期的 起始位置。同步分析的功能主要是對(duì)語音合成單元起始位置。同步分析的功能主要是對(duì)語音合成單元 進(jìn)行同步標(biāo)記設(shè)置。進(jìn)行同步標(biāo)記設(shè)置。PSOLA技術(shù)中,短時(shí)信號(hào)的技術(shù)中,短時(shí)信號(hào)的 截取和疊加,時(shí)間長度的選擇,均是依據(jù)同步標(biāo)記截取和疊加,時(shí)間長度的選擇,均是依據(jù)同步標(biāo)記 進(jìn)行的。對(duì)于濁音段有基音周期,而清音段信號(hào)則進(jìn)行的。對(duì)于濁音段有基音周期,而清音段信號(hào)則 屬于白噪聲,所以這兩種類型需要區(qū)別對(duì)待。屬于白噪聲,所以這兩種類型需要區(qū)別對(duì)待。 數(shù)字語音處理及MATL
35、AB仿真 張雪英編著 39 2. 基音同步修改基音同步修改 同步修改通過對(duì)合成單元同步標(biāo)記的插入、刪同步修改通過對(duì)合成單元同步標(biāo)記的插入、刪 除來改變合成語音的時(shí)長;通過對(duì)合成單元標(biāo)記間除來改變合成語音的時(shí)長;通過對(duì)合成單元標(biāo)記間 隔的增加、減小來改變合成語音的基頻等。隔的增加、減小來改變合成語音的基頻等。 若短時(shí)分析信號(hào)為若短時(shí)分析信號(hào)為x(ta(s),n),短時(shí)合成信號(hào)為,短時(shí)合成信號(hào)為 x(ts(s),n),則有:,則有: ),(),(nstxnstx sa 式中式中ta(s)為分析基音標(biāo)記,為分析基音標(biāo)記,ts(s)為合成基音標(biāo)記。為合成基音標(biāo)記。 數(shù)字語音處理及MATLAB仿真 張雪
36、英編著 40 3. 基音同步合成基音同步合成 基音同步合成是利用短時(shí)合成信號(hào)進(jìn)行疊加基音同步合成是利用短時(shí)合成信號(hào)進(jìn)行疊加 合成。如果合成信號(hào)僅僅在時(shí)長上有變化,則增合成。如果合成信號(hào)僅僅在時(shí)長上有變化,則增 加或減少相應(yīng)的短時(shí)合成信號(hào);如果是基頻上有加或減少相應(yīng)的短時(shí)合成信號(hào);如果是基頻上有 變化,則首先將短時(shí)合成信號(hào)變換成符合要求的變化,則首先將短時(shí)合成信號(hào)變換成符合要求的 短時(shí)合成信號(hào)再進(jìn)行合成。短時(shí)合成信號(hào)再進(jìn)行合成。 數(shù)字語音處理及MATLAB仿真 張雪英編著 41 圖圖9.7 時(shí)域基頻同步合成語音時(shí)域基頻同步合成語音 a) 語音基頻被降低語音基頻被降低 b) 語音被延長但基頻保持不
37、變語音被延長但基頻保持不變 數(shù)字語音處理及MATLAB仿真 張雪英編著 42 9.6 文語轉(zhuǎn)換系統(tǒng)文語轉(zhuǎn)換系統(tǒng) 9.6.1 文語轉(zhuǎn)換系統(tǒng)的組成文語轉(zhuǎn)換系統(tǒng)的組成 在文語轉(zhuǎn)換系統(tǒng)中,必須事先對(duì)文本進(jìn)行分在文語轉(zhuǎn)換系統(tǒng)中,必須事先對(duì)文本進(jìn)行分 析,根據(jù)上下文的關(guān)系來確定每個(gè)字發(fā)音的聲調(diào)應(yīng)析,根據(jù)上下文的關(guān)系來確定每個(gè)字發(fā)音的聲調(diào)應(yīng) 如何變化,然后用這些聲調(diào)變化參數(shù)去控制語音的如何變化,然后用這些聲調(diào)變化參數(shù)去控制語音的 合成。合成。 數(shù)字語音處理及MATLAB仿真 張雪英編著 43 圖圖9.8 TTS系統(tǒng)基本框圖系統(tǒng)基本框圖 文本分析、韻律控制和語音合成這三個(gè)模塊是文本分析、韻律控制和語音合成這三
38、個(gè)模塊是 文語轉(zhuǎn)換系統(tǒng)的三個(gè)核心部分。其結(jié)構(gòu)如下圖所示:文語轉(zhuǎn)換系統(tǒng)的三個(gè)核心部分。其結(jié)構(gòu)如下圖所示: 9.6.1 文語轉(zhuǎn)換系統(tǒng)的組成文語轉(zhuǎn)換系統(tǒng)的組成 數(shù)字語音處理及MATLAB仿真 張雪英編著 44 1.文本分析文本分析 工作過程包括:工作過程包括: 將輸入的文本規(guī)范化,并處理用戶可能的拼寫將輸入的文本規(guī)范化,并處理用戶可能的拼寫 錯(cuò)誤,將出現(xiàn)的不規(guī)范或無法發(fā)音的字符過濾掉;錯(cuò)誤,將出現(xiàn)的不規(guī)范或無法發(fā)音的字符過濾掉; 分析文本中的詞或短語的邊界,確定文字的讀分析文本中的詞或短語的邊界,確定文字的讀 音,同時(shí)分析文本中出現(xiàn)的數(shù)字、姓氏、特殊字符音,同時(shí)分析文本中出現(xiàn)的數(shù)字、姓氏、特殊字符
39、以及各種多音字的讀音方式;以及各種多音字的讀音方式; 確定發(fā)音時(shí)語氣的變換及不同音的輕重方式。確定發(fā)音時(shí)語氣的變換及不同音的輕重方式。 最終,將輸入的文字轉(zhuǎn)換成計(jì)算機(jī)能夠處理的內(nèi)部最終,將輸入的文字轉(zhuǎn)換成計(jì)算機(jī)能夠處理的內(nèi)部 參數(shù),便于后續(xù)模塊進(jìn)一步處理并生成相應(yīng)的信息。參數(shù),便于后續(xù)模塊進(jìn)一步處理并生成相應(yīng)的信息。 數(shù)字語音處理及MATLAB仿真 張雪英編著 45 2.韻律控制韻律控制 任何人說話都有韻律特征,有不同的聲調(diào)、任何人說話都有韻律特征,有不同的聲調(diào)、 語氣、停頓方式,發(fā)音長短也各不相同,這些都屬語氣、停頓方式,發(fā)音長短也各不相同,這些都屬 于韻律特征。而韻律參數(shù)則包括了能影響這些
40、特征于韻律特征。而韻律參數(shù)則包括了能影響這些特征 的聲學(xué)參數(shù),如:基頻、音長、音強(qiáng)等。最終系統(tǒng)的聲學(xué)參數(shù),如:基頻、音長、音強(qiáng)等。最終系統(tǒng) 能夠用來進(jìn)行語音信號(hào)合成的具體韻律參數(shù),還要能夠用來進(jìn)行語音信號(hào)合成的具體韻律參數(shù),還要 靠韻律控制模塊??宽嵚煽刂颇K。 3.語音合成語音合成 文語轉(zhuǎn)換系統(tǒng)的合成語音模塊一般采用波形文語轉(zhuǎn)換系統(tǒng)的合成語音模塊一般采用波形 拼接來合成語音的方法,其中最具代表性的是前面拼接來合成語音的方法,其中最具代表性的是前面 介紹過的基音同步疊加法介紹過的基音同步疊加法PSOLA。 數(shù)字語音處理及MATLAB仿真 張雪英編著 46 9.6.2 漢語按規(guī)則合成漢語按規(guī)則合成 通過語音學(xué)規(guī)則產(chǎn)生語音,對(duì)于不同的語種,通過語音學(xué)規(guī)則產(chǎn)生語音,對(duì)于不同的語種, 其規(guī)則是完全不同的,這里僅討論文語轉(zhuǎn)換層次其規(guī)則是完全不同的,這里僅討論文語轉(zhuǎn)換層次 上的漢語按規(guī)則合成中有關(guān)韻律規(guī)則的幾個(gè)基本上的漢語按規(guī)則合成中有關(guān)韻律規(guī)則的幾個(gè)基本 問題。問題。 數(shù)字語音處理及MATLAB仿真 張雪英編著 47 1.重音規(guī)則重音規(guī)則 漢語的重音,是指說話或朗讀時(shí)讀的比較重漢語的重音,是指說話或朗讀時(shí)讀的比較重 的音節(jié)或詞語。的音節(jié)或詞
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 2024預(yù)應(yīng)力管樁勞務(wù)分包合同
- 2025年度智能辦公空間場地租賃合作協(xié)議書4篇
- 專項(xiàng)水電維修分包合同書2024版范例版
- 二零二五年度文化產(chǎn)業(yè)代理注銷合作協(xié)議3篇
- 2024年04月廣州銀行白云支行2024年社會(huì)招考筆試歷年參考題庫附帶答案詳解
- 2025年度產(chǎn)學(xué)研合作項(xiàng)目資金支持及財(cái)務(wù)管理合同4篇
- 專業(yè)短駁貨物運(yùn)輸協(xié)議示范文本版B版
- 2025年度廠房裝修項(xiàng)目環(huán)保評(píng)估與治理合同3篇
- 二零二五年度財(cái)務(wù)共享服務(wù)中心建設(shè)合同3篇
- 二零二五年度跨境電商供應(yīng)鏈金融連帶責(zé)任擔(dān)保協(xié)議3篇
- ICU常見藥物課件
- CNAS實(shí)驗(yàn)室評(píng)審不符合項(xiàng)整改報(bào)告
- 農(nóng)民工考勤表(模板)
- 承臺(tái)混凝土施工技術(shù)交底
- 臥床患者更換床單-軸線翻身
- 計(jì)量基礎(chǔ)知識(shí)培訓(xùn)教材201309
- 中考英語 短文填詞、選詞填空練習(xí)
- 一汽集團(tuán)及各合資公司組織架構(gòu)
- 阿特拉斯基本擰緊技術(shù)ppt課件
- 初一至初三數(shù)學(xué)全部知識(shí)點(diǎn)
- 新課程理念下的班主任工作藝術(shù)
評(píng)論
0/150
提交評(píng)論