第十五講語音信號(hào)處理第8章

上傳人：5*** IP屬地：湖北上傳時(shí)間：2022-03-17 格式：PPT 頁數(shù)：34 大?。?46KB 積分：35 舉報(bào) 版權(quán)申訴

已閱讀5頁，還剩29頁未讀，繼續(xù)免費(fèi)閱讀

版權(quán)說明：本文檔由用戶提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、8.1 8.1 概述概述8.2 8.2 共振峰合成法共振峰合成法8.3 8.3 線性預(yù)測(cè)合成法線性預(yù)測(cè)合成法8.4 PSOLA8.4 PSOLA算法合成語音算法合成語音8.5 TTS8.5 TTS合成技術(shù)合成技術(shù)8.1 8.1 概述概述一、語音合成定義一、語音合成定義二、語音合成技術(shù)的應(yīng)用二、語音合成技術(shù)的應(yīng)用三、語音合成的方法三、語音合成的方法四、語音合成系統(tǒng)介紹四、語音合成系統(tǒng)介紹一、語音合成定義一、語音合成定義解決如何讓機(jī)器像人說話的問題。其解決如何讓機(jī)器像人說話的問題。其目的目的：能將：能將任意文本實(shí)時(shí)地轉(zhuǎn)換為自然語音輸出，且輸出的語音任意文本實(shí)時(shí)地轉(zhuǎn)換為自然語音輸出，且輸出的語音

2、清晰可懂。清晰可懂。1. 1. 電話查詢系統(tǒng)電話查詢系統(tǒng) 工商信息電話查詢系統(tǒng)、銀行電話查詢系統(tǒng)、股票查詢系統(tǒng)、工商信息電話查詢系統(tǒng)、銀行電話查詢系統(tǒng)、股票查詢系統(tǒng)、交通信息查詢系統(tǒng)、考試成績(jī)查詢系統(tǒng)等。交通信息查詢系統(tǒng)、考試成績(jī)查詢系統(tǒng)等。二、語音合成技術(shù)的應(yīng)用二、語音合成技術(shù)的應(yīng)用 2. 2.教育與娛樂軟件教育與娛樂軟件普通話教學(xué)軟件是幫助想學(xué)普通話的用戶普通話教學(xué)軟件是幫助想學(xué)普通話的用戶, , 以往的普通話以往的普通話教學(xué)軟件只是將預(yù)先錄好音的單詞逐個(gè)讀給用戶聽，有了語音教學(xué)軟件只是將預(yù)先錄好音的單詞逐個(gè)讀給用戶聽，有了語音合成技術(shù)，可以將任意文本中的整句話、整段話讀給用戶聽，合成

3、技術(shù)，可以將任意文本中的整句話、整段話讀給用戶聽，學(xué)習(xí)效率明顯提高。學(xué)習(xí)效率明顯提高。3.3.游戲軟件游戲軟件現(xiàn)在計(jì)算機(jī)游戲中的人物，或者不會(huì)說話，或者只會(huì)現(xiàn)在計(jì)算機(jī)游戲中的人物，或者不會(huì)說話，或者只會(huì)“ 播放播放”已經(jīng)錄好的聲音。利用語音合成，游戲中的人物可已經(jīng)錄好的聲音。利用語音合成，游戲中的人物可以說出任意的話語，不同的人物可以通過選用不同的音庫(kù)而形以說出任意的話語，不同的人物可以通過選用不同的音庫(kù)而形成不同的說話風(fēng)格。增加了游戲的趣味性和互動(dòng)性。成不同的說話風(fēng)格。增加了游戲的趣味性和互動(dòng)性。1. 1. 語音信號(hào)的語音信號(hào)的波形合成波形合成（錄音合成技術(shù)）（錄音合成技術(shù)）采用數(shù)字存儲(chǔ)

4、技術(shù)存儲(chǔ)基本的語音信息。采用數(shù)字存儲(chǔ)技術(shù)存儲(chǔ)基本的語音信息。在在合成時(shí)采用恰當(dāng)?shù)募夹g(shù)手段挑選出所需的語音單元合成時(shí)采用恰當(dāng)?shù)募夹g(shù)手段挑選出所需的語音單元拼接起來，生成高自然度的語句，這就是拼接起來，生成高自然度的語句，這就是波形拼接波形拼接的語音合成方法的語音合成方法。為了節(jié)省存儲(chǔ)容量，在存入機(jī)器。為了節(jié)省存儲(chǔ)容量，在存入機(jī)器之前還可以對(duì)語音信號(hào)先進(jìn)行數(shù)據(jù)壓縮。之前還可以對(duì)語音信號(hào)先進(jìn)行數(shù)據(jù)壓縮。三、語音合成的方法三、語音合成的方法語音庫(kù)語音庫(kù)（語音單元語音單元）語音的波形語音的波形編碼編碼輸入輸入語音語音挑選挑選組合組合回放回放合成合成語音語音波形合成方法波形合成方法2. 2. 語音信號(hào)

5、的語音信號(hào)的參數(shù)合成參數(shù)合成根據(jù)語音產(chǎn)生的數(shù)學(xué)模型，利用短時(shí)平穩(wěn)性，提出根據(jù)語音產(chǎn)生的數(shù)學(xué)模型，利用短時(shí)平穩(wěn)性，提出每幀語音信號(hào)的參數(shù)，這些參數(shù)經(jīng)編碼后組成一個(gè)語每幀語音信號(hào)的參數(shù)，這些參數(shù)經(jīng)編碼后組成一個(gè)語音參數(shù)庫(kù)。音參數(shù)庫(kù)。輸出時(shí)，從語音參數(shù)庫(kù)中取出相應(yīng)的參數(shù)，輸出時(shí)，從語音參數(shù)庫(kù)中取出相應(yīng)的參數(shù)，利用語音產(chǎn)生的數(shù)學(xué)模型恢復(fù)語音利用語音產(chǎn)生的數(shù)學(xué)模型恢復(fù)語音。共振峰合成共振峰合成和和線線性預(yù)測(cè)合成性預(yù)測(cè)合成是該類合成技術(shù)中的重要方法。是該類合成技術(shù)中的重要方法。3. 3. 語音信號(hào)的語音信號(hào)的規(guī)則合成規(guī)則合成將任意文本轉(zhuǎn)換成聲音的系統(tǒng)。包括語言學(xué)和聲學(xué)將任意文本轉(zhuǎn)換成聲音的系統(tǒng)。包括語

6、言學(xué)和聲學(xué)處理。處理。合成的詞匯不是事先確定。常見的是合成的詞匯不是事先確定。常見的是文語轉(zhuǎn)換文語轉(zhuǎn)換合成技術(shù)合成技術(shù) text-to-speech (TTS)text-to-speech (TTS)。系統(tǒng)中存儲(chǔ)的是系統(tǒng)中存儲(chǔ)的是音素的聲學(xué)參數(shù)音素的聲學(xué)參數(shù)，以及由音素組，以及由音素組成音節(jié)、由音節(jié)組成詞、由詞組成句子的成音節(jié)、由音節(jié)組成詞、由詞組成句子的規(guī)則規(guī)則；控制；控制音調(diào)、輕重音等韻律的音調(diào)、輕重音等韻律的各種規(guī)則各種規(guī)則。給出待合成的字母或文字后，根據(jù)語義規(guī)則和語給出待合成的字母或文字后，根據(jù)語義規(guī)則和語音規(guī)則，確定每個(gè)字的音素的組成和句子的低層結(jié)構(gòu)。音規(guī)則，確定每個(gè)字的音素的組

7、成和句子的低層結(jié)構(gòu)。為每一個(gè)詞、每一個(gè)音節(jié)確定重音等級(jí)和語句結(jié)構(gòu)及為每一個(gè)詞、每一個(gè)音節(jié)確定重音等級(jí)和語句結(jié)構(gòu)及語調(diào)，其中包括各種停頓等，這樣文字串就變成了代語調(diào)，其中包括各種停頓等，這樣文字串就變成了代碼串。聲學(xué)處理利用規(guī)則將代碼串轉(zhuǎn)換成連續(xù)語音波。碼串。聲學(xué)處理利用規(guī)則將代碼串轉(zhuǎn)換成連續(xù)語音波。四、語音合成系統(tǒng)介紹四、語音合成系統(tǒng)介紹歡迎使用微軟中國(guó)研究院中文語音合成系統(tǒng)歡迎使用微軟中國(guó)研究院中文語音合成系統(tǒng) 采用采用TTSTTS技術(shù)合成語音技術(shù)合成語音http:/research. M 8.2 共振峰合成法共振峰合成法一、共振峰合成的原理一、共振峰合成的原理二、共振峰合成的方法二、共振

8、峰合成的方法A Av v沖激序列沖激序列發(fā)生器發(fā)生器聲門脈沖聲門脈沖模型模型G(z)G(z)隨機(jī)噪聲隨機(jī)噪聲發(fā)生器發(fā)生器基音周期基音周期T TP PA AN N線性系統(tǒng)線性系統(tǒng)聲道聲道V(z)V(z)輻射輻射模型模型R(z)R(z)清清/ /濁音濁音開關(guān)開關(guān) 語音的生成模型語音的生成模型一、共振峰合成的原理一、共振峰合成的原理A Av v沖激序列沖激序列發(fā)生器發(fā)生器聲門脈沖聲門脈沖模型模型G(z)G(z)隨機(jī)噪聲隨機(jī)噪聲發(fā)生器發(fā)生器基音周期基音周期T TP PA AN N共振峰濾波器共振峰濾波器清清/ /濁音濁音開關(guān)開關(guān) 利用語音信號(hào)的生成模型，將聲道視為一個(gè)諧振腔，利用語音信號(hào)的生成模型，將

9、聲道視為一個(gè)諧振腔，利用腔體的諧振特性，共振峰頻率及其帶寬，為此利用腔體的諧振特性，共振峰頻率及其帶寬，為此構(gòu)造一個(gè)共振峰濾波器。對(duì)激勵(lì)信號(hào)進(jìn)行處理，可構(gòu)造一個(gè)共振峰濾波器。對(duì)激勵(lì)信號(hào)進(jìn)行處理，可得到合成語音。得到合成語音。二、共振峰合成方法二、共振峰合成方法共振峰合成器的系統(tǒng)模型共振峰合成器的系統(tǒng)模型 8.3 8.3 線性預(yù)測(cè)合成法線性預(yù)測(cè)合成法將語音生成模型簡(jiǎn)化，將輻射、聲道和聲門激勵(lì)將語音生成模型簡(jiǎn)化，將輻射、聲道和聲門激勵(lì)進(jìn)行組合，用一個(gè)時(shí)變數(shù)字濾波器來表示。進(jìn)行組合，用一個(gè)時(shí)變數(shù)字濾波器來表示。沖激沖激序列序列發(fā)生器發(fā)生器隨機(jī)隨機(jī)噪聲噪聲發(fā)生器發(fā)生器x(n)x(n)u(n)u(n)

10、qkkkzaGzH11)(線性線性預(yù)測(cè)預(yù)測(cè)分析分析基音頻率基音頻率清清/ /濁音判別濁音判別參數(shù)參數(shù)合成合成k k2 2k kp p 基音頻率基音頻率輸入輸入語音語音x(n)x(n)清清/ /濁音標(biāo)志濁音標(biāo)志G Gk k1 1格型濾波器語音合成技術(shù)框圖格型濾波器語音合成技術(shù)框圖合成合成語音語音反射系數(shù)反射系數(shù)8.4 PSOLA8.4 PSOLA算法合成語音算法合成語音v2020世紀(jì)世紀(jì)8080年代末，由年代末，由F.CharpentierF.Charpentier和和E.MoulinesE.Moulines等提出的等提出的的的基音同步疊加技術(shù)（基音同步疊加技術(shù)（PSOLAPSOLA）和早期的波

11、形編輯有原則性和早期的波形編輯有原則性的差別，它既能保持原始語音的主要音段特征，又能在音節(jié)的差別，它既能保持原始語音的主要音段特征，又能在音節(jié)拼接時(shí)靈活調(diào)整其基音、能量和音長(zhǎng)等韻律特征，因而很適拼接時(shí)靈活調(diào)整其基音、能量和音長(zhǎng)等韻律特征，因而很適合于漢語語音和規(guī)則合成。合于漢語語音和規(guī)則合成。 vPSOLAPSOLA是用于波形編輯合成語音技術(shù)中是用于波形編輯合成語音技術(shù)中對(duì)合成語音的韻律進(jìn)對(duì)合成語音的韻律進(jìn)行修改行修改的一種算法。決定語音波形韻律的主要時(shí)域參數(shù)包括的一種算法。決定語音波形韻律的主要時(shí)域參數(shù)包括：音長(zhǎng)、音強(qiáng)、音高音長(zhǎng)、音強(qiáng)、音高等。音長(zhǎng)的調(diào)節(jié)對(duì)于穩(wěn)定的波形段是比等。音長(zhǎng)的調(diào)節(jié)對(duì)于

12、穩(wěn)定的波形段是比較簡(jiǎn)單的，只需以基音周期為單位加較簡(jiǎn)單的，只需以基音周期為單位加/ /減即可。但對(duì)于語音減即可。但對(duì)于語音基元本身的復(fù)雜性，實(shí)際處理時(shí)采用特定的時(shí)長(zhǎng)縮放法；音基元本身的復(fù)雜性，實(shí)際處理時(shí)采用特定的時(shí)長(zhǎng)縮放法；音強(qiáng)改變只要加強(qiáng)波形即可。但對(duì)一些重音有變化的音節(jié)，有強(qiáng)改變只要加強(qiáng)波形即可。但對(duì)一些重音有變化的音節(jié)，有可能幅度包絡(luò)也需改變；音高的大小對(duì)應(yīng)于波形的基音周期可能幅度包絡(luò)也需改變；音高的大小對(duì)應(yīng)于波形的基音周期。對(duì)于大多數(shù)通用語言，音高僅代表語氣的不同及話者的更。對(duì)于大多數(shù)通用語言，音高僅代表語氣的不同及話者的更替。但漢語的音高曲線構(gòu)成聲調(diào)，聲調(diào)有辯義作用，因此漢替。但漢語

13、的音高曲線構(gòu)成聲調(diào)，聲調(diào)有辯義作用，因此漢語的音高修改比較復(fù)雜。語的音高修改比較復(fù)雜。 v下圖是利用下圖是利用PSOLAPSOLA算法的語音合成系統(tǒng)的基本結(jié)構(gòu)。算法的語音合成系統(tǒng)的基本結(jié)構(gòu)。vPSOLAPSOLA算法合成語音在計(jì)算復(fù)雜度、合成語音的清晰度、自算法合成語音在計(jì)算復(fù)雜度、合成語音的清晰度、自然度方面都具有明顯優(yōu)點(diǎn)，受到國(guó)內(nèi)外很多學(xué)者的歡迎，國(guó)然度方面都具有明顯優(yōu)點(diǎn)，受到國(guó)內(nèi)外很多學(xué)者的歡迎，國(guó)內(nèi)外很多系統(tǒng)都有該算法的具體應(yīng)用。內(nèi)外很多系統(tǒng)都有該算法的具體應(yīng)用。v PSOLA PSOLA的實(shí)現(xiàn)一般有三種方式：的實(shí)現(xiàn)一般有三種方式：時(shí)域基音同步疊加時(shí)域基音同步疊加（TD-TD-PSOL

14、APSOLA）；）；線性預(yù)測(cè)基音同步疊加線性預(yù)測(cè)基音同步疊加（LPC-PSOLALPC-PSOLA）；）；頻域基音頻域基音同步疊加同步疊加（FD-PSOLAFD-PSOLA）。）。文本分析語音數(shù)據(jù)庫(kù)韻律生成PSOLA合成文本驅(qū)動(dòng)8.5 TTS8.5 TTS合成技術(shù)合成技術(shù)一、一、TTSTTS合成技術(shù)的應(yīng)用合成技術(shù)的應(yīng)用二、二、TTSTTS合成系統(tǒng)的構(gòu)成合成系統(tǒng)的構(gòu)成一、一、TTSTTS合成技術(shù)的應(yīng)用合成技術(shù)的應(yīng)用1.1.可以用于各種智能系統(tǒng)，如信息查詢系統(tǒng)、自可以用于各種智能系統(tǒng)，如信息查詢系統(tǒng)、自動(dòng)售票系統(tǒng)或殘疾人的輔助交流工具。動(dòng)售票系統(tǒng)或殘疾人的輔助交流工具。2.2.可以用于通信設(shè)備或一

15、些數(shù)字產(chǎn)品，這樣傳遞可以用于通信設(shè)備或一些數(shù)字產(chǎn)品，這樣傳遞的信息不是語音，而是文字，在通信設(shè)備的終端的信息不是語音，而是文字，在通信設(shè)備的終端將文字信息轉(zhuǎn)換為語音即可，由于每個(gè)文字占用將文字信息轉(zhuǎn)換為語音即可，由于每個(gè)文字占用兩個(gè)字節(jié)，因而極具有價(jià)值兩個(gè)字節(jié)，因而極具有價(jià)值文本文本文本分析文本分析韻律控制韻律控制合成模塊合成模塊語音數(shù)據(jù)庫(kù)語音數(shù)據(jù)庫(kù)輸出輸出二、二、TTSTTS系統(tǒng)的構(gòu)成系統(tǒng)的構(gòu)成對(duì)輸入文本進(jìn)行分析切割出字詞以后，通過語音對(duì)輸入文本進(jìn)行分析切割出字詞以后，通過語音合成方法把這些字詞的發(fā)音合成出來，并串接起來，合成方法把這些字詞的發(fā)音合成出來，并串接起來，通過韻律調(diào)整，就可以得

16、到較為自然的語句的發(fā)音。通過韻律調(diào)整，就可以得到較為自然的語句的發(fā)音。1.1.文本分析文本分析自動(dòng)分詞自動(dòng)分詞多音字處理多音字處理聲調(diào)判斷聲調(diào)判斷特殊聲調(diào)調(diào)整特殊聲調(diào)調(diào)整特殊符號(hào)特殊符號(hào)停頓處理停頓處理系統(tǒng)詞庫(kù)系統(tǒng)詞庫(kù)多音字詞庫(kù)多音字詞庫(kù)變調(diào)規(guī)則庫(kù)變調(diào)規(guī)則庫(kù)特殊聲調(diào)特殊聲調(diào)規(guī)則規(guī)則文本分析模塊的基本框圖文本分析模塊的基本框圖自動(dòng)分詞自動(dòng)分詞對(duì)句子以系統(tǒng)詞庫(kù)為模板用最大匹配的方法進(jìn)行對(duì)句子以系統(tǒng)詞庫(kù)為模板用最大匹配的方法進(jìn)行分詞，從系統(tǒng)詞庫(kù)中提取相應(yīng)的讀音、聲調(diào)和時(shí)長(zhǎng)分詞，從系統(tǒng)詞庫(kù)中提取相應(yīng)的讀音、聲調(diào)和時(shí)長(zhǎng)信息作為控制參數(shù)。信息作為控制參數(shù)。多音字處理多音字處理對(duì)自動(dòng)分詞處理后的句子中余

17、下的字，首先查找對(duì)自動(dòng)分詞處理后的句子中余下的字，首先查找多音字表，若不是多音字，則檢索標(biāo)準(zhǔn)字庫(kù)，取多音字表，若不是多音字，則檢索標(biāo)準(zhǔn)字庫(kù)，取得該字的讀音和聲調(diào)；若是多音字，則根據(jù)在多得該字的讀音和聲調(diào)；若是多音字，則根據(jù)在多音字庫(kù)中得到的信息從特征詞庫(kù)中讀取相應(yīng)的信音字庫(kù)中得到的信息從特征詞庫(kù)中讀取相應(yīng)的信息，選擇恰當(dāng)?shù)淖x音和聲調(diào)。息，選擇恰當(dāng)?shù)淖x音和聲調(diào)。聲調(diào)調(diào)整聲調(diào)調(diào)整根據(jù)變調(diào)規(guī)則庫(kù)中的規(guī)則，對(duì)每個(gè)字的聲調(diào)做一根據(jù)變調(diào)規(guī)則庫(kù)中的規(guī)則，對(duì)每個(gè)字的聲調(diào)做一些調(diào)整，在詞與詞之間加入適當(dāng)?shù)耐ｎD信息。些調(diào)整，在詞與詞之間加入適當(dāng)?shù)耐ｎD信息。文本分析的輸出文本分析的輸出將輸入的文字轉(zhuǎn)換成計(jì)算機(jī)能

18、夠處理的內(nèi)部參數(shù)將輸入的文字轉(zhuǎn)換成計(jì)算機(jī)能夠處理的內(nèi)部參數(shù)(每個(gè)詞的發(fā)音聲母韻母聲調(diào)每個(gè)詞的發(fā)音聲母韻母聲調(diào))，便于后續(xù)模塊，便于后續(xù)模塊進(jìn)一步處理并生成相應(yīng)的信息。進(jìn)一步處理并生成相應(yīng)的信息。常見的文本分析方法：二元文法、常見的文本分析方法：二元文法、HMM和神和神經(jīng)網(wǎng)絡(luò)法等。經(jīng)網(wǎng)絡(luò)法等。2. 2. 語音合成語音合成首先合成字的聲母，再合成它的韻母，然后將韻首先合成字的聲母，再合成它的韻母，然后將韻母的聲調(diào)調(diào)整到所需要的聲調(diào)上，然后將聲母和母的聲調(diào)調(diào)整到所需要的聲調(diào)上，然后將聲母和韻母連接起來得到最終合成的語音。韻母連接起來得到最終合成的語音。語音合成步驟語音合成步驟拼音信息拼音信息聲母聲母韻母韻母聲調(diào)聲調(diào)基音同步幀、基音同步幀、過渡音和鼻音庫(kù)過渡音和鼻音庫(kù)聲調(diào)曲線庫(kù)聲調(diào)曲線庫(kù)聲母庫(kù)聲母庫(kù)合成韻母合成韻母

人人文庫(kù)> 全部分類> 教育資料 > 課件下載

溫馨提示

1. 本站所有資源如無特殊說明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽，若沒有圖紙預(yù)覽就沒有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間，僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理，對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容，請(qǐng)與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

第十五講語音信號(hào)處理第8章

文檔簡(jiǎn)介

溫馨提示

最新文檔

評(píng)論

第十五講語音信號(hào)處理第8章

文檔簡(jiǎn)介

溫馨提示

最新文檔

評(píng)論

相關(guān)文檔