![第十五講語音信號處理第8章_第1頁](http://file3.renrendoc.com/fileroot_temp3/2022-3/17/581d663c-073c-4f91-9a60-ae9d4128cfc4/581d663c-073c-4f91-9a60-ae9d4128cfc41.gif)
![第十五講語音信號處理第8章_第2頁](http://file3.renrendoc.com/fileroot_temp3/2022-3/17/581d663c-073c-4f91-9a60-ae9d4128cfc4/581d663c-073c-4f91-9a60-ae9d4128cfc42.gif)
![第十五講語音信號處理第8章_第3頁](http://file3.renrendoc.com/fileroot_temp3/2022-3/17/581d663c-073c-4f91-9a60-ae9d4128cfc4/581d663c-073c-4f91-9a60-ae9d4128cfc43.gif)
![第十五講語音信號處理第8章_第4頁](http://file3.renrendoc.com/fileroot_temp3/2022-3/17/581d663c-073c-4f91-9a60-ae9d4128cfc4/581d663c-073c-4f91-9a60-ae9d4128cfc44.gif)
![第十五講語音信號處理第8章_第5頁](http://file3.renrendoc.com/fileroot_temp3/2022-3/17/581d663c-073c-4f91-9a60-ae9d4128cfc4/581d663c-073c-4f91-9a60-ae9d4128cfc45.gif)
版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認(rèn)領(lǐng)
文檔簡介
1、8.1 8.1 概述概述8.2 8.2 共振峰合成法共振峰合成法8.3 8.3 線性預(yù)測合成法線性預(yù)測合成法8.4 PSOLA8.4 PSOLA算法合成語音算法合成語音8.5 TTS8.5 TTS合成技術(shù)合成技術(shù)8.1 8.1 概述概述 一、語音合成定義一、語音合成定義二、語音合成技術(shù)的應(yīng)用二、語音合成技術(shù)的應(yīng)用三、語音合成的方法三、語音合成的方法四、語音合成系統(tǒng)介紹四、語音合成系統(tǒng)介紹一、語音合成定義一、語音合成定義 解決如何讓機器像人說話的問題。其解決如何讓機器像人說話的問題。其目的目的:能將:能將任意文本實時地轉(zhuǎn)換為自然語音輸出,且輸出的語音任意文本實時地轉(zhuǎn)換為自然語音輸出,且輸出的語音
2、清晰可懂。清晰可懂。1. 1. 電話查詢系統(tǒng)電話查詢系統(tǒng) 工商信息電話查詢系統(tǒng)、銀行電話查詢系統(tǒng)、股票查詢系統(tǒng)、工商信息電話查詢系統(tǒng)、銀行電話查詢系統(tǒng)、股票查詢系統(tǒng)、交通信息查詢系統(tǒng)、考試成績查詢系統(tǒng)等。交通信息查詢系統(tǒng)、考試成績查詢系統(tǒng)等。 二、語音合成技術(shù)的應(yīng)用二、語音合成技術(shù)的應(yīng)用 2. 2.教育與娛樂軟件教育與娛樂軟件 普通話教學(xué)軟件是幫助想學(xué)普通話的用戶普通話教學(xué)軟件是幫助想學(xué)普通話的用戶, , 以往的普通話以往的普通話教學(xué)軟件只是將預(yù)先錄好音的單詞逐個讀給用戶聽,有了語音教學(xué)軟件只是將預(yù)先錄好音的單詞逐個讀給用戶聽,有了語音合成技術(shù),可以將任意文本中的整句話、整段話讀給用戶聽,合成
3、技術(shù),可以將任意文本中的整句話、整段話讀給用戶聽,學(xué)習(xí)效率明顯提高。學(xué)習(xí)效率明顯提高。3.3.游戲軟件游戲軟件 現(xiàn)在計算機游戲中的人物,或者不會說話,或者只會現(xiàn)在計算機游戲中的人物,或者不會說話,或者只會“ 播放播放”已經(jīng)錄好的聲音。利用語音合成,游戲中的人物可已經(jīng)錄好的聲音。利用語音合成,游戲中的人物可以說出任意的話語,不同的人物可以通過選用不同的音庫而形以說出任意的話語,不同的人物可以通過選用不同的音庫而形成不同的說話風(fēng)格。增加了游戲的趣味性和互動性。成不同的說話風(fēng)格。增加了游戲的趣味性和互動性。1. 1. 語音信號的語音信號的波形合成波形合成(錄音合成技術(shù))(錄音合成技術(shù)) 采用數(shù)字存儲
4、技術(shù)存儲基本的語音信息。采用數(shù)字存儲技術(shù)存儲基本的語音信息。 在在合成時采用恰當(dāng)?shù)募夹g(shù)手段挑選出所需的語音單元合成時采用恰當(dāng)?shù)募夹g(shù)手段挑選出所需的語音單元拼接起來,生成高自然度的語句,這就是拼接起來,生成高自然度的語句,這就是波形拼接波形拼接的語音合成方法的語音合成方法。為了節(jié)省存儲容量,在存入機器。為了節(jié)省存儲容量,在存入機器之前還可以對語音信號先進行數(shù)據(jù)壓縮。之前還可以對語音信號先進行數(shù)據(jù)壓縮。三、語音合成的方法三、語音合成的方法 語音庫語音庫(語音單元語音單元)語音的波形語音的波形編碼編碼輸入輸入語音語音挑選挑選組合組合回放回放合成合成語音語音波形合成方法波形合成方法2. 2. 語音信號
5、的語音信號的參數(shù)合成參數(shù)合成 根據(jù)語音產(chǎn)生的數(shù)學(xué)模型,利用短時平穩(wěn)性,提出根據(jù)語音產(chǎn)生的數(shù)學(xué)模型,利用短時平穩(wěn)性,提出每幀語音信號的參數(shù),這些參數(shù)經(jīng)編碼后組成一個語每幀語音信號的參數(shù),這些參數(shù)經(jīng)編碼后組成一個語音參數(shù)庫。音參數(shù)庫。輸出時,從語音參數(shù)庫中取出相應(yīng)的參數(shù),輸出時,從語音參數(shù)庫中取出相應(yīng)的參數(shù),利用語音產(chǎn)生的數(shù)學(xué)模型恢復(fù)語音利用語音產(chǎn)生的數(shù)學(xué)模型恢復(fù)語音。共振峰合成共振峰合成和和線線性預(yù)測合成性預(yù)測合成是該類合成技術(shù)中的重要方法。是該類合成技術(shù)中的重要方法。3. 3. 語音信號的語音信號的規(guī)則合成規(guī)則合成 將任意文本轉(zhuǎn)換成聲音的系統(tǒng)。包括語言學(xué)和聲學(xué)將任意文本轉(zhuǎn)換成聲音的系統(tǒng)。包括語
6、言學(xué)和聲學(xué)處理。處理。合成的詞匯不是事先確定。常見的是合成的詞匯不是事先確定。常見的是文語轉(zhuǎn)換文語轉(zhuǎn)換合成技術(shù)合成技術(shù) text-to-speech (TTS)text-to-speech (TTS)。 系統(tǒng)中存儲的是系統(tǒng)中存儲的是音素的聲學(xué)參數(shù)音素的聲學(xué)參數(shù),以及由音素組,以及由音素組成音節(jié)、由音節(jié)組成詞、由詞組成句子的成音節(jié)、由音節(jié)組成詞、由詞組成句子的規(guī)則規(guī)則;控制;控制音調(diào)、輕重音等韻律的音調(diào)、輕重音等韻律的各種規(guī)則各種規(guī)則。 給出待合成的字母或文字后,根據(jù)語義規(guī)則和語給出待合成的字母或文字后,根據(jù)語義規(guī)則和語音規(guī)則,確定每個字的音素的組成和句子的低層結(jié)構(gòu)。音規(guī)則,確定每個字的音素的組
7、成和句子的低層結(jié)構(gòu)。為每一個詞、每一個音節(jié)確定重音等級和語句結(jié)構(gòu)及為每一個詞、每一個音節(jié)確定重音等級和語句結(jié)構(gòu)及語調(diào),其中包括各種停頓等,這樣文字串就變成了代語調(diào),其中包括各種停頓等,這樣文字串就變成了代碼串。聲學(xué)處理利用規(guī)則將代碼串轉(zhuǎn)換成連續(xù)語音波。碼串。聲學(xué)處理利用規(guī)則將代碼串轉(zhuǎn)換成連續(xù)語音波。 四、語音合成系統(tǒng)介紹四、語音合成系統(tǒng)介紹歡迎使用微軟中國研究院中文語音合成系統(tǒng)歡迎使用微軟中國研究院中文語音合成系統(tǒng) 采用采用TTSTTS技術(shù)合成語音技術(shù)合成語音http:/research. M 8.2 共振峰合成法共振峰合成法一、共振峰合成的原理一、共振峰合成的原理二、共振峰合成的方法二、共振
8、峰合成的方法A Av v沖激序列沖激序列發(fā)生器發(fā)生器聲門脈沖聲門脈沖模型模型G(z)G(z)隨機噪聲隨機噪聲發(fā)生器發(fā)生器基音周期基音周期T TP PA AN N線性系統(tǒng)線性系統(tǒng)聲道聲道V(z)V(z)輻射輻射模型模型R(z)R(z)清清/ /濁音濁音開關(guān)開關(guān) 語音的生成模型語音的生成模型一、共振峰合成的原理一、共振峰合成的原理A Av v沖激序列沖激序列發(fā)生器發(fā)生器聲門脈沖聲門脈沖模型模型G(z)G(z)隨機噪聲隨機噪聲發(fā)生器發(fā)生器基音周期基音周期T TP PA AN N共振峰濾波器共振峰濾波器清清/ /濁音濁音開關(guān)開關(guān) 利用語音信號的生成模型,將聲道視為一個諧振腔,利用語音信號的生成模型,將
9、聲道視為一個諧振腔,利用腔體的諧振特性,共振峰頻率及其帶寬,為此利用腔體的諧振特性,共振峰頻率及其帶寬,為此構(gòu)造一個共振峰濾波器。對激勵信號進行處理,可構(gòu)造一個共振峰濾波器。對激勵信號進行處理,可得到合成語音。得到合成語音。二、共振峰合成方法二、共振峰合成方法共振峰合成器的系統(tǒng)模型共振峰合成器的系統(tǒng)模型 8.3 8.3 線性預(yù)測合成法線性預(yù)測合成法 將語音生成模型簡化,將輻射、聲道和聲門激勵將語音生成模型簡化,將輻射、聲道和聲門激勵進行組合,用一個時變數(shù)字濾波器來表示。進行組合,用一個時變數(shù)字濾波器來表示。沖激沖激序列序列發(fā)生器發(fā)生器隨機隨機噪聲噪聲發(fā)生器發(fā)生器x(n)x(n)u(n)u(n)
10、qkkkzaGzH11)(線性線性預(yù)測預(yù)測分析分析基音頻率基音頻率清清/ /濁音判別濁音判別參數(shù)參數(shù)合成合成k k2 2k kp p 基音頻率基音頻率輸入輸入語音語音x(n)x(n)清清/ /濁音標(biāo)志濁音標(biāo)志G Gk k1 1格型濾波器語音合成技術(shù)框圖格型濾波器語音合成技術(shù)框圖合成合成語音語音反射系數(shù)反射系數(shù)8.4 PSOLA8.4 PSOLA算法合成語音算法合成語音v2020世紀(jì)世紀(jì)8080年代末,由年代末,由F.CharpentierF.Charpentier和和E.MoulinesE.Moulines等提出的等提出的的的基音同步疊加技術(shù)(基音同步疊加技術(shù)(PSOLAPSOLA)和早期的波
11、形編輯有原則性和早期的波形編輯有原則性的差別,它既能保持原始語音的主要音段特征,又能在音節(jié)的差別,它既能保持原始語音的主要音段特征,又能在音節(jié)拼接時靈活調(diào)整其基音、能量和音長等韻律特征,因而很適拼接時靈活調(diào)整其基音、能量和音長等韻律特征,因而很適合于漢語語音和規(guī)則合成。合于漢語語音和規(guī)則合成。 vPSOLAPSOLA是用于波形編輯合成語音技術(shù)中是用于波形編輯合成語音技術(shù)中對合成語音的韻律進對合成語音的韻律進行修改行修改的一種算法。決定語音波形韻律的主要時域參數(shù)包括的一種算法。決定語音波形韻律的主要時域參數(shù)包括:音長、音強、音高音長、音強、音高等。音長的調(diào)節(jié)對于穩(wěn)定的波形段是比等。音長的調(diào)節(jié)對于
12、穩(wěn)定的波形段是比較簡單的,只需以基音周期為單位加較簡單的,只需以基音周期為單位加/ /減即可。但對于語音減即可。但對于語音基元本身的復(fù)雜性,實際處理時采用特定的時長縮放法;音基元本身的復(fù)雜性,實際處理時采用特定的時長縮放法;音強改變只要加強波形即可。但對一些重音有變化的音節(jié),有強改變只要加強波形即可。但對一些重音有變化的音節(jié),有可能幅度包絡(luò)也需改變;音高的大小對應(yīng)于波形的基音周期可能幅度包絡(luò)也需改變;音高的大小對應(yīng)于波形的基音周期。對于大多數(shù)通用語言,音高僅代表語氣的不同及話者的更。對于大多數(shù)通用語言,音高僅代表語氣的不同及話者的更替。但漢語的音高曲線構(gòu)成聲調(diào),聲調(diào)有辯義作用,因此漢替。但漢語
13、的音高曲線構(gòu)成聲調(diào),聲調(diào)有辯義作用,因此漢語的音高修改比較復(fù)雜。語的音高修改比較復(fù)雜。 v下圖是利用下圖是利用PSOLAPSOLA算法的語音合成系統(tǒng)的基本結(jié)構(gòu)。算法的語音合成系統(tǒng)的基本結(jié)構(gòu)。vPSOLAPSOLA算法合成語音在計算復(fù)雜度、合成語音的清晰度、自算法合成語音在計算復(fù)雜度、合成語音的清晰度、自然度方面都具有明顯優(yōu)點,受到國內(nèi)外很多學(xué)者的歡迎,國然度方面都具有明顯優(yōu)點,受到國內(nèi)外很多學(xué)者的歡迎,國內(nèi)外很多系統(tǒng)都有該算法的具體應(yīng)用。內(nèi)外很多系統(tǒng)都有該算法的具體應(yīng)用。v PSOLA PSOLA的實現(xiàn)一般有三種方式:的實現(xiàn)一般有三種方式:時域基音同步疊加時域基音同步疊加(TD-TD-PSOL
14、APSOLA););線性預(yù)測基音同步疊加線性預(yù)測基音同步疊加(LPC-PSOLALPC-PSOLA););頻域基音頻域基音同步疊加同步疊加(FD-PSOLAFD-PSOLA)。)。文本分析語音數(shù)據(jù)庫韻律生成PSOLA合成文本驅(qū)動8.5 TTS8.5 TTS合成技術(shù)合成技術(shù)一、一、TTSTTS合成技術(shù)的應(yīng)用合成技術(shù)的應(yīng)用二、二、TTSTTS合成系統(tǒng)的構(gòu)成合成系統(tǒng)的構(gòu)成一、一、TTSTTS合成技術(shù)的應(yīng)用合成技術(shù)的應(yīng)用1.1.可以用于各種智能系統(tǒng),如信息查詢系統(tǒng)、自可以用于各種智能系統(tǒng),如信息查詢系統(tǒng)、自動售票系統(tǒng)或殘疾人的輔助交流工具。動售票系統(tǒng)或殘疾人的輔助交流工具。2.2.可以用于通信設(shè)備或一
15、些數(shù)字產(chǎn)品,這樣傳遞可以用于通信設(shè)備或一些數(shù)字產(chǎn)品,這樣傳遞的信息不是語音,而是文字,在通信設(shè)備的終端的信息不是語音,而是文字,在通信設(shè)備的終端將文字信息轉(zhuǎn)換為語音即可,由于每個文字占用將文字信息轉(zhuǎn)換為語音即可,由于每個文字占用兩個字節(jié),因而極具有價值兩個字節(jié),因而極具有價值文本文本文本分析文本分析韻律控制韻律控制合成模塊合成模塊語音數(shù)據(jù)庫語音數(shù)據(jù)庫輸出輸出二、二、TTSTTS系統(tǒng)的構(gòu)成系統(tǒng)的構(gòu)成 對輸入文本進行分析切割出字詞以后,通過語音對輸入文本進行分析切割出字詞以后,通過語音合成方法把這些字詞的發(fā)音合成出來,并串接起來,合成方法把這些字詞的發(fā)音合成出來,并串接起來,通過韻律調(diào)整,就可以得
16、到較為自然的語句的發(fā)音。通過韻律調(diào)整,就可以得到較為自然的語句的發(fā)音。1.1.文本分析文本分析自動分詞自動分詞多音字處理多音字處理聲調(diào)判斷聲調(diào)判斷特殊聲調(diào)調(diào)整特殊聲調(diào)調(diào)整特殊符號特殊符號停頓處理停頓處理系統(tǒng)詞庫系統(tǒng)詞庫多音字詞庫多音字詞庫變調(diào)規(guī)則庫變調(diào)規(guī)則庫特殊聲調(diào)特殊聲調(diào)規(guī)則規(guī)則文本分析模塊的基本框圖文本分析模塊的基本框圖自動分詞自動分詞 對句子以系統(tǒng)詞庫為模板用最大匹配的方法進行對句子以系統(tǒng)詞庫為模板用最大匹配的方法進行分詞,從系統(tǒng)詞庫中提取相應(yīng)的讀音、聲調(diào)和時長分詞,從系統(tǒng)詞庫中提取相應(yīng)的讀音、聲調(diào)和時長信息作為控制參數(shù)。信息作為控制參數(shù)。多音字處理多音字處理 對自動分詞處理后的句子中余
17、下的字,首先查找對自動分詞處理后的句子中余下的字,首先查找多音字表,若不是多音字,則檢索標(biāo)準(zhǔn)字庫,取多音字表,若不是多音字,則檢索標(biāo)準(zhǔn)字庫,取得該字的讀音和聲調(diào);若是多音字,則根據(jù)在多得該字的讀音和聲調(diào);若是多音字,則根據(jù)在多音字庫中得到的信息從特征詞庫中讀取相應(yīng)的信音字庫中得到的信息從特征詞庫中讀取相應(yīng)的信息,選擇恰當(dāng)?shù)淖x音和聲調(diào)。息,選擇恰當(dāng)?shù)淖x音和聲調(diào)。聲調(diào)調(diào)整聲調(diào)調(diào)整 根據(jù)變調(diào)規(guī)則庫中的規(guī)則,對每個字的聲調(diào)做一根據(jù)變調(diào)規(guī)則庫中的規(guī)則,對每個字的聲調(diào)做一些調(diào)整,在詞與詞之間加入適當(dāng)?shù)耐nD信息。些調(diào)整,在詞與詞之間加入適當(dāng)?shù)耐nD信息。文本分析的輸出文本分析的輸出 將輸入的文字轉(zhuǎn)換成計算機能
18、夠處理的內(nèi)部參數(shù)將輸入的文字轉(zhuǎn)換成計算機能夠處理的內(nèi)部參數(shù)(每個詞的發(fā)音聲母韻母聲調(diào)每個詞的發(fā)音聲母韻母聲調(diào)),便于后續(xù)模塊,便于后續(xù)模塊進一步處理并生成相應(yīng)的信息。進一步處理并生成相應(yīng)的信息。 常見的文本分析方法:二元文法、常見的文本分析方法:二元文法、HMM和神和神經(jīng)網(wǎng)絡(luò)法等。經(jīng)網(wǎng)絡(luò)法等。2. 2. 語音合成語音合成 首先合成字的聲母,再合成它的韻母,然后將韻首先合成字的聲母,再合成它的韻母,然后將韻母的聲調(diào)調(diào)整到所需要的聲調(diào)上,然后將聲母和母的聲調(diào)調(diào)整到所需要的聲調(diào)上,然后將聲母和韻母連接起來得到最終合成的語音。韻母連接起來得到最終合成的語音。 語音合成步驟語音合成步驟拼音信息拼音信息聲母聲母韻母韻母聲調(diào)聲調(diào)基音同步幀、基音同步幀、過渡音和鼻音庫過渡音和鼻音庫聲調(diào)曲線庫聲調(diào)曲線庫聲母庫聲母庫合成韻母合成韻母
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025年度棒球場租賃與賽事宣傳合作合同
- 人力資源公司合作合同
- 食堂承包合同書
- 交通運輸行業(yè)智能交通出行服務(wù)平臺方案
- 服裝廠縫紉機設(shè)備買賣合同書
- 物流市場分析與規(guī)劃作業(yè)指導(dǎo)書
- 買賣房屋交接合同協(xié)議書
- 人工智能系統(tǒng)開發(fā)與部署作業(yè)指導(dǎo)書
- 帶擔(dān)保的借款合同
- 工業(yè)互聯(lián)網(wǎng)背景下智能倉儲管理解決方案
- LS 8010-2014植物油庫設(shè)計規(guī)范
- GB/T 12618-1990開口型扁圓頭抽芯鉚釘
- GB/T 12006.2-2009塑料聚酰胺第2部分:含水量測定
- GA/T 458-2021居民身份證質(zhì)量要求
- 礦區(qū)水工環(huán)地質(zhì)工作
- 中國結(jié)英文介紹
- 全口義齒的制作課件
- 人教版2023年初中道法八年級下冊知識點匯總(思維導(dǎo)圖)
- 徐金桂行政法講義
- 2022建筑外門窗三性講義精選ppt
- 管道公稱直徑壁厚對照表
評論
0/150
提交評論