語音信號數字處理:12 Speech signal processing_第1頁
語音信號數字處理:12 Speech signal processing_第2頁
語音信號數字處理:12 Speech signal processing_第3頁
語音信號數字處理:12 Speech signal processing_第4頁
語音信號數字處理:12 Speech signal processing_第5頁
已閱讀5頁,還剩40頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

1、Speech signal processingLecture 12: 語音合成1語音合成技術概述2共振峰合成技術3LPC參數合成技術4PSOLA合成5按規(guī)則合成6語音合成的未來發(fā)展方向TTS原理及主要應用語音合成技術,簡單說就相當于給機器裝上人工嘴巴,讓機器把各種文字信息實時轉化為標準流暢的語音說出來的技術。它涉及數字信號處理、語言聲學、多媒體技術等多個學科,是信息處理領域的一項前沿技術,具有廣闊的市場空間。 TTS原理及主要應用語音合成技術: 是通過機械式或者電子式處理方法產生人造語音的技術; Text-To-Speech (朗讀)Concept-To-Speech(對話)Intentio

2、n-To-Speech(說話)文語轉換技術: 是將輸入的文字信息轉換為相應的語音并輸出的技術,它隸屬于語音合成的一部分。TTS原理及主要應用應用范圍:將任何可見的電子文本信息轉換為相應的語音,可以“變看為聽”,使用戶可以更方便的接受信息;不具備使用計算機和網絡的條件;不會使用計算機的用戶;不方便看,如行車的時候;具有視力障礙的人;語音合成技術發(fā)展年代核心技術1960s前基于規(guī)則和參數合成器的合成系統 基于發(fā)音器官模型的合成器 1980s基于規(guī)則和波形拼接的合成1990s后基于大語料庫的合成機械式語音合成器Joseph Fabers Euphonia, as shown in London in

3、 1846. The machine produced not only ordinary and whispered speech, but it also sang the anthem God Save the Queen. 源濾波器-終端模擬合成器Corpus-based 漢語 TTS流程 文本處理音節(jié)候選s1 s2 s3 s4韻律預測詞典和語法規(guī)則韻律模板庫通過連接代價選擇最優(yōu)通路s1 s2 s3 s4 s5 s6輸出語音文本輸入語音 Corpus 語音輸出文本語言處理韻律處理語音合成器 詞典/規(guī)則語音庫文本分析部分語音合成部分文語轉換系統 (TTS)文本規(guī)整文本規(guī)整:將文本中所有的

4、非漢字(單詞)符號(數字、標點符號等)轉換為相應的文字或者音標;1/4 四月一日1/4 四分之一3:20 PM 下午三點二十25:23 二十五 比 二十三1999年的第22天; 一九九九年的第二十二天正確劃分節(jié)奏詞正確的劃分節(jié)奏詞很重要,否則會導致合成語音產生歧義姬鵬飛 /到 / 機場 or 姬鵬/飛到 / 機場 ?中國人/生活/水平/提高 or 中國/人生/活水/平/提高 ?影響節(jié)奏詞錯誤劃分因素:漢語是音節(jié)語言,節(jié)奏詞之間沒有分界標志;分詞之間存在眾多的交叉現象;并不是所有的詞都收錄在詞典中,非詞典詞識別困難:如人名、地名、組織名稱等;解決方法:統計決策方法、大規(guī)模的知識庫的支持多音字的處

5、理多音字處理的目的是使一字多音的字在相應的詞中得以正確發(fā)音,錯誤的發(fā)音會對語義的理解產生歧義;如清晨,從陽臺上一抹朝陽斜射進來。 設計方案將使每套住戶都有朝陽的房間。主要難點:一字多音、甚至是一詞多音解決方法:統計決策方法韻律預測韻律描述語音中抑揚頓挫、韻律結構主要包括三層:音節(jié)、韻律詞、韻律短語; 韻律預測根據文本中獲取的信息,預測文本對應語音的韻律起伏;Speech signal processing1語音合成系統- TTS文本分析韻律生成語音生成Speech signal processing1語音合成技術概述-合成過程查找拼寫錯誤,并將文本中出現的一些不規(guī)范或無法發(fā)音的字符過濾掉。分析

6、文本中詞或短語的邊界,標注詞性、確定文字的讀音,同時分析文本中出現的數字、姓氏、特殊字符、專有詞語以及各種多音字的讀音方式。分析文本中每個句子的語法結構和語義結構,確定語義中心,句子的重音模式,語調,從而為韻律處理提供必要信息。對音系層的韻律事件預測:聲調、語調、輕重、節(jié)律等對聲學層的韻律參數預測Speech signal processing語音合成技術韻律模型建立韻律模型的兩種方法 基于模型的方法基于規(guī)則的方法Speech signal processing語音合成原理 語音生成方法主要目的:根據韻律建模的結果,從原始語音庫中取出相應的語音基元,利用特定的語音合成技術對語音基元進行韻律特性

7、的調整和修改,最終合成符合要求的語音。主要方法:(1)共振峰合成(2)LPC(線性預測編碼)參數合成(3)PSOLA(基音同步疊加)合成Speech signal processing2共振峰合成技術原理音色各異的語音具有不同的共振峰模式,以每個共振峰頻率及其帶寬作為參數,可以構成共振峰濾波器。再用若干個這種濾波器的組合來模擬聲道的傳輸特性(頻率響應),對激勵源發(fā)出的信號進行調制,再經過輻射模型就可以得到合成語音。Speech signal processing2共振峰合成技術模型級聯型、并聯型、混合型。優(yōu)點對音高、音長、音強等目標值可以通過設置激勵和諧振器參數等來實現,調整起來較容易。缺點由

8、于對聲道的模擬不精確影響了合成的自然度;控制參數過多,導致實現困難。激勵源 分為濁音和清音。Speech signal processing2共振峰合成技術混合型共振峰模型Speech signal processing3LPC參數合成技術原理 一個語音的采樣能夠用過去若干個語音采樣的線性組合來逼近。形式 利用預測系數ai直接構成的遞歸型合成濾波器;利用反射系數ki構成格型合成濾波器。Speech signal processing3LPC參數合成技術 LPC合成模型中的所有控制參數都必須隨時間不斷地修正。 (1) 對于清音語音段,可以簡單地針對每一幀數據改變一次參數。 (2) 對于濁音語音段

9、,根據控制參數改變時刻的選取不同,有基音同步合成和幀同步合成兩種方式。 (3) 分析幀的長度固定,一般選擇大于兩個基音周期,因此為了得到每個基音周期起始處的控制參數,就必須進行內插。 優(yōu)點 簡單、易于實現。缺點 合成語音樣本需要很高的計算精度Speech signal processing4PSOLA基礎-時間尺度的調整(TSM) 如何將一段聲音變慢或者變快?Speech signal processing 變慢一倍后的語譜圖被拉長4PSOLA基礎-時間尺度的調整(TSM)Speech signal processing 問題Problem:如何保證局部的時間結構,而使整體的時間長度發(fā)生變化?

10、解決方法 Solution將小段反復重復4PSOLA基礎-時間尺度的調整(TSM)Speech signal processing4PSOLA基礎-時間尺度的調整(TSM)Speech signal processing 允許在疊加過程中有一定的誤差4PSOLA基礎-時間尺度的調整(TSM)Speech signal processing 通過交叉相關方法確定 4PSOLA基礎-時間尺度的調整(TSM)Speech signal processing4PSOLA合成技術原理對原始波形進行分析,產生非參數的中間表示。(2) 對這些短時信號做必要的修正,形成一系列短時合成信號。首先根據原始語音波形

11、的基音曲線和超音段特征與目標基音曲線和超音段特征修正的要求,建立合成波形與原始波形之間基音周期的映射關系;再由此映射關系確定合成所需的短時合成信號系列。(3) 將合成短時信號系列與目標基音周期同步排列并重疊相加得到合成波形。Speech signal processing為原始語音段加基音標注是算法執(zhí)行的基礎。 濁音有基音周期,能夠進行有效地標注。 對于清音,為了保持算法的一致性,一般標注為一個適當的常數。 需要按基音周期分別修改音長、基頻及合成信號的幅值。 4PSOLA合成技術Speech signal processing4PSOLA合成技術對于音長的修改,就是找到分析信號的基音同步標注點

12、與最后合成信號的基音同步標注點之間的對應關系,一般它們呈現一種線性關系,下圖給出了音長縮短時的基音標注情況。 Speech signal processing4PSOLA合成技術進行基頻和音長的調整 Speech signal processing4PSOLA合成技術Speech signal processing4PSOLA合成技術Speech signal processing4PSOLA合成技術Speech signal processing4PSOLA合成技術 基于拼接合成算法中需要解決的問題 聲學基元的選擇 聲學基元的樣板數 韻律修飾 Speech signal processing

13、5按規(guī)則合成 選擇更小的合成基元,加入龐大的規(guī)則庫將其合成為詞語或句子的合成方式,更側重于各種合成規(guī)則的研究,因此稱其為按規(guī)則合成。 對漢語,基元一般應選聲母和韻母。 韻律規(guī)則也叫“超音段特征”,反映了語音在基頻、共振峰、能量以及譜分布特性上的差異。 主要包括聲調、語調、重音等。 Speech signal processing5按規(guī)則合成 (a) 重音規(guī)則 指說話或朗讀時讀的比較重的音節(jié)或詞語,要時間長一點、音程大一點。一般可以將漢語重音分為詞重音和句重音兩大類。 (b)轉接與音渡 轉接與音渡是音素序列轉變成語音流時的動態(tài)變化規(guī)律。 漢語發(fā)音中存在兩種基本的過渡,即輔音與元音組合和元音與元音

14、組合。前者稱之為“轉接”;后者稱之為“音渡”。 Speech signal processing5按規(guī)則合成 (c)聲調與變調在連續(xù)的語流中,由于相鄰音節(jié)之間的相互影響,各音節(jié)的基音頻率時變曲線與孤立發(fā)音時的音節(jié)相比會發(fā)生較大的變異。 (d)音長問題 音長也是語音的重要特征之一,對語音的可懂度、自然度都有一定的影響。漢語中音長主要體現在韻母的調型段長度上。Speech signal processing6合成音質的評價主觀評價可懂度(清晰度)正確聽辨被傳送的、相互無聯系的漢語單字的百分數。自然度用來評價合成語音音質是否接近人說話的聲音,合成詞語的語調是否自然??陀^評價 時域測度 頻域測度Spe

15、ech signal processing6語音合成的未來發(fā)展方向(1)提高合成語音的自然度(2)豐富合成語音的表現力(3)降低語音合成技術的復雜度(4)多語種文語合成漢語TTS技術進展序號系統代號系統名稱測聽值1A播音員4.722B自然人3.693C語音合成3.98以播音員為5.0分,自然人為4.0分,對比計算出語音合成系統的自然度指標為:4.3分。04年863語音合成評測結果評測結果 (2004年10月)說明:system分別是中科大、日本ATR、清華大學、中科院聲學所、中科院自動化所、哈工大、提交的參評系統;劃“”表示未參加該項評測。 單位桌面及電信嵌入式自然度對比分自然度綜合分可懂度自然度對比分自然度綜合分可懂度system11.35286103996.7%1.0214852388.7%system2-0.25-19294.5% system3-0.84375-64893.9% System4-0.25911-19993.4% system5 -0.39062-20086.5%system6 -0.63086-32387.9%語音合成的技術方向Read speech風格的TTS,目前已經達到比較高的水平。語音合成技術仍然還有很多未解決的問題:Multi-speake

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論