第四章 語音信號處理技術(shù)_第1頁
第四章 語音信號處理技術(shù)_第2頁
第四章 語音信號處理技術(shù)_第3頁
第四章 語音信號處理技術(shù)_第4頁
第四章 語音信號處理技術(shù)_第5頁
已閱讀5頁,還剩166頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

1、第 4 章 語音信號處理技術(shù)主要內(nèi)容主要內(nèi)容4.1 語音信號處理概述語音信號處理概述4.2 語音信號處理的基礎(chǔ)知識語音信號處理的基礎(chǔ)知識4.3 語音合成語音合成4.4 語音識別語音識別4.5 說話人識別說話人識別4.6 語音編碼語音編碼4.7 語音增強(qiáng)語音增強(qiáng)4.8 語音理解語音理解4.1 語音信號處理概述語音信號處理概述l語音:是語音:是人類發(fā)音器官發(fā)出的、具有一定意義的、能起社會交際作人類發(fā)音器官發(fā)出的、具有一定意義的、能起社會交際作用用的聲音。能夠代表一定的意義,這是語言的聲音(語音)同自然的聲音。能夠代表一定的意義,這是語言的聲音(語音)同自然界其他一切聲音的本質(zhì)區(qū)別。界其他一切聲音的

2、本質(zhì)區(qū)別。l語言的聲音同它所代表的語言的聲音同它所代表的意義意義是相互依存的統(tǒng)一體,一方面,發(fā)音是相互依存的統(tǒng)一體,一方面,發(fā)音器官發(fā)出的聲音必須同意義緊密結(jié)合、成為一定意義的代表,才能器官發(fā)出的聲音必須同意義緊密結(jié)合、成為一定意義的代表,才能成為語音;另一方面,意義必須借助聲音才能成為可被人感知、被成為語音;另一方面,意義必須借助聲音才能成為可被人感知、被人接受的東西,沒有聲音,意義便無法表達(dá)出來。人接受的東西,沒有聲音,意義便無法表達(dá)出來。l語音是一種具有語音是一種具有多重屬性多重屬性的聲音。首先,它同自然界其他聲音一樣的聲音。首先,它同自然界其他聲音一樣,是由物體振動產(chǎn)生聲波而形成的一種

3、自然現(xiàn)象,所以它具有物理,是由物體振動產(chǎn)生聲波而形成的一種自然現(xiàn)象,所以它具有物理的屬性方面的的屬性方面的自然屬性自然屬性。語言又是人類的生理現(xiàn)象,發(fā)音是人體器。語言又是人類的生理現(xiàn)象,發(fā)音是人體器官的動作。因此,它同時具有官的動作。因此,它同時具有生理屬性生理屬性。作為語言這一特殊社會現(xiàn)。作為語言這一特殊社會現(xiàn)象的物質(zhì)基礎(chǔ),語音又具有象的物質(zhì)基礎(chǔ),語音又具有社會屬性社會屬性,這是語音的本質(zhì)屬性。我們,這是語音的本質(zhì)屬性。我們在分析語音現(xiàn)象的時候,這三種屬性都會涉及到。在分析語音現(xiàn)象的時候,這三種屬性都會涉及到。l語音信號處理語音信號處理簡稱語音處理,是以語音學(xué)和數(shù)簡稱語音處理,是以語音學(xué)和數(shù)

4、字信號處理為基礎(chǔ)而形成的一門綜合性學(xué)科,字信號處理為基礎(chǔ)而形成的一門綜合性學(xué)科,處理的目的是要得到一些語音參數(shù)以便高效的處理的目的是要得到一些語音參數(shù)以便高效的傳輸或存儲,或者通過處理的某種運算以達(dá)到傳輸或存儲,或者通過處理的某種運算以達(dá)到某種用途的要求,例如人工合成出語音,辨識某種用途的要求,例如人工合成出語音,辨識出說話者,識別講話的內(nèi)容等。出說話者,識別講話的內(nèi)容等。l基礎(chǔ):基礎(chǔ):l指導(dǎo):指導(dǎo):l技術(shù)手段技術(shù)手段:語音信號處理的發(fā)展語音信號處理的發(fā)展l開端:開端:1874年電話的發(fā)明,基礎(chǔ)理論是盡可能不年電話的發(fā)明,基礎(chǔ)理論是盡可能不失真的傳送語音波形;失真的傳送語音波形;l1939年,

5、出現(xiàn)年,出現(xiàn)通道聲碼器技術(shù)通道聲碼器技術(shù),通過提取語音信,通過提取語音信號的參數(shù)加以傳輸,在收端重新合成語音;號的參數(shù)加以傳輸,在收端重新合成語音;l40年代后期,年代后期,語譜儀語譜儀將語音信號的時變譜用將語音信號的時變譜用圖形表示出來的儀器。圖形表示出來的儀器。l50年代初,年代初,口授打字機(jī)、英語單詞語音識別器口授打字機(jī)、英語單詞語音識別器;l1960年,年,F(xiàn)ant發(fā)表發(fā)表語音產(chǎn)生的聲學(xué)理論語音產(chǎn)生的聲學(xué)理論,為,為建立語音信號數(shù)字模型奠定了基礎(chǔ);建立語音信號數(shù)字模型奠定了基礎(chǔ);l60年代中期,年代中期,快速傅里葉變換快速傅里葉變換算法的成功應(yīng)用:算法的成功應(yīng)用:孤立詞語音識別器孤立詞

6、語音識別器數(shù)字信號處理技術(shù)和方法數(shù)字信號處理技術(shù)和方法取得突破性進(jìn)展;取得突破性進(jìn)展;l70年代初,年代初,倒譜分析技術(shù)、線性預(yù)測技術(shù)倒譜分析技術(shù)、線性預(yù)測技術(shù)在語音在語音處理中的成功應(yīng)用;處理中的成功應(yīng)用;微電子學(xué)和集成電路技術(shù)微電子學(xué)和集成電路技術(shù)取取得進(jìn)展;價格低廉的得進(jìn)展;價格低廉的微處理器芯片微處理器芯片的不斷問世;的不斷問世;l80年代初,年代初,矢量量化矢量量化VQ應(yīng)用于語音信號處理;應(yīng)用于語音信號處理;隱隱式馬爾科夫模型式馬爾科夫模型HMM是語音信號處理技術(shù)的重是語音信號處理技術(shù)的重大發(fā)展;大發(fā)展;l近年來,近年來,人工神經(jīng)網(wǎng)絡(luò)人工神經(jīng)網(wǎng)絡(luò)研究取得迅速發(fā)展,語音研究取得迅速發(fā)展

7、,語音識別是神經(jīng)網(wǎng)絡(luò)的一個重要應(yīng)用領(lǐng)域。識別是神經(jīng)網(wǎng)絡(luò)的一個重要應(yīng)用領(lǐng)域。語音處理的研究方法語音處理的研究方法基礎(chǔ)理論、算法實現(xiàn)基礎(chǔ)理論、算法實現(xiàn) 從語音產(chǎn)生和語言從語音產(chǎn)生和語言感知來研究感知來研究 將語音作為一種信將語音作為一種信號進(jìn)行處理號進(jìn)行處理實際應(yīng)用實際應(yīng)用 語音編碼語音編碼 語音識別語音識別 說話人識別說話人識別 語音理解語音理解 語音合成語音合成 語音增強(qiáng)語音增強(qiáng)新的發(fā)展方向新的發(fā)展方向l基于語音的信息檢索基于語音的信息檢索l基于語音識別的廣播新聞的自動文摘技術(shù)、自動基于語音識別的廣播新聞的自動文摘技術(shù)、自動撰寫技術(shù)撰寫技術(shù)lIP電話技術(shù)電話技術(shù)l語音訓(xùn)練與校正技術(shù)語音訓(xùn)練與校

8、正技術(shù)l語種識別語種識別l基于語音的情感處理研究基于語音的情感處理研究l數(shù)字語音安全性、完整性研究數(shù)字語音安全性、完整性研究l音頻作品安全性、完整性研究音頻作品安全性、完整性研究語音信號處理過程的總體結(jié)構(gòu)語音信號處理過程的總體結(jié)構(gòu)l語音識別技術(shù)分為兩個階段:語音識別技術(shù)分為兩個階段:訓(xùn)練階段訓(xùn)練階段:對用特定參數(shù)形式表示的語音信號進(jìn):對用特定參數(shù)形式表示的語音信號進(jìn)行相應(yīng)的處理,獲得表示識別基本單元共性特點行相應(yīng)的處理,獲得表示識別基本單元共性特點的標(biāo)準(zhǔn)數(shù)據(jù),以此構(gòu)成參考模板,將所有能識別的標(biāo)準(zhǔn)數(shù)據(jù),以此構(gòu)成參考模板,將所有能識別的基本模板結(jié)合在一起,形成參考模式庫。的基本模板結(jié)合在一起,形成

9、參考模式庫。識別階段識別階段:將待識別的語音經(jīng)特征提取后逐一與:將待識別的語音經(jīng)特征提取后逐一與參考模式庫中的各個模板按某種原則進(jìn)行比較,參考模式庫中的各個模板按某種原則進(jìn)行比較,找出最相像的參考模板所對應(yīng)的發(fā)音,即為識別找出最相像的參考模板所對應(yīng)的發(fā)音,即為識別結(jié)果。結(jié)果。4.2 4.2 語音信號處理的基礎(chǔ)知識語音信號處理的基礎(chǔ)知識4.2.1 語音語音4.2.2 語音信號的特性分析語音信號的特性分析4.2.3 語音信號生成的數(shù)學(xué)模型語音信號生成的數(shù)學(xué)模型4.2.4 語音信號的數(shù)字化和預(yù)處理語音信號的數(shù)字化和預(yù)處理4.2.1 語音語音l語音語音:帶有語言信息的聲音(聲波)。:帶有語言信息的聲音

10、(聲波)。l人們講話時發(fā)出的話語叫語音,它是一種聲音,具人們講話時發(fā)出的話語叫語音,它是一種聲音,具有稱為聲學(xué)特征的物理特性。有稱為聲學(xué)特征的物理特性。l語音是語音是聲音和語言聲音和語言的組合體。語音是由一連串的音的組合體。語音是由一連串的音組成語言的聲音。組成語言的聲音。l語音經(jīng)過語音經(jīng)過聲電轉(zhuǎn)換聲電轉(zhuǎn)換得到電信號;經(jīng)過得到電信號;經(jīng)過聲光轉(zhuǎn)換聲光轉(zhuǎn)換得到得到光信號。光信號。波形圖是波形圖是語音幅度語音幅度隨時間變隨時間變化的二維化的二維圖圖波形特性波形特性l語音信號幅度語音信號幅度動態(tài)范圍一般最大為動態(tài)范圍一般最大為4040分貝分貝,實際由于,實際由于說話人的差別可以達(dá)到說話人的差別可以達(dá)

11、到6060-70-70分貝。分貝。l元音幅度較大,有準(zhǔn)周期性;清輔音幅度小,和噪聲元音幅度較大,有準(zhǔn)周期性;清輔音幅度小,和噪聲特性相似特性相似。l在長時間的語音信號中有相當(dāng)多的無信號區(qū)間,即所在長時間的語音信號中有相當(dāng)多的無信號區(qū)間,即所謂的謂的語音寂靜區(qū)間語音寂靜區(qū)間。 l幅度概率密度函數(shù)以零幅和近似零幅的概率高,而幅幅度概率密度函數(shù)以零幅和近似零幅的概率高,而幅度非常高的情況概率很小。度非常高的情況概率很小。l長時平均幅度長時平均幅度的概率密度分布可以用高斯分布、拉普的概率密度分布可以用高斯分布、拉普拉斯分布和伽瑪拉斯分布和伽瑪( (Gamma)Gamma)分布逼近。分布逼近。l對于對于

12、短時幅度短時幅度概率密度用高斯分布逼近就夠了。概率密度用高斯分布逼近就夠了。 4.2.2 語音信號的特性分析語音信號的特性分析l語音信號的聲學(xué)特性語音信號的聲學(xué)特性l語音信號的時域波形語音信號的時域波形l語音信號的頻域波形語音信號的頻域波形l語音信號的統(tǒng)計特性語音信號的統(tǒng)計特性語音信號的聲學(xué)特性語音信號的聲學(xué)特性l語音的四種語音的四種物理屬性物理屬性:l音色音色:又叫音質(zhì),是一個聲音能區(qū)別于其他聲音的基本特:又叫音質(zhì),是一個聲音能區(qū)別于其他聲音的基本特征。世界上的聲音很少是只有一種單純頻率的純音,絕大征。世界上的聲音很少是只有一種單純頻率的純音,絕大多數(shù)聲音都是由許多個頻率和振幅不同的聲波組成

13、的復(fù)合多數(shù)聲音都是由許多個頻率和振幅不同的聲波組成的復(fù)合音。復(fù)合音的各成分聲波之間頻率和振幅相互影響,形成音。復(fù)合音的各成分聲波之間頻率和振幅相互影響,形成了特定的波形,產(chǎn)生出特定的音質(zhì)。了特定的波形,產(chǎn)生出特定的音質(zhì)。 l音調(diào)音調(diào):指聲音的高低,取決于發(fā)音體振動的快慢,即聲波:指聲音的高低,取決于發(fā)音體振動的快慢,即聲波的頻率。物體每秒鐘振動的次數(shù)叫的頻率。物體每秒鐘振動的次數(shù)叫頻率頻率,聲學(xué)把頻率作為,聲學(xué)把頻率作為測定物體振動快慢與聲音高低的標(biāo)準(zhǔn)。測定物體振動快慢與聲音高低的標(biāo)準(zhǔn)。l音強(qiáng)音強(qiáng):指聲音的強(qiáng)弱,取決于聲波的振動幅度。振幅大,:指聲音的強(qiáng)弱,取決于聲波的振動幅度。振幅大,發(fā)出的

14、聲音強(qiáng)度就大,振幅小,聲音就弱。發(fā)出的聲音強(qiáng)度就大,振幅小,聲音就弱。l音長音長:指聲音的長短,它取決于發(fā)音持續(xù)時間的長短。音:指聲音的長短,它取決于發(fā)音持續(xù)時間的長短。音長的變化往往會影響到音質(zhì)、音調(diào)和音強(qiáng)。長的變化往往會影響到音質(zhì)、音調(diào)和音強(qiáng)?;纛l率基音頻率l一般的聲音都是由發(fā)音體發(fā)出的一系列頻率、振幅各不相同的振動一般的聲音都是由發(fā)音體發(fā)出的一系列頻率、振幅各不相同的振動復(fù)合而成的。這些振動中有一個頻率最低的振動,由它發(fā)出的音就復(fù)合而成的。這些振動中有一個頻率最低的振動,由它發(fā)出的音就是基音(是基音(fundamental tone)。)。l當(dāng)發(fā)濁音時,氣流通過聲門時使聲帶發(fā)生振動,產(chǎn)

15、生準(zhǔn)周期激勵脈當(dāng)發(fā)濁音時,氣流通過聲門時使聲帶發(fā)生振動,產(chǎn)生準(zhǔn)周期激勵脈沖串,這個脈沖串的周期稱為基音周期,其倒數(shù)稱為基音頻率,一沖串,這個脈沖串的周期稱為基音周期,其倒數(shù)稱為基音頻率,一般用般用F0表示。表示。l基音頻率與個人聲帶的長短、厚薄、韌性、勁度和發(fā)音習(xí)慣有關(guān),基音頻率與個人聲帶的長短、厚薄、韌性、勁度和發(fā)音習(xí)慣有關(guān),很大程度上反映了人的特征。一般來說,男性說話者的基音頻率大很大程度上反映了人的特征。一般來說,男性說話者的基音頻率大致分布在致分布在50200Hz,女性和小孩的基音頻率在,女性和小孩的基音頻率在200450Hz之間。之間。共振峰共振峰l聲道是一個諧振腔,當(dāng)激勵的頻率達(dá)到

16、至聲道的固有頻聲道是一個諧振腔,當(dāng)激勵的頻率達(dá)到至聲道的固有頻率,則聲道會以最大的振幅振蕩,此時的頻率稱為共振率,則聲道會以最大的振幅振蕩,此時的頻率稱為共振峰或共振峰頻率。峰或共振峰頻率。l共振峰是指在聲音的頻譜中能量相對集中的一些區(qū)域,共振峰是指在聲音的頻譜中能量相對集中的一些區(qū)域,共振峰不但是音質(zhì)的決定因素,而且反映了聲道(共振共振峰不但是音質(zhì)的決定因素,而且反映了聲道(共振腔)的物理特征。聲音在經(jīng)過共振腔時,受到腔體的濾腔)的物理特征。聲音在經(jīng)過共振腔時,受到腔體的濾波作用,使得頻域中不同頻率的能量重新分配,一部分波作用,使得頻域中不同頻率的能量重新分配,一部分因為共振腔的共振作用得到

17、強(qiáng)化,另一部分則受到衰減因為共振腔的共振作用得到強(qiáng)化,另一部分則受到衰減,得到強(qiáng)化的那些頻率在時頻分析的語圖上表現(xiàn)為濃重,得到強(qiáng)化的那些頻率在時頻分析的語圖上表現(xiàn)為濃重的黑色條紋。由于能量分布不均勻,強(qiáng)的部分猶如山峰的黑色條紋。由于能量分布不均勻,強(qiáng)的部分猶如山峰一般,故而稱之為共振峰。一般,故而稱之為共振峰。語音信號的時域波形語音信號的時域波形l在進(jìn)行語音信號數(shù)字處理時,最先接觸、最直觀在進(jìn)行語音信號數(shù)字處理時,最先接觸、最直觀的是它的時域波形。通常是將語音用話筒轉(zhuǎn)換成的是它的時域波形。通常是將語音用話筒轉(zhuǎn)換成電信號,再用電信號,再用A/D轉(zhuǎn)換器將其轉(zhuǎn)換成離散的數(shù)字轉(zhuǎn)換器將其轉(zhuǎn)換成離散的數(shù)字

18、采樣信號后存入計算機(jī)。采樣信號后存入計算機(jī)。l觀察語音信號時間波形的特性,可以通過對語音觀察語音信號時間波形的特性,可以通過對語音波形的振幅和周期性來觀察不同性質(zhì)的音素的差波形的振幅和周期性來觀察不同性質(zhì)的音素的差別。別。語音信號的頻域波形語音信號的頻域波形l時域波形簡單直觀,但語音信號非常復(fù)雜,一些時域波形簡單直觀,但語音信號非常復(fù)雜,一些特性要在頻域中才能體現(xiàn)出來;并且無論從發(fā)音特性要在頻域中才能體現(xiàn)出來;并且無論從發(fā)音器官的共振角度,還是從聽覺器官的頻率響應(yīng)角器官的共振角度,還是從聽覺器官的頻率響應(yīng)角度來看,頻譜都是表征語音特性的基本參數(shù)。度來看,頻譜都是表征語音特性的基本參數(shù)。l共振峰

19、就是一個典型的頻域參數(shù),它可以決定信共振峰就是一個典型的頻域參數(shù),它可以決定信號頻譜的總體輪廓或譜包絡(luò)。號頻譜的總體輪廓或譜包絡(luò)。l認(rèn)為語音信號是一種短時平穩(wěn)信號,在一個很認(rèn)為語音信號是一種短時平穩(wěn)信號,在一個很短的時間內(nèi)(短的時間內(nèi)(10ms-30ms)語音信號特征基本)語音信號特征基本上是不變的。上是不變的。l根據(jù)語音信號的短時平穩(wěn)特點,在每一時刻都根據(jù)語音信號的短時平穩(wěn)特點,在每一時刻都可以用該時刻附近的一短段語音信號分析得到可以用該時刻附近的一短段語音信號分析得到一個頻譜。一個頻譜。語音信號的語譜圖語音信號的語譜圖l短時譜只能反映語音信號的靜態(tài)頻率特性(頻率短時譜只能反映語音信號的靜態(tài)

20、頻率特性(頻率變化),不能反映語音信號的動態(tài)頻率特性(時變化),不能反映語音信號的動態(tài)頻率特性(時間變化特性)。因此人們致力于研究語音的時域間變化特性)。因此人們致力于研究語音的時域分析特性,把和時序相關(guān)的傅里葉分析的顯示圖分析特性,把和時序相關(guān)的傅里葉分析的顯示圖形稱為形稱為語譜圖語譜圖。l語譜圖在語譜圖在1941年由貝爾實驗室研究人員發(fā)明,它年由貝爾實驗室研究人員發(fā)明,它試圖用試圖用三維三維的方式顯示語音頻譜特性,的方式顯示語音頻譜特性, 縱軸表示縱軸表示頻率頻率,橫軸表示,橫軸表示時間時間,顏色的深淺表示,顏色的深淺表示特定頻帶特定頻帶的能量大小的能量大小,語譜圖的發(fā)明是語音研究的一個里

21、,語譜圖的發(fā)明是語音研究的一個里程碑,它將語音的許多特征直觀的呈現(xiàn)出來。程碑,它將語音的許多特征直觀的呈現(xiàn)出來。l語譜圖分為寬帶語譜圖和窄帶語譜圖兩種。語譜圖分為寬帶語譜圖和窄帶語譜圖兩種。l語音信號是一種短時平穩(wěn)信號,可以在每個時刻語音信號是一種短時平穩(wěn)信號,可以在每個時刻用其附近的短時段語音信號分析得到一種頻譜,用其附近的短時段語音信號分析得到一種頻譜,將語音信號連續(xù)的進(jìn)行這種頻譜分析,得到一種將語音信號連續(xù)的進(jìn)行這種頻譜分析,得到一種三維圖譜,橫坐標(biāo)表示時間,縱坐標(biāo)表示頻率,三維圖譜,橫坐標(biāo)表示時間,縱坐標(biāo)表示頻率,每個像素的灰度值大小反映相應(yīng)時刻和相應(yīng)頻率每個像素的灰度值大小反映相應(yīng)時

22、刻和相應(yīng)頻率信號的能量。這種時頻圖就是語譜圖。信號的能量。這種時頻圖就是語譜圖。l記錄語譜圖的儀器就是頻譜儀。記錄語譜圖的儀器就是頻譜儀。時間、頻率、幅值三維坐標(biāo),時間、頻率、幅值三維坐標(biāo), 頻譜幀隨時間變化頻譜幀隨時間變化語音信號的統(tǒng)計特性語音信號的統(tǒng)計特性l語音信號的統(tǒng)計特性可以用它的波形振幅概率密語音信號的統(tǒng)計特性可以用它的波形振幅概率密度函數(shù)和一些統(tǒng)計量(如均值和自相關(guān)函數(shù))來度函數(shù)和一些統(tǒng)計量(如均值和自相關(guān)函數(shù))來描述。描述。l表示語音信號的統(tǒng)計特性的概率密度的估算方法表示語音信號的統(tǒng)計特性的概率密度的估算方法是根據(jù)長時間范圍內(nèi)一段語音信號的大量取樣數(shù)是根據(jù)長時間范圍內(nèi)一段語音信號

23、的大量取樣數(shù)據(jù)的幅度絕對值計算出其幅度直方圖,然后,根據(jù)的幅度絕對值計算出其幅度直方圖,然后,根據(jù)統(tǒng)計的振幅直方圖,尋找近似的概率密度表達(dá)據(jù)統(tǒng)計的振幅直方圖,尋找近似的概率密度表達(dá)式。式。v語音產(chǎn)生模型起源于語音產(chǎn)生模型起源于30年代發(fā)明的聲碼器年代發(fā)明的聲碼器(Vocoder)。v基本思想是將激勵與系統(tǒng)相分離,使語音信號解基本思想是將激勵與系統(tǒng)相分離,使語音信號解體,分別進(jìn)行描述,而不是直接研究語音信號波體,分別進(jìn)行描述,而不是直接研究語音信號波形本身。形本身。v語音信號是一個非平穩(wěn)的隨機(jī)過程,但隨時間的語音信號是一個非平穩(wěn)的隨機(jī)過程,但隨時間的變化很緩慢,可做一些合理的假設(shè),將語音信號變化

24、很緩慢,可做一些合理的假設(shè),將語音信號分成短段處理,在這些短段中可視為平穩(wěn)隨機(jī)過分成短段處理,在這些短段中可視為平穩(wěn)隨機(jī)過程,采用線性不時變模型。程,采用線性不時變模型。4.2.3 語音信號生成的數(shù)學(xué)模型語音信號生成的數(shù)學(xué)模型l建立數(shù)學(xué)模型:尋求一種可以表達(dá)一定物理狀態(tài)建立數(shù)學(xué)模型:尋求一種可以表達(dá)一定物理狀態(tài)下量與量之間關(guān)系的數(shù)學(xué)表示。下量與量之間關(guān)系的數(shù)學(xué)表示。l語音生成系統(tǒng):語音生成系統(tǒng):在聲門以下,負(fù)責(zé)產(chǎn)生激勵振動在聲門以下,負(fù)責(zé)產(chǎn)生激勵振動激勵系統(tǒng)激勵系統(tǒng)從聲門到嘴唇的呼吸通道是聲道從聲門到嘴唇的呼吸通道是聲道聲道系統(tǒng)聲道系統(tǒng)語音從嘴唇輻射出去,嘴唇以外語音從嘴唇輻射出去,嘴唇以外輻

25、射系統(tǒng)輻射系統(tǒng)l 語音信號的分析,就是找出語音產(chǎn)生模型的各種語音信號的分析,就是找出語音產(chǎn)生模型的各種參數(shù)(語音的特征參數(shù)),應(yīng)用于語音的編碼、參數(shù)(語音的特征參數(shù)),應(yīng)用于語音的編碼、識別和合成等。識別和合成等。4.2.4 4.2.4 語音信號的數(shù)字化和預(yù)處理語音信號的數(shù)字化和預(yù)處理 1、預(yù)濾波:、預(yù)濾波:目的:目的:l抑制輸入信號中頻率超出采樣頻率抑制輸入信號中頻率超出采樣頻率fs/2的所有分的所有分量,防止混疊干擾;量,防止混疊干擾;l抑制抑制50Hz的電源工頻干擾。的電源工頻干擾。預(yù)濾波器是一個預(yù)濾波器是一個帶通濾波器帶通濾波器,設(shè)其上、下截止頻率為:,設(shè)其上、下截止頻率為: fH=3

26、400Hz, fL=60100Hz。 2、采樣:、采樣:l 將時間連續(xù)信號變成時間離散信號。將時間連續(xù)信號變成時間離散信號。l 采樣頻率通常為采樣頻率通常為fs8kHz。tnxa(nT)xa(t)lIdeal sampling and real sampling奈奎斯特采樣定理:奈奎斯特采樣定理: 設(shè)連續(xù)信號設(shè)連續(xù)信號X(t)的最高頻率分量為的最高頻率分量為Fm,以等間隔以等間隔Ts(Ts稱采樣間隔,稱采樣間隔,fs=1/Ts稱為稱為采樣頻率采樣頻率)對)對X(t)進(jìn)行采進(jìn)行采樣,得到樣,得到Xs(t)。如果如果Fs=2Fm,則,則Xs(t)保留了保留了X(t )的全部信息(從的全部信息(從X

27、s(t)可以不失真地恢復(fù)出可以不失真地恢復(fù)出X(t))。)。 只要采樣頻率高于信號中最高頻率的只要采樣頻率高于信號中最高頻率的2倍,就可倍,就可以從采樣中完全恢復(fù)原始信號的波形。以從采樣中完全恢復(fù)原始信號的波形。音頻量化:音頻量化:將經(jīng)采樣后將經(jīng)采樣后幅度幅度上無限多個連續(xù)的樣值上無限多個連續(xù)的樣值變?yōu)橛邢迋€離散值的過程。變?yōu)橛邢迋€離散值的過程。3. A/D轉(zhuǎn)換(量化)轉(zhuǎn)換(量化)量化過程:量化過程:先將整個幅度劃分成為有限個幅度(量化階距)先將整個幅度劃分成為有限個幅度(量化階距)的集合,把落入某個階距內(nèi)的樣值歸為一類,并賦予相同的的集合,把落入某個階距內(nèi)的樣值歸為一類,并賦予相同的量化值。

28、量化值。量化等級的劃分量化等級的劃分量化級越多,量化誤差越小。每個采樣點占用的量化級越多,量化誤差越小。每個采樣點占用的BitBit就會越多,在語音信號處理中常用的有就會越多,在語音信號處理中常用的有16bit16bit、8bit8bit等量化。等量化。采樣采樣量化量化x xa a(t(t) )x xa a(nT(nT) )x(nx(n) )x xa1a1x x1 1x xk kx xakakx xak+1ak+1x xk+1k+1x xL Lx xaLaLx xaL+1aL+1x(nx(n)=)=QxQxa a(nT(nT) 量化后的信號值與原信號值之間的差值稱為量化后的信號值與原信號值之間

29、的差值稱為量化誤差量化誤差( (噪聲噪聲) ) e(ne(n) )= =x(nx(n) )- - x xa a(nT(nT) ) - - /2 /2 e(ne(n) ) /2/22 m=00 其他其他(1 1)假設(shè)量化噪聲是平穩(wěn)的白噪聲過程,有)假設(shè)量化噪聲是平穩(wěn)的白噪聲過程,有 Ee(n)e(n+m)=Ee(n)e(n+m)=(2 2)假設(shè)量化噪聲與輸入信號不相關(guān),有假設(shè)量化噪聲與輸入信號不相關(guān),有 Ee(n)e(n+mEe(n)e(n+m)=0 m)=0 m為任意值為任意值(3 3)在每個量化間隔上,量化噪聲均勻分布,有)在每個量化間隔上,量化噪聲均勻分布,有 P Pe e(e(n(e(n

30、)=)=1 |e(n)| 1 |e(n)| /2/2 0 其他其他量化信噪比量化信噪比 量化噪聲的信噪比:量化噪聲的信噪比:SNR=SNR= x x2 2/ / e e2 2 x x2 2語音信號序列的方差,語音信號序列的方差, e e2 2噪聲序列的方差噪聲序列的方差 用分貝表示,用分貝表示,SNR=10SNR=10lglg( ( x x2 2/ / e e2 2)=6.02B+4.77=6.02B+4.77 2020lglg(X(Xmaxmax/ / x x)=6.02B)=6.02B7.277.27 X Xmaxmax表示信號的峰值,表示信號的峰值,B B表示量化的比特數(shù)。表示量化的比特

31、數(shù)。量化器每增加一個比特,量化器每增加一個比特,SNRSNR提高約提高約6dB6dB。當(dāng)。當(dāng)B=7, SNR=35dBB=7, SNR=35dB,滿足一般通信系統(tǒng)的要求。滿足一般通信系統(tǒng)的要求。當(dāng)量化噪聲的信噪比達(dá)到當(dāng)量化噪聲的信噪比達(dá)到 606070dB70dB,才能保障有高水平通,才能保障有高水平通話質(zhì)量,這時要求量化為話質(zhì)量,這時要求量化為 111113bits13bits。一般的音頻。一般的音頻A/DA/D、D/AD/A轉(zhuǎn)換芯片,量化為轉(zhuǎn)換芯片,量化為12bits12bits。存儲方式存儲方式 已數(shù)字化好的語音信號序列按先入已數(shù)字化好的語音信號序列按先入先出的順序存入數(shù)據(jù)區(qū)。以便用一個

32、有先出的順序存入數(shù)據(jù)區(qū)。以便用一個有限容量的數(shù)據(jù)區(qū)來應(yīng)付數(shù)量極大的語音限容量的數(shù)據(jù)區(qū)來應(yīng)付數(shù)量極大的語音數(shù)據(jù)數(shù)據(jù)。已處理完并已提取出了語音特征。已處理完并已提取出了語音特征參數(shù)的一個時間段的語音數(shù)據(jù)可以依次參數(shù)的一個時間段的語音數(shù)據(jù)可以依次拋棄,以讓存儲空間來存儲新數(shù)據(jù)。拋棄,以讓存儲空間來存儲新數(shù)據(jù)。4、預(yù)處理、預(yù)處理預(yù)加重預(yù)加重 在求語音信號頻譜時,頻率越高相應(yīng)的成分越小,在求語音信號頻譜時,頻率越高相應(yīng)的成分越小,高頻部分的頻譜比低頻部分難求。預(yù)加重的目的是提高頻部分的頻譜比低頻部分難求。預(yù)加重的目的是提升高頻部分,使信號的頻譜變得平坦,保持在低頻到升高頻部分,使信號的頻譜變得平坦,保持

33、在低頻到高頻的整個頻帶中,能用同樣的信噪比求頻譜,以便高頻的整個頻帶中,能用同樣的信噪比求頻譜,以便于頻譜分析和聲道參數(shù)分析。于頻譜分析和聲道參數(shù)分析。 預(yù)加重是在語音信號數(shù)字化后,通過一階數(shù)字濾預(yù)加重是在語音信號數(shù)字化后,通過一階數(shù)字濾波器實現(xiàn)。波器實現(xiàn)。H(zH(z)=1-)=1- z z-1-1, , 接近接近1 1。x(nx(n) )x x (n(n) )H(zH(z)=1-)=1- z z-1-1l由于語音信號的準(zhǔn)平穩(wěn)特性,可以將平穩(wěn)過程的處理方法和由于語音信號的準(zhǔn)平穩(wěn)特性,可以將平穩(wěn)過程的處理方法和理論引入到語音信號的短時處理中,將語音信號劃分為很多理論引入到語音信號的短時處理中,

34、將語音信號劃分為很多短時的語音段,每個短時的語音段稱為一個分析幀。短時的語音段,每個短時的語音段稱為一個分析幀。l這樣對一幀語音信號進(jìn)行處理就相當(dāng)于對特征固定的持續(xù)信這樣對一幀語音信號進(jìn)行處理就相當(dāng)于對特征固定的持續(xù)信號進(jìn)行處理。在處理時,按幀取數(shù)據(jù),處理完后再取下一幀號進(jìn)行處理。在處理時,按幀取數(shù)據(jù),處理完后再取下一幀。前一幀和后一幀的交疊部分稱為幀移。幀移與幀長的比值。前一幀和后一幀的交疊部分稱為幀移。幀移與幀長的比值一般取為一般取為01/201/2。l好處:在語音短時平穩(wěn)允許的時間間隔內(nèi),增加可處理的幀好處:在語音短時平穩(wěn)允許的時間間隔內(nèi),增加可處理的幀數(shù),可減少語音分幀處理造成的不連續(xù)

35、性。數(shù),可減少語音分幀處理造成的不連續(xù)性。l分幀是用可移動的有限長度窗口進(jìn)行加權(quán)的方法實現(xiàn)的,就分幀是用可移動的有限長度窗口進(jìn)行加權(quán)的方法實現(xiàn)的,就是用一定的窗函數(shù)是用一定的窗函數(shù)w(nw(n) )來乘來乘s(ns(n) ),從而形成加窗語音信號。,從而形成加窗語音信號。窗函數(shù)窗函數(shù)w(nw(n) )的選擇(形狀和長度),對短時分析參數(shù)的影響的選擇(形狀和長度),對短時分析參數(shù)的影響很大,為此應(yīng)選擇合適的窗,使其短時參數(shù)更好地反映語音很大,為此應(yīng)選擇合適的窗,使其短時參數(shù)更好地反映語音信號的變化特性。一般在語音識別的前端處理中,都選用漢信號的變化特性。一般在語音識別的前端處理中,都選用漢明窗來

36、進(jìn)行語音分幀處理。明窗來進(jìn)行語音分幀處理。 加窗分幀處理加窗分幀處理 第第n n幀幀第第n+1n+1幀幀第第n+2n+2幀幀t第n幀第n+1幀第n+2幀第n+3幀 第n+4幀 幀長幀長N N幀移幀移T T約為約為33-100幀幀/s,常采用交疊分段方法進(jìn)行分幀處理,以,常采用交疊分段方法進(jìn)行分幀處理,以保持幀與幀之間平滑過渡,保持連續(xù)性。保持幀與幀之間平滑過渡,保持連續(xù)性。幀移幀移T=0101( )0010.540.46cos(2)( )10nNw notherwisennNw nNotherwise海明窗海明窗 hamming矩形窗矩形窗(rectangular) 經(jīng)過處理,語音信號被分割成

37、一幀一幀的加過窗函數(shù)的短經(jīng)過處理,語音信號被分割成一幀一幀的加過窗函數(shù)的短時信號,然后再把每一個短時語音幀看成平穩(wěn)的隨機(jī)信號,利時信號,然后再把每一個短時語音幀看成平穩(wěn)的隨機(jī)信號,利用數(shù)字信號處理技術(shù)來提取語音特征參數(shù)。在進(jìn)行處理時,按用數(shù)字信號處理技術(shù)來提取語音特征參數(shù)。在進(jìn)行處理時,按幀從數(shù)據(jù)區(qū)中取出數(shù)據(jù),處理完后再取下一幀。最后得到由每幀從數(shù)據(jù)區(qū)中取出數(shù)據(jù),處理完后再取下一幀。最后得到由每一幀參數(shù)組成的語音特征參數(shù)的時間序列。一幀參數(shù)組成的語音特征參數(shù)的時間序列。 語音信號的數(shù)字化語音信號的數(shù)字化4.3 語音合成語音合成l定義:由人工生成聲音的方法稱為語音合成,這樣生定義:由人工生成聲音

38、的方法稱為語音合成,這樣生成的語音稱為合成語音。成的語音稱為合成語音。l目的:制造一種會說話的機(jī)器,使一些以其他方式表目的:制造一種會說話的機(jī)器,使一些以其他方式表示或存儲的信息能轉(zhuǎn)換為語音,讓人們能通過聽覺而示或存儲的信息能轉(zhuǎn)換為語音,讓人們能通過聽覺而方便地獲得這些信息。方便地獲得這些信息。l最早的合成器是最早的合成器是1835年由年由W.von Kempelen發(fā)明,發(fā)明,經(jīng)經(jīng)Weston改進(jìn)的機(jī)械式會講話的機(jī)器。而最早的電改進(jìn)的機(jī)械式會講話的機(jī)器。而最早的電子式語音合成器也是子式語音合成器也是1939年年Homer Dudley發(fā)明的聲發(fā)明的聲碼器,它不是簡單的模擬人的生理過程,而是通

39、過電碼器,它不是簡單的模擬人的生理過程,而是通過電子線路來實現(xiàn)基于語音產(chǎn)生的源子線路來實現(xiàn)基于語音產(chǎn)生的源濾波器理論。濾波器理論。l 在語音合成技術(shù)發(fā)展中,早期研究主要是采用在語音合成技術(shù)發(fā)展中,早期研究主要是采用參數(shù)參數(shù)合成合成方法。方法。l1990年提出的年提出的基音同步疊加基音同步疊加PSOLA方法,使基于時方法,使基于時域波形拼接方法合成的語音音色和自然度大大提高域波形拼接方法合成的語音音色和自然度大大提高。 l我國的漢語語音合成研究從我國的漢語語音合成研究從80年代初就基本上與國年代初就基本上與國際研究同步發(fā)展。大致也經(jīng)歷了際研究同步發(fā)展。大致也經(jīng)歷了共振峰合成共振峰合成、線性線性預(yù)

40、測編碼(預(yù)測編碼(LPC)合成)合成到應(yīng)用到應(yīng)用PSOLA技術(shù)的過程。技術(shù)的過程。l關(guān)鍵性能:正確、自然關(guān)鍵性能:正確、自然l用途:用途:車站內(nèi)的廣播公告系統(tǒng)車站內(nèi)的廣播公告系統(tǒng)交通信息或電話號碼查詢等公共服務(wù)交通信息或電話號碼查詢等公共服務(wù)機(jī)器朗讀機(jī)器朗讀語音報警器語音報警器自動報時自動報時l分類:分類:語音響應(yīng)系統(tǒng):在計算機(jī)內(nèi)建立一個語音庫,將可能用語音響應(yīng)系統(tǒng):在計算機(jī)內(nèi)建立一個語音庫,將可能用到的單字、詞組或一些句子的聲音信號編碼后存入計算到的單字、詞組或一些句子的聲音信號編碼后存入計算機(jī),當(dāng)鍵入所要的字、詞組或句子代碼時,就能調(diào)出對機(jī),當(dāng)鍵入所要的字、詞組或句子代碼時,就能調(diào)出對應(yīng)的

41、數(shù)碼信號,并轉(zhuǎn)換成聲音。應(yīng)的數(shù)碼信號,并轉(zhuǎn)換成聲音。按規(guī)則的文字按規(guī)則的文字語音合成系統(tǒng):模擬人類發(fā)聲器官的動語音合成系統(tǒng):模擬人類發(fā)聲器官的動作和發(fā)聲過程,實時地產(chǎn)生所需的語音。有一存儲基本作和發(fā)聲過程,實時地產(chǎn)生所需的語音。有一存儲基本語音單元語音單元的音庫;當(dāng)用各種方式輸入文字信息時,計算的音庫;當(dāng)用各種方式輸入文字信息時,計算機(jī)能將文字內(nèi)容按照語言機(jī)能將文字內(nèi)容按照語言規(guī)則規(guī)則,轉(zhuǎn)換成由基本音元組成,轉(zhuǎn)換成由基本音元組成的序列;按說話時音元連接的規(guī)則控制音元序列,輸出的序列;按說話時音元連接的規(guī)則控制音元序列,輸出連續(xù)自然的聲音。連續(xù)自然的聲音。4.3.1 語音合成的三個層次語音合成的

42、三個層次語語義義表表示示語語言言編編碼碼發(fā)發(fā)聲聲編編碼碼語語音音產(chǎn)產(chǎn)生生合合成成語語音音控控制制信信號號文文本本概概念念意意向向l按規(guī)則從文本到語音的合成按規(guī)則從文本到語音的合成;(目前)(目前)l按規(guī)則從概念到語音的合成按規(guī)則從概念到語音的合成;l按規(guī)則從意向到語音的合成。按規(guī)則從意向到語音的合成。語音合成的過程語音合成的過程l分析分析存儲存儲合成合成l選擇合適的基元,將基元用一定的參數(shù)編碼方選擇合適的基元,將基元用一定的參數(shù)編碼方式或波形方式進(jìn)行存儲,形成一個語音庫。式或波形方式進(jìn)行存儲,形成一個語音庫。l合成時,根據(jù)待合成的語音信息,從語音庫中合成時,根據(jù)待合成的語音信息,從語音庫中取出

43、相應(yīng)的基元進(jìn)行拼接,并將其還原成語音取出相應(yīng)的基元進(jìn)行拼接,并將其還原成語音信號。信號。l基元:語音合成系統(tǒng)所處理的最小的語音學(xué)基基元:語音合成系統(tǒng)所處理的最小的語音學(xué)基本單元。本單元。l語音庫:所有基元的集合。語音庫:所有基元的集合。4.3.2 語音合成的方法語音合成的方法l波形合成法波形合成法:把人發(fā)音的波形直接存儲或者進(jìn)行波:把人發(fā)音的波形直接存儲或者進(jìn)行波形編碼后存儲,組成一個合成語音庫;合成時,根形編碼后存儲,組成一個合成語音庫;合成時,根據(jù)待合成的信息,在語音庫中取出相應(yīng)單元的波形據(jù)待合成的信息,在語音庫中取出相應(yīng)單元的波形數(shù)據(jù),拼接或編輯到一起,經(jīng)過編碼還原成語音。數(shù)據(jù),拼接或編

44、輯到一起,經(jīng)過編碼還原成語音。(語音的存儲和回放)(語音的存儲和回放)l特點:所需的存儲容量太大,詞匯量不能很大;相特點:所需的存儲容量太大,詞匯量不能很大;相對簡單,通常只能合成有限詞匯的語音段。目前用對簡單,通常只能合成有限詞匯的語音段。目前用于自動報時、報站和報警等。于自動報時、報站和報警等。l另一種波形合成法是波形編輯合成,它把波形編另一種波形合成法是波形編輯合成,它把波形編輯技術(shù)用于語音合成,通過選取音庫中采取自然輯技術(shù)用于語音合成,通過選取音庫中采取自然語言的合成單元的波形,對這些波形進(jìn)行編輯拼語言的合成單元的波形,對這些波形進(jìn)行編輯拼接后輸出。它采用語音編碼技術(shù),存儲適當(dāng)?shù)恼Z接后

45、輸出。它采用語音編碼技術(shù),存儲適當(dāng)?shù)恼Z音基元,合成時,經(jīng)解碼、波形編輯拼接、平滑音基元,合成時,經(jīng)解碼、波形編輯拼接、平滑處理等輸出所需的短語、語句或段落。處理等輸出所需的短語、語句或段落。l參數(shù)合成法參數(shù)合成法:采用聲碼器技術(shù),對語音信號進(jìn)行分:采用聲碼器技術(shù),對語音信號進(jìn)行分析,用有限個參數(shù)表示語音信號,以壓縮存儲量。析,用有限個參數(shù)表示語音信號,以壓縮存儲量。l參數(shù)合成法有:參數(shù)合成法有:發(fā)音器官參數(shù)合成和聲道模型參數(shù)發(fā)音器官參數(shù)合成和聲道模型參數(shù)合成合成。l發(fā)音器官參數(shù)合成法:發(fā)音器官參數(shù)合成法:是對人的發(fā)音過程直接進(jìn)行是對人的發(fā)音過程直接進(jìn)行模擬。它定義了唇、舌、聲帶的相關(guān)參數(shù),如唇

46、開模擬。它定義了唇、舌、聲帶的相關(guān)參數(shù),如唇開口度、舌高度、舌位置、聲帶張力等,由發(fā)音參數(shù)口度、舌高度、舌位置、聲帶張力等,由發(fā)音參數(shù)估計聲道截面積函數(shù),進(jìn)而計算聲波。估計聲道截面積函數(shù),進(jìn)而計算聲波。l缺點:合成語音的質(zhì)量不理想。缺點:合成語音的質(zhì)量不理想。l聲道模型聲道模型參數(shù)語音合成參數(shù)語音合成是基于聲道截面積函數(shù)或聲是基于聲道截面積函數(shù)或聲道諧振特性合成語音的。道諧振特性合成語音的。l建立聲學(xué)模型的過程為:首先錄制聲音,這些聲音建立聲學(xué)模型的過程為:首先錄制聲音,這些聲音涵蓋了人發(fā)音過程中所有可能出現(xiàn)的讀音;提取出涵蓋了人發(fā)音過程中所有可能出現(xiàn)的讀音;提取出這些聲音的聲學(xué)參數(shù),并整合成

47、一個完整的音庫。這些聲音的聲學(xué)參數(shù),并整合成一個完整的音庫。在發(fā)音過程中,首先根據(jù)需要發(fā)的音,從音庫中選在發(fā)音過程中,首先根據(jù)需要發(fā)的音,從音庫中選擇合適的聲學(xué)參數(shù),然后根據(jù)韻律模型中得到的韻擇合適的聲學(xué)參數(shù),然后根據(jù)韻律模型中得到的韻律參數(shù),通過律參數(shù),通過語音合成語音合成算法產(chǎn)生算法產(chǎn)生語音語音。l參數(shù)合成方法的參數(shù)合成方法的優(yōu)點優(yōu)點:音庫一般較小,并且整個系:音庫一般較小,并且整個系統(tǒng)能適應(yīng)的韻律特征的范圍較寬,這類合成器比特統(tǒng)能適應(yīng)的韻律特征的范圍較寬,這類合成器比特率低,音質(zhì)適中。率低,音質(zhì)適中。l缺點缺點:算法復(fù)雜、參數(shù)多,在壓縮比較大時,信息:算法復(fù)雜、參數(shù)多,在壓縮比較大時,信

48、息丟失亦大,合成出的語音總是不夠自然、清晰。丟失亦大,合成出的語音總是不夠自然、清晰。l為了改善音質(zhì),近幾年發(fā)展了混合編碼技術(shù),以改為了改善音質(zhì),近幾年發(fā)展了混合編碼技術(shù),以改善激勵信號的質(zhì)量。善激勵信號的質(zhì)量。l規(guī)則合成法規(guī)則合成法:一種高級的合成方法,通過語音學(xué):一種高級的合成方法,通過語音學(xué)規(guī)則產(chǎn)生語音,可以合成無限詞匯的語句。合成規(guī)則產(chǎn)生語音,可以合成無限詞匯的語句。合成的詞匯表不是事先確定,系統(tǒng)中存儲的是最小的的詞匯表不是事先確定,系統(tǒng)中存儲的是最小的語音單位的聲學(xué)參數(shù),以及由音素組成音節(jié)、由語音單位的聲學(xué)參數(shù),以及由音素組成音節(jié)、由音節(jié)組成詞、由詞組成句子和控制音調(diào)、輕重音音節(jié)組成

49、詞、由詞組成句子和控制音調(diào)、輕重音等韻律的各種規(guī)則。等韻律的各種規(guī)則。l算法中,用于波形拼接和韻律控制的較有代表性算法中,用于波形拼接和韻律控制的較有代表性的算法是的算法是基音同步疊加基音同步疊加PSOLA技術(shù)技術(shù)。l基音同步疊加基音同步疊加PSOLA技術(shù)技術(shù)主要特點:主要特點: 在語音波形片在語音波形片斷拼接之前,首先根據(jù)語義,用斷拼接之前,首先根據(jù)語義,用PSOLA算法對拼接單元的韻律特征進(jìn)行調(diào)整,使算法對拼接單元的韻律特征進(jìn)行調(diào)整,使合成波形既保持了原始語音基元的主要音段特征,合成波形既保持了原始語音基元的主要音段特征,又使拼接單元的韻律特征符合語義,從而獲得很高又使拼接單元的韻律特征符

50、合語義,從而獲得很高的可懂度和自然度。的可懂度和自然度。波形合成法波形合成法參數(shù)合成法參數(shù)合成法規(guī)則合成法規(guī)則合成法基本信息基本信息波形波形特征參數(shù)特征參數(shù)語言的符號組合語言的符號組合語音語音質(zhì)量質(zhì)量可懂度可懂度高高高高中中自然度自然度高高中中低低詞匯量詞匯量?。ㄐ。?00字以下)字以下)大(數(shù)千字)大(數(shù)千字)無限無限合成方式合成方式PCM、ADPCM、APCLPC、LSP、共振、共振峰峰LPC、LSP、共振、共振峰峰數(shù)碼率數(shù)碼率9.6-64kbit/s2.4-9.6kbit/s50-75bit/s1Mbit可合成的可合成的語音長度語音長度15-100s100s-7分鐘分鐘無限無限合成單元合

51、成單元音節(jié)、詞組、句子音節(jié)、詞組、句子音節(jié)、詞組、句子音節(jié)、詞組、句子因素、音節(jié)因素、音節(jié)裝置裝置簡單簡單比較復(fù)雜比較復(fù)雜復(fù)雜復(fù)雜l目前的語音合成方法實質(zhì)上并未解決機(jī)器說話的目前的語音合成方法實質(zhì)上并未解決機(jī)器說話的問題,本質(zhì)上只是一個聲音還原的過程。問題,本質(zhì)上只是一個聲音還原的過程。4.3.3 文語轉(zhuǎn)換系統(tǒng)文語轉(zhuǎn)換系統(tǒng)l在文語轉(zhuǎn)換系統(tǒng)中,必須事先對文本進(jìn)行分析,根據(jù)在文語轉(zhuǎn)換系統(tǒng)中,必須事先對文本進(jìn)行分析,根據(jù)上下文的關(guān)系來確定每個字發(fā)音的聲調(diào)應(yīng)如何變化,上下文的關(guān)系來確定每個字發(fā)音的聲調(diào)應(yīng)如何變化,然后用這些聲調(diào)變化參數(shù)去控制語音的合成。然后用這些聲調(diào)變化參數(shù)去控制語音的合成。l文本分析

52、、韻律控制和語音合成這三個模塊是文語轉(zhuǎn)文本分析、韻律控制和語音合成這三個模塊是文語轉(zhuǎn)換系統(tǒng)的三個核心部分。換系統(tǒng)的三個核心部分。TTSTTS系統(tǒng)基本框圖系統(tǒng)基本框圖1.1.文本分析文本分析工作過程包括:工作過程包括: 將輸入的文本規(guī)范化,并處理用戶可能的拼寫錯誤,將輸入的文本規(guī)范化,并處理用戶可能的拼寫錯誤,將出現(xiàn)的不規(guī)范或無法發(fā)音的字符過濾掉;將出現(xiàn)的不規(guī)范或無法發(fā)音的字符過濾掉; 分析文本中的詞或短語的邊界,確定文字的讀音,同分析文本中的詞或短語的邊界,確定文字的讀音,同時分析文本中出現(xiàn)的數(shù)字、姓氏、特殊字符以及各時分析文本中出現(xiàn)的數(shù)字、姓氏、特殊字符以及各種多音字的讀音方式;種多音字的讀

53、音方式; 確定發(fā)音時語氣的變換及不同音的輕重方式。最終,確定發(fā)音時語氣的變換及不同音的輕重方式。最終,將輸入的文字轉(zhuǎn)換成計算機(jī)能夠處理的內(nèi)部參數(shù),將輸入的文字轉(zhuǎn)換成計算機(jī)能夠處理的內(nèi)部參數(shù),便于后續(xù)模塊進(jìn)一步處理并生成相應(yīng)的信息。便于后續(xù)模塊進(jìn)一步處理并生成相應(yīng)的信息。 2.2.韻律控制韻律控制 韻律參數(shù)包括了能影響韻律特征的聲學(xué)參數(shù),韻律參數(shù)包括了能影響韻律特征的聲學(xué)參數(shù),如:基頻、音長、音強(qiáng)等。最終系統(tǒng)能夠用來進(jìn)行如:基頻、音長、音強(qiáng)等。最終系統(tǒng)能夠用來進(jìn)行語音信號合成的具體韻律參數(shù),還要靠韻律控制模語音信號合成的具體韻律參數(shù),還要靠韻律控制模塊。塊。3.3.語音合成語音合成 文語轉(zhuǎn)換系統(tǒng)

54、的合成語音模塊一般采用波形拼文語轉(zhuǎn)換系統(tǒng)的合成語音模塊一般采用波形拼接來合成語音的方法,其中最具代表性的是基音同接來合成語音的方法,其中最具代表性的是基音同步疊加法步疊加法PSOLAPSOLA。4.3.4 語音合成的研究現(xiàn)狀語音合成的研究現(xiàn)狀l人們對人類語言產(chǎn)生過程的了解仍停留在聲道系人們對人類語言產(chǎn)生過程的了解仍停留在聲道系統(tǒng)上,對大腦的神經(jīng)活動知道得很少,使得語音統(tǒng)上,對大腦的神經(jīng)活動知道得很少,使得語音合成的研究,在相當(dāng)一段長的時期內(nèi)只能停留在合成的研究,在相當(dāng)一段長的時期內(nèi)只能停留在低級階段,只能進(jìn)行按規(guī)則的從文本到語音的合低級階段,只能進(jìn)行按規(guī)則的從文本到語音的合成研究。更高層次的研

55、究還有待于通信專家、計成研究。更高層次的研究還有待于通信專家、計算機(jī)專家和生物學(xué)家、語言學(xué)家、人工智能專家算機(jī)專家和生物學(xué)家、語言學(xué)家、人工智能專家的共同努力。的共同努力。l研究方向:高質(zhì)量、高清晰度的自然語音合成、研究方向:高質(zhì)量、高清晰度的自然語音合成、表達(dá)人類的情感語音、降低語音合成技術(shù)的復(fù)雜表達(dá)人類的情感語音、降低語音合成技術(shù)的復(fù)雜度、多語種文語合成。度、多語種文語合成。4.4 語音識別語音識別l語音識別是機(jī)器通過識別和理解過程把人類的語音語音識別是機(jī)器通過識別和理解過程把人類的語音信號轉(zhuǎn)變?yōu)橄鄳?yīng)的文本或命令的技術(shù)。信號轉(zhuǎn)變?yōu)橄鄳?yīng)的文本或命令的技術(shù)。l根本目的:研究出一種具有聽覺功能的

56、機(jī)器,這種根本目的:研究出一種具有聽覺功能的機(jī)器,這種機(jī)器能直接接受人的語音,理解人的意圖,并作出機(jī)器能直接接受人的語音,理解人的意圖,并作出相應(yīng)反應(yīng)。相應(yīng)反應(yīng)。l語音識別技術(shù)是一項集聲學(xué)、語音學(xué)、計算機(jī)、信語音識別技術(shù)是一項集聲學(xué)、語音學(xué)、計算機(jī)、信息處理、人工智能等于一身的綜合技術(shù)。息處理、人工智能等于一身的綜合技術(shù)。語音識別的發(fā)展過程語音識別的發(fā)展過程l應(yīng)用:應(yīng)用:l聲控應(yīng)用聲控應(yīng)用聲控語音撥號系統(tǒng)、聲控智能玩具、家庭聲控語音撥號系統(tǒng)、聲控智能玩具、家庭服務(wù)、醫(yī)療服務(wù)、銀行服務(wù)、股票查詢服務(wù)。服務(wù)、醫(yī)療服務(wù)、銀行服務(wù)、股票查詢服務(wù)。l將文字以口述方式輸入到計算機(jī)將文字以口述方式輸入到計算

57、機(jī)聲控打字機(jī)。聲控打字機(jī)。l自動口語翻譯:將口語識別技術(shù)、機(jī)器翻譯技術(shù)、語音自動口語翻譯:將口語識別技術(shù)、機(jī)器翻譯技術(shù)、語音合成技術(shù)等相結(jié)合,將一種語言輸入的語音翻譯為另一合成技術(shù)等相結(jié)合,將一種語言輸入的語音翻譯為另一種語言的語音輸出,實現(xiàn)跨語言的交流。種語言的語音輸出,實現(xiàn)跨語言的交流。l人機(jī)交互人機(jī)交互l說話人識別說話人識別l數(shù)據(jù)庫檢索數(shù)據(jù)庫檢索l特定的環(huán)境所需的語音命令特定的環(huán)境所需的語音命令例如:例如:直接說出聯(lián)系人姓名后對其呼叫;直接說出聯(lián)系人姓名后對其呼叫;口語輸入短信后發(fā)送;口語輸入短信后發(fā)送;直接說出地名后直接說出地名后Google Earth進(jìn)行定位;進(jìn)行定位;語音瀏覽網(wǎng)頁

58、;語音瀏覽網(wǎng)頁;語音選擇歌曲等。語音選擇歌曲等。最新的語音識別研究不僅僅限于單純的語音信號的分析,最新的語音識別研究不僅僅限于單純的語音信號的分析,而是結(jié)合而是結(jié)合面部識別面部識別來更加精確地分析用戶所傳遞的信息(來更加精確地分析用戶所傳遞的信息(Audio Visual Speech Technologies)。)。代表機(jī)構(gòu):代表機(jī)構(gòu):IBM以及雅典的以及雅典的National Technical University 等。等。4.4.1 語音識別的困難語音識別的困難4.4.2 語音識別的分類語音識別的分類l出發(fā)點不同:出發(fā)點不同:l說話人識別說話人識別l語音識別語音識別l按詞匯量大小分:按

59、詞匯量大小分:小詞匯量(小詞匯量(100以下)以下)、中詞匯、中詞匯量(量(1001000)、)、大詞匯量(大詞匯量(1000以上)以上)。l按發(fā)音方式分:按發(fā)音方式分:孤立詞識別孤立詞識別、連接詞識別、連接詞識別、連續(xù)語連續(xù)語音識別音識別、關(guān)鍵詞檢出。、關(guān)鍵詞檢出。l按說話人分:按說話人分:特定說話人特定說話人、非特定說話人非特定說話人。l按語音識別的方法分:模板匹配法、隨機(jī)模型法、按語音識別的方法分:模板匹配法、隨機(jī)模型法、概率語法分析法。概率語法分析法。4.4.3 語音識別原理語音識別原理l模式識別:將一個輸入模式與保存在系統(tǒng)中的多個模式識別:將一個輸入模式與保存在系統(tǒng)中的多個標(biāo)準(zhǔn)模式相

60、比較,找出最近似的標(biāo)準(zhǔn)模式,將該標(biāo)標(biāo)準(zhǔn)模式相比較,找出最近似的標(biāo)準(zhǔn)模式,將該標(biāo)準(zhǔn)模式所代表的類名作為輸入模式的類名輸出。準(zhǔn)模式所代表的類名作為輸入模式的類名輸出。l識別方法的級別:識別方法的級別:識別最低限度的單詞識別最低限度的單詞每個音節(jié)對文章識別的能力每個音節(jié)對文章識別的能力識別任何聲音識別任何聲音對連續(xù)聲音的識別對連續(xù)聲音的識別4.4.4 語音識別的步驟:語音識別的步驟:原理:原理:學(xué)習(xí):根據(jù)識別系統(tǒng)的類型選擇能夠滿足要求的一種識別學(xué)習(xí):根據(jù)識別系統(tǒng)的類型選擇能夠滿足要求的一種識別方法,采用語音分析方法分析出這種識別方法所要求的語方法,采用語音分析方法分析出這種識別方法所要求的語音特征參

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論