面向情感的語音合成系統(tǒng)_第1頁
面向情感的語音合成系統(tǒng)_第2頁
面向情感的語音合成系統(tǒng)_第3頁
面向情感的語音合成系統(tǒng)_第4頁
面向情感的語音合成系統(tǒng)_第5頁
已閱讀5頁,還剩5頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

1、面向情感的語音合成系統(tǒng)陶建華(1 許曉穎(1(2(1中國科學院自動化研究所模式識別國家重點實驗室北京 100080(2北京師范大學文學院北京 100068摘要情感語音合成是近幾年語音合成的研究熱點,現(xiàn)有的研究多以語音的韻律和聲學特征為指導因素。在情感語音合成的研究中,必須解決如下三個核心問題:(1如何確定情感狀態(tài)和情感語音的聲學特征參數?(2如何建立情感狀態(tài)與語音的聲學特征的關聯(lián)關系,建立情感聲學參數的綜合控制模型?(3如何結合文本分析和場景因素建立情感的預測機制?本文將圍繞著這三個問題進行深入的探討,在實驗分析的基礎上,對情感語音合成中需要處理的情感特征,以及情感特征與語音特征的相互關系問題

2、進行分析,并針對這些關聯(lián)關系提出了情感聲學模型和情感韻律建模的思路,初步實現(xiàn)了一個情感語音合成系統(tǒng)的原型。關鍵字情感語音合成、情感分析、影響情感因素、情感焦點、情感關鍵詞1 引 言語音是人類交際的最重要的工具之一。人類的說話中不僅包含了文字符號信息,而且還包含了人們的感情和情緒的變化。例如,同樣一句話,往往由于說話人的情感不同,其意思和給聽者的印象就會不同,所謂“聽話聽音”就是這個道理。而傳統(tǒng)的語音處理系統(tǒng)多著眼于語音詞匯傳達的準確性,而忽略了包含在語音信號中的情感因素。情感特征的人工處理,在信號處理和人工智能等領域具有重要意義。近幾年來,在自然語言處理、信號處理、隨機過程處理等方法的推動下,

3、語音合成技術獲得了很大的發(fā)展,突破了傳統(tǒng)的單純語音計算算法的研究。情感語音合成的研究,適應了語音技術的未來發(fā)展趨勢,由于它能夠很好的將語音的口語分析、情感分析與計算機技術有機的融合,為實現(xiàn)以人為本,具有個性化特征的語音合成系統(tǒng),奠定基礎。有關情感的論述可以從19世紀末的William James1追述到二十世紀末的James Russell 2。從語音信號中提取情感特征,分析人的感性與語音信號的關聯(lián),將情感特征應用于語音合成方面的研究,只是國外近幾年剛剛興起的研究課題,大量的模型還沒有得到很好的解決。人的情感被分為基本類和擴展類兩種(Rene Descarte 4,基本類對情感的描述起到重要的

4、作用,通常情況下,情感語音的研究主要集中在情感基本類與語音聲學參數的關聯(lián)分析上,目前,針對情感基本類的常見的定義有:害怕、發(fā)怒、高興、悲傷、驚奇和厭惡等六種,盡管如此,針對不同的場合,其分類標準依然會有所區(qū)別。通常的擴展,包括區(qū)別發(fā)怒的特征,增加蔑視、懊惱、厭倦、擔心、傲慢和愛慕等,這些可以由性別特征以及其它特征區(qū)別開。每一種語言均包含著一些特殊的情感用語,Whissell 9收集了107種反映情感狀態(tài)的詞, Plutchik10 則列出了142種,這些詞覆蓋了很大范圍的情感狀態(tài),只有很少一部分可以被歸納到基本類。一些科學家通過分析,將人的表達方式從“憎惡”一直細分類到“狂怒”11。而這一分類

5、則與具體的語言和文化密切相關。通常意義下,人們對情感的理解,主要集中在情緒的變化上,然而將情感進行細致擴展,則衍生到自然口語的表現(xiàn)方式,它相對于普通朗讀風格,更貼近人的生活和接近人自然的情感流露和表達方式。情感發(fā)音的實現(xiàn),需要通過語音的聲學參數體現(xiàn)人的情感特性,Sylvie J.L. Mozziconacci 在IPO (t Hart et al., 1990語調方法的基礎上初步加入了情感控制參數,增加了語音合成的表現(xiàn)力。Cohn1針對情感的聲學特性編寫了簡單的情感編輯器,使研究人員可以細致的觀測情感控制參數對語音輸出的影響,對情感語音合成的研究起到了較好的推動作用。已有的研究多局限在零散和片

6、面的領域,為建立較為完整的情感語音合成系統(tǒng),涉及到情感語料庫設計,情感韻律特征分析及情感建模,語法、語義對情感發(fā)音的影響,面向口語的韻律分析及建模,情感語音聲學模型的建立,場景分布對情感發(fā)音的影響,以及韻律個性化等一系列的研究。本文將針對其中的幾項作一些較為細致的分析和論述。2 影響情感的因素研究情感語音合成,首先我們必需進行影響情感因素的分析。A. Paeschke & W. F. Sendlmeier1在他們的工作中,論述了英語中情感語音的韻律特性,他將影響情感發(fā)音的因子歸結到激勵、態(tài)度和反復三個基本因素,并在此基礎上初步探討了它們之間的一些聯(lián)系。情感雖然與有機體的生理喚醒狀態(tài)有著

7、密切的關系,但它不是單純地由生理喚醒狀態(tài)決定的。情感產生的源泉是客觀現(xiàn)實,但是,情感又不是客觀現(xiàn)實直接、機械地決定的。作用于人的外部世界的各種事件與人的各種需要的聯(lián)系是發(fā)生在認知活動之中的??陀^事物對人的作用必須通過人的認知過程,而且由于人的認識的每一次活動又不是單獨地被孤立的一件件事物決定的,人在生活實踐中積累的知識和經驗制約著當前的認識,并與人的態(tài)度或愿望結合起來。因此,人們對作用于他們的事物的判斷與評估,才是情感的直接原因;同一事件對不同的人或在不同的時間、條件下出現(xiàn),可能被做出不同的評估或料想,從而產生不同的情緒。正是由于過去經驗制約著人對當前事件的認識和評價,當事件是符合或加強人的認

8、識和愿望時,就產生肯定的情緒。偶然的好友重逢,能引起舊日友誼的重現(xiàn),因而符合主體的道德需要;意料之外的成功,生活或工作中困難的突然拓通,主體愿望的實現(xiàn),這些都會引起不同程度的喜悅和快樂。但是,當出現(xiàn)的事件被判斷為并非是所愿望的,被料想為難以控制這些不利事件的影響的存在,這時就容易產生否定的情緒。因此,情緒和情感是通過認知活動的“折射”而產生的。所謂認知的折射就是指人在過去經驗中所形成的愿望與渴求的系統(tǒng)對當前認識活動的影響。因此,現(xiàn)代研究一般地支持這樣一種觀點,即情感為三種因素所制約:環(huán)境影響、生理狀態(tài)和認知過程。其中認知因素在情感的產生中起關鍵性的作用。如上面分析,情感語音的研究,需要與人們對

9、語言文字的認知和理解、對環(huán)境等其它諸多因素的理解,緊密結合起來。3 情感語音的聲學分析與建模情感語音的聲學分析是情感語音處理最易入手的步驟,通過聲學特性分析過程,為得到情感狀態(tài)下的聲學參數綜合控制模型帶來幫助。123481112均對此進行了較為詳細的分析,然而針對漢語的情感聲學特征的研究,卻少有人進行,為得到情感狀態(tài)下的聲學關聯(lián)關系,本文在分析情感語料的基礎上,進行了一定的總結。3.1 情感語料情感語料是進行情感語音合成研究的重要基礎,目前,國內外現(xiàn)在還沒有提出用于情感分析的語料設計標準。大部分已經存在的西方語言情感語料庫多采用演員錄制的方法67,由于區(qū)別特征明顯,這為分析帶來了很大的便利,但

10、經過藝術加工的聲音,在很大程度上并不能反映真實生活中的語音情感特征。真實生活中的語料與不同的文化、發(fā)音人和背景有較大的關聯(lián),語料收集存在著很大的難度。為達到情感語音建模的目的,本文則采用了演員錄制和真實場景相結合的方法,在演員錄制中,選用了28個演員充當說話者,其中14個男聲14個女聲,每個人錄制了1580句具有5種不同情感的語音,包括陳述句、疑問句和感嘆句。自然場景中的語料則選用了由社科院語言所提供的CADC語料庫,共1613個即興對話語句。該語料使用了praat工具進行標注,包括基頻、音節(jié)邊界、副語言學信息等??紤]到情感因素,語料處理中進一步加入了情感狀態(tài)和情感關鍵詞屬性的標注內容。3.2

11、 情感語音的聲學分析由于人對語音的感知是非常多樣化,全面考慮情感的聲學特征是一個非常困難的工作,考慮到計算機的處理能力,只能通過部分參數從一定程度上對情感語音的聲學特性進行了概括。一般情況下,語音的情感相關性的表示形式可以通過說話人模型或者聲學模型來實現(xiàn)。Cahn1將其歸結為四類。由于漢語的韻律多以音節(jié)為處理單位,在這種有調音節(jié)的韻律分析中,音節(jié)的韻律特征起著非常重要的作用,因而,為便于在漢語中處理,本文將情感語音的聲學特征直接分為三類:韻律類、音質類和清晰度類。概述如下:韻律類主要用來表征不同情感狀態(tài)下語氣的變化,它包括如下韻律參數描述:平均基頻:整個語句的基頻平均值。基頻范圍:整個語句的基

12、頻范圍,基頻范圍在很大程度上能夠反應人的情緒狀態(tài)(積極情緒或消極情緒。重音的突變特性:在情感語句中,重音多體現(xiàn)情感焦點特性,經常由情感關鍵詞承載,在積極的情緒中,它多能體現(xiàn)情感狀態(tài)的激烈程度。如:發(fā)怒時,情感關鍵詞往往出現(xiàn)突然的重音加強特性。停頓的連貫性:用以表示語句的停頓是否連貫。人在情緒受到壓抑或快速膨脹時,有時會出現(xiàn)由于概念表述不清而導致的語氣斷續(xù)特征。語速:用以表征語氣的緩急程度,人在焦急、恐懼時多出現(xiàn)語速加快的現(xiàn)象,有時歡快的語氣也能帶來類似效果。重音頻度:重音的頻度在一定程度上能夠體現(xiàn)情感狀態(tài)的持續(xù)性。音強:音強也是用于情感確定的重要參數,經過實驗分析,在情感語音中,音強的變化往往

13、表現(xiàn)與基頻范圍的變化的一致性。即、基頻范圍增大時,音強也多表現(xiàn)為增強。但是,相對基頻變化來說,大部分音強變化并不明顯。音節(jié)基頻高線傾斜程度:語句中音節(jié)基頻高點連線的變化情況(上升、水平和下降。音節(jié)基頻低線傾斜程度:語句中音節(jié)基頻低點連線的變化情況(上升、水平和下降。音質類用來表征在情感狀態(tài)的語音的音質發(fā)生的變化,它通過如下參數描述:呼吸聲:在語音流中,出現(xiàn)呼吸氣等聲音。當一個人處于緊張或歡快狀態(tài)時,出現(xiàn)的快速呼吸停頓,或當一個人由于恐懼而牙齒緊壓產生的回旋氣流噪聲。明亮度:低頻能量和高頻能量的比值,用以反映語音的清亮特性。喉化度:發(fā)音時,聲門出現(xiàn)不連續(xù)的脈沖震動特性,經常出現(xiàn)在極度恐懼的情感狀

14、態(tài)中。情感信息與人的聲道同樣具有一定的關聯(lián)。清晰度可分為正常、焦急、模糊和準確。清晰度描述了元音質量的變化和清輔音是否變化為相應的濁輔音。比如:人在厭惡時,有時說話“嘟嘟朗朗”,表達不清。由于情感表現(xiàn)的多樣性和復雜性,導致情感聲學參數的數值分布多呈現(xiàn)較大的離散特性,表1則針對五種基本情感狀態(tài)列出了幾種基本聲學參數的較為平均的體現(xiàn)。喜悅 發(fā)怒 悲傷 恐懼 厭惡 語速 較快,但有時較慢 稍快 稍慢 很快 非常慢平均音高 很高 非常高 稍低 非常高 非常低音高范圍 很寬 很寬 稍窄 很寬 稍寬音節(jié)基頻平滑,上升變化 陡峭,在重讀音節(jié)處下降變化 正常 寬,下降終端變化高線變化平滑,上升變化 沒有太多的

15、變化 下降變化 正常 下降終端變化 音節(jié)基頻低線變化音強 較高 較高 較低 正常 較低音質 有呼吸聲,響亮 有呼吸聲,胸腔聲調共鳴生 不規(guī)則發(fā)聲 嘟囔的胸鳴聲 清晰度 正常 焦急 模糊 準確 正常表1,五種主要情感的聲學特征本文得到結果與Pereira 8、Banse 和 Scherer 13在平均基頻、基頻范圍和音強上是較為接近的。然而,受限于語料的規(guī)模、語種以及情感表現(xiàn)的復雜性,部分參數的聲學表現(xiàn)并不具有太多的比較性。3.3 情感語音的聲學模型在情感聲學特性分析的基礎上,本文進而初步總結了語音合成中幾種常見的韻律參數的調解方法,并成功的構筑了五種基本情感狀態(tài)下的情感語音聲學模型。模型中的一

16、些聲學特征控制規(guī)則列表如下:情感 語速 音強 音節(jié)基頻高線變化 音節(jié)基頻低線變化 平均音高音高范圍 其它喜悅 +40% +80% 平滑: +2 平滑:-2 +100% +100% 輕微的呼吸發(fā)怒 +20% +50 % 較陡峭的重音形式+3較陡峭的重音形式+3+80% +80%.悲傷 -20% -50% 平滑: +4 平滑: -2 無變化 -60%恐懼 +20% 無變化 平滑: -2, flat 平滑: -2, 有抖動 +20% +20% 有呼吸聲 厭惡 -20% -30% 平滑:+2, 向下 平滑:+2 -20% -30%表2,漢語合成語音中的情感聲學表達的控制規(guī)則表2中,所有的“+”號代表增

17、加,“-”號代表減少。音節(jié)基頻高低線的平滑程度表示是否會產生f0抖動。它為-5到+5的一組數字,負值表示會產生基頻顫抖特性。系統(tǒng)采用Klatt 合成算法,通過多元激勵模型實現(xiàn)了高性能的韻律調解、頻譜變化和嵌入呼吸氣聲等主要功能。4 語音合成中的情感預測由于語言中的情感是直接與說話人的思想狀態(tài)相對應的,在特定情感狀態(tài)下,說話人的行為會直接影響發(fā)音的結果。人的情感并不單純由文本信息決定,它與人所處的場景等信息,以及與人的感知密切相關。人在發(fā)音時,大腦會通過信息綜合,醞釀情緒。目前雖沒有有效的方法能夠將針對所有的語法信息做出準確的概念分析和判斷,但通過情感關鍵詞、標注、標點等信息預測情感狀態(tài),依然能

18、夠進行情感的判斷。本文闡述了一種基于情感狀態(tài)預測網絡(Emotional Status Prediction Network, ESiN的方法對文本負載的情感狀態(tài)進行預測。4.1 情感焦點情感狀態(tài)預測網絡的初始步驟,首先是確定情感的焦點。情感焦點在通常情況下,由情感關鍵詞驅動,多出現(xiàn)在情景對話和具有劇烈變化的情感狀態(tài)中。這一結論在表1中得到了充分的驗證。在發(fā)怒語氣中,承載發(fā)怒的情感關鍵詞得到了突然加強。在文本的閱讀過程中情感的表達是通常通過不同的情感焦點實現(xiàn)的,情感焦點受句法結構、聲調結構和功能詞的影響。在語句結構中,功能詞體現(xiàn)了句子的主要意思,而情態(tài)詞用于加強情緒。“激動”的情緒能夠通過加強

19、功能詞或情態(tài)詞而得到明顯的表現(xiàn)。例如:我非常生氣。短語“非常生氣”表示了句子的關鍵的情感狀態(tài),并且在憤怒的情感時會得到有力地加強。其它的一些詞語,如:“不好”, “很”, “非?!钡鹊纫矔_到同樣的效果。與此同時,由于漢語是一個有調語言,這為聲調模式下的情感焦點的確定帶來了難度。Reyelt, Grice (1996等人通過聲調序列的模型,在對句法結構和信息結構的分析中融入了聲調序列的作用,得到的更好的情感焦點預測效果。在已知情景的情況下,有時漢語的情感焦點也可以通過聲調組合的分析來得到。為實現(xiàn)情感焦點的預測,作者構筑了大規(guī)模的情感標注詞典,通過在語音合成的詞典中加入情感狀態(tài)描述屬性來輔助情感焦點和狀態(tài)的判斷。4.2 情感狀態(tài)預測網絡(ESiNESiN 網絡的基本組成部分是結點和鏈路。結點(情感載體可承載情感信息而鏈路(情感傳播者可傳播情感信息。ESiN 網絡中的每個結點中有三個屬性:詞語(包括屬性,如:詞類、情感屬性等、情感矢量(,10tN t t t e e e E L r =,t 表示不同的節(jié)點。情感矢量表征一個節(jié)點的基本情感狀態(tài)。情感矢量的分量分別代表不同的情感狀態(tài),N 表示情感狀態(tài)的個數每一個分量的值從0至1分布,表示該情感狀態(tài)的程度。其中1為最高,

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論