面向情感的語音合成系統(tǒng)_第1頁
面向情感的語音合成系統(tǒng)_第2頁
面向情感的語音合成系統(tǒng)_第3頁
面向情感的語音合成系統(tǒng)_第4頁
面向情感的語音合成系統(tǒng)_第5頁
已閱讀5頁,還剩5頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

1、面向情感的語音合成系統(tǒng)陶建華(1 許曉穎(1(2(1中國科學(xué)院自動化研究所模式識別國家重點(diǎn)實(shí)驗(yàn)室北京 100080(2北京師范大學(xué)文學(xué)院北京 100068摘要情感語音合成是近幾年語音合成的研究熱點(diǎn),現(xiàn)有的研究多以語音的韻律和聲學(xué)特征為指導(dǎo)因素。在情感語音合成的研究中,必須解決如下三個(gè)核心問題:(1如何確定情感狀態(tài)和情感語音的聲學(xué)特征參數(shù)?(2如何建立情感狀態(tài)與語音的聲學(xué)特征的關(guān)聯(lián)關(guān)系,建立情感聲學(xué)參數(shù)的綜合控制模型?(3如何結(jié)合文本分析和場景因素建立情感的預(yù)測機(jī)制?本文將圍繞著這三個(gè)問題進(jìn)行深入的探討,在實(shí)驗(yàn)分析的基礎(chǔ)上,對情感語音合成中需要處理的情感特征,以及情感特征與語音特征的相互關(guān)系問題

2、進(jìn)行分析,并針對這些關(guān)聯(lián)關(guān)系提出了情感聲學(xué)模型和情感韻律建模的思路,初步實(shí)現(xiàn)了一個(gè)情感語音合成系統(tǒng)的原型。關(guān)鍵字情感語音合成、情感分析、影響情感因素、情感焦點(diǎn)、情感關(guān)鍵詞1 引 言語音是人類交際的最重要的工具之一。人類的說話中不僅包含了文字符號信息,而且還包含了人們的感情和情緒的變化。例如,同樣一句話,往往由于說話人的情感不同,其意思和給聽者的印象就會不同,所謂“聽話聽音”就是這個(gè)道理。而傳統(tǒng)的語音處理系統(tǒng)多著眼于語音詞匯傳達(dá)的準(zhǔn)確性,而忽略了包含在語音信號中的情感因素。情感特征的人工處理,在信號處理和人工智能等領(lǐng)域具有重要意義。近幾年來,在自然語言處理、信號處理、隨機(jī)過程處理等方法的推動下,

3、語音合成技術(shù)獲得了很大的發(fā)展,突破了傳統(tǒng)的單純語音計(jì)算算法的研究。情感語音合成的研究,適應(yīng)了語音技術(shù)的未來發(fā)展趨勢,由于它能夠很好的將語音的口語分析、情感分析與計(jì)算機(jī)技術(shù)有機(jī)的融合,為實(shí)現(xiàn)以人為本,具有個(gè)性化特征的語音合成系統(tǒng),奠定基礎(chǔ)。有關(guān)情感的論述可以從19世紀(jì)末的William James1追述到二十世紀(jì)末的James Russell 2。從語音信號中提取情感特征,分析人的感性與語音信號的關(guān)聯(lián),將情感特征應(yīng)用于語音合成方面的研究,只是國外近幾年剛剛興起的研究課題,大量的模型還沒有得到很好的解決。人的情感被分為基本類和擴(kuò)展類兩種(Rene Descarte 4,基本類對情感的描述起到重要的

4、作用,通常情況下,情感語音的研究主要集中在情感基本類與語音聲學(xué)參數(shù)的關(guān)聯(lián)分析上,目前,針對情感基本類的常見的定義有:害怕、發(fā)怒、高興、悲傷、驚奇和厭惡等六種,盡管如此,針對不同的場合,其分類標(biāo)準(zhǔn)依然會有所區(qū)別。通常的擴(kuò)展,包括區(qū)別發(fā)怒的特征,增加蔑視、懊惱、厭倦、擔(dān)心、傲慢和愛慕等,這些可以由性別特征以及其它特征區(qū)別開。每一種語言均包含著一些特殊的情感用語,Whissell 9收集了107種反映情感狀態(tài)的詞, Plutchik10 則列出了142種,這些詞覆蓋了很大范圍的情感狀態(tài),只有很少一部分可以被歸納到基本類。一些科學(xué)家通過分析,將人的表達(dá)方式從“憎惡”一直細(xì)分類到“狂怒”11。而這一分類

5、則與具體的語言和文化密切相關(guān)。通常意義下,人們對情感的理解,主要集中在情緒的變化上,然而將情感進(jìn)行細(xì)致擴(kuò)展,則衍生到自然口語的表現(xiàn)方式,它相對于普通朗讀風(fēng)格,更貼近人的生活和接近人自然的情感流露和表達(dá)方式。情感發(fā)音的實(shí)現(xiàn),需要通過語音的聲學(xué)參數(shù)體現(xiàn)人的情感特性,Sylvie J.L. Mozziconacci 在IPO (t Hart et al., 1990語調(diào)方法的基礎(chǔ)上初步加入了情感控制參數(shù),增加了語音合成的表現(xiàn)力。Cohn1針對情感的聲學(xué)特性編寫了簡單的情感編輯器,使研究人員可以細(xì)致的觀測情感控制參數(shù)對語音輸出的影響,對情感語音合成的研究起到了較好的推動作用。已有的研究多局限在零散和片

6、面的領(lǐng)域,為建立較為完整的情感語音合成系統(tǒng),涉及到情感語料庫設(shè)計(jì),情感韻律特征分析及情感建模,語法、語義對情感發(fā)音的影響,面向口語的韻律分析及建模,情感語音聲學(xué)模型的建立,場景分布對情感發(fā)音的影響,以及韻律個(gè)性化等一系列的研究。本文將針對其中的幾項(xiàng)作一些較為細(xì)致的分析和論述。2 影響情感的因素研究情感語音合成,首先我們必需進(jìn)行影響情感因素的分析。A. Paeschke & W. F. Sendlmeier1在他們的工作中,論述了英語中情感語音的韻律特性,他將影響情感發(fā)音的因子歸結(jié)到激勵(lì)、態(tài)度和反復(fù)三個(gè)基本因素,并在此基礎(chǔ)上初步探討了它們之間的一些聯(lián)系。情感雖然與有機(jī)體的生理喚醒狀態(tài)有著

7、密切的關(guān)系,但它不是單純地由生理喚醒狀態(tài)決定的。情感產(chǎn)生的源泉是客觀現(xiàn)實(shí),但是,情感又不是客觀現(xiàn)實(shí)直接、機(jī)械地決定的。作用于人的外部世界的各種事件與人的各種需要的聯(lián)系是發(fā)生在認(rèn)知活動之中的??陀^事物對人的作用必須通過人的認(rèn)知過程,而且由于人的認(rèn)識的每一次活動又不是單獨(dú)地被孤立的一件件事物決定的,人在生活實(shí)踐中積累的知識和經(jīng)驗(yàn)制約著當(dāng)前的認(rèn)識,并與人的態(tài)度或愿望結(jié)合起來。因此,人們對作用于他們的事物的判斷與評估,才是情感的直接原因;同一事件對不同的人或在不同的時(shí)間、條件下出現(xiàn),可能被做出不同的評估或料想,從而產(chǎn)生不同的情緒。正是由于過去經(jīng)驗(yàn)制約著人對當(dāng)前事件的認(rèn)識和評價(jià),當(dāng)事件是符合或加強(qiáng)人的認(rèn)

8、識和愿望時(shí),就產(chǎn)生肯定的情緒。偶然的好友重逢,能引起舊日友誼的重現(xiàn),因而符合主體的道德需要;意料之外的成功,生活或工作中困難的突然拓通,主體愿望的實(shí)現(xiàn),這些都會引起不同程度的喜悅和快樂。但是,當(dāng)出現(xiàn)的事件被判斷為并非是所愿望的,被料想為難以控制這些不利事件的影響的存在,這時(shí)就容易產(chǎn)生否定的情緒。因此,情緒和情感是通過認(rèn)知活動的“折射”而產(chǎn)生的。所謂認(rèn)知的折射就是指人在過去經(jīng)驗(yàn)中所形成的愿望與渴求的系統(tǒng)對當(dāng)前認(rèn)識活動的影響。因此,現(xiàn)代研究一般地支持這樣一種觀點(diǎn),即情感為三種因素所制約:環(huán)境影響、生理狀態(tài)和認(rèn)知過程。其中認(rèn)知因素在情感的產(chǎn)生中起關(guān)鍵性的作用。如上面分析,情感語音的研究,需要與人們對

9、語言文字的認(rèn)知和理解、對環(huán)境等其它諸多因素的理解,緊密結(jié)合起來。3 情感語音的聲學(xué)分析與建模情感語音的聲學(xué)分析是情感語音處理最易入手的步驟,通過聲學(xué)特性分析過程,為得到情感狀態(tài)下的聲學(xué)參數(shù)綜合控制模型帶來幫助。123481112均對此進(jìn)行了較為詳細(xì)的分析,然而針對漢語的情感聲學(xué)特征的研究,卻少有人進(jìn)行,為得到情感狀態(tài)下的聲學(xué)關(guān)聯(lián)關(guān)系,本文在分析情感語料的基礎(chǔ)上,進(jìn)行了一定的總結(jié)。3.1 情感語料情感語料是進(jìn)行情感語音合成研究的重要基礎(chǔ),目前,國內(nèi)外現(xiàn)在還沒有提出用于情感分析的語料設(shè)計(jì)標(biāo)準(zhǔn)。大部分已經(jīng)存在的西方語言情感語料庫多采用演員錄制的方法67,由于區(qū)別特征明顯,這為分析帶來了很大的便利,但

10、經(jīng)過藝術(shù)加工的聲音,在很大程度上并不能反映真實(shí)生活中的語音情感特征。真實(shí)生活中的語料與不同的文化、發(fā)音人和背景有較大的關(guān)聯(lián),語料收集存在著很大的難度。為達(dá)到情感語音建模的目的,本文則采用了演員錄制和真實(shí)場景相結(jié)合的方法,在演員錄制中,選用了28個(gè)演員充當(dāng)說話者,其中14個(gè)男聲14個(gè)女聲,每個(gè)人錄制了1580句具有5種不同情感的語音,包括陳述句、疑問句和感嘆句。自然場景中的語料則選用了由社科院語言所提供的CADC語料庫,共1613個(gè)即興對話語句。該語料使用了praat工具進(jìn)行標(biāo)注,包括基頻、音節(jié)邊界、副語言學(xué)信息等??紤]到情感因素,語料處理中進(jìn)一步加入了情感狀態(tài)和情感關(guān)鍵詞屬性的標(biāo)注內(nèi)容。3.2

11、 情感語音的聲學(xué)分析由于人對語音的感知是非常多樣化,全面考慮情感的聲學(xué)特征是一個(gè)非常困難的工作,考慮到計(jì)算機(jī)的處理能力,只能通過部分參數(shù)從一定程度上對情感語音的聲學(xué)特性進(jìn)行了概括。一般情況下,語音的情感相關(guān)性的表示形式可以通過說話人模型或者聲學(xué)模型來實(shí)現(xiàn)。Cahn1將其歸結(jié)為四類。由于漢語的韻律多以音節(jié)為處理單位,在這種有調(diào)音節(jié)的韻律分析中,音節(jié)的韻律特征起著非常重要的作用,因而,為便于在漢語中處理,本文將情感語音的聲學(xué)特征直接分為三類:韻律類、音質(zhì)類和清晰度類。概述如下:韻律類主要用來表征不同情感狀態(tài)下語氣的變化,它包括如下韻律參數(shù)描述:平均基頻:整個(gè)語句的基頻平均值?;l范圍:整個(gè)語句的基

12、頻范圍,基頻范圍在很大程度上能夠反應(yīng)人的情緒狀態(tài)(積極情緒或消極情緒。重音的突變特性:在情感語句中,重音多體現(xiàn)情感焦點(diǎn)特性,經(jīng)常由情感關(guān)鍵詞承載,在積極的情緒中,它多能體現(xiàn)情感狀態(tài)的激烈程度。如:發(fā)怒時(shí),情感關(guān)鍵詞往往出現(xiàn)突然的重音加強(qiáng)特性。停頓的連貫性:用以表示語句的停頓是否連貫。人在情緒受到壓抑或快速膨脹時(shí),有時(shí)會出現(xiàn)由于概念表述不清而導(dǎo)致的語氣斷續(xù)特征。語速:用以表征語氣的緩急程度,人在焦急、恐懼時(shí)多出現(xiàn)語速加快的現(xiàn)象,有時(shí)歡快的語氣也能帶來類似效果。重音頻度:重音的頻度在一定程度上能夠體現(xiàn)情感狀態(tài)的持續(xù)性。音強(qiáng):音強(qiáng)也是用于情感確定的重要參數(shù),經(jīng)過實(shí)驗(yàn)分析,在情感語音中,音強(qiáng)的變化往往

13、表現(xiàn)與基頻范圍的變化的一致性。即、基頻范圍增大時(shí),音強(qiáng)也多表現(xiàn)為增強(qiáng)。但是,相對基頻變化來說,大部分音強(qiáng)變化并不明顯。音節(jié)基頻高線傾斜程度:語句中音節(jié)基頻高點(diǎn)連線的變化情況(上升、水平和下降。音節(jié)基頻低線傾斜程度:語句中音節(jié)基頻低點(diǎn)連線的變化情況(上升、水平和下降。音質(zhì)類用來表征在情感狀態(tài)的語音的音質(zhì)發(fā)生的變化,它通過如下參數(shù)描述:呼吸聲:在語音流中,出現(xiàn)呼吸氣等聲音。當(dāng)一個(gè)人處于緊張或歡快狀態(tài)時(shí),出現(xiàn)的快速呼吸停頓,或當(dāng)一個(gè)人由于恐懼而牙齒緊壓產(chǎn)生的回旋氣流噪聲。明亮度:低頻能量和高頻能量的比值,用以反映語音的清亮特性。喉化度:發(fā)音時(shí),聲門出現(xiàn)不連續(xù)的脈沖震動特性,經(jīng)常出現(xiàn)在極度恐懼的情感狀

14、態(tài)中。情感信息與人的聲道同樣具有一定的關(guān)聯(lián)。清晰度可分為正常、焦急、模糊和準(zhǔn)確。清晰度描述了元音質(zhì)量的變化和清輔音是否變化為相應(yīng)的濁輔音。比如:人在厭惡時(shí),有時(shí)說話“嘟嘟朗朗”,表達(dá)不清。由于情感表現(xiàn)的多樣性和復(fù)雜性,導(dǎo)致情感聲學(xué)參數(shù)的數(shù)值分布多呈現(xiàn)較大的離散特性,表1則針對五種基本情感狀態(tài)列出了幾種基本聲學(xué)參數(shù)的較為平均的體現(xiàn)。喜悅 發(fā)怒 悲傷 恐懼 厭惡 語速 較快,但有時(shí)較慢 稍快 稍慢 很快 非常慢平均音高 很高 非常高 稍低 非常高 非常低音高范圍 很寬 很寬 稍窄 很寬 稍寬音節(jié)基頻平滑,上升變化 陡峭,在重讀音節(jié)處下降變化 正常 寬,下降終端變化高線變化平滑,上升變化 沒有太多的

15、變化 下降變化 正常 下降終端變化 音節(jié)基頻低線變化音強(qiáng) 較高 較高 較低 正常 較低音質(zhì) 有呼吸聲,響亮 有呼吸聲,胸腔聲調(diào)共鳴生 不規(guī)則發(fā)聲 嘟囔的胸鳴聲 清晰度 正常 焦急 模糊 準(zhǔn)確 正常表1,五種主要情感的聲學(xué)特征本文得到結(jié)果與Pereira 8、Banse 和 Scherer 13在平均基頻、基頻范圍和音強(qiáng)上是較為接近的。然而,受限于語料的規(guī)模、語種以及情感表現(xiàn)的復(fù)雜性,部分參數(shù)的聲學(xué)表現(xiàn)并不具有太多的比較性。3.3 情感語音的聲學(xué)模型在情感聲學(xué)特性分析的基礎(chǔ)上,本文進(jìn)而初步總結(jié)了語音合成中幾種常見的韻律參數(shù)的調(diào)解方法,并成功的構(gòu)筑了五種基本情感狀態(tài)下的情感語音聲學(xué)模型。模型中的一

16、些聲學(xué)特征控制規(guī)則列表如下:情感 語速 音強(qiáng) 音節(jié)基頻高線變化 音節(jié)基頻低線變化 平均音高音高范圍 其它喜悅 +40% +80% 平滑: +2 平滑:-2 +100% +100% 輕微的呼吸發(fā)怒 +20% +50 % 較陡峭的重音形式+3較陡峭的重音形式+3+80% +80%.悲傷 -20% -50% 平滑: +4 平滑: -2 無變化 -60%恐懼 +20% 無變化 平滑: -2, flat 平滑: -2, 有抖動 +20% +20% 有呼吸聲 厭惡 -20% -30% 平滑:+2, 向下 平滑:+2 -20% -30%表2,漢語合成語音中的情感聲學(xué)表達(dá)的控制規(guī)則表2中,所有的“+”號代表增

17、加,“-”號代表減少。音節(jié)基頻高低線的平滑程度表示是否會產(chǎn)生f0抖動。它為-5到+5的一組數(shù)字,負(fù)值表示會產(chǎn)生基頻顫抖特性。系統(tǒng)采用Klatt 合成算法,通過多元激勵(lì)模型實(shí)現(xiàn)了高性能的韻律調(diào)解、頻譜變化和嵌入呼吸氣聲等主要功能。4 語音合成中的情感預(yù)測由于語言中的情感是直接與說話人的思想狀態(tài)相對應(yīng)的,在特定情感狀態(tài)下,說話人的行為會直接影響發(fā)音的結(jié)果。人的情感并不單純由文本信息決定,它與人所處的場景等信息,以及與人的感知密切相關(guān)。人在發(fā)音時(shí),大腦會通過信息綜合,醞釀情緒。目前雖沒有有效的方法能夠?qū)⑨槍λ械恼Z法信息做出準(zhǔn)確的概念分析和判斷,但通過情感關(guān)鍵詞、標(biāo)注、標(biāo)點(diǎn)等信息預(yù)測情感狀態(tài),依然能

18、夠進(jìn)行情感的判斷。本文闡述了一種基于情感狀態(tài)預(yù)測網(wǎng)絡(luò)(Emotional Status Prediction Network, ESiN的方法對文本負(fù)載的情感狀態(tài)進(jìn)行預(yù)測。4.1 情感焦點(diǎn)情感狀態(tài)預(yù)測網(wǎng)絡(luò)的初始步驟,首先是確定情感的焦點(diǎn)。情感焦點(diǎn)在通常情況下,由情感關(guān)鍵詞驅(qū)動,多出現(xiàn)在情景對話和具有劇烈變化的情感狀態(tài)中。這一結(jié)論在表1中得到了充分的驗(yàn)證。在發(fā)怒語氣中,承載發(fā)怒的情感關(guān)鍵詞得到了突然加強(qiáng)。在文本的閱讀過程中情感的表達(dá)是通常通過不同的情感焦點(diǎn)實(shí)現(xiàn)的,情感焦點(diǎn)受句法結(jié)構(gòu)、聲調(diào)結(jié)構(gòu)和功能詞的影響。在語句結(jié)構(gòu)中,功能詞體現(xiàn)了句子的主要意思,而情態(tài)詞用于加強(qiáng)情緒?!凹印钡那榫w能夠通過加強(qiáng)

19、功能詞或情態(tài)詞而得到明顯的表現(xiàn)。例如:我非常生氣。短語“非常生氣”表示了句子的關(guān)鍵的情感狀態(tài),并且在憤怒的情感時(shí)會得到有力地加強(qiáng)。其它的一些詞語,如:“不好”, “很”, “非常”等等也會達(dá)到同樣的效果。與此同時(shí),由于漢語是一個(gè)有調(diào)語言,這為聲調(diào)模式下的情感焦點(diǎn)的確定帶來了難度。Reyelt, Grice (1996等人通過聲調(diào)序列的模型,在對句法結(jié)構(gòu)和信息結(jié)構(gòu)的分析中融入了聲調(diào)序列的作用,得到的更好的情感焦點(diǎn)預(yù)測效果。在已知情景的情況下,有時(shí)漢語的情感焦點(diǎn)也可以通過聲調(diào)組合的分析來得到。為實(shí)現(xiàn)情感焦點(diǎn)的預(yù)測,作者構(gòu)筑了大規(guī)模的情感標(biāo)注詞典,通過在語音合成的詞典中加入情感狀態(tài)描述屬性來輔助情感焦點(diǎn)和狀態(tài)的判斷。4.2 情感狀態(tài)預(yù)測網(wǎng)絡(luò)(ESiNESiN 網(wǎng)絡(luò)的基本組成部分是結(jié)點(diǎn)和鏈路。結(jié)點(diǎn)(情感載體可承載情感信息而鏈路(情感傳播者可傳播情感信息。ESiN 網(wǎng)絡(luò)中的每個(gè)結(jié)點(diǎn)中有三個(gè)屬性:詞語(包括屬性,如:詞類、情感屬性等、情感矢量(,10tN t t t e e e E L r =,t 表示不同的節(jié)點(diǎn)。情感矢量表征一個(gè)節(jié)點(diǎn)的基本情感狀態(tài)。情感矢量的分量分別代表不同的情感狀態(tài),N 表示情感狀態(tài)的個(gè)數(shù)每一個(gè)分量的值從0至1分布,表示該情感狀態(tài)的程度。其中1為最高,

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論