語(yǔ)音信號(hào)處理第12章課件_第1頁(yè)
語(yǔ)音信號(hào)處理第12章課件_第2頁(yè)
語(yǔ)音信號(hào)處理第12章課件_第3頁(yè)
語(yǔ)音信號(hào)處理第12章課件_第4頁(yè)
語(yǔ)音信號(hào)處理第12章課件_第5頁(yè)
已閱讀5頁(yè),還剩21頁(yè)未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶(hù)提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、12.1 概述隨著信息技術(shù)的高速發(fā)展和人類(lèi)對(duì)計(jì)算機(jī)的依賴(lài)性的不斷增強(qiáng),人機(jī)的交互能力越來(lái)越受到研究者的重視。在人機(jī)交互中需要解決的問(wèn)題實(shí)際上與人和人交流中的重要因素是一致的,最關(guān)鍵的都是“情感智能”的能力。因此計(jì)算機(jī)要能夠更加主動(dòng)的適應(yīng)操作者的需要,首先必須能夠識(shí)別操作者的情感,而后再根據(jù)情感的判斷來(lái)調(diào)整交互對(duì)話的方式。包含在語(yǔ)音信號(hào)中的情感信息是一種很重要的信息資源,它是人們感知事物的必不可少的部分信息。所以包含在語(yǔ)音信號(hào)中的情感信息的計(jì)算機(jī)處理研究,分析和處理語(yǔ)音信號(hào)中的情感特征、判斷和模擬說(shuō)話人的喜怒哀樂(lè)等是一個(gè)意義重大的研究課題。12.2 語(yǔ)音信號(hào)中的情感分類(lèi)和情感 特征分析12.2.

2、1情感的分類(lèi)要研究語(yǔ)音信號(hào)的情感,首先需要根據(jù)某些特性標(biāo)準(zhǔn)對(duì)語(yǔ)音情感做一個(gè)有效合理的分類(lèi),然后在不同類(lèi)別的基礎(chǔ)上研究特征參數(shù)的性質(zhì)。 經(jīng)過(guò)Plutchik等人的多年研究,通過(guò)在激活評(píng)價(jià)空間上對(duì)情感進(jìn)行分析,認(rèn)為情感分布在一個(gè)圓形的結(jié)構(gòu)上,結(jié)構(gòu)的中心是自然原點(diǎn)。由于各種情感在自然原點(diǎn)的周?chē)懦闪艘粋€(gè)圓形,所以這種對(duì)情感進(jìn)行分類(lèi)的方法叫做“情感輪(Emotion Wheel)”。對(duì)于任何一個(gè)情感語(yǔ)句,可以根據(jù)其情感強(qiáng)度和情感方向,在情感輪所組成的二維平面中用唯一的一個(gè)情感矢量 來(lái)表示。其中情感強(qiáng)度表現(xiàn)為這個(gè)情感矢量的幅度值,而情感方向則表現(xiàn)為該情感矢量的角度。 不同于Plutchik的分類(lèi)手段,F(xiàn)

3、ox提出的三級(jí)情感模型,則是按照情感中表現(xiàn)的主動(dòng)和被動(dòng)的程度不同將情感分成不同的等級(jí),如表12-1所示。等級(jí)越低,分類(lèi)越粗糙,等級(jí)越高,分類(lèi)越精細(xì)。 12.2.2 情感特征分析語(yǔ)音之所以能夠表達(dá)情感,是因?yàn)槠渲邪荏w現(xiàn)情感特征的參數(shù)。情感的變化通過(guò)特征參數(shù)的差異而體現(xiàn)。因此研究從語(yǔ)音信號(hào)中提取這些反映情感的參數(shù),對(duì)于情感語(yǔ)音識(shí)別等具有極其重要的意義。通常在語(yǔ)音情感識(shí)別時(shí)使用的主要特征參數(shù)包括以下內(nèi)容。 Murray和Arnott總結(jié)了情感和語(yǔ)音參數(shù)的關(guān)系如表12-3所示。 當(dāng)人處于憤怒的情感時(shí),其生理特征較平時(shí)突出,如心跳加快、皮膚電壓升高、血壓升高等,這同時(shí)也影響到了語(yǔ)音特征參數(shù)的變化。首

4、先由于生理變化的緣故,胸腔的回聲和呼吸聲在語(yǔ)音信號(hào)中所占的比重將有所增加,振幅強(qiáng)度也大大高于普通的情感,語(yǔ)速也較普通語(yǔ)句快,是加速句和加強(qiáng)句的結(jié)合。為了增加生氣的效果,基音在重音處語(yǔ)調(diào)的突變,成為了生氣狀態(tài)的一個(gè)重要特征。對(duì)于高興時(shí)的情感,與憤怒情感時(shí)的生理特征有相似之處,它的聲音中也往往帶有呼吸的聲音,但是和其它情感的主要不同之處在于,人處于高興的狀態(tài)時(shí),它的基音變化通常是一條向上彎曲的曲線。句子的振幅強(qiáng)度也集中在句子的末尾的一兩個(gè)字,整個(gè)句子的聲調(diào)的調(diào)域要比平靜語(yǔ)句高。句中非關(guān)鍵性的字和詞的調(diào)形拱度就變得平坦一些,甚至失去本調(diào),而成為前后相鄰兩調(diào)的中間過(guò)渡。 由于悲傷情感屬于壓抑情感類(lèi),所

5、以它的時(shí)長(zhǎng)較平靜語(yǔ)句慢,強(qiáng)度也大大低于其它各種情感,基音的變化也是一條向下彎曲的曲線。由于語(yǔ)速較慢的緣故,每一個(gè)字的讀音彼此都拉得很開(kāi),所以字調(diào)的調(diào)形保留了其單字的調(diào)形,多字調(diào)的效果弱化。但由于在悲的語(yǔ)句中幾乎每個(gè)字都夾雜了一定程度的鼻音,所以要進(jìn)行鼻音化的處理,使悲的語(yǔ)句的調(diào)閾降低,整個(gè)語(yǔ)句趨于平坦化。恐懼情感在語(yǔ)速、基音、基音范圍上同高興情感、生氣情感的語(yǔ)句相類(lèi)似,不同的地方僅在于語(yǔ)句的清晰度較其它情感精確。在實(shí)際的識(shí)別過(guò)程中目前還沒(méi)有找到識(shí)別該種情感的有效特征參數(shù)。厭惡情感由于和生氣情感具有較高的相似性,在很多研究文獻(xiàn)中被歸入生氣情感中進(jìn)行研究,大部分的特征參數(shù)和生氣情感類(lèi)似。同生氣時(shí)的

6、主要區(qū)別在于基音的變化率比較寬,并在語(yǔ)句末端有向下傾斜的趨勢(shì)。在漢語(yǔ)語(yǔ)音情感信息處理的研究方面,作為基礎(chǔ)研究,其超音段特征的研究將占較大比例。對(duì)于喜、怒、驚、悲四種情感,漢語(yǔ)語(yǔ)音信號(hào)的時(shí)間構(gòu)造、振幅構(gòu)造、基頻構(gòu)造和共振峰構(gòu)造等特征的構(gòu)造特點(diǎn)和分布規(guī)律,可以分析如下。時(shí)間構(gòu)造的分析:分析情感語(yǔ)音 的時(shí)間構(gòu)造主要著眼于不同情感 語(yǔ)音的發(fā)話時(shí)間構(gòu)造的差別。我 們可以計(jì)算出每一情感語(yǔ)句從開(kāi) 始到結(jié)束的持續(xù)時(shí)間,這一時(shí)間 包括句中的無(wú)聲部分,因?yàn)闊o(wú)聲 部分本身對(duì)情感是有貢獻(xiàn)的。然后就情感語(yǔ)句的發(fā)話持續(xù)時(shí)間長(zhǎng)度(以下簡(jiǎn)稱(chēng)為T(mén))以及平均發(fā)話速率(音節(jié)/秒)和情感的關(guān)系進(jìn)行了分析和比較。 從圖12-2可以看出

7、,在發(fā)話的持續(xù)時(shí)間上,憤怒、驚奇的發(fā)音長(zhǎng)度和平靜發(fā)音相比壓縮了,而歡快、悲傷的發(fā)音長(zhǎng)度卻伸長(zhǎng)了。在被壓縮的憤怒、驚奇中,憤怒的發(fā)音最短,其次是驚奇。歡快和悲傷相比,悲傷伸長(zhǎng)很多,而歡快只是稍稍伸長(zhǎng)。通過(guò)進(jìn)一步的觀察可知,這些現(xiàn)象的產(chǎn)生是由于和平靜語(yǔ)音相比,在情感語(yǔ)音中一些音素被模糊地發(fā)音、拖長(zhǎng)或省略掉了的緣故。根據(jù)上述分析結(jié)果,我們可以利用情感語(yǔ)音的時(shí)間構(gòu)造很容易地區(qū)分歡快、悲傷和其它情感信號(hào)。也可以通過(guò)設(shè)定某些時(shí)間特征閾值,來(lái)區(qū)分歡快和悲傷的情感信號(hào)。振幅構(gòu)造的分析:信號(hào)的振幅特征與各種情感信息具有較強(qiáng)的相關(guān)性。因此,在一些有關(guān)情感分析的研究中,振幅構(gòu)造特性都是作為重要特征加以分析研究的。情

8、感語(yǔ)句的振幅構(gòu)造分析,主要針對(duì)振幅平均能量以及動(dòng)態(tài)范圍(以下分別簡(jiǎn)稱(chēng)為A和A range)等特征量進(jìn)行分析比較。 從分析結(jié)果可知,歡快、憤怒、驚奇3種情感發(fā)音信號(hào)和平靜發(fā)音信號(hào)相比振幅將變大,相反地,悲傷和平靜相比,振幅將減小。而且從聽(tīng)取實(shí)驗(yàn)可知,情感信號(hào)具有這樣的傾向,即,歡快、憤怒、驚奇的平均振幅越大,悲傷的平均振幅越小,其情感效應(yīng)表現(xiàn)的越明顯。利用振幅特征,我們可以很清楚地把歡快、憤怒、驚奇和悲傷區(qū)分開(kāi)來(lái),另外,振幅特性也具有一定的區(qū)分歡快、憤怒和驚奇情感信號(hào)的能力。 基頻構(gòu)造的分析:基音頻率也是反映情感信息的重要特征之一。為了分析情感語(yǔ)音信號(hào)基頻構(gòu)造的特征,首先要求出情感語(yǔ)音信號(hào)的平滑

9、的基頻軌跡曲線,然后分析不同情感信號(hào)基頻軌跡曲線的變化情況,找出不同的情感信號(hào)各自具有的基頻構(gòu)造特征。分析可知,不同情感信號(hào)軌跡曲線的的動(dòng)態(tài)范圍、整個(gè)曲線的基頻平均值以及變化率(以下分別簡(jiǎn)稱(chēng)為F0, F0 range和F0 rate)等特征可以反映不同情感的變化。 和平靜語(yǔ)音信號(hào)相比、歡快、憤怒和驚奇的平均基頻、動(dòng)態(tài)范圍、平均變化率比較大,而相反,悲傷語(yǔ)音信號(hào)的則較小。對(duì)比較大的歡快、憤怒、驚奇來(lái)講,驚奇語(yǔ)音信號(hào)的特征量最大,其次是歡快和憤怒。另外,通過(guò)觀察語(yǔ)音信號(hào)的基頻軌跡曲線,可以發(fā)現(xiàn)了一個(gè)區(qū)分驚奇和其它情感信號(hào)的重要特征,那就是驚奇情感信號(hào)的基頻軌跡曲線在句尾的地方往往有上翹的特征。共振

10、峰構(gòu)造的分析:共振峰是反映聲道特性的一個(gè)重要參數(shù)。不同情感發(fā)音的共振峰的位置不同。分析時(shí)首先用LPC法求出聲道的功率譜包絡(luò),再用峰值檢出法(Peak Picking)算出各共振峰的頻率。對(duì)于不同情感第一共振峰頻率的平均值,動(dòng)態(tài)范圍和變化率(以下分別簡(jiǎn)稱(chēng)為F1 、F1 range和F1 rate)的分析結(jié)果如圖12-7所示。圖12-8是一句情感語(yǔ)句的四種不同的情感的第一共振峰頻率的逐幀演示。 分析結(jié)論:綜合以上從四個(gè)方面對(duì)含有四種情感的語(yǔ)音信號(hào)進(jìn)行的分析比較,我們可以歸納出如表12-4所示的情感信號(hào)的特征規(guī)律。12.3 語(yǔ)音情感識(shí)別方法 12.3.1 主元分析法(PCA)對(duì)于要識(shí)別的數(shù)據(jù),假設(shè)有

11、N個(gè)樣本信號(hào),使用的特征參數(shù)個(gè)數(shù)為K個(gè)。對(duì)這個(gè)樣本信號(hào)求K個(gè)特征參數(shù)所對(duì)應(yīng)的協(xié)方差陣,然后對(duì)協(xié)方差陣進(jìn)行特征值分解得到K個(gè)特征值和相應(yīng)的特征矢量。對(duì)于不同的情感,利用樣本庫(kù)中的樣本分別計(jì)算不同的主元k相對(duì)于不同的情感類(lèi)型j所具有的均值 和方差 。并用下列各式進(jìn)行最大可分性處理。這里J是采用的情感的類(lèi)型個(gè)數(shù), 表示第k個(gè)主元在情感類(lèi)別中的分離性, 表示第k個(gè)主元在情感類(lèi)別中的集中性。用 來(lái)反映主元在情感類(lèi)別中的辨別能力, 越大時(shí),辨別能力越強(qiáng)。按順序?qū)個(gè)主元進(jìn)行排列,選取p個(gè) 較大的主元作為識(shí)別用的主元。識(shí)別時(shí),首先獲取識(shí)別用信號(hào)的特征參數(shù)矢量 ,并利用已知的各參數(shù)在不同情感中的均值和方差對(duì)該

12、特征參數(shù)進(jìn)行標(biāo)準(zhǔn)化得到 (由于矢量中的各維元素的單位不統(tǒng)一,所以在多變量分析前,應(yīng)把各維元素都化成均值為0、方差為1的正態(tài)分布參數(shù))。然后將 對(duì)選取的各個(gè)主元的基向量 分別進(jìn)行投影求和,獲得待識(shí)別語(yǔ)音在各個(gè)有效主元的得分值 。 按上式計(jì)算不同情感中各有效主元的綜合概率。最后選取概率最大的情感作為識(shí)別情感。利用主元分析方法進(jìn)行語(yǔ)音信號(hào)情感識(shí)別的訓(xùn)練和識(shí)別流程如圖12-9所示。 12.3.2 神經(jīng)網(wǎng)絡(luò)方法(ANN)對(duì)于情感識(shí)別的問(wèn)題,首先對(duì)每個(gè)情感構(gòu)造一個(gè)網(wǎng)絡(luò)。這種類(lèi)型的網(wǎng)絡(luò)叫做OCON(One-class-in-one-network)??梢圆捎萌鐖D12-10所示的子網(wǎng)絡(luò)并行結(jié)構(gòu),將提取出的特征

13、矢量輸入到每個(gè)子神經(jīng)網(wǎng)絡(luò)中,每個(gè)子網(wǎng)絡(luò)采用三層神經(jīng)元的MLP結(jié)構(gòu),輸出為一個(gè)界于0到1之間的數(shù)值,表示輸入的參數(shù)矢量可能屬于某種情感的似然程度。 對(duì)于每個(gè)子網(wǎng)絡(luò),首先構(gòu)造一個(gè)神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu),選定各層傳遞函數(shù),根據(jù)給定一個(gè)衡量理想輸出和實(shí)際輸出的能量函數(shù)。不同情感子網(wǎng)絡(luò)具有相同的結(jié)構(gòu),僅僅在權(quán)值上有所不同。利用這個(gè)函數(shù)對(duì)網(wǎng)絡(luò)中各個(gè)節(jié)點(diǎn)的權(quán)值求偏導(dǎo)數(shù)來(lái)確定實(shí)際的權(quán)值,使每個(gè)子網(wǎng)絡(luò)逼近于實(shí)際的情感概率模型。 在識(shí)別時(shí),把獲取的特征參數(shù)輸入到不同的情感子網(wǎng)絡(luò)中,對(duì)各個(gè)情感網(wǎng)絡(luò)的結(jié)果進(jìn)行判決來(lái)選擇似然程度最大的情感作為識(shí)別結(jié)果。 12.3.3 混合高斯模型法(GMM)混合高斯模型(GMM)是只有一個(gè)狀態(tài)的

14、模型,在這個(gè)狀態(tài)里具有多個(gè)高斯分布函數(shù)。其中 是一個(gè)高斯分布函數(shù),不同高斯分布之間的加權(quán)系數(shù) 滿足條件:在訓(xùn)練時(shí)首先利用矢量量化(VQ)抽取各類(lèi)情感中有效主元矢量集的碼本,并對(duì)每個(gè)碼字求出相應(yīng)的方差,這樣每個(gè)碼字和相應(yīng)的方差就可以組成一個(gè)高斯分布函數(shù)。在識(shí)別時(shí),對(duì)于某個(gè)語(yǔ)音情感主元特征矢量來(lái)求取它相對(duì)于每個(gè)情感類(lèi)別的概率值,概率最大的即為識(shí)別結(jié)果。12.4 情感語(yǔ)音的合成情感語(yǔ)音的合成屬于語(yǔ)音的規(guī)則合成(Synthesis-by-Rule),這里包含兩個(gè)方面的內(nèi)容。其一是合成技術(shù)的選擇,其二是合成規(guī)則的制定。 基音同步疊加技術(shù)(PSOLA),由于它既能保持原始語(yǔ)音的主要音段特征,又能在音節(jié)拼接

15、時(shí)靈活調(diào)整其基音、能量和音長(zhǎng)等韻律特征,因而很適合于情感語(yǔ)音的合成。 根據(jù)對(duì)前面介紹的情感語(yǔ)句特征參數(shù)的考察以及聽(tīng)音者的主觀感覺(jué),可以初步總結(jié)出不同情感語(yǔ)音的韻律特征變化的規(guī)律。喜:含喜的語(yǔ)句的時(shí)長(zhǎng)和平靜的平敘句相當(dāng),但這主要是由句子的尾部帶來(lái)的影響,句子的前部和中部都比相應(yīng)內(nèi)容的平靜平敘句的語(yǔ)速要快一些。句子的振幅強(qiáng)度也集中在句子的末尾的一兩個(gè)字,整個(gè)句子的聲調(diào)的調(diào)域要比平靜平敘句高。由于句子的前中部語(yǔ)速加快,受到生理原因和語(yǔ)法條件的制約,句中非關(guān)鍵性的字和詞的調(diào)形拱度就變得平坦一些,甚至失去本調(diào),而成為前后相鄰兩調(diào)的中間過(guò)渡。句尾的感嘆詞在平靜平敘句中讀輕聲,在這里語(yǔ)氣有很強(qiáng)的加重,并且調(diào)

16、形變成為先升后降的山包形。 怒:含怒的語(yǔ)句的時(shí)長(zhǎng)約為平敘句的一半左右,其振幅強(qiáng)度也很高,是加速句和加強(qiáng)句的結(jié)合。句中的動(dòng)詞和修飾動(dòng)詞的副詞的振幅強(qiáng)度比平均值要高一些。句子的調(diào)閾抬高,但調(diào)形不一定變平,有時(shí)它們的拱度甚至更加擴(kuò)展了。句尾的感嘆詞的調(diào)形也不同于輕聲,而變成類(lèi)似于上聲的聲調(diào)。驚:含驚的語(yǔ)句的情況和含喜的語(yǔ)句相類(lèi)似,不同的地方在于句尾的調(diào)形有上翹的趨勢(shì)。整個(gè)句子的平均振幅強(qiáng)度比平靜平敘句略高,原因在于句尾的平均振幅強(qiáng)度增高了。悲:含悲的語(yǔ)句的時(shí)長(zhǎng)約為平敘句的一倍左右,其振幅強(qiáng)度也比平敘句低許多。由于每一個(gè)字的讀音彼此都拉得很開(kāi),所以字調(diào)的調(diào)形保留了其單字的調(diào)形,多字調(diào)的效果弱化了。但由于悲的語(yǔ)句中幾乎每

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶(hù)所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶(hù)上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶(hù)上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶(hù)因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論