情感語(yǔ)音識(shí)別本科論文_第1頁(yè)
情感語(yǔ)音識(shí)別本科論文_第2頁(yè)
情感語(yǔ)音識(shí)別本科論文_第3頁(yè)
情感語(yǔ)音識(shí)別本科論文_第4頁(yè)
情感語(yǔ)音識(shí)別本科論文_第5頁(yè)
已閱讀5頁(yè),還剩56頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、精品文檔,值得收藏!基于mfcc和zcpa的語(yǔ)音情感識(shí)別摘要隨著計(jì)算機(jī)技術(shù)的不斷發(fā)展,人們對(duì)計(jì)算機(jī)的要求越來越高,逐漸要求計(jì)算機(jī)具有人工智能,而語(yǔ)音情感識(shí)別是人工智能領(lǐng)域的研究熱點(diǎn)。語(yǔ)音情感識(shí)別包括語(yǔ)音信號(hào)預(yù)處理、語(yǔ)音情感特征提取和語(yǔ)音情感識(shí)別分類器等。本文使用太原理工大學(xué)錄制的情感語(yǔ)音庫(kù),該數(shù)據(jù)庫(kù)包含高興、生氣和中性三種情感,本文采用的情感語(yǔ)音庫(kù)中的600句情感語(yǔ)音,文中對(duì)情感語(yǔ)音進(jìn)行了預(yù)處理,包括抗混疊濾波、預(yù)加重、加窗以及端點(diǎn)檢測(cè)等,并對(duì)高興、生氣和中性三種語(yǔ)音情感提取mfcc和zcpa特征,使用支持向量機(jī)對(duì)語(yǔ)音的三種情感進(jìn)行識(shí)別,實(shí)驗(yàn)結(jié)果表明,mfcc和zcpa特征均取得了較好的識(shí)別效

2、果。 關(guān)鍵字:語(yǔ)音情感識(shí)別,mfcc,zcpa,支持向量機(jī)speech emotion recognition based on mfcc and zcpaabstractwith the development of computer technology, peoples requirements of computer are higher and higher, and artificial intelligence is gradually important for computers. speech emotion recognition is one of the hotspo

3、ts in the field of artificial intelligence. the speech emotion recognition consists of speech signal pretreatment, feature extraction and speech emotion recognition classifier, etc. this paper used the emotional speech database recorded by the taiyuan university of technology, which contains happine

4、ss, anger and neutra. in this paper, we use 600 emotion sentences from emotional speech database. firstly, this paper pretreated emotion sentences, including aliasing filter, the pre-emphasis, adding window and endpoint detection, etc. this paper extracted mfcc and zcpa features from three emotions,

5、 and recognized by support vector machine (svm), the experimental results show that mfcc and zcpa features can get better recognition rate. key words: speech emotion recognition; mfcc; zcpa; svm;精品文檔,值得下載!目錄摘要iabstractii第一章緒論51.1語(yǔ)音情感識(shí)別概述51.1.1引言51.1.2語(yǔ)音識(shí)別的發(fā)展過程及其現(xiàn)狀51.1.3語(yǔ)音情感識(shí)別中面臨的問題和困難71.2.論文研究的主要內(nèi)容以

6、及章節(jié)安排7第二章語(yǔ)音情感識(shí)別原理和技術(shù)82.1綜述82.2.預(yù)處理82.2.1語(yǔ)音情感信號(hào)的預(yù)加重處理82.2.2語(yǔ)音情感信號(hào)的加窗處理102.2.3短時(shí)平均能量122.2.4短時(shí)平均過零率132.2.5語(yǔ)音情感信號(hào)的端點(diǎn)檢測(cè)152.3語(yǔ)音情感特征的提取162.3.1美爾頻率倒譜系數(shù)(mfcc)162.3.2過零率與峰值幅度(zcpa)182.4 本章小結(jié)19第三章語(yǔ)音情感及語(yǔ)音情感庫(kù)203.1語(yǔ)音情感203.1.1語(yǔ)音情感的分類203.1.2情感語(yǔ)句的選擇213.1.3國(guó)際情感數(shù)據(jù)庫(kù)213.2語(yǔ)音情感數(shù)據(jù)庫(kù)223.3本章小結(jié)23第四章 語(yǔ)音情感識(shí)別分類器244.1語(yǔ)音情感識(shí)別技術(shù)基本原理2

7、44.2語(yǔ)音情感識(shí)別的方法244.3支持向量機(jī)254.3.1支持向量機(jī)發(fā)展歷史254.3.2支持向量機(jī)的理論基礎(chǔ)254.3.3最大間隔分類超平面264.3.4支持向量機(jī)的原理274.3.5支持向量機(jī)的核函數(shù)294.4 兩種特征參數(shù)的語(yǔ)音情感識(shí)別實(shí)驗(yàn)304.4.1 情感語(yǔ)句的兩種特征參數(shù)識(shí)別實(shí)驗(yàn)304.4.2 實(shí)驗(yàn)分析和結(jié)論314.5 本章小結(jié)32參考文獻(xiàn)33致謝35附錄一:外文翻譯36附錄二:外文文獻(xiàn)翻譯45附錄三:程序52第一章緒論1.1語(yǔ)音情感識(shí)別概述1.1.1引言 隨著信息技術(shù)的高速發(fā)展以及人類對(duì)計(jì)算機(jī)的依賴性不斷加強(qiáng),人機(jī)交互(hci)的深度和能力受到了越來越多研究者的青睞,計(jì)算機(jī)與人

8、類的交流的語(yǔ)言有各種各樣,其中包括各類的低級(jí)語(yǔ)言和高級(jí)語(yǔ)言。幾年來,研究者們傾向于如何與機(jī)器進(jìn)行語(yǔ)音交流,讓計(jì)算機(jī)明白你在說什么,更進(jìn)一步了解到你說話的情感狀態(tài),自適應(yīng)地給對(duì)話對(duì)象提供最舒適的對(duì)話環(huán)境,盡量消除操作者和機(jī)器之間的障礙。如果說以前的研究是屬于“智”,那么近年來研究的方向則為“心”1,這些研究的目的終究是為了讓計(jì)算機(jī)更加人性化、情感化。研究計(jì)算機(jī)的情感識(shí)別技術(shù),可以從兩大方面分析:一是通過面部表情,在hci領(lǐng)域中,面部表情和手勢(shì)向來是情感識(shí)別系統(tǒng)中的基本方式;二是語(yǔ)音,在溝通過程中想要得知對(duì)方的動(dòng)機(jī)和情緒,語(yǔ)音是最有利和最直接的方式。在語(yǔ)音信號(hào)中的情感信息是一種很重要的信息資源,它

9、是人們感知事物必不可少的部分信息,同樣說的一句話,由于說話人的情感不同,在聽者的感知上就可能會(huì)有較大的差別。語(yǔ)音之所以能夠表達(dá)出不同的情感,是因?yàn)檎Z(yǔ)音信號(hào)中含有能體現(xiàn)情感特征的參數(shù),研究認(rèn)為,在某種特定的情感狀態(tài)所引起的語(yǔ)音參數(shù)在不同的人之間是大致相同的。因此計(jì)算機(jī)可以利用提取語(yǔ)音情感特征的方式來識(shí)別人的情感。目前,相關(guān)的情感識(shí)別的研究在不斷的深入中,而其中語(yǔ)音信號(hào)中的情感信息處理的研究正越來越受到人們的重視2,如美國(guó)、日本、歐洲、韓國(guó)等許多國(guó)家的一些研究單位都在進(jìn)行語(yǔ)音情感處理的研究工作。語(yǔ)音情感識(shí)別的研究也有相當(dāng)大的研究前景,比如:用于自動(dòng)遠(yuǎn)程電話服務(wù)中心,及時(shí)發(fā)現(xiàn)客戶的不滿情緒;用于遠(yuǎn)程

10、教學(xué)和嬰兒教育,及時(shí)識(shí)別學(xué)生的情緒并做出適當(dāng)?shù)奶幚?,從而提高教學(xué)質(zhì)量;也可以用于刑事偵查中自動(dòng)檢測(cè)犯罪嫌疑人的心理狀態(tài)以及輔助測(cè)謊等。語(yǔ)音情感識(shí)別是一門涉及面很廣泛的交叉學(xué)科,與計(jì)算機(jī)、通信、語(yǔ)音語(yǔ)言學(xué)、數(shù)理統(tǒng)計(jì)、信號(hào)處理、神經(jīng)心理學(xué)和人工智能等學(xué)科都有著密切的關(guān)系。語(yǔ)音情感識(shí)別的最大優(yōu)勢(shì)在于使得人機(jī)用戶界面更加自然和容易使用。隨著計(jì)算機(jī)技術(shù)、模式識(shí)別和信號(hào)處理技術(shù)及聲學(xué)技術(shù)等的發(fā)展,使得能滿足各種需要的語(yǔ)音情感識(shí)別系統(tǒng)實(shí)現(xiàn)成為可能。近二三十年來,語(yǔ)音情感識(shí)別在工業(yè)、軍事、交通、醫(yī)學(xué)、民用諸方面,特別是計(jì)算機(jī)、信息處理、通信與電子系統(tǒng)、自動(dòng)控制等領(lǐng)域中有著越來越廣泛的應(yīng)用3-5。1.1.2語(yǔ)音

11、識(shí)別的發(fā)展過程及其現(xiàn)狀語(yǔ)音情感識(shí)別是語(yǔ)音信號(hào)處理領(lǐng)域崛起的新秀,相關(guān)研究至今已有二十余年的研究歷史,對(duì)提升智能人機(jī)交互水平和豐富多媒體檢索方式有著重要的實(shí)際意義。在1972年williams發(fā)現(xiàn)人的情感變化對(duì)語(yǔ)音的基音輪廓有很大的影響,這是國(guó)外最早開展的語(yǔ)音情感方面的研究之一。1990年mit多媒體實(shí)驗(yàn)室構(gòu)造了一個(gè)“情感編輯器”對(duì)外界各種情感信號(hào)進(jìn)行采樣,如人的語(yǔ)音信號(hào)、臉部表情信號(hào)等來識(shí)別各種情感6。1996年日本東京seikei大學(xué)提出情感空間的概念并建立了語(yǔ)音情感模型。2000年,maribor大學(xué)的vladimir hozjan研究了基于多種語(yǔ)言的語(yǔ)音情感識(shí)別7。2009年4月,日本產(chǎn)

12、業(yè)技術(shù)綜合研究所(aist)研制一個(gè)具有豐富表情的新型女性機(jī)器人“hrp-4c”。通過對(duì)主人語(yǔ)音情感信號(hào)的識(shí)別,機(jī)器人可以做出喜、怒、哀、樂和驚訝的表情等8。在國(guó)內(nèi),語(yǔ)音情感識(shí)別的研究起步較晚。2001年,東南大學(xué)趙力等人提出語(yǔ)音信號(hào)中的情感識(shí)別研究。2003年,北京科技大學(xué)的谷學(xué)靜等人將bdi agent技術(shù)應(yīng)用與情感機(jī)器人的語(yǔ)音識(shí)別技術(shù)研究中。另外,2003年12月中科院自動(dòng)化所等單位在北京主辦了第一屆中國(guó)情感計(jì)算及智能交互學(xué)術(shù)會(huì)議。2005年10月又在北京主辦了首屆國(guó)際情感計(jì)算及智能交互學(xué)術(shù)會(huì)議。目前許多國(guó)家的研究機(jī)構(gòu)都在致力于該領(lǐng)域的研究。在國(guó)外,研究最活躍的是美國(guó)麻省理工大學(xué)媒體實(shí)驗(yàn)

13、室。國(guó)際語(yǔ)音通信協(xié)會(huì)(isca)為此也做了很大的貢獻(xiàn),2000年isca在北愛爾蘭的貝爾法斯特召開了一個(gè)稱為“語(yǔ)音與情感:研究的概念框架”的研討會(huì),使眾多不同領(lǐng)域的研究者聚集到一起討論語(yǔ)音情感識(shí)別的問題,為語(yǔ)音情感識(shí)別的研究做了很大的貢獻(xiàn),現(xiàn)在該協(xié)會(huì)每?jī)赡昱e辦一次的eurospeech或interspeech國(guó)際會(huì)議,是語(yǔ)音研究領(lǐng)域非常出名的大會(huì)。而在國(guó)內(nèi),目前在該領(lǐng)域研究比較活躍的單位有中國(guó)科學(xué)院自動(dòng)化研究所和東南大學(xué)學(xué)習(xí)科學(xué)研究中心等。特別是中科院自動(dòng)化所為中國(guó)情感計(jì)算研究的發(fā)展做了不可磨滅的貢獻(xiàn),2003年12月中科院自動(dòng)化所等單位在北京主辦了第一屆中國(guó)情感計(jì)算及智能交互學(xué)術(shù)會(huì)議,200

14、5年10月又在北京主辦了首屆國(guó)際情感計(jì)算及智能交互學(xué)術(shù)會(huì)議,將眾多國(guó)內(nèi)乃至國(guó)際上該領(lǐng)域的專家聚集到一起。對(duì)于情感語(yǔ)音識(shí)別的研究現(xiàn)在還存在許多難點(diǎn),比如情感的定義及不同情感的界定,情感語(yǔ)音數(shù)據(jù)庫(kù)的采集,有效情感語(yǔ)音特征的尋找以及高效的情感識(shí)別算法的研究等。另外,如何提高系統(tǒng)的魯棒性也是一個(gè)比較突出的難點(diǎn),目前還沒有相關(guān)報(bào)道。要研究如何從語(yǔ)音中自動(dòng)的識(shí)別情感,首先必須有情感理論作為基礎(chǔ)。人類的情感是一種極其復(fù)雜的現(xiàn)象,要對(duì)其準(zhǔn)確的定義和描述并不是一件容易的事情。在心理學(xué)領(lǐng)域,對(duì)情感的研究已經(jīng)有很長(zhǎng)的歷史,但到目前為止,還沒有一種統(tǒng)一的定義和理論模型。美國(guó)瓦薩大學(xué)心理學(xué)系的cornelius教授總結(jié)

15、了過去125年左右心理學(xué)領(lǐng)域?qū)η楦欣碚撗芯康乃姆N主要觀點(diǎn)結(jié)果表明四種觀點(diǎn)對(duì)情感有截然不同的定義和研究傳統(tǒng),但他認(rèn)為,四種觀點(diǎn)并不是截然對(duì)立的,已經(jīng)逐漸相互融合和交叉,當(dāng)今的許多研究者都同時(shí)繼承了不同的觀點(diǎn),如美國(guó)加州大學(xué)的ekman教授及其“基本”情感理論.瑞士日內(nèi)瓦大學(xué)的scherer認(rèn)為在言語(yǔ)交流中情感的重要性及其對(duì)聽者產(chǎn)生的巨大影響很早就為許多學(xué)者所認(rèn)同,最早的可見于古希臘和古羅馬對(duì)雄辯學(xué)(rhetoric)的記載,如亞里斯多德的手冊(cè)。在19世紀(jì)由于現(xiàn)代進(jìn)化生物學(xué)的出現(xiàn)重新激發(fā)了人們對(duì)情感表達(dá)的研究興趣,最有代表性的是達(dá)爾文的研究及其在1872年出版的著作the expression o

16、f the emotion in man and animals。對(duì)語(yǔ)音情感的系統(tǒng)研究始于20世紀(jì)60年代,當(dāng)時(shí)的精神病學(xué)家試圖從病人的聲音中診斷出他們的情感狀態(tài)。近年來由于人們對(duì)計(jì)算機(jī)智能的要求越來越高及情感計(jì)算的興起,更多的人投入到了情感識(shí)別的研究中9。1.1.3語(yǔ)音情感識(shí)別中面臨的問題和困難 雖然世界各國(guó)的研究人員在語(yǔ)音情感識(shí)別研究領(lǐng)域中取得了許多的研究成果,采用的特征以及識(shí)別模型各種各樣,但是究竟應(yīng)該選擇什么特征?用什么建模方法?由于目前各種文獻(xiàn)使用的情感語(yǔ)音數(shù)據(jù)庫(kù)不同,得到的識(shí)別結(jié)果也相去甚遠(yuǎn),不具有可比性,因而很難客觀地判斷特征及建模方法的優(yōu)劣,現(xiàn)階段主要存在的問題如下:語(yǔ)音情感數(shù)

17、據(jù)庫(kù)中該領(lǐng)域研究的基礎(chǔ),目前沒有一個(gè)多語(yǔ)言情感的數(shù)據(jù)庫(kù)可以研究,根據(jù)某些研究發(fā)現(xiàn),不同的語(yǔ)言的情感識(shí)別率有比較大的差距,如何建立一個(gè)比較規(guī)范的多語(yǔ)言的情感數(shù)據(jù)庫(kù)是現(xiàn)階段研究的首要任務(wù)?,F(xiàn)階段用于情感識(shí)別的特征有各種各樣,總結(jié)起來,可以大致分為兩類,即基于全局的靜態(tài)特征和基于局部的動(dòng)態(tài)特征?;l中的峰值、均值、方差是描述情感的最重要特征,在很多文獻(xiàn)中,研究者都是采用該特征作為特征參數(shù)。1.2.論文研究的主要內(nèi)容以及章節(jié)安排本文主要是對(duì)語(yǔ)音信號(hào)特征參數(shù)的提取的基礎(chǔ)之上進(jìn)行語(yǔ)音情感識(shí)別分析的,所使用的數(shù)據(jù)庫(kù)是太原理工大學(xué)實(shí)驗(yàn)室錄制的含有高興、生氣和中性三種情感的語(yǔ)音。在分析這些數(shù)據(jù)時(shí),選取了能夠辨識(shí)

18、情感的有效特征參數(shù)mfcc和zcpa,重點(diǎn)分析mfcc、zcpa之后采用支持向量機(jī)的分類器進(jìn)行語(yǔ)音情感的識(shí)別。本文在詳細(xì)論述了語(yǔ)音情感信號(hào)處理、語(yǔ)音情感識(shí)別以及支持向量機(jī)理論的基礎(chǔ)上,研究了如何利用支持向量機(jī)進(jìn)行語(yǔ)音情感識(shí)別。具體章節(jié)安排如下:第一章是緒論,概括介紹了語(yǔ)音情感識(shí)別研究的背景、語(yǔ)音情感識(shí)別涉及的領(lǐng)域、國(guó)內(nèi)外研究現(xiàn)狀和該領(lǐng)域研究中所面臨的困難,同時(shí)對(duì)語(yǔ)音情感識(shí)別的應(yīng)用領(lǐng)域進(jìn)行了簡(jiǎn)單描述;最后介紹了本論文的主要研究?jī)?nèi)容和章節(jié)安排。第二章主要介紹了語(yǔ)音情感識(shí)別原理和技術(shù),重點(diǎn)介紹了對(duì)語(yǔ)音信號(hào)進(jìn)行處理的各個(gè)步驟,包括預(yù)加重、加窗處理、端點(diǎn)檢測(cè)。另外還重點(diǎn)討論了語(yǔ)音情感識(shí)別系統(tǒng)中常用到的兩

19、種特征參數(shù):mfcc和zcpa。這兩種參數(shù)為后續(xù)文章中的語(yǔ)音情感識(shí)別中奠定了基礎(chǔ)。第三章主要介紹了語(yǔ)音情感的分類和選擇的常用規(guī)則,并且討論了當(dāng)今國(guó)際上較為著名的幾種語(yǔ)音情感數(shù)據(jù)庫(kù)。另外還詳細(xì)介紹了本文中所使用太原理工大學(xué)的語(yǔ)音庫(kù)。選取了該庫(kù)中的600句包括高興、生氣和中性三種情感。第四章介紹了語(yǔ)音情感識(shí)別技術(shù)的基本原理和方法,重點(diǎn)介紹了支持向量機(jī)的相關(guān)理論和原理,其中包括最大間隔分類超平面和支持向量機(jī)的核函數(shù)。還將兩種情感特征參數(shù)的語(yǔ)音情感識(shí)別實(shí)驗(yàn)做了大致地介紹,并列出了實(shí)驗(yàn)結(jié)論和對(duì)實(shí)驗(yàn)結(jié)果進(jìn)行了分析。第二章語(yǔ)音情感識(shí)別原理和技術(shù)2.1綜述不同的語(yǔ)音情感識(shí)別系統(tǒng),其設(shè)計(jì)和實(shí)現(xiàn)的細(xì)節(jié)是不一樣的,

20、但是其采用的基本技術(shù)都是相似的。語(yǔ)音情感識(shí)別系統(tǒng)與語(yǔ)音識(shí)別系統(tǒng)類似,分為語(yǔ)音情感語(yǔ)句預(yù)處理、特征參數(shù)提取和模式匹配三個(gè)部分。其識(shí)別過程如下:首先對(duì)情感語(yǔ)句進(jìn)行預(yù)處理,語(yǔ)音情感語(yǔ)句預(yù)處理包括預(yù)加重、分幀加窗和端點(diǎn)檢測(cè)等;其次是對(duì)情感語(yǔ)句提取特征參數(shù),如和等頻譜特征參數(shù);然后在此基礎(chǔ)之上建立模板,這個(gè)建立模板的過程稱為訓(xùn)練過程;將特征參數(shù)與模式匹配的過程稱為識(shí)別過程。2.2.預(yù)處理實(shí)際的語(yǔ)音情感信號(hào)是模擬信號(hào),因此對(duì)語(yǔ)音情感信號(hào)進(jìn)行數(shù)字處理之前,首先要將模擬語(yǔ)音情感信號(hào)以周期為的采樣,將其離散化為,采樣周期的選取應(yīng)根據(jù)模擬語(yǔ)音信號(hào)的帶寬來確定,以避免信號(hào)的頻域混疊失真。對(duì)語(yǔ)音情感信號(hào)進(jìn)行預(yù)處理包括

21、:預(yù)加重、加窗和端點(diǎn)檢測(cè)。2.2.1語(yǔ)音情感信號(hào)的預(yù)加重處理對(duì)輸入的語(yǔ)音情感信號(hào)進(jìn)行預(yù)加重處理的目的是對(duì)語(yǔ)音信號(hào)的高頻部分進(jìn)行加重,去除口唇輻射的影響,增加語(yǔ)音的高頻分辨率。由于語(yǔ)音信號(hào)的平均功率譜受聲門激勵(lì)和口鼻輻射的影響,高頻端大約在800hz以上按6db/倍頻程跌落,即6db/oct(2倍頻)或20db/dec(10倍頻),所以求語(yǔ)音信號(hào)頻譜時(shí),頻率越高相應(yīng)的成分越小,高頻部分的頻譜比低頻部分的難求,為此要在預(yù)處理中進(jìn)行預(yù)加重(pre-emphasis)處理預(yù)加重的目的是提升高頻部分,使信號(hào)的頻譜變得平坦,保持在低頻到高頻的整個(gè)頻帶中,能用同樣的信噪比求頻譜,以便于頻譜分析或聲道參數(shù)分析

22、預(yù)加重可在語(yǔ)音信號(hào)數(shù)字化時(shí)在反混疊濾波器之前進(jìn)行,這樣不僅可以進(jìn)行預(yù)加重,而且可以壓縮信號(hào)的動(dòng)態(tài)范圍,有效地提高信噪比但預(yù)加重一般是在語(yǔ)音情感信號(hào)數(shù)字化之后,參數(shù)分析之前在計(jì)算機(jī)里用6db/倍頻程的提升高頻特性的預(yù)加重?cái)?shù)字濾波器來實(shí)現(xiàn),它一般是一階的數(shù)字濾波器: (2-1)其中的值接近于1。若時(shí)刻的語(yǔ)音采樣值為,經(jīng)預(yù)加重處理后的結(jié)果為: (2-2)圖2.1給出了預(yù)加重濾波器的幅頻特性和相頻特性;圖2.2分別給出了預(yù)加重前和預(yù)加重之后的一段濁音信號(hào)以及頻譜。圖2.1預(yù)加重濾波器的幅頻特性和相頻特性圖2.2 預(yù)加重前和預(yù)加重后的一段濁音信號(hào)及頻譜2.2.2語(yǔ)音情感信號(hào)的加窗處理在預(yù)加重?cái)?shù)字濾波處理

23、后,需要進(jìn)行加窗分幀處理。由于人自身的發(fā)音器官的運(yùn)動(dòng),語(yǔ)音情感信號(hào)是一種典型的非平穩(wěn)信號(hào)。但是相比于聲波振動(dòng)的速度,發(fā)音器官的運(yùn)動(dòng)就顯得非常緩慢了。因此,工程技術(shù)人員通常認(rèn)為10ms-30ms這樣長(zhǎng)度的時(shí)間段中,語(yǔ)音信號(hào)是平穩(wěn)信號(hào)。幾乎所有的語(yǔ)音情感信號(hào)處理方法都是基于這個(gè)假設(shè)。這樣每秒的幀數(shù)大約為33-100。分幀雖然可以采用連續(xù)分段的方法,但一般要采用交疊分段的方法,這是為了使幀與幀之間平滑過渡,保持其連續(xù)性。前一幀和后一幀的交疊部分稱為幀移,幀移幀長(zhǎng)的比值一般取為0-0.5。分幀是用可移動(dòng)的有限長(zhǎng)度窗口進(jìn)行加權(quán)的方法來實(shí)現(xiàn)的,這就是用一定的窗函數(shù)來乘,從而形成加窗語(yǔ)音情感信號(hào): (2-3

24、)在語(yǔ)音信號(hào)數(shù)字處理中常用的窗函數(shù)是矩形窗(rectangular window)和漢明窗(hamming window)等,矩形窗如式(2-4)所示: (2-4)漢明窗如式(2-5)所示: (2-5)窗函數(shù)的選擇(形狀和長(zhǎng)度),對(duì)于短時(shí)分析參數(shù)的特性影響很大。為此應(yīng)選擇合適的窗口,使其短時(shí)參數(shù)更好地反映語(yǔ)音信號(hào)的特性變化。下面從窗口形狀和窗口長(zhǎng)度兩方面來討論這個(gè)問題。1 窗口形狀 雖然不同的短時(shí)分析方法(時(shí)域、頻域、倒頻域分析)以及求取不同的語(yǔ)音特征參數(shù)可能對(duì)窗函數(shù)的要求不一樣,但一般來講,一個(gè)好的窗函數(shù)的標(biāo)準(zhǔn)是:在時(shí)域因?yàn)槭钦Z(yǔ)音波形乘以窗函數(shù),所以要減小時(shí)間窗兩端的坡度,使窗口邊緣兩端不引

25、起急劇變化而平滑過渡到零,這樣可以是截取出的語(yǔ)音波形緩慢降為零,減小語(yǔ)音幀的截?cái)嘈?yīng);在頻域要有較寬的3db帶寬以及較小的邊帶最小值。這里以典型的矩形窗和漢明窗為例進(jìn)行比較。1) 矩形窗時(shí): (2-6)對(duì)應(yīng)于該單位函數(shù)響應(yīng)的數(shù)字濾波器的頻率響應(yīng)為: (2-7)它具有線性的相位頻率特性,其頻率響應(yīng)為第一個(gè)零值時(shí)對(duì)應(yīng)的頻率為: (2-8)這里,為采用頻率,為采樣周期。2) 漢明窗時(shí): (2-9)發(fā)現(xiàn)其頻率響應(yīng)的第一個(gè)零值頻率(即帶寬)以及通帶外的衰減都比矩形窗要大許多。2 窗口長(zhǎng)度采樣周期、窗口長(zhǎng)度和頻率分辨率之間存在下列關(guān)系: (2-10)可見,采樣周期一定時(shí), 隨窗口寬度的增加而減小,即頻率分

26、辨率相應(yīng)得到提高,但同時(shí)時(shí)間分辨率降低;如果窗口取短,頻率分辨率下降,而時(shí)間分辨率提高,因而二者是矛盾的。應(yīng)該根據(jù)不同的需要選擇合適的窗口長(zhǎng)度。圖2.3為程序運(yùn)行后相應(yīng)的矩形窗時(shí)域波形和幅頻特性圖。圖2.4為程序運(yùn)行后相應(yīng)的漢明窗時(shí)域波形和幅頻特性。圖2.3矩形窗及其頻譜圖2.4漢明窗及其頻譜通過對(duì)比圖2.3和圖2.4可以看出矩形窗的主瓣寬度小于漢明窗,具有較高的頻譜分辨能力,但是矩形窗的旁瓣峰值較大,因此其頻譜泄露比較嚴(yán)重。相比較,雖然漢明窗的主瓣寬度較寬,約大于矩形窗一倍,但是其旁瓣衰減較大,具有更平滑的低通特性,能后在較高的程度上反映短時(shí)信號(hào)的頻率特性。2.2.3短時(shí)平均能量由于語(yǔ)音信號(hào)

27、的能量隨時(shí)間而變化,清音和濁音之間的能量差別相當(dāng)顯著。因此對(duì)短時(shí)能量和短時(shí)平均幅度進(jìn)行分析,可以描述語(yǔ)音的這種特征變化情況。語(yǔ)音信號(hào)在時(shí)刻的短時(shí)平均能量如下式所示: (2-11)式中為窗長(zhǎng),可見短時(shí)能量為一幀樣點(diǎn)值的加權(quán)平方和。當(dāng)窗函數(shù)為矩形窗時(shí),為 (2-12)當(dāng)時(shí), (2-13)即語(yǔ)音信號(hào)各個(gè)樣點(diǎn)值的平方,通過一個(gè)沖激響應(yīng)為的濾波器,輸出為由短時(shí)能量構(gòu)成的時(shí)間序列:圖2.5 語(yǔ)音信號(hào)的短時(shí)平均能量實(shí)現(xiàn)框圖短時(shí)平均能量的曲線由圖2.6所示:圖2.6 幀長(zhǎng)為200的語(yǔ)音短時(shí)能量短時(shí)平均能量的主要用途如下:1. 可以作為區(qū)分清音和濁音的特征參數(shù)。實(shí)驗(yàn)結(jié)果表明濁音的能量明顯高于清音,通過設(shè)置一個(gè)能

28、量門限值,可以大致判定濁音變?yōu)榍逡舻臅r(shí)刻,同時(shí)可以大致劃分濁音區(qū)間和清音區(qū)間。2. 在信噪比較高的情況下,短時(shí)能量也可以作為區(qū)分有聲和無聲的依據(jù)。3. 可以作為輔助的特征參數(shù)用于語(yǔ)音識(shí)別中。2.2.4短時(shí)平均過零率短時(shí)平均過零率是語(yǔ)音信號(hào)時(shí)域分析中的一種特征參數(shù)。它是指每幀內(nèi)信號(hào)通過零值的次數(shù)。對(duì)有時(shí)間橫軸的連續(xù)語(yǔ)音信號(hào),可以觀察到語(yǔ)音的時(shí)域波形通過橫軸的情況。在離散時(shí)間語(yǔ)音信號(hào)的情況下,如果相鄰的采樣具有不同的代數(shù)符號(hào)就稱為發(fā)生了過零,因此可以計(jì)算過零的次數(shù)。單位時(shí)間內(nèi)過零的次數(shù)為過零率,一段長(zhǎng)時(shí)間內(nèi)的過零率為平均過零率。如果是正弦信號(hào),其平均過零率就是信號(hào)頻率的兩倍除以采樣頻率,而采樣頻率

29、是固定的。因此過零率在一定程度上反映信號(hào)的頻率信息。語(yǔ)音信號(hào)不是簡(jiǎn)單的正弦序列,所以平均過零率的表示就不那么確切,但由于語(yǔ)音是一種短時(shí)平穩(wěn)信號(hào),采用短時(shí)平均過零率可以在一定程度上反映其頻譜性質(zhì),短時(shí)平均過零率可以定義為: (2-14)式中,代表符號(hào)函數(shù),其表達(dá)式如(2-15)式所示: (2-15)是窗長(zhǎng)為n的矩形窗,如(2-16)所示: (2-16)當(dāng)相鄰樣點(diǎn)符號(hào)相同時(shí),時(shí),可以認(rèn)為沒有過零,當(dāng)相鄰兩個(gè)樣點(diǎn)值相反時(shí),該值為過零次數(shù)的2倍,因此窗函數(shù)也可以表示為: (2-17)在矩形窗的條件下時(shí),短時(shí)平均過零率為: (2-18)圖2.7是一段語(yǔ)音的短時(shí)平均過零次數(shù)的變化曲線,其中窗長(zhǎng)為220,幀

30、重疊為50%,從圖中可以看出清音段和濁音段的短時(shí)平均過零率。圖2.7一段語(yǔ)音的短時(shí)平均過零率短時(shí)平均過零率可以語(yǔ)音信號(hào)清音和濁音的判斷,語(yǔ)音產(chǎn)生模型表明,由于聲門波引起了譜的高頻跌落,所以濁音語(yǔ)音能量約集中在3khz以下。但對(duì)于濁音語(yǔ)音,多數(shù)能量卻是出現(xiàn)在較高的頻率上。所以如果過零率高,語(yǔ)音信號(hào)就是清音,如果過零率低,語(yǔ)音信號(hào)就是濁音。但是由于某些語(yǔ)音位于濁音和清音的重疊區(qū)域,僅靠短時(shí)平均過零率就不可能來清楚地判斷清音和濁音。2.2.5語(yǔ)音情感信號(hào)的端點(diǎn)檢測(cè)語(yǔ)音信號(hào)的端點(diǎn)檢測(cè)就是從包含語(yǔ)音的一段信號(hào)中準(zhǔn)確地確定語(yǔ)音的起始點(diǎn)和終止點(diǎn),從而區(qū)分語(yǔ)音和非語(yǔ)音信號(hào),它是語(yǔ)音處理技術(shù)中的一個(gè)重要方面。經(jīng)

31、過端點(diǎn)檢測(cè)后,不僅能減少語(yǔ)音情感特征的采集量,節(jié)約處理時(shí)間,還能排除無聲段或噪聲段的干擾,提高語(yǔ)音情感識(shí)別系統(tǒng)的性能。語(yǔ)音信號(hào)是時(shí)變非平穩(wěn)信號(hào),一般將其視為短時(shí)平穩(wěn)信號(hào)進(jìn)行處理,其特征依賴于時(shí)間。在識(shí)別時(shí),由于噪聲環(huán)境的引入,使系統(tǒng)無法正確判斷有效語(yǔ)音的起始點(diǎn)和終止點(diǎn),從而造成起點(diǎn)和終點(diǎn)的虛檢或漏檢情況,甚至把一段噪聲作為語(yǔ)音信號(hào)來進(jìn)行識(shí)別。因此,端點(diǎn)檢測(cè)的準(zhǔn)確性在某種程度上影響了特征提取及其識(shí)別的好壞。端點(diǎn)檢測(cè)是語(yǔ)音信號(hào)處理中的一個(gè)基本問題,其目的是從包含語(yǔ)音的一段信號(hào)中確定出語(yǔ)音的起始點(diǎn)和結(jié)束點(diǎn)。有效地端點(diǎn)檢測(cè)不僅能使處理的時(shí)間減到最少,而且能抑制無聲段的噪聲干擾,以高語(yǔ)音處理的質(zhì)量。判別

32、語(yǔ)音段的起始點(diǎn)和終止點(diǎn)的問題主要?dú)w結(jié)為區(qū)別噪聲和語(yǔ)音的問題,如果能夠保證系統(tǒng)的輸入信噪比很高(即使最低電平的語(yǔ)音能量也比噪聲能量高),那么只要計(jì)算輸入信號(hào)的短時(shí)能量就基本能夠把語(yǔ)音段和噪聲段區(qū)別開來。但是,在實(shí)際應(yīng)用過程中很難有那么高的信噪比,僅僅根據(jù)能量來進(jìn)行端點(diǎn)檢測(cè)是不行的。因此還需要利用短時(shí)平均過零率進(jìn)行判斷,因?yàn)榍逡艉蜐嵋舻亩虝r(shí)平均過零率比噪聲的平均過零率要高出好幾倍。通常采用基于短時(shí)幀能量和過門限率的雙門限端點(diǎn)檢測(cè)法來進(jìn)行端點(diǎn)檢測(cè)。在基于短時(shí)能量(energy)和過門限率(zcr)的雙門限端點(diǎn)檢測(cè)算法中,首先為短時(shí)能量和過門限率分別確定兩個(gè)門限,一個(gè)是比較低的門限,其數(shù)值比較小,對(duì)信

33、號(hào)的變化比較敏感,很容易被超過。另一個(gè)是比較高的門限,數(shù)值比較大,信號(hào)必須到達(dá)一定的強(qiáng)度,該門限才可能被超過。低門限超過未必就是語(yǔ)音的開始,有可能是時(shí)間很短的噪聲引起的。高門限基本確信是由于語(yǔ)言信號(hào)引起的。整個(gè)語(yǔ)音信號(hào)的端點(diǎn)檢測(cè)可以分為四個(gè)階段:靜音段、過渡段、語(yǔ)音段和結(jié)束。在靜音段,如果能量或過零率超越了低門限,就開始標(biāo)記起始點(diǎn),進(jìn)入過渡段。在過渡段中,由于參數(shù)的數(shù)值比較小,不能確信是否處于真正的語(yǔ)音段,因此只要兩個(gè)參數(shù)的數(shù)值都回落到低門限以下,就認(rèn)為當(dāng)前狀態(tài)恢復(fù)到靜音狀態(tài)。而如果在靜音段中兩個(gè)參數(shù)的任何一個(gè)超過了高門限,就可以確信進(jìn)入語(yǔ)音段。一些突發(fā)性的噪聲也可以引起短時(shí)能量或過零率的數(shù)值

34、很高,但是往往不能維持足夠長(zhǎng)的時(shí)間。所以當(dāng)前狀態(tài)處于語(yǔ)音段時(shí),如果兩個(gè)參數(shù)的數(shù)值降低到低門限以下,而且總的計(jì)時(shí)長(zhǎng)度小于最短時(shí)間門限10,則認(rèn)為這是一段噪音,繼續(xù)掃描以后的語(yǔ)音數(shù)據(jù),否則標(biāo)記好結(jié)束端點(diǎn)。2.3語(yǔ)音情感特征的提取特征參數(shù)提取是語(yǔ)音識(shí)別的關(guān)鍵步驟。所謂特征提取,即對(duì)不同的語(yǔ)音尋找其內(nèi)在特征來判別未知語(yǔ)音,所以每個(gè)語(yǔ)音識(shí)別系統(tǒng)都必須進(jìn)行特征提取。特征的選擇對(duì)識(shí)別效果至關(guān)重要,選擇的標(biāo)準(zhǔn)應(yīng)體現(xiàn)對(duì)異音字之間的距離盡可能大,而同音字之間的距離應(yīng)盡可能小,特征參數(shù)的好壞將直接影響到語(yǔ)音識(shí)別的精度,一個(gè)好的特征參數(shù)應(yīng)具有以下特點(diǎn):1. 能有效代表語(yǔ)音特征,包括聲道特征和聽覺特征,具有很好的區(qū)分性

35、。2. 各階參數(shù)之間應(yīng)有良好的獨(dú)立性。3. 特征參數(shù)要計(jì)算方便,最好有高效的計(jì)算方法,以保證語(yǔ)音識(shí)別系統(tǒng)的實(shí)時(shí)實(shí)現(xiàn)。語(yǔ)音的特征參數(shù)多種多樣,在實(shí)際應(yīng)用中,可以根據(jù)需要選擇不同的語(yǔ)音參數(shù)或幾種參數(shù)的組合。在語(yǔ)音識(shí)別中經(jīng)常用到的特征參數(shù)有過零率與峰值幅度(zero-crossing with peak-amplitudes, zcpa)、美爾頻率倒譜系數(shù)(mel frequency cepstrum coefficient,mfcc)和線性預(yù)測(cè)倒譜系數(shù)(linear prediction cepstrum coefficient, lpcc)等。下面對(duì)這幾種參數(shù)依次作出說明。1. 線性預(yù)測(cè)系數(shù)(l

36、pc)線性預(yù)測(cè)分析是從人的發(fā)生機(jī)理入手,通過對(duì)聲道的短管級(jí)聯(lián)模型的研究,認(rèn)為系統(tǒng)的傳遞函數(shù)是全極點(diǎn)數(shù)字濾波器的形式,從而某一時(shí)刻的信號(hào)可以用若干時(shí)刻的信號(hào)的線性組合來估計(jì)。通過使實(shí)際語(yǔ)音的采樣值和線性預(yù)測(cè)采樣值之間達(dá)到最小均方誤差,這樣就可以得到線性預(yù)測(cè)參數(shù)。2. lpc倒譜系數(shù)(lpcc)倒譜系數(shù)是信號(hào)的z變換的對(duì)數(shù)模函數(shù)的逆z變換,一般先求信號(hào)的傅里葉變換,取模的對(duì)數(shù),再求傅里葉逆變換得到。lpcc的主要優(yōu)點(diǎn)是比較徹底地去掉語(yǔ)音產(chǎn)生過程中的激勵(lì)信息,反映了聲道響應(yīng),并且通常只需要幾個(gè)倒譜系數(shù)就能夠很好的描述語(yǔ)音的共振峰特性。3. 美爾頻率倒譜系數(shù)(mfcc)和過零峰值幅度(zcpa)在后文

37、中詳細(xì)介紹。2.3.1美爾頻率倒譜系數(shù)(mfcc)mfcc是由davies和mermelstein提出的,該特征參數(shù)利用了聽覺原理和倒譜的解相關(guān)性。另外,mel倒譜也具有對(duì)卷積性信道失真進(jìn)行補(bǔ)償?shù)哪芰?。由于這些原因,mel參數(shù)被證明是在語(yǔ)音識(shí)別任務(wù)中應(yīng)用最成功的特征描述之一。根據(jù)生理學(xué)的研究結(jié)果,人耳對(duì)不同頻率的聲波有不同的聽覺靈敏度,在相應(yīng)的臨界帶寬內(nèi)的信號(hào)會(huì)引起基底膜上不同位置的振動(dòng)。由此可用帶通濾波器組來模仿人耳聽覺,從而減少噪聲對(duì)語(yǔ)音的影響。對(duì)人耳聽覺特性的研究表明200hz到5khz之間的語(yǔ)音信號(hào)對(duì)語(yǔ)音的清晰度影響最大,低音掩蔽高音容易,而高音掩蔽高音較困難,在低頻處的聲音掩蔽的臨界

38、帶寬較高頻處小,據(jù)此,人們從低頻到高頻這一段頻帶內(nèi)按臨界帶寬的大小由密到疏排一組帶通濾波器,對(duì)輸入信號(hào)進(jìn)行濾波。將每個(gè)帶通濾波器輸出的信號(hào)的量作為信號(hào)的基本特征,對(duì)此特征進(jìn)行進(jìn)一步處理后就可以作為語(yǔ)音識(shí)別系統(tǒng)的輸入特征。由于這種特征不依賴于信號(hào)的性質(zhì),對(duì)輸入的信號(hào)不作任何假設(shè)和限制,又利用了聽覺模型研究成果,當(dāng)信噪比降低時(shí)仍然具有較好的識(shí)別性能。由于聲音激勵(lì)導(dǎo)致的人耳基底膜最大振動(dòng)與基音頻率的對(duì)數(shù)值成正比。人的聽覺系統(tǒng)的這一感知特性可以用mel尺度表示,mel頻率尺度試圖將音調(diào)、高音等感知特性映射到線性尺度上。mfcc參數(shù)正是在研究人的聽覺系統(tǒng)的基礎(chǔ)上得出的聲學(xué)特征。對(duì)人的聽覺機(jī)理的研究發(fā)現(xiàn),

39、當(dāng)兩個(gè)頻率相近的音調(diào)同時(shí)發(fā)出時(shí),人只能聽到一個(gè)音調(diào)。臨界帶寬指的就是這樣一種令人的主觀感覺發(fā)生突變的帶寬邊界,當(dāng)兩個(gè)音調(diào)的頻率差小于臨界帶寬時(shí),人就會(huì)把兩個(gè)音調(diào)聽成一個(gè),這稱為掩蔽效應(yīng)。mel尺度就是對(duì)這一臨界帶寬的度量方法之一。mfcc參數(shù)的計(jì)算是以mel頻率為基準(zhǔn)的,它和實(shí)際頻率的轉(zhuǎn)換關(guān)系是: (2-19)這里,實(shí)際頻率的單位是hz。mfcc參數(shù)是按幀計(jì)算的。首先要通過fft得到該幀信號(hào)的功率譜,然后轉(zhuǎn)換為mel頻率下的功率譜。這需要在計(jì)算前先在語(yǔ)音的頻譜范圍內(nèi)設(shè)置若干個(gè)帶通濾波器: (2-20)其中,為濾波器的個(gè)數(shù),本文取為26;n為一幀語(yǔ)音信號(hào)的點(diǎn)數(shù),為了計(jì)算fft的方便,取為256。

40、根據(jù)臨界帶寬(critical band)的劃分,可將語(yǔ)音信號(hào)的頻率劃分成一串三角濾波器,即濾波器組,頻率尺度濾波器組如圖2.8所示: 圖2.8 mel頻率尺度濾波器組濾波器的輸出如式(2-21)所示: (2-21)的逆函數(shù)如下式所示: (2-22)其中,b代表頻率。濾波器的中心頻率定義為: (2-23)其中為幀長(zhǎng),為采樣頻率,本文中取11025hz;、為濾波器應(yīng)用范圍的頻率的最高頻率和最低頻率,可由式(2-19)求出;本文中,濾波器的中心頻率是在、之間按照刻度以間隔150,帶寬300均勻排列,其中相鄰兩個(gè)濾波器的過渡帶之間相互搭接,并且頻率響應(yīng)之和是1。圖2.9為mfcc提取流程圖。圖2.9

41、 mfcc提取流程圖2.3.2過零率與峰值幅度(zcpa)特征參數(shù)的好壞最直接決定著系統(tǒng)的識(shí)別性能。要想使系統(tǒng)具有較好的魯棒性,必須要求提取的特征參數(shù)有很強(qiáng)的抗噪性。經(jīng)典的特征參數(shù)在無噪環(huán)境下都取得了相當(dāng)好的效果,但是在有噪聲的情況下,系統(tǒng)的識(shí)別率就會(huì)顯著下降。人類的聽覺系統(tǒng)在噪聲環(huán)境下就能很好的工作,因此如果語(yǔ)音識(shí)別系統(tǒng)能夠模擬人類聽覺感知的特點(diǎn),噪聲的識(shí)別率就會(huì)有一定的提高。zcpa就是完全基于人耳聽覺特性的,它從物理意義上模仿了人耳聽覺處理過程。首先來介紹人耳對(duì)聲音信號(hào)的處理過程。人耳由外耳、中耳、內(nèi)耳三部分構(gòu)成。語(yǔ)音信號(hào)在外耳膜上轉(zhuǎn)化為機(jī)械運(yùn)動(dòng),通過中耳傳遞到內(nèi)耳的耳蝸上,中耳充當(dāng)外耳

42、和內(nèi)耳的匹配阻抗。而語(yǔ)音信號(hào)的主要處理任務(wù)是在內(nèi)耳中進(jìn)行的,尤其是在內(nèi)耳的耳蝸中進(jìn)行的。耳蝸中的基底膜對(duì)外來的聲音信號(hào)有頻率選擇和調(diào)諧的作用。在耳蝸基部通過前庭窗傳遞來的語(yǔ)音信號(hào)被轉(zhuǎn)換為基底膜的行波,沿基底膜傳播,其峰值出現(xiàn)在基底膜的不同位置。頻率越底,振動(dòng)峰值位置越靠近蝸孔,隨頻率增高,該峰值越靠近基底膜根部。約800hz以上,聲音頻率沿基底膜按對(duì)數(shù)分布。其位移和頻率的關(guān)系可用(2-24)式表示: (2-24)其中是頻率(hz),是基底膜的歸一化距離,和是常數(shù),分別為、。在聽覺系統(tǒng)中耳蝸對(duì)聲音的感受和換能作用是整個(gè)復(fù)雜的聽覺系統(tǒng)中非常重要的一個(gè)環(huán)節(jié),同時(shí)耳蝸具有串/并轉(zhuǎn)換器的功能,它實(shí)際上相

43、當(dāng)于一組并聯(lián)的帶通濾波器,串行輸入的聲音信號(hào)在耳蝸中被分解并以多路并行的方式輸出。這樣為仿真耳蝸濾波器的模型提供了一定的依據(jù)。圖2.10給出了基于人耳聽覺特性的zcpa特征提取原理圖:圖2.10 zcpa系統(tǒng)原理框圖該系統(tǒng)由帶通濾波器組、過零檢測(cè)器、峰值檢測(cè)器、非線性壓縮器和頻率接收器組成。帶通濾波器組由16個(gè)fir濾波器組成,用來仿真耳蝸基底膜;過零檢測(cè)器、峰值檢測(cè)器、非線性壓縮部分則仿真聽覺神經(jīng)纖維。從過零檢測(cè)器獲得頻率信息,峰值檢測(cè)器獲得強(qiáng)度信息,經(jīng)非線性壓縮后,用頻率接收器合成頻率信息和強(qiáng)度信息,最后將16路所獲得的信息合成為語(yǔ)音信號(hào)的特征。分析表明:在噪聲存在的情況下,隨著門限制的提

44、高,門限跨越的間隔擾動(dòng)也變得越大,此時(shí)過零率顯得就更具有魯棒性,此時(shí)在噪聲環(huán)境下,能夠提供較好的語(yǔ)音信號(hào)表示方法。zcpa模型的原理與傳統(tǒng)的信號(hào)處理方案有顯著的不同,它需要測(cè)量信號(hào)在一個(gè)時(shí)間段內(nèi)的瞬時(shí)頻率和強(qiáng)度信息,并在隨后需要進(jìn)行一個(gè)時(shí)域信息的積累操作以獲取最終輸出。2.4 本章小結(jié)本章主要介紹了語(yǔ)音識(shí)別的基本原理與相關(guān)技術(shù)。首先詳細(xì)介紹了語(yǔ)音信號(hào)的預(yù)處理過程,包括預(yù)加重、加窗分幀處理及端點(diǎn)檢測(cè)等環(huán)節(jié),并且列出了matlab程序,以及語(yǔ)音情感信號(hào)經(jīng)預(yù)加重、加窗和端點(diǎn)檢測(cè)所得的圖像;然后在語(yǔ)音的特征參數(shù)提取方法的中介紹了一般常用的幾種特征參數(shù),并且詳細(xì)說明了本文中設(shè)計(jì)的兩種特征參數(shù):mfcc和

45、zcpa。第三章語(yǔ)音情感及語(yǔ)音情感庫(kù)3.1語(yǔ)音情感3.1.1語(yǔ)音情感的分類情感是人類經(jīng)歷的一種最普遍、最重要的心理體驗(yàn)之一。日常生活中,我們每個(gè)人都能體會(huì)到各種各樣、程度不一的情感。到底什么是情感?人類的情感是怎樣產(chǎn)生的?由什么構(gòu)成的?或者怎樣對(duì)情感分類才是最合理的?這些問題現(xiàn)在都沒有定論。要研究如何從語(yǔ)音中識(shí)別情感,首先要對(duì)情感進(jìn)行分類,必須有情感理論作為基礎(chǔ)。人類的情感是一個(gè)極其復(fù)雜的現(xiàn)象,要對(duì)其精確的定義和描述并不是一件容易的事情,已有許多學(xué)者,對(duì)這個(gè)問題展開討論。情感和情緒是不一樣的,情感被用來表示各種不同的內(nèi)心體驗(yàn),情緒被用來表示非常短暫但強(qiáng)烈的內(nèi)心體驗(yàn)。許多心理學(xué)家長(zhǎng)久以來都在討論

46、是否存在幾種基本情緒,復(fù)雜情感則是由基本情緒的不同組合派生出來的問題。mcdougall在1926年就根據(jù)人類潛在本能列出生氣(anger)、厭惡(disgust)、興高采烈(elation)、害怕(fear)、屈服(subjection)、柔情(tender-emotion)和驚奇(wonder)七種基本情緒;后來ekman.p根據(jù)普遍的人臉表情體現(xiàn)給出了生氣(anger)、厭惡(disgust)、害怕(fear)、高興(joy)、悲傷(sadness)和驚訝(surprise)六種基本情緒;1987年oatley.k和johmon-laird.p.n提出五種基本情緒,它們分別是當(dāng)前目標(biāo)取得

47、進(jìn)展時(shí)的快樂(happiness),自我保護(hù)的目標(biāo)受到威脅時(shí)的焦慮(anxiety),當(dāng)前目標(biāo)不能實(shí)現(xiàn)時(shí)的悲傷(sadness),當(dāng)前目標(biāo)受挫或遭遇阻礙時(shí)的憤怒(anger),以及與味覺目標(biāo)相違背的厭惡(disgust)。魏哲華提出了狀態(tài)空間法的情感建模,該方法考慮了三種基本情感,即恐懼、憤怒、喜歡,認(rèn)為人在某一時(shí)刻的情感均是這三種基本情感或這三種情感在不同程度上的組合。這樣一來,任意時(shí)刻情感狀態(tài)均是一個(gè)三維向量,在這個(gè)三維情感空間中存在著27個(gè)情感狀態(tài),構(gòu)成了一個(gè)立方體。ortony.g.clore和a.collins三人在the cognitive struchure of emotion

48、s一書中,提出occ情感模型。他們認(rèn)為每個(gè)情感組中的情感類之間是相互關(guān)聯(lián)的,有著相似的認(rèn)知起源。occ模型把人對(duì)外界的事件結(jié)果(events)、對(duì)象(objects)和其他智能行為(agents)反應(yīng)而產(chǎn)生的情感分為三組。人對(duì)事件完成好壞表現(xiàn)出高興和不高興,對(duì)對(duì)象表現(xiàn)出喜歡和不喜歡,對(duì)其他智能行為表現(xiàn)贊同和不贊同。在這三個(gè)情感組中分別體現(xiàn)出了22種具體的情感。這在情感研究領(lǐng)域給出了一個(gè)不同于以往情感研究的情感認(rèn)知框架。與上述兩種方法不同,fox11提出的三級(jí)情感模型,則是按照情感中表現(xiàn)的主動(dòng)和被動(dòng)的程度不同將情感分成不同的等級(jí),等級(jí)越低,分類越粗糙,等級(jí)越高,分類越精細(xì)。對(duì)于情感的分類,真可謂

49、“仁者見仁,智者見智”,研究者對(duì)主要情感的種類始終沒有達(dá)成共識(shí),但可以看出大部學(xué)者認(rèn)為主要情感包括:憤怒(anger)、悲傷(sadness)、高興(happy)和厭惡(disguss)。本篇論文用的情感語(yǔ)音包括生氣(anger)、高興(happiness)和中性(neutral)三種類型。3.1.2情感語(yǔ)句的選擇正如其他研究人員在采集語(yǔ)音樣本時(shí)采用了某些約束條件一樣,為了能夠建立盡可能完善的語(yǔ)音數(shù)據(jù)采樣庫(kù),我們采用了一些折中辦法。用于情感分析的語(yǔ)音信號(hào)是研究工作開展的基礎(chǔ),但從國(guó)內(nèi)外的研究現(xiàn)狀來看沒有一個(gè)收集情感分析用語(yǔ)音資料的標(biāo)準(zhǔn)。所以本文選擇了自己錄制的方式并設(shè)計(jì)了一個(gè)用于獨(dú)立文本情感語(yǔ)

50、音識(shí)別的數(shù)據(jù)庫(kù)。對(duì)實(shí)驗(yàn)用語(yǔ)句的選擇主要遵循了以下原則:1. 選擇的語(yǔ)句不能有明確的語(yǔ)義傾向性,只有這樣才能夠保證構(gòu)建語(yǔ)音庫(kù)時(shí)不會(huì)影響實(shí)驗(yàn)者的判斷;2. 所選語(yǔ)句應(yīng)能夠較容易加入說話人的不同情感。如果所選擇語(yǔ)句是比較中性的或者說很難強(qiáng)加一定的感情,那必然對(duì)發(fā)音和識(shí)別都會(huì)帶來很大的困難,從而無法比較針對(duì)同一句語(yǔ)句各種不同情感狀態(tài)下各種特征參數(shù)的不同之處;3. 發(fā)音時(shí)間控制在5秒以下,時(shí)間過長(zhǎng)不利于情感的表達(dá),也會(huì)引起用于情感判斷特征參數(shù)的弱化;4. 選擇語(yǔ)句中的漢語(yǔ),均要標(biāo)準(zhǔn)普通話的表達(dá)方式,不能帶有各種方言的表達(dá)形式;而對(duì)英語(yǔ)則要求按照標(biāo)準(zhǔn)的英音表達(dá);5. 盡可能避開無聲輔音,如c、p、s、t

51、,避免這些音可能引起的基音周期軌跡的不連續(xù);6. 男性和女性均適用。 schere和abelin等人的研究12-13表明,無論有著什么樣的文化背景,對(duì)于與語(yǔ)音相關(guān)的基本情感而言,人們的生理反應(yīng)是具有普遍意義的,所以選擇英語(yǔ)和漢語(yǔ)將不會(huì)影響到研究結(jié)果。3.1.3國(guó)際情感數(shù)據(jù)庫(kù)目前國(guó)際上具有代表的語(yǔ)音數(shù)據(jù)庫(kù)主要有:1. 英國(guó)queens大學(xué)(d-cowie2000)。該語(yǔ)音庫(kù)為開發(fā)基于面部表情和語(yǔ)音的情感識(shí)別系統(tǒng)而建立,采用錄音和影視剪輯兩種方法獲取情感數(shù)據(jù)。情感數(shù)據(jù)是長(zhǎng)度約 10-60秒的視頻片斷(包含語(yǔ)音),從視頻中提取的情感語(yǔ)音文件及描述情感狀態(tài)解釋文件作為附屬文件,庫(kù)中包含來自10個(gè)說話者

52、的20多條語(yǔ)音和視頻情感數(shù)據(jù)。在此基礎(chǔ)上,系統(tǒng)地提出了構(gòu)建語(yǔ)音情感數(shù)據(jù)庫(kù)的注意點(diǎn)(d-cowie 2003),包含情感語(yǔ)音數(shù)據(jù)的規(guī)模和范圍、情感語(yǔ)音發(fā)音的自然度、情感語(yǔ)音的內(nèi)容和語(yǔ)義以及情感語(yǔ)音數(shù)據(jù)的描述方法。2. 日本meikai大學(xué)(makarovazooz)。該語(yǔ)音庫(kù)建立了一個(gè)包含61個(gè)說話人(男12人,女49人)的俄語(yǔ)情感語(yǔ)音數(shù)據(jù)庫(kù)ruslana,每人用自然、驚訝、高興、憤怒 、悲傷和害怕朗讀61個(gè)語(yǔ)句,ruslana將被用于說話人、性別無關(guān)以及說話人相關(guān)、性別相關(guān)的語(yǔ)音情感識(shí)別研究。3. 中國(guó)科學(xué)院自動(dòng)化所(自動(dòng)化所2005)。該語(yǔ)音庫(kù)開發(fā)了共包括四個(gè)專業(yè)發(fā)音人和5種情感,分別是高興

53、、悲哀、生氣、驚嚇和中性。每種情感有500句語(yǔ)音,其中前300 句是相同文本的,即對(duì)相同的文本賦以不同的情感來閱讀,這些語(yǔ)音可以用來對(duì)比分析不同情感狀態(tài)下的聲學(xué)及韻律表現(xiàn);另外100句是不同文本的,這些文本從字面意思就可以看出其情感歸屬,便于錄音人更準(zhǔn)確地表達(dá)情感。選取錄音人男聲、女聲各兩人,每人按照以上所述五種不同的情感朗讀文本2500句,共9600句,采樣率16000hz,16bit,pcm格式存儲(chǔ)。4. 臺(tái)灣大同大學(xué)資訊工程學(xué)系(pao2004)。該語(yǔ)音庫(kù)開發(fā)了包含憤怒、高興、悲傷、厭煩和中性 5個(gè)情感類別,18個(gè)男性和16個(gè)女性說話人講述約20個(gè)語(yǔ)音文本,每個(gè)文本的長(zhǎng)度從1個(gè)字至6個(gè)字

54、逐一增加,共獲取情感語(yǔ)音約340句。經(jīng)過3個(gè)層次評(píng)估語(yǔ)音情感表達(dá)質(zhì)量的聽取實(shí)驗(yàn)篩選后,最終獲取839句情感語(yǔ)音。聽取實(shí)驗(yàn)后各長(zhǎng)度情感語(yǔ)音所占的比例表明,人類很難識(shí)別文本長(zhǎng)度較短語(yǔ)音的情感類別,錄制情感語(yǔ)音時(shí)應(yīng)避免使用短長(zhǎng)度的文本。5. 柏林的情感數(shù)據(jù)庫(kù)該語(yǔ)音庫(kù)由10個(gè)德國(guó)演員(5男5女)進(jìn)行表演,對(duì)10個(gè)情感語(yǔ)句進(jìn)行錄制,共494個(gè)情感語(yǔ)句,表達(dá)的情感共有六種:狂怒、悲傷、高興、恐懼、厭煩以及中性14。雖然目前國(guó)內(nèi)外己有一些情感語(yǔ)音數(shù)據(jù)庫(kù),但就采集、評(píng)測(cè)和管理等方面還沒有形成一套可遵循的標(biāo)準(zhǔn)。由于語(yǔ)種的差異,不同語(yǔ)種的情感語(yǔ)料庫(kù)建設(shè)可能有所不同。目前,有關(guān)普通話情感語(yǔ)音數(shù)據(jù)庫(kù)的研究剛剛起步,缺

55、少一套完整的、可供參考的采集和管理方案。特別是缺少可供研究共享的情感語(yǔ)音數(shù)據(jù)庫(kù),這使得國(guó)內(nèi)同行的各項(xiàng)研究成果缺少可比較的基礎(chǔ)。這些事實(shí)都迫切要求我們對(duì)情感語(yǔ)音數(shù)據(jù)庫(kù)進(jìn)行研究。3.2語(yǔ)音情感數(shù)據(jù)庫(kù)本文中所采用的語(yǔ)音情感數(shù)據(jù)庫(kù)是太原理工大學(xué)實(shí)驗(yàn)室的非專業(yè)人士錄制的。該語(yǔ)音庫(kù)由實(shí)驗(yàn)室26名同學(xué)錄制,這些同學(xué)年齡在22歲到24歲之間,情感把握能力比較強(qiáng),英語(yǔ)和普通話發(fā)音標(biāo)準(zhǔn),沒有咽喉疾病。該語(yǔ)音情感庫(kù)包括高興、生氣和中性3種情感表達(dá)11句情感語(yǔ)料(表3.1),最終選取600句情感語(yǔ)句(其中高興200句、生氣200句、中性200句)組成原始情感語(yǔ)音庫(kù)。情感語(yǔ)句如圖3.2所示:情感語(yǔ)句1. 爸爸給我買了一輛車。2. 這下全完了。3. 我們要搬家。4. 這件事是他干的。5. 我到北京去。6. 啊,下雨了。 7. my name is lily. 8. i will go home. 9. good morning. 10. open your book 11. the pen is on the fl

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論