版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
南京郵電大學(xué)
通信與信息工程學(xué)院
第11章語(yǔ)音信號(hào)情感處理情感理論與情感誘發(fā)實(shí)驗(yàn)實(shí)用語(yǔ)音情感識(shí)別算法應(yīng)用與展望情感的聲學(xué)特征分析基于深度學(xué)習(xí)的語(yǔ)音情感識(shí)別11.1情感理論與情感誘發(fā)實(shí)驗(yàn)—情感的心理學(xué)理論情感識(shí)別研究需要以心理學(xué)的理論為指導(dǎo),目前有兩大情感論:(1)基本情感論基本情感論認(rèn)為,人類的復(fù)雜的情感是由若干種有限的基本情感構(gòu)成的,基本情感按照一定的比例混合構(gòu)成各種復(fù)合情感。在語(yǔ)音情感識(shí)別的文獻(xiàn)中,較多的研究者采用的是6種基本情感狀態(tài):“喜悅”“生氣”“驚訝”“悲傷”“恐懼”和“中性”。(2)維度空間論情感的維度空間論認(rèn)為人類所有的情感都是由幾個(gè)維度空間組成的,特定的情感狀態(tài)只能代表一個(gè)從親近到退縮或者是從快樂到痛苦的連續(xù)空間中的位置,不同情感之間不是獨(dú)立的,而是連續(xù)的,可以實(shí)現(xiàn)逐漸的、平穩(wěn)的轉(zhuǎn)變,不同情感之間的相似性和差異性是根據(jù)彼此在維度空間中的距離來顯示的。11.1情感理論與情感誘發(fā)實(shí)驗(yàn)—情感的心理學(xué)理論近年來,最廣為接受和得到較多實(shí)際應(yīng)用的維度模型,是下面兩個(gè)維度組成的二維空間:1)效價(jià)度(Valence)
或者快樂度(Hedonictone),其理論基礎(chǔ)是正負(fù)情感的分離激活,這得到了許多研究的證明,主要體現(xiàn)為情感主體的情緒感受,是對(duì)情感和主體關(guān)系的一種度量。2)喚醒度(Arousal)或者激活度(Activation),指與情感狀態(tài)相聯(lián)系的機(jī)體能量激活的程度,是對(duì)情感的內(nèi)在能量的一種度量。11.1情感理論與情感誘發(fā)實(shí)驗(yàn)—使用語(yǔ)音情感數(shù)據(jù)庫(kù)的建立概述:語(yǔ)音情感數(shù)據(jù)庫(kù)的建立,是研究語(yǔ)音情感必需的研究基礎(chǔ),具有極為重要的意義。目前國(guó)際上流行的語(yǔ)音情感數(shù)據(jù)庫(kù)有AIBO語(yǔ)料庫(kù)、VAM數(shù)據(jù)庫(kù)、丹麥語(yǔ)數(shù)據(jù)庫(kù)、柏林?jǐn)?shù)據(jù)庫(kù)等。需求及制作過程:面向?qū)嶋H應(yīng)用的需求,實(shí)用語(yǔ)音情感數(shù)據(jù)庫(kù)必須要保證語(yǔ)料的真實(shí)可靠,不能采用傳統(tǒng)的表演方式采集數(shù)據(jù)。通過實(shí)驗(yàn)心理學(xué)中的方法來誘發(fā)實(shí)用語(yǔ)音情感數(shù)據(jù),可盡可能地使訓(xùn)練數(shù)據(jù)接近真實(shí)的情感數(shù)據(jù)。制作過程如下:11.1情感理論與情感誘發(fā)實(shí)驗(yàn)—情感語(yǔ)料的誘發(fā)方法在傳統(tǒng)的語(yǔ)音情感數(shù)據(jù)庫(kù)中,往往采用表演的方式來采集數(shù)據(jù)。演員能通過刻意的控制聲音的變化來表演所需要的情感,但表演數(shù)據(jù)不能提供一個(gè)準(zhǔn)確的情感模型。為了能更好地研究實(shí)際環(huán)境中的情感語(yǔ)音,有必要采集除表演語(yǔ)音以外的,較高自然度的情感數(shù)據(jù)。主要有以下兩個(gè)方法:通過計(jì)算機(jī)游戲誘發(fā)情感語(yǔ)料通過游戲中畫面和音樂的視覺、聽覺刺激,能提供一個(gè)互動(dòng)的、具有較強(qiáng)感染力的人機(jī)交互環(huán)境,能夠有效地誘發(fā)出被試者的正面與負(fù)面的情感。特別是在游戲勝利時(shí),被試者由于在游戲虛擬場(chǎng)景中的成功與滿足,被誘發(fā)出喜悅等正面情感;在游戲失敗時(shí),被試者在虛擬場(chǎng)景中受到挫折,容易引發(fā)煩躁等負(fù)面情感。2.通過認(rèn)知作業(yè)誘發(fā)情感語(yǔ)料通過認(rèn)知作業(yè)誘發(fā)情感語(yǔ)料,包括煩躁、疲勞和自信等心理狀態(tài)的誘發(fā)。在一個(gè)重復(fù)性的、長(zhǎng)時(shí)間的認(rèn)知作業(yè)中,可采用噪聲誘發(fā)、睡眠剝奪等手段輔助誘發(fā)負(fù)面情緒。11.1情感理論與情感誘發(fā)實(shí)驗(yàn)—情感語(yǔ)料的主觀評(píng)價(jià)方法
11.1情感理論與情感誘發(fā)實(shí)驗(yàn)—情感語(yǔ)料的主觀評(píng)價(jià)方法
11.1情感理論與情感誘發(fā)實(shí)驗(yàn)—情感語(yǔ)料的主觀評(píng)價(jià)方法
情感理論與情感誘發(fā)實(shí)驗(yàn)實(shí)用語(yǔ)音情感識(shí)別算法應(yīng)用與展望情感的聲學(xué)特征分析基于深度學(xué)習(xí)的語(yǔ)音情感識(shí)別11.2情感的聲學(xué)特征分析—情感特征提取
11.2情感的聲學(xué)特征分析—情感特征提取短時(shí)能量抖動(dòng)為:短時(shí)能量的線性回歸系數(shù)為:短時(shí)能量的線性回歸系數(shù)的均方誤差為:其中,11.2情感的聲學(xué)特征分析—情感特征提取
11.2情感的聲學(xué)特征分析—情感特征提取
11.2情感的聲學(xué)特征分析—情感特征提取4)Mel
頻率倒譜系數(shù)(MFCC)MFCC是從Mel頻率刻度域中提取出的倒譜參數(shù),可以通過人耳的聽覺原理對(duì)其進(jìn)行分析。它與聲音頻率的具體關(guān)系可近似表示為:MFCC的提取過程為:①對(duì)原始語(yǔ)音信號(hào)進(jìn)行分幀加窗預(yù)處理;②將預(yù)處理后的信號(hào)進(jìn)行離散傅里葉變換(DFT),從而得到語(yǔ)音幀的短時(shí)頻譜;③將短時(shí)頻譜的幅度值通過Mel濾波器組進(jìn)行加權(quán)濾波處理;④對(duì)Mel濾波器組的全部輸出值進(jìn)行一個(gè)求對(duì)數(shù)計(jì)算;⑤將經(jīng)過求對(duì)數(shù)計(jì)算后得到的值進(jìn)行離散余弦變換(DCT),從而得到MFCC。5)關(guān)聯(lián)維數(shù)Grassberger和Procaccia提出了從時(shí)間序列計(jì)算吸引子關(guān)聯(lián)維數(shù)的G-P算法。定義關(guān)聯(lián)積分為:11.2情感的聲學(xué)特征分析—情感特征提取
11.2情感的聲學(xué)特征分析—情感特征提取
8)情感特征向量構(gòu)造全局統(tǒng)計(jì)特征和動(dòng)態(tài)特征是兩種常用的特征向量構(gòu)造方法,由于動(dòng)態(tài)特征過分依賴音位信息,因此,采用全局統(tǒng)計(jì)特征來構(gòu)造實(shí)用語(yǔ)音情感的特征向量。11.2情感的聲學(xué)特征分析—特征降維算法
11.2情感的聲學(xué)特征分析—特征降維算法基于PCA
與LDA的特征壓縮通過一種特定的線性變換,將高維特征空間映射到低維子空間上,使得投影后的類別內(nèi)模式盡量聚合,類別間模式盡量分開。然而在特征維數(shù)較高時(shí),LDA
的壓縮性能是非常明顯的。然而在實(shí)際中LDA的應(yīng)用會(huì)受到訓(xùn)練數(shù)據(jù)量的限制,當(dāng)原始特征維數(shù)非常高,而訓(xùn)練數(shù)據(jù)量不足時(shí),會(huì)導(dǎo)致矩陣出現(xiàn)奇異值,LDA無法正常使用。因此,在處理高維數(shù)據(jù)時(shí),可以采用PCA進(jìn)行第一步降維,然后再使用LDA降維。情感理論與情感誘發(fā)實(shí)驗(yàn)實(shí)用語(yǔ)音情感識(shí)別算法應(yīng)用與展望情感的聲學(xué)特征分析基于深度學(xué)習(xí)的語(yǔ)音情感識(shí)別11.3實(shí)用語(yǔ)音情感識(shí)別算法—概述模式識(shí)別領(lǐng)域中的諸多算法都曾用于語(yǔ)音情感識(shí)別的研究,典型的有隱馬爾可夫模型(HiddenMarkovModels,HMM)、高斯混合模型(GuassiauMixtureModel,CMM)和支持向量機(jī)(SupportVectorMachine,SVM)等。下表初步比較了它們各自的優(yōu)缺點(diǎn),以及在部分?jǐn)?shù)據(jù)庫(kù)上的識(shí)別性能表現(xiàn):11.3實(shí)用語(yǔ)音情感識(shí)別算法基于支持向量機(jī)的識(shí)別算法支持向量機(jī)能夠?qū)?shù)據(jù)樣本映射到一個(gè)更高維度的特征空間里,建立一個(gè)最大間隔的超平面以達(dá)到線性可分。具體而言,它的核函數(shù)選取為徑向基函數(shù),采用二叉樹結(jié)構(gòu)實(shí)現(xiàn)多類分類。在兩分法分類器的樹狀結(jié)構(gòu)中,首先識(shí)別何種情感,對(duì)系統(tǒng)的性能是有一定的影響的。在樹狀的分類器組結(jié)構(gòu)中,誤差會(huì)進(jìn)行傳播和積累,前面的分類錯(cuò)誤,在后續(xù)的分類中無法糾正。例如,將煩躁樣本誤判為非煩躁情感后,在后續(xù)的分類器中就無法再識(shí)別出這些煩躁樣本。11.3實(shí)用語(yǔ)音情感識(shí)別算法2)基于k近鄰分類器的識(shí)別算法k近鄰分類器采用一種較為簡(jiǎn)單直觀的分類法則,其在語(yǔ)音情感識(shí)別應(yīng)用中有較好的性能表現(xiàn)。它的分類思想是:給定一個(gè)在特征空間中的待分類的樣本,如果其附近的k個(gè)最鄰近的樣本中的大多數(shù)屬于某一個(gè)類別,那么當(dāng)前待分類的樣本也屬于這個(gè)類別。基于高斯混合模型的識(shí)別算法高斯混合模型是一種擬合能力很強(qiáng)的統(tǒng)計(jì)建模工具。GMM
的主要優(yōu)勢(shì)在于對(duì)數(shù)據(jù)的建模能力強(qiáng),理論上來說,它可以擬合任何一種概率分布函數(shù)。而GMM的主要缺點(diǎn),也正是對(duì)數(shù)據(jù)的依賴性過高。因此在采用GMM建立的語(yǔ)音情感識(shí)別系統(tǒng)中,訓(xùn)練數(shù)據(jù)的特性會(huì)對(duì)系統(tǒng)性能產(chǎn)生很大的影響。情感理論與情感誘發(fā)實(shí)驗(yàn)實(shí)用語(yǔ)音情感識(shí)別算法應(yīng)用與展望情感的聲學(xué)特征分析基于深度學(xué)習(xí)的語(yǔ)音情感識(shí)別11.4基于深度學(xué)習(xí)的語(yǔ)音情感識(shí)別—概述概述:對(duì)于整段語(yǔ)音來說,其中蘊(yùn)含的情感信息常常隨機(jī)分布在某些片段中。因此,有效提取包含情感信息的語(yǔ)音片段對(duì)于情感識(shí)別的性能就顯得尤為關(guān)鍵。與傳統(tǒng)模型和方法相比,深度學(xué)習(xí)技術(shù)無論是在情感特征提取還是在建模方面都具有明顯的優(yōu)勢(shì),能夠提取和識(shí)別語(yǔ)音信號(hào)中蘊(yùn)含的情感信息,因此,近年來,基于深度學(xué)習(xí)的語(yǔ)音情感處理越來越受到學(xué)術(shù)界和工業(yè)界的關(guān)注。本節(jié)以兩個(gè)具體方法為例,介紹深度學(xué)習(xí)技術(shù)在語(yǔ)音情感處理方向上的應(yīng)用。(1)基于級(jí)聯(lián)自編碼器的語(yǔ)音情感識(shí)別自編碼器是一種特殊結(jié)構(gòu)的DNN,其可以采用無監(jiān)督方式完成模型的訓(xùn)練。具體而言,自編碼器包含編碼模塊和解碼模塊。將待訓(xùn)練的數(shù)據(jù)輸入編碼模塊,得到相應(yīng)的特征,然后通過解碼模塊對(duì)該特征進(jìn)行解碼;基于編碼模塊的輸入與解碼模塊的輸出之間的誤差,反向調(diào)節(jié)編碼模塊的參數(shù)。當(dāng)訓(xùn)練完成后,將編碼模塊所輸出的特征用于完成最終的情感識(shí)別。與傳統(tǒng)特征相比,利用自編碼器所得到的特征魯棒性更強(qiáng),在不同情感類別上的區(qū)分度也更優(yōu)。11.4基于深度學(xué)習(xí)的語(yǔ)音情感識(shí)別—基于級(jí)聯(lián)自編碼器
11.4基于深度學(xué)習(xí)的語(yǔ)音情感識(shí)別—基于注意力-RNN(2)基于注意力-循環(huán)神經(jīng)網(wǎng)絡(luò)的語(yǔ)音情感識(shí)別語(yǔ)音數(shù)據(jù)具有時(shí)序相關(guān)性,而RNN作為處理時(shí)序數(shù)據(jù)的常用深度學(xué)習(xí)模型,可以將其應(yīng)用于語(yǔ)音情感識(shí)別。此外,傳統(tǒng)方法通常是在幀級(jí)別上提取語(yǔ)音信號(hào)的相關(guān)特征,且對(duì)每一幀信號(hào)使用同一權(quán)重,直接影響最終的情感識(shí)別性能。注意力機(jī)制的思想是對(duì)待處理信息的不同部分賦予不同的重要性,這和語(yǔ)音情感識(shí)別任務(wù)的需求與難點(diǎn)一致。基于此,給出了基于注意力機(jī)制-RNN的語(yǔ)音情感識(shí)別結(jié)構(gòu)圖。11.4基于深度學(xué)習(xí)的語(yǔ)音情感識(shí)別—基于注意力-RNN
情感理論與情感誘發(fā)實(shí)驗(yàn)實(shí)用語(yǔ)音情感識(shí)別算法應(yīng)用與展望情感的聲學(xué)特征分析基于深度學(xué)習(xí)的語(yǔ)音情感識(shí)別11.5應(yīng)用與展望—載人航天中的應(yīng)用的設(shè)想在長(zhǎng)期的載人任務(wù)中,對(duì)航天員情感和心理狀態(tài)的監(jiān)控與干預(yù)是一個(gè)重要的研究課題。由于特殊的環(huán)境中會(huì)出現(xiàn)諸多的刺激因素,引發(fā)負(fù)面的心理狀態(tài)。例如,狹小隔絕的艙體內(nèi)環(huán)境、嚴(yán)重的環(huán)境噪聲、長(zhǎng)時(shí)間的睡眠剝奪等因素,都會(huì)增加工作人員的心理壓力,進(jìn)而影響任務(wù)的順利完成。語(yǔ)音情感識(shí)別技術(shù)可以用于分析載人航天任務(wù)中的語(yǔ)音通話,對(duì)說話人的情感狀態(tài)進(jìn)行自動(dòng)的、實(shí)時(shí)的監(jiān)測(cè)。一旦發(fā)現(xiàn)煩躁?duì)顟B(tài)出現(xiàn)的跡象,可以及時(shí)進(jìn)行心理疏導(dǎo)。如下圖所示的系統(tǒng),是設(shè)想的實(shí)用語(yǔ)音情感識(shí)別在載人航天中的一種可能的應(yīng)用方式。11.5應(yīng)用與展望—情感多媒體搜索多媒體數(shù)據(jù)中蘊(yùn)含了大量的情感信息,例如攝影作品、影視作品等,都是豐富的情感信息源。多媒體數(shù)據(jù)進(jìn)行情感檢索,也就是根據(jù)指定的情感類型,找尋出對(duì)應(yīng)的多媒體數(shù)據(jù)。在用戶進(jìn)行網(wǎng)絡(luò)視頻搜索時(shí),可以指定一些特殊的視頻類型進(jìn)行檢索,例如“喜劇片”“真實(shí)”“清新”等與情感有關(guān)的描述詞。這樣的檢索方式會(huì)給用戶提供一個(gè)比現(xiàn)有的語(yǔ)義搜索平臺(tái)更加廣闊的情感信息搜索平臺(tái)。下圖是一個(gè)檢索系統(tǒng)的系統(tǒng)模塊設(shè)計(jì),可以對(duì)網(wǎng)絡(luò)視頻進(jìn)行基于音頻內(nèi)容的情感信息分析與檢索。11.5應(yīng)用與
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 二零二五年度大學(xué)教師校外兼職聘用合同范本2篇
- 二零二五年度日本留學(xué)貸款服務(wù)合同范本
- 2025供水供電的合同范文
- 2024版旅行社工作勞動(dòng)合同
- 2025掛靠勞務(wù)公司合同范本
- 2025關(guān)于中小企業(yè)創(chuàng)業(yè)的法律顧問聘請(qǐng)合同
- 二零二五年度班組工前會(huì)工后會(huì)會(huì)議記錄管理規(guī)范合同3篇
- 二零二五年度宅基地使用權(quán)轉(zhuǎn)讓及農(nóng)村土地經(jīng)營(yíng)權(quán)流轉(zhuǎn)服務(wù)合同2篇
- 二零二五年度板材電商平臺(tái)運(yùn)營(yíng)合作協(xié)議4篇
- 二零二五年度材料采購(gòu)合同環(huán)保標(biāo)準(zhǔn)補(bǔ)充協(xié)議模板3篇
- (完整版)兒童醫(yī)學(xué)康復(fù)科疾病護(hù)理常規(guī)
- 2022閥門制造作業(yè)指導(dǎo)書
- 科技創(chuàng)新社團(tuán)活動(dòng)教案課程
- 建筑結(jié)構(gòu)加固工程施工質(zhì)量驗(yàn)收規(guī)范表格
- 部編版語(yǔ)文六年級(jí)上冊(cè)作文總復(fù)習(xí)課件
- 無水氯化鈣MSDS資料
- 專利產(chǎn)品“修理”與“再造”的區(qū)分
- 氨堿法純堿生產(chǎn)工藝概述
- 健康管理專業(yè)建設(shè)規(guī)劃
- 指揮中心大廳及機(jī)房裝修施工組織方案
- 真心英雄合唱歌詞
評(píng)論
0/150
提交評(píng)論