基于高維空間連續(xù)神經(jīng)元覆蓋的基音頻率識別_第1頁
基于高維空間連續(xù)神經(jīng)元覆蓋的基音頻率識別_第2頁
基于高維空間連續(xù)神經(jīng)元覆蓋的基音頻率識別_第3頁
基于高維空間連續(xù)神經(jīng)元覆蓋的基音頻率識別_第4頁
全文預(yù)覽已結(jié)束

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

基于高維空間連續(xù)神經(jīng)元覆蓋的基音頻率識別

隨著計(jì)算機(jī)硬件技術(shù)的發(fā)展,語音識別技術(shù)也取得了很大進(jìn)步。但是,由于語音信號的復(fù)雜性和多樣性,以及連續(xù)語音識別中的協(xié)同發(fā)音現(xiàn)象廣泛存在,目前的語音識別算法在一定程度上還不能滿足人們使用的需要。以漢語為例,漢語的發(fā)音音節(jié)很短,一般只有一個音節(jié),由聲母和韻母組成,因此在語音信號中的信息量很小,給識別帶來很大困難。另外,漢語是一種有調(diào)語言,不同音調(diào)的音節(jié)之間的混淆是識別中最常見的替代錯誤。因此,針對漢語的特有性質(zhì),有人利用不同的特征在不同的空間分別建模,但勢必造成系統(tǒng)的結(jié)構(gòu)過于復(fù)雜。實(shí)驗(yàn)表明,如果在進(jìn)行語音識別之前,事先知道待識別語音的性別,則會大大提高最后的識別效果。在進(jìn)行語音識別之前,先對識別樣本進(jìn)行性別識別,再用不同的模型對不同的性別進(jìn)行語音識別,這樣不僅訓(xùn)練出來的模型更加精確,而且也可以減小模型的混合次數(shù),降低模型的復(fù)雜度。仿生模式識別是王守覺院士于2002年提出的一種新的模式識別的方法和理論,在此理論基礎(chǔ)上提出一種高維空間覆蓋算法,通過不同樣本在高維空間中覆蓋的不同區(qū)域?qū)颖具M(jìn)行劃分,并將該算法應(yīng)用于語音信號的性別識別。1語音的性別特征語音信號中有很多特征參數(shù),如時域中的短時能量,短時過零率,短時自相關(guān),以及頻率域中的頻譜,基音頻率等。要想對語音信號進(jìn)行性別劃分,就要抓住最能體現(xiàn)語音性別特征的參數(shù)。圖1(a)和圖1(b)分別為男性和女性說話人發(fā)出漢語讀音“元素”時的波形圖,語譜圖以及有效基音頻率的曲線。從圖中可以看到,男性和女性的基音頻率分布在不同的區(qū)域。圖2中通過對比發(fā)現(xiàn),女性基頻值明顯高于男性。語音中的濁音是準(zhǔn)周期信號,基音頻率的物理含義是濁音的聲帶振動基頻。統(tǒng)計(jì)顯示,不同性別的說話人,基音頻率具有不同的分布。男性說話者的基頻大部分集中在60~200Hz之間,女性大部分在200~450Hz。2自殺檢測2.1類模式類的基本框架模式識別是通過對具體的事物進(jìn)行觀測所得到的具有時間與空間分布的信息,模式所屬的類別或同一類中的模式的總稱為模式類,其中個別具體的模式稱為樣本。其基本框架如圖3所示。其中,起決定作用的是分類器的設(shè)計(jì)?,F(xiàn)存的分類方法有很多種,如基于統(tǒng)計(jì)決策分類理論的統(tǒng)計(jì)識別,起源于生物神經(jīng)系統(tǒng)研究的神經(jīng)網(wǎng)絡(luò),事先設(shè)定模版的模版匹配識別,以及基于知識向量機(jī)理論的模式識別等。2.2仿生模式的概念傳統(tǒng)模式識別中,人們考慮模式識別問題的主要出發(fā)點(diǎn)都是若干類別的最佳劃分問題;而仿生模式識別的基本出發(fā)點(diǎn)是把模式識別問題看成對各種各樣模式的“認(rèn)識”過程,而不是劃分。正如人類能很快地分辨出周圍的物體,是因?yàn)槿祟惡芎玫恼J(rèn)識了每一種事物的特征,并不是以對每種事物的分類為前提的。仿生模式識別的基點(diǎn)為:特征空間中同類樣本全體的連續(xù)性規(guī)律。傳統(tǒng)的模式識別的所有知識都存在于訓(xùn)練樣本中,因此基本上都是基于大數(shù)據(jù)量的訓(xùn)練樣本。而仿生模式識別則認(rèn)為,自然界任何預(yù)被認(rèn)識的事物(包括事物,圖像,聲音,語言,狀態(tài)等等)若存在兩個“同源”同類而不完全相等的事物,而這兩個事物的差別是可以漸變的或非量子化的,則這兩個同類事物之間必至少存在一個漸變的過程,在這個漸變過程中間的各事物都是屬于同一類的,以數(shù)學(xué)公式描述為:特征空間Rn中,設(shè)所有屬于A類事物的全體所構(gòu)成的點(diǎn)集為A,若集合A中存在任意兩個元素x與y,則對ε為任意大于零的值時,必定存在集合B使:即在樣本足夠多的情況下,所有同類模式所構(gòu)成的樣本在高維空間中應(yīng)構(gòu)成一個或多個閉合的區(qū)域,其中任意兩個樣本之間是連續(xù)的。也就是說,如果一個待識別樣本出現(xiàn)在某一類模式的這個閉合區(qū)域,則該樣本應(yīng)該是屬于這類模式。仿生模式識別抓住任兩個相近同類樣本之間的相似性,通過對訓(xùn)練樣本的“認(rèn)識”過程來為每一種模式建立模型。這樣建立起來的模型不僅能夠反映出訓(xùn)練樣本中所攜帶的信息,也能通過連續(xù)的思想,將鄰近的兩個同類樣本之間的信息保存在模型中。3模擬識別適用于性別識別3.1第三,基音頻率的估計(jì)特征提取的目的是從語音信號中抽取出能完全,精確的表達(dá)語音信號所攜帶的全部的用于識別的信息參數(shù)。特征提取是該系統(tǒng)的第一步,也是至關(guān)重要的一步,因?yàn)橛械恼Z音特征在反映性別特征的過程中沒有積極作用,反而造成系統(tǒng)數(shù)據(jù)的冗余。基音頻率在語音信號中是區(qū)分男女性別的主要特征,而且結(jié)構(gòu)簡單,每一幀數(shù)據(jù)只有一維基頻,能夠簡化分類識別過程。本文中實(shí)驗(yàn)數(shù)據(jù)采樣頻率為8kHz,位深度16bit,采用文獻(xiàn)中的幅度差和函數(shù)方法對樣本進(jìn)行基音頻率的估計(jì),并用Viterbi算法進(jìn)行后處理。將不存在基音的幀舍棄。3.2平均幀數(shù)及方向函數(shù)仿生模式識別基本出發(fā)點(diǎn)是對一類一類樣本的“認(rèn)識”,利用神經(jīng)元建立高維空間復(fù)雜幾何形體,完成對某類樣本的最佳覆蓋過程。本文采用一種類高斯混合模型的神經(jīng)元:其中,d為樣本的維數(shù),在性別識別中為樣本的幀數(shù),即一個樣本代表高維空間中的一個點(diǎn),th為設(shè)定門限值,R=[r1,r2,…,rd]為每一個神經(jīng)元的核心權(quán)值,表示每一維數(shù)據(jù)在高維空間中的中心;V=[v1,v2,…,vd]為方向權(quán)值,表示在每一個方向上距離中心的大小。其中:M為訓(xùn)練樣本的個數(shù),δ為調(diào)整大小的參數(shù)。訓(xùn)練時,首先計(jì)算所有訓(xùn)練樣本之間的距離:m、n代表任意兩個訓(xùn)練樣本。從中選擇距離最大的兩個樣本,即一類模式的兩個邊緣,從任意一個邊緣處開始對樣本進(jìn)行高維空間的覆蓋。尋找平均距離最小的M個樣本,完成一個神經(jīng)元的訓(xùn)練,直至所有的樣本都被覆蓋,這時所有的神經(jīng)元就形成對該類別所有樣本在高維空間的覆蓋。3.3分類識別樣本首先,對待識別樣本進(jìn)行和訓(xùn)練樣本同樣過程的特征提取,將與訓(xùn)練樣本相同幀數(shù)的基音頻率保存下來。對待識別樣本進(jìn)行性別識別的過程,就是判斷被識別樣本是否落在代表男性或是女性的訓(xùn)練樣本所圍成的高維有限空間的并集中。識別時的判別函數(shù)為:其中,Ymi代表所有的由男性訓(xùn)練樣本得出的神經(jīng)元,Yfi代表所有由女性樣本得出的神經(jīng)元,f為判別函數(shù)。4仿生模式實(shí)驗(yàn)該實(shí)驗(yàn)采用的數(shù)據(jù)庫為WSJ英文語音數(shù)據(jù)庫。為了突出仿生模式識別的性能優(yōu)勢,減少實(shí)驗(yàn)結(jié)果受隨機(jī)因素的影響,本次實(shí)驗(yàn)主要采取小數(shù)據(jù)集訓(xùn)練,大數(shù)據(jù)集測試的原則。訓(xùn)練數(shù)據(jù)和測試數(shù)據(jù)均提取前30幀有效基頻,男女各用50條數(shù)據(jù)進(jìn)行訓(xùn)練,850條數(shù)據(jù)進(jìn)行測試。由于訓(xùn)練數(shù)據(jù)比較少,可能會出現(xiàn)由于數(shù)據(jù)采集時不同人的不同聲音特征不具代表性,而影響最后統(tǒng)計(jì)結(jié)果的普遍性,因此該實(shí)驗(yàn)共進(jìn)行6次,分別使用不同的數(shù)據(jù)進(jìn)行訓(xùn)練,相同的數(shù)據(jù)進(jìn)行測試。實(shí)驗(yàn)結(jié)果如表1所示。同時,使用相同的數(shù)據(jù)采用HMM的方法進(jìn)行實(shí)驗(yàn)。實(shí)驗(yàn)使用HTK工具箱,分別為男女建模,模型中狀態(tài)數(shù)為5,混合數(shù)為6,同樣對以上6組數(shù)據(jù)進(jìn)行識別,實(shí)驗(yàn)對比結(jié)果如表2所示。仿生模式識別的算法設(shè)計(jì)結(jié)果不僅受訓(xùn)練樣本的影響,高維空間的維數(shù)也會影響識別結(jié)果。因此,接下來的實(shí)驗(yàn),依次增大高維空間的維數(shù),從5維增加到100維。訓(xùn)練數(shù)據(jù)100個,測試數(shù)據(jù)500個。不同實(shí)驗(yàn)的訓(xùn)練數(shù)據(jù)和測試數(shù)據(jù)為相同的語料,提取其中的不同幀數(shù)的基音頻率用于識別。實(shí)驗(yàn)結(jié)果如表3所示。該實(shí)驗(yàn)中,男性女性識別率具體的變化趨勢如圖4所示。本文分析了

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論