語(yǔ)音識(shí)別技術(shù)介紹PPT課件_第1頁(yè)
語(yǔ)音識(shí)別技術(shù)介紹PPT課件_第2頁(yè)
語(yǔ)音識(shí)別技術(shù)介紹PPT課件_第3頁(yè)
語(yǔ)音識(shí)別技術(shù)介紹PPT課件_第4頁(yè)
語(yǔ)音識(shí)別技術(shù)介紹PPT課件_第5頁(yè)
已閱讀5頁(yè),還剩29頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、 讓機(jī)器聽(tīng)懂人類(lèi)的語(yǔ)音,這是人們長(zhǎng)期以來(lái)夢(mèng)寐以求的事情。伴隨計(jì)算機(jī)技術(shù)發(fā)展,語(yǔ)音識(shí)別己成為信息產(chǎn)業(yè)領(lǐng)域的標(biāo)志性技術(shù),在人機(jī)交互應(yīng)用中逐漸進(jìn)入我們?nèi)粘5纳?,并迅速發(fā)展成為“改變未來(lái)人類(lèi)生活方式廳的關(guān)鍵技術(shù)之一。 語(yǔ)音識(shí)別技術(shù)以語(yǔ)音信號(hào)為研究對(duì)象,是語(yǔ)音信號(hào)處理的一個(gè)重要研究方向 。其最終目標(biāo)是實(shí)現(xiàn)人與機(jī)器進(jìn)行自然語(yǔ)言通信。發(fā)展和現(xiàn)狀:發(fā)展和現(xiàn)狀: 20世紀(jì)50年代,AT&T Bell(貝爾)研究所成功研制了世界上第一個(gè)能識(shí)別10個(gè)英文數(shù)字的語(yǔ)音識(shí)別系統(tǒng)一Audry系統(tǒng),這標(biāo)志著語(yǔ)音識(shí)別研究的開(kāi)始。 60年代計(jì)算機(jī)的應(yīng)用推動(dòng)了語(yǔ)音識(shí)別的發(fā)展。這一時(shí)期的重要成果是動(dòng)態(tài)規(guī)劃(Dynamic

2、Programming, DP)和線性預(yù)測(cè)分析(Linear Predictive)技術(shù)。其中后者較好的解決了語(yǔ)音信號(hào)產(chǎn)生的模型問(wèn)題,對(duì)語(yǔ)音識(shí)別產(chǎn)生了深遠(yuǎn)的影響。 70年代語(yǔ)音識(shí)別領(lǐng)域取得了突破。在理論上,LP 技術(shù)得到進(jìn)一步發(fā)展,動(dòng)態(tài)時(shí)間規(guī)整技術(shù)(DTW)的基本成熟,特別是提出了矢量量化(VQ)和隱馬爾可夫模型(HMM)理論。在實(shí)踐上,小詞匯量孤立詞的識(shí)別方面取得了實(shí)質(zhì)性的進(jìn)展 ,實(shí)現(xiàn)了基于線性預(yù)測(cè)倒譜和DTW技術(shù)的特定人孤立語(yǔ)音識(shí)別系統(tǒng)。這一時(shí)期的語(yǔ)音識(shí)別方法基本上是采用傳統(tǒng)的模式識(shí)別策略。 80年代語(yǔ)音識(shí)別研究進(jìn)一步走向深入,其顯著特征是HMM模型和人工神經(jīng)元網(wǎng)絡(luò)(ANN)在語(yǔ)音識(shí)別中的

3、成功應(yīng)用。HMM模型的廣泛應(yīng)用應(yīng)歸功于AT&T Bel實(shí)驗(yàn)室的Rabiner等科學(xué)家的努力,他們把HMM純數(shù)學(xué)模型工程化,從而為更多研究者了解和認(rèn)識(shí)。研究的重點(diǎn)逐漸轉(zhuǎn)向大詞匯量、非特定人連續(xù)語(yǔ)音識(shí)別。 90年代,隨著多媒體時(shí)代的來(lái)臨,在語(yǔ)音識(shí)別技術(shù)的應(yīng)用及產(chǎn)品化方面出現(xiàn)了很大的進(jìn)展。許多發(fā)達(dá)國(guó)家如美國(guó)、日本、韓國(guó)以及IBM,Apple,AT&T,NTT等著名公司都為語(yǔ)音識(shí)別系統(tǒng)的實(shí)用化開(kāi)發(fā)投以巨資。語(yǔ)音識(shí)別技術(shù)實(shí)用化進(jìn)程大大加速,并出現(xiàn)了許多實(shí)用化產(chǎn)品。 IBM公司率先推出的漢語(yǔ)ViaVoice語(yǔ)音識(shí)別系統(tǒng),帶有一個(gè)32,000詞的基本詞匯表,可以擴(kuò)展到65,000詞,平均識(shí)別

4、率可以達(dá)到95%,可以識(shí)別上海話、廣東話和四川話等地方口音,是目前具有代表性的漢語(yǔ)連續(xù)語(yǔ)音識(shí)別系統(tǒng)。 21世紀(jì)語(yǔ)音識(shí)別技術(shù)的應(yīng)用及產(chǎn)品化方面進(jìn)一步發(fā)展。在語(yǔ)音識(shí)別產(chǎn)品方面,各大公司紛紛推出自己產(chǎn)品。目前世界上最先進(jìn)的語(yǔ)音識(shí)別軟件,既不是微軟生產(chǎn)的,也非IBM制造,它的名字叫做Naturally Speaking,出自于Nuance Communications公司。Naturally Speaking己經(jīng)得到了大多數(shù)用戶的認(rèn)可。用戶對(duì)著麥克風(fēng)說(shuō)話,屏幕上就顯示出說(shuō)話的內(nèi)容,很容易識(shí)別和糾正錯(cuò)誤.久而久之,該軟件就會(huì)適應(yīng)用戶的說(shuō)話風(fēng)格。 我國(guó)語(yǔ)音識(shí)別研究工作起步于五十年代,但近年來(lái)發(fā)展很快,研究

5、水平也從實(shí)驗(yàn)室逐步走向?qū)嵱?。?987年開(kāi)始執(zhí)行國(guó)家863計(jì)劃后,國(guó)家863智能計(jì)算機(jī)專(zhuān)家組為語(yǔ)音識(shí)別技術(shù)研究專(zhuān)門(mén)立項(xiàng),每?jī)赡隄L動(dòng)一次。我國(guó)語(yǔ)音識(shí)別技術(shù)的研究水平己經(jīng)基本上與國(guó)外同步,在漢語(yǔ)語(yǔ)音識(shí)別技術(shù)上還有自己的特點(diǎn)與優(yōu)勢(shì),并達(dá)到國(guó)際先進(jìn)水平。其中,具有代表性的研究單位是清華大學(xué)電子工程系與中科院自動(dòng)化研究所模式識(shí)別國(guó)家重點(diǎn)實(shí)驗(yàn)室。 由清華大學(xué)電子工程系語(yǔ)音技術(shù)與專(zhuān)用芯片設(shè)計(jì)課題組研發(fā)的非特定人漢語(yǔ)數(shù)碼串連續(xù)語(yǔ)音識(shí)別系統(tǒng),識(shí)別精度達(dá)到了94.8%(不定長(zhǎng)數(shù)字串)和96.8%(定長(zhǎng)數(shù)字串).語(yǔ)音識(shí)別系統(tǒng)分類(lèi):語(yǔ)音識(shí)別系統(tǒng)分類(lèi): 從說(shuō)話者與識(shí)別系統(tǒng)的相關(guān)性分: (1)特定人語(yǔ)音識(shí)別系統(tǒng):僅考慮對(duì)

6、于專(zhuān)人的話音進(jìn)行識(shí)別,與說(shuō)話的語(yǔ)種沒(méi)有關(guān)系; (2)非特定人語(yǔ)音識(shí)別系統(tǒng):識(shí)別的語(yǔ)音與人無(wú)關(guān),通常要用大量不同人的語(yǔ)音數(shù)據(jù)庫(kù)對(duì)識(shí)別系統(tǒng)進(jìn)行學(xué)習(xí),識(shí)別的語(yǔ)言取決于采用的訓(xùn)練語(yǔ)音庫(kù); (3)多人的識(shí)別系統(tǒng):通常能識(shí)別一組人的語(yǔ)音該系統(tǒng)通常要求對(duì)該組人的語(yǔ)音進(jìn)行學(xué)習(xí),通??梢宰R(shí)別三到五個(gè)人的語(yǔ)音。 從說(shuō)話的方式分: (1)孤立詞語(yǔ)音識(shí)別系統(tǒng):其輸入系統(tǒng)要求輸入每個(gè)詞后要停頓; (2)連接詞語(yǔ)音識(shí)別系統(tǒng):其輸入系統(tǒng)要求對(duì)每個(gè)詞都清楚發(fā)音,開(kāi)始出現(xiàn)一些連音現(xiàn)象; (3) 連續(xù)語(yǔ)音識(shí)別系統(tǒng):連續(xù)語(yǔ)音輸入自然流利的語(yǔ)音,會(huì)出現(xiàn)大量的連音和變音。 另外從識(shí)別系統(tǒng)的詞匯量大小分:小詞匯量語(yǔ)音識(shí)別系統(tǒng)(幾十個(gè)詞)

7、;中等詞匯量語(yǔ)音識(shí)別系統(tǒng)(幾百到上千個(gè)詞);大詞匯量語(yǔ)音識(shí)別系統(tǒng)(幾千到幾萬(wàn)個(gè)詞)。語(yǔ)音識(shí)別的基本方法語(yǔ)音識(shí)別的基本方法: : 一般來(lái)說(shuō),語(yǔ)音識(shí)別的方法有三種:基于聲道模型和語(yǔ)音知識(shí)的方法、模板匹配的方法以及利用人工神經(jīng)網(wǎng)絡(luò)的方法。(1)語(yǔ)音學(xué)和聲學(xué)的方法 該方法起步較早,在語(yǔ)音識(shí)別技術(shù)提出的開(kāi)始,就有了這方面的研究,但由于其模型及語(yǔ)音知識(shí)過(guò)于復(fù)雜,現(xiàn)階段沒(méi)有達(dá)到實(shí)用的階段.(2)模板匹配的方法 模板匹配的方法發(fā)展比較成熟,目前己達(dá)到了實(shí)用階段。常用的技術(shù)有三種:動(dòng)態(tài)時(shí)間規(guī)整(DTW)、隱馬爾可夫(HMM)理論、矢量量化(VQ)技術(shù)。(3)神經(jīng)網(wǎng)絡(luò)的方法 基于ANN的語(yǔ)音識(shí)別系統(tǒng)通常由神經(jīng)元、

8、訓(xùn)練算法及網(wǎng)絡(luò)結(jié)構(gòu)等三大要素構(gòu)成。由于基于神經(jīng)網(wǎng)絡(luò)的訓(xùn)練識(shí)別算法由于實(shí)現(xiàn)起來(lái)較復(fù)雜,目前仍只是處于實(shí)驗(yàn)室研究階段。 目前語(yǔ)音識(shí)別的研究主流是大詞匯量的非特定人的連續(xù)語(yǔ)音系統(tǒng),但是事實(shí)上,對(duì)于許多應(yīng)用來(lái)說(shuō),一個(gè)語(yǔ)音識(shí)別系統(tǒng)只要一組詞匯或命令,它就可能為用戶提供一個(gè)有效的工具,簡(jiǎn)單有效的孤立詞特定人語(yǔ)音識(shí)別系統(tǒng)就能滿足要求。正是孤立詞特定人語(yǔ)音識(shí)別系統(tǒng)廣闊的應(yīng)用前景以及優(yōu)越性促使我們繼續(xù)對(duì)它進(jìn)行研究 目前市場(chǎng)上出現(xiàn)的語(yǔ)音識(shí)別器大多數(shù)是特定人孤立單詞語(yǔ)音識(shí)別系統(tǒng)。孤立詞語(yǔ)音識(shí)別系統(tǒng)中的難點(diǎn)問(wèn)題:孤立詞語(yǔ)音識(shí)別系統(tǒng)中的難點(diǎn)問(wèn)題: (1) 語(yǔ)音信號(hào)的多變性 語(yǔ)音信號(hào)是非平穩(wěn)隨機(jī)信號(hào),不但不同發(fā)音者發(fā)音之

9、間存在重大的差異,即使同一人同一語(yǔ)音的不同次發(fā)音,也存在很大差異。 (2) 噪聲影響 當(dāng)實(shí)際環(huán)境中有噪聲存在時(shí),容易造成訓(xùn)練與測(cè)試環(huán)境不匹配導(dǎo)致語(yǔ)音識(shí)別系統(tǒng)性能急劇下降。 (3) 端點(diǎn)檢測(cè) 統(tǒng)計(jì)表明語(yǔ)音識(shí)別系統(tǒng)一半以上的識(shí)別錯(cuò)誤來(lái)自端點(diǎn)檢測(cè)錯(cuò)誤。在安靜環(huán)境下有聲段和無(wú)聲段時(shí)能量存在很大差異,由此判斷語(yǔ)音的起點(diǎn)。但是當(dāng)噪聲的能量和語(yǔ)音信號(hào)的能量接近時(shí)就可能造成端點(diǎn)檢測(cè)的誤差從而導(dǎo)致識(shí)別結(jié)果錯(cuò)誤。 (4) 詞與詞的特征空間混疊 語(yǔ)音識(shí)別的常規(guī)方法是利用語(yǔ)音信號(hào)的短時(shí)周期特性將語(yǔ)音時(shí)域采樣信號(hào)分為若干段,計(jì)算出每一段的特征矢量序列作為識(shí)別參數(shù)。但是很多不同的詞語(yǔ)的矢量序列在特征空間中存在混疊現(xiàn)象,甚

10、至有些不同詞語(yǔ)的混疊程度會(huì)超過(guò)同一詞語(yǔ)的不同次發(fā)音,從而降低識(shí)別率。語(yǔ)音信號(hào)產(chǎn)生模型語(yǔ)音信號(hào)產(chǎn)生模型 語(yǔ)音是由空氣流激勵(lì)聲道產(chǎn)生的。對(duì)于濁音、清音和爆破音三種不同類(lèi)型的音來(lái)說(shuō),激勵(lì)源是不同的。濁音激勵(lì)源是位于聲門(mén)處的準(zhǔn)周期脈沖序列,清音的激勵(lì)源是位于聲道的某個(gè)收縮區(qū)的空氣湍流(類(lèi)似于噪聲),而爆破音的激勵(lì)源是位于聲道某個(gè)閉合點(diǎn)處建立起來(lái)的氣壓及其突然釋放。 語(yǔ)音生成系統(tǒng)分為三個(gè)部分,在聲門(mén)(聲帶)以下,稱(chēng)為聲門(mén)子系統(tǒng),它產(chǎn)生激勵(lì)振動(dòng),是激勵(lì)系統(tǒng):從聲門(mén)到嘴唇的呼氣通道是聲道系統(tǒng):語(yǔ)音從嘴唇輻射出去,所以嘴唇以外是輻射系統(tǒng)。因此,完整的語(yǔ)音信號(hào)的數(shù)學(xué)模型可以用三個(gè)子模型:激勵(lì)模型、聲道模型和輻射

11、模型的串聯(lián)表示。語(yǔ)音信號(hào)產(chǎn)生的時(shí)域模型語(yǔ)音信號(hào)產(chǎn)生的時(shí)域模型語(yǔ)音信號(hào)分析基礎(chǔ)語(yǔ)音信號(hào)分析基礎(chǔ) 語(yǔ)音信號(hào)的分析主要有時(shí)域分析和頻域分析兩種,其他還有倒譜域、語(yǔ)譜分析等。 語(yǔ)音信號(hào)是一種典型的非平穩(wěn)信號(hào)。語(yǔ)音的形成過(guò)程與發(fā)音器官的運(yùn)動(dòng)密切相關(guān),這種物理運(yùn)動(dòng)比起聲音振動(dòng)速度來(lái)講要緩慢得多,因此語(yǔ)音信號(hào)可假定為短時(shí)平穩(wěn)的,其頻譜特性和某些物理參數(shù)在10-30ms時(shí)間段內(nèi)是近似不變的,對(duì)語(yǔ)音信號(hào)進(jìn)行處理都是基于這個(gè)假設(shè) 語(yǔ)音信號(hào)的時(shí)域分析參數(shù)主要有短時(shí)能量、短時(shí)平均幅度、短時(shí)過(guò)零率等,這些參數(shù)主要用在語(yǔ)音端點(diǎn)檢測(cè)中。頻域分析參數(shù)主要有基音頻率、濾波器組參數(shù)、線性預(yù)測(cè)系數(shù)(LPC)、線性預(yù)測(cè)倒譜系數(shù)(Li

12、near Prediction Cepstrum Coefficient, LPCC)、線譜對(duì)參數(shù)(Linear Spectrum Pair, LSP),MEL頻率倒譜系數(shù)(Mel-Frequency Cepstrum Coefficient, MFCC)等.語(yǔ)音識(shí)別系統(tǒng)基本構(gòu)成語(yǔ)音識(shí)別系統(tǒng)基本構(gòu)成預(yù)處理預(yù)處理 預(yù)處理部分包括語(yǔ)音信號(hào)的采樣、反混疊濾波、語(yǔ)音增強(qiáng),去除聲門(mén)激勵(lì)和口唇輻射的影響以及噪聲影響等,預(yù)處理最重要的步驟是端點(diǎn)檢測(cè)。特征提取特征提取 特征提取部分的作用是從語(yǔ)音信號(hào)波形中提取一組或幾組能夠描述語(yǔ)音信號(hào)特征的參數(shù),如平均能量、過(guò)零數(shù)、共振峰、倒譜、線性預(yù)測(cè)系數(shù)等,以便訓(xùn)練和識(shí)別

13、。參數(shù)的選擇直接關(guān)系著語(yǔ)音識(shí)別系統(tǒng)識(shí)別率的高低。訓(xùn)練訓(xùn)練 訓(xùn)練是建立模式庫(kù)的必備過(guò)程,詞表中每個(gè)詞對(duì)應(yīng)一個(gè)參考模式,它由這個(gè)詞重復(fù)發(fā)音多遍,再經(jīng)特征提取和某種訓(xùn)練中得到。模式匹配模式匹配 模式匹配部分是整個(gè)系統(tǒng)的核心,其作用是按照一定的準(zhǔn)則求取待測(cè)語(yǔ)音特征參數(shù)和語(yǔ)音信息與模式庫(kù)中相應(yīng)模板之間的失真測(cè)度,最匹配的就是識(shí)別結(jié)果。語(yǔ)音信號(hào)的數(shù)字化和預(yù)處理語(yǔ)音信號(hào)的數(shù)字化和預(yù)處理 1 1、語(yǔ)音信號(hào)數(shù)字化 要了分析說(shuō)話人的語(yǔ)音,就要將話筒中傳來(lái)的語(yǔ)音信號(hào)轉(zhuǎn)換成計(jì)算機(jī)所能處理的數(shù)字信號(hào)。通過(guò)對(duì)語(yǔ)音信號(hào)特性的分析表明,濁音語(yǔ)音的頻譜一般在4KHz以上便迅速下降。而清音語(yǔ)音信號(hào)的頻譜在4KHz以上頻段反而呈上

14、升趨勢(shì),甚至超過(guò)了8KHz以后仍沒(méi)有明顯下降的苗頭。實(shí)驗(yàn)表明語(yǔ)音清晰度和可懂度有明顯影響的成分最高頻率約為5.7KHz。而語(yǔ)音信號(hào)本身的冗余度又比較大,少數(shù)輔音清晰度下降并不明顯影響語(yǔ)句的可懂度。因此語(yǔ)音識(shí)別時(shí)常用的采樣頻率為10KHz或16KHz。 2、預(yù)加重 為了消除聲門(mén)激勵(lì)和口鼻輻射的影響,需要對(duì)語(yǔ)音信號(hào)作預(yù)加重理。它的目的在于消除低頻干擾尤其是50Hz的工作頻率干擾,將對(duì)語(yǔ)音識(shí)別更為有用的高頻部分的頻譜進(jìn)行提升。使信號(hào)的頻譜變的平坦,保持在低頻到高頻的整個(gè)頻帶中,能用同樣的信噪比求頻譜, 以便于頻譜分析。 預(yù)加重?cái)?shù)字濾波器一般是一階的數(shù)字濾彼器: ,其中u的取值一般介于0.93和0.9

15、8之間。11)(zzH 3 3、語(yǔ)音分幀 語(yǔ)音信號(hào)常常可假定為短時(shí)平穩(wěn)的,即在10-20ms這樣的時(shí)間段內(nèi),其頻譜特性和某些物理特征參量可近似地看作是不變的。這樣就可以采用平穩(wěn)過(guò)程的分析處理方法來(lái)處理了。這種處理的基本方法是將語(yǔ)音信號(hào)分隔為一些短段即分幀再加以處理。分幀可以采用連續(xù)分段的方法,也可采用交疊分段的方法。一般采用交疊分段的方法,即幀與幀之間有交疊,交疊的目的是使幀與幀之間平滑過(guò)渡,保持其連續(xù)性。語(yǔ)音信號(hào)處理的幀長(zhǎng)一般取20ms)()()(nwnsnsw10, 1)(Nnnw10),12cos(46.054.0)(NnNnnw10),12cos(1 (5 .0)(NnNnnw矩形窗的

16、主瓣寬度最小,旁瓣高度最高,會(huì)導(dǎo)致泄漏現(xiàn)象,漢明窗的主瓣最寬,旁瓣高度最低,可以有效的克服泄漏現(xiàn)象,具有更平滑的低通特性,應(yīng)用更廣泛。語(yǔ)音信號(hào)的時(shí)域分析語(yǔ)音信號(hào)的時(shí)域分析 1 1、短時(shí)平均能量 短時(shí)平均能量反映了語(yǔ)音振幅或能量隨著時(shí)間緩慢變化的規(guī)律??梢詮恼Z(yǔ)音中區(qū)別出濁音來(lái),因?yàn)闈嵋魰r(shí)短時(shí)平均能量的值要比清音時(shí)短時(shí)平均能量的值大很多。其計(jì)算公式如下: 2、短時(shí)過(guò)零率 短時(shí)過(guò)零率表示一幀語(yǔ)音中語(yǔ)音信號(hào)波形穿過(guò)橫軸的次數(shù)。對(duì)于連續(xù)信號(hào),過(guò)零率意味著時(shí)域波形通過(guò)時(shí)間軸;在離散時(shí)間信號(hào)情況下,當(dāng)相鄰的兩次抽樣具有不同的代數(shù)符號(hào)時(shí)就稱(chēng)為發(fā)生了過(guò)零.應(yīng)用短時(shí)平均過(guò)零率可以得到譜特性的粗略估計(jì)。短時(shí)平均過(guò)零

17、率的定義為:濁音時(shí)能量集中于較低頻率段內(nèi),具有較低的過(guò)零率,而清音時(shí)能量集中于較高頻率段內(nèi),具有較高的過(guò)零率。)(12mnSEmNmnwm100)1()(21NnwwnSSgnnSSgnZ 3 3、端點(diǎn)檢測(cè) 端點(diǎn)檢測(cè)的目的就是從連續(xù)的聲音中間檢測(cè)出每一段語(yǔ)音的起始點(diǎn)和終止點(diǎn),從而達(dá)到節(jié)省系統(tǒng)資源,方便實(shí)時(shí)分析的效果。此外,端點(diǎn)檢測(cè)的好壞還將直接影響孤立詞識(shí)別率的高低。 雙門(mén)限前端檢測(cè)算法是經(jīng)典的起止點(diǎn)檢測(cè)算法,這種端點(diǎn)檢測(cè)技術(shù)主要利用短時(shí)過(guò)零率特征和每幀的平均幅值特征來(lái)判斷語(yǔ)音信號(hào)的起止點(diǎn),采用矩形窗進(jìn)行分幀。端點(diǎn)檢測(cè)效果圖端點(diǎn)檢測(cè)效果圖語(yǔ)音信號(hào)的特征參數(shù)提取語(yǔ)音信號(hào)的特征參數(shù)提取提取特征參數(shù)

18、滿足的要求: 1、能有效地代表語(yǔ)音特征,具有很好的區(qū)分性 2、參數(shù)間有良好的獨(dú)立性 3、特征參數(shù)要計(jì)算方便,要考慮到語(yǔ)音識(shí)別的實(shí)時(shí)實(shí)現(xiàn) 常用的特征參數(shù)包括: 線性預(yù)測(cè)系數(shù)(LPC); 線性預(yù)測(cè)倒譜系數(shù)(Linear Prediction Cepstrum Coefficient, LPCC); MEL頻率倒譜系數(shù)(Mel-Frequency Cepstrum Coefficient, MFCC)。 倒譜介紹倒譜介紹 倒譜定義為時(shí)間序列的z變換的模的對(duì)數(shù)的逆z變換: 倒譜分析的基礎(chǔ)是假設(shè)語(yǔ)音是激勵(lì)函數(shù)與聲道沖激響應(yīng)的卷積。語(yǔ)音的倒譜實(shí)際上是將語(yǔ)音的頻譜(短時(shí)譜)取對(duì)數(shù)后再進(jìn)行逆傅里葉變換(實(shí)際上

19、代之以DFT)得到的。因此,聲道濾波器對(duì)于倒譜的貢獻(xiàn)將表現(xiàn)為=0附近的峰起;而周期性脈沖激勵(lì)對(duì)倒譜的貢獻(xiàn)將表現(xiàn)為具有同樣周期的沖擊 。)(ln)(1nxzznc線性預(yù)測(cè)系數(shù)線性預(yù)測(cè)系數(shù)(LPC)()(0lnxanxplplplllzazH111)(線性預(yù)測(cè)倒譜系數(shù)線性預(yù)測(cè)倒譜系數(shù)(LPCC) 通過(guò)線性預(yù)測(cè)得到全極點(diǎn)系統(tǒng)函數(shù)為: 倒譜定義為時(shí)間序列的z變換的模的對(duì)數(shù)的逆z變換。因此線性預(yù)測(cè)倒譜可表示為: LPCC系數(shù)主要是模擬人的發(fā)聲模型,未考慮人耳的聽(tīng)覺(jué)特性, 它對(duì)元音有較好的描述能力,對(duì)輔音描述能力及抗噪性能比較差,其優(yōu)點(diǎn)是計(jì)算量小,易于實(shí)現(xiàn)。plllzazH111)()(ln)(1zHzn

20、hMEL頻率倒譜系數(shù)頻率倒譜系數(shù)MFCC MFCC參數(shù)是目前大多數(shù)語(yǔ)音識(shí)別系統(tǒng)中廣泛使用的特征參數(shù),它是基于人耳的聽(tīng)覺(jué)特性。人耳對(duì)聲音音調(diào)的感受與其頻率并不成線性關(guān)系。而Mel倒譜尺寸,則更符合人耳的聽(tīng)覺(jué)特性。 Mel頻率尺度,它的值大體上對(duì)應(yīng)于實(shí)際頻率的對(duì)數(shù)分布關(guān)系。Mel頻率與實(shí)際頻率的具體關(guān)系可用下式表示: MFCC的計(jì)算流程可以簡(jiǎn)單的概括為以下五個(gè)步驟: 1、分幀 2、DFT計(jì)算譜系數(shù) 3、對(duì)譜系數(shù)的幅值取log 4、將3中的結(jié)果轉(zhuǎn)化到Mel 頻標(biāo)下 5、做DCT變換 MFCC與基于線性預(yù)測(cè)的LPCC相比,其突出優(yōu)點(diǎn)是不依賴(lài)全極點(diǎn)語(yǔ)音產(chǎn)生模型的假定,因而在噪聲環(huán)境下表現(xiàn)出更強(qiáng)的魯棒性,在非特定人語(yǔ)音識(shí)別方面有利于減小因說(shuō)話人不同的差異可能帶來(lái)的影響。不足之處是MFCC方法中多次用到FFT,故算法的復(fù)雜程度遠(yuǎn)大于LPCC方法。)700/1lg(*2595)(ffMelMel濾波器組模板訓(xùn)練方法模板訓(xùn)練方法 偶然性訓(xùn)練方法 每個(gè)單詞的每一遍讀音形成一個(gè)模板,在識(shí)別時(shí),待識(shí)別語(yǔ)音特征矢量序列用特定的匹配算法分別求得與每個(gè)模板的累計(jì)失真,然后判別它屬于哪一類(lèi)。 魯棒性訓(xùn)練方法 將每一個(gè)詞重復(fù)說(shuō)多遍,直到得到一個(gè)一致性較好的特征矢量序列。最

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論