語(yǔ)音信號(hào)處理與識(shí)別PPT_第1頁(yè)
語(yǔ)音信號(hào)處理與識(shí)別PPT_第2頁(yè)
語(yǔ)音信號(hào)處理與識(shí)別PPT_第3頁(yè)
語(yǔ)音信號(hào)處理與識(shí)別PPT_第4頁(yè)
語(yǔ)音信號(hào)處理與識(shí)別PPT_第5頁(yè)
已閱讀5頁(yè),還剩13頁(yè)未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、語(yǔ)音信號(hào)處理與識(shí)別發(fā)展n聲紋識(shí)別的起源,貝爾實(shí)驗(yàn)室開(kāi)發(fā)的Audrey語(yǔ)言識(shí)別系統(tǒng)n60年代,線性預(yù)測(cè)編碼技術(shù)(LPC)和動(dòng)態(tài)規(guī)劃技術(shù)(DP)n70年代,LPC和DTW的發(fā)展,提出了矢量量化(VQ)和隱馬爾科夫模型(HMM)理論。n80年代,卡耐基梅隆大學(xué)突破了大量詞匯、連續(xù)語(yǔ)音和非特定人三大障礙,實(shí)現(xiàn)了基于隱馬爾客服模型的語(yǔ)言識(shí)別Sphinx系統(tǒng)。n90年代,語(yǔ)音發(fā)展相對(duì)緩慢,并沒(méi)有多大創(chuàng)新,許多公司斥巨資將語(yǔ)音識(shí)別系統(tǒng)實(shí)用化。如:IBM的Via Voice等等。n我國(guó)在語(yǔ)音識(shí)別方面起步相對(duì)較晚,但經(jīng)過(guò)幾十年的努力也取得了很大成就。 “863計(jì)劃”,大量詞匯非特定人連續(xù)語(yǔ)音識(shí)別演示系統(tǒng),多項(xiàng)核

2、心技術(shù)和創(chuàng)新性方法n21世紀(jì),移動(dòng)互動(dòng)網(wǎng)的興語(yǔ)音識(shí)別系統(tǒng)的發(fā)展起到了很大的推動(dòng)作用,有安卓系統(tǒng)內(nèi)嵌語(yǔ)音識(shí)別系統(tǒng)、Google語(yǔ)音翻譯、科大訊飛推出的訊飛口訊和語(yǔ)音云識(shí)別等相關(guān)產(chǎn)品也得到了很大的應(yīng)用。優(yōu)缺點(diǎn):n聲紋識(shí)別具有很多優(yōu)點(diǎn):聲紋識(shí)別具有很多優(yōu)點(diǎn):n純天然,識(shí)別的特征是聲音,不用接觸n測(cè)試設(shè)備成本低,不需要特殊設(shè)備,對(duì)采樣和量化的的芯片要求不高。n在遠(yuǎn)程應(yīng)用和移動(dòng)互聯(lián)網(wǎng)環(huán)境中,可以通過(guò)電話和移動(dòng)設(shè)備進(jìn)行身份確認(rèn)和辨認(rèn)。n但同時(shí)也有一些缺點(diǎn):但同時(shí)也有一些缺點(diǎn):n一個(gè)人的聲音具有易變性,易受身體狀況、年齡、情緒等的影響;n不同的麥克風(fēng)和信道對(duì)識(shí)別性能有影響;n環(huán)境噪音對(duì)識(shí)別有干擾;混合說(shuō)話人

3、的情形下人的聲紋特征不易提取 聲紋識(shí)別唯一性n聲紋識(shí)別:聲紋識(shí)別: 聲紋識(shí)別(Voiceprint Recognition, VPR),也稱為說(shuō)話人識(shí)別(Speaker Recognition),是從說(shuō)話人發(fā)出的語(yǔ)音信號(hào)中提取聲紋信息。具有排他性,因?yàn)槊總€(gè)人的自然特征不同,所以聲紋和指紋一樣都各具特色,聲紋識(shí)別技術(shù)可以作為鑒別身份的一種重要手段 。通過(guò)聲紋識(shí)別技術(shù)和位置服務(wù)技術(shù)(衛(wèi)星定位等)相結(jié)合,實(shí)現(xiàn)遠(yuǎn)程身份確認(rèn),從而可達(dá)到被監(jiān)管對(duì)象真實(shí)的地理位置或活動(dòng)軌跡。 相關(guān)概念n聲紋識(shí)別按任務(wù)有兩類,即說(shuō)話人辨認(rèn)聲紋識(shí)別按任務(wù)有兩類,即說(shuō)話人辨認(rèn)(Speaker Identification)和說(shuō)話

4、人確和說(shuō)話人確認(rèn)認(rèn)(Speaker Verification)。 說(shuō)話人辨認(rèn):用以判斷某段語(yǔ)音是若干人中的哪一個(gè)所說(shuō)的,是“多選一”問(wèn)題。 說(shuō)話人確認(rèn):用以確認(rèn)某段語(yǔ)音是否是指定的某個(gè)人所說(shuō)的,是“一對(duì)一判別”問(wèn)題。 n聲紋識(shí)別按類型有文本相關(guān)的聲紋識(shí)別按類型有文本相關(guān)的(Text-Dependent)和文本無(wú)關(guān)的和文本無(wú)關(guān)的(Text-Independent)兩種。兩種。 文本相關(guān):因此可以達(dá)到較好的識(shí)別效果,但系統(tǒng)需要系統(tǒng)要求用戶按照規(guī)定的內(nèi)容發(fā)音,而識(shí)別時(shí)也必須按規(guī)定的內(nèi)容發(fā)音用戶配合。 文本無(wú)關(guān):系統(tǒng)則不規(guī)定說(shuō)話人的發(fā)音內(nèi)容,模型建立相對(duì)困難,但用戶使用方便,可應(yīng)用范圍較寬。 總框圖采

5、樣量化首先對(duì)語(yǔ)音進(jìn)行采樣量化和預(yù)處理,預(yù)處理包括預(yù)加重處理、加窗、分幀和端點(diǎn)檢測(cè)。采樣量化采樣量化n預(yù)濾波是為了防混疊和阻止工頻信號(hào)的干擾,預(yù)濾波器是帶通濾波器。n自動(dòng)增益為了放大信號(hào)的倍數(shù),以便于后續(xù)計(jì)算控制。nA/D轉(zhuǎn)換是為了把模擬信號(hào)轉(zhuǎn)換為數(shù)字信號(hào), 以便計(jì)算機(jī)進(jìn)行相關(guān)處理,但在轉(zhuǎn)換中要對(duì)信號(hào)進(jìn)行量化這個(gè)階段會(huì)產(chǎn)生量化噪聲。A/D轉(zhuǎn)換器分為線性和非線性兩類。預(yù)處理n采樣后需要對(duì)信號(hào)進(jìn)行預(yù)處理,可提高信噪比,以便后續(xù)操作。n預(yù)加重可以提升高頻段;在整個(gè)頻段中保持頻譜平坦;方便進(jìn)行頻譜分析,預(yù)加重之后,開(kāi)始進(jìn)行分幀加窗處理,我們把10ms-30ms內(nèi)語(yǔ)音信號(hào)看成是平穩(wěn)的,為得到短時(shí)的語(yǔ)音信號(hào)

6、,要對(duì)其進(jìn)行加窗操作,窗函數(shù)平滑地滑動(dòng),將語(yǔ)音信號(hào)分成幀。n在選擇窗函數(shù)時(shí),窗函數(shù)必須在時(shí)域時(shí)減小兩端時(shí)間窗的坡度,使得窗口邊緣緩慢平滑降為零;在頻域,帶寬要在3db以上。常用的窗函數(shù)有:矩形窗和漢明窗。通常情況下,選擇漢明窗。n通過(guò)分楨加窗后,語(yǔ)音信號(hào)就被分割成短時(shí)語(yǔ)音信號(hào),利用數(shù)字信號(hào)處理技術(shù),對(duì)這些信號(hào)進(jìn)行處理,提取語(yǔ)音信號(hào)的特征參數(shù)。語(yǔ)音信號(hào)時(shí)域分析n時(shí)域分析簡(jiǎn)單直觀,直接分析語(yǔ)音信號(hào)時(shí)域波形提取特征參數(shù),一般用于最基本信號(hào)處理。主要方法有短時(shí)平均能量、短時(shí)平均幅度、端點(diǎn)檢測(cè)和短時(shí)平均過(guò)零率。n短時(shí)平均能量:語(yǔ)音信號(hào)的能量隨時(shí)間發(fā)生變化,清音和濁音間的能量差別很大,濁音能量大,可以分辨

7、清音和濁音,也可以界定有聲段和無(wú)聲段、聲母及韻母。n短時(shí)平均過(guò)零率:表示每幀內(nèi)信號(hào)過(guò)零的次數(shù),可初步判斷清濁音,清音過(guò)零率高,可以很好反映信號(hào)頻率變化。適合背景噪聲較大的情況。n端點(diǎn)檢測(cè):是將短時(shí)平均能量和短時(shí)平均過(guò)零率結(jié)合起來(lái),進(jìn)行端點(diǎn)檢測(cè),可以很好的檢測(cè)語(yǔ)音是否開(kāi)始和結(jié)束;目的就是為了確定語(yǔ)音信號(hào)的起始點(diǎn)和結(jié)束點(diǎn)位置,避免無(wú)聲段的干擾。n頻域分析方法有:帶通濾波器組法、傅里葉變換法和線性預(yù)測(cè)法。n短時(shí)傅里葉分析:語(yǔ)音信號(hào)非平穩(wěn),不能用標(biāo)準(zhǔn)傅里葉變換,語(yǔ)音信號(hào)在10-30ms時(shí)間是平穩(wěn)的。短時(shí)傅里葉變換可表示為:n經(jīng)過(guò)短時(shí)傅里葉變換,就可以得到短時(shí)功率譜。從而可以得到與語(yǔ)譜圖,語(yǔ)譜圖表示語(yǔ)音

8、頻譜隨時(shí)間變換的圖形。不同說(shuō)話者的語(yǔ)譜圖的聲紋是不一樣的。語(yǔ)音信號(hào)頻域分析特征參數(shù)提取n特征提取在聲紋識(shí)別系統(tǒng)中占有很重要的作用,特征提取方法有:線性預(yù)測(cè)分析LPC、線性預(yù)測(cè)倒譜LPCC、梅爾倒譜MFCCnLPC和LPCC基本思想:語(yǔ)音信號(hào)當(dāng)前樣點(diǎn)的值可以用過(guò)去若干個(gè)樣點(diǎn)值的線性組合來(lái)逼近。使實(shí)際采樣值與預(yù)測(cè)值之間的均方差最小,可得LPC系數(shù)。n梅爾倒譜MFCC:模擬人的聽(tīng)覺(jué)模型,通常情況下,人們對(duì)聲音的高低和頻率并不滿足線性正比關(guān)系,Mel參數(shù)值和實(shí)際聲音頻率成對(duì)數(shù)關(guān)系,Mel(f)=2595lg(1+f/700),對(duì)低頻比高頻敏感。n基本步驟:預(yù)處理-FFT變換-短時(shí)能量譜-梅爾濾波-對(duì)數(shù)

9、能量譜-DCT變換-MFCC參數(shù)n聲紋注冊(cè),用戶在服務(wù)器上擁有自己的聲紋模型,用戶說(shuō)話時(shí),說(shuō)話人確認(rèn)模塊將用戶語(yǔ)音和此聲紋模型進(jìn)行對(duì)比,確認(rèn)是否用戶本人,完成認(rèn)證。n通過(guò)手機(jī)SIM卡實(shí)現(xiàn)手機(jī)綁定,可以實(shí)現(xiàn)定位及語(yǔ)音信號(hào)采集,以確認(rèn)用戶在那個(gè)區(qū)域及在與什么人通話,從而檢測(cè)用戶是否從事危險(xiǎn)活動(dòng)。n訓(xùn)練階段和識(shí)別階段是說(shuō)話人識(shí)別的兩個(gè)主要階段。n訓(xùn)練階段:指的是把每個(gè)說(shuō)話人語(yǔ)音,進(jìn)行預(yù)處理,特征提取,建立相應(yīng)的數(shù)據(jù)庫(kù)模板。n識(shí)別階段:把測(cè)試者語(yǔ)音經(jīng)過(guò)特征提取處理之后,和之前建立的模板進(jìn)行匹配。 進(jìn)行說(shuō)話人辨認(rèn)實(shí)驗(yàn)時(shí),最接近測(cè)試語(yǔ)音的說(shuō)話人就被認(rèn)為是待識(shí)別的人。 進(jìn)行說(shuō)話人確認(rèn)實(shí)驗(yàn)時(shí),通過(guò)測(cè)試音和模板

10、的相似度,來(lái)判決是否某人。身份確認(rèn)n語(yǔ)音資料庫(kù) 該語(yǔ)音庫(kù)的存儲(chǔ)方式是用說(shuō)話人文件包進(jìn)行組織的,標(biāo)注信息包括如下內(nèi)容: 錄音特性:錄音時(shí)間,錄音地點(diǎn),錄音通道等 說(shuō)話人信息:姓名,性別,出生日期,家庭所在地,現(xiàn)在居住地址,聯(lián)系電話,電子郵件 數(shù)據(jù)相關(guān)信息:采樣頻率,數(shù)據(jù)量化位數(shù),(A/D)數(shù)據(jù)編碼格式、語(yǔ)音文本信息及錄音文本內(nèi)容n特征匹配的識(shí)別方法:n動(dòng)態(tài)時(shí)間規(guī)整(DTW);n矢量量化(VQ);n隱形馬爾可夫模型(HMM);n人工神經(jīng)網(wǎng)絡(luò)(ANN)nDTW:人的每次發(fā)音不同,發(fā)音長(zhǎng)短也不一樣,不能直接將測(cè)試模板與參考模板直接比較。DWT可以解決在時(shí)間上不匹配的問(wèn)題,設(shè)測(cè)試模板和參考模板分別為Xm和Yn,DWT就是找到函數(shù)m=f(n),使測(cè)試模板時(shí)間軸n映射到參考模板時(shí)間軸m上,使兩模板匹配時(shí)的累計(jì)距離達(dá)到最小。nVQ:在訓(xùn)練階段,把每個(gè)人的語(yǔ)音信號(hào)的特征參數(shù)進(jìn)行分類,并生成碼子存為碼本,識(shí)別時(shí),將測(cè)試語(yǔ)音參數(shù)序列與碼本中的每個(gè)碼子比較,計(jì)算最小距離。nHMM:是一種基于傳輸概率和轉(zhuǎn)移概率的隨機(jī)模型,把語(yǔ)音當(dāng)作是可觀察到的符號(hào)序列組成的隨機(jī)過(guò)程。訓(xùn)練時(shí),通過(guò)對(duì)訓(xùn)練語(yǔ)言的特征參數(shù)序列得到HMM的狀態(tài)轉(zhuǎn)移

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論