語音信號處理與識別PPT

上傳人：2*** IP屬地：湖北上傳時間：2022-01-26 格式：PPT 頁數(shù)：18 大?。?68.50KB 積分：28 舉報 版權(quán)申訴

已閱讀5頁，還剩13頁未讀，繼續(xù)免費閱讀

版權(quán)說明：本文檔由用戶提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

1、語音信號處理與識別發(fā)展n聲紋識別的起源，貝爾實驗室開發(fā)的Audrey語言識別系統(tǒng)n60年代，線性預(yù)測編碼技術(shù)(LPC)和動態(tài)規(guī)劃技術(shù)(DP)n70年代，LPC和DTW的發(fā)展，提出了矢量量化(VQ)和隱馬爾科夫模型(HMM)理論。n80年代，卡耐基梅隆大學(xué)突破了大量詞匯、連續(xù)語音和非特定人三大障礙，實現(xiàn)了基于隱馬爾客服模型的語言識別Sphinx系統(tǒng)。n90年代，語音發(fā)展相對緩慢，并沒有多大創(chuàng)新，許多公司斥巨資將語音識別系統(tǒng)實用化。如：IBM的Via Voice等等。n我國在語音識別方面起步相對較晚，但經(jīng)過幾十年的努力也取得了很大成就。 “863計劃”，大量詞匯非特定人連續(xù)語音識別演示系統(tǒng)，多項核

2、心技術(shù)和創(chuàng)新性方法n21世紀(jì)，移動互動網(wǎng)的興語音識別系統(tǒng)的發(fā)展起到了很大的推動作用，有安卓系統(tǒng)內(nèi)嵌語音識別系統(tǒng)、Google語音翻譯、科大訊飛推出的訊飛口訊和語音云識別等相關(guān)產(chǎn)品也得到了很大的應(yīng)用。優(yōu)缺點：n聲紋識別具有很多優(yōu)點：聲紋識別具有很多優(yōu)點：n純天然，識別的特征是聲音，不用接觸n測試設(shè)備成本低，不需要特殊設(shè)備，對采樣和量化的的芯片要求不高。n在遠(yuǎn)程應(yīng)用和移動互聯(lián)網(wǎng)環(huán)境中，可以通過電話和移動設(shè)備進(jìn)行身份確認(rèn)和辨認(rèn)。n但同時也有一些缺點：但同時也有一些缺點：n一個人的聲音具有易變性，易受身體狀況、年齡、情緒等的影響;n不同的麥克風(fēng)和信道對識別性能有影響;n環(huán)境噪音對識別有干擾;混合說話人

3、的情形下人的聲紋特征不易提取聲紋識別唯一性n聲紋識別：聲紋識別：聲紋識別(Voiceprint Recognition, VPR)，也稱為說話人識別(Speaker Recognition)，是從說話人發(fā)出的語音信號中提取聲紋信息。具有排他性，因為每個人的自然特征不同,所以聲紋和指紋一樣都各具特色，聲紋識別技術(shù)可以作為鑒別身份的一種重要手段。通過聲紋識別技術(shù)和位置服務(wù)技術(shù)（衛(wèi)星定位等）相結(jié)合，實現(xiàn)遠(yuǎn)程身份確認(rèn)，從而可達(dá)到被監(jiān)管對象真實的地理位置或活動軌跡。相關(guān)概念n聲紋識別按任務(wù)有兩類，即說話人辨認(rèn)聲紋識別按任務(wù)有兩類，即說話人辨認(rèn)(Speaker Identification)和說話

4、人確和說話人確認(rèn)認(rèn)(Speaker Verification)。說話人辨認(rèn)：用以判斷某段語音是若干人中的哪一個所說的，是“多選一”問題。說話人確認(rèn)：用以確認(rèn)某段語音是否是指定的某個人所說的，是“一對一判別”問題。 n聲紋識別按類型有文本相關(guān)的聲紋識別按類型有文本相關(guān)的(Text-Dependent)和文本無關(guān)的和文本無關(guān)的(Text-Independent)兩種。兩種。文本相關(guān)：因此可以達(dá)到較好的識別效果，但系統(tǒng)需要系統(tǒng)要求用戶按照規(guī)定的內(nèi)容發(fā)音，而識別時也必須按規(guī)定的內(nèi)容發(fā)音用戶配合。文本無關(guān)：系統(tǒng)則不規(guī)定說話人的發(fā)音內(nèi)容，模型建立相對困難，但用戶使用方便，可應(yīng)用范圍較寬。總框圖采

5、樣量化首先對語音進(jìn)行采樣量化和預(yù)處理，預(yù)處理包括預(yù)加重處理、加窗、分幀和端點檢測。采樣量化采樣量化n預(yù)濾波是為了防混疊和阻止工頻信號的干擾，預(yù)濾波器是帶通濾波器。n自動增益為了放大信號的倍數(shù)，以便于后續(xù)計算控制。nA/D轉(zhuǎn)換是為了把模擬信號轉(zhuǎn)換為數(shù)字信號, 以便計算機進(jìn)行相關(guān)處理，但在轉(zhuǎn)換中要對信號進(jìn)行量化這個階段會產(chǎn)生量化噪聲。A/D轉(zhuǎn)換器分為線性和非線性兩類。預(yù)處理n采樣后需要對信號進(jìn)行預(yù)處理，可提高信噪比，以便后續(xù)操作。n預(yù)加重可以提升高頻段;在整個頻段中保持頻譜平坦;方便進(jìn)行頻譜分析，預(yù)加重之后,開始進(jìn)行分幀加窗處理，我們把10ms-30ms內(nèi)語音信號看成是平穩(wěn)的，為得到短時的語音信號

6、,要對其進(jìn)行加窗操作，窗函數(shù)平滑地滑動,將語音信號分成幀。n在選擇窗函數(shù)時，窗函數(shù)必須在時域時減小兩端時間窗的坡度，使得窗口邊緣緩慢平滑降為零；在頻域，帶寬要在3db以上。常用的窗函數(shù)有：矩形窗和漢明窗。通常情況下，選擇漢明窗。n通過分楨加窗后，語音信號就被分割成短時語音信號，利用數(shù)字信號處理技術(shù)，對這些信號進(jìn)行處理，提取語音信號的特征參數(shù)。語音信號時域分析n時域分析簡單直觀，直接分析語音信號時域波形提取特征參數(shù)，一般用于最基本信號處理。主要方法有短時平均能量、短時平均幅度、端點檢測和短時平均過零率。n短時平均能量：語音信號的能量隨時間發(fā)生變化，清音和濁音間的能量差別很大，濁音能量大，可以分辨

7、清音和濁音，也可以界定有聲段和無聲段、聲母及韻母。n短時平均過零率：表示每幀內(nèi)信號過零的次數(shù)，可初步判斷清濁音，清音過零率高，可以很好反映信號頻率變化。適合背景噪聲較大的情況。n端點檢測：是將短時平均能量和短時平均過零率結(jié)合起來,進(jìn)行端點檢測,可以很好的檢測語音是否開始和結(jié)束；目的就是為了確定語音信號的起始點和結(jié)束點位置，避免無聲段的干擾。n頻域分析方法有：帶通濾波器組法、傅里葉變換法和線性預(yù)測法。n短時傅里葉分析：語音信號非平穩(wěn)，不能用標(biāo)準(zhǔn)傅里葉變換，語音信號在10-30ms時間是平穩(wěn)的。短時傅里葉變換可表示為：n經(jīng)過短時傅里葉變換，就可以得到短時功率譜。從而可以得到與語譜圖，語譜圖表示語音

8、頻譜隨時間變換的圖形。不同說話者的語譜圖的聲紋是不一樣的。語音信號頻域分析特征參數(shù)提取n特征提取在聲紋識別系統(tǒng)中占有很重要的作用，特征提取方法有：線性預(yù)測分析LPC、線性預(yù)測倒譜LPCC、梅爾倒譜MFCCnLPC和LPCC基本思想：語音信號當(dāng)前樣點的值可以用過去若干個樣點值的線性組合來逼近。使實際采樣值與預(yù)測值之間的均方差最小，可得LPC系數(shù)。n梅爾倒譜MFCC：模擬人的聽覺模型，通常情況下，人們對聲音的高低和頻率并不滿足線性正比關(guān)系，Mel參數(shù)值和實際聲音頻率成對數(shù)關(guān)系，Mel(f)=2595lg(1+f/700),對低頻比高頻敏感。n基本步驟：預(yù)處理-FFT變換-短時能量譜-梅爾濾波-對數(shù)

9、能量譜-DCT變換-MFCC參數(shù)n聲紋注冊，用戶在服務(wù)器上擁有自己的聲紋模型，用戶說話時，說話人確認(rèn)模塊將用戶語音和此聲紋模型進(jìn)行對比，確認(rèn)是否用戶本人，完成認(rèn)證。n通過手機SIM卡實現(xiàn)手機綁定，可以實現(xiàn)定位及語音信號采集，以確認(rèn)用戶在那個區(qū)域及在與什么人通話，從而檢測用戶是否從事危險活動。n訓(xùn)練階段和識別階段是說話人識別的兩個主要階段。n訓(xùn)練階段：指的是把每個說話人語音,進(jìn)行預(yù)處理,特征提取,建立相應(yīng)的數(shù)據(jù)庫模板。n識別階段：把測試者語音經(jīng)過特征提取處理之后,和之前建立的模板進(jìn)行匹配。進(jìn)行說話人辨認(rèn)實驗時,最接近測試語音的說話人就被認(rèn)為是待識別的人。進(jìn)行說話人確認(rèn)實驗時,通過測試音和模板

10、的相似度,來判決是否某人。身份確認(rèn)n語音資料庫該語音庫的存儲方式是用說話人文件包進(jìn)行組織的，標(biāo)注信息包括如下內(nèi)容: 錄音特性:錄音時間，錄音地點，錄音通道等說話人信息:姓名，性別，出生日期，家庭所在地，現(xiàn)在居住地址，聯(lián)系電話，電子郵件數(shù)據(jù)相關(guān)信息:采樣頻率，數(shù)據(jù)量化位數(shù)，(A/D)數(shù)據(jù)編碼格式、語音文本信息及錄音文本內(nèi)容n特征匹配的識別方法:n動態(tài)時間規(guī)整(DTW);n矢量量化(VQ);n隱形馬爾可夫模型(HMM);n人工神經(jīng)網(wǎng)絡(luò)(ANN)nDTW：人的每次發(fā)音不同，發(fā)音長短也不一樣，不能直接將測試模板與參考模板直接比較。DWT可以解決在時間上不匹配的問題，設(shè)測試模板和參考模板分別為Xm和Yn，DWT就是找到函數(shù)m=f（n），使測試模板時間軸n映射到參考模板時間軸m上，使兩模板匹配時的累計距離達(dá)到最小。nVQ：在訓(xùn)練階段，把每個人的語音信號的特征參數(shù)進(jìn)行分類，并生成碼子存為碼本，識別時，將測試語音參數(shù)序列與碼本中的每個碼子比較，計算最小距離。nHMM：是一種基于傳輸概率和轉(zhuǎn)移概率的隨機模型，把語音當(dāng)作是可觀察到的符號序列組成的隨機過程。訓(xùn)練時，通過對訓(xùn)練語言的特征參數(shù)序列得到HMM的狀態(tài)轉(zhuǎn)移

人人文庫> 全部分類> 教育資料 > 輔導(dǎo)培訓(xùn)

溫馨提示

1. 本站所有資源如無特殊說明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽，若沒有圖紙預(yù)覽就沒有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 人人文庫網(wǎng)僅提供信息存儲空間，僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理，對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對任何下載內(nèi)容負(fù)責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容，請與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

語音信號處理與識別PPT

文檔簡介

溫馨提示

最新文檔

評論

語音信號處理與識別PPT

文檔簡介

溫馨提示

最新文檔

評論

相關(guān)文檔