




版權說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權,請進行舉報或認領
文檔簡介
1、最新語音聲紋識別技術及應用,2018年1月,主要內(nèi)容,2,聲音處理,聲音的三要素,音質(zhì),聲音的三要素是音調(diào)、音色和音強,音調(diào)代表聲音的高低,與頻率有關。頻率越高,音調(diào)越高,反之亦然,音色是聲音的特色。影響聲音特色的主要因素是復音,即具有不同頻率和不同振幅的混合聲音,音強是聲音的強度,也被稱為聲音的強度。音強與聲波的振幅成正比,振幅越大,強度越大,對于數(shù)字音頻信號,音質(zhì)的好壞與數(shù)據(jù)采樣頻率和數(shù)據(jù)位數(shù)有關,音質(zhì)與聲音還原設備有關,音質(zhì)與信號噪聲比(SNR)有關,文件,數(shù)字化的音頻文件主要分為4類,波形音頻文件。一種最直接的表達聲波的數(shù)字形式,文件擴展名是“.wav,MIDI音頻文件。一種計算機數(shù)字
2、音樂接口生成的數(shù)字描述音頻文件,擴展名是“.mid,CD-DA音頻文件。標準激光盤文件,擴展名是“.cda,壓縮音頻文件。在數(shù)字音頻領域,一種MP3格式的壓縮音頻文件很流行,該格式的文件簡稱MP3文件,聲音處理,聲音處理,獲取聲音,獲得CD中的聲音,錄音,聲音轉(zhuǎn)換,如果希望把音樂CD中的歌曲或樂曲作為素材,需要把這些歌曲或樂曲轉(zhuǎn)換成計算機能夠處理的數(shù)字化聲音,這就是“采樣”??梢允褂肊asy CD-DA Extractor、CoolEdit等音頻處理軟件對音頻進行編輯和處理,要錄制音質(zhì)好的聲音,有兩個途徑:使用性能優(yōu)良的錄音設備;采用較高的采樣頻率。可以使用Windows系統(tǒng)自帶的“錄音機”進
3、行錄音,聲音的轉(zhuǎn)換只能從高質(zhì)量向低質(zhì)量進行,聲音的轉(zhuǎn)換不需要專門的軟件,使用Windows的“錄音機”轉(zhuǎn)換即可,并且轉(zhuǎn)換功能很強。 如果要進一步處理,可采用CoolEdit(Adobe Audition)工具軟件,短時能量和過零率,語音分幀 每幀10-30ms, 幀間隔10ms 短時能量 對數(shù) 平方和 絕對值 過零率(ZCR,6,參數(shù)提取的預處理,預加重: 減少尖銳噪聲影響,提升高頻部分 加窗:Hamming 減少Gibbs效應,7,各種參數(shù)的比較,Linear Prediction Cepstrum Coefficients (LPCC) 假定所處理信號為自回歸信號(不適用輔音); 計算簡單
4、,但抗噪性差。 Mel-Frequency Cepstrum Coefficients (MFCC) 模擬人的聽覺模型; 強調(diào)低頻部分,屏蔽噪聲影響; 識別率高,但計算量大。 能量 輔助作用,需歸一化。 音調(diào) 對算法要求高,適于二次判別,8,Mel-頻率,目的:模擬人耳對不同頻率語音的感知 人類對不同頻率語音有不同的感知能力 1kHz以下,與頻率成線性關系 1kHz以上,與頻率成對數(shù)關系 Mel頻率定義 1Mel1kHz音調(diào)感知程度的1/1000,9,Mel-頻率,公式: 頻率Mel-頻率,頻率,Mel-頻率,Mel-頻率,頻率(Hz,10,MFCC,計算流程,11,DFT,時域信號,線性譜域
5、,Mel 濾波器組,Log,DCT,Mel譜域,對數(shù)譜域,MFCC,主要內(nèi)容,12,語音識別,Automatic Speech Recognition (ASR) 的中文含意是自動語音識別。語音識別技術的目標是讓機器能夠“聽懂”不同人說的話,實現(xiàn)從聲音到文字的轉(zhuǎn)換,13,語音識別基本術語,特定人和非特定人(話者相關或話者無關) 詞匯量(大,?。?孤立詞,連接詞,關鍵詞和連續(xù)語音 自然發(fā)音和朗讀發(fā)音 口音(方言) 背景噪音(環(huán)境噪音) 信道差異(固定電話,麥克,手機等) 聲學模型(HMM,mono-phone,bi-phone,tri-phone) 聲學特征(MFCC) 解碼(Viterbi,1
6、4,語音識別基本術語,識別指標: SER(Sentence Error Rate,句子錯誤率) WER(Word Error Rate,詞錯誤率) CER(Character Error Rate,字錯誤率) PER(Phone Error Rate,音節(jié)錯誤率) 采樣率,8kHz(電話或手機),16kHz(麥克風) 時域,頻域 端點檢測,靜音檢測或有效音檢測(VAD,15,語音識別分類,16,語音識別發(fā)展歷史,50年代AT&T Bell Lab,可識別10個英文數(shù)字 60年代LP較好地解決了語音信號產(chǎn)生模型, DP則有效解決了不等長語音的匹配問題。 70年代DTW(Dynamic Time
7、Warp)技術基本成熟,實現(xiàn)了基于LPC和DTW技術相結(jié)合的特定人孤立詞語音識別系統(tǒng)。 80年代HMM模型和人工神經(jīng)元網(wǎng)絡(ANN)在語音識別中成功應用。1988年美國CMU大學基于VQ/HMM開發(fā)SI-CSR系統(tǒng) SPHINX。 90年代大規(guī)模應用,工業(yè)標準,理論進展緩慢,17,語音識別潛在應用,18,語音識別系統(tǒng)框架,19,特征提取,訓練,模式匹配,拒識,語法,模型,結(jié)果,語音,說話人自適應,語音識別過程,20,HMM基礎(1,隱含Markov模型 觀測可見,狀態(tài)隱含 基本要素 N - 模型狀態(tài)數(shù) =i - 初始概率分布 A=aij - 狀態(tài)轉(zhuǎn)移矩陣 B=bj(k) - 輸出概率矩陣,21
8、,HMM基礎(2,轉(zhuǎn)移概率矩陣 aij狀態(tài)i到狀態(tài)j發(fā)生跳轉(zhuǎn)的概率,22,HMM基礎(3,輸出概率 bi(x) x屬于狀態(tài)i的概率,23,HMM基礎(4,HMM的三個基本問題 - 模型評估問題(如何求:P(O|) - 最佳路徑問題(如何求:Q=q1q2qT) - 模型訓練問題(如何求:A、B,24,模型評估問題(如何求:P(O,前向概率 給定HMM參數(shù) ,在t時刻處于狀態(tài)i,部分觀察序列為o1o2ot 的概率 后向概率 給定HMM參數(shù) ,在t時刻處于狀態(tài)i,部分觀察序列為ot+1ot+2oT 的概率,25,模型評估問題(如何求:P(O,前向和后向遞推的示意圖,26,最佳路徑問題(如何求:Q=q
9、1q2qT,前向后向算法的缺點 計算量的浪費 狀態(tài)路徑不能明確判定 Viterbi算法 不完全的狀態(tài)空間搜索 保留狀態(tài)轉(zhuǎn)移路徑的信息,27,最佳路徑問題(如何求:Q=q1q2qT,Viterbi算法的搜索空間,28,Viterbi識別算法和路徑回溯,29,模型訓練問題(如何求:A、B,優(yōu)化問題 優(yōu)化目標:P(O|)最大 Lagrange數(shù)乘法,輔助函數(shù),30,Baum-Welch參數(shù)重估算法,31,模型訓練問題(如何求:A、B,連續(xù)HMM算法,連續(xù)的含義 參數(shù)重估 識別算法,32,連續(xù)”的含義,連續(xù)混合高斯概率密度函數(shù)(pdf): 每個狀態(tài)表示為若干函數(shù)fn(x)的線性組合 fn(x)是連續(xù)高
10、斯概率密度函數(shù),33,連續(xù)HMM參數(shù)重估(1,需要重估的參數(shù): 起始概率 轉(zhuǎn)移概率 各狀態(tài)中不同pdf的權 各狀態(tài)中不同pdf的均值和方差,34,連續(xù)HMM參數(shù)重估(2,t時刻序列處于狀態(tài)j、混合高斯密度l的概率,35,連續(xù)HMM參數(shù)重估(3,pdf的無溢出參數(shù)重估公式,36,識別算法,概率計算: P(O|) Viterbi算法 對數(shù)形式 與離散HMM相似,只需替換bjl(x,37,實際HMM系統(tǒng)的具體問題,起始概率的問題 轉(zhuǎn)移概率的問題 模型的自適應 區(qū)別性訓練,38,起始概率的問題,自左向右結(jié)構的HMM,起始概率為: 1, 0, 0, 0 即:只能從第一個狀態(tài)開始,39,轉(zhuǎn)移概率的問題,大
11、量實驗證明:轉(zhuǎn)移概率對識別性能的影響是微不足道的 訓練過程中,常常將其設定為常數(shù): aij=0.5 識別過程中,不進行l(wèi)og(aij)的累加僅考慮bi(.)的作用,40,模型的自適應(1,自適應的必要性 口音 感冒. MAP自適應算法 MAP: 最大后驗概率準則 本質(zhì)上是重新訓練一次,對原B矩陣進行微調(diào) 特點:簡單,對每個HMM單獨自適應,只需一次發(fā)音,41,模型的自適應(2,MLLR算法 MLLR:最大似然線性回歸 本質(zhì):將原模型的參數(shù)進行線性變換后再進行識別 特點:少量語音可以對所有模型進行自適應,只要得到線性變換矩陣即可,42,區(qū)別性訓練,傳統(tǒng)HMM訓練算法的缺陷 MCE算法 MCE:最
12、小分類誤差準則 使用場合:小詞表識別系統(tǒng) 需要細致調(diào)整算法參數(shù),才能保證收斂,43,中文語音識別的特點,相對于西方語言來說,中文有自己的獨特之處。中文是有調(diào)語言,發(fā)音的基本單元是聲母和韻母并且以音節(jié)為自然單位,一個音節(jié)就是一個字甚至詞,以至字詞的時長很短,混淆度更大。 另外,中文用415個基本的無調(diào)音節(jié)來構成7000多個基本漢字的發(fā)音,多音字很多。 特別是,中文的發(fā)音和字是獨立的,僅僅是中國大陸地區(qū)就有很多的方言,口音問題非常嚴重。特別是在做中文孤立詞和短語命令識別的時候,由于沒有上下文的信息并且語音的長度很短,口音會嚴重地降低識別率,44,中文語音建?;容^,45,語音識別應用舉例,嵌入式
13、語音識別: 智能玩具:語音對話娃娃、語音聲控機器人 智能家電:語音識別臺燈、語音識別插座 智能手機:語音撥號 電話語音識別: 語音電話簿:電信增值 智能語音總機:企業(yè)應用,46,嵌入式語音識別,47,智能玩具語音對話娃娃,智能玩具語音聲控機器人,語音增值業(yè)務,企業(yè)電話簿:會議通知、語音信箱、傳真信箱、企業(yè)郵箱、信息發(fā)布、定向廣告。 個人電話簿:個人郵件、數(shù)據(jù)同步、資訊定制、個人財經(jīng)、業(yè)務定制。 語音門戶:天氣、股票、航班查詢,50,主要內(nèi)容,51,生物識別技術優(yōu)勢,聲紋的獨特性,聲紋識別屬于生物識別技術的一種,是一項根據(jù)語音波形中反映說話人生理和行為特征的語音參數(shù),自動識別說話人身份的技術。每
14、個人,無論別人說話模仿的多么相似,都具有獨一無二的聲紋,這是由每個人的發(fā)聲器官在成長過程中形成的,聲紋特征的唯一性可以用來唯一確定一個用戶的身份,聲紋識別流程,聲紋注冊,聲紋數(shù)據(jù)庫,InterVeri,提取聲紋特征,可通過自動語音提示錄音完成注冊過程 支持8k/16k ,8 bit a/u-law和 16 bit pcm格式的語音 注冊有效語音在2s60S之間,完成注冊并加密存儲在數(shù)據(jù)庫中 注冊后的聲紋可以存儲在數(shù)據(jù)庫中,并采用ODBC接口,支持SQL Server,ORACLE,DB2,聲紋不是音頻文件,即使被偷竊也不能重播,文本無關確認,聲紋驗證時有效語音長度8-60s之間,最低可支持15
15、s有效語音,以上數(shù)據(jù)可以根據(jù)需要進行配置, 與語音無關,內(nèi)容和注冊也無關,通過文本內(nèi)容識別+聲紋確認,可有效防止錄音欺騙,特征比對,文本相關確認,提取聲紋特征,結(jié)果,通過,拒絕,特征比對,文本識別,注冊時需要將密碼重復5遍,驗證身份時說出之前的密碼才可以通過驗證,該方式識別率高,錄音時間短,特征比對,聲紋密碼確認,提取聲紋特征,結(jié)果,通過,拒絕,通過和數(shù)據(jù)庫中已經(jīng)注冊的所有人做對比,挑選出最有可能的說話人列表,特征比對,聲紋鑒別,提取聲紋特征,ID 得分,99,65,60,60,聲紋識別兩個方向,聲紋系統(tǒng)的優(yōu)點,與其他生物識別技術(如臉型、掌形、虹膜識別等)相比較,1,2,3,衡量聲紋系統(tǒng)效果
16、指標,Imposter False Accept Rate (FAR,User False Reject Rate (FRR,錯誤接受率(False Accept Rate) 指非本人被錯誤的認為是本人的次數(shù)占總共測試次數(shù)的比值 錯誤拒絕率(False Reject Rate) 指本人被錯誤的認為是非本人的次數(shù)占總共測試次數(shù)的比值 相等錯誤率(Equal Error Rate) 指FA等于FR時的百分比。是衡量聲紋驗證效果的重要依據(jù),聲紋系統(tǒng)準確率,基于科大訊飛深厚的研究積累,整合國際說話人識別大賽第一名的領先技術,提供業(yè)界領先的高準確率,幫助語音應用獲得最佳安全性,第三方評測,64,64,參
17、賽單位有:CMU、MIT、Stanford、清華大學、中科院自動化所、中科院聲學所、Motorola研究中心、IBM 研究院等國內(nèi)外43家著名語音研究機構,由NIST(美國國家標準技術研究院)舉辦,是國際上規(guī)模與影響力最大的說話人識別評測 1996年第一次評測,之后每兩年評測一次,2008年說話人識別任務難度接近大規(guī)模實際應用環(huán)境(不同信道、不同環(huán)境干擾) 科大訊飛首次參賽就獲得綜合指標第一名的好成績,聲紋產(chǎn)品系統(tǒng)結(jié)構,一、應用目標,通過聲紋識別提升金融領域風險業(yè)務辦理的安全性,整個系統(tǒng)對用戶透明,因此用戶體驗不會受到影響,應用案例一,應用案例二,一、應用流程,監(jiān)控矯正對象身份,發(fā)起要求進行聲
18、紋驗證,返回矯正對象身份是否通過驗證,社區(qū)矯正管理平臺,說出最近一段時間近況,應用案例二,一、系統(tǒng)目標,保外人員按照規(guī)定需要定期至當?shù)嘏沙鏊鶇R報當前情況,管理成本較高,采用聲紋識別系統(tǒng)和手機定位可以有效的進行自動監(jiān)控,需求分析,采用基礎語料數(shù)據(jù),訓練提供基本業(yè)務包,建設基線系統(tǒng),通過內(nèi)部測試,效 果達到業(yè)務基本要 求(一個月,選取試點進行試運營,收集實際應用語料,進行分析與優(yōu)化,對系統(tǒng)參數(shù)和模型進行自適應(三個月,效果、性能、穩(wěn)定性達到項目要求,正式上線,持續(xù)統(tǒng)計分析應用情況,進行有針對性的優(yōu)化提升,不斷提升識別率和減少環(huán)境多系統(tǒng)的影響,定制優(yōu)化,聲紋項目實施過程,生物識別技術比較,聲紋識別技
19、術,聲紋識別(又稱說話人識別)技術是從說話人發(fā)出的語音信號中提取聲紋信息,并對說話人進行身份驗證的生物識別技術,聲紋識別基本術語,類型分類: 文本相關(Text-dependent) 文本無關(Text-dependent) 任務分類: 說話人辨認(Speaker Identification) 說話人確認(Speaker Verification) UBM(Universal Background Model),通用背景模型 GMM(Gaussian Mixture Model),高斯混合模型 背景噪音(環(huán)境噪音) 信道差異(固定電話,手機,麥克風) 身體差異,語速快慢,時間間隔,聲紋識別基
20、本術語,FAR(False Accept Rate),錯誤接受率;FRR(False Reject Rate),錯誤拒絕率。 EER(Equal Error Rate),等錯誤率;即FAR=FRR時的錯誤率。 多說話人識別,分割,聲紋識別基本術語,經(jīng)典模型GMM(1,GMM高斯混合模型 基本原理:根據(jù)從語音信號中提取的特征參數(shù), 為每一個說話人建立一個GMM。為處 理的方便,人為的使不同說話人的模 型的概率密度函數(shù)在形式上都是一樣 的,不同的只是函數(shù)中的參數(shù)。 優(yōu) 點:簡單高效,可以很好的描述從語音信 號中提取的特征參數(shù)等不規(guī)則的數(shù)據(jù)。 GMM是當今應用于說話人識別的最主流模型,經(jīng)典模型GMM
21、(2,一個M階高斯混合模型的概率密度函數(shù)是由M個 高斯概率密度函數(shù)加權求和得到,如下: 其中M是混合模型的階數(shù),X是一個D維隨機向量 wi是混合權重,滿足: bi(X)是子分布,每個子分布是D維的聯(lián)合高斯概 率分布,表示為: 是均值向量, 是協(xié)方差矩陣,經(jīng)典模型GMM(3,完整的高斯混合模型由參數(shù)均值向量、協(xié)方差矩陣和混合權重共同描述。因此,一個模型可表示為如下一個三元組: GMM計算結(jié)構,經(jīng)典模型GMM(4,GMM的說話人鑒別(Speaker Identification)系統(tǒng),UBM,UBM通用背景模型 UBM也是一個GMM,只是這個GMM需要用 大量的 不同說話人的語音數(shù)據(jù)經(jīng)過訓練來表
22、示說話 人無關的特征分布,這種特征是大多 數(shù)說話人的共性特征,GMM-UBM,建模 說話人需要建立自己的模型時,就可以通過 自適應UBM來得到個性特征,即修正后的參 數(shù),從而得到自己的GMM。 GMM-UBM優(yōu)點 實現(xiàn)信道均衡 少量訓練數(shù)據(jù)得到比較理想的說話人模型,說話人確認系統(tǒng),研究熱點,技術難題:跨信道、噪聲,實驗室理想條件,解決辦法,信道補償 支持向量機(SVM) 聯(lián)合因子分析(JFA) 遷移學習(Transfer Learning,SVM訓練,聲紋識別應用產(chǎn)品,USB Voice Key,聲紋證件,公安系統(tǒng),銀行系統(tǒng),01,02,03,聲紋監(jiān)聽 多人識別 聲紋比對,銀行(電話,網(wǎng)上) 證券 銀行卡,身份卡 聲紋密匙,高檔酒店,會員俱樂部,貴族商城等 玩具 汽車 個人電腦(家庭分級密碼,公安領域,金融領域,生活領域,聲紋識別潛在應用,典型應用司法鑒定,我們開發(fā)的智能聲紋識別系統(tǒng),已成功應用在司法鑒定等領域。 目前已成功完成多個聲紋鑒定(同一性認定)、聲音完整性認定等項目,為司法部門提供了可靠的判斷依據(jù),典型應用科技館,典型應用教育系統(tǒng),典型應用教育系統(tǒng),配置選項 在線測試 離線測試 添加說話人 添加新模型 累積訓練 刪
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經(jīng)權益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 臨時土地合同范例
- 中介業(yè)務協(xié)議合同范例
- 便宜網(wǎng)店轉(zhuǎn)讓合同范例
- 付款合同范例格式
- 2025年老年評估員考試題及答案
- 公司投資合伙合同范例
- 2025年塘下涌偉康廠試題及答案
- 養(yǎng)殖物資回收合同范本
- 會議協(xié)議價合同范例
- 晉教版七年級地理上冊教案3.1 海陸分布
- 某公司風電項目開發(fā)前期工作流程圖
- GB 18265-2019危險化學品經(jīng)營企業(yè)安全技術基本要求
- 作業(yè)層隊伍建設重點業(yè)務課件
- DB31T 685-2019 養(yǎng)老機構設施與服務要求
- 二年級下冊美術教案-第5課 美麗的花園|嶺南版
- 人類進化史精品課件
- 魯濱遜漂流記讀后感PPT
- 總包單位向門窗單位移交門窗安裝工程工作面交接單
- 設備供貨安裝方案(通用版)
- 公開招聘社區(qū)居委專職工作人員考試筆試、面試題集及相關知識(11套試題含答案)
- 中國藥膳理論與實踐-藥膳基本理論和技能
評論
0/150
提交評論