




版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
1、2021/3/141 語(yǔ)音聲紋識(shí)別技術(shù)及應(yīng)用語(yǔ)音聲紋識(shí)別技術(shù)及應(yīng)用 語(yǔ)音聲紋識(shí)別技術(shù)及應(yīng)用 2021/3/142 主要內(nèi)容主要內(nèi)容 聲音處理技術(shù) 語(yǔ)音識(shí)別技術(shù) 聲紋識(shí)別技術(shù) 技術(shù)演示 語(yǔ)音聲紋識(shí)別技術(shù)及應(yīng)用 2021/3/143 語(yǔ)音聲紋識(shí)別技術(shù)及應(yīng)用 2021/3/144 語(yǔ)音聲紋識(shí)別技術(shù)及應(yīng)用 2021/3/145 語(yǔ)音聲紋識(shí)別技術(shù)及應(yīng)用 2021/3/146 短時(shí)能量和過(guò)零率短時(shí)能量和過(guò)零率 語(yǔ)音分幀語(yǔ)音分幀 每幀10-30ms, 幀間隔10ms 短時(shí)能量短時(shí)能量 對(duì)數(shù) 平方和 絕對(duì)值 過(guò)零率過(guò)零率(ZCR) 6 N i ixE 1 2 )(log N i ixE 1 2 )( N i
2、ixE 1 )( 1 1 ) 1(sgn)(sgn 2 1 N n ww nsnsZ 語(yǔ)音聲紋識(shí)別技術(shù)及應(yīng)用 2021/3/147 參數(shù)提取的預(yù)處理參數(shù)提取的預(yù)處理 預(yù)加重預(yù)加重: 減少尖銳噪聲影響減少尖銳噪聲影響,提升高頻部分提升高頻部分 加窗加窗:Hamming 減少減少Gibbs效應(yīng)效應(yīng) 7 10.91.0y nx nx n 2 0.54 0.46cos0 1 n w nn N N 語(yǔ)音聲紋識(shí)別技術(shù)及應(yīng)用 2021/3/148 各種參數(shù)的比較各種參數(shù)的比較 Linear Prediction Cepstrum Coefficients (LPCC) 假定所處理信號(hào)為自回歸信號(hào)(不適用輔音
3、); 計(jì)算簡(jiǎn)單,但抗噪性差。 Mel-Frequency Cepstrum Coefficients (MFCC) 模擬人的聽(tīng)覺(jué)模型; 強(qiáng)調(diào)低頻部分,屏蔽噪聲影響; 識(shí)別率高,但計(jì)算量大。 能量能量 輔助作用,需歸一化。 音調(diào)音調(diào) 對(duì)算法要求高,適于二次判別。 8 語(yǔ)音聲紋識(shí)別技術(shù)及應(yīng)用 2021/3/149 Mel-頻率頻率 目的目的:模擬人耳對(duì)不同頻率語(yǔ)音的感知模擬人耳對(duì)不同頻率語(yǔ)音的感知 人類對(duì)不同頻率語(yǔ)音有不同的感知能力人類對(duì)不同頻率語(yǔ)音有不同的感知能力 1kHz以下,與頻率成線性關(guān)系 1kHz以上,與頻率成對(duì)數(shù)關(guān)系 Mel頻率定義頻率定義 1Mel1kHz音調(diào)感知程度的1/1000
4、9 語(yǔ)音聲紋識(shí)別技術(shù)及應(yīng)用 2021/3/1410 Mel-頻率頻率 公式公式: 頻率頻率Mel-頻率頻率: 1125ln 1/700B ff f- 頻率B- Mel-頻率 Mel-頻率 頻率(Hz) 10 語(yǔ)音聲紋識(shí)別技術(shù)及應(yīng)用 2021/3/1411 MFCC 計(jì)算流程計(jì)算流程: 11 DFT 時(shí)域信號(hào)線性譜域 Mel 濾波器組 LogDCT Mel譜域 對(duì)數(shù)譜域MFCC 語(yǔ)音聲紋識(shí)別技術(shù)及應(yīng)用 2021/3/1412 主要內(nèi)容主要內(nèi)容 聲音處理技術(shù) 語(yǔ)音識(shí)別技術(shù) 聲紋識(shí)別技術(shù) 技術(shù)演示 語(yǔ)音聲紋識(shí)別技術(shù)及應(yīng)用 2021/3/1413 語(yǔ)音識(shí)別語(yǔ)音識(shí)別 Automatic Speech R
5、ecognition (ASR) 的中文含意是自動(dòng)語(yǔ)音識(shí)別。語(yǔ)音識(shí)別技的中文含意是自動(dòng)語(yǔ)音識(shí)別。語(yǔ)音識(shí)別技 術(shù)的目標(biāo)是讓機(jī)器能夠術(shù)的目標(biāo)是讓機(jī)器能夠“聽(tīng)懂聽(tīng)懂”不同人說(shuō)不同人說(shuō) 的話的話,實(shí)現(xiàn)從聲音到文字的轉(zhuǎn)換。實(shí)現(xiàn)從聲音到文字的轉(zhuǎn)換。 語(yǔ)音聲紋識(shí)別技術(shù)及應(yīng)用 2021/3/1414 語(yǔ)音識(shí)別語(yǔ)音識(shí)別基本術(shù)語(yǔ)基本術(shù)語(yǔ) 特定人和非特定人(話者相關(guān)或話者無(wú)關(guān))特定人和非特定人(話者相關(guān)或話者無(wú)關(guān)) 詞匯量(大詞匯量(大,?。┬。?孤立詞孤立詞,連接詞連接詞,關(guān)鍵詞和連續(xù)語(yǔ)音關(guān)鍵詞和連續(xù)語(yǔ)音 自然發(fā)音和朗讀發(fā)音自然發(fā)音和朗讀發(fā)音 口音(方言)口音(方言) 背景噪音(環(huán)境噪音)背景噪音(環(huán)境噪音) 信
6、道差異(固定電話信道差異(固定電話,麥克麥克,手機(jī)等)手機(jī)等) 聲學(xué)模型(聲學(xué)模型(HMM,mono-phone,bi-phone,tri-phone) 聲學(xué)特征(聲學(xué)特征(MFCC) 解碼(解碼(Viterbi) 語(yǔ)音聲紋識(shí)別技術(shù)及應(yīng)用 2021/3/1415 語(yǔ)音識(shí)別語(yǔ)音識(shí)別基本術(shù)語(yǔ)基本術(shù)語(yǔ) 識(shí)別指標(biāo)識(shí)別指標(biāo): SER(Sentence Error Rate,句子錯(cuò)誤率) WER(Word Error Rate,詞錯(cuò)誤率) CER(Character Error Rate,字錯(cuò)誤率) PER(Phone Error Rate,音節(jié)錯(cuò)誤率) 采樣率采樣率,8kHz(電話或手機(jī))(電話或手機(jī))
7、,16kHz(麥克風(fēng))(麥克風(fēng)) 時(shí)域時(shí)域,頻域頻域 端點(diǎn)檢測(cè)端點(diǎn)檢測(cè),靜音檢測(cè)或有效音檢測(cè)(靜音檢測(cè)或有效音檢測(cè)(VAD) 語(yǔ)音聲紋識(shí)別技術(shù)及應(yīng)用 2021/3/1416 語(yǔ)音識(shí)別語(yǔ)音識(shí)別分類分類 孤立詞識(shí)別 識(shí)別單元是有限的,單個(gè)的詞; 優(yōu)點(diǎn):速度快,識(shí)別正確率高 缺點(diǎn):應(yīng)用范圍窄,不能識(shí)別詞表外的詞 應(yīng)用案例:語(yǔ)音命令,手機(jī)語(yǔ)音撥號(hào) 連續(xù)語(yǔ)音識(shí)別 識(shí)別單元可以是字,詞或者句子 優(yōu)點(diǎn):應(yīng)用范圍廣 缺點(diǎn):速度慢,識(shí)別率不高,尤其是詞表較大的時(shí)候 應(yīng)用案例:語(yǔ)音翻譯,語(yǔ)音短信,聽(tīng)寫(xiě)機(jī),語(yǔ)音郵件 關(guān)鍵詞識(shí)別 識(shí)別單元是詞,判斷輸入語(yǔ)音中是否含有詞表中的詞 優(yōu)點(diǎn):能夠處理連續(xù)語(yǔ)音,詞表可定制 缺點(diǎn)
8、:速度較慢,詞表越大,錯(cuò)誤率越多 應(yīng)用案例:電話呼叫服務(wù),電話安全監(jiān)聽(tīng) 語(yǔ)音聲紋識(shí)別技術(shù)及應(yīng)用 2021/3/1417 語(yǔ)音識(shí)別發(fā)展歷史語(yǔ)音識(shí)別發(fā)展歷史 50年代年代ATFRR (False Reject Rate),錯(cuò)誤拒絕率。 EER(Equal Error Rate),等錯(cuò)誤率;即 FAR=FRR時(shí)的錯(cuò)誤率。 多說(shuō)話人識(shí)別,分割 語(yǔ)音聲紋識(shí)別技術(shù)及應(yīng)用 2021/3/1457 聲紋識(shí)別聲紋識(shí)別基本術(shù)語(yǔ)基本術(shù)語(yǔ) 0.1 0.2 0.5 1 2 5 10 20 40 40 20 10 5 2 1 0.5 0.2 0.1 錯(cuò) 誤 接 受 的 概 率 (%) 錯(cuò) 誤 拒 絕 的 概 率 (%)
9、等錯(cuò)誤率 (ERR)=1% 平衡點(diǎn) 減少錯(cuò)誤接受的可 能,提高系統(tǒng)的安 全。但是由于錯(cuò)誤 拒絕率高,會(huì)給用 戶使用帶來(lái)不便。 高安全性 高方便性 對(duì)于安全性要求不 高的應(yīng)用場(chǎng)景,可 以適當(dāng)提高錯(cuò)誤接 受率,使得用戶容 易進(jìn)入系統(tǒng)。 DET (Detection Error Tradeoff) 曲線 語(yǔ)音聲紋識(shí)別技術(shù)及應(yīng)用 2021/3/1458 經(jīng)典模型經(jīng)典模型GMM(1) GMM高斯混合模型 基本原理基本原理:根據(jù)從語(yǔ)音信號(hào)中提取的特征參數(shù), 為每一個(gè)說(shuō)話人建立一個(gè)GMM。為處 理的方便,人為的使不同說(shuō)話人的模 型的概率密度函數(shù)在形式上都是一樣 的,不同的只是函數(shù)中的參數(shù)。 優(yōu)優(yōu) 點(diǎn)點(diǎn):簡(jiǎn)單
10、高效,可以很好的描述從語(yǔ)音信 號(hào)中提取的特征參數(shù)等不規(guī)則的數(shù)據(jù)。 GMM是當(dāng)今應(yīng)用于說(shuō)話人識(shí)別的最主流模型 語(yǔ)音聲紋識(shí)別技術(shù)及應(yīng)用 2021/3/1459 經(jīng)典模型經(jīng)典模型GMM(2) 一個(gè)M階高斯混合模型的概率密度函數(shù)是由M個(gè) 高斯概率密度函數(shù)加權(quán)求和得到,如下: 其中M是混合模型的階數(shù),X是一個(gè)D維隨機(jī)向量 wi是混合權(quán)重,滿足: bi(X)是子分布,每個(gè)子分布是D維的聯(lián)合高斯概 率分布,表示為: 是均值向量, 是協(xié)方差矩陣 語(yǔ)音聲紋識(shí)別技術(shù)及應(yīng)用 2021/3/1460 經(jīng)典模型經(jīng)典模型GMM(3) 完整的高斯混合模型由參數(shù)均值向量、 協(xié)方差矩陣和混合權(quán)重共同描述。因此,一個(gè) 模型可表示
11、為如下一個(gè)三元組: GMM計(jì)算結(jié)構(gòu): 語(yǔ)音聲紋識(shí)別技術(shù)及應(yīng)用 2021/3/1461 經(jīng)典模型經(jīng)典模型GMM(4) GMM的說(shuō)話人鑒別(Speaker Identification)系統(tǒng) 語(yǔ)音聲紋識(shí)別技術(shù)及應(yīng)用 2021/3/1462 UBM UBM通用背景模型 UBM也是一個(gè)GMM,只是這個(gè)GMM需要用 大量的 不同說(shuō)話人的語(yǔ)音數(shù)據(jù)經(jīng)過(guò)訓(xùn)練來(lái)表 示說(shuō)話 人無(wú)關(guān)的特征分布,這種特征是大多 數(shù)說(shuō)話人的共性特征共性特征。 語(yǔ)音聲紋識(shí)別技術(shù)及應(yīng)用 2021/3/1463 GMM-UBM 建模 說(shuō)話人需要建立自己的模型時(shí),就可以通過(guò) 自適應(yīng)UBM來(lái)得到個(gè)性特征,即修正后的參 數(shù),從而得到自己的GMM。
12、 GMM-UBM優(yōu)點(diǎn) 實(shí)現(xiàn)信道均衡 少量訓(xùn)練數(shù)據(jù)得到比較理想的說(shuō)話人模型 語(yǔ)音聲紋識(shí)別技術(shù)及應(yīng)用 2021/3/1464 說(shuō)話人確認(rèn)系統(tǒng)說(shuō)話人確認(rèn)系統(tǒng) GMM-UBM說(shuō)話人確認(rèn)系統(tǒng) 語(yǔ)音聲紋識(shí)別技術(shù)及應(yīng)用 2021/3/1465 研究熱點(diǎn)研究熱點(diǎn) 技術(shù)難題技術(shù)難題:跨信道、噪聲跨信道、噪聲 實(shí)驗(yàn)室理想條件實(shí)驗(yàn)室理想條件 實(shí)際應(yīng)用場(chǎng)合(遠(yuǎn)程、噪聲背景)實(shí)際應(yīng)用場(chǎng)合(遠(yuǎn)程、噪聲背景) 訓(xùn)練階段訓(xùn)練階段 識(shí)別階段識(shí)別階段 語(yǔ)音聲紋識(shí)別技術(shù)及應(yīng)用 2021/3/1466 解決辦法解決辦法 信道補(bǔ)償信道補(bǔ)償 支持向量機(jī)(支持向量機(jī)(SVM) 聯(lián)合因子分析(聯(lián)合因子分析(JFA) 遷移學(xué)習(xí)(遷移學(xué)習(xí)(Tr
13、ansfer Learning) 語(yǔ)音聲紋識(shí)別技術(shù)及應(yīng)用 2021/3/1467 SVM訓(xùn)練訓(xùn)練 語(yǔ)音聲紋識(shí)別技術(shù)及應(yīng)用 2021/3/1468 聲紋識(shí)別聲紋識(shí)別應(yīng)用產(chǎn)品應(yīng)用產(chǎn)品 USB Voice Key 聲紋證 件 公安系 統(tǒng) 銀行系 統(tǒng) 語(yǔ)音聲紋識(shí)別技術(shù)及應(yīng)用 2021/3/1469 聲紋監(jiān)聽(tīng) 多人識(shí)別 聲紋比對(duì) 銀行(電話,網(wǎng)上 ) 證券 銀行卡,身份卡 聲紋密匙 高檔酒店,會(huì)員俱 樂(lè)部,貴族商城等 玩具 汽車 個(gè)人電腦(家庭分 級(jí)密碼) 公安領(lǐng)域? 金融領(lǐng)域? 生活領(lǐng)域 聲紋識(shí)別聲紋識(shí)別潛在應(yīng)用潛在應(yīng)用 語(yǔ)音聲紋識(shí)別技術(shù)及應(yīng)用 2021/3/1470 典型應(yīng)用典型應(yīng)用司法鑒定司法鑒定
14、 我們開(kāi)發(fā)的智能聲紋識(shí)別系統(tǒng)我們開(kāi)發(fā)的智能聲紋識(shí)別系統(tǒng),已成功應(yīng)用在司法鑒已成功應(yīng)用在司法鑒 定等領(lǐng)域。定等領(lǐng)域。 目前已成功完成多個(gè)聲紋鑒定(同一性認(rèn)定)、聲目前已成功完成多個(gè)聲紋鑒定(同一性認(rèn)定)、聲 音完整性認(rèn)定等項(xiàng)目音完整性認(rèn)定等項(xiàng)目,為司法部門提供了可靠的判斷為司法部門提供了可靠的判斷 依據(jù)。依據(jù)。 語(yǔ)音聲紋識(shí)別技術(shù)及應(yīng)用 2021/3/1471 典型應(yīng)用典型應(yīng)用科技館科技館 語(yǔ)音聲紋識(shí)別技術(shù)及應(yīng)用 2021/3/1472 典型應(yīng)用典型應(yīng)用教育系統(tǒng)教育系統(tǒng) 語(yǔ)音聲紋識(shí)別技術(shù)及應(yīng)用 2021/3/1473 典型應(yīng)用典型應(yīng)用教育系統(tǒng)教育系統(tǒng) 配置選項(xiàng) 在線測(cè)試 離線測(cè)試 添加說(shuō)話人 添加
15、新模型 累積訓(xùn)練 刪除說(shuō)話人 刪除模型 說(shuō)話人確認(rèn) 說(shuō)話人身份確認(rèn) 波形圖 實(shí)時(shí)語(yǔ)音波形 靜音檢測(cè) 語(yǔ)音聲紋識(shí)別技術(shù)及應(yīng)用 2021/3/1474 典型應(yīng)用典型應(yīng)用 基于聲紋識(shí)別技術(shù)的電話語(yǔ)音遠(yuǎn)程考勤系統(tǒng)基于聲紋識(shí)別技術(shù)的電話語(yǔ)音遠(yuǎn)程考勤系統(tǒng) 電話通信中電話通信中,通過(guò)識(shí)別來(lái)電號(hào)通過(guò)識(shí)別來(lái)電號(hào) 碼(必須是固定電話)和來(lái)電碼(必須是固定電話)和來(lái)電 者說(shuō)話聲音的個(gè)人特征者說(shuō)話聲音的個(gè)人特征,我們我們 的系統(tǒng)就可以快速的自動(dòng)判斷的系統(tǒng)就可以快速的自動(dòng)判斷 被監(jiān)控人是否在規(guī)定的時(shí)間出被監(jiān)控人是否在規(guī)定的時(shí)間出 現(xiàn)在規(guī)定的場(chǎng)所執(zhí)行任務(wù)現(xiàn)在規(guī)定的場(chǎng)所執(zhí)行任務(wù),以以 及記錄在該場(chǎng)所停留的時(shí)間長(zhǎng)及記錄在該場(chǎng)
16、所停留的時(shí)間長(zhǎng) 度。度。 這個(gè)技術(shù)方案主要應(yīng)用在電話這個(gè)技術(shù)方案主要應(yīng)用在電話 遠(yuǎn)程考勤、移動(dòng)辦公、醫(yī)療服遠(yuǎn)程考勤、移動(dòng)辦公、醫(yī)療服 務(wù)監(jiān)控、監(jiān)獄管理、勞改犯人務(wù)監(jiān)控、監(jiān)獄管理、勞改犯人 的獄外服刑以及對(duì)假釋犯罪嫌的獄外服刑以及對(duì)假釋犯罪嫌 疑人的自動(dòng)監(jiān)控等方面。疑人的自動(dòng)監(jiān)控等方面。 語(yǔ)音聲紋識(shí)別技術(shù)及應(yīng)用 2021/3/1475 參考資料參考資料 X.D. Huang, A. Acero, and H.-W. Hon, Spoken Language Processing: a Guide to Theory, Algorithm, and System Development, Upper Saddle River, New Jersey: Prentice Hall, 2001. L.R. Rabiner and B.-H. Juang, Fundamentals of Speech Recog
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 公司運(yùn)營(yíng)流程與規(guī)章制度詳解手冊(cè)
- 生物信息學(xué)實(shí)驗(yàn)手冊(cè)
- 三農(nóng)災(zāi)害應(yīng)急管理指南
- 三農(nóng)工作者的實(shí)踐指南
- 生物質(zhì)顆粒燃料蒸汽發(fā)生器
- 重大項(xiàng)目進(jìn)度協(xié)調(diào)會(huì)議紀(jì)要記錄
- 育嬰師復(fù)習(xí)試題含答案
- 藝術(shù)鑒賞油畫(huà)技法分析題集
- 茶藝師復(fù)習(xí)試題含答案(一)
- 外科總論復(fù)習(xí)測(cè)試有答案
- 2020年2月瀘精院精神科二病區(qū)癥狀學(xué)感知障礙三基考試試題
- 絲錐表面處理
- 施工現(xiàn)場(chǎng)重大危險(xiǎn)源公示牌
- 鐵道概論全套課件
- 共享文件stj1radar調(diào)試軟件使用手冊(cè)1.112.22xiang
- 地磁磁場(chǎng)的基本特征及應(yīng)用
- 2022年上海高考語(yǔ)文樣卷及參考答案
- 10kV及以下架空配電線路設(shè)計(jì)技術(shù)規(guī)程
- 有趣的仿生設(shè)計(jì)(課堂PPT)
- 無(wú)機(jī)化學(xué)第4版下冊(cè)(吉大宋天佑)2019
- 個(gè)體診所聘用醫(yī)師合同范本
評(píng)論
0/150
提交評(píng)論