基于DTW算法的語音識別系統(tǒng)實現(xiàn) (1)pdf

上傳人：5*** IP屬地：湖北上傳時間：2022-01-11 格式：DOC 頁數(shù)：6 大小：306KB 積分：28 舉報 版權(quán)申訴

已閱讀5頁，還剩1頁未讀，繼續(xù)免費閱讀

版權(quán)說明：本文檔由用戶提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

1、第 30 卷第 7 期電子工程師 Vol .30 No .72004 年 7 月EL ECT RON IC EN GIN EERJul.2004基于 DTW 算法的語音識別系統(tǒng)實現(xiàn)吳曉平, 崔光照, 路康(鄭州輕工業(yè)學(xué)院信息與控制工程系, 河南省鄭州市 450002)【摘要】動態(tài)時間歸整(DTW)算法的實現(xiàn)簡單有效, 在孤立詞語音識別系統(tǒng)中得到了廣泛的應(yīng)用。介紹了將 DTW 算法移植到 TMS320VC5402 上實現(xiàn)孤立詞語音識別的原理、系統(tǒng)硬件組成和軟件設(shè)計。研究結(jié)果表明 ,系統(tǒng)能滿足實時性能要求, 識別效果良好。關(guān)鍵詞:動態(tài)時間歸整(DTW)算法 , 語音識別, 線性預(yù)測

2、, 端點檢測中圖分類號:TN912 .340 引言動態(tài)時間歸整(DTW)算法是把時間歸整和間距測量計算結(jié)合起來的一種非線性歸整技術(shù) , 與隱式馬爾可夫模型(H MM)算法相比, 它不是一種有效的利用統(tǒng)計方法進(jìn)行訓(xùn)練的算法, 同時 ,也不容易將底層和頂層的各種知識用到識別算法中, 在解決大詞匯量、連續(xù)語音、非特定發(fā)音人語音識別系統(tǒng)時, 識別效果較差,但在孤立詞語音識別系統(tǒng)中識別效果良好, 并且, 由于 DTW 算法計算量較少。因此 ,DTW 算法在孤立詞語音識別系統(tǒng)中得到了較為廣泛的應(yīng)用。將 DTW 算法移植到 TMS320VC5402 上實現(xiàn)語音識別 ,能滿足實時性要求。1

3、識別系統(tǒng)基本原理圖 1 是實時語音識別系統(tǒng)的結(jié)構(gòu)框圖。圖 1 語音識別系統(tǒng)原理框圖語音信號的數(shù)字化包括預(yù)濾波和 A/D 采樣。語音信號的頻率一般介于 100 Hz 3 400 H z 之間 ,需設(shè) 計一個帶通濾波器以便濾去語音信號頻率以外的干收稿日期:2004-03-24擾。語音信號經(jīng)濾波和采樣后 ,由 A/D 轉(zhuǎn)換器轉(zhuǎn)換為二進(jìn)制數(shù)字碼。語音信號的預(yù)處理一般包括預(yù)加重、加窗和分幀處理。預(yù)加重的目的是提升高頻部分, 使信號的頻譜變得平坦 ,以保持在信號的整個頻帶內(nèi)具有同樣的信噪比, 便于聲道參數(shù)分析。在語音信號的數(shù)字處理中常用的是矩形窗和漢明窗等, 窗口的形狀、長度對短時分析參數(shù)的

4、影響很大 ,為此,應(yīng)選擇合適的窗函數(shù)。語音信號有 10 ms 30 ms 的短時平穩(wěn)性,一般每秒的幀數(shù)為 33 幀 100 幀。為了使幀與幀之間平滑過渡 ,前一幀與后一幀之間必須保持一定的幀移 , 幀長與幀移的比值一般取為 0 1/2 。語音信號的端點檢測一般采用平均能量、平均幅度值、平均過零率等或上述幾種方法的綜合來判斷 ,也有一些學(xué)者提出采用頻帶方差、倒譜特征等方法來判斷。采用前者算法的計算量較小, 在噪聲不大的環(huán)境下可以有效地判別語音信號的起始點與終止點。在端點檢測時若選擇的窗長較大 ,可以加快語音處理的速度,會跳過一些短時噪聲 , 但是端點檢測的誤差會增加。語音信

5、號的端點檢測直接影響語音信號倒譜特征提取的誤差,為此,應(yīng)選擇合適的端點檢測算法。由于語音信號之間存在相關(guān)性, 可以用過去的樣點值來預(yù)測現(xiàn)在的或未來的樣點值, 即一個語音的采樣值可以用過去若干個語音采樣或它們的線性組合來逼近。通過線性預(yù)測采樣與實際語音采樣之間的誤差達(dá)到最小值來決定唯一的一組預(yù)測系數(shù)。線性預(yù)測系數(shù)(LPC)倒譜運算采用聲道系統(tǒng)函數(shù)中的最小相位特性,避免了相位卷繞問題 , 并且 , LPC 倒譜運算量較 FFT 求倒譜運算量小 , 在實時語音識別中經(jīng)常采用 LPC 倒譜作為特征矢量。在線性預(yù)測分析過程中 ,若選擇的階數(shù) p 很大 , LPC 的值出現(xiàn)振蕩, 其攜帶的

6、信息會使語音的內(nèi)在特征出現(xiàn)很大的隨機(jī)性 , 一般選擇 p 在 8 14 之間。· 17 ··通信技術(shù)· 電子工程師 2004 年 7 月2 實時識別系統(tǒng)的實現(xiàn)2 .1 識別系統(tǒng)的硬件組成為了實現(xiàn)實時語音識別, 采用 TMS320VC5402 為主控芯片,可以在 TI 公司推出的 TMS320VC5402 DSK開發(fā)平臺上實現(xiàn),其最小系統(tǒng)硬件組成可參考圖 2 。圖 2 語音識別系統(tǒng)硬件組成框圖TMS320VC5402 是 TI 公司生產(chǎn)的一種性價比較高的 16 位定點 DSP 。它的指令周期為 10 ns ,具有運算速度快、通用性強、接口連接方

7、便等特點 , 適合在語音編碼和通信中應(yīng)用。T LC320AD50C 是 T I 公司生產(chǎn)的- 型單片音頻接口芯片, 它集成了 16 位 A/D 和D/A 轉(zhuǎn)換器,采樣速率可通過 DSP 編程來設(shè)置 ,最高可達(dá) 22 .05 kbit/s 。TLC320AD50C 內(nèi)部 D/A 轉(zhuǎn)換器之前有插值濾波器, A/D 轉(zhuǎn)換器之后有采樣濾波器,接收和發(fā)送可同時進(jìn)行。 TM S320VC5402 芯片包括 2 個高速、全雙工多通道緩存串行 McBSPs 口。 M cBSPs 提供了全雙工的通信機(jī)制、128 通道的接收和發(fā)送, 數(shù)據(jù)長度可以在 8 位、12 位、16 位、20 位、24 位或3

8、2 位中選擇。采用多通道緩存串行 M cBSPs 口實現(xiàn) TLC320AD50C 芯片的數(shù)據(jù)采集, 采用串行通信方式,采樣頻率可由 TLC320AD50C 的控制寄存器設(shè)置。在進(jìn)行串行口通信之前 ,需要對 TLC320AD50C 初始化,建立 TLC320AD50C 與 TMS320VC5402 的連接,從而實現(xiàn)兩芯片之間的數(shù)據(jù)傳輸。TMS320VC5402 僅提供 4 k ×16 bit 的片上 ROM 和 16 k ×16 bit 的片上 DARAM 。DARAM 由 2 塊 8 k×16 bit 的區(qū)塊組成 , 每一區(qū)塊均可在一個指令周期內(nèi)完成 2

9、次讀操作或 1 次寫操作。對片內(nèi)物理存儲器的訪問通過訪問映射寄存器實現(xiàn), 即片內(nèi)物理存儲器必須被映射到映射存儲器上才能被訪問。將實際的物理存儲區(qū)空間映射到映射存儲器空間上 , 由存儲器配置文件實現(xiàn)。DSP 上電硬復(fù)位后, DSP 自動調(diào)用執(zhí)行固化于內(nèi)部ROM 中的 BOOT 程序, 將外部Flash 存儲器的程序讀入 DSP 內(nèi)部的高速 RAM 程序區(qū)中。2 .2 識別系統(tǒng)的軟件設(shè)計實時識別系統(tǒng)軟件編程在 CCS DSK C5000 1 .22 開發(fā)環(huán)境中進(jìn)行。CCS DSK C5000 1 .22 是 TI 公司開發(fā)的專用于 DSP 軟件設(shè)計的集成軟件開發(fā)環(huán)境。整個系統(tǒng)軟件

10、主要采用 C 語言編寫, 可調(diào)用開發(fā)環(huán)境下· 18 ·的專用庫函數(shù)實現(xiàn)初始化過程。初始化過程主要包括TMS320VC5402 初始化及 TLC320AD50C 初始化。前者主要包括設(shè)置 TMS320VC5402 時鐘為100 MHz ,初始化 CPU 各狀態(tài)標(biāo)志寄存器, 以保持 CPU 正確的工作狀態(tài)。然后 ,將 DSP 串口 1 復(fù)位, 對串口 1 的 16 個寄存器進(jìn)行編程, 使 DSP 串口工作在以下狀態(tài):以 SPI 模式運行 ,每幀 1 段, 每段 1 個字 ,每字 16 位。采樣率發(fā)生器由 DSP 內(nèi)部產(chǎn)生 , 幀同步脈沖低電平有效,并且, 幀同步信號和移

11、位時鐘信號由外部產(chǎn)生。TLC320AD50C 與 TMS320VC5402 間的串行通信有主串行通信和二次串行通信。主串行通信用來接收和發(fā)送轉(zhuǎn)換信號數(shù)據(jù) , 二次串行通信用來初始化或讀取 T LC320AD50C 的控制寄存器。T LC320AD50C初始化操作過程包括通過 TMS320VC5402 的同步串口發(fā)送 2 串 16 位數(shù)字信息到 TLC320320AD50C 。第 1 串為 0000 0000 0000 0001B ,最低有效位(bit0)為 1 ,說明下一個要傳輸?shù)臄?shù)據(jù)字屬于二次通信。第 2 串?dāng)?shù) 據(jù)值用來對 TLC320AD50C 的 4 個數(shù)據(jù)寄存器的某一個進(jìn)行配

12、置。bit0 bit7 為所選中寄存器的編程值, bit8 bit10 為所選寄存器地址值 ,bits11 bit15 為 0 。 4 個用戶可編程寄存器為:R1 中包含模擬輸入通道選擇、硬件/軟件編程方式選擇;R2 進(jìn)行單機(jī)/從機(jī)工作和電話模式選擇 ;R3 控制帶從機(jī)個數(shù)選擇;R4 用來設(shè) 置模擬信號可編程放大增益和 A/D 、D/A 轉(zhuǎn)換頻率。其他兩個寄存器 R5 、R6 是廠家留著測試用的, 用戶不能對其編程。我們在以下例程中對 4 個可編程寄存器編程, 使 TLC320AD50C 工作在以下狀態(tài):選擇 INP/INM 為工作模擬輸入 ,15 +1 位 A/D 轉(zhuǎn)換器和 15

13、+1 位 D/A 轉(zhuǎn)換器模式, 不帶從機(jī) ,采樣頻率為 8 kHz ,模擬信號輸入和輸出放大增益均為 0 dB 。DTW 算法能夠較好地解決用于孤立詞識別時說話速度不均勻的難題。測試的語音參數(shù)共有 N 幀矢量, 而參考模板有 M 幀矢量 ,且 M N ,則 DTW 就是尋找一個時間歸整函數(shù) m =f(n), 它將測試矢量的時間軸 n 非線性地映射到模板的時間軸 m 上 ,并使該函數(shù)滿足第 n 幀測試矢量和第 m 幀模板矢量之間的距離測度最小。在實際識別系統(tǒng)中 , 語音的起點或終點由摩擦音構(gòu)成 ,環(huán)境噪聲也比較大 ,語音的端點檢測會存在較大的誤差。DTW 算法出發(fā)點可以選擇在(

14、n , m )=(1 ,1),稱為固定起點;也可以選擇在(1 ,2)、(2 ,1)、(1 ,3)、 (3 ,1)等點, 稱為松馳起點。同樣 , 路徑可以選擇在 (n , m )=(N , M)點 , 稱為固定終點 ;也可以選擇在(N -1 , M)、(N , M -1)、(N -2 , M)、(N , M -2)等點,稱為松弛終點。固定起始點的 DTW 算法要求從第 30 卷第 7 期吳曉平, 等:基于 DT W 算法的語音識別系統(tǒng)實現(xiàn) ·通信技術(shù)·(1 ,1)出發(fā) ,到(N , M )結(jié)束,松弛的 DTW 算法的起始點從(1 ,1)、(1 ,2)、(2 , 1)、(

15、1 , 3)、(3 ,1)等點中選擇一最小值 ,終止點從(N , M)、(N -1 , M)、(N , M -1)、 (N -2 , M)、(N , M -2)中選擇一最小值,兩語音樣本之間的相互距離在相應(yīng)的點放松后選擇一最小距離。松弛起點、終點的優(yōu)點是可以克服由于端點檢測不精確引起的誤差, 但運算量加大。在訓(xùn)練階段, 將計算出的特征矢量序列作為模板存入模板庫。在識別階段, 將輸入語音的特征矢量系列與模板中的每一特征矢量序列進(jìn)行模式匹配, 匹配相似度最高者作為識別結(jié)果輸出。識別系統(tǒng)軟件設(shè)計如圖 3 所示。圖 3 識別系統(tǒng)軟件流程3 結(jié)束語DTW 算法應(yīng)用在小詞匯量、孤立詞語音識

16、別系統(tǒng)中, 算法計算量較少, 識別效果良好。松弛起點的 DTW 算法實現(xiàn)實時語音識別系統(tǒng), 能有效減少端點檢測的誤差 , 但算法的復(fù)雜度將增大。采用高速 TMS320VC5402 為核心芯片設(shè)計實時語音識別系統(tǒng), 對孤立詞的識別時間短, 可以達(dá)到實時識別的要求。參考文獻(xiàn) 1 趙力, 等.語音信號處理.北京:機(jī)械工業(yè)出版社, 2003 2 樓順天.基于 MA T LA B 的系統(tǒng)分析與設(shè)計.西安 :西安電子科技大學(xué)出版社, 2000 3 張勇.C/C +語言硬件程序設(shè)計.西安:西安電子科技大學(xué)出版社, 2003 4 陳志鑫, 郭華偉.基于 TM S320C54xDSP 的實時語音

17、識別系統(tǒng) .半導(dǎo)體技術(shù), 2001 , 26(4):5 8 5 祝曉陽, 盧中寧, 崔光照.數(shù)字信號處理芯片 T M S320VC5402 的語音接口設(shè)計.鄭州輕工業(yè)學(xué)院學(xué)報,2002 , 17(2):71 73The Realization of Speech Recognition System Based on DTW AlgorithmWu Xiaoping , Cui Guangzhao, Lu Kang(Zhengzhou University of Light Industry , Zhengzhou 450002 , China)【Abstract】Therealization

18、 of the DTW algorithm is sim ple and effective , so it is widely used in the isolated-w ord speech recognition system .This paper introduces the transplant of the DTW algorithm on TMS320VC5402 to achieve the isolated-word speech recognition .The research results show that the sys-tem meets the requirement of real time and the recognition performance is good .Keywords :DTW algorithm , speech recogniti

人人文庫> 全部分類> 教育資料 > 輔導(dǎo)培訓(xùn)

溫馨提示

1. 本站所有資源如無特殊說明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽，若沒有圖紙預(yù)覽就沒有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 人人文庫網(wǎng)僅提供信息存儲空間，僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理，對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對任何下載內(nèi)容負(fù)責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容，請與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

基于DTW算法的語音識別系統(tǒng)實現(xiàn) (1)pdf

文檔簡介

溫馨提示

最新文檔

評論

基于DTW算法的語音識別系統(tǒng)實現(xiàn) (1)pdf

文檔簡介

溫馨提示

最新文檔

評論

相關(guān)文檔