基于DTW算法的語音識別系統(tǒng)實現(xiàn) (1)pdf_第1頁
基于DTW算法的語音識別系統(tǒng)實現(xiàn) (1)pdf_第2頁
基于DTW算法的語音識別系統(tǒng)實現(xiàn) (1)pdf_第3頁
基于DTW算法的語音識別系統(tǒng)實現(xiàn) (1)pdf_第4頁
基于DTW算法的語音識別系統(tǒng)實現(xiàn) (1)pdf_第5頁
已閱讀5頁,還剩1頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

1、第 30 卷第 7 期 電 子工 程 師 Vol .30 No .72004 年 7 月EL ECT RON IC EN GIN EERJul.2004基于 DTW 算法的語音識別系統(tǒng)實現(xiàn)吳曉平, 崔光照, 路 康(鄭州輕工業(yè)學(xué)院信息與控制工程系, 河南省鄭州市 450002)【摘 要】動態(tài)時間歸整(DTW)算法的實現(xiàn)簡單有效, 在孤立詞語音識別系統(tǒng)中得到了廣泛的 應(yīng)用。介紹了將 DTW 算法移植到 TMS320VC5402 上實現(xiàn)孤立詞語音識別的原理、系統(tǒng)硬件組成和 軟件設(shè)計。研究結(jié)果表明 ,系統(tǒng)能滿足實時性能要求, 識別效果良好。關(guān)鍵詞:動態(tài)時間歸整(DTW)算法 , 語音識別, 線性預(yù)測

2、, 端點檢測中圖分類號:TN912 .340 引 言動態(tài)時間歸整(DTW)算法是把時間歸整和間距 測量計算結(jié)合起來的一種非線性歸整技術(shù) , 與隱式馬 爾可夫模型(H MM)算法相比, 它不是一種有效的利 用統(tǒng)計方法進(jìn)行訓(xùn)練的算法, 同時 ,也不容易將底層和 頂層的各種知識用到識別算法中, 在解決大詞匯量、連 續(xù)語音、非特定發(fā)音人語音識別系統(tǒng)時, 識別效果較 差,但在孤立詞語音識別系統(tǒng)中識別效果良好, 并且, 由于 DTW 算法計算量較少。因此 ,DTW 算法在孤立 詞語音識別系統(tǒng)中得到了較為廣泛的應(yīng)用。將 DTW 算法移植到 TMS320VC5402 上實現(xiàn)語音識別 ,能滿足 實時性要求。1

3、識別系統(tǒng)基本原理圖 1 是實時語音識別系統(tǒng)的結(jié)構(gòu)框圖。圖 1 語音識別系統(tǒng)原理框圖語音信號的數(shù)字化包括預(yù)濾波和 A/D 采樣。語 音信號的頻率一般介于 100 Hz 3 400 H z 之間 ,需設(shè) 計一個帶通濾波器以便濾去語音信號頻率以外的干收稿日期:2004-03-24擾。語音信號經(jīng)濾波和采樣后 ,由 A/D 轉(zhuǎn)換器轉(zhuǎn)換為 二進(jìn)制數(shù)字碼。語音信號的預(yù)處理一般包括預(yù)加重、加窗和分幀 處理。預(yù)加重的目的是提升高頻部分, 使信號的頻譜 變得平坦 ,以保持在信號的整個頻帶內(nèi)具有同樣的信 噪比, 便于聲道參數(shù)分析。在語音信號的數(shù)字處理中 常用的是矩形窗和漢明窗等, 窗口的形狀、長度對短時 分析參數(shù)的

4、影響很大 ,為此,應(yīng)選擇合適的窗函數(shù)。語 音信號有 10 ms 30 ms 的短時平穩(wěn)性,一般每秒的幀 數(shù)為 33 幀 100 幀。為了使幀與幀之間平滑過渡 ,前 一幀與后一幀之間必須保持一定的幀移 , 幀長與幀移 的比值一般取為 0 1/2 。語音信號的端點檢測一般采用平均能量、平均幅 度值、平均過零率等或上述幾種方法的綜合來判斷 ,也 有一些學(xué)者提出采用頻帶方差、倒譜特征等方法來判 斷。采用前者算法的計算量較小, 在噪聲不大的環(huán)境 下可以有效地判別語音信號的起始點與終止點。在端 點檢測時若選擇的窗長較大 ,可以加快語音處理的速 度,會跳過一些短時噪聲 , 但是端點檢測的誤差會增 加。語音信

5、號的端點檢測直接影響語音信號倒譜特征 提取的誤差,為此,應(yīng)選擇合適的端點檢測算法。由于語音信號之間存在相關(guān)性, 可以用過去的樣 點值來預(yù)測現(xiàn)在的或未來的樣點值, 即一個語音的采 樣值可以用過去若干個語音采樣或它們的線性組合來 逼近。通過線性預(yù)測采樣與實際語音采樣之間的誤差 達(dá)到最小值來決定唯一的一組預(yù)測系數(shù)。線性預(yù)測系 數(shù)(LPC)倒譜運算采用聲道系統(tǒng)函數(shù)中的最小相位特 性,避免了相位卷繞問題 , 并且 , LPC 倒譜運算量較 FFT 求倒譜運算量小 , 在實時語音識別中經(jīng)常采用 LPC 倒譜作為特征矢量。在線性預(yù)測分析過程中 ,若 選擇的階數(shù) p 很大 , LPC 的值出現(xiàn)振蕩, 其攜帶的

6、信 息會使語音的內(nèi)在特征出現(xiàn)很大的隨機(jī)性 , 一般選擇 p 在 8 14 之間 。· 17 ··通信技術(shù)· 電子工 程 師 2004 年 7 月2 實時識別系統(tǒng)的實現(xiàn)2 .1 識別系統(tǒng)的硬件組成為了實現(xiàn)實時語音識別, 采用 TMS320VC5402 為主控芯片,可以在 TI 公司推出的 TMS320VC5402 DSK開發(fā)平臺上實現(xiàn),其最小系統(tǒng)硬件組成可參考圖 2 。圖 2 語音識別系統(tǒng)硬件組成框圖TMS320VC5402 是 TI 公司生產(chǎn)的一種性價比較 高的 16 位定點 DSP 。它的指令周期為 10 ns ,具有運 算速度快、通用性強、接口連接方

7、便等特點 , 適合在語 音編碼和通信中應(yīng)用。T LC320AD50C 是 T I 公司生 產(chǎn)的- 型單片音頻接口芯片, 它集成了 16 位 A/D 和D/A 轉(zhuǎn)換器,采樣速率可通過 DSP 編程來設(shè)置 ,最高可達(dá) 22 .05 kbit/s 。TLC320AD50C 內(nèi)部 D/A 轉(zhuǎn)換 器之前有插值濾波器, A/D 轉(zhuǎn)換器之后有采樣濾波 器,接收和發(fā)送可同時進(jìn)行。 TM S320VC5402 芯片包 括 2 個高速、全雙工多通道緩存串行 McBSPs 口。 M cBSPs 提供了全雙工的通信機(jī)制、128 通道的接收和 發(fā)送, 數(shù)據(jù)長度可以在 8 位、12 位、16 位、20 位、24 位 或3

8、2 位中選擇。采用多通道緩存串行 M cBSPs 口實 現(xiàn) TLC320AD50C 芯片的數(shù)據(jù)采集, 采用串行通信方 式,采樣頻率可由 TLC320AD50C 的控制寄存器設(shè)置。 在進(jìn)行串行口通信之前 ,需要對 TLC320AD50C 初始 化,建立 TLC320AD50C 與 TMS320VC5402 的連接,從而實現(xiàn)兩芯片之間的數(shù)據(jù)傳輸。TMS320VC5402 僅提供 4 k ×16 bit 的片上 ROM 和 16 k ×16 bit 的片上 DARAM 。DARAM 由 2 塊 8 k×16 bit 的區(qū)塊組成 , 每一區(qū)塊均可在一個指令周期 內(nèi)完成 2

9、 次讀操作或 1 次寫操作。對片內(nèi)物理存儲器 的訪問通過訪問映射寄存器實現(xiàn), 即片內(nèi)物理存儲器 必須被映射到映射存儲器上才能被訪問。將實際的物 理存儲區(qū)空間映射到映射存儲器空間上 , 由存儲器配 置文件實現(xiàn)。DSP 上電硬復(fù)位后, DSP 自動調(diào)用執(zhí)行 固化于內(nèi)部ROM 中的 BOOT 程序, 將外部Flash 存儲 器的程序讀入 DSP 內(nèi)部的高速 RAM 程序區(qū)中。2 .2 識別系統(tǒng)的軟件設(shè)計實時識別系統(tǒng)軟件編程在 CCS DSK C5000 1 .22 開發(fā)環(huán)境中進(jìn)行。CCS DSK C5000 1 .22 是 TI 公司開 發(fā)的專用于 DSP 軟件設(shè)計的集成軟件開發(fā)環(huán)境。整 個系統(tǒng)軟件

10、主要采用 C 語言編寫, 可調(diào)用開發(fā)環(huán)境下· 18 ·的專用庫函數(shù)實現(xiàn)初始化過程。初始化過程主要包括TMS320VC5402 初始化及 TLC320AD50C 初始化。 前者主要包括設(shè)置 TMS320VC5402 時鐘為100 MHz ,初始化 CPU 各狀態(tài)標(biāo)志寄存器, 以保持 CPU 正確的 工作狀態(tài)。然后 ,將 DSP 串口 1 復(fù)位, 對串口 1 的 16 個寄存器進(jìn)行編程, 使 DSP 串口工作在以下狀態(tài):以 SPI 模式運行 ,每幀 1 段, 每段 1 個字 ,每字 16 位。采 樣率發(fā)生器由 DSP 內(nèi)部產(chǎn)生 , 幀同步脈沖低電平有 效,并且, 幀同步信號和移

11、位時鐘信號由外部產(chǎn)生。TLC320AD50C 與 TMS320VC5402 間的串行通 信有主串行通信和二次串行通信。主串行通信用來接 收和發(fā)送轉(zhuǎn)換信號數(shù)據(jù) , 二次串行通信用來初始化或 讀取 T LC320AD50C 的控制寄存器。T LC320AD50C初始化操作過程包括通過 TMS320VC5402 的同步串 口發(fā)送 2 串 16 位數(shù)字信息到 TLC320320AD50C 。第 1 串為 0000 0000 0000 0001B ,最低有效位(bit0)為 1 ,說明下一個要傳輸?shù)臄?shù)據(jù)字屬于二次通信。第 2 串?dāng)?shù) 據(jù)值用來對 TLC320AD50C 的 4 個數(shù)據(jù)寄存器的某一 個進(jìn)行配

12、置。bit0 bit7 為所選中寄存器的編程值, bit8 bit10 為所選寄存器地址值 ,bits11 bit15 為 0 。 4 個用戶可編程寄存器為:R1 中包含模擬輸入通道選 擇、硬件/軟件編程方式選擇;R2 進(jìn)行單機(jī)/從機(jī)工作 和電話模式選擇 ;R3 控制帶從機(jī)個數(shù)選擇;R4 用來設(shè) 置模擬信號可編程放大增益和 A/D 、D/A 轉(zhuǎn)換頻率。 其他兩個寄存器 R5 、R6 是廠家留著測試用的, 用戶不 能對其編程。我們在以下例程中對 4 個可編程寄存器 編程, 使 TLC320AD50C 工作在以下狀態(tài):選擇 INP/INM 為工作模擬輸入 ,15 +1 位 A/D 轉(zhuǎn)換器和 15

13、+1 位 D/A 轉(zhuǎn)換器模式, 不帶從機(jī) ,采樣頻率為 8 kHz ,模 擬信號輸入和輸出放大增益均為 0 dB 。DTW 算法能夠較好地解決用于孤立詞識別時說 話速度不均勻的難題。測試的語音參數(shù)共有 N 幀矢 量, 而參考模板有 M 幀矢量 ,且 M N ,則 DTW 就是 尋找一個時間歸整函數(shù) m =f(n), 它將測試矢量的 時間軸 n 非線性地映射到模板的時間軸 m 上 ,并使該 函數(shù)滿足第 n 幀測試矢量和第 m 幀模板矢量之間的 距離測度最小。在實際識別系統(tǒng)中 , 語音的起點或終點由摩擦音 構(gòu)成 ,環(huán)境噪聲也比較大 ,語音的端點檢測會存在較大 的誤差。DTW 算法出發(fā)點可以選擇在(

14、n , m )=(1 ,1),稱為固定起點;也可以選擇在(1 ,2)、(2 ,1)、(1 ,3)、 (3 ,1)等點, 稱為松馳起點 。同樣 , 路徑可以選擇在 (n , m )=(N , M)點 , 稱為固定終點 ;也可以選擇在(N -1 , M)、(N , M -1)、(N -2 , M)、(N , M -2)等點,稱為松弛終點。固定起始點的 DTW 算法要求從第 30 卷第 7 期 吳曉平, 等:基于 DT W 算法的語音識別系統(tǒng)實現(xiàn) ·通信技術(shù)·(1 ,1)出發(fā) ,到(N , M )結(jié)束,松弛的 DTW 算法的起始 點從(1 ,1)、(1 ,2)、(2 , 1)、(

15、1 , 3)、(3 ,1)等點中選擇一 最小值 ,終止點從(N , M)、(N -1 , M)、(N , M -1)、 (N -2 , M)、(N , M -2)中選擇一最小值,兩語音樣本 之間的相互距離在相應(yīng)的點放松后選擇一最小距離。 松弛起點、終點的優(yōu)點是可以克服由于端點檢測不精 確引起的誤差, 但運算量加大。在訓(xùn)練階段, 將計算出 的特征矢量序列作為模板存入模板庫。在識別階段, 將輸入語音的特征矢量系列與模板中的每一特征矢量 序列進(jìn)行模式匹配, 匹配相似度最高者作為識別結(jié)果 輸出。識別系統(tǒng)軟件設(shè)計如圖 3 所示。圖 3 識別系統(tǒng)軟件流程3 結(jié)束語DTW 算法應(yīng)用在小詞匯量 、孤立詞語音識

16、別系 統(tǒng)中, 算法計算量較少, 識別效果良好。松弛起點的 DTW 算法實現(xiàn)實時語音識別系統(tǒng), 能有效減少端點 檢測的誤差 , 但算法的復(fù)雜度將增大。采用高速 TMS320VC5402 為核心芯片設(shè)計實時語音識別系統(tǒng), 對孤立詞的識別時間短, 可以達(dá)到實時識別的要求。參 考 文 獻(xiàn) 1 趙 力, 等.語音信號處理.北京:機(jī)械工業(yè)出版社, 2003 2 樓順天.基于 MA T LA B 的系統(tǒng)分析與設(shè)計.西安 :西安電子科技大學(xué)出版社, 2000 3 張 勇.C/C +語言硬件程序設(shè)計.西安:西安電子科技 大學(xué)出版社, 2003 4 陳志鑫, 郭華偉.基于 TM S320C54xDSP 的實時語音

17、識別系統(tǒng) .半導(dǎo)體技術(shù), 2001 , 26(4):5 8 5 祝曉陽, 盧中寧, 崔光照.數(shù)字信號處理芯片 T M S320VC5402 的語音接口設(shè)計.鄭州輕工業(yè)學(xué)院學(xué)報,2002 , 17(2):71 73The Realization of Speech Recognition System Based on DTW AlgorithmWu Xiaoping , Cui Guangzhao, Lu Kang(Zhengzhou University of Light Industry , Zhengzhou 450002 , China)【Abstract】Therealization

18、 of the DTW algorithm is sim ple and effective , so it is widely used in the isolated-w ord speech recognition system .This paper introduces the transplant of the DTW algorithm on TMS320VC5402 to achieve the isolated-word speech recognition .The research results show that the sys-tem meets the requirement of real time and the recognition performance is good .Keywords :DTW algorithm , speech recogniti

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論