基于DTW算法的語(yǔ)音識(shí)別系統(tǒng)實(shí)現(xiàn) (1)pdf_第1頁(yè)
基于DTW算法的語(yǔ)音識(shí)別系統(tǒng)實(shí)現(xiàn) (1)pdf_第2頁(yè)
基于DTW算法的語(yǔ)音識(shí)別系統(tǒng)實(shí)現(xiàn) (1)pdf_第3頁(yè)
基于DTW算法的語(yǔ)音識(shí)別系統(tǒng)實(shí)現(xiàn) (1)pdf_第4頁(yè)
基于DTW算法的語(yǔ)音識(shí)別系統(tǒng)實(shí)現(xiàn) (1)pdf_第5頁(yè)
已閱讀5頁(yè),還剩1頁(yè)未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、第 30 卷第 7 期 電 子工 程 師 Vol .30 No .72004 年 7 月EL ECT RON IC EN GIN EERJul.2004基于 DTW 算法的語(yǔ)音識(shí)別系統(tǒng)實(shí)現(xiàn)吳曉平, 崔光照, 路 康(鄭州輕工業(yè)學(xué)院信息與控制工程系, 河南省鄭州市 450002)【摘 要】動(dòng)態(tài)時(shí)間歸整(DTW)算法的實(shí)現(xiàn)簡(jiǎn)單有效, 在孤立詞語(yǔ)音識(shí)別系統(tǒng)中得到了廣泛的 應(yīng)用。介紹了將 DTW 算法移植到 TMS320VC5402 上實(shí)現(xiàn)孤立詞語(yǔ)音識(shí)別的原理、系統(tǒng)硬件組成和 軟件設(shè)計(jì)。研究結(jié)果表明 ,系統(tǒng)能滿足實(shí)時(shí)性能要求, 識(shí)別效果良好。關(guān)鍵詞:動(dòng)態(tài)時(shí)間歸整(DTW)算法 , 語(yǔ)音識(shí)別, 線性預(yù)測(cè)

2、, 端點(diǎn)檢測(cè)中圖分類號(hào):TN912 .340 引 言動(dòng)態(tài)時(shí)間歸整(DTW)算法是把時(shí)間歸整和間距 測(cè)量計(jì)算結(jié)合起來(lái)的一種非線性歸整技術(shù) , 與隱式馬 爾可夫模型(H MM)算法相比, 它不是一種有效的利 用統(tǒng)計(jì)方法進(jìn)行訓(xùn)練的算法, 同時(shí) ,也不容易將底層和 頂層的各種知識(shí)用到識(shí)別算法中, 在解決大詞匯量、連 續(xù)語(yǔ)音、非特定發(fā)音人語(yǔ)音識(shí)別系統(tǒng)時(shí), 識(shí)別效果較 差,但在孤立詞語(yǔ)音識(shí)別系統(tǒng)中識(shí)別效果良好, 并且, 由于 DTW 算法計(jì)算量較少。因此 ,DTW 算法在孤立 詞語(yǔ)音識(shí)別系統(tǒng)中得到了較為廣泛的應(yīng)用。將 DTW 算法移植到 TMS320VC5402 上實(shí)現(xiàn)語(yǔ)音識(shí)別 ,能滿足 實(shí)時(shí)性要求。1

3、識(shí)別系統(tǒng)基本原理圖 1 是實(shí)時(shí)語(yǔ)音識(shí)別系統(tǒng)的結(jié)構(gòu)框圖。圖 1 語(yǔ)音識(shí)別系統(tǒng)原理框圖語(yǔ)音信號(hào)的數(shù)字化包括預(yù)濾波和 A/D 采樣。語(yǔ) 音信號(hào)的頻率一般介于 100 Hz 3 400 H z 之間 ,需設(shè) 計(jì)一個(gè)帶通濾波器以便濾去語(yǔ)音信號(hào)頻率以外的干收稿日期:2004-03-24擾。語(yǔ)音信號(hào)經(jīng)濾波和采樣后 ,由 A/D 轉(zhuǎn)換器轉(zhuǎn)換為 二進(jìn)制數(shù)字碼。語(yǔ)音信號(hào)的預(yù)處理一般包括預(yù)加重、加窗和分幀 處理。預(yù)加重的目的是提升高頻部分, 使信號(hào)的頻譜 變得平坦 ,以保持在信號(hào)的整個(gè)頻帶內(nèi)具有同樣的信 噪比, 便于聲道參數(shù)分析。在語(yǔ)音信號(hào)的數(shù)字處理中 常用的是矩形窗和漢明窗等, 窗口的形狀、長(zhǎng)度對(duì)短時(shí) 分析參數(shù)的

4、影響很大 ,為此,應(yīng)選擇合適的窗函數(shù)。語(yǔ) 音信號(hào)有 10 ms 30 ms 的短時(shí)平穩(wěn)性,一般每秒的幀 數(shù)為 33 幀 100 幀。為了使幀與幀之間平滑過(guò)渡 ,前 一幀與后一幀之間必須保持一定的幀移 , 幀長(zhǎng)與幀移 的比值一般取為 0 1/2 。語(yǔ)音信號(hào)的端點(diǎn)檢測(cè)一般采用平均能量、平均幅 度值、平均過(guò)零率等或上述幾種方法的綜合來(lái)判斷 ,也 有一些學(xué)者提出采用頻帶方差、倒譜特征等方法來(lái)判 斷。采用前者算法的計(jì)算量較小, 在噪聲不大的環(huán)境 下可以有效地判別語(yǔ)音信號(hào)的起始點(diǎn)與終止點(diǎn)。在端 點(diǎn)檢測(cè)時(shí)若選擇的窗長(zhǎng)較大 ,可以加快語(yǔ)音處理的速 度,會(huì)跳過(guò)一些短時(shí)噪聲 , 但是端點(diǎn)檢測(cè)的誤差會(huì)增 加。語(yǔ)音信

5、號(hào)的端點(diǎn)檢測(cè)直接影響語(yǔ)音信號(hào)倒譜特征 提取的誤差,為此,應(yīng)選擇合適的端點(diǎn)檢測(cè)算法。由于語(yǔ)音信號(hào)之間存在相關(guān)性, 可以用過(guò)去的樣 點(diǎn)值來(lái)預(yù)測(cè)現(xiàn)在的或未來(lái)的樣點(diǎn)值, 即一個(gè)語(yǔ)音的采 樣值可以用過(guò)去若干個(gè)語(yǔ)音采樣或它們的線性組合來(lái) 逼近。通過(guò)線性預(yù)測(cè)采樣與實(shí)際語(yǔ)音采樣之間的誤差 達(dá)到最小值來(lái)決定唯一的一組預(yù)測(cè)系數(shù)。線性預(yù)測(cè)系 數(shù)(LPC)倒譜運(yùn)算采用聲道系統(tǒng)函數(shù)中的最小相位特 性,避免了相位卷繞問(wèn)題 , 并且 , LPC 倒譜運(yùn)算量較 FFT 求倒譜運(yùn)算量小 , 在實(shí)時(shí)語(yǔ)音識(shí)別中經(jīng)常采用 LPC 倒譜作為特征矢量。在線性預(yù)測(cè)分析過(guò)程中 ,若 選擇的階數(shù) p 很大 , LPC 的值出現(xiàn)振蕩, 其攜帶的

6、信 息會(huì)使語(yǔ)音的內(nèi)在特征出現(xiàn)很大的隨機(jī)性 , 一般選擇 p 在 8 14 之間 。· 17 ··通信技術(shù)· 電子工 程 師 2004 年 7 月2 實(shí)時(shí)識(shí)別系統(tǒng)的實(shí)現(xiàn)2 .1 識(shí)別系統(tǒng)的硬件組成為了實(shí)現(xiàn)實(shí)時(shí)語(yǔ)音識(shí)別, 采用 TMS320VC5402 為主控芯片,可以在 TI 公司推出的 TMS320VC5402 DSK開(kāi)發(fā)平臺(tái)上實(shí)現(xiàn),其最小系統(tǒng)硬件組成可參考圖 2 。圖 2 語(yǔ)音識(shí)別系統(tǒng)硬件組成框圖TMS320VC5402 是 TI 公司生產(chǎn)的一種性價(jià)比較 高的 16 位定點(diǎn) DSP 。它的指令周期為 10 ns ,具有運(yùn) 算速度快、通用性強(qiáng)、接口連接方

7、便等特點(diǎn) , 適合在語(yǔ) 音編碼和通信中應(yīng)用。T LC320AD50C 是 T I 公司生 產(chǎn)的- 型單片音頻接口芯片, 它集成了 16 位 A/D 和D/A 轉(zhuǎn)換器,采樣速率可通過(guò) DSP 編程來(lái)設(shè)置 ,最高可達(dá) 22 .05 kbit/s 。TLC320AD50C 內(nèi)部 D/A 轉(zhuǎn)換 器之前有插值濾波器, A/D 轉(zhuǎn)換器之后有采樣濾波 器,接收和發(fā)送可同時(shí)進(jìn)行。 TM S320VC5402 芯片包 括 2 個(gè)高速、全雙工多通道緩存串行 McBSPs 口。 M cBSPs 提供了全雙工的通信機(jī)制、128 通道的接收和 發(fā)送, 數(shù)據(jù)長(zhǎng)度可以在 8 位、12 位、16 位、20 位、24 位 或3

8、2 位中選擇。采用多通道緩存串行 M cBSPs 口實(shí) 現(xiàn) TLC320AD50C 芯片的數(shù)據(jù)采集, 采用串行通信方 式,采樣頻率可由 TLC320AD50C 的控制寄存器設(shè)置。 在進(jìn)行串行口通信之前 ,需要對(duì) TLC320AD50C 初始 化,建立 TLC320AD50C 與 TMS320VC5402 的連接,從而實(shí)現(xiàn)兩芯片之間的數(shù)據(jù)傳輸。TMS320VC5402 僅提供 4 k ×16 bit 的片上 ROM 和 16 k ×16 bit 的片上 DARAM 。DARAM 由 2 塊 8 k×16 bit 的區(qū)塊組成 , 每一區(qū)塊均可在一個(gè)指令周期 內(nèi)完成 2

9、 次讀操作或 1 次寫(xiě)操作。對(duì)片內(nèi)物理存儲(chǔ)器 的訪問(wèn)通過(guò)訪問(wèn)映射寄存器實(shí)現(xiàn), 即片內(nèi)物理存儲(chǔ)器 必須被映射到映射存儲(chǔ)器上才能被訪問(wèn)。將實(shí)際的物 理存儲(chǔ)區(qū)空間映射到映射存儲(chǔ)器空間上 , 由存儲(chǔ)器配 置文件實(shí)現(xiàn)。DSP 上電硬復(fù)位后, DSP 自動(dòng)調(diào)用執(zhí)行 固化于內(nèi)部ROM 中的 BOOT 程序, 將外部Flash 存儲(chǔ) 器的程序讀入 DSP 內(nèi)部的高速 RAM 程序區(qū)中。2 .2 識(shí)別系統(tǒng)的軟件設(shè)計(jì)實(shí)時(shí)識(shí)別系統(tǒng)軟件編程在 CCS DSK C5000 1 .22 開(kāi)發(fā)環(huán)境中進(jìn)行。CCS DSK C5000 1 .22 是 TI 公司開(kāi) 發(fā)的專用于 DSP 軟件設(shè)計(jì)的集成軟件開(kāi)發(fā)環(huán)境。整 個(gè)系統(tǒng)軟件

10、主要采用 C 語(yǔ)言編寫(xiě), 可調(diào)用開(kāi)發(fā)環(huán)境下· 18 ·的專用庫(kù)函數(shù)實(shí)現(xiàn)初始化過(guò)程。初始化過(guò)程主要包括TMS320VC5402 初始化及 TLC320AD50C 初始化。 前者主要包括設(shè)置 TMS320VC5402 時(shí)鐘為100 MHz ,初始化 CPU 各狀態(tài)標(biāo)志寄存器, 以保持 CPU 正確的 工作狀態(tài)。然后 ,將 DSP 串口 1 復(fù)位, 對(duì)串口 1 的 16 個(gè)寄存器進(jìn)行編程, 使 DSP 串口工作在以下?tīng)顟B(tài):以 SPI 模式運(yùn)行 ,每幀 1 段, 每段 1 個(gè)字 ,每字 16 位。采 樣率發(fā)生器由 DSP 內(nèi)部產(chǎn)生 , 幀同步脈沖低電平有 效,并且, 幀同步信號(hào)和移

11、位時(shí)鐘信號(hào)由外部產(chǎn)生。TLC320AD50C 與 TMS320VC5402 間的串行通 信有主串行通信和二次串行通信。主串行通信用來(lái)接 收和發(fā)送轉(zhuǎn)換信號(hào)數(shù)據(jù) , 二次串行通信用來(lái)初始化或 讀取 T LC320AD50C 的控制寄存器。T LC320AD50C初始化操作過(guò)程包括通過(guò) TMS320VC5402 的同步串 口發(fā)送 2 串 16 位數(shù)字信息到 TLC320320AD50C 。第 1 串為 0000 0000 0000 0001B ,最低有效位(bit0)為 1 ,說(shuō)明下一個(gè)要傳輸?shù)臄?shù)據(jù)字屬于二次通信。第 2 串?dāng)?shù) 據(jù)值用來(lái)對(duì) TLC320AD50C 的 4 個(gè)數(shù)據(jù)寄存器的某一 個(gè)進(jìn)行配

12、置。bit0 bit7 為所選中寄存器的編程值, bit8 bit10 為所選寄存器地址值 ,bits11 bit15 為 0 。 4 個(gè)用戶可編程寄存器為:R1 中包含模擬輸入通道選 擇、硬件/軟件編程方式選擇;R2 進(jìn)行單機(jī)/從機(jī)工作 和電話模式選擇 ;R3 控制帶從機(jī)個(gè)數(shù)選擇;R4 用來(lái)設(shè) 置模擬信號(hào)可編程放大增益和 A/D 、D/A 轉(zhuǎn)換頻率。 其他兩個(gè)寄存器 R5 、R6 是廠家留著測(cè)試用的, 用戶不 能對(duì)其編程。我們?cè)谝韵吕讨袑?duì) 4 個(gè)可編程寄存器 編程, 使 TLC320AD50C 工作在以下?tīng)顟B(tài):選擇 INP/INM 為工作模擬輸入 ,15 +1 位 A/D 轉(zhuǎn)換器和 15

13、+1 位 D/A 轉(zhuǎn)換器模式, 不帶從機(jī) ,采樣頻率為 8 kHz ,模 擬信號(hào)輸入和輸出放大增益均為 0 dB 。DTW 算法能夠較好地解決用于孤立詞識(shí)別時(shí)說(shuō) 話速度不均勻的難題。測(cè)試的語(yǔ)音參數(shù)共有 N 幀矢 量, 而參考模板有 M 幀矢量 ,且 M N ,則 DTW 就是 尋找一個(gè)時(shí)間歸整函數(shù) m =f(n), 它將測(cè)試矢量的 時(shí)間軸 n 非線性地映射到模板的時(shí)間軸 m 上 ,并使該 函數(shù)滿足第 n 幀測(cè)試矢量和第 m 幀模板矢量之間的 距離測(cè)度最小。在實(shí)際識(shí)別系統(tǒng)中 , 語(yǔ)音的起點(diǎn)或終點(diǎn)由摩擦音 構(gòu)成 ,環(huán)境噪聲也比較大 ,語(yǔ)音的端點(diǎn)檢測(cè)會(huì)存在較大 的誤差。DTW 算法出發(fā)點(diǎn)可以選擇在(

14、n , m )=(1 ,1),稱為固定起點(diǎn);也可以選擇在(1 ,2)、(2 ,1)、(1 ,3)、 (3 ,1)等點(diǎn), 稱為松馳起點(diǎn) 。同樣 , 路徑可以選擇在 (n , m )=(N , M)點(diǎn) , 稱為固定終點(diǎn) ;也可以選擇在(N -1 , M)、(N , M -1)、(N -2 , M)、(N , M -2)等點(diǎn),稱為松弛終點(diǎn)。固定起始點(diǎn)的 DTW 算法要求從第 30 卷第 7 期 吳曉平, 等:基于 DT W 算法的語(yǔ)音識(shí)別系統(tǒng)實(shí)現(xiàn) ·通信技術(shù)·(1 ,1)出發(fā) ,到(N , M )結(jié)束,松弛的 DTW 算法的起始 點(diǎn)從(1 ,1)、(1 ,2)、(2 , 1)、(

15、1 , 3)、(3 ,1)等點(diǎn)中選擇一 最小值 ,終止點(diǎn)從(N , M)、(N -1 , M)、(N , M -1)、 (N -2 , M)、(N , M -2)中選擇一最小值,兩語(yǔ)音樣本 之間的相互距離在相應(yīng)的點(diǎn)放松后選擇一最小距離。 松弛起點(diǎn)、終點(diǎn)的優(yōu)點(diǎn)是可以克服由于端點(diǎn)檢測(cè)不精 確引起的誤差, 但運(yùn)算量加大。在訓(xùn)練階段, 將計(jì)算出 的特征矢量序列作為模板存入模板庫(kù)。在識(shí)別階段, 將輸入語(yǔ)音的特征矢量系列與模板中的每一特征矢量 序列進(jìn)行模式匹配, 匹配相似度最高者作為識(shí)別結(jié)果 輸出。識(shí)別系統(tǒng)軟件設(shè)計(jì)如圖 3 所示。圖 3 識(shí)別系統(tǒng)軟件流程3 結(jié)束語(yǔ)DTW 算法應(yīng)用在小詞匯量 、孤立詞語(yǔ)音識(shí)

16、別系 統(tǒng)中, 算法計(jì)算量較少, 識(shí)別效果良好。松弛起點(diǎn)的 DTW 算法實(shí)現(xiàn)實(shí)時(shí)語(yǔ)音識(shí)別系統(tǒng), 能有效減少端點(diǎn) 檢測(cè)的誤差 , 但算法的復(fù)雜度將增大。采用高速 TMS320VC5402 為核心芯片設(shè)計(jì)實(shí)時(shí)語(yǔ)音識(shí)別系統(tǒng), 對(duì)孤立詞的識(shí)別時(shí)間短, 可以達(dá)到實(shí)時(shí)識(shí)別的要求。參 考 文 獻(xiàn) 1 趙 力, 等.語(yǔ)音信號(hào)處理.北京:機(jī)械工業(yè)出版社, 2003 2 樓順天.基于 MA T LA B 的系統(tǒng)分析與設(shè)計(jì).西安 :西安電子科技大學(xué)出版社, 2000 3 張 勇.C/C +語(yǔ)言硬件程序設(shè)計(jì).西安:西安電子科技 大學(xué)出版社, 2003 4 陳志鑫, 郭華偉.基于 TM S320C54xDSP 的實(shí)時(shí)語(yǔ)音

17、識(shí)別系統(tǒng) .半導(dǎo)體技術(shù), 2001 , 26(4):5 8 5 祝曉陽(yáng), 盧中寧, 崔光照.數(shù)字信號(hào)處理芯片 T M S320VC5402 的語(yǔ)音接口設(shè)計(jì).鄭州輕工業(yè)學(xué)院學(xué)報(bào),2002 , 17(2):71 73The Realization of Speech Recognition System Based on DTW AlgorithmWu Xiaoping , Cui Guangzhao, Lu Kang(Zhengzhou University of Light Industry , Zhengzhou 450002 , China)【Abstract】Therealization

18、 of the DTW algorithm is sim ple and effective , so it is widely used in the isolated-w ord speech recognition system .This paper introduces the transplant of the DTW algorithm on TMS320VC5402 to achieve the isolated-word speech recognition .The research results show that the sys-tem meets the requirement of real time and the recognition performance is good .Keywords :DTW algorithm , speech recogniti

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論