低速率語音壓縮編碼對語音識別系統(tǒng)的影響

上傳人：7*** IP屬地：湖北上傳時間：2022-01-18 格式：DOC 頁數(shù)：18 大小：175.50KB 積分：20 舉報 版權(quán)申訴

已閱讀5頁，還剩13頁未讀，繼續(xù)免費(fèi)閱讀

版權(quán)說明：本文檔由用戶提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

1、收稿日期:2002-09-15; 修返日期:2002-12-17基金項目:國家自然科學(xué)基金資助項目(69972020 ; 國家基礎(chǔ)研究項目(G1998030406 ; 清華大學(xué)電子工程系微波與數(shù)低速率語音壓縮編碼對語音識別系統(tǒng)的影響*程強(qiáng), 崔慧娟, 唐昆(清華大學(xué)電子工程系微波與數(shù)字通信國家重點(diǎn)實驗室, 北京100084摘要:通過窄帶信道將語音信號傳輸?shù)竭h(yuǎn)端的識別系統(tǒng), 從而實現(xiàn)遠(yuǎn)距離的人機(jī)對話, 具有重要的現(xiàn)實意義。在2. 4kbps 的速率下, 語音編碼算法依然可以合成出可懂度非常高的語音, 但是這樣的語音信號與原始語音相比還是有巨大的損失。低速率語音編碼算法對于語音識別產(chǎn)生的影響

2、是巨大的, 因此必須想辦法減輕這種損失對于識別的損害。在此選擇了三種不同的低速率語音編碼器, 分別使用LPC(Linear Predictive Coding, 線性預(yù)測算法、MELP(M i xed Excitation Linear Prediction, 混合激勵線性預(yù)測算法和I MBE (I mproved Multiband Excitation, 增強(qiáng)多帶激勵算法, 都在2. 4kbps 的速率下工作, 將其對語音識別系統(tǒng)的影響進(jìn)行了比較。對于特定人連續(xù)語音識別系統(tǒng)和非特定人連接詞識別系統(tǒng), 在使用不同的特征矢量時, 不同編碼器產(chǎn)生的識別效果有比較大的差異。實驗結(jié)果表明, 語

3、音編碼器和語音識別系統(tǒng)的結(jié)構(gòu)有很重要的聯(lián)系, 盡量采用相近的結(jié)構(gòu)有助于獲得良好的識別結(jié)果。另外, 改變提取語音識別特征參數(shù)的方式也會有利于提高語音識別系統(tǒng)的性能。關(guān)鍵詞:語音編碼; 語音識別; 低速率中圖法分類號:TN912. 3; TP391. 4 文獻(xiàn)標(biāo)識碼:A 文章編號:1001-3695(2003 09-0022-04The Influence of Low Bit Rate Speech Coders on Speech Recognition SystemC HE NG Qiang, CUI Hu-i juan, TANG Kun(State K e y Laboratory o

4、f Micro ware &Digital Communication , Dept. o f Elect ronic Engine ering , Tsinghua U nive rsity, Be ijing 100084, China Abstract:Speech recognition through narrow band channel is important in many areas. At the bi t rate as low as 2. 4kbps, we can obtain s ynthetic speech with high in telligibi

5、li ty by speech coding. However, such speech signal has been damaged severely compared wi th the uncoded one.The low bit rate speech coding has great effect on the following speech recogniti on. So we must find a way to mitigate the damage of coding. We select three low bit rate vocoder workin g at

6、2. 4kbps, using LPC(Linear Predictive Coding , ME LP(Mixed Excita -tion Linear Prediction and I MBE(Improved Multi band Exci tation algorithms respectively, to find the difference of their influences on speech recogni tion. Using different feature vectors, the effect of the vocoders differs on speak

7、er dependent continuous speech recognition and speaker independen t connected di gits recognition.The results of the experimen ts have shown important relation between the algorithm s tructures of the vocoder and recognition system. It is helpful to use si milar structures to improve the recogniti o

8、n performance. It will al so be useful to change the way of extracti ng feature parameters for the recogni tion. Key w ords:Speech Coding; Speech Recognition; Low Bi t Rate1 背景介紹在多媒體技術(shù)高速發(fā)展的今天, 語音技術(shù)受到越來越多的關(guān)注, 正迅速地進(jìn)入人們的生活之中。在語音通信中, 語音識別一直是人們普遍關(guān)注的重要技術(shù), 它使人與機(jī)器可以通過語言來互相交流。現(xiàn)在已經(jīng)有很多較為成熟的語音識別系統(tǒng), 能夠出色地完成比較簡單的

9、語音識別任務(wù), 然而非特定人大詞匯量連續(xù)語音的識別還是一個有待進(jìn)一步研究的領(lǐng)域, 以開發(fā)出真正聽得懂人的語言的機(jī)器。語音識別系統(tǒng)的輸入語音, 總是不可避免地會受到噪音的污染。特別在遠(yuǎn)距離的人機(jī)對話中, 語音總是經(jīng)過一定的編碼傳輸之后進(jìn)入識別系統(tǒng)的。因此, 研究語音傳輸中各種因素對語音信號的影響, 最終在語音識別系統(tǒng)中的體現(xiàn), 是一個很重要的問題。語音編碼器特別是低速率聲碼器對數(shù)字語音信號質(zhì)量造成相對程度的破壞, 因而我們必須研究它們對于語音識別系統(tǒng)會造成怎樣的影響。研究表明1, 2, 隨著編碼速率的下降, 經(jīng)過編碼的語音在語音識別系統(tǒng)中的識別率逐漸下降。這是很正常的現(xiàn)象, 因為隨著編碼速率的降

10、低, 單位時間內(nèi)描述的語音信息量減少, 不可避免地帶來語音質(zhì)量的下降和各#22# 計算機(jī)應(yīng)用研究2003年編碼速率, 如4kbps 或更低, 只有采取參數(shù)編碼的方式,通常只對語音的譜參數(shù)及基音周期、清濁音、能量等少量參數(shù)進(jìn)行提取和量化, 產(chǎn)生的重建語音波形會與原始語音存在很大的差異。已經(jīng)有人研究了在無線通信環(huán)境下, 中低速率語音編碼對于語音識別產(chǎn)生的影響, 所用到的編碼速率都在4kbps 以上3, 4。雖然在低至2. 4kbps 的聲碼器合成出的聲音也不會對人耳能夠聽懂造成什么困難, 然而其中信息的損失已經(jīng)是相當(dāng)巨大的。這樣的語音能不能讓語音識別系統(tǒng)也聽得懂? 就成為一個值得研究的問題。常用的

11、低速率語音壓縮編碼算法包括線性預(yù)測(LPC 算法、混合激勵線性預(yù)測(MELP 算法、增強(qiáng)多帶激勵(IMBE 算法、波形插值(WI 算法等, 這些算法都能在2. 4kbps 的速率下得到可懂度很高的合成語音。因為各種算法的特點(diǎn)不同, 它們對于語音識別系統(tǒng)產(chǎn)生的影響也會有較大的差異。我們對經(jīng)過其中幾種算法壓縮后的語音進(jìn)行了語音識別的測試, 發(fā)現(xiàn)它們對于不同的語音識別系統(tǒng)表現(xiàn)出不同的識別性能?？偟膩碚f, 語音識別系統(tǒng)的性能因為編碼語音的質(zhì)量下降而變差, 而惡化的程度則有所差異。我們選擇的低速率語音壓縮編碼算法包括LPC -10算法、MELP 算法和I MBE 算法; 測試的語音識別系統(tǒng)包括漢語非特定

12、人連接詞識別系統(tǒng)和漢語特定人連續(xù)語音識別系統(tǒng)。2 低速率語音編碼算法在2. 4kbps 的速率下, 用于描述語音信號的信息量非常有限, 想保持對語音波形的精確描述是不可能的。通常都是采取分幀提取參數(shù)的方法, 對能夠表述語音特征的參數(shù)進(jìn)行編碼。類似地, 在語音識別系統(tǒng)中, 語音信號也是在被分成若干幀之后提取其中的參數(shù), 然后根據(jù)參數(shù)與訓(xùn)練好的模型進(jìn)行比較來確定最后的識別結(jié)果。在不同的語音編碼算法中, 使用的參數(shù)可能很不一樣, 但是通常都有聲道參數(shù)和激勵參數(shù)。由于編碼的目的是在一定的編碼速率下使合成語音在聽覺上與原始語音相接近, 所以很多聽覺上不重要的語音特征會損失甚至被改變, 這就可能使得語音識

13、別系統(tǒng)在提取參數(shù)時無法得到準(zhǔn)確的參數(shù), 造成錯誤的識別。下面我們就比較一下各種低速率語音編碼器的特點(diǎn), 分析它們可能對語音識別產(chǎn)生的影響。LPC -10算法是比較早的低速率語音壓縮編碼算法, 在20世紀(jì)70年代就被美國作為低速率語音編碼的政府標(biāo)準(zhǔn)8。LPC 算法的原理十分簡單, 它用線性預(yù)測系數(shù)作為聲道模型, 用周期脈沖作為濁音的激勵信號, 用白噪聲作為清音的激勵信號, 使用的參數(shù)只有LPC 系數(shù)、清濁音判決、基音周期和增益系數(shù)。準(zhǔn)確的參數(shù)提取對合成語音的質(zhì)量起著至關(guān)重要的作用, 使LPC -10聲碼器可以獲得可懂度相當(dāng)高的語音, 但是二元激勵模型使語音自然度受到嚴(yán)重的損失, 是LPC -10

14、聲碼器最大的問題之一。另外LPC -10算法用全極點(diǎn)模型作為聲道模型, 對于大部分的語音是合適的, 但是某些實際的語音信號( , 增加線性預(yù)測的階數(shù)來逼近。在實際的編碼算法中, 通常采用10階的預(yù)測系數(shù), 這對于語音譜的描述也不夠精確。MELP 算法是在LPC 算法的基礎(chǔ)上發(fā)展起來的9, 在其中引入了一些新的特點(diǎn):混合激勵、非周期脈沖、自適應(yīng)譜增強(qiáng)、脈沖擴(kuò)散、傅里葉系數(shù)等。其中最重要的改進(jìn)就是增加了混合激勵的概念, 把語音分成五個固定的頻帶, 在每一個頻帶中分別進(jìn)行清濁音判決, 根據(jù)結(jié)果合成語音, 最后將各個頻帶的合成語音相加得到最終的重建語音。MELP 算法大大改善了LPC 算法中二元激勵造

15、成的語音自然度差的問題, 使合成語音的聽覺質(zhì)量大大提高。在聲道參數(shù)方面, 用線譜對(LSP 參數(shù)取代了原有的線性預(yù)測系數(shù), 并且使用矢量量化的方式提高編碼效率。這兩種參數(shù)雖然本質(zhì)上是等價的, 但是LSP 參數(shù)具有更好的穩(wěn)定性和量化性能, 使用矢量量化可以用每幀25bit 達(dá)到原有線性預(yù)測系數(shù)34bit 量化的效果。MELP 算法對原有的LPC 算法在聽覺上獲得了很大的改善, 并且得到了美國政府的認(rèn)可。I MBE 算法10的模型完全不同于LPC 模型, 在激勵信號的表示上, 按照基音各諧波將語音分為若干帶, 進(jìn)行清濁音判決, 用白噪聲作為清音的激勵信號, 用基音周期脈沖作為濁音的激勵信號, 然后

16、將各帶相加得到全帶的激勵信號。聲道參數(shù)實際上就是各頻帶分量的相對幅度和相位, 是頻域與激勵信號譜相乘得到合成語音的頻譜。這種分帶的方法不同于MELP 算法中的固定分帶, 更加符合實際語音的特性。同時由于在參數(shù)的提取中采用了類似于合成分析法的算法, 能夠在較低速率下合成出清晰可懂的語音, 只是聲音會有一點(diǎn)合成感。以上三種算法都可以在2. 4kbps 的速率下工作, 并且都能得到可以讓人滿意的語音。由于采用的算法不同, 相應(yīng)語音中損失的特征各不相同, 合成語音聽起來也就不一樣, 對不同語音識別系統(tǒng)產(chǎn)生的影響也必然會有差別。因為各種編碼器本身并沒有明顯的優(yōu)劣差別, 而是各具特色, 所以對于不同的語音

17、識別系統(tǒng), 它們表現(xiàn)出的性能也很可能各有千秋。3 語音識別系統(tǒng)的選擇語音識別系統(tǒng)根據(jù)識別對象可以分為孤立詞、連接詞和連續(xù)語音識別, 識別的難度依次增加。根據(jù)說話人的不同又可分為特定人和非特定人語音識別, 其中非特定人語音識別的難度要高于特定人。為了考察語音編碼算法對不同語音識別系統(tǒng)的影響, 我們選擇了非特定人的連接詞識別系統(tǒng)和特定人的連續(xù)語音識別系統(tǒng)作為實驗中采用的識別系統(tǒng), 分別對編碼前后的語音進(jìn)行識別實驗。在連接詞識別系統(tǒng)中, 被識別的語音是09的數(shù)字組成的長度不固定的數(shù)字串。在語音識別系統(tǒng)中, 首先要選擇識別單元。在漢語中, 每一個漢字都對應(yīng)一個單獨(dú)的音節(jié), 而每一個音節(jié)都是由聲母和韻母

18、兩個半音節(jié)組成的, 其中有些音節(jié)是零聲母。聲母都是單獨(dú)的音素, 既可以是清音, 也可以; #23#第9期程強(qiáng)等:低速率語音壓縮編碼對語音識別系統(tǒng)的影響語音識別系統(tǒng)中, 如果選擇比較小的識別單元(如音素 , 所需的碼本尺寸就比較小, 識別的計算量也較低; 但是由于小的識別單元往往不穩(wěn)定, 在不同的語音環(huán)境中的變化大, 因此不利于保證語音識別的準(zhǔn)確性。如果選擇比較大的識別單元(如詞 , 則識別的準(zhǔn)確性將提高, 但是需要非常多的存儲單元和很高的計算量。在實際的應(yīng)用環(huán)境中, 大小適中的音節(jié)和半音節(jié)(聲母和韻母經(jīng)常被采用, 在我們的實驗中, 選擇了半音節(jié)作為基本的識別單元。目前較為成熟的語音識別系統(tǒng)

19、, 多采用基于隱含馬爾可夫模型的算法。在這樣的識別系統(tǒng)中, 被識別的語音被分為若干幀, 提取每幀的特征矢量組成一個觀察矢量序列。特征矢量的提取是語音識別中重要的一環(huán), 最為常見的特征矢量是LPC 倒譜矢量(LPCC 和臨界帶倒譜矢量(MFCC 。LPC 倒譜矢量可以直接由LPC 系數(shù)轉(zhuǎn)換得到, 用歐式距離來衡量其畸變正好與人耳的聽覺特性相符合。臨界帶倒譜矢量是將語音信號經(jīng)過短時傅里葉變換后, 根據(jù)人耳聽覺的特點(diǎn)劃分為若干固定的頻帶, 然后求出各帶的能量, 再變換到倒譜域后得到的。由于頻帶劃分考慮了人耳的感知特性, 在語音識別中有很廣泛的應(yīng)用。對于原始語音而言, 采用這兩種矢量的語音識別系統(tǒng)在識

20、別精度上的差別通常不會很大, 但是對于經(jīng)過語音編碼之后的語音來說, 兩者的差別就可能非常懸殊。因此在實驗當(dāng)中, 采用兩種不同特征矢量的識別系統(tǒng)都被用來對編碼語音進(jìn)行識別。在具體的實驗中, 我們采用HTK 作為工具來建立語音識別系統(tǒng)。我們使用了一個無跨越從左到右的連續(xù)隱含馬爾可夫模型, 每個模型包含五個狀態(tài), 其中包括起始態(tài)和終止態(tài)。我們用來進(jìn)行識別的語音在編碼前后都保持8kHz 的采樣頻率, 經(jīng)過預(yù)加重之后, 每10ms 提取一幀語音, 并加上25ms 的哈明窗。在經(jīng)過14階LPC 分析之后, 把得到的LPC 系數(shù)轉(zhuǎn)換成12個LPC 倒譜系數(shù)。另外, 采用26個臨界帶, 得到12維的臨界帶倒譜

21、系數(shù)。兩組系數(shù)和它們的1、2階增量分別組成36維的矢量, 被用來作為識別系統(tǒng)的特征矢量, 并且比較其識別結(jié)果。在非特定人連接詞語音識別系統(tǒng)中, 我們用八個說話人(四男四女的各521句自然語音作為訓(xùn)練數(shù)據(jù), 這些話中包含了漢語全部音節(jié)。測試數(shù)據(jù)包括55句話(男聲 , 每句都是150個由09的數(shù)字組成。在特定人連續(xù)語音識別系統(tǒng)中, 我們分別對兩男兩女四個說話人進(jìn)行了實驗。每一個特定說話人的521句自然語音被用作訓(xùn)練數(shù)據(jù), 其中包含漢語全部音節(jié), 測試數(shù)據(jù)是同樣一個說話人講的100句話, 同樣是自然語音。所有語音數(shù)據(jù)都來自國家/8630識別用語音數(shù)據(jù)庫7。我們所關(guān)心的三種低速率語音編碼算法, 都是

22、以22. 5ms 為一幀。并且在實驗中, 我們改進(jìn)了LPC -10編碼的算法, 使用LSP 矢量代替原有的LPC 參數(shù), 并采用了矢量量化。每幀LSP 矢量的量化仍然使用了34bit, 效t LPC 參數(shù)的標(biāo)量量化。多帶激勵算法采用了本科研組的2. 4kbps I MBE 算法, 算法中沒有LPC 分析。為了與低速率語音壓縮編碼算法進(jìn)行比較, 我們還對8kbps 的G. 729算法進(jìn)行了同樣的實驗, 觀察了它對語音識別系統(tǒng)的影響。在對編解碼后得到的語音進(jìn)行實驗時, 我們使用的語音識別系統(tǒng)仍然是用原始語音進(jìn)行訓(xùn)練的。4 實驗結(jié)果表1、表2給出了用編碼前、后的語音數(shù)據(jù)作為測試數(shù)據(jù)時各個不同語音識別

23、系統(tǒng)的音節(jié)識別率。對于所有的語音識別系統(tǒng), 三種低速率語音壓縮編碼算法都使系統(tǒng)識別效果明顯地惡化, 識別率下降18%30%左右; 與之形成對比的是G. 729算法對各個識別系統(tǒng)產(chǎn)生的影響是比較小的, 識別率的下降幅度都不超過10%。正像我們預(yù)計的那樣, 對于不同的語音識別系統(tǒng), 三種低速率語音編碼算法產(chǎn)生的影響各不相同, 并沒有哪一種算法明顯好于其它的算法。對于非特定人連接詞識別系統(tǒng), 沒有明顯的規(guī)律說明各個編碼算法的差異, 這可能與測試數(shù)據(jù)量較少有關(guān)系; 而對于特定人連續(xù)語音識別系統(tǒng), 語音編碼算法的特點(diǎn)卻在識別結(jié)果中得到了體現(xiàn)。表1 LPCC 語音識別系統(tǒng)識別結(jié)果識別率(% 非特定人連接詞

24、特定人連續(xù)語音女1女2男1男2平均原始語音62. 5965. 2559. 4462. 4754. 6260. 45LPC -1051. 9046. 2041. 2938. 1838. 3541. 01MELP 54. 8347. 9141. 7823. 7930. 6636. 04I MBE 59. 3135. 0825. 8427. 2326. 9828. 78G . 72961. 9758. 4650. 3353. 8047. 0252. 40表2 MFCC 語音識別系統(tǒng)識別結(jié)果識別率(% 非特定人連接詞特定人連續(xù)語音女1女2男1男2平均原始語音73. 1067. 3857. 8966.

25、3958. 3862. 51LPC -1058. 1036. 3030. 5832. 3029. 3532. 13MELP 42. 2451. 0242. 6023. 0628. 9536. 41I MBE 64. 8348. 3236. 7152. 8241. 6244. 87G . 72963. 4561. 4952. 6661. 8252. 5857. 14在三種低速率語音編碼算法中, LPC -10算法對語音的譜包絡(luò)描述所用的比特數(shù)最多, MELP 算法次之; 在頻帶的劃分方面, I MBE 算法分帶最為細(xì)致, 所用的比特數(shù)也最多, MELP 算法次之; 從自然度方面來看, I MBE

26、算法的聽覺質(zhì)量最佳。這樣的算法結(jié)構(gòu)對于不同結(jié)構(gòu)的語音識別系統(tǒng), 會得到不同的識別結(jié)果, 這正與我們實驗的結(jié)果形成了對照, 體現(xiàn)出各種算法對語音識別系統(tǒng)影響的差異。在使用LPC 倒譜系數(shù)作為特征矢量的識別系統(tǒng)中, 語音的譜包絡(luò)起著關(guān)鍵的作用, 因此, 經(jīng)過IMBE 算法編碼后的語音由于對譜包絡(luò)描述使用的比特數(shù)較少很難得到比較高的識別率, 算法結(jié)構(gòu)與識別系統(tǒng)結(jié)構(gòu)類似的MELP 算法和LPC -10算法的識別率則更高一些, 其中LPC -10算法略優(yōu)于MELP 算法。令我們感興趣的是, 在特定人語音識別系統(tǒng)中, MELP 算法對于女聲的識別要好于LPC -10算法, 而對于男聲的識別則差于LPC

27、-10算, #24# 計算機(jī)應(yīng)用研究2003年號能量主要都集中在低頻部分, 所以子帶信息對女聲所起的作用比男聲更大, 因此包含了子帶信息的MELP 算法對于女聲的識別效果要好于對男聲的識別, 而用更多比特量化L PC 系數(shù)的LP C -10算法對于男聲的識別就更好一些。特定人連續(xù)語音識別結(jié)果(使用LPCC 如圖1 所示。圖1 特定人連續(xù)語音識別結(jié)果(使用LPCC在使用臨界帶倒譜系數(shù)作為特征矢量的語音識別系統(tǒng)中, 子帶信息起到更大的作用, 因此IMBE 算法的識別效果有所提高, 幾乎在所有的識別系統(tǒng)中都是最好的。相對而言, MELP 算法還是在對女聲的識別效果上更好, 這是由于它采用了平均分帶的

28、方法, 對男聲和女聲的處理實際上有一定的差別。而I MBE 算法采用按照諧波分帶的方法, 就使得對男聲和女聲的處理可以收到比較接近的效果, 這也可以從實驗結(jié)果上看得出來。特定人連續(xù)語言識別結(jié)果(使用MFCC 如圖2 所示。圖2 特定人連續(xù)語音識別結(jié)果(使用MFCC5 進(jìn)一步的分析經(jīng)過編解碼處理后的語音信號, 可以通過不同方式進(jìn)入語音識別系統(tǒng)5, 6。實驗中我們所采用的是最簡單的一種方法, 即直接從解碼后的語音中提取語音識別所需的特征矢量, 然后進(jìn)行識別, 如圖3(a 所示。這樣的方法所獲得的識別率比較低, 經(jīng)常會達(dá)到令人無法忍受的程度。更好的方法是直接從原始語音中提取識別所需的特征矢量, 并將

29、其編碼后傳輸給識別系統(tǒng), 重建語音也可通過這些特征矢量來恢復(fù), 如圖3(b 所示。這樣做的效果, 對于語音識別而言大大提高了信道的利用率, 舍棄了在識別中不必用到的如激勵信號等信息, 但是這樣的損失使得接收端無法恢復(fù)出高質(zhì)量的合成語音, 在很多應(yīng)用場合下也是不能接受的。此外還有第三種方法, 就是直接從接收端得到的編碼語音數(shù)據(jù)中提取識別系統(tǒng)所需的特征參數(shù), 而不必經(jīng)過解碼, 如圖3(c 所示。這種做法需要針對編碼算法設(shè)計一種特定的特識別系統(tǒng)做一定的調(diào)整使其更適應(yīng)編碼語音的結(jié)構(gòu), 還能進(jìn)一步提高語音識別的準(zhǔn)確性, 獲得更滿意的結(jié)果。對于圖3(b 的方法我們也進(jìn)行了實驗, 并且與圖3(a 的方式進(jìn)

30、行了比較。在這一組實驗中, 我們將語音數(shù)據(jù)每隔10ms 分成一幀, 提取其LPC 系數(shù)并將其轉(zhuǎn)換成LPC 倒譜系數(shù)。因為對LPC 倒譜系數(shù)的編碼比特比較緊張, 我們在識別中不再加入它們的1、2階增量, 這對于識別效果略有影響, 但是效果要優(yōu)于對所有系數(shù)及其增量進(jìn)行量化的結(jié)果。在使用圖3(a 方法時, 我們的實驗方式與前面的實驗基本上沒有差別。在使用圖3(b 方法時, 在發(fā)送端提取LPC 倒譜參數(shù), 并將其進(jìn)行矢量量化。我們對每幀的12個LPCC 倒譜參數(shù)進(jìn)行分裂矢量量化, 共分為3個4維的矢量, 每個矢量進(jìn)行8bit 量化, 每一幀共使用24bit, 編碼速率為2. 4kbps 。圖3 遠(yuǎn)程語

31、音識別系統(tǒng)結(jié)構(gòu)圖這一速率與我們使用圖3(a 方法中各個編碼器的速率是完全相同的。我們對兩男兩女四個說話人進(jìn)行了特定人連續(xù)語音識別的實驗, 兩種不同編碼方式得到的語音識別效果比較如表3所示。圖4給出了不同編碼方式語音識別比較圖。表3 不同編碼方式的識別比較識別率(%圖4 不同編碼方式的語音識別比較綜合幾個實驗的結(jié)果我們可以看到, 使用不同的特, (28頁#25#第9期程強(qiáng)等:低速率語音壓縮編碼對語音識別系統(tǒng)的影響月有一個明顯的增加, 這是由于資費(fèi)在2月初調(diào)整的結(jié) 果。4 結(jié)論通過我們對163, 169和2163業(yè)務(wù)的預(yù)報結(jié)果來看,在新的一年里業(yè)務(wù)都比去年同期有不同程度的增長。尤其是2163業(yè)務(wù)

32、, 由于它本身快速、便宜等優(yōu)勢, 更是有明顯的增長趨勢, 大約為去年同期的2倍。為此, 為了滿足業(yè)務(wù)增長, 容量也應(yīng)該作出相應(yīng)的調(diào)整, 進(jìn)行擴(kuò)容, 為企業(yè)決策提供定量分析的依據(jù)。參考文獻(xiàn):1W Leland, et al. On the Sel-f similar Nature of Ethernet Traffic(Extended Version J.IEEE/ACM Transactions on Network -ing, 1994, 2(1 :1-15.2P Jelenlnovic, et al. The Effect of Multiple Time Scales and Sube

33、xponentiality i n MPEG Video Streams on Queuing Behavior J. IEEE Journal on Selected Area of Com munications, 1997, 4(15 :301-317.3J K Liu, Y T Shu, L F Zhang, et al. Traffic Modeling Based on FARIMA ModelsJ.IEEE CCECE Piscataway, NJ USA, 1999, 162-167.4P Brockwell, R Davis. Time Series:Theory and M

34、ethodsC. 2nd ed. New York, Spring Verlag, 1991.5G Box, G Jenkins. T i me Series:Forecasting and ControlZ. Re -vised edn, San Francisco:Holden -day, 1976.作者簡介:薄今綱(1964- , 男, 教授級高工, 博士, 主要研究方向為計算機(jī)網(wǎng)絡(luò)、移動通訊業(yè)務(wù)管理; 劉嘉火昆(1943- , 男, 教授, 主要研究方向為隨機(jī)過程理論及應(yīng)用; 金志剛(1972- , 男, 副教授, 博士, 主要研究方向為計算機(jī)網(wǎng)絡(luò); 余暉(1969- , 男, 高工,

35、碩士, 主要研究方向為計算機(jī)網(wǎng)絡(luò)。(上接第25頁 2. 4kbps 的速率下, 得到的語音識別結(jié)果存在著巨大的差異。使用LPC 算法的系統(tǒng), 適合用LPC 倒譜矢量作為語音識別的特征矢量; 而使用I MBE 算法的系統(tǒng), 適合用臨界帶倒譜矢量作為語音識別的特征矢量。在實際的應(yīng)用環(huán)境下, 我們可以根據(jù)具體情況選擇適當(dāng)?shù)拇钆鋪硖岣呦到y(tǒng)的性能。如果語音識別算法已經(jīng)確定, 我們就應(yīng)該根據(jù)所采用的特征矢量的特點(diǎn)來選擇適當(dāng)?shù)恼Z音編碼算法; 如果對語音編碼的算法有特殊的要求時, 我們就需要調(diào)整語音識別系統(tǒng)的特征矢量來獲得更好的識別效果。特別當(dāng)應(yīng)用環(huán)境比較特殊時, 例如不需要恢復(fù)語音信號或者對重建語音的質(zhì)量

36、要求不高, 就可以采用直接在發(fā)送端提取語音識別參數(shù)的方法, 使識別系統(tǒng)的效率達(dá)到最大。參考文獻(xiàn):1S Euler, J Zinke 1The Influence of Speech Coding Algori thms on Automatic Speech Recognition C. Proc. Australia, Vol. 1,1994. 621-624.2B T Lilly, K K Pali wal 1Effect of Speech Coders on SpeechRecognition Performance C.Proc. ICSLP, Philadelphia, PA, Vol. 4, 1996. 2344-2347.3S Dufour, C Glorion, P Lockwood 1Evaluation of Roo-t normalizedRron-t end (RN -LFCC for Speech Recogni tion in Wireless GS M Net work EnvironmentsC. Proc. ICASSP, Vol. 2, 1996. 77-80. 4Carmen Pel ez -Moreno, Ascensi n Gallardo -

人人文庫> 全部分類> 教育資料 > 課件下載

溫馨提示

1. 本站所有資源如無特殊說明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽，若沒有圖紙預(yù)覽就沒有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 人人文庫網(wǎng)僅提供信息存儲空間，僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理，對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對任何下載內(nèi)容負(fù)責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容，請與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

低速率語音壓縮編碼對語音識別系統(tǒng)的影響

文檔簡介

溫馨提示

最新文檔

評論

低速率語音壓縮編碼對語音識別系統(tǒng)的影響

文檔簡介

溫馨提示

最新文檔

評論

相關(guān)文檔