低速聲碼器的發(fā)展概況_第1頁(yè)
低速聲碼器的發(fā)展概況_第2頁(yè)
低速聲碼器的發(fā)展概況_第3頁(yè)
低速聲碼器的發(fā)展概況_第4頁(yè)
低速聲碼器的發(fā)展概況_第5頁(yè)
已閱讀5頁(yè),還剩8頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、精選優(yōu)質(zhì)文檔-傾情為你奉上聲碼器技術(shù)的發(fā)展學(xué)院:班級(jí):姓名:學(xué)號(hào):指導(dǎo)教師:摘 要語(yǔ)音編解碼技術(shù)的迅速發(fā)展,使中低速率語(yǔ)音編碼技術(shù)廣泛應(yīng)用于現(xiàn)代移動(dòng)通信。聲碼器特別適用于以低比特率為首要條件的通信場(chǎng)合, 較典型的應(yīng)用包括標(biāo)準(zhǔn)電話信道上的保密語(yǔ)言傳輸和小型化數(shù)字存貯器中的語(yǔ)言存貯。在某些長(zhǎng)距離無(wú)線通信中, 人們寧可使用聲碼器而不愿意用目前音質(zhì)低劣的模擬傳輸系統(tǒng)。目前, 質(zhì)量令人滿意的實(shí)用語(yǔ)言編碼器的比特率下限為2400bps,這個(gè)比特率是由線性預(yù)測(cè)編碼和通道話音編碼獲得的。現(xiàn)在正在進(jìn)行大量的研究工作, 其目的是要獲得低于2400bps的比特率而又要使語(yǔ)言質(zhì)量不下降或下降很少。這個(gè)研究課題是一個(gè)既

2、基本又具有實(shí)用價(jià)值的課題。聲碼器正向著速率更低、語(yǔ)音質(zhì)量更好,延時(shí)更短,算法更復(fù)雜,抗干擾能力更強(qiáng),帶寬要求更小的方向發(fā)展。本文主要介紹國(guó)外聲碼器的發(fā)展概況、若干種低速聲碼器的技術(shù)原理和結(jié)果, 并推測(cè)未來(lái)的工作。關(guān)鍵字:聲碼器發(fā)展、線性預(yù)測(cè)編碼、低比特率一、引言自首次成功地嘗試建造一臺(tái)能夠模擬人聲的機(jī)器以來(lái),已經(jīng)大約有兩百年了。兩百年中中人們?cè)ㄔ炝烁鞣N各樣的這類機(jī)器, 成功的情況也各不相同, 年輕時(shí)的貝爾和他的兄弟就曾致力于建造一臺(tái)這樣的機(jī)器, 但取得實(shí)質(zhì)性的進(jìn)展卻是電子系統(tǒng)問(wèn)世之后的事。1939年紐約世界博覽會(huì)上,一項(xiàng)叫做“ 語(yǔ)言合成器”(Voder)的發(fā)明引起了轟動(dòng)。這個(gè)語(yǔ)言合成器實(shí)質(zhì)上

3、是一臺(tái)電子器件, 它通過(guò)完全的電子方式分析人類的語(yǔ)言, 然后又把它綜合出來(lái)。該系統(tǒng)后來(lái)稱之為“聲碼器”(話音編碼器),聲碼器標(biāo)志了語(yǔ)言編碼新紀(jì)元的開(kāi)始, 聲碼器這個(gè)名詞也一直沿用至今而作為一大類系統(tǒng)的屬名。近年來(lái), 聲碼器的研究變得日益重要了, 這在很大程度上取決于數(shù)字化技術(shù)和語(yǔ)言編碼的大規(guī)模應(yīng)用。語(yǔ)言數(shù)字化有兩種根本不同的途徑, 一種稱之為波形編碼, 另一種稱之為參數(shù)編碼。實(shí)現(xiàn)參數(shù)編碼的硬件就是聲碼器。目前, 降低比特率是一個(gè)有重大意義的研究課題,為降低聲碼器的比特率而采取的所有方式都是利用了如下三個(gè)基本思想中的一個(gè)、兩個(gè)或三個(gè)。1)時(shí)間多余度壓縮:由于在穩(wěn)態(tài)條件下, 幀與幀之間的語(yǔ)言特性相

4、同, 所以利用幀重復(fù)或其它的差分編碼技術(shù)便可大大地降低比特率。2)參數(shù)組壓縮:只要新參數(shù)組對(duì)于量化并不比原參數(shù)組更敏感, 則采用比較節(jié)省的參數(shù)組便能壓縮比特率。另外, 采用比較好的模型如共振峰模型, 或應(yīng)用某些變換Karhunen-Loeve變換, 可以獲得較少的參數(shù)組。3)改進(jìn)的量化技術(shù):在以低比特率語(yǔ)言傳輸為目的而廣泛開(kāi)展語(yǔ)言分析技術(shù)研究的同時(shí), 量化問(wèn)題也受到了一定程度的重視。量化問(wèn)題的研究大體上局限于單獨(dú)地量化每個(gè)參數(shù)的技術(shù)?;镜牧炕碚?、模式匹配的若干研究以及最近對(duì)于LPC矢量量化的研究都證明參數(shù)矢量量化具有奇跡般地降低比特率的潛力?,F(xiàn)在國(guó)外的低速聲碼器研究工作非?;钴S, 美國(guó)、西

5、歐和日本的許多公司、研究所,還有蘇聯(lián)都在進(jìn)行這方面探索, 有的已獲得令人鼓舞的計(jì)算機(jī)模擬結(jié)果, 有的已制成實(shí)驗(yàn)室樣機(jī)。當(dāng)然, 在研究中不可避免地遇到了這樣或那樣不易克服的困難, 距實(shí)際應(yīng)用還有一定的差距。二、低速聲碼器的發(fā)展概況在低速聲碼器研究中, 共振峰聲碼器由于其比特率低曾一度備受青睞。共振峰聲碼器的概念最早是由J.L.Flanagan在一九五六年提出來(lái)的, 并作成試驗(yàn)性質(zhì)的共振峰聲碼器樣機(jī), 效果雖然不太令人滿意, 但卻證明其前途是廣闊的。五十年代末和六十年代初, 英國(guó)、美國(guó)和日本的許多公司相繼開(kāi)始研究共振峰聲碼器, 其研究和開(kāi)發(fā)工作絕大部分都是在政府資助下以軍用為目的進(jìn)行的。如美國(guó)通用

6、電氣公司在一九六一年研制出共振峰聲碼器模型, 其比特率為1350bps, 單音清晰度達(dá)90%, 另外如美國(guó)的Melpar、Philo。通用動(dòng)力公司及英國(guó)的信號(hào)研究與開(kāi)發(fā)中心等也曾在六十年代初研制成速率為1000bps以下的共振峰聲碼器, 英國(guó)航空部通信研究所研制的800bps共振峰聲碼器的清晰度和可懂度都比較好。但是共振峰聲碼器的研究沒(méi)有獲得如通道聲碼器那樣的成功, 因此它作為實(shí)驗(yàn)室里的古董多于作為實(shí)際的通信裝置。七十年代初, 大家都公認(rèn)共振峰聲碼器概念由于其低比特率編碼而頗具吸引力, 但也有它的實(shí)際困難。除有通道聲碼器的基音跟蹤和有無(wú)聲判決間題之外, 共振峰聲碼器還有恰當(dāng)?shù)墓舱穹甯?、共振?/p>

7、識(shí)別、靜止期后的共振峰跟蹤搜索及綜合, 特別是輔音產(chǎn)生的綜合等題, 這樣就使得聲碼器的潛在用戶轉(zhuǎn)而對(duì)這種低比特率的話音編碼方法持懷疑態(tài)度。Moye可作為這種懷疑者的例子, 他說(shuō):“雖然這種說(shuō)法肯定要受到挑戰(zhàn), 但人們卻可以說(shuō)從實(shí)用數(shù)字語(yǔ)言傳輸觀點(diǎn)來(lái)看, 共振峰分析行不通?!?其它人如日本的電子和通信工程研究所的Y.Kato等也表明了類似的觀點(diǎn)。七十年代初還報(bào)道有另外三種比較有代表性的極低速話音數(shù)字化裝置, 碰巧它們的速率均為600bps。一是Flanagan在1970年實(shí)驗(yàn)論證的一種以600bps速率工作的共振峰跟蹤聲碼器, 他用唱片表演了他的成果。由于試驗(yàn)句子包括了所有的元音、雙元音和流音,

8、所以這是600bps 話音數(shù)字化裝置的一個(gè)非常有限的試驗(yàn)論證。雖然如此, 但其綜合語(yǔ)言卻非常清晰, 表明共振峰聲碼法在話音分析綜合方面具有潛力。第二種600bps的話音數(shù)字化裝置則是由空軍劍橋研究實(shí)驗(yàn)室Caldwell Smith等研制成的, 該裝置采用模式匹配技術(shù)把通道聲碼器的輸出分類, 系廣泛的研究和開(kāi)發(fā)工作的結(jié)果。其單一講話人診斷韻律試驗(yàn)(DRT)的清晰度得分92% , 這對(duì)于600bps的話音編碼系統(tǒng)可謂是一個(gè)非常高的得分。第三種600bps的系統(tǒng)則是Melpar公司所研制共振峰聲碼器的一種修正型。一九七六年底, 美國(guó)海軍研究實(shí)驗(yàn)室G.S.Kang和D.C.Coulter等研制成了一種

9、線性預(yù)測(cè)共振峰聲碼器。它可以600bps的速率傳輸語(yǔ)言, 這個(gè)數(shù)據(jù)率還不到原始語(yǔ)言脈碼調(diào)制傳輸率的百分之一。這項(xiàng)研究工作是在迫切需要極低速話音數(shù)字化裝置以滿足當(dāng)時(shí)海軍某些話音通信需要的前提進(jìn)行的。600bps系統(tǒng)的綜合語(yǔ)言較原始語(yǔ)言有某些損失, 但其清晰度之高卻足以允許在某些特定的軍用通信場(chǎng)合下使用該系統(tǒng)。法國(guó)也進(jìn)行了低速音碼器的研究。一九七五年法國(guó)的Thomson-CSF公司電信部當(dāng)年的Thomson-CSF評(píng)論第七卷第四期上報(bào)道, 他們研制成一種叫做“Ciphon”的聲碼器, 即峰線聲碼器。這種聲碼器與其說(shuō)是試圖模擬聲源的生理特性, 還不如說(shuō)是致力于模擬人耳并辨別“ 清晰的聲學(xué)特性” 。它

10、有兩個(gè)主要特性:一是能以數(shù)字形式傳輸頻帶覆蓋為3003400Hz的電話信號(hào), 且恢復(fù)話音質(zhì)量好,懂度也較高。二是根據(jù)編碼的復(fù)雜性,可獲得兩種速率:處理時(shí)延不超過(guò)100ms時(shí)為1200bps;處理時(shí)延不超過(guò)300ms時(shí)為600bps。盡管和其它類型聲碼器相比原理不大一樣, 但峰線聲碼器在技術(shù)上卻可與它們媲美。與標(biāo)準(zhǔn)的通道聲碼器相比, 它可以低得多的速率提供優(yōu)質(zhì)語(yǔ)言, 與共振峰聲碼器相比, 它運(yùn)算簡(jiǎn)單。這樣, 從實(shí)用角度出發(fā), 可以考慮實(shí)時(shí)工作設(shè)備的實(shí)現(xiàn)。峰線聲碼器可用于無(wú)線(尤其是HF)和有線通信。借助于相應(yīng)的調(diào)制解調(diào)器, 便可在交換網(wǎng)電話線路上作全雙工通信。一九八二年五月在巴黎IEEE的ASS

11、P國(guó)標(biāo)年會(huì)上, 西德赫茲通信技術(shù)研究所A.Lacroix和B.Makel提出了一種比特率極低的聲碼器方案。該聲碼器以標(biāo)準(zhǔn)LPC聲碼器為基礎(chǔ), 由45節(jié)變長(zhǎng)管組成聲管模型, 采用帶附加近似的自相關(guān)分析法計(jì)算變長(zhǎng)聲管模型的參數(shù), 取得了極好的效果。非正式收聽(tīng)測(cè)試證明,1000bps的聲碼語(yǔ)言質(zhì)量?jī)汉跖c標(biāo)準(zhǔn)的2400bpsLPC聲碼器的話音相同, 但這個(gè)結(jié)果僅限于某個(gè)人講話或某個(gè)句子。一九八一年, 美國(guó)麻省理工學(xué)院Lincoln實(shí)驗(yàn)室R.J.Mcaulay提出了一種采用自適應(yīng)子帶振峰分析的低速聲碼器。該分析技術(shù)通過(guò)將二階頻譜與已測(cè)得頻譜的單個(gè)子帶適配來(lái)避免共振峰跟蹤所固有的某些問(wèn)題, 綜合采用高質(zhì)量

12、的通道聲碼器進(jìn)行, 所以調(diào)制器的增益由有聲語(yǔ)言的共振峰分析包絡(luò)抽樣或無(wú)聲語(yǔ)言的低階LPC包絡(luò)抽樣來(lái)調(diào)整。根據(jù)固定帶寬準(zhǔn)則, 只傳輸三個(gè)諧振段的每個(gè)段的頻率和增益, 再加上對(duì)數(shù)編碼和幀充填法, 便獲得了800bps的可懂聲碼器語(yǔ)言。更仔細(xì)地分配6個(gè)傳輸參數(shù)的比特?cái)?shù), 還能獲得更低的比特率。例如Flanagan就建議可用4比特編碼第一和第二共振峰, 而第三共振峰只需3比特。他還覺(jué)得3比特足夠編碼共振峰幅度, 因此, 基音和有無(wú)聲判決用6比特, 幀充填控制用3比特, 則用28比特編碼有聲語(yǔ)言譜就應(yīng)當(dāng)是能辦到的, 在幀速率為25Hz時(shí)就相當(dāng)于只有700bps的速率。如果采用更加先進(jìn)的幀充填插入算法,

13、則可以獲得更低的速率。其它如一九八一年TI公司(得克薩斯儀器公司)的 Knn - Shan Lin 和 Ying L.Tsui經(jīng)過(guò)對(duì)LPC反射系數(shù)特性的仔細(xì)研究, 揭示了利用高效參數(shù)編碼及最佳化幀重復(fù)進(jìn)一步壓縮數(shù)據(jù)率的可能性。他們?cè)谔接懼惺褂昧死脤?duì)數(shù)面積比距離量度的經(jīng)改進(jìn)的成本函數(shù)及能量加權(quán)函數(shù),并在保持頻譜失真不超出預(yù)定門限值灼同時(shí)利用動(dòng)態(tài)規(guī)劃法使幀長(zhǎng)度最大。利用TI公司的TMS 5100或TMS 5200實(shí)施方案, 便可以800850bps的速率獲得高質(zhì)量的語(yǔ)言。再如一九八年TRW公司國(guó)防和空間系統(tǒng)研究組的 T.E.Carter、D. M. Dlugos及D. C. Le Doux等研制

14、成了一種800bps的實(shí)時(shí)話音編碼系統(tǒng)。該系統(tǒng)由TRW公司生產(chǎn)的微程控話音處理器(采用11K字存貯器)實(shí)現(xiàn),DRT和其它的測(cè)試結(jié)果表明其可懂度和清晰度都令人滿意, 完全可以用于話音通信。這種低數(shù)據(jù)率是通過(guò)一種高編碼2400bps的LPC參數(shù)的算法獲得的, 這種新的算法運(yùn)用了其它類型通信系統(tǒng)所常見(jiàn)的若干數(shù)據(jù)壓縮方案以獲取所需的數(shù)據(jù)率, 這些方案包括自適應(yīng)DPCM、K.L.變換、統(tǒng)計(jì)最住量化和動(dòng)態(tài)比特分配等。其未來(lái)的工作應(yīng)是進(jìn)一步改進(jìn)算法, 提高性能, 其最大的潛力可能在于用各種比特分配方案進(jìn)行試驗(yàn)。由于要實(shí)施系統(tǒng),對(duì)基本2400bpsLPC算法也還須進(jìn)行若干改進(jìn)。這些都會(huì)直接反映到800bps語(yǔ)

15、言的質(zhì)量之中。有一種方法, 剛提出來(lái)的時(shí)候叫做“ 模式匹配聲碼器” , 后來(lái)又稱作“ 矢量量化”, 就是在譜形參數(shù)組合的全部可能范圍內(nèi)僅僅選擇極小部分。在通道聲碼器、LPC聲碼器和共振峰聲碼器中, 譜形參數(shù)所確定的多維空間占據(jù)極不均勻, 大部分空間根本未利用。根據(jù)某種恰當(dāng)?shù)臏?zhǔn)則, 選擇最接近有限數(shù)量的存貯譜形的目前輸入,便可能用大約每幀 10 12 比特而不是每幀40比特來(lái)較好地確定譜形 。通道聲碼器和LPC聲碼器的這種類型的系統(tǒng)已在實(shí)驗(yàn)室里證明可采用400 800bps的數(shù)字速率。在七十年代后期, 以 A.H.Gray Jr.、R.M.Gray和J.D.Markel為首的一些電信研究專家在高

16、效編碼LPC參數(shù)方面作出了重大突破。在這以前, 系數(shù)都被變換為其它的“ 空間” 以去掉其相關(guān)性, 然后分別量化。這里說(shuō)所的重大突破就是將表征特定聲音的頻譜緊緊地集為一組來(lái)實(shí)現(xiàn), 以便用較少的頻譜來(lái)表征一般人發(fā)那個(gè)聲音的所有可能方式。由于在任何口語(yǔ)中都只有有限數(shù)量的聲音或音素, 所以可用有限數(shù)量的頻譜來(lái)表征語(yǔ)言中的所有聲音。他們發(fā)現(xiàn), 用大約1000種不同頻譜或等效的1000個(gè)LPC系數(shù)矢量就能構(gòu)成所有成年講話人的一組有代表性的頻譜。這些頻譜應(yīng)當(dāng)是什么呢?確定的方法之一就是利用實(shí)時(shí)數(shù)據(jù), 把它們分成若干組, 然后把這些組的重心作為有代表意義的頻譜。如果有足夠多的組, 則每一組代表一個(gè)單一的性質(zhì)不

17、同的聲音。通常為易于計(jì)算起見(jiàn), 人們從幾何形狀出發(fā), 找出最好的兩個(gè)頻譜, 然后最好的4個(gè), 然后最好的8個(gè)等等, 所得的重心稱為1比特, 2 比特, 3比特等的碼書。在利用矢量量化進(jìn)行LPC分析過(guò)程中, 首先實(shí)施一般的LPC分析, 然后將輸入語(yǔ)言的LPC矢量與碼書中的表值進(jìn)行比較, 頻譜距離量度規(guī)定了輸入LPC矢量和碼書表值之間的差值, 選擇與原始矢量頻譜距離最小的表值作為輸出矢量。若采用10系數(shù)和10比特的碼書的分析, 這就意味著可用10 比特來(lái)量化頻譜, 平均每個(gè)系數(shù)僅1比特。以矢量量化技術(shù)為主、再結(jié)合其它的高效編碼技術(shù)研制成低速聲碼器的例子很多, 這一研究工作也非常活躍。如IEEE的會(huì)

18、員和高級(jí)研究員 D. Y. Wong、B. H.Juang和A.H.Gray.Jr等在在一九八二年研制成一種800bps的矢量量化線性預(yù)測(cè)聲碼器。他們應(yīng)用最新形成的LPC矢量量化理論使LPC系數(shù)編碼的比特率下降到原來(lái)的四分之一, 同時(shí)應(yīng)用分支搜索技術(shù)分離有聲/ 無(wú)聲碼書獲得了較好的算法效率。此外, 他們還利用差分編碼技術(shù)將基音和增益參數(shù)的比特率降低了三分之一。正式的主觀評(píng)價(jià)表明, D.Y. Wong等研制成的800bps聲碼器保留了LPC系統(tǒng)的絕大部分可懂度, 在各種傳輸誤碼和聲學(xué)環(huán)境下都顯得非常健全實(shí)用。非正式的收聽(tīng)比較表明其音質(zhì)是令人滿意的, 有時(shí)還非常接近2400bps的LPC語(yǔ)言。該系

19、統(tǒng)的計(jì)算成本相當(dāng)甚至還低于2400bps的LPC-10的成本, 并保證與LPC -10相兼容, 這是因?yàn)?00bps聲碼器的設(shè)計(jì)僅在量化和編碼算法上不同。若壓縮或消除聲碼化參數(shù)過(guò)程中的幀間多余度, 還可使總比特率減少到400bps以下而保持可接受的清晰度和可懂度。其技術(shù)包括壓縮無(wú)聲碼書、幀重復(fù)編碼和新開(kāi)發(fā)的矩陣編碼等。一九八三年,D.Y.wong (語(yǔ)言技術(shù)實(shí)驗(yàn)室)、B.H.Juang(貝爾實(shí)驗(yàn)室) 再度和加里福尼亞大學(xué)的D.Y.Cheng合作研究幀預(yù)測(cè)矢量量化,將編碼LPC濾波器系數(shù)的比特率壓縮到 250bps 以下, 同時(shí)還利用新的LPC壓縮技術(shù)矩陣量化進(jìn)一步將LPC濾波器系數(shù)壓縮到150

20、bps以下。采用DRT進(jìn)行主觀評(píng)價(jià)證明他們所提出的技術(shù)對(duì)于以400bps到200bps之間的比特率傳輸可懂語(yǔ)言是完全可行的, 目前他們正繼續(xù)其研究工作, 改進(jìn)矩陣量化技術(shù)及時(shí)標(biāo)、基音和增益參數(shù)的編碼算法, 提高系統(tǒng)質(zhì)量和健全實(shí)用性, 使計(jì)算和存貯要求最佳化, 以利實(shí)時(shí)實(shí)現(xiàn)和完全實(shí)現(xiàn)以 200400bps 之間的速率工作的語(yǔ)言編碼器。一九八三年美國(guó)麻省理工學(xué)院林肯實(shí)驗(yàn)室的D.B.Paul 提出了一種采用感覺(jué)距離量度的自適應(yīng)矢量量化算法。這種自適應(yīng)是通過(guò)連續(xù)改變樣板組使之與目前的講話人和狀況相適應(yīng)來(lái)實(shí)現(xiàn)的。距離量度逼近聽(tīng)覺(jué)感覺(jué)的目的是使樣板應(yīng)用最佳化。同時(shí), 他還設(shè)計(jì)出了不需要附加信道帶寬的自適應(yīng)

21、規(guī)程。應(yīng)系統(tǒng)800bps信道上獲得了86.8%的可懂度得分( DRT試驗(yàn)),再把這種系統(tǒng)與頻譜幀充填技術(shù)相結(jié)合, 便獲得數(shù)據(jù)率低到500bps而可懂度僅微微有些下降的聲碼器系統(tǒng)。這里所采用的系統(tǒng)是含Gold基音預(yù)估器的頻譜包絡(luò)預(yù)測(cè)聲碼器。這些系統(tǒng)證明, 矢量量化聲碼器或叫樣板聲碼器, 雖然其計(jì)算的復(fù)雜程度為標(biāo)量量化聲碼器的二倍甚至三倍, 但在極低數(shù)據(jù)率的信道上使用卻不愧是一種非常實(shí)用的算法。矢量量化技術(shù)己被人們公認(rèn)為是信號(hào)編碼的一種高效率的新方法。上面的例子及最近的研究工作都已證明, 把矢量量化概念用于LPC編碼技術(shù),能研制出極低比特速率的語(yǔ)言編碼器。一九八三年國(guó)立臺(tái)灣大學(xué)電氣工程系的Shia

22、nn-ning Jean和Lin-shan Lee提出了一種進(jìn)行自相關(guān)預(yù)估的限幅法, 從而簡(jiǎn)化了LPC計(jì)算, 提高了LPC實(shí)際應(yīng)用的可行性。這種簡(jiǎn)化LPC的概念是由預(yù)先白化語(yǔ)言信號(hào)提取基音過(guò)程中的限幅技術(shù)發(fā)展而來(lái)的。將這種簡(jiǎn)化LPC算法與失量量化相結(jié)合就容易獲得極低的比特率。在此基礎(chǔ)他們又研究出了大量去掉幀間多分度而又毫不降低語(yǔ)言質(zhì)量的高效編碼LPC矢量的新算法, 再加上頗為吸引人的幀重復(fù)技術(shù), 實(shí)現(xiàn)了一種采用簡(jiǎn)化算法的高效低比特率編碼器。模擬結(jié)果表明, 要獲得極好的語(yǔ)言質(zhì)量, 聲道信息平均有聲語(yǔ)言僅需6.87 比特/幀,無(wú)聲語(yǔ)言僅需3.62比特/幀, 就很容易獲得大約550600比特/ 秒的

23、比特率, 而且計(jì)算量大大減少。因此, 這樣的結(jié)果對(duì)語(yǔ)言數(shù)字化應(yīng)用和未來(lái)的語(yǔ)言通信網(wǎng)將非常有用。雖然尚未證實(shí), 但在原理上似乎還找不到什么理由能說(shuō)明為什么好的共振峰聲碼器就不應(yīng)當(dāng)按模式匹配方式編碼。英國(guó)聯(lián)合語(yǔ)言研究中心的J.N.Holrnes認(rèn)為, 模式匹配共振峰聲碼器完全應(yīng)當(dāng)以比I P C 型和通道型低得多的數(shù)據(jù)率產(chǎn)生出比它們高得多的語(yǔ)言質(zhì)量, 這是因?yàn)槟J狡ヅ涔舱穹迓暣a器與語(yǔ)言產(chǎn)生的關(guān)系更為密切。就能夠大量節(jié)省數(shù)據(jù)率、實(shí)現(xiàn)低比特率語(yǔ)言傳輸來(lái)說(shuō), 潛力最大的就是所謂的“語(yǔ)音聲器碼”。一九七七年, 美國(guó)BBN公司J.Makhoul、R.Schwartz、S.Roucos及C.Cook等在國(guó)防部高

24、級(jí)研究計(jì)劃局的資助下, 開(kāi)始對(duì)這種低速型聲碼器進(jìn)行以軍用為目的的研究。這種類型聲碼器的一個(gè)共同特點(diǎn)是: 輸入語(yǔ)言必須按語(yǔ)音單元編碼, 語(yǔ)音符號(hào)序列帶有時(shí)標(biāo)和基頻信息, 以使接收到的語(yǔ)言具有同原始語(yǔ)言一樣的音調(diào)和時(shí)標(biāo)。然而, 綜合語(yǔ)言的頻譜包絡(luò)是由少量的模式序列產(chǎn)生的,或是按產(chǎn)生這樣序列的規(guī)定由語(yǔ)言編碼數(shù)據(jù)產(chǎn)生的。這種類型的聲碼器所要求的傳輸容量?jī)H為100200bps到目前為止,所作的最好試驗(yàn)仍表明分析和綜合都還存在著一定的困難。有各式各樣的方法可以把語(yǔ)言符號(hào)綜合成語(yǔ)言, 但要求這些語(yǔ)丟符號(hào)帶有某種基音和時(shí)標(biāo)。這些方法中的最好者已能給出雖然自然度稍差但可懂度卻很高的綜合語(yǔ)言, 當(dāng)然, 這種綜合語(yǔ)

25、言還不能突出任何個(gè)別講話人的語(yǔ)言特點(diǎn)。然而, 語(yǔ)音聲碼器更為嚴(yán)重的困難還在于十分可靠地自動(dòng)識(shí)別不同講話人可能產(chǎn)生出的大量不同語(yǔ)言的語(yǔ)音內(nèi)容??磥?lái)要解決這個(gè)問(wèn)題還需要一種能夠“調(diào)諧”到各特定人語(yǔ)言特性的方法, 只不過(guò)這是若干年以后的事了。美國(guó)E系統(tǒng)公司J.W.Whelan認(rèn)為,低速聲碼器的速率不限相當(dāng)于50bps的音素錄制速度。它以英語(yǔ)的42個(gè)音素為基礎(chǔ), 要求在6個(gè)比特之內(nèi)被極好地識(shí)別,最大講話率約為每秒10個(gè)音素。最新研究表明, 利用現(xiàn)存技術(shù)制并以每秒75比特過(guò)率工作既音素聲碼器可以獲得能夠接受的話音質(zhì)量, 但叫起來(lái)機(jī)械聲非常明顯, 講話人識(shí)別也差, 所以在實(shí)施l00bps速率以下的通信之前

26、必須提高該聲碼器的質(zhì)量。低速率語(yǔ)言傳輸具有重大的商用價(jià)值, 這是毫無(wú)疑問(wèn)的。對(duì)于噪聲環(huán)境下的通信,速率低就意味著通-斷信號(hào)長(zhǎng),可獲得較高的比特可靠性而速率低, 功耗也就低,因此可使非法竊收這種傳輸變得困難, 有利于軍用保密通信。再?gòu)纳逃媒嵌瓤? 低速率語(yǔ)言傳輸對(duì)于象話音郵件這樣的應(yīng)用而言, 則大大降低了它的存貯要求。隨著大規(guī)模和超大規(guī)模集成電路的迅速發(fā)展, 人們研究出了各式各樣的低速聲碼器算法。若把以前的情況歸結(jié)為算法研究推動(dòng)硬件技術(shù)的提高, 而今天則是硬件技術(shù)的提高推動(dòng)著算法研究。三、幾種低速聲碼器技術(shù)的原理和結(jié)果1977年、1980年和1982年,Makhoul,SamPei和A.Laor

27、oix、B.Ma一kel等先后提出了一種本質(zhì)相同的比特率極低的聲碼器方案。該方案以標(biāo)準(zhǔn)LPC聲碼器為基礎(chǔ), 用串聯(lián)不同橫截面積的均勻無(wú)損聲管模寫聲道的不規(guī)則形狀, 而每個(gè)聲管本身又由多級(jí)格狀濾波器中的相應(yīng)級(jí)來(lái)進(jìn)行電氣模擬。當(dāng)聲波穿過(guò)兩個(gè)相鄰聲管聯(lián)接處時(shí), 一部分便作為阻抗失配結(jié)果被反射回去, 反射的數(shù)量由聯(lián)接處的反射系數(shù)確定。格狀濾波器的系數(shù), 即部分自相關(guān)系數(shù), 實(shí)質(zhì)上就是聲道的反射系數(shù), 可由語(yǔ)言抽樣或由直接的LPC系數(shù)計(jì)算出。試驗(yàn)表明, 每個(gè)參數(shù)都采用最佳字長(zhǎng), 則可用49比特來(lái)表征一個(gè)幀。由于綜合器必須每秒鐘校正40次, 所以數(shù)據(jù)率約為每秒2000比特。再通過(guò)消除靜止期及重復(fù)參數(shù), 數(shù)

28、據(jù)率可降低到每秒120014 00比特。最新研究表明,采用最佳幀重復(fù)技術(shù),數(shù)據(jù)率還可降低到每秒850比特而照樣可以獲得比較高的語(yǔ)言質(zhì)量。一九七六年美國(guó)海軍研究實(shí)驗(yàn)室G.S.Kang 和D.C.Couler研制成600bps的線性預(yù)測(cè)共振峰聲碼器。該聲碼器最吸引人的特點(diǎn)在于它只是2400bps線性預(yù)測(cè)編碼器的簡(jiǎn)單延伸。從本質(zhì)上講,600bps的線性預(yù)測(cè)共振峰聲碼器就是在2400bps的線性預(yù)測(cè)編碼器的發(fā)端和收端各加上一個(gè)處理器, 發(fā)端處理器把2400bps的語(yǔ)言數(shù)據(jù)轉(zhuǎn)變?yōu)?00bps的語(yǔ)言數(shù)據(jù), 收端處理器作相反轉(zhuǎn)換, 再把數(shù)據(jù)變?yōu)?400bps的數(shù)據(jù),綜合輸出。對(duì)于由2400bps線性預(yù)測(cè)編碼

29、器傳輸?shù)膮?shù),600bps線性預(yù)測(cè)共振峰聲碼器作了如下變動(dòng): 1參數(shù)更新的間隔由22.5ms增加到25 m s, 2.激勵(lì)參數(shù)在本質(zhì)上與2400bps的線性預(yù)測(cè)編碼器的激勵(lì)參數(shù)相同, 但基音周期是每隔一幀更新一次。傳輸基音周期及激勵(lì)功率電平需要260bps,占總數(shù)據(jù)率的43%。這是獲得滿意的話音通信所不可少的。3.聲道濾波器參數(shù)根據(jù)有無(wú)聲狀態(tài)采用兩種形式, 即有聲音的共振峰頻率和無(wú)聲音的預(yù)測(cè)系數(shù)。該聲碼器系統(tǒng)較之2400bps的線性預(yù)測(cè)編碼器系統(tǒng)損失了某些語(yǔ)音質(zhì)量,綜合語(yǔ)言鼻音較重,講話人識(shí)別差,但卻完全能滿足專門軍用話音通信的要求。進(jìn)一步的工作是提高清晰度,消除鼻音重的現(xiàn)象,并在傳輸誤差條件

30、下評(píng)價(jià)其性能。一九八二年,美國(guó)TRW公司國(guó)防和空間系統(tǒng)研究組T.E.Carter、D.M.Dlngos和D.C.Le Doux研制成一種以高效編碼技術(shù)為基礎(chǔ)的800bps實(shí)時(shí)話音編碼系統(tǒng)。該系統(tǒng)將通信和信號(hào)處理領(lǐng)域的高效編碼技術(shù)極好地結(jié)合起來(lái),獲得了極低的比特率。 該系統(tǒng)分為兩部分,上半部分為分析器,下半部分為綜合器。首先對(duì)輸入語(yǔ)言進(jìn)行LPC分析,產(chǎn)生增益、基音參數(shù)和10個(gè)反射系數(shù),然后對(duì)它們?cè)倬幋a,從而獲得800bps的數(shù)據(jù)率。同樣在一九八二年,IEEE的D.Y.Wong、B.H.Juang和A.H.Gray Jr.共同研制成一種800bps的矢量量化LPC 聲碼器。該系統(tǒng)用54比特( 即1

31、8比特/決) 編碼3個(gè)連續(xù)的LPC參數(shù)幀,濾波器系數(shù)30比特( 10比特/幀)。 基音和有無(wú)聲判決12比特,增益11比特, 同步1比特。獲得800bps速率的關(guān)鍵是通過(guò)矢量量化把用于編碼每個(gè)LPC參數(shù)組的41比特壓縮為10比特。矢量量化器由兩個(gè)代碼本組成, 一個(gè)用于有聲語(yǔ)言, 一個(gè)用于無(wú)聲語(yǔ)言( 包括無(wú)語(yǔ)聲的暫停期間和背景噪聲)。由于有無(wú)聲分開(kāi),量化LPC系數(shù)也同樣需要有無(wú)聲參數(shù)。三個(gè)LPC系數(shù)幀一次編碼,獲得三個(gè)10比特,基音增益編碼是標(biāo)量的, 每3 幀一個(gè), 余下的兩幀則編碼差值。有無(wú)聲參數(shù)包括在基音碼中。一九八二年底, 美國(guó)BBN公司在美國(guó)國(guó)防部高級(jí)研究計(jì)劃局資助下研究成實(shí)現(xiàn)甚低速話音編

32、碼的語(yǔ)音聲碼器。該系統(tǒng)首先對(duì)語(yǔ)言進(jìn)行分析, 產(chǎn)生一組音素、音素長(zhǎng)度及基音值。語(yǔ)言的速率通常是每秒12 個(gè)音素。由于每個(gè)三要素( 音素、音素長(zhǎng)度和基音) 組可編為8 個(gè)比特, 所以傳輸信道上的數(shù)據(jù)率大約為100比特/ 秒。三要素組在收端解碼后, 便由語(yǔ)音綜合器恢復(fù)出原始語(yǔ)音。他們?cè)谡Z(yǔ)音聲碼器中所選用的基本語(yǔ)言模型為雙音模型。雙音規(guī)定為從一個(gè)音素的中點(diǎn)到下一個(gè)音素中點(diǎn)這樣一個(gè)區(qū)域。因此, 雙音模型就能直接地表征一個(gè)音素與其相鄰音素的相互影響, 語(yǔ)音聲碼器的分析部分和綜合部分都必須有一個(gè)大的雙音樣板數(shù)據(jù)庫(kù)。他們由這個(gè)究項(xiàng)目得出的初步結(jié)論是:這種語(yǔ)音聲碼器完全可以獲得極低的數(shù)據(jù)率, 但必須大量的人工錄制數(shù)據(jù)才能使音素識(shí)別率高達(dá)足以使輸出語(yǔ)言清晰可懂。該聲碼器系統(tǒng)利用語(yǔ)音識(shí)別進(jìn)行語(yǔ)音綜合的另一個(gè)問(wèn)題是:如果在識(shí)別網(wǎng)絡(luò)中有多個(gè)樣板,而在語(yǔ)音綜合規(guī)程中每個(gè)雙音卻只有一個(gè)樣板, 則不能保證輸出語(yǔ)言譜接近于輸入語(yǔ)言譜。四、未來(lái)的工作半導(dǎo)體器件的發(fā)展使科學(xué)家們能夠研制出體積小、性能優(yōu)的聲碼器系統(tǒng)。特別是由于數(shù)字信號(hào)處理片的問(wèn)世, 使絕大多數(shù)編碼器實(shí)現(xiàn)成本明顯下降。這些數(shù)字信號(hào)處理片子成本低, 通用性好, 已成為實(shí)現(xiàn)各種語(yǔ)言編碼算法的理想器件。前面所提到的許多低速聲碼器算法都可以

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論