低速聲碼器的發(fā)展概況_第1頁
低速聲碼器的發(fā)展概況_第2頁
低速聲碼器的發(fā)展概況_第3頁
低速聲碼器的發(fā)展概況_第4頁
低速聲碼器的發(fā)展概況_第5頁
已閱讀5頁,還剩8頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

1、聲碼器技術(shù)的發(fā)展學(xué)院:班級:姓名:學(xué)號:指導(dǎo)教師:摘 要語音編解碼技術(shù)的迅速發(fā)展,使中低速率語音編碼技術(shù)廣泛應(yīng)用于現(xiàn)代移動通信。聲碼器特別適用于以低比特率為首要條件的通信場合, 較典型的應(yīng)用包括標(biāo)準(zhǔn)電話信道上的保密語言傳輸和小型化數(shù)字存貯器中的語言存貯。在某些長距離無線通信中, 人們寧可使用聲碼器而不愿意用目前音質(zhì)低劣的模擬傳輸系統(tǒng)。目前, 質(zhì)量令人滿意的實用語言編碼器的比特率下限為2400bps,這個比特率是由線性預(yù)測編碼和通道話音編碼獲得的。現(xiàn)在正在進(jìn)行大量的研究工作, 其目的是要獲得低于2400bps的比特率而又要使語言質(zhì)量不下降或下降很少。這個研究課題是一個既基本又具有實用價值的課題。

2、聲碼器正向著速率更低、語音質(zhì)量更好,延時更短,算法更復(fù)雜,抗干擾能力更強(qiáng),帶寬要求更小的方向發(fā)展。本文主要介紹國外聲碼器的發(fā)展概況、若干種低速聲碼器的技術(shù)原理和結(jié)果, 并推測未來的工作。關(guān)鍵字:聲碼器發(fā)展、線性預(yù)測編碼、低比特率一、引言自首次成功地嘗試建造一臺能夠模擬人聲的機(jī)器以來,已經(jīng)大約有兩百年了。兩百年中中人們曾建造了各種各樣的這類機(jī)器, 成功的情況也各不相同, 年輕時的貝爾和他的兄弟就曾致力于建造一臺這樣的機(jī)器, 但取得實質(zhì)性的進(jìn)展卻是電子系統(tǒng)問世之后的事。1939年紐約世界博覽會上,一項叫做“ 語言合成器”(Voder)的發(fā)明引起了轟動。這個語言合成器實質(zhì)上是一臺電子器件, 它通過完

3、全的電子方式分析人類的語言, 然后又把它綜合出來。該系統(tǒng)后來稱之為“聲碼器”(話音編碼器),聲碼器標(biāo)志了語言編碼新紀(jì)元的開始, 聲碼器這個名詞也一直沿用至今而作為一大類系統(tǒng)的屬名。近年來, 聲碼器的研究變得日益重要了, 這在很大程度上取決于數(shù)字化技術(shù)和語言編碼的大規(guī)模應(yīng)用。語言數(shù)字化有兩種根本不同的途徑, 一種稱之為波形編碼, 另一種稱之為參數(shù)編碼。實現(xiàn)參數(shù)編碼的硬件就是聲碼器。目前, 降低比特率是一個有重大意義的研究課題,為降低聲碼器的比特率而采取的所有方式都是利用了如下三個基本思想中的一個、兩個或三個。1)時間多余度壓縮:由于在穩(wěn)態(tài)條件下, 幀與幀之間的語言特性相同, 所以利用幀重復(fù)或其它

4、的差分編碼技術(shù)便可大大地降低比特率。2)參數(shù)組壓縮:只要新參數(shù)組對于量化并不比原參數(shù)組更敏感, 則采用比較節(jié)省的參數(shù)組便能壓縮比特率。另外, 采用比較好的模型如共振峰模型, 或應(yīng)用某些變換Karhunen-Loeve變換, 可以獲得較少的參數(shù)組。3)改進(jìn)的量化技術(shù):在以低比特率語言傳輸為目的而廣泛開展語言分析技術(shù)研究的同時, 量化問題也受到了一定程度的重視。量化問題的研究大體上局限于單獨地量化每個參數(shù)的技術(shù)?;镜牧炕碚?、模式匹配的若干研究以及最近對于LPC矢量量化的研究都證明參數(shù)矢量量化具有奇跡般地降低比特率的潛力。現(xiàn)在國外的低速聲碼器研究工作非?;钴S, 美國、西歐和日本的許多公司、研究所

5、,還有蘇聯(lián)都在進(jìn)行這方面探索, 有的已獲得令人鼓舞的計算機(jī)模擬結(jié)果, 有的已制成實驗室樣機(jī)。當(dāng)然, 在研究中不可避免地遇到了這樣或那樣不易克服的困難, 距實際應(yīng)用還有一定的差距。二、低速聲碼器的發(fā)展概況在低速聲碼器研究中, 共振峰聲碼器由于其比特率低曾一度備受青睞。共振峰聲碼器的概念最早是由J.L.Flanagan在一九五六年提出來的, 并作成試驗性質(zhì)的共振峰聲碼器樣機(jī), 效果雖然不太令人滿意, 但卻證明其前途是廣闊的。五十年代末和六十年代初, 英國、美國和日本的許多公司相繼開始研究共振峰聲碼器, 其研究和開發(fā)工作絕大部分都是在政府資助下以軍用為目的進(jìn)行的。如美國通用電氣公司在一九六一年研制出

6、共振峰聲碼器模型, 其比特率為1350bps, 單音清晰度達(dá)90%, 另外如美國的Melpar、Philo。通用動力公司及英國的信號研究與開發(fā)中心等也曾在六十年代初研制成速率為1000bps以下的共振峰聲碼器, 英國航空部通信研究所研制的800bps共振峰聲碼器的清晰度和可懂度都比較好。但是共振峰聲碼器的研究沒有獲得如通道聲碼器那樣的成功, 因此它作為實驗室里的古董多于作為實際的通信裝置。七十年代初, 大家都公認(rèn)共振峰聲碼器概念由于其低比特率編碼而頗具吸引力, 但也有它的實際困難。除有通道聲碼器的基音跟蹤和有無聲判決間題之外, 共振峰聲碼器還有恰當(dāng)?shù)墓舱穹甯?、共振峰識別、靜止期后的共振峰跟蹤

7、搜索及綜合, 特別是輔音產(chǎn)生的綜合等題, 這樣就使得聲碼器的潛在用戶轉(zhuǎn)而對這種低比特率的話音編碼方法持懷疑態(tài)度。Moye可作為這種懷疑者的例子, 他說:“雖然這種說法肯定要受到挑戰(zhàn), 但人們卻可以說從實用數(shù)字語言傳輸觀點來看, 共振峰分析行不通?!?其它人如日本的電子和通信工程研究所的Y.Kato等也表明了類似的觀點。七十年代初還報道有另外三種比較有代表性的極低速話音數(shù)字化裝置, 碰巧它們的速率均為600bps。一是Flanagan在1970年實驗論證的一種以600bps速率工作的共振峰跟蹤聲碼器, 他用唱片表演了他的成果。由于試驗句子包括了所有的元音、雙元音和流音,所以這是600bps 話音

8、數(shù)字化裝置的一個非常有限的試驗論證。雖然如此, 但其綜合語言卻非常清晰, 表明共振峰聲碼法在話音分析綜合方面具有潛力。第二種600bps的話音數(shù)字化裝置則是由空軍劍橋研究實驗室Caldwell Smith等研制成的, 該裝置采用模式匹配技術(shù)把通道聲碼器的輸出分類, 系廣泛的研究和開發(fā)工作的結(jié)果。其單一講話人診斷韻律試驗(DRT)的清晰度得分92% , 這對于600bps的話音編碼系統(tǒng)可謂是一個非常高的得分。第三種600bps的系統(tǒng)則是Melpar公司所研制共振峰聲碼器的一種修正型。一九七六年底, 美國海軍研究實驗室G.S.Kang和D.C.Coulter等研制成了一種線性預(yù)測共振峰聲碼器。它可

9、以600bps的速率傳輸語言, 這個數(shù)據(jù)率還不到原始語言脈碼調(diào)制傳輸率的百分之一。這項研究工作是在迫切需要極低速話音數(shù)字化裝置以滿足當(dāng)時海軍某些話音通信需要的前提進(jìn)行的。600bps系統(tǒng)的綜合語言較原始語言有某些損失, 但其清晰度之高卻足以允許在某些特定的軍用通信場合下使用該系統(tǒng)。法國也進(jìn)行了低速音碼器的研究。一九七五年法國的Thomson-CSF公司電信部當(dāng)年的Thomson-CSF評論第七卷第四期上報道, 他們研制成一種叫做“Ciphon”的聲碼器, 即峰線聲碼器。這種聲碼器與其說是試圖模擬聲源的生理特性, 還不如說是致力于模擬人耳并辨別“ 清晰的聲學(xué)特性” 。它有兩個主要特性:一是能以數(shù)

10、字形式傳輸頻帶覆蓋為3003400Hz的電話信號, 且恢復(fù)話音質(zhì)量好,懂度也較高。二是根據(jù)編碼的復(fù)雜性,可獲得兩種速率:處理時延不超過100ms時為1200bps;處理時延不超過300ms時為600bps。盡管和其它類型聲碼器相比原理不大一樣, 但峰線聲碼器在技術(shù)上卻可與它們媲美。與標(biāo)準(zhǔn)的通道聲碼器相比, 它可以低得多的速率提供優(yōu)質(zhì)語言, 與共振峰聲碼器相比, 它運算簡單。這樣, 從實用角度出發(fā), 可以考慮實時工作設(shè)備的實現(xiàn)。峰線聲碼器可用于無線(尤其是HF)和有線通信。借助于相應(yīng)的調(diào)制解調(diào)器, 便可在交換網(wǎng)電話線路上作全雙工通信。一九八二年五月在巴黎IEEE的ASSP國標(biāo)年會上, 西德赫茲通

11、信技術(shù)研究所A.Lacroix和B.Makel提出了一種比特率極低的聲碼器方案。該聲碼器以標(biāo)準(zhǔn)LPC聲碼器為基礎(chǔ), 由45節(jié)變長管組成聲管模型, 采用帶附加近似的自相關(guān)分析法計算變長聲管模型的參數(shù), 取得了極好的效果。非正式收聽測試證明,1000bps的聲碼語言質(zhì)量兒乎與標(biāo)準(zhǔn)的2400bpsLPC聲碼器的話音相同, 但這個結(jié)果僅限于某個人講話或某個句子。一九八一年, 美國麻省理工學(xué)院Lincoln實驗室R.J.Mcaulay提出了一種采用自適應(yīng)子帶振峰分析的低速聲碼器。該分析技術(shù)通過將二階頻譜與已測得頻譜的單個子帶適配來避免共振峰跟蹤所固有的某些問題, 綜合采用高質(zhì)量的通道聲碼器進(jìn)行, 所以調(diào)

12、制器的增益由有聲語言的共振峰分析包絡(luò)抽樣或無聲語言的低階LPC包絡(luò)抽樣來調(diào)整。根據(jù)固定帶寬準(zhǔn)則, 只傳輸三個諧振段的每個段的頻率和增益, 再加上對數(shù)編碼和幀充填法, 便獲得了800bps的可懂聲碼器語言。更仔細(xì)地分配6個傳輸參數(shù)的比特數(shù), 還能獲得更低的比特率。例如Flanagan就建議可用4比特編碼第一和第二共振峰, 而第三共振峰只需3比特。他還覺得3比特足夠編碼共振峰幅度, 因此, 基音和有無聲判決用6比特, 幀充填控制用3比特, 則用28比特編碼有聲語言譜就應(yīng)當(dāng)是能辦到的, 在幀速率為25Hz時就相當(dāng)于只有700bps的速率。如果采用更加先進(jìn)的幀充填插入算法, 則可以獲得更低的速率。其它

13、如一九八一年TI公司(得克薩斯儀器公司)的 Knn - Shan Lin 和 Ying L.Tsui經(jīng)過對LPC反射系數(shù)特性的仔細(xì)研究, 揭示了利用高效參數(shù)編碼及最佳化幀重復(fù)進(jìn)一步壓縮數(shù)據(jù)率的可能性。他們在探討中使用了利用對數(shù)面積比距離量度的經(jīng)改進(jìn)的成本函數(shù)及能量加權(quán)函數(shù),并在保持頻譜失真不超出預(yù)定門限值灼同時利用動態(tài)規(guī)劃法使幀長度最大。利用TI公司的TMS 5100或TMS 5200實施方案, 便可以800850bps的速率獲得高質(zhì)量的語言。再如一九八年TRW公司國防和空間系統(tǒng)研究組的 T.E.Carter、D. M. Dlugos及D. C. Le Doux等研制成了一種800bps的實時

14、話音編碼系統(tǒng)。該系統(tǒng)由TRW公司生產(chǎn)的微程控話音處理器(采用11K字存貯器)實現(xiàn),DRT和其它的測試結(jié)果表明其可懂度和清晰度都令人滿意, 完全可以用于話音通信。這種低數(shù)據(jù)率是通過一種高編碼2400bps的LPC參數(shù)的算法獲得的, 這種新的算法運用了其它類型通信系統(tǒng)所常見的若干數(shù)據(jù)壓縮方案以獲取所需的數(shù)據(jù)率, 這些方案包括自適應(yīng)DPCM、K.L.變換、統(tǒng)計最住量化和動態(tài)比特分配等。其未來的工作應(yīng)是進(jìn)一步改進(jìn)算法, 提高性能, 其最大的潛力可能在于用各種比特分配方案進(jìn)行試驗。由于要實施系統(tǒng),對基本2400bpsLPC算法也還須進(jìn)行若干改進(jìn)。這些都會直接反映到800bps語言的質(zhì)量之中。有一種方法,

15、 剛提出來的時候叫做“ 模式匹配聲碼器” , 后來又稱作“ 矢量量化”, 就是在譜形參數(shù)組合的全部可能范圍內(nèi)僅僅選擇極小部分。在通道聲碼器、LPC聲碼器和共振峰聲碼器中, 譜形參數(shù)所確定的多維空間占據(jù)極不均勻, 大部分空間根本未利用。根據(jù)某種恰當(dāng)?shù)臏?zhǔn)則, 選擇最接近有限數(shù)量的存貯譜形的目前輸入,便可能用大約每幀 10 12 比特而不是每幀40比特來較好地確定譜形 。通道聲碼器和LPC聲碼器的這種類型的系統(tǒng)已在實驗室里證明可采用400 800bps的數(shù)字速率。在七十年代后期, 以 A.H.Gray Jr.、R.M.Gray和J.D.Markel為首的一些電信研究專家在高效編碼LPC參數(shù)方面作出了

16、重大突破。在這以前, 系數(shù)都被變換為其它的“ 空間” 以去掉其相關(guān)性, 然后分別量化。這里說所的重大突破就是將表征特定聲音的頻譜緊緊地集為一組來實現(xiàn), 以便用較少的頻譜來表征一般人發(fā)那個聲音的所有可能方式。由于在任何口語中都只有有限數(shù)量的聲音或音素, 所以可用有限數(shù)量的頻譜來表征語言中的所有聲音。他們發(fā)現(xiàn), 用大約1000種不同頻譜或等效的1000個LPC系數(shù)矢量就能構(gòu)成所有成年講話人的一組有代表性的頻譜。這些頻譜應(yīng)當(dāng)是什么呢?確定的方法之一就是利用實時數(shù)據(jù), 把它們分成若干組, 然后把這些組的重心作為有代表意義的頻譜。如果有足夠多的組, 則每一組代表一個單一的性質(zhì)不同的聲音。通常為易于計算起

17、見, 人們從幾何形狀出發(fā), 找出最好的兩個頻譜, 然后最好的4個, 然后最好的8個等等, 所得的重心稱為1比特, 2 比特, 3比特等的碼書。在利用矢量量化進(jìn)行LPC分析過程中, 首先實施一般的LPC分析, 然后將輸入語言的LPC矢量與碼書中的表值進(jìn)行比較, 頻譜距離量度規(guī)定了輸入LPC矢量和碼書表值之間的差值, 選擇與原始矢量頻譜距離最小的表值作為輸出矢量。若采用10系數(shù)和10比特的碼書的分析, 這就意味著可用10 比特來量化頻譜, 平均每個系數(shù)僅1比特。以矢量量化技術(shù)為主、再結(jié)合其它的高效編碼技術(shù)研制成低速聲碼器的例子很多, 這一研究工作也非?;钴S。如IEEE的會員和高級研究員 D. Y.

18、 Wong、B. H.Juang和A.H.Gray.Jr等在在一九八二年研制成一種800bps的矢量量化線性預(yù)測聲碼器。他們應(yīng)用最新形成的LPC矢量量化理論使LPC系數(shù)編碼的比特率下降到原來的四分之一, 同時應(yīng)用分支搜索技術(shù)分離有聲/ 無聲碼書獲得了較好的算法效率。此外, 他們還利用差分編碼技術(shù)將基音和增益參數(shù)的比特率降低了三分之一。正式的主觀評價表明, D.Y. Wong等研制成的800bps聲碼器保留了LPC系統(tǒng)的絕大部分可懂度, 在各種傳輸誤碼和聲學(xué)環(huán)境下都顯得非常健全實用。非正式的收聽比較表明其音質(zhì)是令人滿意的, 有時還非常接近2400bps的LPC語言。該系統(tǒng)的計算成本相當(dāng)甚至還低于

19、2400bps的LPC-10的成本, 并保證與LPC -10相兼容, 這是因為800bps聲碼器的設(shè)計僅在量化和編碼算法上不同。若壓縮或消除聲碼化參數(shù)過程中的幀間多余度, 還可使總比特率減少到400bps以下而保持可接受的清晰度和可懂度。其技術(shù)包括壓縮無聲碼書、幀重復(fù)編碼和新開發(fā)的矩陣編碼等。一九八三年,D.Y.wong (語言技術(shù)實驗室)、B.H.Juang(貝爾實驗室) 再度和加里福尼亞大學(xué)的D.Y.Cheng合作研究幀預(yù)測矢量量化,將編碼LPC濾波器系數(shù)的比特率壓縮到 250bps 以下, 同時還利用新的LPC壓縮技術(shù)矩陣量化進(jìn)一步將LPC濾波器系數(shù)壓縮到150bps以下。采用DRT進(jìn)行

20、主觀評價證明他們所提出的技術(shù)對于以400bps到200bps之間的比特率傳輸可懂語言是完全可行的, 目前他們正繼續(xù)其研究工作, 改進(jìn)矩陣量化技術(shù)及時標(biāo)、基音和增益參數(shù)的編碼算法, 提高系統(tǒng)質(zhì)量和健全實用性, 使計算和存貯要求最佳化, 以利實時實現(xiàn)和完全實現(xiàn)以 200400bps 之間的速率工作的語言編碼器。一九八三年美國麻省理工學(xué)院林肯實驗室的D.B.Paul 提出了一種采用感覺距離量度的自適應(yīng)矢量量化算法。這種自適應(yīng)是通過連續(xù)改變樣板組使之與目前的講話人和狀況相適應(yīng)來實現(xiàn)的。距離量度逼近聽覺感覺的目的是使樣板應(yīng)用最佳化。同時, 他還設(shè)計出了不需要附加信道帶寬的自適應(yīng)規(guī)程。應(yīng)系統(tǒng)800bps信

21、道上獲得了86.8%的可懂度得分( DRT試驗),再把這種系統(tǒng)與頻譜幀充填技術(shù)相結(jié)合, 便獲得數(shù)據(jù)率低到500bps而可懂度僅微微有些下降的聲碼器系統(tǒng)。這里所采用的系統(tǒng)是含Gold基音預(yù)估器的頻譜包絡(luò)預(yù)測聲碼器。這些系統(tǒng)證明, 矢量量化聲碼器或叫樣板聲碼器, 雖然其計算的復(fù)雜程度為標(biāo)量量化聲碼器的二倍甚至三倍, 但在極低數(shù)據(jù)率的信道上使用卻不愧是一種非常實用的算法。矢量量化技術(shù)己被人們公認(rèn)為是信號編碼的一種高效率的新方法。上面的例子及最近的研究工作都已證明, 把矢量量化概念用于LPC編碼技術(shù),能研制出極低比特速率的語言編碼器。一九八三年國立臺灣大學(xué)電氣工程系的Shiann-ning Jean和

22、Lin-shan Lee提出了一種進(jìn)行自相關(guān)預(yù)估的限幅法, 從而簡化了LPC計算, 提高了LPC實際應(yīng)用的可行性。這種簡化LPC的概念是由預(yù)先白化語言信號提取基音過程中的限幅技術(shù)發(fā)展而來的。將這種簡化LPC算法與失量量化相結(jié)合就容易獲得極低的比特率。在此基礎(chǔ)他們又研究出了大量去掉幀間多分度而又毫不降低語言質(zhì)量的高效編碼LPC矢量的新算法, 再加上頗為吸引人的幀重復(fù)技術(shù), 實現(xiàn)了一種采用簡化算法的高效低比特率編碼器。模擬結(jié)果表明, 要獲得極好的語言質(zhì)量, 聲道信息平均有聲語言僅需6.87 比特/幀,無聲語言僅需3.62比特/幀, 就很容易獲得大約550600比特/ 秒的比特率, 而且計算量大大減

23、少。因此, 這樣的結(jié)果對語言數(shù)字化應(yīng)用和未來的語言通信網(wǎng)將非常有用。雖然尚未證實, 但在原理上似乎還找不到什么理由能說明為什么好的共振峰聲碼器就不應(yīng)當(dāng)按模式匹配方式編碼。英國聯(lián)合語言研究中心的J.N.Holrnes認(rèn)為, 模式匹配共振峰聲碼器完全應(yīng)當(dāng)以比I P C 型和通道型低得多的數(shù)據(jù)率產(chǎn)生出比它們高得多的語言質(zhì)量, 這是因為模式匹配共振峰聲碼器與語言產(chǎn)生的關(guān)系更為密切。就能夠大量節(jié)省數(shù)據(jù)率、實現(xiàn)低比特率語言傳輸來說, 潛力最大的就是所謂的“語音聲器碼”。一九七七年, 美國BBN公司J.Makhoul、R.Schwartz、S.Roucos及C.Cook等在國防部高級研究計劃局的資助下, 開

24、始對這種低速型聲碼器進(jìn)行以軍用為目的的研究。這種類型聲碼器的一個共同特點是: 輸入語言必須按語音單元編碼, 語音符號序列帶有時標(biāo)和基頻信息, 以使接收到的語言具有同原始語言一樣的音調(diào)和時標(biāo)。然而, 綜合語言的頻譜包絡(luò)是由少量的模式序列產(chǎn)生的,或是按產(chǎn)生這樣序列的規(guī)定由語言編碼數(shù)據(jù)產(chǎn)生的。這種類型的聲碼器所要求的傳輸容量僅為100200bps到目前為止,所作的最好試驗仍表明分析和綜合都還存在著一定的困難。有各式各樣的方法可以把語言符號綜合成語言, 但要求這些語丟符號帶有某種基音和時標(biāo)。這些方法中的最好者已能給出雖然自然度稍差但可懂度卻很高的綜合語言, 當(dāng)然, 這種綜合語言還不能突出任何個別講話人

25、的語言特點。然而, 語音聲碼器更為嚴(yán)重的困難還在于十分可靠地自動識別不同講話人可能產(chǎn)生出的大量不同語言的語音內(nèi)容。看來要解決這個問題還需要一種能夠“調(diào)諧”到各特定人語言特性的方法, 只不過這是若干年以后的事了。美國E系統(tǒng)公司J.W.Whelan認(rèn)為,低速聲碼器的速率不限相當(dāng)于50bps的音素錄制速度。它以英語的42個音素為基礎(chǔ), 要求在6個比特之內(nèi)被極好地識別,最大講話率約為每秒10個音素。最新研究表明, 利用現(xiàn)存技術(shù)制并以每秒75比特過率工作既音素聲碼器可以獲得能夠接受的話音質(zhì)量, 但叫起來機(jī)械聲非常明顯, 講話人識別也差, 所以在實施l00bps速率以下的通信之前必須提高該聲碼器的質(zhì)量。低

26、速率語言傳輸具有重大的商用價值, 這是毫無疑問的。對于噪聲環(huán)境下的通信,速率低就意味著通-斷信號長,可獲得較高的比特可靠性而速率低, 功耗也就低,因此可使非法竊收這種傳輸變得困難, 有利于軍用保密通信。再從商用角度看, 低速率語言傳輸對于象話音郵件這樣的應(yīng)用而言, 則大大降低了它的存貯要求。隨著大規(guī)模和超大規(guī)模集成電路的迅速發(fā)展, 人們研究出了各式各樣的低速聲碼器算法。若把以前的情況歸結(jié)為算法研究推動硬件技術(shù)的提高, 而今天則是硬件技術(shù)的提高推動著算法研究。三、幾種低速聲碼器技術(shù)的原理和結(jié)果1977年、1980年和1982年,Makhoul,SamPei和A.Laoroix、B.Ma一kel等

27、先后提出了一種本質(zhì)相同的比特率極低的聲碼器方案。該方案以標(biāo)準(zhǔn)LPC聲碼器為基礎(chǔ), 用串聯(lián)不同橫截面積的均勻無損聲管模寫聲道的不規(guī)則形狀, 而每個聲管本身又由多級格狀濾波器中的相應(yīng)級來進(jìn)行電氣模擬。當(dāng)聲波穿過兩個相鄰聲管聯(lián)接處時, 一部分便作為阻抗失配結(jié)果被反射回去, 反射的數(shù)量由聯(lián)接處的反射系數(shù)確定。格狀濾波器的系數(shù), 即部分自相關(guān)系數(shù), 實質(zhì)上就是聲道的反射系數(shù), 可由語言抽樣或由直接的LPC系數(shù)計算出。試驗表明, 每個參數(shù)都采用最佳字長, 則可用49比特來表征一個幀。由于綜合器必須每秒鐘校正40次, 所以數(shù)據(jù)率約為每秒2000比特。再通過消除靜止期及重復(fù)參數(shù), 數(shù)據(jù)率可降低到每秒12001

28、4 00比特。最新研究表明,采用最佳幀重復(fù)技術(shù),數(shù)據(jù)率還可降低到每秒850比特而照樣可以獲得比較高的語言質(zhì)量。一九七六年美國海軍研究實驗室G.S.Kang 和D.C.Couler研制成600bps的線性預(yù)測共振峰聲碼器。該聲碼器最吸引人的特點在于它只是2400bps線性預(yù)測編碼器的簡單延伸。從本質(zhì)上講,600bps的線性預(yù)測共振峰聲碼器就是在2400bps的線性預(yù)測編碼器的發(fā)端和收端各加上一個處理器, 發(fā)端處理器把2400bps的語言數(shù)據(jù)轉(zhuǎn)變?yōu)?00bps的語言數(shù)據(jù), 收端處理器作相反轉(zhuǎn)換, 再把數(shù)據(jù)變?yōu)?400bps的數(shù)據(jù),綜合輸出。對于由2400bps線性預(yù)測編碼器傳輸?shù)膮?shù),600bps

29、線性預(yù)測共振峰聲碼器作了如下變動: 1參數(shù)更新的間隔由22.5ms增加到25 m s, 2.激勵參數(shù)在本質(zhì)上與2400bps的線性預(yù)測編碼器的激勵參數(shù)相同, 但基音周期是每隔一幀更新一次。傳輸基音周期及激勵功率電平需要260bps,占總數(shù)據(jù)率的43%。這是獲得滿意的話音通信所不可少的。3.聲道濾波器參數(shù)根據(jù)有無聲狀態(tài)采用兩種形式, 即有聲音的共振峰頻率和無聲音的預(yù)測系數(shù)。該聲碼器系統(tǒng)較之2400bps的線性預(yù)測編碼器系統(tǒng)損失了某些語音質(zhì)量,綜合語言鼻音較重,講話人識別差,但卻完全能滿足專門軍用話音通信的要求。進(jìn)一步的工作是提高清晰度,消除鼻音重的現(xiàn)象,并在傳輸誤差條件下評價其性能。一九八二年,

30、美國TRW公司國防和空間系統(tǒng)研究組T.E.Carter、D.M.Dlngos和D.C.Le Doux研制成一種以高效編碼技術(shù)為基礎(chǔ)的800bps實時話音編碼系統(tǒng)。該系統(tǒng)將通信和信號處理領(lǐng)域的高效編碼技術(shù)極好地結(jié)合起來,獲得了極低的比特率。 該系統(tǒng)分為兩部分,上半部分為分析器,下半部分為綜合器。首先對輸入語言進(jìn)行LPC分析,產(chǎn)生增益、基音參數(shù)和10個反射系數(shù),然后對它們再編碼,從而獲得800bps的數(shù)據(jù)率。同樣在一九八二年,IEEE的D.Y.Wong、B.H.Juang和A.H.Gray Jr.共同研制成一種800bps的矢量量化LPC 聲碼器。該系統(tǒng)用54比特( 即18比特/決) 編碼3個連續(xù)

31、的LPC參數(shù)幀,濾波器系數(shù)30比特( 10比特/幀)。 基音和有無聲判決12比特,增益11比特, 同步1比特。獲得800bps速率的關(guān)鍵是通過矢量量化把用于編碼每個LPC參數(shù)組的41比特壓縮為10比特。矢量量化器由兩個代碼本組成, 一個用于有聲語言, 一個用于無聲語言( 包括無語聲的暫停期間和背景噪聲)。由于有無聲分開,量化LPC系數(shù)也同樣需要有無聲參數(shù)。三個LPC系數(shù)幀一次編碼,獲得三個10比特,基音增益編碼是標(biāo)量的, 每3 幀一個, 余下的兩幀則編碼差值。有無聲參數(shù)包括在基音碼中。一九八二年底, 美國BBN公司在美國國防部高級研究計劃局資助下研究成實現(xiàn)甚低速話音編碼的語音聲碼器。該系統(tǒng)首先

32、對語言進(jìn)行分析, 產(chǎn)生一組音素、音素長度及基音值。語言的速率通常是每秒12 個音素。由于每個三要素( 音素、音素長度和基音) 組可編為8 個比特, 所以傳輸信道上的數(shù)據(jù)率大約為100比特/ 秒。三要素組在收端解碼后, 便由語音綜合器恢復(fù)出原始語音。他們在語音聲碼器中所選用的基本語言模型為雙音模型。雙音規(guī)定為從一個音素的中點到下一個音素中點這樣一個區(qū)域。因此, 雙音模型就能直接地表征一個音素與其相鄰音素的相互影響, 語音聲碼器的分析部分和綜合部分都必須有一個大的雙音樣板數(shù)據(jù)庫。他們由這個究項目得出的初步結(jié)論是:這種語音聲碼器完全可以獲得極低的數(shù)據(jù)率, 但必須大量的人工錄制數(shù)據(jù)才能使音素識別率高達(dá)足以使輸出語言清晰可懂。該聲碼器系統(tǒng)利用語音識別進(jìn)行語音綜合的另一個問題是:如果在識別網(wǎng)絡(luò)中有多個樣板,而在語音綜合規(guī)程中每個雙音卻只有一個樣板, 則不能保證輸出語言譜接近于輸入語言譜。四、未來的工作半導(dǎo)體器件的發(fā)展使科學(xué)家們能夠研制出體積小、性能優(yōu)的聲碼器系統(tǒng)。特別是由于數(shù)字信號處理片的問世, 使絕大多數(shù)編碼器實現(xiàn)成本明顯下降。這些數(shù)字信號處理片子成本低, 通用性好, 已成為實現(xiàn)各種語言編碼算法的理想器件。前面所提到的許多

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論