語(yǔ)音信號(hào)處理課件

上傳人：6*** IP屬地：湖北上傳時(shí)間：2023-02-03 格式：PPT 頁(yè)數(shù)：54 大小：1014KB 積分：28 舉報(bào) 版權(quán)申訴

已閱讀5頁(yè)，還剩49頁(yè)未讀，繼續(xù)免費(fèi)閱讀

版權(quán)說明：本文檔由用戶提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

第五章語(yǔ)音編碼語(yǔ)音編碼概述波形編碼參數(shù)編碼混合編碼21.語(yǔ)音編碼概述

語(yǔ)音編碼又分信源編碼和信道編碼。本章主要介紹信源編碼。語(yǔ)音信號(hào)編碼（信源編碼）與語(yǔ)音信號(hào)壓縮，實(shí)際上是同一技術(shù)兩個(gè)名稱。其目的是在給定編碼速率條件下，得到盡量好的重建語(yǔ)音質(zhì)量（或稱編碼質(zhì)量），同時(shí)應(yīng)減小編解碼延時(shí)以及算法的復(fù)雜程度。其中，編碼質(zhì)量、編碼速率、編解碼算法的復(fù)雜程度、編解碼延時(shí)是相互關(guān)聯(lián)的四個(gè)主要因素。3語(yǔ)音信號(hào)編碼系統(tǒng)的應(yīng)用編碼-存儲(chǔ)-回放系統(tǒng)（數(shù)字語(yǔ)音錄放）編碼-傳輸-解碼系統(tǒng)（數(shù)字語(yǔ)音通信）

4語(yǔ)音信號(hào)壓縮(編碼)方法分類有損壓縮,又分成如下三類：波形編碼全頻帶編碼(如PCM、ADPCM)、子帶編碼(簡(jiǎn)寫SBC)、變換域編碼等。參數(shù)編碼（聲碼器）在語(yǔ)音信號(hào)發(fā)送端提取語(yǔ)音的特征參數(shù)，在接收端以某種最小的失真合成原始信號(hào)。如線性預(yù)測(cè)聲碼器(簡(jiǎn)寫LPC)。混合編碼波形編碼參數(shù)編碼的結(jié)合。如如矢量和激勵(lì)線性預(yù)測(cè)(簡(jiǎn)寫VSELP)、多脈沖激勵(lì)線性預(yù)測(cè)(簡(jiǎn)寫MP-LPC)、碼本激勵(lì)線性預(yù)測(cè)(簡(jiǎn)寫CELP)、多帶激勵(lì)(簡(jiǎn)寫MBE)等。無損壓縮：如統(tǒng)計(jì)編碼（霍夫曼編碼、算術(shù)編碼）、游程編碼等。5衡量語(yǔ)音編碼性能的主要因素

A.編碼質(zhì)量客觀評(píng)定方法。如信噪比、加權(quán)信噪比、平均分段信噪比等。適用于速率較高的波形編碼類型的算法。主觀評(píng)定方法。常采用平均意見得分(MeanOpinionScore,簡(jiǎn)稱MOS得分)，判斷韻字測(cè)試(DiagnosticRhymeTest，簡(jiǎn)稱DRT得分)，判斷滿意度測(cè)量(DiagnosticAcceptabilityMeasure，簡(jiǎn)稱DAM得分)等。主觀評(píng)定方法因符合人類聽覺對(duì)語(yǔ)音質(zhì)量的感覺，目前得到廣泛應(yīng)用。6平均意見得分（MOS）評(píng)分質(zhì)量尺度妨礙尺度5

優(yōu)不察覺4

良好剛察覺但不可厭3

一般察覺及稍微可厭2

差可厭（但不令人反感）1

很差極可厭（令人反感）

在數(shù)字語(yǔ)音通信中，MOS分4.0~4.5為高質(zhì)量數(shù)字化語(yǔ)音，達(dá)到長(zhǎng)途電話網(wǎng)的要求，接近于透明信道的編碼，也稱為網(wǎng)絡(luò)質(zhì)量。MOS分3.5分左右稱為通信質(zhì)量，這時(shí)重建話音質(zhì)量有所下降，但不妨礙正常通話，可以滿足多數(shù)話音通信系統(tǒng)的使用要求。MOS分為3.0分以下常稱為合成語(yǔ)音質(zhì)量，是指一些聲碼器合成語(yǔ)音所能達(dá)到的質(zhì)量，一般具有足夠高的可懂度，但是自然度以及講話人的確認(rèn)方面不是很好。7判斷韻字測(cè)試（DRT）判斷韻字測(cè)試是反映話音清晰度或者可懂度的一種測(cè)試方法，主要用于低速率語(yǔ)音編碼的質(zhì)量測(cè)試。這種測(cè)試方法使用若干對(duì)同韻母進(jìn)行測(cè)試，測(cè)試中，讓受試者每次聽到一對(duì)韻母中的某個(gè)音，然后讓其判斷聽到的音是哪個(gè)字，全體試驗(yàn)者判斷正確的百分比就是DRT得分。通常認(rèn)為DRT為95％以上時(shí)清晰度為優(yōu)，85％-95％為良，75％-85％為中，65％-75％為差，65％以下為不可接受。實(shí)際通話中，由于整句中有較多的冗余度，即使個(gè)別字聽不清楚，也能理解整句話的原因，當(dāng)清晰度為90％時(shí)，整句話的可懂度接近于100％。測(cè)試滿意度測(cè)量（DAM）

測(cè)試滿意度測(cè)量（DAM）是對(duì)話音質(zhì)量的綜合評(píng)估，它是在多種條件下對(duì)話音質(zhì)量可接受程度的一種度量，也是采用百分比評(píng)分。8提高語(yǔ)音編碼質(zhì)量的主要途徑利用語(yǔ)音信號(hào)的冗余度語(yǔ)音信號(hào)樣點(diǎn)間的相關(guān)性幅度分布的不均勻性

利用人耳的聽覺特性聽覺的掩蔽效應(yīng)聽覺對(duì)幅度和頻率的感知特性9衡量語(yǔ)音編碼性能的主要因素

B.編碼速率

單位為“比特/秒”（b/s），一般以I

表示；或單位為“比特/樣點(diǎn)”，一般以R

表示。I

和R

通過采樣速率fs

聯(lián)系起來。即

I=R·fs

式中，R

越高，語(yǔ)音質(zhì)量越高，但對(duì)傳輸帶寬的要求也越高。

在波形編碼中，為了取得高質(zhì)量的重建話音，一般取R>=2

在參數(shù)編碼中R可以低到0.25甚至0.1以下。信號(hào)類型采樣頻率（KHz）編碼速率(Kbps)頻率范圍(Hz)電話82.4-64300-3400激光唱盤CD44.1>70020-20000數(shù)字廣播及數(shù)字磁帶48>70020-2000010根據(jù)編碼速率,語(yǔ)音編碼可以分成如下幾類：高速率32Kbps以上中高速率16Kbps——32Kbps中速率4.8Kbps——16Kbps低速率1.2Kbps——4.8Kbps極低速率1.2Kbps以下11衡量語(yǔ)音編碼性能的主要因素

C.編解碼的復(fù)雜程度

與語(yǔ)音編碼的話音質(zhì)量及硬件實(shí)現(xiàn)成本有關(guān),一般來說，增加編碼算法的復(fù)雜度會(huì)增加話音的質(zhì)量。

D.編解碼延時(shí)

在實(shí)時(shí)通信中引起延時(shí)和回聲，必須考慮。當(dāng)延時(shí)超過100ms時(shí)，說話者就會(huì)聽到自己的回聲。122.語(yǔ)音波形編碼

脈沖調(diào)制編碼(PulseCodingModulation,PCM)

均勻量化PCM

非均勻量化PCM

自適應(yīng)量化PCM(AdaptivePCM,APCM)

差分脈沖編碼（DifferencePCM,DPCM）自適應(yīng)差分脈沖編碼(ADPCM)

增量調(diào)制(DeltaModulation,DM)和自適應(yīng)增量調(diào)制子帶編碼(Sub-bandcoding,SBC)

變換域編碼13脈沖調(diào)制編碼(PCM)PCM是最簡(jiǎn)單的波形編碼方法，它僅僅是對(duì)輸入信號(hào)進(jìn)行采樣和量化典型的窄帶話音帶寬限制在4kHz以下，采樣頻率是8kHz

量化有均勻量化和非均勻量化兩種方式PCM編碼原理圖采樣14均勻量化的信噪比當(dāng)語(yǔ)音信號(hào)的采樣率為8KHz，采用12bit/樣本(B=12)量化，SNR≈65dB，編碼速率為8*12=96Kbps均勻量化采樣輸入樣本值x(n)量化輸出數(shù)據(jù)y(n)非均勻量化采樣輸入樣本值x(n)量化輸出數(shù)據(jù)y(n)15非均勻量化的基本思想對(duì)小信號(hào)采用小的量化間隔，對(duì)大信號(hào)采用大的量化間隔，這樣可以用較少的位數(shù)編碼。對(duì)大信號(hào)來說，雖然絕對(duì)量化誤差較大，但是因?yàn)椋捍笮盘?hào)出現(xiàn)的機(jī)會(huì)不多;信噪比（相對(duì)誤差）與小信號(hào)是一致的;人耳對(duì)信號(hào)幅度的感知靈敏度是成對(duì)數(shù)關(guān)系所以對(duì)總的話音質(zhì)量影響不大16μ律壓擴(kuò)(μ-lawcompand)與A律壓擴(kuò) μ律(μ-Law)壓擴(kuò)(G.711)主要用在北美和日本等地區(qū)的數(shù)字電話通信中。x(n)

為輸入信號(hào)，一般規(guī)格化為－1<=x(n)<=1,則Xmax=1μ為確定壓縮量的參數(shù)，它反映最大量化間隔和最小量化間隔之比，μ=0則不壓縮，一般取100<=μ<=500。17原始語(yǔ)音μ=50μ=200μ=500μ-law語(yǔ)音編碼結(jié)果18xy=lin2mu(x)z=mu2lin(y)x-z19A律(A-Law)壓擴(kuò)(G.711)主要用在歐洲和中國(guó)大陸等地區(qū)的數(shù)字電話通信中對(duì)于采樣頻率為8kHz，樣本精度為13位、14位或者16位的輸入信號(hào)，使用μ律壓擴(kuò)編碼或者使用A律壓擴(kuò)編碼，經(jīng)過PCM編碼器之后每個(gè)樣本的精度為8位，輸出的數(shù)據(jù)率為64kb/s。這個(gè)數(shù)據(jù)就是CCITT推薦的G.711標(biāo)準(zhǔn)（A=87.6）。設(shè)Xmax=120自適應(yīng)脈沖編碼調(diào)制是根據(jù)輸入信號(hào)幅度大小來改變量化階大小的一種波形編碼技術(shù)。這種自適應(yīng)可以是瞬時(shí)自適應(yīng)，即量化階的大小每隔幾個(gè)樣本就改變，也可以是音節(jié)自適應(yīng)，即量化階的大小在較長(zhǎng)時(shí)間周期里發(fā)生變化。改變量化階大小的方法有兩種：一種稱為前向自適應(yīng)(forwardadaptation)，另一種稱為后向自適應(yīng)(backwardadaptation)。APCM比一般的非均勻量化PCM能提高信噪比4-6dB自適應(yīng)脈沖調(diào)制編碼(APCM)21前向APCM前向自適應(yīng)是根據(jù)未量化的樣本值來估算輸入信號(hào)的電平，以此來確定量化階的大小，并對(duì)其電平進(jìn)行編碼作為邊信息(sideinformation)傳送到接收端。后向APCM后向自適應(yīng)是從量化器剛輸出的過去樣本中來提取量化階信息。由于后向自適應(yīng)能在發(fā)收兩端自動(dòng)生成量化階，所以它不需要傳送邊信息。22DPCM采用預(yù)測(cè)編碼的方式傳輸信號(hào)，所謂預(yù)測(cè)編碼就是根據(jù)過去的信號(hào)樣值來預(yù)測(cè)下一個(gè)信號(hào)樣值，并僅把預(yù)測(cè)值與現(xiàn)實(shí)樣值的差值加以量化，編碼后進(jìn)行數(shù)字信號(hào)傳輸。在接收端經(jīng)過和發(fā)送端相同的預(yù)測(cè)操作，低通濾波器便可恢復(fù)出與原始信號(hào)相近的波形。其依據(jù)是語(yǔ)音信號(hào)相鄰樣本間有很強(qiáng)的相關(guān)性（冗余度高），因此相鄰樣本的差值遠(yuǎn)小于樣本值本身。DPCM是采用固定預(yù)測(cè)器與固定量化器的差值脈沖調(diào)制，它是分析ADPCM工作原理的基礎(chǔ)。差分脈沖編碼(DPCM)23DPCM的原理圖誤差信號(hào)會(huì)逐漸累積，導(dǎo)致可能語(yǔ)音出現(xiàn)嚴(yán)重失真24實(shí)際DPCM的結(jié)構(gòu)圖誤差信號(hào)不再累積25采用LPC編碼的DPCM的結(jié)構(gòu)圖編碼器P(z)解碼器P(z)對(duì)于相同的量化比特，DPCM可以獲得比PCM更高的信噪比，1階DPCM信噪比提高約5dB.在相同的信噪比情況下，DPCM的比特率比PCM小,1階DPCM減少1bit，3階DPCM減少2bit，編碼速率由64Kbps降到48Kbps26ADPCM綜合了APCM的自適應(yīng)特性和DPCM系統(tǒng)的差分特性，是一種性能比較好的波形編碼。它的核心思想是：用過去的樣本值估算下一個(gè)輸入樣本的預(yù)測(cè)值，線性預(yù)測(cè)P(z)的系數(shù)ai可變，預(yù)測(cè)誤差d(n)更小，量化的電平間隔可以更小，從而減小量化誤差使實(shí)際樣本值和預(yù)測(cè)值之間的差值。利用自適應(yīng)的思想改變量化階的大小，即用小的量化階去編碼小的差值，使用大的量化階去編碼大的差值；自適應(yīng)量化可以進(jìn)一步減小量化誤差。接收端的譯碼器使用與發(fā)送端相同的算法，利用傳送來的信號(hào)來確定量化器和逆量化器中的量化階大小，并且用它來預(yù)測(cè)下一個(gè)接收信號(hào)的預(yù)測(cè)值。ADPCM已經(jīng)形成國(guó)際標(biāo)準(zhǔn)：如G.721、G.723,以及G.726G.726提供4種碼率：40、32、24、16Kbps,其語(yǔ)音質(zhì)量相當(dāng)于64Kbps的PCM編碼自適應(yīng)差分脈沖編碼(ADPCM)27ADPCM系統(tǒng)編碼器原理圖每接收到一個(gè)語(yǔ)音信號(hào)，它根據(jù)語(yǔ)音信號(hào)的PCM編碼按照一定算法得到下次信號(hào)的預(yù)測(cè)值。把本次的語(yǔ)音信號(hào)的PCM編碼值與上次的預(yù)測(cè)值進(jìn)行對(duì)比，得到一個(gè)信號(hào)的差值，這個(gè)差值可以用很少的位長(zhǎng)來表示。通過自適應(yīng)量化技術(shù)，根據(jù)不同的編碼信號(hào)自動(dòng)調(diào)整量化的步長(zhǎng)，減小量化誤差。28G.72632kb/sADPCM-編碼器在編碼器中先將輸入的8位PCM碼轉(zhuǎn)換為14位線性碼同預(yù)測(cè)信號(hào)相減產(chǎn)生差值信號(hào)對(duì)差值信號(hào)進(jìn)行自適應(yīng)量化產(chǎn)生4比特的ADPCM代碼c(n)一方面把c(n)送給解碼器，另一方面利用c(n)進(jìn)行本地解碼，得到量化后的差值信號(hào)，同預(yù)測(cè)信號(hào)相加得到重建信號(hào)。自適應(yīng)預(yù)測(cè)器采用二階極點(diǎn)，六階零點(diǎn)的零極點(diǎn)預(yù)測(cè)器為了使量化能適應(yīng)語(yǔ)音、帶內(nèi)數(shù)據(jù)以及信令等具有不同統(tǒng)計(jì)特性以及不同幅度的輸入信號(hào)，自適應(yīng)要依據(jù)輸入信號(hào)的特性自動(dòng)改變自適應(yīng)數(shù)據(jù)參數(shù)來控制量階，這一功能由量化器定標(biāo)因子自適應(yīng)、自適應(yīng)速度控制、音信號(hào)和轉(zhuǎn)換檢測(cè)等功能單元完成。音信號(hào)和轉(zhuǎn)換檢測(cè)器

xi(n)c(n)xr(n)xe(n)k2(n)k1(n).目的：在不顯著損失語(yǔ)音質(zhì)量的前提下，將數(shù)碼率由64Kbps降到32Kbps29G.72632kb/sADPCM-解碼器解碼器的解碼過程實(shí)際已經(jīng)包含在編碼過程中，但是增加了線性碼到PCM碼的轉(zhuǎn)換和同步編碼調(diào)整單元。同步編碼調(diào)整的作用是防止多級(jí)同步級(jí)聯(lián)編碼工作時(shí)產(chǎn)生誤差積累，以保持較高的轉(zhuǎn)換質(zhì)量。c(n)xr(n)xp(n)xd(n)xc(n)

k1(n)y(n)30G.726ADPCM編譯碼器的輸入信號(hào)是G.711PCM代碼。G.711PCM碼采樣率是8kHz，每個(gè)代碼用8位表示，因此它的數(shù)據(jù)率為64kb/s。而G.726ADPCM的輸出代碼是“自適應(yīng)量化器”的輸出，該輸出是用4位表示的差分信號(hào)，它的采樣率仍然是8kHz，它的數(shù)據(jù)率為32kb/s，這樣就獲得了2∶1的數(shù)據(jù)壓縮。313.語(yǔ)音參數(shù)編碼與混合編碼

波形編碼的目標(biāo)是再現(xiàn)語(yǔ)音信號(hào)的時(shí)域波形，在32Kbps或之上的編碼速率下能夠得到非常好的語(yǔ)音質(zhì)量，也可以在24Kbps或16Kbps速率下得到可接受的通話質(zhì)量。但是很難進(jìn)一步降低編碼速率。參數(shù)編碼的目標(biāo)是構(gòu)造語(yǔ)音的生成模型，發(fā)送端傳送該模型的參數(shù)，在接收端通過該模型來合成還原語(yǔ)音。可以實(shí)現(xiàn)很低的編碼速率(低至2.4Kbps)?；旌暇幋a綜合利用了參數(shù)編碼速率低和波形編碼音質(zhì)好的優(yōu)點(diǎn)，實(shí)現(xiàn)了在中低速率下的較高質(zhì)量的合成語(yǔ)音。32參數(shù)編碼的基本思想是利用語(yǔ)音信號(hào)生成的聲學(xué)模型，通過信號(hào)分析技術(shù)獲得關(guān)于該模型的頻譜包絡(luò)、基音周期、清濁音判斷等的相關(guān)信息，在接收端通過這些信息來合成還原語(yǔ)音信號(hào)三種參數(shù)編碼器通道聲碼器共振峰聲碼器

線性預(yù)測(cè)(LPC)聲碼器33線性預(yù)測(cè)(LPC)聲碼器輸入語(yǔ)音線性預(yù)測(cè)分析器編碼器基音檢測(cè)器解碼器線性預(yù)測(cè)合成器激勵(lì)信號(hào)產(chǎn)生器合成語(yǔ)音LPC聲碼器原理圖發(fā)送端接收端基于全極點(diǎn)模型的LPC分析編碼參數(shù)：LPC參數(shù)、基音周期、增益、清濁判斷不對(duì)預(yù)測(cè)殘差信號(hào)進(jìn)行量化和傳輸（因此無法得到原來的波形）34LPC參數(shù)的編碼10階的全極點(diǎn)模型LPC分析LPC參數(shù)的選擇預(yù)測(cè)系數(shù)ai

量化誤差容易導(dǎo)致系統(tǒng)不穩(wěn)定（合成濾波器的極點(diǎn)在單位圓外）

一般不直接對(duì)預(yù)測(cè)參數(shù)編碼傳輸

反射系數(shù)ki

可以保證合成器的穩(wěn)定，但是不同的ki值對(duì)量化誤差的敏感度不一樣，需要采用非均勻量化用于LPC-10聲碼器線譜對(duì)參數(shù)LSP

是最常用的LPC編碼參數(shù)量化誤差相對(duì)獨(dú)立，即單個(gè)LSP參數(shù)的量化誤差只會(huì)影響其所對(duì)應(yīng)的共振峰的頻譜包絡(luò)，不會(huì)影響真?zhèn)€頻譜ki和LSP都可以從ai中很容易求得35LPC聲碼器的相關(guān)標(biāo)準(zhǔn)1976年美國(guó)軍方確定LPC-10作為2.4Kbps速率編碼器的推薦編碼方式1985年美國(guó)官方接受LPC-10作為聯(lián)邦標(biāo)準(zhǔn)(FS-15)

速率極低合成語(yǔ)音質(zhì)量很差、很不自然，主要是因?yàn)樵谇鍧嵋舻呐袛嘁约盎糁芷诘奶崛∩喜粔驕?zhǔn)確，合成激勵(lì)源信號(hào)和原來的LPC預(yù)測(cè)誤差信號(hào)相差較大1986年美國(guó)第三代保密電話裝置(STU-III)采用了LPC-10的增強(qiáng)型，LPC-10e

改善了激勵(lì)源：混合激勵(lì)代替LPC-10中的二元激勵(lì)；激勵(lì)脈沖加抖動(dòng)處理；多脈沖激勵(lì)改進(jìn)基音提取算法采用LSP代替ki36原始語(yǔ)音低通濾波100~3600HzA/D變換8KHz,12bits預(yù)加重計(jì)算分析相位基音分析存儲(chǔ)器低通濾波器清/濁音檢測(cè)2階逆濾波AMDF基音提取基音及清/濁音校正預(yù)測(cè)器分析存儲(chǔ)器計(jì)算RMS計(jì)算預(yù)測(cè)系數(shù)2幀參數(shù)存儲(chǔ)器2幀參數(shù)存儲(chǔ)器參數(shù)編碼誤差校正和映射并變串及同步產(chǎn)生編碼語(yǔ)音輸出pitchV/UVRMSRCLPC-10的編碼器框圖原始語(yǔ)音經(jīng)過一低通濾波器之后，輸入A/D轉(zhuǎn)換器中，以8KHz速率采樣得到數(shù)字化語(yǔ)音，然后每180個(gè)采樣分為一幀(22.5ms),以幀為處理單元，提取語(yǔ)音特征參數(shù)并加以編碼傳送。A/D變換后輸出的數(shù)字化語(yǔ)音，經(jīng)低通濾波，2階逆濾波后，再用平均幅度差函數(shù)(AMDF)計(jì)算基音周期，經(jīng)過平滑、校正得到該幀的基音周期。同時(shí)對(duì)低通濾波后輸出的數(shù)字語(yǔ)音進(jìn)行清/濁音檢測(cè)，經(jīng)平滑、校正后得到改正的該幀的清/濁音標(biāo)志。37編碼語(yǔ)音輸入并變串及同步檢測(cè)誤差檢測(cè)校正解碼參數(shù)解碼幀塊到基音塊的轉(zhuǎn)換與插值反射系數(shù)轉(zhuǎn)換成預(yù)測(cè)系數(shù)基音產(chǎn)生噪音產(chǎn)生清/濁音開關(guān)綜合器計(jì)算增益輸出存儲(chǔ)器去加重D/A變換低通濾波3600Hz合成語(yǔ)音輸出RMSRCpitchV/UV在收端首先通過查表，對(duì)碼流進(jìn)行檢錯(cuò)、糾錯(cuò)，經(jīng)過糾錯(cuò)譯碼后即可得到基音周期、清/濁音標(biāo)志、增益以及反射系數(shù)的數(shù)值。譯碼結(jié)果延時(shí)一幀輸出，使得輸出數(shù)據(jù)可以在過去一幀、現(xiàn)在一幀、將來一幀三幀內(nèi)進(jìn)行平滑。由于每幀語(yǔ)音只傳輸一組參數(shù)，考慮一幀內(nèi)可能有不止一個(gè)基音周期，因此要對(duì)接收數(shù)值進(jìn)行幀塊到基音塊的轉(zhuǎn)換和插值。LPC-10的解碼器框圖38濁音清音Pitching/voicing77RMS55sync11k155k255k355k455k54k64k74k84k93k102誤差校正020總計(jì)5453LPC-10的碼本設(shè)計(jì)39LPC-10聲碼器合成語(yǔ)音與原始語(yǔ)音的比較 LPC系統(tǒng)中，全部參數(shù)量化為2.4kb/s，如果不考慮信道誤碼，可懂度得分：3.6KHz原始語(yǔ)音LPC-10合成語(yǔ)音DRT高于95%90%正確DRT（有噪聲）92%~93%高于82%正確DAM高于654840語(yǔ)音混合編碼LPC聲碼器的主要問題：過于簡(jiǎn)化的二元激勵(lì)源(周期脈沖或隨機(jī)噪聲)是導(dǎo)致合成語(yǔ)音質(zhì)量較差的根本原因混合編碼的基本方法就是在LPC聲碼器的基礎(chǔ)上，采用更高質(zhì)量的波形編碼算法來優(yōu)化激勵(lì)源信號(hào)激勵(lì)源采取周期脈沖和噪聲信號(hào)的混合體(語(yǔ)音的長(zhǎng)時(shí)相關(guān)模型)閉環(huán)搜索算法—合成分析法(analysis-by-synthesis)來選擇最佳激勵(lì)源信號(hào)最佳激勵(lì)源選擇標(biāo)準(zhǔn)：采用感覺加權(quán)均方誤差最小判決準(zhǔn)則41語(yǔ)音信號(hào)的短時(shí)-長(zhǎng)時(shí)預(yù)測(cè)

（short-termandlong-termprediction）語(yǔ)音信號(hào)樣本間的短時(shí)相關(guān)特性

p取值很小，10-12，一般在一個(gè)基音周期以內(nèi)由聲道共振峰調(diào)制產(chǎn)生語(yǔ)音信號(hào)樣本間的長(zhǎng)時(shí)相關(guān)特性

P為基音周期不計(jì)長(zhǎng)時(shí)相關(guān)的線性預(yù)測(cè)合成模型計(jì)入長(zhǎng)時(shí)相關(guān)的線性預(yù)測(cè)合成模型激勵(lì)發(fā)生器1/A(Z)語(yǔ)音激勵(lì)發(fā)生器1/A(Z)1/P(Z)語(yǔ)音42短時(shí)預(yù)測(cè)<經(jīng)典的線性預(yù)測(cè)>去除了信號(hào)的短時(shí)相關(guān)性，殘差信號(hào)近似于聲門波激勵(lì)信號(hào)長(zhǎng)時(shí)預(yù)測(cè)去除信號(hào)中相鄰基音周期間的相關(guān)性，殘差信號(hào)類似于噪聲信號(hào)語(yǔ)音信號(hào)的短時(shí)-長(zhǎng)時(shí)預(yù)測(cè)

（short-termandlong-termprediction）

s(n)?=--piiiza1+?-=+--11)(kkPkzb+__u(n)v(n)

短時(shí)預(yù)測(cè)

長(zhǎng)時(shí)預(yù)測(cè)43語(yǔ)音信號(hào)的短時(shí)-長(zhǎng)時(shí)預(yù)測(cè)

（short-termandlong-termprediction）

u(n)中還有比較明顯的周期脈沖，需要較多的量化比特v(n)中脈沖不再明顯，信號(hào)更接近于白噪聲信號(hào)，易于量化LPC參數(shù)譜44在混合編碼算法中，需要對(duì)短時(shí)預(yù)測(cè)(LPC)參數(shù)、長(zhǎng)時(shí)預(yù)測(cè)參數(shù)b,基音周期P,以及預(yù)測(cè)殘差信號(hào)v(n)進(jìn)行量化編碼。算法的重點(diǎn)在v(n)的編碼

v(n)類似白噪聲信號(hào)不是直接對(duì)v(n)的每個(gè)樣本點(diǎn)編碼（編碼速率太高）一種作法是設(shè)定一個(gè)矢量碼本，其中的每一個(gè)矢量代表一種可能的v(n),對(duì)每一幀語(yǔ)音，都是從這個(gè)矢量碼本中選擇其中一個(gè)最佳矢量作為v(n)的替代品進(jìn)行合成語(yǔ)音

假定一幀語(yǔ)音有256個(gè)樣點(diǎn)，如果直接對(duì)每個(gè)v(n)的樣點(diǎn)用8bit量化，需要256*8bit。假定我們選擇的矢量碼本中有256個(gè)矢量，每一幀語(yǔ)音選擇其中一個(gè)矢量作為v(n)的近似，則只需要8個(gè)bit就可以量化一幀語(yǔ)音的v(n)?，F(xiàn)在問題的關(guān)鍵是如何從這256個(gè)矢量的碼本中選擇跟當(dāng)前語(yǔ)音的v(n)最接近的一個(gè)矢量？合成分析法（Analysis-by-synthesis）

45基于感覺加權(quán)濾波器(perceptuallyweightedfilter)和合成分析法（analysis-by-synthesis）的碼字矢量選擇算法激勵(lì)發(fā)生器線性預(yù)測(cè)綜合濾波器合成器均方誤差最小估值感覺加權(quán)濾波LPC分析原始語(yǔ)音信號(hào)LPC參數(shù)、P、b+合成語(yǔ)音誤差信號(hào)激勵(lì)發(fā)生器是從碼本里依次選擇一個(gè)碼字矢量，將所得的合成語(yǔ)音與原始語(yǔ)音相比較，得到一個(gè)誤差信號(hào)，該誤差信號(hào)經(jīng)過聽覺感知加權(quán)后，可以計(jì)算其均方誤差。比較碼本里每一個(gè)碼字矢量所對(duì)應(yīng)的均方誤差，選擇誤差最小的一個(gè)碼字適量作為v(n)的近似矢量。46感覺加權(quán)濾波器感覺加權(quán)濾波器的依據(jù)是人耳的聽覺掩蔽效應(yīng)。在語(yǔ)音頻譜中能量較高的頻段的噪聲相對(duì)于能量較低頻段的噪聲不易被感知，在度量原始語(yǔ)音與合成語(yǔ)音之間的誤差時(shí)記入此因素，語(yǔ)音能量高的頻段允許誤差大一些，能量低的頻段允許誤差小一些。引入頻域感覺加權(quán)濾波器來計(jì)算二者的誤差并使其達(dá)到最?。?7感覺加權(quán)濾波器取感覺加權(quán)濾波器在z域的表達(dá)式為：感覺加權(quán)濾波器的特性由預(yù)測(cè)系數(shù)和加權(quán)因子確定。r=1,W(z)=1,沒有加權(quán)r=0,W(z)=A(z)，加權(quán)系數(shù)和語(yǔ)音的共振峰（頻譜包絡(luò)）成反比在8KHz采樣頻率下,一般取r=0.8W(z)的實(shí)際作用就是使得實(shí)際誤差信號(hào)的譜不再平坦，而是有著與語(yǔ)音信號(hào)譜相似的包絡(luò)形狀。48感覺加權(quán)濾波器A(z)1/A(z),信號(hào)頻譜包絡(luò)A(z/0.8)W(z)(r=0.8)可見，加權(quán)濾波器跟信號(hào)的頻譜包絡(luò)大至成反比關(guān)系，也就是說，在信號(hào)能量大的地方，誤差對(duì)整體誤差的貢獻(xiàn)較?。ㄒ?yàn)槿硕鷮?duì)這些誤差不太敏感），信號(hào)能量小的地方，誤差對(duì)整體誤差的貢獻(xiàn)較大。這樣，可以使得所選擇的激勵(lì)源碼字矢量合成的語(yǔ)音聽覺上效果最好。49多脈沖激勵(lì)線性預(yù)測(cè)聲碼器(Multi-pulselinearpredictivecoding,MPLPC)規(guī)則脈沖激勵(lì)線性預(yù)測(cè)聲碼器(Regularpulseexcitationlinearpredictivecoding,RPELPC)碼激勵(lì)線性預(yù)測(cè)聲碼

人人文庫(kù)> 全部分類> 教育資料 > 輔導(dǎo)培訓(xùn)

溫馨提示

1. 本站所有資源如無特殊說明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽，若沒有圖紙預(yù)覽就沒有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間，僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理，對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容，請(qǐng)與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

語(yǔ)音信號(hào)處理課件

文檔簡(jiǎn)介

溫馨提示

最新文檔

評(píng)論

語(yǔ)音信號(hào)處理課件

文檔簡(jiǎn)介

溫馨提示

最新文檔

評(píng)論

相關(guān)文檔