語音重點(diǎn)總結(jié)

上傳人：s*** IP屬地：天津上傳時(shí)間：2022-10-06 格式：DOCX 頁數(shù)：13 大小：18.21KB 積分：18 舉報(bào) 版權(quán)申訴

已閱讀5頁，還剩8頁未讀，繼續(xù)免費(fèi)閱讀

版權(quán)說明：本文檔由用戶提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

1、1 .function of prefilter： suppress the component of input signal which exceed fs/2, prevent aliasing； suppressinterference caused by50Hz electricityo prefilteris band-pass filter, in general,low and up cut-off frequency are： fH=3400Hz, fL=60100Hz。2. sampling: transform time continuous signal into a

2、time discrete signalb5E2RGbCAP氣流從喉向上經(jīng)過口腔或鼻腔后從嘴或鼻孔向外輻射，期間的傳輸通道稱為聲道。氣流流過聲道時(shí)猶如通過了一個(gè)具有某種諧振特性的腔體，放大某些頻率，在頻譜上形成相應(yīng)位置的峰起，稱為共振峰。p1EanqFDPw短時(shí)自相關(guān)函數(shù)和長時(shí)自相關(guān)函數(shù)可以用來描述語音的幅度特性功率譜密度：1.語音中不同頻譜分量的平均概率可以用長時(shí)平均譜密度來表示。2.語音波形高頻分量對語音總能量的貢獻(xiàn)很小，但是高頻分量帶有重要的語音信息，平均功率譜約在250-500Hz處最大，而高于此頻率的功率譜約以每倍頻程610dB下降。3.語音信號的短時(shí)頻譜并不總是低通特

3、性。輔音有較高的頻譜分量，顯噪聲特性；元音從總體上看是低通的，顯示明顯的局部特性。 DXDiTa9E3d語音信號具有很強(qiáng)的“時(shí)變特性” 在有些段落中它具有很強(qiáng)的周期性，有些段落中又具有噪聲特性，而且周期性語音和噪聲語音也在不斷變化之中。RTCrpUDGiT 語音信號是非平穩(wěn)的，但具有“準(zhǔn)平穩(wěn)特性” 在較短的時(shí)間間隔內(nèi)一般20200ms)，可以認(rèn)為語音信號的特征基本保持不變。5PCzVD7HxA嘉數(shù)字語音信號處理中，通常采取短時(shí)分析技術(shù)。元音和輔音的區(qū)別：1.從功能上來講，元音往往能自成音節(jié)，輔音一般不能獨(dú)立地構(gòu)成音節(jié)。2.在物理屬性方面，元音基本上由樂音構(gòu)成，輔音則有一定的噪音。3.

4、在聽覺上，發(fā)元音時(shí)，聲帶振動，比較響亮；發(fā)輔音時(shí)，有的聲帶不振動，自然不夠響亮，有的聲帶即使振動，但由于在聲腔中受到某種阻礙，還是不如元音響亮。4 .在生理屬性方面，主要有三個(gè)方面的區(qū)別：第一，發(fā)輔音的時(shí) 候，發(fā)音器官的某一部位形成阻礙，氣流在只有克服阻礙才能發(fā)出來；發(fā)元音的時(shí)候，氣流通過生門使聲帶發(fā)生振動，氣流在其通道上不受到阻礙，只受到各種共鳴。第二，發(fā)輔音時(shí)，因?yàn)橐朔?種阻礙，氣流就比較強(qiáng)；發(fā)元音時(shí)，因無需克服阻礙，氣流就比較弱。jLBHrnAILg決定元音音質(zhì)的因素：主要有三個(gè)方面的因素，一、舌位的高低，二、舌位的前后，三、嘴唇的圓展。這三個(gè)因素的不同組合，便能發(fā)出不

5、同的元音xHAQX74J0X在求語音信號頻譜時(shí)，頻率越高，相應(yīng)的成分越小。預(yù)加重的目的是提升高頻部分，使信號的頻譜變得平坦。以便于頻譜分析和聲道參數(shù)分析。一般在語音信號數(shù)字化后，通過一個(gè)一階數(shù)字濾波器：H(z=1-mz-1, m 接近 1。LDAYtRyKfE為什么取10 - 30ms，因?yàn)楦鶕?jù)人的發(fā)聲生理結(jié)構(gòu)變化的連續(xù) 性，在此時(shí)間段內(nèi)，聲帶、聲道、口腔的特性幾乎不變，語音信號近似平穩(wěn)。Zzz6ZB2Ltk加窗的作用：得到連續(xù)的語音特征抑制吉爾伯特效應(yīng)抑制頻譜泄漏窗口的長度卬頻率分辨率Df=fs/N。Df隨N的增加而減少，頻率分辨率得到提高，但時(shí)間分辨率降低（與窗長成反比。應(yīng)根據(jù)

6、不同的應(yīng)用場合來選擇窗口的長度N，應(yīng)包含7個(gè)基音周期，因此可選擇100300點(diǎn)為宜。dvzfvkwMIl時(shí)域波形：幅度一時(shí)間圖。大致得出音節(jié)的起始點(diǎn)、清音和濁音以及濁音的基音頻率頻譜特性：幅度譜圖。得出基音周期、共振峰頻率及其位置。語音信號的時(shí)域分析：短時(shí)能量及短時(shí)平均幅度分析（1.幅度分析的依據(jù)：是基于語音信號幅度隨時(shí)間變化。清音段幅度小，其能量集中于高頻段；濁音段幅度較大，其能量集中于低頻段。2.短時(shí) 能量函數(shù)和短時(shí)平均幅度函數(shù)作用:（1區(qū)分清/濁音：（2在信噪比高的情況下，能進(jìn)行有聲/無聲判決（3大致能定出濁音變?yōu)榍逡舻?時(shí)刻，或反之短時(shí)過零率分析（定義：信號跨越橫軸的情況

7、。對于連續(xù)信號，觀察語音時(shí)域波形通過橫軸的情況；對于離散信號，相鄰的采樣值具有不同的代數(shù)符號，也就是樣點(diǎn)改變符號的次數(shù)。作用:1.區(qū)分清/濁音：濁音平均過零率低，集中在低頻端；清音平均過零率高，集中在高頻端。2.從背景噪聲中找出是否有語音，以及語音的起點(diǎn)。短時(shí)相關(guān)分析短時(shí)平均幅度差函數(shù)rqyn14ZNXI在實(shí)際應(yīng)用中，短時(shí)平均過零率容易受到A/D轉(zhuǎn)換是的直流偏移、50Hz交流電源的干擾以及噪聲的影響.減少這些干擾可以有兩種方法：一種是采用帶通濾波器消除信號中的直流和50Hz低頻分量；另一種是用過門限率來修改過零率，減少隨機(jī)噪聲的影響。EmxvxOtOco短時(shí)自相關(guān)函數(shù)的定義：

8、(1說明當(dāng)時(shí)域信號為周期信號時(shí)，自相關(guān)函數(shù)也是周期性函數(shù)，兩者具有同樣的周期。TjT(2Rn(k 為偶函數(shù)，Rn(k = Rn(k(3Rn(0最大，Rn(03 |RffBTTW*=En,對于確定信號，Rn(0是信號能量；對于隨機(jī)信號或周期信號，Rn(0是平均功率。SixE2yXPq5相關(guān)函數(shù)的作用:1.區(qū)分清/濁音.濁音語音的自相關(guān)函數(shù)具有一定的周期性。清音語音的自相關(guān)函數(shù)不具有周期性，類似噪聲，有點(diǎn)如語音信號本身。2.估計(jì)濁音語音信號的周期，即估計(jì)基音周期。6ewMyirQFL短時(shí)平均幅度差函數(shù)的意義:短時(shí)自相關(guān)函數(shù)是語音信號時(shí)域分析的重要參量，但由于乘法運(yùn)算所需要的時(shí)間長。為了避免

9、乘法，一個(gè)簡單的方法就是利用差值，為此常常采用另一種與自相關(guān)函數(shù) 有類似作用的參量，短時(shí)平均幅度差函數(shù)。kavU42VRUs短時(shí)平均幅度差函數(shù)和自相關(guān)函數(shù)的關(guān)系是：濁音是一個(gè)準(zhǔn)周期信號，在一幀語音內(nèi)基音周期近似恒定，因此，短時(shí)平均幅度差函數(shù)在濁音語音的基音周期上出現(xiàn)極小值，而在清音語音中沒有明顯的極小值。y6v3ALoS89語譜圖：寬帶語譜圖窄時(shí)窗，時(shí)間分辨率高，步率分辨率低縱條紋窄帶語譜圖橫條紋窄時(shí)窗，時(shí)間分辨率低，頻率分辨率高LPC:提供了預(yù)測功能；提供了聲道模型和聲道模型的參數(shù)估計(jì)方法；基本思想：語音樣本之間存在相關(guān)性，一個(gè)語音信號的樣本可以用過去若干個(gè)樣本的線性組合來

10、逼近；M2ub6vSTnP要想使模型的假定較好的符合語音的實(shí)際產(chǎn)生模型主要考慮兩個(gè)因素：模型的階數(shù)要與共振峰的個(gè)數(shù)相吻合；聲門脈沖形狀和口唇輻射影響的補(bǔ)償?？紤]了上述兩個(gè)因素的線性預(yù)測分析，預(yù)測誤差序列近似于白噪聲序列，表明由某一短時(shí)信號所得到的線性預(yù)測系數(shù) 能較好的描述產(chǎn)生這段語音的聲道特性。0YujCfmUCw線性預(yù)測階數(shù)P的選擇:P的選擇應(yīng)綜合考慮譜估計(jì)精度、計(jì)算量、存儲量；原則：保證有足夠的極點(diǎn)來模擬聲道的諧振結(jié)構(gòu)，每kHz 一個(gè)共振峰，每共振峰需要兩個(gè)極點(diǎn)，外加幾個(gè)逼近零點(diǎn)的極點(diǎn)；經(jīng) 驗(yàn)公式：eUts8ZQVRd 分析幀長N的選擇N小，計(jì)算量小；N大，估計(jì)譜的精度高。N可取

11、23個(gè)基音周期長度；LPC譜估計(jì)的特點(diǎn)：在信號能量較大的區(qū)域譜峰值的地方），LPC 譜和信號譜很接近；而在譜的谷底相差比較大。sQsAEJkW5T 倒譜分析：由卷積信號求得參與卷積的各個(gè)信號的過程稱為解卷過程。解卷算法可以分為兩大類：第一類是首先為線性系統(tǒng)V（Z建立一個(gè) 模型，然后對模型參數(shù)按照某種最佳準(zhǔn)則進(jìn)行估計(jì)，這種方法稱為參數(shù)解卷方法。采用的模型可以分為全極點(diǎn)模型AR模型）和零極點(diǎn)模型ARMA模型），如果采用最小均方誤差準(zhǔn)則對AR模型進(jìn)行估計(jì)，就得到線性預(yù)測編碼算法（LPC。第二類算法稱為非模型解卷。同態(tài)信號處理完成解卷任務(wù)就是其中最重要的一種。GMsIasNXkA 倒譜分析優(yōu)缺

12、點(diǎn)：對語音信號的某一幀同樣可以分析出它的短時(shí)倒譜參數(shù)，總的說來，無論對于語音通信、語音合成或語音識別，倒譜參數(shù)所含的信息比其他參數(shù)多，也就是語音質(zhì)量好，識別正確率高。但其缺點(diǎn)是運(yùn)算量比其他參數(shù)大，盡管如此，倒譜分析方法仍不失為一種有效的語音信號的分析方法。TIrRGchYzg同態(tài)系統(tǒng)可以分解為兩個(gè)特征系統(tǒng) 即特征系統(tǒng)和逆特征系統(tǒng)）指取決于信號的組合規(guī)則）和一個(gè)線性系統(tǒng) 僅取決于處理要求） 7EqZcWLZNX結(jié)論：一個(gè)周期沖激的有限長度序列，其復(fù)倒譜也是一個(gè)同周期長度的周期沖激序列，只是其長度變?yōu)闊o限長度、振幅隨著K值的增加而衰減，衰減速度比原來序列要快，顯然，周期沖激序列的倒譜

13、的這些性質(zhì)對于語音信號的分析是很有用的，這意味著除了原點(diǎn)之外，可以用“高時(shí)窗”來從語音信號的倒譜中提取濁音激勵(lì)信號的倒譜，從而使倒譜法提取音調(diào)成為現(xiàn)實(shí)。lzq7IGf02E.壓縮編碼原因：語音信號的壓縮編碼是研究如何降低語音信號編碼速率的問題。把數(shù)碼率低于64Kbit/s的語音編碼方法稱為語音壓縮編碼技術(shù) 語音編碼分類：波形編碼從語音信號的波形出發(fā)，對波形的抽樣值、預(yù)測值、預(yù)測誤差進(jìn)行編碼，它以重建語音波形為目的，力圖使重建波形接近原信號波形。特點(diǎn)：利用抽樣定理，恢復(fù)原始信號的波形優(yōu)點(diǎn)：適應(yīng)能力強(qiáng)，重建語音質(zhì)量好缺點(diǎn)：編碼速率較高類型：PCM，自適應(yīng)增量調(diào)制ADM），自適應(yīng)差

14、分編碼調(diào)制 ADPCM），自適應(yīng)預(yù)測編碼APC。速率通常在1664kbit/s范圍），參數(shù)編碼提取語音的一些特征信息進(jìn)行編碼，在收端利用這些特征參數(shù)合成語音。優(yōu)點(diǎn)：編碼速率低。速率通常是在 4.8kbit/s以下。缺點(diǎn)：語音的音質(zhì)和自然度較差，很難辨別說話人。有一定的可懂度類型:LPC線性預(yù)測編碼），混合編碼波形編碼+參數(shù)編碼。介于波形編碼和參數(shù)編碼的一種編碼。即在參數(shù)編碼的基礎(chǔ)上引入了波形編碼的一些特征?？稍?-16kbit/s范圍內(nèi)達(dá)到良好的語音質(zhì)量。類型：子帶編碼）zvpgeqJ1hk衡量話音編碼器的參數(shù)：數(shù)據(jù)輸出速率，延遲時(shí)間，話音質(zhì)量，價(jià) 格實(shí)現(xiàn)代價(jià)）語音信號的冗余度：幅

15、度非均勻分布；樣本之間的相關(guān)性；周期之間的相關(guān)性；基音之間的相關(guān)性；靜止系數(shù)話音間隙）；長期相關(guān) 性long term correlation） NrpoJac3v1對大信號來說，雖然絕對量化誤差較大，但是因?yàn)椋?）大信號出現(xiàn)的機(jī)會不多，2）信噪比相對誤差）與小信號是一致的，所以對總的話音質(zhì)量影響不大。1nowfTG4KI增量調(diào)制（delta modulation，DM是一種預(yù)測編碼技術(shù)，是對實(shí)際的采樣信號與預(yù)測的采樣信號之差的極性進(jìn)行編碼，將極性變成“0”和“1”這兩種可能的取值之一。如果實(shí)際的采樣信號與預(yù)測的采樣信號之差的極性為“正”，則用“1”表示；相反則用“0” 表示。DM編

16、碼系統(tǒng)又稱為“1位系統(tǒng)”。fjnFLDa5Zo若縮小抽樣值被編碼信號）的變化范圍，就可以在保證信噪比不變的情況下，減小編碼的位數(shù)。這就是差值編碼的中心思想 tfnNhnE6e5根據(jù)前些時(shí)刻的樣值來預(yù)測現(xiàn)時(shí)刻的樣值，只要傳遞預(yù)測值和實(shí)際值之差，而不需要每個(gè)樣值的編碼都傳。這種方法就稱為DPCM編碼。HbmVN777sL能夠?qū)崿F(xiàn)自適應(yīng)預(yù)測功能，或者自適應(yīng)量化功能或者同時(shí)實(shí)現(xiàn)兩種自適應(yīng)功能的DPCM系統(tǒng)稱為ADPCM系統(tǒng)。ADPCM的兩個(gè)目標(biāo)：盡可能去掉語音信號中的冗余信號；以有效的方式將可用比特分配給語音信號 V7l4jRB8Hs自適應(yīng)預(yù)測：1前向自適應(yīng)預(yù)測算法根據(jù)短時(shí)間的相關(guān)特性R（

17、i, 求短時(shí)的最佳預(yù)測系數(shù)；特點(diǎn)：運(yùn)算量大，延遲時(shí)間大，不能用于高速系統(tǒng)。）2）后向序貫自適應(yīng)預(yù)測算法采用不斷修正預(yù)測系數(shù) hi（n的方法來減小瞬時(shí)平方差Ed（n,使hi（n逐步的接近 hiopt（n。） 83lcPA59W9最佳量化：分層電平為相鄰量化電平的中點(diǎn)量化電平是該量化間隔內(nèi)經(jīng)常出現(xiàn)的瞬時(shí)電平值自適應(yīng)量化的基本思想：自適應(yīng)量化的基本思想是使量化器的量化級階距）能夠隨著輸入信號d（n瞬時(shí)值得變化作自適應(yīng)調(diào)整，從而使量化誤差的均方值最小。即：自適應(yīng)量化指量化臺階隨信號變化而變化，使量化誤差減小mZkklkzaaP實(shí)現(xiàn)方法：前向自適應(yīng)量化AQF:優(yōu)點(diǎn)：量化誤差小，信噪比大；缺點(diǎn)

18、：量階的信息要與話音信號一起送到收端譯碼器，否則，收端無法知道該時(shí)刻的量階值后向自適應(yīng)量化（AQB:優(yōu)點(diǎn)：接收端不需要量階的信息，因?yàn)榱侩A的信息可以從接收碼中提取，碼速率低，實(shí)現(xiàn)容易。缺點(diǎn)：因?yàn)榱炕`差影響量化值得準(zhǔn)確度，即信噪比下降，但影響較小。AVktR43bpw32kb/sADPCM算法主要技術(shù)指標(biāo)：1）語音信號經(jīng)過ADPCM編碼后，客觀測量SNR應(yīng)完全符合PCM系統(tǒng)的指標(biāo)要求，主觀聽覺測試性能非常接近于PCM質(zhì)量。2）經(jīng)過四次音頻轉(zhuǎn)接后，主觀語音測試質(zhì)量良好，主觀平均分MOS）大于3.5以上。3）在信道誤碼低于0.001的情況下能穩(wěn)定工作ORjBnOwcEd標(biāo)量量化對語

19、音信號的每個(gè)取樣值，或語音信號的每個(gè)特征參數(shù)值分別獨(dú)立地進(jìn)行量化，稱為標(biāo)量量化一維)。矢量量化將語音信號的取樣值或語音的特征參數(shù)值分成若干組，每組構(gòu)成一個(gè)矢量，然后分別對每個(gè)矢量進(jìn)行量化。這種量化就稱為矢量量化，也稱訓(xùn)練矢量集碼本。uEh0U1YfmhLBG算法：(1初始化(2碼本分割(3碼字更新(4碼矢更新(5碼本大小確認(rèn)失真?zhèn)榷龋?1歐氏距離 D (x,y=(S|x - y |r/N, (0W1WNT -均方誤差-絕對值平均誤差I(lǐng)Ag9qLsgBX(2 對數(shù)頻譜距離V(w=log(f(w -log(g(w D(g,f=J|V(w|r dw/2n WwghWvVhPE(3倒譜距離 D

20、 (x,y=S(c - c 2, (IWnWp語音信號的參數(shù)編碼：見上參數(shù)編碼：1.通道聲碼器2.共振峰聲碼器3.線性預(yù)測聲碼器混合編碼：1.基于全極點(diǎn)模型MPLPC,CELP； 2.基于正弦模型MBE碼激勵(lì)線性預(yù)測（CELP :基本思想:是用一個(gè)矢量量化所產(chǎn)生的碼本中的碼字表示每幀的長時(shí)預(yù)測所得到的殘差；兩種構(gòu)成碼本的方法：確定性和隨機(jī)性”碼本。asfpsfpi4k語音識別方法：模版匹配法。隨機(jī)模型法。概率語法分析法?；?ANN的方法、基于模糊數(shù)學(xué)的方法、句法語音識別等ooeyYZTjjl 語音識別的問題和困難：連續(xù)語音中音素、音節(jié)或單詞之間的調(diào)音結(jié)合引起的音變使基元模型之間的邊界不

21、明確；語法語義規(guī)則的建立與理解很難；語音信息的變化很大，不同人不同，同一個(gè)人也不同；語音的模糊性；單個(gè)字母及單個(gè)詞發(fā)音時(shí)的語音特性受上下文環(huán)境的影響，音量、音調(diào)、重音、音速等都可不同；環(huán)境噪聲和干擾對語音識別有嚴(yán)重影響；BkeGuInkxI語音識別原理:模式匹配原理：未知語音模式與已知語音模式逐一比較，最佳匹配的參考模式作為識別結(jié)果。識別步驟：1.學(xué)習(xí)訓(xùn)練. 分析語音特征參數(shù)，建立模板庫；2.識別測試.按照一定的測度和準(zhǔn)則與系統(tǒng)模型進(jìn)行比較，通過判決得出結(jié)果；語音識別本質(zhì)就是模式識別PgdO0sRlMo預(yù)處理:反混疊濾波；模/數(shù)轉(zhuǎn)換；自動增益控制；去除聲門激勵(lì)和口腔輻射。正確選擇識別單元；特征提取:從波形信號獲取一組描述語音信號特征的參數(shù)；參數(shù)的好壞對識別精度影響很大；識別參數(shù)：平均能量、過零率、頻譜、共振峰、倒譜、線性預(yù)測系數(shù)、HMM的概率函數(shù)、矢量量化的矢量。可以一種或多種參數(shù)并用；需要考慮參數(shù)的穩(wěn)定性、識別率、計(jì)算量等；對于漢語還存在聲調(diào)的提取超音段信息）；3cdXwckm15 距離測度:歐氏距離及其變形；對數(shù)似然比失真測度；加權(quán)超音段信息識別測度；HMM之間的距離測度；主觀感知距離測度； h8c52WOngMDTW的基本思想：將時(shí)間規(guī)整與距離測度結(jié)合起來，采用動態(tài)規(guī)劃技術(shù)，比較兩個(gè)大小不同的模式，解決語音識別中

人人文庫> 全部分類> 圖紙下載 > 畢業(yè)設(shè)計(jì)

溫馨提示

1. 本站所有資源如無特殊說明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽，若沒有圖紙預(yù)覽就沒有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 人人文庫網(wǎng)僅提供信息存儲空間，僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理，對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對任何下載內(nèi)容負(fù)責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容，請與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

語音重點(diǎn)總結(jié)

文檔簡介

溫馨提示

最新文檔

評論

語音重點(diǎn)總結(jié)

文檔簡介

溫馨提示

最新文檔

評論

相關(guān)文檔