語音重點(diǎn)總結(jié)_第1頁
語音重點(diǎn)總結(jié)_第2頁
語音重點(diǎn)總結(jié)_第3頁
語音重點(diǎn)總結(jié)_第4頁
語音重點(diǎn)總結(jié)_第5頁
已閱讀5頁,還剩8頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

1、1 .function of prefilter: suppress the component of input signal which exceed fs/2, prevent aliasing; suppressinterference caused by50Hz electricityo prefilteris band-pass filter, in general,low and up cut-off frequency are: fH=3400Hz, fL=60100Hz。2. sampling: transform time continuous signal into a

2、time discrete signalb5E2RGbCAP氣流從喉向上經(jīng)過口腔或鼻腔后從嘴或鼻孔向外輻射,期間的傳輸 通道稱為聲道。氣流流過聲道時(shí)猶如通過了一個(gè)具有某種諧振特性 的腔體,放大某些頻率,在頻譜上形成相應(yīng)位置的峰起,稱為共振 峰。p1EanqFDPw短時(shí)自相關(guān)函數(shù)和長時(shí)自相關(guān)函數(shù)可以用來描述語音的幅度特性 功率譜密度:1.語音中不同頻譜分量的平均概率可以用長時(shí)平均譜 密度來表示。2.語音波形高頻分量對語音總能量的貢獻(xiàn)很小,但是 高頻分量帶有重要的語音信息,平均功率譜約在250-500Hz處最大,而高于此頻率的功率譜約以每倍頻程610dB下降。3.語音信 號的短時(shí)頻譜并不總是低通特

3、性。輔音有較高的頻譜分量,顯噪聲 特性;元音從總體上看是低通的,顯示明顯的局部特性。 DXDiTa9E3d語音信號具有很強(qiáng)的“時(shí)變特性” 在有些段落中它具有很強(qiáng)的周期性,有些段落中又具有噪聲特 性,而且周期性語音和噪聲語音也在不斷變化之中。RTCrpUDGiT 語音信號是非平穩(wěn)的,但具有“準(zhǔn)平穩(wěn)特性” 在較短的時(shí)間間隔內(nèi)一般20200ms),可以認(rèn)為語音信號的 特征基本保持不變。5PCzVD7HxA嘉數(shù)字語音信號處理中,通常采取短時(shí)分析技術(shù)。元音和輔音的區(qū)別:1.從功能上來講,元音往往能自成音節(jié),輔音 一般不能獨(dú)立地構(gòu)成音節(jié)。2.在物理屬性方面,元音基本上由樂音 構(gòu)成,輔音則有一定的噪音。3.

4、在聽覺上,發(fā)元音時(shí),聲帶振動, 比較響亮;發(fā)輔音時(shí),有的聲帶不振動,自然不夠響亮,有的聲帶 即使振動,但由于在聲腔中受到某種阻礙,還是不如元音響亮。4 .在生理屬性方面,主要有三個(gè)方面的區(qū)別:第一,發(fā)輔音的時(shí) 候,發(fā)音器官的某一部位形成阻礙,氣流在只有克服阻礙才能發(fā)出 來;發(fā)元音的時(shí)候,氣流通過生門使聲帶發(fā)生振動,氣流在其通道 上不受到阻礙,只受到各種共鳴。第二,發(fā)輔音時(shí),因?yàn)橐朔?種阻礙,氣流就比較強(qiáng);發(fā)元音時(shí),因無需克服阻礙,氣流就比較 弱。jLBHrnAILg決定元音音質(zhì)的因素:主要有三個(gè)方面的因素,一、舌位的高低, 二、舌位的前后,三、嘴唇的圓展。這三個(gè)因素的不同組合,便能 發(fā)出不

5、同的元音xHAQX74J0X在求語音信號頻譜時(shí),頻率越高,相應(yīng)的成分越小。預(yù)加重的 目的是提升高頻部分,使信號的頻譜變得平坦。以便于頻譜分析和 聲道參數(shù)分析。一般在語音信號數(shù)字化后,通過一個(gè)一階數(shù)字濾波 器:H(z=1-mz-1, m 接近 1。LDAYtRyKfE為什么取10 - 30ms,因?yàn)楦鶕?jù)人的發(fā)聲生理結(jié)構(gòu)變化的連續(xù) 性,在此時(shí)間段內(nèi),聲帶、聲道、口腔的特性幾乎不變,語音信號 近似平穩(wěn)。Zzz6ZB2Ltk加窗的作用:得到連續(xù)的語音特征抑制吉爾伯特效應(yīng)抑制頻譜泄 漏窗口的長度卬頻率分辨率Df=fs/N。Df隨N的增加而減少, 頻率分辨率得到提高,但時(shí)間分辨率降低(與窗長成反比。應(yīng)根據(jù)

6、 不同的應(yīng)用場合來選擇窗口的長度N,應(yīng)包含7個(gè)基音周期,因此 可選擇100300點(diǎn)為宜。dvzfvkwMIl時(shí)域波形:幅度一時(shí)間圖。大致得出音節(jié)的起始點(diǎn)、清音和濁 音以及濁音的基音頻率頻譜特性:幅度譜圖。得出基音周期、共振峰頻率及其位置。語音信號的時(shí)域分析:短時(shí)能量及短時(shí)平均幅度分析(1.幅度分 析的依據(jù):是基于語音信號幅度隨時(shí)間變化。清音段幅度小,其能 量集中于高頻段;濁音段幅度較大,其能量集中于低頻段。2.短時(shí) 能量函數(shù)和短時(shí)平均幅度函數(shù)作用:(1區(qū)分清/濁音:(2在信噪比 高的情況下,能進(jìn)行有聲/無聲判決(3大致能定出濁音變?yōu)榍逡舻?時(shí)刻,或反之 短時(shí)過零率分析(定義:信號跨越橫軸的情況

7、。對于 連續(xù)信號,觀察語音時(shí)域波形通過橫軸的情況;對于離散信號,相 鄰的采樣值具有不同的代數(shù)符號,也就是樣點(diǎn)改變符號的次數(shù)。作 用:1.區(qū)分清/濁音:濁音平均過零率低,集中在低頻端;清音平均 過零率高,集中在高頻端。2.從背景噪聲中找出是否有語音,以及 語音的起點(diǎn)。 短時(shí)相關(guān)分析短時(shí)平均幅度差函數(shù)rqyn14ZNXI在實(shí)際應(yīng)用中,短時(shí)平均過零率容易受到A/D轉(zhuǎn)換是的直流偏 移、50Hz交流電源的干擾以及噪聲的影響.減少這些干擾可以有兩 種方法:一種是采用帶通濾波器消除信號中的直流和50Hz低頻分 量;另一種是用過門限率來修改過零率,減少隨機(jī)噪聲的影響。EmxvxOtOco短時(shí)自相關(guān)函數(shù)的定義:

8、(1說明當(dāng)時(shí)域信號為周期信號時(shí),自相關(guān)函數(shù)也是周期性函數(shù),兩者具有同樣的周期。TjT(2Rn(k 為偶函數(shù),Rn(k = Rn(k(3Rn(0最大,Rn(03 |RffBTTW*=En,對于確定信號,Rn(0是信號能量;對于隨機(jī)信號或周期信號,Rn(0是平均功率。SixE2yXPq5相關(guān)函數(shù)的作用:1.區(qū)分清/濁音.濁音語音的自相關(guān)函數(shù)具有一 定的周期性。清音語音的自相關(guān)函數(shù)不具有周期性,類似噪聲,有 點(diǎn)如語音信號本身。2.估計(jì)濁音語音信號的周期,即估計(jì)基音周 期。6ewMyirQFL短時(shí)平均幅度差函數(shù)的意義:短時(shí)自相關(guān)函數(shù)是語音信號時(shí)域分 析的重要參量,但由于乘法運(yùn)算所需要的時(shí)間長。為了避免

9、乘法, 一個(gè)簡單的方法就是利用差值,為此常常采用另一種與自相關(guān)函數(shù) 有類似作用的參量,短時(shí)平均幅度差函數(shù)。kavU42VRUs短時(shí)平均幅度差函數(shù)和自相關(guān)函數(shù)的關(guān)系是:濁音是一個(gè)準(zhǔn)周期信號,在一幀語音內(nèi)基音周期近似恒定,因此, 短時(shí)平均幅度差函數(shù)在濁音語音的基音周期上出現(xiàn)極小值,而在清 音語音中沒有明顯的極小值。y6v3ALoS89語譜圖:寬帶語譜圖窄時(shí)窗,時(shí)間分辨率高,步率分辨率低縱條 紋窄帶語譜圖 橫條紋 窄時(shí)窗,時(shí)間分辨率低,頻率分辨率 高LPC:提供了預(yù)測功能;提供了聲道模型和聲道模型的參數(shù)估計(jì)方 法;基本思想:語音樣本之間存在相關(guān)性,一個(gè)語音信號的樣本可 以用過去若干個(gè)樣本的線性組合來

10、逼近;M2ub6vSTnP要想使模型的假定較好的符合語音的實(shí)際產(chǎn)生模型主要考慮兩個(gè)因 素:模型的階數(shù)要與共振峰的個(gè)數(shù)相吻合;聲門脈沖形狀和口唇輻 射影響的補(bǔ)償??紤]了上述兩個(gè)因素的線性預(yù)測分析,預(yù)測誤差序 列近似于白噪聲序列,表明由某一短時(shí)信號所得到的線性預(yù)測系數(shù) 能較好的描述產(chǎn)生這段語音的聲道特性。0YujCfmUCw線性預(yù)測階數(shù)P的選擇:P的選擇應(yīng)綜合考慮譜估計(jì)精度、計(jì)算量、 存儲量;原則:保證有足夠的極點(diǎn)來模擬聲道的諧振結(jié)構(gòu),每kHz 一 個(gè)共振峰,每共振峰需要兩個(gè)極點(diǎn),外加幾個(gè)逼近零點(diǎn)的極點(diǎn);經(jīng) 驗(yàn)公式:eUts8ZQVRd 分析幀長N的選擇N小,計(jì)算量小;N大,估計(jì)譜的精度高。N可取

11、23個(gè)基音周期長度;LPC譜估計(jì)的特點(diǎn):在信號能量較大的區(qū)域譜峰值的地方),LPC 譜和信號譜很接近;而在譜的谷底相差比較大。sQsAEJkW5T 倒譜分析:由卷積信號求得參與卷積的各個(gè)信號的過程稱為解卷過程。解卷算法可以分為兩大類:第一類是首先為線性系統(tǒng)V(Z建立一個(gè) 模型,然后對模型參數(shù)按照某種最佳準(zhǔn)則進(jìn)行估計(jì),這種方法稱為 參數(shù)解卷方法。采用的模型可以分為全極點(diǎn)模型AR模型)和零極 點(diǎn)模型ARMA模型),如果采用最小均方誤差準(zhǔn)則對AR模型進(jìn)行估 計(jì),就得到線性預(yù)測編碼算法(LPC。第二類算法稱為非模型解卷。 同態(tài)信號處理完成解卷任務(wù)就是其中最重要的一種。GMsIasNXkA 倒譜分析優(yōu)缺

12、點(diǎn):對語音信號的某一幀同樣可以分析出它的短時(shí)倒 譜參數(shù),總的說來,無論對于語音通信、語音合成或語音識別,倒 譜參數(shù)所含的信息比其他參數(shù)多,也就是語音質(zhì)量好,識別正確率 高。但其缺點(diǎn)是運(yùn)算量比其他參數(shù)大,盡管如此,倒譜分析方法仍 不失為一種有效的語音信號的分析方法。TIrRGchYzg同態(tài)系統(tǒng)可以分解為兩個(gè)特征系統(tǒng) 即特征系統(tǒng)和逆特征系統(tǒng))指 取決于信號的組合規(guī)則)和一個(gè)線性系統(tǒng) 僅取決于處理要求) 7EqZcWLZNX結(jié)論:一個(gè)周期沖激的有限長度序列,其復(fù)倒譜也是一個(gè)同周期長 度的周期沖激序列,只是其長度變?yōu)闊o限長度、振幅隨著K值的增 加而衰減,衰減速度比原來序列要快,顯然,周期沖激序列的倒譜

13、 的這些性質(zhì)對于語音信號的分析是很有用的,這意味著除了原點(diǎn)之 外,可以用“高時(shí)窗”來從語音信號的倒譜中提取濁音激勵(lì)信號的 倒譜,從而使倒譜法提取音調(diào)成為現(xiàn)實(shí)。lzq7IGf02E.壓縮編碼原因:語音信號的壓縮編碼是研究如何降低語音信號編碼 速率的問題。把數(shù)碼率低于64Kbit/s的語音編碼方法稱為語音壓縮編碼技術(shù) 語音編碼分類:波形編碼 從語音信號的波形出發(fā),對波形的抽樣 值、預(yù)測值、預(yù)測誤差進(jìn)行編碼,它以重建語音波形為目的,力圖 使重建波形接近原信號波形。特點(diǎn):利用抽樣定理,恢復(fù)原始信號 的波形優(yōu)點(diǎn):適應(yīng)能力強(qiáng),重建語音質(zhì)量好缺點(diǎn):編碼速率較高 類型:PCM,自適應(yīng)增量調(diào)制ADM),自適應(yīng)差

14、分編碼調(diào)制 ADPCM),自適應(yīng)預(yù)測編碼APC。速率通常在1664kbit/s范圍),參數(shù)編碼提取語音的一些特征信息進(jìn)行編碼,在收端利用這 些特征參數(shù)合成語音。優(yōu)點(diǎn):編碼速率低。速率通常是在 4.8kbit/s以下。缺點(diǎn):語音的音質(zhì)和自然度較差,很難辨別說話 人。有一定的可懂度 類型:LPC線性預(yù)測編碼),混合編碼波形 編碼+參數(shù)編碼。介于波形編碼和參數(shù)編碼的一種編碼。即在參數(shù)編 碼的基礎(chǔ)上引入了波形編碼的一些特征??稍?-16kbit/s范圍 內(nèi)達(dá)到良好的語音質(zhì)量。類型:子帶編碼)zvpgeqJ1hk衡量話音編碼器的參數(shù):數(shù)據(jù)輸出速率,延遲時(shí)間,話音質(zhì)量,價(jià) 格實(shí)現(xiàn)代價(jià))語音信號的冗余度:幅

15、度非均勻分布;樣本之間的相關(guān)性;周期之 間的相關(guān)性;基音之間的相關(guān)性;靜止系數(shù)話音間隙);長期相關(guān) 性long term correlation) NrpoJac3v1對大信號來說,雖然絕對量化誤差較大,但是因?yàn)椋?)大信號出 現(xiàn)的機(jī)會不多,2)信噪比相對誤差)與小信號是一致的,所以對 總的話音質(zhì)量影響不大。1nowfTG4KI增量調(diào)制(delta modulation,DM是一種預(yù)測編碼技術(shù),是對實(shí)際 的采樣信號與預(yù)測的采樣信號之差的極性進(jìn)行編碼,將極性變成“0”和“1”這兩種可能的取值之一。如果實(shí)際的采樣信號與預(yù)測 的采樣信號之差的極性為“正”,則用“1”表示;相反則用“0” 表示。DM編

16、碼系統(tǒng)又稱為“1位系統(tǒng)”。fjnFLDa5Zo若縮小抽樣值被編碼信號)的變化范圍,就可以在保證信噪比不變 的情況下,減小編碼的位數(shù)。這就是差值編碼的中心思想 tfnNhnE6e5根據(jù)前些時(shí)刻的樣值來預(yù)測現(xiàn)時(shí)刻的樣值,只要傳遞預(yù)測值和實(shí)際 值之差,而不需要每個(gè)樣值的編碼都傳。這種方法就稱為DPCM編 碼。HbmVN777sL能夠?qū)崿F(xiàn)自適應(yīng)預(yù)測功能,或者自適應(yīng)量化功能或者同時(shí)實(shí)現(xiàn)兩種 自適應(yīng)功能的DPCM系統(tǒng)稱為ADPCM系統(tǒng)。ADPCM的兩個(gè)目標(biāo):盡可 能去掉語音信號中的冗余信號;以有效的方式將可用比特分配給語 音信號 V7l4jRB8Hs自適應(yīng)預(yù)測:1前向自適應(yīng)預(yù)測算法根據(jù)短時(shí)間的相關(guān)特性R(

17、i, 求短時(shí)的最佳預(yù)測系數(shù);特點(diǎn):運(yùn)算量大,延遲時(shí)間大,不能用于高 速系統(tǒng)。)2)后向序貫自適應(yīng)預(yù)測算法 采用不斷修正預(yù)測系數(shù) hi(n的方法來減小瞬時(shí)平方差Ed(n,使hi(n逐步的接近 hiopt(n。) 83lcPA59W9最佳量化:分層電平為相鄰量化電平的中點(diǎn)量化電平是該量化間隔內(nèi)經(jīng)常出現(xiàn)的瞬時(shí)電平值自適應(yīng)量化的基本思想:自適應(yīng)量化的基本思想是使量化器的量化 級階距)能夠隨著輸入信號d(n瞬時(shí)值得變化作自適應(yīng)調(diào)整,從 而使量化誤差的均方值最小。即:自適應(yīng)量化指量化臺階隨信號變化 而變化,使量化誤差減小mZkklkzaaP實(shí)現(xiàn)方法:前向自適應(yīng)量化AQF:優(yōu)點(diǎn):量化誤差小,信噪比 大;缺點(diǎn)

18、:量階的信息要與話音信號一起送到收端譯碼器,否則, 收端無法知道該時(shí)刻的量階值后向自適應(yīng)量化(AQB:優(yōu)點(diǎn):接收 端不需要量階的信息,因?yàn)榱侩A的信息可以從接收碼中提取,碼速 率低,實(shí)現(xiàn)容易。缺點(diǎn):因?yàn)榱炕`差影響量化值得準(zhǔn)確度,即信 噪比下降,但影響較小。AVktR43bpw32kb/sADPCM算法主要技術(shù)指標(biāo):1)語音信號經(jīng)過ADPCM編碼 后,客觀測量SNR應(yīng)完全符合PCM系統(tǒng)的指標(biāo)要求,主觀聽覺測試 性能非常接近于PCM質(zhì)量。2)經(jīng)過四次音頻轉(zhuǎn)接后,主觀語音測 試質(zhì)量良好,主觀平均分MOS)大于3.5以上。3)在信道誤碼低 于0.001的情況下能穩(wěn)定工作ORjBnOwcEd標(biāo)量量化對語

19、音信號的每個(gè)取樣值,或語音信號的每個(gè)特征參數(shù)值 分別獨(dú)立地進(jìn)行量化,稱為標(biāo)量量化一維)。矢量量化將語音信號 的取樣值或語音的特征參數(shù)值分成若干組,每組構(gòu)成一個(gè)矢量,然 后分別對每個(gè)矢量進(jìn)行量化。這種量化就稱為矢量量化,也稱訓(xùn)練矢量集碼本。uEh0U1YfmhLBG算法:(1初始化(2碼本分割(3碼字更新(4碼矢更新(5碼本 大小確認(rèn)失真?zhèn)榷龋?1歐氏距離 D (x,y=(S|x - y |r/N, (0W1WNT -均方誤差-絕對值平均誤差I(lǐng)Ag9qLsgBX(2 對數(shù)頻譜距離V(w=log(f(w -log(g(w D(g,f=J|V(w|r dw/2n WwghWvVhPE(3倒譜距離 D

20、 (x,y=S(c - c 2, (IWnWp語音信號的參數(shù)編碼:見上參數(shù)編碼:1.通道聲碼器2.共振峰聲碼器3.線性預(yù)測聲碼器混合編碼:1.基于全極點(diǎn)模型MPLPC,CELP; 2.基于正弦模型MBE碼激勵(lì)線性預(yù)測(CELP :基本思想:是用一個(gè)矢量量化所產(chǎn)生的碼本 中的碼字表示每幀的長時(shí)預(yù)測所得到的殘差;兩種構(gòu)成碼本的方 法:確定性和隨機(jī)性”碼本。asfpsfpi4k語音識別方法:模版匹配法。隨機(jī)模型法。概率語法分析法?;?ANN的方法、基于模糊數(shù)學(xué)的方法、句法語音識別等ooeyYZTjjl 語音識別的問題和困難:連續(xù)語音中音素、音節(jié)或單詞之間的調(diào)音 結(jié)合引起的音變使基元模型之間的邊界不

21、明確;語法語義規(guī)則的建 立與理解很難;語音信息的變化很大,不同人不同,同一個(gè)人也不 同;語音的模糊性;單個(gè)字母及單個(gè)詞發(fā)音時(shí)的語音特性受上下文 環(huán)境的影響,音量、音調(diào)、重音、音速等都可不同;環(huán)境噪聲和干 擾對語音識別有嚴(yán)重影響;BkeGuInkxI語音識別原理:模式匹配原理:未知語音模式與已知語音模式逐一比 較,最佳匹配的參考模式作為識別結(jié)果。識別步驟:1.學(xué)習(xí)訓(xùn)練. 分析語音特征參數(shù),建立模板庫;2.識別測試.按照一定的測度和 準(zhǔn)則與系統(tǒng)模型進(jìn)行比較,通過判決得出結(jié)果;語音識別本質(zhì)就是 模式識別PgdO0sRlMo預(yù)處理:反混疊濾波;模/數(shù)轉(zhuǎn)換;自動增益控制;去除聲門激勵(lì)和 口腔輻射。正確選擇識別單元;特征提取:從波形信號獲取一組描述語音信號特征的參數(shù);參數(shù)的好 壞對識別精度影響很大;識別參數(shù):平均能量、過零率、頻譜、共 振峰、倒譜、線性預(yù)測系數(shù)、HMM的概率函數(shù)、矢量量化的矢量。 可以一種或多種參數(shù)并用;需要考慮參數(shù)的穩(wěn)定性、識別率、計(jì)算 量等;對于漢語還存在聲調(diào)的提取超音段信息);3cdXwckm15 距離測度:歐氏距離及其變形;對數(shù)似然比失真測度;加權(quán)超音段信 息識別測度;HMM之間的距離測度;主觀感知距離測度; h8c52WOngMDTW的基本思想:將時(shí)間規(guī)整與距離測度結(jié)合起來,采用動態(tài)規(guī)劃 技術(shù),比較兩個(gè)大小不同的模式,解決語音識別中

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論