語(yǔ)音信號(hào)處理復(fù)習(xí)華南理工_第1頁(yè)
語(yǔ)音信號(hào)處理復(fù)習(xí)華南理工_第2頁(yè)
語(yǔ)音信號(hào)處理復(fù)習(xí)華南理工_第3頁(yè)
語(yǔ)音信號(hào)處理復(fù)習(xí)華南理工_第4頁(yè)
語(yǔ)音信號(hào)處理復(fù)習(xí)華南理工_第5頁(yè)
已閱讀5頁(yè),還剩2頁(yè)未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

語(yǔ)音信號(hào)處理復(fù)習(xí)第二章語(yǔ)音信號(hào)處理基礎(chǔ)知識(shí)1,定義:(1)語(yǔ)音是指人們講話時(shí)發(fā)出的話語(yǔ),它是一種聲音,具有聲學(xué)特征的物理特性。而它又是一種特殊的聲音,是人們進(jìn)行信息交流的聲音,是組成語(yǔ)言的聲音。因此語(yǔ)音是語(yǔ)言和聲音的組合體。(2)語(yǔ)音是由人的發(fā)聲器官發(fā)出的一種聲波,它具有音色、音調(diào)、音強(qiáng)和音長(zhǎng)。①音色:是一種聲音區(qū)別于另一種聲音的基本特征②音調(diào):指聲音的高低,取決于聲波的頻率③音強(qiáng):指聲音的強(qiáng)弱,取決于聲波的振幅④音長(zhǎng):指聲音的長(zhǎng)短,取決于發(fā)音時(shí)間的長(zhǎng)短(3)任何語(yǔ)言都有語(yǔ)言的元音和輔音兩種音素:元音:當(dāng)聲帶振動(dòng)發(fā)出的聲音氣流從喉腔、咽腔進(jìn)入口腔從唇腔出去時(shí),這些聲腔完全開放,氣流順利通過(guò)。一個(gè)重要的聲學(xué)特性是共振峰。輔音:由于通路的某一部分封閉起來(lái)或者受到阻礙,氣流被阻不能暢通。包括清音和濁音。①濁音:聲帶振動(dòng)②清音:聲帶不振動(dòng)(4)人的聽覺系統(tǒng)有兩個(gè)重要的特性:①時(shí)頻分析特性:人的耳蝸就像一個(gè)頻譜分析儀,將復(fù)雜的信號(hào)分解成各種頻率分量。②聽覺掩蔽效應(yīng):心理聲學(xué)中的聽覺掩蔽效應(yīng)指在一個(gè)強(qiáng)信號(hào)附近,弱信號(hào)將變得不可聞,被掩蔽掉了。掩蔽效應(yīng)分為同時(shí)掩蔽和短時(shí)掩蔽。2,語(yǔ)言信號(hào)生成的數(shù)學(xué)模型:①激勵(lì)模型:在聲門(聲帶)以下,稱為“聲門子系統(tǒng)”,它負(fù)責(zé)產(chǎn)生激勵(lì)振動(dòng),是激勵(lì)系統(tǒng)②聲道模型:從聲門到嘴唇的呼氣通道是聲道,是聲道系統(tǒng)③輻射模型:語(yǔ)音從嘴唇輻射出去,則嘴唇以外是輻射系統(tǒng)3,語(yǔ)音信號(hào)的特性分析:(1)語(yǔ)音信號(hào)的時(shí)域波形和頻譜特性:①時(shí)域波形:周期性,周期對(duì)應(yīng)聲帶振動(dòng)的頻率,即基音頻率。②頻譜特性:共振峰特性。元音頻譜有明顯的幾個(gè)凸起點(diǎn),它們出現(xiàn)的頻率就是共振峰頻率。清輔音頻譜峰點(diǎn)之間的間隔是隨機(jī)的,沒有周期分量。(2)語(yǔ)譜圖:語(yǔ)譜圖是一種三維圖譜,它是表示語(yǔ)音頻譜隨時(shí)間變化的圖形,其縱軸為頻率,橫軸為時(shí)間,任一給定頻率成分在給定時(shí)刻的強(qiáng)弱用相應(yīng)點(diǎn)的灰度或色調(diào)的濃淡來(lái)表示。語(yǔ)譜圖中顯示了大量的與語(yǔ)音的語(yǔ)句特性相關(guān)的信息,它綜合了頻譜圖和時(shí)域波形的特點(diǎn),明顯地顯示出語(yǔ)音頻譜隨時(shí)間的變化情況,或者說(shuō)是一種動(dòng)態(tài)的頻譜。記錄這種譜圖的儀器就是語(yǔ)譜儀。語(yǔ)譜圖中的花紋有橫杠、豎直條和亂紋等。①橫杠:與時(shí)間軸平行的幾條深黑色帶紋,它們相應(yīng)于短時(shí)譜中的幾個(gè)凸點(diǎn),也就是共振峰。②豎直條:與時(shí)間軸垂直的一條窄黑帶,每個(gè)豎直條相當(dāng)于一個(gè)基音,條紋間的距離表示基音周期。③亂紋:清擦音從語(yǔ)譜圖上看表現(xiàn)為亂紋,亂紋的深淺和上下限反映了噪聲能量在頻域中的分布。4,語(yǔ)音信號(hào)的統(tǒng)計(jì)特性:語(yǔ)音信號(hào)的統(tǒng)計(jì)特性可以用它的波形振幅概率密度函數(shù)和一些統(tǒng)計(jì)量(如均值和自相關(guān)函數(shù))來(lái)描述。第三章語(yǔ)音信號(hào)分析1,概述:語(yǔ)音信號(hào)的特性及表征其本質(zhì)特征的參數(shù)均是隨時(shí)間變化的,所以它是一個(gè)非平穩(wěn)過(guò)程。雖然它具有時(shí)變特性,但是從一個(gè)短時(shí)間范圍(10~30ms)內(nèi),其特性基本保持不變,即相對(duì)穩(wěn)定,可以將其看作一個(gè)準(zhǔn)穩(wěn)態(tài)過(guò)程,也就是短時(shí)平穩(wěn)過(guò)程。2,語(yǔ)音信號(hào)的預(yù)處理:①預(yù)加重:通常語(yǔ)音信號(hào)的高頻分量很小,預(yù)加重目的是提升高頻部分,使信號(hào)頻譜變得平坦,保持在低頻到高頻的整個(gè)頻帶中,能用同樣的信噪比求頻譜,以便于頻譜分析或聲道參數(shù)分析。②加窗分幀:分幀通過(guò)可移動(dòng)的有限長(zhǎng)度窗口進(jìn)行加權(quán)的方法實(shí)現(xiàn)。3,語(yǔ)音信號(hào)的時(shí)域分析:(1)語(yǔ)音信號(hào)的時(shí)域分析就是分析和提取語(yǔ)音信號(hào)的時(shí)域參數(shù):短時(shí)能量、短時(shí)過(guò)零率、短時(shí)自相關(guān)函數(shù)和短時(shí)平均幅度差函數(shù)。①短時(shí)能量:②短時(shí)過(guò)零率:表示一幀語(yǔ)音中語(yǔ)音信號(hào)波形穿過(guò)橫軸(零電平)的次數(shù)。濁音具有較低的過(guò)零率,而清音具有較高的過(guò)零率。③短時(shí)自相關(guān)函數(shù):④短時(shí)平均幅度差函數(shù):4,語(yǔ)音信號(hào)的頻域分析:分析語(yǔ)音信號(hào)的頻域特征,使用短時(shí)傅立葉變換對(duì)語(yǔ)音信號(hào)的頻譜進(jìn)行分析。5,語(yǔ)音信號(hào)的倒譜分析:(1)同態(tài)信號(hào)處理:指將非線性問(wèn)題轉(zhuǎn)換成線性問(wèn)題的處理方法。由于語(yǔ)音信號(hào)可以視為聲門激勵(lì)信號(hào)和聲道沖激響應(yīng)的卷積,因此可以通過(guò)卷積——乘積——加法的方法來(lái)處理。(2)倒譜與復(fù)倒譜:倒譜是語(yǔ)音信號(hào)的對(duì)數(shù)幅度譜的傅里葉逆變換,得到的是頻域信息。復(fù)倒譜是語(yǔ)音信號(hào)對(duì)數(shù)頻譜的傅立葉逆變換,得到的是時(shí)域信息。6,MFCC特征提取流程:①對(duì)輸入語(yǔ)音進(jìn)行預(yù)加重、加窗、分幀處理②FFT變換③取絕對(duì)值或者平方④Mel濾波:⑤取對(duì)數(shù)⑥離散余弦變換DCT:⑦動(dòng)態(tài)特征MFCC,輸出特征向量7,語(yǔ)音信號(hào)的線性預(yù)測(cè):線性預(yù)測(cè)的基本思想是用過(guò)去的p個(gè)樣點(diǎn)值來(lái)預(yù)測(cè)現(xiàn)在或未來(lái)的樣點(diǎn)值。8,基音周期的估計(jì):基音是指發(fā)濁音時(shí)聲帶振動(dòng)所引起的周期性,而基因周期是指聲帶振動(dòng)頻率的倒數(shù)。主要包括以下三種方法:①自相關(guān)法②平均幅度差法③倒譜法。9,共振峰估計(jì):聲道可以看成一根具有非均勻截面的聲管,在發(fā)音時(shí)起共鳴器的作用。當(dāng)準(zhǔn)周期脈沖激勵(lì)進(jìn)入聲道時(shí)會(huì)引起共振特性,產(chǎn)生一組共振頻率,稱為共振峰。共振峰參數(shù)包括共振峰頻率和頻帶寬度。共振峰信息包含在語(yǔ)音頻譜包絡(luò)中,因此共振峰頻率提取的關(guān)鍵是估計(jì)自然語(yǔ)音頻譜包絡(luò),并認(rèn)為譜包絡(luò)中的最大值就是共振峰。主要包括倒譜法和LPC法。第四章矢量量化技術(shù)1,矢量量化基本原理:將若干個(gè)標(biāo)量數(shù)據(jù)組成一個(gè)矢量在多維空間給予整體量化,從而可以在信息量損失較小的情況下壓縮數(shù)據(jù)量。矢量量化有效地應(yīng)用了矢量中各元素之間的相關(guān)性,因此可以比標(biāo)量量化有更好的壓縮效果。2,矢量量化參數(shù):3,矢量量化的兩個(gè)基本問(wèn)題:(1)設(shè)計(jì)一個(gè)好的碼本(2)未知矢量的量化4,矢量量化的失真測(cè)度:失真測(cè)度是將輸入矢量X用碼本重構(gòu)矢量Y來(lái)表征時(shí)所產(chǎn)生的誤差或失真的度量方法,它可以描述兩個(gè)或多個(gè)模型矢量間的相似程度。失真測(cè)度的選擇好壞將直接影響到聚類效果和量化精度,進(jìn)而影響到語(yǔ)音信號(hào)矢量量化處理系統(tǒng)的性能。主要包括歐氏距離測(cè)度、線性預(yù)測(cè)失真測(cè)度、識(shí)別失真測(cè)度。5,矢量量化器的最佳碼本設(shè)計(jì):最近鄰準(zhǔn)則、LBG算法第五章隱馬爾可夫模型1,概述:(1)隱馬爾可夫模型(HMM)是語(yǔ)音信號(hào)的一種統(tǒng)計(jì)模型。HMM是一個(gè)輸出符號(hào)序列的統(tǒng)計(jì)模型,具有N個(gè)狀態(tài),它按一定的周期從一個(gè)狀態(tài)轉(zhuǎn)移到另一個(gè)狀態(tài),每次轉(zhuǎn)移時(shí),輸出一個(gè)符號(hào)。轉(zhuǎn)移到哪個(gè)狀態(tài),轉(zhuǎn)移時(shí)輸出什么符號(hào),分別由狀態(tài)轉(zhuǎn)移概率和轉(zhuǎn)移時(shí)的輸出概率來(lái)決定。因?yàn)橹荒苡^測(cè)到輸出符號(hào)序列,而不能直接觀測(cè)到狀態(tài)轉(zhuǎn)移序列(即模型輸出符號(hào)序列時(shí),是通過(guò)了哪些狀態(tài)路徑無(wú)法得知),所以稱為隱藏的馬爾可夫模型。(2)HMM用于語(yǔ)音信號(hào)建模時(shí),是對(duì)語(yǔ)音信號(hào)的時(shí)間序列結(jié)構(gòu)建立的統(tǒng)計(jì)模型,它是數(shù)學(xué)上的雙重隨機(jī)過(guò)程:一個(gè)是具有有限狀態(tài)數(shù)的Markov鏈來(lái)模擬語(yǔ)音信號(hào)統(tǒng)計(jì)特性變化的隱含的隨機(jī)過(guò)程,另一個(gè)是與Markov鏈每一個(gè)狀態(tài)相關(guān)聯(lián)的觀測(cè)序列的隨機(jī)過(guò)程。2,HMM的基本元素:M={S、O、A、B、π、F}①S——模型中狀態(tài)的有限集合③A——狀態(tài)轉(zhuǎn)移概率的集合⑤π——系統(tǒng)初始狀態(tài)概率的集合②O——輸出的觀測(cè)值符號(hào)的集合④B——輸出觀測(cè)值概率的集合⑥F——系統(tǒng)終了狀態(tài)的集合3,隱馬爾可夫模型的基本算法:(1)識(shí)別問(wèn)題:給定觀察符號(hào)序列O和模型M={A,B,π},如何快速有效地計(jì)算觀察符號(hào)序列的輸出概率P(O/M)???赏ㄟ^(guò)前向-后向(F-B)算法解決。(2)狀態(tài)轉(zhuǎn)移估計(jì)(路徑選擇)問(wèn)題:給定觀察字符序列和輸出該序列的模型后,如何有效地確定與之對(duì)應(yīng)的最佳的狀態(tài)序列,即估計(jì)出模型產(chǎn)生觀察字符序列時(shí)最可能經(jīng)過(guò)的路徑??赏ㄟ^(guò)維特比算法解決。(3)模型訓(xùn)練問(wèn)題:實(shí)際上是一個(gè)模型參數(shù)估計(jì)問(wèn)題,即對(duì)于初始模型和給定用于訓(xùn)練的觀察符號(hào)序列,如何調(diào)整模型M的參數(shù),使得輸出概率P最大?。可通過(guò)Baum-Welch算法解決。第七章語(yǔ)音編碼1,概述:(1)語(yǔ)音編碼主要針對(duì)信源編碼,解決有效性問(wèn)題,通過(guò)對(duì)信源的壓縮、擾亂、加密等一系類處理,力求用最少的數(shù)碼率傳遞最大的信息量,使信號(hào)更適宜傳輸和存儲(chǔ)。(2)語(yǔ)音編碼通常分為三類:波形編碼、參數(shù)編碼和混合編碼。波形編碼和參數(shù)編碼的主要區(qū)別在于重建的語(yǔ)音信號(hào)時(shí)域信號(hào)是否在波形上與原信號(hào)一致。①波形編碼:力圖使重建后的語(yǔ)音時(shí)域信號(hào)波形與原語(yǔ)音信號(hào)波形保持一致,具有適應(yīng)能力強(qiáng)、話音質(zhì)量好的特點(diǎn),但需要用到的編碼速率高。②參數(shù)編碼:根據(jù)對(duì)聲音形成機(jī)理的分析,在以重建語(yǔ)音信號(hào)具有足夠的可懂性的原則上,通過(guò)建立語(yǔ)音信號(hào)的產(chǎn)生模型,提取代表語(yǔ)音信號(hào)特征的參數(shù)來(lái)編碼,而不一定在波形上與原信號(hào)匹配。優(yōu)點(diǎn)是編碼速率較低,缺點(diǎn)是語(yǔ)音質(zhì)量差,特別是自然度低,對(duì)說(shuō)話環(huán)境的噪聲敏感。利用參數(shù)編碼實(shí)現(xiàn)語(yǔ)音通信的設(shè)備稱為聲碼器,包括通道聲碼器、共振峰聲碼器、同態(tài)聲碼器和線性預(yù)測(cè)聲碼器。③混合編碼:基于語(yǔ)音產(chǎn)生模型的假定并采用了分析合成技術(shù),同時(shí)又利用了語(yǔ)音時(shí)域波形信息,增強(qiáng)了重建語(yǔ)音的自然度,使得語(yǔ)音質(zhì)量有明顯的提高。2,語(yǔ)音壓縮:對(duì)語(yǔ)音信號(hào)進(jìn)行壓縮編碼的基本依據(jù)是語(yǔ)音信號(hào)的冗余度和人的聽覺感知機(jī)理。語(yǔ)音壓縮編碼極限速率就80~100bit/s。3,語(yǔ)音編碼的關(guān)鍵技術(shù):①線性預(yù)測(cè)②合成分析法③感覺加權(quán)濾波器4,波形編碼:①脈沖編碼調(diào)制PCM②自適應(yīng)預(yù)測(cè)編碼③自適應(yīng)變換編碼④子帶編碼(頻帶分割編碼):先使用帶通濾波器將語(yǔ)音信號(hào)分割成若干個(gè)頻帶(子帶),然后用調(diào)制的方法將濾波后的子帶信號(hào)進(jìn)行頻譜平移成低通信號(hào),以利于降低取樣率進(jìn)行抽取,然后再用奈奎斯特率進(jìn)行取樣,最后再分別進(jìn)行編碼處理。而信號(hào)的恢復(fù)則是完全相反的過(guò)程。5,參數(shù)編碼:①LPC線性預(yù)測(cè)聲碼器②LPC-10編碼器6,混合編碼:碼激勵(lì)線性預(yù)測(cè)編碼CELP。語(yǔ)音生成模型把語(yǔ)音的生成看作一些激勵(lì)信號(hào)激勵(lì)一個(gè)模擬聲道的濾波器得到的響應(yīng)。CELP采用矢量量化技術(shù)對(duì)激勵(lì)信號(hào)編碼,將事先經(jīng)過(guò)訓(xùn)練的一組碼矢量組成一個(gè)碼本,然后對(duì)每一幀語(yǔ)音信號(hào)從這組碼本中選出一個(gè)在感知加權(quán)誤差最小意義上的最佳碼矢量作為激勵(lì)源。第八章語(yǔ)音合成1,定義:解決如何讓機(jī)器說(shuō)話的問(wèn)題,其目的是將任意文本實(shí)時(shí)地轉(zhuǎn)換成自然語(yǔ)音輸出,并且輸出的語(yǔ)音清晰可懂。語(yǔ)音合成系統(tǒng)是一個(gè)單向系統(tǒng),從機(jī)器到人。2,合成方法:(1)波形合成法:直接把要合成的語(yǔ)音的發(fā)音波形進(jìn)行存儲(chǔ)或者進(jìn)行波形編碼壓縮后存儲(chǔ),合成重放時(shí)再解碼組合輸出。(2)參數(shù)合成法:為了節(jié)約存儲(chǔ)容量,必須先對(duì)語(yǔ)音信號(hào)進(jìn)行分析,提取語(yǔ)音的參數(shù),,以壓縮存儲(chǔ)量,然后由人工控制這些參數(shù)的合成。包括發(fā)音器官參數(shù)合成和聲道模型參數(shù)合成。包括共振峰合成法和LPC線性預(yù)測(cè)法。(3)規(guī)則合成法:通過(guò)語(yǔ)音學(xué)規(guī)則產(chǎn)生語(yǔ)音。3,文語(yǔ)轉(zhuǎn)換系統(tǒng):指把文本文件通過(guò)一定的硬軟件轉(zhuǎn)換后由計(jì)算機(jī)或電話語(yǔ)音系統(tǒng)等輸出語(yǔ)音的過(guò)程,并盡量使合成的語(yǔ)音具有良好的自然度和可懂度。包括三個(gè)模塊:文本分析、韻律控制和語(yǔ)音合成。(1)文本分析:使計(jì)算機(jī)能夠識(shí)別文字,并根據(jù)文本的上下關(guān)系在一定程度上對(duì)文本進(jìn)行理解,從而知道要發(fā)什么音、怎么發(fā)音,并將發(fā)音的方式告訴計(jì)算機(jī),讓計(jì)算機(jī)知道文本中哪些是詞,哪些是短語(yǔ)、句子。(2)韻律控制:任何人說(shuō)話都有韻律特征,有不同的聲調(diào)、語(yǔ)氣、停頓方式,發(fā)音長(zhǎng)短也各不相同。(3)語(yǔ)音合成:文語(yǔ)轉(zhuǎn)換系統(tǒng)中一般采用波形拼接來(lái)合成語(yǔ)音?;敉蒋B加法PSOLA,其核心思想是直接對(duì)存儲(chǔ)于音庫(kù)的語(yǔ)音運(yùn)用PSOLA算法來(lái)進(jìn)行拼接,從而合成完整的語(yǔ)音。第九章語(yǔ)音識(shí)別1,定義:語(yǔ)音識(shí)別主要指讓機(jī)器聽懂人說(shuō)的話,即在各種情況下,準(zhǔn)確地識(shí)別出語(yǔ)音的內(nèi)容,從而根據(jù)其信息,執(zhí)行人的各種意圖。2,語(yǔ)音模型:HMM模型3,語(yǔ)音識(shí)別的類型:①孤立詞識(shí)別②連接詞識(shí)別③連續(xù)語(yǔ)音識(shí)別和理解(自然說(shuō)話方式)④會(huì)話語(yǔ)音識(shí)別3,語(yǔ)音識(shí)別方法:(1)HMM法:主要用于大詞匯量語(yǔ)音識(shí)別系統(tǒng),需要較多的模型訓(xùn)練數(shù)據(jù),較長(zhǎng)的訓(xùn)練時(shí)間和識(shí)別時(shí)間,較大的存儲(chǔ)空間。(2)VQ法:所需模型訓(xùn)練數(shù)據(jù)小,訓(xùn)練時(shí)間短,識(shí)別時(shí)間短,存儲(chǔ)空間小,但是識(shí)別性能不夠好。(3)DTW法:主要用于小詞匯量、孤立字詞識(shí)別系統(tǒng)。4,動(dòng)態(tài)時(shí)間規(guī)整DTW:(1)目的:提高識(shí)別率,克服發(fā)同一音而發(fā)音長(zhǎng)短不同的問(wèn)題。(2)基本思想:把未知量伸長(zhǎng)或縮短(壓擴(kuò)),直到與參考模板的長(zhǎng)度一致,在這個(gè)過(guò)程中未知單詞的時(shí)間軸會(huì)產(chǎn)生扭曲或彎折,以便其特征量與標(biāo)準(zhǔn)模式對(duì)應(yīng)。5,孤立字(詞)識(shí)別系統(tǒng):指識(shí)別孤立發(fā)音的字或詞的系統(tǒng)。利用模式匹配方法,把單詞整個(gè)作為識(shí)別單元。在訓(xùn)練階段,用戶將詞匯表中每一個(gè)詞依次說(shuō)一遍,并且將其特征矢量時(shí)間序列作為模板存入模板庫(kù)。在識(shí)別階段,將輸入語(yǔ)音的特征矢量時(shí)間序列依次與模板庫(kù)中的每個(gè)模板進(jìn)行相似度比較,將相似度最高者作為識(shí)別結(jié)果輸出。第十章說(shuō)話人識(shí)別與語(yǔ)種辨識(shí)1,定義:(1)自動(dòng)說(shuō)話人識(shí)別是一種自動(dòng)識(shí)別說(shuō)話人的過(guò)程。它與語(yǔ)音識(shí)別的區(qū)別在于,它不注重語(yǔ)音信號(hào)中的文字符號(hào)和語(yǔ)義內(nèi)容等信息,而是著眼于包含在語(yǔ)音信號(hào)中的個(gè)人特征,提取說(shuō)話人的這些個(gè)人信息特征,以達(dá)到識(shí)別說(shuō)話人的目的。(2)語(yǔ)種辨識(shí)是通過(guò)分析處理一個(gè)語(yǔ)言片段以判別其所屬語(yǔ)言的語(yǔ)種,本質(zhì)上屬于語(yǔ)音識(shí)別的一個(gè)方面2,任務(wù):本質(zhì)上它們都是根據(jù)說(shuō)話人所說(shuō)的測(cè)試語(yǔ)句或關(guān)鍵詞,從中提取與說(shuō)話人本人特征有關(guān)的信息,再與存儲(chǔ)的參考模型進(jìn)行比較,做出正確的判斷。(1)自動(dòng)說(shuō)話人確認(rèn):確認(rèn)一個(gè)人的身份,只涉及一個(gè)特定的參考模型和待識(shí)別模式之間的比較,系統(tǒng)只做出“是”與“否”的二元判決。(2)自動(dòng)說(shuō)話人辨認(rèn):多元問(wèn)題,從一群人的語(yǔ)音中辨認(rèn)出是哪一個(gè)。系統(tǒng)必須辨認(rèn)出待識(shí)別語(yǔ)音是來(lái)自待考察的個(gè)人中的哪一個(gè)。3,說(shuō)話人識(shí)別系統(tǒng):預(yù)處理、特征提取、模式匹配和判決四個(gè)步驟。包括基于HMM、基于VQ、基于GMM的說(shuō)話人識(shí)別系統(tǒng),和基于DTW的說(shuō)話人確認(rèn)系統(tǒng)。4,語(yǔ)種辨識(shí)系統(tǒng):特征提取、模板匹配、分類判決三個(gè)步驟。類型記憶性模型離散無(wú)記憶VQ有記憶離散HMM連續(xù)無(wú)記憶GMM有記憶連續(xù)HMM5,語(yǔ)種辨識(shí)的應(yīng)用領(lǐng)域:①多語(yǔ)種信息服務(wù)②機(jī)器自動(dòng)翻譯的前端處理③軍事上說(shuō)話人身份和國(guó)籍判別第十四章語(yǔ)音增強(qiáng)1,定義:指當(dāng)語(yǔ)音信號(hào)被各種各樣的噪聲干擾,甚至淹沒后,從噪聲背景中提取有用語(yǔ)音信號(hào),抑制、降低噪聲干擾的技術(shù)。實(shí)際應(yīng)用中噪聲的來(lái)源及種類各不相同,從而造成處理方法的多樣性。因此,要結(jié)合語(yǔ)音特性、人耳感知特性及噪聲特性,根據(jù)實(shí)際情況選用合適的語(yǔ)音增強(qiáng)方法。2,語(yǔ)音特性:語(yǔ)音信號(hào)是一種非平穩(wěn)的隨機(jī)信號(hào),語(yǔ)音的生成過(guò)程與發(fā)音器官的運(yùn)動(dòng)過(guò)程密切相關(guān),考慮到人類發(fā)聲器官在發(fā)聲過(guò)程中的變化速度具有一定的限度而且遠(yuǎn)小于語(yǔ)音信號(hào)的變化速率,因此可以假定語(yǔ)音信號(hào)是短時(shí)平穩(wěn)的,即在10~30ms的時(shí)間段內(nèi)某些物理特性和頻譜特性可以近似地看作不變,從而可以應(yīng)用平穩(wěn)隨機(jī)過(guò)程的分析方法來(lái)處理語(yǔ)音信號(hào),在語(yǔ)音增強(qiáng)中利用短

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論