語(yǔ)音信號(hào)處理復(fù)習(xí)華南理工

上傳人：1*** IP屬地：湖北上傳時(shí)間：2023-11-09 格式：DOCX 頁(yè)數(shù)：7 大?。?5.41KB 積分：6 舉報(bào) 版權(quán)申訴

已閱讀5頁(yè)，還剩2頁(yè)未讀，繼續(xù)免費(fèi)閱讀

版權(quán)說(shuō)明：本文檔由用戶提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

語(yǔ)音信號(hào)處理復(fù)習(xí)第二章語(yǔ)音信號(hào)處理基礎(chǔ)知識(shí)1，定義：（1）語(yǔ)音是指人們講話時(shí)發(fā)出的話語(yǔ)，它是一種聲音，具有聲學(xué)特征的物理特性。而它又是一種特殊的聲音，是人們進(jìn)行信息交流的聲音，是組成語(yǔ)言的聲音。因此語(yǔ)音是語(yǔ)言和聲音的組合體。（2）語(yǔ)音是由人的發(fā)聲器官發(fā)出的一種聲波，它具有音色、音調(diào)、音強(qiáng)和音長(zhǎng)。①音色：是一種聲音區(qū)別于另一種聲音的基本特征②音調(diào)：指聲音的高低，取決于聲波的頻率③音強(qiáng)：指聲音的強(qiáng)弱，取決于聲波的振幅④音長(zhǎng)：指聲音的長(zhǎng)短，取決于發(fā)音時(shí)間的長(zhǎng)短（3）任何語(yǔ)言都有語(yǔ)言的元音和輔音兩種音素：元音：當(dāng)聲帶振動(dòng)發(fā)出的聲音氣流從喉腔、咽腔進(jìn)入口腔從唇腔出去時(shí)，這些聲腔完全開放，氣流順利通過(guò)。一個(gè)重要的聲學(xué)特性是共振峰。輔音：由于通路的某一部分封閉起來(lái)或者受到阻礙，氣流被阻不能暢通。包括清音和濁音。①濁音：聲帶振動(dòng)②清音：聲帶不振動(dòng)（4）人的聽覺系統(tǒng)有兩個(gè)重要的特性：①時(shí)頻分析特性：人的耳蝸就像一個(gè)頻譜分析儀，將復(fù)雜的信號(hào)分解成各種頻率分量。②聽覺掩蔽效應(yīng)：心理聲學(xué)中的聽覺掩蔽效應(yīng)指在一個(gè)強(qiáng)信號(hào)附近，弱信號(hào)將變得不可聞，被掩蔽掉了。掩蔽效應(yīng)分為同時(shí)掩蔽和短時(shí)掩蔽。2，語(yǔ)言信號(hào)生成的數(shù)學(xué)模型：①激勵(lì)模型：在聲門（聲帶）以下，稱為“聲門子系統(tǒng)”，它負(fù)責(zé)產(chǎn)生激勵(lì)振動(dòng)，是激勵(lì)系統(tǒng)②聲道模型：從聲門到嘴唇的呼氣通道是聲道，是聲道系統(tǒng)③輻射模型：語(yǔ)音從嘴唇輻射出去，則嘴唇以外是輻射系統(tǒng)3，語(yǔ)音信號(hào)的特性分析：（1）語(yǔ)音信號(hào)的時(shí)域波形和頻譜特性：①時(shí)域波形：周期性，周期對(duì)應(yīng)聲帶振動(dòng)的頻率，即基音頻率。②頻譜特性：共振峰特性。元音頻譜有明顯的幾個(gè)凸起點(diǎn)，它們出現(xiàn)的頻率就是共振峰頻率。清輔音頻譜峰點(diǎn)之間的間隔是隨機(jī)的，沒有周期分量。（2）語(yǔ)譜圖：語(yǔ)譜圖是一種三維圖譜，它是表示語(yǔ)音頻譜隨時(shí)間變化的圖形，其縱軸為頻率，橫軸為時(shí)間，任一給定頻率成分在給定時(shí)刻的強(qiáng)弱用相應(yīng)點(diǎn)的灰度或色調(diào)的濃淡來(lái)表示。語(yǔ)譜圖中顯示了大量的與語(yǔ)音的語(yǔ)句特性相關(guān)的信息，它綜合了頻譜圖和時(shí)域波形的特點(diǎn)，明顯地顯示出語(yǔ)音頻譜隨時(shí)間的變化情況，或者說(shuō)是一種動(dòng)態(tài)的頻譜。記錄這種譜圖的儀器就是語(yǔ)譜儀。語(yǔ)譜圖中的花紋有橫杠、豎直條和亂紋等。①橫杠：與時(shí)間軸平行的幾條深黑色帶紋，它們相應(yīng)于短時(shí)譜中的幾個(gè)凸點(diǎn)，也就是共振峰。②豎直條：與時(shí)間軸垂直的一條窄黑帶，每個(gè)豎直條相當(dāng)于一個(gè)基音，條紋間的距離表示基音周期。③亂紋：清擦音從語(yǔ)譜圖上看表現(xiàn)為亂紋，亂紋的深淺和上下限反映了噪聲能量在頻域中的分布。4，語(yǔ)音信號(hào)的統(tǒng)計(jì)特性：語(yǔ)音信號(hào)的統(tǒng)計(jì)特性可以用它的波形振幅概率密度函數(shù)和一些統(tǒng)計(jì)量（如均值和自相關(guān)函數(shù)）來(lái)描述。第三章語(yǔ)音信號(hào)分析1，概述：語(yǔ)音信號(hào)的特性及表征其本質(zhì)特征的參數(shù)均是隨時(shí)間變化的，所以它是一個(gè)非平穩(wěn)過(guò)程。雖然它具有時(shí)變特性，但是從一個(gè)短時(shí)間范圍（10~30ms）內(nèi)，其特性基本保持不變，即相對(duì)穩(wěn)定，可以將其看作一個(gè)準(zhǔn)穩(wěn)態(tài)過(guò)程，也就是短時(shí)平穩(wěn)過(guò)程。2，語(yǔ)音信號(hào)的預(yù)處理：①預(yù)加重：通常語(yǔ)音信號(hào)的高頻分量很小，預(yù)加重目的是提升高頻部分，使信號(hào)頻譜變得平坦，保持在低頻到高頻的整個(gè)頻帶中，能用同樣的信噪比求頻譜，以便于頻譜分析或聲道參數(shù)分析。②加窗分幀：分幀通過(guò)可移動(dòng)的有限長(zhǎng)度窗口進(jìn)行加權(quán)的方法實(shí)現(xiàn)。3，語(yǔ)音信號(hào)的時(shí)域分析：（1）語(yǔ)音信號(hào)的時(shí)域分析就是分析和提取語(yǔ)音信號(hào)的時(shí)域參數(shù)：短時(shí)能量、短時(shí)過(guò)零率、短時(shí)自相關(guān)函數(shù)和短時(shí)平均幅度差函數(shù)。①短時(shí)能量：②短時(shí)過(guò)零率：表示一幀語(yǔ)音中語(yǔ)音信號(hào)波形穿過(guò)橫軸（零電平）的次數(shù)。濁音具有較低的過(guò)零率，而清音具有較高的過(guò)零率。③短時(shí)自相關(guān)函數(shù)：④短時(shí)平均幅度差函數(shù)：4，語(yǔ)音信號(hào)的頻域分析：分析語(yǔ)音信號(hào)的頻域特征，使用短時(shí)傅立葉變換對(duì)語(yǔ)音信號(hào)的頻譜進(jìn)行分析。5，語(yǔ)音信號(hào)的倒譜分析：（1）同態(tài)信號(hào)處理：指將非線性問(wèn)題轉(zhuǎn)換成線性問(wèn)題的處理方法。由于語(yǔ)音信號(hào)可以視為聲門激勵(lì)信號(hào)和聲道沖激響應(yīng)的卷積，因此可以通過(guò)卷積——乘積——加法的方法來(lái)處理。（2）倒譜與復(fù)倒譜：倒譜是語(yǔ)音信號(hào)的對(duì)數(shù)幅度譜的傅里葉逆變換，得到的是頻域信息。復(fù)倒譜是語(yǔ)音信號(hào)對(duì)數(shù)頻譜的傅立葉逆變換，得到的是時(shí)域信息。6，MFCC特征提取流程：①對(duì)輸入語(yǔ)音進(jìn)行預(yù)加重、加窗、分幀處理②FFT變換③取絕對(duì)值或者平方④Mel濾波：⑤取對(duì)數(shù)⑥離散余弦變換DCT：⑦動(dòng)態(tài)特征MFCC，輸出特征向量7，語(yǔ)音信號(hào)的線性預(yù)測(cè)：線性預(yù)測(cè)的基本思想是用過(guò)去的p個(gè)樣點(diǎn)值來(lái)預(yù)測(cè)現(xiàn)在或未來(lái)的樣點(diǎn)值。8，基音周期的估計(jì)：基音是指發(fā)濁音時(shí)聲帶振動(dòng)所引起的周期性，而基因周期是指聲帶振動(dòng)頻率的倒數(shù)。主要包括以下三種方法：①自相關(guān)法②平均幅度差法③倒譜法。9，共振峰估計(jì)：聲道可以看成一根具有非均勻截面的聲管，在發(fā)音時(shí)起共鳴器的作用。當(dāng)準(zhǔn)周期脈沖激勵(lì)進(jìn)入聲道時(shí)會(huì)引起共振特性，產(chǎn)生一組共振頻率，稱為共振峰。共振峰參數(shù)包括共振峰頻率和頻帶寬度。共振峰信息包含在語(yǔ)音頻譜包絡(luò)中，因此共振峰頻率提取的關(guān)鍵是估計(jì)自然語(yǔ)音頻譜包絡(luò)，并認(rèn)為譜包絡(luò)中的最大值就是共振峰。主要包括倒譜法和LPC法。第四章矢量量化技術(shù)1，矢量量化基本原理：將若干個(gè)標(biāo)量數(shù)據(jù)組成一個(gè)矢量在多維空間給予整體量化，從而可以在信息量損失較小的情況下壓縮數(shù)據(jù)量。矢量量化有效地應(yīng)用了矢量中各元素之間的相關(guān)性，因此可以比標(biāo)量量化有更好的壓縮效果。2，矢量量化參數(shù)：3，矢量量化的兩個(gè)基本問(wèn)題：（1）設(shè)計(jì)一個(gè)好的碼本（2）未知矢量的量化4，矢量量化的失真測(cè)度：失真測(cè)度是將輸入矢量X用碼本重構(gòu)矢量Y來(lái)表征時(shí)所產(chǎn)生的誤差或失真的度量方法，它可以描述兩個(gè)或多個(gè)模型矢量間的相似程度。失真測(cè)度的選擇好壞將直接影響到聚類效果和量化精度，進(jìn)而影響到語(yǔ)音信號(hào)矢量量化處理系統(tǒng)的性能。主要包括歐氏距離測(cè)度、線性預(yù)測(cè)失真測(cè)度、識(shí)別失真測(cè)度。5，矢量量化器的最佳碼本設(shè)計(jì)：最近鄰準(zhǔn)則、LBG算法第五章隱馬爾可夫模型1，概述：（1）隱馬爾可夫模型（HMM）是語(yǔ)音信號(hào)的一種統(tǒng)計(jì)模型。HMM是一個(gè)輸出符號(hào)序列的統(tǒng)計(jì)模型，具有N個(gè)狀態(tài)，它按一定的周期從一個(gè)狀態(tài)轉(zhuǎn)移到另一個(gè)狀態(tài)，每次轉(zhuǎn)移時(shí)，輸出一個(gè)符號(hào)。轉(zhuǎn)移到哪個(gè)狀態(tài)，轉(zhuǎn)移時(shí)輸出什么符號(hào)，分別由狀態(tài)轉(zhuǎn)移概率和轉(zhuǎn)移時(shí)的輸出概率來(lái)決定。因?yàn)橹荒苡^測(cè)到輸出符號(hào)序列，而不能直接觀測(cè)到狀態(tài)轉(zhuǎn)移序列（即模型輸出符號(hào)序列時(shí)，是通過(guò)了哪些狀態(tài)路徑無(wú)法得知），所以稱為隱藏的馬爾可夫模型。（2）HMM用于語(yǔ)音信號(hào)建模時(shí)，是對(duì)語(yǔ)音信號(hào)的時(shí)間序列結(jié)構(gòu)建立的統(tǒng)計(jì)模型，它是數(shù)學(xué)上的雙重隨機(jī)過(guò)程：一個(gè)是具有有限狀態(tài)數(shù)的Markov鏈來(lái)模擬語(yǔ)音信號(hào)統(tǒng)計(jì)特性變化的隱含的隨機(jī)過(guò)程，另一個(gè)是與Markov鏈每一個(gè)狀態(tài)相關(guān)聯(lián)的觀測(cè)序列的隨機(jī)過(guò)程。2，HMM的基本元素：M={S、O、A、B、π、F}①S——模型中狀態(tài)的有限集合③A——狀態(tài)轉(zhuǎn)移概率的集合⑤π——系統(tǒng)初始狀態(tài)概率的集合②O——輸出的觀測(cè)值符號(hào)的集合④B——輸出觀測(cè)值概率的集合⑥F——系統(tǒng)終了狀態(tài)的集合3，隱馬爾可夫模型的基本算法：（1）識(shí)別問(wèn)題：給定觀察符號(hào)序列O和模型M={A，B，π}，如何快速有效地計(jì)算觀察符號(hào)序列的輸出概率P（O/M）？?？赏ㄟ^(guò)前向-后向（F-B）算法解決。（2）狀態(tài)轉(zhuǎn)移估計(jì)（路徑選擇）問(wèn)題：給定觀察字符序列和輸出該序列的模型后，如何有效地確定與之對(duì)應(yīng)的最佳的狀態(tài)序列，即估計(jì)出模型產(chǎn)生觀察字符序列時(shí)最可能經(jīng)過(guò)的路徑?？赏ㄟ^(guò)維特比算法解決。（3）模型訓(xùn)練問(wèn)題：實(shí)際上是一個(gè)模型參數(shù)估計(jì)問(wèn)題，即對(duì)于初始模型和給定用于訓(xùn)練的觀察符號(hào)序列，如何調(diào)整模型M的參數(shù)，使得輸出概率P最大？。可通過(guò)Baum-Welch算法解決。第七章語(yǔ)音編碼1，概述：（1）語(yǔ)音編碼主要針對(duì)信源編碼，解決有效性問(wèn)題，通過(guò)對(duì)信源的壓縮、擾亂、加密等一系類處理，力求用最少的數(shù)碼率傳遞最大的信息量，使信號(hào)更適宜傳輸和存儲(chǔ)。（2）語(yǔ)音編碼通常分為三類：波形編碼、參數(shù)編碼和混合編碼。波形編碼和參數(shù)編碼的主要區(qū)別在于重建的語(yǔ)音信號(hào)時(shí)域信號(hào)是否在波形上與原信號(hào)一致。①波形編碼：力圖使重建后的語(yǔ)音時(shí)域信號(hào)波形與原語(yǔ)音信號(hào)波形保持一致，具有適應(yīng)能力強(qiáng)、話音質(zhì)量好的特點(diǎn)，但需要用到的編碼速率高。②參數(shù)編碼：根據(jù)對(duì)聲音形成機(jī)理的分析，在以重建語(yǔ)音信號(hào)具有足夠的可懂性的原則上，通過(guò)建立語(yǔ)音信號(hào)的產(chǎn)生模型，提取代表語(yǔ)音信號(hào)特征的參數(shù)來(lái)編碼，而不一定在波形上與原信號(hào)匹配。優(yōu)點(diǎn)是編碼速率較低，缺點(diǎn)是語(yǔ)音質(zhì)量差，特別是自然度低，對(duì)說(shuō)話環(huán)境的噪聲敏感。利用參數(shù)編碼實(shí)現(xiàn)語(yǔ)音通信的設(shè)備稱為聲碼器，包括通道聲碼器、共振峰聲碼器、同態(tài)聲碼器和線性預(yù)測(cè)聲碼器。③混合編碼：基于語(yǔ)音產(chǎn)生模型的假定并采用了分析合成技術(shù)，同時(shí)又利用了語(yǔ)音時(shí)域波形信息，增強(qiáng)了重建語(yǔ)音的自然度，使得語(yǔ)音質(zhì)量有明顯的提高。2，語(yǔ)音壓縮：對(duì)語(yǔ)音信號(hào)進(jìn)行壓縮編碼的基本依據(jù)是語(yǔ)音信號(hào)的冗余度和人的聽覺感知機(jī)理。語(yǔ)音壓縮編碼極限速率就80~100bit/s。3，語(yǔ)音編碼的關(guān)鍵技術(shù)：①線性預(yù)測(cè)②合成分析法③感覺加權(quán)濾波器4，波形編碼：①脈沖編碼調(diào)制PCM②自適應(yīng)預(yù)測(cè)編碼③自適應(yīng)變換編碼④子帶編碼（頻帶分割編碼）：先使用帶通濾波器將語(yǔ)音信號(hào)分割成若干個(gè)頻帶（子帶），然后用調(diào)制的方法將濾波后的子帶信號(hào)進(jìn)行頻譜平移成低通信號(hào)，以利于降低取樣率進(jìn)行抽取，然后再用奈奎斯特率進(jìn)行取樣，最后再分別進(jìn)行編碼處理。而信號(hào)的恢復(fù)則是完全相反的過(guò)程。5，參數(shù)編碼：①LPC線性預(yù)測(cè)聲碼器②LPC-10編碼器6，混合編碼：碼激勵(lì)線性預(yù)測(cè)編碼CELP。語(yǔ)音生成模型把語(yǔ)音的生成看作一些激勵(lì)信號(hào)激勵(lì)一個(gè)模擬聲道的濾波器得到的響應(yīng)。CELP采用矢量量化技術(shù)對(duì)激勵(lì)信號(hào)編碼，將事先經(jīng)過(guò)訓(xùn)練的一組碼矢量組成一個(gè)碼本，然后對(duì)每一幀語(yǔ)音信號(hào)從這組碼本中選出一個(gè)在感知加權(quán)誤差最小意義上的最佳碼矢量作為激勵(lì)源。第八章語(yǔ)音合成1，定義：解決如何讓機(jī)器說(shuō)話的問(wèn)題，其目的是將任意文本實(shí)時(shí)地轉(zhuǎn)換成自然語(yǔ)音輸出，并且輸出的語(yǔ)音清晰可懂。語(yǔ)音合成系統(tǒng)是一個(gè)單向系統(tǒng)，從機(jī)器到人。2，合成方法：（1）波形合成法：直接把要合成的語(yǔ)音的發(fā)音波形進(jìn)行存儲(chǔ)或者進(jìn)行波形編碼壓縮后存儲(chǔ)，合成重放時(shí)再解碼組合輸出。（2）參數(shù)合成法：為了節(jié)約存儲(chǔ)容量，必須先對(duì)語(yǔ)音信號(hào)進(jìn)行分析，提取語(yǔ)音的參數(shù)，，以壓縮存儲(chǔ)量，然后由人工控制這些參數(shù)的合成。包括發(fā)音器官參數(shù)合成和聲道模型參數(shù)合成。包括共振峰合成法和LPC線性預(yù)測(cè)法。（3）規(guī)則合成法：通過(guò)語(yǔ)音學(xué)規(guī)則產(chǎn)生語(yǔ)音。3，文語(yǔ)轉(zhuǎn)換系統(tǒng)：指把文本文件通過(guò)一定的硬軟件轉(zhuǎn)換后由計(jì)算機(jī)或電話語(yǔ)音系統(tǒng)等輸出語(yǔ)音的過(guò)程，并盡量使合成的語(yǔ)音具有良好的自然度和可懂度。包括三個(gè)模塊：文本分析、韻律控制和語(yǔ)音合成。（1）文本分析：使計(jì)算機(jī)能夠識(shí)別文字，并根據(jù)文本的上下關(guān)系在一定程度上對(duì)文本進(jìn)行理解，從而知道要發(fā)什么音、怎么發(fā)音，并將發(fā)音的方式告訴計(jì)算機(jī)，讓計(jì)算機(jī)知道文本中哪些是詞，哪些是短語(yǔ)、句子。（2）韻律控制：任何人說(shuō)話都有韻律特征，有不同的聲調(diào)、語(yǔ)氣、停頓方式，發(fā)音長(zhǎng)短也各不相同。（3）語(yǔ)音合成：文語(yǔ)轉(zhuǎn)換系統(tǒng)中一般采用波形拼接來(lái)合成語(yǔ)音?；敉蒋B加法PSOLA，其核心思想是直接對(duì)存儲(chǔ)于音庫(kù)的語(yǔ)音運(yùn)用PSOLA算法來(lái)進(jìn)行拼接，從而合成完整的語(yǔ)音。第九章語(yǔ)音識(shí)別1，定義：語(yǔ)音識(shí)別主要指讓機(jī)器聽懂人說(shuō)的話，即在各種情況下，準(zhǔn)確地識(shí)別出語(yǔ)音的內(nèi)容，從而根據(jù)其信息，執(zhí)行人的各種意圖。2，語(yǔ)音模型：HMM模型3，語(yǔ)音識(shí)別的類型：①孤立詞識(shí)別②連接詞識(shí)別③連續(xù)語(yǔ)音識(shí)別和理解（自然說(shuō)話方式）④會(huì)話語(yǔ)音識(shí)別3，語(yǔ)音識(shí)別方法：（1）HMM法：主要用于大詞匯量語(yǔ)音識(shí)別系統(tǒng)，需要較多的模型訓(xùn)練數(shù)據(jù)，較長(zhǎng)的訓(xùn)練時(shí)間和識(shí)別時(shí)間，較大的存儲(chǔ)空間。（2）VQ法：所需模型訓(xùn)練數(shù)據(jù)小，訓(xùn)練時(shí)間短，識(shí)別時(shí)間短，存儲(chǔ)空間小，但是識(shí)別性能不夠好。（3）DTW法：主要用于小詞匯量、孤立字詞識(shí)別系統(tǒng)。4，動(dòng)態(tài)時(shí)間規(guī)整DTW：（1）目的：提高識(shí)別率，克服發(fā)同一音而發(fā)音長(zhǎng)短不同的問(wèn)題。（2）基本思想：把未知量伸長(zhǎng)或縮短（壓擴(kuò)），直到與參考模板的長(zhǎng)度一致，在這個(gè)過(guò)程中未知單詞的時(shí)間軸會(huì)產(chǎn)生扭曲或彎折，以便其特征量與標(biāo)準(zhǔn)模式對(duì)應(yīng)。5，孤立字（詞）識(shí)別系統(tǒng)：指識(shí)別孤立發(fā)音的字或詞的系統(tǒng)。利用模式匹配方法，把單詞整個(gè)作為識(shí)別單元。在訓(xùn)練階段，用戶將詞匯表中每一個(gè)詞依次說(shuō)一遍，并且將其特征矢量時(shí)間序列作為模板存入模板庫(kù)。在識(shí)別階段，將輸入語(yǔ)音的特征矢量時(shí)間序列依次與模板庫(kù)中的每個(gè)模板進(jìn)行相似度比較，將相似度最高者作為識(shí)別結(jié)果輸出。第十章說(shuō)話人識(shí)別與語(yǔ)種辨識(shí)1，定義：（1）自動(dòng)說(shuō)話人識(shí)別是一種自動(dòng)識(shí)別說(shuō)話人的過(guò)程。它與語(yǔ)音識(shí)別的區(qū)別在于，它不注重語(yǔ)音信號(hào)中的文字符號(hào)和語(yǔ)義內(nèi)容等信息，而是著眼于包含在語(yǔ)音信號(hào)中的個(gè)人特征，提取說(shuō)話人的這些個(gè)人信息特征，以達(dá)到識(shí)別說(shuō)話人的目的。（2）語(yǔ)種辨識(shí)是通過(guò)分析處理一個(gè)語(yǔ)言片段以判別其所屬語(yǔ)言的語(yǔ)種，本質(zhì)上屬于語(yǔ)音識(shí)別的一個(gè)方面2，任務(wù)：本質(zhì)上它們都是根據(jù)說(shuō)話人所說(shuō)的測(cè)試語(yǔ)句或關(guān)鍵詞，從中提取與說(shuō)話人本人特征有關(guān)的信息，再與存儲(chǔ)的參考模型進(jìn)行比較，做出正確的判斷。（1）自動(dòng)說(shuō)話人確認(rèn)：確認(rèn)一個(gè)人的身份，只涉及一個(gè)特定的參考模型和待識(shí)別模式之間的比較，系統(tǒng)只做出“是”與“否”的二元判決。（2）自動(dòng)說(shuō)話人辨認(rèn)：多元問(wèn)題，從一群人的語(yǔ)音中辨認(rèn)出是哪一個(gè)。系統(tǒng)必須辨認(rèn)出待識(shí)別語(yǔ)音是來(lái)自待考察的個(gè)人中的哪一個(gè)。3，說(shuō)話人識(shí)別系統(tǒng)：預(yù)處理、特征提取、模式匹配和判決四個(gè)步驟。包括基于HMM、基于VQ、基于GMM的說(shuō)話人識(shí)別系統(tǒng)，和基于DTW的說(shuō)話人確認(rèn)系統(tǒng)。4，語(yǔ)種辨識(shí)系統(tǒng)：特征提取、模板匹配、分類判決三個(gè)步驟。類型記憶性模型離散無(wú)記憶VQ有記憶離散HMM連續(xù)無(wú)記憶GMM有記憶連續(xù)HMM5，語(yǔ)種辨識(shí)的應(yīng)用領(lǐng)域：①多語(yǔ)種信息服務(wù)②機(jī)器自動(dòng)翻譯的前端處理③軍事上說(shuō)話人身份和國(guó)籍判別第十四章語(yǔ)音增強(qiáng)1，定義：指當(dāng)語(yǔ)音信號(hào)被各種各樣的噪聲干擾，甚至淹沒后，從噪聲背景中提取有用語(yǔ)音信號(hào)，抑制、降低噪聲干擾的技術(shù)。實(shí)際應(yīng)用中噪聲的來(lái)源及種類各不相同，從而造成處理方法的多樣性。因此，要結(jié)合語(yǔ)音特性、人耳感知特性及噪聲特性，根據(jù)實(shí)際情況選用合適的語(yǔ)音增強(qiáng)方法。2，語(yǔ)音特性：語(yǔ)音信號(hào)是一種非平穩(wěn)的隨機(jī)信號(hào)，語(yǔ)音的生成過(guò)程與發(fā)音器官的運(yùn)動(dòng)過(guò)程密切相關(guān)，考慮到人類發(fā)聲器官在發(fā)聲過(guò)程中的變化速度具有一定的限度而且遠(yuǎn)小于語(yǔ)音信號(hào)的變化速率，因此可以假定語(yǔ)音信號(hào)是短時(shí)平穩(wěn)的，即在10~30ms的時(shí)間段內(nèi)某些物理特性和頻譜特性可以近似地看作不變，從而可以應(yīng)用平穩(wěn)隨機(jī)過(guò)程的分析方法來(lái)處理語(yǔ)音信號(hào)，在語(yǔ)音增強(qiáng)中利用短

人人文庫(kù)> 全部分類> 應(yīng)用文書 > 作業(yè)報(bào)告

溫馨提示

1. 本站所有資源如無(wú)特殊說(shuō)明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽，若沒有圖紙預(yù)覽就沒有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間，僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理，對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容，請(qǐng)與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

語(yǔ)音信號(hào)處理復(fù)習(xí)華南理工

文檔簡(jiǎn)介

溫馨提示

最新文檔

評(píng)論

語(yǔ)音信號(hào)處理復(fù)習(xí)華南理工

文檔簡(jiǎn)介

溫馨提示

最新文檔

評(píng)論

相關(guān)文檔