語音的產(chǎn)生機理

上傳人：回*** IP屬地：江蘇上傳時間：2022-09-16 格式：PPTX 頁數(shù)：128 大?。?.59MB 積分：70 舉報 版權(quán)申訴

已閱讀5頁，還剩123頁未讀，繼續(xù)免費閱讀

版權(quán)說明：本文檔由用戶提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請進行舉報或認領(lǐng)

文檔簡介

1、生物認證技術(shù)Biometrics語音的產(chǎn)生機理第1頁第五章聲紋識別語音的產(chǎn)生機理第2頁內(nèi)容歷史2.語音產(chǎn)生機理 3.語音特征4.系統(tǒng)架構(gòu)5.引言1.語音的產(chǎn)生機理第3頁引言聲音是攜帶信息極其主要媒體（20）聲音是經(jīng)過空氣傳輸一個連續(xù)波，叫聲波，也含有反射、折射和衍射現(xiàn)象。聲音信號是由許多頻率不一樣分量信號組成復(fù)合信號。復(fù)合信號頻率范圍稱為帶寬。帶寬為20Hz20kHz信號稱為音頻（audio）信號，能夠被人耳朵感知。聲音是時基類媒體。語音的產(chǎn)生機理第4頁說是什么內(nèi)容？是誰在說話？計算機去說話？怎么把話說好？語音識別聲紋識別文語轉(zhuǎn)換說話水平評定說是什么語言？語種識別引言語音處理研究基本內(nèi)容語音

2、的產(chǎn)生機理第5頁引言Speaker, or voice, recognition is a biometric modality that uses an individuals voice for recognition purposes. 說話人識別（聲紋識別）是一項依據(jù)語音波形中反應(yīng)說話人生理和行為特征語音參數(shù)，自動識別說話人身份技術(shù)。It is a different technology than “speech recognition”, which recognizes words as they are articulated, which is not a biometric

3、.聲紋識別利用是語音信號中說話人信息，而不考慮語音中字詞意思，它強調(diào)說話人個性;而語音識別目標是識別出語音信號中言語內(nèi)容，并不考慮說話人是誰，它強調(diào)共性。語音的產(chǎn)生機理第6頁引言The speaker recognition process relies on features influenced by both the physical structure of an individuals vocal tract and the behavioral characteristics of the individual.聲音是個復(fù)雜信號，說話人相關(guān)差異是聲道在解剖學(xué)上差異和后天說話習(xí)慣差異

4、綜合結(jié)果。在說話人識別中，全部這些差異都能夠被用來區(qū)分不一樣用戶。它包括到說話人發(fā)音器官上個性差異、發(fā)音聲道之間個性差異、發(fā)音習(xí)慣之間個性差異等不一樣級別上差異。說話人識別是交叉利專心理學(xué)、生理學(xué)、語音信號處理、模式識別、統(tǒng)計學(xué)習(xí)理論和人工智能綜合性研究課題。語音的產(chǎn)生機理第7頁引言說話人識別特殊優(yōu)勢對用戶干擾少，易被用戶接收最經(jīng)濟方法之一，輸入設(shè)備造價低廉語音獲取非接觸，具備衛(wèi)生方面安全性適用基于電信網(wǎng)絡(luò)應(yīng)用中所以，說話人識別研究含有巨大應(yīng)用前景語音的產(chǎn)生機理第8頁引言聲紋分析技術(shù)應(yīng)用領(lǐng)域：信息查詢領(lǐng)域應(yīng)用在電話交易應(yīng)用在PC以及手持式設(shè)備上面應(yīng)用在保安系統(tǒng)以及證件防偽中應(yīng)用與二維條碼技

5、術(shù)相結(jié)合防偽應(yīng)用語音的產(chǎn)生機理第9頁挑戰(zhàn)說話人發(fā)音經(jīng)常與環(huán)境、情緒、健康狀態(tài)有親密關(guān)系。語音信號或者稱為“聲紋（voiceprint）”與指紋（fingerprint）不一樣，指紋是靜態(tài)、固定不變生理特征，而說話人特征含有長時變動特征，會隨時間、年紀改變而改變。如感冒、聲道管疾病，都有可能使發(fā)出聲音改變。情緒改變也是一個原因，大聲喊叫時候，聲道形狀顯然同正常狀態(tài)有很大不一樣。語音的產(chǎn)生機理第10頁挑戰(zhàn)聲音往往是能夠模仿，還能夠預(yù)先錄制起來，怎樣區(qū)分真假聲音也是很頭痛事情。尤其是對于遠程電話身份認證，不能采取同用戶其它特征相結(jié)合方法。語音的產(chǎn)生機理第11頁挑戰(zhàn)線路傳輸所帶來線路噪聲，包含不一樣線

6、路噪聲情況可能不一樣、同一線路在不一樣時期噪聲情況也會不一樣，噪聲處理也很有難度。噪聲可能造成語音信號在整個時域空間上污染，甚至有可能也對頻域特征造成污染，這就給提取出正確反應(yīng)說話人特征，造成了很大困難。語音的產(chǎn)生機理第12頁內(nèi)容歷史2.語音產(chǎn)生機理 3.語音特征4.系統(tǒng)架構(gòu)5.引言1.語音的產(chǎn)生機理第13頁歷史以人們語音作為身份認證伎倆，聽說是從1660 年英國查爾斯一世之死判決開始，首次利用語音作為推斷犯人作案線索。其后伴隨技術(shù)發(fā)展，電話克服了距離障礙，錄音伎倆克服了時間障礙，從而使得對語音說話人個性分析得到了關(guān)注。語音的產(chǎn)生機理第14頁歷史從1937 年開始，以C. A. Lindber

7、gh 先生兒子拐騙事件為開端，對語音說話人個性開展了科學(xué)測量和研究。1945 年，美國貝爾試驗室R. K. Pooter 創(chuàng)造了語音頻譜圖，能把所謂聲紋（voiceprint）動描述出來。1962 年，貝爾試驗室L. G. Kersta 第一次介紹了采取上述方法進行說話人識別可能性。1966 年，美國法院第一次采取此方法進行了取證。語音的產(chǎn)生機理第15頁歷史原先說話人識別，往往是用視覺來判斷聲音頻譜圖，或者用聽覺判斷是誰聲音。伴隨計算機發(fā)展，自動說話人識別（ASR）研究得到了快速發(fā)展。自動說話人識別是指利用計算機技術(shù)，不需要人們干預(yù)，自動進行身份認證。語音的產(chǎn)生機理第16頁內(nèi)容歷史2.語音產(chǎn)生

8、機理 3.語音特征4.系統(tǒng)架構(gòu)5.引言1.語音的產(chǎn)生機理第17頁語音產(chǎn)生機理眾所周知，發(fā)聲從肺部擠出空氣開始，空氣經(jīng)過振動聲帶造出振動波。因為這個振動波在自聲帶到口為止“3個箱子”各自振動，深入強化共振，最終組成聲音。這3個箱子是“咽頭”、“口腔”、和“鼻腔”。在制造語音3個箱子中，口腔飾演了主要角色。因為經(jīng)過舌頭能夠改變空間容積。假如容積改變，則發(fā)音也改變了，3個頻率組合產(chǎn)生聲音。語音的產(chǎn)生機理第18頁語音產(chǎn)生機理語音產(chǎn)生器官發(fā)聲器官語音合成肺、氣管、喉（包含聲帶）、咽、鼻、口。它們共同形成一條形狀復(fù)雜管道聲帶和聲門喉與氣管接口處稱為聲門聲道其中喉以上部分稱為聲道，伴隨發(fā)出語音不一樣其形狀

9、是改變語音的產(chǎn)生機理第19頁語音產(chǎn)生機理產(chǎn)生語音能量，絕大多數(shù)起源于正常呼吸時肺部呼出穩(wěn)定氣流有極少數(shù)語種，如一些非洲語言，是利用吸氣氣流來發(fā)音聲帶最主要發(fā)聲器官既是一個閥門又是一個振動部件呼吸時左右兩聲帶打開（聲門開）在說話時候合攏，肺部氣流經(jīng)氣管形成沖擊“打開-閉合-打開-閉合-”聲門，從而沖擊聲帶產(chǎn)生振動，然后經(jīng)過聲道響應(yīng)變成語音語音的產(chǎn)生機理第20頁聲道調(diào)制聲道咽、口腔和鼻腔從聲門延伸至口唇非均勻截面聲管，約17cm功效諧振腔：放大某一頻率而衰減其它頻率分量諧振頻率：由每一瞬間聲道外形決定，又稱為共振峰，是聲道主要聲學(xué)特征語音的產(chǎn)生機理第21頁語音頻率性質(zhì)音調(diào)周期/基音周期聲門開啟-閉

10、合一次時間即振動周期基頻基音周期倒數(shù)，聲帶振動基本頻率音調(diào)聲帶振動頻率（即基音）決定了聲音頻率高低，頻率快則音調(diào)高，不然音調(diào)低人基音范圍70350HZ，兒童和青年女性偏高，男性偏低語音的產(chǎn)生機理第22頁語音產(chǎn)生機理濁音（voiced sounds）：聲道打開，聲帶在先打開后關(guān)閉，氣流經(jīng)過使聲帶要發(fā)生張馳振動，變?yōu)闇手芷谡駝託饬?。濁音激勵源被等效為準周期脈沖信號。如發(fā)/U/、/d/、/i/等音清音（unvoiced sounds）：聲帶不振動，而在某處保持收縮，氣流在聲道里收縮后高速經(jīng)過產(chǎn)生湍流，再經(jīng)過主聲道（咽、口腔）調(diào)整最終形成清音。清音激勵源被等效為一個白噪聲信號。如發(fā)/音爆破音（plos

11、ive sounds）：聲道關(guān)閉之后產(chǎn)生壓縮空氣然后突然打開聲道所發(fā)出聲音。如發(fā)/ t/音時語音的產(chǎn)生機理第23頁語音的產(chǎn)生機理第24頁發(fā)聲過程小結(jié)人發(fā)聲過程包含兩個步驟聲門/聲帶產(chǎn)生不一樣頻率聲音準周期氣流脈沖或白噪聲聲道對聲源調(diào)制作用激勵過程（聲門）調(diào)制過程（聲道）語音輻射語音的產(chǎn)生機理第25頁語音產(chǎn)生機理肺中空氣受到擠壓形成氣流，氣流經(jīng)過聲門（聲帶）沿著聲道（由咽、喉、口腔等組成）釋放出去，就形成了話音。氣流、聲門能夠等效為一個激勵源，聲道能夠等效為一個時變?yōu)V波器（共振峰）。話音信號含有很強相關(guān)性（長久相關(guān)、短期相關(guān)）。語音的產(chǎn)生機理第26頁語音產(chǎn)生機理語音的產(chǎn)生機理第27頁語音信

12、號產(chǎn)生數(shù)學(xué)模型激勵模型聲道模型輻射模型語音的產(chǎn)生機理第28頁激勵模型激勵模型非常復(fù)雜聲門脈沖模型濁音聲帶振動，聲門脈沖如：斜三角形脈沖串隨機白噪聲清音聲帶不振動，隨機白噪聲語音的產(chǎn)生機理第29頁內(nèi)容歷史2.語音產(chǎn)生機理 3.語音特征4.系統(tǒng)架構(gòu)5.引言1.語音的產(chǎn)生機理第30頁聲紋識別流程圖1 說話人識別模型語音的產(chǎn)生機理第31頁聲紋識別系統(tǒng)組成聲紋識別系統(tǒng)主要包含兩部分，即特征檢測和模式匹配。特征檢測任務(wù)是選取唯一表現(xiàn)說話人身份有效且穩(wěn)定可靠特征.模式匹配任務(wù)是對訓(xùn)練和識別時特征模式做相同性匹配。語音的產(chǎn)生機理第32頁特征Speech samples are waveforms with

13、 time on the horizontal axis and loudness on the vertical access. Voice Sample: The voice input signal (top of image) shows the inputloudness with respect to the time domain. The lower image (blue) depicts thespectral information of the voice signal. This information is plotted bydisplaying the time

14、 versus the frequency variations語音的產(chǎn)生機理第33頁特征特征提取是指用各種模擬和數(shù)字處理技術(shù)、利用軟件和硬件伎倆，處理語音信號，選擇和提取表征語音信號特征。特征提取任務(wù)是提取并選擇對說話人聲紋含有可分性強、穩(wěn)定性高等特征聲學(xué)或語言特征。與語音識別不一樣，聲紋識別特征必須是“個性化”特征，而語音識別特征對說話人來講必須是“共性特征”。很好特征，應(yīng)該能夠有效地域分不一樣說話人，但又能在同一說話人語音發(fā)生改變時保持相正確穩(wěn)定；不易被他人模仿或能夠很好地處理被他人模仿問題；含有很好抗噪性能。語音的產(chǎn)生機理第34頁特征提取信息起源是說話人所說話，其語音信號中既包含了說

15、話人所說話信息，也包含了說話人個性信息，是話音特征和個性特征混合體。當前還沒有將說話人個性特征從所發(fā)語音語音特征中分離出來很好方法，從而給有效特征提取帶來了很大難度。全部提取出來特征向量中，即使在一定程度上表征了說話人個性特征，不可防止包含有特定話音特征。語音的產(chǎn)生機理第35頁語音信號分析方法分類時域特征直接從時域信號計算得到，反應(yīng)了語音信號時域波形特征。如短時平均能量、短時平均過零率、共振峰、基音周期等。頻域及倒譜域特征由時域信號進行頻譜變換得到，反應(yīng)語音信號頻域特征包含傅里葉頻譜、倒譜以及利用了語音信號時序信息時頻譜聽覺特征不直接對聲道模型進行研究，而是從人類聽覺系統(tǒng)對語音感知特征來刻畫語

16、音信號特征如感知線性預(yù)測(PLP)分析語音的產(chǎn)生機理第36頁依據(jù)所分析參數(shù)類型，語音信號分析能夠分成時域分析和變換域（頻域、倒譜域）分析。其中時域分析方法是最簡單、最直觀方法，它直接對語音信號時域波形進行分析，提取特征參數(shù)主要有語音短時能量和平均幅度、短時平均過零率、短時自相關(guān)函數(shù)和短時平均幅度差函數(shù)等。語音的產(chǎn)生機理第37頁短時分析技術(shù)語音信號是非平穩(wěn)時變信號語音信號特征是隨時間而改變幸運是含有短時平穩(wěn)性短時間范圍內(nèi)其特征基本保持不變（遲緩變換），即短時相對平穩(wěn)準平穩(wěn)過程短時分析技術(shù)即在對語音信號進行分析時，將語音信號分為一段一段，利用平穩(wěn)信號分析方法對每一分段進行處理每一分段成為一“幀”

17、：普通1030ms為一幀短時分析不足對語音識別，應(yīng)采取HMM來分析，以處理語音信號瞬變和非平穩(wěn)特征語音的產(chǎn)生機理第38頁語音信號預(yù)處理在對語音信號進行數(shù)字處理之前，首先要將模擬語音信號s(t) 離散化為s(n). 實際中取得數(shù)字語音路徑普通有兩種，正式和非正式。正式是指大企業(yè)或語音研究機構(gòu)公布被大家認可語音數(shù)據(jù)庫，非正式則是研究者個人用錄音軟件或硬件電路加麥克風(fēng)隨時隨地錄制一些發(fā)音或語句。語音的產(chǎn)生機理第39頁語音信號頻率范圍通常是3003400Hz，普通情況下取采樣率為8kHz即可。有了語音數(shù)據(jù)文件后，對語音預(yù)處理包含：預(yù)加重、加窗分幀等。語音的產(chǎn)生機理第40頁語音信號預(yù)加重處理預(yù)

18、加重目標：為了對語音高頻部分進行加重，去除口唇輻射影響，增加語音高頻分辨率?？山?jīng)過一階FIR高通數(shù)字濾波器來實現(xiàn)：設(shè)n時刻語音采樣值為x(n) ，經(jīng)過預(yù)加重處理后結(jié)果為語音的產(chǎn)生機理第41頁高通濾波器幅頻特征和相頻特征以下語音的產(chǎn)生機理第42頁預(yù)加重前和預(yù)加重后一段語音信號時域波形語音的產(chǎn)生機理第43頁預(yù)加重前和預(yù)加重后一段語音信號頻譜語音的產(chǎn)生機理第44頁語音信號加窗處理因為發(fā)音器官慣性運動，能夠認為在一小段時間里（普通為10ms30ms）語音信號近似不變，即語音信號含有短時平穩(wěn)性。這么，能夠把語音信號分為一些短段（稱為分析幀）來進行處理。語音的產(chǎn)生機理第45頁說話人識別（9/

19、14）語音的產(chǎn)生機理第46頁語音信號分幀實現(xiàn)方法：采取可移動有限長度窗口進行加權(quán)方法來實現(xiàn)。普通每秒幀數(shù)約為33100幀。分幀普通采取交疊分段方法，這是為了使幀與幀之間平滑過渡，保持其連續(xù)性。前一幀和后一幀交疊部分稱為幀移，幀移與幀長比值普通取為01/2。語音的產(chǎn)生機理第47頁圖3.3給出了幀移與幀長示意圖。語音的產(chǎn)生機理第48頁加窗慣用兩種方法：矩形窗，窗函數(shù)以下：漢明(Hamming)窗，窗函數(shù)以下語音的產(chǎn)生機理第49頁矩形窗及其頻譜以下語音的產(chǎn)生機理第50頁漢明窗及其頻譜以下思索：兩種窗效果有何異同？語音的產(chǎn)生機理第51頁加窗方法示意圖：語音的產(chǎn)生機理第52頁窗長選擇普通選

20、取100200。原因以下：當窗較寬時，平滑作用大，能量改變不大，故反應(yīng)不出能量改變。當窗較窄時，沒有平滑作用，反應(yīng)了能量快變細節(jié)，而看不出包絡(luò)改變。語音的產(chǎn)生機理第53頁語音信號分幀處理，實際上就是對各幀進行某種變換或運算。設(shè)這種變換或運算用T 表示，x(n)為輸入語音信號，w(n)為窗序列，h(n)是與w(n)相關(guān)濾波器，則各幀經(jīng)處理后輸出能夠表示為：語音的產(chǎn)生機理第54頁幾個常見短時處理方法是：1.對應(yīng)于能量；2.，對應(yīng)于平均過零率；3.對應(yīng)于自相關(guān)函數(shù) ；語音的產(chǎn)生機理第55頁短時平均能量 1短時平均能量定義定義n時刻某語音信號短時平均能量En為：當窗函數(shù)為矩形窗時，有語音的

21、產(chǎn)生機理第56頁若令則短時平均能量能夠?qū)懗桑?語音的產(chǎn)生機理第57頁2. En特點：En反應(yīng)語音信號幅度或能量隨時間遲緩改變規(guī)律。3. 窗長短對于能否由短時能量反應(yīng)語音信號幅度改變，起著決定性影響。假如窗選得很長，En不能反應(yīng)語音信號幅度改變。窗選得太窄，En將不夠平滑。通常，當取樣頻率為10kHz時，選擇窗寬度N=100200是比較適當。語音的產(chǎn)生機理第58頁不一樣矩形窗長N時短時能量函數(shù) 語音的產(chǎn)生機理第59頁短時平均能量主要用途以下： 1）能夠作為區(qū)分清音和濁音特征參數(shù)。 2）在信噪比較高情況下，短時能量還能夠作為區(qū)分有聲和無聲依據(jù)。 3）能夠作為輔助特征參數(shù)用于語音識別中。

22、語音的產(chǎn)生機理第60頁MATLAB詳細實現(xiàn)以下：1、用Cooledit讀入語音“我到北京去”。2、將讀入語音文件wav保留為txt文件，設(shè)置采樣率為8kHz，16位，單聲道。3、把保留文件zqq.txt讀入Matlab。fid=fopen(zqq.txt,rt); x=fscanf(fid,%f);fclose(fid);4、對采集到語音樣點值進行分幀。語音的產(chǎn)生機理第61頁3.4 短時平均幅度函數(shù) 為了克服短時能量函數(shù)計算x2 ( m ) 缺點，定義了短時平均幅度函數(shù):語音的產(chǎn)生機理第62頁 Mn與En比較： 1. Mn能很好地反應(yīng)清音范圍內(nèi)幅度改變； 2. Mn所能反應(yīng)幅度改變動態(tài)范圍比

23、En好； 3. Mn反應(yīng)清音和濁音之間電平差次于En。語音的產(chǎn)生機理第63頁短時平均幅度函數(shù)隨矩形窗窗長N改變情況語音的產(chǎn)生機理第64頁短時平均過零率 1. 定義在離散時間語音信號情況下，假如相鄰采樣含有不一樣代數(shù)符號就稱為發(fā)生了過零。單位時間內(nèi)過零次數(shù)就稱為過零率。短時平均過零率定義為語音的產(chǎn)生機理第65頁在上式中，用1/2N 作為幅值，是考慮了對該窗口范圍內(nèi)過零數(shù)取平均意思。語音的產(chǎn)生機理第66頁考慮到w(n-m)非零值范圍為n-m0，即mn，以及 n-mN-1,故mn-N+1，所以短時平均過零率能夠改寫為：（定義式）語音的產(chǎn)生機理第67頁2. 實現(xiàn)短時平均過零率語音的產(chǎn)生機理第

24、68頁女聲“我到北京去”短時平均過零次數(shù)改變曲線:語音的產(chǎn)生機理第69頁3. 應(yīng)用清音過零率高，濁音過零率低。不足：濁音和清音重合區(qū)域只依據(jù)短時平均過零率不可能明確地判別清、濁音。語音的產(chǎn)生機理第70頁端點檢測端點檢測目標：從包含語音一段信號中確定出語音起點及結(jié)束點。有效端點檢測不但能使處理時間減到最少，而且能抑制無聲段噪聲干擾，提升語音處理質(zhì)量。語音的產(chǎn)生機理第71頁時域特征短時平均能量N為分析窗寬度，St(n) 表示第t 幀中第n個采樣點信號值短時平均過零率語音的產(chǎn)生機理第72頁過零率tS(t)One frame20msOne frame20ms語音的產(chǎn)生機理第73頁時域特征能量和

25、過零率參數(shù)缺點對于說話人和背景噪聲魯棒性較差當前時域參數(shù)多用在語音預(yù)處理上如端點檢測，判斷語音開始與結(jié)束也有些人把它作為模型參數(shù)進行使用語音的產(chǎn)生機理第74頁頻域分析為何要進行頻域分析？穩(wěn)態(tài)語音生成模型由線性系統(tǒng)組成，其被一隨時間做周期改變或者隨機改變源所激勵，因而系統(tǒng)輸出頻譜反應(yīng)了激勵與聲道頻率響應(yīng)特征語音信號頻譜含有非常顯著語音、聲學(xué)意義，能夠取得主要語音特征，如共振峰共振峰是指在聲音頻譜中能量相對集中一些區(qū)域共振峰不不過音質(zhì)決定原因，而且反應(yīng)了聲道（共振腔）物理特征。聲音在經(jīng)過共振腔時，受到腔體濾波作用，使得頻域中不一樣頻率能量重新分配，一部分因為共振腔共振作用得到強化，另一部分則受到衰

26、減，得到強化那些頻率在時頻分析語圖上表現(xiàn)為濃重黑色條紋。因為能量分布不均勻，強部分如同山峰普通，故而稱之為共振峰。在語音聲學(xué)中，共振峰決定著元音音質(zhì) 語音的產(chǎn)生機理第75頁廣義頻域分析廣義頻譜分析頻譜倒頻譜功率譜頻譜包絡(luò)慣用頻譜分析方法傅里葉變換法線性預(yù)測法帶通濾波器組法語音的產(chǎn)生機理第76頁頻域分析基本工具傅里葉變換標準傅里葉變換適合用于周期、平穩(wěn)隨機信號不適合于非平穩(wěn)語音信號短時傅里葉變換短時譜，有限長度傅里葉變換即對某一幀語音進行傅里葉變換窗選語音信號標準傅里葉變換尤其適合用于“語音分析和語音合成”因為其能夠準確恢復(fù)語音波形語音的產(chǎn)生機理第77頁反卷積問題定義語音信號產(chǎn)生模型線性非移變系

27、統(tǒng)輸出，即聲門激勵信號和聲道沖激響應(yīng)卷積A = L * R問題已知A，怎樣求解L和R?解卷（反卷積）由卷積結(jié)果求得參加卷積各個信號分量語音的產(chǎn)生機理第78頁反卷積方法倒譜(同態(tài))分析線性預(yù)測分析語音的產(chǎn)生機理第79頁同態(tài)分析基本思緒，三步走：Z變換：卷積信號乘積信號對數(shù)運算：乘積信號加性運算逆Z變換：得到滿足加性時域信號分析得到逆Z變換結(jié)果稱為復(fù)倒頻譜Complex Cepstrum倒譜同態(tài)分析/同態(tài)濾波/倒譜分析 Spectrum語音的產(chǎn)生機理第80頁倒譜(同態(tài))分析應(yīng)用倒譜分析能夠得到一些參數(shù)近似表示聲門激勵基音周期聲門振動特征區(qū)分濁音與清音濁音：聲帶振動，聲門開閉清音：聲帶不振動聲

28、道響應(yīng)共振峰頻率聲道（咽、口腔和鼻腔）特征語音的產(chǎn)生機理第81頁反卷積方法倒譜(同態(tài))分析線性預(yù)測分析語音的產(chǎn)生機理第82頁線性預(yù)測分析概況線性預(yù)測 Linear Prediction, LP1947年，維納首次提出1967年，板倉等人應(yīng)用于語音分析和合成中LP是首次得到成功實用語音分析技術(shù)功效預(yù)計基本語音參數(shù)包含基音、共振峰、譜、聲道面積函數(shù)用于低帶寬傳輸和存放語音優(yōu)勢準確預(yù)計參數(shù)；參數(shù)少但能夠有效而準確表示語音波形及其頻譜性質(zhì)；速度快，效率高。語音的產(chǎn)生機理第83頁線性預(yù)測分析基本思緒基本概念一個語音采樣能夠用過去若干個語音采樣線性組合來迫近分析思緒經(jīng)過使實際語音采樣和線性預(yù)測采樣之間差值

29、平方和到達最小值，即進行最小均方誤差迫近，能夠決定唯一一組線性預(yù)測系數(shù)語音的產(chǎn)生機理第84頁線性預(yù)測分析基本思緒語音的產(chǎn)生機理第85頁線性預(yù)測分析模型將信號看作某一模型（系統(tǒng)）輸出將語音生成激勵、聲道和輻射模型全部譜效應(yīng)簡化為一個時變數(shù)字濾波器用模型參數(shù)來描述信號，其參數(shù)包含：濁音/清音判決，濁音基音周期增益常數(shù)，數(shù)字濾波器參數(shù)等語音的產(chǎn)生機理第86頁語音信號線性預(yù)測分析求解數(shù)字濾波器參數(shù)和增益常數(shù)過程即語音信號線性預(yù)測分析輸出LPC, LP coefficients線性預(yù)測系數(shù)：參數(shù)、增益常數(shù)注意語音信號含有時變性，所以系數(shù)預(yù)測一樣要按幀進行語音的產(chǎn)生機理第87頁線性預(yù)測系數(shù)(LPC)計算方

30、法問題轉(zhuǎn)化最終問題轉(zhuǎn)化求解線性方程組問題LPC計算方法自相關(guān)法格型法引入正向預(yù)測/反向預(yù)測概念協(xié)方差矩陣法對協(xié)方差矩陣進行特征分解語音的產(chǎn)生機理第88頁LPC+倒譜 = LPCC基于LP倒譜分析LPC是語音信號基本表示參數(shù)，能夠變換為其它形式參數(shù)在求得LPC 后，使用下面遞推公式能夠計算出該幀語音LPC 倒譜(LPCC)系數(shù)語音的產(chǎn)生機理第89頁基于LPC 倒譜系數(shù)LPCC語音的產(chǎn)生機理第90頁基于Mel頻率倒譜MFCC生理支持依據(jù)人類聽覺系統(tǒng)特征，人耳分辨聲音頻率過程如同一個取對數(shù)功效，基于此，出現(xiàn)了Mel 頻率倒譜系數(shù)(MFCC)MFCC: Mel-Frequency Cepstrum C

31、oefficients特點MFCC 比LPCC 更能反應(yīng)聽覺特征，在語音識別系統(tǒng)中有著廣泛應(yīng)用，是當前公認性能最好特征參數(shù)之一語音的產(chǎn)生機理第91頁Mel-頻率目標模擬人耳對不一樣頻率語音感知人耳朵由外耳、中耳和內(nèi)耳組成，起主要作用是內(nèi)耳耳蝸。對于不一樣聲音頻率，耳蝸內(nèi)基底膜運動幅度也不一樣。通常在幾百赫茲以上聲音信號，頻率沿基底膜是對數(shù)分布；幾百赫茲以下是線性分布。經(jīng)過耳蝸處理，把時域語音信號分解成在不一樣空間軸位置上有不一樣頻率特征信號，這就是耳蝸頻率分解。語音的產(chǎn)生機理第92頁Mel-頻率人類對不一樣頻率語音有不一樣感知能力1kHz以下，與頻率成線性關(guān)系1kHz以上，與頻率成對數(shù)關(guān)系Me

32、l頻率將頻譜轉(zhuǎn)換到基于Mel頻標非線性頻譜在Mel頻域內(nèi)，人對音調(diào)感知能力為線性關(guān)系假如兩段語音Mel頻率差兩倍，人在感知上也差兩倍語音的產(chǎn)生機理第93頁Mel-頻率公式：頻率Mel-頻率：- 頻率- Mel-頻率Mel-頻率頻率(Hz)語音的產(chǎn)生機理第94頁MFCC計算過程計算流程：DFT時域信號線性譜域Mel濾波器組LogDCTMel譜域?qū)?shù)譜域MFCC語音的產(chǎn)生機理第95頁Mel帶通濾波利用D 個三角帶通濾波器分別與離散譜St(k) 做卷積，其中三角濾波器中心頻率和邊界頻率與對應(yīng)Mel頻標對齊（帶寬在Mel標度上是相等）語音的產(chǎn)生機理第96頁倒譜系數(shù)計算求出每個頻段對數(shù)能量輸出三角濾波器

33、輸出最終用DCT將這些系數(shù)變換到倒譜域倒譜系數(shù)維數(shù)通常取DCT系數(shù)前12維語音的產(chǎn)生機理第97頁聲學(xué)特征小結(jié)短時平均能量/幅度/功率短時平均過零率線性預(yù)測系數(shù)（LPC）LPC倒譜特征（LPCC）Mel 倒譜參數(shù)（MFCC）語音的產(chǎn)生機理第98頁內(nèi)容歷史2.語音產(chǎn)生機理 3.語音特征4.系統(tǒng)架構(gòu)5.引言1.語音的產(chǎn)生機理第99頁說話人識別（10/14）說話人識別模型主要有三類：基于模板模型：K-NN （K近鄰法）DTW（動態(tài)時間規(guī)整）VQ（矢量量化）隨機模型：GMM（高斯混合模型）HMM（隱馬爾可夫模型）基于人工神經(jīng)網(wǎng)絡(luò)模型NN（神經(jīng)元網(wǎng)絡(luò)）SVM（支持向量機）語音的產(chǎn)生機理第100頁說話人識別

34、（11/14）Feature 1Feature 2: class-A point: class-B point: point with unknown classCircle of 3-nearest neighborsThe point is class B via 3-NNR.K近鄰法 (K-NNR)：1. 對給定點找到前K個最近鄰居. 2. 對這K個最近鄰居經(jīng)過投票法決定這個特征點屬于哪個類.語音的產(chǎn)生機理第101頁說話人識別（12/14）一維高斯混合模型語音的產(chǎn)生機理第102頁二維高斯混合模型說話人識別（13/14）語音的產(chǎn)生機理第103頁三維高斯混合模型說話人識別（14/14）語音的

35、產(chǎn)生機理第104頁情感和情感語音（1/7）普通心理學(xué)/當代心理學(xué)簡明牛津英語詞典從心理學(xué)角度給情緒下定義是：“情緒是一個不一樣于認知或意志精神上情感或感情?！鼻榫w（emotion）是人對客觀事物態(tài)度和體驗。這是從最廣泛意義上給情緒下定義。情緒是人（包含動物）所含有一個心理形式。它與認識活動不一樣，含有主干體驗形式（如喜怒悲劇懼等感受色彩）、外部表現(xiàn)形式（如面部表情），以及獨特生理基礎(chǔ)（如皮層下等部位特定活動）。語音的產(chǎn)生機理第105頁情感和情感語音（2/7）情緒能夠分為基本情緒和復(fù)合情緒，口語中情緒表示普通不強烈，更多是復(fù)合情緒而不是某一個基本情緒。當前用最多基本情緒分類為：害怕、生氣、高興、

36、難過、詫異、厭惡。語音的產(chǎn)生機理第106頁情感和情感語音（3/7）研究熱點情感語音庫情感語音分析情感語音識別情感語音合成語音的產(chǎn)生機理第107頁語音產(chǎn)生語音了解生理過程語音的產(chǎn)生機理第108頁圖1 中性語音“你是個好人”語音特征情感和情感語音（4/7）語音信號中情感特征基音頻率發(fā)音連續(xù)時間能量韻律結(jié)構(gòu)音質(zhì) 世間問題，原來極復(fù)雜，能夠用極簡單事例, 加以說明語音的產(chǎn)生機理第109頁情感和情感語音（5/7）情感與語音參數(shù)之間關(guān)系漢語語速稍快較快，但有時較慢稍慢很快非常慢平均音高非常高很高稍低非常高非常低音高范圍很寬很寬稍窄很寬稍寬音節(jié)基頻高線改變陡峭，在重讀音節(jié)處平滑，上升改變下降改變正常

37、寬，下降終端改變音節(jié)基頻低線改變沒有太多改變平滑，上升改變下降改變正常下降終端改變音強較高較高較低正常較低音質(zhì)有呼吸聲，胸腔聲調(diào)有呼吸聲，響亮共鳴聲不規(guī)則發(fā)聲嘟囔胸鳴聲清楚度焦慮正常含糊準確正常語音的產(chǎn)生機理第110頁情感和情感語音（6/7）語音的產(chǎn)生機理第111頁情感和情感語音（7/7）傳統(tǒng)說話人識別面臨挑戰(zhàn)中性語音低層短時聲學(xué)特征人機交互中情感計算加強說話人發(fā)聲狀態(tài)情感變異語速音高音長所以，需要情感魯棒說話人識別模型語音的產(chǎn)生機理第112頁內(nèi)容情感和情感語音2.情感與說話人識別3.說話人識別技術(shù)1.語音的產(chǎn)生機理第113頁情感語音對說話人識別系統(tǒng)性能影響（1/4）識別率語音的產(chǎn)生機理第114頁情感語音對說話人識別系統(tǒng)性能影響（2/4）與訓(xùn)練語音文本相關(guān)性文本情感建模方式得分選擇策略語音的產(chǎn)生機理第115頁情感語音對說話人識別系統(tǒng)性能影響（3/4）訓(xùn)練文本情感對于中性語音，誘發(fā)情感信息對于情感語音，更加好地表示情感情感語料越多越好，不過情感語料增加破壞了系統(tǒng)友好性，普通每種情感可錄10s；與訓(xùn)練語音文本相關(guān)性文本內(nèi)容豐富，文本相關(guān)系統(tǒng)性能要好語音的產(chǎn)生機理第116頁情感

人人文庫> 全部分類> 行業(yè)資料 > 醫(yī)學(xué)制藥

溫馨提示

1. 本站所有資源如無特殊說明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽，若沒有圖紙預(yù)覽就沒有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 人人文庫網(wǎng)僅提供信息存儲空間，僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理，對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對任何下載內(nèi)容負責(zé)。
6. 下載文件中如有侵權(quán)或不適當內(nèi)容，請與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

語音的產(chǎn)生機理

文檔簡介

溫馨提示

最新文檔

評論

語音的產(chǎn)生機理

文檔簡介

溫馨提示

最新文檔

評論

相關(guān)文檔