版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)
文檔簡介
1、語音的產(chǎn)生機理內(nèi)容內(nèi)容歷史歷史2.語音產(chǎn)生機理語音產(chǎn)生機理 3.語音特征語音特征4.系統(tǒng)架構(gòu)系統(tǒng)架構(gòu)5.引言引言1.引言u聲音是攜帶信息的極其重要的媒體(20)u聲音是通過空氣傳播的一種連續(xù)的波,叫聲波,也具有反射、折射和衍射現(xiàn)象。u聲音信號是由許多頻率不同的分量信號組成的復(fù)合信號。復(fù)合信號的頻率范圍稱為帶寬帶寬。u帶寬為20Hz20kHz的信號稱為音頻(audio)信號,可以被人的耳朵感知。u聲音是時基類媒體。u說的是什么內(nèi)容?說的是什么內(nèi)容?u是誰在說話?是誰在說話?u計算機去說話?計算機去說話?u怎么把話說好?怎么把話說好?語音識別語音識別聲紋識聲紋識別別文語轉(zhuǎn)文語轉(zhuǎn)換換說話水平評估說話
2、水平評估u說的是什么語言?說的是什么語言? 語種識別語種識別引言引言語音處理研究的基本內(nèi)容語音處理研究的基本內(nèi)容引言引言uSpeaker, or voice, recognition is a biometric modality that uses an individuals voice for recognition purposes. u說話人識別(聲紋識別)是一項根據(jù)語音波形中反映說話根據(jù)語音波形中反映說話人生理和行為特征的語音參數(shù)人生理和行為特征的語音參數(shù),自動識別說話人身份的技術(shù)。uIt is a different technology than “speech recogni
3、tion”, which recognizes words as they are articulated, which is not a biometric.u聲紋識別利用的是語音信號中的說話人信息,而不考慮語音中的字詞意思,它強調(diào)說話人的個性說話人的個性;而語音識別的目的是識別出語音信號中的言語內(nèi)容,并不考慮說話人是誰,它強調(diào)共性。引言引言uThe speaker recognition process relies on features influenced by both the physical structure of an individuals vocal tract and
4、 the behavioral characteristics of the individual.u聲音是個復(fù)雜的信號,說話人有關(guān)的差異是聲道在解剖學上的差異和后天的說話習慣差異的綜合的結(jié)果。在說話人識別中,所有的這些差異都可以被用來區(qū)別不同的用戶。u它涉及到說話人發(fā)音器官上的個性差異、發(fā)音聲道之間的個性差異、發(fā)音習慣之間的個性差異等不同級別上的差異。u說話人識別是交叉運用心理學、生理學、語音信號處理、模式識別、統(tǒng)計學習理論和人工智能的綜合性研究課題。引言引言u說話人識別的特殊優(yōu)勢l對用戶干擾少,易被用戶接受l最經(jīng)濟的方法之一,輸入設(shè)備造價低廉 l語音獲取非接觸,具備衛(wèi)生方面的安全性l適用基
5、于電信網(wǎng)絡(luò)的應(yīng)用中 u因此,說話人識別研究具有巨大應(yīng)用前景引言引言u聲紋分析技術(shù)的應(yīng)用領(lǐng)域:l信息查詢領(lǐng)域的應(yīng)用l在電話交易的應(yīng)用l在PC以及手持式設(shè)備上面的應(yīng)用l在保安系統(tǒng)以及證件防偽中的應(yīng)用l與二維條碼技術(shù)相結(jié)合的防偽應(yīng)用挑戰(zhàn)挑戰(zhàn)u說話人的發(fā)音經(jīng)常與環(huán)境、情緒、健康狀態(tài)有密切關(guān)系。u語音信號或者稱為“聲紋(voiceprint)”與指紋(fingerprint)不同,指紋是靜態(tài)的、固定不變的生理特性,而說話人特征具有長時變動特性,會隨時間、年齡的變化而變化。u如感冒、聲道管疾病,都有可能使發(fā)出的聲音改變。u情緒變化也是一個因素,大聲喊叫的時候,聲道的形狀顯然同正常狀態(tài)有很大的不同。挑戰(zhàn)挑戰(zhàn)
6、u聲音往往是可以模仿的,還可以預(yù)先錄制起來,如何區(qū)別真假聲音也是很頭痛的事情。特別是對于遠程電話身份認證,不能采用同用戶的其他特征相結(jié)合的辦法。挑戰(zhàn)挑戰(zhàn)u線路傳輸所帶來的線路噪聲,包括不同線路噪聲情況可能不同、同一線路在不同時期噪聲情況也會不同,噪聲的處理也很有難度。u噪聲可能導(dǎo)致語音信號在整個時域空間上的污染,甚至有可能也對頻域特征造成污染,這就給提取出正確的反映說話人的特征,造成了很大的困難。內(nèi)容內(nèi)容歷史歷史2.語音產(chǎn)生機理語音產(chǎn)生機理 3.語音特征語音特征4.系統(tǒng)架構(gòu)系統(tǒng)架構(gòu)5.引言引言1.歷史歷史u以人們的語音作為身份認證的手段,據(jù)說是從1660 年英國查爾斯一世之死的判決開始的,首次
7、利用語音作為推斷犯人作案的線索。u其后隨著技術(shù)的發(fā)展,電話克服了距離的障礙,錄音手段克服了時間的障礙,從而使得對語音的說話人個性的分析得到了關(guān)注。歷史歷史u從1937 年開始,以C. A. Lindbergh 先生的兒子拐騙事件為開端,對語音的說話人個性開展了科學的測量和研究。u1945 年,美國貝爾實驗室的R. K. Pooter 發(fā)明了語音頻譜圖,能把所謂的聲紋(voiceprint)動描述出來。u1962 年,貝爾實驗室的L. G. Kersta 第一次介紹了采用上述方法進行說話人識別的可能性。u1966 年,美國法院第一次采用此方法進行了取證。歷史歷史u原先的說話人識別,往往是用視覺來
8、判斷聲音頻譜圖,或者用聽覺判斷是誰的聲音。u隨著計算機的發(fā)展,自動說話人識別(ASR)的研究得到了迅速的發(fā)展。u自動說話人識別是指利用計算機技術(shù),不需要人們的干預(yù),自動的進行身份認證。內(nèi)容內(nèi)容歷史歷史2.語音產(chǎn)生機理語音產(chǎn)生機理 3.語音特征語音特征4.系統(tǒng)架構(gòu)系統(tǒng)架構(gòu)5.引言引言1.語音的產(chǎn)生機理語音的產(chǎn)生機理u眾所周知,發(fā)聲從肺部擠出空氣開始,空氣通過振動聲帶造出振動波。由于這個振動波在自聲帶到口為止的“3個箱子”各自振動,進一步強化共振,最終構(gòu)成聲音。u這3個箱子是“咽頭”、“口腔”、和“鼻腔”。在制造語音的3個箱子中,口腔扮演了重要的角色。因為通過舌頭能夠改變空間的容積。如果容積改變,
9、則發(fā)音也改變了,3個頻率的組合產(chǎn)生聲音。 語音的產(chǎn)生機理語音的產(chǎn)生機理u語音產(chǎn)生器官l發(fā)聲器官語音合成n肺、氣管、喉(包括聲帶)、咽、鼻、口。它們共同形成一條形狀復(fù)雜的管道l聲帶和聲門n喉與氣管的接口處稱為聲門l聲道n其中喉以上的部分稱為聲道,隨著發(fā)出語音的不同其形狀是變化的語音的產(chǎn)生機理語音的產(chǎn)生機理u產(chǎn)生語音的能量,絕大多數(shù)來源于正常呼吸時肺部呼出的穩(wěn)定氣流l有極少數(shù)語種,如某些非洲語言,是利用吸氣氣流來發(fā)音的u聲帶最重要的發(fā)聲器官l既是一個閥門又是一個振動部件l呼吸時左右兩聲帶打開(聲門開)l在說話的時候合攏,肺部氣流經(jīng)氣管形成沖擊“打開-閉合-打開-閉合-”聲門,從而沖擊聲帶產(chǎn)生振動,
10、然后通過聲道響應(yīng)變成語音聲道調(diào)制聲道調(diào)制u聲道l咽、口腔和鼻腔l從聲門延伸至口唇的非均勻截面的聲管,約17cmu功能l諧振腔:放大某一頻率而衰減其他頻率分量n諧振頻率:由每一瞬間的聲道外形決定,又稱為共振峰,是聲道的重要聲學特征語音的頻率性質(zhì)語音的頻率性質(zhì)u音調(diào)周期/基音周期l聲門開啟-閉合一次的時間即振動周期u基頻l基音周期的倒數(shù),聲帶振動的基本頻率u音調(diào)l聲帶振動的頻率(即基音)決定了聲音頻率的高低,頻率快則音調(diào)高,否則音調(diào)低l人的基音范圍n70350HZ,兒童和青年女性偏高,男性偏低語音的產(chǎn)生機理語音的產(chǎn)生機理u濁音(voiced sounds):聲道打開,聲帶在先打開后關(guān)閉,氣流經(jīng)過使
11、聲帶要發(fā)生張馳振動,變?yōu)闇手芷谡駝託饬?。濁音的激勵源被等效為準周期的脈沖信號。l如發(fā)/U/、/d/、/i/等音u清音(unvoiced sounds):聲帶不振動,而在某處保持收縮,氣流在聲道里收縮后高速通過產(chǎn)生湍流,再經(jīng)過主聲道(咽、口腔)的調(diào)整最終形成清音。清音的激勵源被等效為一種白噪聲信號。l如發(fā)/音u爆破音(plosive sounds):聲道關(guān)閉之后產(chǎn)生壓縮空氣然后突然打開聲道所發(fā)出的聲音。l如發(fā)/ t/音時發(fā)聲過程小結(jié)發(fā)聲過程小結(jié)u人的發(fā)聲過程包括兩個步驟l聲門/聲帶產(chǎn)生不同頻率的聲音n準周期氣流脈沖或白噪聲l聲道對聲源的調(diào)制作用 激勵過程(聲門)調(diào)制過程(聲道)語音輻射語音的產(chǎn)生
12、機理語音的產(chǎn)生機理u肺中的空氣受到擠壓形成氣流,氣流通過聲門(聲帶)沿著聲道(由咽、喉、口腔等組成)釋放出去,就形成了話音。u 氣流、聲門可以等效為一個激勵源,聲道可以等效為一個時變?yōu)V波器(共振峰)。u 話音信號具有很強的相關(guān)性(長期相關(guān)、短期相關(guān))。語音的產(chǎn)生機理語音的產(chǎn)生機理語音信號的產(chǎn)生數(shù)學模型語音信號的產(chǎn)生數(shù)學模型u激勵模型u聲道模型u輻射模型激勵模型激勵模型u激勵模型非常復(fù)雜u聲門脈沖模型l濁音n聲帶振動,聲門脈沖n如:斜三角形脈沖串u隨機白噪聲l清音n聲帶不振動,隨機白噪聲內(nèi)容內(nèi)容歷史歷史2.語音產(chǎn)生機理語音產(chǎn)生機理 3.語音特征語音特征4.系統(tǒng)架構(gòu)系統(tǒng)架構(gòu)5.引言引言1.聲紋識別
13、流程聲紋識別流程圖1 說話人識別模型 聲紋識別系統(tǒng)的組成聲紋識別系統(tǒng)的組成u聲紋識別系統(tǒng)主要包括兩部分,即聲紋識別系統(tǒng)主要包括兩部分,即特征檢測特征檢測和和模模式匹配式匹配。l特征檢測特征檢測的任務(wù)是選取唯一表現(xiàn)說話人身份的有效且穩(wěn)的任務(wù)是選取唯一表現(xiàn)說話人身份的有效且穩(wěn)定可靠的特征定可靠的特征.l模式匹配模式匹配的任務(wù)是對訓練和識別時的特征模式做相似性的任務(wù)是對訓練和識別時的特征模式做相似性匹配。匹配。 特征特征uSpeech samples are waveforms with time on the horizontal axis and loudness on the vertical
14、 access. Voice Sample: The voice input signal (top of image) shows the inputloudness with respect to the time domain. The lower image (blue) depicts thespectral information of the voice signal. This information is plotted bydisplaying the time versus the frequency variations特征特征u特征提取是指用各種模擬和數(shù)字處理技術(shù)、運
15、用軟件和硬特征提取是指用各種模擬和數(shù)字處理技術(shù)、運用軟件和硬件的手段,處理語音信號,選擇和提取表征語音信號的特件的手段,處理語音信號,選擇和提取表征語音信號的特征。征。u特征提取特征提取的任務(wù)是提取并選擇對說話人的聲紋具有的任務(wù)是提取并選擇對說話人的聲紋具有可分性可分性強、穩(wěn)定性高強、穩(wěn)定性高等特性的聲學或語言特征。與語音識別不同,等特性的聲學或語言特征。與語音識別不同,聲紋識別的特征必須是聲紋識別的特征必須是“個性化個性化”特征,而語音識別的特特征,而語音識別的特征對說話人來講必須是征對說話人來講必須是“共性特征共性特征”。u較好的特征,應(yīng)該能夠有效地區(qū)分不同的說話人,但又能較好的特征,應(yīng)該
16、能夠有效地區(qū)分不同的說話人,但又能在同一說話人語音發(fā)生變化時保持相對的穩(wěn)定;不易被他在同一說話人語音發(fā)生變化時保持相對的穩(wěn)定;不易被他人模仿或能夠較好地解決被他人模仿問題;具有較好的抗人模仿或能夠較好地解決被他人模仿問題;具有較好的抗噪性能。噪性能。 u特征提取的信息來源是說話人所說的話,其語音信號中既包含了說話人所說的話的信息,也包含了說話人的個性信息,是話音特征和個性特征的混合體。u目前還沒有將說話人的個性特征從所發(fā)語音的語音特征中分離出來的較好辦法,從而給有效的特征提取帶來了很大的難度。u所有提取出來的特征向量中,雖然在一定程度上表征了說話人的個性特征,不可避免的包含有特定話音的特征。語
17、音信號分析方法分類語音信號分析方法分類u時域特征l直接從時域信號計算得到,反應(yīng)了語音信號時域波形的特征。n如短時平均能量、短時平均過零率、共振峰、基音周期等。u頻域及倒譜域特征l由時域信號進行頻譜變換得到,反映語音信號的頻域特性n包括傅里葉頻譜、倒譜以及利用了語音信號的時序信息的時頻譜u聽覺特征l不直接對聲道模型進行研究,而是從人類聽覺系統(tǒng)對語音的感知特性來刻畫語音信號的特征n如感知線性預(yù)測(PLP)分析u 根據(jù)所分析的參數(shù)類型,語音信號分析可以分成時域分析和變換域(頻域、倒譜域)分析。其中時域分析方法是最簡單、最直觀的方法,它直接對語音信號的時域波形進行分析,提取的特征參數(shù)主要有語音的短時能
18、量和平均幅度、短時平均過零率、短時自相關(guān)函數(shù)和短時平均幅度差函數(shù)等。短時分析技術(shù)短時分析技術(shù)u語音信號是非平穩(wěn)時變信號l語音信號的特性是隨時間而變化的u幸運的是具有短時平穩(wěn)性l短時間范圍內(nèi)其特性基本保持不變(緩慢變換),即短時相對平穩(wěn)準平穩(wěn)過程u短時分析技術(shù)l即在對語音信號進行分析時,將語音信號分為一段一段,利用平穩(wěn)信號的分析方法對每一分段進行處理l每一分段成為一“幀”:一般1030ms為一幀u短時分析的不足l對語音識別,應(yīng)采用HMM來分析,以處理語音信號的瞬變和非平穩(wěn)特性語音信號的預(yù)處理語音信號的預(yù)處理 u 在對語音信號進行數(shù)字處理之前,首先要將模擬語音信號s(t) 離散化為s(n). 實際
19、中獲得數(shù)字語音的途徑一般有兩種,正式的和非正式的。u 正式的是指大公司或語音研究機構(gòu)發(fā)布的被大家認可的語音數(shù)據(jù)庫,非正式的則是研究者個人用錄音軟件或硬件電路加麥克風隨時隨地錄制的一些發(fā)音或語句。u 語音信號的頻率范圍通常是3003400Hz,一般情況下取采樣率為8kHz即可。u 有了語音數(shù)據(jù)文件后,對語音的預(yù)處理包括:預(yù)加重、加窗分幀等。語音信號的預(yù)加重處理語音信號的預(yù)加重處理 u 預(yù)加重目的:為了對語音的高頻部分進行加重,去除口唇輻射的影響,增加語音的高頻分辨率??赏ㄟ^一階FIR高通數(shù)字濾波器來實現(xiàn):1( )1H zz 設(shè)設(shè)n時刻的語音采樣值為時刻的語音采樣值為x(n) ,經(jīng)過預(yù)加重處理后經(jīng)
20、過預(yù)加重處理后的結(jié)果為的結(jié)果為 ( )( )(1)y nx nx n高通濾波器的幅頻特性和相頻特性如下高通濾波器的幅頻特性和相頻特性如下 預(yù)加重前和預(yù)加重后的一段語音信號時域波形預(yù)加重前和預(yù)加重后的一段語音信號時域波形 預(yù)加重前和預(yù)加重后的一段語音信號頻譜預(yù)加重前和預(yù)加重后的一段語音信號頻譜 語音信號的加窗處理語音信號的加窗處理 u 由于發(fā)音器官的慣性運動,可以認為在一小段時間里(一般為10ms30ms)語音信號近似不變,即語音信號具有短時平穩(wěn)性。這樣,可以把語音信號分為一些短段(稱為分析幀)來進行處理。 說話人識別(說話人識別(9/149/14)語音信號的分幀實現(xiàn)方法:u 采用可移動的有限長
21、度窗口進行加權(quán)的方法來實現(xiàn)的。一般每秒的幀數(shù)約為33100幀。u 分幀一般采用交疊分段的方法,這是為了使幀與幀之間平滑過渡,保持其連續(xù)性。前一幀和后一幀的交疊部分稱為幀移,幀移與幀長的比值一般取為01/2。 u圖3.3給出了幀移與幀長示意圖。 u加窗常用的兩種方法:u矩形窗,窗函數(shù)如下:其它 010 1)(Nnnw漢明漢明(Hamming)窗,窗函數(shù)如下窗,窗函數(shù)如下 0.540.46 cos 2 /1 0( ) 0 nNnNw n其它,u矩形窗及其頻譜如下u漢明窗及其頻譜如下思考:思考:兩種窗效果有何異同?兩種窗效果有何異同?加窗方法示意圖:加窗方法示意圖: 窗長的選擇窗長的選擇 一般選取一
22、般選取100200。原因如下:。原因如下: 當窗較寬時,平滑作用大,能量變化不大,當窗較寬時,平滑作用大,能量變化不大,故反映不出能量的變化。故反映不出能量的變化。 當窗較窄時,沒有平滑作用,反映了能量的當窗較窄時,沒有平滑作用,反映了能量的快變細節(jié),而看不出包絡(luò)的變化??熳兗毠?jié),而看不出包絡(luò)的變化。 語音信號的分幀處理,實際上就是對各幀進行語音信號的分幀處理,實際上就是對各幀進行某種變換或運算。設(shè)這種變換或運算用某種變換或運算。設(shè)這種變換或運算用T 表示,表示,x(n)為輸入語音信號,為輸入語音信號,w(n)為窗序列,為窗序列,h(n)是與是與w(n)有關(guān)的濾波器,則各幀經(jīng)處理后的輸出可以表
23、示為:有關(guān)的濾波器,則各幀經(jīng)處理后的輸出可以表示為: ( ) ()nmQT x m h nm幾種常見的短時處理方法是:幾種常見的短時處理方法是:22 ( )( )( )( )T x mxmh nw n,nQ1.對應(yīng)于能量;對應(yīng)于能量; ( ) sgn ( ) sgn (1)( )( )T xmxmxmhnwn,2.,nQ對應(yīng)于平均過零率;對應(yīng)于平均過零率; ( )( ) () T xmxmxm kh nw n w n k,3.nQ對應(yīng)于對應(yīng)于自相關(guān)函數(shù)自相關(guān)函數(shù) ;短短時平均能量時平均能量 u1短時平均能量定義u定義n時刻某語音信號的短時平均能量En為: )()( )()()1(22nNnmm
24、nmnwmxmnwmxE當窗函數(shù)為矩形窗時,有當窗函數(shù)為矩形窗時,有 )() 1(2nNnmnmxEu若令 u則短時平均能量可以寫成:u u )()(2nwnh )()()()(22nhnxmnhmxEmn x ( n ) x 2 ( n ) E n h ( n ) ( . ) 2 圖 3.7 語音信號的短時平均能量實現(xiàn)方框圖 2. En特點:特點:En反映語音信號的幅度或能量隨時間緩反映語音信號的幅度或能量隨時間緩慢變化的規(guī)律慢變化的規(guī)律 。3. 窗的長短對于能否由短時能量反映語音信號的幅窗的長短對于能否由短時能量反映語音信號的幅度變化,起著決定性影響。度變化,起著決定性影響。 如果窗選得很
25、長,如果窗選得很長,En不能反映語音信號幅度變化不能反映語音信號幅度變化。 窗選得太窄,窗選得太窄,En將不夠平滑。將不夠平滑。 通常,當取樣頻率為通常,當取樣頻率為10kHz時,選擇窗寬度時,選擇窗寬度N=100200是比較合適的。是比較合適的。u不同矩形窗長N時的短時能量函數(shù) u 短時平均能量的主要用途如下:u 1)可以作為區(qū)分清音和濁音的特征參數(shù)。u 2)在信噪比較高的情況下,短時能量還可以作為區(qū)分有聲和無聲的依據(jù)。u 3)可以作為輔助的特征參數(shù)用于語音識別中。uMATLAB的具體實現(xiàn)如下 :u1、用Cooledit讀入語音“我到北京去”。u2、將讀入的語音文件wav保存為txt文件,設(shè)
26、置采樣率為8kHz,16位,單聲道。u3、把保存的文件zqq.txt讀入Matlab。ufid=fopen(zqq.txt,rt); x=fscanf(fid,%f);ufclose(fid);u4、對采集到的語音樣點值進行分幀。3.4 短時平均短時平均幅度函數(shù)幅度函數(shù) 為了克服短時能量函數(shù)計算為了克服短時能量函數(shù)計算x2 ( m ) 的缺點,的缺點,定義了短時平均幅度函數(shù)定義了短時平均幅度函數(shù):mnmnwmxM )(| )(| x ( n ) Mn w ( n ) 圖 3.9 短時平均幅度 |x ( n )| | . | Mn與與En的比較:的比較: 1. Mn能較好地反映清音范圍內(nèi)的幅度變
27、化;能較好地反映清音范圍內(nèi)的幅度變化; 2. Mn所能反映幅度變化的動態(tài)范圍比所能反映幅度變化的動態(tài)范圍比En好;好; 3. Mn反映清音和濁音之間的電平差次于反映清音和濁音之間的電平差次于En。 短時平均幅度函數(shù)隨矩形窗窗長短時平均幅度函數(shù)隨矩形窗窗長N變化的情況變化的情況短時平均過零率短時平均過零率 u1. 定義u 在離散時間語音信號情況下,如果相鄰的采樣具有不同的代數(shù)符號就稱為發(fā)生了過零。單位時間內(nèi)過零的次數(shù)就稱為過零率。短時平均過零率的定義為 sgnsgn1sgnsgn1*nmZx mx mw nmx nx nw n 10120 nN w n N 其它1( )0 sgn( )1( )0
28、 x n x n - x n及 在上式中,用在上式中,用1/2N 作為幅值,是考慮了對該窗口范作為幅值,是考慮了對該窗口范圍內(nèi)的過零數(shù)取平均的意思圍內(nèi)的過零數(shù)取平均的意思。 u 考慮到w(n-m)的非零值范圍為n-m0,即mn,以及 n-mN-1,故mn-N+1,因此短時平均過零率可以改寫為:nNnmnmxmxNZ)1(|1-sgnsgn| 21 sgnsgn1sgnsgn1*nmZx mx mw nmx nx nw n (定義式)(定義式)u2. 實現(xiàn)短時平均過零率 Nn x(n) Sgnx(n) 1 一階差分 sgnxn -sgnxn-1 低通濾波 h(n)=w(n) -1 +1 圖圖 3
29、.11 語音信號的短時平均跨零數(shù)語音信號的短時平均跨零數(shù) Sgn . 取絕對取絕對值值 . . 女聲女聲“我到北京去我到北京去”的短時平均過零次數(shù)的變化曲線的短時平均過零次數(shù)的變化曲線:u3. 應(yīng)用u 清音過零率高,濁音過零率低。u 局限性:濁音和清音重疊區(qū)域只根據(jù)短時平均過零率不可能明確地判別清、濁音。 清音清音 濁音濁音 0 10 20 30 40 50 60 70 80 每每 10ms 內(nèi)的過零數(shù)內(nèi)的過零數(shù) 過零率概率分布過零率概率分布 端點檢測端點檢測u 端點檢測目的:從包含語音的一段信號中確定出語音的起點及結(jié)束點。u 有效的端點檢測不僅能使處理時間減到最少,而且能抑制無聲段的噪聲干擾
30、,提高語音處理的質(zhì)量。時域特征時域特征u短時平均能量lN為分析窗的寬度,St(n) 表示第t 幀中第n個采樣點的信號值u短時平均過零率過零率過零率tS(t)One frame20msOne frame20ms時域特征時域特征u能量和過零率參數(shù)的缺點l對于說話人和背景噪聲的魯棒性較差u目前時域參數(shù)多用在語音的預(yù)處理上l如端點檢測,判斷語音的開始與結(jié)束l也有人把它作為模型參數(shù)進行使用頻域分析頻域分析u為什么要進行頻域分析?l穩(wěn)態(tài)語音的生成模型由線性系統(tǒng)線性系統(tǒng)組成,其被一隨時間做周期變化或者隨機變化的源所激勵激勵,因而系統(tǒng)輸出頻譜頻譜反映了激勵與聲道頻率響應(yīng)特性反映了激勵與聲道頻率響應(yīng)特性l語音信
31、號的頻譜具有非常明顯的語音語音、聲學聲學意義,可以獲得重要的語音特征,如共振峰n共振峰是指在聲音的頻譜中能量相對集中的一些區(qū)域n共振峰不但是音質(zhì)的決定因素,而且反映了聲道(共振腔)的物理特征。l聲音在經(jīng)過共振腔時,受到腔體的濾波作用,使得頻域中不同頻率的能量重新分配,一部分因為共振腔的共振作用得到強化,另一部分則受到衰減,得到強化的那些頻率在時頻分析的語圖上表現(xiàn)為濃重的黑色條紋。由于能量分布不均勻,強的部分猶如山峰一般,故而稱之為共振峰。n在語音聲學中,共振峰決定著元音的音質(zhì) 廣義頻域分析廣義頻域分析u廣義頻譜分析l頻譜l倒頻譜l功率譜l頻譜包絡(luò)u常用頻譜分析方法l傅里葉變換法l線性預(yù)測法l帶
32、通濾波器組法頻域分析頻域分析u基本工具傅里葉變換l標準傅里葉變換n適用于周期、平穩(wěn)隨機信號n不適合于非平穩(wěn)的語音信號u短時傅里葉變換l短時譜,有限長度的傅里葉變換n即對某一幀語音進行傅里葉變換n窗選語音信號的標準傅里葉變換l特別適用于“語音分析和語音合成”n因為其可以精確的恢復(fù)語音波形反卷積問題定義反卷積問題定義u語音信號的產(chǎn)生模型l線性非移變系統(tǒng)的輸出,即聲門激勵信號和聲道沖激響應(yīng)的卷積lA = L * Ru問題l已知A,如何求解L和R?l解卷(反卷積)n由卷積結(jié)果求得參與卷積的各個信號分量反卷積方法反卷積方法u倒譜倒譜(同態(tài)同態(tài))分析分析u線性預(yù)測分析同態(tài)分析同態(tài)分析u基本思路,三步走:l
33、Z變換: 卷積信號乘積信號l對數(shù)運算:乘積信號加性運算l逆Z變換: 得到滿足加性的時域信號時域信號u分析得到的逆Z變換結(jié)果稱為復(fù)倒頻譜lComplex Cepstrumn倒譜 u同態(tài)分析/同態(tài)濾波/倒譜分析 Spectrum倒譜倒譜(同態(tài)同態(tài))分析應(yīng)用分析應(yīng)用u倒譜分析可以得到某些參數(shù)的近似表示l聲門激勵的基音周期基音周期n聲門的振動特征l區(qū)分濁音與清音濁音與清音n濁音:聲帶振動,聲門開閉n清音:聲帶不振動l聲道響應(yīng)的共振峰頻率共振峰頻率n聲道(咽、口腔和鼻腔)特征反卷積方法反卷積方法u倒譜(同態(tài))分析u線性預(yù)測分析線性預(yù)測分析線性預(yù)測分析線性預(yù)測分析概況概況u線性預(yù)測 Linear Pred
34、iction, LPl1947年,維納首次提出l1967年,板倉等人應(yīng)用于語音分析和合成中l(wèi)LP是首次得到成功實用的語音分析技術(shù)u功能l估計基本的語音參數(shù)n包括基音、共振峰、譜、聲道面積函數(shù)l用于低帶寬傳輸和存儲語音u優(yōu)勢l精確估計參數(shù);參數(shù)少但可以有效而準確的表示語音波形及其頻譜性質(zhì);速度快,效率高。線性預(yù)測分析線性預(yù)測分析基本思路基本思路u基本概念l一個語音的采樣可以用過去若干個語音采樣的線性組合來逼近u分析思路l通過使實際語音采樣實際語音采樣和線性預(yù)測采樣線性預(yù)測采樣之間差值的平方和達到最小值,即進行最小均方誤差最小均方誤差的逼近,能夠決定唯一的一組線性預(yù)測系數(shù)21minarg*Nnnn
35、tss線性預(yù)測分析線性預(yù)測分析基本思路基本思路線性預(yù)測分析線性預(yù)測分析模型模型u將信號看作某一模型(系統(tǒng))的輸出l將語音生成的激勵、聲道和輻射模型激勵、聲道和輻射模型全部譜效應(yīng)簡化為一個時變的數(shù)字濾波器時變的數(shù)字濾波器l用模型參數(shù)來描述信號,其參數(shù)包括:n濁音/清音判決,濁音基音周期增益常數(shù),數(shù)字濾波器參數(shù)等語音信號的線性預(yù)測分析語音信號的線性預(yù)測分析u求解數(shù)字濾波器的參數(shù)參數(shù)和增益常數(shù)增益常數(shù)的過程即語音信號的線性預(yù)測分析u輸出LPC, LP coefficientsl線性預(yù)測系數(shù):參數(shù)、增益常數(shù)u注意l語音信號具有時變性,所以系數(shù)的預(yù)測同樣要按幀進行按幀進行線性預(yù)測系數(shù)線性預(yù)測系數(shù)(LPC
36、)的計算方法的計算方法u問題轉(zhuǎn)化l最后問題轉(zhuǎn)化求解線性方程組求解線性方程組的問題uLPC的計算方法l自相關(guān)法l格型法n引入正向預(yù)測/反向預(yù)測的概念l協(xié)方差矩陣法n對協(xié)方差矩陣進行特征分解LPC+倒譜倒譜 = LPCCu基于LP的倒譜分析lLPC是語音信號的基本表示參數(shù),可以變換為其他形式的參數(shù)u在求得LPC 后,使用下面的遞推公式可以計算出該幀語音的LPC 倒譜(LPCC)系數(shù)基于基于LPC 的倒譜系數(shù)的倒譜系數(shù)LPCC.)2() 1 (31) 1 ()2(32) 3() 3() 1 () 1 (21)2()2() 1 () 1 (ttttttttttttLPCLPCCLPCLPCCLPCLP
37、CCLPCLPCCLPCLPCCLPCLPCC基于基于Mel頻率的倒譜頻率的倒譜MFCCu生理支持l根據(jù)人類聽覺系統(tǒng)的特性,人耳分辨聲音頻率的過程猶如一種取對數(shù)的功能,基于此,出現(xiàn)了Mel 頻率的倒譜系數(shù)(MFCC)nMFCC: Mel-Frequency Cepstrum Coefficientsu特點lMFCC 比LPCC 更能反映聽覺特性,在語音識別系統(tǒng)中有著廣泛的應(yīng)用,是目前公認的性能最好的特征參數(shù)之一Mel-頻率頻率u目的l模擬人耳對不同頻率語音的感知u人的耳朵由外耳、中耳和內(nèi)耳構(gòu)成,起重要作用的是內(nèi)耳耳蝸。對于不同的聲音頻率,耳蝸內(nèi)的基底膜運動的幅度也不同。通常在幾百赫茲以上的聲音
38、信號,頻率沿基底膜是對數(shù)分布的;幾百赫茲以下是線性分布的。通過耳蝸處理,把時域語音信號分解成在不同的空間軸位置上有不同頻率特性的信號,這就是耳蝸的頻率分解。Mel-頻率頻率u人類對不同頻率語音有不同的感知能力l1kHz以下,與頻率成線性關(guān)系l1kHz以上,與頻率成對數(shù)關(guān)系uMel頻率l將頻譜轉(zhuǎn)換到基于Mel頻標的非線性頻譜l在Mel頻域內(nèi),人對音調(diào)的感知能力為線性關(guān)系n如果兩段語音的Mel頻率差兩倍,人在感知上也差兩倍Mel-頻率頻率u公式:u頻率Mel-頻率: 1125ln 1/700B fff- 頻率B- Mel-頻率Mel-頻率頻率(Hz)MFCC計算過程計算過程u計算流程:DFT時域信
39、號線性譜域Mel濾波器組LogDCTMel譜域?qū)?shù)譜域MFCCMel帶通濾波帶通濾波u利用D 個三角帶通濾波器分別與離散譜St(k) 做卷積,其中三角濾波器的中心頻率和邊界頻率與相應(yīng)的Mel頻標對齊(帶寬在Mel標度上是相等的)倒譜系數(shù)計算倒譜系數(shù)計算u求出每個頻段的對數(shù)能量輸出l三角濾波器的輸出u最后用DCT將這些系數(shù)變換到倒譜域u倒譜系數(shù)的維數(shù)l通常取DCT系數(shù)的前12維聲學特征小結(jié)聲學特征小結(jié)u短時平均能量/幅度/功率u短時平均過零率u線性預(yù)測系數(shù)(LPC)uLPC倒譜特征(LPCC)uMel 倒譜參數(shù)(MFCC)內(nèi)容內(nèi)容歷史歷史2.語音產(chǎn)生機理語音產(chǎn)生機理 3.語音特征語音特征4.系統(tǒng)
40、架構(gòu)系統(tǒng)架構(gòu)5.引言引言1.說話人識別(說話人識別(10/1410/14)u說話人識別模型主要有三類:l基于模板的模型:nK-NN (K近鄰法)nDTW(動態(tài)時間規(guī)整)nVQ(矢量量化)l隨機模型:nGMM(高斯混合模型)(高斯混合模型)nHMM(隱馬爾可夫模型)l基于人工神經(jīng)網(wǎng)絡(luò)的模型nNN(神經(jīng)元網(wǎng)絡(luò))nSVM(支持向量機)說話人識別(說話人識別(11/1411/14)Feature 1Feature 2: class-A point: class-B point: point with unknown classCircle of 3-nearest neighborsThe point
41、 is class B via 3-NNR.K近鄰法近鄰法 (K-NNR):1. 對給定的點找到前K個最近的鄰居. 2. 對這K個最近的鄰居通過投票法決定這個特征點屬于哪個類.說話人識別(說話人識別(12/1412/14)一維高斯混合模型一維高斯混合模型二維高斯混合模型二維高斯混合模型說話人識別(說話人識別(13/1413/14)三維高斯混合模型三維高斯混合模型說話人識別(說話人識別(14/1414/14)情感和情感語音(情感和情感語音(1/7)u普通心理學/現(xiàn)代心理學u簡明牛津英語詞典從心理學的角度給情緒下的定義是:“情緒是一種不同于認知或意志的精神上的情感或感情?!眜情緒(emotion)
42、是人對客觀事物的態(tài)度和體驗。這是從最廣泛的意義上給情緒下的定義。情緒是人(包括動物)所具有的一種心理形式心理形式。它與認識活動不同,具有主干的體驗形式(如喜怒悲劇懼等感受色彩)、外部表現(xiàn)形式(如面部表情),以及獨特的生理基礎(chǔ)(如皮層下等部位的特定活動)。情感和情感語音(情感和情感語音(2/7)u情緒可以分為基本情緒和復(fù)合情緒,口語中情緒表達一般不強烈,更多的是復(fù)合情緒而不是某一種基本情緒。目前用的最多的基本情緒分類為:害怕、生氣、高興、難過、驚害怕、生氣、高興、難過、驚訝、厭惡訝、厭惡。情感和情感語音(情感和情感語音(3/7)u研究熱點l情感語音庫l情感語音分析l情感語音識別l情感語音合成應(yīng)用
43、的語義、行為音素、詞語、韻律特征提取發(fā)音系統(tǒng)參數(shù)信息表達信息理解語言系統(tǒng)語言系統(tǒng)神經(jīng)系統(tǒng)轉(zhuǎn)換神經(jīng)肌肉映射耳蝸運動聲道系統(tǒng)產(chǎn)生語音分析語音語音理解過程語音產(chǎn)生過程語音產(chǎn)生語音理解生理過程語音產(chǎn)生語音理解生理過程圖1 中性語音“你是個好人”的語音特征 情感和情感語音(情感和情感語音(4/7)u語音信號中的情感特征l基音頻率l發(fā)音持續(xù)時間l能量l韻律結(jié)構(gòu)l音質(zhì)l 世間的問題, 原來極復(fù)雜的,可以用極簡單的事例, 加以說明情感和情感語音(情感和情感語音(5/7) 情感與語音參數(shù)之間的關(guān)系情感與語音參數(shù)之間的關(guān)系 漢語漢語語速語速稍快稍快較快,但較快,但有時較慢有時較慢稍慢稍慢很快很快非常慢非常慢平均音
44、高平均音高非常高非常高很高很高稍低稍低非常高非常高非常低非常低音高范圍音高范圍很寬很寬很寬很寬稍窄稍窄很寬很寬稍寬稍寬音節(jié)基頻音節(jié)基頻高線變化高線變化陡峭,在重陡峭,在重讀音節(jié)處讀音節(jié)處平滑,上平滑,上升變化升變化下降變化下降變化正常正常寬,下降寬,下降終端變化終端變化音節(jié)基頻音節(jié)基頻低線變化低線變化沒有太多變沒有太多變化化平滑,上平滑,上升變化升變化下降變化下降變化正常正常下降終端下降終端變化變化音強音強較高較高較高較高較低較低正常正常較低較低音質(zhì)音質(zhì)有呼吸聲,有呼吸聲,胸腔聲調(diào)胸腔聲調(diào)有呼吸聲,有呼吸聲,響亮響亮共鳴聲共鳴聲不規(guī)則發(fā)不規(guī)則發(fā)聲聲嘟囔的胸嘟囔的胸鳴聲鳴聲清晰度清晰度焦急焦急正
45、常正常模糊模糊準確準確正常正常情感和情感語音(情感和情感語音(6/7)情感和情感語音(情感和情感語音(7/7)u傳統(tǒng)說話人識別面臨挑戰(zhàn)l中性語音l低層的短時聲學特征u人機交互中情感計算的加強u說話人發(fā)聲狀態(tài)的情感變異l語速l音高l音長u因此,需要情感魯棒說話人識別模型 內(nèi)容內(nèi)容情感和情感語音情感和情感語音2.情感與說話人識別情感與說話人識別3.說話人識別技術(shù)說話人識別技術(shù)1.情感語音對說話人識別系統(tǒng)性能影響(情感語音對說話人識別系統(tǒng)性能影響(1/41/4)識別率識別率情感語音對說話人識別系統(tǒng)性能影響(情感語音對說話人識別系統(tǒng)性能影響(2/42/4)與訓練語音的文本相關(guān)性文本的情感建模方式得分選
46、擇策略情感語音對說話人識別系統(tǒng)性能影響(情感語音對說話人識別系統(tǒng)性能影響(3/43/4)u訓練文本的情感l(wèi)對于中性語音,誘發(fā)情感信息l對于情感語音,更好地表達情感l(wèi)情感語料越多越好,但是情感語料的增加破壞了系統(tǒng)的友好性,一般每種情感可錄10s;u與訓練語音的文本的相關(guān)性l文本內(nèi)容豐富,文本相關(guān)的系統(tǒng)性能要好情感語音對說話人識別系統(tǒng)性能影響(情感語音對說話人識別系統(tǒng)性能影響(4/44/4)u建模方法l情感語料充足時,單獨為每個說話人的每種情感建立一個說話人模型u得分選擇策略l在無法自動識別情感狀態(tài)的情況下,可采用取最高得分策略建設(shè)抗情感變化的說話人系統(tǒng)的對策(建設(shè)抗情感變化的說話人系統(tǒng)的對策(1/21/2)u前臺誘發(fā)用戶l通過文本提示框n訓練時,提供文本內(nèi)容豐富,文本情感豐富文本內(nèi)容豐富,文本情感豐富的語料n測試時,提供文本相關(guān)文本相關(guān)的語料建設(shè)抗情感變化的說話人系統(tǒng)的對策(建設(shè)抗情
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 旅行的策劃與感悟
- 2025年度電子產(chǎn)品全球配送與售后維護服務(wù)合同4篇
- 2025年度智能環(huán)保型廠房出售買賣協(xié)議書4篇
- 2025年度文化產(chǎn)業(yè)廠房購置及運營合作協(xié)議4篇
- 個人借貸抵押協(xié)議標準打印版2024年適用版B版
- 2025年度高科技廠房租賃合同(含知識產(chǎn)權(quán)保護)標準樣本4篇
- 個人專項資金貸款合同范本:2024年版B版
- 2024科技創(chuàng)新項目引薦服務(wù)合作合同一
- 2025年度供應(yīng)鏈金融合同履行的信用增級擔保服務(wù)3篇
- 2024版特定擔保書增補協(xié)議上訴文件版B版
- 課題申報書:GenAI賦能新質(zhì)人才培養(yǎng)的生成式學習設(shè)計研究
- 外配處方章管理制度
- 2025年四川長寧縣城投公司招聘筆試參考題庫含答案解析
- 駱駝祥子-(一)-劇本
- 《工程勘察設(shè)計收費標準》(2002年修訂本)
- 全國醫(yī)院數(shù)量統(tǒng)計
- 【MOOC】PLC技術(shù)及應(yīng)用(三菱FX系列)-職教MOOC建設(shè)委員會 中國大學慕課MOOC答案
- 2023七年級英語下冊 Unit 3 How do you get to school Section A 第1課時(1a-2e)教案 (新版)人教新目標版
- 泌尿科主任述職報告
- 2024年醫(yī)美行業(yè)社媒平臺人群趨勢洞察報告-醫(yī)美行業(yè)觀察星秀傳媒
- 第六次全國幽門螺桿菌感染處理共識報告-
評論
0/150
提交評論