語音技術(shù)概述_第1頁
語音技術(shù)概述_第2頁
語音技術(shù)概述_第3頁
語音技術(shù)概述_第4頁
語音技術(shù)概述_第5頁
已閱讀5頁,還剩92頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

語音技術(shù)概述2、一些基本概念①音素(phoneme):語音的最小單位,由音素構(gòu)成音節(jié)。②音節(jié)(Syllable):說話時一次發(fā)出的,具有一個響亮的中心,并被明顯感覺的語音片斷。音素和音節(jié)第2頁,共97頁,2024年2月25日,星期天輔音和元音

音素分為兩類:輔音(Consonant)和元音(Vowel)元音:聲帶振動產(chǎn)生一個準(zhǔn)周期的空氣脈沖,如i、u、ü、a、o、e等。輔音:呼出的氣流,由于通路中某一部分封閉起來或受阻,氣流不通暢所產(chǎn)生的聲音,如b、p、m、f、d、t、n、l等。第3頁,共97頁,2024年2月25日,星期天輔音和元音的區(qū)別有四點:1、輔音發(fā)音時,氣流在通過咽頭、口腔的過程中,要受到某部位的阻礙;元音發(fā)音時,氣流在咽頭、口腔不受阻礙。這是元音和輔音最主要的區(qū)別。2、輔音發(fā)音時,發(fā)音器官成阻的部位特別緊張;元音發(fā)音時發(fā)音器官各部位保持均衡的緊張狀態(tài)。3、輔音發(fā)音時,氣流較強(qiáng);元音發(fā)音時,氣流較弱。4、輔音發(fā)音時,聲帶不一定振動,聲音一般不響亮;元音發(fā)音時,聲帶振動,聲音比輔音響亮。第4頁,共97頁,2024年2月25日,星期天半元音:聲道基本通暢,但某處比較狹窄,引起輕微摩擦。[W]、[Y]元音構(gòu)成音節(jié)的主干,輔音只出現(xiàn)在音節(jié)前端或前后兩端。元音的共振峰特性:聲道被看成具有均勻截面積的聲管,發(fā)音時起共鳴器的作用。元音激勵進(jìn)入聲道時引起共振特性,產(chǎn)生一組共振頻率,即共振峰。第5頁,共97頁,2024年2月25日,星期天清音和濁音清音:聲帶不振動濁音:聲帶振動而發(fā)音元音都是濁音、輔音有清音也有濁音。第6頁,共97頁,2024年2月25日,星期天3、漢語的聲調(diào):濁音的聲帶振動基頻稱為基音頻率。無論在說一個單音節(jié)或說一段連續(xù)語音時,各個音節(jié)中韻母段的都是隨時間變化的,基音頻率的不同軌跡稱為聲調(diào)。幾乎平均于橫軸、平均值高從較低一直上升到較高頻率先降后升從較高頻率降到較低頻率第7頁,共97頁,2024年2月25日,星期天4、語音信號的時域波形開始/ai//k/時變特性有些段落周期性,有些段落具有噪聲特性,短時平穩(wěn)性第8頁,共97頁,2024年2月25日,星期天Doyoulikeit?VsDidyoulikeit?Waveform第9頁,共97頁,2024年2月25日,星期天§2.2

語音產(chǎn)生的過程及聲學(xué)特征語音產(chǎn)生的過程喉以上的部分稱為聲道,隨著發(fā)出聲音的不同其形狀是變化的;而喉的部分稱為聲門。第10頁,共97頁,2024年2月25日,星期天聲帶(VocalCords)10~14mm在喉部的從喉結(jié)到杓狀軟骨之間的韌帶褶。聲門(Glottis)兩個聲帶之間形成一個開閉自如的聲門,聲帶合攏因而受聲門下氣流的沖擊而張開;但由于聲帶韌性迅速地閉合,隨后又張開而閉合,聲帶開啟和閉合使氣流形成一系列脈沖。聲門每開啟和閉合一次的時間即振動周期稱為音調(diào)周期或基音周期,其倒數(shù)稱為基音頻率,也簡稱為基頻?;舻姆秶s為70~350Hz左右。第11頁,共97頁,2024年2月25日,星期天聲道(vocaltract)17cm

由咽腔、口腔和鼻腔三個空氣腔體組成。聲道是一個分布參數(shù)系統(tǒng),它有許多自然諧振頻率(在這些頻率上其傳遞函數(shù)具有極大值),所以聲道是一諧振腔,它放大某一頻率而衰減其他頻率分量。諧振頻率由每一瞬間的聲道外形決定。如果聲道的截面是均勻的,諧振頻率將發(fā)生在第12頁,共97頁,2024年2月25日,星期天聽覺系統(tǒng):聲波經(jīng)過外耳的放大后,經(jīng)過鼓膜和聽小骨將聲波轉(zhuǎn)化為機(jī)械振動,傳入內(nèi)耳?!?.3語音感知

由外耳、中耳、內(nèi)耳組成人耳的作用:1、聲音放大;2、聲音傳導(dǎo);3、聲源定位第13頁,共97頁,2024年2月25日,星期天正常人的聽域與聽閾:聽覺感知特性:正常人的聽覺系統(tǒng)是極為靈敏的,人耳所能感覺的最低聲壓接近空氣中分子熱運動所產(chǎn)生的聲壓。正常人可聽聲音的頻率范圍為0.016-16kHz,年輕人可聽到20kHz的聲音,而老年人可聽到的高頻聲音要減少到10kHz左右。正常人可聽聲音的強(qiáng)度范圍為0-120dBSPL(聲壓級),這里的基準(zhǔn)聲壓(0dBSPL)是或。第14頁,共97頁,2024年2月25日,星期天純音聽閾是與頻率有關(guān)的量,在1000Hz時約為4dB左右,而在40Hz時上升為50dB左右,在15kHz時上升為24dB左右。

感覺閾代表可容忍的最高聲壓。在聲壓級高到一定程度時,耳朵會出現(xiàn)不適感覺,或者具有癢、壓迫及痛感。對正常人而言一般取120dB為不適閡,140dB為痛闡,且認(rèn)為它與頻率無關(guān)。第15頁,共97頁,2024年2月25日,星期天響度(Londness)---方(phon)是一種主觀心理量,主觀感覺到的聲音強(qiáng)弱的一種衡量標(biāo)準(zhǔn),它與頻率有關(guān)。一樣的音強(qiáng),不一樣的頻率,則響度也會有所不同。0dB聲強(qiáng)級的1000Hz純音的響度級為0phon;ndB聲強(qiáng)級的1000Hz純音的響度級為nphon;第16頁,共97頁,2024年2月25日,星期天聽覺掩蔽效應(yīng)掩蔽效應(yīng):一種聲音的聽覺感受受到同時聽到的另一種聲音的影響。分:同時掩蔽和短時掩蔽第17頁,共97頁,2024年2月25日,星期天同時掩蔽:同時存在的一個弱信號和一個強(qiáng)信號頻率接近時,強(qiáng)信號會提高弱信號的聽閾,當(dāng)弱信號的聽閾升高到一定程度會導(dǎo)致弱信號不可聞。短時掩蔽:當(dāng)A聲和B聲不同時出現(xiàn)時。后向掩蔽:掩蔽聲B消失后,其作用仍持續(xù)一段時間:0.5~2s前向掩蔽:被掩蔽音A出現(xiàn)后,相隔0.005~0.2s之內(nèi)出現(xiàn)掩蔽音B,也會對A起作用。第18頁,共97頁,2024年2月25日,星期天§2.4語音信號的數(shù)學(xué)模型準(zhǔn)則:要尋求一種可以表達(dá)一定物理狀態(tài)下的數(shù)學(xué)關(guān)系,要使這種關(guān)系不僅具有最大的精確度,而且還要最簡單。期望:模型既是線性的又是時不變的,這是最理想的模型。語音信號特征:一連串的時變過程;聲門和聲道相互耦合,還形成語音信號的非線性特性。合理假設(shè):在較短的時間間隔內(nèi)表示語音信號時,采用線性時不變模型。第19頁,共97頁,2024年2月25日,星期天發(fā)音器官的機(jī)理模型:第20頁,共97頁,2024年2月25日,星期天語音信號的產(chǎn)生模型第21頁,共97頁,2024年2月25日,星期天(1)發(fā)濁音時。此時氣流通過繃緊的聲帶,沖激聲帶產(chǎn)生振動,使聲門處形成準(zhǔn)周期性的脈沖串,并用它去激勵聲道。聲帶繃緊的程度不同,振動頻率也不同。該頻率就是音調(diào)頻率,其倒數(shù)為音調(diào)周期。(2)發(fā)清音時。此時聲帶松弛而不振動,氣流通過聲門直接進(jìn)入聲道。表示為均值為0、方差為1,并在時間或在幅度上為白色分布的序列。

1、激勵模型第22頁,共97頁,2024年2月25日,星期天羅森貝格(Rosenberg)在研究中發(fā)現(xiàn),如果在發(fā)濁音時聲門脈沖取如圖所示的形狀,可以獲得比較好的合成語音效果。發(fā)濁音時的聲門脈沖第23頁,共97頁,2024年2月25日,星期天把聲道視作截面積變化的管子,研究聲音沿管道是怎樣傳播的。2、聲道模型(一)聲管模型第24頁,共97頁,2024年2月25日,星期天管道內(nèi)聲波的運動方程:

其中,為在點時刻的聲壓

為在點時刻的體積速度

為空氣密度

為聲速

為管道截面積第25頁,共97頁,2024年2月25日,星期天每個管子可看作為一個四端網(wǎng)絡(luò),這個網(wǎng)絡(luò)具有反射系數(shù),聲道可由一組截面積或一組反射系數(shù)來表示。

通常用A表示聲管的截面積。由于語音的短時平穩(wěn)性,假設(shè)在短時間內(nèi),各段管子的截面積且是常數(shù)。設(shè)第m段和第m+1段的聲管的截面積分別為Am、Am+1,設(shè)稱為“面積和差比”,其取值范圍為-1<km<1。它實際上是線性預(yù)測的反射系數(shù)。第26頁,共97頁,2024年2月25日,星期天共振峰與舌位關(guān)系舌位高低決定了F1共振頻率。舌位越高,F(xiàn)1的頻率越低,反則反之。舌位前后決定了F2共振頻率舌位越后,F(xiàn)2的頻率越低,反則反之。

(二)共振峰模型聲道被視為諧振腔,共振峰是腔體的諧振頻率第27頁,共97頁,2024年2月25日,星期天1)級聯(lián)共振峰模型(適合于一般元音)分解:第28頁,共97頁,2024年2月25日,星期天2)并聯(lián)型(非一般元音和大多數(shù)輔音)第29頁,共97頁,2024年2月25日,星期天3、混合型(結(jié)合級聯(lián)型和并聯(lián)型):幅度控制因子AB專為一些頻譜特性比較平坦的音素,如[f],[p],[b]所考慮的。第30頁,共97頁,2024年2月25日,星期天

聲道的終端為口和唇。從聲道輸出的是速度波,而語音信號是聲壓波,二者之倒比稱為輻射阻抗ZL。它表征口和唇的輻射效應(yīng),也包括圓形的頭部的繞射效應(yīng)等。

口唇的輻射效應(yīng)可表示為:,它是一階后向差分。輻射模型R(z)是一階類高通濾波器的形式。3、輻射模型第31頁,共97頁,2024年2月25日,星期天

完整的語音信號數(shù)字模型可以用三個子模型:激勵模型、聲道模型和輻射模型的串聯(lián)來表示。其轉(zhuǎn)移函數(shù)為:

H(z)=U(z)V(z)R(z)這里,U(z)是激勵信號——聲門脈沖即斜三角波的形式;V(z)是聲道傳遞函數(shù),既可以用聲管模型,也可以用共振峰模型來描述。在共振峰模型中,又可采用級聯(lián)型、并聯(lián)型或混合型等幾種形式;R(z)為輻射模型。

4、完整的模型

第32頁,共97頁,2024年2月25日,星期天

聲門脈沖

聲道語音信號

激勵信號聲道濾波器語音信號頻譜傳遞函數(shù)頻譜韻母的產(chǎn)生過程第33頁,共97頁,2024年2月25日,星期天2.5語音的質(zhì)量評估一類是音節(jié)以下(如音素、聲母、韻母)的語音單元的測試,這常稱為“清晰度”測試;清晰度測試可以元音、輔音為基礎(chǔ)或以聲母、韻母為基礎(chǔ),再根據(jù)音節(jié)成分算出音節(jié)清晰度。一類是音節(jié)以上(如詞、句)的語音單元的測試,常稱為“可懂度”測試。

語音質(zhì)量測試可分為兩類:

第34頁,共97頁,2024年2月25日,星期天2.6語音信號的時頻特性分析漢語拼音“SouKe”的時域波形采樣率8kHz第35頁,共97頁,2024年2月25日,星期天第36頁,共97頁,2024年2月25日,星期天第37頁,共97頁,2024年2月25日,星期天2.7語音信號的語譜圖語譜儀:將語音信號(經(jīng)話筒變成了電信號)送進(jìn)一排頻率依次相接的窄帶濾波器,各窄帶濾波器的輸出記錄在一卷按一定速度旋轉(zhuǎn)的記錄紙上(各濾波器的由低到高按頻率排列),信號強(qiáng)則記錄得濃黑一些,反之則淺談一些。由此得到的即是語音信號的語譜圖,此圖的水平方向是時間軸,垂直方向是頻率軸,固上或深或淺的黑色條紋表征各個時刻的短時譜。第38頁,共97頁,2024年2月25日,星期天

自然語音a波形圖

自然語音a語譜圖

自然語音o波形圖

自然語音o語譜圖第39頁,共97頁,2024年2月25日,星期天語音處理的根本方法——短時分析技術(shù)

語音信號具有時變特性,而在一個短時間范圍內(nèi)其特性基本保持不變即相對穩(wěn)定,因而可以將其看作是一個準(zhǔn)穩(wěn)態(tài)過程。語音的重要特性是它具有“短時性”,所以對語音的分析和處理必須建立在“短時”的基礎(chǔ)上,即進(jìn)行“短時分析”,§2.8語音信號的數(shù)字化與預(yù)處理語音信號處理系統(tǒng)框圖第40頁,共97頁,2024年2月25日,星期天數(shù)字化:放大、增益控制、反混疊濾波、采樣、A/D變換及編碼預(yù)處理:預(yù)加重、加窗、分幀、端點檢測①表示語音信號比較直觀、物理意義明確。②實現(xiàn)起來比較簡單、運算量少。③可以得到語音的一些重要參數(shù)。④采用示波器等通用設(shè)備,使用較為簡單。

時域分析的特點:第41頁,共97頁,2024年2月25日,星期天1、預(yù)濾波、采樣、A/D變換目的:1、抑制輸入信號各頻域分量中頻率超出fs/2的所有分量,以防止混疊干擾;2、抑制50Hz工頻干擾。實現(xiàn):帶通濾波器,上下邊帶截止頻率分別為、第42頁,共97頁,2024年2月25日,星期天采樣根據(jù)取樣定理,當(dāng)取樣頻率大于信號的兩倍帶寬時,取樣過程中不會丟失信息,且從取樣信號中可以精確地重構(gòu)原始信號波形。在信號的帶寬不明確時,在取樣前應(yīng)接入反混疊濾波器,使其帶寬限制在某個范圍內(nèi)。語音信號頻率范圍:300~3400Hz采樣率:8kHz~10kHz第43頁,共97頁,2024年2月25日,星期天量化:將輸入的整個幅值分成有限區(qū)間,把落入同一區(qū)間的波形樣本都量化成同一幅度值。第44頁,共97頁,2024年2月25日,星期天量化后的信號值與原信號之間的差值稱為量化誤差,又稱為量化噪聲。若信號波形的變化足夠大或量化間隔足夠小時,可以證明量化噪聲符合具有下列特性的統(tǒng)計模型:①它是一個平穩(wěn)的白噪聲過程;②量化噪聲和輸入信號不相關(guān);③量化噪聲在量化間隔內(nèi)均勻分布,即具有等概率密度分布。第45頁,共97頁,2024年2月25日,星期天2、預(yù)處理預(yù)加重:原因:語音信號的平均功率譜受聲門激勵和口鼻輻射的影響,高頻端大約在800Hz以上按6dB/倍頻程跌落。目的:提升高頻部分,使信號的頻譜變得平坦,以便于進(jìn)行頻譜分析或聲道參數(shù)分析。位置:可在反混疊濾波之前進(jìn)行,這樣不僅能夠進(jìn)行預(yù)加重,而且可以壓縮信號的動態(tài)范圍,有效地提高信噪比。也可在A/D變換之后進(jìn)行,用具有6dB/倍頻程的提升高頻特性的預(yù)加重數(shù)字濾波器實現(xiàn),它一般是一階的。式中值接近于1。

第46頁,共97頁,2024年2月25日,星期天加窗分幀:語音信號是一種典型的非平穩(wěn)信號,其特性是隨時間而變化的,但是語音的形成過程是與發(fā)音器官的運動密切相關(guān)的,這種物理運動比起聲音振動速度來說要緩慢得多,因此語音信號常常可假定為短時平穩(wěn)的,即在10~30ms的時間段內(nèi),其頻譜特性和物理特征參量可近似地看作是不變的,這樣,就可以采用平穩(wěn)過程的分析處理方法來處理了。由這個假定導(dǎo)出了各種“短時”處理方法,以后討論的各種語音信號都是分隔為一些短段(幀)再加以處理。這些短段就好像是來自一個具有固定特性的持續(xù)語音片段一樣。第47頁,共97頁,2024年2月25日,星期天將語音分成短段的基本手段是對語音加窗,即用一個有限長度的窗序列截取一段語音信號來進(jìn)行分析。該窗函數(shù)可以按時間方向滑動,以便分析任一時刻附近的信號。加窗運算定義為:第48頁,共97頁,2024年2月25日,星期天幀長和幀移的示例第49頁,共97頁,2024年2月25日,星期天矩形窗:漢明窗:漢寧窗:第50頁,共97頁,2024年2月25日,星期天端點檢測:端點檢測是指從包含語音的一段信號中確定出語音的開始和終止點。有效的端點檢測不僅能使處理時間減到最小,而且能去除無聲段的噪聲干擾,從而使識別系統(tǒng)具有良好的識別性能。一個較好的端點檢測算法應(yīng)該能夠滿足:門限值可以對背景噪聲的變化有一定的適應(yīng);能夠?qū)⒍虝r沖激噪聲和超過門限值的信號納入無聲段而不是有聲段;對于爆破音的寂靜段,應(yīng)將其納入語音的范圍而不是無聲段;應(yīng)該盡量避免在檢測中丟失鼻韻和弱摩擦音等與噪聲特性相似、短時參數(shù)較少的語音;應(yīng)該避免使用過零率作為判決標(biāo)準(zhǔn),以免帶來負(fù)面影響。第51頁,共97頁,2024年2月25日,星期天傳統(tǒng)的端點檢測算法1.基于能量的端點檢測語音和噪音的主要區(qū)別在它們的能量上,語音段的能量比噪音段的大,語音段的能量是噪音段能量疊加語音聲波能量的和。傳統(tǒng)端點檢測算法認(rèn)為,如果環(huán)境噪聲和系統(tǒng)環(huán)境噪聲比較小,能夠保證系統(tǒng)的信噪比較高,那么只要計算輸入信號的短時能量或短時平均幅度就能把語音段和噪聲背景區(qū)分開。實際中信噪比較低。第52頁,共97頁,2024年2月25日,星期天2.雙門限前端檢測法

利用短時過零率來檢測清音,用短時能量來檢測濁音。雙門限法是考慮到語音開始以后總會出現(xiàn)能量較大的濁音,設(shè)一個較高的門限用以確定語音已開始,再取一比稍低的門限,用以確定真正的起止點及結(jié)束點。判斷清音與無話的差別,是采用另一個較低的門限,求越過該門限的“過零率”。只要取得合適,通常背景噪聲的低門限過零率將明顯低于語音的低門限過零率值。這種方法普遍地用于有話、無話鑒別或詞語前端檢測。第53頁,共97頁,2024年2月25日,星期天3.基于噪聲動態(tài)檢測的語音端點檢測算法第54頁,共97頁,2024年2月25日,星期天仿真實驗及結(jié)果分析圖1“制約”在零噪聲時的檢測結(jié)果圖2“1”在加入少量噪聲時的檢測結(jié)果圖3“1”在噪聲加大時的檢測結(jié)果

圖4“1”在噪聲進(jìn)一步加大時的檢測結(jié)果第55頁,共97頁,2024年2月25日,星期天4.基于小波變換的語音端點檢測算法依據(jù):小波系數(shù)可以反映語音信號在各個子帶內(nèi)沿時間軸的能量分布,通過處理又可以捕捉到語音段的邊界,因此可以利用小波變換來對語音信號進(jìn)行端點檢測,以達(dá)到區(qū)分語音段和非語音段的目的。第56頁,共97頁,2024年2月25日,星期天步驟:1)先將語音信號分成由1024個采樣點組成的幀;2)對每幀進(jìn)行10層小波分解;3)計算所選兩個子帶(子帶4和子帶5)的小波系數(shù);4)計算兩個子帶的互相關(guān)系數(shù);5)通過幀間平滑連接所有互相關(guān)系數(shù)成為一個和原信號長度相同的序列;6)計算序列前220個點(20ms)的最大值,把此最大值作為閾值;7)比較序列中各個點的值。若小于閾值,則記為靜音;若大于閾值,則記為語音;8)按照上述過程對語音信號進(jìn)行標(biāo)記,再濾掉個別誤判點,完成語音信號的端點檢測。第57頁,共97頁,2024年2月25日,星期天5.基于循環(huán)神經(jīng)網(wǎng)絡(luò)的語音端點檢測算法

原理:選用一個三層的RNN,且隱層的輸出全部反饋到輸入層。輸入的采樣語音信號被分成三種模式:濁音(U)、清音(V)、和背景噪聲(N)。選用的RNN神經(jīng)網(wǎng)絡(luò)輸出層有三個節(jié)點,對應(yīng)輸出的三種模式。第58頁,共97頁,2024年2月25日,星期天循環(huán)神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu)第59頁,共97頁,2024年2月25日,星期天3)仿真實驗與結(jié)果分析

針對白噪聲和汽車噪聲環(huán)境對數(shù)字0~9的語音數(shù)據(jù)進(jìn)行實驗,用來做測試的語音文件每組50個,包括男生和女生發(fā)音,含有汽車噪聲的語音信號平均信噪比10dB和5dB,分別模擬汽車中速和高速行駛環(huán)境下的錄音。第60頁,共97頁,2024年2月25日,星期天實驗室背景下基于能量和過零率的端點檢測結(jié)果第61頁,共97頁,2024年2月25日,星期天信噪比15dB時基于能量和過零率的檢測結(jié)果第62頁,共97頁,2024年2月25日,星期天信噪比15dB時基于小波變換的端點檢測結(jié)果第63頁,共97頁,2024年2月25日,星期天信噪比5dB時基于小波變換的端點檢測結(jié)果第64頁,共97頁,2024年2月25日,星期天信噪比5dB時基于循環(huán)神經(jīng)網(wǎng)絡(luò)小波變換的端點檢測結(jié)果

第65頁,共97頁,2024年2月25日,星期天方法測度白噪聲/dB汽車噪聲/dB0515510Energy0.620.750.800.720.780.530.610.780.590.690.590.720.780.680.75Wavelet0.850.900.990.870.900.700.820.980.770.800.810.880.990.840.87RNN0.900.951.000.910.920.750.880.980.820.850.860.920.990.880.92噪聲情況下各種語音端點檢測方法比較第66頁,共97頁,2024年2月25日,星期天

基于能量和過零率的端點檢測方法在實驗室環(huán)境下可以獲得較好的端點檢測結(jié)果,隨著信噪比的降低該方法檢測的準(zhǔn)確率將隨之下降,基于小波變換和基于循環(huán)神經(jīng)網(wǎng)絡(luò)的端點檢測方法對于噪聲具有一定的魯棒性,但是隨著噪聲的明顯增大,小波變換的方法得到的檢測結(jié)果仍然有所下降,與之相比基于循環(huán)神經(jīng)網(wǎng)絡(luò)的方法的魯棒性要優(yōu)于基于小波變換的方法,具有很大的優(yōu)越性和實用性。

結(jié)果分析:第67頁,共97頁,2024年2月25日,星期天2.8短時能量和平均幅度分析原理:語音信號能量隨時間有相當(dāng)大的變化,特別是清音段的能量一般比濁音段的小得多。

定義:1、短時能量分析第68頁,共97頁,2024年2月25日,星期天決定短時能量特性有兩個條件:不同的窗口的形狀和長度。

矩形窗:第一個零點:窗口形狀:窗長對分辨率的影響窗長越長,頻率分辨率越高,而時間分辨率越低第69頁,共97頁,2024年2月25日,星期天海明窗:第一個零點:矩形窗譜平滑性能好,但損失高頻成分,波形細(xì)節(jié)丟失,海明窗與之相反。第70頁,共97頁,2024年2月25日,星期天N=51的直角窗和海明窗的對數(shù)幅頻特性。海明窗的第一個零值頻率位置比直角窗要大1倍左右,同時其帶外衰減也比直角窗大得多。第71頁,共97頁,2024年2月25日,星期天這里窗長的選擇對于反映語音信號的幅度變化起著決定的作用。如果很大,它等效于很窄的低通濾波器,此時隨時間的變化很小,不能反映語音信號的幅度變化,信號的變化細(xì)節(jié)就看不出來;反之,窗長太小時,濾波器的通帶變寬,隨時間有急劇的變化,不能得到平滑的能量函數(shù)。窗口的長度:標(biāo)準(zhǔn):一幀內(nèi)含有1~7個基音周期,10kHz取樣下,N取100~200點。第72頁,共97頁,2024年2月25日,星期天2、短時平均幅度分析定義:框圖:優(yōu)點:

1、對高電平信號不如En敏感;

2、計算方法簡單。缺點:濁音和清音的區(qū)分不如En明顯。第73頁,共97頁,2024年2月25日,星期天短時平均能量和短時平均幅度的主要用途:

可以區(qū)分清音段與濁音段:En值大的對應(yīng)于濁音段,而En值小的對應(yīng)于清音段。En值的變化,可大致判定濁音變?yōu)榍逡艋蚯逡糇優(yōu)闈嵋舻臅r刻??梢杂脕韰^(qū)分聲母與韻母的分界,無聲與有聲的分界,連字(指字之間無間隙)的分界等。作為一種超音段信息,用于語音識別中。

第74頁,共97頁,2024年2月25日,星期天2.9短時過零分析定義:過零就是信號通過零值。連續(xù)語音信號,考察其時域波形通過時間軸的情況;離散時間信號,相鄰的取樣值改變符號則稱為過零。語音信號序列是寬帶信號,則不能簡單用上面的公式。第75頁,共97頁,2024年2月25日,星期天語音信號短時過零分析定義:其中:框圖:第76頁,共97頁,2024年2月25日,星期天短時過零分析的意義:可以區(qū)分清音與濁音:濁音時具有較低的平均過零數(shù),而清音時具有較高的平均過零數(shù)。利用它可以從背景噪聲中找出語音信號,可用于判斷寂靜無語音和有語音的起點和終點位置。

在背景噪聲較小時用平均能量識別較為有效,而在背景噪聲較大時用平均過零數(shù)識別較為有效。

第77頁,共97頁,2024年2月25日,星期天2.10語音信號的倒譜分析求語音倒譜特征參數(shù),通過同態(tài)處理來實現(xiàn)。倒譜分析:運用對數(shù)運算和二次FFT/IFFT變換,將基音諧波和聲道的頻譜包絡(luò)分離出來,用低時窗從語音信號倒譜中截取出低倒譜域部分,可以更精確的反映聲道的響應(yīng),得到共振峰。2、對原語音信號分析出一組預(yù)測系數(shù),得到語音產(chǎn)生模型的頻率響應(yīng)。

同態(tài)處理(同態(tài)濾波):解卷,將卷積關(guān)系變?yōu)榍蠛吞幚?。將語音信號的聲門激勵和聲道響應(yīng)分離開。第78頁,共97頁,2024年2月25日,星期天同態(tài)信號處理的基本原理信號分類:加性信號、乘積性信號、卷積性信號等。同態(tài)信號處理目的:將非線性問題轉(zhuǎn)化為線性問題來處理。同態(tài)信號處理分類:乘積同態(tài)處理和卷積同態(tài)處理兩種。第79頁,共97頁,2024年2月25日,星期天特征系統(tǒng)D*反特征系統(tǒng)D*-1:它是特征系統(tǒng)的反運算卷積同態(tài)系統(tǒng):第80頁,共97頁,2024年2月25日,星期天特征系統(tǒng)D*第81頁,共97頁,2024年2月25日,星期天反特征系統(tǒng)D*-1:第82頁,共97頁,2024年2月25日,星期天復(fù)倒譜和倒譜是一個時域序列,我們稱是x(n)的“復(fù)倒頻譜”,簡稱為“復(fù)倒譜”,有時也稱作對數(shù)復(fù)倒譜。所處的離散時域,稱之為“復(fù)倒譜域”。這樣,特征系統(tǒng)D*[]將離散時域中的卷積運算轉(zhuǎn)換為復(fù)倒譜域中的加性運算。進(jìn)行同態(tài)信號處理后,即可完成解卷的任務(wù)。若時域中有,則復(fù)倒譜域中。假設(shè)位于復(fù)倒譜域中不同的間隔內(nèi)并且互不交替,那么適當(dāng)?shù)卦O(shè)計線性系統(tǒng),便可將x1(n)或x2(n)分離出來。第83頁,共97頁,2024年2月25日,星期天特征系統(tǒng)D*反特征系統(tǒng)D*-1c(n)是序列x(n)對數(shù)幅度譜的傅里葉逆變換,c(n)稱為“倒頻譜”或簡稱為“倒譜”,有時也稱“對數(shù)倒頻譜”。第84頁,共97頁,2024年2月25日,星期天復(fù)倒譜和倒譜的特點和關(guān)系:1.復(fù)倒譜要進(jìn)行復(fù)對數(shù)運算,倒譜只進(jìn)行實對數(shù)運算。2.倒譜情況下,一個序列經(jīng)過正反兩個特征系統(tǒng)以后不能還原成自身,因為丟失相位信息。4.已知一個實序列的復(fù)倒譜,可以求其倒譜。5.已知倒譜,可以求復(fù)倒譜。第85頁,共97頁,2024年2月25日,星期天語音信號的復(fù)倒譜語音信號可看作是聲門激勵信號和聲道沖激響應(yīng)序列的卷積。1聲門激勵信號

發(fā)濁音時,聲門

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論