語音技術(shù)概述公開課課件_第1頁
語音技術(shù)概述公開課課件_第2頁
語音技術(shù)概述公開課課件_第3頁
語音技術(shù)概述公開課課件_第4頁
語音技術(shù)概述公開課課件_第5頁
已閱讀5頁,還剩189頁未讀 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認(rèn)領(lǐng)

文檔簡介

§2.1語音和語言

第2章語音信號短時分析技術(shù)構(gòu)成人類語音的是聲音,由人講話所發(fā)出的聲音,對語音中音的分類和研究稱為語音學(xué)。1、言語的過程和作用想說階段————大腦中樞活動說出階段————發(fā)音器官的活動傳送階段————傳送信息的物理過程起作用接收階段————聽覺系統(tǒng)活動理解階段————大腦中樞活動1§2.1語音和語言第2章語音信號短時分析技術(shù)構(gòu)成人類語2、一些基本概念①音素(phoneme):語音的最小單位,由音素構(gòu)成音節(jié)。②音節(jié)(Syllable):說話時一次發(fā)出的,具有一個響亮的中心,并被明顯感覺的語音片斷。音素和音節(jié)22、一些基本概念①音素(phoneme):語音的最小單位,輔音和元音

音素分為兩類:輔音(Consonant)和元音(Vowel)元音:聲帶振動產(chǎn)生一個準(zhǔn)周期的空氣脈沖,如i、u、ü、a、o、e等。輔音:呼出的氣流,由于通路中某一部分封閉起來或受阻,氣流不通暢所產(chǎn)生的聲音,如b、p、m、f、d、t、n、l等。3輔音和元音元音:聲帶振動產(chǎn)生一個準(zhǔn)周期的空氣脈沖,如i、u輔音和元音的區(qū)別有四點:1、輔音發(fā)音時,氣流在通過咽頭、口腔的過程中,要受到某部位的阻礙;元音發(fā)音時,氣流在咽頭、口腔不受阻礙。這是元音和輔音最主要的區(qū)別。2、輔音發(fā)音時,發(fā)音器官成阻的部位特別緊張;元音發(fā)音時發(fā)音器官各部位保持均衡的緊張狀態(tài)。3、輔音發(fā)音時,氣流較強;元音發(fā)音時,氣流較弱。4、輔音發(fā)音時,聲帶不一定振動,聲音一般不響亮;元音發(fā)音時,聲帶振動,聲音比輔音響亮。4輔音和元音的區(qū)別有四點:4半元音:聲道基本通暢,但某處比較狹窄,引起輕微摩擦。[W]、[Y]元音構(gòu)成音節(jié)的主干,輔音只出現(xiàn)在音節(jié)前端或前后兩端。元音的共振峰特性:聲道被看成具有均勻截面積的聲管,發(fā)音時起共鳴器的作用。元音激勵進入聲道時引起共振特性,產(chǎn)生一組共振頻率,即共振峰。5半元音:聲道基本通暢,但某處比較狹窄,引起輕微摩擦。[W]、清音和濁音清音:聲帶不振動濁音:聲帶振動而發(fā)音元音都是濁音、輔音有清音也有濁音。6清音和濁音清音:聲帶不振動元音都是濁音、輔音有清音也有濁音。3、漢語的聲調(diào):濁音的聲帶振動基頻稱為基音頻率。無論在說一個單音節(jié)或說一段連續(xù)語音時,各個音節(jié)中韻母段的都是隨時間變化的,基音頻率的不同軌跡稱為聲調(diào)。幾乎平均于橫軸、平均值高從較低一直上升到較高頻率先降后升從較高頻率降到較低頻率73、漢語的聲調(diào):濁音的聲帶振動基頻稱為基音頻率。無論在說一個4、語音信號的時域波形開始/ai//k/時變特性有些段落周期性,有些段落具有噪聲特性,短時平穩(wěn)性84、語音信號的時域波形開始/ai//k/時變特性8Doyoulikeit?VsDidyoulikeit?Waveform9Doyoulikeit?VsDid§2.2語音產(chǎn)生的過程及聲學(xué)特征語音產(chǎn)生的過程喉以上的部分稱為聲道,隨著發(fā)出聲音的不同其形狀是變化的;而喉的部分稱為聲門。10§2.2語音產(chǎn)生的過程及聲學(xué)特征語音產(chǎn)生的過程10聲帶(VocalCords)10~14mm在喉部的從喉結(jié)到杓狀軟骨之間的韌帶褶。聲門(Glottis)兩個聲帶之間形成一個開閉自如的聲門,聲帶合攏因而受聲門下氣流的沖擊而張開;但由于聲帶韌性迅速地閉合,隨后又張開而閉合,聲帶開啟和閉合使氣流形成一系列脈沖。聲門每開啟和閉合一次的時間即振動周期稱為音調(diào)周期或基音周期,其倒數(shù)稱為基音頻率,也簡稱為基頻?;舻姆秶s為70~350Hz左右。11聲帶(VocalCords)10~14mm聲門每開啟和聲道(vocaltract)17cm

由咽腔、口腔和鼻腔三個空氣腔體組成。聲道是一個分布參數(shù)系統(tǒng),它有許多自然諧振頻率(在這些頻率上其傳遞函數(shù)具有極大值),所以聲道是一諧振腔,它放大某一頻率而衰減其他頻率分量。諧振頻率由每一瞬間的聲道外形決定。如果聲道的截面是均勻的,諧振頻率將發(fā)生在12聲道(vocaltract)17cm聲道是一個分聽覺系統(tǒng):聲波經(jīng)過外耳的放大后,經(jīng)過鼓膜和聽小骨將聲波轉(zhuǎn)化為機械振動,傳入內(nèi)耳。§2.3語音感知

由外耳、中耳、內(nèi)耳組成人耳的作用:1、聲音放大;2、聲音傳導(dǎo);3、聲源定位13聽覺系統(tǒng):聲波經(jīng)過外耳的放大后,經(jīng)過鼓膜和聽小骨將聲波轉(zhuǎn)化正常人的聽域與聽閾:聽覺感知特性:正常人的聽覺系統(tǒng)是極為靈敏的,人耳所能感覺的最低聲壓接近空氣中分子熱運動所產(chǎn)生的聲壓。正常人可聽聲音的頻率范圍為0.016-16kHz,年輕人可聽到20kHz的聲音,而老年人可聽到的高頻聲音要減少到10kHz左右。正常人可聽聲音的強度范圍為0-120dBSPL(聲壓級),這里的基準(zhǔn)聲壓(0dBSPL)是或。14正常人的聽域與聽閾:聽覺感知特性:正常人的聽覺系統(tǒng)是極為靈敏純音聽閾是與頻率有關(guān)的量,在1000Hz時約為4dB左右,而在40Hz時上升為50dB左右,在15kHz時上升為24dB左右。

感覺閾代表可容忍的最高聲壓。在聲壓級高到一定程度時,耳朵會出現(xiàn)不適感覺,或者具有癢、壓迫及痛感。對正常人而言一般取120dB為不適閡,140dB為痛闡,且認(rèn)為它與頻率無關(guān)。15純音聽閾是與頻率有關(guān)的量,在1000Hz時約為4dB左右,而響度(Londness)---方(phon)是一種主觀心理量,主觀感覺到的聲音強弱的一種衡量標(biāo)準(zhǔn),它與頻率有關(guān)。一樣的音強,不一樣的頻率,則響度也會有所不同。0dB聲強級的1000Hz純音的響度級為0phon;ndB聲強級的1000Hz純音的響度級為nphon;16響度(Londness)---方(phon)162、計算方法簡單。依據(jù):小波系數(shù)可以反映語音信號在各個子帶內(nèi)沿時間軸的能量分布,通過處理又可以捕捉到語音段的邊界,因此可以利用小波變換來對語音信號進行端點檢測,以達到區(qū)分語音段和非語音段的目的。ndB聲強級的1000Hz純音的響度級為nphon;元音激勵進入聲道時引起共振特性,產(chǎn)生一組共振頻率,即共振峰。傳統(tǒng)端點檢測算法認(rèn)為,如果環(huán)境噪聲和系統(tǒng)環(huán)境噪聲比較小,能夠保證系統(tǒng)的信噪比較高,那么只要計算輸入信號的短時能量或短時平均幅度就能把語音段和噪聲背景區(qū)分開。準(zhǔn)則:要尋求一種可以表達一定物理狀態(tài)下的數(shù)學(xué)關(guān)系,要使這種關(guān)系不僅具有最大的精確度,而且還要最簡單。如果很大,它等效于很窄的低通濾波器,此時隨時間的變化很小,不能反映語音信號的幅度變化,信號的變化細(xì)節(jié)就看不出來;聲門每開啟和閉合一次的時間即振動周期稱為音調(diào)周期或基音周期,其倒數(shù)稱為基音頻率,也簡稱為基頻。原因:語音信號的平均功率譜受聲門激勵和口鼻輻射的影響,高頻端大約在800Hz以上按6dB/倍頻程跌落。語譜儀:將語音信號(經(jīng)話筒變成了電信號)送進一排頻率依次相接的窄帶濾波器,各窄帶濾波器的輸出記錄在一卷按一定速度旋轉(zhuǎn)的記錄紙上(各濾波器的由低到高按頻率排列),信號強則記錄得濃黑一些,反之則淺談一些。缺點:濁音和清音的區(qū)分不如En明顯。這里窗長的選擇對于反映語音信號的幅度變化起著決定的作用。也可在A/D變換之后進行,用具有6dB/倍頻程的提升高頻特性的預(yù)加重數(shù)字濾波器實現(xiàn),它一般是一階的。復(fù)倒譜和倒譜的特點和關(guān)系:諧振頻率由每一瞬間的聲道外形決定。把聲道視作截面積變化的管子,研究聲音沿管道是怎樣傳播的。語音信號具有時變特性,而在一個短時間范圍內(nèi)其特性基本保持不變即相對穩(wěn)定,因而可以將其看作是一個準(zhǔn)穩(wěn)態(tài)過程。依據(jù):小波系數(shù)可以反映語音信號在各個子帶內(nèi)沿時間軸的能量分布,通過處理又可以捕捉到語音段的邊界,因此可以利用小波變換來對語音信號進行端點檢測,以達到區(qū)分語音段和非語音段的目的。同時掩蔽:同時存在的一個弱信號和一個強信號頻率接近時,強信號會提高弱信號的聽閾,當(dāng)弱信號的聽閾升高到一定程度會導(dǎo)致弱信號不可聞。同態(tài)處理(同態(tài)濾波):解卷,將卷積關(guān)系變?yōu)榍蠛吞幚?。聽覺掩蔽效應(yīng)掩蔽效應(yīng):一種聲音的聽覺感受受到同時聽到的另一種聲音的影響。分:同時掩蔽和短時掩蔽172、計算方法簡單。聽覺掩蔽效應(yīng)掩蔽效應(yīng):一種聲音的聽覺感受受同時掩蔽:同時存在的一個弱信號和一個強信號頻率接近時,強信號會提高弱信號的聽閾,當(dāng)弱信號的聽閾升高到一定程度會導(dǎo)致弱信號不可聞。短時掩蔽:當(dāng)A聲和B聲不同時出現(xiàn)時。后向掩蔽:掩蔽聲B消失后,其作用仍持續(xù)一段時間:0.5~2s前向掩蔽:被掩蔽音A出現(xiàn)后,相隔0.005~0.2s之內(nèi)出現(xiàn)掩蔽音B,也會對A起作用。18同時掩蔽:同時存在的一個弱信號和一個強信號頻率接近時,強信號§2.4語音信號的數(shù)學(xué)模型準(zhǔn)則:要尋求一種可以表達一定物理狀態(tài)下的數(shù)學(xué)關(guān)系,要使這種關(guān)系不僅具有最大的精確度,而且還要最簡單。期望:模型既是線性的又是時不變的,這是最理想的模型。語音信號特征:一連串的時變過程;聲門和聲道相互耦合,還形成語音信號的非線性特性。合理假設(shè):在較短的時間間隔內(nèi)表示語音信號時,采用線性時不變模型。19§2.4語音信號的數(shù)學(xué)模型準(zhǔn)則:要尋求一種可以表達一定物理發(fā)音器官的機理模型:20發(fā)音器官的機理模型:20語音信號的產(chǎn)生模型21語音信號的產(chǎn)生模型21(1)發(fā)濁音時。此時氣流通過繃緊的聲帶,沖激聲帶產(chǎn)生振動,使聲門處形成準(zhǔn)周期性的脈沖串,并用它去激勵聲道。聲帶繃緊的程度不同,振動頻率也不同。該頻率就是音調(diào)頻率,其倒數(shù)為音調(diào)周期。(2)發(fā)清音時。此時聲帶松弛而不振動,氣流通過聲門直接進入聲道。表示為均值為0、方差為1,并在時間或在幅度上為白色分布的序列。

1、激勵模型22(1)發(fā)濁音時。此時氣流通過繃緊的聲帶,沖激聲帶產(chǎn)生振動,使羅森貝格(Rosenberg)在研究中發(fā)現(xiàn),如果在發(fā)濁音時聲門脈沖取如圖所示的形狀,可以獲得比較好的合成語音效果。發(fā)濁音時的聲門脈沖23羅森貝格(Rosenberg)在研究中發(fā)現(xiàn),如果在發(fā)濁音時聲把聲道視作截面積變化的管子,研究聲音沿管道是怎樣傳播的。2、聲道模型(一)聲管模型24把聲道視作截面積變化的管子,研究聲音沿管道是管道內(nèi)聲波的運動方程:

其中,為在點時刻的聲壓

為在點時刻的體積速度

為空氣密度

為聲速

為管道截面積25管道內(nèi)聲波的運動方程:其中,為在點時每個管子可看作為一個四端網(wǎng)絡(luò),這個網(wǎng)絡(luò)具有反射系數(shù),聲道可由一組截面積或一組反射系數(shù)來表示。

通常用A表示聲管的截面積。由于語音的短時平穩(wěn)性,假設(shè)在短時間內(nèi),各段管子的截面積且是常數(shù)。設(shè)第m段和第m+1段的聲管的截面積分別為Am、Am+1,設(shè)稱為“面積和差比”,其取值范圍為-1<km<1。它實際上是線性預(yù)測的反射系數(shù)。26每個管子可看作為一個四端網(wǎng)絡(luò),這個網(wǎng)絡(luò)具有反射系數(shù),聲道可由決定短時能量特性有兩個條件:不同的窗口的形狀和長度。如果很大,它等效于很窄的低通濾波器,此時隨時間的變化很小,不能反映語音信號的幅度變化,信號的變化細(xì)節(jié)就看不出來;是一個時域序列,我們稱是x(n)的“復(fù)倒頻譜”,簡稱為“復(fù)倒譜”,有時也稱作對數(shù)復(fù)倒譜。④采用示波器等通用設(shè)備,使用較為簡單。窗長越長,頻率分辨率越高,而時間分辨率越低第2章語音信號短時分析技術(shù)2、抑制50Hz工頻干擾。所處的離散時域,稱之為“復(fù)倒譜域”。②實現(xiàn)起來比較簡單、運算量少。幾乎平均于橫軸、平均值高短時掩蔽:當(dāng)A聲和B聲不同時出現(xiàn)時。輔音:呼出的氣流,由于通路中某一部分封閉起來或受阻,氣流不通暢所產(chǎn)生的聲音,如b、p、m、f、d、t、n、l等。對于爆破音的寂靜段,應(yīng)將其納入語音的范圍而不是無聲段;由咽腔、口腔和鼻腔三個空氣腔體組成。上圖給出了相同條件下一段加窗語音的時域波形及其倒譜。一樣的音強,不一樣的頻率,則響度也會有所不同。同態(tài)信號處理的基本原理反特征系統(tǒng)D*-1:它是特征系統(tǒng)的反運算實驗室背景下基于能量和過零率的端點檢測結(jié)果已知一個實序列的復(fù)倒譜,可以求其倒譜。共振峰與舌位關(guān)系舌位高低決定了F1共振頻率。舌位越高,F(xiàn)1的頻率越低,反則反之。舌位前后決定了F2共振頻率舌位越后,F(xiàn)2的頻率越低,反則反之。

(二)共振峰模型聲道被視為諧振腔,共振峰是腔體的諧振頻率27決定短時能量特性有兩個條件:不同的窗口的形狀和長度。共振峰與1)級聯(lián)共振峰模型(適合于一般元音)分解:281)級聯(lián)共振峰模型(適合于一般元音)分解:282)并聯(lián)型(非一般元音和大多數(shù)輔音)292)并聯(lián)型(非一般元音和大多數(shù)輔音)293、混合型(結(jié)合級聯(lián)型和并聯(lián)型):幅度控制因子AB專為一些頻譜特性比較平坦的音素,如[f],[p],[b]所考慮的。303、混合型(結(jié)合級聯(lián)型和并聯(lián)型):幅度控制因子AB專為一些頻

聲道的終端為口和唇。從聲道輸出的是速度波,而語音信號是聲壓波,二者之倒比稱為輻射阻抗ZL。它表征口和唇的輻射效應(yīng),也包括圓形的頭部的繞射效應(yīng)等。

口唇的輻射效應(yīng)可表示為:,它是一階后向差分。輻射模型R(z)是一階類高通濾波器的形式。3、輻射模型31聲道的終端為口和唇。從聲道輸出的是速度波,而

完整的語音信號數(shù)字模型可以用三個子模型:激勵模型、聲道模型和輻射模型的串聯(lián)來表示。其轉(zhuǎn)移函數(shù)為:

H(z)=U(z)V(z)R(z)這里,U(z)是激勵信號——聲門脈沖即斜三角波的形式;V(z)是聲道傳遞函數(shù),既可以用聲管模型,也可以用共振峰模型來描述。在共振峰模型中,又可采用級聯(lián)型、并聯(lián)型或混合型等幾種形式;R(z)為輻射模型。

4、完整的模型

32完整的語音信號數(shù)字模型可以用三個子模型:激勵

聲門脈沖

聲道語音信號

激勵信號聲道濾波器語音信號頻譜傳遞函數(shù)頻譜韻母的產(chǎn)生過程33聲門脈沖2.5語音的質(zhì)量評估一類是音節(jié)以下(如音素、聲母、韻母)的語音單元的測試,這常稱為“清晰度”測試;清晰度測試可以元音、輔音為基礎(chǔ)或以聲母、韻母為基礎(chǔ),再根據(jù)音節(jié)成分算出音節(jié)清晰度。一類是音節(jié)以上(如詞、句)的語音單元的測試,常稱為“可懂度”測試。

語音質(zhì)量測試可分為兩類:

342.5語音的質(zhì)量評估一類是音節(jié)以下(如音素、聲母、韻母)的2.6語音信號的時頻特性分析漢語拼音“SouKe”的時域波形采樣率8kHz352.6語音信號的時頻特性分析漢語拼音“SouKe”的時3636同時其振幅隨著k值的增大而衰減。定義:過零就是信號通過零值。1)先將語音信號分成由1024個采樣點組成的幀;反特征系統(tǒng)D*-1:其中,為在點時刻的聲壓若時域中有,則復(fù)倒譜域中。短時掩蔽:當(dāng)A聲和B聲不同時出現(xiàn)時。③隨|n|增大而衰減的速度至少比1/|n|快,聲門(Glottis)3語音感知已知一個實序列的復(fù)倒譜,可以求其倒譜。4語音信號的數(shù)學(xué)模型元音:聲帶振動產(chǎn)生一個準(zhǔn)周期的空氣脈沖,如i、u、ü、a、o、e等。語音信號特征:一連串的時變過程;反之,窗長太小時,濾波器的通帶變寬,隨時間有急劇的變化,不能得到平滑的能量函數(shù)。10語音信號的倒譜分析應(yīng)該盡量避免在檢測中丟失鼻韻和弱摩擦音等與噪聲特性相似、短時參數(shù)較少的語音;在背景噪聲較小時用平均能量識別較為有效,而在背景噪聲較大時用平均過零數(shù)識別較為有效。這段語音用海明窗加權(quán),基音周期為Np=45。實驗室背景下基于能量和過零率的端點檢測結(jié)果37同時其振幅隨著k值的增大而衰減。372.7語音信號的語譜圖語譜儀:將語音信號(經(jīng)話筒變成了電信號)送進一排頻率依次相接的窄帶濾波器,各窄帶濾波器的輸出記錄在一卷按一定速度旋轉(zhuǎn)的記錄紙上(各濾波器的由低到高按頻率排列),信號強則記錄得濃黑一些,反之則淺談一些。由此得到的即是語音信號的語譜圖,此圖的水平方向是時間軸,垂直方向是頻率軸,固上或深或淺的黑色條紋表征各個時刻的短時譜。382.7語音信號的語譜圖語譜儀:將語音信號(經(jīng)話筒變成了電信

自然語音a波形圖

自然語音a語譜圖

自然語音o波形圖

自然語音o語譜圖39自然語音a波形圖自然語音a語譜圖自然語音語音處理的根本方法——短時分析技術(shù)

語音信號具有時變特性,而在一個短時間范圍內(nèi)其特性基本保持不變即相對穩(wěn)定,因而可以將其看作是一個準(zhǔn)穩(wěn)態(tài)過程。語音的重要特性是它具有“短時性”,所以對語音的分析和處理必須建立在“短時”的基礎(chǔ)上,即進行“短時分析”,§2.8語音信號的數(shù)字化與預(yù)處理語音信號處理系統(tǒng)框圖40語音處理的根本方法——短時分析技術(shù)語音信號數(shù)字化:放大、增益控制、反混疊濾波、采樣、A/D變換及編碼預(yù)處理:預(yù)加重、加窗、分幀、端點檢測①表示語音信號比較直觀、物理意義明確。②實現(xiàn)起來比較簡單、運算量少。③可以得到語音的一些重要參數(shù)。④采用示波器等通用設(shè)備,使用較為簡單。

時域分析的特點:41數(shù)字化:放大、增益控制、反混疊濾波、采樣、A/D變換及編碼①1、預(yù)濾波、采樣、A/D變換目的:1、抑制輸入信號各頻域分量中頻率超出fs/2的所有分量,以防止混疊干擾;2、抑制50Hz工頻干擾。實現(xiàn):帶通濾波器,上下邊帶截止頻率分別為、421、預(yù)濾波、采樣、A/D變換目的:實現(xiàn):帶通濾波器,上下邊采樣根據(jù)取樣定理,當(dāng)取樣頻率大于信號的兩倍帶寬時,取樣過程中不會丟失信息,且從取樣信號中可以精確地重構(gòu)原始信號波形。在信號的帶寬不明確時,在取樣前應(yīng)接入反混疊濾波器,使其帶寬限制在某個范圍內(nèi)。語音信號頻率范圍:300~3400Hz采樣率:8kHz~10kHz43采樣根據(jù)取樣定理,當(dāng)取樣頻率大于信號的兩倍帶寬時,取樣過程中量化:將輸入的整個幅值分成有限區(qū)間,把落入同一區(qū)間的波形樣本都量化成同一幅度值。44量化:將輸入的整個幅值分成有限區(qū)間,把落入同一區(qū)間的波形樣本量化后的信號值與原信號之間的差值稱為量化誤差,又稱為量化噪聲。若信號波形的變化足夠大或量化間隔足夠小時,可以證明量化噪聲符合具有下列特性的統(tǒng)計模型:①它是一個平穩(wěn)的白噪聲過程;②量化噪聲和輸入信號不相關(guān);③量化噪聲在量化間隔內(nèi)均勻分布,即具有等概率密度分布。45量化后的信號值與原信號之間的差值稱為量化誤差,又稱為量化噪聲2、預(yù)處理預(yù)加重:原因:語音信號的平均功率譜受聲門激勵和口鼻輻射的影響,高頻端大約在800Hz以上按6dB/倍頻程跌落。目的:提升高頻部分,使信號的頻譜變得平坦,以便于進行頻譜分析或聲道參數(shù)分析。位置:可在反混疊濾波之前進行,這樣不僅能夠進行預(yù)加重,而且可以壓縮信號的動態(tài)范圍,有效地提高信噪比。也可在A/D變換之后進行,用具有6dB/倍頻程的提升高頻特性的預(yù)加重數(shù)字濾波器實現(xiàn),它一般是一階的。式中值接近于1。

462、預(yù)處理預(yù)加重:46濁語音的倒譜和復(fù)倒譜實例能夠?qū)⒍虝r沖激噪聲和超過門限值的信號納入無聲段而不是有聲段;第2章語音信號短時分析技術(shù)5)通過幀間平滑連接所有互相關(guān)系數(shù)成為一個和原信號長度相同的序列;在共振峰模型中,又可采用級聯(lián)型、并聯(lián)型或混合型等幾種形式;一個較好的端點檢測算法應(yīng)該能夠滿足:3語音感知1)先將語音信號分成由1024個采樣點組成的幀;窗長越長,頻率分辨率越高,而時間分辨率越低一樣的音強,不一樣的頻率,則響度也會有所不同。管道內(nèi)聲波的運動方程:位置:可在反混疊濾波之前進行,這樣不僅能夠進行預(yù)加重,而且可以壓縮信號的動態(tài)范圍,有效地提高信噪比。同態(tài)信號處理的基本原理諧振頻率由每一瞬間的聲道外形決定。有些段落周期性,有些段落具有噪聲特性,短時平穩(wěn)性準(zhǔn)則:要尋求一種可以表達一定物理狀態(tài)下的數(shù)學(xué)關(guān)系,要使這種關(guān)系不僅具有最大的精確度,而且還要最簡單。針對白噪聲和汽車噪聲環(huán)境對數(shù)字0~9的語音數(shù)據(jù)進行實驗,用來做測試的語音文件每組50個,包括男生和女生發(fā)音,含有汽車噪聲的語音信號平均信噪比10dB和5dB,分別模擬汽車中速和高速行駛環(huán)境下的錄音。反特征系統(tǒng)D*-1:它是特征系統(tǒng)的反運算準(zhǔn)則:要尋求一種可以表達一定物理狀態(tài)下的數(shù)學(xué)關(guān)系,要使這種關(guān)系不僅具有最大的精確度,而且還要最簡單。舌位越高,F(xiàn)1的頻率越低,反則反之。加窗分幀:語音信號是一種典型的非平穩(wěn)信號,其特性是隨時間而變化的,但是語音的形成過程是與發(fā)音器官的運動密切相關(guān)的,這種物理運動比起聲音振動速度來說要緩慢得多,因此語音信號常常可假定為短時平穩(wěn)的,即在10~30ms的時間段內(nèi),其頻譜特性和物理特征參量可近似地看作是不變的,這樣,就可以采用平穩(wěn)過程的分析處理方法來處理了。由這個假定導(dǎo)出了各種“短時”處理方法,以后討論的各種語音信號都是分隔為一些短段(幀)再加以處理。這些短段就好像是來自一個具有固定特性的持續(xù)語音片段一樣。47濁語音的倒譜和復(fù)倒譜實例加窗分幀:47將語音分成短段的基本手段是對語音加窗,即用一個有限長度的窗序列截取一段語音信號來進行分析。該窗函數(shù)可以按時間方向滑動,以便分析任一時刻附近的信號。加窗運算定義為:48將語音分成短段的基本手段是對語音加窗,即用一個有限長度的窗序幀長和幀移的示例49幀長和幀移的示例49矩形窗:漢明窗:漢寧窗:50矩形窗:漢明窗:漢寧窗:50端點檢測:端點檢測是指從包含語音的一段信號中確定出語音的開始和終止點。有效的端點檢測不僅能使處理時間減到最小,而且能去除無聲段的噪聲干擾,從而使識別系統(tǒng)具有良好的識別性能。一個較好的端點檢測算法應(yīng)該能夠滿足:門限值可以對背景噪聲的變化有一定的適應(yīng);能夠?qū)⒍虝r沖激噪聲和超過門限值的信號納入無聲段而不是有聲段;對于爆破音的寂靜段,應(yīng)將其納入語音的范圍而不是無聲段;應(yīng)該盡量避免在檢測中丟失鼻韻和弱摩擦音等與噪聲特性相似、短時參數(shù)較少的語音;應(yīng)該避免使用過零率作為判決標(biāo)準(zhǔn),以免帶來負(fù)面影響。51端點檢測:51傳統(tǒng)的端點檢測算法1.基于能量的端點檢測語音和噪音的主要區(qū)別在它們的能量上,語音段的能量比噪音段的大,語音段的能量是噪音段能量疊加語音聲波能量的和。傳統(tǒng)端點檢測算法認(rèn)為,如果環(huán)境噪聲和系統(tǒng)環(huán)境噪聲比較小,能夠保證系統(tǒng)的信噪比較高,那么只要計算輸入信號的短時能量或短時平均幅度就能把語音段和噪聲背景區(qū)分開。實際中信噪比較低。52傳統(tǒng)的端點檢測算法1.基于能量的端點檢測語音和噪音的主要區(qū)2.雙門限前端檢測法

利用短時過零率來檢測清音,用短時能量來檢測濁音。雙門限法是考慮到語音開始以后總會出現(xiàn)能量較大的濁音,設(shè)一個較高的門限用以確定語音已開始,再取一比稍低的門限,用以確定真正的起止點及結(jié)束點。判斷清音與無話的差別,是采用另一個較低的門限,求越過該門限的“過零率”。只要取得合適,通常背景噪聲的低門限過零率將明顯低于語音的低門限過零率值。這種方法普遍地用于有話、無話鑒別或詞語前端檢測。532.雙門限前端檢測法利用短時過零率來檢測清音,用短時能3.基于噪聲動態(tài)檢測的語音端點檢測算法543.基于噪聲動態(tài)檢測的語音端點檢測算法54仿真實驗及結(jié)果分析圖1“制約”在零噪聲時的檢測結(jié)果圖2“1”在加入少量噪聲時的檢測結(jié)果圖3“1”在噪聲加大時的檢測結(jié)果

圖4“1”在噪聲進一步加大時的檢測結(jié)果55仿真實驗及結(jié)果分析圖1“制約”在零噪聲時的檢測結(jié)果圖2“4.基于小波變換的語音端點檢測算法依據(jù):小波系數(shù)可以反映語音信號在各個子帶內(nèi)沿時間軸的能量分布,通過處理又可以捕捉到語音段的邊界,因此可以利用小波變換來對語音信號進行端點檢測,以達到區(qū)分語音段和非語音段的目的。564.基于小波變換的語音端點檢測算法依據(jù):小波系數(shù)可以反映語窗長為15ms,fs=10kHz,因此共包括150個語音樣點。一樣的音強,不一樣的頻率,則響度也會有所不同。利用它可以從背景噪聲中找出語音信號,可用于判斷寂靜無語音和有語音的起點和終點位置。原因:語音信號的平均功率譜受聲門激勵和口鼻輻射的影響,高頻端大約在800Hz以上按6dB/倍頻程跌落。諧振頻率由每一瞬間的聲道外形決定。一類是音節(jié)以上(如詞、句)的語音單元的測試,常稱為“可懂度”測試。在聲壓級高到一定程度時,耳朵會出現(xiàn)不適感覺,或者具有癢、壓迫及痛感。聲門和聲道相互耦合,還形成語音信號的非線性特性。元音都是濁音、輔音有清音也有濁音。圖(a)是一個海明窗乘過的清音語音段,圖(b)為相應(yīng)的倒譜。④采用示波器等通用設(shè)備,使用較為簡單。窗長越長,頻率分辨率越高,而時間分辨率越低N=51的直角窗和海明窗的對數(shù)幅頻特性。噪聲情況下各種語音端點檢測方法比較原因:語音信號的平均功率譜受聲門激勵和口鼻輻射的影響,高頻端大約在800Hz以上按6dB/倍頻程跌落。實驗室背景下基于能量和過零率的端點檢測結(jié)果窗長越長,頻率分辨率越高,而時間分辨率越低這種方法普遍地用于有話、無話鑒別或詞語前端檢測。2、抑制50Hz工頻干擾。3、聲源定位步驟:1)先將語音信號分成由1024個采樣點組成的幀;2)對每幀進行10層小波分解;3)計算所選兩個子帶(子帶4和子帶5)的小波系數(shù);4)計算兩個子帶的互相關(guān)系數(shù);5)通過幀間平滑連接所有互相關(guān)系數(shù)成為一個和原信號長度相同的序列;6)計算序列前220個點(20ms)的最大值,把此最大值作為閾值;7)比較序列中各個點的值。若小于閾值,則記為靜音;若大于閾值,則記為語音;8)按照上述過程對語音信號進行標(biāo)記,再濾掉個別誤判點,完成語音信號的端點檢測。57窗長為15ms,fs=10kHz,因此共包括150個語音樣點5.基于循環(huán)神經(jīng)網(wǎng)絡(luò)的語音端點檢測算法

原理:選用一個三層的RNN,且隱層的輸出全部反饋到輸入層。輸入的采樣語音信號被分成三種模式:濁音(U)、清音(V)、和背景噪聲(N)。選用的RNN神經(jīng)網(wǎng)絡(luò)輸出層有三個節(jié)點,對應(yīng)輸出的三種模式。585.基于循環(huán)神經(jīng)網(wǎng)絡(luò)的語音端點檢測算法循環(huán)神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu)59循環(huán)神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu)593)仿真實驗與結(jié)果分析

針對白噪聲和汽車噪聲環(huán)境對數(shù)字0~9的語音數(shù)據(jù)進行實驗,用來做測試的語音文件每組50個,包括男生和女生發(fā)音,含有汽車噪聲的語音信號平均信噪比10dB和5dB,分別模擬汽車中速和高速行駛環(huán)境下的錄音。603)仿真實驗與結(jié)果分析針對實驗室背景下基于能量和過零率的端點檢測結(jié)果61實驗室背景下基于能量和過零率的端點檢測結(jié)果61信噪比15dB時基于能量和過零率的檢測結(jié)果62信噪比15dB時基于能量和過零率的檢測結(jié)果62信噪比15dB時基于小波變換的端點檢測結(jié)果63信噪比15dB時基于小波變換的端點檢測結(jié)果63信噪比5dB時基于小波變換的端點檢測結(jié)果64信噪比5dB時基于小波變換的端點檢測結(jié)果64信噪比5dB時基于循環(huán)神經(jīng)網(wǎng)絡(luò)小波變換的端點檢測結(jié)果

65信噪比5dB時基于循環(huán)神經(jīng)網(wǎng)絡(luò)小波變換的端點檢測結(jié)果65方法測度白噪聲/dB汽車噪聲/dB0515510Energy0.620.750.800.720.780.530.610.780.590.690.590.720.780.680.75Wavelet0.850.900.990.870.900.700.820.980.770.800.810.880.990.840.87RNN0.900.951.000.910.920.750.880.980.820.850.860.920.990.880.92噪聲情況下各種語音端點檢測方法比較66方法測度白噪聲/dB汽車噪聲/dB0515510En

基于能量和過零率的端點檢測方法在實驗室環(huán)境下可以獲得較好的端點檢測結(jié)果,隨著信噪比的降低該方法檢測的準(zhǔn)確率將隨之下降,基于小波變換和基于循環(huán)神經(jīng)網(wǎng)絡(luò)的端點檢測方法對于噪聲具有一定的魯棒性,但是隨著噪聲的明顯增大,小波變換的方法得到的檢測結(jié)果仍然有所下降,與之相比基于循環(huán)神經(jīng)網(wǎng)絡(luò)的方法的魯棒性要優(yōu)于基于小波變換的方法,具有很大的優(yōu)越性和實用性。

結(jié)果分析:67基于能量和過零率的端點檢測方法在實驗室環(huán)境下可2.8短時能量和平均幅度分析原理:語音信號能量隨時間有相當(dāng)大的變化,特別是清音段的能量一般比濁音段的小得多。

定義:1、短時能量分析682.8短時能量和平均幅度分析原理:語音信號能量隨時間有決定短時能量特性有兩個條件:不同的窗口的形狀和長度。

矩形窗:第一個零點:窗口形狀:窗長對分辨率的影響窗長越長,頻率分辨率越高,而時間分辨率越低69決定短時能量特性有兩個條件:不同的窗口的形狀和長度。矩形窗海明窗:第一個零點:矩形窗譜平滑性能好,但損失高頻成分,波形細(xì)節(jié)丟失,海明窗與之相反。70海明窗:第一個零點:矩形窗譜平滑性能好,但損失高頻成分,波形N=51的直角窗和海明窗的對數(shù)幅頻特性。海明窗的第一個零值頻率位置比直角窗要大1倍左右,同時其帶外衰減也比直角窗大得多。71N=51的直角窗和海明窗的對數(shù)幅頻特性。海明窗的第一個零值頻這里窗長的選擇對于反映語音信號的幅度變化起著決定的作用。如果很大,它等效于很窄的低通濾波器,此時隨時間的變化很小,不能反映語音信號的幅度變化,信號的變化細(xì)節(jié)就看不出來;反之,窗長太小時,濾波器的通帶變寬,隨時間有急劇的變化,不能得到平滑的能量函數(shù)。窗口的長度:標(biāo)準(zhǔn):一幀內(nèi)含有1~7個基音周期,10kHz取樣下,N取100~200點。72這里窗長的選擇對于反映語音信號的幅度變化起著決定的作用。如果2、短時平均幅度分析定義:框圖:優(yōu)點:1、對高電平信號不如En敏感;2、計算方法簡單。缺點:濁音和清音的區(qū)分不如En明顯。732、短時平均幅度分析定義:73短時平均能量和短時平均幅度的主要用途:

可以區(qū)分清音段與濁音段:En值大的對應(yīng)于濁音段,而En值小的對應(yīng)于清音段。En值的變化,可大致判定濁音變?yōu)榍逡艋蚯逡糇優(yōu)闈嵋舻臅r刻??梢杂脕韰^(qū)分聲母與韻母的分界,無聲與有聲的分界,連字(指字之間無間隙)的分界等。作為一種超音段信息,用于語音識別中。

74短時平均能量和短時平均幅度的主要用途:可以區(qū)分清音段與濁音2.9短時過零分析定義:過零就是信號通過零值。連續(xù)語音信號,考察其時域波形通過時間軸的情況;離散時間信號,相鄰的取樣值改變符號則稱為過零。語音信號序列是寬帶信號,則不能簡單用上面的公式。752.9短時過零分析定義:過零就是信號通過零值。75語音信號短時過零分析定義:其中:框圖:76語音信號短時過零分析定義:其中:框圖:76此時氣流通過繃緊的聲帶,沖激聲帶產(chǎn)生振動,使聲門處形成準(zhǔn)周期性的脈沖串,并用它去激勵聲道。門限值可以對背景噪聲的變化有一定的適應(yīng);能夠?qū)⒍虝r沖激噪聲和超過門限值的信號納入無聲段而不是有聲段;若大于閾值,則記為語音;缺點:濁音和清音的區(qū)分不如En明顯。從較高頻率降到較低頻率窗長為15ms,fs=10kHz,因此共包括150個語音樣點。這段語音用海明窗加權(quán),基音周期為Np=45?;谀芰亢瓦^零率的端點檢測方法在實驗室環(huán)境下可以獲得較好的端點檢測結(jié)果,隨著信噪比的降低該方法檢測的準(zhǔn)確率將隨之下降,基于小波變換和基于循環(huán)神經(jīng)網(wǎng)絡(luò)的端點檢測方法對于噪聲具有一定的魯棒性,但是隨著噪聲的明顯增大,小波變換的方法得到的檢測結(jié)果仍然有所下降,與之相比基于循環(huán)神經(jīng)網(wǎng)絡(luò)的方法的魯棒性要優(yōu)于基于小波變換的方法,具有很大的優(yōu)越性和實用性。③量化噪聲在量化間隔內(nèi)均勻分布,即具有等概率密度分布。圖(a)是一個海明窗乘過的清音語音段,圖(b)為相應(yīng)的倒譜。此時聲帶松弛而不振動,氣流通過聲門直接進入聲道。依據(jù):小波系數(shù)可以反映語音信號在各個子帶內(nèi)沿時間軸的能量分布,通過處理又可以捕捉到語音段的邊界,因此可以利用小波變換來對語音信號進行端點檢測,以達到區(qū)分語音段和非語音段的目的。元音:聲帶振動產(chǎn)生一個準(zhǔn)周期的空氣脈沖,如i、u、ü、a、o、e等。10語音信號的倒譜分析②實現(xiàn)起來比較簡單、運算量少。由于語音的短時平穩(wěn)性,假設(shè)在短時間內(nèi),各段管子的截面積且是常數(shù)。語音處理的根本方法——短時分析技術(shù)若信號波形的變化足夠大或量化間隔足夠小時,可以證明量化噪聲符合具有下列特性的統(tǒng)計模型:10語音信號的倒譜分析短時過零分析的意義:可以區(qū)分清音與濁音:濁音時具有較低的平均過零數(shù),而清音時具有較高的平均過零數(shù)。利用它可以從背景噪聲中找出語音信號,可用于判斷寂靜無語音和有語音的起點和終點位置。

在背景噪聲較小時用平均能量識別較為有效,而在背景噪聲較大時用平均過零數(shù)識別較為有效。

77此時氣流通過繃緊的聲帶,沖激聲帶產(chǎn)生振動,使聲門處形成準(zhǔn)周期2.10語音信號的倒譜分析求語音倒譜特征參數(shù),通過同態(tài)處理來實現(xiàn)。倒譜分析:運用對數(shù)運算和二次FFT/IFFT變換,將基音諧波和聲道的頻譜包絡(luò)分離出來,用低時窗從語音信號倒譜中截取出低倒譜域部分,可以更精確的反映聲道的響應(yīng),得到共振峰。2、對原語音信號分析出一組預(yù)測系數(shù),得到語音產(chǎn)生模型的頻率響應(yīng)。

同態(tài)處理(同態(tài)濾波):解卷,將卷積關(guān)系變?yōu)榍蠛吞幚?。將語音信號的聲門激勵和聲道響應(yīng)分離開。782.10語音信號的倒譜分析求語音倒譜特征參數(shù),通過同態(tài)處理同態(tài)信號處理的基本原理信號分類:加性信號、乘積性信號、卷積性信號等。同態(tài)信號處理目的:將非線性問題轉(zhuǎn)化為線性問題來處理。同態(tài)信號處理分類:乘積同態(tài)處理和卷積同態(tài)處理兩種。79同態(tài)信號處理的基本原理信號分類:加性信號、乘積性信號、卷積性特征系統(tǒng)D*反特征系統(tǒng)D*-1:它是特征系統(tǒng)的反運算卷積同態(tài)系統(tǒng):80特征系統(tǒng)D*卷積同態(tài)系統(tǒng):80特征系統(tǒng)D*81特征系統(tǒng)D*81反特征系統(tǒng)D*-1:82反特征系統(tǒng)D*-1:82復(fù)倒譜和倒譜是一個時域序列,我們稱是x(n)的“復(fù)倒頻譜”,簡稱為“復(fù)倒譜”,有時也稱作對數(shù)復(fù)倒譜。所處的離散時域,稱之為“復(fù)倒譜域”。這樣,特征系統(tǒng)D*[]將離散時域中的卷積運算轉(zhuǎn)換為復(fù)倒譜域中的加性運算。進行同態(tài)信號處理后,即可完成解卷的任務(wù)。若時域中有,則復(fù)倒譜域中。假設(shè)位于復(fù)倒譜域中不同的間隔內(nèi)并且互不交替,那么適當(dāng)?shù)卦O(shè)計線性系統(tǒng),便可將x1(n)或x2(n)分離出來。83復(fù)倒譜和倒譜是一個時域序列,我們特征系統(tǒng)D*反特征系統(tǒng)D*-1c(n)是序列x(n)對數(shù)幅度譜的傅里葉逆變換,c(n)稱為“倒頻譜”或簡稱為“倒譜”,有時也稱“對數(shù)倒頻譜”。84特征系統(tǒng)D*反特征系統(tǒng)D*-1c(n)是序列x(n)對數(shù)幅復(fù)倒譜和倒譜的特點和關(guān)系:1.復(fù)倒譜要進行復(fù)對數(shù)運算,倒譜只進行實對數(shù)運算。2.倒譜情況下,一個序列經(jīng)過正反兩個特征系統(tǒng)以后不能還原成自身,因為丟失相位信息。4.已知一個實序列的復(fù)倒譜,可以求其倒譜。5.已知倒譜,可以求復(fù)倒譜。85復(fù)倒譜和倒譜的特點和關(guān)系:1.復(fù)倒譜要進行復(fù)對數(shù)運算,倒譜只語音信號的復(fù)倒譜語音信號可看作是聲門激勵信號和聲道沖激響應(yīng)序列的卷積。1聲門激勵信號

發(fā)濁音時,聲門激勵是以基音周期為周期的沖激序列:

86語音信號的復(fù)倒譜語音信號可看作是聲門激勵信號和聲道沖激響應(yīng)序得到復(fù)倒譜:

對上式取對數(shù)并按泰勒級數(shù)展開:87得到復(fù)倒譜:對上式取對數(shù)并按泰勒級數(shù)展開:87或:一個周期沖激的有限長度序列,其復(fù)倒譜也是一個周期沖激序列,而且長度不變,只是序列變?yōu)闊o限長度序列。同時其振幅隨著k值的增大而衰減。88或:一個周期沖激的有限長度序列,其復(fù)倒譜也是一個周期沖激序列2聲道沖激響應(yīng)序列

如果用最嚴(yán)格(也是最普遍的)極零模型來描述聲道沖激響應(yīng),則其Z變換的形式為:

892聲道沖激響應(yīng)序列如果用最嚴(yán)格(也是最普遍的)極零模型取對數(shù)進行泰勒級數(shù)展開:90取對數(shù)進行泰勒級數(shù)展開:90進行逆z變換,得復(fù)倒譜

91進行逆z變換,得復(fù)倒譜91結(jié)論:

①是雙邊序列,存在于-∞<n<∞的范圍內(nèi)。②是衰減序列,隨|n|的增大而減小。③隨|n|增大而衰減的速度至少比1/|n|快,④如果x(n)是最小相位序列,為因果序列。⑤如果x(n)是最大相位序列,為反因果序列。92結(jié)論:①是雙邊序列,存在于-∞<n<∞避免相位卷繞在復(fù)倒譜分析中,z變換后得到的是復(fù)數(shù),所以取對數(shù)時進行的是復(fù)對數(shù)運算。這時存在相位的多值性問題,稱為“相位卷繞”。產(chǎn)生相位的多值避免相位卷繞的算法有:微分法、最小相位信號法、遞歸法等。93避免相位卷繞在復(fù)倒譜分析中,z變換后得到的是復(fù)數(shù),所以取對數(shù)(a)(b)(c)(d)濁語音的倒譜和復(fù)倒譜實例實例分析

窗長為15ms,fs=10kHz,因此共包括150個語音樣點。這段語音用海明窗加權(quán),基音周期為Np=45。94(a)(b)(c)(d)濁語音的倒譜和復(fù)倒譜實例實例分析窗先用窗w(n)選擇一個語音段,再計算復(fù)倒譜,然后將欲得到的復(fù)倒譜分量用一個“復(fù)倒譜窗”

分離出來。所得到的窗選復(fù)倒譜用逆特征系統(tǒng)進行處理以恢復(fù)所需的卷積分量。

95先用窗w(n)選擇一個語音段,再計算復(fù)倒譜,然后將欲得到的復(fù)濁音語音用同態(tài)濾波分離出聲門激勵和聲道響應(yīng)的示例(a)(b)

上圖給出了經(jīng)過濾波和逆特征系統(tǒng)處理后的結(jié)果。圖(a)為經(jīng)過低復(fù)倒譜窗l(fā)(n)和之后的輸出波形即聲道沖擊響應(yīng),圖(b)給出了聲門激勵信號??梢钥闯雎曢T激勵波形近視于一個沖擊串,其幅度隨時間變化保持了用來加權(quán)輸入信號所用的海明窗形狀。96濁音語音用同態(tài)濾波分離出聲門激勵和聲道響應(yīng)的示例(a)(b)清語音的同態(tài)分析(a)(b)上圖給出了相同條件下一段加窗語音的時域波形及其倒譜。圖(a)是一個海明窗乘過的清音語音段,圖(b)為相應(yīng)的倒譜??梢姷棺V中沒有出現(xiàn)在濁音情況下的那種尖峰,然而倒譜的低時域部分包含了關(guān)于聲道沖擊響應(yīng)的信息。97清語音的同態(tài)分析(a)(b)上圖給出了相同條件下一段加窗語音§2.1語音和語言

第2章語音信號短時分析技術(shù)構(gòu)成人類語音的是聲音,由人講話所發(fā)出的聲音,對語音中音的分類和研究稱為語音學(xué)。1、言語的過程和作用想說階段————大腦中樞活動說出階段————發(fā)音器官的活動傳送階段————傳送信息的物理過程起作用接收階段————聽覺系統(tǒng)活動理解階段————大腦中樞活動98§2.1語音和語言第2章語音信號短時分析技術(shù)構(gòu)成人類語2、一些基本概念①音素(phoneme):語音的最小單位,由音素構(gòu)成音節(jié)。②音節(jié)(Syllable):說話時一次發(fā)出的,具有一個響亮的中心,并被明顯感覺的語音片斷。音素和音節(jié)992、一些基本概念①音素(phoneme):語音的最小單位,輔音和元音

音素分為兩類:輔音(Consonant)和元音(Vowel)元音:聲帶振動產(chǎn)生一個準(zhǔn)周期的空氣脈沖,如i、u、ü、a、o、e等。輔音:呼出的氣流,由于通路中某一部分封閉起來或受阻,氣流不通暢所產(chǎn)生的聲音,如b、p、m、f、d、t、n、l等。100輔音和元音元音:聲帶振動產(chǎn)生一個準(zhǔn)周期的空氣脈沖,如i、u輔音和元音的區(qū)別有四點:1、輔音發(fā)音時,氣流在通過咽頭、口腔的過程中,要受到某部位的阻礙;元音發(fā)音時,氣流在咽頭、口腔不受阻礙。這是元音和輔音最主要的區(qū)別。2、輔音發(fā)音時,發(fā)音器官成阻的部位特別緊張;元音發(fā)音時發(fā)音器官各部位保持均衡的緊張狀態(tài)。3、輔音發(fā)音時,氣流較強;元音發(fā)音時,氣流較弱。4、輔音發(fā)音時,聲帶不一定振動,聲音一般不響亮;元音發(fā)音時,聲帶振動,聲音比輔音響亮。101輔音和元音的區(qū)別有四點:4半元音:聲道基本通暢,但某處比較狹窄,引起輕微摩擦。[W]、[Y]元音構(gòu)成音節(jié)的主干,輔音只出現(xiàn)在音節(jié)前端或前后兩端。元音的共振峰特性:聲道被看成具有均勻截面積的聲管,發(fā)音時起共鳴器的作用。元音激勵進入聲道時引起共振特性,產(chǎn)生一組共振頻率,即共振峰。102半元音:聲道基本通暢,但某處比較狹窄,引起輕微摩擦。[W]、清音和濁音清音:聲帶不振動濁音:聲帶振動而發(fā)音元音都是濁音、輔音有清音也有濁音。103清音和濁音清音:聲帶不振動元音都是濁音、輔音有清音也有濁音。3、漢語的聲調(diào):濁音的聲帶振動基頻稱為基音頻率。無論在說一個單音節(jié)或說一段連續(xù)語音時,各個音節(jié)中韻母段的都是隨時間變化的,基音頻率的不同軌跡稱為聲調(diào)。幾乎平均于橫軸、平均值高從較低一直上升到較高頻率先降后升從較高頻率降到較低頻率1043、漢語的聲調(diào):濁音的聲帶振動基頻稱為基音頻率。無論在說一個4、語音信號的時域波形開始/ai//k/時變特性有些段落周期性,有些段落具有噪聲特性,短時平穩(wěn)性1054、語音信號的時域波形開始/ai//k/時變特性8Doyoulikeit?VsDidyoulikeit?Waveform106Doyoulikeit?VsDid§2.2語音產(chǎn)生的過程及聲學(xué)特征語音產(chǎn)生的過程喉以上的部分稱為聲道,隨著發(fā)出聲音的不同其形狀是變化的;而喉的部分稱為聲門。107§2.2語音產(chǎn)生的過程及聲學(xué)特征語音產(chǎn)生的過程10聲帶(VocalCords)10~14mm在喉部的從喉結(jié)到杓狀軟骨之間的韌帶褶。聲門(Glottis)兩個聲帶之間形成一個開閉自如的聲門,聲帶合攏因而受聲門下氣流的沖擊而張開;但由于聲帶韌性迅速地閉合,隨后又張開而閉合,聲帶開啟和閉合使氣流形成一系列脈沖。聲門每開啟和閉合一次的時間即振動周期稱為音調(diào)周期或基音周期,其倒數(shù)稱為基音頻率,也簡稱為基頻?;舻姆秶s為70~350Hz左右。108聲帶(VocalCords)10~14mm聲門每開啟和聲道(vocaltract)17cm

由咽腔、口腔和鼻腔三個空氣腔體組成。聲道是一個分布參數(shù)系統(tǒng),它有許多自然諧振頻率(在這些頻率上其傳遞函數(shù)具有極大值),所以聲道是一諧振腔,它放大某一頻率而衰減其他頻率分量。諧振頻率由每一瞬間的聲道外形決定。如果聲道的截面是均勻的,諧振頻率將發(fā)生在109聲道(vocaltract)17cm聲道是一個分聽覺系統(tǒng):聲波經(jīng)過外耳的放大后,經(jīng)過鼓膜和聽小骨將聲波轉(zhuǎn)化為機械振動,傳入內(nèi)耳。§2.3語音感知

由外耳、中耳、內(nèi)耳組成人耳的作用:1、聲音放大;2、聲音傳導(dǎo);3、聲源定位110聽覺系統(tǒng):聲波經(jīng)過外耳的放大后,經(jīng)過鼓膜和聽小骨將聲波轉(zhuǎn)化正常人的聽域與聽閾:聽覺感知特性:正常人的聽覺系統(tǒng)是極為靈敏的,人耳所能感覺的最低聲壓接近空氣中分子熱運動所產(chǎn)生的聲壓。正常人可聽聲音的頻率范圍為0.016-16kHz,年輕人可聽到20kHz的聲音,而老年人可聽到的高頻聲音要減少到10kHz左右。正常人可聽聲音的強度范圍為0-120dBSPL(聲壓級),這里的基準(zhǔn)聲壓(0dBSPL)是或。111正常人的聽域與聽閾:聽覺感知特性:正常人的聽覺系統(tǒng)是極為靈敏純音聽閾是與頻率有關(guān)的量,在1000Hz時約為4dB左右,而在40Hz時上升為50dB左右,在15kHz時上升為24dB左右。

感覺閾代表可容忍的最高聲壓。在聲壓級高到一定程度時,耳朵會出現(xiàn)不適感覺,或者具有癢、壓迫及痛感。對正常人而言一般取120dB為不適閡,140dB為痛闡,且認(rèn)為它與頻率無關(guān)。112純音聽閾是與頻率有關(guān)的量,在1000Hz時約為4dB左右,而響度(Londness)---方(phon)是一種主觀心理量,主觀感覺到的聲音強弱的一種衡量標(biāo)準(zhǔn),它與頻率有關(guān)。一樣的音強,不一樣的頻率,則響度也會有所不同。0dB聲強級的1000Hz純音的響度級為0phon;ndB聲強級的1000Hz純音的響度級為nphon;113響度(Londness)---方(phon)162、計算方法簡單。依據(jù):小波系數(shù)可以反映語音信號在各個子帶內(nèi)沿時間軸的能量分布,通過處理又可以捕捉到語音段的邊界,因此可以利用小波變換來對語音信號進行端點檢測,以達到區(qū)分語音段和非語音段的目的。ndB聲強級的1000Hz純音的響度級為nphon;元音激勵進入聲道時引起共振特性,產(chǎn)生一組共振頻率,即共振峰。傳統(tǒng)端點檢測算法認(rèn)為,如果環(huán)境噪聲和系統(tǒng)環(huán)境噪聲比較小,能夠保證系統(tǒng)的信噪比較高,那么只要計算輸入信號的短時能量或短時平均幅度就能把語音段和噪聲背景區(qū)分開。準(zhǔn)則:要尋求一種可以表達一定物理狀態(tài)下的數(shù)學(xué)關(guān)系,要使這種關(guān)系不僅具有最大的精確度,而且還要最簡單。如果很大,它等效于很窄的低通濾波器,此時隨時間的變化很小,不能反映語音信號的幅度變化,信號的變化細(xì)節(jié)就看不出來;聲門每開啟和閉合一次的時間即振動周期稱為音調(diào)周期或基音周期,其倒數(shù)稱為基音頻率,也簡稱為基頻。原因:語音信號的平均功率譜受聲門激勵和口鼻輻射的影響,高頻端大約在800Hz以上按6dB/倍頻程跌落。語譜儀:將語音信號(經(jīng)話筒變成了電信號)送進一排頻率依次相接的窄帶濾波器,各窄帶濾波器的輸出記錄在一卷按一定速度旋轉(zhuǎn)的記錄紙上(各濾波器的由低到高按頻率排列),信號強則記錄得濃黑一些,反之則淺談一些。缺點:濁音和清音的區(qū)分不如En明顯。這里窗長的選擇對于反映語音信號的幅度變化起著決定的作用。也可在A/D變換之后進行,用具有6dB/倍頻程的提升高頻特性的預(yù)加重數(shù)字濾波器實現(xiàn),它一般是一階的。復(fù)倒譜和倒譜的特點和關(guān)系:諧振頻率由每一瞬間的聲道外形決定。把聲道視作截面積變化的管子,研究聲音沿管道是怎樣傳播的。語音信號具有時變特性,而在一個短時間范圍內(nèi)其特性基本保持不變即相對穩(wěn)定,因而可以將其看作是一個準(zhǔn)穩(wěn)態(tài)過程。依據(jù):小波系數(shù)可以反映語音信號在各個子帶內(nèi)沿時間軸的能量分布,通過處理又可以捕捉到語音段的邊界,因此可以利用小波變換來對語音信號進行端點檢測,以達到區(qū)分語音段和非語音段的目的。同時掩蔽:同時存在的一個弱信號和一個強信號頻率接近時,強信號會提高弱信號的聽閾,當(dāng)弱信號的聽閾升高到一定程度會導(dǎo)致弱信號不可聞。同態(tài)處理(同態(tài)濾波):解卷,將卷積關(guān)系變?yōu)榍蠛吞幚怼B犛X掩蔽效應(yīng)掩蔽效應(yīng):一種聲音的聽覺感受受到同時聽到的另一種聲音的影響。分:同時掩蔽和短時掩蔽1142、計算方法簡單。聽覺掩蔽效應(yīng)掩蔽效應(yīng):一種聲音的聽覺感受受同時掩蔽:同時存在的一個弱信號和一個強信號頻率接近時,強信號會提高弱信號的聽閾,當(dāng)弱信號的聽閾升高到一定程度會導(dǎo)致弱信號不可聞。短時掩蔽:當(dāng)A聲和B聲不同時出現(xiàn)時。后向掩蔽:掩蔽聲B消失后,其作用仍持續(xù)一段時間:0.5~2s前向掩蔽:被掩蔽音A出現(xiàn)后,相隔0.005~0.2s之內(nèi)出現(xiàn)掩蔽音B,也會對A起作用。115同時掩蔽:同時存在的一個弱信號和一個強信號頻率接近時,強信號§2.4語音信號的數(shù)學(xué)模型準(zhǔn)則:要尋求一種可以表達一定物理狀態(tài)下的數(shù)學(xué)關(guān)系,要使這種關(guān)系不僅具有最大的精確度,而且還要最簡單。期望:模型既是線性的又是時不變的,這是最理想的模型。語音信號特征:一連串的時變過程;聲門和聲道相互耦合,還形成語音信號的非線性特性。合理假設(shè):在較短的時間間隔內(nèi)表示語音信號時,采用線性時不變模型。116§2.4語音信號的數(shù)學(xué)模型準(zhǔn)則:要尋求一種可以表達一定物理發(fā)音器官的機理模型:117發(fā)音器官的機理模型:20語音信號的產(chǎn)生模型118語音信號的產(chǎn)生模型21(1)發(fā)濁音時。此時氣流通過繃緊的聲帶,沖激聲帶產(chǎn)生振動,使聲門處形成準(zhǔn)周期性的脈沖串,并用它去激勵聲道。聲帶繃緊的程度不同,振動頻率也不同。該頻率就是音調(diào)頻率,其倒數(shù)為音調(diào)周期。(2)發(fā)清音時。此時聲帶松弛而不振動,氣流通過聲門直接進入聲道。表示為均值為0、方差為1,并在時間或在幅度上為白色分布的序列。

1、激勵模型119(1)發(fā)濁音時。此時氣流通過繃緊的聲帶,沖激聲帶產(chǎn)生振動,使羅森貝格(Rosenberg)在研究中發(fā)現(xiàn),如果在發(fā)濁音時聲門脈沖取如圖所示的形狀,可以獲得比較好的合成語音效果。發(fā)濁音時的聲門脈沖120羅森貝格(Rosenberg)在研究中發(fā)現(xiàn),如果在發(fā)濁音時聲把聲道視作截面積變化的管子,研究聲音沿管道是怎樣傳播的。2、聲道模型(一)聲管模型121把聲道視作截面積變化的管子,研究聲音沿管道是管道內(nèi)聲波的運動方程:

其中,為在點時刻的聲壓

為在點時刻的體積速度

為空氣密度

為聲速

為管道截面積122管道內(nèi)聲波的運動方程:其中,為在點時每個管子可看作為一個四端網(wǎng)絡(luò),這個網(wǎng)絡(luò)具有反射系數(shù),聲道可由一組截面積或一組反射系數(shù)來表示。

通常用A表示聲管的截面積。由于語音的短時平穩(wěn)性,假設(shè)在短時間內(nèi),各段管子的截面積且是常數(shù)。設(shè)第m段和第m+1段的聲管的截面積分別為Am、Am+1,設(shè)稱為“面積和差比”,其取值范圍為-1<km<1。它實際上是線性預(yù)測的反射系數(shù)。123每個管子可看作為一個四端網(wǎng)絡(luò),這個網(wǎng)絡(luò)具有反射系數(shù),聲道可由決定短時能量特性有兩個條件:不同的窗口的形狀和長度。如果很大,它等效于很窄的低通濾波器,此時隨時間的變化很小,不能反映語音信號的幅度變化,信號的變化細(xì)節(jié)就看不出來;是一個時域序列,我們稱是x(n)的“復(fù)倒頻譜”,簡稱為“復(fù)倒譜”,有時也稱作對數(shù)復(fù)倒譜。④采用示波器等通用設(shè)備,使用較為簡單。窗長越長,頻率分辨率越高,而時間分辨率越低第2章語音信號短時分析技術(shù)2、抑制50Hz工頻干擾。所處的離散時域,稱之為“復(fù)倒譜域”。②實現(xiàn)起來比較簡單、運算量少。幾乎平均于橫軸、平均值高短時掩蔽:當(dāng)A聲和B聲不同時出現(xiàn)時。輔音:呼出的氣流,由于通路中某一部分封閉起來或受阻,氣流不通暢所產(chǎn)生的聲音,如b、p、m、f、d、t、n、l等。對于爆破音的寂靜段,應(yīng)將其納入語音的范圍而不是無聲段;由咽腔、口腔和鼻腔三個空氣腔體組成。上圖給出了相同條件下一段加窗語音的時域波形及其倒譜。一樣的音強,不一樣的頻率,則響度也會有所不同。同態(tài)信號處理的基本原理反特征系統(tǒng)D*-1:它是特征系統(tǒng)的反運算實驗室背景下基于能量和過零率的端點檢測結(jié)果已知一個實序列的復(fù)倒譜,可以求其倒譜。共振峰與舌位關(guān)系舌位高低決定了F1共振頻率。舌位越高,F(xiàn)1的頻率越低,反則反之。舌位前后決定了F2共振頻率舌位越后,F(xiàn)2的頻率越低,反則反之。

(二)共振峰模型聲道被視為諧振腔,共振峰是腔體的諧振頻率124決定短時能量特性有兩個條件:不同的窗口的形狀和長度。共振峰與1)級聯(lián)共振峰模型(適合于一般元音)分解:1251)級聯(lián)共振峰模型(適合于一般元音)分解:282)并聯(lián)型(非一般元音和大多數(shù)輔音)1262)并聯(lián)型(非一般元音和大多數(shù)輔音)293、混合型(結(jié)合級聯(lián)型和并聯(lián)型):幅度控制因子AB專為一些頻譜特性比較平坦的音素,如[f],[p],[b]所考慮的。1273、混合型(結(jié)合級聯(lián)型和并聯(lián)型):幅度控制因子AB專為一些頻

聲道的終端為口和唇。從聲道輸出的是速度波,而語音信號是聲壓波,二者之倒比稱為輻射阻抗ZL。它表征口和唇的輻射效應(yīng),也包括圓形的頭部的繞射效應(yīng)等。

口唇的輻射效應(yīng)可表示為:,它是一階后向差分。輻射模型R(z)是一階類高通濾波器的形式。3、輻射模型128聲道的終端為口和唇。從聲道輸出的是速度波,而

完整的語音信號數(shù)字模型可以用三個子模型:激勵模型、聲道模型和輻射模型的串聯(lián)來表示。其轉(zhuǎn)移函數(shù)為:

H(z)=U(z)V(z)R(z)這里,U(z)是激勵信號——聲門脈沖即斜三角波的形式;V(z)是聲道傳遞函數(shù),既可以用聲管模型,也可以用共振峰模型來描述。在共振峰模型中,又可采用級聯(lián)型、并聯(lián)型或混合型等幾種形式;R(z)為輻射模型。

4、完整的模型

129完整的語音信號數(shù)字模型可以用三個子模型:激勵

聲門脈沖

聲道語音信號

激勵信號聲道濾波器語音信號頻譜傳遞函數(shù)頻譜韻母的產(chǎn)生過程130聲門脈沖2.5語音的質(zhì)量評估一類是音節(jié)以下(如音素、聲母、韻母)的語音單元的測試,這常稱為“清晰度”測試;清晰度測試可以元音、輔音為基礎(chǔ)或以聲母、韻母為基礎(chǔ),再根據(jù)音節(jié)成分算出音節(jié)清晰度。一類是音節(jié)以上(如詞、句)的語音單元的測試,常稱為“可懂度”測試。

語音質(zhì)量測試可分為兩類:

1312.5語音的質(zhì)量評估一類是音節(jié)以下(如音素、聲母、韻母)的2.6語音信號的時頻特性分析漢語拼音“SouKe”的時域波形采樣率8kHz1322.6語音信號的時頻特性分析漢語拼音“SouKe”的時13336同時其振幅隨著k值的增大而衰減。定義:過零就是信號通過零值。1)先將語音信號分成由1024個采樣點組成的幀;反特征系統(tǒng)D*-1:其中,為在點時刻的聲壓若時域中有,則復(fù)倒譜域中。短時掩蔽:當(dāng)A聲和B聲不同時出現(xiàn)時。③隨|n|增大而衰減的速度至少比1/|n|快,聲門(Glottis)3語音感知已知一個實序列的復(fù)倒譜,可以求其倒譜。4語音信號的數(shù)學(xué)模型元音:聲帶振動產(chǎn)生一個準(zhǔn)周期的空氣脈沖,如i、u、ü、a、o、e等。語音信號特征:一連串的時變過程;反之,窗長太小時,濾波器的通帶變寬,隨時間有急劇的變化,不能得到平滑的能量函數(shù)。10語音信號的倒譜分析應(yīng)該盡量避免在檢測中丟失鼻韻和弱摩擦音等與噪聲特性相似、短時參數(shù)較少的語音;在背景噪聲較小時用平均能量識別較為有效,而在背景噪聲較大時用平均過零數(shù)識別較為有效。這段語音用海明窗加權(quán),基音周期為Np=45。實驗室背景下基于能量和過零率的端點檢測結(jié)果134同時其振幅隨著k值的增大而衰減。372.7語音信號的語譜圖語譜儀:將語音信號(經(jīng)話筒變成了電信號)送進一排頻率依次相接的窄帶濾波器,各窄帶濾波器的輸出記錄在一卷按一定速度旋轉(zhuǎn)的記錄紙上(各濾波器的由低到高按頻率排列),信號強則記錄得濃黑一些,反之則淺談一些。由此得到的即是語音信號的語譜圖,此圖的水平方向是時間軸,垂直方向是頻率軸,固上或深或淺的黑色條紋表征各個時刻的短時譜。1352.7語音信號的語譜圖語譜儀:將語音信號(經(jīng)話筒變成了電信

自然語音a波形圖

自然語音a語譜圖

自然語音o波形圖

自然語音o語譜圖136自然語音a波形圖自然語音a語譜圖自然語音語音處理的根本方法——短時分析技術(shù)

語音信號具有時變特性,而在一個短時間范圍內(nèi)其特性基本保持不變即相對穩(wěn)定,因而可以將其看作是一個準(zhǔn)穩(wěn)態(tài)過程。語音的重要特性是它具有“短時性”,所以對語音的分析和處理必須建立在“短時”的基礎(chǔ)上,即進行“短時分析”,§2.8語音信號的數(shù)字化與預(yù)處理語音信號處理系統(tǒng)框圖137語音處理的根本方法——短時分析技術(shù)語音信號數(shù)字化:放大、增益控制、反混疊濾波、采樣、A/D變換及編碼預(yù)處理:預(yù)加重、加窗、分幀、端點檢測①表示語音信號比較直觀、物理意義明確。②實現(xiàn)起來比較簡單、運算量少。③可以得到語音的一些重要參數(shù)。④采用示波器等通用設(shè)備,使用較為簡單。

時域分析的特點:138數(shù)字化:放大、增益控制、反混疊濾波、采樣、A/D變換及編碼①1、預(yù)濾波、采樣、A/D變換目的:1、抑制輸入信號各頻域分量中頻率超出fs/2的所有分量,以防止混疊干擾;2、抑制50Hz工頻干擾。實現(xiàn):帶通濾波器,上下邊帶截止頻率分別為、1391、預(yù)濾波、采樣、A/D變換目的:實現(xiàn):帶通濾波器,上下邊采樣根據(jù)取樣定理,當(dāng)取樣頻率大于信號的兩倍帶寬時,取樣過程中不會丟失信息,且從取樣信號中可以精確地重構(gòu)原始信號波形。在信號的帶寬不明確時,在取樣前應(yīng)接入反混疊濾波器,使其帶寬限制在某個范圍內(nèi)。語音信號頻率范圍:300~3400Hz采樣率:8kHz~10kHz140采樣根據(jù)取樣定理,當(dāng)取樣頻率大于信號的兩倍帶寬時,取樣過程中量化:將輸入的整個幅值分成有限區(qū)間,把落入同一區(qū)間的波形樣本都量化成同一幅度值。141量化:將輸入的整個幅值分成有限區(qū)間,把落入同一區(qū)間的波形樣本量化后的信號值與原信號之間的差值稱為量化誤差,又稱為量化噪聲。若信號波形的變化足夠大或量化間隔足夠小時,可以證明量化噪聲符合具有下列特性的統(tǒng)計模型:①它是一個平穩(wěn)的白噪聲過程;②量化噪聲和輸入信號不相關(guān);③量化噪聲在量化間隔內(nèi)均勻分布,即具有等概率密度分布。142量化后的信號值與原信號之間的差值稱為量化誤差,又稱為量化噪聲2、預(yù)處理預(yù)加重:原因:語音信號的平均功率譜受聲門激勵和口鼻輻射的影響,高頻端大約在800Hz以上按6dB/倍頻程跌落。目的:提升高頻部分,使信號的頻譜變得平坦,以便于進行頻譜分析或聲道參數(shù)分析。位置:可在反混疊濾波之前進行,這樣不僅能夠進行預(yù)加重,而且可以壓縮信號的動態(tài)范圍,有效地提高信噪比。也可在A/D變換之后進行,用具有6dB/倍頻程的提升高頻特性的預(yù)加重數(shù)字濾波器實現(xiàn),它一般是一階的。式中值接近于1。

1432、預(yù)處理預(yù)加重:46濁語音的倒譜和復(fù)倒譜實例能夠?qū)⒍虝r沖激噪聲和超過門限值的信號納入無聲段而不是有聲段;第2章語音信號短時分析技術(shù)5)通過幀間平滑連接所有互相關(guān)系數(shù)成為一個和原信號長度相同的序列;在共振峰模型中,又可采用級聯(lián)型、并聯(lián)型或混合型等幾種形式;一個較好的端點檢測算法應(yīng)該能夠滿足:3語音感知1)先將語音信號分成由1024個采樣點組成的幀;窗長越長,頻率分辨率越高,而時間分辨率越低一樣的音強,不一樣的頻率,則響度也會有所不同。管道內(nèi)聲波的運動方程:位置:可在反混疊濾波之前進行,這樣不僅能夠進行預(yù)加重,而且可以壓縮信號的動態(tài)范圍,有效地提高信噪比。同態(tài)信號處理的基本原理諧振頻率由每一瞬間的聲道外形決定。有些段落周期性,有些段落具有噪聲特性,短時平穩(wěn)性準(zhǔn)則:要尋求一種可以表達一定物理狀態(tài)下的數(shù)學(xué)關(guān)系,要使這種關(guān)系不僅具有最大的精確度,而且還要最簡單。針對白噪聲和汽車噪聲環(huán)境對數(shù)字0~9的語音數(shù)據(jù)進行實驗,用來做測試的語音文件每組50個,包括男生和女生發(fā)音,含有汽車噪聲的語音信號平均信噪比10dB和5dB,分別模擬汽車中速和高速行駛環(huán)境下的錄音。反特征系統(tǒng)D*-1:它是特征系統(tǒng)的反運算準(zhǔn)則:要尋求一種可以表達一定物理狀態(tài)下的數(shù)學(xué)關(guān)系,要使這種關(guān)系不僅具有最大的精確度,而且還要最簡單。舌位越高,F(xiàn)1的頻率越低,反則反之。加窗分幀:語音信號是一種典型的非平穩(wěn)信號,其特性是隨時間而變化的,但是語音的形成過程是與發(fā)音器官的運動密切相關(guān)的,這種物理運動比起聲音振動速度來說要緩慢得多,因此語音信號常??杉俣槎虝r平穩(wěn)的,即在10~30ms的時間段內(nèi),其頻譜特性和物理特征參量可近似地看作是不變的,這樣,就可以采用平穩(wěn)過程的分析處理方法來處理了。由這個假定導(dǎo)出了各種“短時”處理方法,以后討論的各種語音信號都是分隔為一些短段(幀)再加以處理。這些短段就好像是

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論