版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
§2.1語(yǔ)音和語(yǔ)言
構(gòu)成人類語(yǔ)音的是聲音,由人講話所發(fā)出的聲音,對(duì)語(yǔ)音中音的分類和研究稱為語(yǔ)音學(xué)。1、言語(yǔ)的過(guò)程和作用想說(shuō)階段————大腦中樞活動(dòng)說(shuō)出階段————發(fā)音器官的活動(dòng)傳送階段————傳送信息的物理過(guò)程起作用接收階段————聽(tīng)覺(jué)系統(tǒng)活動(dòng)理解階段————大腦中樞活動(dòng)12、一些根本概念①音素〔phoneme〕:語(yǔ)音的最小單位,由音素構(gòu)成音節(jié)。②音節(jié)〔Syllable〕:說(shuō)話時(shí)一次發(fā)出的,具有一個(gè)響亮的中心,并被明顯感覺(jué)的語(yǔ)音片斷。音素和音節(jié)2輔音和元音
音素分為兩類:輔音〔Consonant〕和元音〔Vowel〕元音:聲帶振動(dòng)產(chǎn)生一個(gè)準(zhǔn)周期的空氣脈沖,如i、u、ü、a、o、e等。輔音:呼出的氣流,由于通路中某一局部封閉起來(lái)或受阻,氣流不通暢所產(chǎn)生的聲音,如b、p、m、f、d、t、n、l等。3輔音和元音的區(qū)別有四點(diǎn):1、輔音發(fā)音時(shí),氣流在通過(guò)咽頭、口腔的過(guò)程中,要受到某部位的阻礙;元音發(fā)音時(shí),氣流在咽頭、口腔不受阻礙。這是元音和輔音最主要的區(qū)別。2、輔音發(fā)音時(shí),發(fā)音器官成阻的部位特別緊張;元音發(fā)音時(shí)發(fā)音器官各部位保持均衡的緊張狀態(tài)。3、輔音發(fā)音時(shí),氣流較強(qiáng);元音發(fā)音時(shí),氣流較弱。4、輔音發(fā)音時(shí),聲帶不一定振動(dòng),聲音一般不響亮;元音發(fā)音時(shí),聲帶振動(dòng),聲音比輔音響亮。4半元音:聲道根本通暢,但某處比較狹窄,引起輕微摩擦。[W]、[Y]元音構(gòu)成音節(jié)的主干,輔音只出現(xiàn)在音節(jié)前端或前后兩端。元音的共振峰特性:聲道被看成具有均勻截面積的聲管,發(fā)音時(shí)起共鳴器的作用。元音鼓勵(lì)進(jìn)入聲道時(shí)引起共振特性,產(chǎn)生一組共振頻率,即共振峰。5清音和濁音清音:聲帶不振動(dòng)濁音:聲帶振動(dòng)而發(fā)音元音都是濁音、輔音有清音也有濁音。63、漢語(yǔ)的聲調(diào):濁音的聲帶振動(dòng)基頻稱為基音頻率。無(wú)論在說(shuō)一個(gè)單音節(jié)或說(shuō)一段連續(xù)語(yǔ)音時(shí),各個(gè)音節(jié)中韻母段的都是隨時(shí)間變化的,基音頻率的不同軌跡稱為聲調(diào)。幾乎平均于橫軸、平均值高從較低一直上升到較高頻率先降后升從較高頻率降到較低頻率74、語(yǔ)音信號(hào)的時(shí)域波形開(kāi)始/ai//k/時(shí)變特性有些段落周期性,有些段落具有噪聲特性,短時(shí)平穩(wěn)性8Doyoulikeit?VsDidyoulikeit?Waveform9§2.2語(yǔ)音產(chǎn)生的過(guò)程及聲學(xué)特征語(yǔ)音產(chǎn)生的過(guò)程喉以上的局部稱為聲道,隨著發(fā)出聲音的不同其形狀是變化的;而喉的局部稱為聲門(mén)。10聲帶〔VocalCords〕10~14mm在喉部的從喉結(jié)到杓狀軟骨之間的韌帶褶。聲門(mén)〔Glottis〕兩個(gè)聲帶之間形成一個(gè)開(kāi)閉自如的聲門(mén),聲帶合攏因而受聲門(mén)下氣流的沖擊而張開(kāi);但由于聲帶韌性迅速地閉合,隨后又張開(kāi)而閉合,聲帶開(kāi)啟和閉合使氣流形成一系列脈沖。聲門(mén)每開(kāi)啟和閉合一次的時(shí)間即振動(dòng)周期稱為音調(diào)周期或基音周期,其倒數(shù)稱為基音頻率,也簡(jiǎn)稱為基頻?;舻姆秶s為70~350Hz左右。11聲道〔vocaltract〕17cm由咽腔、口腔和鼻腔三個(gè)空氣腔體組成。聲道是一個(gè)分布參數(shù)系統(tǒng),它有許多自然諧振頻率〔在這些頻率上其傳遞函數(shù)具有極大值〕,所以聲道是一諧振腔,它放大某一頻率而衰減其他頻率分量。諧振頻率由每一瞬間的聲道外形決定。如果聲道的截面是均勻的,諧振頻率將發(fā)生在12聽(tīng)覺(jué)系統(tǒng):
聲波經(jīng)過(guò)外耳的放大后,經(jīng)過(guò)鼓膜和聽(tīng)小骨將聲波轉(zhuǎn)化為機(jī)械振動(dòng),傳入內(nèi)耳?!?.3語(yǔ)音感知
由外耳、中耳、內(nèi)耳組成人耳的作用:1、聲音放大;2、聲音傳導(dǎo);3、聲源定位13正常人的聽(tīng)域與聽(tīng)閾:聽(tīng)覺(jué)感知特性:正常人的聽(tīng)覺(jué)系統(tǒng)是極為靈敏的,人耳所能感覺(jué)的最低聲壓接近空氣中分子熱運(yùn)動(dòng)所產(chǎn)生的聲壓。正常人可聽(tīng)聲音的頻率范圍為0.016-16kHz,年輕人可聽(tīng)到20kHz的聲音,而老年人可聽(tīng)到的高頻聲音要減少到10kHz左右。正常人可聽(tīng)聲音的強(qiáng)度范圍為0-120dBSPL(聲壓級(jí)),這里的基準(zhǔn)聲壓(0dBSPL)是或。14純音聽(tīng)閾是與頻率有關(guān)的量,在1000Hz時(shí)約為4dB左右,而在40Hz時(shí)上升為50dB左右,在15kHz時(shí)上升為24dB左右。
感覺(jué)閾代表可容忍的最高聲壓。在聲壓級(jí)高到一定程度時(shí),耳朵會(huì)出現(xiàn)不適感覺(jué),或者具有癢、壓迫及痛感。對(duì)正常人而言一般取120dB為不適閡,140dB為痛闡,且認(rèn)為它與頻率無(wú)關(guān)。15響度〔Londness〕---方〔phon〕是一種主觀心理量,主觀感覺(jué)到的聲音強(qiáng)弱的一種衡量標(biāo)準(zhǔn),它與頻率有關(guān)。一樣的音強(qiáng),不一樣的頻率,那么響度也會(huì)有所不同。0dB聲強(qiáng)級(jí)的1000Hz純音的響度級(jí)為0phon;ndB聲強(qiáng)級(jí)的1000Hz純音的響度級(jí)為nphon;16聽(tīng)覺(jué)掩蔽效應(yīng)掩蔽效應(yīng):一種聲音的聽(tīng)覺(jué)感受受到同時(shí)聽(tīng)到的另一種聲音的影響。分:同時(shí)掩蔽和短時(shí)掩蔽
17同時(shí)掩蔽:同時(shí)存在的一個(gè)弱信號(hào)和一個(gè)強(qiáng)信號(hào)頻率接近時(shí),強(qiáng)信號(hào)會(huì)提高弱信號(hào)的聽(tīng)閾,當(dāng)弱信號(hào)的聽(tīng)閾升高到一定程度會(huì)導(dǎo)致弱信號(hào)不可聞。短時(shí)掩蔽:當(dāng)A聲和B聲不同時(shí)出現(xiàn)時(shí)。后向掩蔽:掩蔽聲B消失后,其作用仍持續(xù)一段時(shí)間:0.5~2s前向掩蔽:被掩蔽音A出現(xiàn)后,相隔0.005~0.2s之內(nèi)出現(xiàn)掩蔽音B,也會(huì)對(duì)A起作用。18§2.4語(yǔ)音信號(hào)的數(shù)學(xué)模型準(zhǔn)那么:要尋求一種可以表達(dá)一定物理狀態(tài)下的數(shù)學(xué)關(guān)系,要使這種關(guān)系不僅具有最大的精確度,而且還要最簡(jiǎn)單。期望:模型既是線性的又是時(shí)不變的,這是最理想的模型。語(yǔ)音信號(hào)特征:一連串的時(shí)變過(guò)程;聲門(mén)和聲道相互耦合,還形成語(yǔ)音信號(hào)的非線性特性。合理假設(shè):在較短的時(shí)間間隔內(nèi)表示語(yǔ)音信號(hào)時(shí),采用線性時(shí)不變模型。19發(fā)音器官的機(jī)理模型:20語(yǔ)音信號(hào)的產(chǎn)生模型21(1)發(fā)濁音時(shí)。此時(shí)氣流通過(guò)繃緊的聲帶,沖激聲帶產(chǎn)生振動(dòng),使聲門(mén)處形成準(zhǔn)周期性的脈沖串,并用它去鼓勵(lì)聲道。聲帶繃緊的程度不同,振動(dòng)頻率也不同。該頻率就是音調(diào)頻率,其倒數(shù)為音調(diào)周期。(2)發(fā)清音時(shí)。此時(shí)聲帶松弛而不振動(dòng),氣流通過(guò)聲門(mén)直接進(jìn)入聲道。表示為均值為0、方差為1,并在時(shí)間或在幅度上為白色分布的序列。
1、鼓勵(lì)模型22羅森貝格〔Rosenberg〕在研究中發(fā)現(xiàn),如果在發(fā)濁音時(shí)聲門(mén)脈沖取如下圖的形狀,可以獲得比較好的合成語(yǔ)音效果。發(fā)濁音時(shí)的聲門(mén)脈沖23把聲道視作截面積變化的管子,研究聲音沿管道是怎樣傳播的。2、聲道模型〔一〕聲管模型24管道內(nèi)聲波的運(yùn)動(dòng)方程:
其中,為在點(diǎn)時(shí)刻的聲壓
為在點(diǎn)時(shí)刻的體積速度
為空氣密度
為聲速
為管道截面積25每個(gè)管子可看作為一個(gè)四端網(wǎng)絡(luò),這個(gè)網(wǎng)絡(luò)具有反射系數(shù),聲道可由一組截面積或一組反射系數(shù)來(lái)表示。
通常用A表示聲管的截面積。由于語(yǔ)音的短時(shí)平穩(wěn)性,假設(shè)在短時(shí)間內(nèi),各段管子的截面積且是常數(shù)。設(shè)第m段和第m+1段的聲管的截面積分別為Am、Am+1,設(shè)稱為“面積和差比〞,其取值范圍為-1<km<1。它實(shí)際上是線性預(yù)測(cè)的反射系數(shù)。26共振峰與舌位關(guān)系舌位上下決定了F1共振頻率。舌位越高,F(xiàn)1的頻率越低,反那么反之。舌位前后決定了F2共振頻率舌位越后,F(xiàn)2的頻率越低,反那么反之?!捕彻舱穹迥P吐暤辣灰暈橹C振腔,共振峰是腔體的諧振頻率271〕級(jí)聯(lián)共振峰模型〔適合于一般元音〕分解:282〕并聯(lián)型〔非一般元音和大多數(shù)輔音〕293、混合型〔結(jié)合級(jí)聯(lián)型和并聯(lián)型〕:幅度控制因子AB專為一些頻譜特性比較平坦的音素,如[f],[p],[b]所考慮的。30
聲道的終端為口和唇。從聲道輸出的是速度波,而語(yǔ)音信號(hào)是聲壓波,二者之倒比稱為輻射阻抗ZL。它表征口和唇的輻射效應(yīng),也包括圓形的頭部的繞射效應(yīng)等。
口唇的輻射效應(yīng)可表示為:,它是一階后向差分。輻射模型R(z)是一階類高通濾波器的形式。3、輻射模型31完整的語(yǔ)音信號(hào)數(shù)字模型可以用三個(gè)子模型:鼓勵(lì)模型、聲道模型和輻射模型的串聯(lián)來(lái)表示。其轉(zhuǎn)移函數(shù)為:H(z)=U(z)V(z)R(z)這里,U(z)是鼓勵(lì)信號(hào)——聲門(mén)脈沖即斜三角波的形式;V(z)是聲道傳遞函數(shù),既可以用聲管模型,也可以用共振峰模型來(lái)描述。在共振峰模型中,又可采用級(jí)聯(lián)型、并聯(lián)型或混合型等幾種形式;R(z)為輻射模型。4、完整的模型
32
聲門(mén)脈沖
聲道語(yǔ)音信號(hào)
激勵(lì)信號(hào)聲道濾波器語(yǔ)音信號(hào)頻譜傳遞函數(shù)頻譜韻母的產(chǎn)生過(guò)程332.5語(yǔ)音的質(zhì)量評(píng)估一類是音節(jié)以下(如音素、聲母、韻母)的語(yǔ)音單元的測(cè)試,這常稱為“清晰度〞測(cè)試;清晰度測(cè)試可以元音、輔音為根底或以聲母、韻母為根底,再根據(jù)音節(jié)成分算出音節(jié)清晰度。一類是音節(jié)以上(如詞、句)的語(yǔ)音單元的測(cè)試,常稱為“可懂度〞測(cè)試。語(yǔ)音質(zhì)量測(cè)試可分為兩類:
342.6語(yǔ)音信號(hào)的時(shí)頻特性分析漢語(yǔ)拼音“SouKe〞的時(shí)域波形采樣率8kHz3536372.7語(yǔ)音信號(hào)的語(yǔ)譜圖語(yǔ)譜儀:將語(yǔ)音信號(hào)(經(jīng)話筒變成了電信號(hào))送進(jìn)一排頻率依次相接的窄帶濾波器,各窄帶濾波器的輸出記錄在一卷按一定速度旋轉(zhuǎn)的記錄紙上(各濾波器的由低到高按頻率排列),信號(hào)強(qiáng)那么記錄得濃黑一些,反之那么淺談一些。由此得到的即是語(yǔ)音信號(hào)的語(yǔ)譜圖,此圖的水平方向是時(shí)間軸,垂直方向是頻率軸,固上或深或淺的黑色條紋表征各個(gè)時(shí)刻的短時(shí)譜。38
自然語(yǔ)音a波形圖
自然語(yǔ)音a語(yǔ)譜圖
自然語(yǔ)音o波形圖
自然語(yǔ)音o語(yǔ)譜圖39語(yǔ)音信號(hào)具有時(shí)變特性,而在一個(gè)短時(shí)間范圍內(nèi)其特性根本保持不變即相對(duì)穩(wěn)定,因而可以將其看作是一個(gè)準(zhǔn)穩(wěn)態(tài)過(guò)程。語(yǔ)音的重要特性是它具有“短時(shí)性〞,所以對(duì)語(yǔ)音的分析和處理必須建立在“短時(shí)〞的根底上,即進(jìn)行“短時(shí)分析〞,§2.8語(yǔ)音信號(hào)的數(shù)字化與預(yù)處理語(yǔ)音信號(hào)處理系統(tǒng)框圖40數(shù)字化:放大、增益控制、反混疊濾波、采樣、A/D變換及編碼預(yù)處理:預(yù)加重、加窗、分幀、端點(diǎn)檢測(cè)①表示語(yǔ)音信號(hào)比較直觀、物理意義明確。②實(shí)現(xiàn)起來(lái)比較簡(jiǎn)單、運(yùn)算量少。③可以得到語(yǔ)音的一些重要參數(shù)。④采用示波器等通用設(shè)備,使用較為簡(jiǎn)單。時(shí)域分析的特點(diǎn):411、預(yù)濾波、采樣、A/D變換目的:1、抑制輸入信號(hào)各頻域分量中頻率超出fs/2的所有分量,以防止混疊干擾;2、抑制50Hz工頻干擾。實(shí)現(xiàn):帶通濾波器,上下邊帶截止頻率分別為、42采樣根據(jù)取樣定理,當(dāng)取樣頻率大于信號(hào)的兩倍帶寬時(shí),取樣過(guò)程中不會(huì)喪失信息,且從取樣信號(hào)中可以精確地重構(gòu)原始信號(hào)波形。在信號(hào)的帶寬不明確時(shí),在取樣前應(yīng)接入反混疊濾波器,使其帶寬限制在某個(gè)范圍內(nèi)。語(yǔ)音信號(hào)頻率范圍:300~3400Hz采樣率:8kHz~10kHz43量化:將輸入的整個(gè)幅值分成有限區(qū)間,把落入同一區(qū)間的波形樣本都量化成同一幅度值。44量化后的信號(hào)值與原信號(hào)之間的差值稱為量化誤差,又稱為量化噪聲。假設(shè)信號(hào)波形的變化足夠大或量化間隔足夠小時(shí),可以證明量化噪聲符合具有以下特性的統(tǒng)計(jì)模型:①它是一個(gè)平穩(wěn)的白噪聲過(guò)程;②量化噪聲和輸入信號(hào)不相關(guān);③量化噪聲在量化間隔內(nèi)均勻分布,即具有等概率密度分布。452、預(yù)處理預(yù)加重:原因:語(yǔ)音信號(hào)的平均功率譜受聲門(mén)鼓勵(lì)和口鼻輻射的影響,高頻端大約在800Hz以上按6dB/倍頻程跌落。目的:提升高頻局部,使信號(hào)的頻譜變得平坦,以便于進(jìn)行頻譜分析或聲道參數(shù)分析。位置:可在反混疊濾波之前進(jìn)行,這樣不僅能夠進(jìn)行預(yù)加重,而且可以壓縮信號(hào)的動(dòng)態(tài)范圍,有效地提高信噪比。也可在A/D變換之后進(jìn)行,用具有6dB/倍頻程的提升高頻特性的預(yù)加重?cái)?shù)字濾波器實(shí)現(xiàn),它一般是一階的。式中值接近于1。
46加窗分幀:語(yǔ)音信號(hào)是一種典型的非平穩(wěn)信號(hào),其特性是隨時(shí)間而變化的,但是語(yǔ)音的形成過(guò)程是與發(fā)音器官的運(yùn)動(dòng)密切相關(guān)的,這種物理運(yùn)動(dòng)比起聲音振動(dòng)速度來(lái)說(shuō)要緩慢得多,因此語(yǔ)音信號(hào)常??杉俣槎虝r(shí)平穩(wěn)的,即在10~30ms的時(shí)間段內(nèi),其頻譜特性和物理特征參量可近似地看作是不變的,這樣,就可以采用平穩(wěn)過(guò)程的分析處理方法來(lái)處理了。由這個(gè)假定導(dǎo)出了各種“短時(shí)〞處理方法,以后討論的各種語(yǔ)音信號(hào)都是分隔為一些短段(幀)再加以處理。這些短段就好似是來(lái)自一個(gè)具有固定特性的持續(xù)語(yǔ)音片段一樣。47將語(yǔ)音分成短段的根本手段是對(duì)語(yǔ)音加窗,即用一個(gè)有限長(zhǎng)度的窗序列截取一段語(yǔ)音信號(hào)來(lái)進(jìn)行分析。該窗函數(shù)可以按時(shí)間方向滑動(dòng),以便分析任一時(shí)刻附近的信號(hào)。加窗運(yùn)算定義為:48幀長(zhǎng)和幀移的例如49矩形窗:漢明窗:漢寧窗:50端點(diǎn)檢測(cè):端點(diǎn)檢測(cè)是指從包含語(yǔ)音的一段信號(hào)中確定出語(yǔ)音的開(kāi)始和終止點(diǎn)。有效的端點(diǎn)檢測(cè)不僅能使處理時(shí)間減到最小,而且能去除無(wú)聲段的噪聲干擾,從而使識(shí)別系統(tǒng)具有良好的識(shí)別性能。一個(gè)較好的端點(diǎn)檢測(cè)算法應(yīng)該能夠滿足:門(mén)限值可以對(duì)背景噪聲的變化有一定的適應(yīng);能夠?qū)⒍虝r(shí)沖激噪聲和超過(guò)門(mén)限值的信號(hào)納入無(wú)聲段而不是有聲段;對(duì)于爆破音的寂靜段,應(yīng)將其納入語(yǔ)音的范圍而不是無(wú)聲段;應(yīng)該盡量防止在檢測(cè)中喪失鼻韻和弱摩擦音等與噪聲特性相似、短時(shí)參數(shù)較少的語(yǔ)音;應(yīng)該防止使用過(guò)零率作為判決標(biāo)準(zhǔn),以免帶來(lái)負(fù)面影響。51傳統(tǒng)的端點(diǎn)檢測(cè)算法1.基于能量的端點(diǎn)檢測(cè)語(yǔ)音和噪音的主要區(qū)別在它們的能量上,語(yǔ)音段的能量比噪音段的大,語(yǔ)音段的能量是噪音段能量疊加語(yǔ)音聲波能量的和。傳統(tǒng)端點(diǎn)檢測(cè)算法認(rèn)為,如果環(huán)境噪聲和系統(tǒng)環(huán)境噪聲比較小,能夠保證系統(tǒng)的信噪比較高,那么只要計(jì)算輸入信號(hào)的短時(shí)能量或短時(shí)平均幅度就能把語(yǔ)音段和噪聲背景區(qū)分開(kāi)。實(shí)際中信噪比較低。522.雙門(mén)限前端檢測(cè)法利用短時(shí)過(guò)零率來(lái)檢測(cè)清音,用短時(shí)能量來(lái)檢測(cè)濁音。雙門(mén)限法是考慮到語(yǔ)音開(kāi)始以后總會(huì)出現(xiàn)能量較大的濁音,設(shè)一個(gè)較高的門(mén)限用以確定語(yǔ)音已開(kāi)始,再取一比稍低的門(mén)限,用以確定真正的起止點(diǎn)及結(jié)束點(diǎn)。判斷清音與無(wú)話的差異,是采用另一個(gè)較低的門(mén)限,求越過(guò)該門(mén)限的“過(guò)零率〞。只要取得適宜,通常背景噪聲的低門(mén)限過(guò)零率將明顯低于語(yǔ)音的低門(mén)限過(guò)零率值。這種方法普遍地用于有話、無(wú)話鑒別或詞語(yǔ)前端檢測(cè)。533.基于噪聲動(dòng)態(tài)檢測(cè)的語(yǔ)音端點(diǎn)檢測(cè)算法54仿真實(shí)驗(yàn)及結(jié)果分析圖1“制約〞在零噪聲時(shí)的檢測(cè)結(jié)果圖2“1〞在參加少量噪聲時(shí)的檢測(cè)結(jié)果圖3“1〞在噪聲加大時(shí)的檢測(cè)結(jié)果圖4“1〞在噪聲進(jìn)一步加大時(shí)的檢測(cè)結(jié)果554.基于小波變換的語(yǔ)音端點(diǎn)檢測(cè)算法依據(jù):小波系數(shù)可以反映語(yǔ)音信號(hào)在各個(gè)子帶內(nèi)沿時(shí)間軸的能量分布,通過(guò)處理又可以捕捉到語(yǔ)音段的邊界,因此可以利用小波變換來(lái)對(duì)語(yǔ)音信號(hào)進(jìn)行端點(diǎn)檢測(cè),以到達(dá)區(qū)分語(yǔ)音段和非語(yǔ)音段的目的。56步驟:1)先將語(yǔ)音信號(hào)分成由1024個(gè)采樣點(diǎn)組成的幀;2)對(duì)每幀進(jìn)行10層小波分解;3)計(jì)算所選兩個(gè)子帶(子帶4和子帶5)的小波系數(shù);4)計(jì)算兩個(gè)子帶的互相關(guān)系數(shù);5)通過(guò)幀間平滑連接所有互相關(guān)系數(shù)成為一個(gè)和原信號(hào)長(zhǎng)度相同的序列;6)計(jì)算序列前220個(gè)點(diǎn)(20ms)的最大值,把此最大值作為閾值;7)比較序列中各個(gè)點(diǎn)的值。假設(shè)小于閾值,那么記為靜音;假設(shè)大于閾值,那么記為語(yǔ)音;8)按照上述過(guò)程對(duì)語(yǔ)音信號(hào)進(jìn)行標(biāo)記,再濾掉個(gè)別誤判點(diǎn),完成語(yǔ)音信號(hào)的端點(diǎn)檢測(cè)。575.基于循環(huán)神經(jīng)網(wǎng)絡(luò)的語(yǔ)音端點(diǎn)檢測(cè)算法
原理:選用一個(gè)三層的RNN,且隱層的輸出全部反響到輸入層。輸入的采樣語(yǔ)音信號(hào)被分成三種模式:濁音〔U〕、清音〔V〕、和背景噪聲〔N〕。選用的RNN神經(jīng)網(wǎng)絡(luò)輸出層有三個(gè)節(jié)點(diǎn),對(duì)應(yīng)輸出的三種模式。58循環(huán)神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu)593〕仿真實(shí)驗(yàn)與結(jié)果分析針對(duì)白噪聲和汽車(chē)噪聲環(huán)境對(duì)數(shù)字0~9的語(yǔ)音數(shù)據(jù)進(jìn)行實(shí)驗(yàn),用來(lái)做測(cè)試的語(yǔ)音文件每組50個(gè),包括男生和女生發(fā)音,含有汽車(chē)噪聲的語(yǔ)音信號(hào)平均信噪比10dB和5dB,分別模擬汽車(chē)中速和高速行駛環(huán)境下的錄音。60實(shí)驗(yàn)室背景下基于能量和過(guò)零率的端點(diǎn)檢測(cè)結(jié)果61信噪比15dB時(shí)基于能量和過(guò)零率的檢測(cè)結(jié)果62信噪比15dB時(shí)基于小波變換的端點(diǎn)檢測(cè)結(jié)果63信噪比5dB時(shí)基于小波變換的端點(diǎn)檢測(cè)結(jié)果64信噪比5dB時(shí)基于循環(huán)神經(jīng)網(wǎng)絡(luò)小波變換的端點(diǎn)檢測(cè)結(jié)果
65方法測(cè)度白噪聲/dB汽車(chē)噪聲/dB0515510Energy0.620.750.800.720.780.530.610.780.590.690.590.720.780.680.75Wavelet0.850.900.990.870.900.700.820.980.770.800.810.880.990.840.87RNN0.900.951.000.910.920.750.880.980.820.850.860.920.990.880.92噪聲情況下各種語(yǔ)音端點(diǎn)檢測(cè)方法比較66
基于能量和過(guò)零率的端點(diǎn)檢測(cè)方法在實(shí)驗(yàn)室環(huán)境下可以獲得較好的端點(diǎn)檢測(cè)結(jié)果,隨著信噪比的降低該方法檢測(cè)的準(zhǔn)確率將隨之下降,基于小波變換和基于循環(huán)神經(jīng)網(wǎng)絡(luò)的端點(diǎn)檢測(cè)方法對(duì)于噪聲具有一定的魯棒性,但是隨著噪聲的明顯增大,小波變換的方法得到的檢測(cè)結(jié)果仍然有所下降,與之相比基于循環(huán)神經(jīng)網(wǎng)絡(luò)的方法的魯棒性要優(yōu)于基于小波變換的方法,具有很大的優(yōu)越性和實(shí)用性。
結(jié)果分析:672.8短時(shí)能量和平均幅度分析原理:語(yǔ)音信號(hào)能量隨時(shí)間有相當(dāng)大的變化,特別是清音段的能量一般比濁音段的小得多。
定義:1、短時(shí)能量分析68決定短時(shí)能量特性有兩個(gè)條件:不同的窗口的形狀和長(zhǎng)度。
矩形窗:第一個(gè)零點(diǎn):窗口形狀:窗長(zhǎng)對(duì)分辨率的影響窗長(zhǎng)越長(zhǎng),頻率分辨率越高,而時(shí)間分辨率越低69海明窗:第一個(gè)零點(diǎn):矩形窗譜平滑性能好,但損失高頻成分,波形細(xì)節(jié)喪失,海明窗與之相反。70N=51的直角窗和海明窗的對(duì)數(shù)幅頻特性。海明窗的第一個(gè)零值頻率位置比直角窗要大1倍左右,同時(shí)其帶外衰減也比直角窗大得多。71這里窗長(zhǎng)的選擇對(duì)于反映語(yǔ)音信號(hào)的幅度變化起著決定的作用。如果很大,它等效于很窄的低通濾波器,此時(shí)隨時(shí)間的變化很小,不能反映語(yǔ)音信號(hào)的幅度變化,信號(hào)的變化細(xì)節(jié)就看不出來(lái);反之,窗長(zhǎng)太小時(shí),濾波器的通帶變寬,隨時(shí)間有急劇的變化,不能得到平滑的能量函數(shù)。窗口的長(zhǎng)度:標(biāo)準(zhǔn):一幀內(nèi)含有1~7個(gè)基音周期,10kHz取樣下,N取100~200點(diǎn)。722、短時(shí)平均幅度分析定義:框圖:優(yōu)點(diǎn):1、對(duì)高電平信號(hào)不如En敏感;2、計(jì)算方法簡(jiǎn)單。缺點(diǎn):濁音和清音的區(qū)分不如En明顯。73短時(shí)平均能量和短時(shí)平均幅度的主要用途:
可以區(qū)分清音段與濁音段:En值大的對(duì)應(yīng)于濁音段,而En值小的對(duì)應(yīng)于清音段。En值的變化,可大致判定濁音變?yōu)榍逡艋蚯逡糇優(yōu)闈嵋舻臅r(shí)刻??梢杂脕?lái)區(qū)分聲母與韻母的分界,無(wú)聲與有聲的分界,連字(指字之間無(wú)間隙)的分界等。作為一種超音段信息,用于語(yǔ)音識(shí)別中。
742.9短時(shí)過(guò)零分析定義:過(guò)零就是信號(hào)通過(guò)零值。連續(xù)語(yǔ)音信號(hào),考察其時(shí)域波形通過(guò)時(shí)間軸的情況;離散時(shí)間信號(hào),相鄰的取樣值改變符號(hào)那么稱為過(guò)零。語(yǔ)音信號(hào)序列是寬帶信號(hào),那么不能簡(jiǎn)單用上面的公式。75語(yǔ)音信號(hào)短時(shí)過(guò)零分析定義:其中:框圖:76短時(shí)過(guò)零分析的意義:可以區(qū)分清音與濁音:濁音時(shí)具有較低的平均過(guò)零數(shù),而清音時(shí)具有較高的平均過(guò)零數(shù)。利用它可以從背景噪聲中找出語(yǔ)音信號(hào),可用于判斷寂靜無(wú)語(yǔ)音和有語(yǔ)音的起點(diǎn)和終點(diǎn)位置。
在背景噪聲較小時(shí)用平均能量識(shí)別較為有效,而在背景噪聲較大時(shí)用平均過(guò)零數(shù)識(shí)別較為有效。
772.10語(yǔ)音信號(hào)的倒譜分析求語(yǔ)音倒譜特征參數(shù),通過(guò)同態(tài)處理來(lái)實(shí)現(xiàn)。倒譜分析:運(yùn)用對(duì)數(shù)運(yùn)算和二次FFT/IFFT變換,將基音諧波和聲道的頻譜包絡(luò)別離出來(lái),用低時(shí)窗從語(yǔ)音信號(hào)倒譜中截取出低倒譜域局部,可以更精確的反映聲道的響應(yīng),得到共振峰。2、對(duì)原語(yǔ)音信號(hào)分析出一組預(yù)測(cè)系數(shù),得到語(yǔ)音產(chǎn)生模型的頻率響應(yīng)。同態(tài)處理〔同態(tài)濾波〕:解卷,將卷積關(guān)系變?yōu)榍蠛吞幚?。將語(yǔ)音信號(hào)的聲門(mén)鼓勵(lì)和聲道響應(yīng)別離開(kāi)。78同態(tài)信號(hào)處理的根本原理信號(hào)分類:加性信號(hào)、乘積性信號(hào)、卷積性信號(hào)等。同態(tài)信號(hào)處理目的:將非線性問(wèn)題轉(zhuǎn)化為線性問(wèn)題來(lái)處理。同態(tài)信號(hào)處理分類:乘積同態(tài)處理和卷積同態(tài)處理兩種。79特征系統(tǒng)
D*反特征系統(tǒng)
D*-1:它是特征系統(tǒng)的反運(yùn)算卷積同態(tài)系統(tǒng):80特征系統(tǒng)D*81反特征系統(tǒng)D*-1:82復(fù)倒譜和倒譜是一個(gè)時(shí)域序列,我們稱是x(n)的“復(fù)倒頻譜”,簡(jiǎn)稱為“復(fù)倒譜”,有時(shí)也稱作對(duì)數(shù)復(fù)倒譜。所處的離散時(shí)域,稱之為“復(fù)倒譜域”。這樣,特征系統(tǒng)D*[]將離散時(shí)域中的卷積運(yùn)算轉(zhuǎn)換為復(fù)倒譜域中的加性運(yùn)算。進(jìn)行同態(tài)信號(hào)處理后,即可完成解卷的任務(wù)。若時(shí)域中有,則復(fù)倒譜域中。假設(shè)位于復(fù)倒譜域中不同的間隔內(nèi)并且互不交替,那么適當(dāng)?shù)卦O(shè)計(jì)線性系統(tǒng),便可將x1(n)或x2(n)分離出來(lái)。83特征系統(tǒng)D*反特征系統(tǒng)D*-1c(n)是序列x(n)對(duì)數(shù)幅度譜的傅里葉逆變換,c(n)稱為“倒頻譜〞或簡(jiǎn)稱為“倒譜〞,有時(shí)也稱“對(duì)數(shù)倒頻譜〞。84復(fù)倒譜和倒譜的特點(diǎn)和關(guān)系:1.復(fù)倒譜要進(jìn)行復(fù)對(duì)數(shù)運(yùn)算,倒譜只進(jìn)行實(shí)對(duì)數(shù)運(yùn)算。2.倒譜情況下,一個(gè)序列經(jīng)過(guò)正反兩個(gè)特征系統(tǒng)以后不能復(fù)原成自身,因
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 二零二五年機(jī)房建設(shè)與運(yùn)維一體化施工合同書(shū)3篇
- 2025版事業(yè)單位聘用合同書(shū)(二零二五年度)服務(wù)期限與待遇約定3篇
- 2025年度藝術(shù)品代購(gòu)代銷(xiāo)服務(wù)協(xié)議范本4篇
- 2025年項(xiàng)目部安全責(zé)任合同書(shū)編制指南3篇
- 2025年度個(gè)人購(gòu)房裝修配套服務(wù)合同
- 2025年高新技術(shù)企業(yè)員工薪酬保障與晉升協(xié)議書(shū)3篇
- 2025年食材配送與智慧物流解決方案合作協(xié)議3篇
- 2025年度二手房買(mǎi)賣(mài)合同綠色裝修與改造服務(wù)合同4篇
- 2025年度美容院美容師市場(chǎng)調(diào)研與分析服務(wù)合同4篇
- 提前終止房地產(chǎn)買(mǎi)賣(mài)合同(2025版)2篇
- 《阻燃材料與技術(shù)》-顏龍 習(xí)題解答
- 2024-2030年中國(guó)食品飲料灌裝設(shè)備行業(yè)市場(chǎng)發(fā)展趨勢(shì)與前景展望戰(zhàn)略分析報(bào)告
- 建筑結(jié)構(gòu)課程設(shè)計(jì)成果
- 纖維增強(qiáng)復(fù)合材料 單向增強(qiáng)材料Ⅰ型-Ⅱ 型混合層間斷裂韌性的測(cè)定 編制說(shuō)明
- 習(xí)近平法治思想概論教學(xué)課件緒論
- 寵物會(huì)展策劃設(shè)計(jì)方案
- 孤殘兒童護(hù)理員(四級(jí))試題
- 醫(yī)院急診醫(yī)學(xué)小講課課件:急診呼吸衰竭的處理
- 腸梗阻導(dǎo)管在臨床中的使用及護(hù)理課件
- 小學(xué)英語(yǔ)單詞匯總大全打印
- 衛(wèi)生健康系統(tǒng)安全生產(chǎn)隱患全面排查
評(píng)論
0/150
提交評(píng)論