【基于CNN網(wǎng)絡(luò)的語(yǔ)音增強(qiáng)模型探究(論文)14000字】_第1頁(yè)
【基于CNN網(wǎng)絡(luò)的語(yǔ)音增強(qiáng)模型探究(論文)14000字】_第2頁(yè)
【基于CNN網(wǎng)絡(luò)的語(yǔ)音增強(qiáng)模型探究(論文)14000字】_第3頁(yè)
【基于CNN網(wǎng)絡(luò)的語(yǔ)音增強(qiáng)模型探究(論文)14000字】_第4頁(yè)
【基于CNN網(wǎng)絡(luò)的語(yǔ)音增強(qiáng)模型探究(論文)14000字】_第5頁(yè)
已閱讀5頁(yè),還剩26頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

基于CNN網(wǎng)絡(luò)的語(yǔ)音增強(qiáng)模型研究摘要語(yǔ)音增強(qiáng)在許多領(lǐng)域都有著十分重要的作用和意義。到目前為止也有了許多研究成果被相繼提出并取得不錯(cuò)的表現(xiàn)。單聲道語(yǔ)音增強(qiáng)方法有傳統(tǒng)無(wú)監(jiān)督增強(qiáng)算法和有監(jiān)督增強(qiáng)算法。其中,經(jīng)典的傳統(tǒng)算法有譜減法、維納濾波法、基于LMS自適應(yīng)濾波器法等。本文通過(guò)仿真實(shí)驗(yàn)表明這幾種傳統(tǒng)算法增強(qiáng)后仍殘留了較多噪聲,尤其是開(kāi)頭和結(jié)尾比較明顯,雖然維納濾波法表現(xiàn)較為優(yōu)異,但他們都無(wú)法有效抑制非平穩(wěn)噪聲。且他們都存在對(duì)信號(hào)和噪聲的不合理假設(shè),因此限制了性能上限。而針對(duì)傳統(tǒng)無(wú)監(jiān)督算法的這些問(wèn)題,人們又提出了基于DNN的語(yǔ)音增強(qiáng)算法,其中CNN網(wǎng)絡(luò)是其中的代表網(wǎng)絡(luò)之一。關(guān)鍵詞:語(yǔ)音增強(qiáng);傳統(tǒng)無(wú)監(jiān)督語(yǔ)音增強(qiáng)算法;卷積神經(jīng)網(wǎng)絡(luò)目錄緒論1.1研究背景1.2研究意義1.3研究現(xiàn)狀1.4本文研究?jī)?nèi)容語(yǔ)音增強(qiáng)基礎(chǔ)2.1語(yǔ)音增強(qiáng)定義2.2語(yǔ)音增強(qiáng)分類(lèi)2.3原始語(yǔ)音特性2.4帶噪語(yǔ)音信號(hào)2.5語(yǔ)音增強(qiáng)預(yù)處理技術(shù)2.6信噪比單聲道語(yǔ)音增強(qiáng)方法3.1傳統(tǒng)單聲道語(yǔ)音增強(qiáng)算法3.1.1譜減法3.1.2維納濾波法3.3.3自適應(yīng)濾波器法3.2有監(jiān)督訓(xùn)練的語(yǔ)音增強(qiáng)算法第四章基于深度學(xué)習(xí)的語(yǔ)音增強(qiáng)4.1深度神經(jīng)網(wǎng)絡(luò)模型4.2卷積神經(jīng)網(wǎng)絡(luò)4.2.1卷積層 4.2.2池化層4.2.3全連接層4.2.4經(jīng)典卷積網(wǎng)絡(luò)第五章總結(jié)和展望5.1全文總結(jié)5.2未來(lái)展望第一章緒論1.1研究背景人類(lèi)在社會(huì)生存中必然少不了信息交流,在所有交流方式中,語(yǔ)音是最常用,也是最方便的的交流方式。從原始的面地面交流到隨著科技的發(fā)展,人們?nèi)缃耦l繁的使用通信設(shè)備進(jìn)行遠(yuǎn)程交流。但無(wú)論是何種方式,都只有一個(gè)共同目標(biāo),那就是清晰準(zhǔn)確得得到對(duì)方想要傳達(dá)的信息。然而現(xiàn)實(shí)生活中,我們生活在一個(gè)充滿各種各樣的噪聲、十分復(fù)雜的聲學(xué)環(huán)境當(dāng)中,傳達(dá)的語(yǔ)音無(wú)時(shí)無(wú)刻不受到周?chē)h(huán)境噪聲的干擾。當(dāng)面對(duì)面交流時(shí),對(duì)話者處于同樣的聲學(xué)環(huán)境當(dāng)中,我們的人耳系統(tǒng)經(jīng)過(guò)長(zhǎng)年累月的適應(yīng)和學(xué)習(xí),已經(jīng)能夠很好的抑制噪聲,準(zhǔn)確識(shí)別并持續(xù)追蹤我們想要獲取的信息,能夠做到交流無(wú)障礙、信息傳達(dá)準(zhǔn)確率極高。然而當(dāng)人們使用通信設(shè)備進(jìn)行遠(yuǎn)距離通信時(shí),語(yǔ)音接受者和發(fā)送者處于不同的復(fù)雜聲學(xué)環(huán)境當(dāng)中,無(wú)法準(zhǔn)確得知噪聲類(lèi)型,再加上機(jī)器是死物,無(wú)法像人耳一樣主動(dòng)學(xué)習(xí)且經(jīng)過(guò)長(zhǎng)時(shí)間的聲音訓(xùn)練,也就無(wú)法做到準(zhǔn)確識(shí)別噪聲并進(jìn)行噪聲抑制,因此遠(yuǎn)處的接受者接收到的語(yǔ)音往往會(huì)不清晰且伴隨著許多噪聲干擾,對(duì)準(zhǔn)確識(shí)別對(duì)方想要傳達(dá)的信息造成一定程度干擾和阻礙。當(dāng)前時(shí)代科技飛速發(fā)展、日新月異,遠(yuǎn)程交流方式已然成為一種常態(tài),人與計(jì)算機(jī)之間的交流更是越來(lái)越頻繁,平均人手幾臺(tái)智能設(shè)備。拋去文字短信交流方式不說(shuō),語(yǔ)音交流由于其方便快捷的特性正逐漸成為人們的心頭好,大有在未來(lái)成為主流方式的趨勢(shì)。近幾年,人工智能的飛速發(fā)展,各種智能設(shè)備鋪天蓋地涌入人們?nèi)粘I?,給人們生活帶來(lái)巨大的驚喜和改變。如智能車(chē)載設(shè)備、智能家居產(chǎn)品、自助服務(wù)機(jī)器人等等,改變了人們傳統(tǒng)生活方式,不僅十分方便更是解放人們雙手提高了做事效率。智能車(chē)載設(shè)備能夠讓駕駛員在專(zhuān)注開(kāi)車(chē)的同時(shí)語(yǔ)音控制開(kāi)關(guān)導(dǎo)航、車(chē)窗、音樂(lè)等功能,由于不用分散注意力因此十分方便的同時(shí)最重要的是安全;智能家居產(chǎn)品讓生活充滿科技感,讓工作勞累了一天的房主解放手腳,得到充分休息,只需幾句話可自主完成各種家務(wù)。這些智能設(shè)備給我們帶來(lái)方便的同時(shí),也對(duì)技術(shù)有著極高的要求。由于人機(jī)交流時(shí)所處聲學(xué)環(huán)境的復(fù)雜性,計(jì)算機(jī)如何準(zhǔn)確識(shí)別發(fā)送者的指令便成了關(guān)鍵技術(shù)難題。計(jì)算機(jī)能否通過(guò)學(xué)習(xí)以后和人耳一樣自主分辨抑制噪聲呢?自從深度學(xué)習(xí)算法被利用發(fā)現(xiàn)效果不錯(cuò)后,這個(gè)答案是可以的。但目前的技術(shù)還有待提高和改進(jìn),并不能使機(jī)器達(dá)到人耳那種層次,雖然已經(jīng)能夠大概率準(zhǔn)確識(shí)別,仍舊有概率識(shí)別不清或者識(shí)別錯(cuò)誤,再加上語(yǔ)言種類(lèi)繁多且地方性語(yǔ)言龐雜,甚至發(fā)送指令者說(shuō)話吐字不清等等問(wèn)題,因此人們?cè)谝恍┲匾獔?chǎng)合如分配工作任務(wù)為了避免發(fā)送指令歧義,一般選擇文字傳送,不僅準(zhǔn)確而且一目了然。這便是語(yǔ)音增強(qiáng)技術(shù)仍然需要繼續(xù)改進(jìn)的動(dòng)力。1.2研究意義語(yǔ)音增強(qiáng)技術(shù)是語(yǔ)音識(shí)別領(lǐng)域的重要分支,在通信領(lǐng)域都有著十分重要的意義。對(duì)普通用戶而言,我們?nèi)粘J褂玫碾娫?、手機(jī)以及其他智能設(shè)備,在使用時(shí)都無(wú)法避免面臨著噪聲干擾的問(wèn)題,此時(shí)就需要語(yǔ)音增強(qiáng)技術(shù)使得設(shè)備能夠有效抑制噪聲,提高說(shuō)話者的語(yǔ)音清晰度和可懂度,使得通信對(duì)方準(zhǔn)確得到語(yǔ)音信息,提升通信體驗(yàn)或者使計(jì)算機(jī)準(zhǔn)確識(shí)別指令,避免重復(fù)發(fā)送指令提升效率。對(duì)公安機(jī)關(guān)而言,維護(hù)社會(huì)安定破案?jìng)刹榈耐瑫r(shí)通常會(huì)使用到監(jiān)聽(tīng)設(shè)備,往往目標(biāo)語(yǔ)音比較弱小,信噪比低,非常容易被周?chē)肼曆谏w,此時(shí)就越是需要進(jìn)行語(yǔ)音增強(qiáng),保證對(duì)方發(fā)出的每一點(diǎn)聲音不被遺漏,每個(gè)字甚至語(yǔ)氣都至關(guān)重要,保證準(zhǔn)確把握對(duì)方意圖,這對(duì)語(yǔ)音增強(qiáng)技術(shù)有著極高的要求。而在軍事領(lǐng)域中,由于作戰(zhàn)環(huán)境十分惡劣復(fù)雜,噪聲巨大甚至遠(yuǎn)遠(yuǎn)蓋過(guò)人聲,但是軍事命令的準(zhǔn)確傳達(dá)十分關(guān)鍵,每個(gè)字的失誤都有可能造成巨大的損失和傷亡,這就需要極高的語(yǔ)音增強(qiáng)技術(shù)能夠有效抑制周?chē)h(huán)境噪聲并增強(qiáng)人聲,提高語(yǔ)音可懂度,確保每條指令都能被準(zhǔn)確傳達(dá)。除了以上一些情景,語(yǔ)音增強(qiáng)技術(shù)還有許多應(yīng)用場(chǎng)景,如醫(yī)療領(lǐng)域等。因此,語(yǔ)音增強(qiáng)技術(shù)無(wú)論是對(duì)普通人而言還是對(duì)國(guó)家安全而言都十分重要,掌握領(lǐng)先頂級(jí)語(yǔ)音增強(qiáng)技術(shù),不僅可以獲得更好的體驗(yàn)感,更能帶給人民安全感。語(yǔ)音增強(qiáng)技術(shù)在改變?nèi)藗兩罘绞降耐瑫r(shí),正逐漸帶領(lǐng)人類(lèi)文明邁向新的臺(tái)階。1.3語(yǔ)音增強(qiáng)研究現(xiàn)狀傳統(tǒng)單聲道語(yǔ)音增強(qiáng)的研究離不開(kāi)伴隨著語(yǔ)音信號(hào)處理技術(shù)的發(fā)展,距今已經(jīng)有了幾十年的研究歷史,算是語(yǔ)音增強(qiáng)算法的元老了。傳統(tǒng)單聲道語(yǔ)音增強(qiáng)算法大體可分為時(shí)域和頻域,時(shí)域的方法主要有參數(shù)和濾波法、子空間法等,由于難以估計(jì)激勵(lì)參數(shù)和結(jié)果的失真度較大,人們使用較多的還是頻域方法。從最早1979年boll提出的譜減法,其原理是基于加性噪聲和噪聲語(yǔ)音相互獨(dú)立性等假設(shè),在噪聲信號(hào)平穩(wěn)或緩慢變化前提下,再非語(yǔ)音幀的地方迭代更新噪聲方差,對(duì)噪聲方差進(jìn)行估計(jì),即只要將原始帶噪語(yǔ)音頻譜減去噪聲譜就能得到干凈語(yǔ)音。譜減法原理雖然簡(jiǎn)單,但是對(duì)噪聲估計(jì)要求很高,估計(jì)過(guò)高將會(huì)造成語(yǔ)音失真,估計(jì)過(guò)低將會(huì)殘留較多噪聲,因此譜減法會(huì)有音樂(lè)噪聲現(xiàn)象。同年提出的維納濾波法雖然沒(méi)有產(chǎn)生音樂(lè)噪聲,但是會(huì)有白噪聲產(chǎn)生。維納濾波算法的本質(zhì)就是從噪聲中提取信號(hào)的過(guò)濾和預(yù)測(cè)的方法,但由于它是基于平穩(wěn)噪聲條件下的最小均方差估計(jì)且有很多約束條件,因此對(duì)非平穩(wěn)噪聲的抑制效果較差。隨后,最小均方誤差幅度譜估計(jì)方法被提出,但由于干凈語(yǔ)音與噪聲之間是非線性關(guān)系,因此有改良出基于對(duì)數(shù)域的最小均方誤差估計(jì)法,從概率角度分析對(duì)噪聲進(jìn)行最大程度上抑制,其在低信噪比時(shí)優(yōu)于譜減法但在高信噪比時(shí)語(yǔ)音失真度較大。同樣經(jīng)典的傳統(tǒng)語(yǔ)音增強(qiáng)算法還有基于LMS自適應(yīng)濾波器法,它具有自動(dòng)調(diào)節(jié)自身參數(shù)的能力,結(jié)構(gòu)簡(jiǎn)單且易于實(shí)現(xiàn)。與此同時(shí)提出的還有基于最小統(tǒng)計(jì)量的噪聲估計(jì)方法,包括目前使用最普遍、語(yǔ)音增強(qiáng)效果最好的最小控制的迭代平均噪聲估計(jì)法,其對(duì)非平穩(wěn)噪聲能夠較快跟蹤,誤差估計(jì)較小,因此相比前面提到的語(yǔ)音增強(qiáng)方法而言顯著減少殘余噪聲。以上傳統(tǒng)語(yǔ)音增強(qiáng)算法,也就是無(wú)監(jiān)督語(yǔ)音增強(qiáng)算法,對(duì)非平穩(wěn)噪聲的抑制效果還是較差,因此又有了基于監(jiān)督訓(xùn)練的語(yǔ)音增強(qiáng)算法。有監(jiān)督語(yǔ)音增強(qiáng)算法不用基于如干凈語(yǔ)音與噪聲相對(duì)獨(dú)立性假設(shè)、語(yǔ)音噪聲服從高斯假設(shè)等許多不合理的假設(shè),因此降噪能力大大提高。從1989年Tamara提出的人工神經(jīng)網(wǎng)絡(luò)開(kāi)始,在時(shí)域?qū)W習(xí)帶噪語(yǔ)音和干凈語(yǔ)音的非線性關(guān)系,隨后被優(yōu)化為在頻域里學(xué)習(xí)帶噪語(yǔ)音和干凈語(yǔ)音之間的關(guān)系,但困于訓(xùn)練數(shù)據(jù)量不足和不合適的初始化方案,直到深度神經(jīng)網(wǎng)絡(luò)被提出,使得基于神經(jīng)網(wǎng)絡(luò)的語(yǔ)音增強(qiáng)方法被人們廣泛關(guān)注。DNN語(yǔ)音增強(qiáng)方法對(duì)非平穩(wěn)噪聲有很好的抑制作用,但過(guò)程復(fù)雜且參數(shù)量巨大,隨后RNN、CNN、GAN網(wǎng)絡(luò)相繼被提出應(yīng)用。1.4本論文主要研究?jī)?nèi)容本文主要研究語(yǔ)音增強(qiáng)算法中的單聲道語(yǔ)音增強(qiáng),對(duì)傳統(tǒng)單聲道語(yǔ)音增強(qiáng)算法進(jìn)行深入探討,深入了解傳統(tǒng)單聲道語(yǔ)音增強(qiáng)算法中幾種常見(jiàn)方法并進(jìn)行復(fù)現(xiàn),對(duì)它們的噪聲抑制能力進(jìn)行客觀比較和評(píng)判。之后會(huì)簡(jiǎn)單涉及基于有監(jiān)督訓(xùn)練的語(yǔ)音增強(qiáng)算法,尤其是基于深度學(xué)習(xí)的單身高語(yǔ)音增強(qiáng)算法,介紹其網(wǎng)絡(luò)模型框架,最后講兩類(lèi)語(yǔ)音增強(qiáng)算法進(jìn)行比較,總結(jié)出適合它們各自的適用情形。第一章首現(xiàn)介紹了本文的研究背景和研究意義,粗略講述了單聲道語(yǔ)音增強(qiáng)的發(fā)展歷程以及發(fā)展現(xiàn)狀,引出文章主要內(nèi)容。第二章簡(jiǎn)要介紹了語(yǔ)音增強(qiáng)算法中的基本概念以及語(yǔ)音和噪聲特性和語(yǔ)音增強(qiáng)模型。第三章是本文重點(diǎn)內(nèi)容,詳細(xì)介紹了傳統(tǒng)語(yǔ)音增強(qiáng)算法中基礎(chǔ)的幾種算法,包括算法框架和具體實(shí)現(xiàn)過(guò)程,以及各個(gè)算法的結(jié)果頻譜圖,給并根據(jù)語(yǔ)音前后頻譜圖對(duì)噪聲抑制效果進(jìn)行分析比對(duì),隨后引出有監(jiān)督訓(xùn)練的單聲道語(yǔ)音增強(qiáng)算法。第四章講解了基于深度學(xué)習(xí)的語(yǔ)音增強(qiáng)算法基本框架,并詳細(xì)介紹了其中一種神經(jīng)網(wǎng)絡(luò)-卷積什么網(wǎng)絡(luò),并對(duì)深度神經(jīng)網(wǎng)絡(luò)提出構(gòu)想。第五章對(duì)全文進(jìn)行總結(jié)概括并對(duì)當(dāng)前算法存在的各種問(wèn)題進(jìn)行羅列,擺出未來(lái)我們主要攻克的技術(shù)問(wèn)題,設(shè)定目標(biāo)。第二章語(yǔ)音增強(qiáng)基礎(chǔ)2.1語(yǔ)音增強(qiáng)的定義語(yǔ)音增強(qiáng)也可以說(shuō)成是語(yǔ)音降噪。語(yǔ)音增強(qiáng)是指在復(fù)雜的聲學(xué)環(huán)境當(dāng)中,純凈語(yǔ)音信號(hào)總會(huì)被被各種噪聲干擾、甚至淹沒(méi),人們就利用語(yǔ)音信號(hào)處理技術(shù)以達(dá)到抑制噪聲或者過(guò)濾噪聲的效果,從噪聲背景中提取出盡可能干凈的語(yǔ)音信號(hào)。目標(biāo)是提升語(yǔ)音信號(hào)的質(zhì)量和可懂度。通俗的說(shuō),語(yǔ)音增強(qiáng)就是從被噪聲污染了的帶噪語(yǔ)音當(dāng)中提取出我們想要的干凈語(yǔ)音信號(hào)的技術(shù)。語(yǔ)音增強(qiáng)技術(shù)的實(shí)施對(duì)象是計(jì)算機(jī),使計(jì)算機(jī)進(jìn)行一系列的操作使其能夠有效過(guò)濾各種噪聲,提高語(yǔ)音質(zhì)量,最終目的是使對(duì)面使用計(jì)算機(jī)的人能夠準(zhǔn)確識(shí)別接收目標(biāo)語(yǔ)音、提升遠(yuǎn)距離通話時(shí)人耳的聽(tīng)覺(jué)體驗(yàn)。2.2語(yǔ)音增強(qiáng)分類(lèi)按照語(yǔ)音通道數(shù)劃分,語(yǔ)音增強(qiáng)可分為單聲道語(yǔ)音增強(qiáng)和多聲道語(yǔ)音增強(qiáng)。單聲道語(yǔ)音增強(qiáng)只包括時(shí)域和頻域的信息,因此對(duì)設(shè)備要求更低,設(shè)備更加簡(jiǎn)單但語(yǔ)音處理的難度卻提高;多聲道語(yǔ)音增強(qiáng)又叫麥克風(fēng)陣列語(yǔ)音增強(qiáng),除了利用時(shí)域和頻域信息之外還可以利用空間信息,但對(duì)聲源空間位置要求較高。比如人耳實(shí)際上是一個(gè)雙麥克風(fēng)結(jié)構(gòu),能夠根據(jù)聲源到達(dá)兩只耳朵的時(shí)間差和聲音強(qiáng)度差來(lái)判斷聲源的位置信息,用來(lái)輔助聲源進(jìn)行分離,但當(dāng)不同聲源處于同一位置時(shí),人耳依舊能夠區(qū)分不同聲源,因此時(shí)域和頻域的信息在語(yǔ)音增強(qiáng)中占據(jù)主要作用,而空間信息起到輔助作用,本文主要研究單聲道語(yǔ)音增強(qiáng)。按照語(yǔ)音增強(qiáng)算法劃分,主要可分為傳統(tǒng)無(wú)監(jiān)督的語(yǔ)音增強(qiáng)和有監(jiān)督訓(xùn)練的語(yǔ)音增強(qiáng)算法。二者最大的區(qū)別就是前期是否經(jīng)過(guò)了學(xué)習(xí)訓(xùn)練。傳統(tǒng)無(wú)監(jiān)督語(yǔ)音增強(qiáng)算法不需要經(jīng)過(guò)離線訓(xùn)練,因此計(jì)算量較少,但是存在許多不合理的假設(shè)如干凈語(yǔ)音與噪聲之間的獨(dú)立性假設(shè)、干凈語(yǔ)音和噪聲服從高斯分布的假設(shè)等,這些不合理的假設(shè)限制了傳統(tǒng)算法的性能上限,對(duì)于非平穩(wěn)噪聲和低信噪比情況無(wú)法有效改善語(yǔ)音。針對(duì)傳統(tǒng)無(wú)監(jiān)督算法的性能缺陷,人們進(jìn)而提出了有監(jiān)督訓(xùn)練的語(yǔ)音增強(qiáng)算法,也就是現(xiàn)在使用最頻繁的深度學(xué)習(xí)(DNN)算法,模仿人的能力,讓計(jì)算機(jī)提前學(xué)習(xí)記住提供的語(yǔ)音與噪聲的模式,以便以后接受一段帶噪語(yǔ)音時(shí)能有所參考,找出最有可能的干凈語(yǔ)音與噪聲模式,便于進(jìn)行語(yǔ)音分離以及噪聲抑制,大大提升了語(yǔ)音增強(qiáng)的性能。2.3原始語(yǔ)音信號(hào)語(yǔ)音是一個(gè)隨時(shí)間變化的|、非平穩(wěn)隨機(jī)過(guò)程,是一種復(fù)雜的人類(lèi)運(yùn)動(dòng)能力,不能用處理平穩(wěn)與信號(hào)的方式處理語(yǔ)音信號(hào),但在極短的時(shí)間內(nèi)語(yǔ)音可看作相對(duì)平穩(wěn)的過(guò)程,因此在語(yǔ)音增強(qiáng)中常常將語(yǔ)音看作短時(shí)平穩(wěn)信號(hào),一般在進(jìn)行語(yǔ)音增強(qiáng)算法之前會(huì)對(duì)語(yǔ)音進(jìn)行分幀操作。此外語(yǔ)音可分為清音、濁音和爆破音三類(lèi)。濁音過(guò)零率較低,有一定周期性,能量集中在低頻段;清音過(guò)零率較高,能量分布各個(gè)頻率都有;而爆破音過(guò)零率在濁音和清音之間,無(wú)周期性,能量主要集中在低頻段,且頻率越低能量越高。最后,語(yǔ)音信號(hào)可用統(tǒng)計(jì)特性進(jìn)行分析描述,例如振幅大小概率密度、均值、自相關(guān)函數(shù)等。語(yǔ)音時(shí)域圖:圖2.1語(yǔ)音信號(hào)時(shí)域示意圖語(yǔ)音頻域圖:圖2.2語(yǔ)音信號(hào)頻域示意圖人們?yōu)榱搜芯空Z(yǔ)音信號(hào)對(duì)其進(jìn)行處理,通常需要對(duì)其進(jìn)行建模,以一種最接近語(yǔ)音信號(hào)的模型表示,但由于語(yǔ)音的復(fù)雜性,不可能找到一種模型能夠百分百擬合語(yǔ)音信號(hào),因此,在針對(duì)不同情況的語(yǔ)音信號(hào)時(shí),人們通常選擇不同的數(shù)學(xué)模型來(lái)表示,以最大可能地接近目標(biāo)語(yǔ)音的情況。語(yǔ)音信號(hào)的數(shù)字模型有激勵(lì)模型、輻射模型以及聲道模型。激勵(lì)模型一般情況下簡(jiǎn)單分為濁音和清音情況,但不僅限于表示這兩種,而且,由于濁音和清音的發(fā)聲方式不同,它們的激勵(lì)模型也是不一樣的,濁音可模擬成一個(gè)斜三角脈沖波,而清音則可以被模擬成隨機(jī)白噪聲;聲道模型又可理解為聲管模型或者共振峰模型,前者比較簡(jiǎn)單,即語(yǔ)音在短時(shí)間內(nèi)可表示成一段穩(wěn)定的管道,后者根據(jù)人耳聽(tīng)覺(jué)纖毛細(xì)胞的排列規(guī)律表示,可以表示元音或者輔音,效果不錯(cuò);而輻射型則是將語(yǔ)音看作聲波。為了準(zhǔn)確表示語(yǔ)音數(shù)字特征,通常會(huì)將三種數(shù)字模型進(jìn)行串聯(lián)共同表示。要研究語(yǔ)音特性,往往離不開(kāi)人耳系統(tǒng)的特性。研究語(yǔ)音信號(hào)處理的目的是模擬人耳系統(tǒng)對(duì)語(yǔ)音的感受特性,二者密不可分。人耳的感受頻率范圍為20-20000Hz,但對(duì)太強(qiáng)或者太弱的聲音頻率的分辨率會(huì)降低,人耳感受語(yǔ)音主要從四個(gè)方面:音色、音高、響度以及時(shí)間。盡管人們了解人耳對(duì)聲音的處理過(guò)程,但仍然難以做到能夠完全與人耳系統(tǒng)匹配的語(yǔ)音處理系統(tǒng)。2.4帶噪語(yǔ)音信號(hào)噪聲來(lái)源多種多樣,噪聲特性變化無(wú)窮,只要是對(duì)目標(biāo)語(yǔ)音產(chǎn)生了干擾的聲音特征都屬于噪聲,也就是語(yǔ)音信號(hào)特征中的多余特征。按照干擾方式,噪聲可分為加性噪聲和乘性噪聲,加性噪聲是指當(dāng)噪聲對(duì)語(yǔ)音的干擾表現(xiàn)為兩者信號(hào)在時(shí)域進(jìn)行相加,而顯然實(shí)際環(huán)境中背景噪聲也可以看成加性噪聲,如風(fēng)扇空調(diào)聲、汽車(chē)?guó)Q笛聲、周?chē)苏f(shuō)話聲、打字聲、走路聲等等。加性噪聲是對(duì)噪聲干擾方式的一種比較貼切的表述。乘性噪聲是指噪聲和語(yǔ)音在頻域是相乘的關(guān)系,在時(shí)域和語(yǔ)音則是卷積關(guān)系,因此也稱(chēng)為卷積噪聲。在實(shí)際應(yīng)用中乘性噪聲主要體現(xiàn)在語(yǔ)音采集、麥克風(fēng)傳輸中電話信道和無(wú)線信道的頻率選擇特性,可以通過(guò)某種變換如同態(tài)濾波,轉(zhuǎn)變?yōu)榧有栽肼?。按照噪聲隨時(shí)間的變換關(guān)系,則可分為周期性噪聲和脈沖性噪聲。實(shí)際生活環(huán)境當(dāng)中,周期性噪聲比較少見(jiàn),如市電干擾,而脈沖性噪聲則比較常見(jiàn),機(jī)會(huì)隨處可見(jiàn)。噪聲還可以被分為平穩(wěn)噪聲和非平穩(wěn)噪聲。在語(yǔ)音增強(qiáng)系統(tǒng)中,最常用的加性噪聲為高斯白噪聲,尤其是低信噪比聲學(xué)環(huán)境當(dāng)中,加性噪聲對(duì)語(yǔ)音影響起到主要作用。如下所示:其中,表示t時(shí)刻帶噪語(yǔ)音時(shí)域信號(hào),表示t時(shí)刻干凈語(yǔ)音的時(shí)域信號(hào),表示噪聲t時(shí)刻的時(shí)域信號(hào)。加性帶噪語(yǔ)音模型如下:圖2.3加性帶噪語(yǔ)音結(jié)構(gòu)圖在接下來(lái)的內(nèi)容中,我們主要討論加性噪聲這種情況。在本文仿真實(shí)驗(yàn)中,帶噪語(yǔ)音的產(chǎn)生主要有以下幾種方式:一是系統(tǒng)通過(guò)randn函數(shù)隨機(jī)生成白噪聲,然后與干凈語(yǔ)音信號(hào)相加得到帶噪語(yǔ)音;二是直接利用函數(shù)Gnoisegen在干凈語(yǔ)音基礎(chǔ)上加上制定信噪比的噪聲生成帶噪語(yǔ)音;三是先隨機(jī)生成白噪聲后接著將噪聲通過(guò)濾波器,然后再以固定信噪比加到純凈語(yǔ)音上構(gòu)成帶早語(yǔ)音信號(hào)。以上三種方式依次分別對(duì)應(yīng)下章的三個(gè)仿真實(shí)驗(yàn)。2.5語(yǔ)音增強(qiáng)預(yù)處理技術(shù)由于語(yǔ)音信號(hào)是隨時(shí)間變化的非平穩(wěn)信號(hào),但在短時(shí)間內(nèi)可保持相對(duì)平穩(wěn),因此語(yǔ)音處理過(guò)程通常需要對(duì)語(yǔ)音進(jìn)行預(yù)處理,進(jìn)行短時(shí)分析。在語(yǔ)音處理前對(duì)信號(hào)進(jìn)行濾波、數(shù)字化,預(yù)加重、分幀、加窗等操作。下圖是一般語(yǔ)音預(yù)處理框圖:2.4語(yǔ)音預(yù)處理一般流程框圖為了防止工頻干擾,通常需要對(duì)原始語(yǔ)音信號(hào)進(jìn)行預(yù)濾波,工頻干擾是指50Hz的電源或市電頻率干擾,對(duì)原始信號(hào)進(jìn)行采樣時(shí)若不滿足采樣定理則會(huì)造成信號(hào)混疊,防混疊濾波器實(shí)際上是一個(gè)低通濾波器。采樣是將連續(xù)的模擬信號(hào)轉(zhuǎn)變?yōu)殡x散數(shù)字信號(hào)的過(guò)程,為保證信息的完整性和準(zhǔn)確性,采樣過(guò)程必須滿足采樣定理,如此才能完整恢復(fù)原始信號(hào)。采樣完成后的信號(hào)還需經(jīng)過(guò)量化過(guò)程才能變成時(shí)間、幅值都離散的信號(hào),將同一區(qū)間的值都用量化值取代,以便于后續(xù)語(yǔ)音處理,量化區(qū)間越小,量化所造成的誤差也就越小。為了提升高頻部分,增加語(yǔ)音分辨率,使得語(yǔ)音信號(hào)更加平滑,一般對(duì)信號(hào)通過(guò)傳遞函數(shù)的高通濾波器進(jìn)行預(yù)加重處理。在恢復(fù)信號(hào)時(shí)相應(yīng)對(duì)估計(jì)值進(jìn)行去加重。語(yǔ)音預(yù)處理過(guò)程中最關(guān)鍵的步驟就是進(jìn)行加窗分幀。幀長(zhǎng)通常取10-30ms,幀移范圍一般在0-0.5。常用的加窗方式有兩種:一種是保持語(yǔ)音信號(hào)固定,滑動(dòng)窗進(jìn)行加權(quán)操作;另一種是固定窗,移動(dòng)語(yǔ)音信號(hào)進(jìn)行運(yùn)算實(shí)現(xiàn)加窗。常用窗函數(shù)有矩形窗和漢明窗,而在本文的研究中使用的都是漢明窗,其窗函數(shù)如下所示:2.6信噪比評(píng)判語(yǔ)音增強(qiáng)的標(biāo)準(zhǔn)有很多,在本文中,主要用到信噪比來(lái)衡量噪聲和干凈語(yǔ)音之間的關(guān)系,信噪比越高說(shuō)明干凈語(yǔ)音能力越高,聽(tīng)起來(lái)就越清晰,語(yǔ)音增強(qiáng)的效果也就越好。信噪比定義式如下:或者表示為:其中,表示干凈語(yǔ)音信號(hào)的能量;是噪聲能量;是帶噪語(yǔ)音。第三章單聲道語(yǔ)音增強(qiáng)3.1傳統(tǒng)無(wú)監(jiān)督語(yǔ)音增強(qiáng)算法在傳統(tǒng)語(yǔ)音增強(qiáng)算法中,頻域里的語(yǔ)音增強(qiáng)最為普遍和常用,下圖給出了頻域傳統(tǒng)單聲道語(yǔ)音增強(qiáng)的經(jīng)典算法的一般流程框圖:3.1傳統(tǒng)單聲道語(yǔ)音增強(qiáng)經(jīng)典流程圖首先將時(shí)域里的帶噪語(yǔ)音信號(hào)通過(guò)傅里葉變換轉(zhuǎn)換為頻域信號(hào),然后計(jì)算其功率譜,下一步根據(jù)語(yǔ)音監(jiān)測(cè)幀估計(jì)噪聲方差,在非語(yǔ)音幀的時(shí)候更新噪聲方差,最核心的環(huán)節(jié)就是求解增益函數(shù),在求解增益函數(shù)之前一般會(huì)用到先驗(yàn)信噪比或者后驗(yàn)信噪比,只要求出了增益函數(shù),將其與帶噪語(yǔ)音頻域信號(hào)相乘即可得到干凈信號(hào)的頻譜,最后進(jìn)行反向傅立葉變換即可得到時(shí)域里的干凈語(yǔ)音信號(hào),也就是我們所需要的結(jié)果。3.1.1譜減法經(jīng)典譜減法的主要思想是在噪聲和干凈語(yǔ)音相互獨(dú)立前提下,只要將帶噪語(yǔ)音減去估計(jì)出的噪聲能量即可得到干凈語(yǔ)音信號(hào),其核心是進(jìn)行噪聲估計(jì),利用在非語(yǔ)音幀的地方迭代更新噪聲方差,計(jì)算過(guò)程簡(jiǎn)單、性能良好,因而得到廣泛應(yīng)用。3.1.1基礎(chǔ)譜減法原理框圖具體實(shí)現(xiàn)過(guò)程如下:假設(shè)干凈語(yǔ)音和噪聲之間相互獨(dú)立,帶噪語(yǔ)音信號(hào)即其中,干凈語(yǔ)音信號(hào)s(n),加性噪聲d(n)兩邊同時(shí)進(jìn)行傅里葉變換到頻域得到為了得到兩個(gè)關(guān)鍵量幅度和相位,將上式轉(zhuǎn)化為極坐標(biāo)的形式,如下:)可得到,為語(yǔ)音幅度譜,表示相位信息。同理,可以得到噪聲的極坐標(biāo)形式噪聲的幅度譜是無(wú)法直接得到的可用僅包含噪聲語(yǔ)音時(shí)的平均幅度表示,這個(gè)估計(jì)過(guò)程需要語(yǔ)音活動(dòng)檢測(cè)算法,所有語(yǔ)音信號(hào)可分為僅包含噪聲信號(hào)和包含噪聲和語(yǔ)音的信號(hào)兩類(lèi)。噪聲估計(jì)只需要在僅包含噪聲語(yǔ)音的時(shí)候迭代更新造神方差,噪聲的相位?d(ω)一般情況下可以用帶噪語(yǔ)音的相位?x(ω來(lái)代替。則增強(qiáng)后的干凈語(yǔ)音信號(hào)可由帶噪語(yǔ)音信號(hào)減去噪聲能力得到:最后將進(jìn)行反向傅里葉變換可得到增強(qiáng)后的時(shí)域干凈語(yǔ)音信號(hào)。重點(diǎn)是若是噪聲幅度估計(jì)不準(zhǔn)確則會(huì)直接影響語(yǔ)音增強(qiáng)效果,當(dāng)過(guò)估計(jì)噪聲的幅度譜,則會(huì)導(dǎo)致|X(ω)|-|D(ω)|為小于零,但是幅度譜應(yīng)該為非負(fù)值,此時(shí)可設(shè)置條件將負(fù)的幅度譜設(shè)置為零:可一定程度上改善語(yǔ)音增強(qiáng)效果,但當(dāng)噪聲欠估計(jì),則會(huì)導(dǎo)致增強(qiáng)后噪聲存留較多。上述是最基本的幅度譜減法的原理。實(shí)驗(yàn)配置:該仿真實(shí)驗(yàn)的數(shù)據(jù)來(lái)源于自建文件夾里面的一段干凈語(yǔ)音信號(hào),共一位人說(shuō)話,只有一句英文,噪聲由系統(tǒng)隨機(jī)生成的高斯白噪聲,帶噪語(yǔ)音由二者相加得到。通過(guò)人為調(diào)整噪聲系數(shù)以得到不同信噪比下帶噪語(yǔ)音增強(qiáng)研究進(jìn)行對(duì)比。噪聲系數(shù)取值分別為0.05、0.04、0.02和0.01。實(shí)驗(yàn)采用窗長(zhǎng)為256的漢明窗,幀間重疊50%取值,最后需除去漢明窗引起的增益。實(shí)驗(yàn)仿真結(jié)果如下:N=0.05時(shí)譜減前信噪比SNR1=-0.3864db譜減后SNR2=5.2068db3.1.2譜減法語(yǔ)音增強(qiáng)仿真結(jié)果圖(1)n=0.04時(shí)帶噪語(yǔ)音語(yǔ)音信噪比SNR1=1.8332db增強(qiáng)后信噪比SNR2=6.5320db3.1.3譜減法語(yǔ)音增強(qiáng)仿真結(jié)果圖(2)n=0.02時(shí)增強(qiáng)前SNR1=7.0305db增強(qiáng)后SNR2=11.1236db3.1.4譜減法語(yǔ)音增強(qiáng)仿真結(jié)果圖(3)n=0.01時(shí)增強(qiáng)前SNR1=12.5197db增強(qiáng)后SNR2=15,0896db3.1.5譜減法語(yǔ)音增強(qiáng)仿真結(jié)果圖(4)實(shí)驗(yàn)結(jié)論:從實(shí)驗(yàn)仿真結(jié)果對(duì)比可看出,噪聲系數(shù)越小即信噪比越大時(shí),譜減法進(jìn)行語(yǔ)音增強(qiáng)后整體得到的語(yǔ)音越接近原始干凈噪聲,也就越準(zhǔn)確。單就每個(gè)信噪比下的實(shí)驗(yàn)而言,語(yǔ)音幅度越大的位置增強(qiáng)效果越好,而語(yǔ)音幅度比較小的位置,在低信噪比下很容易造成語(yǔ)音失真。譜減法整體增強(qiáng)效果不錯(cuò),主要語(yǔ)音信息特征能夠很好還原,但仍舊存在很多噪點(diǎn)。其實(shí)現(xiàn)過(guò)程比較簡(jiǎn)單,計(jì)算量小,但在低信噪比時(shí)增強(qiáng)效果較差,不僅有較多噪聲殘留,且回有較多語(yǔ)音失真。3.1.2維納濾波法維納濾波法距今已有幾十年歷史,已經(jīng)不斷得到完善和改進(jìn)。其的本質(zhì)就是從噪聲中提取信號(hào)的過(guò)濾和預(yù)測(cè)的方法,并以估計(jì)的結(jié)果與信號(hào)真值之間的誤差的最小均方值作為最佳準(zhǔn)則,是統(tǒng)計(jì)意義上的最佳濾波器。維納濾波法分時(shí)域和頻域波兩種形式,時(shí)域維納濾波原理如下:3.2.1維納濾波時(shí)域原理圖假設(shè)輸入待噪語(yǔ)音信號(hào)y(x)和期望輸出干凈語(yǔ)音信號(hào)d(x)為高斯平穩(wěn)過(guò)程,則系統(tǒng)輸出誤差表示為:其中,為系統(tǒng)濾波器系數(shù),為輸入向量。再利用最小均方準(zhǔn)則求解最優(yōu)濾波器系數(shù):其中為輸入信號(hào)和期望信號(hào)互相關(guān);為輸入信號(hào)自相關(guān)矩陣;對(duì)W進(jìn)行求偏導(dǎo)并解出維納霍夫-方程得濾波器最優(yōu)系數(shù):頻域維納濾波法實(shí)現(xiàn)過(guò)程如下:濾波后系統(tǒng)輸出可寫(xiě)為:則誤差估計(jì)可寫(xiě)為那么均方誤差化簡(jiǎn)為其中,是輸入信號(hào)y(x)和期望信號(hào)d(x)的互功率譜;是輸入信號(hào)y(x)的功率譜。對(duì)誤差求偏導(dǎo)并令其為零可解得:頻域最佳濾波器系數(shù)顯然頻域維納濾波法的解可由時(shí)域維納濾波器解通過(guò)傅里葉變換得到。實(shí)驗(yàn)配置:實(shí)驗(yàn)數(shù)據(jù)來(lái)源于自建文件夾中的一段干凈語(yǔ)音信號(hào),共一位人聲,一句英文語(yǔ)音。再由函數(shù)Gnoisegen(x,snr)產(chǎn)生固定信噪比的帶噪語(yǔ)音信號(hào),分別取SNR=0、SNR=5和SNR=10的情況。幀長(zhǎng)為25ms,幀移比例取0.4即10ms,設(shè)置IS=0.15,加漢明窗,在非話幀更新噪聲譜值,最終對(duì)所有語(yǔ)音信號(hào)進(jìn)行幅值歸一化處理。實(shí)驗(yàn)結(jié)果如下:增強(qiáng)前snr1=0.0000增強(qiáng)后snr2=5.44073.2.2維納濾波仿真結(jié)果圖(1)增強(qiáng)前snr1=5.0000增強(qiáng)后snr2=8.74853.2.3維納濾波仿真結(jié)果圖(2)增強(qiáng)前snr1=10.0000增強(qiáng)后snr2=12.86523.2.4維納濾波仿真結(jié)果圖(3)實(shí)驗(yàn)結(jié)論:從仿真結(jié)果前后波形對(duì)比可得,維納濾波法進(jìn)行語(yǔ)音增強(qiáng)能很大程度上還原原始語(yǔ)音,但對(duì)細(xì)節(jié)處理不夠,增強(qiáng)后的語(yǔ)音顯得更加平滑,聽(tīng)起來(lái)更加舒適。從語(yǔ)音開(kāi)頭結(jié)尾處的對(duì)比發(fā)現(xiàn),信噪比越大時(shí),語(yǔ)音還原越準(zhǔn)確,低信噪比會(huì)使得較弱語(yǔ)音信號(hào)丟失,且開(kāi)始會(huì)有較明顯的噪聲殘留,對(duì)比增強(qiáng)前后語(yǔ)音信噪比,當(dāng)信噪比越高時(shí),維納濾波的提升效果會(huì)逐漸減小。3.3.3LMS自適應(yīng)濾波器法在語(yǔ)音降噪中,LMS自適應(yīng)濾波器基礎(chǔ)算法也有其一席之地,所謂自適應(yīng)濾波就是利用前一時(shí)刻已獲得的濾波器參數(shù)等結(jié)果自動(dòng)調(diào)節(jié)當(dāng)前時(shí)刻的濾波器參數(shù),以適應(yīng)信號(hào)和噪聲未知的或隨機(jī)變化的特性。因此,基于自適應(yīng)濾波器算法的語(yǔ)音降噪適用范圍廣泛且降噪效果較好?;镜腖MS濾波器系統(tǒng)結(jié)構(gòu)如下:3.3.1LMS自適應(yīng)濾波器原理圖如圖所示:輸出信號(hào)y(n)表達(dá)式其中,X(n)為輸入信號(hào);W(n)是權(quán)重;N是N階濾波器。則誤差為均方誤差為結(jié)合y(n)表達(dá)式可得其中,,為輸入信號(hào)采樣值之間的自相關(guān)矩陣;,是理想輸出信號(hào)與輸入信號(hào)的互相關(guān)。若要求均方誤差達(dá)到最小值時(shí)的最優(yōu)權(quán)重,則有即:計(jì)算可得最佳權(quán)重此時(shí)的最小均方誤差用最陡下降原則的迭代算法得其中,為收斂因子;是n次迭代的梯度。以上便是基本的LMS自適應(yīng)濾波器算法原理,其實(shí)現(xiàn)簡(jiǎn)單且性能穩(wěn)定。實(shí)驗(yàn)配置:實(shí)驗(yàn)數(shù)據(jù)干凈語(yǔ)音信號(hào)與前面維納濾波法中的語(yǔ)音數(shù)據(jù)相同,是相同的人聲和同樣的一句英文語(yǔ)音。噪聲是由系統(tǒng)隨機(jī)生成,先經(jīng)過(guò)濾波后利用add_noisedata函數(shù)按照指定信噪比合成帶噪語(yǔ)音信號(hào),取信噪比分為為0、5和10的情況,F(xiàn)IR濾波器由fir1函數(shù)產(chǎn)生,其中N=32,Wn=0.5,使用漢明窗加窗。實(shí)驗(yàn)結(jié)果如下:增強(qiáng)前snr1=-0.0000增強(qiáng)后snr2=13.2515snr=13.25153.3.2LMS自適應(yīng)濾波仿真結(jié)果圖(1)增強(qiáng)前snr1=5.0000增強(qiáng)后snr2=16.2345snr=11.23453.3.3LMS自適應(yīng)濾波仿真結(jié)果圖增強(qiáng)前snr1=10.0000增強(qiáng)后snr2=16.5162snr=6.51623.3.4LMS自適應(yīng)濾波仿真結(jié)果圖(3)實(shí)驗(yàn)結(jié)論:從仿真結(jié)果對(duì)比波形圖可以看出,基于LMS濾波器語(yǔ)音增強(qiáng)后語(yǔ)音最開(kāi)始會(huì)有殘留噪聲,原因是因?yàn)闉V波器有延遲,信噪比越低時(shí)前端噪聲殘留越多。其他地方總體降噪效果不錯(cuò),明顯噪聲能夠有效過(guò)濾,相比譜減法和維納濾波法,LMS濾波器法語(yǔ)音增強(qiáng)信噪比改善更加明顯。3.2有監(jiān)督訓(xùn)練的語(yǔ)音增強(qiáng)算法針對(duì)上述傳統(tǒng)單聲道語(yǔ)音增強(qiáng)算法中存在的問(wèn)題和缺陷,人們開(kāi)始思考并提出了有監(jiān)督學(xué)習(xí)的語(yǔ)音增強(qiáng)算法。在有監(jiān)督學(xué)習(xí)的語(yǔ)音增強(qiáng)算法中,有基于隱馬爾科夫模型語(yǔ)音增強(qiáng)、基于字典學(xué)習(xí)和稀疏表示類(lèi)語(yǔ)音增強(qiáng)、基于深度神經(jīng)網(wǎng)絡(luò)語(yǔ)音增強(qiáng)算法等。大體可分為兩類(lèi),一類(lèi)是主要利用干凈語(yǔ)音信號(hào)獲得碼本先驗(yàn)信息,再結(jié)合傳統(tǒng)語(yǔ)音增強(qiáng)算法實(shí)現(xiàn)語(yǔ)音增強(qiáng);另一類(lèi)是完全利用數(shù)據(jù)本身進(jìn)行學(xué)習(xí)干凈語(yǔ)音和噪聲之間的特征和參數(shù),然后對(duì)帶噪語(yǔ)音信號(hào)進(jìn)行匹配來(lái)實(shí)現(xiàn)語(yǔ)音增強(qiáng)。第一類(lèi)所需的訓(xùn)練數(shù)據(jù)量比較小、模型簡(jiǎn)單;第二類(lèi)一般情況下需要數(shù)據(jù)量越好,語(yǔ)音增強(qiáng)的效果越好,但超過(guò)某一臨界值則會(huì)導(dǎo)致過(guò)擬合現(xiàn)象。有監(jiān)督的語(yǔ)音增強(qiáng)算法又可分為兩個(gè)階段:訓(xùn)練階段和增強(qiáng)階段。訓(xùn)練階段首先通過(guò)學(xué)習(xí)干凈語(yǔ)音和噪聲數(shù)據(jù)得到各種的特性和參數(shù),然后利用反向錯(cuò)誤傳播算法進(jìn)行有監(jiān)督調(diào)優(yōu)(調(diào)整參數(shù))。增強(qiáng)階段先進(jìn)行特征提取,然后將其輸入到訓(xùn)練好的模型中進(jìn)行進(jìn)行解碼,實(shí)現(xiàn)語(yǔ)音增強(qiáng)。本文主要描述基于深度神經(jīng)網(wǎng)絡(luò)的語(yǔ)音增強(qiáng)算法。第四章基于深度學(xué)習(xí)的單聲道語(yǔ)音增強(qiáng)深度學(xué)習(xí)是語(yǔ)音增強(qiáng)的一種算法,是由最初的淺層人工神經(jīng)網(wǎng)絡(luò)發(fā)展而來(lái),淺層神經(jīng)網(wǎng)絡(luò)層數(shù)較少規(guī)模小、且訓(xùn)練數(shù)據(jù)量小,因此系統(tǒng)無(wú)法精確表示帶噪語(yǔ)音和干凈語(yǔ)音之間的非線性映射關(guān)系,泛化能力弱,再加上沒(méi)有很好的初始化方案,因此當(dāng)時(shí)表現(xiàn)并不出色。神經(jīng)網(wǎng)絡(luò)一般由輸入層、隱層、輸出層組成,深度神經(jīng)網(wǎng)絡(luò)是層數(shù)較多、網(wǎng)絡(luò)結(jié)構(gòu)較為復(fù)雜的人工神經(jīng)網(wǎng)絡(luò),一般其隱層數(shù)大于三層。使用深度學(xué)習(xí)解決語(yǔ)音增強(qiáng)問(wèn)題,即從數(shù)據(jù)中學(xué)習(xí)帶噪語(yǔ)音和干凈語(yǔ)音的非線性映射關(guān)系,由此得到干凈語(yǔ)音信號(hào)。深度神經(jīng)網(wǎng)絡(luò)框架示意圖如下:4.1深度神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)圖網(wǎng)絡(luò)中的每個(gè)節(jié)點(diǎn)都可看成一個(gè)感知機(jī),輸入層輸入的一般是語(yǔ)音特征,而隱層各個(gè)節(jié)點(diǎn)處的激活函數(shù)為非線性激活函數(shù),輸出層的激活函數(shù)可以使線性激活函數(shù)。4.1深度神經(jīng)網(wǎng)絡(luò)模型基于深度學(xué)習(xí)的語(yǔ)音增強(qiáng)算法和上述傳統(tǒng)算法相比,幾乎不需要什么假設(shè),避免了一些不合理假設(shè)對(duì)語(yǔ)音增強(qiáng)效果的影響,并且具有很好的非線性擬合能力?;谏疃葘W(xué)習(xí)的語(yǔ)音增強(qiáng)系統(tǒng)框架如下:4.1.1基于深度學(xué)習(xí)的語(yǔ)音增強(qiáng)系統(tǒng)框圖整個(gè)過(guò)程分為兩大步:訓(xùn)練和增強(qiáng)。在訓(xùn)練階段需要大量干凈語(yǔ)音和各種各樣的噪聲樣本,根據(jù)加性噪聲模型,將其通過(guò)相加構(gòu)造大量帶噪語(yǔ)音語(yǔ)音樣本,得到各個(gè)信噪比下的帶噪語(yǔ)音和干凈語(yǔ)音數(shù)據(jù)對(duì),也稱(chēng)平行語(yǔ)料,如下所示:上式中的調(diào)節(jié)參數(shù)用來(lái)控制信噪比。然后進(jìn)行特征提取,輸入DNN系統(tǒng)用作訓(xùn)練DNN模型,學(xué)習(xí)帶噪語(yǔ)音和干凈語(yǔ)音之間的非線性映射關(guān)系。DNN訓(xùn)練過(guò)程又可分為兩部分:無(wú)監(jiān)督預(yù)訓(xùn)練(也叫前向傳播)和和基于反向傳播算法的有監(jiān)督調(diào)優(yōu)。前向傳播是指數(shù)據(jù)樣本特征從輸入層輸入后,依次逐層向后傳播進(jìn)行線性計(jì)算,將前一層的輸出用作后一層的輸入直到最后一層輸出層,輸出一個(gè)經(jīng)過(guò)計(jì)算的估計(jì)值。第n曾第i個(gè)節(jié)點(diǎn)(神經(jīng)元)處的輸出可表示為:其中,表示第n-1層的第k個(gè)神經(jīng)元與第n層的第i個(gè)神經(jīng)元之間的權(quán)重,表示第n層第i個(gè)神經(jīng)元的偏置,表示激活函數(shù)。反向傳播調(diào)優(yōu)則與前向傳播恰好相反,是從輸出層開(kāi)始出發(fā),將目標(biāo)語(yǔ)音特征作為輸入向前計(jì)算,以更新整個(gè)DNN的權(quán)重和偏置,最常使用的是梯度下降法。多次迭代以上算法即可得到較合適的初始化參數(shù)。可見(jiàn)輸入特征和訓(xùn)練目標(biāo)是訓(xùn)練過(guò)程必不可少的因素,極大影響了后面增強(qiáng)部分的系統(tǒng)性能,一個(gè)好的訓(xùn)練目標(biāo)可以有效保證語(yǔ)音的不失真。增強(qiáng)階段是DNN的核心部分,將需要進(jìn)行語(yǔ)音增強(qiáng)的帶噪語(yǔ)音中提取的特征信息,輸入到前面訓(xùn)練好的DNN網(wǎng)絡(luò)系統(tǒng)的輸入層,按照已經(jīng)調(diào)整好的系統(tǒng)參數(shù)逐層進(jìn)行計(jì)算,將前一層的輸出用作后一層的輸入知道輸出層輸出結(jié)果,然后用語(yǔ)音增強(qiáng)后的特征進(jìn)行波形重構(gòu),得到目標(biāo)干凈語(yǔ)音。4.2基于卷積神經(jīng)網(wǎng)絡(luò)的語(yǔ)音增強(qiáng)算法基于深度神經(jīng)網(wǎng)絡(luò)的語(yǔ)音增強(qiáng)算法對(duì)非平穩(wěn)噪聲的抑制能力較強(qiáng)、語(yǔ)音增強(qiáng)效果顯著,因此這幾年得到人們的廣泛關(guān)注和應(yīng)用,并發(fā)展出了多種神經(jīng)網(wǎng)絡(luò)模型,例如:卷積神經(jīng)網(wǎng)絡(luò)(CNN)、循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)、和生成對(duì)抗網(wǎng)絡(luò)(GAN)。由于本文篇幅有限,只著重討論其中一種神經(jīng)網(wǎng)絡(luò)——卷積神經(jīng)網(wǎng)絡(luò)。卷積神經(jīng)網(wǎng)絡(luò)是深度學(xué)習(xí)的代表算法之一,其名稱(chēng)來(lái)源于該網(wǎng)絡(luò)使用了數(shù)學(xué)中的卷積運(yùn)算方式,使用卷積運(yùn)算方式可以使特征增強(qiáng),具有很好的泛化能力和適應(yīng)性。最初主要被應(yīng)用于圖像識(shí)別,后來(lái)人們發(fā)現(xiàn)可同樣用于語(yǔ)音識(shí)別并且取得了不錯(cuò)的效果。CNN是一個(gè)前潰式神經(jīng)網(wǎng)絡(luò),并采用反向傳播算法優(yōu)化網(wǎng)絡(luò)參數(shù),它的本質(zhì)其實(shí)也是一個(gè)多層感知機(jī),與其他神經(jīng)網(wǎng)絡(luò)相同的是由大量神經(jīng)元連接而成,同樣要經(jīng)過(guò)訓(xùn)練和增強(qiáng)兩個(gè)步驟。但相比一般的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu),CNN的優(yōu)勢(shì)是采用了局部連接(卷積層中的神經(jīng)元只與部分相鄰層之間的神經(jīng)元連接)和權(quán)值共享(也就是共享卷積核),這種結(jié)構(gòu)大大減少了神經(jīng)網(wǎng)絡(luò)中的參數(shù),優(yōu)化了網(wǎng)絡(luò),降低了網(wǎng)絡(luò)模型的復(fù)雜度。因此卷積神經(jīng)網(wǎng)絡(luò)中的參數(shù)個(gè)數(shù)與神經(jīng)元的個(gè)數(shù)無(wú)關(guān),而與濾波器大小和濾波器的種類(lèi)有關(guān)。局部感受野使得每個(gè)神經(jīng)元不用對(duì)全部輸入特征感受,只進(jìn)行局部對(duì)比,最后將所有特征綜合起來(lái)即可得到整體結(jié)果。權(quán)值共享是指是指不同神經(jīng)元之間共享參數(shù),即對(duì)整體用同一個(gè)卷積核進(jìn)行卷積運(yùn)算。卷積神經(jīng)網(wǎng)絡(luò)由輸入層、卷積層、池化層(也叫下采樣層)、全連接層和輸出層組成。經(jīng)輸入層輸入后第一層一定是卷積層,卷積層和池化層交替連接,共同用來(lái)提取特征。4.2.1卷積層低隱層中的第一層是卷積層,用來(lái)提取輸入最近基本的特征,其由許多卷積單元組曾。卷積層參數(shù)主要包括感受野(filter)大小、步長(zhǎng)(stride)以及邊界填充(pad)。感受野大小就是卷積核大小,其不能超過(guò)輸入尺寸;步長(zhǎng)決定了感受野以何種速度進(jìn)行平移計(jì)算;而邊界填充用于避免丟失特征圖邊緣信息。卷積層的運(yùn)算過(guò)程如下圖所示:假設(shè)輸入一個(gè)5*5的數(shù)組,邊界填充為1,則尺寸變成了7*7,設(shè)定卷積核為3*3進(jìn)行卷積運(yùn)算,步長(zhǎng)為2。4.2.1卷積運(yùn)算示意圖計(jì)算表達(dá)式:其中,表示輸出特征,表示卷積核第i行第j列元素,表示輸入第i行第j列元素,b表示偏置。在語(yǔ)音識(shí)別中,將帶噪語(yǔ)音特征作為網(wǎng)絡(luò)的輸入,看作一個(gè)數(shù)組,預(yù)先定義好三個(gè)參數(shù),使用感受野進(jìn)行卷積運(yùn)算。從原值輸入特征數(shù)組的左上角開(kāi)始,取與感受野相同大小模塊與感受野進(jìn)行卷積運(yùn)算,然后按照步長(zhǎng)以后往后挪動(dòng)到下一個(gè)與感受野大小相同的板塊進(jìn)行運(yùn)算,以此類(lèi)推到最后一個(gè),運(yùn)算結(jié)束即可得到一個(gè)feathermap。4.2.2池化層池化層也叫子采樣層,顧名思義,是對(duì)經(jīng)過(guò)上一輪卷積運(yùn)算過(guò)后的特征圖進(jìn)行子采樣,進(jìn)一步提取主要特征,目的是壓縮特征圖,使計(jì)算量大大減少。與卷積層相互配合共同完成特征的提取,與卷積層相同的時(shí),池化層也有一個(gè)池化核,作用跟卷積核大同小異,不過(guò)不再是進(jìn)行卷積運(yùn)算,而分為兩種方式:最大池化和均勻池化。最大池化即在輸入特征圖中與池化核大小相等的區(qū)域中每次取最大值;均值池化則是在每個(gè)區(qū)域中取平均值。它們用該區(qū)域的最大值或平均值表示壓縮后的特征,雖然可以簡(jiǎn)化模型但也同時(shí)降低了特征精確度。具體操作示意圖如下所示:4.2.2池化運(yùn)算示意圖4.2.3全連接層全連接層一般是卷積神經(jīng)網(wǎng)絡(luò)的最后一層,不同于卷積層之間的局部鏈接方式,采用softmax全連接方式,即這層每個(gè)神經(jīng)元與鄰層神經(jīng)元之間都有連接,那么這樣一來(lái)參數(shù)較多,計(jì)算較為復(fù)雜,但是全連接層并不是必須的,最好是該網(wǎng)絡(luò)盡量不采用全連接層就可實(shí)現(xiàn)目標(biāo)功能。如果說(shuō)卷積/池化層的作用相當(dāng)于濾波器,那么全鏈接層的作用相當(dāng)于一個(gè)分類(lèi)器。該層需要一個(gè)輸入值,該數(shù)值是輸出分類(lèi)的類(lèi)別數(shù),全連接層就用來(lái)查看上一層的輸出特征最有可能與哪幾類(lèi)相關(guān),然后輸出一個(gè)n維數(shù)組。4.2.4經(jīng)典卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)以下是目前廣為人知的幾種經(jīng)典卷機(jī)網(wǎng)絡(luò)結(jié)構(gòu)以及它們的各自特點(diǎn):表4-1幾種卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)特點(diǎn)名稱(chēng)特點(diǎn)LeNet是人們研究出的第一個(gè)卷積神經(jīng)網(wǎng)絡(luò)AlexNet贏得了2012年ILSVRC的冠軍,自此得到人們廣泛關(guān)注,CNN網(wǎng)絡(luò)得到迅速發(fā)展;采用ReLU作為激活函數(shù);采用局部歸一化處理VGGNet16-19層網(wǎng)絡(luò);全部采用3*3的卷積核和2*2的池化核,用多層小卷積代替一層大卷積,減少了網(wǎng)絡(luò)參數(shù);他強(qiáng)調(diào)了卷積神經(jīng)網(wǎng)絡(luò)深度對(duì)性能提升的意義GoogleNet采用22層神經(jīng)網(wǎng)絡(luò)、稀疏連接以及Inception結(jié)構(gòu),解決了過(guò)擬合問(wèn)題;提升了了對(duì)網(wǎng)絡(luò)內(nèi)部資源的利用ResNet有152層;跳躍式結(jié)構(gòu),提出了殘差學(xué)習(xí),通過(guò)恒等映射解決網(wǎng)絡(luò)層數(shù)過(guò)多導(dǎo)致的梯度爆炸問(wèn)題第五章總結(jié)與展望5.1本文總結(jié)語(yǔ)音增強(qiáng)在各個(gè)領(lǐng)域都有著十分重要的意義,傳統(tǒng)單聲道語(yǔ)音增強(qiáng)雖然是語(yǔ)音增強(qiáng)中最基礎(chǔ)的研究,但在該領(lǐng)域中極具代表性,適合作為初學(xué)者入門(mén)階段研究?jī)?nèi)容。本文也是主要研究對(duì)比傳統(tǒng)單聲道語(yǔ)音增強(qiáng)算法中的幾種經(jīng)

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論