【基于CNN網(wǎng)絡(luò)的語(yǔ)音增強(qiáng)模型探究（論文）14000字】

上傳人：E*** IP屬地：湖北上傳時(shí)間：2024-11-01 格式：DOCX 頁(yè)數(shù)：31 大?。?93.96KB 積分：27 舉報(bào) 版權(quán)申訴

【基于CNN網(wǎng)絡(luò)的語(yǔ)音增強(qiáng)模型探究（論文）14000字】_第2頁(yè)

【基于CNN網(wǎng)絡(luò)的語(yǔ)音增強(qiáng)模型探究（論文）14000字】_第3頁(yè)

【基于CNN網(wǎng)絡(luò)的語(yǔ)音增強(qiáng)模型探究（論文）14000字】_第4頁(yè)

【基于CNN網(wǎng)絡(luò)的語(yǔ)音增強(qiáng)模型探究（論文）14000字】_第5頁(yè)

已閱讀5頁(yè)，還剩26頁(yè)未讀，繼續(xù)免費(fèi)閱讀

版權(quán)說(shuō)明：本文檔由用戶提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

基于CNN網(wǎng)絡(luò)的語(yǔ)音增強(qiáng)模型研究摘要語(yǔ)音增強(qiáng)在許多領(lǐng)域都有著十分重要的作用和意義。到目前為止也有了許多研究成果被相繼提出并取得不錯(cuò)的表現(xiàn)。單聲道語(yǔ)音增強(qiáng)方法有傳統(tǒng)無(wú)監(jiān)督增強(qiáng)算法和有監(jiān)督增強(qiáng)算法。其中，經(jīng)典的傳統(tǒng)算法有譜減法、維納濾波法、基于LMS自適應(yīng)濾波器法等。本文通過(guò)仿真實(shí)驗(yàn)表明這幾種傳統(tǒng)算法增強(qiáng)后仍殘留了較多噪聲，尤其是開(kāi)頭和結(jié)尾比較明顯，雖然維納濾波法表現(xiàn)較為優(yōu)異，但他們都無(wú)法有效抑制非平穩(wěn)噪聲。且他們都存在對(duì)信號(hào)和噪聲的不合理假設(shè)，因此限制了性能上限。而針對(duì)傳統(tǒng)無(wú)監(jiān)督算法的這些問(wèn)題，人們又提出了基于DNN的語(yǔ)音增強(qiáng)算法，其中CNN網(wǎng)絡(luò)是其中的代表網(wǎng)絡(luò)之一。關(guān)鍵詞：語(yǔ)音增強(qiáng)；傳統(tǒng)無(wú)監(jiān)督語(yǔ)音增強(qiáng)算法；卷積神經(jīng)網(wǎng)絡(luò)目錄緒論1.1研究背景1.2研究意義1.3研究現(xiàn)狀1.4本文研究?jī)?nèi)容語(yǔ)音增強(qiáng)基礎(chǔ)2.1語(yǔ)音增強(qiáng)定義2.2語(yǔ)音增強(qiáng)分類2.3原始語(yǔ)音特性2.4帶噪語(yǔ)音信號(hào)2.5語(yǔ)音增強(qiáng)預(yù)處理技術(shù)2.6信噪比單聲道語(yǔ)音增強(qiáng)方法3.1傳統(tǒng)單聲道語(yǔ)音增強(qiáng)算法3.1.1譜減法3.1.2維納濾波法3.3.3自適應(yīng)濾波器法3.2有監(jiān)督訓(xùn)練的語(yǔ)音增強(qiáng)算法第四章基于深度學(xué)習(xí)的語(yǔ)音增強(qiáng)4.1深度神經(jīng)網(wǎng)絡(luò)模型4.2卷積神經(jīng)網(wǎng)絡(luò)4.2.1卷積層 4.2.2池化層4.2.3全連接層4.2.4經(jīng)典卷積網(wǎng)絡(luò)第五章總結(jié)和展望5.1全文總結(jié)5.2未來(lái)展望第一章緒論1.1研究背景人類在社會(huì)生存中必然少不了信息交流，在所有交流方式中，語(yǔ)音是最常用，也是最方便的的交流方式。從原始的面地面交流到隨著科技的發(fā)展，人們?nèi)缃耦l繁的使用通信設(shè)備進(jìn)行遠(yuǎn)程交流。但無(wú)論是何種方式，都只有一個(gè)共同目標(biāo)，那就是清晰準(zhǔn)確得得到對(duì)方想要傳達(dá)的信息。然而現(xiàn)實(shí)生活中，我們生活在一個(gè)充滿各種各樣的噪聲、十分復(fù)雜的聲學(xué)環(huán)境當(dāng)中，傳達(dá)的語(yǔ)音無(wú)時(shí)無(wú)刻不受到周圍環(huán)境噪聲的干擾。當(dāng)面對(duì)面交流時(shí)，對(duì)話者處于同樣的聲學(xué)環(huán)境當(dāng)中，我們的人耳系統(tǒng)經(jīng)過(guò)長(zhǎng)年累月的適應(yīng)和學(xué)習(xí)，已經(jīng)能夠很好的抑制噪聲，準(zhǔn)確識(shí)別并持續(xù)追蹤我們想要獲取的信息，能夠做到交流無(wú)障礙、信息傳達(dá)準(zhǔn)確率極高。然而當(dāng)人們使用通信設(shè)備進(jìn)行遠(yuǎn)距離通信時(shí)，語(yǔ)音接受者和發(fā)送者處于不同的復(fù)雜聲學(xué)環(huán)境當(dāng)中，無(wú)法準(zhǔn)確得知噪聲類型，再加上機(jī)器是死物，無(wú)法像人耳一樣主動(dòng)學(xué)習(xí)且經(jīng)過(guò)長(zhǎng)時(shí)間的聲音訓(xùn)練，也就無(wú)法做到準(zhǔn)確識(shí)別噪聲并進(jìn)行噪聲抑制，因此遠(yuǎn)處的接受者接收到的語(yǔ)音往往會(huì)不清晰且伴隨著許多噪聲干擾，對(duì)準(zhǔn)確識(shí)別對(duì)方想要傳達(dá)的信息造成一定程度干擾和阻礙。當(dāng)前時(shí)代科技飛速發(fā)展、日新月異，遠(yuǎn)程交流方式已然成為一種常態(tài)，人與計(jì)算機(jī)之間的交流更是越來(lái)越頻繁，平均人手幾臺(tái)智能設(shè)備。拋去文字短信交流方式不說(shuō)，語(yǔ)音交流由于其方便快捷的特性正逐漸成為人們的心頭好，大有在未來(lái)成為主流方式的趨勢(shì)。近幾年，人工智能的飛速發(fā)展，各種智能設(shè)備鋪天蓋地涌入人們?nèi)粘Ｉ?，給人們生活帶來(lái)巨大的驚喜和改變。如智能車載設(shè)備、智能家居產(chǎn)品、自助服務(wù)機(jī)器人等等，改變了人們傳統(tǒng)生活方式，不僅十分方便更是解放人們雙手提高了做事效率。智能車載設(shè)備能夠讓駕駛員在專注開(kāi)車的同時(shí)語(yǔ)音控制開(kāi)關(guān)導(dǎo)航、車窗、音樂(lè)等功能，由于不用分散注意力因此十分方便的同時(shí)最重要的是安全；智能家居產(chǎn)品讓生活充滿科技感，讓工作勞累了一天的房主解放手腳，得到充分休息，只需幾句話可自主完成各種家務(wù)。這些智能設(shè)備給我們帶來(lái)方便的同時(shí)，也對(duì)技術(shù)有著極高的要求。由于人機(jī)交流時(shí)所處聲學(xué)環(huán)境的復(fù)雜性，計(jì)算機(jī)如何準(zhǔn)確識(shí)別發(fā)送者的指令便成了關(guān)鍵技術(shù)難題。計(jì)算機(jī)能否通過(guò)學(xué)習(xí)以后和人耳一樣自主分辨抑制噪聲呢？自從深度學(xué)習(xí)算法被利用發(fā)現(xiàn)效果不錯(cuò)后，這個(gè)答案是可以的。但目前的技術(shù)還有待提高和改進(jìn)，并不能使機(jī)器達(dá)到人耳那種層次，雖然已經(jīng)能夠大概率準(zhǔn)確識(shí)別，仍舊有概率識(shí)別不清或者識(shí)別錯(cuò)誤，再加上語(yǔ)言種類繁多且地方性語(yǔ)言龐雜，甚至發(fā)送指令者說(shuō)話吐字不清等等問(wèn)題，因此人們?cè)谝恍┲匾獔?chǎng)合如分配工作任務(wù)為了避免發(fā)送指令歧義，一般選擇文字傳送，不僅準(zhǔn)確而且一目了然。這便是語(yǔ)音增強(qiáng)技術(shù)仍然需要繼續(xù)改進(jìn)的動(dòng)力。1.2研究意義語(yǔ)音增強(qiáng)技術(shù)是語(yǔ)音識(shí)別領(lǐng)域的重要分支，在通信領(lǐng)域都有著十分重要的意義。對(duì)普通用戶而言，我們?nèi)粘Ｊ褂玫碾娫?、手機(jī)以及其他智能設(shè)備，在使用時(shí)都無(wú)法避免面臨著噪聲干擾的問(wèn)題，此時(shí)就需要語(yǔ)音增強(qiáng)技術(shù)使得設(shè)備能夠有效抑制噪聲，提高說(shuō)話者的語(yǔ)音清晰度和可懂度，使得通信對(duì)方準(zhǔn)確得到語(yǔ)音信息，提升通信體驗(yàn)或者使計(jì)算機(jī)準(zhǔn)確識(shí)別指令，避免重復(fù)發(fā)送指令提升效率。對(duì)公安機(jī)關(guān)而言，維護(hù)社會(huì)安定破案?jìng)刹榈耐瑫r(shí)通常會(huì)使用到監(jiān)聽(tīng)設(shè)備，往往目標(biāo)語(yǔ)音比較弱小，信噪比低，非常容易被周圍噪聲掩蓋，此時(shí)就越是需要進(jìn)行語(yǔ)音增強(qiáng)，保證對(duì)方發(fā)出的每一點(diǎn)聲音不被遺漏，每個(gè)字甚至語(yǔ)氣都至關(guān)重要，保證準(zhǔn)確把握對(duì)方意圖，這對(duì)語(yǔ)音增強(qiáng)技術(shù)有著極高的要求。而在軍事領(lǐng)域中，由于作戰(zhàn)環(huán)境十分惡劣復(fù)雜，噪聲巨大甚至遠(yuǎn)遠(yuǎn)蓋過(guò)人聲，但是軍事命令的準(zhǔn)確傳達(dá)十分關(guān)鍵，每個(gè)字的失誤都有可能造成巨大的損失和傷亡，這就需要極高的語(yǔ)音增強(qiáng)技術(shù)能夠有效抑制周圍環(huán)境噪聲并增強(qiáng)人聲，提高語(yǔ)音可懂度，確保每條指令都能被準(zhǔn)確傳達(dá)。除了以上一些情景，語(yǔ)音增強(qiáng)技術(shù)還有許多應(yīng)用場(chǎng)景，如醫(yī)療領(lǐng)域等。因此，語(yǔ)音增強(qiáng)技術(shù)無(wú)論是對(duì)普通人而言還是對(duì)國(guó)家安全而言都十分重要，掌握領(lǐng)先頂級(jí)語(yǔ)音增強(qiáng)技術(shù)，不僅可以獲得更好的體驗(yàn)感，更能帶給人民安全感。語(yǔ)音增強(qiáng)技術(shù)在改變?nèi)藗兩罘绞降耐瑫r(shí)，正逐漸帶領(lǐng)人類文明邁向新的臺(tái)階。1.3語(yǔ)音增強(qiáng)研究現(xiàn)狀傳統(tǒng)單聲道語(yǔ)音增強(qiáng)的研究離不開(kāi)伴隨著語(yǔ)音信號(hào)處理技術(shù)的發(fā)展，距今已經(jīng)有了幾十年的研究歷史，算是語(yǔ)音增強(qiáng)算法的元老了。傳統(tǒng)單聲道語(yǔ)音增強(qiáng)算法大體可分為時(shí)域和頻域，時(shí)域的方法主要有參數(shù)和濾波法、子空間法等，由于難以估計(jì)激勵(lì)參數(shù)和結(jié)果的失真度較大，人們使用較多的還是頻域方法。從最早1979年boll提出的譜減法，其原理是基于加性噪聲和噪聲語(yǔ)音相互獨(dú)立性等假設(shè)，在噪聲信號(hào)平穩(wěn)或緩慢變化前提下，再非語(yǔ)音幀的地方迭代更新噪聲方差，對(duì)噪聲方差進(jìn)行估計(jì)，即只要將原始帶噪語(yǔ)音頻譜減去噪聲譜就能得到干凈語(yǔ)音。譜減法原理雖然簡(jiǎn)單，但是對(duì)噪聲估計(jì)要求很高，估計(jì)過(guò)高將會(huì)造成語(yǔ)音失真，估計(jì)過(guò)低將會(huì)殘留較多噪聲，因此譜減法會(huì)有音樂(lè)噪聲現(xiàn)象。同年提出的維納濾波法雖然沒(méi)有產(chǎn)生音樂(lè)噪聲，但是會(huì)有白噪聲產(chǎn)生。維納濾波算法的本質(zhì)就是從噪聲中提取信號(hào)的過(guò)濾和預(yù)測(cè)的方法，但由于它是基于平穩(wěn)噪聲條件下的最小均方差估計(jì)且有很多約束條件，因此對(duì)非平穩(wěn)噪聲的抑制效果較差。隨后，最小均方誤差幅度譜估計(jì)方法被提出，但由于干凈語(yǔ)音與噪聲之間是非線性關(guān)系，因此有改良出基于對(duì)數(shù)域的最小均方誤差估計(jì)法，從概率角度分析對(duì)噪聲進(jìn)行最大程度上抑制，其在低信噪比時(shí)優(yōu)于譜減法但在高信噪比時(shí)語(yǔ)音失真度較大。同樣經(jīng)典的傳統(tǒng)語(yǔ)音增強(qiáng)算法還有基于LMS自適應(yīng)濾波器法，它具有自動(dòng)調(diào)節(jié)自身參數(shù)的能力，結(jié)構(gòu)簡(jiǎn)單且易于實(shí)現(xiàn)。與此同時(shí)提出的還有基于最小統(tǒng)計(jì)量的噪聲估計(jì)方法，包括目前使用最普遍、語(yǔ)音增強(qiáng)效果最好的最小控制的迭代平均噪聲估計(jì)法，其對(duì)非平穩(wěn)噪聲能夠較快跟蹤，誤差估計(jì)較小，因此相比前面提到的語(yǔ)音增強(qiáng)方法而言顯著減少殘余噪聲。以上傳統(tǒng)語(yǔ)音增強(qiáng)算法，也就是無(wú)監(jiān)督語(yǔ)音增強(qiáng)算法，對(duì)非平穩(wěn)噪聲的抑制效果還是較差，因此又有了基于監(jiān)督訓(xùn)練的語(yǔ)音增強(qiáng)算法。有監(jiān)督語(yǔ)音增強(qiáng)算法不用基于如干凈語(yǔ)音與噪聲相對(duì)獨(dú)立性假設(shè)、語(yǔ)音噪聲服從高斯假設(shè)等許多不合理的假設(shè)，因此降噪能力大大提高。從1989年Tamara提出的人工神經(jīng)網(wǎng)絡(luò)開(kāi)始，在時(shí)域?qū)W習(xí)帶噪語(yǔ)音和干凈語(yǔ)音的非線性關(guān)系，隨后被優(yōu)化為在頻域里學(xué)習(xí)帶噪語(yǔ)音和干凈語(yǔ)音之間的關(guān)系，但困于訓(xùn)練數(shù)據(jù)量不足和不合適的初始化方案，直到深度神經(jīng)網(wǎng)絡(luò)被提出，使得基于神經(jīng)網(wǎng)絡(luò)的語(yǔ)音增強(qiáng)方法被人們廣泛關(guān)注。DNN語(yǔ)音增強(qiáng)方法對(duì)非平穩(wěn)噪聲有很好的抑制作用，但過(guò)程復(fù)雜且參數(shù)量巨大，隨后RNN、CNN、GAN網(wǎng)絡(luò)相繼被提出應(yīng)用。1.4本論文主要研究?jī)?nèi)容本文主要研究語(yǔ)音增強(qiáng)算法中的單聲道語(yǔ)音增強(qiáng)，對(duì)傳統(tǒng)單聲道語(yǔ)音增強(qiáng)算法進(jìn)行深入探討，深入了解傳統(tǒng)單聲道語(yǔ)音增強(qiáng)算法中幾種常見(jiàn)方法并進(jìn)行復(fù)現(xiàn)，對(duì)它們的噪聲抑制能力進(jìn)行客觀比較和評(píng)判。之后會(huì)簡(jiǎn)單涉及基于有監(jiān)督訓(xùn)練的語(yǔ)音增強(qiáng)算法，尤其是基于深度學(xué)習(xí)的單身高語(yǔ)音增強(qiáng)算法，介紹其網(wǎng)絡(luò)模型框架，最后講兩類語(yǔ)音增強(qiáng)算法進(jìn)行比較，總結(jié)出適合它們各自的適用情形。第一章首現(xiàn)介紹了本文的研究背景和研究意義，粗略講述了單聲道語(yǔ)音增強(qiáng)的發(fā)展歷程以及發(fā)展現(xiàn)狀，引出文章主要內(nèi)容。第二章簡(jiǎn)要介紹了語(yǔ)音增強(qiáng)算法中的基本概念以及語(yǔ)音和噪聲特性和語(yǔ)音增強(qiáng)模型。第三章是本文重點(diǎn)內(nèi)容，詳細(xì)介紹了傳統(tǒng)語(yǔ)音增強(qiáng)算法中基礎(chǔ)的幾種算法，包括算法框架和具體實(shí)現(xiàn)過(guò)程，以及各個(gè)算法的結(jié)果頻譜圖，給并根據(jù)語(yǔ)音前后頻譜圖對(duì)噪聲抑制效果進(jìn)行分析比對(duì)，隨后引出有監(jiān)督訓(xùn)練的單聲道語(yǔ)音增強(qiáng)算法。第四章講解了基于深度學(xué)習(xí)的語(yǔ)音增強(qiáng)算法基本框架，并詳細(xì)介紹了其中一種神經(jīng)網(wǎng)絡(luò)-卷積什么網(wǎng)絡(luò)，并對(duì)深度神經(jīng)網(wǎng)絡(luò)提出構(gòu)想。第五章對(duì)全文進(jìn)行總結(jié)概括并對(duì)當(dāng)前算法存在的各種問(wèn)題進(jìn)行羅列，擺出未來(lái)我們主要攻克的技術(shù)問(wèn)題，設(shè)定目標(biāo)。第二章語(yǔ)音增強(qiáng)基礎(chǔ)2.1語(yǔ)音增強(qiáng)的定義語(yǔ)音增強(qiáng)也可以說(shuō)成是語(yǔ)音降噪。語(yǔ)音增強(qiáng)是指在復(fù)雜的聲學(xué)環(huán)境當(dāng)中，純凈語(yǔ)音信號(hào)總會(huì)被被各種噪聲干擾、甚至淹沒(méi)，人們就利用語(yǔ)音信號(hào)處理技術(shù)以達(dá)到抑制噪聲或者過(guò)濾噪聲的效果，從噪聲背景中提取出盡可能干凈的語(yǔ)音信號(hào)。目標(biāo)是提升語(yǔ)音信號(hào)的質(zhì)量和可懂度。通俗的說(shuō)，語(yǔ)音增強(qiáng)就是從被噪聲污染了的帶噪語(yǔ)音當(dāng)中提取出我們想要的干凈語(yǔ)音信號(hào)的技術(shù)。語(yǔ)音增強(qiáng)技術(shù)的實(shí)施對(duì)象是計(jì)算機(jī)，使計(jì)算機(jī)進(jìn)行一系列的操作使其能夠有效過(guò)濾各種噪聲，提高語(yǔ)音質(zhì)量，最終目的是使對(duì)面使用計(jì)算機(jī)的人能夠準(zhǔn)確識(shí)別接收目標(biāo)語(yǔ)音、提升遠(yuǎn)距離通話時(shí)人耳的聽(tīng)覺(jué)體驗(yàn)。2.2語(yǔ)音增強(qiáng)分類按照語(yǔ)音通道數(shù)劃分，語(yǔ)音增強(qiáng)可分為單聲道語(yǔ)音增強(qiáng)和多聲道語(yǔ)音增強(qiáng)。單聲道語(yǔ)音增強(qiáng)只包括時(shí)域和頻域的信息，因此對(duì)設(shè)備要求更低，設(shè)備更加簡(jiǎn)單但語(yǔ)音處理的難度卻提高；多聲道語(yǔ)音增強(qiáng)又叫麥克風(fēng)陣列語(yǔ)音增強(qiáng)，除了利用時(shí)域和頻域信息之外還可以利用空間信息，但對(duì)聲源空間位置要求較高。比如人耳實(shí)際上是一個(gè)雙麥克風(fēng)結(jié)構(gòu)，能夠根據(jù)聲源到達(dá)兩只耳朵的時(shí)間差和聲音強(qiáng)度差來(lái)判斷聲源的位置信息，用來(lái)輔助聲源進(jìn)行分離，但當(dāng)不同聲源處于同一位置時(shí)，人耳依舊能夠區(qū)分不同聲源，因此時(shí)域和頻域的信息在語(yǔ)音增強(qiáng)中占據(jù)主要作用，而空間信息起到輔助作用，本文主要研究單聲道語(yǔ)音增強(qiáng)。按照語(yǔ)音增強(qiáng)算法劃分，主要可分為傳統(tǒng)無(wú)監(jiān)督的語(yǔ)音增強(qiáng)和有監(jiān)督訓(xùn)練的語(yǔ)音增強(qiáng)算法。二者最大的區(qū)別就是前期是否經(jīng)過(guò)了學(xué)習(xí)訓(xùn)練。傳統(tǒng)無(wú)監(jiān)督語(yǔ)音增強(qiáng)算法不需要經(jīng)過(guò)離線訓(xùn)練，因此計(jì)算量較少，但是存在許多不合理的假設(shè)如干凈語(yǔ)音與噪聲之間的獨(dú)立性假設(shè)、干凈語(yǔ)音和噪聲服從高斯分布的假設(shè)等，這些不合理的假設(shè)限制了傳統(tǒng)算法的性能上限，對(duì)于非平穩(wěn)噪聲和低信噪比情況無(wú)法有效改善語(yǔ)音。針對(duì)傳統(tǒng)無(wú)監(jiān)督算法的性能缺陷，人們進(jìn)而提出了有監(jiān)督訓(xùn)練的語(yǔ)音增強(qiáng)算法，也就是現(xiàn)在使用最頻繁的深度學(xué)習(xí)（DNN）算法，模仿人的能力，讓計(jì)算機(jī)提前學(xué)習(xí)記住提供的語(yǔ)音與噪聲的模式，以便以后接受一段帶噪語(yǔ)音時(shí)能有所參考，找出最有可能的干凈語(yǔ)音與噪聲模式，便于進(jìn)行語(yǔ)音分離以及噪聲抑制，大大提升了語(yǔ)音增強(qiáng)的性能。2.3原始語(yǔ)音信號(hào)語(yǔ)音是一個(gè)隨時(shí)間變化的|、非平穩(wěn)隨機(jī)過(guò)程，是一種復(fù)雜的人類運(yùn)動(dòng)能力，不能用處理平穩(wěn)與信號(hào)的方式處理語(yǔ)音信號(hào)，但在極短的時(shí)間內(nèi)語(yǔ)音可看作相對(duì)平穩(wěn)的過(guò)程，因此在語(yǔ)音增強(qiáng)中常常將語(yǔ)音看作短時(shí)平穩(wěn)信號(hào)，一般在進(jìn)行語(yǔ)音增強(qiáng)算法之前會(huì)對(duì)語(yǔ)音進(jìn)行分幀操作。此外語(yǔ)音可分為清音、濁音和爆破音三類。濁音過(guò)零率較低，有一定周期性，能量集中在低頻段；清音過(guò)零率較高，能量分布各個(gè)頻率都有；而爆破音過(guò)零率在濁音和清音之間，無(wú)周期性，能量主要集中在低頻段，且頻率越低能量越高。最后，語(yǔ)音信號(hào)可用統(tǒng)計(jì)特性進(jìn)行分析描述，例如振幅大小概率密度、均值、自相關(guān)函數(shù)等。語(yǔ)音時(shí)域圖：圖2.1語(yǔ)音信號(hào)時(shí)域示意圖語(yǔ)音頻域圖：圖2.2語(yǔ)音信號(hào)頻域示意圖人們?yōu)榱搜芯空Z(yǔ)音信號(hào)對(duì)其進(jìn)行處理，通常需要對(duì)其進(jìn)行建模，以一種最接近語(yǔ)音信號(hào)的模型表示，但由于語(yǔ)音的復(fù)雜性，不可能找到一種模型能夠百分百擬合語(yǔ)音信號(hào)，因此，在針對(duì)不同情況的語(yǔ)音信號(hào)時(shí)，人們通常選擇不同的數(shù)學(xué)模型來(lái)表示，以最大可能地接近目標(biāo)語(yǔ)音的情況。語(yǔ)音信號(hào)的數(shù)字模型有激勵(lì)模型、輻射模型以及聲道模型。激勵(lì)模型一般情況下簡(jiǎn)單分為濁音和清音情況，但不僅限于表示這兩種，而且，由于濁音和清音的發(fā)聲方式不同，它們的激勵(lì)模型也是不一樣的，濁音可模擬成一個(gè)斜三角脈沖波，而清音則可以被模擬成隨機(jī)白噪聲；聲道模型又可理解為聲管模型或者共振峰模型，前者比較簡(jiǎn)單，即語(yǔ)音在短時(shí)間內(nèi)可表示成一段穩(wěn)定的管道，后者根據(jù)人耳聽(tīng)覺(jué)纖毛細(xì)胞的排列規(guī)律表示，可以表示元音或者輔音，效果不錯(cuò)；而輻射型則是將語(yǔ)音看作聲波。為了準(zhǔn)確表示語(yǔ)音數(shù)字特征，通常會(huì)將三種數(shù)字模型進(jìn)行串聯(lián)共同表示。要研究語(yǔ)音特性，往往離不開(kāi)人耳系統(tǒng)的特性。研究語(yǔ)音信號(hào)處理的目的是模擬人耳系統(tǒng)對(duì)語(yǔ)音的感受特性，二者密不可分。人耳的感受頻率范圍為20-20000Hz，但對(duì)太強(qiáng)或者太弱的聲音頻率的分辨率會(huì)降低，人耳感受語(yǔ)音主要從四個(gè)方面：音色、音高、響度以及時(shí)間。盡管人們了解人耳對(duì)聲音的處理過(guò)程，但仍然難以做到能夠完全與人耳系統(tǒng)匹配的語(yǔ)音處理系統(tǒng)。2.4帶噪語(yǔ)音信號(hào)噪聲來(lái)源多種多樣，噪聲特性變化無(wú)窮，只要是對(duì)目標(biāo)語(yǔ)音產(chǎn)生了干擾的聲音特征都屬于噪聲，也就是語(yǔ)音信號(hào)特征中的多余特征。按照干擾方式，噪聲可分為加性噪聲和乘性噪聲，加性噪聲是指當(dāng)噪聲對(duì)語(yǔ)音的干擾表現(xiàn)為兩者信號(hào)在時(shí)域進(jìn)行相加，而顯然實(shí)際環(huán)境中背景噪聲也可以看成加性噪聲，如風(fēng)扇空調(diào)聲、汽車?guó)Q笛聲、周圍人說(shuō)話聲、打字聲、走路聲等等。加性噪聲是對(duì)噪聲干擾方式的一種比較貼切的表述。乘性噪聲是指噪聲和語(yǔ)音在頻域是相乘的關(guān)系，在時(shí)域和語(yǔ)音則是卷積關(guān)系，因此也稱為卷積噪聲。在實(shí)際應(yīng)用中乘性噪聲主要體現(xiàn)在語(yǔ)音采集、麥克風(fēng)傳輸中電話信道和無(wú)線信道的頻率選擇特性，可以通過(guò)某種變換如同態(tài)濾波，轉(zhuǎn)變?yōu)榧有栽肼?。按照噪聲隨時(shí)間的變換關(guān)系，則可分為周期性噪聲和脈沖性噪聲。實(shí)際生活環(huán)境當(dāng)中，周期性噪聲比較少見(jiàn)，如市電干擾，而脈沖性噪聲則比較常見(jiàn)，機(jī)會(huì)隨處可見(jiàn)。噪聲還可以被分為平穩(wěn)噪聲和非平穩(wěn)噪聲。在語(yǔ)音增強(qiáng)系統(tǒng)中，最常用的加性噪聲為高斯白噪聲，尤其是低信噪比聲學(xué)環(huán)境當(dāng)中，加性噪聲對(duì)語(yǔ)音影響起到主要作用。如下所示：其中，表示t時(shí)刻帶噪語(yǔ)音時(shí)域信號(hào)，表示t時(shí)刻干凈語(yǔ)音的時(shí)域信號(hào)，表示噪聲t時(shí)刻的時(shí)域信號(hào)。加性帶噪語(yǔ)音模型如下：圖2.3加性帶噪語(yǔ)音結(jié)構(gòu)圖在接下來(lái)的內(nèi)容中，我們主要討論加性噪聲這種情況。在本文仿真實(shí)驗(yàn)中，帶噪語(yǔ)音的產(chǎn)生主要有以下幾種方式：一是系統(tǒng)通過(guò)randn函數(shù)隨機(jī)生成白噪聲，然后與干凈語(yǔ)音信號(hào)相加得到帶噪語(yǔ)音；二是直接利用函數(shù)Gnoisegen在干凈語(yǔ)音基礎(chǔ)上加上制定信噪比的噪聲生成帶噪語(yǔ)音；三是先隨機(jī)生成白噪聲后接著將噪聲通過(guò)濾波器，然后再以固定信噪比加到純凈語(yǔ)音上構(gòu)成帶早語(yǔ)音信號(hào)。以上三種方式依次分別對(duì)應(yīng)下章的三個(gè)仿真實(shí)驗(yàn)。2.5語(yǔ)音增強(qiáng)預(yù)處理技術(shù)由于語(yǔ)音信號(hào)是隨時(shí)間變化的非平穩(wěn)信號(hào)，但在短時(shí)間內(nèi)可保持相對(duì)平穩(wěn)，因此語(yǔ)音處理過(guò)程通常需要對(duì)語(yǔ)音進(jìn)行預(yù)處理，進(jìn)行短時(shí)分析。在語(yǔ)音處理前對(duì)信號(hào)進(jìn)行濾波、數(shù)字化，預(yù)加重、分幀、加窗等操作。下圖是一般語(yǔ)音預(yù)處理框圖：2.4語(yǔ)音預(yù)處理一般流程框圖為了防止工頻干擾，通常需要對(duì)原始語(yǔ)音信號(hào)進(jìn)行預(yù)濾波，工頻干擾是指50Hz的電源或市電頻率干擾，對(duì)原始信號(hào)進(jìn)行采樣時(shí)若不滿足采樣定理則會(huì)造成信號(hào)混疊，防混疊濾波器實(shí)際上是一個(gè)低通濾波器。采樣是將連續(xù)的模擬信號(hào)轉(zhuǎn)變?yōu)殡x散數(shù)字信號(hào)的過(guò)程，為保證信息的完整性和準(zhǔn)確性，采樣過(guò)程必須滿足采樣定理，如此才能完整恢復(fù)原始信號(hào)。采樣完成后的信號(hào)還需經(jīng)過(guò)量化過(guò)程才能變成時(shí)間、幅值都離散的信號(hào)，將同一區(qū)間的值都用量化值取代，以便于后續(xù)語(yǔ)音處理，量化區(qū)間越小，量化所造成的誤差也就越小。為了提升高頻部分，增加語(yǔ)音分辨率，使得語(yǔ)音信號(hào)更加平滑，一般對(duì)信號(hào)通過(guò)傳遞函數(shù)的高通濾波器進(jìn)行預(yù)加重處理。在恢復(fù)信號(hào)時(shí)相應(yīng)對(duì)估計(jì)值進(jìn)行去加重。語(yǔ)音預(yù)處理過(guò)程中最關(guān)鍵的步驟就是進(jìn)行加窗分幀。幀長(zhǎng)通常取10-30ms，幀移范圍一般在0-0.5。常用的加窗方式有兩種：一種是保持語(yǔ)音信號(hào)固定，滑動(dòng)窗進(jìn)行加權(quán)操作；另一種是固定窗，移動(dòng)語(yǔ)音信號(hào)進(jìn)行運(yùn)算實(shí)現(xiàn)加窗。常用窗函數(shù)有矩形窗和漢明窗，而在本文的研究中使用的都是漢明窗，其窗函數(shù)如下所示：2.6信噪比評(píng)判語(yǔ)音增強(qiáng)的標(biāo)準(zhǔn)有很多，在本文中，主要用到信噪比來(lái)衡量噪聲和干凈語(yǔ)音之間的關(guān)系，信噪比越高說(shuō)明干凈語(yǔ)音能力越高，聽(tīng)起來(lái)就越清晰，語(yǔ)音增強(qiáng)的效果也就越好。信噪比定義式如下：或者表示為：其中，表示干凈語(yǔ)音信號(hào)的能量；是噪聲能量；是帶噪語(yǔ)音。第三章單聲道語(yǔ)音增強(qiáng)3.1傳統(tǒng)無(wú)監(jiān)督語(yǔ)音增強(qiáng)算法在傳統(tǒng)語(yǔ)音增強(qiáng)算法中，頻域里的語(yǔ)音增強(qiáng)最為普遍和常用，下圖給出了頻域傳統(tǒng)單聲道語(yǔ)音增強(qiáng)的經(jīng)典算法的一般流程框圖：3.1傳統(tǒng)單聲道語(yǔ)音增強(qiáng)經(jīng)典流程圖首先將時(shí)域里的帶噪語(yǔ)音信號(hào)通過(guò)傅里葉變換轉(zhuǎn)換為頻域信號(hào)，然后計(jì)算其功率譜，下一步根據(jù)語(yǔ)音監(jiān)測(cè)幀估計(jì)噪聲方差，在非語(yǔ)音幀的時(shí)候更新噪聲方差，最核心的環(huán)節(jié)就是求解增益函數(shù)，在求解增益函數(shù)之前一般會(huì)用到先驗(yàn)信噪比或者后驗(yàn)信噪比，只要求出了增益函數(shù)，將其與帶噪語(yǔ)音頻域信號(hào)相乘即可得到干凈信號(hào)的頻譜，最后進(jìn)行反向傅立葉變換即可得到時(shí)域里的干凈語(yǔ)音信號(hào)，也就是我們所需要的結(jié)果。3.1.1譜減法經(jīng)典譜減法的主要思想是在噪聲和干凈語(yǔ)音相互獨(dú)立前提下，只要將帶噪語(yǔ)音減去估計(jì)出的噪聲能量即可得到干凈語(yǔ)音信號(hào)，其核心是進(jìn)行噪聲估計(jì)，利用在非語(yǔ)音幀的地方迭代更新噪聲方差，計(jì)算過(guò)程簡(jiǎn)單、性能良好，因而得到廣泛應(yīng)用。3.1.1基礎(chǔ)譜減法原理框圖具體實(shí)現(xiàn)過(guò)程如下：假設(shè)干凈語(yǔ)音和噪聲之間相互獨(dú)立，帶噪語(yǔ)音信號(hào)即其中，干凈語(yǔ)音信號(hào)s(n)，加性噪聲d(n)兩邊同時(shí)進(jìn)行傅里葉變換到頻域得到為了得到兩個(gè)關(guān)鍵量幅度和相位，將上式轉(zhuǎn)化為極坐標(biāo)的形式，如下：)可得到，為語(yǔ)音幅度譜，表示相位信息。同理，可以得到噪聲的極坐標(biāo)形式噪聲的幅度譜是無(wú)法直接得到的可用僅包含噪聲語(yǔ)音時(shí)的平均幅度表示，這個(gè)估計(jì)過(guò)程需要語(yǔ)音活動(dòng)檢測(cè)算法，所有語(yǔ)音信號(hào)可分為僅包含噪聲信號(hào)和包含噪聲和語(yǔ)音的信號(hào)兩類。噪聲估計(jì)只需要在僅包含噪聲語(yǔ)音的時(shí)候迭代更新造神方差，噪聲的相位?d(ω)一般情況下可以用帶噪語(yǔ)音的相位?x(ω來(lái)代替。則增強(qiáng)后的干凈語(yǔ)音信號(hào)可由帶噪語(yǔ)音信號(hào)減去噪聲能力得到：最后將進(jìn)行反向傅里葉變換可得到增強(qiáng)后的時(shí)域干凈語(yǔ)音信號(hào)。重點(diǎn)是若是噪聲幅度估計(jì)不準(zhǔn)確則會(huì)直接影響語(yǔ)音增強(qiáng)效果，當(dāng)過(guò)估計(jì)噪聲的幅度譜，則會(huì)導(dǎo)致|X(ω)|-|D(ω)|為小于零，但是幅度譜應(yīng)該為非負(fù)值，此時(shí)可設(shè)置條件將負(fù)的幅度譜設(shè)置為零：可一定程度上改善語(yǔ)音增強(qiáng)效果，但當(dāng)噪聲欠估計(jì)，則會(huì)導(dǎo)致增強(qiáng)后噪聲存留較多。上述是最基本的幅度譜減法的原理。實(shí)驗(yàn)配置：該仿真實(shí)驗(yàn)的數(shù)據(jù)來(lái)源于自建文件夾里面的一段干凈語(yǔ)音信號(hào)，共一位人說(shuō)話，只有一句英文，噪聲由系統(tǒng)隨機(jī)生成的高斯白噪聲，帶噪語(yǔ)音由二者相加得到。通過(guò)人為調(diào)整噪聲系數(shù)以得到不同信噪比下帶噪語(yǔ)音增強(qiáng)研究進(jìn)行對(duì)比。噪聲系數(shù)取值分別為0.05、0.04、0.02和0.01。實(shí)驗(yàn)采用窗長(zhǎng)為256的漢明窗，幀間重疊50%取值，最后需除去漢明窗引起的增益。實(shí)驗(yàn)仿真結(jié)果如下：N=0.05時(shí)譜減前信噪比SNR1=-0.3864db譜減后SNR2=5.2068db3.1.2譜減法語(yǔ)音增強(qiáng)仿真結(jié)果圖（1）n=0.04時(shí)帶噪語(yǔ)音語(yǔ)音信噪比SNR1=1.8332db增強(qiáng)后信噪比SNR2=6.5320db3.1.3譜減法語(yǔ)音增強(qiáng)仿真結(jié)果圖（2）n=0.02時(shí)增強(qiáng)前SNR1=7.0305db增強(qiáng)后SNR2=11.1236db3.1.4譜減法語(yǔ)音增強(qiáng)仿真結(jié)果圖（3）n=0.01時(shí)增強(qiáng)前SNR1=12.5197db增強(qiáng)后SNR2=15,0896db3.1.5譜減法語(yǔ)音增強(qiáng)仿真結(jié)果圖（4）實(shí)驗(yàn)結(jié)論：從實(shí)驗(yàn)仿真結(jié)果對(duì)比可看出，噪聲系數(shù)越小即信噪比越大時(shí)，譜減法進(jìn)行語(yǔ)音增強(qiáng)后整體得到的語(yǔ)音越接近原始干凈噪聲，也就越準(zhǔn)確。單就每個(gè)信噪比下的實(shí)驗(yàn)而言，語(yǔ)音幅度越大的位置增強(qiáng)效果越好，而語(yǔ)音幅度比較小的位置，在低信噪比下很容易造成語(yǔ)音失真。譜減法整體增強(qiáng)效果不錯(cuò)，主要語(yǔ)音信息特征能夠很好還原，但仍舊存在很多噪點(diǎn)。其實(shí)現(xiàn)過(guò)程比較簡(jiǎn)單，計(jì)算量小，但在低信噪比時(shí)增強(qiáng)效果較差，不僅有較多噪聲殘留，且回有較多語(yǔ)音失真。3.1.2維納濾波法維納濾波法距今已有幾十年歷史，已經(jīng)不斷得到完善和改進(jìn)。其的本質(zhì)就是從噪聲中提取信號(hào)的過(guò)濾和預(yù)測(cè)的方法，并以估計(jì)的結(jié)果與信號(hào)真值之間的誤差的最小均方值作為最佳準(zhǔn)則，是統(tǒng)計(jì)意義上的最佳濾波器。維納濾波法分時(shí)域和頻域波兩種形式，時(shí)域維納濾波原理如下：3.2.1維納濾波時(shí)域原理圖假設(shè)輸入待噪語(yǔ)音信號(hào)y(x)和期望輸出干凈語(yǔ)音信號(hào)d(x)為高斯平穩(wěn)過(guò)程，則系統(tǒng)輸出誤差表示為：其中，為系統(tǒng)濾波器系數(shù)，為輸入向量。再利用最小均方準(zhǔn)則求解最優(yōu)濾波器系數(shù)：其中為輸入信號(hào)和期望信號(hào)互相關(guān)；為輸入信號(hào)自相關(guān)矩陣；對(duì)W進(jìn)行求偏導(dǎo)并解出維納霍夫-方程得濾波器最優(yōu)系數(shù)：頻域維納濾波法實(shí)現(xiàn)過(guò)程如下：濾波后系統(tǒng)輸出可寫為:則誤差估計(jì)可寫為那么均方誤差化簡(jiǎn)為其中，是輸入信號(hào)y(x)和期望信號(hào)d(x)的互功率譜；是輸入信號(hào)y(x)的功率譜。對(duì)誤差求偏導(dǎo)并令其為零可解得：頻域最佳濾波器系數(shù)顯然頻域維納濾波法的解可由時(shí)域維納濾波器解通過(guò)傅里葉變換得到。實(shí)驗(yàn)配置：實(shí)驗(yàn)數(shù)據(jù)來(lái)源于自建文件夾中的一段干凈語(yǔ)音信號(hào)，共一位人聲，一句英文語(yǔ)音。再由函數(shù)Gnoisegen(x,snr)產(chǎn)生固定信噪比的帶噪語(yǔ)音信號(hào)，分別取SNR=0、SNR=5和SNR=10的情況。幀長(zhǎng)為25ms，幀移比例取0.4即10ms，設(shè)置IS=0.15，加漢明窗，在非話幀更新噪聲譜值，最終對(duì)所有語(yǔ)音信號(hào)進(jìn)行幅值歸一化處理。實(shí)驗(yàn)結(jié)果如下：增強(qiáng)前snr1=0.0000增強(qiáng)后snr2=5.44073.2.2維納濾波仿真結(jié)果圖（1）增強(qiáng)前snr1=5.0000增強(qiáng)后snr2=8.74853.2.3維納濾波仿真結(jié)果圖（2）增強(qiáng)前snr1=10.0000增強(qiáng)后snr2=12.86523.2.4維納濾波仿真結(jié)果圖（3）實(shí)驗(yàn)結(jié)論：從仿真結(jié)果前后波形對(duì)比可得，維納濾波法進(jìn)行語(yǔ)音增強(qiáng)能很大程度上還原原始語(yǔ)音，但對(duì)細(xì)節(jié)處理不夠，增強(qiáng)后的語(yǔ)音顯得更加平滑，聽(tīng)起來(lái)更加舒適。從語(yǔ)音開(kāi)頭結(jié)尾處的對(duì)比發(fā)現(xiàn)，信噪比越大時(shí)，語(yǔ)音還原越準(zhǔn)確，低信噪比會(huì)使得較弱語(yǔ)音信號(hào)丟失，且開(kāi)始會(huì)有較明顯的噪聲殘留，對(duì)比增強(qiáng)前后語(yǔ)音信噪比，當(dāng)信噪比越高時(shí)，維納濾波的提升效果會(huì)逐漸減小。3.3.3LMS自適應(yīng)濾波器法在語(yǔ)音降噪中，LMS自適應(yīng)濾波器基礎(chǔ)算法也有其一席之地，所謂自適應(yīng)濾波就是利用前一時(shí)刻已獲得的濾波器參數(shù)等結(jié)果自動(dòng)調(diào)節(jié)當(dāng)前時(shí)刻的濾波器參數(shù)，以適應(yīng)信號(hào)和噪聲未知的或隨機(jī)變化的特性。因此，基于自適應(yīng)濾波器算法的語(yǔ)音降噪適用范圍廣泛且降噪效果較好?；镜腖MS濾波器系統(tǒng)結(jié)構(gòu)如下：3.3.1LMS自適應(yīng)濾波器原理圖如圖所示：輸出信號(hào)y(n)表達(dá)式其中，X(n)為輸入信號(hào)；W(n)是權(quán)重；N是N階濾波器。則誤差為均方誤差為結(jié)合y(n)表達(dá)式可得其中，，為輸入信號(hào)采樣值之間的自相關(guān)矩陣；，是理想輸出信號(hào)與輸入信號(hào)的互相關(guān)。若要求均方誤差達(dá)到最小值時(shí)的最優(yōu)權(quán)重，則有即：計(jì)算可得最佳權(quán)重此時(shí)的最小均方誤差用最陡下降原則的迭代算法得其中，為收斂因子；是n次迭代的梯度。以上便是基本的LMS自適應(yīng)濾波器算法原理，其實(shí)現(xiàn)簡(jiǎn)單且性能穩(wěn)定。實(shí)驗(yàn)配置：實(shí)驗(yàn)數(shù)據(jù)干凈語(yǔ)音信號(hào)與前面維納濾波法中的語(yǔ)音數(shù)據(jù)相同，是相同的人聲和同樣的一句英文語(yǔ)音。噪聲是由系統(tǒng)隨機(jī)生成，先經(jīng)過(guò)濾波后利用add_noisedata函數(shù)按照指定信噪比合成帶噪語(yǔ)音信號(hào)，取信噪比分為為0、5和10的情況，F(xiàn)IR濾波器由fir1函數(shù)產(chǎn)生，其中N=32，Wn=0.5，使用漢明窗加窗。實(shí)驗(yàn)結(jié)果如下:增強(qiáng)前snr1=-0.0000增強(qiáng)后snr2=13.2515snr=13.25153.3.2LMS自適應(yīng)濾波仿真結(jié)果圖（1）增強(qiáng)前snr1=5.0000增強(qiáng)后snr2=16.2345snr=11.23453.3.3LMS自適應(yīng)濾波仿真結(jié)果圖增強(qiáng)前snr1=10.0000增強(qiáng)后snr2=16.5162snr=6.51623.3.4LMS自適應(yīng)濾波仿真結(jié)果圖（3）實(shí)驗(yàn)結(jié)論：從仿真結(jié)果對(duì)比波形圖可以看出，基于LMS濾波器語(yǔ)音增強(qiáng)后語(yǔ)音最開(kāi)始會(huì)有殘留噪聲，原因是因?yàn)闉V波器有延遲，信噪比越低時(shí)前端噪聲殘留越多。其他地方總體降噪效果不錯(cuò)，明顯噪聲能夠有效過(guò)濾，相比譜減法和維納濾波法，LMS濾波器法語(yǔ)音增強(qiáng)信噪比改善更加明顯。3.2有監(jiān)督訓(xùn)練的語(yǔ)音增強(qiáng)算法針對(duì)上述傳統(tǒng)單聲道語(yǔ)音增強(qiáng)算法中存在的問(wèn)題和缺陷，人們開(kāi)始思考并提出了有監(jiān)督學(xué)習(xí)的語(yǔ)音增強(qiáng)算法。在有監(jiān)督學(xué)習(xí)的語(yǔ)音增強(qiáng)算法中，有基于隱馬爾科夫模型語(yǔ)音增強(qiáng)、基于字典學(xué)習(xí)和稀疏表示類語(yǔ)音增強(qiáng)、基于深度神經(jīng)網(wǎng)絡(luò)語(yǔ)音增強(qiáng)算法等。大體可分為兩類，一類是主要利用干凈語(yǔ)音信號(hào)獲得碼本先驗(yàn)信息，再結(jié)合傳統(tǒng)語(yǔ)音增強(qiáng)算法實(shí)現(xiàn)語(yǔ)音增強(qiáng)；另一類是完全利用數(shù)據(jù)本身進(jìn)行學(xué)習(xí)干凈語(yǔ)音和噪聲之間的特征和參數(shù)，然后對(duì)帶噪語(yǔ)音信號(hào)進(jìn)行匹配來(lái)實(shí)現(xiàn)語(yǔ)音增強(qiáng)。第一類所需的訓(xùn)練數(shù)據(jù)量比較小、模型簡(jiǎn)單；第二類一般情況下需要數(shù)據(jù)量越好，語(yǔ)音增強(qiáng)的效果越好，但超過(guò)某一臨界值則會(huì)導(dǎo)致過(guò)擬合現(xiàn)象。有監(jiān)督的語(yǔ)音增強(qiáng)算法又可分為兩個(gè)階段：訓(xùn)練階段和增強(qiáng)階段。訓(xùn)練階段首先通過(guò)學(xué)習(xí)干凈語(yǔ)音和噪聲數(shù)據(jù)得到各種的特性和參數(shù)，然后利用反向錯(cuò)誤傳播算法進(jìn)行有監(jiān)督調(diào)優(yōu)（調(diào)整參數(shù)）。增強(qiáng)階段先進(jìn)行特征提取，然后將其輸入到訓(xùn)練好的模型中進(jìn)行進(jìn)行解碼，實(shí)現(xiàn)語(yǔ)音增強(qiáng)。本文主要描述基于深度神經(jīng)網(wǎng)絡(luò)的語(yǔ)音增強(qiáng)算法。第四章基于深度學(xué)習(xí)的單聲道語(yǔ)音增強(qiáng)深度學(xué)習(xí)是語(yǔ)音增強(qiáng)的一種算法，是由最初的淺層人工神經(jīng)網(wǎng)絡(luò)發(fā)展而來(lái)，淺層神經(jīng)網(wǎng)絡(luò)層數(shù)較少規(guī)模小、且訓(xùn)練數(shù)據(jù)量小，因此系統(tǒng)無(wú)法精確表示帶噪語(yǔ)音和干凈語(yǔ)音之間的非線性映射關(guān)系，泛化能力弱，再加上沒(méi)有很好的初始化方案，因此當(dāng)時(shí)表現(xiàn)并不出色。神經(jīng)網(wǎng)絡(luò)一般由輸入層、隱層、輸出層組成，深度神經(jīng)網(wǎng)絡(luò)是層數(shù)較多、網(wǎng)絡(luò)結(jié)構(gòu)較為復(fù)雜的人工神經(jīng)網(wǎng)絡(luò)，一般其隱層數(shù)大于三層。使用深度學(xué)習(xí)解決語(yǔ)音增強(qiáng)問(wèn)題，即從數(shù)據(jù)中學(xué)習(xí)帶噪語(yǔ)音和干凈語(yǔ)音的非線性映射關(guān)系，由此得到干凈語(yǔ)音信號(hào)。深度神經(jīng)網(wǎng)絡(luò)框架示意圖如下：4.1深度神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)圖網(wǎng)絡(luò)中的每個(gè)節(jié)點(diǎn)都可看成一個(gè)感知機(jī)，輸入層輸入的一般是語(yǔ)音特征，而隱層各個(gè)節(jié)點(diǎn)處的激活函數(shù)為非線性激活函數(shù)，輸出層的激活函數(shù)可以使線性激活函數(shù)。4.1深度神經(jīng)網(wǎng)絡(luò)模型基于深度學(xué)習(xí)的語(yǔ)音增強(qiáng)算法和上述傳統(tǒng)算法相比，幾乎不需要什么假設(shè)，避免了一些不合理假設(shè)對(duì)語(yǔ)音增強(qiáng)效果的影響，并且具有很好的非線性擬合能力。基于深度學(xué)習(xí)的語(yǔ)音增強(qiáng)系統(tǒng)框架如下：4.1.1基于深度學(xué)習(xí)的語(yǔ)音增強(qiáng)系統(tǒng)框圖整個(gè)過(guò)程分為兩大步：訓(xùn)練和增強(qiáng)。在訓(xùn)練階段需要大量干凈語(yǔ)音和各種各樣的噪聲樣本，根據(jù)加性噪聲模型，將其通過(guò)相加構(gòu)造大量帶噪語(yǔ)音語(yǔ)音樣本，得到各個(gè)信噪比下的帶噪語(yǔ)音和干凈語(yǔ)音數(shù)據(jù)對(duì)，也稱平行語(yǔ)料，如下所示：上式中的調(diào)節(jié)參數(shù)用來(lái)控制信噪比。然后進(jìn)行特征提取，輸入DNN系統(tǒng)用作訓(xùn)練DNN模型，學(xué)習(xí)帶噪語(yǔ)音和干凈語(yǔ)音之間的非線性映射關(guān)系。DNN訓(xùn)練過(guò)程又可分為兩部分：無(wú)監(jiān)督預(yù)訓(xùn)練（也叫前向傳播）和和基于反向傳播算法的有監(jiān)督調(diào)優(yōu)。前向傳播是指數(shù)據(jù)樣本特征從輸入層輸入后，依次逐層向后傳播進(jìn)行線性計(jì)算，將前一層的輸出用作后一層的輸入直到最后一層輸出層，輸出一個(gè)經(jīng)過(guò)計(jì)算的估計(jì)值。第n曾第i個(gè)節(jié)點(diǎn)（神經(jīng)元）處的輸出可表示為：其中，表示第n-1層的第k個(gè)神經(jīng)元與第n層的第i個(gè)神經(jīng)元之間的權(quán)重，表示第n層第i個(gè)神經(jīng)元的偏置，表示激活函數(shù)。反向傳播調(diào)優(yōu)則與前向傳播恰好相反，是從輸出層開(kāi)始出發(fā)，將目標(biāo)語(yǔ)音特征作為輸入向前計(jì)算，以更新整個(gè)DNN的權(quán)重和偏置，最常使用的是梯度下降法。多次迭代以上算法即可得到較合適的初始化參數(shù)?？梢?jiàn)輸入特征和訓(xùn)練目標(biāo)是訓(xùn)練過(guò)程必不可少的因素，極大影響了后面增強(qiáng)部分的系統(tǒng)性能，一個(gè)好的訓(xùn)練目標(biāo)可以有效保證語(yǔ)音的不失真。增強(qiáng)階段是DNN的核心部分，將需要進(jìn)行語(yǔ)音增強(qiáng)的帶噪語(yǔ)音中提取的特征信息，輸入到前面訓(xùn)練好的DNN網(wǎng)絡(luò)系統(tǒng)的輸入層，按照已經(jīng)調(diào)整好的系統(tǒng)參數(shù)逐層進(jìn)行計(jì)算，將前一層的輸出用作后一層的輸入知道輸出層輸出結(jié)果，然后用語(yǔ)音增強(qiáng)后的特征進(jìn)行波形重構(gòu)，得到目標(biāo)干凈語(yǔ)音。4.2基于卷積神經(jīng)網(wǎng)絡(luò)的語(yǔ)音增強(qiáng)算法基于深度神經(jīng)網(wǎng)絡(luò)的語(yǔ)音增強(qiáng)算法對(duì)非平穩(wěn)噪聲的抑制能力較強(qiáng)、語(yǔ)音增強(qiáng)效果顯著，因此這幾年得到人們的廣泛關(guān)注和應(yīng)用，并發(fā)展出了多種神經(jīng)網(wǎng)絡(luò)模型，例如：卷積神經(jīng)網(wǎng)絡(luò)（CNN）、循環(huán)神經(jīng)網(wǎng)絡(luò)（RNN）、和生成對(duì)抗網(wǎng)絡(luò)（GAN）。由于本文篇幅有限，只著重討論其中一種神經(jīng)網(wǎng)絡(luò)——卷積神經(jīng)網(wǎng)絡(luò)。卷積神經(jīng)網(wǎng)絡(luò)是深度學(xué)習(xí)的代表算法之一，其名稱來(lái)源于該網(wǎng)絡(luò)使用了數(shù)學(xué)中的卷積運(yùn)算方式，使用卷積運(yùn)算方式可以使特征增強(qiáng)，具有很好的泛化能力和適應(yīng)性。最初主要被應(yīng)用于圖像識(shí)別，后來(lái)人們發(fā)現(xiàn)可同樣用于語(yǔ)音識(shí)別并且取得了不錯(cuò)的效果。CNN是一個(gè)前潰式神經(jīng)網(wǎng)絡(luò)，并采用反向傳播算法優(yōu)化網(wǎng)絡(luò)參數(shù)，它的本質(zhì)其實(shí)也是一個(gè)多層感知機(jī)，與其他神經(jīng)網(wǎng)絡(luò)相同的是由大量神經(jīng)元連接而成，同樣要經(jīng)過(guò)訓(xùn)練和增強(qiáng)兩個(gè)步驟。但相比一般的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)，CNN的優(yōu)勢(shì)是采用了局部連接（卷積層中的神經(jīng)元只與部分相鄰層之間的神經(jīng)元連接）和權(quán)值共享（也就是共享卷積核），這種結(jié)構(gòu)大大減少了神經(jīng)網(wǎng)絡(luò)中的參數(shù)，優(yōu)化了網(wǎng)絡(luò)，降低了網(wǎng)絡(luò)模型的復(fù)雜度。因此卷積神經(jīng)網(wǎng)絡(luò)中的參數(shù)個(gè)數(shù)與神經(jīng)元的個(gè)數(shù)無(wú)關(guān)，而與濾波器大小和濾波器的種類有關(guān)。局部感受野使得每個(gè)神經(jīng)元不用對(duì)全部輸入特征感受，只進(jìn)行局部對(duì)比，最后將所有特征綜合起來(lái)即可得到整體結(jié)果。權(quán)值共享是指是指不同神經(jīng)元之間共享參數(shù)，即對(duì)整體用同一個(gè)卷積核進(jìn)行卷積運(yùn)算。卷積神經(jīng)網(wǎng)絡(luò)由輸入層、卷積層、池化層（也叫下采樣層）、全連接層和輸出層組成。經(jīng)輸入層輸入后第一層一定是卷積層，卷積層和池化層交替連接，共同用來(lái)提取特征。4.2.1卷積層低隱層中的第一層是卷積層，用來(lái)提取輸入最近基本的特征，其由許多卷積單元組曾。卷積層參數(shù)主要包括感受野（filter)大小、步長(zhǎng)（stride)以及邊界填充（pad）。感受野大小就是卷積核大小，其不能超過(guò)輸入尺寸；步長(zhǎng)決定了感受野以何種速度進(jìn)行平移計(jì)算；而邊界填充用于避免丟失特征圖邊緣信息。卷積層的運(yùn)算過(guò)程如下圖所示：假設(shè)輸入一個(gè)5*5的數(shù)組，邊界填充為1，則尺寸變成了7*7，設(shè)定卷積核為3*3進(jìn)行卷積運(yùn)算，步長(zhǎng)為2。4.2.1卷積運(yùn)算示意圖計(jì)算表達(dá)式：其中，表示輸出特征，表示卷積核第i行第j列元素，表示輸入第i行第j列元素，b表示偏置。在語(yǔ)音識(shí)別中，將帶噪語(yǔ)音特征作為網(wǎng)絡(luò)的輸入，看作一個(gè)數(shù)組，預(yù)先定義好三個(gè)參數(shù)，使用感受野進(jìn)行卷積運(yùn)算。從原值輸入特征數(shù)組的左上角開(kāi)始，取與感受野相同大小模塊與感受野進(jìn)行卷積運(yùn)算，然后按照步長(zhǎng)以后往后挪動(dòng)到下一個(gè)與感受野大小相同的板塊進(jìn)行運(yùn)算，以此類推到最后一個(gè)，運(yùn)算結(jié)束即可得到一個(gè)feathermap。4.2.2池化層池化層也叫子采樣層，顧名思義，是對(duì)經(jīng)過(guò)上一輪卷積運(yùn)算過(guò)后的特征圖進(jìn)行子采樣，進(jìn)一步提取主要特征，目的是壓縮特征圖，使計(jì)算量大大減少。與卷積層相互配合共同完成特征的提取，與卷積層相同的時(shí)，池化層也有一個(gè)池化核，作用跟卷積核大同小異，不過(guò)不再是進(jìn)行卷積運(yùn)算，而分為兩種方式：最大池化和均勻池化。最大池化即在輸入特征圖中與池化核大小相等的區(qū)域中每次取最大值；均值池化則是在每個(gè)區(qū)域中取平均值。它們用該區(qū)域的最大值或平均值表示壓縮后的特征，雖然可以簡(jiǎn)化模型但也同時(shí)降低了特征精確度。具體操作示意圖如下所示：4.2.2池化運(yùn)算示意圖4.2.3全連接層全連接層一般是卷積神經(jīng)網(wǎng)絡(luò)的最后一層，不同于卷積層之間的局部鏈接方式，采用softmax全連接方式，即這層每個(gè)神經(jīng)元與鄰層神經(jīng)元之間都有連接，那么這樣一來(lái)參數(shù)較多，計(jì)算較為復(fù)雜，但是全連接層并不是必須的，最好是該網(wǎng)絡(luò)盡量不采用全連接層就可實(shí)現(xiàn)目標(biāo)功能。如果說(shuō)卷積/池化層的作用相當(dāng)于濾波器，那么全鏈接層的作用相當(dāng)于一個(gè)分類器。該層需要一個(gè)輸入值，該數(shù)值是輸出分類的類別數(shù)，全連接層就用來(lái)查看上一層的輸出特征最有可能與哪幾類相關(guān)，然后輸出一個(gè)n維數(shù)組。4.2.4經(jīng)典卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)以下是目前廣為人知的幾種經(jīng)典卷機(jī)網(wǎng)絡(luò)結(jié)構(gòu)以及它們的各自特點(diǎn)：表4-1幾種卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)特點(diǎn)名稱特點(diǎn)LeNet是人們研究出的第一個(gè)卷積神經(jīng)網(wǎng)絡(luò)AlexNet贏得了2012年ILSVRC的冠軍，自此得到人們廣泛關(guān)注，CNN網(wǎng)絡(luò)得到迅速發(fā)展；采用ReLU作為激活函數(shù)；采用局部歸一化處理VGGNet16-19層網(wǎng)絡(luò)；全部采用3*3的卷積核和2*2的池化核，用多層小卷積代替一層大卷積，減少了網(wǎng)絡(luò)參數(shù)；他強(qiáng)調(diào)了卷積神經(jīng)網(wǎng)絡(luò)深度對(duì)性能提升的意義GoogleNet采用22層神經(jīng)網(wǎng)絡(luò)、稀疏連接以及Inception結(jié)構(gòu)，解決了過(guò)擬合問(wèn)題；提升了了對(duì)網(wǎng)絡(luò)內(nèi)部資源的利用ResNet有152層；跳躍式結(jié)構(gòu)，提出了殘差學(xué)習(xí)，通過(guò)恒等映射解決網(wǎng)絡(luò)層數(shù)過(guò)多導(dǎo)致的梯度爆炸問(wèn)題第五章總結(jié)與展望5.1本文總結(jié)語(yǔ)音增強(qiáng)在各個(gè)領(lǐng)域都有著十分重要的意義，傳統(tǒng)單聲道語(yǔ)音增強(qiáng)雖然是語(yǔ)音增強(qiáng)中最基礎(chǔ)的研究，但在該領(lǐng)域中極具代表性，適合作為初學(xué)者入門階段研究?jī)?nèi)容。本文也是主要研究對(duì)比傳統(tǒng)單聲道語(yǔ)音增強(qiáng)算法中的幾種經(jīng)

人人文庫(kù)> 全部分類> 行業(yè)資料 > 工業(yè)設(shè)計(jì)

溫馨提示

1. 本站所有資源如無(wú)特殊說(shuō)明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽，若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間，僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理，對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容，請(qǐng)與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

【基于CNN網(wǎng)絡(luò)的語(yǔ)音增強(qiáng)模型探究（論文）14000字】

文檔簡(jiǎn)介

溫馨提示

最新文檔

評(píng)論

【基于CNN網(wǎng)絡(luò)的語(yǔ)音增強(qiáng)模型探究（論文）14000字】

文檔簡(jiǎn)介

溫馨提示

最新文檔

評(píng)論

相關(guān)文檔