聲音信號(hào)處理與項(xiàng)目實(shí)踐 課件 第1章 緒論_第1頁
聲音信號(hào)處理與項(xiàng)目實(shí)踐 課件 第1章 緒論_第2頁
聲音信號(hào)處理與項(xiàng)目實(shí)踐 課件 第1章 緒論_第3頁
聲音信號(hào)處理與項(xiàng)目實(shí)踐 課件 第1章 緒論_第4頁
聲音信號(hào)處理與項(xiàng)目實(shí)踐 課件 第1章 緒論_第5頁
已閱讀5頁,還剩23頁未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

第1章緒論1.1聲音信號(hào)處理的研究?jī)?nèi)容1.2聲音信號(hào)處理的發(fā)展歷史1.3聲音效果評(píng)價(jià)2什么是聲音信號(hào)處理聲音信號(hào)處理的應(yīng)用領(lǐng)域目前的挑戰(zhàn)1.1聲音信號(hào)處理的研究?jī)?nèi)容31.1聲音信號(hào)處理的研究?jī)?nèi)容語音,作為人工智能的重要組成部分和人類最自然的溝通方式之一,是日常生活交流活動(dòng)中不可或缺的媒介。聲音信號(hào)處理是信息科技領(lǐng)域中不可或缺的一環(huán),通過提取分析和修改聲音信號(hào)來改善人類生活的各個(gè)方面。從基本的需求到復(fù)雜的數(shù)據(jù)分析,聲音信號(hào)處理在現(xiàn)代社會(huì)扮演了極其重要的角色。4聲音信號(hào)處理技術(shù)遍及許多領(lǐng)域,如通信系統(tǒng)、醫(yī)療健康、智能駕駛、虛擬現(xiàn)實(shí)等等圖聲音信號(hào)處理技術(shù)的部分應(yīng)用場(chǎng)景1.1聲音信號(hào)處理的研究?jī)?nèi)容51.1聲音信號(hào)處理的研究?jī)?nèi)容研究目標(biāo):主要集中在提高算法性能,提升系統(tǒng)的可用性及穩(wěn)定性以及拓展應(yīng)用的范圍。算法的復(fù)雜性與計(jì)算成本環(huán)境噪聲和回聲的影響深度學(xué)習(xí)和人工智能的整合用戶隱私和數(shù)據(jù)安全61.2.1語音編碼算法的發(fā)展歷史1.2.2語音識(shí)別算法的發(fā)展歷史1.2.3語音去噪及增強(qiáng)算法的發(fā)展歷史1.2.4語音合成轉(zhuǎn)換等其他算法的發(fā)展歷史1.2.5基于語音和視覺信息的多模態(tài)融合方法1.2聲音信號(hào)處理的發(fā)展歷史71.2聲音信號(hào)處理的發(fā)展歷史20世紀(jì)初,聲音信號(hào)處理技術(shù)處于起步階段,技術(shù)手段主要局限于模擬電路。隨著貝爾實(shí)驗(yàn)室在1937年發(fā)明了電子計(jì)算機(jī)上的脈沖編碼調(diào)制(PCM)技術(shù),聲音信號(hào)處理迎來了其第一個(gè)重大突破。820世紀(jì)50年代至70年代,隨著半導(dǎo)體技術(shù)和集成電路的發(fā)展,數(shù)字信號(hào)處理器誕生并逐漸成熟。在此時(shí)期,傅里葉變換等數(shù)學(xué)工具被引入聲音信號(hào)分析,為頻域處理提供了理論基礎(chǔ),成為聲音信號(hào)處理不可或缺的一部分。21世紀(jì),隨著計(jì)算能力的不斷增強(qiáng)和算法的進(jìn)一步優(yōu)化,多通道編碼、音頻技術(shù)、聲音識(shí)別和降噪技術(shù)等等技術(shù)產(chǎn)生重大進(jìn)展。1.2聲音信號(hào)處理的發(fā)展歷史91.2.1語音編碼算法的發(fā)展歷史語音編碼方法主要分為以下幾類:脈沖編碼調(diào)制(PCM)、差分脈沖編碼調(diào)制(DifferencePulseCodingModulation,DPCM)、增量調(diào)制(ΔM)、線性預(yù)測(cè)編碼(LinearPredictiveCoding,LPC)、碼激勵(lì)線性預(yù)測(cè)(CodeExcitedLinearPredictiion,CELP)、矢量量化(Vector

Quantization,VQ)、子帶編碼(SubbandCoding,SBC)、變換編碼(TransferCoding,TC)、矢量量化器(VQ)和混合激勵(lì)線性預(yù)測(cè)(Mixed

Excitation

Linear

Prediction,MELP)的結(jié)合。脈沖編碼調(diào)制(PCM)脈沖編碼調(diào)制是最早的數(shù)字語音編碼方法之一它通過將語音信號(hào)采樣為離散的樣值,然后對(duì)這些樣值進(jìn)行量化,最終實(shí)現(xiàn)語音的數(shù)字化PCM技術(shù)最初在20世紀(jì)50年代被提出,并被廣泛應(yīng)用于電話通信中隨著技術(shù)的發(fā)展,PCM的采樣率和量化精度不斷提高,目前已經(jīng)可以實(shí)現(xiàn)高質(zhì)量的語音傳輸圖PCM編碼概述圖差分脈沖編碼調(diào)制(DPCM)圖DPCM編碼概述圖差分脈沖編碼調(diào)制是PCM的一種改進(jìn),它通過預(yù)測(cè)下一個(gè)樣值,并指?jìng)鬏斉c預(yù)測(cè)值之間的差值,從而減少傳輸?shù)臄?shù)據(jù)量,其在音頻壓縮和語音編碼中得到了廣泛應(yīng)用。增量調(diào)制(ΔM)增量調(diào)制是一種簡(jiǎn)單而有效的語音編碼算法,它通過只傳輸樣值之間的增量來減少數(shù)據(jù)量。ΔM算法在20世紀(jì)70年代被提出,并被廣泛應(yīng)用于低比特率語音編碼中。其中最具代表性的算法是μ率編碼和A率編碼,它們已經(jīng)被廣泛應(yīng)用于電話通信和音頻壓縮領(lǐng)域。線性預(yù)測(cè)編碼(LPC)LPC是一種基于語音信號(hào)和線性預(yù)測(cè)模型的數(shù)字語音編碼方法。LPC跨越有效地去除語音信號(hào)中的冗余信息,從而高效地實(shí)現(xiàn)語音壓縮碼激勵(lì)線性預(yù)測(cè)(CELP)CELP是一種基于碼本和線性預(yù)測(cè)模型的數(shù)字語音編碼方法,被廣泛應(yīng)用于低比特率語音編碼中。CELP通過在碼本中搜索與輸入信號(hào)最接近的樣本來實(shí)現(xiàn)高效的語音壓縮。矢量量化(VQ)VQ是一種將輸入信號(hào)與一組已知矢量進(jìn)行比較,并選擇最接近的矢量進(jìn)行傳輸?shù)臄?shù)字語音編碼方法。VQ被廣泛應(yīng)用于音頻壓縮和語音編碼中。其中最具代表性的算法是多頻帶矢量化(MB-VQ)和格型矢量量化(LVQ)。圖VQ編碼概述圖子帶編碼(SBC)圖SBC編碼概述圖SBC是一種將音頻信號(hào)分解為若干子帶的數(shù)字語音編碼方法,被廣泛應(yīng)用于音頻壓縮和語音編碼中。SBC通過在每個(gè)子帶上應(yīng)用不同的編碼算法來提高音頻壓縮效率。變換編碼(TC)圖TC編碼概述圖TC是一種將音頻信號(hào)從時(shí)域轉(zhuǎn)換到頻域的數(shù)字語音編碼方法,被廣泛應(yīng)用于音頻壓縮和語音編碼中。TC通過去除信號(hào)中的冗余信息來提高音頻壓縮效率。其中最具代表性的算法是離散余弦變換和快速傅里葉變換。161.2.2語音識(shí)別算法的發(fā)展歷史初期階段統(tǒng)計(jì)方法的引入機(jī)器學(xué)習(xí)的應(yīng)用深度學(xué)習(xí)的革命現(xiàn)代技術(shù)與應(yīng)用隱馬爾科夫模型HMM成為主流模型,用于處理語音信號(hào)。引入梅爾頻率倒譜系數(shù)MFCC來提取特征,使得語音信號(hào)的表示更為有效隨著DNN、CNN、RNN等深度學(xué)習(xí)技術(shù)的發(fā)展,在識(shí)別語音情感上表現(xiàn)優(yōu)異1956年,隨著人工智能研究的大門的開啟,對(duì)語音識(shí)別的研究也隨之開始。隨著機(jī)器學(xué)習(xí)的逐步發(fā)展,研究者們結(jié)合多個(gè)模型(如HMM和神經(jīng)網(wǎng)絡(luò))以調(diào)高識(shí)別準(zhǔn)確率目前,語音識(shí)別算法在自監(jiān)督學(xué)習(xí),多模態(tài)學(xué)習(xí)等技術(shù)的進(jìn)步下仍在不斷發(fā)展171.2.3語音去噪及增強(qiáng)算法的發(fā)展歷史數(shù)字語音去噪聲音去噪算法聲音增強(qiáng)算法聲音異常檢測(cè)算法免疫K-奇異值算法譜減法小波分析技術(shù)兩級(jí)語音增強(qiáng)算法正交匹配追蹤算法自適應(yīng)的維納濾波算法音頻事件定位音頻事件識(shí)別181.2.4語音合成轉(zhuǎn)換等其他算法的發(fā)展歷史語音合成轉(zhuǎn)換算法語音合成算法聲音轉(zhuǎn)換算法物理機(jī)理語音合成統(tǒng)計(jì)參數(shù)的語音合成濾波器語音合成基于波形拼接技術(shù)的語音合成矢量量化(VQ)生成對(duì)抗網(wǎng)絡(luò)(GAN)高斯混合模型(GMM)變分自動(dòng)編碼器(VAE)191.2.5基于語音和視覺信息的多模態(tài)融合方法近年來,盡管單模態(tài)聲音識(shí)別任務(wù)取得了一些研究成果,但研究表明,多模態(tài)的識(shí)別任務(wù)效果優(yōu)于單一模態(tài)。研究者們嘗試結(jié)合不同模式的信號(hào),如語音、視覺等信息,從而提高各種識(shí)別任務(wù)的效率和精確度。201.2.5基于語音和視覺信息的多模態(tài)融合方法方法分類:模型無關(guān)的方法和基于模型的方法根據(jù)特征融合的時(shí)期,又可以將模型無關(guān)的方法進(jìn)一步分為:早期融合(基于特征層)、晚期融合(基于決策層)和混合融合模型無關(guān)的特征融合方法圖模型無關(guān)的特征融合方法早期融合方法如圖(a)所示,為解決各模態(tài)中原始數(shù)據(jù)維度不一致的問題,從每種模態(tài)分別提取特征,然后在特征級(jí)別進(jìn)行融合,即特征融合。此外,由于深度學(xué)習(xí)本質(zhì)上會(huì)涉及從原始數(shù)據(jù)中學(xué)習(xí)特征的具體表示,這就導(dǎo)致了有時(shí)可能在沒有抽取特征之前就需要進(jìn)行融合,即數(shù)據(jù)融合。無論是特征層面還是數(shù)據(jù)層面的融合都稱為早期融合。(a)早期融合方法(b)晚期融合方法(c)混合融合方法模型無關(guān)的特征融合方法圖模型無關(guān)的特征融合方法晚期融合方法如圖(b)所示,晚期融合也叫決策級(jí)融合。深度學(xué)習(xí)模型先對(duì)不同的模態(tài)進(jìn)行訓(xùn)練,再融合多個(gè)模型輸出的結(jié)果。當(dāng)模態(tài)之間相關(guān)性比較大時(shí)晚期融合優(yōu)于早期融合,當(dāng)各個(gè)模態(tài)在很大程度上不相關(guān)時(shí),例如維數(shù)和采樣率極不相關(guān),采用晚期融合方法則要更適合。(a)早期融合方法(b)晚期融合方法(c)混合融合方法模型無關(guān)的特征融合方法圖模型無關(guān)的特征融合方法混合融合方法如圖(c)所示,混合融合結(jié)合了早期和晚期融合方法,在綜合了二者優(yōu)點(diǎn)的同時(shí),也增加了模型的結(jié)構(gòu)復(fù)雜度和訓(xùn)練難度。由于深度學(xué)習(xí)模型結(jié)構(gòu)的多樣性和靈活性,比較適合使用混合融合方法,在多媒體、圖像問答任務(wù)、手勢(shì)識(shí)別等領(lǐng)域應(yīng)用得非常廣泛。(a)早期融合方法(b)晚期融合方法(c)混合融合方法模型相關(guān)的特征融合方法圖基于多層LSTM的模型層特征融合方法模型層融合:該方法旨在獲得多種模態(tài)的聯(lián)合特征表示,它的實(shí)現(xiàn)主要取決于使用的融合模型。模型層融合是更深層次的融合方法,為分類和回歸任務(wù)產(chǎn)生更優(yōu)化的聯(lián)合判別特征表示。多層LSTM(Multi-layersLSTM,ML-LSTM)作為模型層融合方法之一,該方法是將多層網(wǎng)絡(luò)與傳統(tǒng)的LSTM模型相結(jié)合,通過充分考慮話語之間的關(guān)系,來使得在學(xué)習(xí)過程中處理話語層面的多模態(tài)融合問題。251.3聲音效果評(píng)價(jià)語音作為信息傳遞的重要載體,與其相關(guān)構(gòu)成的通信、編碼、存儲(chǔ)和處理等語音系統(tǒng)已成為現(xiàn)代社會(huì)信息交流的必要手段,且已廣泛應(yīng)用于社會(huì)各個(gè)領(lǐng)域。這些系統(tǒng)的性能好壞成為信息交流是否暢通的重要因素,而評(píng)價(jià)這些系統(tǒng)性能優(yōu)劣的根本標(biāo)志是在于系統(tǒng)輸出語音質(zhì)量的好壞。可以將語音質(zhì)量評(píng)價(jià)方法分為兩大類:主觀評(píng)價(jià)和客觀評(píng)價(jià)。261.3.1主觀評(píng)價(jià)方法主觀評(píng)價(jià)以人為主體來評(píng)價(jià)語音的質(zhì)量?jī)?yōu)點(diǎn):符合人耳對(duì)語音質(zhì)量的感覺;缺點(diǎn):受人的主觀意識(shí)影響大,成本高,穩(wěn)定性較差且靈活性不夠等語音質(zhì)量常用的方法是平均意見得分(MeanOpinionScore,M

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論