語(yǔ)音信號(hào)處理期末復(fù)習(xí)_第1頁(yè)
語(yǔ)音信號(hào)處理期末復(fù)習(xí)_第2頁(yè)
語(yǔ)音信號(hào)處理期末復(fù)習(xí)_第3頁(yè)
語(yǔ)音信號(hào)處理期末復(fù)習(xí)_第4頁(yè)
語(yǔ)音信號(hào)處理期末復(fù)習(xí)_第5頁(yè)
已閱讀5頁(yè),還剩61頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

考試時(shí)間和地點(diǎn)12月26日(周四)14:00-15:40地點(diǎn):4-202復(fù)習(xí)課第一章緒論一些語(yǔ)音處理的應(yīng)用領(lǐng)域語(yǔ)音壓縮語(yǔ)音合成語(yǔ)音識(shí)別說話人識(shí)別……什么是語(yǔ)音語(yǔ)音是人類發(fā)音器官發(fā)出的、具有一定意義的、能起社會(huì)交際作用的聲音。能夠代表一定的意義,這是語(yǔ)言的聲音同自然界其他一切聲音的本質(zhì)區(qū)別。自然的風(fēng)聲、水聲、動(dòng)物叫聲(不來自人體發(fā)音器官,無明確意義)吹口哨,打鼾,口技(來自發(fā)音器官,但五明確意義,不能交際)什么是語(yǔ)音處理語(yǔ)音信號(hào)處理簡(jiǎn)稱語(yǔ)音處理,是以語(yǔ)音學(xué)和數(shù)字信號(hào)處理為基礎(chǔ)而形成的一門綜合性學(xué)科。處理的目的是要得到一些語(yǔ)音參數(shù)以便高效地傳輸或存儲(chǔ),或者通過處理的某種運(yùn)算以達(dá)到某種用途的要求,例如人工合成出語(yǔ)音,辨識(shí)出說話者,識(shí)別講話的內(nèi)容等。它包括語(yǔ)音編碼、語(yǔ)音合成、語(yǔ)音識(shí)別和說話人識(shí)別四大分支。(下面簡(jiǎn)單介紹)語(yǔ)音的物理屬性物理聲學(xué)認(rèn)為聲波具有響度音調(diào)音色三種要素。第二章語(yǔ)音信號(hào)處理

的基礎(chǔ)知識(shí)語(yǔ)音構(gòu)成音素是語(yǔ)音的最小構(gòu)成單位根據(jù)聲帶是否振動(dòng),音素可以分為濁音和清音濁音由聲帶振動(dòng)產(chǎn)生的音為濁音包括所有原音和一些輔音清音不由聲帶振動(dòng)產(chǎn)生的音為清音包括另一部分輔音人體發(fā)聲的部位聲帶——震動(dòng)的來源Tp為基音周期,倒數(shù)為基音頻率,用fp表示,取決于聲帶的尺寸和特性男性說話者的fp大致分布在60-200Hz范圍內(nèi)女性說話者和小孩的fp值在200-450Hz范圍內(nèi)同一個(gè)人所發(fā)出的聲音有高低變化,是靠控制聲帶的松緊來調(diào)節(jié)的。2.4語(yǔ)音信號(hào)的數(shù)字模型(重點(diǎn))語(yǔ)音信號(hào)的產(chǎn)生模型(p7,圖2-3)激勵(lì)模型聲管模型共振峰模型輻射模型聲道的模型聲門的模型口唇的模型平均意見得分(MOS)MOS得分采用5級(jí)評(píng)分標(biāo)準(zhǔn)MOS得分質(zhì)量等級(jí)失真級(jí)別5優(yōu)不覺察4良剛有覺察3可有覺察且稍有可厭2差明顯覺察且可厭但可忍受1壞不可忍受第三章語(yǔ)音信號(hào)的

時(shí)域分析語(yǔ)音信號(hào)的穩(wěn)態(tài)——幀的概念語(yǔ)音自身從長(zhǎng)時(shí)間看是非穩(wěn)態(tài)過程,從短時(shí)間看是相對(duì)穩(wěn)定的,既“短時(shí)性”。將語(yǔ)音分為一段一段的,每一段稱為“一幀”,大概時(shí)間為10-30ms短時(shí)時(shí)域分析是語(yǔ)音處理的基本方法,也是最直觀、最易理解的方法3.3短時(shí)能量分析短時(shí)能量定義短時(shí):通過加窗來實(shí)現(xiàn)能量:通過求信號(hào)幅度的平方來實(shí)現(xiàn)窗的位置隨n變化窗的類型直角窗(矩形窗)窗的類型海明窗(Hamming,也稱漢明窗,升余弦)時(shí)域比較直角窗海明窗頻域?qū)Ρ龋ㄗ⒁饪v坐標(biāo)不同)直角窗海明窗短時(shí)平均幅度MnEn需要將信號(hào)求平方,大信號(hào)急劇變大,要求動(dòng)態(tài)范圍大Mn只是取絕對(duì)值,不需增加額外的動(dòng)態(tài)范圍其功能與能量是一樣的,區(qū)分清、濁音等3.4短時(shí)過零分析過零率短時(shí)過零分析:過零率就是每秒內(nèi)信號(hào)值通過零值的次數(shù),短時(shí)過零就是指在一段時(shí)間內(nèi)(一幀內(nèi))平均的過零率。對(duì)于窄帶信號(hào),是很好的統(tǒng)計(jì)其頻率特性的參數(shù)最典型的是正弦波(單一頻率)3.5短時(shí)相關(guān)分析3.5.1短時(shí)自相關(guān)函數(shù)自相關(guān)函數(shù)短時(shí)自相關(guān)函數(shù)3.5.2修正的短時(shí)自相關(guān)函數(shù)為了解決窗口長(zhǎng)度對(duì)自相關(guān)函數(shù)的影響原函數(shù)修正函數(shù)作業(yè):計(jì)算序列{0,1,2,3,0,1,2,3,0,1,2,3}求:1.窗口長(zhǎng)度為10的自相關(guān)函數(shù)2.窗口長(zhǎng)度為6的自相關(guān)函數(shù)3.窗口長(zhǎng)度為6的修正自相關(guān)函數(shù)第四章語(yǔ)音信號(hào)的

頻域分析語(yǔ)音信號(hào)的頻域分析本質(zhì):加窗后進(jìn)行傅里葉變換適合語(yǔ)音的短時(shí)性同時(shí)得到語(yǔ)音的時(shí)間、頻率特性時(shí)間分辨率與頻譜分辨率魚和熊掌不能兼得?。。36下半部分對(duì)于直角窗,頻域第一個(gè)過零點(diǎn)N越大,主瓣越窄,頻率分辨率越高,但時(shí)域分辨率越低,其實(shí),當(dāng)N大于一個(gè)語(yǔ)素,就失去分析的意義語(yǔ)譜圖第五章語(yǔ)音信號(hào)的

同態(tài)分析目前解卷的算法主要有兩種同態(tài)分析線性預(yù)測(cè)分析同態(tài)分析也稱“倒譜分析”解卷的原理倒譜的作用:(1)區(qū)分清/濁音(2)求濁音的基音周期,可以得到濁音的激勵(lì)信號(hào)。(3)得到聲道的沖激響應(yīng)h(n)第六章語(yǔ)音信號(hào)的

線性預(yù)測(cè)分析線性預(yù)測(cè)的概念P61頁(yè)第四段基本概念:一個(gè)(當(dāng)前的)語(yǔ)音抽樣值可以用過去若干個(gè)抽樣值的線性組合來逼近。線性組合的系數(shù)可以通過計(jì)算采樣值與預(yù)測(cè)值的差別(如最小均方誤差)等方法得到。第七章語(yǔ)音信號(hào)的

矢量量化矢量量化的過程以2維矢量量化為例過程見黑板重要的變量(p84最上面)矢量譯碼見黑板傳輸中只傳區(qū)域的代碼Yi,數(shù)據(jù)量小,且具有一定的保密性量化誤差第八章隱馬爾科夫模型

(HMM)HMM的獨(dú)到之處我們已學(xué)過的所有算法(短時(shí)傅里葉,線性預(yù)測(cè),……)都是基于平穩(wěn)過程的語(yǔ)音本身是時(shí)變的,不平穩(wěn)的所以需要將語(yǔ)音分幀所以以上方法只能提取獨(dú)立的幀內(nèi)特征HMM能掌握語(yǔ)音長(zhǎng)時(shí)間的特性,不需要分幀第9章基音提取和

共振峰估計(jì)提取基音周期的方法自相關(guān)法并行處理法倒譜法線性預(yù)測(cè)譜第十章語(yǔ)音信號(hào)的

波形編碼語(yǔ)音編碼的分類(很重要)分為:波形編碼、聲碼器和混合型波形編碼聲碼器編碼信息波形盡量恢復(fù)波形短時(shí)譜包絡(luò)音源信息(音調(diào)、幅度、濁/清音)數(shù)碼率32~64kbit/s中、寬帶2.4~16kbit/s窄帶,甚至低于1.2k適用對(duì)象任何聲音人講話的聲音優(yōu)點(diǎn)還原的聲音質(zhì)量高,可懂度和自然度都較好可以分別說話的人壓縮率高可懂度較好自然度不好,不好分別說話人存在問題由于受量化噪聲的限制,降低碼率較困難環(huán)境噪聲使語(yǔ)音質(zhì)量下降誤碼是語(yǔ)音質(zhì)量下降,提高語(yǔ)音質(zhì)量困難,處理復(fù)雜典型方式時(shí)域:PCM,ADPCM,DM,ADM,APC頻域:SBC,ATC通道聲碼器,共振峰聲碼器,同態(tài)聲碼器,LPC聲碼器常用波形編碼方式PCM,非均勻PCM預(yù)測(cè)編碼及其自適應(yīng)APC自適應(yīng)差分脈沖編碼調(diào)制(ADPCM)及自適應(yīng)增量調(diào)試(ADM)子帶編碼(SBC)自適應(yīng)變換編碼(ATC)數(shù)字化分為兩步:采樣和量化采樣精度至少11bit(保證信噪比不低于60dB)語(yǔ)音質(zhì)量廣播質(zhì)量長(zhǎng)途電話質(zhì)量通信質(zhì)量合成質(zhì)量質(zhì)量高質(zhì)量低10.3.2非均勻量化PCMA律和μ律輸出的數(shù)據(jù)率為64kb/s。CCITT推薦的G.711標(biāo)準(zhǔn)A律(A-Law)壓擴(kuò)(G.711)主要用在歐洲和中國(guó)大陸等地區(qū)的數(shù)字電話通信中m

律(m-Law)壓擴(kuò)(G.711)主要用在北美和日本等地區(qū)的數(shù)字電話通信中10.5.2增量調(diào)制(DM)及ADM增量調(diào)制(DM:DeltaModulation)提高取樣率后,只用1bit來量化斜率過載散彈噪聲第11章聲碼器編碼相位聲碼器(p136)類似子帶編碼在頻域?qū)⒄Z(yǔ)音信號(hào)分為多個(gè)子帶,每個(gè)子帶非常窄,大概100Hz只對(duì)子帶內(nèi)的“幅度”和“相位的導(dǎo)數(shù)”直接編碼通道聲碼器(p137)與相位聲碼器類似保留頻譜幅度和基音周期,不對(duì)“相位的導(dǎo)數(shù)”編碼實(shí)際上,編碼內(nèi)容近似為聲音信號(hào)的頻譜包絡(luò),而頻譜包絡(luò)比聲音信號(hào)本身變化慢的多第12章語(yǔ)音合成語(yǔ)音合成分類分為三類波形合成參數(shù)合成規(guī)則合成(最難的,直接閱讀文本)第13章語(yǔ)音識(shí)別13.1概述定義:研究使機(jī)器能準(zhǔn)確地聽出人的語(yǔ)音內(nèi)容的問題,即準(zhǔn)確地識(shí)別人所說的話未來,對(duì)著機(jī)器(

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論