speech2--basicppt_第1頁
speech2--basicppt_第2頁
speech2--basicppt_第3頁
speech2--basicppt_第4頁
speech2--basicppt_第5頁
已閱讀5頁,還剩67頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、語音信號(hào)處理語音信號(hào)處理Speech signal processing張磊張磊 Speech signal processingLecture 2: 語音知識(shí)基礎(chǔ)語音知識(shí)基礎(chǔ)123語音聲學(xué)基礎(chǔ)語音聲學(xué)基礎(chǔ)人耳的聽覺基礎(chǔ)人耳的聽覺基礎(chǔ)信號(hào)處理的基礎(chǔ)信號(hào)處理的基礎(chǔ)Speech signal processingq 什么是聲音聲音是一種空氣振動(dòng)產(chǎn)生的波。q 頻率(Frequency) 單位時(shí)間內(nèi),聲波的周期數(shù),Hz表示q 振幅(Amplitude )波振動(dòng)的大小,一般用dB表示1語音產(chǎn)生的聲學(xué)基礎(chǔ)語音產(chǎn)生的聲學(xué)基礎(chǔ)Speech signal processingq示意圖1語音產(chǎn)生的聲學(xué)基礎(chǔ)語音產(chǎn)生

2、的聲學(xué)基礎(chǔ)機(jī)械振動(dòng)壓力波傳感器振動(dòng)時(shí)變的電壓信號(hào)Speech signal processing1語音產(chǎn)生的聲學(xué)基礎(chǔ)語音產(chǎn)生的聲學(xué)基礎(chǔ) 食道 環(huán)狀軟骨 聲帶 喉管 會(huì)咽 舌根 小舌 口腔 軟腭 鼻咽 硬腭 鼻腔 氣管 甲狀軟骨 舌骨 下顎骨 下唇 牙齒 上唇 齒齦 鼻 Speech signal processingq聲帶(Vocal Cords ) 1014mm在喉部的從喉結(jié)到杓狀軟骨之間的韌帶褶 q聲門(Glottis) 兩個(gè)聲帶之間形成一個(gè)開閉自如的聲門 q 聲道(vocal tract) 17cm 由咽腔、口腔和鼻腔三個(gè)空氣腔體組成 1語音產(chǎn)生的聲學(xué)基礎(chǔ)語音產(chǎn)生的聲學(xué)基礎(chǔ)Speech

3、signal processing1語音產(chǎn)生的聲學(xué)基礎(chǔ)語音產(chǎn)生的聲學(xué)基礎(chǔ) 聲門脈沖聲門脈沖 聲道聲道 語音信號(hào)語音信號(hào) 激勵(lì)信號(hào)激勵(lì)信號(hào) 聲道濾波器聲道濾波器 語音信號(hào)語音信號(hào) 頻譜頻譜 傳遞函數(shù)傳遞函數(shù) 頻譜頻譜 Speech signal processing1語音產(chǎn)生的聲學(xué)基礎(chǔ)語音產(chǎn)生的聲學(xué)基礎(chǔ)Speech signal processingSpeech signal processingSpeech signal processingSpeech signal processingq聲帶源-元音當(dāng)氣流通過氣管和支氣管經(jīng)過咽喉時(shí),收緊的聲帶由于氣流的沖擊產(chǎn)生振動(dòng),不斷的張開;由于聲帶具有

4、一定的韌性,又迅速閉合。這使聲門向上送出一連串噴流。這時(shí)的氣流被截?cái)喑蓽?zhǔn)周期的脈沖,一般用非對(duì)稱的三角波表示。q 渦流聲源-輔音;摩擦音1語音產(chǎn)生的聲學(xué)基礎(chǔ)語音產(chǎn)生的聲學(xué)基礎(chǔ)-聲源聲源Speech signal processingq振動(dòng)(Oscillations)簡(jiǎn)單的純音(pure tone)-音叉發(fā)出的音復(fù)合音(complex tone)-語音;音樂1語音產(chǎn)生的聲學(xué)基礎(chǔ)語音產(chǎn)生的聲學(xué)基礎(chǔ)-聲源聲源Speech signal processingq聲帶振動(dòng)(Relaxation Oscillations)State1: 隨空氣壓力增大而擴(kuò)張階段State2: 由于聲帶自身的彈性恢復(fù)階段1語

5、音產(chǎn)生的聲學(xué)基礎(chǔ)語音產(chǎn)生的聲學(xué)基礎(chǔ)-聲源聲源Speech signal processingSpeech signal processing1語音產(chǎn)生的聲學(xué)基礎(chǔ)語音產(chǎn)生的聲學(xué)基礎(chǔ)-聲源聲源其它21112110 02)(cos)/cos(1 21)(NNnNNnN/n-NNnng T T t1 t2 T T1 (a) 三角波 (b) 多項(xiàng)式波 (c) 濾波器沖激響應(yīng) 0 Speech signal processingSpeech signal processingq濁音(Voiced Sound )當(dāng)聲帶處于收緊狀態(tài)時(shí),流經(jīng)的氣流使聲帶振動(dòng),這時(shí)產(chǎn)生的聲音稱之為濁音 。元音一般全是濁音。q清音

6、(Unvoiced Sound) 不伴有聲帶振動(dòng)的音稱為清音 ,除了m、n、l、r、ng外的輔音基本上是清音。1語音產(chǎn)生的聲學(xué)基礎(chǔ)語音產(chǎn)生的聲學(xué)基礎(chǔ)-聲源聲源Speech signal processing1語音產(chǎn)生的聲學(xué)基礎(chǔ)語音產(chǎn)生的聲學(xué)基礎(chǔ)-聲源聲源開始/ai/k/Speech signal processing1語音產(chǎn)生的聲學(xué)基礎(chǔ)語音產(chǎn)生的聲學(xué)基礎(chǔ)-聲源聲源Speech signal processingq基頻(Pitch frequency )聲帶開合一次的時(shí)間為基音周期(pitch period)。它的倒數(shù)稱為基頻。q 基頻大小其大小取決于聲帶的大小、厚薄、松緊程度以及聲門上下的氣壓

7、差效應(yīng)。聲帶拉的越長、越薄、越緊,基頻值越高。1語音產(chǎn)生的聲學(xué)基礎(chǔ)語音產(chǎn)生的聲學(xué)基礎(chǔ)-基頻基頻Speech signal processing1基頻-音調(diào)語音學(xué)家用五度表示方法,五度制就分成5個(gè)音區(qū)。每個(gè)音區(qū)是平等的。將陰平、陽平、去聲、上聲等聲調(diào)描述成 55、 35、 214、 51 q聲調(diào)的調(diào)型表示聲調(diào)的調(diào)型表示-五度表示方法五度表示方法 Speech signal processingq聲調(diào)的調(diào)型表示聲調(diào)的調(diào)型表示-三音區(qū)表示方法三音區(qū)表示方法1基頻-音調(diào)將聲調(diào)音域分成三個(gè)音區(qū),它們是“高、中、低”音區(qū),用英文字母“H、M、L”代表。 Speech signal processingq聲

8、調(diào)的調(diào)型表示方法的對(duì)比聲調(diào)的調(diào)型表示方法的對(duì)比 1基頻-音調(diào)Speech signal processingq聲調(diào)軌跡縱軸刻度表示方法聲調(diào)軌跡縱軸刻度表示方法-半音表示半音表示 1基頻-音調(diào)鋼琴鍵盤上相鄰的 7 個(gè)白鍵和 5 個(gè)黑鍵組成“十二半音”。從 Hz 數(shù)值看,半音之間是 2 開 12 次方根的關(guān)系,也就是 1.059463 倍的關(guān)系。把它自乘 12 次,應(yīng)該等于 2 。 F0=64.66Hz )/(log1202ffstSpeech signal processing1基頻-音調(diào)q聲調(diào)軌跡縱軸刻度表示方法聲調(diào)軌跡縱軸刻度表示方法-D-D值表示值表示 )/log(50ffD)/(log6

9、1.162log/ )/(log501010010ffffD可以選55赫茲為男聲的參考頻率,80赫茲為女聲的參考頻率 Speech signal processing1基頻-音調(diào)q聲調(diào)軌跡時(shí)間軸的規(guī)整聲調(diào)軌跡時(shí)間軸的規(guī)整 對(duì)規(guī)整后的基頻軌跡進(jìn)行插值以及重新采樣,01之間進(jìn)行等間隔采樣,一般可以采樣10個(gè)點(diǎn)左右。 )/()(00TtFFjjSpeech signal processing1基頻-音調(diào)q聲調(diào)曲拱的特征點(diǎn)的選擇聲調(diào)曲拱的特征點(diǎn)的選擇 音域的表示用先取四十個(gè)音高D值的平均值及標(biāo)準(zhǔn)離差,用平均值加減兩倍的標(biāo)準(zhǔn)差表示音域 ;進(jìn)一步用特征點(diǎn)之間的音高變化來表示曲線的升降 Speech sig

10、nal processingq調(diào)音(Articulation)為了發(fā)出各種各樣的聲音,需要調(diào)整聲道的形狀,稱之為調(diào)音q調(diào)音器官(Articulation Organ) 舌、顎、唇和嘴等聲道中可以自由活動(dòng)的部分q共鳴/共振 1語音產(chǎn)生的聲學(xué)基礎(chǔ)語音產(chǎn)生的聲學(xué)基礎(chǔ)-聲道聲道Speech signal processing1語音產(chǎn)生的聲學(xué)基礎(chǔ)語音產(chǎn)生的聲學(xué)基礎(chǔ)-聲道聲道q自然現(xiàn)象把鋼筆帽放在嘴邊吹,可以吹出簫音來。吹瓶子可以吹出悅耳的聲音。 q為什么? 物理學(xué)家認(rèn)為,是管子里彈性的空氣柱體發(fā)生了共振。 Speech signal processing1語音產(chǎn)生的聲學(xué)基礎(chǔ)語音產(chǎn)生的聲學(xué)基礎(chǔ)-聲道聲道S

11、peech signal processing1語音產(chǎn)生的聲學(xué)基礎(chǔ)語音產(chǎn)生的聲學(xué)基礎(chǔ)-聲道聲道Speech signal processing1語音產(chǎn)生的聲學(xué)基礎(chǔ)語音產(chǎn)生的聲學(xué)基礎(chǔ)-聲道聲道Speech signal processing1語音產(chǎn)生的聲學(xué)基礎(chǔ)語音產(chǎn)生的聲學(xué)基礎(chǔ)-聲道與聲學(xué)特征的關(guān)系聲道與聲學(xué)特征的關(guān)系Speech signal processing1語音產(chǎn)生的聲學(xué)基礎(chǔ)語音產(chǎn)生的聲學(xué)基礎(chǔ)-聲道聲道Speech signal processingq 500 Hz 正弦波的波長是 68 厘米,正好是管長的 4 倍,那個(gè)正弦波從管口到瓶底,又從瓶底反射回來到達(dá)管口,正好是半個(gè)波長的距離

12、,相距半個(gè)周期的振幅位置正好在那里相遇。 q 1500 Hz 正弦波的波長是 17*4/3 厘米,它跟管長有 4 : 3 的關(guān)系,正弦波 2*3/4 周期的振幅又有機(jī)會(huì)相遇,產(chǎn)生共振。q 。 1語音產(chǎn)生的聲學(xué)基礎(chǔ)語音產(chǎn)生的聲學(xué)基礎(chǔ)-聲道特性聲道特性Speech signal processingq 共振峰-物不平則鳴 舌面隆起的元音發(fā)音部位調(diào)節(jié)了空腔的形位,從而改變了聲道共振特性。它決定了元音共振峰 q 共振峰與舌位關(guān)系舌位高低決定了F1共振頻率。舌位越高,F(xiàn)1 的頻率越低,反則反之 。舌位前后決定了F2共振頻率舌位越后,F(xiàn)2 的頻率越低,反則反之。 1語音產(chǎn)生的聲學(xué)基礎(chǔ)語音產(chǎn)生的聲學(xué)基礎(chǔ)-聲

13、道特性聲道特性Speech signal processing1語音產(chǎn)生的聲學(xué)基礎(chǔ)語音產(chǎn)生的聲學(xué)基礎(chǔ)Speech signal processing1語音產(chǎn)生的聲學(xué)基礎(chǔ)語音產(chǎn)生的聲學(xué)基礎(chǔ)Speech signal processing1語音產(chǎn)生的聲學(xué)基礎(chǔ)語音產(chǎn)生的聲學(xué)基礎(chǔ)基頻的大小影響譜密度曲線的疏密男和女由于聲道長度不同,因而包絡(luò)線有所不同Speech signal processingq共振峰頻率 F共振峰頻率是一條包絡(luò)線上的峰值位置 q共振峰強(qiáng)度 L q共振峰帶寬 B 1語音產(chǎn)生的聲學(xué)基礎(chǔ)語音產(chǎn)生的聲學(xué)基礎(chǔ)- -聲道聲道- -共振峰(共振峰(formantformant)Speech s

14、ignal processing1語音產(chǎn)生的聲學(xué)基礎(chǔ)語音產(chǎn)生的聲學(xué)基礎(chǔ)-聲道聲道Speech signal processingq帶寬不同共振峰輪廓線的改變1語音產(chǎn)生的聲學(xué)基礎(chǔ)語音產(chǎn)生的聲學(xué)基礎(chǔ)-聲道聲道對(duì)于語音來說,元音帶寬窄的,聲音清晰,相反就聲音含混。帶寬加大以后,共振峰強(qiáng)度減弱,也就使聲音質(zhì)量降低。 Speech signal processing1語音產(chǎn)生的聲學(xué)基礎(chǔ)語音產(chǎn)生的聲學(xué)基礎(chǔ)-聲道聲道q共振峰頻率提高,共振峰強(qiáng)度也隨著提升 在一定范圍內(nèi)共振峰頻率提高,人耳的敏感程度也在提高,聽起來就特別響亮。從中國傳統(tǒng)音韻學(xué)來說,細(xì)音主要是低音共振峰頻率低,洪音主要是低音共振峰頻率高。元音

15、a 比元音 i 、u 、 響亮,是跟這種變化有關(guān)系的。 Speech signal processing1語音產(chǎn)生的聲學(xué)基礎(chǔ)語音產(chǎn)生的聲學(xué)基礎(chǔ)-聲道聲道q “集聚”特征 細(xì)線畫出了元音 a 三個(gè)共振峰的曲線。最后得到的輪廓線是它們相加的結(jié)果。那是 dB 值的代數(shù)加法。F3 遇到了F1 的負(fù)值,相加的結(jié)果反而降低了。請(qǐng)注意,圖中 F1 與 F2 相近 ,它們相加的結(jié)果是互相抬高對(duì)方,使這一頻段的能量加強(qiáng)。 Speech signal processing1語音產(chǎn)生的聲學(xué)基礎(chǔ)語音產(chǎn)生的聲學(xué)基礎(chǔ)-聲道聲道q共振峰預(yù)測(cè)零極值法圖解 Speech signal processing1語音產(chǎn)生的聲學(xué)基礎(chǔ)語

16、音產(chǎn)生的聲學(xué)基礎(chǔ)-聲道聲道q共振峰預(yù)測(cè)零極值法圖解 Speech signal processing1語音產(chǎn)生的聲學(xué)基礎(chǔ)語音產(chǎn)生的聲學(xué)基礎(chǔ)-聲道聲道q共振峰預(yù)測(cè)零極值法圖解 Speech signal processing1漢語語音的韻律特性漢語語音的韻律特性q音色也叫音質(zhì);由混入基音中的倍音決定q音高聲音的高低;主要用基頻反映?;l值越大,反映出的音高越高Speech signal processing1漢語語音的韻律特性漢語語音的韻律特性q音強(qiáng)發(fā)音的輕重;可以用聲壓或聲強(qiáng)來表示聲音的強(qiáng)度,一般用相對(duì)聲壓或相對(duì)聲強(qiáng)表示。q音長 聲音的長短,取決于發(fā)音持續(xù)時(shí)間的長短。聲壓級(jí):)dB()/(lo

17、g20010PPL 聲強(qiáng)級(jí):)dB()/(log10010IIL Speech signal processing2聽覺系統(tǒng)聽覺系統(tǒng)Speech signal processing2聽覺系統(tǒng)聽覺系統(tǒng)Speech signal processing2聽覺系統(tǒng)聽覺系統(tǒng)q 聲波經(jīng)過外耳的放大后,經(jīng)過鼓膜和聽小骨將聲波轉(zhuǎn)化為機(jī)械振動(dòng),傳入內(nèi)耳。Speech signal processing2聽覺系統(tǒng)聽覺系統(tǒng)-耳蝸耳蝸q 內(nèi)耳來的機(jī)械振動(dòng)引起基底膜上的行波。基低膜在靠近耳蝸孔部分軟而寬,在靠近前庭窗部分硬而窄。從而引起不同頻率的聲音產(chǎn)生不同的行波,其峰值出現(xiàn)在基低膜不同的位置Speech signal

18、 processing2聽覺系統(tǒng)聽覺系統(tǒng)-基低膜上的柯蒂氏器官基低膜上的柯蒂氏器官q 相當(dāng)于傳感器,毛細(xì)胞上面微絨毛受到耳蝸內(nèi)流體變化速度的影響,引起毛細(xì)胞膜兩邊電位的變化,造成神經(jīng)的發(fā)放和抑制。耳蝸覆膜內(nèi)毛細(xì)胞外毛細(xì)胞基低膜耳蝸Speech signal processing2q 響度(Londness)-方(phon)是一種主觀心理量,主觀感覺到的聲音強(qiáng)弱的一種衡量標(biāo)準(zhǔn),它與頻率有關(guān)。一樣的音強(qiáng),不一樣的頻率,則響度也會(huì)有所不同。0dB聲強(qiáng)級(jí)的1000Hz純音的響度級(jí)為0phon;ndB聲強(qiáng)級(jí)的1000Hz純音的響度級(jí)為nphon;語音處理的聽覺感知語音處理的聽覺感知Speech sign

19、al processing2語音處理的聽覺感知語音處理的聽覺感知q 等響度曲線Speech signal processing2q 響度可以看成是帶寬的函數(shù) 語音處理的聽覺感知語音處理的聽覺感知Speech signal processing2聽覺掩蔽效應(yīng)聽覺掩蔽效應(yīng)q 同時(shí)掩蔽(Simultaneous masking) 一個(gè)更響的音調(diào)可以將其頻率附近的較低的音調(diào)掩蔽Speech signal processing2語音處理的聽覺基礎(chǔ)語音處理的聽覺基礎(chǔ)q 異時(shí)掩蔽(non-Simultaneous masking) 前掩蔽(Pre-masking)后掩蔽(Post-masking)Speec

20、h signal processing2語音處理的聽覺基礎(chǔ)語音處理的聽覺基礎(chǔ)q 掩蔽閾值和聲壓級(jí)、頻率、時(shí)間的關(guān)系 聲壓級(jí)(dB) 頻率 掩蔽音調(diào) 時(shí)間 聽不見的音調(diào)(曲線下面) Speech signal processing2語音處理的聽覺基礎(chǔ)語音處理的聽覺基礎(chǔ)q 各種不同掩蔽效果-純音調(diào)信號(hào)間的掩蔽 測(cè)試音頻率(kHz) 0 20 40 60 80 20 10 5 2 1 0.5 0.2 0.1 0.05 0.02 dB90ML 70 50 30 測(cè)試聲壓級(jí)(dB) 頻率為1 kHz不同聲壓級(jí)的純音調(diào)對(duì)純音調(diào)產(chǎn)生的掩蔽曲線。從圖中可以看出,掩蔽閾值曲線的低頻段陡峭,高頻段比較平坦。 Sp

21、eech signal processing2語音處理的聽覺基礎(chǔ)語音處理的聽覺基礎(chǔ)q 各種不同掩蔽效果-寬帶噪聲對(duì)純音調(diào)的掩蔽 LWN =50dB 測(cè)試音頻率(kHz) 10dB 每 十倍頻程 測(cè)試聲壓級(jí)(dB) 0.02 0.05 0.1 0.2 0.5 1 2 5 10 20 80 60 40 20 0 -10 0 10 20 30 40 雖然白噪聲的功率譜是平坦的,但是它產(chǎn)生的掩蔽閾值卻只在低頻段保持水平。在大約500Hz以上,掩蔽閾值隨著頻率的增大而提高,每十倍頻程大約提高10dB。 Speech signal processing2語音處理的聽覺基礎(chǔ)語音處理的聽覺基礎(chǔ)q 各種不同掩蔽

22、效果-窄帶噪聲對(duì)純音調(diào)的掩蔽 掩蔽者是窄帶噪聲,被掩蔽者是純音調(diào)信號(hào)。這是一種比較復(fù)雜的掩蔽效應(yīng),掩蔽閾值隨聲壓級(jí)的不同而有所變化,并且隨著窄帶噪聲的中心頻率的變化掩蔽閾值也相應(yīng)地隨之變化。 聲壓級(jí)不同中心頻率不同 Speech signal processing2語音處理的聽覺基礎(chǔ)語音處理的聽覺基礎(chǔ)q聲壓級(jí)不同曲線的峰值出現(xiàn)在掩蔽者的中心頻率處,在聲壓級(jí)大于80dB時(shí),掩蔽閾值曲線在高頻段出現(xiàn)嚴(yán)重的非線性特性,有谷點(diǎn)出現(xiàn)。 LCB =100dB 測(cè)試音頻率(kHz) 測(cè)試聲壓級(jí)(dB) 0.02 0.05 0.1 0.2 0.5 1 2 5 10 20 80 60 40 20 0 20 40 80 60 Speech signal processing2語音處理的聽覺基礎(chǔ)語音處理的聽覺基礎(chǔ)q中心頻率不同 測(cè)試音頻率(kHz) 0 2 4 6 10 12 14 8 0 20 40 60 80

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論