專題講座語(yǔ)音識(shí)別與聲紋識(shí)別_第1頁(yè)
專題講座語(yǔ)音識(shí)別與聲紋識(shí)別_第2頁(yè)
專題講座語(yǔ)音識(shí)別與聲紋識(shí)別_第3頁(yè)
專題講座語(yǔ)音識(shí)別與聲紋識(shí)別_第4頁(yè)
專題講座語(yǔ)音識(shí)別與聲紋識(shí)別_第5頁(yè)
已閱讀5頁(yè),還剩176頁(yè)未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

專題講座語(yǔ)音識(shí)別與聲紋識(shí)別第1頁(yè),課件共181頁(yè),創(chuàng)作于2023年2月Contents5語(yǔ)音數(shù)據(jù)挖掘4語(yǔ)音合成3聲紋識(shí)別2語(yǔ)音識(shí)別1語(yǔ)音信號(hào)處理基礎(chǔ)語(yǔ)音識(shí)別聲紋處理第2頁(yè),課件共181頁(yè),創(chuàng)作于2023年2月1語(yǔ)音信號(hào)處理基礎(chǔ)內(nèi)容提示1.1語(yǔ)音信號(hào)的產(chǎn)生1.2語(yǔ)音信號(hào)的感知(了解)1.3語(yǔ)音信號(hào)的線性產(chǎn)生模型1.4語(yǔ)音信號(hào)的非線性產(chǎn)生模型(了解)語(yǔ)音信號(hào)處理基礎(chǔ)第3頁(yè),課件共181頁(yè),創(chuàng)作于2023年2月1語(yǔ)音信號(hào)處理基礎(chǔ)語(yǔ)音信號(hào)的基本概念

語(yǔ)音:人們講話時(shí)發(fā)出的話語(yǔ)叫語(yǔ)音。是一種人們進(jìn)行信息交流的聲音,是組成語(yǔ)言的聲音/帶有語(yǔ)言信息的聲音。

語(yǔ)音(Speech)=聲音(Acoustic)+語(yǔ)言(Language)

語(yǔ)音是由一連串的音素組成語(yǔ)言的聲音。第4頁(yè),課件共181頁(yè),創(chuàng)作于2023年2月對(duì)語(yǔ)音的研究對(duì)語(yǔ)音的研究包括兩個(gè)方面1)語(yǔ)音中各個(gè)音的排列由一些規(guī)則所控制,對(duì)這些規(guī)則及其含義的研究稱為語(yǔ)言學(xué)(linguistics)。

語(yǔ)言學(xué)是語(yǔ)音信號(hào)處理的基礎(chǔ)。例如:可以利用句法和語(yǔ)義信息減少語(yǔ)音識(shí)別中搜索匹配范圍,提高正確識(shí)別率。2)語(yǔ)音中各個(gè)音的物理特性和分類的研究稱為語(yǔ)音學(xué)(phonetics)。它考慮的是語(yǔ)音產(chǎn)生、語(yǔ)音感知等過(guò)程,以及各個(gè)音的特征和分類。1語(yǔ)音信號(hào)處理基礎(chǔ)第5頁(yè),課件共181頁(yè),創(chuàng)作于2023年2月對(duì)語(yǔ)音的研究語(yǔ)音學(xué)基本內(nèi)容包括:發(fā)音語(yǔ)音學(xué)-確定發(fā)音機(jī)理<較成熟>聲學(xué)語(yǔ)音學(xué)-信號(hào)分析理論解釋語(yǔ)音現(xiàn)象聽(tīng)覺(jué)語(yǔ)音學(xué)-認(rèn)識(shí)感知的過(guò)程語(yǔ)音學(xué)和語(yǔ)音信號(hào)處理聯(lián)系更加緊密。如:運(yùn)用現(xiàn)代信號(hào)處理技術(shù)建立發(fā)音的數(shù)學(xué)模型,確定發(fā)音方法;用聲學(xué)和非平穩(wěn)信號(hào)分析理論來(lái)解釋各種語(yǔ)音現(xiàn)象;語(yǔ)音信息的存儲(chǔ)形式等。1語(yǔ)音信號(hào)處理基礎(chǔ)第6頁(yè),課件共181頁(yè),創(chuàng)作于2023年2月1.1

語(yǔ)音信號(hào)的產(chǎn)生1語(yǔ)音信號(hào)處理基礎(chǔ)人類的說(shuō)話過(guò)程分五個(gè)階段想說(shuō)

說(shuō)出傳送接收理解語(yǔ)音交流是通過(guò)聯(lián)結(jié)說(shuō)話人和聽(tīng)話人的一連串心理、生理和物理的轉(zhuǎn)換過(guò)程實(shí)現(xiàn)的。—大腦中樞—發(fā)音器官—空氣—聽(tīng)覺(jué)器官—大腦中樞第7頁(yè),課件共181頁(yè),創(chuàng)作于2023年2月1.1

語(yǔ)音信號(hào)的產(chǎn)生1語(yǔ)音信號(hào)處理基礎(chǔ)語(yǔ)音的發(fā)音器官肺和氣管:能量源咽喉:震動(dòng)源,包括聲帶和聲門聲道:諧振腔,聲門到嘴唇的呼吸通道,包括咽腔、口腔、鼻腔等其他發(fā)音器官:包括唇、齒、舌、面頰等,使諧振腔改變形狀與簫、嗩吶比較第8頁(yè),課件共181頁(yè),創(chuàng)作于2023年2月1.1

語(yǔ)音信號(hào)的產(chǎn)生1語(yǔ)音信號(hào)處理基礎(chǔ)肺和氣管

肺是胸腔內(nèi)的一團(tuán)有彈性的海綿狀物質(zhì),它可以儲(chǔ)存空氣。通過(guò)正常的呼吸系統(tǒng)空氣可以進(jìn)入肺部,說(shuō)話時(shí)腹肌收縮使橫膈膜向上,擠出肺部的空氣,形成氣流。由肺部呼出的氣流是語(yǔ)音產(chǎn)生的原動(dòng)力。

氣管將肺部呼出的氣流送到咽喉,它是肺部氣流的通道。氣管的上端是喉部。第9頁(yè),課件共181頁(yè),創(chuàng)作于2023年2月1.1

語(yǔ)音信號(hào)的產(chǎn)生1語(yǔ)音信號(hào)處理基礎(chǔ)甲狀軟骨喉的生理結(jié)構(gòu)聲門聲帶環(huán)形軟骨人的前方喉位于氣管的上端,實(shí)際上是氣管末端一圈軟骨構(gòu)成的一個(gè)框架:前方稍高處的軟骨稱為甲狀軟骨,前后方環(huán)成一圈的稱為喉部環(huán)形軟骨,喉中兩片肌肉稱為聲帶,聲帶之間的空隙為聲門。當(dāng)聲帶張開(kāi)時(shí),聲門打開(kāi),空氣可自由呼出,正常呼吸就處于這種情況;當(dāng)聲帶閉合,聲門關(guān)閉。聲門和聲帶第10頁(yè),課件共181頁(yè),創(chuàng)作于2023年2月1.1

語(yǔ)音信號(hào)的產(chǎn)生當(dāng)說(shuō)話時(shí),聲帶在軟骨的作用下相互靠近但不完全閉合,聲門變成一條窄縫。當(dāng)氣流通過(guò)氣管經(jīng)過(guò)咽喉時(shí),收緊的聲帶由于氣流的沖擊而產(chǎn)生振動(dòng),不斷地張開(kāi)和閉合,使聲門向上送出一連串噴流。聲帶靠攏Tp基音周期聲帶的開(kāi)啟和閉合稱為振動(dòng)。這一振動(dòng)過(guò)程周而復(fù)始,形成了一串周期性脈沖氣流送入聲道。這個(gè)過(guò)程發(fā)出的音稱為濁音。如漢語(yǔ)發(fā)音的[a]、[i]、[u]和[o]等。1語(yǔ)音信號(hào)處理基礎(chǔ)第11頁(yè),課件共181頁(yè),創(chuàng)作于2023年2月1.1

語(yǔ)音信號(hào)的產(chǎn)生1語(yǔ)音信號(hào)處理基礎(chǔ)

F0=1/Tp,基音頻率,由聲帶的質(zhì)量來(lái)決定。F0的大小決定了聲音的高低,稱為音高。男性的F0大致分布在:60-200Hz女性和兒童的F0大致分布在:200-450Hz基音頻率(FundamentalFrequency)F0聲帶的一個(gè)重要參數(shù):第12頁(yè),課件共181頁(yè),創(chuàng)作于2023年2月1.1

語(yǔ)音信號(hào)的產(chǎn)生1語(yǔ)音信號(hào)處理基礎(chǔ)聲道人在說(shuō)話時(shí),空氣由肺部壓入,由嘴唇呼出,聲門由此開(kāi)啟和閉合,構(gòu)成聲帶振動(dòng),然后通過(guò)聲道(喉腔、咽腔和口腔)響應(yīng)(引起共振特性)變成語(yǔ)音,氣流從喉向上經(jīng)過(guò)口腔或鼻腔后從嘴或鼻孔向外輻射,期間的傳輸通道稱為聲道。氣流流過(guò)聲道時(shí)猶如通過(guò)了一個(gè)具有某種諧振特性的腔體,放大某些頻率,在頻譜上形成相應(yīng)位置的峰起,稱為共振峰。講話時(shí),由于舌和唇的連續(xù)運(yùn)動(dòng),使聲道形狀改變,隨即改變諧振頻率,使得發(fā)不同的音。聲道的不同的形狀,對(duì)應(yīng)不同的諧振頻率。聲帶振動(dòng)頻率輸出氣流的頻率聲道的諧振特性第13頁(yè),課件共181頁(yè),創(chuàng)作于2023年2月1.1

語(yǔ)音信號(hào)的產(chǎn)生1語(yǔ)音信號(hào)處理基礎(chǔ)鼻端嘴唇17cm8.5cm13cm聲道的無(wú)損模型諧振頻率的計(jì)算諧振頻率發(fā)生在:Fn=(聲道的橫截面是均勻的,發(fā)元音e時(shí),聲道近似是均勻的。)L=17cm,聲道的長(zhǎng)度n=1,2,3…稱為第一共振峰F1=500Hz、第二共振峰F2=1500Hz、第三共振峰F3=2500Hz,…c=340m/s聲速2n-14Lcn表示諧振頻率的序號(hào)第14頁(yè),課件共181頁(yè),創(chuàng)作于2023年2月1.1

語(yǔ)音信號(hào)的產(chǎn)生1語(yǔ)音信號(hào)處理基礎(chǔ)一種聲道形狀對(duì)應(yīng)一套共振峰不同人的聲道大小不同,共振峰不同同一人,發(fā)不同音,共振峰也不同聲道的作用相當(dāng)于一個(gè)濾波器,它放大(或增強(qiáng))某些頻率而衰減其他頻率分量前三個(gè)共振峰的大致范圍(Hz)共振峰成年男子成年女子帶寬

f1

200~800

250~1000

40~70

f2

600~2800

700~3300

50~90

f3

1300~3400

1500~4000

60~180第15頁(yè),課件共181頁(yè),創(chuàng)作于2023年2月1.1

語(yǔ)音信號(hào)的產(chǎn)生1語(yǔ)音信號(hào)處理基礎(chǔ)鼻腔的作用在軟腭的幫助下,可使空氣經(jīng)過(guò)鼻腔排除人體外,由此產(chǎn)生的語(yǔ)音稱為鼻音。如[n]、[ng]為鼻音韻母,[m]、[n]、[l]為鼻音聲母。鼻腔是一個(gè)諧振腔,由于形狀固定,故其共振峰頻率是確定的??谇缓捅乔豢谇坏淖饔檬箍諝饨?jīng)過(guò)口腔排除人體外,由此產(chǎn)生的語(yǔ)音稱為口音。口腔的形狀不固定,故其共振峰頻率也是不確定的。第16頁(yè),課件共181頁(yè),創(chuàng)作于2023年2月1.1

語(yǔ)音信號(hào)的產(chǎn)生1語(yǔ)音信號(hào)處理基礎(chǔ)等效為激勵(lì)源+聲道+喇叭口激勵(lì)源:聲帶聲帶振動(dòng)頻率-基頻(基音頻率)清音-聲帶不振動(dòng)濁音-聲帶振動(dòng)聲道:可變諧振腔不同形狀、不同聲音共振(諧振)頻率第17頁(yè),課件共181頁(yè),創(chuàng)作于2023年2月1.1

語(yǔ)音信號(hào)的產(chǎn)生1語(yǔ)音信號(hào)處理基礎(chǔ)

發(fā)音的分類

濁音(voicedsounds):聲道打開(kāi),聲帶在先打開(kāi)后關(guān)閉,氣流經(jīng)過(guò)使聲帶要發(fā)生張馳振動(dòng),變?yōu)闇?zhǔn)周期振動(dòng)氣流。濁音的激勵(lì)源被等效為準(zhǔn)周期的脈沖信號(hào)。

清音(unvoicedsounds):聲帶不振動(dòng),而在在聲道某處保持收縮,氣流在聲道里收縮后高速通過(guò)產(chǎn)生湍流,再經(jīng)過(guò)主聲道(咽、口腔)的調(diào)整最終形成清音。清音的激勵(lì)源被等效為一種白噪聲信號(hào)。

爆破音(plosivesounds):聲道關(guān)閉之后產(chǎn)生壓縮空氣然后突然打開(kāi)聲道所發(fā)出的聲音。第18頁(yè),課件共181頁(yè),創(chuàng)作于2023年2月1.1

語(yǔ)音信號(hào)的產(chǎn)生1語(yǔ)音信號(hào)處理基礎(chǔ)第19頁(yè),課件共181頁(yè),創(chuàng)作于2023年2月1.1

語(yǔ)音信號(hào)的產(chǎn)生1語(yǔ)音信號(hào)處理基礎(chǔ)語(yǔ)音是發(fā)聲器官發(fā)出的一種聲波,具有一定的音色、音調(diào)和音強(qiáng)和音長(zhǎng)。●音色:又稱為音質(zhì),是一種聲音區(qū)別于另一種聲音的基本特性。與聲帶的振動(dòng)頻率、發(fā)音器官的送氣方式和聲道的形狀、尺寸密切相關(guān)?!褚粽{(diào):聲音的高低,取決于聲波的頻率?!褚魪?qiáng):聲音的強(qiáng)弱,它由聲波的振動(dòng)幅度所決定●音長(zhǎng):聲音的長(zhǎng)短,取決于發(fā)音持續(xù)時(shí)間的長(zhǎng)短,語(yǔ)音的基本聲學(xué)特性第20頁(yè),課件共181頁(yè),創(chuàng)作于2023年2月1.1

語(yǔ)音信號(hào)的產(chǎn)生1語(yǔ)音信號(hào)處理基礎(chǔ)語(yǔ)音信號(hào)的時(shí)域和頻域表示語(yǔ)音信號(hào)的時(shí)域波形結(jié)論1:時(shí)間的連續(xù)函數(shù)、頻率幅度隨時(shí)間變化是隨機(jī)的結(jié)論2:短時(shí)間內(nèi)近似認(rèn)為不變結(jié)論3:元音是準(zhǔn)周期函數(shù)(基頻)結(jié)論4:清音為隨機(jī)起伏第21頁(yè),課件共181頁(yè),創(chuàng)作于2023年2月1.1

語(yǔ)音信號(hào)的產(chǎn)生1語(yǔ)音信號(hào)處理基礎(chǔ)語(yǔ)音信號(hào)的頻域波形F1=500Hz,F(xiàn)2=1000Hz,F(xiàn)3=1500HzTp=250Hz第22頁(yè),課件共181頁(yè),創(chuàng)作于2023年2月1.1

語(yǔ)音信號(hào)的產(chǎn)生1語(yǔ)音信號(hào)處理基礎(chǔ)基音周期第23頁(yè),課件共181頁(yè),創(chuàng)作于2023年2月1.1

語(yǔ)音信號(hào)的產(chǎn)生1語(yǔ)音信號(hào)處理基礎(chǔ)語(yǔ)音信號(hào)的語(yǔ)譜圖女聲:“他去無(wú)錫市,我去黑龍江”的語(yǔ)譜圖1)語(yǔ)譜圖:表示語(yǔ)音信號(hào)隨時(shí)間而變化的頻譜特性,在每個(gè)時(shí)刻用其附近的短時(shí)段語(yǔ)音信號(hào)分析得到的一種頻譜。2)語(yǔ)譜圖的縱軸對(duì)應(yīng)于頻率,橫軸對(duì)應(yīng)于時(shí)間,圖像的灰度對(duì)應(yīng)于信號(hào)的能量。3)聲道的諧振頻率表示為黑帶,濁音部分則以出現(xiàn)條紋圖形為特征,這是因?yàn)榇藭r(shí)的時(shí)域波形具有周期性,而在清音的時(shí)間間隔內(nèi)比較致密4)“聲紋”用于說(shuō)話人識(shí)別第24頁(yè),課件共181頁(yè),創(chuàng)作于2023年2月1.1

語(yǔ)音信號(hào)的產(chǎn)生1語(yǔ)音信號(hào)處理基礎(chǔ)loadmtlbspecgram(mtlb,512,Fs,kaiser(500,5),475)title('Spectrogram')第25頁(yè),課件共181頁(yè),創(chuàng)作于2023年2月1.1

語(yǔ)音信號(hào)的產(chǎn)生1語(yǔ)音信號(hào)處理基礎(chǔ)loadspecgram.matwavplay(a,Fs)specgram(a,512,Fs,kaiser(500,5),475)第26頁(yè),課件共181頁(yè),創(chuàng)作于2023年2月1.1

語(yǔ)音信號(hào)的產(chǎn)生1語(yǔ)音信號(hào)處理基礎(chǔ)漢語(yǔ)中語(yǔ)音的分類音素:是發(fā)音的最小單位,分為元音和輔音。元音是構(gòu)成音節(jié)的主干,從長(zhǎng)度和能量來(lái)看,在音節(jié)中占主要位置;輔音只是出現(xiàn)在音節(jié)的前端或后端或前后兩端,它們的時(shí)長(zhǎng)和能量較小。音節(jié):發(fā)音時(shí),被明顯感覺(jué)到的語(yǔ)音片段為音節(jié)。一個(gè)音節(jié)由一個(gè)音素或幾個(gè)音素構(gòu)成。單詞的最小單位為音節(jié),句子的最小單位為單詞。1)音素與音節(jié)第27頁(yè),課件共181頁(yè),創(chuàng)作于2023年2月1.1

語(yǔ)音信號(hào)的產(chǎn)生1語(yǔ)音信號(hào)處理基礎(chǔ)音系簡(jiǎn)單,在漢語(yǔ)中一個(gè)字就是一個(gè)音節(jié),由一般為2~3個(gè)音素組成,而且具有音素少、音節(jié)少。英語(yǔ)中一個(gè)單詞由若干個(gè)音節(jié)組成,一般為2~3個(gè),一個(gè)音節(jié)由若干個(gè)音素組成,一般為1~4個(gè)。清輔音多,在聽(tīng)感上有清亮、高揚(yáng)和舒服、柔和的感覺(jué)。有鮮明的輕重音和兒化韻,所以字詞分隔清楚,語(yǔ)言表達(dá)準(zhǔn)確而豐富。2)漢語(yǔ)語(yǔ)音的特點(diǎn)第28頁(yè),課件共181頁(yè),創(chuàng)作于2023年2月1.1

語(yǔ)音信號(hào)的產(chǎn)生1語(yǔ)音信號(hào)處理基礎(chǔ)在漢語(yǔ)中,由音素構(gòu)成聲母和韻母。

聲母:一個(gè)音節(jié)開(kāi)始的輔音,聲母完全由輔音充當(dāng),但輔音不等于聲母,因?yàn)檩o音還可以作為韻尾放在音節(jié)的末尾。(21個(gè))b、p、m、f、d、t、n、l、g、k、h、j、q、x、zh、ch、sh、z、c、s、r3)語(yǔ)音的拼音方法第29頁(yè),課件共181頁(yè),創(chuàng)作于2023年2月1.1

語(yǔ)音信號(hào)的產(chǎn)生1語(yǔ)音信號(hào)處理基礎(chǔ)

韻母:在音節(jié)中占主要部分,音節(jié)中除了頭上的聲母以外的部分,由單、雙元音、元音帶上輔音等幾種不同的形式組成。所有元音都是濁音。a、o、e、i、u、ü、ê?jiǎn)雾嵞福ㄔ簦゛i、ei、ao、ou、ia、ie、iao、iou、ua、uo、uai、uei、üe復(fù)韻母an、en、ang、eng、ong、ian、in、iang、ing、iong、uan、uen、uang、ueng、üan、ün鼻韻母第30頁(yè),課件共181頁(yè),創(chuàng)作于2023年2月1.1

語(yǔ)音信號(hào)的產(chǎn)生1語(yǔ)音信號(hào)處理基礎(chǔ)

韻母是由單、雙元音、元音帶上輔音等幾種不同的形式組成。不同的元音有不同的基音頻率和共振峰模式,它們是區(qū)別不同韻母的重要參數(shù)。區(qū)別不同韻母的重要參數(shù)第31頁(yè),課件共181頁(yè),創(chuàng)作于2023年2月1.1

語(yǔ)音信號(hào)的產(chǎn)生1語(yǔ)音信號(hào)處理基礎(chǔ)注意區(qū)別下述不同的概念濁音和清音:按聲帶振動(dòng)的方式來(lái)劃分。元音和輔音:按音素的發(fā)音特征來(lái)劃分,與聲道中活動(dòng)部分和固定部分的接觸點(diǎn)的位置密切相關(guān)。聲母和韻母:按音節(jié)的結(jié)構(gòu)進(jìn)行劃分。(元音一定是濁音。輔音包括濁音和清音。英語(yǔ)中:由元音和輔音(這些都是音素)構(gòu)成音節(jié),由幾個(gè)音節(jié)構(gòu)成一個(gè)詞。漢語(yǔ)中:漢語(yǔ)中由元音和輔音構(gòu)成聲母和韻母,結(jié)合聲調(diào)構(gòu)成一個(gè)音節(jié),一個(gè)音節(jié)就是一個(gè)字。第32頁(yè),課件共181頁(yè),創(chuàng)作于2023年2月1.1

語(yǔ)音信號(hào)的產(chǎn)生1語(yǔ)音信號(hào)處理基礎(chǔ)聲母、韻母和聲調(diào)是漢語(yǔ)語(yǔ)音的三要素。漢語(yǔ)語(yǔ)音的1個(gè)不同于其他語(yǔ)言的是它具有聲調(diào)(音調(diào))。聲調(diào)是1個(gè)音節(jié)在念法上的高低升降的變化,漢語(yǔ)中有4個(gè)聲調(diào),即陰平(-)、陽(yáng)平(′)、上聲()、和去聲(‵)。

4)漢語(yǔ)音節(jié)的一般結(jié)構(gòu)第33頁(yè),課件共181頁(yè),創(chuàng)作于2023年2月1.1

語(yǔ)音信號(hào)的產(chǎn)生1語(yǔ)音信號(hào)處理基礎(chǔ)聲調(diào)的變化就是濁音基音周期的變化,為了將調(diào)值描寫地具體一些,一般采用“五度標(biāo)記法”,用一條豎線表示聲音的高低,從下而上用1、2、3、4、5依次表示低、半低、中、半高、高。5高4半高3中2半低1低陰平陽(yáng)平上聲去聲調(diào)類陰平陽(yáng)平上聲去聲調(diào)值553521451第34頁(yè),課件共181頁(yè),創(chuàng)作于2023年2月1.1

語(yǔ)音信號(hào)的產(chǎn)生1語(yǔ)音信號(hào)處理基礎(chǔ)單獨(dú)發(fā)聲的一個(gè)音節(jié)或是語(yǔ)音流中的任何一個(gè)音節(jié)都可能由7部分組成。無(wú)聲段音節(jié)聲母鼻音段聲母輔音段元音段送氣段前過(guò)渡段后過(guò)渡段韻母第35頁(yè),課件共181頁(yè),創(chuàng)作于2023年2月1.2語(yǔ)音信號(hào)的感知(自學(xué))1語(yǔ)音信號(hào)處理基礎(chǔ)研究人對(duì)聲音的感知,對(duì)語(yǔ)音編碼識(shí)別很重要,如MP3。聽(tīng)覺(jué)系統(tǒng)耳的結(jié)構(gòu)聽(tīng)覺(jué)的形成耳蝸的作用聽(tīng)覺(jué)特性人耳的聽(tīng)閾及響度音調(diào)俺蔽效應(yīng)同時(shí)掩蔽和異時(shí)掩蔽各種不同的掩蔽效果第36頁(yè),課件共181頁(yè),創(chuàng)作于2023年2月1.3語(yǔ)音信號(hào)的線性產(chǎn)生模型1語(yǔ)音信號(hào)處理基礎(chǔ)激勵(lì)模型(肺部,氣管,聲帶)聲道模型(咽腔,口腔,喉腔,鼻腔)輻射模型(口唇,鼻孔)完整的語(yǔ)音信號(hào)的數(shù)學(xué)模型第37頁(yè),課件共181頁(yè),創(chuàng)作于2023年2月1.3語(yǔ)音信號(hào)的線性產(chǎn)生模型1語(yǔ)音信號(hào)處理基礎(chǔ)傳輸函數(shù)數(shù)學(xué)模型的特點(diǎn):是一個(gè)終端模擬的近似模型,其內(nèi)部結(jié)構(gòu)與語(yǔ)音產(chǎn)生的物理過(guò)程并不一致,只是在輸出端等效。清/濁音開(kāi)關(guān)Av沖激序列發(fā)生器聲門波模型G(z)隨機(jī)噪聲發(fā)生器基音周期TPAN線性系統(tǒng)聲道V(z)輻射模型R(z)激勵(lì)模型第38頁(yè),課件共181頁(yè),創(chuàng)作于2023年2月1.3語(yǔ)音信號(hào)的線性產(chǎn)生模型1語(yǔ)音信號(hào)處理基礎(chǔ)激勵(lì)模型用數(shù)學(xué)方法描述肺部的氣流與聲帶共同作用產(chǎn)生的激勵(lì)。濁音激勵(lì)清音激勵(lì)沖激序列發(fā)生器聲門脈沖模型G(z)隨機(jī)噪聲發(fā)生器基音周期TPAN清/濁音開(kāi)關(guān)AV第39頁(yè),課件共181頁(yè),創(chuàng)作于2023年2月1.3語(yǔ)音信號(hào)的線性產(chǎn)生模型1語(yǔ)音信號(hào)處理基礎(chǔ)發(fā)濁音時(shí),聲激勵(lì)是一個(gè)準(zhǔn)周期的單位脈沖串,Av為增益參數(shù);為了使?jié)嵋舻募?lì)信號(hào)逼近聲門振動(dòng)氣流的實(shí)際波形,需將沖激序列通過(guò)一個(gè)聲門脈沖模型濾波器(實(shí)際上是一個(gè)斜三角波形)G(z)。最后形成一個(gè)以基音周期為周期的斜三角型脈沖波。1)濁音激勵(lì)Tp為沖激脈沖的周期,聲門波模型產(chǎn)生單個(gè)聲門脈沖第40頁(yè),課件共181頁(yè),創(chuàng)作于2023年2月1.3語(yǔ)音信號(hào)的線性產(chǎn)生模型1語(yǔ)音信號(hào)處理基礎(chǔ)單位脈沖串單位脈沖串及幅值的Z變換形式將其表示為Z變換,有:沖激序列:E(z)濁音激勵(lì)模型:U(z)=AVG(z)E(z)

斜三角型脈沖波N1為斜三角波上升部分的時(shí)間,N2為其下降部分的時(shí)間第41頁(yè),課件共181頁(yè),創(chuàng)作于2023年2月1.3語(yǔ)音信號(hào)的線性產(chǎn)生模型1語(yǔ)音信號(hào)處理基礎(chǔ)2)清音激勵(lì)清音激勵(lì)模擬為隨機(jī)噪聲,實(shí)際中一般使用均值為0、方差為1的白噪聲。第42頁(yè),課件共181頁(yè),創(chuàng)作于2023年2月1.3語(yǔ)音信號(hào)的線性產(chǎn)生模型1語(yǔ)音信號(hào)處理基礎(chǔ)將聲激勵(lì)分為兩種情況,與實(shí)際不完全相符。例如爆破音是氣流在聲門完全閉合處的下方建立起壓力,然后除去這種障礙,使壓力迅速釋放,產(chǎn)生一種瞬時(shí)的激勵(lì)。在上面的聲學(xué)模型中未考慮。應(yīng)將兩種激勵(lì)按一定比例進(jìn)行疊加,更符合實(shí)際情況。第43頁(yè),課件共181頁(yè),創(chuàng)作于2023年2月1.3語(yǔ)音信號(hào)的線性產(chǎn)生模型1語(yǔ)音信號(hào)處理基礎(chǔ)聲道模型(共振峰模型)線性系統(tǒng)聲道V(z)uG(n)ul(n)1)聲音在聲道的傳播涉及到許多物理定律(能量守恒、流體力學(xué)),需簡(jiǎn)化。有不同的模型。2)語(yǔ)音信號(hào)是一個(gè)非平穩(wěn)信號(hào),激勵(lì)和聲道的諧振特性隨時(shí)間變化。但在20-30ms內(nèi)語(yǔ)音信號(hào)是平穩(wěn)的,即激勵(lì)和聲道的特性幾乎不變,因此認(rèn)為在此時(shí)間段內(nèi)系統(tǒng)是線性的。用數(shù)學(xué)方法描述聲道的調(diào)音特性。包括聲管模型和共振峰模型第44頁(yè),課件共181頁(yè),創(chuàng)作于2023年2月1.3語(yǔ)音信號(hào)的線性產(chǎn)生模型1語(yǔ)音信號(hào)處理基礎(chǔ)1)聲管模型“短時(shí)”間聲道是一個(gè)形狀穩(wěn)定的級(jí)聯(lián)管道,聲音在不同截面積間傳輸會(huì)有反射。反射系數(shù):km=(Am+1-Am)/(Am+1+Am)Am,Am+1是第m、m+1段的截面積Km是聲道的特性,確定Km,就確定了聲道!A1A2A3….(a)立體圖(b)斷面圖第45頁(yè),課件共181頁(yè),創(chuàng)作于2023年2月1.3語(yǔ)音信號(hào)的線性產(chǎn)生模型1語(yǔ)音信號(hào)處理基礎(chǔ)2)共振峰模型聲道近似為諧振腔,共振峰就是這個(gè)腔體的諧振頻率,從共振峰的角度出發(fā)描述聲道的模型稱為共振峰模型。一般共振峰的個(gè)數(shù)為3-5個(gè)。p、ak

決定了聲道地特性(人的特征),p越大越吻合。一般p=8~12(1)級(jí)(串)聯(lián)型(元音):聲道是一組串連的二階諧振器(一個(gè)諧振腔對(duì)應(yīng)1個(gè)共振峰頻率)。V1V2V3V4V5傳輸函數(shù)p為極點(diǎn)個(gè)數(shù),G是增益參數(shù),ak為模型系數(shù)。第46頁(yè),課件共181頁(yè),創(chuàng)作于2023年2月1.3語(yǔ)音信號(hào)的線性產(chǎn)生模型1語(yǔ)音信號(hào)處理基礎(chǔ)傳輸函數(shù)是一個(gè)全極點(diǎn)的IIR濾波器,這些極點(diǎn)確定了聲管的共振峰。若N取偶數(shù),V(z)一般有N/2對(duì)共軛極點(diǎn),rkexp(±j2FkT),k=1~N/2。各個(gè)wk值分別與語(yǔ)音的共振峰相互對(duì)應(yīng)。N的取值一般為8~12。利用Z變換的知識(shí),把V(z)分解為多個(gè)二階極點(diǎn)網(wǎng)絡(luò)的級(jí)聯(lián):二階諧振器的幅頻特性第47頁(yè),課件共181頁(yè),創(chuàng)作于2023年2月1.3語(yǔ)音信號(hào)的線性產(chǎn)生模型1語(yǔ)音信號(hào)處理基礎(chǔ)(2)并聯(lián)型(大部分輔音)傳輸函數(shù),零極點(diǎn)IIR濾波器V1V2V3V4V5用并聯(lián)網(wǎng)絡(luò)模擬聲道。對(duì)于非一般的元音和大部分輔音,必須采用零極點(diǎn)模型級(jí)聯(lián)簡(jiǎn)單,可用于一般元音,一般3~5級(jí)并聯(lián)復(fù)雜,可用于許多音,但ai難以求解第48頁(yè),課件共181頁(yè),創(chuàng)作于2023年2月1.3語(yǔ)音信號(hào)的線性產(chǎn)生模型1語(yǔ)音信號(hào)處理基礎(chǔ)(3)混合型(根據(jù)需要進(jìn)行模型的切換)V1V2V3V4V5V1V2V3V4V5將級(jí)聯(lián)型和并聯(lián)型結(jié)合起來(lái)的混合型也是比較完備的一種共振峰模型,該模型能夠根據(jù)不同性質(zhì)的語(yǔ)音進(jìn)行切換。第49頁(yè),課件共181頁(yè),創(chuàng)作于2023年2月1.3語(yǔ)音信號(hào)的線性產(chǎn)生模型1語(yǔ)音信號(hào)處理基礎(chǔ)輻射模型線性系統(tǒng)口唇輻射R(z)ul(n)pl(n)Pl(z)=R(z)Ul(z)R(z)=(1-rz-1)聲道的終端為口和唇。從聲道輸出的是速度波UL(n),而語(yǔ)音信號(hào)是聲壓波,二者之倒比稱為輻射阻抗ZL。它表征口和唇的輻射效應(yīng)。研究表明,口唇端輻射在高頻端較為顯著,在低頻端時(shí)影響較小,所以輻射模型R(z)主要與嘴型有關(guān),應(yīng)是一階類高通濾波器的形式。用數(shù)學(xué)方法描述口唇和鼻孔的輻射特性。第50頁(yè),課件共181頁(yè),創(chuàng)作于2023年2月1.3語(yǔ)音信號(hào)的線性產(chǎn)生模型1語(yǔ)音信號(hào)處理基礎(chǔ)完整的語(yǔ)音信號(hào)的數(shù)學(xué)模型Av沖激序列發(fā)生器聲門脈沖模型G(z)隨機(jī)噪聲發(fā)生器基音周期TPAN線性系統(tǒng)聲道V(z)輻射模型R(z)清/濁音開(kāi)關(guān)傳輸函數(shù)第51頁(yè),課件共181頁(yè),創(chuàng)作于2023年2月1.3語(yǔ)音信號(hào)的線性產(chǎn)生模型1語(yǔ)音信號(hào)處理基礎(chǔ)在語(yǔ)音信號(hào)模型中,如果不考慮沖激脈沖串模型E(z),則斜三角波模型是二階低通,而輻射模型是一階高通,所以實(shí)際信號(hào)分析中常采用“預(yù)加重技術(shù)”。即在對(duì)信號(hào)取樣之后,插入一個(gè)一階的高通濾波器,這樣,只剩下聲道部分,就便于對(duì)聲道參數(shù)進(jìn)行分析了。在語(yǔ)音合成時(shí)再進(jìn)行“去加重”處理,就可以恢復(fù)原來(lái)的語(yǔ)音。R(z)=(1-rz-1)第52頁(yè),課件共181頁(yè),創(chuàng)作于2023年2月1.3語(yǔ)音信號(hào)的線性產(chǎn)生模型1語(yǔ)音信號(hào)處理基礎(chǔ)數(shù)學(xué)模型的特點(diǎn)在這個(gè)模型中,TP、Av、AN、清/濁音開(kāi)關(guān)的位置以及聲道濾波器的參數(shù)都是隨時(shí)間而變化,在10-30ms的時(shí)間間隔內(nèi)是保持不變的。這種特性稱為短時(shí)性。對(duì)于激勵(lì)信號(hào)而言,大部分情況下,這一結(jié)論也是正確的,但有些音變化速度特別快,爆破音,取5ms比較更為恰當(dāng)。第53頁(yè),課件共181頁(yè),創(chuàng)作于2023年2月1.3語(yǔ)音信號(hào)的線性產(chǎn)生模型1語(yǔ)音信號(hào)處理基礎(chǔ)語(yǔ)音特性分析實(shí)例聲門脈沖序列聲道對(duì)聲門脈沖相應(yīng)的輸出第54頁(yè),課件共181頁(yè),創(chuàng)作于2023年2月輸出語(yǔ)音頻譜虛線稱為譜包絡(luò),其形狀是由H(f)和G(f)的包絡(luò)乘積得到的?;謴?fù)這個(gè)譜包絡(luò)是許多語(yǔ)音處理應(yīng)用中的主要問(wèn)題,因?yàn)檎亲V包絡(luò)攜帶了主要的發(fā)音信息。線性預(yù)測(cè)技術(shù)之所以非常重要,正是由于它所提供的譜包絡(luò)分析方法是快速、準(zhǔn)確,并且在理論上完全得到證明的方法。聲道頻率響應(yīng),最大值與共振峰相對(duì)應(yīng)1.3語(yǔ)音信號(hào)的線性產(chǎn)生模型1語(yǔ)音信號(hào)處理基礎(chǔ)理想的聲門脈沖序列頻譜第55頁(yè),課件共181頁(yè),創(chuàng)作于2023年2月1.4語(yǔ)音信號(hào)的非線性產(chǎn)生模型(了解)1語(yǔ)音信號(hào)處理基礎(chǔ)調(diào)頻-調(diào)幅模型的基本原理

Teager能量算子能量分離法調(diào)頻-調(diào)幅模型的應(yīng)用第56頁(yè),課件共181頁(yè),創(chuàng)作于2023年2月聲音處理●聲音的三要素

●音質(zhì)聲音的三要素是音調(diào)、音色和音強(qiáng)

音調(diào)代表聲音的高低,與頻率有關(guān)。頻率越高,音調(diào)越高,反之亦然。音色是聲音的特色。影響聲音特色的主要因素是復(fù)音,即具有不同頻率和不同振幅的混合聲音。音強(qiáng)是聲音的強(qiáng)度,也被稱為聲音的強(qiáng)度。音強(qiáng)與聲波的振幅成正比,振幅越大,強(qiáng)度越大。對(duì)于數(shù)字音頻信號(hào),音質(zhì)的好壞與數(shù)據(jù)采樣頻率和數(shù)據(jù)位數(shù)有關(guān)。音質(zhì)與聲音還原設(shè)備有關(guān)。音質(zhì)與信號(hào)噪聲比(SNR)有關(guān)。第57頁(yè),課件共181頁(yè),創(chuàng)作于2023年2月●文件數(shù)字化的音頻文件主要分為4類:

波形音頻文件。一種最直接的表達(dá)聲波的數(shù)字形式,文件擴(kuò)展名是“.wav”。MIDI音頻文件。一種計(jì)算機(jī)數(shù)字音樂(lè)接口生成的數(shù)字描述音頻文件,擴(kuò)展名是“.mid”。聲音處理CD-DA音頻文件。標(biāo)準(zhǔn)激光盤文件,擴(kuò)展名是“.cda”。

壓縮音頻文件。在數(shù)字音頻領(lǐng)域,一種MP3格式的壓縮音頻文件很流行,該格式的文件簡(jiǎn)稱MP3文件。

第58頁(yè),課件共181頁(yè),創(chuàng)作于2023年2月聲音處理獲取聲音●獲得CD中的聲音●錄音●聲音轉(zhuǎn)換

如果希望把音樂(lè)CD中的歌曲或樂(lè)曲作為素材,需要把這些歌曲或樂(lè)曲轉(zhuǎn)換成計(jì)算機(jī)能夠處理的數(shù)字化聲音,這就是“采樣”??梢允褂肊asyCD-DAExtractor、CoolEdit等音頻處理軟件對(duì)音頻進(jìn)行編輯和處理。

要錄制音質(zhì)好的聲音,有兩個(gè)途徑:使用性能優(yōu)良的錄音設(shè)備;采用較高的采樣頻率。可以使用Windows系統(tǒng)自帶的“錄音機(jī)”進(jìn)行錄音。

聲音的轉(zhuǎn)換只能從高質(zhì)量向低質(zhì)量進(jìn)行,聲音的轉(zhuǎn)換不需要專門的軟件,使用Windows的“錄音機(jī)”轉(zhuǎn)換即可,并且轉(zhuǎn)換功能很強(qiáng)。如果要進(jìn)一步處理,可采用CoolEdit(AdobeAudition)工具軟件。第59頁(yè),課件共181頁(yè),創(chuàng)作于2023年2月短時(shí)能量和過(guò)零率語(yǔ)音分幀每幀10-30ms,幀間隔10ms短時(shí)能量對(duì)數(shù)平方和絕對(duì)值過(guò)零率(ZCR)60第60頁(yè),課件共181頁(yè),創(chuàng)作于2023年2月參數(shù)提取的預(yù)處理預(yù)加重:—減少尖銳噪聲影響,提升高頻部分加窗:Hamming—減少Gibbs效應(yīng)61第61頁(yè),課件共181頁(yè),創(chuàng)作于2023年2月各種參數(shù)的比較LinearPredictionCepstrumCoefficients(LPCC)假定所處理信號(hào)為自回歸信號(hào)(不適用輔音);計(jì)算簡(jiǎn)單,但抗噪性差。Mel-FrequencyCepstrumCoefficients(MFCC)模擬人的聽(tīng)覺(jué)模型;強(qiáng)調(diào)低頻部分,屏蔽噪聲影響;識(shí)別率高,但計(jì)算量大。能量輔助作用,需歸一化。音調(diào)對(duì)算法要求高,適于二次判別。62第62頁(yè),課件共181頁(yè),創(chuàng)作于2023年2月Mel-頻率目的:模擬人耳對(duì)不同頻率語(yǔ)音的感知人類對(duì)不同頻率語(yǔ)音有不同的感知能力1kHz以下,與頻率成線性關(guān)系1kHz以上,與頻率成對(duì)數(shù)關(guān)系Mel頻率定義1Mel—1kHz音調(diào)感知程度的1/100063第63頁(yè),課件共181頁(yè),創(chuàng)作于2023年2月Mel-頻率公式:頻率-Mel-頻率:--頻率--Mel-頻率Mel-頻率頻率(Hz)64第64頁(yè),課件共181頁(yè),創(chuàng)作于2023年2月MFCC計(jì)算流程:65DFT時(shí)域信號(hào)線性譜域Mel濾波器組LogDCTMel譜域?qū)?shù)譜域MFCC第65頁(yè),課件共181頁(yè),創(chuàng)作于2023年2月2語(yǔ)音識(shí)別2語(yǔ)音識(shí)別(1)語(yǔ)言是人類特有的功能,聲音是人類常用的工具,是相互傳遞信息的最主要的手段。(2)語(yǔ)音和語(yǔ)言與人的智力活動(dòng)密切相關(guān),是人們構(gòu)成思想疏通和感情交流的最主要的途徑。

通過(guò)語(yǔ)音傳遞信息是人類最重要、最有效、最常用和最方便的交換信息形式。第66頁(yè),課件共181頁(yè),創(chuàng)作于2023年2月參考資料2語(yǔ)音識(shí)別1、趙力.語(yǔ)音信號(hào)處理.機(jī)械工業(yè)出版社,2003.(教材)2、韓紀(jì)慶、張磊、鄭鐵然.語(yǔ)音信號(hào)處理.清華大學(xué)出版社,2004.3、楊行峻、遲惠生.語(yǔ)音信號(hào)數(shù)字處理.電子工業(yè)出版社,2004.4、易克初、田斌.語(yǔ)音信號(hào)處理.國(guó)防工業(yè)出版社,2000.5、HuangXD,AceroA,HonH,etal.SpokenLanguageProcessing:AGuidetoTheory,AlgorithmandSystemDevelopment.NewJersey:PrenticeHallPTR,2001第67頁(yè),課件共181頁(yè),創(chuàng)作于2023年2月內(nèi)容提示2語(yǔ)音識(shí)別2.1語(yǔ)音識(shí)別的重要性2.2語(yǔ)音識(shí)別的定義、原理和分類2.3語(yǔ)音識(shí)別的歷史回顧2.4語(yǔ)音信號(hào)處理簡(jiǎn)介2.5語(yǔ)音技術(shù)概述第68頁(yè),課件共181頁(yè),創(chuàng)作于2023年2月特定人和非特定人(話者相關(guān)或話者無(wú)關(guān))詞匯量(大,?。┕铝⒃~,連接詞,關(guān)鍵詞和連續(xù)語(yǔ)音自然發(fā)音和朗讀發(fā)音口音(方言)背景噪音(環(huán)境噪音)信道差異(固定電話,麥克,手機(jī)等)聲學(xué)模型(HMM,mono-phone,bi-phone,tri-phone)聲學(xué)特征(MFCC)解碼(Viterbi)語(yǔ)音識(shí)別—基本術(shù)語(yǔ)(1)第69頁(yè),課件共181頁(yè),創(chuàng)作于2023年2月識(shí)別指標(biāo):SER(SentenceErrorRate,句子錯(cuò)誤率)WER(WordErrorRate,詞錯(cuò)誤率)CER(CharacterErrorRate,字錯(cuò)誤率)PER(PhoneErrorRate,音節(jié)錯(cuò)誤率)采樣率,8kHz(電話或手機(jī)),16kHz(麥克風(fēng))時(shí)域,頻域端點(diǎn)檢測(cè),靜音檢測(cè)或有效音檢測(cè)(VAD)語(yǔ)音識(shí)別—基本術(shù)語(yǔ)(2)第70頁(yè),課件共181頁(yè),創(chuàng)作于2023年2月人類利用語(yǔ)言相互交流信息,包括語(yǔ)音和文字兩種表達(dá)方式。通過(guò)語(yǔ)音相互傳遞信息,這是人類最重要的基本功能之一。隨著信息社會(huì)的發(fā)展,人與人之間,人與機(jī)器之間也需要進(jìn)行大量的信息交換。計(jì)算機(jī)語(yǔ)音識(shí)別是智能計(jì)算機(jī)系統(tǒng)的重要特征。這一技術(shù)的應(yīng)用將從根本上改變計(jì)算機(jī)的人機(jī)界面,從而對(duì)計(jì)算機(jī)的發(fā)展以及推廣應(yīng)用產(chǎn)生深遠(yuǎn)的影響。2.1語(yǔ)音識(shí)別的重要性2語(yǔ)音識(shí)別第71頁(yè),課件共181頁(yè),創(chuàng)作于2023年2月人與人之間、人與機(jī)器之間的語(yǔ)音信息處理過(guò)程人與人之間的語(yǔ)音通信(人)行動(dòng)意圖說(shuō)話方收聽(tīng)方○語(yǔ)言形成發(fā)音收聽(tīng)認(rèn)識(shí)·理解傳輸系統(tǒng)(編碼、解碼)空間傳播文本解析語(yǔ)音合成語(yǔ)音識(shí)別文章輸入(機(jī)器)語(yǔ)音理解計(jì)算機(jī)處理應(yīng)答文生成·Ⅰ:第一類人機(jī)語(yǔ)音通信問(wèn)題Ⅱ:第二類人機(jī)語(yǔ)音通信問(wèn)題ⅠⅡ○·第72頁(yè),課件共181頁(yè),創(chuàng)作于2023年2月計(jì)算機(jī)模擬人類交流信息的過(guò)程(1)將大腦產(chǎn)生的思想轉(zhuǎn)換成語(yǔ)言(2)將語(yǔ)言轉(zhuǎn)換成相應(yīng)的語(yǔ)音(3)識(shí)別表達(dá)語(yǔ)言的語(yǔ)音內(nèi)容(4)理解語(yǔ)音所表達(dá)的語(yǔ)言意義自然語(yǔ)言生成自然語(yǔ)言理解語(yǔ)音合成語(yǔ)音識(shí)別第73頁(yè),課件共181頁(yè),創(chuàng)作于2023年2月基于電話的語(yǔ)音識(shí)別技術(shù),使計(jì)算機(jī)直接為客戶提供金融證券和旅游等方面的信息查詢及服務(wù)成為可能,進(jìn)而成為電子商務(wù)中的重要一環(huán)(Voice-Commerce)。語(yǔ)音識(shí)別技術(shù)作為聲控產(chǎn)業(yè),對(duì)編輯排版、辦公自動(dòng)化、工業(yè)過(guò)程和機(jī)器操作的聲控技術(shù)起到重大的推進(jìn)作用。可以預(yù)言,語(yǔ)音技術(shù)必將對(duì)工業(yè)、金融、商業(yè)、文化、教育等諸方面事業(yè)產(chǎn)生革命性的影響。語(yǔ)音識(shí)別是一項(xiàng)具有巨大應(yīng)用推廣前景的工程第74頁(yè),課件共181頁(yè),創(chuàng)作于2023年2月主要先進(jìn)國(guó)家都將此工程列為國(guó)家級(jí)研究項(xiàng)目面對(duì)如此廣闊的應(yīng)用領(lǐng)域,目前國(guó)內(nèi)外眾多公司正積極推動(dòng)語(yǔ)音識(shí)別技術(shù)的應(yīng)用。

微軟:讓計(jì)算機(jī)能說(shuō)會(huì)聽(tīng)

IBM:ViaVoice仍居主流

Intel:做語(yǔ)音技術(shù)倡導(dǎo)者

第75頁(yè),課件共181頁(yè),創(chuàng)作于2023年2月BillGates在97年世界計(jì)算機(jī)博覽會(huì)(COMDEX)主題演講會(huì)上描繪IT事業(yè)的發(fā)展宏圖時(shí)指出:下一代操作系統(tǒng)和應(yīng)用程序的用戶界面將是語(yǔ)音識(shí)別。工業(yè)界應(yīng)對(duì)語(yǔ)音識(shí)別領(lǐng)域的重大突破做好充分準(zhǔn)備,因?yàn)槟菍⑹且粓?chǎng)席卷全球的另一次熱潮。1998年11月5日,微軟中國(guó)研究院在北京成立。該中心的任務(wù)是重點(diǎn)研究計(jì)算機(jī)在中文環(huán)境下的易用性。微軟:讓計(jì)算機(jī)能說(shuō)會(huì)聽(tīng)第76頁(yè),課件共181頁(yè),創(chuàng)作于2023年2月IBM公司潛心研究語(yǔ)音識(shí)別技術(shù)迄今已達(dá)30年之久,投資超過(guò)2億美元。IBM公司于1995年在北京成立了中國(guó)研究中心,中文語(yǔ)音信息處理成了該中心三大研究領(lǐng)域之一,并于1997年9月4日,在北京推出了中文連續(xù)語(yǔ)音識(shí)別產(chǎn)品ViaVoice。IBM:ViaVoice仍居主流第77頁(yè),課件共181頁(yè),創(chuàng)作于2023年2月1998年,英特爾公司也宣布致力于推廣語(yǔ)音識(shí)別技術(shù),除了在北京舉辦首屆語(yǔ)音技術(shù)國(guó)際論壇之外,還在北京、上海、成都、廣州等地展開(kāi)了“基于英特爾框架的語(yǔ)音識(shí)別技術(shù)”的宣傳活動(dòng)。聯(lián)合了七家世界著名學(xué)術(shù)機(jī)構(gòu)(中科院自動(dòng)化所、清華大學(xué)、香港科技大學(xué)、香港中文大學(xué)、麻省理工學(xué)院、俄勒崗研究院、WATERLLOO大學(xué))成立了“國(guó)際語(yǔ)音技術(shù)研究組織”,致力于計(jì)算機(jī)語(yǔ)音技術(shù)的基礎(chǔ)研究,以加速中文語(yǔ)音識(shí)別技術(shù)的發(fā)展。Intel:做語(yǔ)音技術(shù)倡導(dǎo)者第78頁(yè),課件共181頁(yè),創(chuàng)作于2023年2月語(yǔ)音識(shí)別是研究如何采用數(shù)字信號(hào)處理技術(shù)自動(dòng)提取以及決定語(yǔ)音信號(hào)中最基本、最有意義的信息的一門新興的邊緣學(xué)科。它是語(yǔ)音信號(hào)處理學(xué)科的一個(gè)分支。語(yǔ)音識(shí)別所涉及的學(xué)科領(lǐng)域:信號(hào)處理、物理學(xué)(聲學(xué))、模式匹配、通信及信息理論、語(yǔ)言語(yǔ)音學(xué)、生理學(xué)、計(jì)算機(jī)科學(xué)(研究軟硬件算法以便更有效地實(shí)現(xiàn)用于識(shí)別系統(tǒng)中的各種方法)、心理學(xué)等。2.2語(yǔ)音識(shí)別的定義、原理和分類2語(yǔ)音識(shí)別第79頁(yè),課件共181頁(yè),創(chuàng)作于2023年2月語(yǔ)音識(shí)別是指從語(yǔ)音到文本的轉(zhuǎn)換,即讓計(jì)算機(jī)能夠把人發(fā)出的有意義的話音變成書面語(yǔ)言。通俗地說(shuō)就是讓機(jī)器能夠聽(tīng)懂人說(shuō)的話。所謂聽(tīng)懂,有兩層意思,一是指把用戶所說(shuō)的話逐詞逐句轉(zhuǎn)換成文本;二是指正確理解語(yǔ)音中所包含的要求,作出正確的應(yīng)答。2.2.1語(yǔ)音識(shí)別的定義第80頁(yè),課件共181頁(yè),創(chuàng)作于2023年2月有意義、有內(nèi)容的信息是構(gòu)成語(yǔ)音音韻特性、即語(yǔ)音的共性特征之基礎(chǔ),這類特征信息稱為音韻信息。語(yǔ)音信號(hào)中有關(guān)個(gè)人特征的信息、即語(yǔ)音的個(gè)性特征,如:音強(qiáng)、節(jié)奏、音高等,這類特征信息稱為音律信息。從廣義上講,語(yǔ)音識(shí)別也包括了對(duì)說(shuō)話人的識(shí)別,其主要內(nèi)容是提取語(yǔ)音信號(hào)中有關(guān)個(gè)人特征的信息、即語(yǔ)音的個(gè)性特征(如:音律特性等),在這里專指有意義、有內(nèi)容的識(shí)別。音韻信息與音律信息第81頁(yè),課件共181頁(yè),創(chuàng)作于2023年2月訓(xùn)練(Training):預(yù)先分析出語(yǔ)音特征參數(shù),制作語(yǔ)音模板(Template)并存放在語(yǔ)音參數(shù)庫(kù)中。識(shí)別(Recognition):待識(shí)語(yǔ)音經(jīng)過(guò)與訓(xùn)練時(shí)相同的分析,得到語(yǔ)音參數(shù),將它與庫(kù)中的參考模板一一比較,并采用判決的方法找出最接近語(yǔ)音特征的模板,得出識(shí)別結(jié)果。失真測(cè)度(DistortionMeasures):在進(jìn)行比較時(shí)要有個(gè)標(biāo)準(zhǔn),這就是計(jì)量語(yǔ)音特征參數(shù)矢量之間的“失真測(cè)度”。主要識(shí)別框架:基于模式匹配的動(dòng)態(tài)時(shí)間規(guī)整法(DTW:DynamicTimeWarping)和基于統(tǒng)計(jì)模型的隱馬爾柯夫模型法(HMM:HiddenMarkovModel)。2.2.2語(yǔ)音識(shí)別的基本原理第82頁(yè),課件共181頁(yè),創(chuàng)作于2023年2月不同的語(yǔ)音識(shí)別系統(tǒng),雖然具體實(shí)現(xiàn)細(xì)節(jié)有所不同,但所采用的基本技術(shù)相似,一個(gè)典型語(yǔ)音識(shí)別系統(tǒng)的實(shí)現(xiàn)過(guò)程如圖所示。

語(yǔ)音識(shí)別原理框圖預(yù)處理特征提取參考模式模式匹配判決規(guī)則語(yǔ)音信號(hào)識(shí)別結(jié)果訓(xùn)練識(shí)別圖語(yǔ)音識(shí)別的實(shí)現(xiàn)第83頁(yè),課件共181頁(yè),創(chuàng)作于2023年2月預(yù)處理語(yǔ)音信號(hào)的放大、防混疊濾波、自動(dòng)增益控制、模數(shù)轉(zhuǎn)換、消除噪聲、端點(diǎn)檢測(cè)。端點(diǎn)檢測(cè):從包含語(yǔ)音的一段信號(hào)中確定出語(yǔ)音的起點(diǎn)和終點(diǎn)。有效的端點(diǎn)檢測(cè)不僅能使處理的時(shí)間減到最小,而且能排除無(wú)聲段的噪聲干擾。實(shí)驗(yàn)表明:端點(diǎn)檢測(cè)的正確與否影響到識(shí)別率的高低。語(yǔ)音端點(diǎn)檢測(cè)的方法:短時(shí)能量和短時(shí)過(guò)零率。第84頁(yè),課件共181頁(yè),創(chuàng)作于2023年2月第85頁(yè),課件共181頁(yè),創(chuàng)作于2023年2月特征參數(shù)和識(shí)別方法有關(guān)系,是語(yǔ)音識(shí)別的關(guān)鍵之處,選擇的好壞直接影響語(yǔ)音識(shí)別的精度。語(yǔ)音特征參數(shù)包括:短時(shí)平均能量、短時(shí)過(guò)零率、頻譜、三個(gè)共振峰頻率(F1、F2、F3的頻率值、帶寬、幅值)、線性預(yù)測(cè)系數(shù)、LPC倒譜和Mel倒譜等。語(yǔ)音特征參數(shù)的提取第86頁(yè),課件共181頁(yè),創(chuàng)作于2023年2月將未知語(yǔ)音的特征參數(shù)與模板參數(shù)逐一進(jìn)行比較與匹配,判決的依據(jù)是失真測(cè)度最小的準(zhǔn)則。語(yǔ)音識(shí)別的測(cè)度有很多,歐氏距離測(cè)度及其變形、線性預(yù)測(cè)失真測(cè)度等。模式匹配第87頁(yè),課件共181頁(yè),創(chuàng)作于2023年2月歐氏距離測(cè)度K維特征矢量:

Xi={xi1,xi2,……,xiK}Yj={yj1,yj2,……,yjK}均方誤差歐氏距離第88頁(yè),課件共181頁(yè),創(chuàng)作于2023年2月先對(duì)系統(tǒng)中的每個(gè)字,做一個(gè)碼本作為該字的參考(標(biāo)準(zhǔn))模板,共有M個(gè)字,故共有M個(gè)碼本,組成一個(gè)模板庫(kù)。識(shí)別時(shí),對(duì)于任意輸入的語(yǔ)音特征矢量序列X={X1,X2,…,XN},計(jì)算該序列中每一個(gè)特征矢量對(duì)模板庫(kù)中的每個(gè)碼本的總平均失真量誤差,找出最小的失真誤差對(duì)應(yīng)的碼本(代表一個(gè)字),將對(duì)應(yīng)的字輸出作為識(shí)別的結(jié)果。模式匹配過(guò)程第89頁(yè),課件共181頁(yè),創(chuàng)作于2023年2月模式匹配示意圖特征矢量序列X={X1,X2,……,XN}模板庫(kù)Y1,Y2,……,YM特征矢量序列形成任意語(yǔ)音幀X碼本Y1Y2YM計(jì)算失真誤差判決輸出結(jié)果Yi

每一個(gè)字做一個(gè)碼本,共M個(gè)字模板庫(kù)第90頁(yè),課件共181頁(yè),創(chuàng)作于2023年2月模板庫(kù){X1,X2,…,XN}模板庫(kù)語(yǔ)碼本{Y1,Y2,…,YN}學(xué)碼本音碼本文碼本wen第91頁(yè),課件共181頁(yè),創(chuàng)作于2023年2月專家知識(shí)庫(kù)用來(lái)存儲(chǔ)各種語(yǔ)言學(xué)知識(shí),如漢語(yǔ)聲調(diào)變調(diào)規(guī)則、音長(zhǎng)分布規(guī)則、同音字判別規(guī)則、構(gòu)詞規(guī)則、語(yǔ)法規(guī)則、語(yǔ)義規(guī)則等。對(duì)于不同的語(yǔ)言有不同的語(yǔ)言學(xué)專家知識(shí)庫(kù)。判決是語(yǔ)音識(shí)別的最后一步,也是系統(tǒng)識(shí)別效果的最終表現(xiàn)。根據(jù)若干準(zhǔn)則及專家知識(shí),判決選出可能結(jié)果中最好的結(jié)果,由識(shí)別系統(tǒng)輸出。第92頁(yè),課件共181頁(yè),創(chuàng)作于2023年2月語(yǔ)音識(shí)別系統(tǒng)框架特征提取訓(xùn)練模式匹配拒識(shí)語(yǔ)法模型結(jié)果語(yǔ)音說(shuō)話人自適應(yīng)第93頁(yè),課件共181頁(yè),創(chuàng)作于2023年2月語(yǔ)音識(shí)別過(guò)程第94頁(yè),課件共181頁(yè),創(chuàng)作于2023年2月相對(duì)于西方語(yǔ)言來(lái)說(shuō),中文有自己的獨(dú)特之處。中文是有調(diào)語(yǔ)言,發(fā)音的基本單元是聲母和韻母并且以音節(jié)為自然單位,一個(gè)音節(jié)就是一個(gè)字甚至詞,以至字詞的時(shí)長(zhǎng)很短,混淆度更大。另外,中文用415個(gè)基本的無(wú)調(diào)音節(jié)來(lái)構(gòu)成7000多個(gè)基本漢字的發(fā)音,多音字很多。特別是,中文的發(fā)音和字是獨(dú)立的,僅僅是中國(guó)大陸地區(qū)就有很多的方言,口音問(wèn)題非常嚴(yán)重。特別是在做中文孤立詞和短語(yǔ)命令識(shí)別的時(shí)候,由于沒(méi)有上下文的信息并且語(yǔ)音的長(zhǎng)度很短,口音會(huì)嚴(yán)重地降低識(shí)別率。中文語(yǔ)音識(shí)別的特點(diǎn)第95頁(yè),課件共181頁(yè),創(chuàng)作于2023年2月中文語(yǔ)音建?;容^第96頁(yè),課件共181頁(yè),創(chuàng)作于2023年2月按識(shí)別器的類型按識(shí)別器對(duì)使用者的適應(yīng)情況按語(yǔ)音詞匯表的大小2.2.3語(yǔ)音識(shí)別的分類第97頁(yè),課件共181頁(yè),創(chuàng)作于2023年2月按識(shí)別器的類型

孤立詞識(shí)別識(shí)別單元是有限的,單個(gè)的詞;優(yōu)點(diǎn):速度快,識(shí)別正確率高缺點(diǎn):應(yīng)用范圍窄,不能識(shí)別詞表外的詞應(yīng)用案例:語(yǔ)音命令,手機(jī)語(yǔ)音撥號(hào)

連續(xù)語(yǔ)音識(shí)別識(shí)別單元可以是字,詞或者句子優(yōu)點(diǎn):應(yīng)用范圍廣缺點(diǎn):速度慢,識(shí)別率不高,尤其是詞表較大的時(shí)候應(yīng)用案例:語(yǔ)音翻譯,語(yǔ)音短信,聽(tīng)寫機(jī),語(yǔ)音郵件

關(guān)鍵詞識(shí)別識(shí)別單元是詞,判斷輸入語(yǔ)音中是否含有詞表中的詞優(yōu)點(diǎn):能夠處理連續(xù)語(yǔ)音,詞表可定制缺點(diǎn):速度較慢,詞表越大,錯(cuò)誤率越多應(yīng)用案例:電話呼叫服務(wù),電話安全監(jiān)聽(tīng)第98頁(yè),課件共181頁(yè),創(chuàng)作于2023年2月①特定人語(yǔ)音識(shí)別(Speaker-Dependent)

語(yǔ)音識(shí)別的標(biāo)準(zhǔn)模板或模型只適應(yīng)于某個(gè)人,實(shí)際上,該模板或模型就是該人通過(guò)輸入詞匯表中的每個(gè)字、詞或短語(yǔ)的語(yǔ)音建立起來(lái)的。其他人使用時(shí),需同樣建立自己的標(biāo)準(zhǔn)模板或模型。②非特定人語(yǔ)音識(shí)別(Speaker-Independent)

語(yǔ)音識(shí)別的標(biāo)準(zhǔn)模板或模型適應(yīng)于指定的某一范疇的說(shuō)話人(如說(shuō)標(biāo)準(zhǔn)普通話),標(biāo)準(zhǔn)模板或模型由該范疇的多個(gè)人通過(guò)訓(xùn)練而產(chǎn)生。識(shí)別時(shí)可供參加訓(xùn)練的發(fā)音人(圈內(nèi)人)使用,也可供未參加訓(xùn)練的同一范疇的發(fā)音人(圈外人)使用。按識(shí)別器對(duì)使用者的適應(yīng)情況第99頁(yè),課件共181頁(yè),創(chuàng)作于2023年2月①有限詞匯識(shí)別按詞匯表中字、詞或短句個(gè)數(shù)的多少,大致分為:100以下為小詞匯;100-1000為中詞匯;1000以上為大詞匯。②無(wú)限詞匯識(shí)別(全音節(jié)識(shí)別)當(dāng)識(shí)別基元為漢語(yǔ)普通話中對(duì)應(yīng)所有漢字的可讀音節(jié)時(shí),則稱其為全音節(jié)語(yǔ)音識(shí)別(音節(jié)字表:Lexicon)。全音節(jié)語(yǔ)音識(shí)別是實(shí)現(xiàn)無(wú)限詞匯或中文文本輸入的基礎(chǔ)。按語(yǔ)音詞匯表的大小第100頁(yè),課件共181頁(yè),創(chuàng)作于2023年2月2.3語(yǔ)音識(shí)別的歷史回顧2語(yǔ)音識(shí)別第101頁(yè),課件共181頁(yè),創(chuàng)作于2023年2月1952年貝爾研究所Davis等人研究成功了世界上第一個(gè)能識(shí)別10個(gè)英文數(shù)字發(fā)音的實(shí)驗(yàn)系統(tǒng)。1960年英國(guó)的Denes等人研究成功了第一個(gè)計(jì)算機(jī)語(yǔ)音識(shí)別系統(tǒng)。大規(guī)模的語(yǔ)音識(shí)別研究是在進(jìn)入了70年代以后,在小詞匯量、孤立詞的識(shí)別方面取得了實(shí)質(zhì)性的進(jìn)展*。80年代以后,研究的重點(diǎn)逐漸轉(zhuǎn)向大詞匯量、非特定人連續(xù)語(yǔ)音識(shí)別。在研究思路上也發(fā)生了重大變化,即由傳統(tǒng)的基于標(biāo)準(zhǔn)模板匹配的技術(shù)思路開(kāi)始轉(zhuǎn)向基于統(tǒng)計(jì)模型(HMM)的技術(shù)思路。此外,再次提出了將神經(jīng)網(wǎng)絡(luò)技術(shù)引入語(yǔ)音識(shí)別問(wèn)題的技術(shù)思路。90年代以后,語(yǔ)音識(shí)別的系統(tǒng)框架方面并沒(méi)有什么重大突破。但語(yǔ)音識(shí)別技術(shù)的應(yīng)用及產(chǎn)品化方面出現(xiàn)了很大的進(jìn)展。2.3.1國(guó)外語(yǔ)音識(shí)別研究的歷史(1)第102頁(yè),課件共181頁(yè),創(chuàng)作于2023年2月這一時(shí)期的語(yǔ)音識(shí)別方法基本上是采用傳統(tǒng)的模式識(shí)別策略。其中以蘇聯(lián)的Velichko和Zagoruyko、日本的迫江和千葉,以及當(dāng)時(shí)在美國(guó)的板倉(cāng)等人的研究工作最具有代表性。-蘇聯(lián)的研究為模式識(shí)別應(yīng)用于語(yǔ)音識(shí)別這一領(lǐng)域奠定了基礎(chǔ);-日本的研究則展示了如何利用動(dòng)態(tài)規(guī)劃技術(shù)在待識(shí)語(yǔ)音模式與標(biāo)準(zhǔn)語(yǔ)音模式之間進(jìn)行非線性時(shí)間匹配的方法;-板倉(cāng)的研究提出了如何將線性預(yù)測(cè)分析技術(shù)(LPC)加以擴(kuò)展,使之用于語(yǔ)音信號(hào)的特征抽取的方法。目前在大詞匯語(yǔ)音識(shí)別方面處于領(lǐng)先地位的IBM語(yǔ)音研究小組,就是在70年代開(kāi)始了它的大詞匯語(yǔ)音識(shí)別研究工作的。AT&A的貝爾研究所也開(kāi)始了一系列有關(guān)非特定人語(yǔ)音識(shí)別的實(shí)驗(yàn)。這一研究歷經(jīng)10年,其成果是確立了如何制作用于非特定人語(yǔ)音識(shí)別的標(biāo)準(zhǔn)模板的方法。國(guó)外70年代所取得的實(shí)質(zhì)性的進(jìn)展第103頁(yè),課件共181頁(yè),創(chuàng)作于2023年2月這一時(shí)期所取得的重大進(jìn)展有:(1)隱碼爾柯夫模型(HMM)技術(shù)的成熟和不斷完善成為語(yǔ)音識(shí)別的主流方法。(2)以知識(shí)為基礎(chǔ)的語(yǔ)音識(shí)別的研究日益受到重視。在進(jìn)行連續(xù)語(yǔ)音識(shí)別的時(shí)候,除了識(shí)別聲學(xué)信息外,更多地利用各種語(yǔ)言知識(shí),諸如構(gòu)詞、句法、語(yǔ)義、對(duì)話背景方面等的知識(shí)來(lái)幫助進(jìn)一步對(duì)語(yǔ)音作出識(shí)別和理解。同時(shí)在語(yǔ)音識(shí)別研究領(lǐng)域,還產(chǎn)生了基于統(tǒng)計(jì)概率的語(yǔ)言模型。(3)人工神經(jīng)網(wǎng)絡(luò)在語(yǔ)音識(shí)別中的應(yīng)用研究的興起。在這些研究中,大部分采用基于反向傳播法(BP算法)的多層感知網(wǎng)絡(luò)。人工神經(jīng)網(wǎng)絡(luò)具有區(qū)分復(fù)雜的分類邊界的能力,顯然它十分有助于模式劃分。國(guó)外80年代所取得的重大進(jìn)展第104頁(yè),課件共181頁(yè),創(chuàng)作于2023年2月特別是在電話語(yǔ)音識(shí)別方面,由于其有著廣泛的應(yīng)用前景,成了當(dāng)前語(yǔ)音識(shí)別應(yīng)用的一個(gè)熱點(diǎn)。另外,面向個(gè)人用途的連續(xù)語(yǔ)音聽(tīng)寫機(jī)技術(shù)也日趨完善。這方面,最具代表性的是IBM的ViaVoice和Dragon公司的Dragon

Dictate系統(tǒng)。這些系統(tǒng)具有說(shuō)話人自適應(yīng)能力,新用戶不需要對(duì)全部詞匯進(jìn)行訓(xùn)練,便可在使用中不斷提高識(shí)別率。國(guó)外90年代所取得的實(shí)質(zhì)性的進(jìn)展第105頁(yè),課件共181頁(yè),創(chuàng)作于2023年2月DARPA(DefenseAdvancedResearchProjectsAgency)是在70年代由美國(guó)國(guó)防部遠(yuǎn)景研究計(jì)劃局資助的一項(xiàng)10年計(jì)劃,其旨在支持語(yǔ)言理解系統(tǒng)的研究開(kāi)發(fā)工作*。到了80年代,美國(guó)國(guó)防部遠(yuǎn)景研究計(jì)劃局又資助了一項(xiàng)為期10年的DARPA戰(zhàn)略計(jì)劃,其中包括噪聲下的語(yǔ)音識(shí)別和會(huì)話(口語(yǔ))識(shí)別系統(tǒng),識(shí)別任務(wù)設(shè)定為“(1000單詞)連續(xù)語(yǔ)音數(shù)據(jù)庫(kù)管理”。到了90年代,這一DARPA計(jì)劃仍在持續(xù)進(jìn)行中。其研究重點(diǎn)已轉(zhuǎn)向識(shí)別裝置中的自然語(yǔ)言處理部分,識(shí)別任務(wù)設(shè)定為“航空旅行信息檢索”。

日本也在1981年的第五代計(jì)算機(jī)計(jì)劃中提出了有關(guān)語(yǔ)音識(shí)別輸入-輸出自然語(yǔ)言的宏偉目標(biāo),雖然沒(méi)能實(shí)現(xiàn)預(yù)期目標(biāo),但是有關(guān)語(yǔ)音識(shí)別技術(shù)的研究有了大幅度的加強(qiáng)和進(jìn)展。1987年起,日本又?jǐn)M出新的國(guó)家項(xiàng)目高級(jí)人機(jī)口語(yǔ)接口和自動(dòng)電話翻譯系統(tǒng)。2.3.1國(guó)外語(yǔ)音識(shí)別研究的歷史(2)第106頁(yè),課件共181頁(yè),創(chuàng)作于2023年2月CMU(卡內(nèi)基梅龍大學(xué))、MIT(麻省理工學(xué)院)、IBM、AT&T等都參與了這一計(jì)劃的開(kāi)發(fā)工作。該計(jì)劃執(zhí)行的結(jié)果是1976年推出了HARPY(CMU)系統(tǒng)。雖然,這是有限詞匯和限定領(lǐng)域的識(shí)別系統(tǒng),但改變了原來(lái)只利用聲學(xué)信息的狀況,開(kāi)始應(yīng)用高層次語(yǔ)言學(xué)知識(shí)(如構(gòu)詞、句法、語(yǔ)義、對(duì)話背景等)。在這為期10年的階段中盡管所有的研究計(jì)劃均未能達(dá)到預(yù)期目標(biāo),但它對(duì)語(yǔ)音識(shí)別和理解研究的發(fā)展起了重要的推動(dòng)作用。通過(guò)這一階段的研究使人們認(rèn)識(shí)到語(yǔ)音識(shí)別任務(wù)的艱巨性,總結(jié)出許多有意義的經(jīng)驗(yàn)教訓(xùn),并且從此對(duì)語(yǔ)音識(shí)別提出了許多基礎(chǔ)性的研究課題。這些課題主要涉及到語(yǔ)音信號(hào)和自然語(yǔ)言的多變性和復(fù)雜性。70年代美國(guó)DARPA

(美國(guó)國(guó)防部高級(jí)計(jì)劃局)計(jì)劃第107頁(yè),課件共181頁(yè),創(chuàng)作于2023年2月(1)連續(xù)語(yǔ)音詞與詞之間沒(méi)有明顯的停頓,詞與詞之間的分割比較困難;(2)每一個(gè)基本的聲學(xué)識(shí)別基元(如音素)受前后音素發(fā)音方式的影響(協(xié)同發(fā)音)使特征變得不穩(wěn)定(3)不同人、不同心理和生理以及在不同的說(shuō)話環(huán)境下說(shuō)同一詞時(shí),聲學(xué)信號(hào)特征會(huì)發(fā)生變化;(4)一個(gè)詞的讀音不僅包含了詞義特征,而且還包含了說(shuō)話人性別、年齡、情緒等大量與詞義無(wú)關(guān)的信息,而這些信息的分離是不容易的。(5)自然語(yǔ)言的多變性難以借助于一些基本語(yǔ)法規(guī)則進(jìn)行描述,因而使計(jì)算機(jī)編程變得困難。語(yǔ)音信號(hào)和自然語(yǔ)言的多變性和復(fù)雜性第108頁(yè),課件共181頁(yè),創(chuàng)作于2023年2月我國(guó)的語(yǔ)音識(shí)別研究起始于1958年,由中國(guó)科學(xué)院聲學(xué)所利用電子管電路識(shí)別10個(gè)元音。直至1973年才由中國(guó)科學(xué)院聲學(xué)所開(kāi)始計(jì)算機(jī)語(yǔ)音識(shí)別。由于當(dāng)時(shí)條件的限制,我國(guó)的語(yǔ)音識(shí)別研究工作一直處于緩慢發(fā)展的階段。進(jìn)入80年代以后,隨著計(jì)算機(jī)應(yīng)用技術(shù)在我國(guó)逐漸普及和應(yīng)用以及數(shù)字信號(hào)技術(shù)的進(jìn)一步發(fā)展,國(guó)內(nèi)許多單位具備了研究語(yǔ)音技術(shù)的基本條件。與此同時(shí),國(guó)際上語(yǔ)音識(shí)別技術(shù)在經(jīng)過(guò)了多年的沉寂之后重又成為研究的熱點(diǎn),發(fā)展迅速。就在這種形式下,國(guó)內(nèi)許多單位紛紛投入到這項(xiàng)研究工作中去*。1986年3月我國(guó)高科技發(fā)展計(jì)劃(863計(jì)劃)啟動(dòng),語(yǔ)音識(shí)別作為智能計(jì)算機(jī)系統(tǒng)研究的一個(gè)重要組成部分而被專門列為研究課題。在863計(jì)劃的支持下,我國(guó)開(kāi)始了有組織的語(yǔ)音識(shí)別技術(shù)的研究,并決定了每隔兩年召開(kāi)一次語(yǔ)音識(shí)別的專題會(huì)議。從此我國(guó)的語(yǔ)音識(shí)別技術(shù)進(jìn)入了一個(gè)前所未有的發(fā)展階段。2.3.2我國(guó)語(yǔ)音識(shí)別研究的歷史第109頁(yè),課件共181頁(yè),創(chuàng)作于2023年2月(1)在北京有中科院聲學(xué)所、自動(dòng)化所、清華大學(xué)、北方交通大學(xué)等科研機(jī)構(gòu)和高等院校。另外,還有哈爾濱工業(yè)大學(xué)、中國(guó)科技大學(xué)、四川大學(xué)等也紛紛行動(dòng)起來(lái)。(2)現(xiàn)在,國(guó)內(nèi)有不少語(yǔ)音識(shí)別系統(tǒng)已研制成功。這些系統(tǒng)的性能各具特色。-在孤立字大詞匯量語(yǔ)音識(shí)別方面,最具代表性的要數(shù)92年清華大學(xué)電子工程系與中國(guó)電子器件公司合作研制成功的THED-919特定人語(yǔ)音識(shí)別與理解實(shí)時(shí)系統(tǒng)。-在連續(xù)語(yǔ)音識(shí)別方面,91年12月四川大學(xué)計(jì)算機(jī)中心在微機(jī)上實(shí)現(xiàn)了一個(gè)主題受限的特定人連續(xù)英語(yǔ)漢語(yǔ)語(yǔ)音翻譯演示系統(tǒng)。-在非特定人語(yǔ)音識(shí)別方面,有清華大學(xué)計(jì)算機(jī)科學(xué)與技術(shù)系在87年研制的聲控電話查號(hào)系統(tǒng)并投入實(shí)際使用。我國(guó)的語(yǔ)音識(shí)別技術(shù)的發(fā)展第110頁(yè),課件共181頁(yè),創(chuàng)作于2023年2月語(yǔ)音信號(hào)處理是研究用數(shù)字信號(hào)處理技術(shù)對(duì)語(yǔ)音信號(hào)進(jìn)行處理的一門學(xué)科。語(yǔ)音信號(hào)處理的目的:①得到某些參數(shù)以便高效傳輸或存儲(chǔ);②或者是用于某種應(yīng)用,如人工合成出語(yǔ)音、辨識(shí)出講話者、識(shí)別出講話內(nèi)容、進(jìn)行語(yǔ)音增強(qiáng)等。語(yǔ)音信號(hào)處理的目標(biāo):保障現(xiàn)代通信領(lǐng)域中人與人之間、人與機(jī)器之間的信息交換的順暢和自然。2.4語(yǔ)音信號(hào)處理簡(jiǎn)介2語(yǔ)音識(shí)別第111頁(yè),課件共181頁(yè),創(chuàng)作于2023年2月語(yǔ)音信號(hào)處理

語(yǔ)音信號(hào)處理涉及語(yǔ)言學(xué)、聲學(xué)、認(rèn)知科學(xué)、生理學(xué)、心理學(xué)和數(shù)理統(tǒng)計(jì)等多學(xué)科知識(shí)。用數(shù)字化的方法進(jìn)行語(yǔ)音的傳送、存儲(chǔ)、合成、識(shí)別和增強(qiáng)等技術(shù)是整個(gè)數(shù)字化通信網(wǎng)中最重要最基本的組成部分。

語(yǔ)音技術(shù)應(yīng)用廣泛,包括工業(yè)、軍事、交通和民用等各個(gè)領(lǐng)域。目前語(yǔ)音信號(hào)處理處于蓬勃發(fā)展時(shí)期,出現(xiàn)了許多新算法和高性能的系統(tǒng),不斷有產(chǎn)品開(kāi)發(fā)研制成功。第112頁(yè),課件共181頁(yè),創(chuàng)作于2023年2月語(yǔ)音識(shí)別語(yǔ)音信號(hào)處理為多邊學(xué)科的綜合。包括:聲學(xué)(Acoustics)語(yǔ)言學(xué)(linguistics)語(yǔ)音學(xué)(phonetics)生理學(xué)(physiology)心理學(xué)(psychology)人工智能(ArtificialIntellections)。第113頁(yè),課件共181頁(yè),創(chuàng)作于2023年2月

語(yǔ)音技術(shù)的研究目標(biāo)就是使信息時(shí)代的各種信息機(jī)器象人一樣“能聽(tīng)會(huì)說(shuō)”。2.5語(yǔ)音技術(shù)概述2語(yǔ)音識(shí)別第114頁(yè),課件共181頁(yè),創(chuàng)作于2023年2月①語(yǔ)音識(shí)別(ASR):把聲音變成文字(耳朵的功能),相當(dāng)于給機(jī)器裝上了人工的耳朵。包括:孤立詞識(shí)別技術(shù);連續(xù)語(yǔ)音識(shí)別;關(guān)鍵詞識(shí)別技術(shù);話者識(shí)別技術(shù)。②語(yǔ)音合成(TTS):把文字變成聲音(嘴巴的功能);相當(dāng)于給機(jī)器裝上了人工的嘴巴;包括:語(yǔ)音應(yīng)答系統(tǒng);自動(dòng)報(bào)站;信息查詢;語(yǔ)言學(xué)習(xí)軟件;TTS(TexttoSpeech)技術(shù)(語(yǔ)音自動(dòng)轉(zhuǎn)換系統(tǒng))。③語(yǔ)音編碼:在保持可以接受的失真的情況下,采用盡可能少的比特?cái)?shù)表示語(yǔ)音。包括:脈沖編碼調(diào)制;自適應(yīng)預(yù)測(cè)編碼;自適應(yīng)變換編碼;線性預(yù)測(cè)編碼;線性預(yù)測(cè)聲碼器;共振峰聲碼器;相位聲碼器?!Z(yǔ)音技術(shù)的內(nèi)容2語(yǔ)音識(shí)別第115頁(yè),課件共181頁(yè),創(chuàng)作于2023年2月語(yǔ)音信號(hào)處理的進(jìn)展60年代前:1876年Bell發(fā)明電話。1939年H.Dudley研制成功第一個(gè)聲碼器。1942年Bell實(shí)驗(yàn)室發(fā)明了語(yǔ)譜儀。1948年美國(guó)Haskin實(shí)驗(yàn)室研制成功“語(yǔ)圖回放機(jī)”。1952年Bell實(shí)驗(yàn)室研制成能識(shí)別十個(gè)英語(yǔ)數(shù)字的識(shí)別器。2語(yǔ)音識(shí)別第116頁(yè),課件共181頁(yè),創(chuàng)作于2023年2月60年代:1956年聲控打字機(jī)。60年代開(kāi)始,隨著計(jì)算機(jī)技術(shù)的發(fā)展,語(yǔ)音信號(hào)處理技術(shù)獲得長(zhǎng)足的進(jìn)步,計(jì)算機(jī)模擬實(shí)驗(yàn)取代了硬件研制的傳統(tǒng)做法。各種突破性的思想不斷涌現(xiàn)。1960年Denes等人用計(jì)算機(jī)實(shí)現(xiàn)自動(dòng)語(yǔ)音識(shí)別,引入了時(shí)間歸正算法改進(jìn)匹配性能。

60年代中期,Martin等人為郵局研制了郵政編碼閱讀機(jī)。語(yǔ)音信號(hào)處理的進(jìn)展2語(yǔ)音識(shí)別第117頁(yè),課件共181頁(yè),創(chuàng)作于2023年2月70年代:70年代開(kāi)始,人工智能技術(shù)開(kāi)始引入到語(yǔ)音識(shí)別中。美國(guó)國(guó)防部ARPA組織了有CMU等五個(gè)單位參加的一項(xiàng)大規(guī)模語(yǔ)音識(shí)別和理解研究計(jì)劃。70年代中,日本學(xué)者提出的動(dòng)態(tài)時(shí)間彎折算法對(duì)小詞表的研究獲得了成功,從而掀起了語(yǔ)音識(shí)別的研究熱潮。70年代末,基于矢量量化碼本生成的LBG算法被提出,從而使矢量量化技術(shù)廣泛地應(yīng)用于語(yǔ)音識(shí)別、語(yǔ)音編碼和說(shuō)話人識(shí)別中。語(yǔ)音信號(hào)處理的進(jìn)展2語(yǔ)音識(shí)別第118頁(yè),課件共181頁(yè),創(chuàng)作于2023年2月70年代以后:從70年代末80年代初開(kāi)始,HMM技術(shù)被應(yīng)用到語(yǔ)音識(shí)別中。

1985年IBM公司研制了5000詞英語(yǔ)聽(tīng)寫機(jī)Tangora。90年代初,CMU的LeeKaifu完成的SPHINX。1997年IBM推出的漢語(yǔ)聽(tīng)寫機(jī)產(chǎn)品Viavoice1999年Intel推出語(yǔ)音識(shí)別軟件開(kāi)發(fā)包Spark3.0MicrosoftVoice及基于.net的語(yǔ)音識(shí)別引擎語(yǔ)音信號(hào)處理的進(jìn)展2語(yǔ)音識(shí)別第119頁(yè),課件共181頁(yè),創(chuàng)作于2023年2月語(yǔ)音信號(hào)處理的基礎(chǔ)理論和算法(1)從語(yǔ)音的產(chǎn)生和語(yǔ)音的感知進(jìn)行研究(2)將語(yǔ)音當(dāng)作一種信號(hào)進(jìn)行處理2語(yǔ)音識(shí)別第120頁(yè),課件共181頁(yè),創(chuàng)作于2023年2月語(yǔ)音信號(hào)處理的硬件和實(shí)用系統(tǒng)計(jì)算機(jī)+數(shù)字信號(hào)處理板通用或?qū)S肈SP芯片+輔助芯片2語(yǔ)音識(shí)別第121頁(yè),課件共181頁(yè),創(chuàng)作于2023年2月聲卡的功能聲卡,也叫音頻卡,是MPC(多媒體個(gè)人計(jì)算機(jī))的必要部件,它是計(jì)算機(jī)進(jìn)行聲音處理的適配器。它有三個(gè)基本功能:一是音樂(lè)合成發(fā)音功能;二是混音器(Mixer)功能和數(shù)字聲音效果處理器(DSP)功能;三是模擬聲音信號(hào)的輸入和輸出功能。聲卡處理的聲音信息在計(jì)算機(jī)中以文件的形式存儲(chǔ)。聲卡工作應(yīng)有相應(yīng)的軟件支持,包括驅(qū)動(dòng)程序、混頻程序(mixer)和CD播放程序等。2語(yǔ)音識(shí)別第122頁(yè),課件共181頁(yè),創(chuàng)作于2023年2月Twotypesofaudiofileformats:Rawformat,noheaderrawSelf-describingformat,withafileheaderWavMidiAiff,au,vocMpeg(MovingPicturesExpertsGroup/MotinPicturesExpertsGroup,中文譯名是動(dòng)態(tài)圖像專家組。

)Rm,ra,ram常見(jiàn)的聲音文件第123頁(yè),課件共181頁(yè),創(chuàng)作于2023年2月RealNetworks公司所制定的音頻視頻壓縮規(guī)范稱為RealMedia,用戶可以使用RealPlayer或RealOnePlayer對(duì)符合RealMedia技術(shù)規(guī)范的網(wǎng)絡(luò)音頻/視頻資源進(jìn)行實(shí)況轉(zhuǎn)播并且RealMedia可以根據(jù)不同的網(wǎng)絡(luò)傳輸速率制定出不同的壓縮比率,從而實(shí)現(xiàn)在低速率的網(wǎng)絡(luò)上進(jìn)行影像數(shù)據(jù)實(shí)時(shí)傳送和播放。這種格式的另一個(gè)特點(diǎn)是用戶使用RealPlayer或RealOnePlayer播放器可以在不下載音頻/視頻內(nèi)容的條件下實(shí)現(xiàn)在線播放。普通的rm格式是real8.0格式,采用的是固定碼率編碼。多見(jiàn)于VCD-rm,曾流行了一段時(shí)間。但由于VCD片源的先天不足,不夠清晰,所以壓出來(lái)的rm也不會(huì)清晰。RMVB比RM多了一個(gè)VB,VB指的就是variablebit,動(dòng)態(tài)碼率的意思!就是real公司的新的編碼格式9.0格式。rmvb(real9.0)和rm(real8.0)在音頻的編碼上都仍舊是采用8.0格式,我們壓片時(shí)至少采用32kbpsstereomusic,通常時(shí)44K,MTV類的有用到96K,再高就沒(méi)必要壓縮了!語(yǔ)音格式第124頁(yè),課件共181頁(yè),創(chuàng)作于2023年2月

wav為wavform的縮寫。*.wav文件格式稱為波形文件,它是將模擬音頻信號(hào)取樣、量化、編碼得到音頻數(shù)字文件,描述參數(shù)有:碼長(zhǎng)、取樣頻率、編碼方式、聲道數(shù)。碼長(zhǎng)決定聲音的音質(zhì),碼長(zhǎng)越大音質(zhì)越好,一般碼長(zhǎng)定義為8位、16位、32位等。取樣頻率決定錄制聲音的最高頻率,取樣頻率越高錄制聲音頻率越高,取樣頻率一般取8kHz、16kHz、22kHz等。語(yǔ)音格式第125頁(yè),課件共181頁(yè),創(chuàng)作于2023年2月可在MATLAB中用wavread函數(shù)將*.wav的文件打開(kāi),將所有數(shù)據(jù)讀入一個(gè)數(shù)組中,數(shù)組中每個(gè)數(shù)的范圍在[-1,1]之間。例如:

[y,fs,Nbits]=wavread(‘c:\tts_30250.wav’);wavread函數(shù)讀取Microsoft的wav格式音頻文件,返回值y是音頻的數(shù)據(jù)向量,fs是采樣頻率(單位Hz),Nbits是每一個(gè)采樣點(diǎn)的數(shù)據(jù)深度(即比特?cái)?shù))運(yùn)行結(jié)果:fs=16kHz

Nbits=16y=[…..,0.0002,-0.0009,0.0081,…..]MATLAB函數(shù)第126頁(yè),課件共181頁(yè),創(chuàng)作于2023年2月speechsignalintime-domain第127頁(yè),課件共181頁(yè),創(chuàng)作于2023年2月隨著語(yǔ)音識(shí)別技術(shù)的逐漸成熟,語(yǔ)音識(shí)別技術(shù)開(kāi)始得到廣泛的應(yīng)用,涉及日常生活的各個(gè)方面如電信、金融、新聞、公共事業(yè)等各個(gè)行業(yè),通過(guò)采用語(yǔ)音識(shí)別技術(shù),可以極大的簡(jiǎn)化這些領(lǐng)域的業(yè)務(wù)流程以及操作;提高系統(tǒng)的應(yīng)用效率。2.6語(yǔ)音識(shí)別應(yīng)用語(yǔ)音監(jiān)聽(tīng)語(yǔ)音撥號(hào)語(yǔ)音命令語(yǔ)音導(dǎo)航語(yǔ)音搜索語(yǔ)音聽(tīng)寫語(yǔ)音翻譯第128頁(yè),課件共181頁(yè),創(chuàng)作于2023年2月電話語(yǔ)音識(shí)別:語(yǔ)音電話簿:電信增值智能語(yǔ)音總機(jī):企業(yè)應(yīng)用嵌入式語(yǔ)音識(shí)別:智能玩具:語(yǔ)音對(duì)話娃娃、語(yǔ)音聲控機(jī)器人智能家電:語(yǔ)音識(shí)別臺(tái)燈、語(yǔ)音識(shí)別插座智能手機(jī):語(yǔ)音撥號(hào)語(yǔ)音識(shí)別應(yīng)用舉例第129頁(yè),課件共181頁(yè),創(chuàng)作于2023年2月嵌入式語(yǔ)音識(shí)別第130頁(yè),課件共181頁(yè),創(chuàng)作于2023年2月智能玩具—語(yǔ)音對(duì)話娃娃序號(hào)問(wèn)句應(yīng)答句1你好3條2你叫什么名字?3條3你從哪里來(lái)?3條4你會(huì)什么?1條5背首詩(shī)15首詩(shī)6講個(gè)故事6個(gè)故事7我要聽(tīng)笑話4個(gè)笑話8唱首歌5首歌曲9來(lái)首英文歌5首英文歌10你喜歡玩什么?5條11你好可愛(ài)3條12我很喜歡你3條第131頁(yè),課件共181頁(yè),創(chuàng)作于2023年2月智能玩具—語(yǔ)音聲控機(jī)器人問(wèn)句回答前進(jìn)前進(jìn)后退后退左轉(zhuǎn)左轉(zhuǎn)右轉(zhuǎn)右轉(zhuǎn)跳舞跳舞第132頁(yè),課件共181頁(yè),創(chuàng)作于2023年2月企業(yè)電話簿:會(huì)議通知、語(yǔ)音信箱、傳真信箱、企業(yè)郵箱、信息發(fā)布、定向廣告。個(gè)人電話簿:個(gè)人郵件、數(shù)據(jù)同步、資訊定制、個(gè)人財(cái)經(jīng)、業(yè)務(wù)定制。語(yǔ)音門戶:天氣、股票、航班查詢。語(yǔ)音增值業(yè)務(wù)第133頁(yè),課件共181頁(yè),創(chuàng)作于2023年2月語(yǔ)音識(shí)別應(yīng)用語(yǔ)音電子電話號(hào)碼簿的功能:

使用者只要說(shuō)出被查詢?nèi)说闹形男彰騿挝幻Q,語(yǔ)音電子電話號(hào)碼簿利用語(yǔ)音識(shí)別、語(yǔ)音合成等技術(shù)可以回放和顯示出相應(yīng)的電話號(hào)碼并進(jìn)行自動(dòng)撥號(hào)。

第134頁(yè),課件共181頁(yè),創(chuàng)作于2023年2月1.語(yǔ)音識(shí)別以IBM推出的ViaVoice為代表,國(guó)內(nèi)則推出Dutty++語(yǔ)音識(shí)別系統(tǒng)、天信語(yǔ)音識(shí)別系統(tǒng)、世音通語(yǔ)音識(shí)別系統(tǒng)等。2.數(shù)據(jù)庫(kù)檢索:對(duì)龐大的數(shù)據(jù)進(jìn)行繁雜的檢索和查詢,通過(guò)使用語(yǔ)音識(shí)別技術(shù),將變得輕松、方便。3.特殊的環(huán)境所需的語(yǔ)音命令:用語(yǔ)音發(fā)操作指令。語(yǔ)音識(shí)別應(yīng)用實(shí)例第135頁(yè),課件共181頁(yè),創(chuàng)作于2023年2月2008年奧運(yùn)會(huì)多語(yǔ)言需求多語(yǔ)種信息自動(dòng)翻譯系統(tǒng)i第136頁(yè),課件共181頁(yè),創(chuàng)作于2023年2月

采用語(yǔ)音識(shí)別和語(yǔ)音合成技術(shù),能與客戶進(jìn)行交互式對(duì)話,幫助客戶找到他們所需要的商品。一個(gè)動(dòng)作傳感器可以啟動(dòng)系統(tǒng),詢問(wèn)顧客“需要我?guī)湍銓ふ沂裁磫??”如果顧客回答說(shuō)“我在找面包。系統(tǒng)將會(huì)告訴顧客:“面包在第11過(guò)道,就是直接往前第3個(gè)過(guò)道,我們今天有WHEATIO面包特惠,需要我為您打印一張優(yōu)惠券嗎?語(yǔ)音識(shí)別用于商場(chǎng)導(dǎo)購(gòu)第137頁(yè),課件共181頁(yè),創(chuàng)作于2023年2月德國(guó)西門子公司推出

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論