語(yǔ)音信號(hào)處理第1章_第1頁(yè)
語(yǔ)音信號(hào)處理第1章_第2頁(yè)
語(yǔ)音信號(hào)處理第1章_第3頁(yè)
語(yǔ)音信號(hào)處理第1章_第4頁(yè)
語(yǔ)音信號(hào)處理第1章_第5頁(yè)
已閱讀5頁(yè),還剩18頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、李艷雄李艷雄 博士博士n課程簡(jiǎn)介課程簡(jiǎn)介 專業(yè)領(lǐng)域(選修)課程專業(yè)領(lǐng)域(選修)課程 總學(xué)時(shí):總學(xué)時(shí):48,理論課學(xué)時(shí):,理論課學(xué)時(shí):36,實(shí)驗(yàn)課學(xué)時(shí):,實(shí)驗(yàn)課學(xué)時(shí):12,學(xué)分:,學(xué)分:2.5 適用于通信工程、電子信息工程等專業(yè)適用于通信工程、電子信息工程等專業(yè) 先修課程先修課程:信號(hào)與系統(tǒng)、數(shù)字信號(hào)處理、概率統(tǒng)計(jì)信號(hào)與系統(tǒng)、數(shù)字信號(hào)處理、概率統(tǒng)計(jì) 期末考試期末考試 (閉卷,占(閉卷,占60%60%) 實(shí)驗(yàn)考核實(shí)驗(yàn)考核(實(shí)驗(yàn)完成情況、實(shí)驗(yàn)報(bào)告撰寫(xiě)情況,占(實(shí)驗(yàn)完成情況、實(shí)驗(yàn)報(bào)告撰寫(xiě)情況,占25%25%) 平時(shí)考核平時(shí)考核(課堂表現(xiàn)、自主學(xué)習(xí)情況,占(課堂表現(xiàn)、自主學(xué)習(xí)情況,占15%15%)n課程

2、考核方式課程考核方式 語(yǔ)音信號(hào)處理語(yǔ)音信號(hào)處理是一門(mén)綜合性學(xué)科,涉及的領(lǐng)域非常廣泛:是一門(mén)綜合性學(xué)科,涉及的領(lǐng)域非常廣泛:聲學(xué)、語(yǔ)音學(xué)、語(yǔ)言學(xué)、信號(hào)處理、數(shù)學(xué)、人工智能、模式識(shí)聲學(xué)、語(yǔ)音學(xué)、語(yǔ)言學(xué)、信號(hào)處理、數(shù)學(xué)、人工智能、模式識(shí)別,甚至心理學(xué)、生物學(xué)等。別,甚至心理學(xué)、生物學(xué)等。n教材及主要參考資料教材及主要參考資料教材:教材:趙力趙力. . 語(yǔ)音信號(hào)處理(第語(yǔ)音信號(hào)處理(第2 2版)版), , 北京:機(jī)械工業(yè)出版社北京:機(jī)械工業(yè)出版社, 2009.5, 2009.5主要參考資料:主要參考資料: 張雪張雪. . 數(shù)字語(yǔ)音處理及數(shù)字語(yǔ)音處理及MATLABMATLAB仿真仿真, , 北京:電子工

3、業(yè)出版社北京:電子工業(yè)出版社, 2010, 2010 何強(qiáng)何強(qiáng) 何英何英. MATLAB. MATLAB擴(kuò)展編程擴(kuò)展編程, , 北京:清華大學(xué)出版社北京:清華大學(xué)出版社, 2002, 2002 中國(guó)期刊網(wǎng)中國(guó)期刊網(wǎng) IEEE Transactions on Audio, Speech, and Language Processing IEEE Transactions on Audio, Speech, and Language Processing IEEE Transactions on Signal Processing IEEE Transactions on Signal Proce

4、ssing IEEE ICASSP IEEE ICASSP International Conference on Spoken Language Processing (ICSLP) International Conference on Spoken Language Processing (ICSLP) INTERSPEECH INTERSPEECHn主要軟件及工具箱主要軟件及工具箱 MatLab, Cool Editor, Visual Studio 2008/2010MatLab, Cool Editor, Visual Studio 2008/2010 Voice Box, HTK

5、, Speech SDK Voice Box, HTK, Speech SDK等工具箱等工具箱n主要研究機(jī)構(gòu)主要研究機(jī)構(gòu)國(guó)外:國(guó)外:卡耐基梅隆大學(xué),劍橋大學(xué),愛(ài)丁堡大學(xué),謝菲爾卡耐基梅隆大學(xué),劍橋大學(xué),愛(ài)丁堡大學(xué),謝菲爾德大學(xué),華盛頓大學(xué),加州大學(xué),哥倫比亞大學(xué),麻省理工德大學(xué),華盛頓大學(xué),加州大學(xué),哥倫比亞大學(xué),麻省理工學(xué)院,帝國(guó)理工學(xué)院,學(xué)院,帝國(guó)理工學(xué)院,IBMIBM,微軟、,微軟、NuanceNuance等等國(guó)內(nèi):國(guó)內(nèi):科大訊飛,清華大學(xué),中科院聲學(xué)所和自動(dòng)化所,科大訊飛,清華大學(xué),中科院聲學(xué)所和自動(dòng)化所,哈工大,東南大學(xué),華南理工大學(xué)等哈工大,東南大學(xué),華南理工大學(xué)等n本課程的主要內(nèi)

6、容本課程的主要內(nèi)容 緒論緒論 語(yǔ)音信號(hào)處理基礎(chǔ)知識(shí)語(yǔ)音信號(hào)處理基礎(chǔ)知識(shí) 語(yǔ)音信號(hào)分析語(yǔ)音信號(hào)分析 矢量量化技術(shù)矢量量化技術(shù) 隱馬爾可夫模型隱馬爾可夫模型 語(yǔ)音編碼與語(yǔ)音合成語(yǔ)音編碼與語(yǔ)音合成 語(yǔ)音識(shí)別語(yǔ)音識(shí)別 說(shuō)話人識(shí)別與語(yǔ)種辨識(shí)說(shuō)話人識(shí)別與語(yǔ)種辨識(shí) 抗噪聲語(yǔ)音處理技術(shù)抗噪聲語(yǔ)音處理技術(shù)1.1 1.1 概述概述1.2 1.2 語(yǔ)音識(shí)別發(fā)展概況語(yǔ)音識(shí)別發(fā)展概況1.3 1.3 語(yǔ)音編碼發(fā)展概況語(yǔ)音編碼發(fā)展概況1.4 1.4 語(yǔ)音合成發(fā)展概況語(yǔ)音合成發(fā)展概況1.5 1.5 語(yǔ)音處理的其他分支語(yǔ)音處理的其他分支l噪聲環(huán)境下語(yǔ)音處理系統(tǒng)性能急劇下降噪聲環(huán)境下語(yǔ)音處理系統(tǒng)性能急劇下降l說(shuō)話人發(fā)音方式、口音

7、變化等將導(dǎo)致系統(tǒng)性能下降說(shuō)話人發(fā)音方式、口音變化等將導(dǎo)致系統(tǒng)性能下降l 訓(xùn)練和測(cè)試數(shù)據(jù)差異較大時(shí),系統(tǒng)性能將下降訓(xùn)練和測(cè)試數(shù)據(jù)差異較大時(shí),系統(tǒng)性能將下降ll車載語(yǔ)音:車載語(yǔ)音:汽車導(dǎo)航、空調(diào)、車窗、影音等的語(yǔ)音控制汽車導(dǎo)航、空調(diào)、車窗、影音等的語(yǔ)音控制l呼叫中心:呼叫中心:交互式語(yǔ)音應(yīng)答的補(bǔ)充、服務(wù)質(zhì)量評(píng)估、增強(qiáng)安全性等交互式語(yǔ)音應(yīng)答的補(bǔ)充、服務(wù)質(zhì)量評(píng)估、增強(qiáng)安全性等l 移動(dòng)終端:移動(dòng)終端:語(yǔ)音秘書(shū)、語(yǔ)音播報(bào)、語(yǔ)音輸入法、語(yǔ)音聽(tīng)寫(xiě)系統(tǒng)語(yǔ)音秘書(shū)、語(yǔ)音播報(bào)、語(yǔ)音輸入法、語(yǔ)音聽(tīng)寫(xiě)系統(tǒng)l教育和娛樂(lè):教育和娛樂(lè):語(yǔ)音教具、語(yǔ)音(普通話)評(píng)測(cè)、智能語(yǔ)音家電和玩具語(yǔ)音教具、語(yǔ)音(普通話)評(píng)測(cè)、智能語(yǔ)音家電和

8、玩具l 公共安全及服務(wù):公共安全及服務(wù):語(yǔ)音監(jiān)聽(tīng)與跟蹤、家庭服務(wù)、賓館服務(wù)、旅行社語(yǔ)音監(jiān)聽(tīng)與跟蹤、家庭服務(wù)、賓館服務(wù)、旅行社服務(wù)系統(tǒng)、訂票系統(tǒng)、醫(yī)療服務(wù)、銀行服務(wù)、股票查詢服務(wù)等服務(wù)系統(tǒng)、訂票系統(tǒng)、醫(yī)療服務(wù)、銀行服務(wù)、股票查詢服務(wù)等l卡耐基梅隆大學(xué)、劍橋大學(xué)、愛(ài)丁堡大學(xué)、華盛頓大學(xué)、卡耐基梅隆大學(xué)、劍橋大學(xué)、愛(ài)丁堡大學(xué)、華盛頓大學(xué)、清華大學(xué)、中科大、中科院清華大學(xué)、中科大、中科院 等一直從事語(yǔ)音處理研究等一直從事語(yǔ)音處理研究l 2011年蘋(píng)果公司推出年蘋(píng)果公司推出Siri (Iphone4S的語(yǔ)音控制功能的語(yǔ)音控制功能)l 2010年科大訊飛推出新一代年科大訊飛推出新一代“語(yǔ)音云語(yǔ)音云”平臺(tái)平

9、臺(tái)l 2011年騰訊公司推出年騰訊公司推出QQ云語(yǔ)音面板云語(yǔ)音面板l Nuance, Google, 微軟微軟, IBM, 百度百度, 盛大盛大,華為等華為等也投入巨資也投入巨資v為什么要學(xué)習(xí)和研究為什么要學(xué)習(xí)和研究語(yǔ)音信號(hào)處理語(yǔ)音信號(hào)處理技術(shù)?技術(shù)? 語(yǔ)音是最自然、最有效、最方便的人機(jī)(人與人)交互手段語(yǔ)音是最自然、最有效、最方便的人機(jī)(人與人)交互手段 國(guó)內(nèi)外各大公司(研究機(jī)構(gòu))一直從事語(yǔ)音信號(hào)處理研究國(guó)內(nèi)外各大公司(研究機(jī)構(gòu))一直從事語(yǔ)音信號(hào)處理研究 語(yǔ)音信號(hào)處理技術(shù)用途非常廣泛語(yǔ)音信號(hào)處理技術(shù)用途非常廣泛 語(yǔ)音信號(hào)處理技術(shù)遠(yuǎn)未成熟,需進(jìn)一步改進(jìn)語(yǔ)音信號(hào)處理技術(shù)遠(yuǎn)未成熟,需進(jìn)一步改進(jìn)語(yǔ)音

10、信號(hào)處理技術(shù)始終與當(dāng)時(shí)信息科學(xué)中最活躍的前沿學(xué)科保語(yǔ)音信號(hào)處理技術(shù)始終與當(dāng)時(shí)信息科學(xué)中最活躍的前沿學(xué)科保持密切的聯(lián)系,并且一起發(fā)展持密切的聯(lián)系,并且一起發(fā)展比如:機(jī)器學(xué)習(xí)、小波分析、模式識(shí)別、神經(jīng)網(wǎng)絡(luò)、人比如:機(jī)器學(xué)習(xí)、小波分析、模式識(shí)別、神經(jīng)網(wǎng)絡(luò)、人工智能等工智能等v人的言語(yǔ)過(guò)程人的言語(yǔ)過(guò)程 想說(shuō)說(shuō)出傳輸接收理解語(yǔ)音合成語(yǔ)音編碼語(yǔ)音識(shí)別說(shuō)話人識(shí)別計(jì)算機(jī)計(jì)算機(jī)語(yǔ)音識(shí)別語(yǔ)音識(shí)別和和語(yǔ)音合成語(yǔ)音合成是實(shí)現(xiàn)人機(jī)語(yǔ)音通信,建是實(shí)現(xiàn)人機(jī)語(yǔ)音通信,建立一個(gè)有聽(tīng)和說(shuō)能力的口語(yǔ)系統(tǒng)所必需的兩項(xiàng)立一個(gè)有聽(tīng)和說(shuō)能力的口語(yǔ)系統(tǒng)所必需的兩項(xiàng)關(guān)鍵技術(shù)。使電腦具有類似于人一樣的說(shuō)話能關(guān)鍵技術(shù)。使電腦具有類似于人一樣的說(shuō)話

11、能力,是當(dāng)今時(shí)代信息產(chǎn)業(yè)的重要競(jìng)爭(zhēng)市場(chǎng)。力,是當(dāng)今時(shí)代信息產(chǎn)業(yè)的重要競(jìng)爭(zhēng)市場(chǎng)。v語(yǔ)音信號(hào)處理的主要分支語(yǔ)音信號(hào)處理的主要分支 語(yǔ)音識(shí)別語(yǔ)音識(shí)別 Speech Recognition 語(yǔ)音合成語(yǔ)音合成 Speech Synthesis 語(yǔ)音編碼語(yǔ)音編碼 Speech Coding 對(duì)模擬的語(yǔ)音信號(hào)進(jìn)行編碼,將模擬對(duì)模擬的語(yǔ)音信號(hào)進(jìn)行編碼,將模擬信號(hào)轉(zhuǎn)化成數(shù)字信號(hào),從而降低傳輸信號(hào)轉(zhuǎn)化成數(shù)字信號(hào),從而降低傳輸碼率并進(jìn)行數(shù)字傳輸。分為碼率并進(jìn)行數(shù)字傳輸。分為波形編碼波形編碼、參量編碼參量編碼(音源編碼)和(音源編碼)和混合編碼混合編碼。利用計(jì)算機(jī)和一些專門(mén)裝置模擬人,制利用計(jì)算機(jī)和一些專門(mén)裝置模擬人

12、,制造語(yǔ)音的技術(shù)。造語(yǔ)音的技術(shù)。TTSTTS(文語(yǔ)轉(zhuǎn)換)技術(shù)隸(文語(yǔ)轉(zhuǎn)換)技術(shù)隸屬于語(yǔ)音合成。屬于語(yǔ)音合成。語(yǔ)音識(shí)別語(yǔ)音識(shí)別原理框圖原理框圖讓機(jī)器通過(guò)識(shí)別和理解過(guò)程把語(yǔ)音信號(hào)轉(zhuǎn)變讓機(jī)器通過(guò)識(shí)別和理解過(guò)程把語(yǔ)音信號(hào)轉(zhuǎn)變?yōu)橄鄳?yīng)的文本或命令的技術(shù)。主要包括為相應(yīng)的文本或命令的技術(shù)。主要包括特征特征提取提取、模式匹配模式匹配及及模型訓(xùn)練模型訓(xùn)練技術(shù)。技術(shù)。v語(yǔ)音信號(hào)處理發(fā)展語(yǔ)音信號(hào)處理發(fā)展概況:概況:起步很早、尚未完全起步很早、尚未完全成熟成熟17911791年,年,Wolfgang Wolfgang von von KempelenKempelen構(gòu)建了構(gòu)建了語(yǔ)音語(yǔ)音機(jī)器機(jī)器18351835年,年,

13、Charles WheatstoneCharles Wheatstone改進(jìn)了語(yǔ)音機(jī)器改進(jìn)了語(yǔ)音機(jī)器B.H. Juang# & Lawrence R. Rabiner. Automatic Speech Recognition A Brief History of the Technology Development, 200418701870年代,年代,電話電話發(fā)明之爭(zhēng)發(fā)明之爭(zhēng)安東尼奧安東尼奧梅烏奇梅烏奇Antonio Meucci (1808 1889 )亞歷山大亞歷山大格拉漢姆格拉漢姆貝爾貝爾Alexander Graham Bell (1847-1922)伊萊沙伊萊沙格雷格雷Elish

14、a Gray1835-1901 對(duì)于大多數(shù)人來(lái)說(shuō),每當(dāng)提到電話的發(fā)明,一定會(huì)聯(lián)想到對(duì)于大多數(shù)人來(lái)說(shuō),每當(dāng)提到電話的發(fā)明,一定會(huì)聯(lián)想到貝爾貝爾。 然而,一個(gè)叫然而,一個(gè)叫伊萊沙伊萊沙格雷格雷的人就曾與貝爾展開(kāi)過(guò)關(guān)于電話專利的人就曾與貝爾展開(kāi)過(guò)關(guān)于電話專利權(quán)的法律訴訟。格雷與貝爾在同一天申報(bào)了專利,由于比貝爾權(quán)的法律訴訟。格雷與貝爾在同一天申報(bào)了專利,由于比貝爾晚一點(diǎn)申報(bào)(晚一點(diǎn)申報(bào)(只晚了只晚了2 2個(gè)小時(shí)左右個(gè)小時(shí)左右),最終敗訴。),最終敗訴。事實(shí)上,事實(shí)上,梅烏奇梅烏奇于于1860年代就已對(duì)電話機(jī)進(jìn)行了原創(chuàng)性的發(fā)明創(chuàng)造,比年代就已對(duì)電話機(jī)進(jìn)行了原創(chuàng)性的發(fā)明創(chuàng)造,比貝爾和格雷早貝爾和格雷早1

15、0多年。由于經(jīng)濟(jì)困窘等原因,多年。由于經(jīng)濟(jì)困窘等原因,19世紀(jì)世紀(jì)70年代,年代,梅烏奇梅烏奇并并沒(méi)有贏得與貝爾的電話機(jī)專利爭(zhēng)奪戰(zhàn)。在其逝世沒(méi)有贏得與貝爾的電話機(jī)專利爭(zhēng)奪戰(zhàn)。在其逝世113年后,美國(guó)議會(huì)認(rèn)定年后,美國(guó)議會(huì)認(rèn)定梅烏奇梅烏奇為電話機(jī)的發(fā)明者。真理得以昭然,為電話機(jī)的發(fā)明者。真理得以昭然,梅烏奇梅烏奇實(shí)至名歸。實(shí)至名歸。誰(shuí)是電話的真正發(fā)明者?A block schematic of Homer Dudleys VODERB.H. Juang# & Lawrence R. Rabiner. Automatic Speech Recognition A Brief History of

16、the Technology Development, 200419391939年,年,H.DudleyH.Dudley研制成功第一個(gè)研制成功第一個(gè)聲碼器聲碼器l打破了以前的打破了以前的“波波形原則形原則”,提出了一,提出了一種全新的語(yǔ)音通信技種全新的語(yǔ)音通信技術(shù),即術(shù),即提取參數(shù)加以提取參數(shù)加以傳輸,在收端重新合傳輸,在收端重新合成語(yǔ)音成語(yǔ)音。l其后,產(chǎn)生其后,產(chǎn)生“語(yǔ)音語(yǔ)音參數(shù)模型參數(shù)模型”的思想的思想1 1942942年,年,BellBell實(shí)驗(yàn)室發(fā)明實(shí)驗(yàn)室發(fā)明了了語(yǔ)譜儀語(yǔ)譜儀19481948年,美國(guó)年,美國(guó)HaskinHaskin實(shí)驗(yàn)室研制成功實(shí)驗(yàn)室研制成功“語(yǔ)圖回放機(jī)語(yǔ)圖回放機(jī)”19

17、521952年,年,BellBell實(shí)驗(yàn)室研制成識(shí)別十個(gè)英語(yǔ)數(shù)字實(shí)驗(yàn)室研制成識(shí)別十個(gè)英語(yǔ)數(shù)字識(shí)別識(shí)別器器19561956年,年,OlsonOlson和和BelarBelar等人研制出等人研制出語(yǔ)音打字機(jī)語(yǔ)音打字機(jī)19601960年代年代以后,隨著計(jì)算機(jī)技術(shù)的發(fā)展,語(yǔ)音信號(hào)處以后,隨著計(jì)算機(jī)技術(shù)的發(fā)展,語(yǔ)音信號(hào)處理技術(shù)獲得了長(zhǎng)足的進(jìn)步,計(jì)算機(jī)模擬實(shí)驗(yàn)取代了硬理技術(shù)獲得了長(zhǎng)足的進(jìn)步,計(jì)算機(jī)模擬實(shí)驗(yàn)取代了硬件研制的傳統(tǒng)做法。各種突破性的思想不斷件研制的傳統(tǒng)做法。各種突破性的思想不斷涌現(xiàn)涌現(xiàn) 19601960年,年,DenesDenes等人用計(jì)算機(jī)實(shí)現(xiàn)自動(dòng)語(yǔ)音識(shí)別,等人用計(jì)算機(jī)實(shí)現(xiàn)自動(dòng)語(yǔ)音識(shí)別,引入了

18、時(shí)間歸正算法引入了時(shí)間歸正算法改進(jìn)匹配性能改進(jìn)匹配性能19701970年代起,人工智能技術(shù)開(kāi)始引入到語(yǔ)音識(shí)別年代起,人工智能技術(shù)開(kāi)始引入到語(yǔ)音識(shí)別中。美國(guó)國(guó)防部中。美國(guó)國(guó)防部ARPAARPA組織了有組織了有CMUCMU等五個(gè)單位參加等五個(gè)單位參加的一項(xiàng)大規(guī)模語(yǔ)音識(shí)別和理解研究計(jì)劃的一項(xiàng)大規(guī)模語(yǔ)音識(shí)別和理解研究計(jì)劃19701970年代中,日本學(xué)者年代中,日本學(xué)者SakoeSakoe提出的提出的動(dòng)態(tài)時(shí)間彎折動(dòng)態(tài)時(shí)間彎折算法算法對(duì)小詞表的研究獲得了成功,從而掀起了語(yǔ)對(duì)小詞表的研究獲得了成功,從而掀起了語(yǔ)音識(shí)別的研究熱潮音識(shí)別的研究熱潮誰(shuí)先提出動(dòng)態(tài)時(shí)間彎折(誰(shuí)先提出動(dòng)態(tài)時(shí)間彎折(DTW)算法?)算法?

19、 1960年代末期,年代末期,蘇聯(lián)學(xué)者蘇聯(lián)學(xué)者Vintsyuk提出了采用動(dòng)提出了采用動(dòng)態(tài)規(guī)劃方法解決兩個(gè)語(yǔ)音的時(shí)間對(duì)準(zhǔn)問(wèn)題態(tài)規(guī)劃方法解決兩個(gè)語(yǔ)音的時(shí)間對(duì)準(zhǔn)問(wèn)題 其研究不為學(xué)術(shù)界的廣大研究者所知道其研究不為學(xué)術(shù)界的廣大研究者所知道1980年代,學(xué)術(shù)界才知道年代,學(xué)術(shù)界才知道Vintsyuk 當(dāng)初的工作當(dāng)初的工作;而而DTW已廣為人知已廣為人知19197070年代末,基于矢量量化碼本生成的年代末,基于矢量量化碼本生成的LBGLBG算法算法被被提出,矢量量化技術(shù)廣泛應(yīng)用于語(yǔ)音識(shí)別、語(yǔ)音編提出,矢量量化技術(shù)廣泛應(yīng)用于語(yǔ)音識(shí)別、語(yǔ)音編碼和說(shuō)話人識(shí)別中碼和說(shuō)話人識(shí)別中19197070年代末至年代末至808

20、0年代初,年代初,BakerBaker等將等將隱馬爾可夫模隱馬爾可夫模型型(Hidden Markov Model )(Hidden Markov Model )技術(shù)應(yīng)用到語(yǔ)音識(shí)別中技術(shù)應(yīng)用到語(yǔ)音識(shí)別中 1985 1985年年IBMIBM公司研制了公司研制了50005000詞英語(yǔ)聽(tīng)寫(xiě)機(jī)詞英語(yǔ)聽(tīng)寫(xiě)機(jī)Tangora-5Tangora-5,8080年代末完成的年代末完成的Tangora-20Tangora-20能識(shí)別的詞匯達(dá)到了能識(shí)別的詞匯達(dá)到了2000020000,識(shí)別率達(dá)到了,識(shí)別率達(dá)到了94.6%94.6%v Andrei A. Markovv Russian statisticianv 18

21、56 192219199090年代初,年代初,CMUCMU的的Lee Lee KaifuKaifu完成的非特定人連完成的非特定人連續(xù)語(yǔ)音識(shí)別系統(tǒng)續(xù)語(yǔ)音識(shí)別系統(tǒng)SPHINXSPHINX是最有代表性的,它能識(shí)是最有代表性的,它能識(shí)別別997997個(gè)詞匯的連續(xù)語(yǔ)音,識(shí)別率達(dá)到個(gè)詞匯的連續(xù)語(yǔ)音,識(shí)別率達(dá)到95.8%95.8%19971997年,年,IBMIBM推出的漢語(yǔ)聽(tīng)寫(xiě)機(jī)推出的漢語(yǔ)聽(tīng)寫(xiě)機(jī)ViavoiceViavoice為語(yǔ)音識(shí)為語(yǔ)音識(shí)別在漢字輸入方面的實(shí)際應(yīng)用開(kāi)辟了新的道路別在漢字輸入方面的實(shí)際應(yīng)用開(kāi)辟了新的道路19991999年,年,IntelIntel推出語(yǔ)音識(shí)別軟件開(kāi)發(fā)包推出語(yǔ)音識(shí)別軟件開(kāi)發(fā)

22、包Spark3.0 Spark3.0 Microsoft VoiceMicrosoft Voice及基于及基于. .netnet的語(yǔ)音識(shí)別引擎的語(yǔ)音識(shí)別引擎 目前,在語(yǔ)音識(shí)別的系統(tǒng)框架方面并沒(méi)有什么重目前,在語(yǔ)音識(shí)別的系統(tǒng)框架方面并沒(méi)有什么重大突破。但是,在語(yǔ)音識(shí)別技術(shù)的應(yīng)用及產(chǎn)品化大突破。但是,在語(yǔ)音識(shí)別技術(shù)的應(yīng)用及產(chǎn)品化方面出現(xiàn)了很大的進(jìn)展方面出現(xiàn)了很大的進(jìn)展19881988年,年,李開(kāi)復(fù)李開(kāi)復(fù)獲卡內(nèi)基梅隆大學(xué)計(jì)算機(jī)學(xué)博士學(xué)位。他的博獲卡內(nèi)基梅隆大學(xué)計(jì)算機(jī)學(xué)博士學(xué)位。他的博士論文是士論文是世界上第一個(gè)世界上第一個(gè)“非特定人連續(xù)語(yǔ)音識(shí)別系統(tǒng)非特定人連續(xù)語(yǔ)音識(shí)別系統(tǒng)”。19881988年,年,

23、商業(yè)周刊商業(yè)周刊授予該系統(tǒng)授予該系統(tǒng)“最重要科學(xué)創(chuàng)新獎(jiǎng)最重要科學(xué)創(chuàng)新獎(jiǎng)”。在校期。在校期間,李開(kāi)復(fù)還開(kāi)發(fā)了間,李開(kāi)復(fù)還開(kāi)發(fā)了“奧賽羅奧賽羅”(黑白棋)人機(jī)對(duì)弈系統(tǒng),因(黑白棋)人機(jī)對(duì)弈系統(tǒng),因?yàn)闉?9881988年擊敗了世界團(tuán)體冠軍美國(guó)隊(duì)的一名成員而名噪一時(shí)。年擊敗了世界團(tuán)體冠軍美國(guó)隊(duì)的一名成員而名噪一時(shí)。19701970年代起,國(guó)外就開(kāi)始研究計(jì)算機(jī)網(wǎng)絡(luò)上的語(yǔ)音年代起,國(guó)外就開(kāi)始研究計(jì)算機(jī)網(wǎng)絡(luò)上的語(yǔ)音通信,主要是基于通信,主要是基于ARPANETARPANET網(wǎng)絡(luò)平臺(tái)進(jìn)行研究網(wǎng)絡(luò)平臺(tái)進(jìn)行研究19741974年,首次分組語(yǔ)音實(shí)驗(yàn)是在美國(guó)西海岸南加州年,首次分組語(yǔ)音實(shí)驗(yàn)是在美國(guó)西海岸南加州大學(xué)和東

24、海岸的林肯實(shí)驗(yàn)室間進(jìn)行,數(shù)碼率為大學(xué)和東海岸的林肯實(shí)驗(yàn)室間進(jìn)行,數(shù)碼率為9.6kb/s9.6kb/s 19751975年年1 1月,美國(guó)實(shí)現(xiàn)使用月,美國(guó)實(shí)現(xiàn)使用LPCLPC聲碼器的分組語(yǔ)音電聲碼器的分組語(yǔ)音電話會(huì)議話會(huì)議 19801980年代,集中在局域網(wǎng)上的語(yǔ)音通信,最早的實(shí)年代,集中在局域網(wǎng)上的語(yǔ)音通信,最早的實(shí)驗(yàn)是由英國(guó)劍橋大學(xué)于驗(yàn)是由英國(guó)劍橋大學(xué)于19821982年在年在10Mb/s10Mb/s的劍橋環(huán)形的劍橋環(huán)形網(wǎng)上進(jìn)行的網(wǎng)上進(jìn)行的19881988年,美國(guó)公布了一個(gè)年,美國(guó)公布了一個(gè)4.8kb/s4.8kb/s的碼激勵(lì)線性預(yù)的碼激勵(lì)線性預(yù)測(cè)編碼(測(cè)編碼(CELPCELP)語(yǔ)音編碼標(biāo)準(zhǔn)

25、算法)語(yǔ)音編碼標(biāo)準(zhǔn)算法進(jìn)入進(jìn)入19199090年代,隨著年代,隨著InternetInternet的興起和語(yǔ)音編碼技的興起和語(yǔ)音編碼技術(shù)的發(fā)展,術(shù)的發(fā)展,IPIP分組語(yǔ)音通信技術(shù)獲得了突破性的進(jìn)分組語(yǔ)音通信技術(shù)獲得了突破性的進(jìn)展。如網(wǎng)絡(luò)游戲,語(yǔ)音聊天,展。如網(wǎng)絡(luò)游戲,語(yǔ)音聊天,IPIP電話技術(shù)電話技術(shù)19199090年代中期,出現(xiàn)了很多被廣泛使用的語(yǔ)音編碼年代中期,出現(xiàn)了很多被廣泛使用的語(yǔ)音編碼國(guó)際標(biāo)準(zhǔn),如數(shù)碼率為國(guó)際標(biāo)準(zhǔn),如數(shù)碼率為5.3/6.4kb/s5.3/6.4kb/s的的G.723.1G.723.1、數(shù)、數(shù)碼率為碼率為8kb/s8kb/s的的G.729G.729等等 目前,主要集中在

26、目前,主要集中在4kbit/s4kbit/s碼率以下的高音質(zhì)、低碼率以下的高音質(zhì)、低延遲的聲碼器,提高在噪聲信道中低碼率編碼器的延遲的聲碼器,提高在噪聲信道中低碼率編碼器的性能性能19391939年,貝爾實(shí)驗(yàn)室利用共振峰原理制作出第一年,貝爾實(shí)驗(yàn)室利用共振峰原理制作出第一個(gè)電子語(yǔ)音合成器個(gè)電子語(yǔ)音合成器19601960年,年,G.FantG.Fant系統(tǒng)地闡述了語(yǔ)音產(chǎn)生的理論,系統(tǒng)地闡述了語(yǔ)音產(chǎn)生的理論,推動(dòng)了語(yǔ)音合成技術(shù)的進(jìn)步推動(dòng)了語(yǔ)音合成技術(shù)的進(jìn)步19681968年,第一個(gè)完整的年,第一個(gè)完整的TTSTTS系統(tǒng)得以實(shí)現(xiàn)系統(tǒng)得以實(shí)現(xiàn)19801980年,年,D. D. KlattKlatt設(shè)計(jì)

27、出串設(shè)計(jì)出串/ /并聯(lián)混合型共振峰并聯(lián)混合型共振峰合成器合成器19801980年代,基音同步疊加的波形拼接方法年代,基音同步疊加的波形拼接方法PSOLA PSOLA 被提出被提出2020世紀(jì)末,提出了可訓(xùn)練的語(yǔ)音合成方法世紀(jì)末,提出了可訓(xùn)練的語(yǔ)音合成方法基基于于HMM HMM 的合成方法的合成方法目前,語(yǔ)音合成系統(tǒng)具有了很高的可懂度,但自目前,語(yǔ)音合成系統(tǒng)具有了很高的可懂度,但自然度還不盡人意然度還不盡人意說(shuō)話人識(shí)別說(shuō)話人識(shí)別說(shuō)話人日志說(shuō)話人日志語(yǔ)種辨識(shí)語(yǔ)種辨識(shí)語(yǔ)音轉(zhuǎn)換語(yǔ)音轉(zhuǎn)換語(yǔ)音隱藏語(yǔ)音隱藏語(yǔ)音情感識(shí)別語(yǔ)音情感識(shí)別語(yǔ)音增強(qiáng)語(yǔ)音增強(qiáng)語(yǔ)音搜索語(yǔ)音搜索Speaker Recognition,又稱聲紋識(shí)別、話者識(shí)別。通過(guò)對(duì),又稱聲紋識(shí)別、話者識(shí)別。通

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論