


下載本文檔
版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)
文檔簡介
1、深圳大學(xué)本科畢業(yè)論文(設(shè)計(jì))開題報告題目孤立詞語音識別系統(tǒng)設(shè)計(jì)學(xué)生姓名朱雯學(xué)號 2007130019專業(yè) 電子信息工程學(xué)院信息工程學(xué)院指導(dǎo)教師鄭能恒本選題的意義及國內(nèi)外發(fā)展?fàn)顩r:國外的語音識別研究工作可以追溯到20世紀(jì)50年代AT&T貝爾實(shí)驗(yàn)室開發(fā)的第一個能實(shí)現(xiàn)十個英文數(shù)字的語音識別系統(tǒng)。但真正取得實(shí)質(zhì)性進(jìn)展(在小詞匯量、孤立詞的識 別方面),并將其作為一個重要的課題開展研究則是在60年代末70年代初。在70年代,提出了語音信號線性預(yù)測編碼(LPC)技術(shù),動態(tài)時間規(guī)整(DTW技術(shù),矢量量化(VQ)和 隱馬爾可夫模型(HMM)理論。進(jìn)入 80年代以后,研究的重點(diǎn)逐漸轉(zhuǎn)向大詞匯量、非特定 人連續(xù)語
2、音識別。第一個高性能的大詞匯量連續(xù)語音識別系統(tǒng)Sphinx誕生在卡耐基梅隆大學(xué)。這一時期,語音識別的研究更進(jìn)一步,興起了人工神經(jīng)網(wǎng)絡(luò)在語音識別中的應(yīng)用。 而且隱馬爾柯夫模型(HMM)技術(shù)的不斷完善和日漸成熟,使之成為了目前語音識別的主流 方法。進(jìn)入20世紀(jì)90年代后,語音識別系統(tǒng)開始從實(shí)驗(yàn)室走向?qū)嵱?。許多著名的大公司 如IBM、蘋果、AT&T和NTT都對語音識別系統(tǒng)的實(shí)用化研究投以巨資。比較有代表性的 系統(tǒng)有:IBM 公司推出的 Via Voice 和 Drago n System 公司的 Naturally Speak in g, Nua nee 公司的 Nuanee Voice Platf
3、orm 語音平臺, Microsoft 的 Whisper, Sun 的 VoieeTone 等。我國的語音識別研究起始于1958年,由中國科學(xué)院聲學(xué)所利用電子管電路識別十個元音。直至1973年才由中國科學(xué)院聲學(xué)所開始計(jì)算機(jī)語音識別。1986年3月我國高科技發(fā)展計(jì)劃(863計(jì)劃)啟動,國家863智能計(jì)算機(jī)專家組為語音識別技術(shù)研究專門立項(xiàng),每 兩年舉行一次專題會議。現(xiàn)在我國語音識別技術(shù)的研究水平已經(jīng)基本上與國外同步,在漢 語語音識別技術(shù)上還有自己的特點(diǎn)與優(yōu)勢。國內(nèi)有不少語音識別系統(tǒng)已研制成功。在孤立 字大詞匯量語音識別方面,最具代表性的要數(shù)92年清華大學(xué)電子工程系與中國電子器件公司合作研制成功的
4、THED-919特定人語音識別與理解實(shí)時系統(tǒng)。在連續(xù)語音識別方面,91年12月四川大學(xué)計(jì)算機(jī)中心在微機(jī)上實(shí)現(xiàn)了一個主題受限的特定人連續(xù)英語-漢語語音翻譯演示系統(tǒng)。在非特定人語音識別方面,有清華大學(xué)計(jì)算機(jī)科學(xué)與技術(shù)系在87年研制的聲控電話查號系統(tǒng)并投入實(shí)際使用。隨著信息產(chǎn)業(yè)的迅速發(fā)展,人們傾向于使用高效,快捷,方便的電子產(chǎn)品。語音識別 作為人機(jī)交互的一項(xiàng)關(guān)鍵領(lǐng)域,具備了實(shí)時,方便,快速等特點(diǎn),在當(dāng)今科學(xué)技術(shù)的發(fā)展 上也有著日益重要的地位。利用語音識別技術(shù)來實(shí)現(xiàn)數(shù)碼相機(jī)的拍攝指令控制不像傳統(tǒng)的 拍照模式,必須要手動按下機(jī)身上的快門鍵,或者其他按鈕來操控相機(jī)。而是通過識別輸 入的實(shí)時語音命令,從而實(shí)
5、現(xiàn)對相機(jī)的控制。這樣很大程度上方便了一些殘障人士使用相 機(jī),同時也完全解決了手動操作相機(jī)帶來的輕微抖動造成的畫質(zhì)降低。并且通過語音控制 相機(jī),只要一選好合適的角度,拍攝人能輕易實(shí)現(xiàn)抓拍,自拍功能,非常方便快捷。因此, 這種語音識別系統(tǒng)設(shè)計(jì)有其獨(dú)特的優(yōu)勢和應(yīng)用前景。研究內(nèi)容:本次的設(shè)計(jì)是基于孤立詞語音識別的對非特定人的數(shù)碼相機(jī)語音控制系統(tǒng)。主要目的 是實(shí)現(xiàn)簡單的實(shí)時數(shù)碼相機(jī)拍攝控制(例如連拍張數(shù)選擇,閃光燈的使用)。因此,識別詞匯定義為一些簡短的拍攝命令關(guān)鍵詞,與十個阿拉伯?dāng)?shù)字。孤立詞語音識別是指識別的單元為字、詞或短語,它們組成識別的詞匯表,并對它們 中的每一個通過訓(xùn)練建立標(biāo)準(zhǔn)模板或模型。非特
6、定人語音識別的模板或模型適應(yīng)于指定的 某一范疇的說話人(如說標(biāo)準(zhǔn)普通話),模板或模型由該范疇的多個人通過訓(xùn)練而產(chǎn)生。識 別時可供參加訓(xùn)練的發(fā)音人(圈內(nèi)人)使用,也可供未參加訓(xùn)練的同一范疇的發(fā)音人(圈 外人)使用。孤立詞語音識別的基本原理:特征提取,訓(xùn)練,識別,失真測度。主要識別框架:基 于模板匹配的動態(tài)時間規(guī)整法DTW和基于統(tǒng)計(jì)模型的隱馬爾柯夫模型法HMM特征提取就是通過數(shù)字信號處理技術(shù)從語音波形中提取最能表征語音的語意信息的特征參數(shù)。鎂倒譜 系數(shù)MFCC是在語音識別過程當(dāng)中最常用的倒譜特征參數(shù),它將一般的頻譜轉(zhuǎn)換到基于 Mel尺度(基于人耳的聽覺特性而設(shè)計(jì)的,具有很好的識別性能和抗噪聲能力)
7、的非線性 頻譜上,然后再進(jìn)過一組濾波器, 最后轉(zhuǎn)換到倒譜域中。 訓(xùn)練是預(yù)先分析出語音特征參數(shù), 制作語音模板或其它(統(tǒng)計(jì))模型并存放在語音模型庫中。識別是待識語音經(jīng)過與訓(xùn)練時相 同的分析,得到語音參數(shù),將它與庫中的參考模板型一一比較,并采用判決的方法找出最 接近語音特征的模型, 得出識別結(jié)果。失真測度是計(jì)量語音特征參數(shù)矢量之間的“失真(距離)測度”。隱馬爾柯夫模型法 HMM為當(dāng)前語音識別的主流算法,它將將語音模擬成一對時 域與頻域上并存的隨機(jī)過程(時域:狀態(tài)轉(zhuǎn)移過程,頻域:混合高斯分布)。其優(yōu)點(diǎn)是訓(xùn)練和識別過程都有很完備的理論框架,跟高層次的語言學(xué)模型可以很好地結(jié)合。研究方法、手段及步驟:非特
8、定人語音識別系統(tǒng)設(shè)計(jì)分為系統(tǒng)定義,訓(xùn)練和識別三個階段。在系統(tǒng)定義階段, 要根據(jù)系統(tǒng)具體應(yīng)用范圍定義系統(tǒng)的詞匯庫,即系統(tǒng)的識別詞匯。在訓(xùn)練階段,通過麥克 風(fēng)輸入定義的語音命令,然后對模擬語音信號進(jìn)行預(yù)處理,對處理后得到的數(shù)字語音信號 進(jìn)行語音特征提取,為不同用戶的不同語音特征參數(shù)建立一個相應(yīng)的語音特征模型庫。訓(xùn) 練完成后,進(jìn)入語音識別階段,麥克風(fēng)輸入定義的詞匯中的一個或若干個詞匯(任意組合 任意次序),然后進(jìn)行預(yù)處理,對處理后得到的數(shù)字語音信號進(jìn)行特征參數(shù)提取,緊接著 用概率密度函數(shù)計(jì)算語音參數(shù)對HMM模型的輸出概率,通過搜索最佳狀態(tài)序列,以最大后驗(yàn)概率為準(zhǔn)則找到識別結(jié)果。系統(tǒng)采用C語言編程實(shí)現(xiàn),大致具體步驟:預(yù)處理:包括語音信號采樣、反混疊帶通濾波、語音識別基元的選取、端點(diǎn)檢測、語 音分幀加窗以及預(yù)加重等處理工作。特征提?。禾崛≌Z音中反映本質(zhì)特征的聲學(xué)參數(shù),如平均能量、平均過零率、共振峰 等;并提取特征參數(shù),如線性預(yù)測倒譜系數(shù)(LPCC與Mel倒譜系數(shù)(MFCC。模型訓(xùn)練:在識別之前通過讓講話者多次重復(fù)語音,從原始語音樣本中去除冗余信息, 保留關(guān)鍵數(shù)據(jù),再按照一定規(guī)則對數(shù)據(jù)加以聚類,形成模式庫。模式匹配:根據(jù)一定規(guī)則(如某種距離測度),計(jì)算輸入特征與庫存模式之間的相似度(如匹配距離、似然概率),判斷出輸入語音的語義信息。參考文獻(xiàn):語音識別基礎(chǔ)上
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 中級財務(wù)會計(jì)知到課后答案智慧樹章節(jié)測試答案2025年春上海財經(jīng)大學(xué)浙江學(xué)院
- 湖北生態(tài)工程職業(yè)技術(shù)學(xué)院《數(shù)學(xué)物理方法》2023-2024學(xué)年第二學(xué)期期末試卷
- 大連商務(wù)職業(yè)學(xué)院《計(jì)算機(jī)輔助設(shè)計(jì)基礎(chǔ)》2023-2024學(xué)年第二學(xué)期期末試卷
- 公路養(yǎng)護(hù)安全現(xiàn)場檢查計(jì)劃
- 公共交通智能監(jiān)控管理制度
- 姜餅屋知識內(nèi)容調(diào)查問卷
- 浙江省慈溪市2024-2025學(xué)年高三上學(xué)期期末測試數(shù)學(xué)試卷(解析版)
- 高中數(shù)學(xué)分層練習(xí)(壓軸題)05:解析幾何(30題)【含解析】
- 回填溝渠的施工方案
- 2025年碩師計(jì)劃筆試試題及答案
- 循環(huán)系統(tǒng)-解剖結(jié)構(gòu)
- 光伏發(fā)電工程施工主要施工工藝及技術(shù)方案
- 校園艾滋病結(jié)核病課件
- 語文學(xué)習(xí)任務(wù)群解讀
- 2024春蘇教版《亮點(diǎn)給力大試卷》數(shù)學(xué)六年級下冊(全冊有答案)
- 《知識產(chǎn)權(quán)執(zhí)法》課件
- 成人重癥患者鎮(zhèn)痛管理(專家共識)
- 澳大利亞11天自由行行程單英文版
- 員工守則十條
- 【中國民航安檢的發(fā)展現(xiàn)狀及發(fā)展建議4000字(論文)】
- 房地產(chǎn)市場調(diào)研表格
評論
0/150
提交評論