人工智能應(yīng)用基礎(chǔ) 課件 項目四 語音處理及應(yīng)用_第1頁
人工智能應(yīng)用基礎(chǔ) 課件 項目四 語音處理及應(yīng)用_第2頁
人工智能應(yīng)用基礎(chǔ) 課件 項目四 語音處理及應(yīng)用_第3頁
人工智能應(yīng)用基礎(chǔ) 課件 項目四 語音處理及應(yīng)用_第4頁
人工智能應(yīng)用基礎(chǔ) 課件 項目四 語音處理及應(yīng)用_第5頁
已閱讀5頁,還剩33頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

《人工智能應(yīng)用基礎(chǔ)》

項目四語音識別:實時記錄員任務(wù)描述

張先生您好:請問需要什么幫助?文字轉(zhuǎn)語音

錄音北京明天的天氣怎么樣?識別北京明天是晴天,最高氣溫28度,適合郊游。合成問答播放

理解語音的預(yù)處理理解語音的特征提取學(xué)習(xí)目標(biāo)重難點重點:(1)語音識別的概念及應(yīng)用(2)語音合成的概念及應(yīng)用(3)語音處理實踐難點:(1)語音處理的概念(2)語音的特征提取1.了解語音識別技術(shù)的發(fā)展理解語音識別的概念及一般流程5.能進(jìn)行語音合成應(yīng)用語音處理技術(shù)應(yīng)用框架4.1語音處理的概念4.2語音識別及應(yīng)用4.3語音合成及應(yīng)用4.1語音處理的概念4.1.1語音處理的概念

語音處理(speechsignalprocessing)是研究語音發(fā)聲過程、語音信號的統(tǒng)計特性、語音的自動識別、機(jī)器合成以及語音感知等各種處理技術(shù)的總稱。

由于現(xiàn)代的進(jìn)音處理技術(shù)都以數(shù)字計算為基礎(chǔ),并借助微處理器、信號處理器或通用計算機(jī)加以實現(xiàn),因此也稱數(shù)字語音信號處理。4.1語音處理的概念4.1.1語音處理的概念

語音處理主要包括語音識別、語音合成兩個部分。

語音識別,是把語音轉(zhuǎn)化為文字,并對其進(jìn)行識別、認(rèn)知和處理。

語音合成,是指通過機(jī)械的、電子的方法產(chǎn)生人造語音的技術(shù)。

一個完整的語音處理系統(tǒng),包括前端的信號處理、中間的語音語義識別和對話管理以及后期的語音合成。語音處理中的主要技術(shù)點包括:前端處理:說話人聲檢測,回聲消除,喚醒詞識別,麥克風(fēng)陣列處理,語音增強(qiáng)等。語音識別:特征提取,模型自適應(yīng),聲學(xué)模型,語言模型,動態(tài)解碼等。語義識別和對話管理:更多屬于自然語言處理的范疇。語音合成:文本分析、語言學(xué)分析、音長估算、發(fā)音參數(shù)估計等4.1語音處理的概念語音識別語義理解對話管理語音喚醒聲紋識別4.1.2語音處理的流程小兔你好大白你好語音合成4.1語音處理的概念4.1.2語音處理的流程語音識別過程

語音合成過程4.1語音處理的概念4.2語音識別及應(yīng)用4.3語音合成及應(yīng)用4.2語音識別4.2.1語音識別的概念輸入語音

語音前處理有效語言檢測接口層特征提取語音識別聲學(xué)模型語言模型識別結(jié)果文本訓(xùn)練集數(shù)據(jù)清洗和正規(guī)化模型訓(xùn)練和優(yōu)化語言模型訓(xùn)練數(shù)據(jù)預(yù)處理語音訓(xùn)練集聲學(xué)模型訓(xùn)練4.2語音識別4.2.1語音識別的概述百度語音識別技術(shù)每年迭代算法模型/article/201611/245559.html4.2語音識別4.2.1語音識別的概述Google的語音合成系統(tǒng)WaveNet:示意圖/p/8599090/4.2語音識別4.2.2語音識別的應(yīng)用:過程4.2語音識別4.2.2語音識別的應(yīng)用:輸入語音語音編碼語音質(zhì)量16K16bit、8K16bit、Speex壓縮避免丟音、截幅、音量過小等理想音頻丟音截幅音量過低4.2語音識別4.2.2語音識別的應(yīng)用:聲學(xué)匹配聲學(xué)一致性:待識別語音和訓(xùn)練語音具有一致性聲學(xué)模型訓(xùn)練數(shù)據(jù)預(yù)處理(NoiseRobust)語音訓(xùn)練集聲學(xué)模型遠(yuǎn)場近場設(shè)備降噪用戶口音4.2語音識別4.2.2語音識別的應(yīng)用:文匹配本文本一致性:待識別領(lǐng)域和訓(xùn)練文本具有一致性語言模型語言模型訓(xùn)練數(shù)據(jù)清洗和正規(guī)化模型訓(xùn)練和優(yōu)化文本訓(xùn)練集領(lǐng)域數(shù)據(jù)核心詞匯“請問岳父怎么樣?”“請問月付怎么樣?”4.2語音識別4.2.2語音識別的應(yīng)用:迭代優(yōu)化輸入語音

語音前處理有效語言檢測接口層特征提取語音識別聲學(xué)模型語言模型識別結(jié)果文本訓(xùn)練集數(shù)據(jù)清洗和正規(guī)化模型訓(xùn)練和優(yōu)化語言模型訓(xùn)練數(shù)據(jù)預(yù)處理語音訓(xùn)練集聲學(xué)模型訓(xùn)練4.2語音識別4.2.2語音識別的應(yīng)用:應(yīng)用場景社交聊天社交聊天發(fā)送實時語音,支持中文,英文識別,方言支持粵語,四川話。讓溝通交流更加準(zhǔn)確合作案例:游戲娛樂語音聊天轉(zhuǎn)文字,讓用戶在操作的同時也可看到聊天內(nèi)容合作案例:語音輸入法擺脫生僻字和拼音障礙,將所輸入文字,直接用語音的方式輸入,讓輸入法更加便捷合作案例:

語音搜索搜索內(nèi)容直接以語音的方式輸入,讓搜索更加高效合作案例:4.2語音識別4.2.2語音識別的應(yīng)用:喚醒詞“小度小度”“有什么可以幫您”語音識別(ASR)Service語義理解(NLP)識別文本語音喚醒(Wakeup)4.2語音識別4.2.2語音識別的應(yīng)用:喚醒詞特征提取關(guān)鍵詞識別聲學(xué)模型庫>閾值?得分接受拒絕錯誤拒絕率(FRR)錯誤接受率(FAR)功耗4.2語音識別4.2.2語音識別的應(yīng)用:喚醒詞喚醒詞環(huán)境設(shè)備簡單易記日常少用易于喚醒(百度語音云,上傳喚醒詞評估)遠(yuǎn)場近場背景噪聲聲學(xué)信息功耗設(shè)計4.2語音識別4.2.2語音識別的應(yīng)用:聲紋識別“小度小度,給我來首歌”“馬上播放小兔子乖乖”語音識別(ASR)Service語義理解(NLP)識別文本語音喚醒(Wakeup)聲紋確認(rèn)(VoicePrint)4.1語音處理的概念4.2語音識別及應(yīng)用4.3語音合成及應(yīng)用4.3語音合成及應(yīng)用語音識別語義理解對話管理語音合成語音喚醒聲紋識別小兔你好大白你也好4.3.1語音合成的概念4.3語音合成及應(yīng)用4.3.1語音合成的概念文本分析(文本正則、分詞、詞性標(biāo)注、注音)韻律停頓預(yù)測聲學(xué)參數(shù)預(yù)測單元選擇聲碼器在線合成(拼接)離線合成(參數(shù))音庫4.3語音合成及應(yīng)用4.3.2語音合成的應(yīng)用:出行功能:通過語音指令,解放雙手,進(jìn)行語音的識別,聽懂車主用戶是需求。案例:途勝響應(yīng)高頻需求5.3語音合成及應(yīng)用4.3.2語音合成的應(yīng)用:酒店功能:運用語音識別,通過語音交互,進(jìn)行酒店預(yù)訂服務(wù)。案例:說出酒店需求,去哪兒即可調(diào)取信息4.3語音合成及應(yīng)用4.3.2語音合成的應(yīng)用:智能家居功能:通過語音“說出”用戶的需求,智能家居就能識別,執(zhí)行。案例:智能電視系統(tǒng),直接根據(jù)語音操作4.3語音合成及應(yīng)用4.3.2語音合成的應(yīng)用:娛樂功能:通過語音識別,調(diào)動視頻應(yīng)用的程序,進(jìn)行操作。案例:愛奇藝搜索系統(tǒng)合作用戶App語音輸入App調(diào)用搜索云端接口SDK把文本傳給AppApp調(diào)用百度SDK搜索云服務(wù)用戶意圖判斷圖譜服務(wù)搜索服務(wù)云服務(wù)返回結(jié)果給AppApp進(jìn)行展現(xiàn)4.3語音合成及應(yīng)用4.3.2語音合成的應(yīng)用:機(jī)器人功能:機(jī)器人的語音合成交互形式,與用戶對話,響應(yīng)用戶需求。案例:度秘機(jī)器人應(yīng)用,解說體育賽事4.3語音合成及應(yīng)用4.3.2語音合成的應(yīng)用:手機(jī)助手功能:通過語音喚醒,一聲指令,即可讓應(yīng)用進(jìn)入工作狀態(tài)。案例:手機(jī)廠商集成語音智能服務(wù),高速響應(yīng)4.3語音合成及應(yīng)用4.3.2語音合成的應(yīng)用:文化功能:通過語音合成,文字轉(zhuǎn)換成語音。案例:讀者農(nóng)家數(shù)字書屋項目,解放雙手,用耳朵獲取知識4.3語音合成及應(yīng)用4.3.2語音合成的應(yīng)用

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論