版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)
文檔簡介
實踐課-語音交互、識別與合成課程介紹課程目的:了解語音交互的實現(xiàn)方法。課程內(nèi)容:語音識別和語音合成的基本概念,介紹兩款語音識別庫及在ROS的具體應(yīng)用。內(nèi)容包括:ASR與TTS基本概念ROS中常用ASR與TTS庫?NXROBO20222ASR與TTS的基本概念A(yù)SR,英文的全稱是AutomatedSpeechRecognition,即自動語音識別技術(shù)。語音辨識系統(tǒng)的性能受以下4類因素影響:
1.識別詞匯表的大小和語音的復(fù)雜性
2.語音信號的質(zhì)量
3.單個說話人還是多說話人
4.硬件TTS,英文全稱是TextToSpeech,即文字語音轉(zhuǎn)換,又稱為計算機(jī)語音合成。語音合成系統(tǒng)包括三個主要的組成部分:文本分析模塊、韻律生成模塊和聲學(xué)模塊。TTS技術(shù)已經(jīng)相對成熟。?NXROBO20223ROS中常用的ASR與TTS庫介紹spark的脫機(jī)語音識別使用的是pocketsphinx,但其只支持英文若想要支持中文還得選本土化的語音引擎。本土化的語音引擎最近比較火熱的有迅飛、百度、阿里、云知聲等。ROS中自帶的語音合成的功能包是sound_play。下面分別介紹pocketsphinx功能包、sound_play功能包。?NXROBO20224Sphinx介紹Sphinx-2采用半連續(xù)隱含馬爾可夫模型(SCHMM)建模,采用的技術(shù)相對落后,使得識別精度要低于其它的譯碼器。PocketSphinx是一個計算量和體積都很小的嵌入式語音識別引擎。是第一個開源面向嵌入式的中等詞匯量連續(xù)語音識別項目。Sphinx-3是CMU高水平的大詞匯量語音識別系統(tǒng),采用連續(xù)隱含馬爾可夫模型CHMM建模。Sphinx-4是由Java語言編寫的大詞匯量語音識別系統(tǒng),采用連續(xù)的隱含馬爾可夫模型建模。由于完全采用JAVA語言開發(fā),具有高度的可移植性,允許多線程技術(shù)和高度靈活的多線程接口。?NXROBO20225PocketSphinx在ROS中的使用自帶主機(jī)的spark本身已經(jīng)安裝好pocketsphinx庫,如果是自己的筆記本,請從/NXROBO/spark.git下載源碼,并運行源碼里的onekey.sh,按照提示安裝spark依賴,當(dāng)然你也可以選擇如下步驟手動安裝:安裝系統(tǒng)依賴庫:更新pip:使用pip安裝相應(yīng)的庫:?NXROBO20226$sudoaptinstall-yswigportaudio19-dev$sudoeasy_install-Upip$sudopip3installpocketsphinxwebrtcvadpyaudio麥克風(fēng)測試首先,插入你的麥克風(fēng)設(shè)備,然后在系統(tǒng)設(shè)置里測試麥克風(fēng)是否有語音輸入。如果使用的是spark自帶的小主機(jī),可以使用深度攝像頭提供的陣列麥克風(fēng)(帶ASTRA字樣Microphone)。嘗試對機(jī)器人說話,看inputlevel是否有變化。如果識效果不好,可以通過調(diào)節(jié)inputvolume來優(yōu)化。?NXROBO20227基于PocketSphinx的語音識別程序local_asr.py?NXROBO20228啟動識別啟動程序:?NXROBO20229$roscore&rosrunspark_voicelocal_asr.py啟動識別現(xiàn)在說幾條短語,"turnleft","forward","stop"。我們可以在話題/voice/stt上看到識別的結(jié)果消息:?NXROBO202210$rostopicecho/voice/stt詞匯庫這個語音識別是一種脫機(jī)識別的方法,如果想看語音識別庫中有哪些文本信息,可以通過下面的指令進(jìn)行查詢:?NXROBO202211$roscdspark_voice/scripts/lib/pocketsphinx-data/$morecmd.txt訓(xùn)練聲學(xué)模型?NXROBO202212一般這種脫機(jī)語音識別效果不是特別理想若想得到更好的效果,我們需要訓(xùn)練自己的聲學(xué)模型提高識別準(zhǔn)確度同時也可以自己向語音庫中添加其他的文本識別信息由于篇幅的原因,這里不作過多的介紹,大家可以訪問
https://cmusphinx.github.io/wiki/tutorial/進(jìn)行學(xué)習(xí)。在線語音識別更通用的做法是選擇在線語音識別,這樣可以大大提高語音識別的準(zhǔn)確率。注意使用此功能需要互聯(lián)網(wǎng)支持。一般語音識別服務(wù)的提供商都有非常完善的SDK調(diào)用說明,支持各種程序設(shè)計語言。下面以百度的在線語音識別(baidu_asr.py)為例,給大家簡單介紹一下?NXROBO202213在線語音識別?NXROBO202214baidu_asr.py語音控制語音控制的流程一般是由語音識別節(jié)點(比如baidu_asr.py)識別語音內(nèi)容,通過topic發(fā)送到voice/stt然后編寫一個機(jī)器人控制節(jié)點接收這個消息進(jìn)行相應(yīng)的處理,在spark中,這個節(jié)點為voice_nav.py大家也可嘗試更改這個代碼增加更多的控制指令。?NXROBO202215Spark機(jī)器人的語音運動控制voice_nav.py在接收到語音識別結(jié)果后,會解析結(jié)果并轉(zhuǎn)換成標(biāo)準(zhǔn)的Twist消息,并通過topic發(fā)送到cmd_vel,機(jī)器人底盤或者仿真程序通過監(jiān)聽這個topic實現(xiàn)移動控制:或者:對機(jī)器人說“前進(jìn)”或者“forward”,即可看到機(jī)器人開始移動。?NXROBO202216$roslaunchspark_voicebaidu_nav.launch$roslaunchspark_voicevoice_nav.launch(離線識別)(在線識別)語音合成現(xiàn)在機(jī)器人已經(jīng)可以進(jìn)行語音控制了,要是機(jī)器人可以和我們對話就更好了。ROS中已經(jīng)集成了這樣的包,下面就來嘗試一下。首先安裝相應(yīng)的包:語音測試及說話:?NXROBO202217$sudoaptinstallros-noetic-sound-play$roslaunchsound_playtest.launch$rosrunsound_playsay.py"howareyou"語音合成有沒有聽見聲音?ROS通過識別我們輸入的文本,讓機(jī)器人讀了出來。發(fā)出這個聲音的人叫做kal_diphone,如果不喜歡,我們也可以換一個人來讀:以下命令列出所有目前在您的系統(tǒng)上安裝的所有的英語聲音:以下命令列出所有可用的聲音列表,運行以下命令:?NXROBO202218$sudoaptinstallfestvox-don$rosrunsound_playsay.py"Welcometothesparkworkshop"voice_don_diphone$ls/usr/share/festival/voices/english$sudoapt-cachesearch--names-onlyfestvox-*小結(jié)主要介紹了語音交互的相關(guān)知識以及一些簡單的實例利用PocketSphinx實現(xiàn)本地的語音識別利用百度
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025年人教A版高二地理下冊月考試卷含答案
- 2025年上教版九年級化學(xué)下冊階段測試試卷含答案
- 2025年北師大新版八年級生物上冊月考試卷含答案
- 2024版二手房購房定金合同范本
- 2025年滬教版選擇性必修3地理下冊階段測試試卷
- 2024年項目合作資金撥付合同
- 2025年北師大版九年級地理上冊階段測試試卷含答案
- 2024年職工餐飲服務(wù)場所租賃協(xié)議條款版
- 2025年外研版八年級數(shù)學(xué)下冊階段測試試卷
- 2025年外研銜接版九年級物理上冊月考試卷含答案
- 高壓變頻器培訓(xùn)教材
- 立式氣液分離器計算
- 《嬰幼兒生活與安全照護(hù)》課程標(biāo)準(zhǔn)
- 早產(chǎn)兒喂養(yǎng)不耐受臨床診療指南
- (全國通用版)小學(xué)英語四大時態(tài)綜合練習(xí)(含答案)
- 喚醒孩子內(nèi)驅(qū)力
- 合并報表工作底稿
- 2023年一級健康管理師《技能操作》核心考點題庫資料300題(含答案)
- 公司特采(MRB)申請單
- GB/T 7025.3-1997電梯主參數(shù)及轎廂、井道、機(jī)房的型式與尺寸第3部分:V類電梯
- GB/T 11379-2008金屬覆蓋層工程用鉻電鍍層
評論
0/150
提交評論