




版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
1、一卡通解決方案-LD3320的嵌入式語(yǔ)音識(shí)別系統(tǒng)的應(yīng)用 摘 要:語(yǔ)音交互系統(tǒng)是比擬人性化的人機(jī)操作界面,它需要語(yǔ)音識(shí)別系統(tǒng)的支持。LD3320就是這樣一款語(yǔ)音識(shí)別芯片。介紹了該芯片的工作原理及應(yīng)用,給出了LD3320與微處理器的硬件接口電路及軟件程序。隨著高檔MCU的不斷出現(xiàn),以MCU為核心的嵌入式語(yǔ)音交互系統(tǒng)會(huì)有非常好的應(yīng)用前景。1 概述 在現(xiàn)代社會(huì),"懶人科技"大行其道。當(dāng)面臨眾多繁瑣的按鍵操作和菜單項(xiàng)選擇擇的時(shí)候,簡(jiǎn)
2、單地說(shuō)出指令,是最具有人情味的人機(jī)操作界面。讓身邊的各種電子設(shè)備可"聽(tīng)從"人類(lèi)的語(yǔ)音,是從電影"星球大戰(zhàn)"就開(kāi)始的科技開(kāi)展目標(biāo)。雖然目前的科技還不能做到讓計(jì)算機(jī)完全理解人類(lèi)的所有自然語(yǔ)音,但是可以在一定程度上實(shí)現(xiàn)這個(gè)夢(mèng)想。 2 特定人語(yǔ)音識(shí)別技術(shù)及原理 特定人語(yǔ)音識(shí)別ASR,Auto Speech RecognitiON技術(shù)是基于"關(guān)鍵詞語(yǔ)列表"的識(shí)別技術(shù),它是對(duì)大量的語(yǔ)音數(shù)據(jù)相當(dāng)于對(duì)數(shù)千人采集的數(shù)萬(wàn)小時(shí)的有效聲音數(shù)據(jù)經(jīng)語(yǔ)言學(xué)家語(yǔ)音模型分析,建立數(shù)學(xué)模型,并經(jīng)過(guò)反復(fù)訓(xùn)練提取基元語(yǔ)音的細(xì)節(jié)特征,以及提取各基元間的特征差異,得到在統(tǒng)計(jì)概率
3、最優(yōu)化意義上的各個(gè)基元語(yǔ)音特征,最后才由資深工程師將算法以及語(yǔ)音模型轉(zhuǎn)換成硬件芯片并應(yīng)用在嵌入式系統(tǒng)中。 ASR技術(shù)每次識(shí)別的過(guò)程就是把用戶說(shuō)出的語(yǔ)音內(nèi)容,通過(guò)頻譜轉(zhuǎn)換為語(yǔ)音特征,再將這個(gè)轉(zhuǎn)換后的語(yǔ)音特征和"關(guān)鍵詞語(yǔ)列表"中的條目一一進(jìn)行匹配,最優(yōu)匹配的一條即作為識(shí)別結(jié)果。比方ASR技術(shù)在語(yǔ)音控制的 應(yīng)用中,這個(gè)"關(guān)鍵詞語(yǔ)列表"的內(nèi)容就是 本中的人名、 的菜單命令或 存儲(chǔ)卡中的歌曲名字。不管這個(gè)列表的條目?jī)?nèi)容是什么,只需要用戶設(shè)置相關(guān)的存放器,就可以把相應(yīng)的待識(shí)別條目?jī)?nèi)容以字符形式傳遞給識(shí)別引擎。 由此可見(jiàn),語(yǔ)音識(shí)別芯片完成的工作就是:把MIC麥克風(fēng)輸入
4、的聲音進(jìn)行頻譜分析后提取語(yǔ)音特征,再和關(guān)鍵詞語(yǔ)列表中的關(guān)鍵詞語(yǔ)進(jìn)行比照匹配,最后找出得分最高的關(guān)鍵詞語(yǔ)作為識(shí)別結(jié)果輸出。 通?;贏SR技術(shù)的語(yǔ)音識(shí)別芯片能在兩種情況下給出識(shí)別結(jié)果: 外部送入預(yù)定時(shí)間的語(yǔ)音數(shù)據(jù)比方5 s的語(yǔ)音數(shù)據(jù),芯片對(duì)這些語(yǔ)音數(shù)據(jù)運(yùn)算分析后,給出識(shí)別結(jié)果。 外部送入語(yǔ)音數(shù)據(jù)流,語(yǔ)音識(shí)別芯片通過(guò)端點(diǎn)檢測(cè)VAD,Voice Activity Detection技術(shù)檢測(cè)出用戶停止說(shuō)話,把用戶開(kāi)始說(shuō)話到停止說(shuō)話之間的語(yǔ)音數(shù)據(jù)進(jìn)行運(yùn)算分析后,給出識(shí)別結(jié)果。 對(duì)于第一種情況,可以理解為設(shè)定了一個(gè)定時(shí)錄音如5 s的語(yǔ)音數(shù)據(jù),芯片在5 s后會(huì)停止把聲音送入識(shí)別引擎,并且根據(jù)已送入引擎的語(yǔ)音
5、數(shù)據(jù)計(jì)算出識(shí)別結(jié)果。 對(duì)于第二種情況,需要了解VAD的工作原理:VAD技術(shù)是在一段語(yǔ)音數(shù)據(jù)流中,判斷出哪個(gè)時(shí)間點(diǎn)是人聲音的開(kāi)始,哪個(gè)時(shí)間點(diǎn)是人聲音的結(jié)束。判斷的依據(jù)是,在背景聲音的根底上有了語(yǔ)音發(fā)音,那么視為聲音的開(kāi)始。而后,檢測(cè)到一段持續(xù)時(shí)間的背景音比方600 ms,那么視為人聲說(shuō)話結(jié)束。通過(guò)VAD判斷出人聲說(shuō)話的區(qū)域后,語(yǔ)音識(shí)別芯片會(huì)把這期間的聲音數(shù)據(jù)進(jìn)行識(shí)別處理,計(jì)算出識(shí)別結(jié)果。 除了以上兩種情況外,語(yǔ)音識(shí)別算法無(wú)法"主動(dòng)"地判斷出是否識(shí)別出了一個(gè)結(jié)果。這是因?yàn)?,在?jì)算過(guò)程中的任何時(shí)刻,語(yǔ)音識(shí)別器都會(huì)對(duì)已送人識(shí)別芯片的聲音數(shù)據(jù)進(jìn)行分析,并根據(jù)匹配程度為識(shí)別列表中的關(guān)鍵
6、詞語(yǔ)進(jìn)行打分,最匹配的打分最高。但是,由于識(shí)別算法不知道用戶后面是否還繼續(xù)說(shuō)話,所以無(wú)法主動(dòng)地判斷已經(jīng)識(shí)別出的結(jié)果。 3 語(yǔ)音識(shí)別芯片LD3320的工作原理 3.1 語(yǔ)音識(shí)別系統(tǒng)原理結(jié)構(gòu) LD3320語(yǔ)音識(shí)別芯片采用的就是ASR技術(shù),圖1就是由LD3320和單片機(jī)或嵌入式系統(tǒng)組成的語(yǔ)音識(shí)別系統(tǒng)原理框圖。圖中給出了LD3320的內(nèi)部原理結(jié)構(gòu),本文中選用的MCU是STC10L08XE單片機(jī)。 圖1 語(yǔ)音識(shí)別系統(tǒng)原理框圖語(yǔ)音識(shí)別芯片LD3320是ICRoute公司的產(chǎn)品,它采用ASR技術(shù),提供了一種脫離按鍵、鍵盤(pán)、鼠標(biāo)、觸摸屏等GUI操作方式且基于語(yǔ)音的用戶界面VUIVoice User
7、Interface,使得用戶對(duì)該系統(tǒng)的操作更簡(jiǎn)單、快速和自然。 用戶只需要把識(shí)別的關(guān)鍵詞語(yǔ)以字符串的形式傳送進(jìn)芯片,即可以在下次識(shí)別中立即生效。比方,用戶在51等主控MCU的編程中,簡(jiǎn)單地通過(guò)設(shè)置芯片的存放器,把諸如"你好"這樣的識(shí)別關(guān)鍵詞語(yǔ)的內(nèi)容動(dòng)態(tài)地傳入芯片中,芯片就可以識(shí)別所設(shè)定的關(guān)鍵詞語(yǔ)了。每個(gè)關(guān)鍵詞語(yǔ)可以是單字、詞組、短句或者任何的中文發(fā)音的組合。基于LD3320的語(yǔ)音識(shí)別系統(tǒng)可以隨著使用流程,在運(yùn)行時(shí)動(dòng)態(tài)地更改關(guān)鍵詞語(yǔ)列表的內(nèi)容,這樣可以用一個(gè)系統(tǒng)支持多種不同的場(chǎng)景,同時(shí)也不需要用戶作任何的錄音訓(xùn)練。 3.2 LD3320的用戶使用模式 LD3320有兩種用戶使
8、用模式,即"觸發(fā)識(shí)別模式"和"循環(huán)識(shí)別模式".用戶可以通過(guò)編程,設(shè)置兩種不同的用戶使用模式。 觸發(fā)識(shí)別模式:系統(tǒng)的主控MCU在接收到外界一個(gè)觸發(fā)后比方用戶按動(dòng)某個(gè)按鍵,啟動(dòng)LD3320芯片的一個(gè)定時(shí)識(shí)別過(guò)程比方5 s,要求用戶在這個(gè)定時(shí)過(guò)程中說(shuō)出要識(shí)別的語(yǔ)音關(guān)鍵詞語(yǔ)。這個(gè)過(guò)程結(jié)束后,需要用戶再次觸發(fā)才能再次啟動(dòng)一個(gè)識(shí)別過(guò)程。 循環(huán)識(shí)別模式:系統(tǒng)的主控MCU反復(fù)啟動(dòng)識(shí)別過(guò)程。如果沒(méi)有人說(shuō)話就沒(méi)有識(shí)別結(jié)果,那么每次識(shí)別過(guò)程的定時(shí)到時(shí)后再啟動(dòng)一個(gè)識(shí)別過(guò)程;如果有識(shí)別結(jié)果,那么根據(jù)識(shí)別作相應(yīng)處理后比方播放某個(gè)聲音作為答復(fù)再啟動(dòng)一個(gè)識(shí)別過(guò)程。 4 語(yǔ)音識(shí)
9、別系統(tǒng)軟硬件設(shè)計(jì) 4.1 硬件系統(tǒng)設(shè)計(jì) 由圖l可知,由LD3320組成的語(yǔ)音識(shí)別系統(tǒng)硬件有單片機(jī)或嵌入式系統(tǒng)及LD33202.圖2和圖3分別是由單片機(jī)STC10L08XE構(gòu)成的主控芯片和由LD3320A構(gòu)成的語(yǔ)音識(shí)別主系統(tǒng)。 圖2 STC10L08XE構(gòu)成的主控芯片 圖3 LD3320A構(gòu)成的語(yǔ)音識(shí)別主系統(tǒng)4.2 軟件系統(tǒng)設(shè)計(jì) 語(yǔ)音識(shí)別的操作順序是:先進(jìn)行語(yǔ)音識(shí)別的初始化,然后寫(xiě)入識(shí)別列表,系統(tǒng)即開(kāi)始進(jìn)行語(yǔ)音識(shí)別,并準(zhǔn)備好中斷響應(yīng)函數(shù),翻開(kāi)中斷允許位。這里如果不用中斷方式,也可以通過(guò)查詢方式工作。在"開(kāi)始識(shí)別"后,讀取存放器B2H的值,如果為21H就表示
10、有識(shí)別結(jié)果產(chǎn)生。 下面是語(yǔ)音識(shí)別的初始化程序段,按照以下序列來(lái)設(shè)置存放器: 初始化后是寫(xiě)入識(shí)別列表。識(shí)別列表的規(guī)那么是:每個(gè)識(shí)別條目對(duì)應(yīng)一個(gè)特定的編號(hào)1個(gè)字節(jié),不同識(shí)別條目的編號(hào)可以相同,而且不用連續(xù)。LD3320芯片最多支持50個(gè)識(shí)別條目,每個(gè)識(shí)別條目是標(biāo)準(zhǔn)普通話的漢語(yǔ)拼音小寫(xiě),每2個(gè)字漢語(yǔ)拼音之間用1個(gè)空格間隔。表1是一個(gè)簡(jiǎn)單的例子。 圖4是由LD3320組成的語(yǔ)音識(shí)別系統(tǒng)主程序流程,圖5是語(yǔ)音識(shí)別系統(tǒng)中斷效勞程序流程。 圖4 語(yǔ)音識(shí)別系統(tǒng)主程序流程圖 圖5 語(yǔ)音識(shí)別系統(tǒng)中斷程序流程5 聲控電視遙控器 聲控電視遙控器最有用的地方是,在更換頻道時(shí)可以直接說(shuō)出頻
11、道名稱,而不是去記憶頻道名稱和頻道數(shù)字的聯(lián)系。同時(shí),在使用電視遙控器時(shí),遙控器是用電池工作,不能讓識(shí)別芯片一直處于工作狀態(tài)。因此在設(shè)計(jì)時(shí),可以在遙控器上設(shè)置一個(gè)大一點(diǎn)的按鍵,用戶在使用時(shí),按一下這個(gè)按鍵,啟動(dòng)LD3320語(yǔ)音識(shí)別芯片,此時(shí)可以播放一聲"嘀"的提示音,然后在限定的時(shí)間內(nèi)如5s,接收用戶的語(yǔ)音命令,并給出識(shí)別結(jié)果。比方用戶說(shuō)"體育臺(tái)",識(shí)別芯片把識(shí)別結(jié)果提供應(yīng)遙控器的主控MCU.隨后遙控器的主控MCU就根據(jù)事先設(shè)定好的對(duì)應(yīng)關(guān)系,發(fā)出對(duì)應(yīng)頻道的紅外編碼,實(shí)現(xiàn)換臺(tái)。可以不加確認(rèn)過(guò)程直接換臺(tái)。圖6為聲控電視遙控器工作流程。 圖6 聲控電視遙控器工作流程結(jié)語(yǔ) 這種語(yǔ)音識(shí)別系統(tǒng)也
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 臨床血液學(xué)檢驗(yàn)技術(shù)練習(xí)試卷附答案(一)
- 2025春八年級(jí)語(yǔ)文課堂互動(dòng)教學(xué)計(jì)劃
- 綠化工程施工中的環(huán)境保護(hù)措施
- 2025年新部編版一年級(jí)語(yǔ)文上教學(xué)反思計(jì)劃
- 水上救援技能訓(xùn)練工作計(jì)劃
- 物流配送服務(wù)質(zhì)量監(jiān)測(cè)流程
- 母嬰護(hù)理行業(yè)標(biāo)準(zhǔn)化培訓(xùn)計(jì)劃
- 人教版五年級(jí)英語(yǔ)教學(xué)計(jì)劃的家長(zhǎng)指導(dǎo)
- 手術(shù)前后用藥安全措施
- 城市綠化冬季施工管理措施
- 軟件系統(tǒng)用戶培訓(xùn)方案
- 時(shí)序數(shù)據(jù)庫(kù)在工業(yè)物聯(lián)網(wǎng)中的應(yīng)用
- 反歧視培訓(xùn)課件
- 安全措施費(fèi)使用計(jì)劃
- 危險(xiǎn)品運(yùn)輸事故的應(yīng)急處理
- 勞務(wù)派遣人員登記表
- 患者發(fā)生過(guò)敏性休克應(yīng)急預(yù)案演練腳本模板
- 南京醫(yī)科大學(xué)招聘考試《綜合能力測(cè)試》真題及答案
- 封閉冷通道施工方案
- 《觸不可及》影視鑒賞課件
- 認(rèn)知知覺(jué)障礙的作業(yè)治療概述(作業(yè)治療技術(shù)課件)
評(píng)論
0/150
提交評(píng)論