第九章 嵌入式語(yǔ)音識(shí)別系統(tǒng).ppt_第1頁(yè)
第九章 嵌入式語(yǔ)音識(shí)別系統(tǒng).ppt_第2頁(yè)
第九章 嵌入式語(yǔ)音識(shí)別系統(tǒng).ppt_第3頁(yè)
第九章 嵌入式語(yǔ)音識(shí)別系統(tǒng).ppt_第4頁(yè)
第九章 嵌入式語(yǔ)音識(shí)別系統(tǒng).ppt_第5頁(yè)
已閱讀5頁(yè),還剩37頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、11:40,1,嵌入式語(yǔ)音識(shí)別系統(tǒng),洪青陽(yáng)博士 廈門大學(xué)人工智能研究所 2009,11:40,2,主要內(nèi)容,嵌入式系統(tǒng) 語(yǔ)音壓縮編碼 語(yǔ)音識(shí)別模塊 典型應(yīng)用語(yǔ)音玩具 典型應(yīng)用語(yǔ)音家電,11:40,3,嵌入式系統(tǒng),嵌入式就是將一個(gè)東西,嵌入到另一個(gè)中間,這包含兩層意思: 一個(gè)是硬件的嵌入式:將一個(gè)硬件嵌入到另一個(gè)中間,使得原本沒(méi)有智能的產(chǎn)品變得智能; 一個(gè)是軟件的嵌入式:將一個(gè)軟件嵌入帶另外一個(gè)軟件里面,一般這個(gè)軟件是一個(gè)應(yīng)用軟件,而對(duì)象是操作系統(tǒng)。 因此,很多東西都會(huì)被稱為嵌入式,而不僅僅是ARM等32位平臺(tái),還包括DSP,F(xiàn)PGA,51,甚至4位機(jī)都是可以的。,11:40,4,嵌入式平臺(tái),S

2、unplus(16bit):凌陽(yáng)SPCE061A ARM(32bit) DSP(TI、AD),11:40,5,用單片機(jī)處理語(yǔ)音,具有語(yǔ)音功能的電子產(chǎn)品 專用語(yǔ)音芯片 音質(zhì)好 語(yǔ)音播放長(zhǎng)度、段數(shù)等都受到限制 價(jià)格較高 利用單片機(jī)實(shí)現(xiàn)語(yǔ)音功能 音質(zhì)由AD、DA精度、壓縮算法等決定 語(yǔ)音錄放長(zhǎng)度由存儲(chǔ)空間決定 價(jià)格有優(yōu)勢(shì),11:40,6,用單片機(jī)處理語(yǔ)音,單片機(jī)實(shí)現(xiàn)語(yǔ)音功能的條件 硬件要求 AD輸入用于錄音、語(yǔ)音識(shí)別等 DA輸出用于放音 定時(shí)器/計(jì)數(shù)器用于控制采樣頻率 軟件要求 語(yǔ)音編解碼算法支持,11:40,7,SPCE061A用于語(yǔ)音處理,SPCE061A單片機(jī)的性能適合數(shù)字語(yǔ)音處理 10位AD

3、C和10位DAC 內(nèi)置MIC放大器和自動(dòng)增益功能 2個(gè)16位定時(shí)/計(jì)數(shù)器 CPU時(shí)鐘最高達(dá)49MHz,16位乘法器和內(nèi)積運(yùn)算,有能力執(zhí)行復(fù)雜壓縮算法,11:40,8,SPCE061A實(shí)現(xiàn)語(yǔ)音識(shí)別,硬件條件 專用MIC接口,用于實(shí)現(xiàn)語(yǔ)音錄制 16位定時(shí)器/計(jì)數(shù)器用于控制采樣頻率 最高49MHz時(shí)鐘頻率,內(nèi)置硬件乘法器和內(nèi)積運(yùn)算,保證識(shí)別算法的運(yùn)行 軟件條件 提供語(yǔ)音識(shí)別函數(shù)庫(kù),只需幾條語(yǔ)句即可實(shí)現(xiàn)語(yǔ)音識(shí)別功能,11:40,9,語(yǔ)音壓縮編碼,波形編碼 直接將波形信號(hào)轉(zhuǎn)變?yōu)閿?shù)字代碼,盡量真實(shí)地還原波形 聲音質(zhì)量好 壓縮比低,碼率通常在20Kb/s以上 適用于高保真音樂(lè)及語(yǔ)音場(chǎng)合,11:40,10,語(yǔ)

4、音壓縮編碼,參數(shù)編碼 提取語(yǔ)音信號(hào)的特征參數(shù)進(jìn)行編碼,盡量保持語(yǔ)音信號(hào)的可懂性,而還原后的波形可能與原波形差別很大。 壓縮比很高,碼率可達(dá)2.4kb/s以下。 語(yǔ)音質(zhì)量較差,自然度低 對(duì)環(huán)境噪聲敏感,11:40,11,語(yǔ)音壓縮編碼,混合編碼 將參數(shù)編碼和波形編碼技術(shù)結(jié)合起來(lái),克服了兩種編碼的缺點(diǎn)。 壓縮比高,碼率為416Kb/s 音質(zhì)介于參數(shù)編碼和波形編碼之間,11:40,12,凌陽(yáng)語(yǔ)音壓縮算法,對(duì)于波形編碼、參數(shù)編碼和混合編碼,凌陽(yáng)都開發(fā)了相應(yīng)的壓縮算法。 屬于波形編碼的有A2000、A1600等 屬于參數(shù)編碼的有S240、S200等 屬于混合編碼的有S480、S530等,11:40,13,

5、語(yǔ)音識(shí)別模塊,電路板模塊,硬件設(shè)計(jì) 電路圖 PCB布版,TS-M001,TS-M002,TS-M005,11:40,14,技術(shù)參數(shù),工作電壓(CPU) VDD 為 2.4V 5.5VDC; CPU 時(shí)鐘:0.32MHz49.152MHz; 內(nèi)置 32K 閃存ROM,可擴(kuò)展2M, 4M, 或8M byte FLASH; 低功耗休眠時(shí)耗電僅為 2A3.6V; 音頻壓縮率: 歌曲:16Kbit/s、20Kbit/s、24Kbit/s 答句:4.8Kbit/s、7.2Kbit/s 答句:2.4K b/s,11:40,15,預(yù)處理,語(yǔ)音信號(hào)數(shù)字化。 特征提取,抽取反應(yīng)語(yǔ)音本質(zhì)的特征參數(shù),形成特征矢量序列

6、。 語(yǔ)音模型庫(kù),從一個(gè)或多個(gè)講話者多次重復(fù)講話中提取的語(yǔ)音參數(shù)模板。 模式匹配,把輸入語(yǔ)音的特征參數(shù)與語(yǔ)音模型庫(kù)進(jìn)行比較分析,得到識(shí)別結(jié)果,基本原理,11:40,16,根據(jù)對(duì)說(shuō)話人的依賴程度,分為: 特定人語(yǔ)音識(shí)別(SD) 只能辨認(rèn)特定使用者的語(yǔ)音,訓(xùn)練-使用 非特定人語(yǔ)音識(shí)別(SI) 可辨認(rèn)任何人的語(yǔ)音,無(wú)須訓(xùn)練 根據(jù)對(duì)說(shuō)話方式的要求,分為: 孤立詞識(shí)別 每次識(shí)別的單詞之間要有停頓 連續(xù)語(yǔ)音識(shí)別 使用者以正常語(yǔ)速說(shuō)話,即可識(shí)別其中的單詞,分類,11:40,17,特定人語(yǔ)音識(shí)別程序流程,11:40,18,特定人語(yǔ)音識(shí)別程序示例,11:40,19,非特定人語(yǔ)音識(shí)別影響因素,影響因素 口音 性別年

7、齡 環(huán)境噪音 解決辦法 采集各地語(yǔ)音樣本 200人以上,適當(dāng)偏向目標(biāo)用戶群 盡量在安靜環(huán)境下使用,11:40,20,性能指標(biāo),問(wèn)話-非特定人員; 對(duì)口音要求不敏感,說(shuō)普通話的或者略帶口音而不影響理解的普通話用戶,系統(tǒng)能正常識(shí)別; 用戶以自然距離(15cm到1m左右)對(duì)準(zhǔn)話筒進(jìn)行語(yǔ)音輸入對(duì)話; 系統(tǒng)具有一定的抗噪功能,在一般環(huán)境噪聲下能進(jìn)行正常語(yǔ)音識(shí)別。 在一定環(huán)境下,系統(tǒng)識(shí)別率達(dá)97%以上。,11:40,21,典型應(yīng)用語(yǔ)音玩具,語(yǔ)音對(duì)話娃娃 語(yǔ)音控制機(jī)器人 聲控車、飛機(jī),11:40,22,語(yǔ)音玩具現(xiàn)狀和發(fā)展動(dòng)態(tài),國(guó)外典型產(chǎn)品: 語(yǔ)音識(shí)別: SONY AIBO采用RSC300 Tiger Sup

8、er Poo-chi I-Cybie 語(yǔ)音合成: Harsbo Furby采用SC-691 Leapfrog LeapPad,11:40,23,語(yǔ)音玩具現(xiàn)狀和發(fā)展動(dòng)態(tài),國(guó)內(nèi)典型產(chǎn)品: 語(yǔ)音識(shí)別: 海爾 PCBOYRSC300 伊萊克斯 HomoRSC300 晶鑫玩具 白雪公主 語(yǔ)音合成: 明日 學(xué)而樂(lè)采用SC-691,11:40,24,語(yǔ)音玩具現(xiàn)狀和發(fā)展動(dòng)態(tài),現(xiàn)狀歸納 語(yǔ)音識(shí)別玩具:國(guó)內(nèi)應(yīng)用遠(yuǎn)落后于國(guó)外 價(jià)格問(wèn)題實(shí)際是性價(jià)比問(wèn)題 廠商因商業(yè)模式(出口加工)而來(lái)的重視程度問(wèn)題 技術(shù)開發(fā)供給能力問(wèn)題 語(yǔ)音合成玩具:與國(guó)外差距不大 國(guó)人對(duì)于兒童教育的重視,11:40,25,語(yǔ)音玩具現(xiàn)狀和發(fā)展動(dòng)態(tài),趨

9、勢(shì)分析 語(yǔ)音識(shí)別玩具: 向高端發(fā)展,追求新功能、高性能。如Sony Aibo。其模式不可復(fù)制 注重成本、簡(jiǎn)化功能、側(cè)重市場(chǎng)實(shí)效、逐步應(yīng)用新技術(shù)。這是主要發(fā)展方向。舉例:Super Poo-chi,白雪公主 語(yǔ)音合成玩具:與國(guó)外差距不大 低成本、效果一般的產(chǎn)品很長(zhǎng)一段時(shí)間將是國(guó)內(nèi)主流 歐美則對(duì)語(yǔ)音品質(zhì)要求很高 對(duì)于兒童教育產(chǎn)品,長(zhǎng)遠(yuǎn)來(lái)說(shuō),音質(zhì)好,價(jià)格適中的產(chǎn)品是發(fā)展方向。,11:40,26,語(yǔ)音識(shí)別應(yīng)用原則 選擇合適的應(yīng)用對(duì)象和應(yīng)用場(chǎng)合 合適的產(chǎn)品:毛絨類、卡通類、機(jī)器人/寵物類、教育類 合適的場(chǎng)合:室內(nèi)、安靜的場(chǎng)合 不合適的產(chǎn)品:高速玩具車 不適合的場(chǎng)合:馬路、大街、嘈雜的場(chǎng)所 平衡原則: 大

10、的方面:功能與成本、開發(fā)費(fèi)與生產(chǎn)成本 技術(shù)方面:識(shí)別率與誤識(shí)別、誤動(dòng)作與方便性、距離與抗噪,玩具中語(yǔ)音技術(shù)應(yīng)用要點(diǎn)、問(wèn)題及對(duì)策,11:40,27,語(yǔ)音識(shí)別應(yīng)用要點(diǎn) 精心設(shè)計(jì): 造型與結(jié)構(gòu) 腳本:語(yǔ)音命令集、流程、提示與應(yīng)答 開發(fā)過(guò)程: 語(yǔ)音命令采樣范圍的選擇 錄音品質(zhì) 具體問(wèn)題具體對(duì)待,根據(jù)產(chǎn)品特點(diǎn),找出最優(yōu)參數(shù)組合,玩具中語(yǔ)音技術(shù)應(yīng)用要點(diǎn)、問(wèn)題及對(duì)策,11:40,28,語(yǔ)音識(shí)別應(yīng)用中問(wèn)題與對(duì)策(1) 關(guān)于成本: 與其它智能化技術(shù)如圖象識(shí)別、精密結(jié)構(gòu)設(shè)計(jì)比,語(yǔ)音識(shí)別的成本(含售后成本)最低 降成本方法1:簡(jiǎn)化功能、強(qiáng)調(diào)實(shí)效。與復(fù)雜而無(wú)用的功能比,熟悉的背景故事、生動(dòng)的造型、有趣的聲音的吸引力更

11、大。舉例:CP-dog、白雪公主 降成本方法2:選擇All-in-one的SOC,玩具中語(yǔ)音技術(shù)應(yīng)用要點(diǎn)、問(wèn)題及對(duì)策,11:40,29,語(yǔ)音識(shí)別應(yīng)用中問(wèn)題與對(duì)策(2) 特定人與非特定人: 非特定人(SI)優(yōu)點(diǎn):無(wú)須訓(xùn)練,易用,更適合兒童玩具 非特定人(SI)缺點(diǎn):受語(yǔ)種、方言限制,模板采樣費(fèi)用高 特定人(SD)優(yōu)點(diǎn):不受受語(yǔ)種、方言限制;無(wú)須模板采樣;可以用戶自定義名字和命令 特定人(SD)缺點(diǎn):要訓(xùn)練,不易用。一般需要外加存儲(chǔ)器存放模板,生產(chǎn)成本略高 對(duì)策1:不同應(yīng)用不同選擇 對(duì)策2:采用SI/SD雙模式,SI不工作時(shí),用SD 對(duì)策3:采用偽SI技術(shù),玩具中語(yǔ)音技術(shù)應(yīng)用要點(diǎn)、問(wèn)題及對(duì)策,11

12、:40,30,語(yǔ)音識(shí)別應(yīng)用中問(wèn)題與對(duì)策(3) 識(shí)別率與誤識(shí)別 嚴(yán)格程度加高,誤識(shí)別降低,但識(shí)別率(接受率)也降低。反之亦然。 對(duì)策1:不同產(chǎn)品不同對(duì)待。對(duì)于玩具,識(shí)別率更重要,偶有誤識(shí)別可以接受; 對(duì)策2:增加門檻級(jí)數(shù),可有效降低誤識(shí)別引起的誤動(dòng)作 環(huán)境噪音 限于成本及玩具使用方法,現(xiàn)有抗噪技術(shù)效果有限 對(duì)策:選擇恰當(dāng)?shù)膽?yīng)用對(duì)象和使用場(chǎng)合 措施1:選擇合適的咪頭抑制噪音 措施2:好的結(jié)構(gòu)設(shè)計(jì)和電路板設(shè)計(jì) 措施3:一般噪音環(huán)境下,識(shí)別率優(yōu)先(即使誤識(shí)別增加),玩具中語(yǔ)音技術(shù)應(yīng)用要點(diǎn)、問(wèn)題及對(duì)策,11:40,31,語(yǔ)音識(shí)別應(yīng)用中問(wèn)題與對(duì)策(4) 識(shí)別距離 識(shí)別距離一般8米以內(nèi) 距離越遠(yuǎn),抗噪越差,

13、誤識(shí)別越多 措施1:長(zhǎng)距離應(yīng)用,語(yǔ)音識(shí)別應(yīng)考慮加在遙控器上 措施2:不帶遙控器的運(yùn)動(dòng)玩具,應(yīng)加上自動(dòng)停止的功能,以免越出有效范圍 響應(yīng)時(shí)間 一條語(yǔ)音命令在1秒左右,語(yǔ)音識(shí)別響應(yīng)延遲在100ms-1s,都比心手反應(yīng)慢很多 對(duì)策:語(yǔ)音識(shí)別應(yīng)避免應(yīng)用于高速玩具車等類似產(chǎn)品 措施:將一個(gè)大語(yǔ)音命令集分成多級(jí)多個(gè)小命令集可加快響應(yīng)速度,玩具中語(yǔ)音技術(shù)應(yīng)用要點(diǎn)、問(wèn)題及對(duì)策,11:40,32,語(yǔ)音合成應(yīng)用要點(diǎn) 語(yǔ)音質(zhì)量與芯片成本之間找一個(gè)最優(yōu)平衡 識(shí)別質(zhì)量與存儲(chǔ)容量之間找一個(gè)最優(yōu)平衡 錄音環(huán)節(jié)是重點(diǎn): 錄音環(huán)境、錄音設(shè)備 播音員的音色特點(diǎn) 采樣率與采樣精度 聲音預(yù)處理可以改善效果或生成特效,玩具中語(yǔ)音技術(shù)應(yīng)

14、用要點(diǎn)、問(wèn)題及對(duì)策,11:40,33,典型應(yīng)用語(yǔ)音家電,語(yǔ)音控制模塊 語(yǔ)音識(shí)別臺(tái)燈 語(yǔ)音識(shí)別插座,11:40,34,語(yǔ)音控制模塊,語(yǔ)音控制模塊可以直接接受自然語(yǔ)音控制,并完成相應(yīng)的動(dòng)作。其中語(yǔ)音識(shí)別部分采用了最先進(jìn)的語(yǔ)音識(shí)別技術(shù),響應(yīng)速度快,識(shí)別率高,對(duì)噪聲不敏感。該控制模塊還加入了可信度評(píng)估和拒識(shí)技術(shù),對(duì)于命令以外的語(yǔ)音或者干擾聲音可以拒識(shí)。,11:40,35,技術(shù)關(guān)鍵與難題,基于微小芯片,實(shí)現(xiàn)用戶不需訓(xùn)練的非特定人語(yǔ)音識(shí)別系統(tǒng)。 有效避免常見(jiàn)的強(qiáng)電干擾。 有效排除不正確的干擾音和語(yǔ)音命令。 避免使用過(guò)程中的誤觸發(fā)現(xiàn)象。 PCB板及外圍器件必須合理設(shè)計(jì),把成本降到最低。,11:40,36,解

15、決方案,非特定人語(yǔ)音識(shí)別系統(tǒng)需采集足夠的語(yǔ)音數(shù)據(jù)(每個(gè)詞或句子采集200人以上樣本),訓(xùn)練成穩(wěn)定可靠的語(yǔ)音模型。 語(yǔ)音控制程序不讀取外圍電路I/O的數(shù)據(jù),直接通過(guò)設(shè)置相關(guān)變量,進(jìn)行狀態(tài)(開、關(guān))的監(jiān)測(cè),并執(zhí)行相應(yīng)操作。 為避免誤觸發(fā),采用基于觸發(fā)名稱的二級(jí)控制機(jī)制。 為了降低成本,可采用裸片+邦定技術(shù),大大降低了語(yǔ)音識(shí)別芯片及整個(gè)模塊的成本。,11:40,37,特定人模式,具有進(jìn)行語(yǔ)音命令錄入功能。 用戶若想使用自己的語(yǔ)音命令控制開關(guān),在使用前必須錄音。理論上一次錄音,終身有效。 錄入的語(yǔ)音命令能夠被控制電器進(jìn)行關(guān)聯(lián)。 能夠刪除語(yǔ)音命令。 能夠追加錄音,一路開關(guān)可以由多個(gè)人用語(yǔ)音命令進(jìn)行控制。

16、 錄音時(shí)同一個(gè)語(yǔ)音命令要喊兩次,第二次是對(duì)第一次的確認(rèn)。 斷電后語(yǔ)音命令與設(shè)置具有記憶功能,設(shè)置結(jié)果不會(huì)丟失。,11:40,38,性能指標(biāo),靈敏度:8米有效范圍。可輕松用語(yǔ)音命令控制,執(zhí)行開、關(guān)等操作,來(lái)開啟或關(guān)閉電器,用戶使用起來(lái)非常方便。 可靠性:24小時(shí)無(wú)誤觸發(fā)。對(duì)于語(yǔ)音家電,如果隨便聲音就能觸發(fā),或類似語(yǔ)音偶然觸發(fā),都會(huì)使用戶不能接受,擔(dān)心自己不在家時(shí),臺(tái)燈或其他家電自行打開,浪費(fèi)電,甚至造成安全問(wèn)題。,11:40,39,主要技術(shù)參數(shù),額定輸入電壓: 110-250V 額定輸入電流: 2A 額定輸出電壓: 110-250V 額定輸出電流: 2A 使用范圍: 8 m 方向性: 任意,11:40,40,語(yǔ)音識(shí)別臺(tái)燈,具有以下功能: 可以接受語(yǔ)音輸入的命令:比如“臺(tái)燈”(觸發(fā)

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論