




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
語音識(shí)別系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)摘要隨著計(jì)算機(jī)技術(shù)的不斷發(fā)展,人們?cè)絹碓较Mㄟ^語音來實(shí)現(xiàn)人機(jī)對(duì)話,語音識(shí)別技術(shù)由此應(yīng)運(yùn)而生。語音識(shí)別是讓機(jī)器自動(dòng)識(shí)別和理解語音信號(hào),并把語音信號(hào)轉(zhuǎn)變?yōu)橄鄳?yīng)命令的技術(shù)。特定人孤立詞的語音識(shí)別是應(yīng)用最為廣泛的一種語音識(shí)別技術(shù),而當(dāng)前這方面的硬件設(shè)備成本較高,使得難以大量推廣應(yīng)用?;谏鲜鲈?本文通過對(duì)孤立詞語音特點(diǎn)的研究,結(jié)合單片機(jī)等硬件設(shè)備,設(shè)計(jì)了一種基于特定人孤立詞的語音識(shí)別系統(tǒng)。性能良好且成本低廉的嵌入式語音識(shí)別系統(tǒng)在智能家電接口、智能玩具、智能儀器等領(lǐng)域提供便捷的人機(jī)交互服務(wù),將具有廣闊的應(yīng)用前景。研發(fā)嵌入式語音識(shí)別系統(tǒng),具有重要的研究意義及廣泛的市場(chǎng)應(yīng)用。關(guān)鍵詞:單片機(jī);語音識(shí)別;系統(tǒng)目錄引言 11系統(tǒng)設(shè)計(jì) 11.1任務(wù)要求 11.2總體設(shè)計(jì) 12語音識(shí)別原理與分類 22.1語音識(shí)別原理 22.2語音識(shí)別分類 33基于SPCE061A的語音識(shí)別 43.1凌陽語音簡介 43.2語音提示生成 53.3語音錄制播放 53.3.1語音錄制過程 53.3.2語音播放過程 63.4語音訓(xùn)練識(shí)別 64基于單片機(jī)的語音識(shí)別模塊硬件的構(gòu)建 74.1SPCE061A單片機(jī)簡介 74.2語音識(shí)別模塊的硬件結(jié)構(gòu)框架 74.3語音采集前向通道電路 84.3.1語音信號(hào)獲取電路 84.3.2放大濾波電路 94.3.3AGC電路 94.3.4電壓偏置電路 94.4人機(jī)接口電路 94.5微處理器核心板電路 104.6數(shù)據(jù)存儲(chǔ)電路 105基于SPCE061A的語音識(shí)別模塊軟件設(shè)計(jì) 105.1系統(tǒng)軟件的總體設(shè)計(jì) 105.2模塊程序的整合 115.3語音識(shí)別模塊的子程序設(shè)計(jì) 125.3.1主控接口模塊的設(shè)計(jì) 125.3.2語音數(shù)據(jù)的獲取 125.3.3特征參數(shù)的提取 125.3.4模板的生成及訓(xùn)練 135.3.5FLASH存儲(chǔ)器的讀寫 135.3.6語音錄制和播放 135.3.7模板的匹配及結(jié)果輸出 136結(jié)論 14參考文獻(xiàn) 161前言1.1語音識(shí)別研究意義作為智能計(jì)算機(jī)研究的主導(dǎo)方向和人機(jī)語音通信的關(guān)鍵技術(shù),語音識(shí)別技術(shù)一直受到各國科學(xué)界的廣泛關(guān)注。以語音識(shí)別開發(fā)出的產(chǎn)品應(yīng)用領(lǐng)域非常廣泛,有聲控電話交換、語音撥號(hào)系統(tǒng)、信息網(wǎng)絡(luò)查詢、家庭服務(wù)、賓館服務(wù)、旅行社服務(wù)系統(tǒng)、訂票系統(tǒng)、聲控智能玩具、醫(yī)療服務(wù)、銀行服務(wù)、股票查詢服務(wù)、計(jì)算機(jī)控制、工業(yè)控制、語音通信系統(tǒng)、軍事監(jiān)聽、信息檢索、應(yīng)急服務(wù)、翻譯系統(tǒng)等,幾乎深入到社會(huì)的每個(gè)行業(yè)、每個(gè)方面,其應(yīng)用和經(jīng)濟(jì)社會(huì)效益前景非常廣泛。因此語音識(shí)別技術(shù)既是國際競(jìng)爭(zhēng)的一項(xiàng)重要技術(shù),也是每一個(gè)國家經(jīng)濟(jì)發(fā)展不可缺少的重要技術(shù)支撐。研究語音識(shí)別,開發(fā)相應(yīng)的產(chǎn)品有著廣泛的社會(huì)意義和經(jīng)濟(jì)意義。語音是語言在聲學(xué)上的表現(xiàn)形式,是人類交流信息最常用的手段。作為人類最重要最自然的交流工具,語音己經(jīng)成為了人們思想疏通和情感交流的必要手段。隨著信息時(shí)代的來臨,計(jì)算機(jī)在人類生活中占據(jù)了越來越重要的地位,在很多特定場(chǎng)合中,由于使用鍵盤、鼠標(biāo)、按鈕等傳統(tǒng)的通信設(shè)備會(huì)帶來很多的不便,人們開始?jí)粝胫層?jì)算機(jī)具有像人類一樣的聽覺理解功能,能夠通過接收用戶語音命令來執(zhí)行相關(guān)操作,實(shí)現(xiàn)這個(gè)夢(mèng)想最關(guān)鍵的技術(shù)就是語音識(shí)別。語音識(shí)別,顧名思義,就是一種讓機(jī)器通過分析和理解把語音信號(hào)轉(zhuǎn)變成為命令或者文本的技術(shù)。它的目的是讓計(jì)算機(jī)直接接收用戶的語音,并進(jìn)行一系列的分析、計(jì)算、理解之后,再將結(jié)果回饋給用戶。它涉及到多個(gè)學(xué)科,是一個(gè)綜合性的研究領(lǐng)域。由于語音識(shí)別本身所存在的巨大商業(yè)價(jià)值,世界各大公司紛紛在這方面投以巨資,讓這項(xiàng)技術(shù)取得了長足的發(fā)展,并已經(jīng)進(jìn)入社會(huì)的各個(gè)領(lǐng)域之中。在以后的生活中,語音識(shí)別會(huì)扮演越來越重要的角色,為人類社會(huì)的發(fā)展帶來更大的便利。目前,語音識(shí)別技術(shù)主要有兩個(gè)發(fā)展方向,即大詞匯量的語音識(shí)別系統(tǒng)和小型化、便攜式的語音識(shí)別系統(tǒng)。其中,大詞匯量的語音識(shí)別系統(tǒng)算法復(fù)雜,實(shí)現(xiàn)難度大,主要用于聽寫機(jī)等設(shè)備小型的語音識(shí)別系統(tǒng),尤其是基于特定人孤立詞的語音識(shí)別系統(tǒng),在很多行業(yè)中已經(jīng)有了廣泛的應(yīng)用。盡管小型語音識(shí)別系統(tǒng)正日臻完善,但是由于語音信號(hào)的隨機(jī)性較大,而且對(duì)背景噪聲極為敏感的特點(diǎn),導(dǎo)致在通常情況下識(shí)別率很難達(dá)到,而一旦背景噪聲增大,系統(tǒng)的識(shí)別率更會(huì)迅速降低。基于以上原因,我們必須對(duì)語音識(shí)別做進(jìn)一步的研究工作。本文的研究目的就是要找出一套適合于特定人孤立詞語音識(shí)別的系統(tǒng)方案。1.1.1語音識(shí)別的發(fā)展歷史語音識(shí)別中的說話人辨認(rèn)的研究始于20世紀(jì)30年代。早期的工作主要集中在人耳聽辨試驗(yàn)和探討聽音識(shí)別的可能性方面。Bell實(shí)驗(yàn)室的L.G.Kesta目視觀察語譜圖進(jìn)行識(shí)別,提出了“聲紋(Voiceprint)”的概念。Bell實(shí)驗(yàn)室的S.Pruzansky提出了模版匹配和概率統(tǒng)計(jì)方差分析的聲紋識(shí)別方法,形成了聲紋識(shí)別研究的一個(gè)高潮。60年代末和70年代初語音識(shí)別最重要的發(fā)展是語音信號(hào)線性預(yù)測(cè)編碼(LPC)技術(shù)和動(dòng)態(tài)時(shí)間規(guī)整(DTW)技術(shù),有效地解決了語音的特征提取和時(shí)間不等長匹配問題,對(duì)特定人的語音識(shí)別十分有效。研究特點(diǎn)是以孤立字語音識(shí)別為主,通常把孤立字作為一個(gè)整體來建立模板。80年代,語音識(shí)別研究的重點(diǎn)之一是連接詞語音識(shí)別,開發(fā)了各種連接詞語音識(shí)別和關(guān)鍵詞識(shí)別算法,如多級(jí)動(dòng)態(tài)規(guī)劃語音識(shí)別算法。另一個(gè)重要發(fā)展是語音識(shí)別算法從模板匹配技術(shù)轉(zhuǎn)向基于統(tǒng)計(jì)模型技術(shù)。1.1.2語音識(shí)別現(xiàn)狀20世紀(jì)90年代后,在細(xì)化模型的設(shè)計(jì)、參數(shù)提取和優(yōu)化,以及系統(tǒng)的自適應(yīng)技術(shù)上取得了一些關(guān)鍵進(jìn)展。語音識(shí)別技術(shù)進(jìn)一步成熟,并開始向市場(chǎng)提供產(chǎn)品。由于中國的國際地位不斷提高,以及在經(jīng)濟(jì)和市場(chǎng)方面所處的重要地位,漢語語音識(shí)別也越來越受到重視。IBM、Microsoft、L&H等公司相繼投入到漢語語音識(shí)別系統(tǒng)的開發(fā)中,其投資也逐年增加。IBM開發(fā)的Viavoice和Microsoft開發(fā)的中文識(shí)別引擎代表了當(dāng)前漢語語音識(shí)別的最高水平。臺(tái)灣的一些大學(xué)和研究所也開發(fā)出大詞匯量非特定人連續(xù)語音識(shí)別演示系統(tǒng)。日本也先后在語音識(shí)別領(lǐng)域大展頭角,還有如Philips公司開發(fā)的Speech—Media和SpeechPearl兩套軟件,涵蓋了自然語音識(shí)別與理解的對(duì)話系統(tǒng)。我國語音識(shí)別研究工作近年來發(fā)展很快,同時(shí)也從實(shí)驗(yàn)室逐步走向?qū)嵱谩?987年開始執(zhí)行863計(jì)劃后,國家863《智能計(jì)算機(jī)主題》專家組為語音識(shí)別研究立項(xiàng)。每兩年滾動(dòng)一次,從1991年開始,專家組每一至二年舉行一次全國性的語音識(shí)別系統(tǒng)測(cè)試。漢語語音識(shí)別研究已經(jīng)走上組織化的道路。目前我國大詞匯量連續(xù)語音識(shí)別系統(tǒng)的研究已經(jīng)接近國外最高水平[1]。1.2語音識(shí)別基本構(gòu)成 語音識(shí)別技術(shù)既是國際競(jìng)爭(zhēng)的一項(xiàng)重要技術(shù),也是每一個(gè)國家經(jīng)濟(jì)發(fā)展不可缺少的重要技術(shù)支撐。研究語音識(shí)別,開發(fā)相應(yīng)的產(chǎn)品有著廣泛的社會(huì)意義和經(jīng)濟(jì)意義。在訓(xùn)練階段,將特征參數(shù)進(jìn)行一定的處理之后,為每個(gè)詞條得到一個(gè)模型,保存為模版庫。在識(shí)別階段,語音喜好經(jīng)過相同的通道得到語音參數(shù),生成測(cè)試模版,與參考模版進(jìn)行匹配,將匹配分?jǐn)?shù)最高的參考模版作為識(shí)別結(jié)果。同時(shí)還可以在很多先驗(yàn)知識(shí)的幫助下,提高識(shí)別的準(zhǔn)確率。 1.3語音識(shí)別的前景發(fā)展語音技術(shù)是目前世界上最熱門和最具有發(fā)展前景的技術(shù)之一。從某種意義上說,語音識(shí)別是將計(jì)算機(jī)變成真正的“智能化”設(shè)備的最佳途徑。語音作為當(dāng)前通訊系統(tǒng)中最自然的通信媒介,隨著計(jì)算機(jī)和語音處理技術(shù)的發(fā)展,不同語種之間的語音翻譯將成為語音研究的熱點(diǎn)。自然語音數(shù)據(jù)庫的設(shè)計(jì):語音特征的提??;利用語音料庫進(jìn)行聲學(xué)模型訓(xùn)練的研究;適應(yīng)說話人聲學(xué)模型的研究;語音識(shí)別算法的研究:語言翻譯和對(duì)話處理的研究等成為語音技術(shù)的熱點(diǎn)方向。語音識(shí)別研究的另一個(gè)發(fā)展方向是人體語言與口語相結(jié)合的多媒體人機(jī)交互。目前這種采用聲覺、視覺兩種信息融合進(jìn)行識(shí)別的研究在全球范圍內(nèi)己經(jīng)展開,成為語音識(shí)別研究的重要發(fā)展方向和研究熱點(diǎn)之一。未來幾年里,真正實(shí)用的語音識(shí)別和音字轉(zhuǎn)換技術(shù)將首次走出實(shí)驗(yàn)室,走進(jìn)千家萬戶的電器設(shè)備中。另外,語音識(shí)別是一門交叉學(xué)科,語音識(shí)別技術(shù)關(guān)系到多學(xué)科的研究領(lǐng)域,在不同領(lǐng)域上的進(jìn)步都會(huì)促進(jìn)語音識(shí)別的發(fā)展。(1)物理學(xué)(聲學(xué)):聲音產(chǎn)生與傳播原理、聲電轉(zhuǎn)換以及聲音在房間回響等相關(guān)知識(shí)。(2)生理學(xué):有關(guān)人的聲道與耳朵的生理結(jié)構(gòu)、耳朵的聽覺特征,在腦內(nèi)高層的語言處理等。(3)統(tǒng)計(jì)學(xué)和模式識(shí)別理論;基于各種統(tǒng)計(jì)方法對(duì)模式進(jìn)行匹配,以及建立有關(guān)的統(tǒng)計(jì)模型,對(duì)語音特征參數(shù)進(jìn)行估值和分類。(4)信息理論和計(jì)算機(jī)科學(xué):各種算法的研究、快速搜索查找匹配的方法。(5)語言學(xué):有關(guān)人的語言產(chǎn)生、感覺方面的知識(shí)。(7)數(shù)字信號(hào)處理技術(shù):信號(hào)的時(shí)域分析、噪聲消除、數(shù)字濾波、線性預(yù)測(cè)等方面的知識(shí)。(8)微電子技術(shù):超大規(guī)模集成電路(VLSI)技術(shù)的發(fā)展對(duì)語音識(shí)別的具體應(yīng)用有很大的影響,VLSI使語音識(shí)別系統(tǒng)商品化成為可能。2語音信號(hào)分析語音學(xué)基礎(chǔ)在連續(xù)數(shù)字語音識(shí)別過程中,為了提高連續(xù)數(shù)字匹配搜索算法的有效性以及數(shù)字的識(shí)別率,必須要將對(duì)數(shù)字語音的研究細(xì)化到語音學(xué)的層次上,包括對(duì)各數(shù)字的音素和音節(jié)的特性和各數(shù)字的聲調(diào)進(jìn)行深入研究。2.1.1音素和音節(jié)音素是語音信號(hào)的最基本組成單位,可分為濁音和清音兩大類。濁音通過喉部發(fā)聲,發(fā)聲時(shí)聲帶振動(dòng),聲帶振動(dòng)的基本頻率稱為“基音頻率”,其倒數(shù)稱為“基音周期”。清音通過將口腔內(nèi)有的空氣釋放出來而發(fā)聲,發(fā)聲時(shí)喉部封閉,由于該氣流通過一個(gè)狹窄通道時(shí)在口腔中形成流,因此具有明顯的隨機(jī)噪聲的特點(diǎn)。音節(jié)是由音素結(jié)合而成的發(fā)聲最小單位,一個(gè)音節(jié)由“元音”和“輔音”構(gòu)成。當(dāng)聲帶振動(dòng)發(fā)出的聲音氣流從喉腔、咽腔進(jìn)入口腔從唇腔出去時(shí),這些聲腔完全開放,氣流順利通過,這種音稱為元音。元音構(gòu)成一個(gè)音節(jié)的主干,無論從長度還是能量上看,元音在音節(jié)中都占主要部分。所有元音都是濁音。發(fā)音時(shí)呼出的氣流,由于通路的某一部分封閉起來或受到阻礙,氣流被阻不能暢通,而克服發(fā)音器官的這種阻礙而產(chǎn)生的音素稱為輔音。輔音也有清濁之分。輔音出現(xiàn)在音節(jié)的前端或者后端或前后兩端。2.1.2漢語的聲調(diào)漢語是一種聲調(diào)語言,相同聲母和韻母構(gòu)成的音節(jié)隨聲調(diào)的不同而具有完全不同的意義,對(duì)應(yīng)著不同的漢字。所以,在漢語的相互交談中,不但要憑借不同的元音和輔音來辨別這些字或詞的意義,還需要從不同的聲調(diào)來區(qū)別它,也就是說聲調(diào)有辨義作用。漢語普通話的聲調(diào)有陰平、陽平、上聲、去聲等四種聲調(diào)(另外,有時(shí)還包括“輕聲”),這些基本的調(diào)型在語句中雖然受語法、語氣的影響而有所變動(dòng),但基本上不改變?cè)械哪J揭徽{(diào)型。聲調(diào)的變化就是濁音基音周期(或基音頻率)的變化,各個(gè)韻母段中基音周期隨時(shí)問的變化產(chǎn)生了聲調(diào),變化的軌跡稱為聲調(diào)曲線。聲調(diào)曲線從一個(gè)韻母的起始端開始,到韻母的終止端結(jié)束。不同聲調(diào)的聲調(diào)曲線的開始段稱為彎頭段,呈共同上升走向;末尾一段呈共同下降走向,稱為降尾段;而中間一段具有不同的特點(diǎn),這一段稱為調(diào)型段。一般來說,彎頭段和降尾段對(duì)聲調(diào)的聽辨不起作用,起作用的是調(diào)型段。而一段語音,它的起始和結(jié)尾處的波形幅度較小,要準(zhǔn)確地測(cè)出這些地方的基音周期并不容易,因此可將這兩處的波形忽略,只測(cè)調(diào)型段這一部分波形的基音周期。圖2.1給出了單獨(dú)說一個(gè)音節(jié)時(shí)的四種聲調(diào)的典型曲線(F0/Hz)。圖2.1聲調(diào)的四種模式2.1.3 語音信號(hào)產(chǎn)生模型語音信號(hào)是聲道被激勵(lì)發(fā)生共振而產(chǎn)生的輸出。用一個(gè)時(shí)變線性系統(tǒng)來模擬,理想的模型是線性的,且時(shí)不變的;但是語音信號(hào)是一連串的時(shí)變過程,且聲門和聲道相互耦合形成了語音信號(hào)的非線性特性。做一個(gè)合理的假設(shè),當(dāng)在較短的時(shí)間間隔內(nèi)表示語音信號(hào)時(shí),則可以采用線性時(shí)不變模型。它包括激勵(lì)模型、聲道模型、和輻射模型[3]。圖2.2給出了經(jīng)典的語音信號(hào)的產(chǎn)生模型,語音信號(hào)被看成是線性時(shí)不變系統(tǒng)在隨機(jī)噪聲或準(zhǔn)周期脈沖序列激勵(lì)下的輸出。圖2.2語音信號(hào)產(chǎn)生模型 語音信號(hào)數(shù)字化和預(yù)處理2.2.1 數(shù)字化為了將原始的模擬語音信號(hào)變?yōu)閿?shù)字信號(hào),必須經(jīng)過采樣和量化兩個(gè)步驟,從而得到時(shí)間和幅度上均為離散的數(shù)字語音信號(hào)。根據(jù)采樣定理,當(dāng)采樣頻率大于信號(hào)的2倍帶寬時(shí),在采樣過程中不會(huì)丟失信息,且從采樣信號(hào)中可以精確地重構(gòu)原始信號(hào)波形。在實(shí)際語音信號(hào)處理中,采樣頻率通常為7~10kHz。在信號(hào)的帶寬不明確時(shí),采樣前應(yīng)接入抗混疊濾波器(低通濾波器),使其帶寬限制在某個(gè)范圍內(nèi);否則,如果采樣頻率不滿足采樣定理,則會(huì)產(chǎn)生混疊。此時(shí),信號(hào)中的高頻成分將產(chǎn)生失真。采樣之后要對(duì)信號(hào)進(jìn)行量化,在量化過程中不可避免的會(huì)產(chǎn)生誤差。量化后的信號(hào)值與原始信號(hào)之間的差值為量化誤差,又稱為量化噪聲。信號(hào)與量化噪聲的功率之比為量化信噪比。若用表示輸入語音信號(hào)序列的方差,表示信號(hào)的峰值,B表示量化分辨率(量化位長),表示噪聲序列的方差,則量化信噪比為:(2.1)假設(shè)語音信號(hào)的幅度服從Laplacian分布,此時(shí)信號(hào)幅度超過的概率很小,只有0.35%,因而可以取。此時(shí)上式變?yōu)?。上式表明,量化器中每位字長對(duì)SNR貢獻(xiàn)為6dB;當(dāng)位時(shí),。此時(shí)量化后的語音質(zhì)量能滿足一般通信系統(tǒng)的要求。研究表明:要使語音波形的動(dòng)態(tài)變化信噪比達(dá)到55dB的信噪比,B應(yīng)取10位以上。為了在語音信號(hào)變化范圍內(nèi)保持35dB的信噪比,常用12位來量化,其中附加的5位用于補(bǔ)償30dB左右的輸入動(dòng)態(tài)范圍變化。2.2.2預(yù)加重處理由于語音信號(hào)的平均功率譜受聲門激勵(lì)和鼻輻射的影響,在800Hz以上的高頻時(shí)約按6dB/oct衰減,為此要在預(yù)處理中進(jìn)行預(yù)加重。預(yù)加重的目的是提升高頻部分,使信號(hào)的頻譜變得平坦,以便于進(jìn)行聲道參數(shù)分析或頻譜分析。預(yù)加重在防混疊濾波與A/D轉(zhuǎn)換之前進(jìn)行[4]。它一般是一階的,即:,式中u值接近于1,本文中去為0.94。加重的信號(hào)在分析處理后,需要進(jìn)行去加重處理,即加上6dB/oct的下降的頻率特性來還原成原來的特性。圖2.3所示為對(duì)語音信號(hào)“0”的預(yù)加重處理結(jié)果。從下圖可以明顯的看出,加重后語音信號(hào)中高頻分量增強(qiáng)。圖2.3語音信號(hào)“0”的預(yù)加重處理效果語音信號(hào)的時(shí)域分析對(duì)信號(hào)分析最自然最直接的方法是以時(shí)間為自變量進(jìn)行分析,語音信號(hào)典型時(shí)域特征包括短時(shí)能量、短時(shí)平均過零率、短時(shí)自相關(guān)系數(shù)和短時(shí)平均幅度差。 能量分析對(duì)于信號(hào)x(n),短時(shí)能量定義為:(2-3)式中,h(n)=w2(n),N為窗長,En表示在信號(hào)的第n個(gè)點(diǎn)開始加窗函數(shù)時(shí)的短時(shí)能量。可以看出,短時(shí)能量可以看作語音信號(hào)的平方經(jīng)過一個(gè)線性濾波器的輸出,該線性濾波器的單位沖激響應(yīng)為h(n),如圖2.4所示。圖2.4短時(shí)能量的方框圖表示如果用xw表示x(n)經(jīng)過加窗處理后的信號(hào),窗函數(shù)的長度為N,則短時(shí)能量可表示為:(2-4)如圖2.5所示為語音“0”時(shí)域波形圖和語音“0”短時(shí)能量圖。圖2.5語音信號(hào)“0”的短時(shí)能力函數(shù)利用短時(shí)能量可以區(qū)分清音和濁音,因?yàn)闈嵋舻哪芰勘惹逡舻哪芰看蟮枚?;其次可以用短時(shí)能量對(duì)有聲段和無聲段進(jìn)行判定,對(duì)聲母和韻母分界,以及對(duì)連字分界等。在語音識(shí)別系統(tǒng)中,一股也作為特征中的一維參數(shù)來表示語音信號(hào)能量的大小和超音段信息。短時(shí)能量由于是對(duì)信號(hào)進(jìn)行平方運(yùn)算,因而認(rèn)為增加了高低信號(hào)之間的差距,因此要采用短時(shí)平均幅度來表示能量的變化,其公式為:(2-5)如圖2.6所示為“0”的短時(shí)平均幅度圖。從圖中可觀察到,短時(shí)平均幅度對(duì)能量小的信號(hào)累計(jì)效果要比短時(shí)能量好。圖2.6語音信號(hào)“0”的短時(shí)平均幅度2.3.2 語音端點(diǎn)檢測(cè)2.4語音信號(hào)的頻域分析語音的感知過程與人類聽覺系統(tǒng)具有頻譜分析功能是緊密相關(guān)的。因此,對(duì)語音信號(hào)進(jìn)行頻譜分析,是認(rèn)識(shí)語音信號(hào)和處理語音信號(hào)的的重要方法。2.4.1濾波器組法利用一組濾波器來分析語音信號(hào)的頻譜,方法使用簡單、實(shí)時(shí)性好、受外界環(huán)境的影響小。濾波器組法所用的濾波器可以是模擬濾波器,也可以是數(shù)字濾波器。濾波器可以用寬帶帶通濾波器,也可以用窄帶帶通濾波器。寬帶帶通濾波器具有平坦性,用它可以粗略地求取語音的頻譜,其頻率分辨率降低,相當(dāng)于短時(shí)處理時(shí)窗寬較窄的那種情況。使用窄帶帶通濾波器,其頻率分辨率提高,相當(dāng)于短時(shí)處理時(shí)窗寬較寬的那種情況。語音信號(hào)x(t)輸入帶通濾波器f1,f2,……fn,濾波器輸出為具有一定頻帶的中心頻率為f1,f2,……fn的信號(hào)。可以將濾波器組的輸出經(jīng)過自適應(yīng)增量調(diào)制器變?yōu)槎M(jìn)制脈沖信號(hào),再經(jīng)過多路開關(guān),變?yōu)橐淮M(jìn)制脈沖信號(hào)。這種信號(hào)可以輸入計(jì)算機(jī)進(jìn)行各種分析和處理。2.4.2傅立葉頻譜分析傅立葉頻譜分析是語音信號(hào)頻域分析中廣泛采用的一種方法,用傅立葉變換及其反變換可以求得傅立葉譜、自相關(guān)函數(shù)、功率譜、倒譜。由于語音信號(hào)的特性是隨著時(shí)間緩慢變化的,由此引出語音信號(hào)的短時(shí)分析[5]。信號(hào)x(盯)的短時(shí)傅立葉變換為:(2-11)式中,w(n)為窗口函數(shù)。圖2.9是從帶通濾波器作用理解短時(shí)傅立葉變換。圖2.9從帶通濾波器作用理解短時(shí)傅里葉變換可以看作是加窗后函數(shù)的傅立葉變換,為了實(shí)現(xiàn)反變換,將進(jìn)行頻率采樣,即令則有(2-12)式中,L為頻率采樣點(diǎn)數(shù)。短時(shí)功率譜實(shí)際上是短時(shí)傅立葉變換幅度的平方,它是信號(hào)x(n)的短時(shí)自相關(guān)函數(shù)的傅立葉變換,即(2-13)式中Rn(k)是自相關(guān)函數(shù)。圖2.10是幾種譜之間的關(guān)系。圖2.10幾種基于短時(shí)傅里葉變換譜之間的關(guān)系為了分析聲音信號(hào)的時(shí)域和頻域特點(diǎn),需要先對(duì)語音信號(hào)進(jìn)行錄制,將語音信號(hào)錄制好后,就可以對(duì)信號(hào)進(jìn)行時(shí)域和頻域圖像的繪制了,繪制圖像時(shí)為了進(jìn)行時(shí)域和頻域的對(duì)比,要對(duì)錄制好的聲音信號(hào)進(jìn)行截?cái)?,使聲音信?hào)長度一致(對(duì)信號(hào)進(jìn)行截?cái)啵梢杂枚它c(diǎn)檢測(cè)的方法也可以用手動(dòng)對(duì)信號(hào)數(shù)據(jù)進(jìn)行截?cái)啵?,截?cái)嗪竽芨玫剡M(jìn)行比較。流程圖:開始開始錄制語音信號(hào)錄制語音信號(hào)保存語音信號(hào)保存語音信號(hào)對(duì)語音信號(hào)進(jìn)行截?cái)鄬?duì)語音信號(hào)進(jìn)行截?cái)嗬L制時(shí)域、頻域圖像繪制時(shí)域、頻域圖像保存圖像保存圖像結(jié)束結(jié)束圖1語音錄制流程圖用MATLAB進(jìn)行語音錄制時(shí),可用“audiorecorder(fs,stbit,sd)”函數(shù)進(jìn)行錄制的設(shè)置,用“record()”函數(shù)開始錄制,人的發(fā)聲頻率在100Hz(男低音)到10000Hz(女高音)范圍內(nèi),聲音錄制的頻率可設(shè)為20000Hz(代碼見附表一)。錄制條件:數(shù)字語音發(fā)音標(biāo)準(zhǔn)的男生聲音錄制環(huán)境:噪聲干擾較小的環(huán)境要對(duì)數(shù)字1、2、3、4每個(gè)語音錄制5次,分別畫出這四個(gè)語音的時(shí)域和頻域圖像(繪圖代碼見附表二)。男性語音信號(hào)(未進(jìn)行截?cái)啵┑臅r(shí)域、頻域圖像:圖2數(shù)字1的時(shí)域、頻域圖像圖3數(shù)字2的時(shí)域、頻域圖像圖4數(shù)字3的時(shí)域、頻域圖像圖5數(shù)字4的時(shí)域、頻域圖像4系統(tǒng)設(shè)計(jì)4.1任務(wù)要求設(shè)計(jì)并制作一款能識(shí)別用戶十條簡單語音命令的實(shí)驗(yàn)系統(tǒng)。系統(tǒng)能夠識(shí)別用戶十條簡單的語音命令,每條語音的命令都大于五,每條命令均能通過相應(yīng)的指示燈顯示出來,并且誤識(shí)別率要盡量低。語音識(shí)別的研究主要趨向于非特定人的連續(xù)大詞匯量的語音識(shí)別。誤識(shí)別率低;每條命令均通過相應(yīng)的指示燈顯示出來;命令詞匯數(shù)不大。(1)十六位單片機(jī)的原理及編程方法(2)語音識(shí)別的基礎(chǔ)知識(shí)和語音處理方面的基礎(chǔ)知識(shí)(3)熟練掌握電子電路方面的知識(shí)(4)掌握單片機(jī)的基本原理并應(yīng)用于該畢業(yè)設(shè)計(jì)課題中(5)完成系統(tǒng)原理圖的設(shè)計(jì)、程序的設(shè)計(jì)、調(diào)試及修改4.2總體設(shè)計(jì)電路以凌陽SPCE061A單片機(jī)作為主控,該芯片自帶語音識(shí)別庫可進(jìn)行語音訓(xùn)練及識(shí)別。電路具2個(gè)功能按鍵作為輸入,1個(gè)數(shù)碼管作為顯示,4個(gè)LED燈作為顯示模塊。電路可通過語音訓(xùn)練方式使設(shè)備能夠識(shí)別某段音頻,電路實(shí)時(shí)監(jiān)聽環(huán)境語音信息,識(shí)別出指令語音并根據(jù)指令自動(dòng)控制LED實(shí)現(xiàn)對(duì)應(yīng)顯示。單片機(jī)部分由16位單片機(jī)SPCE061A單片機(jī)構(gòu)成,負(fù)責(zé)整體系統(tǒng)控制、語音識(shí)別及各模塊通信。5語音識(shí)別原理與分類5.1語音識(shí)別原理語音識(shí)別技術(shù)指計(jì)算機(jī)能根據(jù)人類說話的語句或命令做出相應(yīng)的反應(yīng)。當(dāng)聲音通過一個(gè)轉(zhuǎn)換裝置輸入計(jì)算機(jī)內(nèi)部并以數(shù)字方式存儲(chǔ)后,語音識(shí)別程序便開始以所輸入的聲音樣本與事先儲(chǔ)存好的聲音樣本進(jìn)行對(duì)比。對(duì)比完成后計(jì)算機(jī)會(huì)算出最匹配、最接近的聲音樣本序號(hào),這樣就可以知道所輸入的聲音是什么意思,進(jìn)而執(zhí)行命令了。語音識(shí)別過程主要分為兩個(gè)階段。第一階段為“訓(xùn)練”,單片機(jī)對(duì)采集到的語音樣本進(jìn)行分析處理,從中提取出語音特征信息,建立一個(gè)特征模型,存放在由FLASH存儲(chǔ)器構(gòu)成的模板庫中。第二階段為“識(shí)別”,單片機(jī)對(duì)采集到的語音樣本也進(jìn)行類似的分析處理,從中提取出語音特征信息,把待測(cè)的語音信號(hào)和模板庫中的各個(gè)參考模板進(jìn)行比較,看其與哪個(gè)模板匹配度最大,從而判決其屬于何種信號(hào),進(jìn)行相應(yīng)的操作。若發(fā)現(xiàn)與各個(gè)樣本模板偏離均較大,可要求重新輸入。語音識(shí)別過程的具體流程如圖5-1所示。圖5-1語音識(shí)別流程圖語音識(shí)別本質(zhì)上是一種模式識(shí)別的過程,其基本結(jié)構(gòu)的原理框圖如圖5-2所示。主要包括語音信號(hào)預(yù)處理、特征提取、特征建模(建立參考模式庫)和后處理等幾個(gè)功能模塊,其中后處理模塊為可選部分。一個(gè)語音識(shí)別系統(tǒng)主要包括訓(xùn)練和識(shí)別2個(gè)階段。無論是訓(xùn)練還是識(shí)別,都需要首先對(duì)輸入的原始語音進(jìn)行預(yù)處理,并進(jìn)行特征提取。圖5-2語音識(shí)別基本原理框圖實(shí)現(xiàn)對(duì)數(shù)字語音的分析和識(shí)別,需要了解人聲的特點(diǎn),人的發(fā)聲頻率在100Hz(男低音)到10000Hz(女高音)范圍內(nèi)。對(duì)聲音信號(hào)進(jìn)行分析需要繪制時(shí)域和頻域的圖像。聲音信號(hào)的時(shí)域圖像是反映聲音的響度隨時(shí)間的變化規(guī)律,聲音信號(hào)的頻譜反映了信號(hào)中各個(gè)頻譜分量的相對(duì)大小。深入的對(duì)信號(hào)的信息作定量解釋,是通過信號(hào)在時(shí)間域中的波形變換為頻率域的頻譜來進(jìn)行的。傅立葉變換可以將所有的信號(hào)都分解成個(gè)體的直流分量與多個(gè)正弦信號(hào)的和,換種說法,也就是一個(gè)常數(shù)與無窮個(gè)正弦信號(hào)間的總和。所有的正弦分量,都有其自身的頻率與幅值,將橫軸用頻率值來表示,縱軸由幅值來表示,再在相應(yīng)的頻率上,畫出上述的若干個(gè)正弦信號(hào)幅值,這樣信號(hào)的幅頻分布圖就完成了,同時(shí)也就是常說的頻譜圖。將時(shí)域信號(hào)轉(zhuǎn)變?yōu)轭l域來進(jìn)行分析,就叫做信號(hào)頻譜分析。將研究較為繁雜的時(shí)間歷程波形,以傅里葉變換分解成多個(gè)單一的諧波分量的方式,將信號(hào)的頻率構(gòu)造與不同諧波各相位信息得以獲取,此種方式就是頻譜分析的目的。
頻譜分析可以通過信號(hào)來取得大量有價(jià)值的信息,比如,動(dòng)態(tài)信號(hào)里的不同頻率成分與頻率分布區(qū)間可以通過頻譜分析獲得,不同頻率成分的幅值與能量分布也可以通過頻譜分析來獲得,最終,相應(yīng)的主要幅度與能量分布的頻率值也就可以得出了。通過MATLAB將頻域能量的分布情況計(jì)算出來,用一段頻率范圍內(nèi)的能量和總的能量進(jìn)行比較,計(jì)算能量在不同頻率范圍內(nèi)的的百分比,分析出不同數(shù)字語音信號(hào)能量比的特點(diǎn),可以用于數(shù)字語音信號(hào)的識(shí)別。5.2語音識(shí)別分類語音識(shí)別系統(tǒng)按照不同的角度、不同的應(yīng)用范圍、不同的性能要求會(huì)有不同的系統(tǒng)設(shè)計(jì)和實(shí)現(xiàn),也會(huì)有不同的分類。一般語音識(shí)別系統(tǒng)按不同的角度有下面幾種分類方法。1.孤立詞、連續(xù)詞、連續(xù)語音識(shí)別系統(tǒng)以及語音理解和會(huì)話系統(tǒng)從所要識(shí)別的對(duì)象來分,有孤立字(詞)識(shí)別、連續(xù)字(詞)識(shí)別、連續(xù)語音識(shí)別與理解、會(huì)話語音識(shí)別等。孤立詞識(shí)別系統(tǒng)要求說話人每次只說一個(gè)字(詞)、一個(gè)詞組或一條命令,讓識(shí)別系統(tǒng)識(shí)別。連續(xù)詞識(shí)別一般特指十個(gè)數(shù)字(0~9)連接而成的多位數(shù)字識(shí)別,或由少數(shù)指令構(gòu)成的連接詞條的識(shí)別。連接詞識(shí)別系統(tǒng)在電話、數(shù)據(jù)庫查詢以及控制操作系統(tǒng)中用途很廣。隨著近年來的研究和發(fā)展,連續(xù)語音識(shí)別技術(shù)已漸趨成熟,這個(gè)最自然的說話方式,將成為語音識(shí)別研究及實(shí)用系統(tǒng)的主流。連續(xù)語音識(shí)別是對(duì)說話人自然語音進(jìn)行識(shí)別,其識(shí)別系統(tǒng)比較復(fù)雜,成本也比較高,所以它并不是所有的應(yīng)用都采用的方式。2.大詞匯、中詞匯和小詞匯量語音識(shí)別系統(tǒng)一般來說,小詞匯量的系統(tǒng)是指能識(shí)別1~100個(gè)詞匯的語音識(shí)別系統(tǒng),中等詞匯量是指100~1000個(gè)詞匯,大詞匯量系統(tǒng)是指1000個(gè)以上的詞匯。此外還有某些特定用途的中詞匯量連接詞識(shí)別和無限詞匯連續(xù)語音的識(shí)別等。3.特定人和非特定人語音識(shí)別系統(tǒng)特定人是指只針對(duì)一個(gè)用戶的語音識(shí)別,非特定人則可用于不同的用戶。實(shí)際上,非特定人語音識(shí)別的初始識(shí)別率往往都比較低,一般都要求用戶花一定的時(shí)間對(duì)系統(tǒng)進(jìn)行訓(xùn)練,將系統(tǒng)的參數(shù)進(jìn)行一定的自適應(yīng)調(diào)整,才能使識(shí)別率達(dá)到滿意的程度。4.實(shí)時(shí)語音識(shí)別和非實(shí)時(shí)語音識(shí)別實(shí)時(shí)語音識(shí)別是指用戶輸入的語音命令,系統(tǒng)在時(shí)延的范圍內(nèi)馬上給出結(jié)果。非實(shí)時(shí)語音識(shí)別是指用戶給出的語音命令,系統(tǒng)不會(huì)立即給出識(shí)別結(jié)果。6基于SPCE061A的語音識(shí)別6.1凌陽語音簡介凌陽SPCE061A是16位的單片機(jī),具有DSP功能,有很強(qiáng)的信息處理能力,最高時(shí)鐘頻率可達(dá)49MHz,具備運(yùn)算速度高的優(yōu)勢(shì)等。這些都無疑為語音的播放,錄制,合成以及辯識(shí)提供了相應(yīng)的條件。凌陽語音識(shí)別主要有以下兩種:(1)特定發(fā)音人識(shí)別SD,SD是指語音樣板由單個(gè)人訓(xùn)練,也只能識(shí)別訓(xùn)練人的語音命令,而他人的識(shí)別率較低或幾乎不能識(shí)別。(2)非特定發(fā)音人識(shí)別SI,SI是指語音樣板由不同年齡、不同性別、不同口音的人進(jìn)行訓(xùn)練,可以識(shí)別一群人的命令?;趯?shí)際情況的考慮,本次設(shè)計(jì)采用的特定發(fā)音人識(shí)別,原理如下圖6-1:圖6-1特定人語音識(shí)別原理圖6.2語音提示生成本設(shè)計(jì)中所涉及到的語音提示音都是通過同樣的方法得到的。首先,將麥克風(fēng)插入PC機(jī)的麥克風(fēng)口,打開windows附件中的錄音機(jī)軟件,選擇錄音文件的屬性為8kHz16bit,也就是使PC機(jī)的聲卡按照8kHz的采樣頻率進(jìn)行16位的聲音數(shù)據(jù)采集,然后將保存好的.wav文件按照前面介紹的S480混合壓縮格式通過凌陽的CompressTool進(jìn)行編碼壓縮,這樣得到的文件才可以加載到相應(yīng)的工程中作為語音資源,通過調(diào)用S480的庫函數(shù)來解碼,按照8kHz的頻率進(jìn)行播放。語音提示生成過程大致如下圖6-2所示:圖6-2語音提示生成過程圖6.3語音錄制播放6.3.1語音錄制過程語音首先通過MIC等輸入設(shè)備轉(zhuǎn)換成電信號(hào),由隔直電容隔掉直流成分,然后輸入至SPCE061A內(nèi)部前置放大器。SPCE061A內(nèi)部自動(dòng)增益控制電路AGC能隨時(shí)追蹤、監(jiān)視前置放大器輸出的音頻信號(hào)電平,當(dāng)輸入信號(hào)增大時(shí),AGC電路自動(dòng)減小放大器的增益;當(dāng)輸入信號(hào)減小時(shí),AGC電路自動(dòng)增大放大器的增益,確保進(jìn)入A/D轉(zhuǎn)換的信號(hào)保持在最佳電平,又可使削波減至最小。接著以一定的采樣速率將模擬電信號(hào)轉(zhuǎn)換成數(shù)字量,也就是A/D采樣的過程。A/D采樣的頻率越高,聲音的品質(zhì)也越好,但是占用的存儲(chǔ)空間也越大。對(duì)于語音,使用8KHz的采樣率就可以獲得比較好效果。采集到的數(shù)據(jù)經(jīng)過壓縮編碼來達(dá)到減小數(shù)據(jù)量的目的,本設(shè)計(jì)主要是應(yīng)用凌陽A2000壓縮算法進(jìn)行編碼。最后把編碼后的數(shù)據(jù)保存到存儲(chǔ)介質(zhì)中。6.3.2語音播放過程語音播放大體上可分為以下幾個(gè)步驟:首先,順次地從壓縮格式的語音資源中取出一組數(shù)據(jù),放到“解壓縮隊(duì)列”里。然后,執(zhí)行解碼程序,把壓縮數(shù)據(jù)還原成數(shù)字量的語音信號(hào),送到“輸出隊(duì)列”,等待輸出。同時(shí),在語音錄制時(shí)使用了8KHz的采樣率,那么在語音播放的時(shí)候也要以8KHz的速率進(jìn)行DAC輸出,在定時(shí)器的控制下進(jìn)行數(shù)模轉(zhuǎn)換,轉(zhuǎn)變成模擬信號(hào)。模擬信號(hào)再經(jīng)過濾波、放大等處理,最后通過揚(yáng)聲器轉(zhuǎn)換成聲音。其播放流程圖如圖3-3所示:圖6-3語音播放過程6.4語音訓(xùn)練識(shí)別聲紋識(shí)別是一種根據(jù)說話人語音波形中反映說話人生理和行為特征的語音參數(shù),自動(dòng)識(shí)別說話人身份的技術(shù)。在語音信號(hào)預(yù)處理后,接著是特征參數(shù)的提取。特征提取的任務(wù)就是提取語音信號(hào)中表征人的基本特征。說話人特征大體可歸為下述幾類:(1)基于發(fā)聲器官如聲門、聲道和鼻腔的生理結(jié)構(gòu)而提取的參數(shù)。如譜包絡(luò)、基音、共振峰等。其中基音能夠很好地刻畫說話人的聲帶特性,在很大程度上反映了人的個(gè)性特征。(2)基于聲道特征模型,通過線性預(yù)測(cè)分析得到的參數(shù)。包括線性預(yù)測(cè)系數(shù)(LPC)以及由線性預(yù)測(cè)導(dǎo)出的各種參數(shù),如線性預(yù)測(cè)倒譜系數(shù)(LPCC)、部分相關(guān)系數(shù)、反射系數(shù)、對(duì)數(shù)面積比、LSP線譜對(duì)、線性預(yù)測(cè)殘差等。根據(jù)前人的工作成果和實(shí)際測(cè)試比較,LPCC參數(shù)不但能較好地反映聲道的共振峰特性,具有較好地識(shí)別效果,而且可以用比較簡單的運(yùn)算和較快的速度求得。(3)基于人耳的聽覺機(jī)理,反映聽覺特性,模擬人耳對(duì)聲音頻率感知的特征參數(shù)。如美爾倒譜系數(shù)(MFCC)等。MFCC參數(shù)與基于線性預(yù)測(cè)的倒譜分析相比,突出的優(yōu)點(diǎn)是不依賴全極點(diǎn)語音產(chǎn)生模型的假定,在與文本無關(guān)的說話人識(shí)別系統(tǒng)中MFCC參數(shù)能夠比LPCC參數(shù)更好地提高系統(tǒng)的識(shí)別性能。7基于單片機(jī)的語音識(shí)別模塊硬件的構(gòu)建7.1SPCE061A單片機(jī)簡介單片微機(jī)簡稱單片機(jī),也有的叫做微處理或微控制器,通常統(tǒng)稱微型處理部件。一般來說,單片機(jī)就是在一塊硅片上集成CUP、RAM、ROM、定時(shí)器/計(jì)數(shù)器、和多種I/O的完整數(shù)字處理系統(tǒng)。二十世紀(jì),微電子、IC集成電路行業(yè)發(fā)展迅速,其中單片機(jī)行業(yè)的發(fā)展最引人注目。單片機(jī)功能強(qiáng)、價(jià)格便宜、使用靈活,在計(jì)算機(jī)應(yīng)用領(lǐng)域中發(fā)揮著極其重要的作用。從INTEL隊(duì)公司于1971年生產(chǎn)第一顆單片機(jī)Intel-4004開始,開創(chuàng)了電子應(yīng)用的“智能化”新時(shí)代。單片機(jī)以其高性價(jià)比和靈活性,牢固樹立了其在嵌入式微控制系統(tǒng)中的“霸主”地位,在PC機(jī)以286、386、486、Pentium系列高速更新?lián)Q代的同時(shí),單片機(jī)卻“始終如一”保持旺盛的生命力。例如,MCS-51系列單片機(jī)已有十多年的生命期,如今仍保持著上升的態(tài)勢(shì)就充分證明了這一點(diǎn)。本系統(tǒng)是采用單片機(jī)系統(tǒng)作為硬件實(shí)現(xiàn)系統(tǒng),HMM理論作為識(shí)別技術(shù)核心的嵌入式語音識(shí)別系統(tǒng)。本系統(tǒng)采用的是SPCE061A單片機(jī),SPCE061A是一款16位結(jié)構(gòu)的微控制器,其主要包括輸入/輸出端口、定時(shí)器/計(jì)數(shù)器、數(shù)/模轉(zhuǎn)換、模/數(shù)轉(zhuǎn)換、串行設(shè)備輸入輸出、通用異步串行接口、低電壓監(jiān)測(cè)和復(fù)位等部分,并且內(nèi)置在線仿真電路ICE接口,較高的處理速度使其能夠快速的處理復(fù)雜的數(shù)字信號(hào)。SPCE061A單片機(jī)應(yīng)用領(lǐng)域非常廣泛,例如應(yīng)用在家用電器控制器、工業(yè)控制、通信產(chǎn)品、醫(yī)療設(shè)備以及電子書籍等諸多方面。7.2語音識(shí)別模塊的硬件結(jié)構(gòu)框架應(yīng)用SPCE061A構(gòu)建語音識(shí)別模塊的硬件電路,其內(nèi)部含有的高精度AD,DA單元可以極大的降低系統(tǒng)的硬件開發(fā)成本,提高系統(tǒng)電路的可靠性。硬件系統(tǒng)主要完成語音信號(hào)的拾取、調(diào)理、AD轉(zhuǎn)換得到數(shù)字化的語音信號(hào)送給微處理器處理,還要有進(jìn)行控制的人機(jī)接口電路和數(shù)據(jù)存儲(chǔ)單元等。語音識(shí)別模塊硬件測(cè)試平臺(tái)的電路框圖如圖4-1所示,主要包含四個(gè)部分:語音信號(hào)采集前向通道完成語音信號(hào)的拾取、調(diào)理;人機(jī)接口電路完成人機(jī)對(duì)話進(jìn)行模塊操作;微處理器完成信號(hào)的AD采集、數(shù)據(jù)處理、管理;數(shù)據(jù)存儲(chǔ)電路完成采集語音數(shù)據(jù)、數(shù)據(jù)處理中間變量的存儲(chǔ)、管理、數(shù)據(jù)模板、提示語音的存儲(chǔ)管理。圖7-1語音信號(hào)采集識(shí)別測(cè)試系統(tǒng)的硬件框圖7.3語音采集前向通道電路語音采集前向通道主要包含語音信號(hào)獲取電路、帶通濾波放大電路、AGC電路、電壓偏置電路等四個(gè)部分。7.3.1語音信號(hào)獲取電路信號(hào)的獲取傳感器采用駐極體話筒實(shí)現(xiàn)。駐極體話筒的輸出線便有三根,即源極S,漏極D,外殼屏蔽線如圖4-2(a)所示。駐極體話筒的接法有兩種:源極輸出與漏極輸出。漏極輸出有電壓增益,因而話筒靈敏度比源極輸出時(shí)要高,一般采用漏極輸出。目前許多話筒在生產(chǎn)時(shí)已將源極S與編織線一起接地,所以看到的話筒頭只有兩根線如圖4-2(b)。話筒電路如圖4-2(c),漏極D與電源正極間接漏極電阻RD為其提供偏置電壓,信號(hào)由漏極D經(jīng)0.luf的電容禍合至濾波放大電路輸出。7-2信號(hào)獲取電路7.3.2放大濾波電路為提高系統(tǒng)的實(shí)用性和性價(jià)比,采用了一個(gè)單運(yùn)放構(gòu)成反饋放大型的帶通濾波器,運(yùn)放采用LM358實(shí)現(xiàn),LM358為滿擺幅高性能運(yùn)放,且可單電源供電,提高了系統(tǒng)的實(shí)用性,單電源電路要求給加入的交流信號(hào)提供一個(gè)直流偏置由R3和R4構(gòu)成。7.3.3AGC電路為了更好的采集信號(hào),使AD采樣盡可能滿幅度,且不使信號(hào)失真,加入了AGC放大電路,AGC電路放大電路采用放大倍數(shù)可控運(yùn)放AD603經(jīng)典電路制作實(shí)現(xiàn)。7.3.4電壓偏置電路單片機(jī)的AD為單端輸入,只能采集0-2.4V的信號(hào),而AGC放大之后語音信號(hào)的幅度被放大或限制在士1.2V之間,所以要進(jìn)行電壓搬移,通過簡單的偏置升壓電路即可,電路如圖7-3所示,該偏置電壓來自單片機(jī)的AD參考電壓源,保證了電壓不超過AD的最大允許范圍。圖7-3電壓偏置電路7.4人機(jī)接口電路人機(jī)接口電路主要完成人機(jī)交互及對(duì)MCU的操作包含按鍵接口電路、串口通信電路、JTAG接口電路,語音提示及測(cè)試的DA接口電路等四個(gè)部分。7.5微處理器核心板電路微處理器核心板電路主要包括由AS1117-3.3構(gòu)成的5V-3.3V電源轉(zhuǎn)換電路,復(fù)位電路、AD/DA參考源選擇電路、數(shù)字地模擬地分離及電源引腳濾波電路以及AD/DA輸入輸出接口等部分電路。7.6數(shù)據(jù)存儲(chǔ)電路數(shù)據(jù)存儲(chǔ)電路包含單片機(jī)內(nèi)部的FLASH和外接的SRAM電路兩個(gè)部分,單片機(jī)內(nèi)部的128K的FLASH規(guī)劃32K用于存儲(chǔ)程序外,剩余的部分用于存儲(chǔ)識(shí)別模板、提示語音,可以用軟件使用MOVX指令對(duì)FLASH存儲(chǔ)器編程,和一般的操作數(shù)一樣為MOVX指令提供待編程的地址和數(shù)據(jù)字節(jié),不需要外部電路。SRAM芯片采用ISSI公司的高速RAM,IS63L1204-12J,為64KB,高速靜態(tài)RAM存儲(chǔ)時(shí)間為12ns,通過8位數(shù)據(jù)口,三位控制口,16位地址總線接口。8基于SPCE061A的語音識(shí)別模塊軟件設(shè)計(jì)8.1系統(tǒng)軟件的總體設(shè)計(jì)系統(tǒng)軟件的設(shè)計(jì)如圖5-1按功能主要分為人機(jī)接口主控模塊、語音訓(xùn)練功能模塊、語音識(shí)別功能模塊(含識(shí)別結(jié)果輸出及提示語音播放)、語音錄入功能模塊等四個(gè)功能模塊。圖8-1語音識(shí)別模塊的軟件結(jié)構(gòu)框圖人機(jī)接口主控模塊:通過串口或按鍵接收配置、控制指令,執(zhí)行對(duì)應(yīng)的語音訓(xùn)練、識(shí)別、錄音程序和功能;語音訓(xùn)練功能模塊:實(shí)現(xiàn)語音的特征提取、模板訓(xùn)練及生成,將結(jié)果存入語音模板庫;語音識(shí)別功能模塊:實(shí)現(xiàn)語音的特征提取、并讀取模板庫中的模板與提取的模板逐一匹配、輸出識(shí)別的結(jié)果及播放相應(yīng)的提示語音;語音錄入功能模塊:實(shí)現(xiàn)提示語音數(shù)據(jù)的獲取、壓縮、存入對(duì)應(yīng)的語音段空間。8.2模塊程序的整合系統(tǒng)除主控模塊外主要還有語音訓(xùn)練功能模塊、語音識(shí)別功能模塊、語音錄入功能模塊,主要程序模塊如圖5-2a所示,語音訓(xùn)練的主要步驟包含語音數(shù)據(jù)的獲取、特征參數(shù)提取及模板的訓(xùn)練、生成存儲(chǔ)等步驟;語音識(shí)別的主要步驟包含語音數(shù)據(jù)的獲取、特征參數(shù)提取及模板的讀取、匹配、結(jié)果的輸出(含語音的播放)等步驟;語音錄入的主要步驟包含了語音數(shù)據(jù)的獲取、數(shù)據(jù)編碼壓縮、存儲(chǔ)等步驟。a.語音識(shí)別模塊主要程序框圖b.子程序模塊圖8-2語音識(shí)別模塊的軟件結(jié)構(gòu)流圖通過對(duì)比發(fā)現(xiàn),語音訓(xùn)練、識(shí)別有多個(gè)步驟程序是一樣,甚至語音錄入也用到相同的程序步驟即語音數(shù)據(jù)的獲取,所以其實(shí)程序模塊可歸結(jié)為圖8-2b所示的6個(gè)子程序,這6個(gè)子程序根據(jù)人機(jī)接口主控模塊的調(diào)度,完成不同的任務(wù),形成如圖8-3所示的基于SPCE061A的系統(tǒng)軟硬件結(jié)構(gòu)框圖。SPCE061ASPCE061A圖8-3基于SPCE061A的語音識(shí)別模塊軟硬件結(jié)構(gòu)框圖8.3語音識(shí)別模塊的子程序設(shè)計(jì)按照?qǐng)D5-2所示的6個(gè)子程序,下面將進(jìn)行詳細(xì)的設(shè)計(jì)介紹。8.3.1主控接口模塊的設(shè)計(jì)為方便模塊的應(yīng)用和操作,使操作者可以直接進(jìn)行模塊功能的操作而不需要了解模塊內(nèi)部的設(shè)計(jì),系統(tǒng)設(shè)置了兩種操作模式:按鍵操作模式;串口操作模式;也可以通過串口模式更改系統(tǒng)的模塊的輸出指令表和對(duì)應(yīng)的語音提示代碼段之后采用按鍵控制其工作。系統(tǒng)初始化后,通過按鍵或串口對(duì)模塊進(jìn)行操作,產(chǎn)生相應(yīng)的中斷,執(zhí)行相應(yīng)的中斷程序即可進(jìn)行操作。8.3.2語音數(shù)據(jù)的獲取語音數(shù)據(jù)的獲取主要包含AD轉(zhuǎn)換、端點(diǎn)檢測(cè)、采集數(shù)據(jù)的處理存儲(chǔ)三個(gè)部分的內(nèi)容。在主控模塊開啟AD中斷后,其在定時(shí)器3的觸發(fā)下一直工作,而端點(diǎn)檢測(cè)、數(shù)據(jù)的存儲(chǔ)則作為一個(gè)整體統(tǒng)一考慮。8.3.3特征參數(shù)的提取要進(jìn)行語音的訓(xùn)練、識(shí)別,重要的一步就是進(jìn)行特征參數(shù)的提取,特征參數(shù)的提取一般分為預(yù)加重處理、分幀、加窗、自相關(guān)系數(shù)的計(jì)算、基于Durbin算法的LPC系數(shù)的推導(dǎo),LPCC系數(shù)的遞推等步驟,計(jì)算出的LPCC系數(shù)即為所求的特征參數(shù)。8.3.4模板的生成及訓(xùn)練如果采用偶然訓(xùn)練法,生成的特征參數(shù)就可以作為該詞的識(shí)別模板,存儲(chǔ)起來,但為了提高系統(tǒng)的識(shí)別率,本系統(tǒng)采用魯棒性訓(xùn)練法,即第一次訓(xùn)練時(shí)對(duì)該詞訓(xùn)練5次,生成5個(gè)模板,采用DTW算法求5個(gè)模板中距離最近的兩個(gè)模板,按照這兩個(gè)模板的匹配路徑,逆向?qū)角笃骄吹玫降谝粋€(gè)模板,按照模板的格式進(jìn)行處理,寫入第一個(gè)詞對(duì)應(yīng)的FLASH空間。8.3.5FLASH存儲(chǔ)器的讀寫可以用軟件使用MOVX指令對(duì)FLASH存儲(chǔ)器編程,和一般的操作數(shù)一樣為MOVX指令提供待編程的地址和數(shù)據(jù)字節(jié)。在使用M
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 保險(xiǎn)理賠部工作總結(jié)與患者投訴處理計(jì)劃
- 幕墻的合同范本
- 征兵體檢合同范本
- 科技產(chǎn)業(yè)未來趨勢(shì)與投資方向
- 修建護(hù)欄合同范本
- 如何進(jìn)行市場(chǎng)需求分析計(jì)劃
- 如何通過年度工作計(jì)劃提高服務(wù)質(zhì)量
- 校企合作推進(jìn)的年度目標(biāo)計(jì)劃
- 陜旅版四年級(jí)下冊(cè)英語全冊(cè)課件(2024年2月修訂)
- 動(dòng)植物保護(hù)知識(shí)宣傳活動(dòng)計(jì)劃
- 2025年山西經(jīng)貿(mào)職業(yè)學(xué)院高職單招職業(yè)技能測(cè)試近5年??及鎱⒖碱}庫含答案解析
- 廣東省佛山市禪城區(qū)2024-2025學(xué)年八年級(jí)上學(xué)期期末考試語文試題(含答案)
- 第04課 輸入輸出與計(jì)算(說課稿)2024-2025學(xué)年六年級(jí)上冊(cè)信息技術(shù)人教版
- 部編五下語文教學(xué)多元評(píng)價(jià)方案
- 《榜樣9》觀后感心得體會(huì)二
- 重慶市2024-205學(xué)年秋高二(上)期末考試歷史試卷(含答案)康德卷
- 廣西柳州市2025屆高三第二次模擬考試政治試題含答案
- 設(shè)備維修績效考核方案
- 鳳凰衛(wèi)視中文臺(tái)節(jié)目表
- 2025屆廣東省佛山一中、石門中學(xué)高考數(shù)學(xué)考前最后一卷預(yù)測(cè)卷含解析
- DCMM初級(jí)認(rèn)證知識(shí)考點(diǎn)練習(xí)試題
評(píng)論
0/150
提交評(píng)論