畢業(yè)設(shè)計(jì)語(yǔ)音文本顯示系統(tǒng)(共46頁(yè))_第1頁(yè)
畢業(yè)設(shè)計(jì)語(yǔ)音文本顯示系統(tǒng)(共46頁(yè))_第2頁(yè)
畢業(yè)設(shè)計(jì)語(yǔ)音文本顯示系統(tǒng)(共46頁(yè))_第3頁(yè)
畢業(yè)設(shè)計(jì)語(yǔ)音文本顯示系統(tǒng)(共46頁(yè))_第4頁(yè)
畢業(yè)設(shè)計(jì)語(yǔ)音文本顯示系統(tǒng)(共46頁(yè))_第5頁(yè)
已閱讀5頁(yè),還剩41頁(yè)未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶(hù)提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、蘭州工業(yè)學(xué)院畢業(yè)設(shè)計(jì)說(shuō)明書(shū)(論文) PAGE 41摘要(zhiyo)讓機(jī)器聽(tīng)懂人類(lèi)(rnli)的語(yǔ)音,這是人們(rn men)長(zhǎng)期以來(lái)夢(mèng)寐以求的事情。語(yǔ)音識(shí)別技術(shù)就是讓機(jī)器通過(guò)識(shí)別和理解過(guò)程把語(yǔ)音信號(hào)轉(zhuǎn)變?yōu)橄鄳?yīng)的文本或命令的高技術(shù), 語(yǔ)音識(shí)別是一門(mén)交叉學(xué)科,所涉及的領(lǐng)域有信號(hào)處理、模式識(shí)別、概率論和信息論、發(fā)聲機(jī)理和聽(tīng)覺(jué)機(jī)理、人工智能等等。其應(yīng)用領(lǐng)域也非常廣,例如相對(duì)于鍵盤(pán)輸入方法的語(yǔ)音輸入系統(tǒng)、可用于工業(yè)控制的語(yǔ)音控制系統(tǒng)及服務(wù)領(lǐng)域的智能對(duì)話查詢(xún)系統(tǒng),在信息高度化的今天,語(yǔ)音識(shí)別技術(shù)及其應(yīng)用已成為信息社會(huì)不可或缺的重要組成部分。通過(guò)語(yǔ)音傳遞信息是人類(lèi)最重要、最有效、最常用和最方便的交換信息形

2、式。同時(shí),語(yǔ)言也是人與機(jī)器之間進(jìn)行通信的重要工具,它是一種理想的人機(jī)通信方式,因而可為信息處理系統(tǒng)建立良好的人機(jī)交互環(huán)境,進(jìn)一步推動(dòng)計(jì)算機(jī)和其他智能機(jī)器的應(yīng)用,提高社會(huì)的信息化程度。 隨著嵌入式技術(shù)和通信技術(shù)的發(fā)展,智能機(jī)已成為電子技術(shù)發(fā)展的主流趨勢(shì),目前在智能機(jī)領(lǐng)域,從處理器選型、操作系統(tǒng)選擇以及應(yīng)用程序開(kāi)發(fā)都是研究的熱點(diǎn)。本設(shè)計(jì)利用ARM處理器開(kāi)發(fā)處理音頻信號(hào),通過(guò)一個(gè)ARM9芯片S3C2410作為處理器的嵌入式語(yǔ)音采集系統(tǒng),結(jié)合LD 3320的嵌入式語(yǔ)音識(shí)別系統(tǒng)闡述了語(yǔ)音數(shù)據(jù)的采集與處理,采用帶漢字庫(kù)的12864顯示屏作為語(yǔ)音顯示系統(tǒng)。它完成了基于非特定人的語(yǔ)音識(shí)別系統(tǒng)的靜態(tài)測(cè)試,其對(duì)于

3、語(yǔ)音命令的平均識(shí)別率可達(dá)90%,并應(yīng)用該系統(tǒng)構(gòu)成了語(yǔ)音文本顯示系統(tǒng),該系統(tǒng)能對(duì)近距離規(guī)范的語(yǔ)音進(jìn)行采樣識(shí)別,在內(nèi)部處理轉(zhuǎn)換成文本信息在顯示屏上顯示。關(guān)鍵詞: 語(yǔ)音識(shí)別; ARM處理器; LD 3320; 12864; 信號(hào)。AbstractLet the machine to understand human speech,it is a long dreamed of things. The speech recognition technology is to make the machine hrough the recognition and understanding of the

4、process of speech signal transfer into the corresponding text or command of high technology,speech recognition is a cross-discipinary, involved in the areas of signal processing, pattern recognition theory, sound mechanism and auditory mechanism,artificial intelligence and so on.its application fiel

5、d is very wide,such as relative to the keyboard input mothod of speech input system, can be used for industrial control voice control system and service in the field of intelligent dialogue in the information inquiry system, highly today,speech recognition technology and its appliication in the info

6、rmation society has become an important part of.Through the phonetic transfer information is the most important and the most effective, most commonly used and the most convenient exchange information form. At the same time, the language is human and machine the important tool of communication betwee

7、n, it is a kind of ideal man-machine communication way, thus for information processing system to retablish good interactive environment, further promote computer and other intelligent machine application,improve the social information degree.With the embedded technology and communication technology

8、 development, the intelligent electronic technology has becom the mainstream of development trend,in the field of intelligent,from the processor selection,operating system selection and application development is the research hotspot. this design based on the ARM processor development processing aud

9、io signal trough a ARM9 processor S3C2410 chip as the embedded speech acquisition system, LD 3320 embedded speech recognition system elaborated the voice data acquisition and processing,the adoption of the beld which consists of 12864 display as a voice display system, It completed based on speaker-

10、independent speech recognition system static test,the voice commands for the average recognition rate of up to 90%,and application of the system constitutes the speech text display system,this system could be used for close standard speech sampling recognition,in the internal processing into text in

11、formation in the screen display.Keywords: speech recognition; ARM processor; LD 3320; 12864; Signal. TOC o 1-3 h z u 目錄(ml) TOC o 1-3 h z u HYPERLINK l _Toc351139730 摘要(zhiyo) HYPERLINK l _Toc351139730 Abstract HYPERLINK l _Toc351139728 前言(qin yn)11 系統(tǒng)整體方案 HYPERLINK l _Toc351139728 4 1.1 總體方案 HYPERL

12、INK l _Toc351139728 4 1.2 語(yǔ)音識(shí)別原理 HYPERLINK l _Toc351139728 42 系統(tǒng)硬件設(shè)計(jì) HYPERLINK l _Toc351139728 7 2.1 硬件模塊主體關(guān)系 HYPERLINK l _Toc351139728 7 2.2 電源模塊 HYPERLINK l _Toc351139728 8 2.3 寄存器模塊 HYPERLINK l _Toc351139728 92.4 控制單元模塊 HYPERLINK l _Toc351139728 10 HYPERLINK l _Toc351139730 2.4.1 ARMS3C2410芯片簡(jiǎn)介10

13、2.5 語(yǔ)音識(shí)別模塊 HYPERLINK l _Toc351139728 11 HYPERLINK l _Toc351139730 2.5.1 LD 3320芯片簡(jiǎn)介12 HYPERLINK l _Toc351139730 2.5.2 LD 3320功能單元 13 HYPERLINK l _Toc351139730 2.5.3 LD 3320芯片模式選擇14 HYPERLINK l _Toc351139730 2.5.4 關(guān)鍵詞的ID及其設(shè)置16 HYPERLINK l _Toc351139730 2.5.5 反應(yīng)時(shí)間16 2.6 GPRS模塊 HYPERLINK l _Toc35113972

14、8 18 2.7 語(yǔ)音撥號(hào)模塊 HYPERLINK l _Toc351139728 18 2.8 語(yǔ)音短信模塊 HYPERLINK l _Toc351139728 192.9 LCD顯示連接電路 HYPERLINK l _Toc351139728 19 HYPERLINK l _Toc351139730 2.9.1 12864芯片簡(jiǎn)介213 系統(tǒng)軟件設(shè)計(jì) HYPERLINK l _Toc351139728 23 3.1 語(yǔ)音識(shí)別操作(cozu)流程 HYPERLINK l _Toc351139728 23 3.2 系統(tǒng)(xtng)程序流程 HYPERLINK l _Toc351139728 2

15、44 軟件(run jin)調(diào)試 HYPERLINK l _Toc351139728 26 4.1 上電調(diào)試 HYPERLINK l _Toc351139728 26 4.2 讀寫(xiě)寄存器調(diào)試 HYPERLINK l _Toc351139728 26 4.3 檢查存儲(chǔ)器初始值 HYPERLINK l _Toc351139728 265 硬件調(diào)試 HYPERLINK l _Toc351139728 28 5.1 硬件電路調(diào)試 HYPERLINK l _Toc351139728 28 5.2 硬件功能檢查 HYPERLINK l _Toc351139728 28 5.3 綜合調(diào)試 HYPERLINK

16、 l _Toc351139728 28 HYPERLINK l _Toc351139777 結(jié)論29 HYPERLINK l _Toc351139778 HYPERLINK l _Toc351139779 致謝30參考文獻(xiàn) HYPERLINK l _Toc351139728 31 HYPERLINK l _Toc351139780 附錄32前言(qin yn)1、背景(bijng)介紹語(yǔ)言是人類(lèi)傳遞信息的主要手段,語(yǔ)音識(shí)別(shbi)技術(shù)是目前世界上最熱門(mén)和最具發(fā)展前景的新型信息技術(shù)之一。語(yǔ)音識(shí)別技術(shù)是近年來(lái)十分活躍的研究領(lǐng)域。語(yǔ)音識(shí)別系統(tǒng)的實(shí)用化研究是語(yǔ)音識(shí)別研究的一個(gè)主要方向。語(yǔ)言是人類(lèi)特

17、有的功能,是人們思維最重要的寄托體,是人類(lèi)交流最主要的途徑。語(yǔ)音是語(yǔ)言的聲學(xué)表現(xiàn),是人類(lèi)交流信息最 HYPERLINK /lixue/ 自然、最有效、最方便的手段。語(yǔ)言和語(yǔ)音與人類(lèi)社會(huì) HYPERLINK /gongxue/ 科學(xué)文化發(fā)展緊密相連。語(yǔ)音識(shí)別技術(shù)是讓機(jī)器接收,識(shí)別和理解語(yǔ)音信號(hào),并將其轉(zhuǎn)換成相應(yīng)的數(shù)字信號(hào)的技術(shù)。它是一門(mén)交叉學(xué)科,涉及到語(yǔ)音語(yǔ)言學(xué)、數(shù)理統(tǒng)計(jì)、 HYPERLINK /pc/ 計(jì)算機(jī)、信號(hào)處理等一系列學(xué)科。2、發(fā)展歷史語(yǔ)音識(shí)別技術(shù)的研究開(kāi)始二十世紀(jì)50年代。1952年,AT&Tbell實(shí)驗(yàn)室的Davis等人成功研制出了世界上第一個(gè)能識(shí)別十個(gè)英文數(shù)字發(fā)音的實(shí)驗(yàn)系統(tǒng):Au

18、dry系統(tǒng)。60年代計(jì)算機(jī)的應(yīng)用推動(dòng)了語(yǔ)音識(shí)別技術(shù)的發(fā)展,提出兩大重要研究成果:動(dòng)態(tài)規(guī)劃(Dynamic Planning, DP)和線性預(yù)測(cè)分析(Linear Predict, LP),其中后者較好的解決了語(yǔ)音信號(hào)產(chǎn)生模型的問(wèn)題,對(duì)語(yǔ)音識(shí)別技術(shù)的發(fā)展產(chǎn)生了深遠(yuǎn)影響。70年代,語(yǔ)音識(shí)別領(lǐng)域取得突破性進(jìn)展。線性預(yù)測(cè)編碼技術(shù)(Linear Predict Coding, LPC)被Itakura成功應(yīng)用于語(yǔ)音識(shí)別;Sakoe和Chiba將動(dòng)態(tài)規(guī)劃的思想應(yīng)用到語(yǔ)音識(shí)別并提出動(dòng)態(tài)時(shí)間規(guī)整算法,有效的解決了語(yǔ)音信號(hào)的特征提取和不等長(zhǎng)語(yǔ)音匹配問(wèn)題;同時(shí)提出了矢量量化(VQ)和隱馬爾可夫模型(HMM)理論。

19、80年代,連續(xù)語(yǔ)音識(shí)別成為語(yǔ)音識(shí)別的研究重點(diǎn)之一。Meyers和Rabiner研究出多級(jí)動(dòng)態(tài)規(guī)劃語(yǔ)音識(shí)別算法(Level Building,LB)這一連續(xù)語(yǔ)音識(shí)別算法。80年代另一個(gè)重要的發(fā)展是概率統(tǒng)計(jì)方法成為語(yǔ)音識(shí)別研究方法的主流,其顯著特征是HMM模型在語(yǔ)音識(shí)別中的成功應(yīng)用。1988年,美國(guó)卡內(nèi)基梅隆大學(xué)(CMU)用VQ/HMM方法實(shí)現(xiàn)了997詞的非特定人連續(xù)語(yǔ)音識(shí)別系統(tǒng)SPHINX。在這一時(shí)期,人工神經(jīng)網(wǎng)絡(luò)在語(yǔ)音識(shí)別中也得到成功應(yīng)用。進(jìn)入90年代后,隨著多媒體時(shí)代的來(lái)臨,迫切要求語(yǔ)音識(shí)別系統(tǒng)從實(shí)驗(yàn)走向?qū)嵱?,許多發(fā)達(dá)國(guó)家如美國(guó)、日本、韓國(guó)以及IBM、Apple、AT&T、NTT等著名公司都

20、為語(yǔ)音識(shí)別系統(tǒng)實(shí)用化的開(kāi)發(fā)研究投以巨資。最具代表性的是IBM的ViaVoice和Dragon公司的Dragon Dectate系統(tǒng)。這些系統(tǒng)具有說(shuō)話人自適應(yīng)能力,新用戶(hù)不需要對(duì)全部詞匯進(jìn)行訓(xùn)練便可在使用中不斷提高識(shí)別率。我國(guó)在七十年代末就開(kāi)始了語(yǔ)音技術(shù)的研究,但在很長(zhǎng)一段時(shí)間內(nèi),都處于緩慢發(fā)展的階段。由于起步晚、基礎(chǔ)薄弱,計(jì)算機(jī)水平不發(fā)達(dá),導(dǎo)致在整個(gè)八十年代,我國(guó)在語(yǔ)音識(shí)別研究方面并沒(méi)有形成自己的特色,更沒(méi)有取得顯著的成果和開(kāi)發(fā)出大型性能優(yōu)良(yuling)的實(shí)驗(yàn)系統(tǒng)。但進(jìn)入九十年代后,我國(guó)語(yǔ)音識(shí)別研究的步伐就逐漸緊追國(guó)際先進(jìn)水平了,在“八五”、“九五(ji w)”國(guó)家科技攻關(guān)計(jì)劃、國(guó)家自然科

21、學(xué)基金、國(guó)家863計(jì)劃的支持下,我國(guó)在中文語(yǔ)音技術(shù)的基礎(chǔ)(jch)研究方面也取得了一系列成果。但是,這些成果并沒(méi)有得到很好的應(yīng)用,沒(méi)有轉(zhuǎn)化成產(chǎn)業(yè);相反,中文語(yǔ)音技術(shù)在技術(shù)、人才、市場(chǎng)等方面正面臨著來(lái)自國(guó)際競(jìng)爭(zhēng)環(huán)境中越來(lái)越嚴(yán)峻的挑戰(zhàn)和壓力。3、具體應(yīng)用 隨著計(jì)算機(jī)技術(shù)、模式識(shí)別等技術(shù)的發(fā)展,適應(yīng)不同場(chǎng)合的語(yǔ)音識(shí)別系統(tǒng)相繼被開(kāi)發(fā)出來(lái),語(yǔ)音識(shí)別及處理技術(shù)已經(jīng)越來(lái)越突現(xiàn)出其強(qiáng)大的技術(shù)優(yōu)勢(shì)。近三十年來(lái),語(yǔ)音識(shí)別在計(jì)算機(jī)、信息處理、通信與 HYPERLINK /dianzijixie/ 電子系統(tǒng)、自動(dòng)控制等領(lǐng)域的應(yīng)用越來(lái)越廣泛。 目前,語(yǔ)音識(shí)別技術(shù)己經(jīng)在生活中的諸多方面有了廣泛的應(yīng)用,而這方面的例子已經(jīng)屢

22、見(jiàn)不鮮,其主要的應(yīng)用場(chǎng)合如下: (1)聲控(shn kn)應(yīng)用 在很多場(chǎng)合(chng h)與特定環(huán)境中,使用聲控系統(tǒng)可以大大提高生活質(zhì)量和便利程度。比如司機(jī)通過(guò)語(yǔ)音進(jìn)行電話撥號(hào),可以減少交通事故的發(fā)生率,而很多行動(dòng)不便的人通過(guò)聲控系統(tǒng)更是可以將生活質(zhì)量提高。 (2)數(shù)據(jù)庫(kù)檢索(jin su) 在不少行業(yè)部門(mén)當(dāng)中都需要對(duì)龐大的數(shù)據(jù)進(jìn)行檢索和查詢(xún),這是一項(xiàng)非常復(fù)雜的I作。語(yǔ)音識(shí)別的引入可以大大的減少勞動(dòng)量,既方便又節(jié)約人力成本。 (3)語(yǔ)音聽(tīng)寫(xiě)機(jī) 用口述來(lái)代替人工輸入文檔,提高了輸入速度,而且更加方便,可以為辦公自動(dòng)化帶來(lái)革命性的變化。比如IBM出品的Via Voicc系列產(chǎn)品就是這個(gè)方面典型的應(yīng)

23、用。 (4)自動(dòng)口譯 將語(yǔ)音識(shí)別應(yīng)用于自動(dòng)口語(yǔ)翻譯是未來(lái)的一大趨勢(shì),不僅可以節(jié)省大量的人力。同時(shí)也讓翻譯工作變得更加輕松簡(jiǎn)單。一些發(fā)達(dá)國(guó)家在自動(dòng)口譯方面的研究己經(jīng)取得了一定的進(jìn)展。目前,語(yǔ)音識(shí)別技術(shù)仍在高速發(fā)展之中。隨著時(shí)代的進(jìn)步,越來(lái)越多的領(lǐng)域開(kāi)始引入這項(xiàng)技術(shù),人類(lèi)的日常生活會(huì)級(jí)此而帶來(lái)更大改變。 本設(shè)計(jì)介紹了一種以ARM為核心的嵌入式語(yǔ)音識(shí)別模塊的設(shè)計(jì)與實(shí)現(xiàn)。本模塊以對(duì)話管理單元為中心,通過(guò)以LD 3320芯片為核心的硬件單元實(shí)現(xiàn)語(yǔ)音識(shí)別功能,經(jīng)過(guò)大量的實(shí)驗(yàn)數(shù)據(jù)驗(yàn)證,本文設(shè)計(jì)的語(yǔ)音識(shí)別模塊具有高實(shí)時(shí)性、高識(shí)別率、高穩(wěn)定性的優(yōu)點(diǎn)。1 系統(tǒng)整體(zhngt)方案1.1 總體方案基于現(xiàn)有技術(shù)開(kāi)發(fā)

24、嵌入式語(yǔ)音(yyn)交互系統(tǒng),目前主要有兩種方式:一種是直接在嵌入式處理器中調(diào)用語(yǔ)音開(kāi)發(fā)包;另一種是嵌入式處理器外圍擴(kuò)展語(yǔ)音芯片。第一種方法程序量大,計(jì)算復(fù)雜,需要占用大量的處理器資源,開(kāi)發(fā)周期長(zhǎng);第二種方法相對(duì)簡(jiǎn)單,只需要關(guān)注語(yǔ)音芯片的接口部分與微處理器相連,結(jié)構(gòu)簡(jiǎn)單,搭建方便,微處理器的計(jì)算負(fù)擔(dān)大大降低,增強(qiáng)了可靠性,縮短了開(kāi)發(fā)周期。本設(shè)計(jì)(shj)的語(yǔ)音識(shí)別方案是以嵌入式微處理器ARM S3C2410芯片為核心,配合A/D, D/A 電路,控制電路,接口電路和存儲(chǔ)電路來(lái)實(shí)現(xiàn)語(yǔ)音識(shí)別的訓(xùn)練和識(shí)別過(guò)程。外圍加非特定人語(yǔ)音識(shí)別芯片及相關(guān)電路構(gòu)成。語(yǔ)音識(shí)別芯片選用ICRoute公司的LD 332

25、0芯片,由于LD 3320可以動(dòng)態(tài)編輯的識(shí)別關(guān)鍵詞語(yǔ)列表,因此其可以應(yīng)用的范圍大大超過(guò)了那些不可以改變識(shí)別列表的芯片。又由于LD 3320 是一顆真正的單芯片解決方案,不需要輔助的外圍 Flash/RAM/AD,從而降低了系統(tǒng)的成本。在用戶(hù)的語(yǔ)音進(jìn)入語(yǔ)音識(shí)別部分后, LD 3320 將把處理過(guò)的數(shù)據(jù)并行傳輸?shù)街骺刂破?,主控制器處理后,發(fā)送命令數(shù)據(jù)到可擴(kuò)展外圍串行設(shè)備實(shí)現(xiàn)控制操作.所接收的數(shù)據(jù)最后通過(guò)帶漢字庫(kù)的12864液晶屏顯示出相應(yīng)的漢字。1.2 語(yǔ)音(yyn)識(shí)別原理(yunl)在計(jì)算機(jī)系統(tǒng)中,語(yǔ)音信號(hào)(xnho)本身的不確定性、動(dòng)態(tài)性和連續(xù)性是語(yǔ)音識(shí)別的難點(diǎn),主流的語(yǔ)音識(shí)別技術(shù)是基于統(tǒng)計(jì)

26、模式識(shí)別的基本理論,語(yǔ)音識(shí)別過(guò)程圖語(yǔ)音識(shí)別通常需要兩個(gè)階段完成。第一階段是訓(xùn)練,主要是提取語(yǔ)音特征,用戶(hù)往往需要進(jìn)行幾次語(yǔ)音訓(xùn)練,經(jīng)過(guò)預(yù)處理和特征提取后獲得相應(yīng)特征參數(shù)。第二階段是識(shí)別,識(shí)別過(guò)程就是將輸入的語(yǔ)音特征參數(shù)和模型庫(kù)中的參數(shù)進(jìn)行相似性比較,最后輸出匹配度最高的特征參數(shù)完成識(shí)別過(guò)程。語(yǔ)音識(shí)別過(guò)程原理如圖1-1所示:預(yù)處理特征提取模式匹配后處理語(yǔ)音模型 庫(kù)輸入語(yǔ)音識(shí)別訓(xùn)練識(shí)別結(jié)果圖1-1 語(yǔ)音識(shí)別過(guò)程語(yǔ)音識(shí)別過(guò)程圖語(yǔ)音識(shí)別通常需要兩個(gè)階段完成。第一階段是訓(xùn)練,主要是提取語(yǔ)音特征,用戶(hù)往往需要進(jìn)行幾次語(yǔ)音訓(xùn)練,經(jīng)過(guò)預(yù)處理和特征提取后獲得相應(yīng)特征參數(shù)。第二階段是識(shí)別,識(shí)別過(guò)程就是將輸入的語(yǔ)音

27、特征參數(shù)和模型庫(kù)中的參數(shù)進(jìn)行相似性比較,最后輸出匹配度最高的特征參數(shù)完成識(shí)別過(guò)程。目前,語(yǔ)音識(shí)別技術(shù)按照識(shí)別對(duì)象的類(lèi)型可以分為特定人和非特定人語(yǔ)音識(shí)別。特定人是指識(shí)別對(duì)象為專(zhuān)門(mén)的人,非特定人是指識(shí)別對(duì)象是針對(duì)大多數(shù)用戶(hù),一般需要采集多個(gè)人的語(yǔ)音進(jìn)行錄音和訓(xùn)練,經(jīng)過(guò)學(xué)習(xí),從而達(dá)到較高的識(shí)別率。語(yǔ)音識(shí)別技術(shù)在國(guó)內(nèi)外的發(fā)展(fzhn)十分迅速。在嵌入式應(yīng)用領(lǐng)域,具有代表性的有凌陽(yáng)的 SPCE061A、ICRoute 的 LD 3320。本文的語(yǔ)音識(shí)別方案(fng n)是以嵌入式微處理器為核心,外圍加非特定人語(yǔ)音識(shí)別芯片LD 3320 及相關(guān)電路(dinl)構(gòu)成。1、語(yǔ)音采集設(shè)備如話筒、電話等將語(yǔ)音轉(zhuǎn)

28、換成模擬信號(hào)。2、數(shù)字化一般包括預(yù)濾波、采樣和A/D變換。該過(guò)程將模擬信號(hào)轉(zhuǎn)變成計(jì)算機(jī)能處理的數(shù)字信號(hào)。 3、預(yù)處理一般包括預(yù)加重、加窗分幀。經(jīng)預(yù)處理后的信號(hào)被轉(zhuǎn)換成了幀序列的加窗的短時(shí)信號(hào)。 4、參數(shù)分析是對(duì)短時(shí)信號(hào)進(jìn)行分析,提取語(yǔ)音特征參數(shù)的過(guò)程,如時(shí)域、頻域分析,矢量量化等。 5、語(yǔ)音識(shí)別是目標(biāo)語(yǔ)音根據(jù)特征參數(shù)與模型庫(kù)中的參數(shù)進(jìn)行匹配,產(chǎn)生識(shí)別結(jié)果的過(guò)程。一般有模板匹配法、隨機(jī)模型法和神經(jīng)網(wǎng)絡(luò)等。 6、應(yīng)用程序根據(jù)識(shí)別結(jié)果產(chǎn)程預(yù)定動(dòng)作。7、該過(guò)程是語(yǔ)音模型的學(xué)習(xí)過(guò)程。2 系統(tǒng)(xtng)硬件設(shè)計(jì)2.1 硬件(yn jin)模塊主體(zht)關(guān)系本設(shè)計(jì)由LD 3320芯片和三星公司的 S3

29、C2410 芯片為核心,配合 A/D、D/A 電路,控制電路,接口電路和存儲(chǔ)電路來(lái)實(shí)現(xiàn)語(yǔ)音識(shí)別的訓(xùn)練和識(shí)別過(guò)程。S3C2410 主要負(fù)責(zé)系統(tǒng)的控制和識(shí)別工作,而語(yǔ)音信號(hào)的特征提取和訓(xùn)練算法全部由 LD 3320來(lái)完成。S3C2410 處理器采用的是 ARM920T 內(nèi)核,5 級(jí)流水線指令結(jié)構(gòu),片內(nèi)鎖相環(huán),內(nèi)部時(shí)鐘可達(dá)到 200 MHz,因此可以用來(lái)進(jìn)行復(fù)雜的控制算法以提高控制精度。S3C2410 有 117 個(gè) I/O 口和 24 個(gè)外部中斷源,內(nèi)部具有豐富的接口控制器,可以簡(jiǎn)化外圍電路,同時(shí)其內(nèi)部時(shí)鐘可達(dá)到200MHz。 LD 3320是一顆基于非特定人語(yǔ)音識(shí)別技術(shù)的語(yǔ)音識(shí)別/聲控芯片,該芯

30、片集成了語(yǔ)音識(shí)別處理器和一些外部電路,包括ADC、DAC、麥克風(fēng)接口、聲音輸出接口等。該芯片不需要外接任何的輔助芯片如Flash、RAM等,直接集成在現(xiàn)有的產(chǎn)品中,即可以實(shí)現(xiàn)語(yǔ)音識(shí)別/聲控/人機(jī)對(duì)話功能。具有較強(qiáng)的中斷處理能力, 適合實(shí)時(shí)語(yǔ)音處理。芯片采用48腳QFN塑料封裝,工作供電為3.3V。其核心是語(yǔ)音識(shí)別運(yùn)算器,配合輸入、輸出、AD/DA轉(zhuǎn)換等模塊,完成語(yǔ)音識(shí)別的功能。LD 3320還支持(zhch)并行和串行接口,串行方式可以簡(jiǎn)化與其他模塊的連接并具有,為語(yǔ)音處理(chl)帶來(lái)了極大的便利。電路(dinl)主要由主控制器電路和語(yǔ)音識(shí)別電路組成。ARM S3C2410處理器控制LD 3

31、320語(yǔ)音識(shí)別電路,輸出結(jié)果由ARM S3C2410處理器處理,然后通過(guò)總線來(lái)控制不同的設(shè)備。12864漢字圖形點(diǎn)陣液晶顯示模塊,是12864點(diǎn)陣的漢字圖形型液晶顯示模塊,可顯示漢字及圖形,內(nèi)置8192個(gè)中文漢字(16X16 點(diǎn)陣)、128 個(gè)字符(8X16 點(diǎn)陣)及 64X256 點(diǎn)陣顯示 RAM(GDRAM)。可與CPU直接接口,提供兩種界面來(lái)連接微處理機(jī),8位并行及串行兩種連接方式。各硬件模塊關(guān)系圖如圖2-1所示:麥克風(fēng)揚(yáng)聲器語(yǔ)音識(shí)別芯片LD 3320ARM9S3C241012864液晶顯示器模擬信號(hào)模擬信號(hào)數(shù)字信號(hào)控制指令控制指令JTAG程序調(diào)試下載EPROMMFLASHJTAG程序調(diào)

32、試下載圖2-1 各硬件模塊(m kui)關(guān)系圖2.2 電源模塊本系統(tǒng)采用3.3V供電,主要控制(kngzh)及識(shí)別部分采用LM1117-3.3穩(wěn)壓芯片,語(yǔ)音播放及繼電器部分采用7812為其提供穩(wěn)定的電流電壓。電源模塊電路圖如圖2-2所示:圖2-2 電源模塊電路圖1、參數(shù)(cnsh)特性(1)輸入電壓(V):4.7512; (2)輸出電流(A):1; (3)輸出電壓(V):3.3; (4)壓差(V):1。2、封裝(1)類(lèi)型:SOT-223; (2)引腳:3; (3)體寬:6.30-6.71 mm; (4)長(zhǎng)度:3.30-3.71 mm;(5)引腳間距:2.29 mm。2.3 寄存器模塊本系統(tǒng)(x

33、tng)采用華邦SPI flash芯片(xn pin)W25Q40AVSNIG,大小為512Kbyte,用于存儲(chǔ)人機(jī)對(duì)話時(shí)的聲音素材(sci)。寄存器模塊電路圖如圖2-3所示:圖路圖2-3 寄存器模塊電路圖選用串行閃存的理由:1、能夠減少微處理器的封裝管腳數(shù)目; 2、線路板(PCB)可以更小,更簡(jiǎn)單; 3、能夠減少系統(tǒng)電路切換噪聲;4、能夠減低系統(tǒng)功能及制造成本。2.4 控制單元模塊采用ARM9 S3C2410單片機(jī)作為系統(tǒng)的主控制單元。ARM9 S3C2410系列單片機(jī)具有強(qiáng)大的數(shù)據(jù)處理功能,且I/O口控制靈活。2.4.1 ARM S3C2410芯片簡(jiǎn)介S3C2410處理器是Samsung公

34、司基于ARM公司的ARM920T處理器核,采用0.18um制造工藝的32位微控制器。該處理器擁有:獨(dú)立的16KB指令Cache和16KB數(shù)據(jù)Cache,MMU,支持TFT的LCD控制器,NAND閃存控制器,3路UART,4路DMA,4路帶PWM的Timer ,I/O口,RTC,8路10位ADC,Touch Screen接口,IIC-BUS 接口,IIS-BUS 接口,2個(gè)USB主機(jī),1個(gè)USB設(shè)備,SD主機(jī)和MMC接口,2路SPI。S3C2410處理器最高可運(yùn)行在203MHz,32位處理器。核心板的尺寸僅相當(dāng)于名片的2/3大小,尺寸如此小巧的嵌入式核心板是國(guó)內(nèi)首創(chuàng)。開(kāi)發(fā)商可以充分發(fā)揮想象力,設(shè)

35、計(jì)制造出小體積,高性能的嵌入式應(yīng)用產(chǎn)品。S3C2410芯片(xn pin)功能單元:內(nèi)部(nib)1.8V,存儲(chǔ)器3.3V,外部I/O3.3V,16KB數(shù)據(jù)Cache,16KB指令(zhlng)Cache,MMU; 內(nèi)置外部存儲(chǔ)器控制器(SDRAM控制和芯片選擇邏輯); LCD控制器,一個(gè)LCD專(zhuān)業(yè)DMA; 4個(gè)帶外部請(qǐng)求線的DMA; 3個(gè)通用異步串行端口(IrDA1.0,16-Byte Tx FIFO and 16-Byte Rx FIFO);2通道SPI; 一個(gè)多主I2C總線,一個(gè)I2S總線控制器; SD主接口版本1.0和多媒體卡協(xié)議版本2.11兼容; 兩個(gè)USB HOST,一個(gè)USB D

36、EVICE(VER1.1);4個(gè)PWM定時(shí)器和一個(gè)內(nèi)部定時(shí)器;看門(mén)狗定時(shí)器;117個(gè)通用I/O;56個(gè)中斷源;24個(gè)外部中斷;電源控制模式:標(biāo)準(zhǔn)、慢速、休眠、掉電;8通道10位ADC和觸摸屏接口;帶日歷功能的實(shí)時(shí)時(shí)鐘;芯片內(nèi)置PLL;設(shè)計(jì)用于手持設(shè)備和通用嵌入式系統(tǒng);16/32位RISC體系結(jié)構(gòu),使用ARM920T CPU核的強(qiáng)大指令集;帶MMU的先進(jìn)的體系結(jié)構(gòu)支持WinCE、EPOC32、Linux;指令緩存(Cache)、數(shù)據(jù)緩存、寫(xiě)緩存和物理地址TAG RAM,減小了對(duì)主存儲(chǔ)器帶寬和性能的影響;ARM920T CPU核支持ARM調(diào)試的體系結(jié)構(gòu);內(nèi)部先進(jìn)的位控制器總線(AMBA)(AMBA

37、2.0,AHB/APB)。S3C2410系統(tǒng)管理:小端/大端支持;地址空間:每個(gè)BANK128MB(全部為1GB);每個(gè)BANK可編程為8/16/32位數(shù)據(jù)總線;BANK0到BANK6為固定起始地址;BANK7可編程BANK起始地址和大小;一共8個(gè)存儲(chǔ)器BANK;前6個(gè)存儲(chǔ)器BANK用于ROM、SRAM和其它;兩個(gè)存儲(chǔ)器BANK用于ROM、SRAM、和SDRAM(同步隨機(jī)存儲(chǔ)器);支持等待信號(hào)用以擴(kuò)展總線周期;支持SDRAM掉電模式下的自刷新;支持不同類(lèi)型的ROM用于啟動(dòng)(NOR/NAND Flash、EEPROM和其它)。 S3C2410芯片(xn pin)封裝與型號(hào):272-FBGA封裝;

38、S3C2410A-20、S3C2410A-26; 區(qū)別(qbi):前者主頻最高為200MHZ、后者主頻最高為266MHZ。S3C2410連接(linji)電路圖2-4所示: 圖2-4 S3C2410連接電路圖2.5 語(yǔ)音識(shí)別模塊 LD 3320的內(nèi)部集成了快速穩(wěn)定的優(yōu)化算法,不需外接Fla-sh、RAM,不需要用戶(hù)事先訓(xùn)練和錄音而完成非特定人語(yǔ)音識(shí)別,識(shí)別準(zhǔn)確率高。LD 3320采用并行方式直接與AR9 S3C2410相接,均采用1 k電阻上拉,A0用于判斷是數(shù)據(jù)段還是地址段;控制信號(hào)RDB、WRB、CSB,復(fù)位信號(hào)RSTB以及中斷返回信號(hào)INTB與AR9 S3C2410直接相連,采用10k電

39、阻上拉,輔助系統(tǒng)穩(wěn)定工作;和AR9 S3C2410采用同一個(gè)外部8 MHz時(shí)鐘;發(fā)光二極管D1、D2用于復(fù)位后的上電指示;MBS(引腳12)作為麥克風(fēng)偏置,接了一個(gè)RC電路,保證能輸出一個(gè)浮動(dòng)電壓給麥克風(fēng)。LD 3320語(yǔ)音識(shí)別單元設(shè)計(jì)原理圖如圖2-5所示:圖2-5 LD 3320語(yǔ)音(yyn)識(shí)別單元設(shè)計(jì)原理圖2.5.1 LD 3320芯片(xn pin)簡(jiǎn)介(jin ji)LD 3320是一顆基于非特定人語(yǔ)音識(shí)別(SI-ASR,Speaker Independent Automatic Speech Recognition)技術(shù)的語(yǔ)音識(shí)別/聲控芯片。該芯片集成了語(yǔ)音識(shí)別處理器和一些外部電路

40、,包括ADC、DAC、麥克風(fēng)接口、聲音輸出接口等。該芯片不需要外接任何的輔助芯片如Flash、RAM等,直接集成在現(xiàn)有的產(chǎn)品中,即可以實(shí)現(xiàn)語(yǔ)音識(shí)別/聲控/人機(jī)對(duì)話功能,并且,識(shí)別的關(guān)鍵詞語(yǔ)列表是可以任意動(dòng)態(tài)編輯的。LD 3320完成非特定人語(yǔ)音識(shí)別,每次識(shí)別最多可以設(shè)置50項(xiàng)候選識(shí)別句,每個(gè)識(shí)別句可以是單字、詞組或短句,長(zhǎng)度為不超過(guò)10個(gè)漢字或者79個(gè)字節(jié)的拼音串。另一方面,識(shí)別句內(nèi)容可以動(dòng)態(tài)編輯修改,因此可由一個(gè)系統(tǒng)支持多種場(chǎng)景。芯片采用48腳QFN塑料封裝,工作供電為3.3V。其核心是語(yǔ)音識(shí)別運(yùn)算器,配合輸入、輸出、AD/DA轉(zhuǎn)換等模塊,完成語(yǔ)音識(shí)別的功能。LD 3320還支持并行和串行接

41、口,串行方式可以簡(jiǎn)化與其他模塊的連接。LD 3320 電路(dinl)說(shuō)明:1、電壓(diny)要求 VDD: 數(shù)字電路用電源(dinyun)輸入3.0 V3.3 V ,VDDIO: 數(shù)字 I/O 電路用電源輸入1.65 VVDD ,VDDA:模擬電路用電源輸入3.0 V4.0 V。 2、芯片管腳輸入電壓范圍:高電壓(邏輯“1”):0.7*VDDIO VDDIO 低電壓(邏輯“0”):00.3*VDDIO 因此,開(kāi)發(fā)者需要保證自己使用的主控 MCU 同樣工作在 3.3v,保證主控 MCU 向 LD 3320 的管腳輸出的高電壓不超過(guò) 3.3V。2.5.2 LD 3320功能單元1、時(shí)鐘(Clo

42、ck) 芯片必須連接外部時(shí)鐘,可接受的頻率范圍是 448MHz,而芯片內(nèi)部還有 PLL 頻率合成器,可產(chǎn)生特定的頻率供內(nèi)部模塊使用。 2、復(fù)位 對(duì)芯片的復(fù)位信號(hào)(RSTB*)必須在 VDD/VDDA/VDDIO 都穩(wěn)定后進(jìn)行。無(wú)論芯片正在進(jìn)行何種運(yùn)算,復(fù)位信號(hào)都可以使它恢復(fù)初始狀態(tài),并使各寄存器復(fù)位。如果沒(méi)有后續(xù)的指令(對(duì)寄存器的設(shè)置),復(fù)位后芯片將進(jìn)入休眠狀態(tài)。此后,一個(gè) CSB*信號(hào)就可以重新激活芯片進(jìn)入工作狀態(tài)。 3、并行接口 本芯片可通過(guò)并行方式和外部主CPU連接,此時(shí)使用8根數(shù)據(jù)線(P0-P7),4個(gè)控制信號(hào)(WRB*, RDB*, CS*,A0),以及一個(gè)中斷返回信號(hào)(INTB*)

43、。 4、串行接口 串行接口通過(guò)SPI協(xié)議和外部(wib)CPU連接,首先要將 MD 接高電平,而將(SPIS*)接地。此時(shí)只使用4個(gè)管腳:片選(SCS*)、SPI時(shí)鐘(SDCK)、SPI 輸入(SDI)和 SPI 輸出(SDO)。 5、寄存器對(duì)芯片(xn pin)的設(shè)置和命令,包括傳送數(shù)據(jù)和接受數(shù)據(jù),都是通過(guò)對(duì)寄存器的操作來(lái)完成的。例如進(jìn)行語(yǔ)音識(shí)別時(shí),設(shè)置識(shí)別的關(guān)鍵詞語(yǔ)列表,設(shè)定芯片的識(shí)別模式,識(shí)別完成后獲得識(shí)別結(jié)果都是通過(guò)讀/寫(xiě)寄存器來(lái)完成。播放聲音時(shí),就是將 MP3 格式的數(shù)據(jù)循環(huán)放入 FIFO 對(duì)應(yīng)的寄存器。(識(shí)別結(jié)果是通過(guò)寄存器返回識(shí)別出的關(guān)鍵詞語(yǔ)在關(guān)鍵詞語(yǔ)列表中的排列序號(hào) Index

44、 數(shù)值,該 Index 數(shù)值是在設(shè)置(shzh)關(guān)鍵詞語(yǔ)列表時(shí)指定)。 6、喇叭音量的外部控制除了特定寄存器來(lái)控制音量以外,芯片外部的電路可以控制喇叭的音量增益。使用的是 EP1、EP2、EP3 對(duì)應(yīng)的管腳。 7、快速開(kāi)發(fā)和評(píng)估驗(yàn)證為了方便開(kāi)發(fā)者對(duì)于LD 3320芯片進(jìn)行快速開(kāi)發(fā)和評(píng)估驗(yàn)證,ICRoute 提供了開(kāi)發(fā)板和模塊。2.5.3 LD 3320芯片模式選擇用戶(hù)可以通過(guò)編程,設(shè)置兩種不同的用戶(hù)使用模式:“觸發(fā)識(shí)別模式”和“循環(huán)識(shí)別模式”:1、觸發(fā)識(shí)別模式:系統(tǒng)的主控MCU在接受到外界一個(gè)觸發(fā)后(比如用戶(hù)按動(dòng)某個(gè)按鍵),啟動(dòng)LD 3320芯片的一個(gè)定時(shí)識(shí)別過(guò)程(比如5秒鐘),要求用戶(hù)在這個(gè)

45、定時(shí)過(guò)程中說(shuō)出要識(shí)別的語(yǔ)音關(guān)鍵詞語(yǔ)。過(guò)了這個(gè)過(guò)程后,需要用戶(hù)再次觸發(fā)才能再次啟動(dòng)一個(gè)識(shí)別過(guò)程。2、循環(huán)識(shí)別模式:系統(tǒng)(xtng)的主控MCU反復(fù)啟動(dòng)識(shí)別過(guò)程。如果沒(méi)有人說(shuō)話沒(méi)有識(shí)別結(jié)果,則每次識(shí)別過(guò)程的定時(shí)到時(shí)后再啟動(dòng)一個(gè)識(shí)別過(guò)程;如果有識(shí)別結(jié)果,則根據(jù)識(shí)別作相應(yīng)處理后(比如播放某個(gè)聲音作為回答)再啟動(dòng)一個(gè)識(shí)別過(guò)程。一般來(lái)說(shuō),觸發(fā)識(shí)別適合識(shí)別精度要求比較高的場(chǎng)合。外界觸發(fā)后,產(chǎn)品可以播放提示音或者其他方式來(lái)提示用戶(hù)在接下來(lái)的幾秒鐘內(nèi)說(shuō)出要識(shí)別的內(nèi)容,這樣來(lái)引導(dǎo)用戶(hù)在規(guī)定的時(shí)間內(nèi)只說(shuō)出要識(shí)別的內(nèi)容,從而保證比較高的識(shí)別率。而循環(huán)識(shí)別比較適合需要始終進(jìn)行語(yǔ)音監(jiān)控的場(chǎng)合,或者沒(méi)有按鍵等其他設(shè)備控制識(shí)

46、別開(kāi)始的場(chǎng)合。而這種狀態(tài),識(shí)別準(zhǔn)確度會(huì)有一定下降(xijing),在循環(huán)識(shí)別的過(guò)程中,用戶(hù)的其他說(shuō)話聲音,或者外界的其他聲音,都有可能被識(shí)別引擎誤識(shí)別出錯(cuò)誤的結(jié)果,需要產(chǎn)品的控制邏輯都作相應(yīng)的處理。在識(shí)別精度要求(yoqi)高的場(chǎng)景中,應(yīng)該采用“觸發(fā)識(shí)別”模式。原因是:(1)用戶(hù)在每次按鍵后,精神處于最集中的狀態(tài),此時(shí)用戶(hù)說(shuō)的語(yǔ)音命令會(huì)比較認(rèn)真、清晰。避免了用戶(hù)過(guò)時(shí)隨意的發(fā)音導(dǎo)致的識(shí)別誤差。(2)每次按鍵后,產(chǎn)品應(yīng)該給以一個(gè)明顯的開(kāi)始信號(hào),比如發(fā)出“當(dāng)”的一聲或者其他提示信號(hào),可以給用戶(hù)一個(gè)明確開(kāi)始的提示,方便用戶(hù)掌握說(shuō)語(yǔ)音命令的時(shí)間。(3)由于按鍵觸發(fā)后,用戶(hù)就會(huì)貼近麥克風(fēng)并說(shuō)出語(yǔ)音命令,避

47、免了其他環(huán)境聲音被錄入LD 3320芯片導(dǎo)致的誤識(shí)別,這種方式還是一種省電的方式,在不識(shí)別時(shí),徹底不讓芯片工作以省電。3、口令觸發(fā)模式在一些應(yīng)用場(chǎng)合,希望識(shí)別精度高,但是又無(wú)法要求用戶(hù)每次都用手按鍵來(lái)“觸發(fā)識(shí)別”。此時(shí),可以采用“口令觸發(fā)模式”。產(chǎn)品定義一句短語(yǔ),作為觸發(fā)口令。比如,可以定義“你好”作為觸發(fā)口令。產(chǎn)品在等待用戶(hù)觸發(fā)時(shí),啟動(dòng)一個(gè)“循環(huán)識(shí)別”模式,把觸發(fā)口令“你好”和其他幾十個(gè)用來(lái)吸收錯(cuò)誤的詞匯設(shè)置進(jìn)LD 3320。只有當(dāng)檢測(cè)到識(shí)別出的結(jié)果是觸發(fā)口令時(shí),才認(rèn)為是終端用戶(hù)叫了這個(gè)口令。此時(shí),給出提示音,并啟動(dòng)一個(gè)“觸發(fā)識(shí)別模式”,并把相應(yīng)的識(shí)別列表設(shè)置進(jìn)LD 3320,提示用戶(hù)在提示

48、音后幾秒鐘內(nèi)說(shuō)出要執(zhí)行的操作。在等待用戶(hù)的過(guò)程時(shí),如果識(shí)別的結(jié)果是那些(nxi)用來(lái)吸收錯(cuò)誤的詞匯,則認(rèn)為是誤識(shí)別,或者其他的聲音干擾,而不進(jìn)行任何(rnh)的處理,直接再次進(jìn)入“循環(huán)(xnhun)識(shí)別”模式。這種口令觸發(fā)模式,融合了其他兩種模式的優(yōu)點(diǎn),并且結(jié)合第二節(jié)提到的“垃圾關(guān)鍵詞語(yǔ)”的方法,可以為產(chǎn)品提供更加方便實(shí)用的語(yǔ)音操作特性。2.5.4 關(guān)鍵詞的ID及其設(shè)置在把關(guān)鍵詞語(yǔ)設(shè)置進(jìn)LD 3320時(shí),是把關(guān)鍵詞語(yǔ)的拼音串傳入LD 3320,并同時(shí)傳入一個(gè)ID,用來(lái)代表這個(gè)關(guān)鍵詞語(yǔ)。LD 3320的識(shí)別結(jié)果,也是把識(shí)別出的關(guān)鍵詞語(yǔ)的ID作為結(jié)果輸出。在LD 3320芯片,不同的關(guān)鍵詞語(yǔ)是可以

49、對(duì)應(yīng)同一個(gè)ID。 而且ID不需要是連續(xù)的。這樣就為產(chǎn)品開(kāi)發(fā)者提供了很方便的編程手段。例如:“北京”,“首都”,可以設(shè)置為同一個(gè)ID,進(jìn)行后續(xù)處理。例如:在使用第二節(jié)提到的“垃圾關(guān)鍵詞語(yǔ)”時(shí),可以把添加的這些用來(lái)吸收錯(cuò)誤的關(guān)鍵詞語(yǔ)的ID都標(biāo)記成一個(gè)值,或者把它們標(biāo)注為比較特殊的ID值,如大于200。在程序中就比較簡(jiǎn)單,很容易處理誤識(shí)別,避免了添加進(jìn)很多關(guān)鍵詞語(yǔ)后,寫(xiě)程序中需要為這些關(guān)鍵詞語(yǔ)的處理增加過(guò)多的程序分支。終端用戶(hù)在說(shuō)語(yǔ)音指令時(shí),可能對(duì)同一個(gè)詞匯有不同的發(fā)音習(xí)慣。例如,“打開(kāi)電燈”,用戶(hù)可能會(huì)說(shuō)“開(kāi)燈”,“打開(kāi)燈”,“打開(kāi)電燈”,“把燈打開(kāi)”等等。充分利用LD 3320的50條可動(dòng)態(tài)編輯

50、的關(guān)鍵識(shí)別條目的特性,開(kāi)發(fā)者可以把這些習(xí)慣發(fā)音都設(shè)置進(jìn)芯片,這樣無(wú)論用戶(hù)怎么說(shuō),都會(huì)被正確識(shí)別出來(lái),進(jìn)一步增加終端用戶(hù)的良好體驗(yàn)。2.5.5 反應(yīng)時(shí)間LD 3320芯片內(nèi)部是通過(guò)VAD(端點(diǎn)檢測(cè))機(jī)制來(lái)判斷(pndun)人是否說(shuō)完語(yǔ)音,并給出識(shí)別結(jié)果根據(jù)VAD機(jī)制,語(yǔ)音識(shí)別芯片監(jiān)測(cè)出有一段連續(xù)的背景噪音后,認(rèn)為用戶(hù)已經(jīng)說(shuō)完了語(yǔ)音識(shí)別命令,然后再給出識(shí)別結(jié)果。默認(rèn)設(shè)置是監(jiān)測(cè)到在人聲開(kāi)始后有連續(xù)的600毫秒的不說(shuō)話時(shí),才會(huì)給出識(shí)別結(jié)果。也就是說(shuō),根據(jù)默認(rèn)設(shè)置,從人說(shuō)話結(jié)束,到語(yǔ)音識(shí)別芯片(xn pin)主動(dòng)送出結(jié)果中斷,至少要有600毫秒的間隔,如果用戶(hù)希望調(diào)節(jié)這個(gè)反應(yīng)間隔,可以從以下幾方面入手:

51、1、改變(gibin)使用方式采用類(lèi)似于步話機(jī)的方式,每次人按鍵后,按下不放,開(kāi)始說(shuō)命令,說(shuō)完命令后,松開(kāi)按鍵,每次檢測(cè)到松開(kāi)按鍵時(shí),主控的單片機(jī)通過(guò)設(shè)置BC寄存器來(lái)立即獲得識(shí)別結(jié)果。2、修改VAD判斷的寄存器Vad Silence End在語(yǔ)音檢測(cè)到語(yǔ)音數(shù)據(jù)段以后,又檢測(cè)到背景噪音段,連續(xù)檢測(cè)到多長(zhǎng)時(shí)間的背景噪音段才可以確認(rèn)為是真正的語(yǔ)音結(jié)束。每1單位,10毫秒。Default:60,相當(dāng)于600毫秒數(shù)值范圍:20200(相當(dāng)于2002000毫秒)但是這個(gè)修改會(huì)導(dǎo)致,如果這個(gè)時(shí)間過(guò)短,導(dǎo)致用戶(hù)在說(shuō)話時(shí)的說(shuō)話停頓也會(huì)造成VAD檢測(cè)認(rèn)為說(shuō)話結(jié)束,從而降低某些用戶(hù)的識(shí)別率。3、修改麥克風(fēng)的音量35

52、寄存器,(建議調(diào)整范圍在40H58H之間),看哪個(gè)錄音增益適合使用的麥克風(fēng),以及使用的環(huán)境。4、修改B8寄存器比如修改為2,那么這意味著,無(wú)論如何,在每次識(shí)別開(kāi)始后2秒鐘的時(shí)間內(nèi),必然會(huì)停止識(shí)別給出一個(gè)識(shí)別結(jié)果。 如果b8值特別小,比如設(shè)置:1, 2, 3,就需要在開(kāi)始識(shí)別前,給用戶(hù)一個(gè)很明確的提示,要開(kāi)始識(shí)別了。免得用戶(hù)還沒(méi)有準(zhǔn)備就識(shí)別時(shí)間過(guò)去了。但這個(gè)間隔設(shè)置的過(guò)短,也必然會(huì)引起一些可能存在的誤識(shí)別,比如語(yǔ)音命令比較長(zhǎng),那么這個(gè)時(shí)間設(shè)置的太小,就會(huì)造成比較長(zhǎng)的語(yǔ)音命令無(wú)法在特定時(shí)間內(nèi)完整念完引起誤識(shí)別。所以當(dāng)這個(gè)數(shù)值設(shè)置比較小的時(shí)候,一般建議使用“觸發(fā)識(shí)別”的用戶(hù)界面,避免使用“循環(huán)識(shí)別”

53、的用戶(hù)界面。5、改變使用(shyng)環(huán)境或許在某些環(huán)境中的噪聲或者回聲會(huì)影響到判斷說(shuō)話結(jié)束。以及(yj)說(shuō)話人自己的音量,如果聲音很低,也會(huì)導(dǎo)致判斷人說(shuō)話是否結(jié)束比較困難。改變命令詞語(yǔ)內(nèi)容,比較好念,開(kāi)口音響亮等,方便使用者連續(xù)清晰念出語(yǔ)音命令。2.6 GPRS模塊(m kui)GPRS(General Packet Radio Service 通用分組無(wú)線業(yè)務(wù))是在現(xiàn)有GSM(Global System for Mobile communication全球移動(dòng)通信系統(tǒng))基礎(chǔ)上發(fā)展起來(lái)的一種新的承載業(yè)務(wù),目的是為GSM用戶(hù)提供分組形式的數(shù)據(jù)業(yè)務(wù)。GPRS采用與GSM同樣的無(wú)線調(diào)制標(biāo)準(zhǔn)、頻帶、

54、TDMA幀結(jié)構(gòu),因此在現(xiàn)有的基站子系統(tǒng)中增加一些模塊即可提供 GPRS 服務(wù)。GPRS 允許用戶(hù)在分組交換模式下發(fā)送和接收數(shù)據(jù),從而提供了一種高效、低成本的無(wú)線數(shù)據(jù)分組業(yè)務(wù)。在GSM系統(tǒng)中,無(wú)線信道資源非常寶貴,而采用 GPRS 則可靈活運(yùn)用無(wú)線信道,即每一個(gè)用戶(hù)可以有多個(gè)無(wú)線信道,而同一信道又可以由幾個(gè)用戶(hù)共享,極大地提高了無(wú)線資源的利用率。GPRS使現(xiàn)有GSM 網(wǎng)的數(shù)據(jù)業(yè)務(wù)突破了最高速率為9.6kbit/s的限制,最高數(shù)據(jù)速率可達(dá)171.2kbit/s。將計(jì)算機(jī)通過(guò)串行通信技術(shù)與 GPRS 無(wú)線通信網(wǎng)絡(luò)建立連接,可以實(shí)現(xiàn)手機(jī)與計(jì)算機(jī)的通信。計(jì)算機(jī)與GPRS網(wǎng)絡(luò)的連接可以采用GPRS模塊,也

55、可以采用GPRS Modem,此處采用基于AT指令的 M22 GPRS 模塊使計(jì)算機(jī)與 GPRS 網(wǎng)絡(luò)進(jìn)行連接,系統(tǒng)組成結(jié)構(gòu)如圖2-4所示。本文在Windows環(huán)境下,利用VB6.0中的Macomb控件實(shí)現(xiàn)GPRS模塊與計(jì)算機(jī)的串行通信,采用ADO對(duì)象模型對(duì)數(shù)據(jù)庫(kù)進(jìn)行訪問(wèn),實(shí)現(xiàn)語(yǔ)音撥號(hào)、語(yǔ)音發(fā)短信的功能?;贕PRS網(wǎng)絡(luò)的應(yīng)用系統(tǒng)組成結(jié)構(gòu)如圖2-6所示:計(jì)算機(jī)ARM9微處理器BenQM22GPRS手機(jī)圖2-6 基于(jy)GPRS 網(wǎng)絡(luò)(wnglu)的應(yīng)用系統(tǒng)組成結(jié)構(gòu)2.7 語(yǔ)音撥號(hào)模塊(m kui)摘機(jī)后無(wú)需再用手撥(前提是手機(jī)支語(yǔ)音撥號(hào)表面地來(lái)說(shuō)就是摘機(jī)后手動(dòng)指向手機(jī)語(yǔ)音撥號(hào)功能,說(shuō)出被叫

56、者姓名,電話即自動(dòng)拔向被叫者。一般分為6個(gè)步驟:1、從第一 HYPERLINK /view/905346.htm t _blank 畫(huà)面進(jìn)入撥號(hào) HYPERLINK /view/17674.htm t _blank 程序;2、聽(tīng)到“請(qǐng)說(shuō)出人名”的提示后說(shuō)出要與之通信的人名;3、手機(jī)將根據(jù)你的語(yǔ)音計(jì)算出數(shù)名聲音類(lèi)似的人名,第一條為首選;4、如果第一條正確,且該人名僅有一個(gè)號(hào)碼,按鍵撥號(hào),或在默認(rèn)時(shí)間內(nèi)自動(dòng)撥號(hào),通話;如果該人名的聯(lián)系電話多于一條,則啟動(dòng)“個(gè)人電話表”,選擇,撥號(hào);5、如果第一條不正確,其余條中有正確的,按動(dòng)上下鍵選擇正確,按鍵,通話; 6、如果都不正確,按C鍵,返回第一畫(huà)面。在使

57、用語(yǔ)音撥號(hào)之前,必須要錄制聲控標(biāo)簽,也就是說(shuō)為 HYPERLINK /view/249627.htm t _blank 電話薄中的幾個(gè)電話號(hào)碼錄制聲控標(biāo)簽。錄制聲控標(biāo)簽的具體操作步驟為:首先在手機(jī)面板中選擇“加聲控標(biāo)簽”按鈕,在隨后彈出的界面中選擇所需的姓名和電話號(hào)碼,接著再用手機(jī)按一下“功能鍵”,然后將手機(jī)貼近耳朵,用標(biāo)準(zhǔn)的話語(yǔ)來(lái)說(shuō)出要錄制的詞語(yǔ)就算完成錄制聲控工作了。2.8 語(yǔ)音短信模塊語(yǔ)音發(fā)短信是一款功能強(qiáng)大的語(yǔ)音聲控助手(zhshu),只要對(duì)軟件下指令,軟件即可用迅速簡(jiǎn)潔的方式協(xié)助用戶(hù)達(dá)成任務(wù),包括打開(kāi)關(guān)閉應(yīng)用程序,發(fā)送短信,撥打電話,撰寫(xiě) HYPERLINK /view/300107

58、.htm t _blank 文本(wnbn)等等。重要的是,軟件支持中文。同時(shí)語(yǔ)音發(fā)短信是一款出色的語(yǔ)音控制軟件,其界面精美,簡(jiǎn)單易用。語(yǔ)音識(shí)別率很高,并支持中文等語(yǔ)言,對(duì)完成手機(jī)(shu j)的基本操作非常實(shí)用。軟件的使用方法如下:1、單擊“ HYPERLINK /view/44516.htm t _blank 語(yǔ)音輸入”按鈕,進(jìn)行語(yǔ)音短信輸入,短信內(nèi)容將會(huì)自動(dòng)顯示; 2、編輯好語(yǔ)音內(nèi)容,單擊“發(fā)送短信”按鈕即可進(jìn)入短信界面,進(jìn)行短信發(fā)送; 3、也可以通過(guò)清空按鈕清空短信框中的內(nèi)容。2.9 LCD顯示連接電路漢字一般是以點(diǎn)陣式存儲(chǔ)的,如1616, HYPERLINK /tech/dr/200

59、010060034/328502.html t _blank 2424點(diǎn)陣,漢字的字模其實(shí)是漢字字形的圖形化,所謂16點(diǎn)陣字模,就是把漢字寫(xiě)在一個(gè)1616的網(wǎng)格內(nèi),漢字的筆劃通過(guò)某網(wǎng)格時(shí)該網(wǎng)格就對(duì)應(yīng)1,否則該網(wǎng)格對(duì)應(yīng)0,這樣,每一網(wǎng)格均對(duì)應(yīng)1或0,把對(duì)應(yīng)1的網(wǎng)格連起來(lái)看,就是這個(gè)漢字,漢字就是這樣通過(guò)字節(jié)表示其點(diǎn)陣存儲(chǔ)在字符字庫(kù)中的,為了方便查找所需漢字的點(diǎn)陣,每個(gè)漢字都與一個(gè)雙字節(jié)的內(nèi)碼一一對(duì)應(yīng),通過(guò)漢字的內(nèi)碼可以計(jì)算出它的點(diǎn)陣起始字節(jié)?,F(xiàn)以16點(diǎn)陣為例來(lái)進(jìn)行說(shuō)明,首先,可由內(nèi)碼計(jì)算出它在漢字庫(kù)中的區(qū)位碼,其計(jì)算公式為:BQ=Bn1-160BW=Bn2-160式中,BQ表示區(qū)碼,Bw為表示位

60、碼,而B(niǎo)n1和Bn2則分別表示內(nèi)碼的第一字節(jié)和內(nèi)碼的第二字節(jié)。當(dāng)這些區(qū)位碼被計(jì)算出來(lái)之后,就可以用區(qū)位碼得到它在漢字庫(kù)中字模第一個(gè)字節(jié)的位置,即:(BQ94+Bw)32。這樣,接下來(lái)就可以向連續(xù)讀出由32個(gè)字節(jié)組成的該字的點(diǎn)陣數(shù)據(jù)。液晶顯示器作為一種低功耗顯示器件,廣泛應(yīng)用于計(jì)算器、數(shù)字式儀表等低功耗系統(tǒng)中。但一般使用的液晶顯示器均為七段筆劃式,只能顯示數(shù)字和少量字符,對(duì)于較復(fù)雜的字符或圖形則無(wú)能為力。而點(diǎn)陣式液晶顯示模塊可以顯示各種各樣的字符(包括簡(jiǎn)單的漢字),而且點(diǎn)陣顯示模塊具有可編程能力。由于以上優(yōu)點(diǎn),點(diǎn)陣式液晶顯示模塊獲得了廣泛的應(yīng)用。LCD顯示連接電路如圖2-7所示:圖2-7 LCD

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶(hù)所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶(hù)上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶(hù)上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶(hù)因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論