智能機(jī)器人語音控制系統(tǒng)的設(shè)計(jì)_第1頁(yè)
智能機(jī)器人語音控制系統(tǒng)的設(shè)計(jì)_第2頁(yè)
智能機(jī)器人語音控制系統(tǒng)的設(shè)計(jì)_第3頁(yè)
智能機(jī)器人語音控制系統(tǒng)的設(shè)計(jì)_第4頁(yè)
智能機(jī)器人語音控制系統(tǒng)的設(shè)計(jì)_第5頁(yè)
已閱讀5頁(yè),還剩51頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

智能機(jī)器人語音控制系統(tǒng)的設(shè)計(jì)摘要語音識(shí)別技術(shù)是當(dāng)今世界的研究熱點(diǎn)之一,一直受到學(xué)術(shù)界和企業(yè)的普遍關(guān)注,語音識(shí)別技術(shù)的應(yīng)用對(duì)于智能機(jī)器人的實(shí)用化會(huì)取到巨大的作用。同時(shí),通過智能機(jī)器人這一平臺(tái),也可以更好的研究語音技術(shù)的實(shí)用化問題,從而使之得到更廣泛的運(yùn)用。本系統(tǒng)的設(shè)計(jì)的目的就是為了方便人機(jī)交互,論文首先介紹了智能機(jī)器人語音識(shí)別技術(shù)的發(fā)展歷程,并分析了影響機(jī)器人語音識(shí)別的主要因素。然后詳細(xì)介紹了語音識(shí)別的原理以及在語音信號(hào)處理過程中采用的分析方法和技術(shù)。接著介紹了芯片SPCE061A單片機(jī)的特點(diǎn),并以此芯片為主控芯片建立起了語音控制系統(tǒng)的硬件結(jié)構(gòu),并編寫了相應(yīng)的程序。最后,通過對(duì)系統(tǒng)進(jìn)行了調(diào)試和仿真得出結(jié)論:該機(jī)器人采用語音識(shí)別對(duì)機(jī)器人進(jìn)行控制,可以完成向前走、倒退、左轉(zhuǎn)、右轉(zhuǎn)、停止、發(fā)射等功能。關(guān)鍵字:SPCE061A單片機(jī);機(jī)器人;語音識(shí)別;調(diào)試和仿真THEDESIGNOFSPEECH-CONTROLLED

INTELLIGENTROBOTSYSTEMABSTRACTSpeechrecognitiontechnologyisoneofthefocusoftoday'sworld,hasbeenthegeneralconcernofacademiaandbusiness.Speechrecognitiontechnologyforintelligentrobotswillbepracticaltotakeagreatrole.Meanwhile,theintelligentrobotplatformcanbetterstudythepracticalproblemsspeechtechnology,thusmakingitmorewidelyused.Thepurposeofthisdesignistofacilitatehuman-computerinteraction.Firstthepaperintroducesthedevelopmentprocessoftheintelligentrobotvoicerecognitiontechnology,andanalyzestheimpactofthemainfactorstotherobotspeechrecognition.Thenitintroducestheprincipleofspeechrecognitionandspeechsignalprocessingmethodsandtechniquesusedinanalysis.AndthenitdescribesthecharacteristicsofthechipmicrocomputerSPCE061A,andtoestablishavoicecontrolsystemhardwarestructureofthissystem,compiledthecorrespondingprogram.Finally,thesystemwasdebuggedandsimulated.Theconclusionisthattherobotspeechrecognitiontocontroltherobotcanbedoneforward,backward,turnleft,turnright,stop,firingandotherfunctions.Keyword:SPCE061AMCU;robotics;peechrecognition;debuggingandsimulation目錄TOC\o"1-5"\h\z\o"CurrentDocument"1 緒論 1\o"CurrentDocument"1.1課題研究背景 1\o"CurrentDocument"1.2智能機(jī)器人概述及現(xiàn)狀 21.2.1智能機(jī)器人概述 2\o"CurrentDocument"1.2.2智能機(jī)器人發(fā)展方向 3\o"CurrentDocument"1.3語音識(shí)別技術(shù)的概述 5\o"CurrentDocument"1.4語音識(shí)別的發(fā)展歷史 5\o"CurrentDocument"1.4.1國(guó)外研究歷史及現(xiàn)狀 51.4.2國(guó)內(nèi)研究歷史及現(xiàn)狀 6\o"CurrentDocument"1.5語音識(shí)別技術(shù)的前景和應(yīng)用 7\o"CurrentDocument"1.6影響智能機(jī)器人語音識(shí)別系統(tǒng)設(shè)計(jì)的主要因素 8\o"CurrentDocument"1.7論文主要研究?jī)?nèi)容 9語音識(shí)別原理和設(shè)計(jì)采用方案 10\o"CurrentDocument"2.1語音識(shí)別的分類 10\o"CurrentDocument"2.2語音識(shí)別基本原理 10\o"CurrentDocument"2.3語音信號(hào)預(yù)處理 11\o"CurrentDocument"2.4特征量的提取 12\o"CurrentDocument"2.4.1線性預(yù)測(cè)分析 13\o"CurrentDocument"2.4.2倒譜分析 152.5模式匹配及模型訓(xùn)練技術(shù) 15\o"CurrentDocument"2.6本設(shè)計(jì)選用的方案 162.6.1系統(tǒng)采用的芯片 16\o"CurrentDocument"2.6.2系統(tǒng)采用的語音識(shí)別算法 17\o"CurrentDocument"智能機(jī)器人語音控制系統(tǒng)硬件電路設(shè)計(jì) 19\o"CurrentDocument"3.1設(shè)計(jì)總體方案 19\o"CurrentDocument"3.2SPCE061A單片機(jī)的主要特點(diǎn) 20\o"CurrentDocument"3.3電源模塊 21\o"CurrentDocument"MIC輸入模塊 22\o"CurrentDocument"3.5語音輸出模塊 23\o"CurrentDocument"3.6超聲波傳感模塊 23\o"CurrentDocument"3.7通信模塊 24\o"CurrentDocument"3.8機(jī)器人動(dòng)作模塊 25智能機(jī)器人語音控制系統(tǒng)軟件設(shè)計(jì) 27\o"CurrentDocument"4.1設(shè)計(jì)總體方案 27\o"CurrentDocument"4.2語音識(shí)別模塊 29\o"CurrentDocument"4.3語音訓(xùn)練模塊 304.4語音播放模塊 31\o"CurrentDocument"4.5機(jī)器人動(dòng)作模塊 325系統(tǒng)調(diào)試及仿真 335.1系統(tǒng)調(diào)試 33\o"CurrentDocument"5.1.1硬件調(diào)試 33\o"CurrentDocument"5.1.2軟件調(diào)試 335.2系統(tǒng)仿真 34\o"CurrentDocument"5.3結(jié)論 35參考文獻(xiàn) 36致謝 37\o"CurrentDocument"附錄設(shè)計(jì)源程序 38附件:附件1開題報(bào)告(文件綜述)附件2譯文及原件影印件1緒論1.1課題研究背景隨著現(xiàn)代科學(xué)技術(shù)和計(jì)算機(jī)技術(shù)的發(fā)展,人們?cè)谂c計(jì)器的信息交流中,需要一種更加方便、自然的方式。語言是人類最重要、最有效、最常用的和最方便的通信形式。這很容易讓人想到能否用自然語言代替?zhèn)鹘y(tǒng)的人機(jī)叫交流方式,如鍵盤、鼠標(biāo)等,人機(jī)自然語音對(duì)話就意味著機(jī)器應(yīng)具有聽覺,能聽懂人類的口頭語言,這就是語音識(shí)別的功能。語音識(shí)別是語音信號(hào)處理的重要研究方向之一,控制論創(chuàng)始人維納在1950年曾指出:“通常,我們把語音僅僅看作人與人之間的通信手段,但是,要使人向機(jī)器,機(jī)器向人以及機(jī)器講話,那也是完全辦得到的”。語音是語言信息的載體,語音識(shí)別的基本任務(wù)是將輸入的語音轉(zhuǎn)化為相應(yīng)的語言代碼。這樣,不僅使存儲(chǔ)或傳輸這樣的語言代碼時(shí)的數(shù)碼率比起存儲(chǔ)或傳輸原來有語音信號(hào)來大幅降低,而且還在于它把一種連續(xù)的語音信號(hào)變成一種有限符號(hào),這樣的符號(hào)容易被計(jì)算機(jī)理解其含義,并且便于與人類交流,因而語音識(shí)別得到十分廣泛的應(yīng)用。隨著計(jì)算機(jī)技術(shù)、模式識(shí)別和信號(hào)處理技術(shù)及聲學(xué)技術(shù)等的發(fā)展,使得能滿足各種需要的語音識(shí)別系統(tǒng)的實(shí)現(xiàn)成為可能。近二三十年來,語音識(shí)別在工作、軍事、交通、醫(yī)學(xué)、民用諸方面,特別是在計(jì)算機(jī)、信息處理、通信與電子系統(tǒng)、自動(dòng)控制等領(lǐng)域中有著廣泛的應(yīng)用[1]。當(dāng)今,語音識(shí)別產(chǎn)品在人機(jī)交互應(yīng)用中己經(jīng)占到越來越大的比例。近年來,隨著消費(fèi)類電子產(chǎn)品對(duì)低成本、高穩(wěn)健性的語音識(shí)別芯片的需求快速增加。使得語音識(shí)別系統(tǒng)大量地從PC機(jī)轉(zhuǎn)移到嵌入式設(shè)備中。通過研究者的不斷努力,現(xiàn)在嵌入式非特定人語音識(shí)別系統(tǒng)識(shí)別精度己經(jīng)達(dá)到85%以上,而對(duì)特定人語音識(shí)別系線的識(shí)別精度就更高了。嵌入式語音識(shí)別系統(tǒng)與PC機(jī)的語音識(shí)別系統(tǒng)相比,雖然其運(yùn)算速度和存儲(chǔ)容量有限,但它具有自己的一些特點(diǎn)。首先,除語音識(shí)別功能外。為了有一個(gè)友好的人機(jī)界面和對(duì)識(shí)別正確與否的驗(yàn)證,該系統(tǒng)還具備語音提示及語音回放功能其次,嵌入式語音識(shí)別系統(tǒng)多為實(shí)時(shí)系統(tǒng)。即當(dāng)用戶說完待識(shí)別的詞條后,系統(tǒng)立即完成識(shí)別功能洋右樂回應(yīng)。最后,嵌入式語音識(shí)別系統(tǒng)具有體積小??煽啃愿?、耗電省、投入少、價(jià)格低廉并且便攜性好??芍С忠苿?dòng)作業(yè)等優(yōu)點(diǎn)。這是嵌入式語音識(shí)別系統(tǒng)與PC機(jī)的語音識(shí)別系統(tǒng)相比最大的優(yōu)勢(shì),嵌入式語音識(shí)別系統(tǒng)的優(yōu)點(diǎn)使得其應(yīng)用的領(lǐng)城十分廣泛。從研究現(xiàn)狀來看,作為語音識(shí)別的標(biāo)志性技術(shù),無限詞匯量、非特定人、連續(xù)語音識(shí)別系統(tǒng)在比較安靜環(huán)境下,對(duì)于比較正式的書面語言已經(jīng)達(dá)到了相當(dāng)高的使用程度,在限定環(huán)境下還能達(dá)到更好的效果,我們?nèi)砸M(jìn)一步提高識(shí)別系統(tǒng)對(duì)不同環(huán)境、不同說話人和不太說話內(nèi)容的穩(wěn)健性。語音識(shí)別技術(shù)主要包含幾個(gè)方面:語音控制、電子發(fā)聲、連續(xù)語音識(shí)別、非連續(xù)語音識(shí)別和語音學(xué)習(xí)。目前主要是在支持中英文混合識(shí)別問題上,存在一些障礙,同時(shí)在識(shí)別大量詞匯和個(gè)別發(fā)音方面還很難做到準(zhǔn)確。作為語音識(shí)別技術(shù)新方向的語音學(xué)習(xí),它則要求人模仿標(biāo)準(zhǔn)發(fā)音,其面臨的困難是如何衡量人的好壞。智能機(jī)器人概述及現(xiàn)狀1.2.1智能機(jī)器人概述我們從廣泛意義上理解所謂的智能機(jī)器人,它給人的最深刻的印象是一個(gè)獨(dú)特的進(jìn)行自我控制的“活物”。其實(shí),這個(gè)自控“活物”的主要器官并沒有像真正的人那樣微妙而復(fù)雜。智能機(jī)器人具備形形色色的內(nèi)部信息傳感器和外部信息傳感器,如視覺、聽覺、觸覺、嗅覺。除具有感受器外,它還有效應(yīng)器,作為作用于周圍環(huán)境的手段。這就是筋肉,或稱自整步電動(dòng)機(jī),它們使手、腳、長(zhǎng)鼻子、觸角等動(dòng)起來。我們稱這種機(jī)器人為自控機(jī)器人,以便使它同前面談到的機(jī)器人區(qū)分開來。它是控制論產(chǎn)生的結(jié)果,控制論主張這樣的事實(shí):生命和非生命有目的的行為在很多方面是一致的。正像一個(gè)智能機(jī)器人制造者所說的,機(jī)器人是一種系統(tǒng)的功能描述,這種系統(tǒng)過去只能從生命細(xì)胞生長(zhǎng)的結(jié)果中得到,現(xiàn)在它們已經(jīng)成了我們自己能夠制造的東西了[2]。智能機(jī)器人能夠理解人類語言,用人類語言同操作者對(duì)話,在它自身的“意識(shí)”中單獨(dú)形成了一種使它得以“生存”的外界環(huán)境——實(shí)際情況的詳盡模式。它能分析出現(xiàn)的情況,能調(diào)整自己的動(dòng)作以達(dá)到操作者所提出的全部要求,能擬定所希望的動(dòng)作,并在信息不充分的情況下和環(huán)境迅速變化的條件下完成這些動(dòng)作。當(dāng)然,要它和我們?nèi)祟愃季S一模一樣,這是不可能辦到的。不過,仍然有人試圖建立計(jì)算機(jī)能夠理解的某種“微觀世界”。比如維諾格勒在麻省理工學(xué)院人工智能實(shí)驗(yàn)室里制作的機(jī)器人。這個(gè)機(jī)器試圖完全學(xué)會(huì)玩積木:積木的排列、移動(dòng)和幾何圖案結(jié)構(gòu),達(dá)到一個(gè)小孩子的程度。這個(gè)機(jī)器人能獨(dú)自行走和拿起一定的物品,能“看到”東西并分析看到的東西,能服從指令并用人類語言回答問題。更重要的是它具有“理解”能力。為此,有人曾經(jīng)在一次人工智能學(xué)術(shù)會(huì)議上說過,不到十年,我們把電子計(jì)算機(jī)的智力提高了10倍;如維諾格勒所指出的,計(jì)算機(jī)具有明顯的人工智能成分。第2頁(yè)共43頁(yè)機(jī)器人現(xiàn)在已被廣泛地用于生產(chǎn)和生活的許多領(lǐng)域,按其擁有智能的水平可以分為三個(gè)層次。一是工業(yè)機(jī)器人,它只能死板地按照人給它規(guī)定的程序工作,不管外界條件有何變化,自己都不能對(duì)程序也就是對(duì)所做的工作作相應(yīng)的調(diào)整。如果要改變機(jī)器人所做的工作,必須由人對(duì)程序作相應(yīng)的改變,因此它是毫無智能的。二是初級(jí)智能機(jī)器人。它和工業(yè)機(jī)器人不一樣,具有象人那樣的感受,識(shí)別,推理和判斷能力??梢愿鶕?jù)外界條件的變化,在一定范圍內(nèi)自行修改程序,也就是它能適應(yīng)外界條件變化對(duì)自己怎樣作相應(yīng)調(diào)整。不過,修改程的原則由人預(yù)先給以規(guī)定。這種初級(jí)智能機(jī)器人已擁有一定的智能,雖然還沒有自動(dòng)規(guī)劃能力,但這種初級(jí)智能機(jī)器人也開始走向成熟,達(dá)到實(shí)用水平。三是高級(jí)智能機(jī)器人。它和初級(jí)智能機(jī)器人一樣,具有感覺,識(shí)別,推理和判斷能力,同樣可以根據(jù)外界條件的變化,在一定范圍內(nèi)自行修改程序。所不同的是,修改程序的原則不是由人規(guī)定的,而是機(jī)器人自己通過學(xué)習(xí),總結(jié)經(jīng)驗(yàn)來獲得修改程序的原則。所以它的智能高出初能智能機(jī)器人。這種機(jī)器人已擁有一定的自動(dòng)規(guī)劃能力,能夠自己安排自己的工作。這種機(jī)器人可以不要人的照料,完全獨(dú)立的工作,故稱為高級(jí)自律機(jī)器人。這種機(jī)器人也開始走向?qū)嵱?。智能機(jī)器人發(fā)展方向不過,盡管機(jī)器人人工智能取得了顯著的成績(jī),控制論專家們認(rèn)為它可以具備的智能水平的極限并未達(dá)到。問題不光在于計(jì)算機(jī)的運(yùn)算速度不夠和感覺傳感器種類少,而且在于其他方面,如缺乏編制機(jī)器人理智行為程序的設(shè)計(jì)思想。你想,現(xiàn)在甚至連人在解決最普通的問題時(shí)的思維過程都沒有破譯,人類的智能會(huì)如何呢——這種認(rèn)識(shí)過程進(jìn)展十分緩慢,又怎能掌握規(guī)律讓計(jì)算機(jī)“思維”速度快點(diǎn)呢?因此,沒有認(rèn)識(shí)人類自己這個(gè)問題成了機(jī)器人發(fā)展道路上的絆腳石。制造“生活”在具有不固定性環(huán)境中的智能機(jī)器人這一課題,近年來使人們對(duì)發(fā)生在生物系統(tǒng)、動(dòng)物和人類大腦中的認(rèn)識(shí)和自我認(rèn)識(shí)過程進(jìn)行了深刻研究[3]。結(jié)果就出現(xiàn)了等級(jí)自適應(yīng)系統(tǒng)說,這種學(xué)說正在有效地發(fā)展著。作為組織智能機(jī)器人進(jìn)行符合目的的行為的理論基礎(chǔ),我們的大腦是怎樣控制我們的身體呢?純粹從機(jī)械學(xué)觀點(diǎn)來粗略估算,我們的身體也具有兩百多個(gè)自由度。當(dāng)我們?cè)谶M(jìn)行寫字、走路、跑步、游泳、彈鋼琴這些復(fù)雜動(dòng)作的時(shí)候,大腦究竟是怎樣對(duì)每一塊肌肉發(fā)號(hào)施令的呢?大腦怎么能在最短的時(shí)間內(nèi)處理完這么多的信息呢?我們的大腦根本沒有參與這些活動(dòng)。大腦——我們的中心信息處理機(jī)“不屑于”去管這個(gè)。它根第3頁(yè)共43頁(yè)本不去監(jiān)督我們身體的各個(gè)運(yùn)動(dòng)部位,動(dòng)作的詳細(xì)設(shè)計(jì)是在比大腦皮層低得多的水平上進(jìn)行的。這很像用高級(jí)語言進(jìn)行程序設(shè)計(jì)一樣,只要指出“間隔為一的從1?20的一組數(shù)字”,機(jī)器人自己會(huì)將這組指令輸入詳細(xì)規(guī)定的操作系統(tǒng)。最明顯的就是,“一接觸到熱的物體就把手縮回來”這類最明顯的指令甚至在大腦還沒有意識(shí)到的時(shí)候就已經(jīng)發(fā)出了。把一個(gè)大任務(wù)在幾個(gè)皮層之間進(jìn)行分配,這比控制器官給構(gòu)成系統(tǒng)的每個(gè)要素規(guī)定必要?jiǎng)幼鞯膰?yán)格集中的分配合算、經(jīng)濟(jì)、有效。在解決重大問題的時(shí)候,這樣集中化的大腦就會(huì)顯得過于復(fù)雜,不僅腦顱,甚至連人的整個(gè)身體都容納不下。在完成這樣或那樣的一些復(fù)雜動(dòng)作時(shí),我們通常將其分解成一系列的普遍的小動(dòng)作(如起來、坐下、邁右腳、邁左腳)。教給小孩各種各樣的動(dòng)作可歸結(jié)為在小孩的“存儲(chǔ)器”中形成并鞏固相應(yīng)的小動(dòng)作。同樣的道理,知覺過程也是如此組織起來的。感性形象——這是聽覺、視覺或觸覺脈沖的固定序列或組合(馬、人),或者是序列和組合二者兼而有之。學(xué)習(xí)能力是復(fù)雜生物系統(tǒng)中組織控制的另一個(gè)普遍原則,是對(duì)先前并不知道、在相當(dāng)廣泛范圍內(nèi)發(fā)生變化的生活環(huán)境的適應(yīng)能力。這種適應(yīng)能力不僅是整個(gè)機(jī)體所固有的,而且是機(jī)體的單個(gè)器官、甚至功能所固有的,這種能力在同一個(gè)問題應(yīng)該解決多次的情況下是不可替代的。適應(yīng)能力這種現(xiàn)象,在整個(gè)生物界的合乎目的的行為中起著極其重要的作用??刂茩C(jī)器人的問題在于模擬動(dòng)物運(yùn)動(dòng)和人的適應(yīng)能力。建立機(jī)器人控制的等級(jí)——首先是在機(jī)器人的各個(gè)等級(jí)水平上和子系統(tǒng)之間實(shí)行知覺功能、信息處理功能和控制功能的分配。第三代機(jī)器人具有大規(guī)模處理能力,在這種情況下信息的處理和控制的完全統(tǒng)一算法,實(shí)際上是低效的,甚至是不中用的。所以,等級(jí)自適應(yīng)結(jié)構(gòu)的出現(xiàn)首先是為了提高機(jī)器人控制的質(zhì)量,也就是降低不定性水平,增加動(dòng)作的快速性。為了發(fā)揮各個(gè)等級(jí)和子系統(tǒng)的作用,必須使信息量大大減少。因此算法的各司其職使人們可以在不定性大大減少的情況下來完成任務(wù)??傊悄艿陌l(fā)達(dá)是第三代機(jī)器人的一個(gè)重要特征。人們根據(jù)機(jī)器人的智力水平?jīng)Q定其所屬的機(jī)器人代別。有的人甚至依此將機(jī)器人分為以下幾類:受控機(jī)器人——“零代”機(jī)器人,不具備任何智力性能,是由人來掌握操縱的機(jī)械手;可以訓(xùn)練的機(jī)器人——第一代機(jī)器人,擁有存儲(chǔ)器,由人操作,動(dòng)作的計(jì)劃和程序由人指定,它只是記?。ń邮苡?xùn)練的能力)和再現(xiàn)出來;感覺機(jī)器人——機(jī)器人記住人安排的計(jì)劃后,再依據(jù)外界這樣或那樣的數(shù)據(jù)(反饋)算出動(dòng)作的具體程序;智能機(jī)器人——人指定目標(biāo)后,機(jī)器人獨(dú)自編制操作計(jì)劃,依據(jù)實(shí)際情況確定動(dòng)作程序,然后把動(dòng)作變?yōu)椴僮鳈C(jī)構(gòu)的運(yùn)動(dòng)。因此,它有廣泛的感覺系統(tǒng)、智能、模擬裝置(周圍情況及自身——機(jī)器人的意識(shí)和自我意識(shí))。1.3語音識(shí)別技術(shù)的概述語音識(shí)別技術(shù),也被稱為自動(dòng)語音識(shí)別AutomaticSpeechRecognition,(ASR),其目標(biāo)是將人類的語音中的詞匯內(nèi)容轉(zhuǎn)換為計(jì)算機(jī)可讀的輸入,例如按鍵、二進(jìn)制編碼或者字符序列。與說話人識(shí)別及說話人確認(rèn)不同,后者嘗試識(shí)別或確認(rèn)發(fā)出語音的說話人而非其中所包含的詞匯內(nèi)容。語音識(shí)別技術(shù)的應(yīng)用包括語音撥號(hào)、語音導(dǎo)航、室內(nèi)設(shè)備控制、語音文檔檢索、簡(jiǎn)單的聽寫數(shù)據(jù)錄入等。語音識(shí)別技術(shù)與其他自然語言處理技術(shù)如機(jī)器翻譯及語音合成技術(shù)相結(jié)合,可以構(gòu)建出更加復(fù)雜的應(yīng)用,例如語音到語音的翻譯。語音識(shí)別技術(shù)所涉及的領(lǐng)域包括:信號(hào)處理、模式識(shí)別、概率論和信息論、發(fā)聲機(jī)理和聽覺機(jī)理、人工智能等等[4]。語音識(shí)別的發(fā)展歷史1.4.1國(guó)外研究歷史及現(xiàn)狀語音識(shí)別的研究工作可以追溯到20世紀(jì)50年代AT&T貝爾實(shí)驗(yàn)室的Audry系統(tǒng),它是第一個(gè)可以識(shí)別十個(gè)英文數(shù)字的語音識(shí)別系統(tǒng)。但真正取得實(shí)質(zhì)性進(jìn)展,并將其作為一個(gè)重要的課題開展研究則是在60年代末70年代初[5]。這首先是因?yàn)橛?jì)算機(jī)技術(shù)的發(fā)展為語音識(shí)別的實(shí)現(xiàn)提供了硬件和軟件的可能,更重要的是語音信號(hào)線性預(yù)測(cè)編碼(LPC)技術(shù)和動(dòng)態(tài)時(shí)間規(guī)整(DTW)技術(shù)的提出,有效的解決了語音信號(hào)的特征提取和不等長(zhǎng)匹配問題。這一時(shí)期的語音識(shí)別主要基于模板匹配原理,研究的領(lǐng)域局限在特定人,小詞匯表的孤立詞識(shí)別,實(shí)現(xiàn)了基于線性預(yù)測(cè)倒譜和DTW技術(shù)的特定人孤立詞語音識(shí)別系統(tǒng);同時(shí)提出了矢量量化(VQ)和隱馬爾可夫模型(HMM)理論。隨著應(yīng)用領(lǐng)域的擴(kuò)大,小詞匯表、特定人、孤立詞等這些對(duì)語音識(shí)別的約束條件需要放寬,與此同時(shí)也帶來了許多新的問題:第一,詞匯表的擴(kuò)大使得模板的選取和建立發(fā)生困難;第二,連續(xù)語音中,各個(gè)音素、音節(jié)以及詞之間沒有明顯的邊界,各個(gè)發(fā)音單位存在受上下文強(qiáng)烈影響的協(xié)同發(fā)音(Co-articulation)現(xiàn)象;第三,非特定人識(shí)別時(shí),不同的人說相同的話相應(yīng)的聲學(xué)特征有很大的差異,即使相同的人在不同的時(shí)間、生理、心理狀態(tài)下,說同樣內(nèi)容的話也會(huì)有很大的差異;第四,識(shí)別的語音中有背景噪聲或其他干擾。因此原有的模板匹配方法已不再適用。實(shí)驗(yàn)室語音識(shí)別研究的巨大突破產(chǎn)生于20世紀(jì)80年代末:人們終于在實(shí)驗(yàn)室突破了大詞匯量、連續(xù)語音和非特定人這三大障礙,第一次把這三個(gè)特性都集成在一個(gè)系統(tǒng)中,比較典型的是卡耐基梅隆大(CarnegieMellonUniversity)的Sphinx系統(tǒng),它是第一個(gè)高性能的非特定人、大詞匯量連續(xù)語音識(shí)別系統(tǒng)。這一時(shí)期,語音識(shí)別研究進(jìn)一步走向深入,其顯著特征是HMM模型和人工神經(jīng)元網(wǎng)絡(luò)(ANN)在語音識(shí)別中的成功應(yīng)用。HMM模型的廣泛應(yīng)用應(yīng)歸功于AT&TBell實(shí)驗(yàn)室Rabiner等科學(xué)家的努力,他們把原本艱澀的HMM純數(shù)學(xué)模型工程化,從而為更多研究者了解和認(rèn)識(shí),從而使統(tǒng)計(jì)方法成為了語音識(shí)別技術(shù)的主流。統(tǒng)計(jì)方法將研究者的視線從微觀轉(zhuǎn)向宏觀,不再刻意追求語音特征的細(xì)化,而是更多地從整體平均(統(tǒng)計(jì))的角度來建立最佳的語音識(shí)別系統(tǒng)。在聲學(xué)模型方面,以Markov鏈為基礎(chǔ)的語音序列建模方法HMM(隱式Markov鏈)比較有效地解決了語音信號(hào)短時(shí)穩(wěn)定、長(zhǎng)時(shí)時(shí)變的特性,并且能根據(jù)一些基本建模單元構(gòu)造成連續(xù)語音的句子模型,達(dá)到了比較高的建模精度和建模靈活性。在語言層面上,通過統(tǒng)計(jì)真實(shí)大規(guī)模語料的詞之間同現(xiàn)概率即N元統(tǒng)計(jì)模型來區(qū)分識(shí)別帶來的模糊音和同音詞。另外,人工神經(jīng)網(wǎng)絡(luò)方法、基于文法規(guī)則的語言處理機(jī)制等也在語音識(shí)別中得到了應(yīng)用。20世紀(jì)90年代前期,許多著名的大公司如IBM、蘋果、AT&T和NTT都對(duì)語音識(shí)別系統(tǒng)的實(shí)用化研究投以巨資。語音識(shí)別技術(shù)有一個(gè)很好的評(píng)估機(jī)制,那就是識(shí)別的準(zhǔn)確率,而這項(xiàng)指標(biāo)在20世紀(jì)90年代中后期實(shí)驗(yàn)室研究中得到了不斷的提高。比較有代表性的系統(tǒng):IBM公司推出的ViaWice和DragonSystem公司NaturallySpeaking,Nuance公司的NuanceVoicePlatform語音平臺(tái),Microsoft的Whisper,Sun的VoiceTone等。其中IBM公司于1997年開發(fā)出漢語ViaWice語音識(shí)別系統(tǒng),次年又開發(fā)出可以識(shí)別上海話、廣東話和四川話等地方口音的語音識(shí)別系統(tǒng)ViaWice'98。它帶有一個(gè)32.000詞的基本詞匯表,可以擴(kuò)展到65,000詞,還包括辦公常用詞條,具有“糾錯(cuò)機(jī)制”,其平均識(shí)別率可以達(dá)到95%。該系統(tǒng)對(duì)新聞?wù)Z音識(shí)別具有較高的精度,是目前具有代表性的漢語連續(xù)語音識(shí)別系統(tǒng)。國(guó)內(nèi)研究歷史及現(xiàn)狀我國(guó)語音識(shí)別研究工作起步于五十年代,但近年來發(fā)展很快。研究水平也從實(shí)驗(yàn)室逐步走向?qū)嵱?。?987年開始執(zhí)行國(guó)家863計(jì)劃后,國(guó)家863智能計(jì)算機(jī)專家組為語音識(shí)別技術(shù)研究專門立項(xiàng),每?jī)赡隄L動(dòng)一次。我國(guó)語音識(shí)別技術(shù)的研究水平已經(jīng)基本上第6頁(yè)共43頁(yè)與國(guó)外同步,在漢語語音識(shí)別技術(shù)上還有自己的特點(diǎn)與優(yōu)勢(shì),并達(dá)到國(guó)際先進(jìn)水平。中科院自動(dòng)化所、聲學(xué)所、清華大學(xué)、北京大學(xué)、哈爾濱工業(yè)大學(xué)、上海交通大學(xué)、中國(guó)科技大學(xué)、北京郵電大學(xué)、華中科技大學(xué)等科研機(jī)構(gòu)都有實(shí)驗(yàn)室進(jìn)行過語音識(shí)別方面的研究,其中具有代表性的研究單位為清華大學(xué)電子工程系與中科院自動(dòng)化研究所模式識(shí)別國(guó)家重點(diǎn)實(shí)驗(yàn)室[6]。清華大學(xué)電子工程系語音技術(shù)與專用芯片設(shè)計(jì)課題組,研發(fā)的非特定人漢語數(shù)碼串連續(xù)語音識(shí)別系統(tǒng)的識(shí)別精度,達(dá)到94.8%(不定長(zhǎng)數(shù)字串)和96.8%(定長(zhǎng)數(shù)字串)。在有5%的拒識(shí)率情況下,系統(tǒng)識(shí)別率可以達(dá)到96.9%(不定長(zhǎng)數(shù)字串)和98.7%(定長(zhǎng)數(shù)字串),這是目前國(guó)際最好的識(shí)別結(jié)果之一,其性能已經(jīng)接近實(shí)用水平。研發(fā)的5000詞郵包校核非特定人連續(xù)語音識(shí)別系統(tǒng)的識(shí)別率達(dá)到98.73%,前三選識(shí)別率達(dá)99.96%;并且可以識(shí)別普通話與四川話兩種語言,達(dá)到實(shí)用要求。中科院自動(dòng)化所及其所屬模式科技(Pattek)公司2002年發(fā)布了他們共同推出的面向不同計(jì)算平臺(tái)和應(yīng)用的“天語”中文語音系列產(chǎn)品一PattekASR,結(jié)束了中文語音識(shí)別產(chǎn)品自1998年以來一直由國(guó)外公司壟斷的歷史。語音識(shí)別技術(shù)的前景和應(yīng)用在電話與通信系統(tǒng)中,智能語音接口正在把電話機(jī)從一個(gè)單純的服務(wù)工具變成為一個(gè)服務(wù)的“提供者”和生活“伙伴”。使用電話與通信網(wǎng)絡(luò),人們可以通過語音命令方便地從遠(yuǎn)端的數(shù)據(jù)庫(kù)系統(tǒng)中查詢與提取有關(guān)的信息;隨著計(jì)算機(jī)的小型化,鍵盤已經(jīng)成為移動(dòng)平臺(tái)的一個(gè)很大障礙,想象一下如果手機(jī)僅僅只有一個(gè)手表那么大,再用鍵盤進(jìn)行撥號(hào)操作已經(jīng)是不可能的。語音識(shí)別正逐步成為信息技術(shù)中人機(jī)接口的關(guān)鍵技術(shù),語音識(shí)別技術(shù)與語音合成技術(shù)結(jié)合使人們能夠甩掉鍵盤,通過語音命令進(jìn)行操作。語音技術(shù)的應(yīng)用已經(jīng)成為一個(gè)具有競(jìng)爭(zhēng)性的新興高技術(shù)產(chǎn)業(yè)[7]。語音識(shí)別技術(shù)發(fā)展到今天,特別是中小詞匯量非特定人語音識(shí)別系統(tǒng)識(shí)別精度已經(jīng)大于98%,對(duì)特定人語音識(shí)別系統(tǒng)的識(shí)別精度就更高。這些技術(shù)已經(jīng)能夠滿足通常應(yīng)用的要求。由于大規(guī)模集成電路技術(shù)的發(fā)展,這些復(fù)雜的語音識(shí)別系統(tǒng)也已經(jīng)完全可以制成專用芯片,大量生產(chǎn)。在西方經(jīng)濟(jì)發(fā)達(dá)國(guó)家,大量的語音識(shí)別產(chǎn)品已經(jīng)進(jìn)入市場(chǎng)和服務(wù)領(lǐng)域。一些用戶交機(jī)、電話機(jī)、手機(jī)已經(jīng)包含了語音識(shí)別撥號(hào)功能,還有語音記事本、語音智能玩具等產(chǎn)品也包括語音識(shí)別與語音合成功能。人們可以通過電話網(wǎng)絡(luò)用語音識(shí)別口語對(duì)話系統(tǒng)查詢有關(guān)的機(jī)票、旅游、銀行信息,并且取得很好的結(jié)果。調(diào)查統(tǒng)計(jì)表明多達(dá)85%以上的人對(duì)語音識(shí)別的信息查詢服務(wù)系統(tǒng)的性能表示滿意。可以預(yù)測(cè)在近五到十年內(nèi),語音識(shí)別系統(tǒng)的應(yīng)用將更加廣泛。各種各樣的語音識(shí)別系統(tǒng)產(chǎn)品將出現(xiàn)在市場(chǎng)上。人們也將調(diào)整自己的說話方式以適應(yīng)各種各樣的識(shí)別系統(tǒng)。在短期內(nèi)還不可能造出具有和人相比擬的語音識(shí)別系統(tǒng),要建成這樣一個(gè)系統(tǒng)仍然是人類面臨的一個(gè)大的挑戰(zhàn),我們只能一步步朝著改進(jìn)語音識(shí)別系統(tǒng)的方向一步步地前進(jìn)。至于什么時(shí)候可以建立一個(gè)像人一樣完善的語音識(shí)別系統(tǒng)則是很難預(yù)測(cè)的。就像在60年代,誰又能預(yù)測(cè)今天超大規(guī)模集成電路技術(shù)會(huì)對(duì)我們的社會(huì)產(chǎn)生這么大的影響。影響智能機(jī)器人語音識(shí)別系統(tǒng)設(shè)計(jì)的主要因素現(xiàn)在語音識(shí)別技術(shù)存在的一些瓶頸主要在于:方言或口音降低語音識(shí)別率、背景噪音、“口語”的問題:它既涉及到自然語言理解、又與聲學(xué)有關(guān),口語的語法不規(guī)范和語序不正常的特點(diǎn)會(huì)給語義的分析和理解帶來困難,有些很不自然的合成效果往往是因?yàn)闆]有能正確的使用合成與識(shí)別系統(tǒng)而導(dǎo)致的,并不是說是合成技術(shù)的不成熟。而是語音庫(kù)德完善度存在一定的差距。由于對(duì)語音識(shí)別的需要來自不同的領(lǐng)域和部門,因此對(duì)語音識(shí)別系統(tǒng)應(yīng)具有的性能和指標(biāo)提出了差異極大的要求,語音識(shí)別系統(tǒng)要根據(jù)一定的指標(biāo)、要求設(shè)計(jì)。因此有必要討論系統(tǒng)設(shè)計(jì)過程中要考慮的各種因素、語音識(shí)別系統(tǒng)的基本結(jié)構(gòu)以及系統(tǒng)的設(shè)計(jì)方略和步驟。語音識(shí)別系統(tǒng)的設(shè)計(jì)要考慮到服務(wù)對(duì)象、詞表大小、工作環(huán)境、發(fā)音方式等許多因素,下面逐一討論這些因素對(duì)語音識(shí)別系統(tǒng)結(jié)構(gòu)設(shè)計(jì)和識(shí)別方法研究的影響[8]。(1)服務(wù)對(duì)象:語音識(shí)別系統(tǒng)根據(jù)服務(wù)對(duì)象的不同分為特定人識(shí)別系統(tǒng)和非特定人識(shí)別系統(tǒng),一個(gè)特定人的語音識(shí)別系統(tǒng)中每一個(gè)使用者都必須建立自己專用的參考模式庫(kù),而非特定人識(shí)別系統(tǒng)事先將許多人的語音樣本訓(xùn)練好,使用者無論是否參加過訓(xùn)練都可以共用一套參考模式。兩者的系統(tǒng)結(jié)構(gòu)、參數(shù)選擇、識(shí)別方法都可能有很大差別,后者在技術(shù)上的難度也遠(yuǎn)比前者大??傊?,服務(wù)對(duì)象是決定語音識(shí)別系統(tǒng)設(shè)計(jì)方案的重要影響因素。(2)詞匯表的大?。好總€(gè)語音識(shí)別系統(tǒng)都有一個(gè)詞匯表,它只可以識(shí)別詞匯表中的詞,隨著詞匯量的增大,詞間的相似性增加,分辨會(huì)更困難,而且系統(tǒng)的存儲(chǔ)開銷和搜索運(yùn)算開銷也會(huì)增加,所以詞表的大小影響識(shí)別策略的選擇。(3)發(fā)音方式:發(fā)音方式可以分為孤立詞發(fā)音和連續(xù)語音發(fā)音,孤立詞發(fā)音容易進(jìn)行端點(diǎn)檢測(cè),識(shí)別系統(tǒng)在結(jié)構(gòu)上簡(jiǎn)單的多。連續(xù)語音發(fā)音很難確定詞的聲學(xué)邊界,語音單位相連時(shí)相互影響會(huì)出現(xiàn)很大變異,識(shí)別系統(tǒng)在結(jié)構(gòu)上相當(dāng)復(fù)雜。(4)語音的質(zhì)量:通常在實(shí)驗(yàn)室環(huán)境下工作良好的識(shí)別器在含有噪聲的環(huán)境下性能會(huì)明顯下降,因此必須明確一個(gè)系統(tǒng)的使用場(chǎng)合。(5)工作性質(zhì):對(duì)于聽寫機(jī)來說要求將口述語言正確無誤地轉(zhuǎn)換為書面文字。而在問詢、查詢系統(tǒng)中,用戶在說話中常帶有一些不必要的添加話語,這時(shí)系統(tǒng)需作關(guān)鍵字檢出,對(duì)用戶的要求作出正確響應(yīng)。在一些特定任務(wù)的語音識(shí)別中,我們可以總結(jié)出語法規(guī)則,而大多數(shù)情況下,用語法規(guī)則涵蓋所有可能的情況幾乎是不可能的。工作性質(zhì)的不同決定了語音識(shí)別系統(tǒng)的不同的影響。論文主要研究?jī)?nèi)容本文主要研究基于凌陽(yáng)SPCEO61A單片機(jī)的智能機(jī)器人的語音控制系統(tǒng)的設(shè)計(jì),若慮影響語音控制系統(tǒng)的主要因素,本文具體內(nèi)容安排如下:(1)簡(jiǎn)要介紹智能機(jī)器人語音識(shí)別系統(tǒng)的基本概念和發(fā)展過程,繼而分析影響語音識(shí)別系統(tǒng)的主要因素,最后闡明本論文的主要研究?jī)?nèi)容。(2)總體介紹語音識(shí)別的基本概念和分類,重點(diǎn)語音識(shí)別的原理以及在識(shí)別過程中所采用的技術(shù)。(3)根據(jù)本論文的具體要求選擇凌陽(yáng)16位單片機(jī)芯片,繼而簡(jiǎn)要介紹SFCE060lA芯片的結(jié)構(gòu)以及相關(guān)特性,最后進(jìn)行智能機(jī)器人語音識(shí)別系統(tǒng)的硬件設(shè)計(jì)。(4)在語音識(shí)別硬件系統(tǒng)的設(shè)計(jì)基礎(chǔ)上為了實(shí)現(xiàn)語音系統(tǒng)交互功能進(jìn)行語音命令訓(xùn)練、語音資源的存儲(chǔ)和播放、串口通訊、中斷控制等軟件設(shè)計(jì)。(5)對(duì)智能機(jī)器人語音控制系統(tǒng)實(shí)驗(yàn)仿真,并指出影響語音識(shí)別穩(wěn)定性的因素。2語音識(shí)別原理和設(shè)計(jì)采用方案語音識(shí)別技術(shù)關(guān)系到多學(xué)科的研究領(lǐng)域,不同領(lǐng)域上的研究成果都對(duì)語音識(shí)別的發(fā)展作了貢獻(xiàn)。機(jī)器人語音識(shí)別過程與人對(duì)語音識(shí)別處理過程基本上是一致的,目前主流的語音識(shí)別技術(shù)是基于統(tǒng)計(jì)模式識(shí)別的基本理論。一個(gè)完整的語音識(shí)別系統(tǒng)可大致分為語音特征提取、聲學(xué)模型和模式匹配、語言模型和語言處理三部分,而對(duì)小詞表語音識(shí)別系統(tǒng),往往不需要語音處理部分[9]。2.1語音識(shí)別的分類語音識(shí)別系統(tǒng)可以根據(jù)對(duì)輸入語音的限制加以分類。如果從說話者與識(shí)別系統(tǒng)的相關(guān)性考慮,可以將識(shí)別系統(tǒng)分為3類:(1)特定人語音識(shí)別系統(tǒng):僅考慮對(duì)于專人的話音進(jìn)行識(shí)別;(2)非特定人語音系統(tǒng):識(shí)別的語音與人無關(guān),通常要用大量不同人的語音數(shù)據(jù)庫(kù)對(duì)識(shí)別系統(tǒng)進(jìn)行學(xué)習(xí);(3)多人的識(shí)別系統(tǒng):通常能識(shí)別一組人的語音,或者成為特定組語音識(shí)別系統(tǒng),該系統(tǒng)僅要求對(duì)要識(shí)別的特定人的語音進(jìn)行訓(xùn)練。如果從說話的方式考慮,也可以將識(shí)別系統(tǒng)分為3類:(1)孤立詞語音識(shí)別系統(tǒng):孤立詞識(shí)別系統(tǒng)要求輸入每個(gè)詞后要停頓;(2)連接詞語音識(shí)別系統(tǒng):連接詞輸入系統(tǒng)要求對(duì)每個(gè)詞都清楚發(fā)音,一些連音現(xiàn)象開始出現(xiàn);(3)連續(xù)語音識(shí)別系統(tǒng):連續(xù)語音輸入是自然流利的連續(xù)語音輸入,大量連音和變音會(huì)出現(xiàn)。本系統(tǒng)屬于第一類。如果從識(shí)別系統(tǒng)的詞匯量大小考慮,也可以將識(shí)別系統(tǒng)分為3類:(1)小詞匯量語音識(shí)別系統(tǒng)。通常包括幾十個(gè)詞的語音識(shí)別系統(tǒng)。(2)中等詞匯量的語音識(shí)別系統(tǒng)。通常包括幾百個(gè)詞到上千個(gè)詞的識(shí)別系統(tǒng)。(3)大詞匯量語音識(shí)別系統(tǒng)。通常包括幾千到幾萬個(gè)詞的語音識(shí)別系統(tǒng)。隨著計(jì)算機(jī)與數(shù)字信號(hào)處理器運(yùn)算能力以及識(shí)別系統(tǒng)精度的提高,識(shí)別系統(tǒng)根據(jù)詞匯量大小進(jìn)行分類也不斷進(jìn)行變化。目前是中等詞匯量的識(shí)別系統(tǒng)到將來可能就是小詞匯量的語音識(shí)別系統(tǒng)。這些不同的限制也確定了語音識(shí)別系統(tǒng)的困難度。本系統(tǒng)屬于小詞匯量語音識(shí)別系統(tǒng)。語音識(shí)別基本原理語音識(shí)別技術(shù)就足讓機(jī)器通過識(shí)別和理解過程把語行信號(hào)轉(zhuǎn)變?yōu)橄鄳?yīng)的文本或命令的高技術(shù),然而語音信號(hào)本身的特點(diǎn)造成了語音識(shí)別的困難。這些特點(diǎn)包括多變性、動(dòng)態(tài)性、瞬時(shí)性和連續(xù)性等。計(jì)算機(jī)語語音識(shí)別過程與人對(duì)語言識(shí)別處理過程從本上是一致的。日前主流的語音識(shí)別技術(shù)是基于統(tǒng)計(jì)模式識(shí)別的基本理論[10]。對(duì)于不同的語音識(shí)別系統(tǒng)來說,雖然具體實(shí)現(xiàn)的細(xì)節(jié)有所不同。但所采用的基本技術(shù)和方法步驟基本相似,如圖2.1語音識(shí)別系統(tǒng)的基本結(jié)構(gòu)是一個(gè)典型的語音識(shí)別系統(tǒng)的實(shí)現(xiàn)過程。圖2.1語音識(shí)別系統(tǒng)的基本結(jié)構(gòu)語音識(shí)別系統(tǒng)實(shí)質(zhì)上是一種模式識(shí)別系統(tǒng),與常規(guī)模式識(shí)別系統(tǒng)一樣包括有特征提取、模式匹配、參考模式庫(kù)等三個(gè)基本單兀。語音識(shí)別的步驟分為三步。第一步是根據(jù)識(shí)別系統(tǒng)的類型選擇一種識(shí)別方法,采用語音分析方法分析出這種識(shí)別方法所要求的語音特征參數(shù),這些參數(shù)作為標(biāo)準(zhǔn)模式由機(jī)器存儲(chǔ)起來,形成參考模式庫(kù)。第二步是語音識(shí)別的核心,采用選擇的語音識(shí)別方法進(jìn)行模式匹配。語音識(shí)別核心部分又分別表現(xiàn)為模型的建立、訓(xùn)練和識(shí)別三個(gè)部分。第三步,語音識(shí)別可以進(jìn)行后處理,后處理通常是一個(gè)音字轉(zhuǎn)換過程,有可能包括更高層次的詞法、句法和文法處理,另外也有可能作為某個(gè)具體的任務(wù)語法的輸入。2.3語音信號(hào)預(yù)處理預(yù)處理是提高語音識(shí)別性能,增強(qiáng)穩(wěn)健性的重要環(huán)節(jié)。預(yù)處理一般包括預(yù)加重、加窗、分幀和端點(diǎn)檢測(cè)等。預(yù)加重的目的是提升高頻部分,使信號(hào)的頻譜變得平坦,保持在低頻到高頻的整個(gè)頻帶中,能用同樣的信噪比求頻譜,以便進(jìn)行頻譜分析或聲道參數(shù)分析。上述過程可以用公式(2-1)表示:y(n)=x(n)一0.97x(n一1) (2-1)根據(jù)語音信號(hào)的短時(shí)平穩(wěn)性,可以對(duì)它進(jìn)行分幀操作,為防止泄漏(Gibbs)現(xiàn)象,可以加窗處理。加窗分幀的目的是為了利用有限容量的數(shù)據(jù)區(qū)依次處理數(shù)量極大的語音數(shù)據(jù)。根據(jù)語音信號(hào)在10?20ms內(nèi)語音信號(hào)特性小變的特點(diǎn),一般取幀長(zhǎng)為20ms,幀移為幀長(zhǎng)的0?1/2倍。常用的函數(shù)窗為漢明窗、漢寧窗和矩形窗。漢明窗可以有效的克第11頁(yè)共43頁(yè)服泄露現(xiàn)象,具有更平滑的低通特性,因此應(yīng)用更為廣泛。矩形窗:11w(n)11w(n)二<|0(0<n<N-1)(n<0或n>N)2-2)漢明窗:w(n)w(n)=H-0-46cos(2N-?(0<n<N-1)(n<0或n>N)2-3)漢寧窗:w(nw(n)=H-叭皆))(0<n<N-1)(n<0或n>N)2-4)經(jīng)過加窗分幀處理后,語音信號(hào)就已經(jīng)被分割成一幀一幀的加窗函數(shù)的短時(shí)信號(hào),然后再把每一個(gè)短時(shí)語音幀看成平穩(wěn)的隨機(jī)信號(hào),利用數(shù)字信號(hào)處理技術(shù)來提取語音特征參數(shù)。在進(jìn)行處理時(shí),按幀從數(shù)據(jù)區(qū)中取出數(shù)據(jù),處理完成后再取下一幀。最后得到由每一幀參數(shù)組成的語音特征參數(shù)的時(shí)間序列。端點(diǎn)檢測(cè)是將語音信號(hào)從背景噪聲中提取出來,以確定語音信號(hào)的起止點(diǎn)。端點(diǎn)檢測(cè)可以避免不必要的計(jì)算量,同時(shí)設(shè)定語音識(shí)別解碼的起點(diǎn)和終點(diǎn),防止無效搜索。端點(diǎn)檢測(cè)大多數(shù)采用短時(shí)能量或者過零率作為判別準(zhǔn)則,經(jīng)過預(yù)加重的語音信號(hào)通過分幀之后,以幀的形式進(jìn)行處理。分幀的過程由兩個(gè)參數(shù)決定幀長(zhǎng)、幀移。對(duì)于短時(shí)過程而言,幀長(zhǎng)決定了頻率區(qū)分度和時(shí)間區(qū)分度。幀長(zhǎng)較長(zhǎng)的幀(>300ms),其時(shí)間區(qū)分度較差。而幀長(zhǎng)太短,則短頻率區(qū)分度下降。目前采用的幀長(zhǎng)在100?250ms之問。幀移決定了相鄰兩幀之間的時(shí)間間隔,一般在語音識(shí)別中,80ms是常用的幀移。當(dāng)幀移小于幀長(zhǎng)時(shí),就出現(xiàn)了部分重疊。2.4特征量的提取語音信號(hào)中含有豐富的信息,特征提取就是對(duì)語音信號(hào)進(jìn)行分析處理,去除對(duì)語音識(shí)別無關(guān)緊要的冗余信息,提取出對(duì)語音識(shí)別有用的重要信息。對(duì)于非特定人語音識(shí)別來講,希望特征參數(shù)盡可能多的反映語音信息,盡量減少說話人的個(gè)人信息對(duì)特定人語音識(shí)別來講,則相反。從信息論角度講,這是信息壓縮的過程。特征提取是語音識(shí)別前端處理的主要任務(wù)。特征如果具有很好的區(qū)別性,模型的設(shè)計(jì)和訓(xùn)練就會(huì)變得簡(jiǎn)單高效。特征提取包括對(duì)語音共振峰頻率、幅度等參數(shù),以及對(duì)線性預(yù)測(cè)參數(shù)、倒譜參數(shù)等的提取和分析[11]。2.4.1線性預(yù)測(cè)分析線性預(yù)測(cè),通常又稱為線性預(yù)測(cè)編碼。線性預(yù)測(cè)是語音處理的核心技術(shù),應(yīng)用于信號(hào)處理的各個(gè)方面,是最有效、最流行的語音分析技術(shù)之一。線性預(yù)測(cè)是基于全極點(diǎn)模型的假設(shè),采用時(shí)域均方誤差最小準(zhǔn)則來估計(jì)模型參數(shù)。線性預(yù)測(cè)的計(jì)算效率很高,而且還能與聲管發(fā)音模型相聯(lián)系,并發(fā)展出了多種與人們聽覺聯(lián)系緊密的譜失真測(cè)度方法,所以本文選取其作為特征矢量計(jì)算方法。線性預(yù)測(cè)分析的墾本思想是每個(gè)語音信號(hào)采樣值,都可以用它過去的取樣值的加權(quán)和來表示,各加權(quán)系數(shù)應(yīng)使實(shí)際語音采樣值與線性預(yù)測(cè)采樣值之間的誤差的平方和達(dá)到最小,即進(jìn)行最小均方誤差的逼近。這里的加權(quán)系數(shù)就是線性預(yù)測(cè)系數(shù)。線性預(yù)測(cè)是將被分析信號(hào)用一個(gè)模型來表示,即將語音信號(hào)看作是某一模型的輸出。因此,它可以用簡(jiǎn)單的模型參數(shù)來描述。如圖2.2信號(hào)模型圖所示:圖2.2信號(hào)模型圖(2-5)(2-6)u(n)表示模型的輸入,(2-5)(2-6)H(z)= -—1-乞az-iii=1式子中a是系數(shù),p是預(yù)測(cè)模型的階數(shù)。iu(n)與s(n)的關(guān)系可用差分方程(2-6)表示:s(n)=Yas(n-k)+Gu(n)kk=1即,用信號(hào)的前一個(gè)樣本來預(yù)測(cè)當(dāng)前樣本,定義預(yù)測(cè)器:(2-7)s'(n)=Yas(n-k)(2-7)kk=1由于頂測(cè)系數(shù)占}在預(yù)測(cè)過程可看作作常數(shù),所以它是一種線性預(yù)測(cè)器。這種線性k預(yù)測(cè)技術(shù)最早被應(yīng)用于語音編碼,因此常被稱為線性預(yù)測(cè)編碼。此線性預(yù)測(cè)器的系統(tǒng)函數(shù)可表示為:第13頁(yè)共43頁(yè)P(yáng)(z)=Xaz-kkk=1如果是s(n)信號(hào)符合此模型,那么線性預(yù)測(cè)器的預(yù)測(cè)誤差為式(2-9):2-8)e(n)=G*u(n)2-9)但是實(shí)際信號(hào)不一定符合這個(gè)假定的模型,因此實(shí)際中存在預(yù)測(cè)誤差。預(yù)測(cè)誤差可表示為式(2-10):e(n)=s(n)-s'(n)=s(n)-Xas(n-k)kk=1能使信號(hào)序列產(chǎn)生上面的預(yù)測(cè)誤差序列的系統(tǒng),其函數(shù)表達(dá)式可以用式(2-11)表2-10)示:A(z)=1-Xaz-kkk=1可以看出,預(yù)測(cè)誤差濾波器A(z)是系統(tǒng)函數(shù)的逆濾波器。要使此模型盡可能精確的2-11)描述信號(hào)s(n),預(yù)測(cè)誤差能量在某一短時(shí)間內(nèi)的總能量應(yīng)該盡量的小,在此準(zhǔn)則下求最佳預(yù)測(cè)系數(shù){a}。短時(shí)平均誤差能量定義為:kE=X[S(m)-XpaS(m-k)]n n knm k=1S(m)表示寬度為N的語音據(jù)幀。使E達(dá)到最小值的{a}必須滿足2-12)n n kQE/Qa=0(i=1,2......p),由此便得到以{a}為變量的線性方程組(2-13):ni kXa0(i,k)=0(i,0) i=1,2 pknk=1式中0(i,k)為系數(shù)矩陣:n2-13)0(i,k)=XS(m-1)S(m-k)nm對(duì)長(zhǎng)度為N的語音信號(hào)數(shù)列,可以利用短時(shí)自相關(guān)定義求解2-14)0(i,k)=R(i-k)nn2-15)式中短時(shí)自相關(guān)函數(shù)R(k)=嗆S(m)*S(m+k)n n n0考慮到R(k)是偶函數(shù),于是可以表示為n2-16)£aR(i-k|)=R(i) (2-17)kn nk=1這就是Yule-Walker方程,其中R(i-k)組成的矩陣是一個(gè)托步利茲矩陣。這n種特殊的線性方程組有多種高效的遞推算法可求出系數(shù)。正是這些高效的遞推算法,保證了線性預(yù)測(cè)技術(shù),被廣泛應(yīng)用于信號(hào)處理的各個(gè)方面。2.4.2倒譜分析語音信號(hào)特征向量采用Mel頻率倒譜系數(shù)MFCC(MelFrequencyCepstrumCoeficient)的提取,MFCC參數(shù)是基于人的聽覺特性的,它利用人聽覺的臨界帶效應(yīng),采用MEL倒譜分析技術(shù)對(duì)語音信號(hào)處理得到MEL倒譜系數(shù)矢量序列,用MEL倒譜系數(shù)表示輸入語音的頻譜。在語音頻譜范圍內(nèi)設(shè)置若干個(gè)具有三角形或正弦形濾波特性的帶通濾波器,然后將語音能量譜通過該濾波器組,求各個(gè)濾波器輸出能量,對(duì)其取對(duì)數(shù),并作離散余弦變換(DCT),即可得到MFCC系數(shù)。在計(jì)算機(jī)平臺(tái)的仿真實(shí)驗(yàn)中,通過各種參數(shù)的實(shí)際比較,采用MFCC參數(shù)比采用線性預(yù)測(cè)系數(shù)(LPCC)參數(shù)有更好的識(shí)別效果。但在Matlab平臺(tái)上做實(shí)時(shí)處理時(shí),MFCC系數(shù)計(jì)算雖然有兩個(gè)缺點(diǎn):一是計(jì)算時(shí)間長(zhǎng);二是精度難以保證。由于MFCC系統(tǒng)的計(jì)算需要FFT變換和對(duì)數(shù)操作,影響了計(jì)算的動(dòng)態(tài)范圍;要保證系統(tǒng)識(shí)別的實(shí)時(shí)性,就只有犧牲參數(shù)精度,但是MFCC由于反映人的聽覺特性,因此其性能和魯棒性是所有參數(shù)中最好的,雖然LPCC參數(shù)的計(jì)算有遞推公式,速度和精度都可以保證,但在噪聲比較大的情況下,識(shí)別效果無法滿足實(shí)際需要。模式匹配及模型訓(xùn)練技術(shù)模型訓(xùn)練是指按照一定的準(zhǔn)則,從大量已知模式中獲取表征該模式本質(zhì)特征的模型參數(shù),而模式匹配則是根據(jù)一定準(zhǔn)則,使未知模式與模型庫(kù)中的某一個(gè)模型獲得最佳匹配。語音識(shí)別所應(yīng)用的模式匹配和模型訓(xùn)練技術(shù)主要有動(dòng)態(tài)時(shí)間歸正技術(shù)(DTW)、隱馬爾可夫模型(HMM)和人工神經(jīng)元網(wǎng)絡(luò)(ANN)[12]。DTW是較早的一種模式匹配和模型訓(xùn)練技術(shù),它應(yīng)用動(dòng)態(tài)規(guī)劃方法成功解決了語音信號(hào)特征參數(shù)序列比較時(shí)時(shí)長(zhǎng)不等的難題,在孤立詞語音識(shí)別中獲得了良好性能。但因其不適合連續(xù)語音大詞匯量語音識(shí)別系統(tǒng),目前已被HMM模型和ANN替代。HMM模型是語音信號(hào)時(shí)變特征的有參表示法。它由相互關(guān)聯(lián)的兩個(gè)隨機(jī)過程共同描述信號(hào)的統(tǒng)計(jì)特性,其中一個(gè)是隱蔽的(不可觀測(cè)的)具有有限狀態(tài)的Markor鏈,另一個(gè)是與mARKOR鏈的每一狀態(tài)相關(guān)聯(lián)的觀察矢量的隨機(jī)過程(可觀測(cè)的)。隱蔽Markor鏈的特性要靠可觀測(cè)到的信號(hào)特征揭示。這樣,語音等時(shí)變信號(hào)某一段的特征就由對(duì)應(yīng)狀態(tài)觀察符號(hào)的隨機(jī)過程描述,而信號(hào)隨時(shí)間的變化由隱蔽Markor鏈的轉(zhuǎn)移概率描述。模型參數(shù)包括HMM拓?fù)浣Y(jié)構(gòu)、狀態(tài)轉(zhuǎn)移概率及描述觀察符號(hào)統(tǒng)計(jì)特性的一組隨機(jī)函數(shù)。按照隨機(jī)函數(shù)的特點(diǎn),HMM模型可分為離散隱馬爾可夫模型(采用離散概率密度函數(shù),簡(jiǎn)稱DHMM)和連續(xù)隱馬爾可夫模型(采用連續(xù)概率密度函數(shù),簡(jiǎn)稱CHMM)以及半連續(xù)隱馬爾可夫模型(SCHMM,集DHMM和CHMM特點(diǎn))。一般來講,在訓(xùn)練數(shù)據(jù)足夠時(shí),CHMM優(yōu)于DHMM和SCHMM。HMM模型的訓(xùn)練和識(shí)別都已研究出有效的算法,并不斷被完善,以增強(qiáng)HMM模型的魯棒性。人工神經(jīng)元網(wǎng)絡(luò)在語音識(shí)別中的應(yīng)用是現(xiàn)在研究的又一熱點(diǎn)。ANN本質(zhì)上是一個(gè)自適應(yīng)非線性動(dòng)力學(xué)系統(tǒng),模擬了人類神經(jīng)元活動(dòng)的原理,具有自學(xué)、聯(lián)想、對(duì)比、推理和概括能力。這些能力是HMM模型不具備的,但ANN又不具有HMM模型的動(dòng)態(tài)時(shí)間歸正性能。因此,現(xiàn)在已有人研究如何把二者的優(yōu)點(diǎn)有機(jī)結(jié)合起來,從而提高整個(gè)模型的魯棒。本設(shè)計(jì)選用的方案依據(jù)嵌入式語音識(shí)別系統(tǒng)的特點(diǎn),在對(duì)本系統(tǒng)進(jìn)行設(shè)計(jì)前,應(yīng)對(duì)系統(tǒng)定制一個(gè)總體上的標(biāo)準(zhǔn),用于指導(dǎo)系統(tǒng)的軟硬件的設(shè)計(jì)。系統(tǒng)標(biāo)準(zhǔn)是體積小、可靠性高、耗電省、價(jià)格低、且為實(shí)時(shí)識(shí)別,識(shí)別詞匯量為小詞匯量,需進(jìn)行訓(xùn)練才能識(shí)別。此外,系統(tǒng)還要具備語音提示功能。2.6.1系統(tǒng)采用的芯片根據(jù)語音識(shí)別的性能,識(shí)別算法及發(fā)展時(shí)期的不同,語音識(shí)別系統(tǒng)芯片大可以分為以下幾個(gè)類型:(1) 由帶通濾波器及線形匹配電路構(gòu)成的專用IC。這是20世紀(jì)80年代初期的產(chǎn)品,也是早期的語音識(shí)別專用集成電路。它由一組帶通濾波器組成特征提取電路,然后用線性匹配電路進(jìn)行模式匹配。這種電路的語音識(shí)別性能低,現(xiàn)已很少應(yīng)用。(2) 由單片機(jī)MCU組成的語音識(shí)別專用IC。它以8位機(jī)或者16位機(jī)為計(jì)算核心,A/D轉(zhuǎn)換,D/A轉(zhuǎn)換及存儲(chǔ)器組成。由于單片機(jī)的運(yùn)算能力有限,因而其識(shí)別算法不可能復(fù)雜,精度也低,故一般識(shí)別率不會(huì)太高。典型芯片是1996年美國(guó)sensory公司生產(chǎn)的Rsc-146。由數(shù)字信號(hào)處理器DSP組成的語音識(shí)別系統(tǒng)。它一般由定點(diǎn)16位DSP。外加A/D轉(zhuǎn)換和D/A轉(zhuǎn)換以及ROM,RAM,FLASH等存儲(chǔ)器組成。由于DSP包含用做數(shù)字信號(hào)處理的專用部件,因而運(yùn)算能力強(qiáng),精度高,適于組成較高性能的語音識(shí)別系統(tǒng)。最常用DSP芯片是TI公司的TMS320AC54XX系列,AD公司的ADSPZ18X系列及DSPG公司開發(fā)的OAK系列。用DSP組成的語音識(shí)別系統(tǒng)可以實(shí)現(xiàn)特定人和非特定人語音識(shí)別功能,識(shí)別詞條可以達(dá)到中等詞匯量;由人工神經(jīng)網(wǎng)絡(luò)構(gòu)成的語音識(shí)別專用芯片。由于語音信號(hào)是一個(gè)時(shí)間區(qū)間動(dòng)態(tài)變化的信號(hào),一般采用的多層前向感知機(jī)算法。但是,由于人工神經(jīng)網(wǎng)絡(luò)很難達(dá)到和語音信號(hào)的最佳匹配,因此用人工神經(jīng)網(wǎng)絡(luò)實(shí)現(xiàn)的語音識(shí)別系統(tǒng)的識(shí)別性能很不理想。而如果采用時(shí)延單元神經(jīng)網(wǎng)絡(luò),并且與其他方法配合,則可以實(shí)現(xiàn)較高性能的語音識(shí)別。語音識(shí)別系統(tǒng)級(jí)芯片(SoC)。將MCU或DSP、A/D、D/A、RAM、ROM以及預(yù)放、功放等電路集成在一個(gè)芯片上,只要加上極少的電源供電等單元就可以實(shí)現(xiàn)語音識(shí)別、語音合成以及語音回放等功能。這是最近兩年出現(xiàn)的最先進(jìn)的語音識(shí)別芯片,其性能價(jià)格比較高,功耗省。最有代表性的是Sensory公司的RSC-364及Infineon公司的UniSpeech-SDA80D51。凌陽(yáng)公司的SPCE061A也是這類產(chǎn)品。由于SPCE061A單片機(jī)內(nèi)置32位I/O端口,2路D/A轉(zhuǎn)換,8位A/D轉(zhuǎn)換,14個(gè)中斷源等功能,可編程音頻處理功能以及在線仿真功能具有較高的處理速度,能夠更容易處理的數(shù)字信號(hào),這些都為語音的識(shí)別、播放、錄放及合成提供條件,所以本設(shè)計(jì)采用SPCEO61A單片機(jī)為主控制芯片。系統(tǒng)采用的語音識(shí)別算法輸入語音信號(hào)經(jīng)過預(yù)處理和特征提取后就要對(duì)其進(jìn)行語音識(shí)別。想要得到最優(yōu)的語音識(shí)別性能,關(guān)鍵是要選擇合適的語音識(shí)別算法。識(shí)別算法選擇與確立的唯一標(biāo)準(zhǔn)就是系統(tǒng)自身特點(diǎn)及系統(tǒng)設(shè)計(jì)的目的與要求。比較常用的識(shí)別算法有基于模板匹配的動(dòng)態(tài)時(shí)間規(guī)整法(DTW)、基于統(tǒng)計(jì)模型的隱馬爾柯夫模型法(HMM)以及基于神經(jīng)網(wǎng)絡(luò)的識(shí)別法(ANN)等。HMM和ANN算法適用于大詞匯量、非特定人的語音識(shí)別系統(tǒng),需要大量的前期訓(xùn)練工作,對(duì)系統(tǒng)資源要求比較高,比較適合于PC機(jī)系統(tǒng)。DTW算法是采用模板匹配法進(jìn)行相似度計(jì)算,當(dāng)詞匯表所包含的詞匯量較小時(shí),可以得到較好的效果。該算法的優(yōu)點(diǎn)就是不需大量的前期運(yùn)算,可以有效節(jié)約系統(tǒng)資源,降低系統(tǒng)成本開支。完全適合本系統(tǒng)的設(shè)計(jì)要求,所以語音識(shí)別算法選用DTW算法來實(shí)現(xiàn)。綜合上述比較,由于單片機(jī)系統(tǒng)資源有限,大量運(yùn)算的前期訓(xùn)練是無法在有限的單片機(jī)資源上獨(dú)立完成的。而且系統(tǒng)要求是小詞匯量,孤立詞短語識(shí)別,故使用DTW就可以滿足系統(tǒng)設(shè)計(jì)的要求。3智能機(jī)器人語音控制系統(tǒng)硬件電路設(shè)計(jì)3.1設(shè)計(jì)總體方案本設(shè)計(jì)采用凌陽(yáng)單片機(jī)SPCE061A為語音控制芯片來設(shè)計(jì),機(jī)器人語音控制系統(tǒng)主要包括以下幾個(gè)模塊:麥克風(fēng)(MIC)輸入模塊,超聲波傳感器,SPCE061A控制控制模塊,機(jī)器人動(dòng)作模塊,通信模塊和喇叭輸出模塊,其系統(tǒng)結(jié)構(gòu)圖如圖3.1智能機(jī)器人語音控制系統(tǒng)設(shè)計(jì)模塊結(jié)構(gòu)圖所示。圖3.1智能機(jī)器人語音控制系統(tǒng)設(shè)計(jì)模塊結(jié)構(gòu)圖其中機(jī)器人動(dòng)作模塊包括左右腿電機(jī)、頭部電機(jī)推進(jìn)電機(jī)和發(fā)射電機(jī)幾個(gè)部分,機(jī)器人實(shí)物連接結(jié)構(gòu)圖如圖3.2智能機(jī)器人硬件連接結(jié)構(gòu)圖。圖3.2智能機(jī)器人硬件連接結(jié)構(gòu)圖

SPCE061A單片機(jī)的主要特點(diǎn)SPCE061A是凌陽(yáng)科技研發(fā)生產(chǎn)的性價(jià)比很高的一款十六位單片機(jī),⑵使用它可以非常方便靈活的實(shí)現(xiàn)語音的錄放系統(tǒng),該芯片擁有8路10位精度的ADC,其中一路為音頻轉(zhuǎn)換通道,并且內(nèi)置有自動(dòng)增益電路。這為實(shí)現(xiàn)語音錄入提供了方便的硬件條件。兩路10位精度的DAC,只需要外接功放(SPY0030A)即可完成語音的播放。另外凌陽(yáng)十六位單片機(jī)具有易學(xué)易用的效率較高的一套指令系統(tǒng)和集成開發(fā)環(huán)境。在此環(huán)境中,支持標(biāo)準(zhǔn)C語言,可以實(shí)現(xiàn)C語言與凌陽(yáng)匯編語言的互相調(diào)用,并且,提供了語音錄放的庫(kù)函數(shù),只要了解庫(kù)函數(shù)的使用,就會(huì)很容易完成語音錄放,這些都為軟件開發(fā)提供了方便的條件。SPCE061A內(nèi)部結(jié)構(gòu)如圖3.3SPCE061A內(nèi)部結(jié)構(gòu)。ICEENICESCKICESDA16位徽處理器ICEENICESCKICESDA16位徽處理器+ICEFLASHROMRAM歡+六位走時(shí)器/計(jì)救器時(shí)基中斷控制MICIN鎖相環(huán)振蕩器CPU時(shí)鐘實(shí)時(shí)時(shí)鐘7通道m(xù)位ADC單通道ADC+AGC底電壓監(jiān)測(cè)>1 Fv収通道1D位鎖相環(huán)振蕩器CPU時(shí)鐘實(shí)時(shí)時(shí)鐘7通道m(xù)位ADC單通道ADC+AGC底電壓監(jiān)測(cè)>1 Fv収通道1D位低電壓復(fù)位%——DAC輸出討串行輸A.輸出接AUDIUART(通用異歩串行接LI■!AUD2IOB101057IOBOI0B132位管腳通用輸入輸出端口SPCE061A的功能特點(diǎn)[13]:16位u'nSP微處理器;工作電壓:內(nèi)核工作電壓VDD為3.0?3.6V(CPU),IO口工作電壓VDDH為VDD?5.5V(I/O);CPU時(shí)鐘:0.32MHz?49.152MHz;內(nèi)置2K字SRAM;內(nèi)置32K閃存ROM;可編程音頻處理;晶體振蕩器;?系統(tǒng)處于備用狀態(tài)下(時(shí)鐘處于停止?fàn)顟B(tài)),耗電小于2口A、3.6V;2個(gè)16位可編程定時(shí)器/計(jì)數(shù)器(可自動(dòng)預(yù)置初始計(jì)數(shù)值);2個(gè)10位DAC(數(shù)-模轉(zhuǎn)換)輸出通道;32位通用可編程輸入/輸出端口;14個(gè)中斷源可來自定時(shí)器A/B,時(shí)基,2個(gè)外部時(shí)鐘源輸入,鍵喚醒;具備觸鍵喚醒的功能;使用凌陽(yáng)音頻編碼SACM_S240方式(2.4K位/秒),能容納210秒的語音數(shù)據(jù);鎖相環(huán)PLL振蕩器提供系統(tǒng)時(shí)鐘信號(hào);32768Hz實(shí)時(shí)時(shí)鐘;7通道10位電壓模-數(shù)轉(zhuǎn)換器(ADC)和單通道聲音模-數(shù)轉(zhuǎn)換器;?聲音模-數(shù)轉(zhuǎn)換器輸入通道內(nèi)置麥克風(fēng)放大器和自動(dòng)增益控制(AGC)功能;具備串行設(shè)備接口;低電壓復(fù)位(LVR)功和低電壓監(jiān)測(cè)(LVD)功能;內(nèi)置在線仿真板(ICE,In-CircuitEmulator)接口。電源模塊電源電路模塊電源采用四節(jié)五號(hào)電池,其6V直接給機(jī)器人運(yùn)動(dòng)模塊供電,并引出一個(gè)電源接口給SPCE061A板供電,SPCE061A上的電源模塊如圖3.4電源模塊電路所示,為了獲得標(biāo)準(zhǔn)的3.3V電壓,加入SPY0029三端穩(wěn)壓器,并前后兩組電容用來濾波,使直流更加干凈平滑,兩個(gè)二極管的作用是防止電源反接,后面的零電阻及其電源、地分成幾路的目的是為了減少電磁干擾。

圖3.4圖3.4電源模塊電路3.4MIC輸入模塊SPCE061A的A/D轉(zhuǎn)換器有8個(gè)通道,其中有1個(gè)通道是MIC-NI輸入,它專門用于對(duì)語音信號(hào)進(jìn)行采樣。語音信號(hào)經(jīng)過MCI轉(zhuǎn)換成電信號(hào),然后輸入至SPCE061A內(nèi)部前置放大器。由于人們說話時(shí),麥克風(fēng)距離嘴邊的距離不同,語音信號(hào)的能量將會(huì)有很大的差異,此時(shí),如果芯片的的輸入信號(hào)太大或是太小都將影響識(shí)別的精度。而SPCE061A內(nèi)部就帶有自動(dòng)增益控制電路AGC能隨時(shí)跟蹤、監(jiān)視前置放大器輸出的音頻信號(hào)電平,當(dāng)輸入信號(hào)增大時(shí)AGC電路自動(dòng)減小放大器的增益;當(dāng)輸入信號(hào)減小時(shí),AGC電路自動(dòng)增大放大器的增益,從而以補(bǔ)償太小或是太大的信號(hào),以便使進(jìn)入戶A/D的信號(hào)保持在最佳電平。K1KQCROPHOKE~F141DKVMICVCM4ikFmicp-IkknewmcouT502K1KQCROPHOKE~F141DKVMICVCM4ikFmicp-IkknewmcouT5021 <OPL3.5語音輸出模塊語音輸出用的是SPCE061A內(nèi)部集成的DAC,它是電流輸出,為了能夠驅(qū)動(dòng)揚(yáng)聲器SPEAKEY放音需要相應(yīng)的驅(qū)動(dòng)電路。圖中采用的是凌陽(yáng)公司生產(chǎn)的語音集成放大器SPY0030單運(yùn)放。SPY0030與常用的單運(yùn)放LM386相比其優(yōu)點(diǎn)如下:(1)LM386的工作電壓必須在4V以上,而SPY0030的只需要2.4V即可工作:(2)LM386的輸出功率在100W以下,而SPY0030約為700,可以提供足夠的驅(qū)動(dòng)能力。要輸出的語音信號(hào)經(jīng)D/A轉(zhuǎn)換后經(jīng)SPY0030放大后由喇叭輸出,通過調(diào)節(jié)電位器R9的大小可以控制輸出語音的通路,使得DAC通道處于開路狀態(tài),這樣便于DAC做其他用途,也可以通過這個(gè)跳線來加入自己的外圍電路。其電路圖如下:R161K圖3.6語音輸出電路3.6超聲波傳感模塊單片機(jī)通過A7口輸出一40KHZ的方波,再經(jīng)反相器驅(qū)動(dòng)超聲波發(fā)射頭,發(fā)出脈沖超聲波。超聲波遇到物體將反射回來,接受頭將接收到的超聲波調(diào)制脈沖變?yōu)榻蛔冸妷盒盘?hào),經(jīng)兩級(jí)運(yùn)算放大器放大,輸出信號(hào)控制單片機(jī)。其電路圖如圖3.7產(chǎn)生波傳感電路。

圖3.7超聲波傳感電路3.7通信模塊通信模塊電路是一串行接口電路,單片機(jī)的數(shù)據(jù)通過串口由MAX232電平轉(zhuǎn)換成RS-232電平向上位傳輸。凌陽(yáng)SPCE061A單片機(jī)串行通信的接收管腳RXD和發(fā)送管腳TXD分別與IOB7和IOB10共用。SPCE061A的串行接口為全雙工的接口,還沒有接收緩沖器。電路中選用標(biāo)準(zhǔn)的RS-232C串行接口是異步串行通信中最為廣泛的標(biāo)準(zhǔn)。由于SPCE061A的串行口都為TTL電平,它與RS-232C電平互不相容,所以在二者接口處,必須進(jìn)行電平轉(zhuǎn)換。利用MAX232芯片處接5V電源,外接電容,可以產(chǎn)生正負(fù)10V的電源,形成RS-232C的收發(fā)器。本系統(tǒng)中設(shè)有通信電路是為了將大量語音數(shù)據(jù)處理都需要上傳給PC,由PC完成。比如,噪聲能量和過零率的計(jì)算,數(shù)字濾波器設(shè)計(jì),模型庫(kù)訓(xùn)練等。其電路原理圖如圖3.8通信模塊電路。2 3 4 5U3Cl?D.luFC20O-.luTg蟲

遼TcFR2OUTR2INR1OUTRLINT2INT1TNC2-C2+Cl-C1+T2OUTU3Cl?D.luFC20O-.luTg蟲

遼TcFR2OUTR2INR1OUTRLINT2INT1TNC2-C2+Cl-C1+T2OUTT1OUTGNDVCCV-V+MAX230J3DB91660liiF2_buT7h'5VCAP4CZ1o.niF圖3.8通信模塊電路3.8機(jī)器人動(dòng)作模塊機(jī)器人共有五個(gè)直流電機(jī),除發(fā)射電機(jī)和推進(jìn)電機(jī)外,其他三個(gè)都是正反轉(zhuǎn)兩用電機(jī),即在電機(jī)驅(qū)動(dòng)端的兩路為高低電平時(shí)電機(jī)轉(zhuǎn)動(dòng),改變高低電平的輸入順序,電機(jī)反向轉(zhuǎn)動(dòng),這樣可以控制機(jī)器人的前進(jìn)、后退,左右搖等雙向動(dòng)作。發(fā)射電機(jī)和推進(jìn)電機(jī)的轉(zhuǎn)動(dòng)方向是固定的,發(fā)射電機(jī)的轉(zhuǎn)速較高,高速的旋轉(zhuǎn)帶動(dòng)轉(zhuǎn)盤依靠摩擦力把飛盤發(fā)射出去。推進(jìn)電機(jī)的任務(wù)就是把發(fā)射所需要的飛盤從存儲(chǔ)倉(cāng)輸送到發(fā)射轉(zhuǎn)盤位置。它依靠的是電機(jī)帶動(dòng)一個(gè)彈簧的機(jī)械裝置,電機(jī)轉(zhuǎn)動(dòng)一圈,機(jī)簧就會(huì)彈射一下,從而完成輸送炮彈的任務(wù)。由于機(jī)器人的左右腿以及脖子驅(qū)動(dòng)電路工作原理相似,這里就以機(jī)器人的左腿電機(jī)驅(qū)動(dòng)控制電路為例。如圖3.9左腿電機(jī)所示通過調(diào)節(jié)IOB8和IOB9的不同電平實(shí)現(xiàn)電機(jī)的正反轉(zhuǎn)。當(dāng)IOB8為高IOB9為低時(shí),三極管QI、Q2、Q6導(dǎo)通,則M-L1端相當(dāng)于接電源VDD;此時(shí)又三極管Q3、Q4、Q5截止,則M-L2端相當(dāng)于接地,這時(shí)驅(qū)動(dòng)電機(jī)正向轉(zhuǎn)動(dòng),當(dāng)需要電機(jī)反轉(zhuǎn)時(shí),只需要IOB8和IOB9反向。R]5圖3.9左腿電機(jī)發(fā)射電機(jī)和推進(jìn)電機(jī)的轉(zhuǎn)動(dòng)方向是固定的,發(fā)射電機(jī)的轉(zhuǎn)速較高,高速的旋轉(zhuǎn)帶動(dòng)轉(zhuǎn)盤依靠摩擦力把飛盤發(fā)射出去。推進(jìn)電機(jī)的任務(wù)就是把發(fā)射所需要的飛盤從存儲(chǔ)倉(cāng)輸送到發(fā)射轉(zhuǎn)盤位置。它依靠的是電機(jī)帶動(dòng)一個(gè)彈簧的機(jī)械裝置,電機(jī)轉(zhuǎn)動(dòng)一圈,機(jī)簧就會(huì)彈射一下,從而完成輸送炮彈的任務(wù)。圖3.10發(fā)射電機(jī)第26頁(yè)共43頁(yè)4智能機(jī)器人語音控制系統(tǒng)軟件設(shè)計(jì)對(duì)于智能機(jī)器人軟件編程是重要的一環(huán)。在軟件方面,需要利用C語言和匯編語言在IDE編譯環(huán)境下對(duì)單片機(jī)進(jìn)行編程,主要采取主函數(shù)調(diào)用子函數(shù)的形式。在主函數(shù)中,定義在不同的識(shí)別結(jié)果運(yùn)行那一個(gè)子函數(shù);在子函數(shù)中,對(duì)各個(gè)功能模塊進(jìn)行定義。另外,還需要定義頭函數(shù)和語音資源模塊,在頭函數(shù)主要定義系統(tǒng)涉及到的中斷和存儲(chǔ)模塊,在語音資源模塊主要定義系統(tǒng)所涉及的語音資源,方便在程序中調(diào)用。通過利用集成開發(fā)環(huán)境IDE提供的大量庫(kù)函數(shù)以及C語言,匯編語言的軟件編程語句,對(duì)機(jī)器人所涉及的接口,芯片等硬件和如何根據(jù)命令完成各項(xiàng)動(dòng)作進(jìn)行編程。軟件編程的主要形式就是在主函數(shù)中用相關(guān)子函數(shù)完成特定人語音的訓(xùn)練,然后在訓(xùn)練成功后進(jìn)行語音識(shí)別,并根據(jù)識(shí)別的命令進(jìn)行相關(guān)的操作[14]。4.1設(shè)計(jì)總體方案在程序的編制過程中,由于要用到許多函數(shù),不僅要用到C語言的,還需要用到匯編語言的一些指令,所以為了簡(jiǎn)化程序的編制流程,在設(shè)計(jì)時(shí),定義了許多模塊,便于程序中的調(diào)用。整個(gè)軟件設(shè)計(jì)基本思路是:程序開始以后,首先初始化10B端口,在判斷是否第一次下載,如果是第一次下載不需要擦除閃存FLASH,直接進(jìn)入語音識(shí)別階段;否則,就要首先擦除閃存中的內(nèi)容,進(jìn)入語音訓(xùn)練與存儲(chǔ)階段,完成后置相關(guān)位,再進(jìn)入語音識(shí)別階段。在識(shí)別過程中,還需要考慮到延時(shí)問題,如果出現(xiàn)延時(shí),就消除觸發(fā)標(biāo)志,重新返回語音識(shí)別初始化階段,這就是整個(gè)程序的流程如圖4.1軟件設(shè)計(jì)總體方案所示。宣相關(guān)標(biāo)志位語音識(shí)別初始化設(shè)置觸發(fā)左 右 炭停扌艮警瘵涂FLASH標(biāo)志軟件程序模塊主要包括:語音識(shí)別程序、語音訓(xùn)練程序、語音播放程序。中斷服務(wù)程序、機(jī)器人動(dòng)作程序。下面將—介紹。4.2語音識(shí)別模塊首先初始化語音識(shí)別芯片,識(shí)別初始化是確定語音輸入來源于AD轉(zhuǎn)換器的晰C通道,播放提示音,此時(shí)訓(xùn)練人可以對(duì)控制系統(tǒng)發(fā)出語音命令。然后,系統(tǒng)將采集的語音進(jìn)行處理,并與存儲(chǔ)器中訓(xùn)練人的語音樣本進(jìn)行比較[15]。如果采生的語音是訓(xùn)練人的語音,系統(tǒng)則將該語音與存儲(chǔ)的語音命令比較,恨據(jù)比較結(jié)果產(chǎn)生相應(yīng)的控制信號(hào),否則不產(chǎn)生控制信號(hào)。語音識(shí)別過程循環(huán)進(jìn)行,完成一條語音命令的控制任務(wù)后系統(tǒng)等待訓(xùn)練人再次發(fā)出語音命令。如果訓(xùn)練人不再發(fā)出語音命令,系統(tǒng)將一直處于等待狀態(tài),語音識(shí)別程序包括識(shí)別程序和中斷服務(wù)程序,識(shí)別程序完成選取詞庫(kù)、初始化A/D和定時(shí)器TimerA、識(shí)別運(yùn)算及識(shí)別結(jié)果處理。中斷服務(wù)程序定時(shí)讀取A/D轉(zhuǎn)換結(jié)果,并存入緩沖區(qū),A/D的輸入為MIC通道的語音信號(hào)。語音識(shí)別和語音播放分時(shí)復(fù)用TimerAFIQ中斷,由標(biāo)志位判斷語音識(shí)別處理和語音播放處理。圖4.2語音識(shí)別模塊

其中斷服務(wù)系統(tǒng)設(shè)計(jì)流程圖如圖4.3中斷系統(tǒng)所示。圖4.3中斷系統(tǒng)4.3語音訓(xùn)練模塊語音訓(xùn)練主要是靠調(diào)用庫(kù)函數(shù)BSR_Train(int_WorD,intTrainMode)來實(shí)現(xiàn)的,其中參WordlD為命令序號(hào),范圍為0x100?1x105,并且對(duì)于侮組訓(xùn)練語句都是唯一的;參數(shù)TrainMode為訓(xùn)練次數(shù),為1時(shí)表示要求使用者在應(yīng)用之前訓(xùn)練一次;為0時(shí)表示訓(xùn)練兩次,為了防止誤識(shí)命令,每條語音命令訓(xùn)練兩次,只有兩次命令相同時(shí)才成功,訓(xùn)練成功則開始下一條命令的訓(xùn)練,否則繼續(xù)訓(xùn)練,該函數(shù)由6種可能返回值,其中“0”表示訓(xùn)練成功。流程圖如圖4.4語音訓(xùn)練指令流程圖所示。

凌陽(yáng)單片機(jī)SPCE061A單片機(jī)具有很強(qiáng)的語音壓縮和語音播放功能,語音播放子程序主要完成D/A轉(zhuǎn)換器、定時(shí)器和語音初始化,從ROM中取出預(yù)先壓縮好的語音數(shù)據(jù),解壓縮后存放到播放列表中。圖4.5語音播放4.5機(jī)器人動(dòng)作模塊機(jī)器人能夠按照特定人的指令完成前進(jìn)、后退、左轉(zhuǎn)、右轉(zhuǎn)、扭頭、發(fā)射等動(dòng)作,主要靠控制相應(yīng)的直流電機(jī)完成的。機(jī)器人行駛狀態(tài)由兩個(gè)電機(jī)控制,采用左右輪分開控制的策略,左右輪分別用一個(gè)電機(jī)控制,控制信號(hào)由SPCE061A的B口提供,比如讓機(jī)器人前進(jìn)時(shí)先設(shè)置相應(yīng)的管腳為高電平并保持一段時(shí)間,電機(jī)正轉(zhuǎn),機(jī)器人就前進(jìn),后退、左轉(zhuǎn)、右轉(zhuǎn)、停止。10B13,I0B14控制機(jī)器人頭部轉(zhuǎn)動(dòng)。如圖4.6機(jī)器人前進(jìn)動(dòng)作程序流程圖。圖4.6機(jī)器人前進(jìn)動(dòng)作程序流程圖5系統(tǒng)調(diào)試及仿真5.1系統(tǒng)調(diào)試機(jī)器人語音系統(tǒng)調(diào)試分為硬件調(diào)試和軟件調(diào)試。硬件調(diào)試系統(tǒng)的硬件調(diào)試和軟件調(diào)試是密切相關(guān)的,許多硬件錯(cuò)誤是在軟件調(diào)試中被發(fā)現(xiàn)和糾正的。通常是先排除明顯的硬件故障以后,再和軟件結(jié)合起來調(diào)試以進(jìn)一步排除故障[16]。5.1.1硬件調(diào)試在硬件設(shè)計(jì)中,首先設(shè)計(jì)各個(gè)模塊的硬件電路原理圖,然后采購(gòu)元器件,使用塑料板、仿真開發(fā)工具和萬用電表等,做好試驗(yàn)樣機(jī)。接著編寫軟件,逐一調(diào)試各硬件電路模塊。針對(duì)發(fā)現(xiàn)的錯(cuò)誤現(xiàn)象,分析原因,修改原理圖設(shè)計(jì)。調(diào)通硬件電路之后,就開始PCB設(shè)計(jì),設(shè)計(jì)完P(guān)CB板圖要按實(shí)際尺寸打印出來,把元器件按實(shí)際位置對(duì)應(yīng)擺放,檢查器件封裝呈否正確。檢查硬件電路故障一般分為以下幾步:(1)排除邏輯故障邏輯故障往往是由于設(shè)計(jì)和加工制板過程中工藝性錯(cuò)誤所造成的。主要包括錯(cuò)線、開路、短路。排除的方法是首先將加工的印制板認(rèn)真對(duì)照原理圖,看兩者是否一致。需要特別檢查電源系統(tǒng),以防止電源短路和極性錯(cuò)誤,并重點(diǎn)檢查關(guān)鍵信號(hào)線之間是否短路。(2)排除失效的元器件元器件失效的兩個(gè)原因:一是元器件買來時(shí)已經(jīng)壞了,二是安裝錯(cuò)誤造成原器件燒壞。焊接安裝時(shí)要檢查一下元器件與設(shè)計(jì)要求的型號(hào)、規(guī)格是否一致,以避免燒壞。在保證安裝無誤后,用替換法排除錯(cuò)誤。(3)仿真調(diào)試開發(fā)凌陽(yáng)單片機(jī)系統(tǒng)有IDE編譯環(huán)境和在線仿真器,仿真和調(diào)試非常方便。當(dāng)錯(cuò)誤排除之后就可以進(jìn)行軟件調(diào)試了。5.1.2軟件調(diào)試軟件調(diào)試是為了分析問題和改正錯(cuò)誤的,是一項(xiàng)具有很強(qiáng)技巧性的工作。軟件人員在表現(xiàn)常常沒有明顯的關(guān)系。在組成程序的數(shù)以萬計(jì)的元素(語句、數(shù)據(jù)結(jié)構(gòu)等)中,每一個(gè)元素都可能是錯(cuò)誤的根源。在浩如煙海的程序元素中找出產(chǎn)生錯(cuò)誤的那個(gè)(或幾個(gè))元素,排除潛在的錯(cuò)誤,不是一件易事。因此,調(diào)試是通過現(xiàn)象找出原因的一個(gè)思維分析過程[17]。軟件調(diào)試的任務(wù)和步驟是:(1)從錯(cuò)誤的外部表現(xiàn)形式入手,確定程序的出錯(cuò)位置;(2)研究有關(guān)部分的程序,找出錯(cuò)誤的內(nèi)在原因;(3)修改設(shè)計(jì)和代碼,排除有關(guān)錯(cuò)誤;(4)進(jìn)行回歸測(cè)試,以確認(rèn)錯(cuò)誤是否排除,是否引入了新的錯(cuò)誤;(5)如果不能通過回歸測(cè)試,則撤銷此次修改,并重復(fù)上述過程,直到錯(cuò)誤得以正。其中第一項(xiàng)工作的工作量最大,大約占調(diào)試總工作量的95%。因而根據(jù)錯(cuò)誤跡象去定位錯(cuò)誤是調(diào)試過程的重中之重。經(jīng)過硬件、軟件單獨(dú)調(diào)試后,便可進(jìn)入硬件和軟件的聯(lián)合仿真調(diào)試階段,以找出軟硬件之間不匹配的地方,反復(fù)修改和調(diào)試。5.2系統(tǒng)仿真機(jī)器人語音控制系統(tǒng)將語音識(shí)別結(jié)果通過串口通訊發(fā)送給主控板,可以控制機(jī)器人完成前進(jìn)、后退、左轉(zhuǎn)、右轉(zhuǎn)和停止等功能。智能機(jī)器人語音控制系統(tǒng)調(diào)試步驟如下:(1)將麥克風(fēng)從電路板中引出來安放在機(jī)器人殼體上,喇叭固定在內(nèi)側(cè),用戶可以和機(jī)器人正面交談。(2)啟動(dòng)u'SPIDE。打開機(jī)器人實(shí)例程序,編譯、連接確認(rèn)沒有錯(cuò)誤。(3)下載程序到機(jī)器人的61板上,將機(jī)器人系統(tǒng)進(jìn)行組裝。(4)打開機(jī)器人的電源,進(jìn)行語音訓(xùn)練,訓(xùn)練指令有:“名稱”、“開始”、“前進(jìn)”、“后退”、“左轉(zhuǎn)”、“右轉(zhuǎn)”、“停止”、“發(fā)射”這幾條指令。每

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論