大創(chuàng)申請(qǐng)書終稿

上傳人：5*** IP屬地：湖北上傳時(shí)間：2021-10-22 格式：DOC 頁(yè)數(shù)：28 大?。?.23MB 積分：30 舉報(bào) 版權(quán)申訴

已閱讀5頁(yè)，還剩23頁(yè)未讀，繼續(xù)免費(fèi)閱讀

版權(quán)說明：本文檔由用戶提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、第十批“大學(xué)生創(chuàng)新訓(xùn)練計(jì)劃”項(xiàng)目申請(qǐng)書項(xiàng)目名稱：面向家庭服務(wù)機(jī)器人的語音交互系統(tǒng)設(shè)計(jì)項(xiàng)目負(fù)責(zé)人：孫兆輿學(xué)院年級(jí)專業(yè)：信息學(xué)院14級(jí)自動(dòng)化聯(lián)系電話：電子信箱：401530733 學(xué)生創(chuàng)新中心項(xiàng)目部填表日期：2016年1月填表須知一、項(xiàng)目申請(qǐng)表要按照東北大學(xué)“國(guó)家大學(xué)生創(chuàng)新性實(shí)驗(yàn)計(jì)劃”項(xiàng)目管理辦法和第十批“大學(xué)生創(chuàng)新創(chuàng)業(yè)訓(xùn)練計(jì)劃”項(xiàng)目申報(bào)通知的相關(guān)要求，逐項(xiàng)認(rèn)真填寫，填寫內(nèi)容必須實(shí)事求是，表達(dá)明確嚴(yán)謹(jǐn)，可另行附頁(yè)。二、格式要求：表格中的正文字體應(yīng)為小四號(hào)宋體，22磅行距，打印輸出；需簽字部分由相關(guān)人員以黑色鋼筆或水筆簽名。均用A4紙正反面打印，于左側(cè)裝訂成冊(cè)。三、

2、項(xiàng)目申請(qǐng)表由項(xiàng)目負(fù)責(zé)人填寫，經(jīng)學(xué)院或創(chuàng)新基地評(píng)審匯總后統(tǒng)一上報(bào)創(chuàng)新創(chuàng)業(yè)學(xué)院，創(chuàng)新創(chuàng)業(yè)學(xué)院組織 “大學(xué)生創(chuàng)新創(chuàng)業(yè)訓(xùn)練計(jì)劃”專家指導(dǎo)委員評(píng)審確定。學(xué)生申請(qǐng)課題須自行聯(lián)系確定指導(dǎo)教師。四、團(tuán)隊(duì)申報(bào)的成員由核心成員和預(yù)備成員組成，其中核心成員由1-2人組成，預(yù)備成員1-3人。五、項(xiàng)目申請(qǐng)表填寫內(nèi)容應(yīng)言簡(jiǎn)意賅，思路清晰，論證充分，字跡清楚，一律用計(jì)算機(jī)輸入打印。六、以學(xué)院為單位上交此申報(bào)表。（電子檔傳到neu83690117和紙質(zhì)材料一式五份）七、如填表有不明事宜，請(qǐng)致電創(chuàng)新創(chuàng)業(yè)學(xué)院項(xiàng)目部83690117。項(xiàng)目基本情況項(xiàng)目名稱申請(qǐng)團(tuán)隊(duì)情況核心成員姓名學(xué)號(hào)所在學(xué)院專業(yè)聯(lián)系電話孫兆輿20144217信息學(xué)院

3、自動(dòng)興20144291信息學(xué)院自動(dòng)備成員黃雨佳20144142信息學(xué)院電氣工程及其自動(dòng)導(dǎo)教師姓名職稱/職務(wù)所在學(xué)院聯(lián)系電話王斐副教授信目來源自主選題交叉學(xué)科項(xiàng)目競(jìng)賽前期研究教師子課題示范性學(xué)生創(chuàng)新團(tuán)隊(duì)選題學(xué)科類別（ B5 ）項(xiàng)目學(xué)科類別請(qǐng)從A-K中選擇，如A3、FA機(jī)械與控制（A1機(jī)械、A2儀器儀表、A3工程、A4交通、A5建筑等）B信息技術(shù)（B1計(jì)算機(jī)、B2電信、B3通訊、B4電子、B5自動(dòng)化控制等）C數(shù)理（C1數(shù)學(xué)、C2物理、C3地球空間科學(xué)）D生命科學(xué)（D1生物、D2農(nóng)學(xué)、D3藥學(xué)

4、、D4醫(yī)學(xué)、D5食品、D6生態(tài)）E能源化工（E1能源、E2材料、E3化學(xué)、E4化工、E5環(huán)境工程）F哲學(xué) G經(jīng)濟(jì)H社會(huì) I法律J教育 K管理申請(qǐng)經(jīng)費(fèi)15,000元起止時(shí)間2016年3月-2017年5月一、申請(qǐng)理由（內(nèi)容應(yīng)包括成員學(xué)習(xí)情況、獲得獎(jiǎng)學(xué)金情況，知識(shí)條件、參加過的科研訓(xùn)練和創(chuàng)新活動(dòng)情況）現(xiàn)在全國(guó)都在議論萬眾創(chuàng)新，但是如何創(chuàng)新，如何出彩，身為大學(xué)生的我們都應(yīng)該去仔細(xì)思考。大一期間，我們團(tuán)隊(duì)三人看到了機(jī)器人行業(yè)正在悄然崛起，隨著工業(yè)4.0時(shí)代的到來，我國(guó)更是將機(jī)器人產(chǎn)業(yè)列為重要的工業(yè)產(chǎn)業(yè)。中國(guó)“十三五”規(guī)劃中對(duì)機(jī)器人的發(fā)展及其對(duì)我國(guó)經(jīng)濟(jì)增長(zhǎng)等方面都提出擬定規(guī)劃。本著對(duì)機(jī)器人的喜愛，更是對(duì)語

5、音識(shí)別方面的熱愛，我們選擇了面向家庭服務(wù)機(jī)器人的語音識(shí)別系統(tǒng)作為我們的課題。本團(tuán)隊(duì)三名成員累計(jì)獲得四次獎(jiǎng)學(xué)金，其中包括三次校級(jí)三等獎(jiǎng)學(xué)金，還有一次勵(lì)志獎(jiǎng)學(xué)金。團(tuán)隊(duì)成員中有一名優(yōu)秀團(tuán)員、一名優(yōu)秀團(tuán)干部和一名優(yōu)秀學(xué)生干部，團(tuán)隊(duì)成員均通過了英語四級(jí)考試，三名同學(xué)通過了計(jì)算機(jī)二級(jí)（C語言）。孫兆輿具有極好的鉆研能力和動(dòng)手能力，刻苦好學(xué)，在大一期間獲得全國(guó)數(shù)學(xué)競(jìng)賽國(guó)家二等獎(jiǎng)，大二期間參加學(xué)校的科普知識(shí)競(jìng)賽并斬獲一等獎(jiǎng)，積極參加各種學(xué)?？茀f(xié)舉辦的競(jìng)賽活動(dòng)，是科學(xué)競(jìng)賽的活躍分子，無動(dòng)力滑翔機(jī)、紙橋承重大賽均榮獲優(yōu)秀獎(jiǎng)。與此同時(shí)，他還參加過類似的科研訓(xùn)練，大一時(shí)常去智能車實(shí)驗(yàn)室，實(shí)踐操作能力強(qiáng)，是難得的硬件好

6、手。張興具備較強(qiáng)的學(xué)習(xí)能力和鉆研能力，大一學(xué)年內(nèi)平均績(jī)點(diǎn)位于自動(dòng)化類前50名，榮獲校級(jí)優(yōu)秀學(xué)生三等獎(jiǎng)學(xué)金，國(guó)家勵(lì)志獎(jiǎng)學(xué)金，并獲得東北大學(xué)優(yōu)秀團(tuán)員稱號(hào)。張興同學(xué)以良好的成績(jī)通過了英語四級(jí)和計(jì)算機(jī)二級(jí)C語言等級(jí)考試。在大一寒假期間參加了遼寧省電子設(shè)計(jì)競(jìng)賽培訓(xùn)，對(duì)單片機(jī)編程及多種仿真軟件如Matlab、Labview等均有一定掌握。同時(shí)具備較強(qiáng)的創(chuàng)新能力，大一期間在信息學(xué)院科技節(jié)競(jìng)賽中獲得三等獎(jiǎng)，并積極參與2016年國(guó)際大學(xué)生數(shù)學(xué)建模競(jìng)賽。黃雨佳具有較強(qiáng)的學(xué)習(xí)能力和團(tuán)隊(duì)協(xié)作能力，大一學(xué)年獲得校三等獎(jiǎng)學(xué)金，并積極參與全國(guó)和國(guó)際大學(xué)生數(shù)學(xué)建模競(jìng)賽，勇于探索和創(chuàng)新。黃雨佳具有較高水平的編程和軟件運(yùn)用能力，

7、學(xué)習(xí)成績(jī)穩(wěn)居年級(jí)前十，經(jīng)常與老師交流問題，提升自己個(gè)人能力。成員對(duì)模式識(shí)別方面知識(shí)有一定的了解，均具備相當(dāng)強(qiáng)的編程能力和系統(tǒng)仿真能力，具有較強(qiáng)的創(chuàng)新意識(shí)和學(xué)習(xí)能力，對(duì)本項(xiàng)目所涉及到的相關(guān)領(lǐng)域有一定涉獵，并在項(xiàng)目開始前做了踏實(shí)的知識(shí)儲(chǔ)備。成員學(xué)習(xí)成績(jī)穩(wěn)定，在合理的時(shí)間規(guī)劃下，我們保證項(xiàng)目圓滿完成。二、立項(xiàng)背景（包括國(guó)內(nèi)外研究現(xiàn)狀、趨勢(shì)、研究意義、參考文獻(xiàn)和其他有關(guān)背景材料）2.1背景材料本項(xiàng)目依托單位為東北大學(xué)信息科學(xué)與工程學(xué)院“智能機(jī)器人實(shí)驗(yàn)室”，項(xiàng)目指導(dǎo)教師是信息科學(xué)與工程學(xué)院人工智能與機(jī)器人研究所副教授王斐，“智能機(jī)器人實(shí)驗(yàn)室”負(fù)責(zé)人。2000-2005年期間在日本學(xué)習(xí)和工作，主要研究方

8、向?yàn)橹悄芸刂萍翱祻?fù)機(jī)器人；2010年7月以訪問學(xué)者身份赴美國(guó)MSU進(jìn)行學(xué)術(shù)交流，與對(duì)方教授在腦控遙操作機(jī)器人領(lǐng)域開展了為期一年的合作研究。近年來在智能控制、模式識(shí)別和機(jī)器人學(xué)等領(lǐng)域開展研究工作，具有豐富的教學(xué)科研實(shí)踐經(jīng)驗(yàn)，作為項(xiàng)目負(fù)責(zé)人完成國(guó)家自然科學(xué)基金、高等學(xué)校博士學(xué)科點(diǎn)專項(xiàng)科研基金（新教師）和機(jī)器人技術(shù)與系統(tǒng)國(guó)家重點(diǎn)實(shí)驗(yàn)室開放課題（重點(diǎn)）及流程工業(yè)綜合自動(dòng)化教育部重點(diǎn)實(shí)驗(yàn)室開放課題、中國(guó)博士后科學(xué)基金和中央高?；A(chǔ)科研基金、廣東省汽車工程重點(diǎn)實(shí)驗(yàn)室開放課題各1項(xiàng)；作為主要參加人完成國(guó)家級(jí)、省部級(jí)及日本文部省科研基金8項(xiàng)；作為指導(dǎo)教師完成國(guó)家大學(xué)生創(chuàng)新計(jì)劃項(xiàng)目3項(xiàng)（2項(xiàng)優(yōu)秀，1項(xiàng)良好），進(jìn)

9、展中1項(xiàng)。目前，作為項(xiàng)目負(fù)責(zé)人主持中國(guó)人民解放軍總裝預(yù)研課題、遼寧省自然科學(xué)基金和中央基礎(chǔ)科研基金（重點(diǎn)）各1項(xiàng)，作為主要參加人參與863子課題1項(xiàng)，其他省部級(jí)項(xiàng)目3項(xiàng)?，F(xiàn)為“中國(guó)自動(dòng)化學(xué)會(huì)機(jī)器人專業(yè)委員會(huì)”委員，為在校的本科和碩士研究生開設(shè)機(jī)器人技術(shù)基礎(chǔ)、機(jī)械學(xué)基礎(chǔ)和神經(jīng)網(wǎng)絡(luò)原理及應(yīng)用三門課程。目前機(jī)器人產(chǎn)業(yè)正在快速崛起，國(guó)家高度重視發(fā)展機(jī)器人產(chǎn)業(yè)，在已有的科大訊飛語音識(shí)別產(chǎn)品硬件上做出實(shí)用、有效的服務(wù)機(jī)器人的語音識(shí)別系統(tǒng)，對(duì)原有的單一命令識(shí)別進(jìn)行改進(jìn)。2.2研究意義2014-2018年中國(guó)語音機(jī)器人行業(yè)投資潛力分析及風(fēng)險(xiǎn)與預(yù)測(cè)指導(dǎo)報(bào)告分析了語音機(jī)器人的行業(yè)市場(chǎng)規(guī)模、發(fā)展前景和投資前景，可見

10、，語音機(jī)器人的發(fā)展正在逐步深入。從另外一個(gè)方面來講，我們國(guó)家正在步入老齡化的人口結(jié)構(gòu)，目前我國(guó)60歲以上人口已超過總?cè)丝诘?0%【1】，人口的老齡化問題將成為中國(guó)面臨的前所未有的新挑戰(zhàn)；此外，我國(guó)的殘疾人占總?cè)丝诒戎匚痪尤澜巛^高國(guó)家之列?？梢灶A(yù)見，在不遠(yuǎn)的未將來，老年人和殘疾人的護(hù)理將會(huì)是社會(huì)的一個(gè)重要負(fù)擔(dān)，需要一大批家庭服務(wù)機(jī)器人幫助和照顧老年人和殘疾人的日常生活，提高他們的生活質(zhì)量，從而減少整個(gè)社會(huì)對(duì)護(hù)理人員的數(shù)量和質(zhì)量的需求。大多數(shù)服務(wù)型機(jī)器人都需要語音識(shí)別的功能，而語音識(shí)別是人與機(jī)器進(jìn)行交流的關(guān)鍵。近二十年來，語音識(shí)別技術(shù)取得很大進(jìn)步，逐漸從實(shí)驗(yàn)室走進(jìn)市場(chǎng)。在日常生活中，語音技術(shù)在控

11、制服務(wù)機(jī)器人領(lǐng)域得到很大的應(yīng)用和發(fā)展。語音控制替代繁瑣的鍵盤輸入，能為家庭服務(wù)機(jī)器人提供高效、準(zhǔn)確、快捷的控制，真正實(shí)現(xiàn)人機(jī)交互。語音識(shí)別的研究已經(jīng)得到了全世界范圍的重視，是引領(lǐng)未來科學(xué)發(fā)展的關(guān)鍵技術(shù)之一。因此，研究機(jī)器人的語音識(shí)別，開發(fā)實(shí)用的面向家庭機(jī)器人的語音識(shí)別系統(tǒng)，對(duì)于家庭服務(wù)機(jī)器人的普及與應(yīng)用意義重大。此外，項(xiàng)目的研究和開發(fā)過程，可以加深對(duì)所學(xué)專業(yè)知識(shí)的理解，深化學(xué)習(xí)的效果，增強(qiáng)自我的創(chuàng)新能力，為今后的科研創(chuàng)新奠定理論基礎(chǔ)。同時(shí)，可以培養(yǎng)我們刻苦鉆研的素養(yǎng)，使我們理性的分析客觀世界，更好地利用科技的優(yōu)勢(shì)，不會(huì)在科技中迷失自我。有助于我們綜合素質(zhì)和能力的全面提高，提早接觸社會(huì)實(shí)際，接觸

12、科研工作還可以為今后的學(xué)習(xí)深造和走向工作崗位提供堅(jiān)實(shí)的基礎(chǔ)。2.3研究現(xiàn)狀時(shí)至今日，機(jī)器人已從第一代示教再現(xiàn)型機(jī)器人，第二代帶感覺的機(jī)器人發(fā)展到第三代智能機(jī)器人，而家庭服務(wù)機(jī)器人正是第三代機(jī)器人的典型代表。在我們國(guó)家，服務(wù)機(jī)器人的研發(fā)相對(duì)比較晚，尤其是家庭機(jī)器人技術(shù)的研發(fā)還需要很大的關(guān)注和資金投入。國(guó)家一直在加大支持機(jī)器人產(chǎn)業(yè)的力度，2012年4月份科技部印發(fā)的服務(wù)機(jī)器人科技發(fā)展“十二五”專項(xiàng)規(guī)劃指出，全球的家庭服務(wù)機(jī)器人的市場(chǎng)將發(fā)生巨大的變化，市場(chǎng)規(guī)模從2009年的870萬臺(tái)增加到2013年的1140萬臺(tái)；服務(wù)機(jī)器人產(chǎn)值將由2011年的約172億美元，增加到2025年的517億美元【2】。由

13、于政府重視科技研發(fā)，我國(guó)的語音識(shí)別技術(shù)依托于其他學(xué)科的發(fā)展也取得很大的進(jìn)步，目前國(guó)內(nèi)許多重點(diǎn)高校都紛紛加入語音識(shí)別的研究隊(duì)伍中，像清華大學(xué)、哈爾濱工業(yè)大學(xué)、中國(guó)科技大學(xué)等，另外也有一些科研機(jī)構(gòu)如中科聲學(xué)研究所、自動(dòng)化研究所等。在國(guó)內(nèi)也有一些專注于語音開發(fā)的公司，像科大訊飛開發(fā)的語音產(chǎn)品占領(lǐng)語音市場(chǎng)相當(dāng)大的份額。從整個(gè)過程考慮，該語音交互系統(tǒng)主要包括語音識(shí)別處理、嵌入式語音識(shí)別平臺(tái)的搭建及人機(jī)交互系統(tǒng)三部分。對(duì)于語音信號(hào)的準(zhǔn)確的聲源定位，主要采用基于麥克風(fēng)陣列的聲源定位系統(tǒng)?，F(xiàn)有的麥克風(fēng)聲源定位方法主要分三類：基于最大輸出功率的可控波束形成技術(shù)、基于高分辨率譜估計(jì)技術(shù)、基于聲波到達(dá)時(shí)間差技術(shù)（

14、TDOA）5。近些年，國(guó)內(nèi)學(xué)者對(duì)聲源定位技術(shù)的研究非?；钴S，多數(shù)是基于麥克風(fēng)陣列的聲源定位理論研究。其中，陳可、王增福提出一種聲壓幅度比進(jìn)行聲源定位的方法，可以極大縮小系統(tǒng)檢測(cè)到的聲源位置與聲源的實(shí)際位置之間的偏差。國(guó)內(nèi)在聲源定位方面的研究不夠深入，很多結(jié)果只能提供仿真試驗(yàn)支持，可在實(shí)際環(huán)境中實(shí)驗(yàn)或應(yīng)用的定位系統(tǒng)很少【9】。在語音識(shí)別方面，近年來， DNN（深度神經(jīng)網(wǎng)絡(luò)）被廣泛應(yīng)用于語音識(shí)別，與GMM（高斯混合模型）相比，其結(jié)構(gòu)更符合于語音的感知機(jī)制，更加適用于海量聲學(xué)特征的建模。DNN直接進(jìn)行聲學(xué)建模時(shí)，仍然與HMM（隱馬爾科夫模型）混合使用， DNN的輸出結(jié)點(diǎn)試圖直接對(duì)所有綁定的三音素HM

15、M狀態(tài)的后驗(yàn)概率進(jìn)行直接建模。這樣更加精細(xì)的建模粒度與DNN更加強(qiáng)大的建模能力一起帶來了DNN-HMM語音識(shí)別系統(tǒng)巨大的性能提升【14】。毫無疑問，這是近十年以來在語音識(shí)別技術(shù)方面所取得的第一次真正意義上的突破。DNN做為一種非常有前景的語音識(shí)別聲學(xué)建模方法正在吸引著越來越多的研究興趣，成為語音識(shí)別領(lǐng)域的研究熱點(diǎn)。應(yīng)用層面上，以手機(jī)語音助手以及語音互動(dòng)工具等為主的移動(dòng)終端應(yīng)用不斷融入人們的日常生活中。國(guó)際市場(chǎng)上包括蘋果公司的Siri、Nuance的聲龍移動(dòng)助手等，國(guó)內(nèi)包括科大訊飛、云知聲、百度語音等公司【12】都在相應(yīng)產(chǎn)品如語音輸入法等采取了以上最新的語音識(shí)別技術(shù)，并取得了良好效果。語音識(shí)別識(shí)

16、別技術(shù)與語音合成技術(shù)的結(jié)合能使人們甩掉鍵盤，通過語音命令進(jìn)行操作，語音技術(shù)的應(yīng)用已經(jīng)成為一個(gè)具有競(jìng)爭(zhēng)性的新興高技術(shù)產(chǎn)業(yè)。近幾年來，雖然國(guó)內(nèi)的語音識(shí)別商業(yè)化與國(guó)外基本同步，但仍有一些欠缺：對(duì)環(huán)境依賴性強(qiáng)，經(jīng)過某一環(huán)境的訓(xùn)練學(xué)習(xí)后，在別的環(huán)境下性能急劇下降；商業(yè)化語音識(shí)別的背景往往比較干凈，在噪音環(huán)境下識(shí)別比較困難。而家庭服務(wù)機(jī)器人工作于綜合的復(fù)雜系統(tǒng)，處于多語音事件中，噪聲環(huán)境下的語音準(zhǔn)確識(shí)別問題無疑是當(dāng)下需要解決的問題和研究熱點(diǎn)。國(guó)家語音識(shí)別處理嵌入式語音識(shí)別平臺(tái)的搭建中國(guó)1科大訊飛2凌聲芯語音科技3凌陽4上海華鎮(zhèn)電子5 ICRoute1 ESR2.0、InterReco2.0Aitalk

17、3.02Uni-Speech.Uni-Lite語音專用芯片3SPCE061A4WS-1175 LD332X美國(guó)1蘋果2 Google1NovaLit2Android語音識(shí)別日本1京都大學(xué)、IPA2本田1Julius2ViaVoice法國(guó)Aldebaran公司NAO機(jī)器人語音技術(shù)德國(guó)Infineon公司、Unilite芯片、2.4主要參考文獻(xiàn)12014-2018年中國(guó)語音機(jī)器人行業(yè)投資潛力分析及風(fēng)險(xiǎn)與預(yù)測(cè)指導(dǎo)報(bào)告,20142 服務(wù)機(jī)器人科技發(fā)展“十二五”專項(xiàng)規(guī)劃,科技部，20123E.Bocchieri and B.K-W.Mak,”SubSpace Distribution Clusterin

18、g Hidden MarKov Model,”IEEE Trans.Speech and Audio Processing,vol.9,no3.pp.264-275,March20014S.J.Young,N.H.Russell and J.H.S.Thornton,”Token Passing :A Simple Conceptual Model for Connected Speech Recognition Systems”,Technical Report CUED/F-INFENG/TR38,Cambridge University Engineering Dept,19895韓紀(jì)慶

19、，張磊，鄭鐵然，語音信號(hào)處理北京：清華大學(xué)出版社20046田斌，易克初一種用于噪聲環(huán)境下語音識(shí)別的含噪Lombard及Loud語音補(bǔ)償方法聲學(xué)學(xué)報(bào)，2003，28(1)：28327Boll S. Supp ression of acoustic noise in speech using spec2tral subtraction J . IEEE Trans on Acoustic Speech andSignal Processing, 1979, 27 (2) : 1132120.8NingpingFan.Low distortion speechDenoising using An a

20、2daptive parametric WienerfilterA.IEEE InternationalConference on Acoustics, Speech and Signal Processing( ICASSP) C . 2014, 1: 122309.9王利平.基于麥克風(fēng)陣列的聲源定位技術(shù)研究D.燕山大學(xué).201210趙力.語音信號(hào)處理M . 北京: 機(jī)械工業(yè)出版社,201311高鷹,謝勝利.一種變步長(zhǎng)LMS自適應(yīng)濾波算法及分析 J . 電子學(xué)報(bào), 2013, 29 (8) : 109421097.12Jax P Vary P. Artificial bandwidth ex

21、tension of speechsignals usingMMSE estimation based on a hidden Markov model A . IEEE International Conference on Acoustics,Speech, and Signal Processing ( ICASSP) C . 2013. 6802683 13劉幺和，宋庭新.語音識(shí)別與控制應(yīng)用技術(shù)，北京科學(xué)出版社，201114徐利軍.基于HMM和神經(jīng)網(wǎng)絡(luò)的語音識(shí)別研究D.湖北工業(yè)大學(xué)，201215D L Donoho and IM Johnstone. Adap ting to unkn

22、ownsmoothness via wavelet shrinkage J . Journal of the A2 merican StatisticalAssociation, 2009, 90: 120021224.16艾山.智能機(jī)器人結(jié)構(gòu)設(shè)計(jì)與控制研究D.哈爾濱工程大學(xué)，201317Jiang Xiaop ing, Fu Hua, Yao Tianren. A single channelspeech enhancement method based On masking propertiesand minimum statisticsA . 2002 6 th Internationa

23、l Confer2ence on Signal ProcessingC . 2012. 4602463.18裴文江,劉文波,于盛林.基于分形理論的混沌信號(hào)與噪聲分離方法 J . 南京航空航天大學(xué)學(xué)報(bào), 2009, 29(5). 4832487.19Virag N. Single channel speech enhancement based onmasking p roperties of human auditory system J . IEEE Trans on Speech Audio Process, 1999, 7 (2) : 1262137.三、項(xiàng)目的特色與創(chuàng)新之處本課題最大的

24、創(chuàng)新點(diǎn)是帶噪語音識(shí)別及如何將用戶的自然語言所要表達(dá)的意圖轉(zhuǎn)化為相應(yīng)的機(jī)器人控制指令。此外，創(chuàng)新性地搭建服務(wù)機(jī)器人嵌入式混合語音識(shí)別平臺(tái)。通過互補(bǔ)設(shè)計(jì)，采用云語音識(shí)別技術(shù)克服基于本地語音識(shí)別無法處理復(fù)雜語音指令的問題，而由本地語音識(shí)別克服云語音識(shí)別短句的多義性及高延時(shí)問題，并設(shè)計(jì)多場(chǎng)景語音指令切換系統(tǒng)，及動(dòng)態(tài)語音識(shí)別指令庫(kù)以擴(kuò)展混合語音識(shí)別系統(tǒng)性能。同時(shí)運(yùn)用仿生學(xué)的方法，利用音頻聽覺、攝像頭視覺和超聲裝置等多個(gè)傳感器信息的綜合來提高聽覺定位的精度和魯棒性，根據(jù)項(xiàng)目的需要，這里可以通過“視-聽”融合共同辨識(shí)到目標(biāo)。本課題最大的優(yōu)點(diǎn)是在噪聲環(huán)境下和自然環(huán)境下分離聲音，優(yōu)化語音識(shí)別算法，改善不同環(huán)境下

25、多種聲源的識(shí)別率。本課題采用DNN-HMM聲學(xué)模型,實(shí)現(xiàn)對(duì)整個(gè)語音識(shí)別系統(tǒng)性能的提高。本課題擬將語音識(shí)別利用分布式計(jì)算框架搭建在云平臺(tái)上，將語音識(shí)別中復(fù)雜的計(jì)算、海量的識(shí)別特征庫(kù)放在服務(wù)器中處理，嵌入式設(shè)備只做簡(jiǎn)單的語音信號(hào)采集及語音識(shí)別結(jié)果接收，從而搭建服務(wù)機(jī)器人LD3320和百度混合語音識(shí)別系統(tǒng)。同時(shí)收集大量的語料來建立一個(gè)語音庫(kù)，并設(shè)計(jì)一套有效的機(jī)器人控制指令體系，利用最大熵分類器進(jìn)行分類，實(shí)現(xiàn)用戶自然語言到機(jī)器人控制指令的映射，完整地實(shí)現(xiàn)面向家庭服務(wù)機(jī)器人的語音交互系統(tǒng)設(shè)計(jì)。四、實(shí)施方案4.1申請(qǐng)課題的預(yù)期目標(biāo)、主要研究?jī)?nèi)容 4.1.1 預(yù)期目標(biāo)（1）將聲源定位技術(shù)應(yīng)用于家庭服務(wù)機(jī)器人

26、，進(jìn)一步優(yōu)化算法，提高語音識(shí)別的準(zhǔn)確率，實(shí)現(xiàn)在復(fù)雜環(huán)境下和多聲源下的語音識(shí)別。（2）設(shè)計(jì)服務(wù)機(jī)器人嵌入式混合語音識(shí)別平臺(tái)，達(dá)到高精度、快速度的語音識(shí)別效果，并具備一定的口音抗拒能力，滿足嵌入式平臺(tái)語音識(shí)別的應(yīng)用需求。（3）在機(jī)器人語音識(shí)別、云平臺(tái)搭建的基礎(chǔ)上，完成服務(wù)機(jī)器人語音系統(tǒng)的自主功能和語音交互功能的設(shè)計(jì)，搭建人機(jī)交互平臺(tái)。4.1.2 研究?jī)?nèi)容1.語音處理與識(shí)別服務(wù)機(jī)器人控制系統(tǒng)中語音識(shí)別的目的就是讓機(jī)器通過識(shí)別和理解過程把語音信號(hào)轉(zhuǎn)變?yōu)橄鄳?yīng)的文本或命令，使得人機(jī)可以進(jìn)行交流，其中包括人的意圖理解、特殊需求的自主功能實(shí)現(xiàn)、以及對(duì)周圍環(huán)境的判斷。語音識(shí)別系統(tǒng)本質(zhì)上是一個(gè)模式識(shí)別系統(tǒng)，系統(tǒng)

27、首先對(duì)外界傳入的訓(xùn)練語音信號(hào)進(jìn)行分析并提取能反映語音特征的特征參數(shù)，而后對(duì)這些特征參數(shù)進(jìn)行相關(guān)處理(訓(xùn)練和學(xué)習(xí))形成參考模型庫(kù)；在形成參考模型庫(kù)之后，進(jìn)行語音信號(hào)的識(shí)別，系統(tǒng)同樣先將這部分語音信號(hào)進(jìn)行分析并提取特征參數(shù)，而后對(duì)訓(xùn)練過程形成的參考模型庫(kù)進(jìn)行模式匹配，最終決定匹配結(jié)果是否為識(shí)別結(jié)果。語音處理與識(shí)別的方框圖如下圖1所示。預(yù)處理特征處理參考模式模式匹配判決規(guī)則識(shí)別結(jié)果語音信號(hào)圖1 語音處理與識(shí)別方框圖然而要保證機(jī)器人在各種復(fù)雜環(huán)境中，識(shí)別并理解出各種語言信息的語義，還面臨很大挑戰(zhàn)。這需要研究解決語音信息變化較大、語音的模糊性影響問題、環(huán)境的噪音干擾問題、非特定人語音識(shí)別問題、以及識(shí)別

28、的實(shí)時(shí)性問題等。本課題將重點(diǎn)對(duì)語音識(shí)別技術(shù)中的語音信號(hào)處理、提取和訓(xùn)練識(shí)別做深入研究，這部分內(nèi)容主要包括為：（1）語音信號(hào)的預(yù)處理，包括語音信號(hào)的模數(shù)轉(zhuǎn)換和濾波、預(yù)加重、分幀加窗及端點(diǎn)檢測(cè)等。（2）語音特征參數(shù)提取及提取方法的選擇；利用深度學(xué)習(xí)中深度神經(jīng)網(wǎng)絡(luò)有監(jiān)督學(xué)習(xí)方法提取語音的高層特征。（3）語音的訓(xùn)練與識(shí)別，分類器的選取和分類決策的設(shè)計(jì)；（4）構(gòu)建合理的深度學(xué)習(xí)模型，并結(jié)合隱馬爾科夫模型建立聲學(xué)模型；利用深度學(xué)習(xí)中有限的監(jiān)督信息來提高網(wǎng)絡(luò)整體的魯棒性，增強(qiáng)網(wǎng)絡(luò)對(duì)數(shù)據(jù)建模能力，提高語音識(shí)別準(zhǔn)確率。（5）通過聲源定位估計(jì)聲源位置，在噪聲環(huán)境下和自然環(huán)境下分離聲音，得到語音段和非語音段，語音數(shù)

29、據(jù)通過算法完成多源語音的辨識(shí)。優(yōu)化語音識(shí)別算法，改善不同環(huán)境下多種聲源的識(shí)別率。2.服務(wù)機(jī)器人嵌入式語音識(shí)別平臺(tái)的搭建（1）服務(wù)機(jī)器人本地語音識(shí)別平臺(tái)的搭建服務(wù)機(jī)器人本地語音識(shí)別主要是指不依賴網(wǎng)絡(luò)，從語音信號(hào)采集、預(yù)處理、特征提取、匹配搜索等均是在本地實(shí)現(xiàn)的快速語音識(shí)別方案。受嵌入式平臺(tái)特點(diǎn)所限，本地語音識(shí)別方案不能占用嵌入式系統(tǒng)大量計(jì)算資源、存儲(chǔ)空間，識(shí)別速度還要盡可能快，而且整個(gè)識(shí)別過程是在本地完成的。這部分包括的主要研究?jī)?nèi)容：a)專用語音識(shí)別模塊的設(shè)計(jì),用于編程控制專用語音識(shí)別芯片工作流程的核心控制器的設(shè)計(jì)；b)專用語音識(shí)別芯片的選擇,語音識(shí)別芯片工作原理和通信的學(xué)習(xí)，語音識(shí)別芯片列表的

30、設(shè)計(jì)；c)用來存儲(chǔ)本地語音識(shí)別系統(tǒng)所有可能的語音列表的識(shí)別指令庫(kù)的設(shè)計(jì)；d)本地語音識(shí)別各模塊之間連接的設(shè)計(jì)，根據(jù)專用語音識(shí)別芯片工作流程設(shè)計(jì)出軟件流程。（2）服務(wù)機(jī)器人云平臺(tái)語音識(shí)別平臺(tái)的搭建這里我們將語音識(shí)別利用分布式計(jì)算框架搭建在云平臺(tái)上，將語音識(shí)別中復(fù)雜的計(jì)算、海量的識(shí)別特征庫(kù)放在服務(wù)器中處理，嵌入式設(shè)備只做簡(jiǎn)單的語音信號(hào)采集及語音識(shí)別結(jié)果接收。主要內(nèi)容包括：云服務(wù)器的選擇、語音采集；對(duì)語音數(shù)據(jù)進(jìn)行音頻壓縮、編碼、封裝成音頻文件的設(shè)計(jì)；數(shù)據(jù)傳輸協(xié)議的設(shè)計(jì)；云語音識(shí)別接口的設(shè)計(jì)；數(shù)據(jù)的解析。（3）服務(wù)機(jī)器人嵌入式混合語音識(shí)別平臺(tái)的搭建搭建服務(wù)機(jī)器人混合語音識(shí)別系統(tǒng)，通過互補(bǔ)設(shè)計(jì)，采用云語

31、音識(shí)別技術(shù)克服基于本地語音識(shí)別無法處理復(fù)雜語音指令的問題，而由本地語音識(shí)別克服云語音識(shí)別短句的多義性及高延時(shí)問題，并設(shè)計(jì)多場(chǎng)景語音指令切換系統(tǒng)，及動(dòng)態(tài)語音識(shí)別指令庫(kù)以擴(kuò)展混合語音識(shí)別系統(tǒng)性能。主要內(nèi)容包括：底層 Linux I0驅(qū)動(dòng)設(shè)計(jì)，其中包括SPI驅(qū)動(dòng)設(shè)計(jì)、GPIO驅(qū)動(dòng)設(shè)計(jì)、WIFI驅(qū)動(dòng)設(shè)計(jì)、聲卡驅(qū)動(dòng)設(shè)計(jì)；本地及云語音識(shí)別驅(qū)動(dòng)設(shè)計(jì)；系統(tǒng)邏輯控制應(yīng)用設(shè)計(jì)。服務(wù)機(jī)器人嵌入式語音識(shí)別平臺(tái)系統(tǒng)框圖如下圖2所示。圖2 服務(wù)機(jī)器人嵌入式語音識(shí)別平臺(tái)系統(tǒng)框圖3.人-機(jī)器人交互與服務(wù)系統(tǒng)在實(shí)際應(yīng)用中，用戶和機(jī)器人的交互方式也多種多樣，例如手勢(shì)動(dòng)作、觸摸、語音等。在多種交互方式中，通過語音與機(jī)器人交互對(duì)用

32、戶來說是最直接也是最方便的方式。語音交互可以讓用戶直接使用日常的自然語言把信息傳遞給機(jī)器人，來獲得相應(yīng)的服務(wù)。特別是對(duì)于老齡用戶或者其他肢體活動(dòng)不方便的用戶，語音交互更加便利。因此，對(duì)于自然語言的理解，是人-服務(wù)機(jī)器人語音交互的重要研究?jī)?nèi)容。關(guān)于自然語言理解的方法，比較實(shí)用有效的方法是關(guān)鍵詞匹配。這種關(guān)鍵詞匹配的方法簡(jiǎn)單實(shí)用，但是需要用戶進(jìn)行一定的訓(xùn)練，熟悉了服務(wù)機(jī)器人的控制方法之后才能很好地與機(jī)器人交互?，F(xiàn)在比較普遍的是基于語料庫(kù)的機(jī)器學(xué)習(xí)方法。如今進(jìn)入大數(shù)據(jù)時(shí)代，基于語料庫(kù)的自然語言理解研究將有廣闊的發(fā)展前景。與關(guān)鍵詞匹配的方法比，基于語料庫(kù)的方法更加具有擴(kuò)展性和非受限性?；谝陨蠁栴}提出

33、了人-機(jī)器人語音交互的系統(tǒng)框架，繼而重點(diǎn)研究了如何利用家庭服務(wù)機(jī)器人相關(guān)的控制指令語料庫(kù)進(jìn)行學(xué)習(xí)建模，進(jìn)而幫助機(jī)器人更好地理解用戶的自然語言指令整個(gè)人-機(jī)器人交互與服務(wù)系統(tǒng)的框架如圖3所示。用戶輸入層交互層輸出層語音信息語音識(shí)別用戶意圖理解用戶機(jī)器人多媒體服務(wù)信息服務(wù)家用電器服務(wù) 圖3 人-機(jī)器人交互與服務(wù)系統(tǒng)框圖該框架結(jié)構(gòu)為 3 層串聯(lián)方式：輸入層，交互層和輸出層。在輸入層機(jī)器人的任務(wù)是獲取用戶的信息，主要是語音信息。并將獲取的信息交給交互層處理。交互層主要包含兩個(gè)模塊：語音識(shí)別，意圖理解。其中，語音識(shí)別模塊是將用戶的語音指令轉(zhuǎn)化為自然語言文本。意圖理解模塊將接收到的文本信息進(jìn)行處理，將用戶

34、的語言意圖轉(zhuǎn)化為相應(yīng)的機(jī)器人控制指令。最后，輸出層將接收到的機(jī)器人控制指令轉(zhuǎn)化為相應(yīng)的機(jī)器人服務(wù)，然后將此服務(wù)提供給用戶。這部分的研究?jī)?nèi)容主要包括：（1）需要建立完善的控制指令語料庫(kù)；（2）需要設(shè)計(jì)一套有效的機(jī)器人控制指令；（3）如何將用戶的自然語言所要表達(dá)的意圖轉(zhuǎn)化為相應(yīng)的機(jī)器人控制指令。4.2技術(shù)路線（包括關(guān)鍵技術(shù)、研究方案、技術(shù)方法及可行性分析）4.2.1關(guān)鍵技術(shù)（1）麥克風(fēng)陣列通道數(shù)和維數(shù)的選擇；麥克風(fēng)陣列校驗(yàn)、訓(xùn)練序列、干擾和噪聲的分析處理；建立準(zhǔn)確率高和實(shí)時(shí)性能好的聲源定位和聲源分離算法；（2）語音特征參數(shù)的提??；語音的訓(xùn)練識(shí)別中分類器的選取和分類決策的設(shè)計(jì)；噪聲環(huán)境下語音識(shí)別的準(zhǔn)

35、確率；（3）本地平臺(tái)和云平臺(tái)的混合設(shè)計(jì)；云平臺(tái)接口的設(shè)計(jì)；URL、HTTP、JSON數(shù)據(jù)格式的應(yīng)用；（4）控制指令語料庫(kù)的建立和完善；控制指令體系的設(shè)計(jì)；自然語言指令理解算法；自然語言指令和對(duì)應(yīng)機(jī)器人控制指令之間的映射關(guān)系的建立。4.2.2研究方案(1) 認(rèn)真總結(jié)前期研究已取得的理論成果和實(shí)踐經(jīng)驗(yàn)，細(xì)致檢索和學(xué)習(xí)相關(guān)參考文獻(xiàn)，提高研發(fā)起點(diǎn)，理論聯(lián)系實(shí)際，做好總體設(shè)計(jì)與任務(wù)安排；(2) 先從整體入手，確定服務(wù)機(jī)器人語音識(shí)別研究的主要內(nèi)容，再?gòu)木植砍霭l(fā)，分別從聲源定位、語音識(shí)別、嵌入式語音識(shí)別平臺(tái)搭建、人機(jī)交互開始研究，掌握其中關(guān)鍵技術(shù)，最后組建一個(gè)完整的家庭服務(wù)機(jī)器人的語音交互系統(tǒng)；(3) 研究

36、聲源定位、語音識(shí)別算法，并在原有的基礎(chǔ)上進(jìn)行改進(jìn)，完成傳感器的設(shè)計(jì)并編寫程序；(4) 從平臺(tái)搭建角度，先搭建本地語音識(shí)別平臺(tái)，再搭建云語音識(shí)別平臺(tái)，最后把兩者混合搭建在一起，設(shè)計(jì)硬件連接和程序編寫，完成本地語音與在線語音的共同識(shí)別；(5)從服務(wù)機(jī)器人與人交互的角度出發(fā)，完成服務(wù)機(jī)器人語音系統(tǒng)的自主功能和語音交互功能的設(shè)計(jì)，搭建人機(jī)交互平臺(tái)，完成整個(gè)系統(tǒng)的聯(lián)調(diào)；(6）總結(jié)研發(fā)過程，撰寫技術(shù)報(bào)告。4.2.3 關(guān)鍵技術(shù)路線可行性分析（1）聲源定位關(guān)鍵技術(shù)分析聲源信號(hào)的合理采集是目標(biāo)定位、語音分離和識(shí)別的基礎(chǔ)，采用何種技術(shù)對(duì)信號(hào)進(jìn)行采集使之獲得高質(zhì)量的語音信號(hào)直接影響后期目標(biāo)定位的精度和效率。在一定

37、理論基礎(chǔ)和以前的實(shí)踐基礎(chǔ)上，決定通過直接操縱底層的聲音API利用聲卡采集語音信號(hào)，利用多線程技術(shù)實(shí)現(xiàn)多麥克風(fēng)工作線程的控制，同時(shí)可以采用定時(shí)器功能來實(shí)現(xiàn)麥克風(fēng)多次反復(fù)定位中的信號(hào)采集異步問題，利用雙緩存技術(shù)實(shí)現(xiàn)采集信號(hào)的完整性。考慮到語音信號(hào)可能含有大量的干擾信號(hào)，我們可以對(duì)信號(hào)進(jìn)行加權(quán)、分幀、加窗等預(yù)處理獲得有效信號(hào)，語音信號(hào)中可能摻雜的環(huán)境噪聲，可以用平移不變小波變換和塊閾值的小波變換消噪。聲源定位主要是基礎(chǔ)傳聲器陣列的方法，通過分析處理傳聲器陣列接收的聲信號(hào)估計(jì)出空間聲源目標(biāo)的位置，考慮到既要滿足精度要求，又要避免麥克風(fēng)過多而使定位算法過于復(fù)雜的問題，設(shè)計(jì)出一種四元三維的正四面體結(jié)構(gòu)的麥

38、克風(fēng)傳聲器陣列是可行的，比較分析高分辨率頻譜估計(jì)、最大輸出功率的可控波束形成、時(shí)間延遲估計(jì)幾種聲源定位方法，結(jié)合項(xiàng)目實(shí)際要求，選擇延時(shí)估計(jì)聲源定位方法是可行的，并在此基礎(chǔ)上對(duì)廣義互相關(guān)(GCC) 時(shí)延算法進(jìn)行改進(jìn)，在計(jì)算機(jī)上對(duì)其仿真，最后在硬件上進(jìn)行實(shí)現(xiàn)。根據(jù)項(xiàng)目要求，若單一的聽覺定位系統(tǒng)滿足不了精度要求，可以將多傳感器融合進(jìn)行目標(biāo)定位，在服務(wù)機(jī)器人上安裝視覺傳感器和聲音傳感器，將聽覺、視覺傳感器信息按照一定準(zhǔn)則進(jìn)行融合，再依據(jù)融合后的信息進(jìn)行決策，這里可以采用有D-S證據(jù)理論、卡爾曼濾波、空間似然函數(shù)（SLF）、人工神經(jīng)網(wǎng)絡(luò)、模糊推理等將視覺與聽覺信息進(jìn)行融合，理論上這種策略是可行的。（2）

39、語音識(shí)別關(guān)鍵技術(shù)分析語音信號(hào)的預(yù)處理：語音信號(hào)是非平穩(wěn)隨機(jī)復(fù)雜信號(hào)，為了消除或減小采集的語音樣本之間由于聲音大小的不同而對(duì)識(shí)別結(jié)果產(chǎn)生的影響，對(duì)語音信號(hào)進(jìn)行幅值歸一化處理，并通過預(yù)加重?cái)?shù)字濾波器解決高頻有效信息衰減問題。對(duì)語音信號(hào)進(jìn)行加窗和分幀可得到短時(shí)的語音信號(hào)，以便進(jìn)行分析和處理。而面對(duì)語音信號(hào)中的噪聲影響，需采用基于短時(shí)能量的端點(diǎn)檢測(cè)加以區(qū)分。語音信號(hào)預(yù)處理框圖如下圖4所示。預(yù)加重分幀加窗端點(diǎn)檢測(cè)量化采樣預(yù)處理結(jié)果圖4 語音信號(hào)預(yù)處理框圖特征參數(shù)提?。侯A(yù)處理之后的數(shù)據(jù)仍包含與語音識(shí)別無關(guān)的冗余信息，因此對(duì)特征參數(shù)提取問題將更為關(guān)鍵，初步討論利用深度神經(jīng)網(wǎng)絡(luò)有監(jiān)督學(xué)習(xí)方法提取語音的高層特征

40、。從特征數(shù)據(jù)的處理、特征輸入的維度、隱含層層數(shù)及單元數(shù)的配置、網(wǎng)絡(luò)訓(xùn)練過程中學(xué)習(xí)率及預(yù)訓(xùn)練過程中迭代次數(shù)的設(shè)定等多方面研究深度神經(jīng)網(wǎng)絡(luò)的搭建訓(xùn)練以及其在語音特征提取方面的應(yīng)用性；用MFCC特征做輸入數(shù)據(jù)，通過中間隱藏層擴(kuò)展數(shù)據(jù)維度，對(duì)應(yīng)的三音素標(biāo)簽做監(jiān)督，訓(xùn)練一個(gè)深度神經(jīng)網(wǎng)絡(luò)，對(duì)新生成的網(wǎng)絡(luò)選用一些固定層的輸出作為新的語音特征，用這些新的語音特征去訓(xùn)練聲學(xué)模型，通過語音的識(shí)別解碼驗(yàn)證基于深度神經(jīng)網(wǎng)絡(luò)提取特征的有效性。語音的訓(xùn)練與識(shí)別：所設(shè)計(jì)的服務(wù)機(jī)器人語音識(shí)別應(yīng)為連續(xù)語音識(shí)別，可以通過建立特定的語音識(shí)別模型來對(duì)語音信號(hào)本質(zhì)進(jìn)行描述。GMM是目前主流的對(duì)HMM輸出概率進(jìn)行建模的方法，基于GMM-

41、HMM的聲學(xué)模型被廣泛應(yīng)用于現(xiàn)有的連續(xù)語音識(shí)別系統(tǒng)當(dāng)中；但是考慮到所研究的家庭服務(wù)機(jī)器人面對(duì)更加復(fù)雜的語音識(shí)別環(huán)境時(shí)，GMM逐漸顯示出建模能力不足的問題，因此可嘗試采用DNN代替GMM，建立DNN-HMM聲學(xué)模型，模型如圖5所示。圖5 基于DNN-HMM的聲學(xué)模型DNN與HMM的結(jié)合原理：在基于DNN-HMM混合的聲學(xué)建模中，DNN的作用在于替換原先的GMM模型，估算HMM狀態(tài)的后驗(yàn)概率。對(duì)于給定時(shí)刻t的特征觀察矢量，在DNN中釆用Softmax函數(shù)計(jì)算HMM狀態(tài)出現(xiàn)的概率，狀態(tài)為：其中，為輸出層狀態(tài)s的激活概率（輸出值）。式中，P(S)表示訓(xùn)練數(shù)據(jù)中狀態(tài)S出現(xiàn)的先驗(yàn)概率。網(wǎng)絡(luò)釆用標(biāo)準(zhǔn)誤差反向

42、傳播算法，通過最優(yōu)化給定的目標(biāo)函數(shù)來完成訓(xùn)練。對(duì)于深度神經(jīng)網(wǎng)絡(luò)，通常以交叉熵作為目標(biāo)函數(shù)，優(yōu)化過程通過隨機(jī)梯度下降算法實(shí)現(xiàn)。DNN的輸入一般采用傳統(tǒng)頻譜特征及其改進(jìn)特征(如MFCC、PLP、Filter-bank等)經(jīng)過幀拼接得到，拼接長(zhǎng)度一般選擇9-15幀之間，時(shí)間上約10ms左右。而輸出則一般釆用各種粒度的音素聲學(xué)單元，常見的有單音子音素(Monophone)、單音子音素的狀態(tài)以及三音子音素(Triphone)綁定狀態(tài)等。輸出層的標(biāo)注一般采用GMM-HMM基線系統(tǒng)經(jīng)強(qiáng)對(duì)齊(Force-alignment)得到。DNN-HMM聲學(xué)建模步驟（1）生成監(jiān)督信息DNN的訓(xùn)練需要有監(jiān)督信息參與網(wǎng)絡(luò)訓(xùn)

43、練，因此，獲取每一幀所對(duì)應(yīng)的音素狀態(tài)作為DNN網(wǎng)絡(luò)調(diào)諧時(shí)的標(biāo)簽信息。（2）網(wǎng)絡(luò)參數(shù)設(shè)定設(shè)定整個(gè)DNN網(wǎng)絡(luò)包含的輸入層、輸出層及隱含層個(gè)數(shù)和各層包含的節(jié)點(diǎn)數(shù)。具體數(shù)目的確定需要根據(jù)實(shí)驗(yàn)結(jié)果來調(diào)整。（3）網(wǎng)絡(luò)訓(xùn)練預(yù)訓(xùn)練：采用DBN預(yù)訓(xùn)練方法對(duì)網(wǎng)絡(luò)參數(shù)進(jìn)行初始化；網(wǎng)絡(luò)調(diào)諧：DNN聲學(xué)建模使用隨機(jī)梯度下降的方法以誤差反向傳播的過程進(jìn)行權(quán)重的更新:和代表隱含層l的權(quán)重矩陣和偏置向量，代表學(xué)習(xí)速率以最小化交叉熵為目標(biāo)函數(shù)L，進(jìn)行參數(shù)調(diào)整。（4）DNN-HMM結(jié)合的識(shí)別系統(tǒng)結(jié)合DNN輸出層節(jié)點(diǎn)的輸出值計(jì)算狀態(tài)輸出的后驗(yàn)概率。DNN生成的狀態(tài)后驗(yàn)概率需要按照貝葉斯公式，除以每個(gè)狀態(tài)各自的先驗(yàn)概率，轉(zhuǎn)化成規(guī)整的

44、似然值。用DNN的輸出層直接對(duì)HMM各個(gè)綁定狀態(tài)建模，估計(jì)出每個(gè)狀態(tài)后驗(yàn)概率分布，得到相應(yīng)的規(guī)整似然值進(jìn)行解碼。通過設(shè)計(jì)DNN模型參數(shù)的稀疏性簡(jiǎn)化模型結(jié)構(gòu)來提高訓(xùn)練效率實(shí)現(xiàn)大語音數(shù)據(jù)下對(duì)DNN-HMM聲學(xué)模型的訓(xùn)練；利用目標(biāo)說話人的數(shù)據(jù)直接訓(xùn)練更新已收斂的說話人無關(guān)DNN模型參數(shù)來提高DNN-HMM聲學(xué)模型的說話人的自適應(yīng)性，實(shí)現(xiàn)對(duì)整個(gè)語音識(shí)別系統(tǒng)性能的提高；整個(gè)語音識(shí)別的方框圖如下圖6所示。圖6 語音識(shí)別方框圖（3）服務(wù)機(jī)器人嵌入式語音識(shí)別平臺(tái)的搭建關(guān)鍵技術(shù)分析設(shè)計(jì)本地語音識(shí)別平臺(tái)，系統(tǒng)框圖如下圖7所示語音采集識(shí)別指令當(dāng)前識(shí)別列表識(shí)別指令庫(kù)S3C6410核心板LD3320模塊關(guān)聯(lián)圖7本地語音

45、識(shí)別框圖經(jīng)初步研究，采用以ARM11處理器的S3C6410為開發(fā)板，以Linux-2.3為內(nèi)核，設(shè)計(jì)LD3320芯片的專用語音識(shí)別系統(tǒng)，與控制器的通信方式設(shè)計(jì)為串行SPI方式，并設(shè)計(jì)LD3320語音識(shí)別列表，根據(jù)各模塊搭建硬件連接平臺(tái)，編寫相應(yīng)的測(cè)試程序，測(cè)試其能否滿足要求。設(shè)計(jì)百度云語音識(shí)別平臺(tái)，系統(tǒng)框圖如下圖8所示經(jīng)初步研究決定，對(duì)語音信號(hào)進(jìn)行AD采樣、音頻編碼，獲得WAV文件，再向百度語音識(shí)別API發(fā)送HTTP請(qǐng)求，接收提取JSON數(shù)據(jù)中語音識(shí)別內(nèi)容及其匹配度，完成在線語音識(shí)別。說話語音音PMC數(shù)據(jù)語音內(nèi)容JSON數(shù)據(jù)WAV文件百度 ASRAD采樣音頻編碼HTTP POSTRWSPOO

46、NSE解析圖8 百度語音識(shí)別系統(tǒng)圖設(shè)計(jì)LD3320和百度混合語音識(shí)別平臺(tái)，系統(tǒng)框圖如圖9所示混合語音識(shí)別系統(tǒng)軟件框架分三層實(shí)現(xiàn)，上層為邏輯控制程序和語音指令列表，中間層為L(zhǎng)D3320 ASR、百度 ASR和指令執(zhí)行，底層為SPI驅(qū)動(dòng)、GPIO驅(qū)動(dòng)、WIFI驅(qū)動(dòng)和聲卡驅(qū)動(dòng)。搭建硬件連接和編寫軟件程序，測(cè)試語音識(shí)別效果。LD3320模塊服務(wù)機(jī)器人(linux內(nèi)核）百度云語音識(shí)別InternetWIFI模塊SPI通信圖9 LD3320和百度的混合語音識(shí)別平臺(tái)（4）人機(jī)交互關(guān)鍵技術(shù)分析控制指令體系及控制指令語料庫(kù)的建立。人-機(jī)器人交互系統(tǒng)中，為了設(shè)計(jì)機(jī)器人控制指令，首先對(duì)所收集的家庭服務(wù)機(jī)器人控制指令語料庫(kù)進(jìn)行了分析。當(dāng)想要獲取某種服務(wù)時(shí)，用戶表達(dá)的意圖可以通過引入屬性變量來設(shè)計(jì)機(jī)器人控制指令。通過屬性值定義和描述機(jī)器人控制指令，使得指令更加體系化，而且也方便機(jī)器人執(zhí)行，避免產(chǎn)生歧義。測(cè)試語料訓(xùn)練語料分類器最大熵統(tǒng)一模型組合指令輸出測(cè)試過程訓(xùn)練過程要建立自然語言指令和對(duì)應(yīng)機(jī)器人控制指令之間的映射關(guān)系，這可以看作是

人人文庫(kù)> 全部分類> 教育資料 > 課件下載

溫馨提示

1. 本站所有資源如無特殊說明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽，若沒有圖紙預(yù)覽就沒有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間，僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理，對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容，請(qǐng)與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

大創(chuàng)申請(qǐng)書終稿

文檔簡(jiǎn)介

溫馨提示

最新文檔

評(píng)論

大創(chuàng)申請(qǐng)書終稿

文檔簡(jiǎn)介

溫馨提示

最新文檔

評(píng)論

相關(guān)文檔