版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
1、 第十批“大學(xué)生創(chuàng)新訓(xùn)練計(jì)劃”項(xiàng)目申請(qǐng)書項(xiàng)目名稱:面向家庭服務(wù)機(jī)器人的語音交互系統(tǒng)設(shè)計(jì)項(xiàng)目負(fù)責(zé)人: 孫兆輿學(xué)院年級(jí)專業(yè): 信息學(xué)院14級(jí)自動(dòng)化 聯(lián)系電話:電子信箱:401530733 學(xué)生創(chuàng)新中心項(xiàng)目部填表日期:2016年1月填表須知一、項(xiàng)目申請(qǐng)表要按照東北大學(xué)“國(guó)家大學(xué)生創(chuàng)新性實(shí)驗(yàn)計(jì)劃”項(xiàng)目管理辦法和第十批“大學(xué)生創(chuàng)新創(chuàng)業(yè)訓(xùn)練計(jì)劃”項(xiàng)目申報(bào)通知的相關(guān)要求,逐項(xiàng)認(rèn)真填寫,填寫內(nèi)容必須實(shí)事求是,表達(dá)明確嚴(yán)謹(jǐn),可另行附頁(yè)。二、格式要求:表格中的正文字體應(yīng)為小四號(hào)宋體,22磅行距,打印輸出;需簽字部分由相關(guān)人員以黑色鋼筆或水筆簽名。均用A4紙正反面打印,于左側(cè)裝訂成冊(cè)。三、
2、項(xiàng)目申請(qǐng)表由項(xiàng)目負(fù)責(zé)人填寫,經(jīng)學(xué)院或創(chuàng)新基地評(píng)審匯總后統(tǒng)一上報(bào)創(chuàng)新創(chuàng)業(yè)學(xué)院,創(chuàng)新創(chuàng)業(yè)學(xué)院組織 “大學(xué)生創(chuàng)新創(chuàng)業(yè)訓(xùn)練計(jì)劃”專家指導(dǎo)委員評(píng)審確定。學(xué)生申請(qǐng)課題須自行聯(lián)系確定指導(dǎo)教師。四、團(tuán)隊(duì)申報(bào)的成員由核心成員和預(yù)備成員組成,其中核心成員由1-2人組成,預(yù)備成員1-3人。五、項(xiàng)目申請(qǐng)表填寫內(nèi)容應(yīng)言簡(jiǎn)意賅,思路清晰,論證充分,字跡清楚,一律用計(jì)算機(jī)輸入打印。六、以學(xué)院為單位上交此申報(bào)表。(電子檔傳到neu83690117和紙質(zhì)材料一式五份)七、如填表有不明事宜,請(qǐng)致電創(chuàng)新創(chuàng)業(yè)學(xué)院項(xiàng)目部83690117。項(xiàng)目基本情況項(xiàng)目名稱申請(qǐng)團(tuán)隊(duì)情況核心成員姓名學(xué)號(hào)所在學(xué)院專業(yè)聯(lián)系電話孫兆輿20144217信息學(xué)院
3、自動(dòng)興20144291信息學(xué)院自動(dòng)備成員黃雨佳20144142信息學(xué)院電氣工程及其自動(dòng)導(dǎo)教師姓名職稱/職務(wù)所在學(xué)院聯(lián)系電話王斐副教授信目來源自主選題 交叉學(xué)科項(xiàng)目競(jìng)賽前期研究 教師子課題示范性學(xué)生創(chuàng)新團(tuán)隊(duì)選題學(xué)科類別( B5 )項(xiàng)目學(xué)科類別請(qǐng)從A-K中選擇,如A3、FA機(jī)械與控制(A1機(jī)械、A2儀器儀表、A3工程、A4交通、A5建筑等)B信息技術(shù)(B1計(jì)算機(jī)、B2電信、B3通訊、B4電子、B5自動(dòng)化控制等)C數(shù)理(C1數(shù)學(xué)、C2物理、C3地球空間科學(xué))D生命科學(xué)(D1生物、D2農(nóng)學(xué)、D3藥學(xué)
4、、D4醫(yī)學(xué)、D5食品、D6生態(tài))E能源化工(E1能源、E2材料、E3化學(xué)、E4化工、E5環(huán)境工程)F哲學(xué) G經(jīng)濟(jì)H社會(huì) I法律J教育 K管理申請(qǐng)經(jīng)費(fèi)15,000元起止時(shí)間2016年3月-2017年5月一、申請(qǐng)理由(內(nèi)容應(yīng)包括成員學(xué)習(xí)情況、獲得獎(jiǎng)學(xué)金情況,知識(shí)條件、參加過的科研訓(xùn)練和創(chuàng)新活動(dòng)情況)現(xiàn)在全國(guó)都在議論萬眾創(chuàng)新,但是如何創(chuàng)新,如何出彩,身為大學(xué)生的我們都應(yīng)該去仔細(xì)思考。大一期間,我們團(tuán)隊(duì)三人看到了機(jī)器人行業(yè)正在悄然崛起,隨著工業(yè)4.0時(shí)代的到來,我國(guó)更是將機(jī)器人產(chǎn)業(yè)列為重要的工業(yè)產(chǎn)業(yè)。中國(guó)“十三五”規(guī)劃中對(duì)機(jī)器人的發(fā)展及其對(duì)我國(guó)經(jīng)濟(jì)增長(zhǎng)等方面都提出擬定規(guī)劃。本著對(duì)機(jī)器人的喜愛,更是對(duì)語
5、音識(shí)別方面的熱愛,我們選擇了面向家庭服務(wù)機(jī)器人的語音識(shí)別系統(tǒng)作為我們的課題。本團(tuán)隊(duì)三名成員累計(jì)獲得四次獎(jiǎng)學(xué)金,其中包括三次校級(jí)三等獎(jiǎng)學(xué)金,還有一次勵(lì)志獎(jiǎng)學(xué)金。團(tuán)隊(duì)成員中有一名優(yōu)秀團(tuán)員、一名優(yōu)秀團(tuán)干部和一名優(yōu)秀學(xué)生干部,團(tuán)隊(duì)成員均通過了英語四級(jí)考試,三名同學(xué)通過了計(jì)算機(jī)二級(jí)(C語言)。孫兆輿具有極好的鉆研能力和動(dòng)手能力,刻苦好學(xué),在大一期間獲得全國(guó)數(shù)學(xué)競(jìng)賽國(guó)家二等獎(jiǎng),大二期間參加學(xué)校的科普知識(shí)競(jìng)賽并斬獲一等獎(jiǎng),積極參加各種學(xué)??茀f(xié)舉辦的競(jìng)賽活動(dòng),是科學(xué)競(jìng)賽的活躍分子,無動(dòng)力滑翔機(jī)、紙橋承重大賽均榮獲優(yōu)秀獎(jiǎng)。與此同時(shí),他還參加過類似的科研訓(xùn)練,大一時(shí)常去智能車實(shí)驗(yàn)室,實(shí)踐操作能力強(qiáng),是難得的硬件好
6、手。張興具備較強(qiáng)的學(xué)習(xí)能力和鉆研能力,大一學(xué)年內(nèi)平均績(jī)點(diǎn)位于自動(dòng)化類前50名,榮獲校級(jí)優(yōu)秀學(xué)生三等獎(jiǎng)學(xué)金,國(guó)家勵(lì)志獎(jiǎng)學(xué)金,并獲得東北大學(xué)優(yōu)秀團(tuán)員稱號(hào)。張興同學(xué)以良好的成績(jī)通過了英語四級(jí)和計(jì)算機(jī)二級(jí)C語言等級(jí)考試。在大一寒假期間參加了遼寧省電子設(shè)計(jì)競(jìng)賽培訓(xùn),對(duì)單片機(jī)編程及多種仿真軟件如Matlab、Labview等均有一定掌握。同時(shí)具備較強(qiáng)的創(chuàng)新能力,大一期間在信息學(xué)院科技節(jié)競(jìng)賽中獲得三等獎(jiǎng),并積極參與2016年國(guó)際大學(xué)生數(shù)學(xué)建模競(jìng)賽。黃雨佳具有較強(qiáng)的學(xué)習(xí)能力和團(tuán)隊(duì)協(xié)作能力,大一學(xué)年獲得校三等獎(jiǎng)學(xué)金,并積極參與全國(guó)和國(guó)際大學(xué)生數(shù)學(xué)建模競(jìng)賽,勇于探索和創(chuàng)新。黃雨佳具有較高水平的編程和軟件運(yùn)用能力,
7、學(xué)習(xí)成績(jī)穩(wěn)居年級(jí)前十,經(jīng)常與老師交流問題,提升自己個(gè)人能力。成員對(duì)模式識(shí)別方面知識(shí)有一定的了解,均具備相當(dāng)強(qiáng)的編程能力和系統(tǒng)仿真能力,具有較強(qiáng)的創(chuàng)新意識(shí)和學(xué)習(xí)能力,對(duì)本項(xiàng)目所涉及到的相關(guān)領(lǐng)域有一定涉獵,并在項(xiàng)目開始前做了踏實(shí)的知識(shí)儲(chǔ)備。成員學(xué)習(xí)成績(jī)穩(wěn)定,在合理的時(shí)間規(guī)劃下,我們保證項(xiàng)目圓滿完成。 二、立項(xiàng)背景(包括國(guó)內(nèi)外研究現(xiàn)狀、趨勢(shì)、研究意義、參考文獻(xiàn)和其他有關(guān)背景材料)2.1背景材料本項(xiàng)目依托單位為東北大學(xué)信息科學(xué)與工程學(xué)院“智能機(jī)器人實(shí)驗(yàn)室”,項(xiàng)目指導(dǎo)教師是信息科學(xué)與工程學(xué)院人工智能與機(jī)器人研究所副教授王斐,“智能機(jī)器人實(shí)驗(yàn)室”負(fù)責(zé)人。2000-2005年期間在日本學(xué)習(xí)和工作,主要研究方
8、向?yàn)橹悄芸刂萍翱祻?fù)機(jī)器人;2010年7月以訪問學(xué)者身份赴美國(guó)MSU進(jìn)行學(xué)術(shù)交流,與對(duì)方教授在腦控遙操作機(jī)器人領(lǐng)域開展了為期一年的合作研究。近年來在智能控制、模式識(shí)別和機(jī)器人學(xué)等領(lǐng)域開展研究工作,具有豐富的教學(xué)科研實(shí)踐經(jīng)驗(yàn),作為項(xiàng)目負(fù)責(zé)人完成國(guó)家自然科學(xué)基金、高等學(xué)校博士學(xué)科點(diǎn)專項(xiàng)科研基金(新教師)和機(jī)器人技術(shù)與系統(tǒng)國(guó)家重點(diǎn)實(shí)驗(yàn)室開放課題(重點(diǎn))及流程工業(yè)綜合自動(dòng)化教育部重點(diǎn)實(shí)驗(yàn)室開放課題、中國(guó)博士后科學(xué)基金和中央高?;A(chǔ)科研基金、廣東省汽車工程重點(diǎn)實(shí)驗(yàn)室開放課題各1項(xiàng);作為主要參加人完成國(guó)家級(jí)、省部級(jí)及日本文部省科研基金8項(xiàng);作為指導(dǎo)教師完成國(guó)家大學(xué)生創(chuàng)新計(jì)劃項(xiàng)目3項(xiàng)(2項(xiàng)優(yōu)秀,1項(xiàng)良好),進(jìn)
9、展中1項(xiàng)。目前,作為項(xiàng)目負(fù)責(zé)人主持中國(guó)人民解放軍總裝預(yù)研課題、遼寧省自然科學(xué)基金和中央基礎(chǔ)科研基金(重點(diǎn))各1項(xiàng),作為主要參加人參與863子課題1項(xiàng),其他省部級(jí)項(xiàng)目3項(xiàng)?,F(xiàn)為“中國(guó)自動(dòng)化學(xué)會(huì)機(jī)器人專業(yè)委員會(huì)”委員,為在校的本科和碩士研究生開設(shè)機(jī)器人技術(shù)基礎(chǔ)、機(jī)械學(xué)基礎(chǔ)和神經(jīng)網(wǎng)絡(luò)原理及應(yīng)用三門課程。目前機(jī)器人產(chǎn)業(yè)正在快速崛起,國(guó)家高度重視發(fā)展機(jī)器人產(chǎn)業(yè),在已有的科大訊飛語音識(shí)別產(chǎn)品硬件上做出實(shí)用、有效的服務(wù)機(jī)器人的語音識(shí)別系統(tǒng),對(duì)原有的單一命令識(shí)別進(jìn)行改進(jìn)。2.2研究意義2014-2018年中國(guó)語音機(jī)器人行業(yè)投資潛力分析及風(fēng)險(xiǎn)與預(yù)測(cè)指導(dǎo)報(bào)告分析了語音機(jī)器人的行業(yè)市場(chǎng)規(guī)模、發(fā)展前景和投資前景,可見
10、,語音機(jī)器人的發(fā)展正在逐步深入。從另外一個(gè)方面來講,我們國(guó)家正在步入老齡化的人口結(jié)構(gòu),目前我國(guó)60歲以上人口已超過總?cè)丝诘?0%【1】,人口的老齡化問題將成為中國(guó)面臨的前所未有的新挑戰(zhàn);此外,我國(guó)的殘疾人占總?cè)丝诒戎匚痪尤澜巛^高國(guó)家之列??梢灶A(yù)見,在不遠(yuǎn)的未將來,老年人和殘疾人的護(hù)理將會(huì)是社會(huì)的一個(gè)重要負(fù)擔(dān),需要一大批家庭服務(wù)機(jī)器人幫助和照顧老年人和殘疾人的日常生活,提高他們的生活質(zhì)量,從而減少整個(gè)社會(huì)對(duì)護(hù)理人員的數(shù)量和質(zhì)量的需求。大多數(shù)服務(wù)型機(jī)器人都需要語音識(shí)別的功能,而語音識(shí)別是人與機(jī)器進(jìn)行交流的關(guān)鍵。近二十年來,語音識(shí)別技術(shù)取得很大進(jìn)步,逐漸從實(shí)驗(yàn)室走進(jìn)市場(chǎng)。在日常生活中,語音技術(shù)在控
11、制服務(wù)機(jī)器人領(lǐng)域得到很大的應(yīng)用和發(fā)展。語音控制替代繁瑣的鍵盤輸入,能為家庭服務(wù)機(jī)器人提供高效、準(zhǔn)確、快捷的控制,真正實(shí)現(xiàn)人機(jī)交互。語音識(shí)別的研究已經(jīng)得到了全世界范圍的重視,是引領(lǐng)未來科學(xué)發(fā)展的關(guān)鍵技術(shù)之一。因此,研究機(jī)器人的語音識(shí)別,開發(fā)實(shí)用的面向家庭機(jī)器人的語音識(shí)別系統(tǒng),對(duì)于家庭服務(wù)機(jī)器人的普及與應(yīng)用意義重大。此外,項(xiàng)目的研究和開發(fā)過程,可以加深對(duì)所學(xué)專業(yè)知識(shí)的理解,深化學(xué)習(xí)的效果,增強(qiáng)自我的創(chuàng)新能力,為今后的科研創(chuàng)新奠定理論基礎(chǔ)。同時(shí),可以培養(yǎng)我們刻苦鉆研的素養(yǎng),使我們理性的分析客觀世界,更好地利用科技的優(yōu)勢(shì),不會(huì)在科技中迷失自我。有助于我們綜合素質(zhì)和能力的全面提高,提早接觸社會(huì)實(shí)際,接觸
12、科研工作還可以為今后的學(xué)習(xí)深造和走向工作崗位提供堅(jiān)實(shí)的基礎(chǔ)。2.3研究現(xiàn)狀時(shí)至今日,機(jī)器人已從第一代示教再現(xiàn)型機(jī)器人,第二代帶感覺的機(jī)器人發(fā)展到第三代智能機(jī)器人,而家庭服務(wù)機(jī)器人正是第三代機(jī)器人的典型代表。在我們國(guó)家,服務(wù)機(jī)器人的研發(fā)相對(duì)比較晚,尤其是家庭機(jī)器人技術(shù)的研發(fā)還需要很大的關(guān)注和資金投入。國(guó)家一直在加大支持機(jī)器人產(chǎn)業(yè)的力度,2012年4月份科技部印發(fā)的服務(wù)機(jī)器人科技發(fā)展“十二五”專項(xiàng)規(guī)劃指出,全球的家庭服務(wù)機(jī)器人的市場(chǎng)將發(fā)生巨大的變化,市場(chǎng)規(guī)模從2009年的870萬臺(tái)增加到2013年的1140萬臺(tái);服務(wù)機(jī)器人產(chǎn)值將由2011年的約172億美元,增加到2025年的517億美元【2】。由
13、于政府重視科技研發(fā),我國(guó)的語音識(shí)別技術(shù)依托于其他學(xué)科的發(fā)展也取得很大的進(jìn)步,目前國(guó)內(nèi)許多重點(diǎn)高校都紛紛加入語音識(shí)別的研究隊(duì)伍中,像清華大學(xué)、哈爾濱工業(yè)大學(xué)、中國(guó)科技大學(xué)等,另外也有一些科研機(jī)構(gòu)如中科聲學(xué)研究所、自動(dòng)化研究所等。在國(guó)內(nèi)也有一些專注于語音開發(fā)的公司,像科大訊飛開發(fā)的語音產(chǎn)品占領(lǐng)語音市場(chǎng)相當(dāng)大的份額。從整個(gè)過程考慮,該語音交互系統(tǒng)主要包括語音識(shí)別處理、嵌入式語音識(shí)別平臺(tái)的搭建及人機(jī)交互系統(tǒng)三部分。 對(duì)于語音信號(hào)的準(zhǔn)確的聲源定位,主要采用基于麥克風(fēng)陣列的聲源定位系統(tǒng)?,F(xiàn)有的麥克風(fēng)聲源定位方法主要分三類:基于最大輸出功率的可控波束形成技術(shù)、基于高分辨率譜估計(jì)技術(shù)、基于聲波到達(dá)時(shí)間差技術(shù)(
14、TDOA)5。近些年,國(guó)內(nèi)學(xué)者對(duì)聲源定位技術(shù)的研究非?;钴S,多數(shù)是基于麥克風(fēng)陣列的聲源定位理論研究。其中,陳可、王增福提出一種聲壓幅度比進(jìn)行聲源定位的方法,可以極大縮小系統(tǒng)檢測(cè)到的聲源位置與聲源的實(shí)際位置之間的偏差。國(guó)內(nèi)在聲源定位方面的研究不夠深入,很多結(jié)果只能提供仿真試驗(yàn)支持,可在實(shí)際環(huán)境中實(shí)驗(yàn)或應(yīng)用的定位系統(tǒng)很少【9】。在語音識(shí)別方面,近年來, DNN(深度神經(jīng)網(wǎng)絡(luò))被廣泛應(yīng)用于語音識(shí)別,與GMM(高斯混合模型)相比,其結(jié)構(gòu)更符合于語音的感知機(jī)制,更加適用于海量聲學(xué)特征的建模。DNN直接進(jìn)行聲學(xué)建模時(shí),仍然與HMM(隱馬爾科夫模型)混合使用, DNN的輸出結(jié)點(diǎn)試圖直接對(duì)所有綁定的三音素HM
15、M狀態(tài)的后驗(yàn)概率進(jìn)行直接建模。這樣更加精細(xì)的建模粒度與DNN更加強(qiáng)大的建模能力一起帶來了DNN-HMM語音識(shí)別系統(tǒng)巨大的性能提升【14】。毫無疑問,這是近十年以來在語音識(shí)別技術(shù)方面所取得的第一次真正意義上的突破。DNN做為一種非常有前景的語音識(shí)別聲學(xué)建模方法正在吸引著越來越多的研究興趣,成為語音識(shí)別領(lǐng)域的研究熱點(diǎn)。應(yīng)用層面上,以手機(jī)語音助手以及語音互動(dòng)工具等為主的移動(dòng)終端應(yīng)用不斷融入人們的日常生活中。國(guó)際市場(chǎng)上包括蘋果公司的Siri、Nuance的聲龍移動(dòng)助手等,國(guó)內(nèi)包括科大訊飛、云知聲、百度語音等公司【12】都在相應(yīng)產(chǎn)品如語音輸入法等采取了以上最新的語音識(shí)別技術(shù),并取得了良好效果。語音識(shí)別識(shí)
16、別技術(shù)與語音合成技術(shù)的結(jié)合能使人們甩掉鍵盤,通過語音命令進(jìn)行操作,語音技術(shù)的應(yīng)用已經(jīng)成為一個(gè)具有競(jìng)爭(zhēng)性的新興高技術(shù)產(chǎn)業(yè)。近幾年來,雖然國(guó)內(nèi)的語音識(shí)別商業(yè)化與國(guó)外基本同步,但仍有一些欠缺:對(duì)環(huán)境依賴性強(qiáng),經(jīng)過某一環(huán)境的訓(xùn)練學(xué)習(xí)后 ,在別的環(huán)境下性能急劇下降;商業(yè)化語音識(shí)別的背景往往比較干凈,在噪音環(huán)境下識(shí)別比較困難。而家庭服務(wù)機(jī)器人工作于綜合的復(fù)雜系統(tǒng),處于多語音事件中,噪聲環(huán)境下的語音準(zhǔn)確識(shí)別問題無疑是當(dāng)下需要解決的問題和研究熱點(diǎn)。 國(guó)家語音識(shí)別處理嵌入式語音識(shí)別平臺(tái)的搭建中國(guó)1科大訊飛2凌聲芯語音科技3凌陽4上海華鎮(zhèn)電子5 ICRoute1 ESR2.0、InterReco2.0Aitalk
17、3.02Uni-Speech.Uni-Lite語音專用芯片3SPCE061A4WS-1175 LD332X美國(guó)1蘋果2 Google1NovaLit2Android語音識(shí)別日本1京都大學(xué)、IPA2本田1Julius2ViaVoice法國(guó)Aldebaran公司NAO機(jī)器人語音技術(shù)德國(guó)Infineon公司、Unilite芯片、2.4主要參考文獻(xiàn)12014-2018年中國(guó)語音機(jī)器人行業(yè)投資潛力分析及風(fēng)險(xiǎn)與預(yù)測(cè)指導(dǎo)報(bào)告,20142 服務(wù)機(jī)器人科技發(fā)展“十二五”專項(xiàng)規(guī)劃,科技部,20123E.Bocchieri and B.K-W.Mak,”SubSpace Distribution Clusterin
18、g Hidden MarKov Model,”IEEE Trans.Speech and Audio Processing,vol.9,no3.pp.264-275,March20014S.J.Young,N.H.Russell and J.H.S.Thornton,”Token Passing :A Simple Conceptual Model for Connected Speech Recognition Systems”,Technical Report CUED/F-INFENG/TR38,Cambridge University Engineering Dept,19895韓紀(jì)慶
19、,張磊,鄭鐵然,語音信號(hào)處理北京:清華大學(xué)出版社20046田斌,易克初一種用于噪聲環(huán)境下語音識(shí)別的含噪Lombard及Loud語音補(bǔ)償方法聲學(xué)學(xué)報(bào),2003,28(1):28327Boll S. Supp ression of acoustic noise in speech using spec2tral subtraction J . IEEE Trans on Acoustic Speech andSignal Processing, 1979, 27 (2) : 1132120.8NingpingFan.Low distortion speechDenoising using An a
20、2daptive parametric WienerfilterA.IEEE InternationalConference on Acoustics, Speech and Signal Processing( ICASSP) C . 2014, 1: 122309.9王利平.基于麥克風(fēng)陣列的聲源定位技術(shù)研究D.燕山大學(xué).201210趙力.語音信號(hào)處理M . 北京: 機(jī)械工業(yè)出版社,201311高鷹,謝勝利.一種變步長(zhǎng)LMS自適應(yīng)濾波算法及分析 J . 電子學(xué)報(bào), 2013, 29 (8) : 109421097.12Jax P Vary P. Artificial bandwidth ex
21、tension of speechsignals usingMMSE estimation based on a hidden Markov model A . IEEE International Conference on Acoustics,Speech, and Signal Processing ( ICASSP) C . 2013. 6802683 13劉幺和,宋庭新.語音識(shí)別與控制應(yīng)用技術(shù),北京科學(xué)出版社,201114徐利軍.基于HMM和神經(jīng)網(wǎng)絡(luò)的語音識(shí)別研究D.湖北工業(yè)大學(xué),201215D L Donoho and IM Johnstone. Adap ting to unkn
22、ownsmoothness via wavelet shrinkage J . Journal of the A2 merican StatisticalAssociation, 2009, 90: 120021224.16艾山.智能機(jī)器人結(jié)構(gòu)設(shè)計(jì)與控制研究D.哈爾濱工程大學(xué),201317Jiang Xiaop ing, Fu Hua, Yao Tianren. A single channelspeech enhancement method based On masking propertiesand minimum statisticsA . 2002 6 th Internationa
23、l Confer2ence on Signal ProcessingC . 2012. 4602463.18裴文江,劉文波,于盛林.基于分形理論的混沌信號(hào)與噪聲分離方法 J . 南京航空航天大學(xué)學(xué)報(bào), 2009, 29(5). 4832487.19Virag N. Single channel speech enhancement based onmasking p roperties of human auditory system J . IEEE Trans on Speech Audio Process, 1999, 7 (2) : 1262137.三、項(xiàng)目的特色與創(chuàng)新之處本課題最大的
24、創(chuàng)新點(diǎn)是帶噪語音識(shí)別及如何將用戶的自然語言所要表達(dá)的意圖轉(zhuǎn)化為相應(yīng)的機(jī)器人控制指令。此外,創(chuàng)新性地搭建服務(wù)機(jī)器人嵌入式混合語音識(shí)別平臺(tái)。通過互補(bǔ)設(shè)計(jì),采用云語音識(shí)別技術(shù)克服基于本地語音識(shí)別無法處理復(fù)雜語音指令的問題,而由本地語音識(shí)別克服云語音識(shí)別短句的多義性及高延時(shí)問題,并設(shè)計(jì)多場(chǎng)景語音指令切換系統(tǒng),及動(dòng)態(tài)語音識(shí)別指令庫(kù)以擴(kuò)展混合語音識(shí)別系統(tǒng)性能。同時(shí)運(yùn)用仿生學(xué)的方法,利用音頻聽覺、攝像頭視覺和超聲裝置等多個(gè)傳感器信息的綜合來提高聽覺定位的精度和魯棒性,根據(jù)項(xiàng)目的需要,這里可以通過“視-聽”融合共同辨識(shí)到目標(biāo)。本課題最大的優(yōu)點(diǎn)是在噪聲環(huán)境下和自然環(huán)境下分離聲音,優(yōu)化語音識(shí)別算法,改善不同環(huán)境下
25、多種聲源的識(shí)別率。本課題采用DNN-HMM聲學(xué)模型,實(shí)現(xiàn)對(duì)整個(gè)語音識(shí)別系統(tǒng)性能的提高。本課題擬將語音識(shí)別利用分布式計(jì)算框架搭建在云平臺(tái)上,將語音識(shí)別中復(fù)雜的計(jì)算、海量的識(shí)別特征庫(kù)放在服務(wù)器中處理,嵌入式設(shè)備只做簡(jiǎn)單的語音信號(hào)采集及語音識(shí)別結(jié)果接收,從而搭建服務(wù)機(jī)器人LD3320和百度混合語音識(shí)別系統(tǒng)。同時(shí)收集大量的語料來建立一個(gè)語音庫(kù),并設(shè)計(jì)一套有效的機(jī)器人控制指令體系,利用最大熵分類器進(jìn)行分類,實(shí)現(xiàn)用戶自然語言到機(jī)器人控制指令的映射,完整地實(shí)現(xiàn)面向家庭服務(wù)機(jī)器人的語音交互系統(tǒng)設(shè)計(jì)。四、實(shí)施方案4.1申請(qǐng)課題的預(yù)期目標(biāo)、主要研究?jī)?nèi)容 4.1.1 預(yù)期目標(biāo)(1)將聲源定位技術(shù)應(yīng)用于家庭服務(wù)機(jī)器人
26、,進(jìn)一步優(yōu)化算法,提高語音識(shí)別的準(zhǔn)確率,實(shí)現(xiàn)在復(fù)雜環(huán)境下和多聲源下的語音識(shí)別。(2)設(shè)計(jì)服務(wù)機(jī)器人嵌入式混合語音識(shí)別平臺(tái),達(dá)到高精度、快速度的語音識(shí)別效果,并具備一定的口音抗拒能力,滿足嵌入式平臺(tái)語音識(shí)別的應(yīng)用需求。(3)在機(jī)器人語音識(shí)別、云平臺(tái)搭建的基礎(chǔ)上,完成服務(wù)機(jī)器人語音系統(tǒng)的自主功能和語音交互功能的設(shè)計(jì),搭建人機(jī)交互平臺(tái)。4.1.2 研究?jī)?nèi)容1.語音處理與識(shí)別 服務(wù)機(jī)器人控制系統(tǒng)中語音識(shí)別的目的就是讓機(jī)器通過識(shí)別和理解過程把語音信號(hào)轉(zhuǎn)變?yōu)橄鄳?yīng)的文本或命令,使得人機(jī)可以進(jìn)行交流,其中包括人的意圖理解、特殊需求的自主功能實(shí)現(xiàn)、以及對(duì)周圍環(huán)境的判斷。語音識(shí)別系統(tǒng)本質(zhì)上是一個(gè)模式識(shí)別系統(tǒng),系統(tǒng)
27、首先對(duì)外界傳入的訓(xùn)練語音信號(hào)進(jìn)行分析并提取能反映語音特征的特征參數(shù),而后對(duì)這些特征參數(shù)進(jìn)行相關(guān)處理(訓(xùn)練和學(xué)習(xí))形成參考模型庫(kù);在形成參考模型庫(kù)之后,進(jìn)行語音信號(hào)的識(shí)別,系統(tǒng)同樣先將這部分語音信號(hào)進(jìn)行分析并提取特征參數(shù),而后對(duì)訓(xùn)練過程形成的參考模型庫(kù)進(jìn)行模式匹配,最終決定匹配結(jié)果是否為識(shí)別結(jié)果。語音處理與識(shí)別的方框圖如下圖1所示。預(yù)處理特征處理參考模式模式匹配判決規(guī)則識(shí)別結(jié)果語音信號(hào)圖1 語音處理與識(shí)別方框圖 然而要保證機(jī)器人在各種復(fù)雜環(huán)境中,識(shí)別并理解出各種語言信息的語義,還面臨很大挑戰(zhàn)。這需要研究解決語音信息變化較大、語音的模糊性影響問題、環(huán)境的噪音干擾問題、非特定人語音識(shí)別問題、以及識(shí)別
28、的實(shí)時(shí)性問題等。本課題將重點(diǎn)對(duì)語音識(shí)別技術(shù)中的語音信號(hào)處理、提取和訓(xùn)練識(shí)別做深入研究,這部分內(nèi)容主要包括為:(1)語音信號(hào)的預(yù)處理,包括語音信號(hào)的模數(shù)轉(zhuǎn)換和濾波、預(yù)加重、分幀加窗及端點(diǎn)檢測(cè)等。(2)語音特征參數(shù)提取及提取方法的選擇;利用深度學(xué)習(xí)中深度神經(jīng)網(wǎng)絡(luò)有監(jiān)督學(xué)習(xí)方法提取語音的高層特征。(3)語音的訓(xùn)練與識(shí)別,分類器的選取和分類決策的設(shè)計(jì);(4)構(gòu)建合理的深度學(xué)習(xí)模型,并結(jié)合隱馬爾科夫模型建立聲學(xué)模型;利用深度學(xué)習(xí)中有限的監(jiān)督信息來提高網(wǎng)絡(luò)整體的魯棒性,增強(qiáng)網(wǎng)絡(luò)對(duì)數(shù)據(jù)建模能力,提高語音識(shí)別準(zhǔn)確率。(5)通過聲源定位估計(jì)聲源位置,在噪聲環(huán)境下和自然環(huán)境下分離聲音,得到語音段和非語音段,語音數(shù)
29、據(jù)通過算法完成多源語音的辨識(shí)。優(yōu)化語音識(shí)別算法,改善不同環(huán)境下多種聲源的識(shí)別率。2.服務(wù)機(jī)器人嵌入式語音識(shí)別平臺(tái)的搭建(1)服務(wù)機(jī)器人本地語音識(shí)別平臺(tái)的搭建服務(wù)機(jī)器人本地語音識(shí)別主要是指不依賴網(wǎng)絡(luò),從語音信號(hào)采集、預(yù)處理、特征提取、匹配搜索等均是在本地實(shí)現(xiàn)的快速語音識(shí)別方案。受嵌入式平臺(tái)特點(diǎn)所限,本地語音識(shí)別方案不能占用嵌入式系統(tǒng)大量計(jì)算資源、存儲(chǔ)空間,識(shí)別速度還要盡可能快,而且整個(gè)識(shí)別過程是在本地完成的。這部分包括的主要研究?jī)?nèi)容:a)專用語音識(shí)別模塊的設(shè)計(jì),用于編程控制專用語音識(shí)別芯片工作流程的核心控制器的設(shè)計(jì);b)專用語音識(shí)別芯片的選擇,語音識(shí)別芯片工作原理和通信的學(xué)習(xí),語音識(shí)別芯片列表的
30、設(shè)計(jì);c)用來存儲(chǔ)本地語音識(shí)別系統(tǒng)所有可能的語音列表的識(shí)別指令庫(kù)的設(shè)計(jì);d)本地語音識(shí)別各模塊之間連接的設(shè)計(jì),根據(jù)專用語音識(shí)別芯片工作流程設(shè)計(jì)出軟件流程。(2)服務(wù)機(jī)器人云平臺(tái)語音識(shí)別平臺(tái)的搭建這里我們將語音識(shí)別利用分布式計(jì)算框架搭建在云平臺(tái)上,將語音識(shí)別中復(fù)雜的計(jì)算、海量的識(shí)別特征庫(kù)放在服務(wù)器中處理,嵌入式設(shè)備只做簡(jiǎn)單的語音信號(hào)采集及語音識(shí)別結(jié)果接收。主要內(nèi)容包括:云服務(wù)器的選擇、語音采集;對(duì)語音數(shù)據(jù)進(jìn)行音頻壓縮、編碼、封裝成音頻文件的設(shè)計(jì);數(shù)據(jù)傳輸協(xié)議的設(shè)計(jì);云語音識(shí)別接口的設(shè)計(jì);數(shù)據(jù)的解析。(3)服務(wù)機(jī)器人嵌入式混合語音識(shí)別平臺(tái)的搭建搭建服務(wù)機(jī)器人混合語音識(shí)別系統(tǒng),通過互補(bǔ)設(shè)計(jì),采用云語
31、音識(shí)別技術(shù)克服基于本地語音識(shí)別無法處理復(fù)雜語音指令的問題,而由本地語音識(shí)別克服云語音識(shí)別短句的多義性及高延時(shí)問題,并設(shè)計(jì)多場(chǎng)景語音指令切換系統(tǒng),及動(dòng)態(tài)語音識(shí)別指令庫(kù)以擴(kuò)展混合語音識(shí)別系統(tǒng)性能。主要內(nèi)容包括:底層 Linux I0驅(qū)動(dòng)設(shè)計(jì),其中包括SPI驅(qū)動(dòng)設(shè)計(jì)、GPIO驅(qū)動(dòng)設(shè)計(jì)、WIFI驅(qū)動(dòng)設(shè)計(jì)、聲卡驅(qū)動(dòng)設(shè)計(jì);本地及云語音識(shí)別驅(qū)動(dòng)設(shè)計(jì);系統(tǒng)邏輯控制應(yīng)用設(shè)計(jì)。服務(wù)機(jī)器人嵌入式語音識(shí)別平臺(tái)系統(tǒng)框圖如下圖2所示。 圖2 服務(wù)機(jī)器人嵌入式語音識(shí)別平臺(tái)系統(tǒng)框圖3.人-機(jī)器人交互與服務(wù)系統(tǒng)在實(shí)際應(yīng)用中,用戶和機(jī)器人的交互方式也多種多樣,例如手勢(shì)動(dòng)作、觸摸、語音等。在多種交互方式中,通過語音與機(jī)器人交互對(duì)用
32、戶來說是最直接也是最方便的方式。語音交互可以讓用戶直接使用日常的自然語言把信息傳遞給機(jī)器人,來獲得相應(yīng)的服務(wù)。特別是對(duì)于老齡用戶或者其他肢體活動(dòng)不方便的用戶,語音交互更加便利。因此,對(duì)于自然語言的理解,是人-服務(wù)機(jī)器人語音交互的重要研究?jī)?nèi)容。關(guān)于自然語言理解的方法,比較實(shí)用有效的方法是關(guān)鍵詞匹配。這種關(guān)鍵詞匹配的方法簡(jiǎn)單實(shí)用,但是需要用戶進(jìn)行一定的訓(xùn)練,熟悉了服務(wù)機(jī)器人的控制方法之后才能很好地與機(jī)器人交互?,F(xiàn)在比較普遍的是基于語料庫(kù)的機(jī)器學(xué)習(xí)方法。如今進(jìn)入大數(shù)據(jù)時(shí)代,基于語料庫(kù)的自然語言理解研究將有廣闊的發(fā)展前景。與關(guān)鍵詞匹配的方法比,基于語料庫(kù)的方法更加具有擴(kuò)展性和非受限性?;谝陨蠁栴}提出
33、了人-機(jī)器人語音交互的系統(tǒng)框架,繼而重點(diǎn)研究了如何利用家庭服務(wù)機(jī)器人相關(guān)的控制指令語料庫(kù)進(jìn)行學(xué)習(xí)建模,進(jìn)而幫助機(jī)器人更好地理解用戶的自然語言指令整個(gè)人-機(jī)器人交互與服務(wù)系統(tǒng)的框架如圖3所示。用戶輸入層交互層輸出層語音信息語音識(shí)別用戶意圖理解用戶機(jī)器人多媒體服務(wù)信息服務(wù)家用電器服務(wù) 圖3 人-機(jī)器人交互與服務(wù)系統(tǒng)框圖該框架結(jié)構(gòu)為 3 層串聯(lián)方式:輸入層,交互層和輸出層。在輸入層機(jī)器人的任務(wù)是獲取用戶的信息,主要是語音信息。并將獲取的信息交給交互層處理。交互層主要包含兩個(gè)模塊:語音識(shí)別,意圖理解。其中,語音識(shí)別模塊是將用戶的語音指令轉(zhuǎn)化為自然語言文本。意圖理解模塊將接收到的文本信息進(jìn)行處理,將用戶
34、的語言意圖轉(zhuǎn)化為相應(yīng)的機(jī)器人控制指令。最后,輸出層將接收到的機(jī)器人控制指令轉(zhuǎn)化為相應(yīng)的機(jī)器人服務(wù),然后將此服務(wù)提供給用戶。這部分的研究?jī)?nèi)容主要包括:(1)需要建立完善的控制指令語料庫(kù);(2)需要設(shè)計(jì)一套有效的機(jī)器人控制指令;(3)如何將用戶的自然語言所要表達(dá)的意圖轉(zhuǎn)化為相應(yīng)的機(jī)器人控制指令。4.2技術(shù)路線(包括關(guān)鍵技術(shù)、研究方案、技術(shù)方法及可行性分析)4.2.1關(guān)鍵技術(shù)(1)麥克風(fēng)陣列通道數(shù)和維數(shù)的選擇;麥克風(fēng)陣列校驗(yàn)、訓(xùn)練序列、干擾和噪聲的分析處理;建立準(zhǔn)確率高和實(shí)時(shí)性能好的聲源定位和聲源分離算法;(2)語音特征參數(shù)的提??;語音的訓(xùn)練識(shí)別中分類器的選取和分類決策的設(shè)計(jì);噪聲環(huán)境下語音識(shí)別的準(zhǔn)
35、確率;(3)本地平臺(tái)和云平臺(tái)的混合設(shè)計(jì);云平臺(tái)接口的設(shè)計(jì);URL、HTTP、JSON數(shù)據(jù)格式的應(yīng)用;(4)控制指令語料庫(kù)的建立和完善;控制指令體系的設(shè)計(jì);自然語言指令理解算法;自然語言指令和對(duì)應(yīng)機(jī)器人控制指令之間的映射關(guān)系的建立。4.2.2研究方案(1) 認(rèn)真總結(jié)前期研究已取得的理論成果和實(shí)踐經(jīng)驗(yàn),細(xì)致檢索和學(xué)習(xí)相關(guān)參考文獻(xiàn),提高研發(fā)起點(diǎn),理論聯(lián)系實(shí)際,做好總體設(shè)計(jì)與任務(wù)安排;(2) 先從整體入手,確定服務(wù)機(jī)器人語音識(shí)別研究的主要內(nèi)容,再?gòu)木植砍霭l(fā),分別從聲源定位、語音識(shí)別、嵌入式語音識(shí)別平臺(tái)搭建、人機(jī)交互開始研究,掌握其中關(guān)鍵技術(shù),最后組建一個(gè)完整的家庭服務(wù)機(jī)器人的語音交互系統(tǒng);(3) 研究
36、聲源定位、語音識(shí)別算法,并在原有的基礎(chǔ)上進(jìn)行改進(jìn),完成傳感器的設(shè)計(jì)并編寫程序;(4) 從平臺(tái)搭建角度,先搭建本地語音識(shí)別平臺(tái),再搭建云語音識(shí)別平臺(tái),最后把兩者混合搭建在一起,設(shè)計(jì)硬件連接和程序編寫,完成本地語音與在線語音的共同識(shí)別;(5)從服務(wù)機(jī)器人與人交互的角度出發(fā),完成服務(wù)機(jī)器人語音系統(tǒng)的自主功能和語音交互功能的設(shè)計(jì),搭建人機(jī)交互平臺(tái),完成整個(gè)系統(tǒng)的聯(lián)調(diào);(6)總結(jié)研發(fā)過程,撰寫技術(shù)報(bào)告。4.2.3 關(guān)鍵技術(shù)路線可行性分析(1)聲源定位關(guān)鍵技術(shù)分析 聲源信號(hào)的合理采集是目標(biāo)定位、語音分離和識(shí)別的基礎(chǔ),采用何種技術(shù)對(duì)信號(hào)進(jìn)行采集使之獲得高質(zhì)量的語音信號(hào)直接影響后期目標(biāo)定位的精度和效率。在一定
37、理論基礎(chǔ)和以前的實(shí)踐基礎(chǔ)上,決定通過直接操縱底層的聲音API利用聲卡采集語音信號(hào),利用多線程技術(shù)實(shí)現(xiàn)多麥克風(fēng)工作線程的控制,同時(shí)可以采用定時(shí)器功能來實(shí)現(xiàn)麥克風(fēng)多次反復(fù)定位中的信號(hào)采集異步問題,利用雙緩存技術(shù)實(shí)現(xiàn)采集信號(hào)的完整性。考慮到語音信號(hào)可能含有大量的干擾信號(hào),我們可以對(duì)信號(hào)進(jìn)行加權(quán)、分幀、加窗等預(yù)處理獲得有效信號(hào),語音信號(hào)中可能摻雜的環(huán)境噪聲,可以用平移不變小波變換和塊閾值的小波變換消噪。聲源定位主要是基礎(chǔ)傳聲器陣列的方法,通過分析處理傳聲器陣列接收的聲信號(hào)估計(jì)出空間聲源目標(biāo)的位置,考慮到既要滿足精度要求,又要避免麥克風(fēng)過多而使定位算法過于復(fù)雜的問題,設(shè)計(jì)出一種四元三維的正四面體結(jié)構(gòu)的麥
38、克風(fēng)傳聲器陣列是可行的,比較分析高分辨率頻譜估計(jì)、最大輸出功率的可控波束形成、時(shí)間延遲估計(jì)幾種聲源定位方法,結(jié)合項(xiàng)目實(shí)際要求,選擇延時(shí)估計(jì)聲源定位方法是可行的,并在此基礎(chǔ)上對(duì)廣義互相關(guān)(GCC) 時(shí)延算法進(jìn)行改進(jìn),在計(jì)算機(jī)上對(duì)其仿真,最后在硬件上進(jìn)行實(shí)現(xiàn)。根據(jù)項(xiàng)目要求,若單一的聽覺定位系統(tǒng)滿足不了精度要求,可以將多傳感器融合進(jìn)行目標(biāo)定位,在服務(wù)機(jī)器人上安裝視覺傳感器和聲音傳感器,將聽覺、視覺傳感器信息按照一定準(zhǔn)則進(jìn)行融合,再依據(jù)融合后的信息進(jìn)行決策,這里可以采用有D-S證據(jù)理論、卡爾曼濾波、空間似然函數(shù)(SLF)、人工神經(jīng)網(wǎng)絡(luò)、模糊推理等將視覺與聽覺信息進(jìn)行融合,理論上這種策略是可行的。(2)
39、語音識(shí)別關(guān)鍵技術(shù)分析語音信號(hào)的預(yù)處理:語音信號(hào)是非平穩(wěn)隨機(jī)復(fù)雜信號(hào),為了消除或減小采集的語音樣本之間由于聲音大小的不同而對(duì)識(shí)別結(jié)果產(chǎn)生的影響,對(duì)語音信號(hào)進(jìn)行幅值歸一化處理,并通過預(yù)加重?cái)?shù)字濾波器解決高頻有效信息衰減問題。對(duì)語音信號(hào)進(jìn)行加窗和分幀可得到短時(shí)的語音信號(hào),以便進(jìn)行分析和處理。而面對(duì)語音信號(hào)中的噪聲影響,需采用基于短時(shí)能量的端點(diǎn)檢測(cè)加以區(qū)分。語音信號(hào)預(yù)處理框圖如下圖4所示。預(yù)加重分幀加窗端點(diǎn)檢測(cè)量化采樣預(yù)處理結(jié)果圖4 語音信號(hào)預(yù)處理框圖特征參數(shù)提?。侯A(yù)處理之后的數(shù)據(jù)仍包含與語音識(shí)別無關(guān)的冗余信息,因此對(duì)特征參數(shù)提取問題將更為關(guān)鍵,初步討論利用深度神經(jīng)網(wǎng)絡(luò)有監(jiān)督學(xué)習(xí)方法提取語音的高層特征
40、。從特征數(shù)據(jù)的處理、特征輸入的維度、隱含層層數(shù)及單元數(shù)的配置、網(wǎng)絡(luò)訓(xùn)練過程中學(xué)習(xí)率及預(yù)訓(xùn)練過程中迭代次數(shù)的設(shè)定等多方面研究深度神經(jīng)網(wǎng)絡(luò)的搭建訓(xùn)練以及其在語音特征提取方面的應(yīng)用性;用MFCC特征做輸入數(shù)據(jù),通過中間隱藏層擴(kuò)展數(shù)據(jù)維度,對(duì)應(yīng)的三音素標(biāo)簽做監(jiān)督,訓(xùn)練一個(gè)深度神經(jīng)網(wǎng)絡(luò),對(duì)新生成的網(wǎng)絡(luò)選用一些固定層的輸出作為新的語音特征,用這些新的語音特征去訓(xùn)練聲學(xué)模型,通過語音的識(shí)別解碼驗(yàn)證基于深度神經(jīng)網(wǎng)絡(luò)提取特征的有效性。語音的訓(xùn)練與識(shí)別:所設(shè)計(jì)的服務(wù)機(jī)器人語音識(shí)別應(yīng)為連續(xù)語音識(shí)別,可以通過建立特定的語音識(shí)別模型來對(duì)語音信號(hào)本質(zhì)進(jìn)行描述。GMM是目前主流的對(duì)HMM輸出概率進(jìn)行建模的方法,基于GMM-
41、HMM的聲學(xué)模型被廣泛應(yīng)用于現(xiàn)有的連續(xù)語音識(shí)別系統(tǒng)當(dāng)中;但是考慮到所研究的家庭服務(wù)機(jī)器人面對(duì)更加復(fù)雜的語音識(shí)別環(huán)境時(shí),GMM逐漸顯示出建模能力不足的問題,因此可嘗試采用DNN代替GMM,建立DNN-HMM聲學(xué)模型,模型如圖5所示。圖5 基于DNN-HMM的聲學(xué)模型DNN與HMM的結(jié)合原理:在基于DNN-HMM混合的聲學(xué)建模中,DNN的作用在于替換原先的GMM模型,估算HMM狀態(tài)的后驗(yàn)概率。對(duì)于給定時(shí)刻t的特征觀察矢量,在DNN中釆用Softmax函數(shù)計(jì)算HMM狀態(tài)出現(xiàn)的概率,狀態(tài)為:其中,為輸出層狀態(tài)s的激活概率(輸出值)。式中,P(S)表示訓(xùn)練數(shù)據(jù)中狀態(tài)S出現(xiàn)的先驗(yàn)概率。網(wǎng)絡(luò)釆用標(biāo)準(zhǔn)誤差反向
42、傳播算法,通過最優(yōu)化給定的目標(biāo)函數(shù)來完成訓(xùn)練。對(duì)于深度神經(jīng)網(wǎng)絡(luò),通常以交叉熵作為目標(biāo)函數(shù),優(yōu)化過程通過隨機(jī)梯度下降算法實(shí)現(xiàn)。DNN的輸入一般采用傳統(tǒng)頻譜特征及其改進(jìn)特征(如MFCC、PLP、Filter-bank等)經(jīng)過幀拼接得到,拼接長(zhǎng)度一般選擇9-15幀之間,時(shí)間上約10ms左右。而輸出則一般釆用各種粒度的音素聲學(xué)單元,常見的有單音子音素(Monophone)、單音子音素的狀態(tài)以及三音子音素(Triphone)綁定狀態(tài)等。輸出層的標(biāo)注一般采用GMM-HMM基線系統(tǒng)經(jīng)強(qiáng)對(duì)齊(Force-alignment)得到。DNN-HMM聲學(xué)建模步驟(1)生成監(jiān)督信息DNN的訓(xùn)練需要有監(jiān)督信息參與網(wǎng)絡(luò)訓(xùn)
43、練,因此,獲取每一幀所對(duì)應(yīng)的音素狀態(tài)作為DNN網(wǎng)絡(luò)調(diào)諧時(shí)的標(biāo)簽信息。(2)網(wǎng)絡(luò)參數(shù)設(shè)定設(shè)定整個(gè)DNN網(wǎng)絡(luò)包含的輸入層、輸出層及隱含層個(gè)數(shù)和各層包含的節(jié)點(diǎn)數(shù)。具體數(shù)目的確定需要根據(jù)實(shí)驗(yàn)結(jié)果來調(diào)整。(3)網(wǎng)絡(luò)訓(xùn)練預(yù)訓(xùn)練:采用DBN預(yù)訓(xùn)練方法對(duì)網(wǎng)絡(luò)參數(shù)進(jìn)行初始化;網(wǎng)絡(luò)調(diào)諧:DNN聲學(xué)建模使用隨機(jī)梯度下降的方法以誤差反向傳播的過程進(jìn)行權(quán)重的更新:和代表隱含層l的權(quán)重矩陣和偏置向量,代表學(xué)習(xí)速率以最小化交叉熵為目標(biāo)函數(shù)L,進(jìn)行參數(shù)調(diào)整。(4)DNN-HMM結(jié)合的識(shí)別系統(tǒng)結(jié)合DNN輸出層節(jié)點(diǎn)的輸出值計(jì)算狀態(tài)輸出的后驗(yàn)概率。DNN生成的狀態(tài)后驗(yàn)概率需要按照貝葉斯公式,除以每個(gè)狀態(tài)各自的先驗(yàn)概率,轉(zhuǎn)化成規(guī)整的
44、似然值。用DNN的輸出層直接對(duì)HMM各個(gè)綁定狀態(tài)建模,估計(jì)出每個(gè)狀態(tài)后驗(yàn)概率分布,得到相應(yīng)的規(guī)整似然值進(jìn)行解碼。通過設(shè)計(jì)DNN模型參數(shù)的稀疏性簡(jiǎn)化模型結(jié)構(gòu)來提高訓(xùn)練效率實(shí)現(xiàn)大語音數(shù)據(jù)下對(duì)DNN-HMM聲學(xué)模型的訓(xùn)練;利用目標(biāo)說話人的數(shù)據(jù)直接訓(xùn)練更新已收斂的說話人無關(guān)DNN模型參數(shù)來提高DNN-HMM聲學(xué)模型的說話人的自適應(yīng)性,實(shí)現(xiàn)對(duì)整個(gè)語音識(shí)別系統(tǒng)性能的提高;整個(gè)語音識(shí)別的方框圖如下圖6所示。圖6 語音識(shí)別方框圖(3)服務(wù)機(jī)器人嵌入式語音識(shí)別平臺(tái)的搭建關(guān)鍵技術(shù)分析設(shè)計(jì)本地語音識(shí)別平臺(tái),系統(tǒng)框圖如下圖7所示語音采集識(shí)別指令當(dāng)前識(shí)別列表識(shí)別指令庫(kù)S3C6410核心板LD3320模塊關(guān)聯(lián)圖7本地語音
45、識(shí)別框圖經(jīng)初步研究,采用以ARM11處理器的S3C6410為開發(fā)板,以Linux-2.3為內(nèi)核,設(shè)計(jì)LD3320芯片的專用語音識(shí)別系統(tǒng),與控制器的通信方式設(shè)計(jì)為串行SPI方式,并設(shè)計(jì)LD3320語音識(shí)別列表,根據(jù)各模塊搭建硬件連接平臺(tái),編寫相應(yīng)的測(cè)試程序,測(cè)試其能否滿足要求。設(shè)計(jì)百度云語音識(shí)別平臺(tái),系統(tǒng)框圖如下圖8所示經(jīng)初步研究決定,對(duì)語音信號(hào)進(jìn)行AD采樣、音頻編碼,獲得WAV文件,再向百度語音識(shí)別API發(fā)送HTTP請(qǐng)求,接收提取JSON數(shù)據(jù)中語音識(shí)別內(nèi)容及其匹配度,完成在線語音識(shí)別。說話語音音PMC數(shù)據(jù)語音內(nèi)容JSON數(shù)據(jù)WAV文件 百度 ASRAD采樣音頻編碼HTTP POSTRWSPOO
46、NSE解析 圖8 百度語音識(shí)別系統(tǒng)圖設(shè)計(jì)LD3320和百度混合語音識(shí)別平臺(tái),系統(tǒng)框圖如圖9所示混合語音識(shí)別系統(tǒng)軟件框架分三層實(shí)現(xiàn),上層為邏輯控制程序和語音指令列表,中間層為L(zhǎng)D3320 ASR、百度 ASR和指令執(zhí)行,底層為SPI驅(qū)動(dòng)、GPIO驅(qū)動(dòng)、WIFI驅(qū)動(dòng)和聲卡驅(qū)動(dòng)。搭建硬件連接和編寫軟件程序,測(cè)試語音識(shí)別效果。LD3320模塊服務(wù)機(jī)器人(linux內(nèi)核)百度云語音識(shí)別InternetWIFI模塊SPI通信圖9 LD3320和百度的混合語音識(shí)別平臺(tái)(4)人機(jī)交互關(guān)鍵技術(shù)分析控制指令體系及控制指令語料庫(kù)的建立。人-機(jī)器人交互系統(tǒng)中,為了設(shè)計(jì)機(jī)器人控制指令,首先對(duì)所收集的家庭服務(wù)機(jī)器人控制指令語料庫(kù)進(jìn)行了分析。當(dāng)想要獲取某種服務(wù)時(shí),用戶表達(dá)的意圖可以通過引入屬性變量來設(shè)計(jì)機(jī)器人控制指令。通過屬性值定義和描述機(jī)器人控制指令,使得指令更加體系化,而且也方便機(jī)器人執(zhí)行,避免產(chǎn)生歧義。測(cè)試語料訓(xùn)練語料分類器最大熵統(tǒng)一模型組合指令輸出測(cè)試過程訓(xùn)練過程要建立自然語言指令和對(duì)應(yīng)機(jī)器人控制指令之間的映射關(guān)系,這可以看作是
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 鋼構(gòu)樓梯合同模板
- 清洗管道維修合同模板
- 購(gòu)買二手房合同模板
- 電力安裝維修合同模板
- 汽車保管合同模板
- 貸款合同模板易懂
- 微留學(xué)合同模板
- 飯店裝修付款合同模板
- 房產(chǎn)抵押合同模板格式
- 果樹回收合同模板
- 2024年檢察院招錄書記員考試法律基礎(chǔ)知識(shí)及答案
- 國(guó)開2024年秋季《形勢(shì)與政策》大作業(yè)答案
- JT∕T 795-2023 事故汽車修復(fù)技術(shù)規(guī)范
- 2024考研數(shù)學(xué)二真題
- 穿脫隔離衣操作考核評(píng)分標(biāo)準(zhǔn)
- 初中詞匯必備1500詞
- 設(shè)備能力指數(shù)(CMK)計(jì)算表
- 電廠倉(cāng)庫(kù)物資出入庫(kù)管理辦法物資收發(fā)、盤點(diǎn)、借用流程
- 通信局站用智能新風(fēng)節(jié)能系統(tǒng)檢驗(yàn)報(bào)告模板
- 光伏電站項(xiàng)目質(zhì)量檢驗(yàn)劃分表
- 環(huán)氧防靜電自流平施工方案(完整版)
評(píng)論
0/150
提交評(píng)論