科技成果信息征集表“科創(chuàng)中國”平臺科技成果產(chǎn)業(yè)化方案_第1頁
科技成果信息征集表“科創(chuàng)中國”平臺科技成果產(chǎn)業(yè)化方案_第2頁
科技成果信息征集表“科創(chuàng)中國”平臺科技成果產(chǎn)業(yè)化方案_第3頁
科技成果信息征集表“科創(chuàng)中國”平臺科技成果產(chǎn)業(yè)化方案_第4頁
科技成果信息征集表“科創(chuàng)中國”平臺科技成果產(chǎn)業(yè)化方案_第5頁
已閱讀5頁,還剩8頁未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

附件:科技成果信息征集表成果簡介本項(xiàng)目突破了遠(yuǎn)場復(fù)雜聲學(xué)場景下語音交互的聲學(xué)感知和語義理解關(guān)鍵技術(shù),融合了基于經(jīng)典陣列信號處理的模型驅(qū)動算法和基于深度學(xué)習(xí)的數(shù)據(jù)驅(qū)動算法,開發(fā)出具有自主知識產(chǎn)能技術(shù)在聲學(xué)信息交互領(lǐng)域的落地。本項(xiàng)目的推廣應(yīng)用多萬用戶,產(chǎn)生直接經(jīng)濟(jì)效益超1.6億。項(xiàng)目成果應(yīng)用于冬奧會和冬殘奧會、冬奧測試賽、聯(lián)合國COP15大會、建黨100周年、中國服貿(mào)會、中國科博會和中關(guān)村論壇等北京市和國家重點(diǎn)項(xiàng)目,為抗擊新冠疫情作出了突出貢獻(xiàn),獲得工信部突出貢獻(xiàn)企業(yè)表彰,入選工信部AI助力疫情防控展和應(yīng)用前景,潛在經(jīng)濟(jì)效益巨大,并在公共安全、疫情防控、金融域示范應(yīng)用。技術(shù)亮點(diǎn)聲學(xué)信息人機(jī)交互對人工智能產(chǎn)業(yè)發(fā)展具有重要戰(zhàn)略意義,遠(yuǎn)場交互是聲學(xué)信息人機(jī)交互產(chǎn)業(yè)的創(chuàng)新升級方向。從近場交互到遠(yuǎn)場交互,噪聲、混響、回聲等干擾帶來了語音識別、語義理解等難題,亟需攻克。本項(xiàng)目面向聲學(xué)信息人機(jī)交互產(chǎn)業(yè)落地的重大需求,突破了多項(xiàng)遠(yuǎn)場語音交互的聲學(xué)感知和語義理解關(guān)鍵技術(shù),構(gòu)建了陣列信號處理融合深度學(xué)習(xí)的先進(jìn)聲學(xué)模型和通用語義理解模型,形成了涵蓋麥克風(fēng)陣列、前端聲學(xué)處理、語音喚醒、語音識別、語義理解、語音合成等技術(shù)深度融合的端+云一體化系統(tǒng),大幅提高了系統(tǒng)泛化能力和識別精度,促使我國智能產(chǎn)品萬物互聯(lián)現(xiàn)象級產(chǎn)業(yè)直接對標(biāo)超越歐1.提出了不同場景下低復(fù)雜度穩(wěn)健的時(shí)頻域自適應(yīng)濾波算法,解決了高度依賴雙端對講檢測、收斂速度慢等難題,實(shí)現(xiàn)了單通道和多通道回聲抵2.提出了基于麥克風(fēng)陣列噪聲消除和盲源分離等方法,建立了帶噪語音的特征修復(fù)技術(shù),去除了人聲及背景噪聲干擾,大幅提升了系統(tǒng)3.提出了抗混響、抗干擾的低復(fù)雜度聲源定位方法,有效解決了復(fù)雜聲學(xué)環(huán)境特別是電梯、4.提出了加權(quán)有限狀態(tài)轉(zhuǎn)換機(jī)解碼圖喚醒算法,實(shí)現(xiàn)了多個(gè)聲學(xué)模型深別引擎,提高了系統(tǒng)在各種環(huán)境下語音識別、5.提出了基于用戶對話交互歷史的詞匯-領(lǐng)域詞庫映射算法、領(lǐng)域感知的詞向量訓(xùn)練算法,提高了領(lǐng)域識別精度,提升了信息交互的流暢應(yīng)用前景本項(xiàng)目在國家科技支撐計(jì)劃等課題支持下,開發(fā)出具有自主知識產(chǎn)權(quán)的全球領(lǐng)先的遠(yuǎn)場聲學(xué)信息人機(jī)交互系統(tǒng),技術(shù)成果形成了智能音箱、AI數(shù)字人紅外測溫與監(jiān)管系統(tǒng)、智慧電梯與安全監(jiān)管平臺等產(chǎn)品在多個(gè)領(lǐng)域落地應(yīng)用,占據(jù)了全球70%以上的中文遠(yuǎn)場智能語音市場。本項(xiàng)目獲授權(quán)發(fā)明專利44項(xiàng)、實(shí)用新型專利37項(xiàng)、軟件著作權(quán)6與制定國家標(biāo)準(zhǔn)15項(xiàng)、團(tuán)體標(biāo)準(zhǔn)15項(xiàng),產(chǎn)生直接經(jīng)濟(jì)效益超1.6億。本項(xiàng)目促進(jìn)了人工智能技術(shù)的推廣應(yīng)用,產(chǎn)品覆蓋家居、會議、軍工、醫(yī)療、交通等行業(yè),服務(wù)120多家企業(yè),擁有4000多萬用戶,數(shù)十億次人機(jī)交互真實(shí)場景的規(guī)模驗(yàn)證,服務(wù)海內(nèi)外客戶包括中國移動、華為、百度、小米、阿里、騰訊等。實(shí)現(xiàn)了先進(jìn)的智能交互體驗(yàn),有球影響力的科技創(chuàng)新中心。本項(xiàng)目產(chǎn)品在抗擊新冠疫情期間作出了突出貢獻(xiàn),獲得工信部突出貢獻(xiàn)企業(yè)表彰,入選工信部AI助力疫情防控重團(tuán)隊(duì)概括聲智是第二批國家級“專精特新”小巨人企業(yè)、北京市中關(guān)村瞪羚企業(yè)、工信部抗疫突出貢獻(xiàn)人工智能企業(yè)、國家高新和“雙軟”技術(shù)企業(yè)、中關(guān)村前沿技術(shù)和中關(guān)村高新企業(yè)、北京市知識產(chǎn)權(quán)示范和試點(diǎn)企業(yè)、人工智能知識產(chǎn)權(quán)百強(qiáng)企業(yè)、人工智能百強(qiáng)企業(yè)、AI最佳聲智核心團(tuán)隊(duì)以智能聽覺技術(shù)為特色,建立了聲學(xué)與人工智能兩個(gè)核心研發(fā)團(tuán)隊(duì),在聲學(xué)信號處理與深度學(xué)習(xí)融合研究方面具有深厚積累,形成了以遠(yuǎn)場聲學(xué)信息交互技術(shù)為核心的全球競爭優(yōu)勢,入選“科創(chuàng)中國”先導(dǎo)技術(shù)榜1項(xiàng),榮獲北京市科技進(jìn)步獎和吳文俊人工智能獎,獲得2項(xiàng)中國發(fā)明專利優(yōu)秀獎和3項(xiàng)地區(qū)陳孝良,CEO,研究員,中科院聲學(xué)所博士,聲學(xué)和人工智李良斌,CTO,負(fù)責(zé)核心技術(shù)研究,中科院聲學(xué)所博士,語音與常樂,CKO,負(fù)責(zé)知識產(chǎn)權(quán)建設(shè),中科院聲學(xué)所碩士。2017/2018福布斯亞洲302017/2018胡潤30X30創(chuàng)業(yè)領(lǐng)袖李智勇,CDO,負(fù)責(zé)開發(fā)框架研發(fā)與運(yùn)營,北京大學(xué)碩士,曾任聯(lián)想資古擘,CGO,負(fù)責(zé)商務(wù)合作與市場開拓,北京大學(xué)碩士,曾任杜比實(shí)驗(yàn)室大(一)陳孝良陳孝良,工學(xué)博士,研究員,男,漢族,出生于1980年6月,曾任中國科學(xué)院聲學(xué)研究所副研究員和信息辦主任,上海高等研究院客座副教授。現(xiàn)任北京聲智科技有限公司創(chuàng)始人、董事長兼CEO?,F(xiàn)擔(dān)任計(jì)算機(jī)學(xué)會語音對話與聽覺專委會常務(wù)委員,中國聲學(xué)學(xué)會聲頻工程分會委員,中國人工智能和大數(shù)據(jù)專家委員,計(jì)算機(jī)學(xué)會高級會員/IEEE/ACM/ASA/AES會員。榮獲自然科學(xué)獎勵(lì)2項(xiàng),發(fā)表文章35篇,主持或參與標(biāo)準(zhǔn)利105件。2010年度獲得中國科學(xué)院院長優(yōu)秀獎,2017年度獲得中關(guān)村高端年進(jìn)入中國商業(yè)最具創(chuàng)意人物100榜單。目前研究興趣主要是結(jié)合聲學(xué)、人工智能和計(jì)算機(jī)通信等交叉學(xué)科的成果和進(jìn)展,開展多模態(tài)和多技能人工智能技術(shù)的研究縮感知、聲紋語音識別和多技能語言理解等交叉學(xué)科的融合技術(shù)研究。目前共主持研究項(xiàng)目5項(xiàng),曾參加海軍某重大項(xiàng)目、中科院重大創(chuàng)新項(xiàng)目、863課題、中國電科院重大項(xiàng)目等數(shù)項(xiàng)研(二)李良斌技術(shù)骨干,AI算法團(tuán)隊(duì)主管,中科院聲學(xué)所博士,主要研究方向?qū)W習(xí)算法、以及分布式大數(shù)據(jù)計(jì)算框架。曾任阿里巴巴機(jī)器學(xué)習(xí)平臺(PAI)及iDST團(tuán)隊(duì)核心開發(fā)工程師,所研產(chǎn)品服務(wù)于阿里集團(tuán)廣告、搜索、推薦等數(shù)十個(gè)核心應(yīng)用。曾參與國家863課題、國家自然科學(xué)基金青年基金項(xiàng)目等,發(fā)表SCI、EI論文2篇,申請產(chǎn)生的效益聲智科技是國內(nèi)自主原創(chuàng)遠(yuǎn)場語音技術(shù)的開拓者,作為全球領(lǐng)先的遠(yuǎn)場智能交互平臺提供商,其基于遠(yuǎn)場聲學(xué)信息人機(jī)交互技術(shù)開發(fā)的產(chǎn)品及解決方案,已廣泛運(yùn)用于智慧城市、智能家居、智慧金融、智慧安防、智慧金融、智慧醫(yī)療、智慧零售、智慧教育、智已經(jīng)過千億次人機(jī)交互真實(shí)場景的規(guī)模驗(yàn)證,支持智能音箱、智慧電梯、智能耳機(jī)、智能屏、交互和智能決策能力,實(shí)現(xiàn)體現(xiàn)技術(shù)創(chuàng)新和管理創(chuàng)新在智能家居領(lǐng)域,累計(jì)裝機(jī)2000多萬臺產(chǎn)品,系統(tǒng)調(diào)用近2億次,占據(jù)全球70%以上中文遠(yuǎn)場語音交互系統(tǒng),促使我國在智能音箱這一未來萬物互聯(lián)現(xiàn)象級360、萬科、寶潔、中央人民廣播電臺、聯(lián)想、創(chuàng)維、金蝶、浪潮、國美等數(shù)百家國內(nèi)外知名客戶,推動了國內(nèi)智能家居智能產(chǎn)品的爆發(fā)。StrategyAnalytics和Canalys統(tǒng)計(jì)數(shù)據(jù)顯示2019年,全球智能音箱市場達(dá)到1.469億臺,較2018年增長70%。總數(shù)據(jù),2020年一季度中國智能音箱市場銷量為884.4萬臺,同比增長23.0%;銷額為16.7米AI音箱、小愛音箱mini、小愛音箱HD、阿里巴巴天貓精靈魔盒、在行業(yè)應(yīng)用領(lǐng)域,該技術(shù)成果已形成了AI數(shù)字人紅外測溫與監(jiān)管系監(jiān)管平臺、多屏語音搜索與智能調(diào)度系統(tǒng)、AI外呼機(jī)器人、跟隨式智能擴(kuò)聲機(jī)器人、智慧辦公/醫(yī)療屏多數(shù)十種行業(yè)解決方案。該技術(shù)成果憑借在拓展性和架構(gòu)上的優(yōu)勢,快速實(shí)現(xiàn)了測溫系統(tǒng)的場景落地,形成了以智能語音為核心的AI數(shù)字人紅外測溫系統(tǒng),可通過語音實(shí)現(xiàn)對話、通話、內(nèi)容服務(wù)和IoT控制,支并且支持多臺設(shè)備聯(lián)網(wǎng)組成更大規(guī)模在線防疫系統(tǒng),可廣泛應(yīng)用于閘機(jī)、考勤、前臺、大廈、機(jī)場、車站和港口等公共場所場景。該成果還與疫情期間快速形成了智慧電梯系統(tǒng),提供完整的AI語音模組開發(fā)板,內(nèi)置針對電梯封閉場景的優(yōu)化語音算法,簡單連接開發(fā)即可與電梯系統(tǒng)形成聯(lián)動,乘客無需觸摸按鍵,即可語音呼叫、控制電梯。AI泛化算法支持乘客使用方言及任意說法語音,呼叫與控制電梯升降樓層,且支持語音播報(bào)提醒、免喚醒多輪對話等功能,即使殘障人士、老年人也能轉(zhuǎn)化方式該項(xiàng)目的聯(lián)合創(chuàng)新和商業(yè)化布局使得聲智科技迅速在行業(yè)內(nèi)占據(jù)領(lǐng)先地位,成為全球最大的遠(yuǎn)場語音智能技術(shù)和平臺服務(wù)商之一。在聲學(xué)感知技術(shù)方面,項(xiàng)目團(tuán)隊(duì)擁有數(shù)十年的深耕和積累,面向新興行業(yè)的智能化升級,針對實(shí)際應(yīng)用場景快速升級優(yōu)化關(guān)鍵技術(shù),收集、存儲數(shù)據(jù),逐漸形成了極具優(yōu)勢的技術(shù)與數(shù)據(jù)壁壘。并通過制定合理的R&D資源配置體系,使得在人工智能關(guān)鍵源頭技術(shù)領(lǐng)域可以早布局、早落地,完善遠(yuǎn)場聲學(xué)人機(jī)信息交互技術(shù)產(chǎn)業(yè)鏈上下游協(xié)作,形成完整的技術(shù)系統(tǒng)與產(chǎn)學(xué)研閉環(huán)生態(tài)鏈條,面向全球逐步構(gòu)筑人工智能原創(chuàng)技術(shù)核心競爭力,支撐北京國家新一代人工智能創(chuàng)新發(fā)展試驗(yàn)區(qū)建設(shè),累計(jì)帶動產(chǎn)業(yè)鏈條經(jīng)濟(jì)效益超過百億元。該項(xiàng)目促進(jìn)在京科研院所與高科技獨(dú)角獸企業(yè)聯(lián)合科研攻關(guān)卡脖子技術(shù);為小米、百度等北京市行業(yè)巨頭提供了前沿技術(shù)研發(fā)支撐,帶動北京市眾多下游人工智能領(lǐng)域中小企業(yè)發(fā)展,對加強(qiáng)建設(shè)北京市全國科技創(chuàng)新中心作出人才培養(yǎng)方面,中國科學(xué)院聲學(xué)研究所與聲智科技聯(lián)合成立的“聲學(xué)與人工智能聯(lián)合實(shí)驗(yàn)室”,培養(yǎng)了一批在多傳感器融合、深度學(xué)習(xí)、大數(shù)據(jù)、自然語音理解、聲學(xué)等人工智能和物理聲學(xué)交叉學(xué)科融合的高端技術(shù)專業(yè)人才。聲智科技與百度聯(lián)合推出的遠(yuǎn)場語音交互開發(fā)板SoundAI,已與清華大學(xué)等高校合作,提供《智能硬件》課程的教具,培養(yǎng)聲學(xué)領(lǐng)域和人工智能領(lǐng)域的關(guān)鍵人才。北京建筑大學(xué)的“建筑全過程”國家級虛擬仿真實(shí)驗(yàn)教學(xué)中心,推動研發(fā)“廳堂混響時(shí)間互動”等建筑環(huán)境虛擬互動教學(xué)程序共計(jì)7項(xiàng)人次/年,協(xié)助各類線上教學(xué)平臺教授超2200人次/年,在建筑相關(guān)專業(yè)教育領(lǐng)域中起到了互關(guān)鍵技術(shù)及其應(yīng)用分類北京市聲智科技有限公司聯(lián)系人潘貝貝電話成果簡介本項(xiàng)目突破了遠(yuǎn)場復(fù)雜聲學(xué)場景下語音交互關(guān)鍵技術(shù),融合了基于經(jīng)典陣列信號處理的模型驅(qū)動算法和基于深度學(xué)習(xí)的數(shù)據(jù)驅(qū)動算法,開發(fā)出具有自主知識產(chǎn)權(quán)的遠(yuǎn)場聲學(xué)信息人機(jī)交互術(shù)在聲學(xué)信息交互領(lǐng)域的落地。本項(xiàng)目的推廣益和社會效益,技術(shù)成果在智能音箱、AI數(shù)字人紅外測溫與監(jiān)管系統(tǒng)、智慧電梯與安全監(jiān)管平臺等多個(gè)領(lǐng)域獲得成功應(yīng)用,服務(wù)海內(nèi)外包括中國移動、華為、百度、小米、阿里、騰訊等120家企業(yè),擁有4000多萬用產(chǎn)生直接經(jīng)濟(jì)效益超1.6億。項(xiàng)目成果應(yīng)用于冬奧會和冬殘奧會、冬奧測試賽、聯(lián)合國COP15大會、建黨100周年、中國服貿(mào)會、中國科博會和中關(guān)村論壇等北京市和國家重點(diǎn)項(xiàng)目,為抗擊新冠疫情作出了突出貢獻(xiàn),獲得工信部突出貢獻(xiàn)企業(yè)表彰,入選工信部AI助力疫情防控重點(diǎn)物資清單,有廣景,潛在經(jīng)濟(jì)效益巨大,并在公共安全、疫情防控、金融、教育等國計(jì)民生重要領(lǐng)域示范應(yīng)用。創(chuàng)新水平關(guān)鍵共性技術(shù)○前沿引領(lǐng)技術(shù)v現(xiàn)代工程技術(shù)O技術(shù)進(jìn)度新設(shè)備或新裝置原理樣機(jī)O工程樣機(jī)○中試原型機(jī)○產(chǎn)業(yè)化√新材料或新技術(shù)實(shí)驗(yàn)室階段○工程化階段○產(chǎn)業(yè)化階段v技術(shù)成果國際專利口國家專利?專利編號1.基于回聲頻譜估計(jì)和語音存在概率的立體聲回聲抵消方法ZL.72.一種非平穩(wěn)噪聲環(huán)境下傳聲器陣列的語音增強(qiáng)方法ZL.2結(jié)構(gòu)的慣性式激振器ZL.75.一種用于抑制嘯叫的揚(yáng)聲器陣列擴(kuò)聲系統(tǒng)及方法ZL.37.語音喚醒方法、裝置、電子設(shè)備及存儲介質(zhì)ZL.9取詞庫領(lǐng)域的方法及系ZL.610.一種智能設(shè)備的詞向量訓(xùn)練方國際獎項(xiàng)口國家獎項(xiàng)?獎項(xiàng)名稱北京市科學(xué)進(jìn)步獎中國專利優(yōu)秀獎產(chǎn)品方向沒有應(yīng)用方向○無法判斷○市場空間需求前景巨大√需求前景一般O需求前景較大○無法判斷○成本競爭政策影響市場周期O轉(zhuǎn)化周期很難轉(zhuǎn)化(3年起)O無法判斷○陳孝良博士在2016年創(chuàng)建了聲智科技,近三年?duì)I業(yè)收入復(fù)合增長率達(dá)到244.85%,納稅復(fù)合增長率達(dá)到316.58%,2021年凈利7631萬,近兩年累計(jì)凈利超過1千萬,成為人工智能行業(yè)中的盈利企業(yè)。陳孝良博士是聲學(xué)研究員和人工智能行業(yè)專家,主要研究領(lǐng)域是聲信號處理、聲視頻壓縮感知、陣列并行計(jì)算、聲與人工智能融合,在國內(nèi)較早提出基于GPU的聲學(xué)信號并行計(jì)算研究方向,解決了遠(yuǎn)場聲學(xué)信息交互技術(shù)在真實(shí)場景中的語音交互技術(shù)在機(jī)器人和智能音箱的大規(guī)模商用。陳孝良博士帶隊(duì)突破了端邊云高性能數(shù)據(jù)匯聚和異構(gòu)數(shù)據(jù)融合計(jì)算技術(shù),主導(dǎo)了多模態(tài)與多技能奧會和冬殘奧會、北京環(huán)球影城等國家重大項(xiàng)目,獲得15封感謝信,同時(shí)支持了北京新冠抗疫和流調(diào)等平臺,獲得18面錦旗。陳孝良博士是中關(guān)村高等領(lǐng)軍人才,獲得中國科學(xué)院院長優(yōu)秀獎、北京市科技進(jìn)步獎、中國發(fā)明專利優(yōu)秀獎、中國人工智能金雁獎等榮譽(yù),帶領(lǐng)公司入選科創(chuàng)中國先導(dǎo)技術(shù)榜單,獲得吳文俊人工智能獎。陳孝良博士擔(dān)任計(jì)算機(jī)學(xué)會、聲學(xué)學(xué)會、聲智是第二批國家級“專精特新”小巨人企業(yè)、北京市中貢獻(xiàn)人工智能企業(yè)、國家高新和“雙軟”技術(shù)企業(yè)、中關(guān)村前沿技市知識產(chǎn)權(quán)示范和試點(diǎn)企業(yè)、人工智能知識產(chǎn)權(quán)百強(qiáng)企業(yè)、人工智能百強(qiáng)企業(yè)、AI最佳雇主聲智核心團(tuán)隊(duì)以智能聽覺技術(shù)為特色,建立了聲學(xué)與人工智能兩個(gè)核心研發(fā)團(tuán)隊(duì),在聲學(xué)信號處理與深度學(xué)習(xí)融合研究方面具有深厚積累,形成了以遠(yuǎn)場聲學(xué)信息交互技術(shù)為核心的全球競爭優(yōu)勢,入選“科創(chuàng)中國”先導(dǎo)技術(shù)榜1項(xiàng),榮獲北京市科技進(jìn)步獎和吳文俊人工智能獎,獲得2項(xiàng)中國發(fā)明專利優(yōu)秀獎和3項(xiàng)地區(qū)發(fā)明專利獎。常樂,CKO,負(fù)責(zé)知識產(chǎn)權(quán)建設(shè),中科院聲學(xué)所碩士。2017/2018福布斯亞洲30U30精英,2017/2018胡潤30X30創(chuàng)業(yè)領(lǐng)袖。李智勇,CDO,負(fù)責(zé)開發(fā)框架研發(fā)與運(yùn)營,北京大學(xué)碩士,曾任聯(lián)想資深戰(zhàn)略專家,奇虎360古擘,CGO,負(fù)責(zé)商務(wù)合作與市場開拓,北京大學(xué)碩士,科技成果的技術(shù)亮點(diǎn)評價(jià)(不少于150字)創(chuàng)新點(diǎn)1:針對單通道和多通道回聲抵消的不同應(yīng)用場景,提出了一系列低復(fù)雜度穩(wěn)健的時(shí)在人機(jī)交互和語音通信的應(yīng)用中,回聲的存在嚴(yán)重影響了通話質(zhì)量和人機(jī)交互的能力,因此回聲抵消是必須要解決的首要問題。盡管回聲抵消已經(jīng)進(jìn)行了多年的研究,但是現(xiàn)在的人機(jī)交互和語音通信的應(yīng)用場景越來越多,現(xiàn)有的回聲抵消算法不能滿足這些新的需求和挑戰(zhàn)。例如現(xiàn)有的人機(jī)交互設(shè)備中使用的揚(yáng)聲器體積越來越小,引起了嚴(yán)重的非線性回聲;我國家庭和會議室的混響時(shí)間都比國際慣例的標(biāo)準(zhǔn)要長,導(dǎo)致現(xiàn)有算法收斂速度慢、復(fù)雜度高等新的難題。因此必須針對這些新的場景開發(fā)新的回的復(fù)雜度和較好的收斂性能,已經(jīng)成為聲學(xué)回聲抵消系統(tǒng)的標(biāo)準(zhǔn)解決方案。已有很多的變步長頻域算法被提出來解決收斂速度和穩(wěn)態(tài)失調(diào)之間的矛盾,但是這些算法需要雙端對講檢測。如果雙端對講檢測不準(zhǔn),算法會很快發(fā)散,而雙端對講檢測是業(yè)界的難題,目前沒有成熟的解決方案。針對這個(gè)問題,提出了無需雙端對講檢測的頻域自適應(yīng)算法的最優(yōu)步長控制策略。所提變步長算法在收斂速度、穩(wěn)態(tài)失調(diào)、跟蹤速度和對外界干擾的穩(wěn)健性之間取得了很好的平衡,解決了以往的算法高度依賴雙端對講檢測的難題。該方法已經(jīng)成功的應(yīng)用在智能音箱、法通過把信號分成不同的子帶,每個(gè)子帶用單獨(dú)的濾波器更新,從而該算法比全帶的自適應(yīng)算法具有更低的計(jì)算復(fù)雜度。但傳統(tǒng)的子帶自適應(yīng)算法由于受到子帶混疊的影響而具有較差的收斂性能。提出了一種新的子帶權(quán)重控制更新機(jī)制,該方法利用子帶信號更新全帶濾波器系數(shù)從而避免了分析濾波器帶來的混疊影響。還開發(fā)了一系列低復(fù)雜度的實(shí)現(xiàn)算法。這些工作為新型子帶自適應(yīng)濾波在回聲抵消中的應(yīng)用奠定了基礎(chǔ)。相對頻域自適應(yīng)算法,所提的子帶自適應(yīng)算法具有頻繁的更新速率,非常適合解決非線性回聲嚴(yán)重的小型揚(yáng)聲器設(shè)備(如電視機(jī))的回聲抵提出了基于維納濾波的快速收斂的立體聲回聲抵消方法。由于立體聲信號之間存在相關(guān),導(dǎo)致立體聲回聲抵消系統(tǒng)的最優(yōu)解可能不是唯一的。即使維納解接近奇異,使得傳統(tǒng)的自適應(yīng)濾波算法收斂速度極慢。目前一般采用去相關(guān)技術(shù)在立體聲信號輸出至揚(yáng)聲器前進(jìn)行預(yù)處理,但這些去相關(guān)技術(shù)會導(dǎo)致語音質(zhì)量的下降,反而降低了語音識別率。我們在國際上首次提出利用語音增強(qiáng)的思路來消除回聲,依據(jù)揚(yáng)聲器信號與麥克風(fēng)信號之間的相關(guān)性設(shè)計(jì)了級聯(lián)的兩個(gè)權(quán)函數(shù)估計(jì)回聲信號頻譜。該算法收斂速度快,穩(wěn)健性好,對近端干擾不敏感,不需要對立體聲信號進(jìn)行非線性預(yù)處理從而保證了語音質(zhì)量,并且克服了傳統(tǒng)創(chuàng)新點(diǎn)2:提出了基于麥克風(fēng)陣列噪聲消除和獨(dú)立成分分析盲源分離等方法,建立了單通道帶噪語音的特征修復(fù)技術(shù),去除了語音交互受到的人聲及背景噪聲干擾,大幅提升了系統(tǒng)的隨著智能設(shè)備的大量應(yīng)用,語音系統(tǒng)作為重要的交互接口,語音識別及其前端處理技術(shù)受到背景噪聲、非目標(biāo)說話人的語音和后期混響聲的干擾。這些干擾信號的存在嚴(yán)重影響語音通信的語音質(zhì)量和人機(jī)交互的語音識別率,因此開發(fā)高性能的語音增強(qiáng)方法是前端信號處理的重要環(huán)節(jié),也是后端語音識別和自然語音處理成功提出了低復(fù)雜度的基于獨(dú)立成分分析的盲源分離算法。如何從嘈雜的環(huán)境中分離出目標(biāo)語音是一個(gè)亟待解決的問題,這也被稱為著名的“雞尾酒會問題”。有效解決這個(gè)問題的方法之一是通過盲源分離從僅有的混合觀測信號中分離出原始聲源。但是獨(dú)立成分分析方法固有的順序模糊性會導(dǎo)致頻間信號順序混疊,分離后的信號需要進(jìn)行順序調(diào)整。針對這個(gè)難題,提出一種低復(fù)雜度的頻域順序模糊性的排序方法,解決了基于獨(dú)立成分分析的盲源分離的關(guān)鍵技術(shù)問排結(jié)果傳播,對可信度低的頻點(diǎn)參照局部中心點(diǎn)進(jìn)行順序調(diào)整。新提出的方法計(jì)算復(fù)雜度要遠(yuǎn)低于其他排序方法,且隨著聲源個(gè)數(shù)的增加,所提算法的計(jì)算復(fù)雜度降低出方法不僅具有很好的分離性能,還極大地降低了計(jì)算復(fù)雜度,便于在小型聲具有較好的效果,但在實(shí)際使用環(huán)境下,干擾噪聲通常是突發(fā)非平穩(wěn)的,在這種情況下,目前大部分的語音增強(qiáng)技術(shù)性能有限。針對目前技術(shù)的不足,項(xiàng)目組提供一種在非平穩(wěn)噪聲環(huán)境下麥克風(fēng)陣列的語音增強(qiáng)方法。該方法首先根據(jù)麥克風(fēng)陣列的輸入信號估計(jì)出噪聲參考信號;而后采用自適應(yīng)算法初步濾除各通道的輸入信號中所含的噪聲信號;對各通道中自適應(yīng)濾波器的輸出信號進(jìn)行分幀加窗,再采用快速傅立葉轉(zhuǎn)換變換至頻域;估計(jì)背景噪聲功率譜,并由此得到當(dāng)前幀的信噪比;利用各通道之間的相位信息,再進(jìn)一步根據(jù)和值與預(yù)定義門限的關(guān)系得到有效語音信號存在概;估計(jì)出當(dāng)前幀是有效語音幀的概率;計(jì)算出輸出信號在各個(gè)頻率點(diǎn)增益;把處理后的頻譜信號通過反傅里葉變換變換到時(shí)間域,作為輸出信號。實(shí)際實(shí)驗(yàn)測試提出了一種單通道帶噪語音的特征修復(fù)技術(shù)。在單通道語音的語音識別及聲紋識別應(yīng)用中,噪聲對語音的影響通常難以通過語音增強(qiáng)的方法來處理。本方法創(chuàng)新性的通過帶噪語音在時(shí)間上接近的相鄰幀,對被噪聲影響的聲學(xué)特征進(jìn)行修復(fù),使其盡可能恢復(fù)到干消除噪聲的影響。該方法在單通道語音的聲紋識別中應(yīng)用,使噪聲環(huán)境下的聲紋識別錯(cuò)誤率大創(chuàng)新點(diǎn)3:聲源定位旨在使用麥克風(fēng)陣列捕獲到的聲源到達(dá)各個(gè)麥克風(fēng)的時(shí)間延遲信息來確定出算法可以有效解決復(fù)雜環(huán)境,特別是強(qiáng)混響場合下的聲源定位在語音信號的前端處理中,需要預(yù)先估計(jì)出說話者所在方位,后續(xù)才能根據(jù)目標(biāo)方位,采用語音增強(qiáng)等相關(guān)技術(shù)提高目標(biāo)信號。如果聲源定位發(fā)生錯(cuò)誤,有效信號會被當(dāng)成干擾信號,極大影響后續(xù)語音質(zhì)量和人機(jī)交互的語音識別率。對于遠(yuǎn)場聲源定位來說,其最主要的難點(diǎn)在于混響環(huán)境和干擾噪聲會對聲源定位造成極大的影響。解決復(fù)雜環(huán)境下的聲源定位問題也是后設(shè)計(jì)同心多環(huán)陣列的補(bǔ)償濾波器,利用環(huán)諧波展開解耦頻率與方位角相關(guān)性的特點(diǎn),把所有頻率點(diǎn)的自相關(guān)矩陣合并后進(jìn)行定位,減小混響影響。同時(shí)基于信息熵的準(zhǔn)則,根據(jù)模態(tài)域空間相關(guān)矩陣特征值分布特性,自動挑選出直達(dá)聲占主要成份的時(shí)頻區(qū)域。最后根據(jù)挑選出的時(shí)頻點(diǎn),采用模態(tài)域多重信號分類聲源定位方法進(jìn)行聲源定位。仿真和實(shí)驗(yàn)結(jié)果顯示,該方法可以更加準(zhǔn)確的定位聲源位置,尤其適合小空間等強(qiáng)混響條件的場合,如電梯的應(yīng)用場合。向,這會導(dǎo)致后面的波束形成誤將說話人的聲音當(dāng)做噪聲消除掉,從而造成設(shè)備無法聽懂說話人的指令。項(xiàng)目組提出了一種在現(xiàn)有框架下,不增加額外計(jì)算量的一種波達(dá)方向估計(jì)方法,可有效解決反射條件下的波達(dá)方向估計(jì)問題。在智能語音交互設(shè)備在播放音樂的情況下,為了能夠?qū)ζ浯驍?,回聲消除系統(tǒng)會一直估計(jì)回聲通道。而回聲通道中會包含有房間的參數(shù)信息。當(dāng)設(shè)備距離墻面較近時(shí),回聲通道會出現(xiàn)兩個(gè)不同的峰值。離墻壁越高,說明反射越強(qiáng)烈;同時(shí)第二個(gè)峰值和第一個(gè)峰值的距離代表的是麥克風(fēng)離墻的遠(yuǎn)近。根據(jù)這些信息可以估計(jì)出墻面的位置,進(jìn)而排除這些方位反射聲對聲源定位的干擾。創(chuàng)新點(diǎn)4:為快速適配各種使用場景,提出了基于智能家居的分布式網(wǎng)絡(luò)化遠(yuǎn)場語音采集技別系統(tǒng)的魯棒性和可擴(kuò)展性,提出了多個(gè)聲學(xué)模型深度融合的在線語音識別引擎方語音識別中的聲學(xué)模型需要大量標(biāo)注的語音數(shù)據(jù)進(jìn)行訓(xùn)練,語音識別的性能與標(biāo)注語音數(shù)據(jù)量直接相關(guān)。為了在新場景下快速獲取大量遠(yuǎn)場語音數(shù)據(jù),我們首次提出了一種利用同步信號一次錄音獲取多份遠(yuǎn)場語音數(shù)據(jù)方法,為聲學(xué)模型訓(xùn)練提供更加多樣化的數(shù)據(jù)。遠(yuǎn)場喚醒是智能產(chǎn)品語音交互的第一步,其性能好壞直接影響用戶體驗(yàn),為了提升喚醒性能,提出了加權(quán)有限狀態(tài)轉(zhuǎn)換機(jī)解碼圖的喚醒算法。隨著新場景遠(yuǎn)場語音數(shù)據(jù)的增加,聲學(xué)模型要不斷的迭代更新,這導(dǎo)致訓(xùn)練、維護(hù)成本增加,為了降低成本,提出了一種新的聲學(xué)模型結(jié)構(gòu),可以在不改變原有聲學(xué)模型的基礎(chǔ)上添加新的聲學(xué)模型實(shí)現(xiàn)對新場景新數(shù)據(jù)的覆蓋。在錄音開始以及結(jié)束時(shí),利用發(fā)聲單元分別發(fā)出一段同步信號,獲取錄音數(shù)據(jù)后,利用匹配濾波器方法可以將多臺設(shè)備的錄音數(shù)據(jù)進(jìn)行對齊,從而實(shí)現(xiàn)標(biāo)注一路語音數(shù)據(jù)同時(shí)獲得房間多個(gè)低了人工標(biāo)注成本;(2)由于所有錄音設(shè)備錄取的語音都是時(shí)間對齊的,因此可以利用聲學(xué)模型對距離聲源最近的錄音設(shè)備錄取的語音進(jìn)行強(qiáng)制對齊獲得狀態(tài)標(biāo)簽,其他錄音設(shè)備可以共享這個(gè)標(biāo)簽,這樣也可以避免噪聲、混響等因素造成狀態(tài)對不齊的情況;(3)這種錄音方法提出了加權(quán)有限狀態(tài)轉(zhuǎn)換機(jī)解碼圖的喚醒算法有限狀態(tài)轉(zhuǎn)換機(jī)框架,構(gòu)建喚醒詞的解碼圖,根據(jù)每幀語音的前向計(jì)算結(jié)果,在加權(quán)有限狀態(tài)轉(zhuǎn)換機(jī)的解碼圖中搜索獲得最優(yōu)解碼路徑與喚醒詞解碼路徑的分?jǐn)?shù)差值作為第一得分,同時(shí)喚醒后對整個(gè)喚醒詞路徑進(jìn)行回溯獲得喚醒詞每個(gè)字得分的幾何平均值作為第二得分,通過兩個(gè)得分來最終確定是否進(jìn)入喚醒狀態(tài)。該方法的優(yōu)點(diǎn)包括:(1)兩個(gè)得分的機(jī)制是從不同的角式還可以便捷實(shí)現(xiàn)對多個(gè)喚醒詞的支持,且只需通過更換配置文件就可以實(shí)現(xiàn)更改喚醒詞的用新獲取的語音數(shù)據(jù)對聲學(xué)模型進(jìn)行迭代訓(xùn)練,采用這種方式模型訓(xùn)練、效果回歸測試的代價(jià)很大。針對這一問題,我們使用一個(gè)循環(huán)深度神經(jīng)元網(wǎng)絡(luò)將多個(gè)聲學(xué)模型進(jìn)行融合,這樣可以僅利用新增數(shù)據(jù)訓(xùn)練一個(gè)新的聲學(xué)模型,將新模型插入原來的聲學(xué)模型結(jié)構(gòu)中就可以實(shí)現(xiàn)對新對以前場景的完全覆蓋;(2)多個(gè)聲學(xué)模型可以進(jìn)行自由組合,快速實(shí)現(xiàn)對某些場景的適配創(chuàng)新點(diǎn)5:針對開發(fā)領(lǐng)域?qū)υ挼膽?yīng)用場景,項(xiàng)目組提出了基于用戶的對話歷史將詞匯映射至領(lǐng)域詞庫的算法,提高了領(lǐng)域識別的精度;同時(shí)提出一種領(lǐng)域感知的詞向量訓(xùn)練算法,可以的領(lǐng)域中會有不同的含義解釋。尤其在智能家居、個(gè)人助理等交互應(yīng)用中,用戶的在交互過程中的輸入內(nèi)容往往比較短,因此難以有效的界定用戶具體表述內(nèi)容。此外隨著神經(jīng)網(wǎng)絡(luò)語言模型在自然語言處理領(lǐng)域的應(yīng)用日益廣泛,精準(zhǔn)的詞向量獲取成為影響下游自然語言理解任務(wù)精度的關(guān)鍵,優(yōu)秀的詞向量算法,需要能夠?qū)崿F(xiàn)對于同領(lǐng)域相關(guān)詞匯所表示的細(xì)節(jié)語義進(jìn)行區(qū)分。因此針對開放領(lǐng)域的交互場景,研究高效的領(lǐng)域詞庫映射及詞向量表達(dá)技術(shù),具有重要的提出基于用戶交互歷史的自適應(yīng)領(lǐng)域詞庫映射算法。領(lǐng)域詞庫用于在語義理解過原始文字表達(dá)的詞匯,映射到具體領(lǐng)域中有實(shí)際含義的實(shí)體?,F(xiàn)有的技術(shù)方案通常要求開發(fā)者靜態(tài)指定領(lǐng)域詞庫,在面對開放域交互場景時(shí)缺乏靈活性。針對這個(gè)問題,項(xiàng)目組提出了一種自適應(yīng)的領(lǐng)域詞庫映射算法。首先對于原始文本進(jìn)行語義平面的句模分類,找到動核以及與其基于獲得的數(shù)個(gè)領(lǐng)域詞庫,采用N-最短路徑方法進(jìn)行句法平面的分詞;對數(shù)個(gè)領(lǐng)域詞庫對應(yīng)的句法平面分詞結(jié)果進(jìn)行評估,考量詞與詞之間的關(guān)聯(lián)程度以及最短路徑計(jì)算結(jié)果,取評估分值最高的數(shù)據(jù)作為最終的領(lǐng)域詞庫映射結(jié)果。該算法在自然語言理解過程中將用戶的交互偏好納入了判決依據(jù),避免了靜態(tài)指定領(lǐng)域詞庫的局限性,同時(shí)提升了領(lǐng)域識別的準(zhǔn)確性。提出一種領(lǐng)域感知的詞向量訓(xùn)練方法。詞向量是自然語言處理中一的統(tǒng)稱,詞向量是神經(jīng)網(wǎng)絡(luò)語言模型的基礎(chǔ),只有獲得準(zhǔn)確的詞向量表達(dá),才能保障下游的自然語言處理任務(wù)的精度。典型的詞向量訓(xùn)練方法中,算法被建模為一個(gè)分類問題,用當(dāng)前詞匯去預(yù)測目標(biāo)詞匯,正確的目標(biāo)詞匯被視作正樣本,而負(fù)樣本往往通過負(fù)采樣

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論