追一科技多模態(tài)數(shù)字人,5G時(shí)代下的人機(jī)交互_第1頁
追一科技多模態(tài)數(shù)字人,5G時(shí)代下的人機(jī)交互_第2頁
追一科技多模態(tài)數(shù)字人,5G時(shí)代下的人機(jī)交互_第3頁
追一科技多模態(tài)數(shù)字人,5G時(shí)代下的人機(jī)交互_第4頁
追一科技多模態(tài)數(shù)字人,5G時(shí)代下的人機(jī)交互_第5頁
已閱讀5頁,還剩1頁未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、追一科技多模態(tài)數(shù)字人,5G時(shí)代下的人機(jī)交互未來的多模態(tài)數(shù)字人應(yīng)當(dāng)具備類似人的看、聽、說和知識(shí)邏輯的能力,在人工智能更像人這個(gè)進(jìn)程中更進(jìn)一步。近日,追一科技聯(lián)合創(chuàng)始人、CTO劉云峰博士在騰訊5G+AI論壇上分享了5G時(shí)代多模態(tài)數(shù)字人的發(fā)展趨勢(shì)。追一科技數(shù)字人在傳統(tǒng)的AI認(rèn)知中,視覺領(lǐng)域人臉識(shí)別、行為檢測(cè),語音領(lǐng)域語音識(shí)別和語音合成,自然語言領(lǐng)域人機(jī)對(duì)話,都有眾多成功應(yīng)用。這些領(lǐng)域之前是獨(dú)立演進(jìn)的技術(shù)和應(yīng)用,可以認(rèn)為是單模態(tài)技術(shù),不同的模態(tài)形式分別描述同一個(gè)對(duì)象在不同角度下的特征。人工智能是對(duì)人的模仿和學(xué)習(xí),而人是一個(gè)看、聽、說多模態(tài)共同工作的智能體,所以多模態(tài)技術(shù)是未來人工智能應(yīng)用發(fā)展的方向。語

2、音語言人工智能技術(shù)融合超勢(shì)計(jì)算機(jī)視覺、智能語音*自然語言處理三大人工智槪.術(shù)均已成熟落地.未來趨向于深度融合.多模態(tài)本質(zhì)是多模態(tài)信號(hào)的相互補(bǔ)充,發(fā)現(xiàn)更細(xì)節(jié)的特征或者組合特征,有助于AI應(yīng)用場(chǎng)景的拓展。比如雞尾酒會(huì)問題,在一個(gè)人多嘈雜的環(huán)境中,加入視覺對(duì)唇形動(dòng)作的捕獲,有助于提升語音識(shí)別的準(zhǔn)確度;再比如多模態(tài)情感分析,我們實(shí)驗(yàn)發(fā)現(xiàn)可以取得比單模態(tài)情感分析更高的準(zhǔn)確率。當(dāng)前多模態(tài)AI技術(shù)正逐漸引起重視,未來還有很大發(fā)展空間。人機(jī)對(duì)話交亙方式的演逬丈本對(duì)話交互語音對(duì)話交互多模態(tài)對(duì)話交互人機(jī)對(duì)話交互,一直是人工智能的重要應(yīng)用場(chǎng)景。就像人類獲取資訊的方式,經(jīng)歷了從報(bào)紙-收音機(jī)-電視機(jī)的發(fā)展過程,伴隨著通

3、訊技術(shù)的發(fā)展,人機(jī)對(duì)話交互也經(jīng)歷了從文本交互-語音交互-多模態(tài)交互的發(fā)展過程。文本交互簡(jiǎn)單快捷(如常見的在線服務(wù)機(jī)器人),但是用戶體驗(yàn)冷冰冰,缺少情感;語音交互隨呼隨到(如語音應(yīng)答和外呼機(jī)器人),但也缺少具象化體驗(yàn)。而未來多模態(tài)交互融合了語義、語音、視覺等多種AI技術(shù),對(duì)人體的形態(tài)、表情和功能進(jìn)行模擬仿真,打造出高度擬人化的虛擬形象,能像真人般與人溝通互動(dòng),我們稱之為數(shù)字人。5G高速率以及低時(shí)延的信息傳輸特點(diǎn)有助于實(shí)現(xiàn)交互模式升級(jí),將在很大程度上推進(jìn)多模態(tài)對(duì)話數(shù)字人的發(fā)展。我們?cè)O(shè)想的數(shù)字人,首先具備表情動(dòng)作、唇形動(dòng)作、肢體動(dòng)作,這些動(dòng)作和對(duì)話內(nèi)容是相關(guān)的,隨著近年來GAN深度學(xué)習(xí)技術(shù)發(fā)展,現(xiàn)在

4、已經(jīng)可以較高精度和較高分辨率的視覺合成,我們已經(jīng)實(shí)現(xiàn)4k分辨率的實(shí)時(shí)推理。同時(shí)數(shù)字人借助視頻載體,可以呈現(xiàn)語音機(jī)器人無法呈現(xiàn)的圖文等信息,多媒體的呈現(xiàn)讓信息傳達(dá)更加準(zhǔn)確。其次,數(shù)字人不僅是一個(gè)單向交互數(shù)字人,應(yīng)當(dāng)是雙向多模態(tài)交互的數(shù)字人,通過攝像頭和麥克風(fēng)采集用戶輸入,數(shù)字人能夠識(shí)別人的身份,理解人的語言,通過聲音、圖像、語義技術(shù)共同識(shí)別人的情感細(xì)節(jié),并且通過手勢(shì)指令的識(shí)別提高語義理解的準(zhǔn)確率,做出相應(yīng)的回應(yīng)。甚至是將手語表達(dá)作為數(shù)字人的輸入,和聾啞人實(shí)現(xiàn)人機(jī)對(duì)話。所以未來的多模態(tài)數(shù)字人應(yīng)當(dāng)具備類似人的看、聽、說和知識(shí)邏輯的能力,在人工智能更像人這個(gè)進(jìn)程中更進(jìn)一步。蓼模態(tài)數(shù)字人功能分類目j;i

5、叵上9St機(jī)站i圈洼圖片窗訛SDSfcA可震制性|2DW3D?人的不同技術(shù)踣罐不同業(yè)務(wù)需求郭埼:I1;1冷Eifc左互世幀宇人可交互性賽樑態(tài)組a罰-甬表達(dá)表5:情瞬達(dá)動(dòng)柞:瞰炕互旳吳樣懇理巒式|豐機(jī)口I凹fmeiiw閉全樣技術(shù)多模態(tài)數(shù)字人基于NLP、語音、視覺技術(shù),從低維信號(hào)到高維信號(hào)逐步升級(jí),抽象來說,不同于識(shí)別、檢測(cè)類的任務(wù),這是一個(gè)創(chuàng)造性的過程,難度高得多。數(shù)字人在功能分類上,一類是內(nèi)容播報(bào)型的數(shù)字人,是靜態(tài)的,我們常見AI虛擬主播就是屬于這種類型,這類技術(shù)相對(duì)成熟;另一類可以實(shí)時(shí)對(duì)話的交互型數(shù)字人,需要在實(shí)時(shí)對(duì)話過程中完成語音、語義、視覺的理解和合成,因此更具挑戰(zhàn)。形態(tài)上,可以分為2D

6、和3D的形象;在展現(xiàn)終端上,又區(qū)分為移動(dòng)端、PC端和大屏端,因?yàn)榻K端計(jì)算能力的不同,也會(huì)對(duì)應(yīng)不同的技術(shù)路徑。數(shù)字人對(duì)網(wǎng)絡(luò)傳輸有著更高的要求,5G技術(shù)讓數(shù)字人應(yīng)用成為可能。如果采用3D寫實(shí)數(shù)字人,那么一般對(duì)終端算力要求比較高,采用云渲染的技術(shù)可以很好解決這個(gè)問題,這時(shí)可以由云端完成渲染,終端由視頻流接入,當(dāng)前游戲廠商已經(jīng)用這種方法解決大型游戲在手機(jī)端運(yùn)行的問題。如果我們采用2D擬人的數(shù)字人形態(tài),特別是4K超清分辨率下,30幀/s,需要6080M的帶寬要求。雙向交互多模態(tài)數(shù)字人對(duì)網(wǎng)絡(luò)傳輸?shù)难舆t有著更高要求,因?yàn)橛脩粝M约旱膭?dòng)作表達(dá),可以快速被數(shù)字人感知。目前數(shù)字人和5G樣,都是處于發(fā)展的起始階段

7、,相信未來隨著5G的普及,會(huì)挖掘出更多數(shù)字人的應(yīng)用場(chǎng)景。多模態(tài)人機(jī)交互產(chǎn)業(yè)優(yōu)的難點(diǎn)和挑戰(zhàn)多模態(tài)算法高建槪十算個(gè)性化定制秦模唐信號(hào)融合雄丹性樹弗實(shí)時(shí)、低延遲交互悴臉低成本、快速定制茹樸態(tài)意圖腔解為性能計(jì)算框架語史莊制化芬模態(tài)悄騎析*轄鋼R冑宦制化務(wù)模態(tài)用戶畫像構(gòu)害出象走制化4雖然有了5G的加持,但多模態(tài)數(shù)字人在邁向產(chǎn)業(yè)化的征程中還有算法、工程和產(chǎn)品化的挑戰(zhàn)。在算法層面,如果我們希望數(shù)字人的回答千人千面,看不同的人說不同的話,那就需要多模態(tài)用戶畫像技術(shù);數(shù)字人對(duì)算力要求非常高,十幾個(gè)深度學(xué)習(xí)模型,每秒鐘算力要求數(shù)十T浮點(diǎn)數(shù)計(jì)算,因此需要高性能計(jì)算框架的支持;每個(gè)企業(yè)都希望有自己的數(shù)字人形象和聲音,因此數(shù)字人產(chǎn)品需要能低成本、快速定制。未來多模態(tài)數(shù)字人,可以應(yīng)用于線上和線下的場(chǎng)景,如直播、導(dǎo)購(gòu)、視頻客服、在線核身、業(yè)務(wù)咨詢、員工培訓(xùn)等,任何基于屏幕展示的文字與語音內(nèi)容都可以被賦予鮮活的人物形象。對(duì)企業(yè)來說,數(shù)字人有助于企業(yè)降低服務(wù)和內(nèi)容生產(chǎn)成本、提升營(yíng)銷效率,同時(shí)

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論