追一科技多模態(tài)數(shù)字人,5G時(shí)代下的人機(jī)交互

上傳人：s*** IP屬地：境外上傳時(shí)間：2022-08-31 格式：DOCX 頁數(shù)：6 大小：245.85KB 積分：18 舉報(bào) 版權(quán)申訴

追一科技多模態(tài)數(shù)字人,5G時(shí)代下的人機(jī)交互_第2頁

追一科技多模態(tài)數(shù)字人,5G時(shí)代下的人機(jī)交互_第3頁

追一科技多模態(tài)數(shù)字人,5G時(shí)代下的人機(jī)交互_第4頁

追一科技多模態(tài)數(shù)字人,5G時(shí)代下的人機(jī)交互_第5頁

已閱讀5頁，還剩1頁未讀，繼續(xù)免費(fèi)閱讀

版權(quán)說明：本文檔由用戶提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、追一科技多模態(tài)數(shù)字人，5G時(shí)代下的人機(jī)交互未來的多模態(tài)數(shù)字人應(yīng)當(dāng)具備類似人的看、聽、說和知識(shí)邏輯的能力，在人工智能更像人這個(gè)進(jìn)程中更進(jìn)一步。近日，追一科技聯(lián)合創(chuàng)始人、CTO劉云峰博士在騰訊5G+AI論壇上分享了5G時(shí)代多模態(tài)數(shù)字人的發(fā)展趨勢(shì)。追一科技數(shù)字人在傳統(tǒng)的AI認(rèn)知中，視覺領(lǐng)域人臉識(shí)別、行為檢測(cè)，語音領(lǐng)域語音識(shí)別和語音合成，自然語言領(lǐng)域人機(jī)對(duì)話，都有眾多成功應(yīng)用。這些領(lǐng)域之前是獨(dú)立演進(jìn)的技術(shù)和應(yīng)用，可以認(rèn)為是單模態(tài)技術(shù)，不同的模態(tài)形式分別描述同一個(gè)對(duì)象在不同角度下的特征。人工智能是對(duì)人的模仿和學(xué)習(xí)，而人是一個(gè)看、聽、說多模態(tài)共同工作的智能體，所以多模態(tài)技術(shù)是未來人工智能應(yīng)用發(fā)展的方向。語

2、音語言人工智能技術(shù)融合超勢(shì)計(jì)算機(jī)視覺、智能語音*自然語言處理三大人工智槪.術(shù)均已成熟落地.未來趨向于深度融合.多模態(tài)本質(zhì)是多模態(tài)信號(hào)的相互補(bǔ)充，發(fā)現(xiàn)更細(xì)節(jié)的特征或者組合特征，有助于AI應(yīng)用場(chǎng)景的拓展。比如雞尾酒會(huì)問題，在一個(gè)人多嘈雜的環(huán)境中，加入視覺對(duì)唇形動(dòng)作的捕獲，有助于提升語音識(shí)別的準(zhǔn)確度；再比如多模態(tài)情感分析，我們實(shí)驗(yàn)發(fā)現(xiàn)可以取得比單模態(tài)情感分析更高的準(zhǔn)確率。當(dāng)前多模態(tài)AI技術(shù)正逐漸引起重視，未來還有很大發(fā)展空間。人機(jī)對(duì)話交亙方式的演逬丈本對(duì)話交互語音對(duì)話交互多模態(tài)對(duì)話交互人機(jī)對(duì)話交互，一直是人工智能的重要應(yīng)用場(chǎng)景。就像人類獲取資訊的方式，經(jīng)歷了從報(bào)紙-收音機(jī)-電視機(jī)的發(fā)展過程，伴隨著通

3、訊技術(shù)的發(fā)展，人機(jī)對(duì)話交互也經(jīng)歷了從文本交互-語音交互-多模態(tài)交互的發(fā)展過程。文本交互簡(jiǎn)單快捷（如常見的在線服務(wù)機(jī)器人），但是用戶體驗(yàn)冷冰冰，缺少情感；語音交互隨呼隨到（如語音應(yīng)答和外呼機(jī)器人），但也缺少具象化體驗(yàn)。而未來多模態(tài)交互融合了語義、語音、視覺等多種AI技術(shù)，對(duì)人體的形態(tài)、表情和功能進(jìn)行模擬仿真，打造出高度擬人化的虛擬形象，能像真人般與人溝通互動(dòng)，我們稱之為數(shù)字人。5G高速率以及低時(shí)延的信息傳輸特點(diǎn)有助于實(shí)現(xiàn)交互模式升級(jí)，將在很大程度上推進(jìn)多模態(tài)對(duì)話數(shù)字人的發(fā)展。我們?cè)O(shè)想的數(shù)字人，首先具備表情動(dòng)作、唇形動(dòng)作、肢體動(dòng)作，這些動(dòng)作和對(duì)話內(nèi)容是相關(guān)的，隨著近年來GAN深度學(xué)習(xí)技術(shù)發(fā)展，現(xiàn)在

4、已經(jīng)可以較高精度和較高分辨率的視覺合成，我們已經(jīng)實(shí)現(xiàn)4k分辨率的實(shí)時(shí)推理。同時(shí)數(shù)字人借助視頻載體，可以呈現(xiàn)語音機(jī)器人無法呈現(xiàn)的圖文等信息，多媒體的呈現(xiàn)讓信息傳達(dá)更加準(zhǔn)確。其次，數(shù)字人不僅是一個(gè)單向交互數(shù)字人，應(yīng)當(dāng)是雙向多模態(tài)交互的數(shù)字人，通過攝像頭和麥克風(fēng)采集用戶輸入，數(shù)字人能夠識(shí)別人的身份，理解人的語言，通過聲音、圖像、語義技術(shù)共同識(shí)別人的情感細(xì)節(jié)，并且通過手勢(shì)指令的識(shí)別提高語義理解的準(zhǔn)確率，做出相應(yīng)的回應(yīng)。甚至是將手語表達(dá)作為數(shù)字人的輸入，和聾啞人實(shí)現(xiàn)人機(jī)對(duì)話。所以未來的多模態(tài)數(shù)字人應(yīng)當(dāng)具備類似人的看、聽、說和知識(shí)邏輯的能力，在人工智能更像人這個(gè)進(jìn)程中更進(jìn)一步。蓼模態(tài)數(shù)字人功能分類目j;i

5、叵上9St機(jī)站i圈洼圖片窗訛SDSfcA可震制性|2DW3D?人的不同技術(shù)踣罐不同業(yè)務(wù)需求郭埼：I1；1冷Eifc左互世幀宇人可交互性賽樑態(tài)組a罰-甬表達(dá)表5:情瞬達(dá)動(dòng)柞：瞰炕互旳吳樣懇理巒式|豐機(jī)口I凹fmeiiw閉全樣技術(shù)多模態(tài)數(shù)字人基于NLP、語音、視覺技術(shù)，從低維信號(hào)到高維信號(hào)逐步升級(jí)，抽象來說，不同于識(shí)別、檢測(cè)類的任務(wù)，這是一個(gè)創(chuàng)造性的過程，難度高得多。數(shù)字人在功能分類上，一類是內(nèi)容播報(bào)型的數(shù)字人，是靜態(tài)的，我們常見AI虛擬主播就是屬于這種類型，這類技術(shù)相對(duì)成熟；另一類可以實(shí)時(shí)對(duì)話的交互型數(shù)字人，需要在實(shí)時(shí)對(duì)話過程中完成語音、語義、視覺的理解和合成，因此更具挑戰(zhàn)。形態(tài)上，可以分為2D

6、和3D的形象；在展現(xiàn)終端上，又區(qū)分為移動(dòng)端、PC端和大屏端，因?yàn)榻K端計(jì)算能力的不同，也會(huì)對(duì)應(yīng)不同的技術(shù)路徑。數(shù)字人對(duì)網(wǎng)絡(luò)傳輸有著更高的要求，5G技術(shù)讓數(shù)字人應(yīng)用成為可能。如果采用3D寫實(shí)數(shù)字人，那么一般對(duì)終端算力要求比較高，采用云渲染的技術(shù)可以很好解決這個(gè)問題，這時(shí)可以由云端完成渲染，終端由視頻流接入，當(dāng)前游戲廠商已經(jīng)用這種方法解決大型游戲在手機(jī)端運(yùn)行的問題。如果我們采用2D擬人的數(shù)字人形態(tài)，特別是4K超清分辨率下，30幀/s，需要6080M的帶寬要求。雙向交互多模態(tài)數(shù)字人對(duì)網(wǎng)絡(luò)傳輸?shù)难舆t有著更高要求，因?yàn)橛脩粝Ｍ约旱膭?dòng)作表達(dá)，可以快速被數(shù)字人感知。目前數(shù)字人和5G樣，都是處于發(fā)展的起始階段

7、，相信未來隨著5G的普及,會(huì)挖掘出更多數(shù)字人的應(yīng)用場(chǎng)景。多模態(tài)人機(jī)交互產(chǎn)業(yè)優(yōu)的難點(diǎn)和挑戰(zhàn)多模態(tài)算法高建槪十算個(gè)性化定制秦模唐信號(hào)融合雄丹性樹弗實(shí)時(shí)、低延遲交互悴臉低成本、快速定制茹樸態(tài)意圖腔解為性能計(jì)算框架語史莊制化芬模態(tài)悄騎析*轄鋼R冑宦制化務(wù)模態(tài)用戶畫像構(gòu)害出象走制化4雖然有了5G的加持，但多模態(tài)數(shù)字人在邁向產(chǎn)業(yè)化的征程中還有算法、工程和產(chǎn)品化的挑戰(zhàn)。在算法層面，如果我們希望數(shù)字人的回答千人千面，看不同的人說不同的話，那就需要多模態(tài)用戶畫像技術(shù)；數(shù)字人對(duì)算力要求非常高，十幾個(gè)深度學(xué)習(xí)模型，每秒鐘算力要求數(shù)十T浮點(diǎn)數(shù)計(jì)算，因此需要高性能計(jì)算框架的支持；每個(gè)企業(yè)都希望有自己的數(shù)字人形象和聲音，因此數(shù)字人產(chǎn)品需要能低成本、快速定制。未來多模態(tài)數(shù)字人，可以應(yīng)用于線上和線下的場(chǎng)景，如直播、導(dǎo)購(gòu)、視頻客服、在線核身、業(yè)務(wù)咨詢、員工培訓(xùn)等，任何基于屏幕展示的文字與語音內(nèi)容都可以被賦予鮮活的人物形象。對(duì)企業(yè)來說，數(shù)字人有助于企業(yè)降低服務(wù)和內(nèi)容生產(chǎn)成本、提升營(yíng)銷效率，同時(shí)

人人文庫> 全部分類> 圖紙下載 > 畢業(yè)設(shè)計(jì)

溫馨提示

1. 本站所有資源如無特殊說明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽，若沒有圖紙預(yù)覽就沒有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間，僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理，對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容，請(qǐng)與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

追一科技多模態(tài)數(shù)字人,5G時(shí)代下的人機(jī)交互

文檔簡(jiǎn)介

溫馨提示

最新文檔

評(píng)論

追一科技多模態(tài)數(shù)字人,5G時(shí)代下的人機(jī)交互

文檔簡(jiǎn)介

溫馨提示

最新文檔

評(píng)論

相關(guān)文檔