T-ZSA 230-2024 虛擬數(shù)字人多模態(tài)交互信息規(guī)范_第1頁
T-ZSA 230-2024 虛擬數(shù)字人多模態(tài)交互信息規(guī)范_第2頁
T-ZSA 230-2024 虛擬數(shù)字人多模態(tài)交互信息規(guī)范_第3頁
T-ZSA 230-2024 虛擬數(shù)字人多模態(tài)交互信息規(guī)范_第4頁
T-ZSA 230-2024 虛擬數(shù)字人多模態(tài)交互信息規(guī)范_第5頁
已閱讀5頁,還剩35頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

ICS33.160CCSM61團(tuán)體標(biāo)準(zhǔn)Virtualdigitalhumanmulti-modalinteractioninformationstandard中關(guān)村標(biāo)準(zhǔn)化協(xié)會(huì)發(fā)布T/ZSA230—2024前言 2規(guī)范性引用文件 3術(shù)語和定義 4概述 5輸入通道 25.1文本 25.2語音 3 65.4其它 66輸出通道 96.1語音 96.2表情 6.3肢體動(dòng)作 6.4其它 附錄A(資料性)聲音事件標(biāo)簽 17附錄B(規(guī)范性)表情曲線名稱 28附錄C(規(guī)范性)骨骼名稱 34圖1虛擬數(shù)字人的骨骼定義的示意圖 12表1語種類別列表 3表2口音信息列表 3表3性別信息列表 4表4年齡信息列表 4表5情緒類型列表 4表6語音數(shù)據(jù)的編碼格式列表 5表7離散情緒列表 9表A.1聲音事件標(biāo)簽 17表B.1表情曲線名稱 28表C.1骨骼名稱 34T/ZSA230—2024本文件按照GB/T1.1—2020《標(biāo)準(zhǔn)化工作導(dǎo)則第1部分:標(biāo)準(zhǔn)化文件的結(jié)構(gòu)和起草規(guī)則》的規(guī)定起草。本文件由中關(guān)村標(biāo)準(zhǔn)化協(xié)會(huì)虛擬現(xiàn)實(shí)與元宇宙分技術(shù)委員會(huì)提出并歸口。本文件起草單位:北京中科匯聯(lián)科技股份有限公司、清華大學(xué)、北京大學(xué)、北京理工大學(xué)、天津大學(xué)、北京交通大學(xué)、北京郵電大學(xué)、中國傳媒大學(xué)、中央美術(shù)學(xué)院、鵬城實(shí)驗(yàn)室、北京新腦科技有限公司、數(shù)字栩生(北京)科技有限公司。本文件主要起草人:游世學(xué)、郭銳、翁冬冬、劉永進(jìn)、王厚峰、王東、王丙棟、余旻婧、溫玉輝、李藍(lán)天、包儀華、余皓天、徐峰、周升明、陳岳強(qiáng)、韓許東、師倩、、郭潔、張昌的、何思萱。T/ZSA230—2024本文件的發(fā)布機(jī)構(gòu)提請注意,聲明符合本文件時(shí),可能涉及到與CN115167674A[基于數(shù)字人多模態(tài)交互信息標(biāo)準(zhǔn)的智能交互方法]相關(guān)的專利的使用。本文件的發(fā)布機(jī)構(gòu)對于該專利的真實(shí)性、有效性和范圍無任何立場。該專利持有人已向本文件的發(fā)布機(jī)構(gòu)承諾,他愿意同任何申請人在合理且無歧視的條款和條件下,就專利授權(quán)許可進(jìn)行談判。該專利持有人的聲明已在本文件的發(fā)布機(jī)構(gòu)備案。相關(guān)信息可以通過以下聯(lián)系方式獲得:專利持有人姓名:北京中科匯聯(lián)科技股份有限公司。地址:100094北京市海淀區(qū)東北旺西路8號(hào)9號(hào)樓二區(qū)305。請注意除上述專利外,本文件的某些內(nèi)容仍可能涉及專利。本文件的發(fā)布機(jī)構(gòu)不承擔(dān)識(shí)別專利的責(zé)任。1T/ZSA230—2024虛擬數(shù)字人多模態(tài)交互信息規(guī)范本文件對虛擬數(shù)字人多模態(tài)交互輸入及輸出信息的數(shù)據(jù)格式及數(shù)據(jù)類型進(jìn)行了規(guī)定,確定了統(tǒng)一的數(shù)據(jù)標(biāo)簽。本文件適用于虛擬數(shù)字人的設(shè)計(jì)和開發(fā),以及不同平臺(tái)之間虛擬數(shù)字人數(shù)據(jù)資源的交換與共享。2規(guī)范性引用文件下列文件中的內(nèi)容通過文中的規(guī)范性引用而構(gòu)成本文件必不可少的條款。其中,注日期的引用文件,僅該日期對應(yīng)的版本適用于本文件;不注日期的引用文件,其最新版本(包括所有的修改單)適用于本文件。ISO8601數(shù)據(jù)存儲(chǔ)和交換形式信息交換日期和時(shí)間的表示方法(DataelementsandinterchangeformatsInformationinterchangeRepresentationofdatesandtimes)3術(shù)語和定義YD/T4393.1—2023界定的以及下列術(shù)語和定義適用于本文件。3.1虛擬數(shù)字人digitalhuman簡稱數(shù)字人或虛擬人,是指基于現(xiàn)實(shí)世界設(shè)計(jì)、通過計(jì)算機(jī)生成、再借助真人或計(jì)算驅(qū)動(dòng)、在多模態(tài)輸出設(shè)備呈現(xiàn)的虛擬人物。[來源:YD/T4393.1—2023,3.1.1]3.2多模態(tài)multi-modal多種感知信息的協(xié)同,包括文本、圖像、視頻、音頻等類型。4概述多模態(tài)交互是指同時(shí)利用多種感官輸入輸出通道(如視覺、聽覺、觸覺等)進(jìn)行人機(jī)交互,通過融合多種模態(tài)以提供更自然、直觀的交互體驗(yàn)。多模態(tài)交互能夠讓用戶在不同的場景下可以選擇不同的模態(tài)組合模式進(jìn)行交互,從而整體提高人機(jī)交互的自然度和靈活度,同時(shí)多模態(tài)交互能夠使用戶在人機(jī)交互過程中擁有多維感知信息,從而能夠從視覺、聽覺、觸覺等多方面體會(huì)機(jī)器表達(dá)出的語義和情感。在虛擬數(shù)字人領(lǐng)域,多模態(tài)交互信息標(biāo)準(zhǔn)是為了確保在不同場景下,虛擬人能夠與用戶進(jìn)行高效、流暢的溝通。本文件的制定旨在虛擬數(shù)字人應(yīng)用中實(shí)現(xiàn)無縫的交互體驗(yàn),提高用戶滿意度和粘性。同時(shí),本文件還旨在促進(jìn)行業(yè)內(nèi)技術(shù)和應(yīng)用的發(fā)展,推動(dòng)虛擬數(shù)字人行業(yè)的規(guī)范化和標(biāo)準(zhǔn)化。本文件的制訂將有助于不同虛擬數(shù)字人平臺(tái)開發(fā)者,虛擬數(shù)字人產(chǎn)品設(shè)計(jì)者,虛擬數(shù)字人應(yīng)用開發(fā)者等各方能夠從統(tǒng)一的視角去看待多模態(tài)人機(jī)交互的整體過程,方便各個(gè)虛擬數(shù)字人平臺(tái)的開發(fā)人員將精力聚焦于其平臺(tái)的硬件或軟件優(yōu)化內(nèi)部流程及性能,減輕與外部設(shè)備或系統(tǒng)對接時(shí)的壓力,提高了應(yīng)用程序在不同平臺(tái)之間的可移植性和兼容性,當(dāng)新平臺(tái)可用、舊平臺(tái)過時(shí)的情況下,可快捷地從一個(gè)平臺(tái)切換到另一個(gè)平臺(tái)。在本文件中,對于在虛擬數(shù)字人應(yīng)用場景下的多模態(tài)人機(jī)交互的輸入通道和輸出通道的格式進(jìn)行了明確的定義,采用了JSON格式進(jìn)行描述,具有很強(qiáng)的編程適應(yīng)性和可擴(kuò)展性。目前輸入通道包括文本、語音、圖像、觸覺、傳感器等多種類型,可對應(yīng)鍵盤、網(wǎng)絡(luò)通訊、麥克風(fēng)、攝像頭、觸摸屏、可穿戴設(shè)備等輸入設(shè)備;輸出通道是指虛擬數(shù)字人在智能設(shè)備上的各種展現(xiàn)形態(tài),包括最基本的語音、表情、肢2T/ZSA230—2024體動(dòng)作和其他輸出渲染效果,如虛擬數(shù)字人場景定義、多媒體素材和字幕等等;并且在附錄中提供了聲音事件標(biāo)簽、表情曲線名稱、骨骼名稱等行業(yè)公認(rèn)的數(shù)據(jù)規(guī)范說明。本文件具有較強(qiáng)的兼容性和開放性,未來可根據(jù)技術(shù)發(fā)展的情況和業(yè)務(wù)場景進(jìn)化的需要進(jìn)行靈活的修訂。5輸入通道5.1文本5.1.1概述文字交互通道用于傳輸人機(jī)交互中的文本信息,主要分成兩大類,一類是人機(jī)交互輸入的文本交流信息,一類是針對交互對象和交互環(huán)境的說明信息。5.1.2數(shù)據(jù)元素文字交互通道的人機(jī)交互的文本交流信息,可能是通過語音識(shí)別模塊處理之后得到的識(shí)別文本,也有可能是直接通過鍵盤或網(wǎng)絡(luò)傳輸協(xié)議得到的直接輸入文本;針對交互對象和交互環(huán)境的說明信息一般來說是經(jīng)過其他信息處理模塊或外部系統(tǒng)處理獲取之后,通過網(wǎng)絡(luò)傳輸協(xié)議發(fā)送到虛擬數(shù)字人的文本信息。文字交互通道的數(shù)據(jù)整體應(yīng)放在“input_text_data”為總節(jié)點(diǎn)的JSON格式的數(shù)據(jù)中,數(shù)據(jù)格式的說明如下:——文字信息的總節(jié)點(diǎn)(input_text_data);——人機(jī)交互的文本交流信息(communication_info)為數(shù)組類型,可能包括多個(gè)說話人的交互文本;——說話人的交流文本內(nèi)容(text)為字符串類型;——說話人的標(biāo)識(shí)ID(speaker_id)為字符串類型;——說話人的信息數(shù)組(speakers_info)為數(shù)組類型;——說話人的姓名(speaker_name)為字符串類型,如果保密或未知?jiǎng)t內(nèi)容為空字符串“”;——說話人的說話狀態(tài),是否正在說話(speaking)可能的取值包括“true”和“false”;——說話人的角色(role)為字符串類型,為自定義的輸入文本內(nèi)容;如果保密或未知?jiǎng)t內(nèi)容為空字符串“”;——說話人的年齡(age)為整數(shù)類型,如果保密或未知?jiǎng)t內(nèi)容為-1;——說話人的說明描述(speaker_desc)為字符串類型,為自定義的輸入文本內(nèi)容;如果保密或未知?jiǎng)t內(nèi)容為空字符串“”。{{{3T/ZSA230—2024{}}5.2語音5.2.1概述語音輸入是指人機(jī)交互過程中由聲音采集設(shè)備錄制后,經(jīng)過前端語音模塊計(jì)算處理后得到的各類語音信息。5.2.2數(shù)據(jù)元素總則語音交互通道的數(shù)據(jù)整體應(yīng)放在“input_speech_data”為總節(jié)點(diǎn)的JSON格式的數(shù)據(jù)中,數(shù)據(jù)格式的說明如下:——語音信息的總節(jié)點(diǎn)(input_speech_data);——語音識(shí)別后的文本內(nèi)容(content)為帶標(biāo)點(diǎn)符號(hào)的字符文本,字符串類型;——語種類別(language)為字符串類型,具體取值見表1語種類別名稱;——口音信息(accent)為字符串類型,具體取值見表2口音信息名稱;——性別信息(gender)為字符串類型,具體取值見表3性別信息名稱;——年齡信息(age)為字符串類型,具體取值見表4年齡信息名稱;——情緒類型(emotion)為字符串類型,具體取值見表5情緒類別名稱;——聲音事件(event)為數(shù)組類型,具體取值見聲音事件列表;——數(shù)據(jù)信息(info),聲音文件的格式信息,具體取值見數(shù)據(jù)信息定義;——原始數(shù)據(jù)(raw),即聲波采樣被量化后所產(chǎn)生的非壓縮數(shù)據(jù),為數(shù)組類型,元素取值為整數(shù)類型。語種類別列表語種類別如表1所示,取值范圍見表1語種類別。表1語種類別列表12口音信息名稱口音信息如表2所示,取值范圍見口音信息名稱這一列。表2口音信息列表124T/ZSA230—2024345678性別信息名稱性別信息如表3所示,取值范圍見表3性別信息名稱。表3性別信息列表123male年齡信息名稱年齡信息如表4所示,取值范圍見表3性別信息名稱。表4年齡信息列表12345情緒類別名稱情緒類型如表4所示,取值范圍見表4情緒類別名稱。表5情緒類型列表12345678聲音事件列表聲音事件為數(shù)組類型,數(shù)組元素取值為字符串類型,取值定義見本文件附錄A表格,代表自然語言表示的聲音事件分類,取值范圍見表A.1中“英文對應(yīng)詞”。5T/ZSA230—2024數(shù)據(jù)信息定義聲音數(shù)據(jù)的信息用json格式定義,具體如下:——語音數(shù)據(jù)的采樣率(sample_rate)為整數(shù)類型;——語音數(shù)據(jù)的通道數(shù)(channels)為整數(shù)類型,取值范圍為1和2;——語音數(shù)據(jù)的采樣精度(precision)為字符串類型,“32-bit”;——語音數(shù)據(jù)的起始時(shí)間(start_time)為字符串類型,應(yīng)符合ISO8601的要求;——語音數(shù)據(jù)的結(jié)束時(shí)間(end_time)為字符串類型,應(yīng)符合ISO8601的要求;——語音數(shù)據(jù)的時(shí)長(duration)為字符串類型,格式為“HH:mm:ss.SSS”,其中各項(xiàng)分別為小時(shí),分鐘,秒和毫秒;——純數(shù)據(jù)長度(data_size)為整數(shù)類型;——語音數(shù)據(jù)的編碼格式(sample_encoding)為字符串類型,具體取值見表5。表6語音數(shù)據(jù)的編碼格式列表123456789{"start_time":"2023-08-"end_time":"2023-08-26T/ZSA230—2024]}5.3圖像5.3.1概述圖像交互通道用于傳輸由用戶在虛擬數(shù)字人成像屏幕或攝像頭前所產(chǎn)生的圖像數(shù)據(jù)信號(hào),本部分對視頻流(或視頻文件解碼后的每一幀圖像數(shù)據(jù))進(jìn)行了定義。5.3.2數(shù)據(jù)元素圖像交互通道包括輸入數(shù)據(jù)流,通過采集用戶在虛擬數(shù)字人成像屏幕或攝像頭前的圖像數(shù)據(jù),將交互數(shù)據(jù)添加到“input_image_data”為總節(jié)點(diǎn)的JSON格式的數(shù)據(jù)中,數(shù)據(jù)格式的說明如下:——圖像數(shù)據(jù)的總節(jié)點(diǎn)input_image_data;——圖像數(shù)據(jù)的文件路徑(image_path)為字符串類型;——圖像數(shù)據(jù)的大?。╥mage_size)包括width和height兩個(gè)子元素;——圖像數(shù)據(jù)的寬度(width)為整數(shù)類型;——圖像數(shù)據(jù)的高度(height)為整數(shù)類型;——圖像數(shù)據(jù)格式(image_format)為字符串類型;——圖像數(shù)據(jù)的色彩空間(image_color_space)為字符串類型;——圖像數(shù)據(jù)的分辨率(image_resolution)為字符串類型,單位為dpi;——采集圖像數(shù)據(jù)的時(shí)間戳(CaptureTimeStamp)為字符串類型,應(yīng)符合ISO8601的要求。{{"image_path":"/Base64Encod"capture_time_stamp":"2022-09-}}5.4其它5.4.1觸覺概述觸覺交互通道傳輸由用戶點(diǎn)擊或拖拽屏幕所產(chǎn)生的數(shù)據(jù)信號(hào)。其中,觸控板與虛擬數(shù)字人成像屏幕為同一設(shè)備(或成像屏幕具備點(diǎn)觸功能)。數(shù)據(jù)元素7T/ZSA230—2024觸覺交互通道包括輸入數(shù)據(jù)流。通過監(jiān)聽觸摸事件,將交互數(shù)據(jù)添加到一個(gè)名為"input_touch_events"的JSON數(shù)組中。JSON數(shù)組中應(yīng)包含以下json格式數(shù)據(jù):——觸摸事件的類型(event_type),字符串類型,取值范圍包括觸摸開始"touch_start",觸摸移動(dòng)"touch_move",觸摸結(jié)束"touch_end",以及觸摸取消"touch_cancel";——觸摸事件發(fā)生的時(shí)間(start_time)為字符串類型,應(yīng)符合ISO8601的要求;——觸摸事件結(jié)束的事件(end_time)為字符串類型,應(yīng)符合ISO8601的要求;——觸摸事件發(fā)生的坐標(biāo)位置(position),包括兩個(gè)元素x橫軸坐標(biāo)和y縱軸坐標(biāo),均為整數(shù)類型?!绻|摸事件的開始時(shí)間和結(jié)束時(shí)間瞬時(shí)發(fā)生在同一時(shí)刻,那么這兩個(gè)時(shí)間點(diǎn)可以被視為一個(gè)點(diǎn)。{"input_touch_events":[{"event_type":"touch_start","start_time":"2023-08-19T12:34:56Z","end_time":"2023-08-19T12:34:57Z",}{"event_type":"touch_move","start_time":"2023-08-19T12:34:58Z","end_time":"2023-08-19T12:34:59Z",}{"event_type":"touch_end","start_time":"2023-08-19T12:35:00Z","end_time":"2023-08-19T12:35:01Z",{"event_type":"touch_cancel","start_time":"2023-08-19T12:35:02Z","end_time":"2023-08-19T12:35:03Z","position":{8T/ZSA230—2024}}5.4.2傳感器概述傳感器交互通道傳輸由用戶佩戴具有傳感器的手環(huán)所產(chǎn)生的數(shù)據(jù)信號(hào)。其中手環(huán)能夠收集多種類型的傳感器數(shù)據(jù),包括:加速度、陀螺儀、磁力計(jì)、溫度、心率等。數(shù)據(jù)元素傳感器交互通道包括輸入數(shù)據(jù)流。通過收集傳感器數(shù)據(jù),將交互數(shù)據(jù)添加到一個(gè)名為"input_sensor_data"的總節(jié)點(diǎn)的JSON格式的數(shù)據(jù)中,應(yīng)包含以下數(shù)據(jù):——溫度(temperature)為浮點(diǎn)數(shù)類型;——心率(heart_rate)為浮點(diǎn)數(shù)類型;——加速度計(jì)(accelerometer)為json格式,data元素包括x,y,z元素,為浮點(diǎn)數(shù)類型,分別代表三個(gè)軸方向的加速度;——陀螺儀(gyroscope)為json格式,data元素包括x,y,z元素,為浮點(diǎn)數(shù)類型,分別代表三個(gè)軸方向的角加速度;——磁力計(jì)(magnetometer)為json格式,data元素包括x,y,z元素,為浮點(diǎn)數(shù)類型,分別代表三個(gè)軸方向的環(huán)境磁場數(shù)據(jù)。{}}9T/ZSA230—2024}6輸出通道6.1語音6.1.1概述語音輸出是指由虛擬數(shù)字人中控系統(tǒng)向語音合成系統(tǒng)輸出的控制信號(hào)。6.1.2數(shù)據(jù)元素總則使用名為"output_speech_data"的JSON格式數(shù)據(jù)記錄語音輸出的文本內(nèi)容、發(fā)音速度和發(fā)音情緒。應(yīng)包含以下數(shù)據(jù):——文本(content)為字符串類型,特殊字符/代詞間停頓代表后面字重讀;——情緒(emotion)為json數(shù)據(jù),支持離散情緒和連續(xù)情緒兩種類型;——語速(speed)為浮點(diǎn)數(shù),代表語速調(diào)整因子,1.0為缺省值。離散情緒此時(shí)emotion節(jié)點(diǎn)的type元素值為"category",value元素為離散情緒信息,其取值范圍見表6。表7離散情緒列表1234567{}}連續(xù)情緒此時(shí)emotion節(jié)點(diǎn)的type元素值為"real",value元素為數(shù)組類型,其中的元素定義如下:a)基礎(chǔ)格式:(喚醒度,愉悅度);b)取值范圍:-1.0到1.0的連續(xù)值。{T/ZSA230—2024}}6.2表情6.2.1概述虛擬數(shù)字人的表情可采用幾種最常見的方法進(jìn)行生成,包括基于三維表情技術(shù)、網(wǎng)格模型技術(shù)和參數(shù)化模型技術(shù)動(dòng)態(tài)生成表情,以下對幾種方法在控制交互中不同的具體數(shù)據(jù)傳輸格式進(jìn)行定義。6.2.2數(shù)據(jù)元素使用名為"output_expression_data"的JSON格式數(shù)據(jù)記錄虛擬數(shù)字人表情輸出,根據(jù)輸出類別不同有不同的格式定義。輸出類別從總體上來說,虛擬數(shù)字人表情輸出可分為二維表情和三維表情兩類??刂魄€輸出使用JSON數(shù)組“curve_array”記錄表情曲線名稱及表情曲線強(qiáng)度值。通過Livelink傳輸表情曲線數(shù)據(jù)(見附錄B)控制表情變化。JSON數(shù)組中應(yīng)包含以下json元素:——表情曲線名稱(name),為字符串類型,取值范圍見附錄B中的表B.1表情曲線名稱的表情曲線名稱這一列。——表情曲線強(qiáng)度(value),為浮點(diǎn)數(shù)類型,表情曲線強(qiáng)度應(yīng)在0.0~1.0范圍內(nèi)。{{"name":"CTRL_expressio]}頂點(diǎn)位移輸出.1網(wǎng)格模型表情輸出使用JSON數(shù)組記錄頂點(diǎn)索引及頂點(diǎn)偏移量。使用頂點(diǎn)偏移量控制表情變化,與三維中性人臉模型的頂點(diǎn)坐標(biāo)相加,得到帶有表情的人臉模型。JSON數(shù)組中應(yīng)包含以下數(shù)據(jù):——頂點(diǎn)索引(index)為整數(shù)類型;T/ZSA230—2024——偏移量(shift)為json數(shù)據(jù),x,y,z元素代表三個(gè)軸上的偏移量,為浮點(diǎn)數(shù)類型。{{"index":"shift":{"x":"z":{"index":"shift":{"x":"z":{"index":"shift":{"x":"z":}}}.2參數(shù)化模型表情輸出使用JSON數(shù)組記錄參數(shù)索引及參數(shù)系數(shù),使用表情系數(shù)控制表情變化。JSON數(shù)組中應(yīng)包含以下數(shù)據(jù):——參數(shù)索引(index)為整數(shù)類型;——系數(shù)(value)為浮點(diǎn)數(shù)類型。{{{{}T/ZSA230—2024}}6.3肢體動(dòng)作6.3.1概述描述三維數(shù)字人的肢體動(dòng)作的序列,數(shù)字人的肢體用骨骼,骨骼之間的層級關(guān)系,骨骼位置來描述,動(dòng)作用骨骼旋轉(zhuǎn)信息來描述。骨骼關(guān)節(jié)的定義示例見圖1:圖1虛擬數(shù)字人的骨骼定義的示意圖T/ZSA230—20246.3.2數(shù)據(jù)元素使用JSON數(shù)組記錄骨骼名稱、骨骼關(guān)系、骨骼位置和骨骼旋轉(zhuǎn)信息,通過Livelink傳輸骨骼數(shù)據(jù)進(jìn)行肢體動(dòng)作控制。JSON數(shù)組應(yīng)包含以下數(shù)據(jù):——肢體動(dòng)作信息的根節(jié)點(diǎn)“output_body_data”;——骨骼名稱(name)為字符串類型,具體的取值范圍見附錄C中表C.1的骨骼名稱這一列;——上一層級的骨骼系數(shù)(parent)為整數(shù)類型,根節(jié)點(diǎn)(name為root)取值為-1,按照層級深度依次增加1;——與上一層級骨骼的相對位置(location)為浮點(diǎn)數(shù)的數(shù)組,表示與上一層級骨骼的三維坐標(biāo)的相對位置;——與上一層級骨骼的相對旋轉(zhuǎn)(rotation)為浮點(diǎn)數(shù)數(shù)組,表示旋轉(zhuǎn)的四元數(shù),即旋轉(zhuǎn)軸向量和圍繞軸的旋轉(zhuǎn)角度。{{}}6.4其它6.4.1概述其他輸出通道主要描述虛擬數(shù)字人在顯示設(shè)備中進(jìn)行渲染展示的主要元素及其呈現(xiàn)效果。6.4.2數(shù)據(jù)元素其他輸出通道是對于虛擬數(shù)字人在顯示設(shè)備中進(jìn)行渲染展示的主要元素的描述,典型的元素包括虛擬數(shù)字人的整體分辨率,在屏幕上顯示的位置,屏幕上的圖片顯示信息,虛擬數(shù)字人的背景顯示信息等等。數(shù)據(jù)整體放在"output_other_data"為總節(jié)點(diǎn)的JSON格式的數(shù)據(jù)中。具體數(shù)據(jù)格式的說明如下:——描述其他輸出通道的信息的總節(jié)點(diǎn)(output_other_data——虛擬數(shù)字人在設(shè)備中整體展示的基本信息(basic_info):.屏幕顯示的縱橫比例(screen_ratio)一般有“4:3”,“16:9”,“9:16”等等常見比例;.虛擬數(shù)字人應(yīng)用整體顯示的寬度(width)以像素為單位;.虛擬數(shù)字人應(yīng)用整體顯示的高度(height)以像素為單位;T/ZSA230—2024.虛擬數(shù)字人模型顯示區(qū)域的寬度(model_width)以像素為單位;.虛擬數(shù)字人模型顯示區(qū)域的高度(model_height)以像素為單位;.虛擬數(shù)字人模型顯示區(qū)域的左上角在屏幕中的橫坐標(biāo)位置(model_x)以像素為單位,以屏幕左上角為起始點(diǎn);.虛擬數(shù)字人模型顯示區(qū)域的左上角在屏幕中的縱坐標(biāo)位置(model_y)以像素為單位,以屏幕左上角為起始點(diǎn);.模型顯示縮放比例(model_scale)為浮點(diǎn)數(shù)類型。——屏幕中顯示的圖片的信息(pictures_info)為數(shù)組類型,包括多個(gè)可以展示的圖片的信息:.圖片的統(tǒng)一資源地址(url)可以是網(wǎng)址或者本地路徑;.圖片開始顯示的時(shí)間(start_time)為字符串類型,格式為“HH:mm:ss.SSS”,其中各項(xiàng)分別為小時(shí),分鐘,秒和毫秒;.圖片結(jié)束顯示的時(shí)間(end_time)為字符串類型,格式為“HH:mm:ss.SSS”,其中各項(xiàng)分別為小時(shí),分鐘,秒和毫秒;如果一直顯示則傳入“00:00:00.000”;.圖片左上角在屏幕中的橫坐標(biāo)位置(x)以像素為單位,以屏幕左上角為起始點(diǎn);.圖片左上角在屏幕中的縱坐標(biāo)位置(y)以像素為單位,以屏幕左上角為起始點(diǎn);.圖片寬度(width)以像素為單位;.圖片高度(height)以像素為單位;.圖片顯示縮放比例(scale)為浮點(diǎn)數(shù)類型?!枋霰尘帮@示信息(background_info):.背景圖片的統(tǒng)一資源地址(url)可以是網(wǎng)址或本地路徑;.背景的整體顏色值(color),采用RGB格式,字符串類型;.背景圖片開始顯示的時(shí)間(start_time)為字符串類型,格式為“HH:mm:ss.SSS”,其中各項(xiàng)分別為小時(shí),分鐘,秒和毫秒;.背景圖片結(jié)束顯示的時(shí)間(end_time)為字符串類型,格式為“HH:mm:ss.SSS”,其中各項(xiàng)分別為小時(shí),分鐘,秒和毫秒;如果一直顯示則傳入“00:00:00.000”;——屏幕中顯示文字的信息(texts_info):.文字內(nèi)容(text)為字符串類型;.文字開始顯示的時(shí)間(start_time)為字符串類型,格式為“HH:mm:ss.SSS”,其中各項(xiàng)分別為小時(shí),分鐘,秒和毫秒;.文字結(jié)束顯示的時(shí)間(end_time)為字符串類型,格式為“HH:mm:ss.SSS”,其中各項(xiàng)分別為小時(shí),分鐘,秒和毫秒;如果一直顯示則傳入“00:00:00.000”;.文字左上角在屏幕中的橫坐標(biāo)位置(x)以像素為單位,以屏幕左上角為起始點(diǎn);.文字左上角在屏幕中的縱坐標(biāo)位置(y)以像素為單位,以屏幕左上角為起始點(diǎn);.文字顯示縮放比例(scale)為浮點(diǎn)數(shù)類型;.文字顯示的樣式(style)為數(shù)組類型;.文字顯示的字體大?。╢ont_size)為整數(shù)類型;.文字顯示的字體(font_family)為字符串類型;.文字顏色(color)為字符串類型?!聊恢酗@示滾動(dòng)字幕的信息(subtitles_info):.字幕文字內(nèi)容(text)為字符串類型;.字幕文字開始顯示的時(shí)間(start_time)為字符串類型,格式為“HH:mm:ss.SSS”,其中各項(xiàng)分別為小時(shí),分鐘,秒和毫秒;.字幕文字結(jié)束顯示的時(shí)間(end_time)為字符串類型,格式為“HH:mm:ss.SSS”,其中各項(xiàng)分別為小時(shí),分鐘,秒和毫秒;如果一直顯示則傳入“00:00:00.000”;.字幕文字左上角在屏幕中的橫坐標(biāo)位置(x)以像素為單位,以屏幕左上角為起始點(diǎn);.字幕文字左上角在屏幕中的縱坐標(biāo)位置(y)以像素為單位,以屏幕左上角為起始點(diǎn);.字幕文字顯示縮放比例(scale)為浮點(diǎn)數(shù)類型;T/ZSA230—2024.字幕文字顯示的樣式(style)為數(shù)組類型;.字幕文字顯示的字體大?。╢ont_size)為整數(shù)類型;.字幕文字顯示的字體(font_family)為字符串類型;.字幕文字顏色(color)為字符串類型。{{"url":"87:9000/000000/logo_1686"url":"87:9000/000000/bg1_1672"end_time":"00:00:02.650"{{]{T/ZSA230—2024{]]}T/ZSA230—2024聲音事件標(biāo)簽表A.1給出了聲音事件標(biāo)簽。表A.1聲音事件標(biāo)簽123456789鳥鼓Narration,monologueAcousticguitar狗水風(fēng)Birdvocalization,bi貓T/ZSA230—2024表A.1聲音事件標(biāo)簽(續(xù))Crowing,cock-a-doodl鈴Trafficnoise,roadway箭T/ZSA230—2024表A.1聲音事件標(biāo)簽(續(xù))鈸手T/ZSA230—2024表A.1聲音事件標(biāo)簽(續(xù))Fixed-wingaircraft,airplAccelerating,revving,vrLivestock,farmanimals,workingT/ZSA230—2024表A.1聲音事件標(biāo)簽(續(xù))Wildanimals豬馬T/ZSA230—2024表A.1聲音事件標(biāo)簽(續(xù))MechanicalfanT/ZSA230—2024表A.1聲音事件標(biāo)簽(續(xù))鵝Vehiclehorn,carhornT/ZSA230—2024表A.1聲音事件標(biāo)簽(續(xù))Neigh,whinnyBirdflight,flappingwi鼠Woodblock蛇T/ZSA230—2024表A.1聲音事件標(biāo)簽(續(xù))船鑼Powerwindows,electricwinT/ZSA230—2024表A.1聲音事件標(biāo)簽(續(xù))Dentaldrill,dentist'sMusicofLatinAmeriT/ZSA230—2024表A.1聲音事件標(biāo)簽(續(xù))MusicofAfricaMiddleEasternmusicT/ZSA230—2024表情曲線名稱表B.1給出了表情曲線名稱列表。表B.1表情曲線名稱12CTRL_expressions_br3CTRL_expressions_bro4CTRL_expressions_browL5CTRL_expressions_brow6CTRL_expressions_bro7CTRL_expressions_browRai8CTRL_expressions_browRais9CTRL_expressions_eyCTRL_expressions_eyCTRL_expressions_eyeLCTRL_expressions_eyeLiCTRL_expressions_eyCTRL_expressions_eyeCTRL_expressions_eyeSquinCTRL_expressions_eyeSquintCTRL_expressions_eyeCCTRL_expressions_eyeChCTRL_expressions_eyeFaceScCTRL_expressions_eyeFaceScruCTRL_expressions_eyeUppCTRL_expressions_eyeUpperCTRL_expressions_eyeLoweCTRL_expressions_eyeLowerLCTRL_expressions_eyeLowerCTRL_expressions_eyeLowerLiCTRL_expressions_eyCTRL_expressions_eyeLCTRL_expressions_eyeCTRL_expressions_eyeLoCTRL_expressions_eyeLooCTRL_expressions_eyeLoCTRL_expressions_eyeLookCTRL_expressions_eyePCTRL_expressions_eyePuT/ZSA230—2024表B.1表情曲線列表(續(xù))CTRL_expressions_eyePupiCTRL_expressions_eyePupiCTRL_expressions_eyeParallelLookDCTRL_expressions_eyelashCTRL_expressions_eyelasheCTRL_expressions_eyelashCTRL_expressions_eyelashCTRL_expressions_eyelashCTRL_expressions_eyelasheCTRL_expressions_eyelasheCTRL_expressions_eyelashesCTRL_expressions_noCTRL_expressions_nosCTRL_expressions_noseWrinkCTRL_expressions_noseWrinklCTRL_expressions_noseNostrilCTRL_expressions_noseNostrilDCTRL_expressions_noseNostrilCTRL_expressions_noseNostrilDCTRL_expressions_noseNostrilCTRL_expressions_noseNostrilCCTRL_expressions_noseNasolabiaCTRL_expressions_noseNasolabialDCTRL_expressions_mouthChCTRL_expressions_mouthChCTRL_expressions_mouthCCTRL_expressions_mouthChCTRL_expressions_mouthLCTRL_expressions_mouthLCTRL_expressions_mouthLeftCTRL_expressions_moutCTRL_expressions_mouthUpperCTRL_expressions_mouthUpperLCTRL_expressions_mouthLowerLCTRL_expressions_mouthLowerLiCTRL_expressions_mouthCornCTRL_expressions_mouthCornerCTRL_expressions_mouthCTRL_expressions_mouthStCTRL_expressions_mouthStretchLipCTRL_expressions_mouthStretchLipsCTRL_expressions_moutCTRL_expressions_mouthCTRL_expressions_mouthCornerT/ZSA230—2024表B.1表情曲線列表(續(xù))CTRL_expressions_mouthCornerDCTRL_expressions_moCTRL_expressions_mouCTRL_expressions_moCTRL_expressions_mouCTRL_expressions_mouthLiCTRL_expressions_mouthLipCTRL_expressions_mouthLiCTRL_expressions_mouthLipCTRL_expressions_mouthLipsTCTRL_expressions_mouthLipsToCTRL_expressions_mouthLipsTCTRL_expressions_mouthLipsToCTRL_expressions_mouthFCTRL_expressions_mouthFuCTRL_expressions_mouthFCTRL_expressions_mouthFuCTRL_expressions_mouthLipsTCTRL_expressions_mouthLipsToCTRL_expressions_mouthLipsTCTRL_expressions_mouthLipsToCTRL_expressions_mouthUpperLCTRL_expressions_mouthUpperLiCTRL_expressions_mouthLowerCTRL_expressions_mouthLowerLCTRL_expressions_mouthLipsTCTRL_expressions_mouthLipsTiCTRL_expressions_mouthLipsTCTRL_expressions_mouthLipsTiCTRL_expressions_mouthCTRL_expressions_mouthLCTRL_expressions_mouthSharpCornCTRL_expressions_mouthSharpCornerCTRL_expressions_moutCTRL_expressions_mouthStCTRL_expressions_mouthStiCTRL_expressions_mouthStCTRL_expressions_mouthSticCTRL_expressions_moutCTRL_expressions_mouthStCTRL_expressions_mouthStiCTRL_expressions_mouthStCTRL_expressions_mouthSticCTRL_expressions_mouthLipsStiCTRL_expressions_mouthLipsStiCTRL_expressions_mouthLipsStiT/ZSA230—2024表B.1表情曲線列表(續(xù))CTRL_expressions_mouthLipsStiCTRL_expressions_mouthLipsStiCTRL_expressions_mouthLipsStiCTRL_expressions_mouthLipCTRL_expressions_mouthLipsCTRL_expressions_mouthLipCTRL_expressions_mouthLipsCTRL_expressions_mouthLipCTRL_expressions_mouthLipsCTRL_expressions_mouthLipCTRL_expressions_mouthLipsCTRL_expressions_mouthLipCTRL_expressions_mouthLipsTCTRL_expressions_mouthLipCTRL_expressions_mouthLipsTCTRL_expressions_mouthLCTRL_expressions_mouthLipCTRL_expressions_mouthLCTRL_expressions_mouthLipCTRL_expressions_mouthCornerCTRL_expressions_mouthCornerSCTRL_expressions_mouthCornerCTRL_expressions_mouthCornerSCTRL_expressions_mouthCornerRCTRL_expressions_mouthCornerRoCTRL_expressions_mouthCornerRCTRL_expressions_mouthCornerRoCTRL_expressions_mouthUpperLipTowaCTRL_expressions_mouthUpperLipTowardCTRL_expressions_mouthLowerLipTowardCTRL_expressions_mouthLowerLipTowardsTCTRL_expressions_mouthUpperLipShiftLeftCTRL_expressions_mouthUpperLipSCTRL_expressions_mouthLowerLipShiftLeftCTRL_expressions_mouthLowerLipShCTRL_expressions_mouthUpperLipRCTRL_expressions_mouthUpperLipRCTRL_expressions_mouthUpperLipRCTRL_expressions_mouthUpperLipRoCTRL_expressions_mouthLowerLipCTRL_expressions_mouthLowerLipRCTRL_expressions_mouthLowerLipRoCTRL_expressions_mout

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論