版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認(rèn)領(lǐng)
文檔簡介
Q/LB.□XXXXX-XXXX具身智能語料庫建設(shè)導(dǎo)則范圍本文件規(guī)定了建設(shè)具身智能模型訓(xùn)練的泛語言、多模態(tài)語料庫的一般方法。本文件適用于具身智能語料庫的研究、開發(fā)、維護、應(yīng)用、評估等工作。其它與具身智能語料庫建設(shè)相關(guān)的工作也可參照使用。規(guī)范性引用文件下列文件中的內(nèi)容通過文中的規(guī)范性引用而構(gòu)成本文件必不可少的條款。其中,注日期的引用文件,僅該日期對應(yīng)的版本適用于本文件;不注日期的引用文件,其最新版本(包括所有的修改單)適用于本文件。GY/T353-2021網(wǎng)絡(luò)視聽節(jié)目視頻格式命名及參數(shù)規(guī)范T/SAIAS015—2024《語料庫建設(shè)導(dǎo)則》GB/T36073-2018數(shù)據(jù)管理能力成熟度評估模型GB/T4894-2009信息與文獻術(shù)語GY/T360-2022廣播電視和網(wǎng)絡(luò)視聽節(jié)目內(nèi)容標(biāo)識標(biāo)簽規(guī)范GB/T35273-2020信息安全技術(shù)個人信息安全規(guī)范YD/T4245-2023電信網(wǎng)和互聯(lián)網(wǎng)數(shù)據(jù)脫敏技術(shù)要求和測試方法GB/T22239-2019信息安全技術(shù)網(wǎng)絡(luò)安全等級保護基本要求術(shù)語和定義下列術(shù)語和定義適用于本文件。
數(shù)據(jù)資源dataresources以電子化形式記錄和保存的具備原始性、可機器讀取、可供社會化再利用的數(shù)據(jù)集合。
數(shù)據(jù)表征模式datarepresentationmodes計算機中存儲和表達數(shù)據(jù)的形式或結(jié)構(gòu)。
語料corpus語言材料或語言應(yīng)用的樣本。
語料庫corpora由依據(jù)一定抽樣方法收集的自然出現(xiàn)的語料所構(gòu)成的電子數(shù)據(jù)庫。注:是按照一定目的和方法進行選擇并有序排列的數(shù)據(jù)匯集。
模態(tài)modal機器對現(xiàn)實世界信息的感知模式或信息通道,包括數(shù)據(jù)表征模式(例如文本、圖像、語音、視頻、生物和生理信息的數(shù)據(jù)表征)、數(shù)據(jù)采集機制(將每種傳感設(shè)備采集到的數(shù)據(jù)視為一種模態(tài)),以及數(shù)據(jù)特征主體(如對特定主體的局部信息進行數(shù)據(jù)化表征)。
敏感信息sensitiveinformation如果公開或者濫用會造成潛在危害的信息。[來源:GB/T4894-2009,.4,有修改]
脫敏de-identification去除可確認(rèn)個人或組織身份的數(shù)據(jù)與數(shù)據(jù)主體之間聯(lián)系的過程。[來源:ISO/TS25237:2008,3.18]
匿名化數(shù)據(jù)anonymizeddata去除直接涉及數(shù)據(jù)主體的個人或組織數(shù)據(jù)。[來源:GB/T4894-2009,.3,有修改]
主體subject視覺作品中的中心或主要對象,具有代表性、典型性,也是制作者想要傳達的主要信息或情感的載體。
單模態(tài)語料庫mono-modalcorpus收錄音頻、視頻、圖像或文字材料之一種模態(tài)語料的語料庫。多模態(tài)語料庫multi-modalcorpus收錄音頻、視頻、圖像和文字材料等語料,并采用多模態(tài)方式加工、檢索和統(tǒng)計的語料庫。
數(shù)據(jù)片段dataclip以片段形式記錄和保存的具身智能模型訓(xùn)練使用的數(shù)據(jù)集合,一般時長為10s,由100個數(shù)據(jù)時刻組成。
數(shù)據(jù)時刻datatick在同一時刻中,由各相機視頻幀、雷達數(shù)據(jù)、本體數(shù)據(jù)、軌跡導(dǎo)航數(shù)據(jù)組成的多模態(tài)的集合。
模擬仿真平臺基于計算機的系統(tǒng),用于模擬現(xiàn)實世界或想象中的環(huán)境、條件或系統(tǒng)。
具身智能EmbodiedAI
具身智能系統(tǒng)EmbodiedAISystem基于物理身體進行感知和行動的智能系統(tǒng),其通過智能體與環(huán)境的交互獲取信息、理解問題、做出決策并實現(xiàn)行動,從而產(chǎn)生智能行為和適應(yīng)性。注:本標(biāo)準(zhǔn)限定的具身智能本體包括泛人形機器人、仿人機器人、智能機器人等。
點云pointcloud以離散、不規(guī)則方式分布在三維空間中的點的集合??s略語下列縮略語適用于本文件。NSFW不適于工作場所瀏覽(NotSafeForWork,NotSuitableForWork)FOV景深(FieldOfView)SFT有監(jiān)督微調(diào)(SupervisedFine-Tuning)具身智能數(shù)據(jù)要求通則具身智能語料庫,是由一系列數(shù)據(jù)集組成,每個數(shù)據(jù)集是由一系列數(shù)據(jù)片段組合而成,每個數(shù)據(jù)片段是由一系列數(shù)據(jù)時刻組成,每個時刻由所有傳感器在同一時刻產(chǎn)生數(shù)據(jù)的集合。數(shù)據(jù)集具身智能語料庫數(shù)據(jù)集,由一系列數(shù)據(jù)片段的形式存儲,由一系列數(shù)據(jù)片段有序或自由組合而成,適用于具身智能模型訓(xùn)練使用。本文件規(guī)定的數(shù)據(jù)集與數(shù)據(jù)片段關(guān)系如圖1所示。圖1數(shù)據(jù)集與數(shù)據(jù)片段關(guān)系數(shù)據(jù)片段本文件規(guī)定的數(shù)據(jù)片段由連續(xù)的若干個數(shù)據(jù)時刻組成。本文件所定義的數(shù)據(jù)片段與數(shù)據(jù)時刻的關(guān)系如圖2所示。圖2數(shù)據(jù)片段與數(shù)據(jù)時刻的關(guān)系數(shù)據(jù)時刻本文件規(guī)定的數(shù)據(jù)時刻內(nèi)容包含同一時刻的視頻數(shù)據(jù)、雷達數(shù)據(jù)、軌跡導(dǎo)航數(shù)據(jù)以及本體數(shù)據(jù),每一個數(shù)據(jù)時刻是時空同步的。按每秒10幀為例,一個數(shù)據(jù)時刻是在1幀內(nèi)所有傳感器數(shù)據(jù)的集合,即所有傳感器在100毫秒(ms)內(nèi)產(chǎn)生數(shù)據(jù)的集合。本文件所定義的數(shù)據(jù)時刻內(nèi)容包括以下數(shù)據(jù)類型:(a)相機數(shù)據(jù):指的是各相機數(shù)據(jù);(b)雷達數(shù)據(jù):指的是激光雷達數(shù)據(jù)、毫米波雷達數(shù)據(jù)、超聲波等大數(shù)據(jù)等;(c)導(dǎo)航數(shù)據(jù):指的是GPS、地圖數(shù)據(jù)、GNSS數(shù)據(jù)、IMU數(shù)據(jù)等;(d)本體數(shù)據(jù):指的是本體狀態(tài)數(shù)據(jù)、控制命令數(shù)據(jù)、本體動態(tài)數(shù)據(jù)等;(e)標(biāo)注數(shù)據(jù):文本標(biāo)注數(shù)據(jù)、圖像標(biāo)注數(shù)據(jù)、音頻標(biāo)注數(shù)據(jù)等;(f)合成數(shù)據(jù):指的是通過仿真平臺合成的數(shù)據(jù)。(g)其他數(shù)據(jù):傳感器標(biāo)定數(shù)據(jù)、文本數(shù)據(jù)、音頻數(shù)據(jù)等;采集數(shù)據(jù)資源要求一般要求作為具身智能語料庫素材的數(shù)據(jù)資源應(yīng)滿足以下一般要求:(a)數(shù)據(jù)模態(tài):數(shù)據(jù)資源具備多模態(tài)要求,并能涵蓋多模態(tài)傳感數(shù)據(jù);(b)數(shù)據(jù)同步性:數(shù)據(jù)資源應(yīng)具備同步性,多模態(tài)多傳感器數(shù)據(jù)的開始時間與結(jié)束時間是一致的,保持時空同步性;(c)數(shù)據(jù)多樣性:數(shù)據(jù)資源來自多區(qū)域多場景全時空數(shù)據(jù);(d)數(shù)據(jù)規(guī)模:數(shù)據(jù)資源具有足夠的規(guī)模,能支撐模型訓(xùn)練后有較好的泛化性;(e)數(shù)據(jù)密級:作為承載數(shù)據(jù)資源的最小單位的文件不設(shè)置對其內(nèi)容操作的權(quán)限控制;(f)數(shù)據(jù)質(zhì)量:數(shù)據(jù)資源具有高質(zhì)量和可靠性,并不含不適宜的內(nèi)容。數(shù)據(jù)資源要求具身智能數(shù)據(jù)資源包括視頻數(shù)據(jù)、雷達數(shù)據(jù)、音頻數(shù)據(jù)、本體數(shù)據(jù)和軌跡導(dǎo)航數(shù)據(jù),具備多模態(tài)要求,符合以下指標(biāo)和要求。視頻數(shù)據(jù)視頻表征的數(shù)據(jù),簡稱視頻數(shù)據(jù),是以一系列序列幀的形式存儲,每個幀可以是圖像表征,適用于視頻內(nèi)容的存儲和處理。本文件所定義的具身智能視頻類型如表1所述。視頻數(shù)據(jù)的指標(biāo)和要求序號指標(biāo)或(和)要求說明1視頻類型見表22數(shù)據(jù)資源內(nèi)容視頻及對應(yīng)文字說明或視頻介紹,如拍攝地點、時間、設(shè)備、照明條件、天氣條件、環(huán)境條件等信息3視頻分辨率宜1080P(1920x1080像素)及以上4視頻幀率25~30幀/秒5單一視頻時間長度10秒及以上6視頻文件格式MP4/AVI/YUV/H264等7視頻驗收標(biāo)準(zhǔn)除清晰外,對視頻素材的隨機抽樣中,應(yīng)有80%包含主體(不含主體的視頻素材示例,包括但不限于航拍、延時風(fēng)景攝影等)視頻數(shù)據(jù)來自本體頭部、胸口、左右手臂末端、第三方視角攝像頭的視頻序列,用于物體檢測、語義分割、環(huán)境檢測、場景設(shè)施識別等。本文件規(guī)定攝像頭視頻數(shù)據(jù)分類及說明見表2。視頻數(shù)據(jù)分類表序號類型說明1頭部視頻主要指頭部攝像頭采集的視頻數(shù)據(jù)2胸口視頻主要指胸口攝像頭采集的視頻數(shù)據(jù)3左右手臂
末端視頻主要指左右手臂末端攝像頭采集的操作目標(biāo)近景視頻數(shù)據(jù)4第三方視角視頻主要指從第三方視角采集的視頻數(shù)據(jù)5紅外視頻主要指使用紅外攝像頭拍攝,適用于夜間或光線不足的環(huán)境6立體視頻主要指采用兩個或以上的攝像頭從不同角度拍攝,用于深度感知和3D建模視頻數(shù)據(jù)還包含的天氣條件、照明條件和場景類型等數(shù)據(jù)語義特征,具身智能數(shù)據(jù)語義特征見表3。視頻數(shù)據(jù)語義特征表序號類型說明1天氣主要包括晴朗、多云、陰天、雨天、霧天、雪天、沙塵暴、雷電2時間主要包括白天、夜晚、黎明、黃昏3光照主要包括光線較好、光線較弱、黑暗、過曝/眩光、大面積陰影、反射虛影4場景主要包括工廠、家居、辦公室、醫(yī)院、學(xué)校、商超、開放道路等。相機視角與具身智能數(shù)據(jù)集保持一致,多個視角內(nèi)的目標(biāo)可追蹤,保持特征一致。雷達數(shù)據(jù)本文件規(guī)定的雷達數(shù)據(jù)包括激光點云數(shù)據(jù)和毫米波數(shù)據(jù)。激光點云表征的數(shù)據(jù),簡稱點云數(shù)據(jù),是一種通過雷達系統(tǒng)獲取的三維空間信息集合,通過發(fā)射激光束并接受反射回來的信號,精確測量物理的距離、形狀和位置,構(gòu)建三維環(huán)境模型。本文件所定義的激光點云數(shù)據(jù)的指標(biāo)和要求如表4所述。激光點云數(shù)據(jù)的指標(biāo)和要求序號指標(biāo)或(和)要求說明1分辨率宜達到車規(guī)級激光雷達的行業(yè)標(biāo)準(zhǔn)2精度在±2厘米3點云密度宜每平方米90個點及以上,均勻分布4檢測范圍宜30米及以上5幀率宜10Hz及以上6動態(tài)范圍10厘米-100米7數(shù)據(jù)資源說明點云數(shù)據(jù)及對應(yīng)文字說明或介紹8噪聲水平距離誤差±2-3厘米,角度誤差0.01度到1度,時間同步誤差10微秒9單一點云數(shù)據(jù)大小50MB及以上10文件格式PCD/LAS/XYZ11驗收標(biāo)準(zhǔn)除清晰外,對素材的隨機抽樣中,應(yīng)點數(shù)足夠,分布均勻,且精度誤差小,噪聲水平低相關(guān)激光點云數(shù)據(jù)需滿足以上指標(biāo)和要求,如出現(xiàn)以下情形,則不適合作為激光點云數(shù)據(jù),詳見表5。不適合作為點云數(shù)據(jù)資源的情形序號情形說明1數(shù)據(jù)不完整主要指缺少關(guān)鍵區(qū)域的點,如目標(biāo)物體、環(huán)境設(shè)備2分辨率過低主要是指點云過于稀疏,無法捕捉物體細(xì)節(jié)3精度不高主要是指點的位置信息誤差大4噪聲過多主要指包含大量錯誤或異常值5同步性差主要指多傳感器數(shù)據(jù)無法準(zhǔn)確同步6動態(tài)范圍小主要指無法覆蓋遠近距離的物體7反射強度不一致主要指反射強度信息不穩(wěn)定或不可靠8光照影響大主要指強光或逆光條件下產(chǎn)生陰影或反射9天氣影響嚴(yán)重主要指雨、雪、霧等惡劣天氣條件下的數(shù)據(jù)10遮擋嚴(yán)重主要指其他物體遮擋無法獲取完整目標(biāo)物體視角11數(shù)據(jù)過時主要指與當(dāng)前環(huán)境變化較大,無法反映當(dāng)前場景12法律和隱私問題主要是指包含敏感信息,如車牌號、人臉等13冗余數(shù)據(jù)主要指大量重復(fù)或非常相似的數(shù)據(jù)毫米波數(shù)據(jù),擅長測量目標(biāo)的距離和速度,對金屬物理比較敏感,在惡劣環(huán)境下也能較好工作。本文件規(guī)定的毫米波數(shù)據(jù)資源的指標(biāo)和要求如表6所述。毫米波數(shù)據(jù)的指標(biāo)和要求序號指標(biāo)或(和)要求說明1頻率范圍宜76GHz及以上2檢測范圍宜30米及以上3角分辨率±0.5°(長距離)/±1°(中距離)4距離分辨率宜0.1米及以上5速度分辨率宜0.1米/秒6更新率宜20Hz及以上7調(diào)制方式FMCW8檢測精度距離:±0.05m,角度:±0.5°,速度:±0.1m/s9文件格式支持CAN/Ethernet等通信協(xié)議10驗收標(biāo)準(zhǔn)除清晰外,對素材的隨機抽樣中,分辨率達標(biāo),應(yīng)有80%包含主體。音頻數(shù)據(jù)聲音表征的數(shù)據(jù),簡稱音頻數(shù)據(jù),是以聲音波形的形式存儲,通常以采樣率和位深來表征聲音信號。本文件所處理音頻數(shù)據(jù)資源(或可再加工音頻數(shù)據(jù)產(chǎn)品)的指標(biāo)和要求如表7所述。音頻數(shù)據(jù)的指標(biāo)和要求序號指標(biāo)或(和)要求標(biāo)準(zhǔn)1語種漢語(普通話、粵語、滬語等)、英語(英國、美國)、阿拉伯語、俄語、日語2主題領(lǐng)域參照《廣播電視和網(wǎng)絡(luò)視聽節(jié)目內(nèi)容標(biāo)識標(biāo)簽規(guī)范》(GY/T360-2022)中的“內(nèi)容類內(nèi)容特征子類別規(guī)范詞”3數(shù)據(jù)資源內(nèi)容音頻及對應(yīng)文字說明或音頻介紹4音頻采樣率不小于44.1KHz5通道數(shù)雙聲道/單聲道(由原始資料特性決定)6單一音頻時間長度60秒及以上7量化精度不低于16位8音頻文件格式WAV9音頻驗收標(biāo)準(zhǔn)對音頻素材的隨機抽樣中,應(yīng)有95%不存在表8中所述情況相關(guān)的音頻技術(shù)指標(biāo)應(yīng)符合《網(wǎng)絡(luò)視聽節(jié)目視頻格式命名及參數(shù)規(guī)范》(GY/T353-2021)的規(guī)定。如果音頻數(shù)據(jù)資源中包含了資源特征性描述的,相關(guān)的標(biāo)識和(或)標(biāo)簽則應(yīng)滿足《廣播電視和網(wǎng)絡(luò)視聽節(jié)目內(nèi)容標(biāo)識標(biāo)簽規(guī)范》(GY/T360-2022)的要求。音頻數(shù)據(jù)需滿足以上指標(biāo)和要求,如出現(xiàn)以下情形,則不適合作為音頻數(shù)據(jù),詳見表8。不適合作為音頻數(shù)據(jù)資源的情形序號情形說明1文件噪音不合格整段音頻伴有嚴(yán)重的噪音2文件內(nèi)容不合格音頻文件不包含目標(biāo)類別的音頻或含有誤導(dǎo)性信息的音頻3其它不合格回音很大、過載嚴(yán)重本體數(shù)據(jù)本文件規(guī)定的本體數(shù)據(jù)包括本體狀態(tài)數(shù)據(jù)、控制命令、診斷數(shù)據(jù)、本體動態(tài)數(shù)據(jù)以及傳感器標(biāo)定數(shù)據(jù)。本文件規(guī)定的本體數(shù)據(jù)資源的指標(biāo)和要求如表9所述。本體資源指標(biāo)和要求序號指標(biāo)或(和)要求說明1類別詳見表142數(shù)據(jù)資源內(nèi)容本體數(shù)據(jù)及對應(yīng)文字說明3格式JSON或數(shù)據(jù)庫4驗收標(biāo)準(zhǔn)本體數(shù)據(jù)需準(zhǔn)確,包含時間數(shù)據(jù),且與視頻數(shù)據(jù)保持時空一致性本文件規(guī)定的本體信息數(shù)據(jù)資源分類及說明見表10。本體信息數(shù)據(jù)資源分類表序號類型說明1本體狀態(tài)數(shù)據(jù)主要包括啟動/關(guān)閉、傳感器健康狀態(tài)2控制命令主要包括轉(zhuǎn)向、加速、制動、運動3診斷信息主要包括本體故障代碼和診斷信息4本體動態(tài)數(shù)據(jù)主要包括速度、加速度、轉(zhuǎn)向角度、制動力度、橫向加速度、縱向加速度、輪速、本體位置、傾角、本體各關(guān)節(jié)電機功率傳感器標(biāo)定數(shù)據(jù)在具身智能訓(xùn)練中能夠誤差校正,坐標(biāo)系統(tǒng)統(tǒng)一以及確保不同傳感器之間的數(shù)據(jù)關(guān)聯(lián)性使傳感器融合,提高具身智能整體性能。本文件規(guī)定的傳感器標(biāo)定數(shù)據(jù)資源指標(biāo)和要求如表11所述。傳感器標(biāo)定數(shù)據(jù)指標(biāo)和標(biāo)準(zhǔn)序號指標(biāo)或(和)要求說明1常見信息相機內(nèi)參、相機外參、激光外參、毫米波外參、INS的內(nèi)參、INS的外參等2參數(shù)要求參數(shù)需要與對應(yīng)本體一一綁定,且定期重新標(biāo)定進行維護3數(shù)據(jù)資源內(nèi)容傳感器標(biāo)定數(shù)據(jù)及對應(yīng)文字說明4格式JSON或采集數(shù)據(jù)包中5驗收標(biāo)準(zhǔn)根據(jù)各傳感器參數(shù),通過采集數(shù)據(jù)進行投影,根據(jù)重疊效果判斷標(biāo)定準(zhǔn)確度軌跡導(dǎo)航數(shù)據(jù)本文件規(guī)定的軌跡導(dǎo)航數(shù)據(jù)包括定位數(shù)據(jù)、軌跡數(shù)據(jù)等。軌跡導(dǎo)航數(shù)據(jù)的指標(biāo)和要求如表12所述。軌跡導(dǎo)航數(shù)據(jù)資源指標(biāo)和要求序號指標(biāo)或(和)要求說明1類別詳見表132數(shù)據(jù)資源內(nèi)容軌跡導(dǎo)航數(shù)據(jù)及對應(yīng)文字說明3格式JSON或采集數(shù)據(jù)包4驗收標(biāo)準(zhǔn)定位精度符合傳感器精度標(biāo)準(zhǔn),包含時間數(shù)據(jù),且與視頻數(shù)據(jù)保持時空一致性本文件規(guī)定的軌跡導(dǎo)航數(shù)據(jù)資源分類見表13。軌跡導(dǎo)航數(shù)據(jù)資源分類序號類型說明1定位數(shù)據(jù)GPS主要包括定位精度、定位連續(xù)性、時間戳同步2IMU主要包括角速度零偏穩(wěn)定性、加速度零偏穩(wěn)定性、時間戳同步3軌跡數(shù)據(jù)軌跡點主要包括位置精度、速度精度、時間戳同步4軌跡預(yù)測主要包括預(yù)測時間范圍、預(yù)測頻率、預(yù)測精度(如minADE、minFDE)數(shù)據(jù)信息存儲格式傳感器標(biāo)定信息格式數(shù)據(jù)采集傳感器標(biāo)定的信息應(yīng)包含:(a)傳感器設(shè)備序列號及名稱;(b)傳感器的類型及數(shù)量;(c)傳感器采集頻率;(d)傳感器內(nèi)外參數(shù)。元數(shù)據(jù)格式采集的元數(shù)據(jù)應(yīng)包含以下信息:——通用數(shù)據(jù): ——時間戳; ——唯一ID;——本體數(shù)據(jù):——類型;——關(guān)節(jié)位姿數(shù)據(jù);——相機傳感器數(shù)據(jù):——彩色圖像數(shù)據(jù);——深度圖像數(shù)據(jù);——采樣頻率;——圖像尺寸?!走_傳感器數(shù)據(jù):——采集范圍;——采集精度;——采樣頻率?!|覺傳感器數(shù)據(jù):——靈敏度;——分辨率;——響應(yīng)時間?!纛l傳感器數(shù)據(jù);——力覺傳感器數(shù)據(jù);——嗅覺傳感器數(shù)據(jù);采集環(huán)境信息(如場景布局、地點、設(shè)備/道具布置情況等);采集任務(wù)描述信息(如文字指令和對話信息)。元數(shù)據(jù)組幀格式元數(shù)據(jù)組幀對齊后應(yīng)包含:(a)幀索引序列;(b)傳感器數(shù)據(jù)序列;(c)本體數(shù)據(jù)序列。具身智能數(shù)據(jù)采集要求采集條件通則本章規(guī)定了對數(shù)據(jù)資源的采集進行描述的規(guī)范性要求。這些要求將對這些數(shù)據(jù)的采集方的采集介質(zhì)、采集行為提供指導(dǎo)性意見,以便對數(shù)據(jù)進行統(tǒng)一標(biāo)準(zhǔn)。采集本體標(biāo)準(zhǔn)本節(jié)規(guī)定了采集本體的基本配置要求,這些要求將幫助采集方有效改裝采集本體,保障采集數(shù)據(jù)一致性。本文件規(guī)定的采集本體的相機數(shù)量為常見數(shù)量,即5個FOV相機,具體可根據(jù)實際采集需要加裝。采集樣本硬件要求詳見表14。采集本體硬件要求序號硬件組件關(guān)鍵參數(shù)安裝位置1頭部相機1顆FOV30@8MP+,1顆FOV100+@8MP+頭部2胸口相機1顆
FOV100@2.3MP+胸口3左右手臂末端相機2顆
FOV100@2.3MP+左右手4第三方視角相機1顆
FOV195@1.2MP+第三方5存儲系統(tǒng)支持全量滿帶寬數(shù)據(jù)存儲,每臺配備4T固態(tài)移動硬盤與操控系統(tǒng)算力、帶寬不共用采集本體軟件要求詳見表15。采集本體軟件要求序號軟件標(biāo)準(zhǔn)描述1多模態(tài)傳感器同步支持多模態(tài)傳感器時間同步與空間同步2全量滿帶寬數(shù)據(jù)存儲支持全量滿帶寬數(shù)據(jù)存儲3OTA軟件策略更新支持通過OTA進行軟件策略更新合成數(shù)據(jù)通則本文件規(guī)定合成數(shù)據(jù)是一種虛擬的數(shù)據(jù),主要通過基于世界模型的模擬仿真平臺等工具生成的數(shù)據(jù)。合成數(shù)據(jù)要求為了確保仿真合成數(shù)據(jù)的有效性和適用性,必須滿足以下要求:(a)高保真度:仿真環(huán)境應(yīng)盡量模擬現(xiàn)實世界中的物理和視覺特性,保證數(shù)據(jù)的真實性和準(zhǔn)確性。(b)多樣性:合成數(shù)據(jù)應(yīng)包含不同場景、多種任務(wù)和多種傳感器數(shù)據(jù),以確保模型的泛化能力。(c)可重復(fù)性:仿真數(shù)據(jù)生成應(yīng)可重復(fù),允許在相同條件下生成一致的數(shù)據(jù)集。(d)同步性:多傳感器采集的數(shù)據(jù)應(yīng)嚴(yán)格保持時間同步,特別是在多模態(tài)數(shù)據(jù)(如圖像、深度、雷達、IMU)融合時,時間戳精度應(yīng)足夠高。(e)標(biāo)準(zhǔn)化格式:所有數(shù)據(jù)應(yīng)符合預(yù)定的標(biāo)準(zhǔn)格式,以便于存儲、共享和分析。(f)隨機化控制:為了增強數(shù)據(jù)的魯棒性,合成數(shù)據(jù)應(yīng)進行隨機化處理,包括視覺隨機化(如光照、材質(zhì)等)和物理隨機化(如摩擦、重力等),以模擬不同環(huán)境下的變化。合成數(shù)據(jù)生成方式仿真合成數(shù)據(jù)生成包括以下步驟:(a)場景構(gòu)建:使用3D數(shù)字孿生技術(shù)對真實場景進行虛擬化,構(gòu)建高度逼真的仿真場景。場景的視覺和物理特性應(yīng)根據(jù)應(yīng)用場景需求進行細(xì)致建模。(b)任務(wù)設(shè)計:機器人在場景中執(zhí)行多種任務(wù)(如抓取、移動、操作等),通過仿真平臺模擬這些任務(wù),并生成對應(yīng)的動作和感知數(shù)據(jù)。(c)多傳感器采集:通過機器人內(nèi)部和外部的多種傳感器(如RGB相機、深度傳感器、激光雷達等)同步采集數(shù)據(jù)。確保傳感器數(shù)據(jù)的時間同步性,尤其在多模態(tài)融合時,數(shù)據(jù)采集頻率需保持一致。(d)數(shù)據(jù)隨機化:通過視覺和物理屬性的隨機化,生成多樣化的數(shù)據(jù)集,以增加模型的魯棒性和泛化能力。視覺隨機化涉及材質(zhì)、光照、視角等,物理隨機化處理摩擦、重力等。(e)數(shù)據(jù)處理與存儲:所有采集的數(shù)據(jù)應(yīng)經(jīng)過適當(dāng)?shù)念A(yù)處理,包括去噪、時間同步等步驟,隨后以規(guī)定格式存儲。文件名和目錄結(jié)構(gòu)應(yīng)明確標(biāo)識場景、時間和數(shù)據(jù)類型。合成數(shù)據(jù)用途仿真合成數(shù)據(jù)在具身智能系統(tǒng)中的應(yīng)用場景廣泛,主要包括以下幾個方面:(a)數(shù)據(jù)泛化仿真數(shù)據(jù)通過物品泛化和場景泛化來模擬各種現(xiàn)實環(huán)境中的變化情況。通過引入不同的物體類型、材質(zhì)、大小、位置以及各種場景屬性(如光照、天氣、地形等),仿真數(shù)據(jù)能夠為模型提供更豐富的訓(xùn)練樣本,確保模型在實際應(yīng)用中具備更強的適應(yīng)性和泛化能力。例如,模型可以在虛擬環(huán)境中學(xué)會處理不同形狀和尺寸的物體,從而在真實場景中也能表現(xiàn)良好。(b)極端情況(CornerCase)生成解決現(xiàn)實世界中極端情況(如罕見的物體交互、復(fù)雜的光照或極端天氣等)的采集難題。仿真平臺能夠生成大量極端情況數(shù)據(jù),這些情況在真實環(huán)境中難以捕捉,但卻是模型泛化和魯棒性的重要測試場景。通過系統(tǒng)地生成這些難以采集的極端案例,模型能夠更好地處理特殊或意外的情境,從而在多變和復(fù)雜的環(huán)境中表現(xiàn)得更加可靠。(c)跨傳感器/本體數(shù)據(jù)遷移仿真合成數(shù)據(jù)的另一個重要用途是跨傳感器和跨本體的數(shù)據(jù)遷移。通過充分利用已有數(shù)據(jù),模型可以在不同的傳感器數(shù)據(jù)之間進行遷移學(xué)習(xí),避免重復(fù)采集數(shù)據(jù)。例如,通過在仿真環(huán)境中生成的RGB圖像、深度圖像、IMU數(shù)據(jù)等,模型能夠?qū)W會在不同傳感器輸入下進行任務(wù)操作。這種遷移機制減少了實際傳感器配置下的數(shù)據(jù)采集成本,并且通過多模態(tài)數(shù)據(jù)的融合提升了模型的性能。數(shù)據(jù)資源提交方式數(shù)據(jù)文件標(biāo)識數(shù)據(jù)(資源)文件應(yīng)通過文件名稱來進行標(biāo)識,其命名規(guī)則為:(a)文件名稱=文件名+文件擴展名;(b)命名通常不要含有中?字符和不合法字符等;(c)在后續(xù)使?過程中不能對數(shù)據(jù)集進?重命名,否則會造成數(shù)據(jù)?法回溯的問題,導(dǎo)致數(shù)據(jù)丟失。數(shù)據(jù)資源的提交方式本文件數(shù)據(jù)資源提交方式應(yīng)滿足《語料庫建設(shè)導(dǎo)則》(T/SAIAS015—2024)中數(shù)據(jù)資源提交方式要求。實體存儲介質(zhì)實體存儲介質(zhì)方式是指將數(shù)據(jù)資源文件按一定的格式和組織形式(如壓縮)存入實體存儲介質(zhì)后進行的數(shù)據(jù)交換方式。本文件附錄B提供了這種提交方式的一種參考實現(xiàn)。云盤傳輸云盤傳輸方式是指將數(shù)據(jù)資源文件按一定的格式和組織形式(如壓縮)后通過公有或私有云盤轉(zhuǎn)儲所實施的數(shù)據(jù)交換方式。本文件附錄C提供了這種提交方式的一種參考實現(xiàn)。直連在線直連在線方式是指數(shù)據(jù)資源供給和接收雙方通過光纖專線點對點進行數(shù)據(jù)傳輸。這一方式具有較高的安全性和可靠性。如選擇該傳輸方式,所需帶寬宜按以下公式進行計算: 文本數(shù)據(jù)(集)所占總文件長度(MB)*8*3600/擬完成傳輸?shù)拈g(s)=所需帶寬(Mb/s) 本文件對采用“直連在線”方式所涉及的數(shù)據(jù)加密方式不作具體規(guī)定。數(shù)據(jù)空間數(shù)據(jù)空間是互相信任的合作伙伴之間的數(shù)據(jù)關(guān)系,每一方都對其數(shù)據(jù)的存儲和共享適用相同的高標(biāo)準(zhǔn)和規(guī)則。在數(shù)據(jù)空間中,數(shù)據(jù)不是集中存儲,而是存儲數(shù)據(jù)來源,因此只有在必要時才會(通過語義互操作性)共享數(shù)據(jù)。數(shù)據(jù)空間是數(shù)據(jù)資產(chǎn)化的有效工具體系,本文件將在后續(xù)的版本中提供參考實現(xiàn)。方式的選擇數(shù)據(jù)資源的提交方式應(yīng)在實體存儲介質(zhì)(如硬盤)、云盤、直連在線、數(shù)據(jù)空間這四種數(shù)據(jù)資源提交方式中選定一種方式來實施具體的數(shù)字資源交付。具身智能數(shù)據(jù)生產(chǎn)要求資源數(shù)據(jù)的統(tǒng)一性和完整性檢查在用于語料生產(chǎn)的所有資源數(shù)據(jù)存入資源數(shù)據(jù)庫前,應(yīng)按以下過程檢查其格式的統(tǒng)一性和數(shù)據(jù)的完整性:(a)步驟一:所有資源數(shù)據(jù)應(yīng)以5.5.2中所規(guī)定各數(shù)據(jù)表征模式的文件格式之一的形式存在。如承載資源數(shù)據(jù)的文件不是對應(yīng)數(shù)據(jù)表征模式的規(guī)定格式之一的,需采取合適的措施實現(xiàn)資源數(shù)據(jù)文件格式的轉(zhuǎn)換。(b)步驟二:對每一個文件進行一次打開操作,在確認(rèn)打開成功后再執(zhí)行下一步;否則,將拋棄該文件。(c)步驟三:將資源數(shù)據(jù)以對象方式存入資源數(shù)據(jù)庫。注:資源數(shù)據(jù)的統(tǒng)一性和完整性檢查的重要性在于,能避免因數(shù)據(jù)解碼失敗而導(dǎo)致訓(xùn)練崩潰現(xiàn)象的出現(xiàn)。數(shù)據(jù)資源清洗過程主要流程本文件規(guī)定的具身智能數(shù)據(jù)資源清洗過程的主要流程包括數(shù)據(jù)規(guī)范管理、數(shù)據(jù)整理分類、數(shù)據(jù)脫敏、數(shù)據(jù)去噪、數(shù)據(jù)去重、數(shù)據(jù)存儲與備份等。本文件規(guī)定的具身智能語料數(shù)據(jù)資源包括現(xiàn)實世界采集的真實數(shù)據(jù)、合成的虛擬數(shù)據(jù),以及二者相結(jié)合的虛實數(shù)據(jù)。數(shù)據(jù)規(guī)范管理“數(shù)據(jù)規(guī)范管理”操作宜包含以下步驟:(a)步驟一:統(tǒng)一命名,所有的數(shù)據(jù)資源需根據(jù)5.5.2中所規(guī)定的文件標(biāo)識進行統(tǒng)一命名;(b)步驟二:統(tǒng)一格式,所有資源數(shù)據(jù)應(yīng)以5.5.2中所規(guī)定各數(shù)據(jù)表征模式的文件格式之一的形式存在。數(shù)據(jù)整理分類數(shù)據(jù)整理分類主要是對所有資源數(shù)據(jù)以6.2.2中所規(guī)定各數(shù)據(jù)表征模式進行整理和分類。數(shù)據(jù)脫密脫敏數(shù)據(jù)脫敏主要是對所有數(shù)據(jù)資源進行脫密脫敏處理,宜包含以下步驟:(a)步驟一:將關(guān)鍵幀發(fā)到NSFW模型中,模型會返回0或1:0=NOTEQUALNSFW1=NSFW(b)步驟二:將返回值記錄至對應(yīng)關(guān)鍵幀文本中,如標(biāo)記為0則通過,如標(biāo)記為1則進入人工復(fù)核。數(shù)據(jù)去噪數(shù)據(jù)去噪主要是對所有數(shù)據(jù)資源進行去噪處理,應(yīng)將?件損壞、圖像不完整、畸變過?且?法處理等無法使用的數(shù)據(jù)去除。數(shù)據(jù)去重數(shù)據(jù)去重主要是對數(shù)據(jù)進行查重處理,應(yīng)將重復(fù)的數(shù)據(jù)刪除。數(shù)據(jù)存儲與備份數(shù)據(jù)存儲與備份主要是數(shù)據(jù)整理完畢后及時對數(shù)據(jù)進行存儲與備份,應(yīng)遵循一式多份且多個地方存儲。數(shù)據(jù)資源標(biāo)注過程標(biāo)注任務(wù)制定任務(wù)制定主要是制定具身智能數(shù)據(jù)資源標(biāo)注,應(yīng)包含任務(wù)解決的問題,重點標(biāo)注的屬性信息,以及標(biāo)注的注意事項等。數(shù)據(jù)標(biāo)注基本原則在具身智能使用數(shù)據(jù)資源進行標(biāo)注時,應(yīng)按照以下過程檢查數(shù)據(jù)是否遵循基本原則:(a)步驟一:所有數(shù)據(jù)資源應(yīng)以時間同步和空間同步進行數(shù)據(jù)同步,如不同傳感器(如攝像頭、激光雷達、IMU)的數(shù)據(jù)在時間上是同步的以及不同傳感器的數(shù)據(jù)在空間坐標(biāo)系中是對齊的;(b)步驟二:目標(biāo)框宜以矩形框表示;(c)步驟三:標(biāo)注類別應(yīng)以標(biāo)準(zhǔn)分類體系統(tǒng)一,如物品、車輛、行人、標(biāo)志等;(d)步驟四:標(biāo)注屬性根據(jù)不同的標(biāo)注類別進行定義,如物品的顏色、行人的前進方向等。定義坐標(biāo)系具身智能中坐標(biāo)系定義為四種,分別為雷達坐標(biāo)系、相機坐標(biāo)系、本體坐標(biāo)系及全局坐標(biāo)系,場用定義和作用如表16所述:具身智能訓(xùn)練中定義的坐標(biāo)系類型序號坐標(biāo)系類型原點位置X軸方向Y軸方向Z軸方向作用1本體坐標(biāo)系本體后軸中心或前軸中心本體前方本體左側(cè)指向天空主要用于獲取本體運動狀態(tài)、相對位置2相機坐標(biāo)系圖像中心或相機鏡頭中心圖像右側(cè)圖像下方指向相機內(nèi)部主要用于2D圖像處理、目標(biāo)檢測3全局坐標(biāo)系定義的固定點,如場景設(shè)備北方東方指向天空主要用于本體導(dǎo)航、路徑規(guī)劃4雷達坐標(biāo)系圖像中心或雷達鏡頭中心圖像右側(cè)圖像下方指向雷達內(nèi)部主要用于三維空間信息收集標(biāo)注方法關(guān)鍵點標(biāo)注關(guān)鍵點標(biāo)注是指將需要標(biāo)注的元素按照需求位置進行點位標(biāo)識,從而實現(xiàn)關(guān)鍵點的識別,并由若干關(guān)鍵點的集合形成具體應(yīng)用所需的語義功能標(biāo)識。標(biāo)注框標(biāo)注標(biāo)注框標(biāo)注是一種對目標(biāo)對象進行標(biāo)注的簡單處理方式。在標(biāo)注框標(biāo)注的幫助下,使模型通過訓(xùn)練能夠檢測或識別出所需的目標(biāo)對象。例如,在具身智能訓(xùn)練中,需通過標(biāo)注框?qū)⑽锲返奈恢么_定下來再進行后續(xù)的動作操作??驑?biāo)注包括矩形標(biāo)注、自由矩形標(biāo)注、3D框標(biāo)注,四邊形標(biāo)注和不規(guī)則框標(biāo)注等。區(qū)域標(biāo)注區(qū)域標(biāo)注指是指將圖像分成各具特性的區(qū)域并提取出感興趣部分的過程。區(qū)域標(biāo)注包括開區(qū)域標(biāo)注和閉區(qū)間標(biāo)注。區(qū)域標(biāo)注需同時滿足均勻性和連通性的條件,其中均勻性指的是該區(qū)域中的所有像素點都滿足灰度、紋理、彩色等特征的某種相似性準(zhǔn)則;連通性是指在該區(qū)域內(nèi)存在的鏈接任意兩點的路徑。與矩形框標(biāo)注相比,其區(qū)域要求標(biāo)注更加精確,標(biāo)注邊緣可以是多邊形甚至是柔性的。屬性標(biāo)注屬性標(biāo)注就是用一個或多個標(biāo)簽標(biāo)注目標(biāo)對象的屬性。注:對具體應(yīng)用而言,可在標(biāo)注文件的元數(shù)據(jù)部分來申明所用的這些標(biāo)簽,這些標(biāo)簽必須是一個封閉的集合。關(guān)鍵幀標(biāo)注關(guān)鍵幀標(biāo)注就是對視頻、點云數(shù)據(jù)中具有關(guān)鍵動作意義的幀進行屬性、區(qū)域等內(nèi)容的文本標(biāo)注。數(shù)據(jù)安全安全原則語料產(chǎn)品數(shù)據(jù)的提供方應(yīng)在組織、人員、制度、平臺等方面實施安全策略、執(zhí)行覆蓋資源數(shù)據(jù)和語料產(chǎn)品全生命周期的安全控制措施。安全性評價語料產(chǎn)品的數(shù)據(jù)采集、加工、測試和提供的全過程應(yīng)進行安全性評價,至少應(yīng)執(zhí)行以下要求:(a)應(yīng)采取必要和合適的方法確保所涉及數(shù)據(jù),不涉及各類秘密、隱私等敏感或違法的信息,未受到蓄意偽造、篡改等行為造成的數(shù)據(jù)污染,僅暴露在合同或其它強制性規(guī)定所明確界定的范圍內(nèi);(b)涉及個人信息的,應(yīng)執(zhí)行并滿足GB/T35273-2020的相關(guān)規(guī)定。(c)執(zhí)行并滿足《數(shù)據(jù)安全風(fēng)險評估方法》、《電信網(wǎng)和互聯(lián)網(wǎng)數(shù)據(jù)脫敏技術(shù)要求和測試方法》(YD/T4245-2023)等的相關(guān)規(guī)定。制度要求語料產(chǎn)品的數(shù)據(jù)采集、加工、測試和提供的全過程應(yīng)建立至少以下這些制度:(a)數(shù)據(jù)管理規(guī)范:其內(nèi)容應(yīng)覆蓋上述語料生產(chǎn)的全過程,明確針對數(shù)據(jù)準(zhǔn)備、數(shù)據(jù)處理、數(shù)據(jù)交付等不同階段的數(shù)據(jù)存儲空間和訪問控制,并載明不定期組織內(nèi)部審查的方案;(b)訪問控制及權(quán)限管理制度:實施物理的身份驗證和授權(quán)機制,建立完善的監(jiān)控和審計機制。技術(shù)要求語料產(chǎn)品的數(shù)據(jù)采集、加工、測試和提供的全過程所涉及信息系統(tǒng)應(yīng)至少配置以下軟硬組件:(a)數(shù)據(jù)網(wǎng)關(guān);(b)數(shù)據(jù)加密與備份裝置;(c)安全防范和監(jiān)控系統(tǒng);(d)私域數(shù)據(jù)存儲與傳輸系統(tǒng);(e)數(shù)據(jù)資產(chǎn)管理工具;(f)為滿足GB/T22239-2019《信息安全技術(shù)網(wǎng)絡(luò)安全等級保護基本要求》所需的其它設(shè)備或系統(tǒng)。8.5人員要求參與語料產(chǎn)品的數(shù)據(jù)采集、加工、測試和提供的任何人員都應(yīng)簽署與其職責(zé)相對應(yīng)的保密協(xié)議;這些人員所屬機構(gòu)應(yīng)建立獨立、專業(yè)的信息安全團隊。
(資料性)
具身智能大模型方案純文本數(shù)據(jù)用于訓(xùn)練大模型模型無監(jiān)督預(yù)訓(xùn)練無監(jiān)督預(yù)訓(xùn)練主要是利用大規(guī)模的文本數(shù)據(jù),通過自監(jiān)督的方式讓模型學(xué)習(xí)文本的結(jié)構(gòu)、語義和上下文關(guān)系。最常見的訓(xùn)練方式是使用自回歸或自編碼模型,例如GPT(生成式預(yù)訓(xùn)練)和BERT(雙向編碼器)。典型任務(wù):語言建模(LM)、掩碼語言建模(MLM)。數(shù)據(jù)類型:一般為通用文本數(shù)據(jù),如網(wǎng)頁、書籍、新聞等。常用公開數(shù)據(jù)集:CommonCrawl:包含大量從互聯(lián)網(wǎng)上爬取的網(wǎng)頁文本數(shù)據(jù),被許多大模型預(yù)訓(xùn)練使用,如GPT-3等。Wikipedia:廣泛用于多種自然語言處理(NLP)任務(wù)的高質(zhì)量文本來源。BooksCorpus:包含來自在線圖書的數(shù)據(jù),提供更豐富的上下文信息。OpenWebText:一個試圖復(fù)制OpenAI的WebText數(shù)據(jù)集的開源項目,來源于Reddit高評分的鏈接。ThePile:EleutherAI組織收集的大型開放數(shù)據(jù)集,包含15個子集,例如PubMed、GitHub代碼庫、FreeLaw法律文本、YouTube字幕等。有監(jiān)督微調(diào)SFT是在無監(jiān)督預(yù)訓(xùn)練的基礎(chǔ)上,使用標(biāo)注數(shù)據(jù)集對模型進行微調(diào),進一步提升模型在特定任務(wù)上的性能。通常通過少量的任務(wù)相關(guān)標(biāo)注數(shù)據(jù)對模型進行針對性的優(yōu)化,使其在特定任務(wù)上表現(xiàn)更好。典型任務(wù):問答、情感分析、對話生成等。數(shù)據(jù)類型:帶有標(biāo)簽的結(jié)構(gòu)化數(shù)據(jù),通常為問答對、對話數(shù)據(jù)、特定領(lǐng)域的數(shù)據(jù)等。常用公開數(shù)據(jù)集:SQuAD(StanfordQuestionAnsweringDataset):用于問答系統(tǒng)的高質(zhì)量數(shù)據(jù)集,包含大量的問題和答案對。GLUE:包含多個自然語言理解任務(wù)的數(shù)據(jù)集,包括文本分類、句子相似性等。MSMARCO:微軟發(fā)布的問答數(shù)據(jù)集,適用于檢索式問答和對話。OpenAI’sWebGPT:基于網(wǎng)絡(luò)搜索結(jié)果的問答數(shù)據(jù)集。SuperGLUE:GLUE的升級版,包含更具挑戰(zhàn)性的NLP任務(wù)。DialogDatasets(e.g.,DailyDialog,Persona-Chat):用于對話生成的標(biāo)注數(shù)據(jù)集,包括對話語境和應(yīng)答。視覺大語言模型視覺大語言模型通過整合視覺和語言模態(tài)數(shù)據(jù),實現(xiàn)圖像和文本的聯(lián)合理解和生成。VLM的訓(xùn)練也通常分為無監(jiān)督預(yù)訓(xùn)練和有監(jiān)督微調(diào)(SFT)兩個階段。無監(jiān)督預(yù)訓(xùn)練無監(jiān)督預(yù)訓(xùn)練階段主要通過自監(jiān)督方法,使用大量圖像-文本對數(shù)據(jù),讓模型學(xué)習(xí)視覺和語言之間的關(guān)聯(lián)。例如,圖像-文本對齊、區(qū)域掩碼預(yù)測、視覺詞匯建模等。典型任務(wù):圖像-文本對齊(如CLIP的對比學(xué)習(xí))、圖像掩碼預(yù)測(如MAE、SimMIM)。數(shù)據(jù)類型:大規(guī)模的圖像-文本對數(shù)據(jù)集。常用公開數(shù)據(jù)集:ConceptualCaptions:包含300萬張圖像及其相應(yīng)的自然語言描述,數(shù)據(jù)來源于網(wǎng)頁,廣泛用于VLM的預(yù)訓(xùn)練。COCOCaptions:MicrosoftCOCO數(shù)據(jù)集的一個版本,包含了33萬張圖像及其描述,每張圖像有5條自然語言描述。VisualGenome:包含10萬張圖像,每張圖像中包含詳細(xì)的物體和場景關(guān)系信息,有助于模型理解圖像內(nèi)部關(guān)系。Flickr30k:包含3萬張圖像,每張圖像都有多個描述性標(biāo)注,適用于圖像-文本匹配任務(wù)。LAION-400M&LAION-5B:由LAION團隊整理的大規(guī)模開放數(shù)據(jù)集,包含4億或50億圖像-文本對,用于CLIP、StableDiffusion等模型的預(yù)訓(xùn)練。YFCC100M:包含來自Flickr的1億張圖片和視頻,其中許多帶有文本描述。RedCaps:包含1200萬圖像-文本對,來源于Reddit,數(shù)據(jù)涵蓋多個領(lǐng)域,包含豐富的上下文信息。有監(jiān)督微調(diào)在無監(jiān)督預(yù)訓(xùn)練的基礎(chǔ)上,VLMs通常需要通過有監(jiān)督數(shù)據(jù)進行微調(diào),以適應(yīng)特定任務(wù),如圖像描述生成、視覺問答、圖文檢索等。這些任務(wù)的目標(biāo)是提高模型在特定應(yīng)用領(lǐng)域的表現(xiàn)。典型任務(wù):視覺問答(VQA)、圖像字幕生成、圖文匹配、圖像標(biāo)注。數(shù)據(jù)類型:標(biāo)注的任務(wù)數(shù)據(jù)集,
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 二零二五年度百貨商場停車場管理合同樣本3篇
- 二零二五版員工股權(quán)激勵與管理合同模板3篇
- 二零二五年防盜門研發(fā)、生產(chǎn)、銷售一體化合作協(xié)議3篇
- 2024版家具經(jīng)銷商合作協(xié)議范本
- 二零二五年度音樂器材行業(yè)標(biāo)準(zhǔn)制定與執(zhí)行合同3篇
- 2024版云計算服務(wù)租賃合同
- 二零二五版?zhèn)€人子女教育還借款合同3篇
- 2024版前期物業(yè)服務(wù)管理協(xié)議
- 二零二五版體育健身器材研發(fā)與銷售合同3篇
- 二零二五年航空航天單位企業(yè)勞務(wù)派遣及技術(shù)研發(fā)合同
- 內(nèi)鏡下粘膜剝離術(shù)(ESD)護理要點及健康教育課件
- 2024年民族宗教理論政策知識競賽考試題庫及答案
- 項目七電子商務(wù)消費者權(quán)益保護的法律法規(guī)
- 品質(zhì)經(jīng)理工作總結(jié)
- 供電搶修述職報告
- 集成電路設(shè)計工藝節(jié)點演進趨勢
- 新型電力系統(tǒng)簡介演示
- 特種設(shè)備行業(yè)團隊建設(shè)工作方案
- 眼內(nèi)炎患者護理查房課件
- 肯德基經(jīng)營策略分析報告總結(jié)
- 買賣合同簽訂和履行風(fēng)險控制
評論
0/150
提交評論