人工智能 預(yù)訓(xùn)練模型 第2部分:評(píng)測(cè)指標(biāo)與方法 征求意見(jiàn)稿_第1頁(yè)
人工智能 預(yù)訓(xùn)練模型 第2部分:評(píng)測(cè)指標(biāo)與方法 征求意見(jiàn)稿_第2頁(yè)
人工智能 預(yù)訓(xùn)練模型 第2部分:評(píng)測(cè)指標(biāo)與方法 征求意見(jiàn)稿_第3頁(yè)
人工智能 預(yù)訓(xùn)練模型 第2部分:評(píng)測(cè)指標(biāo)與方法 征求意見(jiàn)稿_第4頁(yè)
人工智能 預(yù)訓(xùn)練模型 第2部分:評(píng)測(cè)指標(biāo)與方法 征求意見(jiàn)稿_第5頁(yè)
已閱讀5頁(yè),還剩34頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1GB/TXXXXX—XXXX人工智能第2部分:評(píng)測(cè)指標(biāo)與方法本文件規(guī)定了預(yù)訓(xùn)練模型評(píng)測(cè)內(nèi)容、指標(biāo)設(shè)置和評(píng)測(cè)方法。本文件適用于模型提供者、應(yīng)用服務(wù)者和應(yīng)用消費(fèi)者等對(duì)預(yù)訓(xùn)練模型能力進(jìn)行評(píng)估與測(cè)試,也可以為預(yù)訓(xùn)練模型的設(shè)計(jì)、開(kāi)發(fā)、應(yīng)用提供參考。2規(guī)范性引用文件下列文件中的內(nèi)容通過(guò)文中的規(guī)范性引用而構(gòu)成本文件必不可少的條款。其中,注日期的引用文件,僅該日期對(duì)應(yīng)的版本適用于本文件;不注日期的引用文件,其最新版本(包括所有的修改單)適用于本文件。GB/T41867-2022信息技術(shù)人工智能術(shù)語(yǔ)GB/T42755-2023人工智能面向機(jī)器學(xué)習(xí)的數(shù)據(jù)標(biāo)注規(guī)程GB/TXXXXX.1-XXXX人工智能預(yù)訓(xùn)練模型第1部分:通用要求3術(shù)語(yǔ)和定義GB/T41867-2022和GB/TXXXXX.1-XXXX界定的術(shù)語(yǔ)和定義適用于本文件。4縮略語(yǔ)下列縮略語(yǔ)適用于本文件。BLEU:雙語(yǔ)評(píng)估替補(bǔ)(BilingualEvaluationUnderstudy)API:應(yīng)用編程接口(ApplicationProgrammingInterface)5評(píng)測(cè)指標(biāo)5.1評(píng)測(cè)維度本文件對(duì)預(yù)訓(xùn)練模型通用能力進(jìn)行評(píng)測(cè),主要分為理解、生成、安全3個(gè)評(píng)測(cè)維度,共44個(gè)典型任務(wù)。針對(duì)每一個(gè)典型任務(wù),本文件規(guī)定了對(duì)應(yīng)的評(píng)測(cè)內(nèi)容和評(píng)測(cè)方法。5.2理解能力評(píng)測(cè)指標(biāo)5.2.1概述預(yù)訓(xùn)練模型理解能力評(píng)測(cè)主要分為單模態(tài)和多模態(tài)維度,單模態(tài)維度主要包括文本、圖像、音頻3個(gè)二級(jí)維度。多模態(tài)維度主要包括圖文、文音、圖音、圖文音4個(gè)二級(jí)維度。理解能力評(píng)測(cè)維度和典型任務(wù)見(jiàn)表1。2GB/TXXXXX—XXXX表1理解能力評(píng)測(cè)維度和說(shuō)明序號(hào)一級(jí)維度二級(jí)維度典型任務(wù)說(shuō)明單模態(tài)文本文本分類將文本劃分為不同的類別或標(biāo)簽??梢詰?yīng)用于垃圾郵件過(guò)濾、情感分析、新聞分類等應(yīng)用場(chǎng)命名實(shí)體識(shí)別識(shí)別文本中的實(shí)體,如人名、地名、組織機(jī)構(gòu)、信息抽取指模型能夠根據(jù)文本內(nèi)容,完成內(nèi)容、實(shí)體、事件、屬性、關(guān)系等信息的抽取。4.數(shù)學(xué)推理指理解和應(yīng)用數(shù)學(xué)概念、原理來(lái)解決涉及數(shù)學(xué)運(yùn)算問(wèn)題的能力。如解析表達(dá)式、圖形識(shí)別、公式推導(dǎo)等。指模型在文本模態(tài)中識(shí)別和計(jì)算因果關(guān)系的能常識(shí)推理模型能對(duì)不會(huì)顯式闡述的問(wèn)題進(jìn)行理解分析,給出正確的回答。任務(wù)分解指模型能夠?qū)?fù)雜任務(wù)分解為多個(gè)步驟,并合理規(guī)劃任務(wù)的執(zhí)行順序。文本問(wèn)答指模型能夠根據(jù)用戶提出的問(wèn)題,提供合理、準(zhǔn)確、實(shí)用的答案。代碼理解指模型能夠?qū)o定的編程代碼,給出相應(yīng)的文本解釋說(shuō)明。長(zhǎng)文本理解指模型能夠?qū)﹂L(zhǎng)文本內(nèi)容深入理解和分析,并提取其中信息。靜態(tài)圖像分類指模型能夠理解圖片的語(yǔ)義內(nèi)容,并輸出其對(duì)應(yīng)的類別標(biāo)簽。靜態(tài)圖像分割把圖片分成若干個(gè)特定的、具有獨(dú)特性質(zhì)的區(qū)域并提取感興趣目標(biāo)的技術(shù)和過(guò)程。在圖片中檢測(cè)和定位特定的目標(biāo)物體。動(dòng)態(tài)圖像分類給定一個(gè)動(dòng)態(tài)圖像,為其劃分到指定的類別中。行為識(shí)別對(duì)視頻數(shù)據(jù)進(jìn)行分析,識(shí)別出視頻中包含的人或物體的動(dòng)作或行為,并對(duì)其進(jìn)行分類和識(shí)別。音頻聲紋識(shí)別將聲信號(hào)轉(zhuǎn)換成電信號(hào),再通過(guò)計(jì)算機(jī)進(jìn)行識(shí)別,包括說(shuō)話人辨認(rèn)和說(shuō)話人確認(rèn)。音頻問(wèn)答指模型能夠理解用戶提供音頻信息中的問(wèn)題,并提供合理、準(zhǔn)確、實(shí)用的答案。環(huán)境音分類指模型能夠識(shí)別、分析環(huán)境音中的語(yǔ)義信息等,可完成聲學(xué)場(chǎng)景分類。指模型能夠根據(jù)給定的圖片/文本檢索到與之最匹配的文本/圖片構(gòu)成配對(duì)。20.指模型能夠回答針對(duì)圖片的文本問(wèn)題。21.指模型能夠基于圖片內(nèi)容正確判斷文本中所描述的對(duì)象間位置關(guān)系。22.指模型能夠基于給定的一對(duì)圖片和描述,判斷描述與圖片間的對(duì)應(yīng)關(guān)系是否一致。3GB/TXXXXX—XXXX23.指模型能夠推理判斷給定圖片和文本之間的關(guān)24.指模型能夠根據(jù)給定的視頻/文本檢索到與之最匹配的文本/視頻構(gòu)成配對(duì)。25.指模型能夠回答針對(duì)視頻的文本問(wèn)題。26.指模型具備理解和推理圖表信息,并據(jù)此作出合理的推斷。27.文音指模型能夠根據(jù)給定的音頻/文本檢索到與之最匹配的文本/音頻構(gòu)成配對(duì)。28.指能夠同時(shí)基于視頻和相應(yīng)的聲音對(duì)視頻中的異常模式進(jìn)行識(shí)別檢測(cè)。29.指模型能夠根據(jù)給定的有聲視頻/文本檢索到與之最匹配的文本/有聲視頻構(gòu)成配對(duì)。指模型能夠回答針對(duì)有聲視頻的文本問(wèn)題。5.2.2文本分類評(píng)測(cè)預(yù)訓(xùn)練模型對(duì)輸入文本內(nèi)容的分析能力,包含但不限于:a)文本分類:能夠把輸入的文本映射到具體的類目上,用戶只需要提供待分類的文本,而無(wú)需關(guān)注具體實(shí)現(xiàn)。主要包括:?jiǎn)螛?biāo)簽、多標(biāo)簽分類任務(wù);b)句子分詞:能夠?qū)⒕渥有蛄星蟹殖稍~序列;c)詞性標(biāo)注:能夠?yàn)樽匀徽Z(yǔ)言文本中的每個(gè)詞匯賦予一個(gè)詞性,這里的詞性類別可能是名詞、動(dòng)詞、形容詞或其他;d)情感分析:能夠確定文本中蘊(yùn)含的情感傾向,如正面、負(fù)面或中性;e)語(yǔ)義角色標(biāo)注:能夠?yàn)榫渥又械闹^詞和論元賦予相應(yīng)語(yǔ)義角色。評(píng)測(cè)方法:按照被測(cè)指標(biāo)描述構(gòu)建包含一個(gè)或多個(gè)文本分類能力的測(cè)試數(shù)據(jù)集,測(cè)試數(shù)據(jù)集中應(yīng)包含不少于1000條測(cè)試數(shù)據(jù)(單個(gè)能力項(xiàng)不少于200條測(cè)試數(shù)據(jù)),使用可編程測(cè)試工具和測(cè)試統(tǒng)計(jì)工具將測(cè)試數(shù)據(jù)集輸入到被測(cè)系統(tǒng)并獲取運(yùn)行結(jié)果,可參考附錄A.1.1對(duì)結(jié)果的準(zhǔn)確率進(jìn)行計(jì)算。5.2.3命名實(shí)體識(shí)別評(píng)測(cè)預(yù)訓(xùn)練模型對(duì)輸入文本內(nèi)容的分析能力,包含但不限于:a)關(guān)系抽?。耗軌驈奈谋局谐槿〕鰧?shí)體之間的語(yǔ)義關(guān)系。在文本中,實(shí)體可以指人、地點(diǎn)、組織、事件等,而語(yǔ)義關(guān)系則指實(shí)體之間的各種關(guān)系,如主謂關(guān)系、動(dòng)賓關(guān)系、上下位關(guān)系、同義關(guān)系等。關(guān)系抽取要求可以給出這些關(guān)系信息;b)事件抽?。耗軌?qū)o定的自然語(yǔ)言句子,從文本中抽取出包含特定語(yǔ)義信息的事件。事件通常由觸發(fā)詞、參與者和事件類型組成;c)實(shí)體識(shí)別:能夠在句子的詞序列中定位并識(shí)別人名、地名、機(jī)構(gòu)名等實(shí)體任務(wù);d)指代消解:能夠確定一個(gè)句子中的代詞或名詞短語(yǔ)所指的具體對(duì)象是什么。在處理自然語(yǔ)言時(shí),有時(shí)候會(huì)出現(xiàn)一個(gè)名詞短語(yǔ)或代詞,但它并沒(méi)有明確指出其所指對(duì)象是什么,需要通過(guò)指代消除來(lái)確定其所指對(duì)象。評(píng)測(cè)方法:按照被測(cè)指標(biāo)描述構(gòu)建包含一個(gè)或多個(gè)命名實(shí)體識(shí)別能力的測(cè)試數(shù)據(jù)集,測(cè)試數(shù)據(jù)集中應(yīng)包含不少于800條測(cè)試數(shù)據(jù)(單個(gè)能力項(xiàng)不少于200條測(cè)試數(shù)據(jù)使用可編程測(cè)試工具和測(cè)試統(tǒng)計(jì)工具將測(cè)試數(shù)據(jù)集輸入到被測(cè)系統(tǒng)并獲取運(yùn)行結(jié)果,可參考附錄A.1.1對(duì)結(jié)果的準(zhǔn)確率進(jìn)行計(jì)算。5.2.4信息抽取4GB/TXXXXX—XXXX評(píng)測(cè)預(yù)訓(xùn)練模型從復(fù)雜文本內(nèi)容中自動(dòng)識(shí)別和抽取關(guān)鍵信息的能力,包含但不限于:a)關(guān)鍵詞抽?。耗軌驈奈谋局凶R(shí)別出核心詞匯和短語(yǔ),這些關(guān)鍵詞和短語(yǔ)對(duì)理解整個(gè)文本內(nèi)容至關(guān)重要;b)摘要生成:能夠自動(dòng)產(chǎn)生文本的摘要,簡(jiǎn)明扼要地概述文章的主要內(nèi)容和關(guān)鍵點(diǎn);c)事實(shí)抽取:能夠從文本中提取具體的事實(shí)信息,如日期、地點(diǎn)、人物及相關(guān)事件等,這些信息是構(gòu)成新聞報(bào)道或敘述文本的基本元素;d)論點(diǎn)抽?。耗軌蜃R(shí)別和提取文本中的觀點(diǎn)和論證,包括支持和反對(duì)的論據(jù),這對(duì)于分析評(píng)論性和辯論性文本尤為重要。評(píng)測(cè)方法:構(gòu)建一個(gè)包含多種信息抽取任務(wù)的測(cè)試數(shù)據(jù)集,確保數(shù)據(jù)集涵蓋各種文本類型,如新聞報(bào)道、科學(xué)論文、博客文章等。測(cè)試數(shù)據(jù)集中應(yīng)包含不少于800條測(cè)試數(shù)據(jù)(單個(gè)能力項(xiàng)不少于200條測(cè)試數(shù)據(jù))。使用可編程測(cè)試工具和測(cè)試統(tǒng)計(jì)工具將測(cè)試數(shù)據(jù)集輸入到被測(cè)系統(tǒng)并獲取運(yùn)行結(jié)果,參考附錄A.1.1對(duì)結(jié)果的準(zhǔn)確率、召回率及F1得分進(jìn)行綜合評(píng)估。5.2.5數(shù)學(xué)推理評(píng)測(cè)預(yù)訓(xùn)練模型通過(guò)對(duì)問(wèn)題的理解,識(shí)別問(wèn)題中隱含的數(shù)學(xué)運(yùn)算,并使用數(shù)學(xué)概念、原理解決數(shù)學(xué)運(yùn)算問(wèn)題的能力。包含但不限于:a)算術(shù)運(yùn)算:能夠進(jìn)行基本的加減乘除運(yùn)算;b)代數(shù)問(wèn)題:能夠解決方程求解、不等式問(wèn)題、代數(shù)表達(dá)式的簡(jiǎn)化等代數(shù)問(wèn)題的能力;c)幾何解題:能夠解決涉及幾何圖形的性質(zhì)、面積、周長(zhǎng)等計(jì)算的能力;d)數(shù)學(xué)應(yīng)用題:能夠解決日常生活中的數(shù)學(xué)問(wèn)題的能力,如時(shí)間計(jì)算、距離計(jì)算、比例問(wèn)題等;e)統(tǒng)計(jì)問(wèn)題:能夠解讀概率計(jì)算、統(tǒng)計(jì)圖表等的能力。評(píng)測(cè)方法:按照被測(cè)指標(biāo)描述構(gòu)建包含一個(gè)或多個(gè)數(shù)學(xué)推理能力的測(cè)試數(shù)據(jù)集,測(cè)試數(shù)據(jù)集中應(yīng)包含不少于1000條測(cè)試數(shù)據(jù),使用可編程測(cè)試工具和測(cè)試統(tǒng)計(jì)工具將測(cè)試數(shù)據(jù)集輸入到被測(cè)系統(tǒng)并獲取運(yùn)行結(jié)果,可參考附錄A.1.1對(duì)結(jié)果的準(zhǔn)確率進(jìn)行計(jì)算。5.2.6因果推理評(píng)測(cè)預(yù)訓(xùn)練模型對(duì)輸入文本內(nèi)容的因果關(guān)系分析能力,包含但不限于:a)因果關(guān)系識(shí)別:能夠從自然語(yǔ)言文本中識(shí)別出因果關(guān)系,如“因?yàn)椤浴苯Y(jié)構(gòu),其中包括直接和間接因果關(guān)系;b)因果鏈構(gòu)建:能夠根據(jù)文本中的信息構(gòu)建出完整的因果鏈條,如從一系列事件中識(shí)別并鏈接每個(gè)事件的起因和結(jié)果;c)假設(shè)性條件推理:能夠?qū)Π僭O(shè)性條件(如“如果……將會(huì)……”)的句子進(jìn)行邏輯推理,準(zhǔn)確識(shí)別出條件與結(jié)果的關(guān)系;d)反事實(shí)條件推理:能夠處理反事實(shí)條件句(如“如果……是……,那么……會(huì)怎樣”分析在不同的條件下可能產(chǎn)生的不同結(jié)果。評(píng)測(cè)方法:按照被測(cè)指標(biāo)描述構(gòu)建包含一個(gè)或多個(gè)因果推理能力的測(cè)試數(shù)據(jù)集,測(cè)試數(shù)據(jù)集中應(yīng)包含不少于800條測(cè)試數(shù)據(jù)(單個(gè)能力項(xiàng)不少于200條測(cè)試數(shù)據(jù)使用可編程測(cè)試工具和測(cè)試統(tǒng)計(jì)工具將測(cè)試數(shù)據(jù)集輸入到被測(cè)系統(tǒng)并獲取運(yùn)行結(jié)果,可參考附錄A.1.1對(duì)結(jié)果的準(zhǔn)確率進(jìn)行計(jì)算。5.2.7常識(shí)推理評(píng)測(cè)預(yù)訓(xùn)練模型在處理輸入文本時(shí)的常識(shí)推理能力,包含但不限于:a)事實(shí)驗(yàn)證:能夠判斷文本中的敘述是否符合常識(shí)和實(shí)際情況,如判斷描述的事件是否可能發(fā)生;b)條件推理:能夠根據(jù)文本提供的條件,推斷可能的或必然的結(jié)果;5GB/TXXXXX—XXXXc)相似性判斷:能夠評(píng)估兩個(gè)或多個(gè)對(duì)象、事件或概念之間的相似度或關(guān)系;d)常識(shí)性結(jié)論推斷:能夠從給定的信息中推斷出符合常識(shí)的結(jié)論或解釋。評(píng)測(cè)方法:構(gòu)建一個(gè)包含多個(gè)常識(shí)推理任務(wù)的測(cè)試數(shù)據(jù)集,每個(gè)任務(wù)根據(jù)上述能力項(xiàng)設(shè)計(jì)相關(guān)的測(cè)試場(chǎng)景。測(cè)試數(shù)據(jù)集中應(yīng)包含不少于800條測(cè)試數(shù)據(jù)(單個(gè)能力項(xiàng)不少于200條測(cè)試數(shù)據(jù))。使用專門(mén)的測(cè)試工具將測(cè)試數(shù)據(jù)集輸入到被測(cè)系統(tǒng),并通過(guò)自動(dòng)化工具獲取系統(tǒng)的處理結(jié)果。評(píng)價(jià)指標(biāo)包括但不限于準(zhǔn)確率、召回率和F1分?jǐn)?shù),具體計(jì)算方法可參考附錄A.1.1。5.2.8任務(wù)分解評(píng)測(cè)預(yù)訓(xùn)練模型是否具有將復(fù)雜任務(wù)分解為多個(gè)步驟,并合理規(guī)劃任務(wù)的執(zhí)行順序的能力,包含但不限于:a)思維鏈:評(píng)估模型的思維鏈構(gòu)建能力;b)任務(wù)編排:評(píng)估模型對(duì)分解后的任務(wù),進(jìn)行合理編排的能力。評(píng)測(cè)方法:按照指標(biāo)描述和測(cè)試功能構(gòu)建包含一個(gè)或多個(gè)復(fù)雜任務(wù)分解能力的測(cè)試數(shù)據(jù)集,測(cè)試數(shù)據(jù)集中應(yīng)包含不少于400條測(cè)試數(shù)據(jù)(單個(gè)能力項(xiàng)不少于200條測(cè)試數(shù)據(jù)使用可編程測(cè)試工具和測(cè)試統(tǒng)計(jì)工具將測(cè)試數(shù)據(jù)集輸入到被測(cè)系統(tǒng)并獲取運(yùn)行結(jié)果,可參考附錄A.1.1對(duì)結(jié)果的準(zhǔn)確率進(jìn)行計(jì)算。5.2.9文本問(wèn)答評(píng)測(cè)預(yù)訓(xùn)練模型基于內(nèi)部蘊(yùn)含知識(shí),實(shí)現(xiàn)對(duì)用戶問(wèn)題的系統(tǒng)解答以及提供信息查詢的能力。包含但不限于:a)生活常識(shí):能夠?qū)ι钪谐R?jiàn)的相關(guān)的常識(shí)問(wèn)題進(jìn)行解答或提供相關(guān)的建議;b)醫(yī)學(xué)知識(shí):通過(guò)海量參數(shù)化的醫(yī)學(xué)知識(shí)數(shù)據(jù),能夠幫助患者、醫(yī)生等解答在用藥、就診、醫(yī)學(xué)知識(shí)、輔助診斷等方面的問(wèn)題或者提供相關(guān)建議;c)歷史人文:通過(guò)海量參數(shù)化的歷史人文數(shù)據(jù),能夠幫助用戶解答歷史人文方面的問(wèn)題、學(xué)習(xí)相關(guān)知識(shí)或者提供相關(guān)建議;d)科學(xué)知識(shí):通過(guò)海量參數(shù)化的科學(xué)知識(shí)數(shù)據(jù),能夠幫助用戶解答科學(xué)方面的問(wèn)題、學(xué)習(xí)相關(guān)知識(shí)或者提供相關(guān)建議;e)天文地理:通過(guò)海量參數(shù)化的天文地理知識(shí)數(shù)據(jù),能夠幫助用戶解答天文地理方面的問(wèn)題、學(xué)習(xí)相關(guān)知識(shí)或者提供相關(guān)建議;f)信息查詢:能夠?qū)τ脩粜枰母鞣N信息進(jìn)行查詢,包括:企業(yè)信息、社會(huì)事件、法律信息、金融投資、旅游信息、交通查詢、學(xué)術(shù)信息、通訊信息、政策查詢等;g)百科問(wèn)答:能夠支持各方面的百科問(wèn)答,包括:財(cái)經(jīng)百科、動(dòng)物百科、軍事百科、科技百科、歷史百科、汽車百科、人物百科、生活百科、數(shù)碼百科、心理百科、社會(huì)百科、文化百科、娛樂(lè)百科等;h)工作技巧:能夠支持工作中各種技巧的問(wèn)答,包括:常用軟硬件、工作軟能力、學(xué)習(xí)技巧、自我管理、實(shí)施工作技巧等。評(píng)測(cè)方法:按照被測(cè)指標(biāo)描述構(gòu)建包含一個(gè)或多個(gè)文本問(wèn)答能力的測(cè)試數(shù)據(jù)集,測(cè)試數(shù)據(jù)集中應(yīng)包含不少于1600條測(cè)試數(shù)據(jù)(單個(gè)能力項(xiàng)不少于200條測(cè)試數(shù)據(jù)),使用可編程測(cè)試工具和測(cè)試統(tǒng)計(jì)工具將測(cè)試數(shù)據(jù)集輸入到被測(cè)系統(tǒng)并獲取運(yùn)行結(jié)果,可參考附錄A.1.1對(duì)結(jié)果的準(zhǔn)確率進(jìn)行計(jì)算。5.2.10代碼理解評(píng)測(cè)預(yù)訓(xùn)練模型對(duì)給定的編程代碼,給出相應(yīng)的文本解釋說(shuō)明并給出編程代碼中存在的問(wèn)題的能力,包含但不限于:a)評(píng)估模型理解編程代碼意圖的能力;6GB/TXXXXX—XXXXb)評(píng)估模型根據(jù)編程代碼意圖發(fā)現(xiàn)代碼中問(wèn)題并對(duì)其優(yōu)化的能力;c)評(píng)估不同模型能夠理解編程代碼類別的能力,如C、C++、Python等。評(píng)測(cè)方法:按照被測(cè)指標(biāo)描述構(gòu)建包含一個(gè)或多個(gè)編程代碼理解能力的測(cè)試數(shù)據(jù)集,測(cè)試數(shù)據(jù)集中應(yīng)包含不少于600條測(cè)試數(shù)據(jù)(單個(gè)能力項(xiàng)不少于200條測(cè)試數(shù)據(jù)使用可編程測(cè)試工具和測(cè)試統(tǒng)計(jì)工具將測(cè)試數(shù)據(jù)集輸入到被測(cè)系統(tǒng)并獲取運(yùn)行結(jié)果,可參考附錄A.1.1對(duì)結(jié)果的準(zhǔn)確率進(jìn)行計(jì)算。5.2.11長(zhǎng)文本理解評(píng)測(cè)預(yù)訓(xùn)練模型對(duì)長(zhǎng)文本內(nèi)容的深入理解和分析能力,包含但不限于:a)文章摘要:能夠自動(dòng)從一篇長(zhǎng)文本中提取核心要點(diǎn)并生成摘要。這包括提取式摘要(直接從文本中選取關(guān)鍵句子)和生成式摘要(重新表達(dá)文本的核心信息);b)主題模型識(shí)別:能夠識(shí)別并歸類文本中的主要主題和概念,通常包括自然語(yǔ)言處理技術(shù)來(lái)探測(cè)文本的潛在主題分布;c)文本邏輯性檢測(cè):評(píng)估文本中的邏輯連貫性和論證結(jié)構(gòu),包括但不限于因果關(guān)系、對(duì)比關(guān)系和時(shí)間順序的識(shí)別;d)細(xì)節(jié)理解:能夠準(zhǔn)確識(shí)別并解釋文本中的詳細(xì)信息和復(fù)雜情節(jié),這可能涉及跨段落的推理和深層的語(yǔ)義分析;e)跨文檔信息融合:能夠整合多個(gè)相關(guān)文檔中的信息,提供全面的信息視角和深入的內(nèi)容理解。評(píng)測(cè)方法:構(gòu)建包含多個(gè)長(zhǎng)文本理解能力的綜合測(cè)試數(shù)據(jù)集,測(cè)試數(shù)據(jù)集中應(yīng)包括不少于1000條測(cè)試數(shù)據(jù)(單個(gè)能力項(xiàng)不少于200條測(cè)試數(shù)據(jù))。使用可編程測(cè)試工具和測(cè)試統(tǒng)計(jì)工具將測(cè)試數(shù)據(jù)集輸入到被測(cè)系統(tǒng)并獲取運(yùn)行結(jié)果,可參考附錄A.1.1對(duì)結(jié)果的準(zhǔn)確率、召回率及F1值等指標(biāo)進(jìn)行綜合評(píng)價(jià)。5.2.12靜態(tài)圖像分類評(píng)測(cè)預(yù)訓(xùn)練模型是否具有理解圖片的語(yǔ)義內(nèi)容,并輸出其對(duì)應(yīng)的類別文本標(biāo)簽的能力,包含但不限a)評(píng)估模型識(shí)別圖片中個(gè)體種類的能力;b)評(píng)估模型理解圖片整體語(yǔ)義內(nèi)容的能力。評(píng)測(cè)方法:按照被測(cè)指標(biāo)描述構(gòu)建包含一個(gè)或多個(gè)靜態(tài)圖像分類能力的測(cè)試數(shù)據(jù)集,測(cè)試數(shù)據(jù)集中應(yīng)包含不少于400條測(cè)試數(shù)據(jù)(單個(gè)能力項(xiàng)不少于200條測(cè)試數(shù)據(jù)使用可編程測(cè)試工具和測(cè)試統(tǒng)計(jì)工具將測(cè)試數(shù)據(jù)集輸入到被測(cè)系統(tǒng)并獲取運(yùn)行結(jié)果,可參考附錄A.1.1對(duì)結(jié)果的準(zhǔn)確率進(jìn)行計(jì)算。5.2.13靜態(tài)圖像分割評(píng)測(cè)預(yù)訓(xùn)練模型是否具有精確劃分圖片中各個(gè)對(duì)象及其邊界的能力,從而對(duì)圖像中的不同區(qū)域進(jìn)行分類和標(biāo)記。包含但不限于:a)對(duì)象邊界識(shí)別:評(píng)估模型在準(zhǔn)確識(shí)別和劃分圖像中單個(gè)對(duì)象邊界的能力;b)區(qū)域分類:評(píng)估模型對(duì)圖像中不同區(qū)域按類別進(jìn)行分類和標(biāo)記的能力。評(píng)測(cè)方法:按照被測(cè)指標(biāo)描述構(gòu)建包含一個(gè)或多個(gè)圖像分割能力的測(cè)試數(shù)據(jù)集,測(cè)試數(shù)據(jù)集中應(yīng)包含不少于400條測(cè)試數(shù)據(jù)(單個(gè)能力項(xiàng)不少于200條測(cè)試數(shù)據(jù)使用可編程測(cè)試工具和測(cè)試統(tǒng)計(jì)工具將測(cè)試數(shù)據(jù)集輸入到被測(cè)系統(tǒng)并獲取運(yùn)行結(jié)果,可參考附錄A.1.1對(duì)結(jié)果的分割精度和邊界精度進(jìn)行計(jì)算。5.2.14目標(biāo)檢測(cè)評(píng)測(cè)預(yù)訓(xùn)練模型是否具備識(shí)別并定位圖片中多個(gè)物體的能力,包含但不限于:a)物體識(shí)別:評(píng)估模型能否準(zhǔn)確識(shí)別圖片中的不同物體種類;b)物體定位:評(píng)估模型能否準(zhǔn)確地在圖片中定位物體的位置,包括物體的邊界框;7GB/TXXXXX—XXXXc)多類別檢測(cè):評(píng)估模型對(duì)圖片中多種類別物體的檢測(cè)能力;d)小物體檢測(cè):特別評(píng)估模型在檢測(cè)小尺寸物體上的性能。評(píng)測(cè)方法:按照被測(cè)指標(biāo)描述構(gòu)建包含一個(gè)或多個(gè)目標(biāo)檢測(cè)能力的測(cè)試數(shù)據(jù)集,測(cè)試數(shù)據(jù)集中應(yīng)包含不少于800條測(cè)試數(shù)據(jù)(單個(gè)能力項(xiàng)不少于200條測(cè)試數(shù)據(jù))。測(cè)試數(shù)據(jù)集應(yīng)涵蓋各種物體大小、形態(tài)和環(huán)境背景。使用可編程測(cè)試工具和測(cè)試統(tǒng)計(jì)工具將測(cè)試數(shù)據(jù)集輸入到被測(cè)系統(tǒng)并獲取運(yùn)行結(jié)果,可參考附錄A.1.1對(duì)結(jié)果的準(zhǔn)確性、召回率和F1分?jǐn)?shù)進(jìn)行計(jì)算。5.2.15動(dòng)態(tài)圖像分類評(píng)測(cè)預(yù)訓(xùn)練模型是否具有理解視頻內(nèi)容并輸出其對(duì)應(yīng)類別文本標(biāo)簽的能力,包含但不限于:a)評(píng)估模型識(shí)別視頻中的個(gè)體動(dòng)作和活動(dòng)種類的能力;b)評(píng)估模型理解視頻整體語(yǔ)義內(nèi)容和情境的能力;c)評(píng)估模型對(duì)視頻中不同時(shí)間段事件的理解和分類能力。評(píng)測(cè)方法:按照被測(cè)指標(biāo)描述構(gòu)建包含一個(gè)或多個(gè)動(dòng)態(tài)圖像分類能力的測(cè)試數(shù)據(jù)集,測(cè)試數(shù)據(jù)集中應(yīng)包含不少于600條測(cè)試數(shù)據(jù)(單個(gè)能力項(xiàng)不少于200條測(cè)試數(shù)據(jù))。使用可編程測(cè)試工具和測(cè)試統(tǒng)計(jì)工具將測(cè)試數(shù)據(jù)集輸入到被測(cè)系統(tǒng)并獲取運(yùn)行結(jié)果,應(yīng)采集各類視頻數(shù)據(jù),包括日常生活、體育活動(dòng)、社交活動(dòng)等不同類型的視頻內(nèi)容,確保全面評(píng)估模型的分類準(zhǔn)確性和泛化能力??蓞⒖几戒汚.1.1對(duì)結(jié)果的準(zhǔn)確率進(jìn)行計(jì)算。5.2.16行為識(shí)別評(píng)測(cè)預(yù)訓(xùn)練模型是否具有理解并識(shí)別視頻或圖像中人物的動(dòng)作和行為的能力,包含但不限于:a)人物動(dòng)作識(shí)別:評(píng)估模型識(shí)別人物在視頻或圖像中特定動(dòng)作(如跳躍、走路、打電話等)的能b)群體行為分析:評(píng)估模型理解并識(shí)別視頻中多人交互行為(如會(huì)議討論、體育比賽等)的能力;c)異常行為檢測(cè):能夠識(shí)別視頻或圖像中的異?;虿粚こP袨椋ㄈ缢さ埂⑼蝗槐寂艿葘?duì)于安全監(jiān)控系統(tǒng)尤為重要。評(píng)測(cè)方法:按照被測(cè)指標(biāo)描述構(gòu)建包含一個(gè)或多個(gè)行為識(shí)別能力的測(cè)試數(shù)據(jù)集,測(cè)試數(shù)據(jù)集中應(yīng)包含不少于600條測(cè)試數(shù)據(jù)(單個(gè)能力項(xiàng)不少于200條測(cè)試數(shù)據(jù))。使用可編程測(cè)試工具和測(cè)試統(tǒng)計(jì)工具將測(cè)試數(shù)據(jù)集輸入到被測(cè)系統(tǒng)并獲取運(yùn)行結(jié)果,可參考附錄A.1.1對(duì)結(jié)果的準(zhǔn)確率進(jìn)行計(jì)算。此外,對(duì)于異常行為檢測(cè),評(píng)測(cè)還應(yīng)包括模型的響應(yīng)時(shí)間和錯(cuò)誤報(bào)警率的測(cè)試。5.2.17聲紋識(shí)別評(píng)測(cè)預(yù)訓(xùn)練模型是否具有識(shí)別并驗(yàn)證個(gè)體基于聲音特征的身份的能力。包含但不限于:a)說(shuō)話者驗(yàn)證:評(píng)估模型能夠根據(jù)輸入的聲音樣本確認(rèn)說(shuō)話者身份的能力;b)說(shuō)話者識(shí)別:評(píng)估模型能夠從多個(gè)說(shuō)話者中識(shí)別并區(qū)分特定說(shuō)話者的聲音的能力。評(píng)測(cè)方法:按照被測(cè)指標(biāo)描述構(gòu)建包含一個(gè)或多個(gè)聲紋識(shí)別能力的測(cè)試數(shù)據(jù)集,測(cè)試數(shù)據(jù)集中應(yīng)包含不少于400條測(cè)試數(shù)據(jù)(單個(gè)能力項(xiàng)不少于200條測(cè)試數(shù)據(jù)使用可編程測(cè)試工具和測(cè)試統(tǒng)計(jì)工具將測(cè)試數(shù)據(jù)集輸入到被測(cè)系統(tǒng)并獲取運(yùn)行結(jié)果,可參考附錄A.1.1對(duì)結(jié)果的準(zhǔn)確率、召回率和F1得分進(jìn)行計(jì)算。5.2.18音頻問(wèn)答評(píng)測(cè)預(yù)訓(xùn)練模型是否具有從音頻中提取信息并回答與之相關(guān)的問(wèn)題的能力,包含但不限于:a)語(yǔ)音理解:能夠從人類語(yǔ)音中理解問(wèn)題的具體內(nèi)容;b)語(yǔ)音轉(zhuǎn)文本:將問(wèn)答中的語(yǔ)音轉(zhuǎn)化為文本以便進(jìn)一步處理;8GB/TXXXXX—XXXXc)問(wèn)題響應(yīng):根據(jù)語(yǔ)音輸入的問(wèn)題提供準(zhǔn)確的答案或相關(guān)信息;d)上下文跟蹤:在一系列語(yǔ)音問(wèn)答中保持問(wèn)題和答案的上下文關(guān)聯(lián)。評(píng)測(cè)方法:按照被測(cè)指標(biāo)描述構(gòu)建包含一個(gè)或多個(gè)音頻問(wèn)答能力的測(cè)試數(shù)據(jù)集,測(cè)試數(shù)據(jù)集中應(yīng)包含不少于800條測(cè)試數(shù)據(jù)(單個(gè)能力項(xiàng)不少于200條測(cè)試數(shù)據(jù)測(cè)試數(shù)據(jù)集應(yīng)覆蓋各種語(yǔ)音環(huán)境和口音。使用可編程測(cè)試工具和測(cè)試統(tǒng)計(jì)工具將測(cè)試數(shù)據(jù)集輸入到被測(cè)系統(tǒng)并獲取運(yùn)行結(jié)果,可參考附錄A.1.1對(duì)結(jié)果的準(zhǔn)確率及響應(yīng)時(shí)間進(jìn)行計(jì)算。5.2.19環(huán)境音分類評(píng)測(cè)預(yù)訓(xùn)練模型是否具備理解和分類環(huán)境中不同聲音源的能力,以輸出相應(yīng)的類別文本標(biāo)簽,包含但不限于:a)城市環(huán)境音識(shí)別:評(píng)估模型識(shí)別和分類城市環(huán)境中的特定聲音,如交通噪聲、人群聊天、警報(bào)聲等的能力;b)自然環(huán)境音識(shí)別:評(píng)估模型對(duì)自然環(huán)境中聲音的分類能力,如鳥(niǎo)鳴、水流聲、風(fēng)聲等;c)家庭環(huán)境音識(shí)別:評(píng)估模型對(duì)家庭環(huán)境中常見(jiàn)聲音的分類能力,如電器聲、門(mén)鈴聲、寵物聲音評(píng)測(cè)方法:按照被測(cè)指標(biāo)描述構(gòu)建包含一個(gè)或多個(gè)環(huán)境音分類能力的測(cè)試數(shù)據(jù)集,測(cè)試數(shù)據(jù)集中應(yīng)包含不少于600條測(cè)試數(shù)據(jù)(單個(gè)能力項(xiàng)不少于200條測(cè)試數(shù)據(jù)使用可編程測(cè)試工具和測(cè)試統(tǒng)計(jì)工具將測(cè)試數(shù)據(jù)集輸入到被測(cè)系統(tǒng)并獲取運(yùn)行結(jié)果,可參考附錄A.1.1對(duì)結(jié)果的準(zhǔn)確率進(jìn)行計(jì)算。5.2.20圖文檢索評(píng)測(cè)預(yù)訓(xùn)練模型是否具有根據(jù)給定的圖片/文本檢索到與之最匹配的文本/圖片構(gòu)成配對(duì)的能力,包含但不限于:a)文搜圖:能夠根據(jù)輸入的文本查詢檢索相關(guān)的圖像;b)圖搜文:能夠查詢檢索與圖像相關(guān)聯(lián)的文字描述。評(píng)測(cè)方法:按照被測(cè)指標(biāo)描述構(gòu)建包含一個(gè)或多個(gè)圖文檢索能力的測(cè)試數(shù)據(jù)集,測(cè)試數(shù)據(jù)集中應(yīng)包含不少于400條測(cè)試數(shù)據(jù)(單個(gè)能力項(xiàng)不少于200條測(cè)試數(shù)據(jù)使用可編程測(cè)試工具和測(cè)試統(tǒng)計(jì)工具將測(cè)試數(shù)據(jù)集輸入到被測(cè)系統(tǒng)并獲取運(yùn)行結(jié)果,可參考附錄A.1.1對(duì)結(jié)果的準(zhǔn)確率進(jìn)行計(jì)算。5.2.21圖片問(wèn)答評(píng)測(cè)預(yù)訓(xùn)練模型是否具有基于給定圖片提供詳細(xì)答案的能力,包含但不限于:a)物體識(shí)別與解釋:能夠識(shí)別圖片中的物體并對(duì)其特性或功能進(jìn)行解釋;b)場(chǎng)景理解:能夠理解圖片展示的場(chǎng)景,并回答與場(chǎng)景相關(guān)的問(wèn)題;c)情感分析:能夠從圖片中的人物表情或場(chǎng)景氛圍判斷情感狀態(tài);d)圖文關(guān)聯(lián):能夠?qū)D片中的文本信息與視覺(jué)內(nèi)容之間的關(guān)系進(jìn)行解釋和分析;e)動(dòng)作解釋:能夠識(shí)別圖片中的動(dòng)作,并解釋這些動(dòng)作的可能含義或目的。評(píng)測(cè)方法:按照被測(cè)指標(biāo)描述構(gòu)建包含一個(gè)或多個(gè)圖片問(wèn)答能力的測(cè)試數(shù)據(jù)集,測(cè)試數(shù)據(jù)集中應(yīng)包含不少于1000條測(cè)試數(shù)據(jù)(單個(gè)能力項(xiàng)不少于200條測(cè)試數(shù)據(jù)),使用可編程測(cè)試工具和測(cè)試統(tǒng)計(jì)工具將測(cè)試數(shù)據(jù)集輸入到被測(cè)系統(tǒng)并獲取運(yùn)行結(jié)果,可參考附錄A.1.1對(duì)結(jié)果的準(zhǔn)確率進(jìn)行計(jì)算。5.2.22視覺(jué)空間關(guān)系評(píng)測(cè)預(yù)訓(xùn)練模型是否具有基于圖片內(nèi)容正確判斷文本中所描述的對(duì)象間位置關(guān)系的能力。9GB/TXXXXX—XXXX評(píng)測(cè)方法:按照被測(cè)指標(biāo)描述構(gòu)建包含一個(gè)或多個(gè)視覺(jué)空間關(guān)系能力的測(cè)試數(shù)據(jù)集,測(cè)試數(shù)據(jù)集中應(yīng)包含不少于200條測(cè)試數(shù)據(jù),使用可編程測(cè)試工具和測(cè)試統(tǒng)計(jì)工具將測(cè)試數(shù)據(jù)集輸入到被測(cè)系統(tǒng)并獲取運(yùn)行結(jié)果,可參考附錄A.1.1對(duì)結(jié)果的準(zhǔn)確率進(jìn)行計(jì)算。5.2.23視覺(jué)語(yǔ)言推理評(píng)測(cè)預(yù)訓(xùn)練模型是否具有基于給定的一對(duì)圖片和描述,判斷描述與圖像間的對(duì)應(yīng)關(guān)系是否一致的能評(píng)測(cè)方法:按照被測(cè)指標(biāo)描述構(gòu)建包含一個(gè)或多個(gè)視覺(jué)語(yǔ)言推理能力的測(cè)試數(shù)據(jù)集,測(cè)試數(shù)據(jù)集中應(yīng)包含不少于200條測(cè)試數(shù)據(jù),使用可編程測(cè)試工具和測(cè)試統(tǒng)計(jì)工具將測(cè)試數(shù)據(jù)集輸入到被測(cè)系統(tǒng)并獲取運(yùn)行結(jié)果,可參考附錄A.1.1對(duì)結(jié)果的準(zhǔn)確率進(jìn)行計(jì)算。5.2.24視覺(jué)蘊(yùn)含評(píng)測(cè)預(yù)訓(xùn)練模型是否具有推理判斷給定圖片和文本之間的關(guān)系的能力。評(píng)測(cè)方法:按照被測(cè)指標(biāo)描述構(gòu)建包含一個(gè)或多個(gè)視覺(jué)蘊(yùn)含能力的測(cè)試數(shù)據(jù)集,測(cè)試數(shù)據(jù)集中應(yīng)包含不少于200條測(cè)試數(shù)據(jù),使用可編程測(cè)試工具和測(cè)試統(tǒng)計(jì)工具將測(cè)試數(shù)據(jù)集輸入到被測(cè)系統(tǒng)并獲取運(yùn)行結(jié)果,可參考附錄A.1.1對(duì)結(jié)果的準(zhǔn)確率進(jìn)行計(jì)算。5.2.25視頻檢索評(píng)測(cè)預(yù)訓(xùn)練模型是否具有根據(jù)給定的視頻/文本檢索到與之最匹配的文本/視頻構(gòu)成配對(duì)的能力,包括但不限于以下能力:a)文本檢索視頻:能夠根據(jù)輸入的文本查詢檢索相關(guān)的視頻;b)視頻檢索文本:能夠查詢檢索與視頻相關(guān)聯(lián)的文字描述。評(píng)測(cè)方法:按照被測(cè)指標(biāo)描述構(gòu)建包含一個(gè)或多個(gè)視頻檢索能力的測(cè)試數(shù)據(jù)集,測(cè)試數(shù)據(jù)集中應(yīng)包含不少于400條測(cè)試數(shù)據(jù)(單個(gè)能力項(xiàng)不少于200條測(cè)試數(shù)據(jù)使用可編程測(cè)試工具和測(cè)試統(tǒng)計(jì)工具將測(cè)試數(shù)據(jù)集輸入到被測(cè)系統(tǒng)并獲取運(yùn)行結(jié)果,可參考附錄A.1.1對(duì)結(jié)果的準(zhǔn)確率進(jìn)行計(jì)算。5.2.26視頻問(wèn)答評(píng)測(cè)預(yù)訓(xùn)練模型是否具有理解和分析視頻內(nèi)容,并基于視頻內(nèi)容回答相關(guān)問(wèn)題的能力。包括但不限a)情節(jié)理解:能夠分析視頻中的情節(jié),識(shí)別關(guān)鍵事件和角色行為,以回答與情節(jié)相關(guān)的問(wèn)題;b)角色分析:能夠根據(jù)視頻中的人物表現(xiàn)和對(duì)話,解析角色性格、動(dòng)機(jī)及其互動(dòng);c)情感分析:能夠識(shí)別視頻中的情緒表達(dá)和氛圍變化,回答有關(guān)視頻情感層面的問(wèn)題;d)事實(shí)檢索:能夠從視頻中檢索具體的事實(shí)信息,如時(shí)間、地點(diǎn)、具體行為等,以回答事實(shí)性問(wèn)題;e)抽象推理:能夠從視頻中提取信息并進(jìn)行抽象思考,回答涉及推理和邏輯的復(fù)雜問(wèn)題。評(píng)測(cè)方法:按照被測(cè)指標(biāo)描述構(gòu)建包含一個(gè)或多個(gè)視頻問(wèn)答能力的測(cè)試數(shù)據(jù)集,測(cè)試數(shù)據(jù)集中應(yīng)包含不少于1000條測(cè)試數(shù)據(jù)(單個(gè)能力項(xiàng)不少于200條測(cè)試數(shù)據(jù)),使用可編程測(cè)試工具和測(cè)試統(tǒng)計(jì)工具將測(cè)試數(shù)據(jù)集輸入到被測(cè)系統(tǒng)并獲取運(yùn)行結(jié)果,可參考附錄A.1.1對(duì)結(jié)果的準(zhǔn)確率進(jìn)行計(jì)算。5.2.27圖表推理評(píng)測(cè)預(yù)訓(xùn)練模型是否具備理解和推理圖表信息(如圖形、表格和圖表注解)的能力,以準(zhǔn)確地解釋圖表中的數(shù)據(jù)和趨勢(shì),并據(jù)此作出合理的推斷。包括但不限于:a)數(shù)據(jù)理解:能夠準(zhǔn)確解讀圖表中的數(shù)據(jù)點(diǎn)、數(shù)據(jù)分布、和趨勢(shì)線等,理解其所表達(dá)的統(tǒng)計(jì)意義;GB/TXXXXX—XXXXb)趨勢(shì)預(yù)測(cè):根據(jù)圖表中的歷史數(shù)據(jù),預(yù)測(cè)未來(lái)的發(fā)展趨勢(shì)或變化;c)相關(guān)性分析:能夠分析圖表中不同數(shù)據(jù)系列之間的相關(guān)性,如正相關(guān)、負(fù)相關(guān)或無(wú)明顯相關(guān)性;d)結(jié)果解釋:能頭根據(jù)圖表提供的數(shù)據(jù),生成明確、準(zhǔn)確的文字描述,解釋圖表所展示的結(jié)果。評(píng)測(cè)方法:按照被測(cè)指標(biāo)描述構(gòu)建包含一個(gè)或多個(gè)圖表推理能力的測(cè)試數(shù)據(jù)集,測(cè)試數(shù)據(jù)集中應(yīng)包含不少于800條測(cè)試數(shù)據(jù)(單個(gè)能力項(xiàng)不少于200條測(cè)試數(shù)據(jù))。使用可編程測(cè)試工具和測(cè)試統(tǒng)統(tǒng)計(jì)工具將測(cè)試數(shù)據(jù)集輸入到被測(cè)系統(tǒng)并獲取運(yùn)行結(jié)果??蓞⒖几戒汚.1.1對(duì)結(jié)果的準(zhǔn)確率進(jìn)行計(jì)算,同時(shí)應(yīng)評(píng)估模型生成的結(jié)果解釋的準(zhǔn)確性和可讀性。5.2.28文音檢索評(píng)測(cè)預(yù)訓(xùn)練模型是否具有根據(jù)給定的音頻/文本檢索到與之最匹配的文本/音頻構(gòu)成配對(duì)的能力,包括但不限于:a)文本檢索音頻:能夠根據(jù)輸入的文本查詢檢索相關(guān)的音頻;b)音頻檢索文本:能夠查詢檢索與音頻相關(guān)聯(lián)的文字描述。評(píng)測(cè)方法:按照被測(cè)指標(biāo)描述構(gòu)建包含一個(gè)或多個(gè)文音檢索能力的測(cè)試數(shù)據(jù)集,測(cè)試數(shù)據(jù)集中應(yīng)包含不少于400條測(cè)試數(shù)據(jù)(單個(gè)能力項(xiàng)不少于200條測(cè)試數(shù)據(jù)使用可編程測(cè)試工具和測(cè)試統(tǒng)計(jì)工具將測(cè)試數(shù)據(jù)集輸入到被測(cè)系統(tǒng)并獲取運(yùn)行結(jié)果,可參考附錄A.1.1對(duì)結(jié)果的準(zhǔn)確率進(jìn)行計(jì)算。5.2.29視頻異常檢測(cè)評(píng)測(cè)預(yù)訓(xùn)練模型是否具有理解并識(shí)別視頻中異常行為或事件的能力,包括但不限于:a)人員異常行為:評(píng)估模型對(duì)視頻中人員的異常行為(如打斗、奔跑等)的識(shí)別能力;b)交通異常事件:評(píng)估模型對(duì)視頻中交通工具的異常行駛行為(如違章行駛、事故發(fā)生等)的識(shí)別能力;c)環(huán)境異常狀況:評(píng)估模型對(duì)視頻中環(huán)境異常(如火災(zāi)、洪水等自然災(zāi)害)的檢測(cè)能力。評(píng)測(cè)方法:按照被測(cè)指標(biāo)描述構(gòu)建包含一個(gè)或多個(gè)視頻異常檢測(cè)能力的測(cè)試數(shù)據(jù)集,測(cè)試數(shù)據(jù)集中應(yīng)包含不少于600條測(cè)試數(shù)據(jù)(單個(gè)能力項(xiàng)不少于200條測(cè)試數(shù)據(jù)使用可編程測(cè)試工具和測(cè)試統(tǒng)計(jì)工具將測(cè)試數(shù)據(jù)集輸入到被測(cè)系統(tǒng)并獲取運(yùn)行結(jié)果,可參考附錄A.1.1對(duì)結(jié)果的準(zhǔn)確率進(jìn)行計(jì)算。5.2.30有聲視頻檢索評(píng)測(cè)預(yù)訓(xùn)練模型是否具有從有聲視頻資料中檢索與查詢內(nèi)容相關(guān)信息的能力,包括但不限于:a)視頻內(nèi)容理解:能夠分析視頻中的視覺(jué)元素、場(chǎng)景和行為,并與查詢語(yǔ)句相匹配;b)音頻內(nèi)容理解:能夠理解視頻中的對(duì)話、音樂(lè)或其他聲音元素,并根據(jù)用戶的查詢提供相關(guān)信c)跨媒體檢索:能夠根據(jù)文本查詢檢索與之相關(guān)聯(lián)的視頻片段或音頻,或者根據(jù)視頻/音頻內(nèi)容檢索出相關(guān)的文本描述。評(píng)測(cè)方法:按照被測(cè)指標(biāo)描述構(gòu)建包含一個(gè)或多個(gè)有聲視頻檢索能力的測(cè)試數(shù)據(jù)集,測(cè)試數(shù)據(jù)集中應(yīng)包含不少于600條測(cè)試數(shù)據(jù)(單個(gè)能力項(xiàng)不少于200條測(cè)試數(shù)據(jù)使用可編程測(cè)試工具和測(cè)試統(tǒng)計(jì)工具將測(cè)試數(shù)據(jù)集輸入到被測(cè)系統(tǒng)并獲取運(yùn)行結(jié)果,可參考附錄A.1.1對(duì)結(jié)果的準(zhǔn)確率、召回率和F1分?jǐn)?shù)進(jìn)行計(jì)算。5.2.31有聲視頻問(wèn)答評(píng)測(cè)預(yù)訓(xùn)練模型是否具備從有聲視頻內(nèi)容中提取信息并回答相關(guān)問(wèn)題的能力,包括但不限于:a)視聽(tīng)內(nèi)容理解:能夠理解視頻和音頻中的情境、情感及對(duì)話內(nèi)容,提供準(zhǔn)確的信息提??;b)多模態(tài)交互:能夠結(jié)合視頻圖像與音頻信息,對(duì)復(fù)雜的多模態(tài)問(wèn)答問(wèn)題給出合理的答案;GB/TXXXXX—XXXXc)實(shí)時(shí)信息處理:能夠從實(shí)時(shí)視頻和音頻流中快速提取信息,支持實(shí)時(shí)問(wèn)答交互;d)專業(yè)領(lǐng)域問(wèn)答:針對(duì)特定領(lǐng)域的視頻和音頻內(nèi)容(如醫(yī)學(xué)、科技、教育等),能夠提供專業(yè)的信息解答和建議。評(píng)測(cè)方法:按照被測(cè)指標(biāo)描述構(gòu)建包含一個(gè)或多個(gè)有聲視頻問(wèn)答能力的測(cè)試數(shù)據(jù)集,測(cè)試數(shù)據(jù)集中應(yīng)包含不少于800條測(cè)試數(shù)據(jù)(單個(gè)能力項(xiàng)不少于200條測(cè)試數(shù)據(jù)使用可編程測(cè)試工具和測(cè)試統(tǒng)計(jì)工具將測(cè)試數(shù)據(jù)集輸入到被測(cè)系統(tǒng)并獲取運(yùn)行結(jié)果,可參考附錄A.1.1對(duì)結(jié)果的準(zhǔn)確率進(jìn)行計(jì)算。5.3生成能力評(píng)測(cè)指標(biāo)5.3.1概述預(yù)訓(xùn)練模型生成能力評(píng)測(cè)維度主要分為單模態(tài)生成能力和多模態(tài)生成能力。單模態(tài)維度主要包括文本維度,多模態(tài)主要包括圖文、圖文音、文音3個(gè)二級(jí)維度。生成能力評(píng)測(cè)維度和指標(biāo)說(shuō)明見(jiàn)表2。表2生成能力評(píng)測(cè)維度和說(shuō)明序號(hào)一級(jí)維度二級(jí)維度典型任務(wù)說(shuō)明單模態(tài)文本摘要總結(jié)模型能夠理解文本并根據(jù)輸入內(nèi)容生成相應(yīng)摘要總機(jī)器翻譯模型能夠理解文本指令,將文本從一種語(yǔ)言翻譯成另一種語(yǔ)言。文本改寫(xiě)模型將文本從一種表述方式改寫(xiě)成另一種表述方式。4.代碼生成模型能夠理解文本指令,生成符合其要求的編程代碼。半結(jié)構(gòu)化數(shù)據(jù)生成模型能夠理解文本指令,并根據(jù)輸入指令生成sql、json、xml等內(nèi)容。文本生成圖片模型能夠理解文本指令,生成符合其要求的圖片。圖片生成文本描述指模型能夠?qū)D片的內(nèi)容進(jìn)行概括總結(jié),生成合理的文本描述。文本生成視頻模型能夠理解文本指令,生成符合其要求的視頻。視頻生成文本描述模型能夠?qū)σ曨l的內(nèi)容進(jìn)行概括總結(jié),生成合理的文本描述。圖文音文本生成有聲視頻模型能夠理解文本指令,生成符合其要求的有聲視頻。視頻生成文本描述模型能夠?qū)τ新曇曨l的內(nèi)容進(jìn)行概括總結(jié),生成合理的文本描述。文音語(yǔ)音合成模型可以根據(jù)指定文本生成對(duì)應(yīng)的語(yǔ)音。語(yǔ)音識(shí)別模型能夠理解輸入的語(yǔ)音,并將其轉(zhuǎn)錄為對(duì)應(yīng)的文本。語(yǔ)音翻譯模型能夠理解輸入語(yǔ)音及其語(yǔ)言,并將其翻譯為指定語(yǔ)言所對(duì)應(yīng)的語(yǔ)音。5.3.2摘要總結(jié)評(píng)測(cè)預(yù)訓(xùn)練模型的摘要和總結(jié)能力。包括但不限于:a)摘要能力:評(píng)測(cè)模型能夠從長(zhǎng)文本中提取關(guān)鍵信息,生成簡(jiǎn)潔、準(zhǔn)確的摘要,同時(shí)保留原文的重要信息;GB/TXXXXX—XXXXb)總結(jié)能力:評(píng)測(cè)模型能夠理解輸入文本的主旨和意圖,以簡(jiǎn)練的語(yǔ)言表達(dá)出來(lái),同時(shí)保留主要信息;c)段落關(guān)系理解:測(cè)試模型能夠理解段落之間的邏輯關(guān)系,以及如何在整個(gè)文檔中組織信息;d)篇章理解:測(cè)試模型能夠理解整個(gè)文章或文檔的結(jié)構(gòu)和主旨,以及各部分之間的聯(lián)系。評(píng)測(cè)方法:按照被測(cè)指標(biāo)描述構(gòu)建包含一個(gè)或多個(gè)摘要總結(jié)能力的測(cè)試數(shù)據(jù)集,測(cè)試數(shù)據(jù)集中應(yīng)包含不少于800條測(cè)試數(shù)據(jù),使用可編程測(cè)試工具和測(cè)試統(tǒng)計(jì)工具將測(cè)試數(shù)據(jù)集輸入到被測(cè)系統(tǒng)并獲取運(yùn)行結(jié)果,可參考附錄A.2對(duì)結(jié)果進(jìn)行主觀評(píng)測(cè)。5.3.3機(jī)器翻譯評(píng)測(cè)預(yù)訓(xùn)練模型將文本從一種語(yǔ)言翻譯成另一種語(yǔ)言的能力,包括但不限于:a)評(píng)測(cè)模型翻譯準(zhǔn)確的能力;b)評(píng)測(cè)模型對(duì)行業(yè)特定術(shù)語(yǔ)掌握程度。評(píng)測(cè)方法:按照被測(cè)指標(biāo)描述構(gòu)建包含一個(gè)或多個(gè)機(jī)器翻譯能力的測(cè)試數(shù)據(jù)集,測(cè)試數(shù)據(jù)集中應(yīng)包含不少于400條測(cè)試數(shù)據(jù),使用可編程測(cè)試工具和測(cè)試統(tǒng)計(jì)工具將測(cè)試數(shù)據(jù)集輸入到被測(cè)系統(tǒng)并獲取運(yùn)行結(jié)果,可參考附錄A.1.4對(duì)結(jié)果的BLEU指標(biāo)進(jìn)行計(jì)算。5.3.4文本改寫(xiě)評(píng)測(cè)預(yù)訓(xùn)練模型將文本從一種表述方式改寫(xiě)成另一種表述方式的能力,包括但不限于:a)評(píng)測(cè)模型對(duì)原文本內(nèi)容理解能力;b)評(píng)測(cè)模型根據(jù)給定文本風(fēng)格對(duì)文本改寫(xiě)的能力。評(píng)測(cè)方法:按照被測(cè)指標(biāo)描述構(gòu)建包含一個(gè)或多個(gè)文本改寫(xiě)能力的測(cè)試數(shù)據(jù)集,測(cè)試數(shù)據(jù)集中應(yīng)包含不少于400條測(cè)試數(shù)據(jù),使用可編程測(cè)試工具和測(cè)試統(tǒng)計(jì)工具將測(cè)試數(shù)據(jù)集輸入到被測(cè)系統(tǒng)并獲取運(yùn)行結(jié)果,可參考附錄A.2對(duì)結(jié)果進(jìn)行主觀評(píng)測(cè)。5.3.5代碼生成評(píng)測(cè)預(yù)訓(xùn)練模型根據(jù)給定目標(biāo)生成可運(yùn)行編程代碼的能力,包括但不限于:a)編程語(yǔ)言掌握能力:評(píng)測(cè)模型對(duì)C、Python、Java、JavaScript、go等不少于1種編程語(yǔ)言的掌握能力;b)代碼質(zhì)量:評(píng)測(cè)模型生成的代碼是否能夠正常運(yùn)行、是否有語(yǔ)法錯(cuò)誤、是否符合編程規(guī)范、運(yùn)行復(fù)雜度和輸出結(jié)果準(zhǔn)確率等。評(píng)測(cè)方法:按照被測(cè)指標(biāo)描述構(gòu)建包含一個(gè)或多個(gè)代碼生成能力的測(cè)試數(shù)據(jù)集,測(cè)試數(shù)據(jù)集中應(yīng)包含不少于400條測(cè)試數(shù)據(jù),使用可編程測(cè)試工具和測(cè)試統(tǒng)計(jì)工具將測(cè)試數(shù)據(jù)集輸入到被測(cè)系統(tǒng)并獲取運(yùn)行結(jié)果,可參考附錄A.2對(duì)結(jié)果進(jìn)行主觀評(píng)測(cè)。5.3.6半結(jié)構(gòu)化數(shù)據(jù)生成評(píng)測(cè)預(yù)訓(xùn)練模型根據(jù)輸入指令生成sql、json、xml等內(nèi)容的能力。包括但不限于:a)格式正確性:評(píng)測(cè)生成的半結(jié)構(gòu)化數(shù)據(jù)是否有語(yǔ)法錯(cuò)誤、是否符合文件規(guī)范;b)內(nèi)容質(zhì)量:評(píng)測(cè)是否理解指令意圖,生成符合要求的半結(jié)構(gòu)化數(shù)據(jù)內(nèi)容。評(píng)測(cè)方法:按照被測(cè)指標(biāo)描述構(gòu)建包含一個(gè)或多個(gè)半結(jié)構(gòu)化數(shù)據(jù)生成能力的測(cè)試數(shù)據(jù)集,測(cè)試數(shù)據(jù)集中應(yīng)包含不少于400條測(cè)試數(shù)據(jù),使用可編程測(cè)試工具和測(cè)試統(tǒng)計(jì)工具將測(cè)試數(shù)據(jù)集輸入到被測(cè)系統(tǒng)并獲取運(yùn)行結(jié)果,可參考附錄A.2對(duì)結(jié)果進(jìn)行主觀評(píng)測(cè)。5.3.7文本生成圖片描述GB/TXXXXX—XXXX評(píng)測(cè)預(yù)訓(xùn)練模型根據(jù)輸入的一句話或者一段文字,完成對(duì)文本的理解,根據(jù)理解的含義和文字的要求生成目標(biāo)圖片的能力。包括但不限于:a)圖片質(zhì)量:評(píng)測(cè)生成圖片的清晰度、色彩、光線、細(xì)節(jié)等視覺(jué)因素;b)語(yǔ)義內(nèi)容:評(píng)測(cè)生成圖片是否符合文本輸入的語(yǔ)義內(nèi)容。c)一致性和邏輯性:評(píng)測(cè)生成圖片與文本描述的一致性和邏輯性,避免出現(xiàn)不合理或矛盾的元素。評(píng)測(cè)方法:按照被測(cè)指標(biāo)描述構(gòu)建包含一個(gè)或多個(gè)文本生成圖像能力的測(cè)試數(shù)據(jù)集,測(cè)試數(shù)據(jù)集中應(yīng)包含不少于600條測(cè)試數(shù)據(jù),使用可編程測(cè)試工具和測(cè)試統(tǒng)計(jì)工具將測(cè)試數(shù)據(jù)集輸入到被測(cè)系統(tǒng)并獲取運(yùn)行結(jié)果,可參考附錄A.2對(duì)結(jié)果的相關(guān)度、完整度、有效性進(jìn)行主觀評(píng)測(cè)。5.3.8圖片生成文本描述評(píng)測(cè)預(yù)訓(xùn)練模型根據(jù)對(duì)圖片內(nèi)容的概括總結(jié),生成合理文本描述的能力,包括但不限于:a)準(zhǔn)確描述能力:評(píng)測(cè)模型對(duì)圖片整體與細(xì)節(jié)內(nèi)容的提取與描述能力;b)主次提取能力:評(píng)測(cè)模型對(duì)圖片中主次體的提取與側(cè)重點(diǎn)的偏移能力;c)抽象描述能力:評(píng)測(cè)模型對(duì)圖片隱含內(nèi)容的理解與描述能力。評(píng)測(cè)方法:按照被測(cè)指標(biāo)描述構(gòu)建圖片測(cè)試數(shù)據(jù)集,測(cè)試數(shù)據(jù)集中應(yīng)包含不少于600條測(cè)試數(shù)據(jù),使用可編程測(cè)試工具和測(cè)試統(tǒng)計(jì)工具將測(cè)試數(shù)據(jù)集輸入到被測(cè)系統(tǒng)并獲取運(yùn)行結(jié)果,可參考附錄A.2對(duì)結(jié)果進(jìn)行主觀評(píng)測(cè)。5.3.9文本生成視頻評(píng)測(cè)預(yù)訓(xùn)練模型根據(jù)輸入的一句話或者一段文字,完成對(duì)文本的理解,根據(jù)理解的含義和文字的要求生成目標(biāo)視頻片段的能力。包括但不限于:a)視頻質(zhì)量:評(píng)估生成視頻的視覺(jué)質(zhì)量,包括但不限于清晰度、色彩、光線、細(xì)節(jié)等方面;b)語(yǔ)義內(nèi)容:評(píng)估生成視頻的語(yǔ)義內(nèi)容是否符合文本輸入的語(yǔ)義;c)穩(wěn)定性:評(píng)估生成視頻的穩(wěn)定性,包括視頻的幀率、碼率、幀間延遲等方面;d)一致性:評(píng)估生成視頻中的感興趣對(duì)象在視頻序列中表現(xiàn)出的一致性,如外觀、位置、運(yùn)動(dòng)軌跡和特征的一致性等。評(píng)測(cè)方法:按照被測(cè)指標(biāo)描述構(gòu)建包含一個(gè)或多個(gè)文本生成視頻能力的測(cè)試數(shù)據(jù)集,測(cè)試數(shù)據(jù)集中應(yīng)包含不少于800條測(cè)試數(shù)據(jù),使用可編程測(cè)試工具和測(cè)試統(tǒng)計(jì)工具將測(cè)試數(shù)據(jù)集輸入到被測(cè)系統(tǒng)并獲取運(yùn)行結(jié)果,可參考附錄A.2對(duì)結(jié)果的相關(guān)度、完整度、有效性進(jìn)行主觀評(píng)測(cè)。5.3.10視頻生成文本描述評(píng)測(cè)預(yù)訓(xùn)練模型根據(jù)對(duì)視頻內(nèi)容的概括總結(jié),生成合理的文本描述的能力,包括但不限于:a)準(zhǔn)確描述能力:評(píng)測(cè)模型對(duì)視頻整體與細(xì)節(jié)內(nèi)容的提取與描述能力;b)主次提取能力:評(píng)測(cè)模型對(duì)視頻中主次體的提取與側(cè)重點(diǎn)的偏移能力;c)抽象描述能力:評(píng)測(cè)模型對(duì)視頻隱含內(nèi)容的理解與描述能力;d)時(shí)間描述能力:評(píng)測(cè)模型對(duì)視頻時(shí)間維度的理解能力,包括能否正確識(shí)別正序、倒敘和插敘拍攝手法等。評(píng)測(cè)方法:按照被測(cè)指標(biāo)描述構(gòu)建包含一個(gè)或多個(gè)視頻生成文本描述能力的測(cè)試數(shù)據(jù)集,測(cè)試數(shù)據(jù)集中應(yīng)包含不少于800條測(cè)試數(shù)據(jù),使用可編程測(cè)試工具和測(cè)試統(tǒng)計(jì)工具將測(cè)試數(shù)據(jù)集輸入到被測(cè)系統(tǒng)并獲取運(yùn)行結(jié)果,可參考附錄A.2對(duì)結(jié)果進(jìn)行主觀評(píng)測(cè)。5.3.11文本生成有聲視頻GB/TXXXXX—XXXX評(píng)測(cè)預(yù)訓(xùn)練模型根據(jù)輸入的一句話或者一段文字,完成對(duì)文本的理解,根據(jù)理解的含義和文字的要求生成目標(biāo)視頻片段的能力。包括但不限于:a)視頻質(zhì)量:評(píng)估生成視頻的視覺(jué)質(zhì)量,包括但不限于清晰度、色彩、光線、細(xì)節(jié)等方面;b)語(yǔ)義內(nèi)容:評(píng)估生成視頻的語(yǔ)義內(nèi)容是否符合文本輸入的語(yǔ)義;c)穩(wěn)定性:評(píng)估生成視頻的穩(wěn)定性,包括視頻的幀率、碼率、幀間延遲等方面;d)一致性:評(píng)估生成視頻中的感興趣對(duì)象在視頻序列中表現(xiàn)出的一致性,如外觀、位置、運(yùn)動(dòng)軌跡和特征的一致性等。評(píng)測(cè)方法:按照被測(cè)指標(biāo)描述構(gòu)建包含一個(gè)或多個(gè)文本生成有聲視頻能力的測(cè)試數(shù)據(jù)集,測(cè)試數(shù)據(jù)集中應(yīng)包含不少于800條測(cè)試數(shù)據(jù),使用可編程測(cè)試工具和測(cè)試統(tǒng)計(jì)工具將測(cè)試數(shù)據(jù)集輸入到被測(cè)系統(tǒng)并獲取運(yùn)行結(jié)果,可參考附錄A.2對(duì)結(jié)果的相關(guān)度、完整度、有效性進(jìn)行主觀評(píng)測(cè)。5.3.12視頻生成文本描述評(píng)測(cè)預(yù)訓(xùn)練模型根據(jù)對(duì)視頻內(nèi)容的概括總結(jié),生成合理的文本描述的能力,包括但不限于:a)準(zhǔn)確描述能力:評(píng)測(cè)模型對(duì)視頻整體與細(xì)節(jié)內(nèi)容的提取與描述能力;b)主次提取能力:評(píng)測(cè)模型對(duì)視頻中主次體的提取與側(cè)重點(diǎn)的偏移能力;c)抽象描述能力:評(píng)測(cè)模型對(duì)視頻隱含內(nèi)容的理解與描述能力;d)時(shí)間描述能力:評(píng)測(cè)模型對(duì)視頻時(shí)間維度的理解能力,包括能否正確識(shí)別正序、倒敘和插敘拍攝手法等。評(píng)測(cè)方法:按照被測(cè)指標(biāo)描述構(gòu)建視頻生成文本描述能力的測(cè)試數(shù)據(jù)集,測(cè)試數(shù)據(jù)集中應(yīng)包含不少于800條測(cè)試數(shù)據(jù),使用可編程測(cè)試工具和測(cè)試統(tǒng)計(jì)工具將測(cè)試數(shù)據(jù)集輸入到被測(cè)系統(tǒng)并獲取運(yùn)行結(jié)果,可參考附錄A.2對(duì)結(jié)果進(jìn)行主觀評(píng)測(cè)。5.3.13語(yǔ)音合成評(píng)測(cè)預(yù)訓(xùn)練模型根據(jù)指定文本生成對(duì)應(yīng)的語(yǔ)音的能力,包括但不限于:a)演講、對(duì)話、新聞、故事等的語(yǔ)音合成能力:模型能夠理解輸入的文本,并將其生成為對(duì)應(yīng)的語(yǔ)音;b)語(yǔ)音合成質(zhì)量:模型生成的語(yǔ)音從自然度、清晰度、韻律感等方面綜合評(píng)測(cè)。評(píng)測(cè)方法:按照被測(cè)指標(biāo)描述構(gòu)建包含一個(gè)或多個(gè)語(yǔ)音合成能力的測(cè)試數(shù)據(jù)集,測(cè)試數(shù)據(jù)集中應(yīng)包含不少于400條測(cè)試數(shù)據(jù),使用可編程測(cè)試工具和測(cè)試統(tǒng)計(jì)工具將測(cè)試數(shù)據(jù)集輸入到被測(cè)系統(tǒng)并獲取運(yùn)行結(jié)果,可參考附錄A.2對(duì)結(jié)果進(jìn)行主觀評(píng)測(cè)。5.3.14語(yǔ)音識(shí)別評(píng)測(cè)預(yù)訓(xùn)練模型將所接收到的有效語(yǔ)音信號(hào)轉(zhuǎn)化為與語(yǔ)音內(nèi)容相符的文字結(jié)果,并將其輸出的能力,包括但不限于:a)中文識(shí)別能力:模型能夠理解中文普通話,以及不同年齡、性別、口音的發(fā)音人輸入的語(yǔ)音,并將其轉(zhuǎn)錄為對(duì)應(yīng)的文本;b)語(yǔ)音生成文本的準(zhǔn)確性:評(píng)測(cè)模型生成的文本是否正確、是否有語(yǔ)法錯(cuò)誤等。評(píng)測(cè)方法:按照被測(cè)指標(biāo)描述構(gòu)建包含一個(gè)或多個(gè)語(yǔ)音識(shí)別能力的測(cè)試數(shù)據(jù)集,測(cè)試數(shù)據(jù)集中應(yīng)包含不少于400條測(cè)試數(shù)據(jù),使用可編程測(cè)試工具和測(cè)試統(tǒng)計(jì)工具將測(cè)試數(shù)據(jù)集輸入到被測(cè)系統(tǒng)并獲取運(yùn)行結(jié)果,可參考附錄A.2對(duì)結(jié)果進(jìn)行主觀評(píng)測(cè)。5.3.15語(yǔ)音翻譯評(píng)測(cè)預(yù)訓(xùn)練模型根據(jù)輸入的語(yǔ)音內(nèi)容生成相應(yīng)指定語(yǔ)言翻譯的語(yǔ)音能力,包括但不限于:GB/TXXXXX—XXXXa)中、英、德、法、意等多種語(yǔ)言翻譯能力:模型能夠理解輸入語(yǔ)音及其語(yǔ)言,將其翻譯為指定語(yǔ)言所對(duì)應(yīng)的語(yǔ)音;b)翻譯質(zhì)量:評(píng)測(cè)模型能夠正確地識(shí)別語(yǔ)音并翻譯成正確的文本,同時(shí)也要評(píng)估是否能夠?qū)⒄_的文本準(zhǔn)確無(wú)誤地轉(zhuǎn)換成語(yǔ)音等。評(píng)測(cè)方法:按照被測(cè)指標(biāo)描述構(gòu)建包含一個(gè)或多個(gè)語(yǔ)音翻譯能力的測(cè)試數(shù)據(jù)集,測(cè)試數(shù)據(jù)集中應(yīng)包含不少于400條測(cè)試數(shù)據(jù),使用可編程測(cè)試工具和測(cè)試統(tǒng)計(jì)工具將測(cè)試數(shù)據(jù)集輸入到被測(cè)系統(tǒng)并獲取運(yùn)行結(jié)果,可參考附錄A.2對(duì)結(jié)果進(jìn)行主觀評(píng)測(cè)。5.4安全性評(píng)測(cè)指標(biāo)預(yù)訓(xùn)練模型的安全性應(yīng)符合《互聯(lián)網(wǎng)信息服務(wù)深度合成管理規(guī)定》《生成式人工智能服務(wù)管理暫行辦法》等國(guó)家政策文件的要求。6評(píng)測(cè)要求6.1評(píng)測(cè)數(shù)據(jù)集評(píng)測(cè)數(shù)據(jù)集應(yīng)滿足以下要求:a)合規(guī)性和隱私保護(hù):數(shù)據(jù)收集過(guò)程遵循適用的法規(guī)和隱私保護(hù)標(biāo)準(zhǔn),保護(hù)用戶隱私。如通過(guò)用戶問(wèn)卷收集、人類專家構(gòu)建、權(quán)威數(shù)據(jù)集篩選等方式進(jìn)行評(píng)估數(shù)據(jù)集的構(gòu)建;b)評(píng)估指標(biāo)完備:應(yīng)為每個(gè)評(píng)價(jià)指標(biāo)構(gòu)建滿足相應(yīng)數(shù)量的數(shù)據(jù)集;c)時(shí)效性:數(shù)據(jù)集應(yīng)結(jié)合開(kāi)源數(shù)據(jù)集和自制數(shù)據(jù)集,定期更新維護(hù);d)可用性:數(shù)據(jù)集格式和接口應(yīng)符合廣泛的標(biāo)準(zhǔn),以便于獲取和使用;e)多樣性和代表性:應(yīng)涵蓋不同的背景、場(chǎng)景、領(lǐng)域等,以確保數(shù)據(jù)能夠覆蓋不同的使用情況;f)數(shù)據(jù)標(biāo)注流程應(yīng)符合GB/T42755-2023中第6章和第7章的要求。6.2評(píng)測(cè)環(huán)境根據(jù)被測(cè)模型的功能手冊(cè),應(yīng)按照被測(cè)系統(tǒng)的使用要求進(jìn)行軟硬件環(huán)境配置。6.3評(píng)測(cè)執(zhí)行基于評(píng)價(jià)方案,開(kāi)展測(cè)試活動(dòng):a)自動(dòng)化測(cè)試1)在評(píng)測(cè)數(shù)據(jù)集中應(yīng)構(gòu)建出相應(yīng)的參考答案;2)在自動(dòng)化測(cè)試腳本中應(yīng)清晰定義具體的評(píng)價(jià)指標(biāo)計(jì)算方法和評(píng)分規(guī)則。b)人工測(cè)試1)應(yīng)制定清晰、具體的評(píng)價(jià)標(biāo)準(zhǔn)和指南,并對(duì)評(píng)價(jià)人員進(jìn)行充分的培訓(xùn),確保所有評(píng)價(jià)人員對(duì)評(píng)價(jià)的標(biāo)準(zhǔn)有統(tǒng)一的理解和執(zhí)行;2)應(yīng)分析評(píng)價(jià)結(jié)果的分布和一致性,及時(shí)發(fā)現(xiàn)潛在的評(píng)價(jià)偏差或不一致問(wèn)題;3)宜選擇具有相關(guān)領(lǐng)域知識(shí)和經(jīng)驗(yàn)的評(píng)價(jià)人員,以確保評(píng)價(jià)結(jié)果準(zhǔn)確性和專業(yè)性。4)宜為評(píng)價(jià)人員提供相應(yīng)的評(píng)價(jià)工具,以支持評(píng)價(jià)人員的工作;5)宜對(duì)評(píng)價(jià)人員定期進(jìn)行復(fù)訓(xùn),更新評(píng)價(jià)知識(shí)和技能,尤其是當(dāng)標(biāo)準(zhǔn)內(nèi)容有調(diào)整時(shí);6)宜定期收集評(píng)價(jià)人員的反饋,用于優(yōu)化評(píng)價(jià)流程和評(píng)價(jià)標(biāo)準(zhǔn)。c)使用大模型作為裁判進(jìn)行測(cè)試GB/TXXXXX—XXXX1)應(yīng)選擇與評(píng)估任務(wù)相關(guān)性高的大模型,可使用多個(gè)大模型進(jìn)行交叉驗(yàn)證,以提高測(cè)試的穩(wěn)定性;2)應(yīng)定義清晰的評(píng)估標(biāo)準(zhǔn)和評(píng)分規(guī)則,并轉(zhuǎn)成能激發(fā)大模型更佳性能表現(xiàn)的輸入提示詞,確保大模型按照既定標(biāo)準(zhǔn)進(jìn)行測(cè)試;3)應(yīng)在測(cè)試過(guò)程中引入人工審核機(jī)制,及時(shí)識(shí)別問(wèn)題和調(diào)整評(píng)估策略,以確保評(píng)估的準(zhǔn)確性和公正性;4)應(yīng)確保測(cè)試過(guò)程中大模型訪問(wèn)接口的穩(wěn)定可靠,以確保評(píng)估過(guò)程的連續(xù)性。6.4評(píng)測(cè)工具針對(duì)開(kāi)放API和不開(kāi)放API的兩種系統(tǒng),應(yīng)準(zhǔn)備兩種評(píng)測(cè)工具:a)對(duì)開(kāi)放API的預(yù)訓(xùn)練模型系統(tǒng),應(yīng)編寫(xiě)API調(diào)用的測(cè)試工具

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論