人工智能預(yù)訓(xùn)練模型第2部分：評(píng)測(cè)指標(biāo)與方法征求意見(jiàn)稿

上傳人：f*** IP屬地：山東上傳時(shí)間：2024-06-16 格式：DOCX 頁(yè)數(shù)：39 大?。?6.01KB 積分：20 舉報(bào) 版權(quán)申訴

人工智能預(yù)訓(xùn)練模型第2部分：評(píng)測(cè)指標(biāo)與方法征求意見(jiàn)稿_第2頁(yè)

人工智能預(yù)訓(xùn)練模型第2部分：評(píng)測(cè)指標(biāo)與方法征求意見(jiàn)稿_第3頁(yè)

人工智能預(yù)訓(xùn)練模型第2部分：評(píng)測(cè)指標(biāo)與方法征求意見(jiàn)稿_第4頁(yè)

人工智能預(yù)訓(xùn)練模型第2部分：評(píng)測(cè)指標(biāo)與方法征求意見(jiàn)稿_第5頁(yè)

已閱讀5頁(yè)，還剩34頁(yè)未讀，繼續(xù)免費(fèi)閱讀

版權(quán)說(shuō)明：本文檔由用戶提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1GB/TXXXXX—XXXX人工智能第2部分：評(píng)測(cè)指標(biāo)與方法本文件規(guī)定了預(yù)訓(xùn)練模型評(píng)測(cè)內(nèi)容、指標(biāo)設(shè)置和評(píng)測(cè)方法。本文件適用于模型提供者、應(yīng)用服務(wù)者和應(yīng)用消費(fèi)者等對(duì)預(yù)訓(xùn)練模型能力進(jìn)行評(píng)估與測(cè)試，也可以為預(yù)訓(xùn)練模型的設(shè)計(jì)、開(kāi)發(fā)、應(yīng)用提供參考。2規(guī)范性引用文件下列文件中的內(nèi)容通過(guò)文中的規(guī)范性引用而構(gòu)成本文件必不可少的條款。其中，注日期的引用文件，僅該日期對(duì)應(yīng)的版本適用于本文件；不注日期的引用文件，其最新版本（包括所有的修改單）適用于本文件。GB/T41867-2022信息技術(shù)人工智能術(shù)語(yǔ)GB/T42755-2023人工智能面向機(jī)器學(xué)習(xí)的數(shù)據(jù)標(biāo)注規(guī)程GB/TXXXXX.1-XXXX人工智能預(yù)訓(xùn)練模型第1部分：通用要求3術(shù)語(yǔ)和定義GB/T41867-2022和GB/TXXXXX.1-XXXX界定的術(shù)語(yǔ)和定義適用于本文件。4縮略語(yǔ)下列縮略語(yǔ)適用于本文件。BLEU：雙語(yǔ)評(píng)估替補(bǔ)（BilingualEvaluationUnderstudy）API：應(yīng)用編程接口（ApplicationProgrammingInterface）5評(píng)測(cè)指標(biāo)5.1評(píng)測(cè)維度本文件對(duì)預(yù)訓(xùn)練模型通用能力進(jìn)行評(píng)測(cè)，主要分為理解、生成、安全3個(gè)評(píng)測(cè)維度，共44個(gè)典型任務(wù)。針對(duì)每一個(gè)典型任務(wù)，本文件規(guī)定了對(duì)應(yīng)的評(píng)測(cè)內(nèi)容和評(píng)測(cè)方法。5.2理解能力評(píng)測(cè)指標(biāo)5.2.1概述預(yù)訓(xùn)練模型理解能力評(píng)測(cè)主要分為單模態(tài)和多模態(tài)維度，單模態(tài)維度主要包括文本、圖像、音頻3個(gè)二級(jí)維度。多模態(tài)維度主要包括圖文、文音、圖音、圖文音4個(gè)二級(jí)維度。理解能力評(píng)測(cè)維度和典型任務(wù)見(jiàn)表1。2GB/TXXXXX—XXXX表1理解能力評(píng)測(cè)維度和說(shuō)明序號(hào)一級(jí)維度二級(jí)維度典型任務(wù)說(shuō)明單模態(tài)文本文本分類將文本劃分為不同的類別或標(biāo)簽?？梢詰?yīng)用于垃圾郵件過(guò)濾、情感分析、新聞分類等應(yīng)用場(chǎng)命名實(shí)體識(shí)別識(shí)別文本中的實(shí)體，如人名、地名、組織機(jī)構(gòu)、信息抽取指模型能夠根據(jù)文本內(nèi)容，完成內(nèi)容、實(shí)體、事件、屬性、關(guān)系等信息的抽取。4.數(shù)學(xué)推理指理解和應(yīng)用數(shù)學(xué)概念、原理來(lái)解決涉及數(shù)學(xué)運(yùn)算問(wèn)題的能力。如解析表達(dá)式、圖形識(shí)別、公式推導(dǎo)等。指模型在文本模態(tài)中識(shí)別和計(jì)算因果關(guān)系的能常識(shí)推理模型能對(duì)不會(huì)顯式闡述的問(wèn)題進(jìn)行理解分析，給出正確的回答。任務(wù)分解指模型能夠?qū)?fù)雜任務(wù)分解為多個(gè)步驟，并合理規(guī)劃任務(wù)的執(zhí)行順序。文本問(wèn)答指模型能夠根據(jù)用戶提出的問(wèn)題，提供合理、準(zhǔn)確、實(shí)用的答案。代碼理解指模型能夠?qū)o定的編程代碼，給出相應(yīng)的文本解釋說(shuō)明。長(zhǎng)文本理解指模型能夠?qū)﹂L(zhǎng)文本內(nèi)容深入理解和分析，并提取其中信息。靜態(tài)圖像分類指模型能夠理解圖片的語(yǔ)義內(nèi)容，并輸出其對(duì)應(yīng)的類別標(biāo)簽。靜態(tài)圖像分割把圖片分成若干個(gè)特定的、具有獨(dú)特性質(zhì)的區(qū)域并提取感興趣目標(biāo)的技術(shù)和過(guò)程。在圖片中檢測(cè)和定位特定的目標(biāo)物體。動(dòng)態(tài)圖像分類給定一個(gè)動(dòng)態(tài)圖像,為其劃分到指定的類別中。行為識(shí)別對(duì)視頻數(shù)據(jù)進(jìn)行分析，識(shí)別出視頻中包含的人或物體的動(dòng)作或行為，并對(duì)其進(jìn)行分類和識(shí)別。音頻聲紋識(shí)別將聲信號(hào)轉(zhuǎn)換成電信號(hào)，再通過(guò)計(jì)算機(jī)進(jìn)行識(shí)別，包括說(shuō)話人辨認(rèn)和說(shuō)話人確認(rèn)。音頻問(wèn)答指模型能夠理解用戶提供音頻信息中的問(wèn)題，并提供合理、準(zhǔn)確、實(shí)用的答案。環(huán)境音分類指模型能夠識(shí)別、分析環(huán)境音中的語(yǔ)義信息等，可完成聲學(xué)場(chǎng)景分類。指模型能夠根據(jù)給定的圖片/文本檢索到與之最匹配的文本/圖片構(gòu)成配對(duì)。20.指模型能夠回答針對(duì)圖片的文本問(wèn)題。21.指模型能夠基于圖片內(nèi)容正確判斷文本中所描述的對(duì)象間位置關(guān)系。22.指模型能夠基于給定的一對(duì)圖片和描述，判斷描述與圖片間的對(duì)應(yīng)關(guān)系是否一致。3GB/TXXXXX—XXXX23.指模型能夠推理判斷給定圖片和文本之間的關(guān)24.指模型能夠根據(jù)給定的視頻/文本檢索到與之最匹配的文本/視頻構(gòu)成配對(duì)。25.指模型能夠回答針對(duì)視頻的文本問(wèn)題。26.指模型具備理解和推理圖表信息，并據(jù)此作出合理的推斷。27.文音指模型能夠根據(jù)給定的音頻/文本檢索到與之最匹配的文本/音頻構(gòu)成配對(duì)。28.指能夠同時(shí)基于視頻和相應(yīng)的聲音對(duì)視頻中的異常模式進(jìn)行識(shí)別檢測(cè)。29.指模型能夠根據(jù)給定的有聲視頻/文本檢索到與之最匹配的文本/有聲視頻構(gòu)成配對(duì)。指模型能夠回答針對(duì)有聲視頻的文本問(wèn)題。5.2.2文本分類評(píng)測(cè)預(yù)訓(xùn)練模型對(duì)輸入文本內(nèi)容的分析能力，包含但不限于：a)文本分類：能夠把輸入的文本映射到具體的類目上，用戶只需要提供待分類的文本，而無(wú)需關(guān)注具體實(shí)現(xiàn)。主要包括：?jiǎn)螛?biāo)簽、多標(biāo)簽分類任務(wù)；b)句子分詞：能夠?qū)⒕渥有蛄星蟹殖稍~序列；c)詞性標(biāo)注：能夠?yàn)樽匀徽Z(yǔ)言文本中的每個(gè)詞匯賦予一個(gè)詞性，這里的詞性類別可能是名詞、動(dòng)詞、形容詞或其他；d)情感分析：能夠確定文本中蘊(yùn)含的情感傾向，如正面、負(fù)面或中性；e)語(yǔ)義角色標(biāo)注：能夠?yàn)榫渥又械闹^詞和論元賦予相應(yīng)語(yǔ)義角色。評(píng)測(cè)方法：按照被測(cè)指標(biāo)描述構(gòu)建包含一個(gè)或多個(gè)文本分類能力的測(cè)試數(shù)據(jù)集，測(cè)試數(shù)據(jù)集中應(yīng)包含不少于1000條測(cè)試數(shù)據(jù)（單個(gè)能力項(xiàng)不少于200條測(cè)試數(shù)據(jù)），使用可編程測(cè)試工具和測(cè)試統(tǒng)計(jì)工具將測(cè)試數(shù)據(jù)集輸入到被測(cè)系統(tǒng)并獲取運(yùn)行結(jié)果，可參考附錄A.1.1對(duì)結(jié)果的準(zhǔn)確率進(jìn)行計(jì)算。5.2.3命名實(shí)體識(shí)別評(píng)測(cè)預(yù)訓(xùn)練模型對(duì)輸入文本內(nèi)容的分析能力，包含但不限于：a)關(guān)系抽?。耗軌驈奈谋局谐槿〕鰧?shí)體之間的語(yǔ)義關(guān)系。在文本中，實(shí)體可以指人、地點(diǎn)、組織、事件等，而語(yǔ)義關(guān)系則指實(shí)體之間的各種關(guān)系，如主謂關(guān)系、動(dòng)賓關(guān)系、上下位關(guān)系、同義關(guān)系等。關(guān)系抽取要求可以給出這些關(guān)系信息；b)事件抽?。耗軌?qū)o定的自然語(yǔ)言句子，從文本中抽取出包含特定語(yǔ)義信息的事件。事件通常由觸發(fā)詞、參與者和事件類型組成；c)實(shí)體識(shí)別：能夠在句子的詞序列中定位并識(shí)別人名、地名、機(jī)構(gòu)名等實(shí)體任務(wù)；d)指代消解：能夠確定一個(gè)句子中的代詞或名詞短語(yǔ)所指的具體對(duì)象是什么。在處理自然語(yǔ)言時(shí)，有時(shí)候會(huì)出現(xiàn)一個(gè)名詞短語(yǔ)或代詞，但它并沒(méi)有明確指出其所指對(duì)象是什么，需要通過(guò)指代消除來(lái)確定其所指對(duì)象。評(píng)測(cè)方法：按照被測(cè)指標(biāo)描述構(gòu)建包含一個(gè)或多個(gè)命名實(shí)體識(shí)別能力的測(cè)試數(shù)據(jù)集，測(cè)試數(shù)據(jù)集中應(yīng)包含不少于800條測(cè)試數(shù)據(jù)（單個(gè)能力項(xiàng)不少于200條測(cè)試數(shù)據(jù)使用可編程測(cè)試工具和測(cè)試統(tǒng)計(jì)工具將測(cè)試數(shù)據(jù)集輸入到被測(cè)系統(tǒng)并獲取運(yùn)行結(jié)果，可參考附錄A.1.1對(duì)結(jié)果的準(zhǔn)確率進(jìn)行計(jì)算。5.2.4信息抽取4GB/TXXXXX—XXXX評(píng)測(cè)預(yù)訓(xùn)練模型從復(fù)雜文本內(nèi)容中自動(dòng)識(shí)別和抽取關(guān)鍵信息的能力，包含但不限于：a)關(guān)鍵詞抽?。耗軌驈奈谋局凶R(shí)別出核心詞匯和短語(yǔ)，這些關(guān)鍵詞和短語(yǔ)對(duì)理解整個(gè)文本內(nèi)容至關(guān)重要；b)摘要生成：能夠自動(dòng)產(chǎn)生文本的摘要，簡(jiǎn)明扼要地概述文章的主要內(nèi)容和關(guān)鍵點(diǎn)；c)事實(shí)抽取：能夠從文本中提取具體的事實(shí)信息，如日期、地點(diǎn)、人物及相關(guān)事件等，這些信息是構(gòu)成新聞報(bào)道或敘述文本的基本元素；d)論點(diǎn)抽?。耗軌蜃R(shí)別和提取文本中的觀點(diǎn)和論證，包括支持和反對(duì)的論據(jù)，這對(duì)于分析評(píng)論性和辯論性文本尤為重要。評(píng)測(cè)方法：構(gòu)建一個(gè)包含多種信息抽取任務(wù)的測(cè)試數(shù)據(jù)集，確保數(shù)據(jù)集涵蓋各種文本類型，如新聞報(bào)道、科學(xué)論文、博客文章等。測(cè)試數(shù)據(jù)集中應(yīng)包含不少于800條測(cè)試數(shù)據(jù)（單個(gè)能力項(xiàng)不少于200條測(cè)試數(shù)據(jù)）。使用可編程測(cè)試工具和測(cè)試統(tǒng)計(jì)工具將測(cè)試數(shù)據(jù)集輸入到被測(cè)系統(tǒng)并獲取運(yùn)行結(jié)果，參考附錄A.1.1對(duì)結(jié)果的準(zhǔn)確率、召回率及F1得分進(jìn)行綜合評(píng)估。5.2.5數(shù)學(xué)推理評(píng)測(cè)預(yù)訓(xùn)練模型通過(guò)對(duì)問(wèn)題的理解，識(shí)別問(wèn)題中隱含的數(shù)學(xué)運(yùn)算，并使用數(shù)學(xué)概念、原理解決數(shù)學(xué)運(yùn)算問(wèn)題的能力。包含但不限于：a)算術(shù)運(yùn)算：能夠進(jìn)行基本的加減乘除運(yùn)算；b)代數(shù)問(wèn)題：能夠解決方程求解、不等式問(wèn)題、代數(shù)表達(dá)式的簡(jiǎn)化等代數(shù)問(wèn)題的能力；c)幾何解題：能夠解決涉及幾何圖形的性質(zhì)、面積、周長(zhǎng)等計(jì)算的能力；d)數(shù)學(xué)應(yīng)用題：能夠解決日常生活中的數(shù)學(xué)問(wèn)題的能力，如時(shí)間計(jì)算、距離計(jì)算、比例問(wèn)題等；e)統(tǒng)計(jì)問(wèn)題：能夠解讀概率計(jì)算、統(tǒng)計(jì)圖表等的能力。評(píng)測(cè)方法：按照被測(cè)指標(biāo)描述構(gòu)建包含一個(gè)或多個(gè)數(shù)學(xué)推理能力的測(cè)試數(shù)據(jù)集，測(cè)試數(shù)據(jù)集中應(yīng)包含不少于1000條測(cè)試數(shù)據(jù)，使用可編程測(cè)試工具和測(cè)試統(tǒng)計(jì)工具將測(cè)試數(shù)據(jù)集輸入到被測(cè)系統(tǒng)并獲取運(yùn)行結(jié)果，可參考附錄A.1.1對(duì)結(jié)果的準(zhǔn)確率進(jìn)行計(jì)算。5.2.6因果推理評(píng)測(cè)預(yù)訓(xùn)練模型對(duì)輸入文本內(nèi)容的因果關(guān)系分析能力，包含但不限于：a)因果關(guān)系識(shí)別：能夠從自然語(yǔ)言文本中識(shí)別出因果關(guān)系，如“因?yàn)椤浴苯Y(jié)構(gòu)，其中包括直接和間接因果關(guān)系；b)因果鏈構(gòu)建：能夠根據(jù)文本中的信息構(gòu)建出完整的因果鏈條，如從一系列事件中識(shí)別并鏈接每個(gè)事件的起因和結(jié)果；c)假設(shè)性條件推理：能夠?qū)Π僭O(shè)性條件（如“如果……將會(huì)……”）的句子進(jìn)行邏輯推理，準(zhǔn)確識(shí)別出條件與結(jié)果的關(guān)系；d)反事實(shí)條件推理：能夠處理反事實(shí)條件句（如“如果……是……，那么……會(huì)怎樣”分析在不同的條件下可能產(chǎn)生的不同結(jié)果。評(píng)測(cè)方法：按照被測(cè)指標(biāo)描述構(gòu)建包含一個(gè)或多個(gè)因果推理能力的測(cè)試數(shù)據(jù)集，測(cè)試數(shù)據(jù)集中應(yīng)包含不少于800條測(cè)試數(shù)據(jù)（單個(gè)能力項(xiàng)不少于200條測(cè)試數(shù)據(jù)使用可編程測(cè)試工具和測(cè)試統(tǒng)計(jì)工具將測(cè)試數(shù)據(jù)集輸入到被測(cè)系統(tǒng)并獲取運(yùn)行結(jié)果，可參考附錄A.1.1對(duì)結(jié)果的準(zhǔn)確率進(jìn)行計(jì)算。5.2.7常識(shí)推理評(píng)測(cè)預(yù)訓(xùn)練模型在處理輸入文本時(shí)的常識(shí)推理能力，包含但不限于：a)事實(shí)驗(yàn)證：能夠判斷文本中的敘述是否符合常識(shí)和實(shí)際情況，如判斷描述的事件是否可能發(fā)生；b)條件推理：能夠根據(jù)文本提供的條件，推斷可能的或必然的結(jié)果；5GB/TXXXXX—XXXXc)相似性判斷：能夠評(píng)估兩個(gè)或多個(gè)對(duì)象、事件或概念之間的相似度或關(guān)系；d)常識(shí)性結(jié)論推斷：能夠從給定的信息中推斷出符合常識(shí)的結(jié)論或解釋。評(píng)測(cè)方法：構(gòu)建一個(gè)包含多個(gè)常識(shí)推理任務(wù)的測(cè)試數(shù)據(jù)集，每個(gè)任務(wù)根據(jù)上述能力項(xiàng)設(shè)計(jì)相關(guān)的測(cè)試場(chǎng)景。測(cè)試數(shù)據(jù)集中應(yīng)包含不少于800條測(cè)試數(shù)據(jù)（單個(gè)能力項(xiàng)不少于200條測(cè)試數(shù)據(jù)）。使用專門(mén)的測(cè)試工具將測(cè)試數(shù)據(jù)集輸入到被測(cè)系統(tǒng)，并通過(guò)自動(dòng)化工具獲取系統(tǒng)的處理結(jié)果。評(píng)價(jià)指標(biāo)包括但不限于準(zhǔn)確率、召回率和F1分?jǐn)?shù)，具體計(jì)算方法可參考附錄A.1.1。5.2.8任務(wù)分解評(píng)測(cè)預(yù)訓(xùn)練模型是否具有將復(fù)雜任務(wù)分解為多個(gè)步驟，并合理規(guī)劃任務(wù)的執(zhí)行順序的能力，包含但不限于：a)思維鏈：評(píng)估模型的思維鏈構(gòu)建能力；b)任務(wù)編排：評(píng)估模型對(duì)分解后的任務(wù)，進(jìn)行合理編排的能力。評(píng)測(cè)方法：按照指標(biāo)描述和測(cè)試功能構(gòu)建包含一個(gè)或多個(gè)復(fù)雜任務(wù)分解能力的測(cè)試數(shù)據(jù)集，測(cè)試數(shù)據(jù)集中應(yīng)包含不少于400條測(cè)試數(shù)據(jù)（單個(gè)能力項(xiàng)不少于200條測(cè)試數(shù)據(jù)使用可編程測(cè)試工具和測(cè)試統(tǒng)計(jì)工具將測(cè)試數(shù)據(jù)集輸入到被測(cè)系統(tǒng)并獲取運(yùn)行結(jié)果，可參考附錄A.1.1對(duì)結(jié)果的準(zhǔn)確率進(jìn)行計(jì)算。5.2.9文本問(wèn)答評(píng)測(cè)預(yù)訓(xùn)練模型基于內(nèi)部蘊(yùn)含知識(shí)，實(shí)現(xiàn)對(duì)用戶問(wèn)題的系統(tǒng)解答以及提供信息查詢的能力。包含但不限于：a)生活常識(shí)：能夠?qū)ι钪谐Ｒ?jiàn)的相關(guān)的常識(shí)問(wèn)題進(jìn)行解答或提供相關(guān)的建議；b)醫(yī)學(xué)知識(shí)：通過(guò)海量參數(shù)化的醫(yī)學(xué)知識(shí)數(shù)據(jù)，能夠幫助患者、醫(yī)生等解答在用藥、就診、醫(yī)學(xué)知識(shí)、輔助診斷等方面的問(wèn)題或者提供相關(guān)建議；c)歷史人文：通過(guò)海量參數(shù)化的歷史人文數(shù)據(jù)，能夠幫助用戶解答歷史人文方面的問(wèn)題、學(xué)習(xí)相關(guān)知識(shí)或者提供相關(guān)建議；d)科學(xué)知識(shí)：通過(guò)海量參數(shù)化的科學(xué)知識(shí)數(shù)據(jù)，能夠幫助用戶解答科學(xué)方面的問(wèn)題、學(xué)習(xí)相關(guān)知識(shí)或者提供相關(guān)建議；e)天文地理：通過(guò)海量參數(shù)化的天文地理知識(shí)數(shù)據(jù)，能夠幫助用戶解答天文地理方面的問(wèn)題、學(xué)習(xí)相關(guān)知識(shí)或者提供相關(guān)建議；f)信息查詢：能夠?qū)τ脩粜枰母鞣N信息進(jìn)行查詢，包括：企業(yè)信息、社會(huì)事件、法律信息、金融投資、旅游信息、交通查詢、學(xué)術(shù)信息、通訊信息、政策查詢等；g)百科問(wèn)答：能夠支持各方面的百科問(wèn)答，包括：財(cái)經(jīng)百科、動(dòng)物百科、軍事百科、科技百科、歷史百科、汽車百科、人物百科、生活百科、數(shù)碼百科、心理百科、社會(huì)百科、文化百科、娛樂(lè)百科等；h)工作技巧：能夠支持工作中各種技巧的問(wèn)答，包括：常用軟硬件、工作軟能力、學(xué)習(xí)技巧、自我管理、實(shí)施工作技巧等。評(píng)測(cè)方法：按照被測(cè)指標(biāo)描述構(gòu)建包含一個(gè)或多個(gè)文本問(wèn)答能力的測(cè)試數(shù)據(jù)集，測(cè)試數(shù)據(jù)集中應(yīng)包含不少于1600條測(cè)試數(shù)據(jù)（單個(gè)能力項(xiàng)不少于200條測(cè)試數(shù)據(jù)），使用可編程測(cè)試工具和測(cè)試統(tǒng)計(jì)工具將測(cè)試數(shù)據(jù)集輸入到被測(cè)系統(tǒng)并獲取運(yùn)行結(jié)果，可參考附錄A.1.1對(duì)結(jié)果的準(zhǔn)確率進(jìn)行計(jì)算。5.2.10代碼理解評(píng)測(cè)預(yù)訓(xùn)練模型對(duì)給定的編程代碼，給出相應(yīng)的文本解釋說(shuō)明并給出編程代碼中存在的問(wèn)題的能力，包含但不限于：a)評(píng)估模型理解編程代碼意圖的能力；6GB/TXXXXX—XXXXb)評(píng)估模型根據(jù)編程代碼意圖發(fā)現(xiàn)代碼中問(wèn)題并對(duì)其優(yōu)化的能力；c)評(píng)估不同模型能夠理解編程代碼類別的能力，如C、C++、Python等。評(píng)測(cè)方法：按照被測(cè)指標(biāo)描述構(gòu)建包含一個(gè)或多個(gè)編程代碼理解能力的測(cè)試數(shù)據(jù)集，測(cè)試數(shù)據(jù)集中應(yīng)包含不少于600條測(cè)試數(shù)據(jù)（單個(gè)能力項(xiàng)不少于200條測(cè)試數(shù)據(jù)使用可編程測(cè)試工具和測(cè)試統(tǒng)計(jì)工具將測(cè)試數(shù)據(jù)集輸入到被測(cè)系統(tǒng)并獲取運(yùn)行結(jié)果，可參考附錄A.1.1對(duì)結(jié)果的準(zhǔn)確率進(jìn)行計(jì)算。5.2.11長(zhǎng)文本理解評(píng)測(cè)預(yù)訓(xùn)練模型對(duì)長(zhǎng)文本內(nèi)容的深入理解和分析能力，包含但不限于：a)文章摘要：能夠自動(dòng)從一篇長(zhǎng)文本中提取核心要點(diǎn)并生成摘要。這包括提取式摘要（直接從文本中選取關(guān)鍵句子）和生成式摘要（重新表達(dá)文本的核心信息）；b)主題模型識(shí)別：能夠識(shí)別并歸類文本中的主要主題和概念，通常包括自然語(yǔ)言處理技術(shù)來(lái)探測(cè)文本的潛在主題分布；c)文本邏輯性檢測(cè)：評(píng)估文本中的邏輯連貫性和論證結(jié)構(gòu)，包括但不限于因果關(guān)系、對(duì)比關(guān)系和時(shí)間順序的識(shí)別；d)細(xì)節(jié)理解：能夠準(zhǔn)確識(shí)別并解釋文本中的詳細(xì)信息和復(fù)雜情節(jié)，這可能涉及跨段落的推理和深層的語(yǔ)義分析；e)跨文檔信息融合：能夠整合多個(gè)相關(guān)文檔中的信息，提供全面的信息視角和深入的內(nèi)容理解。評(píng)測(cè)方法：構(gòu)建包含多個(gè)長(zhǎng)文本理解能力的綜合測(cè)試數(shù)據(jù)集，測(cè)試數(shù)據(jù)集中應(yīng)包括不少于1000條測(cè)試數(shù)據(jù)（單個(gè)能力項(xiàng)不少于200條測(cè)試數(shù)據(jù)）。使用可編程測(cè)試工具和測(cè)試統(tǒng)計(jì)工具將測(cè)試數(shù)據(jù)集輸入到被測(cè)系統(tǒng)并獲取運(yùn)行結(jié)果，可參考附錄A.1.1對(duì)結(jié)果的準(zhǔn)確率、召回率及F1值等指標(biāo)進(jìn)行綜合評(píng)價(jià)。5.2.12靜態(tài)圖像分類評(píng)測(cè)預(yù)訓(xùn)練模型是否具有理解圖片的語(yǔ)義內(nèi)容，并輸出其對(duì)應(yīng)的類別文本標(biāo)簽的能力，包含但不限a)評(píng)估模型識(shí)別圖片中個(gè)體種類的能力；b)評(píng)估模型理解圖片整體語(yǔ)義內(nèi)容的能力。評(píng)測(cè)方法：按照被測(cè)指標(biāo)描述構(gòu)建包含一個(gè)或多個(gè)靜態(tài)圖像分類能力的測(cè)試數(shù)據(jù)集，測(cè)試數(shù)據(jù)集中應(yīng)包含不少于400條測(cè)試數(shù)據(jù)（單個(gè)能力項(xiàng)不少于200條測(cè)試數(shù)據(jù)使用可編程測(cè)試工具和測(cè)試統(tǒng)計(jì)工具將測(cè)試數(shù)據(jù)集輸入到被測(cè)系統(tǒng)并獲取運(yùn)行結(jié)果，可參考附錄A.1.1對(duì)結(jié)果的準(zhǔn)確率進(jìn)行計(jì)算。5.2.13靜態(tài)圖像分割評(píng)測(cè)預(yù)訓(xùn)練模型是否具有精確劃分圖片中各個(gè)對(duì)象及其邊界的能力，從而對(duì)圖像中的不同區(qū)域進(jìn)行分類和標(biāo)記。包含但不限于：a)對(duì)象邊界識(shí)別：評(píng)估模型在準(zhǔn)確識(shí)別和劃分圖像中單個(gè)對(duì)象邊界的能力；b)區(qū)域分類：評(píng)估模型對(duì)圖像中不同區(qū)域按類別進(jìn)行分類和標(biāo)記的能力。評(píng)測(cè)方法：按照被測(cè)指標(biāo)描述構(gòu)建包含一個(gè)或多個(gè)圖像分割能力的測(cè)試數(shù)據(jù)集，測(cè)試數(shù)據(jù)集中應(yīng)包含不少于400條測(cè)試數(shù)據(jù)（單個(gè)能力項(xiàng)不少于200條測(cè)試數(shù)據(jù)使用可編程測(cè)試工具和測(cè)試統(tǒng)計(jì)工具將測(cè)試數(shù)據(jù)集輸入到被測(cè)系統(tǒng)并獲取運(yùn)行結(jié)果，可參考附錄A.1.1對(duì)結(jié)果的分割精度和邊界精度進(jìn)行計(jì)算。5.2.14目標(biāo)檢測(cè)評(píng)測(cè)預(yù)訓(xùn)練模型是否具備識(shí)別并定位圖片中多個(gè)物體的能力，包含但不限于：a)物體識(shí)別：評(píng)估模型能否準(zhǔn)確識(shí)別圖片中的不同物體種類；b)物體定位：評(píng)估模型能否準(zhǔn)確地在圖片中定位物體的位置，包括物體的邊界框；7GB/TXXXXX—XXXXc)多類別檢測(cè)：評(píng)估模型對(duì)圖片中多種類別物體的檢測(cè)能力；d)小物體檢測(cè)：特別評(píng)估模型在檢測(cè)小尺寸物體上的性能。評(píng)測(cè)方法：按照被測(cè)指標(biāo)描述構(gòu)建包含一個(gè)或多個(gè)目標(biāo)檢測(cè)能力的測(cè)試數(shù)據(jù)集，測(cè)試數(shù)據(jù)集中應(yīng)包含不少于800條測(cè)試數(shù)據(jù)（單個(gè)能力項(xiàng)不少于200條測(cè)試數(shù)據(jù)）。測(cè)試數(shù)據(jù)集應(yīng)涵蓋各種物體大小、形態(tài)和環(huán)境背景。使用可編程測(cè)試工具和測(cè)試統(tǒng)計(jì)工具將測(cè)試數(shù)據(jù)集輸入到被測(cè)系統(tǒng)并獲取運(yùn)行結(jié)果，可參考附錄A.1.1對(duì)結(jié)果的準(zhǔn)確性、召回率和F1分?jǐn)?shù)進(jìn)行計(jì)算。5.2.15動(dòng)態(tài)圖像分類評(píng)測(cè)預(yù)訓(xùn)練模型是否具有理解視頻內(nèi)容并輸出其對(duì)應(yīng)類別文本標(biāo)簽的能力，包含但不限于：a)評(píng)估模型識(shí)別視頻中的個(gè)體動(dòng)作和活動(dòng)種類的能力；b)評(píng)估模型理解視頻整體語(yǔ)義內(nèi)容和情境的能力；c)評(píng)估模型對(duì)視頻中不同時(shí)間段事件的理解和分類能力。評(píng)測(cè)方法：按照被測(cè)指標(biāo)描述構(gòu)建包含一個(gè)或多個(gè)動(dòng)態(tài)圖像分類能力的測(cè)試數(shù)據(jù)集，測(cè)試數(shù)據(jù)集中應(yīng)包含不少于600條測(cè)試數(shù)據(jù)（單個(gè)能力項(xiàng)不少于200條測(cè)試數(shù)據(jù)）。使用可編程測(cè)試工具和測(cè)試統(tǒng)計(jì)工具將測(cè)試數(shù)據(jù)集輸入到被測(cè)系統(tǒng)并獲取運(yùn)行結(jié)果，應(yīng)采集各類視頻數(shù)據(jù)，包括日常生活、體育活動(dòng)、社交活動(dòng)等不同類型的視頻內(nèi)容，確保全面評(píng)估模型的分類準(zhǔn)確性和泛化能力?？蓞⒖几戒汚.1.1對(duì)結(jié)果的準(zhǔn)確率進(jìn)行計(jì)算。5.2.16行為識(shí)別評(píng)測(cè)預(yù)訓(xùn)練模型是否具有理解并識(shí)別視頻或圖像中人物的動(dòng)作和行為的能力，包含但不限于：a)人物動(dòng)作識(shí)別：評(píng)估模型識(shí)別人物在視頻或圖像中特定動(dòng)作（如跳躍、走路、打電話等）的能b)群體行為分析：評(píng)估模型理解并識(shí)別視頻中多人交互行為（如會(huì)議討論、體育比賽等）的能力；c)異常行為檢測(cè)：能夠識(shí)別視頻或圖像中的異?；虿粚こＰ袨椋ㄈ缢さ埂⑼蝗槐寂艿葘?duì)于安全監(jiān)控系統(tǒng)尤為重要。評(píng)測(cè)方法：按照被測(cè)指標(biāo)描述構(gòu)建包含一個(gè)或多個(gè)行為識(shí)別能力的測(cè)試數(shù)據(jù)集，測(cè)試數(shù)據(jù)集中應(yīng)包含不少于600條測(cè)試數(shù)據(jù)（單個(gè)能力項(xiàng)不少于200條測(cè)試數(shù)據(jù)）。使用可編程測(cè)試工具和測(cè)試統(tǒng)計(jì)工具將測(cè)試數(shù)據(jù)集輸入到被測(cè)系統(tǒng)并獲取運(yùn)行結(jié)果，可參考附錄A.1.1對(duì)結(jié)果的準(zhǔn)確率進(jìn)行計(jì)算。此外，對(duì)于異常行為檢測(cè)，評(píng)測(cè)還應(yīng)包括模型的響應(yīng)時(shí)間和錯(cuò)誤報(bào)警率的測(cè)試。5.2.17聲紋識(shí)別評(píng)測(cè)預(yù)訓(xùn)練模型是否具有識(shí)別并驗(yàn)證個(gè)體基于聲音特征的身份的能力。包含但不限于：a)說(shuō)話者驗(yàn)證：評(píng)估模型能夠根據(jù)輸入的聲音樣本確認(rèn)說(shuō)話者身份的能力；b)說(shuō)話者識(shí)別：評(píng)估模型能夠從多個(gè)說(shuō)話者中識(shí)別并區(qū)分特定說(shuō)話者的聲音的能力。評(píng)測(cè)方法：按照被測(cè)指標(biāo)描述構(gòu)建包含一個(gè)或多個(gè)聲紋識(shí)別能力的測(cè)試數(shù)據(jù)集，測(cè)試數(shù)據(jù)集中應(yīng)包含不少于400條測(cè)試數(shù)據(jù)（單個(gè)能力項(xiàng)不少于200條測(cè)試數(shù)據(jù)使用可編程測(cè)試工具和測(cè)試統(tǒng)計(jì)工具將測(cè)試數(shù)據(jù)集輸入到被測(cè)系統(tǒng)并獲取運(yùn)行結(jié)果，可參考附錄A.1.1對(duì)結(jié)果的準(zhǔn)確率、召回率和F1得分進(jìn)行計(jì)算。5.2.18音頻問(wèn)答評(píng)測(cè)預(yù)訓(xùn)練模型是否具有從音頻中提取信息并回答與之相關(guān)的問(wèn)題的能力，包含但不限于：a)語(yǔ)音理解：能夠從人類語(yǔ)音中理解問(wèn)題的具體內(nèi)容；b)語(yǔ)音轉(zhuǎn)文本：將問(wèn)答中的語(yǔ)音轉(zhuǎn)化為文本以便進(jìn)一步處理；8GB/TXXXXX—XXXXc)問(wèn)題響應(yīng)：根據(jù)語(yǔ)音輸入的問(wèn)題提供準(zhǔn)確的答案或相關(guān)信息；d)上下文跟蹤：在一系列語(yǔ)音問(wèn)答中保持問(wèn)題和答案的上下文關(guān)聯(lián)。評(píng)測(cè)方法：按照被測(cè)指標(biāo)描述構(gòu)建包含一個(gè)或多個(gè)音頻問(wèn)答能力的測(cè)試數(shù)據(jù)集，測(cè)試數(shù)據(jù)集中應(yīng)包含不少于800條測(cè)試數(shù)據(jù)（單個(gè)能力項(xiàng)不少于200條測(cè)試數(shù)據(jù)測(cè)試數(shù)據(jù)集應(yīng)覆蓋各種語(yǔ)音環(huán)境和口音。使用可編程測(cè)試工具和測(cè)試統(tǒng)計(jì)工具將測(cè)試數(shù)據(jù)集輸入到被測(cè)系統(tǒng)并獲取運(yùn)行結(jié)果，可參考附錄A.1.1對(duì)結(jié)果的準(zhǔn)確率及響應(yīng)時(shí)間進(jìn)行計(jì)算。5.2.19環(huán)境音分類評(píng)測(cè)預(yù)訓(xùn)練模型是否具備理解和分類環(huán)境中不同聲音源的能力，以輸出相應(yīng)的類別文本標(biāo)簽，包含但不限于：a)城市環(huán)境音識(shí)別：評(píng)估模型識(shí)別和分類城市環(huán)境中的特定聲音，如交通噪聲、人群聊天、警報(bào)聲等的能力；b)自然環(huán)境音識(shí)別：評(píng)估模型對(duì)自然環(huán)境中聲音的分類能力，如鳥(niǎo)鳴、水流聲、風(fēng)聲等；c)家庭環(huán)境音識(shí)別：評(píng)估模型對(duì)家庭環(huán)境中常見(jiàn)聲音的分類能力，如電器聲、門(mén)鈴聲、寵物聲音評(píng)測(cè)方法：按照被測(cè)指標(biāo)描述構(gòu)建包含一個(gè)或多個(gè)環(huán)境音分類能力的測(cè)試數(shù)據(jù)集，測(cè)試數(shù)據(jù)集中應(yīng)包含不少于600條測(cè)試數(shù)據(jù)（單個(gè)能力項(xiàng)不少于200條測(cè)試數(shù)據(jù)使用可編程測(cè)試工具和測(cè)試統(tǒng)計(jì)工具將測(cè)試數(shù)據(jù)集輸入到被測(cè)系統(tǒng)并獲取運(yùn)行結(jié)果，可參考附錄A.1.1對(duì)結(jié)果的準(zhǔn)確率進(jìn)行計(jì)算。5.2.20圖文檢索評(píng)測(cè)預(yù)訓(xùn)練模型是否具有根據(jù)給定的圖片/文本檢索到與之最匹配的文本/圖片構(gòu)成配對(duì)的能力，包含但不限于：a)文搜圖：能夠根據(jù)輸入的文本查詢檢索相關(guān)的圖像；b)圖搜文：能夠查詢檢索與圖像相關(guān)聯(lián)的文字描述。評(píng)測(cè)方法：按照被測(cè)指標(biāo)描述構(gòu)建包含一個(gè)或多個(gè)圖文檢索能力的測(cè)試數(shù)據(jù)集，測(cè)試數(shù)據(jù)集中應(yīng)包含不少于400條測(cè)試數(shù)據(jù)（單個(gè)能力項(xiàng)不少于200條測(cè)試數(shù)據(jù)使用可編程測(cè)試工具和測(cè)試統(tǒng)計(jì)工具將測(cè)試數(shù)據(jù)集輸入到被測(cè)系統(tǒng)并獲取運(yùn)行結(jié)果，可參考附錄A.1.1對(duì)結(jié)果的準(zhǔn)確率進(jìn)行計(jì)算。5.2.21圖片問(wèn)答評(píng)測(cè)預(yù)訓(xùn)練模型是否具有基于給定圖片提供詳細(xì)答案的能力，包含但不限于：a)物體識(shí)別與解釋：能夠識(shí)別圖片中的物體并對(duì)其特性或功能進(jìn)行解釋；b)場(chǎng)景理解：能夠理解圖片展示的場(chǎng)景，并回答與場(chǎng)景相關(guān)的問(wèn)題；c)情感分析：能夠從圖片中的人物表情或場(chǎng)景氛圍判斷情感狀態(tài)；d)圖文關(guān)聯(lián)：能夠?qū)D片中的文本信息與視覺(jué)內(nèi)容之間的關(guān)系進(jìn)行解釋和分析；e)動(dòng)作解釋：能夠識(shí)別圖片中的動(dòng)作，并解釋這些動(dòng)作的可能含義或目的。評(píng)測(cè)方法：按照被測(cè)指標(biāo)描述構(gòu)建包含一個(gè)或多個(gè)圖片問(wèn)答能力的測(cè)試數(shù)據(jù)集，測(cè)試數(shù)據(jù)集中應(yīng)包含不少于1000條測(cè)試數(shù)據(jù)（單個(gè)能力項(xiàng)不少于200條測(cè)試數(shù)據(jù)），使用可編程測(cè)試工具和測(cè)試統(tǒng)計(jì)工具將測(cè)試數(shù)據(jù)集輸入到被測(cè)系統(tǒng)并獲取運(yùn)行結(jié)果，可參考附錄A.1.1對(duì)結(jié)果的準(zhǔn)確率進(jìn)行計(jì)算。5.2.22視覺(jué)空間關(guān)系評(píng)測(cè)預(yù)訓(xùn)練模型是否具有基于圖片內(nèi)容正確判斷文本中所描述的對(duì)象間位置關(guān)系的能力。9GB/TXXXXX—XXXX評(píng)測(cè)方法：按照被測(cè)指標(biāo)描述構(gòu)建包含一個(gè)或多個(gè)視覺(jué)空間關(guān)系能力的測(cè)試數(shù)據(jù)集，測(cè)試數(shù)據(jù)集中應(yīng)包含不少于200條測(cè)試數(shù)據(jù)，使用可編程測(cè)試工具和測(cè)試統(tǒng)計(jì)工具將測(cè)試數(shù)據(jù)集輸入到被測(cè)系統(tǒng)并獲取運(yùn)行結(jié)果，可參考附錄A.1.1對(duì)結(jié)果的準(zhǔn)確率進(jìn)行計(jì)算。5.2.23視覺(jué)語(yǔ)言推理評(píng)測(cè)預(yù)訓(xùn)練模型是否具有基于給定的一對(duì)圖片和描述，判斷描述與圖像間的對(duì)應(yīng)關(guān)系是否一致的能評(píng)測(cè)方法：按照被測(cè)指標(biāo)描述構(gòu)建包含一個(gè)或多個(gè)視覺(jué)語(yǔ)言推理能力的測(cè)試數(shù)據(jù)集，測(cè)試數(shù)據(jù)集中應(yīng)包含不少于200條測(cè)試數(shù)據(jù)，使用可編程測(cè)試工具和測(cè)試統(tǒng)計(jì)工具將測(cè)試數(shù)據(jù)集輸入到被測(cè)系統(tǒng)并獲取運(yùn)行結(jié)果，可參考附錄A.1.1對(duì)結(jié)果的準(zhǔn)確率進(jìn)行計(jì)算。5.2.24視覺(jué)蘊(yùn)含評(píng)測(cè)預(yù)訓(xùn)練模型是否具有推理判斷給定圖片和文本之間的關(guān)系的能力。評(píng)測(cè)方法：按照被測(cè)指標(biāo)描述構(gòu)建包含一個(gè)或多個(gè)視覺(jué)蘊(yùn)含能力的測(cè)試數(shù)據(jù)集，測(cè)試數(shù)據(jù)集中應(yīng)包含不少于200條測(cè)試數(shù)據(jù)，使用可編程測(cè)試工具和測(cè)試統(tǒng)計(jì)工具將測(cè)試數(shù)據(jù)集輸入到被測(cè)系統(tǒng)并獲取運(yùn)行結(jié)果，可參考附錄A.1.1對(duì)結(jié)果的準(zhǔn)確率進(jìn)行計(jì)算。5.2.25視頻檢索評(píng)測(cè)預(yù)訓(xùn)練模型是否具有根據(jù)給定的視頻/文本檢索到與之最匹配的文本/視頻構(gòu)成配對(duì)的能力，包括但不限于以下能力：a)文本檢索視頻：能夠根據(jù)輸入的文本查詢檢索相關(guān)的視頻；b)視頻檢索文本：能夠查詢檢索與視頻相關(guān)聯(lián)的文字描述。評(píng)測(cè)方法：按照被測(cè)指標(biāo)描述構(gòu)建包含一個(gè)或多個(gè)視頻檢索能力的測(cè)試數(shù)據(jù)集，測(cè)試數(shù)據(jù)集中應(yīng)包含不少于400條測(cè)試數(shù)據(jù)（單個(gè)能力項(xiàng)不少于200條測(cè)試數(shù)據(jù)使用可編程測(cè)試工具和測(cè)試統(tǒng)計(jì)工具將測(cè)試數(shù)據(jù)集輸入到被測(cè)系統(tǒng)并獲取運(yùn)行結(jié)果，可參考附錄A.1.1對(duì)結(jié)果的準(zhǔn)確率進(jìn)行計(jì)算。5.2.26視頻問(wèn)答評(píng)測(cè)預(yù)訓(xùn)練模型是否具有理解和分析視頻內(nèi)容，并基于視頻內(nèi)容回答相關(guān)問(wèn)題的能力。包括但不限a)情節(jié)理解：能夠分析視頻中的情節(jié)，識(shí)別關(guān)鍵事件和角色行為，以回答與情節(jié)相關(guān)的問(wèn)題；b)角色分析：能夠根據(jù)視頻中的人物表現(xiàn)和對(duì)話，解析角色性格、動(dòng)機(jī)及其互動(dòng)；c)情感分析：能夠識(shí)別視頻中的情緒表達(dá)和氛圍變化，回答有關(guān)視頻情感層面的問(wèn)題；d)事實(shí)檢索：能夠從視頻中檢索具體的事實(shí)信息，如時(shí)間、地點(diǎn)、具體行為等，以回答事實(shí)性問(wèn)題；e)抽象推理：能夠從視頻中提取信息并進(jìn)行抽象思考，回答涉及推理和邏輯的復(fù)雜問(wèn)題。評(píng)測(cè)方法：按照被測(cè)指標(biāo)描述構(gòu)建包含一個(gè)或多個(gè)視頻問(wèn)答能力的測(cè)試數(shù)據(jù)集，測(cè)試數(shù)據(jù)集中應(yīng)包含不少于1000條測(cè)試數(shù)據(jù)（單個(gè)能力項(xiàng)不少于200條測(cè)試數(shù)據(jù)），使用可編程測(cè)試工具和測(cè)試統(tǒng)計(jì)工具將測(cè)試數(shù)據(jù)集輸入到被測(cè)系統(tǒng)并獲取運(yùn)行結(jié)果，可參考附錄A.1.1對(duì)結(jié)果的準(zhǔn)確率進(jìn)行計(jì)算。5.2.27圖表推理評(píng)測(cè)預(yù)訓(xùn)練模型是否具備理解和推理圖表信息（如圖形、表格和圖表注解）的能力，以準(zhǔn)確地解釋圖表中的數(shù)據(jù)和趨勢(shì)，并據(jù)此作出合理的推斷。包括但不限于：a)數(shù)據(jù)理解：能夠準(zhǔn)確解讀圖表中的數(shù)據(jù)點(diǎn)、數(shù)據(jù)分布、和趨勢(shì)線等，理解其所表達(dá)的統(tǒng)計(jì)意義；GB/TXXXXX—XXXXb)趨勢(shì)預(yù)測(cè)：根據(jù)圖表中的歷史數(shù)據(jù)，預(yù)測(cè)未來(lái)的發(fā)展趨勢(shì)或變化；c)相關(guān)性分析：能夠分析圖表中不同數(shù)據(jù)系列之間的相關(guān)性，如正相關(guān)、負(fù)相關(guān)或無(wú)明顯相關(guān)性；d)結(jié)果解釋：能頭根據(jù)圖表提供的數(shù)據(jù)，生成明確、準(zhǔn)確的文字描述，解釋圖表所展示的結(jié)果。評(píng)測(cè)方法：按照被測(cè)指標(biāo)描述構(gòu)建包含一個(gè)或多個(gè)圖表推理能力的測(cè)試數(shù)據(jù)集，測(cè)試數(shù)據(jù)集中應(yīng)包含不少于800條測(cè)試數(shù)據(jù)（單個(gè)能力項(xiàng)不少于200條測(cè)試數(shù)據(jù)）。使用可編程測(cè)試工具和測(cè)試統(tǒng)統(tǒng)計(jì)工具將測(cè)試數(shù)據(jù)集輸入到被測(cè)系統(tǒng)并獲取運(yùn)行結(jié)果?？蓞⒖几戒汚.1.1對(duì)結(jié)果的準(zhǔn)確率進(jìn)行計(jì)算，同時(shí)應(yīng)評(píng)估模型生成的結(jié)果解釋的準(zhǔn)確性和可讀性。5.2.28文音檢索評(píng)測(cè)預(yù)訓(xùn)練模型是否具有根據(jù)給定的音頻/文本檢索到與之最匹配的文本/音頻構(gòu)成配對(duì)的能力，包括但不限于：a)文本檢索音頻：能夠根據(jù)輸入的文本查詢檢索相關(guān)的音頻；b)音頻檢索文本：能夠查詢檢索與音頻相關(guān)聯(lián)的文字描述。評(píng)測(cè)方法：按照被測(cè)指標(biāo)描述構(gòu)建包含一個(gè)或多個(gè)文音檢索能力的測(cè)試數(shù)據(jù)集，測(cè)試數(shù)據(jù)集中應(yīng)包含不少于400條測(cè)試數(shù)據(jù)（單個(gè)能力項(xiàng)不少于200條測(cè)試數(shù)據(jù)使用可編程測(cè)試工具和測(cè)試統(tǒng)計(jì)工具將測(cè)試數(shù)據(jù)集輸入到被測(cè)系統(tǒng)并獲取運(yùn)行結(jié)果，可參考附錄A.1.1對(duì)結(jié)果的準(zhǔn)確率進(jìn)行計(jì)算。5.2.29視頻異常檢測(cè)評(píng)測(cè)預(yù)訓(xùn)練模型是否具有理解并識(shí)別視頻中異常行為或事件的能力，包括但不限于：a)人員異常行為：評(píng)估模型對(duì)視頻中人員的異常行為（如打斗、奔跑等）的識(shí)別能力；b)交通異常事件：評(píng)估模型對(duì)視頻中交通工具的異常行駛行為（如違章行駛、事故發(fā)生等）的識(shí)別能力；c)環(huán)境異常狀況：評(píng)估模型對(duì)視頻中環(huán)境異常（如火災(zāi)、洪水等自然災(zāi)害）的檢測(cè)能力。評(píng)測(cè)方法：按照被測(cè)指標(biāo)描述構(gòu)建包含一個(gè)或多個(gè)視頻異常檢測(cè)能力的測(cè)試數(shù)據(jù)集，測(cè)試數(shù)據(jù)集中應(yīng)包含不少于600條測(cè)試數(shù)據(jù)（單個(gè)能力項(xiàng)不少于200條測(cè)試數(shù)據(jù)使用可編程測(cè)試工具和測(cè)試統(tǒng)計(jì)工具將測(cè)試數(shù)據(jù)集輸入到被測(cè)系統(tǒng)并獲取運(yùn)行結(jié)果，可參考附錄A.1.1對(duì)結(jié)果的準(zhǔn)確率進(jìn)行計(jì)算。5.2.30有聲視頻檢索評(píng)測(cè)預(yù)訓(xùn)練模型是否具有從有聲視頻資料中檢索與查詢內(nèi)容相關(guān)信息的能力，包括但不限于：a)視頻內(nèi)容理解：能夠分析視頻中的視覺(jué)元素、場(chǎng)景和行為，并與查詢語(yǔ)句相匹配；b)音頻內(nèi)容理解：能夠理解視頻中的對(duì)話、音樂(lè)或其他聲音元素，并根據(jù)用戶的查詢提供相關(guān)信c)跨媒體檢索：能夠根據(jù)文本查詢檢索與之相關(guān)聯(lián)的視頻片段或音頻，或者根據(jù)視頻/音頻內(nèi)容檢索出相關(guān)的文本描述。評(píng)測(cè)方法：按照被測(cè)指標(biāo)描述構(gòu)建包含一個(gè)或多個(gè)有聲視頻檢索能力的測(cè)試數(shù)據(jù)集，測(cè)試數(shù)據(jù)集中應(yīng)包含不少于600條測(cè)試數(shù)據(jù)（單個(gè)能力項(xiàng)不少于200條測(cè)試數(shù)據(jù)使用可編程測(cè)試工具和測(cè)試統(tǒng)計(jì)工具將測(cè)試數(shù)據(jù)集輸入到被測(cè)系統(tǒng)并獲取運(yùn)行結(jié)果，可參考附錄A.1.1對(duì)結(jié)果的準(zhǔn)確率、召回率和F1分?jǐn)?shù)進(jìn)行計(jì)算。5.2.31有聲視頻問(wèn)答評(píng)測(cè)預(yù)訓(xùn)練模型是否具備從有聲視頻內(nèi)容中提取信息并回答相關(guān)問(wèn)題的能力，包括但不限于：a)視聽(tīng)內(nèi)容理解：能夠理解視頻和音頻中的情境、情感及對(duì)話內(nèi)容，提供準(zhǔn)確的信息提??；b)多模態(tài)交互：能夠結(jié)合視頻圖像與音頻信息，對(duì)復(fù)雜的多模態(tài)問(wèn)答問(wèn)題給出合理的答案；GB/TXXXXX—XXXXc)實(shí)時(shí)信息處理：能夠從實(shí)時(shí)視頻和音頻流中快速提取信息，支持實(shí)時(shí)問(wèn)答交互；d)專業(yè)領(lǐng)域問(wèn)答：針對(duì)特定領(lǐng)域的視頻和音頻內(nèi)容（如醫(yī)學(xué)、科技、教育等），能夠提供專業(yè)的信息解答和建議。評(píng)測(cè)方法：按照被測(cè)指標(biāo)描述構(gòu)建包含一個(gè)或多個(gè)有聲視頻問(wèn)答能力的測(cè)試數(shù)據(jù)集，測(cè)試數(shù)據(jù)集中應(yīng)包含不少于800條測(cè)試數(shù)據(jù)（單個(gè)能力項(xiàng)不少于200條測(cè)試數(shù)據(jù)使用可編程測(cè)試工具和測(cè)試統(tǒng)計(jì)工具將測(cè)試數(shù)據(jù)集輸入到被測(cè)系統(tǒng)并獲取運(yùn)行結(jié)果，可參考附錄A.1.1對(duì)結(jié)果的準(zhǔn)確率進(jìn)行計(jì)算。5.3生成能力評(píng)測(cè)指標(biāo)5.3.1概述預(yù)訓(xùn)練模型生成能力評(píng)測(cè)維度主要分為單模態(tài)生成能力和多模態(tài)生成能力。單模態(tài)維度主要包括文本維度，多模態(tài)主要包括圖文、圖文音、文音3個(gè)二級(jí)維度。生成能力評(píng)測(cè)維度和指標(biāo)說(shuō)明見(jiàn)表2。表2生成能力評(píng)測(cè)維度和說(shuō)明序號(hào)一級(jí)維度二級(jí)維度典型任務(wù)說(shuō)明單模態(tài)文本摘要總結(jié)模型能夠理解文本并根據(jù)輸入內(nèi)容生成相應(yīng)摘要總機(jī)器翻譯模型能夠理解文本指令，將文本從一種語(yǔ)言翻譯成另一種語(yǔ)言。文本改寫(xiě)模型將文本從一種表述方式改寫(xiě)成另一種表述方式。4.代碼生成模型能夠理解文本指令，生成符合其要求的編程代碼。半結(jié)構(gòu)化數(shù)據(jù)生成模型能夠理解文本指令，并根據(jù)輸入指令生成sql、json、xml等內(nèi)容。文本生成圖片模型能夠理解文本指令，生成符合其要求的圖片。圖片生成文本描述指模型能夠?qū)D片的內(nèi)容進(jìn)行概括總結(jié)，生成合理的文本描述。文本生成視頻模型能夠理解文本指令，生成符合其要求的視頻。視頻生成文本描述模型能夠?qū)σ曨l的內(nèi)容進(jìn)行概括總結(jié)，生成合理的文本描述。圖文音文本生成有聲視頻模型能夠理解文本指令，生成符合其要求的有聲視頻。視頻生成文本描述模型能夠?qū)τ新曇曨l的內(nèi)容進(jìn)行概括總結(jié)，生成合理的文本描述。文音語(yǔ)音合成模型可以根據(jù)指定文本生成對(duì)應(yīng)的語(yǔ)音。語(yǔ)音識(shí)別模型能夠理解輸入的語(yǔ)音，并將其轉(zhuǎn)錄為對(duì)應(yīng)的文本。語(yǔ)音翻譯模型能夠理解輸入語(yǔ)音及其語(yǔ)言，并將其翻譯為指定語(yǔ)言所對(duì)應(yīng)的語(yǔ)音。5.3.2摘要總結(jié)評(píng)測(cè)預(yù)訓(xùn)練模型的摘要和總結(jié)能力。包括但不限于：a)摘要能力：評(píng)測(cè)模型能夠從長(zhǎng)文本中提取關(guān)鍵信息，生成簡(jiǎn)潔、準(zhǔn)確的摘要，同時(shí)保留原文的重要信息；GB/TXXXXX—XXXXb)總結(jié)能力：評(píng)測(cè)模型能夠理解輸入文本的主旨和意圖，以簡(jiǎn)練的語(yǔ)言表達(dá)出來(lái)，同時(shí)保留主要信息；c)段落關(guān)系理解：測(cè)試模型能夠理解段落之間的邏輯關(guān)系，以及如何在整個(gè)文檔中組織信息；d)篇章理解：測(cè)試模型能夠理解整個(gè)文章或文檔的結(jié)構(gòu)和主旨，以及各部分之間的聯(lián)系。評(píng)測(cè)方法：按照被測(cè)指標(biāo)描述構(gòu)建包含一個(gè)或多個(gè)摘要總結(jié)能力的測(cè)試數(shù)據(jù)集，測(cè)試數(shù)據(jù)集中應(yīng)包含不少于800條測(cè)試數(shù)據(jù)，使用可編程測(cè)試工具和測(cè)試統(tǒng)計(jì)工具將測(cè)試數(shù)據(jù)集輸入到被測(cè)系統(tǒng)并獲取運(yùn)行結(jié)果，可參考附錄A.2對(duì)結(jié)果進(jìn)行主觀評(píng)測(cè)。5.3.3機(jī)器翻譯評(píng)測(cè)預(yù)訓(xùn)練模型將文本從一種語(yǔ)言翻譯成另一種語(yǔ)言的能力，包括但不限于：a)評(píng)測(cè)模型翻譯準(zhǔn)確的能力；b)評(píng)測(cè)模型對(duì)行業(yè)特定術(shù)語(yǔ)掌握程度。評(píng)測(cè)方法：按照被測(cè)指標(biāo)描述構(gòu)建包含一個(gè)或多個(gè)機(jī)器翻譯能力的測(cè)試數(shù)據(jù)集，測(cè)試數(shù)據(jù)集中應(yīng)包含不少于400條測(cè)試數(shù)據(jù)，使用可編程測(cè)試工具和測(cè)試統(tǒng)計(jì)工具將測(cè)試數(shù)據(jù)集輸入到被測(cè)系統(tǒng)并獲取運(yùn)行結(jié)果，可參考附錄A.1.4對(duì)結(jié)果的BLEU指標(biāo)進(jìn)行計(jì)算。5.3.4文本改寫(xiě)評(píng)測(cè)預(yù)訓(xùn)練模型將文本從一種表述方式改寫(xiě)成另一種表述方式的能力，包括但不限于：a)評(píng)測(cè)模型對(duì)原文本內(nèi)容理解能力；b)評(píng)測(cè)模型根據(jù)給定文本風(fēng)格對(duì)文本改寫(xiě)的能力。評(píng)測(cè)方法：按照被測(cè)指標(biāo)描述構(gòu)建包含一個(gè)或多個(gè)文本改寫(xiě)能力的測(cè)試數(shù)據(jù)集，測(cè)試數(shù)據(jù)集中應(yīng)包含不少于400條測(cè)試數(shù)據(jù)，使用可編程測(cè)試工具和測(cè)試統(tǒng)計(jì)工具將測(cè)試數(shù)據(jù)集輸入到被測(cè)系統(tǒng)并獲取運(yùn)行結(jié)果，可參考附錄A.2對(duì)結(jié)果進(jìn)行主觀評(píng)測(cè)。5.3.5代碼生成評(píng)測(cè)預(yù)訓(xùn)練模型根據(jù)給定目標(biāo)生成可運(yùn)行編程代碼的能力，包括但不限于：a)編程語(yǔ)言掌握能力：評(píng)測(cè)模型對(duì)C、Python、Java、JavaScript、go等不少于1種編程語(yǔ)言的掌握能力；b)代碼質(zhì)量：評(píng)測(cè)模型生成的代碼是否能夠正常運(yùn)行、是否有語(yǔ)法錯(cuò)誤、是否符合編程規(guī)范、運(yùn)行復(fù)雜度和輸出結(jié)果準(zhǔn)確率等。評(píng)測(cè)方法：按照被測(cè)指標(biāo)描述構(gòu)建包含一個(gè)或多個(gè)代碼生成能力的測(cè)試數(shù)據(jù)集，測(cè)試數(shù)據(jù)集中應(yīng)包含不少于400條測(cè)試數(shù)據(jù)，使用可編程測(cè)試工具和測(cè)試統(tǒng)計(jì)工具將測(cè)試數(shù)據(jù)集輸入到被測(cè)系統(tǒng)并獲取運(yùn)行結(jié)果，可參考附錄A.2對(duì)結(jié)果進(jìn)行主觀評(píng)測(cè)。5.3.6半結(jié)構(gòu)化數(shù)據(jù)生成評(píng)測(cè)預(yù)訓(xùn)練模型根據(jù)輸入指令生成sql、json、xml等內(nèi)容的能力。包括但不限于：a)格式正確性：評(píng)測(cè)生成的半結(jié)構(gòu)化數(shù)據(jù)是否有語(yǔ)法錯(cuò)誤、是否符合文件規(guī)范；b)內(nèi)容質(zhì)量：評(píng)測(cè)是否理解指令意圖，生成符合要求的半結(jié)構(gòu)化數(shù)據(jù)內(nèi)容。評(píng)測(cè)方法：按照被測(cè)指標(biāo)描述構(gòu)建包含一個(gè)或多個(gè)半結(jié)構(gòu)化數(shù)據(jù)生成能力的測(cè)試數(shù)據(jù)集，測(cè)試數(shù)據(jù)集中應(yīng)包含不少于400條測(cè)試數(shù)據(jù)，使用可編程測(cè)試工具和測(cè)試統(tǒng)計(jì)工具將測(cè)試數(shù)據(jù)集輸入到被測(cè)系統(tǒng)并獲取運(yùn)行結(jié)果，可參考附錄A.2對(duì)結(jié)果進(jìn)行主觀評(píng)測(cè)。5.3.7文本生成圖片描述GB/TXXXXX—XXXX評(píng)測(cè)預(yù)訓(xùn)練模型根據(jù)輸入的一句話或者一段文字，完成對(duì)文本的理解，根據(jù)理解的含義和文字的要求生成目標(biāo)圖片的能力。包括但不限于：a)圖片質(zhì)量：評(píng)測(cè)生成圖片的清晰度、色彩、光線、細(xì)節(jié)等視覺(jué)因素；b)語(yǔ)義內(nèi)容：評(píng)測(cè)生成圖片是否符合文本輸入的語(yǔ)義內(nèi)容。c)一致性和邏輯性：評(píng)測(cè)生成圖片與文本描述的一致性和邏輯性，避免出現(xiàn)不合理或矛盾的元素。評(píng)測(cè)方法：按照被測(cè)指標(biāo)描述構(gòu)建包含一個(gè)或多個(gè)文本生成圖像能力的測(cè)試數(shù)據(jù)集，測(cè)試數(shù)據(jù)集中應(yīng)包含不少于600條測(cè)試數(shù)據(jù)，使用可編程測(cè)試工具和測(cè)試統(tǒng)計(jì)工具將測(cè)試數(shù)據(jù)集輸入到被測(cè)系統(tǒng)并獲取運(yùn)行結(jié)果，可參考附錄A.2對(duì)結(jié)果的相關(guān)度、完整度、有效性進(jìn)行主觀評(píng)測(cè)。5.3.8圖片生成文本描述評(píng)測(cè)預(yù)訓(xùn)練模型根據(jù)對(duì)圖片內(nèi)容的概括總結(jié)，生成合理文本描述的能力，包括但不限于：a)準(zhǔn)確描述能力：評(píng)測(cè)模型對(duì)圖片整體與細(xì)節(jié)內(nèi)容的提取與描述能力；b)主次提取能力：評(píng)測(cè)模型對(duì)圖片中主次體的提取與側(cè)重點(diǎn)的偏移能力；c)抽象描述能力：評(píng)測(cè)模型對(duì)圖片隱含內(nèi)容的理解與描述能力。評(píng)測(cè)方法：按照被測(cè)指標(biāo)描述構(gòu)建圖片測(cè)試數(shù)據(jù)集，測(cè)試數(shù)據(jù)集中應(yīng)包含不少于600條測(cè)試數(shù)據(jù)，使用可編程測(cè)試工具和測(cè)試統(tǒng)計(jì)工具將測(cè)試數(shù)據(jù)集輸入到被測(cè)系統(tǒng)并獲取運(yùn)行結(jié)果，可參考附錄A.2對(duì)結(jié)果進(jìn)行主觀評(píng)測(cè)。5.3.9文本生成視頻評(píng)測(cè)預(yù)訓(xùn)練模型根據(jù)輸入的一句話或者一段文字，完成對(duì)文本的理解，根據(jù)理解的含義和文字的要求生成目標(biāo)視頻片段的能力。包括但不限于：a)視頻質(zhì)量：評(píng)估生成視頻的視覺(jué)質(zhì)量，包括但不限于清晰度、色彩、光線、細(xì)節(jié)等方面；b)語(yǔ)義內(nèi)容：評(píng)估生成視頻的語(yǔ)義內(nèi)容是否符合文本輸入的語(yǔ)義；c)穩(wěn)定性：評(píng)估生成視頻的穩(wěn)定性，包括視頻的幀率、碼率、幀間延遲等方面；d)一致性：評(píng)估生成視頻中的感興趣對(duì)象在視頻序列中表現(xiàn)出的一致性，如外觀、位置、運(yùn)動(dòng)軌跡和特征的一致性等。評(píng)測(cè)方法：按照被測(cè)指標(biāo)描述構(gòu)建包含一個(gè)或多個(gè)文本生成視頻能力的測(cè)試數(shù)據(jù)集，測(cè)試數(shù)據(jù)集中應(yīng)包含不少于800條測(cè)試數(shù)據(jù)，使用可編程測(cè)試工具和測(cè)試統(tǒng)計(jì)工具將測(cè)試數(shù)據(jù)集輸入到被測(cè)系統(tǒng)并獲取運(yùn)行結(jié)果，可參考附錄A.2對(duì)結(jié)果的相關(guān)度、完整度、有效性進(jìn)行主觀評(píng)測(cè)。5.3.10視頻生成文本描述評(píng)測(cè)預(yù)訓(xùn)練模型根據(jù)對(duì)視頻內(nèi)容的概括總結(jié)，生成合理的文本描述的能力，包括但不限于：a)準(zhǔn)確描述能力：評(píng)測(cè)模型對(duì)視頻整體與細(xì)節(jié)內(nèi)容的提取與描述能力；b)主次提取能力：評(píng)測(cè)模型對(duì)視頻中主次體的提取與側(cè)重點(diǎn)的偏移能力；c)抽象描述能力：評(píng)測(cè)模型對(duì)視頻隱含內(nèi)容的理解與描述能力；d)時(shí)間描述能力：評(píng)測(cè)模型對(duì)視頻時(shí)間維度的理解能力，包括能否正確識(shí)別正序、倒敘和插敘拍攝手法等。評(píng)測(cè)方法：按照被測(cè)指標(biāo)描述構(gòu)建包含一個(gè)或多個(gè)視頻生成文本描述能力的測(cè)試數(shù)據(jù)集，測(cè)試數(shù)據(jù)集中應(yīng)包含不少于800條測(cè)試數(shù)據(jù)，使用可編程測(cè)試工具和測(cè)試統(tǒng)計(jì)工具將測(cè)試數(shù)據(jù)集輸入到被測(cè)系統(tǒng)并獲取運(yùn)行結(jié)果，可參考附錄A.2對(duì)結(jié)果進(jìn)行主觀評(píng)測(cè)。5.3.11文本生成有聲視頻GB/TXXXXX—XXXX評(píng)測(cè)預(yù)訓(xùn)練模型根據(jù)輸入的一句話或者一段文字，完成對(duì)文本的理解，根據(jù)理解的含義和文字的要求生成目標(biāo)視頻片段的能力。包括但不限于：a)視頻質(zhì)量：評(píng)估生成視頻的視覺(jué)質(zhì)量，包括但不限于清晰度、色彩、光線、細(xì)節(jié)等方面；b)語(yǔ)義內(nèi)容：評(píng)估生成視頻的語(yǔ)義內(nèi)容是否符合文本輸入的語(yǔ)義；c)穩(wěn)定性：評(píng)估生成視頻的穩(wěn)定性，包括視頻的幀率、碼率、幀間延遲等方面；d)一致性：評(píng)估生成視頻中的感興趣對(duì)象在視頻序列中表現(xiàn)出的一致性，如外觀、位置、運(yùn)動(dòng)軌跡和特征的一致性等。評(píng)測(cè)方法：按照被測(cè)指標(biāo)描述構(gòu)建包含一個(gè)或多個(gè)文本生成有聲視頻能力的測(cè)試數(shù)據(jù)集，測(cè)試數(shù)據(jù)集中應(yīng)包含不少于800條測(cè)試數(shù)據(jù)，使用可編程測(cè)試工具和測(cè)試統(tǒng)計(jì)工具將測(cè)試數(shù)據(jù)集輸入到被測(cè)系統(tǒng)并獲取運(yùn)行結(jié)果，可參考附錄A.2對(duì)結(jié)果的相關(guān)度、完整度、有效性進(jìn)行主觀評(píng)測(cè)。5.3.12視頻生成文本描述評(píng)測(cè)預(yù)訓(xùn)練模型根據(jù)對(duì)視頻內(nèi)容的概括總結(jié)，生成合理的文本描述的能力，包括但不限于：a)準(zhǔn)確描述能力：評(píng)測(cè)模型對(duì)視頻整體與細(xì)節(jié)內(nèi)容的提取與描述能力；b)主次提取能力：評(píng)測(cè)模型對(duì)視頻中主次體的提取與側(cè)重點(diǎn)的偏移能力；c)抽象描述能力：評(píng)測(cè)模型對(duì)視頻隱含內(nèi)容的理解與描述能力；d)時(shí)間描述能力：評(píng)測(cè)模型對(duì)視頻時(shí)間維度的理解能力，包括能否正確識(shí)別正序、倒敘和插敘拍攝手法等。評(píng)測(cè)方法：按照被測(cè)指標(biāo)描述構(gòu)建視頻生成文本描述能力的測(cè)試數(shù)據(jù)集，測(cè)試數(shù)據(jù)集中應(yīng)包含不少于800條測(cè)試數(shù)據(jù)，使用可編程測(cè)試工具和測(cè)試統(tǒng)計(jì)工具將測(cè)試數(shù)據(jù)集輸入到被測(cè)系統(tǒng)并獲取運(yùn)行結(jié)果，可參考附錄A.2對(duì)結(jié)果進(jìn)行主觀評(píng)測(cè)。5.3.13語(yǔ)音合成評(píng)測(cè)預(yù)訓(xùn)練模型根據(jù)指定文本生成對(duì)應(yīng)的語(yǔ)音的能力，包括但不限于：a)演講、對(duì)話、新聞、故事等的語(yǔ)音合成能力：模型能夠理解輸入的文本，并將其生成為對(duì)應(yīng)的語(yǔ)音；b)語(yǔ)音合成質(zhì)量：模型生成的語(yǔ)音從自然度、清晰度、韻律感等方面綜合評(píng)測(cè)。評(píng)測(cè)方法：按照被測(cè)指標(biāo)描述構(gòu)建包含一個(gè)或多個(gè)語(yǔ)音合成能力的測(cè)試數(shù)據(jù)集，測(cè)試數(shù)據(jù)集中應(yīng)包含不少于400條測(cè)試數(shù)據(jù)，使用可編程測(cè)試工具和測(cè)試統(tǒng)計(jì)工具將測(cè)試數(shù)據(jù)集輸入到被測(cè)系統(tǒng)并獲取運(yùn)行結(jié)果，可參考附錄A.2對(duì)結(jié)果進(jìn)行主觀評(píng)測(cè)。5.3.14語(yǔ)音識(shí)別評(píng)測(cè)預(yù)訓(xùn)練模型將所接收到的有效語(yǔ)音信號(hào)轉(zhuǎn)化為與語(yǔ)音內(nèi)容相符的文字結(jié)果，并將其輸出的能力，包括但不限于：a)中文識(shí)別能力：模型能夠理解中文普通話，以及不同年齡、性別、口音的發(fā)音人輸入的語(yǔ)音，并將其轉(zhuǎn)錄為對(duì)應(yīng)的文本；b)語(yǔ)音生成文本的準(zhǔn)確性：評(píng)測(cè)模型生成的文本是否正確、是否有語(yǔ)法錯(cuò)誤等。評(píng)測(cè)方法：按照被測(cè)指標(biāo)描述構(gòu)建包含一個(gè)或多個(gè)語(yǔ)音識(shí)別能力的測(cè)試數(shù)據(jù)集，測(cè)試數(shù)據(jù)集中應(yīng)包含不少于400條測(cè)試數(shù)據(jù)，使用可編程測(cè)試工具和測(cè)試統(tǒng)計(jì)工具將測(cè)試數(shù)據(jù)集輸入到被測(cè)系統(tǒng)并獲取運(yùn)行結(jié)果，可參考附錄A.2對(duì)結(jié)果進(jìn)行主觀評(píng)測(cè)。5.3.15語(yǔ)音翻譯評(píng)測(cè)預(yù)訓(xùn)練模型根據(jù)輸入的語(yǔ)音內(nèi)容生成相應(yīng)指定語(yǔ)言翻譯的語(yǔ)音能力，包括但不限于：GB/TXXXXX—XXXXa)中、英、德、法、意等多種語(yǔ)言翻譯能力：模型能夠理解輸入語(yǔ)音及其語(yǔ)言，將其翻譯為指定語(yǔ)言所對(duì)應(yīng)的語(yǔ)音；b)翻譯質(zhì)量：評(píng)測(cè)模型能夠正確地識(shí)別語(yǔ)音并翻譯成正確的文本，同時(shí)也要評(píng)估是否能夠?qū)⒄_的文本準(zhǔn)確無(wú)誤地轉(zhuǎn)換成語(yǔ)音等。評(píng)測(cè)方法：按照被測(cè)指標(biāo)描述構(gòu)建包含一個(gè)或多個(gè)語(yǔ)音翻譯能力的測(cè)試數(shù)據(jù)集，測(cè)試數(shù)據(jù)集中應(yīng)包含不少于400條測(cè)試數(shù)據(jù)，使用可編程測(cè)試工具和測(cè)試統(tǒng)計(jì)工具將測(cè)試數(shù)據(jù)集輸入到被測(cè)系統(tǒng)并獲取運(yùn)行結(jié)果，可參考附錄A.2對(duì)結(jié)果進(jìn)行主觀評(píng)測(cè)。5.4安全性評(píng)測(cè)指標(biāo)預(yù)訓(xùn)練模型的安全性應(yīng)符合《互聯(lián)網(wǎng)信息服務(wù)深度合成管理規(guī)定》《生成式人工智能服務(wù)管理暫行辦法》等國(guó)家政策文件的要求。6評(píng)測(cè)要求6.1評(píng)測(cè)數(shù)據(jù)集評(píng)測(cè)數(shù)據(jù)集應(yīng)滿足以下要求：a)合規(guī)性和隱私保護(hù)：數(shù)據(jù)收集過(guò)程遵循適用的法規(guī)和隱私保護(hù)標(biāo)準(zhǔn)，保護(hù)用戶隱私。如通過(guò)用戶問(wèn)卷收集、人類專家構(gòu)建、權(quán)威數(shù)據(jù)集篩選等方式進(jìn)行評(píng)估數(shù)據(jù)集的構(gòu)建；b)評(píng)估指標(biāo)完備：應(yīng)為每個(gè)評(píng)價(jià)指標(biāo)構(gòu)建滿足相應(yīng)數(shù)量的數(shù)據(jù)集；c)時(shí)效性：數(shù)據(jù)集應(yīng)結(jié)合開(kāi)源數(shù)據(jù)集和自制數(shù)據(jù)集，定期更新維護(hù)；d)可用性：數(shù)據(jù)集格式和接口應(yīng)符合廣泛的標(biāo)準(zhǔn)，以便于獲取和使用；e)多樣性和代表性：應(yīng)涵蓋不同的背景、場(chǎng)景、領(lǐng)域等，以確保數(shù)據(jù)能夠覆蓋不同的使用情況；f)數(shù)據(jù)標(biāo)注流程應(yīng)符合GB/T42755-2023中第6章和第7章的要求。6.2評(píng)測(cè)環(huán)境根據(jù)被測(cè)模型的功能手冊(cè)，應(yīng)按照被測(cè)系統(tǒng)的使用要求進(jìn)行軟硬件環(huán)境配置。6.3評(píng)測(cè)執(zhí)行基于評(píng)價(jià)方案，開(kāi)展測(cè)試活動(dòng)：a)自動(dòng)化測(cè)試1)在評(píng)測(cè)數(shù)據(jù)集中應(yīng)構(gòu)建出相應(yīng)的參考答案；2)在自動(dòng)化測(cè)試腳本中應(yīng)清晰定義具體的評(píng)價(jià)指標(biāo)計(jì)算方法和評(píng)分規(guī)則。b)人工測(cè)試1)應(yīng)制定清晰、具體的評(píng)價(jià)標(biāo)準(zhǔn)和指南，并對(duì)評(píng)價(jià)人員進(jìn)行充分的培訓(xùn)，確保所有評(píng)價(jià)人員對(duì)評(píng)價(jià)的標(biāo)準(zhǔn)有統(tǒng)一的理解和執(zhí)行；2)應(yīng)分析評(píng)價(jià)結(jié)果的分布和一致性，及時(shí)發(fā)現(xiàn)潛在的評(píng)價(jià)偏差或不一致問(wèn)題；3)宜選擇具有相關(guān)領(lǐng)域知識(shí)和經(jīng)驗(yàn)的評(píng)價(jià)人員，以確保評(píng)價(jià)結(jié)果準(zhǔn)確性和專業(yè)性。4)宜為評(píng)價(jià)人員提供相應(yīng)的評(píng)價(jià)工具，以支持評(píng)價(jià)人員的工作；5)宜對(duì)評(píng)價(jià)人員定期進(jìn)行復(fù)訓(xùn)，更新評(píng)價(jià)知識(shí)和技能，尤其是當(dāng)標(biāo)準(zhǔn)內(nèi)容有調(diào)整時(shí)；6)宜定期收集評(píng)價(jià)人員的反饋，用于優(yōu)化評(píng)價(jià)流程和評(píng)價(jià)標(biāo)準(zhǔn)。c)使用大模型作為裁判進(jìn)行測(cè)試GB/TXXXXX—XXXX1)應(yīng)選擇與評(píng)估任務(wù)相關(guān)性高的大模型，可使用多個(gè)大模型進(jìn)行交叉驗(yàn)證，以提高測(cè)試的穩(wěn)定性；2)應(yīng)定義清晰的評(píng)估標(biāo)準(zhǔn)和評(píng)分規(guī)則，并轉(zhuǎn)成能激發(fā)大模型更佳性能表現(xiàn)的輸入提示詞，確保大模型按照既定標(biāo)準(zhǔn)進(jìn)行測(cè)試；3)應(yīng)在測(cè)試過(guò)程中引入人工審核機(jī)制，及時(shí)識(shí)別問(wèn)題和調(diào)整評(píng)估策略，以確保評(píng)估的準(zhǔn)確性和公正性；4)應(yīng)確保測(cè)試過(guò)程中大模型訪問(wèn)接口的穩(wěn)定可靠，以確保評(píng)估過(guò)程的連續(xù)性。6.4評(píng)測(cè)工具針對(duì)開(kāi)放API和不開(kāi)放API的兩種系統(tǒng)，應(yīng)準(zhǔn)備兩種評(píng)測(cè)工具：a)對(duì)開(kāi)放API的預(yù)訓(xùn)練模型系統(tǒng)，應(yīng)編寫(xiě)API調(diào)用的測(cè)試工具

人人文庫(kù)> 全部分類> 行業(yè)資料 > 各類標(biāo)準(zhǔn)

溫馨提示

1. 本站所有資源如無(wú)特殊說(shuō)明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽，若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間，僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理，對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容，請(qǐng)與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

人工智能 預(yù)訓(xùn)練模型 第2部分：評(píng)測(cè)指標(biāo)與方法 征求意見(jiàn)稿

文檔簡(jiǎn)介

溫馨提示

最新文檔

評(píng)論

相關(guān)文檔

人工智能預(yù)訓(xùn)練模型第2部分：評(píng)測(cè)指標(biāo)與方法征求意見(jiàn)稿