版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)
文檔簡介
『弈衡』多模態(tài)大模型評測體系白皮書發(fā)布單位:中移智庫編制單位:中國移動通信研究院 1on 31.1多模態(tài)大模型發(fā)展現(xiàn)狀 31.2評測需求 41.3評測問題與挑戰(zhàn) 5 72.1主要評測方式 72.2典型評測維度 72.3常見評測指標(biāo) 8 o· 4.1整體框架 134.2評測場景 144.3評測要素 164.4評測維度 22os 25 271前言隨著人工智能技術(shù)的迅猛發(fā)展,它已成為全球科技革命的核心驅(qū)動力。特別是2017年Transformer模型提出后,人工智能大模型以超凡的性能和無限的可能性,迅速成為科技界的焦點。2023年初,GPT-4[1]的問世更是在全球范圍內(nèi)引起了巨大反響,標(biāo)志著大模型技術(shù)首次進(jìn)入公眾視野[2]。隨著大模型技術(shù)的不斷演進(jìn),其處理能力已從單一的文字信息擴展至圖像、語音等多模態(tài)數(shù)據(jù),多模態(tài)大模型進(jìn)入快速發(fā)展階段。它們不僅在日常生活中的輔助作畫、圖片解讀等場景中展現(xiàn)出應(yīng)用潛力,更在視頻數(shù)據(jù)分析、多目標(biāo)識別等生產(chǎn)領(lǐng)域發(fā)揮著重要作用。目前典型的多模態(tài)大模型有國外的GPT-4Vision、Gemini,國內(nèi)的文心一言、訊飛星火、智譜清言等[3]。這些大模型算法各異,在不同的任務(wù)場景下各有優(yōu)劣,如何對這些多模態(tài)大模型開展客觀、科學(xué)的評測,評估特定任務(wù)場景下的最優(yōu)選擇,對大模型的研發(fā)迭代以及應(yīng)用落地都具有重要意義。相比于語言類大模型,多模態(tài)大模型具備對文本、圖像、視頻和音頻等數(shù)據(jù)進(jìn)行綜合處理的能力,在生產(chǎn)生活領(lǐng)域中具有廣泛的應(yīng)用前景。同時,多模態(tài)大模型評測面臨評測數(shù)據(jù)更多樣、評測任務(wù)更豐富、評測方式更復(fù)雜、評測成本更昂貴等挑戰(zhàn)。如何應(yīng)對上述挑戰(zhàn),構(gòu)建全面、客觀的多模態(tài)大模型評測體系,成為業(yè)界關(guān)注的熱點問題。目前,部分業(yè)界企業(yè)和研究機構(gòu),如微軟、谷歌、智源研究院、上海AI實驗室、騰訊優(yōu)圖實驗室、廈門大學(xué)、南洋理工大學(xué)等,發(fā)布了相關(guān)論文、評測報告,從性能、參數(shù)量等維度對業(yè)界主流多模態(tài)大模型進(jìn)行了評測,并基于評測結(jié)果形成了榜單,如MMbench、MME等。為提升多模態(tài)大模型的實際應(yīng)用效果,推動大模型與生產(chǎn)生活的快速結(jié)合,有必要從用戶視角出發(fā),構(gòu)建一套客觀全面、公平公正的多模態(tài)大模型評測體系。中國移動技術(shù)能力評測中心作為中國移動的第三方專業(yè)評測機構(gòu),聯(lián)合業(yè)界權(quán)威機構(gòu)、頭部企業(yè),攻關(guān)多模態(tài)大模型評測難點技術(shù),基于前期評測數(shù)據(jù)和評測經(jīng)驗積累構(gòu)建“弈衡”多模態(tài)大模型評測體系,并編制本白皮書,旨在為多模態(tài)大模型的評測場景、評測指標(biāo)、評測方式等提供參考基準(zhǔn),為評測數(shù)據(jù)和評測工具的構(gòu)建提供參考指導(dǎo)。本白皮書聚焦于文生圖、圖生文、圖文理解等各類應(yīng)用場景,深入分析多模態(tài)大模型的應(yīng)用需求,系統(tǒng)總結(jié)行業(yè)典型評測體系,并創(chuàng)新地提出“弈衡”多模態(tài)大模型評測體系,助力大模型技術(shù)與行業(yè)應(yīng)用的深度融合。具體包括如下四方面內(nèi)容:一是總結(jié)梳理多模態(tài)大模型的應(yīng)用需求與評測挑戰(zhàn),將評測需求劃分為識別、理解、創(chuàng)作、推理四種任務(wù);二是廣泛調(diào)研業(yè)界多模態(tài)大模型評測2技術(shù)和評測體系,從評測方式、評測維度和評測指標(biāo)等方面進(jìn)行分析總結(jié);三是提出“弈衡”多模態(tài)大模型“2-4-6”評測框架,針對圖文雙模態(tài)大模型,詳細(xì)闡述基礎(chǔ)任務(wù)和應(yīng)用任務(wù)兩大評測場景,評測指標(biāo)、評測數(shù)據(jù)等四大評測要素,以及功能性、準(zhǔn)確性、交互性、安全性等六大評測維度;四是針對多模態(tài)大模型演進(jìn)趨勢,展望評測技術(shù)重點方向。未來,中國移動將持續(xù)跟進(jìn)多模態(tài)大模型發(fā)展,不斷優(yōu)化“弈衡”多模態(tài)大模型評測體系,與業(yè)界合作伙伴一道,共同打造評測產(chǎn)業(yè)標(biāo)準(zhǔn)化生態(tài),推動多模態(tài)大模型產(chǎn)業(yè)成熟和落地應(yīng)用,為AI+賦能千行百業(yè)貢獻(xiàn)力量。31.1多模態(tài)大模型發(fā)展現(xiàn)狀隨著人工智能技術(shù)的快速發(fā)展,多模態(tài)大模型對圖像、文本、視頻和音頻等信息的綜合處理能力不斷增強,其跨模態(tài)理解能力、高精度識別與理解能力、強大的泛化能力、豐富的表達(dá)能力、增強的交互體驗,進(jìn)一步推動了人工智能技術(shù)在各行業(yè)的廣泛應(yīng)用[4],成為推動產(chǎn)業(yè)升級與生產(chǎn)力變革的強大引擎。目前,多模態(tài)大模型正在迅速融入到各行業(yè)的應(yīng)用場景中,服務(wù)于生產(chǎn)生活的各方面。多模態(tài)大模型在多個領(lǐng)域的典型應(yīng)用如下:領(lǐng)域用于圖片創(chuàng)作、圖片內(nèi)容理解、圖形合成修針對老照片、不完整照片等圖像進(jìn)行智能修復(fù)多模態(tài)大模型中,圖文雙模態(tài)大模型發(fā)展尤為迅速,它在處理圖像與文本及其復(fù)雜交互關(guān)系上取得了顯著成果,為內(nèi)容創(chuàng)作、信息檢索、智能決策等多個應(yīng)用場景帶來了革命性的變化,應(yīng)用范圍不斷拓寬,影響力日益增強。鑒于圖文雙模態(tài)大模型的重要性和廣泛應(yīng)用前4景,本白皮書主要聚焦圖文大模型評測,深入分析評測需求以及面臨的問題和挑戰(zhàn),系統(tǒng)討論關(guān)鍵評測技術(shù),旨在為業(yè)界提供一套科學(xué)、系統(tǒng)、可操作的圖文雙模態(tài)大模型評測框架,促進(jìn)技術(shù)的健康發(fā)展與廣泛應(yīng)用,進(jìn)一步加速人工智能技術(shù)在各行各業(yè)的深度融合與創(chuàng)新實踐。1.2評測需求圖文大模型相較于傳統(tǒng)視覺模型和大語言模型,在圖像識別、圖文深度理解與推理以及圖片創(chuàng)作等復(fù)雜圖文交互任務(wù)中展現(xiàn)出了顯著的優(yōu)勢。由于不同圖文大模型在處理應(yīng)用場景時各有專長,因此選擇適合各行業(yè)特定應(yīng)用需求的模型變得尤為重要。在對圖文大模型進(jìn)行評測時,需面向不同任務(wù)類型,從各個維度進(jìn)行綜合全面的評測,以評估圖文大模型的真實性能和用戶體驗。目前,對圖文大模型的評測需求包括但不限于以下幾類任務(wù):識別類任務(wù):識別類任務(wù)主要是指對圖片中的特定事物進(jìn)行識別、計數(shù)等工作。識別類任務(wù)主要可分為基礎(chǔ)任務(wù)和應(yīng)用任務(wù)兩類。其中基礎(chǔ)任務(wù)包含實例識別、顏色識別、手勢識別、目標(biāo)檢測等基礎(chǔ)場景;應(yīng)用任務(wù)則包含商品識別、垃圾滿溢識別、道路安全識別、智慧養(yǎng)殖等更加復(fù)雜的端到端場景。識別類任務(wù)作為目前最廣泛應(yīng)用的任務(wù)之一,是衡量圖文大模型性能的重要場景,具有極高的評測價值。在評測識別類任務(wù)時,需著重關(guān)注模型的準(zhǔn)確性、魯棒性、實時性和泛化能力等指標(biāo)。理解類任務(wù):理解類任務(wù)主要是指針對輸入圖片進(jìn)行內(nèi)容理解,并回答對應(yīng)問題。理解類任務(wù)也可分為基礎(chǔ)類及應(yīng)用類兩種。基礎(chǔ)類理解任務(wù)側(cè)重于考察圖文大模型的通用能力,而不過分強調(diào)某一特定應(yīng)用場景中的實際能力。常見的基礎(chǔ)類任務(wù)包含場景理解、實例屬性、空間關(guān)系、字幕匹配、圖像質(zhì)量分析等底層核心場景;而應(yīng)用類任務(wù)則著重考察圖文大模型在專一領(lǐng)域的實際能力,與目前具有智能化需求的場景結(jié)合更加緊密,如活體檢測、人像屬性、人臉屬性、口罩檢測、舞蹈藝考評分等。理解類任務(wù)相較識別類任務(wù),不僅僅考察模型對某一特定事物的特征識別能力,更要求圖文大模型對圖像整體場景及各事物之間關(guān)系進(jìn)行精準(zhǔn)把控,并依據(jù)提問內(nèi)容進(jìn)行匹配跟蹤,相較識別任務(wù)難度更大。在評測理解類任務(wù)時,需著重關(guān)注模型的準(zhǔn)確性、上下文感知、通用性與專一性以及語義一致性等指標(biāo)。創(chuàng)作類任務(wù):創(chuàng)作類任務(wù)主要是指通過給定的文字或圖像提示信息進(jìn)行圖片創(chuàng)作或圖像修改。常見的創(chuàng)作類任務(wù)包含圖像生成、圖像風(fēng)格轉(zhuǎn)換、圖像合成等,圖文大模型根據(jù)要求生成相應(yīng)圖片,圖片需要在美觀上符合人類需求,在邏輯上符合基本的事物原理,在匹配度上完全實現(xiàn)提示詞或提示圖片中的內(nèi)容要求。創(chuàng)作類任務(wù)綜合考察了圖文大模型的文字圖像理解和圖像創(chuàng)作能力,是目前應(yīng)用最為廣泛關(guān)注度最高的任務(wù)之一。在評估創(chuàng)作類任務(wù)時,需著重關(guān)注模型的生成質(zhì)量、內(nèi)容匹配度、多樣性和創(chuàng)新性等各項指標(biāo)。推理類任務(wù):推理類任務(wù)主要是指結(jié)合輸入的圖像和文本信息,進(jìn)行邏輯推理、歸納推理或演繹推理等。推理類任務(wù)著重考察圖文大模型對圖片內(nèi)容中涉及的各類邏輯知識進(jìn)行理解、推理和解答的能力,是對圖文大模型內(nèi)在核心思考能力的真實反饋。常見的推理類任務(wù)包含下一張圖像預(yù)測、代碼編寫、數(shù)學(xué)推理等。這些問題需要精細(xì)的思考及相應(yīng)的專業(yè)知識訓(xùn)練才可作答,對普通人而言也具有較高難度,是對圖文大模型核心能力的重點考察方向。在評測推理類任務(wù)時,需著重關(guān)注模型的推理準(zhǔn)確性、推理深度、專業(yè)知識應(yīng)用、邏輯一致性和可解釋性等指標(biāo)。1.3評測問題與挑戰(zhàn)圖文大模型具有任務(wù)多樣、模型復(fù)雜等特點,傳統(tǒng)小模型的評測方式無法完全評估圖文大模型在特定場景下的實際使用效果,需要針對圖文大模型評測的問題與挑戰(zhàn)進(jìn)行深入分析,并不斷迭代評測方法,以更好地促進(jìn)圖文大模型的良性發(fā)展。首先,圖文大模型的高泛化性對評測任務(wù)選取提出挑戰(zhàn)。圖文大模型最突出的特點就在于任務(wù)適用性廣,一個圖文大模型往往可以在識別、理解、創(chuàng)作、推理等各類任務(wù)中實現(xiàn)較好的性能。但是,任何模型都具有局限性,目前某些任務(wù)圖文大模型尚無法解決。因此,如何選擇合適的評測任務(wù)場景,既能滿足業(yè)務(wù)需求,又不超越模型現(xiàn)有能力,便成為了一項重要的考慮因素。為全面評價模型能力,需要對行業(yè)痛點和圖文大模型研究現(xiàn)狀具有充分的了解,從而制定更為全面、合理的評測任務(wù)。其次,圖文大模型的高復(fù)雜度對評測數(shù)據(jù)構(gòu)建提出更高要求。圖文大模型參數(shù)量極大,內(nèi)部極為復(fù)雜,相關(guān)訓(xùn)練原理和訓(xùn)練數(shù)據(jù)分布難以獲取,這就導(dǎo)致圖文大模型評測數(shù)據(jù)構(gòu)建難度大。人類視角下的題目難易與模型視角下的不一定一致,比如繪制人手對于人類來說比較簡單,而對于目前的圖文大模型則較為困難。如何梯度性設(shè)置測試用例,以合適的低中高難度比例對模型展開全面測試,真實反饋出模型性能,是一項需要解決的難點問題。需要針對各個任務(wù)領(lǐng)域,對業(yè)界典型圖文大模型進(jìn)行大量驗證,不斷迭代優(yōu)化測試用例的設(shè)置,才能構(gòu)建更為合理的評測數(shù)據(jù)。再者,圖文大模型評價結(jié)果的客觀性也需要重點考慮。圖文大模型的任務(wù)設(shè)置和輸出結(jié)果豐富多樣,這其中既有計數(shù)、識別等易客觀評測的基礎(chǔ)任務(wù),也有圖像生成、風(fēng)格轉(zhuǎn)換等創(chuàng)作類任務(wù)。后者往往需要通過主觀評價的方式對圖文s6大模型的對應(yīng)能力進(jìn)行測試評估,這對評價人員技術(shù)水平提出更高要求。因此,需要制定好主觀評測體系基準(zhǔn),盡可能縮小不同評價人員帶來的隨機程度,以更加客觀的方式實現(xiàn)對圖文大模型創(chuàng)作能力的公平評價。綜上所述,隨著圖文大模型的快速發(fā)展,相關(guān)評測體系也需要不斷迭代優(yōu)化,著力解決行業(yè)痛點,積極應(yīng)對評測挑戰(zhàn),以客觀全面、公平公正、用戶視角為評測基本原則,對圖文大模型展開合理測試,更好地促進(jìn)圖文大模型的良性發(fā)展。7近年來圖文大模型發(fā)展迅猛,各大企業(yè)和研究機構(gòu)對圖文大模型評測體系進(jìn)行了深入探索,并發(fā)布論文、技術(shù)報告、評測榜單等各類研究成果[5]。本章參考谷歌、微軟、智譜研究院、上海AI實驗室、騰訊等企業(yè)及研究機構(gòu)的成果,對主要評測方式、典型評測維度和常見評測指標(biāo)等關(guān)鍵評測技術(shù)進(jìn)行梳理與總結(jié)。2.1主要評測方式圖文大模型的評測方式主要包括客觀評測和主觀評測兩種??陀^評測是指利用客觀評價指標(biāo)對圖文大模型的生成結(jié)果進(jìn)行定量評估,常見的客觀評測方式有準(zhǔn)確率、召回率、模型推理時間、可支持圖片分辨率等??陀^評價指標(biāo)種類多樣,可以從各個維度對圖文大模型的生成結(jié)果進(jìn)行準(zhǔn)確、全面、公平的評價,是對大模型進(jìn)行評測的主要方式。此外,由于客觀評測指標(biāo)可由計算機直接計算得到,因此能夠通過自動化腳本實現(xiàn)批量測試,大幅提高評測效率和規(guī)模[6]。主觀評測是指通過人工打分的方式對圖文大模型的預(yù)測結(jié)果進(jìn)行評價,主要應(yīng)用于創(chuàng)作類任務(wù)中,如圖片生成、風(fēng)格變換、圖像合成等[7],這些測試用例沒有明確的標(biāo)準(zhǔn)答案,因此無法以合適的客觀指標(biāo)進(jìn)行完整評測。主觀評測相較客觀評測更加靈活,更能真實反映用戶視角下的模型能力,但存在評價結(jié)果不穩(wěn)定、難以大規(guī)模實施等問題,因此,需要針對具體任務(wù)制定合理的主觀評測方法。2.2典型評測維度依據(jù)谷歌、微軟、上海AI實驗室、騰訊等企業(yè)和研究機構(gòu)的研究,圖文大模型的典型評測維度,可分為模型性能、模型泛化能力、模型魯棒性和模型一致性四個方面[8]。模型性能評測是圖文大模型的核心維度,主要評測圖文大模型對圖像和文字的識別能力、8理解能力、推理能力,如生成的圖像或文字結(jié)果相較正確答案的準(zhǔn)確度。常用性能評測指標(biāo)有圖像識別準(zhǔn)確率、與提示詞的匹配度等。模型泛化能力評測主要評測圖文大模型在多任務(wù)上的適配能力,該評測維度可以反映出大模型在實際部署中的泛化性。常見的評測方式為針對大模型未訓(xùn)練的場景和圖文數(shù)據(jù),測試模型的應(yīng)用效果。模型魯棒性評測主要評測模型應(yīng)對各類干擾時的魯棒性及可靠性,如對輸入圖片施加肉眼不可見的噪聲和數(shù)據(jù)擾動,驗證對抗攻擊情形下模型應(yīng)用效果。模型一致性評測主要評測在面對不同規(guī)模解空間的問題時,圖文大模型能否在相同知識點上給出一致答案的能力,如模型生成的圖片描述是否與相同知識點的判斷結(jié)果一致。2.3常見評測指標(biāo)目前,各類圖文大模型評測指標(biāo)從不同角度對模型性能進(jìn)行了綜合評判,常見指標(biāo)有準(zhǔn)RP、碳足跡等[9]。兼顧圖文大模型預(yù)測結(jié)果的正確樣本比例和查計算模型訓(xùn)練、推理階段消耗電力的二氧化9除以上提到的各類常用指標(biāo)外,部分評測還針對圖文大模型在業(yè)務(wù)中的實際應(yīng)用場景,選取更有針對性更能反映業(yè)務(wù)性能的其他指標(biāo),如召回率、多輪對話輪次等。近年來,隨著圖文大模型的快速發(fā)展,多家科研機構(gòu)及企業(yè)提出了一系列大模型評測體系,如上海AI實驗室的MMBench、華中科技大學(xué)的OCRBench、智源研究院的智源評測體系、微軟的LLaVA-Bench、希伯來大學(xué)的VisIT-Bench、騰訊的SEED-Bench等,這些體系從多個方面對圖文大模型進(jìn)行了評測,具有較高的參考和應(yīng)用價值。本章將對典型評測體系進(jìn)行概括介紹。lMMBench[10]MMBench是上海人工智能實驗室于2023年8月提出的多模態(tài)大模型評測體系,相關(guān)研發(fā)人員針對當(dāng)下評測方式存在的主觀評測多樣性差、客觀評測任務(wù)覆蓋少等問題,提出了逐漸細(xì)化的評測任務(wù)設(shè)置和CirularEval評測方式。具體來說,在評測數(shù)據(jù)構(gòu)建上,MMBench從三個維度設(shè)計了大量單選題,第一級是感知與推理能力,第二級包含細(xì)粒度感知、邏輯推理、相關(guān)性推理等六項能力,第三級包含目標(biāo)定位、圖像質(zhì)量、社會關(guān)系等二十項能力。在評測方式上,針對當(dāng)前大模型指令跟隨性不完善的問題,利用ChatGPT進(jìn)行輔助評測,并將問題選項進(jìn)行環(huán)狀重排,從而更好地反映大模型的真實性能。lOCRBench[11]OCRBench是華中科技大學(xué)聯(lián)合其它機構(gòu)于2024年2月提出的多模態(tài)大模型評測體系,該體系針對OCR領(lǐng)域的常見任務(wù)和典型數(shù)據(jù)集,對Gemini、GPT-4V等十四個多模態(tài)大模型進(jìn)行了評測。具體來說,OCRBench聚焦于多模態(tài)大模型的OCR能力,針對文字識別、場景文本視覺問答、文檔視覺問答、關(guān)鍵信息抽取和手寫數(shù)學(xué)表達(dá)式識別這五種任務(wù)設(shè)計專門的提示詞,并選取COCOText、STVQA等二十七個主流開源數(shù)據(jù)集進(jìn)行測試驗證。l智源評測體系[12]智源評測體系是智源研究院于2024年5月發(fā)布的大模型評測體系,該體系對國內(nèi)外一百四十余語言及多模態(tài)大模型進(jìn)行了全方位測評。在評測任務(wù)設(shè)置上,智源評測體系針對圖片問答、文本生成圖像、文本生成視頻、圖像文本匹配等任務(wù)進(jìn)行了測試,主要考察了模型的理解和生成能力。在評測數(shù)據(jù)選取上,該體系選取了COCO、Flickr30k等主流開源數(shù)據(jù)集。在評價指標(biāo)篩選上,該體系從主觀和客觀兩個維度針對各個任務(wù)進(jìn)行了單獨設(shè)計,客觀指標(biāo)主要選取了準(zhǔn)確率、召回率、FID、CLIPScore等常見指標(biāo),主觀指標(biāo)則采取人工打分的形式進(jìn)行模型評價。lLLaVA-Bench[13]LLaVA-Bench是威斯康星大學(xué)、微軟等研究團體于2023年4月提出的多模態(tài)大模型評測數(shù)據(jù)集,包含LLaVA-Bench(COCO)和LLaVA-Bench(野外)兩個數(shù)據(jù)集。它聚焦于視覺指令跟隨任務(wù),著重考察圖文大模型的對話、圖片描述及復(fù)雜推理能力,在結(jié)果評定上采用準(zhǔn)確率作為評測指標(biāo),并利用GPT-4輔助進(jìn)行評定,綜合評測圖文大模型在室內(nèi)場景和室外場景下的性能。lVisIT-Bench[14]VisIT-Bench是希伯來大學(xué)、谷歌等研究團體于2023年8月提出的圖文大模型評測基準(zhǔn),包含592個帶人工標(biāo)注的圖文問答對,并具有多達(dá)70個提示詞類型,綜合考察了圖文大模型的識別、場景理解、家裝設(shè)計、圖表解釋等利用GPT-4對圖文大模型性能進(jìn)行評定,并利用人工輔助驗證的方式增強結(jié)果的可信度。lSEED-Bench[15]SEED-Bench是騰訊人工智能實驗室于2023年7月提出的多模態(tài)大模型評測基準(zhǔn),包含了19000道選擇題,并將測試用例分為多個難度層級,涵蓋了場景理解、實例屬性、圖表理解等十二個評測維度,考察大模型對圖像文本的理解和創(chuàng)作能力。SEED-Bench采用自動化評測方式,利用客觀評價指標(biāo)對圖片創(chuàng)作等主觀任務(wù)展開評測。具體來說,針對文本創(chuàng)作類題目,SEED-Bench通過計算模型對各個人工標(biāo)注選項的困惑度來獲取模型最佳預(yù)測結(jié)果,再通過最佳預(yù)測結(jié)果和正確選項計算模型準(zhǔn)確率;針對圖片創(chuàng)作類題目,通過計算模型生成圖像與各人工標(biāo)注選項之間的CLIP相似度來獲取模型最佳預(yù)測結(jié)果,再通過最佳預(yù)測結(jié)果和正確選項計算模型準(zhǔn)確率。lConBench[16]ConBench是北京大學(xué)聯(lián)合字節(jié)跳動于2024年5月提出的多模態(tài)大模型評測基準(zhǔn),它彌補了多模態(tài)大模型一致性評價的空白。對于同一個知識點,不同的提問方式可能會獲得不一致的答案。為了評估模型的一致性,ConBench從四個高質(zhì)量的多模態(tài)基準(zhǔn)數(shù)據(jù)集中手動選擇1K張圖片:MME、SeedBench、MMBench和MMMU,每張圖片包含三個判別式問題(判斷題、選擇題與限制性問答題以及圍繞相同知識點的生成式prompt,評測知識點分為觀察能力、復(fù)雜推理和專業(yè)知識三個難度層級,模型的一致性由判別和生成兩個角度體現(xiàn),其中,Caption和三個判別式回答之間的一致性通過GPT/GPT-4自動判斷。這些評測體系從不同的側(cè)重點對圖文大模型的準(zhǔn)確性、參數(shù)量等方面進(jìn)行了評測,在評測指標(biāo)選取、評測數(shù)據(jù)構(gòu)建、評測工具平臺搭建等各個角度進(jìn)行了大量研究,推動了圖文大模型評測體系的發(fā)展。但是,在圖文大模型的實際應(yīng)用中,用戶也會考慮功能性、交互性、安全性等因素,當(dāng)前評測體系對于這些需求的考量仍略顯不足。隨著人工智能技術(shù)的蓬勃發(fā)展,圖文大模型的應(yīng)用場景日益廣泛,展現(xiàn)出卓越的泛化與適應(yīng)能力。為全面考量圖文大模型的圖像和文字綜合理解能力,我們需遵循客觀全面、公平公正和用戶視角的評測原則對圖文大模型開展評測。客觀全面是評測的基本要求,是指要以嚴(yán)格的標(biāo)準(zhǔn)和流程進(jìn)行評測,從評測數(shù)據(jù)集、評測任務(wù)、評價指標(biāo)和評測工具四個方面進(jìn)行圖文大模型評估。公平公正是評測的根本要求,要求測試者給予所有參測模型公平的機會和條件,以公開透明的方式評測全過程。用戶視角是評測的價值要求,要求從用戶的需求、期望和體驗角度開展評測,分析圖文大模型的實際應(yīng)用價值。本章基于上述三個原則提出“弈衡”多模態(tài)大模型評測體系,旨在為圖文大模型的技術(shù)創(chuàng)新和應(yīng)用實踐提供堅實支撐,為人工智能領(lǐng)域的持續(xù)發(fā)展注入新的活力,助力其更好地服務(wù)社會,滿足生產(chǎn)生活的多樣化需求。4.1整體框架中國移動技術(shù)能力評測中心構(gòu)建“弈衡”多模態(tài)大模型評測體系,采用“2-4-6”層級架構(gòu),包含2類評測場景、4項評測要素以及6種評測維度,從功能、性能、可靠性、安全性、交互性等方面對圖文大模型的圖文理解能力進(jìn)行全方位評測。詳細(xì)評測框架如下圖所示:隨著大模型技術(shù)的不斷演進(jìn)以及應(yīng)用的日益廣泛,圖文大模型的評測需求也將不斷變化。為了全面、客觀、公正地評價圖文大模型的能力,后續(xù)我們會對“弈衡”多模態(tài)大模型評測體系進(jìn)行持續(xù)更新和完善,如任務(wù)設(shè)置、數(shù)據(jù)集構(gòu)建、評價指標(biāo)設(shè)計、評測平臺搭建等等,以促進(jìn)圖文大模型技術(shù)發(fā)展和行業(yè)應(yīng)用。4.2評測場景在對圖文大模型進(jìn)行評測時,需要根據(jù)不同的任務(wù)類型逐一評判大模型在各個特定場景下的表現(xiàn)優(yōu)劣?!稗暮狻倍嗄B(tài)大模型評測體系綜合考慮現(xiàn)有的圖文大模型應(yīng)用場景,依據(jù)任務(wù)性質(zhì)、技術(shù)難度與復(fù)雜度、應(yīng)用場景以及知識要求,將圖文大模型評測任務(wù)分為基礎(chǔ)任務(wù)和應(yīng)用任務(wù)兩類。l基礎(chǔ)任務(wù)基礎(chǔ)任務(wù)主要關(guān)注圖文結(jié)合的各類通用任務(wù)場景,這些場景適用性廣,可為后續(xù)的應(yīng)用任務(wù)提供方法參考和對標(biāo)基線。基礎(chǔ)任務(wù)主要包含識別、理解、創(chuàng)作和推理四大類,每一大類又下轄大量基礎(chǔ)子任務(wù),典型場景如下:任務(wù)根據(jù)圖片是否模糊、光照是否正常、是否存在遮擋等因素分析基礎(chǔ)任務(wù)是構(gòu)成圖文大模型應(yīng)用場景的根本,針對基礎(chǔ)任務(wù)進(jìn)行大模型評測,可以很好地反映圖文大模型的多任務(wù)泛化性,具有重要的研究意義。因此,在評估圖文大模型前,先對基礎(chǔ)任務(wù)進(jìn)行定義和梳理是極為重要且不可或缺的。l應(yīng)用任務(wù)除各類基礎(chǔ)任務(wù)外,一個合格的圖文大模型還應(yīng)在各類特定領(lǐng)域和場景下實現(xiàn)卓越性能,因此,大模型評測時應(yīng)綜合考量模型在應(yīng)用任務(wù)中的識別、理解、創(chuàng)作和推理等表現(xiàn),確保其在實際生產(chǎn)生活中可用、好用、易用。典型場景如下:任務(wù)別針對圖片中描述的圖形、邏輯等數(shù)學(xué)問題進(jìn)行回答,檢驗?zāi)Ec基礎(chǔ)任務(wù)相比,應(yīng)用任務(wù)場景更加固定,但其難度更大,涉及更高層次的技術(shù)能力,可以反映圖文大模型面向具體領(lǐng)域和特定行業(yè)場景的泛化能力。4.3評測要素“弈衡”多模態(tài)大模型評測體系的評測四要素包括評測方式、評測指標(biāo)、評測數(shù)據(jù)和評測工具。重點考慮測試樣本構(gòu)造和測試結(jié)果判斷兩個方面。在測試樣本構(gòu)造方面,全面考慮零樣本(zero-shot)、單樣本(one-shot)、少樣本(few-shot)以及提示工程(promptengineering)等評測方式。在測試結(jié)果判斷方面,根據(jù)是否有標(biāo)準(zhǔn)答案,使用客觀評測或主觀評價進(jìn)行評定。l測試樣本構(gòu)造方式圖文大模型泛化性強,可適用任務(wù)廣,被用于解決各類實際問題。在實際應(yīng)用中,經(jīng)常存在數(shù)據(jù)未包含在預(yù)訓(xùn)練數(shù)據(jù)中的場景[17],這就要求圖文大模型在零樣本學(xué)習(xí)的條件下依舊保持優(yōu)秀性能。而對于人臉識別等常見任務(wù),圖文大模型已經(jīng)經(jīng)歷過多次迭代和訓(xùn)練,只需基于少量樣本進(jìn)行簡單優(yōu)化即可在特定業(yè)務(wù)場景實現(xiàn)良好性能,這屬于少樣本任務(wù)。此外,當(dāng)前研究表明,提示詞的設(shè)置會極大程度地影響模型效果,針對同一內(nèi)容的不同提問方式,可能導(dǎo)致模型出現(xiàn)巨大的性能差異?!稗暮狻倍嗄B(tài)大模型評測體系綜合考慮上述三種數(shù)據(jù)構(gòu)造方式,以及提示工程的研究內(nèi)容,綜合評測模型性能,探索圖文大模型在各種任務(wù)場景下的最優(yōu)效果,以滿足實際業(yè)務(wù)應(yīng)用需求。零樣本:零樣本任務(wù)是指模型在訓(xùn)練階段完全沒有接觸過測試場景及測試任務(wù)相關(guān)的圖文數(shù)據(jù),模型需要針對全新場景完成預(yù)測任務(wù)。這類任務(wù)設(shè)置不需要模型進(jìn)行針對性調(diào)優(yōu),直接考察了圖文大模型對新知識的理解和泛化能力,具有極高的應(yīng)用價值。單樣本:在單樣本任務(wù)中,圖文大模型只能在訓(xùn)練階段接觸到一個與實際部署任務(wù)相關(guān)的圖片或文字樣本,模型需要提取這一個樣本中的核心特征,并將其應(yīng)用于其他同類任務(wù)樣本中。該任務(wù)設(shè)置相較傳統(tǒng)多樣本任務(wù)難度更大,更加考察大模型的核心特征提取能力。少樣本:少樣本任務(wù)是指圖文大模型在訓(xùn)練階段可以接觸到少量目標(biāo)任務(wù)的圖文樣本,通??晌⒄{(diào)樣本數(shù)量在幾個到幾十個之間。相較于單樣本,少樣本任務(wù)難度相對更低,但實際應(yīng)用價值更高。在圖文大模型的實際部署應(yīng)用中,模型需針對各類具有差異性的業(yè)務(wù)數(shù)據(jù)完成預(yù)測,因此,被測圖文大模型是否可利用少量典型數(shù)據(jù)對模型進(jìn)行微調(diào)提升模型性能,即是否可以在少樣本任務(wù)設(shè)置下實現(xiàn)較好的性能表現(xiàn)便至關(guān)重要。提示工程:圖文大模型的任務(wù)數(shù)據(jù)通常包含圖片及文字兩類,相較大語言模型問題設(shè)置難度更大。研究表明,針對同一內(nèi)容的不同提示詞會導(dǎo)致大模型產(chǎn)生完全不同的結(jié)果。因此,在對圖文大模型進(jìn)行評測時,需結(jié)合實際業(yè)務(wù)場景進(jìn)行廣泛調(diào)研,構(gòu)建更加合理有效的圖文指令,以更好地評測特定業(yè)務(wù)場景下模型的生成能力和潛力。l測試結(jié)果判斷方式在對圖文大模型進(jìn)行評測時,選擇合適的評估指標(biāo)至關(guān)重要。為此,應(yīng)根據(jù)不同任務(wù)的特性定制設(shè)計評估指標(biāo),結(jié)合客觀和主觀兩種評價方式。對于問題有明確標(biāo)準(zhǔn)答案的任務(wù),如口罩檢測、人群計數(shù)等,應(yīng)當(dāng)主要使用各類客觀指標(biāo)進(jìn)行評測,如準(zhǔn)確率、F1值、mAP、BLEU等,這些指標(biāo)能夠比對模型預(yù)測結(jié)果與真實標(biāo)注,并利用各類公式完成測試結(jié)果評判。利用客觀指標(biāo)篩選可以更加公平、合理、全面地評價各大模型性能。對于沒有固定標(biāo)準(zhǔn)答案的任務(wù),如圖像創(chuàng)作、風(fēng)格遷移等創(chuàng)作類任務(wù),客觀指標(biāo)便很難全面綜合地對模型性能進(jìn)行評估,此時就需要利用人工打分等主觀評判方式。主觀評判需要建立一個由三名及以上領(lǐng)域?qū)<医M成的評審團,其中,評審員不僅需要對圖文大模型的發(fā)展現(xiàn)狀及相關(guān)技術(shù)有廣泛了解,還需要對模型評測具有豐富的實踐經(jīng)驗,以此更加精準(zhǔn)地評估圖文大模型的回答質(zhì)量。評審團需針對特定任務(wù)設(shè)置評分標(biāo)準(zhǔn),如針對圖像創(chuàng)作任務(wù)可從美觀性、邏輯性、匹配度等角度進(jìn)行衡量,并對模型預(yù)測結(jié)果進(jìn)行獨立評判,最終再通過計算平均值等統(tǒng)計學(xué)手段統(tǒng)計評測結(jié)果。相較客觀評價方式,主觀評價具有靈活性高以及與實際部署場景貼近等優(yōu)勢。在構(gòu)建圖文大模型評測體系時,需根據(jù)任務(wù)特性將評測指標(biāo)分為客觀和主觀兩大類??陀^類指標(biāo)的主要特征是確定性和可量化性,主要適用于評測有明確答案的任務(wù),如識別圖片中行人的數(shù)量。該類指標(biāo)的評估結(jié)果易于量化和比較,可為圖文大模型的評估提供一個穩(wěn)定且一致的衡量標(biāo)準(zhǔn)。主觀類指標(biāo)主要用于評估沒有固定標(biāo)準(zhǔn)答案的開放性問題,如文生圖和風(fēng)格遷移等創(chuàng)作型任務(wù),在評估時需采取更為靈活的方法,通??赏ㄟ^人工打分綜合評價圖文大模型的應(yīng)用效果。雖然主觀類指標(biāo)相較于客觀類指標(biāo)存在一定的不確定性,但優(yōu)勢在于它更加靈活,更能從用戶視角反映模型的實際表現(xiàn)。l客觀類為確保評測的客觀性、全面性和公正性,降低主觀評測對評估結(jié)果的影響,需要利用準(zhǔn)確率、召回率等客觀性評價指標(biāo)完成對模型的綜合考量??陀^指標(biāo)通??蓱?yīng)用于評估識別、理解和推理任務(wù)的準(zhǔn)確性。對于識別任務(wù),如實例識別、手勢識別、垃圾滿溢、品牌LOGO識別等,由于模型推理結(jié)果通常為單一數(shù)值,因此可根據(jù)分類任務(wù)的標(biāo)準(zhǔn),選取準(zhǔn)確率(Accuracy)、精確度(Precision)、召回率(Recall)等指標(biāo)進(jìn)行評測。對于理解任務(wù),如口罩位置檢測、場景理解等,則側(cè)重于考察大模型對整張圖片內(nèi)容的全面理解,這其中可能涉及目標(biāo)物體的位置信息,因此常使用交并比(IoU)、CIDEr等評測指標(biāo)。而對于推理任務(wù),如下一張圖像預(yù)測,著重考查圖文大模型的邏輯理解能力,可以利用FID、SSIM等圖像類評價指標(biāo)對模型預(yù)測結(jié)果進(jìn)行客觀評測。除準(zhǔn)確性外,實時性、連續(xù)性等功能指標(biāo)也是評價圖文大模型的重要維度。其中,實時性主要考察圖文大模型推理的時延,在實際測試時需要根據(jù)任務(wù)特定要求,分別統(tǒng)計模型在處理短文本問答、長文本問答、單圖片問答和多圖片問答等任務(wù)場景下的響應(yīng)時間,并進(jìn)行綜合比對。連續(xù)性著重考察圖文大模型的記憶能力,可通過模型支持的問答最大連續(xù)輪次等指標(biāo)進(jìn)行評測。這些客觀指標(biāo)全面反映了圖文大模型的綜合能力,在實際應(yīng)用中具有重要價值。l主觀類從用戶視角全面評估模型的實際應(yīng)用能力,除采用客觀指標(biāo)外,還須通過主觀指標(biāo)對模型展開評測。主觀評測主要集中在創(chuàng)作類任務(wù)中,如圖像創(chuàng)作、風(fēng)格變換、圖像合成等,這些任務(wù)往往需要模型發(fā)揮創(chuàng)造性,開放性地生成預(yù)測結(jié)果,因此沒有標(biāo)準(zhǔn)答案。在進(jìn)行主觀評測時,首先需要組建評審專家團,并由評審團制定評分標(biāo)準(zhǔn)。評分標(biāo)準(zhǔn)需綜合考察圖文大模型能力,以盡可能全面的角度進(jìn)行評測,在構(gòu)建評分標(biāo)準(zhǔn)時,需從各個維度對評測任務(wù)進(jìn)行剖析,分維度制定評測指標(biāo)。除圖片美觀性、文字優(yōu)美性等純主觀維度外,還需關(guān)注圖片內(nèi)容的正確性、文字的語病錯字、與提示詞要求的匹配程度等相對客觀的評測維度。如在圖像創(chuàng)作任務(wù)中,可從創(chuàng)作圖像的美觀程度、邏輯正確性、圖像中要素與關(guān)鍵詞的匹配程度三個方面評價模型,并分別從各個方面制定打分標(biāo)準(zhǔn),比如在關(guān)鍵詞匹配程度上,可以根據(jù)匹配度的百分比進(jìn)行打分,在邏輯正確性上,可從各事物本身正確性和各事物間相對關(guān)系正確性兩個方面進(jìn)行打分。在采用主觀指標(biāo)進(jìn)行評估時,首先,需制定合理全面的評價標(biāo)準(zhǔn);其次,需由專家團中各位專家依據(jù)既定標(biāo)準(zhǔn)對模型表現(xiàn)獨立評分;最后,采用內(nèi)部一致性檢驗、加權(quán)平均統(tǒng)計等多種方法統(tǒng)計評估結(jié)果,在綜合不同專家意見的同時,確保評分一致性,降低人為因素導(dǎo)致的誤差,最大程度提高評測結(jié)果的穩(wěn)定性和可信度。構(gòu)建評測數(shù)據(jù)需要以任務(wù)為導(dǎo)向,覆蓋基礎(chǔ)場景和實際應(yīng)用場景,綜合考察圖文大模型在各種任務(wù)下的泛化能力與實際應(yīng)用效果。在數(shù)據(jù)構(gòu)建時,一方面,應(yīng)盡量避免使用知名的開源數(shù)據(jù)集,因為這些數(shù)據(jù)往往會出現(xiàn)在圖文大模型的訓(xùn)練集中,無法真實考察模型性能。另一方面,應(yīng)注意梯度性構(gòu)建評測用例,合理設(shè)置難易比例,不過分脫離當(dāng)前業(yè)界模型的能力范圍,同時有效區(qū)分各模型的能力水平。l數(shù)據(jù)集構(gòu)造原則在構(gòu)建評測數(shù)據(jù)時,須遵循豐富性、公平性和準(zhǔn)確性三項核心原則,全面考察圖文大模型的綜合能力,客觀評估其真實能力。豐富性:在構(gòu)建評測數(shù)據(jù)時,需要涵蓋業(yè)界各種應(yīng)用場景,真實反映圖文大模型的實際應(yīng)用表現(xiàn)。在測試用例題目設(shè)置上,需要采取多元化形式,包括簡答、選擇、定向回答、圖片生成等多種形式進(jìn)行評測,同時設(shè)置不同難度等級的用例。公平性:構(gòu)建評測數(shù)據(jù)時需要確保數(shù)據(jù)分布在語言、文化等方面具有公平性,并確保不同國家和地區(qū)的研究者可以在相同的任務(wù)設(shè)置下完成評測。準(zhǔn)確性:在構(gòu)建評測數(shù)據(jù)時必須確保準(zhǔn)確性。題目設(shè)計應(yīng)避免歧義,確保其邏輯嚴(yán)密,能夠被不同評測專家一致理解和認(rèn)可。答案設(shè)計應(yīng)與人類的常識和認(rèn)知相符,并在測試過程中不斷檢測和修正可能出現(xiàn)的錯誤,以確保評估結(jié)果的準(zhǔn)確性和可靠性。l數(shù)據(jù)集構(gòu)造方法為了更加客觀全面地構(gòu)建評測數(shù)據(jù),以真實反映圖文大模型的實際應(yīng)用能力,“弈衡”多模態(tài)大模型評測體系從用戶視角出發(fā),以豐富性、公平性和準(zhǔn)確性為原則,分別面向基礎(chǔ)任務(wù)和應(yīng)用任務(wù)探索評測數(shù)據(jù)構(gòu)造策略,綜合評價圖文大模型性能。典型構(gòu)造方法如下:基礎(chǔ)任務(wù)數(shù)據(jù)集構(gòu)造:在各類識別、檢測、計數(shù)等基礎(chǔ)任務(wù)中構(gòu)建評測數(shù)據(jù)時,需優(yōu)先確保全面性。一方面,廣泛選取各種任務(wù)場景下的圖像及文字?jǐn)?shù)據(jù)。如在實例識別任務(wù)中,綜合考察圖文大模型對動物、載具、衣著、家具、食物、植物、個人物品等各類生活中常見類別的識別能力,并根據(jù)難易度進(jìn)行梯度設(shè)置,簡單題目應(yīng)選取目標(biāo)物體的典型照片,特征明顯清晰,而困難題目則應(yīng)相對違反常識,以更具迷惑性的方式進(jìn)行數(shù)據(jù)構(gòu)造,如畫在墻面上的樹木。另一方面,在提示詞上應(yīng)從問題形式上確保全面性,構(gòu)造選擇、簡答、判斷等各類題目,兼顧中文、英文等語種。此外,還應(yīng)考慮為數(shù)據(jù)增加視覺提示,如在圖片中添加箭頭、圓圈、方框等標(biāo)記作為會話輔助,與文字提示詞一起作為大模型輸入,然后要求圖文大模型回答視覺提示物體的類別、數(shù)量等問題,以增加題目難度。如上,在基礎(chǔ)任務(wù)的評測數(shù)據(jù)構(gòu)造中,需要設(shè)置豐富多樣的題目,全方位測試模型對典型場景的識別、理解、推理和創(chuàng)作能力。應(yīng)用任務(wù)數(shù)據(jù)集構(gòu)造:應(yīng)用任務(wù)應(yīng)更加注重從業(yè)務(wù)場景出發(fā),考察圖文大模型在特定場景下的實際應(yīng)用能力,相較于基礎(chǔ)任務(wù)偏向廣度考察,應(yīng)用任務(wù)的數(shù)據(jù)構(gòu)造則著重體現(xiàn)大模型能力的深度考察。需面向部署場景,發(fā)掘任務(wù)需求,確保評測數(shù)據(jù)能夠更好地反映模型的魯棒性和可用性。如在口罩檢測任務(wù)中,不僅僅考察圖片中是否有人未佩戴口罩,還應(yīng)詢問大模型是否有人未正確佩戴口罩,從而識別出口罩未覆蓋鼻子、嘴部等錯誤的佩戴方式,測試模型在實際部署中的可用性;在活體檢測任務(wù)中,須深入研究并借鑒業(yè)界在構(gòu)造非活體數(shù)據(jù)方面的各種方法,包括通過照片翻拍、屏幕翻拍、使用面具等手段來生成數(shù)據(jù),確保評估數(shù)據(jù)集更貼近實際應(yīng)用場景。為全面解決圖文大模型評測在技術(shù)驗證、質(zhì)量控制、風(fēng)險管理和合規(guī)性等多個層面上的需求,同時規(guī)范模型評測,克服當(dāng)前評測過程中存在的速度慢、不全面、不穩(wěn)定等局限性問題,中國移動技術(shù)能力評測中心構(gòu)建了“弈衡”大模型評測平臺,該平臺以智能化自動化、靈活可擴展性、交互體驗設(shè)計為原則,提供標(biāo)準(zhǔn)化、公正、安全且易于操作的評測服務(wù),推動圖文大模型技術(shù)的持續(xù)創(chuàng)新和應(yīng)用拓展。具體相關(guān)能力如下:l數(shù)據(jù)與模型管理數(shù)據(jù)與模型管理能力包括數(shù)據(jù)管理、模型管理等功能,主要作用為幫助用戶更好地構(gòu)建數(shù)據(jù)集,并完成對模型的啟停管理。相關(guān)功能具體描述如下:數(shù)據(jù)管理:提供標(biāo)準(zhǔn)化的數(shù)據(jù)存儲、訪問和預(yù)處理能力,包括清洗、去重、去噪和異常值處理等核心功能。模型管理:提供全面的模型接入支持,能夠?qū)崿F(xiàn)自動化模型配置,并廣泛兼容各類開源模型,確保了評測平臺的開放性和靈活性。l評測流程管理為提升圖文大模型評測效率,評測平臺具有完整的評測流程管理功能,可涵蓋數(shù)據(jù)構(gòu)建、任務(wù)下發(fā)、任務(wù)監(jiān)控、任務(wù)審核等大模型評測的關(guān)鍵環(huán)節(jié),為用戶提供全自動評測服務(wù)。相關(guān)功能如下:評測數(shù)據(jù)構(gòu)建:用戶可根據(jù)評測任務(wù)自主設(shè)計數(shù)據(jù)集和選擇評測指標(biāo),實現(xiàn)數(shù)據(jù)預(yù)處理,并提供多樣化指標(biāo)模板,滿足用戶的評測需求,增強評測的靈活性和實用性。評測任務(wù)下發(fā):評測任務(wù)下發(fā)是評測平臺高效自動化特性之一,用戶無需深入了解不同模型的接口細(xì)節(jié),只需在平臺上選定評測對象和相應(yīng)的數(shù)據(jù)集,即可通過一鍵式操作快速下發(fā)評測任務(wù),從而簡化評測流程,減少人工設(shè)置和干預(yù),提升圖文大模型評測的效率和準(zhǔn)確性,并確保了評測的一致性和可復(fù)現(xiàn)性。評測任務(wù)監(jiān)控:用戶可通過用戶界面,對圖文大模型評測進(jìn)度進(jìn)行直觀跟蹤,實時監(jiān)控評測任務(wù)的執(zhí)行狀態(tài),包括當(dāng)前的進(jìn)度、已處理的數(shù)據(jù)量等。該能力有助于及時發(fā)現(xiàn)并解決評測過程中可能出現(xiàn)的問題,確保圖文大模型評測的順利進(jìn)行。評測任務(wù)審核:評測任務(wù)審核功能允許專業(yè)人員對平臺自動生成的評測結(jié)果進(jìn)行人工核查,以確保評測結(jié)果的準(zhǔn)確性。在評測結(jié)束后,平臺會進(jìn)行自動判卷,此時人工可進(jìn)行再次核查,為評測的精確性和權(quán)威性提供額外保障,增強評測結(jié)果的可信度和實用性。l結(jié)果分析與展示評測平臺除了各項自動化能力,還可對評測結(jié)果進(jìn)行分析與展示,計算各參測模型的綜合得分并進(jìn)行排名,梳理并總結(jié)各圖文大模型的綜合能力水平。具體相關(guān)功能如下:專家評分:對于圖片創(chuàng)作等生成類任務(wù),常規(guī)的客觀指標(biāo)很難對圖文大模型的真實能力進(jìn)行綜合評判,評測平臺提供專家評分功能,對模型能力進(jìn)行主觀評價。榜單生成:評測平臺可依據(jù)模型的自動化評測結(jié)果和專家評分,自動整理圖文大模型在不同指標(biāo)上的表現(xiàn),一鍵生成模型綜合能力排名,幫助用戶快速了解模型能力水平。榜單圖形化展示:評測平臺可通過圖形化界面,清晰展示各圖文大模型的綜合排名,將模型在關(guān)鍵性能指標(biāo)上的相對排名直觀展示給用戶,幫助用戶快速甄選優(yōu)秀模型、及時發(fā)現(xiàn)模型性能瓶頸,為用戶選擇和優(yōu)化模型提供支持。智能分析與報告:評測平臺可通過AI技術(shù),深度挖掘評測數(shù)據(jù),精準(zhǔn)捕捉并總結(jié)模型能力,自動編制評測報告,呈現(xiàn)圖文大模型的性能指標(biāo)及排名,全面評估和比較不同模型的性能表現(xiàn)。“弈衡”大模型評測平臺為用戶提供了一個全面、高效、智能的評測解決方案,具有“2-4-6”多維度評測體系、業(yè)界領(lǐng)先的自動化評測能力、用戶友好的“一鍵測試”功能、高可拓展性等多項優(yōu)勢,可廣泛應(yīng)用于圖文大模型評測,大幅提高評測效率和準(zhǔn)確性,對于圖文大型模型的評測和優(yōu)化具有重要意義。4.4評測維度為全面評估和綜合測試圖文大模型在識別、理解、推理、創(chuàng)作等各類任務(wù)中的能力,確保覆蓋各類任務(wù)類型和應(yīng)用場景,應(yīng)從功能性、準(zhǔn)確性、可靠性、安全性、交互性、應(yīng)用性六大維度對大模型進(jìn)行評測。具體如下:功能性:此維度主要關(guān)注圖文大模型解決多種任務(wù)的能力,包含任務(wù)豐富度、多模態(tài)能力和支持完備度三類,其中任務(wù)豐富度是指大模型支持任務(wù)類型的數(shù)量,多模態(tài)能力是指對文生圖、圖生文等五種多模態(tài)輸入輸出類型的支持程度,支持完備度包含語種支持度、最大輸入文本長度、最高圖片分辨率等七項指標(biāo),主要考察圖文大模型在輸入輸出設(shè)置上的支持程度。準(zhǔn)確性:此維度主要關(guān)注圖文大模型執(zhí)行各類任務(wù)的性能。在評估圖文大模型準(zhǔn)確性時,需要針對不同類型的任務(wù),選擇最合適的評價指標(biāo)。針對實例識別、口罩檢測、人群計數(shù)等具有明確標(biāo)準(zhǔn)答案的任務(wù),要優(yōu)先選擇準(zhǔn)確率、召回率等客觀評價指標(biāo),而針對風(fēng)格變換、圖像合成等創(chuàng)作類任務(wù)時,應(yīng)選擇主觀評價方式,更加全面地反映圖文大模型在用戶視角下的真實性能??煽啃裕捍司S度主要關(guān)注大模型的抗噪聲能力,以及對同一問題多次輸出結(jié)果的一致性??乖肼暅y試中,對測試數(shù)據(jù)集進(jìn)行幾何變形、色彩空間噪聲、專業(yè)噪聲處理和水印等處理后,重新輸入大模型進(jìn)行評測,全面考察圖文大模型對各種圖片噪聲的抗干擾能力。一致性測試中,評測人員針對同一個問題,對圖文大模型進(jìn)行連續(xù)多次問答,關(guān)注多次問答的評測結(jié)果是否一致。安全性:此維度主要考察圖文大模型生成結(jié)果的毒害性和公平性,包括歧視偏見、內(nèi)容毒性、違規(guī)違法、不適表達(dá)和版權(quán)隱私五類。其中每一類又包含多種測試角度,比如歧視偏見中包含種族歧視、性別歧視、年齡歧視等,內(nèi)容毒性包含不實信息、毒性內(nèi)容、敏感話題等。安全性評估在確保生成內(nèi)容合法合規(guī)、防止歧視偏見、維護(hù)社會道德等方面具有重要作用,是保障大模型技術(shù)健康發(fā)展的關(guān)鍵評測維度。交互性:此維度主要關(guān)注用戶使用圖文大模型時的交互體驗。在評估交互性時,著重考察實時性、連續(xù)性、豐富性和規(guī)范性,此外如果應(yīng)用場景為生成圖片任務(wù),還考察清晰度、色彩等圖片質(zhì)量指標(biāo);如果應(yīng)用場景包含文本生成,則考察表達(dá)的流暢度。其中,實時性是指圖文大模型生成結(jié)果的速度,連續(xù)性是指支持問答的最大連續(xù)輪次,豐富性是指生成圖片的多樣性或生成文本的長度,規(guī)范性則是指生成圖片和文字的合理合規(guī)性。應(yīng)用性:此維度主要關(guān)注圖文大模型產(chǎn)品或系統(tǒng)在現(xiàn)實應(yīng)用場景中的部署、運維、支撐能力和使用效果,旨在全面審視基于圖文大模型的產(chǎn)品在各方面的實用性。在部署能力方面,關(guān)注系統(tǒng)
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 南京醫(yī)科大學(xué)康達(dá)學(xué)院《專業(yè)方向綜合課程設(shè)計》2023-2024學(xué)年第一學(xué)期期末試卷
- 湖南省長沙市2024年中考數(shù)學(xué)模擬考試試卷含答案
- 九江學(xué)院《服裝CAD制版》2023-2024學(xué)年第一學(xué)期期末試卷
- 江蘇海洋大學(xué)《生化分離工程》2023-2024學(xué)年第一學(xué)期期末試卷
- 湖南九嶷職業(yè)技術(shù)學(xué)院《越南語閱讀》2023-2024學(xué)年第一學(xué)期期末試卷
- 【物理】第十二章 簡單機械 單元練習(xí)+2024-2025學(xué)年人教版物理八年級下冊
- 黑龍江工商學(xué)院《文化與社會發(fā)展》2023-2024學(xué)年第一學(xué)期期末試卷
- 重慶第二師范學(xué)院《機器學(xué)習(xí)與人工智能》2023-2024學(xué)年第一學(xué)期期末試卷
- 浙江海洋大學(xué)《光電信息材料與技術(shù)》2023-2024學(xué)年第一學(xué)期期末試卷
- 中國科學(xué)技術(shù)大學(xué)《公關(guān)與營銷策劃》2023-2024學(xué)年第一學(xué)期期末試卷
- GJB9001C質(zhì)量管理體系要求-培訓(xùn)專題培訓(xùn)課件
- 人教版(2024)英語七年級上冊單詞表
- 中醫(yī)養(yǎng)生產(chǎn)業(yè)現(xiàn)狀及發(fā)展趨勢分析
- 2023年浙江省溫州市中考數(shù)學(xué)真題含解析
- 窗簾采購?fù)稑?biāo)方案(技術(shù)方案)
- 司庫體系建設(shè)
- 居間合同范本解
- 機電傳動單向數(shù)控平臺-礦大-機械電子-有圖
- 婦科病盆腔炎病例討論
- 食堂油鍋起火演練方案及流程
- 有余數(shù)的除法算式300題
評論
0/150
提交評論