




版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
『弈衡』多模態(tài)大模型評(píng)測(cè)體系白皮書(shū)(2024) ...................................................................................................................................................1 ..............................................................................................................3多模態(tài)大模型發(fā)展現(xiàn)狀 3評(píng)測(cè)需求 4評(píng)測(cè)問(wèn)題與挑戰(zhàn) 5主要評(píng)測(cè)方式 7典型評(píng)測(cè)維度 7常見(jiàn)評(píng)測(cè)指標(biāo) 81013整體框架 13評(píng)測(cè)場(chǎng)景 14評(píng)測(cè)要素 16評(píng)測(cè)維度 222017年初,GPT-4[1術(shù)首次進(jìn)入公眾視野[2]。GPT-4Vision、Gemini,國(guó)內(nèi)的文心一言、訊飛星火、智譜清言等[3AI中國(guó)移動(dòng)技術(shù)能力評(píng)測(cè)中心作為中國(guó)移動(dòng)的第三方專(zhuān)業(yè)評(píng)測(cè)機(jī)構(gòu),聯(lián)合業(yè)界權(quán)威機(jī)構(gòu)、 多模態(tài)大模型發(fā)展現(xiàn)狀行業(yè) 領(lǐng)域 應(yīng)用行業(yè) 領(lǐng)域 應(yīng)用企業(yè)應(yīng)用內(nèi)容創(chuàng)作與審核領(lǐng)域用于圖片創(chuàng)作、圖片內(nèi)容理解、圖形合成修改等任務(wù)。教育科技領(lǐng)域利用圖文數(shù)據(jù)為教育領(lǐng)域提供智能化支持。金融風(fēng)控領(lǐng)域根據(jù)簽字等圖像數(shù)據(jù)輔助金融機(jī)構(gòu)提高決策效率。醫(yī)療健康領(lǐng)域利用內(nèi)置攝像頭進(jìn)行輔助診斷,協(xié)助醫(yī)生提高醫(yī)療效率。智能制造領(lǐng)域進(jìn)行缺陷圖片檢測(cè),助力工廠實(shí)現(xiàn)智能化生產(chǎn)、降本增效。軟件開(kāi)發(fā)領(lǐng)域根據(jù)現(xiàn)有圖形界面,輔助提升開(kāi)發(fā)人員的軟件開(kāi)發(fā)效率。市場(chǎng)分析領(lǐng)域幫助企業(yè)洞察市場(chǎng)動(dòng)態(tài),優(yōu)化產(chǎn)品、提供更加安全的服務(wù)。法律領(lǐng)域用于文書(shū)識(shí)別等法律相關(guān)任務(wù),降低法律服務(wù)成本。媒體與娛樂(lè)領(lǐng)域?yàn)楫?huà)師、視頻創(chuàng)作者等相關(guān)從業(yè)者提供創(chuàng)意靈感,提高創(chuàng)作效率。人力資源領(lǐng)域?qū)崿F(xiàn)人臉識(shí)別等人力資源智能管理功能??头I(lǐng)域應(yīng)用于智能客服助手等任務(wù),實(shí)現(xiàn)圖形理解,提高客服效率。公共服務(wù)領(lǐng)域利用攝像頭等終端識(shí)別提高政府服務(wù)效率,優(yōu)化公共資源配置。個(gè)人應(yīng)用旅游領(lǐng)域提供景點(diǎn)照片匹配等個(gè)性化的旅行建議和服務(wù)。個(gè)人金融業(yè)務(wù)領(lǐng)域用戶人臉識(shí)別、收支明細(xì)預(yù)測(cè)等個(gè)人金融業(yè)務(wù)。教育輔導(dǎo)領(lǐng)域針對(duì)題目進(jìn)行智能搜索、解答等教育輔導(dǎo)工作。數(shù)據(jù)搜索領(lǐng)域?qū)崿F(xiàn)拍圖識(shí)別、搜索等智能搜索功能。圖像修復(fù)領(lǐng)域針對(duì)老照片、不完整照片等圖像進(jìn)行智能修復(fù)與補(bǔ)全。評(píng)測(cè)需求創(chuàng)作類(lèi)任務(wù)主要是指通過(guò)給定的文字或圖像提示信息進(jìn)行圖片創(chuàng)作或圖像需著重關(guān)注模型的生成質(zhì)量、內(nèi)容匹配度、多樣性和創(chuàng)新性等各項(xiàng)指標(biāo)。評(píng)測(cè)問(wèn)題與挑戰(zhàn)首先,圖文大模型的高泛化性對(duì)評(píng)測(cè)任務(wù)選取提出挑戰(zhàn)。其次,圖文大模型的高復(fù)雜度對(duì)評(píng)測(cè)數(shù)據(jù)構(gòu)建提出更高要求。再者,圖文大模型評(píng)價(jià)結(jié)果的客觀性也需要重點(diǎn)考慮。5AI主要評(píng)測(cè)方式圖文大模型的評(píng)測(cè)方式主要包括客觀評(píng)測(cè)和主觀評(píng)測(cè)兩種。典型評(píng)測(cè)維度AI模型性能評(píng)測(cè)是圖文大模型的核心維度,主要評(píng)測(cè)圖文大模型對(duì)圖像和文字的識(shí)別能力、模型泛化能力評(píng)測(cè)模型魯棒性評(píng)測(cè)模型一致性評(píng)測(cè)常見(jiàn)評(píng)測(cè)指標(biāo)F1BLEUISCLIPPSNRSOACIDErmAPIoUFIDSSIM、RP、碳足跡等[9]。指標(biāo) 描述準(zhǔn)確率Accuracy,計(jì)算圖文問(wèn)答題目中預(yù)測(cè)結(jié)果正確的比例,是最常用的客觀指標(biāo)F1值F1corPreisioRecll,兼顧圖文大模型預(yù)測(cè)結(jié)果的正確樣本比例和查全比例BLEU評(píng)價(jià)圖生文的文本質(zhì)量,比較生成文本與真實(shí)答案間的重疊程度IS指標(biāo)InceptionScore,利用分類(lèi)模型評(píng)測(cè)生成圖片的類(lèi)別確定性和類(lèi)別多樣性CLIP相似度利用CLIP大模型的文本和圖像編碼器針對(duì)圖片中關(guān)鍵物體進(jìn)行質(zhì)量判定PSNR峰值信噪比,評(píng)價(jià)圖文大模型生成圖片的像素質(zhì)量和清晰度SOA衡量生成的圖像中是否符合文本描述中的各對(duì)象類(lèi)別,考察文本類(lèi)別還原度CIDEr針對(duì)圖像描述任務(wù),評(píng)價(jià)描述結(jié)果與人類(lèi)真實(shí)描述間的相似度mAPmeanAveragePrecision,反映圖文問(wèn)答題目中,預(yù)測(cè)結(jié)果在所有召回率水平下的平均準(zhǔn)確率IoUIntersectionoverUnion,衡量圖像中指定物體的預(yù)測(cè)框與實(shí)際邊界框的重合程度FIDFréchetInceptionDistance,用于評(píng)估文生圖任務(wù)中生成圖像和真實(shí)圖像之間的相似性的指標(biāo)SSIM結(jié)構(gòu)相似度,評(píng)價(jià)文生圖任務(wù)中生成圖片與標(biāo)準(zhǔn)正確圖片之間的相似度RP全稱R-precision,衡量文生圖任務(wù)中文本描述和生成圖像之間的視覺(jué)語(yǔ)義相似度碳足跡計(jì)算模型訓(xùn)練、推理階段消耗電力的二氧化碳排放量除以上提到的各類(lèi)常用指標(biāo)外,部分評(píng)測(cè)還針對(duì)圖文大模型在業(yè)務(wù)中的實(shí)際應(yīng)用場(chǎng)景,選取更有針對(duì)性更能反映業(yè)務(wù)性能的其他指標(biāo),如召回率、多輪對(duì)話輪次等。AI實(shí)驗(yàn)室的MMBenchOCRBenchLLaVA-BenchVisIT-BenchSEED-BenchMMBench[10]MMBench20238逐漸rurEBench從三評(píng)測(cè)方式上,針對(duì)當(dāng)前大模型指令跟隨性不完善的問(wèn)題,利用ChatGPT進(jìn)行輔助評(píng)測(cè),并將問(wèn)題選項(xiàng)進(jìn)行環(huán)狀重排,從而更好地反映大模型的真實(shí)性能。OCRBench[11]OCRBench是華中科技大學(xué)聯(lián)合其它機(jī)構(gòu)于20242該體系針對(duì)OCR領(lǐng)域的常見(jiàn)任務(wù)和典型數(shù)據(jù)集,對(duì)Gemini、GPT-4V等十四個(gè)多模態(tài)大模型進(jìn)行了評(píng)測(cè)。具體來(lái)說(shuō),OCRBench聚焦于多模態(tài)大模型的OCR能力,針對(duì)文字識(shí)別、、STVQA等二十七個(gè)主流開(kāi)源數(shù)據(jù)集進(jìn)行測(cè)試驗(yàn)證。智源評(píng)測(cè)體系[12]20245的理解和生成能力。在評(píng)測(cè)數(shù)據(jù)選取上,該體系選取了COCO、Flickr30k等主流開(kāi)源數(shù)據(jù)FID、CLIPScore等常見(jiàn)指標(biāo),主觀指標(biāo)則采取人工打分的形式進(jìn)行模型評(píng)價(jià)。LLaVA-Bench[13]LLaVA-Bench20234GPT-4輔助進(jìn)行評(píng)定,綜合評(píng)測(cè)圖文大模型在室內(nèi)場(chǎng)景和室外場(chǎng)景下的性能。VisIT-Bench[14]VisIT-Bench是希伯來(lái)大學(xué)、谷歌等研究團(tuán)體于2023年8月提出的圖文大模型評(píng)測(cè)基59270VIT-Bench利用GPT-4SEED-Bench[15]SEED-Bench是騰訊人工智能實(shí)驗(yàn)室于2023年7月提出的多模態(tài)大模型評(píng)測(cè)基準(zhǔn),包19000SEED-Bench采用自通過(guò)計(jì)算模型對(duì)各個(gè)人工標(biāo)注選項(xiàng)的困惑度來(lái)獲取模型最佳預(yù)測(cè)結(jié)生成圖像與各人工標(biāo)注選項(xiàng)之間的CLIP相似度來(lái)獲取模型最佳預(yù)測(cè)結(jié)果,再通過(guò)最佳預(yù)測(cè)結(jié)果和正確選項(xiàng)計(jì)算模型準(zhǔn)確率。ConBench[16]ConBench20245從四個(gè)高質(zhì)量的多模態(tài)基準(zhǔn)數(shù)據(jù)集中手動(dòng)1KSeedBenchMMBench和題(判斷題、選擇題與限制性問(wèn)答題),以及圍繞相同知識(shí)點(diǎn)的生成式prompt,評(píng)測(cè)知 整體框架2-4-6”層級(jí)246評(píng)測(cè)場(chǎng)景務(wù)和應(yīng)用任務(wù)兩類(lèi)。基礎(chǔ)任務(wù)任務(wù) 描述識(shí)別實(shí)例識(shí)別識(shí)別圖像中的特定實(shí)例,包括特定對(duì)象的存在或類(lèi)別,評(píng)估模型的對(duì)象識(shí)別能力。實(shí)例計(jì)數(shù)計(jì)算圖像中特定對(duì)象的數(shù)量,理解所有對(duì)象并成功計(jì)數(shù)所引用對(duì)象的實(shí)例。情緒識(shí)別側(cè)重于識(shí)別和解釋圖像中人臉?biāo)磉_(dá)的情緒,評(píng)估模型理解面部表情并將其與相應(yīng)情緒狀態(tài)相關(guān)聯(lián)的能力。手勢(shì)識(shí)別根據(jù)輸入圖像識(shí)別手勢(shì)含義,評(píng)估模型對(duì)人手特征的理解。文字識(shí)別回答關(guān)于圖像中文本元素的相關(guān)問(wèn)題,考察多模態(tài)模型對(duì)各種類(lèi)型文本的識(shí)別及上下文理解。理解場(chǎng)景理解強(qiáng)調(diào)圖像中的全局信息,需要整體理解來(lái)回答有關(guān)整個(gè)場(chǎng)景的問(wèn)題。字幕匹配針對(duì)圖片,選擇最符合圖片內(nèi)容的文字描述,考察文字及圖片內(nèi)容理解。圖像質(zhì)量分析根據(jù)圖片是否模糊、光照是否正常、是否存在遮擋等因素分析圖像質(zhì)量創(chuàng)作圖像生成根據(jù)給定提示生成逼真且視覺(jué)連貫的圖像的能力,要求模型理解創(chuàng)建可信圖像所需的視覺(jué)元素、關(guān)系和組合規(guī)則。圖像風(fēng)格轉(zhuǎn)換針對(duì)文字要求,對(duì)指定圖片進(jìn)行風(fēng)格變換,要求模型把握?qǐng)D片內(nèi)容及風(fēng)格特點(diǎn)。圖像合成根據(jù)文字要求,對(duì)多張圖像進(jìn)行融合后生成新圖像推理代碼編寫(xiě)理解圖片中代碼內(nèi)容并回答相關(guān)問(wèn)題,考察模型對(duì)代碼的理解和編寫(xiě)能力。下一張圖像預(yù)測(cè)根據(jù)給定的圖像序列,判斷缺失圖片內(nèi)容。應(yīng)用任務(wù)任務(wù) 描述識(shí)別人流量統(tǒng)計(jì)對(duì)特定區(qū)域或場(chǎng)景內(nèi)的人員數(shù)量進(jìn)行實(shí)時(shí)統(tǒng)計(jì)品牌LOGO識(shí)別根據(jù)品牌的LOGO圖片進(jìn)行識(shí)別,判斷所屬企業(yè)并給出企業(yè)的相關(guān)信息。垃圾滿溢判斷圖片中的垃圾桶是否存在垃圾桶,以及垃圾桶是否存在滿溢。智慧養(yǎng)殖針對(duì)豬、雞等各類(lèi)家畜進(jìn)行識(shí)別與計(jì)數(shù),輔助進(jìn)行養(yǎng)殖管理。廚師帽檢測(cè)對(duì)后廚是否有人未正確佩戴廚師帽進(jìn)行識(shí)別,以規(guī)范商家衛(wèi)生安全。外賣(mài)員檢測(cè)針對(duì)各類(lèi)場(chǎng)景下是否存在外賣(mài)員進(jìn)行檢測(cè),服務(wù)于小區(qū)安防、外來(lái)人員管控等。通信設(shè)備識(shí)別針對(duì)圖片中的各類(lèi)通信設(shè)備進(jìn)行識(shí)別,服務(wù)于硬件廠商及運(yùn)營(yíng)商等管理人員。道路安全識(shí)別對(duì)車(chē)輛違停、路面塌陷等相關(guān)情況進(jìn)行識(shí)別,從而保障交通安全。理解活體檢測(cè)根據(jù)輸入的真實(shí)人臉圖片,以及翻拍、面具、高清屏、3D頭模等偽造活體進(jìn)行判斷,以檢驗(yàn)多模態(tài)大模型在人臉安全方面的識(shí)別能力。人像屬性口罩檢測(cè)判斷圖片中是否有人未正確佩戴口罩,檢驗(yàn)?zāi)P蛯?duì)人臉及口罩佩戴的識(shí)別能力。推理數(shù)學(xué)推理針對(duì)圖片中描述的圖形、邏輯等數(shù)學(xué)問(wèn)題進(jìn)行回答,檢驗(yàn)?zāi)P蛯?duì)數(shù)學(xué)圖形和邏輯的理解推導(dǎo)能力。創(chuàng)作藝術(shù)創(chuàng)作根據(jù)圖文提示進(jìn)行藝術(shù)創(chuàng)作,探索新的藝術(shù)風(fēng)格和表現(xiàn)形式,拓展藝術(shù)創(chuàng)作的邊界。游戲角色設(shè)計(jì)根據(jù)圖文輸入提示,輔助或自動(dòng)化完成游戲角色的設(shè)計(jì)過(guò)程,包括角色的外觀、動(dòng)作、服飾、武器等等。與基礎(chǔ)任務(wù)相比,應(yīng)用任務(wù)場(chǎng)景更加固定,但其難度更大,涉及更高層次的技術(shù)能力,可以反映圖文大模型面向具體領(lǐng)域和特定行業(yè)場(chǎng)景的泛化能力。評(píng)測(cè)要素本(zero-shot)、單樣本(one-shot)、少樣本(few-shot)以及提示工程(promptengineering)測(cè)試樣本構(gòu)造方式17],這就要求圖文大模型在零樣本學(xué)習(xí)的條件下依零樣本任務(wù)是指模型在訓(xùn)練階段完全沒(méi)有接觸過(guò)測(cè)試場(chǎng)景及測(cè)試任務(wù)相關(guān)的圖文數(shù)據(jù),模型需要針對(duì)全新場(chǎng)景完成預(yù)測(cè)任務(wù)。這類(lèi)任務(wù)設(shè)置不需要模型進(jìn)行針對(duì)性調(diào)優(yōu),直接考察了圖文大模型對(duì)新知識(shí)的理解和泛化能力,具有極高的應(yīng)用價(jià)值。少樣本:少樣本任務(wù)是指圖文大模型在訓(xùn)練階段可以接觸到少量目標(biāo)任務(wù)的圖文樣本,測(cè)試結(jié)果判斷方式標(biāo)進(jìn)行評(píng)測(cè),如準(zhǔn)確率、F1mAP、BLEU等,這些指標(biāo)能夠比對(duì)模型預(yù)測(cè)結(jié)果與真實(shí)評(píng)價(jià)各大模型性能。客觀類(lèi)LOGO(Accuracy)(Precision)(Recall)、CIDEr除準(zhǔn)確性外,實(shí)時(shí)性、連續(xù)性等功能指標(biāo)也是評(píng)價(jià)圖文大模型的重要維度。其中,實(shí)時(shí)主觀類(lèi)數(shù)據(jù)集構(gòu)造原則準(zhǔn)確性:在構(gòu)建評(píng)測(cè)數(shù)據(jù)時(shí)必須確保準(zhǔn)確性。題目設(shè)計(jì)應(yīng)避免歧義,確保其邏輯嚴(yán)密,數(shù)據(jù)集構(gòu)造方法為了更加客觀全面地構(gòu)建評(píng)測(cè)數(shù)據(jù),以真實(shí)反映圖文大模型的實(shí)際應(yīng)用能力,“弈衡”數(shù)據(jù)與模型管理評(píng)測(cè)流程管理評(píng)測(cè)任
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 初中歷史人教八年級(jí)上冊(cè)近代化的探索洋務(wù)運(yùn)動(dòng)學(xué)歷案
- 浪潮校招java面試題及答案
- java初級(jí)數(shù)據(jù)庫(kù)運(yùn)維面試題及答案
- 學(xué)前教育宣傳匯報(bào)
- 小學(xué)生男生教育
- 水泥廠化驗(yàn)室安全培訓(xùn)
- 幼兒園奧運(yùn)課件
- 2025年中國(guó)男士脫毛膏行業(yè)市場(chǎng)全景分析及前景機(jī)遇研判報(bào)告
- 企業(yè)征信培訓(xùn)
- 中班幼兒入園常規(guī)實(shí)施策略
- 《船舶行業(yè)重大生產(chǎn)安全事故隱患判定標(biāo)準(zhǔn)》解讀與培訓(xùn)
- 2025年中考生物模擬考試卷(附答案)
- 公路工程課件大學(xué)
- 初中歷史人教部編版八年級(jí)上冊(cè)第18課 從九一八事變到西安事變教學(xué)設(shè)計(jì)
- 11《大家排好隊(duì)》(教學(xué)設(shè)計(jì))2023-2024學(xué)年統(tǒng)編版道德與法治二年級(jí)上冊(cè)
- 新供應(yīng)商引入基本門(mén)檻標(biāo)準(zhǔn)
- 2025年河南省洛陽(yáng)市中考一模歷史試題(含答案)
- 2025年度專(zhuān)業(yè)技術(shù)人員繼續(xù)教育公需科目考試題(附答案)
- 光學(xué)工程師試題及答案
- 蘇州市公司員工2025年度勞動(dòng)合同模板:勞動(dòng)合同簽訂與員工考核評(píng)估
- 2025陜煤集團(tuán)榆林化學(xué)有限責(zé)任公司招聘(300人)筆試參考題庫(kù)附帶答案詳解
評(píng)論
0/150
提交評(píng)論