中文大模型基準(zhǔn)測評2024年度報(bào)告

上傳人：b*** IP屬地：北京上傳時(shí)間：2025-02-13 格式：PPTX 頁數(shù)：89 大?。?3.58MB 積分：25 舉報(bào) 版權(quán)申訴

已閱讀5頁，還剩84頁未讀，繼續(xù)免費(fèi)閱讀

版權(quán)說明：本文檔由用戶提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

中文大模型基準(zhǔn)測評2024年度報(bào)告—

2024中文大模型階段性進(jìn)展年度評估精準(zhǔn)量化通用人工智能（AGI）進(jìn)展，定義人類邁向AGI的路線圖AccuratelyquantifyingtheprogressofAGI,definingtheroadmapforhumanity'sjourneytowards

AGI.報(bào)告摘要（一）OpenAI發(fā)布o(jì)1正式版，大幅領(lǐng)跑全球o1正式版的推出進(jìn)一步拉大了與其他模型的差距。經(jīng)12月測評，o1以80.4分大幅領(lǐng)跑全球，較ChatGPT-4o-latest高10.2分，較國內(nèi)最好模型高12.1分。國內(nèi)頂尖大模型進(jìn)展迅速，較為接近ChatGPT-4o-latest國內(nèi)頂尖大模型進(jìn)展迅速，其中DeepSeek-V3和SenseChat

5.5-latest取得68.3分表現(xiàn)出色，超過Claude

3.5

Sonnet和Gemini-2.0-Flash-Exp，較為接近ChatGPT-4o-latest（僅相差1.9分）。國內(nèi)模型在推理速度和性價(jià)比方面很有競爭力國內(nèi)模型DeepSeek-V3和Qwen2.

32B-

Instruct在推理效能方面表現(xiàn)出色，在高水平能力的基礎(chǔ)上，保持極快的推理速度。在性價(jià)比方面，Deep

eek-

、Qwen

-72B-

Instruct（

阿里云）

在高水平能力的基礎(chǔ)上，保持低成本的API價(jià)格。端側(cè)小模型表現(xiàn)驚艷國內(nèi)端側(cè)小模型進(jìn)展迅速，部分小尺寸模型表現(xiàn)要好于上一代的稍大尺寸模型，如Qwen2.

3B-

Instruct、Mini

CPM3-

4B，

均展現(xiàn)出很高的性價(jià)比和落地可行性。來源：Super

CLUE,

2025年1月8日3報(bào)告摘要（二）來源：Super

CLUE,

2025年1月8日注：專項(xiàng)任務(wù)排名中，當(dāng)出現(xiàn)并列排名的情況（如并列第二），則后續(xù)排名依次順延（第三名自動空缺）。數(shù)據(jù)來源：

Super

CLUE，

2025

年1

月8

日；大模型性價(jià)比分布一級維度專項(xiàng)任務(wù)國內(nèi)TOP1國內(nèi)TOP2國內(nèi)TOP3HardAgentStep-2-16k（75.0分）DeepSeek-V3Qwen2.5-72B-Instruct（74.0分）/指令遵循Qwen-max-latest（35.7分）TeleChat2-Large（34.3分）DeepSeek-V3SenseChat

5.5-latest（31.5分）深度推理Baichuan4（60.2分）360zhinao2-o1（59.4分）DeepSeek-V3（58.8分）代碼Doubao-pro-32k-241215（75.2分）DeepSeek-R1-Lite-Preview（71.2分）DeepSeek-V2.5（70.9分）理科計(jì)算SenseChat

5.5-latest（78.2分）DeepSeek-V3360zhinao2-o1（76.3分）/邏輯推理360zhinao2-o1（71.0分）DeepSeek-V3（69.1分）Doubao-pro-32k-241215（67.8分）文科語言理解DeepSeek-V3（86.5分）DeepSeek-R1-Lite-Preview（86.1分）Qwen2.5-72B-InstructTeleChat2-Large（84.7分）生成創(chuàng)作Hunyuan-Turbo（76.2分）NebulaCoder-V5（75.7分）MiniMax-abab7-preview（75.6分）傳統(tǒng)安全SenseChat

5.5-latest（86.4分）NebulaCoder-V5（82.9分）Hunyuan-Turbo（82.5分）各維度國內(nèi)Top3排行4報(bào)告目錄一、2024年度關(guān)鍵進(jìn)展及趨勢2024年大模型關(guān)鍵進(jìn)展2024年值得關(guān)注的中文大模型全景圖2024年國內(nèi)外大模型差距2024年國內(nèi)外大模型能力趨勢二、年度通用測評介紹SuperCLUE介紹SuperCLUE大模型綜合測評體系及數(shù)據(jù)集SuperCLUE通用測評基準(zhǔn)數(shù)據(jù)集及評價(jià)方式各維度測評說明各維度測評示例測評模型列表三、總體測評結(jié)果與分析SuperCLUE通用能力測評總分SuperCLUE模型象限（2024）歷月SuperCLUE大模型Top3一、二級維度表現(xiàn)九大任務(wù)年度Top5綜合效能區(qū)間分布性價(jià)比區(qū)間分布國內(nèi)外推理模型能力對比Hard、理科、文科成績及示例國內(nèi)大模型成熟度-SC成熟度指數(shù)評測與人類一致性驗(yàn)證四、開源模型進(jìn)展評估開源模型榜單10B級別小模型榜單端側(cè)5B級別小模型榜單五、智能體Agent基準(zhǔn)六、推理基準(zhǔn)七、多模態(tài)基準(zhǔn)八、AI產(chǎn)品基準(zhǔn)九、行業(yè)測評基準(zhǔn)十、重點(diǎn)文本專項(xiàng)基準(zhǔn)十一、優(yōu)秀模型案例第1部分62024年度關(guān)鍵進(jìn)展及趨勢2024年大模型關(guān)鍵進(jìn)展2024年值得關(guān)注的中文大模型全景圖2024年國內(nèi)外大模型差距2024年國內(nèi)外大模型能力趨勢時(shí)間躍進(jìn)期2024年大模型關(guān)鍵進(jìn)展2022.122023.062024.062024.122023.12自2022年11

月30日Chat

GPT發(fā)布以來，

AI大模型在全球范圍內(nèi)掀起了有史以來規(guī)模最大的人工智能浪潮。國內(nèi)外AI機(jī)構(gòu)在過去2

年有了實(shí)質(zhì)性的突破。具體可分為：準(zhǔn)備期、躍進(jìn)期、繁榮期和深化期。S

：

大模型2

年關(guān)鍵進(jìn)展關(guān)鍵進(jìn)展深化期準(zhǔn)備期繁榮期Chat

GPT發(fā)布，

全球范圍內(nèi)迅速形成大模型共識。GPT

發(fā)布，

進(jìn)一步掀起大模型研發(fā)熱潮。國內(nèi)快速跟進(jìn)大模型研發(fā)。文心一言1

、通義千問、訊飛星火、3

智腦、Chat

GLM等首批模型相繼發(fā)布。Ope

發(fā)布Sor

，

極大拓展了AI

在視頻領(lǐng)域的想象力。G

、

、G

、L

發(fā)布，

海外進(jìn)入“

一超多強(qiáng)”

的競爭格局。國內(nèi)多模態(tài)領(lǐng)域進(jìn)展迅速，

在部分領(lǐng)域領(lǐng)先海外。

視頻生成模型可靈A

、海螺視頻、v

、Pi

等模型陸續(xù)發(fā)布，

并在海外取得較大應(yīng)用進(jìn)展。國內(nèi)通用模型持續(xù)提升。Qwen

、文心4

、GLM

、商量5

等通用模型陸續(xù)更新。7L

開源，

極大助力全球大模型開發(fā)者生態(tài)。G

、G

mini

等海外大模型發(fā)布，

繼續(xù)提升模型性能。國內(nèi)閉源大模型快速發(fā)展。

豆包、

混元、商量3

、盤古3

、Andes

GPT、Bl

LM、星火3

等陸續(xù)發(fā)布。國

內(nèi)

開

源

生

態(tài)

爆

發(fā)

。

、Q

、

、Yi

B等系列模型引領(lǐng)開源熱潮。O

發(fā)布o(jì)

，

強(qiáng)化學(xué)習(xí)新范式，實(shí)現(xiàn)推理等復(fù)雜能力上的重大突破。C

發(fā)布

，

在代碼和Agent

能力上掀起效率革命。C

上線實(shí)時(shí)視頻能力，

深入語音視覺實(shí)時(shí)多模態(tài)應(yīng)用場景。國內(nèi)推理模型迅速跟進(jìn)。QWQ、K

-m

、

、I

、

、GLM-

Zer

o等推理模型陸續(xù)發(fā)布。國內(nèi)模型性能持續(xù)提升。De

、

豆

包

、

混

元

、G

等系列模型綜合能力上持續(xù)提升。文本文生圖字節(jié)豆包AndesGPT

通用閉源通用開源多模態(tài)行業(yè)軒轅大模型更多行業(yè)部分領(lǐng)域汽車MindGPT教育工業(yè)奇智孔明AInno-15B..................金融螞蟻金融大模型妙想金融大模型醫(yī)聯(lián)M

T百川AI全科醫(yī)生醫(yī)療百度靈醫(yī)極氪Kr大模型易車大模型......華為盤古工業(yè)大模型SMore

LrMo羚羊工業(yè)大模型......營銷：妙筆大模型深勢分子大模型......文化：法律：AI4S：實(shí)時(shí)交互智譜清言星火極速通義APP文生視頻

視覺理解 SenseChat-Vision GLM-4vTeleChat2-35B語音合成/

聲音復(fù)刻百度T

S訊飛語音合成CosyVoice推理QWQ-32B-

PreviewDeep

Seek-

LiteI

h360gpt2-o1SuperCLUE：2024年最值得關(guān)注的中文大模型全景圖2024年國內(nèi)外大模型差距模型23年5月23年6月23年7月23年8月23年9月23年10月23年11月23年12月24年2月24年4月24年6月24年8月24年10月24年12月GPT最新模型（GPT3.5、4、4-Turbo、4o、o1）76.6778.7670.8981.0383.2087.0889.7990.6392.7179.1381.0079.6775.8580.4國內(nèi)TOP153.5863.5362.0060.0262.7570.7474.0279.0287.7573.3277.0078.6469.6468.3國內(nèi)TOP249.5262.5859.3555.7062.6170.4272.8876.5486.7772.5876.0076.2469.0068.3國內(nèi)TOP346.4559.8058.0253.4362.1269.5771.8775.0485.7072.4576.0074.6368.9167.4國內(nèi)外Top1模型差距分?jǐn)?shù)國內(nèi)外Top1模型差距比例總體趨勢上，

國內(nèi)外第一梯隊(duì)大模型在中文領(lǐng)域的通用能力差距正在擴(kuò)大。2023年5月至今，國內(nèi)外大模型能力持續(xù)發(fā)展。其中GPT系列模型為代表的海外最好模型經(jīng)過了從GP

、GP

、o

的多個(gè)版本的迭代升級。國內(nèi)模型也經(jīng)歷了波瀾壯闊的1

個(gè)月的迭代周期，

從2

年5

月的30.12%的差距，縮小至2024年8月的1.29%。但隨著o

1的發(fā)布，

差距再次拉大到15.

05%。SuperCLUE基準(zhǔn)：過去18個(gè)月國內(nèi)外TOP大模型對比趨勢來源：

Super

CLUE,

2023

年5

月～

2024

年12

月，

期間發(fā)布的14

次大模型基準(zhǔn)測評報(bào)告。9Qwen2.52024年國內(nèi)外大模型能力趨勢Super

CLUE基準(zhǔn)分?jǐn)?shù)22.0923.0322.122050

70804060

GLM-4GLM3GLM2Qwen1.0GPT-3.5-TurboGPT-4GPT-4oo1文心一言3.5豆包（云雀）23.0624.0624.0924.1225.03o1-PreviewGLM-4-Plus文心一言4.0Qwen1.5文心一言4.0

TurboDeepSeek-V2.5DeepSeek-V3Claude2.0GPT-4-TurboClaude3.0

OpusClaude3.5

Sonnet（1022）Doubao-pro-previewDoubao-pro121523.09 23.12 24.03模型發(fā)布時(shí)間OpenAIQwen2.0代表性大模型基準(zhǔn)表現(xiàn)趨勢注：

部分模型基準(zhǔn)分?jǐn)?shù)取自2024

年12

月測評結(jié)果，

為保證基準(zhǔn)得分的連續(xù)性，

其他未在2024

年12

月測評的模型基準(zhǔn)分?jǐn)?shù)=

X（

該模型的歷史基準(zhǔn)得分）*

Y（

與12

月基準(zhǔn)相比的難度系數(shù)）。以上模型選取參考模型能力、開放生態(tài)、應(yīng)用場景等綜合因素。HunyuanHunyuan-ProHunyuan-Turbo阿里云百度DeepSeekAnthropic字節(jié)跳動智譜騰訊趨勢分析在過去2

年中，

國產(chǎn)代表性模型持續(xù)迭代多個(gè)版本，D

、

、Qwen

在中文任務(wù)上已經(jīng)接近GPT-

o。其中Deep

Seek-

表現(xiàn)出色，

在12

月測評中有超過Claude

Sonnet的表現(xiàn)。1

以Deep

Seek-

為代表的國產(chǎn)模型正極為接近GPT-

latest在12

月Super

CLUE測評中，

國內(nèi)外主要頭部大模型在Super

CLUE基準(zhǔn)得分集中在60

分。o

和o

preview基于強(qiáng)化學(xué)習(xí)新范式的推理模型成為突破70

分瓶頸的重要技術(shù)代表，

尤其o

正式版突破了80

分大關(guān)，

展現(xiàn)出較大的領(lǐng)先優(yōu)勢。2

基于強(qiáng)化學(xué)習(xí)新范式的推理模型，

突破80

分拉大國內(nèi)外頂尖模型差距10第2部分11年度通用測評介紹SuperCLUE基準(zhǔn)介紹SuperCLUE大模型綜合測評體系SuperCLUE通用測評基準(zhǔn)數(shù)據(jù)集各維度測評說明各維度測評示例測評模型列表0數(shù)據(jù)污染每2個(gè)月題庫100%替換題目100%原創(chuàng)傳統(tǒng)測評SuperCLUE易數(shù)據(jù)污染學(xué)術(shù)視角與應(yīng)用側(cè)較大偏差維度固定陳舊無法與時(shí)俱進(jìn)VS

SuperCLUE

三大特征產(chǎn)業(yè)+用戶視角SuperCLUE與傳統(tǒng)測評的區(qū)別維度Live更新題目固定過擬合風(fēng)險(xiǎn)高CLUE基準(zhǔn)發(fā)布發(fā)布多篇頂會論文，并承辦了NLPCC2020

開放測評任務(wù)發(fā)布FewCLUE、DataCLUE、ZeroCLUE等多個(gè)知名測評基準(zhǔn)聯(lián)合西湖大學(xué)發(fā)布DataCentricAI；發(fā)布SimCLUE大規(guī)模中文語義理解數(shù)據(jù)集中文領(lǐng)域首個(gè)通用大模型測評基準(zhǔn)SuperCLUE正式發(fā)布發(fā)布首個(gè)中文多輪開放式測評基準(zhǔn)SuperCLUE-Open；發(fā)布行業(yè)測評基準(zhǔn)發(fā)布數(shù)學(xué)、代碼、長文本、RAG等測評基準(zhǔn)；發(fā)布文生視頻、文生圖、視覺理解等多模態(tài)測評基準(zhǔn)發(fā)布AI編程助手、實(shí)時(shí)交互等AI應(yīng)用測評基準(zhǔn)；發(fā)布智能座艙測評基準(zhǔn)。SuperCLUE是大模型時(shí)代背景下CLUE基準(zhǔn)的發(fā)展和延續(xù)，是獨(dú)立、領(lǐng)先的通用大模型的綜合性測評基準(zhǔn)。中文語言理解測評基準(zhǔn)C

（

eLanguage

Understanding

Evaluation）

發(fā)起于2019年，陸續(xù)推出過CLUE、Few

CLUE、Zero

CLUE等廣為引用的測評基準(zhǔn)。2019 2020 2021 2022 2023.01-06 2023.07-12 2024.01-06 2024.07-09 2024.10-12發(fā)布鏈?zhǔn)酵评?、小學(xué)奧數(shù)等推理測評基準(zhǔn)；發(fā)布多輪可執(zhí)行智能體測評基準(zhǔn)AgentCLUE010203“Live”更新，0數(shù)據(jù)污染測評方式與用戶交互一致獨(dú)立第三方，無自家模型測評題庫每2

個(gè)月1

替換且全部原創(chuàng)，

杜絕過擬合風(fēng)險(xiǎn)。體系維度根據(jù)大模型進(jìn)展Live更新。12測評方法與用戶交互方式保持一致，

測評任務(wù)貼近真實(shí)落地場景，

高度還原用戶視角。完全獨(dú)立的第三方評測機(jī)構(gòu)，

不研發(fā)自家模型。承諾提供無偏倚的客觀、中立評測結(jié)果。Super

CLUE基準(zhǔn)介紹通用基準(zhǔn)文本專項(xiàng)基準(zhǔn)S

大模型綜合測評基準(zhǔn)框架多模態(tài)基準(zhǔn) 推理基準(zhǔn)Agent基準(zhǔn)應(yīng)用基準(zhǔn)理科計(jì)算邏輯推理代碼文科語言理解生成創(chuàng)作傳統(tǒng)安全Hard深度推理Agent精確指令遵循長文本SuperCLUE-Long視頻文生視頻SuperCLUE-T2V超長文本SuperCLUE-200K角色扮演SuperCLUE-Role檢索增強(qiáng)生成SuperCLUE-RAG多輪對抗安全SuperCLUE-Safety圖像/視覺實(shí)時(shí)音視頻交互SuperCLUE-Live多模態(tài)理解SuperCLUE-V語音實(shí)時(shí)語音交互SuperCLUE-Voice語音合成SuperCLUE-TTS聲音復(fù)刻SuperCLUE-Cloning文生圖SuperCLUE-Image鏈?zhǔn)酵评鞸uperCLUE-COT代碼SuperCLUE-Code3小學(xué)奧數(shù)SuperCLUE-Math6o數(shù)學(xué)多步推理SuperCLUE-Math6科學(xué)推理SuperCLUE-Science視覺推理SuperCLUE--VR通用可執(zhí)行智能體AgentCLUE終端智能體行業(yè)智能體零售教育醫(yī)療...AI產(chǎn)品AI搜索SuperCLUE-AISearch代碼助手SuperCLUE-Coder行業(yè)金融SuperCLUE-Fin工業(yè)SuperCLUE-Industry汽車SuperCLUE-Auto智能座艙SuperCLUE-Icabin已發(fā)布即將發(fā)布13不可執(zhí)行智能體SuperCLUE-Agent手機(jī)PC眼鏡...Super

CLUE大模型綜合測評體系基于大模型技術(shù)和應(yīng)用發(fā)展趨勢、以及基準(zhǔn)測評專業(yè)經(jīng)驗(yàn)，

Super

CLUE構(gòu)建出多領(lǐng)域、多層次的大模型綜合性測評基準(zhǔn)框架。從基礎(chǔ)到應(yīng)用覆蓋：

通用基準(zhǔn)體系、文本專項(xiàng)系列基準(zhǔn)、多模態(tài)系列基準(zhǔn)、推理系列基準(zhǔn)、Agent系列基準(zhǔn)、AI應(yīng)用基準(zhǔn)。為產(chǎn)業(yè)、學(xué)術(shù)和研究機(jī)構(gòu)的大模型研發(fā)提供重要參考。Super

CLUE通用測評基準(zhǔn)數(shù)據(jù)集及評價(jià)方式理科文科Hard1.計(jì)算介紹：包括線性代數(shù)、概率統(tǒng)計(jì)、微積分及數(shù)學(xué)多步推理算術(shù)在內(nèi)的基礎(chǔ)數(shù)學(xué)數(shù)據(jù)集。評價(jià)方式：人工校驗(yàn)參考答案的、多維度評價(jià)標(biāo)準(zhǔn)的評估。2.邏輯推理介紹：包括三段論、關(guān)系推理、樸素推理等在內(nèi)的中文邏輯推理數(shù)據(jù)集。評價(jià)方式：人工校驗(yàn)參考答案的、多維度評價(jià)標(biāo)準(zhǔn)的評估。3.代碼介紹：HumanEval的中文升級版，分為初級、中級和高級的8種常見類型代碼數(shù)據(jù)集。評價(jià)方式：基于代碼單元測試的評估（0-1得分）5.生成與創(chuàng)作介紹：包括但不限于廣告文案、技術(shù)寫作、公文寫作、文學(xué)創(chuàng)作、角色扮演、長文本的數(shù)據(jù)集。評價(jià)方式：多維度評價(jià)標(biāo)準(zhǔn)的評估。4.語言理解介紹：基礎(chǔ)語言理解數(shù)據(jù)集，包括但不限于信息抽取、意圖識別、摘要、百科知識。評價(jià)方式：多維度評價(jià)標(biāo)準(zhǔn)的評估。6.傳統(tǒng)安全介紹：包括但不限于違法犯罪、財(cái)產(chǎn)隱私、偏見歧視、臟話侮辱、道德倫理等。評價(jià)方式：多維度評價(jià)標(biāo)準(zhǔn)的評估。7.指令遵循介紹：主要考察模型的指令遵循能力，包括但不限于定義的輸出格式或標(biāo)準(zhǔn)來生成響應(yīng)，精確地呈現(xiàn)要求的數(shù)據(jù)和信息。評價(jià)方式：基于規(guī)則腳本的評估（0-1得分）8.深度推理介紹：主要考察模型在復(fù)雜任務(wù)中的多步推理能力。復(fù)雜任務(wù)推理涉及在多個(gè)變量和條件下進(jìn)行邏輯推理。評價(jià)方式：人工校驗(yàn)參考答案的、多維度評價(jià)標(biāo)準(zhǔn)的評估。本次12月報(bào)告聚焦通用能力測評，

由理科、文科和Hard三大維度構(gòu)成。題目均為原創(chuàng)新題，總量為1325道多輪簡答題?！纠砜迫蝿?wù)】分為計(jì)算、邏輯推理、代碼測評集；【文科任務(wù)】分為語言理解、生成創(chuàng)作、安全測評集；【Hard任務(wù)】分為指令遵循、深度推理、Agent測評集。SuperCLUE通用基準(zhǔn)數(shù)據(jù)集及評價(jià)方式9.Agent介紹：主要考察在中文場景下基于可執(zhí)行的環(huán)境，LLM作為執(zhí)行代理，在多輪對話中調(diào)用工具完成任務(wù)的能力。包括兩大任務(wù)類型：常規(guī)單輪對話和常規(guī)多輪對話。評價(jià)方式：結(jié)合任務(wù)完成與否、系統(tǒng)狀態(tài)比對的評估（0-1得分）14理科測評說明1（

計(jì)算、邏輯推理）SuperCLUE-理科評測數(shù)據(jù)集計(jì)算包括線性代數(shù)、概率統(tǒng)計(jì)、微積分及數(shù)學(xué)多步推理算術(shù)在內(nèi)的基礎(chǔ)數(shù)學(xué)數(shù)據(jù)集。邏輯推理包括三段論、關(guān)系推理、樸素推理等在內(nèi)的中文邏輯推理數(shù)據(jù)集。測評方法評測流程：我們采用高級AI模型（例如GPT-4o）來評估不同任務(wù)的表現(xiàn)，根據(jù)設(shè)定的評價(jià)標(biāo)準(zhǔn)進(jìn)行打分（1-5分）。以【計(jì)算】任務(wù)為例，設(shè)定的評價(jià)標(biāo)準(zhǔn)包括：符合基本要求、推理準(zhǔn)確性、結(jié)論合理性。假設(shè)在一個(gè)具體的題目中，模型A的得分如下：符合基本要求3分、推理準(zhǔn)確性4分、結(jié)論合理性5分。首先，我們計(jì)算這一題目的平均得分：因此，該題目的具體得分為4分。最后，將所有題目的得分進(jìn)行歸一化處理，以確保滿分為100分。這樣，每個(gè)任務(wù)的得分都能清晰地反映模型在不同標(biāo)準(zhǔn)下的表現(xiàn)。問題：模型回答：評價(jià)打分：基于標(biāo)準(zhǔn)1的<符合基本要求>：AI助手的回答完全符合用戶的要求，詳細(xì)地解釋了級數(shù)的收斂性并計(jì)算了級數(shù)的和?；跇?biāo)準(zhǔn)1的得分：5分；基于標(biāo)準(zhǔn)2的<推理準(zhǔn)確性>：AI助手的推理過程準(zhǔn)確，邏輯清晰，應(yīng)用了正確的數(shù)學(xué)方法來判斷級數(shù)的收斂性和計(jì)算級數(shù)的和?；跇?biāo)準(zhǔn)2的得分：5分；基于標(biāo)準(zhǔn)3的<結(jié)論合理性>：AI助手得出的結(jié)論與已知的數(shù)學(xué)常識和事實(shí)一致，驗(yàn)證了級數(shù)的收斂性并正確計(jì)算了級數(shù)的和?；跇?biāo)準(zhǔn)3的得分：5分；綜合以上，AI助手的回答的綜合得分（平均分）為[[5]]示例-計(jì)算<

篇幅有限省略>15理科測評說明2（

代碼）SuperCLUE-理科評測數(shù)據(jù)集代碼Human

Eval的中文升級版，

分為初級、中級和高級的8

種常見類型代碼數(shù)據(jù)集。測評方法評測流程：整體測評流程包括：1.獲取模型答案；2.提取功能函數(shù)；3.測試功能函數(shù)；4.計(jì)算模型得分。1.獲取模型答案：使用特定的prompt要求模型按照特定格式回答，以方便后續(xù)提取。對于一個(gè)代碼補(bǔ)全問題，每個(gè)模型獲取一次答案。2.提取功能函數(shù)：獲取到模型回復(fù)之后，結(jié)合prompt要求和模型回答設(shè)定規(guī)則提取函數(shù)代碼。3.測試功能函數(shù)：對于一個(gè)代碼補(bǔ)全問題，將提取得到的代碼和該問題對應(yīng)的N個(gè)測試用例組裝成N個(gè)可獨(dú)立運(yùn)行的單元測試程序，在沙箱環(huán)境運(yùn)行（沙箱環(huán)境python版本設(shè)置為3.10）。4.計(jì)算模型得分：對于一個(gè)代碼補(bǔ)全問題和1個(gè)測試用例，構(gòu)成一個(gè)單元測試，通過測試得1分。最終計(jì)算模型在所有單元測試中得分平均分*100作為最終的得分。問題：import

mathfromtypingimportTuplefromcollectionsimport

deque16deftask_func(jugs:Tuple[int],target:int)

->bool:"""給定三個(gè)水壺的容量，判斷是否可以通過無限的水源和以下操作精確地得到target

升水。允許的操作包括：裝滿任意一個(gè)水壺清空任意一個(gè)水壺將水從一個(gè)水壺倒入另一個(gè)水壺，直到倒水壺為空，或接水壺已滿參數(shù)：jugs:Tuple[int,

int,

int]

三個(gè)水壺的容量，按升為單位。target:

int

目標(biāo)水量，單位為升。返回：-

bool

是否可以達(dá)到目標(biāo)水量。"""示例-代碼模型回答：fromtypingimport

Tupledefhas_enough_water(jugs:Tuple[int],target:int)->bool:import

mathju=

jugsifju[0]>

target:returnFalseifju[1]>

target:returnFalseifju[2]>

target:return

Falseifju[0]<=

0:return

Falseifju[1]<=

0:return

Falseifju[2]<=

0:returnFalseforiin

range(3):ifju[i]==

0:continuemax_amount=math.floor(ju[i]/2)res=math.ceil(target/

max_amount)ifres>

0:return

Truereturn

False測試功能函數(shù)：def

check(candidate):asserttask_func((3,5,8),4)==

True計(jì)算模型得分：測試未通過，不得分文科測評說明SuperCLUE-文科評測數(shù)據(jù)集測評方法評測流程：我們采用高級AI模型（例如GPT-4o）來評估不同任務(wù)的表現(xiàn)，根據(jù)設(shè)定的評價(jià)標(biāo)準(zhǔn)進(jìn)行打分（1-5分）。以【生成與創(chuàng)作】任務(wù)為例，設(shè)定的評價(jià)標(biāo)準(zhǔn)包括：符合基本要求、語言與邏輯連貫性、推理鏈條完整度。假設(shè)在一個(gè)具體的題目中，模型A的得分如下：符合基本要求3分、語言與邏輯連貫性4分、推理鏈條完整度5分。首先，我們計(jì)算這一題目的平均得分：因此，該題目的具體得分為4分。最后，將所有題目的得分進(jìn)行歸一化處理，以確保滿分為100分。這樣，每個(gè)任務(wù)的得分都能清晰地反映模型在不同標(biāo)準(zhǔn)下的表現(xiàn)。二、考場安排(...)<

篇幅有限省略>五、考試紀(jì)律要求（考試是檢驗(yàn)學(xué)習(xí)成果的重要方式，學(xué)校對考試紀(jì)律有嚴(yán)格要求，請同學(xué)們自覺遵守：1.嚴(yán)禁攜帶任何與考試無關(guān)的物品進(jìn)入考場，一經(jīng)發(fā)現(xiàn)視為作弊......）六、聯(lián)系方式(......)評價(jià)打分：基于標(biāo)準(zhǔn)1的<符合基本要求>：回答與問題高度契合，詳細(xì)涵蓋了考試時(shí)間表、考場安排、注意事項(xiàng)、特殊安排和考試紀(jì)律等方面，完全滿足用戶的需求?；跇?biāo)準(zhǔn)1的得分：5分；基于標(biāo)準(zhǔn)2的<創(chuàng)造性>：回答在表達(dá)上非常完整，但缺乏一些創(chuàng)新性的表達(dá)或獨(dú)特的見解，如提供一些學(xué)生不同情況的應(yīng)對方案或溫馨提示?；跇?biāo)準(zhǔn)2的得分：3分；基于標(biāo)準(zhǔn)3的<語言與邏輯連貫性>；回答表述清晰，邏輯連貫，各個(gè)部分有機(jī)結(jié)合，并且層次分明?；跇?biāo)準(zhǔn)3的得分：5分；基于標(biāo)準(zhǔn)4的<事實(shí)正確性>；提供的信息大部分是關(guān)于考試安排的細(xì)節(jié)，并且看不到明顯錯(cuò)誤?；跇?biāo)準(zhǔn)4的得分：5分；示例-生成與創(chuàng)作問題：你作為學(xué)校教務(wù)處的工作人員，需要起草一份關(guān)于期末考試安排的通告。通告應(yīng)包括以下內(nèi)容：詳細(xì)的考試時(shí)間表和科目安排，確保學(xué)生能夠清楚知曉每一科目的具體考試日期和時(shí)間；各科目考試的具體考場安排，包括每個(gè)班級所在的考場和座位號，以避免考試當(dāng)天的混亂；<

篇幅有限省略>5.

考試紀(jì)律的明確要求，特別是針對作弊行為的嚴(yán)格規(guī)定，引用學(xué)校相關(guān)的規(guī)章制度和處罰措施，確保公平、公正。模型回答：<

因篇幅有限，

展示省略回答>關(guān)于期末考試安排的通告親愛的全體同學(xué)：為確保本學(xué)期期末考試的順利進(jìn)行，現(xiàn)將考試安排及相關(guān)事項(xiàng)通知如下，請同學(xué)們認(rèn)真閱讀并嚴(yán)格遵守一、考試時(shí)間表及科目安排（...）語言理解基礎(chǔ)語義理解數(shù)據(jù)集，包括但不限于信息抽取、意圖識別、摘要、百科知識。生成與創(chuàng)作包括但不限于廣告文案、技術(shù)寫作、公文寫作、文學(xué)創(chuàng)作、角色扮演、長文本的數(shù)據(jù)集。安全包括但不限于違法犯罪、財(cái)產(chǎn)隱私、偏見歧視、臟話侮辱、道德倫理等。綜合以上，AI助手的回答的綜合得分（平均分）為[[4.5]]17Hard測評說明1（

精確指令遵循）)評測流程：我們完成了一個(gè)針對不同的語言模型的（

文本輸出）

精確指令遵循表現(xiàn)的測試，

根據(jù)設(shè)定的評估標(biāo)準(zhǔn)進(jìn)行評估。評估的結(jié)果為布爾值（

True

或

Fal

se）。以【寫一篇關(guān)于可再生能源對減少碳排放的作用的短文。要求文章不得使用“

二氧化碳”

這個(gè)詞，字?jǐn)?shù)不少于10

個(gè)字，

以JSON格式返回】任務(wù)為例：設(shè)定的評價(jià)標(biāo)準(zhǔn)包括：

遵循關(guān)鍵詞限制、符合字?jǐn)?shù)要求、輸出格式正確。模型只有在命中所有指令的條件下會得到True的返回結(jié)果。例如：模型輸出結(jié)果1

：

{

可再生能源在減少碳排放和減輕氣候變化方面起著關(guān)鍵作用，未來應(yīng)加快推廣。"

}符合所有要求，

返回True。模型輸出結(jié)果2

：{

response":

使用可再生能源可以減少二氧化碳排放。"

}違背了關(guān)鍵詞限制，

返回Fal

se。最后，

我們將所有題目的評估結(jié)果進(jìn)行匯總，

根據(jù)模型完全命中的題目數(shù)量計(jì)算模型的最終命中率，

命中率以百分比為單位。具體來說，

命中率計(jì)算公式為：命中率

(

模型完全命中的題目數(shù)量

總題目數(shù)量 100

%SuperCLUE-Hard：精確指令遵循數(shù)據(jù)集精確指令遵循主要考察模型的指令遵循能力，

要求AI嚴(yán)格按照給定的指令進(jìn)行回復(fù)，

包括但不限于定義的輸出格式或標(biāo)準(zhǔn)來生成響應(yīng)，

精確地呈現(xiàn)要求的數(shù)據(jù)和信息。測評方法示例問題：請撰寫一篇關(guān)于“

智能家居技術(shù)如何改善日常生活”

的文章，

要求包含“

便捷”

、“

安全”

和“

節(jié)能”

三個(gè)詞語，

其中“

便捷”

至少出現(xiàn)3

次，

“

安全”

必須只出現(xiàn)5

次，

而“

節(jié)能”

最多出現(xiàn)2

次。請確保文章只出現(xiàn)4

個(gè)段落（

不要出現(xiàn)標(biāo)題），

每個(gè)段落之間用'

～～'

符號分隔。其中第3

段的第8

個(gè)漢字必須是“

效”

字。另外，

請確保文章恰好由1

個(gè)句子（

用中文句號或問號或感嘆號分隔）

組成，

并且第10

個(gè)句子的第11

個(gè)漢字必須是“

感”

字?；卮穑褐悄芗揖蛹夹g(shù)正在迅速改變我們的日常生活。通過智能設(shè)備，

家庭成員可以享受到前所未有的便捷。無論是控制燈光、調(diào)節(jié)溫度，

還是管理家電，

只需一個(gè)指令就能輕松完成。這種便捷不僅提高了生活質(zhì)量，

還節(jié)省了大量時(shí)間?！踩侵悄芗揖蛹夹g(shù)的另一個(gè)重要優(yōu)勢。智能門鎖和監(jiān)控系統(tǒng)可以實(shí)時(shí)監(jiān)控家庭安全，確保家人和財(cái)產(chǎn)的安全。當(dāng)檢測到異常情況時(shí)，

系統(tǒng)會立即發(fā)出警報(bào)，

并通知相關(guān)人員。這種安全措施大大降低了家庭被盜或發(fā)生意外的風(fēng)險(xiǎn)?！悄芗揖蛹夹g(shù)還能帶來顯著的效能提升。通過智能溫控系統(tǒng)，

家庭可以自動調(diào)節(jié)室內(nèi)溫度，

確保舒適的同時(shí)，

還能節(jié)能。智能照明系統(tǒng)可以根據(jù)光線和時(shí)間自動調(diào)整亮度，

進(jìn)一步減少能源消耗。這種節(jié)能措施不僅環(huán)保，

還能降低電費(fèi)支出?！偟膩碚f，

智能家居技術(shù)通過提供便捷、安全和節(jié)能的解決方案，

極大地改善了日常生活。隨著技術(shù)的不斷進(jìn)步，

未來智能家居將變得更加智能和人性化，

為人們帶來更多便利和舒適感。評價(jià)打分：未遵循指令內(nèi)容：“

節(jié)能”

出現(xiàn)3

次，

第3

段的第8

個(gè)漢字是“

能”

字，

文章只有14

個(gè)句子，

并且第10

個(gè)句子的第11

個(gè)漢字是“

可”

字。測評結(jié)果：

測試不通過18Hard測評說明2（

深度推理）SuperCLUE-Hard：深度推理數(shù)據(jù)集深度推理主要考察模型在復(fù)雜任務(wù)中的多步推理能力。復(fù)雜任務(wù)推理涉及在多個(gè)變量和條件下進(jìn)行邏輯推理。測評方法問題：家具廠生產(chǎn)三種家具：椅子、桌子和書架。生產(chǎn)一單位椅子需要1.5小時(shí)的組裝時(shí)間、2公斤的木材和0.5小時(shí)的涂裝時(shí)間；生產(chǎn)一單位桌子需要2.5小時(shí)的組裝時(shí)間、4公斤的木材和1小時(shí)的涂裝時(shí)間；生產(chǎn)一單位書架需要2小時(shí)的組裝時(shí)間、3公斤的木材和0.8小時(shí)的涂裝時(shí)間。家具廠每天可用的最大資源為：120小時(shí)的組裝時(shí)間、80公斤的木材和50小時(shí)的涂裝時(shí)間。椅子的利潤為每單位25元，桌子的利潤為每單位60元，書架的利潤為每單位40元。此外，家具廠必須至少生產(chǎn)10個(gè)單位的椅子、5個(gè)單位的桌子和8個(gè)單位的書架。家具廠應(yīng)如何安排生產(chǎn)數(shù)量，以最大化利潤？模型回答：要解決這個(gè)問題，

我們需要使用線性規(guī)劃的方法，

找到在給定的資源限制下，

使利潤最大的產(chǎn)品組合。以下是詳細(xì)的步驟：**

第一步：

定義決策變量**：<

篇幅有限省略>；**

第二步：

建立目標(biāo)函數(shù)**：<

篇幅有限省略>**

第三步：

建立約束條件**：<

篇幅有限省略>；**

第四步：

求解線性規(guī)劃問題**：<

篇幅有限省略>**

第五步：

分析約束條件**：<

篇幅有限省略>**

第六步：

尋找增加利潤的機(jī)會**：<

篇幅有限省略><

篇幅有限省略>**

第十一步：

得出結(jié)論**：<

篇幅有限省略>（

由于篇幅有限，

模型回答省略具體內(nèi)容，

僅展示關(guān)鍵步驟）評價(jià)打分：基于標(biāo)準(zhǔn)1的<符合基本要求>：AI助手的回答完全符合用戶的意圖，詳細(xì)解釋了如何最大化利潤，并提供了完整的線性規(guī)劃模型?；跇?biāo)準(zhǔn)1的得分：5分；基于標(biāo)準(zhǔn)2的<推理過程準(zhǔn)確性>：AI助手的推理過程準(zhǔn)確，步驟清晰，邏輯合理，且與參考答案一致?；跇?biāo)準(zhǔn)2的得分：5分；基于標(biāo)準(zhǔn)3的<結(jié)論一致性>：AI助手的結(jié)論與參考答案完全一致，給出了具體的生產(chǎn)數(shù)量和最大利潤?；跇?biāo)準(zhǔn)3的得分：5分；綜合以上，AI助手的回答的綜合得分（平均分）為[[5]]示例評測流程：我們采用高級AI模型（例如GPT-4o）來評估不同任務(wù)的表現(xiàn)，根據(jù)設(shè)定的評價(jià)標(biāo)準(zhǔn)進(jìn)行打分（1-5分）?！旧疃韧评怼咳蝿?wù)設(shè)定的評價(jià)標(biāo)準(zhǔn)包括：符合基本要求、推理準(zhǔn)確性、結(jié)論合理性。假設(shè)在一個(gè)具體的題目中，模型A的得分如下：符合基本要求3分、推理準(zhǔn)確性4分、結(jié)論合理性5分。首先，我們計(jì)算這一題目的平均得分：因此，該題目的具體得分為4分。最后，將所有題目的得分進(jìn)行歸一化處理，以確保滿分為100分。這樣，每個(gè)任務(wù)的得分都能清晰地反映模型在不同標(biāo)準(zhǔn)下的表現(xiàn)。19Hard測評說明3（

Agent）SuperCLUE-Hard：Agent數(shù)據(jù)集Agent主要考察在中文場景下基于可執(zhí)行的環(huán)境，LLM作為執(zhí)行代理，在多輪對話中調(diào)用工具完成任務(wù)的能力。測評方法【第四輪問題】：看來需要加油了，幫我把油加滿吧。然后再發(fā)條消息給小紅說“今天路上有點(diǎn)堵車，可能會晚一點(diǎn)到?！薄灸Ｐ突貜?fù)1】：[fillFuelTank(fuelAmount=33.5),get_user_id(user='小紅')]【模型得到的反饋1】：第1個(gè)函數(shù)調(diào)用：fillFuelTank(fuelAmount=33.5),

執(zhí)行返回結(jié)果為：{"fuelLevel":

50.0}，第2個(gè)函數(shù)調(diào)用：get_user_id(user='小紅'),執(zhí)行返回結(jié)果為：{"user_id":"USR032"}【模型回復(fù)2】：[send_message(receiver_id='USR032',message='今天路上有點(diǎn)堵車，可能會晚一點(diǎn)到。')]【模型得到的反饋2】：第1個(gè)函數(shù)調(diào)用：send_message(receiver_id='USR032',

message='今天路上有點(diǎn)堵車，可能會晚一點(diǎn)到。'),

執(zhí)行返回結(jié)果為：{"sent_status":

true,

"message_id":

{"new_id":

67410},

"message":

"Message

sent

'USR032'

successfully."}【模型回復(fù)3】：我已經(jīng)把油加滿了，并給小紅發(fā)了消息。還有什么需要幫忙的嗎？【第八輪問題】：有點(diǎn)熱了，把空調(diào)溫度調(diào)低一點(diǎn)，調(diào)到24攝氏度就行，風(fēng)速設(shè)置為80，模式為制冷?！灸Ｐ突貜?fù)1】：[adjustClimateControl(temperature=24.0,fanSpeed=80,mode='cool')]【模型得到的反饋】：第1個(gè)函數(shù)調(diào)用：adjustClimateControl(temperature=24.0,

fanSpeed=80,

mode='cool'),

執(zhí)行返回結(jié)果為：{"currentACTemperature":24.0,"climateMode":"cool","humidityLevel":45.0}【模型回復(fù)2】：好的，空調(diào)已設(shè)置為制冷模式，溫度為24攝氏度，風(fēng)速為80。（

本題共八輪對話，

此處省略了其余多輪對話，

并由于篇幅限制，

只展示關(guān)鍵信息）示例描述：本次Agent測評共包含8個(gè)API，本題用到兩個(gè)API。車輛控制系統(tǒng)：該工具屬于車輛控制系統(tǒng)，允許用戶控制汽車的各個(gè)方面，如發(fā)動機(jī)、車門、空調(diào)控制、燈光等。消息API：該工具屬于消息API，該消息用于管理工作空間中的用戶交互。prompt：你是一個(gè)組合函數(shù)完成任務(wù)的專家。你將會收到一個(gè)問題和一些可以調(diào)用的函數(shù)及其描述?；趩栴}，你需要調(diào)用一個(gè)或者多個(gè)函數(shù)來實(shí)現(xiàn)問題要求。如果使用你收到的函數(shù)無法完成問題要求，請指出。如果你收到的問題缺乏調(diào)用函數(shù)所必要的參數(shù)，也請指出。在你的回答中只應(yīng)該包括函數(shù)調(diào)用（function

calls）內(nèi)容，而不應(yīng)該包括其他內(nèi)容。在每一輪對話中，你應(yīng)該盡最大努力完成用戶當(dāng)前提出的任務(wù)。<

篇幅有限省略>下面提供了一個(gè)列表，列表中是一些你可以調(diào)用的函數(shù)以及函數(shù)的功能和參數(shù)描述，使用json格式<

篇幅有限省略>【第一輪問題】：今天下雨了，幫我把車燈設(shè)置為“on”模式，確保視線清楚?！灸Ｐ突貜?fù)1】：[setHeadlights(mode='on')]【模型得到的反饋】：第1個(gè)函數(shù)調(diào)用：setHeadlights(mode='on'),執(zhí)行返回結(jié)果為：{"headlightStatus":"on"}【模型回復(fù)2】：好的，我已經(jīng)將車燈設(shè)置為“on”模式。評測流程：每一題包含N輪對話，只有每一輪對話都回復(fù)正確才能記1分。我們將模型回復(fù)的函數(shù)調(diào)用進(jìn)行實(shí)際執(zhí)行后判定是否回復(fù)正確。評價(jià)維度包括：函數(shù)調(diào)用執(zhí)行結(jié)果、執(zhí)行后的系統(tǒng)狀態(tài)。對于每一輪模型回復(fù)的評價(jià)方法：獲取模型答案之后，從中提取可執(zhí)行的函數(shù)調(diào)用。執(zhí)行提取的函數(shù)調(diào)用得到執(zhí)行結(jié)果集1，以及執(zhí)行后的系統(tǒng)狀態(tài)1;執(zhí)行人類標(biāo)注的ground

truth(函數(shù)調(diào)用)得到執(zhí)行結(jié)果集2，系統(tǒng)狀態(tài)2；將執(zhí)行結(jié)果集1與執(zhí)行結(jié)果集2進(jìn)行比較，系統(tǒng)狀態(tài)1和系統(tǒng)狀態(tài)2進(jìn)行比較；如果執(zhí)行結(jié)果集2是執(zhí)行結(jié)果集1的子集，系統(tǒng)狀態(tài)1和系統(tǒng)狀態(tài)2相同則認(rèn)為模型的本輪回復(fù)正確。最后，計(jì)算答對的題目的比例，轉(zhuǎn)化為百分制得到模型的總分。即：模型得分=（答對的題目數(shù)量/總題目數(shù)量）*100<

篇幅有限省略其余對話><

對話結(jié)束>20本次測評數(shù)據(jù)選取了Su

UE-12月測評結(jié)果，模型選取了國內(nèi)外有代表性的42個(gè)大模型在12月份的版本。21測評模型列表模型機(jī)構(gòu)簡介模型機(jī)構(gòu)簡介1.o1OpenAIOpenAI在2024年12月17日發(fā)布的o1正式版本，使用方式為官網(wǎng)網(wǎng)頁22.TeleChat2-LargeTeleAI官方提供的小范圍內(nèi)測版本，使用方式為API2.o1-previewOpenAIOpenAI在2024年9月12日發(fā)布的版本，使用官方API：o1-preview-2024-09-1223.ERNIE-4.0-Turbo-8K-Latest百度百度文心系列的?語?模型，使用官方API：ERNIE-4.0-Turbo-8K-Latest3.ChatGPT-4o-latestOpenAI與ChatGPT上的GPT-4o同版本，對應(yīng)OpenAI官方的API名稱:chatgpt-4o-latest24.Baichuan4百川智能官方提供的小范圍內(nèi)測版本，使用方式為API4.SenseChat

5.5-latest商湯官方提供的小范圍內(nèi)測版本，使用方式為API25.GPT-4o-miniOpenAIOpenAI在2024年7月18日發(fā)布的gpt-4o-mini版本，使用官方API5.DeepSeek-V3深度求索深度求索在2024年12月26日發(fā)布的V3版本，使用官方的API：deepseek-chat26.kimiKimi官方網(wǎng)頁版產(chǎn)品【kimi】6.Gemini-2.0-Flash-ExpGoogle官方在2024年12月11日發(fā)布的Gemini

2.0Flash模型的實(shí)驗(yàn)版本。27.Llama-3.3-70B-InstructMetaMeta發(fā)布的Llama3.3版本70B開源模型，調(diào)用的together.ai的接口7.Claude3.5

Sonnet(20241022)AnthropicAntropic在2024年10月22日發(fā)布的版本，使用API：claude-3-5-sonnet-2024102228.TeleChat2-35BTeleAI官方開源的TeleChat2-35B-32K版本8.360zhinao2-o1360官方公開的推理模型，使用方式為API，原360gpt2-o1。29.Qwen2.5-7B-Instruct阿里巴巴Qwen2.5開源系列7B模型。使用阿里云公開API：qwen2.5-7b-instruct9.Doubao-pro-32k-241215字節(jié)跳動在2024年12月15日發(fā)布的版本，使用API：Doubao-pro-32k-24121530.QwQ-32B-Preview阿里巴巴專注于增強(qiáng)

推理能力。使用阿里云公開API：qwq-32b-preview10.NebulaCoder-V5中興通訊官方提供的小范圍內(nèi)測版本，使用方式為API31.訊飛星火V4.0科大訊飛科大訊飛發(fā)布的API版本：Spark4.0

Ultra11.Qwen-max-latest阿里巴巴通義千問系列效果最好的模型，使用阿里云公開的API：qwen-max-latest32.GLM-4-9B-Chat智譜AI官方開源的GLM-4-9B-Chat版本12.Qwen2.5-72B-Instruct阿里巴巴Qwen2.5開源系列72B模型。使用阿里云公開的API：qwen2.5-72b-instruct33.Gemma-2-9b-itGoogle官方開源的gemma-2-9b-it版本13.Step-2-16k階躍星辰官方公開發(fā)布的API版本：step-2-16k34.Yi-1.5-34B-Chat-16K零一萬物官方開源的Yi-1.5-34B-Chat-16K版本14.GLM-4-Plus智譜AI智譜自研的GLM系列大模型最新版本，使用官方API：GLM-4-Plus35.360Zhinao2-7B-Chat-4K360官方開源的360Zhinao2-7B-Chat-4K版本15.Grok-2-1212X.AIX.AI在2024年12月12日推出的模型版本，使用官方API：grok-2-121236.Qwen2.5-3B-Instructt阿里巴巴Qwen2.5開源系列3B模型。使用阿里云公開的API：qwen2.5-3b-instruct16.DeepSeek-R1-Lite-Preview深度求索深度求索在2024年11月20日推出的推理模型

，使用方式為官網(wǎng)網(wǎng)頁37.Yi-1.5-9B-Chat-16K零一萬物官方開源的Yi-1.5-9B-Chat-16K版本17.Qwen2.5-32B-Instruct阿里巴巴Qwen2.5開源系列32B模型。使用阿里云公開的API：qwen2.5-32b-instruct38.MiniCPM3-4B面壁智能官方開源的MiniCPM3-4B版本18.Sky-Chat-3.0昆侖萬維昆侖萬維發(fā)布的千億級別

MOE（Mixtureof

Experts）模型，使用官方API39.Llama-3.1-8B-InstructMetaMeta發(fā)布的Llama3.1版本8B開源模型，調(diào)用的together.ai的接口19.DeepSeek-V2.5深度求索深度求索在2024年9月5日發(fā)布的DeepSeek-V2.5，使用官方API：deepseek-chat40.Phi-3.5-Mini-Instruct微軟官方開源的Phi-3.5-Mini-Instruct版本20.MiniMax-abab7-previewMiniMax官方提供的小范圍內(nèi)測版本，使用官方提供的API接口41.Gemma-2-2b-itGoogle官方開源的gemma-2-2b-it版本21.Hunyuan-Turbo騰訊官方在12月份對外試用的Hunyuan-Turbo預(yù)覽版，后續(xù)將逐步開放公開使用。42.Mistral-7B-Instruct-v0.3Mistral

AI官方開源的Mistral-7B-Instruct-v0.3版本第3部分22總體測評結(jié)果與分析SuperCLUE通用能力測評總分SuperCLUE模型象限（2024）歷月SuperCLUE大模型Top3一級維度表現(xiàn)二級細(xì)粒度分?jǐn)?shù)SuperCLUE-文科成績國內(nèi)大模型成熟度-SC成熟度指數(shù)評測與人類一致性驗(yàn)證九大任務(wù)年度Top5SuperCLUE大模型綜合效能區(qū)間分布SuperCLUE性價(jià)比區(qū)間分布SuperCLUE-Hard成績SuperCLUE-理科成績海外及其他對比模型國內(nèi)模型國內(nèi)外通用大模型SuperCLUE基準(zhǔn)榜單來源：

Super

CLUE,

2025

年1

月8

日；注：

由于部分模型分?jǐn)?shù)較為接近，

為了減少問題波動對排名的影響，

本次測評將相距1

分區(qū)間的模型定義為并列，

報(bào)告中分?jǐn)?shù)展示為并列中高分。海外模型僅對比參考不參與排名；

國內(nèi)部分廠商由于版本眾多，

本次測評僅選擇一部分代表性模型參與排名，

其余模型僅做參考，

不參與排名。Super

CLUE通用能力測評總分23基礎(chǔ)能

力應(yīng)用能力潛力探索者技術(shù)領(lǐng)跑者實(shí)用主義者卓越領(lǐng)導(dǎo)者ChatGPT-4o-latest(OpenAI)來源：

Super

CLUE,

2025

年1

月8

日；注：

兩個(gè)維度的組成?；A(chǔ)能力包含：

計(jì)算、邏輯推理、深度推理、傳統(tǒng)安全、語言理解；

應(yīng)用能力包括：

生成創(chuàng)作、代碼、指令遵循、A

能力；

四個(gè)象限的含義。它們代表大模型所處的不同階段與定位，

其中【潛力探索者】代表模型正在探索階段未來擁有較大潛力；【技術(shù)領(lǐng)跑者】代表模型在基礎(chǔ)技術(shù)方面具備領(lǐng)先性；【實(shí)用主義者】代表模型在場景應(yīng)用深度上具備領(lǐng)先性；【卓越領(lǐng)導(dǎo)者】代表模型在基礎(chǔ)和場景應(yīng)用上處于領(lǐng)先位置，

引領(lǐng)國內(nèi)大模型發(fā)展。Super

CLUE模型象限（

2024）QwQ-32B-Preview(阿里)o1-preview(OpenAI)Claude3.5

Sonnet(20241022)Step-2-16k(階躍星辰)GLM-4-Plus(智譜)Hunyuan-Turbo(騰訊)360zhinao2-o1(360)Yi-1.5-9B-Chat-16K(零一萬物)Llama-3.1-8B-Instruct(Meta)o1(OpenAI)Gemini-2.0-Flash-Exp(Google)DeepSeek-V3(深度求索)Doubao-pro-32k-241215(字節(jié))Qwen-max-latest(阿里)SenseChat

5.5-latest(商湯)MiniMax-abab7-previewSky-Chat-3.0(昆侖萬維)TeleChat2-Large(TeleAI)Baichuan4(百川智能)DeepSeek-V2.5(深度求索)Qwen2.5-32b-Instruct(阿里)ERNIE-4.0-Turbo-8K-Latest(百度)MiniCPM3-4B(面壁智能)Phi-3.5-Mini-Instruct(微軟)Gemma-2-2b-it(Google)Mistral-7B-Instruct-v0.3360Zhinao2-7B-Chat-4K(360)Qwen2.5-3B-Instruct(阿里)Grok-2-1212(X.AI)NebulaCoder-V5(中興)GPT-4o-mini(OpenAI)Llama-3.3-70B-Instruct(Meta)Kimi(月之暗面)TeleChat2-35B(TeleAI)Qwen2.5-7B-Instruct(阿里)GLM-4-9B-Chat(智譜)訊飛星火V4.0(科大訊飛)Gemma-2-9b-it(Google)Yi-1.5-34B-Chat-16K(零一萬物)Qwen2.5-72B-Instruct(阿里)SuperCLUE模型象限（2024）242023-

2024年Super

CLUE基準(zhǔn)國內(nèi)外大模型Top3???月份國內(nèi)國內(nèi)國內(nèi)海外Top32024年12月DeepSeek-V3、SenseChat

5.5-latest、360gpt2-o1Doubao-pro-32k-241215、NebulaCoder-V5、Qwen-max-latestStep-2-16k、GLM-4-Pluso1、o1-preview、ChatGPT-4o-latest2024年10月GLM-4-Plus、SenseChat

5.5、AndesGPT-2.0、Qwen2.5-72B-Instruct（并列）Hunyuan-Turbo、360gpt2-pro、Step-2、DeepSeek-V2.5、Doubao-proBaichuan4、山海大模型4.0、TeleChat2-Largeo1-preview、Claude

3.5

Sonnet（20241022）、ChatGPT-4o-latest2024年8月Hunyuan-Turbo-PreviewAndesGPT-2.0、DeepSeek-V2-0628Qwen2-72B-Instruct、SenseChat5.5、Doubao_pro_previewChatGPT-4o-latest、GPT-4-Turbo-2024-04-09、Claude

3.5

Sonnet2024年6月Qwen2-72BGLM-4-0520、DeepSeek-V2、SenseChat5.0AndesGPTGPT-4o、Claude-3.5-Sonnet-200k、GPT-4-Turbo-04092024年4月Baichuan3GLM-4、通義千問2.1騰訊Hunyuan-pro、文心一言4.0GPT-4-Turbo-0125、GPT-4-Turbo-0409、GPT-4(官網(wǎng))2024年2月文心一言4.0GLM-4通義千問2.1GPT4-Turbo-0125、GPT4（網(wǎng)頁）、Claude22023年12月文心一言4.0通義千問2.0AndesGPTGPT4-Turbo、GPT4(網(wǎng)頁)、Claude22023年11月文心一言4.0MoonshotYi-34B-ChatGPT4-Turbo、GPT-4、Claude22023年10月BlueLMMoonshot文心一言4.0GPT4、Claude2、GPT3.52023年9月SenseChat3.0文心一言(網(wǎng)頁v2.3.1)ChatGLM2-ProGPT4、gpt-3.5-turbo、Claude22023年8月Baichuan2-13B-ChatMinimax-abab5文心一言(網(wǎng)頁v2.2.3)GPT4、gpt-3.5-turbo、Claude22023年7月文心一言(網(wǎng)頁v2.2.0)ChatGLM-130B訊飛星火V1.5GPT4、Claude2、gpt-3.5-turbo2023年6月360智腦文心一言訊飛星火GPT4、gpt-3.5-turbo、Claude2023年5月360智腦訊飛星火ChatGLM-130BGPT4、gpt-3.5-turbo、Claude25Super

CLUE通用能力測評：

一級維度表現(xiàn)Su

-一級維度表現(xiàn)來源：SuperCLUE,

2025年1月8日。標(biāo)紅分?jǐn)?shù)為國內(nèi)前三名。在1

月S

測評中，

國內(nèi)外模型仍有一定差距。o1

取得8

分領(lǐng)跑全球，

w、Chat

GPT-

latest緊隨其后有超出70

分的表現(xiàn)。國內(nèi)大模型D

、S

人人文庫> 全部分類> 行業(yè)資料 > 信息產(chǎn)業(yè)

溫馨提示

1. 本站所有資源如無特殊說明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽，若沒有圖紙預(yù)覽就沒有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 人人文庫網(wǎng)僅提供信息存儲空間，僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理，對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對任何下載內(nèi)容負(fù)責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容，請與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

中文大模型基準(zhǔn)測評2024年度報(bào)告

文檔簡介

溫馨提示

最新文檔

評論

中文大模型基準(zhǔn)測評2024年度報(bào)告

文檔簡介

溫馨提示

最新文檔

評論

相關(guān)文檔