中文大模型基準(zhǔn)測評2024年度報(bào)告_第1頁
中文大模型基準(zhǔn)測評2024年度報(bào)告_第2頁
中文大模型基準(zhǔn)測評2024年度報(bào)告_第3頁
中文大模型基準(zhǔn)測評2024年度報(bào)告_第4頁
中文大模型基準(zhǔn)測評2024年度報(bào)告_第5頁
已閱讀5頁,還剩84頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

中文大模型基準(zhǔn)測評2024年度報(bào)告—

2024中文大模型階段性進(jìn)展年度評估精準(zhǔn)量化通用人工智能(AGI)進(jìn)展,定義人類邁向AGI的路線圖AccuratelyquantifyingtheprogressofAGI,definingtheroadmapforhumanity'sjourneytowards

AGI.報(bào)告摘要(一)OpenAI發(fā)布o(jì)1正式版,大幅領(lǐng)跑全球o1正式版的推出進(jìn)一步拉大了與其他模型的差距。經(jīng)12月測評,o1以80.4分大幅領(lǐng)跑全球,較ChatGPT-4o-latest高10.2分,較國內(nèi)最好模型高12.1分。國內(nèi)頂尖大模型進(jìn)展迅速,較為接近ChatGPT-4o-latest國內(nèi)頂尖大模型進(jìn)展迅速,其中DeepSeek-V3和SenseChat

5.5-latest取得68.3分表現(xiàn)出色,超過Claude

3.5

Sonnet和Gemini-2.0-Flash-Exp,較為接近ChatGPT-4o-latest(僅相差1.9分)。國內(nèi)模型在推理速度和性價(jià)比方面很有競爭力國內(nèi)模型DeepSeek-V3和Qwen2.

5-

32B-

Instruct在推理效能方面表現(xiàn)出色,在高水平能力的基礎(chǔ)上,保持極快的推理速度。在性價(jià)比方面,Deep

S

eek-

V

3

、Qwen

2

.

5

-72B-

Instruct(

阿里云)

在高水平能力的基礎(chǔ)上,保持低成本的API價(jià)格。端側(cè)小模型表現(xiàn)驚艷國內(nèi)端側(cè)小模型進(jìn)展迅速,部分小尺寸模型表現(xiàn)要好于上一代的稍大尺寸模型,如Qwen2.

5-

3B-

Instruct、Mini

CPM3-

4B,

均展現(xiàn)出很高的性價(jià)比和落地可行性。來源:Super

CLUE,

2025年1月8日3報(bào)告摘要(二)來源:Super

CLUE,

2025年1月8日注:專項(xiàng)任務(wù)排名中,當(dāng)出現(xiàn)并列排名的情況(如并列第二),則后續(xù)排名依次順延(第三名自動空缺)。數(shù)據(jù)來源:

Super

CLUE,

2025

年1

月8

日;大模型性價(jià)比分布一級維度專項(xiàng)任務(wù)國內(nèi)TOP1國內(nèi)TOP2國內(nèi)TOP3HardAgentStep-2-16k(75.0分)DeepSeek-V3Qwen2.5-72B-Instruct(74.0分)/指令遵循Qwen-max-latest(35.7分)TeleChat2-Large(34.3分)DeepSeek-V3SenseChat

5.5-latest(31.5分)深度推理Baichuan4(60.2分)360zhinao2-o1(59.4分)DeepSeek-V3(58.8分)代碼Doubao-pro-32k-241215(75.2分)DeepSeek-R1-Lite-Preview(71.2分)DeepSeek-V2.5(70.9分)理科計(jì)算SenseChat

5.5-latest(78.2分)DeepSeek-V3360zhinao2-o1(76.3分)/邏輯推理360zhinao2-o1(71.0分)DeepSeek-V3(69.1分)Doubao-pro-32k-241215(67.8分)文科語言理解DeepSeek-V3(86.5分)DeepSeek-R1-Lite-Preview(86.1分)Qwen2.5-72B-InstructTeleChat2-Large(84.7分)生成創(chuàng)作Hunyuan-Turbo(76.2分)NebulaCoder-V5(75.7分)MiniMax-abab7-preview(75.6分)傳統(tǒng)安全SenseChat

5.5-latest(86.4分)NebulaCoder-V5(82.9分)Hunyuan-Turbo(82.5分)各維度國內(nèi)Top3排行4報(bào)告目錄一、2024年度關(guān)鍵進(jìn)展及趨勢2024年大模型關(guān)鍵進(jìn)展2024年值得關(guān)注的中文大模型全景圖2024年國內(nèi)外大模型差距2024年國內(nèi)外大模型能力趨勢二、年度通用測評介紹SuperCLUE介紹SuperCLUE大模型綜合測評體系及數(shù)據(jù)集SuperCLUE通用測評基準(zhǔn)數(shù)據(jù)集及評價(jià)方式各維度測評說明各維度測評示例測評模型列表三、總體測評結(jié)果與分析SuperCLUE通用能力測評總分SuperCLUE模型象限(2024)歷月SuperCLUE大模型Top3一、二級維度表現(xiàn)九大任務(wù)年度Top5綜合效能區(qū)間分布性價(jià)比區(qū)間分布國內(nèi)外推理模型能力對比Hard、理科、文科成績及示例國內(nèi)大模型成熟度-SC成熟度指數(shù)評測與人類一致性驗(yàn)證四、開源模型進(jìn)展評估開源模型榜單10B級別小模型榜單端側(cè)5B級別小模型榜單五、智能體Agent基準(zhǔn)六、推理基準(zhǔn)七、多模態(tài)基準(zhǔn)八、AI產(chǎn)品基準(zhǔn)九、行業(yè)測評基準(zhǔn)十、重點(diǎn)文本專項(xiàng)基準(zhǔn)十一、優(yōu)秀模型案例第1部分62024年度關(guān)鍵進(jìn)展及趨勢2024年大模型關(guān)鍵進(jìn)展2024年值得關(guān)注的中文大模型全景圖2024年國內(nèi)外大模型差距2024年國內(nèi)外大模型能力趨勢時(shí)間躍進(jìn)期2024年大模型關(guān)鍵進(jìn)展2022.122023.062024.062024.122023.12自2022年11

月30日Chat

GPT發(fā)布以來,

AI大模型在全球范圍內(nèi)掀起了有史以來規(guī)模最大的人工智能浪潮。國內(nèi)外AI機(jī)構(gòu)在過去2

年有了實(shí)質(zhì)性的突破。具體可分為:準(zhǔn)備期、躍進(jìn)期、繁榮期和深化期。S

u

p

e

r

C

L

U

E

A

I

大模型2

0

2

4

年關(guān)鍵進(jìn)展關(guān)鍵進(jìn)展深化期準(zhǔn)備期繁榮期Chat

GPT發(fā)布,

全球范圍內(nèi)迅速形成大模型共識。GPT

4

發(fā)布,

進(jìn)一步掀起大模型研發(fā)熱潮。國內(nèi)快速跟進(jìn)大模型研發(fā)。文心一言1

.

0

、通義千問、訊飛星火、3

6

0

智腦、Chat

GLM等首批模型相繼發(fā)布。Ope

n

AI

發(fā)布Sor

a

,

極大拓展了AI

在視頻領(lǐng)域的想象力。G

P

T

-

4

o

、

C

l

a

u

d

e

3

.

5

、G

e

m

i

n

i

1

.

5

、L

l

a

m

a

3

發(fā)布,

海外進(jìn)入“

一超多強(qiáng)”

的競爭格局。國內(nèi)多模態(tài)領(lǐng)域進(jìn)展迅速,

在部分領(lǐng)域領(lǐng)先海外。

視頻生成模型可靈A

I

、海螺視頻、v

i

du

、Pi

x

Ve

r

s

e

等模型陸續(xù)發(fā)布,

并在海外取得較大應(yīng)用進(jìn)展。國內(nèi)通用模型持續(xù)提升。Qwen

2

.

5

、文心4

.

0

、GLM

4

、商量5

.

5

等通用模型陸續(xù)更新。7L

l

a

m

a

2

開源,

極大助力全球大模型開發(fā)者生態(tài)。G

PT

-

4

T

ur

b

o

、G

e

mini

等海外大模型發(fā)布,

繼續(xù)提升模型性能。國內(nèi)閉源大模型快速發(fā)展。

豆包、

混元、商量3

.

0

、盤古3

.

0

、Andes

GPT、Bl

ue

LM、星火3

.

0

等陸續(xù)發(fā)布。國

內(nèi)

態(tài)

發(fā)

。

B

a

i

c

h

u

a

n

、Q

w

e

n

、

I

n

t

e

r

n

L

M

、

C

h

a

t

G

L

M

3

、Yi

-

34

B等系列模型引領(lǐng)開源熱潮。O

p

e

n

A

I

發(fā)布o(jì)

1

,

強(qiáng)化學(xué)習(xí)新范式,實(shí)現(xiàn)推理等復(fù)雜能力上的重大突破。C

l

a

u

d

e

3

.

5

-

S

o

n

n

e

t

發(fā)布

,

在代碼和Agent

能力上掀起效率革命。C

h

a

t

G

P

T

上線實(shí)時(shí)視頻能力,

深入語音視覺實(shí)時(shí)多模態(tài)應(yīng)用場景。國內(nèi)推理模型迅速跟進(jìn)。QWQ、K

0

-m

a

t

h

、

D

e

e

p

S

e

e

k

-

R

1

-

L

i

t

e

、I

n

t

e

r

n

T

h

i

n

k

e

r

、

3

6

0

g

p

t

2

-

o

1

、GLM-

Zer

o等推理模型陸續(xù)發(fā)布。國內(nèi)模型性能持續(xù)提升。De

e

p

Se

e

k

-

V

3

、

-

P

r

o

、

-

T

u

r

b

o

、G

L

M

-

4

-

P

l

u

s

等系列模型綜合能力上持續(xù)提升。文本文生圖字節(jié)豆包AndesGPT

通用閉源通用開源多模態(tài)行業(yè)軒轅大模型更多行業(yè)部分領(lǐng)域汽車MindGPT教育工業(yè)奇智孔明AInno-15B..................金融螞蟻金融大模型妙想金融大模型醫(yī)聯(lián)M

e

d

G

P

T百川AI全科醫(yī)生醫(yī)療百度靈醫(yī)極氪Kr大模型易車大模型......華為盤古工業(yè)大模型SMore

LrMo羚羊工業(yè)大模型......營銷:妙筆大模型深勢分子大模型......文化:法律:AI4S:實(shí)時(shí)交互智譜清言星火極速通義APP文生視頻

視覺理解 SenseChat-Vision GLM-4vTeleChat2-35B語音合成/

聲音復(fù)刻百度T

T

S訊飛語音合成CosyVoice推理QWQ-32B-

PreviewDeep

Seek-

R

1

-

LiteI

n

t

e

r

n

T

h

i

n

k

e

rK

0

-

m

a

t

h360gpt2-o1SuperCLUE:2024年最值得關(guān)注的中文大模型全景圖2024年國內(nèi)外大模型差距模型23年5月23年6月23年7月23年8月23年9月23年10月23年11月23年12月24年2月24年4月24年6月24年8月24年10月24年12月GPT最新模型(GPT3.5、4、4-Turbo、4o、o1)76.6778.7670.8981.0383.2087.0889.7990.6392.7179.1381.0079.6775.8580.4國內(nèi)TOP153.5863.5362.0060.0262.7570.7474.0279.0287.7573.3277.0078.6469.6468.3國內(nèi)TOP249.5262.5859.3555.7062.6170.4272.8876.5486.7772.5876.0076.2469.0068.3國內(nèi)TOP346.4559.8058.0253.4362.1269.5771.8775.0485.7072.4576.0074.6368.9167.4國內(nèi)外Top1模型差距分?jǐn)?shù)國內(nèi)外Top1模型差距比例總體趨勢上,

國內(nèi)外第一梯隊(duì)大模型在中文領(lǐng)域的通用能力差距正在擴(kuò)大。2023年5月至今,國內(nèi)外大模型能力持續(xù)發(fā)展。其中GPT系列模型為代表的海外最好模型經(jīng)過了從GP

T

3

.

5

、GP

T

4

、GP

T

4

-

T

u

r

b

o

、GP

T

4

o

、o

1

的多個(gè)版本的迭代升級。國內(nèi)模型也經(jīng)歷了波瀾壯闊的1

8

個(gè)月的迭代周期,

從2

0

2

3

年5

月的30.12%的差距,縮小至2024年8月的1.29%。但隨著o

1的發(fā)布,

差距再次拉大到15.

05%。SuperCLUE基準(zhǔn):過去18個(gè)月國內(nèi)外TOP大模型對比趨勢來源:

Super

CLUE,

2023

年5

月~

2024

年12

月,

期間發(fā)布的14

次大模型基準(zhǔn)測評報(bào)告。9Qwen2.52024年國內(nèi)外大模型能力趨勢Super

CLUE基準(zhǔn)分?jǐn)?shù)22.0923.0322.122050

70804060

30

GLM-4GLM3GLM2Qwen1.0GPT-3.5-TurboGPT-4GPT-4oo1文心一言3.5豆包(云雀)23.0624.0624.0924.1225.03o1-PreviewGLM-4-Plus文心一言4.0Qwen1.5文心一言4.0

TurboDeepSeek-V2.5DeepSeek-V3Claude2.0GPT-4-TurboClaude3.0

OpusClaude3.5

Sonnet(1022)Doubao-pro-previewDoubao-pro121523.09 23.12 24.03模型發(fā)布時(shí)間OpenAIQwen2.0代表性大模型基準(zhǔn)表現(xiàn)趨勢注:

部分模型基準(zhǔn)分?jǐn)?shù)取自2024

年12

月測評結(jié)果,

為保證基準(zhǔn)得分的連續(xù)性,

其他未在2024

年12

月測評的模型基準(zhǔn)分?jǐn)?shù)=

X(

該模型的歷史基準(zhǔn)得分)*

Y(

與12

月基準(zhǔn)相比的難度系數(shù))。以上模型選取參考模型能力、開放生態(tài)、應(yīng)用場景等綜合因素。HunyuanHunyuan-ProHunyuan-Turbo阿里云百度DeepSeekAnthropic字節(jié)跳動智譜騰訊趨勢分析在過去2

年中,

國產(chǎn)代表性模型持續(xù)迭代多個(gè)版本,D

e

e

p

S

e

e

k

-

V

3

D

o

u

b

a

o

-

p

r

o

、

G

L

M

-

4

-

P

l

u

s

、Qwen

2

.

5

在中文任務(wù)上已經(jīng)接近GPT-

4

o。其中Deep

Seek-

V

3

表現(xiàn)出色,

在12

月測評中有超過Claude

3

.

5

Sonnet的表現(xiàn)。1

.

以Deep

Seek-

V

3

為代表的國產(chǎn)模型正極為接近GPT-

4

o-

latest在12

月Super

CLUE測評中,

國內(nèi)外主要頭部大模型在Super

CLUE基準(zhǔn)得分集中在60

-

70

分。o

1

和o

1

-

preview基于強(qiáng)化學(xué)習(xí)新范式的推理模型成為突破70

分瓶頸的重要技術(shù)代表,

尤其o

1

正式版突破了80

分大關(guān),

展現(xiàn)出較大的領(lǐng)先優(yōu)勢。2

.

o

1

基于強(qiáng)化學(xué)習(xí)新范式的推理模型,

突破80

分拉大國內(nèi)外頂尖模型差距10第2部分11年度通用測評介紹SuperCLUE基準(zhǔn)介紹SuperCLUE大模型綜合測評體系SuperCLUE通用測評基準(zhǔn)數(shù)據(jù)集各維度測評說明各維度測評示例測評模型列表0數(shù)據(jù)污染每2個(gè)月題庫100%替換題目100%原創(chuàng)傳統(tǒng)測評SuperCLUE易數(shù)據(jù)污染學(xué)術(shù)視角與應(yīng)用側(cè)較大偏差維度固定陳舊無法與時(shí)俱進(jìn)VS

SuperCLUE

三大特征產(chǎn)業(yè)+用戶視角SuperCLUE與傳統(tǒng)測評的區(qū)別維度Live更新題目固定過擬合風(fēng)險(xiǎn)高CLUE基準(zhǔn)發(fā)布發(fā)布多篇頂會論文,并承辦了NLPCC2020

開放測評任務(wù)發(fā)布FewCLUE、DataCLUE、ZeroCLUE等多個(gè)知名測評基準(zhǔn)聯(lián)合西湖大學(xué)發(fā)布DataCentricAI;發(fā)布SimCLUE大規(guī)模中文語義理解數(shù)據(jù)集中文領(lǐng)域首個(gè)通用大模型測評基準(zhǔn)SuperCLUE正式發(fā)布發(fā)布首個(gè)中文多輪開放式測評基準(zhǔn)SuperCLUE-Open;發(fā)布行業(yè)測評基準(zhǔn)發(fā)布數(shù)學(xué)、代碼、長文本、RAG等測評基準(zhǔn);發(fā)布文生視頻、文生圖、視覺理解等多模態(tài)測評基準(zhǔn)發(fā)布AI編程助手、實(shí)時(shí)交互等AI應(yīng)用測評基準(zhǔn);發(fā)布智能座艙測評基準(zhǔn)。SuperCLUE是大模型時(shí)代背景下CLUE基準(zhǔn)的發(fā)展和延續(xù),是獨(dú)立、領(lǐng)先的通用大模型的綜合性測評基準(zhǔn)。中文語言理解測評基準(zhǔn)C

L

U

E

T

h

e

C

h

i

n

e

s

eLanguage

Understanding

Evaluation)

發(fā)起于2019年,陸續(xù)推出過CLUE、Few

CLUE、Zero

CLUE等廣為引用的測評基準(zhǔn)。2019 2020 2021 2022 2023.01-06 2023.07-12 2024.01-06 2024.07-09 2024.10-12發(fā)布鏈?zhǔn)酵评?、小學(xué)奧數(shù)等推理測評基準(zhǔn);發(fā)布多輪可執(zhí)行智能體測評基準(zhǔn)AgentCLUE010203“Live”更新,0數(shù)據(jù)污染測評方式與用戶交互一致獨(dú)立第三方,無自家模型測評題庫每2

個(gè)月1

0

0

%

替換且全部原創(chuàng),

杜絕過擬合風(fēng)險(xiǎn)。體系維度根據(jù)大模型進(jìn)展Live更新。12測評方法與用戶交互方式保持一致,

測評任務(wù)貼近真實(shí)落地場景,

高度還原用戶視角。完全獨(dú)立的第三方評測機(jī)構(gòu),

不研發(fā)自家模型。承諾提供無偏倚的客觀、中立評測結(jié)果。Super

CLUE基準(zhǔn)介紹通用基準(zhǔn)文本專項(xiàng)基準(zhǔn)S

u

p

e

r

C

L

U

E

大模型綜合測評基準(zhǔn)框架多模態(tài)基準(zhǔn) 推理基準(zhǔn)Agent基準(zhǔn)應(yīng)用基準(zhǔn)理科計(jì)算邏輯推理代碼文科語言理解生成創(chuàng)作傳統(tǒng)安全Hard深度推理Agent精確指令遵循長文本SuperCLUE-Long視頻文生視頻SuperCLUE-T2V超長文本SuperCLUE-200K角色扮演SuperCLUE-Role檢索增強(qiáng)生成SuperCLUE-RAG多輪對抗安全SuperCLUE-Safety圖像/視覺實(shí)時(shí)音視頻交互SuperCLUE-Live多模態(tài)理解SuperCLUE-V語音實(shí)時(shí)語音交互SuperCLUE-Voice語音合成SuperCLUE-TTS聲音復(fù)刻SuperCLUE-Cloning文生圖SuperCLUE-Image鏈?zhǔn)酵评鞸uperCLUE-COT代碼SuperCLUE-Code3小學(xué)奧數(shù)SuperCLUE-Math6o數(shù)學(xué)多步推理SuperCLUE-Math6科學(xué)推理SuperCLUE-Science視覺推理SuperCLUE--VR通用可執(zhí)行智能體AgentCLUE終端智能體行業(yè)智能體零售教育醫(yī)療...AI產(chǎn)品AI搜索SuperCLUE-AISearch代碼助手SuperCLUE-Coder行業(yè)金融SuperCLUE-Fin工業(yè)SuperCLUE-Industry汽車SuperCLUE-Auto智能座艙SuperCLUE-Icabin已發(fā)布 即將發(fā)布13不可執(zhí)行智能體SuperCLUE-Agent手機(jī)PC眼鏡...Super

CLUE大模型綜合測評體系基于大模型技術(shù)和應(yīng)用發(fā)展趨勢、以及基準(zhǔn)測評專業(yè)經(jīng)驗(yàn),

Super

CLUE構(gòu)建出多領(lǐng)域、多層次的大模型綜合性測評基準(zhǔn)框架。從基礎(chǔ)到應(yīng)用覆蓋:

通用基準(zhǔn)體系、文本專項(xiàng)系列基準(zhǔn)、多模態(tài)系列基準(zhǔn)、推理系列基準(zhǔn)、Agent系列基準(zhǔn)、AI應(yīng)用基準(zhǔn)。為產(chǎn)業(yè)、學(xué)術(shù)和研究機(jī)構(gòu)的大模型研發(fā)提供重要參考。Super

CLUE通用測評基準(zhǔn)數(shù)據(jù)集及評價(jià)方式理科文科Hard1.計(jì)算介紹:包括線性代數(shù)、概率統(tǒng)計(jì)、微積分及數(shù)學(xué)多步推理算術(shù)在內(nèi)的基礎(chǔ)數(shù)學(xué)數(shù)據(jù)集。評價(jià)方式:人工校驗(yàn)參考答案的、多維度評價(jià)標(biāo)準(zhǔn)的評估。2.邏輯推理介紹:包括三段論、關(guān)系推理、樸素推理等在內(nèi)的中文邏輯推理數(shù)據(jù)集。評價(jià)方式:人工校驗(yàn)參考答案的、多維度評價(jià)標(biāo)準(zhǔn)的評估。3.代碼介紹:HumanEval的中文升級版,分為初級、中級和高級的8種常見類型代碼數(shù)據(jù)集。評價(jià)方式:基于代碼單元測試的評估(0-1得分)5.生成與創(chuàng)作介紹:包括但不限于廣告文案、技術(shù)寫作、公文寫作、文學(xué)創(chuàng)作、角色扮演、長文本的數(shù)據(jù)集。評價(jià)方式:多維度評價(jià)標(biāo)準(zhǔn)的評估。4.語言理解介紹:基礎(chǔ)語言理解數(shù)據(jù)集,包括但不限于信息抽取、意圖識別、摘要、百科知識。評價(jià)方式:多維度評價(jià)標(biāo)準(zhǔn)的評估。6.傳統(tǒng)安全介紹:包括但不限于違法犯罪、財(cái)產(chǎn)隱私、偏見歧視、臟話侮辱、道德倫理等。評價(jià)方式:多維度評價(jià)標(biāo)準(zhǔn)的評估。7.指令遵循介紹:主要考察模型的指令遵循能力,包括但不限于定義的輸出格式或標(biāo)準(zhǔn)來生成響應(yīng),精確地呈現(xiàn)要求的數(shù)據(jù)和信息。評價(jià)方式:基于規(guī)則腳本的評估(0-1得分)8.深度推理介紹:主要考察模型在復(fù)雜任務(wù)中的多步推理能力。復(fù)雜任務(wù)推理涉及在多個(gè)變量和條件下進(jìn)行邏輯推理。評價(jià)方式:人工校驗(yàn)參考答案的、多維度評價(jià)標(biāo)準(zhǔn)的評估。本次12月報(bào)告聚焦通用能力測評,

由理科、文科和Hard三大維度構(gòu)成。題目均為原創(chuàng)新題,總量為1325道多輪簡答題?!纠砜迫蝿?wù)】分為計(jì)算、邏輯推理、代碼測評集;【文科任務(wù)】分為語言理解、生成創(chuàng)作、安全測評集;【Hard任務(wù)】分為指令遵循、深度推理、Agent測評集。SuperCLUE通用基準(zhǔn)數(shù)據(jù)集及評價(jià)方式9.Agent介紹:主要考察在中文場景下基于可執(zhí)行的環(huán)境,LLM作為執(zhí)行代理,在多輪對話中調(diào)用工具完成任務(wù)的能力。包括兩大任務(wù)類型:常規(guī)單輪對話和常規(guī)多輪對話。評價(jià)方式:結(jié)合任務(wù)完成與否、系統(tǒng)狀態(tài)比對的評估(0-1得分)14理科測評說明1(

計(jì)算、邏輯推理)SuperCLUE-理科評測數(shù)據(jù)集計(jì)算包括線性代數(shù)、概率統(tǒng)計(jì)、微積分及數(shù)學(xué)多步推理算術(shù)在內(nèi)的基礎(chǔ)數(shù)學(xué)數(shù)據(jù)集。邏輯推理包括三段論、關(guān)系推理、樸素推理等在內(nèi)的中文邏輯推理數(shù)據(jù)集。測評方法評測流程:我們采用高級AI模型(例如GPT-4o)來評估不同任務(wù)的表現(xiàn),根據(jù)設(shè)定的評價(jià)標(biāo)準(zhǔn)進(jìn)行打分(1-5分)。以【計(jì)算】任務(wù)為例,設(shè)定的評價(jià)標(biāo)準(zhǔn)包括:符合基本要求、推理準(zhǔn)確性、結(jié)論合理性。假設(shè)在一個(gè)具體的題目中,模型A的得分如下:符合基本要求3分、推理準(zhǔn)確性4分、結(jié)論合理性5分。首先,我們計(jì)算這一題目的平均得分:因此,該題目的具體得分為4分。最后,將所有題目的得分進(jìn)行歸一化處理,以確保滿分為100分。這樣,每個(gè)任務(wù)的得分都能清晰地反映模型在不同標(biāo)準(zhǔn)下的表現(xiàn)。問題:模型回答:評價(jià)打分:基于標(biāo)準(zhǔn)1的<符合基本要求>:AI助手的回答完全符合用戶的要求,詳細(xì)地解釋了級數(shù)的收斂性并計(jì)算了級數(shù)的和?;跇?biāo)準(zhǔn)1的得分:5分;基于標(biāo)準(zhǔn)2的<推理準(zhǔn)確性>:AI助手的推理過程準(zhǔn)確,邏輯清晰,應(yīng)用了正確的數(shù)學(xué)方法來判斷級數(shù)的收斂性和計(jì)算級數(shù)的和?;跇?biāo)準(zhǔn)2的得分:5分;基于標(biāo)準(zhǔn)3的<結(jié)論合理性>:AI助手得出的結(jié)論與已知的數(shù)學(xué)常識和事實(shí)一致,驗(yàn)證了級數(shù)的收斂性并正確計(jì)算了級數(shù)的和?;跇?biāo)準(zhǔn)3的得分:5分;綜合以上,AI助手的回答的綜合得分(平均分)為[[5]]示例-計(jì)算<

篇幅有限省略>15理科測評說明2(

代碼)SuperCLUE-理科評測數(shù)據(jù)集代碼Human

Eval的中文升級版,

分為初級、中級和高級的8

種常見類型代碼數(shù)據(jù)集。測評方法評測流程:整體測評流程包括:1.獲取模型答案;2.提取功能函數(shù);3.測試功能函數(shù);4.計(jì)算模型得分。1.獲取模型答案:使用特定的prompt要求模型按照特定格式回答,以方便后續(xù)提取。對于一個(gè)代碼補(bǔ)全問題,每個(gè)模型獲取一次答案。2.提取功能函數(shù):獲取到模型回復(fù)之后,結(jié)合prompt要求和模型回答設(shè)定規(guī)則提取函數(shù)代碼。3.測試功能函數(shù):對于一個(gè)代碼補(bǔ)全問題,將提取得到的代碼和該問題對應(yīng)的N個(gè)測試用例組裝成N個(gè)可獨(dú)立運(yùn)行的單元測試程序,在沙箱環(huán)境運(yùn)行(沙箱環(huán)境python版本設(shè)置為3.10)。4.計(jì)算模型得分:對于一個(gè)代碼補(bǔ)全問題和1個(gè)測試用例,構(gòu)成一個(gè)單元測試,通過測試得1分。最終計(jì)算模型在所有單元測試中得分平均分*100作為最終的得分。問題:import

mathfromtypingimportTuplefromcollectionsimport

deque16deftask_func(jugs:Tuple[int],target:int)

->bool:"""給定三個(gè)水壺的容量,判斷是否可以通過無限的水源和以下操作精確地得到target

升水。允許的操作包括:裝滿任意一個(gè)水壺清空任意一個(gè)水壺將水從一個(gè)水壺倒入另一個(gè)水壺,直到倒水壺為空,或接水壺已滿參數(shù):jugs:Tuple[int,

int,

int]

-

三個(gè)水壺的容量,按升為單位。target:

int

-

目標(biāo)水量,單位為升。返回:-

bool

-

是否可以達(dá)到目標(biāo)水量。"""示例-代碼模型回答:fromtypingimport

Tupledefhas_enough_water(jugs:Tuple[int],target:int)->bool:import

mathju=

jugsifju[0]>

target:returnFalseifju[1]>

target:returnFalseifju[2]>

target:return

Falseifju[0]<=

0:return

Falseifju[1]<=

0:return

Falseifju[2]<=

0:returnFalseforiin

range(3):ifju[i]==

0:continuemax_amount=math.floor(ju[i]/2)res=math.ceil(target/

max_amount)ifres>

0:return

Truereturn

False測試功能函數(shù):def

check(candidate):asserttask_func((3,5,8),4)==

True計(jì)算模型得分:測試未通過,不得分文科測評說明SuperCLUE-文科評測數(shù)據(jù)集測評方法評測流程:我們采用高級AI模型(例如GPT-4o)來評估不同任務(wù)的表現(xiàn),根據(jù)設(shè)定的評價(jià)標(biāo)準(zhǔn)進(jìn)行打分(1-5分)。以【生成與創(chuàng)作】任務(wù)為例,設(shè)定的評價(jià)標(biāo)準(zhǔn)包括:符合基本要求、語言與邏輯連貫性、推理鏈條完整度。假設(shè)在一個(gè)具體的題目中,模型A的得分如下:符合基本要求3分、語言與邏輯連貫性4分、推理鏈條完整度5分。首先,我們計(jì)算這一題目的平均得分:因此,該題目的具體得分為4分。最后,將所有題目的得分進(jìn)行歸一化處理,以確保滿分為100分。這樣,每個(gè)任務(wù)的得分都能清晰地反映模型在不同標(biāo)準(zhǔn)下的表現(xiàn)。二、考場安排(...)<

篇幅有限省略>五、考試紀(jì)律要求(考試是檢驗(yàn)學(xué)習(xí)成果的重要方式,學(xué)校對考試紀(jì)律有嚴(yán)格要求,請同學(xué)們自覺遵守:1.嚴(yán)禁攜帶任何與考試無關(guān)的物品進(jìn)入考場,一經(jīng)發(fā)現(xiàn)視為作弊......)六、聯(lián)系方式(......)評價(jià)打分:基于標(biāo)準(zhǔn)1的<符合基本要求>:回答與問題高度契合,詳細(xì)涵蓋了考試時(shí)間表、考場安排、注意事項(xiàng)、特殊安排和考試紀(jì)律等方面,完全滿足用戶的需求?;跇?biāo)準(zhǔn)1的得分:5分;基于標(biāo)準(zhǔn)2的<創(chuàng)造性>:回答在表達(dá)上非常完整,但缺乏一些創(chuàng)新性的表達(dá)或獨(dú)特的見解,如提供一些學(xué)生不同情況的應(yīng)對方案或溫馨提示?;跇?biāo)準(zhǔn)2的得分:3分;基于標(biāo)準(zhǔn)3的<語言與邏輯連貫性>;回答表述清晰,邏輯連貫,各個(gè)部分有機(jī)結(jié)合,并且層次分明?;跇?biāo)準(zhǔn)3的得分:5分;基于標(biāo)準(zhǔn)4的<事實(shí)正確性>;提供的信息大部分是關(guān)于考試安排的細(xì)節(jié),并且看不到明顯錯(cuò)誤?;跇?biāo)準(zhǔn)4的得分:5分;示例-生成與創(chuàng)作問題:你作為學(xué)校教務(wù)處的工作人員,需要起草一份關(guān)于期末考試安排的通告。通告應(yīng)包括以下內(nèi)容:詳細(xì)的考試時(shí)間表和科目安排,確保學(xué)生能夠清楚知曉每一科目的具體考試日期和時(shí)間;各科目考試的具體考場安排,包括每個(gè)班級所在的考場和座位號,以避免考試當(dāng)天的混亂;<

篇幅有限省略>5.

考試紀(jì)律的明確要求,特別是針對作弊行為的嚴(yán)格規(guī)定,引用學(xué)校相關(guān)的規(guī)章制度和處罰措施,確保公平、公正。模型回答:<

因篇幅有限,

展示省略回答>關(guān)于期末考試安排的通告親愛的全體同學(xué):為確保本學(xué)期期末考試的順利進(jìn)行,現(xiàn)將考試安排及相關(guān)事項(xiàng)通知如下,請同學(xué)們認(rèn)真閱讀并嚴(yán)格遵守一、考試時(shí)間表及科目安排(...)語言理解基礎(chǔ)語義理解數(shù)據(jù)集,包括但不限于信息抽取、意圖識別、摘要、百科知識。生成與創(chuàng)作包括但不限于廣告文案、技術(shù)寫作、公文寫作、文學(xué)創(chuàng)作、角色扮演、長文本的數(shù)據(jù)集。安全包括但不限于違法犯罪、財(cái)產(chǎn)隱私、偏見歧視、臟話侮辱、道德倫理等。綜合以上,AI助手的回答的綜合得分(平均分)為[[4.5]]17Hard測評說明1(

精確指令遵循))評測流程:我們完成了一個(gè)針對不同的語言模型的(

文本輸出)

精確指令遵循表現(xiàn)的測試,

根據(jù)設(shè)定的評估標(biāo)準(zhǔn)進(jìn)行評估。評估的結(jié)果為布爾值(

True

Fal

se)。以【寫一篇關(guān)于可再生能源對減少碳排放的作用的短文。要求文章不得使用“

二氧化碳”

這個(gè)詞,字?jǐn)?shù)不少于10

個(gè)字,

以JSON格式返回】任務(wù)為例:設(shè)定的評價(jià)標(biāo)準(zhǔn)包括:

遵循關(guān)鍵詞限制、符合字?jǐn)?shù)要求、輸出格式正確。模型只有在命中所有指令的條件下會得到True的返回結(jié)果。例如:模型輸出結(jié)果1

{

"

r

e

s

p

o

n

s

e

"

:

"

可再生能源在減少碳排放和減輕氣候變化方面起著關(guān)鍵作用,未來應(yīng)加快推廣。"

}符合所有要求,

返回True。模型輸出結(jié)果2

:{

"

response":

"

使用可再生能源可以減少二氧化碳排放。"

}違背了關(guān)鍵詞限制,

返回Fal

se。最后,

我們將所有題目的評估結(jié)果進(jìn)行匯總,

根據(jù)模型完全命中的題目數(shù)量計(jì)算模型的最終命中率,

命中率以百分比為單位。具體來說,

命中率計(jì)算公式為:命中率

=

(

模型完全命中的題目數(shù)量

÷

總題目數(shù)量 100

%SuperCLUE-Hard:精確指令遵循數(shù)據(jù)集精確指令遵循主要考察模型的指令遵循能力,

要求AI嚴(yán)格按照給定的指令進(jìn)行回復(fù),

包括但不限于定義的輸出格式或標(biāo)準(zhǔn)來生成響應(yīng),

精確地呈現(xiàn)要求的數(shù)據(jù)和信息。測評方法示例問題:請撰寫一篇關(guān)于“

智能家居技術(shù)如何改善日常生活”

的文章,

要求包含“

便捷”

、“

安全”

和“

節(jié)能”

三個(gè)詞語,

其中“

便捷”

至少出現(xiàn)3

次,

安全”

必須只出現(xiàn)5

次,

而“

節(jié)能”

最多出現(xiàn)2

次。請確保文章只出現(xiàn)4

個(gè)段落(

不要出現(xiàn)標(biāo)題),

每個(gè)段落之間用'

~~'

符號分隔。其中第3

段的第8

個(gè)漢字必須是“

效”

字。另外,

請確保文章恰好由1

5

個(gè)句子(

用中文句號或問號或感嘆號分隔)

組成,

并且第10

個(gè)句子的第11

個(gè)漢字必須是“

感”

字?;卮穑褐悄芗揖蛹夹g(shù)正在迅速改變我們的日常生活。通過智能設(shè)備,

家庭成員可以享受到前所未有的便捷。無論是控制燈光、調(diào)節(jié)溫度,

還是管理家電,

只需一個(gè)指令就能輕松完成。這種便捷不僅提高了生活質(zhì)量,

還節(jié)省了大量時(shí)間?!踩侵悄芗揖蛹夹g(shù)的另一個(gè)重要優(yōu)勢。智能門鎖和監(jiān)控系統(tǒng)可以實(shí)時(shí)監(jiān)控家庭安全,確保家人和財(cái)產(chǎn)的安全。當(dāng)檢測到異常情況時(shí),

系統(tǒng)會立即發(fā)出警報(bào),

并通知相關(guān)人員。這種安全措施大大降低了家庭被盜或發(fā)生意外的風(fēng)險(xiǎn)?!悄芗揖蛹夹g(shù)還能帶來顯著的效能提升。通過智能溫控系統(tǒng),

家庭可以自動調(diào)節(jié)室內(nèi)溫度,

確保舒適的同時(shí),

還能節(jié)能。智能照明系統(tǒng)可以根據(jù)光線和時(shí)間自動調(diào)整亮度,

進(jìn)一步減少能源消耗。這種節(jié)能措施不僅環(huán)保,

還能降低電費(fèi)支出?!偟膩碚f,

智能家居技術(shù)通過提供便捷、安全和節(jié)能的解決方案,

極大地改善了日常生活。隨著技術(shù)的不斷進(jìn)步,

未來智能家居將變得更加智能和人性化,

為人們帶來更多便利和舒適感。評價(jià)打分:未遵循指令內(nèi)容:“

節(jié)能”

出現(xiàn)3

次,

第3

段的第8

個(gè)漢字是“

能”

字,

文章只有14

個(gè)句子,

并且第10

個(gè)句子的第11

個(gè)漢字是“

可”

字。測評結(jié)果:

測試不通過18Hard測評說明2(

深度推理)SuperCLUE-Hard:深度推理數(shù)據(jù)集深度推理主要考察模型在復(fù)雜任務(wù)中的多步推理能力。復(fù)雜任務(wù)推理涉及在多個(gè)變量和條件下進(jìn)行邏輯推理。測評方法問題:家具廠生產(chǎn)三種家具:椅子、桌子和書架。生產(chǎn)一單位椅子需要1.5小時(shí)的組裝時(shí)間、2公斤的木材和0.5小時(shí)的涂裝時(shí)間;生產(chǎn)一單位桌子需要2.5小時(shí)的組裝時(shí)間、4公斤的木材和1小時(shí)的涂裝時(shí)間;生產(chǎn)一單位書架需要2小時(shí)的組裝時(shí)間、3公斤的木材和0.8小時(shí)的涂裝時(shí)間。家具廠每天可用的最大資源為:120小時(shí)的組裝時(shí)間、80公斤的木材和50小時(shí)的涂裝時(shí)間。椅子的利潤為每單位25元,桌子的利潤為每單位60元,書架的利潤為每單位40元。此外,家具廠必須至少生產(chǎn)10個(gè)單位的椅子、5個(gè)單位的桌子和8個(gè)單位的書架。家具廠應(yīng)如何安排生產(chǎn)數(shù)量,以最大化利潤?模型回答:要解決這個(gè)問題,

我們需要使用線性規(guī)劃的方法,

找到在給定的資源限制下,

使利潤最大的產(chǎn)品組合。以下是詳細(xì)的步驟:**

第一步:

定義決策變量**:<

篇幅有限省略>;**

第二步:

建立目標(biāo)函數(shù)**:<

篇幅有限省略>**

第三步:

建立約束條件**:<

篇幅有限省略>;**

第四步:

求解線性規(guī)劃問題**:<

篇幅有限省略>**

第五步:

分析約束條件**:<

篇幅有限省略>**

第六步:

尋找增加利潤的機(jī)會**:<

篇幅有限省略><

篇幅有限省略>**

第十一步:

得出結(jié)論**:<

篇幅有限省略>(

由于篇幅有限,

模型回答省略具體內(nèi)容,

僅展示關(guān)鍵步驟)評價(jià)打分:基于標(biāo)準(zhǔn)1的<符合基本要求>:AI助手的回答完全符合用戶的意圖,詳細(xì)解釋了如何最大化利潤,并提供了完整的線性規(guī)劃模型?;跇?biāo)準(zhǔn)1的得分:5分;基于標(biāo)準(zhǔn)2的<推理過程準(zhǔn)確性>:AI助手的推理過程準(zhǔn)確,步驟清晰,邏輯合理,且與參考答案一致?;跇?biāo)準(zhǔn)2的得分:5分;基于標(biāo)準(zhǔn)3的<結(jié)論一致性>:AI助手的結(jié)論與參考答案完全一致,給出了具體的生產(chǎn)數(shù)量和最大利潤?;跇?biāo)準(zhǔn)3的得分:5分;綜合以上,AI助手的回答的綜合得分(平均分)為[[5]]示例評測流程:我們采用高級AI模型(例如GPT-4o)來評估不同任務(wù)的表現(xiàn),根據(jù)設(shè)定的評價(jià)標(biāo)準(zhǔn)進(jìn)行打分(1-5分)?!旧疃韧评怼咳蝿?wù)設(shè)定的評價(jià)標(biāo)準(zhǔn)包括:符合基本要求、推理準(zhǔn)確性、結(jié)論合理性。假設(shè)在一個(gè)具體的題目中,模型A的得分如下:符合基本要求3分、推理準(zhǔn)確性4分、結(jié)論合理性5分。首先,我們計(jì)算這一題目的平均得分:因此,該題目的具體得分為4分。最后,將所有題目的得分進(jìn)行歸一化處理,以確保滿分為100分。這樣,每個(gè)任務(wù)的得分都能清晰地反映模型在不同標(biāo)準(zhǔn)下的表現(xiàn)。19Hard測評說明3(

Agent)SuperCLUE-Hard:Agent數(shù)據(jù)集Agent主要考察在中文場景下基于可執(zhí)行的環(huán)境,LLM作為執(zhí)行代理,在多輪對話中調(diào)用工具完成任務(wù)的能力。測評方法【第四輪問題】:看來需要加油了,幫我把油加滿吧。然后再發(fā)條消息給小紅說“今天路上有點(diǎn)堵車,可能會晚一點(diǎn)到?!薄灸P突貜?fù)1】:[fillFuelTank(fuelAmount=33.5),get_user_id(user='小紅')]【模型得到的反饋1】:第1個(gè)函數(shù)調(diào)用:fillFuelTank(fuelAmount=33.5),

執(zhí)行返回結(jié)果為:{"fuelLevel":

50.0},第2個(gè)函數(shù)調(diào)用:get_user_id(user='小紅'),執(zhí)行返回結(jié)果為:{"user_id":"USR032"}【模型回復(fù)2】:[send_message(receiver_id='USR032',message='今天路上有點(diǎn)堵車,可能會晚一點(diǎn)到。')]【模型得到的反饋2】:第1個(gè)函數(shù)調(diào)用:send_message(receiver_id='USR032',

message='今天路上有點(diǎn)堵車,可能會晚一點(diǎn)到。'),

執(zhí)行返回結(jié)果為:{"sent_status":

true,

"message_id":

{"new_id":

67410},

"message":

"Message

sent

to

'USR032'

successfully."}【模型回復(fù)3】:我已經(jīng)把油加滿了,并給小紅發(fā)了消息。還有什么需要幫忙的嗎?【第八輪問題】:有點(diǎn)熱了,把空調(diào)溫度調(diào)低一點(diǎn),調(diào)到24攝氏度就行,風(fēng)速設(shè)置為80,模式為制冷?!灸P突貜?fù)1】:[adjustClimateControl(temperature=24.0,fanSpeed=80,mode='cool')]【模型得到的反饋】:第1個(gè)函數(shù)調(diào)用:adjustClimateControl(temperature=24.0,

fanSpeed=80,

mode='cool'),

執(zhí)行返回結(jié)果為:{"currentACTemperature":24.0,"climateMode":"cool","humidityLevel":45.0}【模型回復(fù)2】:好的,空調(diào)已設(shè)置為制冷模式,溫度為24攝氏度,風(fēng)速為80。(

本題共八輪對話,

此處省略了其余多輪對話,

并由于篇幅限制,

只展示關(guān)鍵信息)示例描述:本次Agent測評共包含8個(gè)API,本題用到兩個(gè)API。車輛控制系統(tǒng):該工具屬于車輛控制系統(tǒng),允許用戶控制汽車的各個(gè)方面,如發(fā)動機(jī)、車門、空調(diào)控制、燈光等。消息API:該工具屬于消息API,該消息用于管理工作空間中的用戶交互。prompt:你是一個(gè)組合函數(shù)完成任務(wù)的專家。你將會收到一個(gè)問題和一些可以調(diào)用的函數(shù)及其描述?;趩栴},你需要調(diào)用一個(gè)或者多個(gè)函數(shù)來實(shí)現(xiàn)問題要求。如果使用你收到的函數(shù)無法完成問題要求,請指出。如果你收到的問題缺乏調(diào)用函數(shù)所必要的參數(shù),也請指出。在你的回答中只應(yīng)該包括函數(shù)調(diào)用(function

calls)內(nèi)容,而不應(yīng)該包括其他內(nèi)容。在每一輪對話中,你應(yīng)該盡最大努力完成用戶當(dāng)前提出的任務(wù)。<

篇幅有限省略>下面提供了一個(gè)列表,列表中是一些你可以調(diào)用的函數(shù)以及函數(shù)的功能和參數(shù)描述,使用json格式<

篇幅有限省略>【第一輪問題】:今天下雨了,幫我把車燈設(shè)置為“on”模式,確保視線清楚?!灸P突貜?fù)1】:[setHeadlights(mode='on')]【模型得到的反饋】:第1個(gè)函數(shù)調(diào)用:setHeadlights(mode='on'),執(zhí)行返回結(jié)果為:{"headlightStatus":"on"}【模型回復(fù)2】:好的,我已經(jīng)將車燈設(shè)置為“on”模式。評測流程:每一題包含N輪對話,只有每一輪對話都回復(fù)正確才能記1分。我們將模型回復(fù)的函數(shù)調(diào)用進(jìn)行實(shí)際執(zhí)行后判定是否回復(fù)正確。評價(jià)維度包括:函數(shù)調(diào)用執(zhí)行結(jié)果、執(zhí)行后的系統(tǒng)狀態(tài)。對于每一輪模型回復(fù)的評價(jià)方法:獲取模型答案之后,從中提取可執(zhí)行的函數(shù)調(diào)用。執(zhí)行提取的函數(shù)調(diào)用得到執(zhí)行結(jié)果集1,以及執(zhí)行后的系統(tǒng)狀態(tài)1;執(zhí)行人類標(biāo)注的ground

truth(函數(shù)調(diào)用)得到執(zhí)行結(jié)果集2,系統(tǒng)狀態(tài)2;將執(zhí)行結(jié)果集1與執(zhí)行結(jié)果集2進(jìn)行比較,系統(tǒng)狀態(tài)1和系統(tǒng)狀態(tài)2進(jìn)行比較;如果執(zhí)行結(jié)果集2是執(zhí)行結(jié)果集1的子集,系統(tǒng)狀態(tài)1和系統(tǒng)狀態(tài)2相同則認(rèn)為模型的本輪回復(fù)正確。最后,計(jì)算答對的題目的比例,轉(zhuǎn)化為百分制得到模型的總分。即:模型得分=(答對的題目數(shù)量/總題目數(shù)量)*100<

篇幅有限省略其余對話><

篇幅有限省略其余對話><

對話結(jié)束>20本次測評數(shù)據(jù)選取了Su

p

er

CL

UE-12月測評結(jié)果,模型選取了國內(nèi)外有代表性的42個(gè)大模型在12月份的版本。21測評模型列表模型機(jī)構(gòu)簡介模型機(jī)構(gòu)簡介1.o1OpenAIOpenAI在2024年12月17日發(fā)布的o1正式版本,使用方式為官網(wǎng)網(wǎng)頁22.TeleChat2-LargeTeleAI官方提供的小范圍內(nèi)測版本,使用方式為API2.o1-previewOpenAIOpenAI在2024年9月12日發(fā)布的版本,使用官方API:o1-preview-2024-09-1223.ERNIE-4.0-Turbo-8K-Latest百度百度文心系列的?語?模型,使用官方API:ERNIE-4.0-Turbo-8K-Latest3.ChatGPT-4o-latestOpenAI與ChatGPT上的GPT-4o同版本,對應(yīng)OpenAI官方的API名稱:chatgpt-4o-latest24.Baichuan4百川智能官方提供的小范圍內(nèi)測版本,使用方式為API4.SenseChat

5.5-latest商湯官方提供的小范圍內(nèi)測版本,使用方式為API25.GPT-4o-miniOpenAIOpenAI在2024年7月18日發(fā)布的gpt-4o-mini版本,使用官方API5.DeepSeek-V3深度求索深度求索在2024年12月26日發(fā)布的V3版本,使用官方的API:deepseek-chat26.kimiKimi官方網(wǎng)頁版產(chǎn)品【kimi】6.Gemini-2.0-Flash-ExpGoogle官方在2024年12月11日發(fā)布的Gemini

2.0Flash模型的實(shí)驗(yàn)版本。27.Llama-3.3-70B-InstructMetaMeta發(fā)布的Llama3.3版本70B開源模型,調(diào)用的together.ai的接口7.Claude3.5

Sonnet(20241022)AnthropicAntropic在2024年10月22日發(fā)布的版本,使用API:claude-3-5-sonnet-2024102228.TeleChat2-35BTeleAI官方開源的TeleChat2-35B-32K版本8.360zhinao2-o1360官方公開的推理模型,使用方式為API,原360gpt2-o1。29.Qwen2.5-7B-Instruct阿里巴巴Qwen2.5開源系列7B模型。使用阿里云公開API:qwen2.5-7b-instruct9.Doubao-pro-32k-241215字節(jié)跳動在2024年12月15日發(fā)布的版本,使用API:Doubao-pro-32k-24121530.QwQ-32B-Preview阿里巴巴專注于增強(qiáng)

AI

推理能力。使用阿里云公開API:qwq-32b-preview10.NebulaCoder-V5中興通訊官方提供的小范圍內(nèi)測版本,使用方式為API31.訊飛星火V4.0科大訊飛科大訊飛發(fā)布的API版本:Spark4.0

Ultra11.Qwen-max-latest阿里巴巴通義千問系列效果最好的模型,使用阿里云公開的API:qwen-max-latest32.GLM-4-9B-Chat智譜AI官方開源的GLM-4-9B-Chat版本12.Qwen2.5-72B-Instruct阿里巴巴Qwen2.5開源系列72B模型。使用阿里云公開的API:qwen2.5-72b-instruct33.Gemma-2-9b-itGoogle官方開源的gemma-2-9b-it版本13.Step-2-16k階躍星辰官方公開發(fā)布的API版本:step-2-16k34.Yi-1.5-34B-Chat-16K零一萬物官方開源的Yi-1.5-34B-Chat-16K版本14.GLM-4-Plus智譜AI智譜自研的GLM系列大模型最新版本,使用官方API:GLM-4-Plus35.360Zhinao2-7B-Chat-4K360官方開源的360Zhinao2-7B-Chat-4K版本15.Grok-2-1212X.AIX.AI在2024年12月12日推出的模型版本,使用官方API:grok-2-121236.Qwen2.5-3B-Instructt阿里巴巴Qwen2.5開源系列3B模型。使用阿里云公開的API:qwen2.5-3b-instruct16.DeepSeek-R1-Lite-Preview深度求索深度求索在2024年11月20日推出的推理模型

,使用方式為官網(wǎng)網(wǎng)頁37.Yi-1.5-9B-Chat-16K零一萬物官方開源的Yi-1.5-9B-Chat-16K版本17.Qwen2.5-32B-Instruct阿里巴巴Qwen2.5開源系列32B模型。使用阿里云公開的API:qwen2.5-32b-instruct38.MiniCPM3-4B面壁智能官方開源的MiniCPM3-4B版本18.Sky-Chat-3.0昆侖萬維昆侖萬維發(fā)布的千億級別

MOE(Mixtureof

Experts)模型,使用官方API39.Llama-3.1-8B-InstructMetaMeta發(fā)布的Llama3.1版本8B開源模型,調(diào)用的together.ai的接口19.DeepSeek-V2.5深度求索深度求索在2024年9月5日發(fā)布的DeepSeek-V2.5,使用官方API:deepseek-chat40.Phi-3.5-Mini-Instruct微軟官方開源的Phi-3.5-Mini-Instruct版本20.MiniMax-abab7-previewMiniMax官方提供的小范圍內(nèi)測版本,使用官方提供的API接口41.Gemma-2-2b-itGoogle官方開源的gemma-2-2b-it版本21.Hunyuan-Turbo騰訊官方在12月份對外試用的Hunyuan-Turbo預(yù)覽版,后續(xù)將逐步開放公開使用。42.Mistral-7B-Instruct-v0.3Mistral

AI官方開源的Mistral-7B-Instruct-v0.3版本第3部分22總體測評結(jié)果與分析SuperCLUE通用能力測評總分SuperCLUE模型象限(2024)歷月SuperCLUE大模型Top3一級維度表現(xiàn)二級細(xì)粒度分?jǐn)?shù)SuperCLUE-文科成績國內(nèi)大模型成熟度-SC成熟度指數(shù)評測與人類一致性驗(yàn)證九大任務(wù)年度Top5SuperCLUE大模型綜合效能區(qū)間分布SuperCLUE性價(jià)比區(qū)間分布SuperCLUE-Hard成績SuperCLUE-理科成績海外及其他對比模型國內(nèi)模型國內(nèi)外通用大模型SuperCLUE基準(zhǔn)榜單來源:

Super

CLUE,

2025

年1

月8

日;注:

由于部分模型分?jǐn)?shù)較為接近,

為了減少問題波動對排名的影響,

本次測評將相距1

分區(qū)間的模型定義為并列,

報(bào)告中分?jǐn)?shù)展示為并列中高分。海外模型僅對比參考不參與排名;

國內(nèi)部分廠商由于版本眾多,

本次測評僅選擇一部分代表性模型參與排名,

其余模型僅做參考,

不參與排名。Super

CLUE通用能力測評總分23基礎(chǔ)能

力應(yīng)用能力潛力探索者 技術(shù)領(lǐng)跑者實(shí)用主義者卓越領(lǐng)導(dǎo)者ChatGPT-4o-latest(OpenAI)來源:

Super

CLUE,

2025

年1

月8

日;注:

1

.

兩個(gè)維度的組成?;A(chǔ)能力包含:

計(jì)算、邏輯推理、深度推理、傳統(tǒng)安全、語言理解;

應(yīng)用能力包括:

生成創(chuàng)作、代碼、指令遵循、A

g

e

n

t

能力;

2

.

四個(gè)象限的含義。它們代表大模型所處的不同階段與定位,

其中【潛力探索者】代表模型正在探索階段未來擁有較大潛力;【技術(shù)領(lǐng)跑者】代表模型在基礎(chǔ)技術(shù)方面具備領(lǐng)先性;【實(shí)用主義者】代表模型在場景應(yīng)用深度上具備領(lǐng)先性;【卓越領(lǐng)導(dǎo)者】代表模型在基礎(chǔ)和場景應(yīng)用上處于領(lǐng)先位置,

引領(lǐng)國內(nèi)大模型發(fā)展。Super

CLUE模型象限(

2024)QwQ-32B-Preview(阿里)o1-preview(OpenAI)Claude3.5

Sonnet(20241022)Step-2-16k(階躍星辰)GLM-4-Plus(智譜)Hunyuan-Turbo(騰訊)360zhinao2-o1(360)Yi-1.5-9B-Chat-16K(零一萬物)Llama-3.1-8B-Instruct(Meta)o1(OpenAI)Gemini-2.0-Flash-Exp(Google)DeepSeek-V3(深度求索)Doubao-pro-32k-241215(字節(jié))Qwen-max-latest(阿里)SenseChat

5.5-latest(商湯)MiniMax-abab7-previewSky-Chat-3.0(昆侖萬維)TeleChat2-Large(TeleAI)Baichuan4(百川智能)DeepSeek-V2.5(深度求索)Qwen2.5-32b-Instruct(阿里)ERNIE-4.0-Turbo-8K-Latest(百度)MiniCPM3-4B(面壁智能)Phi-3.5-Mini-Instruct(微軟)Gemma-2-2b-it(Google)Mistral-7B-Instruct-v0.3360Zhinao2-7B-Chat-4K(360)Qwen2.5-3B-Instruct(阿里)Grok-2-1212(X.AI)NebulaCoder-V5(中興)GPT-4o-mini(OpenAI)Llama-3.3-70B-Instruct(Meta)Kimi(月之暗面)TeleChat2-35B(TeleAI)Qwen2.5-7B-Instruct(阿里)GLM-4-9B-Chat(智譜)訊飛星火V4.0(科大訊飛)Gemma-2-9b-it(Google)Yi-1.5-34B-Chat-16K(零一萬物)Qwen2.5-72B-Instruct(阿里)SuperCLUE模型象限(2024)242023-

2024年Super

CLUE基準(zhǔn)國內(nèi)外大模型Top3???月份國內(nèi)國內(nèi)國內(nèi)海外Top32024年12月DeepSeek-V3、SenseChat

5.5-latest、360gpt2-o1Doubao-pro-32k-241215、NebulaCoder-V5、Qwen-max-latestStep-2-16k、GLM-4-Pluso1、o1-preview、ChatGPT-4o-latest2024年10月GLM-4-Plus、SenseChat

5.5、AndesGPT-2.0、Qwen2.5-72B-Instruct(并列)Hunyuan-Turbo、360gpt2-pro、Step-2、DeepSeek-V2.5、Doubao-proBaichuan4、山海大模型4.0、TeleChat2-Largeo1-preview、Claude

3.5

Sonnet(20241022)、ChatGPT-4o-latest2024年8月Hunyuan-Turbo-PreviewAndesGPT-2.0、DeepSeek-V2-0628Qwen2-72B-Instruct、SenseChat5.5、Doubao_pro_previewChatGPT-4o-latest、GPT-4-Turbo-2024-04-09、Claude

3.5

Sonnet2024年6月Qwen2-72BGLM-4-0520、DeepSeek-V2、SenseChat5.0AndesGPTGPT-4o、Claude-3.5-Sonnet-200k、GPT-4-Turbo-04092024年4月Baichuan3GLM-4、通義千問2.1騰訊Hunyuan-pro、文心一言4.0GPT-4-Turbo-0125、GPT-4-Turbo-0409、GPT-4(官網(wǎng))2024年2月文心一言4.0GLM-4通義千問2.1GPT4-Turbo-0125、GPT4(網(wǎng)頁)、Claude22023年12月文心一言4.0通義千問2.0AndesGPTGPT4-Turbo、GPT4(網(wǎng)頁)、Claude22023年11月文心一言4.0MoonshotYi-34B-ChatGPT4-Turbo、GPT-4、Claude22023年10月BlueLMMoonshot文心一言4.0GPT4、Claude2、GPT3.52023年9月SenseChat3.0文心一言(網(wǎng)頁v2.3.1)ChatGLM2-ProGPT4、gpt-3.5-turbo、Claude22023年8月Baichuan2-13B-ChatMinimax-abab5文心一言(網(wǎng)頁v2.2.3)GPT4、gpt-3.5-turbo、Claude22023年7月文心一言(網(wǎng)頁v2.2.0)ChatGLM-130B訊飛星火V1.5GPT4、Claude2、gpt-3.5-turbo2023年6月360智腦文心一言訊飛星火GPT4、gpt-3.5-turbo、Claude2023年5月360智腦訊飛星火ChatGLM-130BGPT4、gpt-3.5-turbo、Claude25Super

CLUE通用能力測評:

一級維度表現(xiàn)Su

p

er

C

L

UE

-一級維度表現(xiàn)來源:SuperCLUE,

2025年1月8日。標(biāo)紅分?jǐn)?shù)為國內(nèi)前三名。在1

2

月S

u

p

e

r

C

L

U

E

測評中,

國內(nèi)外模型仍有一定差距。o1

取得8

0

.

4

分領(lǐng)跑全球,

o

1

-

p

r

e

v

i

e

w、Chat

GPT-

4

o-

latest緊隨其后有超出70

分的表現(xiàn)。國內(nèi)大模型D

e

e

p

S

e

e

k

-

V

3

、S

e

n

s

e

C

h

a

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論