




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
中文大模型基準(zhǔn)測評2024年度報(bào)告—
2024中文大模型階段性進(jìn)展年度評估精準(zhǔn)量化通用人工智能(AGI)進(jìn)展,定義人類邁向AGI的路線圖AccuratelyquantifyingtheprogressofAGI,definingtheroadmapforhumanity'sjourneytowards
AGI.報(bào)告摘要(一)OpenAI發(fā)布o(jì)1正式版,大幅領(lǐng)跑全球o1正式版的推出進(jìn)一步拉大了與其他模型的差距。經(jīng)12月測評,o1以80.4分大幅領(lǐng)跑全球,較ChatGPT-4o-latest高10.2分,較國內(nèi)最好模型高12.1分。國內(nèi)頂尖大模型進(jìn)展迅速,較為接近ChatGPT-4o-latest國內(nèi)頂尖大模型進(jìn)展迅速,其中DeepSeek-V3和SenseChat
5.5-latest取得68.3分表現(xiàn)出色,超過Claude
3.5
Sonnet和Gemini-2.0-Flash-Exp,較為接近ChatGPT-4o-latest(僅相差1.9分)。國內(nèi)模型在推理速度和性價(jià)比方面很有競爭力國內(nèi)模型DeepSeek-V3和Qwen2.
5-
32B-
Instruct在推理效能方面表現(xiàn)出色,在高水平能力的基礎(chǔ)上,保持極快的推理速度。在性價(jià)比方面,Deep
S
eek-
V
3
、Qwen
2
.
5
-72B-
Instruct(
阿里云)
在高水平能力的基礎(chǔ)上,保持低成本的API價(jià)格。端側(cè)小模型表現(xiàn)驚艷國內(nèi)端側(cè)小模型進(jìn)展迅速,部分小尺寸模型表現(xiàn)要好于上一代的稍大尺寸模型,如Qwen2.
5-
3B-
Instruct、Mini
CPM3-
4B,
均展現(xiàn)出很高的性價(jià)比和落地可行性。來源:Super
CLUE,
2025年1月8日3報(bào)告摘要(二)來源:Super
CLUE,
2025年1月8日注:專項(xiàng)任務(wù)排名中,當(dāng)出現(xiàn)并列排名的情況(如并列第二),則后續(xù)排名依次順延(第三名自動空缺)。數(shù)據(jù)來源:
Super
CLUE,
2025
年1
月8
日;大模型性價(jià)比分布一級維度專項(xiàng)任務(wù)國內(nèi)TOP1國內(nèi)TOP2國內(nèi)TOP3HardAgentStep-2-16k(75.0分)DeepSeek-V3Qwen2.5-72B-Instruct(74.0分)/指令遵循Qwen-max-latest(35.7分)TeleChat2-Large(34.3分)DeepSeek-V3SenseChat
5.5-latest(31.5分)深度推理Baichuan4(60.2分)360zhinao2-o1(59.4分)DeepSeek-V3(58.8分)代碼Doubao-pro-32k-241215(75.2分)DeepSeek-R1-Lite-Preview(71.2分)DeepSeek-V2.5(70.9分)理科計(jì)算SenseChat
5.5-latest(78.2分)DeepSeek-V3360zhinao2-o1(76.3分)/邏輯推理360zhinao2-o1(71.0分)DeepSeek-V3(69.1分)Doubao-pro-32k-241215(67.8分)文科語言理解DeepSeek-V3(86.5分)DeepSeek-R1-Lite-Preview(86.1分)Qwen2.5-72B-InstructTeleChat2-Large(84.7分)生成創(chuàng)作Hunyuan-Turbo(76.2分)NebulaCoder-V5(75.7分)MiniMax-abab7-preview(75.6分)傳統(tǒng)安全SenseChat
5.5-latest(86.4分)NebulaCoder-V5(82.9分)Hunyuan-Turbo(82.5分)各維度國內(nèi)Top3排行4報(bào)告目錄一、2024年度關(guān)鍵進(jìn)展及趨勢2024年大模型關(guān)鍵進(jìn)展2024年值得關(guān)注的中文大模型全景圖2024年國內(nèi)外大模型差距2024年國內(nèi)外大模型能力趨勢二、年度通用測評介紹SuperCLUE介紹SuperCLUE大模型綜合測評體系及數(shù)據(jù)集SuperCLUE通用測評基準(zhǔn)數(shù)據(jù)集及評價(jià)方式各維度測評說明各維度測評示例測評模型列表三、總體測評結(jié)果與分析SuperCLUE通用能力測評總分SuperCLUE模型象限(2024)歷月SuperCLUE大模型Top3一、二級維度表現(xiàn)九大任務(wù)年度Top5綜合效能區(qū)間分布性價(jià)比區(qū)間分布國內(nèi)外推理模型能力對比Hard、理科、文科成績及示例國內(nèi)大模型成熟度-SC成熟度指數(shù)評測與人類一致性驗(yàn)證四、開源模型進(jìn)展評估開源模型榜單10B級別小模型榜單端側(cè)5B級別小模型榜單五、智能體Agent基準(zhǔn)六、推理基準(zhǔn)七、多模態(tài)基準(zhǔn)八、AI產(chǎn)品基準(zhǔn)九、行業(yè)測評基準(zhǔn)十、重點(diǎn)文本專項(xiàng)基準(zhǔn)十一、優(yōu)秀模型案例第1部分62024年度關(guān)鍵進(jìn)展及趨勢2024年大模型關(guān)鍵進(jìn)展2024年值得關(guān)注的中文大模型全景圖2024年國內(nèi)外大模型差距2024年國內(nèi)外大模型能力趨勢時(shí)間躍進(jìn)期2024年大模型關(guān)鍵進(jìn)展2022.122023.062024.062024.122023.12自2022年11
月30日Chat
GPT發(fā)布以來,
AI大模型在全球范圍內(nèi)掀起了有史以來規(guī)模最大的人工智能浪潮。國內(nèi)外AI機(jī)構(gòu)在過去2
年有了實(shí)質(zhì)性的突破。具體可分為:準(zhǔn)備期、躍進(jìn)期、繁榮期和深化期。S
u
p
e
r
C
L
U
E
:
A
I
大模型2
0
2
4
年關(guān)鍵進(jìn)展關(guān)鍵進(jìn)展深化期準(zhǔn)備期繁榮期Chat
GPT發(fā)布,
全球范圍內(nèi)迅速形成大模型共識。GPT
4
發(fā)布,
進(jìn)一步掀起大模型研發(fā)熱潮。國內(nèi)快速跟進(jìn)大模型研發(fā)。文心一言1
.
0
、通義千問、訊飛星火、3
6
0
智腦、Chat
GLM等首批模型相繼發(fā)布。Ope
n
AI
發(fā)布Sor
a
,
極大拓展了AI
在視頻領(lǐng)域的想象力。G
P
T
-
4
o
、
C
l
a
u
d
e
3
.
5
、G
e
m
i
n
i
1
.
5
、L
l
a
m
a
3
發(fā)布,
海外進(jìn)入“
一超多強(qiáng)”
的競爭格局。國內(nèi)多模態(tài)領(lǐng)域進(jìn)展迅速,
在部分領(lǐng)域領(lǐng)先海外。
視頻生成模型可靈A
I
、海螺視頻、v
i
du
、Pi
x
Ve
r
s
e
等模型陸續(xù)發(fā)布,
并在海外取得較大應(yīng)用進(jìn)展。國內(nèi)通用模型持續(xù)提升。Qwen
2
.
5
、文心4
.
0
、GLM
4
、商量5
.
5
等通用模型陸續(xù)更新。7L
l
a
m
a
2
開源,
極大助力全球大模型開發(fā)者生態(tài)。G
PT
-
4
T
ur
b
o
、G
e
mini
等海外大模型發(fā)布,
繼續(xù)提升模型性能。國內(nèi)閉源大模型快速發(fā)展。
豆包、
混元、商量3
.
0
、盤古3
.
0
、Andes
GPT、Bl
ue
LM、星火3
.
0
等陸續(xù)發(fā)布。國
內(nèi)
開
源
生
態(tài)
爆
發(fā)
。
B
a
i
c
h
u
a
n
、Q
w
e
n
、
I
n
t
e
r
n
L
M
、
C
h
a
t
G
L
M
3
、Yi
-
34
B等系列模型引領(lǐng)開源熱潮。O
p
e
n
A
I
發(fā)布o(jì)
1
,
強(qiáng)化學(xué)習(xí)新范式,實(shí)現(xiàn)推理等復(fù)雜能力上的重大突破。C
l
a
u
d
e
3
.
5
-
S
o
n
n
e
t
發(fā)布
,
在代碼和Agent
能力上掀起效率革命。C
h
a
t
G
P
T
上線實(shí)時(shí)視頻能力,
深入語音視覺實(shí)時(shí)多模態(tài)應(yīng)用場景。國內(nèi)推理模型迅速跟進(jìn)。QWQ、K
0
-m
a
t
h
、
D
e
e
p
S
e
e
k
-
R
1
-
L
i
t
e
、I
n
t
e
r
n
T
h
i
n
k
e
r
、
3
6
0
g
p
t
2
-
o
1
、GLM-
Zer
o等推理模型陸續(xù)發(fā)布。國內(nèi)模型性能持續(xù)提升。De
e
p
Se
e
k
-
V
3
、
豆
包
-
P
r
o
、
混
元
-
T
u
r
b
o
、G
L
M
-
4
-
P
l
u
s
等系列模型綜合能力上持續(xù)提升。文本文生圖字節(jié)豆包AndesGPT
通用閉源通用開源多模態(tài)行業(yè)軒轅大模型更多行業(yè)部分領(lǐng)域汽車MindGPT教育工業(yè)奇智孔明AInno-15B..................金融螞蟻金融大模型妙想金融大模型醫(yī)聯(lián)M
e
d
G
P
T百川AI全科醫(yī)生醫(yī)療百度靈醫(yī)極氪Kr大模型易車大模型......華為盤古工業(yè)大模型SMore
LrMo羚羊工業(yè)大模型......營銷:妙筆大模型深勢分子大模型......文化:法律:AI4S:實(shí)時(shí)交互智譜清言星火極速通義APP文生視頻
視覺理解 SenseChat-Vision GLM-4vTeleChat2-35B語音合成/
聲音復(fù)刻百度T
T
S訊飛語音合成CosyVoice推理QWQ-32B-
PreviewDeep
Seek-
R
1
-
LiteI
n
t
e
r
n
T
h
i
n
k
e
rK
0
-
m
a
t
h360gpt2-o1SuperCLUE:2024年最值得關(guān)注的中文大模型全景圖2024年國內(nèi)外大模型差距模型23年5月23年6月23年7月23年8月23年9月23年10月23年11月23年12月24年2月24年4月24年6月24年8月24年10月24年12月GPT最新模型(GPT3.5、4、4-Turbo、4o、o1)76.6778.7670.8981.0383.2087.0889.7990.6392.7179.1381.0079.6775.8580.4國內(nèi)TOP153.5863.5362.0060.0262.7570.7474.0279.0287.7573.3277.0078.6469.6468.3國內(nèi)TOP249.5262.5859.3555.7062.6170.4272.8876.5486.7772.5876.0076.2469.0068.3國內(nèi)TOP346.4559.8058.0253.4362.1269.5771.8775.0485.7072.4576.0074.6368.9167.4國內(nèi)外Top1模型差距分?jǐn)?shù)國內(nèi)外Top1模型差距比例總體趨勢上,
國內(nèi)外第一梯隊(duì)大模型在中文領(lǐng)域的通用能力差距正在擴(kuò)大。2023年5月至今,國內(nèi)外大模型能力持續(xù)發(fā)展。其中GPT系列模型為代表的海外最好模型經(jīng)過了從GP
T
3
.
5
、GP
T
4
、GP
T
4
-
T
u
r
b
o
、GP
T
4
o
、o
1
的多個(gè)版本的迭代升級。國內(nèi)模型也經(jīng)歷了波瀾壯闊的1
8
個(gè)月的迭代周期,
從2
0
2
3
年5
月的30.12%的差距,縮小至2024年8月的1.29%。但隨著o
1的發(fā)布,
差距再次拉大到15.
05%。SuperCLUE基準(zhǔn):過去18個(gè)月國內(nèi)外TOP大模型對比趨勢來源:
Super
CLUE,
2023
年5
月~
2024
年12
月,
期間發(fā)布的14
次大模型基準(zhǔn)測評報(bào)告。9Qwen2.52024年國內(nèi)外大模型能力趨勢Super
CLUE基準(zhǔn)分?jǐn)?shù)22.0923.0322.122050
70804060
30
GLM-4GLM3GLM2Qwen1.0GPT-3.5-TurboGPT-4GPT-4oo1文心一言3.5豆包(云雀)23.0624.0624.0924.1225.03o1-PreviewGLM-4-Plus文心一言4.0Qwen1.5文心一言4.0
TurboDeepSeek-V2.5DeepSeek-V3Claude2.0GPT-4-TurboClaude3.0
OpusClaude3.5
Sonnet(1022)Doubao-pro-previewDoubao-pro121523.09 23.12 24.03模型發(fā)布時(shí)間OpenAIQwen2.0代表性大模型基準(zhǔn)表現(xiàn)趨勢注:
部分模型基準(zhǔn)分?jǐn)?shù)取自2024
年12
月測評結(jié)果,
為保證基準(zhǔn)得分的連續(xù)性,
其他未在2024
年12
月測評的模型基準(zhǔn)分?jǐn)?shù)=
X(
該模型的歷史基準(zhǔn)得分)*
Y(
與12
月基準(zhǔn)相比的難度系數(shù))。以上模型選取參考模型能力、開放生態(tài)、應(yīng)用場景等綜合因素。HunyuanHunyuan-ProHunyuan-Turbo阿里云百度DeepSeekAnthropic字節(jié)跳動智譜騰訊趨勢分析在過去2
年中,
國產(chǎn)代表性模型持續(xù)迭代多個(gè)版本,D
e
e
p
S
e
e
k
-
V
3
、
D
o
u
b
a
o
-
p
r
o
、
G
L
M
-
4
-
P
l
u
s
、Qwen
2
.
5
在中文任務(wù)上已經(jīng)接近GPT-
4
o。其中Deep
Seek-
V
3
表現(xiàn)出色,
在12
月測評中有超過Claude
3
.
5
Sonnet的表現(xiàn)。1
.
以Deep
Seek-
V
3
為代表的國產(chǎn)模型正極為接近GPT-
4
o-
latest在12
月Super
CLUE測評中,
國內(nèi)外主要頭部大模型在Super
CLUE基準(zhǔn)得分集中在60
-
70
分。o
1
和o
1
-
preview基于強(qiáng)化學(xué)習(xí)新范式的推理模型成為突破70
分瓶頸的重要技術(shù)代表,
尤其o
1
正式版突破了80
分大關(guān),
展現(xiàn)出較大的領(lǐng)先優(yōu)勢。2
.
o
1
基于強(qiáng)化學(xué)習(xí)新范式的推理模型,
突破80
分拉大國內(nèi)外頂尖模型差距10第2部分11年度通用測評介紹SuperCLUE基準(zhǔn)介紹SuperCLUE大模型綜合測評體系SuperCLUE通用測評基準(zhǔn)數(shù)據(jù)集各維度測評說明各維度測評示例測評模型列表0數(shù)據(jù)污染每2個(gè)月題庫100%替換題目100%原創(chuàng)傳統(tǒng)測評SuperCLUE易數(shù)據(jù)污染學(xué)術(shù)視角與應(yīng)用側(cè)較大偏差維度固定陳舊無法與時(shí)俱進(jìn)VS
SuperCLUE
三大特征產(chǎn)業(yè)+用戶視角SuperCLUE與傳統(tǒng)測評的區(qū)別維度Live更新題目固定過擬合風(fēng)險(xiǎn)高CLUE基準(zhǔn)發(fā)布發(fā)布多篇頂會論文,并承辦了NLPCC2020
開放測評任務(wù)發(fā)布FewCLUE、DataCLUE、ZeroCLUE等多個(gè)知名測評基準(zhǔn)聯(lián)合西湖大學(xué)發(fā)布DataCentricAI;發(fā)布SimCLUE大規(guī)模中文語義理解數(shù)據(jù)集中文領(lǐng)域首個(gè)通用大模型測評基準(zhǔn)SuperCLUE正式發(fā)布發(fā)布首個(gè)中文多輪開放式測評基準(zhǔn)SuperCLUE-Open;發(fā)布行業(yè)測評基準(zhǔn)發(fā)布數(shù)學(xué)、代碼、長文本、RAG等測評基準(zhǔn);發(fā)布文生視頻、文生圖、視覺理解等多模態(tài)測評基準(zhǔn)發(fā)布AI編程助手、實(shí)時(shí)交互等AI應(yīng)用測評基準(zhǔn);發(fā)布智能座艙測評基準(zhǔn)。SuperCLUE是大模型時(shí)代背景下CLUE基準(zhǔn)的發(fā)展和延續(xù),是獨(dú)立、領(lǐng)先的通用大模型的綜合性測評基準(zhǔn)。中文語言理解測評基準(zhǔn)C
L
U
E
(
T
h
e
C
h
i
n
e
s
eLanguage
Understanding
Evaluation)
發(fā)起于2019年,陸續(xù)推出過CLUE、Few
CLUE、Zero
CLUE等廣為引用的測評基準(zhǔn)。2019 2020 2021 2022 2023.01-06 2023.07-12 2024.01-06 2024.07-09 2024.10-12發(fā)布鏈?zhǔn)酵评?、小學(xué)奧數(shù)等推理測評基準(zhǔn);發(fā)布多輪可執(zhí)行智能體測評基準(zhǔn)AgentCLUE010203“Live”更新,0數(shù)據(jù)污染測評方式與用戶交互一致獨(dú)立第三方,無自家模型測評題庫每2
個(gè)月1
0
0
%
替換且全部原創(chuàng),
杜絕過擬合風(fēng)險(xiǎn)。體系維度根據(jù)大模型進(jìn)展Live更新。12測評方法與用戶交互方式保持一致,
測評任務(wù)貼近真實(shí)落地場景,
高度還原用戶視角。完全獨(dú)立的第三方評測機(jī)構(gòu),
不研發(fā)自家模型。承諾提供無偏倚的客觀、中立評測結(jié)果。Super
CLUE基準(zhǔn)介紹通用基準(zhǔn)文本專項(xiàng)基準(zhǔn)S
u
p
e
r
C
L
U
E
大模型綜合測評基準(zhǔn)框架多模態(tài)基準(zhǔn) 推理基準(zhǔn)Agent基準(zhǔn)應(yīng)用基準(zhǔn)理科計(jì)算邏輯推理代碼文科語言理解生成創(chuàng)作傳統(tǒng)安全Hard深度推理Agent精確指令遵循長文本SuperCLUE-Long視頻文生視頻SuperCLUE-T2V超長文本SuperCLUE-200K角色扮演SuperCLUE-Role檢索增強(qiáng)生成SuperCLUE-RAG多輪對抗安全SuperCLUE-Safety圖像/視覺實(shí)時(shí)音視頻交互SuperCLUE-Live多模態(tài)理解SuperCLUE-V語音實(shí)時(shí)語音交互SuperCLUE-Voice語音合成SuperCLUE-TTS聲音復(fù)刻SuperCLUE-Cloning文生圖SuperCLUE-Image鏈?zhǔn)酵评鞸uperCLUE-COT代碼SuperCLUE-Code3小學(xué)奧數(shù)SuperCLUE-Math6o數(shù)學(xué)多步推理SuperCLUE-Math6科學(xué)推理SuperCLUE-Science視覺推理SuperCLUE--VR通用可執(zhí)行智能體AgentCLUE終端智能體行業(yè)智能體零售教育醫(yī)療...AI產(chǎn)品AI搜索SuperCLUE-AISearch代碼助手SuperCLUE-Coder行業(yè)金融SuperCLUE-Fin工業(yè)SuperCLUE-Industry汽車SuperCLUE-Auto智能座艙SuperCLUE-Icabin已發(fā)布 即將發(fā)布13不可執(zhí)行智能體SuperCLUE-Agent手機(jī)PC眼鏡...Super
CLUE大模型綜合測評體系基于大模型技術(shù)和應(yīng)用發(fā)展趨勢、以及基準(zhǔn)測評專業(yè)經(jīng)驗(yàn),
Super
CLUE構(gòu)建出多領(lǐng)域、多層次的大模型綜合性測評基準(zhǔn)框架。從基礎(chǔ)到應(yīng)用覆蓋:
通用基準(zhǔn)體系、文本專項(xiàng)系列基準(zhǔn)、多模態(tài)系列基準(zhǔn)、推理系列基準(zhǔn)、Agent系列基準(zhǔn)、AI應(yīng)用基準(zhǔn)。為產(chǎn)業(yè)、學(xué)術(shù)和研究機(jī)構(gòu)的大模型研發(fā)提供重要參考。Super
CLUE通用測評基準(zhǔn)數(shù)據(jù)集及評價(jià)方式理科文科Hard1.計(jì)算介紹:包括線性代數(shù)、概率統(tǒng)計(jì)、微積分及數(shù)學(xué)多步推理算術(shù)在內(nèi)的基礎(chǔ)數(shù)學(xué)數(shù)據(jù)集。評價(jià)方式:人工校驗(yàn)參考答案的、多維度評價(jià)標(biāo)準(zhǔn)的評估。2.邏輯推理介紹:包括三段論、關(guān)系推理、樸素推理等在內(nèi)的中文邏輯推理數(shù)據(jù)集。評價(jià)方式:人工校驗(yàn)參考答案的、多維度評價(jià)標(biāo)準(zhǔn)的評估。3.代碼介紹:HumanEval的中文升級版,分為初級、中級和高級的8種常見類型代碼數(shù)據(jù)集。評價(jià)方式:基于代碼單元測試的評估(0-1得分)5.生成與創(chuàng)作介紹:包括但不限于廣告文案、技術(shù)寫作、公文寫作、文學(xué)創(chuàng)作、角色扮演、長文本的數(shù)據(jù)集。評價(jià)方式:多維度評價(jià)標(biāo)準(zhǔn)的評估。4.語言理解介紹:基礎(chǔ)語言理解數(shù)據(jù)集,包括但不限于信息抽取、意圖識別、摘要、百科知識。評價(jià)方式:多維度評價(jià)標(biāo)準(zhǔn)的評估。6.傳統(tǒng)安全介紹:包括但不限于違法犯罪、財(cái)產(chǎn)隱私、偏見歧視、臟話侮辱、道德倫理等。評價(jià)方式:多維度評價(jià)標(biāo)準(zhǔn)的評估。7.指令遵循介紹:主要考察模型的指令遵循能力,包括但不限于定義的輸出格式或標(biāo)準(zhǔn)來生成響應(yīng),精確地呈現(xiàn)要求的數(shù)據(jù)和信息。評價(jià)方式:基于規(guī)則腳本的評估(0-1得分)8.深度推理介紹:主要考察模型在復(fù)雜任務(wù)中的多步推理能力。復(fù)雜任務(wù)推理涉及在多個(gè)變量和條件下進(jìn)行邏輯推理。評價(jià)方式:人工校驗(yàn)參考答案的、多維度評價(jià)標(biāo)準(zhǔn)的評估。本次12月報(bào)告聚焦通用能力測評,
由理科、文科和Hard三大維度構(gòu)成。題目均為原創(chuàng)新題,總量為1325道多輪簡答題?!纠砜迫蝿?wù)】分為計(jì)算、邏輯推理、代碼測評集;【文科任務(wù)】分為語言理解、生成創(chuàng)作、安全測評集;【Hard任務(wù)】分為指令遵循、深度推理、Agent測評集。SuperCLUE通用基準(zhǔn)數(shù)據(jù)集及評價(jià)方式9.Agent介紹:主要考察在中文場景下基于可執(zhí)行的環(huán)境,LLM作為執(zhí)行代理,在多輪對話中調(diào)用工具完成任務(wù)的能力。包括兩大任務(wù)類型:常規(guī)單輪對話和常規(guī)多輪對話。評價(jià)方式:結(jié)合任務(wù)完成與否、系統(tǒng)狀態(tài)比對的評估(0-1得分)14理科測評說明1(
計(jì)算、邏輯推理)SuperCLUE-理科評測數(shù)據(jù)集計(jì)算包括線性代數(shù)、概率統(tǒng)計(jì)、微積分及數(shù)學(xué)多步推理算術(shù)在內(nèi)的基礎(chǔ)數(shù)學(xué)數(shù)據(jù)集。邏輯推理包括三段論、關(guān)系推理、樸素推理等在內(nèi)的中文邏輯推理數(shù)據(jù)集。測評方法評測流程:我們采用高級AI模型(例如GPT-4o)來評估不同任務(wù)的表現(xiàn),根據(jù)設(shè)定的評價(jià)標(biāo)準(zhǔn)進(jìn)行打分(1-5分)。以【計(jì)算】任務(wù)為例,設(shè)定的評價(jià)標(biāo)準(zhǔn)包括:符合基本要求、推理準(zhǔn)確性、結(jié)論合理性。假設(shè)在一個(gè)具體的題目中,模型A的得分如下:符合基本要求3分、推理準(zhǔn)確性4分、結(jié)論合理性5分。首先,我們計(jì)算這一題目的平均得分:因此,該題目的具體得分為4分。最后,將所有題目的得分進(jìn)行歸一化處理,以確保滿分為100分。這樣,每個(gè)任務(wù)的得分都能清晰地反映模型在不同標(biāo)準(zhǔn)下的表現(xiàn)。問題:模型回答:評價(jià)打分:基于標(biāo)準(zhǔn)1的<符合基本要求>:AI助手的回答完全符合用戶的要求,詳細(xì)地解釋了級數(shù)的收斂性并計(jì)算了級數(shù)的和?;跇?biāo)準(zhǔn)1的得分:5分;基于標(biāo)準(zhǔn)2的<推理準(zhǔn)確性>:AI助手的推理過程準(zhǔn)確,邏輯清晰,應(yīng)用了正確的數(shù)學(xué)方法來判斷級數(shù)的收斂性和計(jì)算級數(shù)的和?;跇?biāo)準(zhǔn)2的得分:5分;基于標(biāo)準(zhǔn)3的<結(jié)論合理性>:AI助手得出的結(jié)論與已知的數(shù)學(xué)常識和事實(shí)一致,驗(yàn)證了級數(shù)的收斂性并正確計(jì)算了級數(shù)的和?;跇?biāo)準(zhǔn)3的得分:5分;綜合以上,AI助手的回答的綜合得分(平均分)為[[5]]示例-計(jì)算<
篇幅有限省略>15理科測評說明2(
代碼)SuperCLUE-理科評測數(shù)據(jù)集代碼Human
Eval的中文升級版,
分為初級、中級和高級的8
種常見類型代碼數(shù)據(jù)集。測評方法評測流程:整體測評流程包括:1.獲取模型答案;2.提取功能函數(shù);3.測試功能函數(shù);4.計(jì)算模型得分。1.獲取模型答案:使用特定的prompt要求模型按照特定格式回答,以方便后續(xù)提取。對于一個(gè)代碼補(bǔ)全問題,每個(gè)模型獲取一次答案。2.提取功能函數(shù):獲取到模型回復(fù)之后,結(jié)合prompt要求和模型回答設(shè)定規(guī)則提取函數(shù)代碼。3.測試功能函數(shù):對于一個(gè)代碼補(bǔ)全問題,將提取得到的代碼和該問題對應(yīng)的N個(gè)測試用例組裝成N個(gè)可獨(dú)立運(yùn)行的單元測試程序,在沙箱環(huán)境運(yùn)行(沙箱環(huán)境python版本設(shè)置為3.10)。4.計(jì)算模型得分:對于一個(gè)代碼補(bǔ)全問題和1個(gè)測試用例,構(gòu)成一個(gè)單元測試,通過測試得1分。最終計(jì)算模型在所有單元測試中得分平均分*100作為最終的得分。問題:import
mathfromtypingimportTuplefromcollectionsimport
deque16deftask_func(jugs:Tuple[int],target:int)
->bool:"""給定三個(gè)水壺的容量,判斷是否可以通過無限的水源和以下操作精確地得到target
升水。允許的操作包括:裝滿任意一個(gè)水壺清空任意一個(gè)水壺將水從一個(gè)水壺倒入另一個(gè)水壺,直到倒水壺為空,或接水壺已滿參數(shù):jugs:Tuple[int,
int,
int]
-
三個(gè)水壺的容量,按升為單位。target:
int
-
目標(biāo)水量,單位為升。返回:-
bool
-
是否可以達(dá)到目標(biāo)水量。"""示例-代碼模型回答:fromtypingimport
Tupledefhas_enough_water(jugs:Tuple[int],target:int)->bool:import
mathju=
jugsifju[0]>
target:returnFalseifju[1]>
target:returnFalseifju[2]>
target:return
Falseifju[0]<=
0:return
Falseifju[1]<=
0:return
Falseifju[2]<=
0:returnFalseforiin
range(3):ifju[i]==
0:continuemax_amount=math.floor(ju[i]/2)res=math.ceil(target/
max_amount)ifres>
0:return
Truereturn
False測試功能函數(shù):def
check(candidate):asserttask_func((3,5,8),4)==
True計(jì)算模型得分:測試未通過,不得分文科測評說明SuperCLUE-文科評測數(shù)據(jù)集測評方法評測流程:我們采用高級AI模型(例如GPT-4o)來評估不同任務(wù)的表現(xiàn),根據(jù)設(shè)定的評價(jià)標(biāo)準(zhǔn)進(jìn)行打分(1-5分)。以【生成與創(chuàng)作】任務(wù)為例,設(shè)定的評價(jià)標(biāo)準(zhǔn)包括:符合基本要求、語言與邏輯連貫性、推理鏈條完整度。假設(shè)在一個(gè)具體的題目中,模型A的得分如下:符合基本要求3分、語言與邏輯連貫性4分、推理鏈條完整度5分。首先,我們計(jì)算這一題目的平均得分:因此,該題目的具體得分為4分。最后,將所有題目的得分進(jìn)行歸一化處理,以確保滿分為100分。這樣,每個(gè)任務(wù)的得分都能清晰地反映模型在不同標(biāo)準(zhǔn)下的表現(xiàn)。二、考場安排(...)<
篇幅有限省略>五、考試紀(jì)律要求(考試是檢驗(yàn)學(xué)習(xí)成果的重要方式,學(xué)校對考試紀(jì)律有嚴(yán)格要求,請同學(xué)們自覺遵守:1.嚴(yán)禁攜帶任何與考試無關(guān)的物品進(jìn)入考場,一經(jīng)發(fā)現(xiàn)視為作弊......)六、聯(lián)系方式(......)評價(jià)打分:基于標(biāo)準(zhǔn)1的<符合基本要求>:回答與問題高度契合,詳細(xì)涵蓋了考試時(shí)間表、考場安排、注意事項(xiàng)、特殊安排和考試紀(jì)律等方面,完全滿足用戶的需求?;跇?biāo)準(zhǔn)1的得分:5分;基于標(biāo)準(zhǔn)2的<創(chuàng)造性>:回答在表達(dá)上非常完整,但缺乏一些創(chuàng)新性的表達(dá)或獨(dú)特的見解,如提供一些學(xué)生不同情況的應(yīng)對方案或溫馨提示?;跇?biāo)準(zhǔn)2的得分:3分;基于標(biāo)準(zhǔn)3的<語言與邏輯連貫性>;回答表述清晰,邏輯連貫,各個(gè)部分有機(jī)結(jié)合,并且層次分明?;跇?biāo)準(zhǔn)3的得分:5分;基于標(biāo)準(zhǔn)4的<事實(shí)正確性>;提供的信息大部分是關(guān)于考試安排的細(xì)節(jié),并且看不到明顯錯(cuò)誤?;跇?biāo)準(zhǔn)4的得分:5分;示例-生成與創(chuàng)作問題:你作為學(xué)校教務(wù)處的工作人員,需要起草一份關(guān)于期末考試安排的通告。通告應(yīng)包括以下內(nèi)容:詳細(xì)的考試時(shí)間表和科目安排,確保學(xué)生能夠清楚知曉每一科目的具體考試日期和時(shí)間;各科目考試的具體考場安排,包括每個(gè)班級所在的考場和座位號,以避免考試當(dāng)天的混亂;<
篇幅有限省略>5.
考試紀(jì)律的明確要求,特別是針對作弊行為的嚴(yán)格規(guī)定,引用學(xué)校相關(guān)的規(guī)章制度和處罰措施,確保公平、公正。模型回答:<
因篇幅有限,
展示省略回答>關(guān)于期末考試安排的通告親愛的全體同學(xué):為確保本學(xué)期期末考試的順利進(jìn)行,現(xiàn)將考試安排及相關(guān)事項(xiàng)通知如下,請同學(xué)們認(rèn)真閱讀并嚴(yán)格遵守一、考試時(shí)間表及科目安排(...)語言理解基礎(chǔ)語義理解數(shù)據(jù)集,包括但不限于信息抽取、意圖識別、摘要、百科知識。生成與創(chuàng)作包括但不限于廣告文案、技術(shù)寫作、公文寫作、文學(xué)創(chuàng)作、角色扮演、長文本的數(shù)據(jù)集。安全包括但不限于違法犯罪、財(cái)產(chǎn)隱私、偏見歧視、臟話侮辱、道德倫理等。綜合以上,AI助手的回答的綜合得分(平均分)為[[4.5]]17Hard測評說明1(
精確指令遵循))評測流程:我們完成了一個(gè)針對不同的語言模型的(
文本輸出)
精確指令遵循表現(xiàn)的測試,
根據(jù)設(shè)定的評估標(biāo)準(zhǔn)進(jìn)行評估。評估的結(jié)果為布爾值(
True
或
Fal
se)。以【寫一篇關(guān)于可再生能源對減少碳排放的作用的短文。要求文章不得使用“
二氧化碳”
這個(gè)詞,字?jǐn)?shù)不少于10
個(gè)字,
以JSON格式返回】任務(wù)為例:設(shè)定的評價(jià)標(biāo)準(zhǔn)包括:
遵循關(guān)鍵詞限制、符合字?jǐn)?shù)要求、輸出格式正確。模型只有在命中所有指令的條件下會得到True的返回結(jié)果。例如:模型輸出結(jié)果1
:
{
"
r
e
s
p
o
n
s
e
"
:
"
可再生能源在減少碳排放和減輕氣候變化方面起著關(guān)鍵作用,未來應(yīng)加快推廣。"
}符合所有要求,
返回True。模型輸出結(jié)果2
:{
"
response":
"
使用可再生能源可以減少二氧化碳排放。"
}違背了關(guān)鍵詞限制,
返回Fal
se。最后,
我們將所有題目的評估結(jié)果進(jìn)行匯總,
根據(jù)模型完全命中的題目數(shù)量計(jì)算模型的最終命中率,
命中率以百分比為單位。具體來說,
命中率計(jì)算公式為:命中率
=
(
模型完全命中的題目數(shù)量
÷
總題目數(shù)量 100
%SuperCLUE-Hard:精確指令遵循數(shù)據(jù)集精確指令遵循主要考察模型的指令遵循能力,
要求AI嚴(yán)格按照給定的指令進(jìn)行回復(fù),
包括但不限于定義的輸出格式或標(biāo)準(zhǔn)來生成響應(yīng),
精確地呈現(xiàn)要求的數(shù)據(jù)和信息。測評方法示例問題:請撰寫一篇關(guān)于“
智能家居技術(shù)如何改善日常生活”
的文章,
要求包含“
便捷”
、“
安全”
和“
節(jié)能”
三個(gè)詞語,
其中“
便捷”
至少出現(xiàn)3
次,
“
安全”
必須只出現(xiàn)5
次,
而“
節(jié)能”
最多出現(xiàn)2
次。請確保文章只出現(xiàn)4
個(gè)段落(
不要出現(xiàn)標(biāo)題),
每個(gè)段落之間用'
~~'
符號分隔。其中第3
段的第8
個(gè)漢字必須是“
效”
字。另外,
請確保文章恰好由1
5
個(gè)句子(
用中文句號或問號或感嘆號分隔)
組成,
并且第10
個(gè)句子的第11
個(gè)漢字必須是“
感”
字?;卮穑褐悄芗揖蛹夹g(shù)正在迅速改變我們的日常生活。通過智能設(shè)備,
家庭成員可以享受到前所未有的便捷。無論是控制燈光、調(diào)節(jié)溫度,
還是管理家電,
只需一個(gè)指令就能輕松完成。這種便捷不僅提高了生活質(zhì)量,
還節(jié)省了大量時(shí)間?!踩侵悄芗揖蛹夹g(shù)的另一個(gè)重要優(yōu)勢。智能門鎖和監(jiān)控系統(tǒng)可以實(shí)時(shí)監(jiān)控家庭安全,確保家人和財(cái)產(chǎn)的安全。當(dāng)檢測到異常情況時(shí),
系統(tǒng)會立即發(fā)出警報(bào),
并通知相關(guān)人員。這種安全措施大大降低了家庭被盜或發(fā)生意外的風(fēng)險(xiǎn)?!悄芗揖蛹夹g(shù)還能帶來顯著的效能提升。通過智能溫控系統(tǒng),
家庭可以自動調(diào)節(jié)室內(nèi)溫度,
確保舒適的同時(shí),
還能節(jié)能。智能照明系統(tǒng)可以根據(jù)光線和時(shí)間自動調(diào)整亮度,
進(jìn)一步減少能源消耗。這種節(jié)能措施不僅環(huán)保,
還能降低電費(fèi)支出?!偟膩碚f,
智能家居技術(shù)通過提供便捷、安全和節(jié)能的解決方案,
極大地改善了日常生活。隨著技術(shù)的不斷進(jìn)步,
未來智能家居將變得更加智能和人性化,
為人們帶來更多便利和舒適感。評價(jià)打分:未遵循指令內(nèi)容:“
節(jié)能”
出現(xiàn)3
次,
第3
段的第8
個(gè)漢字是“
能”
字,
文章只有14
個(gè)句子,
并且第10
個(gè)句子的第11
個(gè)漢字是“
可”
字。測評結(jié)果:
測試不通過18Hard測評說明2(
深度推理)SuperCLUE-Hard:深度推理數(shù)據(jù)集深度推理主要考察模型在復(fù)雜任務(wù)中的多步推理能力。復(fù)雜任務(wù)推理涉及在多個(gè)變量和條件下進(jìn)行邏輯推理。測評方法問題:家具廠生產(chǎn)三種家具:椅子、桌子和書架。生產(chǎn)一單位椅子需要1.5小時(shí)的組裝時(shí)間、2公斤的木材和0.5小時(shí)的涂裝時(shí)間;生產(chǎn)一單位桌子需要2.5小時(shí)的組裝時(shí)間、4公斤的木材和1小時(shí)的涂裝時(shí)間;生產(chǎn)一單位書架需要2小時(shí)的組裝時(shí)間、3公斤的木材和0.8小時(shí)的涂裝時(shí)間。家具廠每天可用的最大資源為:120小時(shí)的組裝時(shí)間、80公斤的木材和50小時(shí)的涂裝時(shí)間。椅子的利潤為每單位25元,桌子的利潤為每單位60元,書架的利潤為每單位40元。此外,家具廠必須至少生產(chǎn)10個(gè)單位的椅子、5個(gè)單位的桌子和8個(gè)單位的書架。家具廠應(yīng)如何安排生產(chǎn)數(shù)量,以最大化利潤?模型回答:要解決這個(gè)問題,
我們需要使用線性規(guī)劃的方法,
找到在給定的資源限制下,
使利潤最大的產(chǎn)品組合。以下是詳細(xì)的步驟:**
第一步:
定義決策變量**:<
篇幅有限省略>;**
第二步:
建立目標(biāo)函數(shù)**:<
篇幅有限省略>**
第三步:
建立約束條件**:<
篇幅有限省略>;**
第四步:
求解線性規(guī)劃問題**:<
篇幅有限省略>**
第五步:
分析約束條件**:<
篇幅有限省略>**
第六步:
尋找增加利潤的機(jī)會**:<
篇幅有限省略><
篇幅有限省略>**
第十一步:
得出結(jié)論**:<
篇幅有限省略>(
由于篇幅有限,
模型回答省略具體內(nèi)容,
僅展示關(guān)鍵步驟)評價(jià)打分:基于標(biāo)準(zhǔn)1的<符合基本要求>:AI助手的回答完全符合用戶的意圖,詳細(xì)解釋了如何最大化利潤,并提供了完整的線性規(guī)劃模型?;跇?biāo)準(zhǔn)1的得分:5分;基于標(biāo)準(zhǔn)2的<推理過程準(zhǔn)確性>:AI助手的推理過程準(zhǔn)確,步驟清晰,邏輯合理,且與參考答案一致?;跇?biāo)準(zhǔn)2的得分:5分;基于標(biāo)準(zhǔn)3的<結(jié)論一致性>:AI助手的結(jié)論與參考答案完全一致,給出了具體的生產(chǎn)數(shù)量和最大利潤?;跇?biāo)準(zhǔn)3的得分:5分;綜合以上,AI助手的回答的綜合得分(平均分)為[[5]]示例評測流程:我們采用高級AI模型(例如GPT-4o)來評估不同任務(wù)的表現(xiàn),根據(jù)設(shè)定的評價(jià)標(biāo)準(zhǔn)進(jìn)行打分(1-5分)?!旧疃韧评怼咳蝿?wù)設(shè)定的評價(jià)標(biāo)準(zhǔn)包括:符合基本要求、推理準(zhǔn)確性、結(jié)論合理性。假設(shè)在一個(gè)具體的題目中,模型A的得分如下:符合基本要求3分、推理準(zhǔn)確性4分、結(jié)論合理性5分。首先,我們計(jì)算這一題目的平均得分:因此,該題目的具體得分為4分。最后,將所有題目的得分進(jìn)行歸一化處理,以確保滿分為100分。這樣,每個(gè)任務(wù)的得分都能清晰地反映模型在不同標(biāo)準(zhǔn)下的表現(xiàn)。19Hard測評說明3(
Agent)SuperCLUE-Hard:Agent數(shù)據(jù)集Agent主要考察在中文場景下基于可執(zhí)行的環(huán)境,LLM作為執(zhí)行代理,在多輪對話中調(diào)用工具完成任務(wù)的能力。測評方法【第四輪問題】:看來需要加油了,幫我把油加滿吧。然后再發(fā)條消息給小紅說“今天路上有點(diǎn)堵車,可能會晚一點(diǎn)到?!薄灸P突貜?fù)1】:[fillFuelTank(fuelAmount=33.5),get_user_id(user='小紅')]【模型得到的反饋1】:第1個(gè)函數(shù)調(diào)用:fillFuelTank(fuelAmount=33.5),
執(zhí)行返回結(jié)果為:{"fuelLevel":
50.0},第2個(gè)函數(shù)調(diào)用:get_user_id(user='小紅'),執(zhí)行返回結(jié)果為:{"user_id":"USR032"}【模型回復(fù)2】:[send_message(receiver_id='USR032',message='今天路上有點(diǎn)堵車,可能會晚一點(diǎn)到。')]【模型得到的反饋2】:第1個(gè)函數(shù)調(diào)用:send_message(receiver_id='USR032',
message='今天路上有點(diǎn)堵車,可能會晚一點(diǎn)到。'),
執(zhí)行返回結(jié)果為:{"sent_status":
true,
"message_id":
{"new_id":
67410},
"message":
"Message
sent
to
'USR032'
successfully."}【模型回復(fù)3】:我已經(jīng)把油加滿了,并給小紅發(fā)了消息。還有什么需要幫忙的嗎?【第八輪問題】:有點(diǎn)熱了,把空調(diào)溫度調(diào)低一點(diǎn),調(diào)到24攝氏度就行,風(fēng)速設(shè)置為80,模式為制冷?!灸P突貜?fù)1】:[adjustClimateControl(temperature=24.0,fanSpeed=80,mode='cool')]【模型得到的反饋】:第1個(gè)函數(shù)調(diào)用:adjustClimateControl(temperature=24.0,
fanSpeed=80,
mode='cool'),
執(zhí)行返回結(jié)果為:{"currentACTemperature":24.0,"climateMode":"cool","humidityLevel":45.0}【模型回復(fù)2】:好的,空調(diào)已設(shè)置為制冷模式,溫度為24攝氏度,風(fēng)速為80。(
本題共八輪對話,
此處省略了其余多輪對話,
并由于篇幅限制,
只展示關(guān)鍵信息)示例描述:本次Agent測評共包含8個(gè)API,本題用到兩個(gè)API。車輛控制系統(tǒng):該工具屬于車輛控制系統(tǒng),允許用戶控制汽車的各個(gè)方面,如發(fā)動機(jī)、車門、空調(diào)控制、燈光等。消息API:該工具屬于消息API,該消息用于管理工作空間中的用戶交互。prompt:你是一個(gè)組合函數(shù)完成任務(wù)的專家。你將會收到一個(gè)問題和一些可以調(diào)用的函數(shù)及其描述?;趩栴},你需要調(diào)用一個(gè)或者多個(gè)函數(shù)來實(shí)現(xiàn)問題要求。如果使用你收到的函數(shù)無法完成問題要求,請指出。如果你收到的問題缺乏調(diào)用函數(shù)所必要的參數(shù),也請指出。在你的回答中只應(yīng)該包括函數(shù)調(diào)用(function
calls)內(nèi)容,而不應(yīng)該包括其他內(nèi)容。在每一輪對話中,你應(yīng)該盡最大努力完成用戶當(dāng)前提出的任務(wù)。<
篇幅有限省略>下面提供了一個(gè)列表,列表中是一些你可以調(diào)用的函數(shù)以及函數(shù)的功能和參數(shù)描述,使用json格式<
篇幅有限省略>【第一輪問題】:今天下雨了,幫我把車燈設(shè)置為“on”模式,確保視線清楚?!灸P突貜?fù)1】:[setHeadlights(mode='on')]【模型得到的反饋】:第1個(gè)函數(shù)調(diào)用:setHeadlights(mode='on'),執(zhí)行返回結(jié)果為:{"headlightStatus":"on"}【模型回復(fù)2】:好的,我已經(jīng)將車燈設(shè)置為“on”模式。評測流程:每一題包含N輪對話,只有每一輪對話都回復(fù)正確才能記1分。我們將模型回復(fù)的函數(shù)調(diào)用進(jìn)行實(shí)際執(zhí)行后判定是否回復(fù)正確。評價(jià)維度包括:函數(shù)調(diào)用執(zhí)行結(jié)果、執(zhí)行后的系統(tǒng)狀態(tài)。對于每一輪模型回復(fù)的評價(jià)方法:獲取模型答案之后,從中提取可執(zhí)行的函數(shù)調(diào)用。執(zhí)行提取的函數(shù)調(diào)用得到執(zhí)行結(jié)果集1,以及執(zhí)行后的系統(tǒng)狀態(tài)1;執(zhí)行人類標(biāo)注的ground
truth(函數(shù)調(diào)用)得到執(zhí)行結(jié)果集2,系統(tǒng)狀態(tài)2;將執(zhí)行結(jié)果集1與執(zhí)行結(jié)果集2進(jìn)行比較,系統(tǒng)狀態(tài)1和系統(tǒng)狀態(tài)2進(jìn)行比較;如果執(zhí)行結(jié)果集2是執(zhí)行結(jié)果集1的子集,系統(tǒng)狀態(tài)1和系統(tǒng)狀態(tài)2相同則認(rèn)為模型的本輪回復(fù)正確。最后,計(jì)算答對的題目的比例,轉(zhuǎn)化為百分制得到模型的總分。即:模型得分=(答對的題目數(shù)量/總題目數(shù)量)*100<
篇幅有限省略其余對話><
篇幅有限省略其余對話><
對話結(jié)束>20本次測評數(shù)據(jù)選取了Su
p
er
CL
UE-12月測評結(jié)果,模型選取了國內(nèi)外有代表性的42個(gè)大模型在12月份的版本。21測評模型列表模型機(jī)構(gòu)簡介模型機(jī)構(gòu)簡介1.o1OpenAIOpenAI在2024年12月17日發(fā)布的o1正式版本,使用方式為官網(wǎng)網(wǎng)頁22.TeleChat2-LargeTeleAI官方提供的小范圍內(nèi)測版本,使用方式為API2.o1-previewOpenAIOpenAI在2024年9月12日發(fā)布的版本,使用官方API:o1-preview-2024-09-1223.ERNIE-4.0-Turbo-8K-Latest百度百度文心系列的?語?模型,使用官方API:ERNIE-4.0-Turbo-8K-Latest3.ChatGPT-4o-latestOpenAI與ChatGPT上的GPT-4o同版本,對應(yīng)OpenAI官方的API名稱:chatgpt-4o-latest24.Baichuan4百川智能官方提供的小范圍內(nèi)測版本,使用方式為API4.SenseChat
5.5-latest商湯官方提供的小范圍內(nèi)測版本,使用方式為API25.GPT-4o-miniOpenAIOpenAI在2024年7月18日發(fā)布的gpt-4o-mini版本,使用官方API5.DeepSeek-V3深度求索深度求索在2024年12月26日發(fā)布的V3版本,使用官方的API:deepseek-chat26.kimiKimi官方網(wǎng)頁版產(chǎn)品【kimi】6.Gemini-2.0-Flash-ExpGoogle官方在2024年12月11日發(fā)布的Gemini
2.0Flash模型的實(shí)驗(yàn)版本。27.Llama-3.3-70B-InstructMetaMeta發(fā)布的Llama3.3版本70B開源模型,調(diào)用的together.ai的接口7.Claude3.5
Sonnet(20241022)AnthropicAntropic在2024年10月22日發(fā)布的版本,使用API:claude-3-5-sonnet-2024102228.TeleChat2-35BTeleAI官方開源的TeleChat2-35B-32K版本8.360zhinao2-o1360官方公開的推理模型,使用方式為API,原360gpt2-o1。29.Qwen2.5-7B-Instruct阿里巴巴Qwen2.5開源系列7B模型。使用阿里云公開API:qwen2.5-7b-instruct9.Doubao-pro-32k-241215字節(jié)跳動在2024年12月15日發(fā)布的版本,使用API:Doubao-pro-32k-24121530.QwQ-32B-Preview阿里巴巴專注于增強(qiáng)
AI
推理能力。使用阿里云公開API:qwq-32b-preview10.NebulaCoder-V5中興通訊官方提供的小范圍內(nèi)測版本,使用方式為API31.訊飛星火V4.0科大訊飛科大訊飛發(fā)布的API版本:Spark4.0
Ultra11.Qwen-max-latest阿里巴巴通義千問系列效果最好的模型,使用阿里云公開的API:qwen-max-latest32.GLM-4-9B-Chat智譜AI官方開源的GLM-4-9B-Chat版本12.Qwen2.5-72B-Instruct阿里巴巴Qwen2.5開源系列72B模型。使用阿里云公開的API:qwen2.5-72b-instruct33.Gemma-2-9b-itGoogle官方開源的gemma-2-9b-it版本13.Step-2-16k階躍星辰官方公開發(fā)布的API版本:step-2-16k34.Yi-1.5-34B-Chat-16K零一萬物官方開源的Yi-1.5-34B-Chat-16K版本14.GLM-4-Plus智譜AI智譜自研的GLM系列大模型最新版本,使用官方API:GLM-4-Plus35.360Zhinao2-7B-Chat-4K360官方開源的360Zhinao2-7B-Chat-4K版本15.Grok-2-1212X.AIX.AI在2024年12月12日推出的模型版本,使用官方API:grok-2-121236.Qwen2.5-3B-Instructt阿里巴巴Qwen2.5開源系列3B模型。使用阿里云公開的API:qwen2.5-3b-instruct16.DeepSeek-R1-Lite-Preview深度求索深度求索在2024年11月20日推出的推理模型
,使用方式為官網(wǎng)網(wǎng)頁37.Yi-1.5-9B-Chat-16K零一萬物官方開源的Yi-1.5-9B-Chat-16K版本17.Qwen2.5-32B-Instruct阿里巴巴Qwen2.5開源系列32B模型。使用阿里云公開的API:qwen2.5-32b-instruct38.MiniCPM3-4B面壁智能官方開源的MiniCPM3-4B版本18.Sky-Chat-3.0昆侖萬維昆侖萬維發(fā)布的千億級別
MOE(Mixtureof
Experts)模型,使用官方API39.Llama-3.1-8B-InstructMetaMeta發(fā)布的Llama3.1版本8B開源模型,調(diào)用的together.ai的接口19.DeepSeek-V2.5深度求索深度求索在2024年9月5日發(fā)布的DeepSeek-V2.5,使用官方API:deepseek-chat40.Phi-3.5-Mini-Instruct微軟官方開源的Phi-3.5-Mini-Instruct版本20.MiniMax-abab7-previewMiniMax官方提供的小范圍內(nèi)測版本,使用官方提供的API接口41.Gemma-2-2b-itGoogle官方開源的gemma-2-2b-it版本21.Hunyuan-Turbo騰訊官方在12月份對外試用的Hunyuan-Turbo預(yù)覽版,后續(xù)將逐步開放公開使用。42.Mistral-7B-Instruct-v0.3Mistral
AI官方開源的Mistral-7B-Instruct-v0.3版本第3部分22總體測評結(jié)果與分析SuperCLUE通用能力測評總分SuperCLUE模型象限(2024)歷月SuperCLUE大模型Top3一級維度表現(xiàn)二級細(xì)粒度分?jǐn)?shù)SuperCLUE-文科成績國內(nèi)大模型成熟度-SC成熟度指數(shù)評測與人類一致性驗(yàn)證九大任務(wù)年度Top5SuperCLUE大模型綜合效能區(qū)間分布SuperCLUE性價(jià)比區(qū)間分布SuperCLUE-Hard成績SuperCLUE-理科成績海外及其他對比模型國內(nèi)模型國內(nèi)外通用大模型SuperCLUE基準(zhǔn)榜單來源:
Super
CLUE,
2025
年1
月8
日;注:
由于部分模型分?jǐn)?shù)較為接近,
為了減少問題波動對排名的影響,
本次測評將相距1
分區(qū)間的模型定義為并列,
報(bào)告中分?jǐn)?shù)展示為并列中高分。海外模型僅對比參考不參與排名;
國內(nèi)部分廠商由于版本眾多,
本次測評僅選擇一部分代表性模型參與排名,
其余模型僅做參考,
不參與排名。Super
CLUE通用能力測評總分23基礎(chǔ)能
力應(yīng)用能力潛力探索者 技術(shù)領(lǐng)跑者實(shí)用主義者卓越領(lǐng)導(dǎo)者ChatGPT-4o-latest(OpenAI)來源:
Super
CLUE,
2025
年1
月8
日;注:
1
.
兩個(gè)維度的組成?;A(chǔ)能力包含:
計(jì)算、邏輯推理、深度推理、傳統(tǒng)安全、語言理解;
應(yīng)用能力包括:
生成創(chuàng)作、代碼、指令遵循、A
g
e
n
t
能力;
2
.
四個(gè)象限的含義。它們代表大模型所處的不同階段與定位,
其中【潛力探索者】代表模型正在探索階段未來擁有較大潛力;【技術(shù)領(lǐng)跑者】代表模型在基礎(chǔ)技術(shù)方面具備領(lǐng)先性;【實(shí)用主義者】代表模型在場景應(yīng)用深度上具備領(lǐng)先性;【卓越領(lǐng)導(dǎo)者】代表模型在基礎(chǔ)和場景應(yīng)用上處于領(lǐng)先位置,
引領(lǐng)國內(nèi)大模型發(fā)展。Super
CLUE模型象限(
2024)QwQ-32B-Preview(阿里)o1-preview(OpenAI)Claude3.5
Sonnet(20241022)Step-2-16k(階躍星辰)GLM-4-Plus(智譜)Hunyuan-Turbo(騰訊)360zhinao2-o1(360)Yi-1.5-9B-Chat-16K(零一萬物)Llama-3.1-8B-Instruct(Meta)o1(OpenAI)Gemini-2.0-Flash-Exp(Google)DeepSeek-V3(深度求索)Doubao-pro-32k-241215(字節(jié))Qwen-max-latest(阿里)SenseChat
5.5-latest(商湯)MiniMax-abab7-previewSky-Chat-3.0(昆侖萬維)TeleChat2-Large(TeleAI)Baichuan4(百川智能)DeepSeek-V2.5(深度求索)Qwen2.5-32b-Instruct(阿里)ERNIE-4.0-Turbo-8K-Latest(百度)MiniCPM3-4B(面壁智能)Phi-3.5-Mini-Instruct(微軟)Gemma-2-2b-it(Google)Mistral-7B-Instruct-v0.3360Zhinao2-7B-Chat-4K(360)Qwen2.5-3B-Instruct(阿里)Grok-2-1212(X.AI)NebulaCoder-V5(中興)GPT-4o-mini(OpenAI)Llama-3.3-70B-Instruct(Meta)Kimi(月之暗面)TeleChat2-35B(TeleAI)Qwen2.5-7B-Instruct(阿里)GLM-4-9B-Chat(智譜)訊飛星火V4.0(科大訊飛)Gemma-2-9b-it(Google)Yi-1.5-34B-Chat-16K(零一萬物)Qwen2.5-72B-Instruct(阿里)SuperCLUE模型象限(2024)242023-
2024年Super
CLUE基準(zhǔn)國內(nèi)外大模型Top3???月份國內(nèi)國內(nèi)國內(nèi)海外Top32024年12月DeepSeek-V3、SenseChat
5.5-latest、360gpt2-o1Doubao-pro-32k-241215、NebulaCoder-V5、Qwen-max-latestStep-2-16k、GLM-4-Pluso1、o1-preview、ChatGPT-4o-latest2024年10月GLM-4-Plus、SenseChat
5.5、AndesGPT-2.0、Qwen2.5-72B-Instruct(并列)Hunyuan-Turbo、360gpt2-pro、Step-2、DeepSeek-V2.5、Doubao-proBaichuan4、山海大模型4.0、TeleChat2-Largeo1-preview、Claude
3.5
Sonnet(20241022)、ChatGPT-4o-latest2024年8月Hunyuan-Turbo-PreviewAndesGPT-2.0、DeepSeek-V2-0628Qwen2-72B-Instruct、SenseChat5.5、Doubao_pro_previewChatGPT-4o-latest、GPT-4-Turbo-2024-04-09、Claude
3.5
Sonnet2024年6月Qwen2-72BGLM-4-0520、DeepSeek-V2、SenseChat5.0AndesGPTGPT-4o、Claude-3.5-Sonnet-200k、GPT-4-Turbo-04092024年4月Baichuan3GLM-4、通義千問2.1騰訊Hunyuan-pro、文心一言4.0GPT-4-Turbo-0125、GPT-4-Turbo-0409、GPT-4(官網(wǎng))2024年2月文心一言4.0GLM-4通義千問2.1GPT4-Turbo-0125、GPT4(網(wǎng)頁)、Claude22023年12月文心一言4.0通義千問2.0AndesGPTGPT4-Turbo、GPT4(網(wǎng)頁)、Claude22023年11月文心一言4.0MoonshotYi-34B-ChatGPT4-Turbo、GPT-4、Claude22023年10月BlueLMMoonshot文心一言4.0GPT4、Claude2、GPT3.52023年9月SenseChat3.0文心一言(網(wǎng)頁v2.3.1)ChatGLM2-ProGPT4、gpt-3.5-turbo、Claude22023年8月Baichuan2-13B-ChatMinimax-abab5文心一言(網(wǎng)頁v2.2.3)GPT4、gpt-3.5-turbo、Claude22023年7月文心一言(網(wǎng)頁v2.2.0)ChatGLM-130B訊飛星火V1.5GPT4、Claude2、gpt-3.5-turbo2023年6月360智腦文心一言訊飛星火GPT4、gpt-3.5-turbo、Claude2023年5月360智腦訊飛星火ChatGLM-130BGPT4、gpt-3.5-turbo、Claude25Super
CLUE通用能力測評:
一級維度表現(xiàn)Su
p
er
C
L
UE
-一級維度表現(xiàn)來源:SuperCLUE,
2025年1月8日。標(biāo)紅分?jǐn)?shù)為國內(nèi)前三名。在1
2
月S
u
p
e
r
C
L
U
E
測評中,
國內(nèi)外模型仍有一定差距。o1
取得8
0
.
4
分領(lǐng)跑全球,
o
1
-
p
r
e
v
i
e
w、Chat
GPT-
4
o-
latest緊隨其后有超出70
分的表現(xiàn)。國內(nèi)大模型D
e
e
p
S
e
e
k
-
V
3
、S
e
n
s
e
C
h
a
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 住宅裝修設(shè)計(jì)合同范例
- 專業(yè)分包施工合同范例
- 公務(wù)車服務(wù)合同范例
- 加盟中通合同范例
- PRDM1激活的PLXDC2通過JAK1-STAT3反饋調(diào)控肝細(xì)胞癌腫瘤相關(guān)巨噬細(xì)胞極化的研究
- 穿戴式心電信號智能分析方法研究
- 買抹賬房合同范例
- 儲物柜協(xié)議合同范例
- 釩鈦基MAX相的制備及其儲鋰性能研究
- 人員施工安全合同范例
- 古希臘文明-知到答案、智慧樹答案
- SYT 6968-2021 油氣輸送管道工程水平定向鉆穿越設(shè)計(jì)規(guī)范-PDF解密
- 2024年無錫商業(yè)職業(yè)技術(shù)學(xué)院單招職業(yè)技能測試題庫及答案解析
- 交通安全宣傳意義
- 40米落地式腳手架專項(xiàng)施工方案
- 虛擬現(xiàn)實(shí)環(huán)境中的自然交互技術(shù)與算法
- 質(zhì)量手冊和質(zhì)量管理手冊
- 志愿服務(wù)與志愿者精神知識考試題庫大全(含答案)
- 2024年北京電子科技職業(yè)學(xué)院高職單招(英語/數(shù)學(xué)/語文)筆試題庫含答案解析
- 運(yùn)維人員安全培訓(xùn)內(nèi)容記錄
- 獨(dú)股一箭2010年20w實(shí)盤
評論
0/150
提交評論