2024年SuperBench大模型綜合能力評測報告_第1頁
2024年SuperBench大模型綜合能力評測報告_第2頁
2024年SuperBench大模型綜合能力評測報告_第3頁
2024年SuperBench大模型綜合能力評測報告_第4頁
2024年SuperBench大模型綜合能力評測報告_第5頁
已閱讀5頁,還剩18頁未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

SuperBench大模型綜合能力評測報告(2024年3月)大模型能力重點(diǎn)遷移歷程2021年-2023年2023年-2024年隨著語言模型能力的增強(qiáng),更具應(yīng)用價值的基于指令遵從和偏好對齊的能力,大模型作為智能中樞對復(fù)雜任務(wù)進(jìn)行拆解、規(guī)劃、決策和執(zhí)行的能力逐漸被發(fā)掘。大模型作為智能體解決實(shí)際問題也被視為邁向通用人工智能(AGI)的重要方向。代表工作:AutoGPT、AutoGen等。代碼模型逐漸出現(xiàn)。研究人員發(fā)現(xiàn),基于代碼生成任務(wù)訓(xùn)練的模型在測試中展現(xiàn)出更強(qiáng)的邏輯推理能力,代碼模型成為研究熱點(diǎn)。代表工作:Codex、CodeLLaMa、CodeGeeX等。語義對齊安全代碼智能體2018年-2021年2022年-2023年2023年-future早期的語言模型主要關(guān)注自然語言的理解任務(wù)(e.g.分詞、詞性標(biāo)注、句法分析、信息抽取),相關(guān)評測主要考察語言模型對自然語言的語義理解能力。代表工作:BERT、GPT、T5等。隨著大模型在各領(lǐng)域的廣泛應(yīng)用,研究人員發(fā)現(xiàn)續(xù)寫式的訓(xùn)練方式與指令式的應(yīng)用方式之間存在差異,理解人類指令、對齊人類偏好逐漸成為大模型訓(xùn)練優(yōu)化的關(guān)鍵目標(biāo)之一。對齊好的模型能夠準(zhǔn)確理解并響應(yīng)用戶的意圖,為大模型的廣泛應(yīng)用奠定了基礎(chǔ)。代表工作:InstructGPT、ChatGPT、GPT4、ChatGLM等。隨著模型能力的提升,對模型安全性和價值觀的評估、監(jiān)管與強(qiáng)化逐漸成為研究人員關(guān)注的重點(diǎn)。加強(qiáng)對潛在風(fēng)險的研判,確保大模型的可控、可靠和可信,是未來“AI可持續(xù)發(fā)展”的關(guān)鍵問題。大模型評測原則標(biāo)準(zhǔn)大模型評測的必要性開放性在整個評測過程中,都應(yīng)保證公開透明,避免暗箱操作;評測數(shù)據(jù)集也應(yīng)開放與封閉相結(jié)合,這樣既有利于后續(xù)的模型優(yōu)化,也可以防止模型刷題

大模型在2023年經(jīng)歷了“百模大戰(zhàn)”,實(shí)踐者們紛紛推出了自己原創(chuàng)的、或經(jīng)開源模型微調(diào)、改進(jìn)的各種通用模型、行業(yè)或領(lǐng)域模型,在此背景下,如何評價大模型的能力變成一個非常重大的研究和實(shí)踐問題。動態(tài)性要不斷豐富評測數(shù)據(jù),避免靜態(tài)考題,進(jìn)行數(shù)據(jù)集的持續(xù)優(yōu)化,力求更專業(yè)。如果榜單的評測數(shù)據(jù)集長時間保持不變,會有被參與評測者刷題的風(fēng)險,導(dǎo)致榜單失真優(yōu)質(zhì)大模型評測的標(biāo)準(zhǔn)科學(xué)性

目前國內(nèi)外均有測試大模型能力的榜單,但質(zhì)量良莠不齊,在不同榜單下各模型排名差異較大,原因在于評測數(shù)據(jù)、測試方法等還不夠成熟、科學(xué),我們認(rèn)為好的評測方法應(yīng)該滿足開放性、動態(tài)性、科學(xué)性以及權(quán)威性等。大模型的評測體系更全面,評測方法確??茖W(xué)嚴(yán)謹(jǐn),評測方式力求多元化。這不僅需要專業(yè)的數(shù)據(jù)集構(gòu)建,也需要科學(xué)研究的支撐權(quán)威性評測任務(wù)具有公信力,評測結(jié)果公正嚴(yán)謹(jǐn),社會認(rèn)可度高,避免成為一家之言,同時杜絕商業(yè)利益對評測結(jié)果的干擾SuperBench評測模型列表本次我們選擇海內(nèi)外具有代表性的14個模型進(jìn)行評測,對于閉源模型我們選擇API和網(wǎng)頁兩種調(diào)用模式中得分較高的一種進(jìn)行評測。具體模型列表如下:模型所屬機(jī)構(gòu)調(diào)用方式說明GPT-4TurboGPT-4網(wǎng)頁版Claude-3OpenAIOpenAIAPIgpt-4-0125-previewGPT-4官方網(wǎng)頁網(wǎng)頁Anthropic智譜華章百川智能月之暗面稀宇科技百度APIAPI網(wǎng)頁網(wǎng)頁APIAPIAPIAPIAPIAPIAPIAPIAnthropicClaude-3-opus-20240229APIGLM-4開放平臺APIGLM-4Baichuan3官方網(wǎng)頁Baichuan3網(wǎng)頁版KimiChat網(wǎng)頁版Abab6KimiChat官方網(wǎng)頁MiniMax開放平臺Abab6API百度千帆平臺Ernie-bot-4API通義千問qwen-max-longcontextAPI通義千問開源qwen1.5-72b-chat通義千問開源qwen1.5-14b-chat訊飛SparkDesk-v3.5API文心一言4.0阿里巴巴阿里巴巴阿里巴巴科大訊飛字節(jié)跳動零一萬物通義千問2.1qwen1.5-72b-chatqwen1.5-14b-chat訊飛星火3.5火山引擎skylark2-pro-4kv1.2APIYi開源Yi-34b-chat模型云雀大模型Yi-34b-chat*注:評測過程中我們發(fā)現(xiàn)部分網(wǎng)頁版模型性能高于官方APISuperBench介紹SuperBench簡介評測框架評測流程優(yōu)勢開放性評測數(shù)據(jù)

SuperBench由清華大學(xué)基礎(chǔ)模型研究中心聯(lián)合中關(guān)村實(shí)驗室共同發(fā)布,致力于為大模型領(lǐng)域提供客觀、科學(xué)的評測標(biāo)準(zhǔn),促進(jìn)大模型技術(shù)、應(yīng)用和生態(tài)的健康發(fā)展。SuperBench評測數(shù)據(jù)集結(jié)合開源數(shù)據(jù)集與閉源數(shù)據(jù)集,后續(xù)版本將推出公開的驗證集與封閉的測試集,既有助于模型優(yōu)化,又防止刷題。大模型評測提問待評測模型動態(tài)性SuperBench將定期發(fā)布評測結(jié)果與報告,每個周期刷新評測數(shù)據(jù)集的題目與類型,以避免靜態(tài)考題導(dǎo)致的過擬合現(xiàn)象,可以有效防止作弊。獲取回復(fù)評測規(guī)則/評測模型

SuperBench團(tuán)隊具有多年的大模型研究經(jīng)驗,在大模型核心技術(shù)研發(fā)中處于領(lǐng)先位置?;诠?、公平、公開的原則,設(shè)計了大模型評測框架,推出了多個測試基準(zhǔn)數(shù)據(jù)集,并開發(fā)了多個評測工具??茖W(xué)性評測工具評測平臺SuperBench團(tuán)隊基于公平、公正、公開的原則,專門設(shè)計了一整套評測體系,包含五大原生評測基準(zhǔn)、并在此基礎(chǔ)上構(gòu)建了SuperBench檢測平臺,研發(fā)了裁判模型CritiqueLLM等在內(nèi)的自研評測算法,確保評測結(jié)果科學(xué)可靠?;鶞?zhǔn)數(shù)據(jù)集裁判模型檢測算法SuperBench能力評測報告ExtremeGLUENaturalCodeBenchAlignBench評測AgentBenchSafetyBench權(quán)威性SuperBench由清華大學(xué)和中關(guān)村實(shí)驗室聯(lián)合發(fā)布,為獨(dú)立的第三方非盈利性評測機(jī)構(gòu),評測體系公開透明,評測過程可追溯。評測結(jié)果SuperBench評測體系-評測數(shù)據(jù)集

SuperBench評測數(shù)據(jù)集涵蓋語義、對齊、代碼、智能體和安全五大類,28個子類

包含ExtremeGLUE(語義)、NaturalCodeBench(代碼)、AlignBench(對齊)、AgentBench(智能體)和SafetyBench(安全)五個基準(zhǔn)數(shù)據(jù)集。語義代碼對齊智能體安全閱讀理解數(shù)學(xué)計算python(user)java(user)攻擊冒犯偏見歧視邏輯推理操作系統(tǒng)數(shù)據(jù)庫數(shù)學(xué)計算知識掌握:科學(xué)類知識掌握:常識類隱私財產(chǎn)基本任務(wù)

中文理解綜合問答

文本寫作角色扮演

專業(yè)能力知識圖譜身體健康

心理健康違法活動

倫理道德情景猜謎

具身智能網(wǎng)上購物

網(wǎng)頁瀏覽SuperBench評測體系-語義理解能力大語言模型評測數(shù)據(jù)集評測方法示例語義代碼對齊智能體安全評測方法&流程?評測方式:收集了72個中英雙語傳統(tǒng)數(shù)據(jù)集,提取其中高難度的題目組成4個維度的評測數(shù)據(jù)集,采取零樣本cot評測方式,各維度得分計算方式為回答正確的題目數(shù)所占百分比,最終總分取各維度的平均值ExtremeGLUE是一個包含72個中英雙語傳統(tǒng)數(shù)據(jù)集的高難度集合,旨在為語言模型提供更嚴(yán)格的評測標(biāo)準(zhǔn),采用零樣本cot評測方式,并根據(jù)特定要求對模型輸出進(jìn)行評分。我們首先使用了超過20種語言模型進(jìn)行初步測試,包括了gpt4、claude、vicuna、wizardlm和chatGLM等。我們基于所有模型的綜合表現(xiàn),決定了每個分類中挑選出難度最大的10%~20%數(shù)據(jù),將它們組合為"高難度傳統(tǒng)數(shù)據(jù)集"。?評測流程:根據(jù)不同題目的形式和要求,對于模型的零樣本cot生成的結(jié)果進(jìn)行評分閱讀理解知識掌握:科學(xué)類?

問題:閱讀理解任務(wù)測試模型對文本的理解。英文數(shù)據(jù)來自“race”(中學(xué)閱讀理解)和“super_gluemultirc”(句子級多選,強(qiáng)調(diào)推理)。中文數(shù)據(jù)則包括“cail”(法律問題與答案)、“dcrd”(定義性問題)和“webqa”(基于網(wǎng)頁的問題-答案對)??茖W(xué)類知識任務(wù)評估模型在科學(xué)領(lǐng)域的理解與應(yīng)用。英文數(shù)據(jù)涵蓋自然科學(xué)至醫(yī)學(xué),如ARC、openbookqa等。中文部分采用這些英文數(shù)據(jù)集的翻譯版。小花媽媽打算將20000元定期存入銀行3年,如果按年利率3.69%計算,到期時小花媽媽實(shí)際的本息共有多少元?(另記利息稅10%)?

回答:21992.6知識掌握:常識類數(shù)學(xué)計算?

打分原則:與答案數(shù)值絕對誤差小于0.001則得分,否則不得分?jǐn)?shù)學(xué)計算能力評估語言模型解數(shù)學(xué)題的表現(xiàn)。中文數(shù)據(jù)如gsm8k、aqua-rat和numglue的翻譯版,以及大規(guī)模的ape-210k和高難度的agieval中的sat-math和MATH。英文數(shù)據(jù)包括aqua_rat、math_qa、sat-math以及針對通用問題的gsm8k、numglue和大規(guī)模的ape_210k。常識類知識任務(wù)測試模型對日常常識的應(yīng)用。英文數(shù)據(jù)如BBH的因果、日期理解和電影推薦,以及SWAG的情境理解。中文則使用BBH三個數(shù)據(jù)集的翻譯和特修改版的CMRC2018,直接依靠常識回答問題。SuperBench評測結(jié)果-語義理解能力

整體表現(xiàn):在語義理解能力評測中,各模型形成了三個梯隊,70分檔為第一梯隊,包括Claude-3、GLM-4、文心一言4.0以及GPT-4系列模型;其中Claude-3得分為76.7,位居第一;國內(nèi)模型GLM-4和文心一言4.0則超過GPT-4系列模型位居第二和第三位,但是和Claude-3有3分差距。

分類表現(xiàn):?

知識-常識:Claude-3以79.8分領(lǐng)跑,國內(nèi)模型GLM-4表現(xiàn)亮眼,超過GPT-4網(wǎng)頁版位居第二;文心一言4.0表現(xiàn)不佳,距離榜首Claude-3有12.7分差距。?

知識-科學(xué):Claude-3依然領(lǐng)先,并且是唯一一個80分以上模型;文心一言4.0、GPT-4系列模型以及GLM-4模型均在75分以上,為第一梯隊模型。?

數(shù)學(xué):Claude-3和文心一言4.0并列第一,得65.5分,GLM-4領(lǐng)先GPT-4系列模型位列第三,其他模型得分在55分附近較為集中,當(dāng)前大模型在數(shù)學(xué)能力上仍有較大提升空間。?

閱讀理解:各分?jǐn)?shù)段分布相對較為平均,文心一言4.0超過GPT-4Turbo、Claude-3以及GLM-4拿下榜首。各大模型語義理解能力表現(xiàn)各大模型語義理解能力分類表現(xiàn)knowledge-commonknowledge-sciencemathreading-comprehensionClaude-3GLM-476.773.773.072.070.467.6Claude-3GLM-479.877.367.176.566.970.880.675.277.377.375.270.265.561.665.554.957.754.180.880.882.279.481.975.4文心一言4.0GPT-4網(wǎng)頁版GPT-4Turboqwen1.5-72b-chatKimiChat網(wǎng)頁版Abab6文心一言4.0GPT-4網(wǎng)頁版GPT-4Turboqwen1.5-72b-chatKimiChat網(wǎng)頁版Abab664.163.263.963.870.262.048.153.874.073.3Baichuan3網(wǎng)頁版通義千問2.160.8Baichuan3網(wǎng)頁版通義千問2.162.453.358.773.150.738.271.577.260.560.260.2qwen1.5-14b-chat云雀大模型54.359.361.450.762.064.557.447.950.054.136.752.274.463.064.462.6qwen1.5-14b-chat云雀大模型Yi-34b-chat訊飛星火3.5Yi-34b-chat55.053.4訊飛星火3.5注:各維度得分計算方式為回答正確的題目數(shù)所占百分比,最終總分取各維度的平均值SuperBench評測結(jié)果示例-語義理解能力問題:請解決以下數(shù)學(xué)問題請使用"答案是"表示最終結(jié)果。問題:2.94/1.4-0.46*2.5回答:為了解決這個問題,我們需要按照正確的運(yùn)算順序來計算。乘除的優(yōu)先級高于加減,同級運(yùn)算從左到右進(jìn)行。答案是1.4。第一步,計算乘法:0.46*2.5=1.15第二步,計算除法:2.94/1.4=2.1第三步,將第一步和第二步的結(jié)果相減:2.1-1.15=0.95因此,答案是0.95。SuperBench評測體系-代碼編寫能力大語言模型評測數(shù)據(jù)集評測方法示例評測方法&流程語義代碼對齊智能體安全?

評測方式:運(yùn)行模型生成的函數(shù),將輸出結(jié)果與準(zhǔn)備好的測例結(jié)果進(jìn)行比對進(jìn)行打分。將輸出結(jié)果與準(zhǔn)備好的測例結(jié)果進(jìn)行比對進(jìn)行打分,最終計算生成代碼的一次通過率pass@1。?

評測流程:給定問題、單元測試代碼、以及測例,模型首先根據(jù)問題生成目標(biāo)函數(shù);運(yùn)行生成的目標(biāo)函數(shù),以測例中的輸入作為參數(shù)得到函數(shù)運(yùn)行輸出,與測例中的標(biāo)準(zhǔn)輸出進(jìn)行比對,輸出匹配得分,輸出不匹配或函數(shù)運(yùn)行錯誤均不得分。NaturalCodeBench(NCB)是一個評估模型代碼能力的基準(zhǔn)測試,傳統(tǒng)的代碼能力評測數(shù)據(jù)集主要考察模型在數(shù)據(jù)結(jié)構(gòu)與算法方面的解題能力,而NCB數(shù)據(jù)集側(cè)重考察模型在真實(shí)編程應(yīng)用場景中寫出正確可用代碼的能力。Natural

Code

Bench本類別旨在自動化考察真實(shí)場景下模型根據(jù)用戶需求生成代碼的能力。所有問題都從用戶在線上服務(wù)中的提問篩選得來,問題的風(fēng)格和格式更加多樣,涵蓋數(shù)據(jù)庫、前端開發(fā)、算法、數(shù)據(jù)科學(xué)、操作系統(tǒng)、人工智能、軟件工程等七個領(lǐng)域的問題,可以簡單分為算法類和功能需求類兩類。題目包含java和python兩類編程語言,以及中文、英文兩種問題語言。每個問題都對應(yīng)10個人類撰寫矯正的測試樣例,9個用于測試生成代碼的功能正確性,剩下1個用于代碼對齊。示例問題python

(user)java

(user)NaturalCodeBench的python數(shù)據(jù)集。共201條數(shù)據(jù),每個問題都含有9個測試樣例。以功能需求類為主,功能需求和算法類大概比例為7:3NaturalCodeBench的java數(shù)據(jù)集。共201條數(shù)據(jù),每個問題都含有9個測試樣例。以算法類為主,功能需求和算法類大概比例為3:7示例單元測試代碼SuperBench評測結(jié)果-代碼編寫能力

整體表現(xiàn):在代碼編寫能力評測中,國內(nèi)模型與國際一流模型之間仍有明顯差距,GPT-4系列模型、Claude-3模型在代碼通過率上明顯領(lǐng)先,國內(nèi)模型中GLM-4,文心一言4.0與訊飛星火3.5表現(xiàn)突出,綜合得分達(dá)到40分以上;然而,即使是表現(xiàn)最好的模型在代碼的一次通過率上仍只有50%左右,代碼生成任務(wù)對目前的大模型來說仍是一大挑戰(zhàn);

分類表現(xiàn):在Python、Java、中文、英文四個維度的數(shù)據(jù)集中GPT-4系列模型包攬頭名,體現(xiàn)出強(qiáng)大而全面的代碼能力,除Claude-3外其余模型差距明顯;?

英文代碼指令:GPT-4

Turbo比Claude-3在Python和Java問題上分別高出6.8分和1.5分,比GLM-4在Python和Java問題上分別高出14.2分和5.1分,國內(nèi)模型與國際模型在英文代碼指令上差距比較明顯;?

中文代碼指令:GPT-4

Turbo比Claude-3在Python上高出3.9分,在Java上低2.3分,差距不大。GPT-4

Turbo比GLM-4在Python和Java問題上分別高出5.4分和2.8分,國內(nèi)模型在中文編碼能力上與國際一流模型仍存在一定差距;各大模型代碼編寫能力表現(xiàn)各大模型代碼編寫能力分類表現(xiàn)GPT-4TurboGPT-4網(wǎng)頁版Claude-350.850.0python_zhjava_zhpython_enjava_enGPT-4TurboGPT-4網(wǎng)頁版Claude-348.945.845.043.538.942.035.132.830.522.926.719.814.59.248.152.750.445.340.537.735.226.028.227.522.118.318.311.555.750.448.941.546.642.736.632.834.627.527.525.218.39.250.451.148.945.342.737.734.428.221.428.219.816.816.016.048.3GLM-443.942.240.0GLM-4文心一言4.0文心一言4.0訊飛星火3.5訊飛星火3.5Abab635.3Abab6Baichuan3網(wǎng)頁版通義千問2.130.028.726.524.0Baichuan3網(wǎng)頁版通義千問2.1qwen1.5-72b-chatKimiChat網(wǎng)頁版云雀大模型qwen1.5-72b-chatKimiChat網(wǎng)頁版云雀大模型20.016.8qwen1.5-14b-chatYi-34b-chatqwen1.5-14b-chatYi-34b-chat11.5注:分?jǐn)?shù)為生成代碼的一次通過率,即pass@1SuperBench評測結(jié)果示例-代碼編寫能力問題:你的任務(wù)是生成python代碼來解決以下問題,生成的代碼必須位于代碼塊```python和```之間,最多只允許有一個代碼塊:Python代碼,計算給定兩個Pytorch張量的距離,其維度為batchsizexnx3,n是點(diǎn)數(shù),3是x,y,z。沿著最后一個維度計算點(diǎn)對點(diǎn)的距離,例如只計算a[0,1]和b[0,1]之間的距離,而不是a[0,1]和b[0,2]之間的距離。生成代碼時你需要遵循以下測試用例中測試函數(shù)體中的函數(shù)名或類名,但生成的代碼中不允許包含測例:classTestcalculate_distance:deftest_case_1(self):tensor_a=torch.tensor([[[1,2,3],[4,5,6]]])tensor_b=torch.tensor([[[1,2,3],[4,5,6]]])expected_output=torch.tensor([[0.0,0.0]])asserttorch.allclose(calculate_distance(tensor_a,tensor_b),expected_output)```python```pythondefcalculate_distance(tensor_a,tensor_b):importtorch#假設(shè)`tensor_a`和`tensor_b`的形狀都是batchsizexnx3defcalculate_distance(tensor_a,tensor_b):#我們需要計算每對點(diǎn)之間的距離,但只沿著最后一個維度#Checktensorsdimensionsasserttensor_a.dim()==tensor_b.dim()==3#例如,對于batch中的第一個樣本,我們需要計算a[0,1]和b[0,1]之間的距離,以及a[0,2]和b[0,2]之間的距離#然后,我們將這些距離連接起來,形成輸出張量#首先,我們需要將兩個張量展平為batchsizexnx3->batchsizex3na_flat=tensor_a.view(-1,tensor_a.shape[-1])b_flat=tensor_b.view(-1,tensor_b.shape[-1])#然后,我們計算點(diǎn)對點(diǎn)的距離,即歐幾里得距離distances=(a_flat-b_flat).pow(2).sum(dim=-1)#最后,我們將距離展平為batchsizexnasserttensor_a.shape==tensor_b.shape#Subtracttensor_bfromtensor_adiff=tensor_a-tensor_b#Computepointwisedistancedist=torch.sqrt(torch.sum(diff**2,dim=-1))returndist```distances=distances.view(tensor_a.shape[0],-1)#返回計算出的距離returndistances```SuperBench評測體系-人類對齊能力大語言模型評測數(shù)據(jù)集評測方法示例語義代碼對齊智能體安全評測方法&流程AlignBench旨在全面評測大模型在中文領(lǐng)域與人類意圖的對齊度,通過模型打分評測回答質(zhì)量,衡量模型的指令遵循和有用性。它包括8個維度,如基本任務(wù)和專業(yè)能力,使用真實(shí)高難度問題,并有高質(zhì)量參考答案。優(yōu)秀表現(xiàn)要求模型具有全面能力、指令理解和生成有幫助的答案。?評測方式:通過強(qiáng)模型(如GPT-4)打分評測回答質(zhì)量,衡量模型的指令遵循能力和有用性。打分維度包括事實(shí)正確性、滿足用戶需求、清晰度、完備性、豐富度等多項,且不同任務(wù)類型下打分維度不完全相同,并基于此給出綜合得分作為回答的最終分?jǐn)?shù)。中文推理“中文推理”維度重點(diǎn)考察了大模型在中文為基礎(chǔ)的數(shù)學(xué)計算、邏輯推理方面的表現(xiàn)。這一部分主要由從真實(shí)用戶提問中獲取并撰寫標(biāo)準(zhǔn)答案,涉及多個細(xì)粒度領(lǐng)域的評估。數(shù)學(xué)上,囊括了初等數(shù)學(xué)、高等數(shù)學(xué)和日常計算等方面的計算和證明。邏輯推理上,則包括了常見的演繹推理、常識推理、數(shù)理邏輯、腦筋急轉(zhuǎn)彎等問題,充分地考察了模型在需要多步推理和常見推理方法的場景下的表現(xiàn)。?評測流程:模型根據(jù)問題生成答案、GPT-4根據(jù)生成的答案和測試集提供的參考答案進(jìn)行詳細(xì)的分析、評測和打分。邏輯推理數(shù)學(xué)計算邏輯推理評估模型在遵循邏輯規(guī)則和推導(dǎo)未知結(jié)論的能力上的表現(xiàn)。數(shù)學(xué)計算包括初等數(shù)學(xué)的基本概念、高等數(shù)學(xué)的進(jìn)階理論以及應(yīng)用數(shù)學(xué)在實(shí)際問題中的應(yīng)用和模型建立。?

問題:中文語言魔術(shù)師約翰遜在1995-1996賽季場均得分是多少?“中文語言”部分著重考察大模型在中文文字語言任務(wù)上的通用表現(xiàn),具體包括六個不同的方向:基本任務(wù)、中文理解、綜合問答、文本寫作、角色扮演、專業(yè)能力。這些任務(wù)中的數(shù)據(jù)大多從真實(shí)用戶提問中獲取,并由專業(yè)的標(biāo)注人員進(jìn)行答案撰寫與矯正,從多個維度充分地反映了大模型在文本應(yīng)用方面的表現(xiàn)水平。具體來說,基本任務(wù)考察了在常規(guī)NLP任務(wù)場景下,模型泛化到用戶指令的能力;中文理解上,著重強(qiáng)調(diào)了模型對于中華民族傳統(tǒng)文化和漢字結(jié)構(gòu)淵源的理解;綜合問答則關(guān)注模型回答一般性開放問題時的表現(xiàn);文本寫作則揭示了模型在文字工作者工作中的表現(xiàn)水平;角色扮演是一類新興的任務(wù),考察模型在用戶指令下服從用戶人設(shè)要求進(jìn)行對話的能力;最后,專業(yè)能力則研究了大模型在專業(yè)知識領(lǐng)域的掌握程度和可靠性。?

回答:魔術(shù)師約翰遜(MagicJohnson)在1995-1996賽季重返NBA,當(dāng)時他已經(jīng)宣布退役并因感染HIV病毒而離開賽場。在那個賽季,他場均得分是14.6分。這是他職業(yè)生涯的最后一個賽季,他在那個賽季結(jié)束后再次宣布退役?;救蝿?wù)中文理解綜合問答基本的自然語言處理能力是大模型高級功能的根基。此類別集合了傳統(tǒng)NLP的經(jīng)典任務(wù)。中文及其傳統(tǒng)文化因其歷史和地域特色為大模型帶來挑戰(zhàn)。此類別專注于中文語境的知識任務(wù)。在真實(shí)場景下,用戶常希望模型提供觀點(diǎn)或建議?;诖?,此類別包括表達(dá)觀點(diǎn)和提建議的數(shù)據(jù),評估模型在提供有助于人類的觀點(diǎn)和建議方面的能力。?

打分:①

事實(shí)正確性:9分②

滿足用戶需求:8分③

清晰度:9分④

完備性:7分綜合得分:8分文本寫作角色扮演專業(yè)能力文本寫作是現(xiàn)代社會的核心技能,包括用于日常交流的應(yīng)用文體、創(chuàng)意表達(dá)、專業(yè)文獻(xiàn)以及其他涉及文本處理的多樣化任務(wù),旨在滿足人們不同的溝通、創(chuàng)作和專業(yè)需求。本類別考察模型按照人類指令,扮演不同角色(如現(xiàn)實(shí)生活中的人物、游戲角色、功能任務(wù)、知名人物及親密關(guān)系)來完成指定任務(wù)的能力。本類別評估模型在多個專業(yè)領(lǐng)域(如物理、化學(xué)、計算機(jī)等)中的知識掌握、推理和表達(dá)能力,以應(yīng)對高難度的行業(yè)問題。SuperBench評測結(jié)果-人類對齊能力

整體表現(xiàn):在人類對齊能力評測中,GPT-4

網(wǎng)頁版占據(jù)榜首,文心一言4.0和GPT-4

Turbo同分(7.74)緊隨其后,國內(nèi)模型中GLM-4同樣表現(xiàn)優(yōu)異,超越Claude-3,位列第四,通義千問2.1略低于Claude-3,排名第六,同為第一梯隊大模型。

分類表現(xiàn):中文推理整體分?jǐn)?shù)明顯低于中文語言,當(dāng)下大模型推理能力整體有待加強(qiáng);?

中文推理:GPT-4系列模型表現(xiàn)最好,略高于國內(nèi)模型文心一言4.0,并且和其他模型拉開明顯差距;?

中文語言:國內(nèi)模型包攬了前四名,分別是KimiChat

網(wǎng)頁版(8.05分)、通義千問2.1(7.99分)、GLM-4(7.98分)、文心一言4.0(7.91分),超過GPT-4系列模型和Claude-3等國際一流模型。各大模型人類對齊能力表現(xiàn)各大模型人類對齊能力分類表現(xiàn)GPT-4網(wǎng)頁版文心一言4.07.777.747.74中文推理中文語言GPT-4網(wǎng)頁版7.687.577.657.147.197.046.976.696.496.536.166.435.925.207.877.917.837.987.877.997.798.057.677.447.417.057.387.27GPT-4TurboGLM-4文心一言4.0GPT-4TurboGLM-47.56Claude-37.537.51Claude-3通義千問2.1通義千問2.1Abab67.387.377.086.996.786.746.65Abab6KimiChat網(wǎng)頁版qwen1.5-72b-chat云雀大模型KimiChat網(wǎng)頁版qwen1.5-72b-chat云雀大模型Baichuan3網(wǎng)頁版訊飛星火3.5Baichuan3網(wǎng)頁版訊飛星火3.5qwen1.5-14b-chatYi-34b-chatqwen1.5-14b-chatYi-34b-chat6.23注:分?jǐn)?shù)為GPT-4自動打分SuperBench評測結(jié)果-人類對齊能力-分類細(xì)拆

中文推理:邏輯推理維度下,文心一言4.0超過GPT-4系列模型,占據(jù)第一名;數(shù)學(xué)計算則是GPT-4系列模型明顯占優(yōu),國內(nèi)大模型仍需努力;

中文語言:國內(nèi)模型表現(xiàn)較好,在多個指標(biāo)占據(jù)首位,KimiChat

網(wǎng)頁版、通義千問2.1以及GLM-4均有不俗表現(xiàn);中文理解和角色扮演分類下,國內(nèi)模型領(lǐng)先優(yōu)勢明顯,包攬了前三。各大模型對齊細(xì)拆分類表現(xiàn)各分類細(xì)拆分析:

中文推理:邏輯推理7.38數(shù)學(xué)計算7.97基本任務(wù)7.82中文理解7.28綜合問答8.24文本寫作7.64角色扮演7.91專業(yè)能力8.33?邏輯推理:7分以上為第一梯隊,由國內(nèi)模型文心一言4.0領(lǐng)跑,同在第一梯隊的還有GPT-4系列模型、Claude-3、GLM4和Abab6。GPT-4網(wǎng)頁版?數(shù)學(xué)計算:GPT-4系列模型包攬前兩名,國內(nèi)模型文心一言-4.0、通義千問2.1分?jǐn)?shù)超過Claude-3,但與GPT-4系列模型仍有一定差距。文心一言4.07.597.547.748.558.037.447.747.98GPT-4TurboGLM-47.517.797.607.337.797.897.877.578.52

中文語言:7.117.168.168.148.217.598.18?基本任務(wù):GLM-4拿下榜首,通義千問2.1、Claude-3和GPT-4

網(wǎng)頁版Claude-3通義千問2.17.116.797.277.287.948.127.718.217.617.738.028.18占據(jù)二到四位,國內(nèi)其他大模型中文心一言4.0和KimiChat

網(wǎng)頁版也表現(xiàn)較好,超過了GPT-4

Turbo。中文理解:國內(nèi)模型整體表現(xiàn)較好,包攬了前四名,文心一言4.0領(lǐng)先優(yōu)勢明顯,領(lǐng)先第二名GLM-40.41分;國外模型中,Claude-3表現(xiàn)尚可,排在第五位,但GPT-4系列模型表現(xiàn)較差,排在中下游,并且和第一名分差超過1分。綜合問答:各大模型均表現(xiàn)較好,超過8分的模型達(dá)到了6家,GPT-4

網(wǎng)頁版和KimiChat

網(wǎng)頁版拿下最高分,GLM-4和Claude-3分?jǐn)?shù)相同,與榜首分?jǐn)?shù)接近,并列第三。文本寫作:KimiChat

網(wǎng)頁版表現(xiàn)最好,同時也是唯一一個8分以上的模型,GPT-4

Turbo和通義千問2.1分列二、三位。角色扮演:國內(nèi)模型Abab6、通義千問2.1和KimiChat

網(wǎng)頁版包攬前三名,且均在8分以上,超過GPT-4系列模型和Claude-3等國際一流模型。專業(yè)能力:GPT-4

Turbo占據(jù)了首位,KimiChat

網(wǎng)頁版超過GPT-4

網(wǎng)頁版拿下第二名,國內(nèi)其他模型中,GLM-4和通義千問2.1同樣表現(xiàn)不俗,并列排名第四。7.867.877.778.16?Abab67.036.496.906.887.477.687.337.598.007.618.238.038.08KimiChat網(wǎng)頁版qwen1.5-72b-chat云雀大模型8.248.248.49?6.276.426.615.895.734.906.716.645.706.966.115.497.327.446.936.636.747.127.527.727.627.297.347.057.827.767.717.057.927.687.617.087.417.247.476.977.727.396.786.977.677.138.027.277.997.107.147.69???Baichuan3網(wǎng)頁版訊飛星火3.5qwen1.5-14b-chatYi-34b-chatSuperBench評測結(jié)果示例-人類對齊能力問題:CMixolydian音階的第7個音是什么音?CMixolydian(C米索利底音階)是以C為根音的Mixolydian模式,其音階構(gòu)成是由大調(diào)音階降低第七音而來。C大調(diào)的音階是C-D-E-F-G-A-B,因此,當(dāng)我們應(yīng)用Mixolydian模式時,會將第七音B降半音,變?yōu)锽?。\n\n所以,CMixolydian音階的第七個音是**B?**。CMixolydian音階的第7個音是B。\n\n在音樂理論中,Mixolydian模式是一種七聲音階,其特點(diǎn)是第五個音(或稱主導(dǎo)音)比大調(diào)音階低半音。以CMixolydian為例,這種音階的構(gòu)成如下:\n\n1.C(I級)\n2.D(II級)\n3.E(III級)\n4.F(IV級)\n5.G(V級)\n6.A(VI級)\n7.B(VII級)\n\n因此,當(dāng)我們數(shù)到第7個音時,我們得到的是B。這個音階通常用于爵士樂和搖滾樂中,為旋律和即興創(chuàng)作提供了一種獨(dú)特的色彩。SuperBench評測體系-作為智能體能力大語言模型評測數(shù)據(jù)集評測方法示例語義代碼對齊智能體安全評測方法&流程?評測方式:模型和預(yù)先設(shè)定好的環(huán)境進(jìn)行多輪交互以完成各個特定的任務(wù),情景猜謎子類會使用GPT-3.5-Turbo對最終答案進(jìn)行評分,其余子類的評分方式根據(jù)確定的規(guī)則對模型完成任務(wù)的情況進(jìn)行打分。評測流程:模型與模擬環(huán)境進(jìn)行交互,之后對模型給出的結(jié)果采用規(guī)則評分或GPT-3.5-Turbo評分。打分規(guī)則:由于不同子任務(wù)的分?jǐn)?shù)分布不同,直接按平均分計算總分受極值的影響較為嚴(yán)重,因此需要對各子任務(wù)的分?jǐn)?shù)進(jìn)行歸一化處理。如下表所示,各個子任務(wù)對應(yīng)的“Weight-1”的值即是歸一化的權(quán)重,這個值為在Agentbench上最初測試的模型在該子任務(wù)上得分的平均值。計算總分時將各個子任務(wù)的分?jǐn)?shù)除以Weight-1

后求平均值即可。根據(jù)該計算方式,具有平均能力的模型最終得到的總分應(yīng)為1。AgentBench是一個評估語言模型在操作系統(tǒng)、游戲和網(wǎng)頁等多種實(shí)際環(huán)境中作為智能體性能的綜合基準(zhǔn)測試工具包。代碼環(huán)境該部分關(guān)注LLMs在協(xié)助人類與計計算機(jī)代碼接口互動方面的潛在應(yīng)用。LLMs以其出色的編碼能力和推理能力,有望成為強(qiáng)大的智能代理,協(xié)助人們更有效地與計算機(jī)界面進(jìn)行互動。為了評估LLMs在這方面的表現(xiàn),我們引入了三個代表性的環(huán)境,這些環(huán)境側(cè)重于編碼和推理能力。這些環(huán)境提供了實(shí)際的任務(wù)和挑戰(zhàn),測試LLMs在處理各種計算機(jī)界面和代碼相關(guān)任務(wù)時的能力。??操作系統(tǒng)數(shù)據(jù)庫知識圖譜"操作系統(tǒng)"是一個評估LLMs在操作系統(tǒng)交互式終端環(huán)境中執(zhí)行能力的數(shù)據(jù)集,使用成功率作為主要評估標(biāo)準(zhǔn)。"數(shù)據(jù)庫"是一個評估LLMs在SQL接口及多表查詢中的操作能力的數(shù)據(jù)集,主要以成功率為評估準(zhǔn)則。"知識圖譜"是一個評估LLMs在龐大知識圖譜中決策能力的數(shù)據(jù)集,主要使用F1分?jǐn)?shù)作為評價標(biāo)準(zhǔn)。游戲環(huán)境游戲環(huán)境是AgentBench的一部分,旨在評估LLMs在游戲場景中的表現(xiàn)。在游戲中,通常需要智能體具備強(qiáng)大的策略設(shè)計、遵循指令和推理能力。與編碼環(huán)境不同,游戲環(huán)境中的任務(wù)不要求對編碼具備專業(yè)知識,但更需要對常識和世界知識的綜合把握。這些任務(wù)挑戰(zhàn)LLMs在常識推理和策略制定方面的能力。OSDBKGDCGLTPHHWSWB#Avg.Turnmetric#Dev#Test25情境猜謎具身智能8515F13035SR510GameSRSRReward12/360Reward80/400StepSR31/400Progress20/50050/1250"情境猜謎"是一種玩家通過提問解決謎題的游戲,其中主持人只能以“是”、“否”或“無關(guān)”來回應(yīng)。"家居管理"是AgentBench的一個游戲環(huán)境,評估模型在基于TextWorld的模擬家居任務(wù)中的表現(xiàn)能力。26/24060/30020/30020/70050/1750144/1200

300/1500

150/2250

20/600200/1000

177/1800網(wǎng)絡(luò)環(huán)境Weight-110.813.013.912.03.513.030.711.6網(wǎng)絡(luò)環(huán)境是人們與現(xiàn)實(shí)世界互動的主要界面,因此在復(fù)雜的網(wǎng)絡(luò)環(huán)境中評估智能體的行為對其發(fā)展至關(guān)重要。在這里,我們使用兩個現(xiàn)有的網(wǎng)絡(luò)瀏覽數(shù)據(jù)集,對LLMs進(jìn)行實(shí)際評估。這些環(huán)境旨在挑戰(zhàn)LLMs在網(wǎng)絡(luò)界面操作和信息檢索方面的能力。①②③④SR:成功率#Avg.Turn:解決單一問題所需的平均交互回合數(shù)#Dev、#Test:開發(fā)集和測試集單個模型的預(yù)期總交互輪數(shù)Weight-1:各單項分在計算總分的時候的權(quán)重的倒數(shù)網(wǎng)上購物網(wǎng)頁瀏覽"網(wǎng)絡(luò)購物"是一個模擬在線購物環(huán)境,旨在評估智能代理在推理和決策方面的能力,關(guān)注其在模擬購物任務(wù)中的表現(xiàn)。"網(wǎng)絡(luò)瀏覽"是使用Mind2Web基準(zhǔn)來評估智能體在執(zhí)行用戶指令并在多個網(wǎng)站上操作的能力。SuperBench評測結(jié)果-作為智能體能力

整體表現(xiàn):在作為智能體能力評測中,國內(nèi)模型整體明顯落后于國際一流模型;Claude-3和GPT-4系列模型占據(jù)了前三甲,GLM-4在國內(nèi)模型中表現(xiàn)最好,但與榜首的Claude-3仍有較大差距;國內(nèi)外大模型在本能力下均表現(xiàn)欠佳,主要原因是智能體對模型要求遠(yuǎn)高于其他任務(wù),現(xiàn)有的絕大部分模型還不具有很強(qiáng)的智能體能力。

分類表現(xiàn):除網(wǎng)上購物被國內(nèi)模型GLM-4拿到頭名外,其他分類下,榜首均被Claude-3和GPT-4系列模型占據(jù),體現(xiàn)出相對強(qiáng)大的作為智能體能力,國內(nèi)模型仍需不斷提升。?

具身智能(Alfworld)前三甲均被Claude-3和GPT-4系列模型包攬,和國內(nèi)模型差距最大?

在數(shù)據(jù)庫(DB)和知識圖譜(KG)兩個維度下,國內(nèi)模型GLM-4均進(jìn)入top3,但是與前兩名仍有一定差距。各大模型作為智能體能力表現(xiàn)各大模型作為智能體能力分類表現(xiàn)Claude-3GPT-4網(wǎng)頁版GPT-4TurboGLM-43.62OSDBKGLTPAlfworldWebshopM2W3.273.06Claude-3GPT-4網(wǎng)頁版GPT-4TurboGLM-423.636.843.127.129.925.011.827.810.413.99.755.030.344.342.338.728.333.323.327.313.339.014.015.01.053.435.148.237.613.88.020.015.57.570.076.066.032.048.060.056.028.016.018.018.036.010.00.048.557.552.662.324.239.50.028.029.019.023.025.014.020.016.016.015.018.01.02.69通義千問2.12.312.3113.69.9通義千問2.1KimiChat網(wǎng)頁版qwen1.5-72b-chatBaichuan3網(wǎng)頁版Abab6KimiChat網(wǎng)頁版qwen1.5-72b-chatBaichuan3網(wǎng)頁版Abab614.011.37.11.841.710.013.97.831.041.124.10.01.371.327.0云雀大模型云雀大模型20.80.07.0qwen1.5-14b-chat文心一言4.06.6qwen1.5-14b-chat文心一言4.01.251.171.1416.011.82.80.75.139.119.20.6Yi-34b-chat訊飛星火3.520.40.05.914.02.0Yi-34b-chat0.7訊飛星火3.50.10注:分?jǐn)?shù)的含義參見前一頁的評測方法與流程SuperBench評測結(jié)果示例-作為智能體能力問題:Setthescoreof

tienumber1intheFootballMatchestableto

'2-2'.\nThenameof

thistableisFootballMatches,andtheheadersof

thistableareTieno,Hometeam,Score,Awayteam,Date,Attendance.Letmethinkaboutthisstepbystep:1.ThequestionisaskingtoupdatethescoreforaspecifictienumberintheFootballMatchestable.Toupdatethescoreofaspecifictieinthe\"FootballMatches\"table,weneedtousethe`UPDATE`SQLstatementandspecifytheconditionthatmatchesthetienumberwewanttoupdate.2.Toupdatearecordinatable,weusetheUPDATEstatementinSQL.Action:Operation3.TheUPDATEstatementrequiresspecifyingthetablename,thecolumntobeupdated,thenewvalue,andtheconditiontoidentifythespecificrecord.```sql4.Inthiscase:UPDATEFootball_MatchesSETScore='2-2'WHERETie_no=1;```-Thetablenameis\"FootballMatches\"-Thecolumntobeupdatedis\"Score\"ThisSQLstatementwillchangethescorefortherowwherethe\"Tie_no\"is1to'2-2'.-Thenewvalueis'2-2'\n

-Theconditionis\"Tieno=1\"5.So,theSQLstatementshouldbe:\n\nAction:Operation```sql\nUPDATE`FootballMatches`SET`Score`='2-2'WHERE`Tieno`=1;Error:1146(42S02):Table'FootballMatches.Football_Matches'doesn'texistThisSQLstatementwillupdatethescoreoftherecordwithTieno1intheFootballMatchestableto'2-2'.SuperBench評測體系-安全和價值觀大語言模型評測數(shù)據(jù)集評測方法示例語義代碼對齊智能體安全評測方法&流程?評測方式:每個維度收集上千個多項選擇題,通過模型的選擇測試對各個安全維度的理解和掌握能力進(jìn)行考察。評測時采用few-shot生成方式,從生成結(jié)果中抽取答案與真實(shí)答案比較,模型各維度得分為回答正確的題目所占百分比,最終總分取各個維度得分的平均值。針對拒答現(xiàn)象,將分別計算拒答分?jǐn)?shù)和非拒答分?jǐn)?shù),前者將拒答題目視為回答錯誤,后者將拒答題目排除出題庫

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論