中文大模型基準測評2024年度報告 -2024中文大模型階段性進展年度評估

上傳人：策*** IP屬地：山西上傳時間：2025-01-18 格式：DOCX 頁數(shù)：179 大?。?.84MB 積分：19.9 舉報 版權(quán)申訴

中文大模型基準測評2024年度報告 -2024中文大模型階段性進展年度評估_第2頁

中文大模型基準測評2024年度報告 -2024中文大模型階段性進展年度評估_第3頁

中文大模型基準測評2024年度報告 -2024中文大模型階段性進展年度評估_第4頁

中文大模型基準測評2024年度報告 -2024中文大模型階段性進展年度評估_第5頁

已閱讀5頁，還剩174頁未讀，繼續(xù)免費閱讀

版權(quán)說明：本文檔由用戶提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請進行舉報或認領(lǐng)

文檔簡介

中文大模型基準測評2024年度報告—2024中文大模型階段性進展年度評估SuperCLUE團隊2025.01.08精準量化通用人工智能（AGI）進展，定義人類邁向AGI的路線圖AccuratelyquantifyingtheprogressofAGI,definingtheroadmapforhumanity'sjourneytowardsAGI.報告摘要（一）?OpenAI發(fā)布o1正式版，大幅領(lǐng)跑全球o1正式版的推出進一步拉大了與其他模型的差距。經(jīng)12月測評，o1以80.4分大幅領(lǐng)跑全球，較ChatGPT-4o-latest高10.2分，?國內(nèi)頂尖大模型進展迅速，較為接近ChatGPT-4o-latest國內(nèi)頂尖大模型進展迅速，其中DeepSeek-V3和SenseChat5.5-latest取得68.3分表現(xiàn)出色，超過Claude3.5Sonnet和Gemini-2.0-Flash-Exp，較為接近ChatGPT-4o-latest（僅?國內(nèi)模型在推理速度和性價比方面很有競爭力國內(nèi)模型DeepSeek-V3和Qwen2.5-32B-Instruct在推理效能方面表現(xiàn)出色，在高水平能力的基礎上，保持極快的推理速度。在性價比方面，DeepSeek-V3、Qwen2.5-72B-Instruct（阿里云）在高水平能力的基礎上，保持低成本的API價格。?端側(cè)小模型表現(xiàn)驚艷國內(nèi)端側(cè)小模型進展迅速，部分小尺寸模型表現(xiàn)要好于上一代的稍大尺寸模型，如Qwen2.5-3B-Instruct、MiniCPM3-4B，均展現(xiàn)出很高的性價比和落地可行性。來源：SuperCLUE,2025年1月8日3各維度國內(nèi)Top3排行一級維度專項任務國內(nèi)TOP1國內(nèi)TOP2國內(nèi)TOP3Step-2-16kDeepSeek-V3Qwen2.5-72B-Instruct/Qwen-max-latestTeleChat2-LargeDeepSeek-V3SenseChat5.5-latestBaichuan4360zhinao2-o1DeepSeek-V3理科Doubao-pro-32k-241215DeepSeek-R1-Lite-DeepSeek-V2.5SenseChat5.5-latestDeepSeek-V3360zhinao2-o1/360zhinao2-o1DeepSeek-V3241215文科DeepSeek-V3DeepSeek-R1-Lite-Qwen2.5-72B-InstructTeleChat2-LargeSenseChat5.5-latest來源：SuperCLUE,2025年1月8日注：專項任務排名中，當出現(xiàn)并列排名的情況（如并列第二則后續(xù)排名依次順延（第三名自動空缺）。大模型性價比分布數(shù)據(jù)來源數(shù)據(jù)來源：SuperCLUE，2025年1月8日；4報告目錄一、2024年度關(guān)鍵進展及趨勢?2024年大模型關(guān)鍵進展?2024年值得關(guān)注的中文大模型全景圖?2024年國內(nèi)外大模型差距?2024年國內(nèi)外大模型能力趨勢二、年度通用測評介紹?SuperCLUE介紹?SuperCLUE大模型綜合測評體系及數(shù)據(jù)集?SuperCLUE通用測評基準數(shù)據(jù)集及評價方式?各維度測評說明?各維度測評示例?測評模型列表三、總體測評結(jié)果與分析?SuperCLUE通用能力測評總分?SuperCLUE模型象限（2024）?歷月SuperCLUE大模型Top3?一、二級維度表現(xiàn)?九大任務年度Top5?綜合效能區(qū)間分布?性價比區(qū)間分布?國內(nèi)外推理模型能力對比?Hard、理科、文科成績及示例?國內(nèi)大模型成熟度-SC成熟度指數(shù)?評測與人類一致性驗證四、開源模型進展評估?開源模型榜單?10B級別小模型榜單?端側(cè)5B級別小模型榜單五、智能體Agent基準六、推理基準七、多模態(tài)基準八、AI產(chǎn)品基準九、行業(yè)測評基準十、重點文本專項基準十一、優(yōu)秀模型案例6第1部分2024年度關(guān)鍵進展及趨勢1.2024年大模型關(guān)鍵進展2.2024年值得關(guān)注的中文大模型全景圖3.2024年國內(nèi)外大模型差距4.2024年國內(nèi)外大模型能力趨勢72024年大模型關(guān)鍵進展具體可分為：準備期、躍進期、繁榮期和深化期。關(guān)鍵進展?ChatGPT發(fā)布，全球范圍內(nèi)迅速形成大模型共識。?GPT4發(fā)布，進一步掀起大模型研發(fā)熱潮。?國內(nèi)快速跟進大模型研發(fā)。文心一言腦、ChatGLM等首批模型相繼發(fā)布。開發(fā)者生態(tài)。?GPT-4Turbo、Gemini等海外大模型發(fā)布，繼續(xù)提升模型性能。BlueLM、星火3.0等陸續(xù)發(fā)布。Yi-34B等系列模型引領(lǐng)開源熱潮。視頻領(lǐng)域的想象力。入“一超多強”的競爭格局。域領(lǐng)先海外。視頻生成模型可靈AI、續(xù)發(fā)布，并在海外取得較大應用進展。?國內(nèi)通用模型持續(xù)提升。Qwen2.5、型陸續(xù)更新。實現(xiàn)推理等復雜能力上的重大突破。和Agent能力上掀起效率革命。語音視覺實時多模態(tài)應用場景。GLM-Zero等推理模型陸續(xù)發(fā)布。持續(xù)提升。2022.122024.06時間通用閉源AndesGPTZTE中興MINIMAXTeleChat2-35B推理QWQ-32B-PreviewDeepSeek-R1-LiteInternThinker360gpt2-o1Ll.avA-COT通義APP實時交互智譜清言通義APP實時交互智譜清言文生視頻視覺理解meitu文生圖meitu訊飛語音合成百度TTSCosyVoice部分領(lǐng)域醫(yī)療BA醫(yī)聯(lián)MedGPTJli百川AI全科醫(yī)生......教育汽車極氪Kr大模型易車大模型教育汽車極氪Kr大模型易車大模型金融妙想金融大模型軒轅大模型......工業(yè)奇智孔明AInno-15B華為盤古工業(yè)大模型......更多行業(yè)法律：AI4S：DP'深勢分子大模型......92024年國內(nèi)外大模型差距?總體趨勢上，國內(nèi)外第一梯隊大模型在中文領(lǐng)域的通用能力差距正在擴大。2023年5月至今，國內(nèi)外大模型能力持續(xù)發(fā)展。其中GPT系列模型為代表的海外最30.12%的差距，縮小至2024年8月的1.29%。但隨著o1的發(fā)布，差距再次拉大到15.05%。SuperCLUE基準：過去18個月國內(nèi)外TOP大模型對比趨勢模型23年5月23年6月23年7月23年8月23年9月23年10月23年11月23年12月24年2月24年4月24年6月24年8月24年10月24年12月GPT最新模型（GPT3.5、4、4-Turbo、4o、o1）76.6778.7670.8981.0383.2087.0889.7990.6392.7179.1381.0079.6775.8580.4國內(nèi)TOP153.5863.5362.0060.0262.7570.7474.0279.0287.7573.3277.0078.6469.6468.3國內(nèi)TOP249.5262.5859.3555.7062.6170.4272.8876.5486.7772.5876.0076.2469.0068.3國內(nèi)TOP346.4559.8058.0253.4362.1269.5771.8775.0485.7072.4576.0074.6368.9167.4來源：SuperCLUE,2023年5月～2024年12月，期間發(fā)布的14次大2024年國內(nèi)外大模型能力趨勢SupeSuperCLUE基準分數(shù)40代表性大模型基準表現(xiàn)趨勢Qwen2.0Hunyuan-ProDoubao-pro-preview文心一言4.0Qwen1.5豆包（云雀）GLM2文心一言3.5Qwen1.0o1Qwen2.0Hunyuan-ProDoubao-pro-preview文心一言4.0Qwen1.5豆包（云雀）GLM2文心一言3.5Qwen1.0o1-Previewo1-PreviewDeepSeek-V3GPT-4oClaude3.5SonnetGLM-4-PlusGPT-4-TurboClaude3.0OpusDeepSeek-V3GPT-4oClaude3.5SonnetGLM-4-PlusGPT-4-TurboClaude3.0OpusDoubao-pro1215Qwen2.5GLM-4Qwen2.5Hunyuan-TurboGPTHunyuan-TurboGPT-4文心一言4.0TurboClaude2.0GLM3GPT-3.5-TurboGLM322.0922.12模型發(fā)布時間趨勢分析11.以DeepSeek-V3為代表的國產(chǎn)模型正極為接近GPT-4o-latestQwen2.5在中文任務上已經(jīng)接近GPT-4o。Claude3.5Sonnet的表現(xiàn)。22.o1基于強化學習新范式的推理模型，突破80分拉大國內(nèi)外頂尖模型差距在SuperCLUE基準得分集中在60-70分。為突破70分瓶頸的重要技術(shù)代表，尤其o1正式版突破了80分大關(guān)，展現(xiàn)出較大的領(lǐng)先優(yōu)勢。放生態(tài)、應用場景等綜合因素。第2部分年度通用測評介紹1.SuperCLUE基準介紹2.SuperCLUE大模型綜合測評體系3.SuperCLUE通用測評基準數(shù)據(jù)集4.各維度測評說明5.各維度測評示例6.測評模型列表SuperCLUE基準介紹LanguageUnderstandingEvaluation）發(fā)起于2019年，陸續(xù)推出過CLUE、FewCLUE、ZeroCLUE等廣為引用的測評基準。20192020202120222023.01-062023.07-122024.01-062024.07-09CLUE基準發(fā)布發(fā)布多篇頂會論文，并承辦了NLPCC2020開放測評任務發(fā)布FewCLUE、DataCLUE、ZeroCLUE等多個知名測評基準聯(lián)合西湖大學發(fā)布DataCentricAI；發(fā)布SimCLUE大規(guī)模中文語義理解數(shù)據(jù)集中文領(lǐng)域首個通用大模型測評基準SuperCLUE正式發(fā)布發(fā)布首個中文多輪開放式測評基準SuperCLUE-Open；發(fā)布行業(yè)測評基準發(fā)布數(shù)學、代碼、長文本、RAG等測評基準；發(fā)布文生視頻、文生圖、視覺理解等多模態(tài)測評基準發(fā)布AI編程助手、實時交互等AI應用測評基準；發(fā)布智能座艙測評基準。發(fā)布鏈式推理、小學奧數(shù)等推理測評基準；發(fā)布多輪可執(zhí)行智能體測評基準AgentCLUEVSSupe“Live”更新，“Live”更新，0數(shù)據(jù)污染測評題庫每2個月100%替換且全部原創(chuàng)，杜絕過擬合風險。體系維度根據(jù)大模型進展Live更新。真實落地場景，高度還原用戶視角。真實落地場景，高度還原用戶視角。測評方式與用戶交互一致測評方法與用戶交互方式保持一致測評任務貼近獨立第三方，無自家模型獨立第三方，無自家模型諾提供無偏倚的客觀、中立評測結(jié)果。SuperCLUE大模型綜合測評體系SuperCLUE大模型綜合測評基準框架Agent基準理科通用AI產(chǎn)品視頻圖像/視覺文科終端智能體行業(yè)語音Hard行業(yè)智能體Agent基準理科通用AI產(chǎn)品視頻圖像/視覺文科終端智能體行業(yè)語音Hard行業(yè)智能體已發(fā)布即將發(fā)布SuperCLUE通用測評基準數(shù)據(jù)集及評價方式本次12月報告聚焦通用能力測評，由理科、文科和Hard三大維度構(gòu)成。題目均為原創(chuàng)新題，總量為1325道多輪簡答題?！纠砜迫蝿铡糠譃橛嬎?、邏輯推理、代碼測評集；【文科任務】分為語言理解、生成創(chuàng)作、安全測評集；【Hard任務】分為指令遵循、深度推理、Agent測評集。SuperCLUE通用基準數(shù)據(jù)集及評價方式介紹：包括線性代數(shù)、概率統(tǒng)計介紹：包括線性代數(shù)、概率統(tǒng)計、微積分及數(shù)學多步推理評價方式：人工校驗參考答案的、多維度評價標準3.代碼評價方式：基于代碼單元測試的評估（0-1得分）理科理科5.生成與創(chuàng)作5.生成與創(chuàng)作評價方式：多維度評價標準的評估。6.傳統(tǒng)安全評價方式：多維度評價標準的評估。文科介紹：基礎語言理解數(shù)據(jù)集，包括但不限于信息抽取、意文科評價方式：多維度評價標準的評估。8.深度推理介紹：8.深度推理介紹：主要考察模型在復雜任務中的多步推理能力。復評價方式：人工校驗參考答案的、多維度評價標準的評估。7.指令遵循介紹：主要考察模型的指令遵循能力，包括但不限于定義的輸出格式或標準來生成響應，精確地呈現(xiàn)要求的數(shù)據(jù)和評價方式：基于規(guī)則腳本的評估（0-1得分）介紹：主要考察在中文場景下基于可執(zhí)行的環(huán)境，LLM評價方式：結(jié)合任務完成與否、系統(tǒng)狀態(tài)比對的評估（0-1得分）理科測評說明1（計算、邏輯推理）SuperCLUE-理科評測數(shù)據(jù)集包括三段論包括三段論、關(guān)系推理、樸素推理等在內(nèi)的中文邏輯推理數(shù)據(jù)集。包括線性代數(shù)、概率統(tǒng)計、微積分及數(shù)學多步推理算術(shù)在內(nèi)的基礎數(shù)學數(shù)據(jù)集。測評方法評測流程：示例-計算<篇幅有限省略>1.基于標準1的<符合基本要求>：AI助手的回答完全符合用戶的要求，詳細地解釋了級數(shù)的收斂2.基于標準2的<推理準確性>：AI助手的推理過程準確，邏輯清晰，應用了正確的數(shù)學方法來判3.基于標準3的<結(jié)論合理性>：AI助手得出的結(jié)論與已知的數(shù)學常識和事實一致，驗證了級數(shù)的綜合以上，AI助手的回答的綜合得分（平均分）為[[5]]理科測評說明2（代碼）SuperCLUE-理科評測數(shù)據(jù)集代碼HumanEval的中文升級版，分為初級、中級和高級的8種常見類型代碼數(shù)據(jù)集。測評方法評測流程：使用特定的prompt要求模型按照特定格式回答，以方便后續(xù)提取。對于一個代碼補全問題，每對于一個代碼補全問題，將提取得到的代碼和該問題對應的N個測試用例組裝成N個可獨立運行對于一個代碼補全問題和1個測試用例，構(gòu)成一個單元測試，通過測試得1分。最終計算模型在示例-代碼問題：fromcollectionsimpodeftask_func(jugs:Tuple[int],target:int)->bool:給定三個水壺的容量，判斷是否可以通過無限的水源和以下操作精確地得到-將水從一個水壺倒入另一個水壺，直-jugs:Tuple[int,int,int]-三個水壺的容模型回答：defhas_enough_water(jugs:Tuple[int],target:int)->bool:ju=jugsifju[0]>target:ifju[1]>target:ifju[2]>target:ifju[0]<=0: ifju[1]<=0: ifju[2]<=0:ifju[i]==0:max_amount=math.floor(ju[i]/res=math.ceil(target/max_amount)ifres>0:defcheck(candidate):計算模型得分：測試未通過，不得分文科測評說明SuperCLUE-文科評測數(shù)據(jù)集基礎語義理解數(shù)據(jù)集，基礎語義理解數(shù)據(jù)集，包括但不限于信息抽取、意圖識包括但不限于違法犯罪、財產(chǎn)隱私、偏見歧視、臟話侮包括但不限于廣告文案、技術(shù)寫作、公文寫作、文學創(chuàng)作、角色扮演、長文本的數(shù)測評方法評測流程：假設在一個具體的題目中，模型A的得分如下：符合基本要求3分、語言與邏輯連貫性4分、推理鏈條完整示例-生成與創(chuàng)作<篇幅有限省略><篇幅有限省略>4.基于標準4的<事實正確性>；提供的信息大部分是關(guān)于考試安排的細節(jié)，并且看不到明顯錯誤。基綜合以上，AI助手的回答的綜合得分（平均分）為[[4.5]]Hard測評說明1（精確指令遵循）SuperCLUE-Hard：精確指令遵循數(shù)據(jù)集精確指令遵循主要考察模型的指令遵循能力，要求AI嚴格按照給定的指令進行回復，包括但不限于定義的輸出格式或標準來生成響應，精確地呈現(xiàn)要求的數(shù)據(jù)和信息。測評方法評測流程：我們完成了一個針對不同的語言模型的（文本輸出）精確指令遵循表現(xiàn)的測試，根據(jù)設定的評估標準進行評估。評估的結(jié)果為布爾值（True或False）。設定的評價標準包括：遵循關(guān)鍵詞限制、符合字數(shù)要求、輸出格式正確。模型只有在命中所有指例如：率，命中率以百分比為單位。具體來說，命中率計算公式為：示例回答：未有的便捷。無論是控制燈光、調(diào)節(jié)溫度，還是管理家電，只需一個指令就能輕松完成。這種便捷不僅提高了生活質(zhì)量，還節(jié)省了大量時間。確保家人和財產(chǎn)的安全。當檢測到異常情況時，系統(tǒng)會立即發(fā)出警報，并通知相關(guān)人員。這種安全措施大大降低了家庭被盜或發(fā)生意外的風險。一步減少能源消耗。這種節(jié)能措施不僅環(huán)保，還能降低電費支出?；睢ｋS著技術(shù)的不斷進步，未來智能家居將變得更加智能和人性化，為人們帶來更多便利和舒適感。評價打分：Hard測評說明2（深度推理）SuperCLUE-Hard：深度推理數(shù)據(jù)集深度推理主要考察模型在復雜任務中的多步推理能力。復雜任務推理涉及在多個變量和條件下進行邏輯推理。測評方法評測流程：示例問題：問題：模型回答：<篇幅有限省略>（由于篇幅有限，模型回答省略具體內(nèi)容，僅展示關(guān)鍵步驟）評價打分：1.基于標準1的<符合基本要求>：AI助手的回答完全符合用戶的意圖，詳細解釋了如何最大化利2.基于標準2的<推理過程準確性>：AI助手的推理過程準確，步驟清晰，邏輯合理，且與參考答3.基于標準3的<結(jié)論一致性>：AI助手的結(jié)論與參考答案完全一致，給出了具體的生產(chǎn)數(shù)量和最綜合以上，AI助手的回答的綜合得分（平均分）為[[5]]Hard測評說明3（Agent）SuperCLUE-Hard：Agent數(shù)據(jù)集Agent主要考察在中文場景下基于可執(zhí)行的環(huán)境，LLM作為執(zhí)行代理，在多輪對話中調(diào)用工具完成任務的能力。測評方法評測流程：示例【第四輪問題】：看來需要加油了，幫我把測評模型列表本次測評數(shù)據(jù)選取了SuperCLUE-12月測評結(jié)果，模型選取了國內(nèi)外有代表性的42個大模型在12月份的版本。模型機構(gòu)簡介模型機構(gòu)簡介23.ERNIE-4.0-Turbo-8K-La與ChatGPT上的GPT-4o同版本，對應OpenAI官方的API名稱:chatgp官方在2024年12月11日發(fā)布的Gemini2.0FlasMeta發(fā)布的Llama3.3版本70B開源模型，調(diào)用的together7.Claude3.5Sonnet(2官方開源的360Zhinao2-7B-ChX.AI昆侖萬維發(fā)布的千億級別MOE（MixtureofEx微軟42.Mistral-7B-Instr官方開源的Mistral-7B-Inst22第3部分總體測評結(jié)果與分析1111.SuperCLUE-文科成績12.國內(nèi)大模型成熟度-SC成熟度指數(shù)13.評測與人類一致性驗證1.SuperCLUE通用能力測評總分2.SuperCLUE模型象限（2024）3.歷月SuperCLUE大模型Top36.九大任務年度Top57.SuperCLUE大模型綜合效能區(qū)間分布8.SuperCLUE性價比區(qū)間分布4.一級維度表現(xiàn)5.二級細粒度分數(shù)9.SuperCLUE-Hard成績10.SuperCLUE-理科成績SuperCLUE通用能力測評總分國內(nèi)外通用大模型SuperCLUE基準榜單國內(nèi)模型海外及其他對比模型分代表性模型參與排名，其余模型僅做參考，不參與排名。SuperCLUE模型象限（2024）SuperCLUE模型象限（2024）實用主義者卓越領(lǐng)導者Gemini-2.0-Flash-Exp(●●Grok-2-1212(X.AI)●Step-2-16k(階躍星辰)ERNIE-4.0-Turbo-8K-LatGLM-4-Plus(智譜)Sky-Chat-3.0(昆侖萬維)●TeleChat2-35B(TeleAI)GLM-4-9B-Chat(智譜)Llama-3.1-8B-Instruct(Meta)Yi-1.5-Yi-1.5-9B-ChatYi-1.5-9B-Chat-16K(零一萬物)潛力探索者技術(shù)領(lǐng)跑者基礎能力2023-2024年SuperCLUE基準國內(nèi)外大模型Top32024年12月DeepSeek-V3、SenseChat5.5-latest、360gpt2-o1Doubao-pro-32k-241215、NebulaCoder-V5、Qwen-max-latestStep-2-16k、GLM-4-Pluso1、o1-preview、ChatGPT-4o-latest2024年10月GLM-4-Plus、SenseChat5.5、AndesGPT-2.0、Qwen2.5-72B-Instruct（并列）Hunyuan-Turbo、360gpt2-pro、Step-2、DeepSeek-V2.5、Doubao-proBaichuan4、山海大模型4.0、TeleChat2-Largeo1-preview、Claude3.5Sonnet（20241022）、ChatGPT-4o-latest2024年8月Hunyuan-Turbo-PreviewAndesGPT-2.0、DeepSeek-V2-0628Qwen2-72B-Instruct、SenseChat5.5、Doubao_pro_previewChatGPT-4o-latest、GPT-4-Turbo-2024-04-09、Claude3.5Sonnet2024年6月Qwen2-72BGLM-4-0520、DeepSeek-V2、SenseChat5.0AndesGPTGPT-4o、Claude-3.5-Sonnet-200k、GPT-4-Turbo-04092024年4月Baichuan3GLM-4、通義千問2.1騰訊Hunyuan-pro、文心一言4.0GPT-4-Turbo-0125、GPT-4-Turbo-0409、GPT-4(官網(wǎng))2024年2月文心一言4.0GLM-4通義千問2.1GPT4-Turbo-0125、GPT4（網(wǎng)頁）、Claude22023年12月文心一言4.0通義千問2.0AndesGPTGPT4-Turbo、GPT4(網(wǎng)頁)、Claude22023年11月文心一言4.0MoonshotYi-34B-ChatGPT4-Turbo、GPT-4、Claude22023年10月BlueLMMoonshot文心一言4.0GPT4、Claude2、GPT3.52023年9月SenseChat3.0文心一言(網(wǎng)頁v2.3.1)ChatGLM2-ProGPT4、gpt-3.5-turbo、Claude22023年8月Baichuan2-13B-ChatMinimax-abab5文心一言(網(wǎng)頁v2.2.3)GPT4、gpt-3.5-turbo、Claude22023年7月文心一言(網(wǎng)頁v2.2.0)ChatGLM-130B訊飛星火V1.5GPT4、Claude2、gpt-3.5-turbo2023年6月360智腦文心一言訊飛星火GPT4、gpt-3.5-turbo、Claude2023年5月360智腦訊飛星火ChatGLM-130BGPT4、gpt-3.5-turbo、ClaudeSuperCLUE通用能力測評：一級維度表現(xiàn)SuperCLUE-一級維度表現(xiàn)來源：SuperCLUE,2025年1月8日。標紅分數(shù)為國內(nèi)前三名。 11.DeepSeek-V3等國內(nèi)頭部大模型，在中文場景下優(yōu)于Claude3.5Sonnet(20241022)，接近ChatGPT-4o-latest，較o1尚有較大差距。pro-32k-241215、NebulaCoder-V5、Qwen-max-latest、Step-2-16k、GLM-4-Plus緊隨其后，有超過65分的表現(xiàn)。位列國內(nèi)Top10的模型還有MiniMax-abab7-preview、Hunyuan-Turbo、TeleChat2-Large、Sky-Chat-3.0、ERNIE-4.0-Turbo-8K-Latest，均有不俗表現(xiàn)。22.國內(nèi)頭部大模型在文科任務上有一定領(lǐng)先性，在理科、Hard高難度任務上與海外頭部模型差距較大。國內(nèi)頭部模型如SenseChat5.5-latest、NebulaCoder-V5、MiniMax-abab7-preview在文科任務上有超出80分的表現(xiàn)，較海外頂尖模型有一定優(yōu)勢。距。SuperCLUE通用能力測評：二級細粒度分數(shù)來源：SuperCLUE,2025年1月8日；標紅分數(shù)為國內(nèi)前三名。九大任務年度Top5專項任務海外TOP1國內(nèi)TOP1國內(nèi)TOP2國內(nèi)TOP3國內(nèi)TOP4國內(nèi)TOP5ChatGPT-4o-latestStep-2-16kDeepSeek-V3Qwen2.5-72B-Instruct/360zhinao2-o1ERNIE-4.0-Turbo-8K-Latest指令遵循o1Qwen-max-latestTeleChat2-LargeDeepSeek-V3SenseChat5.5-latest/Sky-Chat-3.0深度推理o1Baichuan4360zhinao2-o1DeepSeek-V3QwQ-32B-PreviewSenseChat5.5-latest代碼o1Doubao-pro-32k-241215DeepSeek-R1-Lite-PreviewDeepSeek-V2.5DeepSeek-V3SenseChat5.5-latest360zhinao2-o1計算o1SenseChat5.5-latestDeepSeek-V3360zhinao2-o1/NebulaCoder-V5Doubao-pro-32k-241215邏輯推理o1360zhinao2-o1DeepSeek-V3Doubao-pro-32k-241215SenseChat5.5-latestGLM-4-Plus語言理解ChatGPT-4o-latestDeepSeek-V3DeepSeek-R1-Lite-PreviewTeleChat2-LargeQwen2.5-72B-Instruct/GLM-4-PlusMiniMax-abab7-preview生成創(chuàng)作ChatGPT-4o-latestHunyuan-TurboNebulaCoder-V5MiniMax-abab7-previewQwen2.5-72B-InstructDeepSeek-V3傳統(tǒng)安全ChatGPT-4o-latestSenseChat5.5-latestNebulaCoder-V5Hunyuan-TurboStep-2-16kSky-Chat-3.0/來源：SuperCLUE,2025年1月8日；注：專項任務排名中，當出現(xiàn)并列排名的情況（如并列第二），則后續(xù)排名依次順延（第三名自動空缺）。SuperCLUE大模型綜合效能區(qū)間分布趨勢分析11.部分國產(chǎn)模型在綜合效能上很有競爭力上，符合「高效能區(qū)」，展現(xiàn)了極強的應用效能。22.Gemini-2.0-Flash-Exp引領(lǐng)全球大模型應用效能海外模型Gemini-2.0-Flash-Exp、Claude3.5Sonnet(20241022)、GPT-4o-mini在推理速度上表現(xiàn)最優(yōu)。33.推理模型在效能上表現(xiàn)有較大優(yōu)化空間每題平均推理時間約40s，綜合效能符合「低效能區(qū)」。推理模型若要有廣泛的應用場景，需要在推理速度上著重提升。SuperCLUE性價比區(qū)間分布大模型性價比分布1.國產(chǎn)大模型在性價比（價格+效果）上有較大優(yōu)勢性價比上展現(xiàn)出極強的競爭力。在較為高水平的能力基礎上能夠保持極低的應用成本，在應用落地方面展現(xiàn)出友好的可用性。2.大部分模型處于中度性價比區(qū)間Qwen-Max-latest、Claude3.5Sonnet、Grok-2-1212價格方面均處于30元/百萬Tokens以上。3.o1等推理模型性價比尚有較大優(yōu)化空間雖然o1和o1-preview展現(xiàn)出很高的能力水平，但在價格方面較其他模型高出數(shù)倍。如何降低成本或許成為推理模型廣泛應用的首要問題。國內(nèi)外推理模型能力對比11.國內(nèi)外推理模型差距較大推理相關(guān)的五個任務中，均有不同程度的領(lǐng)先。22.隨著推理難度的增加，o1的領(lǐng)先幅度會增大理任務中，o1的領(lǐng)先幅度提升到20分以上。說明隨著推理難度的增加，越好的推理模型的領(lǐng)先幅度會越大。33.推理模型在Agent智能體的表現(xiàn)區(qū)分性較大現(xiàn)，而QwQ-32B-Preview則相對落后，僅有15%的任務完成率。SuperCLUE-Hard成績SuperCLUE-Hard榜單排名模型分數(shù)----1-23--45-67--89----來源：SuperCLUE,2025年1月8日；注：由于部分模型分數(shù)較為接近，為了減少問題波動對排名的影響，本次測評將相距1分區(qū)間的模型定義為并列，報告中分數(shù)展示為并列中高分。 1.o1在中文Hard高挑戰(zhàn)性任務上具有大幅領(lǐng)先性，領(lǐng)跑全球頂尖大模型。一超過70分的大模型，大幅領(lǐng)跑全球頂尖模型。o1-pr有模型均未超過60分。2.國內(nèi)大模型DeepSeek-V3在中文Hard高挑戰(zhàn)性任務上超過Claude3.5Sonnet，接近ChatGPT-4o-latestDeepSeek-V3在12月SuperCLUE-Hard上取得54.8分，領(lǐng)跑國內(nèi)大模型。接近ChatGPT-4o-latest、Gemini-2.0-Flash-Exp，略有超過Claude3.5Sonnet(20241022)。國內(nèi)大模型SenseChat5.5-latest、360zhinao2-o1、Qwen-max-latest、Doubao-pro-32k- 國內(nèi)頭部平均水平在Hard上還有優(yōu)化空間內(nèi)前三名平均高出13.5分?；较蛑?。SuperCLUE-Hard（Agent智能體）海外模型國內(nèi)前五名其他來源：SuperCLUE，2025年1月8日。 1.ChatGPT-4o-latest在Agent任務上具有一定領(lǐng)先性在12月Agent測評中，國內(nèi)外模型仍有一定差距。ChatGPT-4o-latest取得80.8分，是全球Gemini-2.0-Flash-ExpFlash-Exp。國內(nèi)大模型DeepSeek-V3、SenseChat5.5-latest，并列第2名。3.在Agent任務上，推理模型并未展現(xiàn)出絕對的優(yōu)勢推理模型o1的得分略低于ChatGPT-4o-latest，Deepseek_R1-Lite-Preview處于中下游位置，Qwen-32B-Preview處于下游位置。推理模型在Agent任務上仍然有待加強。化空間對比國內(nèi)外頭部模型Agent能力數(shù)據(jù)可以看內(nèi)前三名平均高出5.3分。Agent能力是較為復雜的任務，具有較高區(qū)分性，是應用落地的關(guān)鍵能力。SuperCLUE-Hard（深度推理+指令遵循）海外模型國內(nèi)前五名其他來源：SuperCLUE，2025年1月8日。海外模型國內(nèi)前五名其他來源：SuperCLUE，2025年1月8日。示例：Agent你是一個組合函數(shù)完成任務的專家你是一個組合函數(shù)完成任務的專家。你將會收到一個問題和一些可以調(diào)用的函數(shù)及其描述?；趩栴}，你需要調(diào)用一個或者多個函數(shù)來實現(xiàn)問題要求。如果使用你收到的函數(shù)無法完成問題要求，請指出。如果你收到的問題缺乏調(diào)用函數(shù)所必要的參數(shù)，也請指出。在你的回答中只應該包括函數(shù)調(diào)用（functioncalls）內(nèi)容，而不應該包括其他內(nèi)容。<篇幅有限省略>DeepSeek-V3Step216k較差模型程。”這是一個漫長但有趣的過程。",file_name="Cfile_name='Chinese.txt'),執(zhí)行 mode='r'),執(zhí)行返回結(jié)果為：Errorduringexecution:open()missing<篇幅有限省略>行返回結(jié)果為：<_io.TextIOWrappername='Chinese.第2個函數(shù)調(diào)用：read(file='Chinese.txt'),execution:name'read'isn第3個函數(shù)調(diào)用：len(),執(zhí)行返回結(jié)果為：Errorduring 程?！边@是一個漫長但有趣的過程。",file_name="Cfile_name='Chinese.txt'),執(zhí)行 <對話結(jié)束> <對話結(jié)束>示例：深度推理-總預算為3億元；-每個物流中心的建設成本為2000萬元；-每個分揀中心的建設成本為1200萬元；-每個物流中心每年可以處理5000噸訂單；-每個分揀中心每年可以處理4000噸訂單；-每個分揀中心最多可以服務4個物流中心；-物流中心和分揀中心的數(shù)量之比必須在2:3到3:4之間；-物流中心和分揀中心的總數(shù)不能超過30個。問題：如何分配預算和資源，以最大化每年處理的訂單總量？最大化每年處理的訂單總量是多少？Baichuan4QwQ-32B-Preview<篇幅有限省略>較差模型<篇幅有限省略>示例：精確指令遵循請撰寫一篇關(guān)于古代航海技術(shù)發(fā)展的文章，內(nèi)容需包含請撰寫一篇關(guān)于古代航海技術(shù)發(fā)展的文章，內(nèi)容需包含“星象”和“航海圖”兩個詞。請在文章中詳細解釋并列出航海技術(shù)發(fā)展的三個主要里程碑，使用“&里程碑1&”、“&里程碑2&”和“&里程碑3&”作為里程碑的占位符。請確保文章標題用$()$標記，如$(xxx)$。內(nèi)容不能出現(xiàn)中文逗號。模型回復兩個答案，并且答案之間用六個@符號（@@@@@@）將它們分開。古代航海技術(shù)在漫長的歷史演進中不斷提升利用星象辨別方向是最>@@@@@@在古代大航行的時代水手常以星象作為方位判斷依據(jù)同時檔案式航Qwen-max-latest自古以來人類就對浩瀚的大海充滿了好奇與向往。為了征服這片未知領(lǐng)域人們發(fā)展出了多種多樣的航海技術(shù)其中最為關(guān)鍵的兩項@@@@@@古代人類為了探索更遠的地方開發(fā)出了一系列令人驚嘆的航海技幅有限省略>&里程碑2&當人們開始有意識地記錄每次航行過程中遇到的情況較差模型$(AncientMaritimeTechnologyDevelopment)$航海技術(shù)的發(fā)展是人類文明進步的重要標志之一。早期航海者依賴于自然現(xiàn)象和經(jīng)驗來確定方向，其中星象與航海圖是兩個關(guān)鍵因素。星象通過觀察天體的位置變化，可以為航海者提供方向指引；航海圖則記錄了海洋地形、風向等信息，幫助航海古代航海技術(shù)的發(fā)展經(jīng)歷了幾個重要的里程碑：&里程碑1&：早期航海者主要依靠觀察日月星辰來確定方位。&里程碑3&：隨著航海技術(shù)和航海圖的不斷進步，<篇幅有限省略>@@@@@@(古代航海技術(shù)發(fā)展)展示了人類智慧如何結(jié)合自然規(guī)律與科技注：錯誤原因為不滿足以下條件2.第二個答案只有一段錯誤內(nèi)容SuperCLUE-理科成績SuperCLUE-理科榜單排名模型分數(shù)---1--23--45-6789----來源：SuperCLUE,2025年1月8日；注：由于部分模型分數(shù)較為接近，為了減少問題波動對排名的影響，本次測評將相距1分區(qū)間的模型定義為并列，報告中分數(shù)展示為并列中高分。 1.o1在中文理科任務上具有大幅領(lǐng)先性，領(lǐng)跑全球頂尖大模型。頂尖模型。o1-preview取得80.6分緊隨其后。是全球僅有的超過80分的兩大模型。2.國內(nèi)頂尖大模型如Doubao-pro-32k-241215在理科任務上接近ChatGPT-4o-latestDoubao-pro-32k-241215、360zhinao2-o1、DeepSeek-V3和SenseChat5.5-latest在12月SuperCLUE-理科測評中領(lǐng)跑國內(nèi)大模型。有超過Claude3.5Sonnet(20241022)的表現(xiàn)。max-latest緊隨其后，分列國內(nèi)大模型第2、3名（含并列）。國內(nèi)頭部平均水平在理科任務上稍弱于海外模型名的理科得分相較于海外前三名平均低8.1分。理科能力是對邏輯性要求較高的任務，可模型在數(shù)理邏輯能力上已經(jīng)有非常大的進展。SuperCLUE-理科（計算+邏輯推理+代碼）計算能力榜單海外模型國內(nèi)前五名其他來源：SuperCLUE，2025年1月8日。海外模型國內(nèi)前五名其他來源：SuperCLUE，2025年1月8日。海外模型國內(nèi)前五名其他來源：SuperCLUE，2025年1月8日。示例-計算較差模型360zhinao2-o1SenseChat5.5-較差模型360zhinao2-o1（篇幅有限省略）（篇幅有限省略）（篇幅有限省略）（篇幅有限省略）（篇幅有限省略）（篇幅有限省略）（篇幅有限省略）（篇幅有限省略（篇幅有限省略）（篇幅有限省略）（篇幅有限省略（篇幅有限省略）（篇幅有限省略）40示例-代碼fromfromitertoolsimportproductfromtypingimportListdeftask_func(grid:List[List[int]],T:int)->int:"""你是一位城市規(guī)劃師，負責設計一個城市的公共交通網(wǎng)絡。城市被劃分為一個二維網(wǎng)格，每個格子代表一個區(qū)域，每個區(qū)域有一個高度值（表示其海拔）。為了方便市民出行，你需要在相鄰的區(qū)域之間鋪設交通線路（水平或豎直相鄰的格子之間）。然而，出于成本考慮，鋪設線路的區(qū)域之間的高度差不能超過一個給定的閾值T。計算可以鋪設的最多交通線路數(shù)量。參數(shù):-grid:二維列表，表示城市網(wǎng)格的高度。-T:整數(shù)，表示允許的最大高度差。返回值:-整數(shù)，表示可以鋪設的最多交通線路數(shù)量。"""Claude3.5Sonnet(20241022)Doubao-pro-32k-241215較差模型fromtypingimportListfromitertoolsimportproductfromfromtypingimportListfromitertoolsimportproductfromtypingimportListrowscols=len(grid)len(grid[0])m,n=len(grid),len(grid[0])count=0#檢查水平相鄰的格子fori,jinproduct(range(m),range(n)):whilestack:foriinrange(rows):ifi<m-1andabs(grid[i][j]-grid[i+1]count+=1if0<=nr<rowsand0<=nc<colsandnotvisited[nr][nc]andifj<n-1andabs(grid[i][j]-grid[i][j+1])<=T:abs(grid[nr][nc]-grid[r][c])<=T:count+=1#檢查垂直相鄰的格子returncount測試功能函數(shù)：通過測試功能函數(shù)：未通過，運行結(jié)果為3defcheck(candidate):defcheck(candidate):41SuperCLUE-文科成績SuperCLUE-文科榜單排名模型分數(shù)1SenseChat5.5-latest、Neb81.8-80.7280.7379.5-78.5478.2-77.2-76.8576.6-Gemini-2.0-Flash-Exp76.66Qwen2.5-3B-Instruct、訊飛星火V4.0、360Zhinao2-7B-Chat-4K、G75.5-73.7773.0-72.9871.3-70.7-69.4-68.1-56.9來源：SuperCLUE,2025年1月8日；注：由于部分模型分數(shù)較為接近，為了減少問題波動對排名的影響，本次測評將相距1分區(qū)間的模型定義為并列，報告中分數(shù)展示為并列中高分。 1.國內(nèi)大模型在文科任務上具有一定領(lǐng)先性。2.當前大模型在文科任務上區(qū)分度不高科任務上較為成熟。上稍領(lǐng)先海外模型對比數(shù)據(jù)看，國內(nèi)頭部模型稍領(lǐng)先于海外頭部模型。國外前三名模型的文科得分相較于國內(nèi)前三名平均低2.3分。4243SuperCLUE-文科（生成創(chuàng)作+語言理解+傳統(tǒng)安全）海外模型海外模型國內(nèi)前五名其他海外模型國內(nèi)前五名其他來源：海外模型國內(nèi)前五名其他來源：SuperCLUE，2025年1月8日。示例-文科Hunyuan-Turbo較差模型MiniMax-abab7-previewHunyuan-Turbo較差模型4445國內(nèi)大模型成熟度-SC成熟度指數(shù)1語言理解3高成熟度2生成與創(chuàng)作76.269.60.913邏輯推理71.058.90.83中成熟度4傳統(tǒng)安全86.471.20.825計算78.262.60.806深度推理0低成熟度7代碼68指令遵循35.714.00.399Agent75.05.00.07極低成熟度來源：SuperCLUE,2025年1月8日；SC成熟度指數(shù)=國內(nèi)閉源模型最差成績/國內(nèi)閉源模型最好成績國內(nèi)大模型成熟度分析1.高成熟度能力的重點應用場景。2.中成熟度能力【傳統(tǒng)安全】和【邏輯推理】，還有一定優(yōu)化空間。3.低成熟度能力4.極低成熟度能力指數(shù)在0.3以下。46評測與人類一致性驗證1：對比ChatbotArenaChatbotArena是當前英文領(lǐng)域較為權(quán)威的大模型排行榜，由LMSYSOrg開放組織構(gòu)建，它以公眾匿名投票的方式，對各種大型語言模型進行對抗評測。將SuperCLUE得分與ChatBotArena得分進行相關(guān)性計算，得到皮爾遜相關(guān)系數(shù)：0.92，P值：1.84e-07；斯皮爾曼相關(guān)系數(shù)：0.93，P值：9.33e-08；說明SuperCLUE基準測評的成績，與人類對模型的評估（以大眾匿名投票的ChatbotArena為典型代表），具有高度一致性。來源：SuperCLUE,2025年1月8日；47評測與人類一致性驗證2：對比人工評估12月SuperCLUE采用自動化評價的測評方式。1325道題目中針對4個模型，每個模型隨機抽取了113道題目進行人工復審。分在所有題目上的平均差距，最終計算得到可靠性。最終各模型可靠性指標結(jié)果如下：模型列表注：最終可靠性=sum（人類評分-模型評分）/總題目量所以，經(jīng)過驗證，SuperCLUE自動化評價有較高的可靠性。48第4部分開源模型進展評估1.開源模型榜單2.10B級別小模型榜單3.端側(cè)5B級別小模型榜單49開源模型榜單SuperCLUE開源榜單模型1233-4567-889--微軟--開源模型分析中文場景下，國內(nèi)開源模型已具備較大優(yōu)勢Llama-3.3-70B-Instruct的表現(xiàn)，引領(lǐng)全球開源生態(tài)。來源：SuperCLUE,2025年1月8日；注：由于部分模型分數(shù)較為接近，為了減少問題波動對排名的影響，本次測評將相距1分區(qū)間的模型定義為并列。其中模型參數(shù)量數(shù)據(jù)來源于官方披露，若模型為MoE架構(gòu)，以總參數(shù)量為準。10B級別小模型榜單SuperCLUE-10B級別小模型榜單排名模型機構(gòu)參數(shù)量分數(shù)1Qwen2.5-7B-Instruct阿里巴巴70億55.52GLM-4-9B-Chat智譜AI90億52.4-Gemma-2-9b-itGoogle90億48.63360Zhinao2-7B-Chat-4K36070億47.84Qwen2.5-3B-Instruct阿里巴巴30億46.15Yi-1.5-9B-Chat-16K零一萬物90億44.35MiniCPM3-4B面壁智能40億44.2-Llama-3.1-8B-InstructMeta80億43.9-Phi-3.5-Mini-Instruct微軟38億42.4-Gemma-2-2b-itGoogle20億39.2-Mistral-7B-Instruct-v0.3MistralAI70億33.2來源：SuperCLUE,2025年1月8日；注：由于部分模型分數(shù)較為接近，為了減少問題波動對排名的影響，本次測評將相距1分區(qū)間的模型定義為并列，報告中分數(shù)展示為并列中高分。10B級別小模型分析在本次SuperCLUE測評中，Qwen2.5-7B-Instruct取得55.5分，最高分，GLM-4-9B-chat取得52.4分，是國內(nèi)唯2超過507B-Chat-4K取得47.8分排名國內(nèi)第3，Qwen2.5-3B-Instruct、Yi- 先于海外模型內(nèi)10B小模型前三名模型的得分相較于國外前三名平均高出6.9分。端側(cè)5B級別小模型榜單2024年端側(cè)小模型快速發(fā)展，已在設備端側(cè)（非云）上實現(xiàn)本地運行，其中PC、手機、智能眼鏡、機器人等大量場景已展現(xiàn)出極高的落地可行性。國內(nèi)端側(cè)小模型進展迅速，相比國外小模型，國內(nèi)小模型在中文場景下展現(xiàn)出更好的性能表現(xiàn)Qwen2.5-3B-Instruct表現(xiàn)驚艷，取得總分46.1分的優(yōu)異成績，在SuperCLUE端側(cè)5B小模型榜單中排名榜首。其中理科44.2分、文科75.5分、Hard18.6分，與同等參數(shù)量級模型Phi-3.5-Mini-Instruct相比各個維度均有不同幅度的領(lǐng)先，展示出小參數(shù)量級模型極高的性價比。MiniCPM3-4B小模型同樣表現(xiàn)不俗，取得總分44.2分，有超過Gemma-2-2b-it和Phi-3.5-Mini-Instruct的效果。SuperCLUE端側(cè)5B級別小模型榜單12--來源：SuperCLUE,2025年1月8日第5部分智能體Agent基準1.AgentCLUE：可執(zhí)行多輪智能體測評基準AgentCLUE：可執(zhí)行多輪智能體測評基準大語言模型（LLM）近年來取得了極大的出色，例如數(shù)學、推理和編程等。然而，LLM作為Agent的潛力并未被充分開發(fā)。在Agent任務中，模型通常需要在迭代工作流程中執(zhí)行為更精確評估大語言模型（LLM）作為Agent的潛力，我們推出了新的中文場景下的Agent測評AgentCLUE。該基準基于可執(zhí)行的環(huán)境，在多輪對話中評估LLM作為執(zhí)行代理，調(diào)用工具（函數(shù)）完成目標任務的能力。AgentCLUE基準測評方案具有以下要點：執(zhí)行的測評環(huán)境、并且允許模型在與執(zhí)行環(huán)境的交互中實現(xiàn)自我反思改進。2.AgentCLUE中包含了四個任多輪對話、函數(shù)缺失、參數(shù)缺失和長上下文干擾），可調(diào)用的功能函數(shù)覆蓋多個現(xiàn)實場景，如文件系統(tǒng)、金融交易、智能車控、旅游等場景。FunctionCalling和Prompting兩種調(diào)用模式。4.AgentCLUE基準中，針對每個測評題目會回復是否正確。5.最終分數(shù)展示，將會包含一個總分和四個任務類別的得分；計劃按照兩種調(diào)用模式分別報告。申請測評：郵件標題：AgentCLUE測評申請，發(fā)送到contact@superclue.ai，請使用單位郵箱，郵件內(nèi)容包括：單位信息、大模型簡介、聯(lián)系人和所屬部門、聯(lián)系方式53第6部分推理基準1.SuperCLUE-CoT：鏈式推理測評基準2.SuperCLUE-Science：科學推理測評基準3.SuperCLUE-Math6o：中文數(shù)學競賽基準4.SuperCLUE-Math6：中文數(shù)學多步推理測評基準5.SuperCLUE-Code3：中文原生等級化代碼能力測評基準SuperCLUE-CoT：鏈式推理測評基準-h------------------------------------------------------測評結(jié)果------------------------------------------------wSuperCLUE-CoT是中文大模型鏈式推理能力測評基準，旨在深入評估模型的思維鏈推理能力。該測評不僅關(guān)注模型的解題過程和最終答案，還重點考察其構(gòu)建思維鏈和反思能力。測評內(nèi)容涵蓋了物理、化學、生物等科學領(lǐng)域的問題，以及編解碼等挑戰(zhàn)，全面檢驗模型在復雜推理任務中的表現(xiàn)。領(lǐng)先于國內(nèi)外所有大模型。在高難度的密碼解碼題和科學類的物理、化學、生物等任務中表現(xiàn)出色，展現(xiàn)lightning等。同時新增更多4級推理模型如InternThinker、3.閉源模型大多數(shù)優(yōu)于開源模型，但不及頭部開源大模型的推對比國內(nèi)外閉源模型和開源模型的推理分數(shù)，我們發(fā)現(xiàn)閉源大模型有非常顯著的優(yōu)勢，開源大模型除QwQ-32B-Preview、SuperCLUE-CoT數(shù)據(jù)集現(xiàn)已開放申請，請使用單位郵箱，將數(shù)據(jù)研究目的、計劃，研究機構(gòu)、申請者介紹和聯(lián)系方式（手機或微信），發(fā)送到郵箱，并承諾不向第三方提供。郵箱:contact@superclue.ai，標題是：SuperCLUE-CoT測試集申請SuperCLUE-Science：科學推理測評基準--測評維度及示例----------學專業(yè)知識的基準GPQA-Diamond上表現(xiàn)驚人，展現(xiàn)了比肩人類中文基準測評（SuperCLUE-Science）。這一基準主要專注于評申請測評：郵件標題：SuperCLUE-Science測評申請，發(fā)送到contact@superc

人人文庫> 全部分類> 應用文書 > 研究報告

溫馨提示

1. 本站所有資源如無特殊說明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁內(nèi)容里面會有圖紙預覽，若沒有圖紙預覽就沒有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 人人文庫網(wǎng)僅提供信息存儲空間，僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理，對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對任何下載內(nèi)容負責。
6. 下載文件中如有侵權(quán)或不適當內(nèi)容，請與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

中文大模型基準測評2024年度報告 -2024中文大模型階段性進展年度評估

文檔簡介

溫馨提示

最新文檔

評論

中文大模型基準測評2024年度報告 -2024中文大模型階段性進展年度評估

文檔簡介

溫馨提示

最新文檔

評論

相關(guān)文檔