大模型基準(zhǔn)測(cè)試體系研究報(bào)告(2024年)_第1頁
大模型基準(zhǔn)測(cè)試體系研究報(bào)告(2024年)_第2頁
大模型基準(zhǔn)測(cè)試體系研究報(bào)告(2024年)_第3頁
大模型基準(zhǔn)測(cè)試體系研究報(bào)告(2024年)_第4頁
大模型基準(zhǔn)測(cè)試體系研究報(bào)告(2024年)_第5頁
已閱讀5頁,還剩74頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1 2 4 9 17 20 23(一)“方升”大模型基準(zhǔn)測(cè)試體系 23(二)“方升”自適應(yīng)動(dòng)態(tài)測(cè)試方法 27(三)“方升”大模型測(cè)試體系實(shí)踐 30 35 35 36 36 5 6 7 8 9 24 27 28 6 40 41 411一、大模型基準(zhǔn)測(cè)試發(fā)展概述2一種經(jīng)典的人工智能測(cè)試方法,一直被認(rèn)為是衡量機(jī)器智能水平的theTuringtest—theraceisonfornewwaystoassessAI》,指出圖靈能水平。大模型基準(zhǔn)測(cè)試(Benchmark)的目標(biāo)是通過設(shè)計(jì)合理的測(cè)試任(一)大模型基準(zhǔn)測(cè)試的重要意義模型研發(fā)迭代周期正在縮短,OpenAI在一年時(shí)間內(nèi)先后發(fā)布駝”開源大模型生態(tài)圈。在如此高的迭代頻率下,大模型基準(zhǔn)測(cè)試可3而應(yīng)該作為起點(diǎn)驅(qū)動(dòng)模型開發(fā)。構(gòu)建以能力提升為目標(biāo)的評(píng)估立“開發(fā)-部署-應(yīng)用-測(cè)試”的閉環(huán)流程將縮短產(chǎn)品迭代周期。注的話題。國(guó)外大模型榜單OpenLLMLeaderboard使用4個(gè)公開數(shù)模型(如GPT-4)對(duì)大模型進(jìn)行評(píng)估,提升評(píng)測(cè)效率。國(guó)內(nèi)的三是支撐行業(yè)應(yīng)用。近期,“人工智能+”行動(dòng)4(二)蓬勃發(fā)展的大模型基準(zhǔn)測(cè)試HELM和HEIM、上海AI實(shí)驗(yàn)室的OpenCompass、北京智源5 6%7%53%21% 6%7%53%21%6數(shù)量(個(gè))數(shù)量(個(gè))0年份(年)集,并主要針對(duì)大模型的英文能力進(jìn)行測(cè)試。對(duì)于多模態(tài)大模型,□□□□□□□GPT-4LlaMA2LlaMA3GeminiClaude3Mixtral8x7BGLM4√√√√√√√√√√√√√ARC√√√√√√HumanEval√√√√√√√√√√√√√√√√WinoGrande√√√√√√√√√7√√√√√√√√√√√√AGIEval√√√√√√N(yùn)Q√√√√√√√√艾倫人工智能研究所(AI2)由于在傳統(tǒng)自然語言處理數(shù)據(jù)集上的貢數(shù)量數(shù)量86420發(fā)布機(jī)構(gòu)8差距明顯。9未開源未開源31%(三)大模型評(píng)測(cè)發(fā)展共性與差異準(zhǔn),而近期面向行業(yè)和應(yīng)用的評(píng)測(cè)數(shù)據(jù)集已得1除了上述共性外,大模型基準(zhǔn)測(cè)試數(shù)據(jù)集也表現(xiàn)出一定差異性,模型的訓(xùn)練可分為預(yù)訓(xùn)練、監(jiān)督式微調(diào)、強(qiáng)化學(xué)習(xí)訓(xùn)練等幾個(gè)階段,1二、大模型基準(zhǔn)測(cè)試現(xiàn)狀分析(一)大模型基準(zhǔn)測(cè)試體系總體介紹-任務(wù)-指標(biāo)>四層結(jié)構(gòu)進(jìn)行構(gòu)建。測(cè)試場(chǎng)景定義了待測(cè)試模型的外在11智能等應(yīng)用中的效果。代表性的評(píng)測(cè)數(shù)據(jù)集如附錄表3所示,包括大模型基準(zhǔn)測(cè)試方法的研究主要集中在大模型的整體評(píng)測(cè)流程求進(jìn)行全面和準(zhǔn)確的覆蓋,有助于確保測(cè)試活動(dòng)的有效性和高效111現(xiàn)有研究嘗試將大模型作為自動(dòng)化結(jié)果評(píng)估工具來對(duì)其它模型withLanguage-Model-as-an-Examiner》等論文結(jié)果,這裁判網(wǎng)絡(luò)來提升評(píng)估效果。中科院在論文《Wideranddeeperllm1基準(zhǔn)測(cè)試工具在測(cè)試數(shù)據(jù)集構(gòu)建和測(cè)試結(jié)果評(píng)估階段仍然需要人工來源:《LLMeBench:AFlexibleFrameworkforAcceleratingLLMsBe(二)代表性的大模型基準(zhǔn)測(cè)試體系1來源:《HolisticEvaluationofLanguageModels》HEIM(HolisticEvaluationofText-to-ImageModels)是由斯坦福12大能力客觀題評(píng)測(cè)、瑯琊榜匿名對(duì)戰(zhàn)基準(zhǔn)、Agent智能體能力評(píng)估、2drivingCornerCases》,重點(diǎn)對(duì)多模態(tài)模型在自動(dòng)駕駛“邊緣場(chǎng)景”2型的排名上有明顯的差異。在清華大學(xué)發(fā)表的論文《Understanding試數(shù)據(jù)容易被包含在訓(xùn)練數(shù)據(jù)中進(jìn)行訓(xùn)練,造成數(shù)據(jù)“污染”問題。產(chǎn)學(xué)研各界需要研究數(shù)據(jù)“污染”的檢測(cè)手段,降低大模型“刷榜”2三、大模型基準(zhǔn)測(cè)試體系框架系、測(cè)試方法、測(cè)試數(shù)據(jù)集和測(cè)試工具四個(gè)維度出發(fā),構(gòu)建“方升”(一)“方升”大模型基準(zhǔn)測(cè)試體系的行業(yè)能力測(cè)試(Industry-OrientedTesting,IOT)、應(yīng)用能力測(cè)試2測(cè)試體系除了對(duì)大模型的指標(biāo)體系進(jìn)行科學(xué)化設(shè)計(jì),還對(duì)測(cè)試方法、測(cè)試數(shù)據(jù)集和測(cè)試工具提供規(guī)范化的建設(shè)思路。在指標(biāo)體系中,“方升”測(cè)試體系除了關(guān)注通用能力和安全能力,還重點(diǎn)考察大模型在行2解能力、生成能力、推理能力、知識(shí)能力、學(xué)科長(zhǎng)文本能力、思維鏈能力、角色扮演能力、工具“方升”測(cè)試體系在大模型行業(yè)測(cè)試(IOT)領(lǐng)域進(jìn)行重點(diǎn)布局,已針對(duì)多個(gè)重點(diǎn)行業(yè)中的典型應(yīng)用場(chǎng)景進(jìn)行梳22(二)“方升”自適應(yīng)動(dòng)態(tài)測(cè)試方法“方升”測(cè)試體系中的指標(biāo)部分通過對(duì)大模型測(cè)試領(lǐng)域和指標(biāo)的動(dòng)態(tài)測(cè)試數(shù)據(jù)庫(kù)主要解決大模型測(cè)試“刷榜”和評(píng)測(cè)數(shù)據(jù)“靜態(tài)化”問2據(jù)進(jìn)行“標(biāo)簽化”處理,完成測(cè)試數(shù)據(jù)精準(zhǔn)“畫像”。如圖13所示,“方升”測(cè)試體系中的測(cè)試數(shù)據(jù)會(huì)賦予特定的“測(cè)試標(biāo)簽”,例如所屬數(shù)據(jù)多維度的數(shù)據(jù)標(biāo)簽刻畫,充分提升測(cè)試數(shù)據(jù)的準(zhǔn)測(cè)試的“門檻”。測(cè)試人員在實(shí)際測(cè)試時(shí),可以參照“方升”測(cè)試體系“自頂至下”依次在“行業(yè)”、“應(yīng)用”和“通用”中選擇需要的測(cè)試2“方升”測(cè)試體系可以根據(jù)用戶的選擇自動(dòng)化推薦測(cè)試所需的“數(shù)據(jù)”題庫(kù)中已有題目“生成”出一些評(píng)測(cè)題目,從而防止大模型通過“刷題”和“記題”等方式提升模型表現(xiàn)。智能算法生成常利用高質(zhì)量提示域全面,但測(cè)試的成本高、周期長(zhǎng)。并且如果大3(三)“方升”大模型測(cè)試體系實(shí)踐33內(nèi)商業(yè)大模型。所評(píng)測(cè)開源大模型中既包含國(guó)外大模型LLaMA2、3 Vicuna-7B3四、總結(jié)與展望(一)形成面向產(chǎn)業(yè)應(yīng)用的大模型評(píng)測(cè)體系3

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論