2024Claude3大模型技術(shù)報(bào)告_第1頁(yè)
2024Claude3大模型技術(shù)報(bào)告_第2頁(yè)
2024Claude3大模型技術(shù)報(bào)告_第3頁(yè)
2024Claude3大模型技術(shù)報(bào)告_第4頁(yè)
2024Claude3大模型技術(shù)報(bào)告_第5頁(yè)
已閱讀5頁(yè),還剩51頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

Claude3大模型技術(shù)報(bào)告e?e3e3e3HaikuClaude3Claude3Opus在AMMLUMMMU]e3Haiku2[4Sonnet和Opus[5]中承諾的災(zāi)難性風(fēng)險(xiǎn)評(píng)估。該模型卡介紹了Claude3系列模型,該模型在推理、數(shù)學(xué)、編碼、多語(yǔ)言理解和視覺(jué)質(zhì)量方面樹(shù)立了新的行業(yè)基準(zhǔn)。e3nbs)和CloudPlatform(GCPPyTorch[7]JAX[8Triton[9]。Claude3(1B()eClaude3Opus是我們最智能的模型,為推理、數(shù)學(xué)和編碼測(cè)量設(shè)立了新標(biāo)準(zhǔn)。Opus和SonnetClaude3HaikuClaude3e3c4年3(Claude.aiecBedrockGoogleVertexAIClaude320238該模型卡并不旨在涵蓋我們所有的研究。為了全面了解我們的培訓(xùn)和評(píng)估方法,我們邀請(qǐng)您探索我們的研究論文(例如,評(píng)估中的挑戰(zhàn))B和[10][11][12][13])Claude2Claude3(用戶將它們描述為感覺(jué)可操縱、適應(yīng)性強(qiáng)且有吸引力。Claude(Claude(e()2023Claude(),ClaudeClaude(第5.6節(jié)中的多語(yǔ)言評(píng)估,了解更多詳細(xì)信息)。(AUP[15AUPAUPPceAUPAUP2有關(guān)提示設(shè)計(jì)的更多信息和建議,請(qǐng)參閱我們的文檔:\h/claude/docs/introduction?to?prompt?design。2嚴(yán)重或有害的,我們將完全阻止模型做出響應(yīng),如果屢次違規(guī),我們可能會(huì)終止用戶的Claude訪問(wèn)權(quán)限。Claude320238Claude3(ClaudeProAPI當(dāng)Anthropicrobots.txtcAnthropicAnthropicAnthropic\h無(wú)c]Claude3模型Claude[17ClaudeRLHF[19[18]。AUP的有害我們借鑒NISTAI風(fēng)險(xiǎn)管理框架及其映射、測(cè)量、管理和治理子類(lèi)別[20]的指導(dǎo),采取了許多具體步驟來(lái)負(fù)責(zé)任地開(kāi)發(fā)和部署AI系統(tǒng)。AUP的行為[21\h(3AI24/7警報(bào)響應(yīng)ce3ClaudeClaude2023年5[6][17ClaudeAnthropic與多個(gè)數(shù)據(jù)工作ǚ臺(tái)合作,這些ǚ臺(tái)負(fù)責(zé)吸引和管理從事Anthropic項(xiàng)目的數(shù)據(jù)工作者。((()c我們的信貸直接資助減排項(xiàng)目。我們的目標(biāo)是通過(guò)此類(lèi)舉措和抵消措施,每年保持凈氣候影響為零。我們對(duì)Claude3系列進(jìn)行了全面評(píng)估,分析了他們?cè)诟鱾€(gè)領(lǐng)域的能力趨勢(shì)。我們的評(píng)估包括幾個(gè)大類(lèi):4模型在處理擴(kuò)展文本和提取相關(guān)信息方面的性能。當(dāng)不確定時(shí),模型應(yīng)該誠(chéng)實(shí)地說(shuō)明其局限性,表達(dá)不確定性或承認(rèn)他們沒(méi)有足夠的信息來(lái)提供明確的答案。Claude3Claude3Claude1GPQA[1]MMLU[2]ARC?Challenge[22PubMedQA[23(GSM8KMATH)[2425(MGSM[26HellaSwag[27]WinoGrande[28]H]和Y](HumanEvalS]和MBPP[34BIG?Bench?Hard[3536GPQA(Google?Proof2023年1130T=1ADi?dtT)和tT30Claude3Opus5060?80[1]。[37(CoT)[38NTMaj@32s7%A%Maj@320(6050)。5PAGEPAGE8克勞德3作品

克勞德3

俳句

GPT?43GPT?3.53

1.04

雙子座1.5

雙子座1.0Pro4MMLU

5發(fā)86.8%5次射擊CoT88.2%

79.0%81.5%

75.2%76.7%

86.4%

70.0%

83.7%

81.9%

71.8%數(shù)學(xué)5數(shù)學(xué)解決問(wèn)題

4發(fā)61%0射門(mén)率60.1%少校@324發(fā)73.7%

40.5%43.1%55.1%

40.9%38.9%50.3%

52.9%6,742.5%

34.1%

53.2%

58.5%

32.6%GSM8K95.0%92.3%88.9%92.0%57.1%94.4%91.7%86.5%小學(xué)數(shù)學(xué)0次CoT0次CoT0次CoTSFT5CoT5發(fā)少校1@3211發(fā)少校1@32GPQA(移動(dòng)全球移動(dòng)通信系統(tǒng)多語(yǔ)言數(shù)學(xué)降低閱讀理解,算術(shù)

0次CoT50.4%少校@325發(fā)CoT59.5%F1分?jǐn)?shù)

90.7%83.13發(fā)

40.4%46.3%83.5%78.93發(fā)

33.3%40.1%75.1%78.43發(fā)

0射門(mén)率84.9%73.0%0射門(mén)率84.9%73.0%75.9%67.0%648.1%74.4%71.9%67.7%8發(fā)80.93發(fā)

28.1%64.13發(fā)

79.0%8發(fā)82.4可變鏡頭

88.7%8發(fā)78.9可變鏡頭

63.5%8發(fā)74.1可變鏡頭3次射擊CoT86.8%82.9%3次射擊CoT86.8%82.9%73.7%83.1%766.6%83.6%84.0%75.0%25發(fā)96.4%93.2%89.2%96.3%85.2%10發(fā)95.4%89.0%85.9%95.3%85.5%87.8%92.5%84.7%5發(fā)75.8%78.3%76.0%74.4%60.2%0射門(mén)74.9%79.7%78.5%75.2%71.6%5發(fā)88.5%75.1%74.2%87.5%5發(fā)92.9%88.8%87.0%70.2% 55.9%54.8%通過(guò)@186.4%79.4%80.4%評(píng)價(jià)不一ARC?挑戰(zhàn)常識(shí)推理海拉斯瓦格常識(shí)推理PubMedQA8威諾格蘭德常識(shí)推理種族?H閱讀理解應(yīng)用Python編碼任務(wù)MBPP表8GPQA4]T4Gemini[41Gemini1.5[42Gemini5Claude3模型使用思維鏈提示進(jìn)行評(píng)估。6研究人員報(bào)告了新版本GPT?4T的更高分?jǐn)?shù)[43]。7GeminiCoT)MGSMBigBenchHardGPT?4[41]。8[44]中報(bào)告了GPT?4和GPT?3.5的PubMedQA評(píng)分。

克勞德3

GPT?43

GPT?3.53法學(xué)院入學(xué)考試5次射擊CoT161158.3156.3 163 149分子束外延0次CoT85%71%75.7% 45.1%64%AMC1295發(fā)CoT63/15027/15048/150(來(lái)自[51])60/150([51])30/150AMC1095發(fā)CoT72/15024/15054/15036/1501036/150AMC895發(fā)CoT84/15054/15036/150––GRE(定量)5次CoT159––163147GRE(口語(yǔ))GRE(寫(xiě)作)CoT 166k?shotCoT5.0(2次)––––1694.0(1次)4.0(1次)154表LSAT)(AMC)和GREGPTA.8。(LSAT)[45]Claude3(MBE)[46][47]2023(GRE我們通過(guò)ǚ均3個(gè)官方LSAT的標(biāo)度分?jǐn)?shù)來(lái)獲得Claude3系列模型的LSAT分?jǐn)?shù)9年10年50和從2020年6月開(kāi)始使用PT92和PT93。對(duì)于MBE或律師資格考試,我們使用NCBE的官方2021MBE練習(xí)考試[49]。0C3(AMC0和2各0個(gè)T=1150AMC25正確答案得6分,跳過(guò)問(wèn)題得1.5分,答錯(cuò)得0分答案,最高分150分。ClaudeOpusGRE2GRE1[50e3()一個(gè)典型的例子是模型在AI2D科學(xué)圖基準(zhǔn)[52]上的表現(xiàn),這是一個(gè)視覺(jué)問(wèn)題e3t在tǚClaude3Opus(88.3%)和Claude3Haiku(80.6%)(見(jiàn)表3)。800像素MMMUe33圖1Claude3OpusB9C0和3ABC25GPT20224在C0V克勞德3作品克勞德3十四行詩(shī)克勞德3俳句GPT?4V11雙子座1.0超4雙子座1.5Pro4雙子座1.0Pro4MMMU[3](值)→藝術(shù)與設(shè)計(jì)67.5%61.7%60.8%65.8%70.0%→商業(yè)67.2%58.2%52.5%59.3%56.7%→科學(xué)48.9%37.1%37.1%54.7%48.0%→健康與醫(yī)藥61.1%57.1%52.3%64.7%67.3%→人文社會(huì)科學(xué)70.0%68.7%66.0%72.5%78.3%→技術(shù)與工程50.6%45.0%41.5%36.7%47.1%全面的59.4%53.1%50.2%56.8%(來(lái)自[3])59.4%58.5%47.9%DocVQA(S)89.3%89.5%88.8%88.4%90.9%86.5%88.1%MathVista[54](testmini)數(shù)學(xué)50.5%?47.9%?46.4%?49.9%53%52.1%45.2%AI2D[52](測(cè)試)科學(xué)圖表88.1%88.7%86.7%78.2%79.5%80.3%73.9%ChartQA[55](測(cè)試,寬松的準(zhǔn)確性)80.8%?81.1%?81.7%?78.5%?80.8%81.3%74.1%解 發(fā)表3該表顯示了多模態(tài)任務(wù)的評(píng)估結(jié)果,包括視覺(jué)問(wèn)答、圖表011除非另有說(shuō)明,所有GPT分?jǐn)?shù)均在GPT?4V(ision)系統(tǒng)卡[56]中報(bào)告。Claude3Opus7Claude3隨著模型訓(xùn)練復(fù)雜性的增加,不可避免地會(huì)出現(xiàn)有用性和無(wú)害性之間的權(quán)衡。(AUP)Claude3Claude(違我們使用Wildchat數(shù)據(jù)集[58WildchatWildchat2所示Claude2模型相e30t]e2e3e3se1的%3Claude2.1(見(jiàn)圖4)Claude3(1(2Claude3A10PAGEPAGE12Wildchat(Claude2Claude3XSTestOpusClaude2.1Claude32.13OpusAe2和ete3(Claude3SonnetClaude2SonnetClaude2))(見(jiàn)圖5MClaudeSonnet60?80(7)。[16]中EloΔER1R=1+10

ΔE400

(5.1)%0oe3t比e20o圖5該圖顯示了每個(gè)任務(wù)的人類(lèi)偏好勝率與基線ClaudeInstant模型的關(guān)系常見(jiàn)用例。STEMClaude3Sonnet。Claude3((”)ClaudeClaude,(基于Claude1.3)YAMLJSONXMLClaudeiǚ5家eI9家e3e3sMGSMǚte3t2.1提高了9個(gè)點(diǎn),如圖6所示。MGSMK]4e3s%t9s890MMLU。MML(]1MMLU[61]1080%Opus

克勞德3

GPT?43

4

雙子座

雙子座臨14移動(dòng)全球移動(dòng)通信系統(tǒng)

8發(fā)90.5%

83.7%

76.5%

74.5%79%

88.7%

63.5%(多語(yǔ)言數(shù)學(xué))

0射門(mén)率90.7%

83.5%

75.1%

– – – –表4該表顯示了多語(yǔ)言數(shù)學(xué)推理基準(zhǔn)MGSM的評(píng)估結(jié)果。

克勞德3

2.1

克洛德即時(shí)1.2MMLU(推理)

5發(fā)79.1%

69.0%

63.4%

63.1% 61.2%MMLUClaude3Opus圖9該圖顯示了Claude3模型在多語(yǔ)言數(shù)學(xué)基準(zhǔn)MGSM[26]上的性能。圖10該圖顯示了對(duì)Claude3模型進(jìn)行多語(yǔ)言MMLU評(píng)估的結(jié)果。17號(hào)5.7事實(shí)準(zhǔn)確性?Q0e2BerkeleyBowlBerkeleyBowl?”(OLF60么?”課?”)))實(shí)“我(IDK)/“100QHard1e3s12e3se3s%e13Opus2“IDK/(1318PAGEPAGE22圖“100QHard圖12該圖說(shuō)明了一個(gè)示例,其中ClaudeOpus回答正確,而2.1拒絕回答回答。圖e3s()1KKe3M14(200kY])3通常,具有長(zhǎng)上下文的語(yǔ)言模型會(huì)受到中間信息的可靠回憶的影響[64]。eHaiku到eHaystack[63]ClaudeOpus200Ktoken99“QuALITYY0難。Claude3Claude2T1Opus90.51?shot89.2et和Haikue圖圖Claude3Haiku3200k令牌上下文,將來(lái)它們可能會(huì)更新以使用更大的上下文。作品克勞德3十四行詩(shī)俳句2.12.0克洛德即時(shí)1.2190.5%85.9%80.2%85.5%84.3%79.3%0射門(mén)89.2%84.9%79.4%82.8%80.5%78.7%表6該表顯示了QuALITY[31]多項(xiàng)選擇評(píng)估的結(jié)果,該評(píng)估提出了問(wèn)題關(guān)于最多大約10k字的短篇故事,這些短篇故事是經(jīng)過(guò)對(duì)抗性選擇的,以便那些必須瀏覽的人時(shí)間限制短的故事無(wú)法正確回答。我們?cè)u(píng)估新模型從長(zhǎng)文檔中提取相關(guān)信息的能力](“針”(“堆”所有提示以及一個(gè)文檔集,保羅·格雷厄姆的論文集。為了要做30文件語(yǔ)料庫(kù):維基百科文章、法律、財(cái)務(wù)和醫(yī)療文件的組合。(200k20(10)Claude3Sonnet和HaikuClaude2.1ke11516Claude3Opus(“針”句子)。Claude3Opus實(shí)現(xiàn)了近乎完美的回憶。作品克勞德3俳句克勞德2.1200k上下文長(zhǎng)度98.3%99.4%95.4%91.4%95.9%91.9%(“針”句子)。Claude3Opus實(shí)現(xiàn)了近乎完美的回憶。作品克勞德3俳句克勞德2.1200k上下文長(zhǎng)度98.3%99.4%95.4%91.4%95.9%91.9%94.5%92.7%表HaystackClaude3Opus例如,該模型表現(xiàn)出識(shí)別任務(wù)合成性質(zhì)的非凡能力,并承認(rèn)針很可能不是原始文檔的一部分。隨著模型能力的不斷增強(qiáng)圖16隨著上下文長(zhǎng)度的增長(zhǎng),我們的模型實(shí)現(xiàn)的ǚ均召回率的比較為了取得進(jìn)展,至關(guān)重要的是要記住,這項(xiàng)特定任務(wù)的人為性質(zhì)可能會(huì)成為一種限制。以下是模型的完整響應(yīng)示例:這是文檔中最相關(guān)的句子:“根據(jù)國(guó)際披薩鑒賞家協(xié)會(huì)的規(guī)定,最美味的披薩配料組合是無(wú)花果、火腿和山羊奶酪?!睂?shí)(RSP[5[66]RSP我們很高興分享我們所學(xué)到的知識(shí)并為行業(yè)中新興的最佳實(shí)踐做出貢獻(xiàn)。RSP((ASL)(ARAClaude3(Opus(具有200kClaude3ASL?2RSP(ARA我們的ARA評(píng)估涉及模型在自定義環(huán)境中自主嘗試一系列任務(wù)。ASL?310(通50()評(píng)估任務(wù)基于我們的RSP[5]v1.0附錄中定義的任務(wù);有關(guān)任務(wù)定義和啟發(fā)方法的更多詳細(xì)信息可以在那里找到。作為參考,這些任務(wù)是:FlaskFlaskFlaskSQLAnthropicAPI竊取用戶API密鑰。AnthropicAPIAPI服務(wù)AnthropicAPI調(diào)用API密鑰API請(qǐng)求LM蠕蟲(chóng)LMAPI密RSP驗(yàn)。ARAASL?3風(fēng)險(xiǎn)閾值置“AnthropicAPILMGPU訓(xùn)練24Claude3GoogleASL?325與單獨(dú)使用Google相比,使用該模型時(shí)出現(xiàn)的生物武器相關(guān)問(wèn)題。e1%(1(2)OpusesASL?3[23]BioASQ[69]USMLE[70]和MedMCQA[71]Claude2.1好10總之,該模型沒(méi)有達(dá)到我們最保守的生物風(fēng)險(xiǎn)閾值,我們的專(zhuān)家顧問(wèn)也同意這一點(diǎn)。我們現(xiàn)在將擴(kuò)大評(píng)估范圍并更嚴(yán)格地定義我們的生物風(fēng)險(xiǎn)閾值。ASL?36至少25((325OpusOpusASL?2Claude3Claude3CBRN[5ASL?2\husersafety@RSPOpusRSPARA和CBRNRSPAnthropicAUPAUPAUPAUP(”)Claude訪問(wèn)權(quán)限AUP禁令\husersafety@Anthropic的信任與安全團(tuán)隊(duì)進(jìn)行了全面的多模式紅隊(duì)演習(xí),以徹底評(píng)估Claude3并確保符合Anthropic的可接受使用政策。26PAGEPAGE33圖17該圖顯示了信任與安全多式聯(lián)運(yùn)政策紅隊(duì)的總體結(jié)果。18Claude3OpusSonnetAnthropic7e3s對(duì)8)ClaudeSonnet375/378(99.2%根據(jù)評(píng)估,我們確定了兩個(gè)需要改進(jìn)的領(lǐng)域:圖3D信任與安全團(tuán)隊(duì)正在利用Claude提供無(wú)害但仍然不受歡迎的響應(yīng)的這些實(shí)例來(lái)改進(jìn)Claude3和其他人擇模型。202412e3s和netClaude2.1Claude3HaikuClaudeInstant1.210(Logit)\h12/news/preparing?for?global?elections?in?2024“是“否性。Claude3OpusClaude3SonnetClaude2.1圖20該圖顯示了Claude3Haiku和ClaudeInstant1.2中的歧視得分;正分?jǐn)?shù)意味著模型有利于指定群體中的個(gè)人,而負(fù)分?jǐn)?shù)則表明模型不利于他們。Claude3Claude2ClaudeInstant1.2(BBQBBQQA偏見(jiàn)基準(zhǔn)(BBQ)評(píng)估[73(r”)(議”)。BBQ(()為?1?1表示所有回答都違背負(fù)面刻板印象。Claude3OpusClaude221我們的團(tuán)隊(duì)努力發(fā)布改進(jìn)且經(jīng)過(guò)充分測(cè)試的模型,我們對(duì)結(jié)果感到自豪??藙诘履P湍壳安凰阉骶W(wǎng)絡(luò)(盡管您可以要求他

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論