版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)
文檔簡介
目錄Claude3技術(shù)報告解讀 1RAG:長文本窗口不構(gòu)成對RAG的100%替代 9投資評價和建議 13風險分析 14請務(wù)必閱讀正文之后的免責條款和聲明。Claude3技術(shù)報告解讀AnthropicClaude3多模態(tài)能力評估。Claude3的技術(shù)報告1首先GPQADiamond是一個研究生級別的問答基準,難題側(cè)重于研究生水平的專業(yè)知識和推理,每個問題限時30分鐘,并且可以通過互聯(lián)網(wǎng)搜集信息,Claude3CoT(Temp=12)設(shè)置下方差很大,Claude10次評估的平均值為結(jié)果,但這一做Diamond81.2%3Claude等模型。Claude3 ClaudeOpus SonnetClaude3HaikuClaude3 ClaudeOpus SonnetClaude3HaikuGPT-4Gemini1.0UltraGemini1.5ProMMLUGeneralreasoning5-shot86.8%79.0%75.2%81.5% 76.7%90.1%Medprompt+——83.7%81.9%5-shotCoT88.2%————MATHMathematicalproblemsolving0-shotMaj@324-shot60.1%43.1%38.9%68.4%53.20%——73.7%55.1%50.3%——————GSM8KGradeschool95.0%0-shotCoT92.3%0-shotCoT88.9%0-shotCoT95.3%0-shotCoT94.4%0-shot91.7%11-shotHumanEvalPythoncodingtasks0-shot84.9%73.0%75.9%87.8%74.4%71.9%GPQA(Diamond)GraduatelevelQ&A0-shotCoT50.4%40.4%33.3%35.7%————MGSMMultilingualmathDROPReadingcomprehensionarithmetic90.7%0-shot83.5%0-shot75.1%0-shot74.5%8-shotF1Score79.0%8-shot82.4Zero-shot+CoT88.7%8-shot78.9Variableshots83.6%BIG-Bench-Hard89.0%Co83.178.978.483.73-shot3-shot3-shotZero-shot+CoTMixedevaluations3-shotCoT86.8%82.9%73.7%Few-shot+ 84.0%Few-shot+CoTCoTARC-Challenge25-shotmmon-sensereasoning96.4%93.2%89.2%96.3%————HellaSwag 10-shot95.4%89.0%85.9%95.3%87.8%92.5%1/de8ba9b01c9ab7cbabf5c33b80b7bbc618857627/Model_Card_Claude_3.pdf2使用Chain-of-Thought技術(shù)進行采樣,并將溫度參數(shù)(temperature)設(shè)置為1。溫度參數(shù)在文本生成中用于控制生成文本的多樣性和隨機性。較高的溫度值會產(chǎn)生更多的隨機性和多樣性,而較低的溫度值會產(chǎn)生更加確定性和一致性的文本。3/pdf/2311.12022.pdf請務(wù)必閱讀正文之后的免責條款和聲明。Common-sensereasoningPubMedQABiomedicalquestions5-shot75.8%78.3%76.0%74.4%—— ——0-shot74.9%79.7%78.5%75.2%—— ——WinoGrandeCommon-sensereasoning5-shot88.5%75.1%74.2%87.5%RACE-HReadingcomprehension5-shot92.9%88.8%87.0%——APPSPythoncodingtasksO-shot70.2%55.9%54.8%——MBPPCodegenerationPass@186.4%79.4%80.4%——資料來源:Claude4,Promptbase5,注:GPQAGPT-4202311NYU、Cohere、AnthropicGPQA:AGraduate-LevelGoogle-ProofQ&ABenchmark其他測試集方面,Claude3Opus和GPT-4Turbo/GPT-4在代碼、科學計算、通用推理等領(lǐng)域表現(xiàn)基本接近。需要指出的是,由于以上測試結(jié)果多為有限測試的平均值,因此兩個模型極小的差異可能被重復測試所改寫,但大體上我們只能認為Claude3Opus和GPT-4Turbo/GPT-4在這些領(lǐng)域處于同一水平。目前基于文本領(lǐng)域的性能,LLM的排序為GPT-4Turbo≈Claude3Opus>Gemini1.0Ultra。長文本方面,Claude進行了QuALITY和Haystack兩種測試,較Claude2/1模型穩(wěn)步提升。QuALITY是一個多項選擇問答數(shù)據(jù)集,旨在評估語言模型對長格式文檔的理解能力,該數(shù)據(jù)集中的上下文段落平均長度約為5,000個token。在此基準測試上人類的表現(xiàn)達到93.5%,Claude3Opus在0-shot/1-shot情況下分別達到89.2%/90.5%的準確率,接近人類的準確率。Haystack方面,Claude3系列模型的召回率穩(wěn)定在90%以上。圖1:Claude系列模型在QuALITY測試集的表現(xiàn)數(shù)據(jù)來源:《TheClaude3ModelFamily:Opus,Sonnet,Haiku》,4https:///news/claude-3-family5/microsoft/promptbase海外行業(yè)動態(tài)報告圖2:Claude3Opus海底撈針測試召回率 圖3:Claude3Sonnet海底撈針測試召回率數(shù)據(jù)來源:《TheClaude3ModelFamily:Opus,Sonnet,Haiku》,
數(shù)據(jù)來源:《TheClaude3ModelFamily:Opus,Sonnet,Haiku》,圖4:Claude3/2.1模型在Haystack測試集的表現(xiàn)(召回率%)數(shù)據(jù)來源:《TheClaude3ModelFamily:Opus,Sonnet,Haiku》,由于長文本測試的結(jié)果對實驗設(shè)置高度敏感,我們這里展開討論該~99%召回率的真實意義。TheNeedleinaHaystackLLMRAG系統(tǒng)在不同規(guī)模環(huán)境下的性能。它的工作原理是將特定的、有針對性的信息(Needle)嵌入到更大、更復雜的內(nèi)容(Haystack)中。ANeedleintheHaystackLLM在大量數(shù)據(jù)中識別和利用特定信息的能力。進行測試時,實驗團隊將一個外部創(chuàng)建的內(nèi)容(Needle)放置在一本書/文章(Haystack)的不同位置/LLMNeedle相關(guān)的問題(whatisthebestthingtodoinSanFrancisco?),并在文檔不同深度(1K2Ktoken)LLM的表現(xiàn),3-4的召回率圖像。圖5:在PaulGraham的文章中插入一段不相關(guān)的話數(shù)據(jù)來源:海外行業(yè)動態(tài)報告海底撈針測試對Prompt高度敏感。通過觀察Claude2.1的測試結(jié)果,我們注意到靠近文檔底部的內(nèi)容召回率總體較高,而靠近文檔頂部的內(nèi)容召回率則較低,且這與Anthropic官方發(fā)布的Claude2.1測試結(jié)果有較大差異。根據(jù)Anthropic,若調(diào)整Prompt(添加了一句提示“Hereisthemostrelevantsentenceinthecontext:”),Claude2.1的總體召回率從27%提升至98%。圖6:左圖為Claude-2.1200K的海底撈針測試結(jié)果(2024年2月),右圖為Claude官方測試結(jié)果(2023年12月)數(shù)據(jù)來源:Anthropic6,6https:///news/claude-2-1-prompting海外行業(yè)動態(tài)報告圖7:Claude2.1對海底撈針測試的Prompt進行更新數(shù)據(jù)來源:Anthropic7,海底撈針測試對實驗內(nèi)容高度敏感。Arize團隊對海底撈針測試進行了調(diào)整,將針設(shè)置為一個隨機數(shù)字,LLMPrompt進行測試。結(jié)果表明,ArizeClaude2.198%Prompt修改后召回率有所提升(164次下74次)。Claude/GPT/Gemini等模型的長文本性能上,需要仔細考慮其實驗設(shè)置(本/數(shù)字,是否隨機,prompt是否微調(diào)),再進行橫向比較。另外,更具現(xiàn)實意義的問題是,長文本下人們通常的需求是取出相關(guān)內(nèi)容,并進行推理,尤其是一些復雜問題的推理,過于簡單的實驗設(shè)置8可能高估模型的性能。圖8:Claude2.1在有無Prompt精調(diào)下的召回率對比(從87%提升至94%)數(shù)據(jù)來源:Arize,7https:///news/claude-2-1-prompting8現(xiàn)有的測試主要是取出內(nèi)容,幾乎不涉及復雜推理,Needle的內(nèi)容高度一致可能導致緩存,因此引入隨機Needle非常重要,且提問應該涉及一定難度的推理,更貼近現(xiàn)實需求。海外行業(yè)動態(tài)報告圖9:GregKamradt使用的ClaudePrompt模板數(shù)據(jù)來源:Arize,圖10:Anthropic修訂后的Prompt模板數(shù)據(jù)來源:Arize,多模態(tài)能力上,Claude3與Gemini1.0Ultra相比仍有一定差距,但略好于GPT-4V。海外行業(yè)動態(tài)報告圖11:Claude3與GPT-4V、Gemini系列模型多模態(tài)能力對比數(shù)據(jù)來源:《TheClaude3ModelFamily:Opus,Sonnet,Haiku》,圖12:AnthropicClaude3系列模型輸入/輸出API價格數(shù)據(jù)來源:Anthropic9,圖13:GPT-4輸入/輸出價格數(shù)據(jù)來源:OpenAI10,9https:///api#pricing10/pricingRAG:長文本窗口不構(gòu)成對RAG的100%替代11LLMasaOS調(diào)整注意力計算機制。當前符堯等12upsampling(上采樣)LLM處理長文本的能力,可以將LLM128K。UCB研究團隊13則提出通過層次訓練高效擴展上下文窗口。Google團隊14提出通過在不損失太多精度的情況下快速近似注意力矩陣的輸出,從而實現(xiàn)長文本下的計算速度提升。圖14:Gemini1.5Pro宣布將contextwindow拓展至1Mtokens數(shù)據(jù)來源:Google15,Gemini/Claude3/GPT-4Turbo~99%1)Prompt的精細調(diào)整,這意味如果抽取的內(nèi)容從固定模式的文本/數(shù)字切換為隨機的文本/數(shù)字,召回率表現(xiàn)可能受到影響;2)當前的TheNeedleinaHaystackLLM不需要做太多額外推理,但實際應用場景中XX規(guī)定,員工是否允許攜帶寵物上班”、“XX設(shè)計方案是否符合現(xiàn)行居民住宅的建筑標準”等問題,這類問題可以拆分為兩部分,1)問題相關(guān)的背景材料,如現(xiàn)行民用住宅的建筑標準;2)匹配,設(shè)計方案分解后與建筑標準相匹配。Haystack測試的評估一定程度上存在“誤導性”,該90%+的表現(xiàn)不意味著模型在長文本中取出和結(jié)合上下文做復雜推理的能力。1611/blog/2024/02/18/compound-ai-systems/,根據(jù)UCB轉(zhuǎn)引Databricks信息,目前LLM的應用中60%采用RAG,30%采用CoT。12《DataEngineeringforScalingLanguageModelsto128KContext》。13《WorldModelOnMillion-LevelVideoAndLanguageWithRingAttention》。14《HyperAttention:Long-contextAttentioninNear-LinearTime》。15https://blog.google/technology/ai/google-gemini-next-generation-model-february-2024/16LLMPR的一面是,AnthropicClaude3GPQALLM在長文本、復雜問題等場景下的表現(xiàn)提升,促進社會生產(chǎn)力進步。請務(wù)必閱讀正文之后的免責條款和聲明。通過長文本窗口替代RAG的核心瓶頸在于成本,本質(zhì)原因是內(nèi)存瓶頸。前述問題都可以通過對注意力機Anthropic/OpenAI1Mtoken的定價在GPUGPU(將內(nèi)容切分后分別放在不同GPU上計算后傳輸,這導致延遲。圖15:GPU架構(gòu)示意圖 圖16:SM架構(gòu)示意圖數(shù)據(jù)來源:《Towards100xSpeedup:FullStackTransformerInferenceOptimization》,
數(shù)據(jù)來源:《Towards100xSpeedup:FullStackTransformerInferenceOptimization》,圖17:A100內(nèi)存結(jié)構(gòu) 圖18:長文本推理面臨內(nèi)存瓶頸 數(shù)據(jù)來源:《EfficientMemoryManagementforLargeLanguageModelServingwithPagedAttention》,
數(shù)據(jù)來源:《Towards100xSpeedup:FullStackTransformerInferenceOptimization》,符堯17提出利用KV緩存存儲內(nèi)容,但其占據(jù)大量內(nèi)存且一旦切換文檔需要重新緩存。根據(jù)LLaMAIndex,1Mtoken100GB3A1002H100A100/H100的價格及有限存儲空間,大量占用內(nèi)存的代價可能過高。PierreLienhart18(AWSGenAI解決方案架構(gòu)師)KV緩存token長度的關(guān)系從指數(shù)級增長轉(zhuǎn)化為線性增長,LLMtoken17《Towards100xSpeedup:FullStackTransformerInferenceOptimization》。18/@plienhar/llm-inference-series-3-kv-caching-unveiled-048152e461c8請務(wù)必閱讀正文之后的免責條款和聲明。海外行業(yè)動態(tài)報告數(shù)級增長,因此KV緩存策略本質(zhì)平衡GPU帶寬和內(nèi)存以及計算量的問題。圖19:Transformer輸入序列長度為3的雙頭(自)注意力層的詳細視圖數(shù)據(jù)來源:《LLMInferenceSeries:3.KVcachingunveiled》,圖20:KV緩存策略后的注意力計算機制數(shù)據(jù)來源:《LLMInferenceSeries:3.KVcachingunveiled》,方法論上,Transformer模型在計算注意力分數(shù)時,需要查詢向量(Q)與所有鍵向量(K)做點積,獲得未縮放的注意力分數(shù)。但是對于帶有掩碼(mask)的位置,不論它們的注意力分數(shù)是多少,最后都會被遮擋為0,這部分計算就是冗余計算。KV緩存策略通過預先計算好所有鍵值對(K,V)的注意力分數(shù)和加權(quán)值,并緩存起來。在實際推理時,只需從
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 二零二五年度智慧養(yǎng)老民房管理服務(wù)合同4篇
- 二零二五年度門窗五金件國際貿(mào)易與物流服務(wù)合同4篇
- 北極生態(tài)環(huán)境解讀模板
- 鋼結(jié)構(gòu)立柱施工方案
- 2025年度個人醫(yī)療健康保險分期繳費協(xié)議4篇
- 2025年度個人職業(yè)規(guī)劃服務(wù)合同范本4篇
- 2024年信息化系統(tǒng)管理制度
- 貴州打水井施工方案
- 二零二五年度門類安裝工程材料供應與安裝合同4篇
- 2024水泥欠款利息減免談判合同范本3篇
- 《色彩基礎(chǔ)》課程標準
- 人力資源 -人效評估指導手冊
- 大疆80分鐘在線測評題
- 2023年成都市青白江區(qū)村(社區(qū))“兩委”后備人才考試真題
- 2024中考復習必背初中英語單詞詞匯表(蘇教譯林版)
- 《現(xiàn)代根管治療術(shù)》課件
- 肩袖損傷的護理查房課件
- 2023屆北京市順義區(qū)高三二模數(shù)學試卷
- 公司差旅費報銷單
- 2021年上海市楊浦區(qū)初三一模語文試卷及參考答案(精校word打印版)
- 八年級上冊英語完形填空、閱讀理解100題含參考答案
評論
0/150
提交評論