




版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
證券研究報(bào)告
|行業(yè)深度計(jì)算機(jī)行業(yè)投資評(píng)級(jí)
|優(yōu)于大市(維持)2024年7月4日從技術(shù)路徑,縱觀國(guó)產(chǎn)大模型逆襲之路核心邏輯
海外大模型龍頭輪番搶占性能第一寶座,比拼整體性能和多模態(tài)交互。
大模型的寶座三次更迭:初代GPT-4o自我革命,持續(xù)刷新綜合性能;二代谷歌Gemini更極限的上下文理解、更低延時(shí);翹楚Claude3.5聚焦視覺(jué)和交互體驗(yàn)。
大模型高地爭(zhēng)奪:多模態(tài)的理解和響應(yīng),原生多模態(tài)技術(shù)比拼。大模型的效果取決于多模態(tài)理解與生成,毫秒級(jí)響應(yīng),更先進(jìn)的視覺(jué)與音頻理解能力,智能感知語(yǔ)氣與語(yǔ)態(tài)。端到端原生多模態(tài)技術(shù)、統(tǒng)一神經(jīng)網(wǎng)絡(luò),是競(jìng)爭(zhēng)的主要角力點(diǎn)。
大模型的比較維度升級(jí):從模型到疊加終端,跨設(shè)備的使用效果體驗(yàn)。如谷歌推出AIAgent項(xiàng)目Astra模型,可以手機(jī)、眼睛鏡頭對(duì)準(zhǔn)身邊的物品,并向ProjectAstra提出一些疑問(wèn),它幾乎能做到零延時(shí)地準(zhǔn)確回答。
國(guó)內(nèi)大模型逆襲之路:聚焦長(zhǎng)文本,降價(jià)迭代提升競(jìng)爭(zhēng)力。
先文后理:理科目前差距較大,聚焦長(zhǎng)文本,國(guó)產(chǎn)大模型已有趕超GPT之勢(shì),如通義千問(wèn)、KIMI、山海等。
長(zhǎng)文本的三大難度:注意力機(jī)制計(jì)算復(fù)雜度、上下文記憶、最長(zhǎng)文本約束難題。
商業(yè)上降價(jià),加速迭代卷出未來(lái)。頭部智譜/字節(jié)跳動(dòng)/阿里/騰訊/百度/訊飛低價(jià)迭代,百川智能/月之暗面/零一萬(wàn)物等初創(chuàng)公司并未加入降價(jià)行列。從技術(shù)來(lái)看,降價(jià)的背后是訓(xùn)練&推理成本的下降。
投資建議:建議關(guān)注(1)國(guó)產(chǎn)大模型廠商:科大訊飛、商湯、科技、格林深瞳、拓爾思、昆侖萬(wàn)維、創(chuàng)業(yè)黑馬等。(2)接入頭部大模型的應(yīng)用標(biāo)的:金山辦公、萬(wàn)興科技、福昕軟件、虹軟科技、彩訊股份、焦點(diǎn)科技、潤(rùn)達(dá)醫(yī)療、金證股份、泛微網(wǎng)絡(luò)、金蝶國(guó)際等,同時(shí)關(guān)注Kimi相關(guān)標(biāo)的。
風(fēng)險(xiǎn)提示:海外大模型展現(xiàn)閉源趨勢(shì),國(guó)內(nèi)大模型技術(shù)差距擴(kuò)大;國(guó)內(nèi)大模型在整體性能上未能達(dá)到商業(yè)使用的奇點(diǎn);國(guó)內(nèi)大模型在缺乏算力支持的情況下迭代速度放緩;國(guó)內(nèi)大模型技術(shù)路線產(chǎn)生分歧,無(wú)法引領(lǐng)未來(lái)發(fā)展方向。1。目
錄CONTENTS海外龍頭輪番搶占第一寶座,比拼整體性能和多模態(tài)交互010203國(guó)內(nèi)大模型逆襲之路:聚焦長(zhǎng)文本,降價(jià)迭代提升競(jìng)爭(zhēng)力投資建議04
風(fēng)險(xiǎn)提示2。01海外龍頭輪番搶占第一寶座,比拼整體性能和多模態(tài)交互1.1高速迭代,海外龍頭輪番占領(lǐng)大模型之巔1.2大模型高地爭(zhēng)奪:多模態(tài)的理解和響應(yīng),原生多模態(tài)技術(shù)比拼1.3比較維度升級(jí):從模型到疊加終端,跨設(shè)備的使用效果體驗(yàn)3。1.1高速迭代,海外龍頭輪換占領(lǐng)大模型之巔
OpenAI、Google、Antropic三大廠商競(jìng)相輪圖表:海外龍頭競(jìng)相搶占大模型第一寶座換大模型第一寶座:自23年初GPT-4發(fā)布以來(lái),在1年左右時(shí)間內(nèi)基本穩(wěn)定處于大模型最強(qiáng)位置。2024年海外大模型迭代速度有所加快,龍頭競(jìng)爭(zhēng)格局悄然發(fā)生變化。
1)5月,OpenAI發(fā)布新的旗艦?zāi)P虶PT-4o,實(shí)現(xiàn)跨模態(tài)即時(shí)響應(yīng),相比GPT-4Turbo,刷新SOTA實(shí)現(xiàn)性能飛躍。
2)5月,Google發(fā)布Gemini1.5Pro進(jìn)階版,實(shí)現(xiàn)200萬(wàn)tokens上下文,具備更強(qiáng)大的推理和理解能力。
3)6月,Antropic發(fā)布Claude3.5Sonnet,具備更強(qiáng)的代碼和視覺(jué)能力,基準(zhǔn)測(cè)試結(jié)果全方位碾壓Gemini1.5Pro和Llama-400b,大部分優(yōu)于
GPT-4o,一定程度上暫時(shí)代表著當(dāng)前大模型性能最高水平。4。資料:APPSO微信公眾號(hào),Antropic官網(wǎng)等,德邦研究所1.1.1初代:GPT-4o自我革命,持續(xù)刷新綜合性能
在傳統(tǒng)基準(zhǔn)測(cè)試中,GPT-4o在文本、推理和編碼智能方面實(shí)現(xiàn)了GPT-4Turbo級(jí)別的性能,同時(shí)在多語(yǔ)言、音頻和視覺(jué)功能上達(dá)到了新的高水位線。
文本推理:GPT-4o在0-shotCOTMMLU(常識(shí)問(wèn)題)上創(chuàng)下了88.7%的新高分。此外,在傳統(tǒng)的5-shotno-CoTMMLU上,GPT-4o創(chuàng)下了87.2%的新高分。相較于GPT-4Turbo而言,GPT-4o文本推理能力有一定提升。
多語(yǔ)言識(shí)別:與Whisper-v3相比,GPT-4o在多種語(yǔ)言的識(shí)別中表現(xiàn)優(yōu)異,尤其是資源匱乏的語(yǔ)言。
音頻翻譯:GPT-4o在音頻翻譯表現(xiàn)上達(dá)到新的高水準(zhǔn),且在MLS基準(zhǔn)測(cè)試中優(yōu)于Whisper-v3。圖表:GPT-4o文本推理相較GPT-4Turbo有一定提升圖表:與Whisper-v3相比,GPT-4o在多種語(yǔ)言的識(shí)別中表現(xiàn)優(yōu)異(越低值越優(yōu)異)圖表:GPT-4o在音頻翻譯表現(xiàn)上達(dá)到新的高水準(zhǔn)5。資料:OpenAI官網(wǎng),德邦研究所(注:Llama3
400b還在訓(xùn)練中)1.1.1初代:GPT-4o自我革命,持續(xù)刷新綜合性能
M3Exam測(cè)試:M3Exam基準(zhǔn)測(cè)試既是多語(yǔ)言評(píng)估也是視覺(jué)評(píng)估,由來(lái)自其他國(guó)家標(biāo)準(zhǔn)化測(cè)試的多項(xiàng)選擇題組成,有時(shí)還包括圖形和圖表。在所有語(yǔ)言的基準(zhǔn)測(cè)試中,GPT-4o都比GPT-4更強(qiáng)。
視覺(jué)理解:GPT-4o在視覺(jué)感知基準(zhǔn)上實(shí)現(xiàn)了最先進(jìn)的性能。具體來(lái)看,GPT-4o在MMMU測(cè)試中分?jǐn)?shù)達(dá)到69.1,而GPT-4Turbo、Gemini1.0Ultra、Gemini1.5Pro、ClaudeOpus分別為63.1、59.4、58.5、59.4。
GPT-4o多模態(tài)能力范圍顯著拓展:除了文本、圖像等常用功能,GPT-4o還支持3D物品合成、文本轉(zhuǎn)字體等多樣化功能。
GPT-4oAPI性價(jià)比有所提升:與GPT-4Turbo相比,GPT-4o速度提升2倍、成本卻降低了50%,且速率限制提升5倍。圖表:在M3Exam基準(zhǔn)測(cè)試中,GPT-4o比GPT-4強(qiáng)圖表:GPT-4o在視覺(jué)感知基準(zhǔn)上實(shí)現(xiàn)了最先進(jìn)的性能圖表:GPT-4o實(shí)現(xiàn)3D物品合成6。資料:OpenAI官網(wǎng),德邦研究所(注:所有視覺(jué)評(píng)估都是
0-shot)1.1.2二代:谷歌Gemini更極限的上下文理解、更低延時(shí)圖表:Gemini1.5Pro理論上下文極限為1000萬(wàn)tokens
(高性能)進(jìn)階版Gemini1.5Pro:谷歌5月發(fā)布,上下文窗口翻倍、具備更強(qiáng)大的推理與理解能力。
上下文:過(guò)往Gemini1.5Pro支持100萬(wàn)tokens上下文,升級(jí)后可支持200萬(wàn)tokens(理論極限為1000萬(wàn)tokens),意味著可輸入分析2小時(shí)視頻、22小時(shí)音頻、超過(guò)6萬(wàn)行代碼或者140多萬(wàn)單詞。這使得Gemini1.5Pro能處理更大量的復(fù)雜信息,生成更準(zhǔn)確、更細(xì)致的輸出。
性能:通過(guò)數(shù)據(jù)和算法改進(jìn),升級(jí)版的Gemini1.5Pro增強(qiáng)了模型的代碼生成、邏輯推理和規(guī)劃、多輪對(duì)話以及音頻和圖像理解能力,在MMMU、AI2D、MathVista、ChartQA、DocVQA等多項(xiàng)公共基準(zhǔn)測(cè)試中取得了顯著改進(jìn),在多項(xiàng)圖像和視頻理解基準(zhǔn)測(cè)試中也實(shí)現(xiàn)了最先進(jìn)性能。圖表:進(jìn)階版Gemini1.5Pro在基準(zhǔn)測(cè)試中性能整體超越前代
價(jià)格:輸入7美元/百萬(wàn)tokens;3.5美元/百萬(wàn)tokens(128k上下文)。圖表:進(jìn)階版Gemini1.5Pro在大多數(shù)功能上勝率高于前代模型7。資料:Google《Gemini
1.5:
Unlocking
multimodal
understanding
across
millions
oftokens
ofcontext》,德邦研究所1.1.2二代:谷歌Gemini更極限的上下文理解、更低延時(shí)圖表:Gemini1.5Flash與Gemini1.0對(duì)比
(低延時(shí))Gemini1.5Flash:是為了滿足用戶對(duì)低延遲和低成本的需求而設(shè)計(jì)的輕量化模型。它針對(duì)大規(guī)模、大批量、高頻的任務(wù)進(jìn)行了優(yōu)化,服務(wù)更具有成本效益。
更高效率和低延遲:在輸入1萬(wàn)個(gè)字符的情況下,1.5Flash在英法日中語(yǔ)言中實(shí)現(xiàn)了最快生成速度。
上下文:仍實(shí)現(xiàn)了100萬(wàn)tokens的長(zhǎng)上下文窗口,開(kāi)發(fā)人員還能注冊(cè)嘗試200萬(wàn)tokens。
性能:1.5Flash在跨大量信息的多模態(tài)推理方面表現(xiàn)出色,適用于摘要、聊天應(yīng)用、圖像和視頻字幕、長(zhǎng)文檔和表格的數(shù)據(jù)提取等多種任務(wù)。在核心能力測(cè)試中,相比1.0Pro勝率更高,在視覺(jué)能力測(cè)試中,相比1.0Ultra勝率更高。
價(jià)格:128K上下文窗口輸入為0.35美元/百萬(wàn)tokens。圖表:Gemini1.5Flash查詢的每個(gè)輸出字符的平均時(shí)間最短(ms)
支持技術(shù):這種強(qiáng)大性能于“蒸餾”技術(shù),該技術(shù)將1.5Pro中最重要的知識(shí)和技能轉(zhuǎn)移到更小、更高效的模型中。1.5Flash是一個(gè)Transformer解碼器模型,旨在高效利用TPU,降低模型服務(wù)的延遲。例如,它可以并行計(jì)算注意力和前饋分量。它使用高階預(yù)處理方法進(jìn)行訓(xùn)練以提高質(zhì)量。8。資料:Google《Gemini
1.5:
Unlocking
multimodal
understanding
across
millions
oftokens
ofcontext》,德邦研究所1.1.3翹楚:Claude3.5聚焦視覺(jué)和交互體驗(yàn)圖表:Cluade3.5Sonnet在GPQA、MMLU等測(cè)試中性能基本領(lǐng)先
6月,Anthropic發(fā)布下一代旗艦大模型Claude3.5Sonnet,領(lǐng)跑全行業(yè)智能水準(zhǔn),也保持中端模型的性價(jià)比。
上下文&速度&價(jià)格:具有20萬(wàn)tokens上下文窗口。Claude3.5Sonnet的運(yùn)行速度是Claude3Opus的兩倍;輸入$3/百萬(wàn)tokens,輸出$15/百萬(wàn)tokens,成本為Claude3Opus的五分之一。
寫作更自然:Claude3.5Sonnet在研究生水平推理GPQA、本科生水平推理MMLU和編程能力HumanEval方面樹(shù)立了新的行業(yè)基準(zhǔn)。在把握語(yǔ)義的細(xì)微差別、幽默和復(fù)雜指令上有顯著改進(jìn),能以更自然、親和的語(yǔ)氣輸出高質(zhì)量的寫作內(nèi)容。
代碼方面表現(xiàn)優(yōu)異。能否根據(jù)文字需求改進(jìn)代碼的測(cè)試中,3.5Sonnet成功解決了64%的問(wèn)題,而3Opus只解決了38%。只要給予清晰的指令和必要工具,它就能獨(dú)立編寫、編輯和執(zhí)行代碼,并具備復(fù)雜推理、故障排除與代碼翻譯能力。圖表:Cluade3.5Sonnet在內(nèi)部編碼測(cè)試中領(lǐng)先于Claude3模型家族9。資料:Anthropic官網(wǎng),
Anthropic
《Claude
3.5
SonnetModelCard
Addendum》,德邦研究所1.1.3翹楚:Claude3.5聚焦視覺(jué)和交互體驗(yàn)
Claude3.5Sonnet:Anthropic迄今為止最強(qiáng)大的視覺(jué)模型。在解釋圖表、圖形等視覺(jué)推理任務(wù)中改進(jìn)明顯??梢詼?zhǔn)確地從粗略圖像中轉(zhuǎn)錄文本,并輸出更多洞察,這也是零售、物流和金融服務(wù)等領(lǐng)域的核心能力。
引入Artifacts變革交互方式。當(dāng)要求Claude生成代碼、文本或網(wǎng)站設(shè)計(jì)等內(nèi)容時(shí),Artifacts會(huì)出現(xiàn)在對(duì)話旁邊的專用窗口中,供用戶實(shí)時(shí)查看、編輯和構(gòu)建Claude的創(chuàng)作。相當(dāng)于形成了一個(gè)動(dòng)態(tài)工作空間,將AI生成的內(nèi)容更無(wú)縫集成到自己的項(xiàng)目和工作流程中。這項(xiàng)功能標(biāo)志著Claude從對(duì)話式AI向協(xié)作工作環(huán)境的演變,未來(lái)將拓展至團(tuán)隊(duì)協(xié)作中。圖表:Claude3.5Sonnet是Anthropic最強(qiáng)大的視覺(jué)模型圖表:Claude3.5Sonnet引入Artifacts變革交互方式10。資料:
Anthropic官網(wǎng),德邦研究所01海外龍頭輪番搶占第一寶座,比拼整體性能和多模態(tài)交互1.1高速迭代,海外龍頭輪番占領(lǐng)大模型之巔1.2大模型高地爭(zhēng)奪:多模態(tài)的理解和響應(yīng),原生多模態(tài)技術(shù)比拼1.3比較維度升級(jí):從模型到疊加終端,跨設(shè)備的使用效果體驗(yàn)11。1.2.1
最終判斷依據(jù):多模態(tài)的理解、生成和響應(yīng)
多模態(tài)理解與生成,毫秒級(jí)響應(yīng),實(shí)現(xiàn)即時(shí)語(yǔ)音對(duì)話。
GPT-4o實(shí)現(xiàn)毫秒級(jí)視覺(jué)理解,GPT-4o能夠接受文本、音頻和圖像的任意組合作為輸入,并生成文本、音頻和圖像的任意組合輸出。使用語(yǔ)音模式與ChatGPT對(duì)話當(dāng)中,GPT-3.5與GPT-4平均延遲分別為2.8s、5.4s,而GPT-4o對(duì)音頻輸入的響應(yīng)時(shí)間最短為232毫秒,平均為320毫秒,這與人類在對(duì)話中的響應(yīng)時(shí)間相似。
更先進(jìn)的視覺(jué)與音頻理解能力,智能感知語(yǔ)氣與語(yǔ)態(tài)。與現(xiàn)有模型相比,GPT-4o展現(xiàn)了出色的視覺(jué)和音頻理解能力:首先,用戶可在對(duì)話中隨時(shí)打斷;其次,可根據(jù)場(chǎng)景生成多種音調(diào),帶有人類般的情緒和情感;直接通過(guò)和AI視頻通話讓它在線解答各種問(wèn)題。圖表:GPT-4o在與技術(shù)人員實(shí)時(shí)對(duì)話圖表:GPT-4o實(shí)時(shí)感知技術(shù)人員情緒圖表:GPT-4o通過(guò)視頻聊天解決圖片中的數(shù)學(xué)問(wèn)題12。資料:OpenAI
YouTube官方賬號(hào),德邦研究所1.2.2技術(shù)爭(zhēng)奪:端到端原生多模態(tài)技術(shù),統(tǒng)一神經(jīng)網(wǎng)絡(luò)
傳統(tǒng)多模態(tài)大模型技術(shù)架構(gòu)一般包括編碼、對(duì)齊、解碼等步驟,逐步整合多模態(tài)關(guān)聯(lián)信息,輸出目標(biāo)結(jié)果。
編碼:包括視覺(jué)、音頻、文本等模態(tài)編碼器,目的是有效處理多個(gè)模態(tài)信息,轉(zhuǎn)化為可處理狀態(tài);
對(duì)齊:不同模態(tài)編碼器可能不能直接融合,通過(guò)建立共同表示空間,將不同模態(tài)的表示統(tǒng)一,有效整合多個(gè)模態(tài)信息;
解碼:編碼的反向過(guò)程,把模型的內(nèi)部表示轉(zhuǎn)化為物理世界的自然信號(hào),即輸出人類可識(shí)別的信息;
特點(diǎn):傳統(tǒng)的多模態(tài)基礎(chǔ)模型,通常為每種模態(tài)采用特定的編碼器或解碼器,將不同的模態(tài)分離開(kāi)。
缺點(diǎn):限制了模型有效融合跨模態(tài)信息的能力。
以GPT-4為例,根據(jù)Semianalysis猜測(cè),GPT-4多模態(tài)模型可能類似于Flamingo架構(gòu),它的文本編碼器與視覺(jué)編碼器是分開(kāi)的,同時(shí)引入了交叉注意力機(jī)制。圖表:多模態(tài)大模型一般架構(gòu)圖表:Flamingo模型架構(gòu)資料:Chenyang
Lyu等《MACAW-LLM:
MULTI-MODAL
LANGUAGE
MODELING
WITH
IMAGE,
AUDIO,
VIDEO,13。ANDTEXTINTEGRATION》
,DeepMind《Flamingo:
a
Visual
Language
ModelforFew-Shot
Learning》,德邦研究所1.2.2技術(shù)爭(zhēng)奪:端到端原生多模態(tài)技術(shù),統(tǒng)一神經(jīng)網(wǎng)絡(luò)
在語(yǔ)音對(duì)話場(chǎng)景,傳統(tǒng)語(yǔ)音AI通常經(jīng)過(guò)三步法實(shí)現(xiàn)對(duì)話功能,在這過(guò)程中會(huì)丟失很多信息且不能判斷情緒變化。三步法具體為:1)語(yǔ)音識(shí)別或ASR:音頻到文本,類似
Whisper;2)LLM計(jì)劃下一步要說(shuō)什么:文本1到文本2;3)語(yǔ)音合成或TTS:文本2到音頻,類似ElevenLabs或VALL-E。GPT-4便采用該模式,在這過(guò)程中不僅響應(yīng)速度更慢而且丟失了大量信息,無(wú)法直接觀察語(yǔ)調(diào)、多個(gè)說(shuō)話者或背景噪音,也無(wú)法輸出笑聲、歌唱或表達(dá)情感等。
GPT-4o為跨模態(tài)(文本、視覺(jué)和音頻)端到端訓(xùn)練新模型,意味著所有輸入和輸出都由同一神經(jīng)網(wǎng)絡(luò)處理,成為真正的多模態(tài)統(tǒng)一模型,帶來(lái)性能的飛躍提升。圖表:傳統(tǒng)語(yǔ)音AI“語(yǔ)音轉(zhuǎn)文本-問(wèn)答-文本轉(zhuǎn)語(yǔ)音”三步法模式14。資料:愛(ài)范兒微信公眾號(hào),德邦研究所1.2.2技術(shù)爭(zhēng)奪:端到端原生多模態(tài)技術(shù),統(tǒng)一神經(jīng)網(wǎng)絡(luò)
5月16日,Meta推出混合模態(tài)的基座模型Chameleon,與GPT-4o類似,不僅使用了端到端的方式從頭開(kāi)始訓(xùn)練,而且訓(xùn)練時(shí)將所有模態(tài)(文本、圖像、代碼)的信息交織混合在一起,并使用統(tǒng)一的Transformer架構(gòu)處理。
數(shù)據(jù)處理:除了文本,圖像也轉(zhuǎn)化為一系列離散的tokens,最終生成交錯(cuò)的文本和圖像tokens序列。
訓(xùn)練數(shù)據(jù):訓(xùn)練數(shù)據(jù)既有純文本、文本-圖像對(duì),也有文本、圖像交錯(cuò)出現(xiàn)的多模態(tài)文檔,共計(jì)10萬(wàn)億tokens。
預(yù)訓(xùn)練:一開(kāi)始就被設(shè)計(jì)為混合模型,使用統(tǒng)一的架構(gòu),以端到端的方式在所有模態(tài)(即圖像、文本和代碼)的交錯(cuò)混合上從頭開(kāi)始訓(xùn)練,而不需要單獨(dú)的解碼器或編碼器。圖表:Chameleon模型架構(gòu):混合模態(tài)與訓(xùn)練和推理圖表:Chameleon訓(xùn)練數(shù)據(jù)集構(gòu)成15。資料:Chameleon
Team《Chameleon:
Mixed-Modal
Early-Fusion
Foundation
Models》,德邦研究所1.2.2技術(shù)爭(zhēng)奪:端到端原生多模態(tài)技術(shù),統(tǒng)一神經(jīng)網(wǎng)絡(luò)
Chameleon實(shí)現(xiàn)了廣泛的能力:
在純文本任務(wù)中保持競(jìng)爭(zhēng)力:Chameleon-34B的性能在常識(shí)推理和閱讀理解測(cè)試任務(wù)上與Mixtral8x7B和
GeminiPro等模型相匹配。
在視覺(jué)問(wèn)答和圖像標(biāo)注基準(zhǔn)上:Chameleon-34B超過(guò)了Flamingo、IDEFICS和Llava-1.5等模型。圖表:Chameleon-34B文本能力與GeminiPro等匹配圖表:Chameleon-34B視覺(jué)問(wèn)答和圖像標(biāo)注刷新SOTA16。資料:Chameleon
Team《Chameleon:
Mixed-Modal
Early-Fusion
Foundation
Models》,德邦研究所1.2.2技術(shù)爭(zhēng)奪:端到端原生多模態(tài)技術(shù),統(tǒng)一神經(jīng)網(wǎng)絡(luò)
為了進(jìn)一步評(píng)估模型生成多模態(tài)內(nèi)容的質(zhì)量,論文在基準(zhǔn)測(cè)試之外引入了人類評(píng)估實(shí)驗(yàn):
Chameleon在混合模態(tài)推理和生成方面提供的全新功能:在開(kāi)放式問(wèn)題(即混合圖像和文本的問(wèn)題)的混合模態(tài)響應(yīng)質(zhì)量方面,人類評(píng)估者更喜歡Chameleon模型,而不是GeminiPro和GPT-4V。它可回答包含文本和生成圖像的問(wèn)題。圖表:Chameleon生成的圖像和文本交織的內(nèi)容圖表:在混合模態(tài)響應(yīng)質(zhì)量方面,人類評(píng)估者更喜歡Chameleon17。資料:Chameleon
Team《Chameleon:
Mixed-Modal
Early-Fusion
Foundation
Models》,德邦研究所01海外龍頭輪番搶占第一寶座,比拼整體性能和多模態(tài)交互1.1高速迭代,海外龍頭輪番占領(lǐng)大模型之巔1.2大模型高地爭(zhēng)奪:多模態(tài)的理解和響應(yīng),原生多模態(tài)技術(shù)比拼1.3比較維度升級(jí):從模型到疊加終端,跨設(shè)備的使用效果體驗(yàn)18。1.3比較維度升級(jí):疊加終端,跨設(shè)備的使用效果體驗(yàn)
谷歌推出AIAgent項(xiàng)目Astra模型,具備類似GPT-4o的能力,可以實(shí)現(xiàn)跨文本、音頻、視頻多模態(tài)實(shí)時(shí)推理。Astra和GPT-4o的使用效果類似,用戶可以通過(guò)它和AI實(shí)時(shí)對(duì)話,以及視頻聊天。在發(fā)布會(huì)上,工作人員在演示視頻中將手機(jī)鏡頭對(duì)準(zhǔn)身邊的物品,并向ProjectAstra提出一些疑問(wèn),它幾乎能做到零延時(shí)地準(zhǔn)確回答。
Astra特點(diǎn):1)利用用戶設(shè)備上的攝像頭和麥克風(fēng)為日常活動(dòng)提供無(wú)縫輔助;2)具備多模態(tài)能力,無(wú)縫處理音頻、圖像、視頻和文本輸入,為用戶提供全面的體驗(yàn);3)深度理解視覺(jué)內(nèi)容,并具備內(nèi)容回溯能力;4)語(yǔ)調(diào)豐富。
AstraVS.GPT-4o:兩者均具備音頻、圖像、視頻等多模態(tài)處理能力,不同的是,GPT-4o專注于對(duì)多模態(tài)輸入的實(shí)時(shí)交互,Astra專注于通過(guò)外界設(shè)備無(wú)縫捕獲和解釋視覺(jué)信息,使其能夠根據(jù)現(xiàn)實(shí)世界的觀察提供與上下文相關(guān)的響應(yīng)。圖表:工作人員使用手機(jī)與Astra互動(dòng)圖表:工作人員佩戴眼鏡后與Astra互動(dòng)圖表:Astra回溯視頻內(nèi)容找回眼睛19。資料:Google
I/O官網(wǎng),德邦研究所1.3比較維度升級(jí):疊加終端,跨設(shè)備的使用效果體驗(yàn)圖表:Astra具有廣泛的語(yǔ)調(diào)
Astra將視頻幀和語(yǔ)音編碼到時(shí)間軸。
技術(shù)支持:Astra首先通過(guò)智能手機(jī)攝像頭從網(wǎng)絡(luò)以及周圍的世界中提取信息,之后通過(guò)連續(xù)處理和編碼視頻幀和語(yǔ)音輸入,創(chuàng)建事件的時(shí)間線,并緩存信息以便快速回調(diào)。它可以識(shí)別物體、回答詢問(wèn),甚至還能記住攝像頭視角內(nèi)不再存在的過(guò)往畫(huà)面。簡(jiǎn)而言之,它通過(guò)智能手機(jī)攝像頭觀察您周圍的世界,感知、響應(yīng)并記住它。
此外,谷歌還利用領(lǐng)先的語(yǔ)音模型,增強(qiáng)了Astra的發(fā)音,使其具有更廣泛的語(yǔ)調(diào)。Astra可以更好地理解他們所處的語(yǔ)境,并在對(duì)話中快速做出反應(yīng)。圖表:Astra內(nèi)部原理將視頻和語(yǔ)音輸入結(jié)合緩存信息以實(shí)現(xiàn)高效的回調(diào)連續(xù)編碼視頻幀成事件的時(shí)間線20。資料:Google
DeepMind官網(wǎng),德邦研究所02國(guó)內(nèi)大模型逆襲之路:聚焦長(zhǎng)文本,降價(jià)迭代提升競(jìng)爭(zhēng)力2.1先文后理:聚焦長(zhǎng)文本,國(guó)產(chǎn)大模型已有趕超GPT之勢(shì)2.2長(zhǎng)文本的三大難題和解決之道2.3商業(yè)上降價(jià),加速迭代卷出未來(lái)21。2.1先文后理:理科能力差距較大,注重文科能力的提升圖表:國(guó)內(nèi)外最新大模型的綜合能力比較理科文科
整體比較而言,國(guó)內(nèi)大模型與GPT-4(官網(wǎng))尚存在明顯差距,但個(gè)別能力上已展現(xiàn)出優(yōu)勢(shì)。模型名稱總分計(jì)算
邏輯推理
代碼
工具使用
知識(shí)與百科
長(zhǎng)文本
角色扮演
語(yǔ)義理解
生成與創(chuàng)作
傳統(tǒng)安全類GPT-4-Turbo-0125GPT-4-Turbo-0409GPT-4(官網(wǎng))79.13
82.877.02
81.675.32
78.674.47
76.873.32
74.872.58
7172.45
7172.12
7171.9
70.670.42
71.470.35
75.870.18
71.469.51
68.275.271.271.661.268.664.659.662.664.656.257.856.454.655.252.855.245.487.987.687.884.574.872.653.363.673.861.654.165.258.160.351.742.234.778.676.674.874.074.474.675.674.072.470.671.068.669.269.269.068.865.481.67969.86776.272.871.87479.877.676.475.873.675.275.475.474.865.874.873.874.873.274.273.872.873.472.6728684.281
理科能力差距明顯。除通義千問(wèn)2.1的工具使用能力較高,其它國(guó)內(nèi)大模型的得分均低于GPT-4(官網(wǎng))。72.877.48266.466.664.664.271.866.460.268.664.266.268.261.667Claude3-OpusBaichuan370.871.47183.678.281.082.485.683.285.483.088.477.883.876.884.478.870.873.678.873.671GLM-478通義千問(wèn)2.18175.670.671.472.270.267.272.668.871
文科能力差異縮小。GPT-4在語(yǔ)義理解中保持優(yōu)勢(shì),國(guó)內(nèi)大模型在其他能力上表現(xiàn)出色。騰訊Hunyuan-pro文心一言4.078.477MoonShot(Kimi)從容大模型V1.5MiniMax-abab6.1山海大模型79.880.675.878.279.277.474.472.472.672
通義千問(wèn)2.1:在知識(shí)百科、長(zhǎng)文本、角色扮演和生成與創(chuàng)作等具有突出優(yōu)勢(shì),得分較GPT-4高。68.873.470.872.669.869階躍星辰step-1-32k
68.69
64.8
Kimi:kimi在長(zhǎng)文本能力上表現(xiàn)出色,與GPT-4的較量中得分占優(yōu)。qwen-1.5-72b-chat360gpt-pro68.07
68.266.6
63.263.51
62.663.663.470.670.6qwen-1.5-14b-chat22。資料:SuperCLUE《中文大模型基準(zhǔn)測(cè)評(píng)2024年4月報(bào)告》,德邦研究所2.1先文后理:國(guó)內(nèi)大模型長(zhǎng)文本能力部分趕超GPT-4圖表:國(guó)內(nèi)外最新大模型的長(zhǎng)文本能力比較
大模型的長(zhǎng)文本能力已經(jīng)成為了模型類型國(guó)內(nèi)前三海外模型國(guó)內(nèi)前三國(guó)內(nèi)前三海外模型其它長(zhǎng)文本能力71.869.868.668.267模型GPT3.5-Turbo-0125文心一言4.0類型海外模型其它長(zhǎng)文本能力61.260.259.859重要的競(jìng)爭(zhēng)力,國(guó)內(nèi)長(zhǎng)文本能力趕超了部分國(guó)外大模型。通義千問(wèn)2.1GPT-4-Turbo-0125MoonShot(kimichat)山海大模型云雀大模型其它
國(guó)內(nèi)大模型廠商布局長(zhǎng)文本能力。長(zhǎng)文本能力被視為大模型競(jìng)爭(zhēng)的重要性能指標(biāo)。通義千問(wèn)、360的智腦、文心一言開(kāi)放長(zhǎng)文本能力。Llama-3-70B-Instruct(poe)qwen-1.5-7B-ChatGemini-Pro海外模型其它GPT-4-Turbo-0409qwen-1.5-72b-chatClaude3-0pus5867海外模型海外模型海外模型其它56.855.854.454.249.244.444海外模型海外模型其它66.666.466.466.264.664.264.263.663.461.6Llama-3-70B-Instruct(千帆)Llama-3-8B-Instruct訊飛星火V3.5
國(guó)內(nèi)頭部企業(yè)展現(xiàn)出較強(qiáng)的競(jìng)爭(zhēng)力。根據(jù)基準(zhǔn)測(cè)評(píng)報(bào)告,通義千問(wèn)憑借71.8分成為全球大模型中唯一超過(guò)70分的大模型,而GPT-4(官網(wǎng))Hunyuan-pro-32K-0423MiniMax-abab6.1Baichuan3其它ChatGLM3-6B其它其它XVERSE-13B-L其它kimichat和山海大模型則占據(jù)第四和第五的席位。在前32名中,有20個(gè)席位被國(guó)內(nèi)大模型占據(jù)。GLM-4其它Gemma-7b-it海外模型其它從容大模型V1.5360gpt-pro其它Chinese-Alpaca2-13BBaichuan2-13B-Chat-v2Llama2-7B-ChatLlama2-13B-Chat12.23.4其它其它qwen-1.5-14b-chat階躍星辰step-1-32k其它海外模型海外模型0.8其它0.223。資料:SuperCLUE《中文大模型基準(zhǔn)測(cè)評(píng)2024年4月報(bào)告》,德邦研究所2.1先文后理:國(guó)內(nèi)大模型長(zhǎng)文本能力部分趕超GPT-4圖表:國(guó)內(nèi)外主流大模型的長(zhǎng)文本能力比較
Kimi率先在國(guó)內(nèi)掀起大模型長(zhǎng)文本競(jìng)賽。3月18日,月之暗公司/機(jī)構(gòu)/團(tuán)隊(duì)模型/產(chǎn)品名稱GPT-3.5上下文Tokens4-16k8-32k128k對(duì)應(yīng)漢字3.2k-12.8k6.4k-25.6k102.4k25.6k面宣布在大模型長(zhǎng)上下文窗口技術(shù)上取得突破:Kimi智能助手從支持20萬(wàn)字直接到支持200萬(wàn)字超長(zhǎng)無(wú)損上下文,并于即日起開(kāi)啟產(chǎn)品“內(nèi)測(cè)”。受此消息影響,百度、阿里等國(guó)產(chǎn)大模型龍頭廠商陸續(xù)宣布大模型迭代進(jìn)展,打響百萬(wàn)級(jí)長(zhǎng)文本上下文競(jìng)賽。3月22日晚間,阿里的通義千問(wèn)官宣升級(jí),向所有人免費(fèi)開(kāi)放1000萬(wàn)字的長(zhǎng)文檔處理功能;360緊隨其后,360智腦正式內(nèi)測(cè)500萬(wàn)字長(zhǎng)文本處理功能,即將入駐360AI瀏覽器;百度在4月將對(duì)文心一言進(jìn)行升級(jí),屆時(shí)也將開(kāi)放長(zhǎng)文本能力,文本范圍在200萬(wàn)-500萬(wàn)。OpenAIGPT-4GPT-4
TurboGemini1.0
proGemini1.5
proGemini1.5
flashClaude32kGoogleAnthropicMeta10000k2000k100k8000k1600k80kClaude2100k80kClaude3200k160kClaude
3.5
SonnetLLaMA200k160k2k1.6kLLaMA24k3.2kLlama
2LongLoag
LLaMAKimiChat32k25.6kIDEAS
NCBR、Google
DeepMind等256k204.8k200w
對(duì)比海外龍頭:1)5月谷歌發(fā)布的最新Gemini1.5pro、1.5flash分別支持200萬(wàn)(理論極限1000萬(wàn))、100萬(wàn)(開(kāi)發(fā)人員可嘗試注冊(cè)200萬(wàn))token;2)6月,Claude3.5Sonnet支持20萬(wàn)token;3)GPT-4Turbo支持12.8萬(wàn)token。Moonshot阿里通義千文1000w200-500w500w百度文心一言360360智腦字節(jié)豆包通用模型proGLM-3-Turbo128k128k102.4k102.4k智譜注:統(tǒng)計(jì)時(shí)間截至2024年6月30日;對(duì)應(yīng)漢字未標(biāo)紅的數(shù)據(jù)按照1
token=0.8個(gè)漢字測(cè)算;Gemini
1.5
pro、flash為理論極限值。24。資料:鈦媒體,財(cái)聯(lián)社微信公眾號(hào),光錐智能微信公眾號(hào),騰訊網(wǎng)等,德邦研究所02國(guó)內(nèi)大模型逆襲之路:聚焦長(zhǎng)文本,降價(jià)迭代提升競(jìng)爭(zhēng)力2.1先文后理:聚焦長(zhǎng)文本,國(guó)產(chǎn)大模型已有趕超GPT之勢(shì)2.2長(zhǎng)文本的三大難題和解決之道2.3商業(yè)上降價(jià),加速迭代卷出未來(lái)25。2.2長(zhǎng)文本的三大難題和解決之道
Transformer架構(gòu)的大模型在長(zhǎng)文本中存在注意力機(jī)制計(jì)算復(fù)雜度、上下文記憶以及最長(zhǎng)文本約束難題:圖表:Transformer模型一般架構(gòu)圖表:訪問(wèn)長(zhǎng)文本中間性能下降
(1)注意力機(jī)制計(jì)算復(fù)雜度:注意力機(jī)制的計(jì)算時(shí)間復(fù)雜度、空間復(fù)雜度都是序列長(zhǎng)度的二次方O(L2),隨著序列變長(zhǎng),存在計(jì)算速度變慢和內(nèi)存增長(zhǎng)的問(wèn)題,模型的訓(xùn)練和推理均存在負(fù)擔(dān)。
(2)上下文記憶:LLM缺乏顯性的內(nèi)存機(jī)制,僅依靠KV緩存來(lái)存儲(chǔ)以前所有token之間的信息,在結(jié)束了一次查詢調(diào)用操作后,除非將歷史上所有token的信息重新加載到KV緩存中,否則transformer不會(huì)保存該次查詢的信息。因而,每次調(diào)用時(shí),模型只擁有較短的上下文工作內(nèi)存,而不具備長(zhǎng)期記憶。這雖然在并行計(jì)算方面有優(yōu)勢(shì),但在對(duì)長(zhǎng)期記憶有要求的聊天機(jī)器人場(chǎng)景中存在應(yīng)用困難。
(3)最長(zhǎng)文本約束:在訓(xùn)練時(shí),由于GPU內(nèi)存的限制,工程師通常會(huì)確定最長(zhǎng)的超參數(shù)長(zhǎng)度(如1K、2K、4K等,表示任意批訓(xùn)練中樣本序列長(zhǎng)度的限制),隨著序列變長(zhǎng),模型性能可能下降。在推理過(guò)程中,Transformer在訪問(wèn)長(zhǎng)文本中間時(shí)性能也會(huì)顯著下降,LLM服務(wù)商通常會(huì)限制用戶prompt上下文長(zhǎng)度,以保證模型性能的穩(wěn)定。資料:Ashish
Vaswani等《AttentionIs
All
You
Need》,NelsonF.
Liu等《Lost
inthe
Middle:
HowLanguage
ModelsUse
Long26。Contexts》,德邦研究所2.2長(zhǎng)文本的三大難題和解決之道
突破長(zhǎng)文本限制的方法尚未收斂。
目前,突破長(zhǎng)文本的方式主要涉及優(yōu)化注意力機(jī)制、長(zhǎng)期記憶力機(jī)制、上下文處理以及位置編碼外展等。
優(yōu)化注意力機(jī)制:這類方法的重點(diǎn)是實(shí)現(xiàn)有效的注意機(jī)制與降低計(jì)算成本,甚至實(shí)現(xiàn)線性時(shí)間的復(fù)雜性,從而可以增加訓(xùn)練前階段的上下文長(zhǎng)度以及推理過(guò)程中的有效上下文長(zhǎng)度邊界??梢苑殖晌宸N不同的策略,每種策略都有一個(gè)特定的重點(diǎn):局部注意、分層注意、稀疏注意、近似注意和IO-覺(jué)察注意。例如,局部注意是將每個(gè)token的注意僅限于其相鄰的token,而不是每個(gè)token與其他所有的token都計(jì)算attention。圖表:長(zhǎng)文本問(wèn)題的解決之道圖表:局部注意力機(jī)制原理圖資料:YUNPENG
HUANG等《Advancing
TransformerArchitecture
inLong-ContextLarge
Language
Models:A
Comprehensive27。Survey》,德邦研究所2.2長(zhǎng)文本的三大難題和解決之道
長(zhǎng)期記憶力機(jī)制:通過(guò)引入額外的記憶模塊來(lái)擴(kuò)展上下文窗口。1)內(nèi)部記憶力緩存:利用遞歸等方法,將長(zhǎng)文本分成固定長(zhǎng)度的片段流,此上下文信息是從先前片段的緩存或提煉出的信息中獲得的;2)外部知識(shí)庫(kù):在推理過(guò)程中,模型可從外部知識(shí)庫(kù)中讀取內(nèi)容以豐富其上下文輸入,并從用戶的響應(yīng)中寫入這些知識(shí)庫(kù)以刷新其長(zhǎng)期記憶,例如RAG技術(shù)。
位置編碼外展:通過(guò)設(shè)計(jì)可推廣的位置嵌入方法來(lái)處理不同長(zhǎng)度的輸入,實(shí)現(xiàn)更長(zhǎng)的推理長(zhǎng)度,例如使用注意力偏差和擴(kuò)展的RoPE(旋轉(zhuǎn)位置編碼),實(shí)現(xiàn)上下文長(zhǎng)度外推。
上下文處理:在預(yù)處理和后處理階段優(yōu)化長(zhǎng)文本處理,將預(yù)訓(xùn)練的LLM視為黑盒或灰盒模型,并通過(guò)多次調(diào)用模型來(lái)處理長(zhǎng)上下文輸入,確保每次調(diào)用都遵守????限制。這些方法并沒(méi)有增強(qiáng)LLM處理長(zhǎng)上下文的固有能力,只是利用模型的上下文學(xué)習(xí)能力。例如將上下文分段、將分段的信息融合以及壓縮上下文的大小。
其他方法:包括特定的優(yōu)化目標(biāo)、MoE、并行計(jì)算、壓縮權(quán)重等其他方法,以提高LLMs在各個(gè)階段的性能。圖表:RAG技術(shù)原理圖圖表:旋轉(zhuǎn)位置嵌入(RoPE)原理圖資料:中匯軟件微信公眾號(hào),Saurav
Pawar等《The
What,
Why,
and
HowofContextLength
Extension
Techniques
inLarge
Language28。Models–ADetailed
Survey》,德邦研究所02國(guó)內(nèi)大模型逆襲之路:聚焦長(zhǎng)文本,降價(jià)迭代提升競(jìng)爭(zhēng)力2.1先文后理:聚焦長(zhǎng)文本,國(guó)產(chǎn)大模型已有趕超GPT之勢(shì)2.2長(zhǎng)文本的三大難題和解決之道2.3商業(yè)上降價(jià),加速迭代卷出未來(lái)29。2.3.1降價(jià)搶占API調(diào)用量,撬動(dòng)大模型“飛輪迭代”
隨著技術(shù)進(jìn)步和市場(chǎng)競(jìng)爭(zhēng),大模型訓(xùn)練&推理成本降低,國(guó)內(nèi)大模型廠商紛紛降價(jià),以吸引用戶和提高市場(chǎng)份額。
國(guó)內(nèi)大模型降價(jià)從初創(chuàng)公司開(kāi)啟,由云廠商加速,更多初創(chuàng)公司并未降價(jià)。根據(jù)智東西微信公眾號(hào)統(tǒng)計(jì),5月6日,深度求索開(kāi)源MoE模型DeepSeek-V2,百萬(wàn)tokens僅需1元。5月15日,字節(jié)宣布旗下通用模型豆包pro-128k版模型推理輸入價(jià)格定價(jià)比行業(yè)價(jià)格低95.8%,豆包pro-32k模型推理輸入降至比行業(yè)價(jià)格低99.3%。之后阿里、百度、科大訊飛、騰訊等云廠商或科技企業(yè)相繼加入降價(jià)隊(duì)伍。對(duì)初創(chuàng)公司而言,除了深度求索、智譜AI之外,包括百川智能、月之暗面、零一萬(wàn)物在內(nèi)的幾家頭部大模型初創(chuàng)公司并未加入降價(jià)行列。
高幅度降價(jià)以輕量級(jí)、入門級(jí)模型為主,主力模型、旗艦?zāi)P徒捣啾容^小。
我們認(rèn)為,降價(jià)不等于惡性競(jìng)爭(zhēng)和模型缺陷,更多的是在技術(shù)支持下商業(yè)邏輯的打磨與模型能力的完善。云廠商降價(jià)行為更活躍,與其具備更完善的云算力基礎(chǔ)設(shè)施息息相關(guān),通過(guò)降價(jià)的方式積累更多的用戶,進(jìn)一步搶占市場(chǎng)份額。圖表:國(guó)內(nèi)外主流大模型價(jià)格情況降價(jià)前(元/百萬(wàn)token)降價(jià)后/初次定價(jià)(元/百萬(wàn)token)降價(jià)幅度公司模型型號(hào)降價(jià)/定價(jià)時(shí)間輸入輸出輸入輸出輸入輸出gpt-4ogpt-4-turbo5月13日首次定價(jià)-3673109218OpenAIGooglegpt-4-218436gemini1.5
progemini1.5
flashClaude3.5
SonnetDeepSeek
V2GLM-4-0520GLM-3
Turbo豆包-pro-128k豆包-pro-4k/32k豆包-lite-128k豆包-lite-4k/32k5月15日首次定價(jià)5月15日首次定價(jià)6月21日首次定價(jià)5月6日首次定價(jià)6月5日首次定價(jià)5月11日51/25(128k上下文)5/3(128k上下文)153/76(128k上下文)1527/8(128k上下文)Anthropic深度求索22110011092100192智譜AI5580%80%50.80.80.3字節(jié)跳動(dòng)5月15日首次定價(jià)10.6注:統(tǒng)計(jì)時(shí)間及匯率截至2024年6月28日;加粗的為大模型廠家的旗艦型號(hào)。30。資料:各公司官網(wǎng),各公司微信公眾號(hào),智東西微信公眾號(hào),幻方量化微信公眾號(hào),DeepSeek等,德邦研究所2.3.1降價(jià)搶占API調(diào)用量,撬動(dòng)大模型“飛輪迭代”圖表:國(guó)內(nèi)外主流大模型價(jià)格情況(續(xù)表)降價(jià)前(元/百萬(wàn)token)降價(jià)后/初次定價(jià)(元/百萬(wàn)token)降價(jià)幅度公司模型型號(hào)降價(jià)/定價(jià)時(shí)間5月21日輸入12020輸出12020輸入400.54輸出1202輸入輸出Qwen-MaxQwen-LongQwen-Plus67%98%80%75%90%40%25%阿里云202012Qwen-Turbo8826ERNIE4.0系列ERNIE
3.5系列ERNIE
Speed
8K/128KERNIE
Lite
8K/128KSpark3.5
MaxSpark
ProSpark
Lite混元-pro混元-standard-256k混元-standard混元-lite1201212012120120120120百度5月21日5月22日5月22日4/163/1221-3021-3018100120108/326/2421-3021-301810012010100%100%100%100%0021-3021-300301521-3021-30010060科大訊飛騰訊云100%70%88%55%100%100%50%50%100%4.505088未降價(jià)的公司旗艦?zāi)P投▋r(jià)情況Baichuan4Baichuan3-Turboyi-large100122012602412100122012602412百川智能零一萬(wàn)物yi-large-turbomoonshot-v1-128kmoonshot-v1-32kmoonshot-v1-8k月之暗面注:統(tǒng)計(jì)時(shí)間及匯率截至2024年6月28日;加粗的為大模型廠家的旗艦型號(hào)。31。資料:各公司官網(wǎng),各公司微信公眾號(hào),智東西微信公眾號(hào)等,德邦研究所2.3.1降價(jià)搶占API調(diào)用量,撬動(dòng)大模型“飛輪迭代”
大模型降價(jià)是對(duì)API調(diào)用量的“跑馬圈地”。
短期來(lái)看大模型性能提升遇到瓶頸,同質(zhì)化嚴(yán)重,包括OpenAI的用戶增速陷入了低迷期,降價(jià)是吸引更多開(kāi)發(fā)者參與進(jìn)來(lái)最直接的方法。
智東西微信公眾號(hào)6月20日?qǐng)?bào)道,從阿里、百度、騰訊、字節(jié)等大模型廠家的后臺(tái)數(shù)據(jù)來(lái)看,在宣布降價(jià)后,各家主力模型在最近一個(gè)月調(diào)用量均大幅上揚(yáng)——增長(zhǎng)數(shù)倍到十幾倍都有,甚至有個(gè)別客戶如字節(jié)調(diào)用量在降價(jià)兩周內(nèi)增長(zhǎng)5000倍。智譜AI、科大訊飛、DeepSeek等大模型廠商雖未公開(kāi)相關(guān)數(shù)據(jù),但調(diào)用量可以預(yù)測(cè)也是水漲船高。
我們認(rèn)為,調(diào)用量提升有望撬動(dòng)大模型“飛輪迭代”,打磨出更好的模型
。
調(diào)用量提升能夠搶奪更多的開(kāi)發(fā)者→激活更多的應(yīng)用場(chǎng)景與生態(tài)→驗(yàn)證大模型業(yè)務(wù)價(jià)值→加速迭代打磨出更好的模型→增強(qiáng)開(kāi)發(fā)者粘性。對(duì)于大模型企業(yè)而言,只有吸引越多的開(kāi)發(fā)者,才能締造更繁榮的應(yīng)用生態(tài)、催生更多的應(yīng)用創(chuàng)新。應(yīng)用生態(tài)越完善,使用場(chǎng)景越多,用戶規(guī)模越大,生成的新數(shù)據(jù)會(huì)反哺大模型性能提升。
在這過(guò)程中,開(kāi)發(fā)者是核心角色。既可能通過(guò)反復(fù)調(diào)用模型打造出應(yīng)用生態(tài)并提供了模型優(yōu)化建議,而且可能在開(kāi)發(fā)出應(yīng)用后與大模型生態(tài)捆綁,從而增強(qiáng)大模型粘性。圖表:大模型降價(jià)提升調(diào)用量有望撬動(dòng)大模型“飛輪迭代”降價(jià)搶奪開(kāi)發(fā)者激活應(yīng)用生態(tài)驗(yàn)證業(yè)務(wù)價(jià)值加速模型迭代32。資料:智東西微信公眾號(hào),德邦研究所2.3.2降價(jià)的背后是訓(xùn)練&推理成本的下降圖表:MoE一般基礎(chǔ)架構(gòu)
訓(xùn)練成本下降:改善大模型訓(xùn)練工程與提高訓(xùn)練效率與算力利用率。
大模型工程改善技術(shù):在ScallingLaw驅(qū)使下,大模型迫切變大,卻面臨著訓(xùn)練成本的難題。目前,國(guó)內(nèi)外主流大模型GPT-4、Gemini、Mistral、天工3.0、DeepSeek
V2等均采用了MoE架構(gòu),在模型擴(kuò)展性與訓(xùn)練成本直接達(dá)到了較好的平衡。
訓(xùn)練成本指數(shù)級(jí)增長(zhǎng)是Dense模型擴(kuò)展的重要難題。根據(jù)seminianalysis,訓(xùn)練一個(gè)1萬(wàn)億參數(shù)模型的成本約為3億美元,如果在1.25萬(wàn)個(gè)HGX/DGX系統(tǒng)中使用10萬(wàn)個(gè)A100,則需要大約3個(gè)月的時(shí)間進(jìn)行訓(xùn)練;訓(xùn)練10萬(wàn)億參數(shù)模型則需要將近300億美元,即使在1.25萬(wàn)個(gè)HGX/DGX系統(tǒng)中使用100萬(wàn)個(gè)A100,也需要兩年多的時(shí)間。
MoE技術(shù)原理:與傳統(tǒng)大模型架構(gòu)相比,MoE架構(gòu)在數(shù)據(jù)流轉(zhuǎn)過(guò)程中集成了一個(gè)專家網(wǎng)絡(luò)層,該層的核心由門控網(wǎng)絡(luò)和一組專家模型構(gòu)成。數(shù)據(jù)進(jìn)入MoE時(shí)會(huì)先通過(guò)門控網(wǎng)絡(luò)分割數(shù)據(jù),將每組數(shù)據(jù)分配給一個(gè)或多個(gè)專家,最終輸出由所有專家結(jié)果的加權(quán)融合。
效果:與傳統(tǒng)的Dense模型相比,MoE能夠在遠(yuǎn)少于前者所需的計(jì)算資源圖表:Dense模型隨著參數(shù)增長(zhǎng)成本指數(shù)級(jí)擴(kuò)張下進(jìn)行有效的預(yù)訓(xùn)練,計(jì)算效率更高、速度更快,進(jìn)而使得模型規(guī)模得到顯著擴(kuò)大,讓萬(wàn)億參數(shù)成為可能,獲得更好的AI性能。2022年,Google采用MoE架構(gòu)設(shè)計(jì)的SwitchTransformers模型參數(shù)達(dá)到1.57萬(wàn)億,與此前的T5模型相比,在相同的計(jì)算資源下獲得高達(dá)7倍的模型預(yù)訓(xùn)練速度提升,并實(shí)現(xiàn)了4倍的模型加速。資料:Dmitry
Lepikhin等《GShard:
Scaling
Giant
Models
with
Conditional
Computation
and
Automatic
Sharding》,seminianalysis3,3,。36kr,昆侖萬(wàn)維等,德邦研究所2.3.2降價(jià)的背后是訓(xùn)練&推理成本的下降
MoE存在進(jìn)一步改進(jìn)空間。例如,國(guó)內(nèi)DeepSeekV2采用DeepSeekMoE混合專家架構(gòu),通過(guò)細(xì)粒度的專家分割(更多的專家)和共享專家隔離(專家之間共享知識(shí),減少知識(shí)冗余)等優(yōu)化措施,實(shí)現(xiàn)了比傳統(tǒng)MoE架構(gòu)更低的訓(xùn)練成本。與初代DeepSeek
67B相比,新模型訓(xùn)練成本下降42.5%。
提高訓(xùn)練效率與算力利用率:大模型訓(xùn)練方法與算力基礎(chǔ)設(shè)施能力的綜合比拼。
大模型訓(xùn)練中存在一些的分布式并行范式可以有效優(yōu)化訓(xùn)練過(guò)程,分別為數(shù)據(jù)并行、流水線并行和張量并行,通過(guò)訓(xùn)練任務(wù)的拆分、提高內(nèi)存利用率等多種方式減少訓(xùn)練時(shí)間,提高訓(xùn)練效率。例如數(shù)據(jù)并行中ZeRO(ZeroRedundancyOptimizer),思想就是拆分參數(shù)、梯度及優(yōu)化器狀態(tài),使得節(jié)點(diǎn)保存部分參數(shù)、梯度及優(yōu)化器狀態(tài),可以減少內(nèi)存占用并提升一定的通信速率。
算力提供方可以通過(guò)一些基礎(chǔ)工具提高算力利用率。例如,英偉達(dá)提供了NsightSystem(nsys)工具查看模型運(yùn)行時(shí)的CPU/GPU執(zhí)行情況,可以幫助發(fā)現(xiàn)GPU運(yùn)行時(shí)的一些問(wèn)題。圖表:MoE一般基礎(chǔ)架構(gòu)圖表:ZeRO方法減少了內(nèi)存占用、提升通信速率資料:DeepSeek-AI《DeepSeek-V2:A
Strong,Economical,
and
Efficient
Mixture-of-Experts
Language
Model》
,騰訊技術(shù)工程微34。信公眾號(hào),德邦研究所2.3.2降價(jià)的背后是訓(xùn)練&推理成本的下降
推理成本下降:目前大模型普遍支持長(zhǎng)文本,而GPUHBM、帶寬以及PCIe帶寬大小有限,大模型落地應(yīng)用實(shí)現(xiàn)規(guī)?;茝V后,KV緩存給推理成本帶來(lái)較大挑戰(zhàn),相應(yīng)的成本優(yōu)化路線主要圍繞壓縮KV緩存展開(kāi)。圖表:在有限GPUHBM下多個(gè)用戶長(zhǎng)文本推理請(qǐng)求過(guò)程圖
拆解多個(gè)用戶同時(shí)請(qǐng)求長(zhǎng)文本問(wèn)題時(shí)大模型推理過(guò)程(以左圖模型與GPU條件為例),其中并發(fā)用戶的數(shù)量=(HBM大小-模型權(quán)重)/KV緩存:
1)預(yù)填充階段:用戶1向模型上傳文件并提問(wèn),模型預(yù)填充為KV緩存,用戶2處于等待狀態(tài),響應(yīng)時(shí)間=上下文FLOP/GPU算力,主要受GPU計(jì)算能力的限制。計(jì)算限制內(nèi)存限制內(nèi)存限制
2)解碼階段:模型逐步向用戶1輸出token,受存儲(chǔ)帶寬限制,單位token響應(yīng)時(shí)間=內(nèi)存訪問(wèn)字節(jié)數(shù)/GPUHBM帶寬,其中內(nèi)存訪問(wèn)字節(jié)數(shù)=模型權(quán)重+KV緩存的字節(jié)數(shù)。計(jì)算限制內(nèi)存限制
3)切換用戶階段:卸載用戶1的KV緩存至CPU,同時(shí)填充用戶2的KV緩存,其中CPU與GPU交流速度由PCIe決定。響應(yīng)時(shí)間=(用戶1+用戶2的KV緩存)/PCIe帶寬。
4)重復(fù)以上過(guò)程。
在這過(guò)程中,可以看到KV緩存的大小同時(shí)影響了用戶并發(fā)數(shù)量、
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 江西軟件職業(yè)技術(shù)大學(xué)《工程力學(xué)(下)》2023-2024學(xué)年第二學(xué)期期末試卷
- 南通科技職業(yè)學(xué)院《經(jīng)濟(jì)法學(xué)A》2023-2024學(xué)年第二學(xué)期期末試卷
- 合肥職業(yè)技術(shù)學(xué)院《數(shù)字信號(hào)處理與通信》2023-2024學(xué)年第二學(xué)期期末試卷
- 2024-2025學(xué)年湖北省部分省級(jí)示范高中高二上學(xué)期期中測(cè)試歷史試卷
- 江西工程學(xué)院《環(huán)境評(píng)價(jià)》2023-2024學(xué)年第二學(xué)期期末試卷
- 六盤水幼兒師范高等??茖W(xué)?!睹褡迮c文化地理》2023-2024學(xué)年第二學(xué)期期末試卷
- 信陽(yáng)涉外職業(yè)技術(shù)學(xué)院《數(shù)字邏輯電路綜合》2023-2024學(xué)年第二學(xué)期期末試卷
- 昆山登云科技職業(yè)學(xué)院《專業(yè)技能訓(xùn)練化學(xué)教學(xué)技能與訓(xùn)練含》2023-2024學(xué)年第二學(xué)期期末試卷
- 湖南勞動(dòng)人事職業(yè)學(xué)院《建筑給排水與消防》2023-2024學(xué)年第二學(xué)期期末試卷
- 廣州華商職業(yè)學(xué)院《劇目》2023-2024學(xué)年第二學(xué)期期末試卷
- 部編版三年級(jí)下冊(cè)語(yǔ)文第一單元教材解讀PPT課件
- 【2022】154號(hào)文附件一:《江蘇省建設(shè)工程費(fèi)用定額》(2022年)營(yíng)改增后調(diào)整內(nèi)容[10頁(yè)]
- 二年級(jí)剪窗花
- 分子生物學(xué)在醫(yī)藥中的研究進(jìn)展及應(yīng)用
- 《對(duì)折剪紙》)ppt
- 03SG520-1實(shí)腹式鋼吊車梁(中輕級(jí)工作制A1~A5_Q235鋼_跨度6.0m、7.5m、9.0m)
- 以虛報(bào)注冊(cè)資本、虛假出資、抽逃出資為由對(duì)實(shí)行認(rèn)繳資本登記制的公司進(jìn)行處罰無(wú)法律依據(jù)
- 風(fēng)電場(chǎng)生產(chǎn)運(yùn)營(yíng)準(zhǔn)備大綱11.14
- 人教版八年級(jí)語(yǔ)文下冊(cè)教材研說(shuō)
- 《機(jī)械制造裝備設(shè)計(jì)》ppt課件
- 中學(xué)家訪記錄大全100篇 關(guān)于中學(xué)家訪隨筆
評(píng)論
0/150
提交評(píng)論