




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
DeepSeek
R1深度解析及算力影響幾何發(fā)布日期:2025年2月3日本報(bào)告由中信建投證券股份有限公司在中華人民共和國(僅為本報(bào)告目的,不包括香港、澳門、臺灣)提供。在遵守適用的法律法規(guī)情況下,本報(bào)告亦可能由中信建投(國際)證券有限公司在香港提供。同時請務(wù)必悶讀正立之F
的色主久款和聲明證券研究報(bào)告
·行業(yè)動態(tài)研究■核心觀點(diǎn):
Deepsek
發(fā)布深度推理能力模型。R1-Zero采用純粹的強(qiáng)化學(xué)習(xí)訓(xùn)練,證明了大語言模型僅通過強(qiáng)化學(xué)習(xí)也可以有強(qiáng)大的推理能力,DeepSeek-R1經(jīng)歷微調(diào)和強(qiáng)化學(xué)習(xí)取得了與OpenAl-01-1217相媲美甚至超越的成績。DeepSeekRI訓(xùn)練和推理算力需求較低,主要原因是DeepSeekR1實(shí)現(xiàn)算法、框架和硬件的優(yōu)化協(xié)同。過去的預(yù)訓(xùn)練側(cè)的scalinglaw正逐步邁向更廣闊的空間,在深度推理的階段,模型的未來算力需求依然會呈現(xiàn)爆發(fā)式上漲,充足的算力需求對于人工智能模型的性能進(jìn)步依然至關(guān)重要。Deepseek發(fā)布深度推理能力模型,性能和成本方面表現(xiàn)出色。Deepsek發(fā)布兩款具備深度推理能力的大模型R1-Zero和DeepSeek-R1
。Rl-Zero采用純粹的強(qiáng)化學(xué)習(xí)訓(xùn)練,模型效果逼近OpenAIol模型,證明了大語言模型僅通過RL,
無SFT,
大模型也可以有強(qiáng)大的推理能力。但是R1-Zero也存在可讀性差和語言混合的問題,在進(jìn)一步的優(yōu)化過程中,DepSeek-V3-Base
經(jīng)歷兩次微調(diào)和兩次強(qiáng)化學(xué)習(xí)得到R1模型,主要包括冷啟動階段、面向推理的強(qiáng)化學(xué)習(xí)、拒絕采樣與監(jiān)督微調(diào)、面向全場景的強(qiáng)化學(xué)習(xí)四個階段,R1
在推理任務(wù)上表現(xiàn)出色,特別是在AIME2024
、MATH-500和Codeforces等任務(wù)上,取得了與OpenAI-01-1217相媲美甚至超越的成績?!?/p>
國產(chǎn)模型邁向深度推理,策略創(chuàng)新百花齊放。在DeepsekRl-Zero模型中,采用的強(qiáng)化學(xué)習(xí)策略是GRPO
策略,取消價(jià)值網(wǎng)絡(luò),采用分組
相對獎勵,專門優(yōu)化數(shù)學(xué)推理任務(wù),減少計(jì)算資源消耗;KIM1.5采用Partial
rollout的強(qiáng)化學(xué)習(xí)策略,同時采用模型合并、最短拒絕采樣、
DPO和long2short
RL策略實(shí)現(xiàn)短鏈推理;Qwen2.5擴(kuò)大監(jiān)督微調(diào)數(shù)據(jù)范圍以及兩階段強(qiáng)化學(xué)習(xí),增強(qiáng)模型處理能力。DeepSeekR1通過較少算力實(shí)現(xiàn)高性能模型表現(xiàn),主要原因是DeepSeekR1實(shí)現(xiàn)算法、框架和硬件的優(yōu)化協(xié)同。
DeepSeekR1在諸多維度上進(jìn)行了大量優(yōu)化,算法層面引入專家混合模型、多頭隱式注意力、多token預(yù)測,框架層面實(shí)現(xiàn)FP8混合精度訓(xùn)練,硬件層面采用優(yōu)化
的流水線并行策略,同時高效配置專家分發(fā)與跨節(jié)點(diǎn)通信,實(shí)現(xiàn)最優(yōu)效率配置。當(dāng)前階段大模型行業(yè)正處于從傳統(tǒng)的生成式模型向深度
推理模型過渡階段,算力的整體需求也從預(yù)訓(xùn)練階段逐步過渡向后訓(xùn)練和推理側(cè),通過大量協(xié)同優(yōu)化,DeepSeek
R1在特定發(fā)展階段通過較少算力實(shí)現(xiàn)高性能模型表現(xiàn),算力行業(yè)的長期增長邏輯并未受到挑戰(zhàn)。過去的預(yù)訓(xùn)練側(cè)的scalinglaw正逐步邁向更廣闊的空間,在深度推理的階段,模型的未來算力需求依然會呈現(xiàn)爆發(fā)式上漲,充足的算力需求對于人工智能模型的性能進(jìn)步依然至關(guān)重要?!?/p>
風(fēng)險(xiǎn)提示:大模型技術(shù)發(fā)展不及預(yù)期、商業(yè)化落地不及預(yù)期、政策監(jiān)管力度不及預(yù)期、數(shù)據(jù)數(shù)量與數(shù)據(jù)質(zhì)量不及預(yù)
期摘要第一章
國內(nèi)模型深度推理發(fā)展現(xiàn)狀
4第二章
低算力需求緣起及長期算力觀點(diǎn)
20第三章
相關(guān)問答案例
27第四章
風(fēng)險(xiǎn)提示
33中信建投證券CHINA
SECURITIES國內(nèi)模型深度推理發(fā)展現(xiàn)狀
4第一章中信建投證券CHINASECURITIESR1-Zero
驗(yàn)證了大模型僅通過RL就可實(shí)現(xiàn)強(qiáng)大推理能力■
Deepseek
發(fā)布兩款具備深度推理能力的大模型R1-Zero
和DeepSeek-R1。R1-Zero
的訓(xùn)練,證明了僅通過RL,
無SFT,
大模型也可以有強(qiáng)大的推理能力。
在AIME2024上,R1-Zero
的pass@1指標(biāo)
從15.6%提升至71.0%,經(jīng)過投票策略(majority
voting)
后更是提升到了86.7%,與OpenAI-o1-0912相當(dāng)?!?/p>
架構(gòu)思路:
沒有任何SFT數(shù)據(jù)的情況下,通過純粹的強(qiáng)化學(xué)習(xí)。√
算法應(yīng)用:直接在DeepSeek-V3-Base模型上應(yīng)用GRPO算法進(jìn)行強(qiáng)化學(xué)習(xí)訓(xùn)練。√
獎勵機(jī)制:
使用基于規(guī)則的獎勵機(jī)制,包括準(zhǔn)確性獎勵和格式獎勵,來指導(dǎo)模型的學(xué)習(xí)?!?/p>
訓(xùn)練模板:
采用了簡潔的訓(xùn)練模板,要求模型首先輸出推理過程(置于標(biāo)簽內(nèi)),然后給出最終答案(置于標(biāo)簽內(nèi))。圖
:R1-Zero在AIME
2024基準(zhǔn)測試上的性能測試
圖:強(qiáng)化學(xué)習(xí)過程中的scaling
lawDeepSeek-R1-ZeroaveragelengthperresponseduringtrainingSteps
Steps資料來源:DeepSeek-R1:IncentivizingReasoning■為了解決R1-Zero
可讀性差和語言混合的問題,構(gòu)建了R1?!黾軜?gòu)思路:
在DeepSeek-V3-Base
模型的基礎(chǔ)上,經(jīng)歷兩次微調(diào)和兩次強(qiáng)化學(xué)習(xí)得到R1模型。I
Step
1.冷啟動階段:使用數(shù)千個高質(zhì)量的長Cot人工標(biāo)注樣本
對DeepSeek-V3-Base
模型進(jìn)行微調(diào),作為強(qiáng)化學(xué)習(xí)的初始模型。
Step
2.面向推理的強(qiáng)化學(xué)習(xí):在冷啟動階段之后,
R1采用了
與R1-Zero類似的強(qiáng)化學(xué)習(xí)訓(xùn)練,但針對推理任務(wù)進(jìn)行了特別
優(yōu)化。為了解決訓(xùn)練過程中可能出現(xiàn)的語言混雜問題,R1引入
了語言一致性獎勵,該獎勵根據(jù)CoT中目標(biāo)語言單詞的比例來
計(jì)
算
。Step3.拒絕采樣與監(jiān)督微調(diào):當(dāng)面向推理的強(qiáng)化學(xué)習(xí)收斂后,
R1利用訓(xùn)練好的RL模型進(jìn)行拒絕采樣,生成新的SFT數(shù)據(jù)?!鯯tep
4.面向全場景的強(qiáng)化學(xué)習(xí):
在收集了新的SFT
數(shù)據(jù)后,R1
會進(jìn)行第二階段的強(qiáng)化學(xué)習(xí)訓(xùn)練,這一次,訓(xùn)練的目標(biāo)不再局
限于推理任務(wù),而是涵蓋了所有類型的任務(wù)。此外,
R1采用了
不同的獎勵信號和提示分布,針對不同的任務(wù)類型進(jìn)行了優(yōu)化。DeepSeek-V3Base(671B/37BACtvated)ColdStatLongCoT
Data(SFT)ksampes)ReasoningOrented
RLGRPORule-based
Reward(Accuracy,Fomating)DeepSeek-V3
Base+CS
SFT+RORL(671837BActivated)ReasoningPrompts+RelectlonSamplngCoT
Promping(Rule-based8DS-V3asjudge)Non-ReasoningData(200ksamples)Qwen25Math-7BQwen2.532BLama-3.3.70B-InstudtLama-3.1-8BSFT2
epochs800k
samplesRLReasoning+Preference
RewardDverseTraningPromptsDeepsek-R1-ZeroDeepSeekR1-DistiH(OwenLlamal-"BDistilationDeepSeek-R1:
長CoT
數(shù)據(jù)微調(diào)基礎(chǔ)上應(yīng)用強(qiáng)化學(xué)習(xí)中信建投中信建投證券CHINA
SECURITIES監(jiān)督微調(diào)全場景強(qiáng)化學(xué)習(xí)圖
:DeepSeek-R1
訓(xùn)練過程資料來源:DeepSeek,huggingface,純
強(qiáng)
化
學(xué)
習(xí)蒸餾小模型拒絕
采樣ReasoningData(600ksamples)ComblinedSFTData(800ksamples)SFT2epochs800ksamples+CoT
LanguageConstency
Reward強(qiáng)化學(xué)習(xí)DeepSeek-V3SFTDataSuperisedFine-Tuning冷啟動Qwen25-Math-158BDeepSeekR1DeepSeek-V3Qwen2.514B■R1在推理任務(wù)上表現(xiàn)出色,特別是在AIME2024(美國數(shù)學(xué)邀請賽)、
MATH-500(數(shù)學(xué)競賽題)和Codeforces(編程競賽)等任務(wù)上,取得了與OpenAI-o1-1217
相媲美甚至超越的成績。在MLU(90.8%)
、MLU-Pro(84.0%)
和GPQADiamond(71.5%)等知識密集型任務(wù)基準(zhǔn)測試中,性能顯著超越了DeepSeek-V3
模型。在針對長上下文理解能力的
FRAMES數(shù)據(jù)集上,RI
的準(zhǔn)確率達(dá)到了82.5%,優(yōu)于DeepSeek-V3模型。在開放式問答任務(wù)AlpacaEval2.0和Arena-lard基準(zhǔn)測試中,R1分別取得了87.6%的LC-winrate
和92.3%的GPT-4-1106
評分,展現(xiàn)了其在開放式問答領(lǐng)域的強(qiáng)大能力。圖表:R1在數(shù)學(xué)、代碼、自然語言推理等任務(wù)的性能測試結(jié)果Architecture#ActivatedParams#Total
Params·MoE
37B671BMoE37B671BMMLU
Ppasel)88.387.288.585.2
91.890.8MMLU-Redux
EM)88.988.089.186.792.9MMLU-Pro
EM)78.072.675.980.384.0DROP
shotFI)88.383.791.683.9
90.292.2F-EvalEngish86.584.386.184.883.3GPQADiamondPasel65.049.959.160.0
75.771.5SimpleQA
Coret)28.438.224.97.0
47.030.1FRAMES(Acc)72.580.573.376.982.5AlpacaEval2.0(Cwirate)52.051.170.057.887.6ArenaHard
(GPT4110)85.280.485.592.092.3LiveCodeBenchpasel.COnCodeforcesPerenle)
CodeCodeforcesRating)SWEVerifiedResoved)Aider-Polyglot(Ac)38.9
20.3
717
50.8
45.332.9
23.6
759
38.8
16.036.2
58.7
113442.0
49.663.4
96.6
2061
48.9
61.765.996.3202949.253.3AIME2024(Pasel)16.09.339.263.6
79.279.8Math
MATH-500
Pase)78.374.690.290.0
96.497.3CNMO
2024
Pasel13110.843.267.678.8CLUEWSC
EM)
85.4Chinese
C-Eval
(EM)
76.7
C-SimpleQA
Coret
55.4資料來源:DeepSeek-R1:Incentivizing
Reasoning87.976.0
58.790.986.568.0R1模型推理任務(wù)表現(xiàn)出色89.968.940.392.891.8
證券63.7Claude-3.5-GPT-40DeepSeekOpenAIOpenAIDeepSeekBenchmark
(MetidSonnet-10220513V3
01-mini
o1-1217
R153.893.4182041.6
32.9Accuracy/Percentile(%)(Promp
Stict中信建投DeepSeek
團(tuán)隊(duì)進(jìn)一步探索了將RI的推理能力蒸餾到更小的模型中的可能性。他們使用R1生成的800K數(shù)據(jù),對Qwen和Llama系列的多個小模型(1.5B
、7B
、8B
、14B
、32B
、70B)進(jìn)行了微調(diào)。經(jīng)過R1蒸餾的小模型,在推理能力上得到了顯
著提升,甚至超越了在這些小模型上直接進(jìn)行強(qiáng)化學(xué)習(xí)的效果?!鐾评沓杀緛砜矗琑1
模型價(jià)格只有OpenAI
ol模型的幾十分之一。訓(xùn)練成本來看,
DeepSeek-V3
在一個配備2048個NVIDIAH800
GPU的集群上進(jìn)行訓(xùn)練,預(yù)訓(xùn)練階段在不到兩個月內(nèi)完成,并消耗了2664K
GPU小時,總訓(xùn)練成本為557.6萬美元。圖:01類推理模型輸入輸出價(jià)格(元/1M
Tokens)圖:蒸餾模型表現(xiàn)AIME2024AIME2024MATH
500GPQADiamond
pass@1LiveCodeBench
CodeForces
pass@1
ratingpass@1cons@64pass@1GPT-40-05139.313.474.649.932.9759.0Claude-3.5-Sonnet-102216.026.778.365.038.9717.001mini63.680.090.060.053.81820.0QwQ-32B44.060.090.654.541.91316.0DeepSeek-R1-DistilQwen-1.5B28.952.783.933.816.9954.0DeepSek-R1-Distil(Qwen-7B55.583.392.849.137.61189.0Deepseek-R1-Distil(Qwen-14B69.780.093.959.153.11481.0DeepSek-R1-DstillQwen-32B72.683.394.362.157.21691.0DeepSeek-R1-DistilLJam-8B50.480.089.149.039.61205.0DeepSeek-R1-DistillLlama-70B70.086.794.565.257.51633.0通過蒸餾實(shí)現(xiàn)推理能力遷移資料來源:DeepSeek,DeepSeek-R1:IncentivizingReasoningConb:lit
nIII/。
Doif
montIoni
中信建切中信建投證券CHINASECURITIES■DeepSeek中強(qiáng)化學(xué)習(xí)的核心策略是GRPO策略,GRPO是PPO的改進(jìn)版本,專門優(yōu)化數(shù)學(xué)推理任務(wù),減少計(jì)算資源消耗?!鯣RPO關(guān)鍵改進(jìn):√
取消價(jià)值網(wǎng)絡(luò),降低計(jì)算資源。PPO需要一個額外的價(jià)值網(wǎng)絡(luò)來估計(jì)優(yōu)勢,但GRPO直接用樣本組的平均獎勵作為基線。這
樣,GRPO不需要額外訓(xùn)練價(jià)值網(wǎng)絡(luò),減少GPU計(jì)算成本?!?/p>
采用分組相對獎勵,GRPO用多個樣本的獎勵來計(jì)算相對優(yōu)勢,而不是用價(jià)值網(wǎng)絡(luò)估計(jì)優(yōu)勢。圖
:GRPO策略和PPO策略中的價(jià)值網(wǎng)絡(luò)圖
:GRPO
策略和PPO策略的比較對比項(xiàng)PPO(Proximal
Policy
Optimization)GRPO(Group
Relative
Policy
Optimization)是否有Critic(值函
數(shù)
)口有(需要單獨(dú)的Critic網(wǎng)絡(luò))X沒有是否有價(jià)值網(wǎng)絡(luò)
(Value
Network)?有(用于計(jì)算V(s))X沒有如何計(jì)算Advantage采用GAE(GeneralizedAdvantage
Estimation):At=Tt+V(8t+1)-V(st)直接用一組樣本的相對獎勵計(jì)算Advantage計(jì)算復(fù)雜度高(需要額外訓(xùn)練Critic網(wǎng)絡(luò))低(只需要Reward
Model適用任務(wù)適用于一般RL任務(wù),如RLHF適用于數(shù)學(xué)推理任務(wù)資料來源:DeepSeek,DeepSeek-Rl:Incentivizingon6:1it
IIII。
D。inf。
ontIoani中信建投證券CHINA
SECURITIES中
信
建
切Deepseek
強(qiáng)化學(xué)習(xí)策略GRPO標(biāo)準(zhǔn)差獎勵9即
時
獎
勵
折
扣因
子累
計(jì)
獎
勵GRPO
中的價(jià)值估算:PPO
中
的價(jià)值估算:Reasoning獎勵KIMI1.5:
最好的Short-CoT
模型,出色的推理創(chuàng)新2025年1月20日,kimi1.5
版本模型發(fā)布,這是繼2024年11月發(fā)布
k0-math
數(shù)學(xué)模型,12月發(fā)布
k1
視覺思考模型之后,Kimi連續(xù)第三個月帶來
k
系列強(qiáng)化學(xué)習(xí)模型的重磅升級?!?/p>
從基準(zhǔn)測試成績看,k1.5
多模態(tài)思考模型實(shí)現(xiàn)了
SOTA(state-of-the-art)級別的多模態(tài)推理和通用推理能力?!?/p>
在short-CoT
模式下,Kimi
k1.5
的數(shù)學(xué)、代碼、視覺多模態(tài)和通用能力,大幅超越了全球范圍內(nèi)短思考SOTA
模型GPT-40和Claude
3.5
Sonnet
的水平,領(lǐng)先達(dá)到550%。■
在
long-CoT
模式下,Kimi
k1.5
的數(shù)學(xué)、代碼、多模態(tài)推理能力,也達(dá)到長思考SOTA
模型OpenAl
o1正式版的水平。這應(yīng)該是全球范圍內(nèi),OpenAl
之外的公司首次實(shí)現(xiàn)
o1
正式版的多模態(tài)推理性能。Reinforcement
Learning
with
LLMs,中信建投■Kimik
1.5long-CoTOpenAo1OpenAl
01-miniMath96.294877.5
74.470362LiveCodeBenchv524.12-25.2(Pass@1)Kimik15shot-CoTOperAl40Clude3.5SometQwen2-LLLaMA4-3.1405B-nst.DepSekV3Qwen2572B-nst.圖
:Kimi1.5short-CoT模型能力圖
:Kimi1.5long-CoT模型能力資料來源:Kimik1.5:ScalingAIME
2024(Pass@1)Codeforces(Percentile
)MATH
500(EM)MathVista(Pass@1)MMMU(Pass@1)VisionKimi
k1.5
通過幾個關(guān)鍵技術(shù)實(shí)現(xiàn)了強(qiáng)化學(xué)習(xí)(RL)
在大型語言模型
(LLMs)
中的有效擴(kuò)展和性能提升:■
1)長上下文擴(kuò)展:通過將RL的上下文窗口擴(kuò)展到128k,Kimi
k1.5能夠處理更長的文本序列,從而在多個任務(wù)上提升性能。在推理過程中,也保證了更長的思維鏈,可以進(jìn)行更多步驟,更深入的思考?!?/p>
2)改進(jìn)的策略優(yōu)化:采用在線鏡像下降法的變體進(jìn)行策略優(yōu)化,并結(jié)合有效的采樣策略、長度懲罰和數(shù)據(jù)配方優(yōu)化,進(jìn)一步提升了模
型的訓(xùn)練效果,進(jìn)一步節(jié)約算力和思考時間?!?/p>
3)簡化的RL框架:通過長上下文擴(kuò)展和改進(jìn)的策略優(yōu)化,Kimi
k1.5建立了一個簡化的RL學(xué)習(xí)框架,使得模型能夠在不依賴復(fù)雜技術(shù)的情況下實(shí)現(xiàn)強(qiáng)大的性能,優(yōu)化算力。4)
多模態(tài)處理能力:Kimi
k1.5能夠同時處理文本和視覺數(shù)據(jù),展現(xiàn)了在多模態(tài)數(shù)據(jù)上進(jìn)行聯(lián)合推理的能力。(對比Deepseek
R1僅為
純語言模型)podMegatronSidcarTrain
OnloadTerminateConvert
HF
Ofload
Wait
rolloutTerminate
VLLMCheckpointEngineRDMAetcdKimik
系列思考模型路線圖火模態(tài):文本、視覺
模態(tài):本、視覺領(lǐng)域:數(shù)學(xué)、物理、化學(xué)領(lǐng)域:數(shù)理化、代碼、通用◎k1
k1.52024-11-162024-12-172025-01-20KIMI1.5:
四大創(chuàng)新資料來源:Kimik1.5:ScalingReinforcementLearningi+hILII中信建切圖
:Kimi1.5算力優(yōu)化方案,合理分配訓(xùn)練和推理的算力資源日模態(tài):文本
領(lǐng)域:數(shù)學(xué)k0-math建投證券CHINA
SECURITIES圖
:Kimi1.5
出色的多模態(tài)能力更多模態(tài)、更多領(lǐng)域更強(qiáng)通用能力SharedMemoryDummyStartStartVLLMChckpoint
EnginevLLM
SidecarOther
PodsRollout■Kimik1.5的推理框架分為核心幾塊:1)Rollout
模塊:理解為推理過程中的試錯者和推演者,不斷推演不同可能性,從而找到最優(yōu)解。可以想象成一群工人在生產(chǎn)線上進(jìn)行實(shí)際的操作記錄下每一步的結(jié)果。根據(jù)當(dāng)前的模型權(quán)重生成一系列的決策路徑。2
)
主
管
(Master)
模塊:理解為指揮中心。負(fù)責(zé)協(xié)調(diào)和管理整個訓(xùn)練過程,接收來自Rollout模塊的軌跡數(shù)據(jù),評估模型的表現(xiàn),并向
TrainerWorkers發(fā)送訓(xùn)練數(shù)據(jù)。主管還負(fù)責(zé)管理Replay
Buffer(
緩
沖區(qū)
)
,確保推理數(shù)據(jù)的高效利用。■
3)訓(xùn)練模塊:負(fù)責(zé)根據(jù)Rollout模塊提供的數(shù)據(jù)來訓(xùn)練模型。使用策略模型(Policy
Model)和參考模型
(Reference
Model)來計(jì)算梯度更新
(gradient
update),
從而優(yōu)化模型的性能。4)獎勵模型和緩沖區(qū):前者是“裁判”,負(fù)責(zé)評估模型表現(xiàn)并給出獎勵信號。后者是“記憶庫”,用于存儲Rollout生成的軌跡數(shù)據(jù)。Partial
Rollout創(chuàng)新:在Roll
out模塊的推理中,不需要每次都從頭開始,可以從緩沖區(qū)中讀取之前的軌跡后繼續(xù)推理。類似于1)下棋
中,每次只需要思考最關(guān)鍵的步驟,而不用思考前面簡單的步驟。2)設(shè)計(jì)方案時,可以復(fù)用地基的設(shè)計(jì),只考慮頂層的不同設(shè)計(jì)方案。圖
:Kimi1.5
的模型架構(gòu)創(chuàng)新
圖
:Kimi1.5
創(chuàng)新性的Partial
Rollout
方案Trainer
WorkersRollout
Workers
weighttringdnrolouttaiectoriesMasterevalrequestReward
ModelsReplay
BufferMath→
weightflow
dataflowiterationNrolloutworkerfrompromtsetpariaroloutReplayBufferX(b)PartialRolloutsave
forpartialrolloutnormal
stopcutbylengthrepeat,earlystopCHINASECURITIESKIMI
1.5:Partial
rol
lout的RL框架創(chuàng)新(a)Systemoverview資料來源:Kimi
k?.5:ScalingReinforcementLearningwithLMs,中信建投投證券ReferenceModelgradientupdatePolicyModelVisionCodeK-12■盡管長鏈推理模型能夠?qū)崿F(xiàn)強(qiáng)大的性能,但消耗tokens更多。通過將長鏈推理模型的思維先驗(yàn)轉(zhuǎn)移到短鏈推理模型中,從而在有限算力下提高性能。kimi1.5提出了幾種解決長鏈到短鏈(long2short)
問題的方法,包括模型合并、最短拒絕采樣、DPO和long2shortRL?!?)模型合并:通過平均長鏈推理模型和短鏈推理模型的權(quán)重,合并兩個模型,提高令牌效率。2)最短拒絕采樣:對同一個問題進(jìn)行多次
采樣,選擇最短的正確響應(yīng)進(jìn)行微調(diào)。3)DPO:利用長鏈推理模型生成的多個響應(yīng)樣本,構(gòu)建正負(fù)樣本對進(jìn)行訓(xùn)練。4)long2short
RL:
在標(biāo)準(zhǔn)
RL訓(xùn)練后,選擇一個性能和效率平衡的模型,應(yīng)用長度懲罰并減少最大展開長度,進(jìn)一步優(yōu)化短鏈推理模型?!鰈ong2short
RL:
在標(biāo)準(zhǔn)的RL后,再加一個長度RL,從而選出所有正確答案中,思考步數(shù)最短的,進(jìn)而優(yōu)化算力。鼓勵在相同在強(qiáng)化學(xué)習(xí)
中,模型會生成多個響應(yīng)(responses),
每個響應(yīng)都有一個長度。為了鼓勵模型生成更短的響應(yīng),同時懲罰過長的響應(yīng),引入了長度獎
勵機(jī)制。這個機(jī)制通過計(jì)算每個響應(yīng)的長度獎勵,將其添加到原始獎勵中,從而影響模型的訓(xùn)練過程。圖:Kimi1.5short-CoT
性能出色(特別是RL方法)圖
:Kimi1.5
Long2Short
RL
引入的長度懲罰機(jī)制KIM
1.5:Long2short技術(shù)保證了最強(qiáng)的短推理模型中信建投證券CHINASECURITIES資料來源:Kimi
k1.5:Scalingi+hILI
。
中信
建
切Token
LengthToken
LengthReinforcement
Learning阿里千問發(fā)布Qwen2.5
系列模型,性能水平頂尖■
2024年09月19日,阿里發(fā)布Qwen2.5系列,包括0.5B,1.5B,3B,7B,14B,32B以及72B,以及專門針對編程的Qwen2.5-Coder
和數(shù)學(xué)的Qwen2.5-Math
模型。Qwen2.5所有系列模型都在18Ttokens
的數(shù)據(jù)集上進(jìn)行了預(yù)訓(xùn)練,相較于Qwen2,
Qwen2.5獲得了更多的知識(MLU:85+),
并在編程和數(shù)學(xué)方面有了大幅提升?!?/p>
用于編程的Qwen2.5-Coder
和用于數(shù)學(xué)的Qwen2.5-Math,相比其前身Codelwen1.5
和Qwen2-Math有了實(shí)質(zhì)性的改進(jìn):
Qwen2.5-Coder
在包含5.5Ttokens
編程相關(guān)數(shù)據(jù)上進(jìn)行了訓(xùn)練,使即使較小的編程專用模型也能在編程評估基準(zhǔn)測試中
表現(xiàn)出媲美大型語言模型的競爭力。同時,Qwen2.5-Math支持中文和英文,并整合了多種推理方法,包括CoT(ChainofThought)
、PoT(ProgramofThought)
和TIR(Tool-IntegratedReasoning)。圖:0wen2.5系列模型參數(shù)
圖
:Qwen2.5-72B
在多個領(lǐng)域領(lǐng)先Llama-3ModelsLayersHeads(Q/KV)TieEmbeddingContext/Generation
LengthLicense0.5B2414/2Yes32K/8KApache
2.01.5B2812/2Yes32K/8KApache
2.03B3616/2Yes32K/8KQwenResea
rch7B2828/4No128K/8KApache
2.014B4840/8No128K/8KApache
2.032B6440/8No128K/8KApache
2.072B8064/8No128K/8KQwenGeneral
TasksMMLU79.577.8
85.284.286.185.4MMLU-Pro52.851.6
61.6
55.758.164.0MMLU-reduxBBH75.081.072.978.985.980.582.483.986.358ARCC68.870.7
68.972.470.9TruthfulQA45.651.0
54.860.455.3WindoGrande85.385.0
86.7
85.183.985.5HelaSwag88.088.7
87387.689.2Mathematics&Scienc
TasksGPQATheoremQA
MATHMMLU-stemGSM8K36.332.342.573.77.634.335.983.753.889.037.442.850.979.689.045.942.462.182.791.543.9
48.5
64.481.293.0Coding
TasksHumanEval48.246.361.064.659.159.1HumanEval+MBPP42.170.440.271.773056.176.951.284.752.4
79.7MBPP+58.458.163.969.266.9MultiPLE46.346.759.660.561.0MulilingualTsksDatasets
Llama-3-70B
Mixtral-8x22B
Llama-3-405B
Qwen2-72B
lQwen2.5-72B'Qwen2.5-PlusU
CHINA
SECURITIESMult-Exam
70.0
Multi-Understanding79.9投證券Multi-MathematicsMulti-Translation次
山
/
古
源
口
廣
4信訣機(jī)78.5
240.478.7
89.6
76.739.063.577.7
62.923.376.680.7
76.0
37.867.138.0己
去圖:QWen2.5通過多種方式構(gòu)建高質(zhì)量數(shù)據(jù)集
圖:使用專門的上下文訓(xùn)練方式,增強(qiáng)處理序列能力除Qwen2.5-Turbo之外的全部模型變體,其上下文長度會從4,096延展至32,768。與此同時,借助ABF技術(shù),將RoPE
(位置編碼旋轉(zhuǎn))的基頻從10,000提升到1,00,000。合并了來自Qwen2.5-Math和Qwen2.5-Coder的訓(xùn)練數(shù)據(jù)借助Qwen2-72B-Instruct與Qwen2Math-72B-Instruct模型催生高質(zhì)量合成數(shù)據(jù)針對Qwen2.5-Turbo,訓(xùn)練期間推行漸進(jìn)式上下文長度擴(kuò)展策略,分四個階段逐步推進(jìn):先是32,768個token,接著拓展至65,536,繼而達(dá)到131,072,最終定格在262,144,且RoPE基啟用Qwen2-Instruct模型對不同領(lǐng)域的內(nèi)容進(jìn)頻高達(dá)10,00,000。行分類梳理與均衡調(diào)配。中信建投證券CHINA
SECURITIES次小/女源Qwen2.5預(yù)訓(xùn)練階段構(gòu)建了更高質(zhì)量數(shù)據(jù)集及專門的上下文訓(xùn)練方式■
在預(yù)訓(xùn)練方面,
Qwen2.5
通過多種方式,進(jìn)行高質(zhì)量數(shù)據(jù)集構(gòu)建,例如更好的數(shù)據(jù)過濾:引入
Qwen2-Instruct
模型對
數(shù)據(jù)進(jìn)行把關(guān),不僅大幅提升了高質(zhì)量訓(xùn)練數(shù)據(jù)的留存比例,還能更高效地篩除多語種低質(zhì)樣本。此外還使用Qwen2.5-Math和Qwen2.5-Coder
的訓(xùn)練數(shù)據(jù)、借助Qwen2-72B-Instruct
與Qwen2Math-72B-Instruct模型催生高質(zhì)量合成數(shù)據(jù)以及
啟用Qwen2-Instruct
模型對不同領(lǐng)域的內(nèi)容進(jìn)行分類梳理與均衡調(diào)配。Qwen2.5
將高質(zhì)量的預(yù)訓(xùn)練數(shù)據(jù)集從之前的7萬
億個
token
擴(kuò)展到了
1
8
萬億個
token。■
預(yù)訓(xùn)練上下文方面,通過兩階段調(diào)節(jié)上下文長度,進(jìn)而達(dá)到最優(yōu)訓(xùn)練效果。Qwen2.5
還采用了YARN
和雙塊注意力DCA,
實(shí)現(xiàn)了序列長度容量四倍的飛躍式增長,使得
Qwen2.5-Turbo
能夠從容處理多達(dá)100萬個token
的序列,而其他模型
也具備處理多達(dá)131072個token
序列的能力。使用Qwen2進(jìn)行數(shù)據(jù)過濾,大幅度提高高質(zhì)量訓(xùn)練數(shù)據(jù)留存比在初始階段,設(shè)置
4,096的
上下文長度更好的數(shù)學(xué)和代碼數(shù)據(jù)更好的數(shù)據(jù)混合更好的合成數(shù)據(jù)更好的數(shù)據(jù)過濾
通過擴(kuò)大監(jiān)督微調(diào)數(shù)據(jù)范圍以及兩階段強(qiáng)化學(xué)習(xí),增強(qiáng)模型處理能力
■Qwen
2.5
監(jiān)督微調(diào)通過多種方式,在長序列生成、數(shù)學(xué)問題解決、編碼、指令遵循、結(jié)構(gòu)化數(shù)據(jù)理解、邏輯推理、跨語
言遷移和強(qiáng)大的系統(tǒng)指令等領(lǐng)域進(jìn)行了微調(diào)數(shù)據(jù)覆蓋,構(gòu)建了一個包含超過100萬
個
SFT
示例的數(shù)據(jù)集,解決了先前
模型在以上關(guān)鍵領(lǐng)域顯示的局限性?!?/p>
強(qiáng)化學(xué)習(xí)階段,采用兩階段強(qiáng)化學(xué)習(xí):離線
RL
和
在線
RL
。
離線RL:主要針對推理、事實(shí)性和遵循指令等領(lǐng)域的能力開發(fā)。在線RL:在線強(qiáng)化學(xué)習(xí)階段利用獎勵模型檢測輸出質(zhì)量細(xì)微差別的能力,包括真實(shí)性、有用性、簡潔性、相關(guān)性、
無害性和去偏差。圖:Qwen2.5
在后訓(xùn)練階段擴(kuò)大監(jiān)督微調(diào)數(shù)據(jù)覆蓋范圍
圖:采用兩階段強(qiáng)化學(xué)習(xí)監(jiān)督微調(diào)數(shù)據(jù)領(lǐng)域增強(qiáng)方式長序列生成采用反向翻譯技術(shù)從預(yù)訓(xùn)練語料庫中生成長文本數(shù)據(jù)的查詢,
施加輸出長度限制,并使用Qwen2過濾掉低質(zhì)量的配對數(shù)據(jù)。數(shù)學(xué)引入了Qwen2.5-Math的思想鏈數(shù)據(jù),采用拒絕抽樣以及獎勵
建模和帶注釋的答案作為指導(dǎo)。編碼深度融合Qwen2.5Coder的指令調(diào)優(yōu)數(shù)據(jù)。指令遵循實(shí)施了嚴(yán)格的基于代碼的驗(yàn)證框架。結(jié)構(gòu)化數(shù)據(jù)理解開發(fā)了一個全面的結(jié)構(gòu)化理解數(shù)據(jù)集。邏輯推理引入了一組跨越不同領(lǐng)域的70000個新查詢??缯Z言遷移采用翻譯模型將指令從高資源語言轉(zhuǎn)換為各種低資源語言。強(qiáng)大的系統(tǒng)指令構(gòu)建了數(shù)百個通用系統(tǒng)提示?;貜?fù)過濾采用了專用的評論家模型和多智能體協(xié)作評分系統(tǒng)。兩階段強(qiáng)化學(xué)習(xí)離線RL
在線RL開發(fā)對獎勵模型評估具有挑戰(zhàn)性的能力,例如
推理、事實(shí)性和遵循指
令。通過對訓(xùn)練數(shù)據(jù)的
精心構(gòu)建和驗(yàn)證,確保
離線強(qiáng)化學(xué)習(xí)信號既可學(xué)習(xí)又可靠。在線強(qiáng)化學(xué)習(xí)階段利用獎勵模型檢測輸出質(zhì)量細(xì)微
差別的能力,包括真實(shí)性、
有用性、簡潔性、相關(guān)性、無害性和去偏差。中信建投證券CHINA
SECURITIES次小/女源
口廣
山信訣機(jī)■
阿里千問發(fā)布Qwen2.5-1M,
通過逐步拓展上下文訓(xùn)練長度、長度外推和稀疏注意力機(jī)制等方式,將開源Qwen模型的上下文擴(kuò)展到1M長度,在處理長文本任務(wù)中都已經(jīng)實(shí)現(xiàn)穩(wěn)定超越GPT-40-mini。
阿里千問還通過分塊預(yù)填充、集成長度外推
方案、稀疏性優(yōu)化等優(yōu)化,將處理1M長度輸入序列的預(yù)填充速度提升了3.2倍到6.7倍?!?/p>
阿
里Qwen
開源全新的視覺模型Qwen2.5-VL,
推出3B、7B和72B三個尺寸版本。其中,旗艦版Qwen2.5-VL-72B
在13項(xiàng)權(quán)威評測中奪得視覺理解冠軍,全面超越GPT-40與Claude3.5。圖
:Qwen2.5-1M
超越GPT-4o-mini
圖
:Qwen2.5
VL全面超越GPT-40
與Claude3.5ModelClaimedRULERLengthAvg.4K8K16K
32K
64K
128KGLM4-9b-Chat-1MLlama-3-8B-Instruct-Gradient-1048k
Llama-3.1-70B-Instruct1M
89.9
1M
88.3
128K89.694.792.892.189.9
86.783.195.593.891.6
87.4
84.777.0
96.595.895.4
94.8
88.466.6GPT-40-mini
128K
87395.092.992.790.287.665.8GPI-4
128K
91.696.696.395.293.287.081.2Qwen2.5-32B-InstructQwen2.5-72B-InstructRoPEDCA+YaRNRoPEDCA+YaRN32K
128K
32K
128K88.0
92.9
90.895.196.997.195.595.597.797.297.796.585.357.790.382.088.567.093.088.4Qwen2.5-7B-InstructRoPEDCA+YaRN32K
80.1
128K
85.496.795.193.789.474.531.4
82.355.1Qwen2.5-7B-Instruct-1MRoPE/DCA+YaRN1M
91.896.895.393.091.190.484.4RoPE
32KQwen2.5-14B-InstructDCA+YaRN
128K86.5
91.497.796.895.993.482.353.086.778.1Qwen2.5-14B-nstruct-1MROPE7DCA+YaKN
IM
95.797.597.194.694.994.992.2Qwen2.5-Turbo
RoPE/DCA+YaRN
1M
93.197.595.795.594.890.884.5Qwen2.5.VLGemini2GPT-40Clude3.5Qwen2.YLOther
Best72BFlashSonmet72BOpon
VMColegeleveMMMU70.270.770.370.464.570.1Problems
MMMUPro51.157.054.554.746252.7DoeVQA96.492.191.195.296.596.1Document
andInfoVQA87.377880.774.384.584.1Diogrom
RedingCCOCR79.873.066.662.768.768.7OCRBenchV2Megabench61.551.346.545.247847855.254.252.146.847.4General
QuestionVisualMMStorAnswering70.869.464.765.168.369.5MMBench1.188.074.883.073.182.163.883.465.486.670.587.472.3MathVistaMathMathVision38.141.330.438.325.932.2VideoMME73.371.960.071.272.1Video
MMBenchVideo2.01.71.41.71.9UnderstndinL
Bench47.330.843.6CharadesSTA50.935.748.4ATZ83.235.353.3AndroidControl67.466.4ScreenS$potVisudAgent87.184.018.183.089.5ScreenSpotPro43.617.138.1AndroidWorld35.034.527.946.6OSWorld8.85.014.922.7Qwen2.5-1M
和Qwen2.5
VL發(fā)布,進(jìn)一步拓展Qwen2.5
家族系列次
小
/
女
源
口
廣
山
信
訣
機(jī)Qwen2.5-Max
上線,性能超越DeepSeek
V3■
阿里千問發(fā)布大規(guī)模MoE模型Qwen2.5-Max,
在超過20萬億個token上進(jìn)行預(yù)訓(xùn)練,并使用精選的監(jiān)督微調(diào)
(SFT)
和從人
類反饋中強(qiáng)化學(xué)習(xí)(RLHF)方法進(jìn)行了進(jìn)一
步的后訓(xùn)練。通過在包括MMLU-Pro
(通過大學(xué)級問題測試知識)、
LiveCodeBench
(評估編碼能力)、
LiveBench
(全面測試
一般能力)和Arena-Hard
(近似人類偏好)上進(jìn)行測試,
Qwen2.5-Max
在大多數(shù)基準(zhǔn)測試中都表現(xiàn)出了顯著的優(yōu)勢,性能全面超越DeepSeek
V3。Qwen2.5-max多模態(tài)能力方面,在聯(lián)網(wǎng)搜索、代碼、游戲制作方面均有較好表現(xiàn)。(20240831)0C
Qwen25-MaxvGoodevening,chenchengDwebpaMresepgunethukpdyatehawebomwungHMM,CssndJuschtThgumshoudhddsthetolbwingturctostmgimes1"0MSstp":Aowbhbetocorlgyrethepidsiz(e.,8x?1616)ndthenunbwdmmbtegtma2"Wn
Plenn";Ranont
plkmhs805hgid
wnsmgmmim
owi%3"Clherato"Enbeltcdektomedctsndighcdk(xmenabemechwin0olgsupctdme
kcabons.4"Mnbe
hcsatu"Dplynunbu1ctshdatnghwnay
dpmsMn
WsswchAhywuDVonwCHINASECUKITTES圖
:Qwen2.5-Max性能全面超越當(dāng)前領(lǐng)先的先進(jìn)模型圖
:Qwen2.5-Max
快速做出掃雷游戲次
山
源00OpenAl
o1模型可能采用PRM
過程打分策略和蒙特卡洛搜索實(shí)現(xiàn)深度推理。■
選擇:從根節(jié)點(diǎn)開始,算法根據(jù)特定策略瀏覽有希望的子節(jié)點(diǎn),直到到達(dá)葉節(jié)點(diǎn)為止?!?/p>
擴(kuò)展:在葉子節(jié)點(diǎn)處,除非它代表了博弈的終結(jié)狀態(tài),否則會添加一個或多個可行的新子節(jié)點(diǎn),以說明未來可能采取的行動
?!?/p>
模擬或評估:
從新添加的節(jié)點(diǎn)開始,算法進(jìn)行隨機(jī)模擬--通常稱為“滾動”--通過任意選擇棋步直到博弈結(jié)束,從而評估節(jié)點(diǎn)的潛力?!?/p>
反向傳播:
模擬后,結(jié)果(勝、負(fù)或和)會傳播回根節(jié)點(diǎn),更新每個遍歷節(jié)點(diǎn)的統(tǒng)計(jì)數(shù)據(jù)(如勝、負(fù)),為未來決策提供依據(jù)。圖
:PRM過程
圖:蒙特卡洛過程結(jié)果篩選策略PRM(結(jié)果打分?jǐn)M合方法)方式2:最小(步驟分中選最小)step?step2
step3|
step4|step?0.34step,step2
step3Generator0.92…訓(xùn)好的生成模型(遵循按stepby-step方式執(zhí)行任務(wù))0.839選answer2LielThought(DInputBranchingoutfromachlnKeynovedlyOutput(beyondCoTSC:Gnerathng
svrllntemediatethoughsare
aso
scoedltfurhet,andbudacdking(~a19
資料來源:深度學(xué)習(xí)自然語言處理,Dc
nin~n
:1i+i
IOpenAl
o1模型Understanding
TransformerA1~i+hmNanminJ
由信建切中后建僅證券CHINA
SECURITIES擬合結(jié)果最終打分最終選擇打分最高的結(jié)果作為最終結(jié)果pewthoughsbasedona
ghenabiraythought,eploring方式1:乘積(所有步驟分乘積)stepstep2step?
step40.820.940.340.470.86③Buckackingfromachain0.97
0.93
0.99
0.94inference
階段0.93
0.99
0.92選answern①采樣n條結(jié)果possiblyfomlt②
對過程打分Evaluationanswe2answeranswer0.8470.099C0.93低算力需求緣起及長期算力觀點(diǎn)
20第二章中信建投證券CHINA
SECURITIESDeepSeekMoE
在專家模型的設(shè)計(jì)上引入了共享專家+路由專家的架構(gòu),并采用無輔助損失的負(fù)載均衡策略,使得計(jì)算資源分配更加高效。
DeepSeekMoE由256個路由專家組成,每個token在路由過程中會選擇8個專家,其中共享專家始終被選
中,其余7個專家通過門控機(jī)制選擇。DeepSeek-V3
共包含671B個參數(shù),其中每個token激活37B個參數(shù),訓(xùn)練數(shù)據(jù)量為
14.8Ttoken。
同時額外引入了一種無輔助損失的負(fù)載平衡策略以減輕因確保負(fù)載平衡而導(dǎo)致的性能下降。Deepseek
V2模型參數(shù)量達(dá)到236B,同時由于模型小專家混合的特性,模型每個token在推理時的激活參數(shù)為21B,可以實(shí)
現(xiàn)高推理速度。模型的核心優(yōu)化點(diǎn)多頭隱式注意力顯著降低了訓(xùn)練和推理成本。在成本效率方面,相比V1的稠密模型,
V2模型節(jié)約了42.5%的訓(xùn)練成本,減少了推理時93.3%的KV-cache
顯存占用,將生成的吞吐量也提升到了原來的5.76倍。圖
:DeepSeek
模型中的MOE架構(gòu)
圖
:DeepSeek
模型中的多頭隱式注意力DeepSeekMoERoutedxpetTransformerBlockxL剛OFeedforward
NetworkRMSNorm0000-0000
IhnputHiden
u:Multi-Head
LatentAttention(MLA)AtentionMultiHeadAttentionRMSNorm(k:;kconcdenoekk
)信
信00-00l
Latente
uene?D0-00hoatHdenh,D000-0000低成本緣由一:高度稀疏的模型架構(gòu)資料來源:DeepSeek-V3TechnicalReport,DeepSeek-V2:AStrong,Danmia1
andEffiin+Mi
f
Lnant~Ind、1中
信
#
切CachedDurnghtene
uputden.:0000-0000IIV
cachedDurigherence0000--0000∠l
Top-K,8iShaedbpet04:0cD(OutputHidenh{34Router11Deepseek提出了一種用FP8訓(xùn)練的混合精度框架。在不同計(jì)算步驟中使用FP8、BF16、FP32
三種不同的數(shù)值格式,以在計(jì)算效率和數(shù)值穩(wěn)定性之間取得平衡。大多數(shù)計(jì)算密集型操作以FP8進(jìn)行,與線性算子相關(guān)的所有三個核心計(jì)算內(nèi)核操作,即Fprop(前向傳播)、
Dgrad(激活反向傳播)和Wgrad(權(quán)重反向傳播)均以FP8執(zhí)行,而少數(shù)關(guān)鍵操作則策略性地保
持其原始數(shù)據(jù)格式例如嵌入模塊、輸出頭、MoE門控模塊、歸一化算子和注意力算子,以平衡訓(xùn)練效率和數(shù)值穩(wěn)定性?!鰹榱藢?shí)現(xiàn)混合精度FP8訓(xùn)練,deepseek引入了多種策略來提升低精度訓(xùn)練的準(zhǔn)確性,其中包括細(xì)粒度量化、提高累加精度、
尾數(shù)優(yōu)先于指數(shù)、在線量化等策略。細(xì)粒度量化的辦法幫助FP8精度實(shí)現(xiàn)訓(xùn)練,傳統(tǒng)的方法基于整個張量進(jìn)行縮放,而細(xì)
粒度量化則采用更小的分組單位,使得量化過程能夠更好地適應(yīng)離群值,從而提高訓(xùn)練的穩(wěn)定性和精度。圖:FP8訓(xùn)練框架
圖:細(xì)粒度量化低成本緣由二:FP8
混合精度訓(xùn)練框架InputBF16Input
Gradient22ToFP8Wgrad2MasterWeightToFP8WeightGradientFP32
ToBF16ToFP32OptimizerStates中信建投證券CHINASECURITIES原始矩陣
傳統(tǒng)方法量化結(jié)果ToBF16OutputToFP87oFP80oBF16WeightDgrad
FP32資料來源:DeepSeek-V3TechnicalReport,
中信建投Fprop2
FP322*2
block采用不同的權(quán)重OutputGradientBF16細(xì)粒度量化結(jié)果ToFP877■DeepSeek-V3采用了16路管道并行
(PP)、
跨越8個節(jié)點(diǎn)的64路專家并行
(EP)
以及ZeR0-1數(shù)據(jù)并行
(DP)。DualPipe
是一種新型的流水線并行方法,旨在減少計(jì)算和通信之間的等待時間,提高訓(xùn)練效率。傳統(tǒng)流水線并行方法的
計(jì)算和通信比率通常接近1:1,這意味著一半的時間可能被通信占據(jù),導(dǎo)致GPU資源利用率低下。
DualPipe
通過計(jì)算-通
信重疊來隱藏通信開銷,使得模型在大規(guī)模分布式環(huán)境下的訓(xùn)練更加高效。在DualPipe
中,前向傳播的計(jì)算任務(wù)和反向
傳播的計(jì)算任務(wù)被重新排序,使它們能夠互相重疊。具體來說,
DualPipe
將前向傳播和反向傳播的不同計(jì)算階段重新排
列,并手動調(diào)整GPU
計(jì)算單元在通信和計(jì)算之間的分配比例。圖
:
DualPipe
訓(xùn)練方案5130389001982143290Device0Device
1Device
2Device
3Device
4
Device
5Device6
Device
7763862702458192345778991346182g3468989027283g94568789167384957989063748596799047586989547687895566779F30F?1F?2F?3B?3B?2B?1B?0UpdateF?0F?1F?2F?3B?3B?2B?1B?0UpdaleF?0F?F?2F?3BubbleB13B?2B?
.B?0UpdateFooFo,1Fo?Fo?Bo?Bo?Bo.?Bo0Update傳統(tǒng)策略23低成本緣由三:流水線并行策略提升訓(xùn)練效率中信建投證券CHINA
SECURITIESForward
Backward
Backward
for
input
Backward
for
weightsOverlappedforward
&Backward資料來源:DeepSeek-V3TechnicalReport,中信建投Dualpipe策略156210Time→0Deepseek
高效配置專家分發(fā)與跨節(jié)點(diǎn)通信,實(shí)現(xiàn)最優(yōu)效率??绻?jié)點(diǎn)的GPU通過InfiniBand(IB)完全互連,節(jié)點(diǎn)內(nèi)的通信則通過
NVLink
處理。NLink
提供160GB/s的帶寬,大約是IB(50GB/s)
的3.2倍。為了有效利用IB和NVLink
的不同
帶寬,將每個token
分發(fā)的節(jié)點(diǎn)數(shù)限制為最多4個,從而減少IB流量。具體而言每個token
可以高效地選擇每個節(jié)點(diǎn)平均
3.2個專家,而不會產(chǎn)生NVLink
的額外開銷。Deepseek
采
用了定
制
的PTX
(
并
行
線
程
執(zhí)
行
)
指令,并自動調(diào)整通信塊大小,這顯著減少了L2
緩存的使用和對其他SM的干擾。在模型訓(xùn)練的分發(fā)和合并過程中,通過warp
專業(yè)化技術(shù),并將20個SM
劃分為10個通信通道,實(shí)現(xiàn)了最佳的計(jì)算
和通信資源配比。圖:專家分發(fā)設(shè)計(jì)
圖:定制的PTX指令在CUDA中的位置IB通信網(wǎng)絡(luò)CUDA庫OS(Linux+Windows+Mac)NVDIA
GPU專家
一專家二專家三專家四專家五專家六低成本緣由四:跨節(jié)點(diǎn)無阻通信設(shè)計(jì)節(jié)點(diǎn)一
節(jié)點(diǎn)二24CRuntimeCUDA
Driver
PTX(SA)中信建投證券資料來源:中信建投
CHINA
SECURITIESDeepSeek-V3通過多token
預(yù)測
(MTP)
技術(shù)不僅預(yù)測下一個token,還預(yù)測接下來的2個token,第二個token預(yù)測的接受率在不同生成主題中介于85%到90%之間。一方面,多token預(yù)測目標(biāo)增加了訓(xùn)練信號的密度,可能提高數(shù)據(jù)效率。另一方面,多token
預(yù)測可能使模型能夠預(yù)先規(guī)
劃其表示,以更好地預(yù)測未來token。圖:DeepSeek模型多token預(yù)測TransformerBlock
xLEmbeding
LayerInputTokenst?
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 課題申報(bào)書語文
- 課題申報(bào)書咋寫
- 微課題研究申報(bào)書
- 借款合同范本員工向公司
- 醫(yī)學(xué)課題申報(bào)書 范文
- 學(xué)生曠課課題申報(bào)書
- 業(yè)務(wù)員用車合同范例
- 前后院老屋出租合同范本
- 合同范本文壁紙
- 創(chuàng)新專業(yè)研究課題申報(bào)書
- 學(xué)習(xí)雷鋒好榜樣 學(xué)習(xí)
- 建筑工程計(jì)量與計(jì)價(jià)高職PPT完整全套教學(xué)課件
- 網(wǎng)店運(yùn)營PPT完整全套教學(xué)課件
- 用戶操作手冊-Tagetik合并財(cái)務(wù)報(bào)表系統(tǒng)實(shí)施項(xiàng)目
- 高中通用技術(shù)人教高二下冊目錄新型抽紙盒-
- 畜牧場經(jīng)營管理
- 【課件】算法及其特征 課件教科版(2019)高中信息技術(shù)必修1
- 【課題】《中學(xué)道德與法治法治意識培養(yǎng)策略的研究》中期檢查表
- 統(tǒng)編人教版高中政治(必修3)第2課第一框《始終堅(jiān)持以人民為中心》說課稿
- 第七章-創(chuàng)意服裝的立體裁剪課件
- 檔案管理技能大賽(理論知識)考試題庫(含答案)
評論
0/150
提交評論