DeepSeek R1深度解析及算力影響幾何_第1頁
DeepSeek R1深度解析及算力影響幾何_第2頁
DeepSeek R1深度解析及算力影響幾何_第3頁
DeepSeek R1深度解析及算力影響幾何_第4頁
DeepSeek R1深度解析及算力影響幾何_第5頁
已閱讀5頁,還剩29頁未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

DeepSeek

R1深度解析及算力影響幾何發(fā)布日期:2025年2月3日本報(bào)告由中信建投證券股份有限公司在中華人民共和國(僅為本報(bào)告目的,不包括香港、澳門、臺灣)提供。在遵守適用的法律法規(guī)情況下,本報(bào)告亦可能由中信建投(國際)證券有限公司在香港提供。同時請務(wù)必悶讀正立之F

的色主久款和聲明證券研究報(bào)告

·行業(yè)動態(tài)研究■核心觀點(diǎn):

Deepsek

發(fā)布深度推理能力模型。R1-Zero采用純粹的強(qiáng)化學(xué)習(xí)訓(xùn)練,證明了大語言模型僅通過強(qiáng)化學(xué)習(xí)也可以有強(qiáng)大的推理能力,DeepSeek-R1經(jīng)歷微調(diào)和強(qiáng)化學(xué)習(xí)取得了與OpenAl-01-1217相媲美甚至超越的成績。DeepSeekRI訓(xùn)練和推理算力需求較低,主要原因是DeepSeekR1實(shí)現(xiàn)算法、框架和硬件的優(yōu)化協(xié)同。過去的預(yù)訓(xùn)練側(cè)的scalinglaw正逐步邁向更廣闊的空間,在深度推理的階段,模型的未來算力需求依然會呈現(xiàn)爆發(fā)式上漲,充足的算力需求對于人工智能模型的性能進(jìn)步依然至關(guān)重要。Deepseek發(fā)布深度推理能力模型,性能和成本方面表現(xiàn)出色。Deepsek發(fā)布兩款具備深度推理能力的大模型R1-Zero和DeepSeek-R1

。Rl-Zero采用純粹的強(qiáng)化學(xué)習(xí)訓(xùn)練,模型效果逼近OpenAIol模型,證明了大語言模型僅通過RL,

無SFT,

大模型也可以有強(qiáng)大的推理能力。但是R1-Zero也存在可讀性差和語言混合的問題,在進(jìn)一步的優(yōu)化過程中,DepSeek-V3-Base

經(jīng)歷兩次微調(diào)和兩次強(qiáng)化學(xué)習(xí)得到R1模型,主要包括冷啟動階段、面向推理的強(qiáng)化學(xué)習(xí)、拒絕采樣與監(jiān)督微調(diào)、面向全場景的強(qiáng)化學(xué)習(xí)四個階段,R1

在推理任務(wù)上表現(xiàn)出色,特別是在AIME2024

、MATH-500和Codeforces等任務(wù)上,取得了與OpenAI-01-1217相媲美甚至超越的成績?!?/p>

國產(chǎn)模型邁向深度推理,策略創(chuàng)新百花齊放。在DeepsekRl-Zero模型中,采用的強(qiáng)化學(xué)習(xí)策略是GRPO

策略,取消價(jià)值網(wǎng)絡(luò),采用分組

相對獎勵,專門優(yōu)化數(shù)學(xué)推理任務(wù),減少計(jì)算資源消耗;KIM1.5采用Partial

rollout的強(qiáng)化學(xué)習(xí)策略,同時采用模型合并、最短拒絕采樣、

DPO和long2short

RL策略實(shí)現(xiàn)短鏈推理;Qwen2.5擴(kuò)大監(jiān)督微調(diào)數(shù)據(jù)范圍以及兩階段強(qiáng)化學(xué)習(xí),增強(qiáng)模型處理能力。DeepSeekR1通過較少算力實(shí)現(xiàn)高性能模型表現(xiàn),主要原因是DeepSeekR1實(shí)現(xiàn)算法、框架和硬件的優(yōu)化協(xié)同。

DeepSeekR1在諸多維度上進(jìn)行了大量優(yōu)化,算法層面引入專家混合模型、多頭隱式注意力、多token預(yù)測,框架層面實(shí)現(xiàn)FP8混合精度訓(xùn)練,硬件層面采用優(yōu)化

的流水線并行策略,同時高效配置專家分發(fā)與跨節(jié)點(diǎn)通信,實(shí)現(xiàn)最優(yōu)效率配置。當(dāng)前階段大模型行業(yè)正處于從傳統(tǒng)的生成式模型向深度

推理模型過渡階段,算力的整體需求也從預(yù)訓(xùn)練階段逐步過渡向后訓(xùn)練和推理側(cè),通過大量協(xié)同優(yōu)化,DeepSeek

R1在特定發(fā)展階段通過較少算力實(shí)現(xiàn)高性能模型表現(xiàn),算力行業(yè)的長期增長邏輯并未受到挑戰(zhàn)。過去的預(yù)訓(xùn)練側(cè)的scalinglaw正逐步邁向更廣闊的空間,在深度推理的階段,模型的未來算力需求依然會呈現(xiàn)爆發(fā)式上漲,充足的算力需求對于人工智能模型的性能進(jìn)步依然至關(guān)重要?!?/p>

風(fēng)險(xiǎn)提示:大模型技術(shù)發(fā)展不及預(yù)期、商業(yè)化落地不及預(yù)期、政策監(jiān)管力度不及預(yù)期、數(shù)據(jù)數(shù)量與數(shù)據(jù)質(zhì)量不及預(yù)

期摘要第一章

國內(nèi)模型深度推理發(fā)展現(xiàn)狀

4第二章

低算力需求緣起及長期算力觀點(diǎn)

20第三章

相關(guān)問答案例

27第四章

風(fēng)險(xiǎn)提示

33中信建投證券CHINA

SECURITIES國內(nèi)模型深度推理發(fā)展現(xiàn)狀

4第一章中信建投證券CHINASECURITIESR1-Zero

驗(yàn)證了大模型僅通過RL就可實(shí)現(xiàn)強(qiáng)大推理能力■

Deepseek

發(fā)布兩款具備深度推理能力的大模型R1-Zero

和DeepSeek-R1。R1-Zero

的訓(xùn)練,證明了僅通過RL,

無SFT,

大模型也可以有強(qiáng)大的推理能力。

在AIME2024上,R1-Zero

的pass@1指標(biāo)

從15.6%提升至71.0%,經(jīng)過投票策略(majority

voting)

后更是提升到了86.7%,與OpenAI-o1-0912相當(dāng)?!?/p>

架構(gòu)思路:

沒有任何SFT數(shù)據(jù)的情況下,通過純粹的強(qiáng)化學(xué)習(xí)。√

算法應(yīng)用:直接在DeepSeek-V3-Base模型上應(yīng)用GRPO算法進(jìn)行強(qiáng)化學(xué)習(xí)訓(xùn)練。√

獎勵機(jī)制:

使用基于規(guī)則的獎勵機(jī)制,包括準(zhǔn)確性獎勵和格式獎勵,來指導(dǎo)模型的學(xué)習(xí)?!?/p>

訓(xùn)練模板:

采用了簡潔的訓(xùn)練模板,要求模型首先輸出推理過程(置于標(biāo)簽內(nèi)),然后給出最終答案(置于標(biāo)簽內(nèi))。圖

:R1-Zero在AIME

2024基準(zhǔn)測試上的性能測試

圖:強(qiáng)化學(xué)習(xí)過程中的scaling

lawDeepSeek-R1-ZeroaveragelengthperresponseduringtrainingSteps

Steps資料來源:DeepSeek-R1:IncentivizingReasoning■為了解決R1-Zero

可讀性差和語言混合的問題,構(gòu)建了R1?!黾軜?gòu)思路:

在DeepSeek-V3-Base

模型的基礎(chǔ)上,經(jīng)歷兩次微調(diào)和兩次強(qiáng)化學(xué)習(xí)得到R1模型。I

Step

1.冷啟動階段:使用數(shù)千個高質(zhì)量的長Cot人工標(biāo)注樣本

對DeepSeek-V3-Base

模型進(jìn)行微調(diào),作為強(qiáng)化學(xué)習(xí)的初始模型。

Step

2.面向推理的強(qiáng)化學(xué)習(xí):在冷啟動階段之后,

R1采用了

與R1-Zero類似的強(qiáng)化學(xué)習(xí)訓(xùn)練,但針對推理任務(wù)進(jìn)行了特別

優(yōu)化。為了解決訓(xùn)練過程中可能出現(xiàn)的語言混雜問題,R1引入

了語言一致性獎勵,該獎勵根據(jù)CoT中目標(biāo)語言單詞的比例來

計(jì)

。Step3.拒絕采樣與監(jiān)督微調(diào):當(dāng)面向推理的強(qiáng)化學(xué)習(xí)收斂后,

R1利用訓(xùn)練好的RL模型進(jìn)行拒絕采樣,生成新的SFT數(shù)據(jù)?!鯯tep

4.面向全場景的強(qiáng)化學(xué)習(xí):

在收集了新的SFT

數(shù)據(jù)后,R1

會進(jìn)行第二階段的強(qiáng)化學(xué)習(xí)訓(xùn)練,這一次,訓(xùn)練的目標(biāo)不再局

限于推理任務(wù),而是涵蓋了所有類型的任務(wù)。此外,

R1采用了

不同的獎勵信號和提示分布,針對不同的任務(wù)類型進(jìn)行了優(yōu)化。DeepSeek-V3Base(671B/37BACtvated)ColdStatLongCoT

Data(SFT)ksampes)ReasoningOrented

RLGRPORule-based

Reward(Accuracy,Fomating)DeepSeek-V3

Base+CS

SFT+RORL(671837BActivated)ReasoningPrompts+RelectlonSamplngCoT

Promping(Rule-based8DS-V3asjudge)Non-ReasoningData(200ksamples)Qwen25Math-7BQwen2.532BLama-3.3.70B-InstudtLama-3.1-8BSFT2

epochs800k

samplesRLReasoning+Preference

RewardDverseTraningPromptsDeepsek-R1-ZeroDeepSeekR1-DistiH(OwenLlamal-"BDistilationDeepSeek-R1:

長CoT

數(shù)據(jù)微調(diào)基礎(chǔ)上應(yīng)用強(qiáng)化學(xué)習(xí)中信建投中信建投證券CHINA

SECURITIES監(jiān)督微調(diào)全場景強(qiáng)化學(xué)習(xí)圖

:DeepSeek-R1

訓(xùn)練過程資料來源:DeepSeek,huggingface,純

強(qiáng)

學(xué)

習(xí)蒸餾小模型拒絕

采樣ReasoningData(600ksamples)ComblinedSFTData(800ksamples)SFT2epochs800ksamples+CoT

LanguageConstency

Reward強(qiáng)化學(xué)習(xí)DeepSeek-V3SFTDataSuperisedFine-Tuning冷啟動Qwen25-Math-158BDeepSeekR1DeepSeek-V3Qwen2.514B■R1在推理任務(wù)上表現(xiàn)出色,特別是在AIME2024(美國數(shù)學(xué)邀請賽)、

MATH-500(數(shù)學(xué)競賽題)和Codeforces(編程競賽)等任務(wù)上,取得了與OpenAI-o1-1217

相媲美甚至超越的成績。在MLU(90.8%)

、MLU-Pro(84.0%)

和GPQADiamond(71.5%)等知識密集型任務(wù)基準(zhǔn)測試中,性能顯著超越了DeepSeek-V3

模型。在針對長上下文理解能力的

FRAMES數(shù)據(jù)集上,RI

的準(zhǔn)確率達(dá)到了82.5%,優(yōu)于DeepSeek-V3模型。在開放式問答任務(wù)AlpacaEval2.0和Arena-lard基準(zhǔn)測試中,R1分別取得了87.6%的LC-winrate

和92.3%的GPT-4-1106

評分,展現(xiàn)了其在開放式問答領(lǐng)域的強(qiáng)大能力。圖表:R1在數(shù)學(xué)、代碼、自然語言推理等任務(wù)的性能測試結(jié)果Architecture#ActivatedParams#Total

Params·MoE

37B671BMoE37B671BMMLU

Ppasel)88.387.288.585.2

91.890.8MMLU-Redux

EM)88.988.089.186.792.9MMLU-Pro

EM)78.072.675.980.384.0DROP

shotFI)88.383.791.683.9

90.292.2F-EvalEngish86.584.386.184.883.3GPQADiamondPasel65.049.959.160.0

75.771.5SimpleQA

Coret)28.438.224.97.0

47.030.1FRAMES(Acc)72.580.573.376.982.5AlpacaEval2.0(Cwirate)52.051.170.057.887.6ArenaHard

(GPT4110)85.280.485.592.092.3LiveCodeBenchpasel.COnCodeforcesPerenle)

CodeCodeforcesRating)SWEVerifiedResoved)Aider-Polyglot(Ac)38.9

20.3

717

50.8

45.332.9

23.6

759

38.8

16.036.2

58.7

113442.0

49.663.4

96.6

2061

48.9

61.765.996.3202949.253.3AIME2024(Pasel)16.09.339.263.6

79.279.8Math

MATH-500

Pase)78.374.690.290.0

96.497.3CNMO

2024

Pasel13110.843.267.678.8CLUEWSC

EM)

85.4Chinese

C-Eval

(EM)

76.7

C-SimpleQA

Coret

55.4資料來源:DeepSeek-R1:Incentivizing

Reasoning87.976.0

58.790.986.568.0R1模型推理任務(wù)表現(xiàn)出色89.968.940.392.891.8

證券63.7Claude-3.5-GPT-40DeepSeekOpenAIOpenAIDeepSeekBenchmark

(MetidSonnet-10220513V3

01-mini

o1-1217

R153.893.4182041.6

32.9Accuracy/Percentile(%)(Promp

Stict中信建投DeepSeek

團(tuán)隊(duì)進(jìn)一步探索了將RI的推理能力蒸餾到更小的模型中的可能性。他們使用R1生成的800K數(shù)據(jù),對Qwen和Llama系列的多個小模型(1.5B

、7B

、8B

、14B

、32B

、70B)進(jìn)行了微調(diào)。經(jīng)過R1蒸餾的小模型,在推理能力上得到了顯

著提升,甚至超越了在這些小模型上直接進(jìn)行強(qiáng)化學(xué)習(xí)的效果?!鐾评沓杀緛砜矗琑1

模型價(jià)格只有OpenAI

ol模型的幾十分之一。訓(xùn)練成本來看,

DeepSeek-V3

在一個配備2048個NVIDIAH800

GPU的集群上進(jìn)行訓(xùn)練,預(yù)訓(xùn)練階段在不到兩個月內(nèi)完成,并消耗了2664K

GPU小時,總訓(xùn)練成本為557.6萬美元。圖:01類推理模型輸入輸出價(jià)格(元/1M

Tokens)圖:蒸餾模型表現(xiàn)AIME2024AIME2024MATH

500GPQADiamond

pass@1LiveCodeBench

CodeForces

pass@1

ratingpass@1cons@64pass@1GPT-40-05139.313.474.649.932.9759.0Claude-3.5-Sonnet-102216.026.778.365.038.9717.001mini63.680.090.060.053.81820.0QwQ-32B44.060.090.654.541.91316.0DeepSeek-R1-DistilQwen-1.5B28.952.783.933.816.9954.0DeepSek-R1-Distil(Qwen-7B55.583.392.849.137.61189.0Deepseek-R1-Distil(Qwen-14B69.780.093.959.153.11481.0DeepSek-R1-DstillQwen-32B72.683.394.362.157.21691.0DeepSeek-R1-DistilLJam-8B50.480.089.149.039.61205.0DeepSeek-R1-DistillLlama-70B70.086.794.565.257.51633.0通過蒸餾實(shí)現(xiàn)推理能力遷移資料來源:DeepSeek,DeepSeek-R1:IncentivizingReasoningConb:lit

nIII/。

Doif

montIoni

中信建切中信建投證券CHINASECURITIES■DeepSeek中強(qiáng)化學(xué)習(xí)的核心策略是GRPO策略,GRPO是PPO的改進(jìn)版本,專門優(yōu)化數(shù)學(xué)推理任務(wù),減少計(jì)算資源消耗?!鯣RPO關(guān)鍵改進(jìn):√

取消價(jià)值網(wǎng)絡(luò),降低計(jì)算資源。PPO需要一個額外的價(jià)值網(wǎng)絡(luò)來估計(jì)優(yōu)勢,但GRPO直接用樣本組的平均獎勵作為基線。這

樣,GRPO不需要額外訓(xùn)練價(jià)值網(wǎng)絡(luò),減少GPU計(jì)算成本?!?/p>

采用分組相對獎勵,GRPO用多個樣本的獎勵來計(jì)算相對優(yōu)勢,而不是用價(jià)值網(wǎng)絡(luò)估計(jì)優(yōu)勢。圖

:GRPO策略和PPO策略中的價(jià)值網(wǎng)絡(luò)圖

:GRPO

策略和PPO策略的比較對比項(xiàng)PPO(Proximal

Policy

Optimization)GRPO(Group

Relative

Policy

Optimization)是否有Critic(值函

數(shù)

)口有(需要單獨(dú)的Critic網(wǎng)絡(luò))X沒有是否有價(jià)值網(wǎng)絡(luò)

(Value

Network)?有(用于計(jì)算V(s))X沒有如何計(jì)算Advantage采用GAE(GeneralizedAdvantage

Estimation):At=Tt+V(8t+1)-V(st)直接用一組樣本的相對獎勵計(jì)算Advantage計(jì)算復(fù)雜度高(需要額外訓(xùn)練Critic網(wǎng)絡(luò))低(只需要Reward

Model適用任務(wù)適用于一般RL任務(wù),如RLHF適用于數(shù)學(xué)推理任務(wù)資料來源:DeepSeek,DeepSeek-Rl:Incentivizingon6:1it

IIII。

D。inf。

ontIoani中信建投證券CHINA

SECURITIES中

切Deepseek

強(qiáng)化學(xué)習(xí)策略GRPO標(biāo)準(zhǔn)差獎勵9即

扣因

子累

計(jì)

勵GRPO

中的價(jià)值估算:PPO

的價(jià)值估算:Reasoning獎勵KIMI1.5:

最好的Short-CoT

模型,出色的推理創(chuàng)新2025年1月20日,kimi1.5

版本模型發(fā)布,這是繼2024年11月發(fā)布

k0-math

數(shù)學(xué)模型,12月發(fā)布

k1

視覺思考模型之后,Kimi連續(xù)第三個月帶來

k

系列強(qiáng)化學(xué)習(xí)模型的重磅升級?!?/p>

從基準(zhǔn)測試成績看,k1.5

多模態(tài)思考模型實(shí)現(xiàn)了

SOTA(state-of-the-art)級別的多模態(tài)推理和通用推理能力?!?/p>

在short-CoT

模式下,Kimi

k1.5

的數(shù)學(xué)、代碼、視覺多模態(tài)和通用能力,大幅超越了全球范圍內(nèi)短思考SOTA

模型GPT-40和Claude

3.5

Sonnet

的水平,領(lǐng)先達(dá)到550%。■

long-CoT

模式下,Kimi

k1.5

的數(shù)學(xué)、代碼、多模態(tài)推理能力,也達(dá)到長思考SOTA

模型OpenAl

o1正式版的水平。這應(yīng)該是全球范圍內(nèi),OpenAl

之外的公司首次實(shí)現(xiàn)

o1

正式版的多模態(tài)推理性能。Reinforcement

Learning

with

LLMs,中信建投■Kimik

1.5long-CoTOpenAo1OpenAl

01-miniMath96.294877.5

74.470362LiveCodeBenchv524.12-25.2(Pass@1)Kimik15shot-CoTOperAl40Clude3.5SometQwen2-LLLaMA4-3.1405B-nst.DepSekV3Qwen2572B-nst.圖

:Kimi1.5short-CoT模型能力圖

:Kimi1.5long-CoT模型能力資料來源:Kimik1.5:ScalingAIME

2024(Pass@1)Codeforces(Percentile

)MATH

500(EM)MathVista(Pass@1)MMMU(Pass@1)VisionKimi

k1.5

通過幾個關(guān)鍵技術(shù)實(shí)現(xiàn)了強(qiáng)化學(xué)習(xí)(RL)

在大型語言模型

(LLMs)

中的有效擴(kuò)展和性能提升:■

1)長上下文擴(kuò)展:通過將RL的上下文窗口擴(kuò)展到128k,Kimi

k1.5能夠處理更長的文本序列,從而在多個任務(wù)上提升性能。在推理過程中,也保證了更長的思維鏈,可以進(jìn)行更多步驟,更深入的思考?!?/p>

2)改進(jìn)的策略優(yōu)化:采用在線鏡像下降法的變體進(jìn)行策略優(yōu)化,并結(jié)合有效的采樣策略、長度懲罰和數(shù)據(jù)配方優(yōu)化,進(jìn)一步提升了模

型的訓(xùn)練效果,進(jìn)一步節(jié)約算力和思考時間?!?/p>

3)簡化的RL框架:通過長上下文擴(kuò)展和改進(jìn)的策略優(yōu)化,Kimi

k1.5建立了一個簡化的RL學(xué)習(xí)框架,使得模型能夠在不依賴復(fù)雜技術(shù)的情況下實(shí)現(xiàn)強(qiáng)大的性能,優(yōu)化算力。4)

多模態(tài)處理能力:Kimi

k1.5能夠同時處理文本和視覺數(shù)據(jù),展現(xiàn)了在多模態(tài)數(shù)據(jù)上進(jìn)行聯(lián)合推理的能力。(對比Deepseek

R1僅為

純語言模型)podMegatronSidcarTrain

OnloadTerminateConvert

HF

Ofload

Wait

rolloutTerminate

VLLMCheckpointEngineRDMAetcdKimik

系列思考模型路線圖火模態(tài):文本、視覺

模態(tài):本、視覺領(lǐng)域:數(shù)學(xué)、物理、化學(xué)領(lǐng)域:數(shù)理化、代碼、通用◎k1

k1.52024-11-162024-12-172025-01-20KIMI1.5:

四大創(chuàng)新資料來源:Kimik1.5:ScalingReinforcementLearningi+hILII中信建切圖

:Kimi1.5算力優(yōu)化方案,合理分配訓(xùn)練和推理的算力資源日模態(tài):文本

領(lǐng)域:數(shù)學(xué)k0-math建投證券CHINA

SECURITIES圖

:Kimi1.5

出色的多模態(tài)能力更多模態(tài)、更多領(lǐng)域更強(qiáng)通用能力SharedMemoryDummyStartStartVLLMChckpoint

EnginevLLM

SidecarOther

PodsRollout■Kimik1.5的推理框架分為核心幾塊:1)Rollout

模塊:理解為推理過程中的試錯者和推演者,不斷推演不同可能性,從而找到最優(yōu)解。可以想象成一群工人在生產(chǎn)線上進(jìn)行實(shí)際的操作記錄下每一步的結(jié)果。根據(jù)當(dāng)前的模型權(quán)重生成一系列的決策路徑。2

)

(Master)

模塊:理解為指揮中心。負(fù)責(zé)協(xié)調(diào)和管理整個訓(xùn)練過程,接收來自Rollout模塊的軌跡數(shù)據(jù),評估模型的表現(xiàn),并向

TrainerWorkers發(fā)送訓(xùn)練數(shù)據(jù)。主管還負(fù)責(zé)管理Replay

Buffer(

沖區(qū)

)

,確保推理數(shù)據(jù)的高效利用。■

3)訓(xùn)練模塊:負(fù)責(zé)根據(jù)Rollout模塊提供的數(shù)據(jù)來訓(xùn)練模型。使用策略模型(Policy

Model)和參考模型

(Reference

Model)來計(jì)算梯度更新

(gradient

update),

從而優(yōu)化模型的性能。4)獎勵模型和緩沖區(qū):前者是“裁判”,負(fù)責(zé)評估模型表現(xiàn)并給出獎勵信號。后者是“記憶庫”,用于存儲Rollout生成的軌跡數(shù)據(jù)。Partial

Rollout創(chuàng)新:在Roll

out模塊的推理中,不需要每次都從頭開始,可以從緩沖區(qū)中讀取之前的軌跡后繼續(xù)推理。類似于1)下棋

中,每次只需要思考最關(guān)鍵的步驟,而不用思考前面簡單的步驟。2)設(shè)計(jì)方案時,可以復(fù)用地基的設(shè)計(jì),只考慮頂層的不同設(shè)計(jì)方案。圖

:Kimi1.5

的模型架構(gòu)創(chuàng)新

:Kimi1.5

創(chuàng)新性的Partial

Rollout

方案Trainer

WorkersRollout

Workers

weighttringdnrolouttaiectoriesMasterevalrequestReward

ModelsReplay

BufferMath→

weightflow

dataflowiterationNrolloutworkerfrompromtsetpariaroloutReplayBufferX(b)PartialRolloutsave

forpartialrolloutnormal

stopcutbylengthrepeat,earlystopCHINASECURITIESKIMI

1.5:Partial

rol

lout的RL框架創(chuàng)新(a)Systemoverview資料來源:Kimi

k?.5:ScalingReinforcementLearningwithLMs,中信建投投證券ReferenceModelgradientupdatePolicyModelVisionCodeK-12■盡管長鏈推理模型能夠?qū)崿F(xiàn)強(qiáng)大的性能,但消耗tokens更多。通過將長鏈推理模型的思維先驗(yàn)轉(zhuǎn)移到短鏈推理模型中,從而在有限算力下提高性能。kimi1.5提出了幾種解決長鏈到短鏈(long2short)

問題的方法,包括模型合并、最短拒絕采樣、DPO和long2shortRL?!?)模型合并:通過平均長鏈推理模型和短鏈推理模型的權(quán)重,合并兩個模型,提高令牌效率。2)最短拒絕采樣:對同一個問題進(jìn)行多次

采樣,選擇最短的正確響應(yīng)進(jìn)行微調(diào)。3)DPO:利用長鏈推理模型生成的多個響應(yīng)樣本,構(gòu)建正負(fù)樣本對進(jìn)行訓(xùn)練。4)long2short

RL:

在標(biāo)準(zhǔn)

RL訓(xùn)練后,選擇一個性能和效率平衡的模型,應(yīng)用長度懲罰并減少最大展開長度,進(jìn)一步優(yōu)化短鏈推理模型?!鰈ong2short

RL:

在標(biāo)準(zhǔn)的RL后,再加一個長度RL,從而選出所有正確答案中,思考步數(shù)最短的,進(jìn)而優(yōu)化算力。鼓勵在相同在強(qiáng)化學(xué)習(xí)

中,模型會生成多個響應(yīng)(responses),

每個響應(yīng)都有一個長度。為了鼓勵模型生成更短的響應(yīng),同時懲罰過長的響應(yīng),引入了長度獎

勵機(jī)制。這個機(jī)制通過計(jì)算每個響應(yīng)的長度獎勵,將其添加到原始獎勵中,從而影響模型的訓(xùn)練過程。圖:Kimi1.5short-CoT

性能出色(特別是RL方法)圖

:Kimi1.5

Long2Short

RL

引入的長度懲罰機(jī)制KIM

1.5:Long2short技術(shù)保證了最強(qiáng)的短推理模型中信建投證券CHINASECURITIES資料來源:Kimi

k1.5:Scalingi+hILI

。

中信

切Token

LengthToken

LengthReinforcement

Learning阿里千問發(fā)布Qwen2.5

系列模型,性能水平頂尖■

2024年09月19日,阿里發(fā)布Qwen2.5系列,包括0.5B,1.5B,3B,7B,14B,32B以及72B,以及專門針對編程的Qwen2.5-Coder

和數(shù)學(xué)的Qwen2.5-Math

模型。Qwen2.5所有系列模型都在18Ttokens

的數(shù)據(jù)集上進(jìn)行了預(yù)訓(xùn)練,相較于Qwen2,

Qwen2.5獲得了更多的知識(MLU:85+),

并在編程和數(shù)學(xué)方面有了大幅提升?!?/p>

用于編程的Qwen2.5-Coder

和用于數(shù)學(xué)的Qwen2.5-Math,相比其前身Codelwen1.5

和Qwen2-Math有了實(shí)質(zhì)性的改進(jìn):

Qwen2.5-Coder

在包含5.5Ttokens

編程相關(guān)數(shù)據(jù)上進(jìn)行了訓(xùn)練,使即使較小的編程專用模型也能在編程評估基準(zhǔn)測試中

表現(xiàn)出媲美大型語言模型的競爭力。同時,Qwen2.5-Math支持中文和英文,并整合了多種推理方法,包括CoT(ChainofThought)

、PoT(ProgramofThought)

和TIR(Tool-IntegratedReasoning)。圖:0wen2.5系列模型參數(shù)

:Qwen2.5-72B

在多個領(lǐng)域領(lǐng)先Llama-3ModelsLayersHeads(Q/KV)TieEmbeddingContext/Generation

LengthLicense0.5B2414/2Yes32K/8KApache

2.01.5B2812/2Yes32K/8KApache

2.03B3616/2Yes32K/8KQwenResea

rch7B2828/4No128K/8KApache

2.014B4840/8No128K/8KApache

2.032B6440/8No128K/8KApache

2.072B8064/8No128K/8KQwenGeneral

TasksMMLU79.577.8

85.284.286.185.4MMLU-Pro52.851.6

61.6

55.758.164.0MMLU-reduxBBH75.081.072.978.985.980.582.483.986.358ARCC68.870.7

68.972.470.9TruthfulQA45.651.0

54.860.455.3WindoGrande85.385.0

86.7

85.183.985.5HelaSwag88.088.7

87387.689.2Mathematics&Scienc

TasksGPQATheoremQA

MATHMMLU-stemGSM8K36.332.342.573.77.634.335.983.753.889.037.442.850.979.689.045.942.462.182.791.543.9

48.5

64.481.293.0Coding

TasksHumanEval48.246.361.064.659.159.1HumanEval+MBPP42.170.440.271.773056.176.951.284.752.4

79.7MBPP+58.458.163.969.266.9MultiPLE46.346.759.660.561.0MulilingualTsksDatasets

Llama-3-70B

Mixtral-8x22B

Llama-3-405B

Qwen2-72B

lQwen2.5-72B'Qwen2.5-PlusU

CHINA

SECURITIESMult-Exam

70.0

Multi-Understanding79.9投證券Multi-MathematicsMulti-Translation次

/

4信訣機(jī)78.5

240.478.7

89.6

76.739.063.577.7

62.923.376.680.7

76.0

37.867.138.0己

去圖:QWen2.5通過多種方式構(gòu)建高質(zhì)量數(shù)據(jù)集

圖:使用專門的上下文訓(xùn)練方式,增強(qiáng)處理序列能力除Qwen2.5-Turbo之外的全部模型變體,其上下文長度會從4,096延展至32,768。與此同時,借助ABF技術(shù),將RoPE

(位置編碼旋轉(zhuǎn))的基頻從10,000提升到1,00,000。合并了來自Qwen2.5-Math和Qwen2.5-Coder的訓(xùn)練數(shù)據(jù)借助Qwen2-72B-Instruct與Qwen2Math-72B-Instruct模型催生高質(zhì)量合成數(shù)據(jù)針對Qwen2.5-Turbo,訓(xùn)練期間推行漸進(jìn)式上下文長度擴(kuò)展策略,分四個階段逐步推進(jìn):先是32,768個token,接著拓展至65,536,繼而達(dá)到131,072,最終定格在262,144,且RoPE基啟用Qwen2-Instruct模型對不同領(lǐng)域的內(nèi)容進(jìn)頻高達(dá)10,00,000。行分類梳理與均衡調(diào)配。中信建投證券CHINA

SECURITIES次小/女源Qwen2.5預(yù)訓(xùn)練階段構(gòu)建了更高質(zhì)量數(shù)據(jù)集及專門的上下文訓(xùn)練方式■

在預(yù)訓(xùn)練方面,

Qwen2.5

通過多種方式,進(jìn)行高質(zhì)量數(shù)據(jù)集構(gòu)建,例如更好的數(shù)據(jù)過濾:引入

Qwen2-Instruct

模型對

數(shù)據(jù)進(jìn)行把關(guān),不僅大幅提升了高質(zhì)量訓(xùn)練數(shù)據(jù)的留存比例,還能更高效地篩除多語種低質(zhì)樣本。此外還使用Qwen2.5-Math和Qwen2.5-Coder

的訓(xùn)練數(shù)據(jù)、借助Qwen2-72B-Instruct

與Qwen2Math-72B-Instruct模型催生高質(zhì)量合成數(shù)據(jù)以及

啟用Qwen2-Instruct

模型對不同領(lǐng)域的內(nèi)容進(jìn)行分類梳理與均衡調(diào)配。Qwen2.5

將高質(zhì)量的預(yù)訓(xùn)練數(shù)據(jù)集從之前的7萬

億個

token

擴(kuò)展到了

1

8

萬億個

token。■

預(yù)訓(xùn)練上下文方面,通過兩階段調(diào)節(jié)上下文長度,進(jìn)而達(dá)到最優(yōu)訓(xùn)練效果。Qwen2.5

還采用了YARN

和雙塊注意力DCA,

實(shí)現(xiàn)了序列長度容量四倍的飛躍式增長,使得

Qwen2.5-Turbo

能夠從容處理多達(dá)100萬個token

的序列,而其他模型

也具備處理多達(dá)131072個token

序列的能力。使用Qwen2進(jìn)行數(shù)據(jù)過濾,大幅度提高高質(zhì)量訓(xùn)練數(shù)據(jù)留存比在初始階段,設(shè)置

4,096的

上下文長度更好的數(shù)學(xué)和代碼數(shù)據(jù)更好的數(shù)據(jù)混合更好的合成數(shù)據(jù)更好的數(shù)據(jù)過濾

通過擴(kuò)大監(jiān)督微調(diào)數(shù)據(jù)范圍以及兩階段強(qiáng)化學(xué)習(xí),增強(qiáng)模型處理能力

■Qwen

2.5

監(jiān)督微調(diào)通過多種方式,在長序列生成、數(shù)學(xué)問題解決、編碼、指令遵循、結(jié)構(gòu)化數(shù)據(jù)理解、邏輯推理、跨語

言遷移和強(qiáng)大的系統(tǒng)指令等領(lǐng)域進(jìn)行了微調(diào)數(shù)據(jù)覆蓋,構(gòu)建了一個包含超過100萬

SFT

示例的數(shù)據(jù)集,解決了先前

模型在以上關(guān)鍵領(lǐng)域顯示的局限性?!?/p>

強(qiáng)化學(xué)習(xí)階段,采用兩階段強(qiáng)化學(xué)習(xí):離線

RL

在線

RL

離線RL:主要針對推理、事實(shí)性和遵循指令等領(lǐng)域的能力開發(fā)。在線RL:在線強(qiáng)化學(xué)習(xí)階段利用獎勵模型檢測輸出質(zhì)量細(xì)微差別的能力,包括真實(shí)性、有用性、簡潔性、相關(guān)性、

無害性和去偏差。圖:Qwen2.5

在后訓(xùn)練階段擴(kuò)大監(jiān)督微調(diào)數(shù)據(jù)覆蓋范圍

圖:采用兩階段強(qiáng)化學(xué)習(xí)監(jiān)督微調(diào)數(shù)據(jù)領(lǐng)域增強(qiáng)方式長序列生成采用反向翻譯技術(shù)從預(yù)訓(xùn)練語料庫中生成長文本數(shù)據(jù)的查詢,

施加輸出長度限制,并使用Qwen2過濾掉低質(zhì)量的配對數(shù)據(jù)。數(shù)學(xué)引入了Qwen2.5-Math的思想鏈數(shù)據(jù),采用拒絕抽樣以及獎勵

建模和帶注釋的答案作為指導(dǎo)。編碼深度融合Qwen2.5Coder的指令調(diào)優(yōu)數(shù)據(jù)。指令遵循實(shí)施了嚴(yán)格的基于代碼的驗(yàn)證框架。結(jié)構(gòu)化數(shù)據(jù)理解開發(fā)了一個全面的結(jié)構(gòu)化理解數(shù)據(jù)集。邏輯推理引入了一組跨越不同領(lǐng)域的70000個新查詢??缯Z言遷移采用翻譯模型將指令從高資源語言轉(zhuǎn)換為各種低資源語言。強(qiáng)大的系統(tǒng)指令構(gòu)建了數(shù)百個通用系統(tǒng)提示?;貜?fù)過濾采用了專用的評論家模型和多智能體協(xié)作評分系統(tǒng)。兩階段強(qiáng)化學(xué)習(xí)離線RL

在線RL開發(fā)對獎勵模型評估具有挑戰(zhàn)性的能力,例如

推理、事實(shí)性和遵循指

令。通過對訓(xùn)練數(shù)據(jù)的

精心構(gòu)建和驗(yàn)證,確保

離線強(qiáng)化學(xué)習(xí)信號既可學(xué)習(xí)又可靠。在線強(qiáng)化學(xué)習(xí)階段利用獎勵模型檢測輸出質(zhì)量細(xì)微

差別的能力,包括真實(shí)性、

有用性、簡潔性、相關(guān)性、無害性和去偏差。中信建投證券CHINA

SECURITIES次小/女源

口廣

山信訣機(jī)■

阿里千問發(fā)布Qwen2.5-1M,

通過逐步拓展上下文訓(xùn)練長度、長度外推和稀疏注意力機(jī)制等方式,將開源Qwen模型的上下文擴(kuò)展到1M長度,在處理長文本任務(wù)中都已經(jīng)實(shí)現(xiàn)穩(wěn)定超越GPT-40-mini。

阿里千問還通過分塊預(yù)填充、集成長度外推

方案、稀疏性優(yōu)化等優(yōu)化,將處理1M長度輸入序列的預(yù)填充速度提升了3.2倍到6.7倍?!?/p>

里Qwen

開源全新的視覺模型Qwen2.5-VL,

推出3B、7B和72B三個尺寸版本。其中,旗艦版Qwen2.5-VL-72B

在13項(xiàng)權(quán)威評測中奪得視覺理解冠軍,全面超越GPT-40與Claude3.5。圖

:Qwen2.5-1M

超越GPT-4o-mini

:Qwen2.5

VL全面超越GPT-40

與Claude3.5ModelClaimedRULERLengthAvg.4K8K16K

32K

64K

128KGLM4-9b-Chat-1MLlama-3-8B-Instruct-Gradient-1048k

Llama-3.1-70B-Instruct1M

89.9

1M

88.3

128K89.694.792.892.189.9

86.783.195.593.891.6

87.4

84.777.0

96.595.895.4

94.8

88.466.6GPT-40-mini

128K

87395.092.992.790.287.665.8GPI-4

128K

91.696.696.395.293.287.081.2Qwen2.5-32B-InstructQwen2.5-72B-InstructRoPEDCA+YaRNRoPEDCA+YaRN32K

128K

32K

128K88.0

92.9

90.895.196.997.195.595.597.797.297.796.585.357.790.382.088.567.093.088.4Qwen2.5-7B-InstructRoPEDCA+YaRN32K

80.1

128K

85.496.795.193.789.474.531.4

82.355.1Qwen2.5-7B-Instruct-1MRoPE/DCA+YaRN1M

91.896.895.393.091.190.484.4RoPE

32KQwen2.5-14B-InstructDCA+YaRN

128K86.5

91.497.796.895.993.482.353.086.778.1Qwen2.5-14B-nstruct-1MROPE7DCA+YaKN

IM

95.797.597.194.694.994.992.2Qwen2.5-Turbo

RoPE/DCA+YaRN

1M

93.197.595.795.594.890.884.5Qwen2.5.VLGemini2GPT-40Clude3.5Qwen2.YLOther

Best72BFlashSonmet72BOpon

VMColegeleveMMMU70.270.770.370.464.570.1Problems

MMMUPro51.157.054.554.746252.7DoeVQA96.492.191.195.296.596.1Document

andInfoVQA87.377880.774.384.584.1Diogrom

RedingCCOCR79.873.066.662.768.768.7OCRBenchV2Megabench61.551.346.545.247847855.254.252.146.847.4General

QuestionVisualMMStorAnswering70.869.464.765.168.369.5MMBench1.188.074.883.073.182.163.883.465.486.670.587.472.3MathVistaMathMathVision38.141.330.438.325.932.2VideoMME73.371.960.071.272.1Video

MMBenchVideo2.01.71.41.71.9UnderstndinL

Bench47.330.843.6CharadesSTA50.935.748.4ATZ83.235.353.3AndroidControl67.466.4ScreenS$potVisudAgent87.184.018.183.089.5ScreenSpotPro43.617.138.1AndroidWorld35.034.527.946.6OSWorld8.85.014.922.7Qwen2.5-1M

和Qwen2.5

VL發(fā)布,進(jìn)一步拓展Qwen2.5

家族系列次

/

機(jī)Qwen2.5-Max

上線,性能超越DeepSeek

V3■

阿里千問發(fā)布大規(guī)模MoE模型Qwen2.5-Max,

在超過20萬億個token上進(jìn)行預(yù)訓(xùn)練,并使用精選的監(jiān)督微調(diào)

(SFT)

和從人

類反饋中強(qiáng)化學(xué)習(xí)(RLHF)方法進(jìn)行了進(jìn)一

步的后訓(xùn)練。通過在包括MMLU-Pro

(通過大學(xué)級問題測試知識)、

LiveCodeBench

(評估編碼能力)、

LiveBench

(全面測試

一般能力)和Arena-Hard

(近似人類偏好)上進(jìn)行測試,

Qwen2.5-Max

在大多數(shù)基準(zhǔn)測試中都表現(xiàn)出了顯著的優(yōu)勢,性能全面超越DeepSeek

V3。Qwen2.5-max多模態(tài)能力方面,在聯(lián)網(wǎng)搜索、代碼、游戲制作方面均有較好表現(xiàn)。(20240831)0C

Qwen25-MaxvGoodevening,chenchengDwebpaMresepgunethukpdyatehawebomwungHMM,CssndJuschtThgumshoudhddsthetolbwingturctostmgimes1"0MSstp":Aowbhbetocorlgyrethepidsiz(e.,8x?1616)ndthenunbwdmmbtegtma2"Wn

Plenn";Ranont

plkmhs805hgid

wnsmgmmim

owi%3"Clherato"Enbeltcdektomedctsndighcdk(xmenabemechwin0olgsupctdme

kcabons.4"Mnbe

hcsatu"Dplynunbu1ctshdatnghwnay

dpmsMn

WsswchAhywuDVonwCHINASECUKITTES圖

:Qwen2.5-Max性能全面超越當(dāng)前領(lǐng)先的先進(jìn)模型圖

:Qwen2.5-Max

快速做出掃雷游戲次

源00OpenAl

o1模型可能采用PRM

過程打分策略和蒙特卡洛搜索實(shí)現(xiàn)深度推理。■

選擇:從根節(jié)點(diǎn)開始,算法根據(jù)特定策略瀏覽有希望的子節(jié)點(diǎn),直到到達(dá)葉節(jié)點(diǎn)為止?!?/p>

擴(kuò)展:在葉子節(jié)點(diǎn)處,除非它代表了博弈的終結(jié)狀態(tài),否則會添加一個或多個可行的新子節(jié)點(diǎn),以說明未來可能采取的行動

?!?/p>

模擬或評估:

從新添加的節(jié)點(diǎn)開始,算法進(jìn)行隨機(jī)模擬--通常稱為“滾動”--通過任意選擇棋步直到博弈結(jié)束,從而評估節(jié)點(diǎn)的潛力?!?/p>

反向傳播:

模擬后,結(jié)果(勝、負(fù)或和)會傳播回根節(jié)點(diǎn),更新每個遍歷節(jié)點(diǎn)的統(tǒng)計(jì)數(shù)據(jù)(如勝、負(fù)),為未來決策提供依據(jù)。圖

:PRM過程

圖:蒙特卡洛過程結(jié)果篩選策略PRM(結(jié)果打分?jǐn)M合方法)方式2:最小(步驟分中選最小)step?step2

step3|

step4|step?0.34step,step2

step3Generator0.92…訓(xùn)好的生成模型(遵循按stepby-step方式執(zhí)行任務(wù))0.839選answer2LielThought(DInputBranchingoutfromachlnKeynovedlyOutput(beyondCoTSC:Gnerathng

svrllntemediatethoughsare

aso

scoedltfurhet,andbudacdking(~a19

資料來源:深度學(xué)習(xí)自然語言處理,Dc

nin~n

:1i+i

IOpenAl

o1模型Understanding

TransformerA1~i+hmNanminJ

由信建切中后建僅證券CHINA

SECURITIES擬合結(jié)果最終打分最終選擇打分最高的結(jié)果作為最終結(jié)果pewthoughsbasedona

ghenabiraythought,eploring方式1:乘積(所有步驟分乘積)stepstep2step?

step40.820.940.340.470.86③Buckackingfromachain0.97

0.93

0.99

0.94inference

階段0.93

0.99

0.92選answern①采樣n條結(jié)果possiblyfomlt②

對過程打分Evaluationanswe2answeranswer0.8470.099C0.93低算力需求緣起及長期算力觀點(diǎn)

20第二章中信建投證券CHINA

SECURITIESDeepSeekMoE

在專家模型的設(shè)計(jì)上引入了共享專家+路由專家的架構(gòu),并采用無輔助損失的負(fù)載均衡策略,使得計(jì)算資源分配更加高效。

DeepSeekMoE由256個路由專家組成,每個token在路由過程中會選擇8個專家,其中共享專家始終被選

中,其余7個專家通過門控機(jī)制選擇。DeepSeek-V3

共包含671B個參數(shù),其中每個token激活37B個參數(shù),訓(xùn)練數(shù)據(jù)量為

14.8Ttoken。

同時額外引入了一種無輔助損失的負(fù)載平衡策略以減輕因確保負(fù)載平衡而導(dǎo)致的性能下降。Deepseek

V2模型參數(shù)量達(dá)到236B,同時由于模型小專家混合的特性,模型每個token在推理時的激活參數(shù)為21B,可以實(shí)

現(xiàn)高推理速度。模型的核心優(yōu)化點(diǎn)多頭隱式注意力顯著降低了訓(xùn)練和推理成本。在成本效率方面,相比V1的稠密模型,

V2模型節(jié)約了42.5%的訓(xùn)練成本,減少了推理時93.3%的KV-cache

顯存占用,將生成的吞吐量也提升到了原來的5.76倍。圖

:DeepSeek

模型中的MOE架構(gòu)

:DeepSeek

模型中的多頭隱式注意力DeepSeekMoERoutedxpetTransformerBlockxL剛OFeedforward

NetworkRMSNorm0000-0000

IhnputHiden

u:Multi-Head

LatentAttention(MLA)AtentionMultiHeadAttentionRMSNorm(k:;kconcdenoekk

)信

信00-00l

Latente

uene?D0-00hoatHdenh,D000-0000低成本緣由一:高度稀疏的模型架構(gòu)資料來源:DeepSeek-V3TechnicalReport,DeepSeek-V2:AStrong,Danmia1

andEffiin+Mi

f

Lnant~Ind、1中

#

切CachedDurnghtene

uputden.:0000-0000IIV

cachedDurigherence0000--0000∠l

Top-K,8iShaedbpet04:0cD(OutputHidenh{34Router11Deepseek提出了一種用FP8訓(xùn)練的混合精度框架。在不同計(jì)算步驟中使用FP8、BF16、FP32

三種不同的數(shù)值格式,以在計(jì)算效率和數(shù)值穩(wěn)定性之間取得平衡。大多數(shù)計(jì)算密集型操作以FP8進(jìn)行,與線性算子相關(guān)的所有三個核心計(jì)算內(nèi)核操作,即Fprop(前向傳播)、

Dgrad(激活反向傳播)和Wgrad(權(quán)重反向傳播)均以FP8執(zhí)行,而少數(shù)關(guān)鍵操作則策略性地保

持其原始數(shù)據(jù)格式例如嵌入模塊、輸出頭、MoE門控模塊、歸一化算子和注意力算子,以平衡訓(xùn)練效率和數(shù)值穩(wěn)定性?!鰹榱藢?shí)現(xiàn)混合精度FP8訓(xùn)練,deepseek引入了多種策略來提升低精度訓(xùn)練的準(zhǔn)確性,其中包括細(xì)粒度量化、提高累加精度、

尾數(shù)優(yōu)先于指數(shù)、在線量化等策略。細(xì)粒度量化的辦法幫助FP8精度實(shí)現(xiàn)訓(xùn)練,傳統(tǒng)的方法基于整個張量進(jìn)行縮放,而細(xì)

粒度量化則采用更小的分組單位,使得量化過程能夠更好地適應(yīng)離群值,從而提高訓(xùn)練的穩(wěn)定性和精度。圖:FP8訓(xùn)練框架

圖:細(xì)粒度量化低成本緣由二:FP8

混合精度訓(xùn)練框架InputBF16Input

Gradient22ToFP8Wgrad2MasterWeightToFP8WeightGradientFP32

ToBF16ToFP32OptimizerStates中信建投證券CHINASECURITIES原始矩陣

傳統(tǒng)方法量化結(jié)果ToBF16OutputToFP87oFP80oBF16WeightDgrad

FP32資料來源:DeepSeek-V3TechnicalReport,

中信建投Fprop2

FP322*2

block采用不同的權(quán)重OutputGradientBF16細(xì)粒度量化結(jié)果ToFP877■DeepSeek-V3采用了16路管道并行

(PP)、

跨越8個節(jié)點(diǎn)的64路專家并行

(EP)

以及ZeR0-1數(shù)據(jù)并行

(DP)。DualPipe

是一種新型的流水線并行方法,旨在減少計(jì)算和通信之間的等待時間,提高訓(xùn)練效率。傳統(tǒng)流水線并行方法的

計(jì)算和通信比率通常接近1:1,這意味著一半的時間可能被通信占據(jù),導(dǎo)致GPU資源利用率低下。

DualPipe

通過計(jì)算-通

信重疊來隱藏通信開銷,使得模型在大規(guī)模分布式環(huán)境下的訓(xùn)練更加高效。在DualPipe

中,前向傳播的計(jì)算任務(wù)和反向

傳播的計(jì)算任務(wù)被重新排序,使它們能夠互相重疊。具體來說,

DualPipe

將前向傳播和反向傳播的不同計(jì)算階段重新排

列,并手動調(diào)整GPU

計(jì)算單元在通信和計(jì)算之間的分配比例。圖

DualPipe

訓(xùn)練方案5130389001982143290Device0Device

1Device

2Device

3Device

4

Device

5Device6

Device

7763862702458192345778991346182g3468989027283g94568789167384957989063748596799047586989547687895566779F30F?1F?2F?3B?3B?2B?1B?0UpdateF?0F?1F?2F?3B?3B?2B?1B?0UpdaleF?0F?F?2F?3BubbleB13B?2B?

.B?0UpdateFooFo,1Fo?Fo?Bo?Bo?Bo.?Bo0Update傳統(tǒng)策略23低成本緣由三:流水線并行策略提升訓(xùn)練效率中信建投證券CHINA

SECURITIESForward

Backward

Backward

for

input

Backward

for

weightsOverlappedforward

&Backward資料來源:DeepSeek-V3TechnicalReport,中信建投Dualpipe策略156210Time→0Deepseek

高效配置專家分發(fā)與跨節(jié)點(diǎn)通信,實(shí)現(xiàn)最優(yōu)效率??绻?jié)點(diǎn)的GPU通過InfiniBand(IB)完全互連,節(jié)點(diǎn)內(nèi)的通信則通過

NVLink

處理。NLink

提供160GB/s的帶寬,大約是IB(50GB/s)

的3.2倍。為了有效利用IB和NVLink

的不同

帶寬,將每個token

分發(fā)的節(jié)點(diǎn)數(shù)限制為最多4個,從而減少IB流量。具體而言每個token

可以高效地選擇每個節(jié)點(diǎn)平均

3.2個專家,而不會產(chǎn)生NVLink

的額外開銷。Deepseek

用了定

的PTX

(

執(zhí)

)

指令,并自動調(diào)整通信塊大小,這顯著減少了L2

緩存的使用和對其他SM的干擾。在模型訓(xùn)練的分發(fā)和合并過程中,通過warp

專業(yè)化技術(shù),并將20個SM

劃分為10個通信通道,實(shí)現(xiàn)了最佳的計(jì)算

和通信資源配比。圖:專家分發(fā)設(shè)計(jì)

圖:定制的PTX指令在CUDA中的位置IB通信網(wǎng)絡(luò)CUDA庫OS(Linux+Windows+Mac)NVDIA

GPU專家

一專家二專家三專家四專家五專家六低成本緣由四:跨節(jié)點(diǎn)無阻通信設(shè)計(jì)節(jié)點(diǎn)一

節(jié)點(diǎn)二24CRuntimeCUDA

Driver

PTX(SA)中信建投證券資料來源:中信建投

CHINA

SECURITIESDeepSeek-V3通過多token

預(yù)測

(MTP)

技術(shù)不僅預(yù)測下一個token,還預(yù)測接下來的2個token,第二個token預(yù)測的接受率在不同生成主題中介于85%到90%之間。一方面,多token預(yù)測目標(biāo)增加了訓(xùn)練信號的密度,可能提高數(shù)據(jù)效率。另一方面,多token

預(yù)測可能使模型能夠預(yù)先規(guī)

劃其表示,以更好地預(yù)測未來token。圖:DeepSeek模型多token預(yù)測TransformerBlock

xLEmbeding

LayerInputTokenst?

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論