DeepSeek研究框架-DeepSeek培訓(xùn)課件_第1頁(yè)
DeepSeek研究框架-DeepSeek培訓(xùn)課件_第2頁(yè)
DeepSeek研究框架-DeepSeek培訓(xùn)課件_第3頁(yè)
DeepSeek研究框架-DeepSeek培訓(xùn)課件_第4頁(yè)
DeepSeek研究框架-DeepSeek培訓(xùn)課件_第5頁(yè)
已閱讀5頁(yè),還剩47頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶(hù)提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

DeepSeek研究框架——計(jì)算機(jī)人工智能系列深度報(bào)告一

評(píng)級(jí):推薦(維持)56%40%24%9%-7%-23%2024/02/192024/04/192024/06/19-2024/08/192024/10/192024/12/19《計(jì)算機(jī)行業(yè)點(diǎn)評(píng)報(bào)告:DeepSeek攪動(dòng)了全球AI的“一池春水”(推薦)*計(jì)算機(jī)*劉熹》——2025-02-03《美國(guó)對(duì)華AI限制加劇,自主可控大勢(shì)所趨——AI算力

"賣(mài)水人"系列(4

)

(推薦)*計(jì)算機(jī)*劉熹》——2025-01-24《計(jì)算機(jī)行業(yè)事件點(diǎn)評(píng):我國(guó)中部最大智算中心投產(chǎn),國(guó)產(chǎn)算力景氣上行(推

薦)*計(jì)算機(jī)*劉熹》

-

2025

-

01

-

14

相對(duì)滬深300表現(xiàn)

請(qǐng)務(wù)必閱讀報(bào)告附注中的風(fēng)險(xiǎn)提示和免責(zé)聲明表現(xiàn)計(jì)算機(jī)

滬深3003M3.3%-4.1%1M30.1%

5.0%12M57.5%

16.5%—

計(jì)算機(jī)

300最近一年走勢(shì)相關(guān)報(bào)告滬深DeepSeek引領(lǐng)全球AI創(chuàng)新,

一定程度上也影響了全球AI格局,并提振了國(guó)內(nèi)AI產(chǎn)業(yè)信心。我們看好由DepSeek

帶來(lái)的AI

產(chǎn)業(yè)、尤其是國(guó)內(nèi)AI產(chǎn)業(yè)的發(fā)展機(jī)遇,包括AI應(yīng)用、端側(cè)AI、算力等三個(gè)方向?!?/p>

DeepSeek(深度求索)專(zhuān)注大模型技術(shù),

V3和R1模型驚艷海內(nèi)外DeepSeek(深度求索)成立于2023年7月,由量化資管公司幻方量化創(chuàng)立,

DeepSeek專(zhuān)注于開(kāi)發(fā)先進(jìn)的大語(yǔ)言模型(LLM)

和相關(guān)技術(shù)。2024年1月5日,發(fā)布第一個(gè)大模型DeepSseek

LLM:12月26日,上線DeepSeek-V3并同步開(kāi)源,DepSeek-V3

采用FP8訓(xùn)練,性能對(duì)其世

界頂

尖的閉源模型GPT-40以及Claude-3.5-Sonnet

。2025年1月20日,發(fā)布DeepSeek-R1,DeepSeek-R1在數(shù)學(xué)、代碼、自然語(yǔ)言推理等

任務(wù)上,性能比肩OpenAI

ol正式版。DeepSeek-RI

推出后廣受關(guān)注,據(jù)Appfigures

、Sensor

Tower報(bào)告,1月26日以來(lái),深度求索

(DeepSeek)

發(fā)布的DeepSeekAI智能助手爆火,在全球140個(gè)市場(chǎng)的應(yīng)用商店下載榜上排名第一。DeepSeek

V3和R1模型基于Transformer

架構(gòu),采用了MLA和DeepSeek

MoE兩大核心技術(shù),引入了多令牌預(yù)測(cè)、FP8混合精度訓(xùn)練等創(chuàng)新技術(shù),顯著提升了模型的訓(xùn)練效率和推理性能。DeepSeek創(chuàng)始人梁文鋒表示“V2

模型沒(méi)有海外回來(lái)的人,都是本土的”。DeepSeek代表中國(guó)本土AI大模型,也代表開(kāi)源AI走在了全球AI市場(chǎng)的前列?!?/p>

DeepSeek對(duì)全球AI行業(yè)影響頗深:激發(fā)創(chuàng)新、提振國(guó)產(chǎn)、推廣開(kāi)源1)DeepSeek

成為了全球AI的

條“能魚(yú)”。

DeepSeek發(fā)布或?qū)е氯駻I格局變化,中美AI形勢(shì)生變,全球AI被“鯰魚(yú)”激活。預(yù)計(jì)

美系A(chǔ)I會(huì)不斷反應(yīng),全球AT模型迭代和發(fā)布頻率將提速,投入繼續(xù)加大。自1月20日DeepSeek-R1發(fā)布以來(lái),

OpenAI連續(xù)發(fā)布了Agentoperator,03mini

、Deep

Research等模型,

OpenAI

CEO表示GPT-5將是超級(jí)混合模型,計(jì)劃把GPT和o系列模型整合在一起。2)DeepSeek

驅(qū)動(dòng)國(guó)產(chǎn)AI估值重塑。

我們認(rèn)為:長(zhǎng)期以來(lái),算力和技術(shù)是制約國(guó)內(nèi)AI估值的主要因素,

DeepSeek在國(guó)內(nèi)AI芯片受限的環(huán)境里,通過(guò)本土AI團(tuán)隊(duì),探索出一條“算法創(chuàng)新+有限算力”的新路徑,較大地提振了國(guó)內(nèi)AI產(chǎn)業(yè)信心。DeepSeek-R1的推出或同時(shí)打破了抑制

國(guó)產(chǎn)AI產(chǎn)業(yè)的技術(shù)和算力這兩項(xiàng)天花板,將驅(qū)動(dòng)國(guó)產(chǎn)AI軟件硬件迎估值重塑。3)DeepSeek

是開(kāi)源AI的

“ChatGPT

時(shí)

。OpenAI

CEO首次承認(rèn)0penAI的閉源策略“站在了歷史錯(cuò)誤的一邊”。

DeepSeek-R1

開(kāi)源將會(huì)吸引更多人參與到大模型研發(fā)中,并通過(guò)蒸餾等技術(shù)顯著提升推理AI

、小模型的性能,將大幅加速全球AI

創(chuàng)新,加速AI推理進(jìn)程,普惠AI、

AI平權(quán)將驅(qū)動(dòng)DeepSeek迅速推廣,近期全球CSP大廠密集上架DeepSeek能力也驗(yàn)證了這點(diǎn),我們預(yù)計(jì)Killer

APP的誕生或?qū)⑴R近。請(qǐng)務(wù)必閱讀報(bào)告附注中的風(fēng)險(xiǎn)提示和免責(zé)聲明1)AI應(yīng)用:

DeepSeek

的創(chuàng)新帶來(lái)成本極致優(yōu)化,帶來(lái)AI普

、AI平權(quán),將加速AI應(yīng)用的創(chuàng)新,國(guó)內(nèi)AI應(yīng)用將受益于DeepSeek實(shí)現(xiàn)能力

顯著提升,應(yīng)用上游的模型API的價(jià)格下降也將驅(qū)動(dòng)應(yīng)用廠商的商業(yè)模式快速成熟。2)AI

端側(cè):

DeepSeek支持用戶(hù)進(jìn)行“模型蒸餾”,并通過(guò)DeepSeek-R1的輸出,蒸餾了6個(gè)小模型開(kāi)源給社區(qū)。端側(cè)AI能力過(guò)去受限于

端側(cè)AI計(jì)算影響,DeepSeek將顯著提升端側(cè)小模型的能力,進(jìn)而提升AI終端能力。3)算力:

杰文斯悖論指出當(dāng)我們希望通過(guò)技術(shù)進(jìn)步來(lái)提高資源效率時(shí),可能會(huì)導(dǎo)致資源的消耗增加。我們預(yù)計(jì)DeepSeek帶來(lái)的大模型推理

成本的優(yōu)化,將加速AI的普及推廣,和下游應(yīng)用的商業(yè)模式構(gòu)建,并推動(dòng)AI算力進(jìn)入由終端用戶(hù)需求驅(qū)動(dòng)的長(zhǎng)增長(zhǎng)周期。◆

投資建議DeepSeek探索出一條“算法創(chuàng)新+有限算力”的新路徑,開(kāi)源AI時(shí)代或已至,國(guó)產(chǎn)AI估值或?qū)⒅厮埽S持計(jì)算機(jī)行業(yè)“推薦”評(píng)級(jí)。◆

相關(guān)公司1)AI

應(yīng)用:①2G:

中科曙光、科大訊飛、中國(guó)軟件、太極股份、深桑達(dá)A

、中科星圖、國(guó)投智能、云從科技、能科科技、拓爾思、航天信

息、稅友股份、金財(cái)互聯(lián)、浪潮軟件、數(shù)字政通;

②2B:

金蝶國(guó)際、衛(wèi)寧健康、石基信息、明源云、新致軟件、用友網(wǎng)絡(luò)、廣聯(lián)達(dá)、萊斯信息、

四川九

洲、泛微網(wǎng)絡(luò)、致遠(yuǎn)互聯(lián)、新開(kāi)普、東方財(cái)富、同花順、恒生電子、宇信科技、當(dāng)虹科技、萬(wàn)達(dá)信息、創(chuàng)業(yè)惠康、潤(rùn)和軟件、彩訊股

份、第四范式、

焦點(diǎn)科技;③2C:金山辦公、三六零、萬(wàn)興科技、福昕軟件、合合信息、螢石網(wǎng)絡(luò)。2)算力:①云:

海光信息、寒武紀(jì)、浪潮信息、華勤技術(shù)、云賽智聯(lián)、光環(huán)新網(wǎng)、中興通訊、寶信軟件、紫光股份、中國(guó)電信、優(yōu)刻得-W

、青云科技

-U

、首都在線、并行科技、潤(rùn)澤科技、中國(guó)軟件國(guó)際、神州數(shù)碼、深信服、新炬網(wǎng)絡(luò)、天璣科技;

②邊:

網(wǎng)宿科技、順網(wǎng)科技、云天

勵(lì)飛

;③端:

軟通動(dòng)力、中科創(chuàng)達(dá)、樂(lè)鑫科技、移遠(yuǎn)通信?!麸L(fēng)險(xiǎn)提示:大模型產(chǎn)業(yè)發(fā)展不及預(yù)期、中美博弈加劇、宏觀經(jīng)濟(jì)影響下游需求、市場(chǎng)競(jìng)爭(zhēng)加劇、相關(guān)標(biāo)的公司業(yè)績(jī)不及預(yù)期等、國(guó)內(nèi)外公司并

請(qǐng)務(wù)必閱讀報(bào)告附注中的風(fēng)險(xiǎn)提示和免責(zé)聲明◆

DeepSeek推動(dòng)AGI時(shí)代到來(lái),關(guān)注AI應(yīng)用、端側(cè)AI、

算力三大主線一

、DeepSeek背景介紹1.1

、DeepSeek

股權(quán)結(jié)構(gòu)及創(chuàng)始人背景1.2

、DeepSeek

母公司幻方量化,早期確立AI戰(zhàn)略為后續(xù)出圈埋下伏筆1.3

、DeepSeek

重視年輕團(tuán)隊(duì)且兼具深厚技術(shù)底蘊(yùn),薪酬對(duì)標(biāo)字節(jié)跳動(dòng)研發(fā)崗

1.4

、DeepSeek產(chǎn)品家族全梳理1.5

、DeepSeek

日活遠(yuǎn)超同期ChatGPT,下載量霸榜全球140個(gè)市場(chǎng)移動(dòng)應(yīng)用榜首

1.6

、DeepSeek

獲得海內(nèi)外市場(chǎng)認(rèn)可,中國(guó)AI產(chǎn)業(yè)首次步入引領(lǐng)位置二

、DeepSeek模型家族技術(shù)詳解2.1

、DeepSeek模型家族技術(shù)創(chuàng)新框架總攬2.2、DeepSeek

v3:

性能對(duì)齊海外領(lǐng)軍閉源模型,

DeepSeek2024

年巔峰之作2.3

、DeepSeek

RIZero核心創(chuàng)新點(diǎn)——RL

(強(qiáng)化學(xué)習(xí))替代SFT

(有監(jiān)督微調(diào)

)2.4

、DeepSeek

RI:

高質(zhì)量冷啟動(dòng)數(shù)據(jù)+多階段訓(xùn)練,將強(qiáng)推理能力泛化2.5

、開(kāi)源大模型:打破OpenAI

等閉源模型生態(tài),提升世界對(duì)中國(guó)AI大模型認(rèn)知三

、DeepSeek

對(duì)AI應(yīng)用的影響?3.1

、DeepSeek

打開(kāi)低成本推理模型邊界,加速AI應(yīng)用布局進(jìn)程

3.2

、DeepSeek

RI蒸餾賦予小模型高性能,端側(cè)AI迎來(lái)奇點(diǎn)時(shí)刻四

、DeepSeek對(duì)算力影響?4.1

、DeepSeekV3

訓(xùn)練中GPU

成本558萬(wàn)美元,對(duì)比海外成本降

低4.2

、DeepSeek

或有約5萬(wàn)Hopper

GPU,

訓(xùn)練總成本或較高4.3

、推理化:推理算力需求占比提升,

GenAI云廠商有望受益五

、盈利預(yù)測(cè)及風(fēng)險(xiǎn)提示請(qǐng)務(wù)必閱讀報(bào)告附注中的風(fēng)險(xiǎn)提示和免責(zé)聲明國(guó)海證券SEALANDSECURITEs一、DeepSeek背景介紹圖

:DeepSeek

權(quán)

結(jié)

構(gòu)交譯

李歡

鄭達(dá)

四 n

vdeepseek鄭達(dá)n應(yīng)油

棵詢(xún)合快企化(有合飲)波程業(yè)咨企業(yè)(陽(yáng)合快)下納州

屬本求究嗽

工公智司

DeepSeek寧液程采企業(yè)首理咨南合飲企業(yè)(有銀白快)●DeepSeek是一家于2023年成立的中國(guó)初創(chuàng)企業(yè),創(chuàng)始人是AI驅(qū)動(dòng)量化對(duì)沖基金幻方量化的掌門(mén)人梁文鋒。從股權(quán)結(jié)構(gòu)圖顯示,DeepSeek由

四名自然人通過(guò)五層控股掌握100%股份(其中梁文鋒間接持股比例83.29%,直接持股1%,累計(jì)84.2945%)。創(chuàng)始人梁文鋒出生于廣東湛江,浙江大學(xué)畢業(yè),擁有信息與電子工程學(xué)系本科和碩士學(xué)位,2008年起開(kāi)始帶領(lǐng)團(tuán)隊(duì)使用機(jī)器學(xué)習(xí)等技術(shù)探索全

自動(dòng)量化交易,2015年幻方量化正式成立。2021年,幻方量化的資產(chǎn)管理規(guī)模突破千億大關(guān),躋身國(guó)內(nèi)量化私募領(lǐng)域的

“四大天王”之列。2023年梁文鋒宣布正式進(jìn)軍通用人工智能領(lǐng)域,創(chuàng)辦DeepSeek,

專(zhuān)注于做真正人類(lèi)級(jí)別的人工智能。資料來(lái)源:商界觀察

請(qǐng)務(wù)必閱讀報(bào)北京深度末素人工智前基礎(chǔ)技術(shù)研究有限公司圖:幻方創(chuàng)始人梁文峰(圖右)寧油程

部面白公油程

務(wù)

的伙

文軍文峰小事次文文陳寧四α母

公司幻方量化確立以AI為

發(fā)

。2016年,幻方量化第

個(gè)由深度學(xué)習(xí)算法模型生成的股票倉(cāng)位上線實(shí)盤(pán)交易,使用GPU進(jìn)

計(jì)

。

后不久,該公司明確宣布AI為主要發(fā)展方向。量化投資全面AI化

驅(qū)

動(dòng)

,

續(xù)

。復(fù)雜的模型計(jì)算需求使得單機(jī)訓(xùn)練遭遇算力瓶頸,訓(xùn)練需求和有限的計(jì)算資源產(chǎn)生矛盾

,幻方需要解決算力受限難題。于是幻方在2019年成立了

家AI基

礎(chǔ)

,

出自

號(hào)

”AI

集群,搭載500塊顯卡。2021年

,

幻方又斥資10億元建設(shè)

號(hào)”

,

為AI

研究提供算力支持?;梅皆跇?gòu)建A算力過(guò)程中的

動(dòng)

場(chǎng)

機(jī)

會(huì)

。

國(guó)

內(nèi)早期的英偉達(dá)芯片大買(mǎi)家之

,2022年其用于科研支持的閑時(shí)算力高達(dá)1533萬(wàn)GPU時(shí),大大超越了后來(lái)很多大模型公司。圖:幻方量化發(fā)展歷程幻

方AI注冊(cè)成立,致力

于Al算法與基礎(chǔ)應(yīng)用研究。螢火一號(hào)A1集群,搭載500塊顯卡,使用200Gbps高速網(wǎng)絡(luò)互聯(lián)。2008-2014

20152016

20172018

2019

2020

2021

2022董火二號(hào)集群滿(mǎn)載運(yùn)

行,平均占用率達(dá)

96%+。全年運(yùn)行任

務(wù)135萬(wàn)個(gè),共計(jì)

5674萬(wàn)GPU

時(shí)。用于

科研支持的閑時(shí)算力

2

7

%

。AI

拓展了我們的能力邊界

激發(fā)了我們的想象力和創(chuàng)造力nA方化A資料來(lái)源:公司官網(wǎng),國(guó)海證券研究所

請(qǐng)務(wù)必閱讀報(bào)告附注

網(wǎng)

頁(yè)

標(biāo)

語(yǔ)

,

A

I

發(fā)

首個(gè)由深度學(xué)習(xí)算法

模型生成的股票倉(cāng)位

上線實(shí)盤(pán)交易,使用

GPU

進(jìn)行計(jì)算。董火一號(hào)總投資近2

億元,搭載1100加速

卡,并正式投用。首次獲得私募金牛獎(jiǎng);

確立以Al

為公司的

主要發(fā)展方向幾乎所有的量化策路

都已經(jīng)采用AI

模型

計(jì)

。創(chuàng)立幻方量化,依靠數(shù)學(xué)與人工智能進(jìn)行量化投資?;?/p>

方AI投入10億建設(shè)

螢火二號(hào);創(chuàng)始團(tuán)隊(duì)從零開(kāi)始探素全自動(dòng)化交屈?;梅紸

研學(xué)

研以分時(shí)調(diào)寶共享

力,大瓣度3Ws門(mén)圖:DeepSeek公開(kāi)招聘職位信息匯總職位名稱(chēng)面向群體申請(qǐng)要求薪酬水平深度學(xué)習(xí)研究員校招&實(shí)習(xí)熟練掌握至少兩種編程語(yǔ)言;在國(guó)際頂會(huì)或期刊發(fā)表相關(guān)論文;知名比賽成績(jī)8-11萬(wàn)元月,一年14薪資深ui設(shè)計(jì)師經(jīng)驗(yàn)不限,本科優(yōu)秀的藝術(shù)類(lèi)教育背景;有互聯(lián)網(wǎng)或科技公司UI設(shè)計(jì)工作經(jīng)驗(yàn);4-7萬(wàn)元月,一年14薪深度學(xué)習(xí)研發(fā)工程師在校/應(yīng)屆,本科較強(qiáng)的工程能力;工程能力;知名比賽成績(jī)4-7萬(wàn)元月,一年14薪數(shù)據(jù)架構(gòu)工程師在校應(yīng)屆,本科有搜索、推薦、廣告等業(yè)務(wù)數(shù)據(jù)的處理經(jīng)驗(yàn);有規(guī)模中文網(wǎng)頁(yè)數(shù)據(jù)收集和清洗經(jīng)驗(yàn)

者優(yōu)先4.5-6.5萬(wàn)元月,一年14薪全棧開(kāi)發(fā)工程師在校/應(yīng)屆,本科對(duì)主流的開(kāi)源軟件有深入的了解,并且對(duì)此有做出貢獻(xiàn)2.5-5萬(wàn)元/月,一年14薪客戶(hù)端研發(fā)工程師在校/應(yīng)屆,本科計(jì)算機(jī)或相關(guān)專(zhuān)業(yè)優(yōu)先;有獨(dú)立開(kāi)發(fā)App經(jīng)驗(yàn),有優(yōu)秀開(kāi)源項(xiàng)目者優(yōu)先。2-4萬(wàn)元月,一年14薪深度學(xué)習(xí)實(shí)習(xí)生計(jì)算機(jī)及相關(guān)專(zhuān)業(yè)研究生,特別優(yōu)秀的本科生;具有扎實(shí)的編程功底;有頂級(jí)Al會(huì)議論文發(fā)表經(jīng)驗(yàn)或開(kāi)源項(xiàng)目貢獻(xiàn)經(jīng)驗(yàn)者優(yōu)先500元/天,4天一周,6個(gè)月;非北京地

區(qū)學(xué)生來(lái)京實(shí)習(xí)有租房補(bǔ)助3000元/月團(tuán)隊(duì)以年輕化為主,具備深厚技術(shù)底蘊(yùn)。創(chuàng)始人梁文鋒曾在36氮的采訪中,給出了DeepSeek的員工畫(huà)像:

“都是一些Top高校的應(yīng)屆畢業(yè)生、沒(méi)畢業(yè)的博四、博五實(shí)習(xí)生,還有一些畢業(yè)才幾年的年輕人?!弊?023年5月誕生以來(lái),

DeepSeek始終維持約150人的精英團(tuán)隊(duì),推行無(wú)職級(jí)

界限、高度扁平化的文化,以此激發(fā)研究靈感,高效調(diào)配資源。早在2022年,幻方量化便著手為DeepSeek籌建AI團(tuán)隊(duì),至2023年5月DeepSeek

正式成立時(shí),團(tuán)隊(duì)已匯聚近百名卓越工程師。如今,即便不計(jì)杭州的基礎(chǔ)設(shè)施團(tuán)隊(duì),北京團(tuán)隊(duì)亦擁有百名工程師。技術(shù)報(bào)告的致謝

欄揭示,參與

DeepSeek

V3研發(fā)的工程師陣容,已壯大至139人。團(tuán)隊(duì)薪酬水平對(duì)標(biāo)字節(jié)跳動(dòng)研發(fā)崗位,且不限制人才的算力使用。據(jù)36氮資料顯示,

DeepSeek薪酬水平對(duì)標(biāo)的字節(jié)研發(fā),“根據(jù)人才能拿到的

節(jié)offer,再往上加價(jià)”;同時(shí)只要梁文鋒判斷技術(shù)提案有潛力,

DeepSeek給人才的算力,

“不限”。資料米源:華爾街見(jiàn)聞,國(guó)海證券研究所

請(qǐng)務(wù)必閱讀報(bào)告附注中模型類(lèi)別

名稱(chēng)

內(nèi)容

對(duì)標(biāo)2023年11月2日DeepSeekCoder

模型包括1B,7B,33B多種尺寸,開(kāi)源內(nèi)容包含Base模型和指令調(diào)優(yōu)模型。Meta的CodeUama是業(yè)內(nèi)標(biāo)桿,但DeepSeekCoder展示出多方位領(lǐng)先的架勢(shì)。2024年6月17日DeepSeekCoderV2代碼大模型,提供了236B和16B兩種版本,DeepSeekCoderV2的API服務(wù)也同步上線,價(jià)格依舊是「1元百萬(wàn)輸入,2元/百萬(wàn)輸出」能力超越了當(dāng)時(shí)最先進(jìn)的閉源模型GPT-4-Turbo,2023年11月29日

DeepSeek

LLM67B

型訓(xùn)練過(guò)程中產(chǎn)生的9個(gè)checkpoints也一并公開(kāi),

現(xiàn)更佳。2024年3月11日

DeepSeek-VL多模態(tài)AI技術(shù)上的初步嘗試,尺寸為7B與1.3B,模型和技術(shù)論文同步開(kāi)源.LLM2024年5月DeepSeek-V2

,

降,

p

e

-了1

A(多頭潛在注意力機(jī)

對(duì)標(biāo)GP

T-

4

-Turbo,而API價(jià)格只有后者的1/70DeepSeek-V2.5融合Chat模型聚焦通用對(duì)話能力,Code模型聚需代碼處理能力合二為一,更好的對(duì)齊2024年9月6日

模型

了人類(lèi)偏好,2024年12月10日DeepSeek-V2.5-1210DeepSeekV2系列收官之作,全面提升了包括數(shù)學(xué)、代碼、寫(xiě)作、角色扮演等在內(nèi)的多方能力.2024年12月26日DeepSeek-V3

開(kāi)源發(fā)布,訓(xùn)練成本估算只有550萬(wàn)美金性能上全面對(duì)標(biāo)海外領(lǐng)軍閉源模型,生成速度也大幅提升。2024年2月5日DeepSeakMat

數(shù)學(xué)推理模型,僅有7B參數(shù)數(shù)學(xué)推理能力上直逼GPT-42024年B月16日推理模型DeepSeek-Prover-V1.5數(shù)學(xué)定理證明模型

在高中和大學(xué)數(shù)學(xué)定理證明測(cè)試中均超越了多款知名的開(kāi)源模型.2024年11月20日

DeepSeek-R1-Lite

推理模型,為之后V3的后訓(xùn)練,提供了足量的合成數(shù)據(jù)。嫦美01-preview2025年1月20日DeepSeek-A1發(fā)布并開(kāi)源,開(kāi)放了思維鏈輸出功能,將模型開(kāi)源License統(tǒng)一變更為MIT許可證,并明確用戶(hù)協(xié)議允許“模型蒸餾”在性能上全面對(duì)齊OpenAIo1正式版文生3D模型,可從一句話生成高質(zhì)量的三維模型,實(shí)現(xiàn)了AIGC從2D平面到2023年12月18日

DraamCraft3D

3D立體空間的跨越。多模態(tài)模

型2024年12月13日DeepSeek-VL2多模態(tài)大模型,采用了MoE架構(gòu),視覺(jué)能力得到了顯著提升,有3B、16B和27B三種尺寸,在各項(xiàng)指標(biāo)上極具優(yōu)勢(shì)。2025年1月27日DoepSoek

Janus-Pro開(kāi)源發(fā)布的多模態(tài)模型.開(kāi)源了國(guó)內(nèi)首個(gè)MoE(混合專(zhuān)家架構(gòu))大模型DeepSeekMoE:全新架構(gòu),支持架構(gòu)開(kāi)源

2024年1月11日

DeepSeakMoE

中英,免費(fèi)商用,在2B.16B、145B等多個(gè)尺度上均領(lǐng)先

被普遍認(rèn)為是OpenAI

GPT-4性能突破的關(guān)鍵所在%L3M%用的

52

使AV統(tǒng)

M

He

k

-傳S低至De

e率布用發(fā)占源存開(kāi)顯的的型型模將模M

o

E

大)用制通資料來(lái)源:新浪人工智能,國(guó)海證券研究所

請(qǐng)務(wù)必閱讀報(bào)告附注中首教通用大語(yǔ)言模型,且同步開(kāi)源了7B和67B兩種不同規(guī)模的模型,甚至將模Meta的同級(jí)別模型LaMA270B,并在近20個(gè)中英文的公開(kāi)評(píng)測(cè)榜單上表SEALAND

SECURITES圖:DeepSeek

-

V3在英文、代碼、數(shù)學(xué)領(lǐng)域表現(xiàn)優(yōu)異測(cè)試集DeepSeek-

V3Qwen2.5

72B-InstLlama3.1405B-4nst.Claude-3.5-

Sonnet-1022GPT-40

0513模型架構(gòu)激活參數(shù)總參數(shù)MoE37B671BDense72B72BDense

405B

405B。MMLU(EM)88.585.388.688.387.2MMLU-Redux(EM)89.185.686.288.988MMLU-Pro(EM)75.971.673.37872.6DROP(3-shot

F1)91.676.788.788.383.7英文

IF-Eval(Prompt

Striet86.184.18686.584.3GPQA-Diamond

(Pas@1)59.14951.16549.9SimpleQACorree024.99.117.128.438.2FRAMES(Aac)73.369.87072.580.5LongBenchv2(Ac)48.739.436.14148.1HumanEval-Mul(Pa@1)82.677.377.281.780.5LiveCodeBenchoPan@1-cor)40.531.128.436.333.4LiveCodeBench(Pas@D37.628.730.132.834.2代碼

Codeforces

Peroentike)51.624.825.320.323.6SWEVerified

(Resoked4223.824.550.838.8Aider-Edit

(AcJ79.765.463.984.272.9Aider-Polyglot(Ace)49.67.65.845.316AIME

2024(Pas@1)39.223.323.3169.3數(shù)學(xué)

MATH-

500(EM90.28073.878.374.6CNMO

2024(Pas@1)43.215.96.813.110.8CLUEWSC

EM90.991.484.785.487.9中文C

-

E

val(EM86.586.161.576.776C-SimpleQA

Correc)64.148.450.451.359.3DeepSeek-V3

為自研

MoE

模型,671B

參數(shù),激活37B,

在14.8Ttoken

上進(jìn)行了預(yù)訓(xùn)練。

V3多項(xiàng)評(píng)測(cè)成績(jī)超越了

Qwen2.5-

72B

和Llama-3.1-405B

等其他開(kāi)源模型,并在性能上和世界頂

尖的閉源模型

GPT-4o以及

Claude-3.5-Sonnet

不分伯仲?!蛟诰唧w的測(cè)試集上,DeepSeek-V3在知識(shí)類(lèi)任務(wù)上接近當(dāng)前表

現(xiàn)最好的模型Claude-3.5-Sonnet-1022;長(zhǎng)文本/代碼/數(shù)學(xué)/中

文能力上均處于世界一流模型位置。資料來(lái)源:DeepSeek官方公眾號(hào)

請(qǐng)務(wù)必閱讀報(bào)告附注DeepSeek-R1性能比較0penAI-o1

。

DeepSeek-R1在后訓(xùn)練階段大規(guī)模使用了強(qiáng)化學(xué)習(xí)技術(shù),在僅有極少標(biāo)注數(shù)據(jù)的情況下,極大提升

了模型推理能力。在數(shù)學(xué)、代碼、自然語(yǔ)言推理等任務(wù)上,性能比肩OpenAIo1

。DeepSeek

R1同步登錄DepSeek

官網(wǎng)或官方App

·

網(wǎng)頁(yè)或者app端打開(kāi)“深度思考”模式,即可調(diào)用最新版DeepSeek-R1完成各類(lèi)推理任務(wù)。開(kāi)

放的許可證和用戶(hù)協(xié)議。DeepSeek

在發(fā)布并開(kāi)源R1的同時(shí),同步在協(xié)議授權(quán)層面也進(jìn)行了如下調(diào)整:

1

)

開(kāi)

License

統(tǒng)一使用

MIT,

開(kāi)源倉(cāng)庫(kù)(包括模型權(quán)重)統(tǒng)一采用標(biāo)準(zhǔn)化、寬松的

MT

License,完全開(kāi)源,不限制商用,無(wú)需申請(qǐng)。

2)產(chǎn)品協(xié)議明確可“模型蒸餾

”:

為了進(jìn)一步促進(jìn)技術(shù)的開(kāi)源和共享,支持用戶(hù)進(jìn)行“模型蒸餾”,明確允許用戶(hù)利用模型輸出、通過(guò)模型蒸餾等方式訓(xùn)練其他模型。圖:DeepSeek-R1發(fā)布即上線我是DeepSeek,

很高興見(jiàn)到你!rn..M資料來(lái)源:DeepSeek官方公眾號(hào)請(qǐng)務(wù)必閱讀報(bào)告附注口9bmpl存

)

/

2

(

)

,

萬(wàn)

出tokens8元。DeepSeek-R1百萬(wàn)tokens輸出價(jià)格約為01的1/27。DeepSeek-R1API服務(wù)定價(jià)

為每

萬(wàn)

tokens中

)

,

萬(wàn)

tokens16元。

對(duì)

比OpenAI-01

每百萬(wàn)輸入tokens為5

5元

(

)

,

萬(wàn)tokensDeepSeek

系列模型均極具定價(jià)優(yōu)勢(shì)。DeepSeekV3模

價(jià):

隨著

強(qiáng)

、

DeepSsek-V3更新上

,模

型API

服務(wù)

定價(jià)

也將調(diào)整為每

百萬(wàn)輸入tokens資

來(lái)

源:DeepSeek官方公眾號(hào)

請(qǐng)務(wù)必閱讀報(bào)告附注1元(緩

命中)/

4元(緩

輸出

4

3

8

。0.5元

(

緩存

命MMLU

Rnhu

ZEl得分vS

輸入AFI價(jià)格(W/IMTlend圖:DeepSeek對(duì)話助手

圖:DeepSeek霸榜下載榜榜首全能AI對(duì)話助手由強(qiáng)大的DeepSeek-V3

驅(qū)動(dòng)Paid

Apps高效讀文件智能對(duì)話有問(wèn)必答1DeepSeek-AIAssistantInteligentAAsstant全網(wǎng)智能搖宋陽(yáng)度思超法前2ChatGPT*OpenThe

offcial

appby

OpenAIDeepSeek

遠(yuǎn)超同期ChatGPT,AI

格局或迎來(lái)重塑。2025年1月15日,

DeepSeek

App

正式發(fā)布,并在i0S/Android各大應(yīng)用市場(chǎng)全面上線。數(shù)據(jù)顯示,

DeepSeek

在上線18天內(nèi)達(dá)到日活躍用戶(hù)1500萬(wàn)的成就,相較之下,同期ChatGPT則耗費(fèi)244天才實(shí)現(xiàn)相同日活:2月4日,上

線20天后日活突破2000萬(wàn),創(chuàng)下又一個(gè)新紀(jì)錄。

DeepSeek

在發(fā)布的前18天內(nèi)累計(jì)下載量達(dá)到1600萬(wàn)次,峰值日下載量高達(dá)500萬(wàn)次,幾乎是

ChatGPT同期900萬(wàn)次下載量的兩倍。此外,

DeepSeek

在全球140個(gè)市場(chǎng)中的移動(dòng)應(yīng)用下載量排行榜上位居榜首。1.6001,4001,2001,200400600400200DA

(萬(wàn))葉0資料來(lái)源:公司官網(wǎng),蘋(píng)果APP

Store,Sensor

Tower

請(qǐng)務(wù)必閱讀報(bào)告附注中的風(fēng)險(xiǎn)提示和免責(zé)聲明圖

:DeepSeek成全球增速最快的AI應(yīng)用僅上線18天日活1500萬(wàn),增速是ChatGPT

的13倍2 1015Top

Charts

AlApps應(yīng)用(APP)

發(fā)布第

N天Deepseek

Da

(萬(wàn))

1493全球DAU日活躍用戶(hù)(萬(wàn))<AppsFreeAppsOpenChatCPT+15511DeepSeek驚艷海外市場(chǎng),中國(guó)AI產(chǎn)業(yè)首次步入引領(lǐng)位置。英偉達(dá)表示,DeepSeek為推理、數(shù)學(xué)和編碼等任務(wù)提供了

“最先進(jìn)的推理能力”

“高推理效率”以及

“領(lǐng)先的準(zhǔn)確性”。Meta首席AI科學(xué)家YannLecun表示

DeepSeek-R1

面世與其說(shuō)意味著中國(guó)公司在AI領(lǐng)域正在超越美國(guó)公司,不如說(shuō)意味著開(kāi)源大模型正在

超越閉源。"√O(píng)penAI首席執(zhí)行官SamAltman首次承認(rèn)OpenAI的閉源策略“站在了歷史錯(cuò)誤的一邊”。√微軟COE納德拉表示,公司的DeepSeekR1模型展現(xiàn)了"真正的創(chuàng)新力"?!虈?guó)內(nèi)黑神話制作人悟空馮冀表示,DeepSeek可能是個(gè)國(guó)運(yùn)級(jí)別的科技成果。圖

:Sam

Altman評(píng)價(jià)Deep

SeekSamAltman口osamedeepseek'srtisanimpressivemodel,particularlyaroundwhatthey'reable

to

deliver

for

theprice.wewillobviouslydelivermuch

better

modelsand

also

it's

legitinvigoratingtohaveanewcompetitor!wewillpullupsomereleases.DeepSeek

的R1是

個(gè)令人印象深刻的模型,尤其是圍繞他們能夠以?xún)r(jià)格交付的方式

。顯然,我們將提供更好的模型,并且擁有新的競(jìng)爭(zhēng)對(duì)手的合法性!我們將提

些版本。

用DeepLxwhatmakesR1Impresslve?HowdoesRIcompareto

OpenAl?)Is

Oper10:29AM·Jan

28.2025·11.2M

ViewsO6.1k

t93K74K

口m為了講清楚這個(gè)成果有多驚人,我打個(gè)比方:如果有一個(gè)A大模型做到了以下的任何一條,都是超級(jí)了不起的突破—1、強(qiáng)大,比肩O1的推理能力,暫時(shí)沒(méi)有之一2、便宜。參數(shù)少,訓(xùn)練開(kāi)銷(xiāo)與使用費(fèi)用小了一個(gè)數(shù)量級(jí)3、開(kāi)源。任何人均可自行下載與部署,提供論文詳榴說(shuō)明訓(xùn)練步驟與竅門(mén),甚至

提供了可以運(yùn)行在手機(jī)上的mini模型。4.免費(fèi)。官方目前揮供的服務(wù)完全免費(fèi),任何人陋時(shí)隨地可用5、聯(lián)網(wǎng)。智時(shí)唯一支持聯(lián)網(wǎng)搜索的推理模型

(o1還不支持)6、本土。深度求索是一家很小規(guī)模的年輕中國(guó)公司,由沒(méi)有海外經(jīng)歷甚至沒(méi)有資

深從業(yè)經(jīng)驗(yàn)的本土團(tuán)隊(duì)開(kāi)發(fā)完成上面的六條。DeepSeek全部、同時(shí)做到了。實(shí)在太6了,6到不真實(shí)。如果這都不值得歡呼。還有什么值得歡呼?請(qǐng)務(wù)必閱讀報(bào)告附Y(jié)ocar-

堿10小時(shí)

網(wǎng)面版年前還是認(rèn)真推下DeepSeek吧。v3

已經(jīng)用了一個(gè)月,但R1僅僅用了5天,不得不來(lái)發(fā)這條微博。先講一句居論:DeepSeek,

可能是個(gè)國(guó)運(yùn)級(jí)別的科技成果。圖

評(píng)

價(jià)DeepSeek資

來(lái)

源:澎湃新

聞、IT之

家x1√1)1月30

日,英偉達(dá)宣布DeepSeek-R1可作為

NVIDIA

NIM微服務(wù)預(yù)覽版使用?!?/p>

2)

1月,DeepSeek-R1模型被納入微軟平臺(tái)Azure

AI

Foundry

和Github

的模型目錄,開(kāi)發(fā)者將可以在Copilot

+PC上本地運(yùn)行DeepSeek-R1精簡(jiǎn)模型,以及在Windows上的

GPU

生態(tài)系統(tǒng)中運(yùn)行,此外還宣布將DeepSeek-R1部署在云服務(wù)Azure上?!?)AWS

(亞馬遜云科技)宣布,用戶(hù)可以在Amazon

Bedrock

和Amazon

SageMaker

AI兩大AI服務(wù)平臺(tái)上部署DeepSeek-R1

模型。4)Perplexity

宣布接入了DeepSeek

模型,將其與OpenAI

的GPT-o1和

Anthropic

的Claude-3.5并列作為高性能選項(xiàng)?!?)華為:已上線基于其云服務(wù)的DeepSeek-R1相關(guān)服務(wù);√6

)

:DeepSeek-R1大模型可一鍵部署至騰訊云

HAI'上,開(kāi)發(fā)者僅需3分鐘就能接入調(diào)用?!?

)

:DeepSeek-R1和DeepSeek-V3模型已在百度智能云千帆平臺(tái)上架;√

8)阿里:阿里云PAI

Model

Gallery支持云上一鍵部署DeepSeek-R1和DeepSeek-V3模型。圖:微軟宜布接入DeepSeekMicrosoft

AzureAzureDeepSeekRIisnowliveonAzureAlFoundry

and

OGitHub.Experience

the

powerofadvancedreasoningon

a

trusted,scalable

Aplatformwithminimalinfrastructureinvestment.Learnmore:msft.it/6016UVP?a#AzureAIFoundryDeepSiokR1

現(xiàn)在在AzueAlFoundry和ToCItFuE

上紅,體驗(yàn)在一個(gè)可信,可廣的A平臺(tái)上進(jìn)行高級(jí)推理的強(qiáng)大功能,基礎(chǔ)設(shè)施投資最小。了解更多:mstt.it/6016UVPpa-

HAzureAlfoundryDpeModemcfewo/dp+1LIetkcostrel資料來(lái)源:英偉達(dá)、微軟

請(qǐng)務(wù)必閱讀報(bào)告微軟、英偉達(dá)、亞馬遜、英特爾、AMD等科技巨頭陸續(xù)上線DeepSeek模型服務(wù)。圖:英偉達(dá)上線DeepSeek二

、DeepSeek模型家族技術(shù)詳解DeepSeek

V3MoE架構(gòu)模型核心創(chuàng)新1

、

多頭潛在注意力

(MLA)使用低秩聯(lián)合壓縮方法減少注意力計(jì)算的緩存需求,同時(shí)保持多頭注意力的性能。2

、

混合專(zhuān)家架構(gòu)

(DeepSeekMoE)①

細(xì)粒度專(zhuān)家分割②

共享專(zhuān)家隔離③

輔助損失優(yōu)化的專(zhuān)家負(fù)載平衡策略。3

多Token

預(yù)測(cè)目標(biāo)

(MTP)擴(kuò)展模型在每個(gè)位置預(yù)測(cè)多個(gè)未來(lái)token

的能力,提高訓(xùn)練數(shù)據(jù)效率。4

、DualPipe

算法。5

、支持

FP8

混合精度訓(xùn)練。DeepSeek

R1以V3作為基礎(chǔ)模型,結(jié)合冷啟動(dòng)數(shù)據(jù)的多階段訓(xùn)練核心創(chuàng)新1

、

冷啟動(dòng)數(shù)據(jù)引入:

從零開(kāi)始的RL容易導(dǎo)致初期性能不穩(wěn)定,為此設(shè)計(jì)了

包含高質(zhì)量推理鏈的冷啟動(dòng)數(shù)據(jù)集。該

數(shù)據(jù)提高了模型的可讀性和訓(xùn)練初期的

穩(wěn)定性。2

、推理導(dǎo)向的強(qiáng)化學(xué)習(xí):通過(guò)多輪

RL

,

進(jìn)一步優(yōu)化模型在數(shù)學(xué)、編程等推理

集型任務(wù)中的表現(xiàn)。3

、監(jiān)督微調(diào)與拒絕采樣:

使用RL檢查

點(diǎn)生成額外的推理和非推理任務(wù)數(shù)據(jù),

進(jìn)一步微調(diào)模型。4、全場(chǎng)景強(qiáng)化學(xué)習(xí):

在最終階段結(jié)合

多種獎(jiǎng)勵(lì)信號(hào),提升模型的有用性和安

全性。DeepSeekR1Zero以V3作為基礎(chǔ)模型,純強(qiáng)化學(xué)習(xí)替代有

監(jiān)督微調(diào)核心創(chuàng)新1

、

強(qiáng)化學(xué)習(xí)算法:使

GRPO框

架,

通過(guò)群體獎(jiǎng)勵(lì)優(yōu)化策略模型。獎(jiǎng)勵(lì)設(shè)

計(jì)包括準(zhǔn)確性獎(jiǎng)勵(lì)和格式獎(jiǎng)勵(lì)。2、

自我演化與頓悟時(shí)刻:模型通過(guò)RL自動(dòng)學(xué)習(xí)復(fù)雜的推理行為,如自我

驗(yàn)證和反思。隨著訓(xùn)練過(guò)程的深入,

模型逐步提升了復(fù)雜任務(wù)的解答能力

,并在推理任務(wù)上顯現(xiàn)突破性的性能提升。資料來(lái)源:《DeepSeek-R1:IncentivizingReasoningCapubilityinLLMsviaReinforcementLearning》,

《DeepSeek-V3TechnicalRepont》,國(guó)海證券研究所請(qǐng)務(wù)必閱讀報(bào)告附注中的風(fēng)險(xiǎn)提示和免責(zé)聲明國(guó)海證券SEALANDSECURITEs立計(jì)算注意力,再將這些頭的輸出拼接線性變換,從而實(shí)現(xiàn)在不同表示子空間中同時(shí)捕獲和整合多種交互信息,提升模型的表

達(dá)能力。處理長(zhǎng)序列時(shí)MHA會(huì)面臨計(jì)算和內(nèi)存效率上的局限性,

MLA顯

降低計(jì)算及內(nèi)存占用問(wèn)題。

MLA的核心思想則是使用低秩分解(LoRA)來(lái)近似Key和Value的投影,以在推理期間減少鍵值緩存

(KV

cache),顯著降低計(jì)算和內(nèi)存占用的復(fù)雜度。Router

MH

Top-KInput

HiddenMulti-HeadLatent

Altention(MLA)caced

DuringtnferenceOutput

Hidden

u:

O000Muhi-Head

Attention(1:D

o00

[kS:k{D(o00concatmotel

cowatnar[

appy

S

高RoPE

AotDooolume?

Latente?OO00inputHidenh,OO00

0000apykMLA從傳統(tǒng)的MHA(多頭注意力機(jī)制)出發(fā),

MHA通過(guò)并行運(yùn)行多個(gè)Self-Attention層并綜合其結(jié)果,能夠同時(shí)捕捉輸入

列在不同子空間中的信息,從而增強(qiáng)模型的表達(dá)能力。

通圖:DeepSeek

V3的創(chuàng)新架構(gòu)DeepSeekMoETransformer

Block×L1

N.1

Feed-ForwardNetwork過(guò)將輸入的查詢(xún)、鍵和值矩陣分割成多個(gè)頭,并在每個(gè)頭中獨(dú)資料來(lái)源:《DeepSeek-V3Technical

Repor)請(qǐng)務(wù)必閱讀報(bào)告附注中RMSNormAttentionRMSNormRouted

ExpertSharedExpertOutput

Hidden

h3

482MoE

架構(gòu):傳統(tǒng)MoE架構(gòu)的主要優(yōu)勢(shì)是利用稀疏激活的性質(zhì),將大模型拆解成若干功能模塊,每次計(jì)算僅激活其中一小部分,而保持其余模塊不

被使用,從而大大降低了模型的計(jì)算與學(xué)習(xí)成本,能夠在同等計(jì)算量的情況下產(chǎn)生性能優(yōu)勢(shì)。C

DeepSeekMoE在傳統(tǒng)MoE架構(gòu)之上,更新了兩個(gè)主要的策略:1)細(xì)粒度專(zhuān)家分割:

在保持模型參數(shù)和計(jì)算成本一致的情況下,用更精細(xì)的顆粒度對(duì)專(zhuān)家進(jìn)行劃分,更精細(xì)的專(zhuān)家分割使得激活的專(zhuān)家能夠以更靈活和適應(yīng)性更強(qiáng)的方式進(jìn)行組合;

2)共享專(zhuān)家隔離:采用傳統(tǒng)路由策略時(shí),分配給不同專(zhuān)家的token

可能需要一些共同的知識(shí)或信息,因此多個(gè)專(zhuān)家可能會(huì)有參數(shù)冗余。專(zhuān)門(mén)的共享專(zhuān)家致力于捕獲和整合不同上下文中的共

同知識(shí),有助于構(gòu)建一個(gè)具有更多專(zhuān)業(yè)專(zhuān)家且參數(shù)更高效的模型。負(fù)載均衡:MoE架構(gòu)下容易產(chǎn)生每次都由少數(shù)幾個(gè)專(zhuān)家處理所有tokens

的情況,而其余大量專(zhuān)家處于閑置狀態(tài),此外,若不同專(zhuān)家分布在不同計(jì)

算設(shè)備上,同樣會(huì)造成計(jì)算資源浪費(fèi)以及模型能力局限:負(fù)載均衡則類(lèi)似一個(gè)公平的

“裁判”,鼓勵(lì)專(zhuān)家的選擇趨于均衡,避免出現(xiàn)上述專(zhuān)家

激活不均衡的現(xiàn)象。

DeepSeek

在專(zhuān)家級(jí)的負(fù)載均衡外,提出了設(shè)備級(jí)的負(fù)載均衡,確保了跨設(shè)備的負(fù)載均衡,大幅提升計(jì)算效率,緩解計(jì)算瓶

頸。圖

:MoE架構(gòu)理解框架

圖:DeepSeekMoE對(duì)比傳統(tǒng)MoE架構(gòu)RostedfaperShired

bpertOupatdde

Qo

Output

ddn

空2k-2irout

enPoaseweaow

FomeoneheNoting

cannkeme

happyEmerpent

Bricks資料來(lái)源:《DeepSeekMoE:TowardsUlimateExpertSpecializationinMixture-of-ExpertsLanguageModels》

量子位Whutistwy

aboutos?Instruetion

Configurable

Foundation

ModelPayehologist

ModelAccolerated

ModolFoneo

n

tW

saipeankonn

Shulesper;-arastne

tomrouCustomizod

Bricks例)Cowentional

Top-2Routing

(bj+Fine

graled

Expert

Segmentation→

+Shared

Expert

isolbtion(DeepSeekMot)"Hompe

anf

r.casse

rptywren

by

Wun

Shkespeare.maiy

soryto

heuthut

youhe

fooinghsIsinportartt請(qǐng)務(wù)必閱讀報(bào)告附注中的風(fēng)險(xiǎn)提示和免責(zé)聲明or

Mhk=4

◎0packagotora

Cao"adaphethreepneisResponsenhpu

ddeo

Q0lihhiy子位MMosM

公4

要一

函口2網(wǎng)

2NPeasenmed

helongdk

=3wThe

inugesousa[QOLteradureModeO2

3DutputRoher2w8411圖

:MTP架構(gòu)

t?tsLNain

Cross-Entropy

Lossat'To

uPleredi

tionJOutputHeadTransformer

BlockLinear

ProjectionTconcotenationRMSNorm

RMSNormEmbedding

Layert2

t

t

tse1ndeoePOMTP

顯著提升模型性能。訓(xùn)練過(guò)程:

傳統(tǒng)語(yǔ)言模型一次只預(yù)測(cè)一個(gè)token的范式。它就像是讓模型從”一字一句”地朗讀,進(jìn)化為“整句整段”地理解和生成。在訓(xùn)練過(guò)程

中,

模型不再局限于預(yù)測(cè)序列中的下一個(gè)token,而是學(xué)會(huì)同時(shí)預(yù)測(cè)多個(gè)連續(xù)位置的token

。這種并行預(yù)測(cè)機(jī)制不僅提高了訓(xùn)練效率,還讓模

型能夠更好地捕捉token

之間的依賴(lài)關(guān)系。在保持輸出質(zhì)量的同時(shí),模型整體性能提升2-3%。推理階段:

MTP的優(yōu)勢(shì)更加明顯。傳統(tǒng)模型生成文本時(shí)就像是在”一筆一劃”地寫(xiě)字,而MTP則像是”提前打草稿”,可以同時(shí)生成多個(gè)token。

過(guò)創(chuàng)新的推測(cè)解碼機(jī)制,模型能夠基于當(dāng)前上下文同時(shí)預(yù)測(cè)多個(gè)可能的token

序列。即使某些預(yù)測(cè)不準(zhǔn)確需要回退,整體效率仍然顯著提升。這種并行生成機(jī)制使推理速度提升了1.8倍,還顯著降低了計(jì)算開(kāi)銷(xiāo)。Transformer

Block×LEmbedding

Laverinput

Tokens

t?

t?

t?

tTransformer

BlockLinear

P

ationRMSNormRMSNormEmbedding

Layerts

ts

tnneoncotectifcro資料來(lái)源:《DeepSeek-V3Technical

Report》

請(qǐng)務(wù)必閱讀報(bào)告附注中的t?

eTP

Cross-Entropy(Mst'Token

l

tion)e2edroePMainModel(Net

Token

Prediction)Cross-Entropy

LossOutput

HeadTarget

TokensOutputClrrpHeadLossTo

FP8土

Wgrad∑FP32BF16MasterWeightTo

FP8FP32DeepSeek

V3采用了FP8混合精度訓(xùn)練框架。在訓(xùn)練過(guò)程中,大部分核心計(jì)算內(nèi)核均采用FP8精度實(shí)

現(xiàn)。例如,在前向傳播、激活反向傳播和權(quán)重反向傳播中,輸入數(shù)據(jù)均使用FP8格式,而輸出結(jié)果則

使用BF16或FP32格式。這種設(shè)計(jì)使得計(jì)算速度相較于原始BF16方法提升一倍。FP8格式是一種低精度的數(shù)據(jù)格式,具有較小的存儲(chǔ)空間和計(jì)算開(kāi)銷(xiāo)。通過(guò)使用

FP8

,DeepSeek能夠在有限的計(jì)算資源下,實(shí)現(xiàn)更高的計(jì)算效率。例如,在處理大規(guī)模數(shù)據(jù)集

時(shí),F(xiàn)P8格式可以顯著減少顯存的占用,從而提高模型的訓(xùn)練速度。圖:具有

FP8

數(shù)據(jù)格式的整體混合精度框架圖:多種精度數(shù)據(jù)類(lèi)型結(jié)構(gòu)sRange

aponenta8Precisionmntim23FP32FP16

BF16a08IIm10m7FP8FP8監(jiān)

4TIIm2m3Two

FP8

formats資料來(lái)源:《DeepSeek-V3

Technical

Report》,NVIDIA英偉達(dá)企業(yè)解決方案公眾號(hào)請(qǐng)務(wù)必閱讀報(bào)告附注中的風(fēng)險(xiǎn)提示和免Input

BF16Input

GradientWeightDgrad支國(guó)海證券SEALANDSECURITESOptimizer

StatesOutput

GradientWeight

Gradient②FP32②FP32ToOutputTo

FP32To

BF16To

BF16To

FP8FpropTo

FP8To

FP8BF16CDeepSeek-V3

采用了一種名為

DualPipe

的創(chuàng)新流水線并行策略。

與傳統(tǒng)的單向

線(

1F1B)不

同,DualPipe采用雙向流水線設(shè)計(jì),即同時(shí)從流水線的兩

micro-batch

。這種設(shè)計(jì)可以顯著減少流水線氣泡

(Pipeline

Bubble),

GPU

利用率。DualPipe

還將每個(gè)

micro-batch

進(jìn)一步劃分為更小的

chunk,并對(duì)每個(gè)

chunk的計(jì)算和通信進(jìn)行精細(xì)的調(diào)度。隨后將一個(gè)chunk

劃分為attention

、all-to-all

dispatch

、MLP

和all-to-all

combine

等四個(gè)組成部分,并通過(guò)精細(xì)的調(diào)度策略,使得計(jì)算和通信可以高度重疊。MethodBubbleParameterAcivation1FIB(PP-1)(F+B)1xPPZB1P(PP-1)(F+B-2W)1xPPDualPipe(Ours)(嬰-1)(FkB+B-3W)2xPP+1資料來(lái)源:《DeepSeek-V3TechnicalReport》

請(qǐng)務(wù)必閱讀報(bào)告附注中的973456349586-

459687456978DualPipe

在流水線氣泡數(shù)量和激活內(nèi)存開(kāi)銷(xiāo)方面均優(yōu)于1F1B

和ZeroBubble

等現(xiàn)有方法ATTN(B)▲COMBINE(F△▲

Backward

chunkMLP(F)△DISPATCH(B)▲△

Forward

chunkDualPipe8個(gè)P

P

rank和

20

個(gè)

mi

c

r

o

-

b

a

t

c

h

的DualPipe調(diào)度

示例64

53

41

2

3200ForwardATTN(W)▲ATTN(F△PPCOMBINE(B)▲5403BackwardComputationCommunicationTimeDevloe0Devioe1

Devloe2

Devloe3

Devioe4

Devloe

Devloe6

Devloe7Time293847561827364576540123817263549283465圖:DualPipe性能優(yōu)越56798圖:DualPipe示意圖◎12forMLP(B)▲DISPATCH(F△0105Chunk拆分OvarlappedforwardABackward67768Backwdforwelghts67896789013MLP(W)▲609889B7

98567787932108989999Backward320210input655圖

:C++

與PTX

代碼的區(qū)別C++

PTX(Assembly)gleal_id

dt

prodxt(flaat*,float*b.fleat"c.int

sfe)(Conpute

te

detpoct

af

5.the

stere

theine"flaats

……far(int1;1

sfze;*([11·

[11:sur6,r1;_tpt:rt公眾號(hào)·量子位英偉達(dá)PTX(并行線程執(zhí)行)是專(zhuān)門(mén)為其GPU設(shè)計(jì)的中間指令集架構(gòu),位于高級(jí)GPU編程語(yǔ)言(如CUDAC/C++或其他語(yǔ)言前端

)和低級(jí)機(jī)器代碼(流處理匯編或SASS)之

。PTX是一種接近底層的指令集架構(gòu),將GPU呈現(xiàn)為數(shù)據(jù)并行計(jì)算設(shè)備,因此能

夠?qū)崿F(xiàn)寄存器分配、線程/線程束級(jí)別調(diào)整等細(xì)粒度優(yōu)化,這些是CUDAC/C++等語(yǔ)言無(wú)法實(shí)現(xiàn)的。DeepSeekV3采用定制的

PTX(并行線程執(zhí)行)指令并自動(dòng)調(diào)整通信塊大小,這大大減少了

L2緩存的使用和對(duì)其他SM

干擾。PTX

允許對(duì)

GPU

硬件進(jìn)行細(xì)粒度控制,這在特定場(chǎng)景下可以帶來(lái)更好的性能。C/C++and

CUDAcodeNVIDIACUDACompiler(NVCC).ptx

PTX(Virtual)ISA

codeDevice

Just-in-TimeCompilerDeviceAssembly(e.g,SASS)ARM)GPU公眾號(hào)·新智元資料來(lái)源:新智元,量子位公眾號(hào)

請(qǐng)務(wù)必閱讀報(bào)告附注圖

達(dá)PTX是專(zhuān)門(mén)為其GPU設(shè)計(jì)的中間指令集架構(gòu)HostAssembly(e.g,×86,Power,→.12

,90:.112

m,4;ov.bl7

_tpl:o.112_tpl:ov.l7Host

C/C++

CompilerHost

C/C++Code.c

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶(hù)所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶(hù)上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶(hù)上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶(hù)因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論