




版權(quán)說(shuō)明:本文檔由用戶(hù)提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
DeepSeek研究框架——計(jì)算機(jī)人工智能系列深度報(bào)告一
評(píng)級(jí):推薦(維持)56%40%24%9%-7%-23%2024/02/192024/04/192024/06/19-2024/08/192024/10/192024/12/19《計(jì)算機(jī)行業(yè)點(diǎn)評(píng)報(bào)告:DeepSeek攪動(dòng)了全球AI的“一池春水”(推薦)*計(jì)算機(jī)*劉熹》——2025-02-03《美國(guó)對(duì)華AI限制加劇,自主可控大勢(shì)所趨——AI算力
"賣(mài)水人"系列(4
)
(推薦)*計(jì)算機(jī)*劉熹》——2025-01-24《計(jì)算機(jī)行業(yè)事件點(diǎn)評(píng):我國(guó)中部最大智算中心投產(chǎn),國(guó)產(chǎn)算力景氣上行(推
薦)*計(jì)算機(jī)*劉熹》
-
—
2025
-
01
-
14
相對(duì)滬深300表現(xiàn)
請(qǐng)務(wù)必閱讀報(bào)告附注中的風(fēng)險(xiǎn)提示和免責(zé)聲明表現(xiàn)計(jì)算機(jī)
滬深3003M3.3%-4.1%1M30.1%
5.0%12M57.5%
16.5%—
計(jì)算機(jī)
—
300最近一年走勢(shì)相關(guān)報(bào)告滬深DeepSeek引領(lǐng)全球AI創(chuàng)新,
一定程度上也影響了全球AI格局,并提振了國(guó)內(nèi)AI產(chǎn)業(yè)信心。我們看好由DepSeek
帶來(lái)的AI
產(chǎn)業(yè)、尤其是國(guó)內(nèi)AI產(chǎn)業(yè)的發(fā)展機(jī)遇,包括AI應(yīng)用、端側(cè)AI、算力等三個(gè)方向?!?/p>
DeepSeek(深度求索)專(zhuān)注大模型技術(shù),
V3和R1模型驚艷海內(nèi)外DeepSeek(深度求索)成立于2023年7月,由量化資管公司幻方量化創(chuàng)立,
DeepSeek專(zhuān)注于開(kāi)發(fā)先進(jìn)的大語(yǔ)言模型(LLM)
和相關(guān)技術(shù)。2024年1月5日,發(fā)布第一個(gè)大模型DeepSseek
LLM:12月26日,上線DeepSeek-V3并同步開(kāi)源,DepSeek-V3
采用FP8訓(xùn)練,性能對(duì)其世
界頂
尖的閉源模型GPT-40以及Claude-3.5-Sonnet
。2025年1月20日,發(fā)布DeepSeek-R1,DeepSeek-R1在數(shù)學(xué)、代碼、自然語(yǔ)言推理等
任務(wù)上,性能比肩OpenAI
ol正式版。DeepSeek-RI
推出后廣受關(guān)注,據(jù)Appfigures
、Sensor
Tower報(bào)告,1月26日以來(lái),深度求索
(DeepSeek)
發(fā)布的DeepSeekAI智能助手爆火,在全球140個(gè)市場(chǎng)的應(yīng)用商店下載榜上排名第一。DeepSeek
V3和R1模型基于Transformer
架構(gòu),采用了MLA和DeepSeek
MoE兩大核心技術(shù),引入了多令牌預(yù)測(cè)、FP8混合精度訓(xùn)練等創(chuàng)新技術(shù),顯著提升了模型的訓(xùn)練效率和推理性能。DeepSeek創(chuàng)始人梁文鋒表示“V2
模型沒(méi)有海外回來(lái)的人,都是本土的”。DeepSeek代表中國(guó)本土AI大模型,也代表開(kāi)源AI走在了全球AI市場(chǎng)的前列?!?/p>
DeepSeek對(duì)全球AI行業(yè)影響頗深:激發(fā)創(chuàng)新、提振國(guó)產(chǎn)、推廣開(kāi)源1)DeepSeek
成為了全球AI的
一
條“能魚(yú)”。
DeepSeek發(fā)布或?qū)е氯駻I格局變化,中美AI形勢(shì)生變,全球AI被“鯰魚(yú)”激活。預(yù)計(jì)
美系A(chǔ)I會(huì)不斷反應(yīng),全球AT模型迭代和發(fā)布頻率將提速,投入繼續(xù)加大。自1月20日DeepSeek-R1發(fā)布以來(lái),
OpenAI連續(xù)發(fā)布了Agentoperator,03mini
、Deep
Research等模型,
OpenAI
CEO表示GPT-5將是超級(jí)混合模型,計(jì)劃把GPT和o系列模型整合在一起。2)DeepSeek
驅(qū)動(dòng)國(guó)產(chǎn)AI估值重塑。
我們認(rèn)為:長(zhǎng)期以來(lái),算力和技術(shù)是制約國(guó)內(nèi)AI估值的主要因素,
DeepSeek在國(guó)內(nèi)AI芯片受限的環(huán)境里,通過(guò)本土AI團(tuán)隊(duì),探索出一條“算法創(chuàng)新+有限算力”的新路徑,較大地提振了國(guó)內(nèi)AI產(chǎn)業(yè)信心。DeepSeek-R1的推出或同時(shí)打破了抑制
國(guó)產(chǎn)AI產(chǎn)業(yè)的技術(shù)和算力這兩項(xiàng)天花板,將驅(qū)動(dòng)國(guó)產(chǎn)AI軟件硬件迎估值重塑。3)DeepSeek
是開(kāi)源AI的
“ChatGPT
時(shí)
刻
”
。OpenAI
CEO首次承認(rèn)0penAI的閉源策略“站在了歷史錯(cuò)誤的一邊”。
DeepSeek-R1
開(kāi)源將會(huì)吸引更多人參與到大模型研發(fā)中,并通過(guò)蒸餾等技術(shù)顯著提升推理AI
、小模型的性能,將大幅加速全球AI
創(chuàng)新,加速AI推理進(jìn)程,普惠AI、
AI平權(quán)將驅(qū)動(dòng)DeepSeek迅速推廣,近期全球CSP大廠密集上架DeepSeek能力也驗(yàn)證了這點(diǎn),我們預(yù)計(jì)Killer
APP的誕生或?qū)⑴R近。請(qǐng)務(wù)必閱讀報(bào)告附注中的風(fēng)險(xiǎn)提示和免責(zé)聲明1)AI應(yīng)用:
DeepSeek
的創(chuàng)新帶來(lái)成本極致優(yōu)化,帶來(lái)AI普
惠
、AI平權(quán),將加速AI應(yīng)用的創(chuàng)新,國(guó)內(nèi)AI應(yīng)用將受益于DeepSeek實(shí)現(xiàn)能力
顯著提升,應(yīng)用上游的模型API的價(jià)格下降也將驅(qū)動(dòng)應(yīng)用廠商的商業(yè)模式快速成熟。2)AI
端側(cè):
DeepSeek支持用戶(hù)進(jìn)行“模型蒸餾”,并通過(guò)DeepSeek-R1的輸出,蒸餾了6個(gè)小模型開(kāi)源給社區(qū)。端側(cè)AI能力過(guò)去受限于
端側(cè)AI計(jì)算影響,DeepSeek將顯著提升端側(cè)小模型的能力,進(jìn)而提升AI終端能力。3)算力:
杰文斯悖論指出當(dāng)我們希望通過(guò)技術(shù)進(jìn)步來(lái)提高資源效率時(shí),可能會(huì)導(dǎo)致資源的消耗增加。我們預(yù)計(jì)DeepSeek帶來(lái)的大模型推理
成本的優(yōu)化,將加速AI的普及推廣,和下游應(yīng)用的商業(yè)模式構(gòu)建,并推動(dòng)AI算力進(jìn)入由終端用戶(hù)需求驅(qū)動(dòng)的長(zhǎng)增長(zhǎng)周期。◆
投資建議DeepSeek探索出一條“算法創(chuàng)新+有限算力”的新路徑,開(kāi)源AI時(shí)代或已至,國(guó)產(chǎn)AI估值或?qū)⒅厮埽S持計(jì)算機(jī)行業(yè)“推薦”評(píng)級(jí)。◆
相關(guān)公司1)AI
應(yīng)用:①2G:
中科曙光、科大訊飛、中國(guó)軟件、太極股份、深桑達(dá)A
、中科星圖、國(guó)投智能、云從科技、能科科技、拓爾思、航天信
息、稅友股份、金財(cái)互聯(lián)、浪潮軟件、數(shù)字政通;
②2B:
金蝶國(guó)際、衛(wèi)寧健康、石基信息、明源云、新致軟件、用友網(wǎng)絡(luò)、廣聯(lián)達(dá)、萊斯信息、
四川九
洲、泛微網(wǎng)絡(luò)、致遠(yuǎn)互聯(lián)、新開(kāi)普、東方財(cái)富、同花順、恒生電子、宇信科技、當(dāng)虹科技、萬(wàn)達(dá)信息、創(chuàng)業(yè)惠康、潤(rùn)和軟件、彩訊股
份、第四范式、
焦點(diǎn)科技;③2C:金山辦公、三六零、萬(wàn)興科技、福昕軟件、合合信息、螢石網(wǎng)絡(luò)。2)算力:①云:
海光信息、寒武紀(jì)、浪潮信息、華勤技術(shù)、云賽智聯(lián)、光環(huán)新網(wǎng)、中興通訊、寶信軟件、紫光股份、中國(guó)電信、優(yōu)刻得-W
、青云科技
-U
、首都在線、并行科技、潤(rùn)澤科技、中國(guó)軟件國(guó)際、神州數(shù)碼、深信服、新炬網(wǎng)絡(luò)、天璣科技;
②邊:
網(wǎng)宿科技、順網(wǎng)科技、云天
勵(lì)飛
;③端:
軟通動(dòng)力、中科創(chuàng)達(dá)、樂(lè)鑫科技、移遠(yuǎn)通信?!麸L(fēng)險(xiǎn)提示:大模型產(chǎn)業(yè)發(fā)展不及預(yù)期、中美博弈加劇、宏觀經(jīng)濟(jì)影響下游需求、市場(chǎng)競(jìng)爭(zhēng)加劇、相關(guān)標(biāo)的公司業(yè)績(jī)不及預(yù)期等、國(guó)內(nèi)外公司并
請(qǐng)務(wù)必閱讀報(bào)告附注中的風(fēng)險(xiǎn)提示和免責(zé)聲明◆
DeepSeek推動(dòng)AGI時(shí)代到來(lái),關(guān)注AI應(yīng)用、端側(cè)AI、
算力三大主線一
、DeepSeek背景介紹1.1
、DeepSeek
股權(quán)結(jié)構(gòu)及創(chuàng)始人背景1.2
、DeepSeek
母公司幻方量化,早期確立AI戰(zhàn)略為后續(xù)出圈埋下伏筆1.3
、DeepSeek
重視年輕團(tuán)隊(duì)且兼具深厚技術(shù)底蘊(yùn),薪酬對(duì)標(biāo)字節(jié)跳動(dòng)研發(fā)崗
1.4
、DeepSeek產(chǎn)品家族全梳理1.5
、DeepSeek
日活遠(yuǎn)超同期ChatGPT,下載量霸榜全球140個(gè)市場(chǎng)移動(dòng)應(yīng)用榜首
1.6
、DeepSeek
獲得海內(nèi)外市場(chǎng)認(rèn)可,中國(guó)AI產(chǎn)業(yè)首次步入引領(lǐng)位置二
、DeepSeek模型家族技術(shù)詳解2.1
、DeepSeek模型家族技術(shù)創(chuàng)新框架總攬2.2、DeepSeek
v3:
性能對(duì)齊海外領(lǐng)軍閉源模型,
DeepSeek2024
年巔峰之作2.3
、DeepSeek
RIZero核心創(chuàng)新點(diǎn)——RL
(強(qiáng)化學(xué)習(xí))替代SFT
(有監(jiān)督微調(diào)
)2.4
、DeepSeek
RI:
高質(zhì)量冷啟動(dòng)數(shù)據(jù)+多階段訓(xùn)練,將強(qiáng)推理能力泛化2.5
、開(kāi)源大模型:打破OpenAI
等閉源模型生態(tài),提升世界對(duì)中國(guó)AI大模型認(rèn)知三
、DeepSeek
對(duì)AI應(yīng)用的影響?3.1
、DeepSeek
打開(kāi)低成本推理模型邊界,加速AI應(yīng)用布局進(jìn)程
3.2
、DeepSeek
RI蒸餾賦予小模型高性能,端側(cè)AI迎來(lái)奇點(diǎn)時(shí)刻四
、DeepSeek對(duì)算力影響?4.1
、DeepSeekV3
訓(xùn)練中GPU
成本558萬(wàn)美元,對(duì)比海外成本降
低4.2
、DeepSeek
或有約5萬(wàn)Hopper
GPU,
訓(xùn)練總成本或較高4.3
、推理化:推理算力需求占比提升,
GenAI云廠商有望受益五
、盈利預(yù)測(cè)及風(fēng)險(xiǎn)提示請(qǐng)務(wù)必閱讀報(bào)告附注中的風(fēng)險(xiǎn)提示和免責(zé)聲明國(guó)海證券SEALANDSECURITEs一、DeepSeek背景介紹圖
:DeepSeek
股
權(quán)
結(jié)
構(gòu)交譯
李歡
鄭達(dá)
四 n
vdeepseek鄭達(dá)n應(yīng)油
棵詢(xún)合快企化(有合飲)波程業(yè)咨企業(yè)(陽(yáng)合快)下納州
屬本求究嗽
工公智司
DeepSeek寧液程采企業(yè)首理咨南合飲企業(yè)(有銀白快)●DeepSeek是一家于2023年成立的中國(guó)初創(chuàng)企業(yè),創(chuàng)始人是AI驅(qū)動(dòng)量化對(duì)沖基金幻方量化的掌門(mén)人梁文鋒。從股權(quán)結(jié)構(gòu)圖顯示,DeepSeek由
四名自然人通過(guò)五層控股掌握100%股份(其中梁文鋒間接持股比例83.29%,直接持股1%,累計(jì)84.2945%)。創(chuàng)始人梁文鋒出生于廣東湛江,浙江大學(xué)畢業(yè),擁有信息與電子工程學(xué)系本科和碩士學(xué)位,2008年起開(kāi)始帶領(lǐng)團(tuán)隊(duì)使用機(jī)器學(xué)習(xí)等技術(shù)探索全
自動(dòng)量化交易,2015年幻方量化正式成立。2021年,幻方量化的資產(chǎn)管理規(guī)模突破千億大關(guān),躋身國(guó)內(nèi)量化私募領(lǐng)域的
“四大天王”之列。2023年梁文鋒宣布正式進(jìn)軍通用人工智能領(lǐng)域,創(chuàng)辦DeepSeek,
專(zhuān)注于做真正人類(lèi)級(jí)別的人工智能。資料來(lái)源:商界觀察
請(qǐng)務(wù)必閱讀報(bào)北京深度末素人工智前基礎(chǔ)技術(shù)研究有限公司圖:幻方創(chuàng)始人梁文峰(圖右)寧油程
部面白公油程
務(wù)
咨
有
公
的伙
文軍文峰小事次文文陳寧四α母
公司幻方量化確立以AI為
發(fā)
展
方
向
。2016年,幻方量化第
一
個(gè)由深度學(xué)習(xí)算法模型生成的股票倉(cāng)位上線實(shí)盤(pán)交易,使用GPU進(jìn)
行
計(jì)
算
。
隨
后不久,該公司明確宣布AI為主要發(fā)展方向。量化投資全面AI化
驅(qū)
動(dòng)
圍
卡
需
求
,
為
后
續(xù)
蛻
變
埋
下
伏
筆
。復(fù)雜的模型計(jì)算需求使得單機(jī)訓(xùn)練遭遇算力瓶頸,訓(xùn)練需求和有限的計(jì)算資源產(chǎn)生矛盾
,幻方需要解決算力受限難題。于是幻方在2019年成立了
一
家AI基
礎(chǔ)
研
究
公
司
,
并
推
出自
研
的
“
螢
火
一
號(hào)
”AI
集群,搭載500塊顯卡。2021年
,
幻方又斥資10億元建設(shè)
“
螢
火
二
號(hào)”
,
為AI
研究提供算力支持?;梅皆跇?gòu)建A算力過(guò)程中的
“
囤
卡
”
動(dòng)
作
為
它
贏
得
了
市
場(chǎng)
機(jī)
會(huì)
。
作
為
國(guó)
內(nèi)早期的英偉達(dá)芯片大買(mǎi)家之
一
,2022年其用于科研支持的閑時(shí)算力高達(dá)1533萬(wàn)GPU時(shí),大大超越了后來(lái)很多大模型公司。圖:幻方量化發(fā)展歷程幻
方AI注冊(cè)成立,致力
于Al算法與基礎(chǔ)應(yīng)用研究。螢火一號(hào)A1集群,搭載500塊顯卡,使用200Gbps高速網(wǎng)絡(luò)互聯(lián)。2008-2014
20152016
20172018
2019
2020
2021
2022董火二號(hào)集群滿(mǎn)載運(yùn)
行,平均占用率達(dá)
96%+。全年運(yùn)行任
務(wù)135萬(wàn)個(gè),共計(jì)
5674萬(wàn)GPU
時(shí)。用于
科研支持的閑時(shí)算力
占
比
2
7
%
。AI
拓展了我們的能力邊界
激發(fā)了我們的想象力和創(chuàng)造力nA方化A資料來(lái)源:公司官網(wǎng),國(guó)海證券研究所
請(qǐng)務(wù)必閱讀報(bào)告附注
圖
:
幻
方
官
網(wǎng)
首
頁(yè)
標(biāo)
語(yǔ)
,
以
A
I
為
核
心
發(fā)
展
方
向
首個(gè)由深度學(xué)習(xí)算法
模型生成的股票倉(cāng)位
上線實(shí)盤(pán)交易,使用
GPU
進(jìn)行計(jì)算。董火一號(hào)總投資近2
億元,搭載1100加速
卡,并正式投用。首次獲得私募金牛獎(jiǎng);
確立以Al
為公司的
主要發(fā)展方向幾乎所有的量化策路
都已經(jīng)采用AI
模型
計(jì)
算
。創(chuàng)立幻方量化,依靠數(shù)學(xué)與人工智能進(jìn)行量化投資?;?/p>
方AI投入10億建設(shè)
螢火二號(hào);創(chuàng)始團(tuán)隊(duì)從零開(kāi)始探素全自動(dòng)化交屈?;梅紸
研學(xué)
研以分時(shí)調(diào)寶共享
力,大瓣度3Ws門(mén)圖:DeepSeek公開(kāi)招聘職位信息匯總職位名稱(chēng)面向群體申請(qǐng)要求薪酬水平深度學(xué)習(xí)研究員校招&實(shí)習(xí)熟練掌握至少兩種編程語(yǔ)言;在國(guó)際頂會(huì)或期刊發(fā)表相關(guān)論文;知名比賽成績(jī)8-11萬(wàn)元月,一年14薪資深ui設(shè)計(jì)師經(jīng)驗(yàn)不限,本科優(yōu)秀的藝術(shù)類(lèi)教育背景;有互聯(lián)網(wǎng)或科技公司UI設(shè)計(jì)工作經(jīng)驗(yàn);4-7萬(wàn)元月,一年14薪深度學(xué)習(xí)研發(fā)工程師在校/應(yīng)屆,本科較強(qiáng)的工程能力;工程能力;知名比賽成績(jī)4-7萬(wàn)元月,一年14薪數(shù)據(jù)架構(gòu)工程師在校應(yīng)屆,本科有搜索、推薦、廣告等業(yè)務(wù)數(shù)據(jù)的處理經(jīng)驗(yàn);有規(guī)模中文網(wǎng)頁(yè)數(shù)據(jù)收集和清洗經(jīng)驗(yàn)
者優(yōu)先4.5-6.5萬(wàn)元月,一年14薪全棧開(kāi)發(fā)工程師在校/應(yīng)屆,本科對(duì)主流的開(kāi)源軟件有深入的了解,并且對(duì)此有做出貢獻(xiàn)2.5-5萬(wàn)元/月,一年14薪客戶(hù)端研發(fā)工程師在校/應(yīng)屆,本科計(jì)算機(jī)或相關(guān)專(zhuān)業(yè)優(yōu)先;有獨(dú)立開(kāi)發(fā)App經(jīng)驗(yàn),有優(yōu)秀開(kāi)源項(xiàng)目者優(yōu)先。2-4萬(wàn)元月,一年14薪深度學(xué)習(xí)實(shí)習(xí)生計(jì)算機(jī)及相關(guān)專(zhuān)業(yè)研究生,特別優(yōu)秀的本科生;具有扎實(shí)的編程功底;有頂級(jí)Al會(huì)議論文發(fā)表經(jīng)驗(yàn)或開(kāi)源項(xiàng)目貢獻(xiàn)經(jīng)驗(yàn)者優(yōu)先500元/天,4天一周,6個(gè)月;非北京地
區(qū)學(xué)生來(lái)京實(shí)習(xí)有租房補(bǔ)助3000元/月團(tuán)隊(duì)以年輕化為主,具備深厚技術(shù)底蘊(yùn)。創(chuàng)始人梁文鋒曾在36氮的采訪中,給出了DeepSeek的員工畫(huà)像:
“都是一些Top高校的應(yīng)屆畢業(yè)生、沒(méi)畢業(yè)的博四、博五實(shí)習(xí)生,還有一些畢業(yè)才幾年的年輕人?!弊?023年5月誕生以來(lái),
DeepSeek始終維持約150人的精英團(tuán)隊(duì),推行無(wú)職級(jí)
界限、高度扁平化的文化,以此激發(fā)研究靈感,高效調(diào)配資源。早在2022年,幻方量化便著手為DeepSeek籌建AI團(tuán)隊(duì),至2023年5月DeepSeek
正式成立時(shí),團(tuán)隊(duì)已匯聚近百名卓越工程師。如今,即便不計(jì)杭州的基礎(chǔ)設(shè)施團(tuán)隊(duì),北京團(tuán)隊(duì)亦擁有百名工程師。技術(shù)報(bào)告的致謝
欄揭示,參與
DeepSeek
V3研發(fā)的工程師陣容,已壯大至139人。團(tuán)隊(duì)薪酬水平對(duì)標(biāo)字節(jié)跳動(dòng)研發(fā)崗位,且不限制人才的算力使用。據(jù)36氮資料顯示,
DeepSeek薪酬水平對(duì)標(biāo)的字節(jié)研發(fā),“根據(jù)人才能拿到的
字
節(jié)offer,再往上加價(jià)”;同時(shí)只要梁文鋒判斷技術(shù)提案有潛力,
DeepSeek給人才的算力,
“不限”。資料米源:華爾街見(jiàn)聞,國(guó)海證券研究所
請(qǐng)務(wù)必閱讀報(bào)告附注中模型類(lèi)別
日
期
名稱(chēng)
內(nèi)容
對(duì)標(biāo)2023年11月2日DeepSeekCoder
模型包括1B,7B,33B多種尺寸,開(kāi)源內(nèi)容包含Base模型和指令調(diào)優(yōu)模型。Meta的CodeUama是業(yè)內(nèi)標(biāo)桿,但DeepSeekCoder展示出多方位領(lǐng)先的架勢(shì)。2024年6月17日DeepSeekCoderV2代碼大模型,提供了236B和16B兩種版本,DeepSeekCoderV2的API服務(wù)也同步上線,價(jià)格依舊是「1元百萬(wàn)輸入,2元/百萬(wàn)輸出」能力超越了當(dāng)時(shí)最先進(jìn)的閉源模型GPT-4-Turbo,2023年11月29日
DeepSeek
LLM67B
型訓(xùn)練過(guò)程中產(chǎn)生的9個(gè)checkpoints也一并公開(kāi),
現(xiàn)更佳。2024年3月11日
DeepSeek-VL多模態(tài)AI技術(shù)上的初步嘗試,尺寸為7B與1.3B,模型和技術(shù)論文同步開(kāi)源.LLM2024年5月DeepSeek-V2
,
降,
p
e
-了1
A(多頭潛在注意力機(jī)
對(duì)標(biāo)GP
T-
4
-Turbo,而API價(jià)格只有后者的1/70DeepSeek-V2.5融合Chat模型聚焦通用對(duì)話能力,Code模型聚需代碼處理能力合二為一,更好的對(duì)齊2024年9月6日
模型
了人類(lèi)偏好,2024年12月10日DeepSeek-V2.5-1210DeepSeekV2系列收官之作,全面提升了包括數(shù)學(xué)、代碼、寫(xiě)作、角色扮演等在內(nèi)的多方能力.2024年12月26日DeepSeek-V3
開(kāi)源發(fā)布,訓(xùn)練成本估算只有550萬(wàn)美金性能上全面對(duì)標(biāo)海外領(lǐng)軍閉源模型,生成速度也大幅提升。2024年2月5日DeepSeakMat
數(shù)學(xué)推理模型,僅有7B參數(shù)數(shù)學(xué)推理能力上直逼GPT-42024年B月16日推理模型DeepSeek-Prover-V1.5數(shù)學(xué)定理證明模型
在高中和大學(xué)數(shù)學(xué)定理證明測(cè)試中均超越了多款知名的開(kāi)源模型.2024年11月20日
DeepSeek-R1-Lite
推理模型,為之后V3的后訓(xùn)練,提供了足量的合成數(shù)據(jù)。嫦美01-preview2025年1月20日DeepSeek-A1發(fā)布并開(kāi)源,開(kāi)放了思維鏈輸出功能,將模型開(kāi)源License統(tǒng)一變更為MIT許可證,并明確用戶(hù)協(xié)議允許“模型蒸餾”在性能上全面對(duì)齊OpenAIo1正式版文生3D模型,可從一句話生成高質(zhì)量的三維模型,實(shí)現(xiàn)了AIGC從2D平面到2023年12月18日
DraamCraft3D
3D立體空間的跨越。多模態(tài)模
型2024年12月13日DeepSeek-VL2多模態(tài)大模型,采用了MoE架構(gòu),視覺(jué)能力得到了顯著提升,有3B、16B和27B三種尺寸,在各項(xiàng)指標(biāo)上極具優(yōu)勢(shì)。2025年1月27日DoepSoek
Janus-Pro開(kāi)源發(fā)布的多模態(tài)模型.開(kāi)源了國(guó)內(nèi)首個(gè)MoE(混合專(zhuān)家架構(gòu))大模型DeepSeekMoE:全新架構(gòu),支持架構(gòu)開(kāi)源
2024年1月11日
DeepSeakMoE
中英,免費(fèi)商用,在2B.16B、145B等多個(gè)尺度上均領(lǐng)先
被普遍認(rèn)為是OpenAI
GPT-4性能突破的關(guān)鍵所在%L3M%用的
52
使AV統(tǒng)
M
He
k
-傳S低至De
e率布用發(fā)占源存開(kāi)顯的的型型模將模M
o
E
大)用制通資料來(lái)源:新浪人工智能,國(guó)海證券研究所
請(qǐng)務(wù)必閱讀報(bào)告附注中首教通用大語(yǔ)言模型,且同步開(kāi)源了7B和67B兩種不同規(guī)模的模型,甚至將模Meta的同級(jí)別模型LaMA270B,并在近20個(gè)中英文的公開(kāi)評(píng)測(cè)榜單上表SEALAND
SECURITES圖:DeepSeek
-
V3在英文、代碼、數(shù)學(xué)領(lǐng)域表現(xiàn)優(yōu)異測(cè)試集DeepSeek-
V3Qwen2.5
72B-InstLlama3.1405B-4nst.Claude-3.5-
Sonnet-1022GPT-40
0513模型架構(gòu)激活參數(shù)總參數(shù)MoE37B671BDense72B72BDense
405B
405B。MMLU(EM)88.585.388.688.387.2MMLU-Redux(EM)89.185.686.288.988MMLU-Pro(EM)75.971.673.37872.6DROP(3-shot
F1)91.676.788.788.383.7英文
IF-Eval(Prompt
Striet86.184.18686.584.3GPQA-Diamond
(Pas@1)59.14951.16549.9SimpleQACorree024.99.117.128.438.2FRAMES(Aac)73.369.87072.580.5LongBenchv2(Ac)48.739.436.14148.1HumanEval-Mul(Pa@1)82.677.377.281.780.5LiveCodeBenchoPan@1-cor)40.531.128.436.333.4LiveCodeBench(Pas@D37.628.730.132.834.2代碼
Codeforces
Peroentike)51.624.825.320.323.6SWEVerified
(Resoked4223.824.550.838.8Aider-Edit
(AcJ79.765.463.984.272.9Aider-Polyglot(Ace)49.67.65.845.316AIME
2024(Pas@1)39.223.323.3169.3數(shù)學(xué)
MATH-
500(EM90.28073.878.374.6CNMO
2024(Pas@1)43.215.96.813.110.8CLUEWSC
EM90.991.484.785.487.9中文C
-
E
val(EM86.586.161.576.776C-SimpleQA
Correc)64.148.450.451.359.3DeepSeek-V3
為自研
MoE
模型,671B
參數(shù),激活37B,
在14.8Ttoken
上進(jìn)行了預(yù)訓(xùn)練。
V3多項(xiàng)評(píng)測(cè)成績(jī)超越了
Qwen2.5-
72B
和Llama-3.1-405B
等其他開(kāi)源模型,并在性能上和世界頂
尖的閉源模型
GPT-4o以及
Claude-3.5-Sonnet
不分伯仲?!蛟诰唧w的測(cè)試集上,DeepSeek-V3在知識(shí)類(lèi)任務(wù)上接近當(dāng)前表
現(xiàn)最好的模型Claude-3.5-Sonnet-1022;長(zhǎng)文本/代碼/數(shù)學(xué)/中
文能力上均處于世界一流模型位置。資料來(lái)源:DeepSeek官方公眾號(hào)
請(qǐng)務(wù)必閱讀報(bào)告附注DeepSeek-R1性能比較0penAI-o1
。
DeepSeek-R1在后訓(xùn)練階段大規(guī)模使用了強(qiáng)化學(xué)習(xí)技術(shù),在僅有極少標(biāo)注數(shù)據(jù)的情況下,極大提升
了模型推理能力。在數(shù)學(xué)、代碼、自然語(yǔ)言推理等任務(wù)上,性能比肩OpenAIo1
正
式
版
。DeepSeek
R1同步登錄DepSeek
官網(wǎng)或官方App
·
網(wǎng)頁(yè)或者app端打開(kāi)“深度思考”模式,即可調(diào)用最新版DeepSeek-R1完成各類(lèi)推理任務(wù)。開(kāi)
放的許可證和用戶(hù)協(xié)議。DeepSeek
在發(fā)布并開(kāi)源R1的同時(shí),同步在協(xié)議授權(quán)層面也進(jìn)行了如下調(diào)整:
1
)
模
型
開(kāi)
源
License
統(tǒng)一使用
MIT,
開(kāi)源倉(cāng)庫(kù)(包括模型權(quán)重)統(tǒng)一采用標(biāo)準(zhǔn)化、寬松的
MT
License,完全開(kāi)源,不限制商用,無(wú)需申請(qǐng)。
2)產(chǎn)品協(xié)議明確可“模型蒸餾
”:
為了進(jìn)一步促進(jìn)技術(shù)的開(kāi)源和共享,支持用戶(hù)進(jìn)行“模型蒸餾”,明確允許用戶(hù)利用模型輸出、通過(guò)模型蒸餾等方式訓(xùn)練其他模型。圖:DeepSeek-R1發(fā)布即上線我是DeepSeek,
很高興見(jiàn)到你!rn..M資料來(lái)源:DeepSeek官方公眾號(hào)請(qǐng)務(wù)必閱讀報(bào)告附注口9bmpl存
命
中
)
/
2
元
(
緩
存
未
命
中
)
,
每
百
萬(wàn)
輸
出tokens8元。DeepSeek-R1百萬(wàn)tokens輸出價(jià)格約為01的1/27。DeepSeek-R1API服務(wù)定價(jià)
為每
百
萬(wàn)
輸
入
tokens中
)
,
每
百
萬(wàn)
輸
出
tokens16元。
對(duì)
比OpenAI-01
每百萬(wàn)輸入tokens為5
5元
(
緩
存
命
中
)
,
百
萬(wàn)tokensDeepSeek
系列模型均極具定價(jià)優(yōu)勢(shì)。DeepSeekV3模
型
定
價(jià):
隨著
性
能
更
強(qiáng)
、
速
度
更
快
的
DeepSsek-V3更新上
線
,模
型API
服務(wù)
定價(jià)
也將調(diào)整為每
百萬(wàn)輸入tokens資
料
來(lái)
源:DeepSeek官方公眾號(hào)
請(qǐng)務(wù)必閱讀報(bào)告附注1元(緩
存
命中)/
4元(緩
輸出
為
4
3
8
元
。0.5元
(
緩存
未
命MMLU
Rnhu
ZEl得分vS
輸入AFI價(jià)格(W/IMTlend圖:DeepSeek對(duì)話助手
圖:DeepSeek霸榜下載榜榜首全能AI對(duì)話助手由強(qiáng)大的DeepSeek-V3
驅(qū)動(dòng)Paid
Apps高效讀文件智能對(duì)話有問(wèn)必答1DeepSeek-AIAssistantInteligentAAsstant全網(wǎng)智能搖宋陽(yáng)度思超法前2ChatGPT*OpenThe
offcial
appby
OpenAIDeepSeek
遠(yuǎn)超同期ChatGPT,AI
格局或迎來(lái)重塑。2025年1月15日,
DeepSeek
官
方
App
正式發(fā)布,并在i0S/Android各大應(yīng)用市場(chǎng)全面上線。數(shù)據(jù)顯示,
DeepSeek
在上線18天內(nèi)達(dá)到日活躍用戶(hù)1500萬(wàn)的成就,相較之下,同期ChatGPT則耗費(fèi)244天才實(shí)現(xiàn)相同日活:2月4日,上
線20天后日活突破2000萬(wàn),創(chuàng)下又一個(gè)新紀(jì)錄。
DeepSeek
在發(fā)布的前18天內(nèi)累計(jì)下載量達(dá)到1600萬(wàn)次,峰值日下載量高達(dá)500萬(wàn)次,幾乎是
ChatGPT同期900萬(wàn)次下載量的兩倍。此外,
DeepSeek
在全球140個(gè)市場(chǎng)中的移動(dòng)應(yīng)用下載量排行榜上位居榜首。1.6001,4001,2001,200400600400200DA
(萬(wàn))葉0資料來(lái)源:公司官網(wǎng),蘋(píng)果APP
Store,Sensor
Tower
請(qǐng)務(wù)必閱讀報(bào)告附注中的風(fēng)險(xiǎn)提示和免責(zé)聲明圖
:DeepSeek成全球增速最快的AI應(yīng)用僅上線18天日活1500萬(wàn),增速是ChatGPT
的13倍2 1015Top
Charts
AlApps應(yīng)用(APP)
發(fā)布第
N天Deepseek
Da
(萬(wàn))
1493全球DAU日活躍用戶(hù)(萬(wàn))<AppsFreeAppsOpenChatCPT+15511DeepSeek驚艷海外市場(chǎng),中國(guó)AI產(chǎn)業(yè)首次步入引領(lǐng)位置。英偉達(dá)表示,DeepSeek為推理、數(shù)學(xué)和編碼等任務(wù)提供了
“最先進(jìn)的推理能力”
“高推理效率”以及
“領(lǐng)先的準(zhǔn)確性”。Meta首席AI科學(xué)家YannLecun表示
“
DeepSeek-R1
面世與其說(shuō)意味著中國(guó)公司在AI領(lǐng)域正在超越美國(guó)公司,不如說(shuō)意味著開(kāi)源大模型正在
超越閉源。"√O(píng)penAI首席執(zhí)行官SamAltman首次承認(rèn)OpenAI的閉源策略“站在了歷史錯(cuò)誤的一邊”。√微軟COE納德拉表示,公司的DeepSeekR1模型展現(xiàn)了"真正的創(chuàng)新力"?!虈?guó)內(nèi)黑神話制作人悟空馮冀表示,DeepSeek可能是個(gè)國(guó)運(yùn)級(jí)別的科技成果。圖
:Sam
Altman評(píng)價(jià)Deep
SeekSamAltman口osamedeepseek'srtisanimpressivemodel,particularlyaroundwhatthey'reable
to
deliver
for
theprice.wewillobviouslydelivermuch
better
modelsand
also
it's
legitinvigoratingtohaveanewcompetitor!wewillpullupsomereleases.DeepSeek
的R1是
一
個(gè)令人印象深刻的模型,尤其是圍繞他們能夠以?xún)r(jià)格交付的方式
。顯然,我們將提供更好的模型,并且擁有新的競(jìng)爭(zhēng)對(duì)手的合法性!我們將提
取
一
些版本。
綠
用DeepLxwhatmakesR1Impresslve?HowdoesRIcompareto
OpenAl?)Is
Oper10:29AM·Jan
28.2025·11.2M
ViewsO6.1k
t93K74K
口m為了講清楚這個(gè)成果有多驚人,我打個(gè)比方:如果有一個(gè)A大模型做到了以下的任何一條,都是超級(jí)了不起的突破—1、強(qiáng)大,比肩O1的推理能力,暫時(shí)沒(méi)有之一2、便宜。參數(shù)少,訓(xùn)練開(kāi)銷(xiāo)與使用費(fèi)用小了一個(gè)數(shù)量級(jí)3、開(kāi)源。任何人均可自行下載與部署,提供論文詳榴說(shuō)明訓(xùn)練步驟與竅門(mén),甚至
提供了可以運(yùn)行在手機(jī)上的mini模型。4.免費(fèi)。官方目前揮供的服務(wù)完全免費(fèi),任何人陋時(shí)隨地可用5、聯(lián)網(wǎng)。智時(shí)唯一支持聯(lián)網(wǎng)搜索的推理模型
(o1還不支持)6、本土。深度求索是一家很小規(guī)模的年輕中國(guó)公司,由沒(méi)有海外經(jīng)歷甚至沒(méi)有資
深從業(yè)經(jīng)驗(yàn)的本土團(tuán)隊(duì)開(kāi)發(fā)完成上面的六條。DeepSeek全部、同時(shí)做到了。實(shí)在太6了,6到不真實(shí)。如果這都不值得歡呼。還有什么值得歡呼?請(qǐng)務(wù)必閱讀報(bào)告附Y(jié)ocar-
馮
堿10小時(shí)
網(wǎng)面版年前還是認(rèn)真推下DeepSeek吧。v3
已經(jīng)用了一個(gè)月,但R1僅僅用了5天,不得不來(lái)發(fā)這條微博。先講一句居論:DeepSeek,
可能是個(gè)國(guó)運(yùn)級(jí)別的科技成果。圖
:
黑
悟
空
神
話
制
作
人
評(píng)
價(jià)DeepSeek資
料
來(lái)
源:澎湃新
聞、IT之
家x1√1)1月30
日,英偉達(dá)宣布DeepSeek-R1可作為
NVIDIA
NIM微服務(wù)預(yù)覽版使用?!?/p>
2)
1月,DeepSeek-R1模型被納入微軟平臺(tái)Azure
AI
Foundry
和Github
的模型目錄,開(kāi)發(fā)者將可以在Copilot
+PC上本地運(yùn)行DeepSeek-R1精簡(jiǎn)模型,以及在Windows上的
GPU
生態(tài)系統(tǒng)中運(yùn)行,此外還宣布將DeepSeek-R1部署在云服務(wù)Azure上?!?)AWS
(亞馬遜云科技)宣布,用戶(hù)可以在Amazon
Bedrock
和Amazon
SageMaker
AI兩大AI服務(wù)平臺(tái)上部署DeepSeek-R1
模型。4)Perplexity
宣布接入了DeepSeek
模型,將其與OpenAI
的GPT-o1和
Anthropic
的Claude-3.5并列作為高性能選項(xiàng)?!?)華為:已上線基于其云服務(wù)的DeepSeek-R1相關(guān)服務(wù);√6
)
騰
訊
:DeepSeek-R1大模型可一鍵部署至騰訊云
‘
HAI'上,開(kāi)發(fā)者僅需3分鐘就能接入調(diào)用?!?
)
百
度
:DeepSeek-R1和DeepSeek-V3模型已在百度智能云千帆平臺(tái)上架;√
8)阿里:阿里云PAI
Model
Gallery支持云上一鍵部署DeepSeek-R1和DeepSeek-V3模型。圖:微軟宜布接入DeepSeekMicrosoft
AzureAzureDeepSeekRIisnowliveonAzureAlFoundry
and
OGitHub.Experience
the
powerofadvancedreasoningon
a
trusted,scalable
Aplatformwithminimalinfrastructureinvestment.Learnmore:msft.it/6016UVP?a#AzureAIFoundryDeepSiokR1
現(xiàn)在在AzueAlFoundry和ToCItFuE
上紅,體驗(yàn)在一個(gè)可信,可廣的A平臺(tái)上進(jìn)行高級(jí)推理的強(qiáng)大功能,基礎(chǔ)設(shè)施投資最小。了解更多:mstt.it/6016UVPpa-
HAzureAlfoundryDpeModemcfewo/dp+1LIetkcostrel資料來(lái)源:英偉達(dá)、微軟
請(qǐng)務(wù)必閱讀報(bào)告微軟、英偉達(dá)、亞馬遜、英特爾、AMD等科技巨頭陸續(xù)上線DeepSeek模型服務(wù)。圖:英偉達(dá)上線DeepSeek二
、DeepSeek模型家族技術(shù)詳解DeepSeek
V3MoE架構(gòu)模型核心創(chuàng)新1
、
多頭潛在注意力
(MLA)使用低秩聯(lián)合壓縮方法減少注意力計(jì)算的緩存需求,同時(shí)保持多頭注意力的性能。2
、
混合專(zhuān)家架構(gòu)
(DeepSeekMoE)①
細(xì)粒度專(zhuān)家分割②
共享專(zhuān)家隔離③
輔助損失優(yōu)化的專(zhuān)家負(fù)載平衡策略。3
、
多Token
預(yù)測(cè)目標(biāo)
(MTP)擴(kuò)展模型在每個(gè)位置預(yù)測(cè)多個(gè)未來(lái)token
的能力,提高訓(xùn)練數(shù)據(jù)效率。4
、DualPipe
算法。5
、支持
FP8
混合精度訓(xùn)練。DeepSeek
R1以V3作為基礎(chǔ)模型,結(jié)合冷啟動(dòng)數(shù)據(jù)的多階段訓(xùn)練核心創(chuàng)新1
、
冷啟動(dòng)數(shù)據(jù)引入:
從零開(kāi)始的RL容易導(dǎo)致初期性能不穩(wěn)定,為此設(shè)計(jì)了
包含高質(zhì)量推理鏈的冷啟動(dòng)數(shù)據(jù)集。該
數(shù)據(jù)提高了模型的可讀性和訓(xùn)練初期的
穩(wěn)定性。2
、推理導(dǎo)向的強(qiáng)化學(xué)習(xí):通過(guò)多輪
RL
,
進(jìn)一步優(yōu)化模型在數(shù)學(xué)、編程等推理
密
集型任務(wù)中的表現(xiàn)。3
、監(jiān)督微調(diào)與拒絕采樣:
使用RL檢查
點(diǎn)生成額外的推理和非推理任務(wù)數(shù)據(jù),
進(jìn)一步微調(diào)模型。4、全場(chǎng)景強(qiáng)化學(xué)習(xí):
在最終階段結(jié)合
多種獎(jiǎng)勵(lì)信號(hào),提升模型的有用性和安
全性。DeepSeekR1Zero以V3作為基礎(chǔ)模型,純強(qiáng)化學(xué)習(xí)替代有
監(jiān)督微調(diào)核心創(chuàng)新1
、
強(qiáng)化學(xué)習(xí)算法:使
用
GRPO框
架,
通過(guò)群體獎(jiǎng)勵(lì)優(yōu)化策略模型。獎(jiǎng)勵(lì)設(shè)
計(jì)包括準(zhǔn)確性獎(jiǎng)勵(lì)和格式獎(jiǎng)勵(lì)。2、
自我演化與頓悟時(shí)刻:模型通過(guò)RL自動(dòng)學(xué)習(xí)復(fù)雜的推理行為,如自我
驗(yàn)證和反思。隨著訓(xùn)練過(guò)程的深入,
模型逐步提升了復(fù)雜任務(wù)的解答能力
,并在推理任務(wù)上顯現(xiàn)突破性的性能提升。資料來(lái)源:《DeepSeek-R1:IncentivizingReasoningCapubilityinLLMsviaReinforcementLearning》,
《DeepSeek-V3TechnicalRepont》,國(guó)海證券研究所請(qǐng)務(wù)必閱讀報(bào)告附注中的風(fēng)險(xiǎn)提示和免責(zé)聲明國(guó)海證券SEALANDSECURITEs立計(jì)算注意力,再將這些頭的輸出拼接線性變換,從而實(shí)現(xiàn)在不同表示子空間中同時(shí)捕獲和整合多種交互信息,提升模型的表
達(dá)能力。處理長(zhǎng)序列時(shí)MHA會(huì)面臨計(jì)算和內(nèi)存效率上的局限性,
MLA顯
著
降低計(jì)算及內(nèi)存占用問(wèn)題。
MLA的核心思想則是使用低秩分解(LoRA)來(lái)近似Key和Value的投影,以在推理期間減少鍵值緩存
(KV
cache),顯著降低計(jì)算和內(nèi)存占用的復(fù)雜度。Router
MH
Top-KInput
HiddenMulti-HeadLatent
Altention(MLA)caced
DuringtnferenceOutput
Hidden
u:
O000Muhi-Head
Attention(1:D
o00
[kS:k{D(o00concatmotel
cowatnar[
順
appy
S
高RoPE
AotDooolume?
Latente?OO00inputHidenh,OO00
0000apykMLA從傳統(tǒng)的MHA(多頭注意力機(jī)制)出發(fā),
MHA通過(guò)并行運(yùn)行多個(gè)Self-Attention層并綜合其結(jié)果,能夠同時(shí)捕捉輸入
序
列在不同子空間中的信息,從而增強(qiáng)模型的表達(dá)能力。
通圖:DeepSeek
V3的創(chuàng)新架構(gòu)DeepSeekMoETransformer
Block×L1
N.1
Feed-ForwardNetwork過(guò)將輸入的查詢(xún)、鍵和值矩陣分割成多個(gè)頭,并在每個(gè)頭中獨(dú)資料來(lái)源:《DeepSeek-V3Technical
Repor)請(qǐng)務(wù)必閱讀報(bào)告附注中RMSNormAttentionRMSNormRouted
ExpertSharedExpertOutput
Hidden
h3
482MoE
架構(gòu):傳統(tǒng)MoE架構(gòu)的主要優(yōu)勢(shì)是利用稀疏激活的性質(zhì),將大模型拆解成若干功能模塊,每次計(jì)算僅激活其中一小部分,而保持其余模塊不
被使用,從而大大降低了模型的計(jì)算與學(xué)習(xí)成本,能夠在同等計(jì)算量的情況下產(chǎn)生性能優(yōu)勢(shì)。C
DeepSeekMoE在傳統(tǒng)MoE架構(gòu)之上,更新了兩個(gè)主要的策略:1)細(xì)粒度專(zhuān)家分割:
在保持模型參數(shù)和計(jì)算成本一致的情況下,用更精細(xì)的顆粒度對(duì)專(zhuān)家進(jìn)行劃分,更精細(xì)的專(zhuān)家分割使得激活的專(zhuān)家能夠以更靈活和適應(yīng)性更強(qiáng)的方式進(jìn)行組合;
2)共享專(zhuān)家隔離:采用傳統(tǒng)路由策略時(shí),分配給不同專(zhuān)家的token
可能需要一些共同的知識(shí)或信息,因此多個(gè)專(zhuān)家可能會(huì)有參數(shù)冗余。專(zhuān)門(mén)的共享專(zhuān)家致力于捕獲和整合不同上下文中的共
同知識(shí),有助于構(gòu)建一個(gè)具有更多專(zhuān)業(yè)專(zhuān)家且參數(shù)更高效的模型。負(fù)載均衡:MoE架構(gòu)下容易產(chǎn)生每次都由少數(shù)幾個(gè)專(zhuān)家處理所有tokens
的情況,而其余大量專(zhuān)家處于閑置狀態(tài),此外,若不同專(zhuān)家分布在不同計(jì)
算設(shè)備上,同樣會(huì)造成計(jì)算資源浪費(fèi)以及模型能力局限:負(fù)載均衡則類(lèi)似一個(gè)公平的
“裁判”,鼓勵(lì)專(zhuān)家的選擇趨于均衡,避免出現(xiàn)上述專(zhuān)家
激活不均衡的現(xiàn)象。
DeepSeek
在專(zhuān)家級(jí)的負(fù)載均衡外,提出了設(shè)備級(jí)的負(fù)載均衡,確保了跨設(shè)備的負(fù)載均衡,大幅提升計(jì)算效率,緩解計(jì)算瓶
頸。圖
:MoE架構(gòu)理解框架
圖:DeepSeekMoE對(duì)比傳統(tǒng)MoE架構(gòu)RostedfaperShired
bpertOupatdde
Qo
Output
ddn
空2k-2irout
enPoaseweaow
FomeoneheNoting
cannkeme
happyEmerpent
Bricks資料來(lái)源:《DeepSeekMoE:TowardsUlimateExpertSpecializationinMixture-of-ExpertsLanguageModels》
量子位Whutistwy
aboutos?Instruetion
Configurable
Foundation
ModelPayehologist
ModelAccolerated
ModolFoneo
n
tW
saipeankonn
Shulesper;-arastne
tomrouCustomizod
Bricks例)Cowentional
Top-2Routing
→
(bj+Fine
graled
Expert
Segmentation→
向
+Shared
Expert
isolbtion(DeepSeekMot)"Hompe
anf
r.casse
rptywren
by
Wun
Shkespeare.maiy
soryto
heuthut
youhe
fooinghsIsinportartt請(qǐng)務(wù)必閱讀報(bào)告附注中的風(fēng)險(xiǎn)提示和免責(zé)聲明or
Mhk=4
◎0packagotora
Cao"adaphethreepneisResponsenhpu
ddeo
Q0lihhiy子位MMosM
公4
要一
函口2網(wǎng)
2NPeasenmed
helongdk
=3wThe
inugesousa[QOLteradureModeO2
3DutputRoher2w8411圖
:MTP架構(gòu)
t?tsLNain
Cross-Entropy
Lossat'To
uPleredi
tionJOutputHeadTransformer
BlockLinear
ProjectionTconcotenationRMSNorm
RMSNormEmbedding
Layert2
t
t
tse1ndeoePOMTP
顯著提升模型性能。訓(xùn)練過(guò)程:
傳統(tǒng)語(yǔ)言模型一次只預(yù)測(cè)一個(gè)token的范式。它就像是讓模型從”一字一句”地朗讀,進(jìn)化為“整句整段”地理解和生成。在訓(xùn)練過(guò)程
中,
模型不再局限于預(yù)測(cè)序列中的下一個(gè)token,而是學(xué)會(huì)同時(shí)預(yù)測(cè)多個(gè)連續(xù)位置的token
。這種并行預(yù)測(cè)機(jī)制不僅提高了訓(xùn)練效率,還讓模
型能夠更好地捕捉token
之間的依賴(lài)關(guān)系。在保持輸出質(zhì)量的同時(shí),模型整體性能提升2-3%。推理階段:
MTP的優(yōu)勢(shì)更加明顯。傳統(tǒng)模型生成文本時(shí)就像是在”一筆一劃”地寫(xiě)字,而MTP則像是”提前打草稿”,可以同時(shí)生成多個(gè)token。
通
過(guò)創(chuàng)新的推測(cè)解碼機(jī)制,模型能夠基于當(dāng)前上下文同時(shí)預(yù)測(cè)多個(gè)可能的token
序列。即使某些預(yù)測(cè)不準(zhǔn)確需要回退,整體效率仍然顯著提升。這種并行生成機(jī)制使推理速度提升了1.8倍,還顯著降低了計(jì)算開(kāi)銷(xiāo)。Transformer
Block×LEmbedding
Laverinput
Tokens
t?
t?
t?
tTransformer
BlockLinear
P
ationRMSNormRMSNormEmbedding
Layerts
ts
tnneoncotectifcro資料來(lái)源:《DeepSeek-V3Technical
Report》
請(qǐng)務(wù)必閱讀報(bào)告附注中的t?
eTP
Cross-Entropy(Mst'Token
l
tion)e2edroePMainModel(Net
Token
Prediction)Cross-Entropy
LossOutput
HeadTarget
TokensOutputClrrpHeadLossTo
FP8土
Wgrad∑FP32BF16MasterWeightTo
FP8FP32DeepSeek
V3采用了FP8混合精度訓(xùn)練框架。在訓(xùn)練過(guò)程中,大部分核心計(jì)算內(nèi)核均采用FP8精度實(shí)
現(xiàn)。例如,在前向傳播、激活反向傳播和權(quán)重反向傳播中,輸入數(shù)據(jù)均使用FP8格式,而輸出結(jié)果則
使用BF16或FP32格式。這種設(shè)計(jì)使得計(jì)算速度相較于原始BF16方法提升一倍。FP8格式是一種低精度的數(shù)據(jù)格式,具有較小的存儲(chǔ)空間和計(jì)算開(kāi)銷(xiāo)。通過(guò)使用
FP8
格
式
,DeepSeek能夠在有限的計(jì)算資源下,實(shí)現(xiàn)更高的計(jì)算效率。例如,在處理大規(guī)模數(shù)據(jù)集
時(shí),F(xiàn)P8格式可以顯著減少顯存的占用,從而提高模型的訓(xùn)練速度。圖:具有
FP8
數(shù)據(jù)格式的整體混合精度框架圖:多種精度數(shù)據(jù)類(lèi)型結(jié)構(gòu)sRange
aponenta8Precisionmntim23FP32FP16
BF16a08IIm10m7FP8FP8監(jiān)
4TIIm2m3Two
FP8
formats資料來(lái)源:《DeepSeek-V3
Technical
Report》,NVIDIA英偉達(dá)企業(yè)解決方案公眾號(hào)請(qǐng)務(wù)必閱讀報(bào)告附注中的風(fēng)險(xiǎn)提示和免Input
BF16Input
GradientWeightDgrad支國(guó)海證券SEALANDSECURITESOptimizer
StatesOutput
GradientWeight
Gradient②FP32②FP32ToOutputTo
FP32To
BF16To
BF16To
FP8FpropTo
FP8To
FP8BF16CDeepSeek-V3
采用了一種名為
DualPipe
的創(chuàng)新流水線并行策略。
與傳統(tǒng)的單向
流
水
線(
如
1F1B)不
同,DualPipe采用雙向流水線設(shè)計(jì),即同時(shí)從流水線的兩
端
饋
送
micro-batch
。這種設(shè)計(jì)可以顯著減少流水線氣泡
(Pipeline
Bubble),
提
高
GPU
利用率。DualPipe
還將每個(gè)
micro-batch
進(jìn)一步劃分為更小的
chunk,并對(duì)每個(gè)
chunk的計(jì)算和通信進(jìn)行精細(xì)的調(diào)度。隨后將一個(gè)chunk
劃分為attention
、all-to-all
dispatch
、MLP
和all-to-all
combine
等四個(gè)組成部分,并通過(guò)精細(xì)的調(diào)度策略,使得計(jì)算和通信可以高度重疊。MethodBubbleParameterAcivation1FIB(PP-1)(F+B)1xPPZB1P(PP-1)(F+B-2W)1xPPDualPipe(Ours)(嬰-1)(FkB+B-3W)2xPP+1資料來(lái)源:《DeepSeek-V3TechnicalReport》
請(qǐng)務(wù)必閱讀報(bào)告附注中的973456349586-
459687456978DualPipe
在流水線氣泡數(shù)量和激活內(nèi)存開(kāi)銷(xiāo)方面均優(yōu)于1F1B
和ZeroBubble
等現(xiàn)有方法ATTN(B)▲COMBINE(F△▲
Backward
chunkMLP(F)△DISPATCH(B)▲△
Forward
chunkDualPipe8個(gè)P
P
rank和
20
個(gè)
mi
c
r
o
-
b
a
t
c
h
的DualPipe調(diào)度
示例64
53
41
2
3200ForwardATTN(W)▲ATTN(F△PPCOMBINE(B)▲5403BackwardComputationCommunicationTimeDevloe0Devioe1
Devloe2
Devloe3
Devioe4
Devloe
Devloe6
Devloe7Time293847561827364576540123817263549283465圖:DualPipe性能優(yōu)越56798圖:DualPipe示意圖◎12forMLP(B)▲DISPATCH(F△0105Chunk拆分OvarlappedforwardABackward67768Backwdforwelghts67896789013MLP(W)▲609889B7
98567787932108989999Backward320210input655圖
:C++
與PTX
代碼的區(qū)別C++
PTX(Assembly)gleal_id
dt
prodxt(flaat*,float*b.fleat"c.int
sfe)(Conpute
te
detpoct
af
5.the
stere
theine"flaats
……far(int1;1
sfze;*([11·
[11:sur6,r1;_tpt:rt公眾號(hào)·量子位英偉達(dá)PTX(并行線程執(zhí)行)是專(zhuān)門(mén)為其GPU設(shè)計(jì)的中間指令集架構(gòu),位于高級(jí)GPU編程語(yǔ)言(如CUDAC/C++或其他語(yǔ)言前端
)和低級(jí)機(jī)器代碼(流處理匯編或SASS)之
間
。PTX是一種接近底層的指令集架構(gòu),將GPU呈現(xiàn)為數(shù)據(jù)并行計(jì)算設(shè)備,因此能
夠?qū)崿F(xiàn)寄存器分配、線程/線程束級(jí)別調(diào)整等細(xì)粒度優(yōu)化,這些是CUDAC/C++等語(yǔ)言無(wú)法實(shí)現(xiàn)的。DeepSeekV3采用定制的
PTX(并行線程執(zhí)行)指令并自動(dòng)調(diào)整通信塊大小,這大大減少了
L2緩存的使用和對(duì)其他SM
的
干擾。PTX
允許對(duì)
GPU
硬件進(jìn)行細(xì)粒度控制,這在特定場(chǎng)景下可以帶來(lái)更好的性能。C/C++and
CUDAcodeNVIDIACUDACompiler(NVCC).ptx
PTX(Virtual)ISA
codeDevice
Just-in-TimeCompilerDeviceAssembly(e.g,SASS)ARM)GPU公眾號(hào)·新智元資料來(lái)源:新智元,量子位公眾號(hào)
請(qǐng)務(wù)必閱讀報(bào)告附注圖
:
英
偉
達(dá)PTX是專(zhuān)門(mén)為其GPU設(shè)計(jì)的中間指令集架構(gòu)HostAssembly(e.g,×86,Power,→.12
,90:.112
m,4;ov.bl7
_tpl:o.112_tpl:ov.l7Host
C/C++
CompilerHost
C/C++Code.c
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶(hù)所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶(hù)上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶(hù)上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶(hù)因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- T-ZNZ 264.1-2024 重金屬中度污染農(nóng)田土壤修復(fù)和安全利用技術(shù)規(guī)范 第1部分:超積累東南景天與油葵輪作
- 二零二五年度車(chē)輛轉(zhuǎn)讓與二手車(chē)交易及金融服務(wù)協(xié)議
- 2025年度蛋糕店與體育賽事合作贊助協(xié)議
- 2025年度道路橋梁維修施工安全協(xié)議書(shū)
- 2025年度網(wǎng)絡(luò)安全產(chǎn)品銷(xiāo)售提成與技術(shù)服務(wù)合同
- 二零二五年度企業(yè)員工宿舍三方租賃協(xié)議
- 二零二五年度臨時(shí)廚房工作人員聘用合同
- 二零二五年度個(gè)體商戶(hù)勞動(dòng)合同(體育賽事組織與運(yùn)營(yíng))
- 中學(xué)生環(huán)保行動(dòng)策劃案解讀
- 監(jiān)控項(xiàng)目合作合同監(jiān)控施工合同
- 藥品GMP指南(第2版)
- 普通診所污水、污物、糞便處理方案及周邊環(huán)境情況說(shuō)明
- 成功人士的七個(gè)習(xí)慣課件
- 粵教版必修二《向心力》評(píng)課稿
- 中國(guó)建筑史PPT(東南大學(xué))完整全套教學(xué)課件
- 2022年水利監(jiān)理規(guī)劃
- 哈弗汽車(chē)品牌全案策略及營(yíng)銷(xiāo)推廣方案
- 04J008 擋土墻(重力式 衡重式 懸臂式)
- (學(xué)校教育論文)人工智能下的教育變革研究
- 2023年湖南工程職業(yè)技術(shù)學(xué)院?jiǎn)握泄P試職業(yè)技能考試題庫(kù)及答案解析
- 春天的氣息-教學(xué)設(shè)計(jì)教案
評(píng)論
0/150
提交評(píng)論