DeepSeek對國產(chǎn)芯片的影響報告_第1頁
DeepSeek對國產(chǎn)芯片的影響報告_第2頁
DeepSeek對國產(chǎn)芯片的影響報告_第3頁
DeepSeek對國產(chǎn)芯片的影響報告_第4頁
DeepSeek對國產(chǎn)芯片的影響報告_第5頁
已閱讀5頁,還剩14頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

DeepSeek對國產(chǎn)芯片的影響科智咨詢云網(wǎng)研究事業(yè)部蘇長飛2025年4月01

DeepSeek技術(shù)創(chuàng)新02DeepSeek對國產(chǎn)芯片的影響03國產(chǎn)芯片面臨的挑戰(zhàn)和發(fā)展機遇目錄2DeepSeek出現(xiàn)的影響DeepSeek的出現(xiàn)標(biāo)志著我國在生成式AI領(lǐng)域達到世界領(lǐng)先級別DeepSeek與ChatGPT移動端全球DAU對比情況全球APP增長1億用戶所需時間?2025科智咨詢.Allrightsreserved.數(shù)據(jù)來源:

公開信息3?

無輔助損失負載平衡的DeepSeekMoEDeepSeek-V3提出了一種無輔助損失的負載均衡策略(Loss-FreeBalancing),

通過動態(tài)調(diào)整每個專家的偏差來控制負載平衡,

而不引入干擾梯度。

減少因鼓勵負載均衡而對模型性能產(chǎn)生的負面影響。?Multi-Head

LatentAttention(MLA)MLA的核心在于通過低秩聯(lián)合壓縮來減少注意力鍵(keys)

和值(values)

在推理過程中的緩存,

從而提高推理效率數(shù)據(jù)來源:

DeepSeek論文

?2025科智咨詢.All

rights

reserved.DeepSeek主要技術(shù)創(chuàng)新點架構(gòu)創(chuàng)新4?多

to

ke

n

預(yù)

(M

u

lti-To

ke

nP

redictio

n

,

MT

P

)主流大模型token-by-token生成序列,

而每次token生成需要頻繁與訪存交互,

從而因為訪存效率形成訓(xùn)練或推理的瓶頸。MTP方法主要將單token

的生成,

轉(zhuǎn)

變成多token

的生成,

提升訓(xùn)練和推理的性能

DeepSeek主要對傳統(tǒng)MTP算法

進行了一定優(yōu)化,

順序預(yù)測額外token,

并在每個預(yù)測深度保持完整的因果鏈。?

FP8混合精度訓(xùn)練框架

在DeepSeek的訓(xùn)練過程中,

絕大多數(shù)核心計算核(即通用矩陣乘法GEMM操

作)

均以FP8精度實現(xiàn)

。這些GEMM操作接受FP8張量作為輸入,

并輸出BF16

或FP32格式的結(jié)果。

如下圖所示,

與線性算子(Linearoperator)

相關(guān)的三個

GEMM運算——前向傳播(Fprop)

激活梯度反向傳播(Dgrad)

和權(quán)重梯

度反向傳播(Wgrad)——都采用FP8精度執(zhí)行。

對以下模塊維持原有精度(如BF16或FP32):

嵌入模塊(embeddingmodule

)、

輸出頭(

output

head)

、

混合專家門控模塊(MoEgating

modules)

標(biāo)準(zhǔn)化算子(normalizationoperators)

以及注意力算子(

attentionoperators

)

。(盡管FP8格式具有計算效率優(yōu)勢,

但由于部分算子對低精度計算較為敏

感,

仍需保持更高計算精度)DeepSeek主要技術(shù)創(chuàng)新點軟硬協(xié)同工程優(yōu)化1/2數(shù)據(jù)來源:

DeepSeek論文

?2025科智咨詢.All

rights

reserved.5?

計算-通信重疊(DualPipe調(diào)度策略)DeepSeek-V3設(shè)計了DualPipe算法,

用于高效的流水線并行計算。

該算法通過重

疊計算和通信,

減少了流水線氣泡,

并在跨節(jié)點的專家并行訓(xùn)練中實現(xiàn)了近乎完

全的計算-通信重疊,

顯著提升了訓(xùn)練效率。?

通過PTX手動優(yōu)化跨芯片通信

英偉達

H800

芯片互聯(lián)帶寬相比

H100被閹割,為彌補這一缺陷,

DeepSeek

借助PTX手動優(yōu)化跨芯片通信,

保障數(shù)據(jù)傳輸效率。

PTX是CUDA編譯的中間代碼,

處于高級編程語言(如CUDAC/C++)

和底層

機器碼(SASS)

之間,

起到在CUDA和最終機器碼之間的橋梁作用。

借助PTX,

開發(fā)者能夠直接對GPU

的寄存器分配

、

線程調(diào)度等硬件級操作進行控制,

實現(xiàn)細粒度的性能優(yōu)化

。

在多GPU

協(xié)同訓(xùn)練場景中,

可通過

PTX

手動調(diào)整跨芯片通信效率,

提升整體訓(xùn)練效能。DeepSeek主要技術(shù)創(chuàng)新點軟硬協(xié)同工程優(yōu)化2/2數(shù)據(jù)來源:

DeepSeek論文

、公開信息

?2025科智咨詢.All

rights

reserved.601

DeepSeek技術(shù)創(chuàng)新02DeepSeek對國產(chǎn)芯片的影響03國產(chǎn)芯片面臨的挑戰(zhàn)和發(fā)展機遇目錄7刺激算力總需求持續(xù)增長?算力總需求持續(xù)增長:

根據(jù)科智咨詢發(fā)布的中國智能算力市場規(guī)

模研究報告,

2024-2028年,中國智能算力規(guī)模仍將保持近40%的

高速增長?推理側(cè)需求爆發(fā):

推理側(cè)需求占比將爆發(fā)式增長,

至2027年將從

目前的65%增長至72%/

2020-2028年中國AIDC算力供給規(guī)模

(PFLOPS)市場影響開源生態(tài)打開國產(chǎn)算力需求空間?“

杰文斯悖論”指出

,技術(shù)進步導(dǎo)致資源使用效率的

提高

,反而可能增加資源

的總體消費量。?

在圖中

,

成本下降

20%(從100美元到80美

元),旅行量增加了40%

(從10單位到14單位)65%

67%

70%

72%35%

33%

30%

28%數(shù)據(jù)來源:

科智咨詢

、公開信息

?2025科智咨詢.Allrightsreserved.41%

58%59%

42%/中國人工智能服務(wù)器工作負載及預(yù)測2022

2023

2024

2025

2026

2027

推理

訓(xùn)練杰文斯悖論8算法創(chuàng)新驅(qū)動算力效率提升:通過MLA

、

MOE

、

無模型輕量化降低算力門檻:

通過輕量化模型和知識蒸輔助損失負載均衡等技術(shù),

顯著優(yōu)化模型訓(xùn)練效率,餾技術(shù),

DeepSeek能夠在國產(chǎn)芯片上實現(xiàn)高性能推理。在同等模型效果的基礎(chǔ)上,

訓(xùn)練成本僅為海外領(lǐng)先例如,

天數(shù)

、

沐曦等眾多國產(chǎn)廠商在極短的時間內(nèi)完模型成本的1/10成模型適配DeepSeek-V3和R1模型不僅性能出

色,

訓(xùn)練成本也極低

。

V3模型僅用

2048塊H800

GPU訓(xùn)練2個月,消耗278

.8萬GPU小時

。

相比之下,Llama3-405B消耗了3080萬GPU小時,

是V3的11倍

。

按H800GPU每小

時2美金計算,

V3的訓(xùn)練成本僅為557.6萬美金,而同等性能的模型通常

需要0.6-1億美金

。

R1模型在V3基礎(chǔ)上,

通過引入大規(guī)模強化學(xué)習(xí)和多

階段訓(xùn)練,

進一步提升了推理能力,

成本可能更低。蒸餾DeepSeek模型訓(xùn)練僅需要557.6萬美元技術(shù)突破降低算力依賴,

激活國產(chǎn)芯片潛力DeepSeek

R1(671B)數(shù)據(jù)來源:

DeepSeek論文

、公開信息?2025科智咨詢.Allrightsreserved.9關(guān)鍵技術(shù)突破進度實現(xiàn)難度FP8混合精度運算目前200多家芯片企業(yè)中僅有的2-3家支持FP8精度的均為初創(chuàng)企業(yè)

,對于大型芯片企

業(yè)來說需要從算子、架構(gòu)等底層做出大量改動

,其決策、研發(fā)周期會很久,

需要等到下一代、下下一代的產(chǎn)品PTX指令集優(yōu)化大

使

產(chǎn)

PT

X

Mira指

(Me

mory

AccessOptimizationforRemoteAccess

,一種遠端內(nèi)存訪問優(yōu)化技術(shù)),這需要對芯片底層指令集有非常深刻的認知,對于大部分國產(chǎn)芯片廠商來說都是非常困難的PD分離一種在大規(guī)模推理場景中將Prefill階段和Decode階段分別在不同的資源上運行的技術(shù),目前國產(chǎn)廠商普遍支持效果一般MTP(Multi-TokenPrediction)多Token預(yù)測技術(shù)會快速在推理場景得到普及

,理論上性能可以提升50%以上,

多款國產(chǎn)芯片已經(jīng)可以支持該技術(shù)DualPipe算法是一種更細粒度的計算過程劃分,

實現(xiàn)難度相對小,但只適用于DeepSeek一種類型

的模型

,不適用于其他類型的大模型技術(shù)突破倒逼國產(chǎn)芯片在關(guān)鍵技術(shù)上進行突破與創(chuàng)新?2025科智咨詢.Allrightsreserved.數(shù)據(jù)來源:

科智咨詢10持續(xù)增長適配企業(yè)達到25家首批15家適配R1發(fā)布?DeepSeek采用寬松的MIT協(xié)議和強可復(fù)現(xiàn)性,

得到廣泛的應(yīng)用?DeepSeek

的開源策略吸引眾多開發(fā)者和企業(yè)的參與。

國產(chǎn)算力

芯片廠商可以圍繞DeepSeek建立相關(guān)的軟件生態(tài),

開發(fā)適配的

驅(qū)動程序

開發(fā)工具

、

優(yōu)化庫等,

吸引更多開發(fā)者基于國產(chǎn)芯

片和DeepSeek進行應(yīng)用開發(fā),

豐富軟件生態(tài)資源,

提升國產(chǎn)算

力芯片的易用性和競爭力產(chǎn)業(yè)鏈協(xié)同構(gòu)建自主AI生態(tài)閉環(huán):促進國產(chǎn)芯片硬件的適配落地和軟件生態(tài)的繁榮芯片廠商加速適配與落地

繁榮國產(chǎn)軟件生態(tài)開源平臺數(shù)據(jù)來源:

科智咨詢

中國開放指令生態(tài)聯(lián)盟

?

2025

科智咨詢.

All

rights

reserved.開源開放國產(chǎn)芯片生態(tài)開源IP與SoC設(shè)計芯片及系統(tǒng)EDA工具系統(tǒng)軟件與開發(fā)環(huán)境開

發(fā)

驗證

臺4035302520151050/國產(chǎn)芯片廠商與DeepSeek適配情況2

5

.12

5

.

22

5

.

3未

來推動ASIC的芯片技術(shù)路線發(fā)展DeepSeek的算法優(yōu)化創(chuàng)新

,

帶動模型成本急速降低

軟硬件協(xié)同成為下

一步發(fā)展的關(guān)鍵

,

未來ASIC將成為行業(yè)主導(dǎo)

,

逐步取代或替代類似于CPU的通用器件

,GPU的需求會縮量

,ASIC的需求會增多/

不同架構(gòu)AI芯片的區(qū)別形成模型-芯片-系統(tǒng)的完整閉環(huán)國產(chǎn)模型

極致國產(chǎn)生態(tài)國產(chǎn)芯片統(tǒng)

納管和調(diào)度異構(gòu)算力AI芯片種類GPU

FPGAASIC?

全定制(專為特定算法設(shè)計)?

算法迭代期/邊緣計算?

開發(fā)成本:低?

量產(chǎn)成本:

中等?

能效比極高?

量產(chǎn)成本極低?

靈活性差?

研發(fā)周期長典型企業(yè)產(chǎn)業(yè)鏈協(xié)同構(gòu)建自主AI生態(tài)閉環(huán):推動ASIC技術(shù)實質(zhì)性發(fā)展,

形成模型-芯片-系統(tǒng)的全國產(chǎn)閉環(huán)?

算法穩(wěn)定的大規(guī)模

特定推理場景?

半定制(可編程重構(gòu)硬件)?

開發(fā)成本:

中等?

量產(chǎn)成本

:高?

開發(fā)成本:極高?

量產(chǎn)成本:極低?

硬件可重構(gòu)?

低延遲?

開發(fā)門檻高?

量產(chǎn)門檻高?

生態(tài)成熟?

通用性強?

通用芯片(無定制)功耗高冗余計算多適用場景

?

通用計算?2025科智咨詢.Allrightsreserved.數(shù)據(jù)來源:

科智咨詢定制程度國產(chǎn)系統(tǒng)優(yōu)點缺點成本12??01

DeepSeek技術(shù)創(chuàng)新02DeepSeek對國產(chǎn)芯片的影響03國產(chǎn)芯片面臨的挑戰(zhàn)和發(fā)展機遇目錄13技術(shù)壁壘短時間內(nèi)難突破?受限于光刻機等的限制,中國大陸7nm以下制程工

藝遲遲無法

突破、

7nm規(guī)格的芯片良品率也有待提升?作為中國大陸典型的晶圓廠商,中芯國際(SMIC)

市占率僅

為6%,

不及臺積電的1/10,

供貨量緊缺/全球主要晶圓廠商芯片制程工

藝迭代路線圖2019202020212022202320242025CUDA生態(tài)壁壘需要多方協(xié)同、

長期攻克?英偉達CUDA生態(tài)開發(fā)者基數(shù)是國產(chǎn)方案的6.5倍:

CUDA生態(tài)

并非簡單的軟件工具集,

而是“

開發(fā)者—工具鏈—AI開發(fā)框

架—企業(yè)利益

”的閉環(huán)系統(tǒng)?國產(chǎn)AI生態(tài)需要從“

開發(fā)者-工具鏈-主流AI框架

等多個角度

努力補功課/

Github上全球軟件開發(fā)者數(shù)量對比

(萬)Intel10nm10nm+

10nm++7nm4nm3nm3nm+Samsung7nm5nm4nm3nm2nmTSMC7nm+5nm5nm+4nm3nm3nm+2nmSMIC14nm12nm8-10nm7nm面臨的挑戰(zhàn)國芯在制程技術(shù)、

國產(chǎn)開發(fā)生態(tài)等領(lǐng)域面臨嚴(yán)峻挑戰(zhàn)others,31%數(shù)據(jù)來源:

各公司官網(wǎng)

、Github、科智咨詢制圖

?

2025

科智咨詢.

All

rights

reserved./國際/國內(nèi)典型晶圓廠商市占比

(收入)國

產(chǎn)

態(tài)CUDA

態(tài)6

5XTSMC,63%

SMIC,6%

4006214國產(chǎn)AI芯片在工業(yè)質(zhì)檢領(lǐng)域表現(xiàn)出色

,如基于國產(chǎn)存算一體芯片的類腦計算技術(shù)在圖像識別能效比上有

顯著提升,

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論