




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)
文檔簡介
DeepSeek對國產(chǎn)芯片的影響科智咨詢云網(wǎng)研究事業(yè)部蘇長飛2025年4月01
DeepSeek技術(shù)創(chuàng)新02DeepSeek對國產(chǎn)芯片的影響03國產(chǎn)芯片面臨的挑戰(zhàn)和發(fā)展機遇目錄2DeepSeek出現(xiàn)的影響DeepSeek的出現(xiàn)標(biāo)志著我國在生成式AI領(lǐng)域達到世界領(lǐng)先級別DeepSeek與ChatGPT移動端全球DAU對比情況全球APP增長1億用戶所需時間?2025科智咨詢.Allrightsreserved.數(shù)據(jù)來源:
公開信息3?
無輔助損失負載平衡的DeepSeekMoEDeepSeek-V3提出了一種無輔助損失的負載均衡策略(Loss-FreeBalancing),
通過動態(tài)調(diào)整每個專家的偏差來控制負載平衡,
而不引入干擾梯度。
減少因鼓勵負載均衡而對模型性能產(chǎn)生的負面影響。?Multi-Head
LatentAttention(MLA)MLA的核心在于通過低秩聯(lián)合壓縮來減少注意力鍵(keys)
和值(values)
在推理過程中的緩存,
從而提高推理效率數(shù)據(jù)來源:
DeepSeek論文
?2025科智咨詢.All
rights
reserved.DeepSeek主要技術(shù)創(chuàng)新點架構(gòu)創(chuàng)新4?多
to
ke
n
預(yù)
測
(M
u
lti-To
ke
nP
redictio
n
,
MT
P
)主流大模型token-by-token生成序列,
而每次token生成需要頻繁與訪存交互,
從而因為訪存效率形成訓(xùn)練或推理的瓶頸。MTP方法主要將單token
的生成,
轉(zhuǎn)
變成多token
的生成,
提升訓(xùn)練和推理的性能
。
DeepSeek主要對傳統(tǒng)MTP算法
進行了一定優(yōu)化,
順序預(yù)測額外token,
并在每個預(yù)測深度保持完整的因果鏈。?
FP8混合精度訓(xùn)練框架
在DeepSeek的訓(xùn)練過程中,
絕大多數(shù)核心計算核(即通用矩陣乘法GEMM操
作)
均以FP8精度實現(xiàn)
。這些GEMM操作接受FP8張量作為輸入,
并輸出BF16
或FP32格式的結(jié)果。
如下圖所示,
與線性算子(Linearoperator)
相關(guān)的三個
GEMM運算——前向傳播(Fprop)
、
激活梯度反向傳播(Dgrad)
和權(quán)重梯
度反向傳播(Wgrad)——都采用FP8精度執(zhí)行。
對以下模塊維持原有精度(如BF16或FP32):
嵌入模塊(embeddingmodule
)、
輸出頭(
output
head)
、
混合專家門控模塊(MoEgating
modules)
、
標(biāo)準(zhǔn)化算子(normalizationoperators)
以及注意力算子(
attentionoperators
)
。(盡管FP8格式具有計算效率優(yōu)勢,
但由于部分算子對低精度計算較為敏
感,
仍需保持更高計算精度)DeepSeek主要技術(shù)創(chuàng)新點軟硬協(xié)同工程優(yōu)化1/2數(shù)據(jù)來源:
DeepSeek論文
?2025科智咨詢.All
rights
reserved.5?
計算-通信重疊(DualPipe調(diào)度策略)DeepSeek-V3設(shè)計了DualPipe算法,
用于高效的流水線并行計算。
該算法通過重
疊計算和通信,
減少了流水線氣泡,
并在跨節(jié)點的專家并行訓(xùn)練中實現(xiàn)了近乎完
全的計算-通信重疊,
顯著提升了訓(xùn)練效率。?
通過PTX手動優(yōu)化跨芯片通信
英偉達
H800
芯片互聯(lián)帶寬相比
H100被閹割,為彌補這一缺陷,
DeepSeek
借助PTX手動優(yōu)化跨芯片通信,
保障數(shù)據(jù)傳輸效率。
PTX是CUDA編譯的中間代碼,
處于高級編程語言(如CUDAC/C++)
和底層
機器碼(SASS)
之間,
起到在CUDA和最終機器碼之間的橋梁作用。
借助PTX,
開發(fā)者能夠直接對GPU
的寄存器分配
、
線程調(diào)度等硬件級操作進行控制,
實現(xiàn)細粒度的性能優(yōu)化
。
在多GPU
協(xié)同訓(xùn)練場景中,
可通過
PTX
手動調(diào)整跨芯片通信效率,
提升整體訓(xùn)練效能。DeepSeek主要技術(shù)創(chuàng)新點軟硬協(xié)同工程優(yōu)化2/2數(shù)據(jù)來源:
DeepSeek論文
、公開信息
?2025科智咨詢.All
rights
reserved.601
DeepSeek技術(shù)創(chuàng)新02DeepSeek對國產(chǎn)芯片的影響03國產(chǎn)芯片面臨的挑戰(zhàn)和發(fā)展機遇目錄7刺激算力總需求持續(xù)增長?算力總需求持續(xù)增長:
根據(jù)科智咨詢發(fā)布的中國智能算力市場規(guī)
模研究報告,
2024-2028年,中國智能算力規(guī)模仍將保持近40%的
高速增長?推理側(cè)需求爆發(fā):
推理側(cè)需求占比將爆發(fā)式增長,
至2027年將從
目前的65%增長至72%/
2020-2028年中國AIDC算力供給規(guī)模
(PFLOPS)市場影響開源生態(tài)打開國產(chǎn)算力需求空間?“
杰文斯悖論”指出
,技術(shù)進步導(dǎo)致資源使用效率的
提高
,反而可能增加資源
的總體消費量。?
在圖中
,
燃
料
成本下降
20%(從100美元到80美
元),旅行量增加了40%
(從10單位到14單位)65%
67%
70%
72%35%
33%
30%
28%數(shù)據(jù)來源:
科智咨詢
、公開信息
?2025科智咨詢.Allrightsreserved.41%
58%59%
42%/中國人工智能服務(wù)器工作負載及預(yù)測2022
2023
2024
2025
2026
2027
推理
訓(xùn)練杰文斯悖論8算法創(chuàng)新驅(qū)動算力效率提升:通過MLA
、
MOE
、
無模型輕量化降低算力門檻:
通過輕量化模型和知識蒸輔助損失負載均衡等技術(shù),
顯著優(yōu)化模型訓(xùn)練效率,餾技術(shù),
DeepSeek能夠在國產(chǎn)芯片上實現(xiàn)高性能推理。在同等模型效果的基礎(chǔ)上,
訓(xùn)練成本僅為海外領(lǐng)先例如,
天數(shù)
、
沐曦等眾多國產(chǎn)廠商在極短的時間內(nèi)完模型成本的1/10成模型適配DeepSeek-V3和R1模型不僅性能出
色,
訓(xùn)練成本也極低
。
V3模型僅用
2048塊H800
GPU訓(xùn)練2個月,消耗278
.8萬GPU小時
。
相比之下,Llama3-405B消耗了3080萬GPU小時,
是V3的11倍
。
按H800GPU每小
時2美金計算,
V3的訓(xùn)練成本僅為557.6萬美金,而同等性能的模型通常
需要0.6-1億美金
。
R1模型在V3基礎(chǔ)上,
通過引入大規(guī)模強化學(xué)習(xí)和多
階段訓(xùn)練,
進一步提升了推理能力,
成本可能更低。蒸餾DeepSeek模型訓(xùn)練僅需要557.6萬美元技術(shù)突破降低算力依賴,
激活國產(chǎn)芯片潛力DeepSeek
R1(671B)數(shù)據(jù)來源:
DeepSeek論文
、公開信息?2025科智咨詢.Allrightsreserved.9關(guān)鍵技術(shù)突破進度實現(xiàn)難度FP8混合精度運算目前200多家芯片企業(yè)中僅有的2-3家支持FP8精度的均為初創(chuàng)企業(yè)
,對于大型芯片企
業(yè)來說需要從算子、架構(gòu)等底層做出大量改動
,其決策、研發(fā)周期會很久,
需要等到下一代、下下一代的產(chǎn)品PTX指令集優(yōu)化大
型
客
戶
使
用
國
產(chǎn)
芯
片
必
然
要
求
其
開
放
PT
X
和
Mira指
令
(Me
mory
AccessOptimizationforRemoteAccess
,一種遠端內(nèi)存訪問優(yōu)化技術(shù)),這需要對芯片底層指令集有非常深刻的認知,對于大部分國產(chǎn)芯片廠商來說都是非常困難的PD分離一種在大規(guī)模推理場景中將Prefill階段和Decode階段分別在不同的資源上運行的技術(shù),目前國產(chǎn)廠商普遍支持效果一般MTP(Multi-TokenPrediction)多Token預(yù)測技術(shù)會快速在推理場景得到普及
,理論上性能可以提升50%以上,
多款國產(chǎn)芯片已經(jīng)可以支持該技術(shù)DualPipe算法是一種更細粒度的計算過程劃分,
實現(xiàn)難度相對小,但只適用于DeepSeek一種類型
的模型
,不適用于其他類型的大模型技術(shù)突破倒逼國產(chǎn)芯片在關(guān)鍵技術(shù)上進行突破與創(chuàng)新?2025科智咨詢.Allrightsreserved.數(shù)據(jù)來源:
科智咨詢10持續(xù)增長適配企業(yè)達到25家首批15家適配R1發(fā)布?DeepSeek采用寬松的MIT協(xié)議和強可復(fù)現(xiàn)性,
得到廣泛的應(yīng)用?DeepSeek
的開源策略吸引眾多開發(fā)者和企業(yè)的參與。
國產(chǎn)算力
芯片廠商可以圍繞DeepSeek建立相關(guān)的軟件生態(tài),
開發(fā)適配的
驅(qū)動程序
、
開發(fā)工具
、
優(yōu)化庫等,
吸引更多開發(fā)者基于國產(chǎn)芯
片和DeepSeek進行應(yīng)用開發(fā),
豐富軟件生態(tài)資源,
提升國產(chǎn)算
力芯片的易用性和競爭力產(chǎn)業(yè)鏈協(xié)同構(gòu)建自主AI生態(tài)閉環(huán):促進國產(chǎn)芯片硬件的適配落地和軟件生態(tài)的繁榮芯片廠商加速適配與落地
繁榮國產(chǎn)軟件生態(tài)開源平臺數(shù)據(jù)來源:
科智咨詢
、
中國開放指令生態(tài)聯(lián)盟
?
2025
科智咨詢.
All
rights
reserved.開源開放國產(chǎn)芯片生態(tài)開源IP與SoC設(shè)計芯片及系統(tǒng)EDA工具系統(tǒng)軟件與開發(fā)環(huán)境開
發(fā)
驗證
測
試
平
臺4035302520151050/國產(chǎn)芯片廠商與DeepSeek適配情況2
5
.12
5
.
22
5
.
3未
來推動ASIC的芯片技術(shù)路線發(fā)展DeepSeek的算法優(yōu)化創(chuàng)新
,
帶動模型成本急速降低
,
軟硬件協(xié)同成為下
一步發(fā)展的關(guān)鍵
,
未來ASIC將成為行業(yè)主導(dǎo)
,
逐步取代或替代類似于CPU的通用器件
,GPU的需求會縮量
,ASIC的需求會增多/
不同架構(gòu)AI芯片的區(qū)別形成模型-芯片-系統(tǒng)的完整閉環(huán)國產(chǎn)模型
極致國產(chǎn)生態(tài)國產(chǎn)芯片統(tǒng)
納管和調(diào)度異構(gòu)算力AI芯片種類GPU
FPGAASIC?
全定制(專為特定算法設(shè)計)?
算法迭代期/邊緣計算?
開發(fā)成本:低?
量產(chǎn)成本:
中等?
能效比極高?
量產(chǎn)成本極低?
靈活性差?
研發(fā)周期長典型企業(yè)產(chǎn)業(yè)鏈協(xié)同構(gòu)建自主AI生態(tài)閉環(huán):推動ASIC技術(shù)實質(zhì)性發(fā)展,
形成模型-芯片-系統(tǒng)的全國產(chǎn)閉環(huán)?
算法穩(wěn)定的大規(guī)模
特定推理場景?
半定制(可編程重構(gòu)硬件)?
開發(fā)成本:
中等?
量產(chǎn)成本
:高?
開發(fā)成本:極高?
量產(chǎn)成本:極低?
硬件可重構(gòu)?
低延遲?
開發(fā)門檻高?
量產(chǎn)門檻高?
生態(tài)成熟?
通用性強?
通用芯片(無定制)功耗高冗余計算多適用場景
?
通用計算?2025科智咨詢.Allrightsreserved.數(shù)據(jù)來源:
科智咨詢定制程度國產(chǎn)系統(tǒng)優(yōu)點缺點成本12??01
DeepSeek技術(shù)創(chuàng)新02DeepSeek對國產(chǎn)芯片的影響03國產(chǎn)芯片面臨的挑戰(zhàn)和發(fā)展機遇目錄13技術(shù)壁壘短時間內(nèi)難突破?受限于光刻機等的限制,中國大陸7nm以下制程工
藝遲遲無法
突破、
7nm規(guī)格的芯片良品率也有待提升?作為中國大陸典型的晶圓廠商,中芯國際(SMIC)
市占率僅
為6%,
不及臺積電的1/10,
供貨量緊缺/全球主要晶圓廠商芯片制程工
藝迭代路線圖2019202020212022202320242025CUDA生態(tài)壁壘需要多方協(xié)同、
長期攻克?英偉達CUDA生態(tài)開發(fā)者基數(shù)是國產(chǎn)方案的6.5倍:
CUDA生態(tài)
并非簡單的軟件工具集,
而是“
開發(fā)者—工具鏈—AI開發(fā)框
架—企業(yè)利益
”的閉環(huán)系統(tǒng)?國產(chǎn)AI生態(tài)需要從“
開發(fā)者-工具鏈-主流AI框架
”
等多個角度
努力補功課/
Github上全球軟件開發(fā)者數(shù)量對比
(萬)Intel10nm10nm+
10nm++7nm4nm3nm3nm+Samsung7nm5nm4nm3nm2nmTSMC7nm+5nm5nm+4nm3nm3nm+2nmSMIC14nm12nm8-10nm7nm面臨的挑戰(zhàn)國芯在制程技術(shù)、
國產(chǎn)開發(fā)生態(tài)等領(lǐng)域面臨嚴(yán)峻挑戰(zhàn)others,31%數(shù)據(jù)來源:
各公司官網(wǎng)
、Github、科智咨詢制圖
?
2025
科智咨詢.
All
rights
reserved./國際/國內(nèi)典型晶圓廠商市占比
(收入)國
產(chǎn)
生
態(tài)CUDA
生
態(tài)6
5XTSMC,63%
SMIC,6%
4006214國產(chǎn)AI芯片在工業(yè)質(zhì)檢領(lǐng)域表現(xiàn)出色
,如基于國產(chǎn)存算一體芯片的類腦計算技術(shù)在圖像識別能效比上有
顯著提升,
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025鋼筋勞務(wù)雇傭合同
- 2025雙方建筑材料運輸合同范本
- 理論考試練習(xí)卷附答案
- 2025至2030中國人才測評機構(gòu)行業(yè)發(fā)展趨勢分析與未來投資戰(zhàn)略咨詢研究報告
- 2025-2030健身行業(yè)市場深度分析及發(fā)展前景與投資機會研究報告
- 護理科研項目答辯匯報
- 教育機構(gòu)銷售培訓(xùn)體系構(gòu)建
- 如何加強護理感控體系
- 比賽說課課件
- 管理會計存貨決策案例分析
- 2025年MySQL開發(fā)模式試題及答案
- 超市代管經(jīng)營協(xié)議書
- 護理三基知識練習(xí)題+答案(附解析)
- 圖像處理新技術(shù)Photoshop試題
- 內(nèi)在動機:自主掌控人生的力量
- 2025中國稀土集團有限公司社會招聘65人筆試參考題庫附帶答案詳解
- 江蘇省南京市建鄴三校聯(lián)合2025屆七下生物期末質(zhì)量檢測試題含解析
- DBJ50-T-200-2024 建筑樁基礎(chǔ)技術(shù)標(biāo)準(zhǔn)
- AI 技術(shù)在高中歷史教學(xué)中的應(yīng)用實例2
- 小學(xué)黃梅戲《打豬草》課件戲曲進校園
- 山東省山東名??荚嚶?lián)盟2025年高三4月高考模擬考試物理試卷+答案
評論
0/150
提交評論