計算機人工智能系列深度報告:DeepSeek研究框架_第1頁
計算機人工智能系列深度報告:DeepSeek研究框架_第2頁
計算機人工智能系列深度報告:DeepSeek研究框架_第3頁
計算機人工智能系列深度報告:DeepSeek研究框架_第4頁
計算機人工智能系列深度報告:DeepSeek研究框架_第5頁
已閱讀5頁,還剩42頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認(rèn)領(lǐng)

文檔簡介

請務(wù)必閱讀報告附注中的風(fēng)險提示和免責(zé)聲明3DeepSeek引領(lǐng)全球AI創(chuàng)新,一定程度上也影響了全球AI格局,并提振了國內(nèi)AI產(chǎn)業(yè)信心。我們看好由DeepSeek帶來的AI產(chǎn)業(yè)、尤其是國內(nèi)AI產(chǎn)業(yè)的發(fā)展機遇,包括AI應(yīng)用、端側(cè)AI、算力等三個方向。DeepSeek(深度求索)專注大模型技術(shù),V3和R1模型驚艷海內(nèi)外DeepSeek(深度求索)成立于2023年7月,由量化資管公司幻方量化創(chuàng)立,DeepSeek專注于開發(fā)先進的大語言模型(LLM)和相關(guān)技術(shù)。2024年1月5日,發(fā)布第一個大模型DeepSeek

LLM;12月26日,上線DeepSeek-V3并同步開源,DeepSeek-V3采用FP8訓(xùn)練,性能對其世界頂尖的閉源模型GPT-4o以及Claude-3.5-Sonnet。2025年1月20日,發(fā)布DeepSeek-R1,DeepSeek-R1在數(shù)學(xué)、代碼、自然語言推理等任務(wù)上,性能比肩OpenAI

o1正式版。DeepSeek-R1推出后廣受關(guān)注,據(jù)Appfigures、Sensor

Tower報告,1月26日以來,深度求索(DeepSeek)發(fā)布的DeepSeek

AI智能助手爆火,在全球140個市場的應(yīng)用商店下載榜上排名第一。DeepSeek

V3和R1模型基于Transformer架構(gòu),采用了MLA和DeepSeek

MoE兩大核心技術(shù),引入了多令牌預(yù)測、FP8混合精度訓(xùn)練等創(chuàng)新技術(shù),顯著提升了模型的訓(xùn)練效率和推理性能。DeepSeek創(chuàng)始人梁文鋒表示“V2模型沒有海外回來的人,都是本土的”。DeepSeek代表中國本土AI大模型,也代表開源AI走在了全球AI市場的前列。DeepSeek對全球AI行業(yè)影響頗深:激發(fā)創(chuàng)新、提振國產(chǎn)、推廣開源DeepSeek成為了全球AI的一條“鯰魚”。DeepSeek發(fā)布或?qū)е氯駻I格局變化,中美AI形勢生變,全球AI被“鯰魚”激活。預(yù)計美系A(chǔ)I會不斷反應(yīng),全球AI模型迭代和發(fā)布頻率將提速,投入繼續(xù)加大。自1月20日DeepSeek-R1發(fā)布以來,OpenAI連續(xù)發(fā)布了Agent

operator,O3

mini、Deep

Research等模型,OpenAI

CEO表示GPT-5將是超級混合模型,計劃把GPT和o系列模型整合在一起。DeepSeek驅(qū)動國產(chǎn)AI估值重塑。我們認(rèn)為:長期以來,算力和技術(shù)是制約國內(nèi)AI估值的主要因素,DeepSeek在國內(nèi)AI芯片受限的環(huán)境里,通過本土AI團隊,探索出一條“算法創(chuàng)新+有限算力”的新路徑,較大地提振了國內(nèi)AI產(chǎn)業(yè)信心。DeepSeek-R1的推出或同時打破了抑制國產(chǎn)AI產(chǎn)業(yè)的技術(shù)和算力這兩項天花板,將驅(qū)動國產(chǎn)AI軟件硬件迎估值重塑。DeepSeek是開源AI的“ChatGPT時刻”。OpenAI

CEO首次承認(rèn)OpenAI的閉源策略“站在了歷史錯誤的一邊”。DeepSeek-R1開源將會吸引更多人參與到大模型研發(fā)中,并通過蒸餾等技術(shù)顯著提升推理AI、小模型的性能,將大幅加速全球AI創(chuàng)新,加速AI推理進程,普惠AI、AI平權(quán)將驅(qū)動DeepSeek迅速推廣,近期全球CSP大廠密集上架DeepSeek能力也驗證了這點,我們預(yù)計Killer

APP的誕生或?qū)⑴R近。請務(wù)必閱讀報告附注中的風(fēng)險提示和免責(zé)聲明4DeepSeek推動AGI時代到來,關(guān)注AI應(yīng)用、端側(cè)AI、算力三大主線AI應(yīng)用:DeepSeek的創(chuàng)新帶來成本極致優(yōu)化,帶來AI普惠、AI平權(quán),將加速AI應(yīng)用的創(chuàng)新,國內(nèi)AI應(yīng)用將受益于DeepSeek實現(xiàn)能力顯著提升,應(yīng)用上游的模型API的價格下降也將驅(qū)動應(yīng)用廠商的商業(yè)模式快速成熟。AI端側(cè):DeepSeek支持用戶進行“模型蒸餾”,并通過DeepSeek-R1的輸出,蒸餾了6個小模型開源給社區(qū)。端側(cè)AI能力過去受限于端側(cè)AI計算影響,DeepSeek將顯著提升端側(cè)小模型的能力,進而提升AI終端能力。算力:杰文斯悖論指出當(dāng)我們希望通過技術(shù)進步來提高資源效率時,可能會導(dǎo)致資源的消耗增加。我們預(yù)計DeepSeek帶來的大模型推理成本的優(yōu)化,將加速AI的普及推廣,和下游應(yīng)用的商業(yè)模式構(gòu)建,并推動AI算力進入由終端用戶需求驅(qū)動的長增長周期。投資建議DeepSeek探索出一條“算法創(chuàng)新+有限算力”的新路徑,開源AI時代或已至,國產(chǎn)AI估值或?qū)⒅厮?,維持計算機行業(yè)“推薦”評級。相關(guān)公司AI應(yīng)用:①2G:中科曙光、科大訊飛、中國軟件、太極股份、深桑達A、中科星圖、國投智能、云從科技、能科科技、拓爾思、航天信息、稅友股份、金財互聯(lián)、浪潮軟件、數(shù)字政通;②2B:金蝶國際、衛(wèi)寧健康、石基信息、明源云、新致軟件、用友網(wǎng)絡(luò)、廣聯(lián)達、萊斯信息、四川九洲、泛微網(wǎng)絡(luò)、致遠互聯(lián)、新開普、東方財富、同花順、恒生電子、宇信科技、當(dāng)虹科技、萬達信息、創(chuàng)業(yè)惠康、潤和軟件、彩訊股份、第四范式、焦點科技;③2C:金山辦公、三六零、萬興科技、福昕軟件、合合信息、螢石網(wǎng)絡(luò)。算力:①云:海光信息、寒武紀(jì)、浪潮信息、華勤技術(shù)、云賽智聯(lián)、光環(huán)新網(wǎng)、中興通訊、寶信軟件、紫光股份、中國電信、優(yōu)刻得-W、青云科技-U、首都在線、并行科技、潤澤科技、中國軟件國際、神州數(shù)碼、深信服、新炬網(wǎng)絡(luò)、天璣科技;②邊:網(wǎng)宿科技、順網(wǎng)科技、云天勵飛;③端:軟通動力、中科創(chuàng)達、樂鑫科技、移遠通信。風(fēng)險提示:大模型產(chǎn)業(yè)發(fā)展不及預(yù)期、中美博弈加劇、宏觀經(jīng)濟影響下游需求、市場競爭加劇、相關(guān)標(biāo)的公司業(yè)績不及預(yù)期等、國內(nèi)外公司并不具備完全可比性,對標(biāo)的相關(guān)資料和數(shù)據(jù)僅供參考。請務(wù)必閱讀報告附注中的風(fēng)險提示和免責(zé)聲明5一、DeepSeek背景介紹、DeepSeek股權(quán)結(jié)構(gòu)及創(chuàng)始人背景、DeepSeek母公司幻方量化,早期確立AI戰(zhàn)略為后續(xù)出圈埋下伏筆、DeepSeek重視年輕團隊且兼具深厚技術(shù)底蘊,薪酬對標(biāo)字節(jié)跳動研發(fā)崗1.4、DeepSeek產(chǎn)品家族全梳理、DeepSeek日活遠超同期ChatGPT,下載量霸榜全球140個市場移動應(yīng)用榜首、DeepSeek獲得海內(nèi)外市場認(rèn)可,中國AI產(chǎn)業(yè)首次步入引領(lǐng)位置二、DeepSeek模型家族技術(shù)詳解、DeepSeek模型家族技術(shù)創(chuàng)新框架總攬、DeepSeek

v3:性能對齊海外領(lǐng)軍閉源模型,DeepSeek2024年巔峰之作、DeepSeek

R1

Zero核心創(chuàng)新點——RL(強化學(xué)習(xí))替代SFT(有監(jiān)督微調(diào))、DeepSeek

R1:高質(zhì)量冷啟動數(shù)據(jù)+多階段訓(xùn)練,將強推理能力泛化、開源大模型:打破OpenAI等閉源模型生態(tài),提升世界對中國AI大模型認(rèn)知三、DeepSeek對AI應(yīng)用的影響?、DeepSeek打開低成本推理模型邊界,加速AI應(yīng)用布局進程、DeepSeek

R1蒸餾賦予小模型高性能,端側(cè)AI迎來奇點時刻四、DeepSeek對算力影響?、DeepSeek

V3訓(xùn)練中GPU成本558萬美元,對比海外成本降低、DeepSeek或有約5萬Hopper

GPU,訓(xùn)練總成本或較高、推理化:推理算力需求占比提升,GenAI云廠商有望受益五、盈利預(yù)測及風(fēng)險提示一、DeepSeek背景介紹請務(wù)必閱讀報告附注中的風(fēng)險提示和免責(zé)聲明7DeepSeek是一家于2023年成立的中國初創(chuàng)企業(yè),創(chuàng)始人是AI驅(qū)動量化對沖基金幻方量化的掌門人梁文鋒。從股權(quán)結(jié)構(gòu)圖顯示,DeepSeek由四名自然人通過五層控股掌握100%股份(其中梁文鋒間接持股比例83.29%,直接持股1%,累計84.2945%)。創(chuàng)始人梁文鋒出生于廣東湛江,浙江大學(xué)畢業(yè),擁有信息與電子工程學(xué)系本科和碩士學(xué)位,2008年起開始帶領(lǐng)團隊使用機器學(xué)習(xí)等技術(shù)探索全自動量化交易,2015年幻方量化正式成立。2021年,幻方量化的資產(chǎn)管理規(guī)模突破千億大關(guān),躋身國內(nèi)量化私募領(lǐng)域的“四大天王”之列。2023年梁文鋒宣布正式進軍通用人工智能領(lǐng)域,創(chuàng)辦DeepSeek,專注于做真正人類級別的人工智能。資料來源:商界觀察圖:DeepSeek股權(quán)結(jié)構(gòu)圖:幻方創(chuàng)始人梁文峰(圖右)請務(wù)必閱讀報告附注中的風(fēng)險提示和免責(zé)聲明8母公司幻方量化確立以AI為發(fā)展方向。2016年,幻方量化第一個由深度學(xué)習(xí)算法模型生成的股票倉位上線實盤交易,使用GPU進行計算。隨后不久,該公司明確宣布AI為主要發(fā)展方向。量化投資全面AI化驅(qū)動囤卡需求,為后續(xù)蛻變埋下伏筆。復(fù)雜的模型計算需求使得單機訓(xùn)練遭遇算力瓶頸,訓(xùn)練需求和有限的計算資源產(chǎn)生矛盾,幻方需要解決算力受限難題。于是幻方在2019年成立了一家AI基礎(chǔ)研究公司,并推出自研的“螢火一號”AI集群,搭載500塊顯卡。2021年,幻方又斥資10億元建設(shè)“螢火二號”,為AI研究提供算力支持。幻方在構(gòu)建AI算力過程中的“囤卡”動作為它贏得了市場機會。作為國內(nèi)早期的英偉達芯片大買家之一,2022年其用于科研支持的閑時算力高達1533萬GPU時,大大超越了后來很多大模型公司。圖:幻方量化發(fā)展歷程圖:幻方官網(wǎng)首頁標(biāo)語,以AI為核心發(fā)展方向資料來源:公司官網(wǎng),國海證券研究所請務(wù)必閱讀報告附注中的風(fēng)險提示和免責(zé)聲明9團隊以年輕化為主,具備深厚技術(shù)底蘊。創(chuàng)始人梁文鋒曾在36氪的采訪中,給出了DeepSeek的員工畫像:“都是一些Top高校的應(yīng)屆畢業(yè)生、沒畢業(yè)的博四、博五實習(xí)生,還有一些畢業(yè)才幾年的年輕人?!弊?023年5月誕生以來,DeepSeek始終維持約150人的精英團隊,推行無職級界限、高度扁平化的文化,以此激發(fā)研究靈感,高效調(diào)配資源。早在2022年,幻方量化便著手為DeepSeek籌建AI團隊,至2023年5月DeepSeek正式成立時,團隊已匯聚近百名卓越工程師。如今,即便不計杭州的基礎(chǔ)設(shè)施團隊,北京團隊亦擁有百名工程師。技術(shù)報告的致謝欄揭示,參與DeepSeek

V3研發(fā)的工程師陣容,已壯大至139人。團隊薪酬水平對標(biāo)字節(jié)跳動研發(fā)崗位,且不限制人才的算力使用。據(jù)36氪資料顯示,DeepSeek薪酬水平對標(biāo)的字節(jié)研發(fā),“根據(jù)人才能拿到的字節(jié)offer,再往上加價”;同時只要梁文鋒判斷技術(shù)提案有潛力,DeepSeek給人才的算力,“不限”。圖:DeepSeek公開招聘職位信息匯總資料來源:華爾街見聞,國海證券研究所職位名稱面向群體申請要求薪酬水平深度學(xué)習(xí)研究員校招&實習(xí)熟練掌握至少兩種編程語言;在國際頂會或期刊發(fā)表相關(guān)論文;知名比賽成績8-11萬元/月,一年14薪資深ui設(shè)計師經(jīng)驗不限,本科優(yōu)秀的藝術(shù)類教育背景;有互聯(lián)網(wǎng)或科技公司UI設(shè)計工作經(jīng)驗;4-7萬元/月,一年14薪深度學(xué)習(xí)研發(fā)工程師在校/應(yīng)屆,本科較強的工程能力;工程能力;知名比賽成績4-7萬元/月,一年14薪數(shù)據(jù)架構(gòu)工程師在校/應(yīng)屆,本科有搜索、推薦、廣告等業(yè)務(wù)數(shù)據(jù)的處理經(jīng)驗;有

規(guī)模中文網(wǎng)頁數(shù)據(jù)收集和清洗經(jīng)驗者優(yōu)先4.5-6.5萬元/月,一年14薪全棧開發(fā)工程師在校/應(yīng)屆,本科對主流的開源軟件有深入的了解,并且對此有做出貢獻2.5-5萬元/月,一年14薪客戶端研發(fā)工程師在校/應(yīng)屆,本科計算機或相關(guān)專業(yè)優(yōu)先;有獨立開發(fā)App經(jīng)驗,有優(yōu)秀開源項目者優(yōu)先。2-4萬元/月,一年14薪深度學(xué)習(xí)實習(xí)生計算機及相關(guān)專業(yè)研究生,特別優(yōu)秀的本科生;具有扎實的編程功底;有頂級AI會議論文發(fā)表經(jīng)驗或開源項目貢獻經(jīng)驗者優(yōu)先500元/天,4天一周,6個月;非北京地區(qū)學(xué)生來京實習(xí)有租房補助3000元/月請務(wù)必閱讀報告附注中的風(fēng)險提示和免責(zé)聲明10資料來源:新浪人工智能,國海證券研究所模型類別日期名稱內(nèi)容對標(biāo)LLM2023年11月2日Meta的CodeLlama是業(yè)內(nèi)標(biāo)桿,但DeepSeek

Coder展示出多方位領(lǐng)先的架勢。2024年6月17日DeepSeek

Coder 模型包括

1B,7B,33B

多種尺寸,開源內(nèi)容包含

Base

模型和指令調(diào)優(yōu)模型。DeepSeekCoder

V2

代碼大模型,提供了

236B

16B

兩種版本。DeepSeekCoder

V2

API

服務(wù)也同步上線,價格依舊是「1元/百萬輸入,2元/百萬輸出」。能力超越了當(dāng)時最先進的閉源模型

GPT-4-Turbo。2023年11月29日DeepSeekLLM

67B首款通用大語言模型,且同步開源了

7B

67B

兩種不同規(guī)模的模型,甚至將模型訓(xùn)練過程中產(chǎn)生的

9

checkpoints也一并公開,Meta的同級別模型

LLaMA2

70B,并在近20個中英文的公開評測榜單上表現(xiàn)更佳。2024年3月11日DeepSeek-VL多模態(tài)

AI

技術(shù)上的初步嘗試,尺寸為

7B

與1.3B,模型和技術(shù)論文同步開源。2024年5月DeepSeek-V2通用

MoE

大模型的開源發(fā)布,DeepSeek-V2

使用了

MLA(多頭潛在注意力機制),將模型的顯存占用率降低至傳統(tǒng)

MHA

5%-13%對標(biāo)

GPT-4-Turbo,而

API價格只有后者的

1/702024年9月6日DeepSeek-V2.5

融合

Chat模型聚焦通用對話能力,Code模型聚焦代碼處理能力合二為一,更好的對齊模型 了人類偏好,2024年12月10日DeepSeek-V2.5-1210DeepSeek

V2

系列收官之作,全面提升了包括數(shù)學(xué)、代碼、寫作、角色扮演等在內(nèi)的多方能力。2024年12月26日DeepSeek-V3開源發(fā)布,訓(xùn)練成本估算只有

550

萬美金性能上全面對標(biāo)海外領(lǐng)軍閉源模型,生成速度也大幅提升。推理模型2024年2月5日DeepSeekMat數(shù)學(xué)推理模型,僅有

7B

參數(shù)數(shù)學(xué)推理能力上直逼

GPT-42024年8月16日DeepSeek-Prover-V1.5數(shù)學(xué)定理證明模型在高中和大學(xué)數(shù)學(xué)定理證明測試中,均超越了多款知名的開源模型。2024年11月20日DeepSeek-R1-Lite2025年1月20日DeepSeek-R1證,并明確用戶協(xié)議允許

“模型蒸餾”。推理模型,為之后

V3

的后訓(xùn)練,提供了足量的合成數(shù)據(jù)。 媲美

o1-preview發(fā)布并開源,開放了思維鏈輸出功能,將模型開源

License統(tǒng)一變更為

MIT許可

在性能上全面對齊

OpenAI

o1正式版多模態(tài)模型2023年12月18日DreamCraft3D文生

3D

模型,可從一句話生成高質(zhì)量的三維模型,實現(xiàn)了

AIGC

2D

平面到3D立體空間的跨越。2024年12月13日DeepSeek-VL2多模態(tài)大模型,采用了

MoE

架構(gòu),視覺能力得到了顯著提升,有

3B、16B

和27B三種尺寸,在各項指標(biāo)上極具優(yōu)勢。2025年1月27日DeepSeek

Janus-Pro

開源發(fā)布的多模態(tài)模型。架構(gòu)開源2024年1月11日DeepSeekMoE中英,免費商用,在

2B、16B、145B

等多個尺度上均領(lǐng)先開源了國內(nèi)首個

MoE(混合專家架構(gòu))大模型

DeepSeekMoE:全新架構(gòu),支持

被普遍認(rèn)為是

OpenAI

GPT-4性能突破的關(guān)鍵所在請務(wù)必閱讀報告附注中的風(fēng)險提示和免責(zé)聲明11DeepSeek-V3

為自研

MoE

模型,671B

參數(shù),激活

37B,在14.8Ttoken上進行了預(yù)訓(xùn)練。V3多項評測成績超越了

Qwen2.5-72B

Llama-3.1-405B

等其他開源模型,并在性能上和世界頂尖的閉源模型

GPT-4o

以及

Claude-3.5-Sonnet

不分伯仲。在具體的測試集上,DeepSeek-V3在知識類任務(wù)上接近當(dāng)前表現(xiàn)最好的模型

Claude-3.5-Sonnet-1022;長文本/代碼/數(shù)學(xué)/中文能力上均處于世界一流模型位置。資料來源:DeepSeek官方公眾號圖:DeepSeek-V3對比領(lǐng)域開源/閉源模型圖:DeepSeek-V3在英文、代碼、數(shù)學(xué)領(lǐng)域表現(xiàn)優(yōu)異請務(wù)必閱讀報告附注中的風(fēng)險提示和免責(zé)聲明12DeepSeek-R1性能比較OpenAI-o1。DeepSeek-R1

在后訓(xùn)練階段大規(guī)模使用了強化學(xué)習(xí)技術(shù),在僅有極少標(biāo)注數(shù)據(jù)的情況下,極大提升了模型推理能力。在數(shù)學(xué)、代碼、自然語言推理等任務(wù)上,性能比肩

OpenAI

o1

正式版。DeepSeek

R1同步登錄DeepSeek官網(wǎng)或官方App。網(wǎng)頁或者app端打開“深度思考”模式,即可調(diào)用最新版

DeepSeek-R1

完成各類推理任務(wù)。開放的許可證和用戶協(xié)議。DeepSeek在發(fā)布并開源

R1

的同時,同步在協(xié)議授權(quán)層面也進行了如下調(diào)整:1)模型開源

License

統(tǒng)一使用MIT,開源倉庫(包括模型權(quán)重)統(tǒng)一采用標(biāo)準(zhǔn)化、寬松的

MIT

License,完全開源,不限制商用,無需申請。2)產(chǎn)品協(xié)議明確可“模型蒸餾”;為了進一步促進技術(shù)的開源和共享,支持用戶進行“模型蒸餾”,明確允許用戶利用模型輸出、通過模型蒸餾等方式訓(xùn)練其他模型。資料來源:DeepSeek官方公眾號圖:DeepSeek-R1性能比肩

OpenAI

o1

正式版圖:DeepSeek-R1發(fā)布即上線請務(wù)必閱讀報告附注中的風(fēng)險提示和免責(zé)聲明13DeepSeek

系列模型均極具定價優(yōu)勢。DeepSeek

V3模型定價:隨著性能更強、速度更快的

DeepSeek-V3

更新上線,模型API服務(wù)定價也將調(diào)整為每百萬輸入tokens

0.5

元(緩存命中)/

2

元(緩存未命中),每百萬輸出tokens

8元。DeepSeek-R1百萬tokens輸出價格約為o1的1/27。DeepSeek-R1

API

服務(wù)定價為每百萬輸入

tokens

1

元(緩存命中)/

4

元(緩存未命中),每百萬輸出

tokens

16

元。對比OpenAI-o1每百萬輸入tokens為55元(緩存命中),百萬tokens輸出為438元。資料來源:DeepSeek官方公眾號圖:DeepSeek-V3API定價對比海內(nèi)外主流模型圖:DeepSeek-R1定價對比同為推理模型的o1系列請務(wù)必閱讀報告附注中的風(fēng)險提示和免責(zé)聲明14DeepSeek遠超同期ChatGPT,AI格局或迎來重塑。2025年1月15日,DeepSeek

官方

App

正式發(fā)布,并在

iOS/Android

各大應(yīng)用市場全面上線。數(shù)據(jù)顯示,DeepSeek在上線18天內(nèi)達到日活躍用戶1500萬的成就,相較之下,同期ChatGPT則耗費244天才實現(xiàn)相同日活;2月4日,上線20天后日活突破2000萬,創(chuàng)下又一個新紀(jì)錄。DeepSeek在發(fā)布的前18天內(nèi)累計下載量達到1600萬次,峰值日下載量高達500萬次,幾乎是ChatGPT同期900萬次下載量的兩倍。此外,DeepSeek在全球140個市場中的移動應(yīng)用下載量排行榜上位居榜首。圖:DeepSeek對話助手圖:DeepSeek霸榜下載榜榜首資料來源:公司官網(wǎng),蘋果APP

Store,Sensor

Tower圖:DeepSeek成全球增速最快的AI應(yīng)用請務(wù)必閱讀報告附注中的風(fēng)險提示和免責(zé)聲明15DeepSeek驚艷海外市場,中國AI產(chǎn)業(yè)首次步入引領(lǐng)位置。英偉達表示,DeepSeek為推理、數(shù)學(xué)和編碼等任務(wù)提供了

“最先進的推理能力”“高推理效率”

以及

“領(lǐng)先的準(zhǔn)確性”。Meta首席AI科學(xué)家YannLecun表示“DeepSeek-R1面世與其說意味著中國公司在AI領(lǐng)域正在超越美國公司,不如說意味著開源大模型正在超越閉源?!監(jiān)penAI首席執(zhí)行官Sam

Altman首次承認(rèn)OpenAI的閉源策略“站在了歷史錯誤的一邊”。微軟COE納德拉表示,公司的DeepSeekR1模型展現(xiàn)了"真正的創(chuàng)新力"。國內(nèi)黑神話制作人悟空馮冀表示,DeepSeek

可能是個國運級別的科技成果。圖:SamAltman評價DeepSeek圖:黑悟空神話制作人評價DeepSeek資料來源:澎湃新聞、IT之家請務(wù)必閱讀報告附注中的風(fēng)險提示和免責(zé)聲明16微軟、英偉達、亞馬遜、英特爾、AMD等科技巨頭陸續(xù)上線DeepSeek模型服務(wù)。1)1

30

日,英偉達宣布DeepSeek-R1可作為

NVIDIA

NIM

微服務(wù)預(yù)覽版使用。2)1月,DeepSeek-R1

模型被納入微軟平臺

Azure

AI

Foundry

GitHub

的模型目錄,開發(fā)者將可以在Copilot

+PC上本地運行DeepSeek-R1

精簡模型,以及在Windows上的

GPU

生態(tài)系統(tǒng)中運行,此外還宣布將

DeepSeek-R1部署在云服務(wù)Azure上。3)AWS(亞馬遜云科技)宣布,用戶可以在Amazon

Bedrock

和Amazon

SageMaker

AI兩大AI服務(wù)平臺上部署DeepSeek-R1模型。4)Perplexity

宣布接入了

DeepSeek

模型,將其與

OpenAI

GPT-o1

Anthropic

Claude-3.5

并列作為高性能選項。5)華為:已上線基于其云服務(wù)的DeepSeek-R1相關(guān)服務(wù);6)騰訊:DeepSeek-R1大模型可一鍵部署至騰訊云‘HAI’上,開發(fā)者僅需3分鐘就能接入調(diào)用。7)百度:DeepSeek-R1和DeepSeek-V3模型已在百度智能云千帆平臺上架;8)阿里:阿里云PAI

Model

Gallery支持云上一鍵部署DeepSeek-R1和DeepSeek-V3模型。圖:英偉達上線DeepSeek圖:微軟宣布接入DeepSeek資料來源:英偉達、微軟二、DeepSeek模型家族技術(shù)詳解請務(wù)必閱讀報告附注中的風(fēng)險提示和免責(zé)聲明18資料來源:《DeepSeek-R1:

Incentivizing

Reasoning

Capability

in

LLMs

via

Reinforcement

Learning》,《DeepSeek-V3

Technical

Report》,國海證券研究所MoE架構(gòu)模型核心創(chuàng)新1、多頭潛在注意力(MLA)使用低秩聯(lián)合壓縮方法減少注意力計算的緩存需求,同時保持多頭注意力的性能。2、混合專家架構(gòu)(DeepSeekMoE)① 細粒度專家分割② 共享專家隔離③ 輔助損失優(yōu)化的專家負載平衡策略。3、多

Token

預(yù)測目標(biāo)(MTP)擴展模型在每個位置預(yù)測多個未來

token

的能力,提高訓(xùn)練數(shù)據(jù)效率。4、DualPipe算法。5、支持

FP8

混合精度訓(xùn)練。DeepSeek

V3以V3作為基礎(chǔ)模型,純強化學(xué)習(xí)替代有監(jiān)督微調(diào)核心創(chuàng)新1、強化學(xué)習(xí)算法:

使用

GRPO框架,通過群體獎勵優(yōu)化策略模型。獎勵設(shè)計包括準(zhǔn)確性獎勵和格式獎勵。2、自我演化與頓悟時刻:

模型通過

RL自動學(xué)習(xí)復(fù)雜的推理行為,如自我驗證和反思。隨著訓(xùn)練過程的深入,模型逐步提升了復(fù)雜任務(wù)的解答能力,并在推理任務(wù)上顯現(xiàn)突破性的性能提升。DeepSeekR1Zero以V3作為基礎(chǔ)模型,結(jié)合冷啟動數(shù)據(jù)的多階段訓(xùn)練核心創(chuàng)新1、冷啟動數(shù)據(jù)引入:

從零開始的

RL容易導(dǎo)致初期性能不穩(wěn)定,為此設(shè)計了包含高質(zhì)量推理鏈的冷啟動數(shù)據(jù)集。該數(shù)據(jù)提高了模型的可讀性和訓(xùn)練初期的穩(wěn)定性。2、推理導(dǎo)向的強化學(xué)習(xí):

通過多輪

RL,進一步優(yōu)化模型在數(shù)學(xué)、編程等推理密集型任務(wù)中的表現(xiàn)。3、監(jiān)督微調(diào)與拒絕采樣:

使用RL檢查點生成額外的推理和非推理任務(wù)數(shù)據(jù),進一步微調(diào)模型。4、全場景強化學(xué)習(xí):

在最終階段結(jié)合多種獎勵信號,提升模型的有用性和安全性。DeepSeek

R1請務(wù)必閱讀報告附注中的風(fēng)險提示和免責(zé)聲明19MLA從傳統(tǒng)的MHA(多頭注意力機制)出發(fā),MHA通過并行運行多個Self-Attention層并綜合其結(jié)果,能夠同時捕捉輸入序列在不同子空間中的信息,從而增強模型的表達能力。通過將輸入的查詢、鍵和值矩陣分割成多個頭,并在每個頭中獨立計算注意力,再將這些頭的輸出拼接線性變換,從而實現(xiàn)在不同表示子空間中同時捕獲和整合多種交互信息,提升模型的表達能力。處理長序列時MHA會面臨計算和內(nèi)存效率上的局限性,MLA顯著降低計算及內(nèi)存占用問題。MLA的核心思想則是使用低秩分解(LoRA)來近似Key和Value的投影,以在推理期間減少鍵值緩存(KV

cache),顯著降低計算和內(nèi)存占用的復(fù)雜度。資料來源:《DeepSeek-V3

TechnicalReport》圖:DeepSeek

V3的創(chuàng)新架構(gòu)請務(wù)必閱讀報告附注中的風(fēng)險提示和免責(zé)聲明20MoE架構(gòu):傳統(tǒng)MoE架構(gòu)的主要優(yōu)勢是利用稀疏激活的性質(zhì),將大模型拆解成若干功能模塊,每次計算僅激活其中一小部分,而保持其余模塊不被使用,從而大大降低了模型的計算與學(xué)習(xí)成本,能夠在同等計算量的情況下產(chǎn)生性能優(yōu)勢。DeepSeekMoE在傳統(tǒng)MoE架構(gòu)之上,更新了兩個主要的策略:1)細粒度專家分割:在保持模型參數(shù)和計算成本一致的情況下,用更精細的顆粒度對專家進行劃分,更精細的專家分割使得激活的專家能夠以更靈活和適應(yīng)性更強的方式進行組合;2)共享專家隔離:采用傳統(tǒng)路由策略時,分配給不同專家的token可能需要一些共同的知識或信息,因此多個專家可能會有參數(shù)冗余。專門的共享專家致力于捕獲和整合不同上下文中的共同知識,有助于構(gòu)建一個具有更多專業(yè)專家且參數(shù)更高效的模型。負載均衡:MoE架構(gòu)下容易產(chǎn)生每次都由少數(shù)幾個專家處理所有tokens的情況,而其余大量專家處于閑置狀態(tài),此外,若不同專家分布在不同計算設(shè)備上,同樣會造成計算資源浪費以及模型能力局限;負載均衡則類似一個公平的“裁判”,鼓勵專家的選擇趨于均衡,避免出現(xiàn)上述專家激活不均衡的現(xiàn)象。DeepSeek在專家級的負載均衡外,提出了設(shè)備級的負載均衡,確保了跨設(shè)備的負載均衡,大幅提升計算效率,

緩解計算瓶頸。圖:DeepSeekMoE對比傳統(tǒng)MoE架構(gòu)圖:MoE架構(gòu)理解框架資料來源:《DeepSeekMoE:

Towards

Ultimate

Expert

Specialization

in

Mixture-of-Experts

Language

Models》、量子位請務(wù)必閱讀報告附注中的風(fēng)險提示和免責(zé)聲明21MTP顯著提升模型性能。訓(xùn)練過程:傳統(tǒng)語言模型一次只預(yù)測一個token的范式。它就像是讓模型從"一字一句"地朗讀,進化為"整句整段"地理解和生成。在訓(xùn)練過程中,模型不再局限于預(yù)測序列中的下一個token,而是學(xué)會同時預(yù)測多個連續(xù)位置的token。這種并行預(yù)測機制不僅提高了訓(xùn)練效率,還讓模型能夠更好地捕捉token之間的依賴關(guān)系。在保持輸出質(zhì)量的同時,模型整體性能提升2-3%。推理階段:MTP的優(yōu)勢更加明顯。傳統(tǒng)模型生成文本時就像是在"一筆一劃"地寫字,而MTP則像是"提前打草稿",可以同時生成多個token。通過創(chuàng)新的推測解碼機制,模型能夠基于當(dāng)前上下文同時預(yù)測多個可能的token序列。即使某些預(yù)測不準(zhǔn)確需要回退,整體效率仍然顯著提升。這種并行生成機制使推理速度提升了1.8倍,還顯著降低了計算開銷。資料來源:《DeepSeek-V3

TechnicalReport》圖:MTP架構(gòu)請務(wù)必閱讀報告附注中的風(fēng)險提示和免責(zé)聲明22DeepSeek

V3采用了FP8混合精度訓(xùn)練框架。在訓(xùn)練過程中,大部分核心計算內(nèi)核均采用FP8精度實現(xiàn)。例如,在前向傳播、激活反向傳播和權(quán)重反向傳播中,輸入數(shù)據(jù)均使用FP8格式,而輸出結(jié)果則使用BF16或FP32格式。這種設(shè)計使得計算速度相較于原始BF16方法提升一倍。FP

8

格式是一種低精度的數(shù)據(jù)格式,

具有較小的存儲空間和計算開銷。通過使用FP

8

格式,DeepSeek能夠在有限的計算資源下,實現(xiàn)更高的計算效率。例如,在處理大規(guī)模數(shù)據(jù)集時,F(xiàn)P8格式可以顯著減少顯存的占用,從而提高模型的訓(xùn)練速度。圖:具有

FP8

數(shù)據(jù)格式的整體混合精度框架資料來源:《DeepSeek-V3

TechnicalReport》,NVIDIA英偉達企業(yè)解決方案公眾號圖:多種精度數(shù)據(jù)類型結(jié)構(gòu)請務(wù)必閱讀報告附注中的風(fēng)險提示和免責(zé)聲明23DeepSeek-V3

采用了一種名為

DualPipe

的創(chuàng)新流水線并行策略。與傳統(tǒng)的單向流水線

(如

1F1B)

不同,DualPipe

采用雙向流水線設(shè)計,即同時從流水線的兩端饋送

micro-batch。這種設(shè)計可以顯著減少流水線氣泡

(Pipeline

Bubble),提高

GPU

利用率。DualPipe

還將每個

micro-batch

進一步劃分為更小的

chunk,并對每個

chunk的計算和通信進行精細的調(diào)度。隨后將一個

chunk

劃分為

attention、all-to-alldispatch、MLP

all-to-all

combine

等四個組成部分,并通過精細的調(diào)度策略,使得計算和通信可以高度重疊。圖:DualPipe性能優(yōu)越圖:DualPipe示意圖資料來源:《DeepSeek-V3

TechnicalReport》Chunk拆分DualPipe8個PPrank

和20個micro-batch的

DualPipe

調(diào)度示例Dual

Pipe

在流水線氣泡數(shù)量和激活內(nèi)存開銷方面均優(yōu)于

1

F

1

B

和ZeroBubble

等現(xiàn)有方法請務(wù)必閱讀報告附注中的風(fēng)險提示和免責(zé)聲明24英偉達PTX(并行線程執(zhí)行)是專門為其GPU設(shè)計的中間指令集架構(gòu),位于高級GPU編程語言(如CUDA

C/C++或其他語言前端)和低級機器代碼(流處理匯編或SASS)之間。PTX是一種接近底層的指令集架構(gòu),將GPU呈現(xiàn)為數(shù)據(jù)并行計算設(shè)備,因此能夠?qū)崿F(xiàn)寄存器分配、線程/線程束級別調(diào)整等細粒度優(yōu)化,這些是CUDA

C/C++等語言無法實現(xiàn)的。DeepSeek

V3采用定制的

PTX(并行線程執(zhí)行)指令并自動調(diào)整通信塊大小,這大大減少了

L2

緩存的使用和對其他

SM

的干擾。PTX

允許對

GPU

硬件進行細粒度控制,這在特定場景下可以帶來更好的性能。圖:C++與PTX代碼的區(qū)別圖:英偉達PTX是專門為其GPU設(shè)計的中間指令集架構(gòu)資料來源:新智元,量子位公眾號請務(wù)必閱讀報告附注中的風(fēng)險提示和免責(zé)聲明25DeepSeek探索LLM在沒有任何監(jiān)督數(shù)據(jù)的情況下發(fā)力推理能力的潛力,通過純RL(強化學(xué)習(xí))的過程實現(xiàn)自我進化。具體來說,DS使用

DeepSeek-V3-Base

作為基礎(chǔ)模型,并使用GRPO(群體相對策略優(yōu)化)作為RL框架來提高模型在推理中的性能。在訓(xùn)練過程中,DeepSeek-R1-Zero自然而然地出現(xiàn)了許多強大而有趣的推理行為。經(jīng)過數(shù)千次

RL

步驟后,DeepSeek-R1-Zero

在推理基準(zhǔn)測試中表現(xiàn)出卓越的性能。例如,AIME

2024

pass@1

分?jǐn)?shù)從15.6%增加到

71.0%,在多數(shù)投票的情況下,分?jǐn)?shù)進一步提高到86.7%,與OpenAI-o1-0912的性能相當(dāng)圖:R1-Zero在不同測試基準(zhǔn)下超過o1mini甚至比肩o1的水平圖:隨時間推移DS模型性能顯著提升資料來源:《DeepSeek-R1:

Incentivizing

Reasoning

Capability

in

LLMs

via

Reinforcement

Learning》請務(wù)必閱讀報告附注中的風(fēng)險提示和免責(zé)聲明26GRPO相對PPO節(jié)省了與策略模型規(guī)模相當(dāng)?shù)膬r值模型,大幅縮減模型訓(xùn)練成本。傳統(tǒng)強化學(xué)習(xí)更多使用PPO(近端策略優(yōu)化),PPO中有3個模型,分別是參考模型(reference

model)、獎勵模型(reward

model)、價值模型(value

model),參考模型作為穩(wěn)定參照,與策略模型的輸出作對比;獎勵模型根據(jù)策略模型的輸出效果給出量化的獎勵值,價值模型則根據(jù)對策略模型的每個輸出預(yù)測未來能獲得的累計獎勵期望。ppo中的價值模型規(guī)模與策略模型相當(dāng),由此帶來巨大的內(nèi)存和計算負擔(dān)。GRPO(群里相對策略優(yōu)化)中省略了價值模型,采用基于組的獎勵歸一化策略,簡言之就是策略模型根據(jù)輸入q得到輸出o(1,2,3),再計算各自的獎勵值r(1,2,3),而后不經(jīng)過價值模型,而是制定一組規(guī)則,評判組間價值獎勵值的相對關(guān)系,進而讓策略模型以更好的方式輸出。圖:GRPO相對傳統(tǒng)PPO強化學(xué)習(xí)方式對比資料來源:AWS、《DeepSeek-R1:

Incentivizing

Reasoning

Capability

in

LLMs

via

Reinforcement

Learning》圖:GRPO核心方法詳解請務(wù)必閱讀報告附注中的風(fēng)險提示和免責(zé)聲明27模型訓(xùn)練過程中會迎來頓悟時刻。引用DeepSeek相關(guān)論文中的表述,GRPO強化學(xué)習(xí)框架下,不是人類教模型如何解決問題,而僅僅為其提供正確的激勵措施,模型會自主開發(fā)高級問題解決策略,模型訓(xùn)練過程中會出現(xiàn)“Aha

moment”,這表示模型意識到了更好的解決辦法并重新評估,為問題分配更多思考時間。這些頓悟時刻是模型思維能力躍升的關(guān)鍵。據(jù)DeepSeek的研究,模型的進步并非均勻漸進的。在強化學(xué)習(xí)過程中,響應(yīng)長度會出現(xiàn)突然的顯著增長,這些"跳躍點"往往伴隨著解題策略的質(zhì)變。這種模式酷似人類在長期思考后的突然頓悟,暗示著某種深層的認(rèn)知突破。圖:GRPO相對傳統(tǒng)PPO強化學(xué)習(xí)方式對比例如模型在解決這個

√a

-

√(a

+

x)

=

x

的問題時,模型突然停下來說"Wait,

wait.

Wait.

That's

an

aha

moment

I

can

flaghere"(等等、等等、這是個值得標(biāo)記的啊哈時刻),隨后重新審視了整個解題過程。這種類似人類頓悟的行為完全是自發(fā)產(chǎn)生的,而不是預(yù)先設(shè)定的。圖:強化學(xué)習(xí)過程中,模型會出現(xiàn)跳躍點,這就是頓悟時刻資料來源:《DeepSeek-R1:

Incentivizing

Reasoning

Capability

in

LLMs

via

Reinforcement

Learning》28純強化學(xué)習(xí)后出來的DeepSeek

R1

zero存在可讀性差以及語言混亂等問題,主要因其全通過獎懲信號來優(yōu)化其行為,沒有任何人類示范的"標(biāo)準(zhǔn)答案"作為參考,因此DeepSeek團隊使用冷啟動+多階段訓(xùn)練推出DeepSeek

R1模型。具體訓(xùn)練步驟:1)高質(zhì)量冷啟動數(shù)據(jù):與DeepSeek

R1

zero同理,以DeepSeek

v3

base作為強化學(xué)習(xí)的起點,但為了克服可讀性差的問題,選擇可讀性更強的cot(長思維鏈)數(shù)據(jù)作為冷啟動數(shù)據(jù),包括以可讀格式收集DeepSeek-R1

Zero輸出,并通過人工注釋者進行后處理來提煉結(jié)果。2)面向推理的強化學(xué)習(xí),這與DeepSeek

R1

zero的強化學(xué)習(xí)過程相同,但是在RL期間引入語言一致性獎勵,雖然語言對齊可能會造成一定的性能損失,但是提高了可讀性。3)抑制采樣和監(jiān)督微調(diào),拒絕采用指模型訓(xùn)練過程中生成的一些不符合特定標(biāo)準(zhǔn)或質(zhì)量要求的樣本數(shù)據(jù)進行舍棄,同時選取了v3的SFT數(shù)據(jù)集一部分作為微調(diào)數(shù)據(jù)。4)全場景強化學(xué)習(xí),屬于一個二級強化學(xué)習(xí)階段,目的是與人類偏好保持一致。圖:DeepSeek

R1

模型訓(xùn)練過程圖:DeepSeek

R1與其他模型的性能對比資料來源:《DeepSeek-R1:

Incentivizing

Reasoning

Capability

in

LLMs

via

Reinforcement

Learning》、澎湃新聞

請務(wù)必閱讀報告附注中的風(fēng)險提示和免責(zé)聲明請務(wù)必閱讀報告附注中的風(fēng)險提示和免責(zé)聲明29開源即代碼層面開源,可以調(diào)用與進行二次開發(fā)。開源免費調(diào)用有助于先行占據(jù)市場份額,成為規(guī)則制定者,率先拓展生態(tài)粘性。如,谷歌將安卓開源,獲得了全球80%的移動手機端市場份額,同時也覆蓋電視、汽車等使用場景。DeepSeek

V3與R1模型實現(xiàn)了開源,采用MIT協(xié)議。這產(chǎn)生多方面影響:對大模型發(fā)展:這提升了世界對中國AI大模型能力的認(rèn)知,一定程度打破了OpenAI與Anthropic等高級閉源模型的封閉生態(tài)。DeepSeekR1在多個測試指標(biāo)中對標(biāo)OpenAI

o1,通過模型開源,也將大模型平均水平提升至類OpenAI

o1等級。對下游生態(tài):優(yōu)質(zhì)的開源模型可更好用于垂類場景,即使用者針對自身需求蒸餾,或用自有數(shù)據(jù)訓(xùn)練,從而適合具體下游場景;此外,模型訓(xùn)推成本降低,將帶來使用場景的普及,帶動AIGC、端側(cè)等供給和需求。圖:DeepSeekMoE對比傳統(tǒng)MoE架構(gòu)圖:開源許可證協(xié)議標(biāo)準(zhǔn)資料來源:DeepSeek官網(wǎng),51TCO,國海證券研究所三、DeepSeek對AI應(yīng)用的影響?請務(wù)必閱讀報告附注中的風(fēng)險提示和免責(zé)聲明31核心觀點:DeepSeek在推動降本、強推理三大層面驅(qū)動下,有望加速AI應(yīng)用普及度迎來跨越式提升。OpenAI上線性價比模型o3-mini,加速低成本推理模型邊界。2025年2月1日,OpenAI深夜上線o3-mini系列推理模型,其也是OpenAI系列推理模型中最具性價比的模型。性能方面,o3-mini在數(shù)學(xué)、編程、科學(xué)等領(lǐng)域表現(xiàn)優(yōu)異,以數(shù)學(xué)能力為例,o3-mini(low)達到了與o1-mini相當(dāng)?shù)乃?;o3-mini(medium)能力媲美滿血版o1;o3-mini(high)表現(xiàn)超越o1系列一眾模型。對比DeepSeek-R1在數(shù)學(xué)能力、編程能力上的測試結(jié)果,DeepSeek

R1處于OpenAI

o3-mini(medium)水平。DeepSeek價格優(yōu)勢仍大幅領(lǐng)先于OpenAI系列推理模型。DeepSeek定價為百萬tokens輸入0.014美元(緩存命中,未命中則0.55美元),百萬tokens輸出價格2.19美元;o3-mini百萬tokens輸入價格0.55美元(緩存命中,未命中則1.1美元),百萬tokens輸出價格為4.4美元。圖:DeepSeek和OpenAI能力對比圖:DeepSeek和OpenAI推理模型定價對比7.515600.550.552.191.14.4百萬tokens輸入(緩存命中)百萬tokens輸入(緩存未命中)百萬tokens輸出價格0.0140 102030405060

70OpenAI-o3-mini OpenAI-o1 DeepSeek

r1Benchmark03-mini(Low)03-mini(Medium)03-mini(High)DeepSeek-R1AIME

2024(Math)6079.687.379.8GPQA

Diamond(Science)70.676.879.771.5Codeforces(Coding)1831(ELO)2036(ELO)2130(ELO)96.3(Percentile)SWE-benchVerified

(Software

Eng.)40.842.949.349.2資料來源:DeepSeek官方公眾號,OpenAI官網(wǎng),國海證券研究所請務(wù)必閱讀報告附注中的風(fēng)險提示和免責(zé)聲明32我們認(rèn)為DeekSeek或推動AI投資回報率加速提升,AI應(yīng)用商業(yè)模式加速跑通。據(jù)中國工業(yè)互聯(lián)網(wǎng)研究院數(shù)據(jù),2024年以字節(jié)火山引擎、阿里云、百度云為代表的云廠商掀起了大模型價格戰(zhàn),降價幅度普遍達到90%以上。海外以O(shè)penAI為例,5月發(fā)布GPT-4o,模型性能升級且價格較GPT-4-Turbo下降50%;8月上線GPT-4o新版本,更強更便宜,但輸出價格節(jié)省33%。國內(nèi)以阿里為例,12月31日阿里云宣布2024年度第三輪大模型降價,通義千問視覺理解模型全線降價超80%。全球及中國AI應(yīng)用市場規(guī)模加速提升。據(jù)IDC數(shù)據(jù),全球生成式AI市場規(guī)模在2024年達到360.6美元,同比+76%,預(yù)計在2028年達到2154億美元;中國AI軟件市場規(guī)模在2024年達到5.7億美元,預(yù)計2028年達到35.4億美元。圖:大模型降本趨勢明確圖:全球生成式AI市場規(guī)模圖:中國AI軟件市場規(guī)模資料來源:IDC、艾瑞咨詢、中國工業(yè)互聯(lián)網(wǎng)研究院、國海證券研究所204.8360.6627.2103576%74% 215465%156952%37%0%10%20%30%40%50%60%70%80%050010001500200025002023 2024 2025E 2026E 2027E 2028E全球生成式AI市場規(guī)模(億美元) yoy5.78.513.422.349%58%66%

35.40%10%20%30%40%59%60%50%70%051015202530354020242025E2026E2027E2028E中國AI軟件市場規(guī)模(億美元)yoy請務(wù)必閱讀報告附注中的風(fēng)險提示和免責(zé)聲明33R1-Zero展現(xiàn)出強大的通用推理能力。它不僅在數(shù)學(xué)競賽中取得驚人成績,更重要的是,R1-Zero不僅是在模仿思考,而是真正發(fā)展出了某種形式的推理能力。DeepSeek最終目標(biāo):AGI。傳統(tǒng)的AI訓(xùn)練方法可能一直在重復(fù)于讓AI模仿人類的思維方式。通過純粹的強化學(xué)習(xí),AI系統(tǒng)似乎能夠發(fā)展出更原生的問題解決能力,而不是被限制在預(yù)設(shè)的解決方案框架內(nèi)。雖然R1-Zero在輸出可讀性上存在明顯缺陷,但這個"缺陷"本身可能恰恰印證了其思維方式的獨特性。就像一個天才兒童發(fā)明了自己的解題方法,卻難以用常規(guī)語言解釋一樣。這提示我們:真正的通用人工智能可能需要完全不同于人類的認(rèn)知方式。圖:我國AGI產(chǎn)業(yè)圖譜資料來源:infoQ,國海證券研究所請務(wù)必閱讀報告附注中的風(fēng)險提示和免責(zé)聲明34蒸餾法具有強大的潛力,端側(cè)小模型迎來發(fā)展契機。如下表所示,只需提取

DeepSeek-R1

的輸出即可使高效的DeepSeekR1-7B全面優(yōu)于GPT-4o-0513等非推理模型,DeepSeek-R1-14B在所有評估指標(biāo)上都超過了QwQ-32BPreview,而

DeepSeek-R1-32B和DeepSeek-R1-70B在大多數(shù)基準(zhǔn)測試中明顯超過了

o1-mini。此外,我們發(fā)現(xiàn)將

RL

應(yīng)用于這些蒸餾模型會產(chǎn)生顯著的進一步收益。我們認(rèn)為這值得進一步探索,因此在這里只提供簡單的

SFT

蒸餾模型的結(jié)果。DeepSeek產(chǎn)品協(xié)議明確可“模型蒸餾”。DeepSeek決定支持用戶進行“模型蒸餾”,已更新線上產(chǎn)品的用戶協(xié)議,明確允許用戶利用模型輸出、通過模型蒸餾等方式訓(xùn)練其他模型。圖:DeepSeek

R1蒸餾小模型性能對比AIME2024pass

@1AIME2024cons

@64MATH-500pass@1GPQADiamondpass@1LiveCodeBenchpass@1CodeForcesratingGPT-4o-05139.313.474.649.932.9759Claude-3.5-Sonnet-10221626.778.36538.9717o1-mini63.680906053.81820QwQ-32B446090.654.541.91316DeepSeek-R1-Distill-Qwen-1.5B28.952.783.933.816.9954DeepSeek-R1-Distill-Qwen-7B55.583.392.849.137.61189DeepSeek-R1-Distill-Qwen-14B69.78093.959.153.11481DeepSeek-R1-Distill-Qwen-32B72.683.394.362.157.21691DeepSeek-R1-Distill-Llama-8B50.48089.14939.61205DeepSeek-R1-Distill-Llama-70B7086.794.565.257.51633圖:端側(cè)與云端部署AI的規(guī)模區(qū)別資料來源:DeepSeek公司公眾號,國海證券研究所請務(wù)必閱讀報告附注中的風(fēng)險提示和免責(zé)聲明35全球端側(cè)AI市場規(guī)模預(yù)計從2022

年的152億美元增長到2032年的1436億美元。這一近十倍的增長不僅反映了市場對邊緣

AI

解決方案的迫切需求,也預(yù)示著在制造、汽車、消費品等多個行業(yè)中,邊緣

AI

技術(shù)將發(fā)揮越來越重要的作用。在資源受限的設(shè)備上部署性能強大的模型,必須面對內(nèi)存與計算能力的雙重挑戰(zhàn),自2023年起,隨著參數(shù)量低于

10B

的模型系列如

Meta

的LLaMA、Microsoft

Phi

系列等的涌現(xiàn),LLMs

在邊緣設(shè)備上運行的可行性逐步明朗。圖:全球端側(cè)AI市場規(guī)模圖:端側(cè)AI產(chǎn)業(yè)鏈圖譜資料來源:《On-Device

Language

Models:

A

Comprehensive

Review》Jiajun

Xu、公司官網(wǎng)四、DeepSeek對算力影響?請務(wù)必閱讀報告附注中的風(fēng)險提示和免責(zé)聲明37模型結(jié)構(gòu)

Architecture模型訓(xùn)練方法

Pre-Train針對性GPU優(yōu)化專家模型

MOE+

多頭潛在自注意力

MLA用于負載均衡的輔助無損策略多標(biāo)記預(yù)測

(MTP)Dual

PipeAll

To

ALL

通信內(nèi)核IB+NVLink無張量并行

TP低精度FP8訓(xùn)練PTX語言帶寬限制資料來源:DeepSeek論文,國海證券研究所(注:表格為DeepSeek

V3官方訓(xùn)練費用,不包含此前對架構(gòu)、算法、或數(shù)據(jù)進行研究和實驗的相關(guān)費用)訓(xùn)練成本預(yù)訓(xùn)練上下文擴展后訓(xùn)練總計H800

GPU小時(萬小時)266.411.90.5278.8美元(萬元)532.823.810557.6Deep

Seek

V

3

模型訓(xùn)練成本達278

.

8

萬H

800

小時,

共花費557

.

6

萬美元。對比Open

AI、Anthropic、Lla

MA

3

等模型,

Deep

SeekV

3

單次訓(xùn)練成本顯著降低,

主要系Deep

Seek公司通過優(yōu)化模型結(jié)構(gòu)、模型訓(xùn)練方法、針對性GPU優(yōu)化等部分,

提升了模型訓(xùn)練過程中的算力使用效率。表:DeepSeek

V3訓(xùn)練成本(假設(shè)H800租賃價格為

2

美元/每GPU小時)圖:DeepSeek

V3節(jié)省訓(xùn)練成本的方法,包括調(diào)整模型結(jié)構(gòu)、訓(xùn)練方法、GPU優(yōu)化等請務(wù)必閱讀報告附注中的風(fēng)險提示和免責(zé)聲明38據(jù)Semianalysis,

Deep

Seek大致?lián)碛?0000

張H

800

GPU芯片、10000

張H

100

GPU芯片以及大量H

20

GPU芯片,

用于模型訓(xùn)練/推理、研究等任務(wù)。其估計,

Deep

Seek的總服務(wù)器資本支出(

Cap

Ex)

約為13

億美元(

約90

億元人民幣),

其中僅集群運營成本就高達7

.

15

億美元。Deep

Seek

V

3

論文中557

.

6

萬美元成本,

僅為預(yù)訓(xùn)練中消耗的GPU計算成本,

但模型完整訓(xùn)練成本包括研發(fā)、數(shù)據(jù)清洗、人員薪資、硬件總擁有成本TCO(

服務(wù)器、電力、冷卻系統(tǒng)、數(shù)據(jù)中心維護)

等,

會帶來訓(xùn)練總成本體量更高。作為對比,

Anthropic訓(xùn)練Claude

3

.

5

Sonnet的成本就高達數(shù)千萬美元。表:DeepSeek

AI

TCO(總擁有成本)ChipUnitA100H20H800H100TotalYears#4444#of

GPUs#10,00030,00010,00010,00060,000NVDA$

ASP$13,50012,50020,00023,00046,000ServerCapEx/

GPU$23,71624,22831,72834,72879,672TotalServer

CapEx$m2377273173471,281Costto

Operation$m157387170230715TotalTCO(4y

Ownership)$m/

hr3951,1144875771,996資料來源:Semianalysis,國海證券研究所請務(wù)必閱讀報告附注中的風(fēng)險提示和免責(zé)聲明39資料來源:SemianalysisAI的演進路徑中,

推理成本不斷下降,

計算效率持續(xù)提高是長期趨勢。例如:

算法進步的速度約為每年4

倍,

即每年達到相同能力所需的計算量減少到四分之一;

Anthropic

CEO

Dario甚至認(rèn)為,

這一進步速度可能達到10

倍。Jevons

悖論:

技術(shù)進步提高了資源使用效率,

效率提高降低了資源使用成本,

成本下降刺激了資源需求的增長,

需求增長可能超過效率提升帶來的節(jié)約,

最終導(dǎo)致資源總消耗增加。短期訓(xùn)練側(cè)算力需求或受影響,

但Deep

Seek推理價格下降吸引更多用戶調(diào)用模型,

帶來英偉達H

100

GPU的租賃價格提升,

故表明算力需求量短期仍呈提升趨勢,

中長期推理算力需求有望持續(xù)增長。圖:大模型成本持續(xù)下降,效率提升 圖:關(guān)鍵模型的測試情況請務(wù)必閱讀報告附注中的風(fēng)險提示和免責(zé)聲明40Deep

Seek降低推理成本,

引算力需求結(jié)構(gòu)變化。模型算法改進提升了訓(xùn)練算力使用效率、降低了訓(xùn)練成本,

促進了模型商品化和更便宜的推理。據(jù)S

e

m

i

a

n

a

l

y

s

i

s

D

e

e

p

S

e

e

k

推理服務(wù)可能以成本價運營,

以此搶占市場份額,

還在推理端優(yōu)化英偉達H

2

0GPU的使用(

H

20

內(nèi)存與帶寬容量高于H

100

,

推理效率更具優(yōu)勢)。推理占比持續(xù)提升。更低的推理成本有望提升下游應(yīng)用與端側(cè)對大模型推理使用需求,

推理算力需求占比有望增長。2024

H

1

,用于推理的人工智能芯片市占率為61

%。據(jù)IDC,

預(yù)期2023

-

2027

年,

推理AI服務(wù)器工作負載占比從41

%

提升至73

%

左右。集合多種模型的云服務(wù)廠商有望受益。無論是開源還是閉源模型,

計算資源都很重要,

如果云廠商基于計算資源打造上層服務(wù)或產(chǎn)品,

那么計算資源的價值就有可能提升,

這意味著更多的Capex流向硬件領(lǐng)域,

軟件也有望受益。ModelPrice/1M

InputTokensPrice/1M

OutputTokensMMLU(Pass@1)SWE

Verified(Resolved)AIME2024MATH

-500Claude-3.5-Sonnet-

1022$3.00$15.0088.350.81678.3GPT-4o-

0513$2.50$10.0087.238.89.374.6DeepSeek-

V3(TogetherAI)$1.25$1.2588.542.039.290.2DeepSeek-V3

MedianProvider$0.90$1.10DeepSeek-V3

(NormalPrice)$0.27$1.10DeepSeek-V3

(DiscountPrice)$0.14$0.28Gemini1.5

Pro$1.25$5.00862088GPT-4o-

mini$0.15$0.608233.26.779Llama3.1

405B$3.50$3.5088.624.523.373.8Llama3.2

70B$0.59$0.73862064表:DeepSeek

V3性能優(yōu)越,推理價格較低資料來源:Semianalysis,IDC,國海證券研究所圖:2024H1,中國

Top5

GenAl

laaS服務(wù)廠商市場份額請務(wù)必閱讀報告附注中的風(fēng)險提示和免責(zé)聲明41模型推理對大型集群要求弱于訓(xùn)練,

這與目前國產(chǎn)算力單卡實力較強、互聯(lián)能力不足的情況匹配,

并考慮到目前中美半導(dǎo)體博弈加劇,

D

e

e

p

S

e

e

k

積極適配昇騰、海光等國產(chǎn)芯片,

國產(chǎn)化推理算力需求有望持續(xù)增長。圖:2024H1,中國人工智能芯片市場份額圖:美國限制高端NV

GPU出口中國圖:DeepSeekR1&V3推理服務(wù)適配昇騰云圖:DeepSeekR1&V3推理服務(wù)適配海光DCU資料來源:IDC,Semianalysis,華為云公眾號,光合組織公眾號請務(wù)必閱讀報告附注中的風(fēng)險提示和免責(zé)聲明422024

H

1

,

全國AI芯片出貨中,

國產(chǎn)化比例達20

%。2024

H

1

,

中國加速芯片的市場規(guī)模達超過9

0

萬張。G

P

U

卡占據(jù)8

0

%

的市場份額;

中國本土人工智能芯片品牌出貨量已接近2

0

萬張,

約占整個市場份額的2

0

%

。在加速卡入口受限之后,

由于數(shù)質(zhì)化轉(zhuǎn)型大趨勢對于算力的持續(xù)需求,

中國本土品牌加速卡持續(xù)優(yōu)化硬件能力,

市場份額存在一定程度的增長。圖:國內(nèi)外主流人工智能芯片性能對比情況64116184850230281%59%437138%95%120642%91%0%50%100%150%250020001500100050002018 2019 2020 2021 2022 2023 2024E中國AI芯片市場規(guī)模(億元) 同比(%,右軸)圖:2018-2024年中國AI芯片市場規(guī)模預(yù)測資料來源:各公司官網(wǎng),海光信息招股書,壁仞科技公眾號,鎂客網(wǎng),中商情報網(wǎng)、國海證券研究所請務(wù)必閱讀報告附注中的風(fēng)險提示和免責(zé)聲明43使用G

P

U

過程中,

通常需經(jīng)過多個層級才能調(diào)用到底層硬件。從上到下依次是高層編程語言

(

P

y

t

h

o

n

、C

+

+

)

、硬件接口

(

CUDA、Open

CL

等)、驅(qū)動程序,

最后才是底層硬件。在這個過程中,

CUDA

作為一個相對高層的接口,

為用戶提供編程接口,

PTX

則隱藏在驅(qū)動背后。Deep

Seek-

V

3

模型在多節(jié)點通信時繞過了

CUDA

直接使用

PTX(

Pa

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論