




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認(rèn)領(lǐng)
文檔簡介
請務(wù)必閱讀報告附注中的風(fēng)險提示和免責(zé)聲明3DeepSeek引領(lǐng)全球AI創(chuàng)新,一定程度上也影響了全球AI格局,并提振了國內(nèi)AI產(chǎn)業(yè)信心。我們看好由DeepSeek帶來的AI產(chǎn)業(yè)、尤其是國內(nèi)AI產(chǎn)業(yè)的發(fā)展機遇,包括AI應(yīng)用、端側(cè)AI、算力等三個方向。DeepSeek(深度求索)專注大模型技術(shù),V3和R1模型驚艷海內(nèi)外DeepSeek(深度求索)成立于2023年7月,由量化資管公司幻方量化創(chuàng)立,DeepSeek專注于開發(fā)先進的大語言模型(LLM)和相關(guān)技術(shù)。2024年1月5日,發(fā)布第一個大模型DeepSeek
LLM;12月26日,上線DeepSeek-V3并同步開源,DeepSeek-V3采用FP8訓(xùn)練,性能對其世界頂尖的閉源模型GPT-4o以及Claude-3.5-Sonnet。2025年1月20日,發(fā)布DeepSeek-R1,DeepSeek-R1在數(shù)學(xué)、代碼、自然語言推理等任務(wù)上,性能比肩OpenAI
o1正式版。DeepSeek-R1推出后廣受關(guān)注,據(jù)Appfigures、Sensor
Tower報告,1月26日以來,深度求索(DeepSeek)發(fā)布的DeepSeek
AI智能助手爆火,在全球140個市場的應(yīng)用商店下載榜上排名第一。DeepSeek
V3和R1模型基于Transformer架構(gòu),采用了MLA和DeepSeek
MoE兩大核心技術(shù),引入了多令牌預(yù)測、FP8混合精度訓(xùn)練等創(chuàng)新技術(shù),顯著提升了模型的訓(xùn)練效率和推理性能。DeepSeek創(chuàng)始人梁文鋒表示“V2模型沒有海外回來的人,都是本土的”。DeepSeek代表中國本土AI大模型,也代表開源AI走在了全球AI市場的前列。DeepSeek對全球AI行業(yè)影響頗深:激發(fā)創(chuàng)新、提振國產(chǎn)、推廣開源DeepSeek成為了全球AI的一條“鯰魚”。DeepSeek發(fā)布或?qū)е氯駻I格局變化,中美AI形勢生變,全球AI被“鯰魚”激活。預(yù)計美系A(chǔ)I會不斷反應(yīng),全球AI模型迭代和發(fā)布頻率將提速,投入繼續(xù)加大。自1月20日DeepSeek-R1發(fā)布以來,OpenAI連續(xù)發(fā)布了Agent
operator,O3
mini、Deep
Research等模型,OpenAI
CEO表示GPT-5將是超級混合模型,計劃把GPT和o系列模型整合在一起。DeepSeek驅(qū)動國產(chǎn)AI估值重塑。我們認(rèn)為:長期以來,算力和技術(shù)是制約國內(nèi)AI估值的主要因素,DeepSeek在國內(nèi)AI芯片受限的環(huán)境里,通過本土AI團隊,探索出一條“算法創(chuàng)新+有限算力”的新路徑,較大地提振了國內(nèi)AI產(chǎn)業(yè)信心。DeepSeek-R1的推出或同時打破了抑制國產(chǎn)AI產(chǎn)業(yè)的技術(shù)和算力這兩項天花板,將驅(qū)動國產(chǎn)AI軟件硬件迎估值重塑。DeepSeek是開源AI的“ChatGPT時刻”。OpenAI
CEO首次承認(rèn)OpenAI的閉源策略“站在了歷史錯誤的一邊”。DeepSeek-R1開源將會吸引更多人參與到大模型研發(fā)中,并通過蒸餾等技術(shù)顯著提升推理AI、小模型的性能,將大幅加速全球AI創(chuàng)新,加速AI推理進程,普惠AI、AI平權(quán)將驅(qū)動DeepSeek迅速推廣,近期全球CSP大廠密集上架DeepSeek能力也驗證了這點,我們預(yù)計Killer
APP的誕生或?qū)⑴R近。請務(wù)必閱讀報告附注中的風(fēng)險提示和免責(zé)聲明4DeepSeek推動AGI時代到來,關(guān)注AI應(yīng)用、端側(cè)AI、算力三大主線AI應(yīng)用:DeepSeek的創(chuàng)新帶來成本極致優(yōu)化,帶來AI普惠、AI平權(quán),將加速AI應(yīng)用的創(chuàng)新,國內(nèi)AI應(yīng)用將受益于DeepSeek實現(xiàn)能力顯著提升,應(yīng)用上游的模型API的價格下降也將驅(qū)動應(yīng)用廠商的商業(yè)模式快速成熟。AI端側(cè):DeepSeek支持用戶進行“模型蒸餾”,并通過DeepSeek-R1的輸出,蒸餾了6個小模型開源給社區(qū)。端側(cè)AI能力過去受限于端側(cè)AI計算影響,DeepSeek將顯著提升端側(cè)小模型的能力,進而提升AI終端能力。算力:杰文斯悖論指出當(dāng)我們希望通過技術(shù)進步來提高資源效率時,可能會導(dǎo)致資源的消耗增加。我們預(yù)計DeepSeek帶來的大模型推理成本的優(yōu)化,將加速AI的普及推廣,和下游應(yīng)用的商業(yè)模式構(gòu)建,并推動AI算力進入由終端用戶需求驅(qū)動的長增長周期。投資建議DeepSeek探索出一條“算法創(chuàng)新+有限算力”的新路徑,開源AI時代或已至,國產(chǎn)AI估值或?qū)⒅厮?,維持計算機行業(yè)“推薦”評級。相關(guān)公司AI應(yīng)用:①2G:中科曙光、科大訊飛、中國軟件、太極股份、深桑達A、中科星圖、國投智能、云從科技、能科科技、拓爾思、航天信息、稅友股份、金財互聯(lián)、浪潮軟件、數(shù)字政通;②2B:金蝶國際、衛(wèi)寧健康、石基信息、明源云、新致軟件、用友網(wǎng)絡(luò)、廣聯(lián)達、萊斯信息、四川九洲、泛微網(wǎng)絡(luò)、致遠互聯(lián)、新開普、東方財富、同花順、恒生電子、宇信科技、當(dāng)虹科技、萬達信息、創(chuàng)業(yè)惠康、潤和軟件、彩訊股份、第四范式、焦點科技;③2C:金山辦公、三六零、萬興科技、福昕軟件、合合信息、螢石網(wǎng)絡(luò)。算力:①云:海光信息、寒武紀(jì)、浪潮信息、華勤技術(shù)、云賽智聯(lián)、光環(huán)新網(wǎng)、中興通訊、寶信軟件、紫光股份、中國電信、優(yōu)刻得-W、青云科技-U、首都在線、并行科技、潤澤科技、中國軟件國際、神州數(shù)碼、深信服、新炬網(wǎng)絡(luò)、天璣科技;②邊:網(wǎng)宿科技、順網(wǎng)科技、云天勵飛;③端:軟通動力、中科創(chuàng)達、樂鑫科技、移遠通信。風(fēng)險提示:大模型產(chǎn)業(yè)發(fā)展不及預(yù)期、中美博弈加劇、宏觀經(jīng)濟影響下游需求、市場競爭加劇、相關(guān)標(biāo)的公司業(yè)績不及預(yù)期等、國內(nèi)外公司并不具備完全可比性,對標(biāo)的相關(guān)資料和數(shù)據(jù)僅供參考。請務(wù)必閱讀報告附注中的風(fēng)險提示和免責(zé)聲明5一、DeepSeek背景介紹、DeepSeek股權(quán)結(jié)構(gòu)及創(chuàng)始人背景、DeepSeek母公司幻方量化,早期確立AI戰(zhàn)略為后續(xù)出圈埋下伏筆、DeepSeek重視年輕團隊且兼具深厚技術(shù)底蘊,薪酬對標(biāo)字節(jié)跳動研發(fā)崗1.4、DeepSeek產(chǎn)品家族全梳理、DeepSeek日活遠超同期ChatGPT,下載量霸榜全球140個市場移動應(yīng)用榜首、DeepSeek獲得海內(nèi)外市場認(rèn)可,中國AI產(chǎn)業(yè)首次步入引領(lǐng)位置二、DeepSeek模型家族技術(shù)詳解、DeepSeek模型家族技術(shù)創(chuàng)新框架總攬、DeepSeek
v3:性能對齊海外領(lǐng)軍閉源模型,DeepSeek2024年巔峰之作、DeepSeek
R1
Zero核心創(chuàng)新點——RL(強化學(xué)習(xí))替代SFT(有監(jiān)督微調(diào))、DeepSeek
R1:高質(zhì)量冷啟動數(shù)據(jù)+多階段訓(xùn)練,將強推理能力泛化、開源大模型:打破OpenAI等閉源模型生態(tài),提升世界對中國AI大模型認(rèn)知三、DeepSeek對AI應(yīng)用的影響?、DeepSeek打開低成本推理模型邊界,加速AI應(yīng)用布局進程、DeepSeek
R1蒸餾賦予小模型高性能,端側(cè)AI迎來奇點時刻四、DeepSeek對算力影響?、DeepSeek
V3訓(xùn)練中GPU成本558萬美元,對比海外成本降低、DeepSeek或有約5萬Hopper
GPU,訓(xùn)練總成本或較高、推理化:推理算力需求占比提升,GenAI云廠商有望受益五、盈利預(yù)測及風(fēng)險提示一、DeepSeek背景介紹請務(wù)必閱讀報告附注中的風(fēng)險提示和免責(zé)聲明7DeepSeek是一家于2023年成立的中國初創(chuàng)企業(yè),創(chuàng)始人是AI驅(qū)動量化對沖基金幻方量化的掌門人梁文鋒。從股權(quán)結(jié)構(gòu)圖顯示,DeepSeek由四名自然人通過五層控股掌握100%股份(其中梁文鋒間接持股比例83.29%,直接持股1%,累計84.2945%)。創(chuàng)始人梁文鋒出生于廣東湛江,浙江大學(xué)畢業(yè),擁有信息與電子工程學(xué)系本科和碩士學(xué)位,2008年起開始帶領(lǐng)團隊使用機器學(xué)習(xí)等技術(shù)探索全自動量化交易,2015年幻方量化正式成立。2021年,幻方量化的資產(chǎn)管理規(guī)模突破千億大關(guān),躋身國內(nèi)量化私募領(lǐng)域的“四大天王”之列。2023年梁文鋒宣布正式進軍通用人工智能領(lǐng)域,創(chuàng)辦DeepSeek,專注于做真正人類級別的人工智能。資料來源:商界觀察圖:DeepSeek股權(quán)結(jié)構(gòu)圖:幻方創(chuàng)始人梁文峰(圖右)請務(wù)必閱讀報告附注中的風(fēng)險提示和免責(zé)聲明8母公司幻方量化確立以AI為發(fā)展方向。2016年,幻方量化第一個由深度學(xué)習(xí)算法模型生成的股票倉位上線實盤交易,使用GPU進行計算。隨后不久,該公司明確宣布AI為主要發(fā)展方向。量化投資全面AI化驅(qū)動囤卡需求,為后續(xù)蛻變埋下伏筆。復(fù)雜的模型計算需求使得單機訓(xùn)練遭遇算力瓶頸,訓(xùn)練需求和有限的計算資源產(chǎn)生矛盾,幻方需要解決算力受限難題。于是幻方在2019年成立了一家AI基礎(chǔ)研究公司,并推出自研的“螢火一號”AI集群,搭載500塊顯卡。2021年,幻方又斥資10億元建設(shè)“螢火二號”,為AI研究提供算力支持。幻方在構(gòu)建AI算力過程中的“囤卡”動作為它贏得了市場機會。作為國內(nèi)早期的英偉達芯片大買家之一,2022年其用于科研支持的閑時算力高達1533萬GPU時,大大超越了后來很多大模型公司。圖:幻方量化發(fā)展歷程圖:幻方官網(wǎng)首頁標(biāo)語,以AI為核心發(fā)展方向資料來源:公司官網(wǎng),國海證券研究所請務(wù)必閱讀報告附注中的風(fēng)險提示和免責(zé)聲明9團隊以年輕化為主,具備深厚技術(shù)底蘊。創(chuàng)始人梁文鋒曾在36氪的采訪中,給出了DeepSeek的員工畫像:“都是一些Top高校的應(yīng)屆畢業(yè)生、沒畢業(yè)的博四、博五實習(xí)生,還有一些畢業(yè)才幾年的年輕人?!弊?023年5月誕生以來,DeepSeek始終維持約150人的精英團隊,推行無職級界限、高度扁平化的文化,以此激發(fā)研究靈感,高效調(diào)配資源。早在2022年,幻方量化便著手為DeepSeek籌建AI團隊,至2023年5月DeepSeek正式成立時,團隊已匯聚近百名卓越工程師。如今,即便不計杭州的基礎(chǔ)設(shè)施團隊,北京團隊亦擁有百名工程師。技術(shù)報告的致謝欄揭示,參與DeepSeek
V3研發(fā)的工程師陣容,已壯大至139人。團隊薪酬水平對標(biāo)字節(jié)跳動研發(fā)崗位,且不限制人才的算力使用。據(jù)36氪資料顯示,DeepSeek薪酬水平對標(biāo)的字節(jié)研發(fā),“根據(jù)人才能拿到的字節(jié)offer,再往上加價”;同時只要梁文鋒判斷技術(shù)提案有潛力,DeepSeek給人才的算力,“不限”。圖:DeepSeek公開招聘職位信息匯總資料來源:華爾街見聞,國海證券研究所職位名稱面向群體申請要求薪酬水平深度學(xué)習(xí)研究員校招&實習(xí)熟練掌握至少兩種編程語言;在國際頂會或期刊發(fā)表相關(guān)論文;知名比賽成績8-11萬元/月,一年14薪資深ui設(shè)計師經(jīng)驗不限,本科優(yōu)秀的藝術(shù)類教育背景;有互聯(lián)網(wǎng)或科技公司UI設(shè)計工作經(jīng)驗;4-7萬元/月,一年14薪深度學(xué)習(xí)研發(fā)工程師在校/應(yīng)屆,本科較強的工程能力;工程能力;知名比賽成績4-7萬元/月,一年14薪數(shù)據(jù)架構(gòu)工程師在校/應(yīng)屆,本科有搜索、推薦、廣告等業(yè)務(wù)數(shù)據(jù)的處理經(jīng)驗;有
規(guī)模中文網(wǎng)頁數(shù)據(jù)收集和清洗經(jīng)驗者優(yōu)先4.5-6.5萬元/月,一年14薪全棧開發(fā)工程師在校/應(yīng)屆,本科對主流的開源軟件有深入的了解,并且對此有做出貢獻2.5-5萬元/月,一年14薪客戶端研發(fā)工程師在校/應(yīng)屆,本科計算機或相關(guān)專業(yè)優(yōu)先;有獨立開發(fā)App經(jīng)驗,有優(yōu)秀開源項目者優(yōu)先。2-4萬元/月,一年14薪深度學(xué)習(xí)實習(xí)生計算機及相關(guān)專業(yè)研究生,特別優(yōu)秀的本科生;具有扎實的編程功底;有頂級AI會議論文發(fā)表經(jīng)驗或開源項目貢獻經(jīng)驗者優(yōu)先500元/天,4天一周,6個月;非北京地區(qū)學(xué)生來京實習(xí)有租房補助3000元/月請務(wù)必閱讀報告附注中的風(fēng)險提示和免責(zé)聲明10資料來源:新浪人工智能,國海證券研究所模型類別日期名稱內(nèi)容對標(biāo)LLM2023年11月2日Meta的CodeLlama是業(yè)內(nèi)標(biāo)桿,但DeepSeek
Coder展示出多方位領(lǐng)先的架勢。2024年6月17日DeepSeek
Coder 模型包括
1B,7B,33B
多種尺寸,開源內(nèi)容包含
Base
模型和指令調(diào)優(yōu)模型。DeepSeekCoder
V2
代碼大模型,提供了
236B
和
16B
兩種版本。DeepSeekCoder
V2
的
API
服務(wù)也同步上線,價格依舊是「1元/百萬輸入,2元/百萬輸出」。能力超越了當(dāng)時最先進的閉源模型
GPT-4-Turbo。2023年11月29日DeepSeekLLM
67B首款通用大語言模型,且同步開源了
7B
和
67B
兩種不同規(guī)模的模型,甚至將模型訓(xùn)練過程中產(chǎn)生的
9
個
checkpoints也一并公開,Meta的同級別模型
LLaMA2
70B,并在近20個中英文的公開評測榜單上表現(xiàn)更佳。2024年3月11日DeepSeek-VL多模態(tài)
AI
技術(shù)上的初步嘗試,尺寸為
7B
與1.3B,模型和技術(shù)論文同步開源。2024年5月DeepSeek-V2通用
MoE
大模型的開源發(fā)布,DeepSeek-V2
使用了
MLA(多頭潛在注意力機制),將模型的顯存占用率降低至傳統(tǒng)
MHA
的
5%-13%對標(biāo)
GPT-4-Turbo,而
API價格只有后者的
1/702024年9月6日DeepSeek-V2.5
融合
Chat模型聚焦通用對話能力,Code模型聚焦代碼處理能力合二為一,更好的對齊模型 了人類偏好,2024年12月10日DeepSeek-V2.5-1210DeepSeek
V2
系列收官之作,全面提升了包括數(shù)學(xué)、代碼、寫作、角色扮演等在內(nèi)的多方能力。2024年12月26日DeepSeek-V3開源發(fā)布,訓(xùn)練成本估算只有
550
萬美金性能上全面對標(biāo)海外領(lǐng)軍閉源模型,生成速度也大幅提升。推理模型2024年2月5日DeepSeekMat數(shù)學(xué)推理模型,僅有
7B
參數(shù)數(shù)學(xué)推理能力上直逼
GPT-42024年8月16日DeepSeek-Prover-V1.5數(shù)學(xué)定理證明模型在高中和大學(xué)數(shù)學(xué)定理證明測試中,均超越了多款知名的開源模型。2024年11月20日DeepSeek-R1-Lite2025年1月20日DeepSeek-R1證,并明確用戶協(xié)議允許
“模型蒸餾”。推理模型,為之后
V3
的后訓(xùn)練,提供了足量的合成數(shù)據(jù)。 媲美
o1-preview發(fā)布并開源,開放了思維鏈輸出功能,將模型開源
License統(tǒng)一變更為
MIT許可
在性能上全面對齊
OpenAI
o1正式版多模態(tài)模型2023年12月18日DreamCraft3D文生
3D
模型,可從一句話生成高質(zhì)量的三維模型,實現(xiàn)了
AIGC
從
2D
平面到3D立體空間的跨越。2024年12月13日DeepSeek-VL2多模態(tài)大模型,采用了
MoE
架構(gòu),視覺能力得到了顯著提升,有
3B、16B
和27B三種尺寸,在各項指標(biāo)上極具優(yōu)勢。2025年1月27日DeepSeek
Janus-Pro
開源發(fā)布的多模態(tài)模型。架構(gòu)開源2024年1月11日DeepSeekMoE中英,免費商用,在
2B、16B、145B
等多個尺度上均領(lǐng)先開源了國內(nèi)首個
MoE(混合專家架構(gòu))大模型
DeepSeekMoE:全新架構(gòu),支持
被普遍認(rèn)為是
OpenAI
GPT-4性能突破的關(guān)鍵所在請務(wù)必閱讀報告附注中的風(fēng)險提示和免責(zé)聲明11DeepSeek-V3
為自研
MoE
模型,671B
參數(shù),激活
37B,在14.8Ttoken上進行了預(yù)訓(xùn)練。V3多項評測成績超越了
Qwen2.5-72B
和
Llama-3.1-405B
等其他開源模型,并在性能上和世界頂尖的閉源模型
GPT-4o
以及
Claude-3.5-Sonnet
不分伯仲。在具體的測試集上,DeepSeek-V3在知識類任務(wù)上接近當(dāng)前表現(xiàn)最好的模型
Claude-3.5-Sonnet-1022;長文本/代碼/數(shù)學(xué)/中文能力上均處于世界一流模型位置。資料來源:DeepSeek官方公眾號圖:DeepSeek-V3對比領(lǐng)域開源/閉源模型圖:DeepSeek-V3在英文、代碼、數(shù)學(xué)領(lǐng)域表現(xiàn)優(yōu)異請務(wù)必閱讀報告附注中的風(fēng)險提示和免責(zé)聲明12DeepSeek-R1性能比較OpenAI-o1。DeepSeek-R1
在后訓(xùn)練階段大規(guī)模使用了強化學(xué)習(xí)技術(shù),在僅有極少標(biāo)注數(shù)據(jù)的情況下,極大提升了模型推理能力。在數(shù)學(xué)、代碼、自然語言推理等任務(wù)上,性能比肩
OpenAI
o1
正式版。DeepSeek
R1同步登錄DeepSeek官網(wǎng)或官方App。網(wǎng)頁或者app端打開“深度思考”模式,即可調(diào)用最新版
DeepSeek-R1
完成各類推理任務(wù)。開放的許可證和用戶協(xié)議。DeepSeek在發(fā)布并開源
R1
的同時,同步在協(xié)議授權(quán)層面也進行了如下調(diào)整:1)模型開源
License
統(tǒng)一使用MIT,開源倉庫(包括模型權(quán)重)統(tǒng)一采用標(biāo)準(zhǔn)化、寬松的
MIT
License,完全開源,不限制商用,無需申請。2)產(chǎn)品協(xié)議明確可“模型蒸餾”;為了進一步促進技術(shù)的開源和共享,支持用戶進行“模型蒸餾”,明確允許用戶利用模型輸出、通過模型蒸餾等方式訓(xùn)練其他模型。資料來源:DeepSeek官方公眾號圖:DeepSeek-R1性能比肩
OpenAI
o1
正式版圖:DeepSeek-R1發(fā)布即上線請務(wù)必閱讀報告附注中的風(fēng)險提示和免責(zé)聲明13DeepSeek
系列模型均極具定價優(yōu)勢。DeepSeek
V3模型定價:隨著性能更強、速度更快的
DeepSeek-V3
更新上線,模型API服務(wù)定價也將調(diào)整為每百萬輸入tokens
0.5
元(緩存命中)/
2
元(緩存未命中),每百萬輸出tokens
8元。DeepSeek-R1百萬tokens輸出價格約為o1的1/27。DeepSeek-R1
API
服務(wù)定價為每百萬輸入
tokens
1
元(緩存命中)/
4
元(緩存未命中),每百萬輸出
tokens
16
元。對比OpenAI-o1每百萬輸入tokens為55元(緩存命中),百萬tokens輸出為438元。資料來源:DeepSeek官方公眾號圖:DeepSeek-V3API定價對比海內(nèi)外主流模型圖:DeepSeek-R1定價對比同為推理模型的o1系列請務(wù)必閱讀報告附注中的風(fēng)險提示和免責(zé)聲明14DeepSeek遠超同期ChatGPT,AI格局或迎來重塑。2025年1月15日,DeepSeek
官方
App
正式發(fā)布,并在
iOS/Android
各大應(yīng)用市場全面上線。數(shù)據(jù)顯示,DeepSeek在上線18天內(nèi)達到日活躍用戶1500萬的成就,相較之下,同期ChatGPT則耗費244天才實現(xiàn)相同日活;2月4日,上線20天后日活突破2000萬,創(chuàng)下又一個新紀(jì)錄。DeepSeek在發(fā)布的前18天內(nèi)累計下載量達到1600萬次,峰值日下載量高達500萬次,幾乎是ChatGPT同期900萬次下載量的兩倍。此外,DeepSeek在全球140個市場中的移動應(yīng)用下載量排行榜上位居榜首。圖:DeepSeek對話助手圖:DeepSeek霸榜下載榜榜首資料來源:公司官網(wǎng),蘋果APP
Store,Sensor
Tower圖:DeepSeek成全球增速最快的AI應(yīng)用請務(wù)必閱讀報告附注中的風(fēng)險提示和免責(zé)聲明15DeepSeek驚艷海外市場,中國AI產(chǎn)業(yè)首次步入引領(lǐng)位置。英偉達表示,DeepSeek為推理、數(shù)學(xué)和編碼等任務(wù)提供了
“最先進的推理能力”“高推理效率”
以及
“領(lǐng)先的準(zhǔn)確性”。Meta首席AI科學(xué)家YannLecun表示“DeepSeek-R1面世與其說意味著中國公司在AI領(lǐng)域正在超越美國公司,不如說意味著開源大模型正在超越閉源?!監(jiān)penAI首席執(zhí)行官Sam
Altman首次承認(rèn)OpenAI的閉源策略“站在了歷史錯誤的一邊”。微軟COE納德拉表示,公司的DeepSeekR1模型展現(xiàn)了"真正的創(chuàng)新力"。國內(nèi)黑神話制作人悟空馮冀表示,DeepSeek
可能是個國運級別的科技成果。圖:SamAltman評價DeepSeek圖:黑悟空神話制作人評價DeepSeek資料來源:澎湃新聞、IT之家請務(wù)必閱讀報告附注中的風(fēng)險提示和免責(zé)聲明16微軟、英偉達、亞馬遜、英特爾、AMD等科技巨頭陸續(xù)上線DeepSeek模型服務(wù)。1)1
月
30
日,英偉達宣布DeepSeek-R1可作為
NVIDIA
NIM
微服務(wù)預(yù)覽版使用。2)1月,DeepSeek-R1
模型被納入微軟平臺
Azure
AI
Foundry
和
GitHub
的模型目錄,開發(fā)者將可以在Copilot
+PC上本地運行DeepSeek-R1
精簡模型,以及在Windows上的
GPU
生態(tài)系統(tǒng)中運行,此外還宣布將
DeepSeek-R1部署在云服務(wù)Azure上。3)AWS(亞馬遜云科技)宣布,用戶可以在Amazon
Bedrock
和Amazon
SageMaker
AI兩大AI服務(wù)平臺上部署DeepSeek-R1模型。4)Perplexity
宣布接入了
DeepSeek
模型,將其與
OpenAI
的
GPT-o1
和
Anthropic
的
Claude-3.5
并列作為高性能選項。5)華為:已上線基于其云服務(wù)的DeepSeek-R1相關(guān)服務(wù);6)騰訊:DeepSeek-R1大模型可一鍵部署至騰訊云‘HAI’上,開發(fā)者僅需3分鐘就能接入調(diào)用。7)百度:DeepSeek-R1和DeepSeek-V3模型已在百度智能云千帆平臺上架;8)阿里:阿里云PAI
Model
Gallery支持云上一鍵部署DeepSeek-R1和DeepSeek-V3模型。圖:英偉達上線DeepSeek圖:微軟宣布接入DeepSeek資料來源:英偉達、微軟二、DeepSeek模型家族技術(shù)詳解請務(wù)必閱讀報告附注中的風(fēng)險提示和免責(zé)聲明18資料來源:《DeepSeek-R1:
Incentivizing
Reasoning
Capability
in
LLMs
via
Reinforcement
Learning》,《DeepSeek-V3
Technical
Report》,國海證券研究所MoE架構(gòu)模型核心創(chuàng)新1、多頭潛在注意力(MLA)使用低秩聯(lián)合壓縮方法減少注意力計算的緩存需求,同時保持多頭注意力的性能。2、混合專家架構(gòu)(DeepSeekMoE)① 細粒度專家分割② 共享專家隔離③ 輔助損失優(yōu)化的專家負載平衡策略。3、多
Token
預(yù)測目標(biāo)(MTP)擴展模型在每個位置預(yù)測多個未來
token
的能力,提高訓(xùn)練數(shù)據(jù)效率。4、DualPipe算法。5、支持
FP8
混合精度訓(xùn)練。DeepSeek
V3以V3作為基礎(chǔ)模型,純強化學(xué)習(xí)替代有監(jiān)督微調(diào)核心創(chuàng)新1、強化學(xué)習(xí)算法:
使用
GRPO框架,通過群體獎勵優(yōu)化策略模型。獎勵設(shè)計包括準(zhǔn)確性獎勵和格式獎勵。2、自我演化與頓悟時刻:
模型通過
RL自動學(xué)習(xí)復(fù)雜的推理行為,如自我驗證和反思。隨著訓(xùn)練過程的深入,模型逐步提升了復(fù)雜任務(wù)的解答能力,并在推理任務(wù)上顯現(xiàn)突破性的性能提升。DeepSeekR1Zero以V3作為基礎(chǔ)模型,結(jié)合冷啟動數(shù)據(jù)的多階段訓(xùn)練核心創(chuàng)新1、冷啟動數(shù)據(jù)引入:
從零開始的
RL容易導(dǎo)致初期性能不穩(wěn)定,為此設(shè)計了包含高質(zhì)量推理鏈的冷啟動數(shù)據(jù)集。該數(shù)據(jù)提高了模型的可讀性和訓(xùn)練初期的穩(wěn)定性。2、推理導(dǎo)向的強化學(xué)習(xí):
通過多輪
RL,進一步優(yōu)化模型在數(shù)學(xué)、編程等推理密集型任務(wù)中的表現(xiàn)。3、監(jiān)督微調(diào)與拒絕采樣:
使用RL檢查點生成額外的推理和非推理任務(wù)數(shù)據(jù),進一步微調(diào)模型。4、全場景強化學(xué)習(xí):
在最終階段結(jié)合多種獎勵信號,提升模型的有用性和安全性。DeepSeek
R1請務(wù)必閱讀報告附注中的風(fēng)險提示和免責(zé)聲明19MLA從傳統(tǒng)的MHA(多頭注意力機制)出發(fā),MHA通過并行運行多個Self-Attention層并綜合其結(jié)果,能夠同時捕捉輸入序列在不同子空間中的信息,從而增強模型的表達能力。通過將輸入的查詢、鍵和值矩陣分割成多個頭,并在每個頭中獨立計算注意力,再將這些頭的輸出拼接線性變換,從而實現(xiàn)在不同表示子空間中同時捕獲和整合多種交互信息,提升模型的表達能力。處理長序列時MHA會面臨計算和內(nèi)存效率上的局限性,MLA顯著降低計算及內(nèi)存占用問題。MLA的核心思想則是使用低秩分解(LoRA)來近似Key和Value的投影,以在推理期間減少鍵值緩存(KV
cache),顯著降低計算和內(nèi)存占用的復(fù)雜度。資料來源:《DeepSeek-V3
TechnicalReport》圖:DeepSeek
V3的創(chuàng)新架構(gòu)請務(wù)必閱讀報告附注中的風(fēng)險提示和免責(zé)聲明20MoE架構(gòu):傳統(tǒng)MoE架構(gòu)的主要優(yōu)勢是利用稀疏激活的性質(zhì),將大模型拆解成若干功能模塊,每次計算僅激活其中一小部分,而保持其余模塊不被使用,從而大大降低了模型的計算與學(xué)習(xí)成本,能夠在同等計算量的情況下產(chǎn)生性能優(yōu)勢。DeepSeekMoE在傳統(tǒng)MoE架構(gòu)之上,更新了兩個主要的策略:1)細粒度專家分割:在保持模型參數(shù)和計算成本一致的情況下,用更精細的顆粒度對專家進行劃分,更精細的專家分割使得激活的專家能夠以更靈活和適應(yīng)性更強的方式進行組合;2)共享專家隔離:采用傳統(tǒng)路由策略時,分配給不同專家的token可能需要一些共同的知識或信息,因此多個專家可能會有參數(shù)冗余。專門的共享專家致力于捕獲和整合不同上下文中的共同知識,有助于構(gòu)建一個具有更多專業(yè)專家且參數(shù)更高效的模型。負載均衡:MoE架構(gòu)下容易產(chǎn)生每次都由少數(shù)幾個專家處理所有tokens的情況,而其余大量專家處于閑置狀態(tài),此外,若不同專家分布在不同計算設(shè)備上,同樣會造成計算資源浪費以及模型能力局限;負載均衡則類似一個公平的“裁判”,鼓勵專家的選擇趨于均衡,避免出現(xiàn)上述專家激活不均衡的現(xiàn)象。DeepSeek在專家級的負載均衡外,提出了設(shè)備級的負載均衡,確保了跨設(shè)備的負載均衡,大幅提升計算效率,
緩解計算瓶頸。圖:DeepSeekMoE對比傳統(tǒng)MoE架構(gòu)圖:MoE架構(gòu)理解框架資料來源:《DeepSeekMoE:
Towards
Ultimate
Expert
Specialization
in
Mixture-of-Experts
Language
Models》、量子位請務(wù)必閱讀報告附注中的風(fēng)險提示和免責(zé)聲明21MTP顯著提升模型性能。訓(xùn)練過程:傳統(tǒng)語言模型一次只預(yù)測一個token的范式。它就像是讓模型從"一字一句"地朗讀,進化為"整句整段"地理解和生成。在訓(xùn)練過程中,模型不再局限于預(yù)測序列中的下一個token,而是學(xué)會同時預(yù)測多個連續(xù)位置的token。這種并行預(yù)測機制不僅提高了訓(xùn)練效率,還讓模型能夠更好地捕捉token之間的依賴關(guān)系。在保持輸出質(zhì)量的同時,模型整體性能提升2-3%。推理階段:MTP的優(yōu)勢更加明顯。傳統(tǒng)模型生成文本時就像是在"一筆一劃"地寫字,而MTP則像是"提前打草稿",可以同時生成多個token。通過創(chuàng)新的推測解碼機制,模型能夠基于當(dāng)前上下文同時預(yù)測多個可能的token序列。即使某些預(yù)測不準(zhǔn)確需要回退,整體效率仍然顯著提升。這種并行生成機制使推理速度提升了1.8倍,還顯著降低了計算開銷。資料來源:《DeepSeek-V3
TechnicalReport》圖:MTP架構(gòu)請務(wù)必閱讀報告附注中的風(fēng)險提示和免責(zé)聲明22DeepSeek
V3采用了FP8混合精度訓(xùn)練框架。在訓(xùn)練過程中,大部分核心計算內(nèi)核均采用FP8精度實現(xiàn)。例如,在前向傳播、激活反向傳播和權(quán)重反向傳播中,輸入數(shù)據(jù)均使用FP8格式,而輸出結(jié)果則使用BF16或FP32格式。這種設(shè)計使得計算速度相較于原始BF16方法提升一倍。FP
8
格式是一種低精度的數(shù)據(jù)格式,
具有較小的存儲空間和計算開銷。通過使用FP
8
格式,DeepSeek能夠在有限的計算資源下,實現(xiàn)更高的計算效率。例如,在處理大規(guī)模數(shù)據(jù)集時,F(xiàn)P8格式可以顯著減少顯存的占用,從而提高模型的訓(xùn)練速度。圖:具有
FP8
數(shù)據(jù)格式的整體混合精度框架資料來源:《DeepSeek-V3
TechnicalReport》,NVIDIA英偉達企業(yè)解決方案公眾號圖:多種精度數(shù)據(jù)類型結(jié)構(gòu)請務(wù)必閱讀報告附注中的風(fēng)險提示和免責(zé)聲明23DeepSeek-V3
采用了一種名為
DualPipe
的創(chuàng)新流水線并行策略。與傳統(tǒng)的單向流水線
(如
1F1B)
不同,DualPipe
采用雙向流水線設(shè)計,即同時從流水線的兩端饋送
micro-batch。這種設(shè)計可以顯著減少流水線氣泡
(Pipeline
Bubble),提高
GPU
利用率。DualPipe
還將每個
micro-batch
進一步劃分為更小的
chunk,并對每個
chunk的計算和通信進行精細的調(diào)度。隨后將一個
chunk
劃分為
attention、all-to-alldispatch、MLP
和
all-to-all
combine
等四個組成部分,并通過精細的調(diào)度策略,使得計算和通信可以高度重疊。圖:DualPipe性能優(yōu)越圖:DualPipe示意圖資料來源:《DeepSeek-V3
TechnicalReport》Chunk拆分DualPipe8個PPrank
和20個micro-batch的
DualPipe
調(diào)度示例Dual
Pipe
在流水線氣泡數(shù)量和激活內(nèi)存開銷方面均優(yōu)于
1
F
1
B
和ZeroBubble
等現(xiàn)有方法請務(wù)必閱讀報告附注中的風(fēng)險提示和免責(zé)聲明24英偉達PTX(并行線程執(zhí)行)是專門為其GPU設(shè)計的中間指令集架構(gòu),位于高級GPU編程語言(如CUDA
C/C++或其他語言前端)和低級機器代碼(流處理匯編或SASS)之間。PTX是一種接近底層的指令集架構(gòu),將GPU呈現(xiàn)為數(shù)據(jù)并行計算設(shè)備,因此能夠?qū)崿F(xiàn)寄存器分配、線程/線程束級別調(diào)整等細粒度優(yōu)化,這些是CUDA
C/C++等語言無法實現(xiàn)的。DeepSeek
V3采用定制的
PTX(并行線程執(zhí)行)指令并自動調(diào)整通信塊大小,這大大減少了
L2
緩存的使用和對其他
SM
的干擾。PTX
允許對
GPU
硬件進行細粒度控制,這在特定場景下可以帶來更好的性能。圖:C++與PTX代碼的區(qū)別圖:英偉達PTX是專門為其GPU設(shè)計的中間指令集架構(gòu)資料來源:新智元,量子位公眾號請務(wù)必閱讀報告附注中的風(fēng)險提示和免責(zé)聲明25DeepSeek探索LLM在沒有任何監(jiān)督數(shù)據(jù)的情況下發(fā)力推理能力的潛力,通過純RL(強化學(xué)習(xí))的過程實現(xiàn)自我進化。具體來說,DS使用
DeepSeek-V3-Base
作為基礎(chǔ)模型,并使用GRPO(群體相對策略優(yōu)化)作為RL框架來提高模型在推理中的性能。在訓(xùn)練過程中,DeepSeek-R1-Zero自然而然地出現(xiàn)了許多強大而有趣的推理行為。經(jīng)過數(shù)千次
RL
步驟后,DeepSeek-R1-Zero
在推理基準(zhǔn)測試中表現(xiàn)出卓越的性能。例如,AIME
2024
的
pass@1
分?jǐn)?shù)從15.6%增加到
71.0%,在多數(shù)投票的情況下,分?jǐn)?shù)進一步提高到86.7%,與OpenAI-o1-0912的性能相當(dāng)圖:R1-Zero在不同測試基準(zhǔn)下超過o1mini甚至比肩o1的水平圖:隨時間推移DS模型性能顯著提升資料來源:《DeepSeek-R1:
Incentivizing
Reasoning
Capability
in
LLMs
via
Reinforcement
Learning》請務(wù)必閱讀報告附注中的風(fēng)險提示和免責(zé)聲明26GRPO相對PPO節(jié)省了與策略模型規(guī)模相當(dāng)?shù)膬r值模型,大幅縮減模型訓(xùn)練成本。傳統(tǒng)強化學(xué)習(xí)更多使用PPO(近端策略優(yōu)化),PPO中有3個模型,分別是參考模型(reference
model)、獎勵模型(reward
model)、價值模型(value
model),參考模型作為穩(wěn)定參照,與策略模型的輸出作對比;獎勵模型根據(jù)策略模型的輸出效果給出量化的獎勵值,價值模型則根據(jù)對策略模型的每個輸出預(yù)測未來能獲得的累計獎勵期望。ppo中的價值模型規(guī)模與策略模型相當(dāng),由此帶來巨大的內(nèi)存和計算負擔(dān)。GRPO(群里相對策略優(yōu)化)中省略了價值模型,采用基于組的獎勵歸一化策略,簡言之就是策略模型根據(jù)輸入q得到輸出o(1,2,3),再計算各自的獎勵值r(1,2,3),而后不經(jīng)過價值模型,而是制定一組規(guī)則,評判組間價值獎勵值的相對關(guān)系,進而讓策略模型以更好的方式輸出。圖:GRPO相對傳統(tǒng)PPO強化學(xué)習(xí)方式對比資料來源:AWS、《DeepSeek-R1:
Incentivizing
Reasoning
Capability
in
LLMs
via
Reinforcement
Learning》圖:GRPO核心方法詳解請務(wù)必閱讀報告附注中的風(fēng)險提示和免責(zé)聲明27模型訓(xùn)練過程中會迎來頓悟時刻。引用DeepSeek相關(guān)論文中的表述,GRPO強化學(xué)習(xí)框架下,不是人類教模型如何解決問題,而僅僅為其提供正確的激勵措施,模型會自主開發(fā)高級問題解決策略,模型訓(xùn)練過程中會出現(xiàn)“Aha
moment”,這表示模型意識到了更好的解決辦法并重新評估,為問題分配更多思考時間。這些頓悟時刻是模型思維能力躍升的關(guān)鍵。據(jù)DeepSeek的研究,模型的進步并非均勻漸進的。在強化學(xué)習(xí)過程中,響應(yīng)長度會出現(xiàn)突然的顯著增長,這些"跳躍點"往往伴隨著解題策略的質(zhì)變。這種模式酷似人類在長期思考后的突然頓悟,暗示著某種深層的認(rèn)知突破。圖:GRPO相對傳統(tǒng)PPO強化學(xué)習(xí)方式對比例如模型在解決這個
√a
-
√(a
+
x)
=
x
的問題時,模型突然停下來說"Wait,
wait.
Wait.
That's
an
aha
moment
I
can
flaghere"(等等、等等、這是個值得標(biāo)記的啊哈時刻),隨后重新審視了整個解題過程。這種類似人類頓悟的行為完全是自發(fā)產(chǎn)生的,而不是預(yù)先設(shè)定的。圖:強化學(xué)習(xí)過程中,模型會出現(xiàn)跳躍點,這就是頓悟時刻資料來源:《DeepSeek-R1:
Incentivizing
Reasoning
Capability
in
LLMs
via
Reinforcement
Learning》28純強化學(xué)習(xí)后出來的DeepSeek
R1
zero存在可讀性差以及語言混亂等問題,主要因其全通過獎懲信號來優(yōu)化其行為,沒有任何人類示范的"標(biāo)準(zhǔn)答案"作為參考,因此DeepSeek團隊使用冷啟動+多階段訓(xùn)練推出DeepSeek
R1模型。具體訓(xùn)練步驟:1)高質(zhì)量冷啟動數(shù)據(jù):與DeepSeek
R1
zero同理,以DeepSeek
v3
base作為強化學(xué)習(xí)的起點,但為了克服可讀性差的問題,選擇可讀性更強的cot(長思維鏈)數(shù)據(jù)作為冷啟動數(shù)據(jù),包括以可讀格式收集DeepSeek-R1
Zero輸出,并通過人工注釋者進行后處理來提煉結(jié)果。2)面向推理的強化學(xué)習(xí),這與DeepSeek
R1
zero的強化學(xué)習(xí)過程相同,但是在RL期間引入語言一致性獎勵,雖然語言對齊可能會造成一定的性能損失,但是提高了可讀性。3)抑制采樣和監(jiān)督微調(diào),拒絕采用指模型訓(xùn)練過程中生成的一些不符合特定標(biāo)準(zhǔn)或質(zhì)量要求的樣本數(shù)據(jù)進行舍棄,同時選取了v3的SFT數(shù)據(jù)集一部分作為微調(diào)數(shù)據(jù)。4)全場景強化學(xué)習(xí),屬于一個二級強化學(xué)習(xí)階段,目的是與人類偏好保持一致。圖:DeepSeek
R1
模型訓(xùn)練過程圖:DeepSeek
R1與其他模型的性能對比資料來源:《DeepSeek-R1:
Incentivizing
Reasoning
Capability
in
LLMs
via
Reinforcement
Learning》、澎湃新聞
請務(wù)必閱讀報告附注中的風(fēng)險提示和免責(zé)聲明請務(wù)必閱讀報告附注中的風(fēng)險提示和免責(zé)聲明29開源即代碼層面開源,可以調(diào)用與進行二次開發(fā)。開源免費調(diào)用有助于先行占據(jù)市場份額,成為規(guī)則制定者,率先拓展生態(tài)粘性。如,谷歌將安卓開源,獲得了全球80%的移動手機端市場份額,同時也覆蓋電視、汽車等使用場景。DeepSeek
V3與R1模型實現(xiàn)了開源,采用MIT協(xié)議。這產(chǎn)生多方面影響:對大模型發(fā)展:這提升了世界對中國AI大模型能力的認(rèn)知,一定程度打破了OpenAI與Anthropic等高級閉源模型的封閉生態(tài)。DeepSeekR1在多個測試指標(biāo)中對標(biāo)OpenAI
o1,通過模型開源,也將大模型平均水平提升至類OpenAI
o1等級。對下游生態(tài):優(yōu)質(zhì)的開源模型可更好用于垂類場景,即使用者針對自身需求蒸餾,或用自有數(shù)據(jù)訓(xùn)練,從而適合具體下游場景;此外,模型訓(xùn)推成本降低,將帶來使用場景的普及,帶動AIGC、端側(cè)等供給和需求。圖:DeepSeekMoE對比傳統(tǒng)MoE架構(gòu)圖:開源許可證協(xié)議標(biāo)準(zhǔn)資料來源:DeepSeek官網(wǎng),51TCO,國海證券研究所三、DeepSeek對AI應(yīng)用的影響?請務(wù)必閱讀報告附注中的風(fēng)險提示和免責(zé)聲明31核心觀點:DeepSeek在推動降本、強推理三大層面驅(qū)動下,有望加速AI應(yīng)用普及度迎來跨越式提升。OpenAI上線性價比模型o3-mini,加速低成本推理模型邊界。2025年2月1日,OpenAI深夜上線o3-mini系列推理模型,其也是OpenAI系列推理模型中最具性價比的模型。性能方面,o3-mini在數(shù)學(xué)、編程、科學(xué)等領(lǐng)域表現(xiàn)優(yōu)異,以數(shù)學(xué)能力為例,o3-mini(low)達到了與o1-mini相當(dāng)?shù)乃?;o3-mini(medium)能力媲美滿血版o1;o3-mini(high)表現(xiàn)超越o1系列一眾模型。對比DeepSeek-R1在數(shù)學(xué)能力、編程能力上的測試結(jié)果,DeepSeek
R1處于OpenAI
o3-mini(medium)水平。DeepSeek價格優(yōu)勢仍大幅領(lǐng)先于OpenAI系列推理模型。DeepSeek定價為百萬tokens輸入0.014美元(緩存命中,未命中則0.55美元),百萬tokens輸出價格2.19美元;o3-mini百萬tokens輸入價格0.55美元(緩存命中,未命中則1.1美元),百萬tokens輸出價格為4.4美元。圖:DeepSeek和OpenAI能力對比圖:DeepSeek和OpenAI推理模型定價對比7.515600.550.552.191.14.4百萬tokens輸入(緩存命中)百萬tokens輸入(緩存未命中)百萬tokens輸出價格0.0140 102030405060
70OpenAI-o3-mini OpenAI-o1 DeepSeek
r1Benchmark03-mini(Low)03-mini(Medium)03-mini(High)DeepSeek-R1AIME
2024(Math)6079.687.379.8GPQA
Diamond(Science)70.676.879.771.5Codeforces(Coding)1831(ELO)2036(ELO)2130(ELO)96.3(Percentile)SWE-benchVerified
(Software
Eng.)40.842.949.349.2資料來源:DeepSeek官方公眾號,OpenAI官網(wǎng),國海證券研究所請務(wù)必閱讀報告附注中的風(fēng)險提示和免責(zé)聲明32我們認(rèn)為DeekSeek或推動AI投資回報率加速提升,AI應(yīng)用商業(yè)模式加速跑通。據(jù)中國工業(yè)互聯(lián)網(wǎng)研究院數(shù)據(jù),2024年以字節(jié)火山引擎、阿里云、百度云為代表的云廠商掀起了大模型價格戰(zhàn),降價幅度普遍達到90%以上。海外以O(shè)penAI為例,5月發(fā)布GPT-4o,模型性能升級且價格較GPT-4-Turbo下降50%;8月上線GPT-4o新版本,更強更便宜,但輸出價格節(jié)省33%。國內(nèi)以阿里為例,12月31日阿里云宣布2024年度第三輪大模型降價,通義千問視覺理解模型全線降價超80%。全球及中國AI應(yīng)用市場規(guī)模加速提升。據(jù)IDC數(shù)據(jù),全球生成式AI市場規(guī)模在2024年達到360.6美元,同比+76%,預(yù)計在2028年達到2154億美元;中國AI軟件市場規(guī)模在2024年達到5.7億美元,預(yù)計2028年達到35.4億美元。圖:大模型降本趨勢明確圖:全球生成式AI市場規(guī)模圖:中國AI軟件市場規(guī)模資料來源:IDC、艾瑞咨詢、中國工業(yè)互聯(lián)網(wǎng)研究院、國海證券研究所204.8360.6627.2103576%74% 215465%156952%37%0%10%20%30%40%50%60%70%80%050010001500200025002023 2024 2025E 2026E 2027E 2028E全球生成式AI市場規(guī)模(億美元) yoy5.78.513.422.349%58%66%
35.40%10%20%30%40%59%60%50%70%051015202530354020242025E2026E2027E2028E中國AI軟件市場規(guī)模(億美元)yoy請務(wù)必閱讀報告附注中的風(fēng)險提示和免責(zé)聲明33R1-Zero展現(xiàn)出強大的通用推理能力。它不僅在數(shù)學(xué)競賽中取得驚人成績,更重要的是,R1-Zero不僅是在模仿思考,而是真正發(fā)展出了某種形式的推理能力。DeepSeek最終目標(biāo):AGI。傳統(tǒng)的AI訓(xùn)練方法可能一直在重復(fù)于讓AI模仿人類的思維方式。通過純粹的強化學(xué)習(xí),AI系統(tǒng)似乎能夠發(fā)展出更原生的問題解決能力,而不是被限制在預(yù)設(shè)的解決方案框架內(nèi)。雖然R1-Zero在輸出可讀性上存在明顯缺陷,但這個"缺陷"本身可能恰恰印證了其思維方式的獨特性。就像一個天才兒童發(fā)明了自己的解題方法,卻難以用常規(guī)語言解釋一樣。這提示我們:真正的通用人工智能可能需要完全不同于人類的認(rèn)知方式。圖:我國AGI產(chǎn)業(yè)圖譜資料來源:infoQ,國海證券研究所請務(wù)必閱讀報告附注中的風(fēng)險提示和免責(zé)聲明34蒸餾法具有強大的潛力,端側(cè)小模型迎來發(fā)展契機。如下表所示,只需提取
DeepSeek-R1
的輸出即可使高效的DeepSeekR1-7B全面優(yōu)于GPT-4o-0513等非推理模型,DeepSeek-R1-14B在所有評估指標(biāo)上都超過了QwQ-32BPreview,而
DeepSeek-R1-32B和DeepSeek-R1-70B在大多數(shù)基準(zhǔn)測試中明顯超過了
o1-mini。此外,我們發(fā)現(xiàn)將
RL
應(yīng)用于這些蒸餾模型會產(chǎn)生顯著的進一步收益。我們認(rèn)為這值得進一步探索,因此在這里只提供簡單的
SFT
蒸餾模型的結(jié)果。DeepSeek產(chǎn)品協(xié)議明確可“模型蒸餾”。DeepSeek決定支持用戶進行“模型蒸餾”,已更新線上產(chǎn)品的用戶協(xié)議,明確允許用戶利用模型輸出、通過模型蒸餾等方式訓(xùn)練其他模型。圖:DeepSeek
R1蒸餾小模型性能對比AIME2024pass
@1AIME2024cons
@64MATH-500pass@1GPQADiamondpass@1LiveCodeBenchpass@1CodeForcesratingGPT-4o-05139.313.474.649.932.9759Claude-3.5-Sonnet-10221626.778.36538.9717o1-mini63.680906053.81820QwQ-32B446090.654.541.91316DeepSeek-R1-Distill-Qwen-1.5B28.952.783.933.816.9954DeepSeek-R1-Distill-Qwen-7B55.583.392.849.137.61189DeepSeek-R1-Distill-Qwen-14B69.78093.959.153.11481DeepSeek-R1-Distill-Qwen-32B72.683.394.362.157.21691DeepSeek-R1-Distill-Llama-8B50.48089.14939.61205DeepSeek-R1-Distill-Llama-70B7086.794.565.257.51633圖:端側(cè)與云端部署AI的規(guī)模區(qū)別資料來源:DeepSeek公司公眾號,國海證券研究所請務(wù)必閱讀報告附注中的風(fēng)險提示和免責(zé)聲明35全球端側(cè)AI市場規(guī)模預(yù)計從2022
年的152億美元增長到2032年的1436億美元。這一近十倍的增長不僅反映了市場對邊緣
AI
解決方案的迫切需求,也預(yù)示著在制造、汽車、消費品等多個行業(yè)中,邊緣
AI
技術(shù)將發(fā)揮越來越重要的作用。在資源受限的設(shè)備上部署性能強大的模型,必須面對內(nèi)存與計算能力的雙重挑戰(zhàn),自2023年起,隨著參數(shù)量低于
10B
的模型系列如
Meta
的LLaMA、Microsoft
的
Phi
系列等的涌現(xiàn),LLMs
在邊緣設(shè)備上運行的可行性逐步明朗。圖:全球端側(cè)AI市場規(guī)模圖:端側(cè)AI產(chǎn)業(yè)鏈圖譜資料來源:《On-Device
Language
Models:
A
Comprehensive
Review》Jiajun
Xu、公司官網(wǎng)四、DeepSeek對算力影響?請務(wù)必閱讀報告附注中的風(fēng)險提示和免責(zé)聲明37模型結(jié)構(gòu)
Architecture模型訓(xùn)練方法
Pre-Train針對性GPU優(yōu)化專家模型
MOE+
多頭潛在自注意力
MLA用于負載均衡的輔助無損策略多標(biāo)記預(yù)測
(MTP)Dual
PipeAll
To
ALL
通信內(nèi)核IB+NVLink無張量并行
TP低精度FP8訓(xùn)練PTX語言帶寬限制資料來源:DeepSeek論文,國海證券研究所(注:表格為DeepSeek
V3官方訓(xùn)練費用,不包含此前對架構(gòu)、算法、或數(shù)據(jù)進行研究和實驗的相關(guān)費用)訓(xùn)練成本預(yù)訓(xùn)練上下文擴展后訓(xùn)練總計H800
GPU小時(萬小時)266.411.90.5278.8美元(萬元)532.823.810557.6Deep
Seek
V
3
模型訓(xùn)練成本達278
.
8
萬H
800
小時,
共花費557
.
6
萬美元。對比Open
AI、Anthropic、Lla
MA
3
等模型,
Deep
SeekV
3
單次訓(xùn)練成本顯著降低,
主要系Deep
Seek公司通過優(yōu)化模型結(jié)構(gòu)、模型訓(xùn)練方法、針對性GPU優(yōu)化等部分,
提升了模型訓(xùn)練過程中的算力使用效率。表:DeepSeek
V3訓(xùn)練成本(假設(shè)H800租賃價格為
2
美元/每GPU小時)圖:DeepSeek
V3節(jié)省訓(xùn)練成本的方法,包括調(diào)整模型結(jié)構(gòu)、訓(xùn)練方法、GPU優(yōu)化等請務(wù)必閱讀報告附注中的風(fēng)險提示和免責(zé)聲明38據(jù)Semianalysis,
Deep
Seek大致?lián)碛?0000
張H
800
GPU芯片、10000
張H
100
GPU芯片以及大量H
20
GPU芯片,
用于模型訓(xùn)練/推理、研究等任務(wù)。其估計,
Deep
Seek的總服務(wù)器資本支出(
Cap
Ex)
約為13
億美元(
約90
億元人民幣),
其中僅集群運營成本就高達7
.
15
億美元。Deep
Seek
V
3
論文中557
.
6
萬美元成本,
僅為預(yù)訓(xùn)練中消耗的GPU計算成本,
但模型完整訓(xùn)練成本包括研發(fā)、數(shù)據(jù)清洗、人員薪資、硬件總擁有成本TCO(
服務(wù)器、電力、冷卻系統(tǒng)、數(shù)據(jù)中心維護)
等,
會帶來訓(xùn)練總成本體量更高。作為對比,
Anthropic訓(xùn)練Claude
3
.
5
Sonnet的成本就高達數(shù)千萬美元。表:DeepSeek
AI
TCO(總擁有成本)ChipUnitA100H20H800H100TotalYears#4444#of
GPUs#10,00030,00010,00010,00060,000NVDA$
ASP$13,50012,50020,00023,00046,000ServerCapEx/
GPU$23,71624,22831,72834,72879,672TotalServer
CapEx$m2377273173471,281Costto
Operation$m157387170230715TotalTCO(4y
Ownership)$m/
hr3951,1144875771,996資料來源:Semianalysis,國海證券研究所請務(wù)必閱讀報告附注中的風(fēng)險提示和免責(zé)聲明39資料來源:SemianalysisAI的演進路徑中,
推理成本不斷下降,
計算效率持續(xù)提高是長期趨勢。例如:
算法進步的速度約為每年4
倍,
即每年達到相同能力所需的計算量減少到四分之一;
Anthropic
CEO
Dario甚至認(rèn)為,
這一進步速度可能達到10
倍。Jevons
悖論:
技術(shù)進步提高了資源使用效率,
效率提高降低了資源使用成本,
成本下降刺激了資源需求的增長,
需求增長可能超過效率提升帶來的節(jié)約,
最終導(dǎo)致資源總消耗增加。短期訓(xùn)練側(cè)算力需求或受影響,
但Deep
Seek推理價格下降吸引更多用戶調(diào)用模型,
帶來英偉達H
100
GPU的租賃價格提升,
故表明算力需求量短期仍呈提升趨勢,
中長期推理算力需求有望持續(xù)增長。圖:大模型成本持續(xù)下降,效率提升 圖:關(guān)鍵模型的測試情況請務(wù)必閱讀報告附注中的風(fēng)險提示和免責(zé)聲明40Deep
Seek降低推理成本,
引算力需求結(jié)構(gòu)變化。模型算法改進提升了訓(xùn)練算力使用效率、降低了訓(xùn)練成本,
促進了模型商品化和更便宜的推理。據(jù)S
e
m
i
a
n
a
l
y
s
i
s
,
D
e
e
p
S
e
e
k
推理服務(wù)可能以成本價運營,
以此搶占市場份額,
還在推理端優(yōu)化英偉達H
2
0GPU的使用(
H
20
內(nèi)存與帶寬容量高于H
100
,
推理效率更具優(yōu)勢)。推理占比持續(xù)提升。更低的推理成本有望提升下游應(yīng)用與端側(cè)對大模型推理使用需求,
推理算力需求占比有望增長。2024
H
1
,用于推理的人工智能芯片市占率為61
%。據(jù)IDC,
預(yù)期2023
-
2027
年,
推理AI服務(wù)器工作負載占比從41
%
提升至73
%
左右。集合多種模型的云服務(wù)廠商有望受益。無論是開源還是閉源模型,
計算資源都很重要,
如果云廠商基于計算資源打造上層服務(wù)或產(chǎn)品,
那么計算資源的價值就有可能提升,
這意味著更多的Capex流向硬件領(lǐng)域,
軟件也有望受益。ModelPrice/1M
InputTokensPrice/1M
OutputTokensMMLU(Pass@1)SWE
Verified(Resolved)AIME2024MATH
-500Claude-3.5-Sonnet-
1022$3.00$15.0088.350.81678.3GPT-4o-
0513$2.50$10.0087.238.89.374.6DeepSeek-
V3(TogetherAI)$1.25$1.2588.542.039.290.2DeepSeek-V3
MedianProvider$0.90$1.10DeepSeek-V3
(NormalPrice)$0.27$1.10DeepSeek-V3
(DiscountPrice)$0.14$0.28Gemini1.5
Pro$1.25$5.00862088GPT-4o-
mini$0.15$0.608233.26.779Llama3.1
405B$3.50$3.5088.624.523.373.8Llama3.2
70B$0.59$0.73862064表:DeepSeek
V3性能優(yōu)越,推理價格較低資料來源:Semianalysis,IDC,國海證券研究所圖:2024H1,中國
Top5
GenAl
laaS服務(wù)廠商市場份額請務(wù)必閱讀報告附注中的風(fēng)險提示和免責(zé)聲明41模型推理對大型集群要求弱于訓(xùn)練,
這與目前國產(chǎn)算力單卡實力較強、互聯(lián)能力不足的情況匹配,
并考慮到目前中美半導(dǎo)體博弈加劇,
D
e
e
p
S
e
e
k
積極適配昇騰、海光等國產(chǎn)芯片,
國產(chǎn)化推理算力需求有望持續(xù)增長。圖:2024H1,中國人工智能芯片市場份額圖:美國限制高端NV
GPU出口中國圖:DeepSeekR1&V3推理服務(wù)適配昇騰云圖:DeepSeekR1&V3推理服務(wù)適配海光DCU資料來源:IDC,Semianalysis,華為云公眾號,光合組織公眾號請務(wù)必閱讀報告附注中的風(fēng)險提示和免責(zé)聲明422024
H
1
,
全國AI芯片出貨中,
國產(chǎn)化比例達20
%。2024
H
1
,
中國加速芯片的市場規(guī)模達超過9
0
萬張。G
P
U
卡占據(jù)8
0
%
的市場份額;
中國本土人工智能芯片品牌出貨量已接近2
0
萬張,
約占整個市場份額的2
0
%
。在加速卡入口受限之后,
由于數(shù)質(zhì)化轉(zhuǎn)型大趨勢對于算力的持續(xù)需求,
中國本土品牌加速卡持續(xù)優(yōu)化硬件能力,
市場份額存在一定程度的增長。圖:國內(nèi)外主流人工智能芯片性能對比情況64116184850230281%59%437138%95%120642%91%0%50%100%150%250020001500100050002018 2019 2020 2021 2022 2023 2024E中國AI芯片市場規(guī)模(億元) 同比(%,右軸)圖:2018-2024年中國AI芯片市場規(guī)模預(yù)測資料來源:各公司官網(wǎng),海光信息招股書,壁仞科技公眾號,鎂客網(wǎng),中商情報網(wǎng)、國海證券研究所請務(wù)必閱讀報告附注中的風(fēng)險提示和免責(zé)聲明43使用G
P
U
過程中,
通常需經(jīng)過多個層級才能調(diào)用到底層硬件。從上到下依次是高層編程語言
(
如
P
y
t
h
o
n
、C
+
+
)
、硬件接口
(
如
CUDA、Open
CL
等)、驅(qū)動程序,
最后才是底層硬件。在這個過程中,
CUDA
作為一個相對高層的接口,
為用戶提供編程接口,
而
PTX
則隱藏在驅(qū)動背后。Deep
Seek-
V
3
模型在多節(jié)點通信時繞過了
CUDA
直接使用
PTX(
Pa
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- Unit 2 More than fun:Understanding ideas (Grammar) 教學(xué)設(shè)計 2024-2025學(xué)年外研版(2024年)英語七年級 上冊
- 2025年度勞動合同解除終止證明書模板設(shè)計與員工離職后續(xù)支持合同
- 2025年度拖欠工資問題解決與勞動權(quán)益保障合同
- 2025年度家居裝修安全責(zé)任協(xié)議書
- 2025年度房產(chǎn)證辦理完畢后購房合同保管期限與責(zé)任合同
- 2025年度抵押車買賣合同車輛交易稅費繳納及返還協(xié)議
- 2025年度餐飲公司合伙人合作協(xié)議及知識產(chǎn)權(quán)保護合同
- 2025年度臨時炊事員餐飲服務(wù)與管理合作協(xié)議
- 2025年度個人水泥品牌授權(quán)與推廣合作協(xié)議
- 2025年度體育場地租賃及健身課程開發(fā)合同
- 三年級下冊數(shù)學(xué)課件 兩位數(shù)除兩、三位數(shù) 滬教版 (共15張PPT)
- 《六大茶類》講義
- Unit 2 Listening and speaking 課件-高中英語人教版(2019)選擇性必修第二冊
- X會計師事務(wù)所的J城投公司發(fā)債審計項目研究
- 中國傳媒大學(xué)全媒體新聞編輯:案例教學(xué)-課件-全媒體新聞編輯:案例教學(xué)-第7講
- 生理學(xué)泌尿系統(tǒng)6學(xué)時課件
- PySide學(xué)習(xí)教程
- 數(shù)據(jù)結(jié)構(gòu)英文教學(xué)課件:chapter1 Introduction
- 人教三年級數(shù)學(xué)下冊表格式全冊
- 優(yōu)秀教研組評比制度及實施細則
- JJF 1752-2019全自動封閉型發(fā)光免疫分析儀校準(zhǔn)規(guī)范(高清版)
評論
0/150
提交評論