計算機人工智能系列深度報告：DeepSeek研究框架

上傳人：b*** IP屬地：北京上傳時間：2025-02-17 格式：PPTX 頁數(shù)：47 大小：12.83MB 積分：25 舉報 版權(quán)申訴

已閱讀5頁，還剩42頁未讀，繼續(xù)免費閱讀

版權(quán)說明：本文檔由用戶提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請進行舉報或認(rèn)領(lǐng)

文檔簡介

請務(wù)必閱讀報告附注中的風(fēng)險提示和免責(zé)聲明3DeepSeek引領(lǐng)全球AI創(chuàng)新，一定程度上也影響了全球AI格局，并提振了國內(nèi)AI產(chǎn)業(yè)信心。我們看好由DeepSeek帶來的AI產(chǎn)業(yè)、尤其是國內(nèi)AI產(chǎn)業(yè)的發(fā)展機遇，包括AI應(yīng)用、端側(cè)AI、算力等三個方向。DeepSeek（深度求索）專注大模型技術(shù)，V3和R1模型驚艷海內(nèi)外DeepSeek（深度求索）成立于2023年7月，由量化資管公司幻方量化創(chuàng)立，DeepSeek專注于開發(fā)先進的大語言模型（LLM）和相關(guān)技術(shù)。2024年1月5日，發(fā)布第一個大模型DeepSeek

LLM；12月26日，上線DeepSeek-V3并同步開源，DeepSeek-V3采用FP8訓(xùn)練，性能對其世界頂尖的閉源模型GPT-4o以及Claude-3.5-Sonnet。2025年1月20日，發(fā)布DeepSeek-R1，DeepSeek-R1在數(shù)學(xué)、代碼、自然語言推理等任務(wù)上，性能比肩OpenAI

o1正式版。DeepSeek-R1推出后廣受關(guān)注，據(jù)Appfigures、Sensor

Tower報告，1月26日以來，深度求索（DeepSeek）發(fā)布的DeepSeek

AI智能助手爆火，在全球140個市場的應(yīng)用商店下載榜上排名第一。DeepSeek

V3和R1模型基于Transformer架構(gòu)，采用了MLA和DeepSeek

MoE兩大核心技術(shù)，引入了多令牌預(yù)測、FP8混合精度訓(xùn)練等創(chuàng)新技術(shù)，顯著提升了模型的訓(xùn)練效率和推理性能。DeepSeek創(chuàng)始人梁文鋒表示“V2模型沒有海外回來的人，都是本土的”。DeepSeek代表中國本土AI大模型，也代表開源AI走在了全球AI市場的前列。DeepSeek對全球AI行業(yè)影響頗深：激發(fā)創(chuàng)新、提振國產(chǎn)、推廣開源DeepSeek成為了全球AI的一條“鯰魚”。DeepSeek發(fā)布或?qū)е氯駻I格局變化，中美AI形勢生變，全球AI被“鯰魚”激活。預(yù)計美系A(chǔ)I會不斷反應(yīng)，全球AI模型迭代和發(fā)布頻率將提速，投入繼續(xù)加大。自1月20日DeepSeek-R1發(fā)布以來，OpenAI連續(xù)發(fā)布了Agent

operator，O3

mini、Deep

Research等模型，OpenAI

CEO表示GPT-5將是超級混合模型，計劃把GPT和o系列模型整合在一起。DeepSeek驅(qū)動國產(chǎn)AI估值重塑。我們認(rèn)為：長期以來，算力和技術(shù)是制約國內(nèi)AI估值的主要因素，DeepSeek在國內(nèi)AI芯片受限的環(huán)境里，通過本土AI團隊，探索出一條“算法創(chuàng)新+有限算力”的新路徑，較大地提振了國內(nèi)AI產(chǎn)業(yè)信心。DeepSeek-R1的推出或同時打破了抑制國產(chǎn)AI產(chǎn)業(yè)的技術(shù)和算力這兩項天花板，將驅(qū)動國產(chǎn)AI軟件硬件迎估值重塑。DeepSeek是開源AI的“ChatGPT時刻”。OpenAI

CEO首次承認(rèn)OpenAI的閉源策略“站在了歷史錯誤的一邊”。DeepSeek-R1開源將會吸引更多人參與到大模型研發(fā)中，并通過蒸餾等技術(shù)顯著提升推理AI、小模型的性能，將大幅加速全球AI創(chuàng)新，加速AI推理進程，普惠AI、AI平權(quán)將驅(qū)動DeepSeek迅速推廣，近期全球CSP大廠密集上架DeepSeek能力也驗證了這點，我們預(yù)計Killer

APP的誕生或?qū)⑴R近。請務(wù)必閱讀報告附注中的風(fēng)險提示和免責(zé)聲明4DeepSeek推動AGI時代到來，關(guān)注AI應(yīng)用、端側(cè)AI、算力三大主線AI應(yīng)用：DeepSeek的創(chuàng)新帶來成本極致優(yōu)化，帶來AI普惠、AI平權(quán)，將加速AI應(yīng)用的創(chuàng)新，國內(nèi)AI應(yīng)用將受益于DeepSeek實現(xiàn)能力顯著提升，應(yīng)用上游的模型API的價格下降也將驅(qū)動應(yīng)用廠商的商業(yè)模式快速成熟。AI端側(cè)：DeepSeek支持用戶進行“模型蒸餾”，并通過DeepSeek-R1的輸出，蒸餾了6個小模型開源給社區(qū)。端側(cè)AI能力過去受限于端側(cè)AI計算影響，DeepSeek將顯著提升端側(cè)小模型的能力，進而提升AI終端能力。算力：杰文斯悖論指出當(dāng)我們希望通過技術(shù)進步來提高資源效率時，可能會導(dǎo)致資源的消耗增加。我們預(yù)計DeepSeek帶來的大模型推理成本的優(yōu)化，將加速AI的普及推廣，和下游應(yīng)用的商業(yè)模式構(gòu)建，并推動AI算力進入由終端用戶需求驅(qū)動的長增長周期。投資建議DeepSeek探索出一條“算法創(chuàng)新+有限算力”的新路徑，開源AI時代或已至，國產(chǎn)AI估值或?qū)⒅厮?，維持計算機行業(yè)“推薦”評級。相關(guān)公司AI應(yīng)用：①2G：中科曙光、科大訊飛、中國軟件、太極股份、深桑達A、中科星圖、國投智能、云從科技、能科科技、拓爾思、航天信息、稅友股份、金財互聯(lián)、浪潮軟件、數(shù)字政通；②2B：金蝶國際、衛(wèi)寧健康、石基信息、明源云、新致軟件、用友網(wǎng)絡(luò)、廣聯(lián)達、萊斯信息、四川九洲、泛微網(wǎng)絡(luò)、致遠互聯(lián)、新開普、東方財富、同花順、恒生電子、宇信科技、當(dāng)虹科技、萬達信息、創(chuàng)業(yè)惠康、潤和軟件、彩訊股份、第四范式、焦點科技；③2C：金山辦公、三六零、萬興科技、福昕軟件、合合信息、螢石網(wǎng)絡(luò)。算力：①云：海光信息、寒武紀(jì)、浪潮信息、華勤技術(shù)、云賽智聯(lián)、光環(huán)新網(wǎng)、中興通訊、寶信軟件、紫光股份、中國電信、優(yōu)刻得-W、青云科技-U、首都在線、并行科技、潤澤科技、中國軟件國際、神州數(shù)碼、深信服、新炬網(wǎng)絡(luò)、天璣科技；②邊：網(wǎng)宿科技、順網(wǎng)科技、云天勵飛；③端：軟通動力、中科創(chuàng)達、樂鑫科技、移遠通信。風(fēng)險提示：大模型產(chǎn)業(yè)發(fā)展不及預(yù)期、中美博弈加劇、宏觀經(jīng)濟影響下游需求、市場競爭加劇、相關(guān)標(biāo)的公司業(yè)績不及預(yù)期等、國內(nèi)外公司并不具備完全可比性，對標(biāo)的相關(guān)資料和數(shù)據(jù)僅供參考。請務(wù)必閱讀報告附注中的風(fēng)險提示和免責(zé)聲明5一、DeepSeek背景介紹、DeepSeek股權(quán)結(jié)構(gòu)及創(chuàng)始人背景、DeepSeek母公司幻方量化，早期確立AI戰(zhàn)略為后續(xù)出圈埋下伏筆、DeepSeek重視年輕團隊且兼具深厚技術(shù)底蘊，薪酬對標(biāo)字節(jié)跳動研發(fā)崗1.4、DeepSeek產(chǎn)品家族全梳理、DeepSeek日活遠超同期ChatGPT，下載量霸榜全球140個市場移動應(yīng)用榜首、DeepSeek獲得海內(nèi)外市場認(rèn)可，中國AI產(chǎn)業(yè)首次步入引領(lǐng)位置二、DeepSeek模型家族技術(shù)詳解、DeepSeek模型家族技術(shù)創(chuàng)新框架總攬、DeepSeek

v3：性能對齊海外領(lǐng)軍閉源模型，DeepSeek2024年巔峰之作、DeepSeek

Zero核心創(chuàng)新點——RL（強化學(xué)習(xí)）替代SFT（有監(jiān)督微調(diào)）、DeepSeek

R1：高質(zhì)量冷啟動數(shù)據(jù)+多階段訓(xùn)練，將強推理能力泛化、開源大模型：打破OpenAI等閉源模型生態(tài)，提升世界對中國AI大模型認(rèn)知三、DeepSeek對AI應(yīng)用的影響？、DeepSeek打開低成本推理模型邊界，加速AI應(yīng)用布局進程、DeepSeek

R1蒸餾賦予小模型高性能，端側(cè)AI迎來奇點時刻四、DeepSeek對算力影響？、DeepSeek

V3訓(xùn)練中GPU成本558萬美元，對比海外成本降低、DeepSeek或有約5萬Hopper

GPU，訓(xùn)練總成本或較高、推理化：推理算力需求占比提升，GenAI云廠商有望受益五、盈利預(yù)測及風(fēng)險提示一、DeepSeek背景介紹請務(wù)必閱讀報告附注中的風(fēng)險提示和免責(zé)聲明7DeepSeek是一家于2023年成立的中國初創(chuàng)企業(yè)，創(chuàng)始人是AI驅(qū)動量化對沖基金幻方量化的掌門人梁文鋒。從股權(quán)結(jié)構(gòu)圖顯示，DeepSeek由四名自然人通過五層控股掌握100%股份（其中梁文鋒間接持股比例83.29%，直接持股1%，累計84.2945%）。創(chuàng)始人梁文鋒出生于廣東湛江，浙江大學(xué)畢業(yè)，擁有信息與電子工程學(xué)系本科和碩士學(xué)位，2008年起開始帶領(lǐng)團隊使用機器學(xué)習(xí)等技術(shù)探索全自動量化交易，2015年幻方量化正式成立。2021年，幻方量化的資產(chǎn)管理規(guī)模突破千億大關(guān)，躋身國內(nèi)量化私募領(lǐng)域的“四大天王”之列。2023年梁文鋒宣布正式進軍通用人工智能領(lǐng)域，創(chuàng)辦DeepSeek，專注于做真正人類級別的人工智能。資料來源：商界觀察圖：DeepSeek股權(quán)結(jié)構(gòu)圖：幻方創(chuàng)始人梁文峰（圖右）請務(wù)必閱讀報告附注中的風(fēng)險提示和免責(zé)聲明8母公司幻方量化確立以AI為發(fā)展方向。2016年，幻方量化第一個由深度學(xué)習(xí)算法模型生成的股票倉位上線實盤交易，使用GPU進行計算。隨后不久，該公司明確宣布AI為主要發(fā)展方向。量化投資全面AI化驅(qū)動囤卡需求，為后續(xù)蛻變埋下伏筆。復(fù)雜的模型計算需求使得單機訓(xùn)練遭遇算力瓶頸，訓(xùn)練需求和有限的計算資源產(chǎn)生矛盾，幻方需要解決算力受限難題。于是幻方在2019年成立了一家AI基礎(chǔ)研究公司，并推出自研的“螢火一號”AI集群，搭載500塊顯卡。2021年，幻方又斥資10億元建設(shè)“螢火二號”，為AI研究提供算力支持。幻方在構(gòu)建AI算力過程中的“囤卡”動作為它贏得了市場機會。作為國內(nèi)早期的英偉達芯片大買家之一，2022年其用于科研支持的閑時算力高達1533萬GPU時，大大超越了后來很多大模型公司。圖：幻方量化發(fā)展歷程圖：幻方官網(wǎng)首頁標(biāo)語，以AI為核心發(fā)展方向資料來源：公司官網(wǎng)，國海證券研究所請務(wù)必閱讀報告附注中的風(fēng)險提示和免責(zé)聲明9團隊以年輕化為主，具備深厚技術(shù)底蘊。創(chuàng)始人梁文鋒曾在36氪的采訪中，給出了DeepSeek的員工畫像：“都是一些Top高校的應(yīng)屆畢業(yè)生、沒畢業(yè)的博四、博五實習(xí)生，還有一些畢業(yè)才幾年的年輕人?！弊?023年5月誕生以來，DeepSeek始終維持約150人的精英團隊，推行無職級界限、高度扁平化的文化，以此激發(fā)研究靈感，高效調(diào)配資源。早在2022年，幻方量化便著手為DeepSeek籌建AI團隊，至2023年5月DeepSeek正式成立時，團隊已匯聚近百名卓越工程師。如今，即便不計杭州的基礎(chǔ)設(shè)施團隊，北京團隊亦擁有百名工程師。技術(shù)報告的致謝欄揭示，參與DeepSeek

V3研發(fā)的工程師陣容，已壯大至139人。團隊薪酬水平對標(biāo)字節(jié)跳動研發(fā)崗位，且不限制人才的算力使用。據(jù)36氪資料顯示，DeepSeek薪酬水平對標(biāo)的字節(jié)研發(fā)，“根據(jù)人才能拿到的字節(jié)offer，再往上加價”；同時只要梁文鋒判斷技術(shù)提案有潛力，DeepSeek給人才的算力，“不限”。圖：DeepSeek公開招聘職位信息匯總資料來源：華爾街見聞，國海證券研究所職位名稱面向群體申請要求薪酬水平深度學(xué)習(xí)研究員校招&實習(xí)熟練掌握至少兩種編程語言；在國際頂會或期刊發(fā)表相關(guān)論文；知名比賽成績8-11萬元/月，一年14薪資深ui設(shè)計師經(jīng)驗不限，本科優(yōu)秀的藝術(shù)類教育背景；有互聯(lián)網(wǎng)或科技公司UI設(shè)計工作經(jīng)驗；4-7萬元/月，一年14薪深度學(xué)習(xí)研發(fā)工程師在校/應(yīng)屆，本科較強的工程能力；工程能力；知名比賽成績4-7萬元/月，一年14薪數(shù)據(jù)架構(gòu)工程師在校/應(yīng)屆，本科有搜索、推薦、廣告等業(yè)務(wù)數(shù)據(jù)的處理經(jīng)驗；有

規(guī)模中文網(wǎng)頁數(shù)據(jù)收集和清洗經(jīng)驗者優(yōu)先4.5-6.5萬元/月，一年14薪全棧開發(fā)工程師在校/應(yīng)屆，本科對主流的開源軟件有深入的了解，并且對此有做出貢獻2.5-5萬元/月，一年14薪客戶端研發(fā)工程師在校/應(yīng)屆，本科計算機或相關(guān)專業(yè)優(yōu)先；有獨立開發(fā)App經(jīng)驗，有優(yōu)秀開源項目者優(yōu)先。2-4萬元/月，一年14薪深度學(xué)習(xí)實習(xí)生計算機及相關(guān)專業(yè)研究生，特別優(yōu)秀的本科生；具有扎實的編程功底；有頂級AI會議論文發(fā)表經(jīng)驗或開源項目貢獻經(jīng)驗者優(yōu)先500元/天，4天一周，6個月；非北京地區(qū)學(xué)生來京實習(xí)有租房補助3000元/月請務(wù)必閱讀報告附注中的風(fēng)險提示和免責(zé)聲明10資料來源：新浪人工智能，國海證券研究所模型類別日期名稱內(nèi)容對標(biāo)LLM2023年11月2日Meta的CodeLlama是業(yè)內(nèi)標(biāo)桿，但DeepSeek

Coder展示出多方位領(lǐng)先的架勢。2024年6月17日DeepSeek

Coder 模型包括

1B，7B，33B

多種尺寸，開源內(nèi)容包含

Base

模型和指令調(diào)優(yōu)模型。DeepSeekCoder

代碼大模型，提供了

236B

和

16B

兩種版本。DeepSeekCoder

的

API

服務(wù)也同步上線，價格依舊是「1元/百萬輸入，2元/百萬輸出」。能力超越了當(dāng)時最先進的閉源模型

GPT-4-Turbo。2023年11月29日DeepSeekLLM

67B首款通用大語言模型，且同步開源了

和

67B

兩種不同規(guī)模的模型，甚至將模型訓(xùn)練過程中產(chǎn)生的

個

checkpoints也一并公開，Meta的同級別模型

LLaMA2

70B，并在近20個中英文的公開評測榜單上表現(xiàn)更佳。2024年3月11日DeepSeek-VL多模態(tài)

技術(shù)上的初步嘗試，尺寸為

與1.3B，模型和技術(shù)論文同步開源。2024年5月DeepSeek-V2通用

MoE

大模型的開源發(fā)布，DeepSeek-V2

使用了

MLA（多頭潛在注意力機制），將模型的顯存占用率降低至傳統(tǒng)

MHA

的

5%-13%對標(biāo)

GPT-4-Turbo，而

API價格只有后者的

1/702024年9月6日DeepSeek-V2.5

融合

Chat模型聚焦通用對話能力，Code模型聚焦代碼處理能力合二為一，更好的對齊模型了人類偏好，2024年12月10日DeepSeek-V2.5-1210DeepSeek

系列收官之作，全面提升了包括數(shù)學(xué)、代碼、寫作、角色扮演等在內(nèi)的多方能力。2024年12月26日DeepSeek-V3開源發(fā)布，訓(xùn)練成本估算只有

550

萬美金性能上全面對標(biāo)海外領(lǐng)軍閉源模型，生成速度也大幅提升。推理模型2024年2月5日DeepSeekMat數(shù)學(xué)推理模型，僅有

參數(shù)數(shù)學(xué)推理能力上直逼

GPT-42024年8月16日DeepSeek-Prover-V1.5數(shù)學(xué)定理證明模型在高中和大學(xué)數(shù)學(xué)定理證明測試中，均超越了多款知名的開源模型。2024年11月20日DeepSeek-R1-Lite2025年1月20日DeepSeek-R1證，并明確用戶協(xié)議允許

“模型蒸餾”。推理模型，為之后

的后訓(xùn)練，提供了足量的合成數(shù)據(jù)。媲美

o1-preview發(fā)布并開源，開放了思維鏈輸出功能，將模型開源

License統(tǒng)一變更為

MIT許可

在性能上全面對齊

OpenAI

o1正式版多模態(tài)模型2023年12月18日DreamCraft3D文生

模型，可從一句話生成高質(zhì)量的三維模型，實現(xiàn)了

AIGC

從

平面到3D立體空間的跨越。2024年12月13日DeepSeek-VL2多模態(tài)大模型，采用了

MoE

架構(gòu)，視覺能力得到了顯著提升，有

3B、16B

和27B三種尺寸，在各項指標(biāo)上極具優(yōu)勢。2025年1月27日DeepSeek

Janus-Pro

開源發(fā)布的多模態(tài)模型。架構(gòu)開源2024年1月11日DeepSeekMoE中英，免費商用，在

2B、16B、145B

等多個尺度上均領(lǐng)先開源了國內(nèi)首個

MoE（混合專家架構(gòu)）大模型

DeepSeekMoE：全新架構(gòu)，支持

被普遍認(rèn)為是

OpenAI

GPT-4性能突破的關(guān)鍵所在請務(wù)必閱讀報告附注中的風(fēng)險提示和免責(zé)聲明11DeepSeek-V3

為自研

MoE

模型，671B

參數(shù)，激活

37B，在14.8Ttoken上進行了預(yù)訓(xùn)練。V3多項評測成績超越了

Qwen2.5-72B

和

Llama-3.1-405B

等其他開源模型，并在性能上和世界頂尖的閉源模型

GPT-4o

以及

Claude-3.5-Sonnet

不分伯仲。在具體的測試集上，DeepSeek-V3在知識類任務(wù)上接近當(dāng)前表現(xiàn)最好的模型

Claude-3.5-Sonnet-1022；長文本/代碼/數(shù)學(xué)/中文能力上均處于世界一流模型位置。資料來源：DeepSeek官方公眾號圖：DeepSeek-V3對比領(lǐng)域開源/閉源模型圖：DeepSeek-V3在英文、代碼、數(shù)學(xué)領(lǐng)域表現(xiàn)優(yōu)異請務(wù)必閱讀報告附注中的風(fēng)險提示和免責(zé)聲明12DeepSeek-R1性能比較OpenAI-o1。DeepSeek-R1

在后訓(xùn)練階段大規(guī)模使用了強化學(xué)習(xí)技術(shù)，在僅有極少標(biāo)注數(shù)據(jù)的情況下，極大提升了模型推理能力。在數(shù)學(xué)、代碼、自然語言推理等任務(wù)上，性能比肩

OpenAI

正式版。DeepSeek

R1同步登錄DeepSeek官網(wǎng)或官方App。網(wǎng)頁或者app端打開“深度思考”模式，即可調(diào)用最新版

DeepSeek-R1

完成各類推理任務(wù)。開放的許可證和用戶協(xié)議。DeepSeek在發(fā)布并開源

的同時，同步在協(xié)議授權(quán)層面也進行了如下調(diào)整：1）模型開源

License

統(tǒng)一使用MIT，開源倉庫（包括模型權(quán)重）統(tǒng)一采用標(biāo)準(zhǔn)化、寬松的

MIT

License，完全開源，不限制商用，無需申請。2）產(chǎn)品協(xié)議明確可“模型蒸餾”；為了進一步促進技術(shù)的開源和共享，支持用戶進行“模型蒸餾”，明確允許用戶利用模型輸出、通過模型蒸餾等方式訓(xùn)練其他模型。資料來源：DeepSeek官方公眾號圖：DeepSeek-R1性能比肩

OpenAI

正式版圖：DeepSeek-R1發(fā)布即上線請務(wù)必閱讀報告附注中的風(fēng)險提示和免責(zé)聲明13DeepSeek

系列模型均極具定價優(yōu)勢。DeepSeek

V3模型定價：隨著性能更強、速度更快的

DeepSeek-V3

更新上線，模型API服務(wù)定價也將調(diào)整為每百萬輸入tokens

0.5

元（緩存命中）/

元（緩存未命中），每百萬輸出tokens

8元。DeepSeek-R1百萬tokens輸出價格約為o1的1/27。DeepSeek-R1

API

服務(wù)定價為每百萬輸入

tokens

元（緩存命中）/

元（緩存未命中），每百萬輸出

tokens

元。對比OpenAI-o1每百萬輸入tokens為55元（緩存命中），百萬tokens輸出為438元。資料來源：DeepSeek官方公眾號圖：DeepSeek-V3API定價對比海內(nèi)外主流模型圖：DeepSeek-R1定價對比同為推理模型的o1系列請務(wù)必閱讀報告附注中的風(fēng)險提示和免責(zé)聲明14DeepSeek遠超同期ChatGPT，AI格局或迎來重塑。2025年1月15日，DeepSeek

官方

App

正式發(fā)布，并在

iOS/Android

各大應(yīng)用市場全面上線。數(shù)據(jù)顯示，DeepSeek在上線18天內(nèi)達到日活躍用戶1500萬的成就，相較之下，同期ChatGPT則耗費244天才實現(xiàn)相同日活；2月4日，上線20天后日活突破2000萬，創(chuàng)下又一個新紀(jì)錄。DeepSeek在發(fā)布的前18天內(nèi)累計下載量達到1600萬次，峰值日下載量高達500萬次，幾乎是ChatGPT同期900萬次下載量的兩倍。此外，DeepSeek在全球140個市場中的移動應(yīng)用下載量排行榜上位居榜首。圖：DeepSeek對話助手圖：DeepSeek霸榜下載榜榜首資料來源：公司官網(wǎng)，蘋果APP

Store，Sensor

Tower圖：DeepSeek成全球增速最快的AI應(yīng)用請務(wù)必閱讀報告附注中的風(fēng)險提示和免責(zé)聲明15DeepSeek驚艷海外市場，中國AI產(chǎn)業(yè)首次步入引領(lǐng)位置。英偉達表示，DeepSeek為推理、數(shù)學(xué)和編碼等任務(wù)提供了

“最先進的推理能力”“高推理效率”

以及

“領(lǐng)先的準(zhǔn)確性”。Meta首席AI科學(xué)家YannLecun表示“DeepSeek-R1面世與其說意味著中國公司在AI領(lǐng)域正在超越美國公司，不如說意味著開源大模型正在超越閉源?！監(jiān)penAI首席執(zhí)行官Sam

Altman首次承認(rèn)OpenAI的閉源策略“站在了歷史錯誤的一邊”。微軟COE納德拉表示，公司的DeepSeekR1模型展現(xiàn)了"真正的創(chuàng)新力"。國內(nèi)黑神話制作人悟空馮冀表示，DeepSeek

可能是個國運級別的科技成果。圖：SamAltman評價DeepSeek圖：黑悟空神話制作人評價DeepSeek資料來源：澎湃新聞、IT之家請務(wù)必閱讀報告附注中的風(fēng)險提示和免責(zé)聲明16微軟、英偉達、亞馬遜、英特爾、AMD等科技巨頭陸續(xù)上線DeepSeek模型服務(wù)。1）1

月

日，英偉達宣布DeepSeek-R1可作為

NVIDIA

NIM

微服務(wù)預(yù)覽版使用。2）1月，DeepSeek-R1

模型被納入微軟平臺

Azure

Foundry

和

GitHub

的模型目錄，開發(fā)者將可以在Copilot

+PC上本地運行DeepSeek-R1

精簡模型，以及在Windows上的

GPU

生態(tài)系統(tǒng)中運行，此外還宣布將

DeepSeek-R1部署在云服務(wù)Azure上。3）AWS（亞馬遜云科技）宣布，用戶可以在Amazon

Bedrock

和Amazon

SageMaker

AI兩大AI服務(wù)平臺上部署DeepSeek-R1模型。4）Perplexity

宣布接入了

DeepSeek

模型，將其與

OpenAI

的

GPT-o1

和

Anthropic

的

Claude-3.5

并列作為高性能選項。5）華為：已上線基于其云服務(wù)的DeepSeek-R1相關(guān)服務(wù)；6）騰訊：DeepSeek-R1大模型可一鍵部署至騰訊云‘HAI’上，開發(fā)者僅需3分鐘就能接入調(diào)用。7）百度：DeepSeek-R1和DeepSeek-V3模型已在百度智能云千帆平臺上架；8）阿里：阿里云PAI

Model

Gallery支持云上一鍵部署DeepSeek-R1和DeepSeek-V3模型。圖：英偉達上線DeepSeek圖：微軟宣布接入DeepSeek資料來源：英偉達、微軟二、DeepSeek模型家族技術(shù)詳解請務(wù)必閱讀報告附注中的風(fēng)險提示和免責(zé)聲明18資料來源：《DeepSeek-R1:

Incentivizing

Reasoning

Capability

LLMs

via

Reinforcement

Learning》，《DeepSeek-V3

Technical

Report》，國海證券研究所MoE架構(gòu)模型核心創(chuàng)新1、多頭潛在注意力（MLA）使用低秩聯(lián)合壓縮方法減少注意力計算的緩存需求，同時保持多頭注意力的性能。2、混合專家架構(gòu)（DeepSeekMoE）① 細粒度專家分割② 共享專家隔離③ 輔助損失優(yōu)化的專家負載平衡策略。3、多

Token

預(yù)測目標(biāo)（MTP）擴展模型在每個位置預(yù)測多個未來

token

的能力，提高訓(xùn)練數(shù)據(jù)效率。4、DualPipe算法。5、支持

FP8

混合精度訓(xùn)練。DeepSeek

V3以V3作為基礎(chǔ)模型，純強化學(xué)習(xí)替代有監(jiān)督微調(diào)核心創(chuàng)新1、強化學(xué)習(xí)算法：

使用

GRPO框架，通過群體獎勵優(yōu)化策略模型。獎勵設(shè)計包括準(zhǔn)確性獎勵和格式獎勵。2、自我演化與頓悟時刻：

模型通過

RL自動學(xué)習(xí)復(fù)雜的推理行為，如自我驗證和反思。隨著訓(xùn)練過程的深入，模型逐步提升了復(fù)雜任務(wù)的解答能力，并在推理任務(wù)上顯現(xiàn)突破性的性能提升。DeepSeekR1Zero以V3作為基礎(chǔ)模型，結(jié)合冷啟動數(shù)據(jù)的多階段訓(xùn)練核心創(chuàng)新1、冷啟動數(shù)據(jù)引入：

從零開始的

RL容易導(dǎo)致初期性能不穩(wěn)定，為此設(shè)計了包含高質(zhì)量推理鏈的冷啟動數(shù)據(jù)集。該數(shù)據(jù)提高了模型的可讀性和訓(xùn)練初期的穩(wěn)定性。2、推理導(dǎo)向的強化學(xué)習(xí)：

通過多輪

RL，進一步優(yōu)化模型在數(shù)學(xué)、編程等推理密集型任務(wù)中的表現(xiàn)。3、監(jiān)督微調(diào)與拒絕采樣：

使用RL檢查點生成額外的推理和非推理任務(wù)數(shù)據(jù)，進一步微調(diào)模型。4、全場景強化學(xué)習(xí)：

在最終階段結(jié)合多種獎勵信號，提升模型的有用性和安全性。DeepSeek

R1請務(wù)必閱讀報告附注中的風(fēng)險提示和免責(zé)聲明19MLA從傳統(tǒng)的MHA（多頭注意力機制）出發(fā)，MHA通過并行運行多個Self-Attention層并綜合其結(jié)果，能夠同時捕捉輸入序列在不同子空間中的信息，從而增強模型的表達能力。通過將輸入的查詢、鍵和值矩陣分割成多個頭，并在每個頭中獨立計算注意力，再將這些頭的輸出拼接線性變換，從而實現(xiàn)在不同表示子空間中同時捕獲和整合多種交互信息，提升模型的表達能力。處理長序列時MHA會面臨計算和內(nèi)存效率上的局限性，MLA顯著降低計算及內(nèi)存占用問題。MLA的核心思想則是使用低秩分解（LoRA）來近似Key和Value的投影，以在推理期間減少鍵值緩存（KV

cache），顯著降低計算和內(nèi)存占用的復(fù)雜度。資料來源：《DeepSeek-V3

TechnicalReport》圖：DeepSeek

V3的創(chuàng)新架構(gòu)請務(wù)必閱讀報告附注中的風(fēng)險提示和免責(zé)聲明20MoE架構(gòu)：傳統(tǒng)MoE架構(gòu)的主要優(yōu)勢是利用稀疏激活的性質(zhì)，將大模型拆解成若干功能模塊，每次計算僅激活其中一小部分，而保持其余模塊不被使用，從而大大降低了模型的計算與學(xué)習(xí)成本，能夠在同等計算量的情況下產(chǎn)生性能優(yōu)勢。DeepSeekMoE在傳統(tǒng)MoE架構(gòu)之上，更新了兩個主要的策略：1）細粒度專家分割：在保持模型參數(shù)和計算成本一致的情況下，用更精細的顆粒度對專家進行劃分，更精細的專家分割使得激活的專家能夠以更靈活和適應(yīng)性更強的方式進行組合；2）共享專家隔離：采用傳統(tǒng)路由策略時，分配給不同專家的token可能需要一些共同的知識或信息，因此多個專家可能會有參數(shù)冗余。專門的共享專家致力于捕獲和整合不同上下文中的共同知識，有助于構(gòu)建一個具有更多專業(yè)專家且參數(shù)更高效的模型。負載均衡：MoE架構(gòu)下容易產(chǎn)生每次都由少數(shù)幾個專家處理所有tokens的情況，而其余大量專家處于閑置狀態(tài)，此外，若不同專家分布在不同計算設(shè)備上，同樣會造成計算資源浪費以及模型能力局限；負載均衡則類似一個公平的“裁判”，鼓勵專家的選擇趨于均衡，避免出現(xiàn)上述專家激活不均衡的現(xiàn)象。DeepSeek在專家級的負載均衡外，提出了設(shè)備級的負載均衡，確保了跨設(shè)備的負載均衡，大幅提升計算效率，

緩解計算瓶頸。圖：DeepSeekMoE對比傳統(tǒng)MoE架構(gòu)圖：MoE架構(gòu)理解框架資料來源：《DeepSeekMoE:

Towards

Ultimate

Expert

Specialization

Mixture-of-Experts

Language

Models》、量子位請務(wù)必閱讀報告附注中的風(fēng)險提示和免責(zé)聲明21MTP顯著提升模型性能。訓(xùn)練過程：傳統(tǒng)語言模型一次只預(yù)測一個token的范式。它就像是讓模型從"一字一句"地朗讀，進化為"整句整段"地理解和生成。在訓(xùn)練過程中，模型不再局限于預(yù)測序列中的下一個token，而是學(xué)會同時預(yù)測多個連續(xù)位置的token。這種并行預(yù)測機制不僅提高了訓(xùn)練效率，還讓模型能夠更好地捕捉token之間的依賴關(guān)系。在保持輸出質(zhì)量的同時，模型整體性能提升2-3%。推理階段：MTP的優(yōu)勢更加明顯。傳統(tǒng)模型生成文本時就像是在"一筆一劃"地寫字，而MTP則像是"提前打草稿"，可以同時生成多個token。通過創(chuàng)新的推測解碼機制，模型能夠基于當(dāng)前上下文同時預(yù)測多個可能的token序列。即使某些預(yù)測不準(zhǔn)確需要回退，整體效率仍然顯著提升。這種并行生成機制使推理速度提升了1.8倍，還顯著降低了計算開銷。資料來源：《DeepSeek-V3

TechnicalReport》圖：MTP架構(gòu)請務(wù)必閱讀報告附注中的風(fēng)險提示和免責(zé)聲明22DeepSeek

V3采用了FP8混合精度訓(xùn)練框架。在訓(xùn)練過程中，大部分核心計算內(nèi)核均采用FP8精度實現(xiàn)。例如，在前向傳播、激活反向傳播和權(quán)重反向傳播中，輸入數(shù)據(jù)均使用FP8格式，而輸出結(jié)果則使用BF16或FP32格式。這種設(shè)計使得計算速度相較于原始BF16方法提升一倍。FP

格式是一種低精度的數(shù)據(jù)格式，

具有較小的存儲空間和計算開銷。通過使用FP

格式，DeepSeek能夠在有限的計算資源下，實現(xiàn)更高的計算效率。例如，在處理大規(guī)模數(shù)據(jù)集時，F(xiàn)P8格式可以顯著減少顯存的占用，從而提高模型的訓(xùn)練速度。圖：具有

FP8

數(shù)據(jù)格式的整體混合精度框架資料來源：《DeepSeek-V3

TechnicalReport》，NVIDIA英偉達企業(yè)解決方案公眾號圖：多種精度數(shù)據(jù)類型結(jié)構(gòu)請務(wù)必閱讀報告附注中的風(fēng)險提示和免責(zé)聲明23DeepSeek-V3

采用了一種名為

DualPipe

的創(chuàng)新流水線并行策略。與傳統(tǒng)的單向流水線

(如

1F1B)

不同，DualPipe

采用雙向流水線設(shè)計，即同時從流水線的兩端饋送

micro-batch。這種設(shè)計可以顯著減少流水線氣泡

(Pipeline

Bubble)，提高

GPU

利用率。DualPipe

還將每個

micro-batch

進一步劃分為更小的

chunk，并對每個

chunk的計算和通信進行精細的調(diào)度。隨后將一個

chunk

劃分為

attention、all-to-alldispatch、MLP

和

all-to-all

combine

等四個組成部分，并通過精細的調(diào)度策略，使得計算和通信可以高度重疊。圖：DualPipe性能優(yōu)越圖：DualPipe示意圖資料來源：《DeepSeek-V3

TechnicalReport》Chunk拆分DualPipe8個PPrank

和20個micro-batch的

DualPipe

調(diào)度示例Dual

Pipe

在流水線氣泡數(shù)量和激活內(nèi)存開銷方面均優(yōu)于

和ZeroBubble

等現(xiàn)有方法請務(wù)必閱讀報告附注中的風(fēng)險提示和免責(zé)聲明24英偉達PTX（并行線程執(zhí)行）是專門為其GPU設(shè)計的中間指令集架構(gòu)，位于高級GPU編程語言（如CUDA

C/C++或其他語言前端）和低級機器代碼（流處理匯編或SASS）之間。PTX是一種接近底層的指令集架構(gòu)，將GPU呈現(xiàn)為數(shù)據(jù)并行計算設(shè)備，因此能夠?qū)崿F(xiàn)寄存器分配、線程/線程束級別調(diào)整等細粒度優(yōu)化，這些是CUDA

C/C++等語言無法實現(xiàn)的。DeepSeek

V3采用定制的

PTX（并行線程執(zhí)行）指令并自動調(diào)整通信塊大小，這大大減少了

緩存的使用和對其他

的干擾。PTX

允許對

GPU

硬件進行細粒度控制，這在特定場景下可以帶來更好的性能。圖：C++與PTX代碼的區(qū)別圖：英偉達PTX是專門為其GPU設(shè)計的中間指令集架構(gòu)資料來源：新智元，量子位公眾號請務(wù)必閱讀報告附注中的風(fēng)險提示和免責(zé)聲明25DeepSeek探索LLM在沒有任何監(jiān)督數(shù)據(jù)的情況下發(fā)力推理能力的潛力，通過純RL（強化學(xué)習(xí)）的過程實現(xiàn)自我進化。具體來說，DS使用

DeepSeek-V3-Base

作為基礎(chǔ)模型，并使用GRPO（群體相對策略優(yōu)化）作為RL框架來提高模型在推理中的性能。在訓(xùn)練過程中，DeepSeek-R1-Zero自然而然地出現(xiàn)了許多強大而有趣的推理行為。經(jīng)過數(shù)千次

步驟后，DeepSeek-R1-Zero

在推理基準(zhǔn)測試中表現(xiàn)出卓越的性能。例如，AIME

2024

的

pass@1

分?jǐn)?shù)從15.6%增加到

71.0%，在多數(shù)投票的情況下，分?jǐn)?shù)進一步提高到86.7%，與OpenAI-o1-0912的性能相當(dāng)圖：R1-Zero在不同測試基準(zhǔn)下超過o1mini甚至比肩o1的水平圖：隨時間推移DS模型性能顯著提升資料來源：《DeepSeek-R1:

Incentivizing

Reasoning

Capability

LLMs

via

Reinforcement

Learning》請務(wù)必閱讀報告附注中的風(fēng)險提示和免責(zé)聲明26GRPO相對PPO節(jié)省了與策略模型規(guī)模相當(dāng)?shù)膬r值模型，大幅縮減模型訓(xùn)練成本。傳統(tǒng)強化學(xué)習(xí)更多使用PPO（近端策略優(yōu)化），PPO中有3個模型，分別是參考模型（reference

model）、獎勵模型（reward

model）、價值模型（value

model），參考模型作為穩(wěn)定參照，與策略模型的輸出作對比；獎勵模型根據(jù)策略模型的輸出效果給出量化的獎勵值，價值模型則根據(jù)對策略模型的每個輸出預(yù)測未來能獲得的累計獎勵期望。ppo中的價值模型規(guī)模與策略模型相當(dāng)，由此帶來巨大的內(nèi)存和計算負擔(dān)。GRPO（群里相對策略優(yōu)化）中省略了價值模型，采用基于組的獎勵歸一化策略，簡言之就是策略模型根據(jù)輸入q得到輸出o（1，2，3），再計算各自的獎勵值r（1，2，3），而后不經(jīng)過價值模型，而是制定一組規(guī)則，評判組間價值獎勵值的相對關(guān)系，進而讓策略模型以更好的方式輸出。圖：GRPO相對傳統(tǒng)PPO強化學(xué)習(xí)方式對比資料來源：AWS、《DeepSeek-R1:

Incentivizing

Reasoning

Capability

LLMs

via

Reinforcement

Learning》圖：GRPO核心方法詳解請務(wù)必閱讀報告附注中的風(fēng)險提示和免責(zé)聲明27模型訓(xùn)練過程中會迎來頓悟時刻。引用DeepSeek相關(guān)論文中的表述，GRPO強化學(xué)習(xí)框架下，不是人類教模型如何解決問題，而僅僅為其提供正確的激勵措施，模型會自主開發(fā)高級問題解決策略，模型訓(xùn)練過程中會出現(xiàn)“Aha

moment”，這表示模型意識到了更好的解決辦法并重新評估，為問題分配更多思考時間。這些頓悟時刻是模型思維能力躍升的關(guān)鍵。據(jù)DeepSeek的研究，模型的進步并非均勻漸進的。在強化學(xué)習(xí)過程中，響應(yīng)長度會出現(xiàn)突然的顯著增長，這些"跳躍點"往往伴隨著解題策略的質(zhì)變。這種模式酷似人類在長期思考后的突然頓悟，暗示著某種深層的認(rèn)知突破。圖：GRPO相對傳統(tǒng)PPO強化學(xué)習(xí)方式對比例如模型在解決這個

√a

√(a

的問題時，模型突然停下來說"Wait,

wait.

Wait.

That's

aha

moment

can

flaghere"（等等、等等、這是個值得標(biāo)記的啊哈時刻），隨后重新審視了整個解題過程。這種類似人類頓悟的行為完全是自發(fā)產(chǎn)生的，而不是預(yù)先設(shè)定的。圖：強化學(xué)習(xí)過程中，模型會出現(xiàn)跳躍點，這就是頓悟時刻資料來源：《DeepSeek-R1:

Incentivizing

Reasoning

Capability

LLMs

via

Reinforcement

Learning》28純強化學(xué)習(xí)后出來的DeepSeek

zero存在可讀性差以及語言混亂等問題，主要因其全通過獎懲信號來優(yōu)化其行為，沒有任何人類示范的"標(biāo)準(zhǔn)答案"作為參考，因此DeepSeek團隊使用冷啟動+多階段訓(xùn)練推出DeepSeek

R1模型。具體訓(xùn)練步驟：1）高質(zhì)量冷啟動數(shù)據(jù)：與DeepSeek

zero同理，以DeepSeek

base作為強化學(xué)習(xí)的起點，但為了克服可讀性差的問題，選擇可讀性更強的cot（長思維鏈）數(shù)據(jù)作為冷啟動數(shù)據(jù)，包括以可讀格式收集DeepSeek-R1

Zero輸出，并通過人工注釋者進行后處理來提煉結(jié)果。2）面向推理的強化學(xué)習(xí)，這與DeepSeek

zero的強化學(xué)習(xí)過程相同，但是在RL期間引入語言一致性獎勵，雖然語言對齊可能會造成一定的性能損失，但是提高了可讀性。3）抑制采樣和監(jiān)督微調(diào)，拒絕采用指模型訓(xùn)練過程中生成的一些不符合特定標(biāo)準(zhǔn)或質(zhì)量要求的樣本數(shù)據(jù)進行舍棄，同時選取了v3的SFT數(shù)據(jù)集一部分作為微調(diào)數(shù)據(jù)。4）全場景強化學(xué)習(xí)，屬于一個二級強化學(xué)習(xí)階段，目的是與人類偏好保持一致。圖：DeepSeek

模型訓(xùn)練過程圖：DeepSeek

R1與其他模型的性能對比資料來源：《DeepSeek-R1:

Incentivizing

Reasoning

Capability

LLMs

via

Reinforcement

Learning》、澎湃新聞

請務(wù)必閱讀報告附注中的風(fēng)險提示和免責(zé)聲明請務(wù)必閱讀報告附注中的風(fēng)險提示和免責(zé)聲明29開源即代碼層面開源，可以調(diào)用與進行二次開發(fā)。開源免費調(diào)用有助于先行占據(jù)市場份額，成為規(guī)則制定者，率先拓展生態(tài)粘性。如，谷歌將安卓開源，獲得了全球80%的移動手機端市場份額，同時也覆蓋電視、汽車等使用場景。DeepSeek

V3與R1模型實現(xiàn)了開源，采用MIT協(xié)議。這產(chǎn)生多方面影響：對大模型發(fā)展：這提升了世界對中國AI大模型能力的認(rèn)知，一定程度打破了OpenAI與Anthropic等高級閉源模型的封閉生態(tài)。DeepSeekR1在多個測試指標(biāo)中對標(biāo)OpenAI

o1，通過模型開源，也將大模型平均水平提升至類OpenAI

o1等級。對下游生態(tài)：優(yōu)質(zhì)的開源模型可更好用于垂類場景，即使用者針對自身需求蒸餾，或用自有數(shù)據(jù)訓(xùn)練，從而適合具體下游場景；此外，模型訓(xùn)推成本降低，將帶來使用場景的普及，帶動AIGC、端側(cè)等供給和需求。圖：DeepSeekMoE對比傳統(tǒng)MoE架構(gòu)圖：開源許可證協(xié)議標(biāo)準(zhǔn)資料來源：DeepSeek官網(wǎng)，51TCO，國海證券研究所三、DeepSeek對AI應(yīng)用的影響？請務(wù)必閱讀報告附注中的風(fēng)險提示和免責(zé)聲明31核心觀點：DeepSeek在推動降本、強推理三大層面驅(qū)動下，有望加速AI應(yīng)用普及度迎來跨越式提升。OpenAI上線性價比模型o3-mini，加速低成本推理模型邊界。2025年2月1日，OpenAI深夜上線o3-mini系列推理模型，其也是OpenAI系列推理模型中最具性價比的模型。性能方面，o3-mini在數(shù)學(xué)、編程、科學(xué)等領(lǐng)域表現(xiàn)優(yōu)異，以數(shù)學(xué)能力為例，o3-mini（low）達到了與o1-mini相當(dāng)?shù)乃?；o3-mini（medium）能力媲美滿血版o1；o3-mini（high）表現(xiàn)超越o1系列一眾模型。對比DeepSeek-R1在數(shù)學(xué)能力、編程能力上的測試結(jié)果，DeepSeek

R1處于OpenAI

o3-mini（medium）水平。DeepSeek價格優(yōu)勢仍大幅領(lǐng)先于OpenAI系列推理模型。DeepSeek定價為百萬tokens輸入0.014美元（緩存命中，未命中則0.55美元），百萬tokens輸出價格2.19美元；o3-mini百萬tokens輸入價格0.55美元（緩存命中，未命中則1.1美元），百萬tokens輸出價格為4.4美元。圖：DeepSeek和OpenAI能力對比圖：DeepSeek和OpenAI推理模型定價對比7.515600.550.552.191.14.4百萬tokens輸入（緩存命中）百萬tokens輸入（緩存未命中）百萬tokens輸出價格0.0140 102030405060

70OpenAI-o3-mini OpenAI-o1 DeepSeek

r1Benchmark03-mini(Low)03-mini(Medium)03-mini(High)DeepSeek-R1AIME

2024(Math)6079.687.379.8GPQA

Diamond(Science)70.676.879.771.5Codeforces(Coding)1831(ELO)2036(ELO)2130(ELO)96.3(Percentile)SWE-benchVerified

(Software

Eng.)40.842.949.349.2資料來源：DeepSeek官方公眾號，OpenAI官網(wǎng)，國海證券研究所請務(wù)必閱讀報告附注中的風(fēng)險提示和免責(zé)聲明32我們認(rèn)為DeekSeek或推動AI投資回報率加速提升，AI應(yīng)用商業(yè)模式加速跑通。據(jù)中國工業(yè)互聯(lián)網(wǎng)研究院數(shù)據(jù)，2024年以字節(jié)火山引擎、阿里云、百度云為代表的云廠商掀起了大模型價格戰(zhàn)，降價幅度普遍達到90%以上。海外以O(shè)penAI為例，5月發(fā)布GPT-4o，模型性能升級且價格較GPT-4-Turbo下降50%;8月上線GPT-4o新版本，更強更便宜，但輸出價格節(jié)省33%。國內(nèi)以阿里為例，12月31日阿里云宣布2024年度第三輪大模型降價，通義千問視覺理解模型全線降價超80%。全球及中國AI應(yīng)用市場規(guī)模加速提升。據(jù)IDC數(shù)據(jù)，全球生成式AI市場規(guī)模在2024年達到360.6美元，同比+76%，預(yù)計在2028年達到2154億美元；中國AI軟件市場規(guī)模在2024年達到5.7億美元，預(yù)計2028年達到35.4億美元。圖：大模型降本趨勢明確圖：全球生成式AI市場規(guī)模圖：中國AI軟件市場規(guī)模資料來源：IDC、艾瑞咨詢、中國工業(yè)互聯(lián)網(wǎng)研究院、國海證券研究所204.8360.6627.2103576%74% 215465%156952%37%0%10%20%30%40%50%60%70%80%050010001500200025002023 2024 2025E 2026E 2027E 2028E全球生成式AI市場規(guī)模（億美元） yoy5.78.513.422.349%58%66%

35.40%10%20%30%40%59%60%50%70%051015202530354020242025E2026E2027E2028E中國AI軟件市場規(guī)模（億美元）yoy請務(wù)必閱讀報告附注中的風(fēng)險提示和免責(zé)聲明33R1-Zero展現(xiàn)出強大的通用推理能力。它不僅在數(shù)學(xué)競賽中取得驚人成績，更重要的是，R1-Zero不僅是在模仿思考，而是真正發(fā)展出了某種形式的推理能力。DeepSeek最終目標(biāo)：AGI。傳統(tǒng)的AI訓(xùn)練方法可能一直在重復(fù)于讓AI模仿人類的思維方式。通過純粹的強化學(xué)習(xí)，AI系統(tǒng)似乎能夠發(fā)展出更原生的問題解決能力，而不是被限制在預(yù)設(shè)的解決方案框架內(nèi)。雖然R1-Zero在輸出可讀性上存在明顯缺陷，但這個"缺陷"本身可能恰恰印證了其思維方式的獨特性。就像一個天才兒童發(fā)明了自己的解題方法，卻難以用常規(guī)語言解釋一樣。這提示我們：真正的通用人工智能可能需要完全不同于人類的認(rèn)知方式。圖：我國AGI產(chǎn)業(yè)圖譜資料來源：infoQ，國海證券研究所請務(wù)必閱讀報告附注中的風(fēng)險提示和免責(zé)聲明34蒸餾法具有強大的潛力，端側(cè)小模型迎來發(fā)展契機。如下表所示，只需提取

DeepSeek-R1

的輸出即可使高效的DeepSeekR1-7B全面優(yōu)于GPT-4o-0513等非推理模型，DeepSeek-R1-14B在所有評估指標(biāo)上都超過了QwQ-32BPreview，而

DeepSeek-R1-32B和DeepSeek-R1-70B在大多數(shù)基準(zhǔn)測試中明顯超過了

o1-mini。此外，我們發(fā)現(xiàn)將

應(yīng)用于這些蒸餾模型會產(chǎn)生顯著的進一步收益。我們認(rèn)為這值得進一步探索，因此在這里只提供簡單的

SFT

蒸餾模型的結(jié)果。DeepSeek產(chǎn)品協(xié)議明確可“模型蒸餾”。DeepSeek決定支持用戶進行“模型蒸餾”，已更新線上產(chǎn)品的用戶協(xié)議，明確允許用戶利用模型輸出、通過模型蒸餾等方式訓(xùn)練其他模型。圖：DeepSeek

R1蒸餾小模型性能對比AIME2024pass

@1AIME2024cons

@64MATH-500pass@1GPQADiamondpass@1LiveCodeBenchpass@1CodeForcesratingGPT-4o-05139.313.474.649.932.9759Claude-3.5-Sonnet-10221626.778.36538.9717o1-mini63.680906053.81820QwQ-32B446090.654.541.91316DeepSeek-R1-Distill-Qwen-1.5B28.952.783.933.816.9954DeepSeek-R1-Distill-Qwen-7B55.583.392.849.137.61189DeepSeek-R1-Distill-Qwen-14B69.78093.959.153.11481DeepSeek-R1-Distill-Qwen-32B72.683.394.362.157.21691DeepSeek-R1-Distill-Llama-8B50.48089.14939.61205DeepSeek-R1-Distill-Llama-70B7086.794.565.257.51633圖：端側(cè)與云端部署AI的規(guī)模區(qū)別資料來源：DeepSeek公司公眾號，國海證券研究所請務(wù)必閱讀報告附注中的風(fēng)險提示和免責(zé)聲明35全球端側(cè)AI市場規(guī)模預(yù)計從2022

年的152億美元增長到2032年的1436億美元。這一近十倍的增長不僅反映了市場對邊緣

解決方案的迫切需求，也預(yù)示著在制造、汽車、消費品等多個行業(yè)中，邊緣

技術(shù)將發(fā)揮越來越重要的作用。在資源受限的設(shè)備上部署性能強大的模型，必須面對內(nèi)存與計算能力的雙重挑戰(zhàn)，自2023年起，隨著參數(shù)量低于

10B

的模型系列如

溫馨提示

1. 本站所有資源如無特殊說明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽，若沒有圖紙預(yù)覽就沒有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 人人文庫網(wǎng)僅提供信息存儲空間，僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理，對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對任何下載內(nèi)容負責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容，請與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

計算機人工智能系列深度報告：DeepSeek研究框架

文檔簡介

溫馨提示

最新文檔

評論

計算機人工智能系列深度報告：DeepSeek研究框架

文檔簡介

溫馨提示

最新文檔

評論

相關(guān)文檔