計(jì)算機(jī)行業(yè)人工智能系列深度報(bào)告:deepseek研究框架-國海證券-20250214_第1頁
計(jì)算機(jī)行業(yè)人工智能系列深度報(bào)告:deepseek研究框架-國海證券-20250214_第2頁
計(jì)算機(jī)行業(yè)人工智能系列深度報(bào)告:deepseek研究框架-國海證券-20250214_第3頁
計(jì)算機(jī)行業(yè)人工智能系列深度報(bào)告:deepseek研究框架-國海證券-20250214_第4頁
計(jì)算機(jī)行業(yè)人工智能系列深度報(bào)告:deepseek研究框架-國海證券-20250214_第5頁
已閱讀5頁,還剩93頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

計(jì)算機(jī)2025年02月14日評級:推薦(維持)最近一年走勢—計(jì)算機(jī)—滬深300相關(guān)報(bào)告計(jì)算機(jī)*劉熹》——2025-02-03(推薦)*計(jì)算機(jī)*劉熹》——2025-01-24薦)*計(jì)算機(jī)*劉熹》——2025-01-14相對滬深300表現(xiàn)計(jì)算機(jī)滬深300DeepSeek引領(lǐng)全球Al創(chuàng)新,一定程度上也影響了全球Al格局,并提振了國內(nèi)A產(chǎn)業(yè)信心。我們看好由DeepSeek帶來的Al產(chǎn)業(yè)、尤其是國內(nèi)AI產(chǎn)業(yè)的發(fā)展機(jī)遇,包括Al應(yīng)用、端側(cè)Al、算力等三個(gè)方向?!鬌eepSeek(深度求索)專注大模型技術(shù),V3和R1模型驚艷海內(nèi)外DeepSeek(深度求索)成立于2023年7月,由量化資管公司幻方量化創(chuàng)立,DeepSeek專注于開發(fā)先進(jìn)的大語言模型(LLM)和相關(guān)技術(shù)。2024年1月5日,發(fā)布第一個(gè)大模型DeepSeekLLM;12月26日,上線DeepSeek-V3并同步開源,DeepSeek-V3采用FP8訓(xùn)練,性能對其世界頂尖的閉源模型GPT-40以及Claude-3.5-Sonnet。2025年1月20日,發(fā)布DeepSeek-R1,DeepSeek-R1在數(shù)學(xué)、代碼、自然語言推理等任務(wù)上,性能比肩OpenAl01正式版。DeepSeek-R1推出后廣受關(guān)注,據(jù)Appfigures、SensorTower報(bào)告,1月26日以來,深度求索(DeepSeek)發(fā)布的DeepSeekAl智能助手爆火,在全球140個(gè)市場的應(yīng)用商店下載榜上排名第一。DeepSeekV3和R1模型基于Transformer架構(gòu),采用了MLA和DeepSeekMoE兩大核心技術(shù),引入了多令牌預(yù)測、FP8混合精度訓(xùn)練等創(chuàng)新技術(shù),顯著提升了模型的訓(xùn)練效率和推理性能。DeepSeek創(chuàng)始人梁文鋒表示“V2模型沒有海外回來的人,都是本土的”。DeepSeek代表中國本土Al大模型,也代表開源Al走在了全球Al市場的前列?!鬌eepSeek對全球Al行業(yè)影響頗深:激發(fā)創(chuàng)新、提振國產(chǎn)、推廣開源1)DeepSeek成為了全球Al的一條“鯰魚”。DeepSeek發(fā)布或?qū)е氯駻格局變化,中美Al形勢生變,全球A被“鯰魚”激活。預(yù)計(jì)美系A(chǔ)l會不斷反應(yīng),全球A模型迭代和發(fā)布頻率將提速,投入繼續(xù)加大。自1月20日DeepSeek-R1發(fā)布以來,OpenAl連續(xù)發(fā)布了Agentoperator,03mini、DeepResearch等模型,OpenAICEO表示GPT-5將是超級混合模型,計(jì)劃把GPT和o系列模型整合在一起。2)DeepSeek驅(qū)動國產(chǎn)Al估值重塑。我們認(rèn)為:長期以來,算力和技術(shù)是制約國內(nèi)A估值的主要因素,DeepSeek在國內(nèi)Al芯片受限的環(huán)境里,通過本土A團(tuán)隊(duì),探索出一條“算法創(chuàng)新+有限算力”的新路徑,較大地提振了國內(nèi)Al產(chǎn)業(yè)信心。DeepSeek-R1的推出或同時(shí)打破了抑制國產(chǎn)Al產(chǎn)業(yè)的技術(shù)和算力這兩項(xiàng)天花板,將驅(qū)動國產(chǎn)Al軟件硬件迎估值重塑。3)DeepSeek是開源Al的“ChatGPT時(shí)刻”。OpenAICEO首次承認(rèn)OpenAl的閉源策略“站在了歷史錯(cuò)誤的一邊”。DeepSeek-R1開源將會吸引更多人參與到大模型研發(fā)中,并通過蒸餾等技術(shù)顯著提升推理Al、小模型的性能,將大幅加速全球Al創(chuàng)新,加速A|推理進(jìn)程,普惠Al、Al平權(quán)將驅(qū)動DeepSeek迅速推廣,近期全球CSP大廠密集上架DeepSeek能力也驗(yàn)證了這點(diǎn),我們預(yù)計(jì)KillerAPP的誕生或?qū)⑴R近。請務(wù)必閱讀報(bào)告附注中的風(fēng)險(xiǎn)提示和免責(zé)聲明3◆DeepSeek推動AGl時(shí)代到來,關(guān)注Al應(yīng)用、端側(cè)Al、算力三大主線1)Al應(yīng)用:DeepSeek的創(chuàng)新帶來成本極致優(yōu)化,帶來Al普惠、Al平權(quán),將加速A應(yīng)用的創(chuàng)新,國內(nèi)Al應(yīng)用將受益于DeepSeek實(shí)現(xiàn)能力顯著提升,應(yīng)用上游的模型API的價(jià)格下降也將驅(qū)動應(yīng)用廠商的商業(yè)模式快速成熟。2)Al端側(cè):DeepSeek支持用戶進(jìn)行“模型蒸餾”,并通過DeepSeek-R1的輸出,蒸餾了6個(gè)小模型開源給社區(qū)。端側(cè)Al能力過去受限于端側(cè)Al計(jì)算影響,DeepSeek將顯著提升端側(cè)小模型的能力,進(jìn)而提升Al終端能力。3)算力:杰文斯悖論指出當(dāng)我們希望通過技術(shù)進(jìn)步來提高資源效率時(shí),可能會導(dǎo)致資源的消耗增加。我們預(yù)計(jì)DeepSeek帶來的大模型推理成本的優(yōu)化,將加速Al的普及推廣,和下游應(yīng)用的商業(yè)模式構(gòu)建,并推動Al算力進(jìn)入由終端用戶需求驅(qū)動的長增長周期?!敉顿Y建議DeepSeek探索出一條“算法創(chuàng)新+有限算力”的新路徑,開源A時(shí)代或已至,國產(chǎn)AI估值或?qū)⒅厮?,維持計(jì)算機(jī)行業(yè)“推薦”評級。1)Al應(yīng)用:①2G:中科曙光、科大訊飛、中國軟件、太極股份、深桑達(dá)A、中科星圖、國投智能、云從科技、能科科技、拓爾思、航天信息、稅友股份、金財(cái)互聯(lián)、浪潮軟件、數(shù)字政通;②2B:金蝶國際、衛(wèi)寧健康、石基信息、明源云、新致軟件、用友網(wǎng)絡(luò)、廣聯(lián)達(dá)、萊斯信息、四川九洲、泛微網(wǎng)絡(luò)、致遠(yuǎn)互聯(lián)、新開普、東方財(cái)富、同花順、恒生電子、宇信科技、當(dāng)虹科技、萬達(dá)信息、創(chuàng)業(yè)惠康、潤和軟件、彩訊股份、第四范式、焦點(diǎn)科技;③2C:金山辦公、三六零、萬興科技、福昕軟件、合合信息、螢石網(wǎng)絡(luò)。2)算力:①云:海光信息、寒武紀(jì)、浪潮信息、華勤技術(shù)、云賽智聯(lián)、光環(huán)新網(wǎng)、中興通訊、寶信軟件、紫光股份、中國電信、優(yōu)刻得-W、青云科技-U、首都在線、并行科技、潤澤科技、中國軟件國際、神州數(shù)碼、深信服、新炬網(wǎng)絡(luò)、天璣科技;②邊:網(wǎng)宿科技、順網(wǎng)科技、云天勵(lì)飛;③端:軟通動力、中科創(chuàng)達(dá)、樂鑫科技、移遠(yuǎn)通信?!麸L(fēng)險(xiǎn)提示:大模型產(chǎn)業(yè)發(fā)展不及預(yù)期、中美博弈加劇、宏觀經(jīng)濟(jì)影響下游需求、市場競爭加劇、相關(guān)標(biāo)的公司業(yè)績不及預(yù)期等、國內(nèi)外公司并不具備完全可比性,對標(biāo)的相關(guān)資料和數(shù)據(jù)僅供參考。請務(wù)必閱讀報(bào)告附注中的風(fēng)險(xiǎn)提示和免責(zé)聲明4目錄1.1、DeepSeek股權(quán)結(jié)構(gòu)及創(chuàng)始人背景1.3、DeepSeek重視年輕團(tuán)隊(duì)且1.4、DeepSeek產(chǎn)品家族全梳理1.5、DeepSeek日活遠(yuǎn)超同期ChatGPT,下載量霸榜全球140個(gè)市場移動應(yīng)用榜首2.1、DeepSeek模型家族技術(shù)創(chuàng)新框架總攬2.3、DeepSeekR1Zero核心創(chuàng)新點(diǎn)——RL(強(qiáng)化學(xué)習(xí))替代SFT(有監(jiān)督微調(diào))2.4、DeepSeekR1:高質(zhì)量冷啟動數(shù)據(jù)+多階段訓(xùn)練,將強(qiáng)推理能力泛化2.5、開源大模型:打破OpenAI等閉源模型生態(tài),提升世界對中國AI大模型認(rèn)知3.1、DeepSeek打開低成本推理模型邊界,加速AI應(yīng)用布局進(jìn)程3.2、DeepSeekR1蒸餾賦予小模型高性能,端側(cè)AI迎來奇點(diǎn)時(shí)刻4.1、DeepSeekV3訓(xùn)練中GPU成本558萬美元,對比海外成本降低4.2、DeepSeek或有約5萬HopperGPU,訓(xùn)練總成本或較高4.3、推理化:推理算力需求占比提升,GenAI云廠商有望受益五、盈利預(yù)測及風(fēng)險(xiǎn)提示1.1、DeepSeek股權(quán)結(jié)構(gòu)及創(chuàng)始人背景●DeepSeek是一家于2023年成立的中國初創(chuàng)企業(yè),創(chuàng)始人是A驅(qū)動量化對沖基金幻方量化的掌門人梁文鋒。從股權(quán)結(jié)構(gòu)圖顯示,DeepSeek由四名自然人通過五層控股掌握100%股份(其中梁文鋒間接持股比例83.29%,直接持股1%,累計(jì)84.2945%)?!駝?chuàng)始人梁文鋒出生于廣東湛江,浙江大學(xué)畢業(yè),擁有信息與電子工程學(xué)系本科和碩士學(xué)位,2008年起開始帶領(lǐng)團(tuán)隊(duì)使用機(jī)器學(xué)習(xí)等技術(shù)探索全自動量化交易,2015年幻方量化正式成立。2021年,幻方量化的資產(chǎn)管理規(guī)模突破干億大關(guān),躋身國內(nèi)量化私募領(lǐng)域的“四大天王”之列。2023年梁文鋒宣布正式進(jìn)軍通用人工智能領(lǐng)域,創(chuàng)辦DeepSeek,專注于做真正人類級別的人工智能。梁文鋒梁文鋒李歡鄭達(dá)薛陳哲寧波程信柔兆企業(yè)管理咨詢合伙企業(yè)(有限合伙)寧波程恩企業(yè)管理咨詢合伙企業(yè)(有限合伙)杭州深度求索人工智能基礎(chǔ)技術(shù)研究有限公司北京深度求索人工智能基礎(chǔ)寧波程采企業(yè)管理咨詢合伙技術(shù)研究有限公司企業(yè)(有限合伙)梁文鋒寧波程普商務(wù)咨詢有限公司寧波程普商務(wù)咨詢有限公司梁文鋒鄭達(dá)鞭梁文鋒李歡李歡陳哲陳哲鄭達(dá)鞭資料來源:商界觀察請務(wù)必閱讀報(bào)告附注中的風(fēng)險(xiǎn)提示和免責(zé)聲明7●母公司幻方量化確立以AI為發(fā)展方向。2016年,幻方量化第一個(gè)由深度學(xué)習(xí)算法模型生成的幻方需要解決算力受限難題。于是幻方在2019年成立了一家AI基礎(chǔ)研究公司,并推出自研的“螢火一號”Al集群,搭載500塊顯卡。2021年,幻方又斥資10億元建設(shè)“螢火二號”,為Al研究提供算力支持?;梅皆跇?gòu)建Al算力過程中的“囤卡”達(dá)芯片大買家之一,2022年其用于科研支持的閑時(shí)算力高達(dá)1533萬GPU時(shí),大大超越了后來很多大模型公司。AIAI拓展了我們的能力邊界激發(fā)了我們的想象力和創(chuàng)造力方量化幻方Al注冊成立,致力于Al算法與基礎(chǔ)應(yīng)集群,搭載500塊顯2008-201420152016201720182019螢火二號集群滿載運(yùn)行,平均占用率達(dá)96%+。全年運(yùn)行任務(wù)135萬個(gè),共計(jì)科研支持的閑時(shí)算力占比27%。首個(gè)由深度學(xué)習(xí)算法模型生成的股票倉位上線實(shí)盤交易,使用確立以Al為公司的創(chuàng)立幻方量化,依靠數(shù)學(xué)與人工智能進(jìn)行幾乎所有的量化策略都已經(jīng)采用AI模型計(jì)算。螢火一號總投資近2億元,搭載1100加速幻方Al投入10億建設(shè)資料來源:公司官網(wǎng),國海證券研究所請務(wù)必閱讀報(bào)告附注中的風(fēng)險(xiǎn)提示和免責(zé)聲明沒畢業(yè)的博四、博五實(shí)習(xí)生,還有一些畢業(yè)才幾年的年輕人?!弊?023年5月誕生以來,DeepSeek始終維持約150人的精英團(tuán)隊(duì),推行無職級界限、高度扁平化的文化,以此激發(fā)研究靈感,高效調(diào)配資源。早在2022年,幻方量化便著手為DeepSeek籌建A團(tuán)隊(duì),至2023年5月DeepSeek正式成立時(shí),團(tuán)隊(duì)已匯聚近百名卓越工程師。如今,即便不計(jì)杭州的基礎(chǔ)設(shè)施團(tuán)隊(duì),北京團(tuán)隊(duì)亦擁有百名工程師。技術(shù)報(bào)告的致謝欄揭示,參與DeepSeekV3研發(fā)的工程師陣容,已壯大至139人。 圖:DeepSeek公開招聘職位信息匯總深度學(xué)習(xí)研究員校招&實(shí)習(xí)8-11萬元/月,一年14薪資深ui設(shè)計(jì)師優(yōu)秀的藝術(shù)類教育背景;有互聯(lián)網(wǎng)或科技公司UI設(shè)計(jì)工作經(jīng)驗(yàn);數(shù)據(jù)架構(gòu)工程師者優(yōu)先全棧開發(fā)工程師2.5-5萬元/月,一年14薪客戶端研發(fā)工程師計(jì)算機(jī)或相關(guān)專業(yè)優(yōu)先;有獨(dú)立開發(fā)App經(jīng)驗(yàn),有優(yōu)秀開源項(xiàng)目者優(yōu)先。2-4萬元/月,一年14薪深度學(xué)習(xí)實(shí)習(xí)生特別優(yōu)秀的本科生;資料來源:華爾街見聞,國海證券研究所請務(wù)必閱讀報(bào)告附注中的風(fēng)險(xiǎn)提示和免責(zé)聲明91.4、DeepSeek產(chǎn)品家族全梳理代碼大模型,提供了236B和16B兩種版本。DeepSeekCoder也同步上線,價(jià)格依舊是「1元百萬輸入,2元百萬輸出2024年6月17日DeepSeek代碼大模型,提供了236B和16B兩種版本。DeepSeekCoder也同步上線,價(jià)格依舊是「1元百萬輸入,2元百萬輸出首款通用大語言模型,且同步開源了7B和67B兩種不同規(guī)模的模型,甚至將模Meta的同級別模型LLaMA270B,并在近20個(gè)中英文的公開評測榜單上表2023年11月29日DeepSeekLLM67B型訓(xùn)練過程中產(chǎn)生的9個(gè)checkpoints也一并公開,現(xiàn)更佳。2024年5月DeepSeek-V2通用MoE大模型的開源發(fā)布,DeepSeek-V2使用了MLA對標(biāo)GPT-4-Turbo,而API價(jià)格只2024年9月6日2024年12月10日DeepSeek-V2.5融合Chat模型聚焦通用對話能力,Code模型聚焦代碼模型了人類偏好,DeepSeek-V2.5-DeepSeekV2系列收官之作,全面提升了包括數(shù)學(xué)、代碼、寫作、角2024年12月26日DeepSeek-V3開源發(fā)布,訓(xùn)練成本估算只有550萬美金性能上全面對標(biāo)海外領(lǐng)軍閉源模型,生成速度也大幅提升。2024年2月5日DeepSeekMat數(shù)學(xué)推理模型,僅有7B參數(shù)數(shù)學(xué)推理能力上直逼GPT-4推理模型2024年8月16日數(shù)學(xué)定理證明模型2024年11月20日DeepSeek-R1-Lite2025年1月20日DeepSeek-R1多模態(tài)模型2024年12月13日DeepSeek-VL23D立體空間的跨越。27B三種尺寸,在各項(xiàng)指標(biāo)上極具優(yōu)勢。2025年1月27日DeepSeekJanus-Pro開源發(fā)布的多模態(tài)模型。中英,免費(fèi)商用,在2B、16B、145B等多個(gè)尺度上均領(lǐng)先1.4.1、DeepSeekV3性能ODeepSeek-V3為自研MoE模型,671B參數(shù),激活37B,在14.8Ttoken上進(jìn)行了預(yù)訓(xùn)練。V3多項(xiàng)評測成績超越了Qwen2.5-72B和Llama-3.1-405B等其他開源模型,并在性能上和世界頂尖的閉源模型GPT-40以及Claude-3.5-Sonnet不分伯仲?!裨诰唧w的測試集上,DeepSeek-V3在知識類任務(wù)上接近當(dāng)前表現(xiàn)最好的模型Claude-3.5-Sonnet-1022;長文本/代碼/數(shù)學(xué)/中文能力上均處于世界一流模型位置。圖:DeepSeek-V3在英文、代碼、數(shù)學(xué)領(lǐng)域表現(xiàn)優(yōu)異FRAMES(Acc.)LongBenchv2(Acc.)Aider-Edit(Acc.)Aider-PolyglotAcc.)請務(wù)必閱讀報(bào)告附注中的風(fēng)險(xiǎn)提示和免責(zé)聲明11●DeepSeek-R1性能比較OpenAl-01。DeepSeek-R1在后訓(xùn)練階段大規(guī)模使用了強(qiáng)化學(xué)習(xí)技術(shù),在僅有極少標(biāo)注數(shù)據(jù)的情況下,極大提升了模型推理能力。在數(shù)學(xué)、代碼、自然語言推理等任務(wù)上,性能比肩OpenAl01正式版。DeepSeekR1同步登錄DeepSeek官網(wǎng)或官方App。網(wǎng)頁或者app端打開“深度思考”模式,即可調(diào)用最新版DeepSeek-R1完成各類推理任務(wù)?!耖_放的許可證和用戶協(xié)議。DeepSeek在發(fā)布并開源R1的同時(shí),同步在協(xié)議授權(quán)層面也進(jìn)行了如下調(diào)整:1)模型開源License統(tǒng)一使用MIT,開源倉庫(包括模型權(quán)重)統(tǒng)一采用標(biāo)準(zhǔn)化、寬松的MITLicense,完全開源,不限制商用,無需申請。2)產(chǎn)品協(xié)議明確可“模型蒸餾”;為了進(jìn)一步促進(jìn)技術(shù)的開源和共享,支持用戶進(jìn)行“模型蒸餾”,明確允許用戶利用模型輸出、通過模型蒸餾等方式訓(xùn)練其他模型。9給給DeepSeek發(fā)送消息請務(wù)必閱讀報(bào)告附注中的風(fēng)險(xiǎn)提示和免責(zé)聲明12ODeepSeek系列模型均極具定價(jià)優(yōu)勢?!藾eepSeekV3模型定價(jià):隨著性能更強(qiáng)、速度更快的DeepSeek-V3更新上線,模型API服務(wù)定價(jià)也將調(diào)整為每百萬輸入tokens0.5元(緩存命中)/2元(緩存未命中),每百萬輸出tokens8元?!藾eepSeek-R1百萬tokens輸出價(jià)格約為01的1/27。DeepSeek-R1API服務(wù)定價(jià)為每百萬輸入tokens1元(緩存命中)/4元(緩存未命中),每百萬輸出tokens16元。對比OpenAl-01每百萬輸入tokens為55元(緩存命中),百萬tokens輸出為438元。請務(wù)必閱讀報(bào)告附注中的風(fēng)險(xiǎn)提示和免責(zé)聲明131.5、DeepSeek日活遠(yuǎn)超同期ChatGPT,下載量霸榜全球140個(gè)市場移動應(yīng)用榜首●DeepSeek遠(yuǎn)超同期ChatGPT,Al格局或迎來重塑。2025年1月15日,DeepSeek官方App正式發(fā)布,并在iOS/Android各大應(yīng)用市場全面上線。數(shù)據(jù)顯示,DeepSeek在上線18天內(nèi)達(dá)到日活躍用戶1500萬的成就,相較之下,同期ChatGPT則耗費(fèi)244天才實(shí)現(xiàn)相同日活;2月4日,上線20天后日活突破2000萬,創(chuàng)下又一個(gè)新紀(jì)錄。DeepSeek在發(fā)布的前18天內(nèi)累計(jì)下載量達(dá)到1600萬次,峰值日下載量高達(dá)500萬次,幾乎是ChatGPT同期900萬次下載量的兩倍。此外,DeepSeek在全球140個(gè)市場中的移動應(yīng)用下載量排行榜上位居榜首。高效讀文件全網(wǎng)智能搜索深度思考解決難題1.6、DeepSeek獲得海內(nèi)外市場認(rèn)可,中國Al產(chǎn)業(yè)首次步入引領(lǐng)位置oDeepSeek驚艷海外市場,中國Al產(chǎn)業(yè)首次步入引領(lǐng)位置。√英偉達(dá)表示,DeepSeek為推理、數(shù)學(xué)和編碼等任務(wù)提供了“最先進(jìn)的推理能力”“高推理效率”以及“領(lǐng)先的準(zhǔn)確性”?!蘉eta首席A科學(xué)家YannLecun表示“DeepSeek-R1面世與其說意味著中國公司在Al領(lǐng)域正在超越美國公司,不如說意味著開源大模型正在超越閉源。”√OpenAl首席執(zhí)行官SamAltman首次承認(rèn)OpenAl的閉源策略“站在了歷史錯(cuò)誤的一邊”。√微軟COE納德拉表示,公司的DeepSeekR1模型DeepSeek的R1是一個(gè)令人印象深刻的模型,尤其是圍繞他們能夠以價(jià)格交付的方式。顯然,我們將提供更好的模型,并且擁有新的競爭對手的合法性!我們將提資料來源:澎湃新聞、IT之家請務(wù)必閱讀報(bào)告附注中的風(fēng)險(xiǎn)提示和免責(zé)聲明151.7、微軟/英偉達(dá)/亞馬遜/騰訊/華為等一眾科技巨頭擁抱DeepSeek√1)1月30日,英偉達(dá)宣布DeepSeek-R1可作為NVIDIANIM微服務(wù)預(yù)覽版使用。√2)1月,DeepSeek-R1模型被納入微軟平臺AzureAlFoundry和GitHub的模型目錄,開發(fā)者將可以在Copilot+PC上本地運(yùn)行DeepSeek-R1精簡模型,以及在Windows上的GPU生態(tài)系統(tǒng)中運(yùn)行,此外還宣布將DeepSeek-R1部署在云服務(wù)Azure上。√3)AWS(亞馬遜云科技)宣布,用戶可以在AmazonBedrock和AmazonSageMakerAl兩大A服務(wù)平臺上部署DeepSeek-R1模型?!?)Perplexity宣布接入了DeepSeek模型,將其與OpenAl的GPT-01和Anthropic的Claude-3.5并列作為高性能選項(xiàng)?!?)華為:已上線基于其云服務(wù)的DeepSeek-R1相關(guān)服務(wù);√8)阿里:阿里云PAIModelGallery支持云上一鍵部署DeepSeek-R1和DeepSeek-V3模型。homnerferwnionDeepseekF1-Zerewhafird圖:微軟宣布接入DeepSeekAnueAFoundyD@nVDAEokredhBurpnsDseFoDebyndcalemodsanyouGPUhtatnuctueofdocewithNFrbrtntnuda/lama-31-nemoguard-8SutedftettfeieneyLMermathandcodngTopkpprondtopes,woinghappoputecontentpC資料來源:英偉達(dá)、微軟請務(wù)必閱讀報(bào)告附注中的風(fēng)險(xiǎn)提示和免責(zé)聲明16MoE架構(gòu)模型核心創(chuàng)新使用低秩聯(lián)合壓縮方法減少注意力計(jì)算的緩存需求,同時(shí)保持多頭注意力的性能。①細(xì)粒度專家分割②共享專家隔離③輔助損失優(yōu)化的專家負(fù)載平衡策略。擴(kuò)展模型在每個(gè)位置預(yù)測多個(gè)未來token的能力,提高訓(xùn)練數(shù)據(jù)效率。5、支持FP8混合精度訓(xùn)練。以V3作為基礎(chǔ)模型,純強(qiáng)化學(xué)習(xí)替代有監(jiān)督微調(diào)核心創(chuàng)新1、強(qiáng)化學(xué)習(xí)算法:使用GRPO框架,通過群體獎勵(lì)優(yōu)化策略模型。獎勵(lì)設(shè)計(jì)包括準(zhǔn)確性獎勵(lì)和格式獎勵(lì)。2、自我演化與頓悟時(shí)刻:模型通過RL自動學(xué)習(xí)復(fù)雜的推理行為,如自我驗(yàn)證和反思。隨著訓(xùn)練過程的深入,模型逐步提升了復(fù)雜任務(wù)的解答能力,并在推理任務(wù)上顯現(xiàn)突破性的性能提升。以V3作為基礎(chǔ)模型,結(jié)合冷啟動數(shù)據(jù)的多階段訓(xùn)練核心創(chuàng)新1、冷啟動數(shù)據(jù)引入:從零開始的RL容易導(dǎo)致初期性能不穩(wěn)定,為此設(shè)計(jì)了包含高質(zhì)量推理鏈的冷啟動數(shù)據(jù)集。該數(shù)據(jù)提高了模型的可讀性和訓(xùn)練初期的2、推理導(dǎo)向的強(qiáng)化學(xué)習(xí):通過多輪RL,進(jìn)一步優(yōu)化模型在數(shù)學(xué)、編程等推理密集型任務(wù)中的表現(xiàn)。3、監(jiān)督微調(diào)與拒絕采樣:使用RL檢查點(diǎn)生成額外的推理和非推理任務(wù)數(shù)據(jù),進(jìn)一步微調(diào)模型。4、全場景強(qiáng)化學(xué)習(xí):在最終階段結(jié)合多種獎勵(lì)信號,提升模型的有用性和安全性。請務(wù)必閱讀報(bào)告附注中的風(fēng)險(xiǎn)提示和免責(zé)聲明182.2.1、MLA(多頭潛在注意力機(jī)制):顯著節(jié)省計(jì)算資源及內(nèi)存占用●MLA從傳統(tǒng)的MHA(多頭注意力機(jī)制)出發(fā),MHA通過并行 望Multi-HeadLatentAtt2.2.2、DeepSeekMoE架構(gòu)以及創(chuàng)新性負(fù)載均衡策略●MoE架構(gòu):傳統(tǒng)MoE架構(gòu)的主要優(yōu)勢是利用稀疏激活的性質(zhì),將大模型拆解成若干功能模塊,每次計(jì)算僅激活其中一小部分,而保持其余模塊不被使用,從而大大降低了模型的計(jì)算與學(xué)習(xí)成本,能夠在同等計(jì)算量的情況下產(chǎn)生性能優(yōu)勢。粒度對專家進(jìn)行劃分,更精細(xì)的專家分割使得激活的專家能夠以更靈活和適應(yīng)性更強(qiáng)的方式進(jìn)行組合;2)共享專家隔離:采用傳統(tǒng)路由策略時(shí),分配給不同專家的token可能需要一些共同的知識或信息,因此多個(gè)專家可能會有參數(shù)冗余。專門的共享專家致力于捕獲和整合不同上下文中的共同知識,有助于構(gòu)建一個(gè)具有更多專業(yè)專家且參數(shù)更高效的模型?!褙?fù)載均衡:MoE架構(gòu)下容易產(chǎn)生每次都由少數(shù)幾個(gè)專家處理所有tokens的情況,而其余大量專家處于閑置狀態(tài),此外,若不同專家分布在不同計(jì)算設(shè)備上,同樣會造成計(jì)算資源浪費(fèi)以及模型能力局限;負(fù)載均衡則類似一個(gè)公平的“裁判”,鼓勵(lì)專家的選擇趨于均衡,避免出現(xiàn)上述專家激活不均衡的現(xiàn)象。DeepSeekthatyou'refeelingInstructionConfigurabl十兇十兇2N量子位模型不再局限于預(yù)測序列中的下一個(gè)token,而是學(xué)會同時(shí)預(yù)測多個(gè)連續(xù)位置的token。這種并行預(yù)更好地捕捉token之間的依賴關(guān)系。在保持輸出質(zhì)量的同時(shí),模型整體性能提升2-3%。資料來源:《DeepSeek-V3TechnicalReport》請務(wù)必閱讀報(bào)告附注中的風(fēng)險(xiǎn)提示和免責(zé)聲明21現(xiàn)。例如,在前向傳播、激活反向傳播和權(quán)重反向傳播中,輸入數(shù)據(jù)均使用FP8格式,而輸出結(jié)果則使OFP8格式是一種低精度的數(shù)據(jù)格式,具有較小的存儲空間和計(jì)算開銷。通過使用FP8格式,可以顯著減少顯存的占用,從而提高模型的訓(xùn)練速度。ss 圖:具有FP8數(shù)據(jù)格式的整體混合精度框架2)資料來源:《DeepSeek-V3TechnicalReport》,NVIDIA英偉達(dá)企業(yè)解決方案公眾號請務(wù)必閱讀報(bào)告附注中的風(fēng)險(xiǎn)提示和免責(zé)聲明22ODeepSeek-V3采用了一種名為DualPipe的創(chuàng)新流水線并行策略。與傳統(tǒng)的單向流水線(如1F1B)不同,DualPipe采用雙向流水線設(shè)計(jì),即同時(shí)從流水線的兩端饋送micro-batch。這種設(shè)計(jì)可以顯著減少流水線氣泡(PipelineBubble),提ODualPipe還將每個(gè)micro-batch進(jìn)一步劃分為更小的chunk,并對每個(gè)chunk的計(jì)算和通信進(jìn)行精細(xì)的調(diào)度。隨后將一個(gè)chunk劃分為attention、all-to-alldispatch、MLP和all-to-allcombine等四個(gè)組成部分,并通過精細(xì)的調(diào)度策略,使得計(jì)算和通信可以高度重疊。012345608192345668012345607182934567901234506172839456790123405162738495678801230415263748567890120031425364758697899010021132435465767989900011122233445566778899 請務(wù)必閱讀報(bào)告附注中的風(fēng)險(xiǎn)提示和免責(zé)聲明232.2.6、英偉達(dá)PTX:位于CUDA與機(jī)器代碼之間,實(shí)現(xiàn)細(xì)粒度控制與性能優(yōu)化英偉達(dá)PTX(并行線程執(zhí)行)是專門為其GPU設(shè)計(jì)的中間指令集架構(gòu),位于高級GPU編程語言(如CUDAC/C++或其他語言O(shè)DeepSeekV3采用定制的PTX(并行線程執(zhí)行)指令并自動調(diào)整通信塊大小,這大大減少了L2緩存的使用和對其他SM的圖:英偉達(dá)圖:英偉達(dá)PTX是專門為其GPU設(shè)計(jì)的中間指令集架構(gòu)資料來源:新智元,量子位公眾號_global_woiddotproduct(floata.,float'b,float'c,intsize)_tap4:_tapl:DeepSeek-R1-ZeroAIMEaccuracyduringtraining圖:GRPO圖:GRPO相對傳統(tǒng)PPO強(qiáng)化學(xué)習(xí)方式qVA?AAgKL·q0Figure4|DemonstrationofPPOandourGRPO.GRPOforegoesthevaluemestimatingthebaselinefromgroupscores,significantlyJGRo(θ)=E[q~P(Q),{09~Tonwhereeandβarehyper-parameters,andA;isthearewards{n,r2.…,re}corespondingto2.3.2、強(qiáng)化學(xué)習(xí)框架下的“頓悟”時(shí)刻,模型思維能力躍升的關(guān)鍵●模型訓(xùn)練過程中會迎來頓悟時(shí)刻。引用DeepSeek相關(guān)論文中的表述,GRPO強(qiáng)化學(xué)習(xí)框架下,不是人類教模型如何解決問題,而僅僅為其提供正確的激勵(lì)措施,模型會自主開發(fā)高級問題解決策略,模型訓(xùn)練過程中會出現(xiàn)“Ahamoment”,這表示模型意識到了更好的解決辦法并重新評估,為問題分配更多思考時(shí)間。●這些頓悟時(shí)刻是模型思維能力躍升的關(guān)鍵。據(jù)DeepSeek的研究,模型的進(jìn)步并非均勻漸進(jìn)的。在強(qiáng)化學(xué)習(xí)過程中,響應(yīng)長度會出現(xiàn)突然的顯著增長,這些"跳躍點(diǎn)"往往伴隨著解題策略的質(zhì)變。這種模式酷似人類在長期思考后的突然頓悟,暗示著某種深層的認(rèn)知突破。 Question:Ifa>1,thenthesumoftherealsolutionsofVa-va+x=xTosolvetheequationVa-Vaa2Wait,wait.Wait.That'sanahaLet'sreevaluateNext,Icouldsquarebothsidesagain,treatingthehere"(等等、等等、這是個(gè)值得標(biāo)記的啊哈時(shí)刻),隨后●純強(qiáng)化學(xué)習(xí)后出來的DeepSeekR1zero存在可讀性差以及語言混亂等問題,主要因其全通過獎懲信號來優(yōu)化其行為,沒有任何人類示范的"標(biāo)準(zhǔn)答案"作為參考,因此DeepSeek團(tuán)隊(duì)使用冷啟動+多階段訓(xùn)練推出DeepSeekR1模型?!窬唧w訓(xùn)練步驟:1)高質(zhì)量冷啟動數(shù)據(jù):與DeepSeekR1zero同理,以DeepSeekv3base作為強(qiáng)化學(xué)習(xí)的起點(diǎn),但為了克服可讀性差的問題,選擇可讀性更強(qiáng)的cot(長思維鏈)數(shù)據(jù)作為冷啟動數(shù)據(jù),包括以可讀格式收集DeepSeek-R1Zero輸出,并通過人工注釋者進(jìn)行后處理來提煉結(jié)果。2)面向推理的強(qiáng)化學(xué)習(xí),這與DeepSeekR1zero的強(qiáng)化學(xué)習(xí)過程相同,但是在RL期間引入語言一致性獎勵(lì),雖然語言對齊可能會造成一定的性能損失,但是提高了可讀性。3)抑制采樣和監(jiān)督微調(diào),拒絕采用指模型訓(xùn)練過程中生成的一些不符合特定標(biāo)準(zhǔn)或質(zhì)量要求的樣本數(shù)據(jù)進(jìn)行舍棄,同時(shí)選取了v3的SFT數(shù)據(jù)集一部分作為微調(diào)數(shù)據(jù)。4)全場景強(qiáng)化學(xué)習(xí),屬于一個(gè)二級強(qiáng)化學(xué)習(xí)階段,目的是與人類偏好保持一致。Claude-3.5-GPT-4oDe一強(qiáng)化強(qiáng)化成推理SFT數(shù)據(jù)強(qiáng)推理模型自動/人工改寫請務(wù)必閱讀報(bào)告附注中的風(fēng)險(xiǎn)提示和免責(zé)聲明◎開源即代碼層面開源,可以調(diào)用與進(jìn)行二次開發(fā)。開源免費(fèi)調(diào)用有助于先行占據(jù)市場份額,成為規(guī)則制定者,率先拓展生態(tài)粘性。如,谷歌將安卓開源,獲得了全球80%的移動手機(jī)端市場份額,同時(shí)也覆蓋電視、汽車等使用場景。ODeepSeekV3與R1模型實(shí)現(xiàn)了開源,采用MIT協(xié)議。這產(chǎn)生多方面影響:○對大模型發(fā)展:這提升了世界對中國Al大模型能力的認(rèn)知,一定程度打破了OpenAl與Anthropic等高級閉源模型的封閉生態(tài)。DeepSeekR1在多個(gè)測試指標(biāo)中對標(biāo)OpenAlo1,通過模型開源,也將大模型平均水平提升至類OpenAlo1等級?!饘ο掠紊鷳B(tài):優(yōu)質(zhì)的開源模型可更好用于垂類場景,即使用者針對自身需求蒸餾,或用自有數(shù)據(jù)訓(xùn)練,從而適合具體下游場景;此外,模型訓(xùn)推成本降低,將帶來使用場景的普及,帶動AIGC、端側(cè)等供給和需求。Apache2.0人探索未至之境開始對話獲取手機(jī)App請務(wù)必閱讀報(bào)告附注中的風(fēng)險(xiǎn)提示和免責(zé)聲明29OpenAl上線性價(jià)比模型03-mini,加速低成本推理模型邊界。2025年2月1日,OpenAI深夜上線03-mini系列推理模型,其也是OpenAI系列推的水平;03-mini(medium)能力媲美滿血版01;03-mini(high)表現(xiàn)超越01系列一眾模型。對比DeepSeek-R1在數(shù)學(xué)能力、編程能力上的圖:DeepSeek和OpenAl推理模型定價(jià)對比圖:DeepSeek和OpenAl推理模型定價(jià)對比資料來源:DeepSeek官方公眾號,OpenAl官網(wǎng),國海證券研究所請務(wù)必閱讀報(bào)告附注中的風(fēng)險(xiǎn)提示和免責(zé)聲明31●我們認(rèn)為DeekSeek或推動Al投資回報(bào)率加速提升,Al應(yīng)用商業(yè)模式加速跑通。據(jù)中國工業(yè)互聯(lián)網(wǎng)研究院數(shù)據(jù),2024年以字節(jié)火山引擎、阿里云、百度云為代表的云廠商掀起了大模型價(jià)格戰(zhàn),降價(jià)幅度普遍達(dá)到90%以上。海外以O(shè)penAl為例,5月發(fā)布GPT-40,模型性能升級且價(jià)格較GPT-4-Turbo下降50%;8月上線GPT-40新版本,更強(qiáng)更便宜,但輸出價(jià)格節(jié)省33%。國內(nèi)以阿里為例,12月31日阿里云宣布2024年度第三輪大模型降價(jià),通義千問視覺理解模型全線降價(jià)超80%?!鹑蚣爸袊鳤l應(yīng)用市場規(guī)模加速提升。據(jù)IDC數(shù)據(jù),全球生成式Al市場規(guī)模在2024年達(dá)到360.6美元,同比+76%,預(yù)計(jì)在2028年達(dá)到2154億美元;中國Al軟件市場規(guī)模在2024年達(dá)到5.7億美元,預(yù)計(jì)2028年達(dá)到35.4億美元。w3.1.1、強(qiáng)推理模型加速步入AGI之路形式的推理能力。維方式的獨(dú)特性。就像一個(gè)天才兒童發(fā)明了自己的解題方法,卻難以用常規(guī)語言解釋一樣。這提示我們:真正的通用人工智能可能需要完全不同于人類的認(rèn)知方式。圖:我國AGl產(chǎn)業(yè)圖譜零售應(yīng)用場景零售應(yīng)用場景為WeShop唯象銜遠(yuǎn)科技數(shù)字人導(dǎo)購/主播--智齒科技曉多科技金融應(yīng)用場景金融應(yīng)用場景傳統(tǒng)金融機(jī)構(gòu)消費(fèi)金融1廠互聯(lián)網(wǎng)金融服務(wù)機(jī)構(gòu)」廠中關(guān)材科全w~aae個(gè)通致星圖stY功夫量化企業(yè)服務(wù)應(yīng)用場景企業(yè)服務(wù)應(yīng)用場景今釘釘今釘釘焦出2心焦出2心在晶用友教育應(yīng)用場景教育應(yīng)用場景與三樂回作業(yè)幫類職業(yè)教育囚智云智訓(xùn)知學(xué)云offcn中公教育?學(xué)而思有道youdao回作業(yè)幫l@世起天?l@世起天營銷應(yīng)用場景------銷售及客服中電金信歸一智能中電金信歸一智能BlueFocus華院計(jì)算火山引擎火山引擎請務(wù)必閱讀報(bào)告附注中的風(fēng)險(xiǎn)提示和免責(zé)聲明33資料來源:infoQ,請務(wù)必閱讀報(bào)告附注中的風(fēng)險(xiǎn)提示和免責(zé)聲明33◎蒸餾法具有強(qiáng)大的潛力,端側(cè)小模型迎來發(fā)展契機(jī)。如下表所示,只需提取DeepSeek-R1的輸出即可使高效的DeepSeekR1-7B全面優(yōu)于GPT-4o-0513等非推理模型,DeepSeek-R1-14B在所有評估指標(biāo)上都超過了QwQ-32BPreview,而DeepSeek-R1-32B和DeepSeek-R1-70B在大多數(shù)基準(zhǔn)測試中明顯超過了01-mini。此外,我們發(fā)現(xiàn)將RL應(yīng)用于這些蒸餾模型會產(chǎn)生顯著的進(jìn)一步收益。我們認(rèn)為這值得進(jìn)一步探索,因此在這里只提供簡單的SFT蒸餾模型的結(jié)果。ODeepSeek產(chǎn)品協(xié)議明確可“模型蒸餾”。DeepSeek決定支持用戶進(jìn)行“模型蒸餾”,已更新線上產(chǎn)品的用戶協(xié)議,明確允許用戶利用模型輸出、通過模型蒸餾等方式訓(xùn)練其他模型。云們DeepSeek-R1-Distill-Qwen-1.5BDeepSeek-R1-Distill-DeepSeek-R1-Distill-QDeepSeek-R1-Distill-QDeepSeek-R1-Distill-LDeepSeek-R1-Distill-Ll3.2、DeepSeekR1蒸餾賦予小模型高性能,端側(cè)AI迎來奇點(diǎn)時(shí)刻全球端側(cè)Al市場規(guī)模預(yù)計(jì)從2022年的152億美元增長到2032年的1436億美元。這一近十倍的增長不僅反映了市場對邊緣Al解決方案的迫切需求,也預(yù)示著在制造、汽車、消費(fèi)品等多個(gè)行業(yè)中,邊緣Al技術(shù)將發(fā)揮越來越重要的作用。在資源受限的設(shè)備上部署性能強(qiáng)大的模型,必須面對內(nèi)存與計(jì)算能力的雙重挑戰(zhàn),自2023年起,隨著參數(shù)量低于10B的模型系列如Meta的LLaMA、Microsoft的Phi系列等的涌現(xiàn),LLMs在邊緣設(shè)備上運(yùn)行的可行性逐步明朗。上游中游中游C教育汽車其他下游請務(wù)必閱讀報(bào)告附注中的風(fēng)險(xiǎn)提示和免責(zé)聲明35·DeepSeekV3模型訓(xùn)練成本達(dá)278.8萬H800小時(shí),共花費(fèi)557.6萬美元。對比OpenAI、Anthropic、LlaMA3等模型,DeepSeekV3單次訓(xùn)練成本顯著降低,主要系DeepSeek公司通過優(yōu)化模型結(jié)構(gòu)、模型訓(xùn)練方法、針對性GPU優(yōu)化等部分,提升了模型訓(xùn)練過程中的算力使用效率。表:DeepSeekV3訓(xùn)練成本(假設(shè)H800租賃價(jià)格為2美元/每GPU小時(shí))H800GPU小時(shí)(萬小時(shí))美元(萬元)模型訓(xùn)練方法Pre-模型訓(xùn)練方法Pre-Train針對性GPU優(yōu)化AllToALL通信內(nèi)核無張量并行TP專家模型MOE+多頭潛在自注意力MLA請務(wù)必閱讀報(bào)告附注中的風(fēng)險(xiǎn)提示和免責(zé)聲明37●據(jù)Semianalysis,DeepSeek大致?lián)碛?0000張H800GPU芯片、10000張H100GPU芯片以及大量H20GPU芯片,用于模型訓(xùn)練/推理、研究等任務(wù)。其估計(jì),DeepSeek的總服務(wù)器資本支出(CapEx)約為13億美元(約90億元人民幣),其中僅集群運(yùn)營成本就高達(dá)7.15億美元。·DeepSeekV3論文中557.6萬美元成本,僅為預(yù)訓(xùn)練中消耗的GPU計(jì)算成本,但模型完整訓(xùn)練成本包括研發(fā)、數(shù)據(jù)清洗、人員薪資、硬件總擁有成本TCO(服務(wù)器、電力、冷卻系統(tǒng)、數(shù)據(jù)中心維護(hù))等,會帶來訓(xùn)練總成本體量更高。作為對比,Anthropic訓(xùn)練Claude3.5Sonnet的成本就高達(dá)數(shù)千萬美元。表:DeepSeekAITCO(總擁有成本)$4444·AI的演進(jìn)路徑中,推理成本不斷下降,計(jì)算效率持續(xù)提高是長期趨勢。例如:算法進(jìn)步的速度約為每年4倍,即每年達(dá)到相同能力所需的計(jì)算量減少到四分之一;AnthropicCEODario甚至認(rèn)為,這一進(jìn)步速度可能達(dá)到10倍?!evons悖論:技術(shù)進(jìn)步提高了資源使用效率,效率提高降低了資源使用成本,成本下降刺激了資源需求的增長,需求增長可能超過效率提升帶來的節(jié)約,最終導(dǎo)致資源總消耗增加。●短期訓(xùn)練側(cè)算力需求或受影響,但DeepSeek推理價(jià)格下降吸引更多用戶調(diào)用模型,帶來英偉達(dá)H100GPU的租賃價(jià)格提升,故表明算力需求量短期仍呈提升趨勢,中長期推理算力需求有望持續(xù)增長。2小名名名心CheapestLLMAboveCertainMMLUCost/1M2小名名名心CheapestLLMAboveCertainMMLUCost/1MFrontierMath:AdvancedmathematicsARC-AG:Abstractreasoning(semi-secretevaluation)◆AIME2024:MathematicscompetitionforeliteSWE-bench:Real-worlds·DeepSeek降低推理成本,引算力需求結(jié)構(gòu)變化。模型算法改進(jìn)提升了訓(xùn)練算力使用效率、降低了訓(xùn)練成本,促進(jìn)了模型商品化和更便宜的推理。據(jù)Semianalysis,DeepSeek推理服務(wù)可能以成本價(jià)運(yùn)營,以此搶占市場份額,還在推理端優(yōu)化英偉達(dá)H20GPU的使用(H20內(nèi)存與帶寬容量高于H100,推理效率更具優(yōu)勢)?!裢评碚急瘸掷m(xù)提升。更低的推理成本有望提升下游應(yīng)用與端側(cè)對大模型推理使用需求,推理算力需求占比有望增長。2024H1,用于推理的人工智能芯片市占率為61%。據(jù)IDC,預(yù)期2023-2027年,推理AI服務(wù)器工作負(fù)載占比從41%提升至73%左右。●集合多種模型的云服務(wù)廠商有望受益。無論是開源還是閉源模型,計(jì)算資源都很重要,如果云廠商基于計(jì)算資源打造上層服務(wù)或產(chǎn)品,那么計(jì)算資源的價(jià)值就有可能提升,這意味著更多的Capex流向硬件領(lǐng)域,軟件也有望受益。表:DeepSeekV3性能優(yōu)越,推理價(jià)格較低資料來源:Semianalysis,IDC,國海證券研究所請務(wù)必閱讀報(bào)告附注中的風(fēng)險(xiǎn)提示和免責(zé)聲明40●模型推理對大型集群要求弱于訓(xùn)練,這與目前國產(chǎn)算力單卡實(shí)力較強(qiáng)、互聯(lián)能力不足的情況匹配,并考慮到目前中美半導(dǎo)體博弈加劇,DeepSeek積極適配昇騰、海光等國產(chǎn)芯片,國產(chǎn)化推理算力需求有望持續(xù)增長。(Bytes/s)首發(fā)!硅基流動×華為云聯(lián)合推出基于昇騰云的DeepSeekR1&V3推理服務(wù)!DeepSeek-R1開源后引發(fā)全球用戶和開發(fā)者關(guān)注。經(jīng)過硅基流動和華為云團(tuán)隊(duì)連日攻堅(jiān),現(xiàn)在,雙方聯(lián)合首發(fā)并上線基于華為云昇騰云服務(wù)的DeepSeekR1/V3推理服務(wù)。光合組織2025年02月02日20:34北京近日,海光信息技術(shù)團(tuán)隊(duì)成功完成DeepSeekV3和R1模型與海光DCU(深度計(jì)算單元)的國產(chǎn)化適配,并正式上線!用戶現(xiàn)可通過“光合開發(fā)者社區(qū)”中的“光源“板塊訪問并下載相關(guān)模型,或直接登錄[]搜索"DeepSeek",即可基于DCU平臺快速部署和使用相關(guān)模的市場規(guī)模達(dá)超過90萬張。GPU卡占據(jù)80%的市場份額;中國本土人工智能芯片品牌出貨量已接近20萬張,約占整個(gè)市場份額的20%。在加速卡入口受0中國Al芯片市場規(guī)模(億元)—同比(%,右軸)型號昇騰310深算一號GPU架構(gòu)壁立仞架構(gòu)峰值INT8計(jì)算性能-峰值半精度(FP16)性能--峰值雙精度(FP64)性能-----顯存容量-最大功耗發(fā)布時(shí)間●使用GPU過程中,通常需經(jīng)過多個(gè)層級才能調(diào)用到底層硬件。從上到下依次是高層編程語言(如Python、C++)、硬件接口(如CUDA、OpenCL等)、驅(qū)動程序,最后才是底層硬件。在這個(gè)過程中,CUDA作為一個(gè)相對高層的接口,為用戶提供編程接口,而PTX則隱藏在驅(qū)動背后?!eepSeek-V3模型在多節(jié)點(diǎn)通信時(shí)繞過了CUDA直接使用PTX(ParallelThreadExecution),有望實(shí)現(xiàn)以算法的方式來高效利用硬件層面的加速。PTX與底層硬件直接交互,編寫和調(diào)用PTX代碼能更精確地控制底層硬件,實(shí)現(xiàn)更高效的計(jì)算?!鴥?nèi)AI工作者在AI芯片的底層軟件能力增強(qiáng),為國產(chǎn)AI芯片的性能提升指明了新的方向,有利于國產(chǎn)AI芯片發(fā)展。例如,海光持續(xù)拓展軟件棧DTK(DCUToolKit)、寒武紀(jì)自建軟件生態(tài)、華為昇騰發(fā)展AI框架CANN8.0版。③Device-levelAPls③Device-levelAPls④②①最上層業(yè)務(wù)應(yīng)用開發(fā)者AI模型開發(fā)者2023年市占率11%,全球第三A生態(tài)社區(qū)開發(fā)者資料來源:NVDIA,華為昇騰官網(wǎng),《邁向智能世界》,《昇騰計(jì)算產(chǎn)業(yè)發(fā)展白皮書》,華為官網(wǎng),新智元公眾號,網(wǎng)易,國海證券研究所公司2024Q4(FY2025Q2),含融資租賃資本支出226億美元,同比增長96.5%,環(huán)比增長13%,同比和環(huán)比增速均擴(kuò)大,其中購買Alphabet(谷歌)圖:2022-2024Q4各廠商資本性開支0內(nèi)圈:2023內(nèi)圈:2023資料來源:Wind,MicrosofStart,澎湃新間,搜狐,財(cái)聯(lián)社,財(cái)經(jīng)涂鴉官網(wǎng),Trendforce,國海證券研究所請務(wù)必閱讀報(bào)告附注中的風(fēng)險(xiǎn)提示和免責(zé)聲明44●CSP資本開支持續(xù)投向AI服務(wù)器采購。據(jù)TrendForce預(yù)估,2024年北美CSPs業(yè)者(如AWS、Meta等)持續(xù)擴(kuò)大自研ASIC,以及中國的阿里巴巴、百度、華為等積極擴(kuò)大自主ASIC方案,促ASIC服務(wù)器占整體AI服務(wù)器的比重在2024年將升至26%,而主流搭載GPU的AI服務(wù)器占比則約71%。公司AMD(包括Xilinx)8.1%Intel(包括Altera)24.1%全部4.3.3、重塑價(jià)值鏈,機(jī)柜/銅纜/液冷/HBM占比提升●GB200NVL系列的發(fā)布,有望帶來機(jī)柜、HBM、銅纜、液冷等市場的升組裝復(fù)雜度,帶來ODM整機(jī)BlackwellUltra預(yù)期采用8顆HBM3e,單顆GPU采用HBM數(shù)√銅連接:GB200NVL72采用NVLink銅纜鏈接。GB200功

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論