計(jì)算機(jī)-一文讀懂DeepSeek-大模型行業(yè)專題報(bào)告

上傳人：1*** IP屬地：山西上傳時(shí)間：2025-02-08 格式：DOCX 頁(yè)數(shù)：15 大?。?94.73KB 積分：19.9 舉報(bào) 版權(quán)申訴

計(jì)算機(jī)-一文讀懂DeepSeek-大模型行業(yè)專題報(bào)告_第2頁(yè)

計(jì)算機(jī)-一文讀懂DeepSeek-大模型行業(yè)專題報(bào)告_第3頁(yè)

計(jì)算機(jī)-一文讀懂DeepSeek-大模型行業(yè)專題報(bào)告_第4頁(yè)

計(jì)算機(jī)-一文讀懂DeepSeek-大模型行業(yè)專題報(bào)告_第5頁(yè)

已閱讀5頁(yè)，還剩10頁(yè)未讀，繼續(xù)免費(fèi)閱讀

版權(quán)說(shuō)明：本文檔由用戶提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1/9計(jì)算機(jī)報(bào)告日期：2025年02月03日oDeepSeek是堅(jiān)持技術(shù)創(chuàng)新的中國(guó)大模型，中國(guó)模型出圈。DeepSeek成立于2023年7月，由知名量化資管巨頭幻方量化創(chuàng)立，其掌門人梁文鋒是DeepSeek的創(chuàng)始人，在暗涌專訪中，梁文峰談到：“這一波浪潮里，我們的出發(fā)點(diǎn)，就不是趁機(jī)賺一筆，而是走到技術(shù)的前沿，去推動(dòng)整個(gè)生態(tài)發(fā)展?！备鶕?jù)2月3日AI產(chǎn)品榜數(shù)據(jù)，DeepSeekAPP上線20天日活超2000萬(wàn)。根據(jù)Appfigures的數(shù)據(jù)顯示（不包括中國(guó)的第三方應(yīng)用商店DeepSeekApp于1月26日登上蘋果AppStore全球下載榜榜首。根據(jù)SensorTower的研究，該應(yīng)用在谷歌Play商店美國(guó)區(qū)下載排行榜中位居榜首。SensorTower數(shù)據(jù)顯示，DeepSeek在發(fā)布的前18天內(nèi)累計(jì)下載量達(dá)1600萬(wàn)次。oDeepSeek是攪動(dòng)全球模型市場(chǎng)的一條鯰魚，帶來(lái)性能、價(jià)格、開(kāi)源三重沖擊。1）性能比肩國(guó)際頂尖模型：DeepSeekR1在數(shù)學(xué)、代碼、自然語(yǔ)言推理等任務(wù)上的性能可比肩OpenAIo1模型正式版。在AIME2024數(shù)學(xué)基準(zhǔn)測(cè)試中，DeepSeekR1得分率為79.8%，OpenAIo1的得分率為79.2%；在MATH-500基準(zhǔn)測(cè)試中，DeepSeekR1得分率為97.3%，OpenAIo1的得分率為96.4%。2）低成本顛覆市場(chǎng)格局：DeepSeekV3整個(gè)訓(xùn)練過(guò)程僅用了不到280萬(wàn)個(gè)GPU小時(shí)，相比之下，Llama3405B的訓(xùn)練時(shí)長(zhǎng)是3080萬(wàn)GPU小時(shí)。DeepSeek-V3的訓(xùn)練成本僅為約557.6萬(wàn)美元，而GPT-4等模型的訓(xùn)練成本則高達(dá)數(shù)億美元。DeepSeekAPI服務(wù)定價(jià)遠(yuǎn)低于OpenAI，以輸出為例，每百萬(wàn)輸出tokens16元（約2.2美元GPT-o1每百萬(wàn)輸出tokens60美元。3）踐行開(kāi)源理念：DeepSeek-V3和推理模型DeepSeek-R1均開(kāi)源，R1同步開(kāi)源了其模型權(quán)重，并允許用戶利用模型輸出，通過(guò)模型蒸餾等方式訓(xùn)練其他模型。Meta首席科學(xué)家楊立昆（YannLecun）對(duì)DeepSeek評(píng)論“開(kāi)源模型正在超越專有模型”。oToB端應(yīng)用、AI端側(cè)應(yīng)用將最受益于大模型的開(kāi)源趨勢(shì)、成本降低、迭代加春節(jié)期間，華為云、微軟、英偉達(dá)、AWS等廠商均已上線DeepSeek的模型服務(wù)。大模型是應(yīng)用軟件的基礎(chǔ)設(shè)施之一，隨著基礎(chǔ)設(shè)施的能力提升和成本下降，我們將看到應(yīng)用側(cè)的百花齊放。除了DeepSeek，豆包、Qwen、Kimi等近2月都在快速升級(jí)迭代，月活提升，成本降低。我們認(rèn)為，首先現(xiàn)有的B端應(yīng)用將最先迎來(lái)AIAgent，B端應(yīng)用有成熟的數(shù)據(jù)、場(chǎng)景，例如客服、營(yíng)銷類場(chǎng)景會(huì)較快布局活躍有效的智能代理服務(wù)。其次，隨著低參數(shù)模型性能翻倍，將更適用于追求低能耗的端側(cè)AI創(chuàng)新產(chǎn)品。o相關(guān)標(biāo)的AI應(yīng)用：金山辦公、科大訊飛、焦點(diǎn)科技、彩訊股份、泛微網(wǎng)絡(luò)、鼎捷數(shù)智、漢得信息、致遠(yuǎn)互聯(lián)等。港股：邁富時(shí)、金蝶國(guó)際、明源云等AI端側(cè)：中科創(chuàng)達(dá)、虹軟科技、中興通訊、潤(rùn)欣科技、樂(lè)鑫科技、兆易創(chuàng)新、移遠(yuǎn)通信、恒玄科技；o風(fēng)險(xiǎn)提示產(chǎn)品研發(fā)不及預(yù)期、市場(chǎng)需求不及預(yù)期、大模型商業(yè)落地不及預(yù)期。liuwenshu03@stocke.cyeguangliang@taoyunqi@.2/9請(qǐng)務(wù)必閱讀正文之后正文目錄 4 52.1模型蒸餾增強(qiáng)小模型推理能力，視覺(jué)解耦統(tǒng)一多模態(tài)理解和生成 63.1各科技巨頭上線DeepSeek，提供開(kāi)發(fā)和推理服務(wù) 3.2國(guó)產(chǎn)大模型推理能力提升，加速在應(yīng)用端落地 7 8 83/9請(qǐng)務(wù)必閱讀正文之后圖1：基于DeepSeek-R1輸出蒸餾的小模型性能表現(xiàn)優(yōu)異圖2：模型蒸餾技術(shù)架構(gòu) 圖3：基于DeepSeek-R1蒸餾的模型效果優(yōu)于強(qiáng)化學(xué)習(xí)方法圖4：基于DeepSeek-R1輸出蒸餾的小模型性能表現(xiàn)優(yōu)異圖5：秘塔AI接入滿血版DeepSeekR1推理模型圖6：秘塔可通過(guò)數(shù)學(xué)建模預(yù)測(cè)“哪吒”電影票房表1：DeepSeek模型各版本一覽44/9請(qǐng)務(wù)必閱讀正文之后1版本有序落地，Deepseek-R1性能比肩OpenAIo1正式版模型厚積薄發(fā)，技術(shù)能力不斷突破。DeepSeek（中文名為深度求索）成立于2023年，是一家位于杭州的人工智能公司，為量化巨頭幻方量化的子公司。公司自成立以來(lái)就不斷研發(fā)迭代大模型，幻方目前擁有1萬(wàn)枚英偉達(dá)A100芯片，2023年4月幻方宣布成立新組織，集中資源和力量，探索AGI（通用人工智能）的本質(zhì)，在一年多時(shí)間里進(jìn)展迅推理能力強(qiáng)：通過(guò)強(qiáng)化學(xué)習(xí)技術(shù)，推理能力性能強(qiáng)勁：2360億參數(shù)，每個(gè)token激活210成本低：訓(xùn)練成本大幅降低，僅為GPT-4-Turbo-性能強(qiáng)勁：2360億參數(shù)，每個(gè)token激活210成本低：訓(xùn)練成本大幅降低，僅為GPT-4-Turbo-月-DeepSeek的產(chǎn)品體系不斷豐富，每個(gè)模型都在不同的領(lǐng)域和任務(wù)中展現(xiàn)出了獨(dú)特的優(yōu)勢(shì)和性能特點(diǎn)。隨著時(shí)間的推移，DeepSeek在不斷優(yōu)化模型性能的同時(shí)，也在推動(dòng)著人工智能技術(shù)的發(fā)展和應(yīng)用。從版本迭代來(lái)看，公司歷經(jīng)一年已然迭代多個(gè)版本，目前模型能力可比肩OpenAIo1-mini，從下載量來(lái)看，根據(jù)AI產(chǎn)品榜數(shù)據(jù)顯示，DeepSeek成為全球增速最快AI應(yīng)用，上線20天日活突破2000萬(wàn)。5/9請(qǐng)務(wù)必閱讀正文之后DeepSeek采用模型蒸餾技術(shù)，極大提升模型推理能力。DeepSeek官方技術(shù)文檔顯示，研究人員使用DeepSeek模型遴選了80萬(wàn)個(gè)樣本，并且基于DeepSeek-R1模型的輸出對(duì)阿里Qwen和Meta的Llama開(kāi)源大模型進(jìn)行微調(diào)。評(píng)測(cè)結(jié)果顯示，基于DeepSeek-R1模型蒸餾的32B和70B模型在多項(xiàng)能力上可對(duì)標(biāo)OpenAIo1-mini的效果。DeepSeek研究結(jié)果表明，蒸餾方法可以顯著增強(qiáng)小模型的推理能力。DeepSeek采用蒸餾技術(shù)得到的模型效果優(yōu)于同等條件下使用強(qiáng)化學(xué)習(xí)（RL）的效果。技術(shù)文檔顯示，DeepSeek-R1-Zero-Qwen-32B模型是研究人員在Qwen-32B-Base模型基礎(chǔ)上使用數(shù)學(xué)、代碼、STEM數(shù)據(jù)進(jìn)行超過(guò)10,000步的RL訓(xùn)練得到，其各項(xiàng)測(cè)評(píng)結(jié)果均差于DeepSeek-R1模型通過(guò)蒸餾得到的DeepSeek-R1-Distill-Qwen-32B模型?？紤]RL方法需要大量的計(jì)算資源，蒸餾方法在性能和性價(jià)比方面均呈現(xiàn)出顯著的優(yōu)勢(shì)。6/9請(qǐng)務(wù)必閱讀正文之后Janus-Pro是DeepSeek發(fā)布的一款統(tǒng)一多模態(tài)理解與生成的創(chuàng)新框架，通過(guò)解耦視覺(jué)編碼的方式，極大提升了模型在不同任務(wù)中的適配性與性能。其中，Janus-Pro的SigLIP編碼器專門負(fù)責(zé)理解圖像，能提取圖像的高層語(yǔ)義特征，并關(guān)注圖像的整體含義和場(chǎng)景關(guān)系；而VQtokenizer編碼器，專門用于創(chuàng)作，將圖像轉(zhuǎn)換為離散的token序列，這樣架構(gòu)創(chuàng)新使得Janus-Pro在7B參數(shù)規(guī)模下，僅用32個(gè)節(jié)點(diǎn)、256張A100和14天的時(shí)間就完成訓(xùn)練并取得出色性能表現(xiàn)。3.1各科技巨頭上線DeepSeek，提供開(kāi)發(fā)國(guó)內(nèi)外芯片廠商和云服務(wù)廠商迅速響應(yīng)，紛紛接入DeepSeek模型，在海外，以英偉達(dá)、微軟、亞馬遜為首的科技巨頭率先采用DeepSeek，在國(guó)內(nèi)，騰訊云和華為云已經(jīng)上線DeepSeek相關(guān)服務(wù)。英偉達(dá)：2025年1月31日，英偉達(dá)（NVIDIA）宣布，NVIDIANIM已支持使用DeepSeek-R1。英偉達(dá)官網(wǎng)同日發(fā)文指出，為助力開(kāi)發(fā)者安全試驗(yàn)這些功能并構(gòu)建專屬代理，DeepSeek-R1模型已作為NVIDIANIM微服務(wù)預(yù)覽版上線。微軟：2025年1月30日，微軟宣布已將DeepSeek-R1正式納入AzureAIFoundry，成為該企業(yè)級(jí)AI服務(wù)平臺(tái)的一部分。微軟強(qiáng)調(diào)，DeepSeek-R1模型已通過(guò)“嚴(yán)格的紅隊(duì)測(cè)試與安全評(píng)估”，并歷經(jīng)“模型行為自動(dòng)化檢測(cè)與廣泛的安全審查”以降低潛在風(fēng)險(xiǎn)。后續(xù)，微軟還會(huì)持續(xù)評(píng)估該模型，或進(jìn)行調(diào)整優(yōu)化以提升其準(zhǔn)確度和審查機(jī)制。亞馬遜：2025年1月31日，亞馬遜表示DeepSeek-R1模型已可在AmazonWebServices上使用，這一合作彰顯了DeepSeek模型在云計(jì)算場(chǎng)景中的價(jià)值，有助于亞馬遜為用戶提供更具創(chuàng)新性和高效性的AI技術(shù)，提升用戶在電商、數(shù)據(jù)分析等領(lǐng)域的體驗(yàn)，推動(dòng)業(yè)務(wù)發(fā)展。7/9請(qǐng)務(wù)必閱讀正文之后騰訊云：2025年2月2日，騰訊云宣布將DeepSeek-R1大模型一鍵部署至其HAI平臺(tái)，開(kāi)發(fā)者僅需3分鐘即可完成接入。這一舉措降低了開(kāi)發(fā)者使用DeepSeek-R1模型的門檻，使得更多基于該模型的創(chuàng)新應(yīng)用能夠快速開(kāi)發(fā)和部署。借助騰訊云HAI平臺(tái)的強(qiáng)大算力和豐富的生態(tài)資源，DeepSeek-R1模型有望在內(nèi)容創(chuàng)作、智能客服、數(shù)據(jù)分析等多個(gè)領(lǐng)域發(fā)揮更大的作用，為騰訊云的用戶提供更加智能化的服務(wù)。華為云：2025年2月1日，硅基流動(dòng)和華為云團(tuán)隊(duì)聯(lián)合首發(fā)并上線基于華為云昇騰云服務(wù)的DeepSeekR1/V3推理服務(wù)。基于華為云昇騰云服務(wù)強(qiáng)大的算力支持，此次合作推出的推理服務(wù)能夠充分發(fā)揮DeepSeekR1/V3模型的優(yōu)勢(shì)，為科研、醫(yī)療、工業(yè)制造等多個(gè)行業(yè)提供高效、精準(zhǔn)的AI推理能力。DeepSeek最新版模型展現(xiàn)出來(lái)的優(yōu)異能力，表明國(guó)內(nèi)大模型推理能力提升到一個(gè)新的階段，大模型在各領(lǐng)域的應(yīng)用有望加速加速落地。我們認(rèn)為，DeepSeek給AI研究和企業(yè)端應(yīng)用都將帶來(lái)革新。在AI研究與學(xué)術(shù)領(lǐng)域：DeepSeekAI推動(dòng)大規(guī)模語(yǔ)言模型的進(jìn)化，為未來(lái)的AI研究提供了新方向；提升AI可解釋性，使開(kāi)發(fā)者更容易理解模型的決策邏輯；加速自然語(yǔ)言處理（NLP）任務(wù)的突破，如文本生成、情感分析、機(jī)器翻譯等。在企業(yè)應(yīng)用端，我們認(rèn)為：首先現(xiàn)有的B端應(yīng)用將最先迎來(lái)AIAgent，B端應(yīng)用有成熟的數(shù)據(jù)、場(chǎng)景，例如客服、營(yíng)銷類場(chǎng)景會(huì)較快布局活躍有效的智能代理服務(wù)。其次，隨著低參數(shù)模型性能翻倍，將更適用于追求低能耗的端側(cè)AI創(chuàng)新產(chǎn)品。以秘塔AI搜索為例，在融合DeepSeek-R1后，實(shí)現(xiàn)了“國(guó)產(chǎn)最強(qiáng)推理+全網(wǎng)實(shí)時(shí)搜索+高質(zhì)量知識(shí)庫(kù)”的結(jié)合，在多個(gè)方面利用DeepSeek技術(shù)提升用戶體驗(yàn)：處理復(fù)雜問(wèn)題：借助DeepSeek-R1強(qiáng)大的復(fù)雜推理能力，結(jié)合自身的聯(lián)網(wǎng)檢索和海量知識(shí)庫(kù)/論文數(shù)據(jù)，處理復(fù)雜查詢。在預(yù)測(cè)《哪吒2》票房成績(jī)時(shí)，能結(jié)合海量搜索材料，考慮多個(gè)變量因素，確定基準(zhǔn)數(shù)據(jù)和關(guān)鍵影響因素，構(gòu)建數(shù)學(xué)模型進(jìn)行預(yù)測(cè)，還能實(shí)時(shí)聯(lián)網(wǎng)獲取最新票房及各方預(yù)測(cè)結(jié)果。提升專業(yè)知識(shí)查詢能力：在查詢專業(yè)知識(shí)時(shí)，如OpenAI模型進(jìn)展相關(guān)問(wèn)題，秘塔AI搜索可利用DeepSeek的推理能力深入分析資料。它能準(zhǔn)確找出2024年以來(lái)OpenAI發(fā)布的模型及其技術(shù)突破，并總結(jié)出推理能力、多模態(tài)交互、效率優(yōu)化、視頻生成技術(shù)等四大技術(shù)突破方向，還提及市場(chǎng)競(jìng)爭(zhēng)態(tài)勢(shì)等信息，且提供具體引用細(xì)節(jié)。優(yōu)化搜索結(jié)果質(zhì)量：對(duì)接DeepSeek-R1的推理能力后，秘塔AI搜索可以更準(zhǔn)確地理解用戶查詢意圖，處理多條件篩選、語(yǔ)義模糊等復(fù)雜查詢，返回更快速、相關(guān)、精準(zhǔn)的信息結(jié)果。同時(shí)，通過(guò)分析信息來(lái)源和內(nèi)容邏輯性，過(guò)濾謠言等虛假信息，增強(qiáng)搜索結(jié)果的真實(shí)性和可靠性。助力深度知識(shí)挖掘：讓DeepSeek-R1擁有AI聯(lián)網(wǎng)搜索及背后的高質(zhì)量索引庫(kù)，能夠?qū)崟r(shí)查詢最新資料，全網(wǎng)搜羅、分析各種論文并形成思維導(dǎo)圖匯總，滿足用戶從查詢一項(xiàng)研究/技術(shù)的最新進(jìn)展到縱觀一個(gè)學(xué)科技術(shù)發(fā)展歷程等多樣需8/9請(qǐng)務(wù)必閱讀正文之后圖5：秘塔AI接入滿血版DeepSeekR1推理模型AI應(yīng)用：金山辦公、科大訊飛、焦點(diǎn)科技、彩訊股份、泛微網(wǎng)絡(luò)、鼎捷數(shù)智、漢得信息、致遠(yuǎn)互聯(lián)等。港股：邁富時(shí)、金蝶國(guó)際、明源云等AI端側(cè)：中科創(chuàng)達(dá)、虹軟科技、中興通訊、潤(rùn)欣科技、樂(lè)鑫科技、兆易創(chuàng)新、移遠(yuǎn)通信、恒玄科技；產(chǎn)品研發(fā)不及預(yù)期：如果DeepSeek大模型或者大模型應(yīng)用研發(fā)不及預(yù)期，可能影響對(duì)算力的需求和應(yīng)用的落地市場(chǎng)需求不及預(yù)期：如果市場(chǎng)需求不足，則影響對(duì)算力需求及AI應(yīng)用推廣。大模型商業(yè)落地不及預(yù)期：如果大模型未能找到足夠多的商業(yè)落地場(chǎng)景，則可能影響大模型的盈利并影響產(chǎn)業(yè)界對(duì)大模型乃至算力的投資。9/9請(qǐng)務(wù)必閱讀正文之后股票投資評(píng)級(jí)說(shuō)明以報(bào)告日后的6個(gè)月內(nèi)，證券相對(duì)于滬深300指數(shù)的漲跌幅為標(biāo)準(zhǔn)，定義如下：1.買入：相對(duì)于滬深300指數(shù)表現(xiàn)＋20％以上；2.增持：相對(duì)于滬深300指數(shù)表現(xiàn)＋1020%;3.中性：相對(duì)于滬深300指數(shù)表現(xiàn)－1010％之間波動(dòng)；4.減持：相對(duì)于滬深300指數(shù)表現(xiàn)－10％以下。行業(yè)的投資評(píng)級(jí)：以報(bào)告日后的6個(gè)月內(nèi)，行業(yè)指數(shù)相對(duì)于滬深300指數(shù)的漲跌幅為標(biāo)準(zhǔn)，定義如下：1.看好：行業(yè)指數(shù)相對(duì)于滬深300指數(shù)表現(xiàn)＋10%以上；2.中性：行業(yè)指數(shù)相對(duì)于滬深300指數(shù)表現(xiàn)－10%10%以上；3.看淡：行業(yè)指數(shù)相對(duì)于滬深300指數(shù)表現(xiàn)－10%以下。我們?cè)诖颂嵝涯?，不同證券研究機(jī)構(gòu)采用不同的評(píng)級(jí)術(shù)語(yǔ)及評(píng)級(jí)標(biāo)準(zhǔn)。我們采用的是相對(duì)評(píng)級(jí)體系，表示投資的相對(duì)比建議：投資者買入或者賣出證券的決定取決于個(gè)人的實(shí)際情況，比如當(dāng)前的持倉(cāng)結(jié)構(gòu)以及其他需要考慮的因素。投資者不應(yīng)僅僅依靠投資評(píng)級(jí)來(lái)推斷結(jié)論。法律聲明及風(fēng)險(xiǎn)提示本報(bào)

人人文庫(kù)> 全部分類> 行業(yè)資料 > 信息產(chǎn)業(yè)

溫馨提示

1. 本站所有資源如無(wú)特殊說(shuō)明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽，若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間，僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理，對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容，請(qǐng)與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

計(jì)算機(jī)-一文讀懂DeepSeek-大模型行業(yè)專題報(bào)告

文檔簡(jiǎn)介

溫馨提示

最新文檔

評(píng)論

相關(guān)文檔