計(jì)算機(jī)-一文讀懂DeepSeek-大模型行業(yè)專題報(bào)告_第1頁(yè)
計(jì)算機(jī)-一文讀懂DeepSeek-大模型行業(yè)專題報(bào)告_第2頁(yè)
計(jì)算機(jī)-一文讀懂DeepSeek-大模型行業(yè)專題報(bào)告_第3頁(yè)
計(jì)算機(jī)-一文讀懂DeepSeek-大模型行業(yè)專題報(bào)告_第4頁(yè)
計(jì)算機(jī)-一文讀懂DeepSeek-大模型行業(yè)專題報(bào)告_第5頁(yè)
已閱讀5頁(yè),還剩10頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1/9計(jì)算機(jī)報(bào)告日期:2025年02月03日oDeepSeek是堅(jiān)持技術(shù)創(chuàng)新的中國(guó)大模型,中國(guó)模型出圈。DeepSeek成立于2023年7月,由知名量化資管巨頭幻方量化創(chuàng)立,其掌門人梁文鋒是DeepSeek的創(chuàng)始人,在暗涌專訪中,梁文峰談到:“這一波浪潮里,我們的出發(fā)點(diǎn),就不是趁機(jī)賺一筆,而是走到技術(shù)的前沿,去推動(dòng)整個(gè)生態(tài)發(fā)展?!备鶕?jù)2月3日AI產(chǎn)品榜數(shù)據(jù),DeepSeekAPP上線20天日活超2000萬(wàn)。根據(jù)Appfigures的數(shù)據(jù)顯示(不包括中國(guó)的第三方應(yīng)用商店DeepSeekApp于1月26日登上蘋果AppStore全球下載榜榜首。根據(jù)SensorTower的研究,該應(yīng)用在谷歌Play商店美國(guó)區(qū)下載排行榜中位居榜首。SensorTower數(shù)據(jù)顯示,DeepSeek在發(fā)布的前18天內(nèi)累計(jì)下載量達(dá)1600萬(wàn)次。oDeepSeek是攪動(dòng)全球模型市場(chǎng)的一條鯰魚,帶來(lái)性能、價(jià)格、開(kāi)源三重沖擊。1)性能比肩國(guó)際頂尖模型:DeepSeekR1在數(shù)學(xué)、代碼、自然語(yǔ)言推理等任務(wù)上的性能可比肩OpenAIo1模型正式版。在AIME2024數(shù)學(xué)基準(zhǔn)測(cè)試中,DeepSeekR1得分率為79.8%,OpenAIo1的得分率為79.2%;在MATH-500基準(zhǔn)測(cè)試中,DeepSeekR1得分率為97.3%,OpenAIo1的得分率為96.4%。2)低成本顛覆市場(chǎng)格局:DeepSeekV3整個(gè)訓(xùn)練過(guò)程僅用了不到280萬(wàn)個(gè)GPU小時(shí),相比之下,Llama3405B的訓(xùn)練時(shí)長(zhǎng)是3080萬(wàn)GPU小時(shí)。DeepSeek-V3的訓(xùn)練成本僅為約557.6萬(wàn)美元,而GPT-4等模型的訓(xùn)練成本則高達(dá)數(shù)億美元。DeepSeekAPI服務(wù)定價(jià)遠(yuǎn)低于OpenAI,以輸出為例,每百萬(wàn)輸出tokens16元(約2.2美元GPT-o1每百萬(wàn)輸出tokens60美元。3)踐行開(kāi)源理念:DeepSeek-V3和推理模型DeepSeek-R1均開(kāi)源,R1同步開(kāi)源了其模型權(quán)重,并允許用戶利用模型輸出,通過(guò)模型蒸餾等方式訓(xùn)練其他模型。Meta首席科學(xué)家楊立昆(YannLecun)對(duì)DeepSeek評(píng)論“開(kāi)源模型正在超越專有模型”。oToB端應(yīng)用、AI端側(cè)應(yīng)用將最受益于大模型的開(kāi)源趨勢(shì)、成本降低、迭代加春節(jié)期間,華為云、微軟、英偉達(dá)、AWS等廠商均已上線DeepSeek的模型服務(wù)。大模型是應(yīng)用軟件的基礎(chǔ)設(shè)施之一,隨著基礎(chǔ)設(shè)施的能力提升和成本下降,我們將看到應(yīng)用側(cè)的百花齊放。除了DeepSeek,豆包、Qwen、Kimi等近2月都在快速升級(jí)迭代,月活提升,成本降低。我們認(rèn)為,首先現(xiàn)有的B端應(yīng)用將最先迎來(lái)AIAgent,B端應(yīng)用有成熟的數(shù)據(jù)、場(chǎng)景,例如客服、營(yíng)銷類場(chǎng)景會(huì)較快布局活躍有效的智能代理服務(wù)。其次,隨著低參數(shù)模型性能翻倍,將更適用于追求低能耗的端側(cè)AI創(chuàng)新產(chǎn)品。o相關(guān)標(biāo)的AI應(yīng)用:金山辦公、科大訊飛、焦點(diǎn)科技、彩訊股份、泛微網(wǎng)絡(luò)、鼎捷數(shù)智、漢得信息、致遠(yuǎn)互聯(lián)等。港股:邁富時(shí)、金蝶國(guó)際、明源云等AI端側(cè):中科創(chuàng)達(dá)、虹軟科技、中興通訊、潤(rùn)欣科技、樂(lè)鑫科技、兆易創(chuàng)新、移遠(yuǎn)通信、恒玄科技;o風(fēng)險(xiǎn)提示產(chǎn)品研發(fā)不及預(yù)期、市場(chǎng)需求不及預(yù)期、大模型商業(yè)落地不及預(yù)期。liuwenshu03@stocke.cyeguangliang@taoyunqi@.2/9請(qǐng)務(wù)必閱讀正文之后正文目錄 4 52.1模型蒸餾增強(qiáng)小模型推理能力,視覺(jué)解耦統(tǒng)一多模態(tài)理解和生成 63.1各科技巨頭上線DeepSeek,提供開(kāi)發(fā)和推理服務(wù) 3.2國(guó)產(chǎn)大模型推理能力提升,加速在應(yīng)用端落地 7 8 83/9請(qǐng)務(wù)必閱讀正文之后圖1:基于DeepSeek-R1輸出蒸餾的小模型性能表現(xiàn)優(yōu)異 圖2:模型蒸餾技術(shù)架構(gòu) 圖3:基于DeepSeek-R1蒸餾的模型效果優(yōu)于強(qiáng)化學(xué)習(xí)方法 圖4:基于DeepSeek-R1輸出蒸餾的小模型性能表現(xiàn)優(yōu)異 圖5:秘塔AI接入滿血版DeepSeekR1推理模型 圖6:秘塔可通過(guò)數(shù)學(xué)建模預(yù)測(cè)“哪吒”電影票房 表1:DeepSeek模型各版本一覽44/9請(qǐng)務(wù)必閱讀正文之后1版本有序落地,Deepseek-R1性能比肩OpenAIo1正式版模型厚積薄發(fā),技術(shù)能力不斷突破。DeepSeek(中文名為深度求索)成立于2023年,是一家位于杭州的人工智能公司,為量化巨頭幻方量化的子公司。公司自成立以來(lái)就不斷研發(fā)迭代大模型,幻方目前擁有1萬(wàn)枚英偉達(dá)A100芯片,2023年4月幻方宣布成立新組織,集中資源和力量,探索AGI(通用人工智能)的本質(zhì),在一年多時(shí)間里進(jìn)展迅推理能力強(qiáng):通過(guò)強(qiáng)化學(xué)習(xí)技術(shù),推理能力性能強(qiáng)勁:2360億參數(shù),每個(gè)token激活210成本低:訓(xùn)練成本大幅降低,僅為GPT-4-Turbo-性能強(qiáng)勁:2360億參數(shù),每個(gè)token激活210成本低:訓(xùn)練成本大幅降低,僅為GPT-4-Turbo-月-DeepSeek的產(chǎn)品體系不斷豐富,每個(gè)模型都在不同的領(lǐng)域和任務(wù)中展現(xiàn)出了獨(dú)特的優(yōu)勢(shì)和性能特點(diǎn)。隨著時(shí)間的推移,DeepSeek在不斷優(yōu)化模型性能的同時(shí),也在推動(dòng)著人工智能技術(shù)的發(fā)展和應(yīng)用。從版本迭代來(lái)看,公司歷經(jīng)一年已然迭代多個(gè)版本,目前模型能力可比肩OpenAIo1-mini,從下載量來(lái)看,根據(jù)AI產(chǎn)品榜數(shù)據(jù)顯示,DeepSeek成為全球增速最快AI應(yīng)用,上線20天日活突破2000萬(wàn)。5/9請(qǐng)務(wù)必閱讀正文之后DeepSeek采用模型蒸餾技術(shù),極大提升模型推理能力。DeepSeek官方技術(shù)文檔顯示,研究人員使用DeepSeek模型遴選了80萬(wàn)個(gè)樣本,并且基于DeepSeek-R1模型的輸出對(duì)阿里Qwen和Meta的Llama開(kāi)源大模型進(jìn)行微調(diào)。評(píng)測(cè)結(jié)果顯示,基于DeepSeek-R1模型蒸餾的32B和70B模型在多項(xiàng)能力上可對(duì)標(biāo)OpenAIo1-mini的效果。DeepSeek研究結(jié)果表明,蒸餾方法可以顯著增強(qiáng)小模型的推理能力。DeepSeek采用蒸餾技術(shù)得到的模型效果優(yōu)于同等條件下使用強(qiáng)化學(xué)習(xí)(RL)的效果。技術(shù)文檔顯示,DeepSeek-R1-Zero-Qwen-32B模型是研究人員在Qwen-32B-Base模型基礎(chǔ)上使用數(shù)學(xué)、代碼、STEM數(shù)據(jù)進(jìn)行超過(guò)10,000步的RL訓(xùn)練得到,其各項(xiàng)測(cè)評(píng)結(jié)果均差于DeepSeek-R1模型通過(guò)蒸餾得到的DeepSeek-R1-Distill-Qwen-32B模型??紤]RL方法需要大量的計(jì)算資源,蒸餾方法在性能和性價(jià)比方面均呈現(xiàn)出顯著的優(yōu)勢(shì)。6/9請(qǐng)務(wù)必閱讀正文之后Janus-Pro是DeepSeek發(fā)布的一款統(tǒng)一多模態(tài)理解與生成的創(chuàng)新框架,通過(guò)解耦視覺(jué)編碼的方式,極大提升了模型在不同任務(wù)中的適配性與性能。其中,Janus-Pro的SigLIP編碼器專門負(fù)責(zé)理解圖像,能提取圖像的高層語(yǔ)義特征,并關(guān)注圖像的整體含義和場(chǎng)景關(guān)系;而VQtokenizer編碼器,專門用于創(chuàng)作,將圖像轉(zhuǎn)換為離散的token序列,這樣架構(gòu)創(chuàng)新使得Janus-Pro在7B參數(shù)規(guī)模下,僅用32個(gè)節(jié)點(diǎn)、256張A100和14天的時(shí)間就完成訓(xùn)練并取得出色性能表現(xiàn)。3.1各科技巨頭上線DeepSeek,提供開(kāi)發(fā)國(guó)內(nèi)外芯片廠商和云服務(wù)廠商迅速響應(yīng),紛紛接入DeepSeek模型,在海外,以英偉達(dá)、微軟、亞馬遜為首的科技巨頭率先采用DeepSeek,在國(guó)內(nèi),騰訊云和華為云已經(jīng)上線DeepSeek相關(guān)服務(wù)。英偉達(dá):2025年1月31日,英偉達(dá)(NVIDIA)宣布,NVIDIANIM已支持使用DeepSeek-R1。英偉達(dá)官網(wǎng)同日發(fā)文指出,為助力開(kāi)發(fā)者安全試驗(yàn)這些功能并構(gòu)建專屬代理,DeepSeek-R1模型已作為NVIDIANIM微服務(wù)預(yù)覽版上線。微軟:2025年1月30日,微軟宣布已將DeepSeek-R1正式納入AzureAIFoundry,成為該企業(yè)級(jí)AI服務(wù)平臺(tái)的一部分。微軟強(qiáng)調(diào),DeepSeek-R1模型已通過(guò)“嚴(yán)格的紅隊(duì)測(cè)試與安全評(píng)估”,并歷經(jīng)“模型行為自動(dòng)化檢測(cè)與廣泛的安全審查”以降低潛在風(fēng)險(xiǎn)。后續(xù),微軟還會(huì)持續(xù)評(píng)估該模型,或進(jìn)行調(diào)整優(yōu)化以提升其準(zhǔn)確度和審查機(jī)制。亞馬遜:2025年1月31日,亞馬遜表示DeepSeek-R1模型已可在AmazonWebServices上使用,這一合作彰顯了DeepSeek模型在云計(jì)算場(chǎng)景中的價(jià)值,有助于亞馬遜為用戶提供更具創(chuàng)新性和高效性的AI技術(shù),提升用戶在電商、數(shù)據(jù)分析等領(lǐng)域的體驗(yàn),推動(dòng)業(yè)務(wù)發(fā)展。7/9請(qǐng)務(wù)必閱讀正文之后騰訊云:2025年2月2日,騰訊云宣布將DeepSeek-R1大模型一鍵部署至其HAI平臺(tái),開(kāi)發(fā)者僅需3分鐘即可完成接入。這一舉措降低了開(kāi)發(fā)者使用DeepSeek-R1模型的門檻,使得更多基于該模型的創(chuàng)新應(yīng)用能夠快速開(kāi)發(fā)和部署。借助騰訊云HAI平臺(tái)的強(qiáng)大算力和豐富的生態(tài)資源,DeepSeek-R1模型有望在內(nèi)容創(chuàng)作、智能客服、數(shù)據(jù)分析等多個(gè)領(lǐng)域發(fā)揮更大的作用,為騰訊云的用戶提供更加智能化的服務(wù)。華為云:2025年2月1日,硅基流動(dòng)和華為云團(tuán)隊(duì)聯(lián)合首發(fā)并上線基于華為云昇騰云服務(wù)的DeepSeekR1/V3推理服務(wù)。基于華為云昇騰云服務(wù)強(qiáng)大的算力支持,此次合作推出的推理服務(wù)能夠充分發(fā)揮DeepSeekR1/V3模型的優(yōu)勢(shì),為科研、醫(yī)療、工業(yè)制造等多個(gè)行業(yè)提供高效、精準(zhǔn)的AI推理能力。DeepSeek最新版模型展現(xiàn)出來(lái)的優(yōu)異能力,表明國(guó)內(nèi)大模型推理能力提升到一個(gè)新的階段,大模型在各領(lǐng)域的應(yīng)用有望加速加速落地。我們認(rèn)為,DeepSeek給AI研究和企業(yè)端應(yīng)用都將帶來(lái)革新。在AI研究與學(xué)術(shù)領(lǐng)域:DeepSeekAI推動(dòng)大規(guī)模語(yǔ)言模型的進(jìn)化,為未來(lái)的AI研究提供了新方向;提升AI可解釋性,使開(kāi)發(fā)者更容易理解模型的決策邏輯;加速自然語(yǔ)言處理(NLP)任務(wù)的突破,如文本生成、情感分析、機(jī)器翻譯等。在企業(yè)應(yīng)用端,我們認(rèn)為:首先現(xiàn)有的B端應(yīng)用將最先迎來(lái)AIAgent,B端應(yīng)用有成熟的數(shù)據(jù)、場(chǎng)景,例如客服、營(yíng)銷類場(chǎng)景會(huì)較快布局活躍有效的智能代理服務(wù)。其次,隨著低參數(shù)模型性能翻倍,將更適用于追求低能耗的端側(cè)AI創(chuàng)新產(chǎn)品。以秘塔AI搜索為例,在融合DeepSeek-R1后,實(shí)現(xiàn)了“國(guó)產(chǎn)最強(qiáng)推理+全網(wǎng)實(shí)時(shí)搜索+高質(zhì)量知識(shí)庫(kù)”的結(jié)合,在多個(gè)方面利用DeepSeek技術(shù)提升用戶體驗(yàn):處理復(fù)雜問(wèn)題:借助DeepSeek-R1強(qiáng)大的復(fù)雜推理能力,結(jié)合自身的聯(lián)網(wǎng)檢索和海量知識(shí)庫(kù)/論文數(shù)據(jù),處理復(fù)雜查詢。在預(yù)測(cè)《哪吒2》票房成績(jī)時(shí),能結(jié)合海量搜索材料,考慮多個(gè)變量因素,確定基準(zhǔn)數(shù)據(jù)和關(guān)鍵影響因素,構(gòu)建數(shù)學(xué)模型進(jìn)行預(yù)測(cè),還能實(shí)時(shí)聯(lián)網(wǎng)獲取最新票房及各方預(yù)測(cè)結(jié)果。提升專業(yè)知識(shí)查詢能力:在查詢專業(yè)知識(shí)時(shí),如OpenAI模型進(jìn)展相關(guān)問(wèn)題,秘塔AI搜索可利用DeepSeek的推理能力深入分析資料。它能準(zhǔn)確找出2024年以來(lái)OpenAI發(fā)布的模型及其技術(shù)突破,并總結(jié)出推理能力、多模態(tài)交互、效率優(yōu)化、視頻生成技術(shù)等四大技術(shù)突破方向,還提及市場(chǎng)競(jìng)爭(zhēng)態(tài)勢(shì)等信息,且提供具體引用細(xì)節(jié)。優(yōu)化搜索結(jié)果質(zhì)量:對(duì)接DeepSeek-R1的推理能力后,秘塔AI搜索可以更準(zhǔn)確地理解用戶查詢意圖,處理多條件篩選、語(yǔ)義模糊等復(fù)雜查詢,返回更快速、相關(guān)、精準(zhǔn)的信息結(jié)果。同時(shí),通過(guò)分析信息來(lái)源和內(nèi)容邏輯性,過(guò)濾謠言等虛假信息,增強(qiáng)搜索結(jié)果的真實(shí)性和可靠性。助力深度知識(shí)挖掘:讓DeepSeek-R1擁有AI聯(lián)網(wǎng)搜索及背后的高質(zhì)量索引庫(kù),能夠?qū)崟r(shí)查詢最新資料,全網(wǎng)搜羅、分析各種論文并形成思維導(dǎo)圖匯總,滿足用戶從查詢一項(xiàng)研究/技術(shù)的最新進(jìn)展到縱觀一個(gè)學(xué)科技術(shù)發(fā)展歷程等多樣需8/9請(qǐng)務(wù)必閱讀正文之后圖5:秘塔AI接入滿血版DeepSeekR1推理模型AI應(yīng)用:金山辦公、科大訊飛、焦點(diǎn)科技、彩訊股份、泛微網(wǎng)絡(luò)、鼎捷數(shù)智、漢得信息、致遠(yuǎn)互聯(lián)等。港股:邁富時(shí)、金蝶國(guó)際、明源云等AI端側(cè):中科創(chuàng)達(dá)、虹軟科技、中興通訊、潤(rùn)欣科技、樂(lè)鑫科技、兆易創(chuàng)新、移遠(yuǎn)通信、恒玄科技;產(chǎn)品研發(fā)不及預(yù)期:如果DeepSeek大模型或者大模型應(yīng)用研發(fā)不及預(yù)期,可能影響對(duì)算力的需求和應(yīng)用的落地市場(chǎng)需求不及預(yù)期:如果市場(chǎng)需求不足,則影響對(duì)算力需求及AI應(yīng)用推廣。大模型商業(yè)落地不及預(yù)期:如果大模型未能找到足夠多的商業(yè)落地場(chǎng)景,則可能影響大模型的盈利并影響產(chǎn)業(yè)界對(duì)大模型乃至算力的投資。9/9請(qǐng)務(wù)必閱讀正文之后股票投資評(píng)級(jí)說(shuō)明以報(bào)告日后的6個(gè)月內(nèi),證券相對(duì)于滬深300指數(shù)的漲跌幅為標(biāo)準(zhǔn),定義如下:1.買入:相對(duì)于滬深300指數(shù)表現(xiàn)+20%以上;2.增持:相對(duì)于滬深300指數(shù)表現(xiàn)+1020%;3.中性:相對(duì)于滬深300指數(shù)表現(xiàn)-1010%之間波動(dòng);4.減持:相對(duì)于滬深300指數(shù)表現(xiàn)-10%以下。行業(yè)的投資評(píng)級(jí):以報(bào)告日后的6個(gè)月內(nèi),行業(yè)指數(shù)相對(duì)于滬深300指數(shù)的漲跌幅為標(biāo)準(zhǔn),定義如下:1.看好:行業(yè)指數(shù)相對(duì)于滬深300指數(shù)表現(xiàn)+10%以上;2.中性:行業(yè)指數(shù)相對(duì)于滬深300指數(shù)表現(xiàn)-10%10%以上;3.看淡:行業(yè)指數(shù)相對(duì)于滬深300指數(shù)表現(xiàn)-10%以下。我們?cè)诖颂嵝涯?,不同證券研究機(jī)構(gòu)采用不同的評(píng)級(jí)術(shù)語(yǔ)及評(píng)級(jí)標(biāo)準(zhǔn)。我們采用的是相對(duì)評(píng)級(jí)體系,表示投資的相對(duì)比建議:投資者買入或者賣出證券的決定取決于個(gè)人的實(shí)際情況,比如當(dāng)前的持倉(cāng)結(jié)構(gòu)以及其他需要考慮的因素。投資者不應(yīng)僅僅依靠投資評(píng)級(jí)來(lái)推斷結(jié)論。法律聲明及風(fēng)險(xiǎn)提示本報(bào)

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論