版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
深度分析|計(jì)算機(jī)證券研究報(bào)告計(jì)算機(jī)行業(yè)比較試用DeepSeek看模型走向應(yīng)用的新跡象度求索公司上線DeepSeek-V3系列模型首個(gè)版本,較前代模型DeepSeek-V2.5有顯著提升。為了深入探索該模型的能力,我們采用了高效的負(fù)載均衡策略、FP8混合精度訓(xùn)練框法層面的優(yōu)化創(chuàng)新,仍然可以高效利用算力,實(shí)現(xiàn)較好的模型效果。用的DeepSeekMoE是通過參考了各術(shù)的發(fā)展提供了重要啟發(fā),未來或?qū)囊蕾嚧笠?guī)模通用模型轉(zhuǎn)向發(fā)展行業(yè)評(píng)級(jí)前次評(píng)級(jí)報(bào)告日期買入2024-12-29-11%-11%-22%-34%24% 計(jì)算機(jī)滬深300分析師:劉雪fliuxuefeng@分析師:周hzhouyuan@請(qǐng)注意,周源并非香港證券及期貨事務(wù)監(jiān)察委員會(huì)的注冊(cè)持牌人,不可在香港從事受監(jiān)管活動(dòng)。計(jì)算機(jī)行業(yè):主題趨勢(shì)輪動(dòng)搶跑背景下的更多選擇方向計(jì)算機(jī)行業(yè):券商新一代核心交易系統(tǒng)招標(biāo)打破僵局計(jì)算機(jī)行業(yè):鴻蒙生態(tài)構(gòu)建、代表性行業(yè)規(guī)模測(cè)算及推進(jìn)節(jié)奏判斷聯(lián)系人:戴亞aiyamin@識(shí)別風(fēng)險(xiǎn),發(fā)現(xiàn)價(jià)值請(qǐng)務(wù)必閱讀末頁的免責(zé)聲明重點(diǎn)公?估|üˉ務(wù)V÷表股票簡(jiǎn)ùw盤?報(bào)^?期?級(jí)\v?|?元/股ā?武紀(jì)-U--紫Y股份浪潮?o?山辦公第四范__----O興科技星?科技-U---數(shù)據(jù)g源?Wind1廣發(fā)證券發(fā)展研~中?備ì?表中估|g標(biāo)k照最新w盤?計(jì)?識(shí)別風(fēng)險(xiǎn),發(fā)現(xiàn)價(jià)值請(qǐng)務(wù)必閱讀末頁的免責(zé)聲明 (二)模型兼具低成本與高性能的特點(diǎn) (三)針對(duì)程序開發(fā)場(chǎng)景,DEEPSEEK生成內(nèi)容更符合開發(fā)者要求 (四)DEEPSEEK生成文本的質(zhì)量符合行業(yè)平 三、數(shù)據(jù)與算法仍有潛力可待挖掘,算力依 識(shí)別風(fēng)險(xiǎn),發(fā)現(xiàn)價(jià)值請(qǐng)務(wù)必閱讀末頁的免責(zé)聲明 圖4:MMLUReduxZeroEval 圖7:豆包大模型回答空間理解和推理問題結(jié)果 圖9:通義千問大模型回答空間理解和推理問題結(jié)果 圖12:豆包大模型回答密文解碼問題的結(jié)果 圖14:通義千問大模型回答密文解碼問題的結(jié)果 圖17:豆包大模型回答空間幾何問題的結(jié)果 圖18:豆包大模型回答空間幾何問題的結(jié)果 圖20:通義千問大模型回答空間幾何問題的結(jié)果 圖23:豆包大模型回答數(shù)學(xué)計(jì)算問題的結(jié)果 圖24:豆包大模型回答數(shù)學(xué)計(jì)算問題的結(jié)果 圖26:通義千問大模型回答數(shù)學(xué)計(jì)算問題的結(jié)果 圖29:豆包大模型代碼生成的結(jié)果 圖31:通義千問大模型代碼生成的結(jié)果 圖32:通義千問大模型代碼生成的結(jié)果 圖37:豆包大模型實(shí)現(xiàn)網(wǎng)頁開發(fā)功能的程序開發(fā)過程 圖38:豆包大模型實(shí)現(xiàn)網(wǎng)頁開發(fā)功能的程序開發(fā)過程 圖39:豆包大模型實(shí)現(xiàn)網(wǎng)頁開發(fā)功能的程序開發(fā)過程 識(shí)別風(fēng)險(xiǎn),發(fā)現(xiàn)價(jià)值請(qǐng)務(wù)必閱讀末頁的免責(zé)聲明圖40:豆包大模型實(shí)現(xiàn)網(wǎng)頁開發(fā)功能的程序開發(fā)過程 圖43:通義千問大模型實(shí)現(xiàn)網(wǎng)頁開發(fā)功能的程序開發(fā)過程 圖44:通義千問大模型實(shí)現(xiàn)網(wǎng)頁開發(fā)功能的程序開發(fā)過程 圖46:豆包大模型文字創(chuàng)作生成結(jié)果 圖48:通義千問大模型文字創(chuàng)作生成結(jié)果 圖49:通義千問大模型文字創(chuàng)作生成結(jié)果 圖52:豆包大模型在求職場(chǎng)景的文本生成結(jié)果 圖55:通義千問大模型在求職場(chǎng)景的文本生成結(jié)果 圖56:通義千問大模型在求職場(chǎng)景的文本生成結(jié)果 識(shí)別風(fēng)險(xiǎn),發(fā)現(xiàn)價(jià)值請(qǐng)務(wù)必閱讀末頁的免責(zé)聲明一、DeepSeek-V3上線,模型性能提升較快在14.8Ttoken上進(jìn)行了預(yù)訓(xùn)練,但當(dāng)前版本暫不支持多模態(tài)輸入輸出。(一)沿用前代MLA+MoE架構(gòu),訓(xùn)練成本大幅降低DeepSeek-V2的MLA(多頭潛在注意力)和自研DeepSe降低推理過程中的kv緩存開銷,而MoE可以通過動(dòng)態(tài)選擇并激活部分專家來降低計(jì)算開銷。DeepSeek-V3通過專用和共享專家,能夠顯著提升模型的稀疏程度(總參數(shù)量除以激活參數(shù)量)。相比DeepSeek-V2的236B總參數(shù)(21B激活參數(shù)),V3更引入了256個(gè)專家,總參數(shù)量達(dá)到671B,而激活參數(shù)量?jī)H僅增加到372.采用多token預(yù)測(cè)訓(xùn)練目標(biāo),提升評(píng)估基準(zhǔn)的整體性能。數(shù)據(jù)來源:DeepSeek-V3TechnicalReport,廣發(fā)證券發(fā)展研究中心識(shí)別風(fēng)險(xiǎn),發(fā)現(xiàn)價(jià)值請(qǐng)務(wù)必閱讀末頁的免責(zé)聲明降低了訓(xùn)練成本,能夠在不增加額外開銷的情況下進(jìn)一步擴(kuò)大模型規(guī)模。費(fèi)18萬H800GPU小時(shí),在配備2048卡個(gè)H3.7天,整個(gè)預(yù)訓(xùn)練階段總計(jì)花費(fèi)266.4萬GPU小時(shí)。外加擴(kuò)展上下文長(zhǎng)度所需的假設(shè)H800GPU的租用價(jià)格是每小時(shí)2美數(shù)據(jù)來源:DeepSeek-V3TechnicalReport,廣發(fā)證券發(fā)展研究中心(二)模型兼具低成本與高性能的特點(diǎn)SimpleQA)上的表現(xiàn)較前代模型DeepSeek-V2.5有顯著提升,接近當(dāng)前最優(yōu)模型Claude-3.5-Sonnet-1022。而在算法類代碼任務(wù)(如C識(shí)別風(fēng)險(xiǎn),發(fā)現(xiàn)價(jià)值請(qǐng)務(wù)必閱讀末頁的免責(zé)聲明數(shù)據(jù)來源:DeepSeek-V3TechnicalReport,廣發(fā)證券發(fā)展研究中心在生成速度方面,通過算法優(yōu)化和工程創(chuàng)新,D存命中)/2元(緩存未命中),每百萬輸出tokens8元,相較于DeepSeek-V2的輸入與輸出價(jià)格分別為1元/百萬tokens和2元/百萬tokens,有所提升。但與GPT、圖4:MMLUReduxZeroEval得分VS輸入API價(jià)格(?/1MTo數(shù)據(jù)來源:DeepSeek官微,廣發(fā)證券發(fā)展研究中心識(shí)別風(fēng)險(xiǎn),發(fā)現(xiàn)價(jià)值請(qǐng)務(wù)必閱讀末頁的免責(zé)聲明二、DeepSeekV3大模型測(cè)評(píng)為了深入探索該模型的能力,我們向DeepSeek提出了8個(gè)問題,將代碼、文本等各方面能力,具體問題分別是:(1)我的住處在城市和農(nóng)場(chǎng)之間,農(nóng)場(chǎng)在城市和機(jī)場(chǎng)之間,所以農(nóng)場(chǎng)到我的“VGhpcyBpcyBhlG5ldyBsYXJnZSBsYW5ndWFnZSBtb2RbA==”“VGhlIE1vZGVsIHRyYWluZWQgd2l0aCByZWluZmIHRvIHBlcmZvcm0gY29tcGxleCByZWFzb25pbmc=”柱體在水平面上的正投影和側(cè)投影,并計(jì)算這些投影的面積。請(qǐng)?jiān)敿?xì)解釋你的推理年低15個(gè)百分點(diǎn)。問兩年考核結(jié)果均為優(yōu)的人數(shù)至少為多少人?類別篩選商品。請(qǐng)使用Python和Flask框架編寫一個(gè)簡(jiǎn)單的WebAPI,該API能夠接收HTTPGET請(qǐng)求,并根據(jù)查詢參數(shù)返回符合條件的你的教育背景、相關(guān)經(jīng)驗(yàn)和個(gè)人優(yōu)勢(shì),并表達(dá)你對(duì)該公司和實(shí)習(xí)職位的興趣。識(shí)別風(fēng)險(xiǎn),發(fā)現(xiàn)價(jià)值請(qǐng)務(wù)必閱讀末頁的免責(zé)聲明(一)DeepSeek密文解碼推理能力突出,但空間推理能力弱于豆包大模間理解和推理能力。DeepSeek和通義千問大模型根據(jù)文字描述推斷出“城市誤的,因?yàn)榭臻g位置的分布應(yīng)該在二維平面上進(jìn)行比較,而不是單一維度的比較大反映其充分理解二維平面空間的能力。數(shù)據(jù)來源:DeepSeek官網(wǎng),廣發(fā)證券發(fā)展研究中心數(shù)據(jù)來源:DeepSeek官網(wǎng),廣發(fā)證券發(fā)展研究中心識(shí)別風(fēng)險(xiǎn),發(fā)現(xiàn)價(jià)值請(qǐng)務(wù)必閱讀末頁的免責(zé)聲明數(shù)據(jù)來源:豆包官網(wǎng),廣發(fā)證券發(fā)展研究中心數(shù)據(jù)來源:月之暗面官網(wǎng),廣發(fā)證券發(fā)展研究中心識(shí)別風(fēng)險(xiǎn),發(fā)現(xiàn)價(jià)值請(qǐng)務(wù)必閱讀末頁的免責(zé)聲明數(shù)據(jù)來源:通義千問官網(wǎng),廣發(fā)證券發(fā)展研究中心文解碼能力。4個(gè)大模型都理解了示例中的編碼方式是采用Base64的方法。但是最終僅DeepSeek大模型對(duì)于密文解碼后得到了正確文本“TheModeltrainedwith正確答案較為接近;而豆包和Kimi大模型解碼后的結(jié)果與正確答案相差較大。數(shù)據(jù)來源:DeepSeek官網(wǎng),廣發(fā)證券發(fā)展研究中心數(shù)據(jù)來源:DeepSeek官網(wǎng),廣發(fā)證券發(fā)展研究中心識(shí)別風(fēng)險(xiǎn),發(fā)現(xiàn)價(jià)值請(qǐng)務(wù)必閱讀末頁的免責(zé)聲明t12?豆包大模?回答密文?碼問題???數(shù)據(jù)g源?豆包官網(wǎng),廣發(fā)證券發(fā)展研~中?識(shí)別風(fēng)險(xiǎn),發(fā)現(xiàn)價(jià)值請(qǐng)務(wù)必閱讀末頁的免責(zé)聲明數(shù)據(jù)來源:月之暗面官網(wǎng),廣發(fā)證券發(fā)展研究中心數(shù)據(jù)來源:通義千問官網(wǎng),廣發(fā)證券發(fā)展研究中心識(shí)別風(fēng)險(xiǎn),發(fā)現(xiàn)價(jià)值請(qǐng)務(wù)必閱讀末頁的免責(zé)聲明(二)DeepSeek空間幾何和數(shù)學(xué)計(jì)算能力行業(yè)平均水平相當(dāng)計(jì)算能力。從測(cè)試的結(jié)果來看,DeepSeek、Kimi和通義千問給出了詳細(xì)的計(jì)算過程,并且計(jì)算所得結(jié)果都是正確的,但并未執(zhí)行用戶提出的指令“畫出圓柱體在水據(jù)并計(jì)算具體案例。豆包大模型在回答過程中畫出了圓柱體的正投影和側(cè)投影,但計(jì)算圓柱體正投影的的答案出現(xiàn)了錯(cuò)誤。數(shù)據(jù)來源:DeepSeek官網(wǎng),廣發(fā)證券發(fā)展研究中心數(shù)據(jù)來源:DeepSeek官網(wǎng),廣發(fā)證券發(fā)展研究中心識(shí)別風(fēng)險(xiǎn),發(fā)現(xiàn)價(jià)值請(qǐng)務(wù)必閱讀末頁的免責(zé)聲明t17?豆包大模?回答空間幾__問題???數(shù)據(jù)g源?豆包?網(wǎng),廣發(fā)證券發(fā)展研~中?t18?豆包大模?回答空間幾__問題???數(shù)據(jù)g源?豆包?網(wǎng),廣發(fā)證券發(fā)展研~中?識(shí)別風(fēng)險(xiǎn),發(fā)現(xiàn)價(jià)值請(qǐng)務(wù)必閱讀末頁的免責(zé)聲明t19?Kimi大模?回答空間幾__問題???數(shù)據(jù)g源?月之暗面官網(wǎng),廣發(fā)證券發(fā)展研~中?識(shí)別風(fēng)險(xiǎn),發(fā)現(xiàn)價(jià)值請(qǐng)務(wù)必閱讀末頁的免責(zé)聲明數(shù)據(jù)來源:通義千問官網(wǎng),廣發(fā)證券發(fā)展研究中心通義千問數(shù)學(xué)計(jì)算能力略差于其余3個(gè)大模型。問題(4)是考察大模型數(shù)學(xué)計(jì)算能識(shí)別風(fēng)險(xiǎn),發(fā)現(xiàn)價(jià)值請(qǐng)務(wù)必閱讀末頁的免責(zé)聲明數(shù)據(jù)來源:DeepSeek官網(wǎng),廣發(fā)證券發(fā)展研究中心圖23:豆包大模型回答數(shù)學(xué)計(jì)算問題的結(jié)果數(shù)據(jù)來源:豆包官網(wǎng),廣發(fā)證券發(fā)展研究中心數(shù)據(jù)來源:DeepSeek官網(wǎng),廣發(fā)證券發(fā)展研究中心圖24:豆包大模型回答數(shù)學(xué)計(jì)算問題的結(jié)果數(shù)據(jù)來源:豆包官網(wǎng),廣發(fā)證券發(fā)展研究中心識(shí)別風(fēng)險(xiǎn),發(fā)現(xiàn)價(jià)值請(qǐng)務(wù)必閱讀末頁的免責(zé)聲明t25?Kimi大模?回答數(shù)學(xué)計(jì)?問題???數(shù)據(jù)g源?月之暗面官網(wǎng),廣發(fā)證券發(fā)展研~中?識(shí)別風(fēng)險(xiǎn),發(fā)現(xiàn)價(jià)值請(qǐng)務(wù)必閱讀末頁的免責(zé)聲明t26?通O千問大模?回答數(shù)學(xué)計(jì)?問題???數(shù)據(jù)g源?通義千問官網(wǎng),廣發(fā)證券發(fā)展研~中?識(shí)別風(fēng)險(xiǎn),發(fā)現(xiàn)價(jià)值請(qǐng)務(wù)必閱讀末頁的免責(zé)聲明(三)針對(duì)程序開發(fā)場(chǎng)景,DeepSeek生成內(nèi)容更符合開發(fā)者要求DeepSeek和通義千問大模型會(huì)對(duì)每一段代碼進(jìn)行注釋,并且在最后還會(huì)解釋算法數(shù)據(jù)來源:DeepSeek官網(wǎng),廣發(fā)證券發(fā)展研究中心數(shù)據(jù)來源:DeepSeek官網(wǎng),廣發(fā)證券發(fā)展研究中心識(shí)別風(fēng)險(xiǎn),發(fā)現(xiàn)價(jià)值請(qǐng)務(wù)必閱讀末頁的免責(zé)聲明t29?豆包大模?代碼生r???數(shù)據(jù)g源?豆包官網(wǎng),廣發(fā)證券發(fā)展研~中?識(shí)別風(fēng)險(xiǎn),發(fā)現(xiàn)價(jià)值請(qǐng)務(wù)必閱讀末頁的免責(zé)聲明t30?Kimi大模?代碼生r???數(shù)據(jù)g源?月之暗面官網(wǎng),廣發(fā)證券發(fā)展研~中?t31?通O千問大模?代碼生r???數(shù)據(jù)g源?通O千問?網(wǎng),廣發(fā)證券發(fā)展研~中?t32?通O千問大模?代碼生r???數(shù)據(jù)g源?通O千問?網(wǎng),廣發(fā)證券發(fā)展研~中?識(shí)別風(fēng)險(xiǎn),發(fā)現(xiàn)價(jià)值請(qǐng)務(wù)必閱讀末頁的免責(zé)聲明實(shí)現(xiàn)最終功能的過程中,DeepSeek和豆包大模型會(huì)對(duì)實(shí)現(xiàn)程序開發(fā)每一個(gè)步驟進(jìn)行詳細(xì)的引導(dǎo)和解釋,更加便于用戶的理解。而Kimi和通義千問僅給出了實(shí)現(xiàn)程序的代碼,對(duì)于每一步實(shí)現(xiàn)的過程以及原理解釋較少。數(shù)據(jù)來源:DeepSeek官網(wǎng),廣發(fā)證券發(fā)展研究中心數(shù)據(jù)來源:DeepSeek官網(wǎng),廣發(fā)證券發(fā)展研究中心數(shù)據(jù)來源:DeepSeek官網(wǎng),廣發(fā)證券發(fā)展研究中心數(shù)據(jù)來源:DeepSeek官網(wǎng),廣發(fā)證券發(fā)展研究中心識(shí)別風(fēng)險(xiǎn),發(fā)現(xiàn)價(jià)值請(qǐng)務(wù)必閱讀末頁的免責(zé)聲明圖37:豆包大模型實(shí)現(xiàn)網(wǎng)頁開發(fā)功能的程序開發(fā)過程數(shù)據(jù)來源:豆包官網(wǎng),廣發(fā)證券發(fā)展研究中心圖39:豆包大模型實(shí)現(xiàn)網(wǎng)頁開發(fā)功能的程序開發(fā)過程數(shù)據(jù)來源:豆包官網(wǎng),廣發(fā)證券發(fā)展研究中心圖38:豆包大模型實(shí)現(xiàn)網(wǎng)頁開發(fā)功能的程序開發(fā)過程數(shù)據(jù)來源:豆包官網(wǎng),廣發(fā)證券發(fā)展研究中心圖40:豆包大模型實(shí)現(xiàn)網(wǎng)頁開發(fā)功能的程序開發(fā)過程數(shù)據(jù)來源:豆包官網(wǎng),廣發(fā)證券發(fā)展研究中心識(shí)別風(fēng)險(xiǎn),發(fā)現(xiàn)價(jià)值請(qǐng)務(wù)必閱讀末頁的免責(zé)聲明數(shù)據(jù)來源:月之暗面官網(wǎng),廣發(fā)證券發(fā)展研究中心圖43:通義千問大模型實(shí)現(xiàn)網(wǎng)頁開發(fā)功能的程序開發(fā)數(shù)據(jù)來源:通義千問官網(wǎng),廣發(fā)證券發(fā)展研究中心數(shù)據(jù)來源:月之暗面官網(wǎng),廣發(fā)證券發(fā)展研究中心圖44:通義千問大模型實(shí)現(xiàn)網(wǎng)頁開發(fā)功能的程序開發(fā)數(shù)據(jù)來源:通義千問官網(wǎng),廣發(fā)證券發(fā)展研究中心(四)DeepSeek生成文本的質(zhì)量符合行業(yè)平均水平觀、氣候特點(diǎn)以及人們的生活狀態(tài)等。在生識(shí)別風(fēng)險(xiǎn),發(fā)現(xiàn)價(jià)值請(qǐng)務(wù)必閱讀末頁的免責(zé)聲明t45?DeepSeek大模?文字創(chuàng)__生r??數(shù)據(jù)g源?DeepSeek官網(wǎng),廣發(fā)證券發(fā)展研~中?識(shí)別風(fēng)險(xiǎn),發(fā)現(xiàn)價(jià)值請(qǐng)務(wù)必閱讀末頁的免責(zé)聲明t46?豆包大模?文字創(chuàng)__生r??數(shù)據(jù)g源?豆包官網(wǎng),廣發(fā)證券發(fā)展研~中?t47?Kimi大模?文字創(chuàng)__生r??數(shù)據(jù)g源?月之暗面官網(wǎng),廣發(fā)證券發(fā)展研~中?識(shí)別風(fēng)險(xiǎn),發(fā)現(xiàn)價(jià)值請(qǐng)務(wù)必閱讀末頁的免責(zé)聲明數(shù)據(jù)來源:通義千問官網(wǎng),廣發(fā)證券發(fā)展研究中心數(shù)據(jù)來源:通義千問官網(wǎng),廣發(fā)證券發(fā)展研究中心求描述教育背景、相關(guān)經(jīng)驗(yàn)和個(gè)人優(yōu)勢(shì)等,并且針對(duì)未提供的信息留有空白給用戶自行修改。雖然,通義千問生成的文本內(nèi)容長(zhǎng)職場(chǎng)景中,過于冗長(zhǎng)的描述不太符合職場(chǎng)書信往來內(nèi)容簡(jiǎn)潔的要求。數(shù)據(jù)來源:DeepSeek官網(wǎng),廣發(fā)證券發(fā)展研究中心數(shù)據(jù)來源:DeepSeek官網(wǎng),廣發(fā)證券發(fā)展研究中心識(shí)別風(fēng)險(xiǎn),發(fā)現(xiàn)價(jià)值請(qǐng)務(wù)必閱讀末頁的免責(zé)聲明數(shù)據(jù)來源:豆包官網(wǎng),廣發(fā)證券發(fā)展研究中心數(shù)據(jù)來源:月之暗面官網(wǎng),廣發(fā)證券發(fā)展研究中心數(shù)據(jù)來源:月之暗面官網(wǎng),廣發(fā)證券發(fā)展研究中心識(shí)別風(fēng)險(xiǎn),發(fā)現(xiàn)價(jià)值請(qǐng)務(wù)必閱讀末頁的免責(zé)聲明數(shù)據(jù)來源:通義千問官網(wǎng),廣發(fā)證券發(fā)展研究中心數(shù)據(jù)來源:通義千問官網(wǎng),廣發(fā)證券發(fā)展研究中心解釋以及開發(fā)流程的指引是最為全面的。在文本生成和數(shù)學(xué)計(jì)算能力方面,DeepSeek并未展現(xiàn)出明顯優(yōu)于其他大模識(shí)別風(fēng)險(xiǎn),發(fā)現(xiàn)價(jià)值請(qǐng)務(wù)必閱讀末頁的免責(zé)聲明三1數(shù)據(jù)與?法?有潛力可待挖掘,?力依舊O可或缺?一ā數(shù)據(jù)與?法?有潛力可待挖掘在?法方面,DeepSeek-V3?主要亮點(diǎn)包含?(1)多專?混\÷構(gòu)?MoEā優(yōu)化?采用DeepSeekMoE÷構(gòu),使用更細(xì)t度?專?ü共?專?,通過輔?無損y負(fù)載均衡策略,ó高計(jì)?效÷2(2)多}潛在ì意力機(jī)制?MLAā??用MLA÷構(gòu),?ì意力?|進(jìn)行低秩聯(lián)\?縮,減少?v時(shí)??|緩存,同時(shí)?查?__進(jìn)行低秩?縮,降低訓(xùn)練時(shí)??活內(nèi)存,在保持g能?同時(shí)ó高了?vü訓(xùn)練效÷2(3)多?牌預(yù)o?MTPā目標(biāo)?設(shè)置MTP目標(biāo),k展預(yù)o范?r多n未g?牌,增強(qiáng)模??預(yù)o能力2(4)高效?訓(xùn)練框÷設(shè)計(jì)?通過DualPipe?法?ó高效流水?并行,通過重疊計(jì)?ü通???ó高訓(xùn)練效÷2同時(shí)UV{用InfiniBand?IBāüNVLink~?,優(yōu)化內(nèi)存占用2(5)FP8混\精度訓(xùn)練框÷?ó出?于FP8數(shù)據(jù)格__?細(xì)t度混\精度訓(xùn)練框÷,通過V組量化1ó高累積精度{策略,在保證訓(xùn)練穩(wěn)定g?同時(shí)ó高訓(xùn)練效÷,首次在超大規(guī)模模?上驗(yàn)證了FP8訓(xùn)練?有效g2在數(shù)據(jù)方面,DeepSeek-V3使用了14.8T高質(zhì)量ü多樣化?訓(xùn)練數(shù)據(jù)2y據(jù)DeepSeek-V3技o(jì)報(bào)^,t比DeepSeek-V2,DeepSeek-V3ó升了數(shù)學(xué)ü編程樣本?比例,并k大了中英語言之外?多語言覆蓋范?,優(yōu)化數(shù)據(jù)處v流程以減少冗余并確保語y庫?多樣gü完整g,同時(shí),采用了文檔s包方法以維護(hù)數(shù)據(jù)完整g2DeepSeek-V3通過數(shù)據(jù)與?法^面?優(yōu)化,大幅ó升?力{用效÷,?ó了協(xié)同效應(yīng)2在大規(guī)模MoE模??訓(xùn)練中,DeepSeek-V3采用了高效?負(fù)載均衡策略1FP8混\精度訓(xùn)練框÷以?通?優(yōu)化{一系W優(yōu)化措施,~×降低了訓(xùn)練r本,以?通過優(yōu)化MoE專?調(diào)度1引入冗余專?策略1以?通過?上O文蒸餾ó升?vg能2證明了模?效?O僅依賴于?力÷入,即使在|件í源有??情況O,依托數(shù)據(jù)與?法^面?優(yōu)化創(chuàng)新,?w可以高效{用?力,?ó較}?模?效?2?二ā?力oAI大模??發(fā)展動(dòng)力,依舊O可或缺DeepSeek-V3通過高質(zhì)量數(shù)據(jù)以??法優(yōu)化取?了較}?模?效?,但?力oo讓這些數(shù)據(jù)ü?法發(fā)揮__用?í源__ó?1.從訓(xùn)練r本g看,y據(jù)DeepSeek-V3技o(jì)報(bào)^,整n預(yù)訓(xùn)練??總計(jì)3費(fèi)266.4OGPU小時(shí)2外òk展上O文?度所需?11.9OGPU小時(shí)ü^訓(xùn)練耗費(fèi)?5000識(shí)別風(fēng)險(xiǎn),發(fā)現(xiàn)價(jià)值請(qǐng)務(wù)必閱讀末頁的免責(zé)聲明2.從部署門檻來看,一個(gè)完整的DeepSeek-V3部署單元便需要消耗數(shù)百塊H800,對(duì)于硬件設(shè)施的要求較高。練過程中的各類問題。第二,DeepSeek-V3采kv緩存開銷,其訓(xùn)練方法在特定方向的選擇也使得其算力算力依然是推動(dòng)大模型發(fā)展的核心驅(qū)動(dòng)力。與其他同規(guī)模模型(如Llama3405B速發(fā)展,應(yīng)用推理驅(qū)動(dòng)算力需求增長(zhǎng)的因素也有望得到增強(qiáng)。尤其在實(shí)際應(yīng)用中,階段的商業(yè)化探索方向。DeepSeek-V3為未來大模型技術(shù)的發(fā)展提供了重要啟發(fā),未來或?qū)囊蕾嚧笠?guī)模通用模型轉(zhuǎn)向發(fā)展一些更具特色、成本更低的模型,這些模型可能更適合具體應(yīng)用場(chǎng)景,隨著這些特色模型的不斷成熟,AI商業(yè)化的邊際成本有望降低,將迎來更廣闊的應(yīng)用前景。識(shí)別風(fēng)險(xiǎn),發(fā)現(xiàn)價(jià)值請(qǐng)務(wù)必閱讀末頁的免責(zé)聲明四、風(fēng)險(xiǎn)提示(一)AI大模型技術(shù)追趕和競(jìng)爭(zhēng)加劇的風(fēng)險(xiǎn)DeepSeek采用的MLA和MoE架構(gòu)的訓(xùn)練方法為其他大模型開發(fā)提供了技術(shù)參考。國內(nèi)AI大模型或集合自身特點(diǎn),加強(qiáng)對(duì)數(shù)據(jù)利用和模型優(yōu)化的效率。技術(shù)的追趕或(二)由于下游生態(tài)和使用環(huán)境的差異,商業(yè)化成功有不確定性AI大模型技術(shù)發(fā)展時(shí)間較短,目前仍處于商業(yè)化模式的探索階段。由于下游生態(tài)和使用環(huán)境的差異,商業(yè)化成功有不確定性。(三)AI生成內(nèi)容存在知識(shí)版權(quán)糾紛的風(fēng)險(xiǎn)AI大模型生成的文字內(nèi)容版權(quán)歸屬,目前我國并未出臺(tái)相關(guān)法律法規(guī)進(jìn)行明確清晰的界定。AI大模型生成內(nèi)容若涉及版權(quán)糾紛,或給研發(fā)團(tuán)隊(duì)帶來一定法律風(fēng)險(xiǎn)和不識(shí)別風(fēng)險(xiǎn),發(fā)現(xiàn)價(jià)值請(qǐng)務(wù)必閱讀末頁的免責(zé)聲明廣發(fā)計(jì)算機(jī)行業(yè)研究小組劉雪峰:首席分析師,東南大學(xué)工學(xué)士,中國人民大學(xué)經(jīng)濟(jì)學(xué)碩士,1997年起先后在數(shù)家IT行業(yè)跨國公司從事技術(shù)、運(yùn)營與全球項(xiàng)目管理工作。2010年就職于招商證券研究發(fā)展中心負(fù)責(zé)計(jì)算機(jī)組行業(yè)研究工作,2014年加入廣發(fā)證券發(fā)展研究中吳祖鵬:資深分析師,中南大學(xué)材料工程學(xué)士,復(fù)旦大學(xué)經(jīng)濟(jì)學(xué)碩士,曾先后任職于華泰證券、華西證券,2021年加入廣發(fā)證券發(fā)展研究中心。李婉云:資深分析師,西南財(cái)經(jīng)大學(xué)金融學(xué)碩士,2022年加入廣發(fā)證券發(fā)展研究中心。周源:資深分析師,慕尼黑工業(yè)大學(xué)碩士,2021年加入廣發(fā)證券,曾任職于TUMCREATE自動(dòng)駕駛科技公司,負(fù)責(zé)大數(shù)據(jù)相王鈺翔:研究員,哥倫比亞大學(xué)運(yùn)籌學(xué)碩士,2024年加入廣發(fā)證券發(fā)展研究中心。戴亞敏:研究員,北京大學(xué)金融碩士,2024年加入廣發(fā)證券發(fā)展研究中心。廣發(fā)證券—行業(yè)投資評(píng)級(jí)說明持有:預(yù)期未來12個(gè)月內(nèi),股價(jià)相對(duì)大盤的變動(dòng)幅度介于-10%~+10%。廣發(fā)證券—公司投資評(píng)級(jí)說明增持:持有:賣出:聯(lián)系我們預(yù)期未來12個(gè)月內(nèi),股價(jià)表現(xiàn)強(qiáng)于大盤5%-15%。預(yù)期未來12個(gè)月內(nèi),股價(jià)表現(xiàn)弱于大盤5%以上。廣州市深圳市北京市上海市香港地址廣州市天河區(qū)馬場(chǎng)路深圳市福田區(qū)益田路北京市西城區(qū)月壇北上海市浦東新區(qū)南泉香港灣仔駱克道8126號(hào)廣發(fā)證券大廈6001號(hào)太平金融大街2號(hào)月壇大廈18北路429號(hào)泰康保險(xiǎn)號(hào)廣發(fā)大廈27樓47樓廈31層層大廈37樓郵政編碼510627518026100045200120-客服郵箱gfzqyf@法律主體聲明本報(bào)告由廣發(fā)證券股份有限公司或其關(guān)聯(lián)機(jī)構(gòu)制作,廣發(fā)證券股份有限公司及其關(guān)聯(lián)機(jī)構(gòu)以下統(tǒng)稱為“廣發(fā)證券”。本報(bào)告的分銷依據(jù)不同國家、地區(qū)的法律、法規(guī)和監(jiān)管要求由廣發(fā)證券于該國家或地區(qū)的具有相關(guān)合法合規(guī)經(jīng)營資質(zhì)的子公司/經(jīng)營機(jī)構(gòu)完成。廣發(fā)證券股份有限公司具備中國證監(jiān)會(huì)批復(fù)的證券投資咨詢業(yè)務(wù)資格,接受中國證監(jiān)會(huì)監(jiān)管,負(fù)責(zé)本報(bào)告于中國(港澳臺(tái)地區(qū)除外)的分廣發(fā)證券(香港)經(jīng)紀(jì)有限公司具備香港證監(jiān)會(huì)批復(fù)的就證券提供意見(4號(hào)牌照)的牌照,接受香港證監(jiān)會(huì)監(jiān)管,負(fù)責(zé)本報(bào)告于中國香港地區(qū)的分銷。本報(bào)告署名研究人員所持中國證券業(yè)協(xié)會(huì)注冊(cè)分析師資質(zhì)信息和香港證監(jiān)會(huì)批復(fù)的牌照信息已于署名研究人員姓名處披露。重要聲明識(shí)別風(fēng)險(xiǎn),發(fā)現(xiàn)價(jià)值請(qǐng)務(wù)必閱讀末頁的免責(zé)聲明廣發(fā)證券股份有限公司及其關(guān)聯(lián)機(jī)構(gòu)可能與本報(bào)告中提及的公司尋求或正在建立業(yè)務(wù)關(guān)系,因此,投資者應(yīng)當(dāng)考慮廣發(fā)證券股份有限公司及其關(guān)聯(lián)機(jī)構(gòu)因可能存在的潛在利益沖突而對(duì)本報(bào)告的獨(dú)立性產(chǎn)生影響。投資者不應(yīng)僅依據(jù)本報(bào)告內(nèi)容作出任何投資決策。投資者應(yīng)自主作出投資決策并自行承擔(dān)投資風(fēng)險(xiǎn),任何形式的分享證券投資收益或者分擔(dān)證券投資損失的書面或者口頭承諾均為無效。本報(bào)告署名研究人員、聯(lián)系人(以下均簡(jiǎn)稱“研究人員”)針對(duì)本報(bào)告中相關(guān)公司或證券的研究分析內(nèi)容,在此聲明:(1)本報(bào)告的全部分析結(jié)論、研究觀
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 小學(xué)體育工作年度報(bào)告
- 計(jì)算機(jī)網(wǎng)絡(luò)試題及答案
- 發(fā)展經(jīng)濟(jì)與改善生活課件圖文
- 二零二五年企業(yè)兼職項(xiàng)目管理師合同3篇
- 2024年浙江藝術(shù)職業(yè)學(xué)院高職單招職業(yè)適應(yīng)性測(cè)試歷年參考題庫含答案解析
- 2024年浙江紡織服裝職業(yè)技術(shù)學(xué)院高職單招職業(yè)適應(yīng)性測(cè)試歷年參考題庫含答案解析
- 中國石拱橋二章節(jié)時(shí)教材課程
- 2024年陜西省公路局職工醫(yī)院高層次衛(wèi)技人才招聘筆試歷年參考題庫頻考點(diǎn)附帶答案
- 人教版二年級(jí)下冊(cè)寓言兩則
- 語言文字運(yùn)用之圖文轉(zhuǎn)換
- 分期還款協(xié)議書
- 小區(qū)住戶手冊(cè)范本
- ??低?視頻監(jiān)控原理培訓(xùn)教材課件
- 《鄭伯克段于鄢》-完整版課件
- 土壤肥料全套課件
- 畢業(yè)生延期畢業(yè)申請(qǐng)表
- 學(xué)校6S管理制度
- 肽的健康作用及應(yīng)用課件
- T.C--M-ONE效果器使用手冊(cè)
- 8小時(shí)等效A聲級(jí)計(jì)算工具
- 人教版七年級(jí)下冊(cè)數(shù)學(xué)計(jì)算題300道
評(píng)論
0/150
提交評(píng)論