版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)
文檔簡介
2023-052023-082023-112024-022022023-052023-082023-112024-02202更多作者及其他信息請見文末披露頁證券研究報告2024.05.16智算未來系列七:國產(chǎn)云端AI芯片破局,路在何方? 在全球生成式人工智能浪潮帶動下,國產(chǎn)大模型也不斷取得技術(shù)進(jìn)展,部分企業(yè)在能力上已經(jīng)可以與海外主流模型實現(xiàn)對標(biāo)。我們看到,國產(chǎn)大模型技術(shù)的迭代和訪問調(diào)用量的增加,對應(yīng)了訓(xùn)練端更大規(guī)模算力硬件集群的采購需求,以及推理端的逐步擴容。受到貿(mào)易摩擦影響,海外核心云端AI芯片進(jìn)入大陸市場受限,國產(chǎn)替代迫切性高。盡管當(dāng)下國產(chǎn)云端AI芯片在硬件性能、性能、系統(tǒng)生態(tài)方面與全球領(lǐng)先水平均存在一定差距,但我們認(rèn)為國產(chǎn)化窗口期已至,行業(yè)有望于年內(nèi)迎來重要商業(yè)化落地轉(zhuǎn)折點。本報告中,我們詳細(xì)闡述了國產(chǎn)云端AI芯片產(chǎn)品破局之路,希望為投資者提供借鑒價值。理由硬件端來看,我們認(rèn)為單一GPU性能及卡間互聯(lián)性能是評價云端AI芯片產(chǎn)品優(yōu)劣的核心指標(biāo)。中國大陸產(chǎn)品在單芯片制程、架構(gòu)優(yōu)化方面努力追趕,在互聯(lián)性能方面,各企業(yè)能力也得以逐步補齊,但目前國產(chǎn)產(chǎn)品依然與全球領(lǐng)先水平存在2-3年的差距。雖然短期內(nèi)中國企業(yè)單芯片技術(shù)能力暫優(yōu)于互聯(lián)水平,但我們認(rèn)為芯片廠商需在二者之間平衡發(fā)展,任何的短板都有可能造成導(dǎo)致系統(tǒng)能力提升困難。此外,當(dāng)前大模型網(wǎng)絡(luò)結(jié)構(gòu)以Transformer為主導(dǎo),我們認(rèn)為網(wǎng)絡(luò)結(jié)構(gòu)暫時的統(tǒng)一化也為國產(chǎn)后發(fā)產(chǎn)品沿定制化路徑創(chuàng)新提供了機遇。系統(tǒng)生態(tài)來看,我們認(rèn)為,國產(chǎn)云端AI芯片系統(tǒng)生態(tài)的構(gòu)筑需要經(jīng)過數(shù)個階段:1)適配算子及主流訓(xùn)練框架;2)建立分布式通信庫及分布式計算框架;3)構(gòu)建推理引擎及相關(guān)加速庫;4)集群容錯機制的實現(xiàn)等。我們認(rèn)為,系統(tǒng)生態(tài)劣勢的重要形成原因是開發(fā)者數(shù)量的劣勢,但面臨當(dāng)下云端AI芯片國產(chǎn)化迫切的需求,政府、運營商等客戶對國產(chǎn)產(chǎn)品采購、商用案例和及時反饋對于芯片企業(yè)研發(fā)迭代來說是十分寶貴的經(jīng)驗,能夠幫助國產(chǎn)芯片從“能用”走到“好用”。此外,Intel/AMD產(chǎn)品的優(yōu)異表現(xiàn)為非英偉達(dá)產(chǎn)品基于開源模型適配提供了參照,增強了我們對國產(chǎn)產(chǎn)品商業(yè)落地的信心。好公司還應(yīng)具備什么特質(zhì)?綜合來看,我們認(rèn)為一家AI芯片企業(yè)能否成功,除軟硬件技術(shù)能力外,其產(chǎn)品規(guī)劃定位、對大客戶的策略、供應(yīng)鏈和資金管理等綜合能力也非常重要,不過度追求一步到位,努力先做到量產(chǎn)出貨,把握住2024年商業(yè)落地窗口期,或許是未來競爭格局的關(guān)注重點。估值與建議維持所覆蓋公司投資評級、盈利預(yù)測和目標(biāo)價不變。建議關(guān)注企業(yè)請見文章第31頁。風(fēng)險貿(mào)易摩擦導(dǎo)致供應(yīng)鏈風(fēng)險;行業(yè)競爭加?。谎邪l(fā)不及預(yù)期。1序言:市場需求旺盛,國產(chǎn)云端AI算力芯片大有可為 4硬件性能:單卡及互聯(lián)能力需協(xié)同發(fā)展 7單一GPU:制程和微架構(gòu)迭代是核心要素 7卡間互聯(lián):分布式計算環(huán)境下,通訊帶寬不斷升級大勢所趨 14思考:硬件性能端的差距與機會 18系統(tǒng)生態(tài):實現(xiàn)與CUDA對齊并非易事 19系統(tǒng)生態(tài):人工智能模型和底層硬件之間的接口 19思考:系統(tǒng)生態(tài)端的差距與機會 28寫在最后:除了軟硬件能力外,國產(chǎn)云端AI芯片企業(yè)發(fā)展還需注意什么? 31建議關(guān)注公司 32風(fēng)險提示 34圖表1:國內(nèi)大模型備案數(shù)量(23.08-24.03) 4圖表2:國內(nèi)大模型參與者分布(23.08-24.03) 4圖表3:國內(nèi)大模型應(yīng)用周度訪問量 5圖表4:智算中心算力已建設(shè)及擬建設(shè)匯總(截至2024年4月末,單位PFLOPS) 6圖表5:運營商算力建設(shè)情況及擬投資金額(截至23年末) 6圖表6:芯片制程與晶體管數(shù)量迭代趨勢 7圖表7:英偉達(dá)GH100GPU微架構(gòu)圖 8圖表8:英偉達(dá)歷代GPU架構(gòu)演進(jìn) 9 9圖表10:Hopper與Blackwell架構(gòu)主要產(chǎn)品對比 10圖表11:AMDGPU架構(gòu)演進(jìn) 11圖表12:MI300X與H100部分模型中的推理性能比較 11圖表13:MI300X與H100訓(xùn)練性能比較 11圖表14:華為昇騰910微架構(gòu)圖 12圖表15:寒武紀(jì)MLUarch03微架構(gòu) 13圖表16:國產(chǎn)云端AI芯片技術(shù)指標(biāo)與海外產(chǎn)品對比 14圖表17:NVLink1.0內(nèi)部鏈路圖(用于P100GPU卡互連) 15圖表18:NVLink5.0技術(shù)使得GPU間雙向帶寬升級至1.8TB/s 15圖表19:NVLink和NVSwitch各世代規(guī)格參數(shù) 15圖表20:MLU370-X8中整合了雙芯片四芯粒思元370 16圖表21:MLU370-X8MLULink4卡橋接拓?fù)?16圖表22:8卡寒武紀(jì)MLU370產(chǎn)品在FP32大模型訓(xùn)練性能中相比主流GPU實現(xiàn)加速,多卡互聯(lián)功不可沒 17圖表23:總結(jié)來看,目前國產(chǎn)AI芯片與全球領(lǐng)先產(chǎn)品差距在2-3年 18圖表24:CUDA生態(tài)系統(tǒng)組成 19圖表25:CUDA用戶數(shù)持續(xù)提升 20圖表26:全球兼容CUDA的GPU數(shù)量達(dá)到數(shù)億級別 202圖表27:兼容CUDA的多種方式 21圖表28:Pytorch2.0算子數(shù)目多達(dá)2000+個 23圖表29:國產(chǎn)云端AI芯片系統(tǒng)生態(tài)構(gòu)建需關(guān)注多個層面的內(nèi)容 23圖表30:華為昇騰AI全棧軟硬件平臺 24圖表31:華為昇騰MindStudio功能框架 25圖表32:寒武紀(jì)基礎(chǔ)軟件開發(fā)平臺 26圖表33:摩爾線程軟件棧一覽 27圖表34:昇騰計算產(chǎn)業(yè)生態(tài) 28圖表35:各公司生態(tài)與CUDA模塊對比 29圖表36:單節(jié)點訓(xùn)練性能對比(基于MosaicML的MPT開源模型) 29圖表37:多節(jié)點推理存儲帶寬利用率對比(基于LLAMA2-70B模型) 30圖表38:寒武紀(jì)收入拆分 32圖表39:寒武紀(jì)年度營收及凈利潤 32圖表40:景嘉微收入拆分 33圖表41:景嘉微年度營收及凈利潤 33圖表42:芯原股份收入拆分 34圖表43:芯原股份年度營收及凈利潤 34圖表44:未上市國產(chǎn)云端AI芯片企業(yè)一覽表 34圖表45:可比公司估值表 3433025(個)25252386022820503025(個)2525238602282050國產(chǎn)大模型數(shù)量加速增長,參與者多元。根據(jù)國家網(wǎng)信辦提供的備案數(shù)據(jù),2023年8月至2024年3月末,國內(nèi)備案大模型總數(shù)達(dá)到117個,2023年11月至今大模型發(fā)布更為密集,剔除2024年2月(受春節(jié)假期影響月均備案大模型超過20個。此外,根據(jù)網(wǎng)信辦數(shù)據(jù),國內(nèi)大模型賽道參與者多元,其中占比最高的為大模型初創(chuàng)企業(yè),此外還有互聯(lián)網(wǎng)大廠、學(xué)校等科研機構(gòu)、各行業(yè)龍頭公司如東方財富、OPPO等參與其中。圖表1:國內(nèi)大模型備案數(shù)量(23.08-24.03)圖表2:國內(nèi)大模型參與者分布(23.08-24.03)31%備案模型數(shù)量26%備案模型數(shù)量43%大模型創(chuàng)業(yè)企業(yè)互聯(lián)網(wǎng)企業(yè)其他機構(gòu)資料來源:國家互聯(lián)網(wǎng)信息辦公室,中金公司研究部資料來源:國家互聯(lián)網(wǎng)信息辦公室,中金公司研究部國內(nèi)大模型朝著大參數(shù)、長文本、多模態(tài)趨勢演進(jìn),訓(xùn)練端算力需求持續(xù)提升。在參數(shù)規(guī)模方面,我們觀察到國產(chǎn)千億參數(shù)規(guī)模大模型不斷落地,詳細(xì)來看,今年5月幻方旗下深度求索開源的總參數(shù)量為236B的第二代MoE模型DeepSeek-V2,其英文綜合能力超越了此前最強的MoE開源模型Mixtral8x22B1;同月,國內(nèi)AI大模型獨角獸零一萬物發(fā)布千億參數(shù)Yi-Large閉源模型,多項能力評測超越GPT-4、Claude3等同級模型2。在上下文長度方面,國產(chǎn)大模型上下文窗口處理能力不斷增強,如今年3月中旬月之暗面宣布其KimiChat助手具備200萬字(2KK)上下文處理能力,能夠滿足多場景文檔處理需求,用戶數(shù)持續(xù)提升3。在模態(tài)方面,當(dāng)前國產(chǎn)大模型從文生文模型逐步拓寬至文生圖、文生視頻等領(lǐng)域,例如文心一言具備文生圖、文生視頻能力,主要落地在ToB平臺“智能云千帆”上4;星火大模型的模態(tài)能力則偏重于音頻方面,主要落地于教師助手、口語訓(xùn)練等場景5。伴隨模型能力提升,國產(chǎn)大模型迎來商業(yè)化爆發(fā),推理端需求高增。根據(jù)Similarweb提供的數(shù)據(jù),今年2月以來Kimi與秘塔等大模型新秀周度訪問量出現(xiàn)躍升,受益于強大的文本處理能力,KimiChat在今年3月的訪問量達(dá)到1219萬次,4月日均活躍用戶數(shù)接近100萬人次。高頻的訪問次數(shù)逐步推高推理端算力需求。詳見DeepSeek官網(wǎng)/zh詳見AI奇點網(wǎng)/news/2237.html詳見華爾街見聞/articles/3710863詳見百度智能云/doc/WENXINWORKSHOP/index.html詳見科大訊飛官網(wǎng)/about-us/news/company-news/7974圖表3:國內(nèi)大模型應(yīng)用周度訪問量—訊飛星火—文心一言—字節(jié)豆包—Kimi—天工—秘塔5,000,0004,000,0003,000,0002,000,0001,000,0000資料來源:Similarweb,中金公司研究部伴隨模型數(shù)量與性能提升,算力需求呈現(xiàn)非線性增長,國產(chǎn)替代需求迫切。我們看到,中國AI大模型市場處于發(fā)展早期,新進(jìn)入者與新產(chǎn)品不斷涌入,市場規(guī)模持續(xù)擴張。同時,ScalingScalingLaw仍在延續(xù),大模型性能表現(xiàn)提升對于算力提出更高需求。此外,多模態(tài)與長上下文處理能力需要更大規(guī)模的數(shù)據(jù)量、更為復(fù)雜的模型架構(gòu)。因此國內(nèi)大模型訓(xùn)練與推理算力需求均呈現(xiàn)非線性增長態(tài)勢。而當(dāng)前國內(nèi)市場國產(chǎn)化率較低,根據(jù)華經(jīng)產(chǎn)研院數(shù)據(jù),2022年國內(nèi)市場中英偉達(dá)市占率為85%,國內(nèi)廠商占比僅為15%,加之受到貿(mào)易摩擦影響,海外核心高端AI芯片無法進(jìn)入大陸市場,國產(chǎn)替代需求迫切性高。各地政府積極發(fā)力智算中心建設(shè)。2023年10月,工信部等六部門聯(lián)合印發(fā)《算力基礎(chǔ)設(shè)施高質(zhì)量發(fā)展行動計劃》,計劃指出,到2025年,中國算力規(guī)模超過300EFLOPS,智能算力占比達(dá)到35%。以北京、上海等地為代表的地區(qū)紛紛發(fā)布智算中心建設(shè)規(guī)劃,加速智算中心布局。例如,今年3月,上海市通信管理局等十一部門研究制定了《上海市智能算力基礎(chǔ)設(shè)施高質(zhì)量發(fā)展“算力浦江”智算行動實施方案(2024-2025年)》,其中提到,到2025年,本市智能算力規(guī)模超過30EFlops,占比達(dá)到總算力的50%以上;今年4月,北京市經(jīng)濟和信息化局和北京市通信管理局聯(lián)合發(fā)布《北京市算力基礎(chǔ)設(shè)施建設(shè)實施方案(2024—2027年)》,其中提到,集中建設(shè)一批智算單一大集群,到2025年,本市智算供給規(guī)模達(dá)到45EFLOPS。對應(yīng)到全國范圍內(nèi)的智算中心投入力度,根據(jù)我們統(tǒng)計,截至2024年4月末,針對已知披露的金額來看,中國地區(qū)智算中心的投入約超過1,300億元,已建成/在建/擬建智算中心算力合計約為225EFLOPS。5[0,500)[500,2000)[2000,5000)[5000,9000)[9000,圖表4:智算中心算力已建設(shè)及擬建設(shè)匯總(截至2024年[0,500)[500,2000)[2000,5000)[5000,9000)[9000,三大運營商搶先爭相布局智算中心,23年末智能算力規(guī)模達(dá)到21.1EFLOPS。詳細(xì)來看,中國移動強化“N(全國性、區(qū)域性智算中心)+X(屬地化、定制化邊緣智算節(jié)點)”多層級、全覆蓋智算能力布局,2023年末智能算力達(dá)到10.1EFLOPS(FP162024年算力規(guī)劃投資475億元,同比增長54.4%;中國電信聚焦全國一體化算力網(wǎng)絡(luò)樞紐節(jié)點區(qū)域,加大智算能力建設(shè),2023年智算新增8.1EFLOPS,達(dá)到11.0EFLOPS,增幅279.3%,2024年算力規(guī)劃投資為180億元,目標(biāo)是實現(xiàn)智算規(guī)模提升10EFLOPS;中國聯(lián)通則致力于推動“1+N+X”總體智算規(guī)劃布局,圍繞東部智算產(chǎn)業(yè)發(fā)達(dá)區(qū)域和西部資源充沛區(qū)域推進(jìn)梯次布局和落地建設(shè)。圖表5:運營商算力建設(shè)情況及擬投資金額(截至23年末)--資料來源:各公司年報,中金公司研究部6硬件性能:單卡及互聯(lián)能力需協(xié)同發(fā)展芯片制程通過改變單位面積晶體管密度影響芯片的算力和性能表現(xiàn)。制程原意為單個晶體管的柵極長度,而后伴隨技術(shù)逐漸逼近物理極限,制程與柵長不再一一對應(yīng),成為代表技術(shù)迭代的約定俗成的說法。一般而言,制程節(jié)點越小,晶體管尺寸越小,芯片制程的迭代意味著單位面積晶體管密度的提升,而后者對于提升芯片性能、降低能耗較為關(guān)鍵。從Volta架構(gòu)對應(yīng)的單Die12nm制程與211億晶體管數(shù)量到最新發(fā)布的Blackwell架構(gòu)下單Die臺積電4NP制程與1040億晶體管數(shù)量,我們看到,英偉達(dá)GPU制程的持續(xù)優(yōu)化有助于其保持產(chǎn)品競爭力。圖表6:芯片制程與晶體管數(shù)量迭代趨勢資料來源:Sun,Yifan,etal."SummarizingCPUandGPUdesigntrendswithproductdata."arXivpreprintarXiv:1911.11313(2019).,中金公司研究部芯片微架構(gòu)決定了數(shù)據(jù)計算方式、存儲方式及流向,不同微架構(gòu)設(shè)計會對GPU最終性能產(chǎn)生較大影響。我們認(rèn)為,英偉達(dá)持續(xù)的架構(gòu)升級帶來了單芯片的性能領(lǐng)先:從最初的Fermi,到Ampere架構(gòu),再到Hopper架構(gòu),通過引入CUDA統(tǒng)一編程計算平臺、GPUBoost動態(tài)提速技術(shù)、RT核心和Tensor核心等技術(shù),使得公司GPU產(chǎn)品每一階段的存算性能及能效比均呈現(xiàn)提升,在圖形渲染、科學(xué)計算和深度學(xué)習(xí)等領(lǐng)域構(gòu)筑了產(chǎn)品護城河。我們認(rèn)為,英偉達(dá)能夠持續(xù)、快速迭代產(chǎn)品的關(guān)鍵在于其過去積累已久的產(chǎn)品研發(fā)經(jīng)驗,以及在服務(wù)客戶過程中對AI運算需求的理解帶來的先發(fā)優(yōu)勢。7圖表7:英偉達(dá)GH100GPU微架構(gòu)圖資料來源:NVIDIA官網(wǎng),中金公司研究部從基本架構(gòu)上看,除總線和接口部分外,英偉達(dá)的GPU主要由多個SM(流處理器)構(gòu)成。SMSM是GPU中的核心計算單元,每個SM包含多個核心(Core)和線程束(Warp)調(diào)度器。核心是SM中的執(zhí)行單元,負(fù)責(zé)執(zhí)行指令和進(jìn)行數(shù)學(xué)計算。在NVIDIA的架構(gòu)中,核心通常指的是CUDA核心,后續(xù)為了對深度學(xué)習(xí)的矩陣運算進(jìn)行加速,英偉達(dá)也引入Tensor核心,適用于AI計算。英偉達(dá)GPU微架構(gòu)升級的思路主要經(jīng)由以下三個方面:?算力提升:增加CUDA核心數(shù)量(或是SM數(shù)量的提升),通過提升核心數(shù)直接提升計算能力,Hopper架構(gòu)的SM數(shù)量已經(jīng)增加到144個;?結(jié)合對AI模型更深入的理解,微架構(gòu)的設(shè)計更符合AI需求:Tensor核心的出現(xiàn)配套深度神經(jīng)網(wǎng)絡(luò)常用的卷積計算;但Tensor核心和CUDA核心并不完全割裂,通過分布式共享?算力的精細(xì)化分配:CUDA核心支持INT32,F(xiàn)P32,F(xiàn)P64等不同精度的算力分配更優(yōu)方案,增加稀疏性可以支持更大規(guī)模的計算。Tensor核心結(jié)構(gòu)也不斷升級,優(yōu)化支持的數(shù)據(jù)精度,增加不同的數(shù)據(jù)格式,如HopperTensorCore能夠應(yīng)用混合的FP8和FP16精度,以大幅加速Transformer模型的AI計算??偨Y(jié)來看,從2010年的Fermi到2022年Hopper,英偉達(dá)GPU產(chǎn)品的迭代與人工智能算法升級演化在時間線上緊密耦合,形成了天然的系統(tǒng)生態(tài)加持。我們認(rèn)為,新架構(gòu)不能損害原有的生態(tài),因此英偉達(dá)GPU在架構(gòu)升級中,持續(xù)保留了可用CUDA統(tǒng)一編程模型抽象并調(diào)度的通用計算單元;但在AI計算方面,需要與DSA保持有力競爭,否則可能會面臨一定被替代風(fēng)險,因此公司采取了上述融合性策略。8圖表8:英偉達(dá)歷代GPU架構(gòu)演進(jìn)資料來源:NVIDIA官網(wǎng),中金公司研究部圖表9:新一代架構(gòu):Blackwell資料來源:NVIDIA官網(wǎng),中金公司研究部2024年英偉達(dá)發(fā)布Blackwell新架構(gòu)。Blackwell架構(gòu)GPU具有2080億個晶體管,采用專門定制的臺積電4NP工藝制造。所有Blackwell產(chǎn)品均采用雙倍光刻極限尺寸的裸片,通過10TB/s的片間互聯(lián)技術(shù)連接成一塊統(tǒng)一的GPU,是公司首次采用雙Die架構(gòu)的產(chǎn)品。BlackwellTransformer引擎利用稱為微張量縮放的細(xì)粒度縮放技術(shù),優(yōu)化性能和準(zhǔn)確性,支持4位浮點(FP4)AI。這將內(nèi)存可以支持的新一代模型的性能和大小翻倍,同時保持高精度。存,遠(yuǎn)超前代GPUA100/H100的80GB與H200141GB的顯存容量,以適應(yīng)大模型時代大規(guī)模數(shù)據(jù)集與大參數(shù)量模型的訓(xùn)練與推理需求;顯存帶寬方面,Blackwell架構(gòu)GPU顯存帶寬高達(dá)8TB/s,在前代產(chǎn)品A100(2,039GB/s)、H100(3.35TB/s)與H200(4.8TB/s)等基礎(chǔ)上翻了幾番,通過對訪存密集型算子加速而進(jìn)一步提升模型訓(xùn)練與推理的速度,順應(yīng)張量并行、混合專家模型(MoE)等并行策略對于高帶寬、低時延的迫切要求。然而,在GTC2024大會中,英偉達(dá)沒有更多地介紹Blackwell這一最新架構(gòu)的微結(jié)構(gòu)變化。隨著單一Die上面的規(guī)劃和持續(xù)創(chuàng)新難度不斷增加,英偉達(dá)似乎正從多Die、多芯片互聯(lián)和系統(tǒng)方面努力提升整體性能,主力產(chǎn)品也出現(xiàn)多種形式(如下圖)。我們認(rèn)為若單Die微架構(gòu)微創(chuàng)新趨緩,國產(chǎn)企業(yè)則有望加速縮小單芯片差距。另一方面,面對第一梯隊競爭對手不斷推出9暫無暫無ProcessorCores16896CUDAcores資料來源:NVIDIA官網(wǎng),中金公司研究部產(chǎn)品,比如AMDMI300系列的威脅,英偉達(dá)在芯片設(shè)計上需要更多、更快的創(chuàng)新來保持領(lǐng)先暫無暫無ProcessorCores16896CUDAcores資料來源:NVIDIA官網(wǎng),中金公司研究部圖表10:Hopper與Blackwell架構(gòu)主要產(chǎn)品對比項目H100H200GB200SuperchipGB200NVL72英偉達(dá)英偉達(dá)72*GPU(Blackwell)+36*CPU(Grace)2024年3月TSMC4NP暫無暫無3,240TFLOPS576TB/s暫無暫無暫無暫無暫無暫無英偉達(dá)GPU(Hopper)2023年11月TSMC4N暫無3,958TFLOPS*3,958TFLOPS*1,979TFLOPS*1,979TFLOPS*989TFLOPS*67TFLOPS34TFLOPS67TFLOPS4.8TB/s700W最高7MIGs@16.5GBeachNVIDIANVLink:900GB/sNVIDIAHGX?H200partnerandNVIDIA-CertifiedSystemswith4Add-on英偉達(dá)GPU(Hopper)2022年3月TSMC4N暫無3,958TFLOPS3,958(稀疏)TFOPS1,979(稀疏)TFLOPS1,979TFLOPS989TFLOPS67TFLOPS34TFLOPS67TFLOPS80GB3.35TB/s700W最高7MIGs@10GBeachSXMNVLink:900GB/sNVIDIAHGXH100PartnerandNVIDIA-CertifiedSystemswith4with8GPUsAdd-on英偉達(dá)2*GPU(Blackwell)+CPU(Grace)2024年3月TSMC4NP暫無暫無90TFLOPS384GBHBM3e16TB/s暫無暫無暫無暫無NVIDIANVLink:3.6TB/s暫無暫無公司架構(gòu)發(fā)布時間制程工藝FP4向量核心FP8/FP6向量核心INT8向量核心FP16向量核心BFLOAT16向量核心TF32向量核心FP32FP64FP64向量核心GPU內(nèi)存GPU內(nèi)存帶寬解碼器最高TDP多實例GPU外形尺寸互聯(lián)技術(shù)服務(wù)器平臺選項NVIDIAAIEnterpriseAMD將其GPU架構(gòu)開發(fā)分為單獨的CDNA和RDNA線路,分別專門用于計算和圖形。CDNA主要是刪除了對圖形的支持指令,專注于通用計算,增加了MatrixCores的支持。CDNA1最重要的特性是引入了對矩陣乘法的支持,矩陣單元包含了專用的ACCVector寄存被多個超級計算機產(chǎn)品所采用。在內(nèi)存方面,CDNA3時期,RDNA系列的InfinityCache被引入CDNA領(lǐng)域,以緩解帶寬問題。此外,AMD將其在CPU領(lǐng)域豐富的Chiplet經(jīng)驗擴展至GPU領(lǐng)域,通過多Die封裝縮小與英偉達(dá)的差距?;贑DNA2架構(gòu)的MI200系列芯片采用了業(yè)內(nèi)首創(chuàng)多Die整合封裝(MCM),通過2.5DEFB橋接技術(shù)在單芯片上集成兩個Die,搭配臺積電6nm工藝,共擁有580億個晶體管;基于CDNA3架構(gòu)的MI300系列同樣采用Chiplet設(shè)計,通過3D封裝技術(shù)集成CPU和加速計算單元,增強單芯片擴展性,以縮小與英偉達(dá)的差距。在2023年12月AMD舉辦的“AdvancingAI”活動中,公司正式宣布推出MI300X產(chǎn)品,其性能接近H100,甚至在特定場景下表現(xiàn)出色。根據(jù)公司介紹,MI300X采用3D堆疊技術(shù),在單芯片上形成由8顆加速計算單元(XCD)、4個I/ODie(IOD)和8個HBM組成的12顆5nm的Chiplet集成系統(tǒng),晶體管數(shù)量達(dá)到1530億,提供192GB的HBM3內(nèi)存,分別為H100的1.9/2.6倍。因而在訓(xùn)練性能方面MI300X與H100不相上下,并提供相對具有競爭力的價格/性能。在8v8Server比較中,Llama270B/Bloom176B模型推理速度比H100快40/60%,與H100相比之下MI300X在推理工作負(fù)載方面表現(xiàn)也更為出色。我們認(rèn)為AMD在微架構(gòu)上的正確調(diào)整,是其最新一代MI300系列芯片實現(xiàn)追趕英偉達(dá)主流產(chǎn)品性能的關(guān)鍵,對于國產(chǎn)企業(yè)來說也具有啟示意義。圖表11:AMDGPU架構(gòu)演進(jìn)資料來源:ChipsandCheese,AMD官網(wǎng),中金公司研究部圖表圖表12:MI300X與H100部分模型中的推理性能比較圖表13:MI300X與H100訓(xùn)練性能比較資料來源:AMD官網(wǎng),中金公司研究部資料來源:AMD官網(wǎng),中金公司研究部當(dāng)前AI芯片主流框架分化為GPGPU和DSA兩條路線。GPGPU為通用處理器,利用GPU的并行處理加速計算,并在GPU的基礎(chǔ)上進(jìn)行改造,使之適合進(jìn)行部分科學(xué)計算和AI計算,通用性更為突出,如上文所述,英偉達(dá)和AMD均采用GPGPU路線;DSA(DomainSpecificArchitecture)為領(lǐng)域特定架構(gòu),是一種針對特定領(lǐng)域定制的可編程處理器,針對特定場景定制處理引擎以實現(xiàn)更高的性能和效率,軟件具備一定可編程性,定制化特征更為突出。在國產(chǎn)AI芯片中,摩爾線程與沐曦是GPGPU路線的代表,華為昇騰系列、寒武紀(jì)思元系列則主要為DSA架構(gòu)。各廠商均自研芯片核心環(huán)節(jié),堅持底層創(chuàng)新,取得了一定的技術(shù)成果。?華為昇騰NPU:根據(jù)華為昇騰官網(wǎng),昇騰AI系列處理器主要采用自研達(dá)芬奇架構(gòu),屬于DSA芯片。昇騰AI系列處理器的計算核心主要由AICore構(gòu)成。①在計算方面,AICore主要負(fù)責(zé)執(zhí)行標(biāo)量、向量和張量相關(guān)的計算密集型算子,主要包括矩陣計算單元(CubeUnit)、向量計算單元(VectorUnit)和標(biāo)量計算單元(ScalarUnit)三種計算資源,分別對應(yīng)張量、向量和標(biāo)量三種常見的計算模式,在實際的計算過程中形成三條獨立的執(zhí)行流水線,在系統(tǒng)軟件的統(tǒng)一調(diào)度下互相配合達(dá)到優(yōu)化的計算效率。此外在矩陣計算單元和向量計算單元內(nèi)部還提供了不同精度、不同類型的計算模式。②在數(shù)據(jù)傳輸方面,AICore內(nèi)部圍繞著三種計算資源分布式設(shè)置了一系列片上緩沖區(qū),以配合AICore中數(shù)據(jù)的傳輸和搬運。為更好的適應(yīng)不同計算模式下格式、精度和數(shù)據(jù)排布的需求,這些存儲資源的設(shè)計架構(gòu)和組織方式不盡相同。此外,達(dá)芬奇架構(gòu)的特色之一在于輸入緩沖區(qū)之后設(shè)置了一個存儲轉(zhuǎn)換單元(MemoryTransferUnit,MTE其主要的目的是為了以較高的效率實現(xiàn)數(shù)據(jù)格式的轉(zhuǎn)換。將這一步完全固化在硬件電路中,可以在很短的時間之內(nèi)完成整個轉(zhuǎn)置過程。③在控制單元方面,AICore中的控制單元主要包括系統(tǒng)控制模塊、標(biāo)量指令處理隊列、指令發(fā)射模塊、矩陣運算隊列、向量運算隊列、存儲轉(zhuǎn)換隊列和事件同步模塊。圖表14:華為昇騰910微架構(gòu)圖資料來源:《DaVinci:AScalableArchitectureforNeuralNetworkComputing》,中金公司研究部?寒武紀(jì)思元NPU:根據(jù)寒武紀(jì)官網(wǎng),寒武紀(jì)思元系列NPU主要采用MLUarch系列芯片架構(gòu),屬于DSA范疇。新一代智能處理器架構(gòu)為MLUarch03,在計算方面,MLUarch03配備新一代張量運算單元,內(nèi)置Supercharger模塊以提升各類卷積效率,并采用全新的多算子硬件融合技術(shù),在軟件融合的基礎(chǔ)上大幅減少算子執(zhí)行時間;在片上通訊與緩存方面,MLUarch03帶寬與片上共享緩存容量分別是上一代MLUarch02的2倍、2.75倍;在控制單元方面,MLUarch03采用新一代MLUv03指令集,更加完備高效并能夠?qū)崿F(xiàn)向前兼容?;谶@一架構(gòu)推出的最新產(chǎn)品為MLU370系列,采用7nm制程,并且是寒武紀(jì)首款采用Chiplet(芯粒)技術(shù)的AI芯片,集成了390億個晶體管,最大算力高達(dá)256TOPS(INT8是第二代產(chǎn)品思元270算力的2倍。此外,在內(nèi)存與帶寬方面,思元370系列支持LPDDR5內(nèi)存,內(nèi)存最高為48GB,內(nèi)存帶寬最高為614.4GB/s,是上一代產(chǎn)品的3倍。圖表15:寒武紀(jì)MLUarch03微架構(gòu)?摩爾線程GPU產(chǎn)品:根據(jù)摩爾線程官網(wǎng),摩爾線程的GPU產(chǎn)品基于其自研的MUSA(MooreThreadsUnifiedSystemArchitecture)架構(gòu)。這一架構(gòu)融合軟硬件設(shè)計,包括統(tǒng)一的編程模型、軟件運行庫、驅(qū)動程序框架、指令集架構(gòu)和芯片架構(gòu)。此外,MUSA平臺擴展性突出,基于MUSA開發(fā)的應(yīng)用具有廣泛的可移植性,可同時運行在云端和邊緣的眾多計算平臺之上?;诘谌鶰USA架構(gòu),摩爾線程推出的最新智算加速卡產(chǎn)品為MTTS4000,共包含8192個MUSA核心(VectorCore以及128個TensorCore,支持FP64、FP32、TF32、FP16、BF16、INT8等主流精度算力,F(xiàn)P32算力為25TFLOPS。單卡支持48GB顯存和768GB/s的顯存帶寬。在卡間互聯(lián)方面,基于摩爾線程自研MTLink1.0技術(shù)和摩爾線程KUAE千卡模型訓(xùn)練平臺,MTTS4000能夠支持多卡互聯(lián)。此外,新產(chǎn)品具有多場景能力,可以提供先進(jìn)的圖形渲染能力、視頻編解碼能力和8KHDR顯示能力,還能支持AI計算、圖形渲染、多媒體等綜合應(yīng)用場景。?沐曦GPU產(chǎn)品:根據(jù)沐曦官網(wǎng),沐曦的GPU產(chǎn)品同樣基于自研的指令集與芯片架構(gòu),采用自主研發(fā)的GPUIP與兼容主流GPU生態(tài)的完整軟件棧(MXMACA)。沐曦產(chǎn)品矩陣包括用于AI推理的MXN系列GPU(曦思用于AI訓(xùn)練及通用計算的MXC系列GPU(曦云以及用于圖形渲染的MXG系列GPU(曦彩滿足數(shù)據(jù)中心對“高能效”及“高通用性”的算力需求。沐曦首款產(chǎn)品為MXN100,采用7nm制程,INT8算力為160TOPS,F(xiàn)P16算力為80TFLOPS,主要用于AI推理;在AI訓(xùn)練和通用計算方面,沐曦計劃推出的產(chǎn)品為MXC500,已經(jīng)于2022年12月交付流片,計劃2024年全面量產(chǎn)。我們看到,經(jīng)過不斷的基于自研架構(gòu)的技術(shù)迭代,國產(chǎn)AI芯片在表觀數(shù)據(jù)方面逐步與國際龍頭靠攏,此外,一些芯片廠商也通過Chiplet等先進(jìn)封裝技術(shù)賦能,實現(xiàn)單芯片性能的追趕。圖表16:國產(chǎn)云端AI芯片技術(shù)指標(biāo)與海外產(chǎn)品對比廠家產(chǎn)品推出時間工藝功耗FP32算力TF32算力FP/BF16算力INT8算力顯存容量顯存帶寬微架構(gòu)nmWTFLOPSTFLOPSTFLOPSTOPSGBGB/SNVIDIAA100SXM20207nm40019.5156312624802039AmpereNVIDIAH100SXM20224nm700605001204000803072HopperNVIDIAGB20020244nm5000100002000038416000BlackwellAMDMI250X20216nm50095.73833831283200CDNAAMDMI21020226nm30022.645.3181181641638CDNA2AMDMI300X20235nm和6nm750163.4653.71307.42614.91925300CDNA3燧原T20202033.633.6128256321600新一代GCU-CARA架構(gòu)燧原T2120214040128256321600新一代GCU-CARA架構(gòu)壁仞壁礪?106B2022300壁立壁仞壁礪?106C2022150壁立摩爾線程MTTS3000202215.232448MUSA寒武紀(jì)MLU370-S42021757219224307.2MLUarch03寒武紀(jì)MLU370-X42021150249625648307.2MLUarch03寒武紀(jì)MLU370-X82022250249625648614.4MLUarch03天數(shù)智芯Biglsland20217nm30037147321200BI架構(gòu)資料來源:各公司官網(wǎng),Wind,智東西,中金公司研究部當(dāng)下隨著人工智能應(yīng)用計算量增大,由單芯片逐步轉(zhuǎn)向分布式計算,而多GPU間通信時PCle或存在帶寬瓶頸。AI算力的持續(xù)增強不僅依靠GPU單卡的性能提升,往往還需要多GPU卡組合。在多GPU系統(tǒng)內(nèi)部,GPU之間的通信帶寬通常在數(shù)百GB/s以上,PCIe總線的帶寬有限,容易形成傳輸瓶頸;此外,PCIe無法實現(xiàn)GPU的直接互連,需要通過PCIeSwitch連接,PCIeSwitch內(nèi)部的數(shù)據(jù)處理、以及CPU對數(shù)據(jù)的分發(fā)調(diào)度均會增加額外的網(wǎng)絡(luò)延遲,影響系統(tǒng)運行效率,亟需性能更強的專用互連技術(shù)。NVLink是專用于英偉達(dá)GPU之間的點對點互連協(xié)議。英偉達(dá)針對異構(gòu)計算場景于2014年開發(fā)了NVLink技術(shù),NVLink實現(xiàn)了GPU之間的直接互連,可擴展服務(wù)器內(nèi)的多GPU輸入/輸出(I/O提供相較于傳統(tǒng)PCIe總線更加快速、更低延遲的系統(tǒng)內(nèi)互連解決方案。NVLink1.0的雙向傳輸速率為160GB/s,此后NVLink隨著GPU體系結(jié)構(gòu)的演進(jìn)而同步迭代升級。3月19日的GTC2024Keynote上,英偉達(dá)發(fā)布第五代NVLink高速互連方案,兩個B系列GPU芯片間通過18條NVLink5.0鏈路連接,最高雙向總帶寬提升至1.8TB/s,較第四代提升一倍,約為x16PCIe5.0鏈路總帶寬的14倍。我們認(rèn)為,英偉達(dá)第五代NVLink技術(shù)的推出顯著提升GPU間通信效率,有望從C2C互連層面進(jìn)一步強化其AI芯片集群計算性能,鞏固自身產(chǎn)品護城河。 Tx Tx Tx Tx TxTxTx Tx發(fā)送端TxTxTxTxTxTxTx接收端P100TLTLPHYPHYPHYPHYNVLinkx4PHYPHYPHYPHY發(fā)送端Tx Tx Tx Tx Tx TxTxTx Tx發(fā)送端TxTxTxTxTxTxTx接收端P100TLTLPHYPHYPHYPHYNVLinkx4PHYPHYPHYPHY發(fā)送端Tx圖表17:NVLink1.0內(nèi)部鏈路圖(用于P100GPU卡互接收端接收端NVLinkNVLink內(nèi)部電路P100P100注:1)TL指事物層;2)DL指數(shù)據(jù)鏈路層資料來源:Nextplatform,中金公司研究部圖表18:NVLink5.0技術(shù)使得GPU間雙向帶寬升級至1.8TB/s資料來源:英偉達(dá)官網(wǎng),中金公司研究部除NVLink外,英偉達(dá)還擁有自研交換芯片NVSwitch,解決GPU間通訊不均衡問題。在DGXP100架構(gòu)中,8個GPU通過NVLink形成環(huán)狀連接,無法完全實現(xiàn)點對點的連接。為了解決上述GPU之間通訊不均衡問題,英偉達(dá)引入基于NVLink高級通信能力構(gòu)建的NVSwitch芯片能夠在節(jié)點間擴展NVLink,創(chuàng)建無縫、高帶寬的多節(jié)點GPU集群,實現(xiàn)所有GPU在一個具有全帶寬連接的集群中協(xié)同工作。GTC2024大會上,英偉達(dá)發(fā)布新一代NVLinkSwitch:單顆NVSwitch芯片采用臺積電4NP制程工藝,支持72個雙向200GSerDes端口(應(yīng)用224GPAM4SerDes技術(shù))。新一代NVLinkSwitch最多可實現(xiàn)576個GPU的互連,大幅擴展了NVLink域,聚合總帶寬提升至1PB/s,助力萬億級以上參數(shù)量AI大模型釋放加速性能。同時,英偉達(dá)也通過NVLink-C2C技術(shù)將NVLink擴展至封裝級,借助先進(jìn)封裝支持芯?;ミB,GraceCPU與BlackwellGPU之間支持900GB/s雙向帶寬的通信。圖表19:NVLink和NVSwitch各世代規(guī)格參數(shù)指標(biāo)第一代第二代第三代第四代第五代NVLink搭載GPUP100V100A100BlackwellGPU推出時間20142017202020222024單鏈路雙向傳輸速率(GB/s)20+2025+2525+2525+25-每個GPU的最大鏈路數(shù)46單鏈路包含SerDes通道數(shù)量8842-單通道SerDes傳輸速率(Gbps)202550-總雙向傳輸速率(GB/s)300600900支持的NVIDIA架構(gòu)PascalVoltaAmpereHopperBlackwellNVSwitch代際直連或節(jié)點中GPU數(shù)量NVSwitchGPU之間帶寬聚合總帶寬NVIDIA架構(gòu)支持-第一代第二代第三代NVLinkSwitch-最多8個最多8個最多8個最多576個 300GB/s600GB/s900GB/s1800GB/s 2.4TB/s4.8TB/s7.2TB/s1PB/s-VoltaAmpereHopperBlackwell注:“-”表示尚未披露公開信息資料來源:英偉達(dá)官網(wǎng),中金公司研究部借鑒上文中英偉達(dá)的產(chǎn)品發(fā)展思路來看,我們認(rèn)為國內(nèi)云端AI芯片企業(yè)僅提升單芯片性能遠(yuǎn)遠(yuǎn)不夠,在互聯(lián)通信領(lǐng)域仍需持續(xù)耕耘。從技術(shù)儲備來看,芯片間互聯(lián)通信能力需要設(shè)計廠商對數(shù)字邏輯、物理底層實現(xiàn)均有較深的積累,這對國內(nèi)企業(yè)提出了不小的挑戰(zhàn),也不排除存在外購高速接口IP的需求。當(dāng)下,我們看到國產(chǎn)芯片廠商均基于自身芯片架構(gòu)發(fā)展芯片間高速通訊技術(shù),以增強在分布式計算應(yīng)用場景中算力硬件系統(tǒng)的性能,如華為昇騰HCCS、寒武紀(jì)MLULink、昆侖芯XPULink、摩爾線程MTLink等等。以寒武紀(jì)產(chǎn)品為例,根據(jù)公司官方公眾號披露,公司主力產(chǎn)品MLU370-X8智能加速卡支持MLU-Link多芯互聯(lián)技術(shù),提供卡內(nèi)及卡間互聯(lián)功能。寒武紀(jì)為多卡系統(tǒng)專門設(shè)計了MLU-Link橋接卡,可實現(xiàn)4張加速卡為一組的8顆思元370芯片全互聯(lián),每張加速卡可獲得200GB/s的通訊吞吐性能,帶寬為PCIe4.0的3.1倍,可高效執(zhí)行多芯多卡訓(xùn)練和分布式推理任務(wù)。在寒武紀(jì)基礎(chǔ)軟件平臺SDK上實測,多卡加速方面,MLU370-X8借助MLU-Link多芯互聯(lián)技術(shù)和寒武紀(jì)基礎(chǔ)軟件平臺CNCL通訊庫的優(yōu)化,在8卡環(huán)境下達(dá)到更優(yōu)的并行加速比(在Transformer等訓(xùn)練任務(wù)中,8卡計算系統(tǒng)的并行性能平均達(dá)到350WRTXGPU的155%)。華為產(chǎn)品方面也有相應(yīng)儲備,根據(jù)華為云官網(wǎng)披露,一臺昇騰AI服務(wù)器上搭載8顆NPU芯片,采用片,采用4P*2方式。每4塊NPU芯片之間可通過HCCS互聯(lián),4塊之間可通過PCIeSwitch互聯(lián)。6HCCS互聯(lián)的4塊NPU芯片較PCIeSwitch互聯(lián)有更大的帶寬,可以針對HCCS做親和性調(diào)度發(fā)揮HCCS的帶寬優(yōu)勢。其余諸多國內(nèi)廠商也有上述類似的方案,我們在此不一一列舉。整體來看,國內(nèi)產(chǎn)品卡間互聯(lián)雙向帶寬現(xiàn)僅能達(dá)到NVLink5.0的10%-30%;但結(jié)合算力指標(biāo)來看,也基本上實現(xiàn)了匹配(我們認(rèn)為單卡性能較弱的情況下盲目提高圖表20:MLU370-X8中整合了雙芯片四芯粒思元370圖表21:MLU370-X8MLULink4卡橋接拓?fù)滟Y料來源:寒武紀(jì)官方公眾號,中金公司研究部資料來源:寒武紀(jì)官方公眾號,中金公司研究部/ref-cce/category_11.html圖表22:8卡寒武紀(jì)MLU370產(chǎn)品在FP32大模型訓(xùn)練性能中相比主流GPU實現(xiàn)加速,多卡互聯(lián)功不可沒注:*測試環(huán)境為:250WMLU370-X8:NF5468M5/IntelXeonGold5218CPU@2.30GHz/MLU370SDK1.2.0;350WGPU:SupermicroAS-4124GS-TNR/IntelXeonGold6130CPU@2.10GHz/Cuda11.2資料來源:寒武紀(jì)官網(wǎng),中金公司研究部結(jié)合NVSwitch產(chǎn)品來看,對于構(gòu)建向更大規(guī)模擴展的算力集群,不僅需要芯片廠商自主定義的片間連接技術(shù),更需要獨立的交換芯片做支持。當(dāng)前除少量在通信領(lǐng)域積累深厚的企業(yè)外,自研交換芯片對國產(chǎn)AI算力芯片企業(yè)來講難度較大,以類NVLink方式實現(xiàn)更大互聯(lián)面臨挑戰(zhàn)性。但我們也看到,國內(nèi)不乏一些三方交換芯片供應(yīng)商業(yè)務(wù)水平不斷精進(jìn),有望逐步對AI算力芯片企業(yè)行程業(yè)務(wù)支持和配套。.800GbE.400GbE.AlexNet.300TFLOPS.800GbE.400GbE.AlexNet.300TFLOPSTransformers如上文所述,我們認(rèn)為從硬件端來看,單一GPU性能及卡間互聯(lián)性能是評價云端AI芯片產(chǎn)品優(yōu)劣的核心指標(biāo)。中國大陸產(chǎn)品在單芯片制程、架構(gòu)優(yōu)化方面努力追趕,在互聯(lián)性能方面,各企業(yè)能力也得以逐步補齊。但目前國產(chǎn)產(chǎn)品依然與全球領(lǐng)先水平存在2-3年的差距。雖然短期內(nèi)中國企業(yè)單芯片技術(shù)能力暫時優(yōu)于互聯(lián)水平,但我們認(rèn)為芯片廠商需在二者之間平衡發(fā)展,任何的短板都有可能造成導(dǎo)致算力系統(tǒng)能力提升困難。我們認(rèn)為,國產(chǎn)云端AI芯片企業(yè)雖作為后發(fā)者,依然擁有市場機會。一方面來看,摩爾定律的迭代放緩使得海外龍頭企業(yè)開發(fā)新產(chǎn)品面臨更大的挑戰(zhàn),中國企業(yè)有望以更快的速度向海外現(xiàn)有產(chǎn)品看齊,但供應(yīng)鏈方面存在不確定性;另一方面來看,Transformer作為大模型時代當(dāng)下主流的網(wǎng)絡(luò)結(jié)構(gòu),若該結(jié)構(gòu)在未來長期行之有效,推理側(cè)大量的應(yīng)用鋪開對硬件的成本、能效比會帶來更高的訴求,定制化架構(gòu)芯片有望攫取一定市場份額,對后發(fā)企業(yè)構(gòu)成利好。圖表23:總結(jié)來看,目前國產(chǎn)AI芯片與全球領(lǐng)先產(chǎn)品差距在2-3年.2000TFLOPS系統(tǒng)生態(tài):實現(xiàn)與CUDA對齊并非易事系統(tǒng)生態(tài):人工智能模型和底層硬件之間的接口我們認(rèn)為,英偉達(dá)系統(tǒng)生態(tài)的繁榮為其GPU硬件平臺提供了強大的競爭護城河。我們總結(jié),英偉達(dá)的生態(tài)壁壘包括以下幾個關(guān)鍵組成部分:?基于高層次抽象,英偉達(dá)通過CUDA統(tǒng)一編程平臺提供了一套完整的開發(fā)工具鏈,包括編譯器、調(diào)試器和性能分析工具,以及豐富的庫函數(shù)(加速算子執(zhí)行、實現(xiàn)卡間通信為開發(fā)者提供了便利,降低使用成本。且CUDA統(tǒng)一編程平臺可支持多個操作系統(tǒng),且支持各類GPU(包括數(shù)據(jù)中心級產(chǎn)品、消費級產(chǎn)品);全球安裝的CUDA兼容的NVIDIAGPU數(shù)量已經(jīng)達(dá)到了數(shù)億級別,在AI領(lǐng)域和并行計算形成近乎壟斷的生態(tài)系統(tǒng)。?由于硬件端AI領(lǐng)域的先發(fā)優(yōu)勢,大量的AI深度學(xué)習(xí)訓(xùn)練開源項目和框架如PyTorch、TensorFlow等與英偉達(dá)GPU后端實現(xiàn)了原生適配,且兼容DeepSpeed、Megatron-LM等分布式加速工具;推理端來看,英偉達(dá)同樣擁有Tensor-RT引擎。總結(jié)來說,主流AI軟件棧的最佳優(yōu)化方案均與英偉達(dá)CUDA生態(tài)及GPU深度耦合。通過日積月累,英偉達(dá)硬件環(huán)境上的開發(fā)者數(shù)量眾多,有龐大而活躍的社區(qū)以及硬件環(huán)境上的開發(fā)者數(shù)量眾多,有龐大而活躍的社區(qū)以及大量可用的文檔、教程、論文,開發(fā)人員對CUDA的熟悉程度和專業(yè)度更高,導(dǎo)致新人采用CUDA面臨的時間成本更低。到2023年底,CUDA軟件包已累計下載4800萬次,證明其廣泛的用戶基礎(chǔ)和開發(fā)者社區(qū)的活躍度。?對外部企業(yè)、學(xué)校、以及不同應(yīng)用領(lǐng)域均有良好的解決方案,對不同類型客戶進(jìn)行深度綁定服務(wù)。圖表24:CUDA生態(tài)系統(tǒng)組成資料來源:NVIDIA官網(wǎng),中金公司研究部圖表25:CUDA用戶數(shù)持續(xù)提升資料來源:NVIDIA官網(wǎng),中金公司研究部圖表26:全球兼容CUDA的GPU數(shù)量達(dá)到數(shù)億級別資料來源:NVIDIAGTC2024,中金公司研究部我們看到目前復(fù)刻/再造英偉達(dá)CUDA生態(tài)存在較大的困難,原因在于:1)軟件依賴于硬件,硬件本身難以大規(guī)模普及。由于生態(tài)壁壘,硬件的切換成本被抬高,假如不考慮其他因素,性能高于競品很多的產(chǎn)品才可能被考慮。而國內(nèi)GPU與海外龍頭對比仍有一定差距。且大量優(yōu)秀的代碼均建立在CUDA基礎(chǔ)之上,英偉達(dá)CUDA生態(tài)先發(fā)優(yōu)勢持續(xù)明顯。2)時間成本。CUDA自建生態(tài)發(fā)展了十幾年,積淀已久,發(fā)現(xiàn)和解決了很多問題。英偉達(dá)持續(xù)的投入研發(fā)和精力使整個軟件棧變得易用,初創(chuàng)企業(yè)短期內(nèi)難以企及用時間獲得的完善度。從中短期的現(xiàn)實角度來看,業(yè)內(nèi)認(rèn)為兼容CUDA是一條較為容易實現(xiàn)生態(tài)建設(shè)的路徑。13前端GPGPU源代碼自研編譯器自研編譯器2GPGPU二進(jìn)制文件二進(jìn)制文件DSA架構(gòu)硬件類GPGPU架構(gòu)硬件資料來源:ANANDTECH,中金公司研究部當(dāng)前市場對CUDA源代碼的兼容主要分為兩種:1)使用轉(zhuǎn)譯層;2)重新編譯代碼:13前端GPGPU源代碼自研編譯器自研編譯器2GPGPU二進(jìn)制文件二進(jìn)制文件DSA架構(gòu)硬件類GPGPU架構(gòu)硬件資料來源:ANANDTECH,中金公司研究部當(dāng)前市場對CUDA源代碼的兼容主要分為兩種:1)使用轉(zhuǎn)譯層;2)重新編譯代碼:轉(zhuǎn)譯層主要指涉及底層代碼的二進(jìn)制轉(zhuǎn)譯方式,無需修改已經(jīng)編譯完成的CUDA代碼,可以直接反編譯為自研GPU的指令,對于無法一一對應(yīng)的指令,也可以采用多條指令進(jìn)行替換。這一方法可以做到一邊轉(zhuǎn)譯一邊執(zhí)行,是在非英偉達(dá)硬件上運行CUDA代碼最為簡便的方式,典型應(yīng)用包括ZLUDA開源庫等。但在2024年3月,英偉達(dá)CUDA11.6及更高版本的最終用戶許可協(xié)議(EULA)新增規(guī)定,不允許使用CUDASDK生成的輸出的任何部分進(jìn)行逆向工程、反編譯或反匯編,以便將此類輸出轉(zhuǎn)換為面向非英偉達(dá)平臺,嚴(yán)格限制了ZLUDA等轉(zhuǎn) 編程框架(Pytorch/TensorFlow/Caffe…)GPGPU原生源代碼DSAGPGPU原生源代碼DSA源代碼CUDA源代碼廠商自研轉(zhuǎn)譯工具第三方編譯工具第三方編譯工具NVCC編譯器ZLUDA轉(zhuǎn)譯層NVIDIANVIDIAGPU二進(jìn)制文件NVIDIA硬件譯層的使用。重新編譯代碼則需要構(gòu)建翻譯工具與自身軟件生態(tài),通過翻譯工具將CUDA源代碼翻譯為自有代碼,通過自有編譯器運行于自研GPU上,例如,AMD可以通過Hipify工具將CUDA源代碼轉(zhuǎn)為HIP源代碼,經(jīng)過HCC編譯器即可運行;Intel則可以通過SYCLomatic工具將90-95%的CUDA代碼遷移到SYCL的代碼中,其中SYCL是Khronos開發(fā)的可跨越多種AI加速器架構(gòu)的抽象層。國內(nèi)企業(yè)中,摩爾線程、沐曦等GPGPU架構(gòu)廠商采取了上述模式。然而,重新編譯代碼仍然意味著對于CUDA生態(tài)的強依賴。兼容CUDA在短期內(nèi)對于其他芯片廠商是占領(lǐng)生態(tài)的捷徑,但是長期來看,由于CUDA與英偉達(dá)硬件深度綁定,且各家芯片架構(gòu)各有不同,因此通過編譯器轉(zhuǎn)換的代碼可能無法在自有芯片上運行,或不能達(dá)到最優(yōu)性能,仍需要根據(jù)芯片的架構(gòu)、指令集和存儲層級進(jìn)行針對性調(diào)整才能達(dá)到最優(yōu)。以華為、寒武紀(jì)為例,二者芯片均為DSA架構(gòu),與AMD等GPGPU架構(gòu)差異較大,因此并不能通過轉(zhuǎn)譯CUDA、SYCL等語言的方式兼容主流生態(tài),而需要自下而上自建完整生態(tài)。近期,我們看到還有一些專門從事編譯器研發(fā)的廠商加入這一賽道,例如國內(nèi)的AI生態(tài)軟件提供商中科加禾、清程極智,目標(biāo)是通過軟件轉(zhuǎn)譯CUDA等源代碼,起到上文提及的“翻譯工作”的作用,最終實現(xiàn)芯片與語言解耦,以解決當(dāng)前碎片化的底層芯片生態(tài)與上層大模型更新迭代的兼容問題。這一方法同時解決了當(dāng)前DSA架構(gòu)芯片無法與CUDA生態(tài)兼容的問題。長期來看,為了避免迭代上的被動和兼容帶來的問題,自建生態(tài)仍是國產(chǎn)云端AI芯片企業(yè)需要努力的方向。我們認(rèn)為整體國產(chǎn)云端AI芯片的生態(tài)構(gòu)建可以被拆分成以下若干環(huán)節(jié):?傳統(tǒng)主流框架算子適配:在訓(xùn)練端,當(dāng)下AI訓(xùn)練框架意義重大。AI框架可以將開發(fā)者編寫的神經(jīng)網(wǎng)絡(luò)模型及代碼轉(zhuǎn)化成計算圖,可供計算機識別并執(zhí)行,同時可以提供編程接口支持,提供靈活的編程環(huán)境和編程體系供開發(fā)者接入。而計算圖之間經(jīng)由算子進(jìn)行連接,因此我們認(rèn)為單卡對訓(xùn)練框架所包含的算子實現(xiàn)全面支持和跑通是生態(tài)兼容的第一步。出于開發(fā)成本考量,國產(chǎn)廠商一般選擇的方式是先去支持更廣泛被使用的算子,而對于小眾算子一般會采用主流算子拼接的“兜底策略”實現(xiàn)。算子開發(fā)面臨著大量的勞動,當(dāng)下Pytorch2.0版本包含2000+個算子,我們認(rèn)為相關(guān)從零到一的適配可能會等于百人工程師團隊1-2年的工作量。在完成適配以后,算子的執(zhí)行也需要被不斷優(yōu)化,來實現(xiàn)更好的軟件到硬件端性能。?構(gòu)建分布式通信庫,兼容或開發(fā)并行加速框架:由于大模型的訓(xùn)練需要多硬件協(xié)同完成,因此在實際訓(xùn)練模型過程中,除了使用當(dāng)前Pytorch等主流訓(xùn)練框架外,還需調(diào)用并行加速框架如DeepSpeed(微軟維護)、Megatron-LM(英偉達(dá)維護)等,以實現(xiàn)對數(shù)據(jù)并行、模型并行、專家并行等多類并行策略;同時,物理通信的實現(xiàn)也要配套硬件的通信庫來完成,提供跨機跨卡的通信能力并能根據(jù)底層網(wǎng)絡(luò)特點充分利用網(wǎng)絡(luò)帶寬。?建立集群的容錯機制:機器在執(zhí)行大規(guī)模分布式訓(xùn)練任務(wù)時候負(fù)載重,發(fā)生錯誤概率高。在硬件配套的系統(tǒng)軟件端,也要考量硬件發(fā)生故障后快速恢復(fù)模型訓(xùn)練的能力。短期內(nèi)通過寫checkpoint的方式完成,長期看需學(xué)習(xí)spark的容錯機制,在數(shù)據(jù)并行的節(jié)點間自動容錯。?構(gòu)建推理引擎:在實際應(yīng)用中,模型的推理階段同樣需要高效的計算支持。與訓(xùn)練時需要大量的零散的小算子所不同、推理情況下多采用大算子。如何進(jìn)行算子融合、低精度加速、矩陣乘法的張量加速、多卡并行是推理引擎的技術(shù)關(guān)注重點。我們看到,目前訓(xùn)推一體框架也是國產(chǎn)企業(yè)正在嘗試的方向,旨意用單一框架去實現(xiàn)對訓(xùn)練、推理的多維度加速。并行加速框架兼容或開發(fā)Megatron-LM了deepspeedFastMOE訓(xùn)練/推理框架兼容或開發(fā)算子庫支持AI編譯器通信庫支持NCCL編程語言兼容或開發(fā)圖表28:Pytorch2.0算子數(shù)目多達(dá)并行加速框架兼容或開發(fā)Megatron-LM了deepspeedFastMOE訓(xùn)練/推理框架兼容或開發(fā)算子庫支持AI編譯器通信庫支持NCCL編程語言兼容或開發(fā)資料來源:Omdia,中金公司研究部圖表29:國產(chǎn)云端AI芯片系統(tǒng)生態(tài)構(gòu)建需關(guān)注多個層面的內(nèi)容主要軟主要軟件生態(tài)資料來源:英偉達(dá)官網(wǎng),AMD官網(wǎng),中金公司研究部各國產(chǎn)云端AI芯片廠商正在加緊推進(jìn)全棧軟件平臺建設(shè),舉例來看:華為昇騰昇騰AI全棧軟硬件平臺包括5層,自下而上分別為Atlas系列硬件、異構(gòu)計算架構(gòu)、AI框架、應(yīng)用使能、行業(yè)應(yīng)用,芯片層是昇騰910和昇騰310,異構(gòu)計算架構(gòu)CANN對標(biāo)英偉達(dá)CUDA+CuDNN核心軟件層。MindStudio是華為面向昇騰AI開發(fā)者提供的一站式開發(fā)環(huán)境和工具集,致力于提供端到端的昇騰AI應(yīng)用開發(fā)解決方案。按照開發(fā)場景分類,MindStudio主要包括以下三個工具鏈:1)算子開發(fā)工具:在完備的調(diào)試工具和多樣的調(diào)優(yōu)數(shù)據(jù)的幫助下,通過AscendC的多層接口抽象,簡化用戶編程難度,助力開發(fā)者低成本完成高性能算子開發(fā)。2)訓(xùn)練開發(fā)工具:聚焦用戶在模型遷移、模型開發(fā)中遇到的痛點問題,提供全流程的工具鏈。通過提供分析遷移工具、精度調(diào)試工具、性能調(diào)優(yōu)工具三大主力工具包,幫助用戶解決開發(fā)過程中遷移困難、Loss跑飛、性能不達(dá)標(biāo)或劣化等問題,讓用戶輕松解決精度和性能問3)推理開發(fā)工具:作為昇騰統(tǒng)一推理工具庫,提供客戶一體化開發(fā)所需功能,支持一站式調(diào)試調(diào)優(yōu)和遷移分析能力,當(dāng)前包含推理性能測試試調(diào)優(yōu)和遷移分析能力,當(dāng)前包含推理性能測試-benchmark、一站式調(diào)試調(diào)優(yōu)-debug/profile、模型支持度分析-analyze、推理應(yīng)用遷移分析-transplt以及推理模型轉(zhuǎn)換-convert等核心組件。圖表30:華為昇騰AI全棧軟硬件平臺資料來源:昇騰官網(wǎng),中金公司研究部圖表31:華為昇騰MindStudio功能框架資料來源:資料來源:昇騰官網(wǎng),中金公司研究部寒武紀(jì)從軟件功能維度看,寒武紀(jì)軟件棧分為運行時庫、框架、分析工具、BANG語言及工具、算子庫、視覺應(yīng)用工具六部分,運行時庫提供底層設(shè)備接口支持上層模塊,框架部分提供AI算法環(huán)境與接口,分析工具為開發(fā)者提供調(diào)試、調(diào)優(yōu)工具,方便在硬件上優(yōu)化AI框架及應(yīng)用,BANG語言及工具提供自定義算子開發(fā)能力,算子庫中包含CNNL等常見高性能算子,視覺應(yīng)用工具提供端到端的視覺算法應(yīng)用開發(fā)方案,降低開發(fā)視覺應(yīng)用門檻。MagicMind是面向寒武紀(jì)MLU的推理加速引擎。MagicMind可以將更高層級的人工智能框架(TensorFlow、PyTorch、Caffe與ONNX等)的算法模型轉(zhuǎn)換成MagicMind統(tǒng)一計算圖表示,并提供端到端的模型優(yōu)化、代碼生成以及推理業(yè)務(wù)部署能力。借助MagicMind用戶僅需投入較少開發(fā)成本,即可將推理業(yè)務(wù)部署到寒武紀(jì)全系列產(chǎn)品上,并獲得頗具競爭力的性能。Bang語言是寒武紀(jì)人工智能芯片的編程語言,提供異構(gòu)編程方式,通過抽象寒武紀(jì)底層芯片架構(gòu),方便開發(fā)者編寫自定義算子,降低寒武紀(jì)芯片使用門檻,滿足開發(fā)者自定義開發(fā)需求,遵從C語言描述規(guī)范,簡單易用。圖表32:寒武紀(jì)基礎(chǔ)軟件開發(fā)平臺摩爾線程摩爾線程采用雙線作戰(zhàn)的策略,一方面發(fā)展自己MUSA元計算統(tǒng)一系統(tǒng)架構(gòu),包括統(tǒng)一的編程模型、軟件運行庫、驅(qū)動程序框架、指令集架構(gòu)和芯片架構(gòu);同時還推出了代碼移植工具"MUSIFY",可快速將現(xiàn)有的CUDA程序遷移至MUSA,零成本完成CUDA代碼自動移植,相當(dāng)于手機的“一鍵遷移”功能,便于開發(fā)者使用自身硬件產(chǎn)品。圖表33:摩爾線程軟件棧一覽資料來源:資料來源:摩爾線程官網(wǎng),中金公司研究部除軟件研發(fā)之外,國產(chǎn)云端AI芯片廠商也開始將生態(tài)建設(shè)向更大范圍拓展,如打造行業(yè)生態(tài)合作伙伴,加強原生工程師培養(yǎng)等。以下是華為昇騰、寒武紀(jì)等企業(yè)生態(tài)拓展的案例:昇騰生態(tài)伙伴包含整機硬件伙伴、IHV硬件伙伴、應(yīng)用軟件伙伴、一體機解決方案伙伴以及生態(tài)運營伙伴五大類。目前圍繞昇騰計算體系,華為已在能源、金融、公共、交通、電信、制造、教育等多行業(yè)實現(xiàn)應(yīng)用,提供城市智能中樞、昇騰智巡、昇騰智行、昇騰制造等解決方案。另外,公司還積極拓展高校教學(xué)合作計劃及初創(chuàng)扶植計劃。高校合作方面,華為與國內(nèi)“雙一流”建設(shè)高校合作,或校內(nèi)設(shè)有AI學(xué)院或研究院、或設(shè)有獨立的AI相關(guān)學(xué)科均可以加入AI人才培養(yǎng)計劃;而初創(chuàng)扶持計劃分為孵化、成長和云騰三個階段,企業(yè)參加該計劃后,獲得相應(yīng)的扶持,隨著與AtlasAI計算解決方案的進(jìn)一步深入融合和裁員,進(jìn)入成長和云騰階段,獲得更高額度的扶持,并且會優(yōu)先向伙伴和客戶推薦銷售。圖表34:昇騰計算產(chǎn)業(yè)生態(tài)資料來源:資料來源:《昇騰計算產(chǎn)業(yè)發(fā)展白皮書》,中金公寒武紀(jì)也在積極推進(jìn)高校合作工作,公司在高校推廣開設(shè)《智能計算系統(tǒng)》課程,實驗環(huán)境基于智能處理卡思元270,整套實驗在云平臺環(huán)境完成,學(xué)生只需配備有網(wǎng)絡(luò)環(huán)境的電腦即可完成實驗。根據(jù)公司官網(wǎng),目前已經(jīng)有88所高校開設(shè)《智能計算系統(tǒng)》課程并納入培養(yǎng)方案。政府及行業(yè)客戶合作方面,寒武紀(jì)在不斷的拓寬潛在市場,加速場景落地。根據(jù)公司公告及2023年年報,公司與中國移動通信集團浙江有限公司臺州分公司、浙江省公眾信息產(chǎn)業(yè)有限公司組成聯(lián)合體,中標(biāo)“浙東南數(shù)字經(jīng)濟產(chǎn)業(yè)園數(shù)字基礎(chǔ)設(shè)施提升工程(一期)”項目,同時積極參與臺州、沈陽兩地的算力基礎(chǔ)設(shè)施建設(shè)項目,以公司的訓(xùn)練整機產(chǎn)品作為核心計算設(shè)備,集成配套的軟硬件,最終形成智能計算集群系統(tǒng)交付給客戶。如上文所述,除了走兼容CUDA路線外,我們認(rèn)為國產(chǎn)云端AI芯片廠商在自行開發(fā)的系統(tǒng)生態(tài)方面也取得了十足的進(jìn)步:1)訓(xùn)練方面來看,從對主流框架的覆蓋、算子適配度等方面已完成基礎(chǔ)性工作,但部分個例情況仍需優(yōu)化,導(dǎo)致在客戶側(cè)工程落地時會遇到一定問題;在通信庫、并行加速框架方面,各廠商努力依照自身硬件特點持續(xù)推進(jìn)深度優(yōu)化開發(fā)。2)推理方面來看,推理加速引擎也初現(xiàn)雛形,但算子融合經(jīng)驗、分布式推理經(jīng)驗方面仍略有欠缺。我們認(rèn)為,系統(tǒng)生態(tài)劣勢形成的重要原因是開發(fā)者數(shù)量的劣勢,但面臨當(dāng)下云端AI芯片國產(chǎn)化迫切的需求,政府、運營商等客戶可為芯片企業(yè)提供難得的商用機會和及時的產(chǎn)品反饋,對于芯片企業(yè)研發(fā)迭代具有正向作用,能夠幫助國產(chǎn)芯片從“能用”走到“好用”。圖表35:各公司生態(tài)與CUDA模塊對比廠商生態(tài)cuBLAScuFFTcuRANDcuSolvercuSPARSEcuTENSORNCCLTensorFlowPytorch開發(fā)者社區(qū)摩爾線程MUSABLASFFTRANDSolverSPARSETENSORMUSA-XCCL√√摩爾線程創(chuàng)新者聯(lián)盟壁仞科技BIRENSUPABLAS、NN庫多卡通訊庫√√FlagOpen等開源社區(qū)沐曦集成電路MXMACABLAS、NN庫√√OpenKylin等開源社區(qū)天數(shù)智芯DeepSparkBLASFFT√√DeepSpark等開源社區(qū)華為昇騰CANNBLAS、NN庫HCCL√√昇騰社區(qū)寒武紀(jì)寒武紀(jì)基礎(chǔ)軟件平臺CNNL、CNNL-EXTRA高性能算子庫CNCL√√寒武紀(jì)開發(fā)者社區(qū)燧原科技TopsRiderTopsDNNECCL√√OpenCSG等開源社區(qū)資料來源:各公司官網(wǎng),中金公司研究部Intel/AMD的云端算力芯片的優(yōu)異表現(xiàn)為非英偉達(dá)產(chǎn)品基于開源模型適配提供了樣本參照,增強了我們對國產(chǎn)產(chǎn)品落地的信心。根據(jù)DataBricks的實驗結(jié)果,在不同參數(shù)量的MosaicMLMPT開源模型上,AMDMI250的單卡訓(xùn)練性能(以TFLOP/s/GPU維度考量,下同)已經(jīng)可以達(dá)到A100-40GB版本的85%及A100-80GB版本的77%。IntelGaudi2的單卡訓(xùn)練性能已經(jīng)實現(xiàn)對A100-40GB/80GB版本的超越。同時DataBricks也指出,經(jīng)過優(yōu)化后,8卡LLAMA2-70B模型推理中IntelGaudi2的存儲帶寬利用率在batchsize為1-256狀態(tài)下均超過內(nèi)存容量相近的A100/H100。類比當(dāng)下非英偉達(dá)硬件對主流開源模型的適配結(jié)果日益優(yōu)化,且部分國內(nèi)大模型客戶的技術(shù)路徑依賴于開源模型二次開發(fā),我們認(rèn)為國產(chǎn)云端AI芯片同樣擁有商業(yè)落地機會。同時,我們也認(rèn)為,未來若Transformer結(jié)構(gòu)持續(xù)為大模型的主流網(wǎng)絡(luò)結(jié)構(gòu),模型創(chuàng)新、算子變化趨于緩慢,屆時系統(tǒng)生態(tài)壁壘也會呈現(xiàn)降低,利好后發(fā)硬件廠商。圖表36:單節(jié)點訓(xùn)練性能對比(基于MosaicML的MPT開源模型)資料來源:DataBricks,中金公司研究部圖表37:多節(jié)點推理存儲帶寬利用率對比(基于LLAMA2-70B模型)資料來源:DataBricks,中金公司研究部寫在最后:除了軟硬件能力外,國產(chǎn)云端AI芯片企業(yè)發(fā)我們看到,除了英偉達(dá)、AMD、英特爾WaveComputing提供從數(shù)據(jù)中心到邊緣的系統(tǒng)、芯片、IP、解決方案服務(wù)的廣泛產(chǎn)品線。他們研發(fā)了基于CGRA架構(gòu)的AI芯片DPU,但由于核心產(chǎn)品性能問題、生態(tài)建設(shè)困難,同時經(jīng)歷了多次管理層變更,最終在2020年宣布破產(chǎn)。NervanaSystems是一家專注于人工智能(AI)和深度學(xué)習(xí)技術(shù)的公司,2016年被英特爾收購,盡管NervanaSystems在深度學(xué)習(xí)領(lǐng)域取得了一些進(jìn)展,但在產(chǎn)品開發(fā)和上市方面遇到了挑戰(zhàn)。最終,Intel決定停止開發(fā)NervanaSpringCrest系列芯片。Mythic是一家美國AI芯片初創(chuàng)企業(yè),Mythic專注于開發(fā)模擬AI處理器,其技術(shù)基于混合數(shù)字/模擬計算,旨在提高深度學(xué)習(xí)部署的效率,同時顯著延長電池壽命。公司在2022年面臨財務(wù)困難,在22年11月報道現(xiàn)金流緊張,宣布資金告罄。我們認(rèn)為盡管這些AI芯片初創(chuàng)企業(yè)在某些技術(shù)指標(biāo)上非常突出,例如WaveComputing基于dataflowdataflow技術(shù)架構(gòu)的AI芯片DPU,但仍會面臨來自市場推廣、生態(tài)系統(tǒng)建設(shè)以及資金籌集等多方面的挑戰(zhàn)。綜合來看,一家AI芯片企業(yè)能否成功需要考驗技術(shù)能力、市場能力、供應(yīng)鏈和資金管理等綜合能力,不過度追求一步到位,努力先做到量產(chǎn)出貨,把握住2024年商業(yè)落地窗口期,或許是未來競爭格局的關(guān)注重點。目前在技術(shù)及生態(tài)被海外龍頭壟斷的背景下,我們認(rèn)為國產(chǎn)云端AI芯片企業(yè)可考慮:1)產(chǎn)品規(guī)劃角度。在推理市場先行放量,增強現(xiàn)金流;2)客戶策略角度。一是綁定云廠商大客戶,提供定制化的服務(wù),同時得到技術(shù)反哺升級下一代產(chǎn)品,獲得可持續(xù)訂單;二是綁定運營商或政府端大客戶,在智算中心這一關(guān)鍵新興需求端搶占市場份額,增強市場影響力;3)運營角度。能否拿到關(guān)鍵制造及封裝產(chǎn)能(與頭部晶圓廠、封裝廠的合作關(guān)系)、保持高強度研發(fā)投入(能否獲得持續(xù)融資支持)也是公司可持續(xù)發(fā)展的關(guān)鍵。建議關(guān)注公司寒武紀(jì)提供云邊端一體、軟硬件協(xié)同、訓(xùn)練推理融合、具備統(tǒng)一生態(tài)的系列化智能芯片產(chǎn)品和平臺化基礎(chǔ)系統(tǒng)軟件。公司產(chǎn)品線涵蓋云端、邊緣端和IP授權(quán)及軟件幾大板塊。寒武紀(jì)產(chǎn)品廣泛應(yīng)用于服務(wù)器廠商和產(chǎn)業(yè)公司,面向互聯(lián)網(wǎng)、金融、交通、能源、電力和制造等領(lǐng)域的復(fù)雜AI應(yīng)用場景提供充裕算力,推動人工智能賦能產(chǎn)業(yè)升級。自成立以來,公司快速實現(xiàn)云邊端一體的產(chǎn)品布局,先后推出了用于終端場景的寒武紀(jì)1A、寒武紀(jì)1H、寒武紀(jì)1M系列智能處理器;基于思元100、思元270、思元290芯片和思元370的云端智能加速卡系列產(chǎn)品;基于思元220芯片的邊緣智能加速卡。根據(jù)公司2023年報,其中,寒武紀(jì)智能處理器IP產(chǎn)品已集成于超過1億臺智能手機及其他智能終端設(shè)備中,思元系列產(chǎn)品也已應(yīng)用于浪潮、聯(lián)想等多家服務(wù)器廠商的產(chǎn)品中。此外,思元270芯片、思元290芯片還分別獲得第六屆世界互聯(lián)網(wǎng)大會、世界人工智能大會頒布的獎項。思元220自發(fā)布以來,累計銷量突破百萬片。公司在多個領(lǐng)域?qū)崿F(xiàn)突破,公司在多個領(lǐng)域?qū)崿F(xiàn)突破,在大模型領(lǐng)域,公司與國內(nèi)頭部的算法公司形成了緊密的技術(shù)和產(chǎn)品合作。在互聯(lián)網(wǎng)領(lǐng)域,公司產(chǎn)品在視覺、語音、自然語言等應(yīng)用場景中持續(xù)出貨,并在搜索、廣告推薦領(lǐng)域與頭部互聯(lián)網(wǎng)企業(yè)達(dá)成了產(chǎn)品深度適配及優(yōu)化,產(chǎn)品性能達(dá)到客戶需求,為后續(xù)業(yè)務(wù)落地奠定了堅實的基礎(chǔ)。在金融領(lǐng)域,公司與多家大型銀行進(jìn)行了語言大模型的測試,并正在推動金融領(lǐng)域的應(yīng)用落地。根據(jù)公司2023年報,目前交通銀行已選擇嵌入公司智能加速卡的GPU服務(wù)器為指定選型。在通信運營商行業(yè),寒武紀(jì)依托集采入圍,繼續(xù)賦能運營商集團及下屬省專公司常用的人工智能業(yè)務(wù)。寒武紀(jì)表示未來將持續(xù)助力三大運營商共同賦能更多業(yè)務(wù)場景的人工智能應(yīng)用落地,向“AI+”延伸拓展。圖表38:寒武紀(jì)收入拆分圖表39:寒武紀(jì)年度營收及凈利潤700600500400300200(百萬元)201920202021
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 系統(tǒng)容錯設(shè)計思路
- 世界名曲解讀課程
- 求職簡歷制作指導(dǎo)模板
- 二零二五版房產(chǎn)抵押購銷與房地產(chǎn)項目運營管理合同3篇
- 二零二五年度旅游產(chǎn)品居間服務(wù)合同2篇
- 二零二五年度生物降解材料研發(fā)合作協(xié)議3篇
- 二零二五版兼職研發(fā)人員技術(shù)成果保密合同3篇
- 雅安職業(yè)技術(shù)學(xué)院《Python語言》2023-2024學(xué)年第一學(xué)期期末試卷
- 二零二五版公司向個人提供藝術(shù)品購買借款合同3篇
- 二零二五年度房地產(chǎn)法律法規(guī)咨詢居間服務(wù)合同6篇
- 豪邁CutRite V9板材優(yōu)化軟件學(xué)習(xí)教材
- 臨床三基考試題庫(附答案)
- 醫(yī)學(xué)課件三叉神經(jīng)痛3
- 2024年全國職業(yè)院校技能大賽高職組(智能節(jié)水系統(tǒng)設(shè)計與安裝賽項)考試題庫-上(單選題)
- 鷓鴣山隧道瓦斯地段專項施工方案
- HG∕T 2058.1-2016 搪玻璃溫度計套
- 九宮數(shù)獨200題(附答案全)
- 泌尿科一科一品匯報課件
- 國家電網(wǎng)有限公司架空輸電線路帶電作業(yè)工作管理規(guī)定
- 白銅錫電鍍工藝
- 拜耳法氧化鋁生產(chǎn)工藝
評論
0/150
提交評論