AI算力行業(yè)分析_第1頁
AI算力行業(yè)分析_第2頁
AI算力行業(yè)分析_第3頁
AI算力行業(yè)分析_第4頁
AI算力行業(yè)分析_第5頁
已閱讀5頁,還剩27頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

AI算力行業(yè)分析1行業(yè)概況:GPU掌舵AI算力大時代,千億級市場再迎增量1.1GPU:提供大規(guī)模并行計(jì)算解決方案GPU,專注圖像處理。GPU(圖形處理器)最初是為了解決CPU在圖形處理領(lǐng)域性能不足的問題而誕生。CPU作為核心控制計(jì)算單元,高速緩沖存儲器(Cache)、控制單元(Control)在CPU硬件架構(gòu)設(shè)計(jì)中所占比例較大,主要為實(shí)現(xiàn)低延遲和處理單位內(nèi)核性能要求較高的工作而存在,而計(jì)算單元(ALU)所占比例較小,這使得CPU的大規(guī)模并行計(jì)算表現(xiàn)不佳。GPU架構(gòu)內(nèi)主要為計(jì)算單元,采用極簡的流水線進(jìn)行設(shè)計(jì),適合處理高度線程化、相對簡單的并行計(jì)算,在圖像渲染等涉及大量重復(fù)運(yùn)算的領(lǐng)域擁有更強(qiáng)運(yùn)算能力。GPGPU,脫胎于GPU,通用性提升。GPU計(jì)算單元既可運(yùn)用于圖形渲染領(lǐng)域,也能夠進(jìn)行通用計(jì)算。傳統(tǒng)GPU應(yīng)用局限于圖形渲染計(jì)算,而面對非圖像顯示領(lǐng)域并涉及大量并行運(yùn)算的領(lǐng)域,比如AI、加密解密、科學(xué)計(jì)算等領(lǐng)域則更需要通用計(jì)算能力。隨著GPU可編程性的不斷提高,去掉或減弱GPU的圖形顯示部分能力,全部投入通用計(jì)算的GPGPU(通用計(jì)算處理器)應(yīng)運(yùn)而生。CPU+GPU異構(gòu)計(jì)算解決多元化計(jì)算需求。使用不同的體系架構(gòu)的計(jì)算單元組成混合系統(tǒng),GPU作為協(xié)處理器負(fù)責(zé)并行加速計(jì)算,CPU作為控制中心的異構(gòu)計(jì)算面對復(fù)雜場景可實(shí)現(xiàn)更優(yōu)性能。1.2“AI+汽車+游戲”三駕馬車驅(qū)動行業(yè)發(fā)展大語言模型開啟AI元年。2022年11月,OpenAI推出基于大型語言模型GPT-3的AI對話機(jī)器人ChatGPT,其可以與用戶進(jìn)行富有邏輯和創(chuàng)造力的自然語言對話。2017年由Google提出的Transformer模型是大型語言模型發(fā)展的里程碑,Transformer是一種基于注意力(Attention)機(jī)制構(gòu)建的神經(jīng)網(wǎng)絡(luò)模型,克服了傳統(tǒng)的遞歸神經(jīng)網(wǎng)絡(luò)(RNN)和卷積神經(jīng)網(wǎng)絡(luò)(CNN)在自然語言處理時容易被無關(guān)信息干擾的缺點(diǎn),能夠更好的理解長序列和上下文的關(guān)系。國內(nèi)AI巨頭持續(xù)跟進(jìn),大模型產(chǎn)業(yè)迎發(fā)展契機(jī)。騰訊、阿里、百度以及華為等廠商都已布局大模型產(chǎn)業(yè),以“通用大模型+專精小模型”的層次化協(xié)同發(fā)展模式持續(xù)發(fā)力。百度是國內(nèi)最早進(jìn)行大模型研發(fā)的科技企業(yè)之一,立足文心NLP大模型推出“文心一言”對話機(jī)器人(ErnieBot)。百度在2019年3月率先發(fā)布中國首個正式開放的預(yù)訓(xùn)練模型文心大模型(Ernie)1.0,2021年12月,文心大模型3.0參數(shù)突破千億,升級為全球首個知識增強(qiáng)千億大模型,成為目前為止全球最大的中文單體模型,根據(jù)IDC發(fā)布的《2022中國大模型發(fā)展白皮書》,文心大模型在國內(nèi)市場格局中處于第一梯隊(duì),產(chǎn)品能力、生態(tài)能力、應(yīng)用能力均處于行業(yè)領(lǐng)先地位。2023年3月16日,百度正式發(fā)布“文心一言”對話機(jī)器人,擁有文學(xué)創(chuàng)作、商業(yè)文案創(chuàng)作、數(shù)理邏輯推理、中文理解和多模態(tài)生成五大能力,表現(xiàn)出對文本語義的深度理解。阿里達(dá)摩院推通義大模型,打造國內(nèi)首個AI統(tǒng)一底座。2022年9月2日,阿里達(dá)摩院在世界人工智能大會大規(guī)模預(yù)訓(xùn)練模型主題論壇上發(fā)布了最新的“通義”大模型,其打造了國內(nèi)首個AI統(tǒng)一底座,構(gòu)建了通用與專業(yè)模型協(xié)同的層次化人工智能體系,“統(tǒng)一學(xué)習(xí)范式”是通義大模型的最大亮點(diǎn),通過多模態(tài)統(tǒng)一模型M6-OFA完成了架構(gòu)、模塊與任務(wù)的三大統(tǒng)一,賦予模型不新增結(jié)構(gòu)即可處理包括圖像描述、文檔摘要、視覺定位等單模態(tài)和跨模態(tài)任務(wù)的能力?!澳K化設(shè)計(jì)”也是模型特點(diǎn)之一,其借鑒了人腦“能力模塊”結(jié)構(gòu),采用模塊化TransformerEncoder-Decoder結(jié)構(gòu),切分出基礎(chǔ)層、通用層、任務(wù)層、功能性四大模塊,每個模塊間相互解耦,分工合作。該設(shè)計(jì)便于對不同板塊進(jìn)行微調(diào)與繼續(xù)訓(xùn)練,以實(shí)現(xiàn)大模型的輕量化。阿里巴巴集團(tuán)董事會主席兼CEO、阿里云智能集團(tuán)CEO張勇在4月11日阿里云峰會上表示,阿里巴巴所有產(chǎn)品未來將接入“通義千問”大模型,進(jìn)行全面改造,未來有望重塑產(chǎn)品格局。華為盤古大模型基于其ModelArts平臺開發(fā),模型泛化有望多場景落地。ModelArts平臺為機(jī)器學(xué)習(xí)與深度學(xué)習(xí)提供海量數(shù)據(jù)預(yù)處理及交互式智能標(biāo)注、大規(guī)模分布式訓(xùn)練、自動化模型生成,及端-邊-云模型按需部署能力。盤古大模型基于ModelArts開發(fā),由NLP大模型、CV大模型、多模態(tài)大模型、科學(xué)計(jì)算大模型多個大模型構(gòu)成,通過模型泛化可在不同部署場景下抽取出不同大小的模型,動態(tài)范圍可根據(jù)需求調(diào)整,從特定的小場景到綜合性的復(fù)雜大場景均能覆蓋。目前,盤古大模型已經(jīng)在能源、零售、金融、工業(yè)、醫(yī)療、環(huán)境、物流等100多個行業(yè)場景完成驗(yàn)證。參數(shù)數(shù)量是決定模型表現(xiàn)的最重要因素。大語言模型的特點(diǎn)是擁有強(qiáng)大的自學(xué)習(xí)能力,隨著訓(xùn)練數(shù)據(jù)集和模型參數(shù)的增加,可以顯著提高模型的泛化能力和通用能力,模型規(guī)模的擴(kuò)大已經(jīng)成為了大語言模型的發(fā)展趨勢。以O(shè)penAI為例,其初代GPT模型參數(shù)量僅有15億,而基于GPT-3的chatGPT參數(shù)量已經(jīng)達(dá)到了1750億,目前主流AI廠商都進(jìn)入了“千億參數(shù)時代”。模型表現(xiàn)改善的同時,不斷增長的參數(shù)量對硬件算力提出了更高的要求。據(jù)OpenAI研究表明,最大的AI訓(xùn)練模型所需的算力每3-4個月翻倍,而2012-2018年間這個指標(biāo)增長超過300,000倍。GPU已成為AI加速芯片通用性解決方案,提供大語言模型推理訓(xùn)練所需的海量算力。為構(gòu)建有效的AI部署方案,CPU和加速芯片結(jié)合的異構(gòu)計(jì)算是經(jīng)典的計(jì)算框架,目前最常見的AI加速芯片主要為GPU、FPGA和ASIC,而GPU憑借其高性能、高靈活度特點(diǎn)成為AI加速方案首選。自動駕駛升級推動邊緣計(jì)算需求增加,GPU車載領(lǐng)域價值逐步顯現(xiàn)。在云計(jì)算架構(gòu)中,數(shù)據(jù)通過高速網(wǎng)絡(luò)傳輸至擁有大規(guī)模高性能計(jì)算設(shè)備的云計(jì)算中心進(jìn)行計(jì)算,而邊緣計(jì)算則將數(shù)據(jù)計(jì)算與儲存集中在靠近數(shù)據(jù)源頭的本地設(shè)備上,能夠更快的響應(yīng)計(jì)算需求。自動駕駛是邊緣計(jì)算架構(gòu)最前沿的應(yīng)用場景之一,目前大多數(shù)自動駕駛處于L2-L3(部分自動駕駛)級別,而要實(shí)現(xiàn)L4-L5級別高度自動駕駛,則需要人工智能短時、高頻地處理大量路況信息并自主完成大部分決策,因此需要GPU為汽車芯片提供更多計(jì)算能力來處理復(fù)雜數(shù)據(jù)。根據(jù)地平線對OEM廠商需求情況的分析,更高級別的自動駕駛意味著更高的算力需求,L2級別需要2TOPS、L3級別需要24TOPS、L4級需要320TOPS,L5級則需要4000+TOPS。GPU提供核心計(jì)算能力,是自動駕駛算力升級趨勢關(guān)鍵。目前,市面上主流的自動駕駛芯片采用NVIDIA推出的Orin系統(tǒng)級芯片(SoC),Orin集成NVIDIAAmpere架構(gòu)GPU和ArmHercules內(nèi)核CPU以及全新深度學(xué)習(xí)加速器(DLA)和計(jì)算機(jī)視覺加速器(PVA),可以提供每秒254TOPS的計(jì)算能力,幾乎是NVIDIA上一代系統(tǒng)級芯片Xavier性能的7倍。而根據(jù)英偉達(dá)公告,其預(yù)計(jì)在2024年發(fā)布下一代車載系統(tǒng)級芯片Thor,通過更新芯片內(nèi)含的GPU架構(gòu),Thor預(yù)計(jì)可以為自動駕駛汽車提供約2000TOPS的計(jì)算能力。游戲市場畫質(zhì)升級驅(qū)動GPU顯卡性能升級需求。GPU最初作為圖形處理器而誕生,在游戲顯卡市場伴隨玩家對游戲品質(zhì)的追求不斷提升,以光線追蹤算法(RayTracing)為代表的特殊渲染算法更多的應(yīng)用到游戲顯卡以提升顯示畫質(zhì)。2018年,NVIDIA聯(lián)合Microsoft共同發(fā)布了RTX(RayTracingX)標(biāo)準(zhǔn),NVIDIA也在其同年發(fā)布的Turing架構(gòu)GPU中引入了加速光線追蹤計(jì)算的RTCore,實(shí)現(xiàn)了光線追蹤的實(shí)時化。光追通過在場景中發(fā)射光線并跟蹤每個像素的光線路徑來模擬真實(shí)的光傳播,在提供更具真實(shí)感的畫面效果的同時對于計(jì)算復(fù)雜度以及計(jì)算量需求大幅增加,整體游戲市場畫質(zhì)升級將驅(qū)動GPU顯卡性能持續(xù)升級。1.3大語言模型助推GPU算力需求增長市場對3D圖像處理和AI深度學(xué)習(xí)計(jì)算等需求不斷增加,GPU市場保持高增速。據(jù)統(tǒng)計(jì)數(shù)據(jù),全球GPU市場預(yù)計(jì)將以CAGR25.9%持續(xù)增長,至2030年達(dá)到4000億美元規(guī)模。在GPU市場中,NVIDIA依靠在深度學(xué)習(xí)、人工智能等領(lǐng)域布局的先發(fā)優(yōu)勢并憑借其優(yōu)異產(chǎn)品性能以及成熟的生態(tài)平臺長期處于領(lǐng)導(dǎo)地位,根據(jù)JPR數(shù)據(jù),2022年Q1,NVIDIA的在獨(dú)顯市場份額約為78%。大語言模型有望拉動GPU需求增量,我們測算23/24/25年大模型有望貢獻(xiàn)GPU市場增量69.88/166.2/209.95億美元。具體假設(shè)測算如下:訓(xùn)練端,近年來各大廠商陸續(xù)發(fā)布大模型,我們假設(shè)23/24/25年新增5/10/15個大模型,根據(jù)OpenAI團(tuán)隊(duì)于2020發(fā)表的論文《ScalingLawsforNeuralLanguageModels》提出的計(jì)算方法,對于以Transformer為基礎(chǔ)的模型,假設(shè)模型參數(shù)量為N,單Token所需的訓(xùn)練算力約為6N。參考OpenAI團(tuán)隊(duì)2020同年發(fā)表的論文《LanguageModelsareFew-ShotLearners》,GPT-3模型參數(shù)量約為1750億個,Token數(shù)量約為3000億個,近年發(fā)布的模型均在千億級參數(shù)級別,因此我們中性假設(shè)23年新增大模型平均參數(shù)量約為2000億個,Token數(shù)量約為3000億個,兩者后續(xù)每年以20%增速增加。另外假設(shè)單次訓(xùn)練耗時約30天,算力效率為30%,后續(xù)伴隨算法精進(jìn),算力效率預(yù)計(jì)逐漸提升。以目前主流的訓(xùn)練端GPU英偉達(dá)A100測算,假設(shè)ASP為1萬美元,23/24/25年全球訓(xùn)練端GPU需求市場規(guī)模預(yù)計(jì)分別為0.74/2.00/4.07億美元。推理端,基于訓(xùn)練端的假設(shè),根據(jù)論文《ScalingLawsforNeuralLanguageModels》,單Token所需的推理算力開銷約為2N。則對于GPT-3模型,其單Token所需的推理算力開銷為3500億FLOPs-S。假設(shè)單次最大查詢Tokens數(shù)為1000(對應(yīng)漢字約300-500字,英文約750詞),每人每天查詢20次。在并發(fā)用戶數(shù)的估計(jì)上,我們參考國際主流社交媒體日活用戶數(shù)進(jìn)行測算,根據(jù)統(tǒng)計(jì),F(xiàn)acebook、WhatsApp、Instagram全球日活用戶數(shù)分別為16億、10億、6億,考慮到目前(類)GPT平臺仍處于發(fā)展早期,我們預(yù)計(jì)全球大模型日活用戶數(shù)在23/24/25分別為2/6/10億,按照所有用戶平均分布于24小時,并以10倍計(jì)算峰值并發(fā)數(shù)量。以目前英偉達(dá)用于推理端計(jì)算的A10測算,假設(shè)ASP為2800美元,23/24/25年全球推理端GPU需求市場規(guī)模預(yù)計(jì)分別為69.14/164.2/205.88億美元。2微架構(gòu)和平臺生態(tài)共筑競爭壁壘2.1微架構(gòu):統(tǒng)一計(jì)算單元解鎖通用計(jì)算時代GPU的微架構(gòu)是用以實(shí)現(xiàn)指令執(zhí)行的硬件電路結(jié)構(gòu)設(shè)計(jì)。以Nvidia第一個實(shí)現(xiàn)統(tǒng)一著色器模型的Tesla微架構(gòu)為例,從頂層HostInterface接受來自CPU的數(shù)據(jù),藉由Vertex(頂點(diǎn))、Pixel(片元)、Compute(計(jì)算著色器)分發(fā)給各TPC(TextureProcessingClusters紋理處理集群)進(jìn)行處理。流處理器、特殊函數(shù)計(jì)算單元構(gòu)成計(jì)算核心。在單個TPC中主要的運(yùn)算結(jié)構(gòu)為SM(StreamingMultiprocessor流式多處理器),其內(nèi)在蘊(yùn)含ICache(指令緩存)、CCache(常量緩存)以及核心的計(jì)算單元SP(StreamingProcessor流處理器)和SFU(SpecialFunctionUnit特殊函數(shù)計(jì)算單元),外加TextureUnit(紋理單元)。解耦計(jì)算單元,擁抱通用計(jì)算。由于圖形渲染流管線相對固定,Nvidia在Tesla架構(gòu)中將部分重要環(huán)節(jié)剝離并實(shí)現(xiàn)可編程,解耦出SM計(jì)算單元用于通用計(jì)算,即可實(shí)現(xiàn)根據(jù)具體任務(wù)需要分配相應(yīng)線程實(shí)現(xiàn)通用計(jì)算處理。計(jì)算核心、紋理單元增加,GPC功能更加完整,NvidiaFermi架構(gòu)奠定完整GPU計(jì)算架構(gòu)基礎(chǔ)。在Tesla之后,Nvidia第一個完整的GPU計(jì)算架構(gòu)Fermi通過制程微縮增加更多計(jì)算核心、紋理單元,并且通過增加PolyMorphEngine(多形體引擎)和RasterEngine(光柵引擎)使得原來TPC升級成為擁有更加完整功能的GPC(GraphicsProcessingClusters圖形處理器集群)。Fermi架構(gòu)共包含4個GPC,16個SM,512個CUDACore。2.2架構(gòu)迭代與制程升級是GPU性能的生命線不同的微架構(gòu)設(shè)計(jì)會對GPU的性能產(chǎn)生決定性的影響,因此保持架構(gòu)升級節(jié)奏以及制程升級速率是保證產(chǎn)品競爭力的關(guān)鍵。英偉達(dá)GPU架構(gòu)演進(jìn)從最初Fermi架構(gòu)到最新的Ampere架構(gòu)和Hopper架構(gòu)。每一階段都在性能和能效比方面得到提升,引入了新技術(shù),如CUDA、GPUBoost、RT核心和Tensor核心等,在圖形渲染、科學(xué)計(jì)算和深度學(xué)習(xí)等領(lǐng)域發(fā)揮重要作用。最新一代Hopper架構(gòu)在2022年3月推出,旨在加速AI模型訓(xùn)練,使用HopperTensorCore進(jìn)行FP8和FP16的混合精度計(jì)算,以大幅加速Transformer模型的AI計(jì)算。與上一代相比,Hopper還將TF32、FP64、FP16和INT8精度的每秒浮點(diǎn)運(yùn)算(FLOPS)提高了3倍。AMD作為全球第二大GPU廠商,亦通過持續(xù)的架構(gòu)演進(jìn)保持其市場領(lǐng)先地位。從2010年以來,AMD相繼推出:GCN架構(gòu)、RDNA架構(gòu)、RDNA2架構(gòu)、RDNA3架構(gòu)、CDNA架構(gòu)和CDNA2架構(gòu)。最新一代面向高性能計(jì)算和人工智能CDNA2架構(gòu)于架構(gòu)采用增強(qiáng)型MatrixCore技術(shù),支持更廣泛的數(shù)據(jù)類型和應(yīng)用,針對高性能計(jì)算工作負(fù)載帶來全速率雙精度和全新FP64矩陣運(yùn)算?;贑DNA2架構(gòu)的AMDInstinctMI250XGPUFP64雙精度運(yùn)算算力最高可達(dá)95.7TFLOPs。2.3成熟的平臺生態(tài)是GPU廠商的護(hù)城河成熟且完善的平臺生態(tài)是GPU廠商的護(hù)城河。相較于持續(xù)迭代的微架構(gòu)帶來的技術(shù)壁壘硬實(shí)力,成熟的軟件生態(tài)形成的強(qiáng)大用戶粘性將在長時間內(nèi)塑造GPU廠商的軟實(shí)力。以英偉達(dá)CUDA為例的軟硬件設(shè)計(jì)架構(gòu)提供了硬件的直接訪問接口,不必依賴圖形API映射,降低GPGPU開發(fā)者編譯難度,以此實(shí)現(xiàn)高粘性的開發(fā)者生態(tài)。目前主流的開發(fā)平臺還包括AMDROCm以及OpenCL。CUDA(ComputeUnifiedDeviceArchitectecture),是NVIDIA于2006年推出的通用并行計(jì)算架構(gòu),包含CUDA指令集架構(gòu)(ISA)和GPU內(nèi)部的并行計(jì)算引擎。該架構(gòu)允許開發(fā)者使用高級編程語言(例如C語言)利用GPU硬件的并行計(jì)算能力并對計(jì)算任務(wù)進(jìn)行分配和管理,CUDA提供了一種比CPU更有效的解決大規(guī)模數(shù)據(jù)計(jì)算問題的方案,在深度學(xué)習(xí)訓(xùn)練和推理領(lǐng)域被廣泛使用。CUDA除了是并行計(jì)算架構(gòu)外,還是CPU和GPU協(xié)調(diào)工作的通用語言。在CUDA編程模型中,主要有Host(主機(jī))和Device(設(shè)備)兩個概念,Host包含CPU和主機(jī)內(nèi)存,Device包含GPU和顯存,兩者之間通過PCIExpress總線進(jìn)行數(shù)據(jù)傳輸。在具體的CUDA實(shí)現(xiàn)中,程序通常劃分為兩部分,在主機(jī)上運(yùn)行的Host代碼和在設(shè)備上運(yùn)行的Device代碼。Host代碼負(fù)責(zé)程序整體的流程控制和數(shù)據(jù)交換,而Device代碼則負(fù)責(zé)執(zhí)行具體的計(jì)算任務(wù)。一個完整的CUDA程序是由一系列的設(shè)備端函數(shù)并行部分和主機(jī)端的串行處理部分共同組成的,主機(jī)和設(shè)備通過這種方式可以高效地協(xié)同工作,實(shí)現(xiàn)GPU的加速計(jì)算。CUDA在Host運(yùn)行的函數(shù)庫包括了開發(fā)庫(Libraries)、運(yùn)行時(Runtime)和驅(qū)動(Driver)三大部分。其中,Libraries提供了一些常見的數(shù)學(xué)和科學(xué)計(jì)算任務(wù)運(yùn)算庫,RuntimeAPI提供了便捷的應(yīng)用開發(fā)接口和運(yùn)行期組件,開發(fā)者可以通過調(diào)用API自動管理GPU資源,而DriverAPI提供了一系列C函數(shù)庫,能更底層、更高效地控制GPU資源,但相應(yīng)的開發(fā)者需要手動管理模塊編譯等復(fù)雜任務(wù)。CUDA在Device上執(zhí)行的函數(shù)為內(nèi)核函數(shù)(Kernel)通常用于并行計(jì)算和數(shù)據(jù)處理。在Kernel中,并行部分由K個不同的CUDA線程并行執(zhí)行K次,而有別于普通的C/C++函數(shù)只有1次。每一個CUDA內(nèi)核都以一個聲明指定器開始,程序員通過使用內(nèi)置變量__global__為每個線程提供一個唯一的全局ID。一組線程被稱為CUDA塊(block)。CUDA塊被分組為一個網(wǎng)格(grid),一個內(nèi)核以線程塊的網(wǎng)格形式執(zhí)行。每個CUDA塊由一個流式多處理器(SM)執(zhí)行,不能遷移到GPU中的其他SM,一個SM可以運(yùn)行多個并發(fā)的CUDA塊,取決于CUDA塊所需的資源,每個內(nèi)核在一個設(shè)備上執(zhí)行,CUDA支持在一個設(shè)備上同時運(yùn)行多個內(nèi)核。CUDA的存儲結(jié)構(gòu)中,全局內(nèi)存是所有線程都可以訪問的存儲區(qū)域,共享內(nèi)存是位于線程塊內(nèi)部,多個線程可以共同訪問的存儲空間,寄存器是每個線程都有一組用于保存局部變量和中間值的寄存器,而局部內(nèi)存則是當(dāng)存儲需求超過寄存器和共享內(nèi)存容量時,分配給當(dāng)前線程的存儲空間。這些存儲層次結(jié)構(gòu)的訪問速度和容量各不相同,需要在應(yīng)用時進(jìn)行合理使用和管理。GPU的內(nèi)存層次結(jié)構(gòu)與CUDA的存儲結(jié)構(gòu)密切相關(guān),比如,在一個SM上運(yùn)行的多個線程塊將共享該SM的寄存器和共享內(nèi)存資源,同時也訪問全局內(nèi)存和局部內(nèi)存資源。這些不同層級的存儲在GPU中形成了逐層遞進(jìn)的內(nèi)存架構(gòu),使得數(shù)據(jù)在計(jì)算過程中能夠以最快的速度流動到被需要的位置,從而實(shí)現(xiàn)更高效、更快速的計(jì)算任務(wù)執(zhí)行。豐富而成熟的軟件生態(tài)是CUDA被廣泛使用的關(guān)鍵原因。(1)編程語言:CUDA從最初的1.0版本僅支持C語言編程,到現(xiàn)在的CUDA12.0支持C、C++、Fortran、Python等多種編程語言。此外,NVIDIA還支持了如PyCUDA、ltimeshHybridizer、OpenACC等眾多第三方工具鏈,不斷提升開發(fā)者的使用體驗(yàn)。(2)庫:NVIDIA在CUDA平臺上提供了名為CUDA-X的集合層,開發(fā)人員可以通過CUDA-X快速部署如cuBLA、NPP、NCCL、cuDNN、TensorRT、OpenCV等多領(lǐng)域常用庫。(3)其他:NVIDIA還為CUDA開發(fā)人員提供了容器部署流程簡化以及集群環(huán)境擴(kuò)展應(yīng)用程序的工具,讓應(yīng)用程序更易加速,使得CUDA技術(shù)能夠適用于更廣泛的領(lǐng)域。ROCm(RadeonOpenComputePlatform)是AMD基于開源項(xiàng)目的GPU計(jì)算生態(tài)系統(tǒng),類似于NVIDIA的CUDA。ROCm支持多種編程語言、編譯器、庫和工具,以加速科學(xué)計(jì)算、人工智能和機(jī)器學(xué)習(xí)等領(lǐng)域的應(yīng)用。ROCm還支持多種加速器廠商和架構(gòu),提供了開放的可移植性和互操作性。ROCm支持HIP(類CUDA)和OpenCL兩種GPU編程模型,可實(shí)現(xiàn)CUDA到ROCm的遷移。最新的ROCm5.0支持AMDInfinityHub上的人工智能框架容器,包括TensorFlow1.x、PyTorch1.8、MXNet等,同時改進(jìn)了ROCm庫和工具的性能和穩(wěn)定性,包括MIOpen、MIVisionX、rocBLAS、rocFFT、rocRAND等。OpenCL(OpenComputeLanguage),是面向異構(gòu)系統(tǒng)通用并行編程、可以在多個平臺和設(shè)備上運(yùn)行的開放標(biāo)準(zhǔn)。OpenCL支持多種編程語言和環(huán)境,并提供了豐富的工具來幫助開發(fā)和調(diào)試,可以同時利用CPU、GPU、DSP等不同類型的加速器來執(zhí)行任務(wù),并支持?jǐn)?shù)據(jù)傳輸和同步。此外,OpenCL支持細(xì)粒度和粗粒度并行編程模型,可根據(jù)應(yīng)用需求選擇合適模型提高性能和效率。而OpenCL可移植性有限,不同平臺和設(shè)備的功能支持和性能表現(xiàn)存在一定差異,與CUDA相比缺少廣泛的社區(qū)支持和成熟的生態(tài)圈。3國內(nèi)外發(fā)展現(xiàn)狀:海外龍頭領(lǐng)跑,國產(chǎn)持續(xù)發(fā)力3.1海外龍頭:深耕多年,技術(shù)引領(lǐng)行業(yè)3.1.1英偉達(dá)英偉達(dá)(NVIDIA)加速計(jì)算的先驅(qū)者,創(chuàng)立于1993年,公司于1999年發(fā)明的GPU推動了PC游戲市場的增長,重新定義了現(xiàn)代計(jì)算機(jī)顯卡,并對并行計(jì)算進(jìn)行了革新。目前,英偉達(dá)的產(chǎn)品應(yīng)用領(lǐng)域包括數(shù)據(jù)中心和云計(jì)算、游戲和創(chuàng)作、高性能計(jì)算、自動駕駛汽車、計(jì)算機(jī)開發(fā)和邊緣計(jì)算等,已逐漸轉(zhuǎn)型為計(jì)算機(jī)平臺公司。長久以來,英偉達(dá)是加速計(jì)算的先驅(qū)者。英偉達(dá)GeForceRTX?40系列GPU為游戲玩家和創(chuàng)作者提供了高性能游戲體驗(yàn)。這一系列GPU由更高效的NVIDIAAdaLovelace架構(gòu)提供動力支持,可在性能和AI驅(qū)動圖形領(lǐng)域?qū)崿F(xiàn)質(zhì)的飛躍。得益于光線追蹤和更高的FPS游戲分辨率,玩家和創(chuàng)作者能夠以更低的延遲體驗(yàn)栩栩如生的虛擬世界,探索革新的創(chuàng)作方式和遠(yuǎn)勝以往的工作流程加速技術(shù)。NVIDIAA100TensorCoreGPU可針對AI、數(shù)據(jù)分析和HPC應(yīng)用場景,在不同規(guī)模下實(shí)現(xiàn)出色的加速,有效助力更高性能的彈性數(shù)據(jù)中心。A100采用NVIDIAAmpere架構(gòu),是NVIDIA數(shù)據(jù)中心平臺的引擎,其性能比上一代產(chǎn)品提升高達(dá)20倍,并可劃分為七個GPU實(shí)例,以根據(jù)變化的需求進(jìn)行動態(tài)調(diào)整。A100提供超快速的顯存帶寬(每秒超過2萬億字節(jié)[TB/s]),可處理超大型模型和數(shù)據(jù)集。NVIDIAH100TensorCoreGPU作為A100的迭代產(chǎn)品,可進(jìn)一步在每個工作負(fù)載中實(shí)現(xiàn)出色性能、可擴(kuò)展性和安全性。H100使用NVIDIA?NVLink?Switch系統(tǒng),可連接多達(dá)256個H100來加速百億億級(Exascale)工作負(fù)載,另外可通過專用的Transformer引擎來處理萬億參數(shù)語言模型。與A100相比,H100的綜合技術(shù)創(chuàng)新可以將大型語言模型的速度提高30倍,從而提供業(yè)界領(lǐng)先的對話式AI。受行業(yè)周期下行影響,公司凈利潤大幅下降。公司2022年實(shí)現(xiàn)營業(yè)總收入269.74億美元,與去年基本持平,凈利潤為43.68億美元,同比大幅下降55.21%,主要緣于游戲顯卡需求疲軟,資產(chǎn)減值損失較大。3.1.2AMDAMD(超微半導(dǎo)體公司),自1969年創(chuàng)立以來,專注于處理器及相關(guān)技術(shù)設(shè)計(jì)研發(fā)。AMD2009年將自有晶圓廠拆分為現(xiàn)今的格芯后,從IDM廠商轉(zhuǎn)型為Fabless公司,目前AMD主要產(chǎn)品為CPU(包括嵌入式平臺)、GPU、主板芯片組以及2022年收購賽靈思而擴(kuò)充的FPGA業(yè)務(wù)。AMD是目前除了英特爾以外,最大的x86架構(gòu)處理器供應(yīng)商,自2006年收購ATI后,成為同時擁有CPU和GPU技術(shù)的半導(dǎo)體公司。AMD最新于2022年推出AMDRadeonRX7000系列顯卡,采用AMD最新RDNA3計(jì)算單元,具有光線追蹤和人工智能加速功能。7900系列創(chuàng)新性地采用了小芯片技術(shù)的游戲GPU,其AMDRadianceDisplay引擎和DisplayPortTM2.1的強(qiáng)強(qiáng)聯(lián)合可以帶來12位HDR和REC2020色彩空間的完全覆蓋,最高可達(dá)8K165Hz。AMD于2016年推出Instinct計(jì)算加速器,旨在加速深度學(xué)習(xí)、人工神經(jīng)網(wǎng)絡(luò)和高性能計(jì)算GPGPU的應(yīng)用。AMDInstinct系列加速器采用創(chuàng)新性的AMDCDNA架構(gòu)、AMDInfinityFabric技術(shù)以及先進(jìn)的封裝技術(shù)。對于高性能計(jì)算工作負(fù)載,AMDInstinctMI250X的GPU雙精度(FP64)結(jié)合全新FP64MatrixCore技術(shù)更可實(shí)現(xiàn)最高達(dá)95.7TFLOPs峰值理論性能。數(shù)據(jù)中心業(yè)務(wù)快速增長,推動公司整體營收提升。公司2022年實(shí)現(xiàn)營業(yè)總收入236.01億美元,同比上升43.61%,凈利潤為13.2億美元,同比大幅下降58.25%,主要緣于收購賽靈思后,無形資產(chǎn)攤銷數(shù)額較大致使凈利潤下滑。3.1.3高通高通(Qualcomm)創(chuàng)立于1985年,是全球領(lǐng)先的無線科技創(chuàng)新公司。高通變革了世界連接、計(jì)算和溝通的方式,高通的基礎(chǔ)科技賦能整體移動生態(tài)系統(tǒng),開啟了移動互聯(lián)時代。2009年,高通收購了AMD的移動GPUImageon系列,開始發(fā)展移動端自研GPU業(yè)務(wù)。高通AdrenoGPU(原Imageon)為采用驍龍?zhí)幚砥鞯囊苿咏K端提供游戲機(jī)品質(zhì)的3D圖形處理能力,為游戲、用戶界面和高性能計(jì)算任務(wù)提供更快的圖形處理。作為驍龍異構(gòu)計(jì)算的關(guān)鍵組件,AdrenoGPU為無縫配合驍龍CPU和DSP而設(shè)計(jì),可以幫助支持處理密集型GPGPU計(jì)算任務(wù)。2022年底,高通已發(fā)布全新4nm級GPUAdreno740。營業(yè)收入和盈利能力均穩(wěn)定增長。公司2022年度實(shí)現(xiàn)營業(yè)收入442億美元,同比上升31.68%,凈利潤為129.36億美元,同比上升43.05%。3.1.4ImaginationImagination成立于1985年,移動端GPU設(shè)計(jì)領(lǐng)域的領(lǐng)軍企業(yè)。Imagination業(yè)務(wù)主要包括設(shè)計(jì)PowerVR移動圖形處理器,網(wǎng)絡(luò)路由器(基于MIPSCPU)和其他純消費(fèi)電子部門。此外還提供無線電基帶處理、網(wǎng)絡(luò)、數(shù)字信號處理器、視頻和音頻硬件、IP語音軟件、云計(jì)算以及芯片和系統(tǒng)設(shè)計(jì)服務(wù)。2020年10月,Imagination發(fā)布IMGB系列高性能GPUIP。此款多核架構(gòu)GPUIP包括BXE、BXM、BXT、BXS4個系列,分別代表入門級、中端、高端以及汽車安全。其中BXT主要應(yīng)用于移動設(shè)備、數(shù)據(jù)中心,浮點(diǎn)算力6TFlops,每秒可處理1920億像素,AI算力達(dá)24Tops。3.1.5ARMARM(安謀控股公司),成立于1990年,是全球龍頭半導(dǎo)體IP供應(yīng)商。公司主要產(chǎn)品有CPU、GPU和NPU等處理器IP。目前,總共有超過100家公司與ARM公司簽訂了技術(shù)使用許可協(xié)議,其中包括Intel、IBM、LG、NEC、SONY等。ARM最新GPU產(chǎn)品Mali-G7系列中Immortails-G715GPU采用10個及以上內(nèi)核,支持硬件級光線追蹤技術(shù)。Mali-G715旨在通過一系列新的圖形功能和升級(包括可變速率著色)來滿足高端移動市場的需求,適用于移動設(shè)備上的復(fù)雜AAA游戲。3.2兼容主流生態(tài)對標(biāo)行業(yè)龍頭,國內(nèi)廠商持續(xù)發(fā)力國產(chǎn)GPU持續(xù)發(fā)力,對標(biāo)行業(yè)龍頭縮小差距。GPU有兩條主要的發(fā)展路線:分別為傳統(tǒng)的2D/3D圖形渲染GPU和專注高性能計(jì)算的GPGPU,近年來,國產(chǎn)GPU廠商在圖形渲染GPU和高性能計(jì)算GPGPU領(lǐng)域上均推出了較為成熟的產(chǎn)品,在性能上不斷追趕行業(yè)主流產(chǎn)品,在特定領(lǐng)域達(dá)到業(yè)界一流水平。生態(tài)方面國產(chǎn)廠商大多兼容英偉達(dá)CUDA,融入大生態(tài)進(jìn)而實(shí)現(xiàn)客戶端導(dǎo)入。3.3高端芯片進(jìn)口遭限制,國產(chǎn)廠商替代迎契機(jī)美國對中國高端芯片出口進(jìn)行管制。據(jù)英偉達(dá)于2022年8月31日發(fā)布的公告,美國政府通知公司在未來將A100和即將推出的H100等人工智能芯片出口到中國大陸、中國香港和俄羅斯時須獲得許可證。2023年3月3日,美國商務(wù)部以“國家安全”和“外交政策利益”為由,將浪潮集團(tuán)等28個中國實(shí)體列入所謂的“實(shí)體清單”,限制其從美國進(jìn)口產(chǎn)品和技術(shù)。未來在人工智能芯片,特別是GPU上對中國的制裁將對中國AI產(chǎn)業(yè)提出極大的挑戰(zhàn)。挑戰(zhàn)伴隨著機(jī)遇,高端GPU的限售給予了國產(chǎn)廠商替代空間。在國產(chǎn)替代的背景下,政策支持推動國產(chǎn)GPU行業(yè)高速發(fā)展。2020年以來,國家及各省市陸續(xù)出臺了若干政策,通過稅收減免、財(cái)政補(bǔ)貼等方式支持半導(dǎo)體與集成電路產(chǎn)業(yè)發(fā)展。4重點(diǎn)公司分析4.1寒武紀(jì)寒武紀(jì)自2016年成立以來一直專注于人工智能芯片產(chǎn)品研發(fā)與技術(shù)創(chuàng)新,致力于打造人工智能領(lǐng)域的核心處理器芯片。公司主要提供云端智能芯片及加速卡、訓(xùn)練整機(jī)、邊緣智能芯片及加速卡、終端智能處理器IP及配套基礎(chǔ)軟件開發(fā)平臺,產(chǎn)品廣泛應(yīng)用于消費(fèi)電子、數(shù)據(jù)中心、云計(jì)算等諸多場景。2022年3月21日,公司正式發(fā)布新款訓(xùn)練加速卡MLU370-X8,搭載雙芯片四芯粒思元370,集成寒武紀(jì)MLU-Link?多芯互聯(lián)技術(shù),在業(yè)界廣泛應(yīng)用于YOLOv3、Transformer等訓(xùn)練任務(wù)中。MLU370-S4、MLU370-X4和MLU370-X均基于思元370智能芯片的技術(shù),通過Chiplet技術(shù)靈活組合產(chǎn)品的特性,可滿足更多市場需求。憑借其優(yōu)異競爭力,公司已就思元370系列與部分頭部互聯(lián)網(wǎng)、銀行、服務(wù)器廠商實(shí)現(xiàn)了深度合作和互利共贏。公司克服宏觀經(jīng)濟(jì)、疫情反復(fù)等因素影響,在2022年實(shí)現(xiàn)度營業(yè)總收入為7.2億元,比上年同期增長1.11%。歸屬于母公司股東的凈利潤為-11.66億元,較上年同期虧損增加41.4%,主要系研發(fā)費(fèi)用、資產(chǎn)減值損失、信用減值損失增長所致。4.2海光信息海光信息主要從事高端處理器、加速器等計(jì)算芯片產(chǎn)品和系統(tǒng)的研發(fā)、設(shè)計(jì)和銷售。公司的產(chǎn)品包括海光通用處理器(CPU)和海光協(xié)處理器(DCU),具有成熟而豐富的應(yīng)用生態(tài)環(huán)境,內(nèi)置專用安全硬件,可滿足互聯(lián)網(wǎng)、金融、能源等行業(yè)的廣泛應(yīng)用需求。公司DCU系列產(chǎn)品海光8100采用先進(jìn)的FinFET工藝,以GPGPU架構(gòu)為基礎(chǔ),兼容通用的“類CUDA”環(huán)境以及國際主流商業(yè)計(jì)算軟件和人工智能軟件,可充分挖掘應(yīng)用的并行性,發(fā)揮其大規(guī)模并行計(jì)算的能力,快速開發(fā)高能效的應(yīng)用程序,在典型應(yīng)用場景下性能指標(biāo)可以達(dá)到國際同類型高端產(chǎn)品的同期水平。公司營業(yè)收入增勢可觀,2020-2022年公司分別實(shí)現(xiàn)營收10.22億元、23.1億元、51.2億元,同比增長保持在120%以上。歸母凈利潤于2021年扭虧為盈后持續(xù)增長,2022年達(dá)到8.02億元,同比上升145.3%。4.3景嘉微景嘉微致力于信息探測、處理與傳遞領(lǐng)域的技術(shù)和綜合應(yīng)用。公司產(chǎn)品涵蓋集成電路設(shè)計(jì)、小型雷達(dá)系統(tǒng)、無線通信系統(tǒng)、電磁頻譜應(yīng)用系統(tǒng)等方向,廣泛應(yīng)用于有高可靠性要求的航空、航天、航海、車載等專業(yè)領(lǐng)域。公司先后自研制成功JM5系列、JM7系列、JM9系列高性能GPU芯片,其中最新的JM9系列兩款圖形處理芯片皆已完成階段性測試工作,并進(jìn)入放量階段。JM9系列芯片應(yīng)用領(lǐng)域廣泛,可滿足個性化桌面辦公、網(wǎng)絡(luò)安全保護(hù)、軌交服務(wù)終端、多屏高清顯示輸出和人機(jī)交互等多樣化需求。公司營收和歸母凈利潤持續(xù)上升,2021年全年實(shí)現(xiàn)營收10.93億,同比增長率達(dá)67.1%,實(shí)現(xiàn)歸母凈利潤2.93億元,同比上升40.9%。4.4芯原股份芯原依托自主半導(dǎo)體IP,為客戶提供平臺化、全方位、一站式芯片定制服務(wù)和半導(dǎo)體IP授權(quán)服務(wù),擁有獨(dú)特的“芯片設(shè)計(jì)平臺即服務(wù)”經(jīng)營模式。公司可提供高清視頻、物聯(lián)網(wǎng)連接、數(shù)據(jù)中心等多種一站式芯片定制解決方案,擁有自主可控的圖形處理器IP、神經(jīng)網(wǎng)絡(luò)處理器IP等五類處理器IP及1400多個數(shù)?;旌螴P和射頻IP,可快速打造出從定義到測試封裝完成的半導(dǎo)體產(chǎn)品,業(yè)務(wù)范圍覆蓋消費(fèi)電子、汽車電子、物聯(lián)網(wǎng)等多種應(yīng)用領(lǐng)域。據(jù)2021年的統(tǒng)計(jì),芯原的半導(dǎo)體IP銷售收入排中國大陸第二,全球第七,其中公司的圖形處理器IP排名全球前三。公司的GPUIP已被眾多主流和高端的汽車品牌所采用,同時,公司基于約20年VivanteGPU的研發(fā)經(jīng)驗(yàn),所推出的Vivante3DGPGPUIP還可提供從低功耗嵌入式設(shè)備到高性能服務(wù)器的計(jì)算能力,滿足廣泛的人工智能計(jì)算需求。公司營收持續(xù)增長,歸母凈利潤保持高增速。2020-2022年公司營業(yè)收入分別為15.06億元、21.39億元、26.79億元,歸母凈利潤在2021年扭虧為盈后持續(xù)增長,于2022年達(dá)0.74億元,同比上升469.2%。4.5龍芯中科龍芯中科主要產(chǎn)品與服務(wù)包括處理器及配套芯片產(chǎn)品與基礎(chǔ)軟硬件解決方案業(yè)務(wù)。公司基于信息系統(tǒng)和工控系統(tǒng)兩條主線,秉承獨(dú)立自主和開放合作的運(yùn)營模式,面向網(wǎng)絡(luò)安全、工控及物聯(lián)網(wǎng)等領(lǐng)域與合作伙伴保持全面的市場合作,產(chǎn)品廣泛應(yīng)用于電子政務(wù)、能源、交通、金融等行業(yè)領(lǐng)域,相關(guān)軟硬件開發(fā)人員數(shù)萬人,已經(jīng)形成強(qiáng)大的產(chǎn)業(yè)鏈與生態(tài)支撐能力。在通用圖形處理器及系統(tǒng)研發(fā)方面,龍芯中科于2017年開始研發(fā)GPU,已掌握GPU研發(fā)的關(guān)鍵技術(shù),第一款GPUIP核已經(jīng)在龍芯7A2000橋片樣片中流片成功。受周期下行和疫情反復(fù)影響,公司營收增速持續(xù)下降,2022年全年實(shí)現(xiàn)營收7.39億元,同比下跌38.5%,歸母凈利潤由2021年的2.37億下跌至0.51億元,同比下跌78.5%。4.6壁仞科技壁仞科技創(chuàng)立于2019年,在GPU、DSA(專用加速器)和計(jì)算機(jī)體系結(jié)構(gòu)等領(lǐng)域具有深厚的技術(shù)積累。公司致力于開發(fā)原創(chuàng)性的通用計(jì)算體系,建立高效的軟硬件平臺,同時在智能計(jì)算領(lǐng)域提供一體化的解決方案。2022年8月公司發(fā)布的通用GPU芯片BR100創(chuàng)下全球通用GPU算力記錄,峰值算力達(dá)到國際廠商在售旗艦產(chǎn)品3倍以上。BR100率先采用Chiplet技術(shù)、新一代主機(jī)接口PCIe5.0、支持CXL互連協(xié)議,確立了公司在國內(nèi)廠商間的技術(shù)領(lǐng)先地位。公司堅(jiān)持自主研發(fā),同步推出原創(chuàng)架構(gòu)“壁立仞”和自研BIRENSUPA軟件平臺,實(shí)現(xiàn)了BR100性能的大幅提升。以壁仞科技于2022年8月發(fā)布的首款GPGPUBR100為例,該芯片采用Chiplet技術(shù),16位浮點(diǎn)算力達(dá)到1000T以上、8位定點(diǎn)算力達(dá)到2000T以上,單芯片峰值算力達(dá)到PFLOPS級別,是國際廠商在售旗艦產(chǎn)品的3倍以上,創(chuàng)造了

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論