重視AI芯片配套的軟件生態(tài)_第1頁(yè)
重視AI芯片配套的軟件生態(tài)_第2頁(yè)
重視AI芯片配套的軟件生態(tài)_第3頁(yè)
重視AI芯片配套的軟件生態(tài)_第4頁(yè)
重視AI芯片配套的軟件生態(tài)_第5頁(yè)
已閱讀5頁(yè),還剩13頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

CUDAGPU在當(dāng)下仍是AIAI大模型的訓(xùn)練過(guò)程對(duì)算力的需求極為龐大。大模型通常擁有數(shù)以億計(jì)的參數(shù),需要在海量數(shù)據(jù)集上進(jìn)行訓(xùn)練。例如,GPT-3這樣的模型3640PPtfops-y,這意味著如果以每3640表明,隨著模型規(guī)模的擴(kuò)大,其性能和能力也會(huì)相應(yīng)提升,但同時(shí)20123-4201230圖1:AI大模型訓(xùn)練任務(wù)中對(duì)算力的需求爆發(fā)式增長(zhǎng)數(shù)據(jù)來(lái)源:OpenAI、AI在人工智能的出爆發(fā)性的增長(zhǎng)趨勢(shì),大家都在尋找更高效、更強(qiáng)大的算力芯片。全球?qū)W術(shù)與產(chǎn)業(yè)力量也正傾力投入于高性能、專用化算力芯片技術(shù)的探索與創(chuàng)新之中。圖2:全球廠商購(gòu)入大量英偉達(dá)A100GPU用于AI大模型訓(xùn)練數(shù)據(jù)來(lái)源:stateof.aiAI需要并行計(jì)算能力更強(qiáng)的芯片,而CPU無(wú)法滿足這一需求。AI大模型的計(jì)算,尤其是機(jī)器學(xué)習(xí)和深度學(xué)習(xí)的部分,往往涉及大量的數(shù)據(jù)處CPU4個(gè)、816(arithmetic應(yīng)用來(lái)說(shuō),CPU的計(jì)算能力就顯得不足了。CPU的局限性促使了專門(mén)針對(duì)AI計(jì)算需求的專用芯片的發(fā)展。其中ASIC(Application-SpecificIntegratedCircuit,專用集成電路)提供了針的設(shè)計(jì)完全針對(duì)特定的應(yīng)用,沒(méi)有多余的功能,這使得它在功耗和計(jì)算速領(lǐng)域,ASIC算法和任務(wù)進(jìn)行硬件優(yōu)化來(lái)實(shí)現(xiàn)計(jì)算效率的提升。例如,深度學(xué)習(xí)中的卷積神經(jīng)網(wǎng)絡(luò)需要大量的矩陣和向量運(yùn)算??梢詢?nèi)置專門(mén)設(shè)計(jì)的硬件單元,如卷積核,來(lái)直接在硬件級(jí)別執(zhí)行這些運(yùn)算,而不是依賴于通用處理器的軟件實(shí)現(xiàn)。ASIC雖然效率高但是通用性差,技術(shù)路徑?jīng)]定下來(lái)之前存在局限性。盡管ASIC在特定應(yīng)用中表現(xiàn)出色,但ASIC的開(kāi)發(fā)成本高,且一旦設(shè)計(jì)完成,就無(wú)法輕易修改,這限制了它的靈活性。在AI技術(shù)快速發(fā)展的今天,技術(shù)路徑和算法不斷演進(jìn),在處理新興的、尚未完全定義的計(jì)算模型時(shí),ASIC的這種固定性就成為了一個(gè)缺點(diǎn)。成為GPU最初設(shè)計(jì)用于處理復(fù)雜的圖形任務(wù),如游戲和圖形渲染,這些任務(wù)要求快速且高效地處PULU核心,雖然其單個(gè)處理能力相比CPUGPUALUGPU在執(zhí)行大規(guī)模矩陣數(shù)據(jù)處理任務(wù)時(shí)能夠擁有更好GPU研究和應(yīng)用,雖然在特定任務(wù)上的效率可GPU的可編程管線結(jié)構(gòu)允許開(kāi)發(fā)GPU無(wú)疑是一個(gè)更實(shí)用、更靈活的選擇。圖3:GPU并行架構(gòu)比CPU更適合AI訓(xùn)練數(shù)據(jù)來(lái)源:英偉達(dá)官網(wǎng)表1:ASIC專業(yè)性更強(qiáng),GPU通用性更強(qiáng)類別ASICGPU特點(diǎn)定制化設(shè)計(jì)性能穩(wěn)定功耗控制性能好性能高功耗高通用性好代表公司

谷歌(TPU)寒武紀(jì)地平線

英偉達(dá)AMD數(shù)據(jù)來(lái)源:清華大學(xué),。CUDAGPUCUDA是幫助更好釋放通用計(jì)算性能的工具包。ComputeDeviceGPU的強(qiáng)大計(jì)算能力,不僅限就像是CCPUGPU上運(yùn)行。的出現(xiàn)開(kāi)啟了GPUGPU不再只是圖形處理的專用設(shè)備,而是成為了一種強(qiáng)大的通用計(jì)算資源。表2:CUDA全方位釋放GPU潛能CUDA架構(gòu) 具體作用CUDA允許開(kāi)發(fā)者編寫(xiě)能夠同時(shí)在GPUCUDA并行計(jì)算模型編譯系統(tǒng)優(yōu)化內(nèi)存管理

分解和加速。CUDA編譯器將開(kāi)發(fā)者編寫(xiě)的高級(jí)CUDA代碼轉(zhuǎn)換成GPU能夠執(zhí)行的低級(jí)指令。這個(gè)過(guò)程涉及到對(duì)代碼GPU的性能。GPU的內(nèi)存管理對(duì)于性能至關(guān)重要。CUDA提供了多種內(nèi)存類型,包括全局內(nèi)存、共享內(nèi)存、常量?jī)?nèi)少內(nèi)存訪問(wèn)延遲,提高數(shù)據(jù)傳輸效率。數(shù)據(jù)來(lái)源:英偉達(dá)官網(wǎng),。CUDA逐層拆解任務(wù)顯著提升GPU并行處理效率。CUDA架構(gòu)的并行計(jì)算模型將復(fù)雜的計(jì)算任務(wù)分解為多個(gè)簡(jiǎn)單的子任務(wù),通過(guò)線程層次結(jié)構(gòu)實(shí)現(xiàn),其中線程被組織成線程塊,線程塊又組成網(wǎng)格。每個(gè)線程塊內(nèi)的線程可以高效地共享數(shù)據(jù)和同步操作,而線程塊之間的通信則通過(guò)全局內(nèi)存實(shí)現(xiàn)。這種層次化的線程組織方式使得開(kāi)發(fā)者能夠有效地利用GPU的并行處理能力,實(shí)現(xiàn)大規(guī)模并行計(jì)算。圖4:CUDA內(nèi)部結(jié)構(gòu)可以逐層拆解任務(wù),并行處理。數(shù)據(jù)來(lái)源:英偉達(dá)官網(wǎng)框架通過(guò)精確控制線程和數(shù)據(jù)的索引計(jì)算,顯著提升了內(nèi)存訪問(wèn)的效率。每個(gè)線程都有IDID,這兩個(gè)標(biāo)識(shí)符共同決定CUDAwarp個(gè)線程,它們能夠連續(xù)訪問(wèn)內(nèi)存,通過(guò)(MemoryCoalescing)64warp,但由于warp,而CUDAwarp同時(shí)運(yùn)行時(shí),每個(gè)線程處理的數(shù)GPU內(nèi)存系統(tǒng)的帶寬,實(shí)現(xiàn)了內(nèi)存系統(tǒng)的高效利用。缺少AU借助DA的這一框架,軟件應(yīng)用的計(jì)算密集型部分以并行方式在數(shù)千個(gè)GPU核心上運(yùn)行,GPUCUDA對(duì)內(nèi)存訪問(wèn)92%DAPU13倍的差距。圖5:CUDA通過(guò)warp連續(xù)訪問(wèn)內(nèi)存,實(shí)現(xiàn)內(nèi)存系統(tǒng)高效利用數(shù)據(jù)來(lái)源:英偉達(dá)官網(wǎng)CUDA擁有龐大的軟件生態(tài),使用戶得以充分利用的并行計(jì)算能CUDACUDACUDA兼容編程提供了基礎(chǔ)環(huán)境。CUDA庫(kù),如、cuFFTcuDNN等,針對(duì)特定計(jì)算任務(wù)進(jìn)行了優(yōu)TensorFlowPyTorch通過(guò)APUCDA還支持多種編程語(yǔ)言,并通過(guò)廣泛的第三方庫(kù)和開(kāi)發(fā)者社區(qū)資源,如教程表3:CUDA擁有龐大的軟件生態(tài)系統(tǒng)

CUDA生態(tài)系統(tǒng)構(gòu)成CUDAToolkitCUDARuntimeAPICUDADriverAPICUDALibraries深度學(xué)習(xí)框架集成第三方庫(kù)支持編程模型擴(kuò)展教育與社區(qū)資源

CUDAToolkit(nvcc(英偉達(dá)Nsight英偉達(dá)NsightCompute、性能分析工具(NsightGraphics,NsightProfiler、運(yùn)行時(shí)庫(kù)以及CUDAAPICUDAGPU(kernel)函數(shù)。APICUDA備內(nèi)存、事件同步等。cuBLAS:基于CUDA的高性能線性代數(shù)庫(kù),用于加速標(biāo)準(zhǔn)矩陣和向量運(yùn)算。cuFFT:快速傅里葉變換庫(kù),針對(duì)GPU優(yōu)化,實(shí)現(xiàn)高效的并行FFT計(jì)算。cuDNN:(CNN)了高度優(yōu)化。cuRAND:隨機(jī)數(shù)生成庫(kù),提供了多種高質(zhì)量的隨機(jī)數(shù)生成算法。Thrust:C++模板庫(kù),簡(jiǎn)化了并行算法的設(shè)計(jì)和實(shí)施。cuSPARS(稀疏矩陣運(yùn)算庫(kù)NVM(英偉達(dá)ManagementLibrary狀態(tài)和配置,等等。CUDATensorFlowPyTorchMXNetCUDAGPUCUDACUDA理模擬等各種領(lǐng)域的應(yīng)用。CUDAC/C++Fortran、Python(CuPy、Julia語(yǔ)言的接口或綁定。CUDA有強(qiáng)大的社區(qū)支持,包括教程、論壇、博客文章和大學(xué)課程等資源,幫助開(kāi)發(fā)者掌握并充分利用CUDA技術(shù)。數(shù)據(jù)來(lái)源:英偉達(dá)官網(wǎng),CSDN,。硬件設(shè)計(jì)+軟件生態(tài)=算力壁壘除CUDACore外,英偉達(dá)還針對(duì)AI訓(xùn)練優(yōu)化硬件推出TensorCore。TensorCoreGPU運(yùn)算而設(shè)計(jì)。它們通過(guò)優(yōu)化的矩陣乘法運(yùn)算,顯著提升了深度學(xué)習(xí)模型訓(xùn)練和推理的速度。在深度學(xué)習(xí)中,矩陣乘法是核心操作,TensorCore能夠在單個(gè)時(shí)鐘周期內(nèi)完成多個(gè)浮點(diǎn)運(yùn)算,從而大幅提高計(jì)算效率。這種硬件加速對(duì)于處理大規(guī)模神經(jīng)網(wǎng)絡(luò)和復(fù)雜數(shù)據(jù)集至關(guān)重要,它使得研究人員和開(kāi)發(fā)者能夠更快地迭代模型,實(shí)現(xiàn)更高效的應(yīng)用開(kāi)發(fā)。TensorCoreGPU研究和商業(yè)應(yīng)用的快速發(fā)展提供了強(qiáng)大的支持。圖6:Tensorcore使用混合精度乘法和累加優(yōu)化運(yùn)算效率數(shù)據(jù)來(lái)源:英偉達(dá)官網(wǎng)架構(gòu)與的協(xié)同工作極大提升了GPU的大規(guī)模TensorCore在執(zhí)行深度學(xué)習(xí)中的矩陣乘法等核心操作時(shí),能夠?qū)崿F(xiàn)更高的計(jì)算吞吐量和更低的能耗。這GPU在處理大規(guī)模神經(jīng)網(wǎng)絡(luò)時(shí),不僅計(jì)算速度得到了顯著提升,而且能效比也得到了優(yōu)化。開(kāi)發(fā)者可以利用CUDACUDACore執(zhí)行各種計(jì)算任務(wù),同時(shí)通過(guò)特定的指令和庫(kù)(cuDNN)來(lái)利用TensorCore加速深度學(xué)習(xí)模型的訓(xùn)練TensorCore技術(shù)的創(chuàng)新和應(yīng)用,為開(kāi)發(fā)者提供了一個(gè)高效、可擴(kuò)展的計(jì)算環(huán)境。海外其他廠商對(duì)于生態(tài)構(gòu)建也有相關(guān)嘗試復(fù)盤(pán)英偉達(dá)與在出現(xiàn)之前,GPU2006CUDA,開(kāi)創(chuàng)了GPU和深度學(xué)習(xí)等領(lǐng)域的發(fā)展奠定了基礎(chǔ),構(gòu)建了強(qiáng)大的技術(shù)GPU代碼,同時(shí)借助豐GPU在通用計(jì)算任務(wù)中的應(yīng)用潛力。16GPUGPUGPU市場(chǎng)競(jìng)CUDAGPU并行計(jì)算領(lǐng)域長(zhǎng)期領(lǐng)先。表4:英偉達(dá)發(fā)展長(zhǎng)期領(lǐng)先于AMD

英偉達(dá)與AMD發(fā)展歷程年份 英偉達(dá) AMD發(fā)布圖形芯片Geforce256199920062009

GPU推出CUDA釋放GPUFermiCUDA

收購(gòu)ATICPUGPU雙路并行2011 10GPU推出Kepler架構(gòu)201220152016201720182019202020212022

繼續(xù)增強(qiáng)GPU性能NVIDIADRIVE問(wèn)世英偉達(dá)正式投身于深度學(xué)習(xí)領(lǐng)域推出Pascal架構(gòu)為AI革命注入強(qiáng)勁動(dòng)力VoltaV100GPUTensorcoreTuring重塑計(jì)算機(jī)圖形技術(shù)AmpereA100AIHopperH100GPU

推出ROCm平臺(tái)支持AMDGPU高效并行計(jì)算全球挖礦熱潮帶動(dòng)AMDGPU銷量激增發(fā)布RNDA架構(gòu)提升性能,布局深度學(xué)習(xí)領(lǐng)域MI2502023 推出了新一代數(shù)據(jù)中心用GPU芯片H200 發(fā)布重磅計(jì)算芯片InstinctMI300X數(shù)據(jù)來(lái)源:英偉達(dá)官網(wǎng),中關(guān)村在線,CSDN,AMD發(fā)現(xiàn)了生態(tài)的重要性,開(kāi)始追趕。2015才開(kāi)始布(donpnomputePtformD,PCPU計(jì)算的開(kāi)源軟件開(kāi)發(fā)平臺(tái)。自家硬件,一定程度提供了更優(yōu)化和特定的支CUDA的全閉源特性,作為后發(fā)者采用的是開(kāi)源生態(tài),以此吸引和搶占使用者。目前,基本都有對(duì)應(yīng)產(chǎn)品,形成競(jìng)爭(zhēng)。英偉達(dá)AMD功能描述編程模型和APICUDAHIP為英偉達(dá)AMD功能描述編程模型和APICUDAHIP為C/C++開(kāi)發(fā)GPU加速程序提供全面的環(huán)境,API、Runtime、編譯器、調(diào)試工具等。OpenCLOpenCL服務(wù)器、桌面計(jì)算系統(tǒng)、手持設(shè)備編寫(xiě)高效輕便的代碼。OpenACCGPU并行編程模型。OpenMPOpenMP是一套編譯器指令、庫(kù)例程和環(huán)境變量的規(guī)范,可用于指定Fortran和C/C++程序中的高級(jí)并行性。編譯及工具鏈NVCCROCmCC/HCC編譯器CUDA-GDBROCgdbdebug工具HIPify將CUDA原生代碼轉(zhuǎn)換為HIP原生C++代碼NvidiaNsightROCmProfilingTools性能分析工具nvidia-smirocm-msi系統(tǒng)管理界面和命令行界面的工具GPU加速庫(kù)數(shù)學(xué)庫(kù)cuBLASrocBLAS基本線性代數(shù)庫(kù)(basiclinearalgebra,BLAS)cuFFTrocFFT快速傅里葉變換庫(kù)(FastFourierTransforms)CUDAMathLibrary標(biāo)準(zhǔn)數(shù)學(xué)函數(shù)庫(kù)cuRAND隨機(jī)數(shù)生成(randomnumbergeneration,RNG)cuSOLVERrocSOLVER密集和稀疏直接求解器cuSPARSErocSPARSE/rocALUTION稀疏矩陣BLAScuTENSORrocWMMA張量線性代數(shù)庫(kù)AmgX用于模擬和隱式非結(jié)構(gòu)化方法線性解算器并行算法庫(kù)ThrustParallel rocThrustC++并行算法和數(shù)據(jù)結(jié)構(gòu)庫(kù)圖像和視頻庫(kù)nvJPEG用于JPEG解碼的高性能GPU加速庫(kù)NvidiaPerformancePrimitive提供GPU加速的圖像、視頻和信號(hào)處理功能NvidiaVideoCodecSDK硬件加速視頻編碼和解碼的一整套API、示例和文檔通信庫(kù)NVSHMEMOpenSHMEM標(biāo)準(zhǔn)的GPU內(nèi)存,具有擴(kuò)展以提高GPU性能。NCCLRCCL多GPU、多節(jié)點(diǎn)通信深度學(xué)習(xí)/人工智能庫(kù)cuDNNMIOpen深度學(xué)習(xí)基元庫(kù)TensorRT用于生產(chǎn)部署的高性能深度學(xué)習(xí)推理優(yōu)化器和運(yùn)行時(shí)NvidiaRiva用于開(kāi)發(fā)交互式情景AI會(huì)話應(yīng)用的平臺(tái)NvidiaDeepStreamSDK用于基于AI的視頻理解和多傳感器處理的實(shí)時(shí)流分析工具包NvidiaDLI用于解碼和增強(qiáng)圖像和視頻以加速深度學(xué)習(xí)應(yīng)用的便攜式開(kāi)源庫(kù)MIGraphX圖形推理引擎,可加速機(jī)器學(xué)習(xí)模型推理,可以通過(guò)直接安裝二進(jìn)制文件或從源代碼構(gòu)建來(lái)使用。MIVisionX全面的計(jì)算機(jī)視覺(jué)和機(jī)器智能庫(kù)、實(shí)用程序和應(yīng)用程序,KhronosOpenVX?ONNXKhronosNNEF?交換格式的卷積神經(jīng)網(wǎng)絡(luò)模型編譯器和優(yōu)化器。開(kāi)發(fā)工具NvidiaDCGMROCm DataCenterTools數(shù)據(jù)中心管理Nvidia-smiROCm-smi系統(tǒng)管理界面和命令行界面的工具NvidiaNsightROCmProfilingTools調(diào)試和性能分析工具ROCmDebugger數(shù)據(jù)來(lái)源:CSDN,。AMD硬件性能已經(jīng)趕上,但生態(tài)差距導(dǎo)致英偉達(dá)仍是訓(xùn)練的首選。MI300X的顯存與計(jì)算當(dāng)仁不讓的首選仍然CUDA生態(tài)依舊具有不可替代框架支持上,只針對(duì)少數(shù)主流框架,CUDA對(duì)開(kāi)發(fā)者進(jìn)行框架遷移的支持也顯著優(yōu)于芯片相比英偉達(dá)芯片喪失了一定的競(jìng)爭(zhēng)力。表6:AMD最新產(chǎn)品單卡性能已經(jīng)很強(qiáng)英偉達(dá)與AMD最新產(chǎn)品性能對(duì)比對(duì)照參數(shù) 英偉達(dá)H100SXM AMDMI300XGPU架構(gòu) NVIDIAHopper AMDCDNA334TFLOPSFP64989TFLOPS(TensorCore)TF32494.5TFLOPS989TFLOPS(TensorCore)TF32494.5TFLOPS650TFLOPSTF32附帶稀疏算力989TFLOPS1300TFLOPSFP81979TFLOPS2600TFLOPSFP8附帶稀疏算力3958TFLOPS5200TFLOPSFP16989.5TFLOPS1300TFLOPSFP16附帶稀疏算力1979TFLOPS2600TFLOPSBF16989.5TFLOPS1300TFLOPSBF16附帶稀疏算力1979TFLOPS2600TFLOPINT81779TOPS2600TOPSINT8附帶稀疏算力3958TOPS5200TOPSGPU顯存80GB192GBGPU顯存帶寬3.35TB/s5.3TB/s

67TFLOPS(TensorCore)67TFLOPS

81.7TFLOPS163.4TFLOPS數(shù)據(jù)來(lái)源:英偉達(dá)官網(wǎng),中關(guān)村在線,。轉(zhuǎn)譯兼容只能追趕,不能超越,且?guī)?lái)的性能損失難以避免。隨著其他廠商更多具有競(jìng)爭(zhēng)力的硬件問(wèn)世,越來(lái)越多的用戶希望能在其CUDA似乎成為了一個(gè)可行的替代選擇,其中較具有代表性的如ZLUDA,它是一個(gè)開(kāi)GPU上運(yùn)應(yīng)用程序成為可能。然而,AMD等其他廠商轉(zhuǎn)譯mRm性能會(huì)10%左右,轉(zhuǎn)移帶來(lái)的性能損失難以避免。在兩者在基礎(chǔ)設(shè)施端其實(shí)相差不多,但二者(算子庫(kù)+算子融合開(kāi)源的目的,一定程度上就是為了讓更多市場(chǎng)客戶能夠快速接觸并使用在吸引開(kāi)發(fā)者社區(qū)和擴(kuò)大應(yīng)用規(guī)模方面依舊相對(duì)滯后,這導(dǎo)致在特定領(lǐng)域,在軟件層面構(gòu)建的軟件生態(tài)體系為其占據(jù)先機(jī),GPU在軟件生態(tài)上的建設(shè)雖有積極嘗試,但在市場(chǎng)影響力和開(kāi)發(fā)者認(rèn)同感上仍需進(jìn)一步努力。英偉達(dá)積極鞏固其在市場(chǎng)的領(lǐng)導(dǎo)地位,維護(hù)核心生態(tài)優(yōu)勢(shì)。英偉CUDA軟件,圖7:英偉達(dá)更新CUDA軟件許可條款保護(hù)其市場(chǎng)護(hù)城河數(shù)據(jù)來(lái)源:網(wǎng)易國(guó)內(nèi)AI算力的軟件生態(tài)建設(shè)至關(guān)重要國(guó)產(chǎn)的成熟并行計(jì)算框架。英200615年的發(fā)展。相比之下,國(guó)產(chǎn)在軟件生態(tài)建設(shè)上尚處于發(fā)展階段,缺乏類似國(guó)內(nèi)社區(qū)相比有較大差距。英GPU開(kāi)發(fā)者社區(qū)。以華為202421-29日共計(jì)發(fā)35495.311581975次,平均3.87GPU社區(qū)仍然缺乏足夠的參與度和活躍度。圖8英偉達(dá)社區(qū)較為活躍,昇騰社區(qū)活躍度尚待提升數(shù)據(jù)來(lái)源:英偉達(dá)官網(wǎng)、昇騰官網(wǎng)國(guó)產(chǎn)GPU軟件工具鏈支持不足,影響開(kāi)發(fā)者效率與創(chuàng)新。CUDA具有較為成熟的軟件工具鏈,可提供開(kāi)發(fā)環(huán)境,幫助開(kāi)發(fā)者更容易地利用英偉達(dá)的GPU硬件來(lái)加速各種高性能的應(yīng)用程序。在國(guó)內(nèi),GPU軟件工MindStudioGPU設(shè)計(jì)工具鏈、軟件GPU的開(kāi)發(fā)效率與創(chuàng)新能力。教育資源在國(guó)產(chǎn)GPU技術(shù)培訓(xùn)方面相對(duì)匱乏,限制人才培養(yǎng)。以CUDACUDA的受眾和針對(duì)性人才。2008100課程。此后,英偉CUDA的生態(tài)鏈。2010數(shù)千篇論文,2015800所CUDAGPU技術(shù)培訓(xùn)上存在產(chǎn)教融合機(jī)制不GPU軟件生態(tài)依然是我國(guó)一個(gè)需要突破的短板。英偉達(dá)的CUDA生態(tài)系統(tǒng)在全球范圍內(nèi)被廣泛接受和使用,這使得英偉達(dá)在GPU領(lǐng)域占據(jù)了主導(dǎo)地位。然而,中國(guó)的GPU生態(tài)系統(tǒng)相比之下還處于發(fā)展階段,盡管有一些公司如寒武紀(jì)和昆侖芯等正在努力構(gòu)建自己的加速平臺(tái)和GPU廠商,如景嘉微、海光信息等,雖然在硬件技術(shù)上取得了一定的突破,但在軟件生態(tài)的建設(shè)上,仍面臨著巨大的挑戰(zhàn)。軟件開(kāi)發(fā)商將更積極地為這些平臺(tái)開(kāi)發(fā)應(yīng)用,從而豐富軟件生態(tài)。這種硬件與軟件生態(tài)之間的正相關(guān)關(guān)系將形成良性循環(huán)。共同推動(dòng)中國(guó)信息技術(shù)產(chǎn)業(yè)向自主可控和可持續(xù)發(fā)展的方向邁進(jìn),為用戶提供更多樣化、高效和安全的信息技術(shù)解決方案。表7:政府出臺(tái)一系列政策優(yōu)化算力基礎(chǔ)設(shè)施布局時(shí)間發(fā)文部門(mén)文件名稱主要內(nèi)容工業(yè)和信息化部、提出了到2025年算力基礎(chǔ)設(shè)施的發(fā)展目標(biāo),包2023.10中央網(wǎng)信辦、教育《算力基礎(chǔ)設(shè)施高質(zhì)量發(fā)展行動(dòng)計(jì)劃》括算力規(guī)模超過(guò)300EFLOPS,智能算力占比達(dá)到部等6部門(mén)35,并強(qiáng)調(diào)東西部算力平衡協(xié)調(diào)發(fā)展。明確了數(shù)字中國(guó)建設(shè)的整體框架,包括夯實(shí)數(shù)字2023.2中共中央國(guó)務(wù)院《數(shù)字中國(guó)建設(shè)整體布局規(guī)劃》字技術(shù)與各領(lǐng)域深度融合,強(qiáng)化數(shù)字技術(shù)創(chuàng)新體展國(guó)內(nèi)國(guó)際“兩個(gè)環(huán)境”。2022.8科技部、財(cái)政部《企業(yè)技術(shù)創(chuàng)新能力提升行動(dòng)方案(2022-2023》推動(dòng)國(guó)家超算中心、智能計(jì)算中心等面向企業(yè)提供低成本算力服務(wù)。需求牽引,深化協(xié)同。堅(jiān)持市場(chǎng)需求導(dǎo)向,建用2021.7 工業(yè)和信息化部

《新型數(shù)據(jù)中心發(fā)展三年行動(dòng)計(jì)劃(2021-2023》

發(fā)展數(shù)據(jù)來(lái)源:中國(guó)政府網(wǎng),。華為正積極布局國(guó)產(chǎn)GPU華為通過(guò)CANN和AscendCL構(gòu)建國(guó)產(chǎn)GPU軟件生態(tài)。CANN是華為為AI場(chǎng)景設(shè)計(jì)的異構(gòu)計(jì)算架構(gòu),旨在為開(kāi)發(fā)者提供高效、靈活且易于硬件上開(kāi)發(fā)和部署各種人工智I(nsrFowPyrh等NCN還提供了一套簡(jiǎn)單易用的scnd(scndComputing編程接口,為開(kāi)發(fā)者屏蔽底層處理器的差異,使處理器。/通過(guò)多層次的抽象和優(yōu)化,為開(kāi)發(fā)者提供了從底層硬件到頂層應(yīng)用的全方位支持,旨在簡(jiǎn)技術(shù)的創(chuàng)新和應(yīng)用落地。圖9:華為CANN模塊架構(gòu)清晰數(shù)據(jù)來(lái)源:華為官網(wǎng)表8:華為CANN對(duì)標(biāo)英偉達(dá)CUDA華為CANN 英偉達(dá)CUDA主要功能 都是異構(gòu)計(jì)算架構(gòu),它們都對(duì)上支持多種AI框架,對(duì)下服務(wù)AI處理器華為CANN3.0已經(jīng)統(tǒng)一了編程架構(gòu),做到了端邊性能平臺(tái)與兼容性生態(tài)系統(tǒng)編程接口

云全場(chǎng)景協(xié)同,具備極強(qiáng)的伸縮性和可適應(yīng)性。同時(shí),其代碼是普適的,對(duì)端、邊、云全場(chǎng)景下的訓(xùn)練、推理硬件沒(méi)有特定依賴。CANNAIMindSporeTensorFlowPyTorchCANNCUDAACL(AscendComputingLanguage)AI

CUDAcuDNN計(jì)算領(lǐng)域有很大的優(yōu)勢(shì)。CUDANVIDIAGPUNVIDIAGPU直接訪問(wèn)和控制。CUDA支持,這使得開(kāi)發(fā)者可以輕松地找到資源和幫助。CUDAC/C++GPU源。硬件支持市場(chǎng)定位

CANN昇AI310Ascend910。CANNAI勢(shì)。

CUDA支持NVIDIA的全系列GPU產(chǎn)品。CUDAAI深度學(xué)習(xí)領(lǐng)域。數(shù)據(jù)來(lái)源:華為、英偉達(dá)官網(wǎng),CANN提供底層計(jì)算能力的同時(shí),MindSpore提供深度學(xué)習(xí)框架功能。MindSpore是一款全場(chǎng)景深度學(xué)習(xí)框架,它通過(guò)提供函數(shù)式可微分編程架構(gòu),簡(jiǎn)化了模型算法的數(shù)學(xué)表達(dá),使得開(kāi)發(fā)者能夠更加專注于模型創(chuàng)新而非底層實(shí)現(xiàn)細(xì)節(jié)。MindSpore在某些方面類似于和nsorFowDA來(lái)在NIIAPU上執(zhí)行計(jì)算。此外,MindSpore還提供了自動(dòng)微分功能,允許開(kāi)發(fā)者輕松計(jì)算模型的作為一個(gè)異構(gòu)計(jì)算架構(gòu),它提供了類似于CUDAToolkit的功能,作為底層的異構(gòu)計(jì)算架構(gòu)為MindSpore以及其他框架提供硬件加速和優(yōu)化支持。使得MindSpore計(jì)算的性能和效率??偨Y(jié)來(lái)說(shuō),MindSpore和共同構(gòu)成了華為昇騰生態(tài)的一部分,MindSpore則提供應(yīng)用的發(fā)展。CANN生態(tài)。要構(gòu)建一個(gè)完整的GPU生態(tài),不僅需要華為自身的技術(shù)創(chuàng)新和產(chǎn)品優(yōu)化,還需要廣泛的生態(tài)合作伙伴共同協(xié)同配合,這一生態(tài)體系包括整機(jī)硬件伙伴、硬件伙伴、應(yīng)用軟件伙伴、一體機(jī)解決方案伙伴以及生136家1200家軟

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論