海外科技行業(yè):算力需求高增AI+ASIC突圍在_第1頁(yè)
海外科技行業(yè):算力需求高增AI+ASIC突圍在_第2頁(yè)
海外科技行業(yè):算力需求高增AI+ASIC突圍在_第3頁(yè)
海外科技行業(yè):算力需求高增AI+ASIC突圍在_第4頁(yè)
海外科技行業(yè):算力需求高增AI+ASIC突圍在_第5頁(yè)
已閱讀5頁(yè),還剩64頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

海外科技海外科技qinheping027734@gtj投資建議:ASIC針對(duì)特定場(chǎng)景設(shè)計(jì),有配套的通信互聯(lián)和軟件生態(tài),雖然目前單顆ASIC算力相比最先進(jìn)的GP數(shù)據(jù)中心加速計(jì)算芯片的16%,其規(guī)模約數(shù)據(jù)中心定制加速計(jì)算芯片規(guī)模有望超400故而在推理場(chǎng)景呈現(xiàn)更高的性價(jià)比;ASIC的芯片互聯(lián)以PCIe協(xié)議主導(dǎo),ASIC軟件生態(tài)有望逐步完善。云廠商普遍具備較強(qiáng)的能力,均為AIASIC研發(fā)了配套的全棧軟件生態(tài),開(kāi)發(fā)了一系列的請(qǐng)務(wù)必閱讀正文之后的免責(zé)條款部分3of41 海外專題研究(美國(guó))用效率可能會(huì)優(yōu)于可比的GPU。此外ASIC還有明顯-------384----注:紅色字體表示該未經(jīng)官方確認(rèn),為預(yù)測(cè)值;*表示采用稀疏技術(shù)下的算力;Maia100第三行為MxInt8性能界但由于其成本較低,在推理常用精度下,ASIC展現(xiàn)出了更高的性價(jià)比更高的性價(jià)比。而中國(guó)廠商AIASIC仍處于相對(duì)早期的發(fā)展階段,百度昆請(qǐng)務(wù)必閱讀正文之后的免責(zé)條款部分4of41 海外專題研究(美國(guó))本,提升ROI。指標(biāo)有所不同。AIASIC主要采用HBM作為片外內(nèi)存,容量及帶寬持平略看,AIASIC普遍設(shè)計(jì)了較大的片上容量有助于降低時(shí)延,提高計(jì)算效率。有望高速增長(zhǎng)。我們看好ASIC的大規(guī)模應(yīng)用帶來(lái)云廠商ROI提升,同時(shí)請(qǐng)務(wù)必閱讀正文之后的免責(zé)條款部分5of41 海外專題研究(美國(guó))積計(jì)算性能(TFLOPS/mm^2)提升緩慢,其性能提升主要依靠面積變大。請(qǐng)務(wù)必閱讀正文之后的免責(zé)條款部分6of41 海外專題研究(美國(guó))非Transformer架構(gòu),試圖提高計(jì)算效率、降低計(jì)算成本。目前主要分為究資源、軟硬件生態(tài)角度看,Transformer架構(gòu)具備較高的護(hù)城河,非請(qǐng)務(wù)必閱讀正文之后的免責(zé)條款部分7of41 海外專題研究(美國(guó))增長(zhǎng),是英偉達(dá)的重要客戶,谷歌、微軟、亞馬遜、Meta和廠商預(yù)計(jì)貢獻(xiàn)了FY2025英偉達(dá)GPU六成以上的收入,預(yù)計(jì)接近500億美計(jì)70億美元左右,MarvellFY202450圖11:Marvell預(yù)計(jì)數(shù)據(jù)中心定制加速計(jì)算芯片市自研廠商往往需要與IP設(shè)計(jì)廠商合作,獲得授權(quán),此外,部分艱深的結(jié)構(gòu)請(qǐng)務(wù)必閱讀正文之后的免責(zé)條款部分8of41 海外專題研究(美國(guó))加量產(chǎn)至少小20億美金。處于產(chǎn)能爬坡期,A客戶的AI推理芯片、C客戶的AI芯片預(yù)計(jì)分別2025將為谷歌提供AI服務(wù)器芯片的串行器和解串器(SerDes)方案,并協(xié)助整合請(qǐng)務(wù)必閱讀正文之后的免責(zé)條款部分9of41 海外專題研究(美國(guó))MachineLearningwithHardwareSuppoMachineLearningwithHardwareSuppo3.云廠商積極布局ASIC,打造軟硬件全棧生態(tài)于加速機(jī)器學(xué)習(xí)工作負(fù)載的集成電路(ASIC),可以快速處理神經(jīng)網(wǎng)絡(luò)中使的考慮,選擇搭建團(tuán)隊(duì)自研芯片,谷歌招募了DavidPatterson——RI片的集群規(guī)模,此外,借助Multislice訓(xùn)練技術(shù),TPUv5e可以實(shí)現(xiàn)5萬(wàn)卡--Search等內(nèi)部項(xiàng)目和蘋(píng)果等外部客戶工作負(fù)載提供支持。蘋(píng)果披露其云側(cè) 海外專題研究(美國(guó))TPU在矩陣乘法過(guò)程中,不需要訪問(wèn)內(nèi)存。引擎、執(zhí)行銀行交易,或利用神易加載到饋出隊(duì)列中。然后,TPU主機(jī)從饋出隊(duì)列讀取結(jié)果并將其存儲(chǔ)在主機(jī)的內(nèi)存中。 海外專題研究(美國(guó))3.1.3.創(chuàng)新引入3Dtorus架構(gòu)和光交換v4芯片組成4x4x4的立方體,4顆TPUv4搭配一顆CPU,64顆TPUv4和MachineLearningwithHardwareSuppoMachineLearningwithHardwareSuppo模塊結(jié)構(gòu)。64個(gè)機(jī)柜共同組成4096顆芯片規(guī)模的算力 海外專題研究(美國(guó))圖20:4096個(gè)TPUv4組成的集群換光信號(hào),減少了光電轉(zhuǎn)換過(guò)程中的功耗損失,OC本、功耗等方面均具備顯著優(yōu)勢(shì)。谷歌系統(tǒng)和服務(wù)基礎(chǔ)設(shè)施副總裁AminVahdat表示,平均而言,TPUv4集群在MLPerf測(cè)試中的表現(xiàn)比Nvidia 海外專題研究(美國(guó))3.1.4.提供Mulislic行速度,而且可能完全不需要更改源代碼。 海外專題研究(美國(guó))圖25:谷歌可基于JAX和PyTorch框3.2.1.MTIA快速迭代,目前主要用于AI推理InferenceAccelerator用于支持Meta的深度學(xué)習(xí)推薦模型,該模型是 海外專題研究(美國(guó))對(duì)應(yīng)百億美金以上的資本開(kāi)支。據(jù)扎克伯格預(yù)計(jì),Llama4的計(jì)算能力是708TFLOPS/s(sparsity)耗節(jié)約、成本方面具備明顯的優(yōu)勢(shì)。MTIAv2在INT8精度下的GEMM計(jì)響了工作負(fù)載的表現(xiàn)。當(dāng)前工作負(fù)載運(yùn)行很大一部分時(shí)間都被網(wǎng)絡(luò)通信占 海外專題研究(美國(guó))彼此互聯(lián),可以作為一個(gè)整體運(yùn)行任務(wù),也可以獨(dú)立處理任務(wù)。3.2.3.MTIAv2單機(jī)架容納72 海外專題研究(美國(guó))運(yùn)行時(shí)堆棧,負(fù)責(zé)與驅(qū)動(dòng)程序/固件接口,最后,運(yùn)行時(shí)與驅(qū)動(dòng)程序交互。于編寫(xiě)ML計(jì)算內(nèi)核,極大提高了開(kāi)發(fā)人員效率。 海外專題研究(美國(guó))第一代AI自研芯片的性能指標(biāo)也較為領(lǐng)先,未來(lái)有望成為云廠商ASIC領(lǐng) 海外專題研究(美國(guó))MXFP4數(shù)據(jù)格式下的性能達(dá)到3200TFLOPS,MXInt8下達(dá)到1600面的競(jìng)爭(zhēng)有一席之地。Ares機(jī)架中,微軟配置了Sidekick液設(shè)備,冷液從副設(shè)備流向Maia100表面的冷板,副設(shè)備吸取液體中熱量后再請(qǐng)務(wù)必閱讀正文之后的免責(zé)條款部分20of41 海外專題研究(美國(guó))數(shù)據(jù)來(lái)源:測(cè)的拓?fù)鋱D來(lái)看,在Y方向上,每片Maia100通過(guò)400Gb/s的帶寬連接到器內(nèi)的4顆Maia100芯片通過(guò)Mesh連接,實(shí)現(xiàn)了1型的開(kāi)發(fā),微軟為Maia100提供軟件配套,集成Pytorch、ONNXRunti3.4.1.亞馬遜在公有云市場(chǎng)布局廣闊,請(qǐng)務(wù)必閱讀正文之后的免責(zé)條款部分21of41 海外專題研究(美國(guó))供了底層的網(wǎng)絡(luò)支持。2015年,亞馬遜收購(gòu)了為其長(zhǎng)期設(shè)計(jì)芯片的的速率。據(jù)亞馬遜估計(jì),客戶使用最新一代的Graviton4可將IT費(fèi)用減少代性能提升4倍。中每個(gè)核心中的標(biāo)量、矢量和張量引擎數(shù)量比上一代增加了一倍。另外,NeuronLink互連鏈路,是上一代芯片的2倍,總共能提供高達(dá)768GB/s的帶寬。NeuronLink-v2是AWS推出的最新一代芯片間互請(qǐng)務(wù)必閱讀正文之后的免責(zé)條款部分22of41 海外專題研究(美國(guó))種高速互連的方式相互連接,在計(jì)算元素、網(wǎng)絡(luò)連接等層面上相較于存帶寬。據(jù)TheNextPlatform報(bào)道,含1NeuroCore-2NeuroCore-請(qǐng)務(wù)必閱讀正文之后的免責(zé)條款部分23of41 海外專題研究(美國(guó))度學(xué)習(xí)模型進(jìn)行訓(xùn)練時(shí),Trn1實(shí)例比NvidiaA100芯片支持的P4d實(shí)效率更高。EFA(ElasticFabricAdapt從而達(dá)到加快分布式訓(xùn)練的目的。為實(shí)現(xiàn)高效的數(shù)據(jù)和模型并行性,每個(gè)在Trn1芯片互連中,Trn1實(shí)例支持最Trn1/Trn1n實(shí)例能部署在更大請(qǐng)務(wù)必閱讀正文之后的免責(zé)條款部分24of41 海外專題研究(美國(guó))一項(xiàng)服務(wù)于機(jī)器學(xué)習(xí)的開(kāi)發(fā)框架,方便開(kāi)發(fā)者完成模型的訓(xùn)練和推理等工上構(gòu)建和部署可擴(kuò)展的應(yīng)用程序和服務(wù)。最頂層的是亞馬遜生成式人工智請(qǐng)務(wù)必閱讀正文之后的免責(zé)條款部分25of41 海外專題研究(美國(guó))數(shù)據(jù)來(lái)源:Microsoft3.5.1.特斯拉自研Dojo計(jì)算平臺(tái),用駛系統(tǒng)的人工智能模型。特斯拉在設(shè)計(jì)和生產(chǎn)過(guò)程中與合作伙伴臺(tái)積電進(jìn)自動(dòng)駕駛技術(shù)FSD,使其獲得更多的學(xué)習(xí)經(jīng)驗(yàn),推動(dòng)機(jī)器人出租車和網(wǎng)絡(luò)請(qǐng)務(wù)必閱讀正文之后的免責(zé)條款部分26of41 海外專題研究(美國(guó))特斯拉預(yù)計(jì)2024年年底前投資超過(guò)10億美元來(lái)開(kāi)發(fā)自己的超級(jí)計(jì)算機(jī)斯拉節(jié)省大額的成本。3.5.2.采用近存計(jì)算架構(gòu),單重輸入陣列,計(jì)算矩陣乘法后直接在輸出進(jìn)行累加。每個(gè)Dojo核心包括4請(qǐng)務(wù)必閱讀正文之后的免責(zé)條款部分27of41 海外專題研究(美國(guó))存儲(chǔ)、供電和通信無(wú)縫集成。每個(gè)訓(xùn)練板都配置了11GB的片上跨內(nèi)核這種封裝技術(shù)不需要額外PCB載板,就能將相關(guān)芯片集成散熱模塊,加速供電相位。特斯拉的電源調(diào)節(jié)模塊和液冷板采取與芯片本身垂直的立體結(jié)(800GB/s存儲(chǔ)帶寬支持特斯拉傳輸協(xié)議TTP,請(qǐng)務(wù)必閱讀正文之后的免責(zé)條款部分28of41 海外專題研究(美國(guó))Dojo采用TTP專有通信協(xié)議,提供高帶寬芯片間通信片設(shè)計(jì)了TTP作為通信協(xié)議,這是一種基于連接著超高速存儲(chǔ)系統(tǒng):640GB運(yùn)行內(nèi)存可以提供超過(guò)18TB/s的帶寬,請(qǐng)務(wù)必閱讀正文之后的免責(zé)條款部分29of41 海外專題研究(美國(guó))圖51:DIP是一種高帶寬內(nèi)存的PCIe卡,支持特斯拉的TTPoE接口3.5.4.特斯拉為Dojo創(chuàng)建全棧軟件生態(tài)請(qǐng)務(wù)必閱讀正文之后的免責(zé)條款部分30of41 海外專題研究(美國(guó))軟件棧。整個(gè)軟件生態(tài)的頂層是PyTo數(shù)據(jù)存儲(chǔ)、進(jìn)行細(xì)粒度的并行計(jì)算并減少存儲(chǔ)占用。D用GDDR6顯存的通用AI芯片。昆侖芯2代于2021年量產(chǎn),采用7nm制程,整數(shù)精度(INT8)算力達(dá)到256TeraOPS,半精度(FP16)性能為128請(qǐng)務(wù)必閱讀正文之后的免責(zé)條款部分31of41 海外專題研究(美國(guó))據(jù)百度方面預(yù)測(cè),蘿卜快跑有望在2024年底在武漢實(shí)現(xiàn)盈虧平衡,并在感知和規(guī)劃大模型并進(jìn),逐步實(shí)現(xiàn)端到端自動(dòng)駕駛系統(tǒng)。蘿卜快跑的核心請(qǐng)務(wù)必閱讀正文之后的免責(zé)條款部分32of41 海外專題研究(美國(guó))平頭哥半導(dǎo)體是阿里巴巴集團(tuán)的全資半導(dǎo)體芯片業(yè)務(wù)主體。平頭哥擁有端過(guò)核間通信(XCORE-COMM)緊密協(xié)作以處理更大更復(fù)雜的任務(wù)(例如頻、調(diào)壓進(jìn)一步平衡功耗和性能。請(qǐng)務(wù)必閱讀正文之后的免責(zé)條款部分33of41 海外專題研究(美國(guó))平頭哥推出了HGAI(HanGuangArtihciallntelligence)軟件開(kāi)發(fā)包,協(xié)同含光800芯片提升AI運(yùn)算效率。HGAI主要包括模型的前端GraphIR轉(zhuǎn)換、量化、編譯和運(yùn)行時(shí)等幾部分。目前HGAI支持的主流深度學(xué)習(xí)框架主要騰訊芯片自研主要由蓬萊實(shí)驗(yàn)室負(fù)責(zé)。2021年,騰訊公布旗下三款自研請(qǐng)務(wù)必閱讀正文之后的免責(zé)條款部分34of41 海外專題研究(美國(guó))內(nèi)存帶寬有顯著優(yōu)勢(shì)。推出了扣子,支持用戶定制基于AI模型的各類問(wèn)答B(yǎng)ot,此外,字節(jié)跳動(dòng)芯片相關(guān)研發(fā)人員。在大模型領(lǐng)域,字節(jié)跳動(dòng)擁有英偉達(dá)動(dòng)目前發(fā)布了數(shù)百個(gè)與半導(dǎo)體相關(guān)的職位,其中包括15個(gè)ASIC芯片設(shè)計(jì)師的職位。請(qǐng)務(wù)必閱讀正文之后的免責(zé)條款部分35of41 海外專題研究(美國(guó))深度學(xué)習(xí)編程框架由深度學(xué)習(xí)算法的基本操作封裝成的學(xué)習(xí)組件構(gòu)成,可00人工智能機(jī)器學(xué)習(xí)深度學(xué)習(xí)數(shù)據(jù)來(lái)源:騰訊云數(shù)據(jù)來(lái)源:前瞻產(chǎn)請(qǐng)務(wù)必閱讀正文之后的免責(zé)條款部分36of41 海外專題研究(美國(guó))流圖被轉(zhuǎn)換為中間表示,可以支持jit的算子融合、內(nèi)存操作消除等優(yōu)化,CUDA架構(gòu)的核心在于并行計(jì)算模型,通過(guò)線程塊和網(wǎng)格實(shí)現(xiàn),這種層次的低級(jí)指令。核心開(kāi)發(fā)包,是CUDA開(kāi)發(fā)的基礎(chǔ)環(huán)境,包含編譯器(nvcc調(diào)試器(NsightSystems、Compute等性能分析工具(NsightGraphics、NsightP請(qǐng)務(wù)必閱讀正文之后的免責(zé)條款部分37of41 海外專題研究(美國(guó))Thrust:C++模板庫(kù),簡(jiǎn)化了并行算其他包括cuSPARSE(稀疏矩陣運(yùn)算庫(kù)),NVML(NVIDIA),許多第三方庫(kù)和工具構(gòu)建于CUDA之上,CUDA有強(qiáng)大的社區(qū)支持,包括教程、論壇、博客文章和大學(xué)課程千個(gè)應(yīng)用已部署到嵌入式系統(tǒng)、工作站、數(shù)據(jù)中心和云中的GPU。廣與大學(xué)、研究機(jī)構(gòu)和主要計(jì)算機(jī)廠商合作,幫助C發(fā)人員的注意力,存在先發(fā)優(yōu)勢(shì)。400350300250200150100500CUDA注冊(cè)開(kāi)發(fā)者數(shù)(萬(wàn))1)CUDA可以最大限度地提高NVDIAGPU的性能。CUDA是專為成,CUDA代碼直接編譯到GPU的指令基準(zhǔn)測(cè)試一致表明,CUDA的吞吐量領(lǐng)先于NVIDIA芯片上的執(zhí)行效率通常高出60%;2)CUDA對(duì)深度學(xué)習(xí)的支持度高,CUDA為各種深度學(xué)習(xí)框架(如請(qǐng)務(wù)必閱讀正文之后的免責(zé)條款部分38of41 海外專題研究(美國(guó))分析和調(diào)試工具等,程序員可以直接調(diào)用這些庫(kù)函數(shù)進(jìn)行計(jì)算,如圖72:CUDA-XAI相對(duì)封閉的理念可能會(huì)導(dǎo)致其缺乏靈活性。決方案;請(qǐng)務(wù)必閱讀正文之后的免責(zé)條款部分39of41 海外專題研究(美國(guó))圖73:AMD推出ROCm開(kāi)源平臺(tái)圖73:AMD推出ROCm開(kāi)源平臺(tái)PyTorch等,還提供Ascend云廠商持續(xù)迭代自研芯片及配套硬件的同時(shí),也在積極培育相應(yīng)的軟件生請(qǐng)務(wù)必閱讀正文之后的免責(zé)條款部分40of41 海外專題研究(美國(guó))軟件生態(tài)是影響算力集群效率的重要因素,如果云廠商等不能推出有競(jìng)爭(zhēng)力的ASIC配套軟件生態(tài)服務(wù),那么用戶可能不愿意將工作任務(wù)遷移至持續(xù)進(jìn)行研發(fā)投

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論