“芯”前沿系列:AIGC推動(dòng)存儲(chǔ)架構(gòu)新變革20230815 中金_第1頁(yè)
“芯”前沿系列:AIGC推動(dòng)存儲(chǔ)架構(gòu)新變革20230815 中金_第2頁(yè)
“芯”前沿系列:AIGC推動(dòng)存儲(chǔ)架構(gòu)新變革20230815 中金_第3頁(yè)
“芯”前沿系列:AIGC推動(dòng)存儲(chǔ)架構(gòu)新變革20230815 中金_第4頁(yè)
“芯”前沿系列:AIGC推動(dòng)存儲(chǔ)架構(gòu)新變革20230815 中金_第5頁(yè)
已閱讀5頁(yè),還剩19頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

中金-“芯”前沿系列:AIGC推動(dòng)存儲(chǔ)架構(gòu)新變革原創(chuàng)唐宗其胡炯益等中金點(diǎn)睛2023-08-1507:45發(fā)表于北京中中金研究隨著AIGC的快速發(fā)展,對(duì)上游算力系統(tǒng)的要求不斷提升。在傳統(tǒng)的馮·諾伊曼架構(gòu)中由于處理器設(shè)計(jì)以提升速度為主,而存儲(chǔ)器設(shè)計(jì)更注重容量提升和成本優(yōu)化,導(dǎo)致“存”“算”之間性能錯(cuò)配,產(chǎn)生了阻礙整個(gè)算力系統(tǒng)性能發(fā)揮的內(nèi)存瓶頸。為了克服上述的“內(nèi)存墻”問(wèn)題,存算一體、內(nèi)存池化等技術(shù)逐步發(fā)展。目前在云端算力芯片中HBM已經(jīng)得到較為廣泛的應(yīng)用,而存算一體、CXL等技術(shù)仍然處于發(fā)展初期。我們看到全球巨頭三星英特爾等廠商在上述領(lǐng)域均積極布局,有望推動(dòng)產(chǎn)業(yè)鏈生態(tài)的快速演進(jìn)。摘要有效克服“內(nèi)存墻”瓶頸,存算一體有望成為AI芯片優(yōu)選架構(gòu)之一。存算一體技術(shù)將數(shù)據(jù)存儲(chǔ)和計(jì)算融合在同一個(gè)芯片的同一片區(qū)域中,解決了馮·諾伊曼架構(gòu)存算分離的問(wèn)題。按照計(jì)算方式可以分為數(shù)字計(jì)算和模擬計(jì)算,前者有更高的精度而后者有更低的功耗。我們認(rèn)為存算一體相對(duì)于傳統(tǒng)計(jì)算架構(gòu)有望實(shí)現(xiàn)更高的能效比,更低的時(shí)延,適用于人工智能的較多場(chǎng)景,如穿戴設(shè)備、移動(dòng)終端、智能駕駛等,尤其是對(duì)及時(shí)交互、功耗等有較高要求的邊緣側(cè)及端側(cè)應(yīng)用。AIGC要求高性能顯存,HBM目前是主流方案。HBM相較GDDR能夠大幅提高顯存帶寬,目前HBM2E顯存帶寬已經(jīng)達(dá)到GDDR6的2-3倍。HBM直擊“內(nèi)存墻”痛點(diǎn),提高GPU計(jì)算性能,搭載于NvidiaA100/H100、AMDMI250等中高端數(shù)據(jù)中心GPU。我們認(rèn)為隨著全球各大廠商入局AIGC應(yīng)用,AI服務(wù)器的快速放量已較為確定,作為存儲(chǔ)器中和高性能計(jì)算關(guān)聯(lián)度最高的技術(shù)之一,HBM市場(chǎng)規(guī)模也有望充分受益并實(shí)現(xiàn)高速增長(zhǎng)。CXL進(jìn)一步解決“IO墻”問(wèn)題,國(guó)內(nèi)外廠商爭(zhēng)相布局。CXL是一種全新的互聯(lián)技術(shù)標(biāo)準(zhǔn),其能夠讓CPU與GPU、FPGA或其他加速器之間實(shí)現(xiàn)高速高效的互聯(lián),從而滿足高性能異構(gòu)計(jì)算的要求,并且其維護(hù)CPU內(nèi)存空間和連接設(shè)備內(nèi)存之間的一致性。近年來(lái)隨著元宇宙、人工智能等應(yīng)用導(dǎo)致數(shù)據(jù)量呈現(xiàn)快速增長(zhǎng),我們認(rèn)為CXL提出的內(nèi)存池化可以節(jié)約數(shù)據(jù)中心的建設(shè)成本,有望通過(guò)增加內(nèi)存、容量和帶寬,成為相關(guān)應(yīng)用的重要配合性技術(shù),為服務(wù)器市場(chǎng)的增長(zhǎng)提供支持。目前CXL聯(lián)盟擴(kuò)展出超過(guò)165個(gè)成員,幾乎涵蓋了所有主要的CPU、GPU、內(nèi)存、存儲(chǔ)和網(wǎng)絡(luò)設(shè)備制造商。根據(jù)美光估計(jì)2025年CXL相關(guān)產(chǎn)品的市場(chǎng)規(guī)??蛇_(dá)到20億美元。風(fēng)險(xiǎn)AIGC下游應(yīng)用進(jìn)展不及預(yù)期;AI服務(wù)器出貨量增長(zhǎng)不及預(yù)期。正文存算一體有望解決“內(nèi)存墻”瓶頸有效克服馮·諾伊曼架構(gòu)瓶頸,AI有望成為新驅(qū)動(dòng)馮·諾伊曼架構(gòu)以計(jì)算為中心,存算性能失配導(dǎo)致“內(nèi)存墻”問(wèn)題出現(xiàn)。在傳統(tǒng)的馮·諾伊曼架構(gòu)中,計(jì)算和存儲(chǔ)分離,即在執(zhí)行運(yùn)算時(shí)計(jì)算單元需要從內(nèi)存中讀取數(shù)據(jù),在計(jì)算單元中將數(shù)據(jù)處理完成后再傳輸回存儲(chǔ)器。如今隨著數(shù)據(jù)量越發(fā)龐大加之AI芯片的加速發(fā)展,馮氏架構(gòu)的問(wèn)題也逐漸凸顯:由于處理器設(shè)計(jì)以提升速度為主,存儲(chǔ)器設(shè)計(jì)則更注重容量提升和成本優(yōu)化,導(dǎo)致“存”“算”同時(shí)近年來(lái)處理器性能以每年大約55%的速度提升,內(nèi)存性能的提升速度每年只有10%左右,逐漸導(dǎo)致內(nèi)存的存取速度的發(fā)展滯后于處理器的計(jì)算速度的發(fā)展,產(chǎn)生了阻礙處理器性能發(fā)揮的內(nèi)存瓶頸,即“內(nèi)存墻” (MemoryWall)?!皟?nèi)存墻”的存在使得計(jì)算機(jī)的計(jì)算能力增長(zhǎng)遇到瓶頸,雖然多核并行加速技術(shù)可以提高算力,但存儲(chǔ)帶寬的限制仍對(duì)計(jì)算系統(tǒng)的算力提升產(chǎn)生了制約。圖表1:馮·諾依曼架構(gòu)及異構(gòu)計(jì)算架構(gòu)示意圖資料來(lái)源:郭昕婕等《存內(nèi)計(jì)算芯片研究進(jìn)展及應(yīng)用》(2023年5月),中金公司研究部圖表2:存儲(chǔ)及算力發(fā)展速度存在較大差異存算一體(ComputinginMemory)將存儲(chǔ)與計(jì)算融合,有望克服“內(nèi)存墻”問(wèn)題。存算一體是在存儲(chǔ)器中嵌入計(jì)算能力,以新的運(yùn)算架構(gòu)進(jìn)行二維和三維矩陣乘法/加法運(yùn)算。根據(jù)存儲(chǔ)和計(jì)算的距離遠(yuǎn)近,廣義的存算一體技術(shù)方案可以分為三大類,分別是近存計(jì)算(ProcessingNearMemory,PNM)、存內(nèi)處emoryCIM)。其中,存內(nèi)計(jì)算即狹義的存算一體。存算一體技術(shù)將數(shù)據(jù)存儲(chǔ)和計(jì)算融合在同一個(gè)芯片的同一片區(qū)域中,解決了馮·諾伊曼架構(gòu)存算分離的問(wèn)題,可以有效解決“內(nèi)存墻”問(wèn)題。?近存計(jì)算(PNM)通過(guò)芯片封裝和板卡組裝等方式,將存儲(chǔ)單元和計(jì)算單元集成。因?yàn)榻嬗?jì)算的計(jì)算操作仍在存儲(chǔ)外部,依靠獨(dú)立的計(jì)算單元完成,所以其本質(zhì)上仍是存算分離。近存計(jì)算主要包括存儲(chǔ)上移和計(jì)算下移兩種方式:1)存儲(chǔ)上移:即將存儲(chǔ)器向處理器靠近,通過(guò)增加計(jì)算和存儲(chǔ)之間的鏈路數(shù)量,提HBM即將數(shù)據(jù)處理能力卸載至存儲(chǔ)器,由近端處理器進(jìn)行數(shù)據(jù)處理,降低遠(yuǎn)端處理器處理數(shù)據(jù)時(shí)由于數(shù)據(jù)傳輸造成的成本,典型的方案為可計(jì)算存儲(chǔ)(CSD)。圖表3:高帶寬內(nèi)存方案圖表4:可計(jì)算存儲(chǔ)方案?存內(nèi)處理(PIM)是指將存和算集成在同一個(gè)晶粒中,使存儲(chǔ)器本身具備一定計(jì)算能力。當(dāng)前主流的存內(nèi)處理的方案大多是在DRAM芯片中實(shí)現(xiàn)部分?jǐn)?shù)據(jù)處理,方案實(shí)質(zhì)是通過(guò)在DRAMDie中內(nèi)置處理單元,提供大吞吐低延遲的片上處理能力。與近存計(jì)算一樣,由于存內(nèi)處理的存儲(chǔ)器和處理器仍然是互相獨(dú)立的元件,因此存內(nèi)處理嚴(yán)格來(lái)講仍然是存算分離的,目前存內(nèi)處理典型產(chǎn)品形態(tài)有HBM-PIM和PIM-DIMM。圖表5:基于DRAM的PIM方案實(shí)例?存內(nèi)計(jì)算(CIM)即狹義的存算一體,在芯片中不再區(qū)分存儲(chǔ)單元和計(jì)算單元,實(shí)現(xiàn)真正的存算融合。存內(nèi)運(yùn)算按照計(jì)算方式可以分為數(shù)字計(jì)算和模擬計(jì)算,兩者在以下方面存在差異:1)架構(gòu)特性:數(shù)字計(jì)算是指在存儲(chǔ)器內(nèi)加入邏輯計(jì)算電路,使其具備存儲(chǔ)及計(jì)算能力,并且可以實(shí)現(xiàn)同時(shí)激活全部存儲(chǔ)器陣列;模擬計(jì)算則是將模型權(quán)重保持在存儲(chǔ)器中,將數(shù)據(jù)輸入存儲(chǔ)器內(nèi)部后通過(guò)電流或電壓實(shí)現(xiàn)模擬乘加計(jì)算,再將輸出數(shù)據(jù)通過(guò)外設(shè)電路實(shí)現(xiàn)模數(shù)轉(zhuǎn)換。與模擬計(jì)算相比,數(shù)字計(jì)算有更好的工藝和電壓擴(kuò)展性,計(jì)算誤差更低但同時(shí)單位面積的功耗較大。2)存儲(chǔ)器件及適用的應(yīng)用場(chǎng)景:目前可用于存算一體的成熟工藝存儲(chǔ)器有和FRAM等。模擬存內(nèi)計(jì)算通常使用FLASH、RRAM、PRAM等非易失性介質(zhì)作為存儲(chǔ)器件,能效高,但誤差較大,適用于低精度、低功耗計(jì)算場(chǎng)景,如端側(cè)可穿戴設(shè)備等。而數(shù)字存內(nèi)運(yùn)算主要以SRAM和RRAM作為存儲(chǔ)器件,采用先進(jìn)邏輯工藝,具有高性能高精度的優(yōu)勢(shì),適用于高精度、功耗不敏感的計(jì)算場(chǎng)景,未來(lái)可以應(yīng)用于云邊AI場(chǎng)景。圖表6:模擬及數(shù)字存內(nèi)計(jì)算芯片架構(gòu)示意圖資料來(lái)源:FengbinTu《In-MemoryBoothMultiplicationforCloudDeepLearningAcceleration2),中金公司研究部存算一體技術(shù)發(fā)展已久,近年由于人工智能需求驅(qū)動(dòng)實(shí)現(xiàn)了較快發(fā)展。存算一體技術(shù)最早可以追溯至1969年,斯坦福研究所的WilliamKautz提出了存算一體的概念。1997年加州大學(xué)伯克利分校Patterson等人成功把處理器集成在DRAM內(nèi)存芯片當(dāng)中,實(shí)現(xiàn)智能存算一體的計(jì)算架構(gòu)。但由于芯片設(shè)計(jì)復(fù)雜及成本較高,同時(shí)下游沒(méi)有相應(yīng)的大數(shù)據(jù)需求推動(dòng),早期的存算一體僅停留在研究階段,沒(méi)有得到實(shí)際應(yīng)用。近年來(lái),半導(dǎo)體制造技術(shù)有著較快的發(fā)展,加之AI、元宇宙等算力密集應(yīng)用的崛起,為存算一體技術(shù)提供了新的制造平臺(tái)和產(chǎn)業(yè)驅(qū)動(dòng)力。圖表8:存算一體發(fā)展歷程下游應(yīng)用場(chǎng)景豐富,眾多廠商爭(zhēng)相布局存算一體技術(shù)在人工智能場(chǎng)景中擁有優(yōu)勢(shì),國(guó)內(nèi)外廠商大多有所布局。存算一體適用于人工智能的大部分場(chǎng)景,如穿戴設(shè)備、移動(dòng)終端、智能駕駛和數(shù)據(jù)中心等,按算力大小劃分:1)端側(cè)應(yīng)用場(chǎng)景:相較于傳統(tǒng)解決方案,存算一體可以在單位面積下提供更高的算力并耗費(fèi)更低的功耗,進(jìn)而延長(zhǎng)設(shè)備工作時(shí)間,符合端側(cè)設(shè)備對(duì)于運(yùn)行時(shí)間、功耗、成本等方面的需求,因此存算一體在可穿戴設(shè)備、攝像頭等端側(cè)應(yīng)用場(chǎng)景有較大發(fā)展空間;2)邊側(cè)應(yīng)用場(chǎng)景:邊側(cè)計(jì)算場(chǎng)景例如智慧港口、車聯(lián)網(wǎng)等對(duì)于時(shí)延和散熱要求較高,由于存算一體可以提供較傳統(tǒng)方案高數(shù)倍的算效比,其可以為邊緣AI業(yè)務(wù)提供服務(wù)支持;3)云側(cè)應(yīng)用場(chǎng)景:云側(cè)應(yīng)用場(chǎng)景有著大算力、高帶寬、低功耗等需求特性,而存算一體相較于傳統(tǒng)架構(gòu)能夠更好滿足相應(yīng)需求,有望成為云端應(yīng)用的優(yōu)選架構(gòu)之一。目前各廠商在存算一體的布局方向大致可以分為兩類:?由于落地性更強(qiáng),特斯拉、三星、阿里巴巴等擁有豐富生態(tài)的大廠以及英特爾,IBM等傳統(tǒng)的芯片大廠幾乎都在布局近存計(jì)算(PNM)。例如2021年初,三星發(fā)布基于HBM的新型內(nèi)存,里面集成了AI處理器,該處理器可以實(shí)現(xiàn)高達(dá)1.2TFLOPS的計(jì)算能力,新型HBM-PIM芯片將AI引擎引入每個(gè)存儲(chǔ)庫(kù),從而將處理操作轉(zhuǎn)移到HBM,可以減輕在內(nèi)存和處理器之間搬運(yùn)數(shù)據(jù)的負(fù)擔(dān)。三星表示新型HBM-PIM芯片,可以提高2倍的系統(tǒng)性能,同時(shí)能耗降低了70%以上;而特斯拉在HotChips大會(huì)上公開(kāi)了Dojo(AI訓(xùn)練計(jì)算機(jī))所用的D1芯片由臺(tái)積電制造,其運(yùn)行在2GHz,擁有巨大的440MBSRAM,是存算一體架構(gòu)(近存計(jì)算)。?國(guó)內(nèi)新興AI和存儲(chǔ)企業(yè)則選擇了PIM、CIM等“存”“算”距離更近的存算一體技術(shù)路線,其主要分為以云和邊緣大算力為主及端側(cè)小算力為主兩類,以云和邊緣大算力為主的企業(yè)有億鑄科技、千芯科技、后摩智能、中科聲龍,而以端側(cè)小算力為主的企業(yè)有閃易半導(dǎo)體、Mythic、知存科技、九天睿芯、恒爍半導(dǎo)體、蘋(píng)芯科技等。1)知存科技:2020年推出WTM1001智能語(yǔ)音芯片,使用存算一體芯片架構(gòu)。2022年3月,知存科技旗下存算一體SoC芯片WTM2101正式投入市場(chǎng),5月正式出貨,該芯片采用Flash工藝,處理AI運(yùn)算時(shí)工作功耗最低50uA,峰值算力下功耗低至5mA,適合可穿戴設(shè)備中的智能語(yǔ)音和智能健康服務(wù)。2023年,知存科技將對(duì)WTM2101芯片應(yīng)用場(chǎng)景進(jìn)行拓展,從音頻領(lǐng)域向健康設(shè)備、醫(yī)療設(shè)備、工業(yè)定位等場(chǎng)景擴(kuò)散。2)九天睿芯:2020年5月完成設(shè)計(jì)第一顆感存算一體芯片ADA100,并投片試產(chǎn)。ADA100是一款超低功耗低算力傳感器處理芯片,等效算力1Gops,應(yīng)用于可穿戴/ARVR/AIoT設(shè)備如無(wú)線智能相機(jī)門(mén)鈴、門(mén)鎖、86開(kāi)關(guān)等智能家居產(chǎn)品。2021年5月,ADA200核心片回片,ADA200是基于最新感存算一體技術(shù)架構(gòu)實(shí)現(xiàn)的模數(shù)混合AI視覺(jué)芯片,相比傳統(tǒng)數(shù)字芯片,具備更低功耗,以及超高的能效比。2021年7月以后,ADA100/200全面量產(chǎn)。3)恒爍股份:2019年底成功設(shè)計(jì)出第一版存算一體AI原理驗(yàn)證芯片恒芯1號(hào),在武漢新芯65nmNORFlash制程上流片成功,同時(shí)搭建了一套完整的CiNOR存算一體AI推理系統(tǒng),可實(shí)現(xiàn)人臉檢測(cè)、手寫(xiě)識(shí)別和心電圖檢查(ECG)等多項(xiàng)的系統(tǒng)驗(yàn)證。2023年7月,恒爍股份表示公司的存算一體AI芯片二代將于23年三季度流片[1]。圖表9:國(guó)內(nèi)外代表廠商存算一體進(jìn)展(截至2023年7月)圖表10:特斯拉D1芯片核心架構(gòu)存算一體現(xiàn)處于發(fā)展初期,產(chǎn)業(yè)鏈發(fā)展空間廣闊。存算一體作為底層技術(shù)創(chuàng)新,其需要產(chǎn)業(yè)上游的支撐及下游應(yīng)用的匹配。目前存算一體產(chǎn)業(yè)鏈發(fā)展還不夠完和仿真驗(yàn)證,同時(shí)編譯器的支持不足。而從產(chǎn)業(yè)鏈下游來(lái)看,存算一體芯片可以應(yīng)用的市場(chǎng)將會(huì)從端側(cè)小算力市場(chǎng)如音頻類、健康類及低功耗視覺(jué)等逐步擴(kuò)展到無(wú)人車、泛機(jī)器人、智能駕駛,云計(jì)算等大算力領(lǐng)域。根據(jù)量子位預(yù)測(cè)顯示,國(guó)內(nèi)存算一體芯片市場(chǎng)規(guī)模在2025年有望達(dá)到125億元。HBM助力云端算力芯片加速AI模型演進(jìn)高帶寬小體積等優(yōu)勢(shì)提升數(shù)據(jù)中心GPU中的滲透比率最早期的顯卡采用DDRSDRAM(DDR)作為內(nèi)存。隨著顯卡技術(shù)的不斷發(fā)展,傳統(tǒng)DDRSDRAM(DDR)逐漸難以滿足顯卡的使用需求。1998年,Samsung推出DDRSGRAM(GDDR)。GDDR基于DDR而來(lái),但針對(duì)顯卡應(yīng)用專門(mén)設(shè)計(jì)了工作頻率、時(shí)鐘頻率、電壓,一般來(lái)說(shuō)GDDR相較于DDR時(shí)鐘頻率更高,發(fā)熱量更小,以達(dá)到更好的工作性能。GDDR是目前應(yīng)用較為廣泛的顯存技術(shù)。但隨著GPGPU的出現(xiàn),GPU越來(lái)越多地被應(yīng)用于高性能計(jì)算,在AI計(jì)算領(lǐng)域GDDR也難堪重任,于是人們將目光投向HBM技術(shù)。HBM(highbandwidthmemory)指高帶寬內(nèi)存,本身也是SDRAM芯片,核心思想是通過(guò)將多顆相關(guān)顆粒堆疊封裝來(lái)提高帶寬。顯存的重要性能指標(biāo)有3個(gè):顯存頻率(800MHz、1,200MHz、1,600MHz、2,200MHz)、顯存位寬(32位、64位、128位、256位、512位、1,024位)、顯存帶寬(顯存帶寬=顯存頻率×顯存額位寬/8bit)。通過(guò)TSV堆棧的方式,HBM能達(dá)到更高的I/O數(shù)量,使得顯存位寬達(dá)到1,024位,幾乎是GDDR的32倍,顯存帶寬顯著提升,此外還具有更低功耗、更小外形等優(yōu)勢(shì)。顯存帶寬顯著提升解決了過(guò)去AI計(jì)算“內(nèi)存墻”的問(wèn)題,HBM逐步提高在中高端數(shù)據(jù)中心GPU中的滲透比率。圖表11:HBMv.s.GDDR(封裝形式對(duì)比)DDRGDDRHBMHBMEHBMEGDDR的2-3倍。目前HBM3已初步商用,GDDR7標(biāo)準(zhǔn)也將確定,我們預(yù)計(jì)未來(lái)中短期HBM3和GDDR7將成為主流標(biāo)準(zhǔn),而HBM3在顯存帶寬方面有望達(dá)到GDDR7的4倍。圖表12:HBM2Ev.s.GDDR6(技術(shù)指標(biāo)對(duì)比)圖表13:HBM3v.s.GDDR7(技術(shù)指標(biāo)對(duì)比)不過(guò),HBM相較于其他種類的內(nèi)存也并非沒(méi)有缺點(diǎn),成本偏高、頻率偏低使得其基本上目前只應(yīng)用于中高端數(shù)據(jù)中心GPU及少數(shù)ASIC:?缺點(diǎn)#1:缺乏靈活性,HBM與主芯片通常封裝在一起,不存在擴(kuò)容可能。DDR產(chǎn)品形態(tài)穩(wěn)定、標(biāo)準(zhǔn)化程度高,HBM封裝的低靈活性對(duì)OEM廠商成本帶來(lái)困難。雖然消費(fèi)者市場(chǎng)對(duì)拓展性要求不高(如IntelLakefield、AppleM1),但目前HBM的成本使之望而卻步。?缺點(diǎn)#2:HBM容量偏小,一些高階的服務(wù)器DIMM達(dá)到96個(gè),采用128GBRDIMM最多能達(dá)到12TB,HBM8層晶粒也不過(guò)32GB,再結(jié)合成本考慮,更加無(wú)法滿足數(shù)據(jù)中心要求。?缺點(diǎn)#3:訪問(wèn)延遲高,HBM的頻率低于DDR/GDDR(由TSV封裝決定,并行線路多時(shí)頻率過(guò)高會(huì)有散熱問(wèn)題),CPU處理的任務(wù)具有較大的不可預(yù)測(cè)性,對(duì)延遲的敏感程度較高,而在GPU則對(duì)此并不敏感。2015年,HBM技術(shù)首次得到商業(yè)應(yīng)用。該年,AMD和SKHynix協(xié)作推出了搭配HBM的RadeonR9Fury/FuryX/Nano。2016年前后,Nvidia開(kāi)始在TeslaP100、TeslaV100中應(yīng)用HBM顯存。經(jīng)過(guò)近幾年的探索,HBM技術(shù)逐步在中高端GPU得到應(yīng)用,例如NvidiaA100/100、AMDMI250等產(chǎn)品。圖表14:AMD、Nvidia采用HBM顯存GPU匯總目前,SKHynix、Samsung等廠商在HBM產(chǎn)業(yè)鏈中承擔(dān)前道晶圓廠和中道封測(cè)廠的角色,臺(tái)積電等廠商承擔(dān)后道封測(cè)廠的角色。SKHynix、Samsung、臺(tái)積電三家企業(yè)在產(chǎn)業(yè)鏈中最具地位:作為全球最早商業(yè)化HBM技術(shù)的企業(yè),SKHynix、Samsung具備較強(qiáng)的先發(fā)優(yōu)勢(shì),尤其是SKHynix,幾乎占據(jù)著全球HBM存儲(chǔ)顆粒出貨量的70%;臺(tái)積電為Nvidia、AMD提供GPU晶圓代工服務(wù),并在2.5D封裝(臺(tái)積電稱為CoWoS封裝)領(lǐng)域較早布局,具備一體化優(yōu)勢(shì)。AIGC有望推動(dòng)HBM市場(chǎng)規(guī)模高速增長(zhǎng)單塊顯卡模組的顯存容量細(xì)節(jié)可由生產(chǎn)廠家官網(wǎng)披露的Datasheet查詢得到,下面我們以Nvidia的A10040GB、A10080GB為例進(jìn)行說(shuō)明。?1塊NvidiaA10040GB顯卡模組中間是一顆A100GPU處理器(采用臺(tái)積電7nm工藝制造),在處理器的四周圍繞著6塊HBM2堆棧,主要由SKHynix提供,采取了8Hi(8顆存儲(chǔ)顆粒+1顆邏輯顆粒)的堆疊方案,每顆HBM堆棧顯存容量為8GB。雖然一塊NvidiaA10040GB顯卡模組搭配了6塊HBM2堆棧,但是在實(shí)際工作過(guò)程中,通常有1塊HBM堆棧處于屏蔽狀態(tài),因此顯存總量實(shí)際為5×8GB=40GB。?NvidiaA10080GB顯卡模組相較于NvidiaA10040GB顯卡模組的不同之處在于,將6塊HBM2堆棧升級(jí)成了6塊HBM2E堆棧(單堆棧顯存由8GB升級(jí)為16GB),同樣在實(shí)際工作過(guò)程中,也有1塊HBM堆棧處于屏蔽狀態(tài),因此×16GB=80GB。diaAGB2022年下半年以來(lái),ChatGPT、AI繪畫(huà)等應(yīng)用日益成熟使得全球互聯(lián)網(wǎng)大廠、AIGC初創(chuàng)企業(yè)、行業(yè)龍頭均在積極布局AIGC領(lǐng)域,加大了對(duì)AI服務(wù)器的采購(gòu),特別是中高端AI服務(wù)器的采購(gòu),我們認(rèn)為這將大幅度帶動(dòng)HBM市場(chǎng)規(guī)模的提升。我們通過(guò)假設(shè)推理/訓(xùn)練AI服務(wù)器出貨量、推理/訓(xùn)練AI服務(wù)器HBM滲透率等指標(biāo)測(cè)算得到2023/2024/2025年中高端GPU所帶來(lái)的HBM(僅存儲(chǔ)堆棧)市場(chǎng)規(guī)模為4.11/8.63/16.53億美元??紤]到HBM還能夠應(yīng)用于ASIC認(rèn)為實(shí)際創(chuàng)造的市場(chǎng)規(guī)模還將更大。根據(jù)SKHynix測(cè)算,2025年市場(chǎng)規(guī)模有望增長(zhǎng)至24.97億美元。圖表17:AI服務(wù)器GPU對(duì)HBM的拉動(dòng)CXL:滿足高性能異構(gòu)計(jì)算要求的互聯(lián)方案有望實(shí)現(xiàn)算力芯片間的高效互聯(lián)和內(nèi)存一致性CXL(ComputeExpressLink)技術(shù)可追溯至PCIe(PeripheralComponentInterconnectExpress)技術(shù),為解決“內(nèi)存墻”和“IO墻”問(wèn)題提供方案。PCIe是用于連接計(jì)算機(jī)內(nèi)部組件的一種標(biāo)準(zhǔn)接口技術(shù),其將電腦內(nèi)部的所有接口實(shí)現(xiàn)了統(tǒng)一,PCIe設(shè)備可以通過(guò)發(fā)起DMA來(lái)訪問(wèn)內(nèi)存,但同時(shí)由于主存與設(shè)備內(nèi)存的割裂,導(dǎo)致其延遲較高,產(chǎn)生IO墻問(wèn)題。即內(nèi)存墻問(wèn)題由存算分離的架構(gòu)產(chǎn)生,而IO墻問(wèn)題則產(chǎn)生于外部存儲(chǔ)。CXL是一種全新的互聯(lián)技術(shù)標(biāo)準(zhǔn),其能夠讓CPU與GPU、FPGA或其他加速器之間實(shí)現(xiàn)高速高效的互聯(lián),從而滿足高性能異構(gòu)計(jì)算的要求,并且其維護(hù)CPU內(nèi)存空間和連接設(shè)備內(nèi)存之間的一致性。CXL協(xié)議由匯總到單個(gè)鏈路的三個(gè)動(dòng)態(tài)多路通信子協(xié)議組成。這些協(xié)議分別稱為CXL.io、CXL.cache和CXL.memory。CXL設(shè)備連接到CXL主機(jī)時(shí),通過(guò)CXL.io協(xié)議進(jìn)行發(fā)現(xiàn)、枚舉、配置和管理。CXL.cache允許設(shè)備訪問(wèn)主存和CXL.memory協(xié)議棧已通過(guò)優(yōu)化實(shí)現(xiàn)低延遲。CXL.io協(xié)議用于初始化和鏈接,所以必須獲得所有CXL設(shè)備的支持,而其他兩個(gè)協(xié)議的不同組合產(chǎn)生了總共三種被定義并受CXL標(biāo)準(zhǔn)支持的獨(dú)特CXL設(shè)備類型。CXL的定義之下,三種不同內(nèi)存是直接使用CPU內(nèi)存,其優(yōu)勢(shì)在于CPU處理數(shù)據(jù)時(shí)非???,通常只支持CXL.io和CXL.cache協(xié)議;2)既有緩存,也有內(nèi)存:常見(jiàn)于GPU、AI等應(yīng)用的內(nèi)存加速器,支持CXL.io、CXL.cache和CXL.memory三種協(xié)議;3)只有內(nèi)存沒(méi)有緩存:通常是作為內(nèi)存緩沖器,常用作內(nèi)存帶寬或者是容量的擴(kuò)展,它支持CXL.io和CXL.memory兩種協(xié)議。XLCXL自提出至今已迭代CXL1.0/1.1、2.0和3.0三個(gè)版本,有著非常清晰的技術(shù)發(fā)展路線圖。從CXL1.0/1.1發(fā)展至CXL3.0,一些特性得以增強(qiáng),基于PCIe6.0技術(shù)的CXL3.0帶寬提升了兩倍,同時(shí)將傳輸速率提高了一倍,達(dá)到了64GT/s,并且沒(méi)有額外的延遲。同時(shí),從CXL2.0開(kāi)始,該技術(shù)超出了單機(jī)的范疇,衍生出了內(nèi)存池的概念。CXL3.0在內(nèi)存池以外,還引入了內(nèi)存共享和內(nèi)存訪問(wèn),突破了某一個(gè)物理內(nèi)存只能屬于某一臺(tái)服務(wù)器的限制,使得多機(jī)同時(shí)訪問(wèn)同一內(nèi)存地址成為可能,進(jìn)一步增強(qiáng)了CXL的內(nèi)存一致性。內(nèi)存池(MemoryPolling)是一種將CXL附加的內(nèi)存當(dāng)作可替代資源的功能,可以根據(jù)需要靈活地分配和釋放到不同的服務(wù)器中。內(nèi)存池化使得系統(tǒng)設(shè)計(jì)者在獲得最佳性能的同時(shí)不會(huì)過(guò)度配置每臺(tái)服務(wù)器。以DRAM為例,計(jì)算中心的成本中DRAM占據(jù)較高比例,根據(jù)微軟數(shù)據(jù)顯示,50%的服務(wù)器總成本來(lái)自DRAM,但在成本較高的同時(shí)DRAM的使用效率并不高。如果引入DRAM池于CXL目前已經(jīng)完全支持池化技術(shù),如果該理念得到廣泛應(yīng)用,內(nèi)存將成為提高服務(wù)器性能的重要手段之一。行業(yè)領(lǐng)軍廠商積極推動(dòng),長(zhǎng)期市場(chǎng)空間廣闊CXL處于發(fā)展前期,龍頭廠商推動(dòng)市場(chǎng)空間有望快速成長(zhǎng)。CXL技術(shù)需要較多的硬件支持,例如芯片、主板等,同時(shí),在解決延遲問(wèn)題方面,CXL技術(shù)還需要相關(guān)軟件的支持,當(dāng)前CXL技術(shù)的應(yīng)用成本及復(fù)雜程度還較高。盡管協(xié)議推出時(shí)間與其他互聯(lián)技術(shù)相比較晚,CXL生態(tài)建設(shè)處于起步階段,但有著CPU行業(yè)牽頭,聯(lián)合谷歌、微軟、HPE、戴爾易安信、思科、Meta和華為成立CXL聯(lián)盟,推出了基于PCIe5.0的第一版規(guī)范。此后,AMD、英偉達(dá)、三星、Arm、瑞薩、IBM等頭部廠商相繼加入。近兩年,CXL聯(lián)盟擴(kuò)展出超過(guò)165個(gè)成員,幾乎涵蓋了所有主要的CPU、GPU、內(nèi)存、存儲(chǔ)和網(wǎng)絡(luò)設(shè)備制造商。根據(jù)美光科技在2022年5月召開(kāi)的投資人說(shuō)明會(huì)資料顯示,受異構(gòu)計(jì)算快速發(fā)展的驅(qū)動(dòng),2025年CXL相關(guān)產(chǎn)品的市場(chǎng)規(guī)??蛇_(dá)到20億美元。圖表21:CXL市場(chǎng)空間展望(億美元)資料來(lái)源:美光2022InvestorDay,中金公司研究部各大廠商積極布局,產(chǎn)業(yè)鏈有望充分收益。一方面,CXL可以通過(guò)在CPU、GPU及FPGA等之間建立高速低延遲的互聯(lián),以更有效地利用加速器和存儲(chǔ)設(shè)備,從而帶動(dòng)相關(guān)CXL控制器等芯片設(shè)計(jì)廠商的發(fā)展。同時(shí)CXL2.0提出的內(nèi)存池化可以節(jié)約數(shù)據(jù)中心的建設(shè)成本,也將帶動(dòng)DRAM的用量。而從下游需求來(lái)看,近年來(lái)元宇宙、人工智能和大數(shù)據(jù)服務(wù)等導(dǎo)致數(shù)據(jù)量呈現(xiàn)快速增長(zhǎng),CXL有望通過(guò)增加內(nèi)存、容量和帶寬,成為相關(guān)應(yīng)用的重要配合性技術(shù),為服務(wù)器廠商等的增長(zhǎng)提供支持。目前CXL領(lǐng)域主要廠商及其進(jìn)展有:1)SK海力士:2022年8月開(kāi)發(fā)出首款基于DDR5DRAM的CXL存儲(chǔ)器樣品,并表示將擴(kuò)大CXL存儲(chǔ)器生態(tài)系統(tǒng);2022

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論