“芯”前沿系列：AIGC推動(dòng)存儲(chǔ)架構(gòu)新變革20230815 中金

上傳人：1*** IP屬地：北京上傳時(shí)間：2023-08-17 格式：DOCX 頁數(shù)：24 大?。?64.80KB 積分：39.8 舉報(bào) 版權(quán)申訴

“芯”前沿系列：AIGC推動(dòng)存儲(chǔ)架構(gòu)新變革20230815 中金_第2頁

“芯”前沿系列：AIGC推動(dòng)存儲(chǔ)架構(gòu)新變革20230815 中金_第3頁

“芯”前沿系列：AIGC推動(dòng)存儲(chǔ)架構(gòu)新變革20230815 中金_第4頁

“芯”前沿系列：AIGC推動(dòng)存儲(chǔ)架構(gòu)新變革20230815 中金_第5頁

已閱讀5頁，還剩19頁未讀，繼續(xù)免費(fèi)閱讀

版權(quán)說明：本文檔由用戶提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

中金-“芯”前沿系列：AIGC推動(dòng)存儲(chǔ)架構(gòu)新變革原創(chuàng)唐宗其胡炯益等中金點(diǎn)睛2023-08-1507:45發(fā)表于北京中中金研究隨著AIGC的快速發(fā)展，對上游算力系統(tǒng)的要求不斷提升。在傳統(tǒng)的馮·諾伊曼架構(gòu)中由于處理器設(shè)計(jì)以提升速度為主，而存儲(chǔ)器設(shè)計(jì)更注重容量提升和成本優(yōu)化，導(dǎo)致“存”“算”之間性能錯(cuò)配，產(chǎn)生了阻礙整個(gè)算力系統(tǒng)性能發(fā)揮的內(nèi)存瓶頸。為了克服上述的“內(nèi)存墻”問題，存算一體、內(nèi)存池化等技術(shù)逐步發(fā)展。目前在云端算力芯片中HBM已經(jīng)得到較為廣泛的應(yīng)用，而存算一體、CXL等技術(shù)仍然處于發(fā)展初期。我們看到全球巨頭三星英特爾等廠商在上述領(lǐng)域均積極布局，有望推動(dòng)產(chǎn)業(yè)鏈生態(tài)的快速演進(jìn)。摘要有效克服“內(nèi)存墻”瓶頸，存算一體有望成為AI芯片優(yōu)選架構(gòu)之一。存算一體技術(shù)將數(shù)據(jù)存儲(chǔ)和計(jì)算融合在同一個(gè)芯片的同一片區(qū)域中，解決了馮·諾伊曼架構(gòu)存算分離的問題。按照計(jì)算方式可以分為數(shù)字計(jì)算和模擬計(jì)算，前者有更高的精度而后者有更低的功耗。我們認(rèn)為存算一體相對于傳統(tǒng)計(jì)算架構(gòu)有望實(shí)現(xiàn)更高的能效比，更低的時(shí)延，適用于人工智能的較多場景，如穿戴設(shè)備、移動(dòng)終端、智能駕駛等，尤其是對及時(shí)交互、功耗等有較高要求的邊緣側(cè)及端側(cè)應(yīng)用。AIGC要求高性能顯存，HBM目前是主流方案。HBM相較GDDR能夠大幅提高顯存帶寬，目前HBM2E顯存帶寬已經(jīng)達(dá)到GDDR6的2-3倍。HBM直擊“內(nèi)存墻”痛點(diǎn)，提高GPU計(jì)算性能，搭載于NvidiaA100/H100、AMDMI250等中高端數(shù)據(jù)中心GPU。我們認(rèn)為隨著全球各大廠商入局AIGC應(yīng)用，AI服務(wù)器的快速放量已較為確定，作為存儲(chǔ)器中和高性能計(jì)算關(guān)聯(lián)度最高的技術(shù)之一，HBM市場規(guī)模也有望充分受益并實(shí)現(xiàn)高速增長。CXL進(jìn)一步解決“IO墻”問題，國內(nèi)外廠商爭相布局。CXL是一種全新的互聯(lián)技術(shù)標(biāo)準(zhǔn)，其能夠讓CPU與GPU、FPGA或其他加速器之間實(shí)現(xiàn)高速高效的互聯(lián)，從而滿足高性能異構(gòu)計(jì)算的要求，并且其維護(hù)CPU內(nèi)存空間和連接設(shè)備內(nèi)存之間的一致性。近年來隨著元宇宙、人工智能等應(yīng)用導(dǎo)致數(shù)據(jù)量呈現(xiàn)快速增長，我們認(rèn)為CXL提出的內(nèi)存池化可以節(jié)約數(shù)據(jù)中心的建設(shè)成本，有望通過增加內(nèi)存、容量和帶寬，成為相關(guān)應(yīng)用的重要配合性技術(shù)，為服務(wù)器市場的增長提供支持。目前CXL聯(lián)盟擴(kuò)展出超過165個(gè)成員，幾乎涵蓋了所有主要的CPU、GPU、內(nèi)存、存儲(chǔ)和網(wǎng)絡(luò)設(shè)備制造商。根據(jù)美光估計(jì)2025年CXL相關(guān)產(chǎn)品的市場規(guī)?？蛇_(dá)到20億美元。風(fēng)險(xiǎn)AIGC下游應(yīng)用進(jìn)展不及預(yù)期；AI服務(wù)器出貨量增長不及預(yù)期。正文存算一體有望解決“內(nèi)存墻”瓶頸有效克服馮·諾伊曼架構(gòu)瓶頸，AI有望成為新驅(qū)動(dòng)馮·諾伊曼架構(gòu)以計(jì)算為中心，存算性能失配導(dǎo)致“內(nèi)存墻”問題出現(xiàn)。在傳統(tǒng)的馮·諾伊曼架構(gòu)中，計(jì)算和存儲(chǔ)分離，即在執(zhí)行運(yùn)算時(shí)計(jì)算單元需要從內(nèi)存中讀取數(shù)據(jù)，在計(jì)算單元中將數(shù)據(jù)處理完成后再傳輸回存儲(chǔ)器。如今隨著數(shù)據(jù)量越發(fā)龐大加之AI芯片的加速發(fā)展，馮氏架構(gòu)的問題也逐漸凸顯：由于處理器設(shè)計(jì)以提升速度為主，存儲(chǔ)器設(shè)計(jì)則更注重容量提升和成本優(yōu)化，導(dǎo)致“存”“算”同時(shí)近年來處理器性能以每年大約55%的速度提升，內(nèi)存性能的提升速度每年只有10%左右，逐漸導(dǎo)致內(nèi)存的存取速度的發(fā)展滯后于處理器的計(jì)算速度的發(fā)展，產(chǎn)生了阻礙處理器性能發(fā)揮的內(nèi)存瓶頸，即“內(nèi)存墻” (MemoryWall)。“內(nèi)存墻”的存在使得計(jì)算機(jī)的計(jì)算能力增長遇到瓶頸，雖然多核并行加速技術(shù)可以提高算力，但存儲(chǔ)帶寬的限制仍對計(jì)算系統(tǒng)的算力提升產(chǎn)生了制約。圖表1：馮·諾依曼架構(gòu)及異構(gòu)計(jì)算架構(gòu)示意圖資料來源：郭昕婕等《存內(nèi)計(jì)算芯片研究進(jìn)展及應(yīng)用》(2023年5月)，中金公司研究部圖表2：存儲(chǔ)及算力發(fā)展速度存在較大差異存算一體(ComputinginMemory)將存儲(chǔ)與計(jì)算融合，有望克服“內(nèi)存墻”問題。存算一體是在存儲(chǔ)器中嵌入計(jì)算能力，以新的運(yùn)算架構(gòu)進(jìn)行二維和三維矩陣乘法/加法運(yùn)算。根據(jù)存儲(chǔ)和計(jì)算的距離遠(yuǎn)近，廣義的存算一體技術(shù)方案可以分為三大類，分別是近存計(jì)算(ProcessingNearMemory，PNM)、存內(nèi)處emoryCIM)。其中，存內(nèi)計(jì)算即狹義的存算一體。存算一體技術(shù)將數(shù)據(jù)存儲(chǔ)和計(jì)算融合在同一個(gè)芯片的同一片區(qū)域中，解決了馮·諾伊曼架構(gòu)存算分離的問題，可以有效解決“內(nèi)存墻”問題。?近存計(jì)算(PNM)通過芯片封裝和板卡組裝等方式，將存儲(chǔ)單元和計(jì)算單元集成。因?yàn)榻嬗?jì)算的計(jì)算操作仍在存儲(chǔ)外部，依靠獨(dú)立的計(jì)算單元完成，所以其本質(zhì)上仍是存算分離。近存計(jì)算主要包括存儲(chǔ)上移和計(jì)算下移兩種方式：1)存儲(chǔ)上移：即將存儲(chǔ)器向處理器靠近，通過增加計(jì)算和存儲(chǔ)之間的鏈路數(shù)量，提HBM即將數(shù)據(jù)處理能力卸載至存儲(chǔ)器，由近端處理器進(jìn)行數(shù)據(jù)處理，降低遠(yuǎn)端處理器處理數(shù)據(jù)時(shí)由于數(shù)據(jù)傳輸造成的成本，典型的方案為可計(jì)算存儲(chǔ)(CSD)。圖表3：高帶寬內(nèi)存方案圖表4：可計(jì)算存儲(chǔ)方案?存內(nèi)處理(PIM)是指將存和算集成在同一個(gè)晶粒中，使存儲(chǔ)器本身具備一定計(jì)算能力。當(dāng)前主流的存內(nèi)處理的方案大多是在DRAM芯片中實(shí)現(xiàn)部分?jǐn)?shù)據(jù)處理，方案實(shí)質(zhì)是通過在DRAMDie中內(nèi)置處理單元，提供大吞吐低延遲的片上處理能力。與近存計(jì)算一樣，由于存內(nèi)處理的存儲(chǔ)器和處理器仍然是互相獨(dú)立的元件，因此存內(nèi)處理嚴(yán)格來講仍然是存算分離的，目前存內(nèi)處理典型產(chǎn)品形態(tài)有HBM-PIM和PIM-DIMM。圖表5：基于DRAM的PIM方案實(shí)例?存內(nèi)計(jì)算(CIM)即狹義的存算一體，在芯片中不再區(qū)分存儲(chǔ)單元和計(jì)算單元，實(shí)現(xiàn)真正的存算融合。存內(nèi)運(yùn)算按照計(jì)算方式可以分為數(shù)字計(jì)算和模擬計(jì)算，兩者在以下方面存在差異：1)架構(gòu)特性：數(shù)字計(jì)算是指在存儲(chǔ)器內(nèi)加入邏輯計(jì)算電路，使其具備存儲(chǔ)及計(jì)算能力，并且可以實(shí)現(xiàn)同時(shí)激活全部存儲(chǔ)器陣列；模擬計(jì)算則是將模型權(quán)重保持在存儲(chǔ)器中，將數(shù)據(jù)輸入存儲(chǔ)器內(nèi)部后通過電流或電壓實(shí)現(xiàn)模擬乘加計(jì)算，再將輸出數(shù)據(jù)通過外設(shè)電路實(shí)現(xiàn)模數(shù)轉(zhuǎn)換。與模擬計(jì)算相比，數(shù)字計(jì)算有更好的工藝和電壓擴(kuò)展性，計(jì)算誤差更低但同時(shí)單位面積的功耗較大。2)存儲(chǔ)器件及適用的應(yīng)用場景：目前可用于存算一體的成熟工藝存儲(chǔ)器有和FRAM等。模擬存內(nèi)計(jì)算通常使用FLASH、RRAM、PRAM等非易失性介質(zhì)作為存儲(chǔ)器件，能效高，但誤差較大，適用于低精度、低功耗計(jì)算場景，如端側(cè)可穿戴設(shè)備等。而數(shù)字存內(nèi)運(yùn)算主要以SRAM和RRAM作為存儲(chǔ)器件，采用先進(jìn)邏輯工藝，具有高性能高精度的優(yōu)勢，適用于高精度、功耗不敏感的計(jì)算場景，未來可以應(yīng)用于云邊AI場景。圖表6：模擬及數(shù)字存內(nèi)計(jì)算芯片架構(gòu)示意圖資料來源：FengbinTu《In-MemoryBoothMultiplicationforCloudDeepLearningAcceleration2)，中金公司研究部存算一體技術(shù)發(fā)展已久，近年由于人工智能需求驅(qū)動(dòng)實(shí)現(xiàn)了較快發(fā)展。存算一體技術(shù)最早可以追溯至1969年，斯坦福研究所的WilliamKautz提出了存算一體的概念。1997年加州大學(xué)伯克利分校Patterson等人成功把處理器集成在DRAM內(nèi)存芯片當(dāng)中，實(shí)現(xiàn)智能存算一體的計(jì)算架構(gòu)。但由于芯片設(shè)計(jì)復(fù)雜及成本較高，同時(shí)下游沒有相應(yīng)的大數(shù)據(jù)需求推動(dòng)，早期的存算一體僅停留在研究階段，沒有得到實(shí)際應(yīng)用。近年來,半導(dǎo)體制造技術(shù)有著較快的發(fā)展，加之AI、元宇宙等算力密集應(yīng)用的崛起，為存算一體技術(shù)提供了新的制造平臺和產(chǎn)業(yè)驅(qū)動(dòng)力。圖表8：存算一體發(fā)展歷程下游應(yīng)用場景豐富，眾多廠商爭相布局存算一體技術(shù)在人工智能場景中擁有優(yōu)勢，國內(nèi)外廠商大多有所布局。存算一體適用于人工智能的大部分場景，如穿戴設(shè)備、移動(dòng)終端、智能駕駛和數(shù)據(jù)中心等，按算力大小劃分：1)端側(cè)應(yīng)用場景：相較于傳統(tǒng)解決方案，存算一體可以在單位面積下提供更高的算力并耗費(fèi)更低的功耗，進(jìn)而延長設(shè)備工作時(shí)間，符合端側(cè)設(shè)備對于運(yùn)行時(shí)間、功耗、成本等方面的需求，因此存算一體在可穿戴設(shè)備、攝像頭等端側(cè)應(yīng)用場景有較大發(fā)展空間；2)邊側(cè)應(yīng)用場景：邊側(cè)計(jì)算場景例如智慧港口、車聯(lián)網(wǎng)等對于時(shí)延和散熱要求較高，由于存算一體可以提供較傳統(tǒng)方案高數(shù)倍的算效比，其可以為邊緣AI業(yè)務(wù)提供服務(wù)支持；3)云側(cè)應(yīng)用場景：云側(cè)應(yīng)用場景有著大算力、高帶寬、低功耗等需求特性，而存算一體相較于傳統(tǒng)架構(gòu)能夠更好滿足相應(yīng)需求，有望成為云端應(yīng)用的優(yōu)選架構(gòu)之一。目前各廠商在存算一體的布局方向大致可以分為兩類：?由于落地性更強(qiáng)，特斯拉、三星、阿里巴巴等擁有豐富生態(tài)的大廠以及英特爾，IBM等傳統(tǒng)的芯片大廠幾乎都在布局近存計(jì)算(PNM)。例如2021年初，三星發(fā)布基于HBM的新型內(nèi)存，里面集成了AI處理器，該處理器可以實(shí)現(xiàn)高達(dá)1.2TFLOPS的計(jì)算能力，新型HBM-PIM芯片將AI引擎引入每個(gè)存儲(chǔ)庫，從而將處理操作轉(zhuǎn)移到HBM，可以減輕在內(nèi)存和處理器之間搬運(yùn)數(shù)據(jù)的負(fù)擔(dān)。三星表示新型HBM-PIM芯片，可以提高2倍的系統(tǒng)性能，同時(shí)能耗降低了70%以上；而特斯拉在HotChips大會(huì)上公開了Dojo(AI訓(xùn)練計(jì)算機(jī))所用的D1芯片由臺積電制造，其運(yùn)行在2GHz，擁有巨大的440MBSRAM，是存算一體架構(gòu)(近存計(jì)算)。?國內(nèi)新興AI和存儲(chǔ)企業(yè)則選擇了PIM、CIM等“存”“算”距離更近的存算一體技術(shù)路線，其主要分為以云和邊緣大算力為主及端側(cè)小算力為主兩類，以云和邊緣大算力為主的企業(yè)有億鑄科技、千芯科技、后摩智能、中科聲龍，而以端側(cè)小算力為主的企業(yè)有閃易半導(dǎo)體、Mythic、知存科技、九天睿芯、恒爍半導(dǎo)體、蘋芯科技等。1)知存科技：2020年推出WTM1001智能語音芯片，使用存算一體芯片架構(gòu)。2022年3月，知存科技旗下存算一體SoC芯片WTM2101正式投入市場，5月正式出貨，該芯片采用Flash工藝，處理AI運(yùn)算時(shí)工作功耗最低50uA，峰值算力下功耗低至5mA，適合可穿戴設(shè)備中的智能語音和智能健康服務(wù)。2023年，知存科技將對WTM2101芯片應(yīng)用場景進(jìn)行拓展，從音頻領(lǐng)域向健康設(shè)備、醫(yī)療設(shè)備、工業(yè)定位等場景擴(kuò)散。2)九天睿芯：2020年5月完成設(shè)計(jì)第一顆感存算一體芯片ADA100，并投片試產(chǎn)。ADA100是一款超低功耗低算力傳感器處理芯片，等效算力1Gops，應(yīng)用于可穿戴/ARVR/AIoT設(shè)備如無線智能相機(jī)門鈴、門鎖、86開關(guān)等智能家居產(chǎn)品。2021年5月，ADA200核心片回片，ADA200是基于最新感存算一體技術(shù)架構(gòu)實(shí)現(xiàn)的模數(shù)混合AI視覺芯片，相比傳統(tǒng)數(shù)字芯片，具備更低功耗，以及超高的能效比。2021年7月以后，ADA100/200全面量產(chǎn)。3)恒爍股份：2019年底成功設(shè)計(jì)出第一版存算一體AI原理驗(yàn)證芯片恒芯1號，在武漢新芯65nmNORFlash制程上流片成功，同時(shí)搭建了一套完整的CiNOR存算一體AI推理系統(tǒng)，可實(shí)現(xiàn)人臉檢測、手寫識別和心電圖檢查(ECG)等多項(xiàng)的系統(tǒng)驗(yàn)證。2023年7月，恒爍股份表示公司的存算一體AI芯片二代將于23年三季度流片[1]。圖表9：國內(nèi)外代表廠商存算一體進(jìn)展(截至2023年7月)圖表10：特斯拉D1芯片核心架構(gòu)存算一體現(xiàn)處于發(fā)展初期，產(chǎn)業(yè)鏈發(fā)展空間廣闊。存算一體作為底層技術(shù)創(chuàng)新，其需要產(chǎn)業(yè)上游的支撐及下游應(yīng)用的匹配。目前存算一體產(chǎn)業(yè)鏈發(fā)展還不夠完和仿真驗(yàn)證，同時(shí)編譯器的支持不足。而從產(chǎn)業(yè)鏈下游來看，存算一體芯片可以應(yīng)用的市場將會(huì)從端側(cè)小算力市場如音頻類、健康類及低功耗視覺等逐步擴(kuò)展到無人車、泛機(jī)器人、智能駕駛，云計(jì)算等大算力領(lǐng)域。根據(jù)量子位預(yù)測顯示，國內(nèi)存算一體芯片市場規(guī)模在2025年有望達(dá)到125億元。HBM助力云端算力芯片加速AI模型演進(jìn)高帶寬小體積等優(yōu)勢提升數(shù)據(jù)中心GPU中的滲透比率最早期的顯卡采用DDRSDRAM(DDR)作為內(nèi)存。隨著顯卡技術(shù)的不斷發(fā)展，傳統(tǒng)DDRSDRAM(DDR)逐漸難以滿足顯卡的使用需求。1998年，Samsung推出DDRSGRAM(GDDR)。GDDR基于DDR而來，但針對顯卡應(yīng)用專門設(shè)計(jì)了工作頻率、時(shí)鐘頻率、電壓，一般來說GDDR相較于DDR時(shí)鐘頻率更高，發(fā)熱量更小，以達(dá)到更好的工作性能。GDDR是目前應(yīng)用較為廣泛的顯存技術(shù)。但隨著GPGPU的出現(xiàn)，GPU越來越多地被應(yīng)用于高性能計(jì)算，在AI計(jì)算領(lǐng)域GDDR也難堪重任，于是人們將目光投向HBM技術(shù)。HBM(highbandwidthmemory)指高帶寬內(nèi)存，本身也是SDRAM芯片，核心思想是通過將多顆相關(guān)顆粒堆疊封裝來提高帶寬。顯存的重要性能指標(biāo)有3個(gè)：顯存頻率(800MHz、1,200MHz、1,600MHz、2,200MHz)、顯存位寬(32位、64位、128位、256位、512位、1,024位)、顯存帶寬(顯存帶寬=顯存頻率×顯存額位寬/8bit)。通過TSV堆棧的方式，HBM能達(dá)到更高的I/O數(shù)量，使得顯存位寬達(dá)到1,024位，幾乎是GDDR的32倍，顯存帶寬顯著提升，此外還具有更低功耗、更小外形等優(yōu)勢。顯存帶寬顯著提升解決了過去AI計(jì)算“內(nèi)存墻”的問題，HBM逐步提高在中高端數(shù)據(jù)中心GPU中的滲透比率。圖表11：HBMv.s.GDDR(封裝形式對比)DDRGDDRHBMHBMEHBMEGDDR的2-3倍。目前HBM3已初步商用，GDDR7標(biāo)準(zhǔn)也將確定，我們預(yù)計(jì)未來中短期HBM3和GDDR7將成為主流標(biāo)準(zhǔn)，而HBM3在顯存帶寬方面有望達(dá)到GDDR7的4倍。圖表12：HBM2Ev.s.GDDR6(技術(shù)指標(biāo)對比)圖表13：HBM3v.s.GDDR7(技術(shù)指標(biāo)對比)不過，HBM相較于其他種類的內(nèi)存也并非沒有缺點(diǎn)，成本偏高、頻率偏低使得其基本上目前只應(yīng)用于中高端數(shù)據(jù)中心GPU及少數(shù)ASIC：?缺點(diǎn)#1：缺乏靈活性，HBM與主芯片通常封裝在一起，不存在擴(kuò)容可能。DDR產(chǎn)品形態(tài)穩(wěn)定、標(biāo)準(zhǔn)化程度高，HBM封裝的低靈活性對OEM廠商成本帶來困難。雖然消費(fèi)者市場對拓展性要求不高(如IntelLakefield、AppleM1)，但目前HBM的成本使之望而卻步。?缺點(diǎn)#2：HBM容量偏小，一些高階的服務(wù)器DIMM達(dá)到96個(gè)，采用128GBRDIMM最多能達(dá)到12TB，HBM8層晶粒也不過32GB，再結(jié)合成本考慮，更加無法滿足數(shù)據(jù)中心要求。?缺點(diǎn)#3：訪問延遲高，HBM的頻率低于DDR/GDDR(由TSV封裝決定，并行線路多時(shí)頻率過高會(huì)有散熱問題)，CPU處理的任務(wù)具有較大的不可預(yù)測性，對延遲的敏感程度較高，而在GPU則對此并不敏感。2015年，HBM技術(shù)首次得到商業(yè)應(yīng)用。該年，AMD和SKHynix協(xié)作推出了搭配HBM的RadeonR9Fury/FuryX/Nano。2016年前后，Nvidia開始在TeslaP100、TeslaV100中應(yīng)用HBM顯存。經(jīng)過近幾年的探索，HBM技術(shù)逐步在中高端GPU得到應(yīng)用，例如NvidiaA100/100、AMDMI250等產(chǎn)品。圖表14：AMD、Nvidia采用HBM顯存GPU匯總目前，SKHynix、Samsung等廠商在HBM產(chǎn)業(yè)鏈中承擔(dān)前道晶圓廠和中道封測廠的角色，臺積電等廠商承擔(dān)后道封測廠的角色。SKHynix、Samsung、臺積電三家企業(yè)在產(chǎn)業(yè)鏈中最具地位：作為全球最早商業(yè)化HBM技術(shù)的企業(yè)，SKHynix、Samsung具備較強(qiáng)的先發(fā)優(yōu)勢，尤其是SKHynix，幾乎占據(jù)著全球HBM存儲(chǔ)顆粒出貨量的70%；臺積電為Nvidia、AMD提供GPU晶圓代工服務(wù)，并在2.5D封裝(臺積電稱為CoWoS封裝)領(lǐng)域較早布局，具備一體化優(yōu)勢。AIGC有望推動(dòng)HBM市場規(guī)模高速增長單塊顯卡模組的顯存容量細(xì)節(jié)可由生產(chǎn)廠家官網(wǎng)披露的Datasheet查詢得到，下面我們以Nvidia的A10040GB、A10080GB為例進(jìn)行說明。?1塊NvidiaA10040GB顯卡模組中間是一顆A100GPU處理器(采用臺積電7nm工藝制造)，在處理器的四周圍繞著6塊HBM2堆棧，主要由SKHynix提供，采取了8Hi(8顆存儲(chǔ)顆粒+1顆邏輯顆粒)的堆疊方案，每顆HBM堆棧顯存容量為8GB。雖然一塊NvidiaA10040GB顯卡模組搭配了6塊HBM2堆棧，但是在實(shí)際工作過程中，通常有1塊HBM堆棧處于屏蔽狀態(tài)，因此顯存總量實(shí)際為5×8GB=40GB。?NvidiaA10080GB顯卡模組相較于NvidiaA10040GB顯卡模組的不同之處在于，將6塊HBM2堆棧升級成了6塊HBM2E堆棧(單堆棧顯存由8GB升級為16GB)，同樣在實(shí)際工作過程中，也有1塊HBM堆棧處于屏蔽狀態(tài)，因此×16GB=80GB。diaAGB2022年下半年以來，ChatGPT、AI繪畫等應(yīng)用日益成熟使得全球互聯(lián)網(wǎng)大廠、AIGC初創(chuàng)企業(yè)、行業(yè)龍頭均在積極布局AIGC領(lǐng)域，加大了對AI服務(wù)器的采購，特別是中高端AI服務(wù)器的采購，我們認(rèn)為這將大幅度帶動(dòng)HBM市場規(guī)模的提升。我們通過假設(shè)推理/訓(xùn)練AI服務(wù)器出貨量、推理/訓(xùn)練AI服務(wù)器HBM滲透率等指標(biāo)測算得到2023/2024/2025年中高端GPU所帶來的HBM(僅存儲(chǔ)堆棧)市場規(guī)模為4.11/8.63/16.53億美元?？紤]到HBM還能夠應(yīng)用于ASIC認(rèn)為實(shí)際創(chuàng)造的市場規(guī)模還將更大。根據(jù)SKHynix測算，2025年市場規(guī)模有望增長至24.97億美元。圖表17：AI服務(wù)器GPU對HBM的拉動(dòng)CXL：滿足高性能異構(gòu)計(jì)算要求的互聯(lián)方案有望實(shí)現(xiàn)算力芯片間的高效互聯(lián)和內(nèi)存一致性CXL(ComputeExpressLink)技術(shù)可追溯至PCIe(PeripheralComponentInterconnectExpress)技術(shù)，為解決“內(nèi)存墻”和“IO墻”問題提供方案。PCIe是用于連接計(jì)算機(jī)內(nèi)部組件的一種標(biāo)準(zhǔn)接口技術(shù)，其將電腦內(nèi)部的所有接口實(shí)現(xiàn)了統(tǒng)一，PCIe設(shè)備可以通過發(fā)起DMA來訪問內(nèi)存，但同時(shí)由于主存與設(shè)備內(nèi)存的割裂，導(dǎo)致其延遲較高，產(chǎn)生IO墻問題。即內(nèi)存墻問題由存算分離的架構(gòu)產(chǎn)生，而IO墻問題則產(chǎn)生于外部存儲(chǔ)。CXL是一種全新的互聯(lián)技術(shù)標(biāo)準(zhǔn)，其能夠讓CPU與GPU、FPGA或其他加速器之間實(shí)現(xiàn)高速高效的互聯(lián)，從而滿足高性能異構(gòu)計(jì)算的要求，并且其維護(hù)CPU內(nèi)存空間和連接設(shè)備內(nèi)存之間的一致性。CXL協(xié)議由匯總到單個(gè)鏈路的三個(gè)動(dòng)態(tài)多路通信子協(xié)議組成。這些協(xié)議分別稱為CXL.io、CXL.cache和CXL.memory。CXL設(shè)備連接到CXL主機(jī)時(shí)，通過CXL.io協(xié)議進(jìn)行發(fā)現(xiàn)、枚舉、配置和管理。CXL.cache允許設(shè)備訪問主存和CXL.memory協(xié)議棧已通過優(yōu)化實(shí)現(xiàn)低延遲。CXL.io協(xié)議用于初始化和鏈接，所以必須獲得所有CXL設(shè)備的支持，而其他兩個(gè)協(xié)議的不同組合產(chǎn)生了總共三種被定義并受CXL標(biāo)準(zhǔn)支持的獨(dú)特CXL設(shè)備類型。CXL的定義之下，三種不同內(nèi)存是直接使用CPU內(nèi)存，其優(yōu)勢在于CPU處理數(shù)據(jù)時(shí)非?？欤ǔＶ恢С諧XL.io和CXL.cache協(xié)議；2)既有緩存，也有內(nèi)存：常見于GPU、AI等應(yīng)用的內(nèi)存加速器，支持CXL.io、CXL.cache和CXL.memory三種協(xié)議；3)只有內(nèi)存沒有緩存：通常是作為內(nèi)存緩沖器，常用作內(nèi)存帶寬或者是容量的擴(kuò)展，它支持CXL.io和CXL.memory兩種協(xié)議。XLCXL自提出至今已迭代CXL1.0/1.1、2.0和3.0三個(gè)版本，有著非常清晰的技術(shù)發(fā)展路線圖。從CXL1.0/1.1發(fā)展至CXL3.0，一些特性得以增強(qiáng)，基于PCIe6.0技術(shù)的CXL3.0帶寬提升了兩倍，同時(shí)將傳輸速率提高了一倍，達(dá)到了64GT/s，并且沒有額外的延遲。同時(shí)，從CXL2.0開始，該技術(shù)超出了單機(jī)的范疇，衍生出了內(nèi)存池的概念。CXL3.0在內(nèi)存池以外，還引入了內(nèi)存共享和內(nèi)存訪問，突破了某一個(gè)物理內(nèi)存只能屬于某一臺服務(wù)器的限制，使得多機(jī)同時(shí)訪問同一內(nèi)存地址成為可能，進(jìn)一步增強(qiáng)了CXL的內(nèi)存一致性。內(nèi)存池(MemoryPolling)是一種將CXL附加的內(nèi)存當(dāng)作可替代資源的功能，可以根據(jù)需要靈活地分配和釋放到不同的服務(wù)器中。內(nèi)存池化使得系統(tǒng)設(shè)計(jì)者在獲得最佳性能的同時(shí)不會(huì)過度配置每臺服務(wù)器。以DRAM為例，計(jì)算中心的成本中DRAM占據(jù)較高比例，根據(jù)微軟數(shù)據(jù)顯示，50%的服務(wù)器總成本來自DRAM，但在成本較高的同時(shí)DRAM的使用效率并不高。如果引入DRAM池于CXL目前已經(jīng)完全支持池化技術(shù)，如果該理念得到廣泛應(yīng)用，內(nèi)存將成為提高服務(wù)器性能的重要手段之一。行業(yè)領(lǐng)軍廠商積極推動(dòng)，長期市場空間廣闊CXL處于發(fā)展前期，龍頭廠商推動(dòng)市場空間有望快速成長。CXL技術(shù)需要較多的硬件支持，例如芯片、主板等，同時(shí)，在解決延遲問題方面，CXL技術(shù)還需要相關(guān)軟件的支持，當(dāng)前CXL技術(shù)的應(yīng)用成本及復(fù)雜程度還較高。盡管協(xié)議推出時(shí)間與其他互聯(lián)技術(shù)相比較晚，CXL生態(tài)建設(shè)處于起步階段，但有著CPU行業(yè)牽頭，聯(lián)合谷歌、微軟、HPE、戴爾易安信、思科、Meta和華為成立CXL聯(lián)盟，推出了基于PCIe5.0的第一版規(guī)范。此后，AMD、英偉達(dá)、三星、Arm、瑞薩、IBM等頭部廠商相繼加入。近兩年，CXL聯(lián)盟擴(kuò)展出超過165個(gè)成員，幾乎涵蓋了所有主要的CPU、GPU、內(nèi)存、存儲(chǔ)和網(wǎng)絡(luò)設(shè)備制造商。根據(jù)美光科技在2022年5月召開的投資人說明會(huì)資料顯示，受異構(gòu)計(jì)算快速發(fā)展的驅(qū)動(dòng)，2025年CXL相關(guān)產(chǎn)品的市場規(guī)模可達(dá)到20億美元。圖表21：CXL市場空間展望(億美元)資料來源：美光2022InvestorDay，中金公司研究部各大廠商積極布局，產(chǎn)業(yè)鏈有望充分收益。一方面，CXL可以通過在CPU、GPU及FPGA等之間建立高速低延遲的互聯(lián)，以更有效地利用加速器和存儲(chǔ)設(shè)備，從而帶動(dòng)相關(guān)CXL控制器等芯片設(shè)計(jì)廠商的發(fā)展。同時(shí)CXL2.0提出的內(nèi)存池化可以節(jié)約數(shù)據(jù)中心的建設(shè)成本，也將帶動(dòng)DRAM的用量。而從下游需求來看，近年來元宇宙、人工智能和大數(shù)據(jù)服務(wù)等導(dǎo)致數(shù)據(jù)量呈現(xiàn)快速增長，CXL有望通過增加內(nèi)存、容量和帶寬，成為相關(guān)應(yīng)用的重要配合性技術(shù)，為服務(wù)器廠商等的增長提供支持。目前CXL領(lǐng)域主要廠商及其進(jìn)展有：1)SK海力士：2022年8月開發(fā)出首款基于DDR5DRAM的CXL存儲(chǔ)器樣品，并表示將擴(kuò)大CXL存儲(chǔ)器生態(tài)系統(tǒng)；2022

人人文庫> 全部分類> 應(yīng)用文書 > 研究報(bào)告

溫馨提示

1. 本站所有資源如無特殊說明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽，若沒有圖紙預(yù)覽就沒有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間，僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理，對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對任何下載內(nèi)容負(fù)責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容，請與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

“芯”前沿系列：AIGC推動(dòng)存儲(chǔ)架構(gòu)新變革20230815 中金

文檔簡介

溫馨提示

最新文檔

評論

“芯”前沿系列：AIGC推動(dòng)存儲(chǔ)架構(gòu)新變革20230815 中金

文檔簡介

溫馨提示

最新文檔

評論

相關(guān)文檔