電子行業(yè)AI系列之存儲(chǔ):近存計(jì)算3DDRAMAI應(yīng)用星辰大海_第1頁(yè)
電子行業(yè)AI系列之存儲(chǔ):近存計(jì)算3DDRAMAI應(yīng)用星辰大海_第2頁(yè)
電子行業(yè)AI系列之存儲(chǔ):近存計(jì)算3DDRAMAI應(yīng)用星辰大海_第3頁(yè)
電子行業(yè)AI系列之存儲(chǔ):近存計(jì)算3DDRAMAI應(yīng)用星辰大海_第4頁(yè)
電子行業(yè)AI系列之存儲(chǔ):近存計(jì)算3DDRAMAI應(yīng)用星辰大海_第5頁(yè)
已閱讀5頁(yè),還剩56頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

錄一、產(chǎn)業(yè)趨勢(shì):DRAM從2D到3D,存算一體趨勢(shì)確立二、封裝級(jí)3D

DRAM:近存計(jì)算,高帶寬、低功耗契合AI場(chǎng)景需求三、晶圓級(jí)3D

DRAM:突破制程瓶頸,目前多種方案探索中四、投資建議五、風(fēng)險(xiǎn)提示2目

錄一、產(chǎn)業(yè)趨勢(shì):DRAM從2D到3D,存算一體趨勢(shì)確立2D

DRAM制程瓶頸凸顯,3D是大趨勢(shì)存內(nèi)計(jì)算難度大,近存計(jì)算和存內(nèi)處理是重要方向3來源:AMAT官網(wǎng)、Semianalysis、36氪,4電容器晶體管DRAM模組

DRAM芯片?

DRAM是易失性存儲(chǔ)器,與CPU/GPU等計(jì)算芯片直接交互,可以快速存儲(chǔ)每秒執(zhí)行數(shù)十億次計(jì)算所需的信息。DRAM三構(gòu)成:1)

存儲(chǔ)單元(Cell

),占據(jù)50%-55%面積:存儲(chǔ)單元是DRAM芯片存儲(chǔ)數(shù)據(jù)的最小單元,每個(gè)單元存儲(chǔ)1bit數(shù)據(jù)(二進(jìn)制0或1),單顆DRAM芯片的容量拓展主要是通過增加存儲(chǔ)單元的數(shù)量實(shí)現(xiàn)(即提高單位面積下的存儲(chǔ)單元密度),存儲(chǔ)單元基本占據(jù)了DRAM芯片50-55%的面積,是DRAM芯片最核心的組成部分。1個(gè)存儲(chǔ)單元由1個(gè)晶體管和1個(gè)電容器構(gòu)成(1T1C結(jié)構(gòu)),晶體管控制對(duì)存儲(chǔ)單元的訪問,電容器存儲(chǔ)電荷來表示二進(jìn)制0或1。2)

外圍邏輯電路(Core),占據(jù)25-30%面積:由邏輯晶體管和連接

DRAM

各個(gè)部分的線路組成,從存儲(chǔ)單元中選擇所需存儲(chǔ)單元,并讀取、寫入數(shù)據(jù),包括感應(yīng)放大器(

Sense

Amplifiers

)和字線解碼器(Word

Line

Decoders)等結(jié)構(gòu),如感應(yīng)放大器被附加在每個(gè)位線的末端,檢測(cè)從存儲(chǔ)單元讀取非常小的電荷,并將信號(hào)放大信號(hào),強(qiáng)化后的信號(hào)可在系統(tǒng)其他地方讀取為二進(jìn)制1或0。3)周邊線路

(Peripheral),占據(jù)20%左右面積:由控制線路和輸出線路構(gòu)成??刂凭€路主要根據(jù)外部輸入的指令、地址,讓DRAM內(nèi)部工作。輸出/輸入線路負(fù)責(zé)數(shù)據(jù)的輸入(寫入)、輸出(讀?。RAM工作原理:存儲(chǔ)電容器會(huì)泄漏電荷,因此需要頻繁進(jìn)行刷新(大約每

32

毫秒一次),以維持存儲(chǔ)的數(shù)據(jù)。每次刷新都會(huì)讀取存儲(chǔ)單元的內(nèi)容,將位線上的電壓提升至理想水平,并讓刷新后的值流回電容器,刷新完全在

DRAM

芯片內(nèi)部進(jìn)行,沒有數(shù)據(jù)流入或流出芯片。這雖最大限度地減少了浪費(fèi)的電量,但刷新仍會(huì)占據(jù)

DRAM

總功耗的

10%

以上。圖表:DRAM結(jié)構(gòu)圖 圖表:DRAM三個(gè)構(gòu)成的占比5來源:Techinsights、AI

IMPACTS,?

容量、帶寬和功耗是DRAM三大關(guān)鍵參數(shù)。1)容量:指存儲(chǔ)數(shù)據(jù)的多少,存儲(chǔ)容量最小單位是1bit,即表示存儲(chǔ)單個(gè)二進(jìn)制(0或1),另外有B、KB、MB、GB、TB等存儲(chǔ)容量單位,關(guān)系如下:

1B(Byte,B)

=

8bit,1KB=1024B,1MB

=

1024KB,1GB

=

1024MB,1TB

=

1024GB。單位面積下,存儲(chǔ)單元數(shù)量越多、存儲(chǔ)容量越高,制程是決定單位面積下存儲(chǔ)容量的主導(dǎo)因素。2)帶寬:指每秒鐘的數(shù)據(jù)吞吐量,單位TB/s、GB/s,內(nèi)存帶寬=最大時(shí)鐘速頻率

(MHz)

×

總線寬度

(bits)

×每時(shí)鐘數(shù)據(jù)段數(shù)量/

8。3)功耗:數(shù)據(jù)的傳輸需要的功耗,功耗越低越好。?

DRAM制程微縮,帶來DRAM成本下降和容量密度提升。圖表:DRAM單位容量?jī)r(jià)格處于下降趨勢(shì)圖表:DRAM通過制程迭代提升容量密度來源:IC

Knowledge、IEEE、Techinsights,6圖表:2D

DRAM的制程微縮和單位密度提升速度放緩圖表:DRAM

存儲(chǔ)單元面積(Cell

Szie)微縮放緩圖表:DRAM總位元出貨量/DRAM芯片出貨量圖表:DRAM容量升級(jí)的速率放緩?

DRAM此前符合摩爾定律,后面摩爾定律失效,制程微縮放緩。DRAM通過制程微縮(晶體管、電容器、邏輯電路等微縮)實(shí)現(xiàn)單位面積內(nèi)更多的存儲(chǔ)單元,即實(shí)現(xiàn)單位面積下更高存儲(chǔ)容量。1970-2005年,DRAM以每顆芯片的容量每3年增加4倍的速度升級(jí),后續(xù)迭代速度不斷放緩,帶來單位密度提升速度放緩,存儲(chǔ)單元微縮放緩。7來源:Techinsights,Semiconductordegest,?

DRAM制程微縮難度大,目前制程迭代逼近10nm(1γnm),必須使用EUV光刻機(jī)。

目前DRAM最新量產(chǎn)制程是1b,10-12nm左右:DRAM制程迭代速度放緩,10nm級(jí)別(10-20nm),使用1x、1y、1z、1a、1b和1c指代,另外美光使用羅馬字母1α、1β、1γ對(duì)應(yīng)1a、1b和1c。目前三星、海力士和美光三大家目前量產(chǎn)制程是1b(1β)制程,近兩年將開始迭代1c(1γ)制程。

EUV的使用:EUV是目前光刻機(jī)的天花板,2020年三星在1z節(jié)點(diǎn)開始首次使用EUV光刻機(jī),后續(xù)的制程沿用EUV,2021年海力士在1a節(jié)點(diǎn)開始使用EUV光刻機(jī),后續(xù)制程繼續(xù)沿用,美光在1c(1γ)節(jié)點(diǎn)將使用EUV。圖表:DRAM制程迭代圖表:三大家EUV光刻機(jī)使用情況節(jié)點(diǎn)三星海力士美光1x16-19nmTest

vehicle1y14-16nm1z12-14nm√1a(1α)約13nm√√1b(1β)10-12nm√√1c(1γ)約10nm,1β的增強(qiáng)版√√來源:semianalysis、AMAT官網(wǎng),8?

DRAM制程微縮難度:微縮電容器和感應(yīng)放大器面臨挑戰(zhàn)。三星在1z、海力士在1a工藝中采用了極紫外光刻(EUV),也未能顯著提升密度。它們面臨的主要挑戰(zhàn)在于電容器與感應(yīng)放大器。1)電容器:電

容器微縮,電容漏電風(fēng)險(xiǎn)、干擾問題變嚴(yán)重。DRAM依賴電容器來存儲(chǔ)電荷,但當(dāng)電容器變得更小,電荷泄漏的風(fēng)險(xiǎn)增加,從而導(dǎo)致數(shù)據(jù)的可靠性下降。為了解決這個(gè)問題,工程師們需要開發(fā)新的材料和設(shè)計(jì)方法,以減少漏電率并提高數(shù)據(jù)保持能力。另一個(gè)重大挑戰(zhàn)是干擾問題。在高集成度的芯片上,不同存儲(chǔ)單元之間的電場(chǎng)和磁場(chǎng)干擾變得更加頻繁,這可能導(dǎo)致數(shù)據(jù)錯(cuò)誤或損壞。為了應(yīng)對(duì)這一問題,需要更加復(fù)雜的錯(cuò)誤校正機(jī)制和抗干擾設(shè)計(jì),這進(jìn)一步增加了DRAM開發(fā)的難度。電

容器制作難度極大。首先,電容器的圖案化要求非常高,因?yàn)榭妆仨毦o密排列,且具有極為良好的臨界尺寸和覆蓋控制,以便接觸下方的訪問晶體管并避免出現(xiàn)橋接或其他缺陷。電容器與晶體管極為相似,已縮小至納米級(jí)寬度,不過其縱橫比也非常大,大約

1000

納米高,而直徑卻只有數(shù)十納米

——

縱橫比接近

100:1,因此蝕刻出又直又窄的孔輪廓極為困難。此外,還需要更厚的硬掩模來實(shí)現(xiàn)更深的蝕刻,因?yàn)楦竦难谀P枰竦墓饪棠z。接下來,必須在整個(gè)孔輪廓的壁上沉積幾納米厚的多個(gè)無缺陷層,以形成電容器。另外電容器即使微縮,電容器也需要存儲(chǔ)一定量的電荷,如果電荷過少,“1”和“0”的區(qū)別就會(huì)變得模糊,會(huì)對(duì)存儲(chǔ)功能產(chǎn)生影響。2

)感應(yīng)放大器:必須進(jìn)行面積縮放以匹配位線的縮小,感應(yīng)放大器變得更不敏感,并且隨著尺寸變小而更容易出現(xiàn)變化和泄漏。同時(shí),較小的電容器存儲(chǔ)的電荷較少,讀取變得更加困難。圖表:DRAM存儲(chǔ)單元結(jié)構(gòu)來源:三星、ASML

2018

Presentation,9?

NAND存儲(chǔ)單元結(jié)構(gòu)簡(jiǎn)單,已率先實(shí)現(xiàn)晶圓級(jí)3D結(jié)構(gòu),通過層數(shù)堆疊來提升容量。NAND存儲(chǔ)單元僅由一個(gè)晶體管構(gòu)成,相對(duì)DRAM、結(jié)構(gòu)簡(jiǎn)單。NAND從2014年開始進(jìn)行晶圓級(jí)層面的從2D到3D的轉(zhuǎn)換,成功解決了2D

NAND在增加容量的同時(shí)性能降低的問題,實(shí)現(xiàn)容量、速度、能效及可靠性等全方位提升。NAND的2D平面制程微縮基本停留在2017年的14-15nm左右,后續(xù)的迭代升級(jí)是層數(shù)堆疊。2019年,3D

NAND的滲透率為72.6%,已遠(yuǎn)超2D

NAND,預(yù)計(jì)2025年3D

NAND將占閃存總市場(chǎng)的97.5%。2024年11月21日海力士宣布321層NAND樣品,自2025年上半年開始交貨,此前海力士量產(chǎn)產(chǎn)品為238層。DRAM存儲(chǔ)單元包含垂直方向的電容器,制程微縮難度高于NAND,同時(shí)晶圓級(jí)3D需要存儲(chǔ)單元結(jié)構(gòu)創(chuàng)新,難度大。DRAM存儲(chǔ)單元由1個(gè)晶體管和1個(gè)電容器構(gòu)成,比NAND的存儲(chǔ)單元結(jié)構(gòu)更復(fù)雜,電容器增加了制程微縮難度,因此在2D

NAND還在通過制程微縮時(shí),DRAM的制程就落后于NAND,如2015年2D

NAND進(jìn)入17-18nm,而DRAM在20-30nm。DRAM具有較大的垂直方向電容器,電容器很高且難以分層堆疊,因此需要采用將電容器水平放置等創(chuàng)新的存儲(chǔ)單元結(jié)構(gòu)或者采用無電容DRAM來實(shí)現(xiàn)晶圓級(jí)3D,制造難度大幅提升。圖表:DRAM、NAND和Logic的制程迭代圖表:DRAM和NAND的存儲(chǔ)單元結(jié)構(gòu)來源:NEO,10圖表:封裝級(jí)別3D

DRAM的分類?

DRAM3D化趨勢(shì)已現(xiàn),封裝級(jí)先行,晶圓級(jí)在研發(fā)階段。3D

DRAM分為封裝級(jí)和晶圓級(jí),封裝級(jí)3D

DRAM屬于近存計(jì)算,突破內(nèi)存墻瓶頸,已商業(yè)化量產(chǎn),晶圓級(jí)3D

DRAM突破2DDRAM制程微縮瓶頸,難度更大,目前仍處于研發(fā)階段。封

裝級(jí)3D

DRAM:指通過封裝工藝將多顆2D

DRAM

Die進(jìn)行3D堆疊,HBM目前最高堆疊12層DRAM

Die,每層Die之間通過TSV/Microbump等先進(jìn)封裝工藝實(shí)現(xiàn)電氣連接,最后實(shí)現(xiàn)在單位面積下更高的存儲(chǔ)容量密度。然后將封裝級(jí)3D

DRAM繼續(xù)通過封裝工藝與邏輯芯片封裝在一起,實(shí)現(xiàn)近存計(jì)算,性能上實(shí)現(xiàn)更高的帶寬、更低的功耗,緩解內(nèi)存墻問題,契合AI芯片要求。典型產(chǎn)品如HBM、華邦CUBE和WoW

3D堆疊DRAM。晶

圓級(jí)3D

DRAM:在晶圓結(jié)構(gòu)層面實(shí)現(xiàn)3D結(jié)構(gòu),突破2D

DRAM制程微縮瓶頸、實(shí)現(xiàn)更高容量密度,目前各家廠家處于探索階段。圖表:封裝級(jí)3D

DRAM:HBM結(jié)構(gòu)圖 圖表:晶圓級(jí)3DDRAM結(jié)構(gòu)圖與計(jì)算芯片的封裝形式芯片之間的連接封裝級(jí)3D

DRAMHBM2.5DTSV+MicrobumpCUBE3DTSV+MicrobumpWOW

3D堆疊DRAM3DTSV+混合鍵合來源:elecfans,智東西,11?

存儲(chǔ)速度滯后于計(jì)算器速度,AI時(shí)代存儲(chǔ)帶寬制約算力芯片性能發(fā)揮。在過去二十年,處理器性能以每年大約60%的速度提升,內(nèi)存性能的提升速度每年只有9%左右。結(jié)果長(zhǎng)期下來,不均衡的發(fā)展速度造成了當(dāng)前的存儲(chǔ)速度嚴(yán)重滯后于處理器的計(jì)算速度。雖然多核(例如CPU)/眾核(例如GPU)并行加速技術(shù)提升算力,AI時(shí)代處理器計(jì)算技術(shù)能力大幅提升,同時(shí)大型

Transformer模型的參數(shù)數(shù)量呈指數(shù)級(jí)增長(zhǎng),每?jī)赡暝黾?/p>

410

倍,而單個(gè)

GPU內(nèi)存僅以每?jī)赡?/p>

2

倍的速度擴(kuò)展。從峰值算力看,峰值算力在過去

20年中增加了

60000

倍,而

DRAM帶寬增加了100

倍,存儲(chǔ)和計(jì)算的互連帶寬增加了

30倍。隨著近幾年云計(jì)算和AI應(yīng)用發(fā)展,面對(duì)計(jì)算中心的數(shù)據(jù)洪流,存算分離架構(gòu)下數(shù)據(jù)搬運(yùn)慢、搬運(yùn)能耗大等問題成為了計(jì)算的關(guān)鍵瓶頸,“存儲(chǔ)墻”問題更加顯著。圖表:處理器和存儲(chǔ)器速度失衡 圖表:1960~2020年人工智能計(jì)算復(fù)雜度變化來源:Medium,12圖表:不同代的內(nèi)存帶寬以及峰值算力圖表:模型參數(shù)量增長(zhǎng)趨勢(shì)(紅線)VS

單GPU內(nèi)存擴(kuò)展趨勢(shì)(綠線)來源:知存科技等,13?

傳統(tǒng)存算分離架構(gòu)帶來存儲(chǔ)墻問題。上世紀(jì)40年代開始計(jì)算機(jī)使用馮諾伊曼架構(gòu)——存算分離,即處理器和存儲(chǔ)器相互獨(dú)立,兩者通過總線連接。1)存算分離,數(shù)

據(jù)存算間傳輸造成延遲。處理器從外部存儲(chǔ)中調(diào)取數(shù)據(jù),計(jì)算完成后再傳輸?shù)絻?nèi)存中,一來一回都會(huì)造成延遲。2)數(shù)據(jù)在多級(jí)

存儲(chǔ)間傳輸。為了提升速度,馮諾依曼架構(gòu)對(duì)存儲(chǔ)進(jìn)行分級(jí),越往外的存儲(chǔ)介質(zhì)密度越大、速度越慢,越往內(nèi)的存儲(chǔ)密度越小,速度越快,因此數(shù)據(jù)需要在多級(jí)存儲(chǔ)之間搬運(yùn),能耗大。通常第一級(jí)存儲(chǔ)是速度最快、容量低,主要是SRAM片上緩存,第二級(jí)是傳統(tǒng)DDR。

3)存儲(chǔ)制程推進(jìn)慢于邏輯。目前DRAM制程最先進(jìn)仍在10-15nm左右,而邏輯制程已進(jìn)入3nm,主要是因存儲(chǔ)器制程縮小難度更大。圖表:數(shù)據(jù)的傳輸速度慢圖表:數(shù)據(jù)的傳輸功耗大圖表:存算分離架構(gòu)來源:中國(guó)移動(dòng)研究院,14?

存算一體可有效克服馮諾依曼架構(gòu),可有效提升帶寬、緩解存儲(chǔ)墻問題,迎合AI時(shí)代需求。存算一體是一種新的架構(gòu),其核心理念是將計(jì)算和存儲(chǔ)融合,降低“存儲(chǔ)墻”問題,實(shí)現(xiàn)計(jì)算能效的數(shù)量級(jí)提升。從廣義而言,存算一體可分為三種:近存計(jì)算(PNM)、存內(nèi)處理(PIM)、存內(nèi)計(jì)算(CIM),狹義的存算一體主要指存內(nèi)計(jì)算。目前近存計(jì)算和存內(nèi)處理已開始商業(yè)化應(yīng)用,但存內(nèi)計(jì)算因設(shè)計(jì)等難度大,目前暫未商業(yè)化大規(guī)模使用。近

存計(jì)算:存算分離,通過封裝拉近存儲(chǔ)和計(jì)算單元的距離。存

內(nèi)處理:在存儲(chǔ)單元內(nèi)加了部分計(jì)算單元,存儲(chǔ)芯片有部分計(jì)算能力。存

內(nèi)計(jì)算:真正的存算一體,存儲(chǔ)單元和計(jì)算單位完全融合。圖表:存算一體三個(gè)類別來源:Rambus,15?

近存計(jì)算:通過封裝工藝?yán)鎯?chǔ)單元和計(jì)算單元距離,目前已大規(guī)模使用。近存計(jì)算不改變計(jì)算單元和存儲(chǔ)單元本身設(shè)計(jì)功能,通過采用先進(jìn)的封裝方式及合理的硬件布局和結(jié)構(gòu)優(yōu)化,通過芯片封裝和板卡組裝的方式,將存儲(chǔ)和計(jì)算芯片封裝在一起,使用系統(tǒng)級(jí)封裝工藝,增加存儲(chǔ)和計(jì)算芯片的信號(hào)連接通路,增強(qiáng)二者間帶寬。近存計(jì)算本質(zhì)上屬于傳統(tǒng)馮諾依曼的存算分離架構(gòu),通過拉近存儲(chǔ)單元和計(jì)算單元的距離,對(duì)“存儲(chǔ)墻”進(jìn)行優(yōu)化。典型產(chǎn)品:HBM、3D堆疊DRAM和華邦CUBE產(chǎn)品均屬于近存計(jì)算。圖表:HBM是近存計(jì)算 圖表:HBM

VS

GDDR來源:三星、Bussiness

Korea、芯語(yǔ)、財(cái)聯(lián)社,16?

存內(nèi)處理:存儲(chǔ)器具備一定計(jì)算能力,目前三星海力士已推出相關(guān)產(chǎn)品,但未大規(guī)模使用,LPDDR6-PIM新標(biāo)準(zhǔn)制定中。目前的存內(nèi)處理方案主要通過在內(nèi)存(DRAM)芯片中實(shí)現(xiàn)部分?jǐn)?shù)據(jù)處理,芯片制造過程中,將存儲(chǔ)和計(jì)算單元集成在同一顆die上,使得存儲(chǔ)器本身具備一定計(jì)算能力,與近存計(jì)算相比,“存”與“算”之間的距離更為緊密。2021年三星推出HBM2-PIM

,

2022年海力士推出GDDR6-PIM,但未大規(guī)模使用。根據(jù)報(bào)道,目前三星電子和

SK海力士正在合作標(biāo)準(zhǔn)化

LPDDR6-PIM

內(nèi)存產(chǎn)品。圖表:從存算分離到存內(nèi)處理圖表:三星HBM-PIM來源:芯語(yǔ)等,17?

存內(nèi)計(jì)算:真正的存算一體,將存儲(chǔ)和計(jì)算單元完全融合,計(jì)算效能大幅提升,但技術(shù)難度大。不區(qū)分存儲(chǔ)單元和計(jì)算單元,真正意義上實(shí)現(xiàn)了同一個(gè)晶體管同時(shí)具備存儲(chǔ)和計(jì)算能力,通過存儲(chǔ)器顆粒上嵌入算法,存儲(chǔ)電路同時(shí)具備存儲(chǔ)和計(jì)算能力,計(jì)算由存儲(chǔ)器芯片內(nèi)部的存儲(chǔ)單元完成全部計(jì)算操作,使得計(jì)算效能實(shí)現(xiàn)數(shù)量級(jí)提升,能耗可降至1/10-1/100,能效可提升

10-100TOPS/W。存

算一體的計(jì)算方式分為數(shù)字和模擬計(jì)算。數(shù)字存算一體主要以SRAM和RRAM為存儲(chǔ)介質(zhì),采用先進(jìn)邏輯工藝,具有高性能高精度的優(yōu)勢(shì),且具備很好的抗噪聲能力和可靠性。而模擬存算一體通常使用FLASH、RRAM、PRAM等非易失性介質(zhì)作為存儲(chǔ)介質(zhì),存儲(chǔ)密度大,并行度高,但是對(duì)環(huán)境噪聲和溫度非常敏感。例如Intel和NVIDIA的算力芯片,盡管也可采用模擬計(jì)算技術(shù)提升能效,但從未有一顆大算力芯片采用模擬計(jì)算技術(shù)。因此數(shù)字存算一體適合大算力高能效的商用場(chǎng)景,而模擬存算一體適合小算力、不需要可靠性的民用場(chǎng)景。存內(nèi)計(jì)算芯片被認(rèn)為是下一代芯片,但目前還處于起步階段,受限

于成熟度,應(yīng)用范圍不夠廣泛,面臨著諸多挑戰(zhàn):1)在芯片設(shè)計(jì)方面,架構(gòu)設(shè)計(jì)的難度和復(fù)雜度要求很高,同時(shí)市面上也缺乏成熟的存算一體軟件編譯器的快速部署、專用EDA工具輔助設(shè)計(jì)和仿真驗(yàn)證。2)在芯片測(cè)試方面,流片之后,同樣缺乏成熟的工具協(xié)助測(cè)試。3)在生態(tài)方面,缺乏相應(yīng)的與之匹配的軟件生態(tài)。圖表:從存算分離到存內(nèi)計(jì)算目

錄二、封裝級(jí)3D

DRAM:近存計(jì)算,高帶寬、低功耗契合AI場(chǎng)景需求HBM:AI大算力+高帶寬存儲(chǔ)解決方案WOW

3D堆疊DRAM:AI低算力+超高寬帶存儲(chǔ)解決方案CUBE:AI低算力+高帶寬存儲(chǔ)解決方案三種方案對(duì)比總結(jié)18來源:Semiconductor

Engineering、各公司官網(wǎng)等,19目前HBM屬于標(biāo)準(zhǔn)化DRAM產(chǎn)品,是GDDR的一類。DRAM是大宗產(chǎn)品,JEDEC(固態(tài)技術(shù)協(xié)會(huì),微電子產(chǎn)業(yè)的領(lǐng)導(dǎo)標(biāo)準(zhǔn)機(jī)構(gòu))定義并開發(fā)了以下三類

SDRAM

標(biāo)準(zhǔn),以幫助設(shè)計(jì)人員滿足其目標(biāo)應(yīng)用的功率、性能和尺寸要求,從芯片本身來看,它們的差異主要體現(xiàn)在外圍電路上,而存儲(chǔ)單元本身在各類型中較為相似,制造工藝也基本一致。1)標(biāo)準(zhǔn)型DDR:Double

Data

Rate

SDRAM,針對(duì)服務(wù)器、云計(jì)算、網(wǎng)絡(luò)、筆記本電腦、臺(tái)式機(jī)和消費(fèi)類應(yīng)用程序,允許更寬的通道寬度、更高的密度和不同的外形尺寸。2)LPDDR:Low

Power

DoubleData

Rate

SDRAM,針對(duì)尺寸和功率非常敏感的移動(dòng)和汽車領(lǐng)域,有低功耗的特點(diǎn),提供更窄的通道寬度。3)GDDR:Graphics

DoubleData

RateSDRAM,適用于具有高帶寬需求的計(jì)算領(lǐng)域,例如圖形相關(guān)應(yīng)用程序、數(shù)據(jù)中心和

AI等,HBM屬于GDDR。詳情請(qǐng)參考此前外發(fā)深度報(bào)告《

AI系列之HBM:AI硬件核心,需求爆發(fā)增長(zhǎng)》。HBM主要應(yīng)用在AI訓(xùn)練和部分AI推理。AI訓(xùn)練需要處理大量并行數(shù)據(jù),需要DRAM容量大和數(shù)據(jù)的傳輸速度快,同時(shí)模型訓(xùn)練耗時(shí)長(zhǎng),需要硬件的功耗低,相較傳統(tǒng)的DRAM存儲(chǔ)器,HBM高帶寬、低功耗,容量拓展性好,目前云端訓(xùn)練卡全部使用HBM,部分云端推理卡有使用HBM,另外也有推理卡使用GDDR。圖表:標(biāo)準(zhǔn)DRAM分類圖表:云端芯片的存儲(chǔ)器使用情況定位(訓(xùn)練or推理)

峰值算力所用內(nèi)存內(nèi)存容量?jī)?nèi)存位寬峰值內(nèi)存帶寬FP8(TFLOPS)FP16(TFLOPS)FP32(TFLOPS)Intel數(shù)據(jù)中心GPUGPUFlex

140推理8GDDR612

GB192bit336GB/sGPUFlex

170推理16GDDR616GB256bits576GB/s英偉達(dá)數(shù)據(jù)中心GPUB200訓(xùn)練9000450080HBM3E192GB8192bits8

TB/sB100訓(xùn)練7000350060HBM3E192GB8192bits8

TB/sH200訓(xùn)練3341167160HBM3E141GB6144bits4.8TB/s3958197967HBM3E141GB6144bits4.8TB/sH100訓(xùn)練3026151351.2HBM2E80GB5120bits2TB/s39581978.966.9HBM380GB5120bits3.35TB/s79163958134HBM3188GB6144bits7.8TB/sL4推理48524230.3GDDR624GB192bits300GB/sL40S推理146673391.6GDDR648GB384bits864GB/sL40推理724362.190.5GDDR648GB384bits865GB/sA100訓(xùn)練31219.5HBM280GB5120bits1935GB/s6242039GB/sA2推理364.5GDDR616GB128bits200GB/sA10推理25031.2GDDR624GB384bits600GB/sA16推理71.618GDDR664GB128bits800GB/sA30推理33010.3HBM224GB3072bits933GB/sA40-299.437.4GDDR648GB384bits696GB/sAMD

數(shù)據(jù)中心GPUMI50推理26.513.3HBM216GB4096bits1024GB/s32GBMI60推理29.4914.7HBM232GB4096bits1024GB/sMI100訓(xùn)練/推理184.623.1HBM232GB4096bits1.2TB/sMI250訓(xùn)練/推理362.145.3HBM2E128GB8192bits3.2TB/sMI250X38347.87HBM2E128GB8192bits3.2TB/sMI21018122.6HBM2E64GB4096bits1.6TB/sMI300A訓(xùn)練3.2TB/sMI300X訓(xùn)練5.2TB/s來源:海力士,Synopsys,20?

HBM定位在片上緩存LLC和傳統(tǒng)DDR中間,彌補(bǔ)帶寬缺口,與GDDR等傳統(tǒng)DRAM產(chǎn)品相比,兼顧帶寬和容量。HBM定位在CPU/GPU片上緩存

(Last

Level

Cache,LLC,通常是SRAM)和DRAM之間,彌補(bǔ)處理器高帶寬需求與主存儲(chǔ)器最大帶寬供應(yīng)能力之間的帶寬缺口,容量大于片上存儲(chǔ)、小于傳統(tǒng)DDR,但速度小于片上存儲(chǔ)、大于傳統(tǒng)DDR,成本低于片上存儲(chǔ)、高于傳統(tǒng)DDR。以成本為例,1MB

SRAM

價(jià)值$5~$10,1GB

HBM價(jià)格$10-$20,根據(jù)集邦咨詢,24年2月1GB

DDR4合約價(jià)

$1.95(歷史最高$4.1),1GB=1024MB,從單位存儲(chǔ)成本看,SRAM成本是HBM的500倍+、普通DRAM的1000倍+,HBM是普通DRAM的5倍+。從速度來看,在AI應(yīng)用中,每個(gè)SoC的帶寬需求(尤其是在訓(xùn)練應(yīng)用中)都會(huì)超過幾TB/s,但常規(guī)主存儲(chǔ)器無法滿足這個(gè)要求,具有3200MbpsDDR4

DIMM的單個(gè)主存儲(chǔ)器通道只能提供25.6GB/s的帶寬,具有4800Mbps

DDR5

DIMM的單個(gè)主存儲(chǔ)器通道提供38.4GB/s,即使是具有8個(gè)存儲(chǔ)器通道的最先進(jìn)的CPU平臺(tái),DDR4和DDR5對(duì)應(yīng)速度也只能達(dá)到204.8GB/s、307GB/s,圍繞單個(gè)SoC的4個(gè)HBM2堆疊可提供大于1TB/s的帶寬,因而能夠消除帶寬差距。圖表:HBM定位在片上存儲(chǔ)和普通DRAM之間圖表:HBM兼顧帶寬和容量圖表:存儲(chǔ)的帶寬和速度注:計(jì)算3200Mbps

DDR4

DIMM的單個(gè)主存儲(chǔ)器帶寬:3200Mbps是等效傳輸效率,最大時(shí)鐘頻率=3200Mbps/2=1600MHz,總線寬帶=64bits,每時(shí)鐘數(shù)據(jù)段數(shù)量=2內(nèi)存帶寬=最大時(shí)鐘頻率(MHz)×總線寬度(bits)×每時(shí)鐘數(shù)據(jù)段數(shù)量÷8=1600×64×2=25600MB/s=256600MB/s÷1024GB/s=25.6GB/s來源:System

Plus

Consulting,海力士,21?

HBM使用TSV、Microbump實(shí)現(xiàn)3D堆疊結(jié)構(gòu),并采用2.5D封裝技術(shù)(CoWos)實(shí)現(xiàn)與GPU直接封裝在一起,在不占用面積的前提下,實(shí)現(xiàn)容量拓展、高帶寬和降低功耗。

供應(yīng)鏈:海力士、三星等存儲(chǔ)原廠將HBM采用晶圓級(jí)封裝,以KGSD(Known

Good

Die

Stack,已知合格堆疊芯片)的封裝形式交給臺(tái)積電,臺(tái)積電使用2.5D封裝技術(shù)(包括CoWoS)將HBM與SoC(GPU等)封裝在一起。關(guān)于CoWoS工藝的具體介紹,詳情請(qǐng)參考此前外發(fā)深度報(bào)告《AI系列之先進(jìn)封裝:后摩爾時(shí)代利器,AI+國(guó)產(chǎn)化緊缺賽道》。

結(jié)構(gòu):1顆HBM

KGSD

=N

顆DRAM芯片(也稱為Core

Die)

+1顆邏輯芯片(也稱為L(zhǎng)ogic

Base

Die)組合而成,目前N=4/8/12,預(yù)計(jì)HBM4將采用16顆DRAM芯片堆疊。將多片HBM

DRAMDie堆疊在一顆Logic

Die,DRAMDie之間、DRAM和Logic

Die均通過硅通孔(TSV)和Microbump(微凸塊)連接。DRAM與Logic

Die放置在Interposer(中介層)上與GPU互聯(lián),中介層放置在ABF載板上,最后HBM與GPU使用2.5D封裝技術(shù)封在一起。

邏輯芯片的三個(gè)功能區(qū):①用于測(cè)試的區(qū)域(DFT

Area),②TSV區(qū)域,TSV用于給DRAM

芯片傳輸信號(hào)和電力,③PHY芯片區(qū)域,

HBM和SoC中的存儲(chǔ)控制器之間的接口。PHY芯片區(qū)域和TSV區(qū)域中間有1024根信號(hào)傳輸線路,對(duì)應(yīng)1024bit總線位寬。邏輯芯片的大小通常大于DRAM芯片,如海力士8層HBM3的邏輯芯片大小為10.8

mm

x9.8

mm,而DRAM芯片為10.5

mmx

9.5

mm,這是為了可以模塑封裝(Mode晶圓模塑,一種扇出型晶圓級(jí)芯片封裝工藝)以保護(hù)晶圓,通常使用環(huán)氧樹脂模塑料(EMC)作為填充材料。圖表:結(jié)構(gòu)圖Molded

KGSD(模塑封裝KGSD)圖表:供應(yīng)鏈22?

制造:采用TSV、Microbump等先進(jìn)封裝工藝。HBM制造流程分為四步,涉及TSV(硅通孔)、Microbump(凸點(diǎn)制造)、堆疊鍵合等技術(shù)。HBM從設(shè)計(jì)、制造和封測(cè)方式均與傳統(tǒng)DRAM有較大區(qū)別,相較傳統(tǒng)DRAM,HBM多了TSV、邏輯晶圓制備、凸點(diǎn)制造、堆疊鍵合等工藝,主要差異集中在封裝測(cè)試部分,HBM

KGSD的制備工藝包括扇出型晶圓級(jí)封裝、TSV、Microbump等先進(jìn)封裝技術(shù)。1

)晶圓制造(包括TSV):分別制造DRAM晶圓和邏輯晶圓,同時(shí)做好DRAM和邏輯晶圓的TSV硅通孔,TSV硅通孔需要晶圓制造工藝,包括深孔刻蝕、氣相沉積、銅填充、CMP、晶圓減薄等工藝,此時(shí)DRAM和邏輯都是處于晶圓階段,與傳統(tǒng)DRAM主要差異是HBM晶圓需要制造TSV。2

)凸點(diǎn)制造(Microbum):將硅通孔后的DRAM晶圓和邏輯晶圓倒裝,然后進(jìn)行減薄,在晶圓背面形成凸點(diǎn),此時(shí)DRAM和邏輯都是處于晶圓階段。3

)堆疊和鍵合(Stack&Bond),主要的差異化環(huán)節(jié):在進(jìn)行堆疊前,DRAM晶圓和邏輯晶圓的TSV通孔和凸點(diǎn)均已做好,DRAM晶圓切割成DRAM顆粒,DRAM顆粒一層一層堆疊在邏輯晶圓上,然后進(jìn)行鍵合(此處為Die

to

wafer的鍵合),再進(jìn)行晶圓模塑封裝,最后獲得模塑封裝后的KGSD(Molded

KGSD)。海力士和三星/美光主要是在鍵合工藝上有差異,三星/美光使用較為傳統(tǒng)的TC-NCF(Thermo-Compression

BondingwithNone

Conductive

Film,熱壓縮-非導(dǎo)電薄膜),先在有TSV和凸點(diǎn)的晶圓上填充NCF,然后堆疊進(jìn)行熱壓鍵合,后進(jìn)行模塑封裝,而海力士采用獨(dú)創(chuàng)的MR-MUF工藝(Mass

ReflowBonding

with

Molded

UnderFill,大規(guī)模回流焊-注塑底填充技術(shù)),不使用NCF,直接先堆疊,然后進(jìn)行大規(guī)模回流焊做凸點(diǎn)的鍵合,然后使用以液體EMC為主要原材料的MUF使用模塑方式填充縫隙,工藝具體介紹詳見后文。4

)切割KGSD晶圓獲得KGSD顆粒:將模塑后的KGSD晶圓切割成顆粒,測(cè)試完成后出貨給臺(tái)積電繼續(xù)做CoWoS封裝。1.晶圓制造 2.凸塊制造Wafer+TSV

Microbumping4.切割后KGSD出貨圖表:HBM

Stack制造流程3.

堆疊、鍵合(Stacking/Bonding)來源:海力士,來源:海力士、3D

Incites、《先進(jìn)封裝與異構(gòu)集成》,23?

HBM三大關(guān)鍵工藝:TSV、Microbump和堆疊鍵合

TSV實(shí)現(xiàn)電氣連接通路,在HBM成本中占比最高,約30%。HBM核心工藝主要是TSV、micro

bump和堆疊鍵合,其中TSV工藝是HBM中成本占比最高、最核心的工藝,利用TSV才能實(shí)現(xiàn)DRAM芯片的3D堆疊和芯片間的快速傳輸。根據(jù)3D

InCites2016年數(shù)據(jù),在4層DRAM和1層邏輯的HBM中,99.5%的鍵合良率下,TSV工藝所占的成本比重為30%,其中TSV制造(在正常晶圓厚度上制作TSV的過程)為18%,TSV顯露(晶圓減薄等工藝使TSV觸點(diǎn)露出)為12%。

Microbump是芯片倒裝的基礎(chǔ)。Bump技術(shù)具備引腳密度高、低成本的特點(diǎn),是構(gòu)成倒裝技術(shù)的基礎(chǔ)。相較于傳統(tǒng)打線技術(shù)(Wire

Bond)的“線連接”,Bump技術(shù)“以點(diǎn)代線”,在芯片上制造Bump,連接芯片與焊盤,此種方法擁有更高的端口密度,縮短了信號(hào)傳輸路徑,減少了信號(hào)延遲,具備了更優(yōu)良的熱傳導(dǎo)性及可靠性,也是進(jìn)行FC(Flip

Chip)倒裝工藝在內(nèi)的先進(jìn)封裝工藝的技術(shù)基礎(chǔ)。圖表:HBM核心工藝:TSV、microbump和堆疊鍵合圖表:HBM(4層DRAM+1層邏輯)3D封裝成本劃分(99.5%鍵合良率)20%20%18%12%15%7%4%3%1%前道制程(FEOL)后道制程(BEOL)TSV制造TSV顯露組裝TSV制造失敗損失組裝失敗成本Bump制造測(cè)試圖表:Bump金屬凸點(diǎn)來源:DAUM、NEWSIS,24HBM2 HBM2E/3 HBM3(12層)/3EBump

pitch(μm)552522層數(shù)(Hi)4/84/88/12(HBM3E有8層、12層版本)海力士的內(nèi)部互聯(lián)封裝TCB-NCF(熱壓合-非導(dǎo)電薄膜技術(shù))MR-MUF(大批量回流焊-注塑底填充技術(shù))Advanced

MR-MUF三星的內(nèi)部互聯(lián)封裝TCB(熱壓合)TCB(熱壓合)TCB(熱壓合)?

堆疊鍵合工藝主要包括:NCF、MUF、混合鍵合。HBM2,Bump

pitch(凸點(diǎn)間距)在55μm,三星和海力士共同使用TCB(熱壓合)技術(shù),其中海力士采用的是TCB的分支TCB-NCF。HBM2/2E/3/3E,Bump

pitch進(jìn)展到25/22μm水平,三星繼續(xù)采用TCB技術(shù),而海力士獨(dú)家采用MR-MUF(大規(guī)?;亓骱?注塑底填充技術(shù))。HBM4,規(guī)劃12層和16層,目前12層明確不使用混合鍵合,16層方案暫未確定。

24年11月海力士使用MR-MUF工藝的16層HBM3E發(fā)布。圖表:不同代際HBM的Bump間距與互聯(lián)技術(shù)來源:AMAT,海力士,Synopsys,25?

性能特色:標(biāo)準(zhǔn)化產(chǎn)品,與GDDR等傳統(tǒng)DRAM產(chǎn)品相比,HBM帶寬高、功耗低,同時(shí)容量可拓展。1

)高帶寬:因?yàn)槭褂肨SV和Microbump,在單位面積下可以創(chuàng)造更多的數(shù)據(jù)連接點(diǎn),即數(shù)據(jù)的傳輸?shù)腎/O數(shù)量多,達(dá)到1024個(gè)IO數(shù)量,帶寬=位寬×數(shù)據(jù)的傳輸速度。2

)功耗低:

GDDR采用正常2D結(jié)構(gòu),不需要中介層連接,總線位寬小,主要是通過體現(xiàn)數(shù)據(jù)的傳輸速率來提升位寬,因?yàn)閿?shù)據(jù)的傳輸速率快,因此功耗也高于HBM,GDDR基本50%的功耗是用于高速的數(shù)據(jù)的傳輸(PCB走線傳輸),而HBM用TSV技術(shù)實(shí)現(xiàn)走線更短,同時(shí)I/O數(shù)據(jù)的傳輸速度慢,功耗低。3

)占用面積小、容量可拓展:HBM將多層DRAM進(jìn)行3D垂直方向的堆疊,通過增加層數(shù)來擴(kuò)展容量,GDDR為2D結(jié)構(gòu),因此HBM在實(shí)現(xiàn)相同容量下,占用的面積更小。同時(shí)HBM與GPU通過中介層連接,1個(gè)GPU旁邊可以放置多顆HBM,中介層面積相對(duì)容易拓展。圖表:HBM結(jié)構(gòu)圖圖表:HBM高帶寬圖表:HBM低能耗來源:JEDEC,26?

性能特色:標(biāo)準(zhǔn)化產(chǎn)品,帶寬高、功耗低,同時(shí)容量可拓展。4

)標(biāo)準(zhǔn)化產(chǎn)品。HBM的標(biāo)準(zhǔn)由JEDEC指定,對(duì)HBM成品的長(zhǎng)寬高、Microbump的位置形狀、通道數(shù)量、數(shù)據(jù)的傳輸速度等參數(shù)均有明確要求。圖表:HBM3

Microbump參數(shù)圖表:HBM成品的長(zhǎng)寬高參數(shù)來源:海力士,27?

HBM方案下,GPU增加帶寬和容量的方式主要是增加HBM顆數(shù)和提升單顆HBM的性能。容量增加:1)增加HBM顆數(shù):目前1顆8層HBM3E可提供24GB,GPU增加1顆HBM3E,可增加24GB容量。但HBM的顆粒必須跟GPU對(duì)齊和封裝在一起,是緊耦合的狀態(tài),受限GPU面積,HBM數(shù)量不能無限增加,同時(shí)還需考慮散熱等問題。2)提升單顆HBM容量:提高單顆HBM的容量,HBM通常是100mm^2的面積,容量增加一方面來自單層容量密度提升,主要是由升級(jí)制程,另一方面來自堆疊層數(shù)的增加,但因HBM的高度需要與GPU高度相對(duì)平行,層數(shù)不能無限增加,因此需要通過升級(jí)鍵合工藝、晶圓減薄工藝等。帶寬增加:1)增加HBM顆數(shù):目前1顆HBM3E可提供1024bit總線位寬,增加1顆HBM3E,可增加1024bit總線位寬。2)提升單顆HBM的帶寬:帶寬=位寬x數(shù)據(jù)的傳輸速度,位寬的增加,主要是通過創(chuàng)造更多I/O,即數(shù)據(jù)連接傳輸點(diǎn),主要通過改進(jìn)鍵合工藝,實(shí)現(xiàn)更小的pitch,而數(shù)據(jù)的傳輸速度的提升,主要是來自制程升級(jí)。?

HBM不斷迭代,迭代方向?yàn)樵黾尤萘亢蛶?,目前量產(chǎn)的最高層數(shù)為12層HBM3E。從單顆容量看,堆疊層數(shù)和單層DRAM容量均有所增加,HBM1僅堆疊4層2Gb的DRAM,實(shí)現(xiàn)單顆HBM

8Gb(1GB),而HBM3E最高堆疊12層3GB的DRAM,實(shí)現(xiàn)單顆HBM

36GB,HBM4最高16層堆疊。從I/O數(shù)量看(總線位寬),HBM1到HBM3E均保持在1024bit,而數(shù)據(jù)的傳輸速率從HBM1的1Gb/s提升到HBM3E的9.2Gb/s,最終實(shí)現(xiàn)帶寬從HBM1的128GB/s提升至HBM3E的1.2TB/s圖表:HBM迭代情況(參考海力士官網(wǎng))HBM1HBM2HBM2EHBM3HBM3EHBM4年份201420182020202220242026堆疊層數(shù)44or

84or

88or

128or

1212or

16單層DRAM容量2Gb1GB2GB2GB3GB4GB容量1GB4GBOR

8GB8GBOR

16GB16GBOR

24GB24GBOR

36GB48GBOR

64GBI/O數(shù)量(總線位寬,bit)102410241024102410242048I/O速度(數(shù)據(jù)的傳輸速率)1Gbps2.4Gbps3.6Gbps6.4Gbps9.8Gbps6.4+Gbps帶寬128GB/s307GB/s460GB/s819GB/s1.2TB/s1.5-2.56

TB/s電壓1.2V1.2V1.2V1.1V1.1V1.05V來源:Trendforce,Yole,28?

競(jìng)爭(zhēng)格局:海力士、三星和美光壟斷。AI驅(qū)動(dòng),HBM市場(chǎng)快速增長(zhǎng):美光預(yù)計(jì)24年HBM市場(chǎng)規(guī)模160億美金,預(yù)計(jì)25年市場(chǎng)規(guī)模超過300億美金,預(yù)計(jì)到2030年市場(chǎng)規(guī)模超過1000億美金。DRAM市場(chǎng)由三家DRAMIDM三星、海力士、美光壟斷,2023年三家合計(jì)市占率96%,另外DRAM

IDM還有中國(guó)臺(tái)灣南亞科、華邦和力積電,大陸長(zhǎng)鑫、晉華等。而HBM市場(chǎng)壟斷效應(yīng)更強(qiáng),2023年海力士/三星/美光份額為55%/41%/3%。100%90%80%70%60%50%40%30%20%10%0%圖表:DRAM競(jìng)爭(zhēng)格局三星 海力士 美光 其他41%55%3%三星海力士美光圖表:HBM競(jìng)爭(zhēng)格局(2023)來源:IEEE,29?

WOW3D堆疊DRAM與邏輯芯片是3D結(jié)構(gòu),屬于近存計(jì)算。

結(jié)構(gòu):屬于近存計(jì)算,DRAM與邏輯芯片采用3D堆疊工藝封裝在一起,在1片邏輯芯片上堆疊多層DRAM芯片,邏輯芯片指GPU、CPU、NPU等計(jì)算芯片、右圖中為紫色的Logic

Die,DRAM芯片圖中僅只有1層,實(shí)際可堆疊多層。

技術(shù):使用TSV硅通孔技術(shù)、Wafer

on

Wafer的混合鍵合工藝(HybridBonding)實(shí)現(xiàn)多層芯片之間的電氣連接。

性能特點(diǎn):以紫光國(guó)芯的WOW

3D堆疊DRAM產(chǎn)品

SeDRAM為例,通孔間距(Pitch)達(dá)到10μm以內(nèi)的級(jí)別,HBM的Pitch目前為幾十微米,因此WoW

3D堆疊DRAM的帶寬更高,另外功耗更低,屬于定制化產(chǎn)品,容量拓展性一般。圖表:紫光國(guó)芯的WOW

3D堆疊DRAM圖表:紫光國(guó)芯的WOW

3D堆疊DRAM性能特點(diǎn)來源:MDPI、IEEE,30?

制造:使用TSV、Wafer

on

Wafer混合鍵合等先進(jìn)封裝工藝。(參考紫光國(guó)芯SeDRAM制造工藝)

1、制造Wafer:流片生產(chǎn)不同工藝下的DRAM晶圓(DRAM

Wafer)和搭載有DRAM外圍電路的邏輯晶圓(Logic

Wafer);

2、在晶圓上制造TSV通孔:通過平坦化、曝光和刻蝕等工藝,在DRAM和邏輯晶圓上分別制造接觸通孔,頂部通孔為L(zhǎng)TVIA,底部通孔為L(zhǎng)BVIA;3、多片晶圓的鍵合:1)多層DRAM晶圓的鍵合:以2層DRAM為例,將

一片DRAM晶圓(DRAM1)

正面鍵合到載體晶圓上,然后通過背面研磨和化學(xué)機(jī)械拋光(CMP)工藝將

DRAM1

的硅襯底研磨至幾微米厚度,在減薄后進(jìn)行TSV和混合鍵合工藝;在

DRAM2

上進(jìn)行用于粘合銅焊盤的金屬互連;將處理后的

DRAM1

DRAM2

晶圓通過混合鍵合Face

toBack鍵合;最后移除載體晶圓,并利用頂部金屬層工藝形成探測(cè)焊盤。2)邏輯和DRAM的鍵合:將邏輯晶圓翻轉(zhuǎn),通過

Cu-Cu

互連的方式,將邏輯Wafer的頂部和DRAM

Wafer的底部進(jìn)行Face

to

Face的混合鍵合(后續(xù)縮寫為HB);然后將邏輯晶圓減薄至約3um厚度,并從邏輯晶圓背面開口完成PAD制作。

4、傳統(tǒng)的封測(cè)工藝:多層晶圓后鍵合后就相當(dāng)于是一片晶圓,然后進(jìn)行減薄、切割、測(cè)試等傳統(tǒng)封裝測(cè)試流程。圖表:堆疊兩層

DRAM

晶圓的關(guān)鍵工藝圖表:3D堆疊DRAM的橫截面TEM圖像 圖表:邏輯芯片和存儲(chǔ)芯片的鍵合31來源:

《高端性能封裝技術(shù)的某些特點(diǎn)與挑戰(zhàn)》,Besi官網(wǎng),?

WOW3D堆疊DRAM的關(guān)鍵是混合鍵合工藝。混合鍵合的性能優(yōu)勢(shì)顯著,是未來Bump技術(shù)的迭代方向。

Microbump(連接是基于焊料):在TSV銅通孔上生成焊球,如錫焊球,右下角圖中的Microbump錫球,芯片之間通過焊料連接。

混合鍵合(去掉焊料):不再使用焊料,不同芯片或晶圓的互連直接通過銅通孔連接,直接銅連接可以降低電阻,從而在向各種芯片發(fā)送數(shù)據(jù)時(shí)降低功耗,另外去掉焊球后,銅通孔的間距可以做到小、通孔密度更高。

混合鍵合用于10μm以下:Microbump很難縮小到10μm以下,混合鍵合用在10μm間距以下的領(lǐng)域。圖表:鍵合技術(shù)的發(fā)展歷史圖表:Bump技術(shù)的發(fā)展趨勢(shì)圖表:2種鍵合的示意圖32來源:EVG,?

混合鍵合改善互聯(lián)結(jié)構(gòu),突破I/O密度瓶頸。1)I/O密度更高:混合鍵合金屬焊盤(大小約為0.5um×0.5um方形)間距可以微縮到2um以下,極大地提升I/O密度;2)走線距離更短:混合鍵合是直接鍵合,中間沒有層間距,可以縮短小芯片間連線長(zhǎng)度,從而改善總體性能、功率和成本,且相較于焊球鍵合約30um的層間厚度,混合鍵合封裝的芯片會(huì)更薄。3)省去底部填充成本:相較于倒裝芯片鍵合,混合鍵合不需要在層間底部填充,可以省去相應(yīng)材料成本。圖表:混合鍵合具有更高的I/O密度 圖表:混合鍵合具有更短層間互聯(lián)33來源:應(yīng)用材料官網(wǎng),?

混合鍵合分為W2W(Wafer

to/onWafer,晶圓對(duì)晶圓)、D2W(Die

toWafer,芯片對(duì)晶圓)兩大類,二者整體封裝步驟相似,D2W涉及切片。

W2W是將兩片晶圓直接鍵合,效率更高但良率較低,適用于高良率芯片的鍵合,目前應(yīng)用在CIS/3D

NAND等領(lǐng)域。W2W鍵合是指兩個(gè)完整的晶圓進(jìn)行鍵合,完成后再切割。因W2W鍵合前不需要晶圓切割,因此顆粒污染產(chǎn)生較少同時(shí)效率更高,根據(jù)貼裝方式,可以進(jìn)一步分為背對(duì)面鍵合與面對(duì)面鍵合。但是W2W鍵合無法篩選已知的良好芯片進(jìn)行鍵合,這會(huì)導(dǎo)致有缺陷的芯片鍵合到合格芯片上,從而導(dǎo)致良率下降(約為兩片晶圓的良率相乘)。對(duì)于尺寸較小的芯片,一片晶圓可以產(chǎn)出更多芯片,同樣的缺陷面積造成的芯片損失率更小,其良率更高,一般來說更適合用W2W鍵合方式,因此其在CIS、3D

NAND等高良率小型芯片上應(yīng)用廣泛。

C2W良率更高,但因技術(shù)難度高,處于研發(fā)量產(chǎn)爬坡階段。C2W是將晶圓切割后進(jìn)行鍵合,整體工藝發(fā)展受限于清潔度與產(chǎn)能等因素限制,比W2W發(fā)展慢,但是C2W可以支持不同的芯片尺寸、晶圓類型,并可以將良好的芯片篩選出來進(jìn)行鍵合,良率也會(huì)更高。圖表:混合鍵合工作流程來源:

IEEE,34?

WoW

3D堆疊DRAM是高度定制化產(chǎn)品,DRAM容量和層數(shù)可根據(jù)客戶要求定制。拆解紫光國(guó)芯1層DRAM的SeDRAM產(chǎn)品:1層DRAM(4Gb)+1層Logic。1)制程:DRAM

25nm,Logic

55nm2)面積:DRAM和Logic都是25.24x23.86mm^2,面積相同。3)DRAM和Logic連接的混合鍵合:①混合鍵合pitch是3μm,有超過6.4萬(wàn)個(gè)混合鍵合的孔,最大通孔密度110,000/mm^2。②Pad既是金屬導(dǎo)線,同時(shí)也是DRAM和Logic之間的支撐材料。③混合鍵合的電阻小,因此邏輯到存儲(chǔ)接口的能耗可以降低40%。4)4Gb

SeDRAM:容量4Gb,

32個(gè)通道,4096個(gè)I/O

(位寬4096bit)

,

I/O速度為266MHz,帶寬136GBps。4Gb是由4個(gè)獨(dú)立可擴(kuò)展的1Gb存儲(chǔ)單元陣列構(gòu)成,根據(jù)需求SeDRAM容量可以組合成1Gb-48Gb。5)1Gb

SeDRAM規(guī)格:8個(gè)通道,1024個(gè)I/O(位寬1024bit),I/O速度266

MHz,帶寬34GBps,0.88pJ/bit的功耗,1Gb的存儲(chǔ)單元陣列是由8個(gè)128M的存儲(chǔ)單元陣列和獨(dú)立片上電源系統(tǒng)構(gòu)成。每個(gè)128Mb存儲(chǔ)單元陣列有128個(gè)I/O,每個(gè)128M都是一個(gè)獨(dú)立的內(nèi)存通道,具有單獨(dú)的控制和數(shù)據(jù)信號(hào),所有內(nèi)存通道是可以同時(shí)訪問,并行性高。其他特點(diǎn):①存儲(chǔ)控制器(Memory

Controller)、I/O電路等都在對(duì)應(yīng)的Logic芯片上,SeDRAM去掉PHY結(jié)構(gòu)。②logic芯片也是分區(qū)的,每個(gè)logic

block都可以直接連接對(duì)應(yīng)的dram

block,同時(shí)可以通過on-chip

bus連接所有其他memory

blocks;③SeDRAM結(jié)構(gòu)與傳統(tǒng)DRAM制造工藝兼容。來源:

IEEE,35圖表:4Gb

SeDRAM由4個(gè)1Gb構(gòu)成,每個(gè)1Gb由8個(gè)128M構(gòu)成圖表:邏輯電路、I/O等都在Logic芯片上來源:

IEEE,36圖表:4Gb

SeDRAM的性能→走線距離短,數(shù)據(jù)的傳輸快、功耗低→不需要PHY,數(shù)據(jù)的傳輸快、功耗低→功耗低→并行的內(nèi)存通道數(shù)量多→I/O多→帶寬高來源:

IEEE,37?

WOW3D堆疊DRAM

對(duì)比HBM:定制化產(chǎn)品,帶寬更高,功耗更低,但容量拓展性不如HBM

。

1、混合鍵合工藝的Pitch小,IO數(shù)量多,帶寬較HBM有十倍以上提升。根據(jù)紫光國(guó)芯2023年發(fā)布論文中的2層SeDRAM方案,其使用WoW

混合鍵合工藝,DRAM和邏輯芯片的混合鍵合的通孔間距(Pitch)為

3um

,且每個(gè)過孔的電阻小于

0.5Ω,2層DRAM之間的Mini-TSV

的通孔間距縮小至

1.5um,能構(gòu)建的IO數(shù)量更多,該2層DRAM產(chǎn)品64Gb(8GB,2層4GB),IO數(shù)量131072個(gè),平均每Gb的IO數(shù)量達(dá)到2048個(gè),而192Gb的HBM3(24GB,8層3GB)的IO數(shù)量為1024個(gè),平均每Gb的IO數(shù)量為5.3個(gè)。紫光國(guó)芯的2層產(chǎn)品的IO速度為541Mbps(而HBM3

IO速度僅為7168Mbps),通過IO數(shù)量的提升,最終實(shí)現(xiàn)每Gb的帶寬為135GB/s,而HBM3每Gb的帶寬為4.7GB/s。圖表:紫光國(guó)芯2層DRAM的方案圖表:SeDRAM性能對(duì)比傳統(tǒng)DRAMHBMWOW3D堆疊DRAMWOW

3D堆疊DRAM的特點(diǎn)類型GDDR6ISSCC2018HBM2EISSCC2020HBM3ISSCC2022SeDRAMIEDM2020SeDRAM(2層)連接方式-ubump,

T

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論