版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)
文檔簡介
AIGC對光通信行業(yè)的影響分析1.0行業(yè)背景:大模型驅(qū)動算力需求本輪AI浪潮由ChatGPT掀起,并引發(fā)中外科技企業(yè)展開對大語言模型及生成式AI的追逐和對算力的軍備競賽。無論是傳統(tǒng)互聯(lián)網(wǎng)企業(yè)還是新進入者都在加大算力投資,積極推出大模型。我們認為多模態(tài)大模型與應(yīng)用生態(tài)圈將成為2024年生成式AI的關(guān)鍵詞,生成式AI依然處于行業(yè)發(fā)展的初期,多模態(tài)大模型訓(xùn)練與推理需求雙驅(qū)動加速算力基礎(chǔ)設(shè)施建設(shè)。多模態(tài)大模型,AI感知能力更加豐富11月6日,OpenAI公布GPT-4Turbo,平臺提供多模態(tài)功能,包括視覺、圖像創(chuàng)造(DALL.E3)和文本轉(zhuǎn)語音(TTS)。12月7號,谷歌發(fā)布AI多模態(tài)模型Gemini1.0。Gemini1.0根據(jù)不同尺寸進行了優(yōu)化,分別是Ultra、Pro和Nano。GeminiUltra適用于高度復(fù)雜的任務(wù),GeminiPro是通用版,而GeminiNano則被用于各種客戶端設(shè)備。Gemini1.0可以同時理解并識別本文、圖形、音頻等。伴隨著大模型處理數(shù)據(jù)的類型持續(xù)擴展,多模態(tài)大模型(LMMS)成為主流,這使得未來大模型參數(shù)與訓(xùn)練集規(guī)模將持續(xù)擴大。當(dāng)前多模態(tài)系統(tǒng)主要處理文本、圖片和語音。伴隨行業(yè)發(fā)展,大模型將可以處理視頻、音樂、3D等內(nèi)容。這也意味著大模型訓(xùn)練算力需求的增長將超預(yù)期。應(yīng)用生態(tài)圈趨于成熟,推理算力需求顯著增長OpenAI發(fā)布了GPTs,讓用戶們無需代碼,結(jié)合自己的需求、外部知識和能力創(chuàng)造自定義版本的GhatGPT,滿足了用戶的定制化需求。此外,OpenAI在11月底上線GPTstore,讓開發(fā)者們能夠分享、發(fā)布自己創(chuàng)建GPTs。GPTs和GPTStore的上線滿足了客戶的特色化需求,有望加速GPT應(yīng)用生態(tài)建設(shè),進一步提高用戶黏性。GPTs降低了制作大模型應(yīng)用門檻,用戶無需編程基礎(chǔ),用自然語言就能做出專屬GPTS,從而加速大模型向個人用戶和垂直行業(yè)滲透。GPT應(yīng)用量的增長,也意味著“殺手級”應(yīng)用出現(xiàn)的可能性提升。大模型應(yīng)用所帶來的推理算力需求將會超出預(yù)期。2.0算力芯片與服務(wù)器發(fā)展趨勢NVLink技術(shù)、NVSwitch芯片提升芯片互聯(lián)帶寬打破PCIe限制Nvlink4代的總帶寬可達到900GB/s,為PCIe5.0總線帶寬的7倍,對比下一代PCIe6.0的256GB/s也有顯著優(yōu)勢。NVSwitch是英偉達的節(jié)點交換架構(gòu),通過連接多個NVLink,在單節(jié)點內(nèi)和節(jié)點間實現(xiàn)多GPU的拓展。第三代NVSwitch能在帶點服務(wù)器節(jié)點中支持8-16個完全鏈接的GPU,支持以900GB/s的速度互聯(lián)每個GPU。英偉達H100使用第四代NVLink和第三代NVSwitch,具有八個NVIDIAH100TensorCoreGPU的系統(tǒng)具有3.6TB/s的二等分帶寬和450GB/s的縮減操作帶寬。與上一代相比,這兩個數(shù)字分別增加了1.5倍和3倍。英偉達擺脫了PCIe在原始帶寬、延遲以及緩存一直性方面的限制。通過NVLink和NVSwitch實現(xiàn)多個GPU大規(guī)模集群的傳輸,實現(xiàn)更快和更可拓展的計算系統(tǒng)。英偉達DGX服務(wù)器實現(xiàn)內(nèi)部GPU全互聯(lián)以GTCSPRING2022發(fā)布的DGXH100為例,H100分為SXM和PCIe兩個版本。主流大模型依賴多卡協(xié)同,GPU之間的帶寬要求較高,Nvlink全互聯(lián)的GPU更加適合大模型應(yīng)用場景。SXM版本中8張H100芯片通過4張NVLinkSwitch芯片實現(xiàn)全互聯(lián)。GPU之間帶寬高達900GB/s(雙向鏈路25GB/s*2*18條=900GB/s),相較于PCIE5.0x16雙向帶寬128GB/s,互聯(lián)速度得到快速提升。PCIe版本中4張H100芯片通過PCLeSwitchPEX4:1連接到CPU,2張H100芯片通過NvlinkBridge互聯(lián)。PCIE機型更加靈活,GPU卡的數(shù)量以及PCIE的拓樸可以進行調(diào)整。英偉達DGX服務(wù)器計算網(wǎng)絡(luò)設(shè)計優(yōu)化DGXH100在服務(wù)器內(nèi)部通信構(gòu)架中可以看出計算網(wǎng)絡(luò)的重要性。相較于DGXA100,DGXH100正在放棄傳統(tǒng)的PCIe網(wǎng)卡,轉(zhuǎn)而使用“Cedar”的模塊進行GPU與GPU之間的互聯(lián)。DGXH100通過2個Cedar7模組,每個模組包含4個ConnextX-7ICs,通過Densilink電纜連接到服務(wù)器的對外接口。雖然8張GPU配備了8張400G的網(wǎng)卡ICs,但接口合成成了4個800G接口。優(yōu)勢:1.使用Cedar模塊可以提升服務(wù)器空間效率,同時有助于服務(wù)器內(nèi)部空氣流通。2.Cedar模塊直接通過電纜對外連接,有助于降低PCB設(shè)計復(fù)雜度與成本。Chiplet和異構(gòu)芯片成為行業(yè)發(fā)展的趨勢Chiplet:AMD早在2011年發(fā)布了APU已經(jīng)是CPU+GPU架構(gòu)。在2017年,AMD發(fā)布的論文《DesignandAnalysisofanAPUforExascaleComputing》中討論包含CPU、GPU和HBM內(nèi)存堆棧的APU芯片設(shè)計。在2023年6月推出了AMD首個CPU+GPU的數(shù)據(jù)中心產(chǎn)品。UltraFusion:M1Ultra采用臺積電5nm工藝,由兩塊M1Max芯片拼接而成,這樣的“組合”使得其晶體管數(shù)量達到1140億顆。使得各項硬件指標翻倍:20核CPU包含16個高性能核心、4個高能效核心;GPU核心數(shù)量增至64核;32核神經(jīng)網(wǎng)絡(luò)引擎能夠帶來每秒22萬億次的運算能力;統(tǒng)一內(nèi)存最高規(guī)格達到128GB;內(nèi)存帶寬提升至800GB/s。這種多芯片(Multi-die)配置主要靠UltraFusion多晶粒架構(gòu),使用2.5D先進封裝技術(shù)。異構(gòu)芯片互聯(lián)的趨勢,逐步擺脫了傳統(tǒng)SoC的束縛,芯片面積提升不一定意味著成本大幅提升與良品率大幅下降。HBM大幅提升顯存帶寬,適合大模型應(yīng)用場景HBM通過采用TSV技術(shù)突破內(nèi)存帶寬與容量瓶頸,是新一代的DRAM解決方案。相對于傳統(tǒng)內(nèi)存,HBM是在硅中階層(SiliconInterposer)上堆疊起來并與GPU封裝在一起,大幅縮小使用面積,并且HBM距離GPU更近,進一步提升數(shù)據(jù)傳輸速度。HBM主要是通過硅通孔(TSV)技術(shù)進行芯片堆疊,通過貫通所有芯片層的柱狀通道傳輸信號、指令、電流,以增加吞吐量并克服單一封裝內(nèi)帶寬的限制,通過采用TSV技術(shù)HBM大幅提高了容量和數(shù)據(jù)傳輸速率。與傳統(tǒng)內(nèi)存技術(shù)相比,HBM具有更高帶寬、更大容量、更低功耗、更小尺寸,HBM突破了內(nèi)存帶寬與容量瓶頸,讓更大的模型、更多的參數(shù)留在離核心計算更近的地方,從而減少存儲解決方案帶來的延遲,是新一代的DRAM解決方案。算力+數(shù)據(jù)讀取能力+通信能力缺一不可英偉達2019年以69億美金收購Mellanox。Mellanox為服務(wù)器、存儲和超融合基礎(chǔ)設(shè)施提供以太網(wǎng)交換機、芯片和InfiniBand智能互聯(lián)解決方案在內(nèi)的大量數(shù)據(jù)中心產(chǎn)品。收購Mellanox使得英偉達在數(shù)通市場業(yè)務(wù)更加全面,數(shù)據(jù)中心工作負載將在整個計算,網(wǎng)絡(luò)和存儲堆棧中進行優(yōu)化,并能實現(xiàn)更高的性能,更高的利用率和更低的運營成本。BlueFieldDPU:DPU承接了傳統(tǒng)服務(wù)器中CPU的工作負擔(dān),并融合了智能網(wǎng)卡的網(wǎng)絡(luò)加速功能,這樣更好的釋放了CPU資源,更好支撐虛擬機和容器的應(yīng)用。優(yōu)勢:1.降低服務(wù)器功耗,降低用電成本;2.網(wǎng)絡(luò)通信速度提升。網(wǎng)絡(luò)架構(gòu)演進光模塊與交換機需求提升大模型參數(shù)規(guī)模提升,算力集群中互聯(lián)服務(wù)器數(shù)量顯著提升。二層無收斂的胖樹網(wǎng)絡(luò)架構(gòu)互聯(lián)的網(wǎng)卡數(shù)量是受限的,超算數(shù)據(jù)中心的網(wǎng)絡(luò)架構(gòu)會向三層無收斂的胖樹網(wǎng)絡(luò)架構(gòu)演進,這意味著光模塊和交換機的需求將進一步提升。英偉達推出的DGXSuperPOD超級計算機,是一套軟硬協(xié)同的完整解決方案,在滿足AI模型算力的基礎(chǔ)上,又能幫助企業(yè)快速部署AI數(shù)據(jù)中心。DGXSuperPOD采用模塊化的設(shè)計,支持不同規(guī)模大小的設(shè)計。以127個DGXH100為例,整體網(wǎng)絡(luò)分為計算網(wǎng)絡(luò),存儲網(wǎng)絡(luò),帶內(nèi)管理網(wǎng)絡(luò)和帶外管理網(wǎng)絡(luò)。3.0光模塊光模塊的作用是光電信號的轉(zhuǎn)換。光模塊內(nèi)部結(jié)構(gòu)包括光發(fā)射組件(TOSA,含激光器芯片)、光接收組件(ROSA,含探測器芯片)、驅(qū)動電路、光電接口。在發(fā)射端,光模塊將設(shè)備產(chǎn)生的電信號經(jīng)驅(qū)動芯片處理后,通過激光器轉(zhuǎn)化為功率穩(wěn)定的調(diào)制光信號,使得信息能夠在高速光纖中傳遞;在接收端,光信號經(jīng)探測器處理后還原為電信號,經(jīng)前置放大器處理后輸出。光芯片是上游產(chǎn)業(yè)鏈核心器件,光器件占比約為73%,電路芯片占比18%。光器件中,光發(fā)射組件和光接收組件合計占比約80%。光模塊需求測算:英偉達A100推薦配置A100+ConnectX6+QM8700三層網(wǎng)絡(luò)。第一層架構(gòu)中,每個節(jié)點(A100)有8個接口,每個節(jié)點分別連接8個葉交換機。每20個節(jié)點組成一個單元(SU),在第一層需要8*SU個葉交換機需要8*SU*20條線纜,需要2*8*SU*20個200G光模塊。第二層架構(gòu)中,由于采用無阻塞架構(gòu),第二層也采用單條電纜200G的傳輸速率,線纜數(shù)量和第一層相同,需要2*8*SU*20個200G管模塊。所需要的脊交換機數(shù)量是線纜數(shù)量除以葉交換機數(shù)量,需要(8*SU*20)/(8*SU)個脊交換機。但是當(dāng)葉交換機數(shù)量不夠多的時候,為了節(jié)約脊交換機的數(shù)量可以在葉和脊之間做兩條以上的連接(只要不超過40個接口的限制)。因此當(dāng)單元數(shù)量分別為1/2/4/5個時所需要的脊交換機數(shù)量為4/10/20/20個,所需要的光模塊數(shù)量分別為320/640/1280/1600個,脊交換機數(shù)量不會同比例提升,但光模塊數(shù)量會同比例提升。當(dāng)單元數(shù)量達到7個時,需要用到第三層架構(gòu),由于無阻塞架構(gòu)因此第三層架構(gòu)所需要的線纜數(shù)與第二層數(shù)相同。140臺服務(wù)器,共對應(yīng)140*8=1120片A100,共需要56+56+28=140個交換機(QM8790),需要1120+1120+1120=3360根線纜,需要3360*2=6720個200G光模塊,A100與200G光模塊對應(yīng)關(guān)系為1120/6720=1:6。光模塊需求測算:在算力集群中,光模塊需求數(shù)量影響因素:網(wǎng)卡型號、交換機型號、單元數(shù)量,不同架構(gòu)所需要的光模塊數(shù)量有所差異。以A100SuperPOD為例,英偉達官方推薦網(wǎng)卡為ConnectX-6(200b/s),交換機型號為QM8700(40路200Gb/s傳輸速率),每個單元包括20個節(jié)點,最大支持7個單元組成集群,超過5個單元需要三層交換架構(gòu),那么每張A100所需要6個200G光模塊。以H100SuperPOD為例,英偉達官方推薦網(wǎng)卡為ConnectX-7(400b/s),交換機型號為QM9700(64路400b/s傳輸速率),每個單元包括32個節(jié)點,最大支持4個單元組成集群,兩層交換架構(gòu),那么每張H100所需要1個400G和1.5個
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 教師職稱述職報告范文錦集8篇
- 買賣合同協(xié)議書集錦七篇
- 五星級網(wǎng)吧員工管理制度
- 培訓(xùn)課件 -企業(yè)戰(zhàn)略性人力資源管理
- 酒店弱電系統(tǒng)設(shè)計方案(二)
- 佳作欣賞廣播稿3篇
- 飼料運輸合同
- 出租車間廠房合同
- 停車場出租合同范文
- 門面房租賃合同范文
- T-ISEAA 001-2020 網(wǎng)絡(luò)安全等級保護測評高風(fēng)險判定指引
- 崔允漷-基于課程標準的教學(xué)
- 2023年小學(xué)五年級下冊英語期末試卷分析,菁選3篇
- DL-T 2231-2021 油紙絕緣電力設(shè)備頻域介電譜測試導(dǎo)則
- 員工月度績效考核管理辦法
- 2023年云南保山電力股份有限公司招聘筆試題庫及答案解析
- GB/T 41904-2022信息技術(shù)自動化基礎(chǔ)設(shè)施管理(AIM)系統(tǒng)要求、數(shù)據(jù)交換及應(yīng)用
- GB/T 41908-2022人類糞便樣本采集與處理
- 信息系統(tǒng)運維服務(wù)方案
- 簡支梁、懸臂梁撓度計算程序(自動版)
- 統(tǒng)編版小學(xué)四年級語文上冊五六單元測試卷(附答案)
評論
0/150
提交評論