版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)
文檔簡介
在之前的文章中,我們詳細介紹過PCIe、RDMA、NVlink、CXL等互聯(lián)技術(shù)。今天我們就通過這篇文章來詳細的介紹下GPU通信互聯(lián)技術(shù)。為什么需要GPU互聯(lián)技術(shù)?我們都知道,在GPU未出現(xiàn)前,CPU一直是計算機中的絕對核心,甚至連存儲、內(nèi)存、網(wǎng)絡(luò)等子系統(tǒng)的能力都是CPU說了算。比如,一個CPU能夠支持多大的內(nèi)存,CPU都是有嚴格要求的。甚至同樣一顆CPU,只是支持不同的內(nèi)存,都能賣兩個價格。這也導(dǎo)致了Intel的"獨斷專行",其它人想對CPU做點"手腳"那是被限制的死死的,可以說Intel真正做到了"此路是我開,此樹是我栽,要想此路過,留下買路財",這直接導(dǎo)致了Intel在產(chǎn)品創(chuàng)新方面一直"擠牙膏"。但人算不如天算,沒想到大數(shù)據(jù)分析、AI、視覺渲染、基因分析以及EDR仿真等需求的突然爆發(fā),給了NVIDIA的GPU帶了巨大增長空間。GPU的快速增長超出了所有人的預(yù)料,它幾乎徹底顛覆了CPU在計算機系統(tǒng)中的地位,而傳統(tǒng)的根據(jù)CPU為核心設(shè)計的互聯(lián)通信方式在GPU高速增長的情況下開始慢慢成為了阻礙,原有的通信技術(shù)已經(jīng)成為效率阻礙。比如,傳統(tǒng)方式如果想把數(shù)據(jù)從存儲系統(tǒng)轉(zhuǎn)運到GPU顯存中,由于歷史原因此過程受CPU管理。隨著計算負載從較慢的CPU轉(zhuǎn)移到較快的GPU后,I/O逐漸成為系統(tǒng)的性能瓶頸。面對這種情況,那么GPU就要在原有的計算機里"開路"了。為了更好地讓大家理解GPU互聯(lián)技術(shù),本文按照GPU的使用模式分為兩種方式來講解,分為單機多卡GPU互聯(lián)技術(shù)和多機多卡GPU通信技術(shù)。不多說了,我們馬上開始。單機多卡GPU通信技術(shù)談到GPU"開路"的通信技術(shù),我們就不得不聊到GPUDirect這項技術(shù)。1、GPUDirectGPUDirect是NVIDIA開發(fā)的一項技術(shù),可實現(xiàn)GPU與其他設(shè)備(例如網(wǎng)絡(luò)接口卡(NIC)和存儲設(shè)備)之間的直接通信和數(shù)據(jù)傳輸,而不涉及CPU。使用GPUDirect,網(wǎng)絡(luò)適配器和存儲驅(qū)動器可以直接讀寫GPU內(nèi)存,減少不必要的內(nèi)存消耗,減少CPU開銷并降低延遲,從而顯著提高性能。發(fā)展到今天,GPUDirect技術(shù)發(fā)展經(jīng)歷了四個階段:2010年,GPU支持與網(wǎng)卡,存儲等設(shè)備共享內(nèi)存,即GPUDirectSharedMemory;2011年,NVIDIA推出GPUDirectP2P(Peer-to-Peer),支持同一PCIe總線上的GPU之間的內(nèi)存訪問;2012年底,GPUDirectRDMA完美地解決了計算集群節(jié)點間GPU卡PCIe總線的通信問題。該技術(shù)將在多機的GPU通信中詳細說明。如今,GPUDirect技術(shù)已經(jīng)逐漸完善,形成了包括GPUDirectStorage、GPUDirectRDMA、GPUDirectP2P和GPUDirectVideo四組重要技術(shù)的組合。1)GPUDirectStorage對AI和HPC應(yīng)用而言,隨著數(shù)據(jù)規(guī)模的不斷擴大,數(shù)據(jù)加載時間對系統(tǒng)性能影響越發(fā)顯著。隨著GPU計算速度的快速提升,系統(tǒng)I/O(數(shù)據(jù)從存儲讀取到GPU顯存)已經(jīng)成為系統(tǒng)瓶頸。GPUDirectStorage提供本地存儲(NVMe)/遠程存儲(NVMeoverFabric)與GPU顯存的直接通路,它可以減少不必要的系統(tǒng)內(nèi)存拷貝(通過bouncebuffer)。它可應(yīng)用網(wǎng)卡NIC和存儲系統(tǒng)附近的DMA引擎,直接向GPU顯存寫入/讀取數(shù)據(jù)。2)GPUDirectRDMARDMA(Remotedirectmemoryaccess)技術(shù)可使外圍PCIe設(shè)備直接訪問GPU顯存。GPUDirectRDMA被設(shè)計用來支持GPU間快速跨機通信。它能減輕CPU負載,同時也能減少不必要的通過系統(tǒng)內(nèi)存進行的數(shù)據(jù)拷貝。GPUDirectRDMA在CUDAToolkit中提供支持。您可聯(lián)系網(wǎng)絡(luò)供應(yīng)商下載相關(guān)驅(qū)動,來使用RDMA功能。它對TeslaandQuadroGPU都是可用的。3)GPUDirectforVideoGPUDirectforVideo提供一個服務(wù)于frame-based的通過優(yōu)化的流水線功能。設(shè)備包括:framegrabbers、videoswitchers、HD-SDIcapture、CameraLinkdevice,它可以把視頻幀高效地向GPU顯存中寫入/讀出。過去處理視頻的第三方硬件與GPU交互時,會引入不必要的延遲,如圖6左邊所示。有了GPUDirectforVideo技術(shù),I/O設(shè)備和GPU可達到很好的同步(兩個設(shè)備driver間拷貝數(shù)據(jù)),同時能減少CPU的負載。GPUDirectforVideo由第三方公司的SDK提供,開發(fā)者對視頻流進/出GPU(通過OpenGL,DirectXorCUDA在子幀的傳輸過程)有充分的控制能力[7]。4)GPUDirectP2PGPUDirectP2P支持GPU之間通過memoryfabric(PCIe或NVLink)直接進行數(shù)據(jù)拷貝。CUDAdriver原生支持P2P技術(shù),開發(fā)者可使用最新的CUDAToolkit和driver來實現(xiàn)GPU間直接通信[6](一般用于機內(nèi)通信)。2、NVLink介紹完GPUDirect技術(shù)后,我們來看一下另一項機內(nèi)互聯(lián)技術(shù)NVlink。當訓(xùn)練數(shù)據(jù)不斷增長時,PCIe的帶寬滿足不了需求,會逐漸成為系統(tǒng)瓶頸。為提升多GPU之間的通信性能,充分發(fā)揮GPU的計算性能,NVIDIA于2016年發(fā)布了全新架構(gòu)的NVLink。這項技術(shù)不僅僅是SLI技術(shù)的升級,而且是對GPU如何互聯(lián)的根本性重新思考。NVLink是一種高速、高帶寬的互連技術(shù),用于連接多個GPU之間或連接GPU與其他設(shè)備(如CPU、內(nèi)存等)之間的通信。NVLink提供了直接的點對點連接,具有比傳統(tǒng)的PCIe總線更高的傳輸速度和更低的延遲。NVLink代表了多GPU互聯(lián)技術(shù)的邏輯演變,不僅在速度方面,而且在架構(gòu)設(shè)計方面。NVLink的結(jié)構(gòu)由可以雙向傳輸數(shù)據(jù)的高速數(shù)據(jù)通道組成。與傳統(tǒng)的基于總線的系統(tǒng)不同,NVLink采用點對點連接,有效減少瓶頸并提高數(shù)據(jù)吞吐量。最新的迭代提供高達900GB/s的帶寬,比SLI的功能有了顯著增強。NVLink與眾不同的關(guān)鍵功能之一是它支持網(wǎng)狀拓撲的能力。與舊技術(shù)的菊花鏈或中心輻射型拓撲相比,網(wǎng)格設(shè)置允許GPU之間實現(xiàn)更通用且數(shù)量更多的連接。這在數(shù)據(jù)中心和高性能計算應(yīng)用程序中特別有用,在這些應(yīng)用程序中,復(fù)雜的數(shù)據(jù)路由是常態(tài)。統(tǒng)一內(nèi)存是NVLink的另一個特點。這允許GPU共享公共內(nèi)存池,從而實現(xiàn)更高效的數(shù)據(jù)共享并減少在GPU之間復(fù)制數(shù)據(jù)的需要。這對于機器學(xué)習(xí)和大數(shù)據(jù)分析等應(yīng)用程序來說是一個巨大的推動,在這些應(yīng)用程序中,大型數(shù)據(jù)集通常超過單個GPU的內(nèi)存容量。NVLink還改善了延遲,這是任何高性能計算設(shè)置中的一個關(guān)鍵因素。較低的延遲可確保GPU之間更快的數(shù)據(jù)傳輸和同步,從而實現(xiàn)更高效的并行計算。這是通過NVLink的直接內(nèi)存訪問(DMA)功能實現(xiàn)的,允許GPU直接讀寫彼此的內(nèi)存,而不需要CPU的參與。NVLink技術(shù)無法使單服務(wù)器中8個GPU達到全連接,為解決該問題,NVIDIA在2018年發(fā)布了NVSwitch,實現(xiàn)了NVLink的全連接。NVIDIANVSwitch是首款節(jié)點交換架構(gòu),可支持單個服務(wù)器節(jié)點中16個全互聯(lián)的GPU,并可使全部8個GPU對分別達到300GB/s的速度同時進行通信。3、NVSwitch單服務(wù)器中8個GPU卡可以依靠NVLink實現(xiàn)全連接。超過8個之后,就要依靠NVSwitch來實現(xiàn)了。NVIDIANVSwitch將多個NVLink加以整合,在單個節(jié)點(如NVIDIAHGXA100)內(nèi)以NVLink的較高速度實現(xiàn)多對多的GPU通信,從而進一步提高互聯(lián)性能。NVLink和NVSwitch的結(jié)合使NVIDIA得以高效地將AI性能擴展到多個GPU,每個GPU都有12個連接NVSwitch的NVLink鏈路,可實現(xiàn)高速的多對多通信多機之間GPU卡通信技術(shù)隨著大數(shù)據(jù)分析、科技計算、AI計算等應(yīng)用對算力需求巨大,單機形態(tài)已經(jīng)不能滿足用戶需求,多機多卡的計算是一個常態(tài),多機間的通信是影響分布式訓(xùn)練的一個重要指標。在這里我們談?wù)劧鄼C之間GPU卡的通信技術(shù),主要有RDMA、GPUDirectRDMA和IPoverInfiniBand等技術(shù)。1、RDMA在在傳統(tǒng)的TCP/IP網(wǎng)絡(luò)通信中,數(shù)據(jù)發(fā)送方需要將數(shù)據(jù)進行多次內(nèi)存拷貝,并經(jīng)過一系列的網(wǎng)絡(luò)協(xié)議的數(shù)據(jù)包處理工作;數(shù)據(jù)接收方在應(yīng)用程序中處理數(shù)據(jù)前,也需要經(jīng)過多次內(nèi)存拷貝和一系列的網(wǎng)絡(luò)協(xié)議的數(shù)據(jù)包處理工作。經(jīng)過這一系列的內(nèi)存拷貝、數(shù)據(jù)包處理以及網(wǎng)絡(luò)傳輸延時等,服務(wù)器間的通信時延往往在毫秒級別,不能夠滿足多機多卡場景對于網(wǎng)絡(luò)通信的需求。RDMA(RemoteDirectMemoryAccess)是一種繞過遠程主機而訪問其內(nèi)存中數(shù)據(jù)的技術(shù),解決網(wǎng)絡(luò)傳輸中數(shù)據(jù)處理延遲而產(chǎn)生的一種遠端內(nèi)存直接訪問技術(shù)。目前
RDMA有三種不同的技術(shù)實現(xiàn)方式:InfiniBand(IB):IB是一種高性能互聯(lián)技術(shù),它提供了原生的RDMA支持。IB網(wǎng)絡(luò)使用專用的IB適配器和交換機,通過RDMA操作實現(xiàn)節(jié)點之間的高速直接內(nèi)存訪問和數(shù)據(jù)傳輸。RoCE(RDMAoverConvergedEthernet):RoCE是在以太網(wǎng)上實現(xiàn)RDMA的技術(shù)。它使用標準的以太網(wǎng)作為底層傳輸介質(zhì),并通過使用RoCE適配器和適當?shù)膮f(xié)議棧來實現(xiàn)RDMA功能。iWARP:iWARP是基于TCP/IP協(xié)議棧的RDMA實現(xiàn)。它使用普通的以太網(wǎng)適配器和標準的網(wǎng)絡(luò)交換機,并通過在TCP/IP協(xié)議棧中實現(xiàn)RDMA功能來提供高性能的遠程內(nèi)存訪問和數(shù)據(jù)傳輸。使用RDMA的優(yōu)勢如下:零拷貝(Zero-copy)
-應(yīng)用程序能夠直接執(zhí)行數(shù)據(jù)傳輸,在不涉及到網(wǎng)絡(luò)軟件棧的情況下。數(shù)據(jù)能夠被直接發(fā)送到緩沖區(qū)或者能夠直接從緩沖區(qū)里接收,而不需要被復(fù)制到網(wǎng)絡(luò)層。內(nèi)核旁路(Kernelbypass)
-應(yīng)用程序可以直接在用戶態(tài)執(zhí)行數(shù)據(jù)傳輸,不需要在內(nèi)核態(tài)與用戶態(tài)之間做上下文切換。不需要CPU干預(yù)(NoCPUinvolvement)
-應(yīng)用程序可以訪問遠程主機內(nèi)存而不消耗遠程主機中的任何CPU。遠程主機內(nèi)存能夠被讀取而不需要遠程主機上的進程(或CPU)參與。遠程主機的CPU的緩存(cache)不會被訪問的內(nèi)存內(nèi)容所填充。簡單來說,RDMA更像一個去掉中間商的技術(shù),讓數(shù)據(jù)能夠快速獲取。不再在操作系統(tǒng)、CPU等環(huán)節(jié)浪費時間。2、GPUDirectRDMAGPUDirectRDMA結(jié)合了GPU加速計算和RDMA(RemoteDirectMemoryAccess)技術(shù),實現(xiàn)了在GPU和RDMA網(wǎng)絡(luò)設(shè)備之間直接進行數(shù)據(jù)傳輸和通信的能力。它允許GPU直接訪問RDMA網(wǎng)絡(luò)設(shè)備中的數(shù)據(jù),無需通過主機內(nèi)存或CPU的中介。GPUDirectRDMA通過繞過主機內(nèi)存和CPU,直接在GPU和RDMA網(wǎng)絡(luò)設(shè)備之間進行數(shù)據(jù)傳輸,顯著降低傳輸延遲,加快數(shù)據(jù)交換速度,并可以減輕CPU負載,釋放CPU的計算能力。另外,GPUDirectRDMA技術(shù)允許GPU直接訪問RDMA網(wǎng)絡(luò)設(shè)備中的數(shù)據(jù),避免了數(shù)據(jù)在主機內(nèi)存中的復(fù)制,提高了數(shù)據(jù)傳輸?shù)膸捓寐?、IPOIB(IPoverInfiniBand)IPOIB是一種在InfiniBand網(wǎng)絡(luò)上運行IP協(xié)議的技術(shù)。它將標準的IP協(xié)議棧與IB互連技術(shù)相結(jié)合,使得在IB網(wǎng)絡(luò)上的節(jié)點能夠使用IP協(xié)議進行通信和數(shù)據(jù)傳輸。IPOIB提供了基于RDMA之上的IP網(wǎng)絡(luò)模擬層,允許應(yīng)用無修改的運行在IB網(wǎng)絡(luò)上。但是,IPoIB仍然經(jīng)過內(nèi)核層(IPStack),會產(chǎn)生大量系統(tǒng)調(diào)用,并且涉及CPU中斷,因此IPoIB性能比RDMA通信方式性能要低,大多數(shù)應(yīng)用都會采用RDMA方式獲取高帶寬低延時的收益,少數(shù)的關(guān)鍵應(yīng)用會采用IPoIB方式通信。在大規(guī)模計算中,單機多卡場景下使用GPUDiect、NVLink技術(shù),分布式場景下使用GPUDirectRDMA技術(shù),可以大大縮短通信時間,提升整體性能。NVIDIA
數(shù)據(jù)中心明星產(chǎn)品1、MagnumIONVIDIA
MagnumIO是數(shù)據(jù)中心IO的并行化、智能化架構(gòu),它是IO的加速平臺。該架構(gòu)最大限度地提升存儲、網(wǎng)絡(luò)、多節(jié)點和多GPU通訊性能,為大型語言模型、推薦系統(tǒng)、成像、仿真和科學(xué)研究等全球重要的應(yīng)用優(yōu)化實現(xiàn)加速。它可以最大化很多重要應(yīng)用的存儲、網(wǎng)絡(luò)、多節(jié)點和多GPU通信性能。利用存儲IO、網(wǎng)絡(luò)IO、在網(wǎng)計算和IO管理簡化和加速數(shù)據(jù)移動、訪問、多GPU和多節(jié)點管理。MagnumIO支持NVIDIA
CUDA-X庫,同時能利用一系列NVIDIA
GPU和NVIDIA網(wǎng)絡(luò)硬件拓撲實現(xiàn)高吞吐和低延遲。2、DGXDGX是一個完整的超級計算機,它是一套完整的人工智能解決方案,包括硬件設(shè)備、軟件工具和優(yōu)化,具有很高的集成度和易用性,適用于企業(yè)和研究機構(gòu)。DGX的系列產(chǎn)品有:DGX-1、DGX-2、DGXA100、DGXH100、DGXGH200、DGXSuperPod、DGXBasePod。3、HGXHGX是一個計算模組,整合了NVIDIAGPU、NVLink、NVIDI
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025年度個人房屋租賃定金協(xié)議及租賃合同終止補償條款2篇
- 2025年廣東高州市鑒龍水務(wù)建設(shè)投資集團有限公司招聘筆試參考題庫附帶答案詳解
- 2025版企業(yè)員工股權(quán)激勵協(xié)議(限制性股權(quán)實施)3篇
- 2025年度個人反擔(dān)保財產(chǎn)保全執(zhí)行實施合同
- 2025年全球及中國雙相抽提修復(fù)系統(tǒng)行業(yè)頭部企業(yè)市場占有率及排名調(diào)研報告
- 2025年全球及中國商用卡車機電開關(guān)行業(yè)頭部企業(yè)市場占有率及排名調(diào)研報告
- 2025年度二零二五年度高端個人雇傭員工勞動合同標準化范本4篇
- 探索現(xiàn)代青年教育的創(chuàng)新之路
- 2024食品行業(yè)食品安全風(fēng)險評估與管控合同模板3篇
- 小學(xué)數(shù)學(xué)教育中的個性化學(xué)習(xí)與自主學(xué)習(xí)結(jié)合實踐
- 七年級數(shù)學(xué)新北師大版(2024)下冊第一章《整式的乘除》單元檢測習(xí)題(含簡單答案)
- 2024-2025學(xué)年云南省昆明市盤龍區(qū)高一(上)期末數(shù)學(xué)試卷(含答案)
- 五年級上冊寒假作業(yè)答案(人教版)
- 2025年山東浪潮集團限公司招聘25人高頻重點提升(共500題)附帶答案詳解
- 2024年財政部會計法律法規(guī)答題活動題目及答案一
- 2025年江西省港口集團招聘筆試參考題庫含答案解析
- 2025年中考語文復(fù)習(xí)熱搜題速遞之說明文閱讀(2024年7月)
- (2024年)中國傳統(tǒng)文化介紹課件
- 液化氣安全檢查及整改方案
- 《冠心病》課件(完整版)
- 2024年云網(wǎng)安全應(yīng)知應(yīng)會考試題庫
評論
0/150
提交評論