網(wǎng)絡(luò)級(jí)DMA（NDMA）技術(shù)需求白皮書(shū) 2023

上傳人：策*** IP屬地：山西上傳時(shí)間：2023-10-28 格式：DOCX 頁(yè)數(shù)：72 大?。?.04MB 積分：19.9 舉報(bào) 版權(quán)申訴

網(wǎng)絡(luò)級(jí)DMA（NDMA）技術(shù)需求白皮書(shū) 2023_第2頁(yè)

網(wǎng)絡(luò)級(jí)DMA（NDMA）技術(shù)需求白皮書(shū) 2023_第3頁(yè)

網(wǎng)絡(luò)級(jí)DMA（NDMA）技術(shù)需求白皮書(shū) 2023_第4頁(yè)

網(wǎng)絡(luò)級(jí)DMA（NDMA）技術(shù)需求白皮書(shū) 2023_第5頁(yè)

已閱讀5頁(yè)，還剩67頁(yè)未讀，繼續(xù)免費(fèi)閱讀

版權(quán)說(shuō)明：本文檔由用戶(hù)提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

11版權(quán)聲明ODCC（開(kāi)放數(shù)據(jù)中心委員會(huì)）發(fā)布的各項(xiàng)成果，受《著作權(quán)法》保護(hù)，轉(zhuǎn)載、摘編或利用其它方式使用ODCC成果中的文字或者觀(guān)點(diǎn)的，應(yīng)注明對(duì)于未經(jīng)著作權(quán)人書(shū)面同意而實(shí)施的剽竊、復(fù)制、修改、銷(xiāo)售、改編、匯編和翻譯出版等侵權(quán)行為，ODCC及有關(guān)單位將追究其法律責(zé)任，感謝各單位I編寫(xiě)組全新的社會(huì)生產(chǎn)力，對(duì)整個(gè)經(jīng)濟(jì)社會(huì)發(fā)揮著而業(yè)界主流的實(shí)現(xiàn)是使用點(diǎn)對(duì)點(diǎn)傳輸，如RDM I II III 1 2 4 4 5 6 6 7 8 11 14 14 15 15 16 18 20 20V 22 26 26 27 28網(wǎng)絡(luò)級(jí)DMA技術(shù)需求白皮書(shū)一、高性能分布式系統(tǒng)承載大規(guī)模算力需求（一）全球算力高速增長(zhǎng)全球算力的高速增長(zhǎng)是當(dāng)今數(shù)字時(shí)代的一個(gè)顯著特征。從最初的單機(jī)計(jì)算到現(xiàn)在的云計(jì)算、分布式計(jì)算等技術(shù)，全球算力已經(jīng)達(dá)到了驚人的規(guī)模。算力已不僅是一個(gè)技術(shù)維度的概念，更成為了一種全新的社會(huì)生產(chǎn)力，對(duì)整個(gè)經(jīng)濟(jì)社會(huì)發(fā)揮著越來(lái)越重要的作用。個(gè)國(guó)家一個(gè)地區(qū)發(fā)達(dá)程度的重要指標(biāo)。高算力國(guó)家，包括美國(guó)、新未來(lái)，隨著全球智能化進(jìn)程的加速，人工智能、云計(jì)算、大數(shù)全球算力每年以驚人的速度增長(zhǎng)，預(yù)計(jì)到2030年，全球算力規(guī)模達(dá)1平均年增速達(dá)27%；智能算力達(dá)到52.5ZFlops，平均年增速超過(guò)（二）分布式系統(tǒng)承載大規(guī)模高復(fù)雜度算力任務(wù)算力需求的高速增長(zhǎng)，使得算力任務(wù)的規(guī)模越來(lái)越大，復(fù)雜度在年增長(zhǎng)速度最快的人工智能領(lǐng)域，隨著ChatGPT的誕生，AI大模型再次受到業(yè)界的關(guān)注。AI大模型是指由大量參數(shù)組成的深度學(xué)習(xí)模型，通常包含數(shù)百萬(wàn)到數(shù)十億個(gè)參數(shù)。這些模型可以通過(guò)大自然語(yǔ)言處理等。AI大模型的規(guī)模逐年快速增長(zhǎng)，如圖2所示。型參數(shù)量大約超過(guò)100萬(wàn)億個(gè)。AI大模型由于其復(fù)雜性和規(guī)模，需2超算算力年增長(zhǎng)速度僅次于人工智能。超算系統(tǒng)通常由數(shù)以萬(wàn)數(shù)據(jù)分析和模擬等任務(wù)，廣泛應(yīng)用于科學(xué)研究、工程設(shè)計(jì)、天氣預(yù)報(bào)、金融分析等領(lǐng)域。圖3是世界最強(qiáng)超算算力TOP500給出的自1990年起超算算力的進(jìn)步趨勢(shì)，并進(jìn)行了線(xiàn)性回歸。圖中的三條線(xiàn)分別是上榜超算的總算力，榜單冠軍的算力以及榜單第500名超算的算力?？梢钥吹?，超算算力幾乎按照摩爾定律在提升，從G級(jí)到不管是人工智能還是超算，其算力任務(wù)都呈現(xiàn)出規(guī)模擴(kuò)大、復(fù)雜度提升的趨勢(shì)，遠(yuǎn)超單個(gè)計(jì)算機(jī)或服務(wù)器的處理能力。因此，需要高性能分布式系統(tǒng)，通過(guò)網(wǎng)絡(luò)連接提供海量計(jì)算、存儲(chǔ)資源，從而承載大規(guī)模算力任務(wù)，突破單機(jī)算力和存儲(chǔ)的限制，提供高并發(fā)3（三）通信效率影響分布式系統(tǒng)性能系統(tǒng)的加速比體現(xiàn)了分布式系統(tǒng)的性能。根據(jù)阿姆達(dá)爾定律，可以計(jì)算出系統(tǒng)的加速比。阿姆達(dá)爾定律是一個(gè)計(jì)算機(jī)科學(xué)界的經(jīng)驗(yàn)法則，它代表了處理器并行運(yùn)算之后效率提升的能力，其計(jì)算公式表述如下。其中，S為系統(tǒng)加速比，p為并行度占比，s為并行節(jié)點(diǎn)數(shù)。增加并行節(jié)點(diǎn)數(shù)，可以提升系統(tǒng)加速比，而當(dāng)s→∞時(shí)，并簡(jiǎn)化的形式展現(xiàn)了了計(jì)算任務(wù)執(zhí)行的基本過(guò)程。圖中，藍(lán)色部分是節(jié)點(diǎn)并行計(jì)算的過(guò)程，當(dāng)并行階段結(jié)束后，進(jìn)入串行通信的過(guò)程，即并行階段的輸出發(fā)送到其他節(jié)點(diǎn)作為下一并行階段的輸入，只有當(dāng)通信完成，各節(jié)點(diǎn)獲得相應(yīng)輸入后，才能將計(jì)算任務(wù)向前推進(jìn)，二、分布式系統(tǒng)以多對(duì)多集合通信為主4（一）什么是集合通信及其原語(yǔ)集合通信是一種通信方式，它將多個(gè)通信對(duì)象（如進(jìn)程、線(xiàn)程等）組合在一起，以實(shí)現(xiàn)一次調(diào)用實(shí)現(xiàn)向多個(gè)對(duì)象發(fā)送數(shù)據(jù)，或從多個(gè)對(duì)象接收數(shù)據(jù)。集合通信常用于分布式系統(tǒng)并行計(jì)算中，協(xié)助常見(jiàn)的集合通信可以進(jìn)一步抽象為廣播、散布、聚集等操作。其中，廣播操作將數(shù)據(jù)發(fā)送給所有通信對(duì)象；散布操作將數(shù)據(jù)分散給多個(gè)通信對(duì)象；聚集操作將多個(gè)通信對(duì)象的數(shù)據(jù)合并到一個(gè)對(duì)象MPI是常見(jiàn)的用于并行計(jì)算的通信框架，它定義了多種集合通信原語(yǔ)，AI場(chǎng)景中經(jīng)常使用的AllReduce就是一種MPI通信原語(yǔ)，如圖5所示，經(jīng)過(guò)AllReduce操作后，原先各節(jié)點(diǎn)上A、B、C、D的子集被進(jìn)行了聚合或歸一化，最終各節(jié)點(diǎn)均獲取到A、B、C、D5（二）分布式系統(tǒng)中集合通信的調(diào)用應(yīng)用通過(guò)調(diào)用集合通信，在進(jìn)程或線(xiàn)程間完成數(shù)據(jù)交互，從而向前推進(jìn)分布式系統(tǒng)任務(wù)。除了點(diǎn)對(duì)點(diǎn)的通信外，很大一部分的交Chunduri,ScottParker,PavanBalaji,KevinHarmsandKalyan），因此，提升多對(duì)多集合通信的傳輸效率對(duì)分布式系統(tǒng)性能的整三、大規(guī)模集合通信面臨性能挑戰(zhàn)6（一）集合通信實(shí)現(xiàn)現(xiàn)狀應(yīng)用調(diào)用集合通信原語(yǔ)后，網(wǎng)絡(luò)完成數(shù)據(jù)的傳輸，實(shí)現(xiàn)集合通信操作。應(yīng)用不感知網(wǎng)絡(luò)的動(dòng)作行為，集合通信原語(yǔ)可以有多種實(shí)現(xiàn)方式。由于目前常用的傳輸層協(xié)議僅支持點(diǎn)到點(diǎn)傳輸，對(duì)于多對(duì)多的通信，通常都是在網(wǎng)絡(luò)上轉(zhuǎn)換成點(diǎn)到點(diǎn)通信，即應(yīng)用一次集合如圖7所示。這種方式可以應(yīng)用于A(yíng)IParameterServer結(jié)果分發(fā)，存儲(chǔ)系統(tǒng)多副本寫(xiě)等。源節(jié)點(diǎn)將同一份消息依次發(fā)送給多個(gè)目的節(jié)點(diǎn)，實(shí)質(zhì)上是一種帶寬資源的浪費(fèi)，易形成帶寬瓶頸鏈路。另一種為中這種方式雖然減少了帶寬瓶頸，但每個(gè)中間節(jié)點(diǎn)在進(jìn)行轉(zhuǎn)發(fā)時(shí)，都需要網(wǎng)絡(luò)層與應(yīng)用層交互，引入額外CPU處理帶來(lái)的延遲開(kāi)銷(xiāo)。這兩種方式下，都會(huì)引入了與通信規(guī)模線(xiàn)性相關(guān)的額外開(kāi)銷(xiāo)，且無(wú)法7為了提升集合通信的傳輸效率，業(yè)界不斷探索著新的優(yōu)化，主（二）高性能傳輸協(xié)議的發(fā)展及其挑戰(zhàn)傳輸協(xié)議的發(fā)展集中在端側(cè)創(chuàng)新，通過(guò)高性能端到端的傳輸來(lái)優(yōu)化點(diǎn)到點(diǎn)通信，中間網(wǎng)絡(luò)無(wú)感知。RDMA就是最具有代表性的高RDMA（RemoteDirectMemoryAccess）允許在不經(jīng)過(guò)CPU的情況下，直接在主機(jī)內(nèi)存之間傳輸數(shù)據(jù)。傳統(tǒng)的網(wǎng)絡(luò)通信方式需要這些操作會(huì)占用大量的CPU資源，導(dǎo)致網(wǎng)絡(luò)傳輸速度變慢。而RDMA將數(shù)據(jù)從發(fā)送端的內(nèi)存直接傳輸?shù)浇邮斩说膬?nèi)存，通過(guò)0拷貝（不需要用戶(hù)空間和內(nèi)核空間中來(lái)回復(fù)制數(shù)據(jù)）、內(nèi)核Bypass（數(shù)據(jù)流程繞過(guò)內(nèi)核），和CPU卸載（在CPU不參與通信的情況），8RDMA最主要的傳輸模式是RC（ReliableConnection），即可靠連接，是一種點(diǎn)到點(diǎn)的傳輸方式。如圖10所示，RDMARC模式下，收發(fā)兩端創(chuàng)建QP（QueuePair），并建立QP之間一對(duì)一的連接關(guān)系，之后在建立好的連接上順序發(fā)送消息，由PSN（Packet但這種模式存在擴(kuò)展性問(wèn)題。由于每對(duì)通信進(jìn)程間都需要建立QP連接，若有N個(gè)節(jié)點(diǎn)，每個(gè)節(jié)點(diǎn)P個(gè)進(jìn)程，所有進(jìn)程間Full-在通信過(guò)程中，QP的上下文在協(xié)議棧處理過(guò)程中也會(huì)被頻繁訪(fǎng)問(wèn)修改。當(dāng)規(guī)模擴(kuò)大時(shí)，系統(tǒng)對(duì)QP狀態(tài)維護(hù)開(kāi)銷(xiāo)增大，且網(wǎng)卡需要與主機(jī)內(nèi)存交互讀取相應(yīng)QP上下文，加劇傳輸性能下降。有測(cè)試表9明，商用網(wǎng)卡在QP數(shù)量超過(guò)256時(shí)，吞吐即會(huì)出現(xiàn)明顯的下降，ScalableArchitectureforRDMANICs[J].除了擴(kuò)展性問(wèn)題，RDMARC模式還存在長(zhǎng)尾延遲問(wèn)題。同一個(gè)QP內(nèi)的消息必須按照請(qǐng)求下發(fā)的順序依次按序傳輸。如果發(fā)送端先后下發(fā)了兩個(gè)傳輸請(qǐng)求，分別對(duì)應(yīng)著1GB的消息和1KB的消息，則1KB消息必須等待1GB消息傳輸完成后才能被傳輸，使得網(wǎng)絡(luò)上走相同的傳輸路徑，所以極易在網(wǎng)絡(luò)上產(chǎn)生流量不均，尤其盡管RDMA還定義了另外兩種模式，分別是UD（UnreliableDatagram）和RD（ReliableDatagram），但UD模式?jīng)]有可靠性保因此，為了改善RDMA規(guī)模擴(kuò)展性和傳輸長(zhǎng)尾延遲的問(wèn)題，業(yè)界衍生出了兩種傳輸連接優(yōu)化的技術(shù)路線(xiàn)，分別是連接復(fù)用和無(wú)連連接復(fù)用的主要實(shí)現(xiàn)方式有多種，包括共享接收隊(duì)列（SharedReceiveQueue，SRQ），即一個(gè)進(jìn)程共享同一個(gè)的接收隊(duì)列；擴(kuò)展可靠連接(ExtendedReliableConnection，XRC)，即一個(gè)進(jìn)程對(duì)于相同目地服務(wù)器上的所有進(jìn)程共享同一個(gè)發(fā)送QP；動(dòng)態(tài)連接傳輸（Dynamically-connectedtransport，DCT），間并不預(yù)先建立連接，而是在運(yùn)行過(guò)程中根據(jù)實(shí)際通信需求動(dòng)態(tài)建立連接，通信完畢后再關(guān)閉連接。這些實(shí)現(xiàn)在不同程度上減少了需無(wú)連接的主要實(shí)現(xiàn)方式為，網(wǎng)卡僅承擔(dān)Datagram級(jí)可靠傳輸，應(yīng)用處理亂序重排及擁塞流控，每個(gè)節(jié)點(diǎn)狀態(tài)維護(hù)壓力與節(jié)點(diǎn)進(jìn)程實(shí)現(xiàn)。無(wú)連接實(shí)現(xiàn)的出發(fā)點(diǎn)在于軟件的快速迭代，具有較好的靈活性，網(wǎng)卡擴(kuò)展性好，但它放棄了RDMA硬件卸載協(xié)議棧的優(yōu)勢(shì)，加（三）在網(wǎng)計(jì)算的發(fā)展及其挑戰(zhàn)在網(wǎng)計(jì)算是一種通信加速技術(shù)，體現(xiàn)了數(shù)據(jù)中心從“以計(jì)算為在數(shù)據(jù)搬移的過(guò)程中完成計(jì)算，從而提升通信效率，加速應(yīng)用。常見(jiàn)的在網(wǎng)計(jì)算場(chǎng)景包括在網(wǎng)聚合、在網(wǎng)緩存等，已初步展現(xiàn)了該技術(shù)的應(yīng)用價(jià)值。Nvidia的SHARP（ScalableHierarchicalAggregation讓RDMA連接在交換機(jī)上終結(jié)，實(shí)現(xiàn)在網(wǎng)聚合與數(shù)據(jù)的組播分發(fā)，在網(wǎng)計(jì)算目前仍處于起步階段，對(duì)于在網(wǎng)計(jì)算的整體框架以及學(xué)術(shù)上，研究者們發(fā)表了大量在網(wǎng)計(jì)算方面的文章，其中不乏頂尖學(xué)術(shù)會(huì)議上的論文。比如2021年NSDI會(huì)議的最佳論文ATP），它面向分布式機(jī)器學(xué)習(xí)場(chǎng)景，定義了一套由主機(jī)和可編程交換機(jī)交對(duì)分布式訓(xùn)練的網(wǎng)絡(luò)傳輸進(jìn)行數(shù)據(jù)聚合優(yōu)化，在網(wǎng)絡(luò)中提供了盡力而為的聚合服務(wù)。再比如2020年OSDI會(huì)議論文Pegasus，它針對(duì)在分布式存儲(chǔ)系統(tǒng)中選擇性復(fù)制不能很好的應(yīng)對(duì)動(dòng)態(tài)變化負(fù)載，且實(shí)現(xiàn)強(qiáng)一致性代價(jià)較大的問(wèn)題，基于UDP設(shè)計(jì)了主機(jī)和交換機(jī)之間新的傳輸協(xié)議，報(bào)文格式如圖15所示，實(shí)現(xiàn)交換機(jī)上的不僅如此，在網(wǎng)計(jì)算也引起了標(biāo)準(zhǔn)組織的關(guān)注。IRTF（InternetResearchTaskForce）是一個(gè)由IAB（InternetArchitectureBoard）授權(quán)對(duì)一些相對(duì)遠(yuǎn)期的網(wǎng)絡(luò)問(wèn)題進(jìn)行研究的組織，與IETF（InternetEngineeringTaskFo式成立了COIN（ComputingintheNetwork）研究組。該工作組將針對(duì)應(yīng)用場(chǎng)景、功能架構(gòu)、新傳輸機(jī)制等展開(kāi)研究，目前仍處于應(yīng)用可以看到，在網(wǎng)計(jì)算正在成為未來(lái)提升系統(tǒng)性能重要的技術(shù)方向。然而在當(dāng)前的發(fā)展中，在網(wǎng)計(jì)算的設(shè)計(jì)呈現(xiàn)出碎片化的狀態(tài)，難以形成標(biāo)準(zhǔn)，其中一個(gè)很主要的原因就是統(tǒng)一傳輸框架的缺失。由于在網(wǎng)計(jì)算常常涉及到多對(duì)多的通信場(chǎng)景，而當(dāng)前的網(wǎng)絡(luò)傳輸集中于點(diǎn)到點(diǎn)的方式，缺乏面向多對(duì)多通信的原生設(shè)計(jì)，這就使得開(kāi)發(fā)出了各種私有傳輸協(xié)議來(lái)支持，帶來(lái)生態(tài)發(fā)展的局限，阻礙在網(wǎng)四、NDMA應(yīng)對(duì)大規(guī)模集合通信需求（一）NDMA概念NDMA的全稱(chēng)是NetworkDMA，它是網(wǎng)絡(luò)中一存訪(fǎng)問(wèn)技術(shù)。直接內(nèi)存訪(fǎng)問(wèn)DMA是計(jì)算系統(tǒng)中常見(jiàn)的技術(shù)，它允許外部設(shè)備直接訪(fǎng)問(wèn)內(nèi)存中的數(shù)據(jù)，而無(wú)需經(jīng)過(guò)CPU的處理。DMA應(yīng)用于單個(gè)節(jié)點(diǎn)內(nèi)部，提高了單個(gè)節(jié)點(diǎn)內(nèi)數(shù)據(jù)傳輸效率?；贒MA的理念，發(fā)展出了遠(yuǎn)程直接內(nèi)存訪(fǎng)問(wèn)RDMA。RDMA允許遠(yuǎn)程服務(wù)器或主機(jī)直接訪(fǎng)問(wèn)本地內(nèi)存，而無(wú)需經(jīng)過(guò)本地CPU的干預(yù)，極大降低了端到端的傳輸時(shí)延。RDMA側(cè)重于在兩個(gè)節(jié)點(diǎn)之間完成點(diǎn)到點(diǎn)的數(shù)據(jù)傳輸訪(fǎng)問(wèn)。NDMA是對(duì)現(xiàn)有遠(yuǎn)程直接內(nèi)存訪(fǎng)問(wèn)技術(shù)的增強(qiáng)，著重面向網(wǎng)絡(luò)中的一組節(jié)點(diǎn)進(jìn)行內(nèi)存直讀、直寫(xiě)操作，最優(yōu)NDMA旨在將集合通信多對(duì)多操作的邏輯從應(yīng)用層面下沉到網(wǎng)絡(luò)，實(shí)現(xiàn)集合通信“一棧直達(dá)”，即應(yīng)用對(duì)集合通信原語(yǔ)的一次調(diào)仍以集合通信中的組播為例。在NDMA的方式下，組播源絡(luò)層面上只需要發(fā)送一次數(shù)據(jù)，由網(wǎng)絡(luò)上的交換機(jī)節(jié)點(diǎn)進(jìn)行復(fù)制轉(zhuǎn)發(fā)，將數(shù)據(jù)報(bào)文發(fā)送到多個(gè)組播組節(jié)點(diǎn)，并完成數(shù)據(jù)在組播組節(jié)點(diǎn)中的內(nèi)存直接訪(fǎng)問(wèn)操作。整個(gè)過(guò)程中，數(shù)據(jù)報(bào)文只經(jīng)過(guò)一次Tx+Rx（二）NDMA的基本模式和應(yīng)用價(jià)值組播是一種1對(duì)多的傳輸，是分布式計(jì)算系統(tǒng)中最常使用的通信模式之一。在超算系統(tǒng)Mira中，MPI_bcast原語(yǔ)的執(zhí)行時(shí)間占MPI通信總時(shí)間的14%，時(shí)間占比在MPI集合通信原語(yǔ)中僅次于用作HPCTop500榜單排名測(cè)試的應(yīng)用HPL，其通信以組播模式為主。在HPL中，每一輪計(jì)算循環(huán)中包含3部分通信。其中，第2部分“Panel廣播”即一列計(jì)算進(jìn)程分別把將數(shù)據(jù)組播給同一行的其他進(jìn)程，第3部分“行交換”過(guò)程包含一行計(jì)算進(jìn)程分布把數(shù)據(jù)NDMA的組播模式利用交換機(jī)完成組播報(bào)文的復(fù)制分發(fā)，以網(wǎng)絡(luò)層組播替代應(yīng)用層組播，避免了相同數(shù)據(jù)的重復(fù)發(fā)送，使得組播任務(wù)完成時(shí)間逼近理論最優(yōu)值（即數(shù)據(jù)量與帶寬之比），在大規(guī)模下相比于應(yīng)用層組播任務(wù)完成時(shí)間有顯著減少，從而降低HPL過(guò)程AI計(jì)算中使用基于參數(shù)服務(wù)器（ParameterServer，PS）的數(shù)據(jù)并行方法解決訓(xùn)練數(shù)據(jù)規(guī)模過(guò)大導(dǎo)致的訓(xùn)練時(shí)間過(guò)長(zhǎng)的問(wèn)題。如圖18所示，PS訓(xùn)練方法將訓(xùn)練數(shù)據(jù)集分割成多個(gè)batch放置在不同的多個(gè)worker將訓(xùn)練好的數(shù)據(jù)（模型參數(shù)或者梯度）發(fā)送到PS進(jìn)行合并更新，然后PS將更新后的數(shù)據(jù)下發(fā)到每個(gè)worker,開(kāi)啟新一輪的訓(xùn)練。訓(xùn)練循環(huán)往復(fù)，直至模型收斂。在此過(guò)程中，所有worker在大數(shù)據(jù)應(yīng)用中，MapReduce是典型的一種計(jì)算框架。如圖19所示，Map并行執(zhí)行，其輸出結(jié)果作為Reduce的輸入，由Reduceworker完成規(guī)約化簡(jiǎn)操作。并行的map任務(wù)會(huì)成為每個(gè)reduce任務(wù)的輸入流量，且map與reduce之間形成多組多對(duì)一的通信關(guān)系，使得交換機(jī)承受多個(gè)多對(duì)一流量，出端口緩存壓力增大，影響并行計(jì)采用聚播技術(shù)，數(shù)據(jù)在經(jīng)過(guò)交換設(shè)備時(shí)，會(huì)先進(jìn)行聚合，再轉(zhuǎn)發(fā)聚合結(jié)果，緩解了瓶頸點(diǎn)的帶寬和緩存壓力，有效避免因網(wǎng)絡(luò)性任播是一種1對(duì)1的操作，但其特殊點(diǎn)在于接收端是一組節(jié)點(diǎn)中的一個(gè)，發(fā)送端可以選擇其中任意一個(gè)發(fā)送數(shù)據(jù)，任意一個(gè)接收到數(shù)據(jù)的接收端都可以完成數(shù)據(jù)處理。企業(yè)存儲(chǔ)系統(tǒng)是一個(gè)典型的應(yīng)用場(chǎng)景。在該場(chǎng)景下，存儲(chǔ)系統(tǒng)一般由兩張網(wǎng)絡(luò)構(gòu)成，前端業(yè)務(wù)網(wǎng)絡(luò)和后端存儲(chǔ)網(wǎng)絡(luò)，如圖22所示。前端業(yè)務(wù)網(wǎng)絡(luò)中，通常由存儲(chǔ)或者控制命令請(qǐng)求?？刂破魍瓿烧?qǐng)求處理后，根據(jù)一定的負(fù)載均衡前端客戶(hù)網(wǎng)絡(luò)和后端存儲(chǔ)網(wǎng)絡(luò)相對(duì)解耦，客戶(hù)端通常會(huì)隨機(jī)下發(fā)請(qǐng)求。而控制器由于負(fù)載分擔(dān)以及數(shù)據(jù)打散的需求，會(huì)有很大概率將請(qǐng)求轉(zhuǎn)發(fā)至歸屬節(jié)點(diǎn)進(jìn)行處理，從而引入有損分布式系統(tǒng)性能端到端I/O流程所花費(fèi)時(shí)延，包括主機(jī)下發(fā)請(qǐng)求、協(xié)議棧處理、全節(jié)點(diǎn)歸屬，系統(tǒng)性能還受限于“水平時(shí)延”，即控間交互流程所花費(fèi)時(shí)延，包括歸屬查找、I/O請(qǐng)求轉(zhuǎn)發(fā)、跨引擎數(shù)據(jù)搬移等。水平時(shí)延的引入會(huì)導(dǎo)致客戶(hù)端請(qǐng)求的額外轉(zhuǎn)發(fā)，處理時(shí)延加劇，系統(tǒng)整體任播技術(shù)可以通過(guò)網(wǎng)絡(luò)交換機(jī)隨路地進(jìn)行負(fù)載分擔(dān)邏輯處理，從而避免占用陣列側(cè)控制器過(guò)多的CPU資源和控間轉(zhuǎn)發(fā)帶來(lái)的帶寬（三）NDMA技術(shù)架構(gòu)NDMA是一個(gè)由網(wǎng)絡(luò)端側(cè)節(jié)點(diǎn)和網(wǎng)絡(luò)轉(zhuǎn)發(fā)節(jié)點(diǎn)相互協(xié)同，共同構(gòu)成的統(tǒng)一傳輸框架，提供對(duì)集合通信的原生支持。該框架支持三種基本模式的遠(yuǎn)端直接內(nèi)存訪(fǎng)問(wèn)，分別是組播、聚播和任播，能夠應(yīng)用于大規(guī)模通信場(chǎng)景，且不綁定特定的網(wǎng)絡(luò)層協(xié)議，具有更強(qiáng)的從協(xié)議棧層次劃分來(lái)看，NDMA框架包含對(duì)網(wǎng)絡(luò)層、傳輸層和），從組件構(gòu)成來(lái)看，NDMA框架中包括網(wǎng)絡(luò)轉(zhuǎn)發(fā)設(shè)備（如交換機(jī)）、網(wǎng)絡(luò)端側(cè)設(shè)備（如服務(wù)器側(cè)網(wǎng)卡/CPU）和通信應(yīng)用軟件（如轉(zhuǎn)發(fā)路由表具有一定的業(yè)務(wù)邏輯，如在存儲(chǔ)任播場(chǎng)景下，轉(zhuǎn)發(fā)設(shè)備感知后端存儲(chǔ)系統(tǒng)的從屬關(guān)系，從而建立相應(yīng)的轉(zhuǎn)發(fā)表。轉(zhuǎn)發(fā)設(shè)備能夠識(shí)別端測(cè)報(bào)文所屬類(lèi)型，如組播、聚播、任播，根據(jù)報(bào)文類(lèi)型網(wǎng)絡(luò)端側(cè)設(shè)備負(fù)責(zé)建立和維護(hù)面向集合通信的傳輸連接。新的傳輸連接匹配多對(duì)多通信范式，與轉(zhuǎn)發(fā)設(shè)備協(xié)同配合，根據(jù)應(yīng)用需求構(gòu)建傳輸通信組，通信組內(nèi)靈活支持三種基本模式的連接關(guān)系，通信應(yīng)用軟件具備調(diào)用NDMA類(lèi)型接口的能力。集合通信操作的輸入輸出不發(fā)生改變，應(yīng)用對(duì)集合通信原語(yǔ)的調(diào)用邏輯無(wú)變化，但原語(yǔ)的實(shí)現(xiàn)需要新增面向NDMA多對(duì)多傳輸連接所對(duì)應(yīng)的動(dòng)作和從連接方式來(lái)看，以RoCEv2（RDMARC）為代表的進(jìn)程級(jí)連接，和以SRD為代表的無(wú)連接，是兩個(gè)極端方向的連接機(jī)制設(shè)計(jì)。進(jìn)程級(jí)連接實(shí)現(xiàn)復(fù)雜度低，易于硬件卸載，利用硬件卸載協(xié)議棧極大降低了端到端傳輸時(shí)延。然而，進(jìn)程級(jí)連接兩端固定，連接數(shù)量多，規(guī)模擴(kuò)展受限。這種方式效率高但資源壓力大。與之相反的無(wú)連接方式，將亂序重排、擁塞控制等和功能收歸CPU，網(wǎng)卡負(fù)擔(dān)減輕，使得擴(kuò)展性得到極大提升，但是回退到了軟件處理方式，時(shí)延這兩種方式的連接都無(wú)法滿(mǎn)足大規(guī)模分布式應(yīng)用的需求。NDMA根據(jù)應(yīng)用任務(wù)的特征，引入“通信組”概念。所謂通信組，指的是參與一個(gè)分布式任務(wù)的多個(gè)有相互通信需求的進(jìn)程。NDMA基于通信組建立了介于進(jìn)程級(jí)連接和無(wú)連接之間新的連接方式，即組級(jí)的連接共享。組級(jí)連接相對(duì)于進(jìn)程級(jí)連接，極大程度降低了連接數(shù)。在N個(gè)節(jié)點(diǎn)，每節(jié)點(diǎn)P個(gè)進(jìn)程的場(chǎng)景下，進(jìn)程級(jí)連接的數(shù)量級(jí)為O（N*P*P），而組級(jí)連接的數(shù)量級(jí)僅為O（1），如圖27所示。并且，通信組的劃分與應(yīng)用任務(wù)相對(duì)應(yīng)，任務(wù)確定后，通信組可靠性包含三個(gè)層面的含義，分別是數(shù)據(jù)完整性，數(shù)據(jù)還原性數(shù)據(jù)完整性指的是數(shù)據(jù)無(wú)丟失，丟包情況下需要重傳。發(fā)送端根據(jù)報(bào)文應(yīng)答消息來(lái)檢測(cè)是否丟包。發(fā)送端設(shè)置定時(shí)器，在定時(shí)器否則，發(fā)送端認(rèn)為報(bào)文丟失，需要重傳，這其中包括顯式收到接收端發(fā)送過(guò)來(lái)的丟包指示消息，如NACK，也包括在定時(shí)器時(shí)間內(nèi)未收到接收端任何應(yīng)答消息。重傳的方法分為Go-back-N和選擇重傳。RoCEv2基于RDMA的重傳機(jī)制使用Go-Back-N，即重傳丟失的數(shù)據(jù)報(bào)文N之后的所有數(shù)據(jù)報(bào)文。相比于Go-back-N這種低效的重傳方式，選擇重傳只需要重傳丟失的單個(gè)數(shù)據(jù)報(bào)文，因此丟包帶來(lái)的數(shù)據(jù)還原性指的是數(shù)據(jù)發(fā)出的順序和數(shù)據(jù)接收的順序一致，最終傳到用戶(hù)層的數(shù)據(jù)不能亂序。最常見(jiàn)的保序方式是讓同一個(gè)流（flow）在網(wǎng)絡(luò)上走相同的路徑，源和目的相同的流量被認(rèn)為是同一個(gè)流，網(wǎng)絡(luò)轉(zhuǎn)發(fā)設(shè)備對(duì)同一個(gè)流執(zhí)行同樣的轉(zhuǎn)發(fā)規(guī)則，保證選擇按照f(shuō)lowlet的粒度在網(wǎng)絡(luò)上發(fā)送，flowlet內(nèi)同一路徑順序轉(zhuǎn)發(fā)，NDMA的可靠性機(jī)制遵循上述三個(gè)層面的含義，通過(guò)網(wǎng)絡(luò)轉(zhuǎn)發(fā)在數(shù)據(jù)完整性上，接收端通過(guò)報(bào)文應(yīng)答消息ACK/NACK指示報(bào)文的接收狀態(tài)，網(wǎng)絡(luò)設(shè)備則需要根據(jù)多對(duì)多通信

人人文庫(kù)> 全部分類(lèi)> 行業(yè)資料 > 管理策劃

溫馨提示

1. 本站所有資源如無(wú)特殊說(shuō)明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶(hù)所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽，若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間，僅對(duì)用戶(hù)上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理，對(duì)用戶(hù)上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容，請(qǐng)與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶(hù)因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

網(wǎng)絡(luò)級(jí)DMA（NDMA）技術(shù)需求白皮書(shū) 2023

文檔簡(jiǎn)介

溫馨提示

最新文檔

評(píng)論

網(wǎng)絡(luò)級(jí)DMA（NDMA）技術(shù)需求白皮書(shū) 2023

文檔簡(jiǎn)介

溫馨提示

最新文檔

評(píng)論

相關(guān)文檔