版權(quán)說(shuō)明:本文檔由用戶(hù)提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
11版權(quán)聲明ODCC(開(kāi)放數(shù)據(jù)中心委員會(huì))發(fā)布的各項(xiàng)成果,受《著作權(quán)法》保護(hù),轉(zhuǎn)載、摘編或利用其它方式使用ODCC成果中的文字或者觀(guān)點(diǎn)的,應(yīng)注明對(duì)于未經(jīng)著作權(quán)人書(shū)面同意而實(shí)施的剽竊、復(fù)制、修改、銷(xiāo)售、改編、匯編和翻譯出版等侵權(quán)行為,ODCC及有關(guān)單位將追究其法律責(zé)任,感謝各單位I編寫(xiě)組全新的社會(huì)生產(chǎn)力,對(duì)整個(gè)經(jīng)濟(jì)社會(huì)發(fā)揮著而業(yè)界主流的實(shí)現(xiàn)是使用點(diǎn)對(duì)點(diǎn)傳輸,如RDM I II III 1 2 4 4 5 6 6 7 8 11 14 14 15 15 16 18 20 20V 22 26 26 27 28網(wǎng)絡(luò)級(jí)DMA技術(shù)需求白皮書(shū)一、高性能分布式系統(tǒng)承載大規(guī)模算力需求(一)全球算力高速增長(zhǎng)全球算力的高速增長(zhǎng)是當(dāng)今數(shù)字時(shí)代的一個(gè)顯著特征。從最初的單機(jī)計(jì)算到現(xiàn)在的云計(jì)算、分布式計(jì)算等技術(shù),全球算力已經(jīng)達(dá)到了驚人的規(guī)模。算力已不僅是一個(gè)技術(shù)維度的概念,更成為了一種全新的社會(huì)生產(chǎn)力,對(duì)整個(gè)經(jīng)濟(jì)社會(huì)發(fā)揮著越來(lái)越重要的作用。個(gè)國(guó)家一個(gè)地區(qū)發(fā)達(dá)程度的重要指標(biāo)。高算力國(guó)家,包括美國(guó)、新未來(lái),隨著全球智能化進(jìn)程的加速,人工智能、云計(jì)算、大數(shù)全球算力每年以驚人的速度增長(zhǎng),預(yù)計(jì)到2030年,全球算力規(guī)模達(dá)1平均年增速達(dá)27%;智能算力達(dá)到52.5ZFlops,平均年增速超過(guò)(二)分布式系統(tǒng)承載大規(guī)模高復(fù)雜度算力任務(wù)算力需求的高速增長(zhǎng),使得算力任務(wù)的規(guī)模越來(lái)越大,復(fù)雜度在年增長(zhǎng)速度最快的人工智能領(lǐng)域,隨著ChatGPT的誕生,AI大模型再次受到業(yè)界的關(guān)注。AI大模型是指由大量參數(shù)組成的深度學(xué)習(xí)模型,通常包含數(shù)百萬(wàn)到數(shù)十億個(gè)參數(shù)。這些模型可以通過(guò)大自然語(yǔ)言處理等。AI大模型的規(guī)模逐年快速增長(zhǎng),如圖2所示。型參數(shù)量大約超過(guò)100萬(wàn)億個(gè)。AI大模型由于其復(fù)雜性和規(guī)模,需2超算算力年增長(zhǎng)速度僅次于人工智能。超算系統(tǒng)通常由數(shù)以萬(wàn)數(shù)據(jù)分析和模擬等任務(wù),廣泛應(yīng)用于科學(xué)研究、工程設(shè)計(jì)、天氣預(yù)報(bào)、金融分析等領(lǐng)域。圖3是世界最強(qiáng)超算算力TOP500給出的自1990年起超算算力的進(jìn)步趨勢(shì),并進(jìn)行了線(xiàn)性回歸。圖中的三條線(xiàn)分別是上榜超算的總算力,榜單冠軍的算力以及榜單第500名超算的算力??梢钥吹?,超算算力幾乎按照摩爾定律在提升,從G級(jí)到不管是人工智能還是超算,其算力任務(wù)都呈現(xiàn)出規(guī)模擴(kuò)大、復(fù)雜度提升的趨勢(shì),遠(yuǎn)超單個(gè)計(jì)算機(jī)或服務(wù)器的處理能力。因此,需要高性能分布式系統(tǒng),通過(guò)網(wǎng)絡(luò)連接提供海量計(jì)算、存儲(chǔ)資源,從而承載大規(guī)模算力任務(wù),突破單機(jī)算力和存儲(chǔ)的限制,提供高并發(fā)3(三)通信效率影響分布式系統(tǒng)性能系統(tǒng)的加速比體現(xiàn)了分布式系統(tǒng)的性能。根據(jù)阿姆達(dá)爾定律,可以計(jì)算出系統(tǒng)的加速比。阿姆達(dá)爾定律是一個(gè)計(jì)算機(jī)科學(xué)界的經(jīng)驗(yàn)法則,它代表了處理器并行運(yùn)算之后效率提升的能力,其計(jì)算公式表述如下。其中,S為系統(tǒng)加速比,p為并行度占比,s為并行節(jié)點(diǎn)數(shù)。增加并行節(jié)點(diǎn)數(shù),可以提升系統(tǒng)加速比,而當(dāng)s→∞時(shí),并簡(jiǎn)化的形式展現(xiàn)了了計(jì)算任務(wù)執(zhí)行的基本過(guò)程。圖中,藍(lán)色部分是節(jié)點(diǎn)并行計(jì)算的過(guò)程,當(dāng)并行階段結(jié)束后,進(jìn)入串行通信的過(guò)程,即并行階段的輸出發(fā)送到其他節(jié)點(diǎn)作為下一并行階段的輸入,只有當(dāng)通信完成,各節(jié)點(diǎn)獲得相應(yīng)輸入后,才能將計(jì)算任務(wù)向前推進(jìn),二、分布式系統(tǒng)以多對(duì)多集合通信為主4(一)什么是集合通信及其原語(yǔ)集合通信是一種通信方式,它將多個(gè)通信對(duì)象(如進(jìn)程、線(xiàn)程等)組合在一起,以實(shí)現(xiàn)一次調(diào)用實(shí)現(xiàn)向多個(gè)對(duì)象發(fā)送數(shù)據(jù),或從多個(gè)對(duì)象接收數(shù)據(jù)。集合通信常用于分布式系統(tǒng)并行計(jì)算中,協(xié)助常見(jiàn)的集合通信可以進(jìn)一步抽象為廣播、散布、聚集等操作。其中,廣播操作將數(shù)據(jù)發(fā)送給所有通信對(duì)象;散布操作將數(shù)據(jù)分散給多個(gè)通信對(duì)象;聚集操作將多個(gè)通信對(duì)象的數(shù)據(jù)合并到一個(gè)對(duì)象MPI是常見(jiàn)的用于并行計(jì)算的通信框架,它定義了多種集合通信原語(yǔ),AI場(chǎng)景中經(jīng)常使用的AllReduce就是一種MPI通信原語(yǔ),如圖5所示,經(jīng)過(guò)AllReduce操作后,原先各節(jié)點(diǎn)上A、B、C、D的子集被進(jìn)行了聚合或歸一化,最終各節(jié)點(diǎn)均獲取到A、B、C、D5(二)分布式系統(tǒng)中集合通信的調(diào)用應(yīng)用通過(guò)調(diào)用集合通信,在進(jìn)程或線(xiàn)程間完成數(shù)據(jù)交互,從而向前推進(jìn)分布式系統(tǒng)任務(wù)。除了點(diǎn)對(duì)點(diǎn)的通信外,很大一部分的交Chunduri,ScottParker,PavanBalaji,KevinHarmsandKalyan),因此,提升多對(duì)多集合通信的傳輸效率對(duì)分布式系統(tǒng)性能的整三、大規(guī)模集合通信面臨性能挑戰(zhàn)6(一)集合通信實(shí)現(xiàn)現(xiàn)狀應(yīng)用調(diào)用集合通信原語(yǔ)后,網(wǎng)絡(luò)完成數(shù)據(jù)的傳輸,實(shí)現(xiàn)集合通信操作。應(yīng)用不感知網(wǎng)絡(luò)的動(dòng)作行為,集合通信原語(yǔ)可以有多種實(shí)現(xiàn)方式。由于目前常用的傳輸層協(xié)議僅支持點(diǎn)到點(diǎn)傳輸,對(duì)于多對(duì)多的通信,通常都是在網(wǎng)絡(luò)上轉(zhuǎn)換成點(diǎn)到點(diǎn)通信,即應(yīng)用一次集合如圖7所示。這種方式可以應(yīng)用于A(yíng)IParameterServer結(jié)果分發(fā),存儲(chǔ)系統(tǒng)多副本寫(xiě)等。源節(jié)點(diǎn)將同一份消息依次發(fā)送給多個(gè)目的節(jié)點(diǎn),實(shí)質(zhì)上是一種帶寬資源的浪費(fèi),易形成帶寬瓶頸鏈路。另一種為中這種方式雖然減少了帶寬瓶頸,但每個(gè)中間節(jié)點(diǎn)在進(jìn)行轉(zhuǎn)發(fā)時(shí),都需要網(wǎng)絡(luò)層與應(yīng)用層交互,引入額外CPU處理帶來(lái)的延遲開(kāi)銷(xiāo)。這兩種方式下,都會(huì)引入了與通信規(guī)模線(xiàn)性相關(guān)的額外開(kāi)銷(xiāo),且無(wú)法7為了提升集合通信的傳輸效率,業(yè)界不斷探索著新的優(yōu)化,主(二)高性能傳輸協(xié)議的發(fā)展及其挑戰(zhàn)傳輸協(xié)議的發(fā)展集中在端側(cè)創(chuàng)新,通過(guò)高性能端到端的傳輸來(lái)優(yōu)化點(diǎn)到點(diǎn)通信,中間網(wǎng)絡(luò)無(wú)感知。RDMA就是最具有代表性的高RDMA(RemoteDirectMemoryAccess)允許在不經(jīng)過(guò)CPU的情況下,直接在主機(jī)內(nèi)存之間傳輸數(shù)據(jù)。傳統(tǒng)的網(wǎng)絡(luò)通信方式需要這些操作會(huì)占用大量的CPU資源,導(dǎo)致網(wǎng)絡(luò)傳輸速度變慢。而RDMA將數(shù)據(jù)從發(fā)送端的內(nèi)存直接傳輸?shù)浇邮斩说膬?nèi)存,通過(guò)0拷貝(不需要用戶(hù)空間和內(nèi)核空間中來(lái)回復(fù)制數(shù)據(jù))、內(nèi)核Bypass(數(shù)據(jù)流程繞過(guò)內(nèi)核),和CPU卸載(在CPU不參與通信的情況),8RDMA最主要的傳輸模式是RC(ReliableConnection),即可靠連接,是一種點(diǎn)到點(diǎn)的傳輸方式。如圖10所示,RDMARC模式下,收發(fā)兩端創(chuàng)建QP(QueuePair),并建立QP之間一對(duì)一的連接關(guān)系,之后在建立好的連接上順序發(fā)送消息,由PSN(Packet但這種模式存在擴(kuò)展性問(wèn)題。由于每對(duì)通信進(jìn)程間都需要建立QP連接,若有N個(gè)節(jié)點(diǎn),每個(gè)節(jié)點(diǎn)P個(gè)進(jìn)程,所有進(jìn)程間Full-在通信過(guò)程中,QP的上下文在協(xié)議棧處理過(guò)程中也會(huì)被頻繁訪(fǎng)問(wèn)修改。當(dāng)規(guī)模擴(kuò)大時(shí),系統(tǒng)對(duì)QP狀態(tài)維護(hù)開(kāi)銷(xiāo)增大,且網(wǎng)卡需要與主機(jī)內(nèi)存交互讀取相應(yīng)QP上下文,加劇傳輸性能下降。有測(cè)試表9明,商用網(wǎng)卡在QP數(shù)量超過(guò)256時(shí),吞吐即會(huì)出現(xiàn)明顯的下降,ScalableArchitectureforRDMANICs[J].除了擴(kuò)展性問(wèn)題,RDMARC模式還存在長(zhǎng)尾延遲問(wèn)題。同一個(gè)QP內(nèi)的消息必須按照請(qǐng)求下發(fā)的順序依次按序傳輸。如果發(fā)送端先后下發(fā)了兩個(gè)傳輸請(qǐng)求,分別對(duì)應(yīng)著1GB的消息和1KB的消息,則1KB消息必須等待1GB消息傳輸完成后才能被傳輸,使得網(wǎng)絡(luò)上走相同的傳輸路徑,所以極易在網(wǎng)絡(luò)上產(chǎn)生流量不均,尤其盡管RDMA還定義了另外兩種模式,分別是UD(UnreliableDatagram)和RD(ReliableDatagram),但UD模式?jīng)]有可靠性保因此,為了改善RDMA規(guī)模擴(kuò)展性和傳輸長(zhǎng)尾延遲的問(wèn)題,業(yè)界衍生出了兩種傳輸連接優(yōu)化的技術(shù)路線(xiàn),分別是連接復(fù)用和無(wú)連連接復(fù)用的主要實(shí)現(xiàn)方式有多種,包括共享接收隊(duì)列(SharedReceiveQueue,SRQ),即一個(gè)進(jìn)程共享同一個(gè)的接收隊(duì)列;擴(kuò)展可靠連接(ExtendedReliableConnection,XRC),即一個(gè)進(jìn)程對(duì)于相同目地服務(wù)器上的所有進(jìn)程共享同一個(gè)發(fā)送QP;動(dòng)態(tài)連接傳輸(Dynamically-connectedtransport,DCT),間并不預(yù)先建立連接,而是在運(yùn)行過(guò)程中根據(jù)實(shí)際通信需求動(dòng)態(tài)建立連接,通信完畢后再關(guān)閉連接。這些實(shí)現(xiàn)在不同程度上減少了需無(wú)連接的主要實(shí)現(xiàn)方式為,網(wǎng)卡僅承擔(dān)Datagram級(jí)可靠傳輸,應(yīng)用處理亂序重排及擁塞流控,每個(gè)節(jié)點(diǎn)狀態(tài)維護(hù)壓力與節(jié)點(diǎn)進(jìn)程實(shí)現(xiàn)。無(wú)連接實(shí)現(xiàn)的出發(fā)點(diǎn)在于軟件的快速迭代,具有較好的靈活性,網(wǎng)卡擴(kuò)展性好,但它放棄了RDMA硬件卸載協(xié)議棧的優(yōu)勢(shì),加(三)在網(wǎng)計(jì)算的發(fā)展及其挑戰(zhàn)在網(wǎng)計(jì)算是一種通信加速技術(shù),體現(xiàn)了數(shù)據(jù)中心從“以計(jì)算為在數(shù)據(jù)搬移的過(guò)程中完成計(jì)算,從而提升通信效率,加速應(yīng)用。常見(jiàn)的在網(wǎng)計(jì)算場(chǎng)景包括在網(wǎng)聚合、在網(wǎng)緩存等,已初步展現(xiàn)了該技術(shù)的應(yīng)用價(jià)值。Nvidia的SHARP(ScalableHierarchicalAggregation讓RDMA連接在交換機(jī)上終結(jié),實(shí)現(xiàn)在網(wǎng)聚合與數(shù)據(jù)的組播分發(fā),在網(wǎng)計(jì)算目前仍處于起步階段,對(duì)于在網(wǎng)計(jì)算的整體框架以及學(xué)術(shù)上,研究者們發(fā)表了大量在網(wǎng)計(jì)算方面的文章,其中不乏頂尖學(xué)術(shù)會(huì)議上的論文。比如2021年NSDI會(huì)議的最佳論文ATP),它面向分布式機(jī)器學(xué)習(xí)場(chǎng)景,定義了一套由主機(jī)和可編程交換機(jī)交對(duì)分布式訓(xùn)練的網(wǎng)絡(luò)傳輸進(jìn)行數(shù)據(jù)聚合優(yōu)化,在網(wǎng)絡(luò)中提供了盡力而為的聚合服務(wù)。再比如2020年OSDI會(huì)議論文Pegasus,它針對(duì)在分布式存儲(chǔ)系統(tǒng)中選擇性復(fù)制不能很好的應(yīng)對(duì)動(dòng)態(tài)變化負(fù)載,且實(shí)現(xiàn)強(qiáng)一致性代價(jià)較大的問(wèn)題,基于UDP設(shè)計(jì)了主機(jī)和交換機(jī)之間新的傳輸協(xié)議,報(bào)文格式如圖15所示,實(shí)現(xiàn)交換機(jī)上的不僅如此,在網(wǎng)計(jì)算也引起了標(biāo)準(zhǔn)組織的關(guān)注。IRTF(InternetResearchTaskForce)是一個(gè)由IAB(InternetArchitectureBoard)授權(quán)對(duì)一些相對(duì)遠(yuǎn)期的網(wǎng)絡(luò)問(wèn)題進(jìn)行研究的組織,與IETF(InternetEngineeringTaskFo式成立了COIN(ComputingintheNetwork)研究組。該工作組將針對(duì)應(yīng)用場(chǎng)景、功能架構(gòu)、新傳輸機(jī)制等展開(kāi)研究,目前仍處于應(yīng)用可以看到,在網(wǎng)計(jì)算正在成為未來(lái)提升系統(tǒng)性能重要的技術(shù)方向。然而在當(dāng)前的發(fā)展中,在網(wǎng)計(jì)算的設(shè)計(jì)呈現(xiàn)出碎片化的狀態(tài),難以形成標(biāo)準(zhǔn),其中一個(gè)很主要的原因就是統(tǒng)一傳輸框架的缺失。由于在網(wǎng)計(jì)算常常涉及到多對(duì)多的通信場(chǎng)景,而當(dāng)前的網(wǎng)絡(luò)傳輸集中于點(diǎn)到點(diǎn)的方式,缺乏面向多對(duì)多通信的原生設(shè)計(jì),這就使得開(kāi)發(fā)出了各種私有傳輸協(xié)議來(lái)支持,帶來(lái)生態(tài)發(fā)展的局限,阻礙在網(wǎng)四、NDMA應(yīng)對(duì)大規(guī)模集合通信需求(一)NDMA概念NDMA的全稱(chēng)是NetworkDMA,它是網(wǎng)絡(luò)中一存訪(fǎng)問(wèn)技術(shù)。直接內(nèi)存訪(fǎng)問(wèn)DMA是計(jì)算系統(tǒng)中常見(jiàn)的技術(shù),它允許外部設(shè)備直接訪(fǎng)問(wèn)內(nèi)存中的數(shù)據(jù),而無(wú)需經(jīng)過(guò)CPU的處理。DMA應(yīng)用于單個(gè)節(jié)點(diǎn)內(nèi)部,提高了單個(gè)節(jié)點(diǎn)內(nèi)數(shù)據(jù)傳輸效率?;贒MA的理念,發(fā)展出了遠(yuǎn)程直接內(nèi)存訪(fǎng)問(wèn)RDMA。RDMA允許遠(yuǎn)程服務(wù)器或主機(jī)直接訪(fǎng)問(wèn)本地內(nèi)存,而無(wú)需經(jīng)過(guò)本地CPU的干預(yù),極大降低了端到端的傳輸時(shí)延。RDMA側(cè)重于在兩個(gè)節(jié)點(diǎn)之間完成點(diǎn)到點(diǎn)的數(shù)據(jù)傳輸訪(fǎng)問(wèn)。NDMA是對(duì)現(xiàn)有遠(yuǎn)程直接內(nèi)存訪(fǎng)問(wèn)技術(shù)的增強(qiáng),著重面向網(wǎng)絡(luò)中的一組節(jié)點(diǎn)進(jìn)行內(nèi)存直讀、直寫(xiě)操作,最優(yōu)NDMA旨在將集合通信多對(duì)多操作的邏輯從應(yīng)用層面下沉到網(wǎng)絡(luò),實(shí)現(xiàn)集合通信“一棧直達(dá)”,即應(yīng)用對(duì)集合通信原語(yǔ)的一次調(diào)仍以集合通信中的組播為例。在NDMA的方式下,組播源絡(luò)層面上只需要發(fā)送一次數(shù)據(jù),由網(wǎng)絡(luò)上的交換機(jī)節(jié)點(diǎn)進(jìn)行復(fù)制轉(zhuǎn)發(fā),將數(shù)據(jù)報(bào)文發(fā)送到多個(gè)組播組節(jié)點(diǎn),并完成數(shù)據(jù)在組播組節(jié)點(diǎn)中的內(nèi)存直接訪(fǎng)問(wèn)操作。整個(gè)過(guò)程中,數(shù)據(jù)報(bào)文只經(jīng)過(guò)一次Tx+Rx(二)NDMA的基本模式和應(yīng)用價(jià)值組播是一種1對(duì)多的傳輸,是分布式計(jì)算系統(tǒng)中最常使用的通信模式之一。在超算系統(tǒng)Mira中,MPI_bcast原語(yǔ)的執(zhí)行時(shí)間占MPI通信總時(shí)間的14%,時(shí)間占比在MPI集合通信原語(yǔ)中僅次于用作HPCTop500榜單排名測(cè)試的應(yīng)用HPL,其通信以組播模式為主。在HPL中,每一輪計(jì)算循環(huán)中包含3部分通信。其中,第2部分“Panel廣播”即一列計(jì)算進(jìn)程分別把將數(shù)據(jù)組播給同一行的其他進(jìn)程,第3部分“行交換”過(guò)程包含一行計(jì)算進(jìn)程分布把數(shù)據(jù)NDMA的組播模式利用交換機(jī)完成組播報(bào)文的復(fù)制分發(fā),以網(wǎng)絡(luò)層組播替代應(yīng)用層組播,避免了相同數(shù)據(jù)的重復(fù)發(fā)送,使得組播任務(wù)完成時(shí)間逼近理論最優(yōu)值(即數(shù)據(jù)量與帶寬之比),在大規(guī)模下相比于應(yīng)用層組播任務(wù)完成時(shí)間有顯著減少,從而降低HPL過(guò)程AI計(jì)算中使用基于參數(shù)服務(wù)器(ParameterServer,PS)的數(shù)據(jù)并行方法解決訓(xùn)練數(shù)據(jù)規(guī)模過(guò)大導(dǎo)致的訓(xùn)練時(shí)間過(guò)長(zhǎng)的問(wèn)題。如圖18所示,PS訓(xùn)練方法將訓(xùn)練數(shù)據(jù)集分割成多個(gè)batch放置在不同的多個(gè)worker將訓(xùn)練好的數(shù)據(jù)(模型參數(shù)或者梯度)發(fā)送到PS進(jìn)行合并更新,然后PS將更新后的數(shù)據(jù)下發(fā)到每個(gè)worker,開(kāi)啟新一輪的訓(xùn)練。訓(xùn)練循環(huán)往復(fù),直至模型收斂。在此過(guò)程中,所有worker在大數(shù)據(jù)應(yīng)用中,MapReduce是典型的一種計(jì)算框架。如圖19所示,Map并行執(zhí)行,其輸出結(jié)果作為Reduce的輸入,由Reduceworker完成規(guī)約化簡(jiǎn)操作。并行的map任務(wù)會(huì)成為每個(gè)reduce任務(wù)的輸入流量,且map與reduce之間形成多組多對(duì)一的通信關(guān)系,使得交換機(jī)承受多個(gè)多對(duì)一流量,出端口緩存壓力增大,影響并行計(jì)采用聚播技術(shù),數(shù)據(jù)在經(jīng)過(guò)交換設(shè)備時(shí),會(huì)先進(jìn)行聚合,再轉(zhuǎn)發(fā)聚合結(jié)果,緩解了瓶頸點(diǎn)的帶寬和緩存壓力,有效避免因網(wǎng)絡(luò)性任播是一種1對(duì)1的操作,但其特殊點(diǎn)在于接收端是一組節(jié)點(diǎn)中的一個(gè),發(fā)送端可以選擇其中任意一個(gè)發(fā)送數(shù)據(jù),任意一個(gè)接收到數(shù)據(jù)的接收端都可以完成數(shù)據(jù)處理。企業(yè)存儲(chǔ)系統(tǒng)是一個(gè)典型的應(yīng)用場(chǎng)景。在該場(chǎng)景下,存儲(chǔ)系統(tǒng)一般由兩張網(wǎng)絡(luò)構(gòu)成,前端業(yè)務(wù)網(wǎng)絡(luò)和后端存儲(chǔ)網(wǎng)絡(luò),如圖22所示。前端業(yè)務(wù)網(wǎng)絡(luò)中,通常由存儲(chǔ)或者控制命令請(qǐng)求??刂破魍瓿烧?qǐng)求處理后,根據(jù)一定的負(fù)載均衡前端客戶(hù)網(wǎng)絡(luò)和后端存儲(chǔ)網(wǎng)絡(luò)相對(duì)解耦,客戶(hù)端通常會(huì)隨機(jī)下發(fā)請(qǐng)求。而控制器由于負(fù)載分擔(dān)以及數(shù)據(jù)打散的需求,會(huì)有很大概率將請(qǐng)求轉(zhuǎn)發(fā)至歸屬節(jié)點(diǎn)進(jìn)行處理,從而引入有損分布式系統(tǒng)性能端到端I/O流程所花費(fèi)時(shí)延,包括主機(jī)下發(fā)請(qǐng)求、協(xié)議棧處理、全節(jié)點(diǎn)歸屬,系統(tǒng)性能還受限于“水平時(shí)延”,即控間交互流程所花費(fèi)時(shí)延,包括歸屬查找、I/O請(qǐng)求轉(zhuǎn)發(fā)、跨引擎數(shù)據(jù)搬移等。水平時(shí)延的引入會(huì)導(dǎo)致客戶(hù)端請(qǐng)求的額外轉(zhuǎn)發(fā),處理時(shí)延加劇,系統(tǒng)整體任播技術(shù)可以通過(guò)網(wǎng)絡(luò)交換機(jī)隨路地進(jìn)行負(fù)載分擔(dān)邏輯處理,從而避免占用陣列側(cè)控制器過(guò)多的CPU資源和控間轉(zhuǎn)發(fā)帶來(lái)的帶寬(三)NDMA技術(shù)架構(gòu)NDMA是一個(gè)由網(wǎng)絡(luò)端側(cè)節(jié)點(diǎn)和網(wǎng)絡(luò)轉(zhuǎn)發(fā)節(jié)點(diǎn)相互協(xié)同,共同構(gòu)成的統(tǒng)一傳輸框架,提供對(duì)集合通信的原生支持。該框架支持三種基本模式的遠(yuǎn)端直接內(nèi)存訪(fǎng)問(wèn),分別是組播、聚播和任播,能夠應(yīng)用于大規(guī)模通信場(chǎng)景,且不綁定特定的網(wǎng)絡(luò)層協(xié)議,具有更強(qiáng)的從協(xié)議棧層次劃分來(lái)看,NDMA框架包含對(duì)網(wǎng)絡(luò)層、傳輸層和),從組件構(gòu)成來(lái)看,NDMA框架中包括網(wǎng)絡(luò)轉(zhuǎn)發(fā)設(shè)備(如交換機(jī))、網(wǎng)絡(luò)端側(cè)設(shè)備(如服務(wù)器側(cè)網(wǎng)卡/CPU)和通信應(yīng)用軟件(如轉(zhuǎn)發(fā)路由表具有一定的業(yè)務(wù)邏輯,如在存儲(chǔ)任播場(chǎng)景下,轉(zhuǎn)發(fā)設(shè)備感知后端存儲(chǔ)系統(tǒng)的從屬關(guān)系,從而建立相應(yīng)的轉(zhuǎn)發(fā)表。轉(zhuǎn)發(fā)設(shè)備能夠識(shí)別端測(cè)報(bào)文所屬類(lèi)型,如組播、聚播、任播,根據(jù)報(bào)文類(lèi)型網(wǎng)絡(luò)端側(cè)設(shè)備負(fù)責(zé)建立和維護(hù)面向集合通信的傳輸連接。新的傳輸連接匹配多對(duì)多通信范式,與轉(zhuǎn)發(fā)設(shè)備協(xié)同配合,根據(jù)應(yīng)用需求構(gòu)建傳輸通信組,通信組內(nèi)靈活支持三種基本模式的連接關(guān)系,通信應(yīng)用軟件具備調(diào)用NDMA類(lèi)型接口的能力。集合通信操作的輸入輸出不發(fā)生改變,應(yīng)用對(duì)集合通信原語(yǔ)的調(diào)用邏輯無(wú)變化,但原語(yǔ)的實(shí)現(xiàn)需要新增面向NDMA多對(duì)多傳輸連接所對(duì)應(yīng)的動(dòng)作和從連接方式來(lái)看,以RoCEv2(RDMARC)為代表的進(jìn)程級(jí)連接,和以SRD為代表的無(wú)連接,是兩個(gè)極端方向的連接機(jī)制設(shè)計(jì)。進(jìn)程級(jí)連接實(shí)現(xiàn)復(fù)雜度低,易于硬件卸載,利用硬件卸載協(xié)議棧極大降低了端到端傳輸時(shí)延。然而,進(jìn)程級(jí)連接兩端固定,連接數(shù)量多,規(guī)模擴(kuò)展受限。這種方式效率高但資源壓力大。與之相反的無(wú)連接方式,將亂序重排、擁塞控制等和功能收歸CPU,網(wǎng)卡負(fù)擔(dān)減輕,使得擴(kuò)展性得到極大提升,但是回退到了軟件處理方式,時(shí)延這兩種方式的連接都無(wú)法滿(mǎn)足大規(guī)模分布式應(yīng)用的需求。NDMA根據(jù)應(yīng)用任務(wù)的特征,引入“通信組”概念。所謂通信組,指的是參與一個(gè)分布式任務(wù)的多個(gè)有相互通信需求的進(jìn)程。NDMA基于通信組建立了介于進(jìn)程級(jí)連接和無(wú)連接之間新的連接方式,即組級(jí)的連接共享。組級(jí)連接相對(duì)于進(jìn)程級(jí)連接,極大程度降低了連接數(shù)。在N個(gè)節(jié)點(diǎn),每節(jié)點(diǎn)P個(gè)進(jìn)程的場(chǎng)景下,進(jìn)程級(jí)連接的數(shù)量級(jí)為O(N*P*P),而組級(jí)連接的數(shù)量級(jí)僅為O(1),如圖27所示。并且,通信組的劃分與應(yīng)用任務(wù)相對(duì)應(yīng),任務(wù)確定后,通信組可靠性包含三個(gè)層面的含義,分別是數(shù)據(jù)完整性,數(shù)據(jù)還原性數(shù)據(jù)完整性指的是數(shù)據(jù)無(wú)丟失,丟包情況下需要重傳。發(fā)送端根據(jù)報(bào)文應(yīng)答消息來(lái)檢測(cè)是否丟包。發(fā)送端設(shè)置定時(shí)器,在定時(shí)器否則,發(fā)送端認(rèn)為報(bào)文丟失,需要重傳,這其中包括顯式收到接收端發(fā)送過(guò)來(lái)的丟包指示消息,如NACK,也包括在定時(shí)器時(shí)間內(nèi)未收到接收端任何應(yīng)答消息。重傳的方法分為Go-back-N和選擇重傳。RoCEv2基于RDMA的重傳機(jī)制使用Go-Back-N,即重傳丟失的數(shù)據(jù)報(bào)文N之后的所有數(shù)據(jù)報(bào)文。相比于Go-back-N這種低效的重傳方式,選擇重傳只需要重傳丟失的單個(gè)數(shù)據(jù)報(bào)文,因此丟包帶來(lái)的數(shù)據(jù)還原性指的是數(shù)據(jù)發(fā)出的順序和數(shù)據(jù)接收的順序一致,最終傳到用戶(hù)層的數(shù)據(jù)不能亂序。最常見(jiàn)的保序方式是讓同一個(gè)流(flow)在網(wǎng)絡(luò)上走相同的路徑,源和目的相同的流量被認(rèn)為是同一個(gè)流,網(wǎng)絡(luò)轉(zhuǎn)發(fā)設(shè)備對(duì)同一個(gè)流執(zhí)行同樣的轉(zhuǎn)發(fā)規(guī)則,保證選擇按照f(shuō)lowlet的粒度在網(wǎng)絡(luò)上發(fā)送,flowlet內(nèi)同一路徑順序轉(zhuǎn)發(fā),NDMA的可靠性機(jī)制遵循上述三個(gè)層面的含義,通過(guò)網(wǎng)絡(luò)轉(zhuǎn)發(fā)在數(shù)據(jù)完整性上,接收端通過(guò)報(bào)文應(yīng)答消息ACK/NACK指示報(bào)文的接收狀態(tài),網(wǎng)絡(luò)設(shè)備則需要根據(jù)多對(duì)多通信
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶(hù)所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶(hù)上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶(hù)上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶(hù)因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 四川省達(dá)州市大竹縣大竹中學(xué)2024-2025學(xué)年七年級(jí)上學(xué)期期中生物學(xué)試題(含答案)
- 《船用格柵》規(guī)范
- 第五單元 分?jǐn)?shù)四則混合運(yùn)算(單元測(cè)試)(含答案)-2024-2025學(xué)年六年級(jí)上冊(cè)數(shù)學(xué)蘇教版
- 2024-2025學(xué)年七年級(jí)上學(xué)期期中測(cè)試卷
- 油氣設(shè)備專(zhuān)用件相關(guān)項(xiàng)目投資計(jì)劃書(shū)
- 高導(dǎo)熱石墨散熱材料行業(yè)相關(guān)投資計(jì)劃提議范本
- 石油鉆探、開(kāi)采專(zhuān)用設(shè)備相關(guān)項(xiàng)目投資計(jì)劃書(shū)范本
- 銷(xiāo)售公司運(yùn)營(yíng)管理述職報(bào)告
- 兒童健康飲食課件
- 遺傳病和免疫
- 關(guān)于3000萬(wàn)元以下建設(shè)項(xiàng)目前期工作咨詢(xún)收費(fèi)標(biāo)準(zhǔn)的通知
- 銀行卡面DIY設(shè)計(jì)大賽方案
- 外國(guó)人換發(fā)或補(bǔ)發(fā)永久居留證件申請(qǐng)表樣本
- 人教版中職數(shù)學(xué)基礎(chǔ)模塊上冊(cè)--第二章不等式教案
- 中國(guó)畫(huà)PPT精選課件
- 《幼兒教師口語(yǔ)訓(xùn)練》課程實(shí)訓(xùn)手冊(cè)
- 35kV-SF6氣體絕緣金屬封閉式高壓開(kāi)關(guān)柜技術(shù)規(guī)范書(shū)
- 大學(xué)小組成員介紹動(dòng)態(tài)PPT
- 紡織服裝制造行業(yè)納稅評(píng)估模型案例
- 關(guān)于“釣魚(yú)執(zhí)法”現(xiàn)象的法律思考
- (完整版)河道工程護(hù)砌(連鎖砌塊)施工方案
評(píng)論
0/150
提交評(píng)論