InfiniBand高速網(wǎng)絡(luò)互連技術(shù)_第1頁
InfiniBand高速網(wǎng)絡(luò)互連技術(shù)_第2頁
InfiniBand高速網(wǎng)絡(luò)互連技術(shù)_第3頁
InfiniBand高速網(wǎng)絡(luò)互連技術(shù)_第4頁
InfiniBand高速網(wǎng)絡(luò)互連技術(shù)_第5頁
已閱讀5頁,還剩154頁未讀 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

InfiniBand高速網(wǎng)絡(luò)互連技術(shù)清風(fēng)明月2012年5月內(nèi)容提要超級計算機系統(tǒng)及其互連結(jié)構(gòu)Infiniband互連網(wǎng)絡(luò)的體系結(jié)構(gòu)在HPC中的典型互連架構(gòu)及應(yīng)用IB網(wǎng)絡(luò)優(yōu)化技術(shù)未來展望Lecture1Lecture2內(nèi)容提要超級計算機系統(tǒng)及其互連結(jié)構(gòu)Infiniband互連網(wǎng)絡(luò)的體系結(jié)構(gòu)在HPC中的典型互連架構(gòu)及應(yīng)用IB網(wǎng)絡(luò)優(yōu)化技術(shù)未來展望國際超級計算機500強排名(TOP500)?是美國田納西大學(xué)、伯克利NERSC實驗室和德國曼海姆大學(xué)一些專家為評價世界超級計算機性能而搞的民間學(xué)術(shù)活動,每年2次排出世界上實際運行速度最快的前500臺計算機。(6月、11月)?排名的依據(jù)是線性代數(shù)軟件包Linpack的實際測試數(shù)據(jù),而峰值浮點運算速度作為參考值列出。Linpack基準測試程序是一個可以分解和解答線性方程和線性最小平方問題的Fortran子程序集.于20世紀70年代到80年代初為超級計算機而設(shè)計測試出的最高性能指標作為衡量機器性能的標準4TOP500分析中國TOP100總Linpack性能達到11.85Pflops(2010年6.3PFlops),是2010年的1.88倍;跟全球TOP500相比,2011年6月全球TOP500排行榜第一名被日本的K-Computer奪得,2010年11月TOP500第一名的天河1A降為世界第二,但中國的機器份額首次取得第二名,僅次于美國;國家超級計算天津中心以國防科大天河1A再次蟬聯(lián)中國TOP100第一名,Linpack性能2.57PFlops,峰值4.7PFlops;國家超級計算濟南中心以國家并行計算機工程技術(shù)研究中心全國產(chǎn)神威藍光力奪得中國TOP100第二名,Linpack性能795.9TFlops,峰值1.07PFlops,神威藍光是我國歷史上首臺全國產(chǎn)的千萬億次超級計算機;國家超級計算長沙中心以國防科大天河1A-HN力奪中國TOP100第三名,Linpack性能771.7TFlops,峰值1.34PFlops。全部機器的Linpack性能超過22.1Tflops是2010年9.6TFlops的2.3倍,比去年的1.41倍大幅提升。全部系統(tǒng)的峰值超過25.6TFlops,是2010年11TFlops的2.33倍,比去年的1.36倍大幅提升;排名前三的機器兩套是CPU+GPU異構(gòu)MPP;97個(2010年98個)系統(tǒng)都是機群架構(gòu),機群繼續(xù)占據(jù)主導(dǎo)地位,在前10名里4臺是CPU+GPU體系架構(gòu),在TOP100中共有13套CPU+GPU異構(gòu)機群。近3年來的TOP5超級計算機系統(tǒng)2009年2010年2011年Rank1美洲虎CrayXT5-HENUDTTH-1AKcomputerRank2IBMBladeCenter美洲虎CrayXT5-HENUDTTH-1ARank3CrayXT5-HE曙光“星云”美洲虎CrayXT5-HERank4IBM藍色基因HPProLiant曙光“星云”Rank5NUDTTH-1CrayXE6HPProLiantNo1:KComputer日本理化研究所(RIKEN)高級計算科學(xué)研究院(AICS)和富士通共同研制每秒運算速度超越1億億次大關(guān)。Linpack測試的最大計算性能達到了10.51PFlops,也就是每秒鐘1.051億億次浮點計算,這也是人類首次跨越1億億次計算大關(guān)。采用的處理器是富士通制造的SPARC64VIIIfx,八核心,主頻2.0GHz,二級緩存6MB,熱設(shè)計功耗58W,峰值浮點性能128GFlops。為了獲得更高性能,富士通還在其中加入了一系列高性能集群計算擴展,可以有效管理其共享二級緩存,并支持SIMD、每核心256位浮點寄存器、高級核心間硬件同步等等。處理器數(shù)量是88128顆,核心數(shù)量為705024個,占據(jù)864個機柜。這些處理器通過名為“豆腐”(Tofu)的特殊6-Dmesh/torus網(wǎng)絡(luò)連接在一起,帶寬5GB/s。同時,“京”的峰值計算性能也達到了11.28PFlops,執(zhí)行效率為驚人的93.2%

ASCISpringschool2012HenkCorporaal(8)KComputer:10.51Petaflop/sonLinpack705024SPARC64cores

(8perdie;45nm)(Fujitsudesign)Tofuinterconnect(6-Dtorus)12.7MegaWattKComputer的互連架構(gòu)6D-mesh/ToursNo2:天河-1A,國防科技大學(xué)這是超過美國橡樹嶺國家實驗室產(chǎn)品高達40%的系統(tǒng)。達到每秒4700萬億次的峰值性能和每秒2507萬億次的實測性能。14336顆英特爾六核至強X56702.93GHzCPU、7168顆NvidiaTeslaM2050GPU,以及2048顆自主研發(fā)的八核飛騰FT-1000處理器天河一號A將大規(guī)模并行GPU與多核CPU相結(jié)合,在性能、尺寸以及功耗等方面均取得了巨大進步,是當代異構(gòu)計算的典型代表。該系統(tǒng)采用了7168顆英偉達?(NVIDIA®)Tesla?M2050GPU以及14,336顆CPU。如果單純只使用CPU的話,要實現(xiàn)同等性能則需要50,000顆以上的CPU以及兩倍的占地面積。更重要的是,如果完全采用CPU打造,可實現(xiàn)2.507Petaflops(千萬億次)性能的系統(tǒng)將消耗1200萬瓦特的電力。多虧在異構(gòu)計算環(huán)境中運用了GPU,天河一號A僅消耗404萬瓦特的電力,節(jié)能效果高達3倍。二者之間的功耗之差足夠滿足5000多戶居民一年的電力所需。三大突破“天河一號”除了使用了英特爾處理器,還首次在超級計算機中使用了2048個我國自主設(shè)計的處理器。這款名為“飛騰-1000”的64位CPU。它利用65納米技術(shù)設(shè)計生產(chǎn),共有8個核心。中國首創(chuàng)了CPU和GPU融合并行的體系結(jié)構(gòu)。制造了先進的通信芯片,設(shè)計了先進的互聯(lián)結(jié)構(gòu)。160Gb/s,是國際上的商用IB的兩倍。13TH-1A互連架構(gòu)超級胖樹結(jié)構(gòu)NO.3Jaguar美洲虎,2.331Pflops

CrayXT5-HEOpteronSixCore2.6GHz,近25萬個內(nèi)核

美洲虎的3D-TorusCRAY超級計算機的RoadmapCrayXT5:1+PFLeadership-classsystemforscienceDARPAHPCS:20PFLeadership-classsystemFY2009FY2011FY2015FY2018Futuresystem:1EF100–250PF美洲虎NO.4曙光“星云”,2.9843PflopsInfiniband互連No14:神威藍光:全國產(chǎn)化的超級計算機問世該機器獲得科技部863計劃支持,由國家并行計算機工程技術(shù)研究中心制造,于2011年9月安裝于國家超算濟南中心,全部采用自主設(shè)計生產(chǎn)的CPU(ShenWeiprocessorSW1600),系統(tǒng)共8704個CPU,峰值1.07016PFlops,持續(xù)性能795.9TFlops,Linpack效率74.37%,總功耗1074KW。國家超級計算濟南中心是科技部批準成立的全國3個千萬億次超級計算中心之一,由山東省科學(xué)院計算中心負責建設(shè)、管理和運營。是國內(nèi)首臺全部采用國產(chǎn)中央處理器(CPU)和系統(tǒng)軟件構(gòu)建的千萬億次計算機系統(tǒng),標志著我國成為繼美國、日本之后第三個能夠采用自主CPU構(gòu)建千萬億次計算機的國家。神威藍光擁有四大特點:全部采用國產(chǎn)的CPULinpack效率高達74.4%,而一般的千萬億次機都在50%左右采用液冷技術(shù),節(jié)能高密度,在一個機倉(機柜)里可以裝入1024顆CPU,千萬億次規(guī)模僅需要9個這樣的機倉。計算機節(jié)點,在1U高的機箱中可以放入4個CPU板,每個板上可以裝兩顆16核的CPU。

這就是神威藍光的“心臟”:申威1600實物照在計算節(jié)點中采用液冷(據(jù)說是使用500元1噸的純凈水)設(shè)計也是神威藍光的一大技術(shù)特色,中間是鋁制液冷散熱板。國內(nèi)三大系統(tǒng)比較Totalcores:0Totalflop/s:0OpteronsocketRoadrunner(走鵑)

Part1:OpteronBladesOpteroncoreTotalcores:1Totalflop/s:3,600,000,000OpteroncoreTotalcores:2Totalflop/s:7,200,000,0001.8GHz3.6Gflop/s64+64KBL1cache2MBL2cacheTotalcores:2Totalflop/s:7,200,000,000Totalcores:4Totalflop/s:14,400,000,000LS21BladeRoadrunner(走鵑)

Part1:OpteronBladesOpteronsocketOpteroncoreOpteroncoreOpteronsocketOpteroncoreOpteroncore8GBDDR2memory10.7GB/s8GBDDR2memory10.7GB/sHyperTransport6.4+6.4GB/sTotalcores:2Totalflop/s:7,200,000,000Totalcores:4Totalflop/s:14,400,000,000Roadrunner(走鵑)

Part1:OpteronBladesRoadrunnerArchitecture

Part2:CellBladesQS22BladeFlexIO,25GB/s25.6GB/s4GBDDR2memory25.6GB/sPowerXCell8isocketEIB,204.8GB/sSPEcoreSPEcoreSPEcoreSPEcoreSPEcoreSPEcoreSPEcoreSPEcorePPEcorePowerXCell8isocketEIB,204.8GB/sSPEcoreSPEcoreSPEcoreSPEcoreSPEcoreSPEcoreSPEcoreSPEcorePPEcore4GBDDR2memoryRoadrunnerArchitecture

Part2:CellBladesRoadrunnerArchitecture

Part3:Nodes(Triblade=1*Opteron+2*cell)InfiniBand2:1fattreeHT2100HT2100InfiniBand4XDDRHTx166.4GB/sPCIex82GB/sIB2GB/sRoadrunnerArchitecture

Part4:ScalingOutBladeCenterBladeCenterBladeCenterBladeCenterComputeUnit(CU)RoadrunnerArchitecture

Part4:ScalingOutTotalcores:480Totalflop/s:5,395,200,000,000Totalcores:7,200Totalflop/s:80,928,000,000,000RoadrunnerArchitecture

Part4:ScalingOutTotalcores:7,200Totalflop/s:80,928,000,000,000RoadrunnerTotalcores:122,400Totalflop/s:1,375,776,000,000,000RoadrunnerArchitectureIBM計劃10萬萬億次HPC12倍于世界最快!今年預(yù)計BlueGene/Q“Sequoia”其峰值性能可達到20petaflops,而其升級版將是首個超過10萬萬億次浮點計算的超級計算機,達到107petaflops,是目前世界最快KComputer的12倍。Sequoia(紅杉)Sequoia超級計算機是IBM正在為LawrenceLivermore國家實驗室研制的一種超級計算機,而這種計算機中使用的BlueGene/Q處理器就將采用IBM在HotChips大會上發(fā)表的論文中披露的這種新部件。Sequoia將在2012年完工,有望提供20petaFLOPs(peta=1015)的強大性能。當Sequoia完工時,這臺超級計算機可能成為世界上功能最強大的系統(tǒng)之一。計算機技術(shù)的發(fā)展自1946年以來,計算機近70年有了驚人的發(fā)展性能:(加法)速度提高了5個數(shù)量級計算機性能以大約每年35%的速度提高價格:今天$1000的機器相當于60年代中$106的機器,這里同性能計算機的價格比,改善了3個數(shù)量級。處理器速度持續(xù)提高(廣度)從1971年第一顆微處理器Intel4004問世以來,40年間處理器芯片集成的晶體管數(shù)目從2300個發(fā)展到今天的數(shù)十億個,處理器頻率從不到1MHz發(fā)展到今天最高接近5GHz,與英特爾4004相比,如今下一代英特爾酷睿處理器的性能是其35萬倍,每個晶體管的能耗卻降低了5千倍。同期,晶體管的價格下降了約5萬倍。在30年間計算機系統(tǒng)的速度提高了6個數(shù)量級對計算能力的需求持續(xù)增長超級計算機的性能趨勢CAGR=1.91stPasadenaPetaflopsWorkshopGFlopsExaFlopsPetaFlopsTeraFlopsFigurecourtesyofPeterKogge超級計算機發(fā)展路線圖時間2020年2030年2050年器件CMOS納米量子器件量子、生物分子計算速度Exaflops(1018)Zettaflops(1021)>Yottaflops(1024)并行度>109-101011-10121013-1015內(nèi)存容量25PBEB(1018B)ZB(1021B)功耗40MWMWMW用途核聚變模擬蛋白質(zhì)折疊等地球模擬生命科學(xué)等MEMS優(yōu)化腦科學(xué)模擬等2010202020302050TOP500中的互連網(wǎng)絡(luò)統(tǒng)計TOP500Nov2011,IB占42%TOP10中有5家采用IB(4/5/7/9/10)TOP20中有8家TOP100中有55%采用IB基于GPU混合系統(tǒng)中有92%采用IBTOP100中的IO互連架構(gòu)統(tǒng)計在TOP100機器的IO互連中55%采用IBTop500中各種互連的趨勢圖典型商業(yè)互連網(wǎng)絡(luò)的性價比InfiniBand

PCI-Express10GigEGigEMyrinetDMyrinetEDataBandwidth

(LargeMessages)950MB/s900MB/s100MB/s245MB/s495MB/sMPILatency

(SmallMessages)5us50us50us6.5us5.7usHCACost

(StreetPrice)$550$2K-$5KFree$535$880SwitchPort$250$2K-$6K$100-$300$400$400CableCost

(3mStreetPrice)$100$100$25$175$175Top500中IB互連的趨勢圖內(nèi)容提要超級計算機系統(tǒng)及其互連結(jié)構(gòu)Infiniband互連網(wǎng)絡(luò)的體系結(jié)構(gòu)在HPC中的典型互連架構(gòu)及應(yīng)用IB網(wǎng)絡(luò)優(yōu)化技術(shù)未來展望為什么TOP500中有42%機器采用IB互連?高帶寬目前主流的單鏈路傳輸能力40Gbps,10GB以太網(wǎng)不可比擬超低延時應(yīng)用程序之間通信延時小于1us高可靠性、低誤碼率、自管理的網(wǎng)絡(luò)鏈路級流控擁塞控制IB網(wǎng)絡(luò)組成HostChannelAdapters(HCA)TargetChannelAdapters(TCA)SwitchesRoutersIB網(wǎng)絡(luò)組成多個子網(wǎng),每個子網(wǎng)是一個獨立的路由域子網(wǎng)之間通過交換機互連,一般的HPC只使用一個子網(wǎng)。IB網(wǎng)絡(luò)——硬件實體IB網(wǎng)絡(luò)——硬件實體Blade/Rack

ServersStorageSwitchSWITCH基于IB網(wǎng)絡(luò)構(gòu)建的Cluster系統(tǒng)CA(端結(jié)點-主機適配卡)兩種類型的CAHCA,通過IBverbs為用戶提供操作TCA,IBA未定義TCA接口語義CA是一個具備一定保護功能的可編程DMA引擎VirtualLane(VL)LocalID(LID)獨立的發(fā)送和接收緩沖區(qū)內(nèi)存翻譯和保護子網(wǎng)管理代理GUIDIB交換機(多端口交換)子網(wǎng)內(nèi)部路由設(shè)備交換機端口具備LID,

具有HCA特性。子網(wǎng)內(nèi)部的每個端口分配一個或多個唯一的LID通過報文LocalRouteHeader標識目標端口LID,交換機根據(jù)該地址信息交換到目標端口提供單播和多播路由支持多路徑(負載均衡,鏈路容錯)IB傳輸分層(對比TCP/IP)PhysicalLayer–LinkRateInfiniBand使用串行差分鏈路傳輸鏈路寬度1x–OnedifferentialpairperTx/Rx4x–FourdifferentialpairsperTx/Rx8x–EightdifferentialpairsperTx/Rx12x-TwelvedifferentialpairsperTxandperRx鏈路速度SingleDataRate(SDR)-2.5Gb/sperlane(10Gb/sfor4x)DoubleDataRate(DDR)-5Gb/sperlane(20Gb/sfor4x)QuadDataRate(QDR)-10Gb/sperlane(40Gb/sfor4x)FourteenDataRate(FDR)-14Gb/sperlane(56Gb/sfor4x)EnhancedDatarate(EDR)-25Gb/sperlane(100Gb/sfor4x)目前多采用4X鏈路PhysicalLayer–linkwidthLane的概念,1x即1lane,類似于PCIElane1xLink4xLink12xLinkIB物理鏈路速率歷程串行高帶寬鏈路SDR:10Gb/sHCAlinksDDR:20Gb/sHCAlinksQDR:40Gb/sHCAlinksFDR:56Gb/sHCAlinksEDR:100Gb/sHCAlinksPhysicalLayer–Cables&Connectors單個物理信道上復(fù)用多個虛擬鏈路信道LinkLayer–ProtocolMessage長度最大2GbyteMTU尺寸從256byte到最大4KbyteLinkLayer–Addressing每個節(jié)點(HCA端節(jié)點和交換機)必須擁有一個全局唯一的64位ID(GUID),類似于以太網(wǎng)MAC地址。同時,為了方便路由,在每個子網(wǎng)內(nèi)為節(jié)點分配一個本地ID(LID)-16bits,子網(wǎng)內(nèi)線性編號

GUIDGUIDGUIDGUIDGUIDGUIDGUIDGUIDLID=1LID=2LID=3LID=4LID=5LID=6LID=7LID=8IB通信協(xié)議的硬件實現(xiàn)原理TransportLayer–UsingQueuePairs發(fā)送和接收隊列是成對出現(xiàn)的。TransportLayer–隊列模型IB通信傳輸示例LinkLayer–FlowControl基于信用(Credit)的鏈路級流控反壓原理TransportLayer–ServicesProperties可靠與不可靠面向連接與數(shù)據(jù)報(非面向連接)服務(wù)分類服務(wù)類型面向連接是否應(yīng)答傳輸協(xié)議可靠鏈接是是IBA不可靠鏈接是否IBA可靠數(shù)據(jù)報否是IBA不可靠數(shù)據(jù)報否否IBA原始數(shù)據(jù)報否否RAW如何管理子網(wǎng)?IB網(wǎng)絡(luò)維持一個子網(wǎng)管理器SubnetManager(SM)是一個獨立軟件通過與每個節(jié)點上的子網(wǎng)管理代理通信的方式來管理子網(wǎng)子網(wǎng)管理和路由每個子網(wǎng)必須有一個子網(wǎng)管理器子網(wǎng)管理器的作用:管理IB網(wǎng)絡(luò)中的所有節(jié)點,包括端節(jié)點HCA和交換機SW子網(wǎng)網(wǎng)絡(luò)拓撲發(fā)現(xiàn)

為每個節(jié)點分配一個本地ID(LID),用于路由為交換機分配轉(zhuǎn)發(fā)表,用于網(wǎng)絡(luò)路由監(jiān)控子網(wǎng)狀態(tài),當網(wǎng)絡(luò)發(fā)生改變時負責重新分配路由表。維護網(wǎng)絡(luò)正常運轉(zhuǎn)子網(wǎng)管理器SMSM是IB網(wǎng)絡(luò)中一個重要元素負責配置和管理交換機、路由器、HCA。SM可以被實現(xiàn)在HCA或者交換機等設(shè)備上。一個子網(wǎng)內(nèi)可以有多個SM,其中一個SM為主,其余為備份SM功能進行子網(wǎng)拓撲發(fā)現(xiàn)產(chǎn)生子網(wǎng)前綴,為端口分配LID配置每個交換的LID,配置轉(zhuǎn)發(fā)表提供節(jié)點和服務(wù)的數(shù)據(jù)庫服務(wù)子網(wǎng)管理基礎(chǔ)—子網(wǎng)管理器(1)相對于以太網(wǎng)的分布式管理,在Infiniband網(wǎng)絡(luò)中,SM通過SMA對子網(wǎng)進行集中管理。這種方式結(jié)構(gòu)簡單易于管理。為了防止單點失效問題,在Infiniband中可存在多個SM,一個主SM,多個備份SM。備份SM檢測到主SM死亡時,會選擇一個備份SM成為主SM,接管子網(wǎng)管理權(quán)。子網(wǎng)管理基礎(chǔ)—子網(wǎng)管理器(2)主SM是IB子網(wǎng)初始化和配置的關(guān)鍵因素。主SM的選擇也是初始化過程的一部分。主SM的主要作用是:發(fā)現(xiàn)子網(wǎng)的物理拓撲結(jié)構(gòu)。為每個端節(jié)點,交換機和路由器分配本地標識符LID。確定各端節(jié)點之間的合理路徑。掃描子網(wǎng),發(fā)現(xiàn)拓撲改變處理節(jié)點加入和節(jié)點刪除。子網(wǎng)管理基礎(chǔ)—子網(wǎng)管理器(3)子網(wǎng)探測主要是指在Infiniband子網(wǎng)初始化時,SM通過SMA獲得子網(wǎng)內(nèi)各節(jié)點信息。主要的信息就是各個節(jié)點的GUID,節(jié)點類型,端口信息以及各節(jié)點之間的連接關(guān)系。在子網(wǎng)初始化完畢后,SM還會定時的檢查網(wǎng)絡(luò)拓撲是否發(fā)生變化(某個交換機端口的狀態(tài)發(fā)生改變)。交換機檢測到自己的某個端口狀態(tài)發(fā)生改變,可以通過Trap機制主動向SM報告拓撲改變。子網(wǎng)探測子網(wǎng)發(fā)現(xiàn)的過程:子網(wǎng)啟動時,SM發(fā)送包含Get方法的直接路由SMP,SMA收到后會響應(yīng)一個SMP,從而找到一個新的節(jié)點,然后SM通過這個新節(jié)點向外輻射只到找到所有的設(shè)備。子網(wǎng)探測—子網(wǎng)發(fā)現(xiàn)對于一個已經(jīng)初始化的子網(wǎng),如果SM發(fā)現(xiàn)某一個交換機的一個端口的狀態(tài)從DOWN變?yōu)閁P,則說明有設(shè)備加入到子網(wǎng)中。子網(wǎng)探測—增加設(shè)備對于一個已經(jīng)初始化的子網(wǎng),如果SM發(fā)現(xiàn)某一個交換機的一個端口的狀態(tài)從UP變?yōu)镈OWN,則說明有設(shè)備從子網(wǎng)中移除。子網(wǎng)探測—刪除設(shè)備在規(guī)范中,并沒有規(guī)定LID的分配規(guī)則,只要滿足上述的性質(zhì)即可。具體實現(xiàn)時,LID的分配與特定的路由算法有關(guān)。最簡單的分配方式是按照設(shè)備的發(fā)現(xiàn)順序,從1開始連續(xù)分配。LID分配路由計算主要是指SM在得到子網(wǎng)拓撲以后,確定每兩個節(jié)點之間的路徑的過程。SM將這個計算結(jié)果以轉(zhuǎn)發(fā)表的形式發(fā)布給交換機,使數(shù)據(jù)包沿著計算好的路徑傳遞。轉(zhuǎn)發(fā)表是一個[LID,PORT]組成的表,交換機接收到一個LID路由的數(shù)據(jù)包時,通過查找目的LID對應(yīng)的表項,從而確定應(yīng)該從那個端口轉(zhuǎn)發(fā)這個數(shù)據(jù)包。路由計算網(wǎng)絡(luò)拓撲發(fā)現(xiàn)過程由子網(wǎng)管理器(SM)發(fā)起從SM軟件駐留的節(jié)點開始,按照寬度優(yōu)先(BFS)、或深度優(yōu)先(DFS)方法逐個發(fā)現(xiàn),將發(fā)現(xiàn)好的節(jié)點加入拓撲鏈表中在進行子網(wǎng)發(fā)現(xiàn)的過程中,為每個已發(fā)現(xiàn)的節(jié)點分配一個本地ID(LID),為后繼的路由做準備網(wǎng)絡(luò)拓撲發(fā)現(xiàn)過程LID=1LID=2LID=3LID=4LID=5LID=6LID=7LID=8IB網(wǎng)絡(luò)路由過程–交換機內(nèi)部轉(zhuǎn)發(fā)機制LFT:LineralForwardTable(線性轉(zhuǎn)發(fā)表)首先,根據(jù)報文頭的SL查找SL-to-VL-Table(服務(wù)等級映射表),獲得該報文的轉(zhuǎn)發(fā)的VL通道。而后,根據(jù)目的DLID查找LFT線性轉(zhuǎn)發(fā)表,獲取下一跳的端口號。LFT(DLIDtoPort)IB網(wǎng)絡(luò)路由過程–尋徑過程SW2cn0cn1cn2cn3LID=2LID=3LID=4LID=5LID=6目的LID輸出端口1122536312341234目的LID輸出端口12225364SW1線性轉(zhuǎn)發(fā)表SW2線性轉(zhuǎn)發(fā)表LID=1SW1查表查表SM路由節(jié)點的添加和刪除子網(wǎng)管理器SM發(fā)現(xiàn)拓撲變化主動發(fā)現(xiàn),通過子網(wǎng)掃描被動發(fā)現(xiàn),節(jié)點的代理軟件主動上報自己的故障端口當拓撲發(fā)生改變時,更新路由表IB網(wǎng)絡(luò)路由更新過程(1)SW2cn0cn1cn2cn3LID=2LID=3LID=4LID=5LID=6目的LID輸出端口1122536412341234目的LID輸出端口12225364SW1線性轉(zhuǎn)發(fā)表SW2線性轉(zhuǎn)發(fā)表LID=1SW1SMASMSMA鏈路故障報告IB網(wǎng)絡(luò)路由更新過程(2)SW2cn0cn1cn2cn3LID=2LID=3LID=4LID=5LID=6目的LID輸出端口1122536312341234目的LID輸出端口11215364SW1線性轉(zhuǎn)發(fā)表SW2線性轉(zhuǎn)發(fā)表LID=1SW1SMASMSMA更新轉(zhuǎn)發(fā)表IB分層協(xié)議棧由OpenFabric組織制定IB規(guī)范RDMANICR-NICHostChannelAdapterHCAUserDirectAccessProgrammingLibUDAPLReliableDatagramServiceRDSiSCSIRDMAProtocol(Initiator)iSERSCSIRDMAProtocol(Initiator)SRPSocketsDirectProtocolSDPIPoverInfiniBandIPoIBPerformanceManagerAgentPMASubnetManagerAgentSMAManagementDatagramMADSubnetAdministratorSACommonInfiniBandiWARPKeyInfiniBandHCAiWARPR-NICHardwareSpecificDriverHardwareSpecificDriverConnection

ManagerMADInfiniBandVerbs/APISA

ClientConnectionManagerConnectionManagerAbstraction(CMA)UserLevel

Verbs/APISDPIPoIBSRPiSERRDSUDAPLSDP

LibraryUserLevel

MADAPIOpen

SMDiagToolsHardwareProviderMid-LayerUpperLayerProtocolUser

APIsKernelSpaceUserSpaceNFS-RDMARPCClusterFileSysApplication

LevelSMAR-NICDriverAPIClusteredDBAccess(Oracle10gRAC)SocketsBased

Access(IBMDB2)VariousMPIsAccesstoFileSystemsBlockStorageAccessIPBasedAppAccessApps&

Access

Methods

forusing

OFStackIB分層協(xié)議棧SRPMiniportStorPortSDP**SDPSPI**ApplicationsUserKernelWindowsApplicationsOFWindowsHardware*WindowsComputeClusterServer2003**WillbeavailableinthefutureWSDSANProviderManagementToolsHCAHardwareAccessLayerVerbsProviderDriverVerbsProviderLibraryAccessLayerLibraryKernelBypassWinsockSocketSwitchWinSockProviderMPI2*IPoIBNDISTCP/UDP/ICMPIPVNIC**SocketsDirectProtocol(SDP)&

ReliableDatagramSockets(RDS)HostChannelAdapterOpenIBAccessLayerIPoIBIPOracle10gSocketApplicationsTCPUDPSDPRDSKernelUserUDPApplicationsIPoIBIPoIBPacketFormatIPoIB子網(wǎng)視圖每個端結(jié)點HCA的每個IB端口都分配一個獨立的IP地址,支持IPv4/v6地址格式結(jié)點間通信,可使用IP地址標識

Node

DIPdIPs

NodeAAIPa

IPpIPrIPcNode

CIPqIPbNode

BIBswitchednetworkIPoIBUDbroadcastdomainIPoIBConnectednetworkFCoIBIB網(wǎng)到FC網(wǎng)之間采用透明網(wǎng)橋GatewayHostFibreChannelHostHostInfiniBandFCoverIBGatewayModelNPIVN_PortsFCBeginsHerePhysicalView:HandlinginitiatorsloginsActsasanNPIVN_PortReflectsF_LOGIasF_DISCVirtualizedServerLogicalView:NPIVHBAFibre

ChannelHostHostHostFCoIBtoFC

GatewayFibre

ChannelInfiniBand“PCIeextension”FCoIBGateway–StatelessPacketRelayIBtoFCStripIBheadersPayloadcontainsentireFCframeFCtoIBD_IDlookuptoretrieveaddressing{LID,QPN,etc.}EncapsulateFCframeasUDpayloadIBCRCIBHeadersFCFrameFCFrameIBCRCIBHeadersFCFrameFCFrame內(nèi)容提要超級計算機系統(tǒng)及其互連結(jié)構(gòu)Infiniband互連網(wǎng)絡(luò)的體系結(jié)構(gòu)在HPC中的典型互連架構(gòu)及應(yīng)用IB網(wǎng)絡(luò)優(yōu)化技術(shù)未來展望典型的IB交換機實現(xiàn)結(jié)構(gòu)(1)9xFabricBoards(singleanddoubledense)2xFanUnits6xPowerSupplies2xManagementBoards18xLineBoards19U典型的IB交換機實現(xiàn)結(jié)構(gòu)(2)兩級胖樹結(jié)構(gòu)或者“折疊的clos網(wǎng)絡(luò)”L2L118IB網(wǎng)絡(luò)拓撲Topologiesthataremainlyinuseforlargeclusters?Fat-Tree?3DTorus?MashIB網(wǎng)絡(luò)拓撲3DTorusAnoversubscribednetwork,easiertoscaleFitmoreapplicationswithlocalityIB網(wǎng)絡(luò)拓撲Fat-tree(alsoknownasCBB)Flatnetwork,canbesetasoversubscribednetworkornotInotherwords,blockingornonblocking?Typicallythelowestlatencynetwork胖樹結(jié)構(gòu)是互連已知硬件數(shù)量的一種通用方法。胖樹相對傳統(tǒng)樹,越靠近根部帶寬越大。如果要使網(wǎng)絡(luò)是非阻塞的,每層的總帶寬都要相同。胖樹結(jié)構(gòu)常用的IB網(wǎng)絡(luò)拓撲結(jié)構(gòu)利用多個“IB交換機”構(gòu)造大規(guī)模IB網(wǎng)絡(luò)每個IB交換機內(nèi)部是胖樹結(jié)構(gòu)64NodeClusterusingbladesandShark-GTs972NodeFullCBBusingShark/Orca(max11,664)Core

Fabric8xSFSTS740

288portseachEdge256xTS120

24-portseach18ComputeNodes)18ComputeNodes)8192Processor60TFlopSuperCluster2048uplinks

(7m/10m/15m/20m)RealDeploymentsToday:WallStreetBankwith512NodeGridSANLAN296-port

TS-2702324-port

TS-120512ServerNodes2TS-360w/EthernetandFibreChannelGatewaysCoreFabricEdgeFabricGRIDI/OExistingNetworksFibreChannelandGigEconnectivitybuiltseamlesslyintothecluster520DualCPUNodes

1,040CPUsNCSA

NationalCenterforSupercomputingApplicationsTungsten2:520NodeSupercomputerCoreFabricEdgeFabric672-port

TS2702924-port

TS120174uplink

cables5121m

cables18ComputeNodes18ComputeNodesParallelMPIcodesforcommercialclientsPointtopoint5.2usMPIlatencyDeployed:November20041,066NodeSuperComputerFaultTolerantCoreFabricEdgeFabric1296-port

TS-2708924-port

TS-1201,0685m/7m/10m/15m

uplinkcables1,0661m

cables12ComputeNodes12ComputeNodes1,066FullyNon-BlockingFaultTolerantIBCluster1Direct-attachstorageServerswithunusedstorage,uncontrolledgrowthStoragededicatedtooneserverDecentralizedbackup2FibreChannelSANsEliminatesislandsofstorageIncreasesutilizationandavailabilityHighestperformancelevels6FibreChanneloverEthernetConvergesLANandSANtrafficonsinglelinkLowersoperationalcosts(cablingandConvergedNetworkAdapters)Scalabilityforvirtualenvironments4iSCSI/NASConsolidatessmallorisolatedserversOfferslow-costserverattachmentNASisidealforfilesandunstructureddataFCIP/iFCPConnectsgeographicallydispersedSANsLowcostandeasytodeployfordisasterrecoverysolutions35InfinibandLowlatency,highbandwidthIdealforhigh-performancecomputing(HPC)當前的網(wǎng)絡(luò)存儲技術(shù)NewNetworkedstorageFibreChannelSAN2MainframeServersVMware1Rack-mountedserverswithCNAs6FibreChanneloverEthernet4iSCSI/NASRemote/isolatedservers3FCIP/iFCPDisasterrecoverysite5InfinibandServerNetworkHPC典型IO互聯(lián)架構(gòu)SANServerFabricLAN/WANServerClusterFibreChanneltoInfiniBandgatewayforstorageaccessEthernettoInfiniBandgatewayforLANaccessSingleInfiniBandlinkfor:-Storage-NetworkSAN/NAS存儲結(jié)構(gòu)ManagementConsoleSANNASNASNAStape數(shù)據(jù)中心的IO加速內(nèi)容提要超級計算機系統(tǒng)及其互連結(jié)構(gòu)Infiniband互連網(wǎng)絡(luò)的體系結(jié)構(gòu)在HPC中的典型互連架構(gòu)及應(yīng)用IB網(wǎng)絡(luò)優(yōu)化技術(shù)未來展望有效的IB通信優(yōu)化方法GPUDirectCORE-DirectOffloadingCongestionControlAdaptiveRoutingManagementMessagingAccelerationsAdvancedAuto-negotiationMPIIB網(wǎng)絡(luò)中典型的MPI通信性能IB網(wǎng)絡(luò)路由和擁塞控制通過子網(wǎng)管理器SM(軟件)集中管理每個節(jié)點(host和switch)駐留管理代理SMA,與SM交換信息,實現(xiàn)路由和擁塞控制功能路由算法尋徑過程,為兩個機器之間選擇一條通信路徑。目標:最小代價(最小跳步數(shù))無死鎖、活鎖平衡網(wǎng)絡(luò)流量負載避免擁塞,避免通信“熱點”競爭網(wǎng)絡(luò)拓撲規(guī)則網(wǎng)絡(luò)網(wǎng)絡(luò)具有規(guī)則的拓撲圖結(jié)構(gòu)(ring,meshes,Fat-tree,hypercube,etc)易于優(yōu)化不規(guī)則網(wǎng)絡(luò)不規(guī)則的網(wǎng)絡(luò)圖形狀拓撲發(fā)現(xiàn)比較關(guān)鍵需要精心設(shè)計路由算法,保證無死鎖路由算法的分類:

oblivious和adaptiveOblivious(確定性路由)為每個源和目的對分配一個路由,而不考慮網(wǎng)絡(luò)流量。這種路由具有一定的吸引力attractive,因為其路由可以事先計算出來,盡管計算的代價可能很高。Adaptive(自適應(yīng)路由)力圖根據(jù)當前流量來調(diào)節(jié)節(jié)點間的路由。這種路由能夠?qū)θ志W(wǎng)絡(luò)的通信狀況迅速作出反應(yīng),并實時改變路徑以達到流量均衡的目的,通常會使用快速但并非最優(yōu)化的算法來實現(xiàn)。IB網(wǎng)絡(luò)路

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論