InfiniBand高速網(wǎng)絡(luò)互連技術(shù)

上傳人：3*** IP屬地：湖北上傳時(shí)間：2023-01-12 格式：PPT 頁數(shù)：159 大小：14.62MB 積分：30 舉報(bào) 版權(quán)申訴

已閱讀5頁，還剩154頁未讀，繼續(xù)免費(fèi)閱讀

版權(quán)說明：本文檔由用戶提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

InfiniBand高速網(wǎng)絡(luò)互連技術(shù)清風(fēng)明月2012年5月內(nèi)容提要超級(jí)計(jì)算機(jī)系統(tǒng)及其互連結(jié)構(gòu)Infiniband互連網(wǎng)絡(luò)的體系結(jié)構(gòu)在HPC中的典型互連架構(gòu)及應(yīng)用IB網(wǎng)絡(luò)優(yōu)化技術(shù)未來展望Lecture1Lecture2內(nèi)容提要超級(jí)計(jì)算機(jī)系統(tǒng)及其互連結(jié)構(gòu)Infiniband互連網(wǎng)絡(luò)的體系結(jié)構(gòu)在HPC中的典型互連架構(gòu)及應(yīng)用IB網(wǎng)絡(luò)優(yōu)化技術(shù)未來展望國際超級(jí)計(jì)算機(jī)500強(qiáng)排名(TOP500)?是美國田納西大學(xué)、伯克利NERSC實(shí)驗(yàn)室和德國曼海姆大學(xué)一些專家為評(píng)價(jià)世界超級(jí)計(jì)算機(jī)性能而搞的民間學(xué)術(shù)活動(dòng)，每年2次排出世界上實(shí)際運(yùn)行速度最快的前500臺(tái)計(jì)算機(jī)。(6月、11月)?排名的依據(jù)是線性代數(shù)軟件包Linpack的實(shí)際測試數(shù)據(jù)，而峰值浮點(diǎn)運(yùn)算速度作為參考值列出。Linpack基準(zhǔn)測試程序是一個(gè)可以分解和解答線性方程和線性最小平方問題的Fortran子程序集.于20世紀(jì)70年代到80年代初為超級(jí)計(jì)算機(jī)而設(shè)計(jì)測試出的最高性能指標(biāo)作為衡量機(jī)器性能的標(biāo)準(zhǔn)4TOP500分析中國TOP100總Linpack性能達(dá)到11.85Pflops(2010年6.3PFlops)，是2010年的1.88倍;跟全球TOP500相比，2011年6月全球TOP500排行榜第一名被日本的K-Computer奪得，2010年11月TOP500第一名的天河1A降為世界第二，但中國的機(jī)器份額首次取得第二名,僅次于美國;國家超級(jí)計(jì)算天津中心以國防科大天河1A再次蟬聯(lián)中國TOP100第一名，Linpack性能2.57PFlops，峰值4.7PFlops;國家超級(jí)計(jì)算濟(jì)南中心以國家并行計(jì)算機(jī)工程技術(shù)研究中心全國產(chǎn)神威藍(lán)光力奪得中國TOP100第二名，Linpack性能795.9TFlops，峰值1.07PFlops，神威藍(lán)光是我國歷史上首臺(tái)全國產(chǎn)的千萬億次超級(jí)計(jì)算機(jī);國家超級(jí)計(jì)算長沙中心以國防科大天河1A-HN力奪中國TOP100第三名，Linpack性能771.7TFlops，峰值1.34PFlops。全部機(jī)器的Linpack性能超過22.1Tflops是2010年9.6TFlops的2.3倍,比去年的1.41倍大幅提升。全部系統(tǒng)的峰值超過25.6TFlops，是2010年11TFlops的2.33倍，比去年的1.36倍大幅提升;排名前三的機(jī)器兩套是CPU+GPU異構(gòu)MPP;97個(gè)(2010年98個(gè))系統(tǒng)都是機(jī)群架構(gòu)，機(jī)群繼續(xù)占據(jù)主導(dǎo)地位，在前10名里4臺(tái)是CPU+GPU體系架構(gòu)，在TOP100中共有13套CPU+GPU異構(gòu)機(jī)群。近3年來的TOP5超級(jí)計(jì)算機(jī)系統(tǒng)2009年2010年2011年Rank1美洲虎CrayXT5-HENUDTTH-1AKcomputerRank2IBMBladeCenter美洲虎CrayXT5-HENUDTTH-1ARank3CrayXT5-HE曙光“星云”美洲虎CrayXT5-HERank4IBM藍(lán)色基因HPProLiant曙光“星云”Rank5NUDTTH-1CrayXE6HPProLiantNo1:KComputer日本理化研究所(RIKEN)高級(jí)計(jì)算科學(xué)研究院(AICS)和富士通共同研制每秒運(yùn)算速度超越1億億次大關(guān)。Linpack測試的最大計(jì)算性能達(dá)到了10.51PFlops，也就是每秒鐘1.051億億次浮點(diǎn)計(jì)算，這也是人類首次跨越1億億次計(jì)算大關(guān)。采用的處理器是富士通制造的SPARC64VIIIfx，八核心，主頻2.0GHz，二級(jí)緩存6MB，熱設(shè)計(jì)功耗58W，峰值浮點(diǎn)性能128GFlops。為了獲得更高性能，富士通還在其中加入了一系列高性能集群計(jì)算擴(kuò)展，可以有效管理其共享二級(jí)緩存，并支持SIMD、每核心256位浮點(diǎn)寄存器、高級(jí)核心間硬件同步等等。處理器數(shù)量是88128顆，核心數(shù)量為705024個(gè)，占據(jù)864個(gè)機(jī)柜。這些處理器通過名為“豆腐”(Tofu)的特殊6-Dmesh/torus網(wǎng)絡(luò)連接在一起，帶寬5GB/s。同時(shí)，“京”的峰值計(jì)算性能也達(dá)到了11.28PFlops，執(zhí)行效率為驚人的93.2%

ASCISpringschool2012HenkCorporaal(8)KComputer:10.51Petaflop/sonLinpack705024SPARC64cores

(8perdie;45nm)(Fujitsudesign)Tofuinterconnect(6-Dtorus)12.7MegaWattKComputer的互連架構(gòu)6D-mesh/ToursNo2：天河-1A，國防科技大學(xué)這是超過美國橡樹嶺國家實(shí)驗(yàn)室產(chǎn)品高達(dá)40％的系統(tǒng)。達(dá)到每秒４７００萬億次的峰值性能和每秒２５０７萬億次的實(shí)測性能。14336顆英特爾六核至強(qiáng)X56702.93GHzCPU、7168顆NvidiaTeslaM2050GPU，以及2048顆自主研發(fā)的八核飛騰FT-1000處理器天河一號(hào)A將大規(guī)模并行GPU與多核CPU相結(jié)合，在性能、尺寸以及功耗等方面均取得了巨大進(jìn)步，是當(dāng)代異構(gòu)計(jì)算的典型代表。該系統(tǒng)采用了7168顆英偉達(dá)?（NVIDIA®）Tesla?M2050GPU以及14,336顆CPU。如果單純只使用CPU的話，要實(shí)現(xiàn)同等性能則需要50,000顆以上的CPU以及兩倍的占地面積。更重要的是，如果完全采用CPU打造，可實(shí)現(xiàn)2.507Petaflops（千萬億次）性能的系統(tǒng)將消耗1200萬瓦特的電力。多虧在異構(gòu)計(jì)算環(huán)境中運(yùn)用了GPU，天河一號(hào)A僅消耗404萬瓦特的電力，節(jié)能效果高達(dá)3倍。二者之間的功耗之差足夠滿足5000多戶居民一年的電力所需。三大突破“天河一號(hào)”除了使用了英特爾處理器，還首次在超級(jí)計(jì)算機(jī)中使用了2048個(gè)我國自主設(shè)計(jì)的處理器。這款名為“飛騰-1000”的64位CPU。它利用65納米技術(shù)設(shè)計(jì)生產(chǎn)，共有8個(gè)核心。中國首創(chuàng)了CPU和GPU融合并行的體系結(jié)構(gòu)。制造了先進(jìn)的通信芯片，設(shè)計(jì)了先進(jìn)的互聯(lián)結(jié)構(gòu)。160Gb/s，是國際上的商用IB的兩倍。13TH-1A互連架構(gòu)超級(jí)胖樹結(jié)構(gòu)NO.3Jaguar美洲虎,2.331Pflops

CrayXT5-HEOpteronSixCore2.6GHz,近25萬個(gè)內(nèi)核

美洲虎的3D-TorusCRAY超級(jí)計(jì)算機(jī)的RoadmapCrayXT5:1+PFLeadership-classsystemforscienceDARPAHPCS:20PFLeadership-classsystemFY2009FY2011FY2015FY2018Futuresystem:1EF100–250PF美洲虎NO.4曙光“星云”,2.9843PflopsInfiniband互連No14:神威藍(lán)光：全國產(chǎn)化的超級(jí)計(jì)算機(jī)問世該機(jī)器獲得科技部863計(jì)劃支持，由國家并行計(jì)算機(jī)工程技術(shù)研究中心制造，于2011年9月安裝于國家超算濟(jì)南中心，全部采用自主設(shè)計(jì)生產(chǎn)的CPU(ShenWeiprocessorSW1600)，系統(tǒng)共8704個(gè)CPU，峰值1.07016PFlops，持續(xù)性能795.9TFlops，Linpack效率74.37%，總功耗1074KW。國家超級(jí)計(jì)算濟(jì)南中心是科技部批準(zhǔn)成立的全國3個(gè)千萬億次超級(jí)計(jì)算中心之一，由山東省科學(xué)院計(jì)算中心負(fù)責(zé)建設(shè)、管理和運(yùn)營。是國內(nèi)首臺(tái)全部采用國產(chǎn)中央處理器（CPU）和系統(tǒng)軟件構(gòu)建的千萬億次計(jì)算機(jī)系統(tǒng)，標(biāo)志著我國成為繼美國、日本之后第三個(gè)能夠采用自主CPU構(gòu)建千萬億次計(jì)算機(jī)的國家。神威藍(lán)光擁有四大特點(diǎn)：全部采用國產(chǎn)的CPULinpack效率高達(dá)74.4%，而一般的千萬億次機(jī)都在50%左右采用液冷技術(shù)，節(jié)能高密度，在一個(gè)機(jī)倉（機(jī)柜）里可以裝入1024顆CPU，千萬億次規(guī)模僅需要9個(gè)這樣的機(jī)倉。計(jì)算機(jī)節(jié)點(diǎn)，在1U高的機(jī)箱中可以放入4個(gè)CPU板，每個(gè)板上可以裝兩顆16核的CPU。

這就是神威藍(lán)光的“心臟”：申威1600實(shí)物照在計(jì)算節(jié)點(diǎn)中采用液冷（據(jù)說是使用500元1噸的純凈水）設(shè)計(jì)也是神威藍(lán)光的一大技術(shù)特色，中間是鋁制液冷散熱板。國內(nèi)三大系統(tǒng)比較Totalcores:0Totalflop/s:0OpteronsocketRoadrunner（走鵑）

Part1:OpteronBladesOpteroncoreTotalcores:1Totalflop/s:3,600,000,000OpteroncoreTotalcores:2Totalflop/s:7,200,000,0001.8GHz3.6Gflop/s64+64KBL1cache2MBL2cacheTotalcores:2Totalflop/s:7,200,000,000Totalcores:4Totalflop/s:14,400,000,000LS21BladeRoadrunner（走鵑）

Part1:OpteronBladesOpteronsocketOpteroncoreOpteroncoreOpteronsocketOpteroncoreOpteroncore8GBDDR2memory10.7GB/s8GBDDR2memory10.7GB/sHyperTransport6.4+6.4GB/sTotalcores:2Totalflop/s:7,200,000,000Totalcores:4Totalflop/s:14,400,000,000Roadrunner（走鵑）

Part1:OpteronBladesRoadrunnerArchitecture

Part2:CellBladesQS22BladeFlexIO,25GB/s25.6GB/s4GBDDR2memory25.6GB/sPowerXCell8isocketEIB,204.8GB/sSPEcoreSPEcoreSPEcoreSPEcoreSPEcoreSPEcoreSPEcoreSPEcorePPEcorePowerXCell8isocketEIB,204.8GB/sSPEcoreSPEcoreSPEcoreSPEcoreSPEcoreSPEcoreSPEcoreSPEcorePPEcore4GBDDR2memoryRoadrunnerArchitecture

Part2:CellBladesRoadrunnerArchitecture

Part3:Nodes（Triblade=1*Opteron+2*cell）InfiniBand2:1fattreeHT2100HT2100InfiniBand4XDDRHTx166.4GB/sPCIex82GB/sIB2GB/sRoadrunnerArchitecture

Part4:ScalingOutBladeCenterBladeCenterBladeCenterBladeCenterComputeUnit(CU)RoadrunnerArchitecture

Part4:ScalingOutTotalcores:480Totalflop/s:5,395,200,000,000Totalcores:7,200Totalflop/s:80,928,000,000,000RoadrunnerArchitecture

Part4:ScalingOutTotalcores:7,200Totalflop/s:80,928,000,000,000RoadrunnerTotalcores:122,400Totalflop/s:1,375,776,000,000,000RoadrunnerArchitectureIBM計(jì)劃10萬萬億次HPC12倍于世界最快！今年預(yù)計(jì)BlueGene/Q“Sequoia”其峰值性能可達(dá)到20petaflops，而其升級(jí)版將是首個(gè)超過10萬萬億次浮點(diǎn)計(jì)算的超級(jí)計(jì)算機(jī)，達(dá)到107petaflops，是目前世界最快KComputer的12倍。Sequoia（紅杉）Sequoia超級(jí)計(jì)算機(jī)是IBM正在為LawrenceLivermore國家實(shí)驗(yàn)室研制的一種超級(jí)計(jì)算機(jī)，而這種計(jì)算機(jī)中使用的BlueGene/Q處理器就將采用IBM在HotChips大會(huì)上發(fā)表的論文中披露的這種新部件。Sequoia將在2012年完工，有望提供20petaFLOPs（peta＝1015）的強(qiáng)大性能。當(dāng)Sequoia完工時(shí)，這臺(tái)超級(jí)計(jì)算機(jī)可能成為世界上功能最強(qiáng)大的系統(tǒng)之一。計(jì)算機(jī)技術(shù)的發(fā)展自1946年以來，計(jì)算機(jī)近70年有了驚人的發(fā)展性能：（加法）速度提高了5個(gè)數(shù)量級(jí)計(jì)算機(jī)性能以大約每年35%的速度提高價(jià)格：今天$1000的機(jī)器相當(dāng)于60年代中$106的機(jī)器，這里同性能計(jì)算機(jī)的價(jià)格比，改善了３個(gè)數(shù)量級(jí)。處理器速度持續(xù)提高（廣度）從1971年第一顆微處理器Intel4004問世以來，40年間處理器芯片集成的晶體管數(shù)目從2300個(gè)發(fā)展到今天的數(shù)十億個(gè)，處理器頻率從不到1MHz發(fā)展到今天最高接近5GHz，與英特爾4004相比，如今下一代英特爾酷睿處理器的性能是其35萬倍，每個(gè)晶體管的能耗卻降低了5千倍。同期，晶體管的價(jià)格下降了約5萬倍。在30年間計(jì)算機(jī)系統(tǒng)的速度提高了6個(gè)數(shù)量級(jí)對(duì)計(jì)算能力的需求持續(xù)增長超級(jí)計(jì)算機(jī)的性能趨勢CAGR=1.91stPasadenaPetaflopsWorkshopGFlopsExaFlopsPetaFlopsTeraFlopsFigurecourtesyofPeterKogge超級(jí)計(jì)算機(jī)發(fā)展路線圖時(shí)間2020年2030年2050年器件CMOS納米量子器件量子、生物分子計(jì)算速度Exaflops(1018)Zettaflops(1021)>Yottaflops(1024)并行度>109-101011-10121013-1015內(nèi)存容量25PBEB(1018B)ZB(1021B)功耗40MWMWMW用途核聚變模擬蛋白質(zhì)折疊等地球模擬生命科學(xué)等MEMS優(yōu)化腦科學(xué)模擬等2010202020302050TOP500中的互連網(wǎng)絡(luò)統(tǒng)計(jì)TOP500Nov2011，IB占42%TOP10中有5家采用IB(4/5/7/9/10)TOP20中有8家TOP100中有55%采用IB基于GPU混合系統(tǒng)中有92%采用IBTOP100中的IO互連架構(gòu)統(tǒng)計(jì)在TOP100機(jī)器的IO互連中55%采用IBTop500中各種互連的趨勢圖典型商業(yè)互連網(wǎng)絡(luò)的性價(jià)比InfiniBand

PCI-Express10GigEGigEMyrinetDMyrinetEDataBandwidth

(LargeMessages)950MB/s900MB/s100MB/s245MB/s495MB/sMPILatency

(SmallMessages)5us50us50us6.5us5.7usHCACost

(StreetPrice)$550$2K-$5KFree$535$880SwitchPort$250$2K-$6K$100-$300$400$400CableCost

(3mStreetPrice)$100$100$25$175$175Top500中IB互連的趨勢圖內(nèi)容提要超級(jí)計(jì)算機(jī)系統(tǒng)及其互連結(jié)構(gòu)Infiniband互連網(wǎng)絡(luò)的體系結(jié)構(gòu)在HPC中的典型互連架構(gòu)及應(yīng)用IB網(wǎng)絡(luò)優(yōu)化技術(shù)未來展望為什么TOP500中有42%機(jī)器采用IB互連？高帶寬目前主流的單鏈路傳輸能力40Gbps，10GB以太網(wǎng)不可比擬超低延時(shí)應(yīng)用程序之間通信延時(shí)小于1us高可靠性、低誤碼率、自管理的網(wǎng)絡(luò)鏈路級(jí)流控?fù)砣刂艻B網(wǎng)絡(luò)組成HostChannelAdapters(HCA)TargetChannelAdapters(TCA)SwitchesRoutersIB網(wǎng)絡(luò)組成多個(gè)子網(wǎng)，每個(gè)子網(wǎng)是一個(gè)獨(dú)立的路由域子網(wǎng)之間通過交換機(jī)互連，一般的HPC只使用一個(gè)子網(wǎng)。IB網(wǎng)絡(luò)——硬件實(shí)體IB網(wǎng)絡(luò)——硬件實(shí)體Blade/Rack

ServersStorageSwitchSWITCH基于IB網(wǎng)絡(luò)構(gòu)建的Cluster系統(tǒng)CA（端結(jié)點(diǎn)-主機(jī)適配卡）兩種類型的CAHCA，通過IBverbs為用戶提供操作TCA，IBA未定義TCA接口語義CA是一個(gè)具備一定保護(hù)功能的可編程DMA引擎VirtualLane(VL)LocalID(LID)獨(dú)立的發(fā)送和接收緩沖區(qū)內(nèi)存翻譯和保護(hù)子網(wǎng)管理代理GUIDIB交換機(jī)（多端口交換）子網(wǎng)內(nèi)部路由設(shè)備交換機(jī)端口具備LID，

具有HCA特性。子網(wǎng)內(nèi)部的每個(gè)端口分配一個(gè)或多個(gè)唯一的LID通過報(bào)文LocalRouteHeader標(biāo)識(shí)目標(biāo)端口LID，交換機(jī)根據(jù)該地址信息交換到目標(biāo)端口提供單播和多播路由支持多路徑（負(fù)載均衡，鏈路容錯(cuò)）IB傳輸分層（對(duì)比TCP/IP）PhysicalLayer–LinkRateInfiniBand使用串行差分鏈路傳輸鏈路寬度1x–OnedifferentialpairperTx/Rx4x–FourdifferentialpairsperTx/Rx8x–EightdifferentialpairsperTx/Rx12x-TwelvedifferentialpairsperTxandperRx鏈路速度SingleDataRate(SDR)-2.5Gb/sperlane(10Gb/sfor4x)DoubleDataRate(DDR)-5Gb/sperlane(20Gb/sfor4x)QuadDataRate(QDR)-10Gb/sperlane(40Gb/sfor4x)FourteenDataRate(FDR)-14Gb/sperlane(56Gb/sfor4x)EnhancedDatarate(EDR)-25Gb/sperlane(100Gb/sfor4x)目前多采用4X鏈路PhysicalLayer–linkwidthLane的概念，1x即1lane，類似于PCIElane1xLink4xLink12xLinkIB物理鏈路速率歷程串行高帶寬鏈路SDR:10Gb/sHCAlinksDDR:20Gb/sHCAlinksQDR:40Gb/sHCAlinksFDR:56Gb/sHCAlinksEDR:100Gb/sHCAlinksPhysicalLayer–Cables&Connectors單個(gè)物理信道上復(fù)用多個(gè)虛擬鏈路信道LinkLayer–ProtocolMessage長度最大2GbyteMTU尺寸從256byte到最大4KbyteLinkLayer–Addressing每個(gè)節(jié)點(diǎn)（HCA端節(jié)點(diǎn)和交換機(jī)）必須擁有一個(gè)全局唯一的64位ID（GUID），類似于以太網(wǎng)MAC地址。同時(shí)，為了方便路由，在每個(gè)子網(wǎng)內(nèi)為節(jié)點(diǎn)分配一個(gè)本地ID(LID)-16bits，子網(wǎng)內(nèi)線性編號(hào)

GUIDGUIDGUIDGUIDGUIDGUIDGUIDGUIDLID=1LID=2LID=3LID=4LID=5LID=6LID=7LID=8IB通信協(xié)議的硬件實(shí)現(xiàn)原理TransportLayer–UsingQueuePairs發(fā)送和接收隊(duì)列是成對(duì)出現(xiàn)的。TransportLayer–隊(duì)列模型IB通信傳輸示例LinkLayer–FlowControl基于信用（Credit）的鏈路級(jí)流控反壓原理TransportLayer–ServicesProperties可靠與不可靠面向連接與數(shù)據(jù)報(bào)（非面向連接）服務(wù)分類服務(wù)類型面向連接是否應(yīng)答傳輸協(xié)議可靠鏈接是是IBA不可靠鏈接是否IBA可靠數(shù)據(jù)報(bào)否是IBA不可靠數(shù)據(jù)報(bào)否否IBA原始數(shù)據(jù)報(bào)否否RAW如何管理子網(wǎng)？IB網(wǎng)絡(luò)維持一個(gè)子網(wǎng)管理器SubnetManager(SM)是一個(gè)獨(dú)立軟件通過與每個(gè)節(jié)點(diǎn)上的子網(wǎng)管理代理通信的方式來管理子網(wǎng)子網(wǎng)管理和路由每個(gè)子網(wǎng)必須有一個(gè)子網(wǎng)管理器子網(wǎng)管理器的作用：管理IB網(wǎng)絡(luò)中的所有節(jié)點(diǎn)，包括端節(jié)點(diǎn)HCA和交換機(jī)SW子網(wǎng)網(wǎng)絡(luò)拓?fù)浒l(fā)現(xiàn)

為每個(gè)節(jié)點(diǎn)分配一個(gè)本地ID（LID），用于路由為交換機(jī)分配轉(zhuǎn)發(fā)表，用于網(wǎng)絡(luò)路由監(jiān)控子網(wǎng)狀態(tài)，當(dāng)網(wǎng)絡(luò)發(fā)生改變時(shí)負(fù)責(zé)重新分配路由表。維護(hù)網(wǎng)絡(luò)正常運(yùn)轉(zhuǎn)子網(wǎng)管理器SMSM是IB網(wǎng)絡(luò)中一個(gè)重要元素負(fù)責(zé)配置和管理交換機(jī)、路由器、HCA。SM可以被實(shí)現(xiàn)在HCA或者交換機(jī)等設(shè)備上。一個(gè)子網(wǎng)內(nèi)可以有多個(gè)SM，其中一個(gè)SM為主，其余為備份SM功能進(jìn)行子網(wǎng)拓?fù)浒l(fā)現(xiàn)產(chǎn)生子網(wǎng)前綴，為端口分配LID配置每個(gè)交換的LID，配置轉(zhuǎn)發(fā)表提供節(jié)點(diǎn)和服務(wù)的數(shù)據(jù)庫服務(wù)子網(wǎng)管理基礎(chǔ)—子網(wǎng)管理器（1）相對(duì)于以太網(wǎng)的分布式管理，在Infiniband網(wǎng)絡(luò)中，SM通過SMA對(duì)子網(wǎng)進(jìn)行集中管理。這種方式結(jié)構(gòu)簡單易于管理。為了防止單點(diǎn)失效問題，在Infiniband中可存在多個(gè)SM，一個(gè)主SM，多個(gè)備份SM。備份SM檢測到主SM死亡時(shí)，會(huì)選擇一個(gè)備份SM成為主SM，接管子網(wǎng)管理權(quán)。子網(wǎng)管理基礎(chǔ)—子網(wǎng)管理器（2）主SM是IB子網(wǎng)初始化和配置的關(guān)鍵因素。主SM的選擇也是初始化過程的一部分。主SM的主要作用是：發(fā)現(xiàn)子網(wǎng)的物理拓?fù)浣Y(jié)構(gòu)。為每個(gè)端節(jié)點(diǎn)，交換機(jī)和路由器分配本地標(biāo)識(shí)符LID。確定各端節(jié)點(diǎn)之間的合理路徑。掃描子網(wǎng)，發(fā)現(xiàn)拓?fù)涓淖兲幚砉?jié)點(diǎn)加入和節(jié)點(diǎn)刪除。子網(wǎng)管理基礎(chǔ)—子網(wǎng)管理器（3）子網(wǎng)探測主要是指在Infiniband子網(wǎng)初始化時(shí)，SM通過SMA獲得子網(wǎng)內(nèi)各節(jié)點(diǎn)信息。主要的信息就是各個(gè)節(jié)點(diǎn)的GUID，節(jié)點(diǎn)類型，端口信息以及各節(jié)點(diǎn)之間的連接關(guān)系。在子網(wǎng)初始化完畢后，SM還會(huì)定時(shí)的檢查網(wǎng)絡(luò)拓?fù)涫欠癜l(fā)生變化（某個(gè)交換機(jī)端口的狀態(tài)發(fā)生改變）。交換機(jī)檢測到自己的某個(gè)端口狀態(tài)發(fā)生改變，可以通過Trap機(jī)制主動(dòng)向SM報(bào)告拓?fù)涓淖?。子網(wǎng)探測子網(wǎng)發(fā)現(xiàn)的過程：子網(wǎng)啟動(dòng)時(shí)，SM發(fā)送包含Get方法的直接路由SMP，SMA收到后會(huì)響應(yīng)一個(gè)SMP，從而找到一個(gè)新的節(jié)點(diǎn)，然后SM通過這個(gè)新節(jié)點(diǎn)向外輻射只到找到所有的設(shè)備。子網(wǎng)探測—子網(wǎng)發(fā)現(xiàn)對(duì)于一個(gè)已經(jīng)初始化的子網(wǎng)，如果SM發(fā)現(xiàn)某一個(gè)交換機(jī)的一個(gè)端口的狀態(tài)從DOWN變?yōu)閁P，則說明有設(shè)備加入到子網(wǎng)中。子網(wǎng)探測—增加設(shè)備對(duì)于一個(gè)已經(jīng)初始化的子網(wǎng)，如果SM發(fā)現(xiàn)某一個(gè)交換機(jī)的一個(gè)端口的狀態(tài)從UP變?yōu)镈OWN，則說明有設(shè)備從子網(wǎng)中移除。子網(wǎng)探測—?jiǎng)h除設(shè)備在規(guī)范中，并沒有規(guī)定LID的分配規(guī)則，只要滿足上述的性質(zhì)即可。具體實(shí)現(xiàn)時(shí)，LID的分配與特定的路由算法有關(guān)。最簡單的分配方式是按照設(shè)備的發(fā)現(xiàn)順序，從1開始連續(xù)分配。LID分配路由計(jì)算主要是指SM在得到子網(wǎng)拓?fù)湟院?，確定每兩個(gè)節(jié)點(diǎn)之間的路徑的過程。SM將這個(gè)計(jì)算結(jié)果以轉(zhuǎn)發(fā)表的形式發(fā)布給交換機(jī)，使數(shù)據(jù)包沿著計(jì)算好的路徑傳遞。轉(zhuǎn)發(fā)表是一個(gè)[LID,PORT]組成的表，交換機(jī)接收到一個(gè)LID路由的數(shù)據(jù)包時(shí)，通過查找目的LID對(duì)應(yīng)的表項(xiàng)，從而確定應(yīng)該從那個(gè)端口轉(zhuǎn)發(fā)這個(gè)數(shù)據(jù)包。路由計(jì)算網(wǎng)絡(luò)拓?fù)浒l(fā)現(xiàn)過程由子網(wǎng)管理器（SM）發(fā)起從SM軟件駐留的節(jié)點(diǎn)開始，按照寬度優(yōu)先（BFS）、或深度優(yōu)先（DFS）方法逐個(gè)發(fā)現(xiàn)，將發(fā)現(xiàn)好的節(jié)點(diǎn)加入拓?fù)滏湵碇性谶M(jìn)行子網(wǎng)發(fā)現(xiàn)的過程中，為每個(gè)已發(fā)現(xiàn)的節(jié)點(diǎn)分配一個(gè)本地ID（LID），為后繼的路由做準(zhǔn)備網(wǎng)絡(luò)拓?fù)浒l(fā)現(xiàn)過程LID=1LID=2LID=3LID=4LID=5LID=6LID=7LID=8IB網(wǎng)絡(luò)路由過程–交換機(jī)內(nèi)部轉(zhuǎn)發(fā)機(jī)制LFT：LineralForwardTable（線性轉(zhuǎn)發(fā)表）首先，根據(jù)報(bào)文頭的SL查找SL-to-VL-Table（服務(wù)等級(jí)映射表），獲得該報(bào)文的轉(zhuǎn)發(fā)的VL通道。而后，根據(jù)目的DLID查找LFT線性轉(zhuǎn)發(fā)表，獲取下一跳的端口號(hào)。LFT(DLIDtoPort)IB網(wǎng)絡(luò)路由過程–尋徑過程SW2cn0cn1cn2cn3LID=2LID=3LID=4LID=5LID=6目的LID輸出端口1122536312341234目的LID輸出端口12225364SW1線性轉(zhuǎn)發(fā)表SW2線性轉(zhuǎn)發(fā)表LID=1SW1查表查表SM路由節(jié)點(diǎn)的添加和刪除子網(wǎng)管理器SM發(fā)現(xiàn)拓?fù)渥兓鲃?dòng)發(fā)現(xiàn)，通過子網(wǎng)掃描被動(dòng)發(fā)現(xiàn)，節(jié)點(diǎn)的代理軟件主動(dòng)上報(bào)自己的故障端口當(dāng)拓?fù)浒l(fā)生改變時(shí)，更新路由表IB網(wǎng)絡(luò)路由更新過程（1）SW2cn0cn1cn2cn3LID=2LID=3LID=4LID=5LID=6目的LID輸出端口1122536412341234目的LID輸出端口12225364SW1線性轉(zhuǎn)發(fā)表SW2線性轉(zhuǎn)發(fā)表LID=1SW1SMASMSMA鏈路故障報(bào)告IB網(wǎng)絡(luò)路由更新過程（2）SW2cn0cn1cn2cn3LID=2LID=3LID=4LID=5LID=6目的LID輸出端口1122536312341234目的LID輸出端口11215364SW1線性轉(zhuǎn)發(fā)表SW2線性轉(zhuǎn)發(fā)表LID=1SW1SMASMSMA更新轉(zhuǎn)發(fā)表IB分層協(xié)議棧由OpenFabric組織制定IB規(guī)范RDMANICR-NICHostChannelAdapterHCAUserDirectAccessProgrammingLibUDAPLReliableDatagramServiceRDSiSCSIRDMAProtocol(Initiator)iSERSCSIRDMAProtocol(Initiator)SRPSocketsDirectProtocolSDPIPoverInfiniBandIPoIBPerformanceManagerAgentPMASubnetManagerAgentSMAManagementDatagramMADSubnetAdministratorSACommonInfiniBandiWARPKeyInfiniBandHCAiWARPR-NICHardwareSpecificDriverHardwareSpecificDriverConnection

ManagerMADInfiniBandVerbs/APISA

ClientConnectionManagerConnectionManagerAbstraction(CMA)UserLevel

Verbs/APISDPIPoIBSRPiSERRDSUDAPLSDP

LibraryUserLevel

MADAPIOpen

SMDiagToolsHardwareProviderMid-LayerUpperLayerProtocolUser

APIsKernelSpaceUserSpaceNFS-RDMARPCClusterFileSysApplication

LevelSMAR-NICDriverAPIClusteredDBAccess(Oracle10gRAC)SocketsBased

Access(IBMDB2)VariousMPIsAccesstoFileSystemsBlockStorageAccessIPBasedAppAccessApps&

Access

Methods

forusing

OFStackIB分層協(xié)議棧SRPMiniportStorPortSDP**SDPSPI**ApplicationsUserKernelWindowsApplicationsOFWindowsHardware*WindowsComputeClusterServer2003**WillbeavailableinthefutureWSDSANProviderManagementToolsHCAHardwareAccessLayerVerbsProviderDriverVerbsProviderLibraryAccessLayerLibraryKernelBypassWinsockSocketSwitchWinSockProviderMPI2*IPoIBNDISTCP/UDP/ICMPIPVNIC**SocketsDirectProtocol(SDP)&

ReliableDatagramSockets(RDS)HostChannelAdapterOpenIBAccessLayerIPoIBIPOracle10gSocketApplicationsTCPUDPSDPRDSKernelUserUDPApplicationsIPoIBIPoIBPacketFormatIPoIB子網(wǎng)視圖每個(gè)端結(jié)點(diǎn)HCA的每個(gè)IB端口都分配一個(gè)獨(dú)立的IP地址，支持IPv4/v6地址格式結(jié)點(diǎn)間通信，可使用IP地址標(biāo)識(shí)

Node

DIPdIPs

NodeAAIPa

IPpIPrIPcNode

CIPqIPbNode

BIBswitchednetworkIPoIBUDbroadcastdomainIPoIBConnectednetworkFCoIBIB網(wǎng)到FC網(wǎng)之間采用透明網(wǎng)橋GatewayHostFibreChannelHostHostInfiniBandFCoverIBGatewayModelNPIVN_PortsFCBeginsHerePhysicalView:HandlinginitiatorsloginsActsasanNPIVN_PortReflectsF_LOGIasF_DISCVirtualizedServerLogicalView:NPIVHBAFibre

ChannelHostHostHostFCoIBtoFC

GatewayFibre

ChannelInfiniBand“PCIeextension”FCoIBGateway–StatelessPacketRelayIBtoFCStripIBheadersPayloadcontainsentireFCframeFCtoIBD_IDlookuptoretrieveaddressing{LID,QPN,etc.}EncapsulateFCframeasUDpayloadIBCRCIBHeadersFCFrameFCFrameIBCRCIBHeadersFCFrameFCFrame內(nèi)容提要超級(jí)計(jì)算機(jī)系統(tǒng)及其互連結(jié)構(gòu)Infiniband互連網(wǎng)絡(luò)的體系結(jié)構(gòu)在HPC中的典型互連架構(gòu)及應(yīng)用IB網(wǎng)絡(luò)優(yōu)化技術(shù)未來展望典型的IB交換機(jī)實(shí)現(xiàn)結(jié)構(gòu)（1）9xFabricBoards(singleanddoubledense)2xFanUnits6xPowerSupplies2xManagementBoards18xLineBoards19U典型的IB交換機(jī)實(shí)現(xiàn)結(jié)構(gòu)（2）兩級(jí)胖樹結(jié)構(gòu)或者“折疊的clos網(wǎng)絡(luò)”L2L118IB網(wǎng)絡(luò)拓?fù)銽opologiesthataremainlyinuseforlargeclusters?Fat-Tree?3DTorus?MashIB網(wǎng)絡(luò)拓?fù)?DTorusAnoversubscribednetwork,easiertoscaleFitmoreapplicationswithlocalityIB網(wǎng)絡(luò)拓?fù)銯at-tree(alsoknownasCBB)Flatnetwork,canbesetasoversubscribednetworkornotInotherwords,blockingornonblocking?Typicallythelowestlatencynetwork胖樹結(jié)構(gòu)是互連已知硬件數(shù)量的一種通用方法。胖樹相對(duì)傳統(tǒng)樹，越靠近根部帶寬越大。如果要使網(wǎng)絡(luò)是非阻塞的，每層的總帶寬都要相同。胖樹結(jié)構(gòu)常用的IB網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu)利用多個(gè)“IB交換機(jī)”構(gòu)造大規(guī)模IB網(wǎng)絡(luò)每個(gè)IB交換機(jī)內(nèi)部是胖樹結(jié)構(gòu)64NodeClusterusingbladesandShark-GTs972NodeFullCBBusingShark/Orca(max11,664)Core

Fabric8xSFSTS740

288portseachEdge256xTS120

24-portseach18ComputeNodes)18ComputeNodes)8192Processor60TFlopSuperCluster2048uplinks

(7m/10m/15m/20m)RealDeploymentsToday:WallStreetBankwith512NodeGridSANLAN296-port

TS-2702324-port

TS-120512ServerNodes2TS-360w/EthernetandFibreChannelGatewaysCoreFabricEdgeFabricGRIDI/OExistingNetworksFibreChannelandGigEconnectivitybuiltseamlesslyintothecluster520DualCPUNodes

1,040CPUsNCSA

NationalCenterforSupercomputingApplicationsTungsten2:520NodeSupercomputerCoreFabricEdgeFabric672-port

TS2702924-port

TS120174uplink

cables5121m

cables18ComputeNodes18ComputeNodesParallelMPIcodesforcommercialclientsPointtopoint5.2usMPIlatencyDeployed:November20041,066NodeSuperComputerFaultTolerantCoreFabricEdgeFabric1296-port

TS-2708924-port

TS-1201,0685m/7m/10m/15m

uplinkcables1,0661m

cables12ComputeNodes12ComputeNodes1,066FullyNon-BlockingFaultTolerantIBCluster1Direct-attachstorageServerswithunusedstorage,uncontrolledgrowthStoragededicatedtooneserverDecentralizedbackup2FibreChannelSANsEliminatesislandsofstorageIncreasesutilizationandavailabilityHighestperformancelevels6FibreChanneloverEthernetConvergesLANandSANtrafficonsinglelinkLowersoperationalcosts(cablingandConvergedNetworkAdapters)Scalabilityforvirtualenvironments4iSCSI/NASConsolidatessmallorisolatedserversOfferslow-costserverattachmentNASisidealforfilesandunstructureddataFCIP/iFCPConnectsgeographicallydispersedSANsLowcostandeasytodeployfordisasterrecoverysolutions35InfinibandLowlatency,highbandwidthIdealforhigh-performancecomputing(HPC)當(dāng)前的網(wǎng)絡(luò)存儲(chǔ)技術(shù)NewNetworkedstorageFibreChannelSAN2MainframeServersVMware1Rack-mountedserverswithCNAs6FibreChanneloverEthernet4iSCSI/NASRemote/isolatedservers3FCIP/iFCPDisasterrecoverysite5InfinibandServerNetworkHPC典型IO互聯(lián)架構(gòu)SANServerFabricLAN/WANServerClusterFibreChanneltoInfiniBandgatewayforstorageaccessEthernettoInfiniBandgatewayforLANaccessSingleInfiniBandlinkfor:-Storage-NetworkSAN/NAS存儲(chǔ)結(jié)構(gòu)ManagementConsoleSANNASNASNAStape數(shù)據(jù)中心的IO加速內(nèi)容提要超級(jí)計(jì)算機(jī)系統(tǒng)及其互連結(jié)構(gòu)Infiniband互連網(wǎng)絡(luò)的體系結(jié)構(gòu)在HPC中的典型互連架構(gòu)及應(yīng)用IB網(wǎng)絡(luò)優(yōu)化技術(shù)未來展望有效的IB通信優(yōu)化方法GPUDirectCORE-DirectOffloadingCongestionControlAdaptiveRoutingManagementMessagingAccelerationsAdvancedAuto-negotiationMPIIB網(wǎng)絡(luò)中典型的MPI通信性能IB網(wǎng)絡(luò)路由和擁塞控制通過子網(wǎng)管理器SM（軟件）集中管理每個(gè)節(jié)點(diǎn)（host和switch）駐留管理代理SMA，與SM交換信息，實(shí)現(xiàn)路由和擁塞控制功能路由算法尋徑過程，為兩個(gè)機(jī)器之間選擇一條通信路徑。目標(biāo)：最小代價(jià)(最小跳步數(shù))無死鎖、活鎖平衡網(wǎng)絡(luò)流量負(fù)載避免擁塞，避免通信“熱點(diǎn)”競爭網(wǎng)絡(luò)拓?fù)湟?guī)則網(wǎng)絡(luò)網(wǎng)絡(luò)具有規(guī)則的拓?fù)鋱D結(jié)構(gòu)(ring,meshes,Fat-tree，hypercube,etc)易于優(yōu)化不規(guī)則網(wǎng)絡(luò)不規(guī)則的網(wǎng)絡(luò)圖形狀拓?fù)浒l(fā)現(xiàn)比較關(guān)鍵需要精心設(shè)計(jì)路由算法，保證無死鎖路由算法的分類：

oblivious和adaptiveOblivious（確定性路由）為每個(gè)源和目的對(duì)分配一個(gè)路由，而不考慮網(wǎng)絡(luò)流量。這種路由具有一定的吸引力attractive，因?yàn)槠渎酚煽梢允孪扔?jì)算出來，盡管計(jì)算的代價(jià)可能很高。Adaptive（自適應(yīng)路由）力圖根據(jù)當(dāng)前流量來調(diào)節(jié)節(jié)點(diǎn)間的路由。這種路由能夠?qū)θ志W(wǎng)絡(luò)的通信狀況迅速作出反應(yīng)，并實(shí)時(shí)改變路徑以達(dá)到流量均衡的目的，通常會(huì)使用快速但并非最優(yōu)化的算法來實(shí)現(xiàn)。IB網(wǎng)絡(luò)路

人人文庫> 全部分類> 教育資料 > 備課教案

溫馨提示

1. 本站所有資源如無特殊說明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽，若沒有圖紙預(yù)覽就沒有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間，僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理，對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容，請與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

InfiniBand高速網(wǎng)絡(luò)互連技術(shù)

文檔簡介

溫馨提示

最新文檔

評(píng)論

InfiniBand高速網(wǎng)絡(luò)互連技術(shù)

文檔簡介

溫馨提示

最新文檔

評(píng)論

相關(guān)文檔