InfiniBand高速網(wǎng)絡(luò)互連技術(shù)_第1頁(yè)
InfiniBand高速網(wǎng)絡(luò)互連技術(shù)_第2頁(yè)
InfiniBand高速網(wǎng)絡(luò)互連技術(shù)_第3頁(yè)
InfiniBand高速網(wǎng)絡(luò)互連技術(shù)_第4頁(yè)
InfiniBand高速網(wǎng)絡(luò)互連技術(shù)_第5頁(yè)
已閱讀5頁(yè),還剩153頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

內(nèi)容提要超級(jí)計(jì)算機(jī)系統(tǒng)及其互連結(jié)構(gòu)Infiniband互連網(wǎng)絡(luò)的體系結(jié)構(gòu)在HPC中的典型互連架構(gòu)及應(yīng)用IB網(wǎng)絡(luò)優(yōu)化技術(shù)未來(lái)展望Lecture1Lecture2目前一頁(yè)\總數(shù)一百五十八頁(yè)\編于十四點(diǎn)內(nèi)容提要超級(jí)計(jì)算機(jī)系統(tǒng)及其互連結(jié)構(gòu)Infiniband互連網(wǎng)絡(luò)的體系結(jié)構(gòu)在HPC中的典型互連架構(gòu)及應(yīng)用IB網(wǎng)絡(luò)優(yōu)化技術(shù)未來(lái)展望目前二頁(yè)\總數(shù)一百五十八頁(yè)\編于十四點(diǎn)國(guó)際超級(jí)計(jì)算機(jī)500強(qiáng)排名(TOP500)?是美國(guó)田納西大學(xué)、伯克利NERSC實(shí)驗(yàn)室和德國(guó)曼海姆大學(xué)一些專家為評(píng)價(jià)世界超級(jí)計(jì)算機(jī)性能而搞的民間學(xué)術(shù)活動(dòng),每年2次排出世界上實(shí)際運(yùn)行速度最快的前500臺(tái)計(jì)算機(jī)。(6月、11月)?排名的依據(jù)是線性代數(shù)軟件包Linpack的實(shí)際測(cè)試數(shù)據(jù),而峰值浮點(diǎn)運(yùn)算速度作為參考值列出。Linpack基準(zhǔn)測(cè)試程序是一個(gè)可以分解和解答線性方程和線性最小平方問(wèn)題的Fortran子程序集.于20世紀(jì)70年代到80年代初為超級(jí)計(jì)算機(jī)而設(shè)計(jì)測(cè)試出的最高性能指標(biāo)作為衡量機(jī)器性能的標(biāo)準(zhǔn)3目前三頁(yè)\總數(shù)一百五十八頁(yè)\編于十四點(diǎn)TOP500分析中國(guó)TOP100總Linpack性能達(dá)到11.85Pflops(2010年6.3PFlops),是2010年的1.88倍;跟全球TOP500相比,2011年6月全球TOP500排行榜第一名被日本的K-Computer奪得,2010年11月TOP500第一名的天河1A降為世界第二,但中國(guó)的機(jī)器份額首次取得第二名,僅次于美國(guó);國(guó)家超級(jí)計(jì)算天津中心以國(guó)防科大天河1A再次蟬聯(lián)中國(guó)TOP100第一名,Linpack性能2.57PFlops,峰值4.7PFlops;國(guó)家超級(jí)計(jì)算濟(jì)南中心以國(guó)家并行計(jì)算機(jī)工程技術(shù)研究中心全國(guó)產(chǎn)神威藍(lán)光力奪得中國(guó)TOP100第二名,Linpack性能795.9TFlops,峰值1.07PFlops,神威藍(lán)光是我國(guó)歷史上首臺(tái)全國(guó)產(chǎn)的千萬(wàn)億次超級(jí)計(jì)算機(jī);國(guó)家超級(jí)計(jì)算長(zhǎng)沙中心以國(guó)防科大天河1A-HN力奪中國(guó)TOP100第三名,Linpack性能771.7TFlops,峰值1.34PFlops。全部機(jī)器的Linpack性能超過(guò)22.1Tflops是2010年9.6TFlops的2.3倍,比去年的1.41倍大幅提升。全部系統(tǒng)的峰值超過(guò)25.6TFlops,是2010年11TFlops的2.33倍,比去年的1.36倍大幅提升;排名前三的機(jī)器兩套是CPU+GPU異構(gòu)MPP;97個(gè)(2010年98個(gè))系統(tǒng)都是機(jī)群架構(gòu),機(jī)群繼續(xù)占據(jù)主導(dǎo)地位,在前10名里4臺(tái)是CPU+GPU體系架構(gòu),在TOP100中共有13套CPU+GPU異構(gòu)機(jī)群。目前四頁(yè)\總數(shù)一百五十八頁(yè)\編于十四點(diǎn)近3年來(lái)的TOP5超級(jí)計(jì)算機(jī)系統(tǒng)2009年2010年2011年Rank1美洲虎CrayXT5-HENUDTTH-1AKcomputerRank2IBMBladeCenter美洲虎CrayXT5-HENUDTTH-1ARank3CrayXT5-HE曙光“星云”美洲虎CrayXT5-HERank4IBM藍(lán)色基因HPProLiant曙光“星云”Rank5NUDTTH-1CrayXE6HPProLiant目前五頁(yè)\總數(shù)一百五十八頁(yè)\編于十四點(diǎn)No1:KComputer日本理化研究所(RIKEN)高級(jí)計(jì)算科學(xué)研究院(AICS)和富士通共同研制每秒運(yùn)算速度超越1億億次大關(guān)。Linpack測(cè)試的最大計(jì)算性能達(dá)到了10.51PFlops,也就是每秒鐘1.051億億次浮點(diǎn)計(jì)算,這也是人類首次跨越1億億次計(jì)算大關(guān)。采用的處理器是富士通制造的SPARC64VIIIfx,八核心,主頻2.0GHz,二級(jí)緩存6MB,熱設(shè)計(jì)功耗58W,峰值浮點(diǎn)性能128GFlops。為了獲得更高性能,富士通還在其中加入了一系列高性能集群計(jì)算擴(kuò)展,可以有效管理其共享二級(jí)緩存,并支持SIMD、每核心256位浮點(diǎn)寄存器、高級(jí)核心間硬件同步等等。處理器數(shù)量是88128顆,核心數(shù)量為705024個(gè),占據(jù)864個(gè)機(jī)柜。這些處理器通過(guò)名為“豆腐”(Tofu)的特殊6-Dmesh/torus網(wǎng)絡(luò)連接在一起,帶寬5GB/s。同時(shí),“京”的峰值計(jì)算性能也達(dá)到了11.28PFlops,執(zhí)行效率為驚人的93.2%

目前六頁(yè)\總數(shù)一百五十八頁(yè)\編于十四點(diǎn)KComputer:10.51Petaflop/sonLinpack705024SPARC64cores

(8perdie;45nm)(Fujitsudesign)Tofuinterconnect(6-Dtorus)12.7MegaWattASCISpringschool20127HenkCorporaal目前七頁(yè)\總數(shù)一百五十八頁(yè)\編于十四點(diǎn)KComputer的互連架構(gòu)6D-mesh/Tours目前八頁(yè)\總數(shù)一百五十八頁(yè)\編于十四點(diǎn)目前九頁(yè)\總數(shù)一百五十八頁(yè)\編于十四點(diǎn)No2:天河-1A,國(guó)防科技大學(xué)這是超過(guò)美國(guó)橡樹嶺國(guó)家實(shí)驗(yàn)室產(chǎn)品高達(dá)40%的系統(tǒng)。達(dá)到每秒4700萬(wàn)億次的峰值性能和每秒2507萬(wàn)億次的實(shí)測(cè)性能。14336顆英特爾六核至強(qiáng)X56702.93GHzCPU、7168顆NvidiaTeslaM2050GPU,以及2048顆自主研發(fā)的八核飛騰FT-1000處理器天河一號(hào)A將大規(guī)模并行GPU與多核CPU相結(jié)合,在性能、尺寸以及功耗等方面均取得了巨大進(jìn)步,是當(dāng)代異構(gòu)計(jì)算的典型代表。該系統(tǒng)采用了7168顆英偉達(dá)?(NVIDIA®)Tesla?M2050GPU以及14,336顆CPU。如果單純只使用CPU的話,要實(shí)現(xiàn)同等性能則需要50,000顆以上的CPU以及兩倍的占地面積。更重要的是,如果完全采用CPU打造,可實(shí)現(xiàn)2.507Petaflops(千萬(wàn)億次)性能的系統(tǒng)將消耗1200萬(wàn)瓦特的電力。多虧在異構(gòu)計(jì)算環(huán)境中運(yùn)用了GPU,天河一號(hào)A僅消耗404萬(wàn)瓦特的電力,節(jié)能效果高達(dá)3倍。二者之間的功耗之差足夠滿足5000多戶居民一年的電力所需。目前十頁(yè)\總數(shù)一百五十八頁(yè)\編于十四點(diǎn)目前十一頁(yè)\總數(shù)一百五十八頁(yè)\編于十四點(diǎn)三大突破“天河一號(hào)”除了使用了英特爾處理器,還首次在超級(jí)計(jì)算機(jī)中使用了2048個(gè)我國(guó)自主設(shè)計(jì)的處理器。這款名為“飛騰-1000”的64位CPU。它利用65納米技術(shù)設(shè)計(jì)生產(chǎn),共有8個(gè)核心。中國(guó)首創(chuàng)了CPU和GPU融合并行的體系結(jié)構(gòu)。制造了先進(jìn)的通信芯片,設(shè)計(jì)了先進(jìn)的互聯(lián)結(jié)構(gòu)。160Gb/s,是國(guó)際上的商用IB的兩倍。12目前十二頁(yè)\總數(shù)一百五十八頁(yè)\編于十四點(diǎn)TH-1A互連架構(gòu)超級(jí)胖樹結(jié)構(gòu)目前十三頁(yè)\總數(shù)一百五十八頁(yè)\編于十四點(diǎn)NO.3Jaguar美洲虎,2.331Pflops

CrayXT5-HEOpteronSixCore2.6GHz,近25萬(wàn)個(gè)內(nèi)核

目前十四頁(yè)\總數(shù)一百五十八頁(yè)\編于十四點(diǎn)美洲虎的3D-Torus目前十五頁(yè)\總數(shù)一百五十八頁(yè)\編于十四點(diǎn)目前十六頁(yè)\總數(shù)一百五十八頁(yè)\編于十四點(diǎn)CRAY超級(jí)計(jì)算機(jī)的RoadmapCrayXT5:1+PFLeadership-classsystemforscienceDARPAHPCS:20PFLeadership-classsystemFY2009FY2011FY2015FY2018Futuresystem:1EF100–250PF美洲虎目前十七頁(yè)\總數(shù)一百五十八頁(yè)\編于十四點(diǎn)NO.4曙光“星云”,2.9843PflopsInfiniband互連目前十八頁(yè)\總數(shù)一百五十八頁(yè)\編于十四點(diǎn)No14:神威藍(lán)光:全國(guó)產(chǎn)化的超級(jí)計(jì)算機(jī)問(wèn)世該機(jī)器獲得科技部863計(jì)劃支持,由國(guó)家并行計(jì)算機(jī)工程技術(shù)研究中心制造,于2011年9月安裝于國(guó)家超算濟(jì)南中心,全部采用自主設(shè)計(jì)生產(chǎn)的CPU(ShenWeiprocessorSW1600),系統(tǒng)共8704個(gè)CPU,峰值1.07016PFlops,持續(xù)性能795.9TFlops,Linpack效率74.37%,總功耗1074KW。國(guó)家超級(jí)計(jì)算濟(jì)南中心是科技部批準(zhǔn)成立的全國(guó)3個(gè)千萬(wàn)億次超級(jí)計(jì)算中心之一,由山東省科學(xué)院計(jì)算中心負(fù)責(zé)建設(shè)、管理和運(yùn)營(yíng)。是國(guó)內(nèi)首臺(tái)全部采用國(guó)產(chǎn)中央處理器(CPU)和系統(tǒng)軟件構(gòu)建的千萬(wàn)億次計(jì)算機(jī)系統(tǒng),標(biāo)志著我國(guó)成為繼美國(guó)、日本之后第三個(gè)能夠采用自主CPU構(gòu)建千萬(wàn)億次計(jì)算機(jī)的國(guó)家。目前十九頁(yè)\總數(shù)一百五十八頁(yè)\編于十四點(diǎn)目前二十頁(yè)\總數(shù)一百五十八頁(yè)\編于十四點(diǎn)目前二十一頁(yè)\總數(shù)一百五十八頁(yè)\編于十四點(diǎn)神威藍(lán)光擁有四大特點(diǎn):全部采用國(guó)產(chǎn)的CPULinpack效率高達(dá)74.4%,而一般的千萬(wàn)億次機(jī)都在50%左右采用液冷技術(shù),節(jié)能高密度,在一個(gè)機(jī)倉(cāng)(機(jī)柜)里可以裝入1024顆CPU,千萬(wàn)億次規(guī)模僅需要9個(gè)這樣的機(jī)倉(cāng)。目前二十二頁(yè)\總數(shù)一百五十八頁(yè)\編于十四點(diǎn)計(jì)算機(jī)節(jié)點(diǎn),在1U高的機(jī)箱中可以放入4個(gè)CPU板,每個(gè)板上可以裝兩顆16核的CPU。

這就是神威藍(lán)光的“心臟”:申威1600實(shí)物照在計(jì)算節(jié)點(diǎn)中采用液冷(據(jù)說(shuō)是使用500元1噸的純凈水)設(shè)計(jì)也是神威藍(lán)光的一大技術(shù)特色,中間是鋁制液冷散熱板。目前二十三頁(yè)\總數(shù)一百五十八頁(yè)\編于十四點(diǎn)國(guó)內(nèi)三大系統(tǒng)比較目前二十四頁(yè)\總數(shù)一百五十八頁(yè)\編于十四點(diǎn)Totalcores:0Totalflop/s:0OpteronsocketRoadrunner(走鵑)

Part1:OpteronBladesOpteroncoreTotalcores:1Totalflop/s:3,600,000,000OpteroncoreTotalcores:2Totalflop/s:7,200,000,0001.8GHz3.6Gflop/s64+64KBL1cache2MBL2cache目前二十五頁(yè)\總數(shù)一百五十八頁(yè)\編于十四點(diǎn)Totalcores:2Totalflop/s:7,200,000,000Totalcores:4Totalflop/s:14,400,000,000LS21BladeRoadrunner(走鵑)

Part1:OpteronBladesOpteronsocketOpteroncoreOpteroncoreOpteronsocketOpteroncoreOpteroncore8GBDDR2memory10.7GB/s8GBDDR2memory10.7GB/sHyperTransport6.4+6.4GB/s目前二十六頁(yè)\總數(shù)一百五十八頁(yè)\編于十四點(diǎn)Totalcores:2Totalflop/s:7,200,000,000Totalcores:4Totalflop/s:14,400,000,000Roadrunner(走鵑)

Part1:OpteronBlades目前二十七頁(yè)\總數(shù)一百五十八頁(yè)\編于十四點(diǎn)RoadrunnerArchitecture

Part2:CellBladesQS22BladeFlexIO,25GB/s25.6GB/s4GBDDR2memory25.6GB/sPowerXCell8isocketEIB,204.8GB/sSPEcoreSPEcoreSPEcoreSPEcoreSPEcoreSPEcoreSPEcoreSPEcorePPEcorePowerXCell8isocketEIB,204.8GB/sSPEcoreSPEcoreSPEcoreSPEcoreSPEcoreSPEcoreSPEcoreSPEcorePPEcore4GBDDR2memory目前二十八頁(yè)\總數(shù)一百五十八頁(yè)\編于十四點(diǎn)RoadrunnerArchitecture

Part2:CellBlades目前二十九頁(yè)\總數(shù)一百五十八頁(yè)\編于十四點(diǎn)RoadrunnerArchitecture

Part3:Nodes(Triblade=1*Opteron+2*cell)InfiniBand2:1fattreeHT2100HT2100InfiniBand4XDDRHTx166.4GB/sPCIex82GB/sIB2GB/s目前三十頁(yè)\總數(shù)一百五十八頁(yè)\編于十四點(diǎn)RoadrunnerArchitecture

Part4:ScalingOutBladeCenterBladeCenterBladeCenterBladeCenter目前三十一頁(yè)\總數(shù)一百五十八頁(yè)\編于十四點(diǎn)ComputeUnit(CU)RoadrunnerArchitecture

Part4:ScalingOutTotalcores:480Totalflop/s:5,395,200,000,000Totalcores:7,200Totalflop/s:80,928,000,000,000目前三十二頁(yè)\總數(shù)一百五十八頁(yè)\編于十四點(diǎn)RoadrunnerArchitecture

Part4:ScalingOutTotalcores:7,200Totalflop/s:80,928,000,000,000RoadrunnerTotalcores:122,400Totalflop/s:1,375,776,000,000,000目前三十三頁(yè)\總數(shù)一百五十八頁(yè)\編于十四點(diǎn)RoadrunnerArchitecture目前三十四頁(yè)\總數(shù)一百五十八頁(yè)\編于十四點(diǎn)IBM計(jì)劃10萬(wàn)萬(wàn)億次HPC12倍于世界最快!今年預(yù)計(jì)BlueGene/Q“Sequoia”其峰值性能可達(dá)到20petaflops,而其升級(jí)版將是首個(gè)超過(guò)10萬(wàn)萬(wàn)億次浮點(diǎn)計(jì)算的超級(jí)計(jì)算機(jī),達(dá)到107petaflops,是目前世界最快KComputer的12倍。目前三十五頁(yè)\總數(shù)一百五十八頁(yè)\編于十四點(diǎn)Sequoia(紅杉)Sequoia超級(jí)計(jì)算機(jī)是IBM正在為L(zhǎng)awrenceLivermore國(guó)家實(shí)驗(yàn)室研制的一種超級(jí)計(jì)算機(jī),而這種計(jì)算機(jī)中使用的BlueGene/Q處理器就將采用IBM在HotChips大會(huì)上發(fā)表的論文中披露的這種新部件。Sequoia將在2012年完工,有望提供20petaFLOPs(peta=1015)的強(qiáng)大性能。當(dāng)Sequoia完工時(shí),這臺(tái)超級(jí)計(jì)算機(jī)可能成為世界上功能最強(qiáng)大的系統(tǒng)之一。目前三十六頁(yè)\總數(shù)一百五十八頁(yè)\編于十四點(diǎn)計(jì)算機(jī)技術(shù)的發(fā)展自1946年以來(lái),計(jì)算機(jī)近70年有了驚人的發(fā)展性能:(加法)速度提高了5個(gè)數(shù)量級(jí)計(jì)算機(jī)性能以大約每年35%的速度提高價(jià)格:今天$1000的機(jī)器相當(dāng)于60年代中$106的機(jī)器,這里同性能計(jì)算機(jī)的價(jià)格比,改善了3個(gè)數(shù)量級(jí)。目前三十七頁(yè)\總數(shù)一百五十八頁(yè)\編于十四點(diǎn)處理器速度持續(xù)提高(廣度)從1971年第一顆微處理器Intel4004問(wèn)世以來(lái),40年間處理器芯片集成的晶體管數(shù)目從2300個(gè)發(fā)展到今天的數(shù)十億個(gè),處理器頻率從不到1MHz發(fā)展到今天最高接近5GHz,與英特爾4004相比,如今下一代英特爾酷睿處理器的性能是其35萬(wàn)倍,每個(gè)晶體管的能耗卻降低了5千倍。同期,晶體管的價(jià)格下降了約5萬(wàn)倍。目前三十八頁(yè)\總數(shù)一百五十八頁(yè)\編于十四點(diǎn)目前三十九頁(yè)\總數(shù)一百五十八頁(yè)\編于十四點(diǎn)在30年間計(jì)算機(jī)系統(tǒng)的速度提高了6個(gè)數(shù)量級(jí)目前四十頁(yè)\總數(shù)一百五十八頁(yè)\編于十四點(diǎn)對(duì)計(jì)算能力的需求持續(xù)增長(zhǎng)目前四十一頁(yè)\總數(shù)一百五十八頁(yè)\編于十四點(diǎn)目前四十二頁(yè)\總數(shù)一百五十八頁(yè)\編于十四點(diǎn)目前四十三頁(yè)\總數(shù)一百五十八頁(yè)\編于十四點(diǎn)超級(jí)計(jì)算機(jī)的性能趨勢(shì)CAGR=1.91stPasadenaPetaflopsWorkshopGFlopsExaFlopsPetaFlopsTeraFlopsFigurecourtesyofPeterKogge目前四十四頁(yè)\總數(shù)一百五十八頁(yè)\編于十四點(diǎn)目前四十五頁(yè)\總數(shù)一百五十八頁(yè)\編于十四點(diǎn)超級(jí)計(jì)算機(jī)發(fā)展路線圖時(shí)間2020年2030年2050年器件CMOS納米量子器件量子、生物分子計(jì)算速度Exaflops(1018)Zettaflops(1021)>Yottaflops(1024)并行度>109-101011-10121013-1015內(nèi)存容量25PBEB(1018B)ZB(1021B)功耗40MWMWMW用途核聚變模擬蛋白質(zhì)折疊等地球模擬生命科學(xué)等MEMS優(yōu)化腦科學(xué)模擬等2010202020302050目前四十六頁(yè)\總數(shù)一百五十八頁(yè)\編于十四點(diǎn)目前四十七頁(yè)\總數(shù)一百五十八頁(yè)\編于十四點(diǎn)目前四十八頁(yè)\總數(shù)一百五十八頁(yè)\編于十四點(diǎn)TOP500中的互連網(wǎng)絡(luò)統(tǒng)計(jì)TOP500Nov2011,IB占42%TOP10中有5家采用IB(4/5/7/9/10)TOP20中有8家TOP100中有55%采用IB基于GPU混合系統(tǒng)中有92%采用IB目前四十九頁(yè)\總數(shù)一百五十八頁(yè)\編于十四點(diǎn)TOP100中的IO互連架構(gòu)統(tǒng)計(jì)在TOP100機(jī)器的IO互連中55%采用IB目前五十頁(yè)\總數(shù)一百五十八頁(yè)\編于十四點(diǎn)Top500中各種互連的趨勢(shì)圖目前五十一頁(yè)\總數(shù)一百五十八頁(yè)\編于十四點(diǎn)典型商業(yè)互連網(wǎng)絡(luò)的性價(jià)比InfiniBand

PCI-Express10GigEGigEMyrinetDMyrinetEDataBandwidth

(LargeMessages)950MB/s900MB/s100MB/s245MB/s495MB/sMPILatency

(SmallMessages)5us50us50us6.5us5.7usHCACost

(StreetPrice)$550$2K-$5KFree$535$880SwitchPort$250$2K-$6K$100-$300$400$400CableCost

(3mStreetPrice)$100$100$25$175$175目前五十二頁(yè)\總數(shù)一百五十八頁(yè)\編于十四點(diǎn)Top500中IB互連的趨勢(shì)圖目前五十三頁(yè)\總數(shù)一百五十八頁(yè)\編于十四點(diǎn)內(nèi)容提要超級(jí)計(jì)算機(jī)系統(tǒng)及其互連結(jié)構(gòu)Infiniband互連網(wǎng)絡(luò)的體系結(jié)構(gòu)在HPC中的典型互連架構(gòu)及應(yīng)用IB網(wǎng)絡(luò)優(yōu)化技術(shù)未來(lái)展望目前五十四頁(yè)\總數(shù)一百五十八頁(yè)\編于十四點(diǎn)為什么TOP500中有42%機(jī)器采用IB互連?高帶寬目前主流的單鏈路傳輸能力40Gbps,10GB以太網(wǎng)不可比擬超低延時(shí)應(yīng)用程序之間通信延時(shí)小于1us高可靠性、低誤碼率、自管理的網(wǎng)絡(luò)鏈路級(jí)流控?fù)砣刂颇壳拔迨屙?yè)\總數(shù)一百五十八頁(yè)\編于十四點(diǎn)IB網(wǎng)絡(luò)組成HostChannelAdapters(HCA)TargetChannelAdapters(TCA)SwitchesRouters目前五十六頁(yè)\總數(shù)一百五十八頁(yè)\編于十四點(diǎn)IB網(wǎng)絡(luò)組成多個(gè)子網(wǎng),每個(gè)子網(wǎng)是一個(gè)獨(dú)立的路由域子網(wǎng)之間通過(guò)交換機(jī)互連,一般的HPC只使用一個(gè)子網(wǎng)。目前五十七頁(yè)\總數(shù)一百五十八頁(yè)\編于十四點(diǎn)IB網(wǎng)絡(luò)——硬件實(shí)體目前五十八頁(yè)\總數(shù)一百五十八頁(yè)\編于十四點(diǎn)IB網(wǎng)絡(luò)——硬件實(shí)體Blade/Rack

ServersStorageSwitchSWITCH目前五十九頁(yè)\總數(shù)一百五十八頁(yè)\編于十四點(diǎn)基于IB網(wǎng)絡(luò)構(gòu)建的Cluster系統(tǒng)目前六十頁(yè)\總數(shù)一百五十八頁(yè)\編于十四點(diǎn)CA(端結(jié)點(diǎn)-主機(jī)適配卡)兩種類型的CAHCA,通過(guò)IBverbs為用戶提供操作TCA,IBA未定義TCA接口語(yǔ)義CA是一個(gè)具備一定保護(hù)功能的可編程DMA引擎VirtualLane(VL)LocalID(LID)獨(dú)立的發(fā)送和接收緩沖區(qū)內(nèi)存翻譯和保護(hù)子網(wǎng)管理代理GUID目前六十一頁(yè)\總數(shù)一百五十八頁(yè)\編于十四點(diǎn)IB交換機(jī)(多端口交換)子網(wǎng)內(nèi)部路由設(shè)備交換機(jī)端口具備LID,

具有HCA特性。子網(wǎng)內(nèi)部的每個(gè)端口分配一個(gè)或多個(gè)唯一的LID通過(guò)報(bào)文LocalRouteHeader標(biāo)識(shí)目標(biāo)端口LID,交換機(jī)根據(jù)該地址信息交換到目標(biāo)端口提供單播和多播路由支持多路徑(負(fù)載均衡,鏈路容錯(cuò))目前六十二頁(yè)\總數(shù)一百五十八頁(yè)\編于十四點(diǎn)IB傳輸分層(對(duì)比TCP/IP)目前六十三頁(yè)\總數(shù)一百五十八頁(yè)\編于十四點(diǎn)目前六十四頁(yè)\總數(shù)一百五十八頁(yè)\編于十四點(diǎn)PhysicalLayer–LinkRateInfiniBand使用串行差分鏈路傳輸鏈路寬度1x–OnedifferentialpairperTx/Rx4x–FourdifferentialpairsperTx/Rx8x–EightdifferentialpairsperTx/Rx12x-TwelvedifferentialpairsperTxandperRx鏈路速度SingleDataRate(SDR)-2.5Gb/sperlane(10Gb/sfor4x)DoubleDataRate(DDR)-5Gb/sperlane(20Gb/sfor4x)QuadDataRate(QDR)-10Gb/sperlane(40Gb/sfor4x)FourteenDataRate(FDR)-14Gb/sperlane(56Gb/sfor4x)EnhancedDatarate(EDR)-25Gb/sperlane(100Gb/sfor4x)目前多采用4X鏈路目前六十五頁(yè)\總數(shù)一百五十八頁(yè)\編于十四點(diǎn)PhysicalLayer–linkwidthLane的概念,1x即1lane,類似于PCIElane1xLink4xLink12xLink目前六十六頁(yè)\總數(shù)一百五十八頁(yè)\編于十四點(diǎn)IB物理鏈路速率歷程串行高帶寬鏈路SDR:10Gb/sHCAlinksDDR:20Gb/sHCAlinksQDR:40Gb/sHCAlinksFDR:56Gb/sHCAlinksEDR:100Gb/sHCAlinks目前六十七頁(yè)\總數(shù)一百五十八頁(yè)\編于十四點(diǎn)PhysicalLayer–Cables&Connectors目前六十八頁(yè)\總數(shù)一百五十八頁(yè)\編于十四點(diǎn)單個(gè)物理信道上復(fù)用多個(gè)虛擬鏈路信道目前六十九頁(yè)\總數(shù)一百五十八頁(yè)\編于十四點(diǎn)LinkLayer–ProtocolMessage長(zhǎng)度最大2GbyteMTU尺寸從256byte到最大4Kbyte目前七十頁(yè)\總數(shù)一百五十八頁(yè)\編于十四點(diǎn)LinkLayer–Addressing每個(gè)節(jié)點(diǎn)(HCA端節(jié)點(diǎn)和交換機(jī))必須擁有一個(gè)全局唯一的64位ID(GUID),類似于以太網(wǎng)MAC地址。同時(shí),為了方便路由,在每個(gè)子網(wǎng)內(nèi)為節(jié)點(diǎn)分配一個(gè)本地ID(LID)-16bits,子網(wǎng)內(nèi)線性編號(hào)

GUIDGUIDGUIDGUIDGUIDGUIDGUIDGUIDLID=1LID=2LID=3LID=4LID=5LID=6LID=7LID=8目前七十一頁(yè)\總數(shù)一百五十八頁(yè)\編于十四點(diǎn)IB通信協(xié)議的硬件實(shí)現(xiàn)原理目前七十二頁(yè)\總數(shù)一百五十八頁(yè)\編于十四點(diǎn)TransportLayer–UsingQueuePairs發(fā)送和接收隊(duì)列是成對(duì)出現(xiàn)的。目前七十三頁(yè)\總數(shù)一百五十八頁(yè)\編于十四點(diǎn)TransportLayer–隊(duì)列模型目前七十四頁(yè)\總數(shù)一百五十八頁(yè)\編于十四點(diǎn)IB通信傳輸示例目前七十五頁(yè)\總數(shù)一百五十八頁(yè)\編于十四點(diǎn)LinkLayer–FlowControl基于信用(Credit)的鏈路級(jí)流控反壓原理目前七十六頁(yè)\總數(shù)一百五十八頁(yè)\編于十四點(diǎn)TransportLayer–ServicesProperties可靠與不可靠面向連接與數(shù)據(jù)報(bào)(非面向連接)目前七十七頁(yè)\總數(shù)一百五十八頁(yè)\編于十四點(diǎn)服務(wù)分類服務(wù)類型面向連接是否應(yīng)答傳輸協(xié)議可靠鏈接是是IBA不可靠鏈接是否IBA可靠數(shù)據(jù)報(bào)否是IBA不可靠數(shù)據(jù)報(bào)否否IBA原始數(shù)據(jù)報(bào)否否RAW目前七十八頁(yè)\總數(shù)一百五十八頁(yè)\編于十四點(diǎn)目前七十九頁(yè)\總數(shù)一百五十八頁(yè)\編于十四點(diǎn)如何管理子網(wǎng)?IB網(wǎng)絡(luò)維持一個(gè)子網(wǎng)管理器SubnetManager(SM)是一個(gè)獨(dú)立軟件通過(guò)與每個(gè)節(jié)點(diǎn)上的子網(wǎng)管理代理通信的方式來(lái)管理子網(wǎng)目前八十頁(yè)\總數(shù)一百五十八頁(yè)\編于十四點(diǎn)子網(wǎng)管理和路由每個(gè)子網(wǎng)必須有一個(gè)子網(wǎng)管理器子網(wǎng)管理器的作用:管理IB網(wǎng)絡(luò)中的所有節(jié)點(diǎn),包括端節(jié)點(diǎn)HCA和交換機(jī)SW子網(wǎng)網(wǎng)絡(luò)拓?fù)浒l(fā)現(xiàn)

為每個(gè)節(jié)點(diǎn)分配一個(gè)本地ID(LID),用于路由為交換機(jī)分配轉(zhuǎn)發(fā)表,用于網(wǎng)絡(luò)路由監(jiān)控子網(wǎng)狀態(tài),當(dāng)網(wǎng)絡(luò)發(fā)生改變時(shí)負(fù)責(zé)重新分配路由表。維護(hù)網(wǎng)絡(luò)正常運(yùn)轉(zhuǎn)目前八十一頁(yè)\總數(shù)一百五十八頁(yè)\編于十四點(diǎn)子網(wǎng)管理器SMSM是IB網(wǎng)絡(luò)中一個(gè)重要元素負(fù)責(zé)配置和管理交換機(jī)、路由器、HCA。SM可以被實(shí)現(xiàn)在HCA或者交換機(jī)等設(shè)備上。一個(gè)子網(wǎng)內(nèi)可以有多個(gè)SM,其中一個(gè)SM為主,其余為備份SM功能進(jìn)行子網(wǎng)拓?fù)浒l(fā)現(xiàn)產(chǎn)生子網(wǎng)前綴,為端口分配LID配置每個(gè)交換的LID,配置轉(zhuǎn)發(fā)表提供節(jié)點(diǎn)和服務(wù)的數(shù)據(jù)庫(kù)服務(wù)目前八十二頁(yè)\總數(shù)一百五十八頁(yè)\編于十四點(diǎn)目前八十三頁(yè)\總數(shù)一百五十八頁(yè)\編于十四點(diǎn)目前八十四頁(yè)\總數(shù)一百五十八頁(yè)\編于十四點(diǎn)子網(wǎng)管理基礎(chǔ)—子網(wǎng)管理器(1)相對(duì)于以太網(wǎng)的分布式管理,在Infiniband網(wǎng)絡(luò)中,SM通過(guò)SMA對(duì)子網(wǎng)進(jìn)行集中管理。這種方式結(jié)構(gòu)簡(jiǎn)單易于管理。為了防止單點(diǎn)失效問(wèn)題,在Infiniband中可存在多個(gè)SM,一個(gè)主SM,多個(gè)備份SM。備份SM檢測(cè)到主SM死亡時(shí),會(huì)選擇一個(gè)備份SM成為主SM,接管子網(wǎng)管理權(quán)。目前八十五頁(yè)\總數(shù)一百五十八頁(yè)\編于十四點(diǎn)子網(wǎng)管理基礎(chǔ)—子網(wǎng)管理器(2)目前八十六頁(yè)\總數(shù)一百五十八頁(yè)\編于十四點(diǎn)主SM是IB子網(wǎng)初始化和配置的關(guān)鍵因素。主SM的選擇也是初始化過(guò)程的一部分。主SM的主要作用是:發(fā)現(xiàn)子網(wǎng)的物理拓?fù)浣Y(jié)構(gòu)。為每個(gè)端節(jié)點(diǎn),交換機(jī)和路由器分配本地標(biāo)識(shí)符LID。確定各端節(jié)點(diǎn)之間的合理路徑。掃描子網(wǎng),發(fā)現(xiàn)拓?fù)涓淖兲幚砉?jié)點(diǎn)加入和節(jié)點(diǎn)刪除。子網(wǎng)管理基礎(chǔ)—子網(wǎng)管理器(3)目前八十七頁(yè)\總數(shù)一百五十八頁(yè)\編于十四點(diǎn)子網(wǎng)探測(cè)主要是指在Infiniband子網(wǎng)初始化時(shí),SM通過(guò)SMA獲得子網(wǎng)內(nèi)各節(jié)點(diǎn)信息。主要的信息就是各個(gè)節(jié)點(diǎn)的GUID,節(jié)點(diǎn)類型,端口信息以及各節(jié)點(diǎn)之間的連接關(guān)系。在子網(wǎng)初始化完畢后,SM還會(huì)定時(shí)的檢查網(wǎng)絡(luò)拓?fù)涫欠癜l(fā)生變化(某個(gè)交換機(jī)端口的狀態(tài)發(fā)生改變)。交換機(jī)檢測(cè)到自己的某個(gè)端口狀態(tài)發(fā)生改變,可以通過(guò)Trap機(jī)制主動(dòng)向SM報(bào)告拓?fù)涓淖?。子網(wǎng)探測(cè)目前八十八頁(yè)\總數(shù)一百五十八頁(yè)\編于十四點(diǎn)子網(wǎng)發(fā)現(xiàn)的過(guò)程:子網(wǎng)啟動(dòng)時(shí),SM發(fā)送包含Get方法的直接路由SMP,SMA收到后會(huì)響應(yīng)一個(gè)SMP,從而找到一個(gè)新的節(jié)點(diǎn),然后SM通過(guò)這個(gè)新節(jié)點(diǎn)向外輻射只到找到所有的設(shè)備。子網(wǎng)探測(cè)—子網(wǎng)發(fā)現(xiàn)目前八十九頁(yè)\總數(shù)一百五十八頁(yè)\編于十四點(diǎn)對(duì)于一個(gè)已經(jīng)初始化的子網(wǎng),如果SM發(fā)現(xiàn)某一個(gè)交換機(jī)的一個(gè)端口的狀態(tài)從DOWN變?yōu)閁P,則說(shuō)明有設(shè)備加入到子網(wǎng)中。子網(wǎng)探測(cè)—增加設(shè)備目前九十頁(yè)\總數(shù)一百五十八頁(yè)\編于十四點(diǎn)對(duì)于一個(gè)已經(jīng)初始化的子網(wǎng),如果SM發(fā)現(xiàn)某一個(gè)交換機(jī)的一個(gè)端口的狀態(tài)從UP變?yōu)镈OWN,則說(shuō)明有設(shè)備從子網(wǎng)中移除。子網(wǎng)探測(cè)—?jiǎng)h除設(shè)備目前九十一頁(yè)\總數(shù)一百五十八頁(yè)\編于十四點(diǎn)在規(guī)范中,并沒(méi)有規(guī)定LID的分配規(guī)則,只要滿足上述的性質(zhì)即可。具體實(shí)現(xiàn)時(shí),LID的分配與特定的路由算法有關(guān)。最簡(jiǎn)單的分配方式是按照設(shè)備的發(fā)現(xiàn)順序,從1開始連續(xù)分配。LID分配目前九十二頁(yè)\總數(shù)一百五十八頁(yè)\編于十四點(diǎn)路由計(jì)算主要是指SM在得到子網(wǎng)拓?fù)湟院?,確定每?jī)蓚€(gè)節(jié)點(diǎn)之間的路徑的過(guò)程。SM將這個(gè)計(jì)算結(jié)果以轉(zhuǎn)發(fā)表的形式發(fā)布給交換機(jī),使數(shù)據(jù)包沿著計(jì)算好的路徑傳遞。轉(zhuǎn)發(fā)表是一個(gè)[LID,PORT]組成的表,交換機(jī)接收到一個(gè)LID路由的數(shù)據(jù)包時(shí),通過(guò)查找目的LID對(duì)應(yīng)的表項(xiàng),從而確定應(yīng)該從那個(gè)端口轉(zhuǎn)發(fā)這個(gè)數(shù)據(jù)包。路由計(jì)算目前九十三頁(yè)\總數(shù)一百五十八頁(yè)\編于十四點(diǎn)網(wǎng)絡(luò)拓?fù)浒l(fā)現(xiàn)過(guò)程由子網(wǎng)管理器(SM)發(fā)起從SM軟件駐留的節(jié)點(diǎn)開始,按照寬度優(yōu)先(BFS)、或深度優(yōu)先(DFS)方法逐個(gè)發(fā)現(xiàn),將發(fā)現(xiàn)好的節(jié)點(diǎn)加入拓?fù)滏湵碇性谶M(jìn)行子網(wǎng)發(fā)現(xiàn)的過(guò)程中,為每個(gè)已發(fā)現(xiàn)的節(jié)點(diǎn)分配一個(gè)本地ID(LID),為后繼的路由做準(zhǔn)備目前九十四頁(yè)\總數(shù)一百五十八頁(yè)\編于十四點(diǎn)網(wǎng)絡(luò)拓?fù)浒l(fā)現(xiàn)過(guò)程LID=1LID=2LID=3LID=4LID=5LID=6LID=7LID=8目前九十五頁(yè)\總數(shù)一百五十八頁(yè)\編于十四點(diǎn)IB網(wǎng)絡(luò)路由過(guò)程–交換機(jī)內(nèi)部轉(zhuǎn)發(fā)機(jī)制LFT:LineralForwardTable(線性轉(zhuǎn)發(fā)表)首先,根據(jù)報(bào)文頭的SL查找SL-to-VL-Table(服務(wù)等級(jí)映射表),獲得該報(bào)文的轉(zhuǎn)發(fā)的VL通道。而后,根據(jù)目的DLID查找LFT線性轉(zhuǎn)發(fā)表,獲取下一跳的端口號(hào)。LFT(DLIDtoPort)目前九十六頁(yè)\總數(shù)一百五十八頁(yè)\編于十四點(diǎn)IB網(wǎng)絡(luò)路由過(guò)程–尋徑過(guò)程SW2cn0cn1cn2cn3LID=2LID=3LID=4LID=5LID=6目的LID輸出端口1122536312341234目的LID輸出端口12225364SW1線性轉(zhuǎn)發(fā)表SW2線性轉(zhuǎn)發(fā)表LID=1SW1查表查表SM目前九十七頁(yè)\總數(shù)一百五十八頁(yè)\編于十四點(diǎn)路由節(jié)點(diǎn)的添加和刪除子網(wǎng)管理器SM發(fā)現(xiàn)拓?fù)渥兓鲃?dòng)發(fā)現(xiàn),通過(guò)子網(wǎng)掃描被動(dòng)發(fā)現(xiàn),節(jié)點(diǎn)的代理軟件主動(dòng)上報(bào)自己的故障端口當(dāng)拓?fù)浒l(fā)生改變時(shí),更新路由表目前九十八頁(yè)\總數(shù)一百五十八頁(yè)\編于十四點(diǎn)IB網(wǎng)絡(luò)路由更新過(guò)程(1)SW2cn0cn1cn2cn3LID=2LID=3LID=4LID=5LID=6目的LID輸出端口1122536412341234目的LID輸出端口12225364SW1線性轉(zhuǎn)發(fā)表SW2線性轉(zhuǎn)發(fā)表LID=1SW1SMASMSMA鏈路故障報(bào)告目前九十九頁(yè)\總數(shù)一百五十八頁(yè)\編于十四點(diǎn)IB網(wǎng)絡(luò)路由更新過(guò)程(2)SW2cn0cn1cn2cn3LID=2LID=3LID=4LID=5LID=6目的LID輸出端口1122536312341234目的LID輸出端口11215364SW1線性轉(zhuǎn)發(fā)表SW2線性轉(zhuǎn)發(fā)表LID=1SW1SMASMSMA更新轉(zhuǎn)發(fā)表目前一百頁(yè)\總數(shù)一百五十八頁(yè)\編于十四點(diǎn)IB分層協(xié)議棧由OpenFabric組織制定IB規(guī)范RDMANICR-NICHostChannelAdapterHCAUserDirectAccessProgrammingLibUDAPLReliableDatagramServiceRDSiSCSIRDMAProtocol(Initiator)iSERSCSIRDMAProtocol(Initiator)SRPSocketsDirectProtocolSDPIPoverInfiniBandIPoIBPerformanceManagerAgentPMASubnetManagerAgentSMAManagementDatagramMADSubnetAdministratorSACommonInfiniBandiWARPKeyInfiniBandHCAiWARPR-NICHardwareSpecificDriverHardwareSpecificDriverConnection

ManagerMADInfiniBandVerbs/APISA

ClientConnectionManagerConnectionManagerAbstraction(CMA)UserLevel

Verbs/APISDPIPoIBSRPiSERRDSUDAPLSDP

LibraryUserLevel

MADAPIOpen

SMDiagToolsHardwareProviderMid-LayerUpperLayerProtocolUser

APIsKernelSpaceUserSpaceNFS-RDMARPCClusterFileSysApplication

LevelSMAR-NICDriverAPIClusteredDBAccess(Oracle10gRAC)SocketsBased

Access(IBMDB2)VariousMPIsAccesstoFileSystemsBlockStorageAccessIPBasedAppAccessApps&

Access

Methods

forusing

OFStack目前一百零一頁(yè)\總數(shù)一百五十八頁(yè)\編于十四點(diǎn)IB分層協(xié)議棧SRPMiniportStorPortSDP**SDPSPI**ApplicationsUserKernelWindowsApplicationsOFWindowsHardware*WindowsComputeClusterServer2003**WillbeavailableinthefutureWSDSANProviderManagementToolsHCAHardwareAccessLayerVerbsProviderDriverVerbsProviderLibraryAccessLayerLibraryKernelBypassWinsockSocketSwitchWinSockProviderMPI2*IPoIBNDISTCP/UDP/ICMPIPVNIC**目前一百零二頁(yè)\總數(shù)一百五十八頁(yè)\編于十四點(diǎn)SocketsDirectProtocol(SDP)&

ReliableDatagramSockets(RDS)HostChannelAdapterOpenIBAccessLayerIPoIBIPOracle10gSocketApplicationsTCPUDPSDPRDSKernelUserUDPApplications目前一百零三頁(yè)\總數(shù)一百五十八頁(yè)\編于十四點(diǎn)IPoIB目前一百零四頁(yè)\總數(shù)一百五十八頁(yè)\編于十四點(diǎn)IPoIBPacketFormat目前一百零五頁(yè)\總數(shù)一百五十八頁(yè)\編于十四點(diǎn)IPoIB子網(wǎng)視圖每個(gè)端結(jié)點(diǎn)HCA的每個(gè)IB端口都分配一個(gè)獨(dú)立的IP地址,支持IPv4/v6地址格式結(jié)點(diǎn)間通信,可使用IP地址標(biāo)識(shí)NodeDIPdIPs

NodeAAIPa

IPpIPrIPcNodeCIPqIPbNodeBIBswitchednetworkIPoIBUDbroadcastdomainIPoIBConnectednetwork目前一百零六頁(yè)\總數(shù)一百五十八頁(yè)\編于十四點(diǎn)FCoIBIB網(wǎng)到FC網(wǎng)之間采用透明網(wǎng)橋GatewayHostFibreChannelHostHostInfiniBand目前一百零七頁(yè)\總數(shù)一百五十八頁(yè)\編于十四點(diǎn)FCoverIBGatewayModelNPIVN_PortsFCBeginsHerePhysicalView:HandlinginitiatorsloginsActsasanNPIVN_PortReflectsF_LOGIasF_DISCVirtualizedServerLogicalView:NPIVHBAFibre

ChannelHostHostHostFCoIBtoFC

GatewayFibre

ChannelInfiniBand“PCIeextension”目前一百零八頁(yè)\總數(shù)一百五十八頁(yè)\編于十四點(diǎn)FCoIBGateway–StatelessPacketRelayIBtoFCStripIBheadersPayloadcontainsentireFCframeFCtoIBD_IDlookuptoretrieveaddressing{LID,QPN,etc.}EncapsulateFCframeasUDpayloadIBCRCIBHeadersFCFrameFCFrameIBCRCIBHeadersFCFrameFCFrame目前一百零九頁(yè)\總數(shù)一百五十八頁(yè)\編于十四點(diǎn)內(nèi)容提要超級(jí)計(jì)算機(jī)系統(tǒng)及其互連結(jié)構(gòu)Infiniband互連網(wǎng)絡(luò)的體系結(jié)構(gòu)在HPC中的典型互連架構(gòu)及應(yīng)用IB網(wǎng)絡(luò)優(yōu)化技術(shù)未來(lái)展望目前一百一十頁(yè)\總數(shù)一百五十八頁(yè)\編于十四點(diǎn)典型的IB交換機(jī)實(shí)現(xiàn)結(jié)構(gòu)(1)9xFabricBoards(singleanddoubledense)2xFanUnits6xPowerSupplies2xManagementBoards18xLineBoards19U目前一百一十一頁(yè)\總數(shù)一百五十八頁(yè)\編于十四點(diǎn)典型的IB交換機(jī)實(shí)現(xiàn)結(jié)構(gòu)(2)兩級(jí)胖樹結(jié)構(gòu)或者“折疊的clos網(wǎng)絡(luò)”L2L118目前一百一十二頁(yè)\總數(shù)一百五十八頁(yè)\編于十四點(diǎn)IB網(wǎng)絡(luò)拓?fù)銽opologiesthataremainlyinuseforlargeclusters?Fat-Tree?3DTorus?Mash目前一百一十三頁(yè)\總數(shù)一百五十八頁(yè)\編于十四點(diǎn)IB網(wǎng)絡(luò)拓?fù)?DTorusAnoversubscribednetwork,easiertoscaleFitmoreapplicationswithlocality目前一百一十四頁(yè)\總數(shù)一百五十八頁(yè)\編于十四點(diǎn)IB網(wǎng)絡(luò)拓?fù)銯at-tree(alsoknownasCBB)Flatnetwork,canbesetasoversubscribednetworkornotInotherwords,blockingornonblocking?Typicallythelowestlatencynetwork目前一百一十五頁(yè)\總數(shù)一百五十八頁(yè)\編于十四點(diǎn)胖樹結(jié)構(gòu)是互連已知硬件數(shù)量的一種通用方法。胖樹相對(duì)傳統(tǒng)樹,越靠近根部帶寬越大。如果要使網(wǎng)絡(luò)是非阻塞的,每層的總帶寬都要相同。胖樹結(jié)構(gòu)目前一百一十六頁(yè)\總數(shù)一百五十八頁(yè)\編于十四點(diǎn)常用的IB網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu)利用多個(gè)“IB交換機(jī)”構(gòu)造大規(guī)模IB網(wǎng)絡(luò)每個(gè)IB交換機(jī)內(nèi)部是胖樹結(jié)構(gòu)目前一百一十七頁(yè)\總數(shù)一百五十八頁(yè)\編于十四點(diǎn)64NodeClusterusingbladesandShark-GTs目前一百一十八頁(yè)\總數(shù)一百五十八頁(yè)\編于十四點(diǎn)972NodeFullCBBusingShark/Orca(max11,664)目前一百一十九頁(yè)\總數(shù)一百五十八頁(yè)\編于十四點(diǎn)Core

Fabric8xSFSTS740

288portseachEdge256xTS120

24-portseach18ComputeNodes)18ComputeNodes)8192Processor60TFlopSuperCluster2048uplinks

(7m/10m/15m/20m)目前一百二十頁(yè)\總數(shù)一百五十八頁(yè)\編于十四點(diǎn)RealDeploymentsToday:WallStreetBankwith512NodeGridSANLAN296-port

TS-2702324-port

TS-120512ServerNodes2TS-360w/EthernetandFibreChannelGatewaysCoreFabricEdgeFabricGRIDI/OExistingNetworksFibreChannelandGigEconnectivitybuiltseamlesslyintothecluster目前一百二十一頁(yè)\總數(shù)一百五十八頁(yè)\編于十四點(diǎn)520DualCPUNodes

1,040CPUsNCSA

NationalCenterforSupercomputingApplicationsTungsten2:520NodeSupercomputerCoreFabricEdgeFabric672-port

TS2702924-port

TS120174uplink

cables5121m

cables18ComputeNodes18ComputeNodesParallelMPIcodesforcommercialclientsPointtopoint5.2usMPIlatencyDeployed:November2004目前一百二十二頁(yè)\總數(shù)一百五十八頁(yè)\編于十四點(diǎn)1,066NodeSuperComputerFaultTolerantCoreFabricEdgeFabric1296-port

TS-2708924-port

TS-1201,0685m/7m/10m/15m

uplinkcables1,0661m

cables12ComputeNodes12ComputeNodes1,066FullyNon-BlockingFaultTolerantIBCluster目前一百二十三頁(yè)\總數(shù)一百五十八頁(yè)\編于十四點(diǎn)1Direct-attachstorageServerswithunusedstorage,uncontrolledgrowthStoragededicatedtooneserverDecentralizedbackup2FibreChannelSANsEliminatesislandsofstorageIncreasesutilizationandavailabilityHighestperformancelevels6FibreChanneloverEthernetConvergesLANandSANtrafficonsinglelinkLowersoperationalcosts(cablingandConvergedNetworkAdapters)Scalabilityforvirtualenvironments4iSCSI/NASConsolidatessmallorisolatedserversOfferslow-costserverattachmentNASisidealforfilesandunstructureddataFCIP/iFCPConnectsgeographicallydispersedSANsLowcostandeasytodeployfordisasterrecoverysolutions35InfinibandLowlatency,highbandwidthIdealforhigh-performancecomputing(HPC)當(dāng)前的網(wǎng)絡(luò)存儲(chǔ)技術(shù)NewNetworkedstorageFibreChannelSAN2MainframeServersVMware1Rack-mountedserverswithCNAs6FibreChanneloverEthernet4iSCSI/NASRemote/isolatedservers3FCIP/iFCPDisasterrecoverysite5InfinibandServerNetworkHPC目前一百二十四頁(yè)\總數(shù)一百五十八頁(yè)\編于十四點(diǎn)典型IO互聯(lián)架構(gòu)SANServerFabricLAN/WANServerClusterFibreChanneltoInfiniBandgatewayforstorageaccessEthernettoInfiniBandgatewayforLANaccessSingleInfiniBandlinkfor:-Storage-Network目前一百二十五頁(yè)\總數(shù)一百五十八頁(yè)\編于十四點(diǎn)SAN/NAS存儲(chǔ)結(jié)構(gòu)ManagementConsoleSANNASNASNAStape目前一百二十六頁(yè)\總數(shù)一百五十八頁(yè)\編于十四點(diǎn)數(shù)據(jù)中心的IO加速目前一百二十七頁(yè)\總數(shù)一百五十八頁(yè)\編于十四點(diǎn)內(nèi)容提要超級(jí)計(jì)算機(jī)系統(tǒng)及其互連結(jié)構(gòu)Infiniband互連網(wǎng)絡(luò)的體系結(jié)構(gòu)在HPC中的典型互連架構(gòu)及應(yīng)用IB網(wǎng)絡(luò)優(yōu)化技術(shù)未來(lái)展望目前一百二十八頁(yè)\總數(shù)一百五十八頁(yè)\編于十四點(diǎn)有效的IB通信優(yōu)化方法GPUDirectCORE-DirectOffloadingCongestionControlAdaptiveRoutingManagementMessagingAccelerationsAdvancedAuto-negotiationMPI目前一百二十九頁(yè)\總數(shù)一百五十八頁(yè)\編于十四點(diǎn)IB網(wǎng)絡(luò)中典型的MPI通信性能目前一百三十頁(yè)\總數(shù)一百五十八頁(yè)\編于十四點(diǎn)IB網(wǎng)絡(luò)路由和擁塞控制通過(guò)子網(wǎng)管理器SM(軟件)集中管理每個(gè)節(jié)點(diǎn)(host和switch)駐留管理代理SMA,與SM交換信息,實(shí)現(xiàn)路由和擁塞控制功能目前一百三十一頁(yè)\總數(shù)一百五十八頁(yè)\編于十四點(diǎn)路由算法尋徑過(guò)程,為兩個(gè)機(jī)器之間選擇一條通信路徑。目標(biāo):最小代價(jià)(最小跳步數(shù))無(wú)死鎖、活鎖平衡網(wǎng)絡(luò)流量負(fù)載避免擁塞,避免通信“熱點(diǎn)”競(jìng)爭(zhēng)目前一百三十二頁(yè)\總數(shù)一百五十八頁(yè)\編于十四點(diǎn)網(wǎng)絡(luò)拓?fù)湟?guī)則網(wǎng)絡(luò)網(wǎng)絡(luò)具有規(guī)則的拓?fù)鋱D結(jié)構(gòu)(ring,meshes,Fat-tree,hypercube,etc)易于優(yōu)化不規(guī)則網(wǎng)絡(luò)不規(guī)則的網(wǎng)絡(luò)圖形狀拓?fù)浒l(fā)現(xiàn)比較關(guān)鍵需要精心設(shè)計(jì)路由算法,保證無(wú)死鎖目前一百三十三頁(yè)\總數(shù)一百五十八頁(yè)\編于十四點(diǎn)路由算法的分類:

oblivious和adaptiveOblivious(確定性路由)為每個(gè)源和目的對(duì)分配一個(gè)路由,而不考慮網(wǎng)絡(luò)流量。這種路由具有一定的吸引力attractive,因?yàn)槠渎酚煽梢允孪扔?jì)算出來(lái),盡管計(jì)算的代價(jià)可能很高。Adaptive(自適應(yīng)路由)力圖根據(jù)當(dāng)前流量來(lái)調(diào)節(jié)節(jié)點(diǎn)間的路由。這種路由能夠?qū)θ志W(wǎng)絡(luò)的通信狀況迅速作出反應(yīng),并實(shí)時(shí)改變路徑以達(dá)到流量均衡的目的,通常會(huì)使用快速但并非最優(yōu)化的算法來(lái)實(shí)現(xiàn)。目前一百三十四頁(yè)\總數(shù)一百五十八頁(yè)\編于十四點(diǎn)IB網(wǎng)絡(luò)路由IB網(wǎng)絡(luò)路由是確定性路由(oblivious)因?yàn)镮B網(wǎng)絡(luò)使用基于目標(biāo)LID的路由轉(zhuǎn)發(fā)表在網(wǎng)絡(luò)構(gòu)建之初已經(jīng)形成,轉(zhuǎn)發(fā)表是線性的:目的地的LID號(hào)

下一跳輸出端口任意網(wǎng)絡(luò)上的確定性路由(oblivious)的最優(yōu)化問(wèn)題是NP-hard問(wèn)題oblivious路由算法通常是保守的,即不需要監(jiān)控網(wǎng)絡(luò)實(shí)時(shí)狀態(tài),可采用完全分布式實(shí)現(xiàn)方式。目前一百三十五頁(yè)\總數(shù)一百五十八頁(yè)\編于十四點(diǎn)IB網(wǎng)絡(luò)路由

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論