混合架構(gòu)超算并行程序設(shè)計(jì)與應(yīng)用 課件【ch02】異構(gòu)混合架構(gòu)概述_第1頁(yè)
混合架構(gòu)超算并行程序設(shè)計(jì)與應(yīng)用 課件【ch02】異構(gòu)混合架構(gòu)概述_第2頁(yè)
混合架構(gòu)超算并行程序設(shè)計(jì)與應(yīng)用 課件【ch02】異構(gòu)混合架構(gòu)概述_第3頁(yè)
混合架構(gòu)超算并行程序設(shè)計(jì)與應(yīng)用 課件【ch02】異構(gòu)混合架構(gòu)概述_第4頁(yè)
混合架構(gòu)超算并行程序設(shè)計(jì)與應(yīng)用 課件【ch02】異構(gòu)混合架構(gòu)概述_第5頁(yè)
已閱讀5頁(yè),還剩42頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

“新工科建設(shè)之路·計(jì)算機(jī)類專業(yè)系列教材混合架構(gòu)超算并行程序設(shè)計(jì)與應(yīng)用異構(gòu)混合架構(gòu)概述第二章01國(guó)際國(guó)內(nèi)超算現(xiàn)狀國(guó)際國(guó)內(nèi)超算現(xiàn)狀超算主要用于解決具有挑戰(zhàn)性的科學(xué)計(jì)算問(wèn)題,通常是指一類訪存帶寬高、計(jì)算速度快、存儲(chǔ)量大的計(jì)算機(jī)。1976年,美國(guó)CrayResearch公司制造出首臺(tái)運(yùn)算速度達(dá)每秒2.5億次的超算Cray-1,之后多國(guó)都相繼投入超算的研發(fā)中。為了設(shè)計(jì)出性能更強(qiáng)大的高性能計(jì)算機(jī),近年來(lái),多國(guó)頻繁啟動(dòng)國(guó)家層面的研發(fā)計(jì)劃,在計(jì)算效率方面的競(jìng)爭(zhēng)越來(lái)越激烈目前在E級(jí)計(jì)算上的競(jìng)爭(zhēng)已是白熱化趨勢(shì)。國(guó)際國(guó)內(nèi)超算現(xiàn)狀超算與傳統(tǒng)計(jì)算機(jī)不同,這類大規(guī)模并行計(jì)算機(jī)通常由大量計(jì)算節(jié)點(diǎn)組成,典型的組成結(jié)構(gòu)如圖2-1所示,每個(gè)計(jì)算節(jié)點(diǎn)配有一個(gè)或多個(gè)CPU(中央處理單元),計(jì)算節(jié)點(diǎn)之間一般由高速互連網(wǎng)絡(luò)進(jìn)行連接,用來(lái)支持多個(gè)CPU并行處理。此外,由于CPU極高的計(jì)算速度需要快速檢索存儲(chǔ)的數(shù)據(jù)和指令,大多數(shù)超算都具有非常大的存儲(chǔ)容量及快速的I/O能力?,F(xiàn)代的超算還會(huì)配備一些異構(gòu)計(jì)算單元,如GPU(圖形處理單元)等,用于加速計(jì)算。國(guó)際國(guó)內(nèi)超算現(xiàn)狀超算的性能關(guān)鍵體現(xiàn)在計(jì)算能力上,超算的發(fā)展主要是HPC系統(tǒng)中節(jié)點(diǎn)的計(jì)算能力和系統(tǒng)調(diào)度、通信速度的提高,每個(gè)計(jì)算節(jié)點(diǎn)一般都采用純CPU或CPU+加速卡的異構(gòu)架構(gòu),隨著各類計(jì)算硬件技術(shù)的成熟與相關(guān)應(yīng)用需求的增加,未來(lái)超算系統(tǒng)將會(huì)引入更多異構(gòu)硬件。國(guó)際國(guó)內(nèi)超算現(xiàn)狀高性能計(jì)算技術(shù)的發(fā)展,與超算硬件及其計(jì)算能力的發(fā)展密不可分。1960年,SperryRand為美國(guó)加州羅蘭士利物摩亞國(guó)家實(shí)驗(yàn)室建造的UNIVACLivermoreAtomicResearchComputer(LARC),被認(rèn)為是最早的超算。1964年,由SeymourCray設(shè)計(jì)的CDC6600成為當(dāng)時(shí)最快的超算,它每秒可以執(zhí)行300萬(wàn)次浮點(diǎn)運(yùn)算,比同時(shí)代計(jì)算機(jī)大約快10倍,同時(shí)標(biāo)志著從到硅晶體管的過(guò)渡。超算發(fā)展歷程國(guó)際國(guó)內(nèi)超算現(xiàn)狀SeymourCray被譽(yù)為“超級(jí)計(jì)算機(jī)之父”。Cray于1972年離開(kāi)CDC公司,創(chuàng)辦了自己的公司CrayResearch,并于1989年再次成立CrayComputer,其目標(biāo)始終是研制出超一流的超算。Cray的開(kāi)創(chuàng)性成就之一是1976研制的Cray-1,它成為當(dāng)時(shí)世界上最快且最成功的超算,也是世界上第一臺(tái)向量流水處理巨型機(jī)。值得一提的是,到了2014年,位列2002年TOP500榜首的“地球模擬器”已經(jīng)跌出了TOP500榜單,超算計(jì)算能力的發(fā)展與新機(jī)器的出現(xiàn)可謂迅猛。超算發(fā)展歷程國(guó)際國(guó)內(nèi)超算現(xiàn)狀超算發(fā)展現(xiàn)狀在超算領(lǐng)域,有一個(gè)對(duì)超算進(jìn)行評(píng)估的TOP500榜單,就像世界上各個(gè)大學(xué)的排名一樣,這個(gè)榜單每隔半年就會(huì)更新一次。歷史上,這個(gè)榜單很長(zhǎng)一段時(shí)間都被美國(guó)、日本和歐洲國(guó)家霸榜。自21世紀(jì)以來(lái),來(lái)自中國(guó)的超算開(kāi)始出現(xiàn)在這個(gè)榜單的前列。無(wú)錫中心的神威·太湖之光(SunwayTaihuLight)則排名第六。前十名中,美國(guó)占了5名中國(guó)占了2名,其他超算主要分布在歐洲和日本等地,如表2-2所示。國(guó)際國(guó)內(nèi)超算現(xiàn)狀超算發(fā)展現(xiàn)狀國(guó)際國(guó)內(nèi)超算現(xiàn)狀超算發(fā)展現(xiàn)狀超算是一個(gè)國(guó)家綜合國(guó)力的體現(xiàn),中國(guó)和美國(guó)是TOP500榜單中上榜數(shù)量最多的國(guó)家。E級(jí)超算能夠更加真實(shí)地模擬科學(xué)計(jì)算問(wèn)題和國(guó)家安全相關(guān)的問(wèn)題如精細(xì)醫(yī)學(xué)、地球空間科學(xué)、材料制造、能源問(wèn)題、未知材料發(fā)現(xiàn)、探索中的物理學(xué)和宇宙的基本理論等。國(guó)際國(guó)內(nèi)超算現(xiàn)狀1.美國(guó)美國(guó)是高性能計(jì)算領(lǐng)域的傳統(tǒng)強(qiáng)國(guó),也是第一個(gè)啟動(dòng)E級(jí)超算研究項(xiàng)目的國(guó)家。2008年,一篇題為《E級(jí)計(jì)算研究:實(shí)現(xiàn)E級(jí)超算系統(tǒng)面臨的技術(shù)挑戰(zhàn)》的文章討論了一些從Petascale到Exascale級(jí)別將面臨的挑戰(zhàn)性問(wèn)題,包括功耗、存儲(chǔ)、并發(fā)性、可擴(kuò)展性和系統(tǒng)彈性等多個(gè)方面,至今被引用超過(guò)1000次。超算發(fā)展現(xiàn)狀國(guó)際國(guó)內(nèi)超算現(xiàn)狀2.日本日本也是超算強(qiáng)國(guó)之一,早在20世紀(jì)80年代中期,日本就已經(jīng)開(kāi)始自主研發(fā)超算,期間研發(fā)的“地球模擬器”“RIKEN京”和“富岳”超算曾登頂TOP500榜單。富岳超算由日本國(guó)立理化學(xué)研究所和富士通公司共同開(kāi)發(fā)和改進(jìn),自2014年起正式啟動(dòng)相關(guān)研發(fā)工作。這臺(tái)超算最終于2020年5月完成硬件安裝,并于同年6月在Linpack、HPCGGraph500和HPL-AI四項(xiàng)基準(zhǔn)測(cè)試排名中均奪得第一,這也是第一次基于ARM架構(gòu)的超算能擠進(jìn)TOP500榜單前十名,并且直接成為榜首。超算發(fā)展現(xiàn)狀國(guó)際國(guó)內(nèi)超算現(xiàn)狀3.歐洲法國(guó)、芬蘭、瑞士、意大利等歐洲國(guó)家同樣在超算的建設(shè)上投入了大量資金。在2022年6月的TOP500榜單中,芬蘭EUROHPC/CSC的LUMI以152PFLOPS的成績(jī)登上了第三名。法國(guó)GENCI-CINES的Adastra也以461PFLOPS的成績(jī)成為第10名,是歐洲第二強(qiáng)大的超算。值得一提的是,LUMI和Adastra與位于榜首的Frontier的設(shè)計(jì)相同,都是基于HPECrayEX235a架構(gòu),搭載AMDEPYC64C2GHz處理器和AMDInstinctMI250XGPU,這也從側(cè)面反映出AMD的芯片在TOP500榜單中占據(jù)一定的主導(dǎo)地位。超算發(fā)展現(xiàn)狀國(guó)際國(guó)內(nèi)超算現(xiàn)狀我國(guó)超算發(fā)展現(xiàn)狀自1983年國(guó)防科學(xué)技術(shù)大學(xué)成功研發(fā)出第一臺(tái)“銀河一號(hào)”億次計(jì)算機(jī)后,我國(guó)在超算領(lǐng)域的發(fā)展勢(shì)頭便十分迅猛。進(jìn)入21世紀(jì),我國(guó)的超算一直處于世界領(lǐng)先水平。總體來(lái)說(shuō),經(jīng)過(guò)幾十年的發(fā)展,我國(guó)超算已經(jīng)取得了一定成績(jī),但仍面臨著不小的挑戰(zhàn)。我國(guó)已經(jīng)完成了神威、天河、曙光三套E級(jí)機(jī)原型系統(tǒng)的研制,在原型系統(tǒng)的研究基礎(chǔ)上,目前(2022年年底)正在或者已經(jīng)完成了部分E級(jí)超算的研發(fā)。02典型的混合架構(gòu)計(jì)算機(jī)典型的混合架構(gòu)計(jì)算機(jī)1.FrontierFrontier安裝在美國(guó)橡樹(shù)嶺國(guó)家實(shí)驗(yàn)室(OLCF),占地372平方米,由74個(gè)CrayEX機(jī)柜組成。這臺(tái)超算基于HPECrayEX235a架構(gòu),整機(jī)共有9408個(gè)節(jié)點(diǎn),每個(gè)節(jié)點(diǎn)由1個(gè)AMDEpyc7A53CPU和4個(gè)專用AMDIstinctMI250XGPU組成,如圖2-3所示,整機(jī)GPU核心總數(shù)達(dá)到了37632個(gè),峰值性能達(dá)到了1.1EFLOPS,是世界上第一臺(tái)每秒浮點(diǎn)運(yùn)算次數(shù)超過(guò)百億億次的超算。CPU+GPU架構(gòu):以Frontier、Summit、Aurora為代表典型的混合架構(gòu)計(jì)算機(jī)Frontier為每個(gè)節(jié)點(diǎn)的CPU配有512GB的DDR4內(nèi)存,在整個(gè)節(jié)點(diǎn)上共有512GB的HMB2e內(nèi)存(其中每個(gè)GPU有128GB)。整機(jī)共有9.2PB內(nèi)存(包括4.6PB的DDR4和4.6PB的HBM2e),還有37PB的節(jié)點(diǎn)內(nèi)本地存儲(chǔ)空間。系統(tǒng)內(nèi)部的存儲(chǔ)層通過(guò)PCIeGen4鏈路連接計(jì)算節(jié)點(diǎn)的本地存儲(chǔ)設(shè)備,以提供超過(guò)75TB/的峰值讀取速度和超過(guò)35TB/s的峰值寫(xiě)入速度。CPU+GPU架構(gòu):以Frontier、Summit、Aurora為代表典型的混合架構(gòu)計(jì)算機(jī)Frontier還擁有一個(gè)高達(dá)700PB的中心級(jí)存儲(chǔ)系統(tǒng)Orion這是一個(gè)基于Lustre的中心級(jí)文件系統(tǒng),基于CrayClusterStorE1000存儲(chǔ)系統(tǒng)開(kāi)發(fā),是世界上最大、最快的單文件POSIX并行文件系統(tǒng),如表2-3所示。CPU+GPU架構(gòu):以Frontier、Summit、Aurora為代表典型的混合架構(gòu)計(jì)算機(jī)2.SummitSummit是IBM為美國(guó)橡樹(shù)嶺國(guó)家實(shí)驗(yàn)室開(kāi)發(fā)的超算linkpack基準(zhǔn)測(cè)試的峰值計(jì)算性能為148.6PFLOPS,從2018年11月到2020年6月一直位居TOP500榜單第一。自發(fā)布以來(lái),Summit已經(jīng)用于大量民用科學(xué)研究,包括醫(yī)學(xué)、能源、宇宙學(xué)和氣候科學(xué)等領(lǐng)域。Summit共有256個(gè)機(jī)架,占地873平方米。整機(jī)共有4608個(gè)節(jié)點(diǎn),每個(gè)節(jié)點(diǎn)采用CPU+GPU的異構(gòu)混合方案,搭載2個(gè)IBMPOWER9CPU(22核心)和6個(gè)NVIDIATeslaGPU,提供大約40TFLOPS的理論雙精度浮點(diǎn)計(jì)算能力。CPU+GPU架構(gòu):以Frontier、Summit、Aurora為代表典型的混合架構(gòu)計(jì)算機(jī)在存儲(chǔ)方面,每個(gè)節(jié)點(diǎn)的CPU共有512GB的DDR4同步動(dòng)態(tài)隨機(jī)存儲(chǔ)器(SynchronousDynamicRandomAccessMemory,SDRAM),GPU共有96GB的HBM2存儲(chǔ),以及1.6TB的非易失性RAM,可用作突發(fā)緩沖區(qū)或擴(kuò)展性內(nèi)存。CPU插槽之間通過(guò)IBM的X-BusTM連接,提供64GB/s的連續(xù)訪問(wèn)帶寬。每個(gè)插槽有8個(gè)內(nèi)存通道用于連接256GB的DDR4內(nèi)存,提供340GB/s的峰值內(nèi)存帶寬。CPU+GPU架構(gòu):以Frontier、Summit、Aurora為代表典型的混合架構(gòu)計(jì)算機(jī)節(jié)點(diǎn)內(nèi)組成架構(gòu)和互連方式如圖2-4所示。CPU+GPU架構(gòu):以Frontier、Summit、Aurora為代表典型的混合架構(gòu)計(jì)算機(jī)CPU+GPU架構(gòu):以Frontier、Summit、Aurora為代表3.AuroraAurora是美國(guó)將要發(fā)布的下一臺(tái)E級(jí)超算,是Imtel公司與美國(guó)能源部、阿貢國(guó)家實(shí)驗(yàn)室和HPE合作研發(fā)的E級(jí)超算,預(yù)計(jì)性能將超過(guò)2EFLOPS,該計(jì)算機(jī)將建設(shè)在阿貢國(guó)家實(shí)驗(yàn)室。Aurora的目標(biāo)是推動(dòng)科研的進(jìn)步,實(shí)現(xiàn)藥物反應(yīng)預(yù)測(cè)、航天建模仿真及宇宙學(xué)理論研究等領(lǐng)域的突破。典型的混合架構(gòu)計(jì)算機(jī)CPU+GPU架構(gòu):以Frontier、Summit、Aurora為代表Aurora將采用專為人工智能和HPC設(shè)計(jì)優(yōu)化的全新Intel技術(shù),搭載下一代Intel至強(qiáng)可擴(kuò)展處理器,每個(gè)處理器有多達(dá)40個(gè)內(nèi)核,配有8個(gè)256GB的DDR4內(nèi)存,采用10納米制程技術(shù),基于PCIeGen4進(jìn)行互連,I/O容量增加至64條PCIe4.0通道。Aurora預(yù)計(jì)由200多個(gè)機(jī)柜組成,使用CrayResearoh的Slingshot高性能可擴(kuò)展互連技術(shù),并建設(shè)針對(duì)Intel架構(gòu)進(jìn)行優(yōu)化的Shasta軟件堆棧。典型的混合架構(gòu)計(jì)算機(jī)ARM架構(gòu):日本富岳富岳(Fugaku)超算安裝在神戶的日本國(guó)立理化學(xué)研究所計(jì)算中心,初始(2020年6月)配置使用了158976個(gè)A64FXCPU,2020年11月升級(jí)后增加了處理器的數(shù)量,峰值計(jì)算性能超過(guò)442PFLOPS,研究人員期望它可以用于人工智能、大數(shù)據(jù)分析和新型冠狀病毒等相關(guān)領(lǐng)域的研究中。富岳通過(guò)連接大量專用CPU來(lái)提高計(jì)算性能,處理器使用的是富士通設(shè)計(jì)的48核芯片A64FX,通過(guò)高密度的安裝實(shí)現(xiàn)CPU之間的快速通信,富岳也是歷史上第一臺(tái)基于ARM架構(gòu)登頂TOP500榜單的超算。典型的混合架構(gòu)計(jì)算機(jī)ARM架構(gòu):日本富岳在A64FXCPU的架構(gòu)中,一個(gè)處理器上有4個(gè)CMG,每個(gè)CMG由13個(gè)核心(12個(gè)是計(jì)算核心,1個(gè)是輔助核心)二級(jí)緩存和內(nèi)存控制器組成,片上環(huán)形總線網(wǎng)絡(luò)用于將它們與TofuInterconnectD互連網(wǎng)絡(luò)(簡(jiǎn)稱TofuD)接口和PCIe接口連接起來(lái)如圖2-5所示。典型的混合架構(gòu)計(jì)算機(jī)CPU+DCU:曙光超算2018年,曙光發(fā)布了E級(jí)原型機(jī),采用CPU+DCU加速卡的方案,每個(gè)節(jié)點(diǎn)搭載2個(gè)海光CPU和2個(gè)國(guó)產(chǎn)海光DCU深度計(jì)算加速器。單節(jié)點(diǎn)使用25GB/s的高速網(wǎng)絡(luò),通過(guò)6D-Torus高維互連。在冷卻系統(tǒng)方面,曙光E級(jí)原型機(jī)采用了先進(jìn)的浸沒(méi)式液體相變冷卻技術(shù)。E級(jí)超算曙光8000預(yù)計(jì)于2023年投入使用。整機(jī)采用硅立方結(jié)構(gòu),原型系統(tǒng)是1個(gè)硅立方單元,每個(gè)硅立方單元包括6個(gè)硅元,共32個(gè)超節(jié)點(diǎn);每個(gè)超節(jié)點(diǎn)包含8個(gè)節(jié)點(diǎn)對(duì)節(jié)點(diǎn)對(duì)內(nèi)部包含兩個(gè)節(jié)點(diǎn),組成結(jié)構(gòu)如圖2-6所示。典型的混合架構(gòu)計(jì)算機(jī)CPU+DCU:曙光超算典型的混合架構(gòu)計(jì)算機(jī)神威主從核架構(gòu):新一代神威超算2017年6月,神威E級(jí)原型機(jī)正式進(jìn)入研制階段,并于2018年8月在國(guó)家超算濟(jì)南中心正式啟用,新一代神威E級(jí)超算已經(jīng)在2021年正式安裝完成。新一代神威超算由超過(guò)80000個(gè)SW26010P處理器組成,硬件架構(gòu)如圖2-9所示,硬件系統(tǒng)由自主設(shè)計(jì)的高性能眾核處理器、計(jì)算系統(tǒng)、互連系統(tǒng)、存儲(chǔ)系統(tǒng)、維護(hù)系統(tǒng)、供電系統(tǒng)和冷卻系統(tǒng)組成。值得一提的是,特定應(yīng)用系統(tǒng),如人工智能加速系統(tǒng),可以根據(jù)特定需求靈活連接。典型的混合架構(gòu)計(jì)算機(jī)神威主從核架構(gòu):新一代神威超算新一代國(guó)產(chǎn)眾核處理器SW26010P采用高效的可擴(kuò)展架構(gòu),如圖2-10所示。典型的混合架構(gòu)計(jì)算機(jī)神威主從核架構(gòu):新一代神威超算SW26010P處理器共有6個(gè)核心組(Core-Group,CG),每個(gè)CG包括一個(gè)MPE和一個(gè)包含8x8排列的CPE陣列,可以提供超過(guò)12TFLOPS的雙精度浮點(diǎn)運(yùn)算能力。其節(jié)點(diǎn)內(nèi)主從核訪存模式如圖2-11所示。典型的混合架構(gòu)計(jì)算機(jī)新一代天河超算2018年7月,天河E級(jí)原型機(jī)在國(guó)家超級(jí)計(jì)算天津中心完成部署并通過(guò)了驗(yàn)收,標(biāo)志著我國(guó)已經(jīng)掌握了E級(jí)超算的相關(guān)技術(shù)。在原型機(jī)的技術(shù)基礎(chǔ)上,開(kāi)發(fā)完成的新一代天河E級(jí)超算主要采用飛騰CPU和Matrix-3000加速器混合的架構(gòu),一個(gè)節(jié)點(diǎn)由1個(gè)CPU和4個(gè)加速器組成。飛騰CPU有16個(gè)核心,采用ARM指令集。Matrix-3000加速器又稱DSP簇,包含6個(gè)超節(jié)點(diǎn),每個(gè)超節(jié)點(diǎn)又包含4個(gè)核心,共計(jì)24個(gè)核心。典型的混合架構(gòu)計(jì)算機(jī)新一代天河超算新一代天河超算節(jié)點(diǎn)內(nèi)部結(jié)構(gòu)及內(nèi)存層次分別如圖2-12和圖2-13所示。典型的混合架構(gòu)計(jì)算機(jī)新一代天河超算在加速器內(nèi)部,每個(gè)DSP核中包含了多個(gè)向量計(jì)算單元和標(biāo)量計(jì)算單元以及對(duì)應(yīng)的向量存儲(chǔ)(AM)和標(biāo)量存儲(chǔ)(SM)。再加上用戶可編程訪問(wèn)的全局共享片上高速緩存GSM(GlobalSharedMemory)以及位于加速器外部的大容量設(shè)備內(nèi)存,形成了新一代天河超算的多層級(jí)存儲(chǔ)架構(gòu)。03混合架構(gòu)程序設(shè)計(jì)語(yǔ)言與框架概述混合架構(gòu)程序設(shè)計(jì)語(yǔ)言與框架概述OpenMP是基于共享內(nèi)存的多線程并行編程語(yǔ)言,是由編譯制導(dǎo)語(yǔ)句、運(yùn)行時(shí)庫(kù)函數(shù)和環(huán)境變量等組成的一個(gè)應(yīng)用程序接口(API),可以為開(kāi)發(fā)人員提供一個(gè)可移植、可擴(kuò)展的共享內(nèi)存應(yīng)用編程模型。在OpenMP的共享內(nèi)存并行編程模型中,所有處理器都可以訪問(wèn)共享內(nèi)存并使用多個(gè)線程進(jìn)行計(jì)算,如圖2-15所示。OpenMP使用一個(gè)線程作為主線程啟動(dòng)程序,主線程進(jìn)入并行區(qū)域,可以產(chǎn)生許多分支線程,它們與主線程組成一個(gè)工作組,共同執(zhí)行一段并行代碼,這是一種典型的Fork-Jin模型,如圖2-16所示。OpenMP混合架構(gòu)程序設(shè)計(jì)語(yǔ)言與框架概述OpenMP混合架構(gòu)程序設(shè)計(jì)語(yǔ)言與框架概述一般的大型計(jì)算機(jī)或巨型計(jì)算機(jī)大多采用多節(jié)點(diǎn)的分布式存儲(chǔ)結(jié)構(gòu),這種結(jié)構(gòu)可以擴(kuò)展出大量的計(jì)算節(jié)點(diǎn),分布式節(jié)點(diǎn)之間并行化時(shí)需要完成的通信操作,通常使用消息傳遞的方式實(shí)現(xiàn)。在并行編程中,最常用的消息傳遞方式是消息傳遞接口(MessagePassingInterface,MPI)。MPI是消息傳遞庫(kù)的標(biāo)準(zhǔn)規(guī)范,提供了大量消息傳遞例程,使MPI進(jìn)程在分布式環(huán)境中實(shí)現(xiàn)跨節(jié)點(diǎn)的數(shù)據(jù)通信。使用MPI進(jìn)行數(shù)據(jù)通信的主要優(yōu)點(diǎn)是可移植性和易用性,其執(zhí)行模型如圖2-17所示。MPI混合架構(gòu)程序設(shè)計(jì)語(yǔ)言與框架概述目前(2022年),最新的MPI標(biāo)準(zhǔn)是MPI-4協(xié)議,新支持或改進(jìn)的功能包括RMA/單邊通信、持久化集合通信等。目前,MPI-5協(xié)議標(biāo)準(zhǔn)也正在醞釀中。MPI消息傳遞接口為并行計(jì)算和科學(xué)應(yīng)用的開(kāi)發(fā)提供了豐富的通信接口。目前MPI協(xié)議還在不斷升級(jí)中,研究人員稱,未來(lái)在接口支持和混合編程等方面將會(huì)做進(jìn)一步的研究和優(yōu)化。MPI混合架構(gòu)程序設(shè)計(jì)語(yǔ)言與框架概述CUDA/HIP是一種異構(gòu)編程模型,基于C++擴(kuò)展,它可以使用編程接口訪問(wèn)和操作GPU,完成計(jì)算密集型的任務(wù)處理。CUDA/HIP不要求程序員顯式管理線程,方便其編寫(xiě)并行程序代碼,大幅簡(jiǎn)化了編程模型。CUDA/HIP編程模型將大量線程組織為網(wǎng)格(Grd)-線程塊(Blok)-線程(Thread)的層次結(jié)構(gòu),如圖2-18所示,只有在同一個(gè)線程塊中的線程才能通過(guò)共享內(nèi)存和線程同步進(jìn)行協(xié)作計(jì)算。CUDA/HIP混合架構(gòu)程序設(shè)計(jì)語(yǔ)言與框架概述CUDA/HIP混合架構(gòu)程序設(shè)計(jì)語(yǔ)言與框架概述在CUDA/HIP編程模型中,主機(jī)端(Host)和設(shè)備端(Device)一般分別維護(hù)各自的存儲(chǔ)單元,分別稱為主機(jī)內(nèi)存和設(shè)備內(nèi)存。一個(gè)CUDA/HIP程序,至少需要執(zhí)行以下三個(gè)步驟:將數(shù)據(jù)從主機(jī)內(nèi)存復(fù)制到設(shè)備內(nèi)存中;主機(jī)端調(diào)用設(shè)備端核函數(shù),加載并執(zhí)行CUDA/HIP程序;將計(jì)算結(jié)果從設(shè)備內(nèi)存復(fù)制到主機(jī)內(nèi)存中。CUDA/HIP混合架構(gòu)程序設(shè)計(jì)語(yǔ)言與框架概述和OpenMP類似,OpenACC也描述了一組編譯器指令,通過(guò)指定C、C++和FORTRAN程序中的循環(huán)代碼區(qū)域,將計(jì)算任務(wù)從主機(jī)端加載到設(shè)備端加速器上執(zhí)行,從而提供跨操作系統(tǒng)、主機(jī)端CPU和

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論