開(kāi)放架構(gòu)HPC技術(shù)與生態(tài)白皮書(shū)_第1頁(yè)
開(kāi)放架構(gòu)HPC技術(shù)與生態(tài)白皮書(shū)_第2頁(yè)
開(kāi)放架構(gòu)HPC技術(shù)與生態(tài)白皮書(shū)_第3頁(yè)
開(kāi)放架構(gòu)HPC技術(shù)與生態(tài)白皮書(shū)_第4頁(yè)
開(kāi)放架構(gòu)HPC技術(shù)與生態(tài)白皮書(shū)_第5頁(yè)
已閱讀5頁(yè),還剩198頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

開(kāi)放架構(gòu)HPC技術(shù)與生態(tài)白皮1開(kāi)放架構(gòu)HPC技術(shù)與生態(tài)白皮書(shū)盧凱安靜劉杰 張華陳超張超黃典張洋康毛峰張群李若肖晟強(qiáng)勝趙磊田群(排名不分先后指導(dǎo)單位 中國(guó)計(jì)算機(jī)學(xué)會(huì)高性能計(jì)算專委

北太振寰(重慶)2(排名不分先后2開(kāi)放架構(gòu)HPC技術(shù)與生態(tài)開(kāi)放架構(gòu)HPC技術(shù)與生態(tài)白皮 開(kāi)放架構(gòu)HPC技術(shù)與生態(tài)開(kāi)放架構(gòu)HPC技術(shù)與生態(tài)白皮 33引 技術(shù) 從國(guó)家超算戰(zhàn)略看ARM指令集兼容架構(gòu)在HPC領(lǐng)域的發(fā) 從TOP500看ARM指令集兼容架構(gòu)在HPC領(lǐng)域的發(fā) ARM指令集兼容架構(gòu)在商用HPC領(lǐng)域的崛 ARM指令集兼容架構(gòu)針對(duì)HPC的改進(jìn)及演 從終端走向 面向HPC的ARM指令集兼容架構(gòu)演 國(guó)內(nèi)ARM指令集兼容架構(gòu)處理器針對(duì)HPC領(lǐng)域的進(jìn) ARM指令集兼容架構(gòu)在HPC的未來(lái)發(fā)展趨 生態(tài) ARM指令集兼容架構(gòu)面向HPC領(lǐng)域的生態(tài)構(gòu) 操作系統(tǒng)生 概 銀河麒 Arch 編譯器生 ARM官方編譯 亞馬遜編譯 Ampere編譯 富士通編譯 Cray編譯 畢昇編譯 天鷹編譯 平臺(tái)層生 概 OpenHPC框 華為鯤鵬DevKit與 ARM性能庫(kù) ArmComputeLibrary開(kāi)源數(shù)學(xué) 華為KML數(shù)學(xué) OpenBLAS開(kāi)源數(shù)學(xué) LIBXSMM開(kāi)源數(shù)學(xué) LibShalom開(kāi)源數(shù)學(xué) BLASFEO開(kāi)源數(shù)學(xué) BLIS開(kāi)源數(shù)學(xué) ATLAS開(kāi)源數(shù)學(xué) 稠密線性系統(tǒng)解法 稀疏線性系統(tǒng)解法 ELPA社 面向ARM兼容指令集架構(gòu)的應(yīng)用軟件生 概 基礎(chǔ)科 4氣候海 4開(kāi)放架構(gòu)HPC技術(shù)與生態(tài)開(kāi)放架構(gòu)HPC技術(shù)與生態(tài)白皮 開(kāi)放架構(gòu)HPC技術(shù)與生態(tài)開(kāi)放架構(gòu)HPC技術(shù)與生態(tài)白皮 55制造仿 材料計(jì) 生命科 地球物 面向ARM指令集兼容架構(gòu)的國(guó)產(chǎn)科學(xué)/工業(yè)軟 概 中國(guó)科學(xué)院過(guò)程工程研究所芯片后端驗(yàn)證工具 中國(guó)科學(xué)院過(guò)程工程研究所離散顆粒運(yùn)動(dòng)模擬軟件 中國(guó)科學(xué)院過(guò)程工程研究所擬顆粒模擬 中國(guó)科學(xué)院國(guó)家天文臺(tái)天體物理模擬軟件 中國(guó)科學(xué)院計(jì)算機(jī)網(wǎng)絡(luò)信息中心相場(chǎng)模擬軟件 中國(guó)科學(xué)院計(jì)算技術(shù)研究所分子動(dòng)力學(xué)模擬軟件DeePMD- 中國(guó)科學(xué)院格點(diǎn)量子色動(dòng)力學(xué) 中國(guó)科學(xué)院海洋環(huán)流模式 中國(guó)空氣動(dòng)力研究與發(fā)展中心NNW系列軟 國(guó)防科技大學(xué)銀河矩陣計(jì)算軟件 國(guó)防科技大學(xué)不可壓縮流體計(jì)算軟件 國(guó)防科技大學(xué)銀河通用網(wǎng)格生成軟件 西安電子科技大學(xué)計(jì)算電磁軟件 自然資源部第一海洋研究所海浪模式 航空工業(yè)西安航空計(jì)算技術(shù)研究所外流仿真分析軟件WiseCFD- 中國(guó)核動(dòng)力研究設(shè)計(jì)院MOI-X與 西北工業(yè)大學(xué)航發(fā)仿真應(yīng)用計(jì)算軟件 北京理工大學(xué)全波數(shù)值電磁仿真軟件 6用戶 6上海交通大 蘭州大 中國(guó)科學(xué)技術(shù)大 國(guó)家超級(jí)計(jì)算天津中 國(guó)家超級(jí)計(jì)算深圳中 國(guó)家超級(jí)計(jì)算長(zhǎng)沙中 國(guó)家超級(jí)計(jì)算廣州中 國(guó)家超級(jí)計(jì)算濟(jì)南中 武漢超算中 廣東氣象 深圳華大生命科學(xué)研究 飛騰信息技術(shù)有限公 澎峰(北京)科技有限公 中國(guó)移動(dòng)通信集團(tuán)浙江有限公 上汽大眾汽車有限公 英特工程仿真技術(shù)(大連)有限公 深圳十灃科技有限公 湖南邁曦軟件有限責(zé)任公 北京龍訊曠騰科技有限公 北太振寰(重慶)科技有限公 結(jié) 開(kāi)放架構(gòu)HPC技術(shù)與生態(tài)開(kāi)放架構(gòu)HPC技術(shù)與生態(tài)白皮 HP已進(jìn)入EE中歐等HPC算力高地都開(kāi)始選擇ARMEARM指令集兼容PPCouPARMHP領(lǐng)域的5G開(kāi)放架構(gòu)開(kāi)放架構(gòu)放架構(gòu)HPCARM指令集兼容HPC生ARM希望本白皮書(shū)的推出能夠形成HPC開(kāi)放架構(gòu)HPC122 開(kāi)放架構(gòu)HPC技術(shù)與生態(tài)開(kāi)放架構(gòu)HPC技術(shù)與生態(tài)白皮 技術(shù)開(kāi)放架構(gòu)HPC技術(shù)與生態(tài)開(kāi)放架構(gòu)HPC技術(shù)與生態(tài)白皮 技術(shù)ARM指令集兼容架構(gòu)已成為HPC主流技術(shù)與未來(lái)發(fā)展的重要趨勢(shì),可滿足大型超算系統(tǒng)與商用HPC系統(tǒng)的技術(shù)需求。從國(guó)家超算戰(zhàn)略看ARM指令集兼容架構(gòu)在HPC領(lǐng)域的發(fā)中歐美日等算力高地都通過(guò)國(guó)家戰(zhàn)略牽引各自的超算建設(shè)。如中國(guó)的科技部高性能計(jì)算專項(xiàng)、美ECPEuoHPCFLGSHP200EuoHPC計(jì)劃中設(shè)置ECP計(jì)劃開(kāi)發(fā)歐洲獨(dú)立自主的RM指令集兼容架構(gòu)CPU,日本富士通采用ARMA4X芯片,打造“富岳”超算,美國(guó)將采ARMNVIDIAGaeCPUenado各個(gè)國(guó)家超算戰(zhàn)略的技術(shù)選擇,為RM指令集兼容架構(gòu)這種開(kāi)放架構(gòu)技術(shù)演進(jìn)與生態(tài)發(fā)展提供了重要支撐。從TOP500看ARM指令集兼容架構(gòu)在HPC領(lǐng)域的發(fā)202211TOP5005ARM建的超級(jí)計(jì)算機(jī)入圍。同時(shí),美國(guó)、日本、歐洲也都發(fā)布了多臺(tái)基于ARM指令集兼容架構(gòu)處理器的超級(jí)計(jì)算機(jī)建設(shè)計(jì)劃,ARM指令集兼容架構(gòu)正在成為未來(lái)HPC的主流技術(shù)和發(fā)展趨勢(shì)。從表2-1中可以看出,日本在基于ARM指令集兼容架構(gòu)處理器的超級(jí)計(jì)算機(jī)建設(shè)方面走在了世界前列:入圍的5臺(tái)超級(jí)計(jì)算機(jī)中有4臺(tái)為日本建造,都采用了富士通(ujisu)基于ARM指令集兼容架構(gòu)的A6XCPU,其中“uu”超級(jí)計(jì)算機(jī)更是奪得了2206月發(fā)布的全球超級(jí)計(jì)算機(jī)OP500的榜首。美國(guó)在2018年也推出了Ata超級(jí)計(jì)算機(jī),該超級(jí)計(jì)算機(jī)采用Marvell推出的基于ARMThunder22.3PFlops?;贏RM指令集兼容架構(gòu)處理器的超級(jí)計(jì)算機(jī)進(jìn)入全球超級(jí)計(jì)算機(jī)OP500ARM指令集兼容架構(gòu)在高性能計(jì)算領(lǐng)域的潛力。OP50G4ay2018ARM指令集兼容架構(gòu)處理器的超級(jí)計(jì)算機(jī):”Ismad”超級(jí)計(jì)算機(jī);中國(guó)天河新一代超級(jí)計(jì)算機(jī)同樣采用ARMARM域必將占領(lǐng)一席之地。2-12022-11全球高性能計(jì)算機(jī)TOP500排行榜中基于ARMCPU/2537.21Armv8.2-ASVE512位25.95Armv8.2-ASVE512位19.46Armv8.2-ASVE512位7.79Armv8.2-ASVE512位2.30MarvellThunderX2CN9975-200028C目前采用ARM指令集兼容架構(gòu)的超級(jí)計(jì)算機(jī)介紹如下“Fugaku”超級(jí)計(jì)算20206月22日,新一期全球超級(jí)計(jì)算機(jī)OP500榜單公布,日本uau(富岳)超級(jí)計(jì)算機(jī)奪得榜首。uauujisu(富士通)基于ARMA64XCPU,整個(gè)53.21PFlo/sARM性能計(jì)算機(jī)OP500uauAI“Wisteria”超級(jí)計(jì)算Wisteria超級(jí)計(jì)算機(jī)是由Fujitsu(富士通)公司研發(fā)、部署在日本東京大學(xué)的一臺(tái)集成HPC和AIOdyssey(仿真節(jié)點(diǎn)組)Aquarius(Odyssey7680括1路基于ARM指令集兼容架構(gòu)的48核A64FXCPU,集群總峰值性能為25.9PFlops,主要負(fù)責(zé)仿真任務(wù);Aquarius為GPU計(jì)算集群,雙精度峰值總性能達(dá)7.2PFlops,主要負(fù)責(zé)數(shù)據(jù)分析與人工智能?!癋low”超級(jí)計(jì)算Flow超級(jí)計(jì)算機(jī)采用了與Fugaku相同的CPU,部署在名古屋大學(xué)的信息技術(shù)中心,峰值性能達(dá)到7.79PFlops,主要應(yīng)用于新冠肺炎解藥的開(kāi)發(fā)和解析超級(jí)臺(tái)風(fēng)等異常氣候檢測(cè)以及材料研究等領(lǐng)域“Astra”超級(jí)計(jì)算Astra超級(jí)計(jì)算機(jī)由惠普公司打造,部署在美國(guó)新墨西哥州阿爾伯克基的桑迪亞國(guó)家實(shí)驗(yàn)室。AstraCaviumARMThunderX236核心,全系統(tǒng)共2592個(gè)計(jì)算節(jié)點(diǎn),峰值計(jì)算性能可達(dá)到2.3petaflops,主要用于核武器安全性和可靠“Isambard”超級(jí)計(jì)算Isambard由GW4聯(lián)盟、Cray公司、英國(guó)氣象局于2018年聯(lián)合建造,是歐洲第一臺(tái)基于ARM指令集兼容架構(gòu)處理器的超級(jí)計(jì)算機(jī),采用MarvellThunderX2處理器,包含10000個(gè)ARM指令集兼容架構(gòu)的處理器核心,理論峰值為172TFlop/s。其升級(jí)版Isambard2超級(jí)計(jì)算機(jī)將其規(guī)模擴(kuò)展了兩倍,處理器核心數(shù)達(dá)到了21504個(gè)。Isambard部署在英國(guó)的布里斯托爾大學(xué),是英國(guó)新的HPC服務(wù)的基礎(chǔ)同時(shí),美國(guó)和歐洲還有多臺(tái)基于ARM指令集兼容架構(gòu)處理器的超級(jí)計(jì)算機(jī)建造計(jì)劃,主要如下“Mont-Blanc”超級(jí)計(jì)算Mont-Blanc項(xiàng)目旨在為歐洲下一代百億億次超級(jí)計(jì)算機(jī)進(jìn)行驗(yàn)證,將采用Cavium的ThudnerX264位ARM指令集兼容架構(gòu)處理器進(jìn)行建造,部署地以及算力等具體參數(shù)尚未公布?,F(xiàn)階段Mont-2020演示器已經(jīng)完成,對(duì)下一階段百億億次級(jí)完整超級(jí)計(jì)算系統(tǒng)的研制有重要參考作用2)“阿爾卑斯山”超級(jí)計(jì)算2021412NVIDIA宣布,他們正在基于ARM指令集兼容架構(gòu)處理器架構(gòu)打造全球最強(qiáng)大的AI超級(jí)計(jì)算機(jī):“阿爾卑斯山”超級(jí)計(jì)算機(jī),該超級(jí)計(jì)算機(jī)計(jì)劃于2023年上線,將取代瑞士國(guó)家超級(jí)計(jì)算中心現(xiàn)有的PizDaint超級(jí)計(jì)算機(jī)?!鞍柋八股健睂⑹褂萌禄贏RM指令集兼容架構(gòu)的NVIDIAGraceCPU,將應(yīng)用在包括氣候和天氣,材料科學(xué),天體物理學(xué),3)“Venado”超級(jí)計(jì)算NVIDIA將使用GaeCPUGaeHopperGPU為美國(guó)洛斯阿拉莫斯國(guó)家實(shí)驗(yàn)室(osAlamosNtionalLaboory,LANL)構(gòu)建一臺(tái)名為enado的超級(jí)計(jì)算機(jī),預(yù)計(jì)AI峰值性能將超過(guò)10aFlps。enaoGaeCPU可再生能源等領(lǐng)域。NVIDIAGaeCPUARMV9AI、HPC用而設(shè)計(jì)。ARM指令集兼容架構(gòu)在商用HPC領(lǐng)域的崛除在超級(jí)計(jì)算機(jī)領(lǐng)域發(fā)展的如火如荼之外,ARMHC領(lǐng)域也異軍突起,基ARMHPC國(guó)內(nèi)基于ARM指令集兼容架構(gòu)的服務(wù)器芯片廠商主要有三家:華為、飛騰以及阿里平頭哥920CPUTaiShan920CPU2019ARM指令集兼容架構(gòu)的高性能處理器,具有高性能、高吞吐、高集成和高效能等特點(diǎn)?;邛H鵬920CPU的TaiShan系列服務(wù)器,推出高性能型、均衡型、存儲(chǔ)型和高密型等不同機(jī)型,分別面向高性能算、大數(shù)據(jù)、分布式存儲(chǔ)和ARM原生應(yīng)用等場(chǎng)景,能夠充分發(fā)揮ARM指令集兼容架構(gòu)在多核、高能效交通、交通、金融等不同領(lǐng)域,全球已經(jīng)有11家整機(jī)廠商基于鯤鵬920CPU推出自由品牌服務(wù)器。基于飛騰系列CPU的商用服務(wù)器飛騰系列CPU是基于ARM指令集兼容架構(gòu)設(shè)計(jì)的處理器,共推出高性能服務(wù)器CPU、高效能桌面CPU和高端嵌入式CPU等多個(gè)系列,其中服務(wù)器芯片主要有飛騰騰云S2500、F-2000+/64F-1500A/16三款不同型號(hào)。截至20229月底,飛騰的生態(tài)伙伴46003009843413同時(shí)飛騰已聯(lián)合千余家國(guó)內(nèi)軟硬件廠商,支撐了2600多款飛騰平臺(tái)設(shè)備上市,已經(jīng)和正在適配的軟件和外設(shè)超過(guò)22600款,分布在操作系統(tǒng)、應(yīng)用軟件、安全、云產(chǎn)品、數(shù)據(jù)庫(kù)、中間件等各個(gè)領(lǐng)域。710CPU20211019哥發(fā)布自研高性能倚天710CPU。倚天710CPU采用最新的ARMv9架構(gòu),是阿里首款全棧自研的通用CPU,也是全球首款采用5nm工藝的服務(wù)器芯片。目前,基于倚天710CPU的商用服務(wù)器已部署于阿ARMNVIDIA、MRVELL、Ampee、亞馬遜和富士通?;贜VIDIAGrace超級(jí)芯片的商用服務(wù)器NVIDIAGraceCPU基于最新的ARMv9架構(gòu),專為AI、HPC、云計(jì)算和超大規(guī)模應(yīng)用而設(shè)計(jì),部署的144個(gè)核心和1TB/s的內(nèi)存帶寬將為基于CPU的高性能計(jì)算應(yīng)用提供前所未有的性能。同時(shí),基于NVIDIANVLink-C2C技術(shù)的NVIDIAGraceHopper超級(jí)芯片將GraceCPU和新一代HopperGPU高速相連,并能夠?yàn)榧铀貯I和HPC計(jì)算提供CPU+GPU的一致內(nèi)存模型。更為重要的是,GraceCPU可以運(yùn)行所有的NVIDIA計(jì)算軟件棧。MARVELLThunderXCPUMarvellThunderXCPUARM指令集兼容架構(gòu)設(shè)計(jì)的處理器,先后推出ThunderX1、ThunderX2ThunderX3三款高性能服務(wù)器CPU。ThunderX系列CPU可應(yīng)用于高性能計(jì)算、云計(jì)算、邊緣計(jì)算等諸多領(lǐng)域,滿足計(jì)算、存儲(chǔ)、ARM能計(jì)算數(shù)據(jù)中心內(nèi)的采用和部署。ThunderXCPUAueos基于Ampere系列CPU的商用服務(wù)器AmpereComputing(安晟培半導(dǎo)體)是英特爾前總裁ReneeJames創(chuàng)立的服務(wù)器芯片獨(dú)角獸公司。安晟培半導(dǎo)體先后發(fā)布了多款基于ARM指令集兼容架構(gòu)的服務(wù)器芯片,如80核AmpereAltraCPU、128核AmpereAltraMaxCPU、以及新推出的以ARM指東、Equinix、CloudFlare、字節(jié)跳動(dòng)等多個(gè)超大規(guī)模數(shù)據(jù)中心正在部署AmpereComputing產(chǎn)品。應(yīng)用基于ARM指令集兼容架構(gòu)的CPU芯片。2018年,AWS首次推出基于ARM指令集兼容架構(gòu)的自研AmazonGraviton,45%;2019Graviton2,種工作負(fù)載又提升了40%的性價(jià)比。接著,AWS在2021年12月推出了Graviton3,在相同性能下,Graviton3處理器與同類型基于x86的實(shí)例對(duì)比,可節(jié)省高達(dá)60%的能耗。同時(shí)AWS還發(fā)布了采用了Graviton3C7gARMNeoverseDDR5于其優(yōu)異的表現(xiàn),AWS攬入了Domo、F1方程式賽車、Snap等一干重量級(jí)客戶。富士通的HPC商業(yè)化富士通制造的超級(jí)計(jì)算機(jī)Fugaku是現(xiàn)在世界上最快的基于ARM指令集兼容架構(gòu)處理器的超級(jí)計(jì)算機(jī),同時(shí)富士通在基于ARM指令集兼容架構(gòu)的HPC商業(yè)化方面也很出色。202023243a.121為主承包商為歐盟和葡萄牙政府提供高性能計(jì)算千億級(jí)超級(jí)計(jì)算機(jī)的采購(gòu)、交付、安裝以及硬件和軟件075C0MX4的建造,為093ARM指令集兼容架構(gòu)針對(duì)HPC的改進(jìn)及演HPCX86CPU“一統(tǒng)江湖”ower、MS威架構(gòu)的挑戰(zhàn),但誰(shuí)都無(wú)法撼動(dòng)X86HPCARM架構(gòu)處理器向服務(wù)器芯片市場(chǎng)進(jìn)行拓展,特別是220年搭載基于ARM指令集兼容架構(gòu)處理器的日本uak超級(jí)計(jì)算機(jī)榮登全球超算OP500ARMX86圖2-1ARM架構(gòu)從終端到服務(wù)器的發(fā)傳統(tǒng)上,ARMM1M2ARMPCAMv8AMv9ARMHPCHPCx86HPC總體來(lái)看,ARM指令集兼容架構(gòu)進(jìn)入高性能計(jì)算領(lǐng)域分為三個(gè)階段第一階段“啟程”早在2008年,ARMCaledaCaleda2011年發(fā)布了基于ARMA9架構(gòu)的芯片EnegyCoeEC-1000CPU,304顆芯片的板卡組成了490個(gè)核的服務(wù)器系統(tǒng)。不過(guò)很可惜,Calea公司倒在了第三輪融資的路上,于2013年破產(chǎn)倒閉。CaldaARM指令集兼容架構(gòu)在服務(wù)器領(lǐng)域第一個(gè)“吃螃蟹的人”,也吹響了ARM指令集兼容架構(gòu)向服務(wù)器領(lǐng)域進(jìn)軍的號(hào)角。除Caleda公司外,在這一階段基于ARMv7架構(gòu)的MarvellARM指令集兼容架構(gòu)進(jìn)軍服務(wù)器領(lǐng)域留下了濃重的一筆,Del公司以此為核心推出的“Copper”服務(wù)器系統(tǒng)在百度部署過(guò),成為AMRM指令集兼容架構(gòu)進(jìn)軍服務(wù)器領(lǐng)域的第一階段“始于CaledaCaleda”,32bit完善成為ARM指令集兼容架構(gòu)走向HPCCaled最后的結(jié)業(yè)郵件中提到的,ARM指令集兼容架構(gòu)服務(wù)器的出現(xiàn),“theindutrywillbetansormedoever”。第二階段“覺(jué)醒”201110ARM64ARMv8ARMHPC“覺(jué)醒”AMv7,ARMv86428NEONARMARMv8ARM圖2-2ARMv8架構(gòu)與ARMv7架構(gòu)的差A(yù)MMarvellThunderX和ThunderX2CPU是這一階段的代表性芯片,這兩款芯片已經(jīng)具備了服務(wù)器芯片的主要特征:超多核設(shè)計(jì)(ThunderXCPU48核,ThunderX2CPU32)、高性能、高吞吐,處理器整X86ThuderX2CPUAta超級(jí)計(jì)算機(jī),峰值性能達(dá)到2.PFlops,ARM9161500A兩款基于ARM第三階段“成熟2019,ARM2瞄準(zhǔn)高性能計(jì)算的全新平臺(tái)—-NeoverseN1NeoverseE1,兩者都是基于ARMv8.2-A架構(gòu)。其中,NeoverseN1專為服務(wù)器和基礎(chǔ)設(shè)施市場(chǎng)設(shè)計(jì),NeoverseE1專為高吞吐量運(yùn)算工作負(fù)載設(shè)計(jì)。隨后,ARM公司推出兩個(gè)新的升級(jí)平臺(tái):ARMNeoverseV1和NeoverseN2,其中,V1是一個(gè)全新的產(chǎn)品,基于ARMv8.4-A架構(gòu),適用于繁重的HPC、云端運(yùn)算及AI/ML輔助工作負(fù)載;N2是N1的升級(jí)版,是首個(gè)基于ARMv9架構(gòu)且支持SVE的處理器IP,可為多樣工作負(fù)載提供40%的性能提升。Neoverse架構(gòu)的發(fā)布,標(biāo)志這ARM架構(gòu)在服務(wù)器領(lǐng)域的成熟。這一階段基于ARM指令集兼容架構(gòu)的服務(wù)器芯片百花齊放,國(guó)內(nèi)如華為鯤鵬920、飛騰、阿里倚天710CPU;國(guó)外如MarvelThunderX3、富士通的A64FX、AmpereAltra,AWSGravition2等CPU。除此之外,SiPearl、NUVIA等一批初創(chuàng)企業(yè)的加入也為ARM指令集兼容架構(gòu)服務(wù)器芯片市場(chǎng)帶來(lái)了新的助力??傊?,隨著硬件架機(jī)和商用HPC領(lǐng)域展露鋒芒,在競(jìng)爭(zhēng)日益激烈的服務(wù)器市場(chǎng)最終占據(jù)了一席之地。面向HPC的ARM指令集兼容架構(gòu)演ARMv8架構(gòu)是ARM201164位架構(gòu),相比ARMv78NEOARMv8時(shí),針對(duì)高性能計(jì)算、數(shù)據(jù)中心的任務(wù)負(fù)載情況,AM公司設(shè)計(jì)和引入了新的指令集:可伸縮矢量擴(kuò)(Salableeorensions/SVE)ARMv8架構(gòu)的可選擴(kuò)展指令集,SVE128-bit、最高2048-bit2021RMARMv9相比于AMv8最主要的區(qū)別有三點(diǎn):AI、改進(jìn)矢量擴(kuò)展指令集SVE2以及安全。機(jī)器學(xué)習(xí)成為ARMv9ARMMLAMv9AMI工作負(fù)載支持的強(qiáng)化。SVE2指令集一方面完善了SVENeon的靈活性,可變長(zhǎng)度讓其不但適應(yīng)使用長(zhǎng)矢量寄存器的工作,還能勝任使用短矢量寄存器的任務(wù)。安全ARMv9架構(gòu)的重要特征,ARM公司希望通過(guò)引入機(jī)密計(jì)算體系結(jié)構(gòu)來(lái)重新設(shè)計(jì)安全應(yīng)用程序的工作ARM國(guó)內(nèi)ARM指令集兼容架構(gòu)處理器針對(duì)HPC領(lǐng)域的進(jìn)ARM公司對(duì)其架構(gòu)的授權(quán)方式有如下幾種處理器優(yōu)化包/物理IP包授權(quán)(硬核):按照ARM公司設(shè)計(jì)好的處理器規(guī)格、在指定的代工內(nèi)核層級(jí)授權(quán):用戶可以將IP核應(yīng)用到其自行設(shè)計(jì)的芯片中,但用戶不能對(duì)IP核進(jìn)行修改。處理器核授權(quán)(軟核):擁有RTL代碼,可進(jìn)行代碼級(jí)的單元測(cè)試,可以自行完成邏輯設(shè)計(jì)和架構(gòu)層級(jí)授權(quán):是指用戶擁有處理器架構(gòu)級(jí)的設(shè)計(jì)和制造許可,用戶甚至可以從自己的具體需求出發(fā),對(duì)ARM架構(gòu)進(jìn)行大幅度改造或者對(duì)指令集進(jìn)行擴(kuò)展或縮減,以便達(dá)到更高性能、更低功耗或更低成本的目標(biāo)。擁有架構(gòu)授權(quán)的典型廠商包括高通、蘋果、微軟等。中國(guó)的華為、飛騰等芯片廠商同樣擁有ARM公司的架構(gòu)級(jí)授權(quán),這是高度自主研發(fā)服務(wù)器芯片的設(shè)計(jì)根基。目前,基于ARM指令集兼容架構(gòu)的服務(wù)器CPU在國(guó)內(nèi)應(yīng)用廣泛,已經(jīng)成為在自主創(chuàng)新、安全可控、產(chǎn)業(yè)生態(tài)等領(lǐng)域的最佳選擇。國(guó)內(nèi)采用ARM指令集兼容架構(gòu)處理器的服務(wù)器,目前大體分為華為的鯤鵬系列、中國(guó)電子的飛騰ARMv82014ARMV8架構(gòu)的16核FT-1500A/16CPU問(wèn)世為標(biāo)志,開(kāi)啟了飛騰CPU快速發(fā)展的新篇章,標(biāo)志著飛騰基于ARM指令集兼容架構(gòu)的CPU進(jìn)入到HPC領(lǐng)域。隨后,飛騰分別于2016年推出第一款64核處理器芯片F(xiàn)T-2000/642017年推出第二代64核處理器芯片F(xiàn)T-2000/64以及隨后推出的S2500服務(wù)器級(jí)CPU同時(shí),在生態(tài)合作方面,飛騰迅猛暴發(fā),從OEM廠商到硬件產(chǎn)品設(shè)計(jì),再到軟件兼容認(rèn)證,飛騰在服務(wù)器領(lǐng)華為自研的鯤鵬920芯片是基于華為自研TaiShan核的高性能處理器,整個(gè)芯片代碼約300多萬(wàn)行,ARM指令集兼容架構(gòu)在HPC的未來(lái)發(fā)展趨眾核趨勢(shì)明顯為了應(yīng)對(duì)HPCARM集兼容架構(gòu)服務(wù)器芯片頻率越來(lái)越高,單核性能越來(lái)越高,逐漸可以對(duì)標(biāo)X86富士A64FXCPU48核,到鯤920CPU64核,再AmpereAltraMaxCPU128核,ARM更完善的向量化指令集針對(duì)HPC領(lǐng)域工作負(fù)載的多樣性,SVE2指令集更加完善,已經(jīng)可以初步對(duì)標(biāo)X86AVX512指令集;同時(shí),SVE2可變長(zhǎng)向量功能,能夠適應(yīng)更加靈活的數(shù)據(jù)訪問(wèn)和計(jì)算。除了對(duì)通用指令繼續(xù)完善外,還添加了對(duì)矩陣乘指令的支持,加強(qiáng)了對(duì)AI工作負(fù)載的支持。使用HBM2e/HBM3920ARM指令集兼容架構(gòu)CPUCPU。更安全提高安全性是ARM指令集兼容架構(gòu)的一個(gè)重要特征,為此,許多ARM指令集兼容建構(gòu)處理器特意增加了專門的安全模塊,以此來(lái)應(yīng)對(duì)越來(lái)越嚴(yán)峻的安全威脅。這是ARM指令集兼容架構(gòu)進(jìn)軍服務(wù)器和HPC市場(chǎng)的一個(gè)重要進(jìn)步。自研芯片會(huì)越來(lái)越多,ARM指令集兼容架構(gòu)服務(wù)器芯片越來(lái)越“百花齊放ARM指令集兼容架構(gòu)芯片強(qiáng)大的定制能力,使得越來(lái)越多的芯片廠商在授權(quán)的ARMIP基礎(chǔ)上,開(kāi)始根據(jù)市場(chǎng)的“終端”用戶“下?!背齻鹘y(tǒng)芯片廠商外,如亞馬遜、阿里巴巴等終端用戶也開(kāi)始研制ARM指令集兼容架構(gòu)服務(wù)器芯片,部署在自己的大數(shù)據(jù)中心或者云服務(wù)中心。ARMHPC發(fā)者不斷參與到ARM指令集兼容架構(gòu)HPC生態(tài)的構(gòu)建中,而隨著生態(tài)的不斷完善和技術(shù)的不斷成熟,典型應(yīng)用到ARM指令集兼容架構(gòu)HPC上的遷移難度越來(lái)越低,這會(huì)有力推動(dòng)ARM指令集兼容架構(gòu)在這類技術(shù)可以動(dòng)態(tài)的進(jìn)行其他指令集到ARM指令集的翻譯,在無(wú)需進(jìn)行代碼重新遷移的情況下,直接 開(kāi)放架構(gòu)HPC技術(shù)與生態(tài)開(kāi)放架構(gòu)HPC技術(shù)與生態(tài)白皮 生態(tài)開(kāi)放架構(gòu)HPC技術(shù)與生態(tài)開(kāi)放架構(gòu)HPC技術(shù)與生態(tài)白皮 生態(tài)ARM軟件生態(tài)獲得突破,具備大規(guī)模進(jìn)入生產(chǎn)系統(tǒng)的條件。ARM指令集兼容架構(gòu)面向HPC領(lǐng)域的生態(tài)構(gòu)ARMPC領(lǐng)域的基礎(chǔ)生態(tài)完整,在系統(tǒng)層、編譯層、平臺(tái)層和應(yīng)用層具有完備易用的系統(tǒng)實(shí)現(xiàn)和工具鏈。ARMLinuxLinux源軟件,國(guó)內(nèi)也有基于Linux開(kāi)發(fā)的麒麟操作系統(tǒng)等,并對(duì)華為鯤鵬和飛騰芯片都適配得較好,在行業(yè)也得到廣泛應(yīng)用。國(guó)外,linux系操作系統(tǒng)都提供了針對(duì)ARM指令集兼容架構(gòu)的商用發(fā)行版。編譯層GCLVM二次開(kāi)發(fā)和優(yōu)化得到。調(diào)測(cè)試工具主要針對(duì)具體芯片滿足斷點(diǎn)調(diào)測(cè)試和并行調(diào)測(cè)試的需求。并行編程模型主要包括MPI、OpenP、OpenCLGC平臺(tái)層平臺(tái)層主要包括求解器、算法庫(kù)和前后處理。求解器主要包括稠密和稀疏線性代數(shù)求解器,算法庫(kù)包括領(lǐng)域算法庫(kù)、BLAS、FFT、信號(hào)處理、圖像處理、超越函數(shù)等。前處理主要包括網(wǎng)格生成和數(shù)據(jù)預(yù)處理等,后處理主要指數(shù)據(jù)可視化。應(yīng)用層。獨(dú)立的代碼集合,分別開(kāi)發(fā)不同行業(yè)的應(yīng)用軟件,如粒子物理、CFD工智能和大數(shù)據(jù)處理等。ARMLinuxWindows要有兩點(diǎn):首先,雖然Windows操作系統(tǒng)在PC市場(chǎng)占據(jù)統(tǒng)治地位,但HPC領(lǐng)域主流仍為L(zhǎng)inux系統(tǒng),世界TOP500超級(jí)計(jì)算機(jī)全部采用Linux操作系統(tǒng);其次,微軟在2012年首次推出基于ARM的Windows8RT、2016年的“WindowsonARM”、2018年的windows10forARM以及最近的Windows11均存在一定缺陷,包括不能運(yùn)行64位程序、模擬運(yùn)行等,對(duì)ARM處理器支持有限。Linux操作系統(tǒng)主要指Linux發(fā)行版(Linuxditribution)是基于Linux內(nèi)核構(gòu)建的可安裝操作系統(tǒng),包含常用用戶程序和相關(guān)庫(kù),Liux發(fā)行版可分為由商業(yè)公司維護(hù)的商業(yè)版本和由開(kāi)源社區(qū)維護(hù)的免費(fèi)發(fā)行版本兩大類。國(guó)外主流的商業(yè)版包括edHtSSE,edHt主要的市場(chǎng)是美國(guó)而SE主要面向歐洲用戶,國(guó)內(nèi)的主要商業(yè)版本包括銀河麒麟和統(tǒng)信。相比而言,開(kāi)源操作系統(tǒng)百花齊放,Linux開(kāi)源版本主要有相應(yīng)社區(qū)維護(hù),包括CentOS、edoa、Debian、Ubuntu、OpenEuler等。需SSE、edHtedoa、OpenSEylin,事實(shí)上這些開(kāi)源社區(qū)已成為其對(duì)應(yīng)的商業(yè)版本的上游社區(qū),商業(yè)版吸收社區(qū)版本進(jìn)展并開(kāi)LnuxARMARMLinuxOpenEuler是由開(kāi)放原子開(kāi)源基金會(huì)(OpenAtomFoundation)孵化及運(yùn)營(yíng)的開(kāi)源項(xiàng)目,OpenEuler是面向數(shù)字基礎(chǔ)設(shè)施的開(kāi)源操作系統(tǒng)??蓮V泛部署于服務(wù)器、云計(jì)算、邊緣計(jì)算、嵌入式等各種形態(tài)設(shè)備,應(yīng)用場(chǎng)景覆蓋IT(InformationTechnology)、CT(CommunicationTechnology)和OT(OperationalTechnology),實(shí)現(xiàn)了統(tǒng)一操作系統(tǒng)支持多設(shè)備,應(yīng)用一次開(kāi)發(fā)覆蓋全場(chǎng)景。通過(guò)不斷的技術(shù)創(chuàng)新與技術(shù)升級(jí),OpenEuler不僅具備高性能、高安全、易運(yùn)維基礎(chǔ)能力,還具備全場(chǎng)景協(xié)同ARMHPC擬化、云計(jì)算、大數(shù)據(jù)、工業(yè)互聯(lián)網(wǎng)時(shí)代對(duì)主機(jī)系統(tǒng)可靠性、安全性、性能、擴(kuò)展性和實(shí)時(shí)性等需求,MMI5級(jí)標(biāo)準(zhǔn)研制的提供內(nèi)生本質(zhì)安全、云原生支持、自主平臺(tái)深入優(yōu)化、高性能、易管理的新;審計(jì)、交通、醫(yī)療、制造等領(lǐng)域?;阢y河麒麟高級(jí)服務(wù)器操作系統(tǒng),用戶可輕松構(gòu)建數(shù)據(jù)中心、高可用集群和負(fù)載均衡集群、虛擬化應(yīng)用服務(wù)、分布式文件系統(tǒng)等,并實(shí)現(xiàn)對(duì)虛擬數(shù)據(jù)中心的跨物理系統(tǒng)、虛擬機(jī)集群進(jìn)行統(tǒng)一的監(jiān)控和管理。發(fā)者共同創(chuàng)立的開(kāi)源社區(qū)OpenKyling在開(kāi)源、自愿、平等和協(xié)作的基礎(chǔ)上,通過(guò)開(kāi)源、開(kāi)放的社區(qū)合作構(gòu)建系統(tǒng)開(kāi)源社區(qū),推動(dòng)Linux開(kāi)源技術(shù)及其軟硬件生態(tài)繁榮發(fā)展。目前,OpenKyling正在推動(dòng)其ARM指令集兼容架構(gòu)上的開(kāi)放操作系統(tǒng)發(fā)布。RedRedHat1995年發(fā)布其第一個(gè)Linux發(fā)行版,也是最早使用RPM的操作系統(tǒng)。2003,RedHat發(fā)布其企業(yè)版RedHatEnterpriseLinux(RHEL),并將支持開(kāi)源社區(qū)繼續(xù)開(kāi)發(fā)其家用版FedoraLinux。RHELLinuxFedora。RedHat201564ARM2017RedHatRedHatEnterpriseLinux7.4中加入了對(duì)ARM架構(gòu)的支持,其目標(biāo)是構(gòu)建一個(gè)單一的操作系統(tǒng)平臺(tái)覆蓋不同廠商基于ARMv8架構(gòu)的64位服務(wù)器級(jí)處理器。與x86處理器不同,ARM系統(tǒng)硬件設(shè)計(jì)與實(shí)現(xiàn)具有較強(qiáng)獨(dú)立性,因此與Linux社區(qū)特征配合,而RHEL擁有包含上百家硬件廠商的龐大社區(qū)組織,可以即使獲取相關(guān)軟硬件程序,共同促進(jìn)ARM新技術(shù)的迭代更新。SUSELinux是德國(guó)SUSELinuxAG公司發(fā)行維護(hù)的Linux發(fā)行版,1994年年初發(fā)布第一個(gè)版本,2004SUSELinuxAGNovell。SUSELinux(SUSELinuxEnterpriseServer,SLES)存在ARM版本支持AArch64架構(gòu)ARM服務(wù)器并開(kāi)展了相應(yīng)的性能優(yōu)化、企業(yè)級(jí)安全、高可靠性以及相應(yīng)的技術(shù)支持。與其他SUSE一樣,SUSELinux企業(yè)服務(wù)器ARM版本也支持免費(fèi)下載,只是對(duì)OpenSUSE是在Novell收購(gòu)SUSELinuxAG后創(chuàng)建的社區(qū)項(xiàng)目目前是SLES的上游社區(qū)SLES來(lái)源于OpenSUSE但具有更長(zhǎng)的發(fā)行期。OpenSUSE存在兩個(gè)版本,OpenSUSELeap是傳統(tǒng)的SUSELinuxEnterprise(SLE)共享代碼庫(kù);OpenSUSETumbleweed則替代了傳統(tǒng)的數(shù)字版本號(hào)且周期性更新的版本,使用滾動(dòng)發(fā)布體系:軟件更新持續(xù)不斷地推出。OpenSUSE與SLE的關(guān)系類似Fedora與RHEL關(guān)系。同樣,OpenSUSEAArch64ARMUbuntu是由MarkShuttlework于2004年開(kāi)發(fā)的基于Debian的發(fā)行版,與Debian哲學(xué)相反,Ubuntu非常易于使用。Ubuntu22.04.1版支持最新64ARM架構(gòu)服務(wù)器,支持超過(guò)5萬(wàn)種軟件和運(yùn)行時(shí),包括Go,Jaa,Jaascrit,PHP,PythonRuby,UbuntuServerorARM提供服務(wù)器級(jí)別的性能,并保持高可靠性和與其他Ubunu系統(tǒng)一樣的使用體驗(yàn)。buntuARM服務(wù)器版本支持LXD署功能,此外,UbuntuArchLinuxARMArchLinuxArchlinuxLinux自己的特定需求選擇配置安裝相應(yīng)的軟件。Archlinux采用滾動(dòng)升級(jí)方式,提供多數(shù)軟件的最新穩(wěn)定版本。ArchLinuxARM為各種消費(fèi)類設(shè)備和開(kāi)發(fā)平臺(tái)上的軟浮動(dòng)ARMv5te,硬浮動(dòng)ARMv6和ARMv7以及ARMv8AArch64指令集提供有針對(duì)性的內(nèi)核和軟件支持,旨在為最終用戶提供簡(jiǎn)單性和完全控制。Debian由IanMurdock于1993年創(chuàng)建,目前有穩(wěn)定、測(cè)試和非穩(wěn)定三個(gè)版本,長(zhǎng)期支持的穩(wěn)定版大約每?jī)赡旮乱话娌⒈恢С?年。Debian以精簡(jiǎn)、輕量、快速著稱,廣泛用于操作系統(tǒng)高級(jí)用戶,在300LinuxDebian。DebianARM的機(jī)器提供最佳支持,這是由于ARM架構(gòu)是隨著時(shí)間的推移而發(fā)展,現(xiàn)代ARM處理器提供了舊型號(hào)上不可用的功能。Debian/armel針對(duì)舊的32位ARM處理器,而不支持硬件浮點(diǎn)單元(FPU);Debian/armhf僅適用于較新的32位ARM處理器其至少實(shí)現(xiàn)了ARMv7架構(gòu)且支持ARM矢量浮點(diǎn)規(guī)(VFPv3)ARMv8DebianARMDebian11時(shí)加入SMP支持。FedoraLinux是由開(kāi)源社區(qū)維護(hù)的Linux發(fā)行版,為RedHatEnterpriseLinux的上游。自從Fedora35后,F(xiàn)edora存在6個(gè)版本,PC、工作站、服務(wù)器、云計(jì)算、容器和物聯(lián)網(wǎng),F(xiàn)edora的特點(diǎn)Linux6FedoraARMARMv7(armhfpaarch32,andarm-32)aarch64(ARMv8andarm64),覆蓋的硬件范圍包括服務(wù)器、工作站以及IoT等。對(duì)于32和64位ARM架構(gòu)而言,F(xiàn)edora軟件棧是一致的。目前Fedora已經(jīng)停止對(duì)32位ARM架構(gòu)的繼續(xù)開(kāi)發(fā),并鼓勵(lì)用戶使用其aarch64版本。ARM官方編譯ARMAllinatudioARM服務(wù)器的應(yīng)用。ARMCompilerorLiux22.1ARMV8A的最新體系結(jié)構(gòu)功能和擴(kuò)展提供了支持,用于在基于ARM的平臺(tái)上進(jìn)行應(yīng)用開(kāi)發(fā)與程序性能調(diào)優(yōu),特別針對(duì)基于NEVESEV1NEVESEN1處理器的平臺(tái)(AmaonGavion2AmpeeAlta)進(jìn)行了優(yōu)化。該開(kāi)發(fā)套件主要包括ARMCC+/ortanCompiler22.1,ARMerormaneLibaries22.1.0GCC11.2.0三部分ARM22.1Linux用戶空間C/C++Fortran編譯器,為科學(xué)計(jì)算、HPC等量身定制;該編譯器是建立在開(kāi)源的Clang前端和基于LLVM13.0.1的優(yōu)化和代碼生成后端上。ARM編譯器支持現(xiàn)代C/C++、Fortran、OpenMP4.0OpenMP4.5標(biāo)準(zhǔn),具有內(nèi)置的自動(dòng)向量化模塊(SVENEON),并針對(duì)基于ARMv8-ASVESVE2ARMARM作為矢量和矩陣計(jì)算的性能解決方案;它主要針對(duì)密集數(shù)據(jù)型計(jì)算負(fù)載,提供了稀疏線性代數(shù)、FFT函數(shù)的解決方案。具體例程包括:BLAS,LACK,F(xiàn)FT,Sarse,liamth,liatring此外,ARMHPCArmForgeUltimate,它提供一套全面的并ArmDDTCPUC++、CFortranArmMAP并行應(yīng)用程序。Arm性能報(bào)告是一款低開(kāi)銷工具,可生成單頁(yè)文本和HTML報(bào)告,總結(jié)并描述標(biāo)量和MPI應(yīng)用性能。此工具有助于有效地描述和了解HPC應(yīng)用的運(yùn)行性能。(AWS)ARMNeoverseAWSGravitonCPU2019于NeoverseN1的Graviton2和2021年發(fā)布的基于NeoverseV1的Graviton3。針對(duì)Graviton系列CPU的編譯器是通過(guò)擴(kuò)展GCC或clang開(kāi)源編譯器實(shí)現(xiàn),并通過(guò)-mcpu選項(xiàng)指定適當(dāng)?shù)募軜?gòu)和優(yōu)化。Graviton2和Graviton3處理器支持在ARMv8.1(Large-SystemExtensions,LSE)相關(guān)指令功能,能夠提供低成本的原子操作,提高CPU到CPU間通信、鎖和互斥鎖的系統(tǒng)吞吐量Ampere編譯器AmpereAmpereAltraAmpereAltraMaxARMNeoverse-N1設(shè)計(jì)。騰訊云、UCloud,谷歌云等都推出了基于AmpereAltra的服務(wù)器。2022年,Ampere公司推出其下一代AmperOne處理器,不再使用現(xiàn)有的ARMNeoverse內(nèi)核,轉(zhuǎn)而采用完全定制的ARM內(nèi)核。在編譯器方面,202112月公司發(fā)布了AmpereGCC10.3.1compilers,目標(biāo)是在AmpereAarch64系統(tǒng)上構(gòu)建高性能應(yīng)用,并指出該編譯器開(kāi)始支持下一代Ampere處理器。2022年,Ampere公司在llvm15.0中添加了對(duì)“amper1”后端的初始編譯器支持,該后端確認(rèn)對(duì)ARMv8.6-A與FP16和MTE(內(nèi)富士通公司的A64FX是世界上第一個(gè)實(shí)現(xiàn)可伸縮向量擴(kuò)展(SVE)的處理器,是基于ARMv8.2指令集的擴(kuò)展。富士通公司的超級(jí)計(jì)算機(jī)Fugaku,PRIMEHPCFX700,F(xiàn)X1000,HPE的Apollo80都基于該P(yáng)RIMEHPCFX1000安裝有富士通公司開(kāi)發(fā)的HPC中間件FUJITSUSoftwareTechnicalComputing圖3-1富士通HPC中間其中,Applicationdevelopment(FujitsuDevelopmentStudio)是涉及編譯的集成軟件套件,該套件用于編譯、調(diào)試、調(diào)優(yōu)和執(zhí)行用Fortran、CC++編寫的科學(xué)計(jì)算程序,并支持自動(dòng)并行化、OpenMP、MPI等并行化技術(shù)其中編譯器和數(shù)學(xué)庫(kù)提供對(duì)ARM的新HPC擴(kuò)展、SVE功能以及新的語(yǔ)言標(biāo)準(zhǔn)的指令支持。Developmentassistancetool則是一個(gè)應(yīng)用程序綜合開(kāi)發(fā)環(huán)境。其通過(guò)三級(jí)分析(基程序?qū)邮占降男畔?,幫助用戶了解程序運(yùn)行狀態(tài)和瓶頸。在調(diào)試方面,DevelopmentassistancetoolCray英國(guó)氣象局的Isambard超級(jí)計(jì)算機(jī)和美國(guó)桑迪亞實(shí)驗(yàn)室(SandiaNationalLab)的Astra超級(jí)計(jì)ThunderX2。Isambard2A64FXCray持的編譯模塊包括GCC編譯器,ARM編譯器,富士通編譯器以及Cray編譯器(TheCrayProgrammingEnvironmentforARM)。ParallelC))等。CPEforARM包括兩類編譯器套件和相關(guān)模塊,即支持SVE功能的cce-sve和不支持SVEcce。其中,cce-svecraype-arm-nsp1ARMSVE對(duì)A64FX處理器的編譯;而cce則可以與craype-arm-thunderx2配對(duì),編譯生成ARMNeon代碼,支持對(duì)ThunderX2處理器的編譯。優(yōu)化庫(kù)(CrayScientificandMathLibraries,CSML)實(shí)現(xiàn)了包括稀疏MPI通信上,支持OpenMPI和HPECrayMPI,默認(rèn)的MPI庫(kù)為CRAYMVAPICH,可以和GCC和Cray分析器(CrayPerformanceMeasurement&AnalysisTools,CPMAT)供了一組工具來(lái)分析運(yùn)行程序的性能和行為,為計(jì)算、通信、I/O和內(nèi)存利用率的測(cè)量、分析和可視化提供了一個(gè)集成的基礎(chǔ)設(shè)施,以幫助用戶優(yōu)化程序,以實(shí)現(xiàn)更快的執(zhí)行和更高效的計(jì)算資源使用。調(diào)試器(CrayDebuggingSupportTools,CDST)提供了包括gdb4hpc、Valgrind4hpc、異常終止處理(AbnormalTerminationProcessing,ATP)以及Cray較調(diào)試器(CrayComparativeDebugger,CCDB)在內(nèi)的調(diào)試工具。華為公司面向鯤鵬處理器開(kāi)發(fā)了的畢昇編譯器。該編譯器是基于開(kāi)源LVM10.0.1版本開(kāi)發(fā),并進(jìn)行了優(yōu)化和改進(jìn),同時(shí)將flang作為默認(rèn)的rtan語(yǔ)言前端編譯器,是一種Linux下針對(duì)鯤鵬920LVMX3-2LVMuotuer幅提升緩存命中率,突破訪存瓶頸;結(jié)構(gòu)體指針壓縮優(yōu)化,大幅降低內(nèi)存使用,提升緩存命中率;軟件預(yù)取,大幅提高程序性能,提升緩存命中率;自動(dòng)向量化;循環(huán)優(yōu)化;自研的基于ML的自動(dòng)搜索技術(shù)(M-asedSach)utuner國(guó)防科大編譯團(tuán)隊(duì)研制了一套面向國(guó)產(chǎn)ARM指令集兼容架構(gòu)處理器的“天鷹編譯系統(tǒng),包含基礎(chǔ)編譯、OpenMP、OpenCL并行編譯、數(shù)學(xué)庫(kù)、安全編譯等。該編譯系統(tǒng)提供C、C++、Fortran、Java等各種編程語(yǔ)言提供調(diào)試和性能分析的支持;提供s等并行編程接口的編譯統(tǒng)實(shí)現(xiàn)了安全編譯驗(yàn)證檢查,提供CC+對(duì)于高性能計(jì)算而言,上層科學(xué)和工程計(jì)算領(lǐng)域包羅萬(wàn)象,每種領(lǐng)域內(nèi)的應(yīng)用軟件也是百家爭(zhēng)鳴,然而歸約到計(jì)算機(jī)科學(xué)而言,其主要顯式參數(shù)為計(jì)算性能,例如并行規(guī)模、并行效率等。為了發(fā)揮高性能計(jì)算機(jī)硬件的計(jì)算能力并保證一定的性能可移植性,著名的BereleyView明確了高性能計(jì)算硬件和高性能計(jì)算應(yīng)用之間的橋梁,即共性計(jì)算函數(shù)概念的重要性。對(duì)高性能計(jì)算定義了七種共性計(jì)算模版,包括稠密矩陣計(jì)算、稀疏矩陣計(jì)算、FFT和編譯器優(yōu)化能力均無(wú)法滿足要求,因此催生了眾多包含高性能數(shù)學(xué)庫(kù)在內(nèi)的平臺(tái)層軟件。實(shí)際上,對(duì)x86CPUARMOpenHPCOpenPC是Liux基金開(kāi)源的超算項(xiàng)目,致力于為高性能計(jì)算構(gòu)建一個(gè)開(kāi)源框架,適應(yīng)學(xué)術(shù)研究的需求,為HPC環(huán)境創(chuàng)建一個(gè)開(kāi)源框架,降低成本,目前OpeHPC僅支持兩個(gè)架構(gòu)即X86ARM,OpenHPCARM提供完整支持。OpenHPC202111V2.4Alair、阿貢國(guó)家實(shí)驗(yàn)室、AR(LBNL)、勞倫斯利福摩爾國(guó)家實(shí)驗(yàn)室(LLNL、萊布尼茨超級(jí)計(jì)算中心(LZ)拉莫斯國(guó)家安全公司(LNS)、匹茲堡超級(jí)計(jì)算中心、日本理化學(xué)研究所、桑迪亞國(guó)家實(shí)驗(yàn)室(SL)ARMOpenHPC華為鯤鵬DevKit與KunpengBoostKit和鯤鵬開(kāi)發(fā)套件KunpengDevKit,加速產(chǎn)業(yè)創(chuàng)新,使能極簡(jiǎn)開(kāi)發(fā),攜手伙伴一起構(gòu)鯤鵬開(kāi)發(fā)套件DevKit提供涵蓋代碼開(kāi)發(fā)、編譯調(diào)試、云測(cè)服務(wù)、性能分析及系統(tǒng)診斷等各環(huán)節(jié)的同時(shí)面向全研發(fā)作業(yè)流程,提升應(yīng)用遷移和調(diào)優(yōu)效率,加速原生開(kāi)發(fā)。在開(kāi)發(fā)階段,DevKit能夠幫助開(kāi)發(fā)者便捷學(xué)習(xí)鯤鵬架構(gòu)知識(shí),充分應(yīng)用鯤鵬架構(gòu)優(yōu)勢(shì),高效開(kāi)發(fā)高性能應(yīng)用。遷移階段,DevKit的代碼GCCforopenEulerJDK全套編譯工具,屏蔽硬件架構(gòu)差異,充分發(fā)揮鯤鵬架構(gòu)優(yōu)勢(shì)。在調(diào)優(yōu)&診斷階段,性能調(diào)優(yōu)工具在原有的系統(tǒng)性能分析、Java鯤鵬BoostKit已經(jīng)使能超過(guò)90%主流開(kāi)源軟件支持鯤鵬平臺(tái),覆蓋大數(shù)據(jù)、分布式存儲(chǔ)、數(shù)據(jù)庫(kù)、虛擬化等主流場(chǎng)景。鯤鵬BoostKit將聚焦使能主流開(kāi)源軟件支持鯤鵬平臺(tái)發(fā)揮高性能,提供全棧優(yōu)化的應(yīng)用加速能力。鯤鵬BoostKit虛擬化總體架構(gòu)主要由硬件基礎(chǔ)設(shè)施、操作系統(tǒng)、云平臺(tái)、云管理集群平臺(tái)構(gòu)成,其中云平臺(tái)支持華為自研的HCS(HUAWEICLOUDStack)私有云平臺(tái)以及開(kāi)源QEMU-KVM、開(kāi)源DockerOpenStackoVirt平臺(tái)和開(kāi)源KubernetesBootKit支持包括OpenStack+kVM、Kubernetes+Docker、Ovirt+KVM的虛擬化,并實(shí)現(xiàn)了OpenStack虛擬機(jī)與X86平臺(tái)的混合部署,從而能夠?yàn)橛脩籼峁┴S富的計(jì)算資源。ARM性能庫(kù)ArmPL作為標(biāo)準(zhǔn)核心數(shù)學(xué)庫(kù),為基于Arm的64位處理器上的高性能計(jì)算應(yīng)用程序提供優(yōu)化。ArmPLARM官方性能庫(kù),可以通過(guò)FortranC接口使用,并可以為ARM全平臺(tái)提供加速。其子程序包括基本線性代數(shù)子程序BLAS,綜合的高級(jí)線性代數(shù)程序包LAPACK,使用FFTW接口的實(shí)數(shù)和復(fù)數(shù)數(shù)據(jù)的快速傅里葉變換子程序,一套優(yōu)化的數(shù)學(xué)函數(shù)libamath,以及一套優(yōu)化的字符串函數(shù)libastring?;揪€性代數(shù)子程序(BLAS)是一組定義好的基本線性代數(shù)操作。其操作分為三級(jí),第1僅作用于向量的操作(例如,點(diǎn)乘),第2級(jí):矩陣-向量操作(例如,矩陣-向量乘法),第3級(jí):矩陣-矩陣運(yùn)算(如矩陣-矩陣乘法)。許多現(xiàn)代高性能計(jì)算機(jī)都有BLAS的高效特定機(jī)器實(shí)現(xiàn)。在這些系統(tǒng)上實(shí)現(xiàn)更高層次的線性代數(shù)算法,關(guān)鍵在于使用BLAS作為構(gòu)建模塊。對(duì)于C語(yǔ)言用戶,ArmPerformanceLibraries包括CBLAS,它們是FortranBLAS的C語(yǔ)言接口。在CBLAS接口中,標(biāo)量輸入?yún)?shù)是通過(guò)值傳遞的。Fortran(Fortran度參數(shù))。LAPACK是一個(gè)用于解決數(shù)值線性代數(shù)問(wèn)題的FORTRAN77子程序庫(kù)。LAPACK組件可以解方法,但沒(méi)有面向稀疏矩陣。LAPACK子程序是通過(guò)盡可能多地調(diào)用BLAS來(lái)完成的。LAPACK的效率在很大程度上取決于被調(diào)用的BLAS的效率。此外,關(guān)鍵的LAPACK子程序已經(jīng)用OpenMP進(jìn)行了處理,以便在SMP機(jī)器上運(yùn)行時(shí)利用多處理器的性能優(yōu)勢(shì)。對(duì)于快速傅里葉變換,ArmPL使用與FFTW3相同ArmPL在許多BLAS、LAPACK、FFT程序中使用OpenMP構(gòu)建,以便最大限度地提高多處理器性能。ArmPL920理器上,KMLARMPL。ArmComputeLibrary開(kāi)源數(shù)學(xué)Cortex-ACPUMaliGPUSIMDArmCPUGPUMIT許可下提供的開(kāi)源軟件。ArmComputeLibrary提供優(yōu)于其他開(kāi)源替代方案的卓越性能,并支持新的Arm技術(shù),例如SVE2。超過(guò)100種用于CPU和GPU的機(jī)器學(xué)習(xí)功多種卷積算法(GEMM、Winograd、FFT和支持多種數(shù)據(jù)類型:FP32、FP16、int8、uint8、使用OpenCLTuner和GEMM優(yōu)化的啟發(fā)式方法進(jìn)行設(shè)備和工作負(fù)載特定的調(diào)ArmComputeLibrary包含核心庫(kù)和運(yùn)行庫(kù)兩個(gè)概念。核心庫(kù)是一個(gè)算法實(shí)現(xiàn)的底層操作集合,它被嵌入到現(xiàn)有的項(xiàng)目和應(yīng)用程序中,具有以下特點(diǎn):不分配任何內(nèi)存(所有的內(nèi)存分配/映射都要由調(diào)mallocArmNeon多線程處理;對(duì)于OpenCL,它使用默認(rèn)的CLScheduler命令隊(duì)列進(jìn)行所有映射操作和內(nèi)核。ArmComputeLibrary支持不同類型的卷積方法,fast-math標(biāo)志只用于Winograd算法:當(dāng)啟用快速數(shù)學(xué)標(biāo)志時(shí),ArmNeon和CLKML華為開(kāi)發(fā)的鯤鵬數(shù)學(xué)庫(kù)(unpegMthLibary)提供了基于鯤鵬平臺(tái)優(yōu)化的高性能數(shù)學(xué)函數(shù),所有接口由CC++、匯編語(yǔ)言實(shí)現(xiàn),部分接口提供Jaa語(yǔ)言封裝的接口。鯤鵬數(shù)學(xué)庫(kù)主要組成部分有:KML_BLAS基礎(chǔ)線性代數(shù)運(yùn)算數(shù)學(xué)庫(kù)(BasicLinarAlebaSubpogams),基于鯤鵬架構(gòu),通BLASBLAS接口函數(shù)的性能逼近理論峰值;KML_SPBLAS稀疏基礎(chǔ)線性代數(shù)運(yùn)算庫(kù)(SarseBasicLinarAlebaSubpogams),基于鯤鵬架構(gòu)為壓縮格式的稀疏矩陣提供了高性能向量、矩陣運(yùn)算;KML_ML數(shù)學(xué)庫(kù)(eorMthemtialLibary),通過(guò)Neon指令優(yōu)化、內(nèi)聯(lián)匯編等方法,對(duì)輸入數(shù)據(jù)進(jìn)行向KML_MTH(KML_MT),通過(guò)周期函數(shù)規(guī)約、算法改進(jìn)等手段,提供了基于鯤鵬處理器性能提升較大的函數(shù)實(shí)現(xiàn),適KML_FFT(atourieransorm)運(yùn)算庫(kù),適用于FFTC2C、C2R、R2C、R2R換;KML_LACK線性代數(shù)運(yùn)算庫(kù)(LinarAlebaCKae),通過(guò)分塊、求解算法組合、多線程、BLAS架構(gòu)對(duì)LACKOpenBLASOpenBLAS是基于GotoBLAS21.13BSD版本優(yōu)化的基本線性代數(shù)子程序(BLAS)庫(kù)。其中著名BLAS庫(kù)GotoBLAS的相關(guān)工作就是針對(duì)GEMM的相關(guān)特性提出了幾條基本的分塊原則。這些原則通調(diào)整和限定矩陣的分塊策略來(lái)充分利用硬件多級(jí)存儲(chǔ)結(jié)構(gòu),提高數(shù)據(jù)局部性利用率。通過(guò)這些原則可以構(gòu)建高性能的GEMM實(shí)現(xiàn)。目前GoBLAS已經(jīng)停止維護(hù)。而OpenBLAS繼承于GoBLAS庫(kù),并創(chuàng)新性將模板定義和自適應(yīng)優(yōu)化等一系列技術(shù)結(jié)合起來(lái),并使得evel3BLAS的實(shí)現(xiàn)性能提升巨大。OpenBLASCafeMXNtjulia、Ubuntu、debian、OpenSuse、GNUOaveOpenBLAS920LIBXSMM開(kāi)源數(shù)學(xué)等領(lǐng)域,LIBXSMM提供了對(duì)包括X86和ARM在內(nèi)的多個(gè)計(jì)算平臺(tái)的支持。該庫(kù)率先提出并主要使用的代來(lái)定義小規(guī)模GEMM的大小3√??????≤80。LibXSMM對(duì)于小規(guī)模GEMM的工作分為前后兩端,它的前端同著名的工業(yè)標(biāo)準(zhǔn)接LAPACK的BLASlevel-3函數(shù)兼容它的后端有內(nèi)部API驅(qū)動(dòng)來(lái)直接匯編機(jī)器代碼。LibShalomLibhalomARM8GEMBLASackARMv8GEMM的性能。LibShalomGEMMGEMM此時(shí)訪存部件處于空閑狀態(tài),將打包操作所需的訪存指令插入FMA指令中來(lái)使訪存部件保持忙碌,這EMM數(shù)據(jù)的開(kāi)銷?,F(xiàn)有的BLASOpenBLA,其使用的邊緣微內(nèi)核中的指令尚未進(jìn)行充分優(yōu)化調(diào)度,有寫后讀依賴的指令之間距離很近,不能隱藏取數(shù)指令的延遲。LibShalom對(duì)邊緣微內(nèi)核中存在依賴的本文采用兩級(jí)并行化策略來(lái)并行不規(guī)則形狀的GEMM,即對(duì)于任務(wù)矩陣C的M和N維度進(jìn)行劃分,每BLASFEO開(kāi)源數(shù)學(xué)現(xiàn),并應(yīng)用于嵌入式優(yōu)化和一般的小規(guī)模高性能計(jì)算領(lǐng)域。BLASFEO數(shù)函數(shù)提供了一個(gè)全新的接口BLASFEOAPI。該BLASFEOAPI向用戶開(kāi)放高性能實(shí)現(xiàn)的矩陣計(jì)算函數(shù),矩陣Pack操作和解Pack操作。另外該庫(kù)還針對(duì)可以存入L2datacache(即每個(gè)維度為200左右)進(jìn)行了性能優(yōu)化。除此,BLASFEO還提供了BLASAPI。因?yàn)樵摻涌趦H針對(duì)標(biāo)準(zhǔn)BLASAPI進(jìn)行優(yōu)化,因此并沒(méi)有考慮代碼生成,C++模板和專用編譯器等方法。而B(niǎo)LASFEO的BLASAPI相比較BLASFEOAPI,其性能損失浮動(dòng)在可以忽略到20%之間,其平均值在10-15%。BLASFEO提出5種GEMM算法。算法A為利用BLASFEOAPI執(zhí)行GEMM相關(guān)的全部操作,首先為矩陣Ab、Bb和Cb動(dòng)態(tài)分配內(nèi)存并對(duì)齊cache塊,之后Pack輸入矩陣A、BC到Ab、Bb和Cb之后計(jì)算矩陣并將結(jié)果返回。該算法會(huì)通過(guò)Pack操作處理所有的矩陣轉(zhuǎn)置情況。算法A的優(yōu)勢(shì)是易于而這需要新kernel實(shí)現(xiàn)。不僅如此這個(gè)算法還是有過(guò)多的Pack操作和動(dòng)態(tài)內(nèi)存分配。算法C為進(jìn)一步減少Pack操作和動(dòng)態(tài)內(nèi)存分配,該算法只Pack矩陣A。而該算法的缺點(diǎn)是當(dāng)矩陣B為行主序時(shí),性能C與算法C相似只Pack矩陣A。而算法D不Pack而該算法無(wú)法有效處理所有的轉(zhuǎn)置類型,所以需要為4個(gè)轉(zhuǎn)置類型NN、NT、TN、TT提供kerenl。其BLASFEODTN、TTkernelCC中PackBLASFEO通過(guò)性能對(duì)比,針對(duì)不同的矩陣數(shù)據(jù)類型,轉(zhuǎn)置類型,規(guī)模和形狀,選擇最優(yōu)的算法進(jìn)DGEMM為例,BLASFEOBLASFEOAPIANNNT置的ernel,之后又實(shí)現(xiàn)算法B的NT轉(zhuǎn)置的ernel,算法C的NN和NT轉(zhuǎn)置的ernel,算法CTT轉(zhuǎn)置的erne(CDNNNTTTerne(其TTDNNGEMMernelLAFEO會(huì)將ernelernel現(xiàn)的,該方法可以大副提升代碼復(fù)用。BLIS開(kāi)源數(shù)學(xué)BLISBLA(如密集線性代數(shù)庫(kù))ARM計(jì)算平臺(tái)的完善支持。該框架的設(shè)計(jì)目的是除去計(jì)算用的必要的ernel,這些ernel經(jīng)過(guò)優(yōu)化后,可以立即優(yōu)化大多數(shù)常用的計(jì)算密集型操作的實(shí)現(xiàn)。雖然BLIS擁有一個(gè)新的類似BLAS的API,但它還包BLASBLASBLISAPIBLISGEMMGEMM(skinnyGEMM)。BLISGEMMGEMMGEMM。BLISGEMM4:NN、NT、TN、TT,和8種存儲(chǔ)方式:RRR、RRC、RCR、RCC、CRR、CRC、CCR、CCC(R為行主序、C為列主序,CAB)32AB進(jìn)行轉(zhuǎn)換,如規(guī)模為×行主序的轉(zhuǎn)置矩陣等價(jià)于規(guī)模為×列主序的不轉(zhuǎn)置的矩陣。因此可以減少傳統(tǒng)BLIS會(huì)將矩陣分塊,之后用對(duì)應(yīng)規(guī)模的microkernel計(jì)算。這些microkernel的實(shí)現(xiàn)在瘦GEMMmicrokernelkmn(2)加載矩陣B的數(shù)據(jù)進(jìn)連續(xù)的向量寄存器和加載并廣播矩陣A的向量寄存器相乘,該方法可能需要對(duì)矩陣C的數(shù)據(jù)進(jìn)行寄存器內(nèi)矩陣轉(zhuǎn)置操作。BLIS為盡量避免寄存器內(nèi)矩陣轉(zhuǎn)置操作,共總結(jié)3種方法來(lái)實(shí)現(xiàn)上述8種存儲(chǔ)方式:(1)矩陣B為行主序,其數(shù)據(jù)按行并按順序加載,矩陣A不論存儲(chǔ)方式都按列加載并廣播其數(shù)據(jù),針對(duì)矩陣C的存儲(chǔ)方式判斷是否進(jìn)行寄存器內(nèi)矩陣轉(zhuǎn)置操作,該方法實(shí)現(xiàn)RCR、RRR、CRR的情況。(2)矩陣A為列主序,其數(shù)據(jù)按行并按順序加載,矩陣B不論存儲(chǔ)方式都按行加載并廣播其數(shù)據(jù),針對(duì)矩陣C的存儲(chǔ)方式判斷是否進(jìn)行寄存器內(nèi)矩陣轉(zhuǎn)置操作,該方法實(shí)現(xiàn)CCR、CCC、RCC的情況。(3)矩陣A為行主序,其數(shù)據(jù)按行并按順序加載,矩陣B為列主序,其數(shù)據(jù)按順序加載,針對(duì)矩陣C的存儲(chǔ)方式存儲(chǔ)數(shù)據(jù),無(wú)需進(jìn)行寄存器內(nèi)矩陣轉(zhuǎn)置操作,該方法實(shí)現(xiàn)CRC、RRC的情況。BLIS之后會(huì)利用microkernel進(jìn)行邊角處理操作。其選擇實(shí)現(xiàn)邊長(zhǎng)為2的倍數(shù)的microkernel。最后這些kernel按照經(jīng)典的GotoBLAS算法循環(huán)執(zhí)行然而由于BLIS的分塊方法和邊角處理并不完善,并且小規(guī)模矩陣所以BLIS無(wú)法獲得近似最優(yōu)的小規(guī)模GEMM的性能。ATLAS開(kāi)源數(shù)學(xué)ATLAS(AutomaticallyTunedLinearAlgebraSoftware)是自動(dòng)調(diào)優(yōu)方向上一個(gè)具有代表性的BLAS庫(kù),支持包括X86、ARM在內(nèi)的多個(gè)平臺(tái)。為了能有效減少開(kāi)發(fā)人員設(shè)計(jì)高性能計(jì)算算法的工作量TLASPHC將自動(dòng)調(diào)優(yōu)的思想引入高性能計(jì)算領(lǐng)域。TLASBLAS題。但是TLASTLAS實(shí)際上也是需要一個(gè)手動(dòng)優(yōu)化的內(nèi)核,然后基于這個(gè)給定的內(nèi)核,TLASTLASBLSTLSBLAS中使用率不高的函數(shù)并沒(méi)有達(dá)到很好的優(yōu)化效果,只是使用最原始的方法實(shí)現(xiàn)。SaLAC(SalableLACKennesseeBereley大學(xué)和Denver主要針對(duì)密集和帶狀線性代數(shù)系統(tǒng),提供線性代數(shù)求解功能,包括各種矩陣運(yùn)算,矩陣分解,線性方程組求解,最小二乘問(wèn)題,本征值問(wèn)題,奇異值問(wèn)題等,具有高效、可移植、可伸縮、高可靠性等優(yōu)點(diǎn),MPIaLACK電磁仿真、材料計(jì)算、分?jǐn)?shù)階分析等領(lǐng)域應(yīng)用較多。SLATE(SoftwareforLinearAlgebraTargetingExascale)TennesseeScaLAPACKGPU國(guó)防科大針對(duì)天河系統(tǒng)開(kāi)發(fā)的YHSCALAPACK是基于稠密線性系統(tǒng)開(kāi)源軟件SCALAPACK開(kāi)發(fā)了異構(gòu)融合HU-SCALAPACK,提供異構(gòu)計(jì)算接口,支持GPU、MIC、MATRIX2000等加速卡。PETSc(Portable,ExtensibleToolkitforScientificComputation),是美國(guó)能源部ODE2000支持開(kāi)發(fā)的20多個(gè)ACTS工具箱之一,由Argonne國(guó)家實(shí)驗(yàn)室開(kāi)發(fā)的可移植可擴(kuò)展科學(xué)計(jì)算工具箱,主要用于在分布式存儲(chǔ)環(huán)境基于MPI高效求解偏微分方程組及相關(guān)問(wèn)題,是應(yīng)用最廣泛的稀疏線性系統(tǒng)解法器。PETSc主要包含基礎(chǔ)數(shù)學(xué)對(duì)象Mat、Vec和Index,幾何拓?fù)鋵?duì)象管理MDA和DMPlex,稀疏矩陣迭代求解器KSP和PC,非線性方程求解器SNES,最優(yōu)化求解器TAO,時(shí)間域求解器TS。PETSc提供了大量基于Krylov子空間方法KSP和各種預(yù)條件子PC的成熟而有效的迭代方法,是其最大的優(yōu)勢(shì)之一HYPRELivermoe流體和電磁等領(lǐng)域應(yīng)用較多。YHAMGAx=b線性系統(tǒng)。YHAMG的目的是在大規(guī)模并行計(jì)算機(jī)上為用戶提供高性能可擴(kuò)展的并行線性求解器,在天稀疏線性代數(shù)基本運(yùn)算;子空間迭代法,包括CGGMRES等;經(jīng)典代數(shù)多重網(wǎng)格算法;Jacobi、ELPA社ELPA社區(qū)是面向于E級(jí)系統(tǒng)的一種高效特征值直接求解器,主要用于材料領(lǐng)域的應(yīng)用軟件。目前有包括ABINIT、CP2K、VASP、QuantumEsspresso、NWChem等18款軟件基于ELPA軟件包進(jìn)行開(kāi)發(fā)。ELPA社區(qū)已經(jīng)支持ARM指令集。面向ARM兼容指令集架構(gòu)的應(yīng)用軟件生HPCCAE行業(yè)以商業(yè)軟件為主,但教育、氣象、生命等行業(yè)以開(kāi)源軟件為主;不同學(xué)科的軟件應(yīng)用特征差異很大。HPC應(yīng)用生態(tài)的另一個(gè)特點(diǎn)是算力與軟件占比均遵循2-8原則首先,對(duì)于算力分布而言,國(guó)家超算中心占據(jù)公開(kāi)超算算力平臺(tái)80%的算力。如國(guó)家超級(jí)計(jì)算天系統(tǒng)國(guó)產(chǎn)化進(jìn)程加速前行,2022年10月9日,長(zhǎng)沙中心"天河"新一代超級(jí)計(jì)算機(jī)的雙精度浮點(diǎn)峰值計(jì)算性能達(dá)200PFlops、數(shù)據(jù)存儲(chǔ)能力不低于20PB、峰值功耗不高于8兆瓦,算力水平國(guó)際先進(jìn)、國(guó)其次,對(duì)于應(yīng)用軟件分布而言,OP10OP20軟件消耗50%80%以上算力。行業(yè)超算中心一般聚焦某幾個(gè)單一場(chǎng)景。對(duì)于粒子物理領(lǐng)域,聚集在非確定性粒子輸運(yùn)、確定性粒子輸運(yùn)及輻射流體CFD結(jié)構(gòu)力學(xué)分析、熱分析、通信信號(hào)分析、總體性能仿真等。對(duì)于信息安全領(lǐng)域,聚集于口令恢復(fù)、大整數(shù)分解離散對(duì)數(shù)求解等場(chǎng)景。對(duì)于水下航行器,聚集于水聲模擬仿真。對(duì)于天氣預(yù)報(bào)領(lǐng)域,聚集于中小OP1080%CFD80%90%的計(jì)算時(shí)間,系統(tǒng)使用率達(dá)到95%以上,甚至經(jīng)常任務(wù)出現(xiàn)排隊(duì)情況。對(duì)于粒子物理領(lǐng)域,5%算時(shí)間被非確定性粒子輸運(yùn)模擬消耗。對(duì)于信息安全領(lǐng)域,9%應(yīng)用軟件消耗。對(duì)于公開(kāi)算力平臺(tái),ASP、Openam、WRF、Gomacs60%同時(shí),HPC“新一代人工智能產(chǎn)業(yè)創(chuàng)新重點(diǎn)任務(wù)揭榜項(xiàng)目新冠藥物篩選、數(shù)字?jǐn)?shù)值融合引領(lǐng)環(huán)保裝備先進(jìn)工藝優(yōu)化、高性能數(shù)字仿真設(shè)計(jì)助力高端裝備設(shè)計(jì)、揭示新冠病毒Omicon變異株特性、基于自主創(chuàng)新的石油地震勘探行業(yè)應(yīng)用平臺(tái)等項(xiàng)目以及其他領(lǐng)域計(jì)算任務(wù),從而需要比較完善的生態(tài)環(huán)境。ARM應(yīng)用生態(tài)也存在與其他架構(gòu)應(yīng)用生態(tài)類似的幾個(gè)特點(diǎn)CFD要依賴于若干大型應(yīng)用軟件一次性完成仿真計(jì)算工作。生物信息等領(lǐng)域,依賴一系列軟件,分步驟協(xié)同完成仿真計(jì)算工作。計(jì)算密集型與訪存密集型并存。信息安全領(lǐng)域中的口令恢復(fù)和分子動(dòng)力學(xué)計(jì)算,計(jì)算量大,訪存和內(nèi)存要求低。而對(duì)于離散成稀疏線性系統(tǒng)的科學(xué)計(jì)算,計(jì)算訪存比低,訪存速度是限制應(yīng)用實(shí)際計(jì)算性能的首要因素。通信自由型和通信受限型并存。對(duì)于線性系統(tǒng)求解類應(yīng)用,由于只需要對(duì)殘差等少量數(shù)據(jù)進(jìn)能擴(kuò)展到幾十個(gè)節(jié)點(diǎn)。進(jìn)程級(jí)并行和任務(wù)級(jí)并行并存。能力型應(yīng)用和大型問(wèn)題采用進(jìn)程級(jí)并行,通過(guò)分布式多核并行實(shí)現(xiàn)極大規(guī)??蓴U(kuò)展并行計(jì)算。普適型應(yīng)用和海量問(wèn)題通常采用任務(wù)級(jí)并行,一次性提交成百上千個(gè)1-100單一并行與混合并行并存。大部分軟件采用單一并行模式,85MPI僅支持OpenMP并行,極少數(shù)支持多級(jí)混合并行,甚至異構(gòu)并行。AES等核心算法,非確定性粒子輸運(yùn)模擬主要是粒子追蹤。應(yīng)用核心算法清楚明了,但是實(shí)際應(yīng)用代碼總體而言,AM指令集兼容架構(gòu)在HPC領(lǐng)域的應(yīng)用生態(tài)是相對(duì)完備的,在重要的科學(xué)計(jì)算領(lǐng)域中無(wú)論是商業(yè)軟件還是開(kāi)源軟件均有RM指令集版本。以國(guó)家超級(jí)計(jì)算長(zhǎng)沙中心的天河新一代系統(tǒng)為例,已成功部署了Lammps、Abinit、ASP、Gomacs、CP2K等基礎(chǔ)科研軟件,WRF等氣象海洋軟件,Openam、Near++等制造仿真開(kāi)源軟件和YH-T、YH-Aeo、YHSAS、YH-MAX等天河生態(tài)工程計(jì)算軟件,ensorflowensorflow-lieopencvgaph500agle、booklaf、fftw、Laghos、numpy、tlas等數(shù)學(xué)庫(kù),與基于x86架構(gòu)的超算系統(tǒng)對(duì)科學(xué)計(jì)算應(yīng)用的支持覆蓋率相當(dāng)。本篇介紹ARM上若干重要科學(xué)和工程計(jì)算領(lǐng)域應(yīng)用軟件理論推導(dǎo)、實(shí)驗(yàn)測(cè)試、計(jì)算模擬是當(dāng)今科技創(chuàng)新的三大主要手段。超級(jí)計(jì)算機(jī)作為計(jì)算模擬的主要工具,是不可或缺的科研基礎(chǔ)設(shè)施,也是國(guó)家科技創(chuàng)新體系的重要組成部分,已成為世界各國(guó)競(jìng)相爭(zhēng)奪的戰(zhàn)略制高點(diǎn)。E推動(dòng)科學(xué)進(jìn)步,產(chǎn)出具有國(guó)際影響力的科研成果?;A(chǔ)科研涵蓋的領(lǐng)域范圍廣,涉及分子動(dòng)力學(xué)、計(jì)算化學(xué)、地球物理、石油地質(zhì)、高能物理、天體物理、量子力學(xué)等,相關(guān)軟件種類繁多,其中相當(dāng)一部分軟件為用戶自研。勢(shì)能函數(shù)、分子力學(xué)力場(chǎng)、全始計(jì)算給出。常用軟件包括NAMD、Lammps、Amber、ABinit、CPMD、VASP、QE、DLPOLY、Siesta、Gromacs等。其中Lammps、Abinit、VASP、Gromacs已在國(guó)家超級(jí)計(jì)算化學(xué)是理論化學(xué)的一個(gè)分支,其主要目的是利用數(shù)學(xué)近似和電腦程序計(jì)算分子性質(zhì),例如總能量、偶極矩、四極矩、振動(dòng)頻率、反應(yīng)活性等,并用以解釋一些具體的化學(xué)問(wèn)題。常用軟件包括annier90、SI、GAMES、CP2K、NWchem、Oopus中,CP2K地球物理是透過(guò)定量物理方法研究地球的自然科學(xué)學(xué)科,研究范圍包括地球的地殼、地幔、地核和大氣層,通常使用地震波、重力、電磁、地?zé)岷头派淠艿榷康奈锢矸椒?。傳統(tǒng)地球物理學(xué)主要指固體地球物理學(xué),現(xiàn)代地球物理學(xué)的研究延伸到地球大氣層外部的現(xiàn)象,例如電離層電機(jī)效應(yīng)、極光Lanmark、trl、esseal、Madaasar括KronosFlow、basinmod、ChemStat、CMGSuite、FlowSolv等。下才能生產(chǎn)和研究它們。常用軟件包括Geant4、ROOT、MooseFramework等。天體物理學(xué),又稱天文物理學(xué),是研究宇宙的物理學(xué),這包括星體的物理性質(zhì)(光度,密度,溫度,化學(xué)成分等等)和星體與星體彼此之間的相互作用。應(yīng)用物理理論與方法,天體物理學(xué)探討恒星演化、恒星結(jié)構(gòu)、星際物質(zhì)、宇宙微波背景、太陽(yáng)系的起源和許多跟宇宙學(xué)相關(guān)的問(wèn)題。常用軟件包括CASA、DS9、arfinder量子力學(xué)是研究物質(zhì)世界微觀粒子運(yùn)動(dòng)規(guī)律的物理學(xué)分支,主要研究原子、分子、凝聚態(tài)物質(zhì),以及原子核和基本粒子的結(jié)構(gòu)、性質(zhì)的基礎(chǔ)理論。它與相對(duì)論一起被認(rèn)為是現(xiàn)代物理學(xué)的兩大基本支ASP、CATEP、MS、ELK、ASW、abinit、CP2K、QE、flapwASP、abnt、CP2K已在國(guó)家超級(jí)計(jì)算長(zhǎng)沙中心已在天河新一代系統(tǒng)上部署。鯤鵬平臺(tái)也已移植適配基礎(chǔ)科研領(lǐng)域大多數(shù)常見(jiàn)軟件,形成對(duì)教育科研的有利支撐。3-1123456789MooseHaloExchange迷你應(yīng)用程ElkQ-Quantum數(shù)值天氣預(yù)報(bào)需要海量的地理信息、實(shí)時(shí)的氣象信息以及復(fù)雜的計(jì)算邏輯,因此預(yù)報(bào)模式的發(fā)展是與計(jì)算機(jī)技術(shù)發(fā)展緊密同步的。在2050年代后的幾十年內(nèi),各種新方法和新技術(shù)層出不窮,全球各國(guó)也相繼研發(fā)了各具特色的氣象模式軟件,然而這些軟件在數(shù)據(jù)交換等方面缺乏交互性,對(duì)氣象研究發(fā)展不利。針對(duì)這一問(wèn)題,在美國(guó)國(guó)家大氣研究中心NCAER(NtionalCenerortmosphericesach)、美國(guó)國(guó)家環(huán)境預(yù)測(cè)中心NCEP(NtionalCenersorEnvionmenalPedition)等部門的聯(lián)2090WRF。WRF(WeatherResearchandForecastingModel是當(dāng)前最為先進(jìn)和廣泛使用的數(shù)值天氣預(yù)報(bào)系統(tǒng),即利用計(jì)算機(jī)模型模擬和預(yù)測(cè)大氣運(yùn)動(dòng)。WRF可以用于大氣科學(xué)研究和業(yè)務(wù)預(yù)報(bào),WRF包括動(dòng)力框架、數(shù)FF06F也可用于區(qū)域氣候研究、行星大氣研究、全球氣象模FWRF為國(guó)外開(kāi)源軟件,采用ortan語(yǔ)言開(kāi)發(fā),支持并行計(jì)算,具有十分豐富使用手冊(cè)等資料。WRF最終得到目標(biāo)區(qū)域和范圍內(nèi)的如溫度、濕度、氣壓等氣象要素,通過(guò)這一功能可以實(shí)現(xiàn)天氣預(yù)報(bào)以及歷史天氣模擬。大氣科學(xué)研究人員也能夠通過(guò)更改一系列參數(shù)或者程序代碼,模擬不同參數(shù)條件下天氣情況演變的差異,以此來(lái)進(jìn)行科學(xué)研究。WRF用戶按需選擇,比如大渦模擬、理想大氣情景模擬等。除此之外,相關(guān)開(kāi)發(fā)團(tuán)隊(duì)也將功能向其他交叉領(lǐng)域進(jìn)行了拓展,比如將化學(xué)模塊ChemWRF-Chem模式,用戶能夠自主(RF-Fie)、大氣-溫室氣體耦合模式(WRF-GG)等多種多功能多領(lǐng)域的耦合模塊,這些模塊都是圍繞WRFWRFWRFortanAM指令集兼容架構(gòu)處理器的天河超算系統(tǒng)、920氣象海洋始終是高性能計(jì)算的重要應(yīng)用領(lǐng)域,計(jì)算量大、時(shí)效性高。隨著地球系統(tǒng)模型向著更高分雷電等極端天氣的預(yù)測(cè)能力,有效減少人民的生命財(cái)產(chǎn)損失。天氣預(yù)報(bào)即綜合氣象站、衛(wèi)星等采集的信息數(shù)據(jù),對(duì)一定區(qū)域范圍內(nèi)未來(lái)一段時(shí)間的天氣情況進(jìn)行1小時(shí)~30WRF、S,由美國(guó)主導(dǎo)開(kāi)發(fā),目前均已在鯤鵬平臺(tái)完成適配。隨著國(guó)內(nèi)氣象領(lǐng)域的發(fā)展,涌現(xiàn)出一批優(yōu)秀的國(guó)產(chǎn)自研軟件,如:GRAPES、BC,目前也已在鯤鵬平臺(tái)完成適配。天氣預(yù)報(bào)一方面需要對(duì)大量的觀測(cè)數(shù)據(jù)進(jìn)行質(zhì)量檢查和同化分析才能獲得初值條對(duì)時(shí)效性要求高,這就要求有大算力支撐。平面上升速度,碳循環(huán)的過(guò)程、大氣成分演變過(guò)程,氣候變化、厄爾尼諾現(xiàn)象的產(chǎn)生等。氣候預(yù)測(cè)對(duì)E級(jí)計(jì)算能力的要求是迫切的,E級(jí)計(jì)算將為更復(fù)雜的模型模擬提供更高的精度并有效縮短計(jì)算時(shí)間。氣候預(yù)測(cè)的常用軟件為美國(guó)國(guó)家大氣研究中心提出的通用地球系統(tǒng)模式(TheCommunityEarthSystem海洋模擬可用于全球海洋洋流變化、海洋溫度、波浪變化、河口海口沉積物演變等研究。海洋領(lǐng)域模式眾多,且大多為開(kāi)源。比較常見(jiàn)的軟件包括:NEMO、SWAN、FOM、ROMS、HOM、avch3EOMSEDEOMPOPPOMMOM4MIcmNEMORO

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論