開(kāi)放架構(gòu)HPC技術(shù)與生態(tài)白皮書(shū)

上傳人：媚*** IP屬地：境外上傳時(shí)間：2024-04-09 格式：DOCX 頁(yè)數(shù)：203 大?。?0.40MB 積分：12 舉報(bào) 版權(quán)申訴

開(kāi)放架構(gòu)HPC技術(shù)與生態(tài)白皮書(shū)_第2頁(yè)

開(kāi)放架構(gòu)HPC技術(shù)與生態(tài)白皮書(shū)_第3頁(yè)

開(kāi)放架構(gòu)HPC技術(shù)與生態(tài)白皮書(shū)_第4頁(yè)

開(kāi)放架構(gòu)HPC技術(shù)與生態(tài)白皮書(shū)_第5頁(yè)

已閱讀5頁(yè)，還剩198頁(yè)未讀，繼續(xù)免費(fèi)閱讀

版權(quán)說(shuō)明：本文檔由用戶提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

開(kāi)放架構(gòu)HPC技術(shù)與生態(tài)白皮1開(kāi)放架構(gòu)HPC技術(shù)與生態(tài)白皮書(shū)盧凱安靜劉杰張華陳超張超黃典張洋康毛峰張群李若肖晟強(qiáng)勝趙磊田群（排名不分先后指導(dǎo)單位中國(guó)計(jì)算機(jī)學(xué)會(huì)高性能計(jì)算專委

北太振寰（重慶）2（排名不分先后2開(kāi)放架構(gòu)HPC技術(shù)與生態(tài)開(kāi)放架構(gòu)HPC技術(shù)與生態(tài)白皮開(kāi)放架構(gòu)HPC技術(shù)與生態(tài)開(kāi)放架構(gòu)HPC技術(shù)與生態(tài)白皮 33引技術(shù) 從國(guó)家超算戰(zhàn)略看ARM指令集兼容架構(gòu)在HPC領(lǐng)域的發(fā) 從TOP500看ARM指令集兼容架構(gòu)在HPC領(lǐng)域的發(fā) ARM指令集兼容架構(gòu)在商用HPC領(lǐng)域的崛 ARM指令集兼容架構(gòu)針對(duì)HPC的改進(jìn)及演從終端走向面向HPC的ARM指令集兼容架構(gòu)演國(guó)內(nèi)ARM指令集兼容架構(gòu)處理器針對(duì)HPC領(lǐng)域的進(jìn) ARM指令集兼容架構(gòu)在HPC的未來(lái)發(fā)展趨生態(tài) ARM指令集兼容架構(gòu)面向HPC領(lǐng)域的生態(tài)構(gòu) 操作系統(tǒng)生概銀河麒 Arch 編譯器生 ARM官方編譯亞馬遜編譯 Ampere編譯富士通編譯 Cray編譯畢昇編譯天鷹編譯平臺(tái)層生概 OpenHPC框華為鯤鵬DevKit與 ARM性能庫(kù) ArmComputeLibrary開(kāi)源數(shù)學(xué) 華為KML數(shù)學(xué) OpenBLAS開(kāi)源數(shù)學(xué) LIBXSMM開(kāi)源數(shù)學(xué) LibShalom開(kāi)源數(shù)學(xué) BLASFEO開(kāi)源數(shù)學(xué) BLIS開(kāi)源數(shù)學(xué) ATLAS開(kāi)源數(shù)學(xué) 稠密線性系統(tǒng)解法稀疏線性系統(tǒng)解法 ELPA社面向ARM兼容指令集架構(gòu)的應(yīng)用軟件生概基礎(chǔ)科 4氣候海 4開(kāi)放架構(gòu)HPC技術(shù)與生態(tài)開(kāi)放架構(gòu)HPC技術(shù)與生態(tài)白皮開(kāi)放架構(gòu)HPC技術(shù)與生態(tài)開(kāi)放架構(gòu)HPC技術(shù)與生態(tài)白皮 55制造仿材料計(jì) 生命科地球物面向ARM指令集兼容架構(gòu)的國(guó)產(chǎn)科學(xué)/工業(yè)軟概中國(guó)科學(xué)院過(guò)程工程研究所芯片后端驗(yàn)證工具中國(guó)科學(xué)院過(guò)程工程研究所離散顆粒運(yùn)動(dòng)模擬軟件中國(guó)科學(xué)院過(guò)程工程研究所擬顆粒模擬中國(guó)科學(xué)院國(guó)家天文臺(tái)天體物理模擬軟件中國(guó)科學(xué)院計(jì)算機(jī)網(wǎng)絡(luò)信息中心相場(chǎng)模擬軟件中國(guó)科學(xué)院計(jì)算技術(shù)研究所分子動(dòng)力學(xué)模擬軟件DeePMD- 中國(guó)科學(xué)院格點(diǎn)量子色動(dòng)力學(xué) 中國(guó)科學(xué)院海洋環(huán)流模式中國(guó)空氣動(dòng)力研究與發(fā)展中心NNW系列軟國(guó)防科技大學(xué)銀河矩陣計(jì)算軟件國(guó)防科技大學(xué)不可壓縮流體計(jì)算軟件國(guó)防科技大學(xué)銀河通用網(wǎng)格生成軟件西安電子科技大學(xué)計(jì)算電磁軟件自然資源部第一海洋研究所海浪模式航空工業(yè)西安航空計(jì)算技術(shù)研究所外流仿真分析軟件WiseCFD- 中國(guó)核動(dòng)力研究設(shè)計(jì)院MOI-X與西北工業(yè)大學(xué)航發(fā)仿真應(yīng)用計(jì)算軟件北京理工大學(xué)全波數(shù)值電磁仿真軟件 6用戶 6上海交通大蘭州大中國(guó)科學(xué)技術(shù)大國(guó)家超級(jí)計(jì)算天津中國(guó)家超級(jí)計(jì)算深圳中國(guó)家超級(jí)計(jì)算長(zhǎng)沙中國(guó)家超級(jí)計(jì)算廣州中國(guó)家超級(jí)計(jì)算濟(jì)南中武漢超算中廣東氣象深圳華大生命科學(xué)研究飛騰信息技術(shù)有限公澎峰（北京）科技有限公中國(guó)移動(dòng)通信集團(tuán)浙江有限公上汽大眾汽車有限公英特工程仿真技術(shù)（大連）有限公深圳十灃科技有限公湖南邁曦軟件有限責(zé)任公北京龍訊曠騰科技有限公北太振寰（重慶）科技有限公結(jié) 開(kāi)放架構(gòu)HPC技術(shù)與生態(tài)開(kāi)放架構(gòu)HPC技術(shù)與生態(tài)白皮 HP已進(jìn)入EE中歐等HPC算力高地都開(kāi)始選擇ARMEARM指令集兼容PPCouPARMHP領(lǐng)域的5G開(kāi)放架構(gòu)開(kāi)放架構(gòu)放架構(gòu)HPCARM指令集兼容HPC生ARM希望本白皮書(shū)的推出能夠形成HPC開(kāi)放架構(gòu)HPC122 開(kāi)放架構(gòu)HPC技術(shù)與生態(tài)開(kāi)放架構(gòu)HPC技術(shù)與生態(tài)白皮技術(shù)開(kāi)放架構(gòu)HPC技術(shù)與生態(tài)開(kāi)放架構(gòu)HPC技術(shù)與生態(tài)白皮技術(shù)ARM指令集兼容架構(gòu)已成為HPC主流技術(shù)與未來(lái)發(fā)展的重要趨勢(shì)，可滿足大型超算系統(tǒng)與商用HPC系統(tǒng)的技術(shù)需求。從國(guó)家超算戰(zhàn)略看ARM指令集兼容架構(gòu)在HPC領(lǐng)域的發(fā)中歐美日等算力高地都通過(guò)國(guó)家戰(zhàn)略牽引各自的超算建設(shè)。如中國(guó)的科技部高性能計(jì)算專項(xiàng)、美ECPEuoHPCFLGSHP200EuoHPC計(jì)劃中設(shè)置ECP計(jì)劃開(kāi)發(fā)歐洲獨(dú)立自主的RM指令集兼容架構(gòu)CPU，日本富士通采用ARMA4X芯片，打造“富岳”超算，美國(guó)將采ARMNVIDIAGaeCPUenado各個(gè)國(guó)家超算戰(zhàn)略的技術(shù)選擇，為RM指令集兼容架構(gòu)這種開(kāi)放架構(gòu)技術(shù)演進(jìn)與生態(tài)發(fā)展提供了重要支撐。從TOP500看ARM指令集兼容架構(gòu)在HPC領(lǐng)域的發(fā)202211TOP5005ARM建的超級(jí)計(jì)算機(jī)入圍。同時(shí)，美國(guó)、日本、歐洲也都發(fā)布了多臺(tái)基于ARM指令集兼容架構(gòu)處理器的超級(jí)計(jì)算機(jī)建設(shè)計(jì)劃，ARM指令集兼容架構(gòu)正在成為未來(lái)HPC的主流技術(shù)和發(fā)展趨勢(shì)。從表2-1中可以看出，日本在基于ARM指令集兼容架構(gòu)處理器的超級(jí)計(jì)算機(jī)建設(shè)方面走在了世界前列：入圍的5臺(tái)超級(jí)計(jì)算機(jī)中有4臺(tái)為日本建造，都采用了富士通（ujisu）基于ARM指令集兼容架構(gòu)的A6XCPU，其中“uu”超級(jí)計(jì)算機(jī)更是奪得了2206月發(fā)布的全球超級(jí)計(jì)算機(jī)OP500的榜首。美國(guó)在2018年也推出了Ata超級(jí)計(jì)算機(jī)，該超級(jí)計(jì)算機(jī)采用Marvell推出的基于ARMThunder22.3PFlops?；贏RM指令集兼容架構(gòu)處理器的超級(jí)計(jì)算機(jī)進(jìn)入全球超級(jí)計(jì)算機(jī)OP500ARM指令集兼容架構(gòu)在高性能計(jì)算領(lǐng)域的潛力。OP50G4ay2018ARM指令集兼容架構(gòu)處理器的超級(jí)計(jì)算機(jī)：”Ismad”超級(jí)計(jì)算機(jī)；中國(guó)天河新一代超級(jí)計(jì)算機(jī)同樣采用ARMARM域必將占領(lǐng)一席之地。2-12022-11全球高性能計(jì)算機(jī)TOP500排行榜中基于ARMCPU/2537.21Armv8.2-ASVE512位25.95Armv8.2-ASVE512位19.46Armv8.2-ASVE512位7.79Armv8.2-ASVE512位2.30MarvellThunderX2CN9975-200028C目前采用ARM指令集兼容架構(gòu)的超級(jí)計(jì)算機(jī)介紹如下“Fugaku”超級(jí)計(jì)算20206月22日，新一期全球超級(jí)計(jì)算機(jī)OP500榜單公布，日本uau（富岳）超級(jí)計(jì)算機(jī)奪得榜首。uauujisu（富士通）基于ARMA64XCPU，整個(gè)53.21PFlo/sARM性能計(jì)算機(jī)OP500uauAI“Wisteria”超級(jí)計(jì)算Wisteria超級(jí)計(jì)算機(jī)是由Fujitsu（富士通）公司研發(fā)、部署在日本東京大學(xué)的一臺(tái)集成HPC和AIOdyssey（仿真節(jié)點(diǎn)組）Aquarius(Odyssey7680括1路基于ARM指令集兼容架構(gòu)的48核A64FXCPU，集群總峰值性能為25.9PFlops，主要負(fù)責(zé)仿真任務(wù)；Aquarius為GPU計(jì)算集群，雙精度峰值總性能達(dá)7.2PFlops，主要負(fù)責(zé)數(shù)據(jù)分析與人工智能?！癋low”超級(jí)計(jì)算Flow超級(jí)計(jì)算機(jī)采用了與Fugaku相同的CPU，部署在名古屋大學(xué)的信息技術(shù)中心，峰值性能達(dá)到7.79PFlops，主要應(yīng)用于新冠肺炎解藥的開(kāi)發(fā)和解析超級(jí)臺(tái)風(fēng)等異常氣候檢測(cè)以及材料研究等領(lǐng)域“Astra”超級(jí)計(jì)算Astra超級(jí)計(jì)算機(jī)由惠普公司打造，部署在美國(guó)新墨西哥州阿爾伯克基的桑迪亞國(guó)家實(shí)驗(yàn)室。AstraCaviumARMThunderX236核心，全系統(tǒng)共2592個(gè)計(jì)算節(jié)點(diǎn)，峰值計(jì)算性能可達(dá)到2.3petaflops，主要用于核武器安全性和可靠“Isambard”超級(jí)計(jì)算Isambard由GW4聯(lián)盟、Cray公司、英國(guó)氣象局于2018年聯(lián)合建造，是歐洲第一臺(tái)基于ARM指令集兼容架構(gòu)處理器的超級(jí)計(jì)算機(jī)，采用MarvellThunderX2處理器，包含10000個(gè)ARM指令集兼容架構(gòu)的處理器核心，理論峰值為172TFlop/s。其升級(jí)版Isambard2超級(jí)計(jì)算機(jī)將其規(guī)模擴(kuò)展了兩倍，處理器核心數(shù)達(dá)到了21504個(gè)。Isambard部署在英國(guó)的布里斯托爾大學(xué)，是英國(guó)新的HPC服務(wù)的基礎(chǔ)同時(shí)，美國(guó)和歐洲還有多臺(tái)基于ARM指令集兼容架構(gòu)處理器的超級(jí)計(jì)算機(jī)建造計(jì)劃，主要如下“Mont-Blanc”超級(jí)計(jì)算Mont-Blanc項(xiàng)目旨在為歐洲下一代百億億次超級(jí)計(jì)算機(jī)進(jìn)行驗(yàn)證，將采用Cavium的ThudnerX264位ARM指令集兼容架構(gòu)處理器進(jìn)行建造，部署地以及算力等具體參數(shù)尚未公布?，F(xiàn)階段Mont-2020演示器已經(jīng)完成，對(duì)下一階段百億億次級(jí)完整超級(jí)計(jì)算系統(tǒng)的研制有重要參考作用2）“阿爾卑斯山”超級(jí)計(jì)算2021412NVIDIA宣布，他們正在基于ARM指令集兼容架構(gòu)處理器架構(gòu)打造全球最強(qiáng)大的AI超級(jí)計(jì)算機(jī):“阿爾卑斯山”超級(jí)計(jì)算機(jī)，該超級(jí)計(jì)算機(jī)計(jì)劃于2023年上線，將取代瑞士國(guó)家超級(jí)計(jì)算中心現(xiàn)有的PizDaint超級(jí)計(jì)算機(jī)?！鞍柋八股健睂⑹褂萌禄贏RM指令集兼容架構(gòu)的NVIDIAGraceCPU，將應(yīng)用在包括氣候和天氣，材料科學(xué)，天體物理學(xué)，3）“Venado”超級(jí)計(jì)算NVIDIA將使用GaeCPUGaeHopperGPU為美國(guó)洛斯阿拉莫斯國(guó)家實(shí)驗(yàn)室（osAlamosNtionalLaboory，LANL）構(gòu)建一臺(tái)名為enado的超級(jí)計(jì)算機(jī)，預(yù)計(jì)AI峰值性能將超過(guò)10aFlps。enaoGaeCPU可再生能源等領(lǐng)域。NVIDIAGaeCPUARMV9AI、HPC用而設(shè)計(jì)。ARM指令集兼容架構(gòu)在商用HPC領(lǐng)域的崛除在超級(jí)計(jì)算機(jī)領(lǐng)域發(fā)展的如火如荼之外，ARMHC領(lǐng)域也異軍突起，基ARMHPC國(guó)內(nèi)基于ARM指令集兼容架構(gòu)的服務(wù)器芯片廠商主要有三家：華為、飛騰以及阿里平頭哥920CPUTaiShan920CPU2019ARM指令集兼容架構(gòu)的高性能處理器，具有高性能、高吞吐、高集成和高效能等特點(diǎn)?；邛H鵬920CPU的TaiShan系列服務(wù)器，推出高性能型、均衡型、存儲(chǔ)型和高密型等不同機(jī)型，分別面向高性能算、大數(shù)據(jù)、分布式存儲(chǔ)和ARM原生應(yīng)用等場(chǎng)景，能夠充分發(fā)揮ARM指令集兼容架構(gòu)在多核、高能效交通、交通、金融等不同領(lǐng)域，全球已經(jīng)有11家整機(jī)廠商基于鯤鵬920CPU推出自由品牌服務(wù)器。基于飛騰系列CPU的商用服務(wù)器飛騰系列CPU是基于ARM指令集兼容架構(gòu)設(shè)計(jì)的處理器，共推出高性能服務(wù)器CPU、高效能桌面CPU和高端嵌入式CPU等多個(gè)系列，其中服務(wù)器芯片主要有飛騰騰云S2500、F-2000+/64F-1500A/16三款不同型號(hào)。截至20229月底，飛騰的生態(tài)伙伴46003009843413同時(shí)飛騰已聯(lián)合千余家國(guó)內(nèi)軟硬件廠商，支撐了2600多款飛騰平臺(tái)設(shè)備上市，已經(jīng)和正在適配的軟件和外設(shè)超過(guò)22600款，分布在操作系統(tǒng)、應(yīng)用軟件、安全、云產(chǎn)品、數(shù)據(jù)庫(kù)、中間件等各個(gè)領(lǐng)域。710CPU20211019哥發(fā)布自研高性能倚天710CPU。倚天710CPU采用最新的ARMv9架構(gòu)，是阿里首款全棧自研的通用CPU，也是全球首款采用5nm工藝的服務(wù)器芯片。目前，基于倚天710CPU的商用服務(wù)器已部署于阿ARMNVIDIA、MRVELL、Ampee、亞馬遜和富士通?；贜VIDIAGrace超級(jí)芯片的商用服務(wù)器NVIDIAGraceCPU基于最新的ARMv9架構(gòu)，專為AI、HPC、云計(jì)算和超大規(guī)模應(yīng)用而設(shè)計(jì)，部署的144個(gè)核心和1TB/s的內(nèi)存帶寬將為基于CPU的高性能計(jì)算應(yīng)用提供前所未有的性能。同時(shí)，基于NVIDIANVLink-C2C技術(shù)的NVIDIAGraceHopper超級(jí)芯片將GraceCPU和新一代HopperGPU高速相連，并能夠?yàn)榧铀貯I和HPC計(jì)算提供CPU+GPU的一致內(nèi)存模型。更為重要的是，GraceCPU可以運(yùn)行所有的NVIDIA計(jì)算軟件棧。MARVELLThunderXCPUMarvellThunderXCPUARM指令集兼容架構(gòu)設(shè)計(jì)的處理器，先后推出ThunderX1、ThunderX2ThunderX3三款高性能服務(wù)器CPU。ThunderX系列CPU可應(yīng)用于高性能計(jì)算、云計(jì)算、邊緣計(jì)算等諸多領(lǐng)域，滿足計(jì)算、存儲(chǔ)、ARM能計(jì)算數(shù)據(jù)中心內(nèi)的采用和部署。ThunderXCPUAueos基于Ampere系列CPU的商用服務(wù)器AmpereComputing（安晟培半導(dǎo)體）是英特爾前總裁ReneeJames創(chuàng)立的服務(wù)器芯片獨(dú)角獸公司。安晟培半導(dǎo)體先后發(fā)布了多款基于ARM指令集兼容架構(gòu)的服務(wù)器芯片，如80核AmpereAltraCPU、128核AmpereAltraMaxCPU、以及新推出的以ARM指東、Equinix、CloudFlare、字節(jié)跳動(dòng)等多個(gè)超大規(guī)模數(shù)據(jù)中心正在部署AmpereComputing產(chǎn)品。應(yīng)用基于ARM指令集兼容架構(gòu)的CPU芯片。2018年，AWS首次推出基于ARM指令集兼容架構(gòu)的自研AmazonGraviton，45%；2019Graviton2，種工作負(fù)載又提升了40%的性價(jià)比。接著，AWS在2021年12月推出了Graviton3，在相同性能下，Graviton3處理器與同類型基于x86的實(shí)例對(duì)比，可節(jié)省高達(dá)60%的能耗。同時(shí)AWS還發(fā)布了采用了Graviton3C7gARMNeoverseDDR5于其優(yōu)異的表現(xiàn)，AWS攬入了Domo、F1方程式賽車、Snap等一干重量級(jí)客戶。富士通的HPC商業(yè)化富士通制造的超級(jí)計(jì)算機(jī)Fugaku是現(xiàn)在世界上最快的基于ARM指令集兼容架構(gòu)處理器的超級(jí)計(jì)算機(jī)，同時(shí)富士通在基于ARM指令集兼容架構(gòu)的HPC商業(yè)化方面也很出色。202023243a.121為主承包商為歐盟和葡萄牙政府提供高性能計(jì)算千億級(jí)超級(jí)計(jì)算機(jī)的采購(gòu)、交付、安裝以及硬件和軟件075C0MX4的建造，為093ARM指令集兼容架構(gòu)針對(duì)HPC的改進(jìn)及演HPCX86CPU“一統(tǒng)江湖”ower、MS威架構(gòu)的挑戰(zhàn)，但誰(shuí)都無(wú)法撼動(dòng)X86HPCARM架構(gòu)處理器向服務(wù)器芯片市場(chǎng)進(jìn)行拓展，特別是220年搭載基于ARM指令集兼容架構(gòu)處理器的日本uak超級(jí)計(jì)算機(jī)榮登全球超算OP500ARMX86圖2-1ARM架構(gòu)從終端到服務(wù)器的發(fā)傳統(tǒng)上，ARMM1M2ARMPCAMv8AMv9ARMHPCHPCx86HPC總體來(lái)看，ARM指令集兼容架構(gòu)進(jìn)入高性能計(jì)算領(lǐng)域分為三個(gè)階段第一階段“啟程”早在2008年，ARMCaledaCaleda2011年發(fā)布了基于ARMA9架構(gòu)的芯片EnegyCoeEC-1000CPU，304顆芯片的板卡組成了490個(gè)核的服務(wù)器系統(tǒng)。不過(guò)很可惜，Calea公司倒在了第三輪融資的路上，于2013年破產(chǎn)倒閉。CaldaARM指令集兼容架構(gòu)在服務(wù)器領(lǐng)域第一個(gè)“吃螃蟹的人”，也吹響了ARM指令集兼容架構(gòu)向服務(wù)器領(lǐng)域進(jìn)軍的號(hào)角。除Caleda公司外，在這一階段基于ARMv7架構(gòu)的MarvellARM指令集兼容架構(gòu)進(jìn)軍服務(wù)器領(lǐng)域留下了濃重的一筆，Del公司以此為核心推出的“Copper”服務(wù)器系統(tǒng)在百度部署過(guò)，成為AMRM指令集兼容架構(gòu)進(jìn)軍服務(wù)器領(lǐng)域的第一階段“始于CaledaCaleda”，32bit完善成為ARM指令集兼容架構(gòu)走向HPCCaled最后的結(jié)業(yè)郵件中提到的，ARM指令集兼容架構(gòu)服務(wù)器的出現(xiàn)，“theindutrywillbetansormedoever”。第二階段“覺(jué)醒”201110ARM64ARMv8ARMHPC“覺(jué)醒”AMv7，ARMv86428NEONARMARMv8ARM圖2-2ARMv8架構(gòu)與ARMv7架構(gòu)的差A(yù)MMarvellThunderX和ThunderX2CPU是這一階段的代表性芯片，這兩款芯片已經(jīng)具備了服務(wù)器芯片的主要特征：超多核設(shè)計(jì)（ThunderXCPU48核，ThunderX2CPU32）、高性能、高吞吐，處理器整X86ThuderX2CPUAta超級(jí)計(jì)算機(jī)，峰值性能達(dá)到2.PFlops，ARM9161500A兩款基于ARM第三階段“成熟2019，ARM2瞄準(zhǔn)高性能計(jì)算的全新平臺(tái)—-NeoverseN1NeoverseE1，兩者都是基于ARMv8.2-A架構(gòu)。其中，NeoverseN1專為服務(wù)器和基礎(chǔ)設(shè)施市場(chǎng)設(shè)計(jì)，NeoverseE1專為高吞吐量運(yùn)算工作負(fù)載設(shè)計(jì)。隨后，ARM公司推出兩個(gè)新的升級(jí)平臺(tái)：ARMNeoverseV1和NeoverseN2，其中，V1是一個(gè)全新的產(chǎn)品,基于ARMv8.4-A架構(gòu)，適用于繁重的HPC、云端運(yùn)算及AI/ML輔助工作負(fù)載；N2是N1的升級(jí)版，是首個(gè)基于ARMv9架構(gòu)且支持SVE的處理器IP，可為多樣工作負(fù)載提供40%的性能提升。Neoverse架構(gòu)的發(fā)布，標(biāo)志這ARM架構(gòu)在服務(wù)器領(lǐng)域的成熟。這一階段基于ARM指令集兼容架構(gòu)的服務(wù)器芯片百花齊放，國(guó)內(nèi)如華為鯤鵬920、飛騰、阿里倚天710CPU；國(guó)外如MarvelThunderX3、富士通的A64FX、AmpereAltra，AWSGravition2等CPU。除此之外，SiPearl、NUVIA等一批初創(chuàng)企業(yè)的加入也為ARM指令集兼容架構(gòu)服務(wù)器芯片市場(chǎng)帶來(lái)了新的助力?？傊?，隨著硬件架機(jī)和商用HPC領(lǐng)域展露鋒芒，在競(jìng)爭(zhēng)日益激烈的服務(wù)器市場(chǎng)最終占據(jù)了一席之地。面向HPC的ARM指令集兼容架構(gòu)演ARMv8架構(gòu)是ARM201164位架構(gòu)，相比ARMv78NEOARMv8時(shí)，針對(duì)高性能計(jì)算、數(shù)據(jù)中心的任務(wù)負(fù)載情況，AM公司設(shè)計(jì)和引入了新的指令集：可伸縮矢量擴(kuò)(Salableeorensions/SVE)ARMv8架構(gòu)的可選擴(kuò)展指令集，SVE128-bit、最高2048-bit2021RMARMv9相比于AMv8最主要的區(qū)別有三點(diǎn)：AI、改進(jìn)矢量擴(kuò)展指令集SVE2以及安全。機(jī)器學(xué)習(xí)成為ARMv9ARMMLAMv9AMI工作負(fù)載支持的強(qiáng)化。SVE2指令集一方面完善了SVENeon的靈活性，可變長(zhǎng)度讓其不但適應(yīng)使用長(zhǎng)矢量寄存器的工作，還能勝任使用短矢量寄存器的任務(wù)。安全ARMv9架構(gòu)的重要特征，ARM公司希望通過(guò)引入機(jī)密計(jì)算體系結(jié)構(gòu)來(lái)重新設(shè)計(jì)安全應(yīng)用程序的工作ARM國(guó)內(nèi)ARM指令集兼容架構(gòu)處理器針對(duì)HPC領(lǐng)域的進(jìn)ARM公司對(duì)其架構(gòu)的授權(quán)方式有如下幾種處理器優(yōu)化包/物理IP包授權(quán)（硬核）：按照ARM公司設(shè)計(jì)好的處理器規(guī)格、在指定的代工內(nèi)核層級(jí)授權(quán)：用戶可以將IP核應(yīng)用到其自行設(shè)計(jì)的芯片中，但用戶不能對(duì)IP核進(jìn)行修改。處理器核授權(quán)（軟核）：擁有RTL代碼，可進(jìn)行代碼級(jí)的單元測(cè)試，可以自行完成邏輯設(shè)計(jì)和架構(gòu)層級(jí)授權(quán)：是指用戶擁有處理器架構(gòu)級(jí)的設(shè)計(jì)和制造許可，用戶甚至可以從自己的具體需求出發(fā)，對(duì)ARM架構(gòu)進(jìn)行大幅度改造或者對(duì)指令集進(jìn)行擴(kuò)展或縮減，以便達(dá)到更高性能、更低功耗或更低成本的目標(biāo)。擁有架構(gòu)授權(quán)的典型廠商包括高通、蘋果、微軟等。中國(guó)的華為、飛騰等芯片廠商同樣擁有ARM公司的架構(gòu)級(jí)授權(quán)，這是高度自主研發(fā)服務(wù)器芯片的設(shè)計(jì)根基。目前，基于ARM指令集兼容架構(gòu)的服務(wù)器CPU在國(guó)內(nèi)應(yīng)用廣泛，已經(jīng)成為在自主創(chuàng)新、安全可控、產(chǎn)業(yè)生態(tài)等領(lǐng)域的最佳選擇。國(guó)內(nèi)采用ARM指令集兼容架構(gòu)處理器的服務(wù)器，目前大體分為華為的鯤鵬系列、中國(guó)電子的飛騰ARMv82014ARMV8架構(gòu)的16核FT-1500A/16CPU問(wèn)世為標(biāo)志，開(kāi)啟了飛騰CPU快速發(fā)展的新篇章，標(biāo)志著飛騰基于ARM指令集兼容架構(gòu)的CPU進(jìn)入到HPC領(lǐng)域。隨后，飛騰分別于2016年推出第一款64核處理器芯片F(xiàn)T-2000/642017年推出第二代64核處理器芯片F(xiàn)T-2000/64以及隨后推出的S2500服務(wù)器級(jí)CPU同時(shí)，在生態(tài)合作方面，飛騰迅猛暴發(fā)，從OEM廠商到硬件產(chǎn)品設(shè)計(jì)，再到軟件兼容認(rèn)證，飛騰在服務(wù)器領(lǐng)華為自研的鯤鵬920芯片是基于華為自研TaiShan核的高性能處理器，整個(gè)芯片代碼約300多萬(wàn)行，ARM指令集兼容架構(gòu)在HPC的未來(lái)發(fā)展趨眾核趨勢(shì)明顯為了應(yīng)對(duì)HPCARM集兼容架構(gòu)服務(wù)器芯片頻率越來(lái)越高，單核性能越來(lái)越高，逐漸可以對(duì)標(biāo)X86富士A64FXCPU48核，到鯤920CPU64核，再AmpereAltraMaxCPU128核，ARM更完善的向量化指令集針對(duì)HPC領(lǐng)域工作負(fù)載的多樣性，SVE2指令集更加完善，已經(jīng)可以初步對(duì)標(biāo)X86AVX512指令集；同時(shí)，SVE2可變長(zhǎng)向量功能，能夠適應(yīng)更加靈活的數(shù)據(jù)訪問(wèn)和計(jì)算。除了對(duì)通用指令繼續(xù)完善外，還添加了對(duì)矩陣乘指令的支持，加強(qiáng)了對(duì)AI工作負(fù)載的支持。使用HBM2e/HBM3920ARM指令集兼容架構(gòu)CPUCPU。更安全提高安全性是ARM指令集兼容架構(gòu)的一個(gè)重要特征，為此，許多ARM指令集兼容建構(gòu)處理器特意增加了專門的安全模塊，以此來(lái)應(yīng)對(duì)越來(lái)越嚴(yán)峻的安全威脅。這是ARM指令集兼容架構(gòu)進(jìn)軍服務(wù)器和HPC市場(chǎng)的一個(gè)重要進(jìn)步。自研芯片會(huì)越來(lái)越多，ARM指令集兼容架構(gòu)服務(wù)器芯片越來(lái)越“百花齊放ARM指令集兼容架構(gòu)芯片強(qiáng)大的定制能力，使得越來(lái)越多的芯片廠商在授權(quán)的ARMIP基礎(chǔ)上，開(kāi)始根據(jù)市場(chǎng)的“終端”用戶“下?！背齻鹘y(tǒng)芯片廠商外，如亞馬遜、阿里巴巴等終端用戶也開(kāi)始研制ARM指令集兼容架構(gòu)服務(wù)器芯片，部署在自己的大數(shù)據(jù)中心或者云服務(wù)中心。ARMHPC發(fā)者不斷參與到ARM指令集兼容架構(gòu)HPC生態(tài)的構(gòu)建中，而隨著生態(tài)的不斷完善和技術(shù)的不斷成熟，典型應(yīng)用到ARM指令集兼容架構(gòu)HPC上的遷移難度越來(lái)越低，這會(huì)有力推動(dòng)ARM指令集兼容架構(gòu)在這類技術(shù)可以動(dòng)態(tài)的進(jìn)行其他指令集到ARM指令集的翻譯，在無(wú)需進(jìn)行代碼重新遷移的情況下，直接開(kāi)放架構(gòu)HPC技術(shù)與生態(tài)開(kāi)放架構(gòu)HPC技術(shù)與生態(tài)白皮生態(tài)開(kāi)放架構(gòu)HPC技術(shù)與生態(tài)開(kāi)放架構(gòu)HPC技術(shù)與生態(tài)白皮生態(tài)ARM軟件生態(tài)獲得突破，具備大規(guī)模進(jìn)入生產(chǎn)系統(tǒng)的條件。ARM指令集兼容架構(gòu)面向HPC領(lǐng)域的生態(tài)構(gòu)ARMPC領(lǐng)域的基礎(chǔ)生態(tài)完整，在系統(tǒng)層、編譯層、平臺(tái)層和應(yīng)用層具有完備易用的系統(tǒng)實(shí)現(xiàn)和工具鏈。ARMLinuxLinux源軟件，國(guó)內(nèi)也有基于Linux開(kāi)發(fā)的麒麟操作系統(tǒng)等，并對(duì)華為鯤鵬和飛騰芯片都適配得較好，在行業(yè)也得到廣泛應(yīng)用。國(guó)外，linux系操作系統(tǒng)都提供了針對(duì)ARM指令集兼容架構(gòu)的商用發(fā)行版。編譯層GCLVM二次開(kāi)發(fā)和優(yōu)化得到。調(diào)測(cè)試工具主要針對(duì)具體芯片滿足斷點(diǎn)調(diào)測(cè)試和并行調(diào)測(cè)試的需求。并行編程模型主要包括MPI、OpenP、OpenCLGC平臺(tái)層平臺(tái)層主要包括求解器、算法庫(kù)和前后處理。求解器主要包括稠密和稀疏線性代數(shù)求解器，算法庫(kù)包括領(lǐng)域算法庫(kù)、BLAS、FFT、信號(hào)處理、圖像處理、超越函數(shù)等。前處理主要包括網(wǎng)格生成和數(shù)據(jù)預(yù)處理等，后處理主要指數(shù)據(jù)可視化。應(yīng)用層。獨(dú)立的代碼集合，分別開(kāi)發(fā)不同行業(yè)的應(yīng)用軟件，如粒子物理、CFD工智能和大數(shù)據(jù)處理等。ARMLinuxWindows要有兩點(diǎn)：首先，雖然Windows操作系統(tǒng)在PC市場(chǎng)占據(jù)統(tǒng)治地位，但HPC領(lǐng)域主流仍為L(zhǎng)inux系統(tǒng)，世界TOP500超級(jí)計(jì)算機(jī)全部采用Linux操作系統(tǒng)；其次，微軟在2012年首次推出基于ARM的Windows8RT、2016年的“WindowsonARM”、2018年的windows10forARM以及最近的Windows11均存在一定缺陷，包括不能運(yùn)行64位程序、模擬運(yùn)行等，對(duì)ARM處理器支持有限。Linux操作系統(tǒng)主要指Linux發(fā)行版（Linuxditribution）是基于Linux內(nèi)核構(gòu)建的可安裝操作系統(tǒng)，包含常用用戶程序和相關(guān)庫(kù)，Liux發(fā)行版可分為由商業(yè)公司維護(hù)的商業(yè)版本和由開(kāi)源社區(qū)維護(hù)的免費(fèi)發(fā)行版本兩大類。國(guó)外主流的商業(yè)版包括edHtSSE，edHt主要的市場(chǎng)是美國(guó)而SE主要面向歐洲用戶，國(guó)內(nèi)的主要商業(yè)版本包括銀河麒麟和統(tǒng)信。相比而言，開(kāi)源操作系統(tǒng)百花齊放，Linux開(kāi)源版本主要有相應(yīng)社區(qū)維護(hù)，包括CentOS、edoa、Debian、Ubuntu、OpenEuler等。需SSE、edHtedoa、OpenSEylin，事實(shí)上這些開(kāi)源社區(qū)已成為其對(duì)應(yīng)的商業(yè)版本的上游社區(qū)，商業(yè)版吸收社區(qū)版本進(jìn)展并開(kāi)LnuxARMARMLinuxOpenEuler是由開(kāi)放原子開(kāi)源基金會(huì)（OpenAtomFoundation）孵化及運(yùn)營(yíng)的開(kāi)源項(xiàng)目，OpenEuler是面向數(shù)字基礎(chǔ)設(shè)施的開(kāi)源操作系統(tǒng)?？蓮V泛部署于服務(wù)器、云計(jì)算、邊緣計(jì)算、嵌入式等各種形態(tài)設(shè)備，應(yīng)用場(chǎng)景覆蓋IT（InformationTechnology）、CT（CommunicationTechnology）和OT（OperationalTechnology），實(shí)現(xiàn)了統(tǒng)一操作系統(tǒng)支持多設(shè)備，應(yīng)用一次開(kāi)發(fā)覆蓋全場(chǎng)景。通過(guò)不斷的技術(shù)創(chuàng)新與技術(shù)升級(jí)，OpenEuler不僅具備高性能、高安全、易運(yùn)維基礎(chǔ)能力，還具備全場(chǎng)景協(xié)同ARMHPC擬化、云計(jì)算、大數(shù)據(jù)、工業(yè)互聯(lián)網(wǎng)時(shí)代對(duì)主機(jī)系統(tǒng)可靠性、安全性、性能、擴(kuò)展性和實(shí)時(shí)性等需求，MMI5級(jí)標(biāo)準(zhǔn)研制的提供內(nèi)生本質(zhì)安全、云原生支持、自主平臺(tái)深入優(yōu)化、高性能、易管理的新;審計(jì)、交通、醫(yī)療、制造等領(lǐng)域?；阢y河麒麟高級(jí)服務(wù)器操作系統(tǒng)，用戶可輕松構(gòu)建數(shù)據(jù)中心、高可用集群和負(fù)載均衡集群、虛擬化應(yīng)用服務(wù)、分布式文件系統(tǒng)等，并實(shí)現(xiàn)對(duì)虛擬數(shù)據(jù)中心的跨物理系統(tǒng)、虛擬機(jī)集群進(jìn)行統(tǒng)一的監(jiān)控和管理。發(fā)者共同創(chuàng)立的開(kāi)源社區(qū)OpenKyling在開(kāi)源、自愿、平等和協(xié)作的基礎(chǔ)上，通過(guò)開(kāi)源、開(kāi)放的社區(qū)合作構(gòu)建系統(tǒng)開(kāi)源社區(qū)，推動(dòng)Linux開(kāi)源技術(shù)及其軟硬件生態(tài)繁榮發(fā)展。目前，OpenKyling正在推動(dòng)其ARM指令集兼容架構(gòu)上的開(kāi)放操作系統(tǒng)發(fā)布。RedRedHat1995年發(fā)布其第一個(gè)Linux發(fā)行版，也是最早使用RPM的操作系統(tǒng)。2003，RedHat發(fā)布其企業(yè)版RedHatEnterpriseLinux(RHEL)，并將支持開(kāi)源社區(qū)繼續(xù)開(kāi)發(fā)其家用版FedoraLinux。RHELLinuxFedora。RedHat201564ARM2017RedHatRedHatEnterpriseLinux7.4中加入了對(duì)ARM架構(gòu)的支持，其目標(biāo)是構(gòu)建一個(gè)單一的操作系統(tǒng)平臺(tái)覆蓋不同廠商基于ARMv8架構(gòu)的64位服務(wù)器級(jí)處理器。與x86處理器不同，ARM系統(tǒng)硬件設(shè)計(jì)與實(shí)現(xiàn)具有較強(qiáng)獨(dú)立性，因此與Linux社區(qū)特征配合，而RHEL擁有包含上百家硬件廠商的龐大社區(qū)組織，可以即使獲取相關(guān)軟硬件程序，共同促進(jìn)ARM新技術(shù)的迭代更新。SUSELinux是德國(guó)SUSELinuxAG公司發(fā)行維護(hù)的Linux發(fā)行版，1994年年初發(fā)布第一個(gè)版本，2004SUSELinuxAGNovell。SUSELinux（SUSELinuxEnterpriseServer，SLES）存在ARM版本支持AArch64架構(gòu)ARM服務(wù)器并開(kāi)展了相應(yīng)的性能優(yōu)化、企業(yè)級(jí)安全、高可靠性以及相應(yīng)的技術(shù)支持。與其他SUSE一樣，SUSELinux企業(yè)服務(wù)器ARM版本也支持免費(fèi)下載，只是對(duì)OpenSUSE是在Novell收購(gòu)SUSELinuxAG后創(chuàng)建的社區(qū)項(xiàng)目目前是SLES的上游社區(qū)SLES來(lái)源于OpenSUSE但具有更長(zhǎng)的發(fā)行期。OpenSUSE存在兩個(gè)版本，OpenSUSELeap是傳統(tǒng)的SUSELinuxEnterprise（SLE）共享代碼庫(kù)；OpenSUSETumbleweed則替代了傳統(tǒng)的數(shù)字版本號(hào)且周期性更新的版本，使用滾動(dòng)發(fā)布體系：軟件更新持續(xù)不斷地推出。OpenSUSE與SLE的關(guān)系類似Fedora與RHEL關(guān)系。同樣，OpenSUSEAArch64ARMUbuntu是由MarkShuttlework于2004年開(kāi)發(fā)的基于Debian的發(fā)行版，與Debian哲學(xué)相反，Ubuntu非常易于使用。Ubuntu22.04.1版支持最新64ARM架構(gòu)服務(wù)器，支持超過(guò)5萬(wàn)種軟件和運(yùn)行時(shí)，包括Go，Jaa，Jaascrit，PHP，PythonRuby，UbuntuServerorARM提供服務(wù)器級(jí)別的性能，并保持高可靠性和與其他Ubunu系統(tǒng)一樣的使用體驗(yàn)。buntuARM服務(wù)器版本支持LXD署功能，此外，UbuntuArchLinuxARMArchLinuxArchlinuxLinux自己的特定需求選擇配置安裝相應(yīng)的軟件。Archlinux采用滾動(dòng)升級(jí)方式，提供多數(shù)軟件的最新穩(wěn)定版本。ArchLinuxARM為各種消費(fèi)類設(shè)備和開(kāi)發(fā)平臺(tái)上的軟浮動(dòng)ARMv5te，硬浮動(dòng)ARMv6和ARMv7以及ARMv8AArch64指令集提供有針對(duì)性的內(nèi)核和軟件支持，旨在為最終用戶提供簡(jiǎn)單性和完全控制。Debian由IanMurdock于1993年創(chuàng)建，目前有穩(wěn)定、測(cè)試和非穩(wěn)定三個(gè)版本，長(zhǎng)期支持的穩(wěn)定版大約每?jī)赡旮乱话娌⒈恢С?年。Debian以精簡(jiǎn)、輕量、快速著稱，廣泛用于操作系統(tǒng)高級(jí)用戶，在300LinuxDebian。DebianARM的機(jī)器提供最佳支持，這是由于ARM架構(gòu)是隨著時(shí)間的推移而發(fā)展，現(xiàn)代ARM處理器提供了舊型號(hào)上不可用的功能。Debian/armel針對(duì)舊的32位ARM處理器，而不支持硬件浮點(diǎn)單元（FPU）；Debian/armhf僅適用于較新的32位ARM處理器其至少實(shí)現(xiàn)了ARMv7架構(gòu)且支持ARM矢量浮點(diǎn)規(guī)（VFPv3）ARMv8DebianARMDebian11時(shí)加入SMP支持。FedoraLinux是由開(kāi)源社區(qū)維護(hù)的Linux發(fā)行版，為RedHatEnterpriseLinux的上游。自從Fedora35后，F(xiàn)edora存在6個(gè)版本，PC、工作站、服務(wù)器、云計(jì)算、容器和物聯(lián)網(wǎng)，F(xiàn)edora的特點(diǎn)Linux6FedoraARMARMv7(armhfpaarch32,andarm-32)aarch64(ARMv8andarm64)，覆蓋的硬件范圍包括服務(wù)器、工作站以及IoT等。對(duì)于32和64位ARM架構(gòu)而言，F(xiàn)edora軟件棧是一致的。目前Fedora已經(jīng)停止對(duì)32位ARM架構(gòu)的繼續(xù)開(kāi)發(fā)，并鼓勵(lì)用戶使用其aarch64版本。ARM官方編譯ARMAllinatudioARM服務(wù)器的應(yīng)用。ARMCompilerorLiux22.1ARMV8A的最新體系結(jié)構(gòu)功能和擴(kuò)展提供了支持，用于在基于ARM的平臺(tái)上進(jìn)行應(yīng)用開(kāi)發(fā)與程序性能調(diào)優(yōu)，特別針對(duì)基于NEVESEV1NEVESEN1處理器的平臺(tái)（AmaonGavion2AmpeeAlta）進(jìn)行了優(yōu)化。該開(kāi)發(fā)套件主要包括ARMCC+/ortanCompiler22.1，ARMerormaneLibaries22.1.0GCC11.2.0三部分ARM22.1Linux用戶空間C/C++Fortran編譯器，為科學(xué)計(jì)算、HPC等量身定制；該編譯器是建立在開(kāi)源的Clang前端和基于LLVM13.0.1的優(yōu)化和代碼生成后端上。ARM編譯器支持現(xiàn)代C/C++、Fortran、OpenMP4.0OpenMP4.5標(biāo)準(zhǔn)，具有內(nèi)置的自動(dòng)向量化模塊（SVENEON），并針對(duì)基于ARMv8-ASVESVE2ARMARM作為矢量和矩陣計(jì)算的性能解決方案；它主要針對(duì)密集數(shù)據(jù)型計(jì)算負(fù)載，提供了稀疏線性代數(shù)、FFT函數(shù)的解決方案。具體例程包括：BLAS，LACK，F(xiàn)FT，Sarse，liamth，liatring此外，ARMHPCArmForgeUltimate，它提供一套全面的并ArmDDTCPUC++、CFortranArmMAP并行應(yīng)用程序。Arm性能報(bào)告是一款低開(kāi)銷工具，可生成單頁(yè)文本和HTML報(bào)告，總結(jié)并描述標(biāo)量和MPI應(yīng)用性能。此工具有助于有效地描述和了解HPC應(yīng)用的運(yùn)行性能。(AWS)ARMNeoverseAWSGravitonCPU2019于NeoverseN1的Graviton2和2021年發(fā)布的基于NeoverseV1的Graviton3。針對(duì)Graviton系列CPU的編譯器是通過(guò)擴(kuò)展GCC或clang開(kāi)源編譯器實(shí)現(xiàn)，并通過(guò)-mcpu選項(xiàng)指定適當(dāng)?shù)募軜?gòu)和優(yōu)化。Graviton2和Graviton3處理器支持在ARMv8.1(Large-SystemExtensions，LSE)相關(guān)指令功能，能夠提供低成本的原子操作，提高CPU到CPU間通信、鎖和互斥鎖的系統(tǒng)吞吐量Ampere編譯器AmpereAmpereAltraAmpereAltraMaxARMNeoverse-N1設(shè)計(jì)。騰訊云、UCloud，谷歌云等都推出了基于AmpereAltra的服務(wù)器。2022年，Ampere公司推出其下一代AmperOne處理器，不再使用現(xiàn)有的ARMNeoverse內(nèi)核，轉(zhuǎn)而采用完全定制的ARM內(nèi)核。在編譯器方面，202112月公司發(fā)布了AmpereGCC10.3.1compilers，目標(biāo)是在AmpereAarch64系統(tǒng)上構(gòu)建高性能應(yīng)用，并指出該編譯器開(kāi)始支持下一代Ampere處理器。2022年，Ampere公司在llvm15.0中添加了對(duì)“amper1”后端的初始編譯器支持，該后端確認(rèn)對(duì)ARMv8.6-A與FP16和MTE（內(nèi)富士通公司的A64FX是世界上第一個(gè)實(shí)現(xiàn)可伸縮向量擴(kuò)展（SVE）的處理器，是基于ARMv8.2指令集的擴(kuò)展。富士通公司的超級(jí)計(jì)算機(jī)Fugaku，PRIMEHPCFX700，F(xiàn)X1000，HPE的Apollo80都基于該P(yáng)RIMEHPCFX1000安裝有富士通公司開(kāi)發(fā)的HPC中間件FUJITSUSoftwareTechnicalComputing圖3-1富士通HPC中間其中，Applicationdevelopment(FujitsuDevelopmentStudio)是涉及編譯的集成軟件套件，該套件用于編譯、調(diào)試、調(diào)優(yōu)和執(zhí)行用Fortran、CC++編寫的科學(xué)計(jì)算程序，并支持自動(dòng)并行化、OpenMP、MPI等并行化技術(shù)其中編譯器和數(shù)學(xué)庫(kù)提供對(duì)ARM的新HPC擴(kuò)展、SVE功能以及新的語(yǔ)言標(biāo)準(zhǔn)的指令支持。Developmentassistancetool則是一個(gè)應(yīng)用程序綜合開(kāi)發(fā)環(huán)境。其通過(guò)三級(jí)分析（基程序?qū)邮占降男畔?，幫助用戶了解程序運(yùn)行狀態(tài)和瓶頸。在調(diào)試方面，DevelopmentassistancetoolCray英國(guó)氣象局的Isambard超級(jí)計(jì)算機(jī)和美國(guó)桑迪亞實(shí)驗(yàn)室（SandiaNationalLab）的Astra超級(jí)計(jì)ThunderX2。Isambard2A64FXCray持的編譯模塊包括GCC編譯器，ARM編譯器，富士通編譯器以及Cray編譯器（TheCrayProgrammingEnvironmentforARM）。ParallelC)）等。CPEforARM包括兩類編譯器套件和相關(guān)模塊，即支持SVE功能的cce-sve和不支持SVEcce。其中，cce-svecraype-arm-nsp1ARMSVE對(duì)A64FX處理器的編譯；而cce則可以與craype-arm-thunderx2配對(duì)，編譯生成ARMNeon代碼，支持對(duì)ThunderX2處理器的編譯。優(yōu)化庫(kù)（CrayScientificandMathLibraries，CSML）實(shí)現(xiàn)了包括稀疏MPI通信上，支持OpenMPI和HPECrayMPI，默認(rèn)的MPI庫(kù)為CRAYMVAPICH，可以和GCC和Cray分析器（CrayPerformanceMeasurement&AnalysisTools，CPMAT）供了一組工具來(lái)分析運(yùn)行程序的性能和行為，為計(jì)算、通信、I/O和內(nèi)存利用率的測(cè)量、分析和可視化提供了一個(gè)集成的基礎(chǔ)設(shè)施，以幫助用戶優(yōu)化程序，以實(shí)現(xiàn)更快的執(zhí)行和更高效的計(jì)算資源使用。調(diào)試器（CrayDebuggingSupportTools，CDST）提供了包括gdb4hpc、Valgrind4hpc、異常終止處理（AbnormalTerminationProcessing，ATP）以及Cray較調(diào)試器（CrayComparativeDebugger，CCDB）在內(nèi)的調(diào)試工具。華為公司面向鯤鵬處理器開(kāi)發(fā)了的畢昇編譯器。該編譯器是基于開(kāi)源LVM10.0.1版本開(kāi)發(fā)，并進(jìn)行了優(yōu)化和改進(jìn)，同時(shí)將flang作為默認(rèn)的rtan語(yǔ)言前端編譯器，是一種Linux下針對(duì)鯤鵬920LVMX3-2LVMuotuer幅提升緩存命中率，突破訪存瓶頸；結(jié)構(gòu)體指針壓縮優(yōu)化，大幅降低內(nèi)存使用，提升緩存命中率；軟件預(yù)取，大幅提高程序性能，提升緩存命中率；自動(dòng)向量化；循環(huán)優(yōu)化；自研的基于ML的自動(dòng)搜索技術(shù)(M-asedSach)utuner國(guó)防科大編譯團(tuán)隊(duì)研制了一套面向國(guó)產(chǎn)ARM指令集兼容架構(gòu)處理器的“天鷹編譯系統(tǒng)，包含基礎(chǔ)編譯、OpenMP、OpenCL并行編譯、數(shù)學(xué)庫(kù)、安全編譯等。該編譯系統(tǒng)提供C、C++、Fortran、Java等各種編程語(yǔ)言提供調(diào)試和性能分析的支持；提供s等并行編程接口的編譯統(tǒng)實(shí)現(xiàn)了安全編譯驗(yàn)證檢查，提供CC+對(duì)于高性能計(jì)算而言，上層科學(xué)和工程計(jì)算領(lǐng)域包羅萬(wàn)象，每種領(lǐng)域內(nèi)的應(yīng)用軟件也是百家爭(zhēng)鳴，然而歸約到計(jì)算機(jī)科學(xué)而言，其主要顯式參數(shù)為計(jì)算性能，例如并行規(guī)模、并行效率等。為了發(fā)揮高性能計(jì)算機(jī)硬件的計(jì)算能力并保證一定的性能可移植性，著名的BereleyView明確了高性能計(jì)算硬件和高性能計(jì)算應(yīng)用之間的橋梁，即共性計(jì)算函數(shù)概念的重要性。對(duì)高性能計(jì)算定義了七種共性計(jì)算模版，包括稠密矩陣計(jì)算、稀疏矩陣計(jì)算、FFT和編譯器優(yōu)化能力均無(wú)法滿足要求，因此催生了眾多包含高性能數(shù)學(xué)庫(kù)在內(nèi)的平臺(tái)層軟件。實(shí)際上，對(duì)x86CPUARMOpenHPCOpenPC是Liux基金開(kāi)源的超算項(xiàng)目，致力于為高性能計(jì)算構(gòu)建一個(gè)開(kāi)源框架，適應(yīng)學(xué)術(shù)研究的需求，為HPC環(huán)境創(chuàng)建一個(gè)開(kāi)源框架，降低成本，目前OpeHPC僅支持兩個(gè)架構(gòu)即X86ARM，OpenHPCARM提供完整支持。OpenHPC202111V2.4Alair、阿貢國(guó)家實(shí)驗(yàn)室、AR(LBNL)、勞倫斯利福摩爾國(guó)家實(shí)驗(yàn)室(LLNL、萊布尼茨超級(jí)計(jì)算中心(LZ)拉莫斯國(guó)家安全公司(LNS)、匹茲堡超級(jí)計(jì)算中心、日本理化學(xué)研究所、桑迪亞國(guó)家實(shí)驗(yàn)室(SL)ARMOpenHPC華為鯤鵬DevKit與KunpengBoostKit和鯤鵬開(kāi)發(fā)套件KunpengDevKit，加速產(chǎn)業(yè)創(chuàng)新，使能極簡(jiǎn)開(kāi)發(fā)，攜手伙伴一起構(gòu)鯤鵬開(kāi)發(fā)套件DevKit提供涵蓋代碼開(kāi)發(fā)、編譯調(diào)試、云測(cè)服務(wù)、性能分析及系統(tǒng)診斷等各環(huán)節(jié)的同時(shí)面向全研發(fā)作業(yè)流程，提升應(yīng)用遷移和調(diào)優(yōu)效率，加速原生開(kāi)發(fā)。在開(kāi)發(fā)階段，DevKit能夠幫助開(kāi)發(fā)者便捷學(xué)習(xí)鯤鵬架構(gòu)知識(shí)，充分應(yīng)用鯤鵬架構(gòu)優(yōu)勢(shì)，高效開(kāi)發(fā)高性能應(yīng)用。遷移階段，DevKit的代碼GCCforopenEulerJDK全套編譯工具，屏蔽硬件架構(gòu)差異，充分發(fā)揮鯤鵬架構(gòu)優(yōu)勢(shì)。在調(diào)優(yōu)&診斷階段，性能調(diào)優(yōu)工具在原有的系統(tǒng)性能分析、Java鯤鵬BoostKit已經(jīng)使能超過(guò)90%主流開(kāi)源軟件支持鯤鵬平臺(tái)，覆蓋大數(shù)據(jù)、分布式存儲(chǔ)、數(shù)據(jù)庫(kù)、虛擬化等主流場(chǎng)景。鯤鵬BoostKit將聚焦使能主流開(kāi)源軟件支持鯤鵬平臺(tái)發(fā)揮高性能，提供全棧優(yōu)化的應(yīng)用加速能力。鯤鵬BoostKit虛擬化總體架構(gòu)主要由硬件基礎(chǔ)設(shè)施、操作系統(tǒng)、云平臺(tái)、云管理集群平臺(tái)構(gòu)成，其中云平臺(tái)支持華為自研的HCS（HUAWEICLOUDStack）私有云平臺(tái)以及開(kāi)源QEMU-KVM、開(kāi)源DockerOpenStackoVirt平臺(tái)和開(kāi)源KubernetesBootKit支持包括OpenStack+kVM、Kubernetes+Docker、Ovirt+KVM的虛擬化，并實(shí)現(xiàn)了OpenStack虛擬機(jī)與X86平臺(tái)的混合部署，從而能夠?yàn)橛脩籼峁┴S富的計(jì)算資源。ARM性能庫(kù)ArmPL作為標(biāo)準(zhǔn)核心數(shù)學(xué)庫(kù)，為基于Arm的64位處理器上的高性能計(jì)算應(yīng)用程序提供優(yōu)化。ArmPLARM官方性能庫(kù)，可以通過(guò)FortranC接口使用，并可以為ARM全平臺(tái)提供加速。其子程序包括基本線性代數(shù)子程序BLAS，綜合的高級(jí)線性代數(shù)程序包LAPACK，使用FFTW接口的實(shí)數(shù)和復(fù)數(shù)數(shù)據(jù)的快速傅里葉變換子程序，一套優(yōu)化的數(shù)學(xué)函數(shù)libamath，以及一套優(yōu)化的字符串函數(shù)libastring?；揪€性代數(shù)子程序（BLAS）是一組定義好的基本線性代數(shù)操作。其操作分為三級(jí)，第1僅作用于向量的操作（例如，點(diǎn)乘），第2級(jí)：矩陣-向量操作（例如，矩陣-向量乘法），第3級(jí)：矩陣-矩陣運(yùn)算（如矩陣-矩陣乘法）。許多現(xiàn)代高性能計(jì)算機(jī)都有BLAS的高效特定機(jī)器實(shí)現(xiàn)。在這些系統(tǒng)上實(shí)現(xiàn)更高層次的線性代數(shù)算法，關(guān)鍵在于使用BLAS作為構(gòu)建模塊。對(duì)于C語(yǔ)言用戶，ArmPerformanceLibraries包括CBLAS，它們是FortranBLAS的C語(yǔ)言接口。在CBLAS接口中，標(biāo)量輸入?yún)?shù)是通過(guò)值傳遞的。Fortran（Fortran度參數(shù)）。LAPACK是一個(gè)用于解決數(shù)值線性代數(shù)問(wèn)題的FORTRAN77子程序庫(kù)。LAPACK組件可以解方法，但沒(méi)有面向稀疏矩陣。LAPACK子程序是通過(guò)盡可能多地調(diào)用BLAS來(lái)完成的。LAPACK的效率在很大程度上取決于被調(diào)用的BLAS的效率。此外，關(guān)鍵的LAPACK子程序已經(jīng)用OpenMP進(jìn)行了處理，以便在SMP機(jī)器上運(yùn)行時(shí)利用多處理器的性能優(yōu)勢(shì)。對(duì)于快速傅里葉變換，ArmPL使用與FFTW3相同ArmPL在許多BLAS、LAPACK、FFT程序中使用OpenMP構(gòu)建，以便最大限度地提高多處理器性能。ArmPL920理器上，KMLARMPL。ArmComputeLibrary開(kāi)源數(shù)學(xué)Cortex-ACPUMaliGPUSIMDArmCPUGPUMIT許可下提供的開(kāi)源軟件。ArmComputeLibrary提供優(yōu)于其他開(kāi)源替代方案的卓越性能，并支持新的Arm技術(shù)，例如SVE2。超過(guò)100種用于CPU和GPU的機(jī)器學(xué)習(xí)功多種卷積算法（GEMM、Winograd、FFT和支持多種數(shù)據(jù)類型：FP32、FP16、int8、uint8、使用OpenCLTuner和GEMM優(yōu)化的啟發(fā)式方法進(jìn)行設(shè)備和工作負(fù)載特定的調(diào)ArmComputeLibrary包含核心庫(kù)和運(yùn)行庫(kù)兩個(gè)概念。核心庫(kù)是一個(gè)算法實(shí)現(xiàn)的底層操作集合，它被嵌入到現(xiàn)有的項(xiàng)目和應(yīng)用程序中，具有以下特點(diǎn)：不分配任何內(nèi)存（所有的內(nèi)存分配/映射都要由調(diào)mallocArmNeon多線程處理；對(duì)于OpenCL，它使用默認(rèn)的CLScheduler命令隊(duì)列進(jìn)行所有映射操作和內(nèi)核。ArmComputeLibrary支持不同類型的卷積方法，fast-math標(biāo)志只用于Winograd算法：當(dāng)啟用快速數(shù)學(xué)標(biāo)志時(shí)，ArmNeon和CLKML華為開(kāi)發(fā)的鯤鵬數(shù)學(xué)庫(kù)（unpegMthLibary）提供了基于鯤鵬平臺(tái)優(yōu)化的高性能數(shù)學(xué)函數(shù)，所有接口由CC++、匯編語(yǔ)言實(shí)現(xiàn)，部分接口提供Jaa語(yǔ)言封裝的接口。鯤鵬數(shù)學(xué)庫(kù)主要組成部分有：KML_BLAS基礎(chǔ)線性代數(shù)運(yùn)算數(shù)學(xué)庫(kù)（BasicLinarAlebaSubpogams），基于鯤鵬架構(gòu)，通BLASBLAS接口函數(shù)的性能逼近理論峰值；KML_SPBLAS稀疏基礎(chǔ)線性代數(shù)運(yùn)算庫(kù)（SarseBasicLinarAlebaSubpogams），基于鯤鵬架構(gòu)為壓縮格式的稀疏矩陣提供了高性能向量、矩陣運(yùn)算；KML_ML數(shù)學(xué)庫(kù)（eorMthemtialLibary），通過(guò)Neon指令優(yōu)化、內(nèi)聯(lián)匯編等方法，對(duì)輸入數(shù)據(jù)進(jìn)行向KML_MTH（KML_MT），通過(guò)周期函數(shù)規(guī)約、算法改進(jìn)等手段，提供了基于鯤鵬處理器性能提升較大的函數(shù)實(shí)現(xiàn)，適KML_FFT（atourieransorm）運(yùn)算庫(kù)，適用于FFTC2C、C2R、R2C、R2R換；KML_LACK線性代數(shù)運(yùn)算庫(kù)（LinarAlebaCKae），通過(guò)分塊、求解算法組合、多線程、BLAS架構(gòu)對(duì)LACKOpenBLASOpenBLAS是基于GotoBLAS21.13BSD版本優(yōu)化的基本線性代數(shù)子程序(BLAS)庫(kù)。其中著名BLAS庫(kù)GotoBLAS的相關(guān)工作就是針對(duì)GEMM的相關(guān)特性提出了幾條基本的分塊原則。這些原則通調(diào)整和限定矩陣的分塊策略來(lái)充分利用硬件多級(jí)存儲(chǔ)結(jié)構(gòu)，提高數(shù)據(jù)局部性利用率。通過(guò)這些原則可以構(gòu)建高性能的GEMM實(shí)現(xiàn)。目前GoBLAS已經(jīng)停止維護(hù)。而OpenBLAS繼承于GoBLAS庫(kù)，并創(chuàng)新性將模板定義和自適應(yīng)優(yōu)化等一系列技術(shù)結(jié)合起來(lái)，并使得evel3BLAS的實(shí)現(xiàn)性能提升巨大。OpenBLASCafeMXNtjulia、Ubuntu、debian、OpenSuse、GNUOaveOpenBLAS920LIBXSMM開(kāi)源數(shù)學(xué)等領(lǐng)域，LIBXSMM提供了對(duì)包括X86和ARM在內(nèi)的多個(gè)計(jì)算平臺(tái)的支持。該庫(kù)率先提出并主要使用的代來(lái)定義小規(guī)模GEMM的大小3√??????≤80。LibXSMM對(duì)于小規(guī)模GEMM的工作分為前后兩端，它的前端同著名的工業(yè)標(biāo)準(zhǔn)接LAPACK的BLASlevel-3函數(shù)兼容它的后端有內(nèi)部API驅(qū)動(dòng)來(lái)直接匯編機(jī)器代碼。LibShalomLibhalomARM8GEMBLASackARMv8GEMM的性能。LibShalomGEMMGEMM此時(shí)訪存部件處于空閑狀態(tài)，將打包操作所需的訪存指令插入FMA指令中來(lái)使訪存部件保持忙碌，這EMM數(shù)據(jù)的開(kāi)銷?，F(xiàn)有的BLASOpenBLA，其使用的邊緣微內(nèi)核中的指令尚未進(jìn)行充分優(yōu)化調(diào)度，有寫后讀依賴的指令之間距離很近，不能隱藏取數(shù)指令的延遲。LibShalom對(duì)邊緣微內(nèi)核中存在依賴的本文采用兩級(jí)并行化策略來(lái)并行不規(guī)則形狀的GEMM，即對(duì)于任務(wù)矩陣C的M和N維度進(jìn)行劃分，每BLASFEO開(kāi)源數(shù)學(xué)現(xiàn)，并應(yīng)用于嵌入式優(yōu)化和一般的小規(guī)模高性能計(jì)算領(lǐng)域。BLASFEO數(shù)函數(shù)提供了一個(gè)全新的接口BLASFEOAPI。該BLASFEOAPI向用戶開(kāi)放高性能實(shí)現(xiàn)的矩陣計(jì)算函數(shù)，矩陣Pack操作和解Pack操作。另外該庫(kù)還針對(duì)可以存入L2datacache（即每個(gè)維度為200左右）進(jìn)行了性能優(yōu)化。除此，BLASFEO還提供了BLASAPI。因?yàn)樵摻涌趦H針對(duì)標(biāo)準(zhǔn)BLASAPI進(jìn)行優(yōu)化，因此并沒(méi)有考慮代碼生成，C++模板和專用編譯器等方法。而B(niǎo)LASFEO的BLASAPI相比較BLASFEOAPI，其性能損失浮動(dòng)在可以忽略到20%之間，其平均值在10-15%。BLASFEO提出5種GEMM算法。算法A為利用BLASFEOAPI執(zhí)行GEMM相關(guān)的全部操作，首先為矩陣Ab、Bb和Cb動(dòng)態(tài)分配內(nèi)存并對(duì)齊cache塊，之后Pack輸入矩陣A、BC到Ab、Bb和Cb之后計(jì)算矩陣并將結(jié)果返回。該算法會(huì)通過(guò)Pack操作處理所有的矩陣轉(zhuǎn)置情況。算法A的優(yōu)勢(shì)是易于而這需要新kernel實(shí)現(xiàn)。不僅如此這個(gè)算法還是有過(guò)多的Pack操作和動(dòng)態(tài)內(nèi)存分配。算法C為進(jìn)一步減少Pack操作和動(dòng)態(tài)內(nèi)存分配，該算法只Pack矩陣A。而該算法的缺點(diǎn)是當(dāng)矩陣B為行主序時(shí)，性能C與算法C相似只Pack矩陣A。而算法D不Pack而該算法無(wú)法有效處理所有的轉(zhuǎn)置類型，所以需要為4個(gè)轉(zhuǎn)置類型NN、NT、TN、TT提供kerenl。其BLASFEODTN、TTkernelCC中PackBLASFEO通過(guò)性能對(duì)比，針對(duì)不同的矩陣數(shù)據(jù)類型，轉(zhuǎn)置類型，規(guī)模和形狀，選擇最優(yōu)的算法進(jìn)DGEMM為例，BLASFEOBLASFEOAPIANNNT置的ernel，之后又實(shí)現(xiàn)算法B的NT轉(zhuǎn)置的ernel，算法C的NN和NT轉(zhuǎn)置的ernel，算法CTT轉(zhuǎn)置的erne（CDNNNTTTerne（其TTDNNGEMMernelLAFEO會(huì)將ernelernel現(xiàn)的，該方法可以大副提升代碼復(fù)用。BLIS開(kāi)源數(shù)學(xué)BLISBLA（如密集線性代數(shù)庫(kù)）ARM計(jì)算平臺(tái)的完善支持。該框架的設(shè)計(jì)目的是除去計(jì)算用的必要的ernel，這些ernel經(jīng)過(guò)優(yōu)化后，可以立即優(yōu)化大多數(shù)常用的計(jì)算密集型操作的實(shí)現(xiàn)。雖然BLIS擁有一個(gè)新的類似BLAS的API，但它還包BLASBLASBLISAPIBLISGEMMGEMM(skinnyGEMM)。BLISGEMMGEMMGEMM。BLISGEMM4：NN、NT、TN、TT，和8種存儲(chǔ)方式：RRR、RRC、RCR、RCC、CRR、CRC、CCR、CCC（R為行主序、C為列主序，CAB）32AB進(jìn)行轉(zhuǎn)換，如規(guī)模為×行主序的轉(zhuǎn)置矩陣等價(jià)于規(guī)模為×列主序的不轉(zhuǎn)置的矩陣。因此可以減少傳統(tǒng)BLIS會(huì)將矩陣分塊，之后用對(duì)應(yīng)規(guī)模的microkernel計(jì)算。這些microkernel的實(shí)現(xiàn)在瘦GEMMmicrokernelkmn（2）加載矩陣B的數(shù)據(jù)進(jìn)連續(xù)的向量寄存器和加載并廣播矩陣A的向量寄存器相乘，該方法可能需要對(duì)矩陣C的數(shù)據(jù)進(jìn)行寄存器內(nèi)矩陣轉(zhuǎn)置操作。BLIS為盡量避免寄存器內(nèi)矩陣轉(zhuǎn)置操作，共總結(jié)3種方法來(lái)實(shí)現(xiàn)上述8種存儲(chǔ)方式：（1）矩陣B為行主序，其數(shù)據(jù)按行并按順序加載，矩陣A不論存儲(chǔ)方式都按列加載并廣播其數(shù)據(jù)，針對(duì)矩陣C的存儲(chǔ)方式判斷是否進(jìn)行寄存器內(nèi)矩陣轉(zhuǎn)置操作，該方法實(shí)現(xiàn)RCR、RRR、CRR的情況。（2）矩陣A為列主序，其數(shù)據(jù)按行并按順序加載，矩陣B不論存儲(chǔ)方式都按行加載并廣播其數(shù)據(jù)，針對(duì)矩陣C的存儲(chǔ)方式判斷是否進(jìn)行寄存器內(nèi)矩陣轉(zhuǎn)置操作，該方法實(shí)現(xiàn)CCR、CCC、RCC的情況。（3）矩陣A為行主序，其數(shù)據(jù)按行并按順序加載，矩陣B為列主序，其數(shù)據(jù)按順序加載，針對(duì)矩陣C的存儲(chǔ)方式存儲(chǔ)數(shù)據(jù)，無(wú)需進(jìn)行寄存器內(nèi)矩陣轉(zhuǎn)置操作，該方法實(shí)現(xiàn)CRC、RRC的情況。BLIS之后會(huì)利用microkernel進(jìn)行邊角處理操作。其選擇實(shí)現(xiàn)邊長(zhǎng)為2的倍數(shù)的microkernel。最后這些kernel按照經(jīng)典的GotoBLAS算法循環(huán)執(zhí)行然而由于BLIS的分塊方法和邊角處理并不完善，并且小規(guī)模矩陣所以BLIS無(wú)法獲得近似最優(yōu)的小規(guī)模GEMM的性能。ATLAS開(kāi)源數(shù)學(xué)ATLAS（AutomaticallyTunedLinearAlgebraSoftware）是自動(dòng)調(diào)優(yōu)方向上一個(gè)具有代表性的BLAS庫(kù)，支持包括X86、ARM在內(nèi)的多個(gè)平臺(tái)。為了能有效減少開(kāi)發(fā)人員設(shè)計(jì)高性能計(jì)算算法的工作量TLASPHC將自動(dòng)調(diào)優(yōu)的思想引入高性能計(jì)算領(lǐng)域。TLASBLAS題。但是TLASTLAS實(shí)際上也是需要一個(gè)手動(dòng)優(yōu)化的內(nèi)核，然后基于這個(gè)給定的內(nèi)核，TLASTLASBLSTLSBLAS中使用率不高的函數(shù)并沒(méi)有達(dá)到很好的優(yōu)化效果，只是使用最原始的方法實(shí)現(xiàn)。SaLAC（SalableLACKennesseeBereley大學(xué)和Denver主要針對(duì)密集和帶狀線性代數(shù)系統(tǒng)，提供線性代數(shù)求解功能，包括各種矩陣運(yùn)算，矩陣分解，線性方程組求解，最小二乘問(wèn)題，本征值問(wèn)題，奇異值問(wèn)題等，具有高效、可移植、可伸縮、高可靠性等優(yōu)點(diǎn)，MPIaLACK電磁仿真、材料計(jì)算、分?jǐn)?shù)階分析等領(lǐng)域應(yīng)用較多。SLATE（SoftwareforLinearAlgebraTargetingExascale）TennesseeScaLAPACKGPU國(guó)防科大針對(duì)天河系統(tǒng)開(kāi)發(fā)的YHSCALAPACK是基于稠密線性系統(tǒng)開(kāi)源軟件SCALAPACK開(kāi)發(fā)了異構(gòu)融合HU-SCALAPACK，提供異構(gòu)計(jì)算接口，支持GPU、MIC、MATRIX2000等加速卡。PETSc（Portable,ExtensibleToolkitforScientificComputation），是美國(guó)能源部ODE2000支持開(kāi)發(fā)的20多個(gè)ACTS工具箱之一，由Argonne國(guó)家實(shí)驗(yàn)室開(kāi)發(fā)的可移植可擴(kuò)展科學(xué)計(jì)算工具箱，主要用于在分布式存儲(chǔ)環(huán)境基于MPI高效求解偏微分方程組及相關(guān)問(wèn)題，是應(yīng)用最廣泛的稀疏線性系統(tǒng)解法器。PETSc主要包含基礎(chǔ)數(shù)學(xué)對(duì)象Mat、Vec和Index，幾何拓?fù)鋵?duì)象管理MDA和DMPlex，稀疏矩陣迭代求解器KSP和PC，非線性方程求解器SNES，最優(yōu)化求解器TAO，時(shí)間域求解器TS。PETSc提供了大量基于Krylov子空間方法KSP和各種預(yù)條件子PC的成熟而有效的迭代方法，是其最大的優(yōu)勢(shì)之一HYPRELivermoe流體和電磁等領(lǐng)域應(yīng)用較多。YHAMGAx=b線性系統(tǒng)。YHAMG的目的是在大規(guī)模并行計(jì)算機(jī)上為用戶提供高性能可擴(kuò)展的并行線性求解器，在天稀疏線性代數(shù)基本運(yùn)算；子空間迭代法，包括CGGMRES等；經(jīng)典代數(shù)多重網(wǎng)格算法；Jacobi、ELPA社ELPA社區(qū)是面向于E級(jí)系統(tǒng)的一種高效特征值直接求解器，主要用于材料領(lǐng)域的應(yīng)用軟件。目前有包括ABINIT、CP2K、VASP、QuantumEsspresso、NWChem等18款軟件基于ELPA軟件包進(jìn)行開(kāi)發(fā)。ELPA社區(qū)已經(jīng)支持ARM指令集。面向ARM兼容指令集架構(gòu)的應(yīng)用軟件生HPCCAE行業(yè)以商業(yè)軟件為主，但教育、氣象、生命等行業(yè)以開(kāi)源軟件為主；不同學(xué)科的軟件應(yīng)用特征差異很大。HPC應(yīng)用生態(tài)的另一個(gè)特點(diǎn)是算力與軟件占比均遵循2-8原則首先，對(duì)于算力分布而言，國(guó)家超算中心占據(jù)公開(kāi)超算算力平臺(tái)80%的算力。如國(guó)家超級(jí)計(jì)算天系統(tǒng)國(guó)產(chǎn)化進(jìn)程加速前行，2022年10月9日，長(zhǎng)沙中心"天河"新一代超級(jí)計(jì)算機(jī)的雙精度浮點(diǎn)峰值計(jì)算性能達(dá)200PFlops、數(shù)據(jù)存儲(chǔ)能力不低于20PB、峰值功耗不高于8兆瓦，算力水平國(guó)際先進(jìn)、國(guó)其次，對(duì)于應(yīng)用軟件分布而言，OP10OP20軟件消耗50%80%以上算力。行業(yè)超算中心一般聚焦某幾個(gè)單一場(chǎng)景。對(duì)于粒子物理領(lǐng)域，聚集在非確定性粒子輸運(yùn)、確定性粒子輸運(yùn)及輻射流體CFD結(jié)構(gòu)力學(xué)分析、熱分析、通信信號(hào)分析、總體性能仿真等。對(duì)于信息安全領(lǐng)域，聚集于口令恢復(fù)、大整數(shù)分解離散對(duì)數(shù)求解等場(chǎng)景。對(duì)于水下航行器，聚集于水聲模擬仿真。對(duì)于天氣預(yù)報(bào)領(lǐng)域，聚集于中小OP1080%CFD80%90%的計(jì)算時(shí)間，系統(tǒng)使用率達(dá)到95%以上，甚至經(jīng)常任務(wù)出現(xiàn)排隊(duì)情況。對(duì)于粒子物理領(lǐng)域，5%算時(shí)間被非確定性粒子輸運(yùn)模擬消耗。對(duì)于信息安全領(lǐng)域，9%應(yīng)用軟件消耗。對(duì)于公開(kāi)算力平臺(tái)，ASP、Openam、WRF、Gomacs60%同時(shí)，HPC“新一代人工智能產(chǎn)業(yè)創(chuàng)新重點(diǎn)任務(wù)揭榜項(xiàng)目新冠藥物篩選、數(shù)字?jǐn)?shù)值融合引領(lǐng)環(huán)保裝備先進(jìn)工藝優(yōu)化、高性能數(shù)字仿真設(shè)計(jì)助力高端裝備設(shè)計(jì)、揭示新冠病毒Omicon變異株特性、基于自主創(chuàng)新的石油地震勘探行業(yè)應(yīng)用平臺(tái)等項(xiàng)目以及其他領(lǐng)域計(jì)算任務(wù)，從而需要比較完善的生態(tài)環(huán)境。ARM應(yīng)用生態(tài)也存在與其他架構(gòu)應(yīng)用生態(tài)類似的幾個(gè)特點(diǎn)CFD要依賴于若干大型應(yīng)用軟件一次性完成仿真計(jì)算工作。生物信息等領(lǐng)域，依賴一系列軟件，分步驟協(xié)同完成仿真計(jì)算工作。計(jì)算密集型與訪存密集型并存。信息安全領(lǐng)域中的口令恢復(fù)和分子動(dòng)力學(xué)計(jì)算，計(jì)算量大，訪存和內(nèi)存要求低。而對(duì)于離散成稀疏線性系統(tǒng)的科學(xué)計(jì)算，計(jì)算訪存比低，訪存速度是限制應(yīng)用實(shí)際計(jì)算性能的首要因素。通信自由型和通信受限型并存。對(duì)于線性系統(tǒng)求解類應(yīng)用，由于只需要對(duì)殘差等少量數(shù)據(jù)進(jìn)能擴(kuò)展到幾十個(gè)節(jié)點(diǎn)。進(jìn)程級(jí)并行和任務(wù)級(jí)并行并存。能力型應(yīng)用和大型問(wèn)題采用進(jìn)程級(jí)并行，通過(guò)分布式多核并行實(shí)現(xiàn)極大規(guī)?？蓴U(kuò)展并行計(jì)算。普適型應(yīng)用和海量問(wèn)題通常采用任務(wù)級(jí)并行，一次性提交成百上千個(gè)1-100單一并行與混合并行并存。大部分軟件采用單一并行模式，85MPI僅支持OpenMP并行，極少數(shù)支持多級(jí)混合并行，甚至異構(gòu)并行。AES等核心算法，非確定性粒子輸運(yùn)模擬主要是粒子追蹤。應(yīng)用核心算法清楚明了，但是實(shí)際應(yīng)用代碼總體而言，AM指令集兼容架構(gòu)在HPC領(lǐng)域的應(yīng)用生態(tài)是相對(duì)完備的，在重要的科學(xué)計(jì)算領(lǐng)域中無(wú)論是商業(yè)軟件還是開(kāi)源軟件均有RM指令集版本。以國(guó)家超級(jí)計(jì)算長(zhǎng)沙中心的天河新一代系統(tǒng)為例，已成功部署了Lammps、Abinit、ASP、Gomacs、CP2K等基礎(chǔ)科研軟件，WRF等氣象海洋軟件，Openam、Near++等制造仿真開(kāi)源軟件和YH-T、YH-Aeo、YHSAS、YH-MAX等天河生態(tài)工程計(jì)算軟件，ensorflowensorflow-lieopencvgaph500agle、booklaf、fftw、Laghos、numpy、tlas等數(shù)學(xué)庫(kù)，與基于x86架構(gòu)的超算系統(tǒng)對(duì)科學(xué)計(jì)算應(yīng)用的支持覆蓋率相當(dāng)。本篇介紹ARM上若干重要科學(xué)和工程計(jì)算領(lǐng)域應(yīng)用軟件理論推導(dǎo)、實(shí)驗(yàn)測(cè)試、計(jì)算模擬是當(dāng)今科技創(chuàng)新的三大主要手段。超級(jí)計(jì)算機(jī)作為計(jì)算模擬的主要工具，是不可或缺的科研基礎(chǔ)設(shè)施，也是國(guó)家科技創(chuàng)新體系的重要組成部分，已成為世界各國(guó)競(jìng)相爭(zhēng)奪的戰(zhàn)略制高點(diǎn)。E推動(dòng)科學(xué)進(jìn)步，產(chǎn)出具有國(guó)際影響力的科研成果?；A(chǔ)科研涵蓋的領(lǐng)域范圍廣，涉及分子動(dòng)力學(xué)、計(jì)算化學(xué)、地球物理、石油地質(zhì)、高能物理、天體物理、量子力學(xué)等，相關(guān)軟件種類繁多，其中相當(dāng)一部分軟件為用戶自研。勢(shì)能函數(shù)、分子力學(xué)力場(chǎng)、全始計(jì)算給出。常用軟件包括NAMD、Lammps、Amber、ABinit、CPMD、VASP、QE、DLPOLY、Siesta、Gromacs等。其中Lammps、Abinit、VASP、Gromacs已在國(guó)家超級(jí)計(jì)算化學(xué)是理論化學(xué)的一個(gè)分支，其主要目的是利用數(shù)學(xué)近似和電腦程序計(jì)算分子性質(zhì)，例如總能量、偶極矩、四極矩、振動(dòng)頻率、反應(yīng)活性等，并用以解釋一些具體的化學(xué)問(wèn)題。常用軟件包括annier90、SI、GAMES、CP2K、NWchem、Oopus中，CP2K地球物理是透過(guò)定量物理方法研究地球的自然科學(xué)學(xué)科，研究范圍包括地球的地殼、地幔、地核和大氣層，通常使用地震波、重力、電磁、地?zé)岷头派淠艿榷康奈锢矸椒?。傳統(tǒng)地球物理學(xué)主要指固體地球物理學(xué)，現(xiàn)代地球物理學(xué)的研究延伸到地球大氣層外部的現(xiàn)象，例如電離層電機(jī)效應(yīng)、極光Lanmark、trl、esseal、Madaasar括KronosFlow、basinmod、ChemStat、CMGSuite、FlowSolv等。下才能生產(chǎn)和研究它們。常用軟件包括Geant4、ROOT、MooseFramework等。天體物理學(xué)，又稱天文物理學(xué)，是研究宇宙的物理學(xué)，這包括星體的物理性質(zhì)（光度，密度，溫度，化學(xué)成分等等）和星體與星體彼此之間的相互作用。應(yīng)用物理理論與方法，天體物理學(xué)探討恒星演化、恒星結(jié)構(gòu)、星際物質(zhì)、宇宙微波背景、太陽(yáng)系的起源和許多跟宇宙學(xué)相關(guān)的問(wèn)題。常用軟件包括CASA、DS9、arfinder量子力學(xué)是研究物質(zhì)世界微觀粒子運(yùn)動(dòng)規(guī)律的物理學(xué)分支，主要研究原子、分子、凝聚態(tài)物質(zhì)，以及原子核和基本粒子的結(jié)構(gòu)、性質(zhì)的基礎(chǔ)理論。它與相對(duì)論一起被認(rèn)為是現(xiàn)代物理學(xué)的兩大基本支ASP、CATEP、MS、ELK、ASW、abinit、CP2K、QE、flapwASP、abnt、CP2K已在國(guó)家超級(jí)計(jì)算長(zhǎng)沙中心已在天河新一代系統(tǒng)上部署。鯤鵬平臺(tái)也已移植適配基礎(chǔ)科研領(lǐng)域大多數(shù)常見(jiàn)軟件，形成對(duì)教育科研的有利支撐。3-1123456789MooseHaloExchange迷你應(yīng)用程ElkQ-Quantum數(shù)值天氣預(yù)報(bào)需要海量的地理信息、實(shí)時(shí)的氣象信息以及復(fù)雜的計(jì)算邏輯，因此預(yù)報(bào)模式的發(fā)展是與計(jì)算機(jī)技術(shù)發(fā)展緊密同步的。在2050年代后的幾十年內(nèi)，各種新方法和新技術(shù)層出不窮，全球各國(guó)也相繼研發(fā)了各具特色的氣象模式軟件，然而這些軟件在數(shù)據(jù)交換等方面缺乏交互性，對(duì)氣象研究發(fā)展不利。針對(duì)這一問(wèn)題，在美國(guó)國(guó)家大氣研究中心NCAER(NtionalCenerortmosphericesach)、美國(guó)國(guó)家環(huán)境預(yù)測(cè)中心NCEP(NtionalCenersorEnvionmenalPedition)等部門的聯(lián)2090WRF。WRF(WeatherResearchandForecastingModel是當(dāng)前最為先進(jìn)和廣泛使用的數(shù)值天氣預(yù)報(bào)系統(tǒng)，即利用計(jì)算機(jī)模型模擬和預(yù)測(cè)大氣運(yùn)動(dòng)。WRF可以用于大氣科學(xué)研究和業(yè)務(wù)預(yù)報(bào)，WRF包括動(dòng)力框架、數(shù)FF06F也可用于區(qū)域氣候研究、行星大氣研究、全球氣象模FWRF為國(guó)外開(kāi)源軟件，采用ortan語(yǔ)言開(kāi)發(fā)，支持并行計(jì)算，具有十分豐富使用手冊(cè)等資料。WRF最終得到目標(biāo)區(qū)域和范圍內(nèi)的如溫度、濕度、氣壓等氣象要素，通過(guò)這一功能可以實(shí)現(xiàn)天氣預(yù)報(bào)以及歷史天氣模擬。大氣科學(xué)研究人員也能夠通過(guò)更改一系列參數(shù)或者程序代碼，模擬不同參數(shù)條件下天氣情況演變的差異，以此來(lái)進(jìn)行科學(xué)研究。WRF用戶按需選擇，比如大渦模擬、理想大氣情景模擬等。除此之外，相關(guān)開(kāi)發(fā)團(tuán)隊(duì)也將功能向其他交叉領(lǐng)域進(jìn)行了拓展，比如將化學(xué)模塊ChemWRF-Chem模式，用戶能夠自主（RF-Fie）、大氣-溫室氣體耦合模式（WRF-GG）等多種多功能多領(lǐng)域的耦合模塊，這些模塊都是圍繞WRFWRFWRFortanAM指令集兼容架構(gòu)處理器的天河超算系統(tǒng)、920氣象海洋始終是高性能計(jì)算的重要應(yīng)用領(lǐng)域，計(jì)算量大、時(shí)效性高。隨著地球系統(tǒng)模型向著更高分雷電等極端天氣的預(yù)測(cè)能力，有效減少人民的生命財(cái)產(chǎn)損失。天氣預(yù)報(bào)即綜合氣象站、衛(wèi)星等采集的信息數(shù)據(jù)，對(duì)一定區(qū)域范圍內(nèi)未來(lái)一段時(shí)間的天氣情況進(jìn)行1小時(shí)~30WRF、S，由美國(guó)主導(dǎo)開(kāi)發(fā)，目前均已在鯤鵬平臺(tái)完成適配。隨著國(guó)內(nèi)氣象領(lǐng)域的發(fā)展，涌現(xiàn)出一批優(yōu)秀的國(guó)產(chǎn)自研軟件，如：GRAPES、BC，目前也已在鯤鵬平臺(tái)完成適配。天氣預(yù)報(bào)一方面需要對(duì)大量的觀測(cè)數(shù)據(jù)進(jìn)行質(zhì)量檢查和同化分析才能獲得初值條對(duì)時(shí)效性要求高，這就要求有大算力支撐。平面上升速度，碳循環(huán)的過(guò)程、大氣成分演變過(guò)程，氣候變化、厄爾尼諾現(xiàn)象的產(chǎn)生等。氣候預(yù)測(cè)對(duì)E級(jí)計(jì)算能力的要求是迫切的，E級(jí)計(jì)算將為更復(fù)雜的模型模擬提供更高的精度并有效縮短計(jì)算時(shí)間。氣候預(yù)測(cè)的常用軟件為美國(guó)國(guó)家大氣研究中心提出的通用地球系統(tǒng)模式（TheCommunityEarthSystem海洋模擬可用于全球海洋洋流變化、海洋溫度、波浪變化、河口海口沉積物演變等研究。海洋領(lǐng)域模式眾多，且大多為開(kāi)源。比較常見(jiàn)的軟件包括：NEMO、SWAN、FOM、ROMS、HOM、avch3EOMSEDEOMPOPPOMMOM4MIcmNEMORO

人人文庫(kù)> 全部分類> 行業(yè)資料 > 信息產(chǎn)業(yè)

溫馨提示

1. 本站所有資源如無(wú)特殊說(shuō)明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽，若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間，僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理，對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容，請(qǐng)與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

開(kāi)放架構(gòu)HPC技術(shù)與生態(tài)白皮書(shū)

文檔簡(jiǎn)介

溫馨提示

最新文檔

評(píng)論

開(kāi)放架構(gòu)HPC技術(shù)與生態(tài)白皮書(shū)

文檔簡(jiǎn)介

溫馨提示

最新文檔

評(píng)論

相關(guān)文檔