ARM發(fā)布新架構(gòu)Neoverse 性能表現(xiàn)已接近Intel和AMD處理器_第1頁
ARM發(fā)布新架構(gòu)Neoverse 性能表現(xiàn)已接近Intel和AMD處理器_第2頁
ARM發(fā)布新架構(gòu)Neoverse 性能表現(xiàn)已接近Intel和AMD處理器_第3頁
ARM發(fā)布新架構(gòu)Neoverse 性能表現(xiàn)已接近Intel和AMD處理器_第4頁
ARM發(fā)布新架構(gòu)Neoverse 性能表現(xiàn)已接近Intel和AMD處理器_第5頁
已閱讀5頁,還剩4頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

ARM發(fā)布新架構(gòu)Neoverse性能表現(xiàn)已接近Intel和AMD處理器在這個移動設(shè)備成為主要計算平臺的大時代,稍微關(guān)注行業(yè)的人都聽說過ARM,該公司作為技術(shù)推動者,提供各種處理器架構(gòu)以及核心參考設(shè)計,基本上已成為當今所有移動設(shè)備的動力之源,并在過去的5~7年里,引領(lǐng)著智能手機和平板電腦SoC性能的飛速發(fā)展。ARM的雄心遠遠超出了移動和嵌入式設(shè)備領(lǐng)域。從商業(yè)意義上來看,服務(wù)器和相關(guān)基礎(chǔ)設(shè)施等高端領(lǐng)域有著更大的利潤空間,對于像ARM這樣的公司來說,這是一個非常有利可圖的市場。不過,盡管ARM在移動和嵌入式設(shè)備領(lǐng)域取得了巨大的成功,但迄今為止始終未能觸及更高性能產(chǎn)品的領(lǐng)域。雖然在過去的十年中,許多關(guān)于“ARM將掀起服務(wù)器和基礎(chǔ)架構(gòu)市場革命”的預言層出不窮,也有不同的供應商試圖實現(xiàn)這一目標,然而前幾代產(chǎn)品并沒有獲得成功,ARM的服務(wù)器生態(tài)系統(tǒng)也遇到了相當大的困難。服務(wù)器領(lǐng)域,多事之秋去年年中,全新的CortexA76架構(gòu)橫空出世,ARM對其寄予厚望,以至于隨后公開分享了未來三年的CPU路線圖,并宣布將在PC筆記本電腦領(lǐng)域與Intel展開正面競爭。盡管驍龍8CX等產(chǎn)品的上市還需要等待很久,但外媒Anandtech已經(jīng)拿到了首批搭載CortexA76的移動設(shè)備,并驗證了ARM的所有性能和效率聲明。最近,ARM又發(fā)布了新星架構(gòu)Neoverse,并希望通過新一代處理器設(shè)計大幅提升其性能,并提高在服務(wù)器和基礎(chǔ)設(shè)施領(lǐng)域的競爭力。這些新架構(gòu)對ARM來說都很重要,它們代表了市場的一個轉(zhuǎn)折點:ARM處理器的性能表現(xiàn)已經(jīng)接近了Intel和AMD處理器,且ARM有信心保持每年25~30%的性能提升,大幅超越Intel和AMD的迭代幅度。過去幾個月對于ARM服務(wù)器生態(tài)系統(tǒng)來說是非常值得欣喜的。在去年的Hotchips大會上,富士通展示了全新的A64FX高性能計算處理器,不僅代表了公司從SPARC架構(gòu)體系轉(zhuǎn)向ARMv8架構(gòu)體系,還提供了第一款在ARM架構(gòu)中實現(xiàn)新SVE(可擴展矢量擴展)的芯片。Cavium的ThunderX2也取得了令人印象深刻的性能飛躍,使其新處理器成為首批能夠與Intel和AMD競爭的處理器。前陣子,我們又看到了華為推出的全新鯤鵬920服務(wù)器芯片,該芯片有望成為業(yè)界性能最高的ARM服務(wù)器CPU。上述三種產(chǎn)品之間最大的共性是,每種產(chǎn)品都代表了各供應商在實施基于ARMv8架構(gòu)許可的定制微體系結(jié)構(gòu)方面所做的努力。這實際上引出了一個問題:ARM自己的服務(wù)器和基礎(chǔ)設(shè)施市場計劃是什么?此次,我們將詳細介紹NeoverseN1這個新平臺,它們將成為未來幾年ARM的基礎(chǔ)設(shè)施戰(zhàn)略的核心,并初步實現(xiàn)服務(wù)器生態(tài)系統(tǒng)。NeoverseN1CPU:無妥協(xié)性能NeoverseN1平臺的核心是NeoverseN1CPU,即CPU品牌與平臺品牌有相同的命名。ARM所描述的平臺不僅是CPU核心,還包括周圍的互連IP,使整個系統(tǒng)可以擴展到多核系統(tǒng)。NeoverseN1平臺和CPU代表了ARM首款專為服務(wù)器和基礎(chǔ)設(shè)施市場設(shè)計的專用計算IP。這是對過去IP產(chǎn)品的重大改變,其中將為消費產(chǎn)品和行業(yè)解決方案提供相同的CPUIP。這些IP家族之間的新技術(shù)區(qū)別促使ARM為新的基礎(chǔ)架構(gòu)目標產(chǎn)品采用新的營銷名稱,因此Neoverse品牌誕生,與面向消費者的CortexCPU品牌區(qū)別開來。NeoverseN1平臺代表了ARM奧斯汀設(shè)計中心“第二代奧斯汀家族”的第一次迭代。NeoverseN1原名為“戰(zhàn)神”,代表了與CortexA76相對應的服務(wù)器處理器核心。同時,奧斯汀團隊可能已經(jīng)完成了第二次迭代所需的Zeus架構(gòu)的設(shè)計工作;隨后Poseidon架構(gòu)將成為這一家族的最后一次迭代,然后將接力棒傳遞給由法國的索菲亞團隊設(shè)計的下一個架構(gòu)家族。由于NeoverseN1是CortexA76架構(gòu)的兄弟,兩款核心之間自然有很多相似之處。我們?nèi)ツ暝敿毥榻B了CortexA76架構(gòu),這些設(shè)計細節(jié)也同樣適用于NeoverseN1,二者僅在適應基礎(chǔ)設(shè)施用例方面有些差異。就高層設(shè)計目標而言,ARM的目標似乎相當直接:創(chuàng)建一個毫不妥協(xié)的架構(gòu),并成為未來幾年內(nèi)可重復使用的基礎(chǔ)。特別值得一提的是,我們從CortexA76上可以看出,ARM正在調(diào)整架構(gòu)設(shè)計,使其能夠在基礎(chǔ)設(shè)施部署中以最高頻率運行。這與Intel和AMD在服務(wù)器CPU上采用的策略形成了鮮明的對比。ARM在服務(wù)器CPU上的優(yōu)勢在于可以同時優(yōu)化性能、功耗和面積,而Intel和AMD不得不在這些指標中做出妥協(xié),使其產(chǎn)品雖然與對應的消費級產(chǎn)品有著類似的架構(gòu),但頻率往往非常有限,這取決于給定的SKU針對的是哪個細分市場。NeoverseN1的流水線結(jié)構(gòu)與CortexA76相同,均為11級短流水線設(shè)計,前端都是4寬的讀取/解碼器。ARM將其稱為“手風琴”管道,因為根據(jù)指令長度不同,它可以在延遲敏感的情況下將第二預測階段與第一獲取階段重疊,將調(diào)度階段與第一發(fā)布階段重疊,將流水線長度減少到9級。執(zhí)行后端也看起來與CortexA76完全相同,擁有2個處理加減運算的簡單ALU、1個處理乘除運算的復雜ALU,以及2個處理向量和浮點運算的全寬128位SIMD流水線。數(shù)據(jù)吞吐量是處理器架構(gòu)的一項重要指標,ARM為NeoverseN1設(shè)計了兩個128位加載/存儲單元,能夠維持足夠的帶寬來提供和服務(wù)執(zhí)行流水線。架構(gòu)前端與CortexA76同樣非常相似,大容量的L1和L2具有低延遲訪問性能。這里的ARM還采用了業(yè)界公知的一些最大的分支目標和方向預測緩沖器,嘗試保持數(shù)據(jù)流經(jīng)核心,并最小化分支預測和緩存命中失敗的概率來提高性能。在緩存層次結(jié)構(gòu)方面,NeoverseN1與CortexA76相差很大。二者的L1緩存容量均為64KB,讀取延遲為4個周期,但是NeoverseN1上最大的不同在于緩存是完全一致的。需要注意的是,硬件I-cache的一致性并不是ISA所要求的,到目前為止,通常都是通過軟件維護操作來完成的。為N1實現(xiàn)硬件一致性對ARM來說非常重要,因為它極大地提高了性能并簡化了虛擬環(huán)境的實現(xiàn),如果ARM想要在超大規(guī)??蛻糁芯哂懈偁幜?,就必須具備這些特性。擁有I-Cache的一致性被認為是一個關(guān)鍵的支持因素,可以使系統(tǒng)具有非常大的內(nèi)核計數(shù),ARM表示16核以上的系統(tǒng)都必須具備這一特性。L2緩存可選擇512KB或1MB的配置,使用512KB配置時與CortexA76基本相同,而1MB緩存則可以應對內(nèi)存占用更大的應用程序。不過,將L2緩存加倍到1MB并不是沒有代價的,這會讓緩存的延遲增加2個周期,達到11個周期的負載使用延遲。NeoverseN1與CortexA76的一個很大的區(qū)別在于,在進行大尺度緩存操作時,NeoverseN1不會去尋找集群,而是會使用mash互聯(lián)的方式。如圖所示,該連接首先通過一個CAL或組件聚合層。每個CAL最多支持兩個接口,這就是為什么我們在每個“集群”中只能看到兩個CPU(它本身并不是真正的集群)。然后CAL連接到網(wǎng)格的XP(交叉點),它本質(zhì)上是網(wǎng)絡(luò)的交換機/路由器組件。每個XP都有兩個可用端口;在ARM參考設(shè)計示例中,第二個端口連接一個系統(tǒng)級緩存。在64核系統(tǒng)搭配2MB系統(tǒng)級緩存的示例系統(tǒng)中,整個64MB緩存的平均負載使用延遲為22ns。ARM給出的延遲數(shù)據(jù)是納秒數(shù)而不是周期數(shù)的原因是系統(tǒng)級緩存和mesh運行在與CPU異步的頻率上,通常是內(nèi)核頻率的2/3左右。直接連接是NeoverseN1和CMN-600的一個整體特征。這個特性只存在于這個平臺上,而在Cortex架構(gòu)上是不可能實現(xiàn)的。本質(zhì)上,它刪除了DSU的所有L3和探聽過濾器邏輯,而是直接將CPU內(nèi)核連接到CMN的CHI接口。因此,內(nèi)存控制器和CPU核心之間的通信本質(zhì)上只需要通過一個中間層,即mash網(wǎng)絡(luò)本身。直接從內(nèi)存控制器向CPU數(shù)據(jù)傳輸可能有點難以解釋,當CPU向內(nèi)存控制器發(fā)出數(shù)據(jù)請求時,它能夠立即同時首先向其發(fā)送“預取”類型請求,同時通過mesh網(wǎng)絡(luò)中XP主節(jié)點的探聽過濾器正常傳輸命令,然后將請求路由到內(nèi)存控制器。因此,內(nèi)存控制器將提前知道請求的到來,并且已經(jīng)開始獲取數(shù)據(jù),從而隱藏部分有效的內(nèi)存延遲,而不是整個傳輸按串行順序進行。預取對整個系統(tǒng)的性能非常重要,智能管理數(shù)據(jù)預取可以有效優(yōu)化系統(tǒng)級帶寬。據(jù)說在具有64核心和8個DDR43200內(nèi)存通道的NeoverseN1參考系統(tǒng)中,可以實現(xiàn)高達175GB/s的內(nèi)存帶寬。ARM還公布了延遲數(shù)據(jù),但ARM的數(shù)據(jù)表示LMBench數(shù)據(jù),同時配置了256MB測試深度的2MB大頁面。選擇大頁面可以減少TLB的遺漏,并更接近實際的內(nèi)存延遲,這就是ARM在這種情況下發(fā)布度量的基本原理。我們還沒有機會測試啟用了大頁面的競品系統(tǒng),但是AMD的EPYC7601(LRDIMMDDR4266619-19-19)可在芯片的高速緩存層次結(jié)構(gòu)的末端通過類似于LMBench的測試來實現(xiàn)約73ns的延遲,而定制開發(fā)的延遲測試將TLB失敗最小化后延遲約為57ns。IntelW-3175X(RDIMMDDR266624-19-19)在相同測試下延遲分別為94ns和64ns。使用臺積電7nm工藝制造的NeoverseN1芯片面積非常小,在使用512KB二級緩存時核心面積約為1.2平方毫米,與麒麟980所用CortexA76的1.26平方毫米幾乎相同,將L2緩存加倍到1MB后,核心面積也只有1.4平方毫米。在頻率范圍方面,ARM的設(shè)想是在0.75V電壓下達到2.6GHz,在1V電壓下可實現(xiàn)3.1GHz。在這條頻率曲線末端,提升44%的功耗只能得到19%頻率和性能提高,因此大多數(shù)供應商都希望更接近功率曲線中更有效的部分。不過從絕對數(shù)字來看,NeoverseN1的功耗只有1~1.8W,這為64核SoC提供了充足的空間,ARM對于64核NeoverseN1參考設(shè)計的總功率預算約為105W。NeoverseN1超大規(guī)模參考設(shè)計ARM提供NeoverseN1的完整參考設(shè)計,其中包含一組完全由ARM自己驗證的IP。這套參考設(shè)計的目標是為供應商提供“甜點”配置選項,這樣他們就可以用相對最少的努力來實現(xiàn)最優(yōu)的性能。NeoverseN1的參考設(shè)計中可采用64或128核心配置,集成在具有64MB或128MB系統(tǒng)級緩存的CMN-600mash網(wǎng)絡(luò)中。I/O接口方面,128條PCI-E4.0通道分別用于I/O和CCIX接口,可提供足夠的I/O帶寬。在內(nèi)存方面,ARM為其配置了8通道DDR4控制器,最高支持3200MHz。不過實際上,ARM已經(jīng)放棄了自行研發(fā)內(nèi)存控制器,因為大多數(shù)情況下客戶會使用各自的內(nèi)部設(shè)計,或者選擇從其他第三方供應商(如Cadence或Synopsys)處選擇方案。對于目前的參考設(shè)計來說,ARM自己的DMC-520內(nèi)存控制器仍然是最新的,且對于公司來說是一個很好理解的模塊。不過在未來,像DDR5這樣的較新的內(nèi)存控制器也將不得不依賴于第三方IP。SoC的物理實現(xiàn)將使用便于設(shè)計的可復用分層構(gòu)建塊。每個CPU模塊由兩個NeoverseN1內(nèi)核、一組系統(tǒng)級緩存,以及CMN的交叉點和本地節(jié)點的一部分組成。通過翻轉(zhuǎn)和鏡像來復制CPU模塊,即可生成最終的SoC頂層網(wǎng)格。在7nm工藝節(jié)點上,ARM的64核NeoverseN1參考設(shè)計搭配64MB高速緩存,芯片尺寸接近400平方毫米,可能略高于供應商想要的可制造性目標。為了緩解這種擔憂,ARM同時提出了小芯片設(shè)計的想法,讓多個小芯片通過CCIX鏈路進行通信,保證了必要的靈活性,供應商可自行決定如何設(shè)計解決方案。智能網(wǎng)卡的集成能力也是其設(shè)計和靈活性的一個重要方面,為了在大型系統(tǒng)中最大限度地提高計算能力,加速網(wǎng)絡(luò)連接實際上是在盡可能密集且有效的形式因素下實現(xiàn)高吞吐量的關(guān)鍵。CMN-600允許在其交叉點上設(shè)置從端口,通過高達128GB/s的高帶寬總線與內(nèi)存管理單元連接,可輕松外掛其他固定功能的硬件模塊。CCIX對ARM非常重要,因為它使其產(chǎn)品組合能夠與第三方IP產(chǎn)品集成。為外部IP模塊啟用高速緩存一致性是一個非常有吸引力的功能,因為它大大簡化了供應商的軟件設(shè)計?;旧线@意味著軟件只是看到一個巨大的內(nèi)存塊,而非相干系統(tǒng)需要驅(qū)動程序和軟件知道并跟蹤內(nèi)存的哪個部分是有效的,哪些不是。在IP集成方面,ARM提供與CMN-600集成的CCIX一致網(wǎng)關(guān),而另一方面,它是第三方IP提供商提供CCIX轉(zhuǎn)換層的責任。對ARM來說,CCIX非常重要,它可讓其產(chǎn)品組合能夠與第三方IP產(chǎn)品集成。為外部IP塊啟用緩存一致性是一個非常有吸引力的特性,可大大簡化供應商的軟件設(shè)計,不再需要系統(tǒng)、驅(qū)動和軟件跟蹤哪些是有效內(nèi)存。在IP集成方面,ARM提供了與CMN-600集成的CCIX相干網(wǎng)關(guān),而第三方IP提供商則提供CCIX翻譯層。在芯片的邏輯設(shè)計中,供應商還必須設(shè)計一套健壯的配電網(wǎng)絡(luò),以支撐實際使用情況中各種突發(fā)且嚴苛的電能需求。這對許多供應商而言都是一個非常頭疼的問題,因為設(shè)計需要復雜的模型,且在大多數(shù)情況下,配電網(wǎng)絡(luò)需要過度設(shè)計以提供穩(wěn)定性保證,這反過來又增加了實施的復雜性和成本。ARM旨在通過以專用微控制器的形式提供極細粒度的DVFS(動態(tài)電壓頻率調(diào)整)機制來緩解這些問題??刂破髟L問CPU核心內(nèi)部的詳細活動監(jiān)視單元,查看實際有多少晶體管正在積極工作,并將此信息反饋給系統(tǒng)控制器以更改DVFS狀態(tài)。這使供應商能夠?qū)⑵渑潆娋W(wǎng)絡(luò)設(shè)計為更保守的容差,從而節(jié)省實施成本。性能預測關(guān)于性能和效率的討論,必然需要用具體的數(shù)字來衡量。在ARM公布NeoverseN1時,大多數(shù)性能數(shù)據(jù)都是相對于CortexA72的改進,這并沒有將NeoverseN1真正置于競爭格局中最相關(guān)的數(shù)據(jù)點。CortexA72是一款2015年推出的架構(gòu),兩款產(chǎn)品之間有著3~4年的時間跨度。與相同頻率且同樣配有系統(tǒng)級緩存的CortexA72平臺相比,全新的NeoverseN1平臺直接以碾壓的姿態(tài)獲得完勝。在SPEC的單線程測試中,NeoverseN1的整數(shù)運算PPC(每時鐘性能)和絕對性能相比CortexA72增長了60%~70%,浮點運算性能則更令人印象深刻,增幅高達100%~120%。且鑒于NeoverseN1還有許多其他SoC級別的改進及軟件優(yōu)化,實際的性能表現(xiàn)將會更高。與現(xiàn)有解決方案相比,ARM再次迭代了非常大幅的性能演進,在向量工作負載中實現(xiàn)了超過2倍的性能提升。自然,NeoverseN1支持ARMv8.2指令集也意味著它支持8位點積和FP16半精度指令,這些指令特別適合機器學習工作負載,實現(xiàn)了比前一個平臺近5倍的性能提升。對于運行速度約為2.6GHz的64核NeoverseN1超大規(guī)模參考設(shè)計,在105瓦TDP下,其SPECint2006單線程得分約為37,而多線程得分預計約為1310。不過這一性能不是在實際運行的產(chǎn)品上測出的,而是在ARM的服務(wù)器群上使用RTL模擬環(huán)境中估算出來的。NeoverseN1的單線程得分,明顯高于在同源的CortexA76上測量的26分,撇開軟件和編譯器的考慮不提,造成42%性能差異的原因之一可能是NeoverseN1擁有更好的內(nèi)存和緩存系統(tǒng),整個系統(tǒng)帶寬比CortexA76這種移動SoC高6倍,在單線程工作負載中,線程可以完全訪問64MB系統(tǒng)級緩存,這比CortexA76設(shè)計的L3緩存大16倍。ARM強調(diào),在改善生態(tài)系統(tǒng)性能的眾多努力中,除了提供更好的硬件之外,還需要提供更好的軟件。在過去的幾年里,ARM投入了大量精力來改進開源工具和編譯器,比如將最新版GCC9與舊版的GCC5進行比較,其整數(shù)和浮點工作負載的性能提高了13~15%,且這些優(yōu)化是面向?qū)嶋H用例的改進,而不是旨在提升SPEC跑分的針對性的改變。就單線程性能而言,NeoverseN1看起來非常出色,它以很大的優(yōu)勢擊敗了目前性能最佳的ARM服務(wù)器CPU,即Cavium的ThunderX2。既然是面向服務(wù)器領(lǐng)域的產(chǎn)品,免不了要與老牌供應商Intel和AMD進行對比,在Intel和AMD最新的、也是最好的XeonW-3172X以及EPYC7601上,同樣使用GCC8編譯一組二進制文件進行。Intel的XeonW-3172X很難說是最具代表性的超大規(guī)模CPU,但它4.5GHz的單核睿頻頻率可提供多核CPU中最強的單線程性能。AMD的EPYC7601則是一個更有代表性的數(shù)據(jù)點,其3.2GHz的頻率和NeoverseN1很有的比,實際成績來看也確實如此。再來看SPECrate2006的多線程測試,這是所有平臺的最佳擴展場景,沒有序列化或線程間通信,測試套件只是并行運行多個進程。從ARM給出的模擬測試結(jié)果來看,64核的NeoverseN1以105瓦的TPD實現(xiàn)了極高的性能和效率,x86解決方案甚至很難能夠競爭。雖然測試比較的是64核ARM平臺與32/28核x86平臺,貌似使用AMD即將推出的64核Rome處理器才更公平,但從數(shù)據(jù)來看,即使AMD的64核

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論