高性能計(jì)算機(jī)體系結(jié)構(gòu)的研究_第1頁(yè)
高性能計(jì)算機(jī)體系結(jié)構(gòu)的研究_第2頁(yè)
高性能計(jì)算機(jī)體系結(jié)構(gòu)的研究_第3頁(yè)
高性能計(jì)算機(jī)體系結(jié)構(gòu)的研究_第4頁(yè)
高性能計(jì)算機(jī)體系結(jié)構(gòu)的研究_第5頁(yè)
已閱讀5頁(yè),還剩16頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、 高性能計(jì)算機(jī)體系結(jié)構(gòu)的研究學(xué) 院: 計(jì)算機(jī)與通信學(xué)院 專 業(yè): 計(jì)算機(jī)應(yīng)用技術(shù) 姓 名: 賀 言 君 學(xué) 號(hào): 122081203001 日 期: 2012年10月27日 21摘要: 高性能計(jì)算(HPC)是一個(gè)計(jì)算機(jī)集群系統(tǒng),它通過(guò)各種互聯(lián)技術(shù)將多個(gè)計(jì)算機(jī)系統(tǒng)連接在一起,利用所有被連接系統(tǒng)的綜合計(jì)算機(jī)能力來(lái)處理大型計(jì)算問(wèn)題。它的的基本原理就是將問(wèn)題分為若干部分,而相連的每臺(tái)計(jì)算機(jī)(稱為節(jié)點(diǎn))均可同時(shí)參與問(wèn)題的解決,從而顯著縮短了解決整個(gè)問(wèn)題所需的計(jì)算時(shí)間。高性能計(jì)算機(jī)的研制水平受探求復(fù)雜的物理世界與人類社會(huì)本身的應(yīng)用計(jì)算需求的驅(qū)動(dòng)及研制者所處環(huán)境及當(dāng)時(shí)的可選擇的實(shí)現(xiàn)技術(shù)的影響。本文主要介紹了

2、高性能計(jì)算機(jī)的體系結(jié)構(gòu),同時(shí),對(duì)高性能計(jì)算機(jī)的歷史和發(fā)展方向也做了簡(jiǎn)單的介紹與分析。關(guān)鍵字:高性能計(jì)算機(jī);集群;體系結(jié)構(gòu)正文1. 高性能計(jì)算機(jī)的歷史回顧最早的電子計(jì)算機(jī)就是為了能夠進(jìn)行大量繁瑣的科學(xué)計(jì)算而產(chǎn)生的。從1960年開(kāi)始,計(jì)算機(jī)技術(shù)逐漸成熟,在各種商業(yè)領(lǐng)域慢慢地開(kāi)始采用電子領(lǐng)域,而且應(yīng)用范圍越來(lái)越廣泛,逐漸出現(xiàn)了針對(duì)各種不同商業(yè)用途的計(jì)算機(jī),被稱為“通用計(jì)算機(jī)”,具有性能和功能上的優(yōu)勢(shì)的一類計(jì)算機(jī)被稱為“高性能計(jì)算機(jī)”,在當(dāng)時(shí)主要用于科學(xué)計(jì)算。20世紀(jì)70年代出現(xiàn)的向量計(jì)算機(jī)可以看作是第一代的高性能計(jì)算機(jī)。20世紀(jì)80年代初期,隨著VLSI技術(shù)和微處理技術(shù)的發(fā)展,向量機(jī)一統(tǒng)天下的格局逐

3、漸被打破。通過(guò)多個(gè)廉價(jià)的微處理器構(gòu)建的并行化超級(jí)計(jì)算機(jī)首先從成本上具有了無(wú)可比擬的優(yōu)勢(shì)。20世紀(jì)90年代初期,大規(guī)模并行處理(MPP)系統(tǒng)成為了高性能計(jì)算機(jī)的發(fā)展主流。MPP主要通由多個(gè)微處理器通過(guò)高速互聯(lián)網(wǎng)絡(luò)構(gòu)成,每個(gè)處理器之間通過(guò)消息傳遞方式進(jìn)行通訊和協(xié)調(diào)。20世紀(jì)90年代中后期,CC-NUMA結(jié)構(gòu)問(wèn)世,即分布式共享內(nèi)存。每個(gè)處理器節(jié)點(diǎn)都可以訪問(wèn)到所有其他節(jié)點(diǎn)的內(nèi)存,但訪問(wèn)遠(yuǎn)程內(nèi)存需要的延遲相對(duì)較大。CC-NUMA本身沒(méi)有在提高性能上進(jìn)行較大的創(chuàng)新,而對(duì)于科學(xué)計(jì)算任務(wù),CC-NUMA是否優(yōu)于MPP仍存在爭(zhēng)議。在發(fā)展CC-NUMA的同時(shí),集群系統(tǒng)(cluster)也迅速發(fā)展起來(lái),類似MPP結(jié)

4、構(gòu),集群系統(tǒng)是由多個(gè)微處理器構(gòu)成的計(jì)算機(jī)節(jié)點(diǎn),通過(guò)高速網(wǎng)絡(luò)互聯(lián)而成,節(jié)點(diǎn)一般是可以單獨(dú)運(yùn)行的商品化計(jì)算機(jī)。由于規(guī)模經(jīng)濟(jì)成本低的原因,集群系統(tǒng)更具有性能/價(jià)格比優(yōu)勢(shì)電子計(jì)算機(jī)在誕生之初主要就是為科學(xué)計(jì)算服務(wù)的。到 1960 年代,隨著技術(shù)的成熟,計(jì)算機(jī)開(kāi)始走向各種商業(yè)領(lǐng)域的應(yīng)用,并且應(yīng)用范圍越來(lái)越廣泛。因此,為了有別于“通用計(jì)算機(jī)” ,專門針對(duì)科學(xué)計(jì)算進(jìn)行優(yōu)化設(shè)計(jì)的計(jì)算機(jī)開(kāi)始被稱為“高性能計(jì)算機(jī)” ,或簡(jiǎn)稱 HPC。 可以把 1970 年代出現(xiàn)的向量計(jì)算機(jī)看作是第一代的高性能計(jì)算機(jī)。 通過(guò)在計(jì)算機(jī)中加入向量流水部件,可以大大提高科學(xué)計(jì)算中向量運(yùn)算的速度,其中比較著名的有 CDC 系列、CRAY

5、系列、NEC 的 SX 系列向量機(jī)。中國(guó)有代表性的是銀河一號(hào)及中科院計(jì)算所的 757計(jì)算機(jī)。 80 年代初期,隨著 VLSI 技術(shù)和微處理器的技術(shù)的發(fā)展,向量機(jī)一統(tǒng)天下的格局逐漸被打破。 通過(guò)多個(gè)廉價(jià)的微處理器構(gòu)建的并行化超級(jí)計(jì)算機(jī)首先從成本上具有了無(wú)可比擬的優(yōu)勢(shì)。 “性能/價(jià)格比”而非單一性能成為衡量高性能計(jì)算機(jī)系統(tǒng)的重要指標(biāo)。按照摩爾定律速度發(fā)展的微處理器的性能快速超越傳統(tǒng)向量機(jī)。1990 年代初期,大規(guī)模并行處理(MPP)系統(tǒng)已經(jīng)開(kāi)始成為高性能計(jì)算機(jī)發(fā)展的主流。 MPP 主要由多個(gè)微處理器通過(guò)高速互聯(lián)網(wǎng)絡(luò)構(gòu)成,每個(gè)處理器之間通過(guò)消息傳遞的方式進(jìn)行通訊和協(xié)調(diào)。比較有代表性的有 TMC 的

6、CM-5, Intel Paragon 等。中國(guó)的第一個(gè) MPP 系統(tǒng)是計(jì)算所國(guó)家智能機(jī)中心的曙光 1000 計(jì)算機(jī)。 較 MPP 早幾年問(wèn)世的對(duì)稱多處理機(jī)SMP 系統(tǒng), 是由數(shù)目相對(duì)較少的微處理器共享物理高性能計(jì)算機(jī)研究的現(xiàn)狀與展望 內(nèi)存和 I/O 總線形成的計(jì)算機(jī)系統(tǒng)(國(guó)內(nèi)最早基于微處理器的SMP 為曙光1 號(hào))。和 MPP 相比,早期的 SMP 擴(kuò)展能力有限,并不具有很強(qiáng)的計(jì)算能力。但由于 SMP 與單機(jī)系統(tǒng)兼容性好,是單機(jī)系統(tǒng)的升級(jí)與增強(qiáng),被廣泛應(yīng)用于商業(yè)計(jì)算領(lǐng)域。 1990 年代中后期的一種趨勢(shì)是將 SMP 的優(yōu)點(diǎn)和 MPP 的擴(kuò)展能力結(jié)合起來(lái),這一趨勢(shì)發(fā)展成后來(lái)的 CC-NUMA

7、結(jié)構(gòu),即分布式共享內(nèi)存。每個(gè)處理器節(jié)點(diǎn)都可以訪問(wèn)到所有其它節(jié)點(diǎn)的內(nèi)存,但訪問(wèn)遠(yuǎn)程內(nèi)存需要的延遲相對(duì)較大。代表性的系統(tǒng)有 Sequent NUMA-Q, SGI-Cray Origin 等,國(guó)內(nèi)的神威與銀河系列等。CC-NUMA本身沒(méi)有在提高性能的角度上進(jìn)行較大的創(chuàng)新,主要優(yōu)點(diǎn)是便于程序的開(kāi)發(fā)和與 SMP 的兼容性。而對(duì)科學(xué)計(jì)算任務(wù)CC-NUMA結(jié)構(gòu)是否優(yōu)于 MPP 系統(tǒng)仍存在爭(zhēng)議。 在發(fā)展 CC-NUMA同時(shí),機(jī)群系統(tǒng)(Cluster)也迅速發(fā)展起來(lái)。類似 MPP 結(jié)構(gòu),機(jī)群系統(tǒng)是由多個(gè)微處理器構(gòu)成的計(jì)算機(jī)節(jié)點(diǎn)通過(guò)高速網(wǎng)絡(luò)互連而成。 節(jié)點(diǎn)一般是可以單獨(dú)運(yùn)行的商品化計(jì)算機(jī)。由于規(guī)模經(jīng)濟(jì)成本低的原

8、因,機(jī)群系統(tǒng)具有比 MPP 更高的性能/價(jià)格比優(yōu)勢(shì)。 機(jī)群系統(tǒng)還繼承 MPP 系統(tǒng)的編程模型, 更進(jìn)一步加強(qiáng)其競(jìng)爭(zhēng)優(yōu)勢(shì)。 代表性的系統(tǒng)是 IBM SP2,國(guó)內(nèi)有曙光 3000,4000 等系列。到 2000 年初機(jī)群實(shí)際上已經(jīng)構(gòu)成了高性能計(jì)算機(jī)系統(tǒng)的主流。據(jù) 2003 年的統(tǒng)計(jì),TOP500 中的 MPP(含 CC-NUMA)占 42%,Cluster 占 29.8%。MPP 取代向量機(jī)和機(jī)群逐步替代 MPP 這兩個(gè)進(jìn)程的背后都是摩爾定律在起作用。高性能計(jì)算機(jī)體系結(jié)構(gòu)的創(chuàng)新必須與半導(dǎo)體技術(shù)和產(chǎn)業(yè)發(fā)展相結(jié)合,否則很難變成主流技術(shù),這也是 SIMD 系統(tǒng)、陣列機(jī)、數(shù)據(jù)流等新型體系結(jié)構(gòu)沒(méi)有流行起來(lái)的

9、主要原因。 2. 高性能計(jì)算機(jī)的體系結(jié)構(gòu)1 高性能計(jì)算機(jī)體系結(jié)構(gòu)對(duì)于服務(wù)器而言,單純地提高單個(gè)處理器的運(yùn)算能力和處理能力正在變得越來(lái)越難,雖然制造商從材料、工藝和設(shè)計(jì)等方面進(jìn)行了不懈的努力,近期內(nèi)CPU保持著高速的增長(zhǎng)勢(shì)態(tài),但高頻之下的高功耗所引起的電池容量問(wèn)題和散熱問(wèn)題等負(fù)面效應(yīng),以及這些負(fù)面效應(yīng)對(duì)整機(jī)系統(tǒng)產(chǎn)生的電磁兼容性問(wèn)題,又反過(guò)來(lái)將CPU運(yùn)算能力的提升推到了暮年顯然,提高單個(gè)處理器速度和性能已是強(qiáng)弩之末而研發(fā)多個(gè)CPU的并行處理技術(shù),才是真正提高現(xiàn)代服務(wù)器處理能力和運(yùn)算速度的有效途徑目前,由圖SIMD技術(shù)、Single Proc技術(shù)、Const技術(shù)已經(jīng)不再使用,并行處理技術(shù)主要有SMP

10、技術(shù)、NUMA技術(shù)、集群技術(shù)和網(wǎng)格技術(shù)等.根據(jù)2006年對(duì)排行前500名的機(jī)器作TOP500統(tǒng)計(jì),TOP500中的Cluster約占708,MPP(含CCNUMA)約占22,而SMP約占72.1.1 SMP技術(shù)對(duì)稱多處理(symmetrical multiprocessing,SMP)技術(shù)是相對(duì)非對(duì)稱多處理技術(shù)而言的、應(yīng)用十分廣泛的并行技術(shù)在這種架構(gòu)中,多個(gè)處理器運(yùn)行操作系統(tǒng)的單一復(fù)本,并共享內(nèi)存和一臺(tái)計(jì)算機(jī)的其它資源所有的處理器都可以平等地訪問(wèn)內(nèi)存、I0和外部中斷系統(tǒng)資源被系統(tǒng)中所有CPU共享,工作負(fù)載能夠均勻地分配到所有可用的處理器之上目前,大多數(shù)SMP系統(tǒng)的CPU是通過(guò)共享系統(tǒng)總線來(lái)存取

11、數(shù)據(jù),實(shí)現(xiàn)對(duì)稱多處理的在SMP系統(tǒng)中增加更多處理器的兩個(gè)主要問(wèn)題是系統(tǒng)不得不消耗資源來(lái)支持處理器搶占內(nèi)存,以及內(nèi)存同步.1.2 NUMA技術(shù)在非一致訪問(wèn)分布共享存儲(chǔ)技術(shù)(non uniformmemory access,NUMA)體系結(jié)構(gòu)中,每個(gè)處理器與本地存儲(chǔ)器和高速緩存相連,多個(gè)處理器通過(guò)處理器、存儲(chǔ)器互聯(lián)網(wǎng)絡(luò)相連處理器還通過(guò)處理器、IO網(wǎng)絡(luò)訪問(wèn)共享的IO和外圍設(shè)備至于處理器之間的通信則通過(guò)可選的處理器之間的通信網(wǎng)絡(luò)來(lái)實(shí)現(xiàn)NMUA技術(shù)在科學(xué)與工程計(jì)算領(lǐng)域具有不可替代的地位,在聯(lián)機(jī)事務(wù)處理(OLTP)、決策支持服務(wù)(DSS)和Intranet以及Internet中的地位也越來(lái)越重要目前,NU

12、MA并行機(jī)的處理器數(shù)目可達(dá)到512個(gè),且?guī)捒呻S處理器數(shù)目基本上呈線性擴(kuò)展這樣大的處理器數(shù),使單一系統(tǒng)映像的NUMA機(jī)足以覆蓋絕大多數(shù)的應(yīng)用首先,由于它具有與SMP相同的編程模式,因此在科學(xué)與工程計(jì)算領(lǐng)域具有不可替代的地位;其次,由于它具有共享內(nèi)存和良好的可擴(kuò)展性優(yōu)勢(shì),可以適應(yīng)企業(yè)數(shù)據(jù)中心的多種應(yīng)用NUMA系統(tǒng)能夠運(yùn)行世界上一些最大的UNIX數(shù)據(jù)庫(kù)應(yīng)用,而且正被廣泛接受為電子商務(wù)的主流技術(shù),包括處理功能強(qiáng)大、IO的大規(guī)??蓴U(kuò)展性、高可用性、工作負(fù)荷和資源管理的廣泛靈活性,而且無(wú)需改變SMP編程模型等優(yōu)越技術(shù)1.3 Cluster技術(shù)集群(Cluster)技術(shù)是近幾年興起的發(fā)展高性能計(jì)算機(jī)的一項(xiàng)

13、技術(shù)它是一組相互獨(dú)立的計(jì)算機(jī),利用高速通信網(wǎng)絡(luò)組成一個(gè)單一的計(jì)算機(jī)系統(tǒng),并以單一系統(tǒng)的模式加以管理其出發(fā)點(diǎn)是提供高可靠性、可擴(kuò)充性和抗災(zāi)難性一個(gè)集群包含多臺(tái)擁有共享數(shù)據(jù)存儲(chǔ)空間的服務(wù)器,各服務(wù)器通過(guò)內(nèi)部局域網(wǎng)相互通信當(dāng)一臺(tái)服務(wù)器發(fā)生故障時(shí),它所運(yùn)行的應(yīng)用程序?qū)⒂善渌?wù)器自動(dòng)接管在大多數(shù)模式下,集群中所有的計(jì)算機(jī)擁有一個(gè)共同的名稱,集群內(nèi)的任一系統(tǒng)上運(yùn)行的服務(wù)都可被所有的網(wǎng)絡(luò)客戶使用采用集群系統(tǒng)通常是為了提高系統(tǒng)的穩(wěn)定性和網(wǎng)絡(luò)中心的數(shù)據(jù)處理能力及服務(wù)能力1.4 網(wǎng)格技術(shù)網(wǎng)格技術(shù)有可能成為實(shí)現(xiàn)Petaflops的另一條途徑網(wǎng)格是近年來(lái)計(jì)算機(jī)體系結(jié)構(gòu)發(fā)展的一個(gè)重要方向,其基本思想是通過(guò)Intern

14、et進(jìn)行資源共享和協(xié)同工作目前連接到Internet的計(jì)算機(jī)已經(jīng)達(dá)到1億臺(tái)以上,通過(guò)互聯(lián)網(wǎng)可能達(dá)到的聚合計(jì)算潛力是不可估量的國(guó)際上已經(jīng)有Globus等組織為網(wǎng)格環(huán)境制定標(biāo)準(zhǔn)和參考實(shí)現(xiàn)但是用網(wǎng)格技術(shù)實(shí)現(xiàn)PetafloPs仍需要關(guān)鍵技術(shù)上的突破:一方面互聯(lián)網(wǎng)連接的速度和帶寬仍有待提高,近年來(lái),網(wǎng)絡(luò)通信技術(shù)以超摩爾定律的速度高速增長(zhǎng),已經(jīng)為此提供了可能,達(dá)到實(shí)用階段只是時(shí)間問(wèn)題另一方面是有效的網(wǎng)格體系模型和計(jì)算模型還沒(méi)有建立網(wǎng)格的資源是分散和動(dòng)態(tài)的,計(jì)算也是一種分散的、動(dòng)態(tài)的過(guò)程。傳統(tǒng)的并行共享內(nèi)存或消息傳遞程序模式不能直接有效地利用,如何科學(xué)計(jì)算高效使用網(wǎng)格的計(jì)算能力是當(dāng)前一個(gè)主要的研究方向2 現(xiàn)

15、狀 目前,世界上最快的超級(jí)計(jì)算機(jī) Earth Simulator 的實(shí)際計(jì)算速度是 35T flops,即 35 萬(wàn)億次。對(duì)高性能計(jì)算機(jī)研究的下一個(gè)挑戰(zhàn)是 1Petaflops,即千萬(wàn)億次計(jì)算。 預(yù)計(jì) Petaflops 計(jì)算機(jī)將由 100001000000 個(gè)處理器、10TB1PB主存、1PB100PB在線存儲(chǔ)、100PB以上離線存儲(chǔ)構(gòu)成。第一個(gè)系統(tǒng)實(shí)現(xiàn)將在 2010 年前完成。如何達(dá)到千萬(wàn)億級(jí),是繼續(xù)依靠摩爾定律的發(fā)展,還是在體系結(jié)構(gòu)或者構(gòu)件技術(shù)上找到新的突破,現(xiàn)在還是一個(gè)懸念。 2.1 高性能計(jì)算機(jī)體系結(jié)構(gòu)的研究 目前高性能計(jì)算機(jī)體系結(jié)構(gòu)的主流仍然是 MPP 和機(jī)群技術(shù)的進(jìn)一步發(fā)展, 通

16、過(guò)將更多的處理器連接起來(lái)構(gòu)建更大規(guī)模的并行系統(tǒng)。 其中最具代表性的就是美國(guó)能源部的ASCI計(jì)劃,分別由 Intel、SGI、IBM、HP 等構(gòu)建超大規(guī)模的機(jī)群系統(tǒng),其中 HP ASCI Q共有 8192 個(gè)處理器,20Tflops 的峰值。ASCI 計(jì)劃原計(jì)劃 2004 年達(dá)到 100Tflops。 日本 NEC 的 Earth Simulator 結(jié)合了向量處理技術(shù)和 MPP 的技術(shù),利用帶向量部件的節(jié)點(diǎn)構(gòu)建 MPP 系統(tǒng),不但取得了 Top500 峰值第一位,而且實(shí)際應(yīng)用運(yùn)行效率也比較高。美國(guó)的 Cray X1 系列也采用了類似的結(jié)構(gòu)。IBM 計(jì)劃在 2000 年2005 年,每年花費(fèi) 1

17、 億美圓研究經(jīng)費(fèi),以便最終建造出用于生物計(jì)算的 petaflops 級(jí)機(jī)器。2002 年該項(xiàng)目中的 Bluegene/L結(jié)構(gòu)設(shè)計(jì)已經(jīng)確定,預(yù)計(jì)峰值計(jì)算速度 360Tflops。Bluegene/L 的設(shè)計(jì)中沒(méi)有采用傳統(tǒng)的高功耗的高端處理器,而是采用了低功耗的 SOC 芯片。IBM 將這種技術(shù)稱為 cellular 結(jié)構(gòu)。雖然每個(gè)處理器性能并不很高,但是可以通過(guò)增加系統(tǒng)中的處理器數(shù)量來(lái)達(dá)到高的峰值計(jì)算能力。 Bluegene/L共有65536個(gè)節(jié)點(diǎn),計(jì)劃中的 BlueGene/C 處理器個(gè)數(shù)可能達(dá)到 100 萬(wàn)個(gè)。 美國(guó) Stanford 大學(xué)的Streaming SuperComputer 計(jì)

18、劃, 嘗試采用專門設(shè)計(jì)的streaming 處理器來(lái)構(gòu)建超級(jí)計(jì)算機(jī)。一個(gè) Streaming 節(jié)點(diǎn)中集成了 128個(gè) 1GHz 的 FPU,一個(gè)背板支持 32個(gè)節(jié)點(diǎn),32 個(gè)背板就可以達(dá)到 PetaFlops,而預(yù)計(jì)成本只有4 千萬(wàn)美元。Streaming 技術(shù)最初的思想來(lái)源于專用游戲機(jī)的設(shè)計(jì)中?,F(xiàn)有科學(xué)計(jì)算應(yīng)用是否能有效移植還有待研究。美國(guó) NASA支持的 HTMT(Hybrid Technology Multi -threaded)采用了另一條不同的路線。HTMT 試圖避開(kāi)摩爾定律,采用了超導(dǎo)邏輯、光交換、全息存儲(chǔ),PIM等等全新的技術(shù),其核心處理單元SPELL的頻率可達(dá)100GHz,而主

19、要設(shè)計(jì)挑戰(zhàn)是能夠滿足這樣高速處理器的存儲(chǔ)體系。 HTMT 原計(jì)劃在 2006 年左右達(dá)到 1Pflops, 但此計(jì)劃研制費(fèi)用極高, 技術(shù)風(fēng)險(xiǎn)大,因此很有可能再次讓位于摩爾定律。 網(wǎng)格技術(shù)有可能成為實(shí)現(xiàn) PetaFlops 的另一條途徑。 網(wǎng)格是近年來(lái)計(jì)算機(jī)體系結(jié)構(gòu)發(fā)展的一個(gè)重要方向,其基本思想是通過(guò) Internet 進(jìn)行資源共享和協(xié)同工作。目前連接到 Internet的計(jì)算機(jī)已經(jīng)達(dá)到 1 億臺(tái)以上,通過(guò)互聯(lián)網(wǎng)可能達(dá)到的聚合計(jì)算潛力是不可估量的。國(guó)際上已經(jīng)有 Globus 等組織為網(wǎng)格環(huán)境制定標(biāo)準(zhǔn)和參考實(shí)現(xiàn)。但是用網(wǎng)格技術(shù)實(shí)現(xiàn) petaflops 仍需要關(guān)鍵技術(shù)上的突破:一方面互聯(lián)網(wǎng)連接的速度

20、和帶寬仍有待提高,近年網(wǎng)絡(luò)通信技術(shù)以超摩爾定律的速度高速增長(zhǎng)已經(jīng)為此提供了可能,達(dá)到實(shí)用階段只是時(shí)間問(wèn)題。另一方面是有效的網(wǎng)格體系模型和計(jì)算模型還沒(méi)有建立。網(wǎng)格的資源是分散和動(dòng)態(tài)的,計(jì)算也是一種分散的、動(dòng)態(tài)的過(guò)程,傳統(tǒng)的并行共享內(nèi)存或消息傳遞程序模式不能直接有效的利用。如何使科學(xué)計(jì)算高效使用網(wǎng)格的計(jì)算能力是當(dāng)前一個(gè)主要研究方向。 2.2 增強(qiáng)高性能計(jì)算機(jī)功能與特征的研究 Berkeley 的 ROC(Recovery Oriented Computing)項(xiàng)目中提出未來(lái)峰值不是高性能計(jì)算機(jī)面臨的主要問(wèn)題,相反,如何將硬件、軟件故障,包括人為失誤考慮在內(nèi),真正提高系統(tǒng)的可用性是一個(gè)挑戰(zhàn)。為此 R

21、OC 項(xiàng)目研究了一系列通過(guò)硬件和軟件的進(jìn)行故障監(jiān)測(cè)、故障屏蔽、故障注入、故障恢復(fù)等技術(shù)方法。 USC的 PAMA (Power Aware MultiProcessor Architecture) 則關(guān)注高性能計(jì)算中的功耗問(wèn)題,其開(kāi)發(fā)的實(shí)驗(yàn)平臺(tái)可以監(jiān)測(cè)到系統(tǒng)中實(shí)際的功率消耗,并通過(guò)結(jié)合應(yīng)用程序動(dòng)態(tài)調(diào)整處理器的功率(可在 102的范圍內(nèi)內(nèi)調(diào)整),從而達(dá)到減少總功耗的目的。 美國(guó)的 LANL實(shí)驗(yàn)室在高密度計(jì)算研究項(xiàng)目中,設(shè)計(jì)了一個(gè)可以在 1 立方米放下 240 個(gè)處理器的 beowulf 機(jī)群系統(tǒng)。其主要技術(shù)是刀片式 (blade) 結(jié)構(gòu),通過(guò)簡(jiǎn)化處理器主板的設(shè)計(jì),可以在更少的空間內(nèi)放入更多的處理

22、器,從而達(dá)到高的性能/空間比。 Processor in Memory(PIM)也是近年來(lái)研究比較多的一個(gè)方向。其基本思想是一方面處理器主頻提高和內(nèi)存訪問(wèn)速度之間的差距不斷增大,另一方面芯片內(nèi)計(jì)算邏輯相比于存儲(chǔ)占用的晶體管面積只有很小一部分,因此將部分處理功能集成到 Memory 中,可以提高存儲(chǔ)器的利用效率,同時(shí)增加并行處理的能力。這方面的研究有 IRAM、Imagine、FlexRAM、DIVA等項(xiàng)目。 MIT 的 RAW 項(xiàng)目與 PIM的思想有些相通, 通過(guò)在一個(gè)芯片中加入多個(gè)嵌入式處理器和互聯(lián)網(wǎng)絡(luò),來(lái)更有效利用芯片內(nèi)部的功能單元,并且可以通過(guò)動(dòng)態(tài)調(diào)整改變功能單元、通道和輸出管腳的分配和

23、聯(lián)結(jié),最大限度發(fā)揮單位面積硅的計(jì)算能力。有觀點(diǎn)認(rèn)為 RAW 將是未來(lái)處理器芯片的主要模式。 與 RAW 類似的是可重構(gòu)計(jì)算的研究。通過(guò)利用 FPGA等復(fù)雜的現(xiàn)場(chǎng)可編程邏輯器件,可以根據(jù)應(yīng)用的特點(diǎn)動(dòng)態(tài)改變芯片的內(nèi)部結(jié)構(gòu),從而得到較高的性能。通常把這種可重構(gòu)的單元稱為 RPU。 RPU 的有效性在很多實(shí)際應(yīng)用中得到驗(yàn)證。一些研究項(xiàng)目如 DISC、MATRIX、BRASS 等集中于探討如何結(jié)合 CPU 和 RPU 功能的新型體系結(jié)構(gòu)。隨著芯片集成度的進(jìn)一步提高,可編程邏輯器件計(jì)算的能力也將不斷加強(qiáng),可重構(gòu)計(jì)算有可能最終打破原有高性能計(jì)算中硬件/軟件的分界線。 隨著 ASIC和復(fù)雜可編程邏輯器件技術(shù)的

24、普及,專用計(jì)算機(jī)(special purpose computer)的研制也逐漸在高性能計(jì)算領(lǐng)域占據(jù)重要的地位。如日本 RIKEN 高性能計(jì)算中心研制的分子動(dòng)力學(xué)模擬專用計(jì)算機(jī) MD-GRAPE系列的峰值速度甚至超過(guò)同時(shí)代最快的通用計(jì)算機(jī), 其中的 MDM 在 2001 年就達(dá)到 78Tetaflops 的峰值。而研制中的” Protein Explorer” 很可能會(huì)成為世界上第一個(gè) Petaflops 的系統(tǒng)。 2.3 高性能計(jì)算機(jī)構(gòu)成器件的研究 微處理器仍是高性能計(jì)算機(jī)的核心技術(shù)。目前的微處理器技術(shù)已經(jīng)開(kāi)始向單芯片多核心(如 IBM Power4)和單芯片多線程(如 Intel Pent

25、ium4)以及 SoC 等方向發(fā)展。單個(gè)芯片的處理能力還會(huì)進(jìn)一步提高。 SONY公司的計(jì)劃中 PS3 單芯片到 2005 年將達(dá)到 1Tflops 的處理能力。但由于 10 年之內(nèi)摩爾定律繼續(xù)有效,芯片集成度和頻率每 18 月翻番,導(dǎo)致芯片的功耗問(wèn)題日益顯著。最高端的微處理器功耗可達(dá)幾十甚至上百瓦,使得系統(tǒng)散熱成為不可忽視的問(wèn)題。 芯片之間的互聯(lián)也因?yàn)樾盘?hào)頻率的提高成為一個(gè)突出的問(wèn)題。使用銅線連接的脈沖信號(hào)傳輸受寄生電阻、電容、電感的影響,而且頻率越高這種影響越大。盡管當(dāng)前主流 CPU主頻已經(jīng)達(dá)到 2Ghz,但板級(jí)的并行總線互聯(lián)仍限制在 800Mhz 以內(nèi)。 光互聯(lián)有可能成為最終的互聯(lián)解決方案

26、。相比于銅線連接光互聯(lián)具有高帶寬、長(zhǎng)距離、低損耗等特點(diǎn)。而基于表面發(fā)射激光的 VCSEL 技術(shù)已經(jīng)成功的將半導(dǎo)體技術(shù)和激光技術(shù)結(jié)合起來(lái)。主機(jī)之間的光互聯(lián)已經(jīng)廣泛應(yīng)用,主板之間光互聯(lián)也發(fā)展成熟,基于光波導(dǎo)的板內(nèi)互聯(lián)技術(shù)也在實(shí)驗(yàn)之中。 光互聯(lián)應(yīng)用到高性能計(jì)算機(jī)的主要問(wèn)題是成本,這是因?yàn)?VCSEL 技術(shù)還只能用于 GaAs等半導(dǎo)體工藝,不能和 CMOS 直接結(jié)合。一旦這方面技術(shù)取得突破,光互聯(lián)必將進(jìn)入計(jì)算機(jī)系統(tǒng)的內(nèi)部。 全光交換技術(shù)近年來(lái)在骨干通信網(wǎng)絡(luò)中已經(jīng)開(kāi)始采用。傳統(tǒng)的集中式電路交換技術(shù)受電信號(hào)之間交叉干擾和電信號(hào)頻率的限制,其進(jìn)一步大容量擴(kuò)展受到限制,目前主流技術(shù)在Tb/s 的量級(jí)已經(jīng)很難提

27、高。而光傳輸沒(méi)有串?dāng)_和帶寬限制,因此全光交換的潛力遠(yuǎn)遠(yuǎn)超過(guò)電交換的極限。目前已經(jīng)有基于微機(jī)電系統(tǒng)(MEMS)技術(shù)的 1000 路自由空間光交換實(shí)驗(yàn)系統(tǒng)。全光交換系統(tǒng)的發(fā)展將進(jìn)一步為高性能計(jì)算機(jī)的動(dòng)態(tài)系統(tǒng)互連提供支持。 隨著網(wǎng)絡(luò)技術(shù)的發(fā)展,網(wǎng)絡(luò)化的器件也成為高性能計(jì)算機(jī)的一部分。突出的例子就是網(wǎng)絡(luò)存儲(chǔ)的發(fā)展。一個(gè)計(jì)算機(jī)系統(tǒng)中不需要有專用的存儲(chǔ)設(shè)備,只要擁有網(wǎng)絡(luò)接口,就可以通過(guò)網(wǎng)絡(luò)訪問(wèn)遠(yuǎn)程的共享存儲(chǔ)服務(wù)。 網(wǎng)絡(luò)存儲(chǔ)服務(wù)把一類功能相同的器件集中管理起來(lái)并通過(guò)網(wǎng)絡(luò)對(duì)外提供服務(wù)。這是一種網(wǎng)格化的方式。構(gòu)成計(jì)算機(jī)系統(tǒng)的其他器件如 CPU、Memory等是否也可以采用同樣的方式分解、集中和重組,是當(dāng)前研究的

28、一個(gè)新的方向。 3. 高性能計(jì)算機(jī)的發(fā)展方向計(jì)算機(jī)體系結(jié)構(gòu)最新進(jìn)展及發(fā)展趨勢(shì)高性能計(jì)算(high performance compute,HPC)是一個(gè)計(jì)算機(jī)集群系統(tǒng),它通過(guò)各種互聯(lián)技術(shù)將多個(gè)計(jì)算機(jī)系統(tǒng)連接在一起,利用所有被連接系統(tǒng)的綜合計(jì)算能力來(lái)處理大型計(jì)算問(wèn)題高性能計(jì)算方法的基本原理就是將問(wèn)題分為若干部分,而相連的每臺(tái)計(jì)算機(jī)(稱為節(jié)點(diǎn))均可同時(shí)參與問(wèn)題的解決,從而顯著縮短了解決整個(gè)問(wèn)題所需的計(jì)算時(shí)間解決大型計(jì)算問(wèn)題需要功能強(qiáng)大的計(jì)算機(jī)系統(tǒng),隨著高性能計(jì)算的出現(xiàn),使這一類應(yīng)用從昂貴的大型外部計(jì)算機(jī)系統(tǒng)演變?yōu)椴捎蒙逃梅?wù)器產(chǎn)品和軟件的高性能計(jì)算機(jī)集群因此,高性能計(jì)算系統(tǒng)已經(jīng)成為解決大型問(wèn)題計(jì)算

29、機(jī)系統(tǒng)的發(fā)展方向2 高性能計(jì)算的發(fā)展方向2.1 混合體系結(jié)構(gòu)已成為HPC發(fā)展的趨勢(shì)建在東京技術(shù)研究所的TSUBAME采用的就是混合體系,除了使用10368個(gè)AMD雙核Opteron外,360塊加速卡為系統(tǒng)貢獻(xiàn)了24的性能,僅增加了1 的功耗而IBM 將在2008年完成的名為RoadRunner的1600萬(wàn)億次HPC中,總共采用了16 000個(gè)Opteron和Cell兩種不同架構(gòu)的處理器可以說(shuō),多核微處理器和面向領(lǐng)域的混合體系結(jié)構(gòu)已成為HPC發(fā)展的趨勢(shì)2.2 集群將成為超級(jí)計(jì)算系統(tǒng)的主流集群架構(gòu)的超級(jí)計(jì)算系統(tǒng),特別是以采用普通商用芯片和內(nèi)聯(lián)技術(shù)組成的所謂“貝奧伍爾夫集群(Beowulf Clus

30、ter)”系統(tǒng),在近幾年獲得突飛猛進(jìn)的發(fā)展,迅速成為目前高性能計(jì)算架構(gòu)的主流在最新的全球500強(qiáng)排名上,確實(shí)已有超過(guò)70的系統(tǒng)屬于集群系統(tǒng)它大受歡迎的主要原因在于其經(jīng)濟(jì)有效性和公開(kāi)性,與MPP的不同之處在于,它一般采用廉價(jià)的普通IA服務(wù)器為運(yùn)算節(jié)點(diǎn),小規(guī)模的系統(tǒng)一般用以太網(wǎng)進(jìn)行內(nèi)聯(lián),規(guī)模大一點(diǎn)的和性能要求較高的系統(tǒng)多采用InfiniBand、QsNET 或Myrinet作為內(nèi)聯(lián)網(wǎng)絡(luò),外加免費(fèi)的、公開(kāi)的、通用的操作系統(tǒng)(Linux)和并行編程接口(MPI),使超級(jí)計(jì)算機(jī)的造價(jià)告別了天文數(shù)字2.3 基于刀片式服務(wù)器的集群架構(gòu)興起刀片式服務(wù)器技術(shù)經(jīng)歷了不同的研究發(fā)展階段,從19992001年最初的B

31、lade Swich領(lǐng)域,及其后的體系結(jié)構(gòu)(architecture)、存儲(chǔ)虛擬化,到2004年刀片式服務(wù)器整體性能提升技術(shù)研究,再到2005年刀片式服務(wù)器的專用化研究,可以說(shuō)刀片式服務(wù)器產(chǎn)品在多核、低功耗技術(shù)的推動(dòng)下已完成從追求高計(jì)算密度的第一代刀片,發(fā)展到強(qiáng)調(diào)整體綜合性能、高生產(chǎn)力的第三代刀片產(chǎn)品未來(lái)的兩到三年,刀片式服務(wù)器將以其高服務(wù)密度、敏捷式部署維護(hù)、全方位監(jiān)控管理融合、高可擴(kuò)展性、高可用性,全面取代傳統(tǒng)的基于機(jī)架式服務(wù)器的Linux集群體系架構(gòu)預(yù)期基于刀片式服務(wù)器的Linux集群架構(gòu)將興起2.4 集群標(biāo)準(zhǔn)化深人泛高性能計(jì)算時(shí)代2005年9月,國(guó)內(nèi)服務(wù)器廠商曙光公司把泛高性能計(jì)算時(shí)代

32、下集群技術(shù)總結(jié)為10大標(biāo)準(zhǔn),為L(zhǎng)inux集群技術(shù)及應(yīng)用推廣打下了非常好的基礎(chǔ)繼此之后,集群在遠(yuǎn)程異地操作控制、一體化監(jiān)控、集群負(fù)載均衡、智能機(jī)柜、異構(gòu)支持、集群簡(jiǎn)易管理、集群快速部署、集群高速并行吞吐、集群安全、行業(yè)應(yīng)用等方面的技術(shù)標(biāo)準(zhǔn)慢慢浮出水面,并被高性能計(jì)算行業(yè)所接受標(biāo)準(zhǔn)化是行業(yè)應(yīng)用成熟化的標(biāo)志,預(yù)計(jì)集群標(biāo)準(zhǔn)技術(shù)會(huì)有更進(jìn)一步的發(fā)展和普及2.5 虛擬計(jì)算技術(shù)在集群應(yīng)用中的深層次發(fā)展基于應(yīng)用級(jí)集群虛擬計(jì)算技術(shù)不僅將帶來(lái)更高的集群部件利用率,同時(shí)也會(huì)帶來(lái)支持應(yīng)用動(dòng)態(tài)遷移、故障自動(dòng)隔離、系統(tǒng)自動(dòng)重構(gòu)的高可靠集群應(yīng)用環(huán)境,以及更為簡(jiǎn)潔、統(tǒng)一的Linux集群管理模式伴隨Microsoft的Virtu

33、al Server、VMware 的vMware Workstation和Xensource的Xen,以及Inte1的Vanderpool、AMD的Pacifica等部件級(jí)及系統(tǒng)級(jí)虛擬技術(shù)的興起,預(yù)計(jì)未來(lái)幾年虛擬技術(shù)在集群系統(tǒng)應(yīng)用中將會(huì)有更深一步的發(fā)展 2.6 集群可信計(jì)算環(huán)境構(gòu)造技術(shù)浮出水面基于商業(yè)計(jì)算及信息化應(yīng)用對(duì)集群架構(gòu)的普及推動(dòng),預(yù)計(jì)基于內(nèi)外網(wǎng)隔離、統(tǒng)一身份認(rèn)證、訪問(wèn)控制、分布式入侵檢測(cè)、流量分析、應(yīng)用層及傳輸層加密傳輸協(xié)議、主動(dòng)防護(hù)等技術(shù)催生全新的集群應(yīng)用可信計(jì)算環(huán)境構(gòu)造技術(shù)框架,從而使計(jì)算機(jī)獲得從物理層到應(yīng)用層全方位的、多層次的、立體的集群應(yīng)用安全環(huán)境,為高性能計(jì)算機(jī)的商業(yè)應(yīng)用打下

34、了良好的基礎(chǔ)3.1 機(jī)群系統(tǒng)的應(yīng)用面擴(kuò)大、形成產(chǎn)業(yè)規(guī)模市場(chǎng) 基于 Linux 的機(jī)群系統(tǒng)在下五年的使用面將進(jìn)一步擴(kuò)大,高性能計(jì)算機(jī)產(chǎn)業(yè)前景更加光明,個(gè)人用高性能計(jì)算機(jī)時(shí)代將出現(xiàn)。以 Beowulf PC Linux 機(jī)群為標(biāo)志,高性能計(jì)算機(jī)的門檻現(xiàn)在已經(jīng)不再是高不可攀了。高性能計(jì)算機(jī)的普及也將使其應(yīng)用面進(jìn)一步擴(kuò)大。除了從前的國(guó)家級(jí)戰(zhàn)略單位以外,產(chǎn)業(yè)界和地方部門也可能逐步利用高性能計(jì)算機(jī),而隨著網(wǎng)格技術(shù)的發(fā)展和應(yīng)用軟件的進(jìn)一步豐富,可以預(yù)見(jiàn)不遠(yuǎn)的將來(lái)會(huì)出現(xiàn)個(gè)人高性能計(jì)算的時(shí)代。由此高性能計(jì)算的戰(zhàn)略意義和產(chǎn)業(yè)前景更加重要。 3.2 網(wǎng)格不僅影響各種應(yīng)用,對(duì)計(jì)算技術(shù)也將產(chǎn)生巨大影響 網(wǎng)格作為下一代

35、Internet 的應(yīng)用不僅影響最終用戶, 同時(shí)對(duì)其它技術(shù)的發(fā)展產(chǎn)生巨大的影響,高性能計(jì)算機(jī)領(lǐng)域?qū)⑹桩?dāng)其沖。網(wǎng)格作為下一代 Internet 應(yīng)用,其特征是以資源共享為目標(biāo),同類資源集中,異種資源分離,資源的調(diào)用服務(wù)化,資源的使用按需分配。對(duì)于高性能計(jì)算機(jī)系統(tǒng)來(lái)說(shuō),資源的網(wǎng)格化是一種使能技術(shù),為更大尺度的高性能計(jì)算機(jī)系統(tǒng)的設(shè)計(jì)提供了支持。但是不能簡(jiǎn)單的將網(wǎng)格和未來(lái)的高性能計(jì)算機(jī)系統(tǒng)等同起來(lái)。作為一種共享技術(shù), 網(wǎng)格只是使現(xiàn)有的高性能計(jì)算資源更好的被共享使用, 而并不能增加高性能計(jì)算資源。我國(guó)的高科技發(fā)展計(jì)劃一度用網(wǎng)格發(fā)展專項(xiàng)取代了新一代高性能計(jì)算機(jī)的研制, 是走入了一個(gè)誤區(qū)。4. 結(jié)論3 結(jié)論

36、從高性能計(jì)算發(fā)展的體系結(jié)構(gòu)分布來(lái)看,MPP取代向量機(jī)和集群逐步替代MPP這兩個(gè)進(jìn)程的背后都是摩爾定律在起作用,高性能計(jì)算機(jī)體系結(jié)構(gòu)的創(chuàng)新必須與半導(dǎo)體技術(shù)和產(chǎn)業(yè)發(fā)展相結(jié)合,否則很難變成主流技術(shù),這也是SIMD系統(tǒng)、陣列機(jī)、數(shù)據(jù)流等新型體系結(jié)構(gòu)沒(méi)有流行起來(lái)的主要原因目前,單處理器和SIMD方式來(lái)構(gòu)建高性能計(jì)算系統(tǒng)的方式已不復(fù)存在;MPP仍然是HPC結(jié)構(gòu)的主流,但是集群(尤其是SMP集群)將在不久的將來(lái)取代MPP結(jié)構(gòu)的主流地位綜上所述,超級(jí)計(jì)算機(jī)正在完成一個(gè)從科研工具和實(shí)驗(yàn)產(chǎn)品到產(chǎn)業(yè)應(yīng)用的轉(zhuǎn)變,具有廣闊的發(fā)展空間但高性能計(jì)算機(jī)的發(fā)展一直面臨著挑戰(zhàn),其巨大的計(jì)算潛力與性能始終沒(méi)有被充分應(yīng)用起來(lái)效率一直

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論