第9章 多處理機_第1頁
第9章 多處理機_第2頁
第9章 多處理機_第3頁
第9章 多處理機_第4頁
第9章 多處理機_第5頁
已閱讀5頁,還剩99頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權,請進行舉報或認領

文檔簡介

1、第第9章章 多處理機多處理機9.1 多處理機結構多處理機結構9.2 多處理機性能模型多處理機性能模型9.3 多處理機的多處理機的Cache一致性一致性9.4 大規(guī)模并行處理機大規(guī)模并行處理機9.5 對稱多處理機對稱多處理機9.6 機群系統(tǒng)機群系統(tǒng)多處理機定義:多處理機定義:兩個或兩個以上處理機兩個或兩個以上處理機( (包括包括PUPU和和CU)CU),通,通過高速互連網(wǎng)絡連接起來,在統(tǒng)一的操作過高速互連網(wǎng)絡連接起來,在統(tǒng)一的操作系統(tǒng)管理下,實現(xiàn)指令以上級(任務級、系統(tǒng)管理下,實現(xiàn)指令以上級(任務級、作業(yè)級)并行。作業(yè)級)并行。按照Flynn分類法,多處理機系統(tǒng)屬于MIMD計算機研究多處理機的目

2、的:提前提前10年得到性能高年得到性能高100倍的高性能計算機系統(tǒng)。倍的高性能計算機系統(tǒng)。9.1.1 多處理機分類多處理機分類9.1.2 松散偶合多處理機松散偶合多處理機9.1.3 緊密偶合多處理機緊密偶合多處理機9.1.4 多處理機系統(tǒng)的特點多處理機系統(tǒng)的特點9.1 多處理機結構多處理機結構9.1.1 多處理機分類多處理機分類 多處理機系統(tǒng)由多個獨立的處理機多個獨立的處理機組成,每個處理機都能夠獨立執(zhí)行自己的程序。按照處理機之間的連接程度:緊密偶合緊密偶合和松散松散偶合多處理機偶合多處理機按照是否共享主存儲器:共享存儲器共享存儲器和分布存分布存儲器多處理機儲器多處理機按照處理機類型:同構型同

3、構型和異構型多處理機異構型多處理機按照處理機的個數(shù):大規(guī)模并行處理機大規(guī)模并行處理機MPP和對稱多處理機對稱多處理機SMP 按照按照PEPE與與IOPIOP之間互連方式:之間互連方式:對稱型對稱型:每個IOP能夠連接到所有PE上非對稱型非對稱型:每個IOP只與一個PE連接。冗余對稱型冗余對稱型:一個PE與多個IOP連接。 按照存儲器的訪問方式:按照存儲器的訪問方式:均均存儲器,UMAUMA模型模型非均均存儲器,NUMANUMA模型模型只有Cache,COMACOMA模型模型 另外,多向量處理機另外,多向量處理機,機群系統(tǒng)機群系統(tǒng)等也稱為多處理機系統(tǒng)。處理機之間的連接頻帶比較低處理機之間的連接頻

4、帶比較低處理機之間互為外圍設備進行連接。通過并行口或串行口通過并行口或串行口把多臺計算機連接起來。多臺計算機之間的連接需要有多個接口。通過通過Ethernet網(wǎng)絡接口網(wǎng)絡接口連接多臺計算機。速度達10Mb、100Mb、1Gb,Mynet已經(jīng)達到1.28Gb和2.56Gb。當通信速度要求更高時,可以通過一個通道和仲裁開關CAS (Channel and Arbiter Switch)直接載存儲器總線之間建立連接。9.1.2 松散偶合多處理機松散偶合多處理機 通通 過過 輸輸 入入 輸輸 出出 接接 口口 連連 接接 的的 多多 處處 理理 機機C P U0C P U1C P Un -1L M0L

5、 M1IO P0IO P1互 連 網(wǎng) 絡L Mn -1IO Pn -1 模塊0 模塊n-1通通過過消消息息傳傳送送系系統(tǒng)統(tǒng)連連接接的的松松散散偶偶合合多多處處理理機機CPU0CPUn-1LM0IOP0互連網(wǎng)絡LMn-1IOPn-1CASCAS處理機之間共享主存儲器,通過高速總線或高處理機之間共享主存儲器,通過高速總線或高速開關連接。速開關連接。每個CPU能夠訪問任意一個存儲器模塊通過映象部件把全局邏輯地址變換成局部物理地址通過互連網(wǎng)絡尋找合適的路徑,并分解訪問存儲器的沖突多個輸入輸出處理機IOP也連接在互連網(wǎng)絡上,輸入輸出設備與CPU共享主存儲器。處理機個數(shù)不能太多處理機個數(shù)不能太多,一般幾個

6、到幾十個。9.1.3 緊密偶合多處理機緊密偶合多處理機緊密偶合方式要求有很高通信頻帶要求有很高通信頻帶。可以采用如下措施:可以采用如下措施:(1)采用高速互連網(wǎng)絡(2)增加存儲模塊個數(shù),一般nm,取12倍之間。(3)每個存儲模塊再分成多個小模塊,并采用流水線方式工作。(4)每個CPU都有自己的局部存儲器LM。(5)每個CPU設置一個Cache。 緊緊 密密 偶偶 合合 多多 處處 理理 機機 模模 型型C P U0C P U1C P Un-1M A PM A PIO P0IO P1C P U-M M -IO P 互 連 網(wǎng) 絡M A PIO Pd-1M M0M M1M Mm -1 帶帶 有有

7、二二 維維 共共 享享 存存 儲儲 器器 和和 局局 部部C a c h e 及及 存存 儲儲 器器 的的 多多 處處 理理 機機C P U0C P U1C P Up - 1M A PM A PIO P0IO P1C P U - M M互 連 網(wǎng) 絡M A PIO Pd - 1C P U - I O P互 連 網(wǎng) 絡L ML MC a c h eC a c h eC a c h eM M0 , 0M M0 , n - 1M M1 , 0M M1 , n - 1M Mm - 1 , 0M Mm - 1 , n - 1L M1. 結構靈活結構靈活并行處理機:專用,PE數(shù)多,固定有限通信多處理機:多

8、處理機: 通用通用,PE數(shù)少,數(shù)少,高速靈活通信高速靈活通信2. 程序并行性程序并行性并行處理機的并行性存在于指令內(nèi)部,識別比較容易。多處理機的并行性存在于指令外并行性存在于指令外部部,在多個任務之間,識別難度較大。一個簡單的例子:一個簡單的例子:Y = A+B*C*D/E+F,用兩個處理機計算:,用兩個處理機計算:CPU1:B*C, A+F, A+B*C*D/E+FCPU2:D/E, B*C*D/E,9.1.4 多處理機系統(tǒng)的特點多處理機系統(tǒng)的特點3. 并行任務派生并行任務派生并行處理機把同種操作集中,由指令直接啟動各PE同時工作。多處理機用專門的指令來表示并發(fā)關系用專門的指令來表示并發(fā)關系

9、,一個任務執(zhí)行時能夠派生出與它并行的另一些任務如果沒有空閑處理機,任務進入排隊器等待4. 進程同步進程同步并行處理機僅一個CU,自然是同步的。多處理機中,各處理機執(zhí)行不同的指令,工作進度不會也不必保持相同。先做完的要停下等待。有數(shù)據(jù)相關和控制相關也要停下等待。要采取同步措施來保持程序要求的正確順序要采取同步措施來保持程序要求的正確順序5. 資源分配和進程調(diào)度資源分配和進程調(diào)度并行處理機的PE是固定的,用屏蔽來改變實際參加操作的PE數(shù)目。多處理機執(zhí)行并發(fā)任務,需用處理機的數(shù)目不固定,各處理機進出任務的時刻不相同,所需共享資源的品種、數(shù)量隨時變化。資源分配和進程調(diào)度問題資源分配和進程調(diào)度問題,對整

10、個系統(tǒng)的效率有很大的影響。2022年6月25日計算機系統(tǒng)結構 第九章 多處理機16引起峰值性能下降的原因:引起峰值性能下降的原因:(1)由于處理機之間通信而產(chǎn)生的延遲。(2)一臺處理機與其它處理機同步所需的開銷。(3)當沒有足夠多任務時,一臺或多臺處理機處于空閑狀態(tài)。(4)由于一臺或多臺處理機執(zhí)行無用的工作。(5)系統(tǒng)控制和操作調(diào)度所需的開銷。9.2 多處理機性能模型多處理機性能模型2022年6月25日計算機系統(tǒng)結構 第九章 多處理機17研究多處理機的目的:研究多處理機的目的: 單處理機的速度提高很快,單處理機的速度提高很快,為什么還要研究多處理機?為什么還要研究多處理機?提前5年得到速度高1

11、0倍的機器。 或用1/10的價格獲得一臺高性能的機器。在某些適合進行并行處理得應用領域,可以達到:提前提前1010年得到速度高年得到速度高100100倍的機器。倍的機器。 或用或用1/1001/100的價格獲得一臺高性能的機器。的價格獲得一臺高性能的機器。18并行性在很大程度上依賴于并行性在很大程度上依賴于R/C比值比值其中:R: 程序執(zhí)行時間,程序執(zhí)行時間,C: 通信開銷通信開銷R/C小,并行度低。R/C大,并行性高。把作業(yè)分解成較大的塊,能得到較大的R/C,但所得到的并行性小R/C是衡量任務粒度是衡量任務粒度(Granularity)的尺度的尺度粗粒度(Coarsegrain)并行:R/C

12、大,通信開銷小 細粒度(Finegrain)并行:R/C小,通信開銷大細粒度并行性是程序盡可能地分解成小任務,在極端情況下,一個小任務只完成一個操作目標:目標:由由M個任務組成的程序,在個任務組成的程序,在N臺處理機組成的系臺處理機組成的系統(tǒng)上運行,求最短執(zhí)行時間?統(tǒng)上運行,求最短執(zhí)行時間?基本模型僅考慮由兩臺處理機組成的系統(tǒng)。 總處理時間總處理時間Rmax(MK,K)C(MK)K 其中:R:每個任務的執(zhí)行時間, C:通信開銷, K:任務分配參數(shù)。當通信時間很小時,把M個任務平均分給兩臺處理機當通信時間很大時,把M個任務分配給一臺處理機9.2.1 基本模型基本模型 時間時間 時間時間 總的處理

13、時間100 總的處理時間 50 90 80 40 70 60 通信時間 30 50 40 20 執(zhí)行時間 30 20 10 通信時間 10 執(zhí)行時間 0 0 10 20 30 40 50 0 10 20 30 40 50 任務分配參數(shù)任務分配參數(shù) k 任務分配參數(shù)任務分配參數(shù) k ()最佳分配參數(shù) K0 ()最佳分配參數(shù) KM/22022年6月25日計算機系統(tǒng)結構 第九章 多處理機21通信時間:通信時間: C(M-K)K是一個開口向下的二次函數(shù), 任務執(zhí)行時間是兩根相交的直線。 當通信時間比較大時,總時間的最小值發(fā)生在端點, 當通信時間比較小時,總時間的最小值發(fā)生在中點。結論:結論: (1)總

14、時間的最小值只可能出現(xiàn)在中點或兩個端點總時間的最小值只可能出現(xiàn)在中點或兩個端點, (2)如果總時間的最小值發(fā)生在中點,必須滿足: M R R M/2 + C M/2 M/2 R/C M/2總時間最短的結論:總時間最短的結論:當當R/CM/2時,把所有任務分配給同一臺處理機,時,把所有任務分配給同一臺處理機,K0;當當R/CM/2時,把任務平均分配給兩臺處理機,時,把任務平均分配給兩臺處理機,KM/2。2022年6月25日計算機系統(tǒng)結構 第九章 多處理機22要解決的問題:要解決的問題:把把M個任務分配給個任務分配給N臺處理機,求總處理時間的最臺處理機,求總處理時間的最小值。小值。實際的最小值發(fā)生

15、在極端分配情況下,實際的最小值發(fā)生在極端分配情況下, 或者將所有的任務集中在一臺處理機上,或者將所有的任務集中在一臺處理機上, 或者將任務平均分配給所有處理機?;蛘邔⑷蝿掌骄峙浣o所有處理機。先討論平均分配方法平均分配方法:9.2.2 N臺處理機系統(tǒng)的基本模型臺處理機系統(tǒng)的基本模型2022年6月25日計算機系統(tǒng)結構 第九章 多處理機23平均分配方法:平均分配方法:例1:個任務平均分給臺處理機: 例2: 11個任務平均分給臺處理機:方案 P1 P2 P3 執(zhí)行時間 通信時間 總處理時間 一 2 1 1 2R 5C 2R+5C 二二 2 2 2 2 0 0 2R2R 4C4C 2R+4C2R+4C

16、 方案 P1 P2 P3 P4 P5 執(zhí)行時間 通信時間 總處理時間 一 3 2 2 2 2 3R 48C 3R+48C 二 3 3 2 2 1 3R 47C 3R+47C 三三 3 3 3 3 3 3 2 2 0 0 3R3R 45C45C 3R+45C3R+45C M個任務分配給個任務分配給N臺處理機的最佳分配方法:臺處理機的最佳分配方法: 臺處理機,每臺 個任務如果M/N0,則:另外有1臺處理機分得剩下的 個任務;剩下的 臺處理機不分配任何任務。例如:101個任務平均分給50臺處理機: 有33臺處理機,每臺分給3個任務; 另有臺處理機分給個任務; 剩下的16臺處理機不分配任務。NMM/N

17、M /NMM/mod1/NMMN假設Ki個任務分給了第臺處理機:第一項求出N臺處理機中最大執(zhí)行時間;第二項計算出Ki與(MKi)任務之間兩兩通信的開銷時間,它是關于Ki的二次函數(shù)。Ki最多有3個取值: 、 和0當 M 是 N 的倍數(shù)時,當當R/CR/CM/2M/2時采用平均分配方法,時采用平均分配方法, 當當R/CR/CM/2M/2時采用集中分配方法。時采用集中分配方法。)(2)(21221NiiNiiikMCNMRkMkCNMR總處理時間NM /NMM/mod)11 (22NMCNRM總處理時間26多處理機系統(tǒng)的加速比:一個計算問題在一臺處理機一個計算問題在一臺處理機上運行時間與在多處理機系

18、統(tǒng)上運行時間的比值上運行時間與在多處理機系統(tǒng)上運行時間的比值 當M是N的倍數(shù)時,有:如果M和N較小,R/C較大,即分母中的第一項遠大于第二項,則加速比與處理機臺數(shù)N成正比。當處理機臺數(shù)N很大,加速比 ,趨近于一個常數(shù)。這時如果再增加處理機,性能的提高很小。21)222)(加速比NMCRNCRNMMCNRMRM)(2122NiikMCNMRRM加速比CMR22022年6月25日計算機系統(tǒng)結構 第九章 多處理機27每個任務要和其它所有任務通信,而且通信的內(nèi)容相同。把M個任務分配給N臺處理機時,當M是N的倍數(shù)時,很明顯,這個函數(shù)有一個極小值: 9.2.3 通信開銷為線性函數(shù)的模型通信開銷為線性函數(shù)的

19、模型CNNMR總處理時間CRMCN CNNMR總處理時間2022年6月25日計算機系統(tǒng)結構 第九章 多處理機28因此得到最小的總處理時間:這種模型的加速比為:當M是N的倍數(shù)時,最大加速比為:RMCCRMCCCRMCRM2/總處理時間的最小值CRMCRMCRM22最大加速比CNNMRRM加速比由于通信與計算可以在兩個獨立的功能部件中進行,由于通信與計算可以在兩個獨立的功能部件中進行,因此,能夠采用重疊或流水線方式并行進行。因此,能夠采用重疊或流水線方式并行進行。一個理想模型,通信與計算完全重疊。對于兩臺處理機的系統(tǒng):當當R/CM/2時,執(zhí)行時間與通信時間的交點就是總時,執(zhí)行時間與通信時間的交點就

20、是總處理時間的最小值;處理時間的最小值; 當當R/CM/2時,采用平均分配方法,在這一點運行時,采用平均分配方法,在這一點運行時間足夠長,完全能夠屏蔽通信時間。時間足夠長,完全能夠屏蔽通信時間。9.2.4 通信與計算完全重疊的模型通信與計算完全重疊的模型)(2,(122NiikMCNMRMax總處理時間 時時間間 時時間間 50 50 40 通信時間 40 總處理時間最小 30 30 20 執(zhí)行時間 20 執(zhí)行時間 10 總處理時間最小 10 通信時間 0 0 10 20 30 40 50 0 10 20 30 40 50通通信信與與計計算算完完全全重重疊疊的的模模型型直線與二次曲線的交點:R

21、(MK)C(MK)K即:KR/C (其中:1KM/2)總處理時間總處理時間R(MR/C),兩臺處理機系統(tǒng)的加速比在1與2之間;當R/CM/2,即把任務平均分配給兩臺處理機時,加速比最大;當R/C逐漸減為1時,加速比也逐漸減為1,最優(yōu)分配變得越來越不均衡了。至于N臺處理機的系統(tǒng):當N比較大時,近似為:處理機數(shù)N由一個關于R/C和M的函數(shù)式 給出。CMR/11加速比)11 (22NCMNRM2NMCRCMRN22022年6月25日計算機系統(tǒng)結構 第九章 多處理機32通信鏈路隨通信鏈路隨的增加而增加,讓每臺處理機與別的任的增加而增加,讓每臺處理機與別的任何一臺處理機都有專門的鏈路相連。何一臺處理機都

22、有專門的鏈路相連。當任務數(shù)M是處理機數(shù)N的倍數(shù)時,盡可能平分任務可以使總處理時間達到最?。喊烟幚頇C臺數(shù)作為自變量,該函數(shù)有一個極大值9.2.5 具有多條通信鏈的模型具有多條通信鏈的模型)(總處理時間NiikMNCNMR1222)11 (22NNCMNRM總處理時間2022年6月25日計算機系統(tǒng)結構 第九章 多處理機33由于分母大于1,因此總處理時間的極大值出現(xiàn)在2時,當當22時,隨著處理機臺時,隨著處理機臺增加,總處理時間肯定減小。增加,總處理時間肯定減小。為了驗證N臺處理機是否比一臺處理機效果更佳: 相等點在:在相等點參數(shù)R/C與N成反比例,N越大,允許的粒度越小;N臺處理機的總性能等價于一

23、臺處理機。)11)(2(2NNCMNRMRMNMCR2CMRNNMCNMCNRMNNCMNRMN21202220)11 (22(322222022年6月25日計算機系統(tǒng)結構 第九章 多處理機34總結上面幾個模型,可以得出如下結論:總結上面幾個模型,可以得出如下結論:(1)多處理機系統(tǒng)結構所需的額外開銷多處理機系統(tǒng)結構所需的額外開銷,包括調(diào)度,對共享資源的競爭,同步,處理機之間通信等。(2)當處理機臺數(shù)增加時,額外開銷時間也增加當處理機臺數(shù)增加時,額外開銷時間也增加。有時,額外開銷的增加可能比處理機數(shù)目的線性增加更快。(3)R/CR/C比值越大,越有利于計算過程比值越大,越有利于計算過程。如果采

24、用粗粒度,能夠獲得較大的R/C比值;但是并行程度將大為降低。(4)為了使價格和性能都比較合理,處理機數(shù)目存在一為了使價格和性能都比較合理,處理機數(shù)目存在一個極大值個極大值,這個值主要依賴于機器的系統(tǒng)結構、基本技術(尤其是通信技術)和具體的應用問題。在并行處理機和多處理機系統(tǒng)中,采用局部在并行處理機和多處理機系統(tǒng)中,采用局部CacheCache會引起會引起CacheCache與共享存儲器之間的一與共享存儲器之間的一致性問題。致性問題。出現(xiàn)不一致性問題的原因有三個:出現(xiàn)不一致性問題的原因有三個:共享可寫的數(shù)據(jù)、進程遷移、共享可寫的數(shù)據(jù)、進程遷移、I/OI/O傳輸傳輸9.3 多處理機的多處理機的Ca

25、che一致性一致性1.寫共享數(shù)據(jù)引起的不一致性寫共享數(shù)據(jù)引起的不一致性使用多個局部使用多個局部Cache時,可能發(fā)生時,可能發(fā)生Cache不一致性問題:不一致性問題:當P1把X的值寫為X之后,如果P1采用寫通過方式,內(nèi)存中的內(nèi)容也變?yōu)閄,但是P2處理機Cache中的內(nèi)容還是X。 如果P1采用寫回策法,內(nèi)存中的內(nèi)容還是X,當P2處理機要讀X時,讀到的是X而不是X。9.3.1 問題由來問題由來處理機 Cache 總線 共享 存儲器 更新之前 寫通過方式 寫回方式P1P2XXXP1P2XXXP1P2XXX2.進程遷移引起的數(shù)據(jù)不一致性進程遷移引起的數(shù)據(jù)不一致性P1和P2中都有共享數(shù)據(jù)X的拷貝,P2修

26、改了X,并采用寫通過方式,所以內(nèi)存中的X修改成了X。如果該進程遷移到P1上,P1的Cache中仍然是X。P1中有共享數(shù)據(jù)X的拷貝,而P2中沒有該共享數(shù)據(jù),P1進程對X進行了修改,如果該進程遷移到了P2上,P2運行時從內(nèi)存中讀到是X。處理機 Cache 總線 共享 存儲器 更新之前 寫通過方式 寫回方式P1P2XXXP1P2XXXP1P2XXX3.I/O造成數(shù)據(jù)不一致性造成數(shù)據(jù)不一致性如果P1和P2在各自的局部Cache中都有X的拷貝,當I/O將一個新數(shù)據(jù)X寫入存儲器時就導致存儲器和Cache的數(shù)據(jù)不一致。如果兩個局部Cache中都有X的拷貝,并采用寫回方式,當P1把X修改成X之后;輸出部件讀X

27、,存儲器把X傳給輸出部件一種解決I/O操作引起數(shù)據(jù)不一致性的方法是把I/O處理機分別連接到各自的局部Cache上。處理機 Cache 總線 存儲器 I/O 存儲器 輸入 存儲器 輸出 更新之前 寫通過方式 寫回方式P1P2XXXP1P2XXXP1P2XXXXX2022年6月25日計算機系統(tǒng)結構 第九章 多處理機39有兩類解決Cache不一致性問題的協(xié)議:在總線互連的多處理機系統(tǒng)中,通常采在總線互連的多處理機系統(tǒng)中,通常采用用監(jiān)聽協(xié)議監(jiān)聽協(xié)議。在其他多處理機系統(tǒng)中,通常采用在其他多處理機系統(tǒng)中,通常采用基于基于目錄協(xié)議目錄協(xié)議。9.3.2 監(jiān)聽協(xié)議監(jiān)聽協(xié)議2022年6月25日計算機系統(tǒng)結構 第九

28、章 多處理機401.兩種監(jiān)聽協(xié)議兩種監(jiān)聽協(xié)議使用監(jiān)聽協(xié)議,有兩種方法:方法一:方法一:寫無效(寫無效(Write InvalidateWrite Invalidate)策略)策略,在本地Cache的數(shù)據(jù)塊修改時使遠程數(shù)據(jù)塊都無效。方法二:方法二:寫更新(寫更新(Write UpdateWrite Update)策略)策略,在本地Cache數(shù)據(jù)塊修改時通過總線把新的數(shù)據(jù)塊廣播給含該塊的所有其他Cache采用寫無效或寫更新策略與Cache采用寫回方式(Write Back)還是寫通過方式(Write Through)無關。如果Cache采用的寫通過方式,在使遠程數(shù)據(jù)塊無效或更新其他Cache的同時

29、,還要同時修改共享存儲器中的內(nèi)容。由于寫更新策略在本地Cache修改時需要通過總線把修改過的數(shù)據(jù)塊廣播給所有含該數(shù)據(jù)塊的其他Cache,增加了總線的負擔。大部分多處理機系統(tǒng)使用寫無效策略。處理機 Cache 總線 共享 存儲器 更新之前 寫無效策略 寫更新策略P1P2XXXP1P2XIXP1P2XXX2.采用寫通過方式的采用寫通過方式的Cache數(shù)據(jù)塊有兩種狀態(tài): 有效和無效有效和無效。有效表示該數(shù)據(jù)塊內(nèi)容正確,兩種狀態(tài)的轉換如下圖:RL、WL表示本地處理機對Cache的讀和寫操作,RR、WR表示遠程處理機對Cache中相同內(nèi)容數(shù)據(jù)的讀和寫操作。 RL,WLRL,WL RR,WR RR 有效

30、無效 WR2022年6月25日計算機系統(tǒng)結構 第九章 多處理機433.采用寫回方式的采用寫回方式的Cache只讀狀態(tài)只讀狀態(tài)表示整個系統(tǒng)中有多個數(shù)據(jù)塊拷貝是正確的,讀寫狀態(tài)讀寫狀態(tài)表示數(shù)據(jù)塊至少被修改過一次,存儲器中相應數(shù)據(jù)塊還沒有修改,在整個系統(tǒng)中只有一個數(shù)據(jù)塊拷貝是正確的。對于只讀的數(shù)據(jù)塊,本地的和遠程的讀操作都是安全的,本地的寫操作使狀態(tài)轉移為讀寫,遠程的寫操作使之變?yōu)闊o效。對于讀寫狀態(tài)的數(shù)據(jù)塊,本地的讀、寫操作都是安全的,而遠程的讀操作將數(shù)據(jù)塊傳遞給遠程處理機的Cache,使兩個Cache都轉移至只讀狀態(tài),遠程寫操作使遠程處理機Cache轉移至讀寫狀態(tài),而本地Cache轉移至無效狀態(tài)。

31、對于無效狀態(tài),本地讀操作,使狀態(tài)轉移至只讀;本地寫操作,使狀態(tài)轉移至讀寫,同時使其他Cache中相應數(shù)據(jù)塊轉移為無效狀態(tài)。 WLRL,WL RL,RR 讀 寫 只 讀 RR WL WR WR RL 無 效 RR, WR采采 用用 寫寫 回回 方方 式式 的的 C C a a c c h h e e 狀狀 態(tài)態(tài) 圖圖RL:本地處理機對Cache的讀操作WL:本地處理機對Cache的寫操作 RR:遠程處理機對Cache中相同內(nèi)容數(shù)據(jù)的讀操作 WR:遠程處理機對Cache中相同內(nèi)容數(shù)據(jù)的寫操作454.寫一次寫一次(Write-Once)協(xié)議協(xié)議方法:第一次寫第一次寫CacheCache采用寫通過方式

32、,采用寫通過方式, 以后采用寫回方式。以后采用寫回方式。為了區(qū)分第一次寫,把“讀寫”狀態(tài)分為:保留(Reserved)和重寫(Dirty)。共有4種狀態(tài)(1)有效有效(Valid, 相當于寫回方式中的只讀):(2)無效無效(Invalid):在Cache中找不到或數(shù)據(jù)塊已作廢。(3)保留保留(Reserved):數(shù)據(jù)從存儲器讀入Cache后只被寫過一次,Cache和存儲器中都正確。(4)重寫重寫(Dirty):Cache中的數(shù)據(jù)塊被寫過多次,而且是唯一正確的數(shù)據(jù)塊。2022年6月25日46整個系統(tǒng)中只有一份正確的拷貝。整個系統(tǒng)中只有一份正確的拷貝。主要優(yōu)點主要優(yōu)點:減少大量的無效操作,提高了總

33、線減少大量的無效操作,提高了總線效率。效率。主要缺點主要缺點:當主存儲器的內(nèi)容無效時當主存儲器的內(nèi)容無效時, ,讀缺失引讀缺失引起的總線讀操作必須禁止訪問主存儲器,而起的總線讀操作必須禁止訪問主存儲器,而大多數(shù)總線不支持這種操作大多數(shù)總線不支持這種操作IEEE Futurebus+總線支持該操作。47 RLRL,RR RR,WR 有效 無效 WR WL RR WL WR WR RL 保留 重寫 RL,WL WLRL:本地處理機對Cache的讀操作WL:本地處理機對Cache的寫操作 RR:遠程處理機對Cache中相同內(nèi)容數(shù)據(jù)的讀操作 WR:遠程處理機對Cache中相同內(nèi)容數(shù)據(jù)的寫操作CPUCP

34、U讀讀CacheCache:有兩種可能性。:有兩種可能性。 (1)數(shù)據(jù)塊在Cache中存在(包括有效、保留或重寫),CPU直接讀取數(shù)據(jù)。 (2)Cache中的數(shù)據(jù)塊處于無效狀態(tài)。 如果存在處于有效、保留或重寫狀態(tài)的相應數(shù)據(jù)塊,則將其調(diào)入本地Cache;在相應數(shù)據(jù)塊處于重寫狀態(tài)時,還要同時禁止存儲器操作。 如果不存在處于有效、保留或重寫狀態(tài)的相應數(shù)據(jù)塊,則直接從存儲器中讀入(只有存儲器中是唯一正確的拷貝)。 把讀入Cache中的相應數(shù)據(jù)塊置為“有效”狀態(tài)。CPUCPU寫寫CacheCache:也有兩種可能。:也有兩種可能。 (1)寫命中,當Cache處于“有效”狀態(tài)時,采用寫通過方式,把寫入Ca

35、che的內(nèi)容同時寫入存儲器,將Cache的狀態(tài)轉移為“保留”,將其他Cache的相應數(shù)據(jù)塊狀態(tài)置為“無效”; 當Cache處于“保留”或“重寫”態(tài)時,使用寫回方式,Cache的狀態(tài)轉移至“重寫”,其他的存有相同內(nèi)容的Cache處于“無效”態(tài)。 (2)寫不命中,將數(shù)據(jù)塊調(diào)入Cache,采用寫通過方式,同時寫存儲器;將本地Cache的狀態(tài)置為“保留”,同時將其他Cache的狀態(tài)置為“無效”。 在非總線結構的多處理機系統(tǒng)中,采用基于目錄的在非總線結構的多處理機系統(tǒng)中,采用基于目錄的CacheCache一致一致性協(xié)議。性協(xié)議。1.Cache目錄結構目錄結構Cache目錄中存放的內(nèi)容是大量的指針,用以指

36、明塊拷貝的地址,每個目錄項還有一個重寫位,指明是否有一個Cache允許寫入數(shù)據(jù)。根據(jù)Cache目錄的存放形式,有集中式和分布式兩種有集中式和分布式兩種。根據(jù)目錄的結構,目錄協(xié)議分成三類:全映射全映射(Full-Map)(Full-Map)目錄目錄:存放全局存儲器每個塊的有關數(shù)據(jù)。有限有限(Limited)(Limited)目錄目錄:每個目錄項的指針數(shù)固定。鏈式鏈式(Chained)(Chained)目錄目錄:把目錄分布到所有Cache中。9.3.3 基于目錄的協(xié)議基于目錄的協(xié)議目錄的使用規(guī)則目錄的使用規(guī)則: 當一個CPU對Cache進行寫操作時,要根據(jù)Cache目錄中的內(nèi)容將所有其他存有相同內(nèi)

37、容的所有Cache拷貝無效,并置重寫位。 在CPU對Cache進行讀操作時,如果讀命中,澤直接讀Cache即可。 如果重寫位為“0”,則從主存或其他Cache中讀入該塊,并修改目錄。2.全映射目錄全映射目錄目錄項中有目錄項中有N個處理機位和一個重寫位。個處理機位和一個重寫位。處理機位表示相應處理機對應的Cache塊的狀態(tài)。只有一個處理機的重寫位為“1”,則該處理機可以對該塊進行寫操作。Cache的每個數(shù)據(jù)塊有兩個狀態(tài)位。一位表示數(shù)據(jù)塊是否有效,另一位表示有效塊是否允許寫。 讀X 讀X 讀X 寫X (a)所有Cache中 都沒 有X的拷 貝 (b)三個 處理 機都 有X的拷 貝 (c) P3處理

38、 機獲 得對X的 寫權P 1P 2P 3Cache1Cache2Cache3 X: 共享存儲器C000 數(shù)據(jù)P 1P 2P 3Cache1X:數(shù)據(jù)Cache2X:數(shù)據(jù)Cache3X:數(shù)據(jù) X: 共享存儲器0111 數(shù)據(jù)P 1P 2P 3Cache1Cache2Cache3X:數(shù)據(jù) X: 共享存儲器1001 數(shù)據(jù)53從第二種狀態(tài)從第二種狀態(tài)(b)轉移至第三種狀態(tài)轉移至第三種狀態(tài)(c)的過程如下的過程如下:(1)Cache3發(fā)現(xiàn)包含X單元的塊有效,但不允許寫(2)Cache3向包含X單元的存儲器模塊發(fā)寫請求,并暫停P3工作(3)該存儲器模塊發(fā)無效請求至Cache1和Cache2(4)Cache1和

39、Cache2接到無效請求后,將對應塊置為無效態(tài),并發(fā)回答信號給存儲器模塊。(5)存儲器模塊接到Cache1和Cache2的回答信號后,置重寫位為“1”,清除指向Cache1和Cache2的指針,發(fā)允許寫信號到Cache3。(6)Cache3接到允許寫信號,更新Cache狀態(tài),激活P3。優(yōu)點:全映射目錄協(xié)議的效率比較高效率比較高。缺點:開銷與處理機數(shù)目的平方成正比,開銷與處理機數(shù)目的平方成正比, 不具有擴展性。不具有擴展性。3.有限目錄有限目錄當處理機數(shù)目為N時,限制目錄大小為限制目錄大小為O(N log2 N)。目錄指針需要對N進行二進制編碼,每個指針占log2 N位,目錄所占的總存儲空間與(

40、Nlog2 N)成正比。當Cache1和Cache2中都有X的拷貝時,若P3請求訪問X,則必須在在Cache1和Cache2中選擇一個使之無效,這種替換過程稱為驅逐。有限目錄的驅逐需要一種驅逐策略,驅逐策略的好壞對系統(tǒng)的性能具有很大的影響。驅逐策略與Cache替換策略在很多方面是相同的。 讀X (a) (b)有有限限目目錄錄的的驅驅逐逐P1P2P3Cache1X:數(shù)據(jù)Cache2X:數(shù)據(jù)Cache3 X:共享存儲器C數(shù)據(jù)P1P2P3Cache1X:數(shù)據(jù)Cache2Cache3X:數(shù)據(jù) X:共享存儲器C數(shù)據(jù)2022年6月25日計算機系統(tǒng)結構 第九章 多處理機564. 鏈式目錄鏈式目錄 通過維護一

41、個目錄指針鏈來跟蹤共享數(shù)據(jù)拷貝。通過維護一個目錄指針鏈來跟蹤共享數(shù)據(jù)拷貝。當P1讀X時,存儲器送X到Cache1,同時寫Cache1的一個鏈結束指針CT,在存儲器中也保存一個指向Cache1的指針。當P2讀X時,存儲器送X給Cache2, 同時給Cache2一個指向Cache1的指針,存儲器則保存一個指向Cache2的指針。當某一處理機需要寫X時,它必須沿整個目錄鏈發(fā)送一個數(shù)據(jù)無效信息。在收到所有處理機的回答信號之后,存儲器才給該處理機寫允許權。57當Cache中的數(shù)據(jù)塊需要替換時,要把該Cache從目錄鏈中刪除。有如下解決辦法: (1)把Cachei+1的指針指向Cachei-1。在Cach

42、ei中存放新數(shù)據(jù)塊。 (2)使Cachei及在鏈中位于其后的所有Cache中的單元X無效。 (3)使用雙向鏈。在替換時不再需要遍歷整個鏈。但指針增加了一倍,一致性協(xié)議也更加復雜。優(yōu)點:不限制共享數(shù)據(jù)塊的拷貝數(shù)目,又保持了可擴不限制共享數(shù)據(jù)塊的拷貝數(shù)目,又保持了可擴展性。展性。指針的長度以處理機數(shù)目的對數(shù)關系增長,Cache的每個數(shù)據(jù)塊的指針數(shù)目與處理機數(shù)目無關。缺點:鏈式目錄的復雜程度超過了前兩種目錄。鏈式目錄的復雜程度超過了前兩種目錄。 讀X 寫X (a) (b)鏈鏈 式式 目目 錄錄P1P2P3Cache1X: 數(shù)據(jù)Cache2Cache3 X:共享存儲器C數(shù)據(jù)CTP1P2P3Cache3

43、 X:共享存儲器C數(shù)據(jù)Cache1X: 數(shù)據(jù) CTCache2X: 數(shù)據(jù)9.4 大規(guī)模并行處理機大規(guī)模并行處理機多處理機系統(tǒng)主要有四大類:多處理機系統(tǒng)主要有四大類:(1)多向量處理機系統(tǒng):多向量處理機系統(tǒng):如CRAY YMP-90,NEC SX-3和FUJITSU VP-2000(2)SMP(Symmetry MultiProcessors)對稱多處理機對稱多處理機 SMP(Shared Memory mulptiProcessors)共享存儲多處理機 如SGI Challenge、Sun SparcCenter 2000(3)MPP(massively parallel processing

44、)大規(guī)模并行處理大規(guī)模并行處理機機 如Intel Paragon,CM-5,Cray T3D(4)Cluster 機群系統(tǒng)機群系統(tǒng)(NOW或COM)1. 科學計算中的重大課題要求提供科學計算中的重大課題要求提供3T性能:性能:(1) 1Teraflops計算能力(2) 1Terabyte主存儲器(3) 1Terabyte/s 輸入輸出頻帶寬度目前,速度還慢1000倍左右,存儲容量和I/O帶寬差距更大??茖W計算中的重大課題:全球氣候預報, 基因工程 ,飛行動力學 ,海洋環(huán)流, 流體動力學, 超導建模, 半導體建模, 量子染色動力學, 視覺2. 采用的關鍵技術:采用的關鍵技術:VLSI, 可擴展技

45、術, 共享虛擬存儲技術虛擬共享存儲器(Shared Virtual Memory)也稱為共享分布存儲器(Distributed Shared Memory);物理上分布存儲器,邏輯上共享的存儲器。虛擬共享存儲器的優(yōu)點:編程容易編程容易, 系統(tǒng)結構靈活系統(tǒng)結構靈活可擴充性好可擴充性好, 有較好的軟件移植性有較好的軟件移植性與消息傳遞方式相比,程序運行效率高,主要原因: (1)數(shù)據(jù)塊緩存在本地, 可以多次使用(2)通信時間分散,提高了并行性(3)擴大存儲空間,減少換頁操作虛擬共享存儲器實現(xiàn)途徑:虛擬共享存儲器實現(xiàn)途徑:(1)硬件實現(xiàn)硬件實現(xiàn), 利用Cache,需要增加專用硬件(2)操作系統(tǒng)和庫實現(xiàn)

46、操作系統(tǒng)和庫實現(xiàn),通過虛擬存儲機制取得共享和一致性。在松耦合的分布存儲多處理機上,不需要增加任何硬件(3)編譯實現(xiàn)編譯實現(xiàn),自動將共享訪問轉換成同步和一致原語。大多數(shù)系統(tǒng)采用途徑(1)和(2),或這兩種途徑結合實現(xiàn)3. 同步同步MIMD機器機器 SIMD與與MIMD的優(yōu)點結合在一起。的優(yōu)點結合在一起。 CM-5同時支持SIMD與MIMD兩種并行計算方式。 數(shù)據(jù)并行可以采用數(shù)據(jù)并行可以采用SIMD、多、多SIMD或同步或同步MIMD模式。模式。 32到16384個處理器結點,每個結點有一個SPARC處理機,32MB存儲器,64位浮點和整數(shù)操作,128Mflops向量處理部件 處處 理理 機機 結

47、結 點點 控控制制處處理理機機 I/O接接口口控控 制制 網(wǎng)網(wǎng) 格格數(shù)數(shù) 據(jù)據(jù) 網(wǎng)網(wǎng) 格格診診斷斷網(wǎng)網(wǎng)格格NIPMNIPMNIPMNIPMNIPMNINII/OI/O 三個網(wǎng)絡:三個網(wǎng)絡:數(shù)據(jù)網(wǎng)絡數(shù)據(jù)網(wǎng)絡提供點對點通信??刂凭W(wǎng)絡控制網(wǎng)絡提供廣播、同步、掃描和系統(tǒng)管理功能。診斷網(wǎng)絡診斷網(wǎng)絡從后臺訪問所有系統(tǒng)硬件,測試系統(tǒng)完整性,檢測和隔離錯誤。數(shù)據(jù)網(wǎng)絡和控制網(wǎng)絡有很好的可擴展性。 可以劃分成一個或多個分區(qū)供用戶使用可以劃分成一個或多個分區(qū)供用戶使用每個分區(qū)一臺控制處理機,一組處理結點,數(shù)據(jù)和控制網(wǎng)絡的專用部分。4. CM-5網(wǎng)絡結構網(wǎng)絡結構 數(shù)據(jù)網(wǎng)絡采用胖樹型網(wǎng)數(shù)據(jù)網(wǎng)絡采用胖樹型網(wǎng),數(shù)據(jù)處理結點

48、、控制處理機和I/O通道都位于胖樹的葉子上。 利用胖樹的層次結構特性,可以劃分一棵子利用胖樹的層次結構特性,可以劃分一棵子樹給一個用戶樹給一個用戶。采用4元胖樹實現(xiàn),每個內(nèi)部開關結點由n個尋徑器芯片組成。每個尋徑器與4個子芯片和2或4個父芯片相連。 可以分配不同的子樹處理不同的作業(yè),子樹可以分配不同的子樹處理不同的作業(yè),子樹的大小可以任意。的大小可以任意。 每臺處理機與數(shù)據(jù)網(wǎng)絡有兩條連接通路。用用四四元元胖胖樹樹實實現(xiàn)現(xiàn)的的CM-5數(shù)數(shù)據(jù)據(jù)網(wǎng)網(wǎng)絡絡5. 控制處理機控制處理機控制處理機由CPU、存儲器、本地磁盤、網(wǎng)絡接口、以太網(wǎng)組成。它相當于一臺標準工作站。網(wǎng)絡接口通過控制網(wǎng)絡和數(shù)據(jù)網(wǎng)絡使處理機

49、與系統(tǒng)的其它部分相連??刂铺幚頇C專門執(zhí)行管理功能,不需要高性能的運算部件。每臺控制處理機都能夠運行操作系統(tǒng),負責并行處理資源的管理。一部分控制處理機管理用戶區(qū)的計算資源,其它管理I/O資源。 數(shù)數(shù) 據(jù)據(jù) 網(wǎng)網(wǎng) 絡絡 控控 制制 網(wǎng)網(wǎng) 絡絡標標 準準 工工 作作 站站 本本 地地 網(wǎng)網(wǎng) 絡絡存存 儲儲 器器網(wǎng)網(wǎng) 絡絡 接接 口口CPUI OI/O6.處理結點處理結點通過控制網(wǎng)絡和數(shù)據(jù)網(wǎng)絡將結點與系統(tǒng)的其它部分相連。每個向量部件有一個流水ALU和64個64位的寄存器。每條向量指令可傳送給一個向量部件、或一對向量部件、或同時廣播給所有4個向量部件。標量處理機負責地址轉換和循環(huán)控制,向量處理部件的操作

50、與標量處理部件并行執(zhí)行。16384個處理結點的總峰值速度為:21427221 Mflops=2Tflops 數(shù)數(shù)據(jù)據(jù)網(wǎng)網(wǎng) 絡絡 控控 制制網(wǎng)網(wǎng)絡絡 64 位位總總 線線 64 位位總總 線線CM-5 的的 處處 理理 機機 結結 點點CPU網(wǎng)網(wǎng) 絡絡 接接 口口存存 儲儲 器器存存 儲儲 控控 制制器器存存 儲儲 器器存存 儲儲 器器存存 儲儲 器器 數(shù)數(shù)據(jù)據(jù)網(wǎng)網(wǎng)絡絡 控控制制網(wǎng)網(wǎng)絡絡 64 位位總總線線CM-5 中中帶帶向向量量部部件件的的處處理理機機結結點點標標量量處處理理機機網(wǎng)網(wǎng)絡絡接接口口存存儲儲器器存存儲儲器器存存儲儲器器存存儲儲器器向向量量部部件件向向量量部部件件向向量量部部件件向

51、向量量部部件件9.5 對稱多處理機對稱多處理機對稱多處理機 (Symmetry MultiProcessors) 共享存儲多處理機 (Shared Memory mulptiProcessors),有,有三種模型:三種模型:1. UMA多處理機多處理機均勻存儲器存取模型 (Uniform Memory Access), 存儲器被所有處理機均勻共享所有處理機對所有存儲單元具有相同的存取時間, 每臺處理機有局部Cache外圍設備可以共享 UMA多多處處理理機機模模型型P1P2Pn系系統(tǒng)統(tǒng)互互連連網(wǎng)網(wǎng)絡絡(總總線線、交交叉叉開開關關、多多級級網(wǎng)網(wǎng)絡絡)SM1SM2SMmI/O2. NUMA多處理機多

52、處理機非均勻存儲器存取 (Nonuniform Memory Access)模型存儲器訪問時間隨存儲單元的位置不同而變化。共享存儲器在物理上是分布在所有處理機中的本地存儲器。所有局部存儲器地址空間的集合就組成了全局地址空間。處理機訪問本地存儲器比較快,訪問屬于另一臺處理機的遠程存儲器則比較慢,因為通過互連網(wǎng)絡會產(chǎn)生附加的時間延遲。 P1P2Pn系系統(tǒng)統(tǒng)互互連連網(wǎng)網(wǎng)絡絡LM1LM2LMm只有Cache的存儲器結構 (Cache-Only Memory Architecture) 模型;COMA是一種只用Cache的多處理機系統(tǒng)實際上,COMA模型是NUMA模型的一種特例,后者分布存儲器換成了Ca

53、che在每個處理機結點上沒有主存儲器,全部Cache組成了全局虛擬地址空間遠程Cache訪問通過分布Cache目錄進行共享存儲系統(tǒng)擁有統(tǒng)一的尋址空間,程序員不必參與數(shù)據(jù)分配和傳輸。3. COMA多處理機多處理機 D1D2Dn互互 連連 網(wǎng)網(wǎng) 絡絡Cache1Cache2Cachen12n 1996年SGI公司的Origin 2000服務器,首先采用S2MP并行體系結構 S2MP實際上是NUMA多處理機系統(tǒng),采用分布存儲器,并通過cache對系統(tǒng)的共享和局部數(shù)據(jù)都進行緩存。從用戶編程角度看,S2MP是一種共享存儲的多處理機系統(tǒng)。 S2MP的主要特點的主要特點:(1)編程容易編程容易,使用方便。(

54、2)可擴展性好可擴展性好,增加處理器數(shù)目容易。(3)通信開銷小,可開發(fā)程序的細粒度并行性4. S2MP結構結構 S2MP的關鍵技術的關鍵技術:(1)高速無阻塞互連網(wǎng)絡高速無阻塞互連網(wǎng)絡,增加多處理機系統(tǒng)的通信帶寬。(2)分布式存儲器分布式存儲器,隨處理器數(shù)目的增加自動增加存儲器帶寬。(3)引入引入cache,降低訪存時延。(4)所有存儲器統(tǒng)一編址所有存儲器統(tǒng)一編址,提供單一的大容量地址空間。(5)每個處理器結點上有一個目錄存儲器,維護cache一致性。 P : 處 理 機 , C : Cache, M : 主 存 儲 器 , D : 目 錄 存 儲 器S2M P 體體 系系 結結 構構 示示

55、意意 圖圖高高 速速 互互 連連 網(wǎng)網(wǎng) 絡絡M 1C 1 1D 1M 2C 2 2D 2M nC n nD n2022年6月25日計算機系統(tǒng)結構 第九章 多處理機825. SGI Origin2000系列服務器系列服務器Origin 2000將將SMP、MPP、Cluster的優(yōu)點結合起來的優(yōu)點結合起來SMP易編程,MPP可擴展性,Cluster可用性好。有4種機型:Origin 2000,塔式系統(tǒng),最多4個處理器。Origin 2000 Deskside,桌邊服務器,最多8個處理器Origin 2000 Rack,機柜服務器,最多為16個處理器Cray Origin 2000,支持128個處

56、理器。Origin 2000是S2MP結構的典型實現(xiàn),地址空間成指數(shù)增長,連續(xù)可擴展,地址空間成指數(shù)增長,連續(xù)可擴展,最多可擴展至1024個處理器,具有高帶寬和低時延2022年6月25日計算機系統(tǒng)結構 第九章 多處理機83關鍵技術:Cray LinkCray Link多重交叉開關互連技術多重交叉開關互連技術Cellular IRIXCellular IRIX蜂窩式操作系統(tǒng)蜂窩式操作系統(tǒng)Origin 2000Origin 2000系列服務器結構:系列服務器結構:(1) 結點板結點板每個結點板(主板)有一到兩個R10000處理器、二級cache、主存儲器、錄存儲器、HUB、I/O接口、互連網(wǎng)絡路由

57、器接口。2022年6月25日計算機系統(tǒng)結構 第九章 多處理機84R10000Secondarycache1MB/4MBR10000Secondarycache1MB/4MB780MB/S peakMain MemoryDirectoryMemoryBX ASICHUB ASICAddress/ControlDirectory dataDirectory address/control780MB/S peak780MB/S780MB/SRouter780MB/SXIO780MB/S(1) 結點板結點板(2) HUB結構結構四個雙向端口,每個端口的雙工帶寬1.6GB/S分別與處理器、主存、XIO和

58、互連網(wǎng)絡連接在內(nèi)部以交叉開關互連。Processor InterfaceMemory/DirectoryInterfaceI/O InterfaceInterconnection FabricOutputFIFOInputFIFOInputFIFOOutputFIFOOutputFIFOInputFIFOInputFIFOOutputFIFOAsynch/SynchInterfaceAsynchInterface(3) 存儲系統(tǒng)存儲系統(tǒng)有一個統(tǒng)一的共享地址空間,存儲系統(tǒng)共分為四個層次:第一層:寄存器堆,訪問延遲時間最短;第二層:cache,主cache在CPU芯片上,二級cache在結點板上;

59、第三層:本地存儲器,包括主存儲器和目錄存儲器;第四層:遠程cache,用于減少訪問共享存儲器所需的時間。(4)(4)互連網(wǎng)絡互連網(wǎng)絡互連網(wǎng)絡是一組開關組成,稱為路由器;允許多個傳輸同時發(fā)生;速度極高,每條鏈路帶寬達到1.6GB/S;互連網(wǎng)絡不需要仲裁,也不存在競爭;路由器的核心是6路全交叉開關。峰值通信帶寬9.6GB/S。CrossbarReceiverSenderLLPSSD/SSRReceiverSenderLLPSSD/SSRReceiverSenderLLPSSD/SSRReceiverSenderLLPSSD/SSRReceiverSenderLLPSSD/SSRReceiverSe

60、nderLLPSSD/SSR(5) 擴展連接方式:擴展連接方式:可構成 4, 16, 32, 64, 128個處理器的互連拓撲結構。兩個結點板通過HUB直接連接得到4個處理器。由于路由器提供了兩條連接結點板的鏈路,由一個路由器和兩個結點板構成一個模塊,利用路由器的其他4個接口可以擴展到不同的規(guī)模。使用其中的2條鏈路,可以連接16個處理器。使用其中的3條鏈路,形成一個立方體,可以連接32個處理器。使用4條鏈路,構成一個4維超立方體,可以連接64個處理器。采用Cray Router,最大配置可以達到128個處理器。HPP4個處理器HPP16個處理器= NRNNRNNRNNRNN32個處理器RNNR

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論