并行處理機(jī)和多處理機(jī)

上傳人：y*** IP屬地：山西上傳時(shí)間：2022-08-11 格式：PPT 頁(yè)數(shù)：50 大?。?21.50KB 積分：30 舉報(bào) 版權(quán)申訴

已閱讀5頁(yè)，還剩45頁(yè)未讀，繼續(xù)免費(fèi)閱讀

版權(quán)說(shuō)明：本文檔由用戶提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、第八章并行處理機(jī)和多處理機(jī)并行處理機(jī)又叫SIMD計(jì)算機(jī)。它是單一控制部件控制下的多個(gè)處理單元構(gòu)成的陣列，所以又稱為陣列處理機(jī)。多處理機(jī)是由多臺(tái)獨(dú)立的處理機(jī)組成的系統(tǒng)。并行處理機(jī)結(jié)構(gòu)和實(shí)例多處理機(jī)結(jié)構(gòu)和實(shí)例1并行處理計(jì)算機(jī)模型并行處理機(jī)定義：多個(gè)PU按照一定方式互連，在同一個(gè)CU控制下，對(duì)各自的數(shù)據(jù)完成同一條指令規(guī)定的操作。從CU看，指令是串行執(zhí)行的，從PU看，數(shù)據(jù)是并行處理的。并行處理機(jī)也稱為陣列處理機(jī)。按照佛林分類法，它屬于SIMD計(jì)算機(jī)。并行處理機(jī)的應(yīng)用領(lǐng)域：主要用于高速向量或矩陣運(yùn)算中。8.1 并行處理機(jī)結(jié)構(gòu)和實(shí)例2P0M0PE0P1M1PE1P2M2PE2Pn-1Mn-1Pen-1互

2、連網(wǎng)絡(luò)控制器HJSiegel提出的并行處理機(jī)模型下圖是H.J.Siegel提出的SIMD計(jì)算機(jī)的操作模型3并行處理機(jī)的操作模型可用五元組來(lái)表示：M(N，C，I，M，R), 其中： N為PE個(gè)數(shù)。如IlliacIV有64個(gè)PE。 C為由控制部件CU直接執(zhí)行的指令集，包括標(biāo)量指令和程序控制指令。I為所有PE并行執(zhí)行的指令集，包括算術(shù)運(yùn)算、邏輯運(yùn)算、數(shù)據(jù)尋徑、屏蔽以及其它由每個(gè)活動(dòng)的PE對(duì)它的數(shù)據(jù)所執(zhí)行的局部操作。M為屏蔽操作集，每種屏蔽將PE劃分為允許操作和禁止操作兩個(gè)子集。 R是數(shù)據(jù)尋徑集，說(shuō)明互連網(wǎng)絡(luò)中PE間通信所需要的各種設(shè)置模式。4系統(tǒng)型號(hào)SIMD計(jì)算系統(tǒng)結(jié)構(gòu)和性能語(yǔ)言、編譯器和軟件支持M

3、asParMP-1系列102416384個(gè)PE, 26 GIPS或1.3 Gflops; 每個(gè)PE帶16KB本地存儲(chǔ)器, X-Net網(wǎng)格加一個(gè)多級(jí)交叉開(kāi)關(guān)互連網(wǎng)Fortran77, MasPar Fortran (MPF)和MasPar并行應(yīng)用語(yǔ)言; X窗口UNIX/OS, 符號(hào)調(diào)試程序, 可視化和動(dòng)畫制作程序典型并行處理機(jī)5Active Memory Technology DAP600系列1K位/PE方形網(wǎng)格互連成4096PE的細(xì)粒、位片SIMD陣列，正交4-鄰位鏈接，20GIPS和560Mflops峰值性能由主機(jī)VAX/VMS或UNIX Fortran-plus 或DAP上APAL提供，主

4、機(jī)的Fortran77或C; 與Fortran90標(biāo)準(zhǔn)有關(guān)的Fortran-plusThinking Machines公司CM-265536個(gè)PE排成10維超立方體, 每個(gè)PE可有1M位存儲(chǔ)器, 32個(gè)PE共享FPU選件, 峰值速度28 Gflops和持續(xù)速度5.6 Gflops由VAX, Sun或Symbolics 360主機(jī)驅(qū)動(dòng), PARIS支持的Lisp編譯器、Fortran90、C*和*Lisp6并行處理機(jī)的基本結(jié)構(gòu)兩種SIMD計(jì)算機(jī)的基本結(jié)構(gòu)：分布存儲(chǔ)器并行處理機(jī)共享存儲(chǔ)器并行處理機(jī)一臺(tái)并行處理機(jī)由五個(gè)部分組成：多個(gè)處理單元PE多個(gè)存儲(chǔ)器模塊M一個(gè)控制器CU一個(gè)互連網(wǎng)絡(luò)ICN一臺(tái)輸入

5、輸出處理機(jī)IOP7目前的大部分并行處理機(jī)是基于分布式存儲(chǔ)器模型的系統(tǒng)。比較容易構(gòu)成MPP（Massively Parallel Processor）,幾十萬(wàn)個(gè)PE。必須依靠并行算法來(lái)提高PE的利用率。因此，應(yīng)用領(lǐng)域很有限。CU是控制部件，執(zhí)行標(biāo)量指令，并把向量指令廣播到各個(gè)PE中。在CU中通常有一個(gè)較大容量的存儲(chǔ)器。IOP是輸入輸出處理機(jī)，或稱為主機(jī)。在IOP上安裝操作系統(tǒng)，它除了負(fù)擔(dān)輸入輸出工作外，還負(fù)責(zé)程序的編輯、編譯和調(diào)試等工作。數(shù)據(jù)在局部存儲(chǔ)器中的分布是一個(gè)很關(guān)鍵的問(wèn)題。標(biāo)量指令與向量指令可以并發(fā)執(zhí)行。1、分布存儲(chǔ)器結(jié)構(gòu)8LM0互連網(wǎng)絡(luò)PE0CULM1PE1LMn-1PEn-1IOP9

6、共享的多體并行存儲(chǔ)器 SM 通過(guò)互連網(wǎng)絡(luò)與各處理單元PE相連。存儲(chǔ)模塊的數(shù)目等于或略大于處理單元的數(shù)目。同時(shí)在存儲(chǔ)模塊之間合理分配數(shù)據(jù)，通過(guò)靈活、高速的互連網(wǎng)絡(luò)，使存儲(chǔ)器與處理單元之間的數(shù)據(jù)傳送在大多數(shù)向量運(yùn)算中都能以存儲(chǔ)器的最高頻率進(jìn)行，而最少受存儲(chǔ)沖突的影響。共享存儲(chǔ)器模型的處理單元數(shù)目一般不多，幾個(gè)至幾十個(gè)。Burroughs Scientific Processor (BSP)采用了這種結(jié)構(gòu)。16個(gè)PE通過(guò)一個(gè)1617的對(duì)準(zhǔn)互連網(wǎng)絡(luò)訪問(wèn)17個(gè)共享存儲(chǔ)器模塊。存儲(chǔ)器模塊數(shù)與PE數(shù)互質(zhì)可以實(shí)現(xiàn)無(wú)沖突并行訪問(wèn)存儲(chǔ)器。2. 共享存儲(chǔ)器并行處理機(jī)10PE0互連網(wǎng)絡(luò)CUPE1PEn-1IOPSM0

7、SM1SMk-111并行處理機(jī)的主要特點(diǎn)如下：速度快，特別適于高速數(shù)值計(jì)算。SIMD依靠的是資源重復(fù)，而不是時(shí)間重疊。它依靠增加PE個(gè)數(shù)，與流水線處理機(jī)主要依靠縮短時(shí)鐘周期相比，其提高速度的潛力要大得多。依賴于互連網(wǎng)絡(luò)和并行算法?；ミB網(wǎng)絡(luò)決定了PE之間的連接模式，也決定了并行處理機(jī)能夠適應(yīng)的算法。需要有一臺(tái)高性能的標(biāo)量處理機(jī)。如果一臺(tái)機(jī)器的向量處理速度極高，但標(biāo)量處理速度只是每秒一百萬(wàn)次，那么對(duì)于標(biāo)量運(yùn)算占10的題目來(lái)說(shuō)，總的有效速度就不過(guò)是每秒一千萬(wàn)次。SIMD基本上是一臺(tái)向量處理專用計(jì)算機(jī)。盡管它有一個(gè)功能很強(qiáng)的控制部件實(shí)際上起作標(biāo)量處理機(jī)的作用，但仍然必須和一臺(tái)高性能單處理機(jī)配合工作，使

8、后者擔(dān)負(fù)系統(tǒng)的全部管理功能。并行處理機(jī)的特點(diǎn)12IlliacIV 是最先采用SIMD結(jié)構(gòu)的并行機(jī)隨后一個(gè)方向是用位片PE制造的并行機(jī)，如Goodyear MPP、AMT/DAP 610和TMC/CM-2。CM-5是以SIMD模式運(yùn)行的同步MIMD計(jì)算機(jī)。另一方向是用字寬運(yùn)算PE的中粒度SIMD計(jì)算機(jī)。并行處理機(jī)的兩個(gè)發(fā)展方向：保留陣列結(jié)構(gòu)，但每個(gè)處理單元的規(guī)模減小，如一個(gè)bit。去掉陣列結(jié)構(gòu)和分布存儲(chǔ)器。Burroughs公司的BSP是典型代表。 GF-11是由IBM Watson實(shí)驗(yàn)室研制、作科學(xué)模擬研究用的。MasPar MP1是中粒度并行處理機(jī)的典型代表。下面介紹并行處理機(jī)的兩種典型代表

9、：采用陣列結(jié)構(gòu)分布存儲(chǔ)器的IlliacIV并行處理機(jī)去掉陣列結(jié)構(gòu)和分布存儲(chǔ)器BSP并行處理機(jī)。并行處理機(jī)實(shí)例13Illiac IV(Barnes等，1968）Goodyear MPP(Batcher,1980）BSP(kuck和Stokes，1982）DAP 610(AMT，Inc.1987)CM-2(TMC,1990)CM-5(TMC,1991)MasPar MPI(Nickolls,1990)IBM GF-11(Beetem等，1985）SIMD計(jì)算機(jī)發(fā)展過(guò)程141963年，美國(guó)西屋電器公司提出“Slotnick，The SOLOMON Computer，Simultaneous Oper

10、ation linked Ordinal Modular Network”。1966年美國(guó)國(guó)防遠(yuǎn)景研究規(guī)劃局ARPR與伊利諾依大學(xué)簽定合同。原計(jì)劃：256個(gè)PE，每個(gè)PE每240ns處理一個(gè)64位的浮點(diǎn)數(shù)，每個(gè)局部存儲(chǔ)器PEM為2K?64位，總的運(yùn)算速度為1GFLOPS。美國(guó)Burroughs公司和伊利諾依大學(xué)于1972年共同設(shè)計(jì)和生產(chǎn)，1975年實(shí)際投入運(yùn)行。用了4倍的經(jīng)費(fèi)，只達(dá)到1/20的速度。只實(shí)現(xiàn)了8?864個(gè)PE，只達(dá)到50MFLOPS。IlliacIV系統(tǒng)的影響非常大。它是并行處理機(jī)的典型代表，也是分布存儲(chǔ)器并行處理機(jī)的典型代表。IlliacIV系統(tǒng)由三大部分組成。IlliacIV

11、處理機(jī)陣列，陣列控制器，一臺(tái)標(biāo)準(zhǔn)的Burroughs B6700計(jì)算機(jī)。1 IlliacIV 陣列處理機(jī)151、IlliacIV處理陣列IlliacIV處理陣列由8864個(gè)PU組成。每個(gè)PU由處理部件PE和它的局部存儲(chǔ)器PEM組成。每一個(gè)PUi只和它的東、西、南、北四個(gè)近鄰直接連接。PUi+1 mod 64、PUi-1 mod 64、PUi+8 mod 64、PUi-8 mod 64南北方向上同一列的PU連成一個(gè)環(huán)，東西方向上構(gòu)成一個(gè)閉合螺線。采用閉合螺線最短距離不超過(guò)7步。而普通網(wǎng)格最短距離不超過(guò)8步。例如：從PU0到PU36的距離：采用普通網(wǎng)格必須8步：PU0 PU1 PU2 PU3 PU

12、4 PU12 PU20 PU28 PU36或 PU0 PU8 PU16 PU24 PU32 PU33 PU34 PU35 PU36或（等于8步的很多，大于8步的更多）如果采用閉合螺旋線，只需要7步：PU0 PU63 PU62 PU61 PU60 PU52 PU44 PU3616普通網(wǎng)格必須8步：PU0 PU1 PU2 PU3 PU4 PU12 PU20 PU28 PU36或 PU0 PU8 PU16 PU24 PU32 PU33 PU34 PU35 PU36或閉合螺旋線只要7步：PU0 PU63 PU62 PU61 PU60 PU52 PU44 PU36或 PU0 PU63 PU55 PU

13、47 PU39 PU38 PU37 PU36或 172、陣列控制器陣列控制器CU實(shí)際上是一臺(tái)小型控制計(jì)算機(jī)。對(duì)陣列處理單元實(shí)行控制和完成標(biāo)量操作。標(biāo)量操作與各PE的數(shù)組操作可以重疊執(zhí)行?？刂破鞯墓δ苡幸韵挛鍌€(gè)方面：(1) 對(duì)指令進(jìn)行譯碼，并執(zhí)行標(biāo)量指令；(2) 向各處理單元發(fā)出執(zhí)行數(shù)組操作指令所需的控制信號(hào)；(3) 產(chǎn)生和向所有處理單元廣播公共的地址；18(4) 產(chǎn)生和向所有處理單元廣播公共的數(shù)據(jù)；(5) 接收和處理PE、I/O操作以及B6700產(chǎn)生的陷阱中斷信號(hào)。2、輸入輸出系統(tǒng)IlliacIV的輸入輸出系統(tǒng)由磁盤文件系統(tǒng)DFS、I/O分系統(tǒng)和一臺(tái)B6700處理機(jī)組成。I/O分系統(tǒng)又由輸入輸

14、出開(kāi)關(guān)IOS、控制描述字控制器CDC和輸入輸出緩沖存儲(chǔ)器BIOM三個(gè)部分組成。19試在含一個(gè)PE的SISD機(jī)和在含m個(gè)PE的且連接成一線性環(huán)的SIMD機(jī)上計(jì)算下列求內(nèi)積的表達(dá)式。假定完成每次ADD操作需2個(gè)單元時(shí)間，完成每次MULTIPLY操作需4個(gè)單位時(shí)間，沿雙向環(huán)在相鄰PE間移數(shù)需1個(gè)單位時(shí)間。（1）SISD計(jì)算機(jī)上計(jì)算s需多少時(shí)間？（2）SIMD計(jì)算機(jī)上計(jì)算s需多少時(shí)間？（3）用SIMD機(jī)計(jì)算s相對(duì)于用SISD機(jī)計(jì)算的加速比是多少？習(xí)題8.620（1）在SISD計(jì)算機(jī)中計(jì)算s需要串行計(jì)算n次乘法和n-1次加法。共需要時(shí)間：算法如下： S=A1*B1 For i=2 to n DoS=S

15、+Ai*Bi Enddo（2）在SIMD計(jì)算機(jī)上計(jì)算采用如下的算法：（假設(shè)mn）首先，把向量中的n對(duì)元素盡量平均地分配到m個(gè)處理器中，每個(gè)處理器最多分配n/m+1對(duì)，最少分配n/m對(duì)，最多經(jīng)過(guò)4（n/m+1）+2n/m 時(shí)間，所有n個(gè)處理器上都得到了一個(gè)局部和，對(duì)這m個(gè)處理器解答21構(gòu)成的線性環(huán)做累加運(yùn)算。若采用兩路7線性累加的方法共用做加法m/2次,數(shù)據(jù)傳遞m/2次，共用時(shí)間4（n/m+1）+2n/m+3m/2 = 6n/m+ 3m/2+4。若用遞歸累加的方法，假設(shè)m 是2的p次冪。做p次并行的加法，移位1+2+4+ + m/2 = m-1 次。用時(shí)2p+（m-1）?？偣灿脮r(shí)為 4（n/m

16、+1）+2n/m+2log m +（m-1） = 6n/m+ m+2log m +3進(jìn)一步分析：當(dāng)2logm 16時(shí) 并行累加比兩路線性累加更優(yōu)。反之，當(dāng)m 16 時(shí)，兩路線性累加更快。其根本原因就是并行累加算法節(jié)省了加法時(shí)間，但是花費(fèi)更多的數(shù)據(jù)傳送時(shí)間。22算法描述如下:Par：For j=1 to m DoS(j)=A1j*B1jFor 2 to n/m DoS(j)=S(j)+Aij*BijEnddoS(j)=S(j)+S(j+1)S(j)=S(j)+S(j+2)S(j)=S(j)+S(j+4) S(j)=S(j)+S(j+n/m)Enddo23（3）加速比當(dāng)采用兩路線性累加的方法時(shí)加速

17、比為：若m = n，做乘法的時(shí)間變?yōu)?，則加速比簡(jiǎn)化為當(dāng)采用遞歸并行累加時(shí)加速比為：當(dāng)m = n 時(shí)，做乘法的時(shí)間變?yōu)?，則加速比簡(jiǎn)化為24分析其原因，可以看出，線性互連網(wǎng)絡(luò)的傳輸開(kāi)銷在這里是制約加速比增長(zhǎng)的最大障礙，無(wú)論采用何種并行算法，一個(gè)數(shù)據(jù)從線性環(huán)形網(wǎng)絡(luò)中的一個(gè)節(jié)點(diǎn)傳遞到最遠(yuǎn)的節(jié)點(diǎn)的最短時(shí)間為m/2，這個(gè)時(shí)間是無(wú)法改進(jìn)的，并且隨著處理節(jié)點(diǎn)的增多成為最主要的時(shí)間開(kāi)銷。相對(duì)而言，加法和乘法隨著處理單元的增多，所占的時(shí)間比例越來(lái)越小。258.2多處理機(jī)結(jié)構(gòu)和實(shí)例兩個(gè)或兩個(gè)以上處理機(jī)(包括PU和CU)，通過(guò)高速互連網(wǎng)絡(luò)連接起來(lái)，在統(tǒng)一的操作系統(tǒng)管理下，實(shí)現(xiàn)指令以上級(jí)（任務(wù)級(jí)、作業(yè)級(jí)）并行。按照

18、Flynn分類法，多處理機(jī)系統(tǒng)屬于MIMD計(jì)算機(jī)。多處理機(jī)系統(tǒng)由多個(gè)獨(dú)立的處理機(jī)組成，每個(gè)處理機(jī)都能夠獨(dú)立執(zhí)行自己的程序。26多處理機(jī)結(jié)構(gòu)由若干臺(tái)獨(dú)立的計(jì)算機(jī)組成，每臺(tái)計(jì)算機(jī)能夠獨(dú)立執(zhí)行自己的程序。Flynn稱這種結(jié)構(gòu)為多指令流多數(shù)據(jù)流（MIMD）結(jié)構(gòu)。多處理機(jī)系統(tǒng)中的處理機(jī)之間按某種形式互連，從而實(shí)現(xiàn)程序之間的數(shù)據(jù)交換和同步。多處理機(jī)系統(tǒng)中每臺(tái)處理機(jī)都有寄存器、運(yùn)算器、邏輯部件、訪問(wèn)存儲(chǔ)器和I/O的通道。還有一種多處理機(jī)系統(tǒng)中每臺(tái)處理機(jī)有自己的存儲(chǔ)器和I/O設(shè)備。多處理機(jī)結(jié)構(gòu)27互連網(wǎng)絡(luò)處理機(jī)1處理機(jī)2處理機(jī)N存儲(chǔ)器存儲(chǔ)器存儲(chǔ)器I/OI/O具有通過(guò)互連網(wǎng)絡(luò)共享存儲(chǔ)器和I/O的多處理機(jī)系統(tǒng)28

19、處理機(jī)1存儲(chǔ)器I/O處理機(jī)2存儲(chǔ)器I/O處理機(jī)N存儲(chǔ)器I/O互連網(wǎng)每個(gè)處理機(jī)都擁有自己的存儲(chǔ)器和I/O的多處理機(jī)系統(tǒng)29 1、結(jié)構(gòu)靈活性并行處理機(jī)：專用，PE數(shù)很多（幾千個(gè)），固定有限的通信多處理機(jī)：通用，幾十個(gè)，高速靈活的通信2、程序并行性并行處理機(jī)的并行性存在于指令內(nèi)部，識(shí)別比較容易。多處理機(jī)的并行性存在于指令外部，在多個(gè)任務(wù)之間，識(shí)別難度較大。一個(gè)簡(jiǎn)單的例子：Y = A+B*C*D/E+F用兩個(gè)處理機(jī)：CPU1： CPU2： B*C， D/E， A+F， B*C*D/E A+B*C*D/E+F多處理機(jī)系統(tǒng)的特點(diǎn)303、并行任務(wù)派生并行處理機(jī)把同種操作集中在一起，由指令直接啟動(dòng)各PE同時(shí)

20、工作。多處理機(jī)用專門的指令來(lái)表示并發(fā)關(guān)系，一個(gè)任務(wù)開(kāi)始執(zhí)行時(shí)能夠派生出與它并行執(zhí)行的另一些任務(wù)，如果任務(wù)數(shù)多于處理機(jī)數(shù)，多余的任務(wù)進(jìn)入排隊(duì)器等待。4、進(jìn)程同步并行處理機(jī)僅一個(gè)CU，自然是同步的多處理機(jī)執(zhí)行不同的指令，工作進(jìn)度不會(huì)也不必保持相同,先做完的要停下來(lái)等待。有數(shù)據(jù)相關(guān)和控制相關(guān)也要停下來(lái)等待,要采取特殊的同步措施來(lái)保持程序所要求的正確順序。5、資源分配和進(jìn)程調(diào)度并行處理機(jī)的PE是固定的，采用屏蔽手段改變實(shí)際參加操作的PE數(shù)目多處理機(jī)執(zhí)行并發(fā)任務(wù)，需用處理機(jī)的數(shù)目不固定，各個(gè)處理機(jī)進(jìn)入或退出任務(wù)的時(shí)刻不相同，所需共享資源的品種、數(shù)量又隨時(shí)變化提出資源分配和進(jìn)程調(diào)度問(wèn)題，它對(duì)整個(gè)系統(tǒng)的

21、效率有很大的影響。31引起峰值性能下降的原因是：(1) 因處理機(jī)間通信而產(chǎn)生的延遲(2) 一臺(tái)處理機(jī)與其它處理機(jī)同步所需的開(kāi)銷(3) 當(dāng)沒(méi)有足夠多任務(wù)時(shí)，一臺(tái)或多臺(tái)處理機(jī)處于空閑狀態(tài)(4) 由于一臺(tái)或多臺(tái)處理機(jī)執(zhí)行無(wú)用的工作(5) 系統(tǒng)控制和操作調(diào)度所需開(kāi)銷研究多處理機(jī)的目的：提前5年得到速度高10倍的機(jī)器。或用1/10的價(jià)格獲得一臺(tái)高性能的機(jī)器。如果設(shè)計(jì)得好，在某些適合進(jìn)行并行處理得應(yīng)用領(lǐng)域，可以達(dá)到：提前10年得到速度高100倍的機(jī)器或用1/100的價(jià)格獲得一臺(tái)高性能的機(jī)器。多處理機(jī)性能模型32并行性在很大程度上依賴于R/C比值，其中：R代表程序執(zhí)行時(shí)間，C代表通信開(kāi)銷。通常：R/C比

22、值小，并行性低。R/C比值大，并行性高如果把作業(yè)分解成較大的塊，就能得到較大的R/C值，但是所得到的并行性比最大可能的并行性要小得多。R/C比值是衡量任務(wù)粒度(Granularity)大小的尺度在粗粒度（Coarsegrain）并行情況下，R/C比值比較大，通信開(kāi)銷小在細(xì)粒度（Finegrain）并行情況下，R/C比值比較小，通信開(kāi)銷大細(xì)粒度并行性需要的處理機(jī)多，粗粒度并行性需要的處理機(jī)少。細(xì)粒度并行性的基本原理是把一個(gè)程序盡可能地分解成能并行執(zhí)行的小任務(wù)。在極端情況下，一個(gè)小任務(wù)只完成一個(gè)操作。331.基本模型在兩臺(tái)處理機(jī)情況每個(gè)任務(wù)的執(zhí)行時(shí)間為R個(gè)單位時(shí)間兩個(gè)任務(wù)不在同一臺(tái)處理機(jī)上時(shí)，通信

23、開(kāi)銷為C個(gè)單位時(shí)間K個(gè)任務(wù)給一臺(tái)處理機(jī)M-K個(gè)任務(wù)給另一臺(tái)處理機(jī)總處理時(shí)間=Rmax(M-K，K)+C(M-K)K結(jié)論：當(dāng)R/CM/2時(shí)，把任務(wù)平均分給兩臺(tái)處理機(jī)能使總處理時(shí)間最小。342.N臺(tái)處理機(jī)系統(tǒng)的基本模型將Ki個(gè)任務(wù)分配給第i臺(tái)處理機(jī)。推廣前面的式子：35分析任務(wù)均分給N臺(tái)處理機(jī)和任務(wù)集中在一臺(tái)處理機(jī)的總處理時(shí)間差，有：如果R/C比臨界值M/2大，將任務(wù)平均分配給盡可能多的處理機(jī)進(jìn)行處理，能獲得最短處理時(shí)間。如果R/C比臨界值M/2小，即使有很多臺(tái)處理機(jī)可供使用，也不可能比用一臺(tái)處理機(jī)處理全部任務(wù)快。36并行系統(tǒng)的加速比是一個(gè)計(jì)算問(wèn)題在一臺(tái)處理機(jī)上的運(yùn)行時(shí)間與在并行系統(tǒng)上的運(yùn)行時(shí)間的

24、比值，可近似如下：多處理機(jī)的Cache一致性（自己看）37多處理機(jī)系統(tǒng)主要有四大類：(1) 多向量處理機(jī)系統(tǒng)：如CRAY YMP-90, NEC SX-3和FUJITSU VP-2000(2) SMP (Symmetry MultiProcessors)對(duì)稱多處理機(jī);SMP (Shared Memory MulptiProcessors)共享存儲(chǔ)多處理機(jī) 如SGI Challenge，Sun SparcCenter 2000(3) MPP (massively parallel processing)大規(guī)模并行處理機(jī)如Intel Paragon, CM-5, Cray T3D(4) Clust

25、er 機(jī)群系統(tǒng)（NOW或COM）多處理機(jī)實(shí)例38科學(xué)計(jì)算中的重大課題要求提供3T性能：(1) 1 Teraflops計(jì)算能力(2) 1 Terabyte主存儲(chǔ)器(3) 1 Terabyte/s 輸入輸出頻帶寬度目前，速度還慢1000倍左右，存儲(chǔ)容量和I/O帶寬差距更大?？茖W(xué)計(jì)算中的重大課題：全球氣候預(yù)報(bào), 基因工程 ,飛行動(dòng)力學(xué) ,海洋環(huán)流, 流體動(dòng)力學(xué), 超導(dǎo)建模, 半導(dǎo)體建模, 量子染色動(dòng)力學(xué), 視覺(jué)采用的關(guān)鍵技術(shù)：VLSI, 可擴(kuò)展技術(shù), 共享虛擬存儲(chǔ)技術(shù) 大規(guī)模并行處理機(jī)(MPP)39虛擬共享存儲(chǔ)器(Shared Virtual Memory)也稱為共享分布存儲(chǔ)器(Distribut

26、ed Shared Memory)；物理上分布存儲(chǔ)器，邏輯上共享存儲(chǔ)器。虛擬共享存儲(chǔ)器的優(yōu)點(diǎn)：編程容易, 系統(tǒng)結(jié)構(gòu)靈活可擴(kuò)充性好, 有較好的軟件移植性與消息傳遞方式相比，程序運(yùn)行效率高，主要原因：(1) 數(shù)據(jù)塊緩存在本地 (內(nèi)存或Cache中), 可以多次使用(2) 通信時(shí)間分散，提高了并行性(3) 擴(kuò)大存儲(chǔ)空間，減少換頁(yè)操作虛擬共享存儲(chǔ)器實(shí)現(xiàn)途徑：(1) 硬件實(shí)現(xiàn), 利用Cache技術(shù)。需要增加專用硬件(2) 操作系統(tǒng)和庫(kù)實(shí)現(xiàn)，通過(guò)虛擬存儲(chǔ)機(jī)制取得共享和一致性。在松耦合的分布存儲(chǔ)多處理機(jī)上，不需要增加任何硬件(3) 編譯實(shí)現(xiàn)，自動(dòng)將共享訪問(wèn)轉(zhuǎn)換成同步和一致原語(yǔ)。大多數(shù)系統(tǒng)采用途徑(1)和(2

27、)，或這兩種途徑結(jié)合實(shí)現(xiàn)40SMP稱為共享存儲(chǔ)多處理機(jī) (Shared Memory mulptiProcessors),也稱為對(duì)稱多處理機(jī) (Symmetry MultiProcessors)有三種模型：(1) UMA多處理機(jī)均勻存儲(chǔ)器存取模型 (Uniform Memory Access)存儲(chǔ)器被所有處理機(jī)均勻共享所有處理機(jī)對(duì)所有存儲(chǔ)單元具有相同的存取時(shí)間每臺(tái)處理機(jī)有局部Cache外圍設(shè)備可以共享(2) NUMA多處理機(jī)非均勻存儲(chǔ)器存取 (Nonuniform Memory Access)模型存儲(chǔ)器訪問(wèn)時(shí)間隨存儲(chǔ)單元的位置不同而變化。共享存儲(chǔ)器在物理上是分布在所有處理機(jī)中的本地存儲(chǔ)器。所有

28、局部存儲(chǔ)器地址空間的集合就組成了全局地址空間。對(duì)稱多處理機(jī) (SMP)41系統(tǒng)互連網(wǎng)絡(luò)NUMA多處理機(jī)模型P1LM1P2LM2PnLMn系統(tǒng)互連網(wǎng)絡(luò)（總線、交叉開(kāi)關(guān)、多級(jí)網(wǎng)絡(luò)）UMA多處理機(jī)模型P1P2PnSM1SM2SM2I/O42處理機(jī)訪問(wèn)本地存儲(chǔ)器比較快，訪問(wèn)屬于另一臺(tái)處理機(jī)的遠(yuǎn)程存儲(chǔ)器則比較慢，因?yàn)橥ㄟ^(guò)互連網(wǎng)絡(luò)會(huì)產(chǎn)生附加的時(shí)間延遲。(3) COMA多處理機(jī)只有Cache的存儲(chǔ)器結(jié)構(gòu) (Cache-Only Memory Architecture) 模型；COMA是一種只用Cache的多處理機(jī)系統(tǒng)實(shí)際上，COMA模型是NUMA模型的一種特例，后者分布存儲(chǔ)器換成了Cache在每個(gè)處理機(jī)結(jié)點(diǎn)

29、上沒(méi)有主存儲(chǔ)器，全部Cache組成了全局虛擬地址空間遠(yuǎn)程Cache訪問(wèn)通過(guò)分布Cache目錄進(jìn)行共享存儲(chǔ)系統(tǒng)擁有統(tǒng)一的尋址空間，程序員不必參與數(shù)據(jù)分配和傳輸。43互連網(wǎng)絡(luò)COMA多處理機(jī)模型D1Cache1P1D2Cache2P2DnCachenPn441、機(jī)群系統(tǒng)的組成機(jī)群系統(tǒng)是利用高速網(wǎng)絡(luò)將一組高性能工作站或高檔PC機(jī)連接起來(lái)，在并行程序設(shè)計(jì)以及可視化人機(jī)交互集成開(kāi)發(fā)環(huán)境支持下，統(tǒng)一調(diào)度，協(xié)調(diào)處理，實(shí)現(xiàn)高效并行處理的系統(tǒng)。Cluster、NOW、COW從結(jié)構(gòu)和結(jié)點(diǎn)間的通信方式來(lái)看，屬于分布存儲(chǔ)系統(tǒng)。機(jī)群系統(tǒng)中的主機(jī)和網(wǎng)絡(luò)可以是同構(gòu)的，也可以是異構(gòu)的。微處理機(jī)技術(shù)、網(wǎng)絡(luò)技術(shù)和并行編程環(huán)境的發(fā)

30、展使得機(jī)群系統(tǒng)這一新的并行處理系統(tǒng)形式正成為當(dāng)前研究的熱點(diǎn)。(1)微處理器的性能不斷提高。(2)網(wǎng)絡(luò)技術(shù)的進(jìn)步使得松散耦合系統(tǒng)的通信瓶頸逐步得到緩解。機(jī)群系統(tǒng) (Cluster)45(3)并行編程環(huán)境的開(kāi)發(fā)使得新編并行程序或改寫串行程序更為容易。2、機(jī)群系統(tǒng)的特點(diǎn)(1)系統(tǒng)開(kāi)發(fā)周期短。(2)用戶投資風(fēng)險(xiǎn)小。(3)系統(tǒng)價(jià)格低。(4)節(jié)約系統(tǒng)資源。UC Berkeley計(jì)算機(jī)系100多臺(tái)工作站的使用情況調(diào)查表明，一般單機(jī)系統(tǒng)的使用率不到10%，而機(jī)群系統(tǒng)中的資源利用率可達(dá)到80%左右。(5)系統(tǒng)擴(kuò)展性好。(6)用戶編程方便。463、機(jī)群系統(tǒng)的關(guān)鍵技術(shù)(1)高效的通信系統(tǒng)在用戶空間實(shí)現(xiàn)通信協(xié)議精簡(jiǎn)通信協(xié)議Active Message通信機(jī)制(2) 并行程序設(shè)計(jì)環(huán)境PVM(Parallel Virtual Machine)開(kāi)始于1989年夏天,美國(guó)橡樹(shù)嶺國(guó)家實(shí)驗(yàn)室(ORNL)；是一套并行計(jì)算工具軟件，支持多用戶及多任務(wù)運(yùn)行；支持多種結(jié)構(gòu)的計(jì)算機(jī)，工作站、并行機(jī)以及向量機(jī)等；支持C、C+和Fortran語(yǔ)言；自由軟件，使用非常廣泛；編程模型可以是SPMD或MPMD；具有容錯(cuò)功能，當(dāng)發(fā)現(xiàn)一個(gè)結(jié)點(diǎn)出故障時(shí)，自動(dòng)將之刪除MPI(Message Passing Interface)在1992年11月至1994年元月產(chǎn)生。47能用于大多數(shù)并行計(jì)算

人人文庫(kù)> 全部分類> 教育資料 > 課件下載

溫馨提示

1. 本站所有資源如無(wú)特殊說(shuō)明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽，若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間，僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理，對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容，請(qǐng)與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

并行處理機(jī)和多處理機(jī)

文檔簡(jiǎn)介

溫馨提示

最新文檔

評(píng)論

并行處理機(jī)和多處理機(jī)

文檔簡(jiǎn)介

溫馨提示

最新文檔

評(píng)論

相關(guān)文檔