計(jì)算機(jī)系統(tǒng)結(jié)構(gòu)課件第八章并行處理機(jī)(廣工)_第1頁(yè)
計(jì)算機(jī)系統(tǒng)結(jié)構(gòu)課件第八章并行處理機(jī)(廣工)_第2頁(yè)
計(jì)算機(jī)系統(tǒng)結(jié)構(gòu)課件第八章并行處理機(jī)(廣工)_第3頁(yè)
計(jì)算機(jī)系統(tǒng)結(jié)構(gòu)課件第八章并行處理機(jī)(廣工)_第4頁(yè)
計(jì)算機(jī)系統(tǒng)結(jié)構(gòu)課件第八章并行處理機(jī)(廣工)_第5頁(yè)
已閱讀5頁(yè),還剩73頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶(hù)提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、tiger September 20161計(jì)算機(jī)系統(tǒng)結(jié)構(gòu)n第一章 基本概念n第二章 指令系統(tǒng)n第三章 存儲(chǔ)系統(tǒng)n第四章 輸入輸出系統(tǒng)*n第五章 標(biāo)量處理機(jī)n第六章 向量處理機(jī)*n第七章 互連網(wǎng)絡(luò)n第八章 并行處理機(jī)n第九章 多處理機(jī)tiger September 201620,1-TFlops(1000TFlops,千萬(wàn)億次)nz060809.ppt0,1開(kāi)關(guān)/高低電平,傳送=線,存=晶體管,處理=門(mén)計(jì)組- 馮諾依曼計(jì)算機(jī)指令周期計(jì)組- 并行流水線,超標(biāo)量,超流水線 系統(tǒng)結(jié)構(gòu)1-5章- TFlops(1000TFlops, 千萬(wàn)億次)向量處理機(jī),并行處理機(jī),多處理機(jī)系統(tǒng)結(jié)構(gòu)6-9章- .tig

2、er September 20163第八章 SIMD計(jì)算機(jī)(并行處理機(jī))n8.1 SIMD計(jì)算機(jī)模型n8.2 SIMD計(jì)算機(jī)基本結(jié)構(gòu)n8.3 SIMD計(jì)算機(jī)實(shí)例n8.4 SIMD計(jì)算機(jī)的應(yīng)用*n8.5 連續(xù)模型的結(jié)構(gòu)向何處發(fā)展*tiger September 20164第八章 SIMD計(jì)算機(jī)(并行處理機(jī))n兩種并行性概念n同時(shí)性并行Simultaneity: 兩個(gè)或兩個(gè)以上事件在同一時(shí)刻發(fā)生n并發(fā)性并行Concurrency: 兩個(gè)或兩個(gè)以上事件在同一時(shí)間間隔內(nèi)發(fā)生n三條技術(shù)途徑n資源重復(fù)(空間并行性,同時(shí)性并行): 重復(fù)設(shè)置多個(gè)處理部件來(lái)提高速度n時(shí)間重疊(時(shí)間并行性,并發(fā)性并行): 流水線

3、n資源共享: 分時(shí)系統(tǒng),分布式系統(tǒng)n時(shí)間-空間關(guān)系n資源重復(fù)(空間并行性,同時(shí)性并行): 增加空間以多個(gè)空間容納多條指令n時(shí)間重疊(時(shí)間并行性,并發(fā)性并行): 細(xì)分空間以多個(gè)子空間容納多條指令tiger September 201658.1 并行處理機(jī)模型n并行處理機(jī)定義n多個(gè)PE按照一定方式互連,在同一個(gè)CU控制下,對(duì)各自的數(shù)據(jù)完成同一條指令規(guī)定的操作n從CU看,指令串行執(zhí)行,從PE看,數(shù)據(jù)并行處理n并行處理機(jī)也稱(chēng)為陣列處理機(jī)n以單一控制部件控制下的多個(gè)處理單元構(gòu)成的陣列n按照Flynn分類(lèi)法,屬于SIMD計(jì)算機(jī)n主要應(yīng)用領(lǐng)域-高速向量或矩陣運(yùn)算tiger September 20166P0

4、M0PE0P1M1PE1P2M2PE2Pn-1Mn-1PEn-1互連網(wǎng)絡(luò)CUHJSiegel提出的并行處理機(jī)模型并行處理機(jī)的操作模型tiger September 20167并行處理機(jī)的操作模型n并行處理機(jī)的操作模型可用五元組來(lái)表示M=(N,C,I,M,R)nN為PE個(gè)數(shù)n如Illiac IV有64個(gè)PEnC為由控制部件CU直接執(zhí)行的指令集n包括標(biāo)量指令和程序控制指令nI為所有PE并行執(zhí)行的指令集n包括算術(shù)運(yùn)算、邏輯運(yùn)算、數(shù)據(jù)尋徑、屏蔽及其它每個(gè)活動(dòng)的PE對(duì)它的數(shù)據(jù)所執(zhí)行的局部操作nM為屏蔽操作集n每種屏蔽將PE劃分為允許操作和禁止操作兩個(gè)子集nR是數(shù)據(jù)尋徑集n互連網(wǎng)絡(luò)中PE間通信所需要的各種

5、設(shè)置模式tiger September 20168MasPar MP-1的操作特性n(1)是一臺(tái)具體的SIMD機(jī)器, N=1024至16384。實(shí)際PE數(shù)目與機(jī)器配置有關(guān)n(2)CU執(zhí)行標(biāo)量指令,譯碼后的向量指令廣播到PE陣列,并控制PE間的通信n(3)每個(gè)PE都是基于Load/Store結(jié)構(gòu)的RISC處理機(jī),PE從CU接受指令,能執(zhí)行整數(shù)運(yùn)算和標(biāo)準(zhǔn)浮點(diǎn)運(yùn)算n(4)屏蔽指令設(shè)在每個(gè)PE中,并由CU連續(xù)監(jiān)控。它能在運(yùn)行時(shí)動(dòng)態(tài)地使每個(gè)PE處于置位或復(fù)位狀態(tài)n(5)有一個(gè)X-Net網(wǎng)格網(wǎng)絡(luò)和一個(gè)全局多級(jí)交叉開(kāi)關(guān)尋徑器,實(shí)現(xiàn)CU和PE之間、X-Net的8個(gè)近鄰之間和全局尋經(jīng)器的通信tiger Sept

6、ember 201693種SIMD計(jì)算機(jī)nMP-1n每個(gè)PE裝有1位邏輯單元、4位整數(shù)ALU、64位尾數(shù)部件和16位指數(shù)部件nMP-1是中粒度并行處理機(jī)n每個(gè)PE比較簡(jiǎn)單,可將幾個(gè)PE 做在一個(gè)芯片nMP-1的每個(gè)芯片有32個(gè)PE,每個(gè)PE有40個(gè)32位寄存器n32個(gè)PE用X-Net網(wǎng)絡(luò)互相連接,是一種對(duì)角線雙級(jí)鏈路擴(kuò)展的4-鄰網(wǎng)nCM-2n在一個(gè)芯片上將16個(gè)PE連成網(wǎng)格網(wǎng)絡(luò)n每個(gè)16-PE網(wǎng)的芯片安置在12維超立方體的頂角n16212=216=65536個(gè)PE組成了整個(gè)SIMD陣列nDAP 610n在一個(gè)芯片上實(shí)現(xiàn)一個(gè)64-PE的網(wǎng)格網(wǎng)絡(luò)n再由這些芯片上小網(wǎng)格互相連接組成一個(gè)大網(wǎng)格(646

7、4)tiger September 2016103種SIMD計(jì)算機(jī)nPE數(shù)從DAP 610的4096到MasPar MP-1的16384和CM-2的65536nPE都帶有浮點(diǎn)加速器nPE有細(xì)粒度和中粒度之分nCM-2與DAP610都是細(xì)粒度、位片式SIMD計(jì)算機(jī)nMP-1是中粒度SIMD機(jī)tiger September 201611表8.1 3種SIMD計(jì)算機(jī)Active Memory Technology DAP600系列1K位/PE方形網(wǎng)格互連成4096PE的細(xì)粒度、位片SIMD陣列,正交4-鄰位鏈接,20GIPS和560Mflops峰值性能由主機(jī)VAX/VMS或UNIX Fortran-

8、plus 或DAP上APAL提供,主機(jī)的Fortran77或C; 與Fortran90標(biāo)準(zhǔn)有關(guān)的Fortran-plusThinking Machines公司CM-265536個(gè)PE排成12維超立方體, 每個(gè)PE可有1M位存儲(chǔ)器, 32個(gè)PE共享FPU選件, 峰值速度28Gflops和持續(xù)速度5.6Gflops由VAX, Sun或Symbolics 360主機(jī)驅(qū)動(dòng), PARIS支持的Lisp編譯器、Fortran90、C*和*Lisp系統(tǒng)型號(hào)SIMD計(jì)算系統(tǒng)結(jié)構(gòu)和性能語(yǔ)言、編譯器和軟件支持MasParMP-1系列102416384個(gè)PE, 26GIPS或1.3Gflops; 每個(gè)PE帶16KB

9、本地存儲(chǔ)器, X-Net網(wǎng)格加一個(gè)多級(jí)交叉開(kāi)關(guān)互連網(wǎng)Fortran77, MasPar Fortran (MPF)和MasPar并行應(yīng)用語(yǔ)言; X窗口UNIX/OS, 符號(hào)調(diào)試程序, 可視化和動(dòng)畫(huà)制作程序tiger September 2016128.2 并行處理機(jī)的基本結(jié)構(gòu)n并行處理機(jī)有兩種典型結(jié)構(gòu)n分布式存儲(chǔ)器結(jié)構(gòu)n共享存儲(chǔ)器結(jié)構(gòu)n一臺(tái)并行處理機(jī)由五個(gè)部分組成n多個(gè)處理單元PEn多個(gè)存儲(chǔ)器模塊Mn一個(gè)控制器CUn一個(gè)互連網(wǎng)絡(luò)ICNn一臺(tái)輸入輸出處理機(jī)IOPtiger September 2016138.2.1 分布式存儲(chǔ)器結(jié)構(gòu)n目前的大部分并行處理機(jī)基于分布式存儲(chǔ)器模型n比較容易構(gòu)成MPP

10、(Massively Parallel Processor,大規(guī)模并行處理機(jī)),幾十萬(wàn)個(gè)PEn必須依靠并行算法來(lái)提高PE的利用率, 應(yīng)用領(lǐng)域很有限nCU是控制部件,執(zhí)行標(biāo)量指令,并把向量指令廣播到各個(gè)PEnCU中通常有一個(gè)較大容量的存儲(chǔ)器nIOP是輸入輸出處理機(jī),或稱(chēng)為主機(jī)n在IOP上安裝操作系統(tǒng),負(fù)擔(dān)輸入輸出工作,還負(fù)責(zé)程序的編輯、編譯和調(diào)試等工作n數(shù)據(jù)在局部存儲(chǔ)器LM中的分布是一個(gè)很關(guān)鍵的問(wèn)題n標(biāo)量指令與向量指令可并發(fā)執(zhí)行tiger September 201614LM0互連網(wǎng)絡(luò)PE0CULM1PE1LMn-1PEn-1IOP圖8.2 分布式存儲(chǔ)器的SIMD計(jì)算機(jī)tiger Septemb

11、er 201615分布式存儲(chǔ)器的SIMD計(jì)算機(jī)n包含重復(fù)設(shè)置的多個(gè)同樣的處理單元PEn通過(guò)數(shù)據(jù)尋徑網(wǎng)絡(luò)以一定方式互相連接n每個(gè)PE有各自的本地存儲(chǔ)器LMn在統(tǒng)一的陣列控制部件CU作用下,實(shí)現(xiàn)并行操作n程序和數(shù)據(jù)通過(guò)主機(jī)裝入控制存儲(chǔ)器n通過(guò)控制部件的是單指令流,指令的執(zhí)行順序與單處理機(jī)一樣,基本上是串行執(zhí)行n指令送到控制部件進(jìn)行譯碼n標(biāo)量操作或控制操作,直接由與控制部件相連的標(biāo)量處理機(jī)執(zhí)行n向量操作,廣播到所有PE并行執(zhí)行tiger September 201616分布式存儲(chǔ)器的SIMD計(jì)算機(jī)n數(shù)據(jù)分布存放在所有PE的本地存儲(chǔ)器nPE通過(guò)數(shù)據(jù)尋徑網(wǎng)絡(luò)互連n數(shù)據(jù)尋徑網(wǎng)絡(luò)執(zhí)行PE間的通信n如移數(shù)、置

12、換和其它尋徑操作n控制部件通過(guò)執(zhí)行程序來(lái)控制數(shù)據(jù)尋徑網(wǎng)絡(luò)nPE的同步由控制部件的硬件實(shí)現(xiàn)n所有PE在同一個(gè)周期執(zhí)行同一條指令n用屏蔽邏輯來(lái)決定任何一個(gè)PE在給定的指令周期執(zhí)行或不執(zhí)行指令nSIMD機(jī)器的主要差別在于PE間互相通信的數(shù)據(jù)尋徑網(wǎng)絡(luò)不同n4-鄰連接網(wǎng)格結(jié)構(gòu)在過(guò)去最受歡迎nIlliac IV由64個(gè)有本地存儲(chǔ)器的PE組成、PE間通過(guò)88環(huán)繞連接網(wǎng)格實(shí)現(xiàn)互連nGoodyear MPP和AMT DAP610用兩維網(wǎng)格實(shí)現(xiàn)nCM-2實(shí)現(xiàn)的嵌在網(wǎng)格中的超立方體和MasPar MP-1實(shí)現(xiàn)的X-Net加多級(jí)交叉開(kāi)關(guān)的尋徑器都由網(wǎng)格演變而來(lái)tiger September 2016178.2.2 共

13、享存儲(chǔ)器結(jié)構(gòu)n共享的多體并行存儲(chǔ)器SM通過(guò)互連網(wǎng)絡(luò)與各處理單元PE相連n存儲(chǔ)模塊的數(shù)目等于或略大于處理單元的數(shù)目n靈活、高速的互連網(wǎng)絡(luò)在存儲(chǔ)器與處理單元間傳送數(shù)據(jù)n存儲(chǔ)模塊之間合理分配數(shù)據(jù)n大多數(shù)向量運(yùn)算能以存儲(chǔ)器的最高頻率進(jìn)行,少受存儲(chǔ)沖突的影響n(yōu)共享存儲(chǔ)器并行處理機(jī)模型在處理單元數(shù)目不太大的情況下很理想nBurroughs Scientific Processor (BSP)采用了這種結(jié)構(gòu)n16個(gè)PE通過(guò)一個(gè)1617的對(duì)準(zhǔn)互連網(wǎng)絡(luò)(ch03p146,ch07)訪問(wèn)17個(gè)共享存儲(chǔ)器模塊n存儲(chǔ)器模塊數(shù)與PE數(shù)互質(zhì)可實(shí)現(xiàn)無(wú)沖突并行訪問(wèn)存儲(chǔ)器tiger September 201618PE0互連網(wǎng)

14、絡(luò)CUPE1PEn-1IOPSM0SM1SMk-1圖8.3 共享存儲(chǔ)器的SIMD計(jì)算機(jī)tiger September 201619不同存儲(chǔ)方案的比較n互連網(wǎng)絡(luò)的存在是必要的n共享存儲(chǔ)器方案中,是存儲(chǔ)器與處理單元之間的必由之路n分布存儲(chǔ)器方案中,處理單元所需數(shù)據(jù)在大多數(shù)情況下都由本地存儲(chǔ)器提供,處理單元間的數(shù)據(jù)傳送必不可少n圖8.2中,各處理單元PE之間可經(jīng)兩條途徑相互聯(lián)系n一條直接通過(guò)數(shù)據(jù)尋徑網(wǎng)絡(luò)n另一條是數(shù)據(jù)從LM讀至陣列控制部件,然后通過(guò)公共數(shù)據(jù)總線廣播到全部PEn處理單元數(shù)目很多的并行處理機(jī)中,PE之間的直接數(shù)據(jù)通路很有限,這決定了系統(tǒng)的固定結(jié)構(gòu)和專(zhuān)用處理機(jī)的性質(zhì)。這種局限性需要從互連網(wǎng)

15、絡(luò)的研究中得到解決tiger September 201620與向量處理機(jī)的比較n與第六章的向量處理機(jī)相比,共同之處是都執(zhí)行向量指令nSIMD計(jì)算機(jī)對(duì)向量的分量進(jìn)行算術(shù)、邏輯、數(shù)據(jù)尋徑和屏蔽操作n位片SIMD計(jì)算機(jī)中的向量是二進(jìn)制向量。在字并行SIMD計(jì)算機(jī)中向量的分量是4字節(jié)或8字節(jié)的數(shù)nSIMD處理機(jī)的指令須使用長(zhǎng)度為n的向量操作數(shù),其中n是PE的個(gè)數(shù)nSIMD指令與流水線向量處理機(jī)的指令類(lèi)似,不同之處是多PE的空間并行性代替了流水線的時(shí)間并行性n數(shù)據(jù)尋徑指令包括置換、廣播、選播以及循環(huán)和移數(shù)操作n在任何指令周期,屏蔽操作可允許或禁止某些PE參加運(yùn)算nSIMD結(jié)構(gòu)的所有I/O動(dòng)作都由主機(jī)承

16、擔(dān)n主機(jī)和陣列控制部件間有一個(gè)專(zhuān)用的控制存儲(chǔ)器,是一個(gè)存放程序和數(shù)據(jù)的中間存儲(chǔ)器n啟動(dòng)程序之前,把劃分好的數(shù)據(jù)集合分布到本地存儲(chǔ)器或共享存儲(chǔ)器模塊n主機(jī)管理大容量存儲(chǔ)器或計(jì)算結(jié)果的圖形顯示n在控制部件的協(xié)調(diào)下,標(biāo)量處理機(jī)與PE陣列并發(fā)地運(yùn)算tiger September 2016218.2.3 并行處理機(jī)的特點(diǎn)n并行處理機(jī)的主要特點(diǎn)n速度快,而且潛力大n模塊性好,生產(chǎn)和維護(hù)方便n可靠性高,容易實(shí)現(xiàn)容錯(cuò)和重構(gòu)n效率低(與流水線處理機(jī)、向量處理機(jī)等比較)n通常作為專(zhuān)用計(jì)算機(jī),很大程度上依賴(lài)于并行算法n依靠的是資源重復(fù),而不是時(shí)間重疊,每個(gè)處理單元要擔(dān)負(fù)多種處理功能,效率要低一些n依靠增加PE個(gè)數(shù),

17、與流水線處理機(jī)主要依靠縮短時(shí)鐘周期相比,提高速度的潛力要大得多n依賴(lài)于互連網(wǎng)絡(luò)和并行算法n互連網(wǎng)絡(luò)決定了PE之間的連接模式,也決定了并行處理機(jī)能夠適應(yīng)的算法n需要有一臺(tái)高性能的標(biāo)量處理機(jī)n如果一臺(tái)機(jī)器的向量處理速度極高,但標(biāo)量處理速度只是每秒一百萬(wàn)次,那么對(duì)于標(biāo)量運(yùn)算占10%的應(yīng)用來(lái)說(shuō),總的有效速度就不過(guò)是每秒一千萬(wàn)次tiger September 2016221 高速數(shù)值計(jì)算nSIMD計(jì)算機(jī)與流水線向量處理機(jī)一樣,特別適于高速數(shù)值計(jì)算n以有限差分、矩陣、信號(hào)處理、線性規(guī)劃等計(jì)算問(wèn)題為背景而發(fā)展起來(lái)n這些問(wèn)題的共同特點(diǎn)是能夠通過(guò)各種途徑歸結(jié)為數(shù)組和向量處理nSIMD計(jì)算機(jī)效率取決于計(jì)算程序向量

18、化的程度n與按多指令流多數(shù)據(jù)流方式工作的多處理機(jī)相比,具有較固定的結(jié)構(gòu),直接與一定的算法相聯(lián)系n通過(guò)改進(jìn)系統(tǒng)結(jié)構(gòu)和制定并行算法,使可能適應(yīng)的計(jì)算問(wèn)題類(lèi)型盡量廣一些、多一些n應(yīng)該把系統(tǒng)結(jié)構(gòu)的研究和算法的研究結(jié)合起來(lái)tiger September 2016232 利用大量處理單元對(duì)向量各個(gè)分量同時(shí)進(jìn)行運(yùn)算nSIMD計(jì)算機(jī)利用大量處理單元對(duì)向量所包含的各個(gè)分量同時(shí)進(jìn)行運(yùn)算,是它獲得很高處理速度的主要原因n與同樣擅長(zhǎng)于向量處理的流水線向量處理機(jī)相比,SIMD計(jì)算機(jī)依靠的并行措施是資源重復(fù),而不是時(shí)間重疊n每個(gè)處理單元要擔(dān)負(fù)多種處理功能,相當(dāng)于流水線向量處理機(jī)的多功能流水線部件(如在TI ASC機(jī)中),

19、效率比多個(gè)單功能流水線部件(如在Cray-1機(jī)中)要低一些n在硬件價(jià)格大幅度下降,系統(tǒng)結(jié)構(gòu)的不斷改進(jìn),SIMD計(jì)算機(jī)才具有較好的性能價(jià)格比nSIMD計(jì)算機(jī)主要依靠增多處理單元的個(gè)數(shù)提高運(yùn)算速度,與流水線處理機(jī)主要依靠縮短時(shí)鐘周期相比,其提高速度的潛力要大得多n如果有很好的互連網(wǎng)絡(luò)相配合,則多處理單元的功能和靈活性將會(huì)更強(qiáng)一些n如時(shí)鐘周期為160ns、包含16個(gè)處理單元的BSP SIMD計(jì)算機(jī)取得的運(yùn)算速度,能與時(shí)鐘周期為12.5ns、包含12條單功能流水線的Cray-1流水線向量處理機(jī)相當(dāng)tiger September 2016243 SIMD計(jì)算機(jī)的互連網(wǎng)絡(luò)nSIMD計(jì)算機(jī)機(jī)與流水線向量處理

20、機(jī)的另一區(qū)別是互連網(wǎng)絡(luò)n是由多處理單元這一特點(diǎn)所決定n目前的SIMD計(jì)算機(jī)采用的互連網(wǎng)絡(luò)還比較簡(jiǎn)單,但它是SIMD計(jì)算機(jī)最有特色的一個(gè)組成部分n互連網(wǎng)絡(luò)規(guī)定處理單元的連接模式, 決定SIMD計(jì)算機(jī)能適應(yīng)的算法類(lèi)別,對(duì)整個(gè)系統(tǒng)的各項(xiàng)性能指標(biāo)產(chǎn)生重要的影響n(yōu)是SIMD計(jì)算機(jī)結(jié)構(gòu)的研究重點(diǎn),是多處理機(jī)的重要組成部分tiger September 2016254 實(shí)際有效速度的其他決定因素n以向量處理為主的SIMD計(jì)算機(jī)除向量運(yùn)算速度以外,整個(gè)系統(tǒng)的實(shí)際有效速度的另外兩個(gè)決定因素n一是標(biāo)量運(yùn)算速度n二是編譯過(guò)程的開(kāi)銷(xiāo)n提高SIMD計(jì)算機(jī)處理標(biāo)量和短向量的能力很重要n流水線的向量處理機(jī)處理短向量時(shí),流水

21、線建立和排空時(shí)間的比例加大nSIMD計(jì)算機(jī)中短向量對(duì)速度影響較小,但降低了處理效率n如果某一臺(tái)機(jī)器的向量處理速度極高,甚至是不受限制的,但標(biāo)量處理速度只是每秒一百萬(wàn)次浮點(diǎn)運(yùn)算,那么對(duì)于標(biāo)量運(yùn)算占10%的題目來(lái)說(shuō),總的有效速度就不過(guò)是每秒一千萬(wàn)次浮點(diǎn)運(yùn)算n編譯時(shí)間,與系統(tǒng)結(jié)構(gòu),與機(jī)器語(yǔ)言有密切的關(guān)系n要提高SIMD計(jì)算機(jī)的通用性,建立一個(gè)具有向量化功能的高級(jí)語(yǔ)言編譯程序十分必要tiger September 2016265 SIMD計(jì)算機(jī)基本上是一臺(tái)向量處理專(zhuān)用計(jì)算機(jī)nSIMD計(jì)算機(jī)基本上是一臺(tái)向量處理專(zhuān)用計(jì)算機(jī)n有一個(gè)功能很強(qiáng)的控制部件起著標(biāo)量處理機(jī)的作用n仍須有一臺(tái)高性能單處理機(jī)擔(dān)負(fù)系統(tǒng)的全

22、部管理功能n根據(jù)功能專(zhuān)用化的原則組成一個(gè)異構(gòu)型多計(jì)算機(jī)系統(tǒng)n向量處理部件是系統(tǒng)的主體n高性能單處理機(jī)可視為它的前端機(jī),用來(lái)分擔(dān)部分功能,以便充分發(fā)揮主體的向量處理效率n流水線向量處理機(jī)則有一些不同n有些向量處理機(jī)接到主機(jī)上執(zhí)行主機(jī)的一些有關(guān)操作或子程序,分擔(dān)主機(jī)的部分功能,提高主機(jī)的有效運(yùn)算速度, 起著后端處理機(jī)的作用,不能被認(rèn)為是系統(tǒng)的主體n在流水線向量處理機(jī)中,CDC STAR100、和Cray-1等巨型計(jì)算機(jī)本身被認(rèn)為是完整的通用計(jì)算機(jī)系統(tǒng)nAP120B、IBM3838等專(zhuān)用浮點(diǎn)數(shù)組處理機(jī)是后端處理機(jī)tiger September 2016278.3 并行處理機(jī)實(shí)例nIlliac IV

23、是最先采用SIMD結(jié)構(gòu)的并行處理機(jī)n采用陣列結(jié)構(gòu)分布存儲(chǔ)器n一個(gè)方向是用位片PE制造的SIMD計(jì)算機(jī)nGoodyear MPP、AMT/DAP 610和TMC/CM-2nCM-5是以SIMD模式運(yùn)行的同步MIMD計(jì)算機(jī)n另一方向是用字寬運(yùn)算PE的中粒度SIMD計(jì)算機(jī)nBSP是16臺(tái)處理機(jī)和17個(gè)存儲(chǔ)模塊同步工作的共享存儲(chǔ)器SIMD計(jì)算機(jī)nGF-11是IBM Watson實(shí)驗(yàn)室研制、作科學(xué)模擬研究nMasPar MP-1是中粒度SIMD計(jì)算機(jī)tiger September 201628并行處理機(jī)的兩個(gè)發(fā)展方向n保留陣列結(jié)構(gòu),但每個(gè)處理單元的規(guī)模減小,如1bitnCM-2n去掉陣列結(jié)構(gòu)和分布存儲(chǔ)器

24、nBurroughs公司的BSP是典型代表Illiac IV1968Goodyear MPP1980BSP1982DAP 6101987CM21990CM51991IBM GF-111991MasPar MP-11991tiger September 2016298.3.1 Illiac IV 并行處理機(jī)n1963年,美國(guó)西屋電器公司提出“Slotnick,The SOLOMON Computer,Simultaneous Operation linked Ordinal Modular Network”n1966年美國(guó)國(guó)防遠(yuǎn)景研究規(guī)劃局ARPR與伊利諾依大學(xué)簽定合同n原計(jì)劃:256個(gè)PE,每

25、個(gè)PE每240ns處理一個(gè)64位的浮點(diǎn)數(shù),每個(gè)局部存儲(chǔ)器PEM為2Kx64位,總的運(yùn)算速度為1GFLOPSn美國(guó)Burroughs公司和伊利諾依大學(xué)于1972年共同設(shè)計(jì)和生產(chǎn),1975年實(shí)際投入運(yùn)行。用了4倍的經(jīng)費(fèi),只達(dá)到1/20的速度。只實(shí)現(xiàn)了8x8=64個(gè)PE,只達(dá)到50MFLOPSnIlliac IV系統(tǒng)的影響非常大n是并行處理機(jī)、分布存儲(chǔ)器并行處理機(jī)的典型代表tiger September 201630Illiac IV系統(tǒng)組成nIlliac IV系統(tǒng)由三大部分組成,是3種類(lèi)型處理機(jī)聯(lián)合組成的多機(jī)系統(tǒng) nIlliac IV處理機(jī)陣列(processing element array)n

26、8x8,包括PE、PEM和互連網(wǎng)絡(luò)n陣列控制器CU(array control unit)n處理單元陣列的控制部分,又可視為一臺(tái)相對(duì)獨(dú)立的小型標(biāo)量處理機(jī) n一臺(tái)標(biāo)準(zhǔn)的Burroughs B6700計(jì)算機(jī)n輸入輸出處理機(jī)和操作系統(tǒng)管理功能tiger September 201631圖8.5 Illiac IV系統(tǒng)總框圖tiger September 201632PEM63PEM0PEM1CUCDCBIOMB6700CPUB6700內(nèi)存B6700多路開(kāi)關(guān)B6700外圍設(shè)備IOS激光存儲(chǔ)器6464 X 8CU總線控制線模式位線APPA網(wǎng)接口1282561024I/O 總線CDBPE63PE01024

27、 實(shí) 時(shí) 裝 置48484848256PE0PE1PE63.DFS圖8.5 Illiac IV系統(tǒng)總框圖tiger September 2016331 Illiac IV陣列nIlliac IV處理陣列由8x8=64個(gè)PU組成。每個(gè)PU由處理部件PE和它的局部存儲(chǔ)器PEM組成n每一個(gè)PUi只和它的東、西、南、北四個(gè)近鄰直接連接PUi+1 mod 64,PUi-1 mod 64,PUi+8 mod 64,PUi-8 mod 64n南北方向上同一列的PU連成一個(gè)環(huán),東西方向上構(gòu)成一個(gè)閉合螺線n閉合螺線最短距離不超過(guò)7步。普通網(wǎng)格最短距離不超過(guò)8步nnn個(gè)單元組成的陣列,任意兩個(gè)單元之間的最短距離不

28、超過(guò)n-1步nPU0到PU36的距離:采用普通網(wǎng)格必須8步nPU0 PU1 PU2 PU3 PU4 PU12 PU20 PU28 PU36n或PU0PU8PU16PU24PU32PU33PU34PU35PU36n或 .(等于8步的很多,大于8步的更多)n采用閉合螺旋線,只需要7步nPU0PU63PU62PU61PU60PU52PU44PU36n或PU0PU63PU55PU47PU39PU38PU37PU36n或. PU56 PU57 PU63 PU63 2 3 4 5 6 PU8 PU8 10 11 12 13 14 PU16 16 17 18 19 20 21 22 23 24 25 26

29、27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 PU55 58 59 60 61 62 PU0 PU0 PU1 PU7PU0PU1PU8PU9PU56PU57PU7PU15PU63圖8.6 Illiac IV處理部件的連接tiger September 201635圖8.7 Illiac IV處理單元原理框圖tiger September 201636數(shù)組處理的運(yùn)算部分n處理單元可以對(duì)64位、32 位和8位操作數(shù)進(jìn)行多種算術(shù)和邏輯操作,也包括48位、24位或8位定點(diǎn)運(yùn)算

30、n將64個(gè)64位處理單元的硬件當(dāng)作64個(gè)64位、128個(gè)32位或512個(gè)8位的處理單元發(fā)揮作用n并行加法的速度為每秒1010次8位定點(diǎn)加法,或每秒150 x106次64位浮點(diǎn)加法tiger September 201637處理單元n有6個(gè)可編程序寄存器RGA、RGB、RGR、RGS、RGX和RGM,以及加/乘算術(shù)單元AU、邏輯單元LU、移位單元SU和地址加法器ADAnRGA是累加寄存器,存放第一操作數(shù)和操作結(jié)果nRGB是操作數(shù)寄存器,存放加、減、乘、除等二元操作的第2操作數(shù)nRGR是被乘數(shù)寄存器兼互連寄存器,經(jīng)過(guò)東、西、南、北4個(gè)互連路徑之一完成處理單元之間的數(shù)據(jù)直接傳送nRGS是通用寄存器,

31、可被程序用來(lái)暫存中間結(jié)果n4個(gè)寄存器都是64位n操作數(shù)來(lái)自4個(gè)方面:PU本身的寄存器;陣列存儲(chǔ)器;CU的公共數(shù)據(jù)總線;PE的4個(gè)近鄰n16位的RGX是變址寄存器,它利用地址加法器ADA修改指令地址,并將形成的有效地址經(jīng)過(guò)存儲(chǔ)器地址寄存器MAR輸往存儲(chǔ)器邏輯部件MLUtiger September 2016388位模式寄存器RGMnE和E1位是活動(dòng)標(biāo)志位n控制RGA、RGS和陣列存儲(chǔ)器的工作,E還控制RGXnPE以32位字長(zhǎng)運(yùn)算時(shí),E和E1是互相獨(dú)立的n64個(gè)處理單元中的每一個(gè)處理單元都可以進(jìn)行單獨(dú)控制。只有那些處于活動(dòng)狀態(tài)的處理單元才執(zhí)行單指令流規(guī)定的共同操作nF和F1位保存運(yùn)算結(jié)果出錯(cuò)(上溢

32、、下溢)標(biāo)志nG、H、I、J位保存測(cè)試結(jié)果nRGM處于CU的監(jiān)督之下,一旦出錯(cuò),就發(fā)出CU陷阱中斷nRGM處于程序員的控制之下,可根據(jù)其它幾個(gè)寄存器的內(nèi)容置為活動(dòng)或不活動(dòng)狀態(tài)n有一種指令能在RGR的內(nèi)容大于RGA的內(nèi)容時(shí)置該處理單元為不活動(dòng)狀態(tài)。n模式寄存器在陣列處理機(jī)中是必不可少的,它對(duì)增強(qiáng)陣列處理機(jī)的功能和結(jié)構(gòu)靈活性發(fā)揮著很大的作用tiger September 201639處理單元存儲(chǔ)器PEMn處理單元存儲(chǔ)器PEM分屬每一個(gè)處理單元,各有204864位的存儲(chǔ)容量和不大于350ns的取數(shù)時(shí)間n64個(gè)PEM聯(lián)合組成陣列存儲(chǔ)器,存放數(shù)據(jù)和指令n整個(gè)陣列存儲(chǔ)器可以接受控制器的訪問(wèn),讀出8個(gè)字的信

33、息塊到它的緩沖器中,也可經(jīng)過(guò)1024位的總線與I/O開(kāi)關(guān)相連n每一個(gè)處理單元只能訪問(wèn)自己的存儲(chǔ)器n分布在各個(gè)處理單元存儲(chǔ)器中的公共數(shù)據(jù),讀至控制器后,經(jīng)公共數(shù)據(jù)總線廣播到64個(gè)處理單元n節(jié)省存儲(chǔ)空間,且允許公共數(shù)據(jù)的存取與其它操作在時(shí)間上重疊n陣列存儲(chǔ)器就如同一個(gè)二維訪問(wèn)存儲(chǔ)器n把64個(gè)PEM看成列,把每一個(gè)PEM本身看成行nCU對(duì)它是按列訪問(wèn),PE對(duì)它是按行訪問(wèn)tiger September 201640陣列存儲(chǔ)器n陣列存儲(chǔ)器的另一個(gè)特點(diǎn)是它的雙重變址機(jī)構(gòu)n控制器實(shí)現(xiàn)所有處理單元的公共變址n每一個(gè)處理單元內(nèi)部還可以單獨(dú)變址n最終的操作數(shù)有效地址對(duì)PEi來(lái)說(shuō)由下式?jīng)Q定nai=a+(b)+(ci

34、) na是指令地址n(b)是CU中央變址寄存器內(nèi)容n(ci)是局部變址寄存器內(nèi)容n這種安排增加了各處理單元存儲(chǔ)器之間數(shù)據(jù)分配的靈活性,對(duì)于分別處理矩陣的行和列及其它維數(shù)結(jié)構(gòu)很有效nPE和PEM之間經(jīng)過(guò)存儲(chǔ)器邏輯部件MLU相連,它包含存儲(chǔ)器信息寄存器和有關(guān)控制邏輯線路,實(shí)現(xiàn)PEM分別和PE、CU以及I/O之間的信息傳送tiger September 2016412 陣列控制器n陣列控制器CU實(shí)際上是一臺(tái)小型控制計(jì)算機(jī)n對(duì)陣列處理單元實(shí)行控制和完成標(biāo)量操作n標(biāo)量操作與各PE的數(shù)組操作可以重疊執(zhí)行n控制器的功能n(1)對(duì)指令進(jìn)行譯碼,并執(zhí)行標(biāo)量指令n(2)向各處理單元發(fā)出執(zhí)行數(shù)組操作指令所需的控制信

35、號(hào)n(3)產(chǎn)生和向所有處理單元廣播公共的地址n(4)產(chǎn)生和向所有處理單元廣播公共的數(shù)據(jù)n(5)接收和處理PE、I/O操作及B6700產(chǎn)生的陷阱中斷信號(hào)tiger September 2016424條信息通路n(1) CU總線n處理單元存儲(chǔ)器PEM經(jīng)過(guò)CU總線把指令和數(shù)據(jù)送往陣列控制器,以8個(gè)64位字為一信息塊n指令是指分布存放在陣列存儲(chǔ)器中用戶(hù)程序的指令n數(shù)據(jù)可以是處理所需的公共數(shù)據(jù),先將它們送到CU,再利用CU的廣播功能送到各處理單元n(2) 公共數(shù)據(jù)總線CDB (Common Data Bus)nIBM 360 p311圖5.64n64位總線,用作向64個(gè)處理單元同時(shí)廣播公共數(shù)據(jù)的通路n作

36、為公共乘數(shù)的常數(shù)不必在64個(gè)PEM重復(fù)存放,可由CU的某個(gè)寄存器送往各處理單元n指令的操作數(shù)和地址部分也經(jīng)過(guò)CDB送來(lái)tiger September 2016434條信息通路n(3) 模式位線(mode bit line)n每一個(gè)單元都可經(jīng)模式位線把它的模式寄存器(mode register)狀態(tài)送到CU,送來(lái)的信息中包括該處理單元的活動(dòng)狀態(tài)位n只有那些處于活動(dòng)狀態(tài)的處理單元才執(zhí)行單指令流所規(guī)定的公共操作n從64個(gè)處理單元送往CU的模式位在CU的累加寄存器中拼成一個(gè)模式字n在CU內(nèi)部執(zhí)行一定的測(cè)試指令,對(duì)模式字進(jìn)行測(cè)試n根據(jù)測(cè)試結(jié)果控制要求的程序轉(zhuǎn)移動(dòng)作n(4) 指令控制線n處理單元微操作控制

37、信號(hào)和處理單元存儲(chǔ)器地址、讀/寫(xiě)控制信號(hào)n經(jīng)約200根指令控制線由CU送到陣列處理單元PE和存儲(chǔ)器邏輯部件MLUtiger September 2016443 輸入輸出系統(tǒng)nIlliac IV的輸入輸出系統(tǒng)的組成n磁盤(pán)文件系統(tǒng)DFSnI/O分系統(tǒng)n一臺(tái)B6700處理機(jī)tiger September 201645磁盤(pán)文件系統(tǒng)DFSn兩套大容量并行讀寫(xiě)磁盤(pán)系統(tǒng)及其相應(yīng)的控制器n每套有13臺(tái)磁盤(pán)機(jī),總?cè)萘繛?09位(=1Gb)n每臺(tái)磁盤(pán)機(jī)有128道,每道一個(gè)磁頭,并行讀寫(xiě),數(shù)據(jù)寬度為256位n最大傳輸率為502x106位/秒(=502Mb/s)n平均等待時(shí)間為19.6msn兩個(gè)通道同時(shí)發(fā)送或接收數(shù)據(jù)

38、時(shí),數(shù)據(jù)寬度為512位,最大傳輸率可達(dá)109位/秒(=1Gb/s)tiger September 201646I/O分系統(tǒng)n包括三部分n輸入/輸出開(kāi)關(guān)IOSn控制描述字控制器CDCn輸入/輸出緩沖存儲(chǔ)器BIOMnIOS的功能n作為名副其實(shí)的開(kāi)關(guān),把DFS或可能連上的實(shí)時(shí)裝置轉(zhuǎn)接到陣列存儲(chǔ)器,進(jìn)行大批數(shù)據(jù)的I/O傳送n作為DFS和PEM之間的緩沖,以平衡兩邊不同的數(shù)據(jù)寬度nCDC對(duì)陣列控制器的I/O請(qǐng)求進(jìn)行管理nCDC使B6700管理計(jì)算機(jī)中斷,由它響應(yīng)I/O請(qǐng)求,并通過(guò)CDC給CU送回響應(yīng)代碼,在CU中設(shè)置控制狀態(tài)字n然后,CDC使B6700啟動(dòng)PEM的加載過(guò)程,DFS向PEM送入程序和數(shù)據(jù)n

39、PEM加載完畢后,由CDC向CU傳送控制信號(hào),使它開(kāi)始執(zhí)行Illiac IV的程序tiger September 201647I/O分系統(tǒng)nBIOM處在DFS和B6700之間,匹配二者之間的傳送頻帶n把B6700的48位字變換為Illiac IV的64位字,以?xún)蓚€(gè)字共128位的數(shù)據(jù)寬度輸送給DFSnBIOM用4個(gè)PE存儲(chǔ)器做成,總?cè)萘繛?192x64位nB6700存儲(chǔ)器經(jīng)CPU輸送數(shù)據(jù)的頻帶是80 x106位/秒 ,DFS輸送數(shù)據(jù)的頻帶是500 x106位/秒,二者相比超過(guò)6倍nBIOM作為B6700和DFS間的緩沖tiger September 201648B6700nB6700管理計(jì)算機(jī)的

40、基本組成部分n單中央處理器(另一CPU可選)n32K字內(nèi)存(可擴(kuò)充至512K字)n經(jīng)過(guò)多路開(kāi)關(guān)控制的一大批外圍設(shè)備n一臺(tái)容量為1012位(=1Tb)的激光外存儲(chǔ)器nARPA網(wǎng)絡(luò)接口nB6700的作用是管理全部系統(tǒng)資源n完成用戶(hù)程序的編譯或匯編n為Illiac IV 進(jìn)行作業(yè)調(diào)度、存儲(chǔ)分配、產(chǎn)生入/出控制描述字送至CDC、處理中斷n提供操作系統(tǒng)所具備的其它服務(wù)tiger September 2016498.3.2 BSP計(jì)算機(jī)nBurroughs Scientific Processor (BSP)計(jì)算機(jī)由美國(guó)寶來(lái)公司和伊利諾依大學(xué)于1979年制造n共享存儲(chǔ)器結(jié)構(gòu)的SIMD計(jì)算機(jī)的典型代表nBS

41、P不是一臺(tái)獨(dú)立運(yùn)行的計(jì)算機(jī),是附屬于系統(tǒng)管理機(jī)的一臺(tái)后端處理機(jī)nBSP承擔(dān)算術(shù)運(yùn)算,系統(tǒng)管理機(jī)提供分時(shí)服務(wù)、數(shù)據(jù)和程序文件編輯、與遠(yuǎn)程作業(yè)站終端、網(wǎng)絡(luò)的數(shù)據(jù)通信、BSP程序的向量化編譯和連接、數(shù)據(jù)長(zhǎng)期存儲(chǔ)以及數(shù)據(jù)庫(kù)管理等功能nBSP由控制處理機(jī)、并行處理機(jī)、文件存儲(chǔ)器、并行存儲(chǔ)器模塊以及對(duì)準(zhǔn)網(wǎng)絡(luò)等組成 tiger September 201650圖8.9 BSP的功能結(jié)構(gòu)與流水線處理tiger September 201651圖8.9 BSP的功能結(jié)構(gòu)與流水線處理16算術(shù)單元(AE5)輸 出對(duì)準(zhǔn)輸 入對(duì)準(zhǔn)17并行存儲(chǔ)器模塊(5-8兆字)(PPS) 并行處理機(jī)控制控制維護(hù)單元標(biāo)量處理機(jī)控制存儲(chǔ)器

42、 (256K字)系統(tǒng)管理機(jī)B 7700/B 7800文件存儲(chǔ) 器 系統(tǒng)(FM)并行處理機(jī)(50MFLOPS)BSP外圍設(shè)備與終端75兆字節(jié)/秒控制通信(PMs)tiger September 2016521 并行處理機(jī)n并行處理機(jī)以160ns的時(shí)鐘周期進(jìn)行向量計(jì)算n所有16個(gè)算術(shù)單元AE對(duì)不同的數(shù)據(jù)組(從并行處理機(jī)控制器廣播來(lái))進(jìn)行同一種指令操作n大部分的算術(shù)運(yùn)算能在2個(gè)時(shí)鐘周期(320ns)內(nèi)完成nBSP的執(zhí)行速度最高可達(dá)50MFLOPSn進(jìn)行向量運(yùn)算的數(shù)據(jù)存在17個(gè)并行存儲(chǔ)器模塊中,每個(gè)模塊的容量可達(dá)512K字,周期時(shí)間為160nsn數(shù)據(jù)在存儲(chǔ)器模塊和AE間以每秒100M字的速率進(jìn)行傳輸n

43、17個(gè)存儲(chǔ)器模塊的組織形成一個(gè)無(wú)沖突訪問(wèn)存儲(chǔ)器,它容許對(duì)任意長(zhǎng)度以及跳距不是17倍數(shù)的向量實(shí)現(xiàn)無(wú)沖突存取n16個(gè)AE是以SIMD方式在單一微序列控制下同步工作n每個(gè)AE中,只有最原始的操作才采用硬連線方式n控制字的寬度為100位。除實(shí)現(xiàn)浮點(diǎn)操作以外,AE還有較強(qiáng)的非數(shù)值處理能力tiger September 201653PE性能提高,數(shù)量降低n浮點(diǎn)加、減和乘都能在兩個(gè)時(shí)鐘周期內(nèi)完成n采用兩個(gè)時(shí)鐘周期可使存儲(chǔ)器頻寬與AE進(jìn)行三元操作時(shí)的頻寬相平衡n浮點(diǎn)除要用1200ns,用Newton-Raphson迭代算法產(chǎn)生倒數(shù)來(lái)實(shí)現(xiàn)n每個(gè)AE設(shè)有只讀存儲(chǔ)器,給出除法和平方根迭代的第一次近似值n浮點(diǎn)字長(zhǎng)為4

44、8位,尾數(shù)為36位有效值,階碼為10位,以2為底。數(shù)的精度可達(dá)到十進(jìn)制11位nAE在關(guān)鍵部位設(shè)置了雙字長(zhǎng)累加器和雙字長(zhǎng)寄存器,使雙精度運(yùn)算直接用硬件實(shí)現(xiàn)nAE還可用軟件方法來(lái)實(shí)現(xiàn)三倍精度的算術(shù)運(yùn)算n可估算出,BSP用Fortran來(lái)表達(dá)的很大范圍的計(jì)算問(wèn)題中,速度可達(dá)20到40MFLOPStiger September 2016542 控制處理機(jī)n用以控制并行處理機(jī)n提供與系統(tǒng)管理機(jī)相連的接口n標(biāo)量處理機(jī)處理存儲(chǔ)在控制存儲(chǔ)器中的全部操作系統(tǒng)和用戶(hù)程序的指令n以12MHz的時(shí)鐘頻率執(zhí)行用戶(hù)程序的串行或標(biāo)量部分,最高速度可達(dá)1.5MFLOPSn全部的向量指令以及某些成組的標(biāo)量指令被送給并行處理機(jī)控

45、制器。在經(jīng)過(guò)合格性檢查之后,控制器將它們轉(zhuǎn)換為微序列,去控制16個(gè)AE操作n雙極型控制存儲(chǔ)器的容量為256K字,周期時(shí)間為160ns,每個(gè)字長(zhǎng)48位另加8位奇偶校驗(yàn)位,提供單錯(cuò)校正雙錯(cuò)檢測(cè)(SECDED)n控制維護(hù)單元是系統(tǒng)管理機(jī)與控制處理機(jī)其余部分之間的接口,用來(lái)進(jìn)行初始化、監(jiān)控命令通信和維護(hù)tiger September 2016553 文件存儲(chǔ)器n是一個(gè)半導(dǎo)體輔助存儲(chǔ)器nBSP的計(jì)算任務(wù)文件從系統(tǒng)管理機(jī)加載到它上面。然后對(duì)這些任務(wù)進(jìn)行排隊(duì),由控制處理機(jī)加以執(zhí)行nBSP程序執(zhí)行過(guò)程中所產(chǎn)生的暫存文件和輸出文件,在將它們送給系統(tǒng)管理機(jī)輸出給用戶(hù)之前存在文件存儲(chǔ)器n數(shù)據(jù)傳輸率較高,大大地緩解了

46、I/O受限問(wèn)題n是BSP唯一直接控制的外圍設(shè)備,其它外圍設(shè)備由系統(tǒng)管理機(jī)控制tiger September 2016564 對(duì)準(zhǔn)網(wǎng)絡(luò)n對(duì)準(zhǔn)網(wǎng)絡(luò)包含n完全交叉開(kāi)關(guān)n實(shí)現(xiàn)數(shù)據(jù)從一個(gè)源廣播至幾個(gè)目的地以及當(dāng)幾個(gè)源尋找一個(gè)目的地時(shí)能分解沖突的硬件n在算術(shù)單元陣列和存儲(chǔ)器模塊間具備通用的互連特性n存儲(chǔ)器模塊和對(duì)準(zhǔn)網(wǎng)絡(luò)的組合功能提供了并行存儲(chǔ)器的無(wú)沖突訪問(wèn)能力n算術(shù)單元也利用輸出對(duì)準(zhǔn)網(wǎng)絡(luò)來(lái)實(shí)現(xiàn)一些諸如數(shù)據(jù)壓縮和擴(kuò)展操作以及快速傅里葉變換算法等專(zhuān)用功能tiger September 201657存儲(chǔ)器-存儲(chǔ)器型的浮點(diǎn)運(yùn)算流水進(jìn)行nBSP的流水線由5個(gè)功能級(jí)組成n16個(gè)操作數(shù)從存儲(chǔ)器模塊取出,通過(guò)輸入對(duì)準(zhǔn)網(wǎng)絡(luò)

47、送給AE,再將結(jié)果經(jīng)輸出對(duì)準(zhǔn)網(wǎng)絡(luò)送存儲(chǔ)器模塊n這幾級(jí)的操作重疊進(jìn)行n利用時(shí)間并行性進(jìn)一步獲得性能n物理上輸入對(duì)準(zhǔn)和輸出對(duì)準(zhǔn)都在一個(gè)實(shí)際對(duì)準(zhǔn)網(wǎng)絡(luò)進(jìn)行n除16個(gè)AE中的空間并行性以及讀取、對(duì)準(zhǔn)和存儲(chǔ)的流水線操作外,AE中的向量運(yùn)算可同標(biāo)量處理機(jī)的標(biāo)量處理重疊nBSP既適于處理長(zhǎng)向量和短向量,也能處理單獨(dú)的標(biāo)量tiger September 2016585 質(zhì)數(shù)存儲(chǔ)系統(tǒng)nBSP并行存儲(chǔ)器由17個(gè)周期時(shí)間為160ns的存儲(chǔ)模塊組成n每個(gè)周期存取16個(gè)字,每個(gè)字的最大有效存儲(chǔ)周期為10nsn與算術(shù)單元完成浮點(diǎn)加和乘的速率很好地平衡n每次運(yùn)算需要兩個(gè)變量,算術(shù)單元中設(shè)有中間寄存器其運(yùn)算速度為320ns/1

48、6次=20ns/次n程序和標(biāo)量都存放在控制存儲(chǔ)器中,只有數(shù)組存取(包括I/O)才用到并行存儲(chǔ)器n三元向量?jī)纱嗡阈g(shù)運(yùn)算中需要用到3個(gè)變量,產(chǎn)生一個(gè)結(jié)果,共訪問(wèn)存儲(chǔ)器4次,在并行存儲(chǔ)器和浮點(diǎn)運(yùn)算之間的頻帶保持完全平衡n長(zhǎng)向量中間結(jié)果都存在寄存器中,每次運(yùn)算只需1個(gè)操作數(shù)n并行存儲(chǔ)器有足夠的頻寬留給輸入和輸出信息tiger September 2016595 質(zhì)數(shù)存儲(chǔ)系統(tǒng)nBSP并行存儲(chǔ)器的主要革新是采用了17個(gè)存儲(chǔ)模塊n之前的巨型機(jī)普遍用多個(gè)并行存儲(chǔ)器模塊,易因訪問(wèn)沖突而使頻帶嚴(yán)重變窄nBSP的一個(gè)獨(dú)特的性能就是它的存儲(chǔ)系統(tǒng)可無(wú)沖突訪問(wèn),每個(gè)存儲(chǔ)周期送給每個(gè)PE一個(gè)有用的操作數(shù)n存儲(chǔ)器中向量元素的

49、間距不一定為1。因而DO循環(huán)可以有非單位增量,或者程序可以訪問(wèn)矩陣的行、列和對(duì)角線而無(wú)需付出額外的代價(jià)n巨型機(jī)的設(shè)計(jì)者或?qū)κ褂么鎯?chǔ)器作嚴(yán)格的訪問(wèn)限制,或采用昂貴的快速存儲(chǔ)器件,用很寬的存儲(chǔ)器頻帶來(lái)獲得一定程度無(wú)沖突訪問(wèn)的功能tiger September 2016605 質(zhì)數(shù)存儲(chǔ)系統(tǒng)n在BSP中保證無(wú)沖突訪問(wèn)的硬件技術(shù)n質(zhì)數(shù)個(gè)存儲(chǔ)器端口n存儲(chǔ)器端口和AE間的完全交叉開(kāi)關(guān)n特殊的存儲(chǔ)器地址生成機(jī)構(gòu),為具體的地址模式計(jì)算出合適的地址n地址模式是指正統(tǒng)的串行計(jì)算機(jī)所用的那一種模式n并行存儲(chǔ)器采用這種模式能與當(dāng)前程序設(shè)計(jì)語(yǔ)言的所有結(jié)構(gòu)完全兼容。特別是Fortran的EQUIVALENCE、COMMON

50、以及數(shù)組參數(shù)傳送都可用常規(guī)計(jì)算機(jī)上一樣的方法來(lái)實(shí)現(xiàn)n數(shù)組元素的地址相隔是存儲(chǔ)器模塊數(shù)的整數(shù)倍時(shí),沖突一定發(fā)生n這時(shí)所有要訪問(wèn)的值處于同一個(gè)存儲(chǔ)器模塊nBSP應(yīng)避免跳距為17、34、51等情況n51是有問(wèn)題的跳距。正好是列長(zhǎng)度為50的數(shù)組的正向?qū)蔷€元素存儲(chǔ)地址的跳距tiger September 2016615 質(zhì)數(shù)存儲(chǔ)系統(tǒng)n在BSP中發(fā)生沖突,運(yùn)算仍可正確進(jìn)行,但速度下降到正常速度的1/16n系統(tǒng)記錄沖突以及它們對(duì)總的運(yùn)行時(shí)間影響的情況,以便在這種影響太大時(shí)使程序員采取一定的改進(jìn)措施nBSP可對(duì)下列4類(lèi)操作進(jìn)行并行計(jì)算n(1)16個(gè)算術(shù)單元實(shí)現(xiàn)并行運(yùn)算n(2)存儲(chǔ)器的讀取和存儲(chǔ)及存儲(chǔ)器和算術(shù)

51、單元間的數(shù)據(jù)傳輸n(3)并行處理機(jī)控制器的變址值、向量長(zhǎng)度和循環(huán)控制計(jì)算n(4)線性向量操作描述字在標(biāo)量處理機(jī)中的生成tiger September 201662nIlliac IV 重疊-重復(fù),通過(guò)SIMD實(shí)現(xiàn)高性能nBSP 優(yōu)化nCM-2 性能的飛躍tiger September 2016638.3.3 CM-2計(jì)算機(jī)nThinking Machines的Connection Machine CM-2是細(xì)粒度SIMD計(jì)算機(jī), 1990年n由數(shù)千個(gè)位片PE組成n峰值處理速度超過(guò)10Gflopsn程序從前端開(kāi)始執(zhí)行,需要并行數(shù)據(jù)操作時(shí),發(fā)送微指令到后端處理陣列n定序器(sequencer)分解

52、這些微指令并且把它們廣播給陣列中的所有數(shù)據(jù)處理器(data processor)n前端機(jī)和處理陣列間有3條交換數(shù)據(jù)計(jì)算結(jié)果的通路n廣播總線(broadcasting)n全局組合總線(global combining)n標(biāo)量存儲(chǔ)器總線(scalar memory bus)n通過(guò)廣播總線把數(shù)據(jù)或指令同時(shí)傳送到所有數(shù)據(jù)處理器n前端機(jī)通過(guò)全局組合總線對(duì)來(lái)自各處理器的數(shù)據(jù)進(jìn)行求和、最大值、邏輯或等運(yùn)算-從二進(jìn)制向量還原、重構(gòu)二進(jìn)制數(shù)據(jù)n前端機(jī)每次通過(guò)標(biāo)量總線從與數(shù)據(jù)處理器相連的存儲(chǔ)器讀取32位數(shù)據(jù)、或每次將32位數(shù)據(jù)寫(xiě)入與數(shù)據(jù)處理器相連的存儲(chǔ)器nVAX和Symbolics機(jī)都可用作前端機(jī)和主機(jī)tiger

53、 September 201664圖8.11 CM-2的系統(tǒng)結(jié)構(gòu)tiger September 2016651 處理陣列nCM-2是一臺(tái)數(shù)據(jù)并行計(jì)算的后端機(jī)n處理陣列包含4K到64K個(gè)位片數(shù)據(jù)處理器(或PE)n數(shù)據(jù)處理器由定序器控制n定序器對(duì)來(lái)自前端機(jī)的微指令進(jìn)行譯碼,然后把毫微指令廣播到陣列中各個(gè)處理器n前端機(jī) 定序器 處理器n指令 微指令 毫微指令n所有處理器可同時(shí)訪問(wèn)它們的存儲(chǔ)器,以鎖步方式執(zhí)行廣播來(lái)的指令n處理器之間通過(guò)尋徑、NEWS網(wǎng)格(NEWS gird)或掃描機(jī)構(gòu)(scanning mechanism) 相互交換數(shù)據(jù)n這些網(wǎng)絡(luò)也與I/O接口相連n稱(chēng)為數(shù)據(jù)穹(data vault)

54、的大容量存儲(chǔ)器子系統(tǒng)與I/O相連n數(shù)據(jù)穹是基于磁盤(pán)的海量存儲(chǔ)系統(tǒng),用來(lái)存放程序文件和大數(shù)據(jù)庫(kù)??纱鎯?chǔ)多達(dá)60G字節(jié)的數(shù)據(jù)tiger September 2016661 處理陣列n每個(gè)處理器結(jié)點(diǎn)包括32個(gè)位片數(shù)據(jù)處理器、一個(gè)可選的浮點(diǎn)加速器和處理器之間通信的接口n每個(gè)數(shù)據(jù)處理器用3個(gè)輸入和2個(gè)輸出的位片ALU、鎖存器和存儲(chǔ)器接口實(shí)現(xiàn)nALU可執(zhí)行位串全加操作和布爾邏輯操作n每個(gè)結(jié)點(diǎn)有一對(duì)處理器芯片,共享一組存儲(chǔ)器芯片n每個(gè)處理芯片有16個(gè)處理器n稱(chēng)為Pairs的并行指令系統(tǒng)包括許多毫微指令n用于存儲(chǔ)器的裝入和存儲(chǔ)、算術(shù)和邏輯運(yùn)算、尋徑器控制、NEWS網(wǎng)格控制、超立方體接口控制、浮點(diǎn)運(yùn)算、I/O和

55、診斷操作n每個(gè)存儲(chǔ)器芯片由一對(duì)處理器芯片的32個(gè)處理器共享-不劃分到位n存儲(chǔ)器數(shù)據(jù)路徑寬度22位(16位數(shù)據(jù)-16P每個(gè)1位和6位ECC)n18位存儲(chǔ)器地址允許32個(gè)處理器共享218=256K個(gè)存儲(chǔ)器字(512K字節(jié)數(shù)據(jù))n浮點(diǎn)芯片一次執(zhí)行32位的操作-對(duì)應(yīng)兩個(gè)芯片的32個(gè)P(32位)。中間計(jì)算結(jié)果可存入存儲(chǔ)器供后續(xù)運(yùn)算使用n整數(shù)算術(shù)運(yùn)算直接由32個(gè)處理器以位串方式執(zhí)行tiger September 201667兩個(gè)處理器芯片、一組存儲(chǔ)器和浮點(diǎn)芯片組成的CM-2處理結(jié)點(diǎn)tiger September 2016682 尋徑器、NEWS網(wǎng)格和掃描機(jī)構(gòu)n(1) 尋徑器n每個(gè)處理器芯片包含一個(gè)用于處理器之間數(shù)據(jù)尋徑的專(zhuān)門(mén)硬件n所有處理器芯片上的尋徑器結(jié)點(diǎn)連成一個(gè)布爾n-立方體nCM-2最大配置4096個(gè)尋徑器結(jié)點(diǎn),連成一個(gè)12維超立方體n每個(gè)尋徑器結(jié)點(diǎn)與12個(gè)其它尋徑器結(jié)點(diǎn)相連接,其中包括它的對(duì)偶結(jié)點(diǎn)在內(nèi)n同一結(jié)點(diǎn)上的16個(gè)處理器在發(fā)送消息給12-立方體另一頂

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶(hù)所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶(hù)上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶(hù)上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶(hù)因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論