計(jì)算機(jī)系統(tǒng)結(jié)構(gòu)課件第八章并行處理機(jī)(廣工)_第1頁
計(jì)算機(jī)系統(tǒng)結(jié)構(gòu)課件第八章并行處理機(jī)(廣工)_第2頁
計(jì)算機(jī)系統(tǒng)結(jié)構(gòu)課件第八章并行處理機(jī)(廣工)_第3頁
計(jì)算機(jī)系統(tǒng)結(jié)構(gòu)課件第八章并行處理機(jī)(廣工)_第4頁
計(jì)算機(jī)系統(tǒng)結(jié)構(gòu)課件第八章并行處理機(jī)(廣工)_第5頁
已閱讀5頁,還剩71頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

1、tiger September 20161計(jì)算機(jī)系統(tǒng)結(jié)構(gòu)n第一章 基本概念n第二章 指令系統(tǒng)n第三章 存儲系統(tǒng)n第四章 輸入輸出系統(tǒng)*n第五章 標(biāo)量處理機(jī)n第六章 向量處理機(jī)*n第七章 互連網(wǎng)絡(luò)n第八章 并行處理機(jī)n第九章 多處理機(jī)tiger September 201620,1-TFlops(1000TFlops,千萬億次)nz060809.ppt0,1開關(guān)/高低電平,傳送=線,存=晶體管,處理=門計(jì)組- 馮諾依曼計(jì)算機(jī)指令周期計(jì)組- 并行流水線,超標(biāo)量,超流水線 系統(tǒng)結(jié)構(gòu)1-5章- TFlops(1000TFlops, 千萬億次)向量處理機(jī),并行處理機(jī),多處理機(jī)系統(tǒng)結(jié)構(gòu)6-9章- .tig

2、er September 20163第八章 SIMD計(jì)算機(jī)(并行處理機(jī))n8.1 SIMD計(jì)算機(jī)模型n8.2 SIMD計(jì)算機(jī)基本結(jié)構(gòu)n8.3 SIMD計(jì)算機(jī)實(shí)例n8.4 SIMD計(jì)算機(jī)的應(yīng)用*n8.5 連續(xù)模型的結(jié)構(gòu)向何處發(fā)展*tiger September 20164第八章 SIMD計(jì)算機(jī)(并行處理機(jī))n兩種并行性概念n同時性并行Simultaneity: 兩個或兩個以上事件在同一時刻發(fā)生n并發(fā)性并行Concurrency: 兩個或兩個以上事件在同一時間間隔內(nèi)發(fā)生n三條技術(shù)途徑n資源重復(fù)(空間并行性,同時性并行): 重復(fù)設(shè)置多個處理部件來提高速度n時間重疊(時間并行性,并發(fā)性并行): 流水線

3、n資源共享: 分時系統(tǒng),分布式系統(tǒng)n時間-空間關(guān)系n資源重復(fù)(空間并行性,同時性并行): 增加空間以多個空間容納多條指令n時間重疊(時間并行性,并發(fā)性并行): 細(xì)分空間以多個子空間容納多條指令tiger September 201658.1 并行處理機(jī)模型n并行處理機(jī)定義n多個PE按照一定方式互連,在同一個CU控制下,對各自的數(shù)據(jù)完成同一條指令規(guī)定的操作n從CU看,指令串行執(zhí)行,從PE看,數(shù)據(jù)并行處理n并行處理機(jī)也稱為陣列處理機(jī)n以單一控制部件控制下的多個處理單元構(gòu)成的陣列n按照Flynn分類法,屬于SIMD計(jì)算機(jī)n主要應(yīng)用領(lǐng)域-高速向量或矩陣運(yùn)算tiger September 20166P0

4、M0PE0P1M1PE1P2M2PE2Pn-1Mn-1PEn-1互連網(wǎng)絡(luò)CUHJSiegel提出的并行處理機(jī)模型并行處理機(jī)的操作模型tiger September 20167并行處理機(jī)的操作模型n并行處理機(jī)的操作模型可用五元組來表示M=(N,C,I,M,R)nN為PE個數(shù)n如Illiac IV有64個PEnC為由控制部件CU直接執(zhí)行的指令集n包括標(biāo)量指令和程序控制指令nI為所有PE并行執(zhí)行的指令集n包括算術(shù)運(yùn)算、邏輯運(yùn)算、數(shù)據(jù)尋徑、屏蔽及其它每個活動的PE對它的數(shù)據(jù)所執(zhí)行的局部操作nM為屏蔽操作集n每種屏蔽將PE劃分為允許操作和禁止操作兩個子集nR是數(shù)據(jù)尋徑集n互連網(wǎng)絡(luò)中PE間通信所需要的各種

5、設(shè)置模式tiger September 20168MasPar MP-1的操作特性n(1)是一臺具體的SIMD機(jī)器, N=1024至16384。實(shí)際PE數(shù)目與機(jī)器配置有關(guān)n(2)CU執(zhí)行標(biāo)量指令,譯碼后的向量指令廣播到PE陣列,并控制PE間的通信n(3)每個PE都是基于Load/Store結(jié)構(gòu)的RISC處理機(jī),PE從CU接受指令,能執(zhí)行整數(shù)運(yùn)算和標(biāo)準(zhǔn)浮點(diǎn)運(yùn)算n(4)屏蔽指令設(shè)在每個PE中,并由CU連續(xù)監(jiān)控。它能在運(yùn)行時動態(tài)地使每個PE處于置位或復(fù)位狀態(tài)n(5)有一個X-Net網(wǎng)格網(wǎng)絡(luò)和一個全局多級交叉開關(guān)尋徑器,實(shí)現(xiàn)CU和PE之間、X-Net的8個近鄰之間和全局尋經(jīng)器的通信tiger Sept

6、ember 201693種SIMD計(jì)算機(jī)nMP-1n每個PE裝有1位邏輯單元、4位整數(shù)ALU、64位尾數(shù)部件和16位指數(shù)部件nMP-1是中粒度并行處理機(jī)n每個PE比較簡單,可將幾個PE 做在一個芯片nMP-1的每個芯片有32個PE,每個PE有40個32位寄存器n32個PE用X-Net網(wǎng)絡(luò)互相連接,是一種對角線雙級鏈路擴(kuò)展的4-鄰網(wǎng)nCM-2n在一個芯片上將16個PE連成網(wǎng)格網(wǎng)絡(luò)n每個16-PE網(wǎng)的芯片安置在12維超立方體的頂角n16212=216=65536個PE組成了整個SIMD陣列nDAP 610n在一個芯片上實(shí)現(xiàn)一個64-PE的網(wǎng)格網(wǎng)絡(luò)n再由這些芯片上小網(wǎng)格互相連接組成一個大網(wǎng)格(646

7、4)tiger September 2016103種SIMD計(jì)算機(jī)nPE數(shù)從DAP 610的4096到MasPar MP-1的16384和CM-2的65536nPE都帶有浮點(diǎn)加速器nPE有細(xì)粒度和中粒度之分nCM-2與DAP610都是細(xì)粒度、位片式SIMD計(jì)算機(jī)nMP-1是中粒度SIMD機(jī)tiger September 201611表8.1 3種SIMD計(jì)算機(jī)Active Memory Technology DAP600系列1K位/PE方形網(wǎng)格互連成4096PE的細(xì)粒度、位片SIMD陣列,正交4-鄰位鏈接,20GIPS和560Mflops峰值性能由主機(jī)VAX/VMS或UNIX Fortran-

8、plus 或DAP上APAL提供,主機(jī)的Fortran77或C; 與Fortran90標(biāo)準(zhǔn)有關(guān)的Fortran-plusThinking Machines公司CM-265536個PE排成12維超立方體, 每個PE可有1M位存儲器, 32個PE共享FPU選件, 峰值速度28Gflops和持續(xù)速度5.6Gflops由VAX, Sun或Symbolics 360主機(jī)驅(qū)動, PARIS支持的Lisp編譯器、Fortran90、C*和*Lisp系統(tǒng)型號SIMD計(jì)算系統(tǒng)結(jié)構(gòu)和性能語言、編譯器和軟件支持MasParMP-1系列102416384個PE, 26GIPS或1.3Gflops; 每個PE帶16KB

9、本地存儲器, X-Net網(wǎng)格加一個多級交叉開關(guān)互連網(wǎng)Fortran77, MasPar Fortran (MPF)和MasPar并行應(yīng)用語言; X窗口UNIX/OS, 符號調(diào)試程序, 可視化和動畫制作程序tiger September 2016128.2 并行處理機(jī)的基本結(jié)構(gòu)n并行處理機(jī)有兩種典型結(jié)構(gòu)n分布式存儲器結(jié)構(gòu)n共享存儲器結(jié)構(gòu)n一臺并行處理機(jī)由五個部分組成n多個處理單元PEn多個存儲器模塊Mn一個控制器CUn一個互連網(wǎng)絡(luò)ICNn一臺輸入輸出處理機(jī)IOPtiger September 2016138.2.1 分布式存儲器結(jié)構(gòu)n目前的大部分并行處理機(jī)基于分布式存儲器模型n比較容易構(gòu)成MPP

10、(Massively Parallel Processor,大規(guī)模并行處理機(jī)),幾十萬個PEn必須依靠并行算法來提高PE的利用率, 應(yīng)用領(lǐng)域很有限nCU是控制部件,執(zhí)行標(biāo)量指令,并把向量指令廣播到各個PEnCU中通常有一個較大容量的存儲器nIOP是輸入輸出處理機(jī),或稱為主機(jī)n在IOP上安裝操作系統(tǒng),負(fù)擔(dān)輸入輸出工作,還負(fù)責(zé)程序的編輯、編譯和調(diào)試等工作n數(shù)據(jù)在局部存儲器LM中的分布是一個很關(guān)鍵的問題n標(biāo)量指令與向量指令可并發(fā)執(zhí)行tiger September 201614LM0互連網(wǎng)絡(luò)PE0CULM1PE1LMn-1PEn-1IOP圖8.2 分布式存儲器的SIMD計(jì)算機(jī)tiger Septemb

11、er 201615分布式存儲器的SIMD計(jì)算機(jī)n包含重復(fù)設(shè)置的多個同樣的處理單元PEn通過數(shù)據(jù)尋徑網(wǎng)絡(luò)以一定方式互相連接n每個PE有各自的本地存儲器LMn在統(tǒng)一的陣列控制部件CU作用下,實(shí)現(xiàn)并行操作n程序和數(shù)據(jù)通過主機(jī)裝入控制存儲器n通過控制部件的是單指令流,指令的執(zhí)行順序與單處理機(jī)一樣,基本上是串行執(zhí)行n指令送到控制部件進(jìn)行譯碼n標(biāo)量操作或控制操作,直接由與控制部件相連的標(biāo)量處理機(jī)執(zhí)行n向量操作,廣播到所有PE并行執(zhí)行tiger September 201616分布式存儲器的SIMD計(jì)算機(jī)n數(shù)據(jù)分布存放在所有PE的本地存儲器nPE通過數(shù)據(jù)尋徑網(wǎng)絡(luò)互連n數(shù)據(jù)尋徑網(wǎng)絡(luò)執(zhí)行PE間的通信n如移數(shù)、置

12、換和其它尋徑操作n控制部件通過執(zhí)行程序來控制數(shù)據(jù)尋徑網(wǎng)絡(luò)nPE的同步由控制部件的硬件實(shí)現(xiàn)n所有PE在同一個周期執(zhí)行同一條指令n用屏蔽邏輯來決定任何一個PE在給定的指令周期執(zhí)行或不執(zhí)行指令nSIMD機(jī)器的主要差別在于PE間互相通信的數(shù)據(jù)尋徑網(wǎng)絡(luò)不同n4-鄰連接網(wǎng)格結(jié)構(gòu)在過去最受歡迎nIlliac IV由64個有本地存儲器的PE組成、PE間通過88環(huán)繞連接網(wǎng)格實(shí)現(xiàn)互連nGoodyear MPP和AMT DAP610用兩維網(wǎng)格實(shí)現(xiàn)nCM-2實(shí)現(xiàn)的嵌在網(wǎng)格中的超立方體和MasPar MP-1實(shí)現(xiàn)的X-Net加多級交叉開關(guān)的尋徑器都由網(wǎng)格演變而來tiger September 2016178.2.2 共

13、享存儲器結(jié)構(gòu)n共享的多體并行存儲器SM通過互連網(wǎng)絡(luò)與各處理單元PE相連n存儲模塊的數(shù)目等于或略大于處理單元的數(shù)目n靈活、高速的互連網(wǎng)絡(luò)在存儲器與處理單元間傳送數(shù)據(jù)n存儲模塊之間合理分配數(shù)據(jù)n大多數(shù)向量運(yùn)算能以存儲器的最高頻率進(jìn)行,少受存儲沖突的影響n共享存儲器并行處理機(jī)模型在處理單元數(shù)目不太大的情況下很理想nBurroughs Scientific Processor (BSP)采用了這種結(jié)構(gòu)n16個PE通過一個1617的對準(zhǔn)互連網(wǎng)絡(luò)(ch03p146,ch07)訪問17個共享存儲器模塊n存儲器模塊數(shù)與PE數(shù)互質(zhì)可實(shí)現(xiàn)無沖突并行訪問存儲器tiger September 201618PE0互連網(wǎng)

14、絡(luò)CUPE1PEn-1IOPSM0SM1SMk-1圖8.3 共享存儲器的SIMD計(jì)算機(jī)tiger September 201619不同存儲方案的比較n互連網(wǎng)絡(luò)的存在是必要的n共享存儲器方案中,是存儲器與處理單元之間的必由之路n分布存儲器方案中,處理單元所需數(shù)據(jù)在大多數(shù)情況下都由本地存儲器提供,處理單元間的數(shù)據(jù)傳送必不可少n圖8.2中,各處理單元PE之間可經(jīng)兩條途徑相互聯(lián)系n一條直接通過數(shù)據(jù)尋徑網(wǎng)絡(luò)n另一條是數(shù)據(jù)從LM讀至陣列控制部件,然后通過公共數(shù)據(jù)總線廣播到全部PEn處理單元數(shù)目很多的并行處理機(jī)中,PE之間的直接數(shù)據(jù)通路很有限,這決定了系統(tǒng)的固定結(jié)構(gòu)和專用處理機(jī)的性質(zhì)。這種局限性需要從互連網(wǎng)

15、絡(luò)的研究中得到解決tiger September 201620與向量處理機(jī)的比較n與第六章的向量處理機(jī)相比,共同之處是都執(zhí)行向量指令nSIMD計(jì)算機(jī)對向量的分量進(jìn)行算術(shù)、邏輯、數(shù)據(jù)尋徑和屏蔽操作n位片SIMD計(jì)算機(jī)中的向量是二進(jìn)制向量。在字并行SIMD計(jì)算機(jī)中向量的分量是4字節(jié)或8字節(jié)的數(shù)nSIMD處理機(jī)的指令須使用長度為n的向量操作數(shù),其中n是PE的個數(shù)nSIMD指令與流水線向量處理機(jī)的指令類似,不同之處是多PE的空間并行性代替了流水線的時間并行性n數(shù)據(jù)尋徑指令包括置換、廣播、選播以及循環(huán)和移數(shù)操作n在任何指令周期,屏蔽操作可允許或禁止某些PE參加運(yùn)算nSIMD結(jié)構(gòu)的所有I/O動作都由主機(jī)承

16、擔(dān)n主機(jī)和陣列控制部件間有一個專用的控制存儲器,是一個存放程序和數(shù)據(jù)的中間存儲器n啟動程序之前,把劃分好的數(shù)據(jù)集合分布到本地存儲器或共享存儲器模塊n主機(jī)管理大容量存儲器或計(jì)算結(jié)果的圖形顯示n在控制部件的協(xié)調(diào)下,標(biāo)量處理機(jī)與PE陣列并發(fā)地運(yùn)算tiger September 2016218.2.3 并行處理機(jī)的特點(diǎn)n并行處理機(jī)的主要特點(diǎn)n速度快,而且潛力大n模塊性好,生產(chǎn)和維護(hù)方便n可靠性高,容易實(shí)現(xiàn)容錯和重構(gòu)n效率低(與流水線處理機(jī)、向量處理機(jī)等比較)n通常作為專用計(jì)算機(jī),很大程度上依賴于并行算法n依靠的是資源重復(fù),而不是時間重疊,每個處理單元要擔(dān)負(fù)多種處理功能,效率要低一些n依靠增加PE個數(shù),

17、與流水線處理機(jī)主要依靠縮短時鐘周期相比,提高速度的潛力要大得多n依賴于互連網(wǎng)絡(luò)和并行算法n互連網(wǎng)絡(luò)決定了PE之間的連接模式,也決定了并行處理機(jī)能夠適應(yīng)的算法n需要有一臺高性能的標(biāo)量處理機(jī)n如果一臺機(jī)器的向量處理速度極高,但標(biāo)量處理速度只是每秒一百萬次,那么對于標(biāo)量運(yùn)算占10%的應(yīng)用來說,總的有效速度就不過是每秒一千萬次tiger September 2016221 高速數(shù)值計(jì)算nSIMD計(jì)算機(jī)與流水線向量處理機(jī)一樣,特別適于高速數(shù)值計(jì)算n以有限差分、矩陣、信號處理、線性規(guī)劃等計(jì)算問題為背景而發(fā)展起來n這些問題的共同特點(diǎn)是能夠通過各種途徑歸結(jié)為數(shù)組和向量處理nSIMD計(jì)算機(jī)效率取決于計(jì)算程序向量

18、化的程度n與按多指令流多數(shù)據(jù)流方式工作的多處理機(jī)相比,具有較固定的結(jié)構(gòu),直接與一定的算法相聯(lián)系n通過改進(jìn)系統(tǒng)結(jié)構(gòu)和制定并行算法,使可能適應(yīng)的計(jì)算問題類型盡量廣一些、多一些n應(yīng)該把系統(tǒng)結(jié)構(gòu)的研究和算法的研究結(jié)合起來tiger September 2016232 利用大量處理單元對向量各個分量同時進(jìn)行運(yùn)算nSIMD計(jì)算機(jī)利用大量處理單元對向量所包含的各個分量同時進(jìn)行運(yùn)算,是它獲得很高處理速度的主要原因n與同樣擅長于向量處理的流水線向量處理機(jī)相比,SIMD計(jì)算機(jī)依靠的并行措施是資源重復(fù),而不是時間重疊n每個處理單元要擔(dān)負(fù)多種處理功能,相當(dāng)于流水線向量處理機(jī)的多功能流水線部件(如在TI ASC機(jī)中),

19、效率比多個單功能流水線部件(如在Cray-1機(jī)中)要低一些n在硬件價格大幅度下降,系統(tǒng)結(jié)構(gòu)的不斷改進(jìn),SIMD計(jì)算機(jī)才具有較好的性能價格比nSIMD計(jì)算機(jī)主要依靠增多處理單元的個數(shù)提高運(yùn)算速度,與流水線處理機(jī)主要依靠縮短時鐘周期相比,其提高速度的潛力要大得多n如果有很好的互連網(wǎng)絡(luò)相配合,則多處理單元的功能和靈活性將會更強(qiáng)一些n如時鐘周期為160ns、包含16個處理單元的BSP SIMD計(jì)算機(jī)取得的運(yùn)算速度,能與時鐘周期為12.5ns、包含12條單功能流水線的Cray-1流水線向量處理機(jī)相當(dāng)tiger September 2016243 SIMD計(jì)算機(jī)的互連網(wǎng)絡(luò)nSIMD計(jì)算機(jī)機(jī)與流水線向量處理

20、機(jī)的另一區(qū)別是互連網(wǎng)絡(luò)n是由多處理單元這一特點(diǎn)所決定n目前的SIMD計(jì)算機(jī)采用的互連網(wǎng)絡(luò)還比較簡單,但它是SIMD計(jì)算機(jī)最有特色的一個組成部分n互連網(wǎng)絡(luò)規(guī)定處理單元的連接模式, 決定SIMD計(jì)算機(jī)能適應(yīng)的算法類別,對整個系統(tǒng)的各項(xiàng)性能指標(biāo)產(chǎn)生重要的影響n是SIMD計(jì)算機(jī)結(jié)構(gòu)的研究重點(diǎn),是多處理機(jī)的重要組成部分tiger September 2016254 實(shí)際有效速度的其他決定因素n以向量處理為主的SIMD計(jì)算機(jī)除向量運(yùn)算速度以外,整個系統(tǒng)的實(shí)際有效速度的另外兩個決定因素n一是標(biāo)量運(yùn)算速度n二是編譯過程的開銷n提高SIMD計(jì)算機(jī)處理標(biāo)量和短向量的能力很重要n流水線的向量處理機(jī)處理短向量時,流水

21、線建立和排空時間的比例加大nSIMD計(jì)算機(jī)中短向量對速度影響較小,但降低了處理效率n如果某一臺機(jī)器的向量處理速度極高,甚至是不受限制的,但標(biāo)量處理速度只是每秒一百萬次浮點(diǎn)運(yùn)算,那么對于標(biāo)量運(yùn)算占10%的題目來說,總的有效速度就不過是每秒一千萬次浮點(diǎn)運(yùn)算n編譯時間,與系統(tǒng)結(jié)構(gòu),與機(jī)器語言有密切的關(guān)系n要提高SIMD計(jì)算機(jī)的通用性,建立一個具有向量化功能的高級語言編譯程序十分必要tiger September 2016265 SIMD計(jì)算機(jī)基本上是一臺向量處理專用計(jì)算機(jī)nSIMD計(jì)算機(jī)基本上是一臺向量處理專用計(jì)算機(jī)n有一個功能很強(qiáng)的控制部件起著標(biāo)量處理機(jī)的作用n仍須有一臺高性能單處理機(jī)擔(dān)負(fù)系統(tǒng)的全

22、部管理功能n根據(jù)功能專用化的原則組成一個異構(gòu)型多計(jì)算機(jī)系統(tǒng)n向量處理部件是系統(tǒng)的主體n高性能單處理機(jī)可視為它的前端機(jī),用來分擔(dān)部分功能,以便充分發(fā)揮主體的向量處理效率n流水線向量處理機(jī)則有一些不同n有些向量處理機(jī)接到主機(jī)上執(zhí)行主機(jī)的一些有關(guān)操作或子程序,分擔(dān)主機(jī)的部分功能,提高主機(jī)的有效運(yùn)算速度, 起著后端處理機(jī)的作用,不能被認(rèn)為是系統(tǒng)的主體n在流水線向量處理機(jī)中,CDC STAR100、和Cray-1等巨型計(jì)算機(jī)本身被認(rèn)為是完整的通用計(jì)算機(jī)系統(tǒng)nAP120B、IBM3838等專用浮點(diǎn)數(shù)組處理機(jī)是后端處理機(jī)tiger September 2016278.3 并行處理機(jī)實(shí)例nIlliac IV

23、是最先采用SIMD結(jié)構(gòu)的并行處理機(jī)n采用陣列結(jié)構(gòu)分布存儲器n一個方向是用位片PE制造的SIMD計(jì)算機(jī)nGoodyear MPP、AMT/DAP 610和TMC/CM-2nCM-5是以SIMD模式運(yùn)行的同步MIMD計(jì)算機(jī)n另一方向是用字寬運(yùn)算PE的中粒度SIMD計(jì)算機(jī)nBSP是16臺處理機(jī)和17個存儲模塊同步工作的共享存儲器SIMD計(jì)算機(jī)nGF-11是IBM Watson實(shí)驗(yàn)室研制、作科學(xué)模擬研究nMasPar MP-1是中粒度SIMD計(jì)算機(jī)tiger September 201628并行處理機(jī)的兩個發(fā)展方向n保留陣列結(jié)構(gòu),但每個處理單元的規(guī)模減小,如1bitnCM-2n去掉陣列結(jié)構(gòu)和分布存儲器

24、nBurroughs公司的BSP是典型代表Illiac IV1968Goodyear MPP1980BSP1982DAP 6101987CM21990CM51991IBM GF-111991MasPar MP-11991tiger September 2016298.3.1 Illiac IV 并行處理機(jī)n1963年,美國西屋電器公司提出“Slotnick,The SOLOMON Computer,Simultaneous Operation linked Ordinal Modular Network”n1966年美國國防遠(yuǎn)景研究規(guī)劃局ARPR與伊利諾依大學(xué)簽定合同n原計(jì)劃:256個PE,每

25、個PE每240ns處理一個64位的浮點(diǎn)數(shù),每個局部存儲器PEM為2Kx64位,總的運(yùn)算速度為1GFLOPSn美國Burroughs公司和伊利諾依大學(xué)于1972年共同設(shè)計(jì)和生產(chǎn),1975年實(shí)際投入運(yùn)行。用了4倍的經(jīng)費(fèi),只達(dá)到1/20的速度。只實(shí)現(xiàn)了8x8=64個PE,只達(dá)到50MFLOPSnIlliac IV系統(tǒng)的影響非常大n是并行處理機(jī)、分布存儲器并行處理機(jī)的典型代表tiger September 201630Illiac IV系統(tǒng)組成nIlliac IV系統(tǒng)由三大部分組成,是3種類型處理機(jī)聯(lián)合組成的多機(jī)系統(tǒng) nIlliac IV處理機(jī)陣列(processing element array)n

26、8x8,包括PE、PEM和互連網(wǎng)絡(luò)n陣列控制器CU(array control unit)n處理單元陣列的控制部分,又可視為一臺相對獨(dú)立的小型標(biāo)量處理機(jī) n一臺標(biāo)準(zhǔn)的Burroughs B6700計(jì)算機(jī)n輸入輸出處理機(jī)和操作系統(tǒng)管理功能tiger September 201631圖8.5 Illiac IV系統(tǒng)總框圖tiger September 201632PEM63PEM0PEM1CUCDCBIOMB6700CPUB6700內(nèi)存B6700多路開關(guān)B6700外圍設(shè)備IOS激光存儲器6464 X 8CU總線控制線模式位線APPA網(wǎng)接口1282561024I/O 總線CDBPE63PE01024

27、 實(shí) 時 裝 置48484848256PE0PE1PE63.DFS圖8.5 Illiac IV系統(tǒng)總框圖tiger September 2016331 Illiac IV陣列nIlliac IV處理陣列由8x8=64個PU組成。每個PU由處理部件PE和它的局部存儲器PEM組成n每一個PUi只和它的東、西、南、北四個近鄰直接連接PUi+1 mod 64,PUi-1 mod 64,PUi+8 mod 64,PUi-8 mod 64n南北方向上同一列的PU連成一個環(huán),東西方向上構(gòu)成一個閉合螺線n閉合螺線最短距離不超過7步。普通網(wǎng)格最短距離不超過8步nnn個單元組成的陣列,任意兩個單元之間的最短距離不

28、超過n-1步nPU0到PU36的距離:采用普通網(wǎng)格必須8步nPU0 PU1 PU2 PU3 PU4 PU12 PU20 PU28 PU36n或PU0PU8PU16PU24PU32PU33PU34PU35PU36n或 .(等于8步的很多,大于8步的更多)n采用閉合螺旋線,只需要7步nPU0PU63PU62PU61PU60PU52PU44PU36n或PU0PU63PU55PU47PU39PU38PU37PU36n或. PU56 PU57 PU63 PU63 2 3 4 5 6 PU8 PU8 10 11 12 13 14 PU16 16 17 18 19 20 21 22 23 24 25 26

29、27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 PU55 58 59 60 61 62 PU0 PU0 PU1 PU7PU0PU1PU8PU9PU56PU57PU7PU15PU63圖8.6 Illiac IV處理部件的連接tiger September 201635圖8.7 Illiac IV處理單元原理框圖tiger September 201636數(shù)組處理的運(yùn)算部分n處理單元可以對64位、32 位和8位操作數(shù)進(jìn)行多種算術(shù)和邏輯操作,也包括48位、24位或8位定點(diǎn)運(yùn)算

30、n將64個64位處理單元的硬件當(dāng)作64個64位、128個32位或512個8位的處理單元發(fā)揮作用n并行加法的速度為每秒1010次8位定點(diǎn)加法,或每秒150 x106次64位浮點(diǎn)加法tiger September 201637處理單元n有6個可編程序寄存器RGA、RGB、RGR、RGS、RGX和RGM,以及加/乘算術(shù)單元AU、邏輯單元LU、移位單元SU和地址加法器ADAnRGA是累加寄存器,存放第一操作數(shù)和操作結(jié)果nRGB是操作數(shù)寄存器,存放加、減、乘、除等二元操作的第2操作數(shù)nRGR是被乘數(shù)寄存器兼互連寄存器,經(jīng)過東、西、南、北4個互連路徑之一完成處理單元之間的數(shù)據(jù)直接傳送nRGS是通用寄存器,

31、可被程序用來暫存中間結(jié)果n4個寄存器都是64位n操作數(shù)來自4個方面:PU本身的寄存器;陣列存儲器;CU的公共數(shù)據(jù)總線;PE的4個近鄰n16位的RGX是變址寄存器,它利用地址加法器ADA修改指令地址,并將形成的有效地址經(jīng)過存儲器地址寄存器MAR輸往存儲器邏輯部件MLUtiger September 2016388位模式寄存器RGMnE和E1位是活動標(biāo)志位n控制RGA、RGS和陣列存儲器的工作,E還控制RGXnPE以32位字長運(yùn)算時,E和E1是互相獨(dú)立的n64個處理單元中的每一個處理單元都可以進(jìn)行單獨(dú)控制。只有那些處于活動狀態(tài)的處理單元才執(zhí)行單指令流規(guī)定的共同操作nF和F1位保存運(yùn)算結(jié)果出錯(上溢

32、、下溢)標(biāo)志nG、H、I、J位保存測試結(jié)果nRGM處于CU的監(jiān)督之下,一旦出錯,就發(fā)出CU陷阱中斷nRGM處于程序員的控制之下,可根據(jù)其它幾個寄存器的內(nèi)容置為活動或不活動狀態(tài)n有一種指令能在RGR的內(nèi)容大于RGA的內(nèi)容時置該處理單元為不活動狀態(tài)。n模式寄存器在陣列處理機(jī)中是必不可少的,它對增強(qiáng)陣列處理機(jī)的功能和結(jié)構(gòu)靈活性發(fā)揮著很大的作用tiger September 201639處理單元存儲器PEMn處理單元存儲器PEM分屬每一個處理單元,各有204864位的存儲容量和不大于350ns的取數(shù)時間n64個PEM聯(lián)合組成陣列存儲器,存放數(shù)據(jù)和指令n整個陣列存儲器可以接受控制器的訪問,讀出8個字的信

33、息塊到它的緩沖器中,也可經(jīng)過1024位的總線與I/O開關(guān)相連n每一個處理單元只能訪問自己的存儲器n分布在各個處理單元存儲器中的公共數(shù)據(jù),讀至控制器后,經(jīng)公共數(shù)據(jù)總線廣播到64個處理單元n節(jié)省存儲空間,且允許公共數(shù)據(jù)的存取與其它操作在時間上重疊n陣列存儲器就如同一個二維訪問存儲器n把64個PEM看成列,把每一個PEM本身看成行nCU對它是按列訪問,PE對它是按行訪問tiger September 201640陣列存儲器n陣列存儲器的另一個特點(diǎn)是它的雙重變址機(jī)構(gòu)n控制器實(shí)現(xiàn)所有處理單元的公共變址n每一個處理單元內(nèi)部還可以單獨(dú)變址n最終的操作數(shù)有效地址對PEi來說由下式?jīng)Q定nai=a+(b)+(ci

34、) na是指令地址n(b)是CU中央變址寄存器內(nèi)容n(ci)是局部變址寄存器內(nèi)容n這種安排增加了各處理單元存儲器之間數(shù)據(jù)分配的靈活性,對于分別處理矩陣的行和列及其它維數(shù)結(jié)構(gòu)很有效nPE和PEM之間經(jīng)過存儲器邏輯部件MLU相連,它包含存儲器信息寄存器和有關(guān)控制邏輯線路,實(shí)現(xiàn)PEM分別和PE、CU以及I/O之間的信息傳送tiger September 2016412 陣列控制器n陣列控制器CU實(shí)際上是一臺小型控制計(jì)算機(jī)n對陣列處理單元實(shí)行控制和完成標(biāo)量操作n標(biāo)量操作與各PE的數(shù)組操作可以重疊執(zhí)行n控制器的功能n(1)對指令進(jìn)行譯碼,并執(zhí)行標(biāo)量指令n(2)向各處理單元發(fā)出執(zhí)行數(shù)組操作指令所需的控制信

35、號n(3)產(chǎn)生和向所有處理單元廣播公共的地址n(4)產(chǎn)生和向所有處理單元廣播公共的數(shù)據(jù)n(5)接收和處理PE、I/O操作及B6700產(chǎn)生的陷阱中斷信號tiger September 2016424條信息通路n(1) CU總線n處理單元存儲器PEM經(jīng)過CU總線把指令和數(shù)據(jù)送往陣列控制器,以8個64位字為一信息塊n指令是指分布存放在陣列存儲器中用戶程序的指令n數(shù)據(jù)可以是處理所需的公共數(shù)據(jù),先將它們送到CU,再利用CU的廣播功能送到各處理單元n(2) 公共數(shù)據(jù)總線CDB (Common Data Bus)nIBM 360 p311圖5.64n64位總線,用作向64個處理單元同時廣播公共數(shù)據(jù)的通路n作

36、為公共乘數(shù)的常數(shù)不必在64個PEM重復(fù)存放,可由CU的某個寄存器送往各處理單元n指令的操作數(shù)和地址部分也經(jīng)過CDB送來tiger September 2016434條信息通路n(3) 模式位線(mode bit line)n每一個單元都可經(jīng)模式位線把它的模式寄存器(mode register)狀態(tài)送到CU,送來的信息中包括該處理單元的活動狀態(tài)位n只有那些處于活動狀態(tài)的處理單元才執(zhí)行單指令流所規(guī)定的公共操作n從64個處理單元送往CU的模式位在CU的累加寄存器中拼成一個模式字n在CU內(nèi)部執(zhí)行一定的測試指令,對模式字進(jìn)行測試n根據(jù)測試結(jié)果控制要求的程序轉(zhuǎn)移動作n(4) 指令控制線n處理單元微操作控制

37、信號和處理單元存儲器地址、讀/寫控制信號n經(jīng)約200根指令控制線由CU送到陣列處理單元PE和存儲器邏輯部件MLUtiger September 2016443 輸入輸出系統(tǒng)nIlliac IV的輸入輸出系統(tǒng)的組成n磁盤文件系統(tǒng)DFSnI/O分系統(tǒng)n一臺B6700處理機(jī)tiger September 201645磁盤文件系統(tǒng)DFSn兩套大容量并行讀寫磁盤系統(tǒng)及其相應(yīng)的控制器n每套有13臺磁盤機(jī),總?cè)萘繛?09位(=1Gb)n每臺磁盤機(jī)有128道,每道一個磁頭,并行讀寫,數(shù)據(jù)寬度為256位n最大傳輸率為502x106位/秒(=502Mb/s)n平均等待時間為19.6msn兩個通道同時發(fā)送或接收數(shù)據(jù)

38、時,數(shù)據(jù)寬度為512位,最大傳輸率可達(dá)109位/秒(=1Gb/s)tiger September 201646I/O分系統(tǒng)n包括三部分n輸入/輸出開關(guān)IOSn控制描述字控制器CDCn輸入/輸出緩沖存儲器BIOMnIOS的功能n作為名副其實(shí)的開關(guān),把DFS或可能連上的實(shí)時裝置轉(zhuǎn)接到陣列存儲器,進(jìn)行大批數(shù)據(jù)的I/O傳送n作為DFS和PEM之間的緩沖,以平衡兩邊不同的數(shù)據(jù)寬度nCDC對陣列控制器的I/O請求進(jìn)行管理nCDC使B6700管理計(jì)算機(jī)中斷,由它響應(yīng)I/O請求,并通過CDC給CU送回響應(yīng)代碼,在CU中設(shè)置控制狀態(tài)字n然后,CDC使B6700啟動PEM的加載過程,DFS向PEM送入程序和數(shù)據(jù)n

39、PEM加載完畢后,由CDC向CU傳送控制信號,使它開始執(zhí)行Illiac IV的程序tiger September 201647I/O分系統(tǒng)nBIOM處在DFS和B6700之間,匹配二者之間的傳送頻帶n把B6700的48位字變換為Illiac IV的64位字,以兩個字共128位的數(shù)據(jù)寬度輸送給DFSnBIOM用4個PE存儲器做成,總?cè)萘繛?192x64位nB6700存儲器經(jīng)CPU輸送數(shù)據(jù)的頻帶是80 x106位/秒 ,DFS輸送數(shù)據(jù)的頻帶是500 x106位/秒,二者相比超過6倍nBIOM作為B6700和DFS間的緩沖tiger September 201648B6700nB6700管理計(jì)算機(jī)的

40、基本組成部分n單中央處理器(另一CPU可選)n32K字內(nèi)存(可擴(kuò)充至512K字)n經(jīng)過多路開關(guān)控制的一大批外圍設(shè)備n一臺容量為1012位(=1Tb)的激光外存儲器nARPA網(wǎng)絡(luò)接口nB6700的作用是管理全部系統(tǒng)資源n完成用戶程序的編譯或匯編n為Illiac IV 進(jìn)行作業(yè)調(diào)度、存儲分配、產(chǎn)生入/出控制描述字送至CDC、處理中斷n提供操作系統(tǒng)所具備的其它服務(wù)tiger September 2016498.3.2 BSP計(jì)算機(jī)nBurroughs Scientific Processor (BSP)計(jì)算機(jī)由美國寶來公司和伊利諾依大學(xué)于1979年制造n共享存儲器結(jié)構(gòu)的SIMD計(jì)算機(jī)的典型代表nBS

41、P不是一臺獨(dú)立運(yùn)行的計(jì)算機(jī),是附屬于系統(tǒng)管理機(jī)的一臺后端處理機(jī)nBSP承擔(dān)算術(shù)運(yùn)算,系統(tǒng)管理機(jī)提供分時服務(wù)、數(shù)據(jù)和程序文件編輯、與遠(yuǎn)程作業(yè)站終端、網(wǎng)絡(luò)的數(shù)據(jù)通信、BSP程序的向量化編譯和連接、數(shù)據(jù)長期存儲以及數(shù)據(jù)庫管理等功能nBSP由控制處理機(jī)、并行處理機(jī)、文件存儲器、并行存儲器模塊以及對準(zhǔn)網(wǎng)絡(luò)等組成 tiger September 201650圖8.9 BSP的功能結(jié)構(gòu)與流水線處理tiger September 201651圖8.9 BSP的功能結(jié)構(gòu)與流水線處理16算術(shù)單元(AE5)輸 出對準(zhǔn)輸 入對準(zhǔn)17并行存儲器模塊(5-8兆字)(PPS) 并行處理機(jī)控制控制維護(hù)單元標(biāo)量處理機(jī)控制存儲器

42、 (256K字)系統(tǒng)管理機(jī)B 7700/B 7800文件存儲 器 系統(tǒng)(FM)并行處理機(jī)(50MFLOPS)BSP外圍設(shè)備與終端75兆字節(jié)/秒控制通信(PMs)tiger September 2016521 并行處理機(jī)n并行處理機(jī)以160ns的時鐘周期進(jìn)行向量計(jì)算n所有16個算術(shù)單元AE對不同的數(shù)據(jù)組(從并行處理機(jī)控制器廣播來)進(jìn)行同一種指令操作n大部分的算術(shù)運(yùn)算能在2個時鐘周期(320ns)內(nèi)完成nBSP的執(zhí)行速度最高可達(dá)50MFLOPSn進(jìn)行向量運(yùn)算的數(shù)據(jù)存在17個并行存儲器模塊中,每個模塊的容量可達(dá)512K字,周期時間為160nsn數(shù)據(jù)在存儲器模塊和AE間以每秒100M字的速率進(jìn)行傳輸n

43、17個存儲器模塊的組織形成一個無沖突訪問存儲器,它容許對任意長度以及跳距不是17倍數(shù)的向量實(shí)現(xiàn)無沖突存取n16個AE是以SIMD方式在單一微序列控制下同步工作n每個AE中,只有最原始的操作才采用硬連線方式n控制字的寬度為100位。除實(shí)現(xiàn)浮點(diǎn)操作以外,AE還有較強(qiáng)的非數(shù)值處理能力tiger September 201653PE性能提高,數(shù)量降低n浮點(diǎn)加、減和乘都能在兩個時鐘周期內(nèi)完成n采用兩個時鐘周期可使存儲器頻寬與AE進(jìn)行三元操作時的頻寬相平衡n浮點(diǎn)除要用1200ns,用Newton-Raphson迭代算法產(chǎn)生倒數(shù)來實(shí)現(xiàn)n每個AE設(shè)有只讀存儲器,給出除法和平方根迭代的第一次近似值n浮點(diǎn)字長為4

44、8位,尾數(shù)為36位有效值,階碼為10位,以2為底。數(shù)的精度可達(dá)到十進(jìn)制11位nAE在關(guān)鍵部位設(shè)置了雙字長累加器和雙字長寄存器,使雙精度運(yùn)算直接用硬件實(shí)現(xiàn)nAE還可用軟件方法來實(shí)現(xiàn)三倍精度的算術(shù)運(yùn)算n可估算出,BSP用Fortran來表達(dá)的很大范圍的計(jì)算問題中,速度可達(dá)20到40MFLOPStiger September 2016542 控制處理機(jī)n用以控制并行處理機(jī)n提供與系統(tǒng)管理機(jī)相連的接口n標(biāo)量處理機(jī)處理存儲在控制存儲器中的全部操作系統(tǒng)和用戶程序的指令n以12MHz的時鐘頻率執(zhí)行用戶程序的串行或標(biāo)量部分,最高速度可達(dá)1.5MFLOPSn全部的向量指令以及某些成組的標(biāo)量指令被送給并行處理機(jī)控

45、制器。在經(jīng)過合格性檢查之后,控制器將它們轉(zhuǎn)換為微序列,去控制16個AE操作n雙極型控制存儲器的容量為256K字,周期時間為160ns,每個字長48位另加8位奇偶校驗(yàn)位,提供單錯校正雙錯檢測(SECDED)n控制維護(hù)單元是系統(tǒng)管理機(jī)與控制處理機(jī)其余部分之間的接口,用來進(jìn)行初始化、監(jiān)控命令通信和維護(hù)tiger September 2016553 文件存儲器n是一個半導(dǎo)體輔助存儲器nBSP的計(jì)算任務(wù)文件從系統(tǒng)管理機(jī)加載到它上面。然后對這些任務(wù)進(jìn)行排隊(duì),由控制處理機(jī)加以執(zhí)行nBSP程序執(zhí)行過程中所產(chǎn)生的暫存文件和輸出文件,在將它們送給系統(tǒng)管理機(jī)輸出給用戶之前存在文件存儲器n數(shù)據(jù)傳輸率較高,大大地緩解了

46、I/O受限問題n是BSP唯一直接控制的外圍設(shè)備,其它外圍設(shè)備由系統(tǒng)管理機(jī)控制tiger September 2016564 對準(zhǔn)網(wǎng)絡(luò)n對準(zhǔn)網(wǎng)絡(luò)包含n完全交叉開關(guān)n實(shí)現(xiàn)數(shù)據(jù)從一個源廣播至幾個目的地以及當(dāng)幾個源尋找一個目的地時能分解沖突的硬件n在算術(shù)單元陣列和存儲器模塊間具備通用的互連特性n存儲器模塊和對準(zhǔn)網(wǎng)絡(luò)的組合功能提供了并行存儲器的無沖突訪問能力n算術(shù)單元也利用輸出對準(zhǔn)網(wǎng)絡(luò)來實(shí)現(xiàn)一些諸如數(shù)據(jù)壓縮和擴(kuò)展操作以及快速傅里葉變換算法等專用功能tiger September 201657存儲器-存儲器型的浮點(diǎn)運(yùn)算流水進(jìn)行nBSP的流水線由5個功能級組成n16個操作數(shù)從存儲器模塊取出,通過輸入對準(zhǔn)網(wǎng)絡(luò)

47、送給AE,再將結(jié)果經(jīng)輸出對準(zhǔn)網(wǎng)絡(luò)送存儲器模塊n這幾級的操作重疊進(jìn)行n利用時間并行性進(jìn)一步獲得性能n物理上輸入對準(zhǔn)和輸出對準(zhǔn)都在一個實(shí)際對準(zhǔn)網(wǎng)絡(luò)進(jìn)行n除16個AE中的空間并行性以及讀取、對準(zhǔn)和存儲的流水線操作外,AE中的向量運(yùn)算可同標(biāo)量處理機(jī)的標(biāo)量處理重疊nBSP既適于處理長向量和短向量,也能處理單獨(dú)的標(biāo)量tiger September 2016585 質(zhì)數(shù)存儲系統(tǒng)nBSP并行存儲器由17個周期時間為160ns的存儲模塊組成n每個周期存取16個字,每個字的最大有效存儲周期為10nsn與算術(shù)單元完成浮點(diǎn)加和乘的速率很好地平衡n每次運(yùn)算需要兩個變量,算術(shù)單元中設(shè)有中間寄存器其運(yùn)算速度為320ns/1

48、6次=20ns/次n程序和標(biāo)量都存放在控制存儲器中,只有數(shù)組存取(包括I/O)才用到并行存儲器n三元向量兩次算術(shù)運(yùn)算中需要用到3個變量,產(chǎn)生一個結(jié)果,共訪問存儲器4次,在并行存儲器和浮點(diǎn)運(yùn)算之間的頻帶保持完全平衡n長向量中間結(jié)果都存在寄存器中,每次運(yùn)算只需1個操作數(shù)n并行存儲器有足夠的頻寬留給輸入和輸出信息tiger September 2016595 質(zhì)數(shù)存儲系統(tǒng)nBSP并行存儲器的主要革新是采用了17個存儲模塊n之前的巨型機(jī)普遍用多個并行存儲器模塊,易因訪問沖突而使頻帶嚴(yán)重變窄nBSP的一個獨(dú)特的性能就是它的存儲系統(tǒng)可無沖突訪問,每個存儲周期送給每個PE一個有用的操作數(shù)n存儲器中向量元素的

49、間距不一定為1。因而DO循環(huán)可以有非單位增量,或者程序可以訪問矩陣的行、列和對角線而無需付出額外的代價n巨型機(jī)的設(shè)計(jì)者或?qū)κ褂么鎯ζ髯鲊?yán)格的訪問限制,或采用昂貴的快速存儲器件,用很寬的存儲器頻帶來獲得一定程度無沖突訪問的功能tiger September 2016605 質(zhì)數(shù)存儲系統(tǒng)n在BSP中保證無沖突訪問的硬件技術(shù)n質(zhì)數(shù)個存儲器端口n存儲器端口和AE間的完全交叉開關(guān)n特殊的存儲器地址生成機(jī)構(gòu),為具體的地址模式計(jì)算出合適的地址n地址模式是指正統(tǒng)的串行計(jì)算機(jī)所用的那一種模式n并行存儲器采用這種模式能與當(dāng)前程序設(shè)計(jì)語言的所有結(jié)構(gòu)完全兼容。特別是Fortran的EQUIVALENCE、COMMON

50、以及數(shù)組參數(shù)傳送都可用常規(guī)計(jì)算機(jī)上一樣的方法來實(shí)現(xiàn)n數(shù)組元素的地址相隔是存儲器模塊數(shù)的整數(shù)倍時,沖突一定發(fā)生n這時所有要訪問的值處于同一個存儲器模塊nBSP應(yīng)避免跳距為17、34、51等情況n51是有問題的跳距。正好是列長度為50的數(shù)組的正向?qū)蔷€元素存儲地址的跳距tiger September 2016615 質(zhì)數(shù)存儲系統(tǒng)n在BSP中發(fā)生沖突,運(yùn)算仍可正確進(jìn)行,但速度下降到正常速度的1/16n系統(tǒng)記錄沖突以及它們對總的運(yùn)行時間影響的情況,以便在這種影響太大時使程序員采取一定的改進(jìn)措施nBSP可對下列4類操作進(jìn)行并行計(jì)算n(1)16個算術(shù)單元實(shí)現(xiàn)并行運(yùn)算n(2)存儲器的讀取和存儲及存儲器和算術(shù)

51、單元間的數(shù)據(jù)傳輸n(3)并行處理機(jī)控制器的變址值、向量長度和循環(huán)控制計(jì)算n(4)線性向量操作描述字在標(biāo)量處理機(jī)中的生成tiger September 201662nIlliac IV 重疊-重復(fù),通過SIMD實(shí)現(xiàn)高性能nBSP 優(yōu)化nCM-2 性能的飛躍tiger September 2016638.3.3 CM-2計(jì)算機(jī)nThinking Machines的Connection Machine CM-2是細(xì)粒度SIMD計(jì)算機(jī), 1990年n由數(shù)千個位片PE組成n峰值處理速度超過10Gflopsn程序從前端開始執(zhí)行,需要并行數(shù)據(jù)操作時,發(fā)送微指令到后端處理陣列n定序器(sequencer)分解

52、這些微指令并且把它們廣播給陣列中的所有數(shù)據(jù)處理器(data processor)n前端機(jī)和處理陣列間有3條交換數(shù)據(jù)計(jì)算結(jié)果的通路n廣播總線(broadcasting)n全局組合總線(global combining)n標(biāo)量存儲器總線(scalar memory bus)n通過廣播總線把數(shù)據(jù)或指令同時傳送到所有數(shù)據(jù)處理器n前端機(jī)通過全局組合總線對來自各處理器的數(shù)據(jù)進(jìn)行求和、最大值、邏輯或等運(yùn)算-從二進(jìn)制向量還原、重構(gòu)二進(jìn)制數(shù)據(jù)n前端機(jī)每次通過標(biāo)量總線從與數(shù)據(jù)處理器相連的存儲器讀取32位數(shù)據(jù)、或每次將32位數(shù)據(jù)寫入與數(shù)據(jù)處理器相連的存儲器nVAX和Symbolics機(jī)都可用作前端機(jī)和主機(jī)tiger

53、 September 201664圖8.11 CM-2的系統(tǒng)結(jié)構(gòu)tiger September 2016651 處理陣列nCM-2是一臺數(shù)據(jù)并行計(jì)算的后端機(jī)n處理陣列包含4K到64K個位片數(shù)據(jù)處理器(或PE)n數(shù)據(jù)處理器由定序器控制n定序器對來自前端機(jī)的微指令進(jìn)行譯碼,然后把毫微指令廣播到陣列中各個處理器n前端機(jī) 定序器 處理器n指令 微指令 毫微指令n所有處理器可同時訪問它們的存儲器,以鎖步方式執(zhí)行廣播來的指令n處理器之間通過尋徑、NEWS網(wǎng)格(NEWS gird)或掃描機(jī)構(gòu)(scanning mechanism) 相互交換數(shù)據(jù)n這些網(wǎng)絡(luò)也與I/O接口相連n稱為數(shù)據(jù)穹(data vault)

54、的大容量存儲器子系統(tǒng)與I/O相連n數(shù)據(jù)穹是基于磁盤的海量存儲系統(tǒng),用來存放程序文件和大數(shù)據(jù)庫??纱鎯Χ噙_(dá)60G字節(jié)的數(shù)據(jù)tiger September 2016661 處理陣列n每個處理器結(jié)點(diǎn)包括32個位片數(shù)據(jù)處理器、一個可選的浮點(diǎn)加速器和處理器之間通信的接口n每個數(shù)據(jù)處理器用3個輸入和2個輸出的位片ALU、鎖存器和存儲器接口實(shí)現(xiàn)nALU可執(zhí)行位串全加操作和布爾邏輯操作n每個結(jié)點(diǎn)有一對處理器芯片,共享一組存儲器芯片n每個處理芯片有16個處理器n稱為Pairs的并行指令系統(tǒng)包括許多毫微指令n用于存儲器的裝入和存儲、算術(shù)和邏輯運(yùn)算、尋徑器控制、NEWS網(wǎng)格控制、超立方體接口控制、浮點(diǎn)運(yùn)算、I/O和診斷操作n每個存儲器芯片由一對處理器芯片的32個處理器共享-不劃分到位n存儲器數(shù)據(jù)路徑寬度22位(16位數(shù)據(jù)-16P每個1位和6位ECC)n18位存儲器地址允許32個處理器共享218=256K個存儲器字(512K字節(jié)數(shù)據(jù))n浮點(diǎn)芯片一次執(zhí)行32位的操作-對應(yīng)兩個芯片的32個P(32位)。中間計(jì)算結(jié)果可存入存儲器供后續(xù)運(yùn)算使用n整數(shù)算術(shù)運(yùn)算直接由32個處理器以位串方式執(zhí)行tiger September 201667兩個處理器芯片、一組存儲器和浮點(diǎn)芯片組成的CM-2處理結(jié)點(diǎn)tiger Sep

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論