計(jì)算機(jī)體系結(jié)構(gòu)（第二版）課件第六章指令級(jí)高度并行處理機(jī)的組織

上傳人：1*** IP屬地：廣東上傳時(shí)間：2023-12-20 格式：PPT 頁數(shù)：39 大?。?.23MB 積分：12 舉報(bào) 版權(quán)申訴

計(jì)算機(jī)體系結(jié)構(gòu)（第二版）課件第六章指令級(jí)高度并行處理機(jī)的組織_第2頁

計(jì)算機(jī)體系結(jié)構(gòu)（第二版）課件第六章指令級(jí)高度并行處理機(jī)的組織_第3頁

計(jì)算機(jī)體系結(jié)構(gòu)（第二版）課件第六章指令級(jí)高度并行處理機(jī)的組織_第4頁

計(jì)算機(jī)體系結(jié)構(gòu)（第二版）課件第六章指令級(jí)高度并行處理機(jī)的組織_第5頁

已閱讀5頁，還剩34頁未讀，繼續(xù)免費(fèi)閱讀

版權(quán)說明：本文檔由用戶提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

指令級(jí)高度并行技術(shù)是指細(xì)粒度并行性，包含時(shí)間并行技術(shù)和空間并行技術(shù)。本章在介紹指令級(jí)高度并行處理的基本概念、實(shí)現(xiàn)的技術(shù)方法和指令級(jí)高度并行處理機(jī)的分類的基礎(chǔ)上，討論硬件動(dòng)態(tài)指令調(diào)度技術(shù)，闡述超標(biāo)量與超流水線處理機(jī)、超長指令字處理機(jī)和向量處理機(jī)等的基本結(jié)構(gòu)、工作機(jī)理和性能特點(diǎn)。

第一節(jié)指令級(jí)高度并行處理機(jī)的基本概念第二節(jié)

硬件動(dòng)態(tài)指令調(diào)度--硬件方法第三節(jié)基于硬件技術(shù)的多發(fā)射處理機(jī)第四節(jié)基于軟件技術(shù)的多發(fā)射處理機(jī)

第一節(jié)指令級(jí)高度并行處理機(jī)的基本概念1.實(shí)現(xiàn)指令級(jí)并行的技術(shù)方法時(shí)間重疊----超流水線資源重復(fù)----超標(biāo)量資源重復(fù)和指令格式優(yōu)化組合----超長指令字超流水線技術(shù)和超標(biāo)量技術(shù)結(jié)合2.指令級(jí)并行度

ILP=程序執(zhí)行的指令數(shù)/程序執(zhí)行的周期數(shù)二、指令級(jí)并行的實(shí)現(xiàn)方法及其衡量指標(biāo)四、指令調(diào)度及其基本方法

1.什么是指令調(diào)度

指令調(diào)度是指通過指令重組來提高指令級(jí)的并行度ILP，找出不相關(guān)的指令序列，使它們盡可能地并發(fā)執(zhí)行。通過指令調(diào)度可提高處理機(jī)的并行度。

2.指令調(diào)度的基本方法

指令調(diào)度的基本方法有靜態(tài)調(diào)度和動(dòng)態(tài)調(diào)度。靜態(tài)調(diào)度（staticscheduling）是由優(yōu)化編譯程序來完成對(duì)指令序列的重排，拉開具有數(shù)據(jù)相關(guān)的有關(guān)指令間的距離，以減少可能產(chǎn)生的流水線的停頓。動(dòng)態(tài)調(diào)度是指能在保持?jǐn)?shù)據(jù)流和異常行為的情況下，通過硬件對(duì)指令順序進(jìn)行重排，減少數(shù)據(jù)相關(guān)導(dǎo)致的流水線的停頓，從而提高流水線的利用率。

第一節(jié)指令級(jí)高度并行處理機(jī)的基本概念

五、靜態(tài)指令調(diào)度----軟件方法

1.靜態(tài)指令調(diào)度的方法靜態(tài)指令調(diào)度是通過優(yōu)化編譯程序來完成指令重組，優(yōu)化編譯程序完成指令調(diào)度的能力受限于兩個(gè)特性：一是程序固有的指令并行，二是流水線功能部件的執(zhí)行延遲（流水線功能段段數(shù)）。靜態(tài)指令調(diào)度并不會(huì)真正消除指令間的相關(guān)，而是通過重新安排指令的流出順序，使指令間的相關(guān)盡可能少地引起流水線的空轉(zhuǎn)，減少整個(gè)指令序列在流水線上的執(zhí)行時(shí)間。靜態(tài)指令調(diào)度可分為局部指令調(diào)度和全局指令調(diào)度。局部指令調(diào)度是指在順序結(jié)構(gòu)程序段（基本塊）內(nèi)進(jìn)行指令重組，而全局指令調(diào)度則是指在含有分支結(jié)構(gòu)程序段內(nèi)實(shí)現(xiàn)多個(gè)基本塊間移動(dòng)指令。全局指令調(diào)度主要有兩種技術(shù)：蹤跡調(diào)度和超塊調(diào)度。

第一節(jié)指令級(jí)高度并行處理機(jī)的基本概念2.局部指令調(diào)度

例如對(duì)于源代碼：

for(i=1000；i>0；i――)x[i]=x[i]+s；轉(zhuǎn)換成匯編語言為：Loop：L.DF0，（R1）//取一個(gè)向量元素放入F0，延遲時(shí)鐘數(shù)為2ADD.DF4，F(xiàn)0，F(xiàn)2//加上在F2中的標(biāo)量，延遲時(shí)鐘數(shù)為3S.DF4，（R1）//存結(jié)果，延遲時(shí)鐘數(shù)為1DADDIUR1，R1，#-8 //將指針減8，延遲時(shí)鐘數(shù)為2BNER1，R2，Loop //若R1不等于R2，延遲時(shí)鐘數(shù)為2

其中：整數(shù)寄存器R1用于指向向量中的當(dāng)前元素，其初值指向第一個(gè)元素，（R2）指向最后一個(gè)元素，浮點(diǎn)寄存器F2用于保存常數(shù)。

第一節(jié)指令級(jí)高度并行處理機(jī)的基本概念

第一節(jié)指令級(jí)高度并行處理機(jī)的基本概念在不進(jìn)行指令調(diào)度的情況下，程序的實(shí)際執(zhí)行過程如下：

Loop：L.DF0，（R1） 1（時(shí)鐘序號(hào)，下同）（空轉(zhuǎn)） 2ADD.DF4，F(xiàn)0，F(xiàn)2 3

（空轉(zhuǎn)） 4

（空轉(zhuǎn)） 5S.DF4，（R1） 6DADDIUR1，R1,#-8 7

（空轉(zhuǎn)） 8BNER1，R2，Loop 9

（空轉(zhuǎn)） 10

可以看出，每完成一個(gè)元素的操作需要10個(gè)時(shí)鐘周期，其中有5個(gè)是空轉(zhuǎn)周期。在用編譯器對(duì)上述程序進(jìn)行指令調(diào)度以后，程序的執(zhí)行如下：

第一節(jié)指令級(jí)高度并行處理機(jī)的基本概念Loop：L.DF0，（R1） 1（時(shí)鐘序號(hào)，下同）

DADDIU R1，R1，#-82ADD.D F4，F(xiàn)0，F(xiàn)23

（空轉(zhuǎn)） 4BNE R1，R2，Loop 5S.D F4，（R1+8） 6

把DADDIU指令調(diào)度到了L.D指令和ADD.D指令之間的“空轉(zhuǎn)”拍，把S.D指令領(lǐng)先到了分支指令的延遲槽中。由于修改指針的DADDIU指令被調(diào)度到S.D指令之前，提前對(duì)指針進(jìn)行了減8的操作，所以要對(duì)S.D指令中的偏移量進(jìn)行修正，即把“（R1）”改為“（R1+8）”。經(jīng)過指令調(diào)度后，一個(gè)元素的操作時(shí)間從10個(gè)時(shí)鐘周期減少到了6個(gè)時(shí)鐘周期，其中5個(gè)周期是有指令執(zhí)行的，只剩下一個(gè)空轉(zhuǎn)周期。

第一節(jié)指令級(jí)高度并行處理機(jī)的基本概念

當(dāng)然，編譯指令調(diào)度并不會(huì)真正消除指令間的相關(guān)，而是通過重新安排指令的流出順序，使得指令間的相關(guān)盡可能少地引起流水線空轉(zhuǎn)，從而減少整個(gè)指令序列在流水線上的執(zhí)行時(shí)間。特別地基本指令調(diào)度方法，指令調(diào)度不能跨越分支指令，舉例中S.D指令被調(diào)度到BNE指令的分支延遲槽中，不屬于跨越分支指令的情況。通常指令調(diào)度要求在基本塊內(nèi)進(jìn)行，這種指令調(diào)度稱為局部指令調(diào)度或基本指令調(diào)度。它在指令調(diào)度過程中往往要加入空轉(zhuǎn)周期，使得整個(gè)執(zhí)行過程中的有效操作的比率不高，對(duì)流水線效率的提高作用不大。因此，提出了不受基本塊限制的靜態(tài)指令調(diào)度方法。

第一節(jié)指令級(jí)高度并行處理機(jī)的基本概念3.循環(huán)展開

上例中，雖然完成對(duì)一個(gè)元素的操作時(shí)間從10個(gè)時(shí)鐘周期減少到6個(gè)時(shí)鐘周期，但其中只有L.D、ADD.D和S.D這3條指令是需要的有效操作，占用3個(gè)時(shí)鐘周期，而DADDIU、空轉(zhuǎn)和BEN這3個(gè)時(shí)鐘周期都是為了控制循環(huán)和解決數(shù)據(jù)相關(guān)等待而附加的，因此整個(gè)執(zhí)行過程中有效操作的比率并不高。這是因?yàn)槊總€(gè)循環(huán)迭代中只有5條指令，進(jìn)行指令調(diào)度的余地很小，必須想辦法增加每個(gè)循環(huán)迭代中的指令數(shù)，循環(huán)展開（LoopUnrolling）就是解決這一問題的有效方法之一。循環(huán)的不同迭代之間存在的并行性是增加指令間并行性最簡單和最常用的方法。所謂循環(huán)展開（LoopUnrolling）就是指把循環(huán)體的代碼復(fù)制多次并按順序排放，然后相應(yīng)調(diào)整循環(huán)的結(jié)束條件。通過循環(huán)展開，多個(gè)循環(huán)迭代的代碼可以合到一起調(diào)度，給編譯器進(jìn)行指令調(diào)度帶來了更大的空間，而且還能夠消除中間的分支指令和循環(huán)控制指令引起的開銷。

第一節(jié)指令級(jí)高度并行處理機(jī)的基本概念

對(duì)于上例，由于循環(huán)的不同迭代之間是不存在相關(guān)的，所以多次迭代可以并行執(zhí)行。假定R1的初值為32的倍數(shù)，即循環(huán)次數(shù)為4的倍數(shù)，將其循環(huán)展開3次得到4個(gè)循環(huán)體。而且由于循環(huán)結(jié)束后沒有剩余尚未執(zhí)行的操作，因此無須在循環(huán)體后面增加補(bǔ)償代碼。為消除冗余的指令，并且不要重復(fù)使用寄存器，對(duì)寄存器作如下分配：F0、F4已經(jīng)用于展開后的第1個(gè)循環(huán)體，F(xiàn)2用于保存常數(shù)；把F6和F8用于展開后的第2個(gè)循環(huán)體，F(xiàn)10和F12用于第3個(gè)循環(huán)體，

F14和F16用于第4個(gè)循環(huán)體。展開后沒有調(diào)度的代碼如下：

第一節(jié)指令級(jí)高度并行處理機(jī)的基本概念Loop：L.DF0，（R1）1（時(shí)鐘序號(hào)，下同）空轉(zhuǎn) 2ADD.DF4，F(xiàn)0，F(xiàn)2 3

（空轉(zhuǎn)） 4

（空轉(zhuǎn)） 5S.D F4，（R1） 6L.D F6，（R1-8） 7

（空轉(zhuǎn)） 8ADD.DF8，F(xiàn)6，F(xiàn)2 9

（空轉(zhuǎn)） 10

（空轉(zhuǎn)） 11S.D F8，（R1-8） 12L.D F10，（R1-16） 13

（空轉(zhuǎn)） 14ADD.DF12，F(xiàn)10，F(xiàn)2 15

（空轉(zhuǎn)） 16

（空轉(zhuǎn)） 17S.D F12，（R1-16） 18L.D F14，（R1-24） 19

（空轉(zhuǎn)） 20ADD.DF16，F(xiàn)14，F(xiàn)2 21

（空轉(zhuǎn)） 22

（空轉(zhuǎn)） 23S.D F16，（R1-24） 24DADDIUR1，R1，#-32 25

（空轉(zhuǎn)） 26BNER1，R2，Loop 27

（空轉(zhuǎn)） 28

第一節(jié)指令級(jí)高度并行處理機(jī)的基本概念

這里把展開后的前3個(gè)循環(huán)體中的DADDIU指令刪除了，并對(duì)L.D指令中的偏移量和最后留下的DADDIU指令中的立即數(shù)進(jìn)行了相應(yīng)修正。該循環(huán)有4個(gè)循環(huán)體共需要28個(gè)時(shí)鐘周期，完成4個(gè)元素的操作，平均每個(gè)元素使用28/4=7個(gè)時(shí)鐘周期。與源代碼的每個(gè)元素需要10個(gè)時(shí)鐘周期相比較，節(jié)省了不少的時(shí)間。這主要是從減少循環(huán)控制的開銷中獲得的。但是在展開后的循環(huán)體中，實(shí)際指令只有14條，其他14個(gè)周期都是空轉(zhuǎn)，可見效率并不高。對(duì)指令序列進(jìn)行優(yōu)化調(diào)度，可以減少空轉(zhuǎn)周期。

第一節(jié)指令級(jí)高度并行處理機(jī)的基本概念Loop：L.D F0，（R1） 1（時(shí)鐘序號(hào)，下同）

L.D F6，（R1-8） 2L.D F10，（R1-16） 3L.D F14，（R1-24） 4ADD.DF4，F(xiàn)0，F(xiàn)2 5ADD.DF8，F(xiàn)6，F(xiàn)2 6ADD.DF12，F(xiàn)10，F(xiàn)2 7ADD.DF16，F(xiàn)14，F(xiàn)2 8S.D F4，（R1） 9S.D F8，（R1-8） 10DADDIUR1，R1，#-32 12S.D F12，（R1+16） 11BNE R1，R2，Loop 13S.D F16，（R1+8） 14

這個(gè)循環(huán)由于沒有數(shù)據(jù)相關(guān)引起的空轉(zhuǎn)等待，整個(gè)循環(huán)僅僅使用了14個(gè)時(shí)鐘周期，平均每個(gè)元素使用14/4=3.5個(gè)時(shí)鐘周期。因此，通過循環(huán)展開、寄存器重命名和指令調(diào)度，可以有效地開發(fā)出指令級(jí)并行。當(dāng)循環(huán)體為簡單的順序結(jié)構(gòu)時(shí)，通過循環(huán)展開和基本指令調(diào)度來開發(fā)指令級(jí)并行，優(yōu)化效果非常明顯，因?yàn)樗鼈兛梢詫⒍鄠€(gè)循環(huán)迭代合并在一起，構(gòu)成一個(gè)更大的基本塊，不僅加大了指令調(diào)度的空間，而且減少了循環(huán)控制指令。但是，如果循環(huán)體不是順序結(jié)構(gòu)而是分支結(jié)構(gòu)時(shí)，指令調(diào)度就變得復(fù)雜。一般來說，高效地優(yōu)化含有分支結(jié)構(gòu)的循環(huán)體需要在多個(gè)基本塊間移動(dòng)指令，即需要全局指令調(diào)度。

第一節(jié)指令級(jí)高度并行處理機(jī)的基本概念

但循環(huán)展開和指令調(diào)度時(shí)要注意以下幾個(gè)方面。（1）保證正確性。在循環(huán)展開和調(diào)度過程中尤其要注意循環(huán)控制和操作數(shù)偏移量的修改的正確性。（2）注意有效性。只有找到不同循環(huán)體之間的無關(guān)性，才能夠有效地使用循環(huán)展開。（3）使用不同的寄存器。如果使用相同的寄存器，或者使用較少數(shù)量的寄存器，就可能導(dǎo)致新的沖突。（4）刪除多余的測(cè)試指令和分支指令，并對(duì)循環(huán)結(jié)束代碼和新的循環(huán)代碼進(jìn)行相應(yīng)的修正。（5）注意對(duì)存儲(chǔ)器數(shù)據(jù)的相關(guān)性分析。例如，對(duì)于load指令和store指令，如果它們?cè)诓煌难h(huán)迭代中訪問的存儲(chǔ)器地址是不同的，它們就是相互獨(dú)立的，可以相互對(duì)調(diào)。（6）注意新的相關(guān)性。由于原循環(huán)不同次的迭代在展開后都到了同一次循環(huán)體中，因此可能帶來新的相關(guān)性。