2020年計算機體系結(jié)構(gòu)課后習題原版答案_第1頁
2020年計算機體系結(jié)構(gòu)課后習題原版答案_第2頁
2020年計算機體系結(jié)構(gòu)課后習題原版答案_第3頁
2020年計算機體系結(jié)構(gòu)課后習題原版答案_第4頁
2020年計算機體系結(jié)構(gòu)課后習題原版答案_第5頁
已閱讀5頁,還剩88頁未讀 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

完整版計算機體系

結(jié)構(gòu)課后習題原版

答案張晨曦著

文檔僅供參考,不當之處,請聯(lián)系改正。

第1章計算機系統(tǒng)結(jié)構(gòu)的基本概念...........錯誤味定義書簽。

第2章指令集結(jié)構(gòu)的分類....................錯誤味定義書簽。

第3章流水線技術(shù)..........................錯誤!未定義書簽。

第4章指令級并行..........................錯誤!未定義書簽。

第5章存儲層次............................錯誤!未定義書簽。

第6章輸入輸出系統(tǒng)........................錯誤!未定義書簽。

第7章互連網(wǎng)絡(luò)........................................41

第獐多處理機........................................45

第9章機群............................................45

第1章計算機系統(tǒng)結(jié)構(gòu)的基本概念

1」解釋下列術(shù)語

層次機構(gòu):按照計算機語言從低級到高級的次序,把計算機系統(tǒng)

按功能劃分成多級層次結(jié)構(gòu),每一層以一種不同的語言為特征。

這些層次依次為:微程序機器級,傳統(tǒng)機器語言機器級,匯編語

言機器級,高級語言機器級,應(yīng)用語言機器級等。

虛擬機:用軟件實現(xiàn)的機器。

翻譯:先用轉(zhuǎn)換程序把高一級機器上的程序轉(zhuǎn)換為低一級機器上

文檔僅供參考,不當之處,請聯(lián)系改正。

等效的程序,然后再在這低一級機器上運行,實現(xiàn)程序的功能。

解釋:對于高一級機器上的程序中的每一條語句或指令,都是轉(zhuǎn)

去執(zhí)行低一級機器上的一段等效程序。執(zhí)行完后,再去高一級機

器取下一條語句或指令,再進行解釋執(zhí)行,如此重復,直到解釋

執(zhí)行完整個程序。

計算機系統(tǒng)結(jié)構(gòu):傳統(tǒng)機器程序員所看到的計算機屬性,即概念

性結(jié)構(gòu)與功能特性。

在計算機技術(shù)中,把這種原來存在的事物或?qū)傩裕珡哪撤N角度

看又仿佛不存在的概念稱為透明性。

計算機組成:計算機系統(tǒng)結(jié)構(gòu)的邏輯實現(xiàn),包含物理機器級中的

數(shù)據(jù)流和控制流的組成以及邏輯設(shè)計等。

計算機實現(xiàn):計算機組成的物理實現(xiàn),包括處理機、主存等部件

的物理結(jié)構(gòu),器件的集成度和速度,模塊、插件、底板的劃分與

連接,信號傳輸,電源、冷卻及整機裝配技術(shù)等。

系統(tǒng)加速比:對系統(tǒng)中某部分進行改進時,改進后系統(tǒng)性能提高

的倍數(shù)。

Amdahl定律:當對一個系統(tǒng)中的某個部件進行改進后,所能獲得

的整個系統(tǒng)性能的提高,受限于該部件的執(zhí)行時間占總執(zhí)行時間

的百分比。

文檔僅供參考,不當之處,請聯(lián)系改正。

程序的局部性原理:程序執(zhí)行時所訪問的存儲器地址不是隨機分

布的,而是相對地簇聚。包括時間局部性和空間局部性。

CPI:每條指令執(zhí)行的平均時鐘周期數(shù)。

測試程序套件:由各種不同的真實應(yīng)用程序構(gòu)成的一組測試程

序,用來測試計算機在各個方面的處理性能。

存儲程序計算機:馮?諾依曼結(jié)構(gòu)計算機。其基本點是指令驅(qū)動。

程序預先存放在計算機存儲器中,機器一旦啟動,就能按照程序

指定的邏輯順序執(zhí)行這些程序,自動完成由程序所描述的處理工

作。

系列機:由同一廠家生產(chǎn)的具有相同系統(tǒng)結(jié)構(gòu)、但具有不同組成

和實現(xiàn)的一系列不同型號的計算機。

軟件兼容:一個軟件能夠不經(jīng)修改或者只需少量修改就能夠由一

臺計算機移植到另一臺計算機上運行。差別只是執(zhí)行時間的不

同。

向上(下)兼容:按某檔計算機編制的程序,不加修改就能運行

于比它高(低)檔的計算機。

向后(前)兼容:按某個時期投入市場的某種型號計算機編制的

程序,不加修改地就能運行于在它之后(前)投入市場的計算

文檔僅供參考,不當之處,請聯(lián)系改正。

機。

兼容機:由不同公司廠家生產(chǎn)的具有相同系統(tǒng)結(jié)構(gòu)的計算機。

模擬:用軟件的方法在一臺現(xiàn)有的計算機(稱為宿主機)上實現(xiàn)

另一臺計算機(稱為虛擬機)的指令系統(tǒng)。

仿真:用一臺現(xiàn)有計算機(稱為宿主機)上的微程序去解釋實現(xiàn)

另一臺計算機(稱為目標機)的指令系統(tǒng)。

并行性:計算機系統(tǒng)在同一時刻或者同一時間間隔內(nèi)進行多種運

算或操作。只要在時間上相互重疊,就存在并行性。它包括同時

性與并發(fā)性兩種含義。

時間重疊:在并行性概念中引入時間因素,讓多個處理過程在時

間上相互錯開,輪流重疊地使用同一套硬件設(shè)備的各個部分,以

加快硬件周轉(zhuǎn)而贏得速度。

資源重復:在并行性概念中引入空間因素,以數(shù)量取勝。經(jīng)過重

復設(shè)置硬件資源,大幅度地提高計算機系統(tǒng)的性能。

資源共享:這是一種軟件方法,它使多個任務(wù)按一定時間順序輪

流使用同一套硬件設(shè)備。

耦合度:反映多機系統(tǒng)中各計算機之間物理連接的緊密程度和交

互作用能力的強弱。

文檔僅供參考,不當之處,請聯(lián)系改正。

緊密耦合系統(tǒng):又稱直接耦合系統(tǒng)。在這種系統(tǒng)中,計算機之間

的物理連接的頻帶較高,一般是經(jīng)過總線或高速開關(guān)互連,能夠

共享主存。

松散耦合系統(tǒng):又稱間接耦合系統(tǒng),一般是經(jīng)過通道或通信線路

實現(xiàn)計算機之間的互連,能夠共享外存設(shè)備(磁盤、磁帶等)。

計算機之間的相互作用是在文件或數(shù)據(jù)集一級上進行。

異構(gòu)型多處理機系統(tǒng):由多個不同類型、至少擔負不同功能的處

理機組成,它們按照作業(yè)要求的順序,利用時間重疊原理,依次

對它們的多個任務(wù)進行加工,各自完成規(guī)定的功能動作。

同構(gòu)型多處理機系統(tǒng):由多個同類型或至少擔負同等功能的處理

機組成,它們同時處理同一作業(yè)中能并行執(zhí)行的多個任務(wù)。

1.2試用實例說明計算機系統(tǒng)結(jié)構(gòu)、計算機組成與計算機實現(xiàn)

之間的相互關(guān)系。

答:如在設(shè)計主存系統(tǒng)時,確定主存容量、編址方式、尋址

范圍等屬于計算機系統(tǒng)結(jié)構(gòu)。確定主存周期、邏輯上是否采用并

行主存、邏輯設(shè)計等屬于計算機組成。選擇存儲芯片類型、微組

裝技術(shù)、線路設(shè)計等屬于計算機實現(xiàn)。

計算機組成是計算機系統(tǒng)結(jié)構(gòu)的邏輯實現(xiàn)。計算機實現(xiàn)是計算

機組成的物理實現(xiàn)。一種體系結(jié)構(gòu)能夠有多種組成。一種組成能

文檔僅供參考,不當之處,請聯(lián)系改正。

夠有多種實現(xiàn)。

1.3計算機系統(tǒng)結(jié)構(gòu)的Flynn分類法是按什么來分類的?共分

為哪幾類?

答:Flynn分類法是按照指令流和數(shù)據(jù)流的多倍性進行分類。

把計算機系統(tǒng)的結(jié)構(gòu)分為:

(1)單指令流單數(shù)據(jù)流SISD

(2)單指令流多數(shù)據(jù)流SIMD

(3)多指令流單數(shù)據(jù)流MISD

(4)多指令流多數(shù)據(jù)流MIMD

1.4計算機系統(tǒng)設(shè)計中經(jīng)常使用的4個定量原理是什么?并說

出它們的含義。

答:(1)以經(jīng)常性事件為重點。在計算機系統(tǒng)的設(shè)計中,對

經(jīng)常發(fā)生的情況,賦予它優(yōu)先的處理權(quán)和資源使用權(quán),以得到更

多的總體上的改進。(2)Amdahl定律。加快某部件執(zhí)行速度所

獲得的系統(tǒng)性能加速比,受限于該部件在系統(tǒng)中所占的重要性。

(3)CPU性能公式。執(zhí)行一個程序所需的CPU時間=ICXCPI

X時鐘周期時間。(4)程序的局部性原理。程序在執(zhí)行時所訪問

地址的分布不是隨機的,而是相對地簇聚。

1.5分別從執(zhí)行程序的角度和處理數(shù)據(jù)的角度來看,計算機系

統(tǒng)中并行性等級從低到高可分為哪幾級?

答:從處理數(shù)據(jù)的角度來看,并行性等級從低到高可分為:

文檔僅供參考,不當之處,請聯(lián)系改正。

(1)字串位串:每次只對一個字的一位進行處理。這是最基

本的串行處理方式,不存在并行性;

(2)字串位并:同時對一個字的全部位進行處理,不同字之

間是串行的。已開始出現(xiàn)并行性;

(3)字并位串:同時對許多字的同一位(稱為位片)進行處

理。這種方式具有較高的并行性;

(4)全并行:同時對許多字的全部位或部分位進行處理。這

是最高一級的并行。

從執(zhí)行程序的角度來看,并行性等級從低到高可分為:

(1)指令內(nèi)部并行:單條指令中各微操作之間的并行;

(2)指令級并行:并行執(zhí)行兩條或兩條以上的指令;

(3)線程級并行:并行執(zhí)行兩個或兩個以上的線程,一般是

以一個進程內(nèi)派生的多個線程為調(diào)度單位;

(4)任務(wù)級或過程級并行:并行執(zhí)行兩個或兩個以上的過程

或任務(wù)(程序段),以子程序或進程為調(diào)度單元;

(5)作業(yè)或程序級并行:并行執(zhí)行兩個或兩個以上的作業(yè)或

程序。

1.6某臺主頻為4()()MHz的計算機執(zhí)行標準測試程序,程序中

指令類型、執(zhí)行數(shù)量和平均時鐘周期數(shù)如下:

指令類型指令執(zhí)行數(shù)量平均時鐘周期數(shù)

整數(shù)450001

數(shù)據(jù)傳送750002

浮點80004

分支15002

文檔僅供參考,不當之處,請聯(lián)系改正。

求該計算機的有效CPI、MIPS和程序執(zhí)行時間。

解:(1)CPI=(45000X1+75000X2+8000X4+1500X2)/

129500=1.776

(2)MIPS速率=f/CPI=400/1.776=225.225MIPS

(3)程序執(zhí)行時間=(45000X1+75000X2+8000X4+

1500X2)/400=575s

1.7將計算機系統(tǒng)中某一功能的處理速度加快10倍,但該功

能的處理時間僅為整個系統(tǒng)運行時間的40%,則采用此增強功能

方法后,能使整個系統(tǒng)的性能提高多少?

解由題可知:可改進比例=40%=0.4部件加速比二10

根據(jù)Amdahl定律可知:

系統(tǒng)加速比=----1~—=1.5625

4

(1-0,4)+°

10

采用此增強功能方法后,能使整個系統(tǒng)的性能提高到原來的

1.5625倍。

1.8計算機系統(tǒng)中有三個部件能夠改進,這三個部件的部件加

速比為:

部件加速比1=30;部件加速比2=20;部件加速比

3=10

(1)如果部件1和部件2的可改進比例均為30%,那么當部件

3的可改進比例為多少時,系統(tǒng)加速比才能夠達到1()?

文檔僅供參考,不當之處,請聯(lián)系改正。

(2)如果三個部件的可改進比例分別為30%、30%和20%,三

個部件同時改進,那么系統(tǒng)中不可加速部分的執(zhí)行時間在總執(zhí)行

時間中占的比例是多少?

解:(1)在多個部件可改進情況下,Amdahl定理的擴展:

已知Si=30,S2=20,S3=10,Sn=10,Fi=0.3,F2=0.3,

得:

io=-----------------------------J-----------------------------

1-(03+0.3+/^)+(0.3/30+0.3/20+/^/10)

得F3=0.36,即部件3的可改進比例為36%o

(2)設(shè)系統(tǒng)改進前的執(zhí)行時間為T,則3個部件改進前的執(zhí)

行時間為:(0.3+0.3+0.2)T=0.8T,不可改進部分的執(zhí)行時間為

0.2To

已知3個部件改進后的加速比分別為Si=30,S2=20,已=

10,因此3個部件改進后的執(zhí)行時間為:

小回+%+歸=00457

〃302010

改進后整個系統(tǒng)的執(zhí)行時間為:Tn=0.045T+0.2T=0.245T

那么系統(tǒng)中不可改進部分的執(zhí)行時間在總執(zhí)行時間中占的比

例是:

02T

——=0.82

0.2457

L9假設(shè)某應(yīng)用程序中有4類操作,經(jīng)過改進,各操作獲得不

同的性能提高。具體數(shù)據(jù)如下表所示:

文檔僅供參考,不當之處,請聯(lián)系改正。

程序中的數(shù)量改進前的執(zhí)行時間改進后的執(zhí)行時間

操作類型

(百萬條指令)(周期)(周期)

操作11021

操作2302015

操作335103

操作41541

(1)改進后,各類操作的加速比分別是多少?

(2)各類操作單獨改進后,程序獲得的加速比分別是多少?

(3)4類操作均改進后,整個程序的加速比是多少?

解:根據(jù)Amdahl定律s”=--------—可得

各類操作的指令條各類操作單獨改進

各類操作的加速

操作類型數(shù)在程序中所占的后,程序獲得的加

比Si

比例Fj速比

操作111.1%21.06

操作233.3%1.331.09

操作338.9%3.331.37

操作416.7%41.14

4類操作均改進后,整個程序的加速比:

S?=---------------------—?2.16

第2章指令集結(jié)構(gòu)的分類

2.1解釋下列術(shù)語

堆棧型機器:CPU中存儲操作數(shù)的單元是堆棧的機器。

累加器型機器:CPU中存儲操作數(shù)的單元是累加器的機器。

通用寄存器型機器:CPU中存儲操作數(shù)的單元是通用寄存器

文檔僅供參考,不當之處,請聯(lián)系改正。

的機器。

CISC:復雜指令集計算機

RISC:精簡指令集計算機

尋址方式:指令系統(tǒng)中如何形成所要訪問的數(shù)據(jù)的地址。一

般來說,尋址方式能夠指明指令中的操作數(shù)是一個常數(shù)、一個寄

存器操作數(shù)或者是一個存儲器操作數(shù)。

數(shù)據(jù)表示:硬件結(jié)構(gòu)能夠識別、指令系統(tǒng)能夠直接調(diào)用的那

些數(shù)據(jù)結(jié)構(gòu)。

2.2區(qū)別不同指令集結(jié)構(gòu)的主要因素是什么?根據(jù)這個主要因素

可將指令集結(jié)構(gòu)分為哪3類?

答:區(qū)別不同指令集結(jié)構(gòu)的主要因素是CPU中用來存儲操作

數(shù)的存儲單元。據(jù)此可將指令系統(tǒng)結(jié)構(gòu)分為堆棧結(jié)構(gòu)、累加器結(jié)

構(gòu)和通用寄存器結(jié)構(gòu)。

2.3常見的3種通用寄存器型指令集結(jié)構(gòu)的優(yōu)缺點有哪些?

答:

指令系統(tǒng)結(jié)構(gòu)類

優(yōu)點缺點

指令字長固定,指令結(jié)

構(gòu)簡潔,是一種簡單的與指令中含存儲器操作數(shù)的指令系統(tǒng)結(jié)

寄存器■寄存器型

代碼生成模型,各種指構(gòu)相比,指令條數(shù)多,目標代碼不夠緊

(0,3)

令的執(zhí)行時鐘周期數(shù)相湊,因而程序占用的空間比較大。

近。

寄存器?存儲器型能夠在ALU指令中直接由于有一個操作數(shù)的內(nèi)容將被破壞,因

(1,2)對存儲器操作數(shù)進行引此指令中的兩個操作數(shù)不對稱。在一條

文檔僅供參考,不當之處,請聯(lián)系改正。

用,而不必先用load指指令中同時對寄存器操作數(shù)和存儲器操

令進行加載。容易對指作數(shù)進行編碼,有可能限制指令所能夠

令進行編碼,目標代碼表示的寄存器個數(shù)。指令的執(zhí)行時鐘周

比較緊湊。期數(shù)因操作數(shù)的來源(寄存器或存儲

器)不同而差別比較大。

指令字長變化很大,特別是3操作數(shù)指

存儲器-存儲器型目標代碼最緊湊,不需令。而且每條指令完成的工作也差別很

(2,2)或(3,要設(shè)置寄存器來保存變大。對存儲器的頻繁訪問會使存儲器成

3)量。為瓶頸。這種類型的指令系統(tǒng)現(xiàn)在已不

用了。

2.4指令集應(yīng)滿足哪幾個基本要求?

答:對指令集的基本要求是:完整性、規(guī)整性、高效率和兼容

性。

完整性是指在一個有限可用的存儲空間內(nèi),對于任何可解的

問題,編制計算程序時,指令集所提供的指令足夠使用。

規(guī)整性主要包括對稱性和均勻性。對稱性是指所有與指令集

有關(guān)的存儲單元的使用、操作碼的設(shè)置等都是對稱的。均勻性是

指對于各種不同的操作數(shù)類型、字長、操作種類和數(shù)據(jù)存儲單

元,指令的設(shè)置都要同等對待。

高效率是指指令的執(zhí)行速度快、使用頻度高。

2.5指令集結(jié)構(gòu)設(shè)計所涉及的內(nèi)容有哪些?

答:(1)指令集功能設(shè)計:主要有RISC和CISC兩種技術(shù)發(fā)

展方向;(2)尋址方式的設(shè)計:設(shè)置尋址方式能夠經(jīng)過對基準程

序進行測試統(tǒng)計,察看各種尋址方式的使用頻率,根據(jù)適用頻率

設(shè)置必要的尋址方式。(3)操作數(shù)表示和操作數(shù)類型:主要的操

作數(shù)類型和操作數(shù)表示的選擇有:浮點數(shù)據(jù)類型、整型數(shù)據(jù)類

型、字符型、十進制數(shù)據(jù)類型等等。(4)尋址方式的表示:能夠

文檔僅供參考,不當之處,請聯(lián)系改正。

將尋址方式編碼于操作碼中,也能夠?qū)ぶ贩绞阶鳛橐粋€單獨的

域來表示。(5)指令集格式的設(shè)計:有變長編碼格式、固定長度

編碼格式和混合型編碼格式3種。

2.6簡述CISC指令集結(jié)構(gòu)功能設(shè)計的主要目標。從當前的計算

機技術(shù)觀點來看,CISC指令集結(jié)構(gòu)的計算機有什么缺點?

答:主要目標是增強指令功能,把越來越多的功能交由硬件

來實現(xiàn),而且指令的數(shù)量也是越來越多。

缺點:(1)CISC結(jié)構(gòu)的指令集中,各種指令的使用頻率相差

懸殊。(2)CISC結(jié)構(gòu)指令的復雜性帶來了計算機體系結(jié)構(gòu)的復

雜性,這不但增加了研制時間和成本,而且還容易造成設(shè)計錯

誤。(3)CISC結(jié)構(gòu)指令集的復雜性給VLSI設(shè)計增加了很大負

擔,不利于單片集成。(4)CISC結(jié)構(gòu)的指令集中,許多復雜指

令需要很復雜的操作,因而運行速度慢。(5)在CISC結(jié)構(gòu)的指令

集中,由于各條指令的功能不均衡性,不利于采用先進的計算機

體系結(jié)構(gòu)技術(shù)(如流水技術(shù))來提高系統(tǒng)的性能。

2.7簡述RISC指令集結(jié)構(gòu)的設(shè)計原則。

答(1)選取使用頻率最高的指令,并補充一些最有用的指

令;(2)每條指令的功能應(yīng)盡可能簡單,并在一個機器周期內(nèi)完

成;(3)所有指令長度均相同;(4)只有Load和Store操作指

令才訪問存儲器,其它指令操作均在寄存器之間進行;(5)以簡

單有效的方式支持高級語言。

文檔僅供參考,不當之處,請聯(lián)系改正。

2.8指令中表示操作數(shù)類型的方法有哪幾種?

答:操作數(shù)類型有兩種表示方法:(1)操作數(shù)的類型由操作

碼的編碼指定,這是最常見的一種方法;(2)數(shù)據(jù)能夠附上由硬

件解釋的標記,由這些標記指定操作數(shù)的類型,從而選擇適當?shù)?/p>

運算。

2.9表示尋址方式的主要方法有哪些?簡述這些方法的優(yōu)缺

點。

答:表示尋址方式有兩種常見的方法:(1)將尋址方式編于

操作碼中,由操作碼在描述指令的同時也描述了相應(yīng)的尋址方

式。這種方式譯碼快,但操作碼和尋址方式的結(jié)合不但增加了指

令的條數(shù),導致了指令的多樣性,而且增加了CPU對指令譯碼的

難度。(2)為每個操作數(shù)設(shè)置一個地址描述符,由該地址描述符

表示相應(yīng)操作數(shù)的尋址方式。這種方式譯碼較慢,但操作碼和尋

址獨立,易于指令擴展。

2.10一般有哪幾種指令格式,請簡述其適用范圍。

答:(1)變長編碼格式。如果系統(tǒng)結(jié)構(gòu)設(shè)計者感興趣的是程

序的目標代碼大小,而不是性能,就能夠采用變長編碼格式。

(2)固定長度編碼格式。如果感興趣的是性能,而不是程序的目

標代碼大小,則能夠選擇固定長度編碼格式。(3)混合型編碼格

式。需要兼顧降低目標代碼長度和降低譯碼復雜度時,能夠采用

混合型編碼格式。

文檔僅供參考,不當之處,請聯(lián)系改正。

2.11根據(jù)CPU性能公式簡述RISC指令集結(jié)構(gòu)計算機和

CISC指令集結(jié)構(gòu)計算機的性能特點。

答:CPU性能公式:CPU時間=ICXCPIXT

其中,IC為目標程序被執(zhí)行的指令條數(shù),CPI為指令平均執(zhí)

行周期數(shù),T是時鐘周期的時間。

相同功能的CISC目標程序的指令條數(shù)ICcisc少于RISC的

ICRISC,可是CISC的CPIcisc和Tcisc都大于RISC的CPIRISC和

TRISC,因此,CISC目標程序的執(zhí)行時間比RISC的更長。

第3章流水線技術(shù)

3.1解釋下列術(shù)語

流水線:將一個重復的時序過程,分解成為若干個子過程,而每

一個子過程都可有效地在其專用功能段上與其它子過程同時執(zhí)

行。

單功能流水線:指流水線的各段之間的連接固定不變、只能完成

一種固定功能的流水線。

多功能流水線:指各段能夠進行不同的連接,以實現(xiàn)不同的功能

的流水線。

靜態(tài)流水線:指在同一時間內(nèi),多功能流水線中的各段只能按同

文檔僅供參考,不當之處,請聯(lián)系改正。

一種功能的連接方式工作的流水線。當流水線要切換到另一種功

能時,必須等前面的任務(wù)都流出流水線之后,才能改變連接。

動態(tài)流水線:指在同一時間內(nèi),多功能流水線中的各段能夠按照

不同的方式連接,同時執(zhí)行多種功能的流水線。它允許在某些段

正在實現(xiàn)某種運算時,另一些段卻在實現(xiàn)另一種運算。

部件級流水線:把處理機中的部件進行分段,再把這些部件分段

相互連接而成。它使得運算操作能夠按流水方式進行。這種流水

線也稱為運算操作流水線。

處理機級流水線:又稱指令流水線。它是把指令的執(zhí)行過程按照

流水方式進行處理,即把一條指令的執(zhí)行過程分解為若干個子過

程,每個子過程在獨立的功能部件中執(zhí)行。

處理機間流水線:又稱為宏流水線。它是把多個處理機串行連接

起來,對同一數(shù)據(jù)流進行處理,每個處理機完成整個任務(wù)中的一

部分。前一個處理機的輸出結(jié)果存入存儲器中,作為后一個處理

機的輸入。

線性流水線:指各段串行連接、沒有反饋回路的流水線。數(shù)據(jù)經(jīng)

過流水線中的各段時,每一個段最多只流過一次。

非線性流水線:指各段除了有串行的連接外,還有反饋回路的流

水線。

文檔僅供參考,不當之處,請聯(lián)系改正。

順序流水線:流水線輸出端任務(wù)流出的順序與輸入端任務(wù)流入的

順序完全相同。

亂序流水線:流水線輸出端任務(wù)流出的順序與輸入端任務(wù)流入的

順序能夠不同,允許后進入流水線的任務(wù)先完成。這種流水線又

稱為無序流水線、錯序流水線、異步流水線。

吞吐率:在單位時間內(nèi)流水線所完成的任務(wù)數(shù)量或輸出結(jié)果的數(shù)

量。

流水線的加速比:使用順序處理方式處理一批任務(wù)所用的時間與

按流水處理方式處理同一批任務(wù)所用的時間之比。

流水線的效率:即流水線設(shè)備的利用率,它是指流水線中的設(shè)備

實際使用時間與整個運行時間的比值。

數(shù)據(jù)相關(guān):考慮兩條指令,?和,在,的前面,如果下述條件之一

成立,則稱指令)與指令i數(shù)據(jù)相關(guān):

(1)指令)使用指令i產(chǎn)生的結(jié)果;

(2)指令)與指令女數(shù)據(jù)相關(guān),而指令上又與指令i數(shù)據(jù)相

關(guān)。

名相關(guān):如果兩條指令使用了相同的名,可是它們之間并沒有數(shù)

據(jù)流動,則稱這兩條指令存在名相關(guān)。

文檔僅供參考,不當之處,請聯(lián)系改正。

控制相關(guān):是指由分支指令引起的相關(guān)。它需要根據(jù)分支指令的

執(zhí)行結(jié)果來確定后面該執(zhí)行哪個分支上的指令。

反相關(guān):考慮兩條指令,和j,i在/的前面,如果指令)所寫的名

與指令i所讀的名相同,則稱指令,.和j發(fā)生了反相關(guān)。

輸出相關(guān):考慮兩條指令,和/,,在,的前面,如果指令)和指令

i所寫的名相同,則稱指令i和,發(fā)生了輸出相關(guān)。

換名技術(shù):名相關(guān)的兩條指令之間并沒有數(shù)據(jù)的傳送,只是使用

了相同的名。能夠把其中一條指令所使用的名換成別的,以此來

消除名相關(guān)。

結(jié)構(gòu)沖突:因硬件資源滿足不了指令重疊執(zhí)行的要求而發(fā)生的沖

突。

數(shù)據(jù)沖突:當指令在流水線中重疊執(zhí)行時,因需要用到前面指令

的執(zhí)行結(jié)果而發(fā)生的沖突。

控制沖突:流水線遇到分支指令或其它會改變PC值的指令所引

起的沖突。

定向:用來解決寫后讀沖突的。在發(fā)生寫后讀相關(guān)的情況下,在

計算結(jié)果尚未出來之前,后面等待使用該結(jié)果的指令并不見得是

馬上就要用該結(jié)果。如果能夠?qū)⒃撚嬎憬Y(jié)果從其產(chǎn)生的地方直接

送到其它指令需要它的地方,那么就能夠避免停頓。

文檔僅供參考,不當之處,請聯(lián)系改正。

寫后讀沖突:考慮兩條指令i和j,且i在j之前進入流水線,指

令j用到指令i的計算結(jié)果,而且在i將結(jié)果寫入寄存器之前就去

讀該寄存器,因而得到的是舊值。

讀后寫沖突:考慮兩條指令i和j,且i在j之前進入流水線,指

令j的目的寄存器和指令i的源操作數(shù)寄存器相同,而且j在i讀

取該寄存器之前就先對它進行了寫操作,導致i讀到的值是錯誤

的。

寫后寫沖突:考慮兩條指令i和j,且i在j之前進入流水線,,

指令j和指令i的結(jié)果單元(寄存器或存儲器單元)相同,而且j

在i寫入之前就先對該單元進行了寫入操作,從而導致寫入順序

錯誤。這時在結(jié)果單元中留下的是i寫入的值,而不是j寫入的。

鏈接技術(shù):具有先寫后讀相關(guān)的兩條指令,在不出現(xiàn)功能部件沖

突和Vi沖突的情況下,能夠把功能部件鏈接起來進行流水處理,

以達到加快執(zhí)行的目的。

分段開采:當向量的長度大于向量寄存器的長度時,必須把長向

量分成長度固定的段,然后循環(huán)分段處理,每一次循環(huán)只處理一

個向量段。

半性能向量長度:向量處理機的性能為其最大性能心的一半時所

需的向量長度。

文檔僅供參考,不當之處,請聯(lián)系改正。

向量長度臨界值:向量流水方式的處理速度優(yōu)于標量串行方式的

處理速度時所需的向量長度的最小值。

3.2指令的執(zhí)行可采用順序執(zhí)行、重疊執(zhí)行和流水線三種方

式,它們的主要區(qū)別是什么?各有何優(yōu)缺點。

答:(1)指令的順序執(zhí)行是指指令與指令之間順序串行。即

上一條指令全部執(zhí)行完后,才能開始執(zhí)行下一條指令。

優(yōu)點:控制簡單,節(jié)省設(shè)備。缺點:執(zhí)行指令的速度慢,功

能部件的利用率低。

(2)指令的重疊指令是在相鄰的指令之間,讓第k條指令與

取第k+1條指令同時進行。重疊執(zhí)行不能加快單條指令的執(zhí)行速

度,但在硬件增加不多的情況下,能夠加快相鄰兩條指令以及整

段程序的執(zhí)行速度。與順序方式相比,功能部件的利用率提高

T,控制變復雜了。

(3)指令的流水執(zhí)行是把一個指令的執(zhí)行過程分解為若干個

子過程,每個子過程由專門的功能部件來實現(xiàn)。把多個處理過程

在時間上錯開,依次經(jīng)過各功能段,每個子過程與其它的子過程

并行進行。依靠提高吞吐率來提高系統(tǒng)性能。流水線中各段的時

間應(yīng)盡可能相等

3.3簡述先行控制的基本思想。

答:先行控制技術(shù)是把緩沖技術(shù)和預處理技術(shù)相結(jié)合。緩沖

技術(shù)是在工作速度不固定的兩個功能部件之間設(shè)置緩沖器,用以

文檔僅供參考,不當之處,請聯(lián)系改正。

平滑它們的工作。預處理技術(shù)是指預取指令、對指令進行加工以

及預取操作數(shù)等。

采用先行控制方式的處理機內(nèi)部設(shè)置多個緩沖站,用于平滑

主存、指令分析部件、運算器三者之間的工作。這樣不但使它們

都能獨立地工作,充分忙碌而不用相互等待,而且使指令分析部

件和運算器分別能快速地取得指令和操作數(shù),大幅度地提高指令

的執(zhí)行速度和部件的效率。這些緩沖站都按先進先出的方式工

作,而且都是由一組若干個能快速訪問的存儲單元和相關(guān)的控制

邏輯組成。

采用先行控制技術(shù)能夠?qū)崿F(xiàn)多條指令的重疊解釋執(zhí)行。

3.4設(shè)一條指令的執(zhí)行過程分成取指令、分析指令和執(zhí)行指令

三個階段,每個階段所需的時間分別為At、At和24t。分別求

出下列各種情況下,連續(xù)執(zhí)行N條指令所需的時間。

(1)順序執(zhí)行方式;

(2)只有“取指令”與“執(zhí)行指令”重疊;

(3)“取指令”、“分析指令”與“執(zhí)行指令”重疊。

解:(1)每條指令的執(zhí)行時間為:△t+4t+24t=44t

連續(xù)執(zhí)行N條指令所需的時間為:4NAt

(2)連續(xù)執(zhí)行N條指令所需的時間為:4At+3(N-l)At

=(3N+1)At

(3)連續(xù)執(zhí)行N條指令所需的時間為:4At+2(N-l)At

=(2N+2)At

文檔僅供參考,不當之處,請聯(lián)系改正。

3.5簡述流水線技術(shù)的特點。

答:流水技術(shù)有以下特點:

(1)流水線把一個處理過程分解為若干個子過程,每個子

過程由一個專門的功能部件來實現(xiàn)。因此,流水線實際上是把一

個大的處理功能部件分解為多個獨立的功能部件,并依靠它們的

并行工作來提高吞吐率。

(2)流水線中各段的時間應(yīng)盡可能相等,否則將引起流水

線堵塞和斷流。

(3)流水線每一個功能部件的前面都要有一個緩沖寄存

器,稱為流水寄存器。

(4)流水技術(shù)適合于大量重復的時序過程,只有在輸入端

不斷地提供任務(wù),才能充分發(fā)揮流水線的效率。

(5)流水線需要有經(jīng)過時間和排空時間。在這兩個時間段

中,流水線都不是滿負荷工作。

3.6解決流水線瓶頸問題有哪兩種常見方法?

答:細分瓶頸段與重復設(shè)置瓶頸段

3.7減少流水線分支延遲的靜態(tài)方法有哪些?

答:(1)預測分支失敗:沿失敗的分支繼續(xù)處理指令,就好

象什么都沒發(fā)生似的。當確定分支是失敗時,說明預測正確,流

水線正常流動;當確定分支是成功時,流水線就把在分支指令之

文檔僅供參考,不當之處,請聯(lián)系改正。

后取出的指令轉(zhuǎn)化為空操作,并按分支目標地址重新取指令執(zhí)

行。

(2)預測分支成功:當流水線ID段檢測到分支指令后,一

旦計算出了分支目標地址,就開始從該目標地址取指令執(zhí)行。

(3)延遲分支:主要思想是從邏輯上“延長”分支指令的執(zhí)

行時間。把延遲分支看成是由原來的分支指令和若干個延遲槽構(gòu)

成。不論分支是否成功,都要按順序執(zhí)行延遲槽中的指令。

3種方法的共同特點:它們對分支的處理方法在程序的執(zhí)行

過程中始終是不變的。它們要么總是預測分支成功,要么總是預

測分支失敗。

3.8簡述延遲分支方法中的三種調(diào)度策略的優(yōu)缺點。

調(diào)度策略對調(diào)度的要求對流水線性能改進的影響

從前調(diào)度分支必須不依賴于被調(diào)度的指令總是能夠有效提高流水線性能

如果分支轉(zhuǎn)移失敗,必須保證被調(diào)度的分支轉(zhuǎn)移成功時,能夠提高流水線

從目標處調(diào)

指令對程序的執(zhí)行沒有影響,可能需要性能。但由于復制指令,可能加大

復制被調(diào)度指令程序空間

從失敗處調(diào)如果分支轉(zhuǎn)移成功,必須保證被調(diào)度的分支轉(zhuǎn)移失敗時,能夠提高流水線

度指令對程序的執(zhí)行沒有影響性能

3.9列舉出下面循環(huán)中的所有相關(guān),包括輸出相關(guān)、反相關(guān)、

真相關(guān)。

for(i=2;i<100;i=i+l)

a[i]=b[i]+a[i];/*si*/

c[i+l]=a[i]+d[i];/*s2*/

a[i-l]=2*b[i];/*s3*/

文檔僅供參考,不當之處,請聯(lián)系改正。

b[i+l]=2*b[i];/*s4*/

解:展開循環(huán)兩次:

a[i]=b[i]+a[i];/*si*/

c[i+l]=a[i]+d[i];/*s2*/

a[i-l]=2*b[i];/*s3*/

b[i+l]=2*b[i];/*s4*/

a[i+l]=b[i+l]+a[i+l];/*sf*/

c[i+2]=a[i+l]+d[i+l];/*s2'*/

a[i]=2*b[i+l];/*s3'*/

b[i+2]=2*b[i+l];/*s4'*/

輸出相關(guān):無

反相關(guān):無

真相關(guān):S1&S2

由于循環(huán)引入的相關(guān):S4&S4'(真相關(guān))、sr&S4(真

相關(guān))、S3'&S4(真相關(guān))、S1&S3'(輸出相關(guān)、反相

關(guān))、S2&S3'(反相關(guān))。

3.10簡述三種向量處理方式,它們對向量處理機的結(jié)構(gòu)要求

有何不同?

答(1)橫向處理方式:若向量長度為N,則水平處理方式相

當于執(zhí)行N次循環(huán)。若使用流水線,在每次循環(huán)中可能出現(xiàn)數(shù)據(jù)

相關(guān)和功能轉(zhuǎn)換,不適合對向量進行流水處理。(2)縱向處理方

文檔僅供參考,不當之處,請聯(lián)系改正。

式:將整個向量按相同的運算處理完畢之后,再去執(zhí)行其它運

算。適合對向量進行流水處理,向量運算指令的源/目向量都放在

存儲器內(nèi),使得流水線運算部件的輸入、輸出端直接與存儲器相

聯(lián),構(gòu)成M-M型的運算流水線。(3)縱橫處理方式:把長度為N

的向量分為若干組,每組長度為n,組內(nèi)按縱向方式處理,依次

處理各組,組數(shù)為「N/n」,適合流水處理。可設(shè)長度為n的向量

寄存器,使每組向量運算的源/目向量都在向量寄存器中,流水線

的運算部件輸入、輸出端與向量寄存器相聯(lián),構(gòu)成R-R型運算流

水線。

3.11可采用哪些方法來提高向量處理機的性能?

答:可采用多種方法:

(1)設(shè)置多個功能部件,使它們并行工作;

(2)采用鏈接技術(shù),加快一串向量指令的執(zhí)行;

(3)采用循環(huán)開采技術(shù),加快循環(huán)的處理;

(4)采用多處理機系統(tǒng),進一步提高性能。

3.12有一指令流水線如下所示

入—?1—?2—>3—>4—?出

50ns50ns100ns200ns

(I)求連續(xù)輸入10條指令,該流水線的實際吞吐率和效率;

(2)該流水線的“瓶頸”在哪一段?請采取兩種不同的措施消除

止匕“瓶頸”。對于你所給出的兩種新的流水線,連續(xù)輸入

文檔僅供參考,不當之處,請聯(lián)系改正。

10條指令時,其實際吞吐率和效率各是多少?

解:(1)

m

Tpipeline=ZAti+(n—l)Atmax

i=l

=(50+50+100+200)+9x200

二2200(ns)

TP%pipeIine=%20(nS,

m

yAtj

J14005

E=TP—=TP--=—?45.45%

m411

(2)瓶頸在3、4段。

■變成八級流水線(細分)

Tpipeline=):Ati+(II-1)Atmax

i=l

=50x8+9x50

850(ns)

丁「=%即如=%53-1)

m

VAti

—40010

E=TP-^—=TP--=—?58.82%

m817

■重復設(shè)置部件

文檔僅供參考,不當之處,請聯(lián)系改正。

TP=%i=%5(m)

E=400x10/x8=%7"58?82%

3.13有一

個流水4段組

成,其中每當流經(jīng)第3段時,總要在該段循環(huán)一次,然后才能流

到第4段。如果每段經(jīng)過一次所需要的時間都是加,問:

(1)當在流水線的輸入端連續(xù)地每加時間輸入任務(wù)時,該流水

線會發(fā)生什么情況?

(2)此流水線的最大吞吐率為多少?如果每24輸入一個任

務(wù),連續(xù)處理1()個任務(wù)時的實際吞吐率和效率是多少?

(3)當每段時間不變時,如何提高該流水線的吞吐率?仍連續(xù)

處理10個任務(wù)時,其吞吐率提高多少?

解:(1)會發(fā)生流水線阻塞情況。

第1個任

S1S2S3S3S4

務(wù)

文檔僅供參考,不當之處,請聯(lián)系改正。

第2個任

S1S2stallS3S3S4

務(wù)

第3個任

S1stallS2stallS3S3S4

務(wù)

第4個任

SIstallS2stallS3S3S4

務(wù)

(2)

TP=%pm^=l%3"

AE=TP-5%=5%2?54.35%

(3)重復設(shè)置部件

14&

文檔僅供參考,不當之處,請聯(lián)系改正。

吞吐率提高倍數(shù)=尊=1.64

10/

/23A/

3.14有一條靜態(tài)多功能流水線由5段組成,加法用1、3、

4、5段,乘法用1、2、5段,第3段的時間為243其余各段的

時間均為43而且流水線的輸出能夠直接返回輸入端或

4

暫存于相應(yīng)的流水寄存器中。現(xiàn)要在該區(qū)玳婕也計算,畫

出其時空圖,并計算其吞吐率、加速比和效率。

解:首先,應(yīng)選擇適合于流水線工作的算法。對于本題,應(yīng)

先計算Ai+Bi、A2+B2、A3+B3和A4+B4;再計算(Ai+Bi)X

(A2+B2)和(A3+B3)X(A4+B4);然后求總的結(jié)果。

其次,畫出完成該計算的時空圖,如圖所示,圖中陰影部分表

文檔僅供參考,不當之處,請聯(lián)系改正。

示該段在工作。

由圖可見,它在18個△/時間中,給出了7個結(jié)果。因此吞

吐率為:

7P=

18Ar

如果不用流水線,由于一次求積需34K一次求和需5A6

則產(chǎn)生上述7個結(jié)果共需(4x5+3x3)△t=29At.因此加速比

為:

s3=1.61

18Ar

該流水線的效率可由陰影區(qū)的面積和5個段總時空區(qū)的面積

的比值求得:

-4x5+3x3

卜—___________=___0__._3_22

-5x18

3.15動態(tài)多功能流水線由6個功能段組成,如下圖:

加法

乘法

其中,SI、S4、S5、S6組成乘法流水線,SI、S2、S3、S6

組成加法流水線,各個功能段時間均為50ns,假設(shè)該流水線的輸

出結(jié)果能夠直接返回輸入端,而且設(shè)置有足夠的緩沖寄存器,若

5

以最快的方式用該流水計算:Zxyzj

文檔僅供參考,不當之處,請聯(lián)系改正。

(1)畫出時空圖;

⑵計算實際的吞吐率、加速比和效率。

解:機器一共要做10次乘法,4次加法。

加速比=黑=2.55

效率=等g=42.42s

小十22*6

3.16在MIPS流水線上運行如下代碼序列:

LOOP:LWR1,0(R2)

DADDIURi,R1,#1

SWR1,0(R2)

DADDIUR2,R2,#4

DSUBR4,R3,R2

BNEZR4,LOOP

其中:R3的初值是R2+396。假設(shè):在整個代碼序列的運行過

程中,所有的存儲器訪問都是命中的,而且在一個時鐘周期中對

同一個寄存器的讀操作和寫操作能夠經(jīng)過寄存器文件“定向”。

文檔僅供參考,不當之處,請聯(lián)系改正。

問:

(I)在沒有任何其它定向(或旁路)硬件的支持下,請畫出該

指令序列執(zhí)行的流水線時空圖。假設(shè)采用排空流水線的策

略處理分支指令,且所有的存儲器訪問都命中Cache,那

么執(zhí)行上述循環(huán)需要多少個時鐘周期?

(2)假設(shè)該流水線有正常的定向路徑,請畫出該指令序列執(zhí)行

的流水線時空圖。假設(shè)采用預測分支失敗的策略處理分支

指令,且所有的存儲器訪問都命中Cache,那么執(zhí)行上述

循環(huán)需要多少個時鐘周期?

(3)假設(shè)該流水線有正常的定向路徑和一個單周期延遲分支,

請對該循環(huán)中的指令進行調(diào)度,你能夠重新組織指令的順

序,也能夠修改指令的操作數(shù),可是注意不能增加指令的

條數(shù)。請畫出該指令序列執(zhí)行的流水線時空圖,并計算執(zhí)

行上述循環(huán)所需要的時鐘周期數(shù)。

解:

寄存器讀寫能夠定向,無其它旁路硬件支持。排空流水線。

指令12345678910111213141516171819202122

LWIFIDEXMWB

DADDIUIFSSIDEXMWB

SWIFSSIDEXMWB

DADDIUIFIDEXMWB

DSUBIFSSIDEXMWB

BNEZIFSSIDEXMWB

LWIFSSIFIDEXMWB

第i次迭代(i=O..98)開始周期:1+(iX17)

總的時鐘周期數(shù):(98X17)+18=1684

文檔僅供參考,不當之處,請聯(lián)系改正。

有正常定向路徑,預測分支失敗。

指令1234567891011113.15

LWIFIDEXMWB

DADDIUIFIDSEXMWB

SWIFSIDEXMWB

DADDIUIFIDEXMWB

DSUBIFIDEXMWB

BNEZIFIDEXMWB

LWIFmissmissIFIDEXMWB

第i次迭代(i=0..98)開始周期:1+(iXIO)

總的時鐘周期數(shù):(98X10)+11=991

有正常定向路徑。單周期延遲分支。

LOOP:LWRI,0(R2)

DADDIUR2,R2,#4

DADDIURI,RI,#1

DSUBR4,R3,R2

BNEZR4,LOOP

SWRI,-4(R2)

第i次迭代(i=0..98)開始周期:1+(iX6)

總的時鐘周期數(shù):(98X6)+10=598

指令12345678910H

LWIFIDEXMWB

DADDIUIFIDEXMWB

DADDIUIFIDEXMWB

DSUBIFIDEXMWB

BNEZIFIDEXMWB

SWIFIDEXMWB

LWIFIDEXMWB

3.17假設(shè)各種分支指令數(shù)占所有指令數(shù)的百分比如下:

文檔僅供參考,不當之處,請聯(lián)系改正。

條件分支20%(其中的60%是分支成功的)

跳轉(zhuǎn)和調(diào)用5%

現(xiàn)有一條段數(shù)為4的流水線,無條件分支在第二個時鐘周期

結(jié)束時就被解析出來,而條件分支要到第三個時鐘周期結(jié)束時才

能夠被解析出來。第一個流水段是完全獨立于指令類型的,即所

有類型的指令都必須經(jīng)過第一個流水段的處理。請問在沒有任何

控制相關(guān)的情況下,該流水線相對于存在上述控制相關(guān)情況下的

加速比是多少?

解:沒有控制相關(guān)時流水線的平均CPI=1

存在控制相關(guān)時:由于無條件分支在第二個時鐘周期結(jié)束時

就被解析出來,而條件分支

要到第3個時鐘周期結(jié)束時才能被解析出來。因此:

(1)若使用排空流水線的策略,則對于條件分支,有兩個額

外的stall,對無條件分支,有一個額外的stall:

CPI=1+20%*2+5%*1=1.45

加速比S=CPI/1=1.45

(2)若使用預測分支成功策略,則對于不成功的條件分

支,有兩個額外的stall,對無條件分支和成功的條件分支,有一

個額外的stall1:

CPI=1+20%*(60%*1+40%*2)+5%*1=1.33

加速比S=CPI/1=1.33

(3)若使用預測分支失敗策略,則對于成功的條件分支,有

兩個額外的stall;對無條件分支,有一個額外的stall;對不成功

文檔僅供參考,不當之處,請聯(lián)系改正。

的條件分支,其目標地址已經(jīng)由PC值給出,不必等待,因此無

延遲:

CPI=1+20%*(60%*2+40%*0)+5%*1=1.29

加速比S=CPI/1=1.29

3.18在CRAY-1機器上,按照鏈接方式執(zhí)行下述4條向量指

令(括號中給出了相應(yīng)功能部件的執(zhí)行時間),如果向量寄存器

和功能部件之間的數(shù)據(jù)傳送需要1拍,試求此鏈接流水線的經(jīng)過

時間是多少拍?如果向量長度為64,則需多少拍才能得到全部結(jié)

果?

Vo—存儲器(從存儲器中取數(shù):7拍)

V2<-V()+Vi(向量加:3拍)

V3—V2VA3(按(A3)左移:4拍)

V5^V3AV4(向量邏輯乘:2拍)

解:經(jīng)過時間就是每條向量指令的第一個操作數(shù)執(zhí)行完畢需要

的時間,也就是各功能流水線由空到滿的時間,具體過程如下

圖所示。要得到全部結(jié)果,在流水線充滿之后,向量中后繼操

作數(shù)繼續(xù)以流水方式執(zhí)行,直到整組向量執(zhí)行完畢。

文檔僅供參考,不當之處,請聯(lián)系改正。

T通過=(7+1)+(1+3+1)+(1+4+1)+(1+2+1)=23(拍)

T總共=T通過+(64-1)=23+63=86(拍)

3.19某向量處理機有16個向量寄存器,其中Vo?V5中分別放

有向量A、B、C、D、E、F,向量長度均為8,向量各元素均為

浮點數(shù);處理部件采用兩條單功能流水線,加法功能部件時間為

2拍,乘法功能部件時間為3拍。采用類似于CARY-1的鏈接技

術(shù),先計算(A+B)*C,在流水線不停流的情況下,接著計算

(D+E)*Fo

(1)求此鏈接流水線的經(jīng)過時間?(設(shè)寄存器入、出各需1

拍)

(2)假如每拍時間為50ns,完成這些計算并把結(jié)果存進相應(yīng)

寄存器,此處理部件的實際吞吐率為多少MFLOPS?

解:(1)我們在這里假設(shè)A+B的中間結(jié)果放在V6中,(A

+B)XC地最后結(jié)果放在V7中,D+E地中間結(jié)果放在V8

中,(D+E)XF的最后結(jié)果放在V9中。具體實現(xiàn)參考下

圖:

經(jīng)過時間應(yīng)該為前者((A+B)XC)經(jīng)過的時間:

文檔僅供參考,不當之處,請聯(lián)系改正。

T經(jīng)過二(1+2+1)+(1+3+1)=9(拍)

(2)在做完(A+B)XC之后,作(C+D)XE就不需要經(jīng)

過時間了。

V6-A+B

V7-V6XC

V8-D+E

T=T通過+(8-1)+8=24(ft)=1200(ns)

32

TP=—=26.67MFLOPS

T

V9—V8XF

第4章指令級并行

4.1解釋下列術(shù)語

指令級并行:簡稱ILPo是指指令之間存在的一種并行性,利用

它,計算機能夠并行執(zhí)行兩條或兩條以上的指令。

指令調(diào)度:經(jīng)過在編譯時讓編譯器重新組織指令順序或經(jīng)過硬件

在執(zhí)行時調(diào)整指令順序來消除沖突。

指令的動態(tài)調(diào)度:是指在保持數(shù)據(jù)流和異常行為的情況下,經(jīng)過

硬件對指令執(zhí)行順序進行重新安排,以提高流水線的利用率且減

少停頓現(xiàn)象。是由硬件在程序?qū)嶋H運行時實施的。

文檔僅供參考,不當之處,請聯(lián)系改正。

指令的靜態(tài)調(diào)度:是指依靠編譯器對代碼進行靜態(tài)調(diào)度,以減少

相關(guān)和沖突。它不是在程序執(zhí)行的過程中、而是在編譯期間進行

代碼調(diào)度和優(yōu)化的。

保留站:在采用Tomasul。算法的MIPS處理器浮點部件中,在運

算部件的入口設(shè)置的用來保存一條已經(jīng)流出并等待到本功能部件

執(zhí)行的指令(相關(guān)信息)。

CDB:公共數(shù)據(jù)總線。

動態(tài)分支預測技術(shù):是用硬件動態(tài)地進行分支處理的方法。在程

序運行時,根據(jù)分支指令過去的表現(xiàn)來預測其將來的行為。如果

分支行為發(fā)生了變化,預測結(jié)果也跟著改變。

BHT:分支歷史表。用來記錄相關(guān)分支指令最近一次或幾次的執(zhí)

行情況是成功還是失敗,并據(jù)此進行預測。

分支目標緩沖:是一種動態(tài)分支預測技術(shù)。將執(zhí)行

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論