計(jì)算機(jī)體系結(jié)構(gòu)學(xué)科發(fā)展簡介課件_第1頁
計(jì)算機(jī)體系結(jié)構(gòu)學(xué)科發(fā)展簡介課件_第2頁
計(jì)算機(jī)體系結(jié)構(gòu)學(xué)科發(fā)展簡介課件_第3頁
計(jì)算機(jī)體系結(jié)構(gòu)學(xué)科發(fā)展簡介課件_第4頁
計(jì)算機(jī)體系結(jié)構(gòu)學(xué)科發(fā)展簡介課件_第5頁
已閱讀5頁,還剩131頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

計(jì)算機(jī)體系結(jié)構(gòu)學(xué)科發(fā)展簡介石教英浙江大學(xué)計(jì)算機(jī)學(xué)院計(jì)算機(jī)系統(tǒng)研究所2002年11月計(jì)算機(jī)體系結(jié)構(gòu)學(xué)科發(fā)展簡介石教英1目錄一、計(jì)算機(jī)體系結(jié)構(gòu)學(xué)科發(fā)展回顧1.計(jì)算機(jī)性能高速發(fā)展及其原因2.計(jì)算機(jī)的分類3.計(jì)算機(jī)設(shè)計(jì)的任務(wù)4.技術(shù)發(fā)展趨向二、指令級(jí)并行性開發(fā)技術(shù)1.RISC與CISC2.流水線技術(shù)3.指令級(jí)并行性技術(shù)三、指令多發(fā)射技術(shù)1.指令多發(fā)射技術(shù)概述2.超標(biāo)量處理器3.超長指令字處理器4.多發(fā)射處理器的技術(shù)難點(diǎn)目錄一、計(jì)算機(jī)體系結(jié)構(gòu)學(xué)科發(fā)展回顧2四、Cache技術(shù)1.為什么要引入Cache2.為什么引入Cache能提高計(jì)算機(jī)性能?3.Cache技術(shù)的發(fā)展五、多處理器技術(shù)

1.

并行計(jì)算機(jī)體系結(jié)構(gòu)分類2.

集中共享存儲(chǔ)器型多處理計(jì)算機(jī)3.

分布式存儲(chǔ)器型多處理器計(jì)算機(jī)4.

并行處理的難點(diǎn)六、我國計(jì)算機(jī)體系結(jié)構(gòu)研究進(jìn)展

四、Cache技術(shù)3一、計(jì)算機(jī)體系結(jié)構(gòu)學(xué)科發(fā)展回顧C(jī)omputerArchitecture定義應(yīng)用機(jī)器語言的程序員為了能正確編寫時(shí)序無關(guān)的程序所必須了解的計(jì)算機(jī)的結(jié)構(gòu)。簡單講:計(jì)算機(jī)體系結(jié)構(gòu)是一門設(shè)計(jì)計(jì)算機(jī)的學(xué)科,包括計(jì)算機(jī)的指令系統(tǒng)設(shè)計(jì),結(jié)構(gòu)設(shè)計(jì),實(shí)現(xiàn)技術(shù),以及與系統(tǒng)軟件操作系統(tǒng)和編譯器相關(guān)的技術(shù)。一、計(jì)算機(jī)體系結(jié)構(gòu)學(xué)科發(fā)展回顧C(jī)omputerArchit41、計(jì)算機(jī)性能高速發(fā)展及其原因1946年第一臺(tái)通用電子計(jì)算機(jī)ENIAS誕生至今僅56年——每秒5000次運(yùn)算加法計(jì)算機(jī)技術(shù)以驚人速度發(fā)展,并將繼續(xù)高速發(fā)展1980年百萬美元機(jī)器的性能比不上今年<1千美元的機(jī)器今天最高性能的微處理器超過10年前的超級(jí)計(jì)算機(jī)如用于高端網(wǎng)絡(luò)交換機(jī)和最新電子游戲機(jī)的微處理器速度可達(dá)每秒10億次運(yùn)算1、計(jì)算機(jī)性能高速發(fā)展及其原因1946年第一臺(tái)通用電子計(jì)算機(jī)5計(jì)算機(jī)性能高速發(fā)展原因1.構(gòu)建計(jì)算機(jī)的各種技術(shù)進(jìn)步2.計(jì)算機(jī)本身的創(chuàng)新設(shè)計(jì)技術(shù)的發(fā)展技術(shù)進(jìn)步—以穩(wěn)定速度發(fā)展,主要指IC技術(shù)創(chuàng)新設(shè)計(jì)—發(fā)展速度不穩(wěn)定,有時(shí)快有時(shí)慢計(jì)算機(jī)性能高速發(fā)展原因1.構(gòu)建計(jì)算機(jī)的各種技術(shù)進(jìn)步6各年代的性能提高速率

年代性能的年提高率原因1970年代初25%-30%

1970年代末35%微處理器芯片廣泛應(yīng)用1980年代末58%RISC體系結(jié)構(gòu)、Cache等創(chuàng)新設(shè)計(jì)技術(shù)各年代的性能提高速率

年代性能的年提高率原因1970年代初27截止2001年微處理器性能增長率截止2001年微處理器性能增長率8RISC、Cache技術(shù)發(fā)展階段RISC體系結(jié)構(gòu)發(fā)展又可分為兩個(gè)階段早期集中發(fā)展指令級(jí)并行技術(shù)后期集中發(fā)展多指令發(fā)射技術(shù)Cache技術(shù)發(fā)展同樣經(jīng)歷兩個(gè)階段早期集中發(fā)展Cache的原理性應(yīng)用

后期集中發(fā)展新的Cache組織和各種Cache性能優(yōu)化技術(shù)

RISC、Cache技術(shù)發(fā)展階段RISC體系結(jié)構(gòu)發(fā)展又可分9計(jì)算機(jī)創(chuàng)新設(shè)計(jì)對每年58%性能提高率的貢獻(xiàn)——超過技術(shù)進(jìn)步貢獻(xiàn)達(dá)15倍之多說明:計(jì)算機(jī)體系結(jié)構(gòu)學(xué)科的重要性!!

計(jì)算機(jī)創(chuàng)新設(shè)計(jì)對每年58%性能提高率的貢獻(xiàn)10計(jì)算機(jī)性能高速提高帶來的影響用戶擁有越來越高的性能和功能,今天最高性能的微處理器已經(jīng)超出10年前超級(jí)計(jì)算機(jī)的性能。

基于微處理器的計(jì)算機(jī)成為計(jì)算機(jī)設(shè)計(jì)的主流現(xiàn)狀:PC機(jī)、工作站成為主流產(chǎn)品

小型機(jī)被采用微處理器的服務(wù)器所代替

大型機(jī)被采用數(shù)十個(gè)至上百個(gè)微處理器構(gòu)成的多處理器計(jì)算機(jī)所代替超級(jí)計(jì)算機(jī)正在被成千上萬個(gè)微處理器構(gòu)成的多處理器計(jì)算機(jī)所代替計(jì)算機(jī)性能高速提高帶來的影響用戶擁有越來越高的性能和功能,今11體系結(jié)構(gòu)發(fā)展的核心-定量方法近年來計(jì)算機(jī)體系結(jié)構(gòu)發(fā)展的核心,也是計(jì)算機(jī)創(chuàng)新設(shè)計(jì)技術(shù)的核心歸功于——定量方法。用定量方法進(jìn)行計(jì)算機(jī)設(shè)計(jì)用定量方法作為工具分析程序?qū)嶋H運(yùn)行結(jié)果、各類實(shí)驗(yàn)和仿真用定量方法尋找計(jì)算機(jī)體系結(jié)構(gòu)的新思路、新技術(shù),保證計(jì)算機(jī)性能繼續(xù)按現(xiàn)在速率提高體系結(jié)構(gòu)發(fā)展的核心-定量方法近年來計(jì)算機(jī)體系結(jié)構(gòu)發(fā)展的核心,122、計(jì)算機(jī)的分類

傳統(tǒng)的計(jì)算機(jī)分類:大型機(jī)、小型機(jī)、巨型機(jī)(成熟超級(jí)計(jì)算機(jī))

按機(jī)器規(guī)模指令(字長,內(nèi)外存儲(chǔ)器容量,速度等指標(biāo)),價(jià)格等指標(biāo)進(jìn)行分類(PC)機(jī)、工作站,服務(wù)器

1980年代產(chǎn)生了新的機(jī)型:個(gè)人(PC)機(jī)、工作站、服務(wù)器主要按用途來分類

1990年代產(chǎn)生了嵌入式系統(tǒng):高性能家電、機(jī)頂盒、電子游戲機(jī)、手機(jī)、網(wǎng)絡(luò)路由器、交換機(jī)等這里微處理器成為設(shè)備的一個(gè)組件,如馬達(dá)所起的作用,主要不是作計(jì)算用2、計(jì)算機(jī)的分類傳統(tǒng)的計(jì)算機(jī)分類:13計(jì)算機(jī)的新分類

臺(tái)式機(jī)服務(wù)器嵌入式計(jì)算機(jī)它們分別面向不同應(yīng)用,具有不同要求,采用不同技術(shù)

計(jì)算機(jī)的新分類14臺(tái)式機(jī)、服務(wù)器、嵌入式系統(tǒng)特征對比臺(tái)式機(jī)、服務(wù)器、嵌入式系統(tǒng)特征對比153、計(jì)算機(jī)設(shè)計(jì)的任務(wù)

計(jì)算機(jī)設(shè)計(jì)目標(biāo):應(yīng)滿足市場對功能的要求,同時(shí)也應(yīng)滿足成本,功耗和性能的目標(biāo)

3、計(jì)算機(jī)設(shè)計(jì)的任務(wù)計(jì)算機(jī)設(shè)計(jì)目標(biāo):16計(jì)算機(jī)設(shè)計(jì)任務(wù)指令集設(shè)計(jì)——這是傳統(tǒng)計(jì)算機(jī)體系結(jié)構(gòu)的任務(wù),即程序員面對的(看得見的)指令系統(tǒng)的設(shè)計(jì)計(jì)算機(jī)組織設(shè)計(jì)——存儲(chǔ)器設(shè)計(jì),CPU設(shè)計(jì),I/O總線結(jié)構(gòu)設(shè)計(jì)等高層內(nèi)容,同一個(gè)指令集可以對應(yīng)不同組織設(shè)計(jì)硬件設(shè)計(jì)——芯片的邏輯設(shè)計(jì)、封裝、冷卻。

相同的指令集和組織可以對應(yīng)不同的硬件實(shí)現(xiàn)形成一個(gè)產(chǎn)品系列,如PentiumⅡ和Celeron,使Celeron適用于低端產(chǎn)品

計(jì)算機(jī)體系結(jié)構(gòu)學(xué)科應(yīng)包含上述三方面的內(nèi)容計(jì)算機(jī)設(shè)計(jì)任務(wù)指令集設(shè)計(jì)17Fig1。4,p10Fig1。4,p1018計(jì)算機(jī)設(shè)計(jì)技術(shù)人員的任務(wù)明確具體的功能要求,因?yàn)閬碜允袌龅墓δ芤笸遣幻鞔_的

明確最主要的任務(wù)是什么,最主要的功能往往是使用最頻繁的部件,做好了最主要部件的設(shè)計(jì)對提高性能影響最大。優(yōu)化設(shè)計(jì)——根據(jù)不同準(zhǔn)則來選擇最優(yōu)的設(shè)計(jì)方案,例如前面介紹過對于個(gè)人機(jī)、服務(wù)器和嵌入式計(jì)算機(jī)的不同優(yōu)化目標(biāo)

計(jì)算機(jī)設(shè)計(jì)技術(shù)人員的任務(wù)明確具體的功能要求,因?yàn)閬碜允袌龅墓?94、技術(shù)發(fā)展趨向

由于計(jì)算機(jī)技術(shù)發(fā)展十分快速,一個(gè)成功的指令集設(shè)計(jì)不應(yīng)該因?yàn)榧夹g(shù)發(fā)展而遭淘汰

計(jì)算機(jī)體系結(jié)構(gòu)設(shè)計(jì)師應(yīng)預(yù)見到技術(shù)發(fā)展的趨向,在設(shè)計(jì)下一代產(chǎn)品時(shí),預(yù)見到產(chǎn)品大規(guī)模進(jìn)入市場時(shí)恰好是所用的下一代技術(shù)的性價(jià)比達(dá)到最佳的時(shí)候,從而使其設(shè)計(jì)的產(chǎn)品生命周期得以延長

4、技術(shù)發(fā)展趨向由于計(jì)算機(jī)技術(shù)發(fā)展十分快速,一個(gè)成功的指令20影響最大的四種關(guān)鍵技術(shù)集成電路技術(shù)半導(dǎo)體DRAM磁盤技術(shù)網(wǎng)絡(luò)技術(shù)影響最大的四種關(guān)鍵技術(shù)集成電路技術(shù)21集成電路技術(shù)

晶體管密度每年增加35%,即每4年增加4倍集成電路芯片的尺寸每年提高10%-20%綜合上述兩個(gè)參數(shù),芯片的晶體管數(shù)每年提高55%集成電路技術(shù)晶體管密度每年增加35%,即每4年增加4倍22半導(dǎo)體DRAM(動(dòng)態(tài)隨機(jī)存取存儲(chǔ)器)

芯片密度每年遞增40%-60%,即每3-4年增加4倍存取周期縮短相對較慢,每10年縮短1/3DRAM接口改進(jìn)提高了存取帶寬

半導(dǎo)體DRAM(動(dòng)態(tài)隨機(jī)存取存儲(chǔ)器)芯片密度每年遞增40%23磁盤技術(shù)

近年來磁盤的存儲(chǔ)密度以每年100%速度遞增,并將繼續(xù)一段時(shí)間(1990年以前每年以30%速度遞增)磁盤的存取周期縮短相對較慢,每10年縮短1/3磁盤技術(shù)近年來磁盤的存儲(chǔ)密度以每年100%速度遞增,并將繼24網(wǎng)絡(luò)技術(shù)

網(wǎng)絡(luò)性能與交換機(jī)和發(fā)射端的性能有關(guān)衡量網(wǎng)絡(luò)的指標(biāo)有:延遲時(shí)間和帶寬等,帶寬是主要指標(biāo)近年來帶寬提高速度較快如以太網(wǎng)從10Mbps提高到100Mbps花了10年時(shí)間,而從100Mbps提高到1Gbps只用了5年

網(wǎng)絡(luò)技術(shù)網(wǎng)絡(luò)性能與交換機(jī)和發(fā)射端的性能有關(guān)25二、指令級(jí)并行性技術(shù)

(InstructionLevelParallelism-ILP)

指令級(jí)并行性技術(shù)是RISC(精減指令集計(jì)算機(jī))(——ReducedInstructionsetComputer)的主要貢獻(xiàn)

二、指令級(jí)并行性技術(shù)

(InstructionLevel261、RISC與CISCCISC即復(fù)雜指令集計(jì)算機(jī)(——ComplexInstructionsetComputer)RISC思想在1980年代初提出1980年代末大規(guī)模投入實(shí)際使用1980年代中期以前的微處理器可統(tǒng)稱為CISC體系結(jié)構(gòu)微處理器1、RISC與CISCCISC即復(fù)雜指令集計(jì)算機(jī)(——Com27RISC與CISC的最主要的區(qū)別平均執(zhí)行每條指令的時(shí)鐘周期數(shù)CPI(CyclesperInstruction)的不同RISC的CPI≤1CISC的CPI<1CPI的作用:CPI數(shù)越小,CPU速度越快CPI數(shù)越大,CPU速度越慢

RISC與CISC的最主要的區(qū)別平均執(zhí)行每條指令的時(shí)鐘周期數(shù)28CPU性能公式

CPUfime=IC×CPI×CCCPUfime——執(zhí)行一般代碼所需的中央處理站(CPU)時(shí)間IC——代碼的指令條數(shù)(InstructionComt),與指令集設(shè)計(jì)編譯器的優(yōu)化有關(guān)CPI——平均執(zhí)行每條指令的時(shí)鐘周期數(shù),與指令集設(shè)計(jì)、體系結(jié)構(gòu)等技術(shù)有關(guān)CC——時(shí)鐘周期(ClockCyde)與計(jì)算機(jī)組成,IC工藝等技術(shù)有關(guān)

CPU性能公式CPUfime=IC×CPI×C29縮短CPI成為縮短CPUtime的主要技術(shù)途徑

RISC體系結(jié)構(gòu)追求精減的指令集數(shù)據(jù)類型、尋址主式精減,指令長度統(tǒng)一,格式統(tǒng)一,提高流水線的效率,實(shí)現(xiàn)了每一時(shí)鐘周期能執(zhí)行一條指令(CPI=1)RISC體系結(jié)構(gòu)進(jìn)一步提出指令多發(fā)射技術(shù)即每一時(shí)鐘周期可發(fā)射多條指令,執(zhí)行多條指令,進(jìn)一步實(shí)現(xiàn)CPI<1縮短CPI成為縮短CPUtime的主要技術(shù)途徑RISC體30CISC計(jì)算機(jī)速度提高較慢的原因傳統(tǒng)CISC體系結(jié)構(gòu)計(jì)算機(jī)的CPI≌5-8原因:以DEC公司的VAX機(jī)器為例,指令系統(tǒng)復(fù)雜,指令集有304條指令,指令長度:1Byte~64Byte,操作數(shù)不足:0-6個(gè),操作數(shù)達(dá)十幾種,尋址方式達(dá)幾十種;采用微程序控制——導(dǎo)致流水線結(jié)構(gòu)復(fù)雜,效率低下,速度提高有困難目前幾乎所有微處理器,包括傳統(tǒng)著名的CISC微處理器,如Intel系列和Motorola系列微處理器都采用RISC體系結(jié)構(gòu)

CISC計(jì)算機(jī)速度提高較慢的原因傳統(tǒng)CISC體系結(jié)構(gòu)計(jì)算機(jī)的312.流水線技術(shù)

這是理想流水線的性能:達(dá)到每一個(gè)時(shí)鐘周期可以完成一條指令與指令串行執(zhí)行相比較,速度提高5倍

簡介:流水線是一種多條指令重疊執(zhí)行的實(shí)現(xiàn)技術(shù)2.流水線技術(shù)這是理想流水線的性能:達(dá)到每一個(gè)時(shí)鐘周期可以32流水線的競爭

實(shí)際流水線不可能像上述理想流水線那樣完美存在三種流水線競爭結(jié)構(gòu)競爭:由硬件資源不足造成流水線停頓數(shù)據(jù)競爭:由前后指令之間存在數(shù)據(jù)相關(guān)性造成流水線停頓控制競爭:由轉(zhuǎn)移指令造成流水線停頓

流水線的競爭實(shí)際流水線不可能像上述理想流水線那樣完美33實(shí)際流水線的性能實(shí)際流水線的CPI=理想流水線的CPI+結(jié)構(gòu)競爭造成的停頓周期+數(shù)據(jù)競爭造成的停頓周期+控制競爭造成的停頓周期要提高CPU的性能就是要消除或減少三種競爭造成的停頓周期

實(shí)際流水線的性能實(shí)際流水線的CPI=理想流水線的CPI34流水線競爭的解決結(jié)構(gòu)競爭可以通過增加硬件資源來解決數(shù)據(jù)競爭和控制競爭只有通過挖掘代碼指令之間的平行性,即通過開發(fā)和發(fā)現(xiàn)指令之間存在的可并行(重疊)執(zhí)行的可能性,然后對指令執(zhí)行順序進(jìn)行調(diào)度,即用不相關(guān)的指令來填補(bǔ)本來應(yīng)該停頓周期的方法,達(dá)到消除或減少停頓周期,提高指令執(zhí)行速度

流水線競爭的解決結(jié)構(gòu)競爭可以通過增加硬件資源來解決353.指令級(jí)并行性(ILP)開發(fā)技術(shù)

ILP開發(fā)技術(shù)分兩大類:基于硬件的ILP開發(fā)技術(shù),又稱動(dòng)態(tài)開發(fā)ILP技術(shù)基于軟件的ILP開發(fā)技術(shù),又稱靜態(tài)開發(fā)ILP技術(shù)

3.指令級(jí)并行性(ILP)開發(fā)技術(shù)ILP開發(fā)技術(shù)分兩大類:36用于解決數(shù)據(jù)競爭的ILP開發(fā)技術(shù)

靜態(tài)調(diào)度技術(shù)動(dòng)態(tài)調(diào)度技術(shù)采用改名技術(shù)的動(dòng)態(tài)調(diào)度技術(shù)編譯分析數(shù)據(jù)相關(guān)性軟件流水線路經(jīng)調(diào)度用于解決數(shù)據(jù)競爭的ILP開發(fā)技術(shù)靜態(tài)調(diào)度技術(shù)37用于解決控制相關(guān)性的ILP開發(fā)技術(shù)

靜態(tài)轉(zhuǎn)移預(yù)測技術(shù)動(dòng)態(tài)轉(zhuǎn)移預(yù)測技術(shù)靜脈投機(jī)技術(shù)動(dòng)態(tài)投機(jī)技術(shù)循環(huán)體展開技術(shù)延時(shí)轉(zhuǎn)移技術(shù)

用于解決控制相關(guān)性的ILP開發(fā)技術(shù)靜態(tài)轉(zhuǎn)移預(yù)測技術(shù)38三、指令多發(fā)射技術(shù)

1.指令多發(fā)射技術(shù)概述從CPUtime=IC×CPI×CC公式出發(fā),進(jìn)一步提高CPU性能的途徑是令CPI<1

要達(dá)到CPI<1的目的,必須做到每個(gè)時(shí)鐘周期發(fā)射多條指令,有多個(gè)處理部件和足夠的硬件資源來并行處理多條指令,達(dá)到平均每條指令的處理時(shí)間小于1個(gè)時(shí)鐘周期三、指令多發(fā)射技術(shù)1.指令多發(fā)射技術(shù)概述39指令多發(fā)射處理器有兩類:超標(biāo)量處理器(Superscalarprecessors)超長指令字處理器(VLIW-veryhonginstructionword)根據(jù)指令發(fā)射機(jī)制,即調(diào)度、組織可同時(shí)發(fā)射指令的機(jī)制,也可分為兩類:動(dòng)態(tài)多發(fā)射機(jī)制,即由硬件在程序執(zhí)行過程中調(diào)度靜態(tài)多發(fā)射機(jī)制,即由編譯器在程序編譯過程中調(diào)度

指令多發(fā)射處理器有兩類:40計(jì)算機(jī)體系結(jié)構(gòu)學(xué)科發(fā)展簡介課件412.超標(biāo)量處理器

超標(biāo)量處理器流水線操作2.超標(biāo)量處理器超標(biāo)量處理器流水線操作42超標(biāo)量處理器的特點(diǎn)

在一個(gè)周期里能發(fā)射可變數(shù)量的指令,通常為1-8條指令/周期同時(shí)發(fā)射的指令按規(guī)定搭配,不能自由搭配,即有限制:如同時(shí)發(fā)射的指令必須是獨(dú)立的,即無數(shù)據(jù)競爭,以及滿足訪存次數(shù)規(guī)定等等。采用靜態(tài)調(diào)度(compiler完成)和/或動(dòng)態(tài)調(diào)度(硬件完成)方法確定可同時(shí)發(fā)射的指令

超標(biāo)量處理器的特點(diǎn)在一個(gè)周期里能發(fā)射可變數(shù)量的指令,通常為433.超長指令字處理器(VLIW)

VLIW處理器特點(diǎn)一次發(fā)射一條超長指令,其中包含多個(gè)操作,而不像超標(biāo)量處理器那樣一次發(fā)射多條指令在超長指令當(dāng)中多個(gè)操作按規(guī)定搭配順序排列,即指令類型不能任意搭配,操作順序不能任意顛倒3.超長指令字處理器(VLIW)VLIW處理器特點(diǎn)44VLIW究竟有多長?

以一個(gè)擁有多個(gè)功能單元的VLIW處理器為例:設(shè)7個(gè)功能單元可支持:2個(gè)整數(shù)操作、2個(gè)FP操作、2個(gè)存儲(chǔ)器訪問操作和1個(gè)轉(zhuǎn)移操作,這樣這條含7個(gè)操作的VLIW的功能相當(dāng)于7條指令,為支持每一功能單元正常工作,應(yīng)分配每一功能單元相應(yīng)的數(shù)據(jù)域;一般每個(gè)數(shù)據(jù)域?yàn)?6~24位這一VLIW長度為:16bits×7=112bits或?yàn)?24bits×7=168bits

比較:一個(gè)擁有7個(gè)功能單元的超標(biāo)量處理器,一次發(fā)射7條指令,總長度為32bits×7=224bits

VLIW究竟有多長?以一個(gè)擁有多個(gè)功能單元的VLIW處理器45超長指令字的組裝由編譯器完成,即由編譯器作靜態(tài)調(diào)度,選擇無相關(guān)性指令按搭配順序填入超長指令字為充分發(fā)揮VLIW處理器功能單元的作用,必須要有足夠多的可并行執(zhí)行指令提供給VLIW,編譯器必須采用功能更強(qiáng)的全局調(diào)度技術(shù)

超長指令字的組裝由編譯器完成,即由編譯器作靜態(tài)調(diào)度,選擇無相464.多發(fā)射處理器的技術(shù)難點(diǎn)

程序固有指令級(jí)并行性有限是多發(fā)射處理器的本質(zhì)困難,需要的可并行執(zhí)行的指令數(shù)大致等于功能單元數(shù)乘以流水線級(jí)數(shù)。多發(fā)射處理器硬件數(shù)量多、速度快,且復(fù)雜性高,從而成本高。4.多發(fā)射處理器的技術(shù)難點(diǎn)程序固有指令級(jí)并行性有限是多發(fā)射47

超標(biāo)量處理器的特殊困難發(fā)射邏輯復(fù)雜且高速動(dòng)態(tài)調(diào)度硬件極其復(fù)雜超長指令字處理器的特殊困難對編譯器的要求高VLIW系列機(jī)二進(jìn)制代碼兼容困難

超標(biāo)量處理器的特殊困難48四、Cache技術(shù)Cache—一種小容量的高速緩沖存儲(chǔ)器Cache在計(jì)算機(jī)中的位置四、Cache技術(shù)Cache—一種小容量的高速緩沖存儲(chǔ)器491、為什么要引入Cache?首先看一下CPU芯片速度與內(nèi)存儲(chǔ)器DRAM芯片速度的差別有多大1、為什么要引入Cache?首先看一下CPU芯片速度與內(nèi)存儲(chǔ)50CPU與DRAM速度差意味著什么?

說明單純地改善CPU的設(shè)計(jì),一味追求提高CPU的速度,并不能提高計(jì)算機(jī)整機(jī)的性能,因?yàn)楦咚貱PU的性能被低速的存儲(chǔ)器訪問所抵銷。為了提高計(jì)算機(jī)整機(jī)性能,必須消除兩者性能差,或者僅可能縮小兩者性能差。

CPU與DRAM速度差意味著什么?說明單純地改善CPU的設(shè)51解決辦法

在高速CPU與低速M(fèi)emory之間引入一個(gè)小容量的高速緩沖存儲(chǔ)器(Cache),Cache速度與CPU速度之差(不足1個(gè)數(shù)量級(jí))遠(yuǎn)遠(yuǎn)小于CPU與DRAM速度差(3個(gè)數(shù)量級(jí)~4個(gè)數(shù)量級(jí)),通過將存儲(chǔ)器分級(jí)的方法來緩解這一巨大的速度差,提高計(jì)算機(jī)的性能。

解決辦法在高速CPU與低速M(fèi)emory之間引入一個(gè)小容量的522、為什么引入Cache能提高計(jì)算機(jī)性能?

問:既然用作Cache的SRAM芯片的速度遠(yuǎn)遠(yuǎn)高于用作主存儲(chǔ)器的DRAM芯片,那么為什么主存儲(chǔ)器不用SRAM芯片來實(shí)現(xiàn)?答案:

SRAM的價(jià)格遠(yuǎn)高于DRAM,而且主存儲(chǔ)器的容量大,采用高速SRAM使成本急劇上升,因此從性能/價(jià)格綜合考慮只能采用小容量的Cache。

2、為什么引入Cache能提高計(jì)算機(jī)性能?問:53問:小容量的Cache能否滿足程序存取指令和數(shù)據(jù)的需求?答案:計(jì)算機(jī)設(shè)計(jì)定量原理中有一條局部性原理告訴我們:程序總是傾向于重用那些剛剛用過的數(shù)據(jù)和指令,這是計(jì)算機(jī)程序非常重要的性質(zhì)。局部性原理的另一種表述:程序90%的執(zhí)行時(shí)間是花在10%的代碼上。局部性原理告訴我們:可以根據(jù)程序最近訪問的數(shù)據(jù)和指令來預(yù)測程序?qū)⒁{(diào)用的數(shù)據(jù)和指令,且這一預(yù)測正確度是比較高的。所以小容量的Cache能滿足程序存取數(shù)據(jù)和指令的需求

問:小容量的Cache能否滿足程序存取指令和數(shù)據(jù)的需543.Cache技術(shù)的發(fā)展

采用多級(jí)Cache1980年代的微處理器大多沒有片上Cache,只有片外Cache2001年的微處理器大多都有2級(jí)片上Cache,再加上一級(jí)片外Cache增加Cache容量1980年代的片外Cache通常只有幾十KB2001年的微處理器三級(jí)Cache的容量可達(dá)16MB采用各種優(yōu)化技術(shù)來提高Cache性能,包括減少失配造成的代價(jià)減少失配率減少命中時(shí)間3.Cache技術(shù)的發(fā)展采用多級(jí)Cache55五、多處理器技術(shù)單處理器計(jì)算機(jī)性能是否已接近其極限?然而從1985起到2000,這一段正是單處理器計(jì)算機(jī)性能突飛猛進(jìn)的時(shí)代單處理器計(jì)算機(jī)至少在未來5年仍將以目前速度發(fā)展五、多處理器技術(shù)單處理器計(jì)算機(jī)性能是否已接近其極限?56多處理器計(jì)算機(jī)將越來越重要的理由

微處理器已主宰單處理器計(jì)算機(jī)技術(shù),因此為了提高單處理器計(jì)算機(jī)性能而將多個(gè)微處理器連接起來就成為很自然的選擇現(xiàn)在還不清楚使計(jì)算機(jī)體系結(jié)構(gòu)不斷創(chuàng)新的指令級(jí)并行技術(shù)能否繼續(xù)無限地發(fā)展下去曾經(jīng)是并行機(jī)發(fā)展障礙的軟件有了新的發(fā)展和進(jìn)展,主要是在服務(wù)器和嵌入式系統(tǒng)方面為多處理器計(jì)算機(jī)發(fā)展帶來曙光

多處理器計(jì)算機(jī)將越來越重要的理由微處理器已主宰單處理器計(jì)算571.并行計(jì)算機(jī)體系結(jié)構(gòu)分類

Flynn在1966年提出的計(jì)算機(jī)分類方法,即按指令流和數(shù)據(jù)流進(jìn)行計(jì)算機(jī)分類的方法仍適用至今

單指令流,單數(shù)據(jù)流(SISD)—單處理器計(jì)算機(jī)單指令流,多數(shù)據(jù)流(SIMD)—矢量計(jì)算機(jī)多指令流,單數(shù)據(jù)流(MISD)—市場上無此類計(jì)算機(jī)多指令流,多數(shù)據(jù)流(MIMD)—通用多處理器并行計(jì)算機(jī),是廣泛應(yīng)用的多處理器并行計(jì)算機(jī)體系結(jié)構(gòu)

1.并行計(jì)算機(jī)體系結(jié)構(gòu)分類Flynn在1966年提出的計(jì)算58MIMD多處理器計(jì)算機(jī)分類可按處理器數(shù)目,存儲(chǔ)器組織以及互連網(wǎng)絡(luò)的策略來分類

按存儲(chǔ)器組織進(jìn)行分類的兩種多處理器計(jì)算機(jī):集中共享存儲(chǔ)器體系結(jié)構(gòu)

分布式存儲(chǔ)器體系結(jié)構(gòu)

MIMD多處理器計(jì)算機(jī)分類可按處理器數(shù)目,存儲(chǔ)器組織以及互連592.集中共享存儲(chǔ)器型多處理器計(jì)算機(jī)基本結(jié)構(gòu)

2.集中共享存儲(chǔ)器型多處理器計(jì)算機(jī)基本結(jié)構(gòu)60此類計(jì)算機(jī)適用于處理器數(shù)目相對較少的場合,對于只有幾個(gè)、十幾個(gè)處理器,有可能共享一個(gè)主存儲(chǔ)器,以及采用總線實(shí)現(xiàn)處理器和主存的互連對于含有二、三十個(gè)處理器的機(jī)器需用多總線,甚至用交換器才能滿足存儲(chǔ)器帶寬的要求

此類計(jì)算機(jī)適用于處理器數(shù)目相對較少的場合,對于只有幾個(gè)、十幾61集中共享存儲(chǔ)器型多處理器計(jì)算機(jī)只有一個(gè)主存儲(chǔ)器,對所有處理器都是對稱的,訪問存儲(chǔ)器的時(shí)間都是均等的,所以這種體系結(jié)構(gòu)又稱為對稱(共享存儲(chǔ)器)處理器(SMP)集中共享存儲(chǔ)器型多處理器是目前最成功的多處理器計(jì)算機(jī)集中共享存儲(chǔ)器型多處理器計(jì)算機(jī)只有一個(gè)主存儲(chǔ)器,對所有處理器623.分布式存儲(chǔ)器型多處理器計(jì)算機(jī)

基本結(jié)構(gòu)

3.分布式存儲(chǔ)器型多處理器計(jì)算機(jī)基本結(jié)構(gòu)63此類計(jì)算機(jī)適用于處理器相對較多的場合,可以是上百個(gè)、上千個(gè)、甚至數(shù)千個(gè)之多。此類計(jì)算機(jī)要求互連網(wǎng)絡(luò)的帶寬較高,通常采用交換機(jī)或多維網(wǎng)格實(shí)現(xiàn)處理器之間的直接互連。分布式存儲(chǔ)器型體系結(jié)構(gòu)的最大缺點(diǎn)是處理器之間的數(shù)據(jù)通信變得非常復(fù)雜(一致性問題),并且延時(shí)較長。

此類計(jì)算機(jī)適用于處理器相對較多的場合,可以是上百個(gè)、上千個(gè)、644.并行處理的難點(diǎn)

程序固有并行性不足,導(dǎo)致并行計(jì)算機(jī)很難達(dá)到理想的加速比

處理器之間通信代價(jià)高(即延時(shí)長),同樣將導(dǎo)致加速比下降

4.并行處理的難點(diǎn)程序固有并行性不足,導(dǎo)致并行計(jì)算機(jī)很難達(dá)65六、我國計(jì)算機(jī)體系結(jié)構(gòu)研究進(jìn)展

過去重視多處理器并行計(jì)算機(jī),即高性能計(jì)算機(jī)的研制,如銀河系列超級(jí)計(jì)算機(jī),以及不對外公布的軍用超級(jí)計(jì)算機(jī),曙光4000服務(wù)器運(yùn)行速度已達(dá)千億次/秒前不久對外宣布的“龍芯”研制成功的消息表明我國有能力研制高性能微處理器。龍芯相當(dāng)于Intel1997推出的PentiumⅡ

六、我國計(jì)算機(jī)體系結(jié)構(gòu)研究進(jìn)展過去重視多處理器并行計(jì)算機(jī),66謝謝謝謝67演講完畢,謝謝觀看!演講完畢,謝謝觀看!68計(jì)算機(jī)體系結(jié)構(gòu)學(xué)科發(fā)展簡介石教英浙江大學(xué)計(jì)算機(jī)學(xué)院計(jì)算機(jī)系統(tǒng)研究所2002年11月計(jì)算機(jī)體系結(jié)構(gòu)學(xué)科發(fā)展簡介石教英69目錄一、計(jì)算機(jī)體系結(jié)構(gòu)學(xué)科發(fā)展回顧1.計(jì)算機(jī)性能高速發(fā)展及其原因2.計(jì)算機(jī)的分類3.計(jì)算機(jī)設(shè)計(jì)的任務(wù)4.技術(shù)發(fā)展趨向二、指令級(jí)并行性開發(fā)技術(shù)1.RISC與CISC2.流水線技術(shù)3.指令級(jí)并行性技術(shù)三、指令多發(fā)射技術(shù)1.指令多發(fā)射技術(shù)概述2.超標(biāo)量處理器3.超長指令字處理器4.多發(fā)射處理器的技術(shù)難點(diǎn)目錄一、計(jì)算機(jī)體系結(jié)構(gòu)學(xué)科發(fā)展回顧70四、Cache技術(shù)1.為什么要引入Cache2.為什么引入Cache能提高計(jì)算機(jī)性能?3.Cache技術(shù)的發(fā)展五、多處理器技術(shù)

1.

并行計(jì)算機(jī)體系結(jié)構(gòu)分類2.

集中共享存儲(chǔ)器型多處理計(jì)算機(jī)3.

分布式存儲(chǔ)器型多處理器計(jì)算機(jī)4.

并行處理的難點(diǎn)六、我國計(jì)算機(jī)體系結(jié)構(gòu)研究進(jìn)展

四、Cache技術(shù)71一、計(jì)算機(jī)體系結(jié)構(gòu)學(xué)科發(fā)展回顧C(jī)omputerArchitecture定義應(yīng)用機(jī)器語言的程序員為了能正確編寫時(shí)序無關(guān)的程序所必須了解的計(jì)算機(jī)的結(jié)構(gòu)。簡單講:計(jì)算機(jī)體系結(jié)構(gòu)是一門設(shè)計(jì)計(jì)算機(jī)的學(xué)科,包括計(jì)算機(jī)的指令系統(tǒng)設(shè)計(jì),結(jié)構(gòu)設(shè)計(jì),實(shí)現(xiàn)技術(shù),以及與系統(tǒng)軟件操作系統(tǒng)和編譯器相關(guān)的技術(shù)。一、計(jì)算機(jī)體系結(jié)構(gòu)學(xué)科發(fā)展回顧C(jī)omputerArchit721、計(jì)算機(jī)性能高速發(fā)展及其原因1946年第一臺(tái)通用電子計(jì)算機(jī)ENIAS誕生至今僅56年——每秒5000次運(yùn)算加法計(jì)算機(jī)技術(shù)以驚人速度發(fā)展,并將繼續(xù)高速發(fā)展1980年百萬美元機(jī)器的性能比不上今年<1千美元的機(jī)器今天最高性能的微處理器超過10年前的超級(jí)計(jì)算機(jī)如用于高端網(wǎng)絡(luò)交換機(jī)和最新電子游戲機(jī)的微處理器速度可達(dá)每秒10億次運(yùn)算1、計(jì)算機(jī)性能高速發(fā)展及其原因1946年第一臺(tái)通用電子計(jì)算機(jī)73計(jì)算機(jī)性能高速發(fā)展原因1.構(gòu)建計(jì)算機(jī)的各種技術(shù)進(jìn)步2.計(jì)算機(jī)本身的創(chuàng)新設(shè)計(jì)技術(shù)的發(fā)展技術(shù)進(jìn)步—以穩(wěn)定速度發(fā)展,主要指IC技術(shù)創(chuàng)新設(shè)計(jì)—發(fā)展速度不穩(wěn)定,有時(shí)快有時(shí)慢計(jì)算機(jī)性能高速發(fā)展原因1.構(gòu)建計(jì)算機(jī)的各種技術(shù)進(jìn)步74各年代的性能提高速率

年代性能的年提高率原因1970年代初25%-30%

1970年代末35%微處理器芯片廣泛應(yīng)用1980年代末58%RISC體系結(jié)構(gòu)、Cache等創(chuàng)新設(shè)計(jì)技術(shù)各年代的性能提高速率

年代性能的年提高率原因1970年代初275截止2001年微處理器性能增長率截止2001年微處理器性能增長率76RISC、Cache技術(shù)發(fā)展階段RISC體系結(jié)構(gòu)發(fā)展又可分為兩個(gè)階段早期集中發(fā)展指令級(jí)并行技術(shù)后期集中發(fā)展多指令發(fā)射技術(shù)Cache技術(shù)發(fā)展同樣經(jīng)歷兩個(gè)階段早期集中發(fā)展Cache的原理性應(yīng)用

后期集中發(fā)展新的Cache組織和各種Cache性能優(yōu)化技術(shù)

RISC、Cache技術(shù)發(fā)展階段RISC體系結(jié)構(gòu)發(fā)展又可分77計(jì)算機(jī)創(chuàng)新設(shè)計(jì)對每年58%性能提高率的貢獻(xiàn)——超過技術(shù)進(jìn)步貢獻(xiàn)達(dá)15倍之多說明:計(jì)算機(jī)體系結(jié)構(gòu)學(xué)科的重要性!!

計(jì)算機(jī)創(chuàng)新設(shè)計(jì)對每年58%性能提高率的貢獻(xiàn)78計(jì)算機(jī)性能高速提高帶來的影響用戶擁有越來越高的性能和功能,今天最高性能的微處理器已經(jīng)超出10年前超級(jí)計(jì)算機(jī)的性能。

基于微處理器的計(jì)算機(jī)成為計(jì)算機(jī)設(shè)計(jì)的主流現(xiàn)狀:PC機(jī)、工作站成為主流產(chǎn)品

小型機(jī)被采用微處理器的服務(wù)器所代替

大型機(jī)被采用數(shù)十個(gè)至上百個(gè)微處理器構(gòu)成的多處理器計(jì)算機(jī)所代替超級(jí)計(jì)算機(jī)正在被成千上萬個(gè)微處理器構(gòu)成的多處理器計(jì)算機(jī)所代替計(jì)算機(jī)性能高速提高帶來的影響用戶擁有越來越高的性能和功能,今79體系結(jié)構(gòu)發(fā)展的核心-定量方法近年來計(jì)算機(jī)體系結(jié)構(gòu)發(fā)展的核心,也是計(jì)算機(jī)創(chuàng)新設(shè)計(jì)技術(shù)的核心歸功于——定量方法。用定量方法進(jìn)行計(jì)算機(jī)設(shè)計(jì)用定量方法作為工具分析程序?qū)嶋H運(yùn)行結(jié)果、各類實(shí)驗(yàn)和仿真用定量方法尋找計(jì)算機(jī)體系結(jié)構(gòu)的新思路、新技術(shù),保證計(jì)算機(jī)性能繼續(xù)按現(xiàn)在速率提高體系結(jié)構(gòu)發(fā)展的核心-定量方法近年來計(jì)算機(jī)體系結(jié)構(gòu)發(fā)展的核心,802、計(jì)算機(jī)的分類

傳統(tǒng)的計(jì)算機(jī)分類:大型機(jī)、小型機(jī)、巨型機(jī)(成熟超級(jí)計(jì)算機(jī))

按機(jī)器規(guī)模指令(字長,內(nèi)外存儲(chǔ)器容量,速度等指標(biāo)),價(jià)格等指標(biāo)進(jìn)行分類(PC)機(jī)、工作站,服務(wù)器

1980年代產(chǎn)生了新的機(jī)型:個(gè)人(PC)機(jī)、工作站、服務(wù)器主要按用途來分類

1990年代產(chǎn)生了嵌入式系統(tǒng):高性能家電、機(jī)頂盒、電子游戲機(jī)、手機(jī)、網(wǎng)絡(luò)路由器、交換機(jī)等這里微處理器成為設(shè)備的一個(gè)組件,如馬達(dá)所起的作用,主要不是作計(jì)算用2、計(jì)算機(jī)的分類傳統(tǒng)的計(jì)算機(jī)分類:81計(jì)算機(jī)的新分類

臺(tái)式機(jī)服務(wù)器嵌入式計(jì)算機(jī)它們分別面向不同應(yīng)用,具有不同要求,采用不同技術(shù)

計(jì)算機(jī)的新分類82臺(tái)式機(jī)、服務(wù)器、嵌入式系統(tǒng)特征對比臺(tái)式機(jī)、服務(wù)器、嵌入式系統(tǒng)特征對比833、計(jì)算機(jī)設(shè)計(jì)的任務(wù)

計(jì)算機(jī)設(shè)計(jì)目標(biāo):應(yīng)滿足市場對功能的要求,同時(shí)也應(yīng)滿足成本,功耗和性能的目標(biāo)

3、計(jì)算機(jī)設(shè)計(jì)的任務(wù)計(jì)算機(jī)設(shè)計(jì)目標(biāo):84計(jì)算機(jī)設(shè)計(jì)任務(wù)指令集設(shè)計(jì)——這是傳統(tǒng)計(jì)算機(jī)體系結(jié)構(gòu)的任務(wù),即程序員面對的(看得見的)指令系統(tǒng)的設(shè)計(jì)計(jì)算機(jī)組織設(shè)計(jì)——存儲(chǔ)器設(shè)計(jì),CPU設(shè)計(jì),I/O總線結(jié)構(gòu)設(shè)計(jì)等高層內(nèi)容,同一個(gè)指令集可以對應(yīng)不同組織設(shè)計(jì)硬件設(shè)計(jì)——芯片的邏輯設(shè)計(jì)、封裝、冷卻。

相同的指令集和組織可以對應(yīng)不同的硬件實(shí)現(xiàn)形成一個(gè)產(chǎn)品系列,如PentiumⅡ和Celeron,使Celeron適用于低端產(chǎn)品

計(jì)算機(jī)體系結(jié)構(gòu)學(xué)科應(yīng)包含上述三方面的內(nèi)容計(jì)算機(jī)設(shè)計(jì)任務(wù)指令集設(shè)計(jì)85Fig1。4,p10Fig1。4,p1086計(jì)算機(jī)設(shè)計(jì)技術(shù)人員的任務(wù)明確具體的功能要求,因?yàn)閬碜允袌龅墓δ芤笸遣幻鞔_的

明確最主要的任務(wù)是什么,最主要的功能往往是使用最頻繁的部件,做好了最主要部件的設(shè)計(jì)對提高性能影響最大。優(yōu)化設(shè)計(jì)——根據(jù)不同準(zhǔn)則來選擇最優(yōu)的設(shè)計(jì)方案,例如前面介紹過對于個(gè)人機(jī)、服務(wù)器和嵌入式計(jì)算機(jī)的不同優(yōu)化目標(biāo)

計(jì)算機(jī)設(shè)計(jì)技術(shù)人員的任務(wù)明確具體的功能要求,因?yàn)閬碜允袌龅墓?74、技術(shù)發(fā)展趨向

由于計(jì)算機(jī)技術(shù)發(fā)展十分快速,一個(gè)成功的指令集設(shè)計(jì)不應(yīng)該因?yàn)榧夹g(shù)發(fā)展而遭淘汰

計(jì)算機(jī)體系結(jié)構(gòu)設(shè)計(jì)師應(yīng)預(yù)見到技術(shù)發(fā)展的趨向,在設(shè)計(jì)下一代產(chǎn)品時(shí),預(yù)見到產(chǎn)品大規(guī)模進(jìn)入市場時(shí)恰好是所用的下一代技術(shù)的性價(jià)比達(dá)到最佳的時(shí)候,從而使其設(shè)計(jì)的產(chǎn)品生命周期得以延長

4、技術(shù)發(fā)展趨向由于計(jì)算機(jī)技術(shù)發(fā)展十分快速,一個(gè)成功的指令88影響最大的四種關(guān)鍵技術(shù)集成電路技術(shù)半導(dǎo)體DRAM磁盤技術(shù)網(wǎng)絡(luò)技術(shù)影響最大的四種關(guān)鍵技術(shù)集成電路技術(shù)89集成電路技術(shù)

晶體管密度每年增加35%,即每4年增加4倍集成電路芯片的尺寸每年提高10%-20%綜合上述兩個(gè)參數(shù),芯片的晶體管數(shù)每年提高55%集成電路技術(shù)晶體管密度每年增加35%,即每4年增加4倍90半導(dǎo)體DRAM(動(dòng)態(tài)隨機(jī)存取存儲(chǔ)器)

芯片密度每年遞增40%-60%,即每3-4年增加4倍存取周期縮短相對較慢,每10年縮短1/3DRAM接口改進(jìn)提高了存取帶寬

半導(dǎo)體DRAM(動(dòng)態(tài)隨機(jī)存取存儲(chǔ)器)芯片密度每年遞增40%91磁盤技術(shù)

近年來磁盤的存儲(chǔ)密度以每年100%速度遞增,并將繼續(xù)一段時(shí)間(1990年以前每年以30%速度遞增)磁盤的存取周期縮短相對較慢,每10年縮短1/3磁盤技術(shù)近年來磁盤的存儲(chǔ)密度以每年100%速度遞增,并將繼92網(wǎng)絡(luò)技術(shù)

網(wǎng)絡(luò)性能與交換機(jī)和發(fā)射端的性能有關(guān)衡量網(wǎng)絡(luò)的指標(biāo)有:延遲時(shí)間和帶寬等,帶寬是主要指標(biāo)近年來帶寬提高速度較快如以太網(wǎng)從10Mbps提高到100Mbps花了10年時(shí)間,而從100Mbps提高到1Gbps只用了5年

網(wǎng)絡(luò)技術(shù)網(wǎng)絡(luò)性能與交換機(jī)和發(fā)射端的性能有關(guān)93二、指令級(jí)并行性技術(shù)

(InstructionLevelParallelism-ILP)

指令級(jí)并行性技術(shù)是RISC(精減指令集計(jì)算機(jī))(——ReducedInstructionsetComputer)的主要貢獻(xiàn)

二、指令級(jí)并行性技術(shù)

(InstructionLevel941、RISC與CISCCISC即復(fù)雜指令集計(jì)算機(jī)(——ComplexInstructionsetComputer)RISC思想在1980年代初提出1980年代末大規(guī)模投入實(shí)際使用1980年代中期以前的微處理器可統(tǒng)稱為CISC體系結(jié)構(gòu)微處理器1、RISC與CISCCISC即復(fù)雜指令集計(jì)算機(jī)(——Com95RISC與CISC的最主要的區(qū)別平均執(zhí)行每條指令的時(shí)鐘周期數(shù)CPI(CyclesperInstruction)的不同RISC的CPI≤1CISC的CPI<1CPI的作用:CPI數(shù)越小,CPU速度越快CPI數(shù)越大,CPU速度越慢

RISC與CISC的最主要的區(qū)別平均執(zhí)行每條指令的時(shí)鐘周期數(shù)96CPU性能公式

CPUfime=IC×CPI×CCCPUfime——執(zhí)行一般代碼所需的中央處理站(CPU)時(shí)間IC——代碼的指令條數(shù)(InstructionComt),與指令集設(shè)計(jì)編譯器的優(yōu)化有關(guān)CPI——平均執(zhí)行每條指令的時(shí)鐘周期數(shù),與指令集設(shè)計(jì)、體系結(jié)構(gòu)等技術(shù)有關(guān)CC——時(shí)鐘周期(ClockCyde)與計(jì)算機(jī)組成,IC工藝等技術(shù)有關(guān)

CPU性能公式CPUfime=IC×CPI×C97縮短CPI成為縮短CPUtime的主要技術(shù)途徑

RISC體系結(jié)構(gòu)追求精減的指令集數(shù)據(jù)類型、尋址主式精減,指令長度統(tǒng)一,格式統(tǒng)一,提高流水線的效率,實(shí)現(xiàn)了每一時(shí)鐘周期能執(zhí)行一條指令(CPI=1)RISC體系結(jié)構(gòu)進(jìn)一步提出指令多發(fā)射技術(shù)即每一時(shí)鐘周期可發(fā)射多條指令,執(zhí)行多條指令,進(jìn)一步實(shí)現(xiàn)CPI<1縮短CPI成為縮短CPUtime的主要技術(shù)途徑RISC體98CISC計(jì)算機(jī)速度提高較慢的原因傳統(tǒng)CISC體系結(jié)構(gòu)計(jì)算機(jī)的CPI≌5-8原因:以DEC公司的VAX機(jī)器為例,指令系統(tǒng)復(fù)雜,指令集有304條指令,指令長度:1Byte~64Byte,操作數(shù)不足:0-6個(gè),操作數(shù)達(dá)十幾種,尋址方式達(dá)幾十種;采用微程序控制——導(dǎo)致流水線結(jié)構(gòu)復(fù)雜,效率低下,速度提高有困難目前幾乎所有微處理器,包括傳統(tǒng)著名的CISC微處理器,如Intel系列和Motorola系列微處理器都采用RISC體系結(jié)構(gòu)

CISC計(jì)算機(jī)速度提高較慢的原因傳統(tǒng)CISC體系結(jié)構(gòu)計(jì)算機(jī)的992.流水線技術(shù)

這是理想流水線的性能:達(dá)到每一個(gè)時(shí)鐘周期可以完成一條指令與指令串行執(zhí)行相比較,速度提高5倍

簡介:流水線是一種多條指令重疊執(zhí)行的實(shí)現(xiàn)技術(shù)2.流水線技術(shù)這是理想流水線的性能:達(dá)到每一個(gè)時(shí)鐘周期可以100流水線的競爭

實(shí)際流水線不可能像上述理想流水線那樣完美存在三種流水線競爭結(jié)構(gòu)競爭:由硬件資源不足造成流水線停頓數(shù)據(jù)競爭:由前后指令之間存在數(shù)據(jù)相關(guān)性造成流水線停頓控制競爭:由轉(zhuǎn)移指令造成流水線停頓

流水線的競爭實(shí)際流水線不可能像上述理想流水線那樣完美101實(shí)際流水線的性能實(shí)際流水線的CPI=理想流水線的CPI+結(jié)構(gòu)競爭造成的停頓周期+數(shù)據(jù)競爭造成的停頓周期+控制競爭造成的停頓周期要提高CPU的性能就是要消除或減少三種競爭造成的停頓周期

實(shí)際流水線的性能實(shí)際流水線的CPI=理想流水線的CPI102流水線競爭的解決結(jié)構(gòu)競爭可以通過增加硬件資源來解決數(shù)據(jù)競爭和控制競爭只有通過挖掘代碼指令之間的平行性,即通過開發(fā)和發(fā)現(xiàn)指令之間存在的可并行(重疊)執(zhí)行的可能性,然后對指令執(zhí)行順序進(jìn)行調(diào)度,即用不相關(guān)的指令來填補(bǔ)本來應(yīng)該停頓周期的方法,達(dá)到消除或減少停頓周期,提高指令執(zhí)行速度

流水線競爭的解決結(jié)構(gòu)競爭可以通過增加硬件資源來解決1033.指令級(jí)并行性(ILP)開發(fā)技術(shù)

ILP開發(fā)技術(shù)分兩大類:基于硬件的ILP開發(fā)技術(shù),又稱動(dòng)態(tài)開發(fā)ILP技術(shù)基于軟件的ILP開發(fā)技術(shù),又稱靜態(tài)開發(fā)ILP技術(shù)

3.指令級(jí)并行性(ILP)開發(fā)技術(shù)ILP開發(fā)技術(shù)分兩大類:104用于解決數(shù)據(jù)競爭的ILP開發(fā)技術(shù)

靜態(tài)調(diào)度技術(shù)動(dòng)態(tài)調(diào)度技術(shù)采用改名技術(shù)的動(dòng)態(tài)調(diào)度技術(shù)編譯分析數(shù)據(jù)相關(guān)性軟件流水線路經(jīng)調(diào)度用于解決數(shù)據(jù)競爭的ILP開發(fā)技術(shù)靜態(tài)調(diào)度技術(shù)105用于解決控制相關(guān)性的ILP開發(fā)技術(shù)

靜態(tài)轉(zhuǎn)移預(yù)測技術(shù)動(dòng)態(tài)轉(zhuǎn)移預(yù)測技術(shù)靜脈投機(jī)技術(shù)動(dòng)態(tài)投機(jī)技術(shù)循環(huán)體展開技術(shù)延時(shí)轉(zhuǎn)移技術(shù)

用于解決控制相關(guān)性的ILP開發(fā)技術(shù)靜態(tài)轉(zhuǎn)移預(yù)測技術(shù)106三、指令多發(fā)射技術(shù)

1.指令多發(fā)射技術(shù)概述從CPUtime=IC×CPI×CC公式出發(fā),進(jìn)一步提高CPU性能的途徑是令CPI<1

要達(dá)到CPI<1的目的,必須做到每個(gè)時(shí)鐘周期發(fā)射多條指令,有多個(gè)處理部件和足夠的硬件資源來并行處理多條指令,達(dá)到平均每條指令的處理時(shí)間小于1個(gè)時(shí)鐘周期三、指令多發(fā)射技術(shù)1.指令多發(fā)射技術(shù)概述107指令多發(fā)射處理器有兩類:超標(biāo)量處理器(Superscalarprecessors)超長指令字處理器(VLIW-veryhonginstructionword)根據(jù)指令發(fā)射機(jī)制,即調(diào)度、組織可同時(shí)發(fā)射指令的機(jī)制,也可分為兩類:動(dòng)態(tài)多發(fā)射機(jī)制,即由硬件在程序執(zhí)行過程中調(diào)度靜態(tài)多發(fā)射機(jī)制,即由編譯器在程序編譯過程中調(diào)度

指令多發(fā)射處理器有兩類:108計(jì)算機(jī)體系結(jié)構(gòu)學(xué)科發(fā)展簡介課件1092.超標(biāo)量處理器

超標(biāo)量處理器流水線操作2.超標(biāo)量處理器超標(biāo)量處理器流水線操作110超標(biāo)量處理器的特點(diǎn)

在一個(gè)周期里能發(fā)射可變數(shù)量的指令,通常為1-8條指令/周期同時(shí)發(fā)射的指令按規(guī)定搭配,不能自由搭配,即有限制:如同時(shí)發(fā)射的指令必須是獨(dú)立的,即無數(shù)據(jù)競爭,以及滿足訪存次數(shù)規(guī)定等等。采用靜態(tài)調(diào)度(compiler完成)和/或動(dòng)態(tài)調(diào)度(硬件完成)方法確定可同時(shí)發(fā)射的指令

超標(biāo)量處理器的特點(diǎn)在一個(gè)周期里能發(fā)射可變數(shù)量的指令,通常為1113.超長指令字處理器(VLIW)

VLIW處理器特點(diǎn)一次發(fā)射一條超長指令,其中包含多個(gè)操作,而不像超標(biāo)量處理器那樣一次發(fā)射多條指令在超長指令當(dāng)中多個(gè)操作按規(guī)定搭配順序排列,即指令類型不能任意搭配,操作順序不能任意顛倒3.超長指令字處理器(VLIW)VLIW處理器特點(diǎn)112VLIW究竟有多長?

以一個(gè)擁有多個(gè)功能單元的VLIW處理器為例:設(shè)7個(gè)功能單元可支持:2個(gè)整數(shù)操作、2個(gè)FP操作、2個(gè)存儲(chǔ)器訪問操作和1個(gè)轉(zhuǎn)移操作,這樣這條含7個(gè)操作的VLIW的功能相當(dāng)于7條指令,為支持每一功能單元正常工作,應(yīng)分配每一功能單元相應(yīng)的數(shù)據(jù)域;一般每個(gè)數(shù)據(jù)域?yàn)?6~24位這一VLIW長度為:16bits×7=112bits或?yàn)?24bits×7=168bits

比較:一個(gè)擁有7個(gè)功能單元的超標(biāo)量處理器,一次發(fā)射7條指令,總長度為32bits×7=224bits

VLIW究竟有多長?以一個(gè)擁有多個(gè)功能單元的VLIW處理器113超長指令字的組裝由編譯器完成,即由編譯器作靜態(tài)調(diào)度,選擇無相關(guān)性指令按搭配順序填入超長指令字為充分發(fā)揮VLIW處理器功能單元的作用,必須要有足夠多的可并行執(zhí)行指令提供給VLIW,編譯器必須采用功能更強(qiáng)的全局調(diào)度技術(shù)

超長指令字的組裝由編譯器完成,即由編譯器作靜態(tài)調(diào)度,選擇無相1144.多發(fā)射處理器的技術(shù)難點(diǎn)

程序固有指令級(jí)并行性有限是多發(fā)射處理器的本質(zhì)困難,需要的可并行執(zhí)行的指令數(shù)大致等于功能單元數(shù)乘以流水線級(jí)數(shù)。多發(fā)射處理器硬件數(shù)量多、速度快,且復(fù)雜性高,從而成本高。4.多發(fā)射處理器的技術(shù)難點(diǎn)程序固有指令級(jí)并行性有限是多發(fā)射115

超標(biāo)量處理器的特殊困難發(fā)射邏輯復(fù)雜且高速動(dòng)態(tài)調(diào)度硬件極其復(fù)雜超長指令字處理器的特殊困難對編譯器的要求高VLIW系列機(jī)二進(jìn)制代碼兼容困難

超標(biāo)量處理器的特殊困難116四、Cache技術(shù)Cache—一種小容量的高速緩沖存儲(chǔ)器Cache在計(jì)算機(jī)中的位置四、Cache技術(shù)Cache—一種小容量的高速緩沖存儲(chǔ)器1171、為什么要引入Cache?首先看一下CPU芯片速度與內(nèi)存儲(chǔ)器DRAM芯片速度的差別有多大1、為什么要引入Cache?首先看一下CPU芯片速度與內(nèi)存儲(chǔ)118CPU與DRAM速度差意味著什么?

說明單純地改善CPU的設(shè)計(jì),一味追求提高CPU的速度,并不能提高計(jì)算機(jī)整機(jī)的性能,因?yàn)楦咚貱PU的性能被低速的存儲(chǔ)器訪問所抵銷。為了提高計(jì)算機(jī)整機(jī)性能,必須消除兩者性能差,或者僅可能縮小兩者性能差。

CPU與DRAM速度差意味著什么?說明單純地改善CPU的設(shè)119解決辦法

在高速CPU與低速M(fèi)emory之間引入一個(gè)小容量的高速緩沖存儲(chǔ)器(Cache),Cache速度與CPU速度之差(不足1個(gè)數(shù)量級(jí))遠(yuǎn)遠(yuǎn)小于CPU與DRAM速度差(3個(gè)數(shù)量級(jí)~4個(gè)數(shù)量級(jí)),通過將存儲(chǔ)器分級(jí)的方法來緩解這一巨大的速度差,提高計(jì)算機(jī)的性能。

解決辦法在高速CPU與低速M(fèi)emory之間引入一個(gè)小容量的1202、為什么引入Cache能提高計(jì)算機(jī)性能?

問:既然用作Cache的SRAM芯片的速度遠(yuǎn)遠(yuǎn)高于用作主存儲(chǔ)器的DRAM芯片,那么為什么主存儲(chǔ)器不用SRAM芯片來實(shí)現(xiàn)?答案:

SRAM的價(jià)格遠(yuǎn)高于DRAM,而且主存儲(chǔ)器的容量大,采用高速SRAM使成本急劇上升,因此從性能/價(jià)格綜合考慮只能采用小容量的Cache。

2、為什么引入Cache能提高計(jì)算機(jī)性能?問:121問:小容量的Cache能否滿足程序存取指令和數(shù)據(jù)的需求?答案:計(jì)算機(jī)設(shè)計(jì)定量原理中有一條局部性原理告訴我們:程序總是傾向于重用那些剛剛用過的數(shù)據(jù)和指令,這是計(jì)算機(jī)程序非常重要的性質(zhì)。局部性原理的另一種表述:程序90

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論