



版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)
文檔簡介
1、計算機體系結(jié)構(gòu)學科發(fā)展簡介石教英石教英浙江大學計算機學院計算機系統(tǒng)研究所浙江大學計算機學院計算機系統(tǒng)研究所20022002年年1111月月目錄目錄一、計算機體系結(jié)構(gòu)學科發(fā)展回顧一、計算機體系結(jié)構(gòu)學科發(fā)展回顧1計算機性能高速發(fā)展及其原因2計算機的分類3計算機設(shè)計的任務(wù)4技術(shù)發(fā)展趨向二、指令級并行性開發(fā)技術(shù)二、指令級并行性開發(fā)技術(shù)1RISC與CISC2流水線技術(shù)3指令級并行性技術(shù)三、指令多發(fā)射技術(shù)三、指令多發(fā)射技術(shù)1指令多發(fā)射技術(shù)概述2超標量處理器3超長指令字處理器4多發(fā)射處理器的技術(shù)難點四、四、Cache技術(shù)技術(shù)1為什么要引入Cache2為什么引入Cache能提高計算機性能?3Cache技術(shù)的發(fā)
2、展五、多處理器技術(shù)五、多處理器技術(shù)1并行計算機體系結(jié)構(gòu)分類2集中共享存儲器型多處理計算機3分布式存儲器型多處理器計算機4并行處理的難點六、我國計算機體系結(jié)構(gòu)研究進展六、我國計算機體系結(jié)構(gòu)研究進展 一、一、計算機體系結(jié)構(gòu)學科發(fā)展回顧計算機體系結(jié)構(gòu)學科發(fā)展回顧ComputerArchitecture定義應用機器語言的程序員為了能正確編寫時序無關(guān)的程序所必須了解的計算機的結(jié)構(gòu)。簡單講:計算機體系結(jié)構(gòu)是一門設(shè)計計算機的學科,包括計算機的指令系統(tǒng)設(shè)計,結(jié)構(gòu)設(shè)計,實現(xiàn)技術(shù),以及與系統(tǒng)軟件操作系統(tǒng)和編譯器相關(guān)的技術(shù)。1、計算機性能高速發(fā)展及其原因1946年第一臺通用電子計算機ENIAS誕生至今僅56年每秒5
3、000次運算加法計算機技術(shù)以驚人速度發(fā)展,并將繼續(xù)高速發(fā)展1980年百萬美元機器的性能比不上今年1千美元的機器今天最高性能的微處理器超過10年前的超級計算機如用于高端網(wǎng)絡(luò)交換機和最新電子游戲機的微處理器速度可達每秒10億次運算計算機性能高速發(fā)展原因1.構(gòu)建計算機的各種技術(shù)進步2.計算機本身的創(chuàng)新設(shè)計技術(shù)的發(fā)展技術(shù)進步以穩(wěn)定速度發(fā)展,主要指IC技術(shù)創(chuàng)新設(shè)計發(fā)展速度不穩(wěn)定,有時快有時慢 各年代的性能提高速率年代性能的年提高率原因1970年代初 25%-30%1970年代末 35%微處理器芯片廣泛應用1980年代末 58%RISC體系結(jié)構(gòu)、Cache等創(chuàng)新設(shè)計技術(shù)截止2001年微處理器性能增長率RI
4、SC、Cache技術(shù)發(fā)展階段RISC體系結(jié)構(gòu)發(fā)展又可分為兩個階段早期集中發(fā)展指令級并行技術(shù)后期集中發(fā)展多指令發(fā)射技術(shù)Cache技術(shù)發(fā)展同樣經(jīng)歷兩個階段早期集中發(fā)展Cache的原理性應用后期集中發(fā)展新的Cache組織和各種Cache性能優(yōu)化技術(shù)計算機創(chuàng)新設(shè)計對每年58%性能提高率的貢獻超過技術(shù)進步貢獻達15倍之多說明:計算機體系結(jié)構(gòu)學科的重要性!計算機性能高速提高帶來的影響用戶擁有越來越高的性能和功能,今天最高性能的微處理器已經(jīng)超出10年前超級計算機的性能?;谖⑻幚砥鞯挠嬎銠C成為計算機設(shè)計的主流現(xiàn)狀: PC機、工作站成為主流產(chǎn)品 小型機被采用微處理器的服務(wù)器所代替 大型機被采用數(shù)十個至上百個微
5、處理器構(gòu)成的多處理器計算機所代替 超級計算機正在被成千上萬個微處理器構(gòu)成的 多處理器計算機所代替 體系結(jié)構(gòu)發(fā)展的核心定量方法近年來計算機體系結(jié)構(gòu)發(fā)展的核心,也是計算機創(chuàng)新設(shè)計技術(shù)的核心歸功于定量方法定量方法。用定量方法進行計算機設(shè)計用定量方法作為工具分析程序?qū)嶋H運行結(jié)果、各類實驗和仿真用定量方法尋找計算機體系結(jié)構(gòu)的新思路、新技術(shù),保證計算機性能繼續(xù)按現(xiàn)在速率提高2、計算機的分類傳統(tǒng)的計算機分類:大型機、小型機、巨型機(成熟超級計算機)按機器規(guī)模指令(字長,內(nèi)外存儲器容量,速度等指標),價格等指標進行分類(PC)機、工作站,服務(wù)器1980年代產(chǎn)生了新的機型:個人(PC)機、工作站、服務(wù)器主要按用
6、途來分類 1990年代產(chǎn)生了嵌入式系統(tǒng):高性能家電、機頂盒、電子游戲機、手機、網(wǎng)絡(luò)路由器、交換機等這里微處理器成為設(shè)備的一個組件,如馬達所起的作用,主要不是作計算用 計算機的新分類臺式機服務(wù)器嵌入式計算機它們分別面向不同應用,具有不同要求,采用不同技術(shù)臺式機、服務(wù)器、嵌入式系統(tǒng)特征對比3、計算機設(shè)計的任務(wù)計算機設(shè)計目標:應滿足市場對功能的要求,同時也應滿足成本,功耗和性能的目標計算機設(shè)計任務(wù)指令集設(shè)計這是傳統(tǒng)計算機體系結(jié)構(gòu)的任務(wù),即程序員面對的(看得見的)指令系統(tǒng)的設(shè)計計算機組織設(shè)計存儲器設(shè)計,CPU設(shè)計,I/O總線結(jié)構(gòu)設(shè)計等高層內(nèi)容,同一個指令集可以對應不同組織設(shè)計硬件設(shè)計芯片的邏輯設(shè)計、封
7、裝、冷卻。相同的指令集和組織可以對應不同的硬件實現(xiàn)形成一個產(chǎn)品系列,如Pentium和Celeron,使Celeron適用于低端產(chǎn)品計算機體系結(jié)構(gòu)學科應包含上述三方面的內(nèi)容Fig1。4,p10計算機設(shè)計技術(shù)人員的任務(wù)明確具體的功能要求,因為來自市場的功能要求往往是不明確的明確最主要的任務(wù)是什么,最主要的功能往往是使用最頻繁的部件,做好了最主要部件的設(shè)計對提高性能影響最大。優(yōu)化設(shè)計根據(jù)不同準則來選擇最優(yōu)的設(shè)計方案,例如前面介紹過對于個人機、服務(wù)器和嵌入式計算機的不同優(yōu)化目標4、技術(shù)發(fā)展趨向由于計算機技術(shù)發(fā)展十分快速,一個成功的指令集設(shè)計不應該因為技術(shù)發(fā)展而遭淘汰計算機體系結(jié)構(gòu)設(shè)計師應預見到技術(shù)發(fā)
8、展的趨向,在設(shè)計下一代產(chǎn)品時,預見到產(chǎn)品大規(guī)模進入市場時恰好是所用的下一代技術(shù)的性價比達到最佳的時候,從而使其設(shè)計的產(chǎn)品生命周期得以延長影響最大的四種關(guān)鍵技術(shù)集成電路技術(shù)半導體DRAM磁盤技術(shù)網(wǎng)絡(luò)技術(shù)集成電路技術(shù)晶體管密度每年增加35%,即每4年增加4倍集成電路芯片的尺寸每年提高10%-20%綜合上述兩個參數(shù),芯片的晶體管數(shù)每年提高55%半導體DRAM(動態(tài)隨機存取存儲器)芯片密度每年遞增40%-60%,即每3-4年增加4倍存取周期縮短相對較慢,每10年縮短1/3DRAM接口改進提高了存取帶寬磁盤技術(shù)近年來磁盤的存儲密度以每年100%速度遞增,并將繼續(xù)一段時間(1990年以前每年以30%速度遞
9、增)磁盤的存取周期縮短相對較慢,每10年縮短1/3網(wǎng)絡(luò)技術(shù)網(wǎng)絡(luò)性能與交換機和發(fā)射端的性能有關(guān)衡量網(wǎng)絡(luò)的指標有:延遲時間和帶寬等,帶寬是主要指標近年來帶寬提高速度較快如以太網(wǎng)從10Mbps提高到100Mbps花了10年時間,而從100Mbps提高到1Gbps只用了5年二、指令級并行性技術(shù)二、指令級并行性技術(shù) (InstructionLevelParallelism-ILP)指令級并行性技術(shù)是RISC(精減指令集計算機)(ReducedInstructionsetComputer)的主要貢獻1、RISC與CISCCISC即復雜指令集計算機(ComplexInstructionsetComputer
10、)RISC思想在1980年代初提出1980年代末大規(guī)模投入實際使用1980年代中期以前的微處理器可統(tǒng)稱為CISC體系結(jié)構(gòu)微處理器 RISC與CISC的最主要的區(qū)別平均執(zhí)行每條指令的時鐘周期數(shù)CPI(CyclesperInstruction)的不同RISC的CPI1CISC的CPI1CPI的作用:CPI數(shù)越小,CPU速度越快CPI數(shù)越大,CPU速度越慢CPU性能公式CPUfime=IC CPI CCCPUfime執(zhí)行一般代碼所需的中央處理站(CPU)時間IC代碼的指令條數(shù)(InstructionComt),與指令集設(shè)計編譯器的優(yōu)化有關(guān)CPI平均執(zhí)行每條指令的時鐘周期數(shù),與指令集設(shè)計、體系結(jié)構(gòu)等技
11、術(shù)有關(guān)CC時鐘周期(ClockCyde)與計算機組成,IC工藝等技術(shù)有關(guān)縮短CPI成為縮短CPUtime的主要技術(shù)途徑RISC體系結(jié)構(gòu)追求精減的指令集數(shù)據(jù)類型、尋址主式精減,指令長度統(tǒng)一,格式統(tǒng)一,提高流水線的效率,實現(xiàn)了每一時鐘周期能執(zhí)行一條指令(CPI=1)RISC體系結(jié)構(gòu)進一步提出指令多發(fā)射技術(shù)即每一時鐘周期可發(fā)射多條指令,執(zhí)行多條指令,進一步實現(xiàn)CPI1CISC計算機速度提高較慢的原因傳統(tǒng)CISC體系結(jié)構(gòu)計算機的CPI5-8原因:以DEC公司的VAX機器為例,指令系統(tǒng)復雜,指令集有304條指令,指令長度:1Byte64Byte,操作數(shù)不足:0-6個,操作數(shù)達十幾種,尋址方式達幾十種;采
12、用微程序控制導致流水線結(jié)構(gòu)復雜,效率低下,速度提高有困難目前幾乎所有微處理器,包括傳統(tǒng)著名的CISC微處理器,如Intel系列和Motorola系列微處理器都采用RISC體系結(jié)構(gòu)2流水線技術(shù)這是理想流水線的性能:達到每一個時鐘周期可以完成一條指令與指令串行執(zhí)行相比較,速度提高5倍簡介:流水線是一種多條指令重疊執(zhí)行的實現(xiàn)技術(shù)流水線的競爭實際流水線不可能像上述理想流水線那樣完美存在三種流水線競爭結(jié)構(gòu)競爭:由硬件資源不足造成流水線停頓數(shù)據(jù)競爭:由前后指令之間存在數(shù)據(jù)相關(guān)性造成流水線停頓控制競爭:由轉(zhuǎn)移指令造成流水線停頓 實際流水線的性能實際流水線的CPI=理想流水線的CPI+結(jié)構(gòu)競爭造成的停頓周期+
13、數(shù)據(jù)競爭造成的停頓周期+控制競爭造成的停頓周期要提高CPU的性能就是要消除或減少三種競爭造成的停頓周期流水線競爭的解決結(jié)構(gòu)競爭可以通過增加硬件資源來解決數(shù)據(jù)競爭和控制競爭只有通過挖掘代碼指令之間的平行性,即通過開發(fā)和發(fā)現(xiàn)指令之間存在的可并行(重疊)執(zhí)行的可能性,然后對指令執(zhí)行順序進行調(diào)度,即用不相關(guān)的指令來填補本來應該停頓周期的方法,達到消除或減少停頓周期,提高指令執(zhí)行速度3指令級并行性(ILP)開發(fā)技術(shù)ILP開發(fā)技術(shù)分兩大類:基于硬件的ILP開發(fā)技術(shù),又稱動態(tài)開發(fā)ILP技術(shù)基于軟件的ILP開發(fā)技術(shù),又稱靜態(tài)開發(fā)ILP技術(shù)用于解決數(shù)據(jù)競爭的ILP開發(fā)技術(shù)靜態(tài)調(diào)度技術(shù)動態(tài)調(diào)度技術(shù)采用改名技術(shù)的動
14、態(tài)調(diào)度技術(shù)編譯分析數(shù)據(jù)相關(guān)性軟件流水線路經(jīng)調(diào)度用于解決控制相關(guān)性的ILP開發(fā)技術(shù)靜態(tài)轉(zhuǎn)移預測技術(shù)動態(tài)轉(zhuǎn)移預測技術(shù)靜脈投機技術(shù)動態(tài)投機技術(shù)循環(huán)體展開技術(shù)延時轉(zhuǎn)移技術(shù)三、指令多發(fā)射技術(shù)三、指令多發(fā)射技術(shù)1指令多發(fā)射技術(shù)概述從CPUtime=ICCPICC公式出發(fā),進一步提高CPU性能的途徑是令CPI1要達到CPI1的目的,必須做到每個時鐘周期發(fā)射多條指令,有多個處理部件和足夠的硬件資源來并行處理多條指令,達到平均每條指令的處理時間小于1個時鐘周期指令多發(fā)射處理器有兩類:超標量處理器(Superscalarprecessors)超 長 指 令 字 處 理 器 ( V L I W - v e r yh
15、onginstructionword)根據(jù)指令發(fā)射機制,即調(diào)度、組織可同時發(fā)射指令的機制,也可分為兩類:動態(tài)多發(fā)射機制,即由硬件在程序執(zhí)行過程中調(diào)度靜態(tài)多發(fā)射機制,即由編譯器在程序編譯過程中調(diào)度2超標量處理器超標量處理器流水線操作超標量處理器的特點在一個周期里能發(fā)射可變數(shù)量的指令,通常為1-8條指令/周期同時發(fā)射的指令按規(guī)定搭配,不能自由搭配,即有限制:如同時發(fā)射的指令必須是獨立的,即無數(shù)據(jù)競爭,以及滿足訪存次數(shù)規(guī)定等等。采用靜態(tài)調(diào)度(compiler完成)和/或動態(tài)調(diào)度(硬件完成)方法確定可同時發(fā)射的指令3超長指令字處理器(VLIW)VLIW處理器特點一次發(fā)射一條超長指令,其中包含多個操作,
16、而不像超標量處理器那樣一次發(fā)射多條指令在超長指令當中多個操作按規(guī)定搭配順序排列,即指令類型不能任意搭配,操作順序不能任意顛倒VLIW究竟有多長?以一個擁有多個功能單元的VLIW處理器為例:設(shè)7個功能單元可支持:2個整數(shù)操作、2個FP操作、2個存儲器訪問操作和1個轉(zhuǎn)移操作,這樣這條含7個操作的VLIW的功能相當于7條指令,為支持每一功能單元正常工作,應分配每一功能單元相應的數(shù)據(jù)域;一般每個數(shù)據(jù)域為1624位這一VLIW長度為:16bits7 = 112 bits 或為: 24bits7 = 168 bits比較:一個擁有7個功能單元的超標量處理器,一次發(fā)射7條指令,總長度為32 bits7=22
17、4 bits超長指令字的組裝由編譯器完成,即由編譯器作靜態(tài)調(diào)度,選擇無相關(guān)性指令按搭配順序填入超長指令字為充分發(fā)揮VLIW處理器功能單元的作用,必須要有足夠多的可并行執(zhí)行指令提供給VLIW,編譯器必須采用功能更強的全局調(diào)度技術(shù)4多發(fā)射處理器的技術(shù)難點程序固有指令級并行性有限是多發(fā)射處理器的本質(zhì)困難,需要的可并行執(zhí)行的指令數(shù)大致等于功能單元數(shù)乘以流水線級數(shù)。多發(fā)射處理器硬件數(shù)量多、速度快,且復雜性高,從而成本高。超標量處理器的特殊困難發(fā)射邏輯復雜且高速動態(tài)調(diào)度硬件極其復雜超長指令字處理器的特殊困難對編譯器的要求高VLIW系列機二進制代碼兼容困難四、四、CacheCache技術(shù)技術(shù)Cache一種小
18、容量的高速緩沖存儲器Cache在計算機中的位置1、為什么要引入Cache?首先看一下CPU芯片速度與內(nèi)存儲器DRAM芯片速度的差別有多大CPU與DRAM速度差意味著什么?說明單純地改善CPU的設(shè)計,一味追求提高CPU的速度,并不能提高計算機整機的性能,因為高速CPU的性能被低速的存儲器訪問所抵銷。為了提高計算機整機性能,必須消除兩者性能差,或者僅可能縮小兩者性能差。解決辦法在高速CPU與低速Memory之間引入一個小容量的高速緩沖存儲器(Cache),Cache速度與CPU速度之差(不足1個數(shù)量級)遠遠小于CPU與DRAM速度差(3個數(shù)量級4個數(shù)量級),通過將存儲器分級的方法來緩解這一巨大的速
19、度差,提高計算機的性能。2、為什么引入Cache能提高計算機性能?問:既然用作Cache的SRAM芯片的速度遠遠高于用作主存儲器的DRAM芯片,那么為什么主存儲器不用SRAM芯片來實現(xiàn)?答案: SRAM的價格遠高于DRAM,而且主存儲器的容量大,采用高速SRAM使成本急劇上升,因此從性能/價格綜合考慮只能采用小容量的Cache。問:小容量的Cache能否滿足程序存取指令和數(shù)據(jù)的需求?答案:計算機設(shè)計定量原理中有一條局部性原理告訴我們:程序總是傾向于重用那些剛剛用過程序總是傾向于重用那些剛剛用過的數(shù)據(jù)和指令的數(shù)據(jù)和指令,這是計算機程序非常重要的性質(zhì)。局部性原理的另一種表述:程序90%的執(zhí)行時間是
20、花在10%的代碼上。局部性原理告訴我們:可以根據(jù)程序最近訪問的數(shù)據(jù)和指令來預測程序?qū)⒁{(diào)用的數(shù)據(jù)和指令,且這一預測正確度是比較高的。所以小容量的Cache能滿足程序存取數(shù)據(jù)和指令的需求3.Cache技術(shù)的發(fā)展采用多級采用多級Cache1980年代的微處理器大多沒有片上Cache,只有片外Cache2001年的微處理器大多都有2級片上Cache,再加上一級片外Cache增加增加Cache容量容量1980年代的片外Cache通常只有幾十KB2001年的微處理器三級Cache的容量可達16MB采用各種優(yōu)化技術(shù)采用各種優(yōu)化技術(shù)來提高Cache性能,包括減少失配造成的代價減少失配率減少命中時間五、多處理
21、器技術(shù)五、多處理器技術(shù)單處理器計算機性能是否已接近其極限?然而從1985起到2000,這一段正是單處理器計算機性能突飛猛進的時代單處理器計算機至少在未來5年仍將以目前速度發(fā)展多處理器計算機將越來越重要的理由微處理器已主宰單處理器計算機技術(shù),因此為了提高單處理器計算機性能而將多個微處理器連接起來就成為很自然的選擇現(xiàn)在還不清楚使計算機體系結(jié)構(gòu)不斷創(chuàng)新的指令級并行技術(shù)能否繼續(xù)無限地發(fā)展下去曾經(jīng)是并行機發(fā)展障礙的軟件有了新的發(fā)展和進展,主要是在服務(wù)器和嵌入式系統(tǒng)方面為多處理器計算機發(fā)展帶來曙光1.并行計算機體系結(jié)構(gòu)分類Flynn在1966年提出的計算機分類方法,即按指令流和數(shù)據(jù)流進行計算機分類的方法仍適用至今單指令流,單數(shù)據(jù)流(SISD)單處理器計算機單指令流,多數(shù)據(jù)流(SIMD)矢量計算機多指令流,單數(shù)據(jù)流(MISD)市場上無此類計算機多指令流,多數(shù)據(jù)流(MIMD)通用多處理器并
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 口腔內(nèi)科學練習題庫及答案
- 健康評估復習題及答案
- 市場開發(fā)居間合同協(xié)議
- 小區(qū)果蔬直銷攤位租賃合同
- 現(xiàn)代農(nóng)業(yè)信息技術(shù)服務(wù)合作協(xié)議條款說明
- 2022年貴州銀行博士后科研工作站招聘模擬試題及答案
- 車間主任管理試題及答案
- 2025年甘肅公交建集團校園招聘200人筆試參考題庫附帶答案詳解
- 2025四川資源集團招聘134人查看職位筆試參考題庫附帶答案詳解
- 打造高質(zhì)量就業(yè)體系實施路徑
- FZ/T 07004-2019紡織行業(yè)綠色工廠評價導則
- 包頭市黃河濕地生態(tài)修復工程初步設(shè)計20100713
- 無人機智能機巢行業(yè)調(diào)研報告
- 小區(qū)物業(yè)服務(wù)合同范本
- 《單跳雙落》說課稿范文
- [江西]20萬噸自來水廠工藝圖紙設(shè)計(附58頁設(shè)計方案)
- 魔芋栽培技術(shù)講課PPT課件
- 個人外匯管理業(yè)務(wù)培訓(共73頁).ppt
- 2010年某市人行天橋鋼結(jié)構(gòu)制作安裝合同
- 畢業(yè)設(shè)計(論文)自助洗車機設(shè)計
- 超星爾雅學習通《高級英語寫作》章節(jié)測試含答案
評論
0/150
提交評論