![計(jì)算機(jī)系統(tǒng)結(jié)構(gòu)考試重點(diǎn)_第1頁](http://file4.renrendoc.com/view/f5902f897d0e12e2e9fc3e10cca301f3/f5902f897d0e12e2e9fc3e10cca301f31.gif)
![計(jì)算機(jī)系統(tǒng)結(jié)構(gòu)考試重點(diǎn)_第2頁](http://file4.renrendoc.com/view/f5902f897d0e12e2e9fc3e10cca301f3/f5902f897d0e12e2e9fc3e10cca301f32.gif)
![計(jì)算機(jī)系統(tǒng)結(jié)構(gòu)考試重點(diǎn)_第3頁](http://file4.renrendoc.com/view/f5902f897d0e12e2e9fc3e10cca301f3/f5902f897d0e12e2e9fc3e10cca301f33.gif)
![計(jì)算機(jī)系統(tǒng)結(jié)構(gòu)考試重點(diǎn)_第4頁](http://file4.renrendoc.com/view/f5902f897d0e12e2e9fc3e10cca301f3/f5902f897d0e12e2e9fc3e10cca301f34.gif)
![計(jì)算機(jī)系統(tǒng)結(jié)構(gòu)考試重點(diǎn)_第5頁](http://file4.renrendoc.com/view/f5902f897d0e12e2e9fc3e10cca301f3/f5902f897d0e12e2e9fc3e10cca301f35.gif)
版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
馮諾依曼的5個(gè)架構(gòu):控制器、運(yùn)算器、存儲(chǔ)器、輸入設(shè)備、輸出設(shè)備。Cpu的發(fā)展趨勢(shì):1、 多核技術(shù)出現(xiàn)的原因因?yàn)椋骸疤幚砥鞴恼扔陔娏鱔電壓x電壓x主頻”,“IPC正比于電流”,所以:“處理器功耗正比于IPC“。由單核處理器增加到雙核處理器,如果主頻不變的話,IPC理論上可以提高一倍,功耗理論上也就最多提高一倍,因?yàn)楣牡脑黾邮蔷€性的。而實(shí)際情況是,雙核處理器性能達(dá)到單核處理器同等性能的時(shí)候,前者的主頻可以更低,因此功耗的下降也是指數(shù)方(三次方)下降的。反映到產(chǎn)品中就是雙核處理器的起跳主頻可以比單核處理器更低,性能更好。由此可見,將來處理器發(fā)展的趨勢(shì)是:為了達(dá)到更高的性能,在采用相同微架構(gòu)的情況下,可以增加處理器的內(nèi)核數(shù)量同時(shí)維持較低的主頻。這樣設(shè)計(jì)的效果是,更多的并行提高IPC,較低的主頻有效地控制了功耗的上升。2、 2個(gè)1G的多核和2G的單核處理器單核CPU也有高頻率的,雙核CPU也有低頻率的。內(nèi)存則有DDRDDR2和DDR3之分。型號(hào)頻率不同,自然效果也不同。如果是同時(shí)運(yùn)行多個(gè)任務(wù),雙核自然是占有優(yōu)勢(shì)。在上網(wǎng),做工作時(shí),高頻率的內(nèi)存則可以加快存取傳輸?shù)乃俣热绻麅?nèi)存是同一個(gè)型號(hào),那么自然是1G內(nèi)存+雙核快一些,內(nèi)存的大小不直接關(guān)系到存取的速度。3、 編程模型:SIMDVSMIMD?(應(yīng)用場(chǎng)景、架構(gòu)優(yōu)缺點(diǎn))單指令流多數(shù)據(jù)流計(jì)算機(jī)SIMD計(jì)算機(jī)有n個(gè)相同的處理器,每個(gè)都有其自己的本地存儲(chǔ)器,可以存儲(chǔ)數(shù)據(jù)。一個(gè)由中央控制單元發(fā)出的單指令流控制所有處理器的工作。有N個(gè)數(shù)據(jù)流,每1個(gè)處理器操作1個(gè)數(shù)據(jù)。所有處理器是同步操作的,在每一步中,處理器對(duì)于不同的數(shù)據(jù)元素執(zhí)行相同的指令。SIMD計(jì)算機(jī)比MISD更通用。許多應(yīng)用問題可以通過SIMD計(jì)算機(jī)并行算法求解。另一個(gè)有趣的特點(diǎn)是,這些計(jì)算機(jī)算法比較容易設(shè)計(jì),分析和實(shí)現(xiàn)。局限是只有可被細(xì)分為一組相同子問題的那些計(jì)算才可以被處理。有很多的計(jì)算,不適合這種模式:這種問題通常使用下面的MIMD計(jì)算機(jī)解決。多指令流多數(shù)據(jù)流計(jì)算機(jī)MIMD并行計(jì)算機(jī)是最通用和最強(qiáng)大的。有n個(gè)處理器,指令流和數(shù)據(jù)流。每個(gè)處理器擁有其控制單元和其本地存儲(chǔ)器,使得它們比SIMD計(jì)算機(jī)更強(qiáng)大。每個(gè)處理器在控制單元發(fā)出的指令流控制下運(yùn)行,執(zhí)行不同的指令和操作不同的數(shù)據(jù)流。并行計(jì)算的MIMD模型是最普遍和最強(qiáng)大的,但異步算法很難設(shè)計(jì),分析和實(shí)現(xiàn)。所以在實(shí)踐上通常用來作為SIMD模式的補(bǔ)充。4、 虛擬化技術(shù)的意義?在計(jì)算機(jī)中,虛擬化(英語:Virtualization)是一種資源管理技術(shù),是將計(jì)算機(jī)的各種實(shí)體資源,如服務(wù)器、網(wǎng)絡(luò)、內(nèi)存及存儲(chǔ)等,予以抽象、轉(zhuǎn)換后呈現(xiàn)出來,打破實(shí)體結(jié)構(gòu)間的不可切割的障礙,使用戶可以比原本的組態(tài)更好的方式來應(yīng)用這些資源。這些資源的新虛擬部份是不受現(xiàn)有資源的架設(shè)方式,地域或物理組態(tài)所限制。一般所指的虛擬化資源包括計(jì)算能力和資料存儲(chǔ)。在實(shí)際的生產(chǎn)環(huán)境中,虛擬化技術(shù)主要用來解決高性能的物理硬件產(chǎn)能過剩和老的舊的硬件產(chǎn)能過低的重組重用,透明化底層物理硬件,從而最大化的利用物理硬件。主頻障礙(1)過去主頻的提高一半靠摩爾定律,一半靠結(jié)構(gòu)優(yōu)化(如P3是10級(jí)流水線,P4是20級(jí)流水線;流水線很難再細(xì)分)(2) 隨著晶體管尺寸的縮小,連線延遲成為主要延遲(局部線延遲不變(變短了,但也變細(xì)了)全局的連線延遲還會(huì)不斷變長(芯片面積不變))(3) 高主頻的復(fù)雜設(shè)計(jì)正在終結(jié)(強(qiáng)調(diào):局部化、流水化、異步、自定時(shí))復(fù)雜度障礙(1) 晶體管數(shù)目的指數(shù)增加與設(shè)計(jì)隊(duì)伍的增加形成剪刀差(設(shè)計(jì)能力、驗(yàn)證能力)(2) 晶體管越來越難用(串?dāng)_問題、片上漂移、可制造性設(shè)計(jì))(3) 處理器結(jié)構(gòu)經(jīng)歷了簡單、復(fù)雜、簡單、復(fù)雜的螺旋上升過程,最早期的處理器結(jié)構(gòu)由于工藝技術(shù)的限制,不可能做得很復(fù)雜,一般都是串行執(zhí)行隨著流水線、動(dòng)態(tài)調(diào)度、CACHE、向量機(jī)技術(shù)等技術(shù)的發(fā)展,處理器結(jié)構(gòu)變得復(fù)雜,如IBM360系列的機(jī)器以及Cray的向量機(jī)RISC技術(shù)的提出使處理器結(jié)構(gòu)得到一次較大的簡化隨著多發(fā)射亂序執(zhí)行技術(shù)的實(shí)現(xiàn),RISC結(jié)構(gòu)越來越復(fù)雜,Intel和HP研制的EPIC結(jié)構(gòu)沒有從根本上對(duì)處理器結(jié)構(gòu)進(jìn)行簡化未來可能會(huì)流行的CPU結(jié)構(gòu)多核+向量處理典型:Larrabee(16wayALU/512bit)向量的位寬:64/128/256/512/1024??眾核:同構(gòu)的基于分片的多核(tilebased)典型:Tile64處理器核的個(gè)數(shù):64/128a512/ 1024帶有協(xié)處理器的異構(gòu)多核典型:CELL通用處理器+專用的協(xié)處理器(GPU、流處理器)摩爾定律發(fā)展過程中碰到的“墻”1980's:存儲(chǔ)墻CPU變快,內(nèi)存只變大不變快80%的晶體管用于片內(nèi)高速緩存等2000's:功耗墻一Intel放棄4GHz的PentiumIV為標(biāo)志,終止復(fù)雜的高主頻設(shè)計(jì)多核設(shè)計(jì)成為主流未來還有可能碰到的“墻”帶寬墻:“茶壺里倒餃子”(性能和帶寬1-2FLOPS:1BPS的關(guān)系)成本墻:太貴了做不起(目前只剩Intel、IBM、TSMC三家)或用不起(10nm以后單片成本反而增加)應(yīng)用墻:16核以上的CPU賣給誰?量大面廣的應(yīng)用需要多少核?如果克服不了上述“墻”,通用CPU的摩爾定律到2015年即告終止帶寬障礙摩爾定律的新定義片內(nèi)處理器核的個(gè)數(shù)指數(shù)增長封裝引腳增加緩慢每個(gè)核使用的引腳數(shù)指數(shù)下降茶壺里倒餃子高速信號(hào)傳輸緩解帶寬瓶頸目前引腳上的信號(hào)頻率已經(jīng)達(dá)到GHz很快會(huì)出現(xiàn)板上頻率高于片內(nèi)頻率的現(xiàn)象5、 影響CPU性能的因素性能的最本質(zhì)定義完成一個(gè)任務(wù)(如后天的天氣預(yù)報(bào))所需的時(shí)間以指令為基本單位一Secon―ds— -In—structio n―4Cycles Secon―dS—CPUTim e= = x x P—rogram P—rogram In—structio n Cycle 6、 Flynn's分類:Flynn分類方法是根據(jù)指令流、數(shù)據(jù)流、和多倍性三方面進(jìn)行分類的。簡單介紹下相關(guān)概念:(1) 指令流:機(jī)器執(zhí)行的指令序列(2) 數(shù)據(jù)流:指由指令流調(diào)用的數(shù)據(jù)序列,包括輸入數(shù)據(jù)和中間結(jié)果,但不包括輸出數(shù)據(jù)。(3) 多倍性:指在系統(tǒng)性能瓶頸部件上同時(shí)處于同一執(zhí)行階段的指令或數(shù)據(jù)的最大可能個(gè)數(shù)。單指令流單數(shù)據(jù)流(SISD):結(jié)構(gòu):控制部分一個(gè),處理器一個(gè),主存模塊一個(gè)。典型代表:單處理器系統(tǒng)單指令流多數(shù)據(jù)流(SIMD):結(jié)構(gòu):控制部分一個(gè),處理器多個(gè),主存模塊多個(gè)。關(guān)鍵特性:各處理器以一步的方式形式處理同一條指令。典型代表:單處理器系統(tǒng)。多指令流單數(shù)據(jù)流(MISD)結(jié)構(gòu):控制部分多個(gè),處理器多個(gè),主存模塊多個(gè)。關(guān)鍵特性:被證明不切實(shí)際。典型代表:沒有模型多指令流多數(shù)據(jù)流(MIMD)結(jié)構(gòu):控制部分多個(gè),處理器多個(gè),主存模塊多個(gè)。關(guān)鍵特性:能夠?qū)崿F(xiàn)作業(yè)任務(wù)指令等各級(jí)全方面進(jìn)行。典型代表:多處理系統(tǒng)多計(jì)算機(jī)。7、 技術(shù)趨勢(shì):集成電路技術(shù):晶體管密度、晶片尺寸、晶體管數(shù)目DRAM容量、閃存容量、磁盤技術(shù)、帶寬、網(wǎng)絡(luò)和存儲(chǔ)技術(shù)(網(wǎng)絡(luò)技術(shù)、速度、存儲(chǔ)接口)第二章內(nèi)存層次設(shè)計(jì)8、存儲(chǔ)基礎(chǔ)局部性原理:時(shí)間局部性:如果一個(gè)存儲(chǔ)項(xiàng)被訪問,則可能很快會(huì)再次被訪問。空間局不性:如果一個(gè)存儲(chǔ)項(xiàng)被訪問,則其鄰近的項(xiàng)也可能很快被訪問。存儲(chǔ)器層次結(jié)構(gòu):SRAM、DRAM、DISK、FLASHMEMORY存儲(chǔ)系統(tǒng):容量相當(dāng)于最大的那層存儲(chǔ)器,速度相當(dāng)于最快的那層存儲(chǔ)器。CACHE基本原理Cache的工作原理是基于程序訪問的局部性(通俗說就是把經(jīng)常用到的數(shù)據(jù)放在一個(gè)高速的cache里面)。根據(jù)程序的局部性原理,可以在主存和CPU通用寄存器之間設(shè)置一個(gè)高速的容量相對(duì)較小的存儲(chǔ)器,把正在執(zhí)行的指令地址附近的一部分指令或數(shù)據(jù)從主存調(diào)入這個(gè)存儲(chǔ)器,供CPU在一段時(shí)間內(nèi)使用。這對(duì)提高程序的運(yùn)行速度有很大的作用。這個(gè)介于主存和CPU之間的高速小容量存儲(chǔ)器稱作高速緩沖存儲(chǔ)器(Cache)。問題:(1)如果要訪問的數(shù)據(jù)不在CACHE中怎么辦?如果要訪問的數(shù)據(jù)不在CACHE中,那么它一定在內(nèi)存中,cpu訪問內(nèi)存,并把這部分的數(shù)據(jù)從內(nèi)存調(diào)入CACHE(可能先要把CACHE中部分?jǐn)?shù)據(jù)調(diào)出以便騰出空間),訪問結(jié)束。(要訪問的數(shù)據(jù)開始不在CACHE中;訪問數(shù)據(jù)導(dǎo)致缺失;缺失則將需要的數(shù)據(jù)裝入CACHE)(2)從主存中裝入數(shù)據(jù)時(shí)裝到CACHE中的什么位置?全相聯(lián)映射是指主存中任一塊都可以映射到Cache中任一塊的方式,也就是說,當(dāng)主存中的一塊需調(diào)入Cache時(shí),可根據(jù)當(dāng)時(shí)Cache的塊占用或分配情況,選擇一個(gè)塊給主存塊存儲(chǔ),所選的Cache塊可以是Cache中的任意一塊直接映射是只能出現(xiàn)在唯一的位置,映射方法通常是(塊地址)MOD(Cache中的組數(shù))組相聯(lián)映射是一個(gè)塊被嚴(yán)格的放到Cache中某組位置里。一個(gè)塊首先被映射到一個(gè)組中,然后它可以被放置到組中的任何一個(gè)塊中。組通常利用位選擇方式確定。每個(gè)塊有n個(gè)位置可放的cache稱為n路組相聯(lián)cache;(3)從主存中裝入數(shù)據(jù)時(shí)一次裝入多少數(shù)據(jù)?從cache到處理器:以字為單位;從主存到cache:以塊為單位;塊大小與缺失率有關(guān)(4) 如何判斷CACHE中對(duì)應(yīng)的位置是否為有效的數(shù)據(jù)?有效位設(shè)置時(shí)表示一個(gè)塊是有效的(5) 如果CACHE裝滿了怎么辦?9、替換塊的選擇:隨機(jī)替換策略;為了均勻分布,候選塊將被隨機(jī)選擇。一些系統(tǒng)產(chǎn)生偽隨機(jī)數(shù)塊號(hào),以獲得可重復(fù)的行為,當(dāng)調(diào)試硬件時(shí),這種方式及其有用。最近最少使用替換策略:為了減少替換那些可能不久就要用到信息的概率,需要記錄塊的訪問次數(shù)。利用歷史信息來預(yù)測(cè)未來使用情況,被替換的塊將是最長時(shí)間內(nèi)沒有被訪問的Cache塊。LRU使用了一個(gè)局部性原理的推論:如果一個(gè)最近被使用過的塊很可能會(huì)被再次訪問,那么最好替換最近最少使用的塊。先進(jìn)先出替換策略:由于計(jì)算LRU比較復(fù)雜,該替換策略將最早進(jìn)入Cache的塊作為替換塊。(6) 寫CACHE時(shí)會(huì)有什么問題?舉例1:假設(shè)指令cache的缺失率為2%,數(shù)據(jù)cache的缺失率為4%,處理器的CPI為2(沒有存儲(chǔ)器阻塞),且每次缺失的代價(jià)為100個(gè)時(shí)鐘周期,那么配置一個(gè)從不發(fā)生缺失的理想的cache,處理器的速度快多少?假定全部LOAD和STORE的頻率為36%.■指令缺失時(shí)鐘周期=1*2%*100=2-01■數(shù)據(jù)缺失時(shí)鐘周期=1*36%*4%*100=1.441■總的存儲(chǔ)器阻塞時(shí)鐘周期=2-01+1.441=3-441■總的CPI=2+3.44=5.44■配置理想CACHE后的性能是原來的5-44/2=2-72倍舉例2:處理器時(shí)鐘周期的時(shí)間1ns,缺失代價(jià)是20個(gè)時(shí)鐘周期,缺失率為每條指令0.05次缺失,cache的訪問時(shí)間(包括命中判斷)為1個(gè)時(shí)鐘周期。假設(shè)讀操作和寫操作的缺失代價(jià)相同并且忽略其它寫阻塞。請(qǐng)計(jì)算AMAT?!鰵靶\(zhòng)扌旨令的平均存儲(chǔ)器訪冋時(shí)間為,■AMAT=命中日寸冋h■缶夬失率沃缶夬失代^介=1+0-05*20=N個(gè)時(shí)鐘周其月舉例3:假定處理器基本的CPI為1.0,時(shí)鐘頻率為4GHz。假定主存訪問時(shí)間為100ns,其中包括缺失處理時(shí)間。設(shè)一級(jí)cache中每條指令缺失率為2%。如果增加一個(gè)二級(jí)cache,命中或缺失訪問的時(shí)間都是5ns,而且容量大到必須使訪問主存的缺失率減少到0.5%,這時(shí)的處理器速率能提高多少?主存的缺失代價(jià):100ns/(0.25ns/時(shí)鐘周期)=400個(gè)時(shí)鐘周期只有一級(jí)cache時(shí):總的CPI=1.0+2%*400=9對(duì)于兩級(jí)cache:二級(jí)cache的缺失代價(jià):5ns/(0.25ns/時(shí)鐘周期)=20個(gè)時(shí)鐘周期總的CPI=1+2%*20+0.5%*400=3.4有二級(jí)cache的處理器性能是沒有二級(jí)cache性能的9.0/3.4=2.6倍10、 層次化存儲(chǔ)優(yōu)化方法■ 6種基本的CACHE優(yōu)化方法:更大的塊強(qiáng)制缺失減少;容量和沖突缺失增加,缺失代價(jià)增加;更大的CACHE容量缺失率降低;命中時(shí)間,功耗增加;更高的相聯(lián)度沖突缺失減少;命中時(shí)間增加,功耗增加;更多級(jí)CACHE內(nèi)存訪問時(shí)間減少;讀缺失優(yōu)先級(jí)更高缺失代價(jià)降低;緩存索引避免地址轉(zhuǎn)換減少命中時(shí)間;第三章指令級(jí)并行11、 Load指令的5個(gè)階段:IF取指、ID取操作數(shù)和譯碼、EX執(zhí)行、MEM存儲(chǔ)器訪問、WB寫回12、 流水線的3種沖突/冒險(xiǎn):Hazards:指流水線遇到無法正確執(zhí)行后續(xù)指令或執(zhí)行了不該執(zhí)行的指令Structuralhazards(hardwareresourceconflicts):現(xiàn)象:同一個(gè)部件同時(shí)被不同指令所使用一個(gè)部件每條指令只能使用1次,且只能在特定周期使用設(shè)置多個(gè)部件,以避免沖突。如指令存儲(chǔ)器IM和數(shù)據(jù)存儲(chǔ)器DM分開Datahazards(datadependencies):現(xiàn)象:后面指令用到前面指令結(jié)果時(shí),前面指令結(jié)果還沒產(chǎn)生采用轉(zhuǎn)發(fā)(Forwarding/Bypassing)技術(shù)Load-use冒險(xiǎn)需要一次阻塞(stall)編譯程序優(yōu)化指令順序Control(Branch)hazards(changesinprogramflow):現(xiàn)象:轉(zhuǎn)移或異常改變執(zhí)行流程,順序執(zhí)行指令在目標(biāo)地址產(chǎn)生前已被取出采用靜態(tài)或動(dòng)態(tài)分支預(yù)測(cè)編譯程序優(yōu)化指令順序(實(shí)行分支延遲)13、 數(shù)據(jù)冒險(xiǎn)的解決方法:方法1:硬件阻塞(stall)方法2:軟件插入“N0P”指令方法3:編譯優(yōu)化:調(diào)整指令順序方法4:合理實(shí)現(xiàn)寄存器堆的讀/寫操作前半時(shí)鐘周期寫,后半時(shí)鐘周期讀。若同一個(gè)時(shí)鐘內(nèi)前面指令寫入的數(shù)據(jù)正好是后面指令所讀數(shù)據(jù),則不會(huì)發(fā)生數(shù)據(jù)冒險(xiǎn)方法5:轉(zhuǎn)發(fā)(Forwarding或Bypassing旁路)技術(shù),能解決所有數(shù)據(jù)冒險(xiǎn)嗎?若相關(guān)數(shù)據(jù)是ALU結(jié)果,則如何?可通過轉(zhuǎn)發(fā)解決若相關(guān)數(shù)據(jù)是上條指令DM讀出內(nèi)容,則如何?不能通過轉(zhuǎn)發(fā)解決,隨后指令需被阻塞一個(gè)時(shí)鐘或加NOP指令。稱為Load-usa數(shù)據(jù)冒險(xiǎn)14、動(dòng)態(tài)分支預(yù)測(cè)方法:簡單的靜態(tài)分支預(yù)測(cè)方法的預(yù)測(cè)成功率不高,應(yīng)考慮動(dòng)態(tài)預(yù)測(cè)動(dòng)態(tài)預(yù)測(cè)基本思想:?利用最近轉(zhuǎn)移發(fā)生的情況,來預(yù)測(cè)下一次可能發(fā)生的轉(zhuǎn)移?預(yù)測(cè)后,在實(shí)際發(fā)生時(shí)驗(yàn)證并調(diào)整預(yù)測(cè)?轉(zhuǎn)移發(fā)生的歷史情況記錄在BHT中(有多個(gè)不同的名稱)-分支歷史記錄表BHT(BranchHistoryTable)-分支預(yù)測(cè)緩沖BPB(BranchPredictionBuffer)-分支目標(biāo)緩沖BTB(BranchTargetBuffer)?每個(gè)表項(xiàng)由分支指令地址的低位索引,故在IF階段就可以取到預(yù)測(cè)位-低位地址相同的分支指令共享一個(gè)表項(xiàng),所以,可能取的是其他分支指令的預(yù)測(cè)位。會(huì)不會(huì)有問題?-由于僅用于預(yù)測(cè),所以不影響執(zhí)行結(jié)果狀態(tài)圖15、Tomasulo's算法■三步驟:■發(fā)射■從指令隊(duì)列中獲得指令,果RS可用,則發(fā)射指令到RS;■如果操作數(shù)可用,則發(fā)送數(shù)據(jù)至RS;■如果操作數(shù)不可用,則指令停頓;■發(fā)射級(jí)完成了重命名。■執(zhí)行■若有一個(gè)或幾個(gè)操作數(shù)未就緒,等待該操作數(shù),并同時(shí)監(jiān)控CDB;■當(dāng)操作數(shù)可用,則存儲(chǔ)至保留站;當(dāng)所有的操作數(shù)可用,則執(zhí)行指令■執(zhí)行級(jí)檢查了是否存在RAW競(jìng)爭?!鰧懡Y(jié)果■將結(jié)果寫入CDB,并從CDB寫入目的寄存器及等待此結(jié)果的保留站;■連續(xù)寫同一寄存器時(shí),只有最后一次才能寫入;■消除了WAW競(jìng)爭。16、多線程的好處:(1)創(chuàng)建一個(gè)線程比創(chuàng)建一個(gè)進(jìn)程的代價(jià)小。(2)線程的切換比進(jìn)程間切換的代價(jià)小。(3)充分利用多處理器。(4)數(shù)據(jù)共享。(5)快速響應(yīng)特性17、為什么多核?單槎的局限性取檢的優(yōu)第垃靠主箱巫動(dòng)由主鑽和每附鐘周期所性龍執(zhí)行的拒普救期賓觀主頻證過NGH王旳平勢(shì)性供寫功耗功冠趙過10OW豹裝和測(cè)試占總威*的我核共卓封裝和1/004JS本25-1心通常占詞艄感本下降片面積的1行一宕Q%七第四章數(shù)據(jù)集并行18、SIMDSIMD發(fā)掘數(shù)據(jù)級(jí)并行:矩陣運(yùn)算;圖像和聲音處理;SIMD比MIMD能耗效率高:數(shù)據(jù)操作只需要取一條指令;對(duì)PMD具有吸引力;SIMD編程者對(duì)并行思維要求較低。SIMD并行向量體系結(jié)構(gòu);SIMD擴(kuò)展;圖形處理單元(GPUs)x86處理器:假定每兩年增加2個(gè)核心;SIMD每四年寬度翻一番;由SIMD并行獲得的潛在加速比為MIMD的兩倍!第五章多處理器與線程級(jí)并行19、 單CPU上常見的提高性能的方法和并行計(jì)算提高單個(gè)處理器的工作頻率;Locality:L1/L2/L3Cache;多級(jí)流水線(提高CPU頻率的利器);超標(biāo)量執(zhí)行(多條流水線并同時(shí)發(fā)送多條指令);亂序執(zhí)行(指令重排);單指令流多數(shù)據(jù)流SIMD;超長指令字處理器(依賴于編譯器分析)等20、 存儲(chǔ)訪問模型UMA(UniformMemoryAccess)模型物理存儲(chǔ)器被所有節(jié)點(diǎn)共享;所有節(jié)點(diǎn)訪問任意存儲(chǔ)單元的訪問時(shí)間相同;發(fā)生訪存競(jìng)爭時(shí),仲裁策略平等對(duì)待每個(gè)節(jié)點(diǎn),即每個(gè)節(jié)點(diǎn)機(jī)會(huì)均等;各節(jié)點(diǎn)的CPU可帶有局部私有高速緩存;外圍I/O設(shè)備也可以共享,且每個(gè)節(jié)點(diǎn)有平等的訪問權(quán)利。NUMA(Non-UniformMemoryAccess)模型物理存儲(chǔ)器被所有節(jié)點(diǎn)共享,任意節(jié)點(diǎn)可以直接訪問任意內(nèi)存模塊;節(jié)點(diǎn)訪問內(nèi)存模塊的速度不同,訪問本地存儲(chǔ)模塊的速度一般是訪問其他節(jié)點(diǎn)內(nèi)存模塊的3倍以上發(fā)生訪存競(jìng)爭時(shí),仲裁策略對(duì)節(jié)點(diǎn)可能是不平等的;各節(jié)點(diǎn)的CPU可帶有局部私有高速緩存cache;外圍I/O設(shè)備也可以共享,但對(duì)各節(jié)點(diǎn)是不平等的。21、MESIProtocols■MESI協(xié)議包含了描述多核共享數(shù)據(jù)的狀態(tài)。每個(gè)Cacheline有4個(gè)狀態(tài),可用2個(gè)bit表示狀態(tài)描述MfModined)這行數(shù)抵有效,數(shù)抿被修改了』和內(nèi)存中的數(shù)據(jù)不一致,數(shù)據(jù)只存在于本匚孔氓中。Ei;Exclu引ive)這行數(shù)據(jù)有效,數(shù)據(jù)和內(nèi)存中的數(shù)據(jù)一致,數(shù)據(jù)只存在于本C日⑷已中。S(Shared)這行數(shù)據(jù)有效,數(shù)據(jù)和內(nèi)存中的數(shù)據(jù)一致,數(shù)據(jù)存在于很參C日ch已中。l(lnvalid)這行數(shù)據(jù)無效。
ExcluftivoModifiodSharedRemoteRoadM(Modified)和E(Exclusive)狀態(tài)的Cacheline,ExcluftivoModifiodSharedRemoteRoadM(Modified)和E(Exclusive)狀態(tài)的Cacheline,數(shù)據(jù)是獨(dú)有的,不同點(diǎn)在于M狀態(tài)的數(shù)據(jù)是dirty的(和內(nèi)存的不一致),E狀態(tài)的數(shù)據(jù)是clean的(和內(nèi)存的一致)。在MESI協(xié)議中,每個(gè)Cache的Cache控制器不僅知道自己的讀寫操作,也監(jiān)聽(snoop)其它Cache的讀寫操作每個(gè)Cacheline所處的狀態(tài)根據(jù)本核和其它核的讀寫操作在4個(gè)狀態(tài)間進(jìn)行遷移。LocalReadLocalWrilcRemoteWiitaS:m£CachcTT仃站汀監(jiān)聊的杼悌22、Amdahl定律23、基準(zhǔn)程序衡量一個(gè)系統(tǒng),可通過運(yùn)行一個(gè)或一組真實(shí)應(yīng)用-應(yīng)用程序要有代表性,覆蓋現(xiàn)實(shí)世界中常見的情況—應(yīng)用程序負(fù)載(workload)也要有代表性,與實(shí)際情況比較吻合好的基準(zhǔn)程序可以加速計(jì)算機(jī)的發(fā)展-改進(jìn)基準(zhǔn)程序的性能應(yīng)該對(duì)大多數(shù)程序有益好基準(zhǔn)程序可以加速計(jì)算機(jī)的發(fā)展進(jìn)程—是有益于運(yùn)行真實(shí)程序,還是銷售機(jī)器/發(fā)表論文?創(chuàng)造真正有益于真實(shí)程序的基準(zhǔn)程序,而不是有益于基準(zhǔn)程序的基準(zhǔn)程序不同類別基準(zhǔn)程序(玩具Toy)基準(zhǔn)程序 —10-100行例如:sieve,puzzle,quicksort合成(Synthetic)基準(zhǔn)程序-試圖匹配真實(shí)工作負(fù)載的平均頻度—列如,Whetstone,Dhrystone內(nèi)核(Kernels)程序—寸間密集(Timecriticalexcerpts)—例如,Livermoreloops,F(xiàn)FT,treesearch真實(shí)程序(Actualworkloads)—例如,gcc,spice成功的基準(zhǔn)程序:SPEC基準(zhǔn)測(cè)試程序:TPC事務(wù)處理性能委員會(huì)(TransactionProcessing
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 借款擔(dān)保人協(xié)議書
- 軟件開發(fā)和測(cè)試技術(shù)作業(yè)指導(dǎo)書
- 策劃推廣服務(wù)合同
- 數(shù)據(jù)挖掘與商業(yè)智能解決方案作業(yè)指導(dǎo)書
- XXX高校報(bào)告廳項(xiàng)目會(huì)議播音系統(tǒng)設(shè)計(jì)方案
- 農(nóng)業(yè)產(chǎn)業(yè)化環(huán)境保護(hù)方案
- 小學(xué)二年級(jí)數(shù)學(xué)上學(xué)期口算訓(xùn)練 打印版
- 2025年益陽貨運(yùn)從業(yè)資格證模擬考試保過版
- 2025年貴陽貨運(yùn)從業(yè)資格證考試模擬考試題庫答案解析
- 疼痛管理服務(wù)合同(2篇)
- T∕CMATB 9002-2021 兒童肉類制品通用要求
- 工序勞務(wù)分包管理課件
- 暖通空調(diào)(陸亞俊編)課件
- 工藝評(píng)審報(bào)告
- 中國滑雪運(yùn)動(dòng)安全規(guī)范
- 畢業(yè)論文-基于51單片機(jī)的智能LED照明燈的設(shè)計(jì)
- 酒廠食品召回制度
- DG-TJ 08-2343-2020 大型物流建筑消防設(shè)計(jì)標(biāo)準(zhǔn)
- 中職數(shù)學(xué)基礎(chǔ)模塊上冊(cè)第一章《集合》單元檢測(cè)試習(xí)題及參考答案
- 化學(xué)魯科版必修一期末復(fù)習(xí)98頁P(yáng)PT課件
- 《農(nóng)產(chǎn)品質(zhì)量安全檢測(cè)》PPT課件
評(píng)論
0/150
提交評(píng)論