計(jì)算機(jī)系統(tǒng)結(jié)構(gòu)考試重點(diǎn)

上傳人：t*** IP屬地：天津上傳時(shí)間：2023-09-26 格式：DOCX 頁數(shù)：8 大小：75.02KB 積分：12 舉報(bào) 版權(quán)申訴

計(jì)算機(jī)系統(tǒng)結(jié)構(gòu)考試重點(diǎn)_第2頁

計(jì)算機(jī)系統(tǒng)結(jié)構(gòu)考試重點(diǎn)_第3頁

計(jì)算機(jī)系統(tǒng)結(jié)構(gòu)考試重點(diǎn)_第4頁

計(jì)算機(jī)系統(tǒng)結(jié)構(gòu)考試重點(diǎn)_第5頁

已閱讀5頁，還剩3頁未讀，繼續(xù)免費(fèi)閱讀

版權(quán)說明：本文檔由用戶提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

馮諾依曼的5個(gè)架構(gòu)：控制器、運(yùn)算器、存儲(chǔ)器、輸入設(shè)備、輸出設(shè)備。Cpu的發(fā)展趨勢(shì)：1、多核技術(shù)出現(xiàn)的原因因?yàn)椋骸疤幚砥鞴恼扔陔娏鱔電壓x電壓x主頻”，“IPC正比于電流”，所以：“處理器功耗正比于IPC“。由單核處理器增加到雙核處理器，如果主頻不變的話，IPC理論上可以提高一倍,功耗理論上也就最多提高一倍，因?yàn)楣牡脑黾邮蔷€性的。而實(shí)際情況是，雙核處理器性能達(dá)到單核處理器同等性能的時(shí)候，前者的主頻可以更低，因此功耗的下降也是指數(shù)方（三次方）下降的。反映到產(chǎn)品中就是雙核處理器的起跳主頻可以比單核處理器更低，性能更好。由此可見，將來處理器發(fā)展的趨勢(shì)是：為了達(dá)到更高的性能，在采用相同微架構(gòu)的情況下，可以增加處理器的內(nèi)核數(shù)量同時(shí)維持較低的主頻。這樣設(shè)計(jì)的效果是，更多的并行提高IPC，較低的主頻有效地控制了功耗的上升。2、 2個(gè)1G的多核和2G的單核處理器單核CPU也有高頻率的，雙核CPU也有低頻率的。內(nèi)存則有DDRDDR2和DDR3之分。型號(hào)頻率不同，自然效果也不同。如果是同時(shí)運(yùn)行多個(gè)任務(wù)，雙核自然是占有優(yōu)勢(shì)。在上網(wǎng)，做工作時(shí)，高頻率的內(nèi)存則可以加快存取傳輸?shù)乃俣热绻麅?nèi)存是同一個(gè)型號(hào)，那么自然是1G內(nèi)存+雙核快一些，內(nèi)存的大小不直接關(guān)系到存取的速度。3、編程模型：SIMDVSMIMD?（應(yīng)用場(chǎng)景、架構(gòu)優(yōu)缺點(diǎn)）單指令流多數(shù)據(jù)流計(jì)算機(jī)SIMD計(jì)算機(jī)有n個(gè)相同的處理器，每個(gè)都有其自己的本地存儲(chǔ)器，可以存儲(chǔ)數(shù)據(jù)。一個(gè)由中央控制單元發(fā)出的單指令流控制所有處理器的工作。有N個(gè)數(shù)據(jù)流，每1個(gè)處理器操作1個(gè)數(shù)據(jù)。所有處理器是同步操作的，在每一步中，處理器對(duì)于不同的數(shù)據(jù)元素執(zhí)行相同的指令。SIMD計(jì)算機(jī)比MISD更通用。許多應(yīng)用問題可以通過SIMD計(jì)算機(jī)并行算法求解。另一個(gè)有趣的特點(diǎn)是，這些計(jì)算機(jī)算法比較容易設(shè)計(jì)，分析和實(shí)現(xiàn)。局限是只有可被細(xì)分為一組相同子問題的那些計(jì)算才可以被處理。有很多的計(jì)算，不適合這種模式：這種問題通常使用下面的MIMD計(jì)算機(jī)解決。多指令流多數(shù)據(jù)流計(jì)算機(jī)MIMD并行計(jì)算機(jī)是最通用和最強(qiáng)大的。有n個(gè)處理器，指令流和數(shù)據(jù)流。每個(gè)處理器擁有其控制單元和其本地存儲(chǔ)器，使得它們比SIMD計(jì)算機(jī)更強(qiáng)大。每個(gè)處理器在控制單元發(fā)出的指令流控制下運(yùn)行，執(zhí)行不同的指令和操作不同的數(shù)據(jù)流。并行計(jì)算的MIMD模型是最普遍和最強(qiáng)大的，但異步算法很難設(shè)計(jì)，分析和實(shí)現(xiàn)。所以在實(shí)踐上通常用來作為SIMD模式的補(bǔ)充。4、虛擬化技術(shù)的意義？在計(jì)算機(jī)中，虛擬化（英語:Virtualization）是一種資源管理技術(shù)，是將計(jì)算機(jī)的各種實(shí)體資源，如服務(wù)器、網(wǎng)絡(luò)、內(nèi)存及存儲(chǔ)等，予以抽象、轉(zhuǎn)換后呈現(xiàn)出來，打破實(shí)體結(jié)構(gòu)間的不可切割的障礙，使用戶可以比原本的組態(tài)更好的方式來應(yīng)用這些資源。這些資源的新虛擬部份是不受現(xiàn)有資源的架設(shè)方式，地域或物理組態(tài)所限制。一般所指的虛擬化資源包括計(jì)算能力和資料存儲(chǔ)。在實(shí)際的生產(chǎn)環(huán)境中，虛擬化技術(shù)主要用來解決高性能的物理硬件產(chǎn)能過剩和老的舊的硬件產(chǎn)能過低的重組重用，透明化底層物理硬件，從而最大化的利用物理硬件。主頻障礙（1）過去主頻的提高一半靠摩爾定律，一半靠結(jié)構(gòu)優(yōu)化（如P3是10級(jí)流水線，P4是20級(jí)流水線;流水線很難再細(xì)分）（2）隨著晶體管尺寸的縮小，連線延遲成為主要延遲（局部線延遲不變（變短了，但也變細(xì)了）全局的連線延遲還會(huì)不斷變長（芯片面積不變））（3）高主頻的復(fù)雜設(shè)計(jì)正在終結(jié)（強(qiáng)調(diào)：局部化、流水化、異步、自定時(shí)）復(fù)雜度障礙（1）晶體管數(shù)目的指數(shù)增加與設(shè)計(jì)隊(duì)伍的增加形成剪刀差（設(shè)計(jì)能力、驗(yàn)證能力）（2）晶體管越來越難用（串?dāng)_問題、片上漂移、可制造性設(shè)計(jì)）（3）處理器結(jié)構(gòu)經(jīng)歷了簡單、復(fù)雜、簡單、復(fù)雜的螺旋上升過程，最早期的處理器結(jié)構(gòu)由于工藝技術(shù)的限制，不可能做得很復(fù)雜，一般都是串行執(zhí)行隨著流水線、動(dòng)態(tài)調(diào)度、CACHE、向量機(jī)技術(shù)等技術(shù)的發(fā)展，處理器結(jié)構(gòu)變得復(fù)雜，如IBM360系列的機(jī)器以及Cray的向量機(jī)RISC技術(shù)的提出使處理器結(jié)構(gòu)得到一次較大的簡化隨著多發(fā)射亂序執(zhí)行技術(shù)的實(shí)現(xiàn)，RISC結(jié)構(gòu)越來越復(fù)雜，Intel和HP研制的EPIC結(jié)構(gòu)沒有從根本上對(duì)處理器結(jié)構(gòu)進(jìn)行簡化未來可能會(huì)流行的CPU結(jié)構(gòu)多核+向量處理典型：Larrabee（16wayALU/512bit）向量的位寬：64/128/256/512/1024??眾核：同構(gòu)的基于分片的多核（tilebased）典型：Tile64處理器核的個(gè)數(shù)：64/128a512/ 1024帶有協(xié)處理器的異構(gòu)多核典型：CELL通用處理器+專用的協(xié)處理器（GPU、流處理器）摩爾定律發(fā)展過程中碰到的“墻”1980's:存儲(chǔ)墻CPU變快，內(nèi)存只變大不變快80%的晶體管用于片內(nèi)高速緩存等2000's:功耗墻一Intel放棄4GHz的PentiumIV為標(biāo)志，終止復(fù)雜的高主頻設(shè)計(jì)多核設(shè)計(jì)成為主流未來還有可能碰到的“墻”帶寬墻：“茶壺里倒餃子”（性能和帶寬1-2FLOPS:1BPS的關(guān)系）成本墻：太貴了做不起（目前只剩Intel、IBM、TSMC三家）或用不起（10nm以后單片成本反而增加）應(yīng)用墻：16核以上的CPU賣給誰？量大面廣的應(yīng)用需要多少核？如果克服不了上述“墻”，通用CPU的摩爾定律到2015年即告終止帶寬障礙摩爾定律的新定義片內(nèi)處理器核的個(gè)數(shù)指數(shù)增長封裝引腳增加緩慢每個(gè)核使用的引腳數(shù)指數(shù)下降茶壺里倒餃子高速信號(hào)傳輸緩解帶寬瓶頸目前引腳上的信號(hào)頻率已經(jīng)達(dá)到GHz很快會(huì)出現(xiàn)板上頻率高于片內(nèi)頻率的現(xiàn)象5、影響CPU性能的因素性能的最本質(zhì)定義完成一個(gè)任務(wù)（如后天的天氣預(yù)報(bào)）所需的時(shí)間以指令為基本單位一Secon―ds— -In—structio n―4Cycles Secon―dS—CPUTim e= = x x P—rogram P—rogram In—structio n Cycle 6、 Flynn's分類：Flynn分類方法是根據(jù)指令流、數(shù)據(jù)流、和多倍性三方面進(jìn)行分類的。簡單介紹下相關(guān)概念：（1）指令流：機(jī)器執(zhí)行的指令序列（2）數(shù)據(jù)流：指由指令流調(diào)用的數(shù)據(jù)序列，包括輸入數(shù)據(jù)和中間結(jié)果，但不包括輸出數(shù)據(jù)。（3）多倍性：指在系統(tǒng)性能瓶頸部件上同時(shí)處于同一執(zhí)行階段的指令或數(shù)據(jù)的最大可能個(gè)數(shù)。單指令流單數(shù)據(jù)流（SISD）:結(jié)構(gòu)：控制部分一個(gè)，處理器一個(gè)，主存模塊一個(gè)。典型代表：單處理器系統(tǒng)單指令流多數(shù)據(jù)流（SIMD）:結(jié)構(gòu)：控制部分一個(gè)，處理器多個(gè)，主存模塊多個(gè)。關(guān)鍵特性：各處理器以一步的方式形式處理同一條指令。典型代表：單處理器系統(tǒng)。多指令流單數(shù)據(jù)流（MISD）結(jié)構(gòu)：控制部分多個(gè)，處理器多個(gè)，主存模塊多個(gè)。關(guān)鍵特性：被證明不切實(shí)際。典型代表：沒有模型多指令流多數(shù)據(jù)流（MIMD）結(jié)構(gòu)：控制部分多個(gè)，處理器多個(gè)，主存模塊多個(gè)。關(guān)鍵特性：能夠?qū)崿F(xiàn)作業(yè)任務(wù)指令等各級(jí)全方面進(jìn)行。典型代表：多處理系統(tǒng)多計(jì)算機(jī)。7、技術(shù)趨勢(shì)：集成電路技術(shù)：晶體管密度、晶片尺寸、晶體管數(shù)目DRAM容量、閃存容量、磁盤技術(shù)、帶寬、網(wǎng)絡(luò)和存儲(chǔ)技術(shù)（網(wǎng)絡(luò)技術(shù)、速度、存儲(chǔ)接口）第二章內(nèi)存層次設(shè)計(jì)8、存儲(chǔ)基礎(chǔ)局部性原理：時(shí)間局部性：如果一個(gè)存儲(chǔ)項(xiàng)被訪問，則可能很快會(huì)再次被訪問。空間局不性：如果一個(gè)存儲(chǔ)項(xiàng)被訪問，則其鄰近的項(xiàng)也可能很快被訪問。存儲(chǔ)器層次結(jié)構(gòu)：SRAM、DRAM、DISK、FLASHMEMORY存儲(chǔ)系統(tǒng):容量相當(dāng)于最大的那層存儲(chǔ)器，速度相當(dāng)于最快的那層存儲(chǔ)器。CACHE基本原理Cache的工作原理是基于程序訪問的局部性（通俗說就是把經(jīng)常用到的數(shù)據(jù)放在一個(gè)高速的cache里面）。根據(jù)程序的局部性原理，可以在主存和CPU通用寄存器之間設(shè)置一個(gè)高速的容量相對(duì)較小的存儲(chǔ)器，把正在執(zhí)行的指令地址附近的一部分指令或數(shù)據(jù)從主存調(diào)入這個(gè)存儲(chǔ)器，供CPU在一段時(shí)間內(nèi)使用。這對(duì)提高程序的運(yùn)行速度有很大的作用。這個(gè)介于主存和CPU之間的高速小容量存儲(chǔ)器稱作高速緩沖存儲(chǔ)器（Cache）。問題：（1）如果要訪問的數(shù)據(jù)不在CACHE中怎么辦？如果要訪問的數(shù)據(jù)不在CACHE中，那么它一定在內(nèi)存中，cpu訪問內(nèi)存，并把這部分的數(shù)據(jù)從內(nèi)存調(diào)入CACHE（可能先要把CACHE中部分?jǐn)?shù)據(jù)調(diào)出以便騰出空間），訪問結(jié)束。（要訪問的數(shù)據(jù)開始不在CACHE中；訪問數(shù)據(jù)導(dǎo)致缺失；缺失則將需要的數(shù)據(jù)裝入CACHE）（2）從主存中裝入數(shù)據(jù)時(shí)裝到CACHE中的什么位置？全相聯(lián)映射是指主存中任一塊都可以映射到Cache中任一塊的方式，也就是說，當(dāng)主存中的一塊需調(diào)入Cache時(shí)，可根據(jù)當(dāng)時(shí)Cache的塊占用或分配情況，選擇一個(gè)塊給主存塊存儲(chǔ)，所選的Cache塊可以是Cache中的任意一塊直接映射是只能出現(xiàn)在唯一的位置，映射方法通常是（塊地址）MOD（Cache中的組數(shù)）組相聯(lián)映射是一個(gè)塊被嚴(yán)格的放到Cache中某組位置里。一個(gè)塊首先被映射到一個(gè)組中，然后它可以被放置到組中的任何一個(gè)塊中。組通常利用位選擇方式確定。每個(gè)塊有n個(gè)位置可放的cache稱為n路組相聯(lián)cache;（3）從主存中裝入數(shù)據(jù)時(shí)一次裝入多少數(shù)據(jù)？從cache到處理器：以字為單位；從主存到cache：以塊為單位；塊大小與缺失率有關(guān)（4）如何判斷CACHE中對(duì)應(yīng)的位置是否為有效的數(shù)據(jù)？有效位設(shè)置時(shí)表示一個(gè)塊是有效的（5）如果CACHE裝滿了怎么辦？9、替換塊的選擇：隨機(jī)替換策略;為了均勻分布，候選塊將被隨機(jī)選擇。一些系統(tǒng)產(chǎn)生偽隨機(jī)數(shù)塊號(hào)，以獲得可重復(fù)的行為，當(dāng)調(diào)試硬件時(shí)，這種方式及其有用。最近最少使用替換策略：為了減少替換那些可能不久就要用到信息的概率，需要記錄塊的訪問次數(shù)。利用歷史信息來預(yù)測(cè)未來使用情況，被替換的塊將是最長時(shí)間內(nèi)沒有被訪問的Cache塊。LRU使用了一個(gè)局部性原理的推論：如果一個(gè)最近被使用過的塊很可能會(huì)被再次訪問，那么最好替換最近最少使用的塊。先進(jìn)先出替換策略：由于計(jì)算LRU比較復(fù)雜，該替換策略將最早進(jìn)入Cache的塊作為替換塊。（6）寫CACHE時(shí)會(huì)有什么問題？舉例1：假設(shè)指令cache的缺失率為2%,數(shù)據(jù)cache的缺失率為4%,處理器的CPI為2（沒有存儲(chǔ)器阻塞），且每次缺失的代價(jià)為100個(gè)時(shí)鐘周期，那么配置一個(gè)從不發(fā)生缺失的理想的cache，處理器的速度快多少？假定全部LOAD和STORE的頻率為36%.■指令缺失時(shí)鐘周期=1*2%*100=2-01■數(shù)據(jù)缺失時(shí)鐘周期=1*36%*4%*100=1.441■總的存儲(chǔ)器阻塞時(shí)鐘周期=2-01+1.441=3-441■總的CPI=2+3.44=5.44■配置理想CACHE后的性能是原來的5-44/2=2-72倍舉例2：處理器時(shí)鐘周期的時(shí)間1ns,缺失代價(jià)是20個(gè)時(shí)鐘周期，缺失率為每條指令0.05次缺失，cache的訪問時(shí)間（包括命中判斷）為1個(gè)時(shí)鐘周期。假設(shè)讀操作和寫操作的缺失代價(jià)相同并且忽略其它寫阻塞。請(qǐng)計(jì)算AMAT?！鰵靶\(zhòng)扌旨令的平均存儲(chǔ)器訪冋時(shí)間為，■AMAT=命中日寸冋h■缶夬失率沃缶夬失代^介=1+0-05*20=N個(gè)時(shí)鐘周其月舉例3：假定處理器基本的CPI為1.0，時(shí)鐘頻率為4GHz。假定主存訪問時(shí)間為100ns,其中包括缺失處理時(shí)間。設(shè)一級(jí)cache中每條指令缺失率為2%。如果增加一個(gè)二級(jí)cache，命中或缺失訪問的時(shí)間都是5ns,而且容量大到必須使訪問主存的缺失率減少到0.5%,這時(shí)的處理器速率能提高多少？主存的缺失代價(jià)：100ns/(0.25ns/時(shí)鐘周期)=400個(gè)時(shí)鐘周期只有一級(jí)cache時(shí)：總的CPI=1.0+2%*400=9對(duì)于兩級(jí)cache：二級(jí)cache的缺失代價(jià)：5ns/(0.25ns/時(shí)鐘周期)=20個(gè)時(shí)鐘周期總的CPI=1+2%*20+0.5%*400=3.4有二級(jí)cache的處理器性能是沒有二級(jí)cache性能的9.0/3.4=2.6倍10、層次化存儲(chǔ)優(yōu)化方法■ 6種基本的CACHE優(yōu)化方法：更大的塊強(qiáng)制缺失減少；容量和沖突缺失增加,缺失代價(jià)增加；更大的CACHE容量缺失率降低；命中時(shí)間,功耗增加；更高的相聯(lián)度沖突缺失減少；命中時(shí)間增加,功耗增加；更多級(jí)CACHE內(nèi)存訪問時(shí)間減少；讀缺失優(yōu)先級(jí)更高缺失代價(jià)降低；緩存索引避免地址轉(zhuǎn)換減少命中時(shí)間；第三章指令級(jí)并行11、 Load指令的5個(gè)階段：IF取指、ID取操作數(shù)和譯碼、EX執(zhí)行、MEM存儲(chǔ)器訪問、WB寫回12、流水線的3種沖突/冒險(xiǎn)：Hazards:指流水線遇到無法正確執(zhí)行后續(xù)指令或執(zhí)行了不該執(zhí)行的指令Structuralhazards(hardwareresourceconflicts)：現(xiàn)象:同一個(gè)部件同時(shí)被不同指令所使用一個(gè)部件每條指令只能使用1次,且只能在特定周期使用設(shè)置多個(gè)部件，以避免沖突。如指令存儲(chǔ)器IM和數(shù)據(jù)存儲(chǔ)器DM分開Datahazards(datadependencies)：現(xiàn)象:后面指令用到前面指令結(jié)果時(shí)，前面指令結(jié)果還沒產(chǎn)生采用轉(zhuǎn)發(fā)(Forwarding/Bypassing)技術(shù)Load-use冒險(xiǎn)需要一次阻塞(stall)編譯程序優(yōu)化指令順序Control(Branch)hazards(changesinprogramflow)：現(xiàn)象:轉(zhuǎn)移或異常改變執(zhí)行流程，順序執(zhí)行指令在目標(biāo)地址產(chǎn)生前已被取出采用靜態(tài)或動(dòng)態(tài)分支預(yù)測(cè)編譯程序優(yōu)化指令順序(實(shí)行分支延遲)13、數(shù)據(jù)冒險(xiǎn)的解決方法:方法1：硬件阻塞(stall)方法2：軟件插入“N0P”指令方法3：編譯優(yōu)化：調(diào)整指令順序方法4：合理實(shí)現(xiàn)寄存器堆的讀/寫操作前半時(shí)鐘周期寫，后半時(shí)鐘周期讀。若同一個(gè)時(shí)鐘內(nèi)前面指令寫入的數(shù)據(jù)正好是后面指令所讀數(shù)據(jù)，則不會(huì)發(fā)生數(shù)據(jù)冒險(xiǎn)方法5：轉(zhuǎn)發(fā)(Forwarding或Bypassing旁路)技術(shù)，能解決所有數(shù)據(jù)冒險(xiǎn)嗎？若相關(guān)數(shù)據(jù)是ALU結(jié)果，則如何？可通過轉(zhuǎn)發(fā)解決若相關(guān)數(shù)據(jù)是上條指令DM讀出內(nèi)容，則如何？不能通過轉(zhuǎn)發(fā)解決，隨后指令需被阻塞一個(gè)時(shí)鐘或加NOP指令。稱為Load-usa數(shù)據(jù)冒險(xiǎn)14、動(dòng)態(tài)分支預(yù)測(cè)方法：簡單的靜態(tài)分支預(yù)測(cè)方法的預(yù)測(cè)成功率不高，應(yīng)考慮動(dòng)態(tài)預(yù)測(cè)動(dòng)態(tài)預(yù)測(cè)基本思想：?利用最近轉(zhuǎn)移發(fā)生的情況，來預(yù)測(cè)下一次可能發(fā)生的轉(zhuǎn)移?預(yù)測(cè)后，在實(shí)際發(fā)生時(shí)驗(yàn)證并調(diào)整預(yù)測(cè)?轉(zhuǎn)移發(fā)生的歷史情況記錄在BHT中（有多個(gè)不同的名稱）-分支歷史記錄表BHT（BranchHistoryTable）-分支預(yù)測(cè)緩沖BPB（BranchPredictionBuffer）-分支目標(biāo)緩沖BTB（BranchTargetBuffer）?每個(gè)表項(xiàng)由分支指令地址的低位索引，故在IF階段就可以取到預(yù)測(cè)位-低位地址相同的分支指令共享一個(gè)表項(xiàng)，所以，可能取的是其他分支指令的預(yù)測(cè)位。會(huì)不會(huì)有問題？-由于僅用于預(yù)測(cè)，所以不影響執(zhí)行結(jié)果狀態(tài)圖15、Tomasulo's算法■三步驟：■發(fā)射■從指令隊(duì)列中獲得指令，果RS可用，則發(fā)射指令到RS；■如果操作數(shù)可用，則發(fā)送數(shù)據(jù)至RS；■如果操作數(shù)不可用，則指令停頓；■發(fā)射級(jí)完成了重命名。■執(zhí)行■若有一個(gè)或幾個(gè)操作數(shù)未就緒，等待該操作數(shù)，并同時(shí)監(jiān)控CDB；■當(dāng)操作數(shù)可用，則存儲(chǔ)至保留站；當(dāng)所有的操作數(shù)可用，則執(zhí)行指令■執(zhí)行級(jí)檢查了是否存在RAW競(jìng)爭?！鰧懡Y(jié)果■將結(jié)果寫入CDB,并從CDB寫入目的寄存器及等待此結(jié)果的保留站；■連續(xù)寫同一寄存器時(shí)，只有最后一次才能寫入；■消除了WAW競(jìng)爭。16、多線程的好處：（1）創(chuàng)建一個(gè)線程比創(chuàng)建一個(gè)進(jìn)程的代價(jià)小。（2）線程的切換比進(jìn)程間切換的代價(jià)小。（3）充分利用多處理器。（4）數(shù)據(jù)共享。（5）快速響應(yīng)特性17、為什么多核？單槎的局限性取檢的優(yōu)第垃靠主箱巫動(dòng)由主鑽和每附鐘周期所性龍執(zhí)行的拒普救期賓觀主頻證過NGH王旳平勢(shì)性供寫功耗功冠趙過10OW豹裝和測(cè)試占總威*的我核共卓封裝和1/004JS本25-1心通常占詞艄感本下降片面積的1行一宕Q%七第四章數(shù)據(jù)集并行18、SIMDSIMD發(fā)掘數(shù)據(jù)級(jí)并行：矩陣運(yùn)算；圖像和聲音處理；SIMD比MIMD能耗效率高：數(shù)據(jù)操作只需要取一條指令；對(duì)PMD具有吸引力；SIMD編程者對(duì)并行思維要求較低。SIMD并行向量體系結(jié)構(gòu)；SIMD擴(kuò)展；圖形處理單元（GPUs）x86處理器：假定每兩年增加2個(gè)核心；SIMD每四年寬度翻一番；由SIMD并行獲得的潛在加速比為MIMD的兩倍！第五章多處理器與線程級(jí)并行19、單CPU上常見的提高性能的方法和并行計(jì)算提高單個(gè)處理器的工作頻率；Locality：L1/L2/L3Cache；多級(jí)流水線（提高CPU頻率的利器）;超標(biāo)量執(zhí)行（多條流水線并同時(shí)發(fā)送多條指令）;亂序執(zhí)行（指令重排）;單指令流多數(shù)據(jù)流SIMD;超長指令字處理器（依賴于編譯器分析）等20、存儲(chǔ)訪問模型UMA（UniformMemoryAccess）模型物理存儲(chǔ)器被所有節(jié)點(diǎn)共享；所有節(jié)點(diǎn)訪問任意存儲(chǔ)單元的訪問時(shí)間相同；發(fā)生訪存競(jìng)爭時(shí)，仲裁策略平等對(duì)待每個(gè)節(jié)點(diǎn)，即每個(gè)節(jié)點(diǎn)機(jī)會(huì)均等；各節(jié)點(diǎn)的CPU可帶有局部私有高速緩存；外圍I/O設(shè)備也可以共享，且每個(gè)節(jié)點(diǎn)有平等的訪問權(quán)利。NUMA（Non-UniformMemoryAccess）模型物理存儲(chǔ)器被所有節(jié)點(diǎn)共享，任意節(jié)點(diǎn)可以直接訪問任意內(nèi)存模塊；節(jié)點(diǎn)訪問內(nèi)存模塊的速度不同，訪問本地存儲(chǔ)模塊的速度一般是訪問其他節(jié)點(diǎn)內(nèi)存模塊的3倍以上發(fā)生訪存競(jìng)爭時(shí)，仲裁策略對(duì)節(jié)點(diǎn)可能是不平等的；各節(jié)點(diǎn)的CPU可帶有局部私有高速緩存cache；外圍I/O設(shè)備也可以共享，但對(duì)各節(jié)點(diǎn)是不平等的。21、MESIProtocols■MESI協(xié)議包含了描述多核共享數(shù)據(jù)的狀態(tài)。每個(gè)Cacheline有4個(gè)狀態(tài)，可用2個(gè)bit表示狀態(tài)描述MfModined)這行數(shù)抵有效，數(shù)抿被修改了』和內(nèi)存中的數(shù)據(jù)不一致，數(shù)據(jù)只存在于本匚孔氓中。Ei；Exclu引ive)這行數(shù)據(jù)有效，數(shù)據(jù)和內(nèi)存中的數(shù)據(jù)一致，數(shù)據(jù)只存在于本C日⑷已中。S(Shared)這行數(shù)據(jù)有效，數(shù)據(jù)和內(nèi)存中的數(shù)據(jù)一致，數(shù)據(jù)存在于很參C日ch已中。l(lnvalid)這行數(shù)據(jù)無效。

ExcluftivoModifiodSharedRemoteRoadM(Modified)和E(Exclusive)狀態(tài)的Cacheline,ExcluftivoModifiodSharedRemoteRoadM(Modified)和E(Exclusive)狀態(tài)的Cacheline,數(shù)據(jù)是獨(dú)有的，不同點(diǎn)在于M狀態(tài)的數(shù)據(jù)是dirty的(和內(nèi)存的不一致),E狀態(tài)的數(shù)據(jù)是clean的(和內(nèi)存的一致)。在MESI協(xié)議中，每個(gè)Cache的Cache控制器不僅知道自己的讀寫操作，也監(jiān)聽(snoop)其它Cache的讀寫操作每個(gè)Cacheline所處的狀態(tài)根據(jù)本核和其它核的讀寫操作在4個(gè)狀態(tài)間進(jìn)行遷移。LocalReadLocalWrilcRemoteWiitaS：m￡CachcTT仃站汀監(jiān)聊的杼悌22、Amdahl定律23、基準(zhǔn)程序衡量一個(gè)系統(tǒng)，可通過運(yùn)行一個(gè)或一組真實(shí)應(yīng)用-應(yīng)用程序要有代表性，覆蓋現(xiàn)實(shí)世界中常見的情況—應(yīng)用程序負(fù)載(workload)也要有代表性，與實(shí)際情況比較吻合好的基準(zhǔn)程序可以加速計(jì)算機(jī)的發(fā)展-改進(jìn)基準(zhǔn)程序的性能應(yīng)該對(duì)大多數(shù)程序有益好基準(zhǔn)程序可以加速計(jì)算機(jī)的發(fā)展進(jìn)程—是有益于運(yùn)行真實(shí)程序,還是銷售機(jī)器/發(fā)表論文?創(chuàng)造真正有益于真實(shí)程序的基準(zhǔn)程序，而不是有益于基準(zhǔn)程序的基準(zhǔn)程序不同類別基準(zhǔn)程序(玩具Toy)基準(zhǔn)程序 —10-100行例如:sieve,puzzle,quicksort合成(Synthetic)基準(zhǔn)程序-試圖匹配真實(shí)工作負(fù)載的平均頻度—列如，Whetstone,Dhrystone內(nèi)核(Kernels)程序—寸間密集(Timecriticalexcerpts)—例如，Livermoreloops，F(xiàn)FT，treesearch真實(shí)程序(Actualworkloads)—例如，gcc,spice成功的基準(zhǔn)程序：SPEC基準(zhǔn)測(cè)試程序：TPC事務(wù)處理性能委員會(huì)(TransactionProcessing

人人文庫> 全部分類> 行業(yè)資料 > 各類標(biāo)準(zhǔn)

溫馨提示

1. 本站所有資源如無特殊說明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽，若沒有圖紙預(yù)覽就沒有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間，僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理，對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容，請(qǐng)與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

計(jì)算機(jī)系統(tǒng)結(jié)構(gòu)考試重點(diǎn)

文檔簡介

溫馨提示

最新文檔

評(píng)論

計(jì)算機(jī)系統(tǒng)結(jié)構(gòu)考試重點(diǎn)

文檔簡介

溫馨提示

最新文檔

評(píng)論

相關(guān)文檔