




版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
1、微處理器體系結(jié)構(gòu)隨著高性能計(jì)算的需求,計(jì)算機(jī)體系結(jié)構(gòu)發(fā)生了很大變化。作為計(jì)算機(jī)核心部件的微處理器,其性能和復(fù)雜性晶體管數(shù)、時(shí)鐘頻率和峰值也按照摩爾定律增長(zhǎng)。微處理器性能的改善在很大程度上歸功于體系結(jié)構(gòu)的開展和VLSI工藝的改良。體系結(jié)構(gòu)的開展主要表達(dá)在三個(gè)方面,即超流水、多指令發(fā)射和多指令操作。超流水技術(shù)主要開發(fā)時(shí)間并行性。流水線技術(shù)是RISC處理器區(qū)別于CISC處理器的重要特征。采用超流水技術(shù),盡管可以減少關(guān)鍵路徑中每級(jí)流水的時(shí)間,但同時(shí)也引入了更多的存放器,進(jìn)而增加了面積開銷以及時(shí)鐘歪斜問(wèn)題。另一方面,深度流水在指令相關(guān)和指令跳轉(zhuǎn)時(shí)會(huì)大大降低流水線的性能。多指令發(fā)射和多指令操作均是開發(fā)空間
2、并行性。多指令發(fā)射面臨的首要問(wèn)題是如何保持應(yīng)用程序語(yǔ)義的正確性,MIMD、超標(biāo)量和數(shù)據(jù)流技術(shù)是多指令發(fā)射的典型結(jié)構(gòu)。MIMD是并行計(jì)算的重要研究領(lǐng)域。超標(biāo)量采用時(shí)序指令流發(fā)射技術(shù),兼容性好,硬件開銷大,功耗開銷大,是目前多數(shù)商用高端處理器采用的主流技術(shù)。數(shù)據(jù)流采用token環(huán)技術(shù),理論上可以開發(fā)出高度指令并行性。然而,其商用開發(fā)不成功,原因是運(yùn)行時(shí)間開銷大,尤其是token環(huán)匹配需要很高的時(shí)間代價(jià)。多指令操作是當(dāng)前體系結(jié)構(gòu)的重要研究方向。多指令操作包括數(shù)據(jù)并行性開發(fā)和操作并行性開發(fā)。盡管在CISC處理器中均采用過(guò)這兩種技術(shù),但CISC給體系結(jié)構(gòu)開發(fā)帶來(lái)三個(gè)負(fù)面影響:一是CISC指令不適合流水處
3、理,二是指令差異很大造成譯碼困難,三是編譯器很難開發(fā)出有效的指令操作。與CISC處理器相反,多指令操作非常適合RISC處理器,其中SIMD和VLIW就是數(shù)據(jù)并行性和操作并行性的典型結(jié)構(gòu)。向量處理器和SIMD處理器都是利用多個(gè)操作數(shù)來(lái)實(shí)現(xiàn)數(shù)據(jù)并行性。但二者有很大不同。向量處理器對(duì)線性向量元素順序操作,SIMD那么對(duì)向量元素進(jìn)行并發(fā)操作。對(duì)前者,每條指令只能作用于一個(gè)功能部件,執(zhí)行時(shí)間較長(zhǎng);而后者在執(zhí)行指令時(shí)可以作用于多個(gè)功能部件。向量處理器采用交叉存儲(chǔ)器實(shí)現(xiàn)向量的訪存操作,同時(shí)可對(duì)短向量進(jìn)行有效操作,即對(duì)稀疏向量進(jìn)行壓縮以獲得高性能。SIMD適合多媒體中的分組數(shù)據(jù)流,通過(guò)特定算法將長(zhǎng)的數(shù)據(jù)流截成
4、定長(zhǎng)短向量序列,從而可以和向量處理器那樣實(shí)現(xiàn)對(duì)定長(zhǎng)短向量序列的高效處理。VLIW是實(shí)現(xiàn)操作并行性開發(fā)的重要途徑。CISC處理器采用垂直編碼技術(shù),而VLIW那么采用水平編碼技術(shù),指令中的每個(gè)操作域可以并發(fā)執(zhí)行。同CISC處理器相比,VLIW具有的優(yōu)點(diǎn)是:指令操作域定長(zhǎng),譯碼簡(jiǎn)單;適合流水處理,減少CPI;編譯器需要開發(fā)程序潛在的指令級(jí)操作并行性。傳統(tǒng)VLIW的缺乏是指令帶寬較高,二進(jìn)制目標(biāo)代碼不兼容。VLIW和SIMD結(jié)構(gòu)都能接受單一指令流,每條指令可以包含多個(gè)操作。但前者允許每條指令包含多個(gè)不同類型的操作,同時(shí)可以開發(fā)細(xì)粒度并行性。VLIW指令字較長(zhǎng),而SIMD具有很強(qiáng)的數(shù)據(jù)壓縮能力。事實(shí)上,
5、VLIW和SIMD技術(shù)相結(jié)合可以獲得更高的性能加速比,且非常適合多媒體數(shù)據(jù)處理。從微處理器體系結(jié)構(gòu)和編譯器界面劃分的角度上講,指令級(jí)體系結(jié)構(gòu)可以分為順序結(jié)構(gòu)、相關(guān)結(jié)構(gòu)和獨(dú)立結(jié)構(gòu)三類。在順序結(jié)構(gòu)中,程序不包含任何指令并行信息,完全通過(guò)硬件進(jìn)行調(diào)度,即硬件負(fù)責(zé)操作間的相關(guān)分析、獨(dú)立操作分析和操作調(diào)度,編譯器只負(fù)責(zé)程序代碼的重組,程序中不附加任何信息。超標(biāo)量是該類結(jié)構(gòu)的典型代表。在相關(guān)結(jié)構(gòu)中,程序顯式指定操作的相關(guān)信息,即編譯器負(fù)責(zé)操作間的相關(guān)分析,而硬件負(fù)責(zé)獨(dú)立操作分析和調(diào)度,如數(shù)據(jù)流處理器。獨(dú)立結(jié)構(gòu)完全由程序提供各個(gè)獨(dú)立操作間的信息,即編譯器負(fù)責(zé)操作間相關(guān)性分析、獨(dú)立操作間分析和指令調(diào)度,VLI
6、W是其主要代表。 超標(biāo)量處理器架構(gòu)現(xiàn)代超標(biāo)量處理器體系結(jié)構(gòu)均基于IBM360/91采用的Tomasulo和CDC6600采用的Scoreboard動(dòng)態(tài)調(diào)度技術(shù),MIPS R10000和DEC21264微處理器均基于該體系結(jié)構(gòu)。典型超標(biāo)量處理器通常采用如下邏輯結(jié)構(gòu)實(shí)現(xiàn)動(dòng)態(tài)調(diào)度:存放器重命名邏輯、窗口喚醒邏輯、窗口選擇邏輯和數(shù)據(jù)旁路邏輯。Intel的Pentium處理器、Motorola的PowerPC 604和SPARC64那么采用基于預(yù)約站的超標(biāo)量體系結(jié)構(gòu)。 兩種體系結(jié)構(gòu)的主要區(qū)別是:在典型超標(biāo)量結(jié)構(gòu)中,無(wú)論是推測(cè)還是非推測(cè)存放器值都放在物理存放器堆中;在預(yù)約站超標(biāo)量結(jié)構(gòu)中,推測(cè)數(shù)據(jù)放在重排序
7、緩沖器中,非推測(cè)數(shù)據(jù)和已經(jīng)執(zhí)行完成提交的數(shù)據(jù)那么放在存放器文件中。在典型結(jié)構(gòu)中,操作數(shù)不播送到窗口,而只將操作數(shù)標(biāo)志TAG進(jìn)行播送,操作數(shù)那么送到物理存放器文件。在預(yù)約站結(jié)構(gòu)中,指令執(zhí)行結(jié)果播送到預(yù)約站,指令發(fā)射時(shí)從預(yù)約站去取操作數(shù)。超標(biāo)量處理器性能與IPCInstructions Per Cycle和時(shí)鐘頻率的乘積成正比。時(shí)鐘速率同系統(tǒng)結(jié)構(gòu)的關(guān)鍵路徑時(shí)延有關(guān),而IPC和如下因素有關(guān):程序中潛在的指令級(jí)并行性、體系結(jié)構(gòu)字長(zhǎng)寬度、指令窗口大小和并行性開發(fā)策略。超標(biāo)量處理器一般通過(guò)增加發(fā)射邏輯提高IPC,這將導(dǎo)致更寬的發(fā)射窗口和更復(fù)雜的發(fā)射策略。 眾所周知,超標(biāo)量處理器是通用微處理器的主流體系結(jié)構(gòu)
8、,幾乎所有商用通用微處理器都采用超標(biāo)量體系結(jié)構(gòu)。而在DSP方面,LSI 邏輯公司的 ZSP200、 ZSP400、ZSP500和ZSP600均采用超標(biāo)量體系結(jié)構(gòu)。ZSP200采用并行MAC和ALU運(yùn)算部件,2發(fā)射超標(biāo)量結(jié)構(gòu);ZSP400采用雙 MAC單元、4 發(fā)射超標(biāo)量處理器體系結(jié)構(gòu);ZSP500為4發(fā)射體系結(jié)構(gòu)、采用增強(qiáng)型雙MAC和雙ALU運(yùn)算單元;ZSP600采用4MAC和雙ALU運(yùn)算部件,每個(gè)時(shí)鐘周期發(fā)射6條指令。圖1為ZSP400結(jié)構(gòu)框圖。
9、160; 圖1 ZSP400 內(nèi)核超標(biāo)量體系結(jié)構(gòu)框圖ADI公司的TigerSHARC系列采用靜態(tài)超標(biāo)量體系結(jié)構(gòu)。該系列采用了許多傳統(tǒng)超標(biāo)量處理器的特征,如load/store結(jié)構(gòu)、分之預(yù)測(cè)和互鎖存放器堆等技術(shù)。每個(gè)時(shí)鐘周期發(fā)射4條指令。而靜態(tài)超標(biāo)量的含義是指指令級(jí)并行性識(shí)別是在運(yùn)行之前,即編寫程序時(shí)確定的事實(shí)上以VLIW結(jié)構(gòu)為根底。同時(shí),Tiger SHARC系統(tǒng)處理器采用SIMD技術(shù),用戶可以對(duì)數(shù)據(jù)進(jìn)行播送和合并。所有存放器均是互鎖的,支持簡(jiǎn)單的編程模型,該模型不依賴
10、于不同型號(hào)間的時(shí)延變化。分支目標(biāo)緩沖器BTB為128位,可以有效減小循環(huán)操作和其它非順序代碼的執(zhí)行時(shí)間。圖2為TigerSHARC系列中的ADSP-TS201S結(jié)構(gòu)框圖。 圖2 ADSP-TS201S靜態(tài)超標(biāo)量體系結(jié)構(gòu)框圖超長(zhǎng)指令字VLIW體系結(jié)構(gòu)自從耶魯大學(xué)的J.A Fisher于1979年首次提出VLIW體系結(jié)構(gòu)以來(lái),先后由耶魯大學(xué)開發(fā)出基于跟蹤調(diào)度(Trace Scheduling)
11、技術(shù)的MultiFlow處理器和Cydrome公司Bob Rau等人開發(fā)的基于巨塊調(diào)度Superblock Scheduling的Cydra-5處理器。但直到九十年代中期,基于VLIW結(jié)構(gòu)的處理器根本上停留在實(shí)驗(yàn)室原型機(jī)階段。因?yàn)閂LIW本身固有的幾個(gè)關(guān)鍵問(wèn)題一直沒(méi)有徹底解決,導(dǎo)致了其后的商用處理器體系結(jié)構(gòu)從RISC轉(zhuǎn)向了超標(biāo)量和超流水,而不是VLIW。盡管如此,由于VLIW結(jié)構(gòu)的許多優(yōu)點(diǎn)仍然使許多研究機(jī)構(gòu)競(jìng)相對(duì)該技術(shù)進(jìn)行堅(jiān)持不懈地研究,并在體系結(jié)構(gòu)和編譯器方面實(shí)現(xiàn)了突破,其中最重要的是解決了目標(biāo)代碼兼容問(wèn)題并支持推斷推測(cè)機(jī)制盡管大局部處理器僅支持局部推斷推測(cè)機(jī)制。這之后出現(xiàn)了Philip的T
12、rimedia、Equator的MAP1000A媒體處理器、Chromatic的Mact、TI的TMS320C6XX、Transmeta的Crusoe以及INTEL和HP聯(lián)盟提出的IA-64體系結(jié)構(gòu)EPIC。事實(shí)上VLIW作為下一代高性能處理器體系結(jié)構(gòu)的首選技術(shù)已成共識(shí),該體系結(jié)構(gòu)和優(yōu)化編譯器形成的SIMD指令流將更加適合多媒體數(shù)據(jù)處理。TI的TMS320C6系列是典型的超長(zhǎng)指令字VLI W體系結(jié)構(gòu),該系列每個(gè)指令周期可以執(zhí)行8條32位指令,C62為定點(diǎn)處理器,C67為浮點(diǎn)處理器。C62和C67系列的CPU內(nèi)核是相同的,包含32個(gè)通用存放器、8個(gè)執(zhí)行部件。C64包含64個(gè)
13、通用存放器和8個(gè)執(zhí)行部件。8個(gè)執(zhí)行部件包含2個(gè)乘法器和6個(gè)ALU。支持8/16/32數(shù)據(jù)類型,所有指令均為條件執(zhí)行,減小了分支指令開銷。圖3為C62和C67系統(tǒng)框圖。 圖3 基于VLIW體系結(jié)構(gòu)的TMS320C6系統(tǒng)框圖中國(guó)科學(xué)院聲學(xué)研究所在“973國(guó)家重大根底研究開展規(guī)劃資助下研制成功國(guó)內(nèi)第一款基于多發(fā)射VLIW和SIMD技術(shù)的具有可重組結(jié)構(gòu)的高性能微處理器芯片華威
14、處理器SuperV。該處理器為四發(fā)射VLIW處理器,當(dāng)執(zhí)行向量處理功能時(shí),每個(gè)周期可執(zhí)行35個(gè)操作。在執(zhí)行32位乘累加操作時(shí)可獲得2.9 GOPS 的數(shù)據(jù)處理速度;執(zhí)行16位乘累加操作時(shí)可獲得5.1 GOPS 的數(shù)據(jù)處理速度;執(zhí)行8位乘累加操作時(shí)可獲得9.3 GOPS 的數(shù)據(jù)處理速度。該處理器是目前國(guó)內(nèi)數(shù)據(jù)處理能力最強(qiáng)的微處理器,可以廣泛應(yīng)用于信息家電、網(wǎng)絡(luò)通信、聲音圖像以及雷達(dá)聲納等信號(hào)處理領(lǐng)域。 可重構(gòu)處理器架構(gòu)從二十世紀(jì)七十年代開始的第一代CISC處理器開始至今,微處理器體系結(jié)構(gòu)已經(jīng)經(jīng)過(guò)了三代。然而,即使是第三代的RISC技術(shù)仍然停留在固定模式的體系架構(gòu)設(shè)計(jì)。隨著ASIC和SOC技術(shù)的開
15、展,微處理器設(shè)計(jì)進(jìn)入到第四代,即后RISC和可重構(gòu)處理器時(shí)代。其重要特征是系統(tǒng)架構(gòu)不再采用固定模式,而是將DSP的靈活性與硬線連接的專用性相結(jié)合,使得微處理器可以針對(duì)不同的應(yīng)用需求建立自己獨(dú)特的體系結(jié)構(gòu),到達(dá)性能最優(yōu)、功耗更低的目的。華威處理器SuperV體系結(jié)構(gòu)不僅基于RISC、VLIW和SIMD技術(shù),而且采用了可重構(gòu)技術(shù),使得用戶在不增加硬件開銷的情況下通過(guò)對(duì)系統(tǒng)功能部件的重構(gòu)完成對(duì)不同應(yīng)用的處理,不僅提高了系統(tǒng)性能,而且大大降低了系統(tǒng)的功耗。例如,在華威處理器中設(shè)計(jì)了假設(shè)干32位可重構(gòu)乘法器,每個(gè)可重構(gòu)乘法器可以完成32位乘法、假設(shè)干個(gè)16位乘法或者8位乘法。因此,華威處理器可以采用一條
16、指令完成16個(gè)8位數(shù)據(jù)的乘累加操作;一條指令可以完成8個(gè)16位數(shù)據(jù)的乘累加操作;一條指令可以完成4個(gè)32位數(shù)據(jù)的乘加操作;一條指令可以完成4個(gè)32位數(shù)據(jù)的累加操作;一條指令可以完成16個(gè)索引、16個(gè)地址計(jì)算和16次數(shù)據(jù)加載操作;兩條指令完成16個(gè)8位數(shù)據(jù)累加操作;兩條指令可以完成8個(gè)16位數(shù)據(jù)累加操作;兩條指令可以完成對(duì)256項(xiàng)、8位元素的數(shù)據(jù)表進(jìn)行的16路并行查找。 Tensilica的可配置技術(shù)是可重構(gòu)處理器的重要代表。例如,Vectra LX定點(diǎn)向量DSP引擎就是通過(guò)配置選項(xiàng)在Xtensa LX可配置處理器的根底上建立起來(lái)的。即Vectra LX定點(diǎn)DSP引擎是Xtensa LX微處理器
17、內(nèi)核的一種配置。該定點(diǎn)DSP引擎是一個(gè)3發(fā)射SIMD處理器,具有四個(gè)乘法器/累加器四MAC,它可以處理128位的向量。128位向量可以分成8個(gè)16位或者4個(gè)32位的元素。整個(gè)Vectra LX DSP引擎是用TIE Tensilica's Instruction Extension語(yǔ)言開發(fā)的,通過(guò)修改可以適合不同的應(yīng)用領(lǐng)域。Vectra LX DSP引擎增加了16個(gè)向量存放器每個(gè)存放器160位寬、四個(gè)128位的向量隊(duì)列存放器、第二個(gè)load/store單元和210多條現(xiàn)有Xtensa LX處理器指令集體系結(jié)構(gòu)中的通用DSP指令。Vectra LX DSP引擎如圖4所示。
18、 圖4 Vectra LX DSP體系結(jié)構(gòu)框圖 結(jié) 語(yǔ)作為信息產(chǎn)業(yè)的核心技術(shù),微處理器體系結(jié)構(gòu)正在發(fā)生很大的變化,而這種變化無(wú)不表達(dá)出市場(chǎng)需求的強(qiáng)大動(dòng)力。現(xiàn)代微處理器,無(wú)論是通用微處理器還是數(shù)字信號(hào)處理器在體系結(jié)構(gòu)方面正在趨于融合。通用處理器通過(guò)增加媒體處理指令來(lái)提高數(shù)據(jù)處理器能力;而數(shù)字信號(hào)處理器也借鑒
19、了通用處理器的體系結(jié)構(gòu),使得數(shù)字信號(hào)處理器的數(shù)據(jù)處理器能力更加強(qiáng)大、管理更加靈活。同時(shí),隨著嵌入式應(yīng)用的需求,對(duì)功耗的要求也越來(lái)越苛刻,使得可重構(gòu)處理器在未來(lái)將會(huì)起到重要的作用。由于不同的應(yīng)用需求可以通過(guò)重構(gòu)技術(shù)獲得所需要的微處理器系統(tǒng)架構(gòu),這將大大提高產(chǎn)品的競(jìng)爭(zhēng)力,同時(shí)也降低了整個(gè)系統(tǒng)的功耗和本錢。多處理器的體系結(jié)構(gòu) 隨著單個(gè)處理器的性能越來(lái)越逼近其物理極限,現(xiàn)在的處理器設(shè)計(jì)方向可以大致有兩類,一是采用單片上集成多個(gè)核中或者采用一個(gè)核中多個(gè)物理線程的方法來(lái)到達(dá)并行的目的,從而提高性能;另一個(gè)方向是嵌入式應(yīng)用,這有兩種思路即將通用處理器擴(kuò)展、改裝成能適合各種嵌入式應(yīng)用的份額是,或者將擴(kuò)展、改裝
20、以吸收局部通用微處理器的特點(diǎn)。事實(shí)上, 在2000年,嵌入式芯片的銷售量已經(jīng)是通用微處理能的兩倍多。但是從編譯的角度來(lái)看由于其不規(guī)那么、復(fù)雜的結(jié)構(gòu)以及指令集結(jié)構(gòu),導(dǎo)致無(wú)法很好的利用編譯器。當(dāng)然,現(xiàn)在的一個(gè)研究方向就是吸收通用微處理器的特點(diǎn),以方便編譯器的使用。 .相關(guān)的體系結(jié)構(gòu)介紹 .多發(fā)射處理器multi-issue processor 多發(fā)射處理器multi-issue processor包括超標(biāo)量(Superscalar)和超長(zhǎng)指令字Very-Long Instruction Word,處理器,其思想是允許在一個(gè)時(shí)鐘周期內(nèi)發(fā)射多條指令以減少處理器的平均, 更好地利用處理器的功能部件。提高
21、多發(fā)射處理器資源利用率的關(guān)鍵問(wèn)題是:如何在程序中找到足夠的指令級(jí)并行性。超標(biāo)量處理器在每個(gè)時(shí)鐘周期發(fā)射由硬件動(dòng)態(tài)確定的指令,而處理器那么在每個(gè)時(shí)鐘周期發(fā)射出編譯器確定的固定數(shù)目的操作。超標(biāo)量處理器是依賴硬件來(lái)發(fā)現(xiàn)ILP, 而VLIW處理器那么依賴編譯器來(lái)發(fā)現(xiàn)。不管是超標(biāo)量還是處理器都只能挖掘同一個(gè)線程的ILP來(lái)提高處理器資源利用率。當(dāng)多發(fā)射處理器不能發(fā)現(xiàn)足夠的指令來(lái)添滿發(fā)射槽時(shí),水平浪費(fèi)Horizontal Waste就發(fā)生了。此外當(dāng)資源沖突造成多發(fā)射處理器在接下來(lái)的時(shí)鐘周期中不能發(fā)射指令,那么造成了垂直浪費(fèi)Vertical Waste。如圖1所示為多發(fā)射處理器中可能造成的垂直浪費(fèi)和水平浪費(fèi)情
22、況。圖中空白塊表示該指令發(fā)射槽Issue Slot浪費(fèi)了; 不同的填充色表示不同線程。 現(xiàn)代超標(biāo)量處理器包括:DEC/Compaq 21162,PowerPC,MIPS R10000,Sun UltraSparc.HP PA-8000?,F(xiàn)代VLIW處理器包括:Intel IA-64(Itanium),transmeta Crusoe。 2.1.2 多線程處理器multi-thread processor 為了減少長(zhǎng)延遲對(duì)處理器效率的影響, 例如減少cache不命中和執(zhí)行時(shí)間長(zhǎng)的指令對(duì)處理器效率的影響,在單個(gè)處理器內(nèi)部實(shí)現(xiàn)多個(gè)硬件線程。當(dāng)某個(gè)線程處理 cache不命中時(shí),其他線程可以以繼續(xù)執(zhí)行有
23、效工作,從而隱藏訪存延遲,提高綜合性能。 多線程處理器的優(yōu)點(diǎn)在于由于能夠快速切換線程上下文,因此多線程處理器能在每個(gè)時(shí)鐘周期發(fā)射一個(gè)獨(dú)立線程的指令。能夠利用線程級(jí)并行提高處理器資源的利用率。其主要缺點(diǎn)是由于每個(gè)時(shí)鐘周期只能允許一個(gè)線程活潑,所以沒(méi)能發(fā)現(xiàn)橫向的資源效率。 多線程處理器通常為每個(gè)線程維護(hù)獨(dú)立的和存放器,可以分為細(xì)粒度多線程,即每個(gè)時(shí)鐘周期都可以進(jìn)行線程切換,以及粗粒度多線程,即可以等到有長(zhǎng)延遲操作時(shí)再做線程切換。 2.1.3 同時(shí)多線程處理器simultaneous multi-thread processor 同時(shí)多線程是一種處理器體系結(jié)構(gòu),它結(jié)合了超標(biāo)量和多線程處理器的特點(diǎn),可
24、以同時(shí)減少水平和垂直浪費(fèi)。 在一個(gè)時(shí)鐘周期內(nèi)發(fā)射Isssue來(lái)自多個(gè)線程的多條指令。同時(shí)多線程技術(shù)在兩個(gè)方面提高了處理器的總體性能: 允許在一個(gè)時(shí)鐘周期內(nèi)執(zhí)行來(lái)自不同線程的多條指令。因此在一個(gè)時(shí)鐘周期內(nèi)能夠同時(shí)利用程序的和ILP消除水平浪費(fèi),提高處理器發(fā)射槽以及功能部件的利用率如圖1e) 理論上來(lái)說(shuō),允許任何活動(dòng)線程的組合來(lái)發(fā)射指令。當(dāng)由于長(zhǎng)延遲操作或者資源沖突導(dǎo)致只有一個(gè)活動(dòng)線程時(shí),該線程能夠使用所有可獲得的發(fā)射槽。這就使得,可以通過(guò)使用其他線程的未阻塞指令來(lái)消除垂直浪費(fèi)。 由于SMT處理器在每個(gè)時(shí)鐘周期可以選擇多個(gè)線程的指令執(zhí)行,因此能夠更好地利用處理器資源。取指階段有更多項(xiàng)選擇擇,比方可
25、以增加取非投機(jī)指令執(zhí)行的可能性,可以同時(shí)提高水平和垂直的資源效率。盡管多發(fā)射處理器在一個(gè)時(shí)鐘周期內(nèi)能執(zhí)行多條指令,但是當(dāng)在一個(gè)時(shí)鐘周期內(nèi)不能找到足夠的并行指令時(shí),多發(fā)射處理器效率會(huì)下降。多線程處理器可以能夠克服長(zhǎng)延遲操作和資源沖突所帶來(lái)的限制,但是不能有效地利用處理器中的所有資源。結(jié)合了超標(biāo)量和多線程的好處,而不需要很大的代價(jià)例如芯片面積。為了允許在一個(gè)時(shí)鐘內(nèi)發(fā)射多個(gè)線程的多條指令業(yè)為每個(gè)線程維護(hù)一套獨(dú)立的體系結(jié)構(gòu)狀態(tài)包括通用存放器,控制存放器和其他的狀態(tài)存放器等。 其主要缺點(diǎn)是,由于采用集中式指令發(fā)射指令發(fā)射階段變得復(fù)雜,采用什么策略發(fā)射指令的問(wèn)題;另外,未來(lái)微處理器設(shè)計(jì)主要采用功能分布的方
26、法來(lái)克服片上線延遲,而集中式發(fā)射束縛了功能分布,這是不如片上多處理器的地方。 .單片多處理器 chip multi-processor 隨著單個(gè)芯片上晶體管數(shù)目的增加,構(gòu)造片上多處理器系統(tǒng)成為可能。片上多處理器是指中在單個(gè)芯片上的多個(gè)處理器核所構(gòu)成的多處理器系統(tǒng)。片上多處理器系統(tǒng)允許線程在多個(gè)處理器核上并行執(zhí)行,它利用線程級(jí)并行性來(lái)提高系統(tǒng)性能。然而由于片上多處理器系統(tǒng)的資源是采用劃分方式的,當(dāng)沒(méi)有足夠線程時(shí),資源就浪費(fèi)了。圖1d即為的發(fā)射槽利用圖。片上多處理器的主要好處是片上的處理器核可以很簡(jiǎn)單,使得設(shè)計(jì)和驗(yàn)證時(shí)間短 ,也易于獲得較高主頻。 典型的CMP系統(tǒng)包括: Standford Hyd
27、ra,IBM Power4,Sun MAJC,Broadcom sb1250,Cradle's Universal Microsystem。 在程序運(yùn)行時(shí),允許線程在多個(gè)處理器上執(zhí)行,利用線程級(jí)并行性來(lái)提高系統(tǒng)性能。其主要缺點(diǎn)是,由于資源是各個(gè)處理器獨(dú)有的,所以當(dāng)沒(méi)有足夠的線程時(shí)會(huì)造成資源浪費(fèi)。必須注意的是,嚴(yán)格的講,此處關(guān)心的線程數(shù)最小僅僅指單純的線程數(shù),而應(yīng)該指線程數(shù)并行性,因?yàn)槿绻€程的并行性不高比方一個(gè)線程長(zhǎng)時(shí)間依賴于另一個(gè)線程再多的線程在某一個(gè)時(shí)刻表現(xiàn)出來(lái)的實(shí)際效果是很差的。 2.1.5多核多線程處理器 這是單片多處理器和多線程的結(jié)合體,也是未來(lái)的處理科體系結(jié)構(gòu)的一個(gè)可能的開
28、展趨勢(shì)。現(xiàn)在也有叫clustered SMTprocessor也屬于這種類型。其結(jié)構(gòu)特點(diǎn)是一個(gè)片上有多個(gè)處理器,同時(shí)每個(gè)處理器內(nèi)部支持多個(gè)線程,所以說(shuō)是單片多處理器和多線程的結(jié)合體。 單獨(dú)采用片上多處理器的優(yōu)點(diǎn)是,能夠把許多時(shí)間關(guān)鍵的資源分布到不同的處理器上,故能夠使邏輯稍微簡(jiǎn)單,也能夠提高時(shí)鐘頻率;其缺點(diǎn)是不同處理器之間通信延遲很大。單獨(dú)采用能夠增加指令發(fā)射寬度,消除掉許多延遲;其缺點(diǎn)是必然增加單個(gè)處理器上的時(shí)間關(guān)鍵的資源的競(jìng)爭(zhēng),如存放器堆和重命名機(jī)制,同時(shí)這種競(jìng)爭(zhēng)必然會(huì)要求利用出復(fù)雜的邏輯。 但是可以看到上述兩種結(jié)構(gòu)具有明顯的互補(bǔ)性,所以說(shuō),多處理器多線程是一個(gè)開展方向。但必須指出的是,這
29、種體系結(jié)構(gòu)最大的瓶頸就是隨著處理速度提高,對(duì)共享資源的競(jìng)爭(zhēng)將更加劇烈。各段均取周期法: 流水線各段執(zhí)行時(shí)間最長(zhǎng)的那段為整個(gè)流水線的瓶頸,一般地,將其執(zhí)行時(shí)間稱為流水線的周期。 假設(shè)在計(jì)算n個(gè)任務(wù)地執(zhí)行時(shí)間時(shí),將各個(gè)子功能段的實(shí)際執(zhí)行時(shí)間限制為周期時(shí)間,那么稱為各段均取周期法。 該方法中
30、,計(jì)算公式為: T總=(n+k-1)×周期 其中,k為總段數(shù),n為任務(wù)總數(shù)。各疊加段取最大值法: 該方法中,計(jì)算公式為: T總=t
31、1+maxt1,t2+maxt1,t2,t3+maxt1,t2,tk-1 +maxt1,t2,tk×n-(k-1)+maxt2,t3,tk +maxt3,t4,tk+maxtk-1,tk+t
32、k 其中,k為總段數(shù),n為任務(wù)總數(shù)。最省時(shí)法: 該方法中,計(jì)算公式為: T總=t1+t2+tk+maxt1,t2,t3,.,tk×(n-1) 其中,k為總段數(shù),n為任務(wù)總數(shù)。采取哪種方法?
33、0; 當(dāng)各段執(zhí)行時(shí)間不一樣時(shí),上述3種方法才存在區(qū)別。假設(shè)各段執(zhí)行時(shí)間一樣,三者無(wú)區(qū)別。第2,3種方式依各段時(shí)間取值不一樣而可能存在區(qū)別。問(wèn)題一、現(xiàn)采用四級(jí)流水線結(jié)構(gòu)分別完成一條指令的取指、指令譯碼和取數(shù)、運(yùn)算以及送回運(yùn)算結(jié)果四個(gè)根本操作,每步操作時(shí)間依次為60ns,100ns,50ns和70ns。該流水線的操作周期應(yīng)為_A_ns。假設(shè)有一小段程序需要用20條根本指令完成這些指令完全適合于流水線上執(zhí)行,那么得到第一條指令結(jié)果需_B_ns,完成該段程序需_C_ns。 供選擇的答案: A: 50 70 100 280 B: 100 200 280 400 C:
34、1400 2000 2300 2600 答案:A.3 B.4 C.3 問(wèn)題二、假設(shè)流水線把一條指令分為取指、分析和執(zhí)行三個(gè)局部,且三局部的時(shí)間分別是t取指=2ns,t分析=2ns,t執(zhí)行=1ns,那么100條指令全部執(zhí)行完畢需_ns。 A、163 B、183 C、192 D、203 答案D 以上兩題計(jì)算方法存在著沖突: 問(wèn)題一、第一條指令結(jié)果所需時(shí)間=100*4=400 那么相應(yīng)的完成該段程序所需時(shí)間=100*4+100*19=2300 問(wèn)題二、第一條指令結(jié)果所需時(shí)間=2+2+1=5 那么相應(yīng)的完成該段程序所需時(shí)間=2+2+1+99*2=203 水線指令、重疊控制、先行控制、同步時(shí)間、操作周期 &
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 買賣合同范例布匹
- 企業(yè)機(jī)買賣合同范本
- 南寧買車位出租合同范本
- 介紹傭金合同范本簡(jiǎn)短
- 電子支付對(duì)電商物流配送的影響分析
- 知產(chǎn)侵權(quán)行為的識(shí)別與預(yù)防措施
- 科技賦能下的幼兒園體育安全教育解決方案
- 現(xiàn)代辦公室環(huán)境中員工流失的預(yù)防策略
- 科技引領(lǐng)的藥店客戶互動(dòng)與社交媒體策略
- 現(xiàn)代企業(yè)生產(chǎn)計(jì)劃的制定與實(shí)施策略匯報(bào)
- 【重慶長(zhǎng)安汽車公司績(jī)效管理現(xiàn)狀、問(wèn)題及優(yōu)化對(duì)策(7600字論文)】
- 家鄉(xiāng)-延安課件
- 孔軸的極限偏差表
- 熱軋鋼板和鋼帶尺寸允許偏差
- 無(wú)人機(jī)導(dǎo)航與通信技術(shù)PPT完整全套教學(xué)課件
- BBC-商務(wù)英語(yǔ)會(huì)話
- 中等職業(yè)學(xué)校畢業(yè)生就業(yè)推薦表
- 鋼結(jié)構(gòu)設(shè)計(jì)原理全套PPT完整教學(xué)課件
- 2023年浙江首考讀后續(xù)寫真題講評(píng)課件 高三英語(yǔ)二輪復(fù)習(xí)寫作專項(xiàng)+
- 各期前列腺癌治療的指南推薦
- 《植物學(xué)教學(xué)資料》第2章細(xì)胞與組織2馬煒梁版
評(píng)論
0/150
提交評(píng)論