從體系結(jié)構(gòu)的演變看高性能微處理器的發(fā)展趨勢(shì)

上傳人：l*** IP屬地：江蘇上傳時(shí)間：2022-01-03 格式：DOCX 頁(yè)數(shù)：9 大小：115.16KB 積分：7.2 舉報(bào) 版權(quán)申訴

從體系結(jié)構(gòu)的演變看高性能微處理器的發(fā)展趨勢(shì)_第2頁(yè)

從體系結(jié)構(gòu)的演變看高性能微處理器的發(fā)展趨勢(shì)_第3頁(yè)

從體系結(jié)構(gòu)的演變看高性能微處理器的發(fā)展趨勢(shì)_第4頁(yè)

從體系結(jié)構(gòu)的演變看高性能微處理器的發(fā)展趨勢(shì)_第5頁(yè)

已閱讀5頁(yè)，還剩4頁(yè)未讀，繼續(xù)免費(fèi)閱讀

版權(quán)說(shuō)明：本文檔由用戶提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、微處理器體系結(jié)構(gòu)隨著高性能計(jì)算的需求，計(jì)算機(jī)體系結(jié)構(gòu)發(fā)生了很大變化。作為計(jì)算機(jī)核心部件的微處理器，其性能和復(fù)雜性晶體管數(shù)、時(shí)鐘頻率和峰值也按照摩爾定律增長(zhǎng)。微處理器性能的改善在很大程度上歸功于體系結(jié)構(gòu)的開展和VLSI工藝的改良。體系結(jié)構(gòu)的開展主要表達(dá)在三個(gè)方面，即超流水、多指令發(fā)射和多指令操作。超流水技術(shù)主要開發(fā)時(shí)間并行性。流水線技術(shù)是RISC處理器區(qū)別于CISC處理器的重要特征。采用超流水技術(shù)，盡管可以減少關(guān)鍵路徑中每級(jí)流水的時(shí)間，但同時(shí)也引入了更多的存放器，進(jìn)而增加了面積開銷以及時(shí)鐘歪斜問(wèn)題。另一方面，深度流水在指令相關(guān)和指令跳轉(zhuǎn)時(shí)會(huì)大大降低流水線的性能。多指令發(fā)射和多指令操作均是開發(fā)空間

2、并行性。多指令發(fā)射面臨的首要問(wèn)題是如何保持應(yīng)用程序語(yǔ)義的正確性，MIMD、超標(biāo)量和數(shù)據(jù)流技術(shù)是多指令發(fā)射的典型結(jié)構(gòu)。MIMD是并行計(jì)算的重要研究領(lǐng)域。超標(biāo)量采用時(shí)序指令流發(fā)射技術(shù)，兼容性好，硬件開銷大，功耗開銷大，是目前多數(shù)商用高端處理器采用的主流技術(shù)。數(shù)據(jù)流采用token環(huán)技術(shù)，理論上可以開發(fā)出高度指令并行性。然而，其商用開發(fā)不成功，原因是運(yùn)行時(shí)間開銷大，尤其是token環(huán)匹配需要很高的時(shí)間代價(jià)。多指令操作是當(dāng)前體系結(jié)構(gòu)的重要研究方向。多指令操作包括數(shù)據(jù)并行性開發(fā)和操作并行性開發(fā)。盡管在CISC處理器中均采用過(guò)這兩種技術(shù)，但CISC給體系結(jié)構(gòu)開發(fā)帶來(lái)三個(gè)負(fù)面影響：一是CISC指令不適合流水處

3、理，二是指令差異很大造成譯碼困難，三是編譯器很難開發(fā)出有效的指令操作。與CISC處理器相反，多指令操作非常適合RISC處理器，其中SIMD和VLIW就是數(shù)據(jù)并行性和操作并行性的典型結(jié)構(gòu)。向量處理器和SIMD處理器都是利用多個(gè)操作數(shù)來(lái)實(shí)現(xiàn)數(shù)據(jù)并行性。但二者有很大不同。向量處理器對(duì)線性向量元素順序操作，SIMD那么對(duì)向量元素進(jìn)行并發(fā)操作。對(duì)前者，每條指令只能作用于一個(gè)功能部件，執(zhí)行時(shí)間較長(zhǎng)；而后者在執(zhí)行指令時(shí)可以作用于多個(gè)功能部件。向量處理器采用交叉存儲(chǔ)器實(shí)現(xiàn)向量的訪存操作，同時(shí)可對(duì)短向量進(jìn)行有效操作，即對(duì)稀疏向量進(jìn)行壓縮以獲得高性能。SIMD適合多媒體中的分組數(shù)據(jù)流，通過(guò)特定算法將長(zhǎng)的數(shù)據(jù)流截成

4、定長(zhǎng)短向量序列，從而可以和向量處理器那樣實(shí)現(xiàn)對(duì)定長(zhǎng)短向量序列的高效處理。VLIW是實(shí)現(xiàn)操作并行性開發(fā)的重要途徑。CISC處理器采用垂直編碼技術(shù)，而VLIW那么采用水平編碼技術(shù)，指令中的每個(gè)操作域可以并發(fā)執(zhí)行。同CISC處理器相比，VLIW具有的優(yōu)點(diǎn)是：指令操作域定長(zhǎng)，譯碼簡(jiǎn)單；適合流水處理，減少CPI；編譯器需要開發(fā)程序潛在的指令級(jí)操作并行性。傳統(tǒng)VLIW的缺乏是指令帶寬較高，二進(jìn)制目標(biāo)代碼不兼容。VLIW和SIMD結(jié)構(gòu)都能接受單一指令流，每條指令可以包含多個(gè)操作。但前者允許每條指令包含多個(gè)不同類型的操作，同時(shí)可以開發(fā)細(xì)粒度并行性。VLIW指令字較長(zhǎng)，而SIMD具有很強(qiáng)的數(shù)據(jù)壓縮能力。事實(shí)上，

5、VLIW和SIMD技術(shù)相結(jié)合可以獲得更高的性能加速比，且非常適合多媒體數(shù)據(jù)處理。從微處理器體系結(jié)構(gòu)和編譯器界面劃分的角度上講，指令級(jí)體系結(jié)構(gòu)可以分為順序結(jié)構(gòu)、相關(guān)結(jié)構(gòu)和獨(dú)立結(jié)構(gòu)三類。在順序結(jié)構(gòu)中，程序不包含任何指令并行信息，完全通過(guò)硬件進(jìn)行調(diào)度，即硬件負(fù)責(zé)操作間的相關(guān)分析、獨(dú)立操作分析和操作調(diào)度，編譯器只負(fù)責(zé)程序代碼的重組，程序中不附加任何信息。超標(biāo)量是該類結(jié)構(gòu)的典型代表。在相關(guān)結(jié)構(gòu)中，程序顯式指定操作的相關(guān)信息，即編譯器負(fù)責(zé)操作間的相關(guān)分析，而硬件負(fù)責(zé)獨(dú)立操作分析和調(diào)度，如數(shù)據(jù)流處理器。獨(dú)立結(jié)構(gòu)完全由程序提供各個(gè)獨(dú)立操作間的信息，即編譯器負(fù)責(zé)操作間相關(guān)性分析、獨(dú)立操作間分析和指令調(diào)度，VLI

6、W是其主要代表。超標(biāo)量處理器架構(gòu)現(xiàn)代超標(biāo)量處理器體系結(jié)構(gòu)均基于IBM360/91采用的Tomasulo和CDC6600采用的Scoreboard動(dòng)態(tài)調(diào)度技術(shù)，MIPS R10000和DEC21264微處理器均基于該體系結(jié)構(gòu)。典型超標(biāo)量處理器通常采用如下邏輯結(jié)構(gòu)實(shí)現(xiàn)動(dòng)態(tài)調(diào)度：存放器重命名邏輯、窗口喚醒邏輯、窗口選擇邏輯和數(shù)據(jù)旁路邏輯。Intel的Pentium處理器、Motorola的PowerPC 604和SPARC64那么采用基于預(yù)約站的超標(biāo)量體系結(jié)構(gòu)。兩種體系結(jié)構(gòu)的主要區(qū)別是：在典型超標(biāo)量結(jié)構(gòu)中，無(wú)論是推測(cè)還是非推測(cè)存放器值都放在物理存放器堆中；在預(yù)約站超標(biāo)量結(jié)構(gòu)中，推測(cè)數(shù)據(jù)放在重排序

7、緩沖器中，非推測(cè)數(shù)據(jù)和已經(jīng)執(zhí)行完成提交的數(shù)據(jù)那么放在存放器文件中。在典型結(jié)構(gòu)中，操作數(shù)不播送到窗口，而只將操作數(shù)標(biāo)志TAG進(jìn)行播送，操作數(shù)那么送到物理存放器文件。在預(yù)約站結(jié)構(gòu)中，指令執(zhí)行結(jié)果播送到預(yù)約站，指令發(fā)射時(shí)從預(yù)約站去取操作數(shù)。超標(biāo)量處理器性能與IPCInstructions Per Cycle和時(shí)鐘頻率的乘積成正比。時(shí)鐘速率同系統(tǒng)結(jié)構(gòu)的關(guān)鍵路徑時(shí)延有關(guān)，而IPC和如下因素有關(guān)：程序中潛在的指令級(jí)并行性、體系結(jié)構(gòu)字長(zhǎng)寬度、指令窗口大小和并行性開發(fā)策略。超標(biāo)量處理器一般通過(guò)增加發(fā)射邏輯提高IPC，這將導(dǎo)致更寬的發(fā)射窗口和更復(fù)雜的發(fā)射策略。眾所周知，超標(biāo)量處理器是通用微處理器的主流體系結(jié)構(gòu)

8、，幾乎所有商用通用微處理器都采用超標(biāo)量體系結(jié)構(gòu)。而在DSP方面，LSI 邏輯公司的 ZSP200、 ZSP400、ZSP500和ZSP600均采用超標(biāo)量體系結(jié)構(gòu)。ZSP200采用并行MAC和ALU運(yùn)算部件，2發(fā)射超標(biāo)量結(jié)構(gòu)；ZSP400采用雙 MAC單元、4 發(fā)射超標(biāo)量處理器體系結(jié)構(gòu)；ZSP500為4發(fā)射體系結(jié)構(gòu)、采用增強(qiáng)型雙MAC和雙ALU運(yùn)算單元；ZSP600采用4MAC和雙ALU運(yùn)算部件，每個(gè)時(shí)鐘周期發(fā)射6條指令。圖1為ZSP400結(jié)構(gòu)框圖。 &#

9、160; 圖1 ZSP400 內(nèi)核超標(biāo)量體系結(jié)構(gòu)框圖ADI公司的TigerSHARC系列采用靜態(tài)超標(biāo)量體系結(jié)構(gòu)。該系列采用了許多傳統(tǒng)超標(biāo)量處理器的特征，如load/store結(jié)構(gòu)、分之預(yù)測(cè)和互鎖存放器堆等技術(shù)。每個(gè)時(shí)鐘周期發(fā)射4條指令。而靜態(tài)超標(biāo)量的含義是指指令級(jí)并行性識(shí)別是在運(yùn)行之前，即編寫程序時(shí)確定的事實(shí)上以VLIW結(jié)構(gòu)為根底。同時(shí)，Tiger SHARC系統(tǒng)處理器采用SIMD技術(shù)，用戶可以對(duì)數(shù)據(jù)進(jìn)行播送和合并。所有存放器均是互鎖的，支持簡(jiǎn)單的編程模型，該模型不依賴

10、于不同型號(hào)間的時(shí)延變化。分支目標(biāo)緩沖器BTB為128位，可以有效減小循環(huán)操作和其它非順序代碼的執(zhí)行時(shí)間。圖2為TigerSHARC系列中的ADSP-TS201S結(jié)構(gòu)框圖。圖2 ADSP-TS201S靜態(tài)超標(biāo)量體系結(jié)構(gòu)框圖超長(zhǎng)指令字VLIW體系結(jié)構(gòu)自從耶魯大學(xué)的J.A Fisher于1979年首次提出VLIW體系結(jié)構(gòu)以來(lái)，先后由耶魯大學(xué)開發(fā)出基于跟蹤調(diào)度(Trace Scheduling)

11、技術(shù)的MultiFlow處理器和Cydrome公司Bob Rau等人開發(fā)的基于巨塊調(diào)度Superblock Scheduling的Cydra-5處理器。但直到九十年代中期，基于VLIW結(jié)構(gòu)的處理器根本上停留在實(shí)驗(yàn)室原型機(jī)階段。因?yàn)閂LIW本身固有的幾個(gè)關(guān)鍵問(wèn)題一直沒(méi)有徹底解決，導(dǎo)致了其后的商用處理器體系結(jié)構(gòu)從RISC轉(zhuǎn)向了超標(biāo)量和超流水，而不是VLIW。盡管如此，由于VLIW結(jié)構(gòu)的許多優(yōu)點(diǎn)仍然使許多研究機(jī)構(gòu)競(jìng)相對(duì)該技術(shù)進(jìn)行堅(jiān)持不懈地研究，并在體系結(jié)構(gòu)和編譯器方面實(shí)現(xiàn)了突破，其中最重要的是解決了目標(biāo)代碼兼容問(wèn)題并支持推斷推測(cè)機(jī)制盡管大局部處理器僅支持局部推斷推測(cè)機(jī)制。這之后出現(xiàn)了Philip的T

12、rimedia、Equator的MAP1000A媒體處理器、Chromatic的Mact、TI的TMS320C6XX、Transmeta的Crusoe以及INTEL和HP聯(lián)盟提出的IA-64體系結(jié)構(gòu)EPIC。事實(shí)上VLIW作為下一代高性能處理器體系結(jié)構(gòu)的首選技術(shù)已成共識(shí)，該體系結(jié)構(gòu)和優(yōu)化編譯器形成的SIMD指令流將更加適合多媒體數(shù)據(jù)處理。TI的TMS320C6系列是典型的超長(zhǎng)指令字VLI W體系結(jié)構(gòu)，該系列每個(gè)指令周期可以執(zhí)行8條32位指令，C62為定點(diǎn)處理器，C67為浮點(diǎn)處理器。C62和C67系列的CPU內(nèi)核是相同的，包含32個(gè)通用存放器、8個(gè)執(zhí)行部件。C64包含64個(gè)

13、通用存放器和8個(gè)執(zhí)行部件。8個(gè)執(zhí)行部件包含2個(gè)乘法器和6個(gè)ALU。支持8/16/32數(shù)據(jù)類型，所有指令均為條件執(zhí)行，減小了分支指令開銷。圖3為C62和C67系統(tǒng)框圖。圖3 基于VLIW體系結(jié)構(gòu)的TMS320C6系統(tǒng)框圖中國(guó)科學(xué)院聲學(xué)研究所在“973國(guó)家重大根底研究開展規(guī)劃資助下研制成功國(guó)內(nèi)第一款基于多發(fā)射VLIW和SIMD技術(shù)的具有可重組結(jié)構(gòu)的高性能微處理器芯片華威

14、處理器SuperV。該處理器為四發(fā)射VLIW處理器，當(dāng)執(zhí)行向量處理功能時(shí)，每個(gè)周期可執(zhí)行35個(gè)操作。在執(zhí)行32位乘累加操作時(shí)可獲得2.9 GOPS 的數(shù)據(jù)處理速度；執(zhí)行16位乘累加操作時(shí)可獲得5.1 GOPS 的數(shù)據(jù)處理速度；執(zhí)行8位乘累加操作時(shí)可獲得9.3 GOPS 的數(shù)據(jù)處理速度。該處理器是目前國(guó)內(nèi)數(shù)據(jù)處理能力最強(qiáng)的微處理器，可以廣泛應(yīng)用于信息家電、網(wǎng)絡(luò)通信、聲音圖像以及雷達(dá)聲納等信號(hào)處理領(lǐng)域。可重構(gòu)處理器架構(gòu)從二十世紀(jì)七十年代開始的第一代CISC處理器開始至今，微處理器體系結(jié)構(gòu)已經(jīng)經(jīng)過(guò)了三代。然而，即使是第三代的RISC技術(shù)仍然停留在固定模式的體系架構(gòu)設(shè)計(jì)。隨著ASIC和SOC技術(shù)的開

15、展，微處理器設(shè)計(jì)進(jìn)入到第四代，即后RISC和可重構(gòu)處理器時(shí)代。其重要特征是系統(tǒng)架構(gòu)不再采用固定模式，而是將DSP的靈活性與硬線連接的專用性相結(jié)合，使得微處理器可以針對(duì)不同的應(yīng)用需求建立自己獨(dú)特的體系結(jié)構(gòu)，到達(dá)性能最優(yōu)、功耗更低的目的。華威處理器SuperV體系結(jié)構(gòu)不僅基于RISC、VLIW和SIMD技術(shù)，而且采用了可重構(gòu)技術(shù)，使得用戶在不增加硬件開銷的情況下通過(guò)對(duì)系統(tǒng)功能部件的重構(gòu)完成對(duì)不同應(yīng)用的處理，不僅提高了系統(tǒng)性能，而且大大降低了系統(tǒng)的功耗。例如，在華威處理器中設(shè)計(jì)了假設(shè)干32位可重構(gòu)乘法器，每個(gè)可重構(gòu)乘法器可以完成32位乘法、假設(shè)干個(gè)16位乘法或者8位乘法。因此，華威處理器可以采用一條

16、指令完成16個(gè)8位數(shù)據(jù)的乘累加操作；一條指令可以完成8個(gè)16位數(shù)據(jù)的乘累加操作；一條指令可以完成4個(gè)32位數(shù)據(jù)的乘加操作；一條指令可以完成4個(gè)32位數(shù)據(jù)的累加操作；一條指令可以完成16個(gè)索引、16個(gè)地址計(jì)算和16次數(shù)據(jù)加載操作；兩條指令完成16個(gè)8位數(shù)據(jù)累加操作；兩條指令可以完成8個(gè)16位數(shù)據(jù)累加操作；兩條指令可以完成對(duì)256項(xiàng)、8位元素的數(shù)據(jù)表進(jìn)行的16路并行查找。 Tensilica的可配置技術(shù)是可重構(gòu)處理器的重要代表。例如，Vectra LX定點(diǎn)向量DSP引擎就是通過(guò)配置選項(xiàng)在Xtensa LX可配置處理器的根底上建立起來(lái)的。即Vectra LX定點(diǎn)DSP引擎是Xtensa LX微處理器

17、內(nèi)核的一種配置。該定點(diǎn)DSP引擎是一個(gè)3發(fā)射SIMD處理器，具有四個(gè)乘法器/累加器四MAC，它可以處理128位的向量。128位向量可以分成8個(gè)16位或者4個(gè)32位的元素。整個(gè)Vectra LX DSP引擎是用TIE Tensilica's Instruction Extension語(yǔ)言開發(fā)的，通過(guò)修改可以適合不同的應(yīng)用領(lǐng)域。Vectra LX DSP引擎增加了16個(gè)向量存放器每個(gè)存放器160位寬、四個(gè)128位的向量隊(duì)列存放器、第二個(gè)load/store單元和210多條現(xiàn)有Xtensa LX處理器指令集體系結(jié)構(gòu)中的通用DSP指令。Vectra LX DSP引擎如圖4所示。

18、圖4 Vectra LX DSP體系結(jié)構(gòu)框圖結(jié) 語(yǔ)作為信息產(chǎn)業(yè)的核心技術(shù)，微處理器體系結(jié)構(gòu)正在發(fā)生很大的變化，而這種變化無(wú)不表達(dá)出市場(chǎng)需求的強(qiáng)大動(dòng)力。現(xiàn)代微處理器，無(wú)論是通用微處理器還是數(shù)字信號(hào)處理器在體系結(jié)構(gòu)方面正在趨于融合。通用處理器通過(guò)增加媒體處理指令來(lái)提高數(shù)據(jù)處理器能力；而數(shù)字信號(hào)處理器也借鑒

19、了通用處理器的體系結(jié)構(gòu)，使得數(shù)字信號(hào)處理器的數(shù)據(jù)處理器能力更加強(qiáng)大、管理更加靈活。同時(shí)，隨著嵌入式應(yīng)用的需求，對(duì)功耗的要求也越來(lái)越苛刻，使得可重構(gòu)處理器在未來(lái)將會(huì)起到重要的作用。由于不同的應(yīng)用需求可以通過(guò)重構(gòu)技術(shù)獲得所需要的微處理器系統(tǒng)架構(gòu)，這將大大提高產(chǎn)品的競(jìng)爭(zhēng)力，同時(shí)也降低了整個(gè)系統(tǒng)的功耗和本錢。多處理器的體系結(jié)構(gòu) 隨著單個(gè)處理器的性能越來(lái)越逼近其物理極限,現(xiàn)在的處理器設(shè)計(jì)方向可以大致有兩類，一是采用單片上集成多個(gè)核中或者采用一個(gè)核中多個(gè)物理線程的方法來(lái)到達(dá)并行的目的，從而提高性能；另一個(gè)方向是嵌入式應(yīng)用，這有兩種思路即將通用處理器擴(kuò)展、改裝成能適合各種嵌入式應(yīng)用的份額是，或者將擴(kuò)展、改裝

20、以吸收局部通用微處理器的特點(diǎn)。事實(shí)上，在2000年，嵌入式芯片的銷售量已經(jīng)是通用微處理能的兩倍多。但是從編譯的角度來(lái)看由于其不規(guī)那么、復(fù)雜的結(jié)構(gòu)以及指令集結(jié)構(gòu)，導(dǎo)致無(wú)法很好的利用編譯器。當(dāng)然，現(xiàn)在的一個(gè)研究方向就是吸收通用微處理器的特點(diǎn)，以方便編譯器的使用。 .相關(guān)的體系結(jié)構(gòu)介紹 .多發(fā)射處理器multi-issue processor 多發(fā)射處理器multi-issue processor包括超標(biāo)量(Superscalar)和超長(zhǎng)指令字Very-Long Instruction Word，處理器,其思想是允許在一個(gè)時(shí)鐘周期內(nèi)發(fā)射多條指令以減少處理器的平均, 更好地利用處理器的功能部件。提高

21、多發(fā)射處理器資源利用率的關(guān)鍵問(wèn)題是：如何在程序中找到足夠的指令級(jí)并行性。超標(biāo)量處理器在每個(gè)時(shí)鐘周期發(fā)射由硬件動(dòng)態(tài)確定的指令，而處理器那么在每個(gè)時(shí)鐘周期發(fā)射出編譯器確定的固定數(shù)目的操作。超標(biāo)量處理器是依賴硬件來(lái)發(fā)現(xiàn)ILP，而VLIW處理器那么依賴編譯器來(lái)發(fā)現(xiàn)。不管是超標(biāo)量還是處理器都只能挖掘同一個(gè)線程的ILP來(lái)提高處理器資源利用率。當(dāng)多發(fā)射處理器不能發(fā)現(xiàn)足夠的指令來(lái)添滿發(fā)射槽時(shí)，水平浪費(fèi)Horizontal Waste就發(fā)生了。此外當(dāng)資源沖突造成多發(fā)射處理器在接下來(lái)的時(shí)鐘周期中不能發(fā)射指令，那么造成了垂直浪費(fèi)Vertical Waste。如圖1所示為多發(fā)射處理器中可能造成的垂直浪費(fèi)和水平浪費(fèi)情

22、況。圖中空白塊表示該指令發(fā)射槽Issue Slot浪費(fèi)了；不同的填充色表示不同線程。現(xiàn)代超標(biāo)量處理器包括：DEC/Compaq 21162,PowerPC,MIPS R10000,Sun UltraSparc.HP PA-8000?，F(xiàn)代VLIW處理器包括：Intel IA-64(Itanium),transmeta Crusoe。 2.1.2 多線程處理器multi-thread processor 為了減少長(zhǎng)延遲對(duì)處理器效率的影響，例如減少cache不命中和執(zhí)行時(shí)間長(zhǎng)的指令對(duì)處理器效率的影響，在單個(gè)處理器內(nèi)部實(shí)現(xiàn)多個(gè)硬件線程。當(dāng)某個(gè)線程處理 cache不命中時(shí)，其他線程可以以繼續(xù)執(zhí)行有

23、效工作，從而隱藏訪存延遲，提高綜合性能。多線程處理器的優(yōu)點(diǎn)在于由于能夠快速切換線程上下文，因此多線程處理器能在每個(gè)時(shí)鐘周期發(fā)射一個(gè)獨(dú)立線程的指令。能夠利用線程級(jí)并行提高處理器資源的利用率。其主要缺點(diǎn)是由于每個(gè)時(shí)鐘周期只能允許一個(gè)線程活潑，所以沒(méi)能發(fā)現(xiàn)橫向的資源效率。多線程處理器通常為每個(gè)線程維護(hù)獨(dú)立的和存放器，可以分為細(xì)粒度多線程，即每個(gè)時(shí)鐘周期都可以進(jìn)行線程切換，以及粗粒度多線程，即可以等到有長(zhǎng)延遲操作時(shí)再做線程切換。 2.1.3 同時(shí)多線程處理器simultaneous multi-thread processor 同時(shí)多線程是一種處理器體系結(jié)構(gòu)，它結(jié)合了超標(biāo)量和多線程處理器的特點(diǎn)，可

24、以同時(shí)減少水平和垂直浪費(fèi)。在一個(gè)時(shí)鐘周期內(nèi)發(fā)射Isssue來(lái)自多個(gè)線程的多條指令。同時(shí)多線程技術(shù)在兩個(gè)方面提高了處理器的總體性能：允許在一個(gè)時(shí)鐘周期內(nèi)執(zhí)行來(lái)自不同線程的多條指令。因此在一個(gè)時(shí)鐘周期內(nèi)能夠同時(shí)利用程序的和ILP消除水平浪費(fèi)，提高處理器發(fā)射槽以及功能部件的利用率如圖1e) 理論上來(lái)說(shuō)，允許任何活動(dòng)線程的組合來(lái)發(fā)射指令。當(dāng)由于長(zhǎng)延遲操作或者資源沖突導(dǎo)致只有一個(gè)活動(dòng)線程時(shí)，該線程能夠使用所有可獲得的發(fā)射槽。這就使得，可以通過(guò)使用其他線程的未阻塞指令來(lái)消除垂直浪費(fèi)。由于SMT處理器在每個(gè)時(shí)鐘周期可以選擇多個(gè)線程的指令執(zhí)行，因此能夠更好地利用處理器資源。取指階段有更多項(xiàng)選擇擇，比方可

25、以增加取非投機(jī)指令執(zhí)行的可能性，可以同時(shí)提高水平和垂直的資源效率。盡管多發(fā)射處理器在一個(gè)時(shí)鐘周期內(nèi)能執(zhí)行多條指令，但是當(dāng)在一個(gè)時(shí)鐘周期內(nèi)不能找到足夠的并行指令時(shí)，多發(fā)射處理器效率會(huì)下降。多線程處理器可以能夠克服長(zhǎng)延遲操作和資源沖突所帶來(lái)的限制，但是不能有效地利用處理器中的所有資源。結(jié)合了超標(biāo)量和多線程的好處，而不需要很大的代價(jià)例如芯片面積。為了允許在一個(gè)時(shí)鐘內(nèi)發(fā)射多個(gè)線程的多條指令業(yè)為每個(gè)線程維護(hù)一套獨(dú)立的體系結(jié)構(gòu)狀態(tài)包括通用存放器，控制存放器和其他的狀態(tài)存放器等。其主要缺點(diǎn)是，由于采用集中式指令發(fā)射指令發(fā)射階段變得復(fù)雜，采用什么策略發(fā)射指令的問(wèn)題；另外，未來(lái)微處理器設(shè)計(jì)主要采用功能分布的方

26、法來(lái)克服片上線延遲，而集中式發(fā)射束縛了功能分布，這是不如片上多處理器的地方。 .單片多處理器 chip multi-processor 隨著單個(gè)芯片上晶體管數(shù)目的增加，構(gòu)造片上多處理器系統(tǒng)成為可能。片上多處理器是指中在單個(gè)芯片上的多個(gè)處理器核所構(gòu)成的多處理器系統(tǒng)。片上多處理器系統(tǒng)允許線程在多個(gè)處理器核上并行執(zhí)行，它利用線程級(jí)并行性來(lái)提高系統(tǒng)性能。然而由于片上多處理器系統(tǒng)的資源是采用劃分方式的，當(dāng)沒(méi)有足夠線程時(shí)，資源就浪費(fèi)了。圖1d即為的發(fā)射槽利用圖。片上多處理器的主要好處是片上的處理器核可以很簡(jiǎn)單，使得設(shè)計(jì)和驗(yàn)證時(shí)間短，也易于獲得較高主頻。典型的CMP系統(tǒng)包括: Standford Hyd

27、ra,IBM Power4,Sun MAJC,Broadcom sb1250,Cradle's Universal Microsystem。在程序運(yùn)行時(shí)，允許線程在多個(gè)處理器上執(zhí)行，利用線程級(jí)并行性來(lái)提高系統(tǒng)性能。其主要缺點(diǎn)是，由于資源是各個(gè)處理器獨(dú)有的，所以當(dāng)沒(méi)有足夠的線程時(shí)會(huì)造成資源浪費(fèi)。必須注意的是，嚴(yán)格的講，此處關(guān)心的線程數(shù)最小僅僅指單純的線程數(shù)，而應(yīng)該指線程數(shù)并行性，因?yàn)槿绻€程的并行性不高比方一個(gè)線程長(zhǎng)時(shí)間依賴于另一個(gè)線程再多的線程在某一個(gè)時(shí)刻表現(xiàn)出來(lái)的實(shí)際效果是很差的。 2.1.5多核多線程處理器這是單片多處理器和多線程的結(jié)合體，也是未來(lái)的處理科體系結(jié)構(gòu)的一個(gè)可能的開

28、展趨勢(shì)。現(xiàn)在也有叫clustered SMTprocessor也屬于這種類型。其結(jié)構(gòu)特點(diǎn)是一個(gè)片上有多個(gè)處理器，同時(shí)每個(gè)處理器內(nèi)部支持多個(gè)線程，所以說(shuō)是單片多處理器和多線程的結(jié)合體。單獨(dú)采用片上多處理器的優(yōu)點(diǎn)是，能夠把許多時(shí)間關(guān)鍵的資源分布到不同的處理器上，故能夠使邏輯稍微簡(jiǎn)單，也能夠提高時(shí)鐘頻率；其缺點(diǎn)是不同處理器之間通信延遲很大。單獨(dú)采用能夠增加指令發(fā)射寬度，消除掉許多延遲；其缺點(diǎn)是必然增加單個(gè)處理器上的時(shí)間關(guān)鍵的資源的競(jìng)爭(zhēng)，如存放器堆和重命名機(jī)制，同時(shí)這種競(jìng)爭(zhēng)必然會(huì)要求利用出復(fù)雜的邏輯。但是可以看到上述兩種結(jié)構(gòu)具有明顯的互補(bǔ)性，所以說(shuō)，多處理器多線程是一個(gè)開展方向。但必須指出的是，這

29、種體系結(jié)構(gòu)最大的瓶頸就是隨著處理速度提高，對(duì)共享資源的競(jìng)爭(zhēng)將更加劇烈。各段均取周期法：流水線各段執(zhí)行時(shí)間最長(zhǎng)的那段為整個(gè)流水線的瓶頸，一般地，將其執(zhí)行時(shí)間稱為流水線的周期。假設(shè)在計(jì)算n個(gè)任務(wù)地執(zhí)行時(shí)間時(shí)，將各個(gè)子功能段的實(shí)際執(zhí)行時(shí)間限制為周期時(shí)間，那么稱為各段均取周期法。該方法中

30、，計(jì)算公式為: T總=(n+k-1)×周期其中，k為總段數(shù)，n為任務(wù)總數(shù)。各疊加段取最大值法：該方法中，計(jì)算公式為: T總=t

31、1+maxt1,t2+maxt1,t2,t3+maxt1,t2,tk-1 +maxt1,t2,tk×n-(k-1)+maxt2,t3,tk +maxt3,t4,tk+maxtk-1,tk+t

32、k 其中，k為總段數(shù)，n為任務(wù)總數(shù)。最省時(shí)法：該方法中，計(jì)算公式為: T總=t1+t2+tk+maxt1,t2,t3,.,tk×(n-1) 其中，k為總段數(shù)，n為任務(wù)總數(shù)。采取哪種方法？

33、0; 當(dāng)各段執(zhí)行時(shí)間不一樣時(shí)，上述3種方法才存在區(qū)別。假設(shè)各段執(zhí)行時(shí)間一樣，三者無(wú)區(qū)別。第2，3種方式依各段時(shí)間取值不一樣而可能存在區(qū)別。問(wèn)題一、現(xiàn)采用四級(jí)流水線結(jié)構(gòu)分別完成一條指令的取指、指令譯碼和取數(shù)、運(yùn)算以及送回運(yùn)算結(jié)果四個(gè)根本操作，每步操作時(shí)間依次為60ns，100ns，50ns和70ns。該流水線的操作周期應(yīng)為_A_ns。假設(shè)有一小段程序需要用20條根本指令完成這些指令完全適合于流水線上執(zhí)行，那么得到第一條指令結(jié)果需_B_ns，完成該段程序需_C_ns。供選擇的答案： A： 50 70 100 280 B： 100 200 280 400 C：

34、1400 2000 2300 2600 答案：A.3 B.4 C.3 問(wèn)題二、假設(shè)流水線把一條指令分為取指、分析和執(zhí)行三個(gè)局部，且三局部的時(shí)間分別是t取指=2ns，t分析=2ns，t執(zhí)行=1ns，那么100條指令全部執(zhí)行完畢需_ns。 A、163 B、183 C、192 D、203 答案D 以上兩題計(jì)算方法存在著沖突：問(wèn)題一、第一條指令結(jié)果所需時(shí)間=100*4=400 那么相應(yīng)的完成該段程序所需時(shí)間=100*4+100*19=2300 問(wèn)題二、第一條指令結(jié)果所需時(shí)間=2+2+1=5 那么相應(yīng)的完成該段程序所需時(shí)間=2+2+1+99*2=203 水線指令、重疊控制、先行控制、同步時(shí)間、操作周期 &

人人文庫(kù)> 全部分類> 行業(yè)資料 > 各類標(biāo)準(zhǔn)

溫馨提示

1. 本站所有資源如無(wú)特殊說(shuō)明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽，若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間，僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理，對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容，請(qǐng)與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

從體系結(jié)構(gòu)的演變看高性能微處理器的發(fā)展趨勢(shì)

文檔簡(jiǎn)介

溫馨提示

最新文檔

評(píng)論

從體系結(jié)構(gòu)的演變看高性能微處理器的發(fā)展趨勢(shì)

文檔簡(jiǎn)介

溫馨提示

最新文檔

評(píng)論

相關(guān)文檔