現(xiàn)代微機(jī)結(jié)構(gòu)位處理器_第1頁(yè)
現(xiàn)代微機(jī)結(jié)構(gòu)位處理器_第2頁(yè)
現(xiàn)代微機(jī)結(jié)構(gòu)位處理器_第3頁(yè)
現(xiàn)代微機(jī)結(jié)構(gòu)位處理器_第4頁(yè)
現(xiàn)代微機(jī)結(jié)構(gòu)位處理器_第5頁(yè)
已閱讀5頁(yè),還剩47頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶(hù)提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、 Alpha 21064 和和 MIPS R4000 第四章第四章 64位微處理器位微處理器64位處理器的先驅(qū)位處理器的先驅(qū):相繼有相繼有: HP的的PA-RISC 8000系列系列 Alpha 21 64 Sun的的UltraSPARC IBM的的Power G4 Intel的的 Itanium (HP與與Intel合作合作) AMD的的 Opteron和和 Athlon 64 一、一、Itanium 處理器處理器基于基于EPIC(EPIC_Explicitly Parallel nstruction Computing; 顯性并行指令計(jì)算顯性并行指令計(jì)算)的的Itanium體系體系結(jié)構(gòu)結(jié)構(gòu)

2、(2001年年5月月)。 Itanium體系結(jié)構(gòu)設(shè)計(jì)基于如下的原則體系結(jié)構(gòu)設(shè)計(jì)基于如下的原則: 實(shí)現(xiàn)持續(xù)高性能實(shí)現(xiàn)持續(xù)高性能; 隨著技術(shù)發(fā)展而進(jìn)一步提高性能潛力隨著技術(shù)發(fā)展而進(jìn)一步提高性能潛力; 支持顯性并行指令計(jì)算支持顯性并行指令計(jì)算(EPIC); 提供一系列有利于增強(qiáng)指令級(jí)并行的特性提供一系列有利于增強(qiáng)指令級(jí)并行的特性; 重點(diǎn)放在提高應(yīng)用軟件實(shí)際運(yùn)行的性能。重點(diǎn)放在提高應(yīng)用軟件實(shí)際運(yùn)行的性能。EPIC既不是既不是RISC也不是也不是CISC, 是一種吸收兩是一種吸收兩者優(yōu)勢(shì)的一種體系結(jié)構(gòu)。者優(yōu)勢(shì)的一種體系結(jié)構(gòu)。 (一一) Itanium1的主要特點(diǎn)的主要特點(diǎn):1、顯性并行指令計(jì)算顯性并行指

3、令計(jì)算(EPIC) 亂序執(zhí)行技術(shù)是當(dāng)前亂序執(zhí)行技術(shù)是當(dāng)前32位處理器和位處理器和64位位RISC芯片設(shè)計(jì)的主流芯片設(shè)計(jì)的主流; 但缺點(diǎn)是但缺點(diǎn)是(Intel公司認(rèn)為公司認(rèn)為):(1) 要求處理器具有較高的智能和復(fù)雜的邏輯要求處理器具有較高的智能和復(fù)雜的邏輯, 使芯片的結(jié)構(gòu)越來(lái)越復(fù)雜使芯片的結(jié)構(gòu)越來(lái)越復(fù)雜, 也妨礙了主頻和也妨礙了主頻和性能的提高性能的提高;(2) 設(shè)計(jì)難度越來(lái)越大設(shè)計(jì)難度越來(lái)越大, 使芯片的設(shè)計(jì)周期越來(lái)使芯片的設(shè)計(jì)周期越來(lái)越長(zhǎng)越長(zhǎng), 難以滿(mǎn)足應(yīng)用發(fā)展的需要;難以滿(mǎn)足應(yīng)用發(fā)展的需要;(3) 處理器運(yùn)行時(shí)處理器運(yùn)行時(shí), 未充分利用編譯技術(shù)來(lái)提高未充分利用編譯技術(shù)來(lái)提高指令并行度指令

4、并行度, 使軟硬件相結(jié)合的能力沒(méi)有得使軟硬件相結(jié)合的能力沒(méi)有得到充分發(fā)揮。到充分發(fā)揮。EPIC體系結(jié)構(gòu)的基本設(shè)計(jì)思想是體系結(jié)構(gòu)的基本設(shè)計(jì)思想是: (1) 利用編譯程序和處理器協(xié)同能力利用編譯程序和處理器協(xié)同能力, 來(lái)提高指來(lái)提高指令并行度。令并行度。(2) 簡(jiǎn)化芯片邏輯結(jié)構(gòu)簡(jiǎn)化芯片邏輯結(jié)構(gòu), 進(jìn)一步提高主頻和性能。進(jìn)一步提高主頻和性能。EPIC體系結(jié)構(gòu)采用充分利用編譯程序提供體系結(jié)構(gòu)采用充分利用編譯程序提供的信息和調(diào)度能力來(lái)提高指令并行度的信息和調(diào)度能力來(lái)提高指令并行度(如如: 編譯時(shí)所產(chǎn)生程序運(yùn)行線(xiàn)路的猜測(cè)信息、編譯時(shí)所產(chǎn)生程序運(yùn)行線(xiàn)路的猜測(cè)信息、編譯程序?qū)Τ绦驁?zhí)行過(guò)程的調(diào)度能力編譯程序?qū)Τ?/p>

5、序執(zhí)行過(guò)程的調(diào)度能力)。同時(shí)保證在程序運(yùn)行過(guò)程中發(fā)現(xiàn)猜測(cè)和調(diào)度同時(shí)保證在程序運(yùn)行過(guò)程中發(fā)現(xiàn)猜測(cè)和調(diào)度有錯(cuò)時(shí)有錯(cuò)時(shí), 處理器仍然給出正確的結(jié)果。處理器仍然給出正確的結(jié)果。(3) 提供大量的資源來(lái)實(shí)現(xiàn)提供大量的資源來(lái)實(shí)現(xiàn)EPIC, 包括包括: 存儲(chǔ)編譯程序提供的信息存儲(chǔ)編譯程序提供的信息 為為提高并行計(jì)算效率所需的處理單元提高并行計(jì)算效率所需的處理單元 大容量大容量高速緩存高速緩存(三級(jí)三級(jí)Cache: L0 L1 L3) 128個(gè)個(gè)64位整數(shù)寄存器位整數(shù)寄存器 128個(gè)個(gè)82位浮點(diǎn)寄存器位浮點(diǎn)寄存器 64個(gè)個(gè)1位預(yù)測(cè)寄存器位預(yù)測(cè)寄存器 8個(gè)轉(zhuǎn)移寄存器個(gè)轉(zhuǎn)移寄存器 128個(gè)專(zhuān)門(mén)的應(yīng)用寄存器。個(gè)專(zhuān)門(mén)

6、的應(yīng)用寄存器。每條指令可引用每條指令可引用2個(gè)輸入寄存器和個(gè)輸入寄存器和1個(gè)輸出寄存器。個(gè)輸出寄存器。2、指令集的體系結(jié)構(gòu)指令集的體系結(jié)構(gòu) 引入引入64位尋址和新的指令集位尋址和新的指令集, 也包含一個(gè)也包含一個(gè)IA-32模式的指令集模式的指令集, 所有所有IA-64處理器都能執(zhí)行處理器都能執(zhí)行IA-32程序程序; 指令長(zhǎng)度指令長(zhǎng)度41位位; 采用存取式體系結(jié)構(gòu)采用存取式體系結(jié)構(gòu); 由編譯程序由編譯程序, 把可并行執(zhí)行程序段提交給硬件把可并行執(zhí)行程序段提交給硬件, 以提高處理器并行執(zhí)行指令的能力以提高處理器并行執(zhí)行指令的能力;即即“指令斷定指令斷定”的技術(shù)的技術(shù)(指令預(yù)測(cè)的改進(jìn)指令預(yù)測(cè)的改進(jìn))

7、:重排指令順序重排指令順序, 使多個(gè)分支能同時(shí)執(zhí)行。使多個(gè)分支能同時(shí)執(zhí)行。 編譯程序還具有消除某些轉(zhuǎn)移指令的能力編譯程序還具有消除某些轉(zhuǎn)移指令的能力, 以提高指令效率。以提高指令效率。 比如比如: IA-64設(shè)置一條比較指令來(lái)產(chǎn)生預(yù)測(cè)結(jié)果。該設(shè)置一條比較指令來(lái)產(chǎn)生預(yù)測(cè)結(jié)果。該指令可以抽象為以下形式指令可以抽象為以下形式: pT, pF CMP(crel r2, r3) 該指令用比較規(guī)則該指令用比較規(guī)則crel比較比較r2和和r3。比較結(jié)果寫(xiě)入預(yù)比較結(jié)果寫(xiě)入預(yù)測(cè)寄存器測(cè)寄存器pT, 相反狀態(tài)寫(xiě)入預(yù)測(cè)寄存器相反狀態(tài)寫(xiě)入預(yù)測(cè)寄存器pF。 對(duì)于指令對(duì)于指令: if (ab) then c=c+1 el

8、se d=d e+f 用以下三條指令完成用以下三條指令完成: pT, pF = CMP(ab) if (pT) c=c+1 if (pF) d=d e+f 從而消除了轉(zhuǎn)移。此外從而消除了轉(zhuǎn)移。此外, 編譯程序可以讓第二條和編譯程序可以讓第二條和第三條指令并行執(zhí)行第三條指令并行執(zhí)行, 然后視然后視pT和和pF的狀態(tài)的狀態(tài), 采用正確采用正確結(jié)果。結(jié)果。 每條指令需要有一個(gè)每條指令需要有一個(gè)6位的預(yù)測(cè)標(biāo)識(shí)符位的預(yù)測(cè)標(biāo)識(shí)符, 從一從一個(gè)個(gè)64項(xiàng)的預(yù)測(cè)寄存器中選擇一個(gè)預(yù)測(cè)結(jié)果項(xiàng)的預(yù)測(cè)寄存器中選擇一個(gè)預(yù)測(cè)結(jié)果, 支支持實(shí)現(xiàn)指令斷定執(zhí)行、高效函數(shù)調(diào)用和軟件持實(shí)現(xiàn)指令斷定執(zhí)行、高效函數(shù)調(diào)用和軟件流水線(xiàn)等一系

9、列先進(jìn)功能。流水線(xiàn)等一系列先進(jìn)功能。 3. 高并行性高并行性 Itanium1允許以包允許以包(bundels)的形式的形式(每個(gè)包有每個(gè)包有3條指令條指令)發(fā)射不相關(guān)的、可并行執(zhí)行的指令發(fā)射不相關(guān)的、可并行執(zhí)行的指令, 每每個(gè)時(shí)鐘周期可發(fā)射個(gè)時(shí)鐘周期可發(fā)射2個(gè)包個(gè)包, 即每時(shí)鐘周期發(fā)射即每時(shí)鐘周期發(fā)射6條條指令。指令。 但由于資源的限制但由于資源的限制, 發(fā)送發(fā)送6條指令的概率為條指令的概率為25%, 每周期平均發(fā)送每周期平均發(fā)送3.85條指令。條指令。 (二二) Itanium2 的主要特點(diǎn)的主要特點(diǎn)其性能在不經(jīng)過(guò)任何調(diào)試和優(yōu)化的條件下比其性能在不經(jīng)過(guò)任何調(diào)試和優(yōu)化的條件下比Itanium

10、1提高提高50%到到100%。 速度更快的高速緩存系統(tǒng)、每秒執(zhí)行更多指令速度更快的高速緩存系統(tǒng)、每秒執(zhí)行更多指令的能力以及與系統(tǒng)其它組件間更高的通信帶寬。的能力以及與系統(tǒng)其它組件間更高的通信帶寬。 1、新的高速緩存結(jié)構(gòu)、新的高速緩存結(jié)構(gòu) 更高效檢索機(jī)制更高效檢索機(jī)制, 約為約為Itanium1 Cache的的2倍倍 片內(nèi)集成片內(nèi)集成3MB L3高速緩存高速緩存2、每時(shí)鐘周期執(zhí)行更多指令、每時(shí)鐘周期執(zhí)行更多指令 Itanium2每個(gè)時(shí)鐘周期最多也能發(fā)送每個(gè)時(shí)鐘周期最多也能發(fā)送6條指令條指令,但發(fā)送但發(fā)送6條指令的概率為條指令的概率為90%, 平均可以發(fā)送平均可以發(fā)送5.7條指令。條指令。 3、更

11、高的并行能力更高的并行能力 增加了增加了2個(gè)指令整數(shù)單元個(gè)指令整數(shù)單元, 進(jìn)一步提高了指令并進(jìn)一步提高了指令并行能力。行能力。 4、提高了帶寬和吞吐量、提高了帶寬和吞吐量 前端總線(xiàn)頻率由前端總線(xiàn)頻率由266MHz提高到提高到400MHz、帶帶寬由寬由64位提高到位提高到128位位, 整體帶寬提高了整體帶寬提高了3倍。倍。 Itaniuml 和和Itanium2的基本參數(shù)對(duì)照的基本參數(shù)對(duì)照: 處理器處理器Itanium-1Itanium-2主頻主頻 800 MHz1 GHz線(xiàn)寬線(xiàn)寬 0.18微米微米0.18微米微米晶體管數(shù)晶體管數(shù) 25M214 M前端總線(xiàn)前端總線(xiàn) 266 MHz400 MHz系

12、統(tǒng)總線(xiàn)接口系統(tǒng)總線(xiàn)接口 64位位128位位最大帶寬最大帶寬 2.1 GB/s6.4 GB/s一級(jí)緩存一級(jí)緩存 32 KB(芯片內(nèi)芯片內(nèi))32 KB(芯片內(nèi)芯片內(nèi))二級(jí)緩存二級(jí)緩存 96 KB(芯片內(nèi)芯片內(nèi))256 KB(芯片內(nèi)芯片內(nèi))三級(jí)緩存三級(jí)緩存 4 MB(外置外置)3 MB(芯片內(nèi)芯片內(nèi))流水線(xiàn)級(jí)數(shù)流水線(xiàn)級(jí)數(shù) 108寄存器寄存器328個(gè)個(gè)328個(gè)個(gè)執(zhí)行單元執(zhí)行單元 4個(gè)整數(shù)單元個(gè)整數(shù)單元2FP/2 SIMD6個(gè)整數(shù)單元個(gè)整數(shù)單元/2FP/2 SIMD二、二、PowerPC 970處理器處理器 PowerPC970是是Apple第第5代產(chǎn)品代產(chǎn)品(Apple Power Mac G5),

13、屬于屬于RISC體系的體系的64位處理器位處理器, 是第一種是第一種進(jìn)入個(gè)人電腦領(lǐng)域的進(jìn)入個(gè)人電腦領(lǐng)域的64位處理器。位處理器。 0.13微米的生產(chǎn)工藝微米的生產(chǎn)工藝(Prescott為為0.09微米微米), 結(jié)合了結(jié)合了SOI與與9層層銅銅導(dǎo)線(xiàn)互連導(dǎo)線(xiàn)互連 (Prescott 采用采用7層銅互連層銅互連) )。 1. 執(zhí)行單元執(zhí)行單元 2個(gè)整數(shù)運(yùn)算單元和個(gè)整數(shù)運(yùn)算單元和2個(gè)雙精度浮點(diǎn)運(yùn)算單元個(gè)雙精度浮點(diǎn)運(yùn)算單元 超標(biāo)量體系結(jié)構(gòu)超標(biāo)量體系結(jié)構(gòu) 8級(jí)流水線(xiàn)結(jié)構(gòu)級(jí)流水線(xiàn)結(jié)構(gòu) 硬件調(diào)度的指令亂序執(zhí)行硬件調(diào)度的指令亂序執(zhí)行2. 緩存系統(tǒng)緩存系統(tǒng) 采用采用64KB一級(jí)數(shù)據(jù)緩存一級(jí)數(shù)據(jù)緩存, 64KB一級(jí)

14、指令緩存一級(jí)指令緩存, 512KB二級(jí)緩存二級(jí)緩存, 系統(tǒng)工作時(shí)系統(tǒng)工作時(shí), L1數(shù)據(jù)緩存可以數(shù)據(jù)緩存可以同時(shí)預(yù)先讀取同時(shí)預(yù)先讀取8個(gè)數(shù)據(jù)。個(gè)數(shù)據(jù)。3. 1GHz前端總線(xiàn)頻率前端總線(xiàn)頻率比較比較: Pentium4前端總線(xiàn)頻率經(jīng)歷了從前端總線(xiàn)頻率經(jīng)歷了從400MHz 533MHz 800MHz的過(guò)程。的過(guò)程。 4. 高分支預(yù)測(cè)精度高分支預(yù)測(cè)精度 精度達(dá)精度達(dá)95的的分支預(yù)測(cè)邏輯分支預(yù)測(cè)邏輯數(shù)據(jù)帶寬達(dá)數(shù)據(jù)帶寬達(dá)8GB/s。PowerPC的設(shè)計(jì)理念與的設(shè)計(jì)理念與IA-64有三點(diǎn)主要差異有三點(diǎn)主要差異: PowerPC的設(shè)計(jì)更注重的設(shè)計(jì)更注重線(xiàn)程級(jí)并行而不是指令線(xiàn)程級(jí)并行而不是指令級(jí)并行級(jí)并行, 因

15、此不追求很高的流水線(xiàn)級(jí)數(shù)因此不追求很高的流水線(xiàn)級(jí)數(shù); 通過(guò)硬件實(shí)現(xiàn)指令亂序比靜態(tài)通過(guò)硬件實(shí)現(xiàn)指令亂序比靜態(tài)EPIC更有效更有效; 系統(tǒng)的瓶頸在于處理器與存儲(chǔ)器的接口系統(tǒng)的瓶頸在于處理器與存儲(chǔ)器的接口, 而不是而不是處理器指令執(zhí)行的速度。處理器指令執(zhí)行的速度。三、三、AMD 64位位處理器處理器 (一一) AMD 64位位Opteron處理器處理器( (皓龍皓龍) )1. 主要技術(shù)特點(diǎn)主要技術(shù)特點(diǎn) (1) 既可以運(yùn)行既可以運(yùn)行32位程序位程序, 也可以運(yùn)行也可以運(yùn)行64位程序位程序, 并且在并且在64位模式下位模式下, 兼容兼容X86指令集指令集, 與與SSE2技術(shù)全兼容。技術(shù)全兼容。 (2)

16、直接連接結(jié)構(gòu)直接連接結(jié)構(gòu)(Direct Connect Architecture)減少系統(tǒng)瓶頸。包括減少系統(tǒng)瓶頸。包括: 存儲(chǔ)器與存儲(chǔ)器與CPU直接連接直接連接, 以?xún)?yōu)化存儲(chǔ)器性能以?xún)?yōu)化存儲(chǔ)器性能; I/O與與CPU直接連接直接連接, 有利于有利于I/O吞吐量吞吐量; CPU直接與直接與CPU連接連接, 有利于有利于SMP的設(shè)計(jì)。的設(shè)計(jì)。Opteron處理器結(jié)構(gòu)框圖處理器結(jié)構(gòu)框圖:集成集成DDR存儲(chǔ)器控制器存儲(chǔ)器控制器 AMD64核核L1指令指令 CacheL1數(shù)據(jù)數(shù)據(jù) Cache HyperTransport L2 Cache直接連接結(jié)構(gòu)直接連接結(jié)構(gòu)(3) HyperTransport 技術(shù)

17、技術(shù) HyperTransport技術(shù)是技術(shù)是指指: 高速、高性能的主高速、高性能的主板上點(diǎn)對(duì)點(diǎn)互連集成電路。板上點(diǎn)對(duì)點(diǎn)互連集成電路。這一技術(shù)這一技術(shù)在同等在同等條條件下件下比比PCI總線(xiàn)的速度有顯著提高。總線(xiàn)的速度有顯著提高。 HyperTransport為在處理器、為在處理器、I/O、子系統(tǒng)與它子系統(tǒng)與它芯 片 之 間 的 互 聯(lián) 提 供 了 可 伸 縮 的 帶 寬 。芯 片 之 間 的 互 聯(lián) 提 供 了 可 伸 縮 的 帶 寬 。 Opteron可支持達(dá)可支持達(dá)3條的條的HyperTransport關(guān)聯(lián)鏈關(guān)聯(lián)鏈路路, 為處理器提供了為處理器提供了19.2 GB/s的帶寬。的帶寬。(4)

18、 采用采用90nm SOI 工藝技術(shù)工藝技術(shù), 為為L(zhǎng)1和和 L2 數(shù)據(jù)數(shù)據(jù)Cache提供提供ECC校驗(yàn)校驗(yàn) (Error Correcting Code).(5) 三個(gè)整數(shù)執(zhí)行單元三個(gè)整數(shù)執(zhí)行單元(12級(jí)流水線(xiàn)級(jí)流水線(xiàn))和三個(gè)浮點(diǎn)執(zhí)和三個(gè)浮點(diǎn)執(zhí)行單元行單元(18級(jí)流水線(xiàn)級(jí)流水線(xiàn))。2. AMDx86的的64位擴(kuò)展位擴(kuò)展 (1) 指令擴(kuò)展指令擴(kuò)展 通常所說(shuō)的通常所說(shuō)的64位指令位指令, 并不是指指令的全長(zhǎng)或并不是指指令的全長(zhǎng)或操作碼的長(zhǎng)度為操作碼的長(zhǎng)度為64位位, 而是指操作數(shù)所能達(dá)到的而是指操作數(shù)所能達(dá)到的最大位數(shù)為最大位數(shù)為64位。位。 AMD64在進(jìn)行在進(jìn)行64位擴(kuò)展時(shí)位擴(kuò)展時(shí), 將將8

19、個(gè)通用寄存器個(gè)通用寄存器增加到了增加到了64位位, 同時(shí)將指令指針和地址長(zhǎng)度增加同時(shí)將指令指針和地址長(zhǎng)度增加到到64位。位。 為為x86-64架構(gòu)添加了一個(gè)稱(chēng)為架構(gòu)添加了一個(gè)稱(chēng)為“長(zhǎng)模式長(zhǎng)模式”的的新模式新模式, 以便擴(kuò)展標(biāo)準(zhǔn)的以便擴(kuò)展標(biāo)準(zhǔn)的x86架構(gòu)。架構(gòu)。 長(zhǎng)模式由一個(gè)稱(chēng)為長(zhǎng)模式由一個(gè)稱(chēng)為L(zhǎng)MA(長(zhǎng)模式有效長(zhǎng)模式有效Long Mode Active)的控制位來(lái)啟動(dòng)。的控制位來(lái)啟動(dòng)。當(dāng)當(dāng)LMA關(guān)閉時(shí)關(guān)閉時(shí)(LMA=0): 處理器按照標(biāo)準(zhǔn)處理器按照標(biāo)準(zhǔn)x86處理器工作處理器工作, 即傳統(tǒng)模式。即傳統(tǒng)模式。這時(shí)處理器與所有的這時(shí)處理器與所有的16、32位操作系統(tǒng)以及位操作系統(tǒng)以及應(yīng)用程序兼容應(yīng)用

20、程序兼容, 不能執(zhí)行不能執(zhí)行64位功能。位功能。如果長(zhǎng)模式啟動(dòng)如果長(zhǎng)模式啟動(dòng)(LMA=1): 64位處理器的擴(kuò)展便可進(jìn)行操作位處理器的擴(kuò)展便可進(jìn)行操作, 使系統(tǒng)按照使系統(tǒng)按照處理器的能力自動(dòng)重新配置。處理器的能力自動(dòng)重新配置。 長(zhǎng)模式包含兩種子模式長(zhǎng)模式包含兩種子模式: 64位模式和兼容模式。位模式和兼容模式。 用戶(hù)可以利用代碼段描述子中的兩個(gè)標(biāo)志來(lái)設(shè)定用戶(hù)可以利用代碼段描述子中的兩個(gè)標(biāo)志來(lái)設(shè)定這兩種模式的代碼。這兩種模式的代碼。 如果啟動(dòng)長(zhǎng)模式如果啟動(dòng)長(zhǎng)模式: 設(shè)定設(shè)定L=1且且D=0, 則按照則按照64位模式進(jìn)行操作。位模式進(jìn)行操作。 設(shè)定設(shè)定L=0, 處理器便按照兼容模式進(jìn)行操作。處理器

21、便按照兼容模式進(jìn)行操作。操作系統(tǒng)可與現(xiàn)有的操作系統(tǒng)可與現(xiàn)有的16位及位及32位位x86應(yīng)用程序二應(yīng)用程序二進(jìn)制兼容進(jìn)制兼容, 應(yīng)用程序可獲的采用長(zhǎng)模式的應(yīng)用程序可獲的采用長(zhǎng)模式的64位操位操作系統(tǒng)支持作系統(tǒng)支持, 而無(wú)需重新編譯。而無(wú)需重新編譯。第一個(gè)標(biāo)志是代碼段描述子中的第一個(gè)標(biāo)志是代碼段描述子中的“D”位位;第二個(gè)位稱(chēng)為第二個(gè)位稱(chēng)為“L位位”, 是代碼段描述子中并未是代碼段描述子中并未使用的位使用的位(位位53), 它用以確定它用以確定應(yīng)用程序應(yīng)用程序能否獲得能否獲得64位架構(gòu)的支持。位架構(gòu)的支持。兼容模式與兼容模式與64位模式的不同點(diǎn)位模式的不同點(diǎn): 兼容模式采用了兼容模式采用了16位或

22、位或32位的保護(hù)模式規(guī)則位的保護(hù)模式規(guī)則, 從應(yīng)用程序的角度來(lái)看從應(yīng)用程序的角度來(lái)看, 兼容模式沿用了舊的兼容模式沿用了舊的x86保護(hù)模式。從操作系統(tǒng)來(lái)看保護(hù)模式。從操作系統(tǒng)來(lái)看, 地址變換、中斷以地址變換、中斷以及系統(tǒng)數(shù)據(jù)結(jié)構(gòu)都采用及系統(tǒng)數(shù)據(jù)結(jié)構(gòu)都采用64位長(zhǎng)模式機(jī)制。位長(zhǎng)模式機(jī)制。 64位模式支持位模式支持64位虛擬地址空間位虛擬地址空間, 因此需要采因此需要采用用64位的操作系統(tǒng)及相應(yīng)工具。部分指令操作碼位的操作系統(tǒng)及相應(yīng)工具。部分指令操作碼及前綴字節(jié)為此也需要重新設(shè)定及前綴字節(jié)為此也需要重新設(shè)定, 以便可以將寄以便可以將寄存器擴(kuò)展并執(zhí)行存器擴(kuò)展并執(zhí)行64位尋址功能。位尋址功能。(2)

23、寄存器擴(kuò)展寄存器擴(kuò)展 AMD的的x86-64架構(gòu)將目前用于架構(gòu)將目前用于16位以及位以及32位指位指令的尋址方式進(jìn)行擴(kuò)展。令的尋址方式進(jìn)行擴(kuò)展。 用于用于16位操作位操作, 寄存器寄存器A的的2個(gè)字節(jié)定義為個(gè)字節(jié)定義為AX 用于用于32位操作位操作, 寄存器寄存器A的的4個(gè)字節(jié)定義為個(gè)字節(jié)定義為EAX 用于用于64位操作位操作,寄存器寄存器A的的8個(gè)字節(jié)定義為個(gè)字節(jié)定義為RAX 在在64位模式操作時(shí)位模式操作時(shí), 通用寄存器擴(kuò)展至通用寄存器擴(kuò)展至64位位, 即即RAX、RBX、RCX、RDX、RDI、RSI、RBP、RSP、RIP、以及以及RFLAGS。 此外此外, 新添加了新添加了8個(gè)個(gè)64

24、位通用寄存器位通用寄存器R8R15。 寄存器擴(kuò)展還增加寄存器擴(kuò)展還增加8個(gè)新的個(gè)新的SIMD寄存器寄存器XMM8至至XMM15。(二二) AMD Athlon64 位處理器位處理器( (速龍速龍) )AMD的的64位桌面型處理器位桌面型處理器, 其基本結(jié)構(gòu)和工作模其基本結(jié)構(gòu)和工作模式與式與Opteron處理器基本相同。處理器基本相同。AMD雙核雙核Athlon64處理器處理器 Athlon64 X2 Athlon 64 X2內(nèi)部整合了兩個(gè)重要部件內(nèi)部整合了兩個(gè)重要部件: 仲裁部件仲裁部件(System Request Queue -SRQ) 作用是對(duì)兩個(gè)核心的任務(wù)進(jìn)行仲裁作用是對(duì)兩個(gè)核心的任務(wù)

25、進(jìn)行仲裁 交叉開(kāi)關(guān)交叉開(kāi)關(guān)(Crossbar Switch) 其作用是對(duì)其作用是對(duì)兩個(gè)核心之間的通信進(jìn)行協(xié)調(diào)兩個(gè)核心之間的通信進(jìn)行協(xié)調(diào)仲裁模塊和交叉開(kāi)關(guān)仲裁模塊和交叉開(kāi)關(guān) 與與 內(nèi)存控制器以及內(nèi)存控制器以及Hyper Transport配合配合, 可讓每個(gè)核心都有獨(dú)享的可讓每個(gè)核心都有獨(dú)享的I/O帶帶寬、避免資源爭(zhēng)搶寬、避免資源爭(zhēng)搶, 減少內(nèi)存延遲。硬件自動(dòng)完減少內(nèi)存延遲。硬件自動(dòng)完成任務(wù)在兩個(gè)核之間分配。成任務(wù)在兩個(gè)核之間分配。Athlon 64 X2內(nèi)部架構(gòu)如下圖所示內(nèi)部架構(gòu)如下圖所示: 存儲(chǔ)器控制器存儲(chǔ)器控制器 HT鏈路鏈路 處理器核心處理器核心1 1M L2 Cache 64K 64K

26、指令指令Cache 數(shù)據(jù)數(shù)據(jù)Cache 處理器核心處理器核心2 1M L2 Cache 64K 64K指令指令Cache 數(shù)據(jù)數(shù)據(jù)Cache 系統(tǒng)請(qǐng)求隊(duì)列系統(tǒng)請(qǐng)求隊(duì)列(System Request Queue)AMD雙核心強(qiáng)調(diào)是真正將兩個(gè)核心整合在一個(gè)雙核心強(qiáng)調(diào)是真正將兩個(gè)核心整合在一個(gè)硅晶片上硅晶片上, 更真正發(fā)揮雙核心效率。這種結(jié)構(gòu)的更真正發(fā)揮雙核心效率。這種結(jié)構(gòu)的另一個(gè)優(yōu)點(diǎn)是另一個(gè)優(yōu)點(diǎn)是, 由于由于Athlon 64 X2兩顆核心并不兩顆核心并不需要通過(guò)外部需要通過(guò)外部FSB通信這一途徑通信這一途徑, 所有進(jìn)程都在所有進(jìn)程都在CPU核心范圍之內(nèi)完成。因此核心范圍之內(nèi)完成。因此, 在高負(fù)載

27、的多線(xiàn)在高負(fù)載的多線(xiàn)程程/多任務(wù)環(huán)境下可以獲得較高的性能。多任務(wù)環(huán)境下可以獲得較高的性能。 與與Athlon64 X2不同的是不同的是, PentiumD處理器將任處理器將任務(wù)分配控制單元和仲裁單元從務(wù)分配控制單元和仲裁單元從CPU中脫離出來(lái)中脫離出來(lái),放在北橋芯片中。放在北橋芯片中。 因此因此, 實(shí)現(xiàn)任務(wù)在兩個(gè)內(nèi)核之間的分配是在處理實(shí)現(xiàn)任務(wù)在兩個(gè)內(nèi)核之間的分配是在處理器之外進(jìn)行的。器之外進(jìn)行的。四、四、UltraSpace IV處理器處理器1. UltraSpace IV的主要特點(diǎn)的主要特點(diǎn): (1) 主頻主頻1.2GHz , 0.13微米制造工藝。微米制造工藝。 (2) 模塊化架構(gòu)模塊化架

28、構(gòu) 具有具有4個(gè)功能單元個(gè)功能單元(4路超標(biāo)量路超標(biāo)量)。 (3) 多級(jí)并行性多級(jí)并行性 在數(shù)據(jù)級(jí)具有在數(shù)據(jù)級(jí)具有SIMD指令指令; 指令級(jí)具有指令級(jí)具有4路超路超標(biāo)量標(biāo)量; 在線(xiàn)程執(zhí)行級(jí)具有多線(xiàn)程軟件支持。在線(xiàn)程執(zhí)行級(jí)具有多線(xiàn)程軟件支持。 (4) 對(duì)媒體數(shù)據(jù)的支持對(duì)媒體數(shù)據(jù)的支持 各功能單元各功能單元, 都能執(zhí)行的都能執(zhí)行的SIMD指令。指令。(5) 與數(shù)據(jù)類(lèi)型無(wú)關(guān)的寄存器與數(shù)據(jù)類(lèi)型無(wú)關(guān)的寄存器 通用寄存器可保存任意數(shù)據(jù)類(lèi)型通用寄存器可保存任意數(shù)據(jù)類(lèi)型, 可被任意可被任意指令訪(fǎng)問(wèn)指令訪(fǎng)問(wèn), 沒(méi)有整數(shù)和浮點(diǎn)寄存器的區(qū)別沒(méi)有整數(shù)和浮點(diǎn)寄存器的區(qū)別, 允允許寄存器按各個(gè)應(yīng)用程序的需要分配。許寄存器

29、按各個(gè)應(yīng)用程序的需要分配。(6) 指令成組指令成組 主要通過(guò)編譯器將指令成組主要通過(guò)編譯器將指令成組, 使對(duì)應(yīng)的功能使對(duì)應(yīng)的功能單元并行執(zhí)行。單元并行執(zhí)行。(7) 線(xiàn)程級(jí)推測(cè)執(zhí)行線(xiàn)程級(jí)推測(cè)執(zhí)行包括包括: 時(shí)空計(jì)算技術(shù)時(shí)空計(jì)算技術(shù)(Space-Time Computing) 通用多線(xiàn)程技術(shù)通用多線(xiàn)程技術(shù)(Vertical Multithreading) 時(shí)空計(jì)算技術(shù)時(shí)空計(jì)算技術(shù)主要指多線(xiàn)程在各處理器單元間推測(cè)執(zhí)行主要指多線(xiàn)程在各處理器單元間推測(cè)執(zhí)行, 如果如果當(dāng)前正在執(zhí)行的線(xiàn)程由于某種原因暫時(shí)停滯當(dāng)前正在執(zhí)行的線(xiàn)程由于某種原因暫時(shí)停滯, 處處理器可以從線(xiàn)程組中取出它認(rèn)為將要執(zhí)行的線(xiàn)理器可以從線(xiàn)程

30、組中取出它認(rèn)為將要執(zhí)行的線(xiàn)程程, 并將其分配給處理器單元執(zhí)行。并將其分配給處理器單元執(zhí)行。 通用多線(xiàn)程技術(shù)通用多線(xiàn)程技術(shù)主要解決單個(gè)處理單元內(nèi)多個(gè)線(xiàn)程執(zhí)行時(shí)延。主要解決單個(gè)處理單元內(nèi)多個(gè)線(xiàn)程執(zhí)行時(shí)延。如果當(dāng)前執(zhí)行的線(xiàn)程由于如果當(dāng)前執(zhí)行的線(xiàn)程由于Cache未命中未命中(等待從等待從系統(tǒng)存儲(chǔ)器中裝入數(shù)據(jù)系統(tǒng)存儲(chǔ)器中裝入數(shù)據(jù)), 處理器單元可以立即處理器單元可以立即切換到執(zhí)行其它的線(xiàn)程切換到執(zhí)行其它的線(xiàn)程, 如象線(xiàn)程流水線(xiàn)。如象線(xiàn)程流水線(xiàn)。 2. MAJC架構(gòu)設(shè)計(jì)架構(gòu)設(shè)計(jì) MAJC是專(zhuān)門(mén)為是專(zhuān)門(mén)為Java語(yǔ)言設(shè)計(jì)的處理器芯片。語(yǔ)言設(shè)計(jì)的處理器芯片。設(shè)計(jì)時(shí)采用模塊式結(jié)構(gòu)設(shè)計(jì)時(shí)采用模塊式結(jié)構(gòu)(類(lèi)似于芯片

31、級(jí)并行處理類(lèi)似于芯片級(jí)并行處理機(jī)機(jī)), MAJC結(jié)構(gòu)芯片有望產(chǎn)生出一個(gè)基于結(jié)構(gòu)芯片有望產(chǎn)生出一個(gè)基于Java語(yǔ)語(yǔ)言的微處理器家族。言的微處理器家族。MAJC采用采用靜態(tài)調(diào)度的超長(zhǎng)指令字靜態(tài)調(diào)度的超長(zhǎng)指令字VLIW(與與Itanium 相似相似), 有別于動(dòng)態(tài)超標(biāo)量指令調(diào)度。有別于動(dòng)態(tài)超標(biāo)量指令調(diào)度。 如下圖所示如下圖所示: 編譯器編譯器 指令重調(diào)度指令重調(diào)度(硬件邏輯硬件邏輯)CPU執(zhí)行單元執(zhí)行單元 執(zhí)行單元執(zhí)行單元 執(zhí)行單元執(zhí)行單元 執(zhí)行單元執(zhí)行單元?jiǎng)討B(tài)超標(biāo)量調(diào)度動(dòng)態(tài)超標(biāo)量調(diào)度 靜態(tài)超標(biāo)量調(diào)度靜態(tài)超標(biāo)量調(diào)度 編譯器編譯器CPU執(zhí)行單元執(zhí)行單元 執(zhí)行單元執(zhí)行單元 執(zhí)行單元執(zhí)行單元 執(zhí)行單元執(zhí)行

32、單元 超長(zhǎng)指令字超長(zhǎng)指令字VLIW是一個(gè)是一個(gè)128位的指令包位的指令包(MAJC 稱(chēng)為稱(chēng)為packet, IA-64稱(chēng)為稱(chēng)為bundele), 每個(gè)指令包含每個(gè)指令包含3 4條不相關(guān)可并行執(zhí)行的指令條不相關(guān)可并行執(zhí)行的指令(MAJC是是4條條, IA-64是是3條條)。通過(guò)將指令集中的指令分類(lèi)。通過(guò)將指令集中的指令分類(lèi), 并建立與指令執(zhí)并建立與指令執(zhí)行功能單元的對(duì)應(yīng)關(guān)系行功能單元的對(duì)應(yīng)關(guān)系, 編譯器可靜態(tài)調(diào)度指令編譯器可靜態(tài)調(diào)度指令(優(yōu)優(yōu)化代碼化代碼), 使多個(gè)功能單元滿(mǎn)負(fù)荷并行工作。使多個(gè)功能單元滿(mǎn)負(fù)荷并行工作。 在超長(zhǎng)指令字在超長(zhǎng)指令字VLIW方面方面, MAJC與與IA-64有相有相似

33、之處似之處, 但有以下區(qū)別但有以下區(qū)別:(1) IA-64是定長(zhǎng)是定長(zhǎng)128位的指令包位的指令包, 并行指令不足并行指令不足時(shí)時(shí), 需要插入需要插入NOP指令指令; MAJC是可變長(zhǎng)指令是可變長(zhǎng)指令包包(32到到128位位), 無(wú)須插入無(wú)須插入NOP指令。指令。(2) IA-64的每個(gè)功能單元基本專(zhuān)用的每個(gè)功能單元基本專(zhuān)用(如整數(shù)、浮如整數(shù)、浮點(diǎn)、點(diǎn)、SIMD單元單元), 且通用寄存器也是由各功且通用寄存器也是由各功能單元共用。能單元共用。(3) MAJC的每個(gè)功能單元的數(shù)據(jù)類(lèi)型無(wú)關(guān)的每個(gè)功能單元的數(shù)據(jù)類(lèi)型無(wú)關(guān), 任任意功能單元可操作任意數(shù)據(jù)類(lèi)型意功能單元可操作任意數(shù)據(jù)類(lèi)型, 即實(shí)際運(yùn)即實(shí)際運(yùn)

34、行中可以同時(shí)使用所有功能單元。每個(gè)功行中可以同時(shí)使用所有功能單元。每個(gè)功能單元有自己的非共享局部寄存器、局部能單元有自己的非共享局部寄存器、局部控制邏輯控制邏輯(指令指令/譯碼譯碼)、局部狀態(tài)信息和局局部狀態(tài)信息和局部連線(xiàn)。部連線(xiàn)。(4) MAJC的寄存器與數(shù)據(jù)類(lèi)型無(wú)關(guān)的寄存器與數(shù)據(jù)類(lèi)型無(wú)關(guān), 每個(gè)功能每個(gè)功能單元除了訪(fǎng)問(wèn)自己私有的局部寄存器單元除了訪(fǎng)問(wèn)自己私有的局部寄存器, 還可還可以訪(fǎng)問(wèn)全局的通用寄存器。以訪(fǎng)問(wèn)全局的通用寄存器。 寄存器文件寄存器文件(全局全局)寄存器文寄存器文件件(局部局部)寄存器文寄存器文件件(局部局部)寄存器文寄存器文件件(局部局部)寄存器文寄存器文件件(局部局部)執(zhí)

35、行單元執(zhí)行單元 MAJC的處理器單元的處理器單元執(zhí)行單元執(zhí)行單元執(zhí)行單元執(zhí)行單元執(zhí)行單元執(zhí)行單元 新一代新一代UltraSPARC +處理器采用處理器采用0.9微米的微米的工藝工藝, 主頻從主頻從1.8 GHz起始。起始。 該該UltraSPARC +擴(kuò)展了高速緩存擴(kuò)展了高速緩存, 改進(jìn)了轉(zhuǎn)改進(jìn)了轉(zhuǎn)移預(yù)測(cè)機(jī)制移預(yù)測(cè)機(jī)制, 增強(qiáng)指令預(yù)取能力以及新的計(jì)算方法增強(qiáng)指令預(yù)取能力以及新的計(jì)算方法等新技術(shù)等新技術(shù), 使使UltraSPARC+的應(yīng)用吞吐量比現(xiàn)有的應(yīng)用吞吐量比現(xiàn)有的的UltraSPARC 處理器提高了一倍。處理器提高了一倍。 五、五、Alpha21264 1999年推出年推出, 也稱(chēng)為也稱(chēng)為

36、EV6, 改型有改型有EV67、EV68C和和EV68A。 主頻達(dá)到主頻達(dá)到1GHz, 0.18 m工藝工藝。芯片上集成芯片上集成1500萬(wàn)只晶體管萬(wàn)只晶體管; 地址總線(xiàn)和數(shù)據(jù)總線(xiàn)均為地址總線(xiàn)和數(shù)據(jù)總線(xiàn)均為64位位(全全64位處理器位處理器); 擁有擁有4個(gè)整數(shù)運(yùn)算單元和個(gè)整數(shù)運(yùn)算單元和2個(gè)浮點(diǎn)運(yùn)算單元。個(gè)浮點(diǎn)運(yùn)算單元。 具有完善的指令預(yù)測(cè)能力具有完善的指令預(yù)測(cè)能力 高存儲(chǔ)系統(tǒng)帶寬高存儲(chǔ)系統(tǒng)帶寬(超過(guò)超過(guò)1GB/s), 增加了處理視頻增加了處理視頻信息的功能信息的功能, 使其多媒體處理能力增強(qiáng)。使其多媒體處理能力增強(qiáng)?;咎攸c(diǎn)基本特點(diǎn): 其它特點(diǎn)其它特點(diǎn): 亂序執(zhí)行能力強(qiáng)亂序執(zhí)行能力強(qiáng) Alp

37、ha21264能夠重調(diào)度能夠重調(diào)度80條指令。條指令。 與之相比的同時(shí)期處理器如與之相比的同時(shí)期處理器如: Intel的的P6架構(gòu)能夠調(diào)度架構(gòu)能夠調(diào)度40條指令條指令 HP的的PA-8x00能夠調(diào)度能夠調(diào)度56條指令條指令 MIPS的的 R12000能夠調(diào)度能夠調(diào)度48條指令條指令 IBM的的Power3能夠調(diào)度能夠調(diào)度32條指令條指令 PowerPC G4只能調(diào)度只能調(diào)度5條指令條指令 Sun的的UltraSPARCII不支持亂序執(zhí)行。不支持亂序執(zhí)行。 分支預(yù)測(cè)邏輯分支預(yù)測(cè)邏輯 采用采用2級(jí)預(yù)測(cè)體系級(jí)預(yù)測(cè)體系, 即即本地預(yù)測(cè)器本地預(yù)測(cè)器和和全局預(yù)測(cè)全局預(yù)測(cè)器器, 分別記錄有分別記錄有1024

38、條和條和4096條記錄。兩者采條記錄。兩者采用不同預(yù)測(cè)算法并獨(dú)立運(yùn)行。用不同預(yù)測(cè)算法并獨(dú)立運(yùn)行。 本地預(yù)測(cè)器用于每一個(gè)分支預(yù)測(cè)本地預(yù)測(cè)器用于每一個(gè)分支預(yù)測(cè), 全局預(yù)測(cè)全局預(yù)測(cè)器則用于跟蹤整個(gè)分支序列。器則用于跟蹤整個(gè)分支序列。 如果本地預(yù)測(cè)器和全局預(yù)測(cè)器的預(yù)測(cè)結(jié)果不如果本地預(yù)測(cè)器和全局預(yù)測(cè)器的預(yù)測(cè)結(jié)果不一致一致, 則選擇記錄多的預(yù)測(cè)器的結(jié)論則選擇記錄多的預(yù)測(cè)器的結(jié)論, 以得到更以得到更精確的結(jié)果。采用兩個(gè)不同級(jí)別的分支預(yù)測(cè)器精確的結(jié)果。采用兩個(gè)不同級(jí)別的分支預(yù)測(cè)器協(xié)調(diào)工作協(xié)調(diào)工作, 降低了分支預(yù)測(cè)失敗的的次數(shù)。降低了分支預(yù)測(cè)失敗的的次數(shù)。 可運(yùn)行多種操作系統(tǒng)可運(yùn)行多種操作系統(tǒng) 21264芯片保

39、持了芯片保持了Alpha處理器可以運(yùn)行多種處理器可以運(yùn)行多種操作系統(tǒng)的特點(diǎn)操作系統(tǒng)的特點(diǎn), 包括包括Tru64 Unix、OpenVMS和和Linux等等, 這也是這也是Alpha處理器的一個(gè)優(yōu)勢(shì)。處理器的一個(gè)優(yōu)勢(shì)。 從從2001年開(kāi)始年開(kāi)始, IBM、SONY和東芝開(kāi)始和東芝開(kāi)始Cell多核多核處理器的開(kāi)發(fā)。設(shè)計(jì)目標(biāo)是大幅度提高多媒體應(yīng)用的處理器的開(kāi)發(fā)。設(shè)計(jì)目標(biāo)是大幅度提高多媒體應(yīng)用的性能。目前性能。目前, Cell處理器每秒可以執(zhí)行處理器每秒可以執(zhí)行2560億次計(jì)算億次計(jì)算, 遠(yuǎn)超過(guò)安騰遠(yuǎn)超過(guò)安騰2。 六、六、多核多核CELL處理器處理器 Cell處理器是一種向量化處理器。向量處理指令可處

40、理器是一種向量化處理器。向量處理指令可以順序處理同一向量的每個(gè)分量以順序處理同一向量的每個(gè)分量, 即一條向量指令可即一條向量指令可處理處理n個(gè)或個(gè)或n對(duì)操作數(shù)。對(duì)操作數(shù)。 向量處理與指令流水線(xiàn)處理的異同向量處理與指令流水線(xiàn)處理的異同: 從并行處理的角度從并行處理的角度, 向量處理屬于向量處理屬于“運(yùn)算流水線(xiàn)運(yùn)算流水線(xiàn)”類(lèi)型類(lèi)型, 即在向量運(yùn)算的流水線(xiàn)中即在向量運(yùn)算的流水線(xiàn)中, 設(shè)置幾個(gè)專(zhuān)用的運(yùn)算設(shè)置幾個(gè)專(zhuān)用的運(yùn)算單元單元, 對(duì)數(shù)據(jù)進(jìn)行流水線(xiàn)作業(yè)處理對(duì)數(shù)據(jù)進(jìn)行流水線(xiàn)作業(yè)處理, 從而可實(shí)現(xiàn)對(duì)數(shù)據(jù)從而可實(shí)現(xiàn)對(duì)數(shù)據(jù)的并行重疊處理。的并行重疊處理。 而指令流水線(xiàn)是將指令的執(zhí)行過(guò)程分解成處理而指令流水線(xiàn)是

41、將指令的執(zhí)行過(guò)程分解成處理時(shí)間大致相等的幾個(gè)步驟時(shí)間大致相等的幾個(gè)步驟(如取指、譯碼、執(zhí)行等如取指、譯碼、執(zhí)行等)。幾個(gè)步驟的處理分別由專(zhuān)用的硬件來(lái)承擔(dān)幾個(gè)步驟的處理分別由專(zhuān)用的硬件來(lái)承擔(dān), 以達(dá)到以達(dá)到并行處理并提高并行處理并提高CPU速度的目的。速度的目的。 向量處理器的結(jié)構(gòu)如下圖所示向量處理器的結(jié)構(gòu)如下圖所示:A(6)A(7)向量向量AB(6)B(7)向量向量BC(0)向量向量C階數(shù)階數(shù)比較比較A(5)B(5)B(4)A(4)對(duì)階對(duì)階加 法加 法運(yùn)算運(yùn)算B(3)A(3)規(guī)格化規(guī)格化C(2)C(1)指令流水線(xiàn)處理器的結(jié)構(gòu)如下圖所示指令流水線(xiàn)處理器的結(jié)構(gòu)如下圖所示:ADDSUBMOV 取指取

42、指 執(zhí)行執(zhí)行 譯碼譯碼SUBADD.試產(chǎn)的試產(chǎn)的Cell處理器處理器: 集成集成2.34億只晶體管億只晶體管, 采用采用0.09 m及及SOI工藝工藝; 具有具有9個(gè)處理器核心個(gè)處理器核心(1個(gè)主處理器搭配個(gè)主處理器搭配8個(gè)協(xié)處理個(gè)協(xié)處理器器); 時(shí)鐘頻率可達(dá)時(shí)鐘頻率可達(dá)4GHz以上以上; 可根據(jù)性能需求增加或減少協(xié)處理器的數(shù)量可根據(jù)性能需求增加或減少協(xié)處理器的數(shù)量; 主處理器可同時(shí)運(yùn)行主處理器可同時(shí)運(yùn)行2個(gè)線(xiàn)程個(gè)線(xiàn)程, 其余其余8個(gè)協(xié)處理器個(gè)協(xié)處理器可各處理可各處理1個(gè)線(xiàn)程個(gè)線(xiàn)程(即可同時(shí)運(yùn)行即可同時(shí)運(yùn)行10個(gè)線(xiàn)程個(gè)線(xiàn)程) Cell處理器的結(jié)構(gòu)處理器的結(jié)構(gòu):其中其中:SPESPESPESPE

43、SPESPESPESPE 總總 線(xiàn)線(xiàn) 接接 口口 控控 制制X I O接口接口 L1 Cache L2 Cache PXUPPE 單元連接總線(xiàn)單元連接總線(xiàn)EIB (4 16字節(jié)數(shù)據(jù)環(huán)字節(jié)數(shù)據(jù)環(huán)) (1) PPE是處理器的是處理器的RISC核心核心 該核心兼容該核心兼容PowerPC指令的雙線(xiàn)程雙發(fā)射指令的雙線(xiàn)程雙發(fā)射順序順序執(zhí)行執(zhí)行(無(wú)硬件的指令重調(diào)度支持無(wú)硬件的指令重調(diào)度支持)。 PPE核心主要包含核心主要包含3個(gè)部分個(gè)部分: L2 Cache 512K 32KB L1 指令和數(shù)據(jù)指令和數(shù)據(jù)Cache 執(zhí)行單元執(zhí)行單元PXU CELL設(shè)計(jì)者認(rèn)為設(shè)計(jì)者認(rèn)為: 即使即使4發(fā)射甚至發(fā)射甚至8發(fā)射的

44、亂序發(fā)射的亂序執(zhí)行核心執(zhí)行核心, 在單一程序上的在單一程序上的IPC也很少能超過(guò)也很少能超過(guò)2。但是發(fā)射寬度加倍之后但是發(fā)射寬度加倍之后, 增加的設(shè)計(jì)工作復(fù)雜度要增加的設(shè)計(jì)工作復(fù)雜度要遠(yuǎn)遠(yuǎn)超過(guò)一倍。遠(yuǎn)遠(yuǎn)超過(guò)一倍。 PPE包含包含VMX(PowerPC上的多媒體擴(kuò)展上的多媒體擴(kuò)展)。VMX是一個(gè)向量處理單元是一個(gè)向量處理單元, 類(lèi)似于類(lèi)似于SSE/SSE2的的SIMD擴(kuò)展。擴(kuò)展。PPE中的中的VMX向量單元加上向量單元加上8個(gè)個(gè)SPE向量處理單元共計(jì)向量處理單元共計(jì)9個(gè)處理單元個(gè)處理單元, 各處理單元各處理單元都可并行運(yùn)行。都可并行運(yùn)行。 VMX有有32個(gè)個(gè)128位寄存器位寄存器, 每個(gè)寄存器可以保每個(gè)寄存器可以保存存16個(gè)個(gè)8位位, 或者或者8個(gè)個(gè)16位或者位或者4個(gè)個(gè)32位數(shù)據(jù)。與位數(shù)據(jù)。與x86中的中的MMX、SSE、SSE2/SSE3相比相比, VMX有有更多的寄存器。更多的寄存器。 (2) 8個(gè)向量化個(gè)向量化SPE處理單元處理單元 簡(jiǎn)單定義簡(jiǎn)單定義: 標(biāo)量處理標(biāo)量處理: 一次可處理一個(gè)或一對(duì)數(shù)據(jù)一次可處理一個(gè)或一對(duì)數(shù)據(jù) 向量處理向量處理: 一次可處理一次可處理N個(gè)或個(gè)或N對(duì)數(shù)據(jù)對(duì)數(shù)據(jù) CELL的的8個(gè)個(gè)SPE是相互獨(dú)立是相互獨(dú)立, 向量寬度為寄存向量寬度為寄存器寬度器寬度(128位位), 一個(gè)一個(gè)SPE中有中有128個(gè)個(gè)128位寄存器位寄存器, 并配有并配有256K

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶(hù)所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶(hù)上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶(hù)上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶(hù)因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論