CPU的發(fā)展趨勢(shì)上課講義

上傳人：油*** IP屬地：浙江上傳時(shí)間：2022-07-17 格式：DOC 頁(yè)數(shù)：23 大小：167.50KB 積分：12 舉報(bào) 版權(quán)申訴

已閱讀5頁(yè)，還剩18頁(yè)未讀，繼續(xù)免費(fèi)閱讀

版權(quán)說明：本文檔由用戶提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、Good is good, but better carries it.精益求精，善益求善。CPU的發(fā)展趨勢(shì)-CPU的發(fā)展趨勢(shì)1技術(shù)發(fā)展趨勢(shì)（1）工藝的影響。在過去30多年的發(fā)展過程中，高性能微處理器基本上都是按照著名的摩爾定律在發(fā)展。根據(jù)世界半導(dǎo)體行業(yè)共同制訂的2003年國(guó)際半導(dǎo)體技術(shù)發(fā)展路線圖及其2004年更新，未來15年集成電路仍將按摩爾定律持續(xù)高速發(fā)展。預(yù)測(cè)到2010年，高性能CPU芯片上可集成的晶體管數(shù)將超過20億個(gè)（到2018年超過140億個(gè)）4。半導(dǎo)體技術(shù)的這些進(jìn)步，為處理器的設(shè)計(jì)者提供了更多的資源（無論是晶體管的數(shù)量和種類）來實(shí)現(xiàn)更高性能的芯片，從而有可能在單個(gè)芯片上創(chuàng)造更復(fù)雜

2、和更靈活的系統(tǒng)。隨著晶體管集成度的越來越高、頻率和計(jì)算速度的越來越快，芯片的功耗問題、晶體管的封裝、芯片的蝕刻等越來越難以處理。這些因素使得摩爾定律本身的發(fā)展及其對(duì)處理器的影響發(fā)生了一些深刻的變化。首先，根據(jù)上述的路線圖，摩爾定律指出的發(fā)展趨勢(shì)已經(jīng)變緩，由原來的1.5年一代變?yōu)?-3年一代。除了技術(shù)本身的難度增加以外，集成電路生產(chǎn)線更新?lián)Q代的成本越來越昂貴，生產(chǎn)廠家需要更多的時(shí)間來收回生產(chǎn)線成本也是一個(gè)重要原因。其次，處理器主頻正在和摩爾定律分道揚(yáng)鑣。摩爾定律本質(zhì)上是晶體管的尺寸以及晶體管的翻轉(zhuǎn)速度的變化的定律，但由于商業(yè)的原因，摩爾定律同時(shí)被賦予每1.5年主頻提高一倍的含義4，5，6。事實(shí)上

3、過去每代微處理器主頻是上代產(chǎn)品的兩倍中，其中只有1.4倍來源于器件的按比例縮小，另外1.4倍來源于結(jié)構(gòu)的優(yōu)化，即流水級(jí)中邏輯門數(shù)目的減少。但目前的高主頻處理器中，指令流水線的劃分已經(jīng)很細(xì)，很難再細(xì)分。例如，PentiumIV的20級(jí)流水線中有兩級(jí)只進(jìn)行數(shù)據(jù)的傳輸，沒有進(jìn)行任何有用的運(yùn)算。另外，集成度的提高意味著線寬變窄，信號(hào)在片內(nèi)傳輸單位距離所需的延遲也相應(yīng)增大，連線延遲而不是晶體管翻轉(zhuǎn)速度將越來越主導(dǎo)處理器的主頻。功耗和散熱問題也給進(jìn)一步提高處理器主頻設(shè)置了很大的障礙。因此，摩爾定律將恢復(fù)其作為關(guān)于晶體管尺寸及其翻轉(zhuǎn)速度的本來面目，摩爾定律中關(guān)于處理器主頻部分將逐漸失效。此外，雖然集成度的提

4、高為處理器的設(shè)計(jì)者提供了更多的資源來實(shí)現(xiàn)更高性能的芯片，但處理器復(fù)雜度的增加將大大增加設(shè)計(jì)周期和設(shè)計(jì)成本。針對(duì)上述問題，芯片設(shè)計(jì)越來越強(qiáng)調(diào)結(jié)構(gòu)的層次化、功能部件的模塊化和分布化，即每個(gè)功能部件都相對(duì)地簡(jiǎn)單，部件內(nèi)部盡可能保持通信的局部性。（2）結(jié)構(gòu)的影響。在計(jì)算機(jī)過去60年的發(fā)展歷程中，工藝技術(shù)的發(fā)展和結(jié)構(gòu)的進(jìn)步相得益彰，推動(dòng)著計(jì)算機(jī)功能和性能的不斷提高。工藝技術(shù)的發(fā)展給結(jié)構(gòu)的進(jìn)步提供了基礎(chǔ)，而結(jié)構(gòu)的進(jìn)步不僅給工藝技術(shù)的發(fā)展提供了用武之地，同時(shí)也是工藝技術(shù)發(fā)展的動(dòng)力3。在過去60年的發(fā)展歷程中，計(jì)算機(jī)的體系結(jié)構(gòu)每20年左右就出現(xiàn)一個(gè)較大突破，已經(jīng)經(jīng)歷了一個(gè)由簡(jiǎn)單到復(fù)雜，由復(fù)雜到簡(jiǎn)單，又由簡(jiǎn)單到

5、復(fù)雜的否定之否定過程。最早期的處理器結(jié)構(gòu)由于工藝技術(shù)的限制，不可能做得很復(fù)雜，一般都是串行執(zhí)行；后來隨著工藝技術(shù)的發(fā)展，處理器結(jié)構(gòu)變得復(fù)雜，流水線技術(shù)、動(dòng)態(tài)調(diào)度技術(shù)、CACHE技術(shù)、向量機(jī)技術(shù)被廣泛使用，典型的代表如IBM360系列的機(jī)器以及Cray的向量機(jī)；RISC技術(shù)的提出使處理器結(jié)構(gòu)得到一次較大的簡(jiǎn)化；但后來隨著工藝技術(shù)的進(jìn)一步發(fā)展以及多發(fā)射技術(shù)的實(shí)現(xiàn)，RISC處理器的結(jié)構(gòu)變得越來越復(fù)雜。以Intel和HP為代表研制的EPIC結(jié)構(gòu)的實(shí)現(xiàn)并沒有從根本上對(duì)處理器結(jié)構(gòu)進(jìn)行本質(zhì)簡(jiǎn)化。在上述過程中，每一次由簡(jiǎn)單到復(fù)雜的變革都蘊(yùn)涵著進(jìn)一步簡(jiǎn)化的因素，例如在早期的復(fù)雜處理器CDC6600以及Cray向

6、量機(jī)中，已經(jīng)有了只由load和store進(jìn)行訪存的概念，IBM360/91中的Tomasulo算法被后來的RISC處理器普遍使用。同樣，每一次由復(fù)雜到簡(jiǎn)單的變革，也蘊(yùn)涵著再次復(fù)雜的基礎(chǔ)，例如RISC結(jié)構(gòu)的特點(diǎn)使得它可以充分利用多發(fā)射以及亂序執(zhí)行來提高性能，而多發(fā)射和亂序執(zhí)行又會(huì)增加處理器的復(fù)雜度。以近年來RISC微處理器結(jié)構(gòu)沒有大的突破為標(biāo)志，RISC結(jié)構(gòu)已經(jīng)成熟?，F(xiàn)在的RISC微處理器普遍能允許幾十到上百條指令亂序執(zhí)行，如Alpha21264處理器的指令隊(duì)列最多可以容納80條指令，MIPSR10000為32條，HP8700為56條，POWER4為200多條，PIV為106條（PIV處理器雖然

7、指令系統(tǒng)是CISC，但內(nèi)部的微操作則具備了很多RISC的特征）7，8，9，12，13。目前，包括超標(biāo)量RISC和EPIC在內(nèi)的指令級(jí)并行技術(shù)使得處理器核變得十分復(fù)雜，通過進(jìn)一步增加處理器核的復(fù)雜度來提高性能已經(jīng)十分有限。同時(shí)，由于以下原因，通過結(jié)構(gòu)的方法細(xì)分流水線來提高主頻的方法將來很難再延續(xù)下去：一是不可能使用少于6-8個(gè)FO4(等效4扇出反相器)產(chǎn)生出波形好的時(shí)鐘脈沖；二是隨著流水級(jí)的增加流水線結(jié)構(gòu)的效率會(huì)越來越低；三是由封裝承受能力引起的熱包封限制使得難以實(shí)施很深的互連流水線結(jié)構(gòu)；四是結(jié)構(gòu)和電路的創(chuàng)新將越來越多地用于減輕給互連RC效應(yīng)帶來的不良影響而不太可能直接改善頻率響應(yīng)。目前的高主頻

8、處理器中，一級(jí)流水級(jí)只有10-15級(jí)FO4的延遲，考慮到控制流水線的鎖存器本身的延遲，實(shí)際留給有效處理工作的邏輯只有6-9級(jí)FO4，已經(jīng)難以再降低。因此，傳統(tǒng)的高主頻復(fù)雜設(shè)計(jì)遇到了越來越嚴(yán)重的障礙，需要探索新的結(jié)構(gòu)技術(shù)來在簡(jiǎn)化結(jié)構(gòu)設(shè)計(jì)的前提下充分利用摩爾定律提供的片內(nèi)晶體管，以進(jìn)一步提高處理器的功能和性能。（3）功耗問題。隨著主頻的不斷提高，功耗問題越來越突出?，F(xiàn)代的通用處理器功耗峰值已經(jīng)高達(dá)上百瓦。例如，Alpha21364為100瓦，AMDOpteron是90瓦，Intel的安騰2已超過100瓦。相應(yīng)地，主板上向CPU供電的電流已接近100安培，跟發(fā)動(dòng)汽車時(shí)蓄電池需要供出的電流差不多。最近

9、，Intel公司利用90nm工藝重新實(shí)現(xiàn)了Pentium4(簡(jiǎn)稱P4)。但新的P4竟然和原先用0.13微米工藝制造出來的P4跑一樣高的主頻（不超過4GHz）。這主要是因?yàn)镮ntel沒有辦法把芯片在高頻工作時(shí)的功耗降下來，如果進(jìn)一步提高主頻，芯片的功耗太大，芯片產(chǎn)生的熱量散不出去導(dǎo)致片內(nèi)溫度升高，反過來導(dǎo)致芯片的性能和芯片的穩(wěn)定性下降。有的發(fā)燒友通過提高芯片電壓并在芯片上加了異常復(fù)雜的散熱和冷卻裝置后，已經(jīng)把P4超頻工作到6.5GHz了（當(dāng)然這種工作狀態(tài)是不能持續(xù)太長(zhǎng)的時(shí)間的）。事實(shí)上，超過150瓦的功耗，無論是目前芯片的封裝還是主板的供電能力，都已經(jīng)難以為繼了。在移動(dòng)計(jì)算領(lǐng)域，功耗更是壓倒一切

10、的指標(biāo)。因此如何降低功耗的問題已經(jīng)十分迫切。CMOS電路的功耗與主頻和規(guī)模都成正比，跟電壓的平方成正比，而主頻在一定程度上又跟電壓成正比。降低功耗需要包括工藝技術(shù)、物理設(shè)計(jì)、體系結(jié)構(gòu)設(shè)計(jì)、系統(tǒng)軟件以及應(yīng)用軟件的共同努力。如果說傳統(tǒng)的CPU設(shè)計(jì)追求的是每秒運(yùn)行的次數(shù)(performancepersecond)以及每一塊錢所能買到的性能(performanceperdollar)，那么在今天，每瓦特功耗所得到的性能(performanceperwatt)已經(jīng)成為越來越重要的指標(biāo)。因此，必須探索新的結(jié)構(gòu)，通過包括工藝技術(shù)、物理設(shè)計(jì)、體系結(jié)構(gòu)設(shè)計(jì)、系統(tǒng)軟件以及應(yīng)用軟件的共同努力來降低功耗。（4）應(yīng)用的

11、變化。在計(jì)算機(jī)發(fā)展的初期，處理器性能的提高主要是為了滿足科學(xué)和工程計(jì)算的需求，非常重視浮點(diǎn)運(yùn)算能力；而且主頻不是很高，功耗的問題不是很突出。隨著Internet和媒體技術(shù)的迅猛發(fā)展，網(wǎng)絡(luò)服務(wù)和移動(dòng)計(jì)算逐漸成為一種非常重要的計(jì)算模式，這一新的計(jì)算模式迫切要求微處理器具有響應(yīng)實(shí)時(shí)性、處理流式數(shù)據(jù)類型的能力、支持?jǐn)?shù)據(jù)級(jí)和線程級(jí)并行性、更高的存儲(chǔ)和I/O帶寬、低功耗、低設(shè)計(jì)復(fù)雜性和設(shè)計(jì)的可伸縮性；要求縮短芯片進(jìn)入和退出市場(chǎng)的周期。此外還應(yīng)該看到，以個(gè)人電腦（PC）為主要應(yīng)用模式的桌面應(yīng)用已經(jīng)逐漸趨向飽和。一方面，對(duì)于大部分的桌面用戶（如上網(wǎng)、辦公、家庭應(yīng)用等），目前的PC性能已經(jīng)足夠，再通過定義新的應(yīng)

12、用來提高PC機(jī)的用戶對(duì)性能的要求（象Intel和Microsoft一直做的那樣）已經(jīng)有較大難度。另一方面，使用PC機(jī)的人群已經(jīng)趨向穩(wěn)定，如果需要大幅度增加計(jì)算機(jī)的使用人群，就需要通過使用模式等的革命大幅度降低計(jì)算機(jī)的購(gòu)買和使用成本。與此相對(duì)應(yīng)的是，雖然科學(xué)計(jì)算計(jì)算機(jī)已經(jīng)不是市場(chǎng)的主流產(chǎn)品，但人類對(duì)科學(xué)計(jì)算的需求是永無止境的，高性能計(jì)算技術(shù)在航空航天、石油勘探和開發(fā)、大范圍氣象預(yù)報(bào)、核爆炸模擬、材料設(shè)計(jì)、藥物設(shè)計(jì)、基因信息學(xué)、密碼學(xué)、人工智能、經(jīng)濟(jì)模型、數(shù)字電影等領(lǐng)域起著重要的作用。高性能計(jì)算機(jī)可以對(duì)所研究的對(duì)象進(jìn)行數(shù)值模擬和動(dòng)態(tài)顯示，獲得實(shí)驗(yàn)很難得到甚至得不到的結(jié)果，從而產(chǎn)生了除了理論科學(xué)和實(shí)

13、驗(yàn)科學(xué)以外的第三類科學(xué)，即計(jì)算科學(xué)。在上述情況下，需要處理器的結(jié)構(gòu)充分利用集成度的提高帶來的海量晶體管資源，在滿足新型的網(wǎng)絡(luò)服務(wù)和媒體的應(yīng)用的同時(shí)兼顧傳統(tǒng)的科學(xué)計(jì)算的應(yīng)用。根據(jù)上述工藝、結(jié)構(gòu)、功耗、應(yīng)用等幾個(gè)方面的趨勢(shì)，需要對(duì)處理器的微體系結(jié)構(gòu)進(jìn)行突破性的變革，這場(chǎng)變革應(yīng)該是一場(chǎng)由復(fù)雜到簡(jiǎn)單的變革，應(yīng)該面向網(wǎng)絡(luò)服務(wù)和媒體的應(yīng)用，應(yīng)該考慮低功耗的要求，應(yīng)該采用層次的結(jié)構(gòu)簡(jiǎn)化物理設(shè)計(jì)的復(fù)雜度。目前，片內(nèi)多處理器及多線程技術(shù)作為較好符合上述趨勢(shì)的處理器結(jié)構(gòu)技術(shù)正在成為處理器體系結(jié)構(gòu)設(shè)計(jì)的熱點(diǎn)。2國(guó)內(nèi)外現(xiàn)狀目前國(guó)外高性能微處理器的研制有兩個(gè)明顯的趨勢(shì)。一是研制高性能處理器的公司在市場(chǎng)的洗牌中越來越集中

14、到少數(shù)幾家；二是單處理器性能的繼續(xù)提高在主頻、結(jié)構(gòu)、功耗等方面都碰到了明顯的障礙，因此各微處理器公司都紛紛推出多核結(jié)構(gòu)的微處理器。在九十年代末生產(chǎn)主流通用處理器的廠家很多，如Intel、AMD、IBM、HP、SUN、DEC、SGI等公司，形成了在通用處理器市場(chǎng)群雄逐鹿的局面。然而，經(jīng)過近十年的市場(chǎng)洗牌，很多公司由于市場(chǎng)原因退出了通用處理器領(lǐng)域。目前，DEC、HP、SGI已經(jīng)逐漸退出了處理器設(shè)計(jì)的角逐。最早退出通用處理器市場(chǎng)的是DEC的Alpha處理器。Alpha處理器無論從結(jié)構(gòu)設(shè)計(jì)還是物理設(shè)計(jì)的角度都堪稱技術(shù)的經(jīng)典，甚至被很多教科書所采用，尤其是Alpha21264采用0.35um的工藝實(shí)現(xiàn)四

15、發(fā)射亂序執(zhí)行的結(jié)構(gòu)達(dá)到了600MHz的目標(biāo)，現(xiàn)在也很難找到另外一支隊(duì)伍能做出來。但在處理器市場(chǎng)中一個(gè)經(jīng)驗(yàn)的規(guī)律是：技術(shù)越先進(jìn)的公司，越?jīng)]有市場(chǎng)。在DEC公司實(shí)現(xiàn)把同時(shí)多線程結(jié)構(gòu)做到極致的Alpha21464過程中，DEC公司就在1998被Compaq收購(gòu)了。具有諷刺意義的是，Alpha處理器的最早收購(gòu)者，Compaq公司卻比它更早消失?；萜展驹诮?jīng)過一筆富有爭(zhēng)議的交易中合并了Compaq公司（這次的交易甚至導(dǎo)致了惠普管理層與包括惠普家族在內(nèi)的部分股東的長(zhǎng)時(shí)間的劇烈沖突）卻馬上面對(duì)一個(gè)個(gè)棘手的問題，即在擴(kuò)展基于新的64位構(gòu)架（IA64）系統(tǒng)生產(chǎn)線的同時(shí)，是否還要生產(chǎn)正在走下坡路的另外兩個(gè)系列的產(chǎn)

16、品（PA-RISC和Alpha）。目前，HP公司已經(jīng)宣布原Compaq的所有Alpha處理器開發(fā)和服務(wù)都將逐步中止（至2010年），而原先EV8的開發(fā)小組已經(jīng)完整地被Intel招募了并且馬上就投入了IA64架構(gòu)的研發(fā)工作中，Alpha退出歷史舞臺(tái)已經(jīng)是不爭(zhēng)的事實(shí)。HP公司自己開發(fā)的PA8000系列處理器在2004年1月發(fā)布雙核的PA8800芯片后也很久沒有看到新產(chǎn)品推出10。生產(chǎn)MIPS系列高性能處理器的SGI公司以2002年宣布停止MIPS18000的研發(fā)為標(biāo)志，也退出了處理器研發(fā)的歷史舞臺(tái)。由于連續(xù)十幾年的虧損，SGI公司已經(jīng)難以為繼。在剩下的幾個(gè)微處理器生產(chǎn)廠商IBM、Intel、AMD

17、和SUN中，前三者目前還看不到停止研發(fā)處理器的跡象，但I(xiàn)BM已經(jīng)宣布不再對(duì)外銷售Power系列處理器。SUN公司是否繼續(xù)研發(fā)處理器則很大程度上取決于其雄心勃勃的UltraSPARCV能否取得成功。下面對(duì)上述幾個(gè)公司在多核處理器的研發(fā)方面的情況做簡(jiǎn)單介紹。（1）IBM是最先推出多核微處理器的廠商，在高度自動(dòng)化的MPU開發(fā)工藝上采用0.13微米工藝實(shí)現(xiàn)的Power4+已成為多核微處理器的代表性產(chǎn)品。IBM在藍(lán)色基因巨型機(jī)中使用自己的雙核芯片，奠定了其在多核微處理器研制方面的領(lǐng)先地位。2001年發(fā)布的Power4片內(nèi)集成兩個(gè)Power3處理器核，每個(gè)核為8路超標(biāo)量處理器，亂序執(zhí)行，一級(jí)Cache私有

18、，分別含有32KB的數(shù)據(jù)Cache和64KB的指令Cache，共享片內(nèi)1.5MB的二級(jí)Cache。Power4采用180nm制造工藝銅互連，7層金屬布線，大約集成了1.74億個(gè)晶體管13。2004年IBM又發(fā)布了Power5，Power5是雙核同時(shí)多線程微處理器，集成兩個(gè)處理器核，每個(gè)核為同時(shí)多線程（SimultaneousMulti-Threading,簡(jiǎn)稱SMT）處理器，能夠同時(shí)執(zhí)行2個(gè)線程。Power5由Power4擴(kuò)展而來，改造為SMT僅增加了24的芯片面積。Power5片內(nèi)集成了1.92MB的二級(jí)Cache，此外還集成了三級(jí)Cache的目錄以及存儲(chǔ)控制器。Power5采用130nm制

19、造工藝，集成了大約2.76億個(gè)晶體管，工作頻率在1.90GHz左右14。Power4/Power5主要用于高性能服務(wù)器和適度規(guī)模并行計(jì)算機(jī)系統(tǒng)。2006年發(fā)布的Power6采用IBM的65nmSOI工藝，10層金屬層，目標(biāo)是5GHz。相對(duì)于90nm的工藝，在同樣功耗的情況下，性能提高了30%，主要原因是采用DSL（dual-stressline）技術(shù)，該技術(shù)通過在CMOSchannel加上不同的應(yīng)力來達(dá)到提高電子或電洞遷移率。Power6中主要通過電路設(shè)計(jì)提高主頻，其處理器核的頻率達(dá)到5GHz。Power6是兩路的多核處理器（ChipMulti-Processor，簡(jiǎn)稱CMP）設(shè)計(jì)，集成了兩個(gè)

20、同時(shí)多線程的處理器核，每個(gè)核含有私有的L2cache。4個(gè)Power6可以封裝在一個(gè)多芯片模組中（MCM），包括32MB的L3victimcache。（2）Intel在過去一直不斷對(duì)外表示，要推出超過十億晶體管的處理器以捍衛(wèi)摩爾定律，而Montecito就是Intel帶給全世界的答案：17.2億晶體管18。在晶體管數(shù)目的競(jìng)賽中，Intel憑借Montecito取得遙遙領(lǐng)先的地位。Montecito是一款雙核多線程處理器，同時(shí)開發(fā)指令集并行性和線程級(jí)并行性，每個(gè)處理器核在Itanium2的基礎(chǔ)上增加了2路阻塞多線程機(jī)制。Montecito采用90nm的制造工藝，片內(nèi)集成17.2億晶體管，每個(gè)處理

21、器核分別含有16KB一級(jí)指令Cache、16KB一級(jí)數(shù)據(jù)Cache、1MB二級(jí)指令Cache、256KB二級(jí)數(shù)據(jù)Cache以及12MB三級(jí)Cache，最大功耗大約為100W，但CPU會(huì)根據(jù)當(dāng)時(shí)的情況自動(dòng)超頻或降頻運(yùn)行，最低功耗可減少到70W。Montecito被MicroprocessorReport評(píng)為2004最佳的服務(wù)器處理器，于2005年下半年發(fā)布。Intel在自己微處理器的發(fā)展藍(lán)圖中指出，今后各個(gè)領(lǐng)域的CPU都將采用多核結(jié)構(gòu)。Intel基于P4系列的雙核處理器為SmithField，采用90nm工藝，將兩個(gè)P4的處理器直接封裝在芯片上采用共享前端總線的結(jié)構(gòu)，Yonah的處理器為共享L2

22、caches和系統(tǒng)接口，可以部分消除之前的前端總線競(jìng)爭(zhēng)沖突問題。2006年Intel推出了基于Core構(gòu)架的處理器Conroe（酷睿2），處理器核基于PentiumM，最重要的一點(diǎn)是增加了流水線的寬度，由處理3條x86指令到能處理4條x86指令，增強(qiáng)了SSE功能，由64位通路增加到128位的通路，以及能執(zhí)行128位的讀指令（load），在cache共享上，能動(dòng)態(tài)調(diào)節(jié)cache的分配，最優(yōu)化cache的性能。Intel的數(shù)據(jù)表明Conroe比上一代處理器在性能上提高了40%，而功耗降低了40%。（3）AMD和Intel一直是全球處理器市場(chǎng)上的兩大宿敵。面對(duì)處理器高功耗的制約，Intel和AMD不

23、約而同地將目光轉(zhuǎn)向了多核處理器。AMD發(fā)展64位多核CPU的步伐走在了Intel前面，2004年8月演示了雙核Opteron，其產(chǎn)品供貨于2005年中期開始。雙核Opteron片內(nèi)集成2個(gè)x86-64核，每個(gè)處理器核有獨(dú)立的L2cache，通過crossbar互聯(lián)處理器核和系統(tǒng)請(qǐng)求接口，片內(nèi)集成的內(nèi)存控制器，此外還集成互連和I/O控制器，包含3個(gè)HyperTransport接口，能夠方便地實(shí)現(xiàn)多處理器互連和I/O通信。雙核Opteron采用90nm制造工藝，晶體管數(shù)量在2億個(gè)以上，功耗小于95W，大大提高了微處理器的實(shí)際效能，相對(duì)于Intel早期推出的雙核處理器，AMD有極大的性能和功耗有效性

24、優(yōu)勢(shì)17，21。（4）SUN和IBM一直在高端服務(wù)器市場(chǎng)競(jìng)爭(zhēng)激烈。2001年，IBM率先發(fā)布了它的雙核處理器POWER4，而SUN公司直到2004年上半年才發(fā)布了它的第一款雙核微處理器UltraSPARCIV，并在下半年推出了UltraSPARCIV+。UltraSPARCIV采用CMT（chipmultithreading）技術(shù)，片上集成了兩個(gè)UltraSPARCIII的內(nèi)核、二級(jí)Cache的tag體和MCU，外部緩存16MB，每個(gè)內(nèi)核獨(dú)享8MB。UltraSPARCIV由德州儀器生產(chǎn)，采用0.13微米工藝，主頻1.2GHz，功耗100W，和UltraSPARCIII管腳兼容，實(shí)現(xiàn)系統(tǒng)的平滑

25、升級(jí)。UltraSPARCIV+是UltraSPARCIV的0.09微米工藝的升級(jí)版本，而且增加了片上高速緩存的容量，主頻1.8GHz。根據(jù)Sun公司內(nèi)部人士透露，Sun公司即將推出片內(nèi)8個(gè)處理器核，每個(gè)處理器核4線程的UntraSPARCV15。2004年Sun公司公布了Niagara，也稱為UltraSPARCT1，包括8個(gè)處理器核，每個(gè)核支持4個(gè)線程，共支持32個(gè)線程16。2006年8月，Sun公司推出了Niagara-2，包括8個(gè)Sparc的處理器核，每個(gè)核支持8個(gè)線程，共享4MB的L2cache，分為8個(gè)bank，16路組相聯(lián)，使用Crossbar把處理器核和L2cache互聯(lián)，含有

26、4個(gè)雙通道的FBDIMM（fullybufferedDIMM）內(nèi)存控制器，含有兩個(gè)網(wǎng)絡(luò)端口，1個(gè)PCI-Ex8的端口，其信號(hào)管腳為711個(gè)，管腳的總數(shù)為1831。與國(guó)外微處理器設(shè)計(jì)廠家不斷合并相對(duì)應(yīng)的是國(guó)內(nèi)微處理器設(shè)計(jì)能力在“十五”期間的快速增長(zhǎng)。在過去的五年中，國(guó)內(nèi)微處理器設(shè)計(jì)主要包括以下特點(diǎn)：（1）在通用處理器和嵌入式處理器的研發(fā)方面都蓬勃展開；（2）產(chǎn)業(yè)化剛開始起步，還需要較長(zhǎng)時(shí)間形成規(guī)模產(chǎn)業(yè)化；（3）主要集中在單處理器核的設(shè)計(jì)方面，部分研究單位在單處理器的研發(fā)方面已經(jīng)達(dá)到很高的水平，可望在“十一五”期間展開多核處理器的研發(fā)。在國(guó)家863計(jì)劃和中國(guó)科學(xué)院知識(shí)創(chuàng)新工程資助下，中科院計(jì)算所從

27、事龍芯系列高性能通用處理器的研制，先后完成32位的龍芯1號(hào)、64位的龍芯2號(hào)和龍芯2號(hào)增強(qiáng)型處理器（簡(jiǎn)稱龍芯2E）的研制。龍芯2E兼容MIPSIII指令系統(tǒng),采用四發(fā)射的動(dòng)態(tài)超標(biāo)量超流水線結(jié)構(gòu),實(shí)現(xiàn)了先進(jìn)的轉(zhuǎn)移猜測(cè)、寄存器重命名、動(dòng)態(tài)調(diào)度等亂序執(zhí)行技術(shù)，以及非阻塞的Cache訪問、取數(shù)猜測(cè)（LoadSpeculation）、存數(shù)合并緩存（StoreFillBuffer）等動(dòng)態(tài)存儲(chǔ)訪問機(jī)制。龍芯2E的浮點(diǎn)部件能夠支持SIMD結(jié)構(gòu)的媒體運(yùn)算以及雙單精度（Paired-Single）的浮點(diǎn)運(yùn)算。龍芯2E片內(nèi)含64KB一級(jí)指令高速緩存、64KB一級(jí)數(shù)據(jù)高速緩存、以及512KB二級(jí)高速緩存，片內(nèi)集成了D

28、DR內(nèi)存控制器。龍芯2E采用意法半導(dǎo)體(ST)90nm工藝設(shè)計(jì)，主頻達(dá)到1GHz，具有低功耗（58瓦）、高安全性特點(diǎn)，SPECCPU2000的定點(diǎn)/浮點(diǎn)實(shí)測(cè)分值均達(dá)到500分，性能與中檔的IntelP4處理器相當(dāng)?；邶埿?E的Linux-PC系統(tǒng)可以滿足絕大多數(shù)的桌面應(yīng)用，包括運(yùn)行瀏覽器、辦公套件、播放多媒體視頻等。龍芯2E于2006年9月通過中科院組織的鑒定，鑒定專家組一致認(rèn)為：“龍芯2E高性能通用CPU芯片在單處理器設(shè)計(jì)方面已達(dá)到國(guó)際先進(jìn)水平，居國(guó)內(nèi)通用CPU研制領(lǐng)先水平”。基于龍芯2E的低成本龍夢(mèng)電腦、龍芯筆記本等樣機(jī)已經(jīng)研制出來，正進(jìn)入試點(diǎn)階段，產(chǎn)業(yè)化前景良好1，2。目前，計(jì)算所正進(jìn)

29、行龍芯3號(hào)多核處理器的研制。龍芯3號(hào)將采用可擴(kuò)展設(shè)計(jì)，處理器核數(shù)目很容易從幾個(gè)擴(kuò)展到幾十個(gè)；將采用超級(jí)虛擬機(jī)技術(shù)，使得多種指令集（包括MIPS、SunSparc、X86）應(yīng)用能夠同時(shí)運(yùn)行。此外，對(duì)于傳統(tǒng)的如何利用多處理器核加速單線程問題，龍芯3號(hào)也將會(huì)采用軟硬件結(jié)合的并行虛擬機(jī)方式加以解決。根據(jù)龍芯發(fā)展路線圖，龍芯3號(hào)的第一個(gè)原型芯片將于2007年底推出。2003年，國(guó)防科技大學(xué)承擔(dān)了863計(jì)劃高性能通用CPU芯片重大研究課題（YHFT64-I），2005年國(guó)防科大又承擔(dān)了該項(xiàng)目的滾動(dòng)支持項(xiàng)目。YHFT64-I采用目前EPIC技術(shù)，利用軟硬件方法實(shí)現(xiàn)Intel指令集兼容，能夠并發(fā)執(zhí)行8條指令。

30、芯片設(shè)計(jì)采用了大量先進(jìn)的微體系結(jié)構(gòu)技術(shù)，如：多級(jí)分支預(yù)測(cè)技術(shù)、寄存器堆棧技術(shù)、控制前瞻/數(shù)據(jù)前瞻、謂詞執(zhí)行技術(shù)以及低功耗技術(shù)等，能夠有效開發(fā)指令集并行性，極大提高處理器性能。YHFT64-1支持通用操作系統(tǒng)，支持多處理器結(jié)構(gòu)，支持?jǐn)?shù)據(jù)庫(kù)、WEB等服務(wù)器應(yīng)用。該芯片所有設(shè)計(jì)已經(jīng)完成，采用Chartered0.13mNominal1P8M工藝，核心邏輯規(guī)模5800萬晶體管，采用HPBGA封裝，功耗12瓦，面積10X10mm2，引腿696個(gè)，工作頻率300MHz，在2005年上半年完成投片。此外，中芯微電子和北京大學(xué)、清華大學(xué)、同濟(jì)大學(xué)等單位也已研制成功嵌入式CPU以及有關(guān)的SOC。3高性能微處理器

31、發(fā)展前沿3.1研究中的幾種新型體系結(jié)構(gòu)的處理芯片下面簡(jiǎn)單介紹國(guó)外研究中的幾種新型體系結(jié)構(gòu)的處理芯片。(1)IBM開發(fā)中的千萬億次（PetaFLOPS）計(jì)算機(jī)藍(lán)色基因（BlueGene）中的核心處理芯片是探索新型高性能CPU體系結(jié)構(gòu)的重要一步。該芯片中含32個(gè)簡(jiǎn)單的PowerPC處理器及內(nèi)嵌的DRAM，峰值性能可達(dá)到32GFLOPS。將DRAM集成在片內(nèi)，使處理器到存儲(chǔ)器的訪問延遲大為縮短，訪問帶寬大大提高，也很大程度上減少了能量的消耗。為了通過精簡(jiǎn)設(shè)計(jì)提高運(yùn)算速度和極大地降低功耗，每個(gè)處理器能執(zhí)行的指令的數(shù)量都大大地減少了，但每個(gè)處理器仍可支持8個(gè)同時(shí)執(zhí)行的線程以提高處理器利用率。片上還集成了

32、6個(gè)2GB/s帶寬的通道以實(shí)現(xiàn)與系統(tǒng)中其它同類芯片的通信。另外，考慮到構(gòu)建超大規(guī)模計(jì)算系統(tǒng)時(shí)不可避免地會(huì)碰到因某個(gè)（些）結(jié)點(diǎn)失效而影響整體系統(tǒng)可用性的情況，它嘗試采用自穩(wěn)定和自修復(fù)的技術(shù)，即自動(dòng)地從個(gè)別處理器或線程的失效中恢復(fù)過來。為此，在硬件上，處理器和通信鏈路上都采用了大量的冗余設(shè)計(jì)，在軟件上，也需要特別增加分布式控制和恢復(fù)的機(jī)制。圖1RAW中一個(gè)處理器的框圖(2)MIT研究的可重構(gòu)RAW處理芯片采用了另一種思路27。RAW在單個(gè)芯片上將幾百個(gè)非常簡(jiǎn)單的處理單元，用可重構(gòu)邏輯連接起來，實(shí)現(xiàn)高度并行的體系結(jié)構(gòu)。RAW允許編譯器（或其它相當(dāng)?shù)能浖ぞ撸┲匦聵?gòu)建硬件體系結(jié)構(gòu)的低層細(xì)節(jié)，對(duì)每個(gè)要加

33、速的應(yīng)用實(shí)現(xiàn)最佳的資源分配。這種結(jié)構(gòu)設(shè)計(jì)簡(jiǎn)單，單元內(nèi)部和單元之間的互連線短，能充分地支持流水線并行性，特別適于未來線寬變窄的半導(dǎo)體制造工藝。RAW的研究者認(rèn)為，開始時(shí)，RAW體系結(jié)構(gòu)還只適于流式的信號(hào)處理計(jì)算，但RAW方法未來將發(fā)展成為普適的解決方案。圖1給出了RAW中一個(gè)處理器的框圖。其中下半部分就是一個(gè)普通的RISC流水線處理器（其復(fù)雜度跟龍芯1號(hào)差不多）。其特殊之處在于在執(zhí)行部件前的旁路部分，除了常規(guī)從寄存器中取出的操作數(shù)和從功能部件剛算出的操作數(shù)外，還有通過通信網(wǎng)絡(luò)從別的處理器那里送過來的操作數(shù)。在靈活的互連網(wǎng)絡(luò)的配合下，這個(gè)機(jī)制巧妙地把多個(gè)處理器的功能部件耦合在一起，構(gòu)成功能復(fù)雜、動(dòng)

34、態(tài)重構(gòu)的并行處理系統(tǒng)。(3)在2005年國(guó)際固態(tài)電路會(huì)議（ISSCC）上，IBM、Sony和Toshiba首次公開介紹了設(shè)計(jì)中的Cell高性能處理芯片30。這三個(gè)企業(yè)聯(lián)合設(shè)計(jì)Cell芯片的工作始于2001年3月。Cell的一個(gè)主要用途是Sony的第三代Playstation游戲機(jī)PS3，但I(xiàn)BM同時(shí)也宣稱，Cell將是片上超級(jí)計(jì)算機(jī)（supercomputer-on-a-chip）。從ISSCC2005上披露的第一款Cell芯片的情況來看，它確實(shí)能同時(shí)滿足前述兩個(gè)方面的應(yīng)用要求。Cell處理芯片可在4GHz頻率下工作，其宣稱的峰值浮點(diǎn)運(yùn)算速度為256GFLOPS，可惜這只是單精度且不符合IEE

35、E754標(biāo)準(zhǔn)的浮點(diǎn)運(yùn)算（如果針對(duì)游戲應(yīng)用，這是合適的，因?yàn)樗俣缺染雀匾?。Cell同時(shí)也支持完全符合IEEE754標(biāo)準(zhǔn)的雙精度浮點(diǎn)運(yùn)算，但速度約是單精度的十分之一，估計(jì)為25-30GFLOPS。即使這個(gè)速度，也達(dá)到了當(dāng)前主流高性能微處理芯片的5-10倍。因此，基于Cell處理芯片，在一個(gè)機(jī)柜里就可以實(shí)現(xiàn)足以躋身TOP500排行榜前列的超級(jí)計(jì)算機(jī)。Cell采用了與主流高性能處理芯片全然不同的片內(nèi)分布式體系結(jié)構(gòu)（圖2）。總體上看，它由一個(gè)相對(duì)比較簡(jiǎn)單的支持同時(shí)雙線程并行的雙發(fā)射64位PowerPC內(nèi)核（稱為PPE）和8個(gè)SIMD型向量協(xié)處理器（稱為SPE）構(gòu)成。片內(nèi)有一個(gè)高帶寬的環(huán)狀高速總線（

36、EIB）把PPE、SPE及RAMBUS內(nèi)存接口控制器（MIC）、FlexI/O外部總線接口控制器（BIC）連接起來。PPE主要負(fù)責(zé)控制并執(zhí)行操作系統(tǒng)，SPE完成主要的計(jì)算任務(wù)。SPE的SIMD執(zhí)行部件是128位寬的，從而可在一個(gè)時(shí)鐘周期里完成4個(gè)32位的定點(diǎn)或浮點(diǎn)乘加運(yùn)算。SPE里內(nèi)置了256KB的SRAM作為局部存儲(chǔ)器（它的編址獨(dú)立于片外的DRAM）。不采用自動(dòng)調(diào)配數(shù)據(jù)的cache機(jī)制，使SPE更像一個(gè)向量處理器，從而也更多地依賴程序員或編譯器的作用來發(fā)揮性能。同樣，SPE里沒有動(dòng)態(tài)分支預(yù)測(cè)機(jī)制。所以，SPE配備了較大的寄存器堆（128個(gè)128位的寄存器）來盡量減少對(duì)存儲(chǔ)器的訪問，并盡可能地

37、展開循環(huán)、減少分支。Cell雖然實(shí)現(xiàn)了很高的性能，但也存在一些問題。例如，如果要往游戲或多媒體以外的應(yīng)用發(fā)展，編程模型和軟件開發(fā)問題還沒有很好解決。又如，前面提到的芯片設(shè)計(jì)的復(fù)雜度和功耗問題也沒有很好地解決。Cell的第一款芯片用42.5mm尺寸的BGA封裝，共1236個(gè)接觸點(diǎn)，其中506個(gè)是信號(hào)。據(jù)估計(jì)在1.1V供電4GHz運(yùn)行時(shí)，芯片功耗約50-80瓦（據(jù)說1.4V供電時(shí)可運(yùn)行到5.6GHz，功耗180瓦）。90納米SOI工藝全定制實(shí)現(xiàn)，8層銅連線，芯片面積為221mm2，含2.34億晶體管。這個(gè)復(fù)雜度已經(jīng)超過了Intel的安騰二代，如果想用在家用游戲機(jī)里，成本是個(gè)大問題（據(jù)說Sony計(jì)劃在PS3里采用只包括4個(gè)SPE的Cell版本）。Cell芯片采用42.5mm(4)IBM和德克薩斯州立大學(xué)聯(lián)合開發(fā)中的TRIPS（Tera-OpReliableIntelligentlyadaptiveprocessingSystem）芯片是設(shè)計(jì)具有每秒萬億次運(yùn)算能力芯片的第一個(gè)嘗試28，29。TRIPS結(jié)構(gòu)采用粗粒度的處理器內(nèi)核，以便在有

人人文庫(kù)> 全部分類> 教育資料 > 備課教案

溫馨提示

1. 本站所有資源如無特殊說明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽，若沒有圖紙預(yù)覽就沒有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間，僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理，對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容，請(qǐng)與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

CPU的發(fā)展趨勢(shì)上課講義

文檔簡(jiǎn)介

溫馨提示

最新文檔

評(píng)論

CPU的發(fā)展趨勢(shì)上課講義

文檔簡(jiǎn)介

溫馨提示

最新文檔

評(píng)論

相關(guān)文檔