CPU的發(fā)展趨勢(shì)上課講義_第1頁(yè)
CPU的發(fā)展趨勢(shì)上課講義_第2頁(yè)
CPU的發(fā)展趨勢(shì)上課講義_第3頁(yè)
CPU的發(fā)展趨勢(shì)上課講義_第4頁(yè)
CPU的發(fā)展趨勢(shì)上課講義_第5頁(yè)
已閱讀5頁(yè),還剩18頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、Good is good, but better carries it.精益求精,善益求善。CPU的發(fā)展趨勢(shì)-CPU的發(fā)展趨勢(shì)1技術(shù)發(fā)展趨勢(shì)(1)工藝的影響。在過去30多年的發(fā)展過程中,高性能微處理器基本上都是按照著名的摩爾定律在發(fā)展。根據(jù)世界半導(dǎo)體行業(yè)共同制訂的2003年國(guó)際半導(dǎo)體技術(shù)發(fā)展路線圖及其2004年更新,未來15年集成電路仍將按摩爾定律持續(xù)高速發(fā)展。預(yù)測(cè)到2010年,高性能CPU芯片上可集成的晶體管數(shù)將超過20億個(gè)(到2018年超過140億個(gè))4。半導(dǎo)體技術(shù)的這些進(jìn)步,為處理器的設(shè)計(jì)者提供了更多的資源(無論是晶體管的數(shù)量和種類)來實(shí)現(xiàn)更高性能的芯片,從而有可能在單個(gè)芯片上創(chuàng)造更復(fù)雜

2、和更靈活的系統(tǒng)。隨著晶體管集成度的越來越高、頻率和計(jì)算速度的越來越快,芯片的功耗問題、晶體管的封裝、芯片的蝕刻等越來越難以處理。這些因素使得摩爾定律本身的發(fā)展及其對(duì)處理器的影響發(fā)生了一些深刻的變化。首先,根據(jù)上述的路線圖,摩爾定律指出的發(fā)展趨勢(shì)已經(jīng)變緩,由原來的1.5年一代變?yōu)?-3年一代。除了技術(shù)本身的難度增加以外,集成電路生產(chǎn)線更新?lián)Q代的成本越來越昂貴,生產(chǎn)廠家需要更多的時(shí)間來收回生產(chǎn)線成本也是一個(gè)重要原因。其次,處理器主頻正在和摩爾定律分道揚(yáng)鑣。摩爾定律本質(zhì)上是晶體管的尺寸以及晶體管的翻轉(zhuǎn)速度的變化的定律,但由于商業(yè)的原因,摩爾定律同時(shí)被賦予每1.5年主頻提高一倍的含義4,5,6。事實(shí)上

3、過去每代微處理器主頻是上代產(chǎn)品的兩倍中,其中只有1.4倍來源于器件的按比例縮小,另外1.4倍來源于結(jié)構(gòu)的優(yōu)化,即流水級(jí)中邏輯門數(shù)目的減少。但目前的高主頻處理器中,指令流水線的劃分已經(jīng)很細(xì),很難再細(xì)分。例如,PentiumIV的20級(jí)流水線中有兩級(jí)只進(jìn)行數(shù)據(jù)的傳輸,沒有進(jìn)行任何有用的運(yùn)算。另外,集成度的提高意味著線寬變窄,信號(hào)在片內(nèi)傳輸單位距離所需的延遲也相應(yīng)增大,連線延遲而不是晶體管翻轉(zhuǎn)速度將越來越主導(dǎo)處理器的主頻。功耗和散熱問題也給進(jìn)一步提高處理器主頻設(shè)置了很大的障礙。因此,摩爾定律將恢復(fù)其作為關(guān)于晶體管尺寸及其翻轉(zhuǎn)速度的本來面目,摩爾定律中關(guān)于處理器主頻部分將逐漸失效。此外,雖然集成度的提

4、高為處理器的設(shè)計(jì)者提供了更多的資源來實(shí)現(xiàn)更高性能的芯片,但處理器復(fù)雜度的增加將大大增加設(shè)計(jì)周期和設(shè)計(jì)成本。針對(duì)上述問題,芯片設(shè)計(jì)越來越強(qiáng)調(diào)結(jié)構(gòu)的層次化、功能部件的模塊化和分布化,即每個(gè)功能部件都相對(duì)地簡(jiǎn)單,部件內(nèi)部盡可能保持通信的局部性。(2)結(jié)構(gòu)的影響。在計(jì)算機(jī)過去60年的發(fā)展歷程中,工藝技術(shù)的發(fā)展和結(jié)構(gòu)的進(jìn)步相得益彰,推動(dòng)著計(jì)算機(jī)功能和性能的不斷提高。工藝技術(shù)的發(fā)展給結(jié)構(gòu)的進(jìn)步提供了基礎(chǔ),而結(jié)構(gòu)的進(jìn)步不僅給工藝技術(shù)的發(fā)展提供了用武之地,同時(shí)也是工藝技術(shù)發(fā)展的動(dòng)力3。在過去60年的發(fā)展歷程中,計(jì)算機(jī)的體系結(jié)構(gòu)每20年左右就出現(xiàn)一個(gè)較大突破,已經(jīng)經(jīng)歷了一個(gè)由簡(jiǎn)單到復(fù)雜,由復(fù)雜到簡(jiǎn)單,又由簡(jiǎn)單到

5、復(fù)雜的否定之否定過程。最早期的處理器結(jié)構(gòu)由于工藝技術(shù)的限制,不可能做得很復(fù)雜,一般都是串行執(zhí)行;后來隨著工藝技術(shù)的發(fā)展,處理器結(jié)構(gòu)變得復(fù)雜,流水線技術(shù)、動(dòng)態(tài)調(diào)度技術(shù)、CACHE技術(shù)、向量機(jī)技術(shù)被廣泛使用,典型的代表如IBM360系列的機(jī)器以及Cray的向量機(jī);RISC技術(shù)的提出使處理器結(jié)構(gòu)得到一次較大的簡(jiǎn)化;但后來隨著工藝技術(shù)的進(jìn)一步發(fā)展以及多發(fā)射技術(shù)的實(shí)現(xiàn),RISC處理器的結(jié)構(gòu)變得越來越復(fù)雜。以Intel和HP為代表研制的EPIC結(jié)構(gòu)的實(shí)現(xiàn)并沒有從根本上對(duì)處理器結(jié)構(gòu)進(jìn)行本質(zhì)簡(jiǎn)化。在上述過程中,每一次由簡(jiǎn)單到復(fù)雜的變革都蘊(yùn)涵著進(jìn)一步簡(jiǎn)化的因素,例如在早期的復(fù)雜處理器CDC6600以及Cray向

6、量機(jī)中,已經(jīng)有了只由load和store進(jìn)行訪存的概念,IBM360/91中的Tomasulo算法被后來的RISC處理器普遍使用。同樣,每一次由復(fù)雜到簡(jiǎn)單的變革,也蘊(yùn)涵著再次復(fù)雜的基礎(chǔ),例如RISC結(jié)構(gòu)的特點(diǎn)使得它可以充分利用多發(fā)射以及亂序執(zhí)行來提高性能,而多發(fā)射和亂序執(zhí)行又會(huì)增加處理器的復(fù)雜度。以近年來RISC微處理器結(jié)構(gòu)沒有大的突破為標(biāo)志,RISC結(jié)構(gòu)已經(jīng)成熟?,F(xiàn)在的RISC微處理器普遍能允許幾十到上百條指令亂序執(zhí)行,如Alpha21264處理器的指令隊(duì)列最多可以容納80條指令,MIPSR10000為32條,HP8700為56條,POWER4為200多條,PIV為106條(PIV處理器雖然

7、指令系統(tǒng)是CISC,但內(nèi)部的微操作則具備了很多RISC的特征)7,8,9,12,13。目前,包括超標(biāo)量RISC和EPIC在內(nèi)的指令級(jí)并行技術(shù)使得處理器核變得十分復(fù)雜,通過進(jìn)一步增加處理器核的復(fù)雜度來提高性能已經(jīng)十分有限。同時(shí),由于以下原因,通過結(jié)構(gòu)的方法細(xì)分流水線來提高主頻的方法將來很難再延續(xù)下去:一是不可能使用少于6-8個(gè)FO4(等效4扇出反相器)產(chǎn)生出波形好的時(shí)鐘脈沖;二是隨著流水級(jí)的增加流水線結(jié)構(gòu)的效率會(huì)越來越低;三是由封裝承受能力引起的熱包封限制使得難以實(shí)施很深的互連流水線結(jié)構(gòu);四是結(jié)構(gòu)和電路的創(chuàng)新將越來越多地用于減輕給互連RC效應(yīng)帶來的不良影響而不太可能直接改善頻率響應(yīng)。目前的高主頻

8、處理器中,一級(jí)流水級(jí)只有10-15級(jí)FO4的延遲,考慮到控制流水線的鎖存器本身的延遲,實(shí)際留給有效處理工作的邏輯只有6-9級(jí)FO4,已經(jīng)難以再降低。因此,傳統(tǒng)的高主頻復(fù)雜設(shè)計(jì)遇到了越來越嚴(yán)重的障礙,需要探索新的結(jié)構(gòu)技術(shù)來在簡(jiǎn)化結(jié)構(gòu)設(shè)計(jì)的前提下充分利用摩爾定律提供的片內(nèi)晶體管,以進(jìn)一步提高處理器的功能和性能。(3)功耗問題。隨著主頻的不斷提高,功耗問題越來越突出?,F(xiàn)代的通用處理器功耗峰值已經(jīng)高達(dá)上百瓦。例如,Alpha21364為100瓦,AMDOpteron是90瓦,Intel的安騰2已超過100瓦。相應(yīng)地,主板上向CPU供電的電流已接近100安培,跟發(fā)動(dòng)汽車時(shí)蓄電池需要供出的電流差不多。最近

9、,Intel公司利用90nm工藝重新實(shí)現(xiàn)了Pentium4(簡(jiǎn)稱P4)。但新的P4竟然和原先用0.13微米工藝制造出來的P4跑一樣高的主頻(不超過4GHz)。這主要是因?yàn)镮ntel沒有辦法把芯片在高頻工作時(shí)的功耗降下來,如果進(jìn)一步提高主頻,芯片的功耗太大,芯片產(chǎn)生的熱量散不出去導(dǎo)致片內(nèi)溫度升高,反過來導(dǎo)致芯片的性能和芯片的穩(wěn)定性下降。有的發(fā)燒友通過提高芯片電壓并在芯片上加了異常復(fù)雜的散熱和冷卻裝置后,已經(jīng)把P4超頻工作到6.5GHz了(當(dāng)然這種工作狀態(tài)是不能持續(xù)太長(zhǎng)的時(shí)間的)。事實(shí)上,超過150瓦的功耗,無論是目前芯片的封裝還是主板的供電能力,都已經(jīng)難以為繼了。在移動(dòng)計(jì)算領(lǐng)域,功耗更是壓倒一切

10、的指標(biāo)。因此如何降低功耗的問題已經(jīng)十分迫切。CMOS電路的功耗與主頻和規(guī)模都成正比,跟電壓的平方成正比,而主頻在一定程度上又跟電壓成正比。降低功耗需要包括工藝技術(shù)、物理設(shè)計(jì)、體系結(jié)構(gòu)設(shè)計(jì)、系統(tǒng)軟件以及應(yīng)用軟件的共同努力。如果說傳統(tǒng)的CPU設(shè)計(jì)追求的是每秒運(yùn)行的次數(shù)(performancepersecond)以及每一塊錢所能買到的性能(performanceperdollar),那么在今天,每瓦特功耗所得到的性能(performanceperwatt)已經(jīng)成為越來越重要的指標(biāo)。因此,必須探索新的結(jié)構(gòu),通過包括工藝技術(shù)、物理設(shè)計(jì)、體系結(jié)構(gòu)設(shè)計(jì)、系統(tǒng)軟件以及應(yīng)用軟件的共同努力來降低功耗。(4)應(yīng)用的

11、變化。在計(jì)算機(jī)發(fā)展的初期,處理器性能的提高主要是為了滿足科學(xué)和工程計(jì)算的需求,非常重視浮點(diǎn)運(yùn)算能力;而且主頻不是很高,功耗的問題不是很突出。隨著Internet和媒體技術(shù)的迅猛發(fā)展,網(wǎng)絡(luò)服務(wù)和移動(dòng)計(jì)算逐漸成為一種非常重要的計(jì)算模式,這一新的計(jì)算模式迫切要求微處理器具有響應(yīng)實(shí)時(shí)性、處理流式數(shù)據(jù)類型的能力、支持?jǐn)?shù)據(jù)級(jí)和線程級(jí)并行性、更高的存儲(chǔ)和I/O帶寬、低功耗、低設(shè)計(jì)復(fù)雜性和設(shè)計(jì)的可伸縮性;要求縮短芯片進(jìn)入和退出市場(chǎng)的周期。此外還應(yīng)該看到,以個(gè)人電腦(PC)為主要應(yīng)用模式的桌面應(yīng)用已經(jīng)逐漸趨向飽和。一方面,對(duì)于大部分的桌面用戶(如上網(wǎng)、辦公、家庭應(yīng)用等),目前的PC性能已經(jīng)足夠,再通過定義新的應(yīng)

12、用來提高PC機(jī)的用戶對(duì)性能的要求(象Intel和Microsoft一直做的那樣)已經(jīng)有較大難度。另一方面,使用PC機(jī)的人群已經(jīng)趨向穩(wěn)定,如果需要大幅度增加計(jì)算機(jī)的使用人群,就需要通過使用模式等的革命大幅度降低計(jì)算機(jī)的購(gòu)買和使用成本。與此相對(duì)應(yīng)的是,雖然科學(xué)計(jì)算計(jì)算機(jī)已經(jīng)不是市場(chǎng)的主流產(chǎn)品,但人類對(duì)科學(xué)計(jì)算的需求是永無止境的,高性能計(jì)算技術(shù)在航空航天、石油勘探和開發(fā)、大范圍氣象預(yù)報(bào)、核爆炸模擬、材料設(shè)計(jì)、藥物設(shè)計(jì)、基因信息學(xué)、密碼學(xué)、人工智能、經(jīng)濟(jì)模型、數(shù)字電影等領(lǐng)域起著重要的作用。高性能計(jì)算機(jī)可以對(duì)所研究的對(duì)象進(jìn)行數(shù)值模擬和動(dòng)態(tài)顯示,獲得實(shí)驗(yàn)很難得到甚至得不到的結(jié)果,從而產(chǎn)生了除了理論科學(xué)和實(shí)

13、驗(yàn)科學(xué)以外的第三類科學(xué),即計(jì)算科學(xué)。在上述情況下,需要處理器的結(jié)構(gòu)充分利用集成度的提高帶來的海量晶體管資源,在滿足新型的網(wǎng)絡(luò)服務(wù)和媒體的應(yīng)用的同時(shí)兼顧傳統(tǒng)的科學(xué)計(jì)算的應(yīng)用。根據(jù)上述工藝、結(jié)構(gòu)、功耗、應(yīng)用等幾個(gè)方面的趨勢(shì),需要對(duì)處理器的微體系結(jié)構(gòu)進(jìn)行突破性的變革,這場(chǎng)變革應(yīng)該是一場(chǎng)由復(fù)雜到簡(jiǎn)單的變革,應(yīng)該面向網(wǎng)絡(luò)服務(wù)和媒體的應(yīng)用,應(yīng)該考慮低功耗的要求,應(yīng)該采用層次的結(jié)構(gòu)簡(jiǎn)化物理設(shè)計(jì)的復(fù)雜度。目前,片內(nèi)多處理器及多線程技術(shù)作為較好符合上述趨勢(shì)的處理器結(jié)構(gòu)技術(shù)正在成為處理器體系結(jié)構(gòu)設(shè)計(jì)的熱點(diǎn)。2國(guó)內(nèi)外現(xiàn)狀目前國(guó)外高性能微處理器的研制有兩個(gè)明顯的趨勢(shì)。一是研制高性能處理器的公司在市場(chǎng)的洗牌中越來越集中

14、到少數(shù)幾家;二是單處理器性能的繼續(xù)提高在主頻、結(jié)構(gòu)、功耗等方面都碰到了明顯的障礙,因此各微處理器公司都紛紛推出多核結(jié)構(gòu)的微處理器。在九十年代末生產(chǎn)主流通用處理器的廠家很多,如Intel、AMD、IBM、HP、SUN、DEC、SGI等公司,形成了在通用處理器市場(chǎng)群雄逐鹿的局面。然而,經(jīng)過近十年的市場(chǎng)洗牌,很多公司由于市場(chǎng)原因退出了通用處理器領(lǐng)域。目前,DEC、HP、SGI已經(jīng)逐漸退出了處理器設(shè)計(jì)的角逐。最早退出通用處理器市場(chǎng)的是DEC的Alpha處理器。Alpha處理器無論從結(jié)構(gòu)設(shè)計(jì)還是物理設(shè)計(jì)的角度都堪稱技術(shù)的經(jīng)典,甚至被很多教科書所采用,尤其是Alpha21264采用0.35um的工藝實(shí)現(xiàn)四

15、發(fā)射亂序執(zhí)行的結(jié)構(gòu)達(dá)到了600MHz的目標(biāo),現(xiàn)在也很難找到另外一支隊(duì)伍能做出來。但在處理器市場(chǎng)中一個(gè)經(jīng)驗(yàn)的規(guī)律是:技術(shù)越先進(jìn)的公司,越?jīng)]有市場(chǎng)。在DEC公司實(shí)現(xiàn)把同時(shí)多線程結(jié)構(gòu)做到極致的Alpha21464過程中,DEC公司就在1998被Compaq收購(gòu)了。具有諷刺意義的是,Alpha處理器的最早收購(gòu)者,Compaq公司卻比它更早消失?;萜展驹诮?jīng)過一筆富有爭(zhēng)議的交易中合并了Compaq公司(這次的交易甚至導(dǎo)致了惠普管理層與包括惠普家族在內(nèi)的部分股東的長(zhǎng)時(shí)間的劇烈沖突)卻馬上面對(duì)一個(gè)個(gè)棘手的問題,即在擴(kuò)展基于新的64位構(gòu)架(IA64)系統(tǒng)生產(chǎn)線的同時(shí),是否還要生產(chǎn)正在走下坡路的另外兩個(gè)系列的產(chǎn)

16、品(PA-RISC和Alpha)。目前,HP公司已經(jīng)宣布原Compaq的所有Alpha處理器開發(fā)和服務(wù)都將逐步中止(至2010年),而原先EV8的開發(fā)小組已經(jīng)完整地被Intel招募了并且馬上就投入了IA64架構(gòu)的研發(fā)工作中,Alpha退出歷史舞臺(tái)已經(jīng)是不爭(zhēng)的事實(shí)。HP公司自己開發(fā)的PA8000系列處理器在2004年1月發(fā)布雙核的PA8800芯片后也很久沒有看到新產(chǎn)品推出10。生產(chǎn)MIPS系列高性能處理器的SGI公司以2002年宣布停止MIPS18000的研發(fā)為標(biāo)志,也退出了處理器研發(fā)的歷史舞臺(tái)。由于連續(xù)十幾年的虧損,SGI公司已經(jīng)難以為繼。在剩下的幾個(gè)微處理器生產(chǎn)廠商IBM、Intel、AMD

17、和SUN中,前三者目前還看不到停止研發(fā)處理器的跡象,但I(xiàn)BM已經(jīng)宣布不再對(duì)外銷售Power系列處理器。SUN公司是否繼續(xù)研發(fā)處理器則很大程度上取決于其雄心勃勃的UltraSPARCV能否取得成功。下面對(duì)上述幾個(gè)公司在多核處理器的研發(fā)方面的情況做簡(jiǎn)單介紹。(1)IBM是最先推出多核微處理器的廠商,在高度自動(dòng)化的MPU開發(fā)工藝上采用0.13微米工藝實(shí)現(xiàn)的Power4+已成為多核微處理器的代表性產(chǎn)品。IBM在藍(lán)色基因巨型機(jī)中使用自己的雙核芯片,奠定了其在多核微處理器研制方面的領(lǐng)先地位。2001年發(fā)布的Power4片內(nèi)集成兩個(gè)Power3處理器核,每個(gè)核為8路超標(biāo)量處理器,亂序執(zhí)行,一級(jí)Cache私有

18、,分別含有32KB的數(shù)據(jù)Cache和64KB的指令Cache,共享片內(nèi)1.5MB的二級(jí)Cache。Power4采用180nm制造工藝銅互連,7層金屬布線,大約集成了1.74億個(gè)晶體管13。2004年IBM又發(fā)布了Power5,Power5是雙核同時(shí)多線程微處理器,集成兩個(gè)處理器核,每個(gè)核為同時(shí)多線程(SimultaneousMulti-Threading,簡(jiǎn)稱SMT)處理器,能夠同時(shí)執(zhí)行2個(gè)線程。Power5由Power4擴(kuò)展而來,改造為SMT僅增加了24的芯片面積。Power5片內(nèi)集成了1.92MB的二級(jí)Cache,此外還集成了三級(jí)Cache的目錄以及存儲(chǔ)控制器。Power5采用130nm制

19、造工藝,集成了大約2.76億個(gè)晶體管,工作頻率在1.90GHz左右14。Power4/Power5主要用于高性能服務(wù)器和適度規(guī)模并行計(jì)算機(jī)系統(tǒng)。2006年發(fā)布的Power6采用IBM的65nmSOI工藝,10層金屬層,目標(biāo)是5GHz。相對(duì)于90nm的工藝,在同樣功耗的情況下,性能提高了30%,主要原因是采用DSL(dual-stressline)技術(shù),該技術(shù)通過在CMOSchannel加上不同的應(yīng)力來達(dá)到提高電子或電洞遷移率。Power6中主要通過電路設(shè)計(jì)提高主頻,其處理器核的頻率達(dá)到5GHz。Power6是兩路的多核處理器(ChipMulti-Processor,簡(jiǎn)稱CMP)設(shè)計(jì),集成了兩個(gè)

20、同時(shí)多線程的處理器核,每個(gè)核含有私有的L2cache。4個(gè)Power6可以封裝在一個(gè)多芯片模組中(MCM),包括32MB的L3victimcache。(2)Intel在過去一直不斷對(duì)外表示,要推出超過十億晶體管的處理器以捍衛(wèi)摩爾定律,而Montecito就是Intel帶給全世界的答案:17.2億晶體管18。在晶體管數(shù)目的競(jìng)賽中,Intel憑借Montecito取得遙遙領(lǐng)先的地位。Montecito是一款雙核多線程處理器,同時(shí)開發(fā)指令集并行性和線程級(jí)并行性,每個(gè)處理器核在Itanium2的基礎(chǔ)上增加了2路阻塞多線程機(jī)制。Montecito采用90nm的制造工藝,片內(nèi)集成17.2億晶體管,每個(gè)處理

21、器核分別含有16KB一級(jí)指令Cache、16KB一級(jí)數(shù)據(jù)Cache、1MB二級(jí)指令Cache、256KB二級(jí)數(shù)據(jù)Cache以及12MB三級(jí)Cache,最大功耗大約為100W,但CPU會(huì)根據(jù)當(dāng)時(shí)的情況自動(dòng)超頻或降頻運(yùn)行,最低功耗可減少到70W。Montecito被MicroprocessorReport評(píng)為2004最佳的服務(wù)器處理器,于2005年下半年發(fā)布。Intel在自己微處理器的發(fā)展藍(lán)圖中指出,今后各個(gè)領(lǐng)域的CPU都將采用多核結(jié)構(gòu)。Intel基于P4系列的雙核處理器為SmithField,采用90nm工藝,將兩個(gè)P4的處理器直接封裝在芯片上采用共享前端總線的結(jié)構(gòu),Yonah的處理器為共享L2

22、caches和系統(tǒng)接口,可以部分消除之前的前端總線競(jìng)爭(zhēng)沖突問題。2006年Intel推出了基于Core構(gòu)架的處理器Conroe(酷睿2),處理器核基于PentiumM,最重要的一點(diǎn)是增加了流水線的寬度,由處理3條x86指令到能處理4條x86指令,增強(qiáng)了SSE功能,由64位通路增加到128位的通路,以及能執(zhí)行128位的讀指令(load),在cache共享上,能動(dòng)態(tài)調(diào)節(jié)cache的分配,最優(yōu)化cache的性能。Intel的數(shù)據(jù)表明Conroe比上一代處理器在性能上提高了40%,而功耗降低了40%。(3)AMD和Intel一直是全球處理器市場(chǎng)上的兩大宿敵。面對(duì)處理器高功耗的制約,Intel和AMD不

23、約而同地將目光轉(zhuǎn)向了多核處理器。AMD發(fā)展64位多核CPU的步伐走在了Intel前面,2004年8月演示了雙核Opteron,其產(chǎn)品供貨于2005年中期開始。雙核Opteron片內(nèi)集成2個(gè)x86-64核,每個(gè)處理器核有獨(dú)立的L2cache,通過crossbar互聯(lián)處理器核和系統(tǒng)請(qǐng)求接口,片內(nèi)集成的內(nèi)存控制器,此外還集成互連和I/O控制器,包含3個(gè)HyperTransport接口,能夠方便地實(shí)現(xiàn)多處理器互連和I/O通信。雙核Opteron采用90nm制造工藝,晶體管數(shù)量在2億個(gè)以上,功耗小于95W,大大提高了微處理器的實(shí)際效能,相對(duì)于Intel早期推出的雙核處理器,AMD有極大的性能和功耗有效性

24、優(yōu)勢(shì)17,21。(4)SUN和IBM一直在高端服務(wù)器市場(chǎng)競(jìng)爭(zhēng)激烈。2001年,IBM率先發(fā)布了它的雙核處理器POWER4,而SUN公司直到2004年上半年才發(fā)布了它的第一款雙核微處理器UltraSPARCIV,并在下半年推出了UltraSPARCIV+。UltraSPARCIV采用CMT(chipmultithreading)技術(shù),片上集成了兩個(gè)UltraSPARCIII的內(nèi)核、二級(jí)Cache的tag體和MCU,外部緩存16MB,每個(gè)內(nèi)核獨(dú)享8MB。UltraSPARCIV由德州儀器生產(chǎn),采用0.13微米工藝,主頻1.2GHz,功耗100W,和UltraSPARCIII管腳兼容,實(shí)現(xiàn)系統(tǒng)的平滑

25、升級(jí)。UltraSPARCIV+是UltraSPARCIV的0.09微米工藝的升級(jí)版本,而且增加了片上高速緩存的容量,主頻1.8GHz。根據(jù)Sun公司內(nèi)部人士透露,Sun公司即將推出片內(nèi)8個(gè)處理器核,每個(gè)處理器核4線程的UntraSPARCV15。2004年Sun公司公布了Niagara,也稱為UltraSPARCT1,包括8個(gè)處理器核,每個(gè)核支持4個(gè)線程,共支持32個(gè)線程16。2006年8月,Sun公司推出了Niagara-2,包括8個(gè)Sparc的處理器核,每個(gè)核支持8個(gè)線程,共享4MB的L2cache,分為8個(gè)bank,16路組相聯(lián),使用Crossbar把處理器核和L2cache互聯(lián),含有

26、4個(gè)雙通道的FBDIMM(fullybufferedDIMM)內(nèi)存控制器,含有兩個(gè)網(wǎng)絡(luò)端口,1個(gè)PCI-Ex8的端口,其信號(hào)管腳為711個(gè),管腳的總數(shù)為1831。與國(guó)外微處理器設(shè)計(jì)廠家不斷合并相對(duì)應(yīng)的是國(guó)內(nèi)微處理器設(shè)計(jì)能力在“十五”期間的快速增長(zhǎng)。在過去的五年中,國(guó)內(nèi)微處理器設(shè)計(jì)主要包括以下特點(diǎn):(1)在通用處理器和嵌入式處理器的研發(fā)方面都蓬勃展開;(2)產(chǎn)業(yè)化剛開始起步,還需要較長(zhǎng)時(shí)間形成規(guī)模產(chǎn)業(yè)化;(3)主要集中在單處理器核的設(shè)計(jì)方面,部分研究單位在單處理器的研發(fā)方面已經(jīng)達(dá)到很高的水平,可望在“十一五”期間展開多核處理器的研發(fā)。在國(guó)家863計(jì)劃和中國(guó)科學(xué)院知識(shí)創(chuàng)新工程資助下,中科院計(jì)算所從

27、事龍芯系列高性能通用處理器的研制,先后完成32位的龍芯1號(hào)、64位的龍芯2號(hào)和龍芯2號(hào)增強(qiáng)型處理器(簡(jiǎn)稱龍芯2E)的研制。龍芯2E兼容MIPSIII指令系統(tǒng),采用四發(fā)射的動(dòng)態(tài)超標(biāo)量超流水線結(jié)構(gòu),實(shí)現(xiàn)了先進(jìn)的轉(zhuǎn)移猜測(cè)、寄存器重命名、動(dòng)態(tài)調(diào)度等亂序執(zhí)行技術(shù),以及非阻塞的Cache訪問、取數(shù)猜測(cè)(LoadSpeculation)、存數(shù)合并緩存(StoreFillBuffer)等動(dòng)態(tài)存儲(chǔ)訪問機(jī)制。龍芯2E的浮點(diǎn)部件能夠支持SIMD結(jié)構(gòu)的媒體運(yùn)算以及雙單精度(Paired-Single)的浮點(diǎn)運(yùn)算。龍芯2E片內(nèi)含64KB一級(jí)指令高速緩存、64KB一級(jí)數(shù)據(jù)高速緩存、以及512KB二級(jí)高速緩存,片內(nèi)集成了D

28、DR內(nèi)存控制器。龍芯2E采用意法半導(dǎo)體(ST)90nm工藝設(shè)計(jì),主頻達(dá)到1GHz,具有低功耗(58瓦)、高安全性特點(diǎn),SPECCPU2000的定點(diǎn)/浮點(diǎn)實(shí)測(cè)分值均達(dá)到500分,性能與中檔的IntelP4處理器相當(dāng)?;邶埿?E的Linux-PC系統(tǒng)可以滿足絕大多數(shù)的桌面應(yīng)用,包括運(yùn)行瀏覽器、辦公套件、播放多媒體視頻等。龍芯2E于2006年9月通過中科院組織的鑒定,鑒定專家組一致認(rèn)為:“龍芯2E高性能通用CPU芯片在單處理器設(shè)計(jì)方面已達(dá)到國(guó)際先進(jìn)水平,居國(guó)內(nèi)通用CPU研制領(lǐng)先水平”。基于龍芯2E的低成本龍夢(mèng)電腦、龍芯筆記本等樣機(jī)已經(jīng)研制出來,正進(jìn)入試點(diǎn)階段,產(chǎn)業(yè)化前景良好1,2。目前,計(jì)算所正進(jìn)

29、行龍芯3號(hào)多核處理器的研制。龍芯3號(hào)將采用可擴(kuò)展設(shè)計(jì),處理器核數(shù)目很容易從幾個(gè)擴(kuò)展到幾十個(gè);將采用超級(jí)虛擬機(jī)技術(shù),使得多種指令集(包括MIPS、SunSparc、X86)應(yīng)用能夠同時(shí)運(yùn)行。此外,對(duì)于傳統(tǒng)的如何利用多處理器核加速單線程問題,龍芯3號(hào)也將會(huì)采用軟硬件結(jié)合的并行虛擬機(jī)方式加以解決。根據(jù)龍芯發(fā)展路線圖,龍芯3號(hào)的第一個(gè)原型芯片將于2007年底推出。2003年,國(guó)防科技大學(xué)承擔(dān)了863計(jì)劃高性能通用CPU芯片重大研究課題(YHFT64-I),2005年國(guó)防科大又承擔(dān)了該項(xiàng)目的滾動(dòng)支持項(xiàng)目。YHFT64-I采用目前EPIC技術(shù),利用軟硬件方法實(shí)現(xiàn)Intel指令集兼容,能夠并發(fā)執(zhí)行8條指令。

30、芯片設(shè)計(jì)采用了大量先進(jìn)的微體系結(jié)構(gòu)技術(shù),如:多級(jí)分支預(yù)測(cè)技術(shù)、寄存器堆棧技術(shù)、控制前瞻/數(shù)據(jù)前瞻、謂詞執(zhí)行技術(shù)以及低功耗技術(shù)等,能夠有效開發(fā)指令集并行性,極大提高處理器性能。YHFT64-1支持通用操作系統(tǒng),支持多處理器結(jié)構(gòu),支持?jǐn)?shù)據(jù)庫(kù)、WEB等服務(wù)器應(yīng)用。該芯片所有設(shè)計(jì)已經(jīng)完成,采用Chartered0.13mNominal1P8M工藝,核心邏輯規(guī)模5800萬晶體管,采用HPBGA封裝,功耗12瓦,面積10X10mm2,引腿696個(gè),工作頻率300MHz,在2005年上半年完成投片。此外,中芯微電子和北京大學(xué)、清華大學(xué)、同濟(jì)大學(xué)等單位也已研制成功嵌入式CPU以及有關(guān)的SOC。3高性能微處理器

31、發(fā)展前沿3.1研究中的幾種新型體系結(jié)構(gòu)的處理芯片下面簡(jiǎn)單介紹國(guó)外研究中的幾種新型體系結(jié)構(gòu)的處理芯片。(1)IBM開發(fā)中的千萬億次(PetaFLOPS)計(jì)算機(jī)藍(lán)色基因(BlueGene)中的核心處理芯片是探索新型高性能CPU體系結(jié)構(gòu)的重要一步。該芯片中含32個(gè)簡(jiǎn)單的PowerPC處理器及內(nèi)嵌的DRAM,峰值性能可達(dá)到32GFLOPS。將DRAM集成在片內(nèi),使處理器到存儲(chǔ)器的訪問延遲大為縮短,訪問帶寬大大提高,也很大程度上減少了能量的消耗。為了通過精簡(jiǎn)設(shè)計(jì)提高運(yùn)算速度和極大地降低功耗,每個(gè)處理器能執(zhí)行的指令的數(shù)量都大大地減少了,但每個(gè)處理器仍可支持8個(gè)同時(shí)執(zhí)行的線程以提高處理器利用率。片上還集成了

32、6個(gè)2GB/s帶寬的通道以實(shí)現(xiàn)與系統(tǒng)中其它同類芯片的通信。另外,考慮到構(gòu)建超大規(guī)模計(jì)算系統(tǒng)時(shí)不可避免地會(huì)碰到因某個(gè)(些)結(jié)點(diǎn)失效而影響整體系統(tǒng)可用性的情況,它嘗試采用自穩(wěn)定和自修復(fù)的技術(shù),即自動(dòng)地從個(gè)別處理器或線程的失效中恢復(fù)過來。為此,在硬件上,處理器和通信鏈路上都采用了大量的冗余設(shè)計(jì),在軟件上,也需要特別增加分布式控制和恢復(fù)的機(jī)制。圖1RAW中一個(gè)處理器的框圖(2)MIT研究的可重構(gòu)RAW處理芯片采用了另一種思路27。RAW在單個(gè)芯片上將幾百個(gè)非常簡(jiǎn)單的處理單元,用可重構(gòu)邏輯連接起來,實(shí)現(xiàn)高度并行的體系結(jié)構(gòu)。RAW允許編譯器(或其它相當(dāng)?shù)能浖ぞ撸┲匦聵?gòu)建硬件體系結(jié)構(gòu)的低層細(xì)節(jié),對(duì)每個(gè)要加

33、速的應(yīng)用實(shí)現(xiàn)最佳的資源分配。這種結(jié)構(gòu)設(shè)計(jì)簡(jiǎn)單,單元內(nèi)部和單元之間的互連線短,能充分地支持流水線并行性,特別適于未來線寬變窄的半導(dǎo)體制造工藝。RAW的研究者認(rèn)為,開始時(shí),RAW體系結(jié)構(gòu)還只適于流式的信號(hào)處理計(jì)算,但RAW方法未來將發(fā)展成為普適的解決方案。圖1給出了RAW中一個(gè)處理器的框圖。其中下半部分就是一個(gè)普通的RISC流水線處理器(其復(fù)雜度跟龍芯1號(hào)差不多)。其特殊之處在于在執(zhí)行部件前的旁路部分,除了常規(guī)從寄存器中取出的操作數(shù)和從功能部件剛算出的操作數(shù)外,還有通過通信網(wǎng)絡(luò)從別的處理器那里送過來的操作數(shù)。在靈活的互連網(wǎng)絡(luò)的配合下,這個(gè)機(jī)制巧妙地把多個(gè)處理器的功能部件耦合在一起,構(gòu)成功能復(fù)雜、動(dòng)

34、態(tài)重構(gòu)的并行處理系統(tǒng)。(3)在2005年國(guó)際固態(tài)電路會(huì)議(ISSCC)上,IBM、Sony和Toshiba首次公開介紹了設(shè)計(jì)中的Cell高性能處理芯片30。這三個(gè)企業(yè)聯(lián)合設(shè)計(jì)Cell芯片的工作始于2001年3月。Cell的一個(gè)主要用途是Sony的第三代Playstation游戲機(jī)PS3,但I(xiàn)BM同時(shí)也宣稱,Cell將是片上超級(jí)計(jì)算機(jī)(supercomputer-on-a-chip)。從ISSCC2005上披露的第一款Cell芯片的情況來看,它確實(shí)能同時(shí)滿足前述兩個(gè)方面的應(yīng)用要求。Cell處理芯片可在4GHz頻率下工作,其宣稱的峰值浮點(diǎn)運(yùn)算速度為256GFLOPS,可惜這只是單精度且不符合IEE

35、E754標(biāo)準(zhǔn)的浮點(diǎn)運(yùn)算(如果針對(duì)游戲應(yīng)用,這是合適的,因?yàn)樗俣缺染雀匾?。Cell同時(shí)也支持完全符合IEEE754標(biāo)準(zhǔn)的雙精度浮點(diǎn)運(yùn)算,但速度約是單精度的十分之一,估計(jì)為25-30GFLOPS。即使這個(gè)速度,也達(dá)到了當(dāng)前主流高性能微處理芯片的5-10倍。因此,基于Cell處理芯片,在一個(gè)機(jī)柜里就可以實(shí)現(xiàn)足以躋身TOP500排行榜前列的超級(jí)計(jì)算機(jī)。Cell采用了與主流高性能處理芯片全然不同的片內(nèi)分布式體系結(jié)構(gòu)(圖2)。總體上看,它由一個(gè)相對(duì)比較簡(jiǎn)單的支持同時(shí)雙線程并行的雙發(fā)射64位PowerPC內(nèi)核(稱為PPE)和8個(gè)SIMD型向量協(xié)處理器(稱為SPE)構(gòu)成。片內(nèi)有一個(gè)高帶寬的環(huán)狀高速總線(

36、EIB)把PPE、SPE及RAMBUS內(nèi)存接口控制器(MIC)、FlexI/O外部總線接口控制器(BIC)連接起來。PPE主要負(fù)責(zé)控制并執(zhí)行操作系統(tǒng),SPE完成主要的計(jì)算任務(wù)。SPE的SIMD執(zhí)行部件是128位寬的,從而可在一個(gè)時(shí)鐘周期里完成4個(gè)32位的定點(diǎn)或浮點(diǎn)乘加運(yùn)算。SPE里內(nèi)置了256KB的SRAM作為局部存儲(chǔ)器(它的編址獨(dú)立于片外的DRAM)。不采用自動(dòng)調(diào)配數(shù)據(jù)的cache機(jī)制,使SPE更像一個(gè)向量處理器,從而也更多地依賴程序員或編譯器的作用來發(fā)揮性能。同樣,SPE里沒有動(dòng)態(tài)分支預(yù)測(cè)機(jī)制。所以,SPE配備了較大的寄存器堆(128個(gè)128位的寄存器)來盡量減少對(duì)存儲(chǔ)器的訪問,并盡可能地

37、展開循環(huán)、減少分支。Cell雖然實(shí)現(xiàn)了很高的性能,但也存在一些問題。例如,如果要往游戲或多媒體以外的應(yīng)用發(fā)展,編程模型和軟件開發(fā)問題還沒有很好解決。又如,前面提到的芯片設(shè)計(jì)的復(fù)雜度和功耗問題也沒有很好地解決。Cell的第一款芯片用42.5mm尺寸的BGA封裝,共1236個(gè)接觸點(diǎn),其中506個(gè)是信號(hào)。據(jù)估計(jì)在1.1V供電4GHz運(yùn)行時(shí),芯片功耗約50-80瓦(據(jù)說1.4V供電時(shí)可運(yùn)行到5.6GHz,功耗180瓦)。90納米SOI工藝全定制實(shí)現(xiàn),8層銅連線,芯片面積為221mm2,含2.34億晶體管。這個(gè)復(fù)雜度已經(jīng)超過了Intel的安騰二代,如果想用在家用游戲機(jī)里,成本是個(gè)大問題(據(jù)說Sony計(jì)劃在PS3里采用只包括4個(gè)SPE的Cell版本)。Cell芯片采用42.5mm(4)IBM和德克薩斯州立大學(xué)聯(lián)合開發(fā)中的TRIPS(Tera-OpReliableIntelligentlyadaptiveprocessingSystem)芯片是設(shè)計(jì)具有每秒萬億次運(yùn)算能力芯片的第一個(gè)嘗試28,29。TRIPS結(jié)構(gòu)采用粗粒度的處理器內(nèi)核,以便在有

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論