《嵌入式系統(tǒng)原理與技術(shù)》課件第7章-研究生-嵌入式與多核

上傳人：考*** IP屬地：山西上傳時間：2022-08-02 格式：PPT 頁數(shù)：114 大?。?.33MB 積分：9.6 舉報 版權(quán)申訴

《嵌入式系統(tǒng)原理與技術(shù)》課件第7章-研究生-嵌入式與多核_第2頁

《嵌入式系統(tǒng)原理與技術(shù)》課件第7章-研究生-嵌入式與多核_第3頁

《嵌入式系統(tǒng)原理與技術(shù)》課件第7章-研究生-嵌入式與多核_第4頁

《嵌入式系統(tǒng)原理與技術(shù)》課件第7章-研究生-嵌入式與多核_第5頁

已閱讀5頁，還剩109頁未讀，繼續(xù)免費閱讀

版權(quán)說明：本文檔由用戶提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請進行舉報或認領(lǐng)

文檔簡介

1、多核的背景多核出現(xiàn)的背景處理器的頻率以前是處理器性能的唯一標尺在摩爾定律指引下保持高速發(fā)展CPU速度每18個月提高一倍而價格下降為原來的二分之一主頻提高遭遇瓶頸由于晶體管數(shù)量倍增，會導致硅芯片所需要的電能、耗費功率大幅提升，甚至成幾何級數(shù)的增加 4GHz成為了無法逾越的一道坎Intel發(fā)布3.8GHz的產(chǎn)品，宣布停止4GHz的產(chǎn)品計劃AMD頻率超過2GHz以后無法大幅度提升CPU可以煎蛋？CPU功耗增長雙核處理器的發(fā)展高端的RISC處理器中在上個世紀末，HP和IBM已經(jīng)提出雙核處理器的可行性設(shè)計，成功推出了擁有雙內(nèi)核的HP PA8800和IBM Power4處理器Sun在2003年10月微處理

2、器論壇中，發(fā)表雙核心UltraSPARC處理器 x86平臺 AMD和Intel在2004年公布了各自的雙核計劃AMD率先在服務(wù)器和工作站領(lǐng)域引入雙核架構(gòu)Intel率先在臺式機領(lǐng)域引入雙核技術(shù)！超線程技術(shù)超線程：Hyper-Threading Technology邏輯的、虛擬的雙處理器同時執(zhí)行2個線程性能提升什么是超線程技術(shù)？通過在硬件上的微小改變增加獨立的一套指令指針、寄存器別名表、返回棧指針、高級編程中斷控制器等一些硬件投入利用特殊的硬件指令從軟件和操作系統(tǒng)的角度來看,單處理器CPU表現(xiàn)為兩個或更多的邏輯CPU邏輯CPU間采用共享的Cache、總線等重要資源，從而能保持較低的成本增加

3、優(yōu)點單處理器能使用線程級并行計算兼容多線程操作系統(tǒng)和軟件減少了CPU的閑置時間，提高了CPU的運行效率有數(shù)據(jù)表明，超線程技術(shù)的使用利用5%的硬件投入使系統(tǒng)性能提高了25%！超線程技術(shù)的不足超線程技術(shù)主要有以下兩個缺點單任務(wù)模式下邏輯處理器的閑置會造成資源浪費解決兩個邏輯處理器資源沖突時會產(chǎn)生延遲，沖突大量出現(xiàn)時會降低系統(tǒng)性能當運行單線程應(yīng)用軟件時，超線程技術(shù)甚至會降低系統(tǒng)性能，尤其在多線程操作系統(tǒng)運行單線程軟件時容易出現(xiàn)問題多核出現(xiàn)的背景（續(xù)）多核體系結(jié)構(gòu)多核片上多處理器CMP（Chip Multiprocessor）在一塊硅晶片上，集成多個計算核心每個計算核心都是一個完整而獨立的計算單體

4、核之間通過特定的硅晶片內(nèi)通信方式互連例如總線、共享緩存考慮多個處理核之間的功能分工、通信方式、存儲層次和制造工藝等約束CMP最早出現(xiàn)在1991年的Datawave結(jié)構(gòu)中設(shè)計可并行的處理器來解決視頻處理中的大量數(shù)據(jù)計算根據(jù)處理器中各個核類型的不同，多核芯片可以分為同構(gòu)多核體系（Homogeneous CMP）異構(gòu)多核體系（Heterogeneous CMP）多核技術(shù)指標CPU的主要性能指標前端總線(FSB)總線頻率，CPU與內(nèi)存直接數(shù)據(jù)交換速度數(shù)據(jù)傳輸最大帶寬取決于所有同時傳輸?shù)臄?shù)據(jù)的寬度和傳輸頻率前端總線的速度指的是數(shù)據(jù)傳輸?shù)乃俣菷SB已經(jīng)被放棄！目前是QPI，網(wǎng)狀結(jié)構(gòu)FSB一般只有1.6G，

5、QPI可以到25GFSB是總線，QPI是點對點，實際不是總線，無需原來的總線仲裁CPU的位和字長字長CPU在單位時間內(nèi)(同一時間)能一次處理的二進制數(shù)的位數(shù)目前主流是32位，也有64、128位字節(jié)和字長的區(qū)別8位稱為一個字節(jié)字長的長度是不固定的對于不同的CPU、字長的長度也不一樣CPU的主要性能指標緩存內(nèi)存是非常慢的期間，需要緩存（cache）加速L1 Cache(一級緩存)CPU第一層高速緩存可分為數(shù)據(jù)緩存和指令緩存L2 Cache(二級緩存)L3 Cache(三級緩存)一般用于服務(wù)器CPU的主要性能指標處理器指令體系CISCComplex Instruction Set Computing

6、，復雜指令集IA-32：（IA，Intel Architecture）英特爾體系架構(gòu)從486開始采用，32位IA-64：英特爾推出的64位CPU，采用EPIC指令體系x86-64：AMD公司，兼容于x86-32架構(gòu)RISCReduced Instruction Set Computing，精簡指令集EPICExplicitly Parallel Instruction Computing，顯性并行指令計算集成RISC和VLIW各自的優(yōu)勢技術(shù)指令字長為128位，包含三個40位的指令和一個8位的模板代碼CPU的主要性能指標指令集每款CPU指令系統(tǒng)不一樣兼容機是基本一樣Intel，AMD都是IA32

7、架構(gòu)有各自的微架構(gòu)指令的強弱不同指令集可分為復雜指令集和精簡指令集兩部分計算機專業(yè)會學習這兩種指令集匯編擴張指令集多媒體、復數(shù)、壓縮、編解碼、矢量運算Intel的MMX、SSE、 SSE2、SEE3AMD的3DNow!CPU內(nèi)核和I/O工作電壓CPU的工作電壓分為內(nèi)核電壓：驅(qū)動CPU核心芯片的電壓I/O電壓：驅(qū)動I/O電路的電壓通常CPU的核心電壓小于等于I/O電壓低電壓能解決耗電過大和發(fā)熱過高的問題采用低電壓的CPU的芯片總功耗降低了功耗降低，系統(tǒng)的運行成本就相應(yīng)降低，這對于便攜式和移動系統(tǒng)來說非常重要，使其現(xiàn)有的電池可以工作更長時間，從而使電池的使用壽命大大延長功耗降低，致使發(fā)熱量減少，

8、運行溫度不過高的CPU可以與系統(tǒng)更好的配合降低電壓是CPU主頻提高的重要因素之一封裝與制造工藝制造工藝的微米是指IC內(nèi)電路與電路之間的距離。高密集度是趨勢密度愈高的IC電路設(shè)計，意味著在同樣大小面積的IC中，可以擁有密度更高、功能更復雜的電路設(shè)計。制造工藝180nm130nm90nm （中國）65nm45nm（2007年）32nm（2008年）22nm（2009年）14nm（2014年？）多核核間通信核間通信機制多核CPU 的各個核心之間需要數(shù)據(jù)共享與同步片上高效通信機制主要有兩種通過連接核心的總線進行通信共享的二級或三級Cache通過連接核心的總線進行通信簡單、通信速度高可擴展性較差基于片

9、上的互連結(jié)構(gòu)每個CPU核心具有獨立的處理單元和Cache，各核心通過交叉開關(guān)或片上網(wǎng)絡(luò)等方式連接在一起，各CPU核心間通過消息通信可擴展性好，數(shù)據(jù)帶寬有保證硬件結(jié)構(gòu)復雜，軟件改動較大多核平衡設(shè)計Cache設(shè)計使用多級Cache來緩解處理器和主存之問的速度差距獨立的Cache芯片面積較大、功耗較高一致性問題共享Cache一定程度上的帶寬爭用帶寬緩解了帶寬壓力多核軟件設(shè)計優(yōu)化操作系統(tǒng)任務(wù)調(diào)度算法全局隊列調(diào)度和局部隊列調(diào)度多核的中斷處理多核的各處理器間需通過中斷方式進行通信同步與互斥機制多核的功耗低功耗已經(jīng)成為與面積和性能同等重要的設(shè)計目標多核從一定程度上緩解了單核處理器功耗過高的問題只能在不影響芯

10、片工作頻率的情況下相對地降低單個核心的功耗多核處理器結(jié)構(gòu)雙/多核心處理器雙核心處理器在一塊CPU基板上集成兩個處理器核心通過并行總線將各處理器核心連接起來是CMP(Chip Multi Processors，單芯片多處理器)中最基本、最簡單、最容易實現(xiàn)的一種類型RISC處理器領(lǐng)域雙核心甚至多核心都早已經(jīng)實現(xiàn)目前多核進入X86領(lǐng)域Intel和AMD相繼推出自己的雙核心處理器超線程技術(shù)與雙核心技術(shù)的區(qū)別很多普通用戶可能分不清楚超線程技術(shù)與雙核心技術(shù)。例如，開啟了超線程技術(shù)的Pentium 4 530與Pentium D 530在操作系統(tǒng)中都同樣被識別為兩顆處理器它們究竟是不是一樣的呢？這個問題確實

11、具有迷惑性從最簡單的方面講雙核心技術(shù)可以理解為兩個“物理”處理器，是一種“硬”的方式超線程技術(shù)只是兩個“邏輯”處理器，是一種“軟”的方式超線程技術(shù)采用資源共享方法雙核心技術(shù)采用資源重復方法超線程技術(shù)與雙核心技術(shù)的區(qū)別（續(xù)）單核一位廚師在同一時間只能做出一道美味的菜肴下一道菜必需等上一道菜完成后才可以繼續(xù)起一個爐頭做飯Hyper-Threading一個廚師用兩手同一時間熟兩個食物效率比單線稱處理好些有很多限制雙核兩個廚師分開煮兩個食物雙核心還會擁有Hyper-Threading技術(shù)，即代表兩個廚師兩只手，同一時間可以運作四個線程。四核處理器的典型結(jié)構(gòu)（同構(gòu)）左圖：每二核共享二級緩存右圖：四核

12、共享二級緩存Intel多核Intel的多核處理器2005年4月18日，英特爾歷史上第一顆雙核心處理器奔騰至尊版840以及配套的Intel 955X芯片組技術(shù)特征主頻為3.2GHz前端總線頻率為800MHz2M二級高速緩存（每個內(nèi)核1MB）支持英特爾EM64T（64位擴展技術(shù)）CPU die尺寸約206平方毫米，共集成了2.3億枚晶體管采用90nm工藝制造與超線程（HT）技術(shù)結(jié)合，同時處理四個軟件線程2005年7月12日發(fā)布的奔騰D 820雙核處理器英特爾第二款雙核心處理器該芯片之前的研發(fā)代號為Smithfield“單一處理器中具有兩個奔騰四處理核心簡單把兩個Pentium 4所采用的Presc

13、ott核心整合在同一個處理器內(nèi)部兩個核心共享前端總線每個核心都擁有獨立的1MB二級緩存兩個核心加起來一共擁有2MBcache數(shù)據(jù)的一致性問題處理器中的兩個內(nèi)核都擁有獨立的緩存必須保證每個物理內(nèi)核的緩存信息必須保持一致，否則出錯雙核心處理器需要“仲裁器”來作協(xié)調(diào)北橋芯片完成：兩個核心需要同步更新處理器內(nèi)緩存的數(shù)據(jù)時，需要通過前端總線再通過北橋作更新雙內(nèi)核英特爾至強處理器2005年11月2日，雙內(nèi)核英特爾至強處理器7000系列（原代號 “Paxville MP”）發(fā)布主頻為 3.0 GHz帶有 667 MHz 雙獨立系統(tǒng)總線該全新處理器將適用于采用英特爾 E8500 芯片組的現(xiàn)有平臺，此芯片組專為

14、雙內(nèi)核而設(shè)計。第一款硬件支持虛擬化的英特爾處理器至強5000系列雙核處理器2006年3月，英特爾低調(diào)推出了研發(fā)代號為Dempsey的至強5000系列雙核處理器英特爾第一款采用65nm工藝制造的至強處理器除了制造工藝外，與之前的至強處理器相比主要有以下兩點不同采用1066MHz前端總線，是先進的Bensley平臺支持的第一款處理器由于性能有賴于頻率，功耗過高、散熱困難的NetBurst架構(gòu)的終結(jié)產(chǎn)品Intel Core微架構(gòu)nm級制造工藝14級指令執(zhí)行管線和四組指令編碼器處理器流水線縮短了采用14級指令執(zhí)行管線設(shè)計此前Northwood和Willamette核心的流水線為20級Proscott

15、核心的PD和Celeron流水線為31級流水線越長頻率提升潛力越大缺點一旦分支預測失敗或者緩存不中的話，所耽誤的延遲時間越長如果一旦發(fā)生分支預測失敗或者緩存不中的情況，Prescott核心就會有39個周期的延遲。這要比其他的架構(gòu)延遲時間多得多內(nèi)建四組指令編碼器可在一個頻率周期內(nèi)，同時編碼四個x86指令自從AMD的K5之后，x86沒出現(xiàn)過四組指令編碼器的設(shè)計x86指令編碼器是非常難作的東西x86的指令長度、格式與尋址模式都相當?shù)奈蓙yIntel的NetBurst微處理器架構(gòu)，導入Trace Cache存放編碼后的微指令，改進并不是很明顯指令取指單元在一個頻率周期內(nèi)，從第一階指令緩存中，獲取(fe

16、tch)六個x86指令至指令編碼緩沖區(qū)(Instruction Queue)判定是否有符合宏指令融合的配對后將最多五個x86指令，交派給四組指令編碼器四組指令編碼器在每個頻率周期中，發(fā)給(issue)保留站(Reservation Station)四個編碼后的微指令保留站再將存放的微指令交派(dispatch)給五個執(zhí)行單元多核處理器高效內(nèi)存管理技術(shù)Memory Disambiguation技術(shù)內(nèi)存數(shù)據(jù)相依性預測功能降低Cache延遲方面有一個關(guān)鍵技術(shù)在存數(shù)和取數(shù)指令都亂序執(zhí)行的情況下，保證取數(shù)指令都能取回它前面的最近一條對同一地址的存數(shù)指令所存的值比如如果一條取數(shù)指令在一條存數(shù)指令之后且兩

17、條指令的地址相等，但取數(shù)指令先訪問Cache，也要保證取數(shù)指令取回該存數(shù)指令的值。在處理器將數(shù)據(jù)回存內(nèi)存的同時，預測后繼的加載指令是否采用相同的內(nèi)存地址，如果不是就可立即執(zhí)行加載動作，毋需等待該回存指令，這可大幅改善非循序執(zhí)行(Out-Of-Order Execution)核心的效率，以及縮短存取內(nèi)存的延遲如一條取數(shù)指令在一條存數(shù)指令之前且兩條指令的地址相等，但存數(shù)指令先訪問Cache，也要保證取數(shù)指令取回原來Cache中的值，而不是存數(shù)指令新存的值。這是有風險的。因為剛剛讀的數(shù)據(jù)可能會在CPU內(nèi)部的處理過程中發(fā)生變化，從而出現(xiàn)錯誤Intel稱這個系統(tǒng)非常聰明，可以得到不會發(fā)生變化的數(shù)據(jù)Ca

18、che管理每個核心分別內(nèi)建一組指令及二組數(shù)據(jù)預先擷取器共享的L2緩存控制器內(nèi)建兩組、可動態(tài)分配至不同的核心的數(shù)據(jù)預先擷取器可根據(jù)應(yīng)用程序數(shù)據(jù)的行為，進行指令與數(shù)據(jù)的預先擷取動作，讓所需要的內(nèi)存地址數(shù)據(jù)，盡量存放在緩存之中，減少存取內(nèi)存的次數(shù) Smart Cache對二級緩存的設(shè)計改進一，緩存的共享設(shè)計兩核共享一個2MB二級緩存當一個核心空閑時，另一個核心可以完全的訪問所有2MB緩存。增強了數(shù)據(jù)預取技術(shù)在緩存請求還未發(fā)生時可以猜測性的把數(shù)據(jù)預取到二級緩存數(shù)據(jù)緩存單元帶（Data Cache Unit Streamer）優(yōu)點可以更早的喚起一級緩存以增益二級緩存的預取性能共享緩存相對獨立緩存的一

19、個重要好處就是它降低了緩存的一致性復雜度過采用動態(tài)緩存分配技術(shù)對兩核進行智能的分配緩存使得兩個核心協(xié)作，可以增大緩存利用率又減少緩存的命中失效情況發(fā)生宏指令融合不使用宏指令融合使用宏指令融合宏指令：源程序中一段有獨立功能的程序代碼宏指令融合：2條宏指令融合為1條微指令節(jié)能機制緩存槽（cache ways）深度睡眠（Deeper sleep）增強型深度睡眠（Enhanced Deeper Sleep）Core 2 DuoIntel Wide Dynamic Execution（Intel寬位動態(tài)執(zhí)行）Intel酷睿微架構(gòu)擁有4組解碼器，可以同時獲取、分配、執(zhí)行和退回多達4條完整的指令（比

20、Pentium M架構(gòu)，包括Yonah增加一條）Intel酷睿微體系結(jié)構(gòu)在新加入宏指令集融合(Macro-Fusion)技術(shù)，可以讓處理器在解碼的同時，將同類的指令融合為單一的指令，減少處理的指令總數(shù)，讓處理器在更短的時間內(nèi)，以更低的功率處理更多的指令。Intel Intelligent Power Capability（Intel智能功率能力）新一代處理器在制程技術(shù)方面做出優(yōu)化，采用了先進的65nm Strained Silicon技術(shù)、加入Low-K Dielectric物質(zhì)及增加金屬層，相比上代90nm制程減少漏電情況達1000倍。而且通過先進的功率門控技術(shù)，來充分利用該微架構(gòu)的超精細邏

21、輯控制，降低處理器的功耗及發(fā)熱。Intel Advanced Smart Cache（Intel高級智能高速緩存）每個核心都可以動態(tài)支配100%的全部緩存，共享二級緩存，加強了多核心架構(gòu)效率，大幅增加了緩存的命中率，也可關(guān)閉部分緩存降低功耗。這樣可以降低緩存的命中失誤，減少數(shù)據(jù)延遲，改進處理器效率，增加絕對性能和每瓦特性能。Intel Smart Memory Access（Intel智能內(nèi)存訪問）對內(nèi)存讀取順序做出分析，智能、預測性的裝載下一條指令所需要的數(shù)據(jù)，大幅提高了執(zhí)行程序的效率。Intel Advanced Digital Media Boost（Intel高級數(shù)字媒體增強）擁有12

22、8bit的SIMD執(zhí)行能力，一個時鐘周期就可以完成一條指令，效率提升明顯六核心的酷睿i9從酷睿i7開始，內(nèi)存控制器已經(jīng)被放到CPU里面i96核心12線程6x256KB二級緩存12MB三級緩存32nm安騰服務(wù)器雙核安騰處理器2006年7月26日，之前研發(fā)代號為“Montecito”的安騰處理器，以英特爾安騰2處理器9000系列正式命名首發(fā)安騰處理器中首個在單一封裝Die上面具備可并行執(zhí)行雙線程的內(nèi)核和緩存級別的處理器集成了17.2億個晶體管和其它服務(wù)器相關(guān)技術(shù)，包括虛擬化支持耗電量只有100瓦Intel凌動系列處理器采用45nmHigh-K CMOS工藝制造集成4700萬個晶體管DIE核心面積均

23、為7.83.1毫米24.2平方毫米封裝硅片體積13141.6毫米統(tǒng)一配備512KB二級緩存支持SSE3指令集、VT虛擬化技術(shù)、EDB防毒技術(shù)、高級散熱管理技術(shù)功耗在800MHz頻率下的Silverthorne只有不到0.65瓦的功耗1雙核凌動英特爾Intel在2009年9月21日正式發(fā)布第一款雙核心的Atom處理器型號“Atom 330”，定價43美元1.6GHz主頻533MHz前端總線BGA 437接口二級緩存2512KB80核心處理器Intel展示了80核心處理器2007年2月代號為“Polaris”(北極星) “Terascale”工程的成果核心面積275平方毫米主頻3.16GHz電壓0

24、.95V數(shù)據(jù)帶寬1.62Tb/sIntel稱該處理器浮點運算能力可達到1.01TFlops(每秒萬億次)英特爾80核計算能力每秒2萬億次Larrabee眾核圖形支持 DirectX 和 OpenGL高吞吐率8到64個處理器核每個核是早期Pentium每個處理器核包含一個16路的SIMD處理單元包含固定功能的紋理處理單元整個芯片支持完整的cache一致性協(xié)議計算能力:1GHz的主頻、32個處理器核的情況下，處理器的計算能力能達到1 TeraFLOPS匯編指令集變化提高電腦在多媒體、3D圖形方面的應(yīng)用能力 MMX57條多媒體指令 SSEStreaming SIMD Extensions 3D NO

25、W!3D加速指令集怎么利用這些指令用專業(yè)編譯器2009年的SSE4.24.1包括47條指令，4.2包括7條指令。4.2增加兩類匯編：STTNI(STring & Text New Instructions)和ATA(Application Targeted Accelerators) 加速XML文本的字符串操作、存儲校驗XML的解析速度最高是原來的3.8倍。這就是為什么office2007采用XML，運行在新處理器上速度快？AMD多核AMD的多核處理器2005年的4月21日正式發(fā)布AMD的Athlon 64處理器內(nèi)部整和了內(nèi)存控制器在最初Athlon 64設(shè)計時就為雙核心做了考慮采用了SRQ

26、(System Request Queue,系統(tǒng)請求隊列)技術(shù)在工作的時候每一個核心都將其請求放在SRQ中當獲得資源之后請求將會被送往相應(yīng)的執(zhí)行核心緩存數(shù)據(jù)的一致性不需要通過北橋芯片，直接在處理器內(nèi)完成AMD雙核心處理器的仲裁器在CPU內(nèi)部而不是在北橋芯片上與主板芯片組無關(guān)Socket類型如今已經(jīng)推出的Athlon 64處理器的socket類型主要分為757以及939兩種。 Athlon 64 Socket 939多了185根針腳，控制第二條內(nèi)存通道時鐘頻率處理器的時鐘頻率主要通過每秒的周期數(shù)量來表示。它根據(jù)型號的不同，分為從1800 MHz到2600 MHz不等。制造工藝晶體管制造工藝到底是

27、130nm還是90 nm 。由于更小的制造工藝，晶元大小被從150mm2縮小到83mm2，使得相同的晶元有可能多生產(chǎn)75的處理器AMD的雙核是把兩顆內(nèi)核Core(s)集成在一塊晶片硅上，而Intel的雙核其實是用電路將兩個獨立的Packet(s)縫合在一起Intel的雙核架構(gòu)會遇到多個內(nèi)核爭用總線資源的瓶頸問題。AMD直連架構(gòu)(也就是通過超傳輸技術(shù)讓CPU內(nèi)核直接跟外部I/O相連，不通過前端總線)和集成內(nèi)存控制器技術(shù)，使得每個內(nèi)核都自己的高速緩存可資遣用，都有自己的專用車道直通I/O，沒有資源爭搶的問題，實現(xiàn)雙核和多核更容易AMD把兩顆內(nèi)核Core(s)集成在一塊晶片硅上，這樣做不僅提高了處理

28、器的并行處理能力，而且處理器的能耗和發(fā)熱并不會有所提高在多個物理處理器及多個邏輯處理器之間正確分配數(shù)據(jù)流、平衡運算任務(wù)并非易事 AMD PhenomTM X3 3核處理器世界上僅有的三核 x86 處理器技術(shù)特點第二代直聯(lián)架構(gòu)的Phenom X3處理器基于65nm制造工藝核心面積為285平方毫米，內(nèi)含4.5億個晶體管三級緩存（L3）的引入，其每個核心具備128KB L1緩存（64KB指令+64KB數(shù)據(jù)）和512KB L2緩存，同時三個核心還配備了額外的共享式32路聯(lián)合2MB L3緩存Phenom X3依然延續(xù)了上一代K8處理器所采用的集成內(nèi)存控制器設(shè)計方式，最高可支持DDR2 1066MHz內(nèi)存

29、3核的問題AMD內(nèi)部工程師指出，在FAB工廠內(nèi)部進行測試的時候，四核心處理器多個核心的頻率會在某些時候發(fā)生不匹配的情況，比如三個核心能運行在2.6GHz，而第四個只能達到2.0GHzIBM多核Cell架構(gòu) CELL背景Sony，Toshiba和IBM（簡稱為STI聯(lián)盟）為PlayStation 3設(shè)計的Cell 處理器承諾未來的計算能力將迅速達到極低的價格。后文中包含了Cell 體系結(jié)構(gòu)，及其深遠的影響，這些影響并不僅僅局限于游戲市場，它將遍布整個計算機工業(yè)界。 CELL組成Cell是一個高性能分布式計算體系結(jié)構(gòu)由硬件和軟件Cell構(gòu)成硬件CELL一個Cell處理器包含三個主要組成部分。以一個

30、Power處理器單元作為主控處理器(PPE)，另外兩部分分別是八個單指令多數(shù)據(jù)流處理器(SPE)與一個可編程DMA控制器(DMAC)。軟件Cell包括數(shù)據(jù)和程序(稱為apulets)被送往硬件Cell進行計算并返回結(jié)果處理器單元（PPE）64位的“Power 體系結(jié)構(gòu)”處理器Power體系結(jié)構(gòu)：PowerPC和Power處理器Power核心功耗巨大需要降低主頻以降低功耗PPE實際上不過是控制器真正的運算在SPE上附屬處理單元(SPE)每一個Cell芯片包含8個SPESPE都有各自獨立的向量處理單元包含128個128位寄存器達到32GFlops的流水浮點單元SPE同時包含一個256KB的本地

31、存儲器而不是Cache結(jié)構(gòu)SPE并不是協(xié)處理器，是獨立的處理器PPE使用軟件Cell建立SPE環(huán)境，并驅(qū)使他們開始運算SPE執(zhí)行軟件Cell中的 apulet直到完成或者被通知停止PPE通過遠程過程調(diào)用RPC喚醒SPE，RPC并非直接送到SPE，而是通過執(zhí)行所有存儲器讀寫的DMAC來完成的附屬處理單元(SPE)SPE是向量(Vector或者SIMD)處理器可以在一條指令中同時完成多個操作每個SPE每周期可以完成4個32位操作（如果算上乘加操作則是8個）運行的程序必須被向量化視頻，音頻，3D圖形和科學計算這樣的應(yīng)用領(lǐng)域非直接的Cache和虛存使得SPE的工作方式與傳統(tǒng)處理器不同。這很可能讓SP

32、E上的編程變得很困難，但這樣的設(shè)計是為了降低復雜度并提高性能SPE本地存儲為解決Cache設(shè)計帶來的復雜性并提高性能，在Cell中使用了一系列的本地存儲器，每個SPE一份，總共有8個本地存儲器SPE通過寄存器操作來讀寫本地存儲器。本地存儲器以1024b的塊來訪問主存，但是SPE并不能直接訪問主存。不使用Cache工作模式，設(shè)計師可以剔除很多復雜設(shè)計本地存儲器只能由單一的SPE訪問，并沒有任何與SPE或者本地存儲器直接相連的一致性訪問機制一致性Coherency雖然在SPE之間不存在一致性機制，但是有一種給RAM中某些額外數(shù)據(jù)在本地存儲中加入額外“busy”的機制，以避免兩個SPE同時訪問相同

33、存儲器時產(chǎn)生問題由于僅僅標記數(shù)據(jù)是否可讀取以及哪一個SPE試圖獲取數(shù)據(jù)，這個系統(tǒng)是比保持Cache與最新內(nèi)容一致簡單得多的實現(xiàn)直接存取控制器DMACCell中非常重要的部分，充當著通訊集線器hub的功能PPE并沒有直接將指令發(fā)往SPE但是會將他們發(fā)往DMAC并由后者選擇合適的動作，這在載入和保存數(shù)據(jù)時顯得特別重要，同時取消了PPE和SPE直接相連的必要性。顯然DMAC是Cell設(shè)計中最重要的部分之一，雖然其本身并不做任何處理，但是必須滿足任意兩點之間數(shù)十GB/s訪存數(shù)據(jù)流。如果預測正確的話，PS3將具有100GB/s的存儲接口，如果均分倒4個Cell上，每個DMAC將需要每秒處理至少25GB。

34、同時要實現(xiàn)存儲保護，能夠保證 PPE和SPE之間訪存和通訊的順序，除了高速而外它還是高度復雜的工程部件硬實時處理某些流處理需要嚴格的時間并且“硬”實時數(shù)據(jù)處理器的設(shè)計也已經(jīng)在考慮中一個“絕對時鐘”被用于保證一個處理操作在說明的時間限制內(nèi)完成這個實用的功能同時保證與下一代Cell兼容，因為定時器本身是和處理部分獨立的存儲器與其他處理器一樣Cell體系結(jié)構(gòu)中的存儲系統(tǒng)也是針對raw speed設(shè)計的，它將同時具有低延時和高帶寬前面提到過訪存以1024位的塊為單位存儲保護在DMAC中有存儲系統(tǒng)的保護措施Memory被分成沙盒“sandboxes”，用一個掩碼來判定那一個或者一組SPE可以對其進行訪問

35、這個檢查過程是訪問執(zhí)行之前在DMAC中進行的如果用一個SPE試圖讀寫錯誤沙盒，存儲訪問將會被禁止Cells和常用處理器的一大區(qū)別就是在Cell中SPE鏈接起來以流處理器方式工作的能力一個流處理器獲取數(shù)據(jù)之后，按照一系列的步驟來處理它每一個步驟都可以用一個或者多個SPE來實現(xiàn)一個Cell處理器可以通過用一個或者多個SPE承擔流中的一個步驟來執(zhí)行流操作為了完成流操作，一個SPE從輸入中讀取數(shù)據(jù)進入其自身的本地存儲器，執(zhí)行處理步驟，然后將結(jié)果寫入預先定義的RAM空間中第二個SPE取走剛剛寫入的數(shù)據(jù)，進行處理并寫入RAM中的第二個區(qū)域根據(jù)應(yīng)用的需求，這一序列可以使用多個SPE，同時SPE可以讀寫多個R

36、AM塊如果單個Cell的計算能力不足，在其他Cell中的SPE可以用來構(gòu)成更長的鏈軟件Cell軟件Cell是一個包含數(shù)據(jù)和程序（Apulet）的容器，也包含這個apulet運行所需要的其他數(shù)據(jù)和指令軟件Cell中包含源、目標和響應(yīng)地址域，這些內(nèi)容依賴于使用的硬件網(wǎng)絡(luò)，軟件Cell可以被發(fā)送到不同的硬件Cell中。也有獨立于網(wǎng)絡(luò)的地址來定義特殊的Cell使得可以在網(wǎng)絡(luò)上的一臺特定主機可以將一個軟件Cell發(fā)送到任意的硬件CellSPE使用的是虛擬地址，然后一旦DMA命令發(fā)射出去虛擬地址就被映射成為實際地址軟件Cell中包含這些DMA命令以從存儲器中獲得數(shù)據(jù)進行操作處理，如果SPE被用于處理流，C

37、ell中將包含描述何處讀取數(shù)據(jù)，何處回寫結(jié)果的命令一旦SPE初始化建立完畢就被驅(qū)使完成Cell 每個Cell系統(tǒng)都有其全球惟一的標識符UUID如果軟件Cell必須穿過一個外部網(wǎng)絡(luò)才能到達其目的Cell系統(tǒng)，那么它將會把自己封裝到一個標準網(wǎng)絡(luò)協(xié)議包，如TCP/IP包下圖描述了Cell專利中描述的軟件Cell穿越一個鏈接幾個不同基于Cell系統(tǒng)的公用網(wǎng)絡(luò)時的情形多Cell系統(tǒng)怪獸整個Cell體系結(jié)構(gòu)上的重要一環(huán)就是并行處理軟件Cell可以漂亮的被送到任何地方，并且這一過程與特定的傳輸方法是相互獨立的在動態(tài)運行時決定軟件Cell在哪個硬件Cell上運行構(gòu)成了Cell體系結(jié)構(gòu)的關(guān)鍵特性如果需要更多的

38、計算能力，插上更多的Cell就可以了Cell應(yīng)用游戲GAME游戲是當然的設(shè)計目標，Cell從一開始就是作為游戲終端進行設(shè)計的，如果在游戲上沒有良好的表現(xiàn)那肯定有問題。Cell的設(shè)計師緊盯raw computing power而不是圖形能力，因此我們將看到硬件功能被轉(zhuǎn)移到軟件上而開發(fā)者有更多的靈活性。現(xiàn)在的問題是PS3是否能成為第一個實時光影跟蹤的游戲終端。 3D圖形這又是Cell的重要設(shè)計目標領(lǐng)域，圖形具有巨大的并行特性，可向量化和流化的各種問題可以讓SPE得到完全的應(yīng)用，因此使用的Cell越多就可以獲得更快的圖形性能。現(xiàn)在有很多不同高性能圖形技術(shù)方面的研究，希望Cell能夠被他們所使用，而這

39、些技術(shù)也能通過Cell使自己成為主流技術(shù)。如果你認為現(xiàn)在的圖形技術(shù)已經(jīng)足夠好了，在Cell上你可能會得到某些驚喜。其它還有視頻，音頻，數(shù)字圖像處理，超級計算，服務(wù)器等等應(yīng)用性能數(shù)據(jù)時鐘頻率Observed clock speed: 4 GHz峰值性能（單精度）: 256 GFlops峰值性能（雙精度）: 26 GFlops每個SPU的Local storage的容量: 256KB面積: 221 mm采用90nm絕緣體硅技術(shù)（Silicon on Insulator）總晶體管數(shù): 234MCELL前景極高性能并且廉價將會挑戰(zhàn)PCPC有巨大軟件基礎(chǔ)的優(yōu)勢很多軟件都可以在linux上運行并且逐漸脫

40、離了對x86處理器和MS的依賴高速 JIT模擬器Cell需要提高對PC的兼容能力？Cell在高性能的嵌入式應(yīng)用領(lǐng)域被廣泛使用產(chǎn)量、價格CELL永遠結(jié)束了！2009年11月，IBM停止了Cell處理器的未來開發(fā)PoweXCell 8i是最后一款Cell處理器原因：并不比GPGPU強大，靈活性不如CPUIBM Power系列POWER 是 Power Optimization With Enhanced RISC 的縮寫，是 IBM 的很多服務(wù)器、工作站和超級計算機的主要處理器。POWER 芯片起源于 801 CPU，是第二代 RISC 處理器。POWER 芯片在 1990 年被 RS 或 RIS

41、C System/6000 UNIX 工作站（現(xiàn)在稱為 eServer 和 pSeries）采用POWER 的產(chǎn)品有 POWER1、POWER2、POWER3，POWER4， POWER5等。IBM智能計算機2009年11月18日發(fā)布大型腦皮層模擬器10億個尖峰神經(jīng)元10萬億個獨立的學習神經(jīng)鍵新的感知算法IBM公司與斯坦福大學共同合作采用“深藍”超級計算機來測量人類大腦與模擬大腦之間的聯(lián)系再利用磁共振彌散加權(quán)成像技術(shù)繪制了模擬大腦內(nèi)部的神經(jīng)連線路徑智商水平已可以與貓類相比SUN多核SUN的opensparc芯片多線程技術(shù)(CMT) 2006年3月21日Sun公司在加利福尼亞州圣克拉拉舉行的多核

42、博覽會上為其多線程UltraSparcT1（Niagara）處理器發(fā)布了開源軟硬件規(guī)范。UltraSparcT1現(xiàn)在叫OpenSparcT1 不收特許費的64位32線程處理器設(shè)計。去年12月Sun宣布準備為該處理器制定開源硬件規(guī)范。具體說，Sun發(fā)布了用于該處理器設(shè)計的VerilogRTL代碼、一個驗證套件和模擬模型、一個指令集架構(gòu)規(guī)范和Solaris10操作系統(tǒng)仿真圖像。這些規(guī)范見OpenSparc網(wǎng)站UltraSPARC T22007年8月8， Sun 公司發(fā)布了全球速度最快的商用微處理器UltraSPARC T2擁有8個內(nèi)核每個內(nèi)核包含8個線程第一款實現(xiàn)商用批量生產(chǎn)的處理器功能包括虛擬

43、化、信號處理、網(wǎng)絡(luò)連接、安全特性、浮點單元和加速內(nèi)存訪存性能高吞吐量處理能力單芯片世界記錄SPEC CPU分值是世界記錄該處理器的8核和每核8線程這兩個世界記錄分別是：78.3 est. SPECint_rate2006和62.3 est. SPECfp_rate2006UltraSPARC T2處理器的線程計算能力是Sun的UltraSPARC T1處理器的兩倍UltraSPARC T1處理器在10部Sun Blade T6300服務(wù)器組成的模塊系統(tǒng)上創(chuàng)立了一個世界記錄，即8253.21 SPECjAppServer2004 JOPSStandard網(wǎng)絡(luò)連接兩個可虛擬化的多線程的每秒10千

44、兆比特的以太網(wǎng)端口，具有內(nèi)建的包分類功能，可確?？焖俚木W(wǎng)絡(luò)連接以及服務(wù)器對服務(wù)器的通信。安全特性有8個密碼加速單元，一共有10個獨立的功能，可滿足不斷增長的安全需求，包括由NSA批準的算法，而在性能上沒有任何損失計算功能有8個浮點單元，將CMT的技術(shù)優(yōu)勢擴展到了高性能計算領(lǐng)域，適用于各類科學應(yīng)用，創(chuàng)立了單芯片SPECfp_rate2006世界記錄和單芯片。輸入/輸出(I/O)有8條通道，滿足行業(yè)標準PCI Express I/O高速應(yīng)用，如流媒體、數(shù)據(jù)庫讀/寫，以及數(shù)據(jù)備份等。內(nèi)存訪存有4個內(nèi)存控制器，提供了每秒50千兆字節(jié)以上的內(nèi)存訪存速度。軟件支持具有海量線程特性的Solaris操作系統(tǒng)使高線程處理器UltraSPARC T2的技術(shù)優(yōu)勢得到充分發(fā)揮，擁有開放的、低成本的虛擬化功能SUN也結(jié)束了，被ORACLE購買！其他多核龍芯報告龍芯3號多核處理器設(shè)計及其挑戰(zhàn)龍芯3號多核處

人人文庫> 全部分類> 教育資料 > 課件下載

溫馨提示

1. 本站所有資源如無特殊說明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁內(nèi)容里面會有圖紙預覽，若沒有圖紙預覽就沒有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 人人文庫網(wǎng)僅提供信息存儲空間，僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理，對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對任何下載內(nèi)容負責。
6. 下載文件中如有侵權(quán)或不適當內(nèi)容，請與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

《嵌入式系統(tǒng)原理與技術(shù)》課件第7章-研究生-嵌入式與多核

文檔簡介

溫馨提示

最新文檔

評論

《嵌入式系統(tǒng)原理與技術(shù)》課件第7章-研究生-嵌入式與多核

文檔簡介

溫馨提示

最新文檔

評論

相關(guān)文檔