多核處理器的發(fā)展前景和存在問題綜述

上傳人：z*** IP屬地：天津上傳時間：2024-04-24 格式：DOCX 頁數(shù)：11 大?。?9.52KB 積分：18 舉報 版權申訴

已閱讀5頁，還剩6頁未讀，繼續(xù)免費閱讀

版權說明：本文檔由用戶提供并上傳，收益歸屬內容提供方，若內容存在侵權，請進行舉報或認領

文檔簡介

多核處理器的發(fā)展前景和存在問題綜述目錄TOC\o"1-5"\h\z\o"CurrentDocument"概述 2...\o"CurrentDocument"處理器的發(fā)展趨勢 2...從單核到多核 3同構多處理器與異構多處理器 3多核處理器發(fā)展面臨的挑戰(zhàn) 4多核與多線程技術 4\o"CurrentDocument"多核處理器的高速緩存一致性問題 4增強一致性的基本方案 5目錄式Proximity-aware協(xié)議 5\o"CurrentDocument"多核加速串行程序的主要方法 8并行編譯器 8推測多線程 9基于線程的預執(zhí)行機制 9\o"CurrentDocument"總結 10\o"CurrentDocument"參考文獻 11概述在過去的幾十年時間里,處理器的性能一直按照莫爾定律在發(fā)展。提高處理器性能的基本方法就是不斷提升主頻。從初期的幾十MHz到不久前IBM的Power6達到了，設計人員甚至想過提升到7G?8GHz。不過，進入2002年以來，CPU提升主頻的困難越來越大，因為主頻的提升帶來了散熱和功耗的大幅增加等問題。在幾年前，英特爾和AMD都調整了研究方向，開始研究在同一CPU中放置多個執(zhí)行內核。說到底，出現(xiàn)多核處理器的最根本原因是人們對計算能力永無止境的追求。盡管這些年來，處理器從來沒有停止過前進的腳步，但每一次性能的突破，換來的只是對更高性能的需求，特別是在油氣勘探、氣象預報、虛擬現(xiàn)實、人工智能等高度依賴于計算能力的場合，對性能的渴求更加迫切。既然單處理器的發(fā)展已經(jīng)到了瓶頸，而多核將會引領以后處理器發(fā)展的潮流，那么我們就看看多核處理器帶給我們什么樣的性能提升，多核處理器要全面應用到各個領域所需解決的問題。多核的好處非常明顯。首先，由于是多個執(zhí)行內核可以同時進行運算，因此可以顯著提升計算能力，而每個內核的主頻可以比以前低，因而總體功耗增加不大。其次，與多CPU相比，多核處理器采用與單CPU相同的硬件架構，用戶在提升計算能力的同時無需進行任何硬件上的改變，這對用戶來說非常方便。然而，多核處理器要發(fā)揮它的作用必須要解決許多問題，不像CPU的頻率提升，無論如何你都可以從中受益，要從多核處理器中受益，首先在設計多核處理器時，要注意不同核心之間的通信與數(shù)據(jù)的一致性，另外，在軟件層次上也需要對多核進行改進，以充分利用多核的性能。本文結合了幾篇最新的多核方面的論文和一些網(wǎng)上評論，從處理器的發(fā)展趨勢，前景以及存在的挑戰(zhàn)幾個方面介紹了多核的相關問題。文章第二部分主要介紹處理器的發(fā)展趨勢，第三部分主要闡述多核的一個關鍵問題高速緩存一致性已經(jīng)如何通過預取來提高帶寬，第四部分主要闡述多核在提高串行程序性能方面的作用。處理器的發(fā)展趨勢從單核到多核10年前的推出的Pentium系列處理器的時候，以微米的制程制造出來的100mhz左右的處理器，頻率僅為10多瓦，如果按照理想的產(chǎn)品模型來計算，現(xiàn)在高達3G的奔騰D處理器功率也應該在十幾瓦，可實際情況是，其功率已經(jīng)達到了驚人的100瓦，這還只是普通的臺式機所使用的CPU。同時，Intel以前也曾承認最近幾年每代處理器架構，其晶體管數(shù)目以2?3倍的數(shù)量在增加，而性能提升不超過一倍，如果照此下去，繼續(xù)增加晶體管數(shù)量來提高CPU的性能，每一代CPU的功率就要提高約50%。從技術上來說，單核心處理器的已經(jīng)不能滿足日益增長的對性能的要求了，多核心處理器也便越來越受到大家的青睞。隨著晶體管數(shù)量的增加，功率也會同比增加，性能卻不能同比增加，可以說是得不償失，但是如果我們把同樣數(shù)量的處理器集合在一起，雖然功率仍會同比增加，性能卻也能夠同比增加，而且事實上，CPU并不都是滿載運行的，我們可以通過技術，動態(tài)調整電壓、頻率，控制某一顆核心的開關，一般使用中，可以把功率降低，當工作負荷較大的時候，打開所有的核心，全負荷的投入工作，這種控制方法，能夠讓多核心處理器智能的“控制功率”[1]。因此，為了在實際工作中能夠獲得更高性能的處理器，多核心處理器可能是我們唯一的選擇，多核心也將取代單核心處理器，成為未來處理器發(fā)展的趨勢。多核處理器(Multi-coreprocessor)是指在一塊處理器芯片中集成兩個或多個完整的計算引擎(內核)。多核處理器具有控制邏輯簡單、高主頻、低延遲、低功耗、設計和驗證周期短等優(yōu)點。從單核(Single-core)到多核(Multi-core)，不僅僅是處理器核心的數(shù)量的增多，對處理器體系架構，計算機整體架構，I/O到操作系統(tǒng)、應用軟件提出巨大的挑戰(zhàn)。同構多處理器與異構多處理器多核處理器的實質是在同一芯片中集成很多同樣的處理核。這一方法降低了設計的復雜性，減小了處理節(jié)點，并成為多核處理器發(fā)展的一種趨勢。多核處理器從結構上可以分為同構(homogenous)和異構(Heterogeneous)。在同構多核結構中，每個核都是一樣的，所處的地位相同；而在異構多核結構中，每個核不都是一樣的，而且每個核完成的功能都不同，例如有主要處理計算的，有負責圖形加速的(GPU—GraphicProcessorUnit)等等。而在AMD收購ATI之后，AMD向異構多核架構設計邁出了第一步;而之后Intel公司在其Core2Duo處理器和主板上集成了GMAX3000圖形加速器⑵也表明Intel也開始在異構多核方向進行探索和研究。同構多核還是異構多核都有其各自的優(yōu)勢和缺點，具體選擇哪一種體系結構還要取決于具體的需求和成本等其他外部因素。根據(jù)Amdahl定理，程序的加速比決定于串行部分的性能，所以，從理論上來看似乎異構微處理器的結構具有更好的性能［5］，不過在實際設計中需要具體問題具體分析。多核處理器發(fā)展面臨的挑戰(zhàn)多核處理器發(fā)展面對的一個重要的挑戰(zhàn)就是如何保持高速緩存的一致性(CacheCoherence)。高速緩存的引入帶來了輸入輸出操作的一致性問題，這是因為從高速緩存得到的存儲器視圖可能會與從輸入輸出子系統(tǒng)得到的存儲器視圖不同。在多核處理器中存在同樣的問題，因為多個不同的處理器所保存的存儲器視圖是通過它們各自的高速緩存得到了，而它們各自的高速緩存之間的一致性是需要保持的。多核處理器帶來了體系結構上的挑戰(zhàn)。由于計算機需要考慮到如何讓現(xiàn)有軟件有效運行，所以代碼的兼容性成為重要問題。同時帶來的問題還有以及怎么用有效的方式來表達并行性、存儲器瓶頸和功耗的需求，以及當我們集成更多功能時如何做到芯片的容錯設計等。不過正是有了這些挑戰(zhàn)，才會不斷的推動多核技術不斷向前發(fā)展，多核技術才會越來越成熟，應用越來越廣泛。多核與多線程技術多線程就是把單個內核上最大的性能發(fā)揮出來，而多核是把整個系統(tǒng)運算能力發(fā)揮到極至［4］。在高性能處理器中，有很多性能本身其實沒有被完全利用，而是被浪費了。有了多線程，就能夠把每個單一處理器的所有性能充分加以利用，再加上，就能提升總體性能。所以多線程+多核技術在未來處理器發(fā)展中必定會扮演相當重要的角色。多核處理器的高速緩存一致性問題隨著core的數(shù)量在多處理器芯片上的不斷增加，cache的一致性(cachecoherence)很快的變成了一個影響多核性能的主要問題。采用何種Cache一致性模型和機制都將對CMP整體性能產(chǎn)生重要影響。在傳統(tǒng)多處理器系統(tǒng)結構中廣泛采用的Cache一致性模型有：順序一致性模型、弱一致性模型、釋放一致性模型等。與之相關的Cache一致性機制主要有總線的偵聽協(xié)議和基于目錄的目錄協(xié)議。目前的CMP系統(tǒng)大多采用基于總線的偵聽協(xié)議。目前有一種新的基于目錄的目錄協(xié)議(Proximity-awaredirectory-basedcoherenceprotocol[5])也被運用起來，之后會詳細介紹。高速緩存的一致性需要系統(tǒng)保存關于數(shù)據(jù)訪問不同cache的可能的地址，從而系統(tǒng)可以當新的消費者(consumer)請求數(shù)據(jù)拷貝的時候找到數(shù)據(jù)，當有寫內存操作發(fā)生時(這塊內存是共享內存)，系統(tǒng)可以通知cache去做寫操作。增強一致性的基本方案多處理器和輸入輸出的一致性問題在很多情況下是類似的，但還是具有一些不同的特征，這些特征會影響相應的解決方案。輸入輸出中，很少出現(xiàn)一個數(shù)據(jù)有多個副本的情況—這是要盡量避免的，而多處理器系統(tǒng)中的情況恰恰相反，在多個處理器系統(tǒng)上運行的程序會要求在多個高速緩存中有同一個數(shù)據(jù)副本。支持高速緩存一致性的多處理器系統(tǒng)中，高速緩存提供共享數(shù)據(jù)的遷移和復制。因為數(shù)據(jù)項何以遷入本地高速緩存并以透明的方式使用，所以一致性的高速緩存要提供數(shù)據(jù)遷移。這樣不但能減少訪問遠程共享數(shù)據(jù)項的延遲，而且可以減少對共享內存的帶寬要求。因為高速緩存在本地為被同時讀取的共享數(shù)據(jù)做了備份，所以一致性的高速緩存也要為這些數(shù)據(jù)提供復制。而副本可以減少訪問延遲和讀取共享數(shù)據(jù)時的競爭現(xiàn)象。支持這種遷移和復制對于訪問共享數(shù)據(jù)的性能來說是至關重要的。因此，小規(guī)模多處理器系統(tǒng)并沒有通過在軟件中避免出現(xiàn)不連貫的現(xiàn)象解決這個問題，而是通過在硬件上引入一個協(xié)議維護高速緩存的一致性來解決該問題。這個用于維護多個處理器一致性的協(xié)議成為高速緩存一致性協(xié)議(cache-coherenceprotocols)o實現(xiàn)告訴緩存一致性協(xié)議的關鍵在于跟蹤所有共享數(shù)據(jù)塊的狀態(tài)。廣泛采用的有兩類協(xié)議，它們采用不同的技術跟蹤共享數(shù)據(jù)：⑴.目錄式(Directory-based)-把物理存儲塊的共享狀態(tài)存放在一個地點，稱之為目錄。(2).監(jiān)聽式(Snoop-based)-每個含有物理存儲器中數(shù)據(jù)塊副本的高速緩存還要保留該數(shù)據(jù)塊共享狀態(tài)的副本，但是并不集中的保存狀態(tài)。高速緩存通常放在共享存儲總線上，所以的高速緩存控制器對總線進行監(jiān)聽，來確定它們是否含有總線上請求的數(shù)據(jù)塊副本。目錄式Proximity-aware協(xié)議目錄協(xié)議在分布式共享內存(DSM-DistributedSharedMemory)多處理器中已經(jīng)被建議使用。雖然目錄協(xié)議已經(jīng)在DSM中流行起來，但是它還沒有在CMP總如何利用私有L2cache得到很好的研究⑶。Proximity-awaredirectory-basedcoherenceprotocol是一一種目錄式協(xié)議的實現(xiàn)方式（以下簡稱PAC）。PAC是基于一項觀察得到的，當cacheline［超高速緩沖存儲器線（路）］可以在多級緩存中處于共享狀態(tài)的情況下，那么cache的homenode將不會保證和線上保持一致。這種實現(xiàn)方式假設在芯片上的分布式目錄的每個node上具有目錄控制器和目錄緩存。緩存目錄狀態(tài)就是要減少內存訪問目錄的日常開銷［5］°PAC一致性，從另外一個方面來說，不需要知道共享者的數(shù)據(jù)映射的變更信息。PAC的體系結構：這個體系結構是由一個16核的多處理器芯片組成，核的排列是一個4*4的網(wǎng)孔（tile）。每個tile具有一個core（該core有L1緩存），一個L2緩存，一個目錄控制器，一個目錄緩存，一個網(wǎng)絡開關，一個內存通道。目錄內存和一般的程序內存都可以被芯片上的內存控制器來訪問。每個內存通道都提供訪問不同物理內存地址。圖大致上表示了這種體系結構。圖具有16tile的多處理器芯片體系的基本結構在PAC中，目錄內存和一般的程序內存都可以被芯片上的內存控制器來訪問。每個內存通道都提供訪問不同物理內存地址。對于傳統(tǒng)的多處理器來說，一種保持高速緩存一致性的協(xié)議的設計不應該與芯片的幾何設計有出入，也就是說，對于給定的內存地址，nodememory應該距離homenodedirectory更近［5］。對于一個傳統(tǒng)的多處理器來說，從一個給定的節(jié)點到最近的一個節(jié)點和到最遠的節(jié)點的延遲通常是由他們之間的factor相關，因為在大多數(shù)情況下，芯片外和板外的延遲都是可控制的。系統(tǒng)假設目錄緩存的狀態(tài)是由目錄控制器來進行緩存的，目錄所有的狀態(tài)變化都是由DC(DirectoryController-目錄控制器)自己來完成的，除非DC遇到了缺失［5］。目錄緩存是組相連的，每個cacheline負責維護內存狀態(tài)的一致性。PAC協(xié)議基本內容當L1cache發(fā)生讀缺失的時候：如果被請求的位置在requester的L2cache中，那么cache只需要簡單的提供數(shù)據(jù)，不用在目錄級別上做狀態(tài)變化；如果發(fā)生L2缺失，那么這個請求就會被發(fā)送到homenode(該homenode是跟所求內存地址想關聯(lián)的)。當需要做寫操作，而且發(fā)生了writemiss時，當所請求的位置不在cache狀態(tài)中，homenode可以立即滿足請求(從L2緩存或者是內存)。如果數(shù)據(jù)塊在共享的狀態(tài)，那么所有的緩存副本都必須失效。對于弱連續(xù)性的處理器，homenode將會并行的發(fā)出一個唯一的數(shù)據(jù)回復給請求node,然后等待從其他可能的共享者那里發(fā)回的無效的ACK；對于強連續(xù)性的處理器來說，homenode一直等到所有的共享者發(fā)出無效的ACK之后，才會回復給請求者，保證了數(shù)據(jù)塊的所有權。Proximity-awarecoherence試圖保證在CMP的任何位置都是正確的狀態(tài)，一個讀請求或者寫請求都可以被滿足，而且不需要在homenode做off-chip的內存訪問。延遲或者帶寬取決于節(jié)點的空間位置和相關數(shù)據(jù)消息的大小以及控制信息的大小。大致來說，PAC是這樣工作的：當ReadMiss發(fā)生時，PAC的處理步驟是：.發(fā)送ReadRequest給Homenode.Homenode發(fā)現(xiàn)出現(xiàn)缺失，把request轉發(fā)給最近的共享者.最近的這個共享者把數(shù)據(jù)發(fā)給Requester.最近的共享者發(fā)送一個ACK給Homenode。當WriteMiss發(fā)生時，PAC的處理步驟：.Requester發(fā)送WriteMiss請求給Homenode.Homenode發(fā)現(xiàn)出現(xiàn)缺失，homenode把請求轉發(fā)給最近的共享者，同時發(fā)送失效信息給所有的共享者，然后這些共享者都返回了ACK給homenode.最近的共享者把數(shù)據(jù)發(fā)送給Requester.最近的共享者發(fā)送ACK給homenode。Proximity-awarecoherence包含了芯片多處理器設計的兩個共識：⑴.on-chipcache訪問，甚至是remotenode，總是比off-chip內存訪問要近.在有多個數(shù)據(jù)共享者的情況下，選擇正確的資源給正確的請求者都可以減少latency和帶寬。Proximity-awarecoherence的實現(xiàn)是很直白的，對于目前的基本系統(tǒng)機制的擴展是很安全的；不需要多余的存儲設備的開銷；而增加的目錄信息和目錄緩存控制器都不需要復雜的實現(xiàn)。多核加速串行程序的主要方法當前主流的商用片上多核處理器主要針對多線程應用，提出多核結構的主要初衷也是如此，如果不采用特殊措施，串行程序很難從中受益。而大量的傳統(tǒng)應用都是串行程序，基于兼容性的考慮，片上多核處理器必須支持它們的運行，即便是多線程應用，每個線程也是串行執(zhí)行的。同時，由于在一個芯片上集成了多個處理器核，出于功耗和面積的考慮，處理器設計者往往傾向于采用結構相對簡單的處理器核。以上種種有可能造成單處理器執(zhí)行串行程序的速度比多核還要快。基于上述原因，在多核環(huán)境加速串行程序具有重要的研究意義和實際的應用需求。多核加速串行程序主要有三種方法,包括并行編譯器、推測多線程以及基于線程的預取機制等。并行編譯器加快應用程序的執(zhí)行速度是體系結構研究者的目標之一。超標量(SuperScalar)和VLIW通過挖掘細粒度并行(指令級并行，ILP)來達到加速應用程序的目的。這些技術在20世紀90年代得到空前的發(fā)展，然而人們逐漸感受到受限于這些技術狹小的繼續(xù)發(fā)展空間。越來越多的研究者把希望寄托在挖掘粗粒度并行(線程級并行，TLP)上。傳統(tǒng)的方法主要有兩種：一種是程序員顯式使用并行編程技術來開發(fā)應用程序，由于受限于現(xiàn)有的語言模型的局限性和求解問題的復雜度，這種方法沒能得到大規(guī)模的推廣；另一種就是依賴于并行編譯器自動地將串行程序并行化。串行程序并行化是并行處理領域研究的熱點問題，也是高性能計算領域需要解決的問題之一。這個問題由來已久，然而始終未能得到很好的解決。傳統(tǒng)方法主要依靠并行編譯器將串行程序編譯成多個小的并行程序。比如斯坦福(Stanford)大學的SUIF編譯器等⑹。因為要處理多個拆分后的小程序之間的依賴關系，同時要保持原有串行程序語義，導致編譯器的策略非常保守，實際效果也不太理想。而且已有研究成果主要應用在科學計算，不能適應于如桌面應用、多媒體及服務器等更廣泛的領域。推測多線程在傳統(tǒng)并行編譯中，編譯器需要花費很大的精力來保證擬劃分線程之間不存在數(shù)據(jù)依賴關系。然而實際情況是，編譯時存在大量模糊依賴，尤其是在允許使用指針(如C程序)的情況下，編譯器不得不采用保守策略來保證程序執(zhí)行的正確性。這大大限制了串行程序可以挖掘的并發(fā)程度，也決定了并行編譯器只能在狹窄范圍使用。為解決這些問題，人們提出串行程序推測并行化［7］。其關鍵思想是放松對編譯器的限制，使其不再受限于保守的分析線程間的依賴關系(分為寄存器數(shù)據(jù)依賴即registerdependence，以及訪存數(shù)據(jù)依賴即memorydependence)，對于模糊的或者說編譯時不能靜態(tài)確定的依賴關系，則先假定它們不存在(或存在部分的依賴關系，即實現(xiàn)partialspeculative)，根據(jù)一定的策略選擇，比如循環(huán)疊代(loopiteration),子程序調用(subroutinecall)等，編譯器(或硬件)在串行程序中選擇可以推測并發(fā)執(zhí)行的區(qū)域，將這些線程動態(tài)分布在不同的處理資源上并發(fā)執(zhí)行。同時執(zhí)行的多個線程中，只有一個是非推測(non-speculative)的，其余都是推測(speculative)的。只有非推測的線程才能影響體系結構的狀態(tài)，其余的線程不能隨意修改體系結構的狀態(tài)直到他們成為非推測的狀態(tài)為止。這就需要有相關的硬件機制來保存這些相關推測線程的狀態(tài)和運行結果。由于編譯器放松了對線程間數(shù)據(jù)依賴的限制，需要有硬件機制來監(jiān)視實際線程運行的情況，一旦在運行過程中檢測到與串行語義相沖突的事件(比如線程間發(fā)生RAW10沖突)，就要將現(xiàn)有的執(zhí)行作廢并重新執(zhí)行以保證原有的語義。后來隨著值預測技術(valueprediction)的發(fā)展［8,9］，進一步打破了這種依賴關系的束縛，即便明確存在依賴，如果能準確地預測后繼相關線程所需的輸入值，就可以避免同步或預測未命中(MissSpeculation)，進一步挖掘線程并發(fā)度，更大地加速應用程序的執(zhí)行速度。研究結果表明，如果線程選擇合理，采用合適的策略，推測并行能獲得遠遠高于超標量獲得的IPC，極大地提高了系統(tǒng)的性能?；诰€程的預執(zhí)行機制傳統(tǒng)的并行編譯器和推測并行化技術必須保證從單線程中派生出來的多線程執(zhí)行的正確性，從而導致保守的線程生成策略和復雜的硬件機制。為了解決這一問題，研究者提出了基于線程的執(zhí)行機制?？傮w來講，基于線程的預執(zhí)行技術主要針對預取和轉移猜測指令的預測。由于“內存壁壘(memorywall)11”一直是影響程序執(zhí)行速度的重要因素，并且大量的應用程序是訪存敏感的，因此大部分研究主要集中研究基于線程的預取技術。傳統(tǒng)的硬件或軟件預取，屬于基于結果的預測技術，適合于具有規(guī)則訪存行為的應用程序。而基于線程的預取技術利用空閑的多線程硬件資源，通過動態(tài)地執(zhí)行地址預測代碼進行預取，屬于基于執(zhí)行蹤跡(trace)的預測技術，具有更高的預取準確率，不僅可以加速具有規(guī)則訪存行為的應用程序，而且能夠有效地加速訪問模式不規(guī)則的應用。研究者發(fā)現(xiàn)程序運行中大部分的訪存失效操作都是由一小部分靜態(tài)訪存指令引起的。同時，這些指令有很好的時空局部性，重復執(zhí)行的頻率很高。我們稱這樣的訪存指令操作為長延遲訪存指令。更進一步，研究者通過分析動態(tài)的指令執(zhí)行的蹤跡發(fā)現(xiàn),對于連續(xù)兩個相鄰的同一靜態(tài)長延遲訪存指令之間的指令執(zhí)行序列，并不是所有指令都參與計算長延遲訪存指令的地址。所以，計算長延遲訪存指令地址的指令序列的長度很可能小于原程序的指令序列［5,10］。這意味著，該指令序列很可能運行得比原有線程快，從而提前計算出長延遲訪存指令將要訪問的內存地址?；谏鲜霈F(xiàn)象，研究者試圖利用硬件收集指令執(zhí)行的蹤跡(trace)，或是通過軟件(如編譯器或二進制分析工具)分析熱點區(qū)域的代碼，從中抽取計算目標長延遲訪存指令的訪存地址的指令序列。這樣的指令序列就是預取線程。預取線程和原有線程同時運行，由于預取線程一般可以看作是原有線程的“精簡版本”，它往往比原有線程運行得快，因此預取線程負責提前計算原有線程的長延遲訪存指令的訪存地址，先于原有線程發(fā)出這些訪存請求，并把執(zhí)行結果提前反饋給原有線程以達到加速程序執(zhí)行速度的目的。預取線程僅僅起到預取的作用，不能修改體系結構狀態(tài)。如果預取線程成功預先執(zhí)行了這些關鍵指令，這種情況能夠達到加速效果；如預取線程沒有預先執(zhí)行關鍵指令或執(zhí)行結果有錯時，反而可能會降低原有線程的執(zhí)行速度，但不會影響整個程序的正確性。所以，基于線程的預取機制可以使提高性能和保持正確性兩個目標解耦，從而大大放松了劃分并行線程時的諸多限制，這不僅能夠有效地提升性能，而且降低了系統(tǒng)實現(xiàn)的復雜度?？偨Y總之，微處理器的發(fā)展正處在歷史的轉折點上。互連網(wǎng)的普及正在悄悄改變著計算機的應用模式，主頻至上的處理器設計理念正在終結。而且由于晶體管技術的限制，功耗和發(fā)電量已經(jīng)成為設計更高性能的處理器最大的障礙。在這種前提下，多核處理器的出現(xiàn)是順應歷史潮流的。多核將成為未來很長一段時間里處理器的標準。本文通過回顧了處理器發(fā)展歷史和趨勢，多核處理器要廣泛應用所需解決的問題等幾個方面全面闡述了多核處理器的優(yōu)勢和存在問題。相信今后幾年，計算機界肯定能更加充分地利用多核的優(yōu)勢，提出更好的方法解決現(xiàn)存的問題，多核時代已經(jīng)來臨。參考文獻JeffParkhurst,JohnDarringer,BillGrundmann:FromSingleCoretoMulti-CorePreparingforanewexponential.Nov.2006Proceedingsofthe2006IEEE/ACMinternationalconferenceonComputer-aideddesignPerryH.Wang1,JamisonD.Collins1,GauthamN.Chinya1,HongJiang2,XinminTian3,MilindGirkar3,NickY.Yang2,Guei-YuanLueh2,andHongWang1:EXOCHI:ArchitectureandProgrammingEnvironmentforAHeterogeneousMulti-coreMultithreadedSystem.Jun.2007ACMSIGPLANNotices卷次:42刊期:6[3]OrlandoMoreira,FredericoValente,MarcoBekooij:Schedulingmultipleindependenthard-real-timejobsonaheterogeneousmultiprocessor.Sep.2007Proceedingsofthe7thACM&IEEEinternationalconferenceonEmbeddedsoftwareGuangmingTan,NinghuiSunA,GuangR.Gao:ParallelDynamicProgrammingAlgorithmonaMulti-coreArchitecture.Jun.2007ProceedingsofthenineteenthannualACMsymposiumonParallelalgorithmsandarchitecturesJefferyA.Brown,RakeshKumar,DeanTullsen:Pr

人人文庫> 全部分類> 行業(yè)資料 > 信息產(chǎn)業(yè)

溫馨提示

1. 本站所有資源如無特殊說明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁內容里面會有圖紙預覽，若沒有圖紙預覽就沒有圖紙。
4. 未經(jīng)權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
5. 人人文庫網(wǎng)僅提供信息存儲空間，僅對用戶上傳內容的表現(xiàn)方式做保護處理，對用戶上傳分享的文檔內容本身不做任何修改或編輯，并不能對任何下載內容負責。
6. 下載文件中如有侵權或不適當內容，請與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

多核處理器的發(fā)展前景和存在問題綜述

文檔簡介

溫馨提示

最新文檔

評論

相關文檔