高等計(jì)算機(jī)體系結(jié)構(gòu)文獻(xiàn)綜述GPU發(fā)展

上傳人：d*** IP屬地：天津上傳時(shí)間：2022-03-14 格式：DOCX 頁(yè)數(shù)：7 大小：150.37KB 積分：15 舉報(bào) 版權(quán)申訴

高等計(jì)算機(jī)體系結(jié)構(gòu)文獻(xiàn)綜述GPU發(fā)展_第2頁(yè)

高等計(jì)算機(jī)體系結(jié)構(gòu)文獻(xiàn)綜述GPU發(fā)展_第3頁(yè)

高等計(jì)算機(jī)體系結(jié)構(gòu)文獻(xiàn)綜述GPU發(fā)展_第4頁(yè)

高等計(jì)算機(jī)體系結(jié)構(gòu)文獻(xiàn)綜述GPU發(fā)展_第5頁(yè)

已閱讀5頁(yè)，還剩2頁(yè)未讀，繼續(xù)免費(fèi)閱讀

版權(quán)說(shuō)明：本文檔由用戶提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、北京科技大學(xué)高等計(jì)算機(jī)體系結(jié)構(gòu)文獻(xiàn)綜述題目：GPU的發(fā)展研究學(xué)院計(jì)算機(jī)與通信工程學(xué)院班級(jí)124班學(xué)號(hào)S20121170姓名陳叁時(shí)間2012年11月02日引言隨著半導(dǎo)體工藝的發(fā)展,芯片上集成的晶體管數(shù)目按照摩爾定律增加，各種處理器的存儲(chǔ)和計(jì)算能力也因此不斷提高。作為最常用的兩類處理器芯片,CPU和GPU的性能發(fā)展呈現(xiàn)不同的規(guī)律。CPU是計(jì)算機(jī)的主控處理部件，需要應(yīng)對(duì)各種復(fù)雜的控制過(guò)程，追求的標(biāo)量性能注重通用性，因此在其芯片體系結(jié)構(gòu)設(shè)計(jì)時(shí)，不得不將大量的芯片資源用于分支預(yù)測(cè)、亂序執(zhí)行等復(fù)雜的控制邏輯，從而限制了其計(jì)算性能的提升。而GPU原本只負(fù)責(zé)加速圖形計(jì)算，功能相對(duì)比較單一，芯片的控制邏輯比較簡(jiǎn)

2、單，主要的芯片資源都用于提升計(jì)算性能，因此其計(jì)算能力發(fā)展更為迅速。例如,AMD公司2009年第一季度發(fā)布的專業(yè)級(jí)流處理GPUFireStream9270i的單精度浮點(diǎn)峰值性能達(dá)到1.2TFlops,而Intel公司頂級(jí)的Core2Extreme9650四核處理器的浮點(diǎn)處理能力僅有96GFlops,可見(jiàn)在計(jì)算性能方面，GPU要高出CPU整整一個(gè)數(shù)量級(jí)。計(jì)算性能增長(zhǎng)的同時(shí)，GPU的存儲(chǔ)性能也在不斷提升，24GB的存儲(chǔ)容量、256512位寬的存儲(chǔ)總線都為GPU發(fā)揮出強(qiáng)大的計(jì)算能力提供了充分的保證。除了計(jì)算性能外，從性/價(jià)比和性能/功耗比上看，GPU相對(duì)于通用CPU同樣擁有明顯的優(yōu)勢(shì)。這些特性都使得G

3、PU成為搭建超級(jí)計(jì)算機(jī)的良好選擇，可以在有限的系統(tǒng)規(guī)模和金錢開(kāi)銷的限制下達(dá)到非常高的峰值計(jì)算性能，因此越來(lái)越受到高性能計(jì)算領(lǐng)域的關(guān)注。計(jì)算性能不斷提升的同時(shí)，限制GPU廣泛應(yīng)用的另一制約因素)可編程性，也在不斷提高。早期的GPU僅負(fù)責(zé)圖形加速，流水線的功能固定，只能執(zhí)行有限的幾個(gè)操作以完成圖像的生成。硬件工藝的進(jìn)步使得GPU內(nèi)處理單元的結(jié)構(gòu)越來(lái)越復(fù)雜，功能也越來(lái)越靈活，其流水線具備了執(zhí)行用戶自定義程序的能力，從而具備了初步的可編程性。從最初的底層圖形API發(fā)展到現(xiàn)在高度抽象的CUDA2、Brook+3以及OpenCL4,GPU的可編程性得到了極大的提升，已經(jīng)具備了開(kāi)發(fā)非圖形領(lǐng)域應(yīng)用的基本能力，

4、GPU上的通用計(jì)算(GeneralPurposecomputationonGPUs,簡(jiǎn)稱GPGPU5)也成為體系結(jié)構(gòu)、編程及編譯等領(lǐng)域熱點(diǎn)的研究方向之一。二、CPU/GPU協(xié)同并行計(jì)算研究進(jìn)展a)GP3義及相關(guān)技術(shù)GPU文全稱(GraphicProcessingUnit),中文翻譯為“圖形處理器"。GPUl相對(duì)于CPU勺一個(gè)概念，由于在現(xiàn)代的計(jì)算機(jī)中圖形的處理變得越來(lái)越重要，需要一個(gè)專門的圖形的核心處理器。GP電顯示卡的“大腦”，它決定了該顯卡的檔次和大部分性能，同時(shí)也是2D顯示卡和3D顯示卡的區(qū)別依據(jù)。GPU使顯卡減少了對(duì)CPU的依賴，并進(jìn)行部分原本CPU勺工作，尤其是在3D圖形處

5、理時(shí)。GP所采用的核心技術(shù)有硬體T&L、立方環(huán)境材質(zhì)貼圖和頂點(diǎn)混合、紋理壓縮和凹凸映射貼圖雙重紋理四像素256位渲染引擎等，而硬體T&戰(zhàn)術(shù)可以說(shuō)是GPU的標(biāo)志。T&L技術(shù)是最近在圖形加速卡上都可以看得到的規(guī)格名稱之一，這個(gè)名詞的原來(lái)意義是：Transforming以及Lighting,光影轉(zhuǎn)換。在圖形加速卡中，T&L的最大功能是處理圖形的整體角度旋轉(zhuǎn)以及光源陰影等三維效果。3D圖上有許多的連結(jié)點(diǎn)，每一個(gè)連結(jié)點(diǎn)都可視為一條線的轉(zhuǎn)折點(diǎn)，通過(guò)這些連結(jié)點(diǎn)，圖形芯片可以很清楚地將整個(gè)對(duì)象的結(jié)構(gòu)辨識(shí)出來(lái)。然而，這些連結(jié)點(diǎn)在這張3D殳計(jì)圖上的位置是固定不動(dòng)的，換句話說(shuō)，不管我

6、們從任何一個(gè)角度來(lái)看這個(gè)對(duì)象，連結(jié)點(diǎn)的位置并沒(méi)有變動(dòng)，變動(dòng)的只有角度的不同。不過(guò)，對(duì)象圖案若只進(jìn)行到Transforming的階段，在對(duì)象的表面也只有連結(jié)點(diǎn)而已，并沒(méi)有加上顏色色塊或任何材質(zhì)的貼圖表現(xiàn)，因此，很像是立體的3腌視圖。一般來(lái)說(shuō)，T&L的效能常用單位時(shí)間內(nèi)所能處理多少個(gè)多邊形的連結(jié)點(diǎn)變化以及光源運(yùn)算為基準(zhǔn)。像nVidia的GeForce2便能在每秒鐘處理2500萬(wàn)個(gè)多邊形，而有的產(chǎn)品甚至能達(dá)到3000萬(wàn)個(gè)多邊形的效能。紋理壓縮中將壓縮后的數(shù)據(jù)存儲(chǔ)進(jìn)顯存并不是終結(jié)。重要的是需要用顯示芯片把這些壓縮后的數(shù)據(jù)進(jìn)行解壓縮，再經(jīng)過(guò)運(yùn)算貼圖到3D莫型上。這個(gè)過(guò)程就需要顯示芯片在硬件上支持

7、了，如果不支持，對(duì)于壓縮后的數(shù)據(jù)無(wú)法識(shí)別，照樣不能完成紋理壓縮，也不能發(fā)揮出紋理壓縮的優(yōu)勢(shì)。凹凸貼圖(bumpmapping),又稱為皺面貼圖，是一項(xiàng)計(jì)算機(jī)圖形學(xué)技術(shù),在這項(xiàng)技術(shù)中每個(gè)待渲染的像素在計(jì)算照明之前都要加上一個(gè)從高度圖中找到的擾動(dòng)。這樣得到的結(jié)果表面表現(xiàn)更加豐富、細(xì)致，更加接近物體在自然界本身的模樣b)協(xié)同計(jì)算概念CPU/GPU協(xié)同并行計(jì)算，其關(guān)鍵在于如何實(shí)現(xiàn)兩者的高效“協(xié)同”。從國(guó)內(nèi)外大量的研究工作來(lái)看，“協(xié)同”分為兩個(gè)層次：1)CPU僅負(fù)責(zé)管理GPU的工作，為GPU提供數(shù)據(jù)并接收GPU傳回的數(shù)據(jù)，由GPU承擔(dān)整個(gè)計(jì)算任務(wù)；2)除管理GPU外，CPU還負(fù)責(zé)一部分計(jì)算任務(wù)，與GPU

8、共同完成計(jì)算。第一層次的“協(xié)同”比較簡(jiǎn)單，CPU與GPU間分工明確，但浪費(fèi)了寶貴的CPU計(jì)算資源。如IBM的Power7處理器具有32個(gè)核心，因此CPU也具有強(qiáng)大的計(jì)算能力。可見(jiàn)，第二層次的“協(xié)同”是未來(lái)協(xié)同并行計(jì)算的發(fā)展方向三、GPGPO系結(jié)構(gòu)目前可以生產(chǎn)支持通用計(jì)算的GPU廠家主要有AMD、NVIDIA和Intel。我們將簡(jiǎn)要介紹這陳希2012年11月2日三個(gè)廠商目前主流GPU的核心體系結(jié)構(gòu)。1. AMD:APU為進(jìn)一步提升處理器的工作效率,AMD公司將CPU和GPU的核心進(jìn)行融合（Fusion）,推出了APU7（AcceleratedProcessingUnits）系列處理器，以加速多媒

9、體和向量處理能力。業(yè)界有觀點(diǎn)認(rèn)為，這種融合的體系結(jié)構(gòu)是未來(lái)處理器的發(fā)展方向。SEMDcnujncpijnorminterfilesvsicmmemorv圖1AMDAPU結(jié)構(gòu)示意圖從圖1可以看出，APU處理器將多核的x86CPU核心、GPU處理器核心（SIMD引擎陣列）、高速總線以及存控融合在一塊單一芯片上，可以實(shí)現(xiàn)數(shù)據(jù)在不同處理核心間的高速傳輸，大大緩解了目前CPU和GPU之間的通信受限于外部總線的問(wèn)題。2. NVIDIA:FermiFermi是NVIDIA公司推出的最新一代GPU,提供了強(qiáng)大的雙精度浮點(diǎn)計(jì)算能力。Fermi較之以往GPU的不同之處在于：首先，為面向?qū)?shù)據(jù)精確度要求較高的應(yīng)用，

10、Fermi首次在GPU勺存儲(chǔ)器中引入了ECC校驗(yàn)的功能；其次，F(xiàn)ermi在保持了主流GPU中使用的SharedMemory作為片上存儲(chǔ)層次外，還首次引入了通用的數(shù)據(jù)Cache,以更好地支持通用計(jì)算。Fermi中的Cache包含被SM私有的L1Cache和被所有SM享的L2Cache。此外，F(xiàn)ermi中的SharedMemory和Cache可以通過(guò)配置互相轉(zhuǎn)化。最后，F(xiàn)ermi支持多Kernel同時(shí)執(zhí)行。圖2NVIDIAFermi體系結(jié)構(gòu)示意圖圖2給出了Fermi的體系結(jié)構(gòu)框圖。圖中包含16個(gè)SM,分布在共享的L2Cache周圍，每SM均包含L1Cache、寄存器文件等私有存儲(chǔ)資源,32個(gè)流處理

11、核心構(gòu)成的計(jì)算陣列和線程調(diào)度單元。處理器的外圍則分布著DRAMHost和線程調(diào)度等接口。值得注意的是,Fermi之前的GPU中SM內(nèi)大多包含8個(gè)流處理核心，如GT200,因此需要4拍才能發(fā)射一個(gè)warp,而Fermi中將流處理核心數(shù)提升至32個(gè)，而且采用雙發(fā)射技術(shù)，使得每拍可以發(fā)射2個(gè)warp,極大提升了線程發(fā)射效率。四、CUD陶介CUDA全稱統(tǒng)一計(jì)算設(shè)備框架(ComputeUnifiedDeviceArchitecture,簡(jiǎn)稱CUDA),是NVIDIA公司針對(duì)其GPU設(shè)計(jì)提出的GPGPU程卞II型，它也以笊言為基礎(chǔ)，降低了編程難度。在CUDA計(jì)算模型中，應(yīng)用程序分為host端和device

12、端，前者是指運(yùn)行于CPU上的部分，后者則是運(yùn)行于GPU上的部分，這部分代碼稱為核心(Kernel)函數(shù)。CPU代碼準(zhǔn)備好數(shù)據(jù)后，復(fù)制到顯卡的存儲(chǔ)器中，再調(diào)用核心函數(shù)進(jìn)行執(zhí)行，執(zhí)行完畢后再由CPU代碼將計(jì)算結(jié)果拷貝回主存。在CUDA計(jì)算模型下，GPU執(zhí)行的最小單位是線程，多個(gè)線程組成一個(gè)線程塊，線程塊中線程可以共享一片存儲(chǔ)器，并以任意順序執(zhí)行，在硬件資源受限的情況下甚至可以串行執(zhí)行。一個(gè)核心程序由一個(gè)或多個(gè)線程塊組成,一個(gè)應(yīng)用則由若干個(gè)核心程序構(gòu)成。block(2.0)blockKernelnthread(n,I)thread(n,n)圖3CUDA計(jì)算模型示意圖從CUDA體系結(jié)構(gòu)的組成來(lái)說(shuō),包含

13、了三個(gè)部分：開(kāi)發(fā)庫(kù)、運(yùn)行期環(huán)境和驅(qū)動(dòng)。開(kāi)發(fā)庫(kù)是基于CUDA技術(shù)所提供的應(yīng)用開(kāi)發(fā)庫(kù)。目前CUDA的1.1版提供了兩個(gè)標(biāo)準(zhǔn)的數(shù)學(xué)運(yùn)算庫(kù)FFT（離散快速傅立葉變換）和CUBLAS離散基本線性計(jì)算）的實(shí)現(xiàn)。這兩個(gè)數(shù)學(xué)運(yùn)算庫(kù)所解決的是典型的大規(guī)模的并行計(jì)算問(wèn)題，也是在密集數(shù)據(jù)計(jì)算中非常常見(jiàn)的計(jì)算類型。開(kāi)發(fā)人員在開(kāi)發(fā)庫(kù)的基礎(chǔ)上可以快速方便的建立起自己的計(jì)算應(yīng)用此外開(kāi)發(fā)人員也可以在CUDA的技術(shù)基礎(chǔ)上實(shí)現(xiàn)出更多的開(kāi)發(fā)庫(kù)。運(yùn)行期環(huán)境提供了應(yīng)用開(kāi)發(fā)接口和運(yùn)行期組件本數(shù)據(jù)類型的定義和各類計(jì)算、類型轉(zhuǎn)換、內(nèi)存管理、設(shè)備訪問(wèn)和執(zhí)行調(diào)度等函數(shù)?；贑UDA開(kāi)發(fā)的程序代碼在實(shí)際執(zhí)行中分為兩種，一種是運(yùn)行在C戶U上的宿主代碼，一種是運(yùn)行在GpU上的設(shè)備代碼。不同類型的代碼由于其運(yùn)行的物理位置不同,能夠訪問(wèn)到的資源不同因此對(duì)應(yīng)的運(yùn)行期組件也分為公共組件、宿主組件和設(shè)備組件三個(gè)部分，基本上囊括了所有在GPGPU發(fā)中所需要的功能和能夠使用到的資源

人人文庫(kù)> 全部分類> 應(yīng)用文書 > 作業(yè)報(bào)告

溫馨提示

1. 本站所有資源如無(wú)特殊說(shuō)明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽，若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間，僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理，對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容，請(qǐng)與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

高等計(jì)算機(jī)體系結(jié)構(gòu)文獻(xiàn)綜述GPU發(fā)展

文檔簡(jiǎn)介

溫馨提示

最新文檔

評(píng)論

高等計(jì)算機(jī)體系結(jié)構(gòu)文獻(xiàn)綜述GPU發(fā)展

文檔簡(jiǎn)介

溫馨提示

最新文檔

評(píng)論

相關(guān)文檔