版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
1、北京科技大學(xué)高等計(jì)算機(jī)體系結(jié)構(gòu)文獻(xiàn)綜述題目:GPU的發(fā)展研究學(xué)院計(jì)算機(jī)與通信工程學(xué)院班級(jí)124班學(xué)號(hào)S20121170姓名陳叁時(shí)間2012年11月02日引言隨著半導(dǎo)體工藝的發(fā)展,芯片上集成的晶體管數(shù)目按照摩爾定律增加,各種處理器的存儲(chǔ)和計(jì)算能力也因此不斷提高。作為最常用的兩類處理器芯片,CPU和GPU的性能發(fā)展呈現(xiàn)不同的規(guī)律。CPU是計(jì)算機(jī)的主控處理部件,需要應(yīng)對(duì)各種復(fù)雜的控制過(guò)程,追求的標(biāo)量性能注重通用性,因此在其芯片體系結(jié)構(gòu)設(shè)計(jì)時(shí),不得不將大量的芯片資源用于分支預(yù)測(cè)、亂序執(zhí)行等復(fù)雜的控制邏輯,從而限制了其計(jì)算性能的提升。而GPU原本只負(fù)責(zé)加速圖形計(jì)算,功能相對(duì)比較單一,芯片的控制邏輯比較簡(jiǎn)
2、單,主要的芯片資源都用于提升計(jì)算性能,因此其計(jì)算能力發(fā)展更為迅速。例如,AMD公司2009年第一季度發(fā)布的專業(yè)級(jí)流處理GPUFireStream9270i的單精度浮點(diǎn)峰值性能達(dá)到1.2TFlops,而Intel公司頂級(jí)的Core2Extreme9650四核處理器的浮點(diǎn)處理能力僅有96GFlops,可見(jiàn)在計(jì)算性能方面,GPU要高出CPU整整一個(gè)數(shù)量級(jí)。計(jì)算性能增長(zhǎng)的同時(shí),GPU的存儲(chǔ)性能也在不斷提升,24GB的存儲(chǔ)容量、256512位寬的存儲(chǔ)總線都為GPU發(fā)揮出強(qiáng)大的計(jì)算能力提供了充分的保證。除了計(jì)算性能外,從性/價(jià)比和性能/功耗比上看,GPU相對(duì)于通用CPU同樣擁有明顯的優(yōu)勢(shì)。這些特性都使得G
3、PU成為搭建超級(jí)計(jì)算機(jī)的良好選擇,可以在有限的系統(tǒng)規(guī)模和金錢開(kāi)銷的限制下達(dá)到非常高的峰值計(jì)算性能,因此越來(lái)越受到高性能計(jì)算領(lǐng)域的關(guān)注。計(jì)算性能不斷提升的同時(shí),限制GPU廣泛應(yīng)用的另一制約因素)可編程性,也在不斷提高。早期的GPU僅負(fù)責(zé)圖形加速,流水線的功能固定,只能執(zhí)行有限的幾個(gè)操作以完成圖像的生成。硬件工藝的進(jìn)步使得GPU內(nèi)處理單元的結(jié)構(gòu)越來(lái)越復(fù)雜,功能也越來(lái)越靈活,其流水線具備了執(zhí)行用戶自定義程序的能力,從而具備了初步的可編程性。從最初的底層圖形API發(fā)展到現(xiàn)在高度抽象的CUDA2、Brook+3以及OpenCL4,GPU的可編程性得到了極大的提升,已經(jīng)具備了開(kāi)發(fā)非圖形領(lǐng)域應(yīng)用的基本能力,
4、GPU上的通用計(jì)算(GeneralPurposecomputationonGPUs,簡(jiǎn)稱GPGPU5)也成為體系結(jié)構(gòu)、編程及編譯等領(lǐng)域熱點(diǎn)的研究方向之一。二、CPU/GPU協(xié)同并行計(jì)算研究進(jìn)展a)GP3義及相關(guān)技術(shù)GPU文全稱(GraphicProcessingUnit),中文翻譯為“圖形處理器"。GPUl相對(duì)于CPU勺一個(gè)概念,由于在現(xiàn)代的計(jì)算機(jī)中圖形的處理變得越來(lái)越重要,需要一個(gè)專門的圖形的核心處理器。GP電顯示卡的“大腦”,它決定了該顯卡的檔次和大部分性能,同時(shí)也是2D顯示卡和3D顯示卡的區(qū)別依據(jù)。GPU使顯卡減少了對(duì)CPU的依賴,并進(jìn)行部分原本CPU勺工作,尤其是在3D圖形處
5、理時(shí)。GP所采用的核心技術(shù)有硬體T&L、立方環(huán)境材質(zhì)貼圖和頂點(diǎn)混合、紋理壓縮和凹凸映射貼圖雙重紋理四像素256位渲染引擎等,而硬體T&戰(zhàn)術(shù)可以說(shuō)是GPU的標(biāo)志。T&L技術(shù)是最近在圖形加速卡上都可以看得到的規(guī)格名稱之一,這個(gè)名詞的原來(lái)意義是:Transforming以及Lighting,光影轉(zhuǎn)換。在圖形加速卡中,T&L的最大功能是處理圖形的整體角度旋轉(zhuǎn)以及光源陰影等三維效果。3D圖上有許多的連結(jié)點(diǎn),每一個(gè)連結(jié)點(diǎn)都可視為一條線的轉(zhuǎn)折點(diǎn),通過(guò)這些連結(jié)點(diǎn),圖形芯片可以很清楚地將整個(gè)對(duì)象的結(jié)構(gòu)辨識(shí)出來(lái)。然而,這些連結(jié)點(diǎn)在這張3D殳計(jì)圖上的位置是固定不動(dòng)的,換句話說(shuō),不管我
6、們從任何一個(gè)角度來(lái)看這個(gè)對(duì)象,連結(jié)點(diǎn)的位置并沒(méi)有變動(dòng),變動(dòng)的只有角度的不同。不過(guò),對(duì)象圖案若只進(jìn)行到Transforming的階段,在對(duì)象的表面也只有連結(jié)點(diǎn)而已,并沒(méi)有加上顏色色塊或任何材質(zhì)的貼圖表現(xiàn),因此,很像是立體的3腌視圖。一般來(lái)說(shuō),T&L的效能常用單位時(shí)間內(nèi)所能處理多少個(gè)多邊形的連結(jié)點(diǎn)變化以及光源運(yùn)算為基準(zhǔn)。像nVidia的GeForce2便能在每秒鐘處理2500萬(wàn)個(gè)多邊形,而有的產(chǎn)品甚至能達(dá)到3000萬(wàn)個(gè)多邊形的效能。紋理壓縮中將壓縮后的數(shù)據(jù)存儲(chǔ)進(jìn)顯存并不是終結(jié)。重要的是需要用顯示芯片把這些壓縮后的數(shù)據(jù)進(jìn)行解壓縮,再經(jīng)過(guò)運(yùn)算貼圖到3D莫型上。這個(gè)過(guò)程就需要顯示芯片在硬件上支持
7、了,如果不支持,對(duì)于壓縮后的數(shù)據(jù)無(wú)法識(shí)別,照樣不能完成紋理壓縮,也不能發(fā)揮出紋理壓縮的優(yōu)勢(shì)。凹凸貼圖(bumpmapping),又稱為皺面貼圖,是一項(xiàng)計(jì)算機(jī)圖形學(xué)技術(shù),在這項(xiàng)技術(shù)中每個(gè)待渲染的像素在計(jì)算照明之前都要加上一個(gè)從高度圖中找到的擾動(dòng)。這樣得到的結(jié)果表面表現(xiàn)更加豐富、細(xì)致,更加接近物體在自然界本身的模樣b)協(xié)同計(jì)算概念CPU/GPU協(xié)同并行計(jì)算,其關(guān)鍵在于如何實(shí)現(xiàn)兩者的高效“協(xié)同”。從國(guó)內(nèi)外大量的研究工作來(lái)看,“協(xié)同”分為兩個(gè)層次:1)CPU僅負(fù)責(zé)管理GPU的工作,為GPU提供數(shù)據(jù)并接收GPU傳回的數(shù)據(jù),由GPU承擔(dān)整個(gè)計(jì)算任務(wù);2)除管理GPU外,CPU還負(fù)責(zé)一部分計(jì)算任務(wù),與GPU
8、共同完成計(jì)算。第一層次的“協(xié)同”比較簡(jiǎn)單,CPU與GPU間分工明確,但浪費(fèi)了寶貴的CPU計(jì)算資源。如IBM的Power7處理器具有32個(gè)核心,因此CPU也具有強(qiáng)大的計(jì)算能力。可見(jiàn),第二層次的“協(xié)同”是未來(lái)協(xié)同并行計(jì)算的發(fā)展方向三、GPGPO系結(jié)構(gòu)目前可以生產(chǎn)支持通用計(jì)算的GPU廠家主要有AMD、NVIDIA和Intel。我們將簡(jiǎn)要介紹這陳希2012年11月2日三個(gè)廠商目前主流GPU的核心體系結(jié)構(gòu)。1. AMD:APU為進(jìn)一步提升處理器的工作效率,AMD公司將CPU和GPU的核心進(jìn)行融合(Fusion),推出了APU7(AcceleratedProcessingUnits)系列處理器,以加速多媒
9、體和向量處理能力。業(yè)界有觀點(diǎn)認(rèn)為,這種融合的體系結(jié)構(gòu)是未來(lái)處理器的發(fā)展方向。SEMDcnujncpijnorminterfilesvsicmmemorv圖1AMDAPU結(jié)構(gòu)示意圖從圖1可以看出,APU處理器將多核的x86CPU核心、GPU處理器核心(SIMD引擎陣列)、高速總線以及存控融合在一塊單一芯片上,可以實(shí)現(xiàn)數(shù)據(jù)在不同處理核心間的高速傳輸,大大緩解了目前CPU和GPU之間的通信受限于外部總線的問(wèn)題。2. NVIDIA:FermiFermi是NVIDIA公司推出的最新一代GPU,提供了強(qiáng)大的雙精度浮點(diǎn)計(jì)算能力。Fermi較之以往GPU的不同之處在于:首先,為面向?qū)?shù)據(jù)精確度要求較高的應(yīng)用,
10、Fermi首次在GPU勺存儲(chǔ)器中引入了ECC校驗(yàn)的功能;其次,F(xiàn)ermi在保持了主流GPU中使用的SharedMemory作為片上存儲(chǔ)層次外,還首次引入了通用的數(shù)據(jù)Cache,以更好地支持通用計(jì)算。Fermi中的Cache包含被SM私有的L1Cache和被所有SM享的L2Cache。此外,F(xiàn)ermi中的SharedMemory和Cache可以通過(guò)配置互相轉(zhuǎn)化。最后,F(xiàn)ermi支持多Kernel同時(shí)執(zhí)行。圖2NVIDIAFermi體系結(jié)構(gòu)示意圖圖2給出了Fermi的體系結(jié)構(gòu)框圖。圖中包含16個(gè)SM,分布在共享的L2Cache周圍,每SM均包含L1Cache、寄存器文件等私有存儲(chǔ)資源,32個(gè)流處理
11、核心構(gòu)成的計(jì)算陣列和線程調(diào)度單元。處理器的外圍則分布著DRAMHost和線程調(diào)度等接口。值得注意的是,Fermi之前的GPU中SM內(nèi)大多包含8個(gè)流處理核心,如GT200,因此需要4拍才能發(fā)射一個(gè)warp,而Fermi中將流處理核心數(shù)提升至32個(gè),而且采用雙發(fā)射技術(shù),使得每拍可以發(fā)射2個(gè)warp,極大提升了線程發(fā)射效率。四、CUD陶介CUDA全稱統(tǒng)一計(jì)算設(shè)備框架(ComputeUnifiedDeviceArchitecture,簡(jiǎn)稱CUDA),是NVIDIA公司針對(duì)其GPU設(shè)計(jì)提出的GPGPU程卞II型,它也以笊言為基礎(chǔ),降低了編程難度。在CUDA計(jì)算模型中,應(yīng)用程序分為host端和device
12、端,前者是指運(yùn)行于CPU上的部分,后者則是運(yùn)行于GPU上的部分,這部分代碼稱為核心(Kernel)函數(shù)。CPU代碼準(zhǔn)備好數(shù)據(jù)后,復(fù)制到顯卡的存儲(chǔ)器中,再調(diào)用核心函數(shù)進(jìn)行執(zhí)行,執(zhí)行完畢后再由CPU代碼將計(jì)算結(jié)果拷貝回主存。在CUDA計(jì)算模型下,GPU執(zhí)行的最小單位是線程,多個(gè)線程組成一個(gè)線程塊,線程塊中線程可以共享一片存儲(chǔ)器,并以任意順序執(zhí)行,在硬件資源受限的情況下甚至可以串行執(zhí)行。一個(gè)核心程序由一個(gè)或多個(gè)線程塊組成,一個(gè)應(yīng)用則由若干個(gè)核心程序構(gòu)成。block(2.0)blockKernelnthread(n,I)thread(n,n)圖3CUDA計(jì)算模型示意圖從CUDA體系結(jié)構(gòu)的組成來(lái)說(shuō),包含
13、了三個(gè)部分:開(kāi)發(fā)庫(kù)、運(yùn)行期環(huán)境和驅(qū)動(dòng)。開(kāi)發(fā)庫(kù)是基于CUDA技術(shù)所提供的應(yīng)用開(kāi)發(fā)庫(kù)。目前CUDA的1.1版提供了兩個(gè)標(biāo)準(zhǔn)的數(shù)學(xué)運(yùn)算庫(kù)FFT(離散快速傅立葉變換)和CUBLAS離散基本線性計(jì)算)的實(shí)現(xiàn)。這兩個(gè)數(shù)學(xué)運(yùn)算庫(kù)所解決的是典型的大規(guī)模的并行計(jì)算問(wèn)題,也是在密集數(shù)據(jù)計(jì)算中非常常見(jiàn)的計(jì)算類型。開(kāi)發(fā)人員在開(kāi)發(fā)庫(kù)的基礎(chǔ)上可以快速方便的建立起自己的計(jì)算應(yīng)用此外開(kāi)發(fā)人員也可以在CUDA的技術(shù)基礎(chǔ)上實(shí)現(xiàn)出更多的開(kāi)發(fā)庫(kù)。運(yùn)行期環(huán)境提供了應(yīng)用開(kāi)發(fā)接口和運(yùn)行期組件本數(shù)據(jù)類型的定義和各類計(jì)算、類型轉(zhuǎn)換、內(nèi)存管理、設(shè)備訪問(wèn)和執(zhí)行調(diào)度等函數(shù)?;贑UDA開(kāi)發(fā)的程序代碼在實(shí)際執(zhí)行中分為兩種,一種是運(yùn)行在C戶U上的宿主代碼,一種是運(yùn)行在GpU上的設(shè)備代碼。不同類型的代碼由于其運(yùn)行的物理位置不同,能夠訪問(wèn)到的資源不同因此對(duì)應(yīng)的運(yùn)行期組件也分為公共組件、宿主組件和設(shè)備組件三個(gè)部分,基本上囊括了所有在GPGPU發(fā)中所需要的功能和能夠使用到的資源
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025年圖書發(fā)行銷售宣傳渠道合約條款
- 2025年AR技術(shù)轉(zhuǎn)讓協(xié)議
- 2025年夜間城市觀光合同
- 2025年出口信用保險(xiǎn)保險(xiǎn)合同(簽名版)
- 二零二五版校園食堂食品安全合作協(xié)議3篇
- 2025版專業(yè)房產(chǎn)行紀(jì)委托買賣合同細(xì)則3篇
- 2024離婚涉及的競(jìng)業(yè)限制合同
- 2025年度高層建筑石材鋼架施工安全防護(hù)與質(zhì)量保證合同4篇
- 2024起訴離婚后子女撫養(yǎng)權(quán)及監(jiān)護(hù)權(quán)糾紛調(diào)解服務(wù)協(xié)議3篇
- 二零二五年度租賃房屋租賃合同登記備案協(xié)議
- 服務(wù)器報(bào)價(jià)表
- 2025年高考化學(xué)試題分析及復(fù)習(xí)策略講座
- 世界近代史-對(duì)接選擇性必修 課件-高考統(tǒng)編版歷史一輪復(fù)習(xí)
- 2024-2029年中國(guó)制漿系統(tǒng)行業(yè)市場(chǎng)現(xiàn)狀分析及競(jìng)爭(zhēng)格局與投資發(fā)展研究報(bào)告
- 大門封條模板
- 【“凡爾賽”網(wǎng)絡(luò)流行語(yǔ)的形成及傳播研究11000字(論文)】
- ppr管件注塑工藝
- 液化氣站其他危險(xiǎn)和有害因素辨識(shí)及分析
- 高中語(yǔ)文教學(xué)課例《勸學(xué)》課程思政核心素養(yǎng)教學(xué)設(shè)計(jì)及總結(jié)反思
- 中國(guó)農(nóng)業(yè)銀行小微企業(yè)信貸業(yè)務(wù)貸后管理辦法規(guī)定
- 市政道路建設(shè)工程竣工驗(yàn)收質(zhì)量自評(píng)報(bào)告
評(píng)論
0/150
提交評(píng)論