版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)
文檔簡介
1題目:Gem5-gpu:AHeterogeneousCPU-GPU1作者:JasonPower,JoelHestness,MarcS.Orr,MarkD.Hill,andDavid仿真器)的基礎(chǔ)上編寫而成。Gem5-gpuCPUGPU存儲分CPUGPU存儲融合的系統(tǒng)進(jìn)行仿真,即支持CPUGPU對同一塊地址空間進(jìn)行訪問。Gem5-gpuCUDA3.2程序,并且可以支持CPU和GPU同時進(jìn)行運(yùn)算。2題目:Thegem5論文2作者:NathanBinkert,BradfordBeckmann,GabrielBlack,StevenK.Reinhardt,AliSaidi,ArkapravaBasu,JoelHestness,DerekRHower,TusharKrishna,SomayehSardashti,RathijitSen,KoreySewell,MuhammadShoaib,NilayVaish,MarkD.Hill,andDavidA.2摘要:Gem5M5GEMS仿真器的整合。M5仿真器提供了高度參數(shù)化的仿真平臺,支持多種指令集和分立CPU模型。GEMS提cache一致性策略和互聯(lián)模式的Power,SPARC和x86,并且支持在這些指令集上運(yùn)行l(wèi)inux。3作者:MiloM.KMartin,DanielJ.SorinBradfordM.Beckmann,MichaelR.Marty,MinXu,AlaaR.Alameldeen,KevinE.Moore,MarkD.Hill,andDavidSimics仿真器開發(fā)的。GEMS可以對存儲系統(tǒng)和多處理器系統(tǒng)進(jìn)行時序上4題目:TheM5Simulator:ModelingNetworked4作者:NathanL.Binkert,RonaldGDreslinski,LisaRHsu,KevinTLim,G.Saidi,StevenK.I/O子系統(tǒng),和仿真多處理器網(wǎng)絡(luò)系統(tǒng)的能力。M5仿真器是一款5題目:AnalyzingCUDAWorkloadsUsingaDetailedGPUM.5摘要:GPU提供的靈活的編程模型,使得它在設(shè)計(jì)未來的眾核系統(tǒng)時成GPGPUNVIDIACUDA平臺編寫的程序,Gem5-gpu仿真器是現(xiàn)階段我們的研究對象,但要理解其特點(diǎn),還需要對其CPUgem5、M5、GEMS和一款GPU系統(tǒng)仿真器GPGPU-sim。模型和存儲模型來自于gem5GPUGPGPU-sim。Gem5-gpugem5GPGPU-sim兩款仿真器整合,能夠?qū)崿F(xiàn)RubyCPUGPU的獨(dú)立訪存和融合訪存兩種模式。獨(dú)立訪存模式下,CPUGPU各自擁有獨(dú)立的虛擬地址空間;融合訪存模式下,CPUGPU可以同時訪問同一塊虛擬地址空間,數(shù)據(jù)不再需Gem5-gpuARM,MIPS,x86等等,同時支持兩種系統(tǒng)仿真模式:系統(tǒng)調(diào)用(systemcall)和全系統(tǒng)仿真(fullsystem)。Gem5-gpugem5靈活的特性,通過其定義的端口(port)可以很方便SLICC語言的支持下,Rubycache組織結(jié)構(gòu)gem5-gpu這樣的融合系統(tǒng)仿GPGPU-simNVIDIAfemiGPUGPGPU-simPTXGPU運(yùn)算流水線(computepipeline),大規(guī)模寄存器堆(registerfile),特殊函數(shù)運(yùn)涵蓋了所有的GPU中的存儲類型,包括cache結(jié)構(gòu)和DRAM。全局存儲(globalmemory),主存儲設(shè)備;gem5-gpuCPUcoresCUCPUcores獨(dú)享一個L1cache和L2cacheCU獨(dú)享一個L1cacheCU共享一個L2cache。所有的L2cache通過拓?fù)溥B接在一起。Gem5GPGPU-simCPUGPUCURuby系統(tǒng)相Ruby系統(tǒng)負(fù)責(zé)完成CU存儲過程的功能和時序仿真。加載-(load-storepipeline)gem5之中,包括訪存請求整合(coalescing),虛迄今為止,GPGPU-sim只支持對全局存儲和常量存儲的訪問,而gem5-gputopologygem5-coherenceprotocols),MOESI_hsc(heterogeneoussystemcoherencewithMOESI存,gem5-gpuL2級緩存控制器(L2cachecontroller)GPU和CPU的L2級緩存之間的一致性控制。Gem5-gpu通過鏈接GPGPU運(yùn)行時庫(runtimelibrary)來完成程序中對統(tǒng)中添加新的GPU模型。Thegem5Gem5M5GEMSM5中繼承Rubycache一致性策略CPU模型,但對多核模型的需求不高;而一個大規(guī)模的互聯(lián)系統(tǒng)實(shí)驗(yàn),則需要比較詳細(xì)的多核模型,對單個CPU的模型要求不高。CPU模型,主要包含AtomicSimple模型(最簡單的IPCCPU模型),TimingSimple模型(包含了存儲時序的模型),InOrder模型(流水化的,定序的模型)和O3模型(流水化的,亂序的模型)。system-callEmulation(SE)模型(不需要對設(shè)備和操作系統(tǒng)進(jìn)行仿真,更關(guān)注功能)Full-System(FS)(仿真一個完整的系統(tǒng),種cache一致性策略的模型)。Gem5位企業(yè)和研究工作者都提供了非常便利的條件,使得他們都可以來使用gem5來進(jìn)行體系結(jié)構(gòu)的開發(fā)。HighlevelofGem5已經(jīng)擁有一個非常活躍的論壇,并且已經(jīng)有非常多的合作伙伴來共同維護(hù)和開發(fā)gem5,包括wiki版面,網(wǎng)頁和資源庫。DesignM5GEMS仿真器時,對這些特點(diǎn)進(jìn)行更加詳細(xì)的介紹。Multifacet’sGeneralExecution-drivenMultiprocessorSimulator(GEMS)ToolsetGEMS是一款時序仿真優(yōu)先(timing-first)的仿真器,即由時序仿真部分來Simic仿真器完成。這樣的解耦GEMSRubyRuby系統(tǒng)GEMS隨機(jī)測試模塊(randomtestermodule),用于測試存儲系統(tǒng)在各個方面上可能Simics模塊,用于進(jìn)行功能仿真。Simics將載入、存儲和取指令操作全都交Ruby操作,即緩存訪問的命中(hit)和丟失(miss)Ruby定義。如果此外,GEMS支持在Ruby系統(tǒng)上掛載新的設(shè)備,具有很高的靈活性和擴(kuò)展和主存(mainmemory)。的組件,如緩存陣列(cachearrays),系統(tǒng)互聯(lián)網(wǎng)絡(luò)(interconnectionnetwork)gluelogic),另一種是參與定義一致性協(xié)議的組件,如緩存控制器(cachecontrollers),存儲控制器(memorycontrollers)networkconnected和hierarchicalswitch。SLICCSLICC(SpecificationLanguageforimplementingCacheCoherence),是一種machine在控制器之間傳遞的消息包含兩種要素,消息類型標(biāo)簽(messagetypetag,用于統(tǒng)計(jì))和容量字段(sizefield,作為仿真時的一種條件)。消息從源節(jié)點(diǎn)傳控制器與不依賴一致性策略的設(shè)備(protocol-independentportions)相連。運(yùn)行操作系統(tǒng)和應(yīng)用程序代碼的能力(即全系統(tǒng)仿真能力M5仿真器便是一款能夠同時滿足上述三點(diǎn)要求的仿真器框架。其他的多處缺乏對I/O設(shè)備和多目標(biāo)系統(tǒng)的仿真能力。simulationM5擁有一個全局的時間隊(duì)列,每一個對象的驅(qū)動事件都被包含在這個隊(duì)列M5所使用的每一個模塊對象,不僅包含了功能,也包含了與其他模塊連接所需要的接口。這樣的設(shè)計(jì)特點(diǎn)使得M5能夠擁有以下三點(diǎn)優(yōu)勢:Python用以實(shí)現(xiàn)頂層組織和運(yùn)行腳本的編寫。CPU簡易CPU模型是定序,非流水的CPU功能模型。SMT)的CPU功能模型。O3ers和存儲依賴預(yù)測(memorydependencepredictors)等設(shè)備。O3模型擁有非常高的時序準(zhǔn)確性。為了保證這種準(zhǔn)確性,O3模型將時序仿階段開始的。相較之下,O3模型所采用的模式可以保證更高的時序仿真的準(zhǔn)確在M5仿真器中,所有的CPU模型都可以支持特權(quán)指令集(privilegedinstructionset)、虛擬地址轉(zhuǎn)換(virtualaddresstranslation)(asynchronousinterrupts)O3模型中使用了一種稱為時鐘緩存(timebuffer)的數(shù)據(jù)類型來進(jìn)行時序的CPU進(jìn)入一個狀態(tài)時,就會將此刻的時鐘寫入時鐘緩存,統(tǒng)計(jì)M5M5的存儲系統(tǒng)包含兩種對象,設(shè)備(devices)和互聯(lián)(interconnects)。設(shè)備包括緩存(caches),內(nèi)存(memories)I/OM5cache的大小、延遲、組織方式、替換策略和一致性協(xié)議。并且多種硬件預(yù)取策略,諸如next-lineprefetching或者h(yuǎn)istory-based都可以作為添加項(xiàng)放入cache模型中。速度不同的總線對象,如PCI總線和系統(tǒng)總線的連接。GPGPUGPGPU結(jié)構(gòu)有比如今,處理器發(fā)展中一個非常明顯的趨勢是多線程多處理器系統(tǒng),而CUDAGPUSIMD(singleinstrucion,multipledata)模式的程序,效率可以提高數(shù)十甚至數(shù)百倍。BaselineGPUGPGPU應(yīng)用程序中最小的計(jì)算單位為線程(threads),線程之間并行的在GPU上運(yùn)行。GPGPU進(jìn)一步將線程組織為線程塊(threadblocks),或者也稱shadercore24CUDA編程手冊的接受,每次計(jì)算的并發(fā)數(shù)至少達(dá)到192才可以掩蓋處理器內(nèi)部的延遲(不考慮訪存延遲)。Shadercore1、訪存2、寫回,同時shadercore支持深度為四的超標(biāo)量技術(shù)。GPUshadercore32個情況下,shadercore處理一個warp需要四個時鐘周期。memoryshadercoretexturecachetexturememoryconstantcacheglobaltexturememoryshadercore16KB大小的sharedmemory。ShadercoreL2cache的訪問并不是直接進(jìn)行的,而是會經(jīng)過一次整合。GPUArchitecturalCrossbar,可以視為級數(shù)為一的butterfly網(wǎng)絡(luò);b.CTAdistribution是較多的CTA在同一個shadercore上運(yùn)行會導(dǎo)致比較大的訪存延遲。CTAshadercoresshadercoresCTA的數(shù)量。CTA會選擇一個當(dāng)前運(yùn)行CTAshadercores進(jìn)入。c.MemoryAccessCoalescing器(miss-statusholdingregisters)中,之后統(tǒng)一進(jìn)行訪存操作。Gem5-gpu中,基本上所有的組件(CPUcore、GPUcore、cache等)、gem5-gpu具有便于拓展和更改的特點(diǎn),無論是部Gem5-gpu同時支持以上兩種系統(tǒng)結(jié)構(gòu),研究者可以根據(jù)不同的研究方向來ARM、x86、MIPS等多種指令集。SLICCcache一致性策略的編寫。Ruby系統(tǒng)還提供了對外Gem5-gpuGPGPU-simCUDA程序的支持,同時將其擴(kuò)展,使第三部分總結(jié)Gem5-gpugem5M5GEMSGPGPU-sim四款仿真器的繼承,Gem5-gp
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025年度美容院與醫(yī)療美容機(jī)構(gòu)合作合同4篇
- 二零二五年度美容儀器代理售后服務(wù)合同3篇
- 二零二四年度住宅小區(qū)綠化植物租賃與智慧社區(qū)建設(shè)合同3篇
- 二零二五年度物流項(xiàng)目出資轉(zhuǎn)讓投資管理合同4篇
- 二零二五年度農(nóng)業(yè)大棚搭棚工程承包合同4篇
- 二零二四年度信息技術(shù)與服務(wù)合同內(nèi)容2篇
- 二零二五版承臺施工質(zhì)量檢測合同
- 二零二五年度智能溫室大棚租賃服務(wù)合同范本4篇
- 2025年度學(xué)術(shù)論文成果保密與知識產(chǎn)權(quán)保護(hù)協(xié)議4篇
- 二零二五年度環(huán)保設(shè)備供應(yīng)商價格保密與節(jié)能減排合同3篇
- 《集裝箱結(jié)構(gòu)》課件
- 項(xiàng)目績效和獎勵計(jì)劃
- 光伏自發(fā)自用項(xiàng)目年用電清單和消納計(jì)算表
- 量子計(jì)算在醫(yī)學(xué)圖像處理中的潛力
- 阿里商旅整體差旅解決方案
- 浙江天臺歷史文化名城保護(hù)規(guī)劃說明書
- 邏輯思維訓(xùn)練500題
- 實(shí)體瘤療效評價標(biāo)準(zhǔn)RECIST-1.1版中文
- 企業(yè)新春茶話會PPT模板
- GB/T 19185-2008交流線路帶電作業(yè)安全距離計(jì)算方法
- DIC診治新進(jìn)展課件
評論
0/150
提交評論