版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
1、在MPSoC中用于動(dòng)態(tài)平衡GPU和CPU帶寬的感知QoS的存儲(chǔ)控制器摘要多種多樣的IP核集成在了現(xiàn)代的系統(tǒng)芯片中并進(jìn)行資源共享。片外存儲(chǔ)器的帶寬經(jīng)常是最缺少的資源,需要進(jìn)行認(rèn)真的配置。最重要的兩個(gè)核:CPU和GPU,可能同時(shí)都需要高的帶寬。我們證實(shí),傳統(tǒng)的服務(wù)質(zhì)量配置技術(shù)有時(shí)會(huì)允許CPU壟斷共享帶寬,從而極大地限制GPU的性能。我們?cè)谝环N能跟蹤GPU工作量進(jìn)度的新機(jī)制的基礎(chǔ)上提議對(duì)CPU的優(yōu)先權(quán)和GPU的內(nèi)存請(qǐng)求進(jìn)行動(dòng)態(tài)的適應(yīng)。我們的評(píng)估證實(shí):這種機(jī)制能夠顯著改善GPU的性能并只對(duì)CPU造成最低的影響。1. 簡介一種典型的現(xiàn)代系統(tǒng)芯片由多種類型的IP核構(gòu)成,這些IP核有不同的功能。這種SoC之
2、所以能實(shí)現(xiàn)是因?yàn)楫悩?gòu)性提高了效率,減少了開發(fā)時(shí)間。所有的集成核共享片外存儲(chǔ)器,這通常是最受到限制的資源。例如,高端SoC現(xiàn)在包含了高功耗的CPU和GPU核,它們對(duì)存儲(chǔ)系統(tǒng)的需求都非常大。如何在CPU和GPU核之間進(jìn)行缺乏的內(nèi)存帶寬的最佳配置依舊是一個(gè)重要的挑戰(zhàn)。CPU對(duì)延遲是很敏感的,在沒有性能損失的情況下不能承受過長的內(nèi)存延遲。另一方面,GPU可以承受長的延遲,但卻始終需要高帶寬來滿足它的實(shí)時(shí)期限。因?yàn)镃PU對(duì)延遲敏感,所以通常情況下,來自CPU的請(qǐng)求的優(yōu)先級(jí)總是高于GPU。我們證實(shí),這樣一個(gè)靜態(tài)的策略可能會(huì)導(dǎo)致GPU的幀速率低到令人不能接受,相反,提高來自GPU的請(qǐng)求的優(yōu)先級(jí)會(huì)降低CPU的
3、性能。我們提出了一個(gè)新的機(jī)制來解決這個(gè)問題,通過動(dòng)態(tài)地調(diào)整存儲(chǔ)控制器的服務(wù)質(zhì)量(QoS)策略。正如今天我們做的,我們默認(rèn)CPU的請(qǐng)求為高優(yōu)先級(jí),并適時(shí)地對(duì)GPU的請(qǐng)求進(jìn)行服務(wù)。但是,當(dāng)GPU預(yù)期將超過一個(gè)幀期限時(shí),我們通過提高它的優(yōu)先級(jí)來提高GPU的服務(wù)速率。我們的技術(shù)的關(guān)鍵在于識(shí)別何時(shí)這個(gè)默認(rèn)的策略應(yīng)當(dāng)被調(diào)整。我們通過利用GPU架構(gòu)的知識(shí)來做到這個(gè),并監(jiān)控一個(gè)即將超過幀期限的幀的處理進(jìn)程,存儲(chǔ)控制器便能決定何時(shí)一個(gè)幀期限即將被超越并提高GPU的服務(wù)質(zhì)量。據(jù)我們所知,我們是提出并提供一個(gè)詳細(xì)的存儲(chǔ)控制器的QoS策略調(diào)整的評(píng)估,來響應(yīng)實(shí)時(shí)期限下的進(jìn)展情況的第一批人。我們展示了這個(gè)動(dòng)態(tài)的技術(shù)是怎樣
4、實(shí)現(xiàn)實(shí)時(shí)約束和最高效存儲(chǔ)器訪問之間的平衡的,以及是如何通過只對(duì)CPU造成很小的影響而維持GPU的目標(biāo)性能的。另外,我們還首先提出了一份詳細(xì)分析,這份分析是建立在用一個(gè)詳細(xì)的存儲(chǔ)系統(tǒng)對(duì)GPU和CPU核進(jìn)行周期精確級(jí)的聯(lián)合仿真的基礎(chǔ)上的。我們對(duì)這些模塊如何相互作用有著重要的見解,而這和當(dāng)前的最佳實(shí)踐是相抵觸的。本文剩余部分組織如下:第二部分介紹了CPU和GPU架構(gòu),存儲(chǔ)控制器和常用的QoS機(jī)制的背景。第三部分在我們的GPU工作量進(jìn)展監(jiān)控技術(shù)的基礎(chǔ)上描述了我們的動(dòng)態(tài)QoS機(jī)制。我們?cè)诘谒暮偷谖宀糠纸榻B了我們的評(píng)估方法和結(jié)果,在第六部分得出了結(jié)論。2. 背景和相關(guān)工作這部分簡要討論了存儲(chǔ)器訪問和CPU
5、和GPU核的執(zhí)行特征,以及現(xiàn)代存儲(chǔ)控制器和QoS機(jī)制的基本原理和設(shè)計(jì)。2.1 CPU現(xiàn)代的通用處理器主要被設(shè)計(jì)用于將執(zhí)行單線程的性能最大化,單線程性能對(duì)于長延遲的存儲(chǔ)器請(qǐng)求是非常敏感的,因?yàn)橐蕾囉陂L延遲裝載的指令在裝載完成之前是不能進(jìn)行的。高速緩存和亂序執(zhí)行能夠減輕長時(shí)間的主存儲(chǔ)器延遲的影響。然而,主存儲(chǔ)器訪問延遲比亂序結(jié)構(gòu)所能容忍的延遲要高很多,并且從高速緩存到主存儲(chǔ)器的未命中往往會(huì)拖延線程的訪問7,因此,任何CPU存儲(chǔ)器訪問延遲的增加,如GPU的競爭所帶來的延遲,會(huì)降低CPU的性能。2.2 GPU移動(dòng)GPU核通常采用分塊渲染的方式來降低片外存儲(chǔ)器的帶寬消耗,屏幕被分為很多塊,這些塊可以彼此
6、獨(dú)立地被處理(圖1)。因?yàn)檫@些塊足夠小,一個(gè)塊中的所有像素?cái)?shù)據(jù)在被渲染時(shí)都可以存放在片上緩沖區(qū),這樣對(duì)相同像素的重復(fù)訪問不會(huì)引發(fā)片外存儲(chǔ)器訪問。GPU能夠并行地處理塊中以及多個(gè)塊中所有的頂點(diǎn)和碎片,因此能夠承受非常高的存儲(chǔ)器延遲。但它們?nèi)孕枰叩膸?,并且?duì)可用帶寬的破壞是非常敏感的。簡單的場(chǎng)景可以被快速地處理,并產(chǎn)生相對(duì)較低的存儲(chǔ)器通信量,而其它可能要占用全部的時(shí)間甚至更長,導(dǎo)致跳幀,降低用戶的體驗(yàn)。GPU在結(jié)束一個(gè)幀和開始下一個(gè)幀之間可能處于空閑狀態(tài),因?yàn)閹俾适枪潭ǖ?,幀的渲染時(shí)間是變化的,圖2顯示了一個(gè)例子,以Taiji為工作負(fù)載的GPU處理一個(gè)幀,并和兩個(gè)CPU核一起運(yùn)行。圖中顯示了
7、GPU是怎樣只需要一半的幀時(shí)間去處理一個(gè)場(chǎng)景的(GPU的帶寬消耗用虛線表示),并且總共消耗了約62%的總存儲(chǔ)器帶寬,當(dāng)沒有被存儲(chǔ)控制器約束的時(shí)候。這張圖還顯示了GPU對(duì)帶寬的過度使用與GPU空閑時(shí)相比是如何降低CPU性能的(CPU每周期執(zhí)行的指令數(shù)(IPC),用實(shí)線表示)。這兩張子圖顯示了不同的CPU工作量和同一組GPU幀。Mcf和art都是MinneSPEC套件9中的內(nèi)存密集型應(yīng)用程序,art需要更高一些的帶寬。2.3 存儲(chǔ)控制器現(xiàn)代DRAM架構(gòu)通過空間局部性在訪問模式上得到了優(yōu)化。在一個(gè)DRAM芯片內(nèi),每次訪問都以一整行為單位,在當(dāng)前技術(shù)中是8kb或16kb10。為了補(bǔ)償激活一個(gè)DRAM行
8、所需的時(shí)間和能量,每一個(gè)DRAM塊中有一個(gè)行緩沖區(qū)。對(duì)相同行的連續(xù)訪問(行緩沖區(qū)命中)可以直接從行緩沖區(qū)中得到服務(wù),在激活行的時(shí)候節(jié)省時(shí)間和能量。相反,對(duì)不同行的訪問(行緩沖區(qū)不命中)需要另外的步驟對(duì)該行進(jìn)行預(yù)充電,激活新的一行。當(dāng)行緩沖區(qū)命中率低時(shí),DRAM只能提供其峰值帶寬的很小部分。因此,現(xiàn)代亂序存儲(chǔ)控制器通過提高行緩沖區(qū)命中請(qǐng)求13的優(yōu)先權(quán)來安排對(duì)相同行的訪問。2.4 服務(wù)質(zhì)量一個(gè)亂序存儲(chǔ)器調(diào)度器能夠提高總體的帶寬,但是在一個(gè)共享存儲(chǔ)器的SoC中,一些優(yōu)先級(jí)方案會(huì)讓一些核一直處于等待狀態(tài),而其它一些空間局部性高的核頻繁地發(fā)出請(qǐng)求,如GPU。為了防止這樣的不公平,存儲(chǔ)控制器必須平衡來自不
9、同核的訪問,提供QoS機(jī)制。因?yàn)镾oC產(chǎn)業(yè)的激烈競爭,關(guān)于商業(yè)SoC如何管理共享存儲(chǔ)器帶寬的信息很少有公開可用的。大多數(shù)先前的關(guān)于片外存儲(chǔ)器帶寬QoS的文獻(xiàn)主要致力于和我們的多處理器SoC(MPSoC)不同的內(nèi)容,比如實(shí)時(shí)系統(tǒng)和通用芯片多處理器(CMP)。高端SoC將實(shí)時(shí)模塊和盡力而為模塊結(jié)合,并將存儲(chǔ)器帶寬共享放在了極其重要的位置上。先前的在CMP的QoS上的工作(例如11,12)沒有考慮到實(shí)時(shí)約束,因此導(dǎo)致GPU過多地超過幀期限。另一方面,實(shí)時(shí)系統(tǒng)的工作專門集中于限制單個(gè)請(qǐng)求的延遲,并確保只用到極小的共享數(shù)據(jù)吞吐量2。這個(gè)方法犧牲了高效的存儲(chǔ)器調(diào)度來保證不超過期限,這導(dǎo)致了對(duì)DRAM可用帶
10、寬的極低的利用率,并需要昂貴的資源。最近的白皮書15,16討論了一般的服務(wù)質(zhì)量技術(shù)和建議,并描述了現(xiàn)狀。這個(gè)現(xiàn)狀是,將以下兩種技術(shù)結(jié)合在一起時(shí)是高效的,這兩種技術(shù)是,調(diào)整未解決的GPU請(qǐng)求的數(shù)目,并將CPU請(qǐng)求的優(yōu)先級(jí)置于GPU之上。注意到先前的學(xué)術(shù)文獻(xiàn)沒有致力于這個(gè)特殊的問題:在不同核中的盡力而為工作負(fù)載和實(shí)時(shí)工作負(fù)載之間進(jìn)行帶寬的共享。限制未解決的GPU請(qǐng)求的數(shù)量會(huì)降低GPU連續(xù)向存儲(chǔ)系統(tǒng)發(fā)送請(qǐng)求的能力,雖然圖表算法的充足的并行性使得很多請(qǐng)求能夠并發(fā)進(jìn)行。未解決的GPU請(qǐng)求的數(shù)量越少,其它核訪問存儲(chǔ)器的可用空間就越多。有很多等價(jià)的機(jī)制可用來限制未解決的GPU請(qǐng)求的數(shù)量,包括為每個(gè)核單獨(dú)分配
11、一個(gè)存儲(chǔ)控制器隊(duì)列,這可以是物理上的也可以是虛擬的。保證請(qǐng)求隊(duì)列中的可用空間是不夠的,因?yàn)榇鎯?chǔ)控制器可能仍然會(huì)總是處理GPU的請(qǐng)求,為了避免這種情況發(fā)生,可以使用一種定時(shí)的QoS技術(shù),但是最近的指導(dǎo)方針認(rèn)為CPU請(qǐng)求應(yīng)當(dāng)放在更高的優(yōu)先級(jí),來減少由于競爭引發(fā)的高存儲(chǔ)器訪問延遲15,16所帶來的性能損失。雖然優(yōu)先級(jí)策略是不變的,GPU仍可能會(huì)在CPU核沒有頻繁訪問主存儲(chǔ)器時(shí)利用大部分可用的帶寬。無論如何,盲目地提高CPU請(qǐng)求的優(yōu)先級(jí)會(huì)大大降低GPU的性能,當(dāng)一個(gè)CPU持續(xù)使用高存儲(chǔ)器帶寬而且GPU的工作量足夠復(fù)雜也需要高存儲(chǔ)器帶寬的時(shí)候,圖3顯示了這種QoS機(jī)制的影響,圖中顯示了和圖2相同的工作負(fù)
12、載場(chǎng)景,但使用了一種QoS機(jī)制,通過將未解決的GPU請(qǐng)求限制到8個(gè)并提高所有對(duì)延遲敏感的CPU請(qǐng)求的優(yōu)先級(jí)來平衡存儲(chǔ)器性能。和圖2相比,這種QoS機(jī)制成功地解決了CPU請(qǐng)求的等待問題,并且CPU的性能也沒有受到GPU的影響,但是,這種靜態(tài)QoS卻影響了GPU,當(dāng)mcf和art和GPU一起運(yùn)行時(shí),GPU僅僅得到勉強(qiáng)足夠的帶寬來維持幀速率,而在更高帶寬的art-artCPU工作負(fù)載中,GPU則超越了幀期限。從這個(gè)例子和討論中,我們可以得出結(jié)論:為了讓靜態(tài)的QoS機(jī)制適用于任何工作負(fù)載,應(yīng)當(dāng)提供超額的存儲(chǔ)器帶寬來應(yīng)對(duì)最壞的情況,否則,不論是重新配置或編程,都可能會(huì)導(dǎo)致數(shù)據(jù)幀丟失。另一個(gè)更好的提供超額
13、帶寬的方法是確認(rèn)何時(shí)應(yīng)當(dāng)允許GPU去幾乎壟斷帶寬來滿足它的實(shí)時(shí)限制,這我們將在下一部分討論。3. 動(dòng)態(tài)服務(wù)質(zhì)量靜態(tài)服務(wù)機(jī)制不能適應(yīng)實(shí)際工作負(fù)載的動(dòng)態(tài)情況,從而導(dǎo)致不是CPU性能的降低(圖2),就是GPU的超出幀期限(圖3(b)。為了在滿足GPU實(shí)時(shí)限制的同時(shí)得到高的CPU性能,我們計(jì)劃在工作負(fù)載運(yùn)行期間特征的基礎(chǔ)上動(dòng)態(tài)地調(diào)整QoS策略。理想情況下,只要CPU不會(huì)影響GPU的目標(biāo)幀速率,CPU請(qǐng)求就應(yīng)當(dāng)置于高優(yōu)先級(jí),達(dá)到接近這種理想情況的關(guān)鍵是確定何時(shí)一個(gè)幀期限將要被超越,然后只在那時(shí)調(diào)整QoS策略,將GPU和CPU置于同等優(yōu)先級(jí),甚至將GPU的優(yōu)先級(jí)置于CPU之上。下面我們討論怎樣預(yù)測(cè)GPU何
14、時(shí)會(huì)進(jìn)展不順并調(diào)整優(yōu)先級(jí)。3.1 監(jiān)視GPU的工作進(jìn)度2.2節(jié)討論到,移動(dòng)GPU將屏幕分割成相同大小的塊,并將它們有序地處理,每個(gè)塊因?yàn)樗信c它重疊的元數(shù)據(jù)只被處理一次,然后在下一個(gè)幀之前就不會(huì)再被訪問了,我們利用這點(diǎn)去跟蹤GPU在當(dāng)前幀的工作進(jìn)展,GPU硬件知道它總共要處理多少個(gè)塊,塊處理的規(guī)則,以及當(dāng)前有多少塊是處于激活狀態(tài)的,因此進(jìn)度可以簡單地用整個(gè)幀中的當(dāng)前位置表示,如方程1所示。這個(gè)信息可以由GPU傳給存儲(chǔ)控制器來調(diào)整QoS策略。雖然這個(gè)進(jìn)度監(jiān)控機(jī)制很簡單,在我們的系統(tǒng)中卻是非常有效的,因?yàn)橐苿?dòng)GPU采用細(xì)粒度的塊,通過采用較粗糙的塊或沒有分塊的GPU架構(gòu),一個(gè)更加復(fù)雜的工作量評(píng)估方
15、法可以被采用,比如先前的工作中提到到對(duì)GPU工作電壓和頻率的粗粒度調(diào)整5,14。3.2 動(dòng)態(tài)QoS策略為了確定QoS策略,存儲(chǔ)控制器將上面得到的幀進(jìn)度和期望的進(jìn)度比較。期望的進(jìn)度可以通過將當(dāng)前幀所用時(shí)間除以目標(biāo)幀時(shí)間得到(例如,60幀每秒的目標(biāo)幀時(shí)間為16.67ms),如方程2所示,通過跟蹤進(jìn)度,可以采用更加復(fù)雜的技術(shù)來得到期望進(jìn)度5的更精確的估計(jì)。存儲(chǔ)控制器然后根據(jù)GPU落后它的期望進(jìn)度的多少來選擇一個(gè)QoS策略,算法1展示了一個(gè)我們?cè)诒疚闹胁捎玫膭?dòng)態(tài)QoS的例子,并且在我們的試驗(yàn)中取得了很好的效果。有兩個(gè)優(yōu)先級(jí),只要當(dāng)前的GPU進(jìn)度大于期望的進(jìn)度,CPU就會(huì)得到更高的優(yōu)先級(jí),當(dāng)進(jìn)度落后于期
16、望進(jìn)度時(shí),GPU的優(yōu)先級(jí)就會(huì)升高到和CPU相等,當(dāng)距離期限只有10%的幀時(shí)間,而GPU還沒有到達(dá)它的期望進(jìn)度時(shí),GPU的優(yōu)先級(jí)就會(huì)高于CPU來滿足幀期限,這個(gè)10%的緩沖區(qū)可用來調(diào)整以獲得更高的性能。我們?cè)俅斡靡粋€(gè)簡單的設(shè)計(jì)證實(shí)了這個(gè)動(dòng)態(tài)方法的益處和重要性,我們將這個(gè)QoS選擇算法的優(yōu)點(diǎn)保留到了以后的工作中。圖4(a)展示了一個(gè)CPU為高優(yōu)先級(jí)的靜態(tài)機(jī)制是怎樣導(dǎo)致一個(gè)GPU超越幀期限的。通過我們的動(dòng)態(tài)機(jī)制,對(duì)GPU的優(yōu)先級(jí)進(jìn)行動(dòng)態(tài)的提高使得它能夠滿足它的幀期限(圖4(b)。在第一幀,GPU在優(yōu)先級(jí)低于CPU的情況下仍能在大部分時(shí)間里達(dá)到滿意的進(jìn)度,而在第二幀,GPU在大部分時(shí)間里都要獲得和CP
17、U相同的優(yōu)先級(jí),在幀的末尾則需要比CPU更高的優(yōu)先級(jí)來確保它滿足幀期限。4. 評(píng)估方法我們使用周期級(jí)的仿真來評(píng)估我們的動(dòng)態(tài)QoS機(jī)制,我們使用gem5系統(tǒng)仿真器4和DrSim DRAM仿真器6的結(jié)合。Gem5亂序CPU模型和GPU模型通過gem5總線共享DRAM模型。DrSim模擬存儲(chǔ)控制器和DRAM模塊,進(jìn)行請(qǐng)求緩沖,DRAM指令調(diào)度,共享資源的競爭(如地址/控制和數(shù)據(jù)總線)以及LPDDR2 DRAM的所有延遲和時(shí)序約束的仿真。系統(tǒng)配置我們仿真使用的QoS機(jī)制包括不受控制的CPU和GPU(noqos),靜態(tài)的CPU優(yōu)先級(jí)高于GPU(static),以及我們的動(dòng)態(tài)機(jī)制(dynamic)。將未解
18、決的GPU請(qǐng)求數(shù)量限制到N(outN)與static和dynamic機(jī)制一起被采用。表1總結(jié)了我們的被仿真系統(tǒng)的參數(shù),我們相信這個(gè)被仿真的系統(tǒng)是下一代高端移動(dòng)SoC的代表。存儲(chǔ)器調(diào)度隊(duì)列足夠大以保證當(dāng)GPU在noqos機(jī)制下不受約束時(shí),CPU請(qǐng)求有足夠的空間。工作負(fù)載由于GPU緩慢的仿真速度,在完整操作系統(tǒng)和GPU驅(qū)動(dòng)程序堆棧的頂部去運(yùn)行一個(gè)GPU加速應(yīng)用程序和其它存儲(chǔ)器密集型應(yīng)用程序是不現(xiàn)實(shí)的。相反,我們?cè)贑PU核上運(yùn)行CPU工作負(fù)載,和GPU上的圖形處理工作并行運(yùn)行,來接近存儲(chǔ)器帶寬受限制的使用場(chǎng)景。表2顯示了CPU和GPU所采用的基準(zhǔn),我們選擇了兩個(gè)SPEC CPU 2000,以Minn
19、eSPEC輸入設(shè)置9為基準(zhǔn),對(duì)存儲(chǔ)系統(tǒng)的要求很高,雙核CPU工作負(fù)載被多次編程來對(duì)三個(gè)級(jí)別的存儲(chǔ)器帶寬的使用進(jìn)行仿真,GPU的工作負(fù)載是每一個(gè)圖形基準(zhǔn)中的代表幀的后驅(qū)動(dòng)輸出,taiji和egypt是WVGA分辨率,taiji1080p和farcry是1080p,它們的目標(biāo)性能,即每秒處理的幀數(shù)(FPS),由它們?cè)跊]有CPU的干擾下在GPU上的執(zhí)行時(shí)間決定。兩個(gè)工作負(fù)載:taiji1080p和farcry在我們的仿真系統(tǒng)上不能在16.67ms內(nèi)完成一個(gè)幀的處理,但能在33.34ms內(nèi)完成,我們跳過缺失的幀,并且重復(fù)這種做法,這樣目標(biāo)FPS就是60的除數(shù)。5. 結(jié)果在這部分我們展示了試驗(yàn)結(jié)果來證實(shí)
20、動(dòng)態(tài)機(jī)制的高效性。我們集中于被SoC的可用的存儲(chǔ)器帶寬約束的工作負(fù)載。在此種情況下,想要同時(shí)滿足目標(biāo)幀速率和在沒有GPU沒有干擾的情況下對(duì)CPU服務(wù)是不可能的。我們分析了模塊間的相互作用,并展示了動(dòng)態(tài)機(jī)制是怎樣適應(yīng)工作量需求組合的變化的,并提供了近乎理想的QoS策略,而當(dāng)前的靜態(tài)QoS指導(dǎo)方針是失敗的。為了更好地對(duì)這些相互作用量化,我們?cè)趫D5和圖6中分別展示了在多個(gè)QoS策略下GPU和CPU的性能結(jié)果,結(jié)果得出了兩個(gè)重要結(jié)論,這和當(dāng)前的提高CPU優(yōu)先級(jí)和限制GPU的最佳實(shí)踐是相沖突的。首先,限制未解決的GPU請(qǐng)求的數(shù)量會(huì)導(dǎo)致GPU超越期限,而且同時(shí)經(jīng)常會(huì)降低CPU的性能。如圖5所示,將GPU的
21、未解決請(qǐng)求的數(shù)量限制為8會(huì)將幀速率減少33%或50%,意味著每三到兩個(gè)幀就會(huì)丟失一個(gè)幀。這對(duì)CPU的影響很有趣,圖6表明,只要GPU滿足了它的期限(GPU未能達(dá)到要求的配置在圖6中被涂成了黑色),CPU要么從對(duì)GPU的限制中得到了很少的益處,要么性能就顯著下降。我們發(fā)現(xiàn)減少GPU請(qǐng)求的數(shù)量供存儲(chǔ)調(diào)度器選擇會(huì)阻止有效的調(diào)度并降低有效的存儲(chǔ)器帶寬,GPU和CPU都會(huì)遭受更長時(shí)間的低有效帶寬。只有當(dāng)GPU沒有能夠滿足它需要的幀速率(黑色條)時(shí),CPU才會(huì)從受約束的GPU中得益。例如,將GPU的未解決請(qǐng)求限制到8個(gè)只會(huì)讓farcry-art-art中CPU的性能降低5%,而GPU卻只達(dá)到了10FPS的
22、幀速率,而不是目標(biāo)的30FPS,這通常是不能令人接受的。第二,我們的GPUdynamicQoS機(jī)制能夠適應(yīng)CPU和GPU工作負(fù)載的變化,并且能夠?yàn)槊總€(gè)工作負(fù)載提供最好的QoS機(jī)制。當(dāng)工作負(fù)載的帶寬不夠時(shí)(圖5中的egypt和farcry),只有noqos和動(dòng)態(tài)機(jī)制滿足GPU的性能需求。即使在這樣一個(gè)帶寬受限的例子中,dynamic機(jī)制仍然能夠找到機(jī)會(huì)提高CPU的優(yōu)先級(jí),將CPU減慢的速度和noqos相比降低3.6%和6.9%。當(dāng)有足夠的帶寬同時(shí)為GPU和CPU服務(wù)時(shí),dynamic+out32的CPU性能大致和每個(gè)工作負(fù)載的最好的static配置相匹配。(圖6中最矮的非黑色線條所示),并將減慢
23、的速率于noqos相比降低了9.4%。另外,限制GPU的未解決請(qǐng)求的數(shù)量在動(dòng)態(tài)機(jī)制中的egypt和mcf-art工作負(fù)載下會(huì)更加降低CPU的性能。結(jié)果表明,這種限制會(huì)降低GPU的進(jìn)展速度,所以我們的動(dòng)態(tài)機(jī)制會(huì)迫使存儲(chǔ)控制器提高GPU的優(yōu)先級(jí),因此CPU就會(huì)受到影響。因?yàn)閙cf-art使用的存儲(chǔ)器帶寬較適中,GPU的請(qǐng)求在優(yōu)先級(jí)別低的情況下也可以發(fā)出,因此,即使存儲(chǔ)控制器有很多未解決的GPU請(qǐng)求,也能將它們有效地調(diào)度,使得GPU進(jìn)展順利。在dynamic+out32配置中,存儲(chǔ)控制器沒有提高GPU的優(yōu)先級(jí),CPU得到了低延遲的優(yōu)先訪問,得到了更好的性能。 6. 結(jié)論在本文中我們?cè)敿?xì)分析了一種能夠
24、代表當(dāng)前和未來的先進(jìn)SoC系統(tǒng)的性能。我們使用了一個(gè)周期級(jí)仿真器來為一個(gè)具有雙核CPU和一個(gè)移動(dòng)GPU的SoC建模,它們都共享一個(gè)單獨(dú)的DRAM主存儲(chǔ)器系統(tǒng)。通過評(píng)估這些模塊間相互的復(fù)雜作用,我們證實(shí)了當(dāng)前的最佳QoS機(jī)制是不夠的,并且經(jīng)常提供錯(cuò)誤的QoS策略。我們確定沒有一種靜態(tài)策略能夠同時(shí)滿足GPU的需求并不對(duì)CPU核產(chǎn)生大的影響。我們使用這個(gè)見解開發(fā)了一種動(dòng)態(tài)QoS機(jī)制,如果可能就維持CPU的優(yōu)先級(jí),但如果預(yù)測(cè)到GPU即將超越一個(gè)實(shí)時(shí)期限的時(shí)候,就會(huì)將GPU切換至高優(yōu)先級(jí)。我們提出了一種簡單而高效的,基于分塊的跟蹤幀進(jìn)度的機(jī)制,使動(dòng)態(tài)QoS策略可以實(shí)現(xiàn),并證實(shí)了它可以同時(shí)使GPU滿足它的
25、期限,并將對(duì)CPU的影響最小化。通過采用我們的技術(shù),我們還得出結(jié)論,當(dāng)今使用的一種靜態(tài)QoS機(jī)制,即限制未解決的GPU請(qǐng)求的數(shù)量,經(jīng)常會(huì)降低所有核的性能,因?yàn)樗拗屏舜鎯?chǔ)器調(diào)度器利用存儲(chǔ)器的能力。這些結(jié)論很重要,為進(jìn)一步研究開辟了道路。本文采用了GPU和CPU作為需求相沖突的核的例子,對(duì)延遲敏感的CPU核和對(duì)帶寬敏感的實(shí)時(shí)的GPU核。這些不同的需求很普遍,并且越來越多的核在共享一個(gè)越來越受到限制的存儲(chǔ)系統(tǒng)。我們相信,如我們所介紹的動(dòng)態(tài)技術(shù),是使得未來的系統(tǒng)能滿足用戶需求并仍能有效地利用稀少的共享資源的關(guān)鍵。7. 參考文獻(xiàn)1 3DMarkMobile ES 2.0.2011.2 B. Akess
26、on, K. Goossens, and M. Ringhofer. Predator: APredicatable SDRAM Memory Controller. In Proceedingsof the 5th IEEE/ACM international conference onHardware/software codesign and system synthesis -CODES+ISSS 07, page 251, New York, New York, USA,Sept. 2007. ACM Press.3 R. Ausavarungnirun, G. Loh, K. Ch
27、ang, L. Subramanian,and O. Mutlu. Staged memory scheduling: Achieving highperformance and scalability in heterogeneous systems. InProc. the 39th Ann. Intl Symp. Computer Architecture(ISCA), ISCA 12, New York, NY, USA, 2012. ACM.4 N. Binkert, B. Beckmann, G. Black, S. K. Reinhardt,A. Saidi, A. Basu,
28、J. Hestness, D. R. Hower, T. Krishna,S. Sardashti, R. Sen, K. Sewell, M. Shoaib, N. Vaish, M. D.Hill, and D. A. Wood. The gem5 simulator. SIGARCHComput. Archit. News, 39:17, Aug. 2011.5 Y. Gu and S. Chakraborty. A Hybrid DVS Scheme forInteractive 3D Games. In 2008 IEEE Real-Time andEmbedded Technolo
29、gy and Applications Symposium, pages312. IEEE, Apr. 2008.6 M. K. Jeong, D. H. Yoon, and M. Erez. DrSim: A platformfor exible DRAM system research./public/DrSim.7 T. Karkhanis and J. E. Smith. A day in the life of a datacache miss. In Workshop on Memory Performance Issues,2002
30、.8 Kishonti Informatics Ltd. GLBenchmark., 2011.9 A. J. KleinOsowski and D. J. Lilja. Minnespec: A new specbenchmark workload for simulation-based computerarchitecture research. IEEE Comput. Archit. Lett., 1:7,January 2002.10 Micron Corp. Micron 2 Gb _16, _32, Mobile LPDDR2SDRAM S4, 2011.11 O. Mutlu and T. Moscibroda. Stall-time fair memory accessscheduling for chip multiprocessors. In InternationalSymposium on Microarchitecture, pages 146160, 2007.12 K. Nesbit, N. Aggarwal, J. Laudon, and J. Smit
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 老師免責(zé)協(xié)議書(2篇)
- 南京工業(yè)大學(xué)浦江學(xué)院《新能源汽車》2022-2023學(xué)年第一學(xué)期期末試卷
- 南京工業(yè)大學(xué)浦江學(xué)院《設(shè)計(jì)思維與方法》2022-2023學(xué)年第一學(xué)期期末試卷
- 分式通分說課稿
- 啟東市安置房城東村高層住宅小區(qū)施工組織總設(shè)計(jì)方案
- 【初中化學(xué)】課題2 原子的結(jié)構(gòu)第二課時(shí)-2024-2025學(xué)年九年級(jí)化學(xué)人教版上冊(cè)
- 《雨點(diǎn)兒》說課稿
- 南京工業(yè)大學(xué)浦江學(xué)院《發(fā)動(dòng)機(jī)原理》2022-2023學(xué)年第一學(xué)期期末試卷
- 私人遷墳協(xié)議書(2篇)
- 南京工業(yè)大學(xué)《信息檢索6:藝術(shù)法學(xué)馬克思外語體育》2022-2023學(xué)年期末試卷
- 肺出血病人的護(hù)理查房課件
- 雙擁工作策劃方案
- 《小鴨子學(xué)游泳》
- 活性污泥過程建模
- 中國傳統(tǒng)裝飾圖形的造型特征和裝飾風(fēng)格
- 句容輔警考試題庫
- GRR測(cè)量系統(tǒng)分析報(bào)告范例
- 第三單元單元研習(xí)任務(wù) 教學(xué)設(shè)計(jì) 統(tǒng)編版高中語文選擇性必修中冊(cè)
- “學(xué)、練、賽、評(píng)一體化”教學(xué)模式下學(xué)生核心素養(yǎng)培育模式探究
- 彩色多普勒超聲診斷儀投標(biāo)方案(技術(shù)標(biāo))
- 集團(tuán)25周年慶典活動(dòng)創(chuàng)意思路案
評(píng)論
0/150
提交評(píng)論