流水線與并行處理技術(shù)_第1頁
流水線與并行處理技術(shù)_第2頁
流水線與并行處理技術(shù)_第3頁
流水線與并行處理技術(shù)_第4頁
流水線與并行處理技術(shù)_第5頁
已閱讀5頁,還剩7頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

1、流水線與并行處理1. 概述流水線技術(shù)導(dǎo)致了關(guān)鍵路徑的縮短,從而可以提高時鐘速度或采樣速度,或者可以在同樣速度下降低功耗。在并行處理中,多個輸出在一個時鐘周期內(nèi)并行地計算。這樣,有效采樣速度提高到與并行級數(shù)相當?shù)谋稊?shù)。與流水線類似,并行處理也能夠用來降低功耗??紤]3階有限沖激響應(yīng)(FIR)數(shù)字濾波器:y(n) = ax(n) + bx(n-1) + cx(n-2) (1-1)其框圖實現(xiàn)示意圖如圖1所示:圖1 一個3階FIR濾波器關(guān)鍵路徑(或者處理一個新樣點所需要的最小時間)由1個乘法與2個加法器時間來限定。如果TM是乘法所用的時間,TA是加法操作需要的時間,Tsample是采樣周期,則必須滿足:

2、Tsample TM + 2TA (1-2)因而,采樣頻率(fsample)(也稱為吞吐率或迭代速率),由下式給出:fsample (1-3)流水線采用沿著數(shù)據(jù)通路引入流水線鎖存器(本人理解是寄存器)的方法來減小有效關(guān)鍵路徑(effective critical path)。并行處理提高采樣頻率是采用復(fù)制硬件的方法,以使幾個輸入能夠并行的處理,而幾個輸出能夠在同一時間產(chǎn)生出來。2. FIR數(shù)字濾波器的流水線其流水線實現(xiàn)是通過引入兩個附加鎖存器而得到的,如圖2所示:圖2 流水線FIR濾波器,其中垂直虛線代表一個前饋割集關(guān)鍵路徑現(xiàn)在由TM + 2TA減小為TM + TA。在這種安排下,當左邊的加法

3、器啟動當前迭代計算的同時,右邊的加法器正在完成前次迭代結(jié)果的計算。必須注意到,在一個M級流水線系統(tǒng)中,從輸入到輸出的任一路徑上的延時原件數(shù)目是(M-1),它要大于在原始時序電路中同一路徑上的延時元件數(shù)。雖然流水線技術(shù)減小了關(guān)鍵路徑,但是它付出了增加遲滯(latency)的代價。遲滯實質(zhì)上是流水線系統(tǒng)第一個輸出數(shù)據(jù)的時間與原來時序系統(tǒng)第一個輸出數(shù)據(jù)時間相比的滯后。流水線技術(shù)缺點:增加了鎖存器數(shù)目和增加了系統(tǒng)的遲滯。下面要點需要注意:(1) 一個架構(gòu)的速度(或時鐘周期)由任意兩個鎖存器間、或一個輸入與一個鎖存器間、或者一個鎖存器與一個輸出間、或輸入與輸出間路徑中最長的路徑限定。(2) 這個最長的路

4、徑或“關(guān)鍵路徑”可以通過在架構(gòu)中適當插入流水線鎖存器來減小。(3) 流水線鎖存器只能按照穿過任一圖的“前饋割集(feed-forward cutset)”的方式插入。割集:割集是一個圖的邊的集合,如果從圖中移去這些邊,圖就成為不相連的了。前饋割集:如果數(shù)據(jù)在割集的所有邊上都沿前進的方向移動,這個割集就稱為前饋割集。3. 并行技術(shù)注意到并行處理與流水線技術(shù)互為對偶的這一特點是十分有趣,若一個計算能夠排成流水線,它也能并行的處理。兩種技術(shù)都發(fā)掘了計算中可供利用的并發(fā)性,只是方式不同。當一組互不相關(guān)的計算能夠在一個流水線系統(tǒng)中按交替方式計算時,則它們也能夠利用重復(fù)的硬件按并行處理的模式計算。3階FI

5、R濾波器系統(tǒng)是一個單輸入單輸出(SISO)系統(tǒng),可描述如下:y(n) = ax(n) + bx(n-1) + cx(n-2) (3-1)為了獲得一個并行處理結(jié)構(gòu),SISO系統(tǒng)必須轉(zhuǎn)換為MISO(多輸入多輸出)系統(tǒng)。例如,下列方程組描述一個每個時鐘周期由3個輸入的并行系統(tǒng)(即并行處理的級數(shù)L=3)。 此處k表示時鐘周期??梢钥闯?,在第k個時鐘周期,有三個輸入x(3k), x(3k+1), x(3k+2)被處理,同時輸出中產(chǎn)生3個樣點。并行處理系統(tǒng)也稱為塊處理系統(tǒng),而每個時鐘周期內(nèi)處理的輸入個數(shù)被稱為塊尺寸。由于MISO的結(jié)構(gòu),在任意一條線處插入一個鎖存器會產(chǎn)生一個有效延時,等于L個對應(yīng)于采樣率的

6、時鐘周期。每個延時原件稱為一個塊延時(也稱為L級減慢,L-slow)。例如,把信號x(3k)延遲一個時鐘周期將導(dǎo)致信號x(3k-3)而非x(3k-1),因為x(3k-1)已經(jīng)是另一條輸入線的輸入。3級并行FIR濾波器的框圖架構(gòu)如圖3所示:圖3 一個塊處理的例子其細節(jié)圖如圖4所示:圖4 塊尺寸為3的3階FIR濾波器的并行結(jié)構(gòu)處理注意,塊或并行處理系統(tǒng)的關(guān)鍵路徑保持不變,而且時鐘周期(Tclk)必須滿足:Tclk TM + 2TA (3-2)但是,由于3個樣點是在同一個時鐘周期內(nèi)而不是三個時鐘周期處理的,因此迭代周期由下式確定:Titer = Tsample = Tclk (TM + 2TA) (

7、3-3)重要的是要理解在并行系統(tǒng)中Tclk Tsample,而在流水線系統(tǒng)中Tclk Tsample,下圖給出了一個完整的并行處理系統(tǒng),它包含串-并轉(zhuǎn)換器和并-串轉(zhuǎn)換器:圖5 塊尺寸為4的完全并行處理系統(tǒng)其細節(jié)如下圖所示:現(xiàn)在人們會問,當能夠用流水線達到同樣好的效果時,為什么還要并行處理呢?為什么要復(fù)制和使用這么多硬件呢?回答是,流水線存在一個基本的限制,就是輸入/輸出(I/O)的瓶頸問題。考慮圖6的芯片組:圖6 一個芯片組圖例如,若假定輸出管腿、輸入管腿和兩個芯片之間連線的延時總和為8ns,那么Tclk必須大于或等于8ns。若關(guān)鍵路徑的計算時間小于8ns,則I/O延時的限制將占主導(dǎo)地位,該系

8、統(tǒng)為通信受限的系統(tǒng)。這實質(zhì)上意味著,流水線僅在關(guān)鍵路徑計算時間大于通信或I/O延時邊界時才可以使用,一旦達到此邊界后,流水線就不能進一步提高速度了。這時,流水線必須結(jié)合并行處理才能進一步提高該架構(gòu)的速度。作為一個例子,考慮圖7的并行濾波器:圖7 塊尺寸為3的3階FIR濾波器的并行處理架構(gòu)假定一個乘法的計算時間(TM)是10ut,一個加法的計算時間為2ut。細粒流水線可用到并行濾波器中來進一步縮小關(guān)鍵路徑。在這種情況下,乘法器分拆為兩個較小的單元m1和m2,其計算時間分別為7ut和3ut。流水線鎖存器插入到穿過乘法器的水平割集上,如下圖所示。雖然這些水平割集看起來似乎是無效的,但是實際上它們是有

9、效的,因為去掉這些割集的邊就斷開了元件間的連接。于是通過并行處理與流水線的結(jié)合,采樣周期減至: (3-4)并行處理也被通過減慢是中來減少功耗,這種方法減少功耗是由于時鐘方面的原因,相比之下,流水線系統(tǒng)需要工作在更快的時鐘下,才能保持等價的吞吐率或采樣速度。進一步說,更不希望使用細粒度流水線,如位級流水線,因為硬件開銷與遲滯時間都會由于鎖存器的顯著增加而增加。4. 流水線與并行處理的功耗減低利用流水線和并行處理有兩個主要的優(yōu)點:1)高速度2)低功耗由前面章節(jié)已經(jīng)看出流水線與并行處理能夠增加采樣速度?,F(xiàn)在考慮在采樣速度不需要增加的情況下如何利用這些技術(shù)來降低功耗。回顧一下兩個公式,一個是計算CMO

10、S電路傳播延時的公式,另一個是計算功耗的公式。傳播延時Tpd與在關(guān)鍵路徑上各種晶體管柵極和雜散電容的充放電荷密切相關(guān),對CMOS電路,傳播延時可寫為:Tpd = (4-1)其中Ccharge表示在單個時鐘周期里充放電的電容,即沿著關(guān)鍵路徑的電容,V0是電源電壓,Vt是閾值電壓。參數(shù)k是工藝參數(shù)、W/L和Cox的函數(shù)。CMOS電路的功耗可用下列方程來估計:P = Ctotalf (4-2)其中Ctotal代表電路中的總電容,V0是電源電壓,f是電路的時鐘頻率。圖8 3階FIR濾波器細粒度流水線與并行處理相結(jié)合的架構(gòu)4.1 用流水線降低功耗:流水線結(jié)構(gòu)可以用來降低FIR濾波器的功耗,令Pseq =

11、 Ctotalf (4-3)表示原始濾波器的功耗。注意f = 1/Tseq,其中Tseq原始時序濾波器的時鐘周期。現(xiàn)在考慮一個M級流水線系統(tǒng),其關(guān)鍵路徑縮短為原始路徑長度的1/M,一個時鐘周期內(nèi)充放電電容減小為Ccharge/M,注意總電容沒有變化。如果時鐘速度保持不變,即時鐘頻率f保持不變,在原來對電容Ccharge充放電的同樣時間內(nèi),現(xiàn)在只需對Ccharge/M進行充放電,這意味著,電源電壓可以降低到V0,其中是一個小于1的常數(shù)。這樣,流水線濾波器的功耗將為:Ppip = Ctotal2f = 2Pseq (4-4)因此,和原始系統(tǒng)相比流水線系統(tǒng)的功耗降低了2倍。圖9 原始系統(tǒng)和3級流水線

12、系統(tǒng)的關(guān)鍵路徑功耗降低因子可以通過考察原始濾波器和流水線濾波器傳播時之間的關(guān)系來確定。原始濾波器的傳播延時是 (4-5)流水線濾波器的傳播延時是 (4-6)應(yīng)該注意的是,時鐘周期Tclk通常被設(shè)置為等于電路中的最大傳播延時Tpd。因為對于這兩個濾波器來說使用相同的時鐘速度,根據(jù)上述兩個公式,從下列二次方程可以解出, (4-7)一旦得到了,流水線濾波器降低的功耗就可以由下面公式算出:Ppip = Ctotal2f = 2Pseq (4-8)4.2 用并行處理降低功耗和流水線一樣,并行處理也可以通過降低電源電壓來降低功耗。在一個L路并行系統(tǒng)中,充電電容通常不變,而總電容增大L倍。為了保持同樣的采樣

13、速度,L級并行電路的時鐘周期必須增加到LTseq,其中Tseq是由公式4-5決定的時序電路的傳播延時。這意味著Ccharge的充電時間是LTseq而不是Tseq。換句話說,同樣的電容有了更長的充電時間。這就意味著電源電壓可以降低到V0。圖10 順序流水線系統(tǒng)和3級流水線系統(tǒng)的關(guān)鍵路徑對傳播延時的考慮可以再次用來計算L級并行系統(tǒng)的電源電壓。原始系統(tǒng)的傳播延時由公式3-13給出,而L級并行系統(tǒng)的傳播延時由下式給出: (4-9)根據(jù)公式3-13和3-22可以得到下列二次方程來就出: (4-10)一旦求出,L路并行系統(tǒng)的功耗可以計算如下: (4-11)其中Pseq是由4-3給出的原始時序系統(tǒng)的功能。所以,和流水線系統(tǒng)一樣,L路并行系統(tǒng)功耗為原時序系統(tǒng)的2倍。4.3 流水線和并行處理的結(jié)合流水線技術(shù)和并行處理技術(shù)可以結(jié)合起來降低功耗。原理是一樣的,即流水線降低1個時鐘周期內(nèi)充放電電容,而并行處理則增加對原電容的充電放電時鐘周期。圖11 并行流水線濾波器的傳播延時如下: (4-12)根據(jù)該方程,得到下列二次方程: (4-13)應(yīng)該注意的是,電源電壓并不能通過使用更多級的流水線和并行處理而無限地降低,因為存在一個由工藝參數(shù)和噪聲容限決定的電源電壓下限。結(jié)論:本節(jié)內(nèi)容介紹了非遞歸數(shù)字濾波器中的流水線和并行處理方法。這兩種方法都可以用來提高濾波器

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論