多核并行圖像顯示接口設(shè)計(jì)_第1頁
多核并行圖像顯示接口設(shè)計(jì)_第2頁
多核并行圖像顯示接口設(shè)計(jì)_第3頁
多核并行圖像顯示接口設(shè)計(jì)_第4頁
多核并行圖像顯示接口設(shè)計(jì)_第5頁
已閱讀5頁,還剩1頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

1、    多核并行圖像顯示接口設(shè)計(jì)1、引言集成電路制造工藝技術(shù)的不斷進(jìn)步提供了越來越多的資源,如何將這些資源轉(zhuǎn)變?yōu)樾酒墓δ芎托阅苁荌C設(shè)計(jì)的持久話題。傳統(tǒng)上以頻率為主要手段的性能提升技術(shù)遇到致命瓶頸功耗和散熱問題。由于CMOS晶體管特征尺寸的縮小導(dǎo)致單位面積上晶體管數(shù)目的增加,加上時(shí)鐘頻率的提升,使得單位面積上晶體管漏電流不斷增大。研究表明,處理器性能每提升1,功耗將增加31。如果按照這種趨勢發(fā)展而不采取其他降低功耗的1、引言集成電路制造工藝技術(shù)的不斷進(jìn)步提供了越來越多的資源,如何將這些資源轉(zhuǎn)變?yōu)樾酒墓δ芎托阅苁荌C設(shè)計(jì)的持久話題。傳統(tǒng)上以頻率為主要手

2、段的性能提升技術(shù)遇到致命瓶頸功耗和散熱問題。由于CMOS晶體管特征尺寸的縮小導(dǎo)致單位面積上晶體管數(shù)目的增加,加上時(shí)鐘頻率的提升,使得單位面積上晶體管漏電流不斷增大。研究表明,處理器性能每提升1,功耗將增加31。如果按照這種趨勢發(fā)展而不采取其他降低功耗的措施的話,在2015年,每平方厘米面積上的功耗密度將達(dá)到上千瓦。由此而導(dǎo)致的熱量積聚將使得芯片根本無法工作。多核系統(tǒng)芯片(Multi-processor SystemonChip, MPSoC)就在這種背景下出現(xiàn)。首先,MPSoC能解決頻率瓶頸難題。一方面,每個(gè)核的功能可以不需要那么復(fù)雜,頻率也無需過高,因此每個(gè)核的功耗會降低很多;另一方面,使用

3、多個(gè)低功耗的核,不僅可以分散功耗密度,降低單位面積所產(chǎn)生的熱量,而且可以實(shí)行功耗的動態(tài)管理,對沒有任務(wù)的處理器進(jìn)行動態(tài)功耗控制。其次,MPSoC技術(shù)可以依靠處理器級的重用技術(shù),提高設(shè)計(jì)效率,使得集成電路技術(shù)繼續(xù)沿著摩爾定律的預(yù)測發(fā)展。本文在已有MPSoC的工作基礎(chǔ)上2,結(jié)合多媒體圖像處理類應(yīng)用,設(shè)計(jì)適用于多核體系結(jié)構(gòu)的并行圖像顯示接口,探討MPSoC數(shù)據(jù)輸入輸出的存儲結(jié)構(gòu)問題。以屏幕顯示為典型應(yīng)用,設(shè)計(jì)面向顯示的多核MPSoC原型芯片:在文2的基礎(chǔ)上設(shè)計(jì)顯示存儲模塊,按照一定次序存儲多個(gè)處理器處理后的數(shù)據(jù);設(shè)計(jì)顯示接口模塊,從顯示存儲器中讀取數(shù)據(jù),按照顯示接口協(xié)議生成顯示同步信號,并形成相應(yīng)的

4、顯示數(shù)據(jù)。在第二節(jié)介紹相關(guān)工作,第三節(jié)介紹多核體系結(jié)構(gòu)及其并行圖像顯示接口,第四節(jié)介紹實(shí)驗(yàn),第五節(jié)給出本文結(jié)論。2、相關(guān)工作自本世紀(jì)初多核技術(shù)的出現(xiàn)至今,已有不少單位開多核研究工作,并取得相當(dāng)?shù)倪M(jìn)展。在學(xué)術(shù)機(jī)構(gòu)方面,瑞典皇家技術(shù)學(xué)院3、Stanford4等可謂多核/片上網(wǎng)絡(luò)技術(shù)的先驅(qū);在工業(yè)界,Intel5、AMD6、IBM7以及Sun8等公司的多核產(chǎn)品享譽(yù)全球。在多核并行圖像處理方面,文獻(xiàn)9使用多核技術(shù)設(shè)計(jì)實(shí)現(xiàn)了面向?qū)崟r(shí)需求的圖像處理系統(tǒng),而其它工作1011均把圖像處理作為實(shí)驗(yàn)載體,用于評估所提結(jié)構(gòu)的性能,并未考慮所處理圖像的顯示問題。本文在并行圖像/運(yùn)動軌跡計(jì)算的基礎(chǔ)上,設(shè)計(jì)顯示接口,實(shí)現(xiàn)

5、FPGA原型芯片,在實(shí)際原型系統(tǒng)中運(yùn)行動態(tài)軌跡顯示等應(yīng)用。3、多核并行顯示系統(tǒng)體系結(jié)構(gòu)3.1 系統(tǒng)結(jié)構(gòu)多核MPSoC結(jié)構(gòu)示意圖如圖1所示。圖中多個(gè)處理器器之間使用層次化總線連接與通訊。按照與通訊主體的鄰近關(guān)系將總線分為兩個(gè)層次:全局通訊總線和本地總線。本地總線連接處理器與本地存儲器,每個(gè)處理器獨(dú)享本地總線的控制權(quán);全局總線連接多個(gè)處理器與共享存儲器以及全局共享模塊,當(dāng)處理器需要訪問共享模塊時(shí),首先需要通過全局總線仲裁模塊獲得訪問權(quán)限,然后才能訪問共享模塊。圖1 多核MPSoC結(jié)構(gòu)示意圖按照功能將圖中模塊分為三大類:計(jì)算節(jié)點(diǎn)、總線模塊和顯示部分。計(jì)算節(jié)點(diǎn)包含處理器、本地存儲器以及總線橋等模塊。全

6、局總線包含譯碼器、仲裁器以及數(shù)據(jù)通道等模塊。而顯示部分包含顯示存儲器和顯示接口,把多核并行計(jì)算產(chǎn)生的圖像/軌跡顯示輸出到顯示器上來。本文的幾種應(yīng)用如圖2所示。每個(gè)彩色方塊對應(yīng)一個(gè)處理器,每個(gè)處理器運(yùn)行不同軌跡運(yùn)動的計(jì)算任務(wù):線段(或折線)沿矩形軌跡運(yùn)動、圓弧沿圓周運(yùn)動、圓的半徑繞圓心作圓周運(yùn)動以及弦在圓周上運(yùn)動。圖2 四種動態(tài)軌跡顯示示意圖每個(gè)處理器把所計(jì)算的軌跡坐標(biāo)數(shù)據(jù)存儲到顯示存儲器中。由于顯示存儲器為四個(gè)處理器所共享,為了避免數(shù)據(jù)沖突,將顯存分為四個(gè)區(qū)間,每個(gè)處理器的計(jì)算數(shù)據(jù)存儲在各自獨(dú)立的區(qū)域。顯示接口讀取顯示存儲器中軌跡坐標(biāo),按照一定的混色方案,將所計(jì)算的軌跡輸出顯示到屏幕上。隨著所

7、輸出軌跡坐標(biāo)的不斷變化,顯示在屏幕上的軌跡按照相應(yīng)的規(guī)律運(yùn)動,達(dá)到不同軌跡的運(yùn)動效果。3.2 顯示接口在硬件電路設(shè)計(jì)上,計(jì)算節(jié)點(diǎn)、全局總線等模塊在文2中已有詳盡敘述,在此不再贅述。本文重點(diǎn)介紹顯示存儲器以及顯示接口的設(shè)計(jì)。顯示存儲器存儲需要實(shí)時(shí)顯示的數(shù)據(jù)。顯示接口則產(chǎn)生控制邏輯,控制行、場同步信號的生成以及象素的輸出。首先介紹顯示存儲器。從結(jié)構(gòu)上看,顯示存儲器分為總線接口和存儲陣列兩部分。由于采用AMBA協(xié)議,把總線接口分為主設(shè)備接口和從設(shè)備接口兩類。顯示存儲器為從設(shè)備,因此該接口符合從設(shè)備接口協(xié)議。從時(shí)序上看,顯示存儲器既要與全局總線相連,又要與顯示接口相連,兩端的時(shí)鐘域可以彼此獨(dú)立,因此使

8、用雙端口RAM作為存儲陣列,不僅可以隔離不同時(shí)鐘域,而且可以提高顯示存儲器的訪存效率。在顯示方案上,屏幕上的像素點(diǎn)分為兩類:背景像素和軌跡像素。為了節(jié)約存儲空間,處理器只需計(jì)算軌跡上當(dāng)前所顯示點(diǎn)的軌跡坐標(biāo),把坐標(biāo)值按照掃描順序存儲在顯存中。在600*800的顯示屏上,每個(gè)象限需要300*400個(gè)點(diǎn)。一條軌跡上只有大約140150個(gè)點(diǎn),這與通過單純存儲整個(gè)區(qū)域的300*400個(gè)點(diǎn)相比,不僅大大壓縮了存儲空間,而且簡化了顯示控制模塊的設(shè)計(jì),提高了設(shè)計(jì)效率。圖3 顯示控制模塊主要電路結(jié)構(gòu)圖顯示控制模塊包含三個(gè)子模塊:信號同步模塊、控制模塊以及像素產(chǎn)生模塊。信號同步模塊產(chǎn)生顯示輸出所需的同步信號,如水

9、平同步信號(hsync)、垂直同步信號(vsync)等。圖3給出了主要同步信號和控制信號的電路結(jié)構(gòu)圖。圖中的hsync、vsync受水平同步計(jì)數(shù)器(h_cnt)和垂直同步計(jì)數(shù)器(v_cnt)控制(圖中虛線框部分所示)。將兩個(gè)計(jì)數(shù)器值與預(yù)設(shè)的行、場同步前、后肩參數(shù)相比較,產(chǎn)生相應(yīng)的行、場前后肩(h_synneg、h_synpos、v_synneg、v_synpos)信號以及行消隱前肩(h_blkneg)信號,最終通過圖3所示邏輯產(chǎn)生水平、垂直同步信號。圖3僅僅包含了水平、垂直同步兩組信號的電路邏輯。除此之外,信號同步模塊還需要產(chǎn)生消隱信號,其電路邏輯為:由水平同步計(jì)數(shù)器和垂直同步計(jì)數(shù)器產(chǎn)生行消隱

10、信號和場消隱信號,再把兩個(gè)消隱信號邏輯相與則產(chǎn)生顯示控制消隱信號。控制模塊還產(chǎn)生顯存地址信號從顯存中讀取坐標(biāo)值,并與當(dāng)前行、場計(jì)數(shù)器比較,如果二者匹配,則將匹配信號置高電平,否則置為低電平。如果匹配信號為高電平,則將相應(yīng)的地址計(jì)數(shù)器加一,以產(chǎn)生下一個(gè)顯存單元的地址。與此同時(shí),像素產(chǎn)生模塊也根據(jù)匹配信號決定當(dāng)前像素值是軌跡色還是背景色。其中軌跡色采用白色(ffffff),四塊背景色分別用ff00ff、8000ff、408080、ff8080對比較強(qiáng)的顏色。4、實(shí)驗(yàn)把上述MPSoC在AlteraEP2S180 FPGA上實(shí)現(xiàn),編寫軌跡運(yùn)動程序,得到原型芯片,在系統(tǒng)上運(yùn)行并輸出顯示結(jié)果。每條軌跡的基

11、本處理流程如下:首先根據(jù)軌跡的起始點(diǎn)計(jì)算一幀的軌跡顯示點(diǎn),然后根據(jù)顯示掃描的先后順序?qū)壽E點(diǎn)進(jìn)行排列,并存入相應(yīng)的顯示區(qū)域,待顯示完畢后繼續(xù)對下一幀按照同樣的方式進(jìn)行處理。如此循環(huán),直到所顯示軌跡的起始點(diǎn)與初始點(diǎn)相同,則繼續(xù)下一次軌跡計(jì)算。分別編寫矩形軌跡、圓弧軌跡、半徑軌跡以及弦軌跡的顯示程序,在不同處理器上運(yùn)行,用軟硬件協(xié)同設(shè)計(jì)方式設(shè)計(jì)原型芯片如圖4(a)、(b)所示。圖4 面向顯示的4核MPSoC原型芯片圖4(a)為4核MPSoC原型芯片運(yùn)行時(shí)照片。圖中的主板為EP2S180開發(fā)板,風(fēng)扇下是FPGA器件,4核MPSoC原型芯片固化在其中。圖4(b)為運(yùn)行時(shí)屏幕截圖。整個(gè)原型芯片的運(yùn)行頻率

12、與顯示屏像素頻率相同,為38.25Mhz。從圖中可以看出,顯示程序在4個(gè)核上正常并行運(yùn)行,運(yùn)動軌跡按照預(yù)期設(shè)計(jì)顯示在屏幕上,面向顯示的原型芯片達(dá)到了預(yù)期的設(shè)計(jì)目標(biāo)。表1 并行圖像處理顯示MPSoC資源表圖5 各部分模塊所占的面積比重原型芯片所用資源如表1所示。第一列為各模塊名稱,括號中為該模塊的例化數(shù)目。第二、三、四列分別為所使用的組合邏輯、時(shí)序邏輯和存儲器資源。為直觀起見,把表中數(shù)據(jù)用面積比重的方式在圖5中表示出來,圖中的“數(shù)據(jù)總線”部分包含了總線橋、仲裁器和數(shù)據(jù)通道三個(gè)部分,“處理器”部分僅含處理器與本地存儲器??梢钥闯?,所用資源最多的模塊為4個(gè)處理器。顯示存儲器緊隨其后。這是由于顯示控制

13、模塊對顯示存儲器的特殊時(shí)序要求決定的。它要求在地址生成后的下一個(gè)時(shí)鐘上升沿之前就將顯示數(shù)據(jù)準(zhǔn)備好。而在FPGA同步設(shè)計(jì)方案中,使用宏單元RAM的方式無法滿足時(shí)序要求,因此只有大量使用組合邏輯和邏輯寄存器生成雙端口RAM,才能達(dá)到要求。故顯示存儲器模塊的組合邏輯達(dá)整個(gè)芯片的25,時(shí)序邏輯達(dá)63.5。而顯示控制接口所占面積比重最少,組合邏輯和時(shí)序邏輯分別為整個(gè)芯片的0.32和0.14。5、結(jié)論本文在FPGA上實(shí)現(xiàn)了并行圖像處理、顯示的多核MPSoC原型芯片。以矩形、圓形、弦、弧等運(yùn)動軌跡為實(shí)驗(yàn)載體做了動態(tài)演示。實(shí)驗(yàn)結(jié)果表明,該接口不僅可以動態(tài)顯示所設(shè)計(jì)軌跡,而且所占面積比例較小,組合邏輯、時(shí)序邏輯

14、分別僅占整個(gè)芯片的0.32和0.14。參考文獻(xiàn)1 Plarform 2015, Intel peocessor and platform Evaluation for the next decade. White book J, 2005.2 Wei Zhang, Gao-Ming Du, Yi Xu, Ming-LunGao, Luo Feng Geng, Bing Zhang, Zhao-Yu Jiang, Ming Hou, Yi-Hua Tang. Design of a Hierarchy-BusBased MPSoC on FPGA C. ICSICT 2006. Shanghai

15、. 2006:1966-19683 A. HEMANI, et al., Network on a chip: An architecture for billion transistor era C. Proc. Proceedings of the IEEE NorChip Conference., 2000: 166-173.4 L. Benini and G. De Micheli, Networks on chips: a new SoC paradigm J. Computer, 2002, 35(1): 70-78.5 Intel® Core2 Duo Proce

16、ssor EB/OL. specifications.htm.6 AMD Multi-Core Products EB/OL. 7 D. Pham et al. The design and implementation of a first-generation Cell processor C. IEEE ISSCC Dig. Tech. Papers, 2005: 184-185.8 Poonacha Kongetira, Kathirgamar Aingaran, Kunle Olukotu. Niagara: A 32-WayMultithreaded SPARC Processor

17、 J. IEEE Micro Magazine 2005: 21-29.9 J. Joshi, et al., Multi-core Image processing system using Network on Chip interconnect C. Proc. Circuits and Systems. 50th Midwest Symposium on, 2007: 1257-1260.10 C. Hilton and B. Nelson, PNoC: a flexible circuit-switched NoC for FPGA-based systems J. Computers and Digital Techniques, IEE Pro

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論