利用CUDA實現(xiàn)的基于GPU的SAR成像算法概要

上傳人：w*** IP屬地：天津上傳時間：2021-05-28 格式：DOCX 頁數(shù)：14 大小：63.11KB 積分：20 舉報 版權申訴

已閱讀5頁，還剩9頁未讀，繼續(xù)免費閱讀

版權說明：本文檔由用戶提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權，請進行舉報或認領

文檔簡介

1、中圖分類號:T N957文獻標識碼:A文章編號：1009-2552(200911- 0062-04 利用CUDA實現(xiàn)的基于GPU的SAR成像算法柳彬,王開志，劉興釗,郁文賢 (上海交通大學電子工程系，上海200240 摘要:高速發(fā)展的圖形處理器(G raphics Processing Unit,G PU為高效合成孔徑雷達(Sy nthetic Aperture Radar,S AR成像算法提供了具有發(fā)展前景的新型運算平臺。與CPU相比利用G PU進行通用計算具有成本低、性能高的特點。提出利用 C UDA實現(xiàn)的基于G PU的S AR成像算法，與傳統(tǒng)的基于CPU的成像算法相比，有兩位

2、數(shù)以上的效率提升，為應對SAR信號處理領域新的挑戰(zhàn)提供具有前景的研究方向。關鍵詞:合成孔徑雷達；成像算法；圖形處理器;C UDA Im aging algorithm of syn thetic aperture radar based on GPU via CU DA LI U Bin, WANG K ai2zhi,LI U X in g2zhao,Y U Wen 2xian (Dep artme nt of E lectro nic E ngin eeri ng,Sh angh ai Jiaot ong U n iversity,Sh angh ai200240,Ch ina Abst

3、ract:Rece ntly,graphics process ing un it(G PUis develop ing at top speed,which is a novel and promising com putation platform for highly efficient synthetic aperture radar(S ARimagi ng alg orithms. C om pared to CPU,ge neral purpose com putati ons based on G PU show higher performa nee with lower c

4、ost.A S AR imagi ng alg orithm based on G PU via C UDA is in troduced in this paper.This imaging alg orithm via C UDA is m ore than ten times as fast as traditional CPU2based S AR imaging alg orithms.It provides a promising way to s olve the problems of S AR sig nal process ing in the future. K ey w

5、 ords:s yn thetic aperture radar(S AR;imagi ng alg orithm;graphics process ing uni t(G PU;C UDA 隨著合成孔徑雷達(S ynthetic A perture Radar,S AR系統(tǒng)應用領域的拓廣，要求S AR系統(tǒng)可以在更加靈活多樣的模式下工作，具有更高的分辨率，在更為嚴酷的條件下仍然可以獲得較為滿意的圖像結果等，這些都為SAR信號處理提出了新的挑戰(zhàn)1。要應對這些挑戰(zhàn)，勢必既要增加S AR成像算法的復雜程度，但同時又要降低成像算法的運行時間，保證圖像的實時性。因此，需要探索新的S AR成像算

6、法的運算平臺并且研究與之相適應的更為高效高性能的 SAR成像算法。高速發(fā)展的圖形處理器(G raphics Processing Unit,G PU為高效S AR成像算法提供了具有發(fā)展前景的新型運算平臺。 G PU是為了應對3D時代高復雜的圖形圖像處理運算而誕生的，與CPU相比,利用G PU進行通用計算具有成本低、性能高的特點。 G PU通用計算性能高的特點主要體現(xiàn)在浮點數(shù)的計算速度和內(nèi)存帶寬上。G PU在浮點數(shù)的計算速度和內(nèi)存帶寬上不但已經(jīng)遠遠超過了CPU,而且其發(fā)展速度也超過了 CPU。以浮點數(shù)的計算速度為例，圖1比較了兩大主流G PU(NVI DI A與 ATI與In tel

7、 CPU的發(fā)展情況2。G PU通用計算還具有成本低廉的特點，在達到相同的浮點數(shù)計算能力和內(nèi)存收稿日期：2009-05-19 作者簡介：柳彬(1985-,男，碩士研究生，研究方向為雷達成像算法與 G PU通用計算。帶寬的情況下,G P U在價格和耗電量兩方面都低于 CP U 2002 2004 2006 Year coftrKKr IMtSVIO 圖1 NVIDIA與ATI的G PU和Intel的CPU浮點數(shù)計算能力比較最初,開發(fā)人員需要用匯編語言對 G PU進行編程，這是非常難于學習和掌握的。隨著G PU的發(fā)展，開發(fā)人員可以利用以Cg、H LS L和G LS L為代表的著色器語言

8、對G PU進行編程，進行G PU通用計算的開發(fā)，不過這需要開發(fā)人員非常熟悉 G PU 硬件架構和應用編程接口 (Application Programmi ng In terface ,API。C UDA 的產(chǎn)生就是為了解決這一問題，C UDA 對圖形硬件和API進行封裝，讓開發(fā)人員把G PU看成一個具有超多核超多線程的處理器，并在類似于CPU的編程環(huán)境下對G PU進行編程，開發(fā)G PU通用計算系統(tǒng)。本文的目的在于研究并提出基于 G PU的S AR成像算法,該成像算法并非簡單地把原有運行在CPU的成像算法移植到G PU上，而是對原有算法進行改進，讓它與G PU的架構和編程模型相適應

9、，充分利用G PU的運算資源，提高計算效率。本文提出的算法是用 C UDA實現(xiàn)的，利用了最新的G PU編程環(huán)境，可以提高開發(fā)進度，盡可能地發(fā)揮出G PU的計算性能。通過仿真實驗表明，本文提出的基于G PU的S AR成像算法的結果與理論值吻合,具有較好的成像效果。通過處理真實的S AR數(shù)據(jù)表明，本文提出的基于G PU的S AR成像算法比傳統(tǒng)的基于CPU的成像算法有兩位數(shù)以上的效率提升。因此，本文提出的基于G PU的S AR成像算法具有高效高性能的特點，為應對S AR信號處理領域新的挑戰(zhàn)提供具有前景的研究方向。 1編程模型 C UDA的核心概念就是，它是一個超多線程的編程環(huán)境，本

10、文介紹C UDA編程模型中最重要的幾個概念 3 。1.1主機和設備在C UDA編程環(huán)境中，把CPU稱為主機,把運行C UDA的G PU稱為設備。由主機調(diào)用的，在設備上運行的函數(shù)稱為內(nèi)核函數(shù)，內(nèi)核函數(shù)一般由超多線程執(zhí)行。本文提出的S AR成像算法的實現(xiàn)主要就是依靠內(nèi)核函數(shù)的設計。1.2線程層次結構 C UDA可以運行和管理超多線程，是通過三層層次結構來管理這些線程的。一定數(shù)量的線程組成線程塊，而一定數(shù)量的線程塊又組織為一維或者二維的線程塊網(wǎng)格。同一個塊內(nèi)的線程可彼此協(xié)作，通過共享存儲器來共享數(shù)據(jù), 并同步其執(zhí)行來協(xié)調(diào)對存儲器的訪問。一個塊中的所有線程都必須位于同一個處理器核心中，因

11、而，一個處理器核心的有限存儲資源制約了每個塊的線程數(shù)量。以本文實驗中所使用NVI DI A Quadro FX3700為例，在一個線程塊中最多可以包含 512個線程。一個內(nèi)核函數(shù)可能由多個大小相同的線程塊執(zhí)行，因而執(zhí)行內(nèi)核函數(shù)的線程總數(shù)應等于每個塊的線程數(shù)乘以塊的數(shù)量，這些塊組織為線程塊網(wǎng)格。線程塊需要獨立執(zhí)行，必須能夠以任意順序執(zhí)行、能夠并行或順序執(zhí)行。一個網(wǎng)格內(nèi)的線程塊數(shù) 量通常是由所處理的數(shù)據(jù)大小限定的，而不是由硬件上處理器數(shù)量決定的，前者可能遠遠超過后者的數(shù)量。以本文實驗中所使用NVI DI A Quadro FX3700為例硬件中流處理器的數(shù)目是112個，而在一個線程塊

12、網(wǎng)格中最多可以包含65535個線程塊。 1.3存儲器層次結構 C UDA線程在執(zhí)行過程中可以訪問多種存儲器空間的數(shù)據(jù)，開發(fā)人員必須根據(jù)存儲器空間大小、速度以及只讀性等各方面因素，選擇合適的存儲器。表1概述了 C UDA內(nèi)部所有存儲器的基本屬性 4 表1 CUDA編程模型中各種存儲器的基本屬性存儲器名稱層次空間速度是否只讀寄存器每個線程單獨擁有非常有限快否本地存儲器每個線程單獨擁有有限慢,不緩沖否共享存儲器每個線程塊內(nèi)共有非常有限快否全局存儲器所有線程共有大慢不緩沖否固定存儲器所有線程共有有限慢，緩沖是紋理存儲器所有線程共有大慢緩沖是 1.4 C UFFT 庫 C

13、UFFT是一個基于 C UDA編程環(huán)境的FFT的庫。C UFFT能夠達到很高的運算性能 5-6 ，在本文中利用C UFFT來實現(xiàn)S AR成像算法中的FFT與IFFT計算。 2算法實現(xiàn) 圖2給出的是利用C UDA實現(xiàn)的，基于G PU的S AR成像算法實現(xiàn)的流程圖,S AR的原始數(shù)據(jù)經(jīng)過以下幾個步驟的處理：第一,把原始數(shù)據(jù)從CPU傳輸?shù)紾 PU。第二，距離向的壓縮。具體描述為：首先沿距離向做FFT ,然后執(zhí)行距離向匹配濾波的內(nèi)核函數(shù)，再利用距離向IFFT完成距離向壓縮。 FjcquHijt bnpjiTjinift H41 0 第三，通過方位向FFT把數(shù)據(jù)變換到距離2D oppier

14、域，距離徙動校正和方位向匹配濾波都在該域進行。第四,在距離2D oppier域進行距離徙動校正，在該域同一距離門的一組目標軌跡相互重合，距離徙動校正將徙動曲線拉直到與方位頻率軸相平行第五，通過每一距離門上的方位向頻率匹配濾波實現(xiàn)方位向壓縮。第六，通過方位向IFFT將數(shù)據(jù)變回時域，得到壓縮后的圖像。第七, 將處理好的圖像從G PU傳輸回CPU 圖2利用CUDA實現(xiàn)的基于G PU的S AR成像算法實現(xiàn)流程 3仿真實驗與結果為了測試本文提出的SAR成像算法的成像效果，本部分介紹仿真實驗與結果，對三點目標A、B、C進行仿真，其中B點位于場景中心處即斜距為20km處,A點和C點分別位

15、于斜距為15km和25km 處,仿真參數(shù)如表2所示。如圖3所示，圖3(a ,3(b和3(c分別為A ,B和C三個點目標的成像結果。表2 L波段機載SAR仿真參數(shù)參數(shù)名稱值雷達工作頻率1.27G H z 發(fā)射脈沖時寬2.5卩距離脈沖調(diào)頻率8MH z ns 信號帶寬20MH z距離采樣率30.8MH z多普勒帶寬250H z方位采樣率 469.5H z 圖3三個點目標成像結果三點目標仿真的結果如表3所示，理論上距離向分辨率為1.34個距離采樣，而三目標所在位置的方位分辨率不同，在表3中所羅列的方位分辨率定義為： R az =R sim n R th其中,R az為表中所羅列的分辨率,R s

16、im為仿真所得分辨率,R th為理論分辨率。表3三點目標仿真結果距離分辨率（距離采樣方位分辨率（比值距離向 PS LR （dB 方位向 PS LR （dB 近端點目標（A 1.393 1.035-13.98-14.12中心點目標（B 1.390 1.027- 13.89-13.98遠端點目標（C 1.392 1.032 -13.92 -14.10 考慮到在成像過程中數(shù)值計算不可避免的會產(chǎn)生誤差，所以測得的分辨率比理論分辨率略差，是可以理解的，因此認為，本文提出的利用C UDA實現(xiàn)的，基于G PU的S AR成像算法的結果與理論值吻合。 4效率測試在上文提到G PU通用計算具有性能高的優(yōu)

17、點，在這一部分利用多塊真實的S AR數(shù)據(jù)測試本文提出的基于 G PU的S AR成像算法的效率,并與傳統(tǒng)的基于CPU 的S AR成像算法的效率相對比。測試結果如表 4所示。測試中使用的CPU是In tel X eon E5140,使用的G PU是NVI DI A Quadro FX3700,分別測試了七塊不同尺寸的數(shù)據(jù)，由于In tel X eon E5140是四核的CPU對基于CPU的S AR成像算法,既測試了單線程情況下的運行時間，也測試了利用OpenMP使用四線程下的運行時間，而對于基于G PU的S AR成像算法，分別測試了考慮讀寫顯存和不考慮讀寫顯存的運行時間。表4 基于G

18、PU的與基于CPU的S AR成像算法的運行時間對比（單位:秒數(shù)據(jù)尺寸 2048X20482048X40964096X20484096X4096 CPU（單線程 9.29619.02119.47139.089 CPU四線程 2.652 4.986 5.48410.296 G PU考慮讀寫顯存 0.0650.1580.1240.636 G PU（不考慮讀寫顯存 0.0130.0310.0240.392 數(shù)據(jù)尺寸 4096X81928192X40968192X8192 CPU（單線程 80.16181.056164.997 CPU（四線程 21.86123.85147.908 G PU（考慮讀

19、寫顯存 1.274 1.299 2.556 G PU（不考慮讀寫顯存 0.7910.813 1.566 由測試結果可知，本文提出的利用C UDA實現(xiàn)的基于G PU的S AR成像算法具有極高的效率，相比傳統(tǒng)的基于CPU的S AR成像算法,效率得到了兩位數(shù)以上的提升。不過通過觀察表4可以發(fā)現(xiàn)，在讀寫顯存上花費了許多時間，目前,CPU與 G PU之間數(shù)據(jù)傳輸帶寬有限,G PU顯示存儲空間有限成為進一步提高 G PU通用計算效率的瓶頸。 5結束語本文主要研究了基于G PU的S AR成像算法的實現(xiàn)與系統(tǒng)解決方案。本文提出了利用C UDA實現(xiàn)的，適用于G PU的S AR成像算法。該成像算法利用了

20、全新的G PU通用計算的開發(fā)理念和編程模型,極大地發(fā)揮出了 G PU通用計算的潛能。通過仿真實驗表明：本文提出的基于G PU的S AR成像算法的結果與理論值吻合，具有較好的成像效果。通過處理真實的S AR數(shù)據(jù)表明：本文提出的基于G PU的S AR成像算法比傳統(tǒng)的基于CPU的成像算法有兩位數(shù)以上的效率提升。對基于G PU的S AR成像算法的研究以及本文的意義在于，通過對傳統(tǒng)的基于 CPU的成像算法進行改進，使其不但能夠在G PU上運行，而且能夠適合于G PU的框架和編程模型，從而能夠充分地利用G PU強大的計算能力和低廉的計算成本，開發(fā)出新型的S AR信號處理系統(tǒng)，應對S AR信

21、號處理領域目前面臨的新的挑戰(zhàn)。未來的研究將專注于以下幾方面，以使目前的研究結果更加完善：第一,進一步提高計算效率?？梢詮囊韵聝蓚€方面考慮提高計算效率：其一，進一步減少CPU與G PU之間的數(shù)據(jù)傳輸。其二,讓CPU與G PU之間實現(xiàn)負載平衡，把原有的基于G PU的S AR成像算法改進為同時利用 G PU和CPU計算資源的異質成像算法。第二，開發(fā)高效S AR成像算法的應用。要解決S AR信號處理領域的新挑戰(zhàn)的關鍵就在于提出更加高效的成像算法，而本文正是基于這個需求而產(chǎn)生的。本文提出和實現(xiàn)了基于G PU的成像算法，并通過實驗證實了該算法的準確性和高效性，為解決S AR信號處理的難題提供了具有前景的解決方案，不過，要進行進一步的研究才能把該算法系統(tǒng)化、集成化、實用化，開發(fā)出高性能的新一代S AR成像系統(tǒng)，用于提供分辨率更高的，范圍更大的實時S AR圖像。參考文獻： 1 王開志斜視條件下高分辨率合成孔徑雷達成像技術D.上海:上海交通大學，2006

人人文庫> 全部分類> 行業(yè)資料 > 信息產(chǎn)業(yè)

溫馨提示

1. 本站所有資源如無特殊說明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁內(nèi)容里面會有圖紙預覽，若沒有圖紙預覽就沒有圖紙。
4. 未經(jīng)權益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 人人文庫網(wǎng)僅提供信息存儲空間，僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理，對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對任何下載內(nèi)容負責。
6. 下載文件中如有侵權或不適當內(nèi)容，請與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

利用CUDA實現(xiàn)的基于GPU的SAR成像算法概要

文檔簡介

溫馨提示

最新文檔

評論

利用CUDA實現(xiàn)的基于GPU的SAR成像算法概要

文檔簡介

溫馨提示

最新文檔

評論

相關文檔