基于CUDA的并行圖像處理性能優(yōu)化_第1頁
基于CUDA的并行圖像處理性能優(yōu)化_第2頁
基于CUDA的并行圖像處理性能優(yōu)化_第3頁
基于CUDA的并行圖像處理性能優(yōu)化_第4頁
基于CUDA的并行圖像處理性能優(yōu)化_第5頁
已閱讀5頁,還剩24頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

1、基于CUDA的并行圖像處理性能優(yōu)化Contents研究現(xiàn)狀2性能優(yōu)化策略3實驗結(jié)果及性能分析4研究背景及工作意義1研究背景及工作意義研究背景1.大規(guī)模圖像數(shù)據(jù)的處理、實時圖像處理。2.基于CUDA的大規(guī)模并行計算。選題來源1.優(yōu)化基于CUDA平臺的并行圖像處理實現(xiàn);2.擴(kuò)展至基于CUDA平臺的通用并行計算。工作意義選題來源于實際工程項目研究現(xiàn)狀指令優(yōu)化內(nèi)存訪問優(yōu)化解循環(huán)優(yōu)化基于軟件架構(gòu)的優(yōu)化策略線程過載優(yōu)化特定硬件體系結(jié)構(gòu)下的優(yōu)化基于硬件架構(gòu)的優(yōu)化策略性能優(yōu)化策略性能優(yōu)化策略不同的性能優(yōu)化策略可以相互結(jié)合使用內(nèi)存訪問優(yōu)化指令及程序流程優(yōu)化并行度優(yōu)化數(shù)據(jù)表示優(yōu)化性能優(yōu)化策略內(nèi)存訪問優(yōu)化性能優(yōu)化策

2、略內(nèi)存訪問優(yōu)化共享內(nèi)存訪問優(yōu)化常量內(nèi)存訪問優(yōu)化紋理內(nèi)存訪問優(yōu)化適宜于沒有塊間數(shù)據(jù)重疊訪問的情況適宜于處理Host端單線程執(zhí)行具有復(fù)雜參數(shù)列表核函數(shù)的場景適宜應(yīng)用于圖像處理算法的實現(xiàn)性能優(yōu)化策略指令及程序流程優(yōu)化盡量使用執(zhí)行周期數(shù)較少的指令。避免使用邏輯分支控制語句。比較簡短的循環(huán)應(yīng)當(dāng)解開。盡量合并、提取公共運算?;舅枷胩岣咧噶钔掏铝俊p少Device核函數(shù)內(nèi)運算操作總次數(shù)性能優(yōu)化策略指令及程序流程優(yōu)化Compute Capability 1.xCompute Capability 2.0Compute Capability 2.164-bit floating-point add, mult

3、iply, multiply-add8324864-bit floating-point add, multiply, multiply-add116432-bit integer add, logical operation8324832-bit integer shift, compare8161632-bit integer multiply, multiply-add, sum of absolute differenceMultiple instructions161632-bit floating-point reciprocal, reciprocal square root8M

4、ultiple instructionsMultiple instructionsType conversions161616性能優(yōu)化策略指令及程序流程優(yōu)化100010001使用模板操作時,需要涉及到圖像邊界區(qū)域處理問題性能優(yōu)化策略指令及程序流程優(yōu)化方案1: 直接依據(jù)4個頂點和4條邊界的不同情況予以分別處理。優(yōu)點: 算法基本思想簡單、易轉(zhuǎn)化成實際代碼。缺點: 實際算法邏輯復(fù)雜、代碼量較大、有大量的邏輯分支控制語句。方案2: 顯示擴(kuò)展圖像邊界。優(yōu)點: 處理邏輯歸一化、代碼簡潔。缺點: 需要申請釋放額外的空間、增加了處理步驟。方案3: 隱式擴(kuò)展圖像邊界。優(yōu)點: 處理邏輯歸一化、代碼簡潔,不需要存儲

5、中間結(jié)果圖像。缺點: 不同的算法需要有不同的返回值模式、增加了大量的邏輯運算。方案4: 利用紋理內(nèi)存的越界自動處理功能。優(yōu)點: 處理邏輯歸一化、代碼簡潔、不需要存儲中間結(jié)果圖像。缺點: 處理模式制約于紋理內(nèi)存提供的尋址模式,欠缺靈活性。區(qū)分邊界處理顯式擴(kuò)邊處理隱擴(kuò)邊處理算法執(zhí)行平均時間(ms/次)82.621345.736237.2112隱擴(kuò)邊處理紋理內(nèi)存越界訪問機(jī)制算法執(zhí)行平均時間(ms/次)2.00101.6023性能優(yōu)化策略并行度優(yōu)化密集排列稀疏排列橫向排列縱向排列性能優(yōu)化策略并行度優(yōu)化密集排列時的數(shù)據(jù)訪問性能優(yōu)化策略并行度優(yōu)化稀疏排列時的數(shù)據(jù)訪問性能優(yōu)化策略并行度優(yōu)化橫向排列時的數(shù)據(jù)訪

6、問性能優(yōu)化策略并行度優(yōu)化縱向排列時的數(shù)據(jù)訪問性能優(yōu)化策略數(shù)據(jù)表示優(yōu)化0011010100,0,1;1,0,1;0,1,0普通模板表示1,-1;-1,0;1,0;0,1稀疏模板表示實驗結(jié)果與性能分析實驗環(huán)境硬件環(huán)境:CPU:Core i7 2600顯卡:NVIDIA Tesla C1060(4GB顯存)軟件環(huán)境:操作系統(tǒng):Ubuntu 10.04 x64 Server顯卡驅(qū)動:版本號480.17編譯環(huán)境:CUDA ToolKit 4.0算法:圖像形態(tài)學(xué)基本算法:腐蝕、膨脹、開運算、閉運算?;緟?shù):圖像分辨率:1024 768模板分辨率:3 3實驗結(jié)果與性能分析常量內(nèi)存訪問沖突實驗實驗結(jié)果與性能

7、分析常量內(nèi)存性能優(yōu)化驗證不使用常量內(nèi)存使用常量內(nèi)存算法執(zhí)行平均時間(ms/次)82.621345.7362Back實驗結(jié)果與性能分析共享內(nèi)存性能優(yōu)化驗證不使用共享內(nèi)存使用共享內(nèi)存(塊內(nèi)隱擴(kuò)邊)使用共享內(nèi)存(預(yù)加載冗余數(shù)據(jù))算法執(zhí)行平均時間(ms/次)82.621324.192329.7706不使用共享內(nèi)存使用共享內(nèi)存算法執(zhí)行平均時間(ms/次)74.86011.4405矩陣乘法運算Back實驗結(jié)果與性能分析紋理內(nèi)存性能優(yōu)化驗證未使用紋理內(nèi)存使用1D紋理內(nèi)存使用2D紋理內(nèi)存算法執(zhí)行平均時間(ms/次)82.62135.03222.3041Back實驗結(jié)果與性能分析并行度優(yōu)化驗證實驗結(jié)果與性能分析并行度優(yōu)化驗證實驗結(jié)果與性能分析并行度優(yōu)化驗證1246816325125120.30470.25390.23320.27500.27760.62010.869110247680.75760.59800.53770.59300.58431.42223.0381102410240.99220.77670.68492.44750.73871.64353.9600實驗

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論