版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
1、基于CUDA的并行圖像處理性能優(yōu)化Contents研究現(xiàn)狀2性能優(yōu)化策略3實(shí)驗(yàn)結(jié)果及性能分析4研究背景及工作意義1研究背景及工作意義研究背景1.大規(guī)模圖像數(shù)據(jù)的處理、實(shí)時(shí)圖像處理。2.基于CUDA的大規(guī)模并行計(jì)算。選題來(lái)源1.優(yōu)化基于CUDA平臺(tái)的并行圖像處理實(shí)現(xiàn);2.擴(kuò)展至基于CUDA平臺(tái)的通用并行計(jì)算。工作意義選題來(lái)源于實(shí)際工程項(xiàng)目研究現(xiàn)狀指令優(yōu)化內(nèi)存訪問(wèn)優(yōu)化解循環(huán)優(yōu)化基于軟件架構(gòu)的優(yōu)化策略線程過(guò)載優(yōu)化特定硬件體系結(jié)構(gòu)下的優(yōu)化基于硬件架構(gòu)的優(yōu)化策略性能優(yōu)化策略性能優(yōu)化策略不同的性能優(yōu)化策略可以相互結(jié)合使用內(nèi)存訪問(wèn)優(yōu)化指令及程序流程優(yōu)化并行度優(yōu)化數(shù)據(jù)表示優(yōu)化性能優(yōu)化策略內(nèi)存訪問(wèn)優(yōu)化性能優(yōu)化策
2、略內(nèi)存訪問(wèn)優(yōu)化共享內(nèi)存訪問(wèn)優(yōu)化常量?jī)?nèi)存訪問(wèn)優(yōu)化紋理內(nèi)存訪問(wèn)優(yōu)化適宜于沒(méi)有塊間數(shù)據(jù)重疊訪問(wèn)的情況適宜于處理Host端單線程執(zhí)行具有復(fù)雜參數(shù)列表核函數(shù)的場(chǎng)景適宜應(yīng)用于圖像處理算法的實(shí)現(xiàn)性能優(yōu)化策略指令及程序流程優(yōu)化盡量使用執(zhí)行周期數(shù)較少的指令。避免使用邏輯分支控制語(yǔ)句。比較簡(jiǎn)短的循環(huán)應(yīng)當(dāng)解開。盡量合并、提取公共運(yùn)算。基本思想提高指令吞吐量、減少Device核函數(shù)內(nèi)運(yùn)算操作總次數(shù)性能優(yōu)化策略指令及程序流程優(yōu)化Compute Capability 1.xCompute Capability 2.0Compute Capability 2.164-bit floating-point add, mult
3、iply, multiply-add8324864-bit floating-point add, multiply, multiply-add116432-bit integer add, logical operation8324832-bit integer shift, compare8161632-bit integer multiply, multiply-add, sum of absolute differenceMultiple instructions161632-bit floating-point reciprocal, reciprocal square root8M
4、ultiple instructionsMultiple instructionsType conversions161616性能優(yōu)化策略指令及程序流程優(yōu)化100010001使用模板操作時(shí),需要涉及到圖像邊界區(qū)域處理問(wèn)題性能優(yōu)化策略指令及程序流程優(yōu)化方案1: 直接依據(jù)4個(gè)頂點(diǎn)和4條邊界的不同情況予以分別處理。優(yōu)點(diǎn): 算法基本思想簡(jiǎn)單、易轉(zhuǎn)化成實(shí)際代碼。缺點(diǎn): 實(shí)際算法邏輯復(fù)雜、代碼量較大、有大量的邏輯分支控制語(yǔ)句。方案2: 顯示擴(kuò)展圖像邊界。優(yōu)點(diǎn): 處理邏輯歸一化、代碼簡(jiǎn)潔。缺點(diǎn): 需要申請(qǐng)釋放額外的空間、增加了處理步驟。方案3: 隱式擴(kuò)展圖像邊界。優(yōu)點(diǎn): 處理邏輯歸一化、代碼簡(jiǎn)潔,不需要存儲(chǔ)
5、中間結(jié)果圖像。缺點(diǎn): 不同的算法需要有不同的返回值模式、增加了大量的邏輯運(yùn)算。方案4: 利用紋理內(nèi)存的越界自動(dòng)處理功能。優(yōu)點(diǎn): 處理邏輯歸一化、代碼簡(jiǎn)潔、不需要存儲(chǔ)中間結(jié)果圖像。缺點(diǎn): 處理模式制約于紋理內(nèi)存提供的尋址模式,欠缺靈活性。區(qū)分邊界處理顯式擴(kuò)邊處理隱擴(kuò)邊處理算法執(zhí)行平均時(shí)間(ms/次)82.621345.736237.2112隱擴(kuò)邊處理紋理內(nèi)存越界訪問(wèn)機(jī)制算法執(zhí)行平均時(shí)間(ms/次)2.00101.6023性能優(yōu)化策略并行度優(yōu)化密集排列稀疏排列橫向排列縱向排列性能優(yōu)化策略并行度優(yōu)化密集排列時(shí)的數(shù)據(jù)訪問(wèn)性能優(yōu)化策略并行度優(yōu)化稀疏排列時(shí)的數(shù)據(jù)訪問(wèn)性能優(yōu)化策略并行度優(yōu)化橫向排列時(shí)的數(shù)據(jù)訪
6、問(wèn)性能優(yōu)化策略并行度優(yōu)化縱向排列時(shí)的數(shù)據(jù)訪問(wèn)性能優(yōu)化策略數(shù)據(jù)表示優(yōu)化0011010100,0,1;1,0,1;0,1,0普通模板表示1,-1;-1,0;1,0;0,1稀疏模板表示實(shí)驗(yàn)結(jié)果與性能分析實(shí)驗(yàn)環(huán)境硬件環(huán)境:CPU:Core i7 2600顯卡:NVIDIA Tesla C1060(4GB顯存)軟件環(huán)境:操作系統(tǒng):Ubuntu 10.04 x64 Server顯卡驅(qū)動(dòng):版本號(hào)480.17編譯環(huán)境:CUDA ToolKit 4.0算法:圖像形態(tài)學(xué)基本算法:腐蝕、膨脹、開運(yùn)算、閉運(yùn)算。基本參數(shù):圖像分辨率:1024 768模板分辨率:3 3實(shí)驗(yàn)結(jié)果與性能分析常量?jī)?nèi)存訪問(wèn)沖突實(shí)驗(yàn)實(shí)驗(yàn)結(jié)果與性能
7、分析常量?jī)?nèi)存性能優(yōu)化驗(yàn)證不使用常量?jī)?nèi)存使用常量?jī)?nèi)存算法執(zhí)行平均時(shí)間(ms/次)82.621345.7362Back實(shí)驗(yàn)結(jié)果與性能分析共享內(nèi)存性能優(yōu)化驗(yàn)證不使用共享內(nèi)存使用共享內(nèi)存(塊內(nèi)隱擴(kuò)邊)使用共享內(nèi)存(預(yù)加載冗余數(shù)據(jù))算法執(zhí)行平均時(shí)間(ms/次)82.621324.192329.7706不使用共享內(nèi)存使用共享內(nèi)存算法執(zhí)行平均時(shí)間(ms/次)74.86011.4405矩陣乘法運(yùn)算Back實(shí)驗(yàn)結(jié)果與性能分析紋理內(nèi)存性能優(yōu)化驗(yàn)證未使用紋理內(nèi)存使用1D紋理內(nèi)存使用2D紋理內(nèi)存算法執(zhí)行平均時(shí)間(ms/次)82.62135.03222.3041Back實(shí)驗(yàn)結(jié)果與性能分析并行度優(yōu)化驗(yàn)證實(shí)驗(yàn)結(jié)果與性能分析并行度優(yōu)化驗(yàn)證實(shí)驗(yàn)結(jié)果與性能分析并行度優(yōu)化驗(yàn)證1246816325125120.30470.25390.23320.27500.27760.62010.869110247680.75760.59800.53770.59300.58431.42223.0381102410240.99220.77670.68492.44750.73871.64353.9600實(shí)驗(yàn)
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- GB/T 29292-2024鞋類鞋類和鞋類部件中重點(diǎn)化學(xué)物質(zhì)管控指南
- Pemigatinib-d6-INCB054828-d-sub-6-sub-生命科學(xué)試劑-MCE-9553
- L-Pyroglutamic-acid-7-amido-4-methylcoumarin-生命科學(xué)試劑-MCE-3725
- Boc-Ala-Me-H117-生命科學(xué)試劑-MCE-9672
- 4-Fluoro-α-pyrrolidinopropiophenone-hydrochloride-生命科學(xué)試劑-MCE-5894
- 二零二五年度租賃期滿續(xù)租養(yǎng)老機(jī)構(gòu)居住協(xié)議合同
- 2025年度商鋪?zhàn)赓U協(xié)議終止及租賃場(chǎng)地使用權(quán)回購(gòu)協(xié)議
- 二零二五年度茶餐廳股份合作經(jīng)營(yíng)協(xié)議
- 2025年度智慧能源管理系統(tǒng)股東合作協(xié)議書
- 二零二五年度校園食堂檔口租賃合同與食品安全管理協(xié)議
- 時(shí)政述評(píng)培訓(xùn)課件
- 2022屆高三體育特長(zhǎng)生家長(zhǎng)會(huì)
- 不對(duì)外供貨協(xié)議
- 2024屆高考作文主題訓(xùn)練:時(shí)評(píng)類(含解析)
- 260噸汽車吊地基承載力驗(yàn)算
- 公司新員工三級(jí)安全教育培訓(xùn)(車間級(jí))
- 北師大版高三數(shù)學(xué)選修4-6初等數(shù)論初步全冊(cè)課件【完整版】
- 老子道德經(jīng)全文講解學(xué)習(xí)課件
- 企業(yè)更名通知函
- 經(jīng)大量臨床實(shí)驗(yàn)證明,空氣負(fù)離子能有效治療心腦血管疾病
- GB/T 12618-1990開口型扁圓頭抽芯鉚釘
評(píng)論
0/150
提交評(píng)論