基于多核程序優(yōu)化技術(shù)課件_第1頁
基于多核程序優(yōu)化技術(shù)課件_第2頁
基于多核程序優(yōu)化技術(shù)課件_第3頁
基于多核程序優(yōu)化技術(shù)課件_第4頁
基于多核程序優(yōu)化技術(shù)課件_第5頁
已閱讀5頁,還剩81頁未讀 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認(rèn)領(lǐng)

文檔簡介

基于多核的程序優(yōu)化技術(shù)

多核架構(gòu)及編程技術(shù)

基于多核的程序優(yōu)化技術(shù)

多核架構(gòu)及編程技術(shù)內(nèi)容1、編譯回顧2、基于多核的程序優(yōu)化技術(shù)內(nèi)容基于多核程序優(yōu)化技術(shù)課件基于多核程序優(yōu)化技術(shù)課件代碼優(yōu)化代碼優(yōu)化:指編譯程序為了生成高質(zhì)量的目標(biāo)程序而做的各種加工和處理。目的:提高目標(biāo)代碼運行效率時間效率:減少運行時間空間效率:減少內(nèi)存容量原則:嚴(yán)格遵循“不能改變原有程序語義”原則。代碼優(yōu)化代碼優(yōu)化:優(yōu)化的分類從優(yōu)化的層次,與機器是否有關(guān):獨立于機器的優(yōu)化與目標(biāo)機無關(guān)的優(yōu)化,通常是在中間代碼上進行的優(yōu)化。與機器有關(guān)的優(yōu)化:充分利用系統(tǒng)資源(指令系統(tǒng),寄存器資源)。從優(yōu)化涉及的范圍,可以分為:局部優(yōu)化:是指在基本塊內(nèi)進行的優(yōu)化。循環(huán)優(yōu)化:對循環(huán)語句所生成的中間代碼序列上所進行的優(yōu)化。 全局優(yōu)化:跨越多個基本塊的全局范圍內(nèi)的優(yōu)化。優(yōu)化的分類從優(yōu)化的層次,與機器是否有關(guān):并行編譯基礎(chǔ)并行編譯系統(tǒng):就是能夠處理并行程序設(shè)計語言,能夠?qū)崿F(xiàn)串行程序并行化,具有并行優(yōu)化能力的編譯系統(tǒng)。并行編譯技術(shù)的主要內(nèi)容:串行程序的向量化和并行化。并行編譯基礎(chǔ)并行編譯系統(tǒng):向量化:將串行程序中可向量化部分改寫成用向量運算表示的等價程序;其編譯技術(shù)已趨成熟并行化:將串行程序中可并行化部分改寫成在多處理機上并行執(zhí)行的等價程序;難度大,涉及數(shù)據(jù)的私有化、分布和通信,以及并行任務(wù)劃分等問題。借助于OpenMP。向量化:基于多核的程序優(yōu)化技術(shù)基于多核的程序優(yōu)化技術(shù)并行編程模型并行語言并行編譯器并行語言運行時可伸縮的執(zhí)行環(huán)境多核處理器。多核軟件棧并行編程模型多核軟件棧普遍并行編程多核編程和編譯是一重大挑戰(zhàn):一般的程序員經(jīng)常需要為多核處理器編程,即使對專家來說,并行編程也是一件難事。如何使并行編程變得容易?并發(fā)控制并行化。普遍并行編程多核編程和編譯是一重大挑戰(zhàn):并發(fā)控制通常會使用鎖?!i不可取。鎖存在根本性的問題:容易出錯:忽略關(guān)鍵鎖、死鎖、有限級倒置、護送問題。難以優(yōu)化性能:粗粒度鎖會妨礙并行,細(xì)粒鎖會導(dǎo)致高開銷。鎖的程序/庫線程不能隨意構(gòu)成。事務(wù)型內(nèi)存:基本的原子結(jié)構(gòu):HPCS語言(Fortress、X10、chapel)提供原子結(jié)構(gòu)以取代鎖。并發(fā)控制通常會使用鎖?!i不可取。多線程的兩種方法本地線程(NativeThreading)OpenMP線程多線程的兩種方法本地線程(NativeThreading)優(yōu)化關(guān)鍵選擇關(guān)鍵的代碼(費時間的代碼)進行多線程設(shè)計。如果不能確定程序的主要計算部分(?)借助于Intel?VTune?Analyzers來進行程序分析。優(yōu)化關(guān)鍵選擇關(guān)鍵的代碼(費時間的代碼)進行多線程設(shè)計。一些要點建議使用IntelC++編譯器進行編譯程序。使用Intel?MathKernelLibrary(IntelMKL)

IntelMKL函數(shù)庫中提供了VML函數(shù),這些函數(shù)可以對超越函數(shù)(sin,cos,exp,log等)進行優(yōu)化。提高程序性能?,F(xiàn)在串行上要調(diào)試通過,然后再進行多核多線程的編程工作。一些要點建議使用IntelC++編譯器進行編譯程序。多線程后,用Intel線程監(jiān)測器進行查找線程錯誤:資源競爭、線程死鎖等問題。用IntelThreadProfiler工具開定位程序中負(fù)載不失衡或開銷過大的問題。多線程后,用Intel線程監(jiān)測器進行查找線程錯誤:資源競爭、首先用OpenMP進行并行編程。前面講過,這里不再詳細(xì)描述。首先用OpenMP進行并行編程。VTune?PerformanceAnalyzer6.0VTune?PerformanceAnalyzer6.優(yōu)化過程-IntelVTuneTM的使用優(yōu)化過程-IntelVTuneTM的使用有助于:找到算法的瓶頸由數(shù)據(jù)規(guī)劃引起的瓶頸應(yīng)用結(jié)構(gòu)的瓶頸系統(tǒng)級以及硬件的瓶頸有助于:找到算法的瓶頸術(shù)語-熱點(hotspot)hotspot是你的代碼花費很長時間執(zhí)行的區(qū)域。通過定位hotspot,VTune性能分析工具可以幫助你分析應(yīng)用程序的性能。但是簡單的知道hotspot的位置是不夠的,你必須知道什么導(dǎo)致hotspot的產(chǎn)生,怎樣改進通過對熱區(qū)的進一步分析,你可以跟蹤關(guān)鍵的函數(shù)調(diào)用,監(jiān)控特殊的處理器事件,如cachemiss術(shù)語-熱點(hotspot)hotspot是你的代碼花費很長Hotspot與Bottleneck的區(qū)別Bottleneck是系統(tǒng)中性能受到約束的位置VTune?PerformanceAnalyzer幫助你找到并刪除Bottlenecks.找到軟件Hotspots是一個分析方法,幫助你定位Bottlenecks.Hotspot與Bottleneck的區(qū)別Bottlenec性能優(yōu)化方法性能優(yōu)化方法有三種數(shù)據(jù)收集器Sampling取樣callgraph調(diào)用曲線圖countermonitor計數(shù)器監(jiān)控器有三種數(shù)據(jù)收集器Sampling取樣兩種跟蹤位置的方法Problem:

我需要知道你在哪花費了多長時間StatisticalSolution:我每30分鐘呼叫你InstrumentationSolution:

每個地方有一個特殊的電話點,你每到一個地點向我報告兩種跟蹤位置的方法Problem:第一種方法:我固定時間間隔給你電話優(yōu)點:低開銷:沒有太多的中斷沒有建站點的開銷無論你在那里都能精確定位缺點:如果你的雙手拿滿東西,我必須等待你可能第一次沒有聽到鈴聲,所以我不能精確確定我呼叫你時,你在那里由于你不經(jīng)常去有一些地方,我可能根本不知道你去過第一種方法:我固定時間間隔給你電話優(yōu)點:由于你不經(jīng)常去有一些第二種方法:

當(dāng)你到了,你打電話給我。優(yōu)點:你到達新的地方我能立刻知道我知道你在一個地方呆了多長時間我知道你到達同一個地方多少次缺點:不知道你在街道內(nèi)做了什么粒度:站點浪費了大量時間打電話建立站點擴大了街道空間第二種方法:

當(dāng)你到了,你打電話給我。優(yōu)點:如何識別熱點?SamplingDataCollector–TheStatisticalSolution描述執(zhí)行的一個側(cè)面(柱狀圖)低開銷CallGraphDataCollector–TheInstrumentationSolution函數(shù)的時間信息函數(shù)調(diào)用者和被調(diào)用者的關(guān)系比sampling的開銷高如何識別熱點?SamplingDataCollector三種性能監(jiān)控方式的比較三種性能監(jiān)控方式的比較VTune?Projects(項目)什么是Project

?

Project由一個或多個Activities組成什么是Activity?包含你應(yīng)用程序的信息和希望運行的數(shù)據(jù)收集器信息。VTune?Projects(項目)什么是Project項目的組織如下MyCoolProject1

Activity1(CallGraph) CallGraphResults-3Apr,2007,3:30PM CallGraphResults-4Apr,2007,3:30PM

Activity2(CounterMonitor) CounterMonitorResults-3Apr,2007,4:30PM

Activity3(Sampling) SamplingResults-5Apr,2007,8:30AM Runo Clockticks InstructionsRetired Run1 MispredictedBranchesRetired項目的組織如下MyCoolProject1取樣打斷處理器的執(zhí)行,獲得執(zhí)行上下文中斷可以是周期性的,如每秒1,000次采樣采樣的觸發(fā)EventBasedSampling(EBS).采樣事件:處理器相關(guān)事件,如L2CacheMisses,BranchMispredictions,Floating-pointinstructionsretired,etc.取樣打斷處理器的執(zhí)行,獲得執(zhí)行上下文舉例:gzip采樣分析介紹EBS與Sampling用戶界面gzip是一個開放源壓縮程序文件舉例:gzip采樣分析介紹EBS與Sampling選擇一個新的項目選擇一個新的項目選擇“SamplingWizard”,點擊OK選擇“SamplingWizard”,點擊OK選擇Win32*/Win64*/Linux*Profiling選擇按鈕,然后確定選擇Win32*/Win64*/Linux*Profili記?。好總€活動都有自己的應(yīng)用/模塊輪廓(profile)打開應(yīng)用程序:gzip.exe命令行選項:-ftestfile.dat選中Modifydefaultconfiguration點擊Finish記?。好總€活動都有自己的應(yīng)用/模塊輪廓(profile)打開修改采樣行為SelecttheSamplingcheckbox.ClickonConfigure修改采樣行為SelecttheSamplingchecClickOKtoruntheactivityClickOKtoruntheactivity根據(jù)采樣次數(shù)找到hotspot根據(jù)采樣次數(shù)找到hotspot調(diào)用圖根據(jù)總時間找到關(guān)鍵路徑調(diào)用圖根據(jù)總時間找到關(guān)鍵路徑計數(shù)器監(jiān)視根據(jù)占處理器時間找hotspot計數(shù)器監(jiān)視根據(jù)占處理器時間找hotspot修改代碼進行優(yōu)化修改代碼進行優(yōu)化

基于多核的程序優(yōu)化技術(shù)

多核架構(gòu)及編程技術(shù)

基于多核的程序優(yōu)化技術(shù)

多核架構(gòu)及編程技術(shù)內(nèi)容1、編譯回顧2、基于多核的程序優(yōu)化技術(shù)內(nèi)容基于多核程序優(yōu)化技術(shù)課件基于多核程序優(yōu)化技術(shù)課件代碼優(yōu)化代碼優(yōu)化:指編譯程序為了生成高質(zhì)量的目標(biāo)程序而做的各種加工和處理。目的:提高目標(biāo)代碼運行效率時間效率:減少運行時間空間效率:減少內(nèi)存容量原則:嚴(yán)格遵循“不能改變原有程序語義”原則。代碼優(yōu)化代碼優(yōu)化:優(yōu)化的分類從優(yōu)化的層次,與機器是否有關(guān):獨立于機器的優(yōu)化與目標(biāo)機無關(guān)的優(yōu)化,通常是在中間代碼上進行的優(yōu)化。與機器有關(guān)的優(yōu)化:充分利用系統(tǒng)資源(指令系統(tǒng),寄存器資源)。從優(yōu)化涉及的范圍,可以分為:局部優(yōu)化:是指在基本塊內(nèi)進行的優(yōu)化。循環(huán)優(yōu)化:對循環(huán)語句所生成的中間代碼序列上所進行的優(yōu)化。 全局優(yōu)化:跨越多個基本塊的全局范圍內(nèi)的優(yōu)化。優(yōu)化的分類從優(yōu)化的層次,與機器是否有關(guān):并行編譯基礎(chǔ)并行編譯系統(tǒng):就是能夠處理并行程序設(shè)計語言,能夠?qū)崿F(xiàn)串行程序并行化,具有并行優(yōu)化能力的編譯系統(tǒng)。并行編譯技術(shù)的主要內(nèi)容:串行程序的向量化和并行化。并行編譯基礎(chǔ)并行編譯系統(tǒng):向量化:將串行程序中可向量化部分改寫成用向量運算表示的等價程序;其編譯技術(shù)已趨成熟并行化:將串行程序中可并行化部分改寫成在多處理機上并行執(zhí)行的等價程序;難度大,涉及數(shù)據(jù)的私有化、分布和通信,以及并行任務(wù)劃分等問題。借助于OpenMP。向量化:基于多核的程序優(yōu)化技術(shù)基于多核的程序優(yōu)化技術(shù)并行編程模型并行語言并行編譯器并行語言運行時可伸縮的執(zhí)行環(huán)境多核處理器。多核軟件棧并行編程模型多核軟件棧普遍并行編程多核編程和編譯是一重大挑戰(zhàn):一般的程序員經(jīng)常需要為多核處理器編程,即使對專家來說,并行編程也是一件難事。如何使并行編程變得容易?并發(fā)控制并行化。普遍并行編程多核編程和編譯是一重大挑戰(zhàn):并發(fā)控制通常會使用鎖?!i不可取。鎖存在根本性的問題:容易出錯:忽略關(guān)鍵鎖、死鎖、有限級倒置、護送問題。難以優(yōu)化性能:粗粒度鎖會妨礙并行,細(xì)粒鎖會導(dǎo)致高開銷。鎖的程序/庫線程不能隨意構(gòu)成。事務(wù)型內(nèi)存:基本的原子結(jié)構(gòu):HPCS語言(Fortress、X10、chapel)提供原子結(jié)構(gòu)以取代鎖。并發(fā)控制通常會使用鎖?!i不可取。多線程的兩種方法本地線程(NativeThreading)OpenMP線程多線程的兩種方法本地線程(NativeThreading)優(yōu)化關(guān)鍵選擇關(guān)鍵的代碼(費時間的代碼)進行多線程設(shè)計。如果不能確定程序的主要計算部分(?)借助于Intel?VTune?Analyzers來進行程序分析。優(yōu)化關(guān)鍵選擇關(guān)鍵的代碼(費時間的代碼)進行多線程設(shè)計。一些要點建議使用IntelC++編譯器進行編譯程序。使用Intel?MathKernelLibrary(IntelMKL)

IntelMKL函數(shù)庫中提供了VML函數(shù),這些函數(shù)可以對超越函數(shù)(sin,cos,exp,log等)進行優(yōu)化。提高程序性能?,F(xiàn)在串行上要調(diào)試通過,然后再進行多核多線程的編程工作。一些要點建議使用IntelC++編譯器進行編譯程序。多線程后,用Intel線程監(jiān)測器進行查找線程錯誤:資源競爭、線程死鎖等問題。用IntelThreadProfiler工具開定位程序中負(fù)載不失衡或開銷過大的問題。多線程后,用Intel線程監(jiān)測器進行查找線程錯誤:資源競爭、首先用OpenMP進行并行編程。前面講過,這里不再詳細(xì)描述。首先用OpenMP進行并行編程。VTune?PerformanceAnalyzer6.0VTune?PerformanceAnalyzer6.優(yōu)化過程-IntelVTuneTM的使用優(yōu)化過程-IntelVTuneTM的使用有助于:找到算法的瓶頸由數(shù)據(jù)規(guī)劃引起的瓶頸應(yīng)用結(jié)構(gòu)的瓶頸系統(tǒng)級以及硬件的瓶頸有助于:找到算法的瓶頸術(shù)語-熱點(hotspot)hotspot是你的代碼花費很長時間執(zhí)行的區(qū)域。通過定位hotspot,VTune性能分析工具可以幫助你分析應(yīng)用程序的性能。但是簡單的知道hotspot的位置是不夠的,你必須知道什么導(dǎo)致hotspot的產(chǎn)生,怎樣改進通過對熱區(qū)的進一步分析,你可以跟蹤關(guān)鍵的函數(shù)調(diào)用,監(jiān)控特殊的處理器事件,如cachemiss術(shù)語-熱點(hotspot)hotspot是你的代碼花費很長Hotspot與Bottleneck的區(qū)別Bottleneck是系統(tǒng)中性能受到約束的位置VTune?PerformanceAnalyzer幫助你找到并刪除Bottlenecks.找到軟件Hotspots是一個分析方法,幫助你定位Bottlenecks.Hotspot與Bottleneck的區(qū)別Bottlenec性能優(yōu)化方法性能優(yōu)化方法有三種數(shù)據(jù)收集器Sampling取樣callgraph調(diào)用曲線圖countermonitor計數(shù)器監(jiān)控器有三種數(shù)據(jù)收集器Sampling取樣兩種跟蹤位置的方法Problem:

我需要知道你在哪花費了多長時間StatisticalSolution:我每30分鐘呼叫你InstrumentationSolution:

每個地方有一個特殊的電話點,你每到一個地點向我報告兩種跟蹤位置的方法Problem:第一種方法:我固定時間間隔給你電話優(yōu)點:低開銷:沒有太多的中斷沒有建站點的開銷無論你在那里都能精確定位缺點:如果你的雙手拿滿東西,我必須等待你可能第一次沒有聽到鈴聲,所以我不能精確確定我呼叫你時,你在那里由于你不經(jīng)常去有一些地方,我可能根本不知道你去過第一種方法:我固定時間間隔給你電話優(yōu)點:由于你不經(jīng)常去有一些第二種方法:

當(dāng)你到了,你打電話給我。優(yōu)點:你到達新的地方我能立刻知道我知道你在一個地方呆了多長時間我知道你到達同一個地方多少次缺點:不知道你在街道內(nèi)做了什么粒度:站點浪費了大量時間打電話建立站點擴大了街道空間第二種方法:

當(dāng)你到了,你打電話給我。優(yōu)點:如何識別熱點?SamplingDataCollector–TheStatisticalSolution描述執(zhí)行的一個側(cè)面(柱狀圖)低開銷CallGraphDataCollector–TheInstrumentationSolution函數(shù)的時間信息函數(shù)調(diào)用者和被調(diào)用者的關(guān)系比sampling的開銷高如何識別熱點?SamplingDataCollector三種性能監(jiān)控方式的比較三種性能監(jiān)控方式的比較VTune?Projects(項目)什么是Project

?

Project由一個或多個Activities組成什么是Activity?包含你應(yīng)用程序的信息和希望運行的數(shù)據(jù)收集器信息。VTune?Projects(項目)什么是Project項目的組織如下MyCoolProject1

Activity1(CallGraph) CallGraphResults-3Apr,2007,3:30PM CallGraphResults-4Apr,2007,3:30PM

Activity2(CounterMonitor) CounterMonitorResults-3Apr,2007,4:30PM

Activity3(Sampling) SamplingResults-5Apr,2007,8:30AM Runo Clockticks InstructionsRetired Run1 MispredictedBranchesRetired項目的組織如

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論