并行程序設(shè)計(jì) 中文課件 01 并行程序設(shè)計(jì)_第1頁(yè)
并行程序設(shè)計(jì) 中文課件 01 并行程序設(shè)計(jì)_第2頁(yè)
并行程序設(shè)計(jì) 中文課件 01 并行程序設(shè)計(jì)_第3頁(yè)
并行程序設(shè)計(jì) 中文課件 01 并行程序設(shè)計(jì)_第4頁(yè)
并行程序設(shè)計(jì) 中文課件 01 并行程序設(shè)計(jì)_第5頁(yè)
已閱讀5頁(yè),還剩69頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

ParallelProgrammingInstructor:ZhangWeizhe(張偉哲)ComputerNetworkandInformationSecurityTechniqueResearchCenter,SchoolofComputerScienceandTechnology,HarbinInstituteofTechnology2課程安排Classhours:Weeks3-9周一,5-6pm正心44

周三,1-2am正心44Office:綜合樓708Informationexchange:wewillmainlyuseemailEmail:wzzhang@

Contacttimes:afterclassorbyappointmentTransparencies:availableafterclass(*.pdf)3實(shí)驗(yàn)安排Classhours:Weeks6-9星期四、星期五9-10節(jié)

軟件學(xué)院三樓機(jī)房Content:1)使用Intel編譯器生成優(yōu)質(zhì)代碼

2)基于WindowsThread和OpenMP的并行程序設(shè)計(jì)

3)采用IntelParallelInspectorXE進(jìn)行多線程程序調(diào)試、調(diào)優(yōu)4)基于MPI的并行程序設(shè)計(jì)5)基于GPU的并行程序設(shè)計(jì)4考核安排Examhours:

Weeks11星期三(5月10日)15:45-17:45致知11,12Requirement:(1)Exam:60%(2)Experiments:30%(3)Attendance:10%

5教材《IntroductiontoParallelComputing》機(jī)械工業(yè)出版社《多核程序設(shè)計(jì)》

清華大學(xué)工業(yè)出版社6教材《DesigningandBuildingParallelPrograms并行程序設(shè)計(jì)》

IanFoster等著,人民郵電出版社網(wǎng)址:/dbpp/7參考書目《多核程序設(shè)計(jì)技術(shù)—通過軟件多線程提升性能》《Multi-CoreProgramming-increasingperformancethroughsoftwaremulti-threading》

ShameemAkhter等著/李寶峰等譯,電子工業(yè)出版社,2007

《高性能計(jì)算并行編程技術(shù)——MPI并行程序設(shè)計(jì)》都志輝等著,清華大學(xué)出版社,2001網(wǎng)址:/upload/2005_04/05041108487447.pdf8課程基礎(chǔ)知識(shí)高級(jí)程序設(shè)計(jì)語(yǔ)言數(shù)據(jù)結(jié)構(gòu)及算法計(jì)算機(jī)網(wǎng)絡(luò)(TCP/IP)9本課程的目的總體目標(biāo):了解并行處理器的體系結(jié)構(gòu),掌握并行程序設(shè)計(jì)的基本原理,掌握基于共享內(nèi)存與基于消息傳遞的并行程序設(shè)計(jì)技術(shù),培養(yǎng)并行算法設(shè)計(jì)的能力,為后續(xù)課程的學(xué)習(xí)以及將來(lái)從事相關(guān)的軟件的設(shè)計(jì)與開發(fā)工作打下扎實(shí)的基礎(chǔ)。并行處理器體系結(jié)構(gòu)并行程序設(shè)計(jì)基礎(chǔ)基于共享內(nèi)存的并行程序設(shè)計(jì)基于消息傳遞的并行程序設(shè)計(jì)并行算法的設(shè)計(jì)與評(píng)價(jià)課程的主要內(nèi)容10并行計(jì)算導(dǎo)論并行計(jì)算機(jī)體系結(jié)構(gòu)并行程序設(shè)計(jì)基礎(chǔ)并行程序通訊及算法性能分析并行計(jì)算系統(tǒng)同步并行程序設(shè)計(jì)并行計(jì)算系統(tǒng)互斥容錯(cuò)基于共享內(nèi)存程序設(shè)計(jì)基于分布式內(nèi)存程序設(shè)計(jì)Windows多線程Linux多線程MPI程序設(shè)計(jì)PVM程序設(shè)計(jì)OpenMP多線程GPU程序設(shè)計(jì)11關(guān)于如何學(xué)習(xí)1、課堂知識(shí)2、搜索引擎3、論壇和專業(yè)站點(diǎn)4、期刊論文(CNKI)5、花足夠的時(shí)間研究案例-實(shí)踐SlidesdonotcoveranythingNotareplacementtoyourownreadingandownnotes第一章

并行計(jì)算導(dǎo)論第一章并行計(jì)算導(dǎo)論微處理器發(fā)展史計(jì)算機(jī)先驅(qū)--BabbageAnalyzer微處理器和計(jì)算機(jī)的發(fā)展史計(jì)算機(jī)的發(fā)展按照硬件工藝可以分為第一代(1946-1958):電子管數(shù)字計(jì)算機(jī)。第二代(1958-1964):晶體管數(shù)字計(jì)算機(jī)。第三代(1964-1971):集成電路數(shù)字計(jì)算機(jī)。第四代(1971年以后):大規(guī)模集成電路數(shù)字計(jì)算機(jī)ENIAC(ElectronicNumericalIntegratorandCalculator,即電子數(shù)字積分器和計(jì)算器)1946年,世界上第一臺(tái)全自動(dòng)電子數(shù)字計(jì)算機(jī)

微處理器和計(jì)算機(jī)的發(fā)展史計(jì)算機(jī)的發(fā)展按照硬件工藝可以分為第一代(1946-1958):電子管數(shù)字計(jì)算機(jī)。第二代(1958-1964):晶體管數(shù)字計(jì)算機(jī)。第三代(1964-1971):集成電路數(shù)字計(jì)算機(jī)。第四代(1971年以后):大規(guī)模集成電路數(shù)字計(jì)算機(jī)美國(guó)的IBM公司制成了第一臺(tái)全部使用晶體管的計(jì)算機(jī)RCA501型。1958年18微處理器和計(jì)算機(jī)的發(fā)展史計(jì)算機(jī)的發(fā)展按照硬件工藝可以分為第一代(1946-1958):電子管數(shù)字計(jì)算機(jī)。第二代(1958-1964):晶體管數(shù)字計(jì)算機(jī)。第三代(1964-1971):集成電路數(shù)字計(jì)算機(jī)。第四代(1971年以后):大規(guī)模集成電路數(shù)字計(jì)算機(jī)IBM360系統(tǒng)是最早使用集成電路元件的通用計(jì)算機(jī)系列,計(jì)算機(jī)從此進(jìn)入了集成電路時(shí)代。1964年,IBM360為第三代計(jì)算機(jī)里程碑20微處理器和計(jì)算機(jī)的發(fā)展史計(jì)算機(jī)的發(fā)展按照硬件工藝可以分為第一代(1946-1958):電子管數(shù)字計(jì)算機(jī)。第二代(1958-1964):晶體管數(shù)字計(jì)算機(jī)。第三代(1964-1971):集成電路數(shù)字計(jì)算機(jī)。第四代(1971年以后):大規(guī)模集成電路數(shù)字計(jì)算機(jī)4位、8位與16位微處理器第一代處理器:1971年,英特爾推出微處理器4004世界上第一款微處理器Intel8008是世界上第一種8位的微處理器224位、8位與16位微處理器第二代處理器:Intel公司的8080、8085Zilog公司的Z80、摩托羅拉公司的6800第三代處理器1978年,Intel公司的8086是第一個(gè)16位的處理器Intel的80881981年,美國(guó)IBM公司將8088芯片用于其研制的PC機(jī)中、開創(chuàng)了全新的微機(jī)時(shí)代Intel的80286實(shí)模式與保護(hù)模式、多任務(wù)Zilog公司的Z8000、摩托羅拉公司的6800023Intel8086/8088架構(gòu)24第一臺(tái)PC的誕生(IBM,1981)

25Intel8088MicroprocessorFirstPCequippedby8088TheAppleMacintoshIn1984,AppledebuteditsMacintosh,whichpopularizedthegraphiticuserinterface,knownastheGUI.MacintoshSystem1.0APPLEIAPPLEIIPLUSTheMacintoshMacintoshSystem2.032位處理器1985年英特爾80386DX正式發(fā)布32位核心、cache1989年,英特爾推出80486芯片首次采用了RISC(精簡(jiǎn)指令集)技術(shù)3032位處理器1993年,586CPU:Pentium(奔騰)1999年,XEON(志強(qiáng))、Celeron(賽揚(yáng))

2002年,新款I(lǐng)ntelPentium4處理器內(nèi)含超線程技術(shù)

AMD和Cyrix3164位處理器2003年9月24日,AMDAthlon64處理器正式推出2004年,Intel推出了Nocona代號(hào)Pentium4EM64T2005年4月18日,英特爾全球同步首發(fā)基于雙核技術(shù)桌面產(chǎn)品英特爾奔騰D處理器,正式揭開x86處理器多核心時(shí)代。在x86微處理器發(fā)展的同時(shí),人們也在進(jìn)行計(jì)算機(jī)并行化的探索,又出現(xiàn)了并行計(jì)算機(jī)體系結(jié)構(gòu),與多核微機(jī)走了不同的道路。32第一章并行計(jì)算導(dǎo)論微處理器并行計(jì)算機(jī)并行計(jì)算機(jī)Aparallelcomputer

isasetofprocessorsthatareabletoworkcooperativelytosolveacomputationalproblem由一組處理單元組成各處理單元之間相互通信與協(xié)作

以更快的速度共同完成一項(xiàng)大規(guī)模計(jì)算任務(wù)34并行計(jì)算機(jī)的分類:Flynn分類法(行為特征)35SISDSingleInstruction,SingleData

串行計(jì)算機(jī)(vonNeumann計(jì)算機(jī))SIMDSingleInstruction,MultipleData適用性很有限(如MPEG類計(jì)算、字符串匹配計(jì)算)MISDMultipleInstruction,SingleData為分類的的完美而設(shè)置,意義不大MIMDMultipleInstruction,MultipleData常見的并行計(jì)算機(jī)都可歸入此類MPP/Cluster/SMP/當(dāng)前基于Cache的Multi-core(Intel、AMD)SIMD處理器陣列機(jī)、向量機(jī):CELL、GPU適用于非常規(guī)則的計(jì)算,例如:視頻、音頻處理的MPEG算法;密集矩陣的運(yùn)算36MIMD37最常見的并行計(jì)算機(jī)38MIMD進(jìn)一步分類1.6DifferentbasicorganizationsandmemoriesindistributedcomputersystemsMulticomputers多計(jì)算機(jī)系統(tǒng)Multiprocessors多處理器系統(tǒng)MIMD進(jìn)一步分類39

Multiprocessors

多處理器系統(tǒng)

systemswithsharedmemory共享內(nèi)存系統(tǒng)ensureuniformmemoryaccess(UMA),–serveasthebasisfordesigning:確保統(tǒng)一內(nèi)存訪問(UMA),服務(wù)作為設(shè)計(jì)的基礎(chǔ):parallelvectorprocessors(PVP),e.g.:CrayT90,并行向量處理器(PVP)symmetricmultiprocessor(SMP),e.g.:IBMeServer,SunStarFire,HPSuperdome,SGIOrigin.對(duì)稱多處理器(SMP)。402024/12/3141PVP(ParallelVector

Processor

)含有為數(shù)不多、功能強(qiáng)大的定制向量處理器(VP),定制的高帶寬縱橫交叉開關(guān)及高速的數(shù)據(jù)訪問。通常不使用高速緩存,而是使用大量向量寄存器及指令緩存,使得該系統(tǒng)對(duì)程序編制的要求較高。只有那些充分考慮了向量處理特點(diǎn)的程序才能在該系統(tǒng)上獲得較好的性能。另外,由于價(jià)格昂貴、難于管理等原因,這種類型計(jì)算機(jī)的應(yīng)用主要集中在一些大型國(guó)家關(guān)鍵部門。銀河I,NEC地球模擬器。。。2024/12/3142地球模擬器2024/12/3143SMP(SymmetricMultiprocessor)采用商品化的處理器,這些處理器通過總線或交叉開關(guān)連接到共享存儲(chǔ)器。每個(gè)處理器可等同地訪問共享存儲(chǔ)器、I/O設(shè)備和操作系統(tǒng)服務(wù)擴(kuò)展性有限曙光1號(hào),IBMRS/6000。。。2024/12/3144RS6000

Multiprocessors

多處理器系統(tǒng)

distributedsharedmemoryorDSM分布式共享內(nèi)存non-uniformmemoryaccessorNUMA,非一致內(nèi)存訪問Thesystemswithsuchmemorytypefallintothefollowinggroups:Сache-onlymemoryarchitectureorCOMA(e.g.:KSR-1andDDMsystems),Сache存儲(chǔ)器架構(gòu)cache-coherentNUMAorCC-NUMA(e.g.:SGIOrigin2000,SunHPC10000,IBM/SequentNUMA-Q2000),緩存一致的NUMA或CC-NUMAnon-cachecoherentNUMAorNCC-NUMA(e.g.:CrayT3E).非緩存一致性NUMA或NCC-NUMA452024/12/3146DSM(DistributedSharedMemory)存儲(chǔ)器物理上分布在不同的節(jié)點(diǎn)中,但通過硬件和軟件方法實(shí)現(xiàn)內(nèi)存的統(tǒng)一編址。SGI的Origin3000、Altix3000系列,SUN的Fire15K。。。2024/12/3147Origin3000與Altix3000Origin3000Altix3000

Multicomputers

多計(jì)算機(jī)系統(tǒng)

no-remotememoryaccessorNORMA,無(wú)遠(yuǎn)程內(nèi)存訪問eachsystemprocessorisabletouseonlyitslocalmemory,每個(gè)系統(tǒng)處理器只能使用其本地存儲(chǔ)器gettingaccesstothedataavailableonotherprocessorsrequiresexplicitexecutionofmessagepassingoperations.訪問其他處理器上可用的數(shù)據(jù)需要顯式執(zhí)行消息傳遞操作massivelyparallelprocessororMPP,e.g.:IBMRS/6000SP2,IntelPARAGON,ASCIRed,大規(guī)模并行處理器clusters,e.g.:AC3VelocityandNCSANTSupercluster.集群2024/12/3149MPP(MassivelyParallelProcessor)處理節(jié)點(diǎn)采用商品微處理器系統(tǒng)中有物理上的分布式存儲(chǔ)器采用高通信帶寬和低延遲的互連網(wǎng)絡(luò)(專門設(shè)計(jì)和定制的)能擴(kuò)展至成百上千乃至上萬(wàn)個(gè)處理器異步MIMD,構(gòu)成程序的多個(gè)進(jìn)程有自己的地址空間,進(jìn)程間通信消息傳遞相互作用IntelOptionRed、IBMSP2、Dawning1000。。。2024/12/3150ASCIRedSupercomputer(1996)2024/12/3151IBMBlueGene2024/12/3152IBMBlueGene2024/12/3153Cluster(集群)分布式存儲(chǔ),MIMD,工作站+商用互連網(wǎng)絡(luò),每個(gè)節(jié)點(diǎn)是一個(gè)完整的計(jì)算機(jī),有自己的磁盤和操作系統(tǒng),而MPP中只有微內(nèi)核優(yōu)點(diǎn):投資風(fēng)險(xiǎn)小系統(tǒng)結(jié)構(gòu)靈活性能/價(jià)格比高能充分利用分散的計(jì)算資源可擴(kuò)展性好問題通信性能并行編程環(huán)境IBMCluster1350/1600。。。2024/12/3154Cluster13502024/12/3155并行計(jì)算機(jī)結(jié)構(gòu)模型小結(jié)神威-太湖之光“神威太湖之光”是使用中國(guó)自主芯片制造的超級(jí)計(jì)算機(jī)。安裝在國(guó)家超級(jí)計(jì)算無(wú)錫中心?!吧裢狻钡母↑c(diǎn)運(yùn)算速度為每秒9.3億億次。神威太湖之光”共有40960塊處理器。全球第一臺(tái)運(yùn)行速度超過10億億次/秒的超級(jí)計(jì)算機(jī),峰值性能高達(dá)12.54億億次/秒,全部采用自主中國(guó)芯:“申威26010”眾核處理器,綠色節(jié)能。天河二號(hào)Tianhe-2國(guó)防科大研制的天河二號(hào)超級(jí)計(jì)算機(jī)系統(tǒng),峰值計(jì)算速度每秒5.49億億次、持續(xù)計(jì)算速度每秒3.39億億次雙精度浮點(diǎn)運(yùn)算,比第二名美國(guó)“泰坦”快近一倍的速度連續(xù)第四次獲得冠軍。目前天河2號(hào)由16000個(gè)節(jié)點(diǎn)組成,每個(gè)節(jié)點(diǎn)有2顆基于IvyBridge-E

Xeon

E52692處理器和3個(gè)Xeon

Phi,累計(jì)共有32000顆IvyBridge處理器和48000個(gè)XeonPhi,總計(jì)有312萬(wàn)個(gè)計(jì)算核心。57泰坦Titan泰坦(英語(yǔ):Titan)是一臺(tái)由克雷公司承建的超級(jí)電腦,置放于美國(guó)能源部下屬的橡樹嶺國(guó)家實(shí)驗(yàn)室中,泰坦也是世界上第一臺(tái)以通用圖形處理器(GPGPU)為主要數(shù)據(jù)處理單元的超級(jí)電腦,2012年11月至2013年6月是世界上最快的超級(jí)電腦。整臺(tái)泰坦共計(jì)18,688顆中央處理器和相同數(shù)量的圖形處理器,理論峰值性能是27petaFLOPS,LINPACK基準(zhǔn)性能測(cè)試中取得17.59petaFLOPS58SequoiaBlueGeneSequoia超級(jí)計(jì)算機(jī)系統(tǒng)是由美國(guó)國(guó)家核安全部(NNSA)所有、位于著名實(shí)驗(yàn)室LLNL(LawrenceLivermoreNationalLaboratory),Sequoia為NNSA委托IBM制造,基于該公司藍(lán)色基因/Q架構(gòu)(BlueGene/Q),擁有96個(gè)機(jī)柜,共98304個(gè)計(jì)算節(jié)點(diǎn)、接近160萬(wàn)個(gè)處理器核心、內(nèi)存容量1.6PB(1600TB)。采用超過157萬(wàn)顆計(jì)算內(nèi)核,其運(yùn)行速度達(dá)到了每秒16.32千萬(wàn)億次59KSuperComputer日本的K計(jì)算機(jī)以每秒8千萬(wàn)億次的浮點(diǎn)計(jì)算速度位于Top500榜首,采用了68544顆SPRAC64VIIIfx處理器(每顆處理器8核),共548352個(gè)核——兩倍于TOP500排行榜中所有系統(tǒng)的核數(shù)。60天河一號(hào)“天河一號(hào)”是由天津?yàn)I海新區(qū)和國(guó)防科技大學(xué)共同建設(shè)的國(guó)家超級(jí)計(jì)算機(jī)天津中心所研制,第二個(gè)千萬(wàn)億次超級(jí)計(jì)算機(jī)的國(guó)家。實(shí)測(cè)運(yùn)算速度可達(dá)每秒2570萬(wàn)億次。共有6144個(gè)Intel處理器和5120個(gè)AMD圖像處理單元61美洲豹“美洲豹”超級(jí)計(jì)算機(jī)系統(tǒng)隸屬于美國(guó)能源部,坐落于美國(guó)橡樹嶺國(guó)家實(shí)驗(yàn)室。在本期排行榜上,它以每秒1.8千萬(wàn)億次的運(yùn)算速度超越“走鵑”而名列榜首,運(yùn)算速度比“走鵑”快大約70%。臺(tái)民用計(jì)算機(jī),將主要用于模擬氣候變化、能源產(chǎn)生以及其他基礎(chǔ)科學(xué)的研究。星云中國(guó)深圳的國(guó)家超算中心(NSCS)的高性能計(jì)算系統(tǒng)——曙光TC3600“星云”超級(jí)計(jì)算機(jī)以1.271PFlop/s的Linpack成績(jī)(每秒1271萬(wàn)億次)成為全世界第二快的超級(jí)計(jì)算機(jī)。刀片服務(wù)器作為節(jié)點(diǎn),處理器是32nm工藝的六核至強(qiáng)X5650,并且采用了NvidiaTeslaC2050GPU做協(xié)處理(理論計(jì)算峰值性能可以達(dá)到每秒2980萬(wàn)億次)

TOP500(2016.6)64TOP500(2015.11)65趨勢(shì)66并行計(jì)算與分布式計(jì)算分布式計(jì)算:多臺(tái)計(jì)算機(jī)利用網(wǎng)絡(luò)通信進(jìn)行協(xié)作,共同完成某一項(xiàng)任務(wù).這些機(jī)器可以是同時(shí)做不同的子任務(wù),也可以是按工作流方式依次做不

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論