分布式與云計算系統(tǒng)第2章_第1頁
分布式與云計算系統(tǒng)第2章_第2頁
分布式與云計算系統(tǒng)第2章_第3頁
分布式與云計算系統(tǒng)第2章_第4頁
分布式與云計算系統(tǒng)第2章_第5頁
已閱讀5頁,還剩61頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

1、Computer School, NUDT. Spring, 20131 Computer School, NUDT. Spring, 201322.1大規(guī)模并行集群l計算機集群(computer cluster)由相互聯(lián)系的個體計算機聚集組成,這些計算機之間相互聯(lián)系并且共同工作l對于用戶來說,計算機集群如同一個獨立完整的計算資源池。l集群化實現(xiàn)作業(yè)級的大規(guī)模并行,并通過獨立操作實現(xiàn)高可用性。l計算機集群和大規(guī)模并行處理器(MPP)的優(yōu)點包括可擴展性能、高可用性、容錯、模塊化增長和使用商用組件。 Computer School, NUDT. Spring, 20134計算機集群的設(shè)計宗旨:l可

2、擴展性:計算機集群化是基于模塊化增長的概念. 將幾百個單處理器節(jié)點的集群擴展為10 000個多核節(jié)點的超級集群。這一些因素限制: 如多核心芯片技術(shù)、集群拓撲結(jié)構(gòu)、封裝方式、電力消耗和冷控制技術(shù)應(yīng)用。 l封裝:集群節(jié)點可以被封裝成緊湊或者松散的形式。封裝直接影響通信線路的長度,需要選擇合適的互連技術(shù)。緊湊集群通常利用專有的高帶寬、低延遲的通信網(wǎng)絡(luò),而松散集群節(jié)點一般由標準的局域網(wǎng)或廣域網(wǎng)連接。 Computer School, NUDT. Spring, 20135l控制:集群能夠以集中或分散的形式被控制或管理。緊湊集群通常集中控制,而松散集群可以采取另一種方式。在集中式集群中,中心管理者擁有、

3、控制、管理和操作所有節(jié)點。在分散式集群中,節(jié)點有各自的擁有者。它同樣需要進程調(diào)度、負載遷移、檢查點、記賬和其他類似任務(wù)的特殊技術(shù)。 l同構(gòu)性:同構(gòu)集群采用來自相同平臺的節(jié)點,即節(jié)點具有相同處理器體系結(jié)構(gòu)和相同操作系統(tǒng)。異構(gòu)集群使用來自不同平臺的節(jié)點?;ゲ僮餍允钱悩?gòu)集群的一個非常重要的問題。在同構(gòu)集群中,二進制進程鏡像可以遷移到另一個節(jié)點并能夠繼續(xù)執(zhí)行。這在異構(gòu)集群中是不允許的,因為當進程遷移到不同平臺的節(jié)點上時,二進制代碼不繼續(xù)執(zhí)行。 Computer School, NUDT. Spring, 20136l安全性:集群內(nèi)通信可以是開放的或封閉的。開放集群外界機器可采用標準協(xié)議(如TCP/IP

4、)訪問通信路徑,從而訪問單獨節(jié)點。有幾個缺點:集群內(nèi)通信變得不安全; 外界通信可能以不可預(yù)測的形式干擾集群內(nèi)通信; 準通信協(xié)議往往具有巨大的開銷。在封閉集群中,集群內(nèi)通信與外界相隔離,目前還沒有高效、封閉的集群內(nèi)通信標準。 l專用集群和企業(yè)集群:專用集群由相同類型的計算機節(jié)點同構(gòu)配置,被用于代替?zhèn)鹘y(tǒng)的大型機或超級計算機,極大地提高了吞吐量,并且減少了響應(yīng)時間。企業(yè)集群主要利用節(jié)點的閑置資源,每個節(jié)點通常是一個完整的SMP、工作站或PC及其所有必要的外部設(shè)備。通常是由異構(gòu)計算機節(jié)點配置的。Computer School, NUDT. Spring, 20137基礎(chǔ)集群設(shè)計問題:l可擴展性能:資源

5、擴展(集群節(jié)點、內(nèi)存容量、I/O帶寬等)使性能成比例增長 l單系統(tǒng)鏡像(SSI):集群是一個單一獨立的系統(tǒng)。 l可用性支持:集群能夠利用處理器、內(nèi)存、磁盤、I/O設(shè)備、網(wǎng)絡(luò)和操作系統(tǒng)鏡像的大量冗余提供低成本、高可用性的性能。 l集群作業(yè)管理:實現(xiàn)高系統(tǒng)利用率,作業(yè)管理軟件需要提供批量、負載均衡和并行處理等功能。 Computer School, NUDT. Spring, 20138l節(jié)點間通信:集群由于具有更高的節(jié)點復(fù)雜度,故不能被封裝得如MPP節(jié)點一樣的簡潔。集群內(nèi)節(jié)點之間的物理網(wǎng)線長度比MPP長。 l容錯和恢復(fù):機器集群能夠消除所有的單點失效。集群能在一定程度上容忍出錯的情況。故障節(jié)點上

6、運行的關(guān)鍵作業(yè)可以被轉(zhuǎn)移到正常運行的節(jié)點上?;貪L恢復(fù)機制通過周期性記錄檢查點來恢復(fù)計算結(jié)果。Computer School, NUDT. Spring, 20139集群分類:l計算集群:主要用于單一大規(guī)模作業(yè)的集體計算。當單一計算作業(yè)需要集群中節(jié)點間的頻繁通信,該集群必須共享一個專用網(wǎng)絡(luò),因而這些節(jié)點大多是同構(gòu)和緊耦合的。這種類型的集群也被稱為貝奧武夫集群。當集群需要在少量重負載節(jié)點間通信時,其從本質(zhì)上就是眾所周知的計算網(wǎng)格。緊耦合計算集群用于超級計算應(yīng)用。 l高可用性集群:用于容錯和實現(xiàn)服務(wù)的高可用性。高可用性集群中有很多冗余節(jié)點以容忍故障或失效。 l負載均衡集群:通過使集群中所有節(jié)點的負載

7、均衡而達到更高的資源利用。可以在不同機器間平衡負載,從而達到更高的資源利用或性能。 Computer School, NUDT. Spring, 201310Figure 2.1 Architectural share of the Top-500 systems (Courtesy of 25)Computer School, NUDT. Spring, 201311圖2-2 Top500超級計算機的性能變化曲線(19932010) Computer School, NUDT. Spring, 201312Computer School, NUDT.

8、 Spring, 201313Computer School, NUDT. Spring, 201314圖2-3 前5名超級計算機的能耗和性能(2010年11月)Computer School, NUDT. Spring, 2013152.2 計算機集群和MPP體系結(jié)構(gòu)基本集群體系結(jié)構(gòu)圖2-4 由商用硬件、軟件、中間件和網(wǎng)絡(luò)組件構(gòu)成的計算機體系結(jié)構(gòu),支持HA和SSIComputer School, NUDT. Spring, 201316Resource Sharing in Cluster of Computers圖2-5 連接集群節(jié)點的三種方式(P/C:處理器和緩存;M:內(nèi)存;D:磁盤;N

9、IC:網(wǎng)卡;MIO:內(nèi)存-I/O橋)Computer School, NUDT. Spring, 201317節(jié)點結(jié)構(gòu)和節(jié)點結(jié)構(gòu)和MPPMPP封裝封裝:IBM BlueGeneIBM BlueGene/L Supercomputer:/L Supercomputer: The World Fastest Message-Passing MPP built in 2005The World Fastest Message-Passing MPP built in 2005 Computer School, NUDT. Spring, 201318集群系統(tǒng)互連 Computer School, N

10、UDT. Spring, 201319谷歌搜索引擎集群體系結(jié)構(gòu) Computer School, NUDT. Spring, 201320圖2-8 Top500系統(tǒng)高帶寬互連的分布情況 Computer School, NUDT. Spring, 201321圖2-9 InfiniBand系統(tǒng)構(gòu)造在典型高性能計算機集群中的應(yīng)用Computer School, NUDT. Spring, 201322硬件、軟件和中間件支持 Computer School, NUDT. Spring, 201323大規(guī)模并行GPU集群 圖2-11 實現(xiàn)Echelon系統(tǒng)的20Tflops和1.6TB/s內(nèi)存帶寬的

11、GPU芯片設(shè)計Computer School, NUDT. Spring, 201324圖2-12 由GPU層次網(wǎng)絡(luò)構(gòu)成的NVIDIA Echelon系統(tǒng)的體系結(jié)構(gòu),其中每個機柜可以提供2.6Pflops的性能,至少需要N=400個機柜才能實現(xiàn)所需的Eflops性能Computer School, NUDT. Spring, 201325CUDA并行編程nCUDA(Compute Unified Device Architecture,計算統(tǒng)一設(shè)備體系結(jié)構(gòu))由NVIDIA開發(fā),提供并行計算體系結(jié)構(gòu)。CUDA是NVIDIA GPU中的計算引擎,允許開發(fā)者通過標準程序語言訪問。程序員可以使用NVI

12、DIA擴展和受限的CUDA C。CUDA C通過PathScale Open64 C編譯器編譯,可以在大量GPU核上并行執(zhí)行。例2.4體現(xiàn)了在并行處理中使用CUDA C的好處。Computer School, NUDT. Spring, 2013262.3 計算機集群的設(shè)計原則單系統(tǒng)鏡像特征:l單一系統(tǒng) 用戶將整個集群作為一個多處理器系統(tǒng)。l單一控制 邏輯上,一個終端用戶或系統(tǒng)用戶在一個地方只能通過單一的接口使用服務(wù)。l對稱性 用戶可以從任意節(jié)點使用集群服務(wù)。除了受到訪問權(quán)限保護的部分,所有集群服務(wù)和功能對于所有節(jié)點和所有用戶是對稱的。l位置透明性 用戶并不了解什么位置的物流設(shè)備最后提供了服務(wù)

13、。Computer School, NUDT. Spring, 201327單系統(tǒng)鏡像(SSI)包括單一入口、單文件層次、單一I/O空間、單一網(wǎng)絡(luò)機制、單一控制點、單一作業(yè)管理系統(tǒng)、單一內(nèi)存空間和單一進程空間。 圖2-13 采用負載均衡的域名服務(wù)器(DNS)實現(xiàn)單一入口Computer School, NUDT. Spring, 201328圖2-14單文件層次中存儲的三種類型。實線表示進程P可以訪問,虛線表示P可能被允許訪問Computer School, NUDT. Spring, 201329圖2-15具有單一網(wǎng)絡(luò)連接、單一I/O空間、單一內(nèi)存和單點控制的集群Computer Schoo

14、l, NUDT. Spring, 201330SSI的最終目標是使得集群如同臺式計算機一樣易于使用,SSI額外特征:l單一作業(yè)管理系統(tǒng) 所有集群作業(yè)能夠由任意節(jié)點提交到單一作業(yè)管理系統(tǒng)。l單一用戶接口 用戶通過單一圖形界面使用集群。l單一進程空間 各節(jié)點的所有用戶進程形成單一進程空間,并且共享統(tǒng)一進程認證機制。lSSI集群化的中間件 在集群應(yīng)用的三個層次上,中間件支持各種SSI特征。Computer School, NUDT. Spring, 201331l管理級 該級處理用戶應(yīng)用程序,并且提供作業(yè)管理系統(tǒng)。l編程級 該級提供單一文件層次(NFS、xFS、AFS、Proxy)和分布式共享內(nèi)存l

15、實現(xiàn)級 該級支持單一進程空間、檢查點機制、進程遷移和單一I/O空間。Computer School, NUDT. Spring, 201332圖2-16 在連接到集群中4個主機的12個分布式磁盤之上具有單一I/O空間的分布式RAID體系結(jié)構(gòu) Computer School, NUDT. Spring, 201333圖2-17 在作業(yè)管理、編程和實現(xiàn)級上集群化中間件的關(guān)系Computer School, NUDT. Spring, 201334冗余高可用性l可靠性根據(jù)系統(tǒng)不發(fā)生故障的運行時間衡量。l可用性表示系統(tǒng)對用戶可用的時間百分比,即系統(tǒng)正常運行的時間百分比。l可服務(wù)性與服務(wù)系統(tǒng)的容易程度相

16、關(guān),包括硬件和軟件維護、修復(fù)、升級等。Computer School, NUDT. Spring, 201335Computer School, NUDT. Spring, 201336圖2-19 SMP和三個集群中的單點失效(SPF),由a到d,其中冗余越大,消除的單點失效也越多Computer School, NUDT. Spring, 201337容錯集群配置l熱備份服務(wù)器集群 只有主要節(jié)點積極完成所有有用的工作。備份節(jié)點啟動(熱)和運行一些監(jiān)控程序來發(fā)送與接收心跳信號以檢測主要節(jié)點的狀態(tài),但并不積極運行其余有價值的工作。l主動接管集群 多個服務(wù)器節(jié)點的體系結(jié)構(gòu)是對稱的。兩個服務(wù)器都是主

17、要的,正常完成有價值的任務(wù)。兩個服務(wù)器節(jié)點通常都支持故障切換和恢復(fù)。l故障切換集群 當一個組件失效時,該技術(shù)允許剩余系統(tǒng)接管之前由失效組件提供的服務(wù)。故障切換機制必須提供一些功能,如失效診斷、失效通知和失效恢復(fù)。 Computer School, NUDT. Spring, 201338檢查點和恢復(fù)技術(shù)l檢查點和恢復(fù)這兩種技術(shù)必須共同發(fā)展,才能提高集群系統(tǒng)的可用性。l某個進程周期性地保存執(zhí)行程序的狀態(tài)至穩(wěn)定存儲器,系統(tǒng)在失效后能夠根據(jù)這些信息得以恢復(fù)。l每一個被保存的程序狀態(tài)稱為檢查點。包含被保存狀態(tài)的磁盤文件稱為檢查點文件。雖然目前所有的檢查點軟件在磁盤中保存程序狀態(tài),但是使用節(jié)點內(nèi)存替代穩(wěn)

18、定存儲器來提高性能還處在研究階段。Computer School, NUDT. Spring, 2013392.4 集群作業(yè)和資源管理集群作業(yè)調(diào)度方法l集群作業(yè)可能在一個指定的時間(日歷調(diào)度),或者在特定事件發(fā)生(事件調(diào)度)時被調(diào)度運行。l根據(jù)提交時間、資源節(jié)點、執(zhí)行時間、內(nèi)存、磁盤、作業(yè)類型及用戶認證的優(yōu)先級,作業(yè)被調(diào)度。l靜態(tài)優(yōu)先級指的是根據(jù)預(yù)定的方案,作業(yè)被分配的優(yōu)先級。l為用戶分配不同的優(yōu)先級,而作業(yè)的動態(tài)優(yōu)先級可能會隨時間發(fā)生變化。Computer School, NUDT. Spring, 201340Computer School, NUDT. Spring, 201341圖2-

19、22 用于集群節(jié)點上作業(yè)調(diào)度的瓷磚式覆蓋技術(shù)減少了整體時間,因此增加了作業(yè)吞吐量Computer School, NUDT. Spring, 201342集群作業(yè)管理系統(tǒng) 作業(yè)管理也稱為負載管理或負載共享。作業(yè)管理系統(tǒng)(Job Management System,JMS)具有三部分:l用戶服務(wù)器:提交用戶作業(yè)至一個或多個隊列,為每個作業(yè)指定資源需求,將作業(yè)從隊列中刪除,以及詢問作業(yè)或隊列的狀態(tài)。l作業(yè)調(diào)度器:根據(jù)作業(yè)類型、資源需求、資源可用性和調(diào)度策略,執(zhí)行任務(wù)調(diào)度和排隊。l資源管理器:分配和監(jiān)控資源,執(zhí)行調(diào)度策略,以及收集統(tǒng)計信息。Computer School, NUDT. Spring,

20、 201343集群計算的負載共享設(shè)備(LSF)lLSF是平臺計算中的商用負載管理系統(tǒng)。l在并行作業(yè)和串行作業(yè)中,LSF強調(diào)作業(yè)管理和負載共享。l它還支持檢查點、可用性、負載遷移和單系統(tǒng)鏡像。lLSF具有高擴展性,并且能夠支持上千個節(jié)點的集群。lLSF服務(wù)于各種UNIX和Windows/NT平臺。目前,LSF不僅在集群中使用,也在網(wǎng)格和云中使用。 Computer School, NUDT. Spring, 201344MOSIX: Linux集群和云的操作系統(tǒng) MOSIX由希伯來大學在1977年開發(fā),是一個分布式操作系統(tǒng)。在1999年,該系統(tǒng)被重新設(shè)計,運行在x86平臺的Linux集群上l用戶可以從任何節(jié)點登錄l沒有必要修改應(yīng)用程序或鏈接應(yīng)用程序至特殊庫。l沒有必要復(fù)制文件至遠程節(jié)點l用戶能夠平衡負載,從較慢節(jié)點遷移至快速節(jié)點l關(guān)于遷移進程直接通信的套接字也是可遷移的。l該系統(tǒng)以客戶進程的安全運行時環(huán)境為特征。l該系統(tǒng)能夠運行批量作業(yè),并可以通過檢查點恢復(fù)Computer School, NUDT. Spring, 201345Computer School, NUDT. Spring, 201346Figure 2.4 Country share of the Top-50

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論