版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)
文檔簡介
1、高性能計算機集群平臺方案建議書目 錄一、項目技術(shù)方案91.硬件技術(shù)方案91)概述92)需求分析10a)計算能力需求11b)存儲能力需求11c)節(jié)點互聯(lián)需求11d)優(yōu)化工具11e)技術(shù)最新、運行穩(wěn)定性方面的需求12f)管理簡單、維護方便方面的需求123)系統(tǒng)設計原則124)系統(tǒng)方案拓撲圖155)方案詳細說明15a)管理節(jié)點15b)gpu計算節(jié)點16c)存儲系統(tǒng)16d)管理網(wǎng)絡16e)計算網(wǎng)絡162.軟件技術(shù)方案171)需求分析172)軟件概述183)系統(tǒng)架構(gòu)194)產(chǎn)品功能21a)系統(tǒng)部署21b)chess web portal21c)用戶管理22d)權(quán)限設定22e)chess集群管理22f)c
2、hess作業(yè)調(diào)度23g)chess集群監(jiān)控28h)chess集群報表30i)chess定制化功能32j)chess備份還原系統(tǒng)32k)按需開關(guān)機32l)計算資源登錄控制33m)無盤集群335)方案特點與優(yōu)勢33二、設備及產(chǎn)品介紹363.設備主要技術(shù)指標和性能的詳細說明361)集群操作系統(tǒng)362)集群管理軟件363)并行環(huán)境384.技術(shù)規(guī)格與參數(shù)說明395.配置明細表426.所投設備重要性能說明451)存儲讀寫速度457.集群管理軟件穩(wěn)定性比較468.hpl基準測試報告47一、測試過程48二、測試結(jié)論491.hpl.out492.測試結(jié)論52三、技術(shù)服務方案與項目實施方案539.投標人對任務的理
3、解5310.本項目實施團隊主要人員簡歷表5711.人員分工6312.設備供貨、驗收、安裝、調(diào)試計劃及保證措施641)硬件設備安裝65a)供貨機房要求65b)機房場地要求65c)設備擺放要求67d)設備搬運要求69e)安全預防措施69f)噪聲考慮70g)機房環(huán)境規(guī)劃70h)設備供電要求73i)機房輔助設備要求752)安裝和調(diào)試75a)項目初步實施計劃及時間安排75b)產(chǎn)品的交付783)產(chǎn)品驗收78a)設備的開箱和檢驗78b)設備到貨與初驗78c)設備初始測試79d)硬件設備的驗收步驟80e)軟件產(chǎn)品和驗收814)項目實施安裝前準備81a)安裝場所的準備階段81b)設備安裝及配置方案制定825)產(chǎn)
4、品安裝82a)現(xiàn)場的硬件安裝服務826)現(xiàn)場的硬件調(diào)試837)配合其他廠商、應用軟件廠商安裝調(diào)試838)軟件部署規(guī)劃與實施方案83a)實施計劃83b)實施準備83c)硬件系統(tǒng)84d)軟件系統(tǒng):85e)維護869)軟件產(chǎn)品實施87a)存儲系統(tǒng)87b)集群管理與作業(yè)調(diào)度軟件87c)并行庫軟件90d)應用軟件集成90e)系統(tǒng)備份90f)安裝后驗證9010)軟件產(chǎn)品調(diào)試91a)hpl 調(diào)試91b)iozone調(diào)試92c)支撐環(huán)境調(diào)試9311)軟件驗收方案93a)項目基本情況93b)項目進度審核94c)項目驗收計劃94d)項目驗收原則94e)項目驗收內(nèi)容94f)項目驗收情況匯總96g)項目驗收附件明細9
5、6h)開發(fā)單位項目實施總結(jié)101i)使用單位意見10213.測試方案1021)系統(tǒng)測試目標1022)hp集群測試計劃103a)連通性測試103b)nis功能測試103c)ntp時間服務測試104d)cpu穩(wěn)定性測試104e)cpu浮點運算測試1043)網(wǎng)絡性能測試105a)網(wǎng)絡性能測試105b)8.4.2 網(wǎng)絡延遲測試10514.實施質(zhì)量控制和管理措施1081)重點提示1082)項目管理工具1083)項目組織結(jié)構(gòu)及崗位責任1124)總指揮部職能、責任簡介1125)工程部職能、職責簡介1126)合同執(zhí)行部職能、職責簡介1147)階段成果的交付及確認1148)項目變更管理1159)溝通管理116a
6、)項目中的溝通116b)會議116c)情況通報會議116d)解決問題會議116e)合理化建議階段評審會議117f)報告117g)客戶評價管理11910)質(zhì)量保證程序119a)重點提示119b)質(zhì)量管理規(guī)范與標準120c)項目質(zhì)量保證策劃120d)質(zhì)量度量120e)質(zhì)量考核121f)過程監(jiān)控與階段評審121g)系統(tǒng)測試與驗收121h)配置管理122i)文檔管理123j)獨立的項目審計12311)貨物安裝、驗收標準123a)到貨驗收123b)初步驗收:124c)最終驗收12415.技術(shù)支持及培訓方案1291)北京科技股份有限公司培訓方案1292)紫光華山硬件培訓方案130a)現(xiàn)場培訓130b)集中
7、培訓131c)hp cmu及proliant系列服務器培訓課程1313)聯(lián)科軟件培訓方案131a)培訓目的131b)現(xiàn)場培訓132c)培訓內(nèi)容1324)培訓質(zhì)量保證134a)培訓策略134b)培訓過程管理13516.售后服務方案1378.1 本項目售后服務承諾1378.2 公司售后服務內(nèi)容1378.3 售后服務體系147a)服務體系說明148b)分支機構(gòu)和服務組織結(jié)構(gòu)149c)標準服務流程150d)巡檢及健康檢查流程150e)故障處理流程153f)技術(shù)支持流程156g)現(xiàn)場服務流程162h)重大故障處理流程163i)備品備件流程166j)故障事件總結(jié), 統(tǒng)計分析 報告流程169k)設備,軟件,
8、 微碼以及相關(guān)補丁, 升級流程171一、 項目技術(shù)方案1. 硬件技術(shù)方案1) 概述高性能計算技術(shù)是網(wǎng)格計算技術(shù)的一種應用特例。網(wǎng)格計算是伴隨著互聯(lián)網(wǎng)技術(shù)而迅速發(fā)展起來的,專門針對復雜科學計算的新型計算模式。這種計算模式利用網(wǎng)絡把分散在不同地理位置的電腦組織成一個“虛擬的超級計算機”,其中每一臺參與計算的計算機就是一個“節(jié)點”,整個計算是由成千上萬個“節(jié)點”組成的“一張網(wǎng)格”, 所以這種計算方式叫網(wǎng)格計算。這樣組織起來的“虛擬的超級計算機”有兩個優(yōu)勢,一個是數(shù)據(jù)處理能力超強;另一個是能充分利用網(wǎng)上的閑置處理資源且具極強的擴展性。網(wǎng)格是把整個網(wǎng)絡整合成一臺巨大的超級計算機,實現(xiàn)計算資源、存儲資源、
9、數(shù)據(jù)資源、信息資源、知識資源、專家資源的全面共享。高性能計算是網(wǎng)格計算領(lǐng)域的一個十分有意義的局域網(wǎng)應用實例,基于以太網(wǎng)、sci或infiniband及myrinet等互聯(lián)技術(shù),在局域網(wǎng)內(nèi)實現(xiàn)并行多任務應用的計算。在優(yōu)化的通訊庫mpi技術(shù)已經(jīng)成熟應用的今天,可以在基于以太網(wǎng)的高性能計算系統(tǒng)中,計算數(shù)據(jù)的傳輸帶寬最小保證1000m bps, 傳輸延遲小于5s(微秒),可以在基于infiniband互聯(lián)技術(shù)的高性能計算系統(tǒng)中,計算數(shù)據(jù)的傳輸帶寬可以保證56gb/s。高性能計算涉及為集群開發(fā)并行編程應用程序,以解決復雜的科學計算問題。是并行計算的基礎,它采用通過高速連接來鏈接的一組1/2/4/8 cp
10、u的ia服務器,并且在公共消息傳遞層上進行通信以運行并行應用程序。這樣的計算集群,其處理能力與真正超級并行機相等,并且具有優(yōu)良的性價比。高性能計算主要可分為科學計算、高端商用計算和高可用集群三類隨著國內(nèi)外尖端理論技術(shù)的快速發(fā)展,對數(shù)據(jù)處理技術(shù)也提出了新要求,需要采用許多新的花費更多cpu的模塊,如vasp、molpro、adf等。目前,國內(nèi)數(shù)據(jù)處理生產(chǎn)使用的系統(tǒng)一般包括有unix小型機、pc cluster集群并行機、unix工作站集群和linux pc圖形工作站群等多種平臺,其中由于價格和性能等因素使pc cluster服務器被越來越多的用戶所采用。基于ia架構(gòu)的pc 集群服務器是伴隨著計算
11、機芯片技術(shù)、網(wǎng)絡技術(shù)、集成技術(shù)和linux的發(fā)展而出現(xiàn)的新產(chǎn)品。隨著cpu性能的提高,利用網(wǎng)絡技術(shù)和集成技術(shù),將多臺同構(gòu)或異構(gòu)的計算機連接起來協(xié)同完成特定的任務,構(gòu)成基于linux操作系統(tǒng)平臺的pc集群高性能服務器。這種高性能服務器比基于unix超級并行計算機性能價格比更為優(yōu)越以及在可用性、可擴展性和可管理性等方面的具有優(yōu)勢。產(chǎn)品已經(jīng)在基于計算節(jié)點型及網(wǎng)絡計算型的科學計算領(lǐng)域有所應用。2) 需求分析作為高性能運算應用的主要領(lǐng)域理論科學研究,數(shù)據(jù)處理系統(tǒng)是一個要求計算機系統(tǒng)運算性能、運行穩(wěn)定性極高的計算環(huán)境。這種科研計算環(huán)境隨著理論計算工具不斷更新,計算能力、計算深度的不斷提升以及信息技術(shù)的不斷
12、從實驗室走向生活、生產(chǎn),迫使各大科研構(gòu)須不斷采用性能優(yōu)異、技術(shù)先進、價格便宜的高性能計算機處理系統(tǒng)組建試驗平臺。根據(jù)目前高性能計算環(huán)境性能和價格方面的要求,針對科研院所應用的特點從技術(shù)上主要進行了如下詮釋:(1)使用運算性能極高的集群計算機系統(tǒng)(pc cluster)來提升處理中心的計算能力,配備單節(jié)點高性能處理器及大容量內(nèi)存,組建節(jié)點計算型hpc系統(tǒng)。滿足各種節(jié)點運算量極大的特殊處理算法需求的同時,極大地降低總體擁有成本。由此采用大規(guī)模計算機處理系統(tǒng)進行特殊運算的需求已經(jīng)轉(zhuǎn)變成采用性能高、價格便宜的計算機集群系統(tǒng)來實現(xiàn)。(2)基于節(jié)點運算型的hpc系統(tǒng),其節(jié)點承載的數(shù)據(jù)量非常小,生產(chǎn)周轉(zhuǎn)數(shù)據(jù)
13、及產(chǎn)生的數(shù)據(jù)量完全保存在其內(nèi)存中,從而加快節(jié)點處理能力,所以單節(jié)點的數(shù)據(jù)存儲要求非常小。(3)國內(nèi)外專用的基于高性能運算的處理軟件基本上都有了pc cluster的版本并且趨于非常成熟。a) 計算能力需求公司構(gòu)建的高性能計算機系統(tǒng)主要應用于有限元分析,利用abaqus有限元分析軟件進行大規(guī)模的計算求解,根據(jù)用戶測試客戶應用abaqus在gpu環(huán)境下求解具有較高的計算能力,可獲得大規(guī)模的計算性能的提升,本次項目中采用gpu計算服務器構(gòu)建整個機器的計算能力。b) 存儲能力需求隨著計算機科學技術(shù)的快速發(fā)展,高性能計算已經(jīng)逐漸成為科學研究所必須的輔助工程。這些高性能計算應用中,計算機集群面臨的挑戰(zhàn)往往
14、不僅是集群大規(guī)模并行計算的運算能力,對于存儲的需求同樣不可忽視。在高性能計算應用中,經(jīng)常需要短時讀寫大批量的數(shù)據(jù),這對存儲系統(tǒng)的性能,尤其是大規(guī)模并行作業(yè)同時存取大量數(shù)據(jù)時的i/o性能,會提出很高要求。公司技術(shù)中心的高性能計算集群系統(tǒng)客戶的應用需要的頻繁的存儲讀寫,對存儲能力提出較高的要求。c) 節(jié)點互聯(lián)需求高性能計算平臺中包括管理網(wǎng)絡與計算網(wǎng)絡,管理網(wǎng)絡帶寬較小,對網(wǎng)絡損耗并不大,通??蛇x用千兆網(wǎng)絡,計算網(wǎng)絡需具備高帶寬與低延遲的網(wǎng)絡,保證計算效率。d) 優(yōu)化工具英特爾提供的fortran和c+編譯器針對英特爾至強處理器和英特爾安騰處理器進行了專門優(yōu)化。英特爾編譯器支持最新的體系結(jié)構(gòu)增強特性
15、,如sse3、超線程和英特爾酷睿微體系結(jié)構(gòu)等。此外,編譯器還具有先進的優(yōu)化特性:外形優(yōu)化、程序間優(yōu)化和整體程序優(yōu)化。英特爾編譯器在hpc領(lǐng)域有重要作用,在許多項目的測試實施中,我們發(fā)現(xiàn)如果用英特爾編譯器來編譯hpc mpi和應用軟件,與用gnu等編譯器相比,性能有一定幅度的提升。英特爾vtune性能分析器有助于提高用戶的工作效率。它可識別熱點并提出代碼改進意見,從而有助于提高代碼性能和縮短代碼實施時間。e) 技術(shù)最新、運行穩(wěn)定性方面的需求hpc計算機系統(tǒng)是一個要求采用最新技術(shù)解決專業(yè)應用復雜的科研系統(tǒng),由于其本身應用的特點要求整套計算機系統(tǒng)運行必須穩(wěn)定、技術(shù)必須成熟。這種運行穩(wěn)定性包括計算機系
16、統(tǒng)與專業(yè)軟件系統(tǒng)之間的配合的穩(wěn)定性、計算機系統(tǒng)本身的技術(shù)成熟性等諸多內(nèi)容。f) 管理簡單、維護方便方面的需求計算機集群系統(tǒng)是一個由多個節(jié)點組成、采用多種并行計算技術(shù)構(gòu)成的復雜的計算機系統(tǒng),這種集群計算機系統(tǒng)要想實現(xiàn)穩(wěn)定、高性能的處理作業(yè),不僅要解決各節(jié)點之間的通訊和延遲,而且還必不可少地有高效、界面豐富、維護容易的管理和診斷軟件。各個廠家生產(chǎn)的pc cluster系統(tǒng)對系統(tǒng)管理與監(jiān)控是不一致的。簡單利用一些pc機進行互連,沒有精確的連接工藝是很難保證系統(tǒng)穩(wěn)定運行的。3) 系統(tǒng)設計原則鑒于用戶所承擔的重要任務,本方案建設不但要有高性能、高穩(wěn)定性、高可靠性、可擴展性的特點,同時技術(shù)起點要高,建成后
17、系統(tǒng)應在盡量長的時間內(nèi)具有可用性。根據(jù)項目實際需求,在系統(tǒng)設計原則及選型配置時應以滿足當前的應用需求為基礎,并具有良好的擴充能力,從實際應用和目前服務器技術(shù)發(fā)展趨勢來看,方案設計中應始終堅持以下原則:u 集成性最新技術(shù)的服務器集群系統(tǒng),由6臺服務器節(jié)點組成,在管理、節(jié)點的安裝、監(jiān)控任務方面存在相當大的要求,集群系統(tǒng)的設計如果能夠提供一個整體的解決方案,使得集群系統(tǒng)的管理像單個服務器那樣,是本方案設計的一個宗旨。u 高性能在高性能計算領(lǐng)域,使用者絕大部分應用程序是運行在64位處理器以上,所以我們真正關(guān)心的服務器在多個處理器下的并行運行性能,也就是服務器的加速能力。u 先進性計算機技術(shù)的發(fā)展一日千
18、里,新技術(shù)層出不窮,自然會有舊的技術(shù)和產(chǎn)品被淘汰。因此在制定方案時應充分考慮其先進性,使整個系統(tǒng)不僅滿足用戶目前業(yè)務的需要,還能適應未來技術(shù)發(fā)展的趨勢和需要,。u 擴展性目前的系統(tǒng)配置方案不僅能提供單節(jié)點較高的運算能力及整體效率,還應考慮到將來可根據(jù)業(yè)務需求和技術(shù)發(fā)展特點方便地增加節(jié)點。例如,所有設備通過特殊互連設備或高速/超高速網(wǎng)絡進行連接,可由幾個節(jié)點迅速而方便地擴充至幾十個或上千個節(jié)點的超級計算機系統(tǒng)。u 靈活性與成本低投入目前的系統(tǒng)配置方案科學客觀的根據(jù)當前對需求節(jié)點的數(shù)量和規(guī)模,制定合理的符合科學計算要求的互聯(lián)網(wǎng)絡方式,而非刻意的通過付出大量成本來追高,追強。目前配置中的集群計算網(wǎng)絡
19、和節(jié)點配置具有較大的靈活性,系統(tǒng)節(jié)點可支持機架式服務器或,支持多種互連方式,在單機性能和節(jié)點數(shù)量上都可靈活擴展,能夠適應業(yè)務和技術(shù)發(fā)展需要。如:在當前配置下,通過千兆互聯(lián)技術(shù)連接,將來可根據(jù)業(yè)務增長和技術(shù)發(fā)展,因此系統(tǒng)建設的入門成本較低。u 開放性和工業(yè)標準系統(tǒng)方案應采用開放標準,開放結(jié)構(gòu),開放系統(tǒng)組件和開放用戶接口。標準化的支持和遵循對用戶的投資保護,業(yè)務擴展,系統(tǒng)維護等方面具有十分重要的意義,不能因為某項技術(shù)或產(chǎn)品的變化,而使用戶的應用系統(tǒng)不能正常運行或重新開發(fā)。高性能計算牽涉用戶端的開發(fā)和編程,這就要求集群硬件體系應該采用工業(yè)標準的開放型架構(gòu),而非某個廠商私有的體系結(jié)構(gòu),私有的硬件體系結(jié)
20、構(gòu)會導致二進制代碼不兼容以及軟件代碼移植成本上揚。u 可靠性整體系統(tǒng)應確保穩(wěn)定,正常,連續(xù)地運營,7*24小時永不停頓的運行是支撐整個用戶業(yè)務系統(tǒng)的關(guān)鍵保證,這就對系統(tǒng)主機,網(wǎng)絡設備,存儲設備甚至集群提出了很高的要求。u 豐富的系統(tǒng)與應用軟件支持hp公司與高性能計算方面的獨立軟件開發(fā)商緊密合作。例如:chess,red hat,msc,kai,etnus,pallas,platform, 不僅提供處理節(jié)點間的協(xié)調(diào)和通信的中間件,使整個系統(tǒng)節(jié)點能夠真正實現(xiàn)合作負載均衡,還能針對不同應用需求,提供一系列并行計算應用。惠普在對重要的客戶需要進行了廣泛深入的調(diào)查后,認識到市場需要按需計算、快速的硬件和
21、軟件部署,可擴展的管理,以及空間和功率效率。此次市場調(diào)查后,惠普開發(fā)了全面的工業(yè)標準服務器系列,這些服務器具有共同的接口,適用于需要從前端服務器到更高性能的中層和后端服務器的所有設備的多層次計算環(huán)境。這些解決方案是適應型基礎設施架構(gòu)不可分割的組成部分,這是惠普提高客戶應對市場變化,節(jié)省資源和降低運營成本,提高客戶滿意度的能力的藍圖。這些解決方案的目標市場包括大企業(yè)客戶和服務提供商,他們需要it 組織提供高級別的靈活性和效率,以獲得更好的總體it投資回報?;萜盏牟呗允翘峁┛蛻艨梢匝杆倥c現(xiàn)有的傳統(tǒng)服務器和存儲設備一起部署在標準機架中的模塊化服務器,同時支持按需計算所要求的資源的快速重新分配。根據(jù)用
22、戶的需求,在本次方案中,我們采用惠普機架式服務器做為計算節(jié)點。整個系統(tǒng)提供廣泛的工業(yè)標準解決方案,可有效地滿足客戶需要,面向特定的客戶要求?;萜赵O計這些新的機架式服務器,即現(xiàn)在的服務器的策略要素包括下列目標: n創(chuàng)建新的模塊化服務器架構(gòu),采用無需工具的機械設計,熱插拔組件,增加系統(tǒng)冗余、功率和空間效率,集成虛擬存在和控制功能。 n基于創(chuàng)新的工業(yè)標準技術(shù)構(gòu)建。 n設計一種架構(gòu),該架構(gòu)通過支持下一代機架式服務器,不僅能夠保護客戶在現(xiàn)有基礎架構(gòu)和硬件上的it 投資,而且還能保護他們在新的機架式服務器架構(gòu)上的投資。 n虛擬存在:安全、隨時隨地地遠程訪問和管理數(shù)據(jù)中心或網(wǎng)絡及其它任何地方的設備。 n通過
23、模塊化和簡化的備件存貨提高可維護性。 n創(chuàng)建共同的管理接口,提供隨時隨地的管理訪問。 n支持當前版本的主流操作系統(tǒng):microsoft windows、redhat linux和suse linux。4) 系統(tǒng)方案拓撲圖5) 方案詳細說明a) 管理節(jié)點管理節(jié)點是整套集群系統(tǒng)的大腦,肩負著對整套集群系統(tǒng)管理的工作,并為用戶提供登陸系統(tǒng)的服務。通過在管理節(jié)點上部署集群監(jiān)控軟件、作業(yè)調(diào)度軟件,才能為用戶提供統(tǒng)一的用于監(jiān)控管理、作業(yè)調(diào)度的人機交互界面,方便用戶對集群系統(tǒng)的維護和使用。因此管理節(jié)點的安全與穩(wěn)定對于系統(tǒng)正常運行起著至關(guān)重要的作用。選擇hp hpe 3par 兩節(jié)點高密服務器作為管理節(jié)點并配
24、置每個計算節(jié)點配置2顆intel xeon e5-2690v4處理器2.6ghz,每節(jié)點14個cpu內(nèi)核。hp hpe 3par服務器作為系統(tǒng)的登錄與管理節(jié)點,用于作業(yè)遞交和系統(tǒng)管理。計算網(wǎng)絡和磁盤i/o通過infiniband 56gb網(wǎng)絡互聯(lián)保證工作效率。b) gpu計算節(jié)點作為整套集群的主體結(jié)構(gòu),計算節(jié)點是整套系統(tǒng)的基礎,其性能直接決定了整套系統(tǒng)的整體性能。為此,我們這次采用基于全新的 22nm 的 intel e5-2600 v4 處理器。其憑著架構(gòu)上的進步,在相同的芯片大小下能容納更多的運算核心, 使得 cpu 具有10個或14個運算核心;并且支持了 avx 2.0指令集, 每個時鐘
25、周期的浮點運算次數(shù)有原來的8次提升為16次,從而使其浮點運算性能翻倍提升;同時功耗表現(xiàn)亦得到改善。本方案中選用hp dl380g9服務器作為高性能計算系統(tǒng)的gpu計算節(jié)點。每個計算節(jié)點配置2顆intel xeon e5-2690v4處理器2.6ghz,每節(jié)點14個cpu內(nèi)核。配置gpu k80加速卡,5臺計算節(jié)點組成的高性能計算系統(tǒng)就可以滿足用戶的相應技術(shù)要求。c) 存儲系統(tǒng)本方案中的存儲系統(tǒng)采用hp hpe 3par 高性能計算專用存儲陣列,以確保高性能計算集群的數(shù)據(jù)能快速地讀寫,也確保整個平臺數(shù)據(jù)的安全性。存儲包含6塊1.92tb的ssd高速閃存硬盤以及14塊4t近線sas硬盤。將熱數(shù)據(jù)分
26、離存放,大大提高了文件的讀寫性能,同時保證系統(tǒng)的可用性。d) 管理網(wǎng)絡為所有節(jié)點之間的管理和訪問信息,以及任務分發(fā)等功能,可提供千兆以太網(wǎng)鏈路即可滿足用戶管理需求,承載運行集群的管理、調(diào)度的網(wǎng)絡通訊信號。e) 計算網(wǎng)絡計算網(wǎng)絡肩負著節(jié)點機之間相互通信的任務。對于大規(guī)模的計算任務,若要大幅度提高計算速度,并行計算是唯一的解決方法,而隨著 cpu 技術(shù)和內(nèi)存技術(shù)的不斷發(fā)展,單節(jié)點的計算能力不斷增強,而在并行計算過程中,節(jié)點間的通信越來越頻繁,數(shù)據(jù)量也越來越大,因此,為了能最大限度地發(fā)揮各個節(jié)點間的最大性能,網(wǎng)絡的帶寬和延遲都要求很高。infiniband 高速專用網(wǎng)絡的主要特點是高帶寬、低時延、系
27、統(tǒng)擴展性好(可輕松實現(xiàn)完全無擁塞的數(shù)萬端設備的互聯(lián))。另外 infiniband 標準支持 rdma(remote direct memory access),使得在使用 infiniband構(gòu)筑服務器、存儲器網(wǎng)絡時比萬兆以太網(wǎng)以及 fibre channel 具有更高的性能、效率和靈活性。每臺計算節(jié)點、登錄節(jié)點之間采用主流的infiniband連接,保證系統(tǒng)的通信性能和節(jié)點的計算性能相匹配。2. 軟件技術(shù)方案1) 需求分析高性能計算集群環(huán)境中節(jié)點眾多,應用環(huán)境復雜,使用人數(shù)較多,需要一套專業(yè)、簡易的集群管理軟件對集群進行系統(tǒng)的管理、配置、維護,方便用戶提交作業(yè)。聯(lián)科chess是一套成熟高性能
28、計算集群管理軟件,統(tǒng)一部署集群系統(tǒng),數(shù)百節(jié)點在幾小時內(nèi)便可完成對集群管理軟件、應用程序的部署,系統(tǒng)管理員與用戶可通過web界面對集群進行管理與使用。chess集群管理軟件主要包括集群管理、集群監(jiān)控、作業(yè)調(diào)度管理、作業(yè)提交、集群報表等功能模塊,系統(tǒng)管理員可根據(jù)用戶使用情況為每個用戶分配功能模塊,靈活使用,嚴格控制用戶權(quán)限,具有管理權(quán)限的用戶,可對單一節(jié)點或者批量執(zhí)行節(jié)點的開機、關(guān)機、刪除、允許提交作業(yè)、拒絕提交作業(yè)的操作,從web界面上設置共享文件,配置鏡像管理對節(jié)點進行數(shù)據(jù)的備份與恢復,確保集群的安全。高性能計算集群環(huán)境當中由于節(jié)點較多,系統(tǒng)管理員需要對節(jié)點的使用情況,節(jié)點狀態(tài)進行監(jiān)控,che
29、ss集群管理軟件的監(jiān)控子系統(tǒng),可直觀的顯示集群物理拓撲視圖,支持以機柜為基礎的集群物理拓撲方式,顯示節(jié)點的閑忙狀態(tài)和節(jié)點溫度。節(jié)點性能視圖中用戶可通過圖形方式,監(jiān)控當前節(jié)點各部件的狀態(tài),包括cpu平均使用率、內(nèi)存使用率、磁盤剩余量等,從網(wǎng)絡視圖中用戶可以一目了然的查看集群整體網(wǎng)絡運行情況,包括總體網(wǎng)絡吞吐率、單節(jié)點網(wǎng)絡吞吐率等,支持以太網(wǎng)和infiniband網(wǎng)絡,另外可設置報警閾值當集群出現(xiàn)故障時,chess監(jiān)控系統(tǒng)會采用郵件、頁面等多種報警方式進行報警,以便系統(tǒng)管理員及時的對節(jié)點故障恢復。集群管理系統(tǒng)中最核心的作業(yè)調(diào)度管理,使用是否得到直接關(guān)系到集群效率,chess作業(yè)調(diào)度管理模塊通過we
30、b頁面可實現(xiàn)對計算節(jié)點、隊列、調(diào)度策略、預留資源的配置,方便系統(tǒng)管理員對集群管理,并且支持多種調(diào)度策略,例如公平競爭,qos、搶占,輪循,回填,資源預留等,同時系統(tǒng)管理員可控制用戶(組)的權(quán)限,控制每個用戶(組)的磁盤配額以及資源限額,防止內(nèi)存溢出,過度消耗系統(tǒng)資源的情況出現(xiàn)。chess具有豐富的集群報表系統(tǒng),針對用戶或用戶組提供小時報、日報、月報和年報表。并在此基礎上提供相應的計費功能,并且可導出excel、pdf等不同格式的報表。chess集群管理軟件為普通用戶提供了高效、實用的作業(yè)提交方式,用戶可以采用多種方式進行作業(yè)提交,包括支持命令行、web界面、應用軟件集成界面、作業(yè)腳本和可執(zhí)行文
31、件,另外可從web頁面上進行vnc以及ssh的操作,方便用戶的使用。chess集群管理軟件還具有豐富的文件管理功能,通過web界面可進行瀏覽、新建、在線編輯、壓縮、解壓、上傳、下載等操作,方便用戶進行文件管理。除此之外,聯(lián)科在高性能計算集群系統(tǒng)軟件領(lǐng)域有十余年的經(jīng)驗,可為用戶完善其并行環(huán)境,幫助用戶安裝函數(shù)庫,編譯器,消息傳遞接口以及用戶的應用軟件,完成實施后還將為用戶進行l(wèi)inpack基準測試,評估用戶集群效率,進行系統(tǒng)調(diào)優(yōu),為用戶搭建一套完善、高效的高性能計算集群系統(tǒng)。2) 軟件概述chess v4.0(clustertech hpc environment software stack聯(lián)
32、科高性能計算管理平臺)是聯(lián)科自主研發(fā)的高性能集群軟件,可將松散堆疊的服務器變成一整套hpc集群系統(tǒng),實現(xiàn)集群資源統(tǒng)一部署、管理、監(jiān)控、調(diào)度和報表等,可大幅提高集群效率,簡化集群管理。chess v4.0由cui(clustertech user interface聯(lián)科用戶界面)、集群管理模塊、作業(yè)調(diào)度模塊、集群監(jiān)控模塊、集群部署模塊、集群報表模塊組成。cui是web portal基本模塊,其他各個功能模塊可以根據(jù)用戶需求自由組合。選用chess及其相關(guān)服務,可以幫助用戶部署操作系統(tǒng),安裝和調(diào)試集群軟件、應用環(huán)境和應用軟件,也就是提供從硬件設備之上,直到集群應用能運行起來的一整套軟件和服務。ch
33、ess v4.0新版特性主要有: 獨立的模塊化設計,可根據(jù)用戶需求自由組合; 可單獨設置各個模塊的用戶訪問權(quán)限; 支持ha,避免單點故障帶來的時間以及經(jīng)濟上不可逆轉(zhuǎn)的損失; 調(diào)度、監(jiān)控模塊支持移動終端; 通過web界面,連接節(jié)點的ssh和vnc界面; 豐富的報警信息,支持閾值自定義設置; 強大的文件管理功能; 支持ldap和nis用戶認證系統(tǒng); 自定義應用模板; 豐富的報表信息,可輸出pdf,excel等格式。3) 系統(tǒng)架構(gòu)高性能集群一般可以分為硬件層、系統(tǒng)軟件層、集群軟件層、應用環(huán)境層和應用層,chess及其相關(guān)服務涵蓋了硬件層以上、應用層以下的三層,即系統(tǒng)軟件層、集群軟件層和應用環(huán)境層,這
34、是保證hpc應用能在集群硬件設備上運行的基本條件,如下圖所示: 在集群軟件層,chess提供了集群部署、集群管理、集群監(jiān)控、作業(yè)調(diào)度、作業(yè)調(diào)度管理、集群報表等功能模塊,同時提供web portal實現(xiàn)界面交互操作,另外支持ha功能,避免產(chǎn)生單點故障,影響集群系統(tǒng)運行。這些功能集中管理和監(jiān)控cluster系統(tǒng)中所有節(jié)點的資源,實現(xiàn)了整個集群系統(tǒng)的單一系統(tǒng)映像,使用戶感覺只是在使用一臺高性能計算機。在應用環(huán)境層,chess的安裝過程可選的hpc工具集包含并行命令、調(diào)試調(diào)優(yōu)工具、消息傳遞庫、數(shù)學庫和編譯器,具體內(nèi)容如下表所示:功能工具并行命令dvt,dsh,pcp,distcc調(diào)試、調(diào)優(yōu)工具inte
35、l vtune ,intel trace collector/analyser, total view消息傳遞庫mpich,mpich2,mvapich,openmpi等數(shù)學庫intel mkl,lapack,scalapack,goto,blas編譯器gnu編譯器, intel 編譯器注:intel編譯器、intel mkl、intel vtune、intel trace collector/analyser和total view為商業(yè)軟件。4) 產(chǎn)品功能a) 系統(tǒng)部署在大規(guī)模的集群系統(tǒng)中,操作系統(tǒng)和軟件的部署一直都是令系統(tǒng)管理員十分苦惱的問題:工作單調(diào)重復,但工作量很大。chess中所集成
36、的快速部署系統(tǒng)可以幫助系統(tǒng)管理員快速、簡便地完成集群節(jié)點的操作系統(tǒng)和軟件的部署。在標準環(huán)境下,chess可在60分鐘內(nèi)完成128個節(jié)點的系統(tǒng)安裝與配置。chess的部署系統(tǒng)在軟件和硬件相結(jié)合的基礎上,通過集群中一臺預先安裝好操作系統(tǒng)的控制臺節(jié)點,自動完成對整個集群或者單個節(jié)點的操作系統(tǒng)安裝、應用軟件安裝以及整個集群的統(tǒng)一網(wǎng)絡配置和服務配置。chess的系統(tǒng)部署可根據(jù)用戶的需求靈活配置,比如以下內(nèi)容: 操作系統(tǒng)的版本選擇、安裝內(nèi)容、安裝順序 硬盤的磁盤分區(qū)和大小、文件系統(tǒng)類型 網(wǎng)絡的ip地址設置、網(wǎng)卡綁定 主機名解析方式靈活,命名規(guī)則可以是符合規(guī)范的任意字母、特定符號和任意數(shù)字的組合b) che
37、ss web portalchess web portal是chess的用戶交互操作界面,是通過cui (clustertech user interface聯(lián)科用戶統(tǒng)一登陸平臺)將集群管理、集群監(jiān)控、作業(yè)調(diào)度、作業(yè)調(diào)度管理、集群報表等各個功能模塊的界面統(tǒng)一起來,實現(xiàn)了聯(lián)科自主研發(fā)軟件的統(tǒng)一登陸,提供用戶管理和權(quán)限管理功能,管理員可以給用戶設置各個模塊的訪問權(quán)限。c) 用戶管理chess集群系統(tǒng)通過cui (clustertech user interface聯(lián)科用戶統(tǒng)一登陸平臺)新建、編輯用戶(組),設置個人家目錄,確認用戶隸屬于的組別。d) 權(quán)限設定chess集群系統(tǒng)通過cui (clus
38、tertech user interface聯(lián)科用戶統(tǒng)一登陸平臺)設置用戶權(quán)限,分配用戶可用的功能模塊,系統(tǒng)管理員可嚴格控制用戶權(quán)限。e) chess集群管理chess的集群管理通過瀏覽器(ie 10以上, google chrome ,firefox等)實現(xiàn)現(xiàn)場和遠程的集群管理和使用,包括節(jié)點管理、共享管理、鏡像管理和日志管理等功能。u 節(jié)點管理chess把節(jié)點分為管理、存儲、計算和登錄四種角色來管理,每種角色的節(jié)點可以根據(jù)角色的實際需要,啟動相應的服務。用戶通過web界面可以查看節(jié)點的基本信息,包括節(jié)點id、主機名、mac地址、ip地址、節(jié)點狀態(tài)、節(jié)點是否可提交作業(yè)狀態(tài)和節(jié)點類型等信息。用
39、戶也可以通過web界面對指定節(jié)點或所有節(jié)點做基本操作,包括開機、關(guān)機、設置鏡像、恢復鏡像、并行命令、拒絕作業(yè)、允許提交作業(yè)等操作。用戶可以直接從web界面上打開節(jié)點的vnc和ssh進行操作,無需其他第三方的登陸工具。u 共享管理通過chess集群管理可實現(xiàn)共享管理功能,用戶可通過web 界面創(chuàng)建共享目錄,編輯掛載點、刪除共享目錄等功能,無需后臺命令實現(xiàn)共享目錄管理,如下圖所示:u 鏡像管理chess可以通過web界面創(chuàng)建集群節(jié)點(登陸節(jié)點/存儲節(jié)點/計算節(jié)點)鏡像,實現(xiàn)節(jié)點系統(tǒng)的備份和恢復功能。同時,系統(tǒng)可以同時保持多個不同或相同的鏡像版本,從而實現(xiàn)多個鏡像的切換。u 日志管理chess集群日
40、志管理功能對并行命令、開關(guān)機情況、鏡像操作進行記錄,幫助系統(tǒng)管理員更加充分了解集群的使用情況。u 并行命令記錄:查看用戶使用并行命令的輸出結(jié)果;u 開關(guān)機記錄:查看用戶對某個節(jié)點的開機、關(guān)機操作的時間、處理狀態(tài)和處理結(jié)果;u 鏡像操作記錄:查看用戶創(chuàng)建鏡像操作類型、時間、以及創(chuàng)建節(jié)點。f) chess作業(yè)調(diào)度u 作業(yè)調(diào)度管理chess的資源管理和作業(yè)調(diào)度系統(tǒng)能合理、高效地管理系統(tǒng)中的所有軟硬件資源和用戶提交的作業(yè),最大化的提升集群系統(tǒng)的吞吐率和利用率。chess調(diào)度管理功能的web的界面功能(只有管理員用戶才可操作)包括: 作業(yè)列表、隊列列表和節(jié)點狀態(tài)查詢;調(diào)整任務調(diào)度和資源配置策略;查看和修
41、改服務器設置、隊列設置和節(jié)點設置;管理用戶提交的作業(yè)(殺掉作業(yè)、掛起作業(yè)和釋放作業(yè));配置調(diào)度策略,作業(yè)優(yōu)先級、資源分配優(yōu)化配置等;用戶/用戶組策略設置;資源預留配置。系統(tǒng)管理員具有作業(yè)調(diào)度管理功能,通過chess作業(yè)調(diào)度管理功能系統(tǒng)管理員可積極的調(diào)度策略優(yōu)化資源的利用和減少作業(yè)的響應時間,系統(tǒng)管理員可清晰查看到每個節(jié)點cpu的使用情況,并且通過配置資源管理器以及調(diào)度策略對集群系統(tǒng)進行優(yōu)化管理。系統(tǒng)管理員通過chess集群管理系統(tǒng)還可進行隊列的設置,節(jié)點設置,用戶(組)優(yōu)先級設置以及資源管理,使得復雜的集群資源調(diào)度管理變得簡單、統(tǒng)一、高效。u 作業(yè)提交系統(tǒng)管理員為普通用戶分配提交作業(yè)權(quán)限,普通
42、用戶即可通過web圖形界面提交作業(yè)。chess管理系統(tǒng)支持各種串行、并行應用程序以及應用程序自帶的資源管理和調(diào)度。下圖為chess的作業(yè)提交界面:普通用戶在提交作業(yè)時還可設置多種策略,指定節(jié)點提交作業(yè),設置作業(yè)輸出文件格式,設置作業(yè)運行時間以及作業(yè)開始、完成或退出時的提示警等信息。用戶將作業(yè)提交時的策略可保存為模板,以后提交作業(yè)時相同的設置可直接調(diào)用模板,為用戶提交作業(yè)提供極大的便利性。chess作業(yè)提交功頁面下能為普通用戶提供文件管理功能,用戶可通過chess文件管理功能,直接管理系統(tǒng)上的文件,對文件進行新建、編輯、上傳、下載、復制、剪切,粘貼,壓縮、解壓縮等功能,如下圖所示:u 作業(yè)調(diào)度策
43、略chess的作業(yè)調(diào)度系統(tǒng)支持任務間相關(guān)、自動文件傳送(file staging)、多個任務隊列、多種系統(tǒng)分組、多種任務優(yōu)先級策略和配置、多資源管理和任務高級預約、qos (quality of service,包括服務對象和資源,以及功能訪問控制)、可配置的節(jié)點分配策略、多種可配置的回填策略(backfill policies)、詳盡的系統(tǒng)診斷(system diagnostic)以及各種資源使用情況的跟蹤和統(tǒng)計。具體調(diào)度策略的配置有:1) 隊列設置:系統(tǒng)里面設置有不同的隊列,一旦作業(yè)從調(diào)度系統(tǒng)進入相應的隊列,將會被賦上該隊列的配置屬性(如作業(yè)需要的時間,內(nèi)存等)。同時隊列還可以控制某個用戶
44、可以提交到某個隊列,或者某個隊列只能使用某些節(jié)點資源等;2) 節(jié)點屬性配置:用戶可以根據(jù)節(jié)點自身的特性為節(jié)點配置不同的屬性,在混合異構(gòu)的集群中(新老不同配置的機器共存或機器之間使用不同互聯(lián)網(wǎng)),可以把節(jié)點劃分到不同的節(jié)點池中;3) 作業(yè)優(yōu)先級影響因子:包括作業(yè)來源(用戶、組、隊列、qos)、公平共享(用戶、組、隊列、qos的資源使用歷史記錄)、作業(yè)申請資源(節(jié)點數(shù)、core個數(shù)、內(nèi)存等)、服務級別(作業(yè)已經(jīng)在隊列系統(tǒng)中排隊的時間、作業(yè)排隊的時間和作業(yè)所需時間的比值、因作業(yè)回填而比該作業(yè)先運行的優(yōu)先級更低的作業(yè)的個數(shù))、目標服務級別(到目標排隊時間所剩的時間等);4) 用戶和用戶組的屬性配置:可
45、以為不同的用戶和用戶組配置不同的優(yōu)先級、不同的最大使用資源限制和所使用的qos;5) 作業(yè)回填:根據(jù)作業(yè)的各種屬性,chess可以計算出系統(tǒng)中作業(yè)的起始和結(jié)束時間,有些高優(yōu)先級的作業(yè)在某個起始時間之前無法獲取所有資源而無法運行,而在這個時間之前有可能會有某些計算節(jié)點處于空閑狀態(tài)。采用回填策略,可以在不影響高優(yōu)先級作業(yè)運行的前提下,將某些低優(yōu)先級的作業(yè)回填到這些空閑節(jié)點,從而提高系統(tǒng)的使用效率?;靥畹牟呗园ǎ篴)firstfit:掃描處于排隊狀態(tài)的作業(yè),執(zhí)行第一個能放入回填窗口的作業(yè);b) bestfit:掃描處于排隊狀態(tài)的作業(yè),選取能夠最大程度填滿回填窗口的作業(yè)。當可用節(jié)點數(shù)量較充足的時候,
46、盡量執(zhí)行節(jié)點需求較多的作業(yè);c)greedy:這是一種較激進的回填策略,這種策略忽略之前有預約的作業(yè),所以可能會影響到帶預約的作業(yè)的起始執(zhí)行時間;6) 公平共享:當某個用戶或者用戶組在過去的某一段時間內(nèi)(比如一周)使用了很多系統(tǒng)資源,在接下來的時間里,如果有其他用戶向系統(tǒng)提交作業(yè),這些用戶作業(yè)的fareshare優(yōu)先級因子會比該用戶(之前使用過多資源的用戶)的fareshare優(yōu)先級因子高;7) 資源預留:管理員可以在系統(tǒng)中設定一個時間值,從這個時間開始,某些計算節(jié)點在此時間段內(nèi)將被預留給某些用戶使用;8) 作業(yè)搶占:內(nèi)容包括取消當前某運行作業(yè)、暫停當前某運行作業(yè)、將當前某運行中作業(yè)check
47、point(需要操作系統(tǒng)支持)、取消當前運行作業(yè)并將作業(yè)重新放入隊列系統(tǒng)進行排隊,搶占方式有:a)人工干預;b)通過qos的策略;c)基于搶占、保證優(yōu)先級的回填。默認情況下,回填只有在不影響高優(yōu)先級作業(yè)運行的情況下才會發(fā)生,但是經(jīng)統(tǒng)計發(fā)現(xiàn),很多作業(yè)申請的walltime時間大于實際運行的walltime時間,也就是說,作業(yè)會提前完成執(zhí)行。在基于搶占、保證優(yōu)先級的回填的情況下,系統(tǒng)在回填窗口不足夠運行低優(yōu)先級作業(yè)的情況下允許作業(yè)回填,一旦發(fā)現(xiàn)回填的作業(yè)將會影響到高優(yōu)先級的作業(yè)的執(zhí)行,系統(tǒng)將該作業(yè)資源搶占,保證高優(yōu)先級作業(yè)的執(zhí)行。u 應用集成chess支持應用軟件的作業(yè)通過web界面提交,用戶可以
48、把常用的應用軟件集成到圖形界面中。用戶點擊界面上相應的應用軟件名稱,將會顯示該應用軟件的特殊參數(shù),點擊【作業(yè)提交】按鈕即可提交該應用軟件的作業(yè)。用戶還可在集群管理中直接打開vnc界面進行操作,以及應用程序的使用和作業(yè)提交。g) chess集群監(jiān)控chess集群監(jiān)控提供豐富的監(jiān)控信息,通過web頁面系統(tǒng)管理員可查看、了解集群系統(tǒng)的使用情況、集群拓撲結(jié)構(gòu)、集群文件系統(tǒng)、集群節(jié)點詳情、警報系統(tǒng)以及節(jié)點性能監(jiān)控。chess集群總匯可直觀、方便的顯示當前集群的信息,通過圖形數(shù)據(jù)可展示各個時段cpu使用率、內(nèi)存指標、交換分區(qū)使用量、網(wǎng)絡流量、磁盤容量、負載監(jiān)控、網(wǎng)卡接受或發(fā)送數(shù)據(jù)包字節(jié)速度等詳細信息,方便
49、系統(tǒng)管理員了解集群每個時間段的運行狀態(tài),同時還可監(jiān)控集群內(nèi)存總量使用率、磁盤總量使用率、以及cpu總數(shù)及在線節(jié)點等,如下圖所示:chess集群拓撲直觀顯示集群的拓撲結(jié)構(gòu),集群網(wǎng)絡交換機的拓撲結(jié)構(gòu),以及每個網(wǎng)絡交換機的名稱、ip、網(wǎng)絡交換機是否在線狀態(tài)等信息,網(wǎng)絡管理員可通過web界面對機房網(wǎng)絡進行監(jiān)控。系統(tǒng)管理員可通過chess文件系統(tǒng)web圖形界面對i/o角色的節(jié)點進行創(chuàng)建共享目錄,掛載共享目錄的操作,普通用戶可對共享目錄以及掛載點進行查詢操作。chess監(jiān)控節(jié)點詳情能夠方便、快捷的獲取當前集群每個節(jié)點運行狀態(tài)的信息,使管理員方便地進行集群系統(tǒng)的維護和管理。圖形界面中的服務器擺放位置與真實集
50、群環(huán)境中服務器的擺放位置相同,可顯示某個節(jié)點負載情況以及節(jié)點是否開關(guān)機,同時當鼠標移動至某個節(jié)點時將會出現(xiàn)提示信息框,顯示該節(jié)點的cpu數(shù)量、主頻和內(nèi)存總量等信息,如下圖所示:chess除了監(jiān)控集群系統(tǒng)的狀態(tài),系統(tǒng)管理員可設置cpu、內(nèi)存等參數(shù)的閾值,還可以檢測集群系統(tǒng)中的非正常情況,對于系統(tǒng)節(jié)點失去連接的信息或超過某些參數(shù)所設置的閾值,會進行報警統(tǒng)計,如下圖所示:h) chess集群報表chess報表系統(tǒng)為用戶提供詳細、豐富的數(shù)據(jù)資源統(tǒng)計功能,包括系統(tǒng)資源使用統(tǒng)計報表,賬單收費報表以及記賬設置。u 資源統(tǒng)計報表chess集群報表可在總覽頁面中監(jiān)控集群已完成作業(yè)情況、cpu使用率、作業(yè)使用cp
51、u核小時以及作業(yè)運行cpu運行時間,如下圖所示:詳細資源報表統(tǒng)計中用戶可查看作業(yè)統(tǒng)計報表;cpu、內(nèi)存資源使用報表,本地或共享存儲使用統(tǒng)計報表等信息,報表可按照用戶/隊列使用時間(按照小時/日/月)進行數(shù)據(jù)的統(tǒng)計從而生成報表,并可選擇pdf/html/excel三種方式導出報表。u 賬單收費報表賬單收費報表可查看用戶計算作業(yè)選擇起始和結(jié)束時間來統(tǒng)計此時間段內(nèi)用戶或者隊列對cpu資源的使用情況和費用合計,也可詳細到每個用戶中的計算每個作業(yè)的起始和結(jié)束時間后對cpu資源使用生成詳情計費報表進行數(shù)據(jù)查看,或者通過pdf/html/excel三種方式導出報表。u 記賬設置chess集群報表可設置計費功
52、能,管理員可設置每核的費率為元/小時進行計費統(tǒng)計。i) chess定制化功能chess提供用戶可定制化的功能,可以根據(jù)各個領(lǐng)域客戶的特殊需求做定制化的開發(fā),目的是提供給客戶一個更為貼心的軟件產(chǎn)品。下面介紹按照已有客戶的要求,完成的定制化的功能。j) chess備份還原系統(tǒng)chess備份還原系統(tǒng)支持對整個系統(tǒng)進行克隆,而且也可以克隆單個的分區(qū),這種靈活性可能更能適應備份者的需要,chess備份還原系統(tǒng)可實現(xiàn)自動化備份模式,設置參數(shù)后,實現(xiàn)自動化所要的備份與還原做工作。支持還原再生多種作業(yè)系統(tǒng),例如:linux (ext2, ext3, ext4, reiserfs, reiser4, xfs,
53、jfs), mac os (hfs+), 微軟windows (fat, ntfs), freebsd, netbsd, openbsd (ufs)以及vmware esx (vmfs),chess備份系統(tǒng)可實現(xiàn)磁盤或分區(qū)的備份還原,chess備份還原系統(tǒng)包含其他程序的撰寫與整合,因此可以備份與復制分割區(qū)或是整個硬盤;采用本地和網(wǎng)絡兩種模式實現(xiàn)跨平臺備份,映像文件可以放在本機硬盤,網(wǎng)路芳鄰服務器,ssh服務器,nfs服務器等。為用戶提供一個安全的數(shù)據(jù)備份環(huán)境。k) 按需開關(guān)機 通常情況下,用戶采購的高性能服務器集群并不是任何時候都100在使用,如果擁有按照用戶的實際需求的開關(guān)機功能,將會減少用
54、戶的使用成本。按需開關(guān)機的功能基于用戶的這種需求開發(fā),chess會檢測高性能服務器中有多少節(jié)點處于使用狀態(tài),有多少節(jié)點處于空閑狀態(tài),按需開關(guān)機的功能將會把空閑的節(jié)點自動關(guān)機;當正在運行的機器使用達到飽和狀態(tài),并且有用戶的作業(yè)在隊列里排隊的時候,按需開關(guān)機的功能將會把已經(jīng)處于關(guān)機狀態(tài)的節(jié)點自動開機。按需開關(guān)機的功能在保證了用戶資源正常使用的情況下,幫助用戶自動、合理地選擇開機的數(shù)目,降低用戶的使用成本。以128個計算節(jié)點的集群,機器使用率是80的情況為例,管理員一旦啟動了按需開關(guān)機功能,25臺機器將會自動關(guān)機,每個節(jié)點的實際功率一般為400w,25個節(jié)點每小時將節(jié)省功耗10000w10度,也就是
55、每小時節(jié)省7元的電費;以此類推,每天可以節(jié)省240度電,也就是168元的電費;每月就可以節(jié)省7200度電,也就是5040元的電費;那么每年就可以節(jié)省86400度電,也就是每年可以節(jié)省60480元電費。l) 計算資源登錄控制 在高性能服務器系統(tǒng)中,只有通過作業(yè)調(diào)度系統(tǒng)提交的作業(yè),才能被調(diào)度系統(tǒng)監(jiān)控,從而使整個集群的資源得以控制和更合理的利用。而有些不按照要求,通過交互式方式提交作業(yè)的客戶,調(diào)度系統(tǒng)監(jiān)控不到該節(jié)點上有作業(yè)運行,而認為該節(jié)點的資源是空閑的,會繼續(xù)在該結(jié)點上運行作業(yè)或?qū)⒐?jié)點關(guān)機,從而導致計算資源沖突或者交互式應用無法正常運行。為了避免上述情況的發(fā)生,chess根據(jù)用戶需求開發(fā)了計算資源登錄控制功能:普通用戶無法直接登錄計算節(jié)點,只有通過作業(yè)調(diào)度系統(tǒng)提交作業(yè)的用戶,才可以進行登錄以及相關(guān)操作。從而防止因用戶不按照規(guī)定使用機器導致的集群資源失控,同時方便了用戶使用。m) 無盤集群針對一些用戶使用的無盤集群系統(tǒng),chess提供了無盤集群的解決方案:在無盤集群系統(tǒng)中,管理節(jié)點配置好相應的服務,計算節(jié)點通過網(wǎng)卡啟動計算節(jié)點的操作系統(tǒng),因此不需要安裝計算節(jié)點的操作系統(tǒng)。計算節(jié)點之間通過高性能的并行文件系統(tǒng),從而為每個計算節(jié)點提供高性能的讀寫能力。5) 方案特點與優(yōu)勢chess
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 二零二五年度股東協(xié)議書-股東投票權(quán)及決策機制協(xié)議3篇
- 時代楷模先進事跡在高中思政課教學中的應用研究
- 投訴管理制度及處理流程
- 開啟自主學習的閘門
- 二零二五年度農(nóng)業(yè)高新技術(shù)田地租賃合作協(xié)議3篇
- 航空器材采購招標合同三篇
- 2025屆南通市海安高三語文上學期期末考試卷附答案解析
- 醫(yī)學美容科護士總結(jié)
- 專業(yè)化妝前臺接待員工作總結(jié)
- 二零二五年度戶外全彩顯示屏采購合同5篇
- 2024電子商務平臺用戶隱私保護協(xié)議3篇
- 電力工程施工安全風險評估與防控
- 內(nèi)分泌系統(tǒng)異常與虛勞病關(guān)系
- 義務教育數(shù)學課程標準(2022年版)重點
- 2021上海春考作文題解析及范文(怎樣做與成為什么樣人)
- DB3418T 008-2019 宣紙潤墨性感官評判方法
- 體育館改造裝修工程施工組織設計
- 137案例黑色三分鐘生死一瞬間事故案例文字版
- 【魔鏡洞察】2024藥食同源保健品滋補品行業(yè)分析報告
- 鋼筋桁架樓承板施工方案
- 鋼結(jié)構(gòu)工程施工(第五版) 課件 2項目四 高強度螺栓
評論
0/150
提交評論