云化架構(gòu)超算中心設(shè)計方案_第1頁
云化架構(gòu)超算中心設(shè)計方案_第2頁
云化架構(gòu)超算中心設(shè)計方案_第3頁
云化架構(gòu)超算中心設(shè)計方案_第4頁
云化架構(gòu)超算中心設(shè)計方案_第5頁
已閱讀5頁,還剩66頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

云化架構(gòu)超算中心

設(shè)計方案目錄0

1.項目背景0

2.建設(shè)目標0

3.建設(shè)重點0

4.實施路徑0

5.增值應(yīng)用項目背景“在中華民族偉大復(fù)興征程中第一個百年來臨之際,某師范大學(xué)將迎來建校70周年。共建云構(gòu)化超算中心標志著校園發(fā)展進入到新的階段新的里程碑0102深化戰(zhàn)略合作協(xié)議肩負社會責(zé)任,為科研助力用云計算幫助夢想者推動社會進步云廠商肩負科教興國重任肩負科研創(chuàng)新責(zé)任整體數(shù)字化轉(zhuǎn)型建設(shè)某師范大學(xué)項目背景體系標準開源社區(qū)落地&商業(yè)化云廠商與某師范大學(xué)共同成立聯(lián)合實驗室,各自發(fā)揮滋生優(yōu)勢,將技術(shù)與實踐相結(jié)合,共同制定教育行業(yè)云管平臺體系標準,協(xié)助完成云管體系教程編寫。云廠商將此項目做成開源項目,將產(chǎn)品發(fā)布到開源社區(qū),某師范大學(xué)團隊將主要負責(zé)后期運營事項,共同創(chuàng)建生態(tài)體系。云廠商與某師范大學(xué)一起共同投入資源推進項目落地;將項目經(jīng)驗賦能教育領(lǐng)域,完成3家以上同行業(yè)項目落地。聯(lián)盟成立國家標準輸出產(chǎn)品開源生態(tài)搭建項目落地行業(yè)擴展目錄0

1.項目背景0

2.建設(shè)目標0

3.建設(shè)重點0

4.實施路徑0

5.增值應(yīng)用AIPaaS統(tǒng)一管理混合云千人千面私有云資源拓展公有/教育云教研一體數(shù)據(jù)中心信息服務(wù)HPCPaaS大數(shù)據(jù)PaaS私有云+公有云形成的混合云目標·建設(shè)內(nèi)容目標·能力建設(shè)01020304服務(wù)能力建設(shè)HelpDesk,服務(wù)支持。提升響應(yīng)速度,最終提升全校師生使用便利運維能力建設(shè)資源管理,系統(tǒng)監(jiān)控,告警平臺。智能化運維管理平臺有效提升運維能力創(chuàng)新能力建設(shè)基于云架構(gòu),提供更多PaaS類組件,提升師生學(xué)習(xí)、科研效率運營能力建設(shè)從分配率到實際利用率,提升利用率,降低能耗,降低成本目標·四大建設(shè)重點云化HPC具有海量算力、算成本低廉、安全可靠的特征私有云具有能夠靈活擴容、運維簡便的能力網(wǎng)絡(luò)互通高效、穩(wěn)定、安全的網(wǎng)絡(luò)條件是建設(shè)混合云的關(guān)鍵統(tǒng)一管理平臺將所有云端資源及本地資源納入到統(tǒng)一的管理體系目錄0

1.項目背景0

2.建設(shè)目標0

3.建設(shè)重點0

4.實施路徑0

5.增值應(yīng)用云化HPC1私有云2網(wǎng)絡(luò)互通3統(tǒng)一管理平臺4總體目標·四大建設(shè)重點云構(gòu)化HPC11海量算力,無限靈活試想一下即開即得的海量算力(CPU、GPU、異構(gòu)芯片),HPC工作不必受IT資源供應(yīng)限制、不必受IT資源管理的約束,即刻開啟∞超高性能,暢快計算計算、存儲、網(wǎng)絡(luò)皆為高性能打造,原本數(shù)天的計算,可縮短至數(shù)小時完成數(shù)據(jù)安全,由您掌控數(shù)據(jù)自動冗余、手動備份、回滾復(fù)原、安全訪問,您可通過多種手段確保關(guān)鍵核心數(shù)據(jù)安全可控S超大規(guī)模,超低成本云廠商的規(guī)?;瘍?yōu)勢有效的降低成本,您節(jié)省的是IT全生命周期的費用,獲得的是高效的計算結(jié)果HPC新架構(gòu)GPFSNSD*2GPFSNSD*210GFC交換機*2NetAPPSASCISCOUCS互聯(lián)矩陣AWS資源池c5.xlargec5.2xlarge本地現(xiàn)有計算池512核XeonE5-2630v22.6GHzXeonE5-2630v32.4GHzXeonE5-2650v32.3GHzXeonE5-2650v22.6GHz主管理節(jié)點云門戶節(jié)點新增本地計算池XeonPlatinum82682.9GHz24C*4路*10節(jié)點認證服務(wù)器從管理節(jié)點S3從管理節(jié)點新增本地存儲池BeeGFS并行文件系統(tǒng)存儲1.3PB、帶寬20GB/s萬兆交換機IB網(wǎng)絡(luò)FC網(wǎng)絡(luò)萬兆網(wǎng)絡(luò)在不改變原有架構(gòu)的基礎(chǔ)上,新增的計算和存儲節(jié)點使用IB交換機的100Gb端口;從管理節(jié)點US3從管理節(jié)點云廠商資源池EPC-4C8GEPC-8C16G本地-公有云專線NetAPPSSDBeeGFS并行文件系統(tǒng)Mellanox100GIB*2高性能裸金屬云主機低延遲RDMA50Gb

網(wǎng)絡(luò)定制調(diào)優(yōu)的并行文件系統(tǒng)超算集群EPC彈性資源快速服務(wù)部署,橫向擴展和熱遷移運維自動化統(tǒng)一服務(wù)接口CPU240

核GPU8xv100內(nèi)存

網(wǎng)絡(luò)帶寬480GB 50Gb網(wǎng)絡(luò)延遲2.0μs最高配置的單一實例本地呈現(xiàn)云上呈現(xiàn)VDILocal

SiteUser

01User

02…云廠商超算平臺LicenseStoStorageCloudVPCCluster

01Cluster

02Auto-ScalingCluster

03Cluster

04Cluster

05Cluster

06…Internet算力平臺

:

云廠商算力運營平臺OS:

Centos/Ubuntu仿真、模擬工具:ANSYSfluent/LS-DYNA/Local

Site云廠商云廠商算力編排層App

+Flow鏡像管理 License

監(jiān)控應(yīng)用適配Flow

定制自動伸縮隊列管理作業(yè)監(jiān)控集群生命周期管理任務(wù)管理目標策略多云對接多調(diào)度器支持低成本算力作業(yè)調(diào)度用戶管理系統(tǒng)監(jiān)控賬單管理預(yù)算控制RESTful-API消息通知資源分配多元化的接口WEBUICLI配置項規(guī)格架構(gòu)數(shù)量服務(wù)器規(guī)格RackMountChassis_2URackMountChassis1處理器AMD_EPYC?_7H12_128Threads_64Cores_2.6GHz_Zen2_280W_X86X862內(nèi)存DDR4_64_RDIMM_3200MHzRDIMM32系統(tǒng)盤480G_SSD_SATA3_N/A_512E_2.5"_6Gb/s512E2數(shù)據(jù)盤0硬盤控制器HBA_12Gb/sSATA/SASHBA12Gb/sSATA/SASHBA1網(wǎng)卡2ports_25Gb/s_Fiber_光口PCIE3.02PCIe設(shè)備0電源1200W_94%_Platinum_服務(wù)器電源_100V~240VAC_192V~288VDC服務(wù)器電源2顯卡0HPC計算池配置HPC并行文件系統(tǒng)架構(gòu)Clients掛載并行文件系統(tǒng),實現(xiàn)高性能計算。MetadataServers維護和管理文件的條帶信息及文件存儲的具體位置。StorageServers每個文件被分割成指定塊大小,條帶化后部署到多個存儲服務(wù)器上面ManagementHost負責(zé)整個AS13000G5-H的集群的管理工作。GraphicalAdministrationandMonitoringSystem提供GUI管理工具實現(xiàn)BuddyGFS的性能檢測,部署維護等工作HPC并行文件系統(tǒng)硬件AS13000G5-H基于BeeGFS性能卓絕高性能:單個數(shù)據(jù)流可達到

9GB/s強聚合:并行文件系統(tǒng)聚合帶寬可擴展至TB級高可用:支持內(nèi)容鏡像,支持1/2的節(jié)點宕機數(shù)據(jù)節(jié)點推薦配置元數(shù)據(jù)節(jié)點推薦配置磁盤柜方案集中式架構(gòu)高密機型大容量場景-H36-H12/24+雙控陣列G5-H60性價比均衡主做數(shù)據(jù)節(jié)點閃存盤元數(shù)據(jù)節(jié)點支持NVMe/SATASSD搞空間利用率方便運維部署差異化控標優(yōu)勢集中式架構(gòu)scale-up提供多盤的大通量帶框分級存儲:高速、中速和低速存儲HPC存儲池配置類型規(guī)格數(shù)量數(shù)量(臺)元數(shù)據(jù)節(jié)點Cache節(jié)點AS13000-H12CPUAMD_EPYC?_7542_64Threads_32Cores_2.9GHz_Zen2_225W_X8626內(nèi)存DDR4_32_RDIMM_2933MHz12系統(tǒng)盤480G_SSD_SATA3_N/A_512E_2.5"_6Gb/s2數(shù)據(jù)盤G_SSD_3.84T_U28G_SA_2_PM983_MB8網(wǎng)卡2ports_25Gb/s_Fiber_光口1IB網(wǎng)卡G_HCA_1-EDR_MCX555A-ECAT1并行文件系統(tǒng)浪潮并行文件系統(tǒng)客戶端_海量-H_multi_3Y_CNHPC存儲池配置類型規(guī)格數(shù)量數(shù)量(臺)普通數(shù)據(jù)節(jié)點AS13000-H36CPUAMD_EPYC?_7542_64Threads_32Cores_2.9GHz_Zen2_225W_X8626內(nèi)存DDR4_32_RDIMM_2933MHz12系統(tǒng)盤480G_SSD_SATA3_N/A_512E_2.5"_6Gb/s2數(shù)據(jù)盤HDD_14T_SATA_6Gbps_7.2Krpm_3.5in_Enterprise36磁盤控制器RAID_9361-8i_1G_12Gbps1網(wǎng)卡2ports_25Gb/s_Fiber_光口10G_Fibre_光口_雙口1IB網(wǎng)卡G_HCA_1-EDR_MCX555A-ECAT1并行文件系統(tǒng)浪潮并行文件系統(tǒng)客戶端_海量-H_multi_3Y_CN從裸機到云資源,全鏈路自動運維遠程電源控制硬件配置采集硬件日志監(jiān)控KVM一鍵登錄狀態(tài)監(jiān)控支持根據(jù)IPMI帶外協(xié)議、SNMP等硬件協(xié)議獲取硬件資產(chǎn)的詳細信息,并進行遠程運維操作(KVM登錄、電源控制、日志監(jiān)控采集等)裸機管理平臺

新增計算、存儲網(wǎng)絡(luò)架構(gòu)在不改變原有架構(gòu)的基礎(chǔ)上,新增的計算和存儲節(jié)點連接到MellanoxIB交換機的100Gb端口;NetAPPSASNetAPPSSDGPFSNSD*2GPFSNSD*2BeeGFS并行文件系統(tǒng)10GFC交換機

10GFC交換機

Mellanox100GIBMellanox100GIB新增資源混合云超算:公+私分配原則私有云部分:有保密性需求的項目算力需求固定的項目對IO等有特殊需求的項目保持一定數(shù)量算力預(yù)留公有云部分:彈性,突發(fā)性需求算力需求巨大的項目用完即釋放“云超算”為數(shù)據(jù)中心添翼24技術(shù)角度云化不只是提供無限擴容的超算資源,更重要的提供了,如大數(shù)據(jù)平臺,科研工具拓展,移動協(xié)同等不斷迭代的新技術(shù),助力學(xué)校數(shù)字化轉(zhuǎn)型,幫助數(shù)據(jù)中心從成本中心轉(zhuǎn)變成服務(wù)中心成本角度一些抽象的、虛擬化的、可動態(tài)擴展和被管理的計算能力、存儲、平臺和服務(wù)匯聚成資源池,通過按需交付給外部用戶運維角度云上資源的運維及安全由云廠商負責(zé),數(shù)據(jù)都有實時的副本備份,對應(yīng)安全體系前臺無感的實時更新,為學(xué)校減輕運維壓力云化HPC1私有云2網(wǎng)絡(luò)互通3統(tǒng)一管理平臺4總體目標·四大建設(shè)重點私有云產(chǎn)品全景產(chǎn)品全景:交付形式:純軟交付:靈活選擇一體機、一體機柜:開箱即用托管云:訂閱式服務(wù)基礎(chǔ)架構(gòu)安全容器存儲產(chǎn)品DevOps大數(shù)據(jù)/SDP裸金屬數(shù)據(jù)庫安全屋云管/CMP人工智能/AI云桌面運維工具私有云簡介公有云一致架構(gòu):復(fù)用公有云內(nèi)核及核心組件,上層產(chǎn)品形態(tài)根據(jù)私有云場景重新設(shè)計全自研架構(gòu):非開源架構(gòu),信創(chuàng)全生態(tài)適配,自主可控靈活可擴展:單數(shù)據(jù)中心支持3-2000節(jié)點規(guī)模,可同時納管多個數(shù)據(jù)中心多種產(chǎn)品套餐:標準X86、信創(chuàng)版、快杰版三個版本,滿足通用、國產(chǎn)化、高性能場景。全棧云平臺:提供IaaS、PaaS、SaaS全棧服務(wù)的云架構(gòu)自主可控自主可控丨復(fù)用公有云核心自主可控|從芯片、OS到應(yīng)用的全景適配分布式數(shù)據(jù)庫apiserver(無狀態(tài),三節(jié)點)調(diào)度器(有狀態(tài),多節(jié)點)管理節(jié)點重新調(diào)度Agent監(jiān)控心跳監(jiān)測計算節(jié)點平臺高可用架構(gòu)整體高可用架構(gòu)邏輯上分管理和計算節(jié)點,通信網(wǎng)絡(luò)采用雙網(wǎng)卡綁定,保證物理鏈路上高可用,底層存儲采用RAID1保障高可用。管理節(jié)點高可用apiserver無狀態(tài)部分采用三節(jié)點高可用架構(gòu)調(diào)度器有狀態(tài)部分,采用多節(jié)點部署,利用選舉機制確保高可用;底層采用分布式數(shù)據(jù)庫計算節(jié)點高可用主動周期性監(jiān)測物理節(jié)點進行心跳檢查,發(fā)現(xiàn)物理機宕機則觸發(fā)虛擬機自動遷移服務(wù)。高可靠|平臺整體高可用架構(gòu)10GE外網(wǎng)核心外網(wǎng)核心LACP40GE外網(wǎng)接入外網(wǎng)接入40GE內(nèi)網(wǎng)核心內(nèi)網(wǎng)核心LACP40GE內(nèi)網(wǎng)接入內(nèi)網(wǎng)接入10GE物理網(wǎng)絡(luò)接入計算存儲超融合節(jié)點獨立存儲節(jié)點VMware&物理機節(jié)點40GE10GEGE高可靠|全冗余網(wǎng)絡(luò)架構(gòu)機柜1機柜2機柜3DistributedStorageServiceABCABCBlockClientObjectClientFileClientComputeDISKDISKDISKDISKDISKDISKComputeBlockStorageObjectStorageFileStorage多副本數(shù)據(jù)保護

高性能磁盤IO高可靠存儲架構(gòu)無限水平擴展高安全數(shù)據(jù)保護多類型存儲接口UnifiedDistributedStorageServiceBCACABClientPrimaryReplicaChunkChunkChunkReplica高可靠|分布式存儲在物理網(wǎng)絡(luò)上構(gòu)建虛擬分布式網(wǎng)絡(luò),通過先進的隧道封裝技術(shù),屏蔽底層硬件的復(fù)雜性,虛擬機可實現(xiàn)集群內(nèi)跨設(shè)備遷移純軟件定義網(wǎng)絡(luò)用戶二層網(wǎng)絡(luò)隔離南北向物理網(wǎng)絡(luò)透傳分布式高可用SDN控制器架構(gòu)純軟件實現(xiàn),不綁定特殊硬件VM3ComputeNode2VM4vNICvNICVxLanTunnelNICSwitchVTEP0SwitchVlanOpenvSwitchFlowtableVM3ComputeNode2VM4vNICvNICNICVTEP0OpenvSwitchFlowtableNIC1高可靠丨分布式網(wǎng)絡(luò)VM1ComputeNode1負載正常ComputeNode2故障節(jié)點ComputeNode3負載正常分布式存儲資源池VM2VM4VM5VM4VM4VM4VM3VM3VM3VM3同一業(yè)務(wù)打散部署VM6VM6在線遷移手動操作智能調(diào)度系統(tǒng)虛擬機資源調(diào)度管理的核心,用于決策虛擬機運行位置,管理虛擬機狀態(tài)及遷移計劃,保證虛擬機可用性和可靠性系統(tǒng)實時監(jiān)測所有節(jié)點負載信息,作為調(diào)度和管理的數(shù)據(jù)依據(jù)反親和部署策略,確保同一業(yè)務(wù)虛擬機打散部署至所有節(jié)點物理節(jié)點故障時,系統(tǒng)自動遷移虛擬資源到健康服務(wù)器節(jié)點計劃內(nèi)遷移零宕機宕機快速自動遷移在線遷移宕機遷移(分鐘內(nèi))物理節(jié)點故障無害反親和部署提高平臺及業(yè)務(wù)的可用性和可靠性高可靠|虛擬機高可用快照3快照2快照1高可靠|快照36

快照定時自動快照與手工快照結(jié)合,滿足多種場景需要無需暫停業(yè)務(wù)或停止磁盤讀寫,不影響線上業(yè)務(wù)按策略自動刪除快照,節(jié)省空間容災(zāi)備份數(shù)據(jù)快速恢復(fù)開發(fā)測試云硬盤ABCDA1BCD1A1BCD2多數(shù)據(jù)中心管理統(tǒng)一納管多個數(shù)據(jù)中心,實現(xiàn)對企業(yè)多套云資產(chǎn)環(huán)境的統(tǒng)一管理、運營和運維配合DNS和LB服務(wù),構(gòu)建業(yè)務(wù)高可用部署架構(gòu)?;诙鄶?shù)據(jù)中心,實現(xiàn)業(yè)務(wù)級別的云資源冗余架構(gòu),滿足對RTO要求高的核心業(yè)務(wù)災(zāi)備需求構(gòu)建數(shù)據(jù)中心級別災(zāi)備構(gòu)建中心-邊緣同構(gòu)的業(yè)務(wù)底座平臺高可用數(shù)據(jù)中心災(zāi)備業(yè)務(wù)高可用中心-邊緣業(yè)務(wù)平臺數(shù)據(jù)中心地圖高可靠|多數(shù)據(jù)中心VMVirtIO內(nèi)核CPU隊列CPU隊列CPU隊列…網(wǎng)卡VMVFDriverVFCPU隊列CPU隊列CPU隊列…智能網(wǎng)卡內(nèi)核網(wǎng)絡(luò)增強1.0100wPPS1000wPPS網(wǎng)絡(luò)增強2.0VM虛擬網(wǎng)卡VM虛擬網(wǎng)卡物理網(wǎng)卡物理網(wǎng)卡Vhost-netVtap設(shè)備OVS內(nèi)核二層網(wǎng)卡驅(qū)動1.0方案采用VirtIO驅(qū)動做多隊列方案,包處理經(jīng)過宿主機內(nèi)核增加延遲,且物理CPU為網(wǎng)絡(luò)收發(fā)隊列提供性能,成本高昂。2.0方案采用SRIOV,通過網(wǎng)卡的硬件虛擬化,繞過宿主機內(nèi)核,實現(xiàn)虛擬機到網(wǎng)卡的直接數(shù)據(jù)訪問。傳統(tǒng)網(wǎng)絡(luò)IOvs簡化IO流程高性能|快杰SRIOV網(wǎng)絡(luò)增強2.0萬IOPSms延遲2.40.5萬IOPSms延遲1200.1VMqemuRingbufferPrimaryChunkSecondaryChunkSecondaryChunkio讀寫rdmaspdk讀寫磁盤寫復(fù)制rdma寫復(fù)制rdmavhostuserclientRingbufferio讀寫rdma寫復(fù)制rdma寫復(fù)制rdmaspdk讀寫磁盤vhost代替Qemu,實現(xiàn)虛機到存儲Client的數(shù)據(jù)0拷貝RoCE代替TCP,4K網(wǎng)絡(luò)包收發(fā)10-20usSPDK代替Libaio,高并發(fā)下,依然保持較低的時延QEMUUDiskClientUDisk云盤UDiskRSSD云盤APP&FSVMVirtualDiskAPP&FSVMVirtualDiskTCPRDMARoCE傳統(tǒng)IO流程vs簡化IO流程UDiskClient-SPDK高性能|快杰RDMA+SPDK云盤GPU虛擬機虛擬機支持PCI透傳GPU顯卡統(tǒng)一管理和調(diào)度GPU資源無廠商依賴,可兼容大部分GPU設(shè)備性能無損運維簡單深度學(xué)習(xí)人工智能高性能計算GPU節(jié)點1GPU節(jié)點2普通節(jié)點調(diào)度器GPUGPUGPU設(shè)備GPU設(shè)備高性能|

GPU虛擬機最少配置一塊SSD盤,SSD和HDD容量配比推薦1:10每塊SSD緩存分區(qū)可對應(yīng)一塊HDD磁盤,組合為緩存磁盤組磁盤組可以有效應(yīng)對單塊SSD故障影響整個節(jié)點的數(shù)據(jù)均衡存儲ClientI/O請求均會先到SSD緩存盤進行讀寫分發(fā),冷熱數(shù)據(jù)自動流轉(zhuǎn)數(shù)據(jù)寫入會直接寫入SSD,并根據(jù)算法動態(tài)回刷冷數(shù)據(jù)至HDD數(shù)據(jù)會直接從SSD進行讀取,若未命中緩存,則會從HDD進行讀取,并將熱數(shù)據(jù)動態(tài)推送至SSD,緩存命中率越高性能越高。ClientSSDHDDReadsWrite-BackWritesDiskGroupHDDSSDHDDDiskGroupHDDSSDHDD高性能|存儲分層所有API全開放2云原生架構(gòu)1API全開放硬件兼容3避免硬件廠商鎖定支持主流X_86服務(wù)器支持主流ARM服務(wù)器應(yīng)用可在不同云環(huán)境遷移避免云廠商/平臺鎖定支持MIPS架構(gòu)開放兼容服務(wù)無縫引入2平滑升級1持續(xù)升級智能運維3全面監(jiān)控告警服務(wù)云服務(wù)故障自愈完整的日志分析服務(wù)服務(wù)無感知升級業(yè)務(wù)不中斷升級架構(gòu)迭代功能升級持續(xù)進化持續(xù)進化|在線擴容可根據(jù)業(yè)務(wù)負載的增加按需進行擴展可分別或同時增加計算力、存儲空間和性能在線擴容,不影響線上教學(xué)存儲自動進行數(shù)據(jù)均衡性能隨容量擴展正向增長,充分利用每節(jié)點讀寫性能計算節(jié)點存儲節(jié)點持續(xù)進化|智能監(jiān)控云化HPC1私有云2網(wǎng)絡(luò)互通3統(tǒng)一管理平臺4總體目標·四大建設(shè)重點某師范大學(xué)混合云網(wǎng)絡(luò)互通方案:GRE隧道此外云廠商還提供了公網(wǎng)VPN的備用方案,如果云端和SEMAN的專線互聯(lián)在極端情況下發(fā)生網(wǎng)絡(luò)故障,或當某師范大學(xué)的本地機房不在SEMAN的城域網(wǎng)中,也可以利用VPN的方式實現(xiàn)與云廠商云端的互聯(lián)。某師范大學(xué)混合云網(wǎng)絡(luò)互通-備選方案:VPN或?qū)>€云廠商已經(jīng)與各高校機房網(wǎng)絡(luò)互聯(lián)云廠商通過與教育城域網(wǎng)物理網(wǎng)絡(luò)拉通,實現(xiàn)與各個高校現(xiàn)的機房網(wǎng)絡(luò)的互聯(lián),基于內(nèi)網(wǎng)提供穩(wěn)定,可靠安全可控的云服務(wù),為后續(xù)“教育上云”提供更便捷的基礎(chǔ)環(huán)境。教育城域網(wǎng)SEMANVPN物理防火墻IPsec專線專線物理服務(wù)器核心數(shù)據(jù)庫云平臺負載均衡應(yīng)用服務(wù)器數(shù)據(jù)庫學(xué)校自有機房云廠商公有云機房教育城域網(wǎng)核心網(wǎng)骨干與云廠商上海二區(qū)云服務(wù)網(wǎng)絡(luò)可實現(xiàn)100G互通,并可確保網(wǎng)絡(luò)冗余;云廠商可為學(xué)校提供多種本地數(shù)據(jù)中心與云廠商公有云的互聯(lián)方案,為學(xué)校構(gòu)建混合云的網(wǎng)絡(luò)應(yīng)用架構(gòu)。云化HPC1私有云2網(wǎng)絡(luò)互通3統(tǒng)一管理平臺4總體目標·四大建設(shè)重點云廠商混合云多云管理平臺簡介云廠商混合云管理基于混合架構(gòu)多云接入的環(huán)境特點,提供統(tǒng)一多云管理平臺,支持對各類公有云、私有云數(shù)據(jù)進行整合。獨有的數(shù)據(jù)模型確??蛻魺o架構(gòu)感知,對多云資源做到統(tǒng)一運營、統(tǒng)一運維、統(tǒng)一服務(wù)。并通過云計算的自身經(jīng)驗累積,提供管理解決方案。并支持基于ITSM框架下的服務(wù)管理功能(事件管理、問題管理、質(zhì)量管理等)多云管理監(jiān)控告警資產(chǎn)是重要的基礎(chǔ)資源,通過CMDB資產(chǎn)系統(tǒng)對資產(chǎn)加強管理,從云下資源到云上資源統(tǒng)一維護。并結(jié)合裸機管理平臺對基礎(chǔ)資源進行自動化裝機、腳本管理、命令下發(fā)等自動化運維操作基礎(chǔ)運維建設(shè)高效自動化的運維平臺提供實時可靠的技術(shù)保障能力保證云平臺的平穩(wěn)運行多云接入整合,提供運營決策對已進行納管的資產(chǎn)(包括但不限于宿主機、網(wǎng)絡(luò)設(shè)備、虛擬云主機、虛擬存儲等)性能、狀態(tài)、事件等運行情況進行集中監(jiān)控。提供監(jiān)控告警服務(wù)臺功能。并可提供7*24NOC服務(wù)能力,為客戶提供快速、有效的監(jiān)控告警功能。某師范大學(xué)教育云統(tǒng)一管理門戶架構(gòu)圖超算中心本地數(shù)據(jù)中心公有云、超算云云主機云網(wǎng)絡(luò)云存儲資源集ACPU使用83%預(yù)算使用90%某師范大學(xué)信息學(xué)部計算機科學(xué)與技術(shù)學(xué)院數(shù)據(jù)科學(xué)與工程學(xué)院軟件工程學(xué)院云主機云網(wǎng)絡(luò)云存儲資源集BCPU使用50%預(yù)算使用40%使用使用某師范大學(xué)教育云統(tǒng)一管理門戶表單自定義專線、VPN打通科

研教

學(xué)實驗室信息中心流程自定義服務(wù)管理門戶運營管理門戶組織管理資源管理計費管理優(yōu)化建議配額管理人員管理運維管理門戶監(jiān)控告警作業(yè)管理運維編排安全審計……學(xué)部流程驅(qū)動自動化混合云多云管理平臺功能架構(gòu)多層級組織管理,有效匹配業(yè)務(wù)場景實例A實例B教學(xué)任務(wù)實例C實例E實例F科研任務(wù)裸機A裸機B實驗任務(wù)裸機C資源池根據(jù)業(yè)務(wù)場景對資源進行池化針對資源池進行配額設(shè)置自動生成資源拓撲組織架構(gòu)校園管理師生的樹狀結(jié)構(gòu)體搭建多層次的組織架構(gòu)樹用戶管理基于RBAC的權(quán)限管理體系自定義操作權(quán)限、數(shù)據(jù)權(quán)限、導(dǎo)航權(quán)限資源隔離,有效管控資源使用XX學(xué)院課題組A運維角色管理角色小張小胡小王小李學(xué)生角色導(dǎo)師角色課題組B劉老師小周小吳CPU:80%CPU:50%CPU:38%多云無感知,異構(gòu)資源標準化管理重資產(chǎn)信息云主機云網(wǎng)絡(luò)云存儲機房信息機柜信息云資源模型庫基礎(chǔ)設(shè)施模型庫私有云公有云本地設(shè)施CMDB動態(tài)配置庫按需接入各類云一致的用戶體驗對管理的云平臺進行抽象,根據(jù)不同資源類型形成統(tǒng)一標準的數(shù)據(jù)模型用戶無需考慮云平臺差異性,所有資源按統(tǒng)一標準進行納管不受云平臺限制,可根據(jù)客戶需求定制對接云API各云商封裝私有云千人千面,全局動態(tài)時刻掌握千人千面根據(jù)當前登錄用戶的權(quán)限設(shè)置,僅展示有權(quán)限的資源信息,信息安全隔離自定義看板可根據(jù)實際使用需求,自定義首頁dashboard,聚焦于關(guān)鍵教學(xué)任務(wù)優(yōu)化建議自動計算符合優(yōu)化策略的資源使用情況建議用戶對資源進行合理調(diào)整,實現(xiàn)成本優(yōu)化告警列表實時掌握資源異常情況,及時處理,規(guī)避風(fēng)險使用量分析對關(guān)鍵資源的使用情況進行分析并排序幫助用戶對不合理的使用進行輔助決策規(guī)則設(shè)置智能分析輔助決策費用可視化,輕松控成本統(tǒng)一管理和分析公有云和私有云費用,支持對私有云費用進行配置化管理。提供費用分析、賬單明細、優(yōu)化建議等,為校園提供“看得見的”支出減少。消費趨勢查看一段時間內(nèi)各資源類型所占費用情況&消費趨勢查看一段時間內(nèi)消費訂單的明細數(shù)據(jù)計費配置公有云:自動同步云平臺賬單私有云:支持用戶自定義q收費項&計價規(guī)則,自動統(tǒng)計成本優(yōu)化針對不同資源的使用情況設(shè)置對應(yīng)的規(guī)則,系統(tǒng)將根據(jù)掃描間隔全局掃描系統(tǒng)中的所有資源使用情況;結(jié)合費用數(shù)據(jù),選取TOP費用節(jié)約資源,建議管理人員對資源進行降配(降成本)優(yōu)化多云無感知,異構(gòu)資源標準化管理資源自發(fā)現(xiàn)數(shù)據(jù)中心1交換機服務(wù)器服務(wù)器服務(wù)器交換機服務(wù)器服務(wù)器服務(wù)器交換機存儲存儲交換機路由器防火墻探針數(shù)據(jù)中心2交換機服務(wù)器服務(wù)器服務(wù)器交換機服務(wù)器服務(wù)器服務(wù)器交換機存儲存儲交換機路由器防火墻探針自動發(fā)現(xiàn)CMDBIPAM依憑CMDB和IPAM,自動發(fā)現(xiàn)在無代理模式下可以通過帶外、SNMP等硬件協(xié)議快速發(fā)現(xiàn)資源并同步在代理模式下,通過安裝agent可以深度挖掘設(shè)備的詳細信息并設(shè)定掃描周期,更新信息至CMDB若客戶已有CMDB可進行定制開發(fā)對接,若無,則可購買CMP中的CMDB模塊故障定級故障通告故障輔助定位處理決策故障復(fù)盤故障快速恢復(fù)故障演練異常發(fā)現(xiàn)80%監(jiān)控覆蓋率耗時臨時自定義統(tǒng)一定級15分鐘3分鐘零散消息30%故障看板臨時決策標準方案人工收集系統(tǒng)記錄無定時演練耗時N分鐘1分鐘P0(緊急):立即電話升級P1(重要):3min無響應(yīng)則電話升級P2(預(yù)警):無語音但必須48H內(nèi)閉環(huán)郵件短信監(jiān)控采集規(guī)則配置SOP案例庫智能降噪故障預(yù)檢查可視化圖表任務(wù)編排宕機自動化場景化診斷容災(zāi)自動化問題管理事件管理演練平臺:定期模擬對故障發(fā)生進行模擬實踐;提前找出管理問題&流程缺陷。防范于未然。統(tǒng)一監(jiān)控告警服務(wù)臺結(jié)合云廠商管理自身40000+服務(wù)器運維經(jīng)驗,整理總結(jié)出一套規(guī)范化監(jiān)控告警治理體系。并通過平臺功能支撐,有效提升運維管理效率,減少人為判斷。做到先于用戶感知發(fā)現(xiàn)故障!裸機配置硬件配置固件配置安裝模板系統(tǒng)模板裸機管理裸機資源運維場景運維任務(wù)裸機監(jiān)控硬件監(jiān)控日志告警裸機交付自動化任務(wù)發(fā)現(xiàn)文件中心腳本管理鏡像管理網(wǎng)絡(luò)地址子網(wǎng)管理地址管理從裸機到云資源,全鏈路自動運維裸機管理平臺支持對裸機資源的統(tǒng)一納管,并支持基于IPMI的帶外管理:遠程操作、PXE裝機、配置信息采集、硬件監(jiān)控告警、硬件性能監(jiān)控等運維工具流程編排引擎網(wǎng)絡(luò)操作帶外操作帶內(nèi)操作系統(tǒng)安裝系統(tǒng)重裝系統(tǒng)清洗場景庫網(wǎng)絡(luò)地址管理硬件配置固件配置系統(tǒng)模板硬件模板初始化模板元數(shù)據(jù)任務(wù)管理任務(wù)發(fā)現(xiàn)消息推送資源管理操作用賬戶第三方認證用戶權(quán)限用戶權(quán)限從裸機到云資源,全鏈路自動運維自動化裝機:根據(jù)編排的工作流,為已納管的裸機進行自動裝機,減少人力的同時避免人為操作錯誤帶來的故障隱患。配置階段啟動階段交付階段基礎(chǔ)數(shù)據(jù)導(dǎo)入IP分配端口可用性檢測重啟服務(wù)器裝機平臺網(wǎng)絡(luò)端口操作布線檢測服務(wù)器PXE啟動確認裝機MiniOS網(wǎng)卡排序上聯(lián)信息采集上聯(lián)信息采集日志上報&重啟裝機平臺PING探測確認交付服務(wù)器硬盤啟動自制系統(tǒng)初始化日志上報配置&固件檢測日志上報確認初始化裸機管理平臺目錄0

1.項目背景0

2.建設(shè)目標0

3.建設(shè)重點0

4.實施路徑0

5.增值應(yīng)用聯(lián)盟標準里程碑項目啟動成立聯(lián)合實驗室2021.09基礎(chǔ)版開源開源上線、社區(qū)運營2022.06規(guī)范標準輸出國家標準,國標體系2023.062021.11聯(lián)盟成立組建聯(lián)盟,制定研討機制,定期組織研討會2022.12共營生態(tài)完善功能、輸出教育行業(yè)云管標準開源商業(yè)化路線里程碑2022.062021.122022.12

2023.06輔助水杉在線,完成數(shù)據(jù)學(xué)院云管平臺落地完成某師范大學(xué)校級多云管理平臺建設(shè),統(tǒng)一資源、信息管理門戶開源社區(qū)上線復(fù)制案例,開源項目推廣至其他高校完成3家高校項目落地,實現(xiàn)商業(yè)化賦能資源投入聯(lián)合實驗室云廠商方某師范大學(xué)方1~2名5年以上經(jīng)驗的架構(gòu)師負責(zé)產(chǎn)品技術(shù)架構(gòu)的規(guī)劃和實現(xiàn)1個云管研發(fā)團隊進行產(chǎn)品設(shè)計和研發(fā)1名

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論