版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
目錄引言 1GPU資池技的進(jìn) 2OrionX品述 3OrionX品勢 4OrionX件構(gòu) 5OrionX邏架構(gòu) 5OrionX功組件 6OrionXController(OC) 6OrionXServerService(OSS) 6OrionXClientRuntime(OCRT) 7OrionXGUI(OG) 7OrionX件通信 7管理面 8數(shù)據(jù)面 8部署態(tài) 10OrionX容云臺(tái)成 10OrionX與KubernetesOrionX與KVMOrionX與VMware12OrionX用景 14OrionX持模場典型用 14通過“零整”能持練 14通過“空物”能持練 15OrionX持模場典型用 16通過“整零”能持理 16通過“空物”能持理 17OrionX持大/模場的典應(yīng)用 18通過“需變”能持練/推理 18通過“務(wù)列”能持練/推任自排隊(duì) 19通過“占”能持務(wù)占資源 20通過“存分”能持任務(wù)加駐 21通過“類源池功支物理/擬換 22通過“遷移功支持AI任務(wù)滑移 23通過“多Arch”架可支持AI算圖渲染 25OrionX持元構(gòu)芯片 28性能試 30測試境 30測試果 31兼容列表 33圖表目錄圖表1-1全球人工智能市場規(guī)模走勢圖 1圖表2-1GPU資源池化技術(shù)演進(jìn)圖 2圖表3-1ORIONX架構(gòu)圖 3圖表5-1ORIONX邏輯架構(gòu)圖 5圖表5-2管理平面邏輯結(jié)構(gòu)圖 8圖表5-3數(shù)據(jù)平面邏輯結(jié)構(gòu)圖 9圖表6-1ORIONX與容器云平臺(tái)集成 10圖表6-2ORIONX和KUBERNETES集成 11圖表6-3ORIONX和KVM12圖表6-5ORIONX和VMWARE集成 13圖表7-1通過化零為整功能支持訓(xùn)練 15圖表7-2通過隔空取物功能支持訓(xùn)練 16圖表7-3通過化整為零功能支持推理 17圖表7-4通過隔空取物功能支持推理 18圖表7-5通過隨需應(yīng)變功能支持訓(xùn)練/推理 19圖表8-1模型推理測試結(jié)果 31圖表8-2模型訓(xùn)練測試結(jié)果 32引言20202025620201600圖表1-1全球人工智能市場規(guī)模走勢圖作為AIGPUFPGAAI根據(jù)IDC202156.920202025108.6億美元,其五年復(fù)合增長率為25.3%。AI地使用昂貴的AIAIAIAIAI雜性、提高AIGPU資源池化技術(shù)的演進(jìn)GPU資源池化技術(shù)從初期的簡單虛擬化,到資源池化,經(jīng)歷了四個(gè)技術(shù)演進(jìn)階段。簡單虛擬化GPU2的NPUUPUAIAI任意虛擬化AI應(yīng)vGPU。遠(yuǎn)程調(diào)用AI應(yīng)用與物理GPUGPUAIGPU資源池化vGPU圖表2-1GPU資源池化技術(shù)演進(jìn)圖OrionX產(chǎn)品概述趨動(dòng)科技的OrionX(獵戶座)AI算力資源池化解決方案已經(jīng)實(shí)現(xiàn)了上述四個(gè)階段的技術(shù)功能,可以為用戶提供GPU資源池化的整體解決方案。OrionXAI使用數(shù)據(jù)中心內(nèi)任何服務(wù)器之上的AIOrionXAIAI圖表3-1OrionX架構(gòu)圖OrionXAIAIGPUAIAIvGPUOrionXvGPUGPUOrionXGPUGPUOrionX產(chǎn)品優(yōu)勢OrionXGPUAIGPUAIOrionX提高利用率GPUAIGPU3-10倍,1N高性能vGPUvGPU2%。vGPU輕松彈性擴(kuò)展GPUGPU全分布式部署,通過TCP/IP靈活調(diào)度支持AIGPUCPUGPU全局管理GPUAI開發(fā)人員友好AIGPU/CPUOrionX軟件架構(gòu)OrionX的邏輯架構(gòu)一個(gè)典型的XU資源池的邏輯架構(gòu)中包含了iXClr(C、iSrce(SiXlitRieCTXU()OrionXGPUAI算力。OrionX圖表5-1OrionX邏輯架構(gòu)圖CUDA(ComputeUnifiedDeviceArchitecture)NvidiaGPU2007AI、MXNetPaddlePaddle都是基于CUDAOrionX在管理物理GPUCUDAAI應(yīng)用提供一個(gè)與NvidiaCUDASDK接口功能一致的運(yùn)行環(huán)境,從而使得AI應(yīng)用透明無感知地運(yùn)行在OrionXGPUOrionXCUDACUDAOrionX的功能組件OrionXController(OC)OrionXControllerOrionX接或者間接通過網(wǎng)絡(luò)連接到iXClriXPUIPGPUOrionXGPUOrionXControllerOrionX2+1OrionXControllerLicense提供運(yùn)維所需要的各種RestAPI。OrionXServerService(OSS)OrionXServerServiceGPUOrionXOrionXServerServiceOrionXOrionXServerServiceGPUGPU資源抽象成彈性的vGPU。執(zhí)行AIOrionXClientRuntime(OCRT)OrionXClientRuntime是一套兼容NvidiaCUDACUDAAI應(yīng)用在使用NvidiaGPUOrionXClientRuntime。由OrionXClientRuntime提供和NvidiaGPUCUDAGPUOrionXClientRuntime部署在每一個(gè)應(yīng)用環(huán)境下,替代原有的NvidiaCUDASDK。OrionXClientRuntime提供如下功能:兼容CUDAOrionXGUI(OG)OrionXGUI給運(yùn)維提供一個(gè)友好的GUI界面,方便管理員對OrionX整體資源池進(jìn)行全面管理。OrionXGUI提供如下功能:OrionX組件間通信OrionX的各個(gè)功能組件通過管理平面網(wǎng)絡(luò)和數(shù)據(jù)平面網(wǎng)絡(luò)進(jìn)行通信,共同完成GPU資源池的管理以及GPU資源的調(diào)度等功能。管理平面OrionXTCP/IPOrionXController圖表5-2管理平面邏輯結(jié)構(gòu)圖通過私有的同步協(xié)議,分布式部署的各個(gè)功能組件具有如下特點(diǎn):OrionXController數(shù)據(jù)平面OrionX的數(shù)據(jù)面。該數(shù)據(jù)面支持多種后端數(shù)據(jù)傳輸載體,包括TCP/IP以太網(wǎng)絡(luò)、RoCERDMA、InfinibandRDMA、ShareMemory支持虛擬機(jī)、容器和宿主機(jī)之間的TCP/IP圖表5-3數(shù)據(jù)平面邏輯結(jié)構(gòu)圖部署形態(tài)OrionXBinaryOrionXLinuxOrionXCentOS、UbuntuDebianLinuxKVMDockerKubernetesOrionX與容器云平臺(tái)集成OrionXOrionXOrionXGPUOrionXGPUDrivers、CUDA、CUDNNNCCLOrionXClientRuntimeAI應(yīng)AI圖表6-1OrionX與容器云平臺(tái)集成OrionXKubernetes集成OrionXKubernetesK8SK8SGPUvGPUDefinedDataCenter,OrionXKubernetesOrionXKubernetesDevicePluginOrionXControllerOrionXGPU通過Kubernetes定義的DevicePlugin標(biāo)準(zhǔn)向Kubernetes注冊名字為/gpu的資源。OrionXKubernetesSchedulerExtender提供基于HTTPAPI通過配置文件向K/gpuOrionKubernetesSchedulerExtender的HTTP圖表6-2OrionX和Kubernetes集成OrionX與KVM集成OrionX支持原生KVM,各個(gè)組件都可以通過Binary方式部署。在KVM環(huán)境中,客戶使用OrionX組件的安裝腳本,就可以完成OrionX的基礎(chǔ)部署,輕松實(shí)現(xiàn)GPU資源池化。OrionXKVMOrionXControllerOrionXServerServiceBinary方OrionXClientRuntimeVMGPUDriversCUDA、CUDNN和NCCL等軟件棧都下沉到宿主機(jī)上。這樣,VM內(nèi)部只需安裝OrionXClientRuntimeAIAI基礎(chǔ)基于KVM的云平臺(tái),例如OpenStack,OrionX提供全開放的RestAPI接口,與Nova組件對接,實(shí)現(xiàn)GPU資源池中的vGPU資源在OpenStack中的集中配置和調(diào)度管理。圖表6-3OrionX和KVM集成OrionXVMware集成iXVeSiyVMS中,將物理,在該VMOrionXController和OrionXServerServiceVMVMAIOrionXClientRuntimeGPUGPU6-4OrionX和VMware集成OrionX應(yīng)用場景OrionX支持大模型場景的典型應(yīng)用AI通過“OrionXGPU(HorovodDistributedDataParallel)AIGPU支持訓(xùn)練等大模型場景,為用戶的AIHorovod是UberPython、、MXNetDistributedDataParallel(DDP),DDP屬于DatabatchsizeDDP通過Ring-Reduce的數(shù)據(jù)交換方法提高了通訊效率,并通過啟動(dòng)多個(gè)進(jìn)程的方式減輕PythonGIL的限制,從而提高訓(xùn)練速度。圖表7-1通過化零為整功能支持訓(xùn)練通過“OrionXGPUGPUAIOrionXGPUAIGPU物CUP“”圖表7-2通過隔空取物功能支持訓(xùn)練OrionX支持小模型場景的典型應(yīng)用GPU卡AIOrionXGPU通過“OrionXGPUvGPUvGPU算力切分的最小顆粒度為原物理GPU算力的1%;顯存切分的最小顆粒度為1MB。圖表7-3通過化整為零功能支持推理通過“OrionXGPUAI幫助用戶實(shí)現(xiàn)了CPUGPUCPUGPU需可以更好的平衡CPUGPU“”GPUvGPU圖表7-4通過隔空取物功能支持推理OrionX支持大/小模型場景的典型應(yīng)用通過“/OrionXGPUGPUOrionXvGPUAI而無需重啟掛載vGPUOrionXvGPU預(yù)留模式:GPUvGPU獲取模式vGPUAI資源GPUAI應(yīng)用結(jié)束,物理GPU圖表7-5通過隨需應(yīng)變功能支持訓(xùn)練/推理通過“/vGPU/OrionXOrionX允許對任務(wù)進(jìn)行隊(duì)列優(yōu)先級預(yù)設(shè),一旦資源缺乏導(dǎo)致任務(wù)進(jìn)入等待隊(duì)列,按照優(yōu)先級進(jìn)行全局排列,優(yōu)先匹配重要任務(wù)。圖表7-6通過任務(wù)隊(duì)列功能支持訓(xùn)練/推理任務(wù)自動(dòng)排隊(duì)通過“搶占”O(jiān)rionX圖表7-7通過搶占功能支持任務(wù)搶占資源通過“通常推理任務(wù)為滿足最佳用戶體驗(yàn),會(huì)將推理模型常駐顯存,24小時(shí)不中斷,以便擁有最快響應(yīng)速度。但是這類常駐任務(wù)一般算力利用極低,而且潮汐效應(yīng)明顯。iXiXPU在邏輯上擴(kuò)大GPUGPU根據(jù)業(yè)務(wù)特點(diǎn),OrionX還支持不同任務(wù)設(shè)置不同優(yōu)先級,從而保證突發(fā)高優(yōu)先級任務(wù)的服務(wù)質(zhì)量。圖表7-8通過顯存超分功能支持多任務(wù)疊加常駐通過“”/個(gè)別AINativeGPUOrionX支rnX(roXNativeGPU(GPU。OrionXOrionXGPU,GPUNativeGPUOrionXGPUNativeGPUOrionXAINativeGPUGPU7-9通過雙類資源池功能支持物理/虛擬切換通過“”功能支持AIOrionXGPUGUIdriver/runtime應(yīng)用場景1:算力池資源負(fù)載均衡GPUGPU遷移前:遷移后:圖表7-10算力池資源負(fù)載均衡應(yīng)用場景2:算力資源碎片整理GPU遷移前:遷移后:圖表7-11算力資源碎片整理應(yīng)用場景3:GPU服務(wù)器下線維護(hù)GPU服務(wù)器下線維護(hù),主要應(yīng)用在GPU物理服務(wù)器計(jì)劃停機(jī)維護(hù)場景,GPU物理服務(wù)器因?yàn)檫w移前:遷移后:圖表7-12GPU服務(wù)器下線維護(hù)通過“Arch”AIOrionXMulti-Arch(Arch)vGPUAICUDAOpenGLArch架構(gòu)下,單個(gè)容器或虛擬機(jī)可運(yùn)行多協(xié)議CUD+OpnGICDOpenL圖表7-13通過多Arch架構(gòu)可同時(shí)支持AI計(jì)算與圖形渲染應(yīng)用場景1:虛擬數(shù)字人推理場景IP24ArchvGPUAI圖表7-14虛擬數(shù)字人推理場景應(yīng)用場景2:研究科學(xué)計(jì)算場景GPUOpenGLArchvGPU圖表7-15研究科學(xué)計(jì)算場景OrionX支持多元異構(gòu)算力芯片OrionXAI()AI()OrionXGPU(AI()圖表7-16OrionX支持多元異構(gòu)算力芯片AIOrionXAIAIAI11MBAIAI性能測試測試環(huán)境硬件配置IntelXeonGo
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 二零二五版滅火器經(jīng)銷商招募與培訓(xùn)合同3篇
- 2025年度冷鏈?zhǔn)称飞a(chǎn)項(xiàng)目1#車間能源管理服務(wù)合同4篇
- 2025年度土地經(jīng)營權(quán)流轉(zhuǎn)合同范本
- 二零二五年度城市更新項(xiàng)目安置房租賃合同范本3篇
- 2025年陽臺(tái)封閉工程節(jié)能環(huán)保材料供應(yīng)合同2篇
- 二零二五年度在線教育平臺(tái)股權(quán)出售合同4篇
- 二零二五版農(nóng)業(yè)機(jī)械租賃與供應(yīng)鏈管理合同4篇
- 二零二五年度電視劇特效制作與采購合同4篇
- 二零二四年度醫(yī)院保潔人員綠化養(yǎng)護(hù)與病蟲害防治合同3篇
- 二零二五年度智能交通系統(tǒng)承包商款項(xiàng)安全保障合同4篇
- 無人化農(nóng)場項(xiàng)目可行性研究報(bào)告
- 《如何存款最合算》課件
- 社區(qū)團(tuán)支部工作計(jì)劃
- 拖欠工程款上訪信范文
- 2024屆上海市金山區(qū)高三下學(xué)期二模英語試題(原卷版)
- 學(xué)生春節(jié)安全教育
- 《wifi協(xié)議文庫》課件
- 《好東西》:女作者電影的話語建構(gòu)與烏托邦想象
- 教培行業(yè)研究系列(七):出國考培的再研究供需變化的新趨勢
- GB/T 44895-2024市場和社會(huì)調(diào)查調(diào)查問卷編制指南
- 高三日語一輪復(fù)習(xí)助詞「で」的用法課件
評論
0/150
提交評論