OrionX AI算力資源池化解決方案技術(shù)白皮書

上傳人：b*** IP屬地：北京上傳時(shí)間：2024-05-22 格式：DOCX 頁數(shù)：36 大?。?.40MB 積分：20 舉報(bào) 版權(quán)申訴

已閱讀5頁，還剩31頁未讀，繼續(xù)免費(fèi)閱讀

版權(quán)說明：本文檔由用戶提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

目錄引言 1GPU資池技的進(jìn) 2OrionX品述 3OrionX品勢 4OrionX件構(gòu) 5OrionX邏架構(gòu) 5OrionX功組件 6OrionXController（OC） 6OrionXServerService（OSS） 6OrionXClientRuntime（OCRT） 7OrionXGUI（OG） 7OrionX件通信 7管理面 8數(shù)據(jù)面 8部署態(tài) 10OrionX容云臺(tái)成 10OrionX與KubernetesOrionX與KVMOrionX與VMware12OrionX用景 14OrionX持模場典型用 14通過“零整”能持練 14通過“空物”能持練 15OrionX持模場典型用 16通過“整零”能持理 16通過“空物”能持理 17OrionX持大/模場的典應(yīng)用 18通過“需變”能持練/推理 18通過“務(wù)列”能持練/推任自排隊(duì) 19通過“占”能持務(wù)占資源 20通過“存分”能持任務(wù)加駐 21通過“類源池功支物理/擬換 22通過“遷移功支持AI任務(wù)滑移 23通過“多Arch”架可支持AI算圖渲染 25OrionX持元構(gòu)芯片 28性能試 30測試境 30測試果 31兼容列表 33圖表目錄圖表1-1全球人工智能市場規(guī)模走勢圖 1圖表2-1GPU資源池化技術(shù)演進(jìn)圖 2圖表3-1ORIONX架構(gòu)圖 3圖表5-1ORIONX邏輯架構(gòu)圖 5圖表5-2管理平面邏輯結(jié)構(gòu)圖 8圖表5-3數(shù)據(jù)平面邏輯結(jié)構(gòu)圖 9圖表6-1ORIONX與容器云平臺(tái)集成 10圖表6-2ORIONX和KUBERNETES集成 11圖表6-3ORIONX和KVM12圖表6-5ORIONX和VMWARE集成 13圖表7-1通過化零為整功能支持訓(xùn)練 15圖表7-2通過隔空取物功能支持訓(xùn)練 16圖表7-3通過化整為零功能支持推理 17圖表7-4通過隔空取物功能支持推理 18圖表7-5通過隨需應(yīng)變功能支持訓(xùn)練/推理 19圖表8-1模型推理測試結(jié)果 31圖表8-2模型訓(xùn)練測試結(jié)果 32引言20202025620201600圖表1-1全球人工智能市場規(guī)模走勢圖作為AIGPUFPGAAI根據(jù)IDC202156.920202025108.6億美元，其五年復(fù)合增長率為25.3%。AI地使用昂貴的AIAIAIAIAI雜性、提高AIGPU資源池化技術(shù)的演進(jìn)GPU資源池化技術(shù)從初期的簡單虛擬化，到資源池化，經(jīng)歷了四個(gè)技術(shù)演進(jìn)階段。簡單虛擬化GPU2的NPUUPUAIAI任意虛擬化AI應(yīng)vGPU。遠(yuǎn)程調(diào)用AI應(yīng)用與物理GPUGPUAIGPU資源池化vGPU圖表2-1GPU資源池化技術(shù)演進(jìn)圖OrionX產(chǎn)品概述趨動(dòng)科技的OrionX（獵戶座）AI算力資源池化解決方案已經(jīng)實(shí)現(xiàn)了上述四個(gè)階段的技術(shù)功能，可以為用戶提供GPU資源池化的整體解決方案。OrionXAI使用數(shù)據(jù)中心內(nèi)任何服務(wù)器之上的AIOrionXAIAI圖表3-1OrionX架構(gòu)圖OrionXAIAIGPUAIAIvGPUOrionXvGPUGPUOrionXGPUGPUOrionX產(chǎn)品優(yōu)勢OrionXGPUAIGPUAIOrionX提高利用率GPUAIGPU3-10倍，1N高性能vGPUvGPU2%。vGPU輕松彈性擴(kuò)展GPUGPU全分布式部署，通過TCP/IP靈活調(diào)度支持AIGPUCPUGPU全局管理GPUAI開發(fā)人員友好AIGPU/CPUOrionX軟件架構(gòu)OrionX的邏輯架構(gòu)一個(gè)典型的XU資源池的邏輯架構(gòu)中包含了iXClr（C、iSrce（SiXlitRieCTXU（）OrionXGPUAI算力。OrionX圖表5-1OrionX邏輯架構(gòu)圖CUDA(ComputeUnifiedDeviceArchitecture)NvidiaGPU2007AI、MXNetPaddlePaddle都是基于CUDAOrionX在管理物理GPUCUDAAI應(yīng)用提供一個(gè)與NvidiaCUDASDK接口功能一致的運(yùn)行環(huán)境，從而使得AI應(yīng)用透明無感知地運(yùn)行在OrionXGPUOrionXCUDACUDAOrionX的功能組件OrionXController（OC）OrionXControllerOrionX接或者間接通過網(wǎng)絡(luò)連接到iXClriXPUIPGPUOrionXGPUOrionXControllerOrionX2+1OrionXControllerLicense提供運(yùn)維所需要的各種RestAPI。OrionXServerService（OSS）OrionXServerServiceGPUOrionXOrionXServerServiceOrionXOrionXServerServiceGPUGPU資源抽象成彈性的vGPU。執(zhí)行AIOrionXClientRuntime（OCRT）OrionXClientRuntime是一套兼容NvidiaCUDACUDAAI應(yīng)用在使用NvidiaGPUOrionXClientRuntime。由OrionXClientRuntime提供和NvidiaGPUCUDAGPUOrionXClientRuntime部署在每一個(gè)應(yīng)用環(huán)境下，替代原有的NvidiaCUDASDK。OrionXClientRuntime提供如下功能：兼容CUDAOrionXGUI（OG）OrionXGUI給運(yùn)維提供一個(gè)友好的GUI界面，方便管理員對OrionX整體資源池進(jìn)行全面管理。OrionXGUI提供如下功能：OrionX組件間通信OrionX的各個(gè)功能組件通過管理平面網(wǎng)絡(luò)和數(shù)據(jù)平面網(wǎng)絡(luò)進(jìn)行通信，共同完成GPU資源池的管理以及GPU資源的調(diào)度等功能。管理平面OrionXTCP/IPOrionXController圖表5-2管理平面邏輯結(jié)構(gòu)圖通過私有的同步協(xié)議，分布式部署的各個(gè)功能組件具有如下特點(diǎn)：OrionXController數(shù)據(jù)平面OrionX的數(shù)據(jù)面。該數(shù)據(jù)面支持多種后端數(shù)據(jù)傳輸載體，包括TCP/IP以太網(wǎng)絡(luò)、RoCERDMA、InfinibandRDMA、ShareMemory支持虛擬機(jī)、容器和宿主機(jī)之間的TCP/IP圖表5-3數(shù)據(jù)平面邏輯結(jié)構(gòu)圖部署形態(tài)OrionXBinaryOrionXLinuxOrionXCentOS、UbuntuDebianLinuxKVMDockerKubernetesOrionX與容器云平臺(tái)集成OrionXOrionXOrionXGPUOrionXGPUDrivers、CUDA、CUDNNNCCLOrionXClientRuntimeAI應(yīng)AI圖表6-1OrionX與容器云平臺(tái)集成OrionXKubernetes集成OrionXKubernetesK8SK8SGPUvGPUDefinedDataCenter，OrionXKubernetesOrionXKubernetesDevicePluginOrionXControllerOrionXGPU通過Kubernetes定義的DevicePlugin標(biāo)準(zhǔn)向Kubernetes注冊名字為/gpu的資源。OrionXKubernetesSchedulerExtender提供基于HTTPAPI通過配置文件向K/gpuOrionKubernetesSchedulerExtender的HTTP圖表6-2OrionX和Kubernetes集成OrionX與KVM集成OrionX支持原生KVM，各個(gè)組件都可以通過Binary方式部署。在KVM環(huán)境中，客戶使用OrionX組件的安裝腳本，就可以完成OrionX的基礎(chǔ)部署，輕松實(shí)現(xiàn)GPU資源池化。OrionXKVMOrionXControllerOrionXServerServiceBinary方OrionXClientRuntimeVMGPUDriversCUDA、CUDNN和NCCL等軟件棧都下沉到宿主機(jī)上。這樣，VM內(nèi)部只需安裝OrionXClientRuntimeAIAI基礎(chǔ)基于KVM的云平臺(tái)，例如OpenStack，OrionX提供全開放的RestAPI接口，與Nova組件對接，實(shí)現(xiàn)GPU資源池中的vGPU資源在OpenStack中的集中配置和調(diào)度管理。圖表6-3OrionX和KVM集成OrionXVMware集成iXVeSiyVMS中，將物理，在該VMOrionXController和OrionXServerServiceVMVMAIOrionXClientRuntimeGPUGPU6-4OrionX和VMware集成OrionX應(yīng)用場景OrionX支持大模型場景的典型應(yīng)用AI通過“OrionXGPU（HorovodDistributedDataParallel）AIGPU支持訓(xùn)練等大模型場景，為用戶的AIHorovod是UberPython、、MXNetDistributedDataParallel(DDP),DDP屬于DatabatchsizeDDP通過Ring-Reduce的數(shù)據(jù)交換方法提高了通訊效率，并通過啟動(dòng)多個(gè)進(jìn)程的方式減輕PythonGIL的限制，從而提高訓(xùn)練速度。圖表7-1通過化零為整功能支持訓(xùn)練通過“OrionXGPUGPUAIOrionXGPUAIGPU物CUP“”圖表7-2通過隔空取物功能支持訓(xùn)練OrionX支持小模型場景的典型應(yīng)用GPU卡AIOrionXGPU通過“OrionXGPUvGPUvGPU算力切分的最小顆粒度為原物理GPU算力的1%；顯存切分的最小顆粒度為1MB。圖表7-3通過化整為零功能支持推理通過“OrionXGPUAI幫助用戶實(shí)現(xiàn)了CPUGPUCPUGPU需可以更好的平衡CPUGPU“”GPUvGPU圖表7-4通過隔空取物功能支持推理OrionX支持大/小模型場景的典型應(yīng)用通過“/OrionXGPUGPUOrionXvGPUAI而無需重啟掛載vGPUOrionXvGPU預(yù)留模式：GPUvGPU獲取模式vGPUAI資源GPUAI應(yīng)用結(jié)束，物理GPU圖表7-5通過隨需應(yīng)變功能支持訓(xùn)練/推理通過“/vGPU/OrionXOrionX允許對任務(wù)進(jìn)行隊(duì)列優(yōu)先級預(yù)設(shè)，一旦資源缺乏導(dǎo)致任務(wù)進(jìn)入等待隊(duì)列，按照優(yōu)先級進(jìn)行全局排列，優(yōu)先匹配重要任務(wù)。圖表7-6通過任務(wù)隊(duì)列功能支持訓(xùn)練/推理任務(wù)自動(dòng)排隊(duì)通過“搶占”O(jiān)rionX圖表7-7通過搶占功能支持任務(wù)搶占資源通過“通常推理任務(wù)為滿足最佳用戶體驗(yàn)，會(huì)將推理模型常駐顯存，24小時(shí)不中斷，以便擁有最快響應(yīng)速度。但是這類常駐任務(wù)一般算力利用極低，而且潮汐效應(yīng)明顯。iXiXPU在邏輯上擴(kuò)大GPUGPU根據(jù)業(yè)務(wù)特點(diǎn)，OrionX還支持不同任務(wù)設(shè)置不同優(yōu)先級，從而保證突發(fā)高優(yōu)先級任務(wù)的服務(wù)質(zhì)量。圖表7-8通過顯存超分功能支持多任務(wù)疊加常駐通過“”/個(gè)別AINativeGPUOrionX支rnX（roXNativeGPU（GPU。OrionXOrionXGPU,GPUNativeGPUOrionXGPUNativeGPUOrionXAINativeGPUGPU7-9通過雙類資源池功能支持物理/虛擬切換通過“”功能支持AIOrionXGPUGUIdriver/runtime應(yīng)用場景1：算力池資源負(fù)載均衡GPUGPU遷移前：遷移后：圖表7-10算力池資源負(fù)載均衡應(yīng)用場景2：算力資源碎片整理GPU遷移前：遷移后：圖表7-11算力資源碎片整理應(yīng)用場景3：GPU服務(wù)器下線維護(hù)GPU服務(wù)器下線維護(hù)，主要應(yīng)用在GPU物理服務(wù)器計(jì)劃停機(jī)維護(hù)場景，GPU物理服務(wù)器因?yàn)檫w移前：遷移后：圖表7-12GPU服務(wù)器下線維護(hù)通過“Arch”AIOrionXMulti-Arch（Arch）vGPUAICUDAOpenGLArch架構(gòu)下，單個(gè)容器或虛擬機(jī)可運(yùn)行多協(xié)議CUD+OpnGICDOpenL圖表7-13通過多Arch架構(gòu)可同時(shí)支持AI計(jì)算與圖形渲染應(yīng)用場景1：虛擬數(shù)字人推理場景IP24ArchvGPUAI圖表7-14虛擬數(shù)字人推理場景應(yīng)用場景2：研究科學(xué)計(jì)算場景GPUOpenGLArchvGPU圖表7-15研究科學(xué)計(jì)算場景OrionX支持多元異構(gòu)算力芯片OrionXAI（）AI（）OrionXGPU（AI（）圖表7-16OrionX支持多元異構(gòu)算力芯片AIOrionXAIAIAI11MBAIAI性能測試測試環(huán)境硬件配置IntelXeonGo

人人文庫> 全部分類> 行業(yè)資料 > 信息產(chǎn)業(yè)

溫馨提示

1. 本站所有資源如無特殊說明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽，若沒有圖紙預(yù)覽就沒有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間，僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理，對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對任何下載內(nèi)容負(fù)責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容，請與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

OrionX AI算力資源池化解決方案技術(shù)白皮書

文檔簡介

溫馨提示

最新文檔

評論

OrionX AI算力資源池化解決方案技術(shù)白皮書

文檔簡介

溫馨提示

最新文檔

評論

相關(guān)文檔