2024下一代高性能算力底座技術白皮書-70正式版_第1頁
2024下一代高性能算力底座技術白皮書-70正式版_第2頁
2024下一代高性能算力底座技術白皮書-70正式版_第3頁
2024下一代高性能算力底座技術白皮書-70正式版_第4頁
2024下一代高性能算力底座技術白皮書-70正式版_第5頁
已閱讀5頁,還剩65頁未讀 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

前言DPU

是當下算力基礎設施的核心創(chuàng)新之一。如果把

CPU

比做大腦,那么

GPU

就好比是肌肉,而

DPU

就是神經(jīng)中樞。CPU

承載了應用生態(tài),提供了通用型算力;GPU

提供了高密度各類精度的算力,特別是在智算領域,對系統(tǒng)算力大小有決定性作用;DPU負責數(shù)據(jù)在各種

CPU

之間、CPU

GPU、以及

GPU

GPU

之間高效流通,很大程度上決定了系統(tǒng)是否能協(xié)同工作。DPU

作為數(shù)據(jù)中心的第三顆“主力芯片”,主要通過其專用處理器優(yōu)化數(shù)據(jù)中心的網(wǎng)絡、存儲、安全等處理性能,助力服務器運行效率顯著提升,有效降低成本。因此,在新型數(shù)據(jù)中心建設時,圍繞

DPU

構建數(shù)據(jù)中心網(wǎng)絡的基礎設施,在其上掛載了各種計算、存儲資源的節(jié)點,對于系統(tǒng)的資源彈性、運行效率、性能都大有益處。但是這種使用方式的變化,需要對現(xiàn)有云計算架構進行一定程度的變革,才能充分發(fā)揮出

DPU的優(yōu)勢。云計算中的頭部企業(yè)

AWS

與阿里云在

DPU

的應用方面也有成功案例,借助其軟硬件全棧自研的優(yōu)勢,快速完成了云計算系統(tǒng)的改造工作,實現(xiàn)了

DPU

大規(guī)模落地部署,在降低自身運營成本的同時為客戶提供更好的使用體驗,并產(chǎn)生了可觀的經(jīng)濟效益。這種正向循環(huán)促進了相關技術棧的快速迭代與成熟,也幫助他們發(fā)展成為云計算業(yè)務領域的領軍企業(yè)。隨著眾多芯片廠商投身到

DPU

技術領域后,業(yè)界對

DPU

的產(chǎn)品形態(tài)定義逐漸清晰,DPU

的技術標準也在不斷完善。從此

DPU

不再是行業(yè)巨頭的“專享”技術,基礎設施與云計算相關產(chǎn)業(yè)參與者都在尋求一種簡單高效的方法,將

DPU

的優(yōu)勢運用到自身業(yè)務系統(tǒng)之中,例如

Red

Hat、VMware、Palo

Alto

等公司紛紛推出相關解決方案。這些方案背后共同的本質思想是:將云計算的

IaaS

層組件從服務器側卸載后圍繞

DPU

構筑高性能算力底座,與

AWS、阿里云的技術路線不謀而合。我們將這種思想所代表的技術路線統(tǒng)一歸納命名為“IaaS

on

DPU

(IoD)”技術路線,簡稱

IoD。本文重點闡述了

IoD

技術的構成以及與當前主流云計算體系的融合方案,從計算、網(wǎng)絡、存儲、安全、管控等幾個方面進行深度分析,論證了基于

DPU

構建云計算基礎設施服務(IaaS)的性能優(yōu)勢與建設路徑。隨著

DPU

技術的成熟,不論從功能完備性、系統(tǒng)穩(wěn)定性還是性價比角度,DPU

均已經(jīng)具備在大規(guī)模生產(chǎn)環(huán)境落地應用的條件。某種程度上,IoD

技術已成為下一代高性能算力底座的核心技術與最佳實踐。目錄前言ii第

1

云計算發(fā)展趨勢111233456671.1

云計算系統(tǒng)已經(jīng)成為數(shù)字世界的“操作系統(tǒng)”

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.1.1.1

云計算的發(fā)展歷程

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.1.1.2

云計算技術特點

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.1.2

AI

產(chǎn)業(yè)催生高性能云計算需求

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.1.2.1

AI

技術發(fā)展概述

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.1.2.2

云計算性能對

AI

計算影響重大

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.1.2.3

主流

AI

訓練的云計算支撐架構

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.1.3

IaaS

on

DPU(IoD)

算力底座技術路線

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.1.3.1

IoD

發(fā)展歷程

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.1.3.2

IoD

技術路線解析

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.1.3.3

高性能云計算的規(guī)格定義

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

101.4

IoD

高性能云計算應用范式

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

131.4.1

“兼容并包”的公有云

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

131.4.2

“安全強大”的私有云

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

141.4.3

“小巧精美”的邊緣云

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

151.4.4

“異軍突起”的智算云

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

151.4.5

“電光火石”的低時延云

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

16第

2

云計算業(yè)務模型分析182.1

當前主流云計算體系結構

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

182.1.1

硬件部分

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

182.1.2

基礎軟件

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

192.1.3

云管平臺

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

192.1.4

業(yè)務服務

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

202.2

計算業(yè)務分析

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

202.2.1

裸金屬服務器

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

21目錄2.2.2

虛擬機

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

212.2.3

容器

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

222.2.4

GPU

服務器

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

222.2.5

應用場景與選擇策略

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

232.3

網(wǎng)絡業(yè)務分析

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

242.4

存儲業(yè)務分析

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

252.5

安全業(yè)務分析

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

262.6

平臺服務業(yè)務分析

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

272.6.1

數(shù)據(jù)庫

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

272.6.2

中間件

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

272.6.3

服務治理

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

28第

3

高性能云計算基礎設施建設路徑293.1

通用算力技術分析

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

293.1.1

CPU

的計算能力發(fā)展歷程

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

293.1.2

云計算卸載技術為

CPU

算力提升帶來的優(yōu)勢

.

.

.

.

.

.

.

.

.

.

.

.

303.1.3

IoD

技術為

Hypervisor

卸載提供最佳支撐

.

.

.

.

.

.

.

.

.

.

.

.

.

.

323.2

智算算力技術分析

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

343.2.1

GPU

的計算能力發(fā)展歷程

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

343.2.2

GPU

算力提升帶來與網(wǎng)絡吞吐的矛盾現(xiàn)狀

.

.

.

.

.

.

.

.

.

.

.

.

.

.

353.2.3

無損網(wǎng)絡技術為

AI

訓練帶來的性能提升

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

363.3

云計算網(wǎng)絡技術分析

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

383.3.1

云計算網(wǎng)絡是算力連通的基礎

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

383.3.2

云計算網(wǎng)關是算力開放的門戶

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

393.3.3

高性能云計算需要網(wǎng)絡卸載進行性能提升

.

.

.

.

.

.

.

.

.

.

.

.

.

.

393.4

云計算存儲技術分析

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

423.4.1

單一存儲技術方案無法滿足云計算要求

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

423.4.2

云存儲需要引入新技術突破性能限制

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

433.4.3

IoD

技術可以提升存算分離架構下的處理性能

.

.

.

.

.

.

.

.

.

.

.

.

443.5

云計算安全技術分析

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

453.5.1

紛繁龐雜的云計算安全體系

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

453.5.2

安全處理性能提升需要異構算力加持

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

46All

Rights

Reservediv目錄3.5.3

安全卸載技術在高性能云安全中至關重要

.

.

.

.

.

.

.

.

.

.

.

.

.

.

473.5.4

DPU

將成為可信計算服務中的重要組件

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

473.5.5

IoD

技術助力構建“零信任”網(wǎng)絡

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

483.6

云計算服務治理技術分析

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

503.6.1

服務治理技術是云原生時代的重要基礎

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

503.6.2

傳統(tǒng)服務治理技術的局限性

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

503.6.3

IoD

技術帶來新的服務治理模式

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

513.7

IaaS

on

DPU(IoD)

高性能云計算全景

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

51第

4

高性能云計算系統(tǒng)架構持續(xù)演進534.1

高性能云計算可觀測性建設

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

534.1.1

可觀測建設是云計算運維體系的關鍵環(huán)節(jié)

.

.

.

.

.

.

.

.

.

.

.

.

.

.

534.1.2

當前觀測方法所面臨的難題

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

544.1.3

高性能云可觀測性建設建議

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

554.2

輕量級虛擬化系統(tǒng)演進架構革新

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

564.2.1

輕量級虛擬化技術演進路線

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

564.2.2

輕量級虛擬化技術為云計算帶來新氣象

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

574.2.3

DPU+

輕量級虛擬化

=

新一代技術革命

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

584.3

“一云多芯”系統(tǒng)融合

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

594.3.1

“一云多芯”的應用困境

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

594.3.2

IoD

技術有助于完善“一云多芯”的服務評估體系

.

.

.

.

.

.

.

.

.

59第

5

高性能云計算為

PaaS

服務賦能615.1

高性能大數(shù)據(jù)計算服務

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

615.2

高性能中間件服務

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

625.3

高性能數(shù)據(jù)庫服務

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

62第

6

未來展望64All

Rights

Reservedv第

1

云計算發(fā)展趨勢1.1

云計算系統(tǒng)已經(jīng)成為數(shù)字世界的“操作系統(tǒng)”1.1.1

云計算的發(fā)展歷程云計算技術的最初起源可以追溯到

20

世紀

50

年代

Christopher

Strachey

發(fā)表的《Time

Sharing

in

Large

Fast

Computer》論文,開啟了對虛擬化技術探討的大門。隨后的

60

年代,以

IBM

MIT

為首的產(chǎn)業(yè)與學術巨頭紛紛投入相關研究并在虛擬化領域取得了眾多突破,最具代表性的事件是

1974

年,Gerald

J.

Popek

Robert

P.

Goldberg發(fā)表論文《Formal

Requirements

for

Virtualizable

Third

Generation

Architectures》,提出了波佩克與戈德堡虛擬化需求(Popek

and

Goldberg

virtualization

requirements)和

I

型與

II型虛擬化類型。隨著虛擬化技術的不斷成熟與基礎算力設施能力的提升,使得具備“彈性、按用計量、在線、無限”這幾個云計算典型特征的業(yè)務類型逐步具備了落地應用的可行性,期間虛擬化技術領域也涌現(xiàn)出了

Qemu、Xen、KVM

等眾多明星項目。終于在

2006

年,Google

時任

CEO

Eric

Schmidt

在搜索引擎大會上首次提出“Cloud

Computing”概念,亞馬遜在同年成立了亞馬遜網(wǎng)絡服務公司(AWS),云計算產(chǎn)業(yè)轟轟烈烈的發(fā)展起來。2010年,OpenStack

項目創(chuàng)建,標志著云計算技術進入平民化時代,將云計算行業(yè)發(fā)展正式推向了高潮。云計算技術的另一個分支,容器技術起源于

20

世紀

70

年代

Unix

V7

引入的

chroot工具,并在

2009

年以

LXC

形式成為

Linux

內核的容器管理器。容器技術憑借顯著的輕量化優(yōu)勢取得快速發(fā)展并借助

CNCF

社區(qū)進行大力推廣,在

2018

年發(fā)布的云原生技術定義中,容器被確立為云原生的代表技術之一。隨著業(yè)務的多樣化發(fā)展,云原生技術逐漸顯現(xiàn)出強大的統(tǒng)治力,成為未來發(fā)展的主要方向。伴隨著云計算的蓬勃發(fā)展,當前世界上的主要算力基礎設施幾乎都是通過云計算技術進行管理與調度,可以說云計算技術已經(jīng)成為數(shù)字世界的“操作系統(tǒng)”。1.1

云計算系統(tǒng)已經(jīng)成為數(shù)字世界的“操作系統(tǒng)”1.1.2

云計算技術特點云計算的發(fā)展呈現(xiàn)出顯著的業(yè)務驅動特征,當前

AIGC、IoT、5G/B5G、Web3.0

等行業(yè)的發(fā)展一方面要求云計算技術能為其提供融合性的底層技術支撐,能夠按需以裸金屬、容器或虛擬機形式承載上層業(yè)務,另一方面對云計算性能也提出了前所未有的要求。于是我們看到,OpenStack

社區(qū)涌現(xiàn)出大量容器相關項目,如

Zun、Magnum、Kyrur等,CNCF

社區(qū)中的

Kubevirt、Metal3

等項目也逐漸成熟,這些都是為提供多模態(tài)服務類型做出的努力。同時,融合了

CPU、GPU

DPU

的“3U

一體”新型服務器成為當前云計算算力基礎設施的主力形式,CPU

負責調度管理與運行業(yè)務進程,是通用“算力”的承載組件,GPU

負責提升大規(guī)模并行運算能力,是智算“算力”的核心引擎,DPU

負責算力集群基礎設施卸載與集群的聯(lián)通,三者通力合作,構成了高性能云計算的基礎底座。歷史的經(jīng)驗告訴我們,技術的發(fā)展總是呈現(xiàn)出螺旋式上升的樣貌。也總有人調侃,當前的問題都可以在故紙堆中找到答案。雖然異構運算并非新鮮事物,但隨著單項技術的突破與不同技術領域間的融合,在當下,如圖1.1所示的基于“3U

一體”的融合算力基礎設施構建的融合性云計算平臺,正是支撐不斷爆發(fā)的上層業(yè)務應用運轉的最佳實踐方案。圖

1.1:

“3U

一體”融合基礎設施總體來說,當前云計算技術的發(fā)展呈現(xiàn)出如下典型特征:業(yè)務承載多?;癁榱藵M足業(yè)務向云端平滑遷移的需求,會要求云平臺能夠適配業(yè)務系統(tǒng)的當前情況,從容器、虛擬機、裸金屬中選擇最佳的云上承載方式。例如對硬件設施有特All

Rights

Reserved21.2

AI

產(chǎn)業(yè)催生高性能云計算需求殊需求的業(yè)務需要通過裸金屬承載,對操作系統(tǒng)有特殊需求的業(yè)務以虛擬機承載,其余業(yè)務以容器承載。計算性能極致化在

AIGC

大爆發(fā)的背景下,上層業(yè)務系統(tǒng)從網(wǎng)絡性能、存儲性能、安全性能等眾多方面都對云平臺提出了更高的要求,百

G

級別的以太網(wǎng)絡接入能力已經(jīng)逐漸成為云計算系統(tǒng)的標配,400G

的無損網(wǎng)絡接入也逐漸在行業(yè)落地。系統(tǒng)構成組件化云計算技術體系越來越龐雜,單獨的封閉體系很難滿足來自業(yè)務系統(tǒng)層出不窮的各種需求,良好的模塊劃分與

API

設計已經(jīng)成為主流云計算系統(tǒng)的構成基礎?!伴_放、可替換”模式已經(jīng)成為云計算技術架構的主旋律。1.2

AI

產(chǎn)業(yè)催生高性能云計算需求1.2.1

AI

技術發(fā)展概述人工智能(Arti?cial

Intelligence,簡稱

AI)是指通過計算機技術和算法模擬人類智能的一種技術。目標是使計算機能夠模擬人的思維方式和行為,讓計算機可以像人類一樣思考和學習,并最終實現(xiàn)自主決策的智能化行為。進入

21

世紀后,互聯(lián)網(wǎng)的普及和大數(shù)據(jù)的爆發(fā)為

AI

提供了豐富的訓練材料,加速了算法的發(fā)展。2006

年加拿大

Hinton

教授提出了深度學習的概念,極大地發(fā)展了人工神經(jīng)網(wǎng)絡算法。2012

年,AlexNet

ImageNet

競賽中取得突破性成果,標志著深度學習時代的到來。當前人工智能處于深度學習和生成式

AI

大發(fā)展的時期。過去十多年基于深度學習的人工智能技術主要經(jīng)歷了如下的研究范式轉變:從早期的“數(shù)據(jù)標注監(jiān)督學習”的任務特定模型,到“無標注數(shù)據(jù)預訓練

+

標注數(shù)據(jù)微調”的預訓練模型,再到如今的“大規(guī)模無標注數(shù)據(jù)預訓練

+

指令微調

+

人類對齊”的大模型,經(jīng)歷了從小數(shù)據(jù)到大數(shù)據(jù),從小模型到大模型,從專用到通用的發(fā)展歷程,人工智能技術正逐步進入大模型時代。自

2017

Google

提出

Transformer

模型以來,AI

大語言模型(LLM,Large

LanguageModel)已取得飛速進展。2022

年底,由

OpenAI

發(fā)布的基于

GPT3.5

的語言大模型

ChatGPT

引發(fā)了社會的廣泛關注。在“大模型

+

大數(shù)據(jù)

+

大算力”的加持下,ChatGPT

能夠通過自然語言交互完成多種任務,具備了多場景、多用途、跨學科的任務處理能力。以

ChatGPT

為代表的All

Rights

Reserved31.2

AI

產(chǎn)業(yè)催生高性能云計算需求大模型技術可以在經(jīng)濟、法律、社會等眾多領域發(fā)揮重要作用,引發(fā)了大模型的發(fā)展熱潮。2024

年被稱為

AGI

元年,文生視頻大模型

Sora

的問世再次引爆了行業(yè)熱點,在通用問題上

AI

通過自學習實現(xiàn)從

GPT

GPT-Zero

的升級,開啟了

AGI

時代。1.2.2

云計算性能對

AI

計算影響重大隨著大模型和生成式

AI

的迅速發(fā)展,大模型參數(shù)規(guī)模和數(shù)據(jù)集不斷增加,2017

年到

2023

6

年間,AI

大模型參數(shù)量從

Transformer

6500

萬,增長到

GPT4

1.8

萬億,模型規(guī)模增長超過

2

萬倍。業(yè)界對智算算力的需求也水漲船高,據(jù)

Al

Now《計算能力和人工智能》報告指出,早期

Al

模型算力需求是每

21.3

個月翻一番,而

2010

年深度學習后(小模型時代),模型對

Al

算力需求縮短至

5.7

個月翻一番,而

2023

年,大模型需要的

Al

算力需求每

1-2

個月就翻—番,摩爾定律的增速顯著落后于社會對

Al

算力的指數(shù)級需求增長速度,即“Al

超級需求曲線”遙遙領先傳統(tǒng)架構的

Al

算力供給,帶來了Al

芯片產(chǎn)能瓶頸漲價等短期市場現(xiàn)象。根據(jù)工信部等部委

2023

10

月發(fā)布《算力基礎設施高質量發(fā)展行動計劃》,截至

2023

6

月底,我國算力總規(guī)模達到

197EFLOPS,智能算力規(guī)模占比達

25.4%。按照該計劃,我國

2023

年底智算算力要達到

220EFLOPS,2024

年要達到

260EFLOPS,2025

年要達到

300EFLOPS。如此龐大的智算算力需求對底層智算基礎設施性能、穩(wěn)定性、成本及安全性方面帶來巨大技術和成本挑戰(zhàn)。特別是智算云基礎設施在算力、網(wǎng)絡、存儲、調度等方面的性能對

AI

訓練過程有關鍵影響,是決定

AI

大模型訓練質量(效率、穩(wěn)定性、能耗、成本、信任等)的關鍵因素。底層智算云基礎上設施性能對

AI

訓練的質量有著重大影響,體現(xiàn)在多個方面:1.

數(shù)據(jù)處理能力:千億級模型的訓練需要使用文件、對象、塊等多種存取協(xié)議處理處理

PB

級規(guī)模的數(shù)據(jù)集,萬億級模型的訓練處理

checkpoint

的讀寫吞吐性能要求高達

10TB/s?,F(xiàn)有智算存儲設施在協(xié)議處理、數(shù)據(jù)管理、吞吐性能等方面面臨諸多挑戰(zhàn)。傳統(tǒng)智算的分布式文件存儲系統(tǒng)僅支持百節(jié)點級別擴展,節(jié)點規(guī)模小,難以滿足萬卡級集群的數(shù)據(jù)吞吐性能要求。高性能云計算平臺能夠高效地存儲和處理海量的訓練數(shù)據(jù)。數(shù)據(jù)預處理、清洗和標注等步驟可以在云端高效完成,確保輸入模型的數(shù)據(jù)質量,從而提升模型的準確性和泛化能力。2.

算力支持:云計算提供了彈性且強大的計算資源,特別是

GPU

TPU

等加速器,能夠大幅縮短

AI

模型的訓練時間。大規(guī)模并行處理能力使得處理復雜的深度學習模型成為可能,這對于模型收斂速度和訓練質量至關重要。All

Rights

Reserved4userid:529794,docid:169819,date:2024-07-27,1.2

AI

產(chǎn)業(yè)催生高性能云計算需求3.

分布式訓練:云計算平臺支持模型的分布式訓練,通過多節(jié)點并行計算,可以處理更大規(guī)模的數(shù)據(jù)集和更復雜的模型,同時減少訓練時間。這對于大型語言模型、圖像識別模型等尤為重要。4.

模型優(yōu)化:利用云計算資源,可以進行大量的模型調優(yōu)實驗,比如超參數(shù)調優(yōu)、模型架構搜索等,找到最優(yōu)模型配置。云計算的靈活性允許數(shù)據(jù)科學家和工程師快速迭代,提高模型性能。5.

存儲與

IO

性能:高速的存儲系統(tǒng)和優(yōu)化的

IO

性能減少了數(shù)據(jù)讀寫瓶頸,確保訓練過程中數(shù)據(jù)的快速存取,這對于大規(guī)模數(shù)據(jù)處理和模型訓練至關重要。6.

資源調度與自動化:云平臺的智能資源調度能力可以根據(jù)

AI

訓練任務的需求動態(tài)調整資源分配,保證計算資源的高效利用。自動化工具和服務進一步簡化了模型訓練流程,降低了操作復雜度。7.

成本效益:云計算的按需付費模式降低了進入門檻,使得企業(yè)和研究機構無需前期大量投資硬件設施,就可以開展高級

AI

項目,促進了

AI

技術的普及和創(chuàng)新。綜上所述,云計算不僅提供了必要的基礎設施來支撐

AI

訓練,還通過其靈活、高效、可擴展的特性,直接促進了

AI

模型訓練質量和效率的提升,推動了

AI

技術的快速發(fā)展和廣泛應用。1.2.3

主流

AI

訓練的云計算支撐架構智算云數(shù)據(jù)中心架構可劃分為基礎設施層、管理調度層、大模型平臺層、AIGC

應用層,各層的作用說明如圖1.2所示:圖

1.2:

智算中心架構基礎設施層適度超前建設,滿足面向未來客戶的算力多元化需求,基于開放計算,兼顧軟硬All

Rights

Reserved51.3

IaaS

on

DPU(IoD)

算力底座技術路線一體協(xié)同,構建多元融合型架構,將通用

CPU

與多元異構芯片集成,融合多種算力,充分釋放算力的價值?;陬I先的

AI

服務器為算力單元,支持成熟豐富的軟件生態(tài),形成高性能、高吞吐的計算系統(tǒng),為

AI

訓練和

AI

推理生產(chǎn)輸出強大、高效、易用的計算力。管理調度層硬件資源與

AI

應用松耦合,CPU

算力與

AI

算力按需配比,AI

算力資源按需調用,隨需應變,顯存可擴展、算力可超分。系統(tǒng)調度層一般采用云計算技術,根據(jù)資源池內算力資源使用情況,統(tǒng)一調度

AI任務,AI

算力資源采用聲明式申請,實現(xiàn)資源自動聚合,滿足單機單卡,單機多卡及多機多卡不同場景要求。大模型平臺層覆蓋

AI

模型開發(fā)部署全生命周期,提供預置行業(yè)算法、構建預訓練大模型,推進算法模型持續(xù)升級、提供專業(yè)化數(shù)據(jù)和算法服務,讓更多的用戶享受普適普惠的智能計算服務。AIGC

應用層使用云計算技術作為底層支撐,利用訓練過的模型對外提供

AI

服務,包括語音交互服務、文本交互服務、圖像生成服務與視頻生成服務等。需要滿足業(yè)務系統(tǒng)高可用性與快速迭代等需求。當前,主流

AI

框架主要采用云原生技術作為底層支撐,主流

AI

分布式訓練框架如圖1.3所示。1.3

IaaS

on

DPU(IoD)

算力底座技術路線1.3.1

IoD

發(fā)展歷程為了將算力基礎設施的能力充分發(fā)揮出來,云計算系統(tǒng)整體架構也在不斷演進。傳統(tǒng)的

IaaS

平臺組件功能全部由

CPU

算力承載,但是隨著對云計算性能需求的提升以及極致利用

CPU

算力需求的發(fā)展,基于

DPU

構建

IaaS

平臺的理念被提出與論證。這其中的佼佼者以亞馬遜網(wǎng)絡服務(AWS)為代表,根據(jù)披露的材料分析,自

2013

年發(fā)布

Nitro(DPU)

設備以來,AWS

的云計算服務體系逐漸改造為基于

DPU

構建并運行在

Nitro

設備中,服務器上的

CPU

算力被完全池化并以近乎

100%

的原始算力性能向客戶售賣。以此為基礎,AWS

構建了一整套高性能、高穩(wěn)定性的云服務體系,成為全球范圍內最大All

Rights

Reserved61.3

IaaS

on

DPU(IoD)

算力底座技術路線圖

1.3:

主流分布式訓練框架的云服務供應商。國內阿里云也采用類似的體系,其云服務體系與其自研的

DPU

設備緊密配合,幫助阿里云取得了巨大的成功。因此,IaaS

on

DPU,簡稱為

IoD,并非全新的概念,而是已經(jīng)被業(yè)內頭部企業(yè)充分論證過的技術方向,其商業(yè)價值也已經(jīng)經(jīng)過市場的考驗。但是如

AWS

等企業(yè)的

DPU

與云平臺經(jīng)過高度訂制化,難以簡單在業(yè)內推廣開來。隨著

Nvidia、Intel、AMD

等芯片行業(yè)的領軍企業(yè)進軍

DPU

賽道后,如何探索出一條通用云計算系統(tǒng)與標準

DPU

產(chǎn)品結合的路徑成為業(yè)內關注的焦點。上述芯片企業(yè)通過行業(yè)論壇或技術文章等方式發(fā)表過眾多類似的解決方案,將部分

IaaS

平臺能力下沉到

DPU

中。眾多云計算供應商如

RedHat、VMware

等也順應趨勢,展開了相關研究并在其產(chǎn)品中納入了相關能力。其中關鍵性事件是

OPI

ODPU

等標準化組織的成立,云廠商與

DPU

供應商紛紛參與其中探討

DPU

API

規(guī)范,DPU

API

規(guī)范可以將云平臺與

DPU

設備解耦,將

IoD

技術規(guī)范化并全面推向云計算行業(yè)。1.3.2

IoD

技術路線解析IoD

技術的核心思想是依托于

DPU

的異構運算能力,將云計算平臺的基礎設施組件盡可能下沉到

DPU

承載,實現(xiàn)節(jié)約

CPU

開銷與提升

IaaS

服務性能的目的。同時,基All

Rights

Reserved71.3

IaaS

on

DPU(IoD)

算力底座技術路線礎設施組件下沉到

DPU

之后,可以為服務器側運行的各種業(yè)務提供一致的網(wǎng)絡、存儲與安全底座,可以更好的將虛擬機、容器與裸金屬的業(yè)務調度收斂到統(tǒng)一平臺。如圖1.4所示為

IoD

架構下的系統(tǒng)模型。圖

1.4:

IoD

系統(tǒng)模型當前開源領域最主流的云計算平臺有

Openstack

體系與

Kubernetes

體系,雖然二者在虛擬技術和容器編排方向各有側重,但它們可以互補使用,并且隨著不斷地技術迭代,二者的業(yè)務覆蓋范圍也有所重疊??偟膩碚f,Openstack

系統(tǒng)更注重對物理設備的模擬,對業(yè)務隔離性與復雜業(yè)務系統(tǒng)的支持更加友好,適合作為重點以虛擬機為主并需要復雜網(wǎng)絡管理和多租戶環(huán)境的企業(yè)級

IaaS

平臺使用。它在虛擬機管理、網(wǎng)絡配置和企業(yè)級特性方面表現(xiàn)出色。Kubernetes系統(tǒng)則是從上層業(yè)務的架構設計與生命周期管理角度出發(fā),提供更好的業(yè)務編排特性與抽象層次更高的網(wǎng)絡與存儲特性,擁有更加豐富的系統(tǒng)組件和更加靈活的插件機制,更適合作為以容器業(yè)務為主的

IaaS+PaaS

綜合平臺使用,尤其是在需要高效管理容器化應用和自動化運維的場景中。值得一提的是,Kubernetes

體系中提供的

Service

Mesh

組件,在底層平臺提供了豐富的服務治理能力,其內置的服務發(fā)現(xiàn)、負載均衡、業(yè)務自愈、高可用、業(yè)務跟蹤、滾動發(fā)布等特性大幅簡化了業(yè)務系統(tǒng)的架構設計難度。借助于Kubernetes

體系更友好的插件機制,CNCF

社區(qū)發(fā)展迅速,也逐漸補足了

Kubernetes

其在虛擬化與業(yè)務隔離性方面的劣勢。從另一個方面來講,據(jù)

Gartner

統(tǒng)計,新建云計算平臺中選擇基于

Kubernetes

構建的比例越來越高,尤其是以

AI

相關的云計算基礎設施中,Kubernetes

體系占據(jù)絕對數(shù)量優(yōu)勢,已經(jīng)成為云計算技術發(fā)展與應用最主要的方向。由于以上原因,IoD

技術架構更推薦選擇采用擴展

Kubernetes

的形式,通過眾多插All

Rights

Reserved81.3

IaaS

on

DPU(IoD)

算力底座技術路線件將

DPU

能力引入到云原生技術棧中,并將

Worker

節(jié)點的基礎設施組件完全運行在DPU

中。圖

1.5:

IoD

技術架構圖如圖1.5所示,典型的

IoD

技術部署在

DPU

上的核心組件包括:BM-Agent:裸金屬業(yè)務組件,裸金屬系統(tǒng)盤采用

DPU

虛擬的磁盤,通過在虛擬磁盤中掛載用戶鏡像,可以實現(xiàn)裸金屬業(yè)務的快速切換與業(yè)務溫遷移。VM-Agent:虛擬機業(yè)務組件,通過監(jiān)控本機虛擬機聲明和實例資源,實現(xiàn)對服務器上所有虛機實例的管理。CM-Agent:容器業(yè)務組件,定期從

Kubernetes

接收新的或修改的

Pod

規(guī)范,并確保

Pod

及其容器在期望規(guī)范下運行。CNI-DPU:網(wǎng)絡插件,提供高性能網(wǎng)絡卸載方案,同時提供高性能網(wǎng)絡接入組件、可以靈活高效對接各種外部網(wǎng)絡。CSI-DPU:存儲插件,提供高性能存儲卸載方案,同時兼容多種存儲方案。Sec-DPU:安全插件,提供高性能分布式安全方案,是集群網(wǎng)絡安全策略執(zhí)行的錨點。Service

Agent:服務治理組件,可以根據(jù)業(yè)務需要通過流量劫持的方式實現(xiàn)服務治理功能,為虛擬機、容器以及裸金屬業(yè)務提供通用的服務治理能力。Image-Preheater:鏡像預加載組件,對通用的基礎鏡像進行多節(jié)點緩存,容器優(yōu)先調度使用具有預熱鏡像的

Worker

節(jié)點,以避免其頻繁拉取遠端鏡像。Target

Abstraction:驅動抽象層,用來對接各種

DPU

產(chǎn)品,屏蔽底層差異,需要與不同

DPU

開發(fā)套件進行適配。All

Rights

Reserved91.3

IaaS

on

DPU(IoD)

算力底座技術路線同時,為了將

DPU

融入進

Kubernetes

系統(tǒng),IoD

體系下的

Kubernetes

平臺也需要進行相應擴展,核心擴展包括:BM-Component:實現(xiàn)裸金屬業(yè)務定義與生命周期管理。VM-Component:實現(xiàn)虛擬機業(yè)務定義與生命周期管理。Kubernetes

原生組件:實現(xiàn)容器業(yè)務定義與生命周期管理。CNI-Controller:實現(xiàn)網(wǎng)絡服務定義與管理。CSI-Controller:實現(xiàn)存儲服務定義與管理。Sec-Controller:實現(xiàn)安全服務定義與管理。Service-Mesh:服務治理組件,實現(xiàn)服務治理規(guī)則定義與管理。Image-Controller:鏡像管理組件,提供容器、虛擬機、裸金屬鏡像統(tǒng)一管理與預熱策略下發(fā)功能。Cluster-Provider:提供集群部署與

DPU

節(jié)點生命周期管理功能。API-Server:提供對外

API

服務,暴漏底層

IaaS

能力。通過以上設計,已經(jīng)完成了云計算

IaaS

體系與

DPU

的結合并將主要組件下沉到DPU

系統(tǒng)。類似的設計方案對

Openstack

體系也完全適用。值得一提的是,通過前述方案中

API-Server

暴露的能力,在已經(jīng)完成

IoD

基礎環(huán)境搭建之后,不管是

Openstack

體系或者其他云平臺體系,都可以通過簡單的

API

集成,實現(xiàn)集群的

IoD

改造。通過

IoD

技術,可以為云計算體系提供以

DPU

為核心構造、軟硬件一體化高性能計算底座,對外提供統(tǒng)一管理、高可擴展性、高性能、低成本的

IaaS

服務。在硬件層面為“3U

一體”和“一云多芯”的異構算力管理提供更好的解決方案。通過對網(wǎng)絡、存儲、安全、管理等負載的卸載,釋放服務器的硬件資源,實現(xiàn)性能加速,提升基礎設施運行效率。此外,通過

IoD

的統(tǒng)一底座技術,可以為云計算系統(tǒng)提供容器、虛擬機、裸金屬業(yè)務的統(tǒng)一調度和運維管理能力,提升運維管理效率。1.3.3

高性能云計算的規(guī)格定義

高性能網(wǎng)絡規(guī)格定義在高性能云計算底座中,高性能網(wǎng)絡需要滿足一系列嚴格的要求:1.

帶寬(Throughput):

高性能計算集群通常需要處理大量數(shù)據(jù)傳輸,因此網(wǎng)絡必須All

Rights

Reserved101.3

IaaS

on

DPU(IoD)

算力底座技術路線提供極高的帶寬,以確保數(shù)據(jù)可以在節(jié)點間快速流動,減少傳輸瓶頸。例如,在科學計算、大數(shù)據(jù)處理、深度學習訓練等場景中,數(shù)據(jù)集可能達到

PB

級別,要求網(wǎng)絡帶寬至少達到百

GB

甚至更高。2.

延遲(Latency):

對于需要頻繁通信和數(shù)據(jù)交換的應用,網(wǎng)絡延遲需要控制在微秒級甚至納秒級,以保證系統(tǒng)的響應速度和實時性。3.

并發(fā)連接(Concurrency):

在高負載和大規(guī)模分布式環(huán)境中,單節(jié)點需要同時處理成數(shù)萬并發(fā)連接,確保每個連接都能得到及時響應。4.

網(wǎng)絡服務質量

(QoS):

不同類型的數(shù)據(jù)流和服務對網(wǎng)絡資源的需求和優(yōu)先級不同,QoS

功能允許網(wǎng)絡管理員根據(jù)服務類型動態(tài)分配帶寬和其他資源,確保關鍵應用的性能不受非關鍵流量的影響。5.

冗余:(Redundancy)高性能網(wǎng)絡應具備高度的彈性和冗余設計,即使部分組件出現(xiàn)故障,也能保持網(wǎng)絡的連通性和穩(wěn)定性。這意味著網(wǎng)絡需要有多條路徑和備份鏈路,以及自動故障檢測和恢復機制。6.

可管理性(Manageability):

網(wǎng)絡應易于管理和監(jiān)控,提供詳細的性能指標和日志記錄,幫助運維人員及時發(fā)現(xiàn)和解決問題。

高性能存儲規(guī)格定義在云計算場景下,存儲處理性能直接影響著系統(tǒng)的整體性能和用戶體驗,高性能存儲對于處理性能的規(guī)格定義通常包括以下關鍵指標和參數(shù):1.

吞吐量(Throughput):吞吐量是指存儲系統(tǒng)能夠處理的數(shù)據(jù)量或信息流量。高性能存儲目前主流性能在

100-400Gb/s,根據(jù)云規(guī)模的不同略有浮動。2.

IOPS(Input/Output

Operations

Per

Second):IOPS

是指存儲系統(tǒng)每秒鐘可以執(zhí)行的輸入/輸出操作次數(shù)。高性能存儲后端需要提供至少千萬級的總

IOPS

數(shù)據(jù)處理能力,特定場景如

AIGC

應用中,單個存儲前端也需要百萬級的單磁盤

IOPS

能力。3.

延遲(Latency):存儲系統(tǒng)的延遲是指數(shù)據(jù)請求從發(fā)起到完成所需的時間。考慮到存儲系統(tǒng)的額外延遲開銷,高性能云計算的延遲總體開銷應控制在亞毫秒級(即百微秒量級)。4.

容量(Capacity):存儲系統(tǒng)的容量指的是其可以存儲的數(shù)據(jù)量。在高性能存儲方案中,存儲容量可以達到

EB

級。5.

魯棒性(Robustness):高性能存儲系統(tǒng)需要具備高可靠性和高可用性,以確保數(shù)據(jù)的安全性和持續(xù)性。這包括數(shù)據(jù)冗余、故障恢復能力、備份與恢復機制等。All

Rights

Reserved111.3

IaaS

on

DPU(IoD)

算力底座技術路線6.

數(shù)據(jù)保護(Security):高性能存儲系統(tǒng)需要提供有效的數(shù)據(jù)保護機制,包括數(shù)據(jù)加密、訪問控制、數(shù)據(jù)備份等,以確保數(shù)據(jù)的安全性和完整性。7.

擴展性(Extendibility):高性能存儲系統(tǒng)應具備良好的擴展性,能夠根據(jù)需求靈活擴展存儲容量和性能,以適應不斷增長的數(shù)據(jù)需求。8.

融合性(Integration):高性能存儲系統(tǒng)通常支持多種存儲訪問協(xié)議,如

NFS、SMB、Object、iSCSI、FC、NVMe-oF

等,以滿足不同應用場景的需求。

高性能安全規(guī)格定義對于高性能云計算場景,傳統(tǒng)安全設備通常部署在網(wǎng)絡邊界處,無法部署在安全計算環(huán)境中,而傳統(tǒng)網(wǎng)絡安全軟件無論是防火墻、VPN、IPS

等產(chǎn)品都非常消耗服務器主機算力資源,這將嚴重影響服務器所承載業(yè)務應用的客戶體驗,也是當前計算環(huán)境的安全防護比較薄弱的一個重要原因。1.

算力損耗(Loss-rate):不因開啟網(wǎng)絡安全功能而導致處理高性能網(wǎng)絡處理性能明顯下降;安全計算環(huán)境開啟網(wǎng)絡安全軟件功能后,服務器主機算力資源消耗小,平均算力占用率不超過

5%。2.

吞吐量(Throughput):吞吐量是在各種幀長的滿負載雙向發(fā)送和接收數(shù)據(jù)包而沒有丟失情況下的最大數(shù)據(jù)傳輸速率,開啟安全功能后,安全吞吐量可能為正常情況的

70-90%。3.

延時(Latency):開啟安全功能后,網(wǎng)絡延時需要控制在微秒級。4.

會話數(shù)量(Number

of

session):最大會話數(shù)量指基于防火墻所能順利建立和保持的最大并發(fā)

TCP/UDP

會話數(shù),對于高性能網(wǎng)絡,最大會話數(shù)量至少為千萬級。5.

每秒新建連接數(shù)(Connection

Per

Second,CPS):每秒新建連接數(shù)指一秒以內所能建立及保持的

TCP/UDP

新建連接請求的數(shù)量,每秒新建連接數(shù)通常需要幾十萬級。6.

誤報率(False

alarm

rate):誤報率是指某種類型的網(wǎng)絡業(yè)務流量被誤識別為其它類型網(wǎng)絡業(yè)務流量在所有被測試網(wǎng)絡業(yè)務流量樣本中的占比,此指標需要接近于0%。7.

漏判率(Miss

rate):漏判率是指網(wǎng)絡業(yè)務流量中預期應該被識別出來的業(yè)務類型沒有識別到的網(wǎng)絡業(yè)務流量占總網(wǎng)絡業(yè)務流量樣本的百分比,此指標接近于

0%。8.

識別準確率(Identi?cation

accuracy):識別準確率是指測試用的網(wǎng)絡業(yè)務流量樣本中被準確識別的比例。此指標識別準確率接近

100%,至少要求在

95%

以上。All

Rights

Reserved121.4

IoD

高性能云計算應用范式9.

隧道會話數(shù)(Number

of

IPSec

tunnels):最大

IPSec

隧道會話數(shù)量指

IPSec

隧道會話所能順利建立和保持的最大并發(fā)會話數(shù),IPSec

隧道會話數(shù)量至少為數(shù)萬級到數(shù)十萬級。10.

每秒新建

IPSec

會話數(shù)(IPsec

Connection

Per

Second):每秒新建連接數(shù)指一秒以內

IPSec

所能建立及保持的

IPSec

隧道會話的數(shù)量,至少要求在幾千或數(shù)萬級。1.4

IoD

高性能云計算應用范式1.4.1

“兼容并包”的公有云公有云服務是最典型的云計算應用場景,通過互聯(lián)網(wǎng)將算力以按需使用、按量付費的形式提供給用戶,包括:計算、存儲、網(wǎng)絡、數(shù)據(jù)庫、大數(shù)據(jù)計算、大模型等算力形態(tài)?;A設施能力的提升會為公有云服務商帶來很多優(yōu)勢:拓展用戶寬度:云計算服務的性能是對部分客戶至關重要,云計算服務的網(wǎng)絡帶寬、存儲性能、響應時間等往往成為客戶是否選擇一家云廠商的關鍵因素,因此更高的性能有助于云計算廠商有效的拓展用戶寬度。降低客戶成本:更高的性能意味著云計算客戶可以用更短的時間完成任務,直接關系到客戶的使用成本,高性能云計算平臺可以幫助云服務商在價格競爭中取得身位領先。極致資源利用:通過卸載技術降低

CPU

負荷意味著相同集群規(guī)模可以提供更多的可售賣資源,因此高性能云底座將直接關系到云服務商的生產(chǎn)能力。提升

ROI:IoD

技術不僅僅可以提升算力資源池的服務性能,在網(wǎng)絡資源池、安全資源池與存儲后端等領域也可以通過性能提升為云服務商帶來更高的經(jīng)濟效益。整體看來,部分公有云廠商在選定技術路線后會采用自研

DPU

的方式來獲得更高的業(yè)務定制性,但芯片研發(fā)的巨額資金投入也帶來了巨大的不確定性。其余大部分云服務廠商會選擇引入硬件供應商的設備來構筑自己的技術體系,此時

DPU

設備的規(guī)范性、可定制能力以及服務支持能力將成為至關重要的因素。All

Rights

Reserved131.4

IoD

高性能云計算應用范式1.4.2

“安全強大”的私有云私有云是僅為單一組織或企業(yè)專用的一種云計算環(huán)境,相對于公有云,它提供了更高的控制權、隱私性和定制化能力。私有云一般部署在企業(yè)內部的自有數(shù)據(jù)中心(本地私有云),也可以托管在第三方服務提供商的數(shù)據(jù)中心(托管私有云)。由于其承載的業(yè)務范圍相對固定,因此除了個別應用類型為,私有云對性能的需求往往聚焦在某個方向,并不像公有云需要全方位的性能提升。但是,私有云的應用對于運維隔離、安全管控等需求更為強烈,IoD

技術也將為私有云帶來諸多好處:運維隔離:通過

IoD

技術,云平臺的基礎設施層與業(yè)務運行環(huán)境做到了最大限度的隔離,并且各種基礎設施能力僅通過虛擬設備形式對業(yè)務系統(tǒng)呈現(xiàn),最大限度的完成了運維與業(yè)務的解耦部署。高安全性:借助

DPU

的能力,可以更好的實施“分布式防火墻”與“零信任”網(wǎng)絡方案,并且通過

DPU

參與到數(shù)據(jù)收發(fā)路徑的方式,能夠更方便的實現(xiàn)集群業(yè)務監(jiān)控。性能提升:通過定向的性能提升,能夠幫助私有云延續(xù)老式設備的服役周期,保護既有投資。節(jié)能減排:通過

IoD

技術提升集群整體性能,可以用更少的設備與能耗提供同等算力,幫助客戶實現(xiàn)節(jié)能減排的目標。IoD

技術對于私有云建設的優(yōu)勢非常明顯,但是目前在運行的私有云改造確面臨著諸多問題,涉及適配改造、業(yè)務遷移等方面,典型的建設方案有:1.

新建集群并逐步完成業(yè)務遷移與

IoD

集群擴容,此方案要求新建的

IoD

集群能夠與源集群較好的適配與互通,能夠實現(xiàn)安全方案的平滑遷移以及能夠共享存儲系統(tǒng)。此方法優(yōu)勢是遷移過程較平滑,但是整體項目實施周期可控性較低,遷移啟動時無法充分驗證系統(tǒng)對上層業(yè)務需求的支持情況。2.

推動當前云平臺完成

IoD

業(yè)務改造并確保同一平臺同時支持

DPU

服務器與非DPU

服務器同時存在的情況。此方案的優(yōu)勢是可以保持云平臺的一致性,在前期業(yè)務改造與論證階段完成盡可能多的業(yè)務驗證,完成平臺改造后的遷移風險較小,但是存在前期資源投入大的缺點。All

Rights

Reserved141.4

IoD

高性能云計算應用范式1.4.3

“小巧精美”的邊緣云邊緣云是將計算、存儲和網(wǎng)絡資源部署在靠近用戶、設備或數(shù)據(jù)源的位置,以提供低延遲、高帶寬和實時處理能力的云計算服務。這些資源通常位于電信基站、商業(yè)園區(qū)、區(qū)域數(shù)據(jù)中心或本地服務器等邊緣設備上。具有規(guī)模小,部署環(huán)境受限等特點,優(yōu)勢是能夠減少數(shù)據(jù)傳輸?shù)难舆t,提高響應速度,優(yōu)化帶寬使用,增強數(shù)據(jù)隱私和安全性。IoD技術對于邊緣云的發(fā)展來說也具有重大意義:空間節(jié)約:由于邊緣云的部署方式往往受空間限制較大,集群規(guī)模很小,因此借助

IoD

技術,不僅可以將工作節(jié)點組件部署在

DPU

上,還可以將云平臺管理組件也運行在

DPU

中,進一步減少邊緣集群服務器數(shù)量,實現(xiàn)對物理空間的節(jié)約。定制性強:邊緣云部署的業(yè)務往往具有很強的定制性,借助

DPU

的高度可編程特性,可以對實現(xiàn)對特定類業(yè)務的優(yōu)化處理。例如

5G

MEC

系統(tǒng)可以借助

DPU

實現(xiàn)更高的

UPF

數(shù)據(jù)轉發(fā)性能與

SD-WAN

接入能力,視頻監(jiān)控邊緣云系統(tǒng)中可以實現(xiàn)視頻數(shù)據(jù)包的預處理等。性能提升:DPU

的網(wǎng)絡與存儲卸載能力對邊緣云性能提升大有幫助,同時大量邊緣部署的應用對系統(tǒng)時延較為敏感,DPU

系統(tǒng)的低時延能力也可以幫助邊緣云系統(tǒng)應對更多的業(yè)務挑戰(zhàn)。當前還處于邊緣云業(yè)務大規(guī)模部署的初期階段,此時正是邊緣云技術體系引入

DPU應用的最佳時機,但是同樣面臨的最大挑戰(zhàn)是需要

DPU

系統(tǒng)對不同邊緣云應用需求的優(yōu)化與增強,對

DPU

的可編程能力與服務廠商的定制研發(fā)支撐能力具有很強的要求。1.4.4

“異軍突起”的智算云智算云平臺可以為大模型、生成式

AI

提供

IaaS、PaaS、SaaS

等多個層面的云服務,同時滿足

AI

訓練和推理服務兩種業(yè)務需求。智算云可以以公有云或私有云等各種形式呈現(xiàn),但由于其專門為

AI/HPC

應用設計,在整體架構上有自己的獨到之處,總體架構如圖1.6所示:基礎設施層多采用

CPU+DPU+GPU

3U

一體異構算力架構,提供通用算力和智算算力,滿足多種算力需求。其中

CPU

多采用

X86

ARM

兩種處理器架構,LoongArch,Alpha

等架構也逐漸開始進入智算算力視野。GPU

的引入可以良好的支持人工智能的推理和訓練業(yè)務,滿足智算業(yè)務通用性需求。網(wǎng)絡層硬件采用

DPU

系列產(chǎn)品,通過將智算的計算、存儲、網(wǎng)絡、安全、管理等卸載到

DPU

硬件層處理,實現(xiàn)在超高帶寬、超All

Rights

Reserved151.4

IoD

高性能云計算應用范式圖

1.6:

智算云架構圖低延遲的網(wǎng)絡環(huán)境中發(fā)揮極致效能,同時

DPU

為多租戶智算云業(yè)務提供安全隔離保護,良好地支撐了

AI

人工智能的

GDR

GDS

場景下的推理和訓練業(yè)務,保證了智算云平臺所有業(yè)務及數(shù)據(jù)安全、穩(wěn)定、可靠的運行。云資源服務層提供裸金屬服務器、虛擬機、容器、服務網(wǎng)格等各類智算云平臺資源服務,大多采用

Kubernetes

的云原生容器化應用全生命周期管理,提供高擴展、高性能容器應用管理服務。采用

IoD

技術可以將容器的基礎網(wǎng)絡與存儲等能力卸載到

DPU

硬件上,實現(xiàn)了超高性能的容器云業(yè)務環(huán)境。調度管理層提供彈性靈活的云原生資源管理和調度能力,IoD

技術可以為云原生智算資源管理和調度平臺提供

GPU

池化和對容器、虛擬機、裸機的統(tǒng)一管理調度能力,配合

AI

調度管理平臺,實現(xiàn)

DPU

、GPU、CPU

資源和裸金屬、虛擬機、容器等各類云服務的智能負載調用,為智算各個業(yè)務場景合理調

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論