CESA-2021-3-020《信息技術 人工智能 計算設備調度與協(xié)同 第2部分 分布式計算框架》團體標準(征求意見稿)_第1頁
CESA-2021-3-020《信息技術 人工智能 計算設備調度與協(xié)同 第2部分 分布式計算框架》團體標準(征求意見稿)_第2頁
CESA-2021-3-020《信息技術 人工智能 計算設備調度與協(xié)同 第2部分 分布式計算框架》團體標準(征求意見稿)_第3頁
CESA-2021-3-020《信息技術 人工智能 計算設備調度與協(xié)同 第2部分 分布式計算框架》團體標準(征求意見稿)_第4頁
CESA-2021-3-020《信息技術 人工智能 計算設備調度與協(xié)同 第2部分 分布式計算框架》團體標準(征求意見稿)_第5頁
已閱讀5頁,還剩21頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

ICS35.240

CCSL70

團體標準

T/CESAXXXX—202X

信息技術人工智能計算設備調度與協(xié)同

第2部分:分布式計算框架

Informationtechnology—Artificialintelligence—Computation

schedulingandcollaboration

Part2:Distributedcomputingframework

(征求意見稿)

在提交反饋意見時,請將您知道的相關專利連同支持性文件一并附上。

已授權的專利證明材料為專利證書復印件或扉頁,已公開但尚未授權的專利申

請證明材料為專利公開通知書復印件或扉頁,未公開的專利申請的證明材料為專利

申請?zhí)柡蜕暾埲掌凇?/p>

202X―XX―XX發(fā)布202X―XX―XX實施

中國電子工業(yè)標準化技術協(xié)會發(fā)布

T/CESAXXX—202X

前言

本文件按照GB/T1.1―2020《標準化工作導則第1部分:標準化文件的結構和起草規(guī)則》的規(guī)定起

草。

請注意本文件的某些內容可能涉及專利。本文件的發(fā)布機構不承擔識別這些專利的責任。

本文件由中國電子技術標準化研究院提出。

本文件由中國電子工業(yè)標準化技術協(xié)會歸口。

本文件起草單位:。

本文件主要起草人:。

III

T/CESAXXX—202X

引言

人工智能計算設備種類、形態(tài)多樣。在使用時,計算設備的虛擬化是常用的技術手段,有利于屏蔽

各異構計算設備的差異,降低應用實現(xiàn)、維護復雜度。在各行業(yè)應用中,基于云,邊和終端的部署已成

為協(xié)同計算的基礎。為向應用提供相對一致的虛擬化過程和實例使用方法,支持分布式應用需求,應建

立計算虛擬化與分布式協(xié)同標準,規(guī)定基本的過程、方法和架構,提出基礎要求和關鍵指標。為此,提

出《信息技術人工智能計算設備調度與協(xié)同》系列標準。擬由兩部分構成。

——第1部分:虛擬化與調度。目的在于為產業(yè)界提供相對統(tǒng)一的規(guī)則,實施計算設備虛擬化過程,

為上層應用對計算設備的使用創(chuàng)造一致性標準基礎。

——第2部分:分布式計算框架。目的在于連接產業(yè)中中心、邊、端側各研究機構和企業(yè)產品,遵

循統(tǒng)一的運算、調度模式,有利于降低因個例的計算模式差異而導致的研發(fā)和維護成本。

本文件為第2部分。

IV

T/CESAXXX—202X

信息技術人工智能計算設備調度與協(xié)同

第2部分:分布式計算框架

1范圍

本文件規(guī)定了人工智能計算設備分布式計算的參考架構及其軟硬件系統(tǒng)的功能、性能技術要求。

本文件適用于分布式人工智能計算系統(tǒng)的設計、開發(fā)和測試。

2規(guī)范性引用文件

本文件沒有規(guī)范性引用文件。

3術語和定義

本文件第1部分界定的以及下列術語和定義適用于本文件。

3.1

分布式機器學習distributedmachinelearning

一種機器學習的方法或過程,利用互聯(lián)網絡作為首選通信載體,在不同子系統(tǒng)上完成同一個機器學

習任務。

注:互聯(lián)網絡可包含局域互聯(lián)網及廣域互聯(lián)網。

[來源:ISO/IEC2382―2015,2178059,有修改]

3.2

聯(lián)邦機器學習federatedmachinelearning

一種機器學習方法或過程,能讓多個參加者協(xié)作構建及使用機器學習模型而不暴露參加者所擁有

的原始數(shù)據(jù)或私有數(shù)據(jù)。

[來源:IEEE3652.1,3.1]

3.3

增量學習incrementallearning

一種分為多個階段的自適應學習方法,其中在前驅階段學得的知識被轉化為適當形式,以便為后繼

階段的新知識提供基礎。

注:基于機器學習實現(xiàn)的增量學習過程,稱為“增量訓練”。

[來源:ISO/IEC2382―2015,2123002,有修改,加上了注]

1

T/CESAXXX—202X

3.4

邊緣計算edgecomputing

一種分布式計算方法或過程,其中處理及存儲過程發(fā)生在分布式系統(tǒng)的邊緣。

注:計算發(fā)生靠近邊緣的程度按系統(tǒng)的需求定義設定。

[來源:ISO/IECTR23188―2020,3.1.3]

3.5

集合通信collectivecommunication

一種通信模式,其所傳遞數(shù)據(jù)在一組處理器單元(稱為節(jié)點)上處理[1]。

注:一次通信一般包含有多個接受者和發(fā)送者。

3.6

終生學習lifelonglearning

持續(xù)學習continuouslearning

一種人工智能系統(tǒng)增量訓練方法或過程,它基于演進中的基礎知識和配置,在系統(tǒng)生命周期中的操

作階段持續(xù)發(fā)生。

[來源:ISO/IECFDIS22989―2021,3.1.9]

3.7

分布式訓練distributedtraining

一種人工智能學習過程,其訓練任務的部分或者全部分配在多個計算節(jié)點完成。

3.8

分布式推理distributedinference

一種人工智能推理過程,其中全部或者部分推理任務分配在多個計算節(jié)點完成。

3.9

協(xié)同collaboration

一種過程或方法,特意安排多個實體共同工作,以完成事先商定的同一個任務(目標)。

注1:實體指計算節(jié)點。

注2:任務(目標)指模型訓練或推理。

注3:工作分解為子項,并在實體間分配和集中。

[來源:ISO30401―2018,3.23,有修改]

4縮略語

AI人工智能(ArtificialIntelligence)

2

T/CESAXXX—202X

API應用程序接口(ApplicationProgrammingInterface)

CPU中央處理單元(CentralProcessingUnit)

FPGA現(xiàn)場可編程邏輯門陣列(FieldProgrammableGateArray)

GPU圖形處理單元(GraphicsProcessingUnit)

NPU神經網絡處理單元(Neural―networkProcessingUnit)

PCIE外設組件互連(PeripheralComponentInterconnectExpress)

RDMA遠程直接內存訪問(RemoteDirectMemoryAccess)

TCP/IP傳輸控制協(xié)議/互聯(lián)網協(xié)議(TransmissionControlProtocol/InternetProtocol)

5概述

基于AI計算設備構建的分布式AI應用運行環(huán)境,符合以下規(guī)定:

a)計算設備作為運行環(huán)境,支持圖1中機器學習生命周期中的主要過程:

圖1云邊端分布式AI任務生命周期

b)支持分布式訓練,包含以下要求:

1)應支持增量訓練:即訓練不是一次性完成。部署在邊緣側或端側后,在使用時,系統(tǒng)提供

方或用戶根據(jù)場景特性再訓練,更新參數(shù),保證模型準確率水平;

2)云側設備應支持云、邊緣和端側模型的訓練,并在部署或運行時分發(fā)到對應位置;

3)云側、邊緣側設備應支持模型部署及推理,端側設備宜支持模型部署及推理;

4)應支持聯(lián)邦學習,在端側或邊緣側數(shù)據(jù)使用本地數(shù)據(jù)訓練;

c)應包含云側、邊緣側和終端側;

d)應支持通信、控制、設備接入等多功能集成,提供管理和控制接入等功能;

e)應支持虛擬機資源池等池化能力;

f)應使用時延、截止時間、作業(yè)吞吐率等指標衡量、檢測性能水平;

g)宜使用終端設備電池電量等指標衡量、檢測能耗水平。

3

T/CESAXXX—202X

6計算設備

6.1云側設備

6.1.1概述

云側AI計算設備及其使用,符合以下要求:

a)應支持以下應用類型:

1)云側訓練;

2)模型參數(shù)量不小于108的訓練;

3)訓練集樣本數(shù)不小于108的訓練;

4)在云側部署和運行AI推理任務,推理過程計算資源彈性伸縮;

5)增量訓練;

6)聯(lián)邦學習;

b)應遵循以下使用原則:

1)訓練過程與數(shù)據(jù)源分離;

2)監(jiān)控AI任務全生命周期過程;

3)多租戶共享計算、存儲資源;

4)數(shù)據(jù)集中處理和分析;

5)使用虛擬化技術管理計算資源。

6.1.2技術要求

云側AI計算設備,符合以下要求:

a)應具備用于AI計算的加速處理器(如CPU、GPU、NPU、FPGA等);

b)宜實施針對異構AI加速處理器的虛擬化,形成資源池統(tǒng)一調度AI計算;

c)應支持模型訓練所需的軟件和模式,包含:

1)機器學習框架(如MindSpore、TensorFlow、PyTorch);

2)云側分布式集群訓練;

3)模型可視化,包含訓練過程,數(shù)據(jù)處理過程等;

4)自動學習;

d)應提供與邊緣設備、終端設備兼容的互操作協(xié)議及接口;

e)應支持訓練或推理任務鏡像管理。

6.2邊緣設備

6.2.1概述

邊緣側AI計算設備參與協(xié)同計算,遵循以下使用原則:

a)應與數(shù)據(jù)源頭保持系統(tǒng)要求的耦合度;

b)應考慮將小規(guī)模的計算與服務部署在邊緣側或終端側;

c)應考慮存儲、傳輸、計算和安全任務;

d)宜在本地執(zhí)行數(shù)據(jù)處理,避免數(shù)據(jù)網絡傳輸中的風險;

e)宜考慮業(yè)務場景要求的實時性。

4

T/CESAXXX—202X

6.2.2技術要求

邊緣側AI計算設備,符合以下要求:

a)AI邊緣計算設備包含但不限于AI服務器、AI加速卡、AI加速模組;

b)應提供與終端設備、云側設備的協(xié)同接口;

c)宜支持推理任務或訓練任務;

d)應支持至少1中機器學習框架(如TensorFlow、PyTorch、MindSpore等);

e)應支持視頻分析、文字識別、圖像識別、聲音處理等應用;

f)宜支持流數(shù)據(jù)的實時處理;

g)宜能在邊緣存儲實時信息;

h)宜能監(jiān)控邊緣節(jié)點的運行狀態(tài);

f)應具備數(shù)據(jù)隔離措施,在受攻擊時,只影響本地設備,而非其他參與協(xié)同的設備。

6.3終端設備

6.3.1概述

終端側AI設備參與協(xié)同計算,在數(shù)據(jù)流轉邏輯方面,應部署在隨數(shù)據(jù)發(fā)生(如數(shù)據(jù)源)的位置附近。

6.3.2技術要求

終端側AI計算設備,符合以下要求:

a)宜支持基于全量框架的深度學習推理;

b)宜支持數(shù)據(jù)預處理(如圖像縮放、圖像填充、圖像旋轉、聲音去噪等);

c)應支持基于輕量化機器學習框架的運行(訓練或推理);

d)應支持脫離機器學習框架的模型下沉,在設備上直接運行;

e)宜支持與邊緣設備或云側設備的交互,完成推理;

f)宜支持多端協(xié)同,包含但不限于:

1)管理多個終端設備;

2)多個終端設備之間的數(shù)據(jù)協(xié)同與共享;

3)多個終端設備之間計算任務的調度與分發(fā)。

g)應支持分布式訓練,包含:

1)能與其他終端設備、云側設備、邊緣設備協(xié)同,完成訓練;

2)兼容分布式訓練框架,包含但不限于TensorFlow、PyTorch、MindSpore等;

3)支持差分隱私機制。

7分布式AI計算協(xié)同管理框架

7.1概述

分布式AI計算協(xié)同管理框架見圖2。管理框架的應用,應符合以下要求及原則:

5

T/CESAXXX—202X

圖2分布式管理框架圖

a)能管理機器學習算法的運行環(huán)境配置,包括支持云側設備、邊緣設備和終端設備;

b)支持以下類型的應用在a)提出的計算設備上的運行:

1)支持基于AI任務類型以及響應時間要求的云端模型裁剪、壓縮和優(yōu)化,使其適用于云端、邊

緣和終端部署;

2)聯(lián)邦學習;

3)協(xié)同推理;

4)基于云側或邊緣側集群的分布式訓練;

5)邊―云協(xié)同的增量訓練;

c)支持以下支撐組件:

1)機器學習框架;

2)深度學習模型編譯器;

3)集合通信庫;

4)虛擬化與調度組件;

5)云側、邊緣側支持容器化微服務架構;

d)分布式計算框架,應符合以下要求:

1)具備一致性,在多個計算設備共同訓練一個模型時,不同計算設備上模型參數(shù)、計算過程

應保持一致;

2)具備容錯性,對分布式協(xié)同訓練的集群,在訓練過程中有節(jié)點出現(xiàn)故障(如宕機)時,能

保證原有任務持續(xù)進行并完成;

3)具備統(tǒng)一的編程模型,對于開發(fā)者和用戶屏蔽機器學習框架和不同計算設備的差異;

4)具備分布式存儲能力,能根據(jù)不同的分布式計算場景(如分布式集群、端云,邊云等)設

置相應的存儲方式;

5)支持計算設備管理,對不同的AI加速卡或AI加速處理器,根據(jù)AI任務實施虛擬化和分配,

增加計算設備利用率;

注:計算設備的管理和調度,涉及虛擬化和集群調度的部分,參考第1部分。

e)分布式多終端協(xié)同,應符合以下要求:

1)去中心化,即多個終端設備協(xié)同完成AI任務時,不存在常設的中心節(jié)點;

2)實時維護與共享集群中節(jié)點狀態(tài),以實施調度決策;

3)在調度時考慮網絡傳輸?shù)囊蛩?,具備實時性保障機制(如超時機制等);

注:集群組網使用無線連接(如WIFI或藍牙)時,會出現(xiàn)傳輸速率有限且不穩(wěn)定的情況。

4)在調度時考慮設備實際能力,并具備適應性協(xié)同策略(如按計算能力調度);

6

T/CESAXXX—202X

注:多終端設備結構不同,能力不同,優(yōu)勢的外設和算力資源往往不在同一節(jié)點上。

5)調度時考慮設備使用狀態(tài)因素,計算調度過程不影響其他設備或應用的運行。如:正常的

視頻播放任務不應被打斷,或導致播放卡頓等;

6)考慮非常插電設備接受調度后計算能耗。

7.2關鍵組件技術要求

7.2.1機器學習框架

用于分布式機器學習任務的機器學習框架,符合以下要求:

a)應能在云側、邊緣側、終端測等設備上運行;

b)支持模型部署,符合以下要求,包含但不限于:

1)應能以云服務的形式在云側部署,提供推理任務執(zhí)行環(huán)境;

2)應支持能被裁剪的輕量化框架,在云側訓練的模型,能部署在端側和邊緣側;

3)應支持脫離框架或只依賴輕量化框架的模型的運行;

4)應支持在內存受限的設備或環(huán)境中的運行;

5)宜支持模型量化,并在用戶允許的誤差范圍內,使模型能從云側遷移至端側或邊緣側。

c)機器學習框架在云側、端側、邊緣側使用時,宜支持一致的計算圖中間表示,保證一次訓練后

的模型在端、邊、云三種設備上的無(格式)轉換部署;

d)應支持云側、端側、邊緣側的計算協(xié)同模式,包含但不限于:

1)云側訓練—端側推理;

2)云側訓練—端側增量訓練—終端側推理;

3)云側—終端側的聯(lián)邦學習;

4)云側訓練—邊緣側推理;

5)云側訓練—邊緣側增量訓練—邊緣側推理;

6)云側—邊緣側聯(lián)邦學習;

7)云側訓練—邊緣側增量訓練—終端側推理;

8)云側—邊緣側—終端側聯(lián)合推理。

7.2.2虛擬化與調度

異構AI加速處理器或帶有異構AI加速處理器的加速卡的虛擬化與調度組件,符合以下技術要求:

a)應符合本文件第1部分的要求;

b)宜支持基于以下類型處理器的AI加速卡的調度,包括:

?CPU(邊緣,終端);

?GPU;

?FPGA;

?NPU或其他定制化處理器;

c)資源調度系統(tǒng)應能調用AI加速卡或AI加速處理器及其虛擬化實例,包含:

?僅能用于訓練任務的加速卡;

?僅能用于推理任務的加速卡;

?能用于訓練及推理任務的加速卡。

d)分布管理中的異構資源調度系統(tǒng),應支持以下調度模式:

?云側的訓練卡調度,實施云側分布式訓練;

7

T/CESAXXX—202X

?邊緣側的訓練卡調度,支持邊緣側增量訓練;

?云側或邊緣側的推理加速卡調度,支持大模型推理,克服單卡運行時內存限制;

?云側和邊緣側的訓練加速卡的調度,能完成云側訓練—邊緣側增量訓練的任務;

?云側和邊緣推理加速卡的調度,能完成云側訓練—邊緣推理的任務;

?云側和終端側加速卡的調度,能完成云側—端側的聯(lián)邦學習任務;

?云側訓練加速卡和端側推理加速卡的調度,能完成云側訓練—端側推理任務;

?邊緣側訓練加速卡和端側推理加速卡的調度,能完成邊緣側增量訓練—端側推理的任務;

?邊緣側訓練加速卡的調度,能完成邊緣側的分布式訓練任務。

7.2.3深度學習編譯器

深度學習編譯器應具有兼容性,能將不同框架下模型或計算圖編譯到指定的AI加速卡上運行,實

現(xiàn)模型跨平臺移植。

7.2.4安全組件

7.2.4.1安全原則

分布式AI計算協(xié)同管理框架的使用,應按圖1規(guī)定的生命周期和流程,識別風險,包含但不限于:

a)易受竊取等攻擊的資產及相關攻擊模式,包含:

?訓練腳本或代碼文件;

?訓練數(shù)據(jù)集文件;

?模型文件(包含預訓練模型文件、訓練結果文件和在計算節(jié)點中的模型文件);

b)模型的文件,在云、邊、端側的完整性被破壞(如被修改);

c)模型及相關文件(含訓練腳本、預訓練模型、訓練數(shù)據(jù)集、模型的參數(shù)文件)的機密性被破壞;

d)被其他應用惡意攻擊,導致輸出結果錯誤,或無法正常輸出結果;

e)推理輸入數(shù)據(jù)不被截獲或修改;

f)云側、邊緣側的容器安全,包括容器構建時安全、容器部署時安全、容器運行時安全。

7.2.4.2安全要求

分布式AI計算協(xié)同管理框架,符合以下要求:

a)訓練階段,應實現(xiàn)以下安全防護機制:

1)云側,支持:

?對訓練文件的簽名,能加密AI模型和訓練腳本并上傳至云側;

?對上傳數(shù)據(jù)的加密;

?運行訓練腳本前,對訓練鏡像文件的身份校驗;

?對預訓練模型的解密;

?對訓練數(shù)據(jù)的解密;

2)邊緣側,支持:

?對云側下發(fā)鏡像的身份校驗和模型的加解密;

?對聯(lián)邦學習梯度信息的加解密;

?對增量訓練數(shù)據(jù)的簽名和加密;

?對端側設備上傳的數(shù)據(jù)的簽名和加密;

3)終端側,支持:

?對云側、邊緣側下發(fā)模型的身份校驗和加解密;

8

T/CESAXXX—202X

?對端側聯(lián)邦學習梯度數(shù)據(jù)的加密;

b)推理階段,應實現(xiàn)以下防護機制:

1)云側,支持:

?在云側環(huán)境中配置含有AI模型的容器運行的最小訪問權限;

?對AI模型身份的合法解密;

?在加載鏡像到云側運行環(huán)境時,檢查身份合法性;

2)邊緣側,支持:

?秘鑰管理,對云側下發(fā)的鏡像或模型實施身份校驗;

?對推理數(shù)據(jù)的加解密;

?入侵檢測;

3)端側,支持:

?秘鑰管理,對云側下發(fā)到端側模型實施身份合法性檢查;

?推理數(shù)據(jù)在本地的加解密;

?在模型上傳至云側或邊緣側進行推理前,加密模型。

7.2.5集合通信

集合通信組件,應符合以下要求:

a)提供統(tǒng)一的通信協(xié)議、數(shù)據(jù)結構定義和元語,機器學習框架利用集合通信庫,能操作不同的計

算設備;

b)支持AI加速卡間通信,包含云側內部分布式訓練和端邊云協(xié)同訓練所需通信。

c)支持集合通信拓撲結構,包括:

1)基礎類:

?全網狀結構(FullMesh);

?星形拓撲結構(Star);

?環(huán)形拓撲結構(Ring);

?樹拓撲結構(Tree);

2)擴展類:

?3DTorus拓撲結構;

?Dragonfly拓撲結構;

?由以上兩種或以上網絡拓撲結構混合而成的混合拓撲結構;

d)支持集合通信步調,實現(xiàn)同步功能,滿足協(xié)同節(jié)點異步使用要求,并具備超時管控機制,避免

通信無法完成的問題;

e)支持通信協(xié)議,包含但不限于:PCIE,RDMA和TCP/IP等。

f)支持集合通信能力表征指標,包含:

1)集合通信耗時均值;

2)集合通信耗時方差。

g)支持集合通信能力表征指標的測量方法,包含:

1)單AI加速卡或者計算設備上集合通信耗時測量;

2)全部AI加速卡或者計算設備上的集合通信耗時的均值和方差的計算;

3)時間的統(tǒng)計,符合以下要求:

?單AI加速卡或計算設備的時間測量的起始時刻為:集合通信的使用者啟動集合通信的時刻;

?時間測量的結束時刻為:集合通信的使用者感知到集合通信完成的時刻;

?集合通信的啟動和結束如果存在固定開銷,應被計入到通信耗時里;

9

T/CESAXXX—202X

h)提供面向機器學習框架的統(tǒng)一接口,屏蔽異構硬件的差異。

7.3云云協(xié)同

云云協(xié)同的框架如圖3所示,協(xié)同過程符合以下要求:

圖3云云協(xié)同框架

a)云云協(xié)同框架,應能完成基于中心調度器的調度或無中心的調度(如基于云聯(lián)邦的調度);

b)基于中心調度器時,中心調度器:

1)應支持全網計算資源的狀態(tài)的收集和檢視;

2)應支持跨云(或計算中心)的作業(yè)調度,作業(yè)運行數(shù)據(jù)轉發(fā)和傳輸;

3)應支持負載感知調度、價格感知調度、網絡感知調度或數(shù)據(jù)感知調度等策略;

c)基于中心調度器時,調度適配器:

1)應能適配不同云中內異構調度器的實現(xiàn);

2)應能收集調度器資源和作業(yè)執(zhí)行狀態(tài)信息,并上報至中心調度器;

3)宜支持向用戶提供統(tǒng)一視圖,使用戶能使用、全網計算資源執(zhí)行計算任務;

d)宜支持統(tǒng)一賬戶認證;

e)宜支持統(tǒng)一計算消耗計量和計費。

7.4云邊端協(xié)同

7.4.1云邊端協(xié)同管理框架

10

T/CESAXXX—202X

圖4云邊端協(xié)同框架

云邊云邊端協(xié)同的框架如圖4所示,包含:

a)邊云管理系統(tǒng);

b)邊云通道;

c)邊端通道;

d)邊緣節(jié)點管理,包括:

——應用管理,如雙機備份、容器故障檢測、模型管理、AI加速卡插件管理;

——邊緣中間件,如消息總線、規(guī)則引擎等;

——端設備服務;

——安全可信模塊;

——設備管理。

7.4.2云邊模型部署

圖5邊云模型部署流程

云邊模型部署流程如圖5所示,符合以下要求:

a)將云側模型部署到邊緣側,邊云管理系統(tǒng):

11

T/CESAXXX—202X

1)應支持對邊緣階段管納,關聯(lián)邊緣節(jié)點的設備;

2)云側應支持將AI應用或模型以容器鏡像的形式下發(fā),部署到邊緣節(jié)點;

b)邊云管理系統(tǒng)應具備以下功能:

1)將云側服務能力部署到邊緣,可支持視頻識別、文字識別、圖像識別等大數(shù)據(jù)任務的處理;

2)支持容器和函數(shù)兩種運行方式,滿足用戶輕量化部署的要求;

3)支持邊緣節(jié)點以注冊的方式接入云側;

4)支持云側的業(yè)務以容器的形式部署到邊緣側;

5)支持對邊緣側AI加速卡的利用率監(jiān)控;

6)可管理的邊緣節(jié)點數(shù)量宜不少于128。

7.4.3云邊AI任務協(xié)同

圖6邊云AI任務協(xié)同框架

云邊協(xié)同框架如圖6所示,符合以下要求:

a)邊云管理系統(tǒng):

1)應支持增量訓練;

2)宜支持基于邊緣節(jié)點設備和云側設備的聯(lián)邦學習,集合通信滿足7.2.5的要求,機器學習框

架滿足7.2.1的要求。

3)應支持訓練樣本篩選:

——支持根據(jù)推理結果的置信度篩選增量訓練的數(shù)據(jù);

——支持對數(shù)據(jù)的去重;

——支持對數(shù)據(jù)的聚合。

4)應支持梯度數(shù)據(jù)和增量樣本數(shù)據(jù)的壓縮和傳輸。

5)應支持支持數(shù)據(jù)加密,滿足7.2.4中邊緣側安全要求。

6)應支持邊緣存儲,能按7.1d)4)的要求存儲終端側的推理數(shù)據(jù)和云側的模型。

b)云側—邊緣側的訓練協(xié)同,參考邊云AI任務協(xié)同框架。

7.4.4端邊云數(shù)據(jù)協(xié)同

12

T/CESAXXX—202X

圖7邊云數(shù)據(jù)協(xié)同框架

端、邊、云側數(shù)據(jù)協(xié)同的框架如圖7所示,符合以下要求:

a)終端側設備與邊緣側的協(xié)同:

1)應支持端側設備多協(xié)議接入。

2)宜支持多樣化終端設備接入,包含:

——攝像機;

——智能機器人;

——物聯(lián)網傳感器;

——激光雷達、毫米波雷達;

——信號機;

——氣象感知;

——道路單元。

b)邊緣側設備支持面向AI應用的多媒體服務:

1)應能轉發(fā)多媒體數(shù)據(jù)(到云側、邊緣側或其它終端);

2)宜支持多媒體數(shù)據(jù)的轉碼、點播、直播、錄像和檢索;

3)宜支持地圖數(shù)據(jù)的共享分發(fā);

4)應支持多媒體數(shù)據(jù)的回放。

c)應支持邊緣側的數(shù)據(jù)存儲,包含:

1)推理結果的本地緩存。

2)支持以下類型數(shù)據(jù)的存儲:

——媒體存儲;

——關系型數(shù)據(jù)庫;

——時序數(shù)據(jù)庫。

d)應支持邊緣多容器通信中間件;

13

T/CESAXXX—202X

e)應支持實時數(shù)據(jù)(如監(jiān)視器或攝像機采集的視頻數(shù)據(jù))的傳遞。

7.5多端協(xié)同

7.5.1多端協(xié)同管理框架

圖8多端協(xié)同管理框架

多端協(xié)同框架(見圖8)的組成,應利用本地網絡中各節(jié)點設備(外設)優(yōu)勢,協(xié)同完成AI計算任

務。多端協(xié)同的框架應支持以下協(xié)同方式:

a)外設協(xié)同;

b)數(shù)據(jù)協(xié)同;

c)計算協(xié)同,包含:

——統(tǒng)計計算;

——推理計算;

——訓練。

7.5.2多端數(shù)據(jù)協(xié)同

多端數(shù)據(jù)協(xié)同,滿足以下要求:

a)應能在設備間傳輸數(shù)據(jù);

b)應支持多端多模的數(shù)據(jù)融合;

c)應能在設備間共享讀寫數(shù)據(jù);

d)離線時,宜支持數(shù)據(jù)在端側設備的自動保存,在網絡恢復后,自動同步至云或邊緣側。

7.5.3多端外設協(xié)同

多端外設協(xié)同,應支持跨外設的輸入、輸出(如攝像機捕捉的影響,在大屏上顯示,并不需要在主

控端如智能通信終端上顯示)。

7.5.4多端計算協(xié)同

14

T/CESAXXX—202X

多端計算設備協(xié)同,符合以下要求:

a)應支持任務拆分到多個設備上,分別完成后再整合的協(xié)同機制;

b)應支持以下類型推理計算任務,包含但不限于:

1)任務發(fā)起(限推理)、拆分、分發(fā)和管理;

2)小任務從低端到高端的轉發(fā);

3)小任務計算靠近轉發(fā);

4)端側節(jié)點設備能按自身能力動態(tài)加載對應模型;

5)端側節(jié)點設備能按如下因素綜合判斷,選擇協(xié)同方式:

——節(jié)點狀態(tài);

——網絡狀態(tài);

——計算功耗;

4)端側節(jié)點實現(xiàn)容錯機制,包含但不限于:異常檢測、任務重試、失敗重發(fā)。

c)應支持以下類型訓練任務:

1)模型全量訓練;

2)深度學習模型微調。

15

T/CESAXXX—202X

參考文獻

[1]vandeGeijn,RobertandTraeff,JesperLarsson.CollectiveCommunication[J].

EncyclopediaofParallelComputing,2011.318—327.SpringerUS.

[2]ISO/IEC2382―2015Informationtechnology—Vocabulary[S]

[3]ISO/IECDIS22989Informationtechnology—Artificialintelligence—Artificial

intelligenceconceptsandterminology[S]

[4]ISO/IECTR23188―2020Edgecomputinglandscape[S]

[5]ISO30401―2018Knowledgemanagementsystems—Requirements[S]

16

T/CESAXXX—202X

目次

前言.............................................................................III

引言..............................................................................IV

1范圍...............................................................................1

2規(guī)范性引用文件.....................................................................1

3術語和定義.........................................................................1

4縮略語.............................................................................2

5概述...............................................................................3

6計算設備...........................................................................4

6.1云側設備.....................................................................4

6.2邊緣設備.....................................................................4

6.3終端設備.....................................................................5

7分布式AI計算協(xié)同管理框架..........................................................5

7.1概述.........................................................................5

7.2關鍵組件技術要求.............................................................7

7.3云云協(xié)同....................................................................10

7.4云邊端協(xié)同..................................................................10

參考文獻............................................................................16

II

T/CESAXXX—202X

信息技術人工智能計算設備調度與協(xié)同

第2部分:分布式計算框架

1范圍

本文件規(guī)定了人工智能計算設備分布式計算的參考架構及其軟硬件系統(tǒng)的功能、性能技術要求。

本文件適用于分布式人工智能計算系統(tǒng)的設計、開發(fā)和測試。

2規(guī)范性引用文件

本文件沒有規(guī)范性引用文件。

3術語和定義

本文件第1部分界定的以及下列術語和定義適用于本文件。

3.1

分布式機器學習distributedmachinelearning

一種機器學習的方法或過程,利用互聯(lián)網絡作為首選通信載體,在不同子系統(tǒng)上完成同一個機器學

習任務。

注:互聯(lián)網絡可包含局域互聯(lián)網及廣域互聯(lián)網。

[來源:ISO/IEC2382―2015,2178059,有修改]

3.2

聯(lián)邦機器學習federatedmachinelearning

一種機器學習方法或過程,能讓多個參加者協(xié)作構建及使用機器學習模型而不暴露參加者所擁有

的原始數(shù)據(jù)或私有數(shù)據(jù)。

[來源:IEEE3652.1,3.1]

3.3

增量學習incrementallearning

一種分為多個階段的自適應學習方法,其中在前驅階段學得的知識被轉化為適當形式,以便為后繼

階段的新知識提供基礎。

注:基于機器學習實現(xiàn)的增量學習過程,稱為“增量訓練”。

[來源:ISO/IEC2382―2015,2123002,有修改,加上了注]

1

T/CESAXXX—202X

3.4

邊緣計算edgecomputing

一種分布式計算方法或過程,其中處理及存儲過程發(fā)生在分布式系統(tǒng)的邊緣。

注:計算發(fā)生靠近邊緣的程度按系統(tǒng)的需求定義設定。

[來源:ISO/IECTR23188―2020,3.1.3]

3.5

集合通信collectivecommunication

一種通信模式,其所傳遞數(shù)據(jù)在一組處理器單元(稱為節(jié)點)上處理[1]。

注:一次通信一般包含有多個接受者和發(fā)送者。

3.6

終生學習lifelonglearning

持續(xù)學習continuouslearning

一種人工智能系統(tǒng)增量訓練方法或過程,它基于演進中的基礎知識和配置,在系統(tǒng)生命周期中的操

作階段持續(xù)發(fā)生。

[來源:ISO/IECFDIS22989―2021,3.1.9]

3.7

分布式訓練distributedtraining

一種人工智能學習過程,其訓練任務的部分或者全部分配在多個計算節(jié)點完成。

3.8

分布式推理distributedinference

一種人工智能推理過程,其中全部或者部分推理任務分配在多個計算節(jié)點完成。

3.9

協(xié)同collaboration

一種過程或方法,特意安排多個實體共同工作,以完成事先商定的同一個任務(目標)。

注1:實體指計算節(jié)點。

注2:任務(目標)指模型訓練或推理。

注3:工作分解為子項,并在實體間分配和集中。

[來源:ISO30401―2018,3.23,有修改]

4縮略語

AI人工智能(ArtificialIntelligence)

2

T/CESAXXX—202X

API應用程序接口(ApplicationProgrammingInterface)

CPU中央處理單元(CentralProcessingUnit)

FPGA現(xiàn)場可編程邏輯門陣列(FieldProgrammableGateArray)

GPU圖形處理單元(GraphicsProcessingUnit)

NPU神經網絡處理單元(Neural―networkProcessingUnit)

PCIE外設組件互連(PeripheralComponentInterconnectExpress)

RDMA遠程直接內存訪問(RemoteDirectMemoryAccess)

TCP/IP傳輸控制協(xié)議/互聯(lián)網協(xié)議(TransmissionControlProtocol/InternetProtocol)

5概述

基于AI計算設備構建的分布式AI應用運行環(huán)境,符合以下規(guī)定:

a)計算設備作為運行環(huán)境,支持圖1中機器學習生命周期中的主要過程:

圖1云邊端分布式AI任務生命周期

b)支持分布式訓練,包含以下要求:

1)應支持增量訓練:即訓練不是一次性完成。部署在邊緣側或端側后,在使用時,系統(tǒng)提供

方或用戶根據(jù)場景特性再訓練,更新參數(shù),保證模型準確率水平;

2)云側設備應支持云、邊緣和端側模型的訓練,并在部署或運行時分發(fā)到對應位置;

3)云側、邊緣側設備應支持模型部署及推理,端側設備宜支持模型部署及推理;

4)應支持聯(lián)邦學習,在端側或邊緣側數(shù)據(jù)使用本地數(shù)據(jù)訓練;

c)應包含云側、邊緣側和終端側;

d)應支持通信、控制、設備接入等多功能集成,提供管理和控制接入等功能;

e)應支持虛擬機資源池等池化能力;

f)應使用時延、截止時間、作業(yè)吞吐率等指標衡量、檢測性能水平;

g)宜使用終端設備電池電量等指標衡量、檢測能耗水平。

3

T/CESAXXX—202X

6計算設備

6.1云側設備

6.1.1概述

云側AI計算設備及其使用,符合以下要求:

a)應支持以下應用類型:

1)云側訓練;

2)模型參數(shù)量不小于108的訓練;

3)訓練集樣本數(shù)不小于108的訓練;

4)在云側部署和運行AI推理任務,推理過程計算資源彈性伸縮;

5)增量訓練;

6)聯(lián)邦學習;

b)應遵循以下使用原則:

1)訓練過程與數(shù)據(jù)源分離;

2)監(jiān)控AI任務全生命周期過程;

3)多租戶共享計算、存儲資源;

4)數(shù)據(jù)集中處理和分析;

5)使用虛擬化技術管理計算資源。

6.1.2技術要求

云側AI計算設備,符合以下要求:

a)應具備用于AI計算的加速處理器(如CPU、GPU、NPU、FPGA等);

b)宜實施針對異構AI加速處理器的虛擬化,形成資源池統(tǒng)一調度AI計算;

c)應支持模型訓練所需的軟件和模式,包含:

1)機器學習框架(如MindSpore、TensorFlow、PyTorch);

2)云側分布式集群訓練;

3)模型可視化,包含訓練過程,數(shù)據(jù)處理過程等;

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論