金融數(shù)據(jù)中心人工智能算力建設(shè)指引 2023_第1頁
金融數(shù)據(jù)中心人工智能算力建設(shè)指引 2023_第2頁
金融數(shù)據(jù)中心人工智能算力建設(shè)指引 2023_第3頁
金融數(shù)據(jù)中心人工智能算力建設(shè)指引 2023_第4頁
金融數(shù)據(jù)中心人工智能算力建設(shè)指引 2023_第5頁
已閱讀5頁,還剩69頁未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

金融數(shù)據(jù)中心

人工智能算力建設(shè)指引

北京金融科技產(chǎn)業(yè)聯(lián)盟

2023年8月

編制委員會(huì)

編委會(huì)成員:

王長江聶麗琴張海燕

編寫組成員:

趙春華王妍娟葛金磊張浩然吳仲陽宋虎余學(xué)山

白陽符海芳李書建黃志鵬徐旭陸碧波薛亮

譚翔馬慶杰李潔郭亮王月吳剛郭江波

吳戰(zhàn)立雷昭燕袁智王偉鋒李培彭晉李俊奎

楊海悌俞穎熙程歸鵬張貫忠李鴻鵬宋飛玄凌博

鄭鵬飛黎世勇王云鳳

編審:

黃本濤周豫齊王妍娟張浩然

II

參編單位:

北京金融科技產(chǎn)業(yè)聯(lián)盟秘書處

北京國家金融科技認(rèn)證中心有限公司

中國工商銀行股份有限公司

華為技術(shù)有限公司

浙江網(wǎng)商銀行股份有限公司

中國信息通信研究院

騰訊云計(jì)算(北京)有限責(zé)任公司

新華三技術(shù)有限公司

螞蟻科技集團(tuán)股份有限公司

中科寒武紀(jì)科技股份有限公司

超聚變數(shù)字技術(shù)有限公司

北京百度網(wǎng)訊科技有限公司

III

前言

人工智能基礎(chǔ)設(shè)施作為“新基建”的重要組成部分,是數(shù)字

化走向智能化的核心力量,是金融機(jī)構(gòu)智慧再造的關(guān)鍵載體。近

年來,我國發(fā)布多項(xiàng)政策文件,進(jìn)一步明確人工智能的發(fā)展規(guī)劃,

對(duì)人工智能算力建設(shè)指出方向。2021年底,中國人民銀行發(fā)布

《金融科技發(fā)展規(guī)劃(2022—2025年)》,提出抓住全球人工智能

發(fā)展新機(jī)遇,以人為本全面推進(jìn)智能技術(shù)在金融領(lǐng)域深化應(yīng)用,

著力打造場景感知、人機(jī)協(xié)同、跨界融合的智慧金融新業(yè)態(tài),實(shí)

現(xiàn)金融服務(wù)全生命周期智能化。

人工智能算力數(shù)據(jù)中心是以數(shù)據(jù)中心為基礎(chǔ)的人工智能基

礎(chǔ)設(shè)施。具體來說,人工智能數(shù)據(jù)中心是在超算中心和云計(jì)算數(shù)

據(jù)中心大規(guī)模并行計(jì)算和數(shù)據(jù)處理的技術(shù)架構(gòu)基礎(chǔ)之上,通過大

數(shù)據(jù)和深度學(xué)習(xí)技術(shù)保障其高效、安全運(yùn)營,以人工智能專用芯

片為計(jì)算算力底座,融合公共算力服務(wù)、數(shù)據(jù)開放共享、智能生

態(tài)建設(shè)、產(chǎn)業(yè)創(chuàng)新聚集“四位一體”的綜合平臺(tái),可提供算力、

數(shù)據(jù)和算法等人工智能全棧能力,是當(dāng)前人工智能快速發(fā)展和應(yīng)

用所依托的新型算力基礎(chǔ)設(shè)施?!皵?shù)據(jù)、算法、算力、開放平臺(tái)”

是人工智能基礎(chǔ)設(shè)施的核心內(nèi)容,其中算力包括AI芯片、AI平

臺(tái)、智能計(jì)算中心等產(chǎn)品,提供高性能、低成本、綠色的計(jì)算能

力是算力建設(shè)的關(guān)鍵目標(biāo)。

本報(bào)告闡述了國內(nèi)外人工智能算力建設(shè)情況,梳理了當(dāng)前金

IV

融數(shù)據(jù)中心人工智能算力建設(shè)面臨的挑戰(zhàn),從整體上提出人工智

能算力數(shù)據(jù)中心的架構(gòu),圍繞基建、硬件及軟件基礎(chǔ)設(shè)施給出了

人工智能算力建設(shè)指引,并進(jìn)一步分析了傳統(tǒng)與新型算力、數(shù)據(jù)

中心算力與邊緣算力、算力與網(wǎng)絡(luò)等關(guān)鍵技術(shù)的協(xié)同建設(shè)問題,

探索了人工智能算力數(shù)據(jù)中心綠色低碳運(yùn)維模式,最后通過成功

案例展望未來,以期為金融機(jī)構(gòu)數(shù)據(jù)中心建設(shè)人工智能算力基礎(chǔ)

設(shè)施提供指引與參考。

關(guān)鍵詞:人工智能、AI算力、人工智能算力數(shù)據(jù)中心、AI使

能軟件、AI開發(fā)框架

V

目錄

第一章發(fā)展背景和研究目標(biāo)....................................1

一、發(fā)展背景.................................................1

(一)國家政策及“十四五”規(guī)劃要求..........................1

(二)金融科技發(fā)展的基礎(chǔ)支撐................................4

(三)國內(nèi)外當(dāng)前AI算力建設(shè)情況.............................4

二、研究目標(biāo).................................................9

第二章面臨的挑戰(zhàn)和難點(diǎn).....................................10

一、整體看..................................................10

(一)數(shù)據(jù)中心AI算力發(fā)展不均衡............................10

(二)數(shù)據(jù)中心AI計(jì)算能力不足..............................10

(三)數(shù)據(jù)中心AI算力連接和協(xié)同能力不強(qiáng)....................10

(四)數(shù)據(jù)中心AI算力調(diào)度不靈活............................11

二、分層看..................................................11

(一)數(shù)據(jù)中心選址問題(L0層)............................11

(二)能耗及供電問題(L1層)..............................12

(三)AI算力底座與周邊設(shè)備及網(wǎng)絡(luò)的問題(L2層)............12

(四)支持不同業(yè)務(wù)場景的AI應(yīng)用問題(L3層)................13

第三章建設(shè)指引.............................................14

一、人工智能算力數(shù)據(jù)中心架構(gòu)................................14

(一)總體架構(gòu).............................................14

(二)分層布局.............................................15

二、基建基礎(chǔ)設(shè)施層(L0-L1)..................................20

三、硬件基礎(chǔ)設(shè)施層(L2)....................................20

(一)AI芯片..............................................20

(二)AI服務(wù)器............................................21

(三)AI計(jì)算子系統(tǒng)........................................22

四、軟件基礎(chǔ)設(shè)施層(L3)....................................22

VI

(一)芯片使能軟件.........................................22

(二)AI開發(fā)框架..........................................23

(三)使能軟件.............................................23

第四章建設(shè)協(xié)同.............................................30

一、整體原則................................................30

二、傳統(tǒng)算力與新型算力協(xié)同..................................30

(一)算力產(chǎn)品特征.........................................30

(二)算力協(xié)同建設(shè).........................................32

三、數(shù)據(jù)中心算力與邊緣算力協(xié)同..............................37

四、算力與網(wǎng)絡(luò)協(xié)同..........................................39

(一)廣域算力網(wǎng)絡(luò)架構(gòu).....................................40

(二)廣域算力網(wǎng)絡(luò)關(guān)鍵技術(shù).................................43

(三)數(shù)據(jù)中心算力網(wǎng)絡(luò)關(guān)鍵技術(shù).............................44

(四)算力網(wǎng)絡(luò)協(xié)同關(guān)鍵技術(shù).................................46

(五)算力網(wǎng)絡(luò)數(shù)字化能力...................................47

第五章運(yùn)維和節(jié)能管理.......................................49

一、運(yùn)維管理................................................49

(一)人員組織.............................................49

(二)日常運(yùn)行維護(hù).........................................50

二、節(jié)能管理................................................50

第六章成功案例和未來展望...................................53

一、成功案例................................................53

(一)工商銀行基于高性能網(wǎng)絡(luò)的中高算力集群探索.............53

(二)螞蟻集團(tuán)AI算力端云協(xié)同發(fā)展實(shí)踐......................54

(三)網(wǎng)商銀行基于衛(wèi)星遙感的AI算力服務(wù)農(nóng)村金融實(shí)踐........56

二、未來展望................................................57

(一)AI算力的建設(shè)需求快速提升............................57

(二)AI算力的金融價(jià)值不斷凸顯............................58

參考文獻(xiàn)....................................................60

VII

第一章發(fā)展背景和研究目標(biāo)

一、發(fā)展背景

(一)國家政策及“十四五”規(guī)劃要求

人工智能基礎(chǔ)設(shè)施是“新基建”的重要組成部分,是數(shù)字化

走向智能化的核心力量,是金融機(jī)構(gòu)智慧再造的關(guān)鍵載體?!皵?shù)

據(jù)、算法、算力、開放平臺(tái)”是人工智能基礎(chǔ)設(shè)施的核心內(nèi)容,

其中算力包括AI芯片、AI平臺(tái)、智能計(jì)算中心等產(chǎn)品,提供高

性能、低成本、綠色的計(jì)算能力是算力建設(shè)的關(guān)鍵目標(biāo)。

近年來,我國發(fā)布多項(xiàng)政策文件,進(jìn)一步明確人工智能的發(fā)

展規(guī)劃,對(duì)人工智能算力建設(shè)指出方向。人工智能已上升為國家

戰(zhàn)略,人工智能的發(fā)展迎來重大機(jī)遇。表1匯總了近年來國家和

相關(guān)部委發(fā)布的人工智能及算力相關(guān)政策。

表1人工智能及算力相關(guān)政策

時(shí)間內(nèi)容

國務(wù)院總理李克強(qiáng)2017年政府工作報(bào)告,指出要加快培

2017年3月育壯大包括人工智能在內(nèi)的新興產(chǎn)業(yè),“人工智能”首次

被寫入了國家政府工作報(bào)告。

國務(wù)院出臺(tái)《新一代人工智能發(fā)展規(guī)劃》,提出三步走的

2017年7月

戰(zhàn)略目標(biāo)。

工業(yè)和信息化部印發(fā)《促進(jìn)新一代人工智能產(chǎn)業(yè)發(fā)展三

年行動(dòng)計(jì)劃(2018—2020年)》,明確了到2020年人工

2017年12

智能在推動(dòng)戰(zhàn)略性新興產(chǎn)業(yè)總體突破、推進(jìn)供給側(cè)結(jié)構(gòu)

性改革、振興實(shí)體經(jīng)濟(jì)、建設(shè)制造強(qiáng)國和網(wǎng)絡(luò)強(qiáng)國方面的

重大作用和具體目標(biāo)。

1

時(shí)間內(nèi)容

國務(wù)院總理李克強(qiáng)在十三屆全國人大一次會(huì)議作政府工

2018年3月作報(bào)告時(shí)表示,要加強(qiáng)新一代人工智能研發(fā)應(yīng)用,在醫(yī)

療、養(yǎng)老、教育、文化、體育等多領(lǐng)域推進(jìn)“互聯(lián)網(wǎng)+”。

習(xí)近平總書記在兩院院士大會(huì)上指出,“要推進(jìn)人工智能

2018年5月

同實(shí)體經(jīng)濟(jì)深度融合,做大做強(qiáng)數(shù)字經(jīng)濟(jì)?!?/p>

中央經(jīng)濟(jì)工作會(huì)議,重新定義了基礎(chǔ)設(shè)施建設(shè),把5G、

2018年12

人工智能、工業(yè)互聯(lián)網(wǎng)、物聯(lián)網(wǎng)定義為“新型基礎(chǔ)設(shè)施建

設(shè)”。

國務(wù)院總理李克強(qiáng)在《2019年國務(wù)院政府工作報(bào)告》中

2019年3月明確提出深化人工智能等研發(fā)應(yīng)用。緊扣國家發(fā)展戰(zhàn)略,

加強(qiáng)新一代信息基礎(chǔ)設(shè)施建設(shè)。

中央政治局會(huì)議,強(qiáng)調(diào)要加快推進(jìn)信息網(wǎng)絡(luò)等新型基礎(chǔ)

2019年7月

設(shè)施建設(shè)。

中共中央政治局常務(wù)委員會(huì)召開會(huì)議再次強(qiáng)調(diào)“新基

2020年3月

建”,要求加強(qiáng)人工智能等新型基礎(chǔ)設(shè)施建設(shè)。

國家發(fā)改委首次明確“新基建”范圍,強(qiáng)調(diào)數(shù)據(jù)中心、智

2020年4月

能計(jì)算中心就是算力基礎(chǔ)設(shè)施的代表。

國家標(biāo)準(zhǔn)化管理委員會(huì)、中央網(wǎng)信辦、國家發(fā)展改革委、

2020年7月科技部、工業(yè)和信息化部印發(fā)《國家新一代人工智能標(biāo)準(zhǔn)

體系建設(shè)指南》,指導(dǎo)人工智能標(biāo)準(zhǔn)化工作有序開展。

科技部印發(fā)《國家新一代人工智能創(chuàng)新發(fā)展試驗(yàn)區(qū)建設(shè)

2020年10

工作指引(修訂版)》,明確要布局建設(shè)20個(gè)左右國家

人工智能創(chuàng)新發(fā)展試驗(yàn)區(qū)。

2020年11月17日,國家信息中心信息化和產(chǎn)業(yè)發(fā)展部

2020年11

發(fā)布《智能計(jì)算中心規(guī)劃建設(shè)指南》,對(duì)智能計(jì)算中心的

概念、內(nèi)涵、技術(shù)架構(gòu)、投建運(yùn)模式等進(jìn)行全面解讀。

2

時(shí)間內(nèi)容

國務(wù)院發(fā)布《中華人民共和國國民經(jīng)濟(jì)和社會(huì)發(fā)展第十

四個(gè)五年規(guī)劃和2035年遠(yuǎn)景目標(biāo)綱要》,提出要強(qiáng)化國

家戰(zhàn)略科技力量,加強(qiáng)原創(chuàng)性引領(lǐng)性科技攻關(guān)。新一代人

2021年3月工智能作為重要的科技攻關(guān)領(lǐng)域,重點(diǎn)投入前沿基礎(chǔ)理

論突破,專用芯片研發(fā),深度學(xué)習(xí)框架等開源算法平臺(tái)構(gòu)

建,學(xué)習(xí)推理與決策、圖像圖形、語音視頻、自然語言識(shí)

別處理等領(lǐng)域創(chuàng)新。

國家發(fā)展改革委、中央網(wǎng)信辦、工業(yè)和信息化部、國家能

源局聯(lián)合印發(fā)《全國一體化大數(shù)據(jù)中心協(xié)同創(chuàng)新體系算

力樞紐實(shí)施方案》,明確在京津冀、長三角、粵港澳大灣

2021年5月區(qū)、成渝,以及貴州、內(nèi)蒙古、甘肅、寧夏等地布局建設(shè)

全國一體化算力網(wǎng)絡(luò)國家樞紐節(jié)點(diǎn)(以下簡稱“國家樞紐

節(jié)點(diǎn)”)。

在金融行業(yè),銀保監(jiān)會(huì)于2019年發(fā)布《關(guān)于推動(dòng)銀行業(yè)和

保險(xiǎn)業(yè)高質(zhì)量發(fā)展的指導(dǎo)意見》,提出既要充分利用人工智能強(qiáng)

化業(yè)務(wù)管理,改進(jìn)服務(wù)質(zhì)量,降本增效,又要發(fā)揮人工智能在打

擊非法集資、反洗錢、反欺詐等方面的積極作用。在相關(guān)宏觀政

策的指導(dǎo)下,各地結(jié)合自身區(qū)域特點(diǎn)和行業(yè)發(fā)展?fàn)顩r因地制宜出

臺(tái)相關(guān)政策推動(dòng)智能金融的特色化發(fā)展,相關(guān)行業(yè)標(biāo)準(zhǔn)規(guī)范逐步

完善。2021年,中國人民銀行發(fā)布《人工智能算法金融應(yīng)用評(píng)價(jià)

規(guī)范》(JR/T0221—2021),規(guī)定了人工智能算法在金融領(lǐng)域

應(yīng)用的基本要求、評(píng)價(jià)方法、判定準(zhǔn)則。金融行業(yè)以智能化為目

標(biāo),提升金融數(shù)字化水平,通過業(yè)務(wù)流程自動(dòng)化降低人力成本,

3

通過解決信息不對(duì)稱問題彌合數(shù)據(jù)信息差,通過個(gè)性化的千人千

面提供普惠金融服務(wù),從而實(shí)現(xiàn)業(yè)務(wù)的增長、風(fēng)險(xiǎn)成本的降低、

運(yùn)營成本的改善。

(二)金融科技發(fā)展的基礎(chǔ)支撐

金融科技發(fā)展提出人工智能、大數(shù)據(jù)分析等場景,響應(yīng)金融

監(jiān)管政策的要求。2021年12月,中國人民銀行印發(fā)《金融科技

發(fā)展規(guī)劃(2022—2025年)》,提出“堅(jiān)持發(fā)展與監(jiān)管兩手抓,

推動(dòng)金融科技在實(shí)體經(jīng)濟(jì)的沃土中落地生根。大數(shù)據(jù)、云計(jì)算、

人工智能、區(qū)塊鏈等技術(shù)金融應(yīng)用成效顯著。金融服務(wù)覆蓋面逐

步擴(kuò)大,優(yōu)質(zhì)金融產(chǎn)品供給不斷豐富,金融惠民利企水平持續(xù)提

升?!?/p>

人工智能作為金融機(jī)構(gòu)數(shù)字化轉(zhuǎn)型的重要手段,助力金融行

業(yè)在產(chǎn)品設(shè)計(jì)、市場營銷、風(fēng)險(xiǎn)控制、客戶服務(wù)以及其他支撐性

業(yè)務(wù)領(lǐng)域和場景中實(shí)現(xiàn)整體升級(jí)。《金融科技發(fā)展規(guī)劃(2022—

2025年)》在“智慧為民”基本原則中,提出“抓住全球人工智

能發(fā)展新機(jī)遇,以人為本全面推進(jìn)智能技術(shù)在金融領(lǐng)域深化應(yīng)用,

強(qiáng)化科技倫理治理,著力打造場景感知、人機(jī)協(xié)同、跨界融合的

智慧金融新業(yè)態(tài),實(shí)現(xiàn)金融服務(wù)全生命周期智能化,切實(shí)增強(qiáng)人

民群眾獲得感、安全感和幸福感”,加快金融服務(wù)智慧再造,提

升數(shù)字綠色的服務(wù)體系中的智能應(yīng)用水平。

(三)國內(nèi)外當(dāng)前AI算力建設(shè)情況

1.國內(nèi)外算力規(guī)模發(fā)展

4

2020年全球算力總規(guī)模達(dá)到429EFlops1,增速達(dá)到39%,其

中基礎(chǔ)算力規(guī)模為313EFlops,AI算力規(guī)模為107EFlops,超算

算力規(guī)模(換算為FP32)為9EFlops。預(yù)估未來五年全球算力規(guī)

模將以超過50%的速度增長,到2025年整體規(guī)模將達(dá)到

3300EFlops。全球算力競爭激烈,基礎(chǔ)算力方面以中國和美國為

第一梯隊(duì),其中美國占43%份額,中國占26%份額。智能算力方

面,中國智能算力占算力的比重由2016年的3%提升至2020年

41%,以人工智能算力數(shù)據(jù)中心為代表的AI算力基礎(chǔ)設(shè)施發(fā)展迅

猛?!?020全球計(jì)算力指數(shù)評(píng)估報(bào)告》顯示“全球計(jì)算力水平

top5行業(yè)分別是互聯(lián)網(wǎng)、制造、金融、政府和電信”,金融行業(yè)

綜合排名進(jìn)入前三。

2.金融業(yè)務(wù)應(yīng)用系統(tǒng)需求

在新一輪科技革命和產(chǎn)業(yè)變革的背景下,金融科技蓬勃發(fā)展,

人工智能、大數(shù)據(jù)、云計(jì)算、物聯(lián)網(wǎng)等信息技術(shù)與金融業(yè)務(wù)深度

融合,為金融發(fā)展提供源源不斷的創(chuàng)新活力。同時(shí)《2020全球計(jì)

算力指數(shù)評(píng)估報(bào)告》顯示“金融行業(yè)信息化和數(shù)字化起步較早,

金融行業(yè)因?qū)λ懔Φ姆€(wěn)定性、可靠性、實(shí)時(shí)性、安全性等方面要

求較高,對(duì)于算力的投資規(guī)模處于行業(yè)領(lǐng)先水平且比較穩(wěn)定。從

全球來看,金融行業(yè)是人工智能算力投資最大的傳統(tǒng)行業(yè),據(jù)IDC

數(shù)據(jù),全球AI算力支出的24.9%來自金融行業(yè),人工智能作為

金融行業(yè)數(shù)字化轉(zhuǎn)型過程的關(guān)鍵部分,被廣泛用于反欺詐、風(fēng)險(xiǎn)

1EFlops:百億億次,F(xiàn)lops指的是每秒浮點(diǎn)運(yùn)算次數(shù),E代表的是一百京,一個(gè)EFLOPS(exaFLOPS)等于每

秒一百京(=10^18)次的浮點(diǎn)運(yùn)算。

5

管控、合規(guī)管理、運(yùn)營流程、自動(dòng)化客服、智能CRM和量化交易

等領(lǐng)域,輔助金融企業(yè)降低成本、提升效率和提高客戶體驗(yàn)”。

人工智能應(yīng)用對(duì)算力最大的挑戰(zhàn)來自數(shù)據(jù)中心的模型訓(xùn)練。

具有海量參數(shù)的模型訓(xùn)練幾乎完全依賴于核心數(shù)據(jù)中心的算力

支撐。比如2020年微軟發(fā)布的智能感知計(jì)算模型Turing-NLG,

參數(shù)量高達(dá)到175億;OpenAI發(fā)布的GPT-3模型,參數(shù)量更達(dá)

到1750億,是GPT-2的100余倍。由于其龐大的參數(shù)體量,在

給人工智能應(yīng)用提供便利的同時(shí),對(duì)AI算力提出了更高的要求。

尤其是在金融行業(yè)數(shù)字化轉(zhuǎn)型的浪潮中,人工智能的算法越來越

依賴于算力的發(fā)展。

3.國內(nèi)金融業(yè)AI典型業(yè)務(wù)場景

人工智能與金融行業(yè)深度融合,金融行業(yè)數(shù)字化、智能化改

革已經(jīng)初見成效,金融人工智能整體呈現(xiàn)業(yè)務(wù)智能價(jià)值創(chuàng)造,全

面覆蓋產(chǎn)品設(shè)計(jì)、市場營銷、風(fēng)險(xiǎn)控制、客戶服務(wù)等主流業(yè)務(wù)場

景。從技術(shù)價(jià)值來看,人工智能技術(shù)正逐步解決行業(yè)痛點(diǎn)問題,

在實(shí)現(xiàn)業(yè)務(wù)流程自動(dòng)化、彌合信息差、構(gòu)建普惠金融方面發(fā)揮著

關(guān)鍵作用,已經(jīng)在獲取增量業(yè)務(wù)、降低風(fēng)險(xiǎn)成本、改善運(yùn)營成本、

提升客戶滿意度方面進(jìn)入價(jià)值創(chuàng)造階段。從應(yīng)用場景來看,以機(jī)

器學(xué)習(xí)、機(jī)器視覺、生物特征識(shí)別、知識(shí)圖譜等技術(shù)賦能的金融

行業(yè),衍生出智慧網(wǎng)點(diǎn)、量化交易、智能投顧、智能風(fēng)控等多個(gè)

典型場景。表2列舉了AI算力金融行業(yè)應(yīng)用的十大典型業(yè)務(wù)場

景。

6

表2AI算力金融行業(yè)應(yīng)用的典型業(yè)務(wù)場景

場景名稱描述

場景:標(biāo)配“無人、無證、無卡”,提供普惠金融服務(wù)、

財(cái)富管理服務(wù)、智慧金融服務(wù)、國際業(yè)務(wù)等服務(wù)。

智慧網(wǎng)點(diǎn)

技術(shù):依托身份識(shí)別、數(shù)字人、人臉識(shí)別、語音識(shí)別等技

術(shù)提供服務(wù)。

場景:模擬人工完成圖像識(shí)別、關(guān)鍵信息提取、數(shù)據(jù)錄

入、報(bào)表生成、行為分析、合規(guī)分析、結(jié)果決策等。

技術(shù):光學(xué)識(shí)別技術(shù)OCR(OpticalCharacter

數(shù)字員工

Recognition)、RPA(RoboticProcessAutomation)技

術(shù)、數(shù)字人、NLP(NaturalLanguageProcessing)技

術(shù)、圖像分類。

場景:廣泛應(yīng)用于各類金融機(jī)構(gòu),提供24小時(shí)不間斷

問答服務(wù)。

智能客服

技術(shù):依托自然語言理解、語音識(shí)別、RPA、知識(shí)圖譜、

NLP等技術(shù)提供智能交互服務(wù)。

場景及技術(shù):依托先進(jìn)的數(shù)學(xué)模型替代人為的主觀判斷,

量化交易有很多種,包括跨平臺(tái)搬磚、趨勢交易、對(duì)沖

量化交易

等??缙脚_(tái)搬磚是指當(dāng)不同目標(biāo)平臺(tái)價(jià)差達(dá)到一定金額,

在價(jià)高的平臺(tái)賣出,在價(jià)低的平臺(tái)買入。

場景及技術(shù):人臉識(shí)別、聲紋識(shí)別、靜脈識(shí)別、指紋識(shí)別

智能身份識(shí)別

等。

7

場景名稱描述

場景:B端金融機(jī)構(gòu)用戶,整合各類研報(bào)數(shù)據(jù)。并自動(dòng)撰

寫研報(bào),給出機(jī)構(gòu)投資意見。

智能投研技術(shù):智能投研依賴知識(shí)圖譜和深度學(xué)習(xí)技術(shù)的進(jìn)一步

發(fā)展,通過智能數(shù)據(jù)收集、清洗、分析,實(shí)現(xiàn)對(duì)投資標(biāo)的

的發(fā)展趨勢判斷與風(fēng)險(xiǎn)預(yù)測。

場景:通過一系列智能算法綜合評(píng)估用戶的風(fēng)險(xiǎn)偏好、

投資目標(biāo)、財(cái)務(wù)狀況等基本信息,并結(jié)合現(xiàn)代投資組合

理論為用戶提供自動(dòng)化、個(gè)性化的理財(cái)方案。其實(shí)質(zhì)是

智能投顧

利用機(jī)器模擬理財(cái)顧問的個(gè)人經(jīng)驗(yàn)。

技術(shù):核心環(huán)節(jié)包括用戶畫像、大類資產(chǎn)配置(投資標(biāo)的

選擇)、投資組合構(gòu)建和動(dòng)態(tài)優(yōu)化等。

場景:聚焦存貸款產(chǎn)品營銷、信用卡分期、理財(cái)產(chǎn)品、節(jié)

假日關(guān)懷等。

技術(shù):依托推薦引擎和機(jī)器學(xué)習(xí)技術(shù),通過分析用戶數(shù)

智能營銷

據(jù)并聚類用戶特征,做到“千人千面”的智能推送。利用

知識(shí)圖譜和自然語言處理等技術(shù)建立客戶畫像,實(shí)現(xiàn)精

準(zhǔn)的營銷定位與需求挖掘。

場景:聚焦金融業(yè)交易等風(fēng)險(xiǎn)防控場景,如支付、信貸,

反洗錢等。

智能風(fēng)控

技術(shù):依托機(jī)器學(xué)習(xí)和知識(shí)圖譜等技術(shù),通過數(shù)據(jù)驅(qū)動(dòng)

風(fēng)險(xiǎn)管理與運(yùn)營優(yōu)化。

場景:主要集中在支付和金融賬戶登錄等場景。

智能反欺詐技術(shù):包括人臉識(shí)別、聲紋識(shí)別、指紋識(shí)別、虹膜識(shí)別、

光學(xué)識(shí)別等。

8

二、研究目標(biāo)

本課題的研究目標(biāo)分為兩方面。

一是基于當(dāng)前金融機(jī)構(gòu)積極探索和建設(shè)新型人工智能業(yè)務(wù)

系統(tǒng)及人工智能算力數(shù)據(jù)中心的情況,廣泛吸取金融行業(yè)目前較

為優(yōu)秀的建設(shè)經(jīng)驗(yàn)和解決方案,編制研究報(bào)告,為金融機(jī)構(gòu)數(shù)據(jù)

中心建設(shè)人工智能算力基礎(chǔ)設(shè)施提供指引與參考。

二是在完成研究報(bào)告的基礎(chǔ)上,進(jìn)一步編制相關(guān)標(biāo)準(zhǔn),以規(guī)

范金融數(shù)據(jù)中心人工智能算力基礎(chǔ)設(shè)施建設(shè)。

9

第二章面臨的挑戰(zhàn)和難點(diǎn)

一、整體看

(一)數(shù)據(jù)中心AI算力發(fā)展不均衡

在當(dāng)今金融業(yè)龐大的數(shù)據(jù)處理量面前,數(shù)據(jù)中心規(guī)模總量和

能耗總量不斷增長,而且AI算力業(yè)務(wù)天然存在波動(dòng),存在部分

能耗閑置現(xiàn)象。數(shù)據(jù)中心特別是西部地區(qū)一些數(shù)據(jù)中心算力資源

未能充分利用的問題也常被業(yè)內(nèi)專家提及。我國東部算力資源緊

張與西部算力需求不足的問題并存,區(qū)域數(shù)字基礎(chǔ)設(shè)施和應(yīng)用空

間布局亟待優(yōu)化。數(shù)字化時(shí)代的今天,“東數(shù)西算”備受矚目,

他與“南水北調(diào)、西電東送、西氣東輸”一樣,成為國家級(jí)的超

級(jí)工程,也是解決算力發(fā)展不均衡的基本國策。

(二)數(shù)據(jù)中心AI計(jì)算能力不足

伴隨數(shù)據(jù)的激增和算法的日益復(fù)雜,算力將成為決定人工智

能發(fā)展上限的重要因素。人工智能算力數(shù)據(jù)中心能耗總量較大,

且保持不斷增長。以人工智能專用芯片為計(jì)算算力底座,在其上

開發(fā)的AI框架、AI應(yīng)用呈現(xiàn)出多樣化、復(fù)雜化、碎片化的態(tài)勢。

電力的潛能已經(jīng)全被釋放,算力的潛能隨著數(shù)據(jù)的產(chǎn)生和數(shù)字化

的進(jìn)展,還會(huì)持續(xù)釋放。合理架構(gòu)網(wǎng)絡(luò),優(yōu)化算法,運(yùn)用新技術(shù)

使得軟硬件不斷推陳出新,使算力不斷指數(shù)級(jí)提升,從而滿足智

能應(yīng)用的多元化需求。

(三)數(shù)據(jù)中心AI算力連接和協(xié)同能力不強(qiáng)

在全產(chǎn)業(yè)數(shù)字化轉(zhuǎn)型的大形勢下,新興技術(shù)應(yīng)用成為算力提

10

升最主要的驅(qū)動(dòng)力,尤其是人工智能帶動(dòng)的AI算力需求。政府、

企業(yè)一同建設(shè),集約化不夠,利用率有限,成本居高。并且算力

服務(wù)器成本居高不下,尤其AI算力服務(wù)器。如果建成人工智能

算力數(shù)據(jù)中心,實(shí)現(xiàn)設(shè)備網(wǎng)絡(luò)共享,降低成本,可以發(fā)揮我國的

制度和行業(yè)優(yōu)勢。如何實(shí)現(xiàn)人工智能算力數(shù)據(jù)中心間互聯(lián),分支

邊緣算力互聯(lián),第三方算力協(xié)同互聯(lián),AI算力物聯(lián)終端互聯(lián),這

是一個(gè)體系化的布局。政策性設(shè)計(jì)為基礎(chǔ),其中資源匹配、網(wǎng)絡(luò)

部署、算力對(duì)接等都是本課題研究的重點(diǎn)。

(四)數(shù)據(jù)中心AI算力調(diào)度不靈活

在國家碳達(dá)峰、碳中和的目標(biāo)下,實(shí)現(xiàn)在不同數(shù)據(jù)中心間算

力協(xié)同調(diào)度、削峰填谷、精細(xì)化能耗控制的要求。算力的靈活調(diào)

度尤為重要。數(shù)據(jù)每丟失千分之一,吞吐量就會(huì)下降50%,浪費(fèi)

算力資源。一方面,對(duì)網(wǎng)絡(luò)提出要求,盡量實(shí)現(xiàn)無損網(wǎng)絡(luò)。另一

方面,通過自動(dòng)混合并行、全局內(nèi)存管理、可視化調(diào)優(yōu)以及分布

式推理等核心技術(shù),強(qiáng)化對(duì)人工智能網(wǎng)絡(luò)的靈活調(diào)度,以提升人

工智能算力數(shù)據(jù)中心的調(diào)度協(xié)同水平。

二、分層看2

(一)數(shù)據(jù)中心選址問題(L0層)

新建或改擴(kuò)建的人工智能算力數(shù)據(jù)中心位置,一方面受地方

政府規(guī)劃局限,另一方面還要考慮當(dāng)?shù)卣畬?duì)PUE3等的綠色環(huán)保

2人工智能算力數(shù)據(jù)中心分層布局詳見第三章第二部分人工智能算力數(shù)據(jù)中心架構(gòu)。

3PowerUsageEffectiveness的簡寫,是評(píng)價(jià)數(shù)據(jù)中心能源效率的指標(biāo),是數(shù)據(jù)中心消耗的所有能源與IT負(fù)載消

耗的能源的比值。PUE=數(shù)據(jù)中心總能耗/IT設(shè)備能耗,其中數(shù)據(jù)中心總能耗包括IT設(shè)備能耗和制冷、配電等系

統(tǒng)的能耗,其值大于1,越接近1表明非IT設(shè)備耗能越少,即能效水平越好。

11

要求。當(dāng)前人工智能算力數(shù)據(jù)中心的建設(shè)現(xiàn)狀主要為政府主導(dǎo)建

設(shè)和頭部企業(yè)自行建設(shè)。為加快推動(dòng)數(shù)據(jù)中心綠色高質(zhì)量發(fā)展,

建設(shè)全國算力樞紐體系,落實(shí)國家“東數(shù)西算”工程,統(tǒng)籌圍繞

國家重大區(qū)域發(fā)展戰(zhàn)略,根據(jù)能源結(jié)構(gòu)、產(chǎn)業(yè)布局、市場發(fā)展、

氣候環(huán)境等,建議人工智能算力數(shù)據(jù)中心在國家樞紐節(jié)點(diǎn)布局建

設(shè),發(fā)展數(shù)據(jù)中心集群,引導(dǎo)數(shù)據(jù)中心集約化、規(guī)模化、綠色化

發(fā)展。國家樞紐節(jié)點(diǎn)之間進(jìn)一步打通網(wǎng)絡(luò)傳輸通道,提升跨區(qū)域

算力調(diào)度水平。

(二)能耗及供電問題(L1層)

人工智能算力數(shù)據(jù)中心遠(yuǎn)遠(yuǎn)高于一般數(shù)據(jù)中心對(duì)于電力能

耗的需求,需要向當(dāng)?shù)仉娏?yīng)部門申請(qǐng)電力配額,以解決供電

等突出問題。另外,傳統(tǒng)數(shù)據(jù)中心在改擴(kuò)建過程中,傳統(tǒng)機(jī)柜電

力不足以支撐能耗巨大的AI算力服務(wù)器,需要液冷等更高能效

的設(shè)備,在提升算力的同時(shí)降低對(duì)電力能耗的需求。對(duì)已建成的

傳統(tǒng)業(yè)務(wù)設(shè)施改擴(kuò)建過程,為確保金融業(yè)務(wù)的平穩(wěn)過渡和無縫銜

接,需要經(jīng)驗(yàn)豐富的公司執(zhí)行。

(三)AI算力底座與周邊設(shè)備及網(wǎng)絡(luò)的問題(L2層)

人工智能、HPC(HighPerformanceComputing,高性能計(jì)算)、

元宇宙等新興應(yīng)用需要大量數(shù)據(jù)吞吐和運(yùn)算能力,GPU(Graphics

ProcessingUnit,圖形處理單元)隨著性能的提升,功耗也在

顯著提升,服務(wù)器等IT設(shè)備,特別是AI服務(wù)器的功耗呈上升趨

勢(AI服務(wù)器單臺(tái)能耗甚至要突破10kW),數(shù)據(jù)中心面臨能耗

12

和散熱的挑戰(zhàn)。通過云網(wǎng)融合,整合云、數(shù)據(jù)中心資源和優(yōu)質(zhì)網(wǎng)

絡(luò)資源,把連接和計(jì)算整合在一起,從而提升AI算力水平,攻

克“數(shù)據(jù)上不來,算力下不去”的難題。

(四)支持不同業(yè)務(wù)場景的AI應(yīng)用問題(L3層)

AI框架及主流框架紛繁多樣,金融機(jī)構(gòu)需要時(shí)間提升對(duì)框

架和工具的使用能力,對(duì)金融機(jī)構(gòu)的服務(wù)也具有一定挑戰(zhàn)。在設(shè)

計(jì)具體場景的AI業(yè)務(wù)軟件系統(tǒng)時(shí),由于開發(fā)人員缺少相關(guān)標(biāo)準(zhǔn)

和應(yīng)用接口的參考,因此對(duì)特定行業(yè)計(jì)算系統(tǒng)的適應(yīng)性、可裁剪

性、可伸縮性等細(xì)節(jié)特性的考慮不充分,缺少在各種嚴(yán)苛條件下

系統(tǒng)的可靠性、可服務(wù)性以及對(duì)整體軟硬件系統(tǒng)性能影響的考慮,

這就加大了AI算力業(yè)務(wù)落地的成本。

13

第三章建設(shè)指引

數(shù)據(jù)中心AI算力指標(biāo)包含4大核心要素:通用計(jì)算能力、

高性能計(jì)算能力、存儲(chǔ)能力、網(wǎng)絡(luò)能力。數(shù)據(jù)中心AI算力的建

設(shè)應(yīng)滿足3大要求:一是AI算力建設(shè)對(duì)電力動(dòng)力等的要求。二

是數(shù)據(jù)中心AI算力軟硬件技術(shù)要求,包括核心AI處理器架構(gòu)、

AI訓(xùn)練產(chǎn)品性能、集群互聯(lián)系統(tǒng)能力、AI主流軟件適配能力、

軟件平臺(tái)和工具的完備性、主流機(jī)器學(xué)習(xí)和深度學(xué)習(xí)網(wǎng)絡(luò)支撐能

力等。三是AI算力和通用算力協(xié)同建設(shè)及改造指引,包括以AI

算力建設(shè)作為主算力的AI計(jì)算集群軟硬件建設(shè)要求,與通用計(jì)

算集群、網(wǎng)絡(luò)及存儲(chǔ)集群的軟硬件協(xié)同建設(shè)的要求。

一、人工智能算力數(shù)據(jù)中心架構(gòu)

計(jì)算是人類能力的延伸,算力的建設(shè)與社會(huì)的發(fā)展需求緊密

結(jié)合,在不同歷史階段出現(xiàn)了超級(jí)計(jì)算中心、云計(jì)算數(shù)據(jù)中心、

人工智能算力數(shù)據(jù)中心等不同形態(tài)的算力基礎(chǔ)設(shè)施。人工智能算

力數(shù)據(jù)中心是當(dāng)前人工智能快速發(fā)展和應(yīng)用所依托的新型算力

基礎(chǔ)設(shè)施。

(一)總體架構(gòu)

人工智能算力數(shù)據(jù)中心借鑒了超級(jí)計(jì)算中心和云計(jì)算數(shù)據(jù)

中心大規(guī)模并行計(jì)算和數(shù)據(jù)處理的技術(shù)架構(gòu),但以人工智能專用

芯片為計(jì)算算力底座。人工智能算力數(shù)據(jù)中心由基建基礎(chǔ)設(shè)施、

硬件基礎(chǔ)設(shè)施、軟件基礎(chǔ)設(shè)施及行業(yè)應(yīng)用等組成。

為了能高效、清晰地對(duì)人工智能算力數(shù)據(jù)中心建設(shè)展開研究,

14

把人工智能算力數(shù)據(jù)中心建設(shè)劃分成5層,總體架構(gòu)如圖1所

示。

行業(yè)應(yīng)用

軟件基礎(chǔ)設(shè)施

人工智能算力數(shù)據(jù)中心硬件基礎(chǔ)設(shè)施

基建基礎(chǔ)設(shè)施

圖1人工智能算力數(shù)據(jù)中心總體架構(gòu)

土建層(L0),包括地基和建筑體。

基礎(chǔ)設(shè)施層(L1),包括IT運(yùn)行環(huán)境、風(fēng)火水電及運(yùn)維管

理。

硬件基礎(chǔ)設(shè)施層(L2),包括AI芯片及服務(wù)器等硬件設(shè)備。

軟件基礎(chǔ)設(shè)施層(L3),包括應(yīng)用軟件、開發(fā)框架、軟件平

臺(tái)和數(shù)據(jù)。

行業(yè)應(yīng)用層(L4),包括智能識(shí)別、智能投顧、智能客服等

金融行業(yè)應(yīng)用。

L0和L1相關(guān)度較大,統(tǒng)稱為基建基礎(chǔ)設(shè)施層。

(二)分層布局

人工智能算力數(shù)據(jù)中心分層布局如圖2所示,其中與人工智

能算力建設(shè)相關(guān)的部分包括基建、硬件及軟件基礎(chǔ)設(shè)施3層。

15

金融行業(yè)

智能識(shí)別智能投顧智能客服智能營銷量化交易智能風(fēng)控L4

應(yīng)用

行業(yè)算法:AI與金融業(yè)務(wù)融合金融市場:AI與數(shù)據(jù)要素流動(dòng)L3

使能軟件

數(shù)據(jù)管理模型開發(fā)自動(dòng)學(xué)習(xí)預(yù)置算法

軟件L3

基礎(chǔ)智能診斷數(shù)據(jù)標(biāo)注大規(guī)模AI訓(xùn)練云邊端部署

設(shè)施

工基礎(chǔ)軟件

芯片使能AI開發(fā)框架L3

能AI系統(tǒng)軟件

云平臺(tái)資源云化算力調(diào)度多租戶隔離彈性共享云邊端協(xié)同

數(shù)

據(jù)

硬件AI計(jì)算子系統(tǒng)

中L2

基礎(chǔ)存儲(chǔ)子系統(tǒng)網(wǎng)絡(luò)子系統(tǒng)

心GPUTPUNPUASICFPGA

設(shè)施

IT運(yùn)行環(huán)境運(yùn)維管理

基建L1

基礎(chǔ)風(fēng)火水電

設(shè)施

規(guī)劃設(shè)計(jì)機(jī)房土建L0

圖2人工智能算力數(shù)據(jù)中心分層布局

1.基建基礎(chǔ)設(shè)施層(L0-L1)

基建基礎(chǔ)設(shè)施層包括人工智能算力數(shù)據(jù)中心規(guī)劃設(shè)計(jì)和為

中心提供空間、電力、水源、冷量、防火等基本條件的機(jī)房土建、

風(fēng)水火電、IT運(yùn)行環(huán)境及運(yùn)維管理建設(shè)等底層設(shè)施。

2.硬件基礎(chǔ)設(shè)施層(L2)

硬件基礎(chǔ)設(shè)施層是人工智能算力數(shù)據(jù)中心的核心基礎(chǔ),由AI

計(jì)算子系統(tǒng)、存儲(chǔ)子系統(tǒng)、網(wǎng)絡(luò)互聯(lián)子系統(tǒng)組成,如圖3所示。

16

AI計(jì)算子系統(tǒng)存儲(chǔ)子系統(tǒng)

AI集群基礎(chǔ)單元AIAI

集群集群存儲(chǔ)

AI服務(wù)器供電

硬件基礎(chǔ)基礎(chǔ)節(jié)點(diǎn)

制冷

基礎(chǔ)GPUFPGAASICNPU單元單元

設(shè)施

網(wǎng)絡(luò)互聯(lián)子系統(tǒng)

數(shù)據(jù)中心交換機(jī)數(shù)據(jù)中心交換機(jī)數(shù)據(jù)中心交換機(jī)

圖3硬件基礎(chǔ)設(shè)施架構(gòu)圖

(1)AI芯片。依據(jù)承擔(dān)的功能,AI芯片可劃分為訓(xùn)練和推

理芯片。訓(xùn)練芯片涉及海量數(shù)據(jù)和大規(guī)模計(jì)算,對(duì)算法、精度、

處理能力要求非常高,當(dāng)前僅適合在中心端部署。推理芯片更加

注重綜合能力,包括算力能耗、時(shí)延、成本等因素,支持計(jì)算機(jī)

視覺、視頻處理、自然語言處理和搜索推薦等推理應(yīng)用場景,可

部署在中心端、邊緣或終端側(cè)。目前GPU、NPU(Neuralnetwork

ProcessingUnit)、FPGA(FieldProgrammableGateArray)、

ASIC(ApplicationSpecificIntergratedCircuits)等是AI

芯片行業(yè)的主流技術(shù)路線。

(2)AI計(jì)算子系統(tǒng)。AI計(jì)算子系統(tǒng)一般由高密度、集成化

機(jī)柜式設(shè)計(jì)的集群基礎(chǔ)單元組成,每個(gè)集群基礎(chǔ)單元包括若干AI

服務(wù)器,每臺(tái)AI服務(wù)器均搭載AI芯片,在芯片和服務(wù)器之間通過

互聯(lián)網(wǎng)絡(luò)傳遞人工智能網(wǎng)絡(luò)模型的梯度參數(shù)更新等數(shù)據(jù)。各集群

基礎(chǔ)單元可支持約40kW的散熱功耗,實(shí)現(xiàn)低PUE數(shù)據(jù)中心能源效

率。

17

(3)存儲(chǔ)子系統(tǒng)。存儲(chǔ)子系統(tǒng)提供高性能、高可靠、高擴(kuò)

展性和易備份的分布式存儲(chǔ)。存儲(chǔ)子系統(tǒng)部署存儲(chǔ)節(jié)點(diǎn),提供對(duì)

象存儲(chǔ)、塊存儲(chǔ)等存儲(chǔ)服務(wù),為人工智能訓(xùn)練平臺(tái)提供高吞吐,

大帶寬的樣本原始數(shù)據(jù)。

(4)網(wǎng)絡(luò)互聯(lián)子系統(tǒng)。網(wǎng)絡(luò)互聯(lián)子系統(tǒng)為整個(gè)AI硬件基礎(chǔ)

設(shè)施層各子系統(tǒng)間提供互聯(lián)互通支撐。

3.軟件基礎(chǔ)設(shè)施層(L3)

軟件基礎(chǔ)設(shè)施層包含基礎(chǔ)軟件、AI使能4軟件、行業(yè)算法和

AI市場,如圖4所示。

行業(yè)算法:AI與行業(yè)業(yè)務(wù)融合AI市場:AI與數(shù)據(jù)要素流動(dòng)

使能軟件

數(shù)據(jù)管理模型開發(fā)自動(dòng)學(xué)習(xí)預(yù)置算法

軟件

基礎(chǔ)智能診斷數(shù)據(jù)標(biāo)注大規(guī)模AI訓(xùn)練云邊端部署

設(shè)施

基礎(chǔ)軟件

AI系統(tǒng)軟件芯片使能軟件AI開發(fā)框架

云平臺(tái)資源云化算力調(diào)度多租戶隔離彈性共享云邊端協(xié)同

圖4軟件基礎(chǔ)設(shè)施架構(gòu)圖

(1)基礎(chǔ)軟件

(a)芯片使能軟件。芯片使能軟件構(gòu)建于AI芯片驅(qū)動(dòng)層之

上,是人工智能軟件加速庫(算子)集合,為深度學(xué)習(xí)提供必不

可少的計(jì)算優(yōu)化功能。各大芯片廠商都推出了針對(duì)自身芯片進(jìn)行

優(yōu)化的使能庫,如對(duì)于以GPU和NPU為基礎(chǔ)的兩類AI芯片,其

4使能,其英文為“Enable”,使能軟件是增強(qiáng)原有系統(tǒng)或基礎(chǔ)軟件能力的一種軟件,使其具備更多新的能力。

18

芯片使能軟件的代表分別是CUDA(ComputeUnifiedDevice

Architecture,計(jì)算統(tǒng)一設(shè)備架構(gòu))和CANN(Compute

ArchitectureforNeuralnetworks,神經(jīng)網(wǎng)絡(luò)計(jì)算體系結(jié)構(gòu))。

(b)AI開發(fā)框架。AI開發(fā)框架封裝卷積運(yùn)算、激活函數(shù)、

損失函數(shù)計(jì)算、優(yōu)化器使用等基本操作,提供人工智能網(wǎng)絡(luò)模型

開發(fā)環(huán)境。主流AI開發(fā)框架包括MindSpore、TensorFlow、

PyTorch和PaddlePaddle等。

(c)云平臺(tái)?;A(chǔ)軟件中還包括云平臺(tái),對(duì)計(jì)算、存儲(chǔ)及

網(wǎng)絡(luò)資源進(jìn)行統(tǒng)一調(diào)度和管理,提供統(tǒng)一的算力支持。

(2)使能軟件

人工智能算力數(shù)據(jù)中心面向大規(guī)模分布式模型訓(xùn)練、全流程

人工智能應(yīng)用支撐,需要對(duì)大規(guī)模算力資源進(jìn)行管理和調(diào)度。

使能軟件基于硬件基礎(chǔ)設(shè)施的組網(wǎng)特點(diǎn)實(shí)現(xiàn)對(duì)算力資源的

統(tǒng)一管理、調(diào)度和監(jiān)控,進(jìn)行細(xì)粒度的資源實(shí)時(shí)分配,支持海量

任務(wù)的智能自動(dòng)調(diào)度、任務(wù)管理、數(shù)據(jù)加載和預(yù)處理,支持大規(guī)

模人工智能計(jì)算場景,并能夠提供豐富的人工智能場景應(yīng)用和

API服務(wù),使用戶能夠在該平臺(tái)上進(jìn)行一站式人工智能開發(fā)和應(yīng)

用部署。

軟件API服務(wù)主要包括提供智能語音語言類和計(jì)算機(jī)視覺

服務(wù)。智能語音語言類服務(wù)主要提供語音識(shí)別、語音合成、聲紋

識(shí)別、語音聽轉(zhuǎn)寫等在線服務(wù),計(jì)算機(jī)視覺類服務(wù)主要提供物體

檢測、人臉識(shí)別、人臉檢測、圖像識(shí)別、光學(xué)字符識(shí)別等服務(wù)。

19

產(chǎn)業(yè)側(cè)使能軟件包括華為的modelArts、百度的AIstudio、

第四范式的sageEE、寒武紀(jì)的CAIP算力平臺(tái)、新華三的傲飛

AMPHA、亞馬遜的AWSsageMaker等。

(3)行業(yè)算法和AI市場

行業(yè)算法通過行業(yè)知識(shí)的積累,預(yù)置各樣經(jīng)驗(yàn),從而更快、

更高效地為行業(yè)賦能。AI市場則支持?jǐn)?shù)據(jù)和AI模型的有效流動(dòng)

和共享。

二、基建基礎(chǔ)設(shè)施層(L0-L1)

在數(shù)據(jù)中心選址方面,除符合國家標(biāo)準(zhǔn)GB50174的4.1.1、

4.1.2和附錄A中選址相關(guān)技術(shù)要求和使用需求外,還應(yīng)符合

JR/T0265中7.2規(guī)劃及布局的基本要求。

在數(shù)據(jù)中心環(huán)境、建筑與結(jié)構(gòu)、空氣調(diào)節(jié)、電氣、電磁屏蔽、

網(wǎng)絡(luò)與布線系統(tǒng)、智能化系統(tǒng)、給水排水、消防與安全方面,除

符合國家標(biāo)準(zhǔn)GB50174第5章至第13章及附錄A相關(guān)技術(shù)要

求外,還應(yīng)符合JR/T0265中第7.3章節(jié)至7.11章節(jié)的基本要

求。

三、硬件基礎(chǔ)設(shè)施層(L2)

(一)AI芯片

1.AI芯片架構(gòu)

(1)應(yīng)采用適合的AI芯片架構(gòu),提供高AI算力和能效比。

(2)應(yīng)支持高速互聯(lián)技術(shù)。

(3)應(yīng)支持高度集成化、模塊化和冗余設(shè)計(jì)。

20

2.AI加速芯片

(1)應(yīng)支持專用的矩陣乘法運(yùn)算加速單元和向量乘加運(yùn)算

加速單元。

(2)應(yīng)支持片上配備高速緩存,加速數(shù)據(jù)存取與多核通信。

(3)應(yīng)提供FP32、FP16、TF32浮點(diǎn)運(yùn)算精度。對(duì)于推理

卡,F(xiàn)P32不小于20TOPS或FP16不小于250TOPS;對(duì)于訓(xùn)練卡,

FP32不小于64TFLOPS或FP16不小于280TFLOPS,TF32宜不小

于128TFOPS。

(4)推理卡應(yīng)具備INT8定點(diǎn)運(yùn)算能力,宜不小于250TOPS。

(5)應(yīng)支持內(nèi)存、算力等資源的切分和良好的隔離。

(6)應(yīng)具有PCIE或OAM接口,以便與主機(jī)CPU進(jìn)行高速數(shù)

據(jù)傳輸。

(7)包含專用加解密運(yùn)算單元,應(yīng)提供可信的AI運(yùn)算環(huán)境。

(二)AI服務(wù)器

AI服務(wù)器根據(jù)形態(tài)可分為通用型AI服務(wù)器和模組型AI服

務(wù)器,根據(jù)功能又可分為AI訓(xùn)練服務(wù)器和AI推理服務(wù)器。

1.通用型AI服務(wù)器

通用型AI服務(wù)器需要支持承載不同形態(tài)的加速卡的算力需

求,主要采用CPU+AI加速卡為主體的服務(wù)器架構(gòu)。在自主可控

背景的影響下,服務(wù)器需要支持AI加速卡,如寒武紀(jì)MLU加速

卡,燧原、華為等廠商的GPU加速卡和華為的NPU加速卡。數(shù)據(jù)

中心訓(xùn)練型AI服務(wù)器機(jī)型一般建議支持8張雙寬GPU卡。推理

21

型服務(wù)器根據(jù)GPU卡的密度需求不同,數(shù)據(jù)中心建議使用支持8

張及以上雙寬或單寬GPU卡的4U機(jī)型,邊緣數(shù)據(jù)中心可選擇支

持4張及以上的雙寬或單寬GPU卡的2U機(jī)型。

2.模組型AI服務(wù)器

模組型AI服務(wù)器主要目的是為支持多加速卡間互聯(lián),從而

獲得更高的卡間帶寬,提升訓(xùn)練性能。模組型AI服務(wù)器主要用

于數(shù)據(jù)中心的AI訓(xùn)練場景。

(三)AI計(jì)算子系統(tǒng)

1.可以實(shí)現(xiàn)同一服務(wù)器的卡間、跨服務(wù)器間的高速數(shù)據(jù)通信

能力,并進(jìn)行橫向和縱向擴(kuò)展。

2.有專用的卡間互聯(lián)高速接口,滿足訓(xùn)練和推理過程中卡間

大數(shù)據(jù)量交換傳輸?shù)男枨蟆?/p>

3.具備常見的分布式集合通信原語實(shí)現(xiàn),支持主流分布式框

架。

4.支持集群通過高速通信協(xié)議進(jìn)行橫向和縱向擴(kuò)展。

5.存儲(chǔ)子系統(tǒng)應(yīng)滿足高效AI算力子系統(tǒng)的要求。

6.網(wǎng)卡配置應(yīng)滿足AI算力子系統(tǒng)對(duì)帶寬、ROCE5及TCP網(wǎng)絡(luò)等

的需求。

四、軟件基礎(chǔ)設(shè)施層(L3)

(一)芯片使能軟件

1.提供基于C和Python語言的算子開發(fā)接口,使用戶具有自

5ROCE(RDMAoverConvergedEthernet),是在InfiniBandTradeAssociation(IBTA)標(biāo)準(zhǔn)中定義的網(wǎng)絡(luò)協(xié)議,允

許通過以太網(wǎng)絡(luò)使用RDMA。

22

定義算子開發(fā)的能力,如英偉達(dá)CUDA、寒武紀(jì)bangC/bang

Python、華為CANN等。

2.具備容器鏡像部署能力,方便開發(fā)生產(chǎn)環(huán)境的快速部署。

3.AI產(chǎn)品可以使用k8s進(jìn)行算力資源的運(yùn)維管理,并提供AI

產(chǎn)品主要指標(biāo)的監(jiān)測能力。

4.提供高性能推理引擎,完備的深度學(xué)習(xí)調(diào)優(yōu)、調(diào)試、監(jiān)控

工具,加速深度學(xué)習(xí)模型的開發(fā)流程。

(二)AI開發(fā)框架

1.開發(fā)框架兼容能力

(1)提供AI主流軟件適配能力,支持國內(nèi)外主流深度學(xué)習(xí)

框架。

(2)宜支持MindSpore、TensorFlow、PyTorch、

PaddlePaddle、Horvod等至少1種深度學(xué)習(xí)或分布式框架。

(3)宜支持麒麟、CentOS等至少1種國內(nèi)外操作系統(tǒng)。

2.主流機(jī)器學(xué)習(xí)和深度學(xué)習(xí)支撐能力

支持常見的視覺分析、NLP和語音識(shí)別功能。視覺分析宜支

持resnet50、yoloV5等神經(jīng)網(wǎng)絡(luò),NLP宜支持bert、Transformer

等神經(jīng)網(wǎng)絡(luò),語音識(shí)別宜支持tacotron2、waveRNN、FlySpeech

等神經(jīng)網(wǎng)絡(luò)。

(三)使能軟件

1.數(shù)據(jù)接入

數(shù)據(jù)接入是人工智能開發(fā)平臺(tái)的基礎(chǔ)環(huán)節(jié),根據(jù)項(xiàng)目需求,

23

平臺(tái)按照不同方式接入不同類型的數(shù)據(jù),并在此基礎(chǔ)上開展后續(xù)

環(huán)節(jié)。主要功能包括:

(1)支持接入不同類型的數(shù)據(jù),包括結(jié)構(gòu)化數(shù)據(jù)(如數(shù)據(jù)

庫表)和非結(jié)構(gòu)化數(shù)據(jù)(如文本、圖像、視頻及音頻等格式)。

(2)支持本地?cái)?shù)據(jù)接入、各類接口協(xié)議接入等數(shù)據(jù)接入方

式。

(3)支持接入數(shù)據(jù)的參數(shù)配置。

2.數(shù)據(jù)預(yù)處理

經(jīng)過清洗、轉(zhuǎn)換等操作,數(shù)據(jù)預(yù)處理部分可以解決數(shù)據(jù)可能

存在的質(zhì)量問題(如不一致、無效、缺失、重復(fù)等),將數(shù)據(jù)加

工為模型開發(fā)能夠直接使用的形式,并在此基礎(chǔ)上開展后續(xù)環(huán)節(jié)。

主要功能包括數(shù)據(jù)清洗(如去重、異常值檢測、缺失值填充等)、

數(shù)據(jù)轉(zhuǎn)換、數(shù)據(jù)增強(qiáng)。

3.數(shù)據(jù)標(biāo)注

數(shù)據(jù)標(biāo)注是認(rèn)知數(shù)據(jù)特征的重要過程,標(biāo)注質(zhì)量與模型效果

息息相關(guān),平臺(tái)應(yīng)提供面向不同類型數(shù)據(jù)(如文本、圖像、視頻

及音頻等)的人工標(biāo)注及自動(dòng)標(biāo)注工具,并提供可靈活擴(kuò)展的團(tuán)

隊(duì)標(biāo)注和智能標(biāo)注模式。

4.數(shù)據(jù)管理

數(shù)據(jù)管理是人工智能開發(fā)平臺(tái)的支撐環(huán)節(jié),平臺(tái)應(yīng)支持用戶

對(duì)其權(quán)限內(nèi)的數(shù)據(jù)進(jìn)行統(tǒng)一管理,并以數(shù)據(jù)集的形式服務(wù)于后續(xù)

環(huán)節(jié)。主要功能包括:

24

(1)支持創(chuàng)建、刪除、修改、查看及導(dǎo)出等數(shù)據(jù)集操作。

(2)支持?jǐn)?shù)據(jù)集信息展示和查詢,如名稱、原始數(shù)據(jù)、標(biāo)

注信息、標(biāo)簽等。

(3)提供權(quán)限與版本管理、拆分與合并等數(shù)據(jù)集管理功能。

5.數(shù)據(jù)分析

數(shù)據(jù)分析支持使用統(tǒng)計(jì)方法分析數(shù)據(jù)并提取有效信息,及時(shí)

發(fā)現(xiàn)數(shù)據(jù)特征或分布上的問題,從而有針對(duì)性地優(yōu)化處理。主要

功能包括:

(1)不同類型的數(shù)據(jù)預(yù)覽,如結(jié)構(gòu)化、半結(jié)構(gòu)化、非結(jié)構(gòu)

化的數(shù)據(jù)。

(2)數(shù)據(jù)集分析,如結(jié)構(gòu)化數(shù)據(jù)的質(zhì)量分析、特征分析,

非結(jié)構(gòu)化數(shù)據(jù)的特征分析。

6.特征工程

特征工程是從原始數(shù)據(jù)或者預(yù)處理后的數(shù)據(jù)中提取、變換為

更易解決問題的特征數(shù)據(jù)的過程,旨在去除數(shù)據(jù)中雜質(zhì)和冗余量。

特征工程是傳統(tǒng)機(jī)器學(xué)習(xí)中尤為重要的一個(gè)環(huán)節(jié),直接影響到最

終模型結(jié)果。

7.模型開發(fā)

模型開發(fā)為開發(fā)者提供一個(gè)便捷的開發(fā)環(huán)境,使用戶更加聚

焦在模型本身的設(shè)計(jì)上。本模塊中集成AI框架,免去繁瑣的安

裝配置過程。針對(duì)不同層次的開發(fā)者,開發(fā)環(huán)境采用更加人性化

的操作接口,如拖拽式的可視化建模環(huán)境、JupyterLab、命令行

25

建模等,也可幫助用戶完成模型腳本在線編輯。主要功能包括:

(1)支持主流的傳統(tǒng)機(jī)器學(xué)習(xí)框架(庫)、深度學(xué)習(xí)框架,

及深度學(xué)習(xí)預(yù)訓(xùn)練模型。

(2)針對(duì)不同層次用戶提供多種建模方式,如交互式編碼、

可視化建模等。

8.模型訓(xùn)練

模型訓(xùn)練是按照既定的訓(xùn)練規(guī)則,通過訓(xùn)練數(shù)據(jù)集來完成算

法實(shí)例化的過程。訓(xùn)練過程中,根據(jù)業(yè)務(wù)需求提供不同的訓(xùn)練模

式,包括單機(jī)訓(xùn)練和分布式訓(xùn)練。平臺(tái)對(duì)用戶屏蔽算力設(shè)施的底

層復(fù)雜組網(wǎng)和配置,通過簡易的設(shè)置即可實(shí)現(xiàn)不同的訓(xùn)練模式。

平臺(tái)支持多種訓(xùn)練加速手段。整個(gè)訓(xùn)練過程有可視化指標(biāo)形式呈

現(xiàn)。主要功能包括:

(1)支持單機(jī)、分布式訓(xùn)練。

(2)支持GPU、國產(chǎn)化等多種異構(gòu)計(jì)算加速芯片。

(3)訓(xùn)練過程中計(jì)算、內(nèi)存等資源使用情況的可視化呈現(xiàn)。

(4)訓(xùn)練過程中模型精度等關(guān)鍵指標(biāo)可視化跟蹤。

(5)支持創(chuàng)建、啟停、刪除、修改及查詢等訓(xùn)練任務(wù)操作。

9.模型評(píng)估

模型評(píng)估是通過既定的各類AI任務(wù)評(píng)估指標(biāo),對(duì)訓(xùn)練生成

的模型進(jìn)行質(zhì)量評(píng)判,生成詳細(xì)的評(píng)估報(bào)告,選擇出符合要求的

模型用于后續(xù)環(huán)節(jié)。模型評(píng)估提供可視化的圖表形式呈現(xiàn)不同模

型版本的指標(biāo)對(duì)比,使用戶能快速分辨出模型優(yōu)劣。同時(shí),模型

26

評(píng)估對(duì)于分析模型對(duì)數(shù)據(jù)特征的偏好、模型的可解釋性等方面也

有指導(dǎo)意義。主要功能包括:

(1)針對(duì)待評(píng)估模型生成評(píng)估報(bào)告。

(2)常用模型如圖像分類、目標(biāo)檢測等的評(píng)估指標(biāo)。

(3)模型指標(biāo)的歷史版本評(píng)估結(jié)果比較。

(4)評(píng)估指標(biāo)的可視化呈現(xiàn),如精度、資源占用等指標(biāo)。

10.模型管理

模型管理是針對(duì)已有的模型,提供模型的導(dǎo)入導(dǎo)出、查詢檢

索、版本管理、模型格式轉(zhuǎn)化等功能,支持主流的模型格式。對(duì)

于一些資源緊張的部署環(huán)境,提供模型壓縮功能來降低模型的資

源消耗。主要功能包括:

(1)導(dǎo)入、查詢、修改及刪除等與模型文件存儲(chǔ)相關(guān)的基

本操作。

(2)支持ONNX、TensorFlow、PyTorch等業(yè)界主流模型格

式。

(3)支持不同模型格式的轉(zhuǎn)化。

11.模型部署

模型部署是按照一定的編排規(guī)則,將模型部署到生產(chǎn)環(huán)境中,

對(duì)外提供智能服務(wù)。根據(jù)具體業(yè)務(wù)需求,可將模型部署在云端、

邊緣側(cè)或終端側(cè)等不同位置。利用云計(jì)算平臺(tái)提供的基礎(chǔ)功能,

可實(shí)現(xiàn)AI模型的平滑升級(jí)、灰度測試、根據(jù)業(yè)務(wù)流量彈性伸縮

模型實(shí)例等功能。主要功能包括:

27

(1)支持容器鏡像部署方式。

(2)支持部署為在線服務(wù),如REST、gRPC接口。

(3)支持部署為批量推理服務(wù)。

(4)支持模型灰度發(fā)布及AB測試。

12.模型推理

模型推理是對(duì)用戶調(diào)用模型服務(wù)接口返回執(zhí)行結(jié)果的過程,

是發(fā)揮模型價(jià)值的環(huán)節(jié)。平臺(tái)應(yīng)分配相應(yīng)的計(jì)算資源,運(yùn)行模型

并輸出結(jié)果。主要功能包括:

(1)宜支持TensorFlow、PyTorch、MindSpore、

PaddlePaddle中兩種以上框架訓(xùn)練所得模型的高性能推理部署。

(2)推理服務(wù)管理操作,如任務(wù)啟動(dòng)、停止,服務(wù)的限流、

負(fù)載均衡等。

(3)推理服務(wù)的接口信息查詢和展示,如版本、實(shí)例數(shù)、

接口格式等。

(4)推理服務(wù)的使用情況統(tǒng)計(jì),如運(yùn)行狀態(tài)、調(diào)用量、成

功率等。

13.資源管理

AI平臺(tái)底層對(duì)基礎(chǔ)設(shè)施如計(jì)算、存儲(chǔ)、網(wǎng)絡(luò)等資源進(jìn)行管理

和配置,為AI的推理和訓(xùn)練場景分配資源和運(yùn)行環(huán)境。主要功

能包括:

(1)支持異構(gòu)加速資源的調(diào)度,如GPU、國產(chǎn)加速卡等。

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論