版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
金融數(shù)據(jù)中心
人工智能算力建設(shè)指引
北京金融科技產(chǎn)業(yè)聯(lián)盟
2023年8月
編制委員會(huì)
編委會(huì)成員:
王長江聶麗琴張海燕
編寫組成員:
趙春華王妍娟葛金磊張浩然吳仲陽宋虎余學(xué)山
白陽符海芳李書建黃志鵬徐旭陸碧波薛亮
譚翔馬慶杰李潔郭亮王月吳剛郭江波
吳戰(zhàn)立雷昭燕袁智王偉鋒李培彭晉李俊奎
楊海悌俞穎熙程歸鵬張貫忠李鴻鵬宋飛玄凌博
鄭鵬飛黎世勇王云鳳
編審:
黃本濤周豫齊王妍娟張浩然
II
參編單位:
北京金融科技產(chǎn)業(yè)聯(lián)盟秘書處
北京國家金融科技認(rèn)證中心有限公司
中國工商銀行股份有限公司
華為技術(shù)有限公司
浙江網(wǎng)商銀行股份有限公司
中國信息通信研究院
騰訊云計(jì)算(北京)有限責(zé)任公司
新華三技術(shù)有限公司
螞蟻科技集團(tuán)股份有限公司
中科寒武紀(jì)科技股份有限公司
超聚變數(shù)字技術(shù)有限公司
北京百度網(wǎng)訊科技有限公司
III
前言
人工智能基礎(chǔ)設(shè)施作為“新基建”的重要組成部分,是數(shù)字
化走向智能化的核心力量,是金融機(jī)構(gòu)智慧再造的關(guān)鍵載體。近
年來,我國發(fā)布多項(xiàng)政策文件,進(jìn)一步明確人工智能的發(fā)展規(guī)劃,
對(duì)人工智能算力建設(shè)指出方向。2021年底,中國人民銀行發(fā)布
《金融科技發(fā)展規(guī)劃(2022—2025年)》,提出抓住全球人工智能
發(fā)展新機(jī)遇,以人為本全面推進(jìn)智能技術(shù)在金融領(lǐng)域深化應(yīng)用,
著力打造場景感知、人機(jī)協(xié)同、跨界融合的智慧金融新業(yè)態(tài),實(shí)
現(xiàn)金融服務(wù)全生命周期智能化。
人工智能算力數(shù)據(jù)中心是以數(shù)據(jù)中心為基礎(chǔ)的人工智能基
礎(chǔ)設(shè)施。具體來說,人工智能數(shù)據(jù)中心是在超算中心和云計(jì)算數(shù)
據(jù)中心大規(guī)模并行計(jì)算和數(shù)據(jù)處理的技術(shù)架構(gòu)基礎(chǔ)之上,通過大
數(shù)據(jù)和深度學(xué)習(xí)技術(shù)保障其高效、安全運(yùn)營,以人工智能專用芯
片為計(jì)算算力底座,融合公共算力服務(wù)、數(shù)據(jù)開放共享、智能生
態(tài)建設(shè)、產(chǎn)業(yè)創(chuàng)新聚集“四位一體”的綜合平臺(tái),可提供算力、
數(shù)據(jù)和算法等人工智能全棧能力,是當(dāng)前人工智能快速發(fā)展和應(yīng)
用所依托的新型算力基礎(chǔ)設(shè)施?!皵?shù)據(jù)、算法、算力、開放平臺(tái)”
是人工智能基礎(chǔ)設(shè)施的核心內(nèi)容,其中算力包括AI芯片、AI平
臺(tái)、智能計(jì)算中心等產(chǎn)品,提供高性能、低成本、綠色的計(jì)算能
力是算力建設(shè)的關(guān)鍵目標(biāo)。
本報(bào)告闡述了國內(nèi)外人工智能算力建設(shè)情況,梳理了當(dāng)前金
IV
融數(shù)據(jù)中心人工智能算力建設(shè)面臨的挑戰(zhàn),從整體上提出人工智
能算力數(shù)據(jù)中心的架構(gòu),圍繞基建、硬件及軟件基礎(chǔ)設(shè)施給出了
人工智能算力建設(shè)指引,并進(jìn)一步分析了傳統(tǒng)與新型算力、數(shù)據(jù)
中心算力與邊緣算力、算力與網(wǎng)絡(luò)等關(guān)鍵技術(shù)的協(xié)同建設(shè)問題,
探索了人工智能算力數(shù)據(jù)中心綠色低碳運(yùn)維模式,最后通過成功
案例展望未來,以期為金融機(jī)構(gòu)數(shù)據(jù)中心建設(shè)人工智能算力基礎(chǔ)
設(shè)施提供指引與參考。
關(guān)鍵詞:人工智能、AI算力、人工智能算力數(shù)據(jù)中心、AI使
能軟件、AI開發(fā)框架
V
目錄
第一章發(fā)展背景和研究目標(biāo)....................................1
一、發(fā)展背景.................................................1
(一)國家政策及“十四五”規(guī)劃要求..........................1
(二)金融科技發(fā)展的基礎(chǔ)支撐................................4
(三)國內(nèi)外當(dāng)前AI算力建設(shè)情況.............................4
二、研究目標(biāo).................................................9
第二章面臨的挑戰(zhàn)和難點(diǎn).....................................10
一、整體看..................................................10
(一)數(shù)據(jù)中心AI算力發(fā)展不均衡............................10
(二)數(shù)據(jù)中心AI計(jì)算能力不足..............................10
(三)數(shù)據(jù)中心AI算力連接和協(xié)同能力不強(qiáng)....................10
(四)數(shù)據(jù)中心AI算力調(diào)度不靈活............................11
二、分層看..................................................11
(一)數(shù)據(jù)中心選址問題(L0層)............................11
(二)能耗及供電問題(L1層)..............................12
(三)AI算力底座與周邊設(shè)備及網(wǎng)絡(luò)的問題(L2層)............12
(四)支持不同業(yè)務(wù)場景的AI應(yīng)用問題(L3層)................13
第三章建設(shè)指引.............................................14
一、人工智能算力數(shù)據(jù)中心架構(gòu)................................14
(一)總體架構(gòu).............................................14
(二)分層布局.............................................15
二、基建基礎(chǔ)設(shè)施層(L0-L1)..................................20
三、硬件基礎(chǔ)設(shè)施層(L2)....................................20
(一)AI芯片..............................................20
(二)AI服務(wù)器............................................21
(三)AI計(jì)算子系統(tǒng)........................................22
四、軟件基礎(chǔ)設(shè)施層(L3)....................................22
VI
(一)芯片使能軟件.........................................22
(二)AI開發(fā)框架..........................................23
(三)使能軟件.............................................23
第四章建設(shè)協(xié)同.............................................30
一、整體原則................................................30
二、傳統(tǒng)算力與新型算力協(xié)同..................................30
(一)算力產(chǎn)品特征.........................................30
(二)算力協(xié)同建設(shè).........................................32
三、數(shù)據(jù)中心算力與邊緣算力協(xié)同..............................37
四、算力與網(wǎng)絡(luò)協(xié)同..........................................39
(一)廣域算力網(wǎng)絡(luò)架構(gòu).....................................40
(二)廣域算力網(wǎng)絡(luò)關(guān)鍵技術(shù).................................43
(三)數(shù)據(jù)中心算力網(wǎng)絡(luò)關(guān)鍵技術(shù).............................44
(四)算力網(wǎng)絡(luò)協(xié)同關(guān)鍵技術(shù).................................46
(五)算力網(wǎng)絡(luò)數(shù)字化能力...................................47
第五章運(yùn)維和節(jié)能管理.......................................49
一、運(yùn)維管理................................................49
(一)人員組織.............................................49
(二)日常運(yùn)行維護(hù).........................................50
二、節(jié)能管理................................................50
第六章成功案例和未來展望...................................53
一、成功案例................................................53
(一)工商銀行基于高性能網(wǎng)絡(luò)的中高算力集群探索.............53
(二)螞蟻集團(tuán)AI算力端云協(xié)同發(fā)展實(shí)踐......................54
(三)網(wǎng)商銀行基于衛(wèi)星遙感的AI算力服務(wù)農(nóng)村金融實(shí)踐........56
二、未來展望................................................57
(一)AI算力的建設(shè)需求快速提升............................57
(二)AI算力的金融價(jià)值不斷凸顯............................58
參考文獻(xiàn)....................................................60
VII
第一章發(fā)展背景和研究目標(biāo)
一、發(fā)展背景
(一)國家政策及“十四五”規(guī)劃要求
人工智能基礎(chǔ)設(shè)施是“新基建”的重要組成部分,是數(shù)字化
走向智能化的核心力量,是金融機(jī)構(gòu)智慧再造的關(guān)鍵載體?!皵?shù)
據(jù)、算法、算力、開放平臺(tái)”是人工智能基礎(chǔ)設(shè)施的核心內(nèi)容,
其中算力包括AI芯片、AI平臺(tái)、智能計(jì)算中心等產(chǎn)品,提供高
性能、低成本、綠色的計(jì)算能力是算力建設(shè)的關(guān)鍵目標(biāo)。
近年來,我國發(fā)布多項(xiàng)政策文件,進(jìn)一步明確人工智能的發(fā)
展規(guī)劃,對(duì)人工智能算力建設(shè)指出方向。人工智能已上升為國家
戰(zhàn)略,人工智能的發(fā)展迎來重大機(jī)遇。表1匯總了近年來國家和
相關(guān)部委發(fā)布的人工智能及算力相關(guān)政策。
表1人工智能及算力相關(guān)政策
時(shí)間內(nèi)容
國務(wù)院總理李克強(qiáng)2017年政府工作報(bào)告,指出要加快培
2017年3月育壯大包括人工智能在內(nèi)的新興產(chǎn)業(yè),“人工智能”首次
被寫入了國家政府工作報(bào)告。
國務(wù)院出臺(tái)《新一代人工智能發(fā)展規(guī)劃》,提出三步走的
2017年7月
戰(zhàn)略目標(biāo)。
工業(yè)和信息化部印發(fā)《促進(jìn)新一代人工智能產(chǎn)業(yè)發(fā)展三
年行動(dòng)計(jì)劃(2018—2020年)》,明確了到2020年人工
2017年12
智能在推動(dòng)戰(zhàn)略性新興產(chǎn)業(yè)總體突破、推進(jìn)供給側(cè)結(jié)構(gòu)
月
性改革、振興實(shí)體經(jīng)濟(jì)、建設(shè)制造強(qiáng)國和網(wǎng)絡(luò)強(qiáng)國方面的
重大作用和具體目標(biāo)。
1
時(shí)間內(nèi)容
國務(wù)院總理李克強(qiáng)在十三屆全國人大一次會(huì)議作政府工
2018年3月作報(bào)告時(shí)表示,要加強(qiáng)新一代人工智能研發(fā)應(yīng)用,在醫(yī)
療、養(yǎng)老、教育、文化、體育等多領(lǐng)域推進(jìn)“互聯(lián)網(wǎng)+”。
習(xí)近平總書記在兩院院士大會(huì)上指出,“要推進(jìn)人工智能
2018年5月
同實(shí)體經(jīng)濟(jì)深度融合,做大做強(qiáng)數(shù)字經(jīng)濟(jì)?!?/p>
中央經(jīng)濟(jì)工作會(huì)議,重新定義了基礎(chǔ)設(shè)施建設(shè),把5G、
2018年12
人工智能、工業(yè)互聯(lián)網(wǎng)、物聯(lián)網(wǎng)定義為“新型基礎(chǔ)設(shè)施建
月
設(shè)”。
國務(wù)院總理李克強(qiáng)在《2019年國務(wù)院政府工作報(bào)告》中
2019年3月明確提出深化人工智能等研發(fā)應(yīng)用。緊扣國家發(fā)展戰(zhàn)略,
加強(qiáng)新一代信息基礎(chǔ)設(shè)施建設(shè)。
中央政治局會(huì)議,強(qiáng)調(diào)要加快推進(jìn)信息網(wǎng)絡(luò)等新型基礎(chǔ)
2019年7月
設(shè)施建設(shè)。
中共中央政治局常務(wù)委員會(huì)召開會(huì)議再次強(qiáng)調(diào)“新基
2020年3月
建”,要求加強(qiáng)人工智能等新型基礎(chǔ)設(shè)施建設(shè)。
國家發(fā)改委首次明確“新基建”范圍,強(qiáng)調(diào)數(shù)據(jù)中心、智
2020年4月
能計(jì)算中心就是算力基礎(chǔ)設(shè)施的代表。
國家標(biāo)準(zhǔn)化管理委員會(huì)、中央網(wǎng)信辦、國家發(fā)展改革委、
2020年7月科技部、工業(yè)和信息化部印發(fā)《國家新一代人工智能標(biāo)準(zhǔn)
體系建設(shè)指南》,指導(dǎo)人工智能標(biāo)準(zhǔn)化工作有序開展。
科技部印發(fā)《國家新一代人工智能創(chuàng)新發(fā)展試驗(yàn)區(qū)建設(shè)
2020年10
工作指引(修訂版)》,明確要布局建設(shè)20個(gè)左右國家
月
人工智能創(chuàng)新發(fā)展試驗(yàn)區(qū)。
2020年11月17日,國家信息中心信息化和產(chǎn)業(yè)發(fā)展部
2020年11
發(fā)布《智能計(jì)算中心規(guī)劃建設(shè)指南》,對(duì)智能計(jì)算中心的
月
概念、內(nèi)涵、技術(shù)架構(gòu)、投建運(yùn)模式等進(jìn)行全面解讀。
2
時(shí)間內(nèi)容
國務(wù)院發(fā)布《中華人民共和國國民經(jīng)濟(jì)和社會(huì)發(fā)展第十
四個(gè)五年規(guī)劃和2035年遠(yuǎn)景目標(biāo)綱要》,提出要強(qiáng)化國
家戰(zhàn)略科技力量,加強(qiáng)原創(chuàng)性引領(lǐng)性科技攻關(guān)。新一代人
2021年3月工智能作為重要的科技攻關(guān)領(lǐng)域,重點(diǎn)投入前沿基礎(chǔ)理
論突破,專用芯片研發(fā),深度學(xué)習(xí)框架等開源算法平臺(tái)構(gòu)
建,學(xué)習(xí)推理與決策、圖像圖形、語音視頻、自然語言識(shí)
別處理等領(lǐng)域創(chuàng)新。
國家發(fā)展改革委、中央網(wǎng)信辦、工業(yè)和信息化部、國家能
源局聯(lián)合印發(fā)《全國一體化大數(shù)據(jù)中心協(xié)同創(chuàng)新體系算
力樞紐實(shí)施方案》,明確在京津冀、長三角、粵港澳大灣
2021年5月區(qū)、成渝,以及貴州、內(nèi)蒙古、甘肅、寧夏等地布局建設(shè)
全國一體化算力網(wǎng)絡(luò)國家樞紐節(jié)點(diǎn)(以下簡稱“國家樞紐
節(jié)點(diǎn)”)。
在金融行業(yè),銀保監(jiān)會(huì)于2019年發(fā)布《關(guān)于推動(dòng)銀行業(yè)和
保險(xiǎn)業(yè)高質(zhì)量發(fā)展的指導(dǎo)意見》,提出既要充分利用人工智能強(qiáng)
化業(yè)務(wù)管理,改進(jìn)服務(wù)質(zhì)量,降本增效,又要發(fā)揮人工智能在打
擊非法集資、反洗錢、反欺詐等方面的積極作用。在相關(guān)宏觀政
策的指導(dǎo)下,各地結(jié)合自身區(qū)域特點(diǎn)和行業(yè)發(fā)展?fàn)顩r因地制宜出
臺(tái)相關(guān)政策推動(dòng)智能金融的特色化發(fā)展,相關(guān)行業(yè)標(biāo)準(zhǔn)規(guī)范逐步
完善。2021年,中國人民銀行發(fā)布《人工智能算法金融應(yīng)用評(píng)價(jià)
規(guī)范》(JR/T0221—2021),規(guī)定了人工智能算法在金融領(lǐng)域
應(yīng)用的基本要求、評(píng)價(jià)方法、判定準(zhǔn)則。金融行業(yè)以智能化為目
標(biāo),提升金融數(shù)字化水平,通過業(yè)務(wù)流程自動(dòng)化降低人力成本,
3
通過解決信息不對(duì)稱問題彌合數(shù)據(jù)信息差,通過個(gè)性化的千人千
面提供普惠金融服務(wù),從而實(shí)現(xiàn)業(yè)務(wù)的增長、風(fēng)險(xiǎn)成本的降低、
運(yùn)營成本的改善。
(二)金融科技發(fā)展的基礎(chǔ)支撐
金融科技發(fā)展提出人工智能、大數(shù)據(jù)分析等場景,響應(yīng)金融
監(jiān)管政策的要求。2021年12月,中國人民銀行印發(fā)《金融科技
發(fā)展規(guī)劃(2022—2025年)》,提出“堅(jiān)持發(fā)展與監(jiān)管兩手抓,
推動(dòng)金融科技在實(shí)體經(jīng)濟(jì)的沃土中落地生根。大數(shù)據(jù)、云計(jì)算、
人工智能、區(qū)塊鏈等技術(shù)金融應(yīng)用成效顯著。金融服務(wù)覆蓋面逐
步擴(kuò)大,優(yōu)質(zhì)金融產(chǎn)品供給不斷豐富,金融惠民利企水平持續(xù)提
升?!?/p>
人工智能作為金融機(jī)構(gòu)數(shù)字化轉(zhuǎn)型的重要手段,助力金融行
業(yè)在產(chǎn)品設(shè)計(jì)、市場營銷、風(fēng)險(xiǎn)控制、客戶服務(wù)以及其他支撐性
業(yè)務(wù)領(lǐng)域和場景中實(shí)現(xiàn)整體升級(jí)。《金融科技發(fā)展規(guī)劃(2022—
2025年)》在“智慧為民”基本原則中,提出“抓住全球人工智
能發(fā)展新機(jī)遇,以人為本全面推進(jìn)智能技術(shù)在金融領(lǐng)域深化應(yīng)用,
強(qiáng)化科技倫理治理,著力打造場景感知、人機(jī)協(xié)同、跨界融合的
智慧金融新業(yè)態(tài),實(shí)現(xiàn)金融服務(wù)全生命周期智能化,切實(shí)增強(qiáng)人
民群眾獲得感、安全感和幸福感”,加快金融服務(wù)智慧再造,提
升數(shù)字綠色的服務(wù)體系中的智能應(yīng)用水平。
(三)國內(nèi)外當(dāng)前AI算力建設(shè)情況
1.國內(nèi)外算力規(guī)模發(fā)展
4
2020年全球算力總規(guī)模達(dá)到429EFlops1,增速達(dá)到39%,其
中基礎(chǔ)算力規(guī)模為313EFlops,AI算力規(guī)模為107EFlops,超算
算力規(guī)模(換算為FP32)為9EFlops。預(yù)估未來五年全球算力規(guī)
模將以超過50%的速度增長,到2025年整體規(guī)模將達(dá)到
3300EFlops。全球算力競爭激烈,基礎(chǔ)算力方面以中國和美國為
第一梯隊(duì),其中美國占43%份額,中國占26%份額。智能算力方
面,中國智能算力占算力的比重由2016年的3%提升至2020年
41%,以人工智能算力數(shù)據(jù)中心為代表的AI算力基礎(chǔ)設(shè)施發(fā)展迅
猛?!?020全球計(jì)算力指數(shù)評(píng)估報(bào)告》顯示“全球計(jì)算力水平
top5行業(yè)分別是互聯(lián)網(wǎng)、制造、金融、政府和電信”,金融行業(yè)
綜合排名進(jìn)入前三。
2.金融業(yè)務(wù)應(yīng)用系統(tǒng)需求
在新一輪科技革命和產(chǎn)業(yè)變革的背景下,金融科技蓬勃發(fā)展,
人工智能、大數(shù)據(jù)、云計(jì)算、物聯(lián)網(wǎng)等信息技術(shù)與金融業(yè)務(wù)深度
融合,為金融發(fā)展提供源源不斷的創(chuàng)新活力。同時(shí)《2020全球計(jì)
算力指數(shù)評(píng)估報(bào)告》顯示“金融行業(yè)信息化和數(shù)字化起步較早,
金融行業(yè)因?qū)λ懔Φ姆€(wěn)定性、可靠性、實(shí)時(shí)性、安全性等方面要
求較高,對(duì)于算力的投資規(guī)模處于行業(yè)領(lǐng)先水平且比較穩(wěn)定。從
全球來看,金融行業(yè)是人工智能算力投資最大的傳統(tǒng)行業(yè),據(jù)IDC
數(shù)據(jù),全球AI算力支出的24.9%來自金融行業(yè),人工智能作為
金融行業(yè)數(shù)字化轉(zhuǎn)型過程的關(guān)鍵部分,被廣泛用于反欺詐、風(fēng)險(xiǎn)
1EFlops:百億億次,F(xiàn)lops指的是每秒浮點(diǎn)運(yùn)算次數(shù),E代表的是一百京,一個(gè)EFLOPS(exaFLOPS)等于每
秒一百京(=10^18)次的浮點(diǎn)運(yùn)算。
5
管控、合規(guī)管理、運(yùn)營流程、自動(dòng)化客服、智能CRM和量化交易
等領(lǐng)域,輔助金融企業(yè)降低成本、提升效率和提高客戶體驗(yàn)”。
人工智能應(yīng)用對(duì)算力最大的挑戰(zhàn)來自數(shù)據(jù)中心的模型訓(xùn)練。
具有海量參數(shù)的模型訓(xùn)練幾乎完全依賴于核心數(shù)據(jù)中心的算力
支撐。比如2020年微軟發(fā)布的智能感知計(jì)算模型Turing-NLG,
參數(shù)量高達(dá)到175億;OpenAI發(fā)布的GPT-3模型,參數(shù)量更達(dá)
到1750億,是GPT-2的100余倍。由于其龐大的參數(shù)體量,在
給人工智能應(yīng)用提供便利的同時(shí),對(duì)AI算力提出了更高的要求。
尤其是在金融行業(yè)數(shù)字化轉(zhuǎn)型的浪潮中,人工智能的算法越來越
依賴于算力的發(fā)展。
3.國內(nèi)金融業(yè)AI典型業(yè)務(wù)場景
人工智能與金融行業(yè)深度融合,金融行業(yè)數(shù)字化、智能化改
革已經(jīng)初見成效,金融人工智能整體呈現(xiàn)業(yè)務(wù)智能價(jià)值創(chuàng)造,全
面覆蓋產(chǎn)品設(shè)計(jì)、市場營銷、風(fēng)險(xiǎn)控制、客戶服務(wù)等主流業(yè)務(wù)場
景。從技術(shù)價(jià)值來看,人工智能技術(shù)正逐步解決行業(yè)痛點(diǎn)問題,
在實(shí)現(xiàn)業(yè)務(wù)流程自動(dòng)化、彌合信息差、構(gòu)建普惠金融方面發(fā)揮著
關(guān)鍵作用,已經(jīng)在獲取增量業(yè)務(wù)、降低風(fēng)險(xiǎn)成本、改善運(yùn)營成本、
提升客戶滿意度方面進(jìn)入價(jià)值創(chuàng)造階段。從應(yīng)用場景來看,以機(jī)
器學(xué)習(xí)、機(jī)器視覺、生物特征識(shí)別、知識(shí)圖譜等技術(shù)賦能的金融
行業(yè),衍生出智慧網(wǎng)點(diǎn)、量化交易、智能投顧、智能風(fēng)控等多個(gè)
典型場景。表2列舉了AI算力金融行業(yè)應(yīng)用的十大典型業(yè)務(wù)場
景。
6
表2AI算力金融行業(yè)應(yīng)用的典型業(yè)務(wù)場景
場景名稱描述
場景:標(biāo)配“無人、無證、無卡”,提供普惠金融服務(wù)、
財(cái)富管理服務(wù)、智慧金融服務(wù)、國際業(yè)務(wù)等服務(wù)。
智慧網(wǎng)點(diǎn)
技術(shù):依托身份識(shí)別、數(shù)字人、人臉識(shí)別、語音識(shí)別等技
術(shù)提供服務(wù)。
場景:模擬人工完成圖像識(shí)別、關(guān)鍵信息提取、數(shù)據(jù)錄
入、報(bào)表生成、行為分析、合規(guī)分析、結(jié)果決策等。
技術(shù):光學(xué)識(shí)別技術(shù)OCR(OpticalCharacter
數(shù)字員工
Recognition)、RPA(RoboticProcessAutomation)技
術(shù)、數(shù)字人、NLP(NaturalLanguageProcessing)技
術(shù)、圖像分類。
場景:廣泛應(yīng)用于各類金融機(jī)構(gòu),提供24小時(shí)不間斷
問答服務(wù)。
智能客服
技術(shù):依托自然語言理解、語音識(shí)別、RPA、知識(shí)圖譜、
NLP等技術(shù)提供智能交互服務(wù)。
場景及技術(shù):依托先進(jìn)的數(shù)學(xué)模型替代人為的主觀判斷,
量化交易有很多種,包括跨平臺(tái)搬磚、趨勢交易、對(duì)沖
量化交易
等??缙脚_(tái)搬磚是指當(dāng)不同目標(biāo)平臺(tái)價(jià)差達(dá)到一定金額,
在價(jià)高的平臺(tái)賣出,在價(jià)低的平臺(tái)買入。
場景及技術(shù):人臉識(shí)別、聲紋識(shí)別、靜脈識(shí)別、指紋識(shí)別
智能身份識(shí)別
等。
7
場景名稱描述
場景:B端金融機(jī)構(gòu)用戶,整合各類研報(bào)數(shù)據(jù)。并自動(dòng)撰
寫研報(bào),給出機(jī)構(gòu)投資意見。
智能投研技術(shù):智能投研依賴知識(shí)圖譜和深度學(xué)習(xí)技術(shù)的進(jìn)一步
發(fā)展,通過智能數(shù)據(jù)收集、清洗、分析,實(shí)現(xiàn)對(duì)投資標(biāo)的
的發(fā)展趨勢判斷與風(fēng)險(xiǎn)預(yù)測。
場景:通過一系列智能算法綜合評(píng)估用戶的風(fēng)險(xiǎn)偏好、
投資目標(biāo)、財(cái)務(wù)狀況等基本信息,并結(jié)合現(xiàn)代投資組合
理論為用戶提供自動(dòng)化、個(gè)性化的理財(cái)方案。其實(shí)質(zhì)是
智能投顧
利用機(jī)器模擬理財(cái)顧問的個(gè)人經(jīng)驗(yàn)。
技術(shù):核心環(huán)節(jié)包括用戶畫像、大類資產(chǎn)配置(投資標(biāo)的
選擇)、投資組合構(gòu)建和動(dòng)態(tài)優(yōu)化等。
場景:聚焦存貸款產(chǎn)品營銷、信用卡分期、理財(cái)產(chǎn)品、節(jié)
假日關(guān)懷等。
技術(shù):依托推薦引擎和機(jī)器學(xué)習(xí)技術(shù),通過分析用戶數(shù)
智能營銷
據(jù)并聚類用戶特征,做到“千人千面”的智能推送。利用
知識(shí)圖譜和自然語言處理等技術(shù)建立客戶畫像,實(shí)現(xiàn)精
準(zhǔn)的營銷定位與需求挖掘。
場景:聚焦金融業(yè)交易等風(fēng)險(xiǎn)防控場景,如支付、信貸,
反洗錢等。
智能風(fēng)控
技術(shù):依托機(jī)器學(xué)習(xí)和知識(shí)圖譜等技術(shù),通過數(shù)據(jù)驅(qū)動(dòng)
風(fēng)險(xiǎn)管理與運(yùn)營優(yōu)化。
場景:主要集中在支付和金融賬戶登錄等場景。
智能反欺詐技術(shù):包括人臉識(shí)別、聲紋識(shí)別、指紋識(shí)別、虹膜識(shí)別、
光學(xué)識(shí)別等。
8
二、研究目標(biāo)
本課題的研究目標(biāo)分為兩方面。
一是基于當(dāng)前金融機(jī)構(gòu)積極探索和建設(shè)新型人工智能業(yè)務(wù)
系統(tǒng)及人工智能算力數(shù)據(jù)中心的情況,廣泛吸取金融行業(yè)目前較
為優(yōu)秀的建設(shè)經(jīng)驗(yàn)和解決方案,編制研究報(bào)告,為金融機(jī)構(gòu)數(shù)據(jù)
中心建設(shè)人工智能算力基礎(chǔ)設(shè)施提供指引與參考。
二是在完成研究報(bào)告的基礎(chǔ)上,進(jìn)一步編制相關(guān)標(biāo)準(zhǔn),以規(guī)
范金融數(shù)據(jù)中心人工智能算力基礎(chǔ)設(shè)施建設(shè)。
9
第二章面臨的挑戰(zhàn)和難點(diǎn)
一、整體看
(一)數(shù)據(jù)中心AI算力發(fā)展不均衡
在當(dāng)今金融業(yè)龐大的數(shù)據(jù)處理量面前,數(shù)據(jù)中心規(guī)模總量和
能耗總量不斷增長,而且AI算力業(yè)務(wù)天然存在波動(dòng),存在部分
能耗閑置現(xiàn)象。數(shù)據(jù)中心特別是西部地區(qū)一些數(shù)據(jù)中心算力資源
未能充分利用的問題也常被業(yè)內(nèi)專家提及。我國東部算力資源緊
張與西部算力需求不足的問題并存,區(qū)域數(shù)字基礎(chǔ)設(shè)施和應(yīng)用空
間布局亟待優(yōu)化。數(shù)字化時(shí)代的今天,“東數(shù)西算”備受矚目,
他與“南水北調(diào)、西電東送、西氣東輸”一樣,成為國家級(jí)的超
級(jí)工程,也是解決算力發(fā)展不均衡的基本國策。
(二)數(shù)據(jù)中心AI計(jì)算能力不足
伴隨數(shù)據(jù)的激增和算法的日益復(fù)雜,算力將成為決定人工智
能發(fā)展上限的重要因素。人工智能算力數(shù)據(jù)中心能耗總量較大,
且保持不斷增長。以人工智能專用芯片為計(jì)算算力底座,在其上
開發(fā)的AI框架、AI應(yīng)用呈現(xiàn)出多樣化、復(fù)雜化、碎片化的態(tài)勢。
電力的潛能已經(jīng)全被釋放,算力的潛能隨著數(shù)據(jù)的產(chǎn)生和數(shù)字化
的進(jìn)展,還會(huì)持續(xù)釋放。合理架構(gòu)網(wǎng)絡(luò),優(yōu)化算法,運(yùn)用新技術(shù)
使得軟硬件不斷推陳出新,使算力不斷指數(shù)級(jí)提升,從而滿足智
能應(yīng)用的多元化需求。
(三)數(shù)據(jù)中心AI算力連接和協(xié)同能力不強(qiáng)
在全產(chǎn)業(yè)數(shù)字化轉(zhuǎn)型的大形勢下,新興技術(shù)應(yīng)用成為算力提
10
升最主要的驅(qū)動(dòng)力,尤其是人工智能帶動(dòng)的AI算力需求。政府、
企業(yè)一同建設(shè),集約化不夠,利用率有限,成本居高。并且算力
服務(wù)器成本居高不下,尤其AI算力服務(wù)器。如果建成人工智能
算力數(shù)據(jù)中心,實(shí)現(xiàn)設(shè)備網(wǎng)絡(luò)共享,降低成本,可以發(fā)揮我國的
制度和行業(yè)優(yōu)勢。如何實(shí)現(xiàn)人工智能算力數(shù)據(jù)中心間互聯(lián),分支
邊緣算力互聯(lián),第三方算力協(xié)同互聯(lián),AI算力物聯(lián)終端互聯(lián),這
是一個(gè)體系化的布局。政策性設(shè)計(jì)為基礎(chǔ),其中資源匹配、網(wǎng)絡(luò)
部署、算力對(duì)接等都是本課題研究的重點(diǎn)。
(四)數(shù)據(jù)中心AI算力調(diào)度不靈活
在國家碳達(dá)峰、碳中和的目標(biāo)下,實(shí)現(xiàn)在不同數(shù)據(jù)中心間算
力協(xié)同調(diào)度、削峰填谷、精細(xì)化能耗控制的要求。算力的靈活調(diào)
度尤為重要。數(shù)據(jù)每丟失千分之一,吞吐量就會(huì)下降50%,浪費(fèi)
算力資源。一方面,對(duì)網(wǎng)絡(luò)提出要求,盡量實(shí)現(xiàn)無損網(wǎng)絡(luò)。另一
方面,通過自動(dòng)混合并行、全局內(nèi)存管理、可視化調(diào)優(yōu)以及分布
式推理等核心技術(shù),強(qiáng)化對(duì)人工智能網(wǎng)絡(luò)的靈活調(diào)度,以提升人
工智能算力數(shù)據(jù)中心的調(diào)度協(xié)同水平。
二、分層看2
(一)數(shù)據(jù)中心選址問題(L0層)
新建或改擴(kuò)建的人工智能算力數(shù)據(jù)中心位置,一方面受地方
政府規(guī)劃局限,另一方面還要考慮當(dāng)?shù)卣畬?duì)PUE3等的綠色環(huán)保
2人工智能算力數(shù)據(jù)中心分層布局詳見第三章第二部分人工智能算力數(shù)據(jù)中心架構(gòu)。
3PowerUsageEffectiveness的簡寫,是評(píng)價(jià)數(shù)據(jù)中心能源效率的指標(biāo),是數(shù)據(jù)中心消耗的所有能源與IT負(fù)載消
耗的能源的比值。PUE=數(shù)據(jù)中心總能耗/IT設(shè)備能耗,其中數(shù)據(jù)中心總能耗包括IT設(shè)備能耗和制冷、配電等系
統(tǒng)的能耗,其值大于1,越接近1表明非IT設(shè)備耗能越少,即能效水平越好。
11
要求。當(dāng)前人工智能算力數(shù)據(jù)中心的建設(shè)現(xiàn)狀主要為政府主導(dǎo)建
設(shè)和頭部企業(yè)自行建設(shè)。為加快推動(dòng)數(shù)據(jù)中心綠色高質(zhì)量發(fā)展,
建設(shè)全國算力樞紐體系,落實(shí)國家“東數(shù)西算”工程,統(tǒng)籌圍繞
國家重大區(qū)域發(fā)展戰(zhàn)略,根據(jù)能源結(jié)構(gòu)、產(chǎn)業(yè)布局、市場發(fā)展、
氣候環(huán)境等,建議人工智能算力數(shù)據(jù)中心在國家樞紐節(jié)點(diǎn)布局建
設(shè),發(fā)展數(shù)據(jù)中心集群,引導(dǎo)數(shù)據(jù)中心集約化、規(guī)模化、綠色化
發(fā)展。國家樞紐節(jié)點(diǎn)之間進(jìn)一步打通網(wǎng)絡(luò)傳輸通道,提升跨區(qū)域
算力調(diào)度水平。
(二)能耗及供電問題(L1層)
人工智能算力數(shù)據(jù)中心遠(yuǎn)遠(yuǎn)高于一般數(shù)據(jù)中心對(duì)于電力能
耗的需求,需要向當(dāng)?shù)仉娏?yīng)部門申請(qǐng)電力配額,以解決供電
等突出問題。另外,傳統(tǒng)數(shù)據(jù)中心在改擴(kuò)建過程中,傳統(tǒng)機(jī)柜電
力不足以支撐能耗巨大的AI算力服務(wù)器,需要液冷等更高能效
的設(shè)備,在提升算力的同時(shí)降低對(duì)電力能耗的需求。對(duì)已建成的
傳統(tǒng)業(yè)務(wù)設(shè)施改擴(kuò)建過程,為確保金融業(yè)務(wù)的平穩(wěn)過渡和無縫銜
接,需要經(jīng)驗(yàn)豐富的公司執(zhí)行。
(三)AI算力底座與周邊設(shè)備及網(wǎng)絡(luò)的問題(L2層)
人工智能、HPC(HighPerformanceComputing,高性能計(jì)算)、
元宇宙等新興應(yīng)用需要大量數(shù)據(jù)吞吐和運(yùn)算能力,GPU(Graphics
ProcessingUnit,圖形處理單元)隨著性能的提升,功耗也在
顯著提升,服務(wù)器等IT設(shè)備,特別是AI服務(wù)器的功耗呈上升趨
勢(AI服務(wù)器單臺(tái)能耗甚至要突破10kW),數(shù)據(jù)中心面臨能耗
12
和散熱的挑戰(zhàn)。通過云網(wǎng)融合,整合云、數(shù)據(jù)中心資源和優(yōu)質(zhì)網(wǎng)
絡(luò)資源,把連接和計(jì)算整合在一起,從而提升AI算力水平,攻
克“數(shù)據(jù)上不來,算力下不去”的難題。
(四)支持不同業(yè)務(wù)場景的AI應(yīng)用問題(L3層)
AI框架及主流框架紛繁多樣,金融機(jī)構(gòu)需要時(shí)間提升對(duì)框
架和工具的使用能力,對(duì)金融機(jī)構(gòu)的服務(wù)也具有一定挑戰(zhàn)。在設(shè)
計(jì)具體場景的AI業(yè)務(wù)軟件系統(tǒng)時(shí),由于開發(fā)人員缺少相關(guān)標(biāo)準(zhǔn)
和應(yīng)用接口的參考,因此對(duì)特定行業(yè)計(jì)算系統(tǒng)的適應(yīng)性、可裁剪
性、可伸縮性等細(xì)節(jié)特性的考慮不充分,缺少在各種嚴(yán)苛條件下
系統(tǒng)的可靠性、可服務(wù)性以及對(duì)整體軟硬件系統(tǒng)性能影響的考慮,
這就加大了AI算力業(yè)務(wù)落地的成本。
13
第三章建設(shè)指引
數(shù)據(jù)中心AI算力指標(biāo)包含4大核心要素:通用計(jì)算能力、
高性能計(jì)算能力、存儲(chǔ)能力、網(wǎng)絡(luò)能力。數(shù)據(jù)中心AI算力的建
設(shè)應(yīng)滿足3大要求:一是AI算力建設(shè)對(duì)電力動(dòng)力等的要求。二
是數(shù)據(jù)中心AI算力軟硬件技術(shù)要求,包括核心AI處理器架構(gòu)、
AI訓(xùn)練產(chǎn)品性能、集群互聯(lián)系統(tǒng)能力、AI主流軟件適配能力、
軟件平臺(tái)和工具的完備性、主流機(jī)器學(xué)習(xí)和深度學(xué)習(xí)網(wǎng)絡(luò)支撐能
力等。三是AI算力和通用算力協(xié)同建設(shè)及改造指引,包括以AI
算力建設(shè)作為主算力的AI計(jì)算集群軟硬件建設(shè)要求,與通用計(jì)
算集群、網(wǎng)絡(luò)及存儲(chǔ)集群的軟硬件協(xié)同建設(shè)的要求。
一、人工智能算力數(shù)據(jù)中心架構(gòu)
計(jì)算是人類能力的延伸,算力的建設(shè)與社會(huì)的發(fā)展需求緊密
結(jié)合,在不同歷史階段出現(xiàn)了超級(jí)計(jì)算中心、云計(jì)算數(shù)據(jù)中心、
人工智能算力數(shù)據(jù)中心等不同形態(tài)的算力基礎(chǔ)設(shè)施。人工智能算
力數(shù)據(jù)中心是當(dāng)前人工智能快速發(fā)展和應(yīng)用所依托的新型算力
基礎(chǔ)設(shè)施。
(一)總體架構(gòu)
人工智能算力數(shù)據(jù)中心借鑒了超級(jí)計(jì)算中心和云計(jì)算數(shù)據(jù)
中心大規(guī)模并行計(jì)算和數(shù)據(jù)處理的技術(shù)架構(gòu),但以人工智能專用
芯片為計(jì)算算力底座。人工智能算力數(shù)據(jù)中心由基建基礎(chǔ)設(shè)施、
硬件基礎(chǔ)設(shè)施、軟件基礎(chǔ)設(shè)施及行業(yè)應(yīng)用等組成。
為了能高效、清晰地對(duì)人工智能算力數(shù)據(jù)中心建設(shè)展開研究,
14
把人工智能算力數(shù)據(jù)中心建設(shè)劃分成5層,總體架構(gòu)如圖1所
示。
行業(yè)應(yīng)用
軟件基礎(chǔ)設(shè)施
人工智能算力數(shù)據(jù)中心硬件基礎(chǔ)設(shè)施
基建基礎(chǔ)設(shè)施
圖1人工智能算力數(shù)據(jù)中心總體架構(gòu)
土建層(L0),包括地基和建筑體。
基礎(chǔ)設(shè)施層(L1),包括IT運(yùn)行環(huán)境、風(fēng)火水電及運(yùn)維管
理。
硬件基礎(chǔ)設(shè)施層(L2),包括AI芯片及服務(wù)器等硬件設(shè)備。
軟件基礎(chǔ)設(shè)施層(L3),包括應(yīng)用軟件、開發(fā)框架、軟件平
臺(tái)和數(shù)據(jù)。
行業(yè)應(yīng)用層(L4),包括智能識(shí)別、智能投顧、智能客服等
金融行業(yè)應(yīng)用。
L0和L1相關(guān)度較大,統(tǒng)稱為基建基礎(chǔ)設(shè)施層。
(二)分層布局
人工智能算力數(shù)據(jù)中心分層布局如圖2所示,其中與人工智
能算力建設(shè)相關(guān)的部分包括基建、硬件及軟件基礎(chǔ)設(shè)施3層。
15
金融行業(yè)
智能識(shí)別智能投顧智能客服智能營銷量化交易智能風(fēng)控L4
應(yīng)用
行業(yè)算法:AI與金融業(yè)務(wù)融合金融市場:AI與數(shù)據(jù)要素流動(dòng)L3
使能軟件
數(shù)據(jù)管理模型開發(fā)自動(dòng)學(xué)習(xí)預(yù)置算法
軟件L3
基礎(chǔ)智能診斷數(shù)據(jù)標(biāo)注大規(guī)模AI訓(xùn)練云邊端部署
設(shè)施
人
工基礎(chǔ)軟件
智
芯片使能AI開發(fā)框架L3
能AI系統(tǒng)軟件
算
云平臺(tái)資源云化算力調(diào)度多租戶隔離彈性共享云邊端協(xié)同
力
數(shù)
據(jù)
硬件AI計(jì)算子系統(tǒng)
中L2
基礎(chǔ)存儲(chǔ)子系統(tǒng)網(wǎng)絡(luò)子系統(tǒng)
心GPUTPUNPUASICFPGA
設(shè)施
IT運(yùn)行環(huán)境運(yùn)維管理
基建L1
基礎(chǔ)風(fēng)火水電
設(shè)施
規(guī)劃設(shè)計(jì)機(jī)房土建L0
圖2人工智能算力數(shù)據(jù)中心分層布局
1.基建基礎(chǔ)設(shè)施層(L0-L1)
基建基礎(chǔ)設(shè)施層包括人工智能算力數(shù)據(jù)中心規(guī)劃設(shè)計(jì)和為
中心提供空間、電力、水源、冷量、防火等基本條件的機(jī)房土建、
風(fēng)水火電、IT運(yùn)行環(huán)境及運(yùn)維管理建設(shè)等底層設(shè)施。
2.硬件基礎(chǔ)設(shè)施層(L2)
硬件基礎(chǔ)設(shè)施層是人工智能算力數(shù)據(jù)中心的核心基礎(chǔ),由AI
計(jì)算子系統(tǒng)、存儲(chǔ)子系統(tǒng)、網(wǎng)絡(luò)互聯(lián)子系統(tǒng)組成,如圖3所示。
16
AI計(jì)算子系統(tǒng)存儲(chǔ)子系統(tǒng)
AI集群基礎(chǔ)單元AIAI
集群集群存儲(chǔ)
AI服務(wù)器供電
硬件基礎(chǔ)基礎(chǔ)節(jié)點(diǎn)
制冷
基礎(chǔ)GPUFPGAASICNPU單元單元
設(shè)施
網(wǎng)絡(luò)互聯(lián)子系統(tǒng)
數(shù)據(jù)中心交換機(jī)數(shù)據(jù)中心交換機(jī)數(shù)據(jù)中心交換機(jī)
圖3硬件基礎(chǔ)設(shè)施架構(gòu)圖
(1)AI芯片。依據(jù)承擔(dān)的功能,AI芯片可劃分為訓(xùn)練和推
理芯片。訓(xùn)練芯片涉及海量數(shù)據(jù)和大規(guī)模計(jì)算,對(duì)算法、精度、
處理能力要求非常高,當(dāng)前僅適合在中心端部署。推理芯片更加
注重綜合能力,包括算力能耗、時(shí)延、成本等因素,支持計(jì)算機(jī)
視覺、視頻處理、自然語言處理和搜索推薦等推理應(yīng)用場景,可
部署在中心端、邊緣或終端側(cè)。目前GPU、NPU(Neuralnetwork
ProcessingUnit)、FPGA(FieldProgrammableGateArray)、
ASIC(ApplicationSpecificIntergratedCircuits)等是AI
芯片行業(yè)的主流技術(shù)路線。
(2)AI計(jì)算子系統(tǒng)。AI計(jì)算子系統(tǒng)一般由高密度、集成化
機(jī)柜式設(shè)計(jì)的集群基礎(chǔ)單元組成,每個(gè)集群基礎(chǔ)單元包括若干AI
服務(wù)器,每臺(tái)AI服務(wù)器均搭載AI芯片,在芯片和服務(wù)器之間通過
互聯(lián)網(wǎng)絡(luò)傳遞人工智能網(wǎng)絡(luò)模型的梯度參數(shù)更新等數(shù)據(jù)。各集群
基礎(chǔ)單元可支持約40kW的散熱功耗,實(shí)現(xiàn)低PUE數(shù)據(jù)中心能源效
率。
17
(3)存儲(chǔ)子系統(tǒng)。存儲(chǔ)子系統(tǒng)提供高性能、高可靠、高擴(kuò)
展性和易備份的分布式存儲(chǔ)。存儲(chǔ)子系統(tǒng)部署存儲(chǔ)節(jié)點(diǎn),提供對(duì)
象存儲(chǔ)、塊存儲(chǔ)等存儲(chǔ)服務(wù),為人工智能訓(xùn)練平臺(tái)提供高吞吐,
大帶寬的樣本原始數(shù)據(jù)。
(4)網(wǎng)絡(luò)互聯(lián)子系統(tǒng)。網(wǎng)絡(luò)互聯(lián)子系統(tǒng)為整個(gè)AI硬件基礎(chǔ)
設(shè)施層各子系統(tǒng)間提供互聯(lián)互通支撐。
3.軟件基礎(chǔ)設(shè)施層(L3)
軟件基礎(chǔ)設(shè)施層包含基礎(chǔ)軟件、AI使能4軟件、行業(yè)算法和
AI市場,如圖4所示。
行業(yè)算法:AI與行業(yè)業(yè)務(wù)融合AI市場:AI與數(shù)據(jù)要素流動(dòng)
使能軟件
數(shù)據(jù)管理模型開發(fā)自動(dòng)學(xué)習(xí)預(yù)置算法
軟件
基礎(chǔ)智能診斷數(shù)據(jù)標(biāo)注大規(guī)模AI訓(xùn)練云邊端部署
設(shè)施
基礎(chǔ)軟件
AI系統(tǒng)軟件芯片使能軟件AI開發(fā)框架
云平臺(tái)資源云化算力調(diào)度多租戶隔離彈性共享云邊端協(xié)同
圖4軟件基礎(chǔ)設(shè)施架構(gòu)圖
(1)基礎(chǔ)軟件
(a)芯片使能軟件。芯片使能軟件構(gòu)建于AI芯片驅(qū)動(dòng)層之
上,是人工智能軟件加速庫(算子)集合,為深度學(xué)習(xí)提供必不
可少的計(jì)算優(yōu)化功能。各大芯片廠商都推出了針對(duì)自身芯片進(jìn)行
優(yōu)化的使能庫,如對(duì)于以GPU和NPU為基礎(chǔ)的兩類AI芯片,其
4使能,其英文為“Enable”,使能軟件是增強(qiáng)原有系統(tǒng)或基礎(chǔ)軟件能力的一種軟件,使其具備更多新的能力。
18
芯片使能軟件的代表分別是CUDA(ComputeUnifiedDevice
Architecture,計(jì)算統(tǒng)一設(shè)備架構(gòu))和CANN(Compute
ArchitectureforNeuralnetworks,神經(jīng)網(wǎng)絡(luò)計(jì)算體系結(jié)構(gòu))。
(b)AI開發(fā)框架。AI開發(fā)框架封裝卷積運(yùn)算、激活函數(shù)、
損失函數(shù)計(jì)算、優(yōu)化器使用等基本操作,提供人工智能網(wǎng)絡(luò)模型
開發(fā)環(huán)境。主流AI開發(fā)框架包括MindSpore、TensorFlow、
PyTorch和PaddlePaddle等。
(c)云平臺(tái)?;A(chǔ)軟件中還包括云平臺(tái),對(duì)計(jì)算、存儲(chǔ)及
網(wǎng)絡(luò)資源進(jìn)行統(tǒng)一調(diào)度和管理,提供統(tǒng)一的算力支持。
(2)使能軟件
人工智能算力數(shù)據(jù)中心面向大規(guī)模分布式模型訓(xùn)練、全流程
人工智能應(yīng)用支撐,需要對(duì)大規(guī)模算力資源進(jìn)行管理和調(diào)度。
使能軟件基于硬件基礎(chǔ)設(shè)施的組網(wǎng)特點(diǎn)實(shí)現(xiàn)對(duì)算力資源的
統(tǒng)一管理、調(diào)度和監(jiān)控,進(jìn)行細(xì)粒度的資源實(shí)時(shí)分配,支持海量
任務(wù)的智能自動(dòng)調(diào)度、任務(wù)管理、數(shù)據(jù)加載和預(yù)處理,支持大規(guī)
模人工智能計(jì)算場景,并能夠提供豐富的人工智能場景應(yīng)用和
API服務(wù),使用戶能夠在該平臺(tái)上進(jìn)行一站式人工智能開發(fā)和應(yīng)
用部署。
軟件API服務(wù)主要包括提供智能語音語言類和計(jì)算機(jī)視覺
服務(wù)。智能語音語言類服務(wù)主要提供語音識(shí)別、語音合成、聲紋
識(shí)別、語音聽轉(zhuǎn)寫等在線服務(wù),計(jì)算機(jī)視覺類服務(wù)主要提供物體
檢測、人臉識(shí)別、人臉檢測、圖像識(shí)別、光學(xué)字符識(shí)別等服務(wù)。
19
產(chǎn)業(yè)側(cè)使能軟件包括華為的modelArts、百度的AIstudio、
第四范式的sageEE、寒武紀(jì)的CAIP算力平臺(tái)、新華三的傲飛
AMPHA、亞馬遜的AWSsageMaker等。
(3)行業(yè)算法和AI市場
行業(yè)算法通過行業(yè)知識(shí)的積累,預(yù)置各樣經(jīng)驗(yàn),從而更快、
更高效地為行業(yè)賦能。AI市場則支持?jǐn)?shù)據(jù)和AI模型的有效流動(dòng)
和共享。
二、基建基礎(chǔ)設(shè)施層(L0-L1)
在數(shù)據(jù)中心選址方面,除符合國家標(biāo)準(zhǔn)GB50174的4.1.1、
4.1.2和附錄A中選址相關(guān)技術(shù)要求和使用需求外,還應(yīng)符合
JR/T0265中7.2規(guī)劃及布局的基本要求。
在數(shù)據(jù)中心環(huán)境、建筑與結(jié)構(gòu)、空氣調(diào)節(jié)、電氣、電磁屏蔽、
網(wǎng)絡(luò)與布線系統(tǒng)、智能化系統(tǒng)、給水排水、消防與安全方面,除
符合國家標(biāo)準(zhǔn)GB50174第5章至第13章及附錄A相關(guān)技術(shù)要
求外,還應(yīng)符合JR/T0265中第7.3章節(jié)至7.11章節(jié)的基本要
求。
三、硬件基礎(chǔ)設(shè)施層(L2)
(一)AI芯片
1.AI芯片架構(gòu)
(1)應(yīng)采用適合的AI芯片架構(gòu),提供高AI算力和能效比。
(2)應(yīng)支持高速互聯(lián)技術(shù)。
(3)應(yīng)支持高度集成化、模塊化和冗余設(shè)計(jì)。
20
2.AI加速芯片
(1)應(yīng)支持專用的矩陣乘法運(yùn)算加速單元和向量乘加運(yùn)算
加速單元。
(2)應(yīng)支持片上配備高速緩存,加速數(shù)據(jù)存取與多核通信。
(3)應(yīng)提供FP32、FP16、TF32浮點(diǎn)運(yùn)算精度。對(duì)于推理
卡,F(xiàn)P32不小于20TOPS或FP16不小于250TOPS;對(duì)于訓(xùn)練卡,
FP32不小于64TFLOPS或FP16不小于280TFLOPS,TF32宜不小
于128TFOPS。
(4)推理卡應(yīng)具備INT8定點(diǎn)運(yùn)算能力,宜不小于250TOPS。
(5)應(yīng)支持內(nèi)存、算力等資源的切分和良好的隔離。
(6)應(yīng)具有PCIE或OAM接口,以便與主機(jī)CPU進(jìn)行高速數(shù)
據(jù)傳輸。
(7)包含專用加解密運(yùn)算單元,應(yīng)提供可信的AI運(yùn)算環(huán)境。
(二)AI服務(wù)器
AI服務(wù)器根據(jù)形態(tài)可分為通用型AI服務(wù)器和模組型AI服
務(wù)器,根據(jù)功能又可分為AI訓(xùn)練服務(wù)器和AI推理服務(wù)器。
1.通用型AI服務(wù)器
通用型AI服務(wù)器需要支持承載不同形態(tài)的加速卡的算力需
求,主要采用CPU+AI加速卡為主體的服務(wù)器架構(gòu)。在自主可控
背景的影響下,服務(wù)器需要支持AI加速卡,如寒武紀(jì)MLU加速
卡,燧原、華為等廠商的GPU加速卡和華為的NPU加速卡。數(shù)據(jù)
中心訓(xùn)練型AI服務(wù)器機(jī)型一般建議支持8張雙寬GPU卡。推理
21
型服務(wù)器根據(jù)GPU卡的密度需求不同,數(shù)據(jù)中心建議使用支持8
張及以上雙寬或單寬GPU卡的4U機(jī)型,邊緣數(shù)據(jù)中心可選擇支
持4張及以上的雙寬或單寬GPU卡的2U機(jī)型。
2.模組型AI服務(wù)器
模組型AI服務(wù)器主要目的是為支持多加速卡間互聯(lián),從而
獲得更高的卡間帶寬,提升訓(xùn)練性能。模組型AI服務(wù)器主要用
于數(shù)據(jù)中心的AI訓(xùn)練場景。
(三)AI計(jì)算子系統(tǒng)
1.可以實(shí)現(xiàn)同一服務(wù)器的卡間、跨服務(wù)器間的高速數(shù)據(jù)通信
能力,并進(jìn)行橫向和縱向擴(kuò)展。
2.有專用的卡間互聯(lián)高速接口,滿足訓(xùn)練和推理過程中卡間
大數(shù)據(jù)量交換傳輸?shù)男枨蟆?/p>
3.具備常見的分布式集合通信原語實(shí)現(xiàn),支持主流分布式框
架。
4.支持集群通過高速通信協(xié)議進(jìn)行橫向和縱向擴(kuò)展。
5.存儲(chǔ)子系統(tǒng)應(yīng)滿足高效AI算力子系統(tǒng)的要求。
6.網(wǎng)卡配置應(yīng)滿足AI算力子系統(tǒng)對(duì)帶寬、ROCE5及TCP網(wǎng)絡(luò)等
的需求。
四、軟件基礎(chǔ)設(shè)施層(L3)
(一)芯片使能軟件
1.提供基于C和Python語言的算子開發(fā)接口,使用戶具有自
5ROCE(RDMAoverConvergedEthernet),是在InfiniBandTradeAssociation(IBTA)標(biāo)準(zhǔn)中定義的網(wǎng)絡(luò)協(xié)議,允
許通過以太網(wǎng)絡(luò)使用RDMA。
22
定義算子開發(fā)的能力,如英偉達(dá)CUDA、寒武紀(jì)bangC/bang
Python、華為CANN等。
2.具備容器鏡像部署能力,方便開發(fā)生產(chǎn)環(huán)境的快速部署。
3.AI產(chǎn)品可以使用k8s進(jìn)行算力資源的運(yùn)維管理,并提供AI
產(chǎn)品主要指標(biāo)的監(jiān)測能力。
4.提供高性能推理引擎,完備的深度學(xué)習(xí)調(diào)優(yōu)、調(diào)試、監(jiān)控
工具,加速深度學(xué)習(xí)模型的開發(fā)流程。
(二)AI開發(fā)框架
1.開發(fā)框架兼容能力
(1)提供AI主流軟件適配能力,支持國內(nèi)外主流深度學(xué)習(xí)
框架。
(2)宜支持MindSpore、TensorFlow、PyTorch、
PaddlePaddle、Horvod等至少1種深度學(xué)習(xí)或分布式框架。
(3)宜支持麒麟、CentOS等至少1種國內(nèi)外操作系統(tǒng)。
2.主流機(jī)器學(xué)習(xí)和深度學(xué)習(xí)支撐能力
支持常見的視覺分析、NLP和語音識(shí)別功能。視覺分析宜支
持resnet50、yoloV5等神經(jīng)網(wǎng)絡(luò),NLP宜支持bert、Transformer
等神經(jīng)網(wǎng)絡(luò),語音識(shí)別宜支持tacotron2、waveRNN、FlySpeech
等神經(jīng)網(wǎng)絡(luò)。
(三)使能軟件
1.數(shù)據(jù)接入
數(shù)據(jù)接入是人工智能開發(fā)平臺(tái)的基礎(chǔ)環(huán)節(jié),根據(jù)項(xiàng)目需求,
23
平臺(tái)按照不同方式接入不同類型的數(shù)據(jù),并在此基礎(chǔ)上開展后續(xù)
環(huán)節(jié)。主要功能包括:
(1)支持接入不同類型的數(shù)據(jù),包括結(jié)構(gòu)化數(shù)據(jù)(如數(shù)據(jù)
庫表)和非結(jié)構(gòu)化數(shù)據(jù)(如文本、圖像、視頻及音頻等格式)。
(2)支持本地?cái)?shù)據(jù)接入、各類接口協(xié)議接入等數(shù)據(jù)接入方
式。
(3)支持接入數(shù)據(jù)的參數(shù)配置。
2.數(shù)據(jù)預(yù)處理
經(jīng)過清洗、轉(zhuǎn)換等操作,數(shù)據(jù)預(yù)處理部分可以解決數(shù)據(jù)可能
存在的質(zhì)量問題(如不一致、無效、缺失、重復(fù)等),將數(shù)據(jù)加
工為模型開發(fā)能夠直接使用的形式,并在此基礎(chǔ)上開展后續(xù)環(huán)節(jié)。
主要功能包括數(shù)據(jù)清洗(如去重、異常值檢測、缺失值填充等)、
數(shù)據(jù)轉(zhuǎn)換、數(shù)據(jù)增強(qiáng)。
3.數(shù)據(jù)標(biāo)注
數(shù)據(jù)標(biāo)注是認(rèn)知數(shù)據(jù)特征的重要過程,標(biāo)注質(zhì)量與模型效果
息息相關(guān),平臺(tái)應(yīng)提供面向不同類型數(shù)據(jù)(如文本、圖像、視頻
及音頻等)的人工標(biāo)注及自動(dòng)標(biāo)注工具,并提供可靈活擴(kuò)展的團(tuán)
隊(duì)標(biāo)注和智能標(biāo)注模式。
4.數(shù)據(jù)管理
數(shù)據(jù)管理是人工智能開發(fā)平臺(tái)的支撐環(huán)節(jié),平臺(tái)應(yīng)支持用戶
對(duì)其權(quán)限內(nèi)的數(shù)據(jù)進(jìn)行統(tǒng)一管理,并以數(shù)據(jù)集的形式服務(wù)于后續(xù)
環(huán)節(jié)。主要功能包括:
24
(1)支持創(chuàng)建、刪除、修改、查看及導(dǎo)出等數(shù)據(jù)集操作。
(2)支持?jǐn)?shù)據(jù)集信息展示和查詢,如名稱、原始數(shù)據(jù)、標(biāo)
注信息、標(biāo)簽等。
(3)提供權(quán)限與版本管理、拆分與合并等數(shù)據(jù)集管理功能。
5.數(shù)據(jù)分析
數(shù)據(jù)分析支持使用統(tǒng)計(jì)方法分析數(shù)據(jù)并提取有效信息,及時(shí)
發(fā)現(xiàn)數(shù)據(jù)特征或分布上的問題,從而有針對(duì)性地優(yōu)化處理。主要
功能包括:
(1)不同類型的數(shù)據(jù)預(yù)覽,如結(jié)構(gòu)化、半結(jié)構(gòu)化、非結(jié)構(gòu)
化的數(shù)據(jù)。
(2)數(shù)據(jù)集分析,如結(jié)構(gòu)化數(shù)據(jù)的質(zhì)量分析、特征分析,
非結(jié)構(gòu)化數(shù)據(jù)的特征分析。
6.特征工程
特征工程是從原始數(shù)據(jù)或者預(yù)處理后的數(shù)據(jù)中提取、變換為
更易解決問題的特征數(shù)據(jù)的過程,旨在去除數(shù)據(jù)中雜質(zhì)和冗余量。
特征工程是傳統(tǒng)機(jī)器學(xué)習(xí)中尤為重要的一個(gè)環(huán)節(jié),直接影響到最
終模型結(jié)果。
7.模型開發(fā)
模型開發(fā)為開發(fā)者提供一個(gè)便捷的開發(fā)環(huán)境,使用戶更加聚
焦在模型本身的設(shè)計(jì)上。本模塊中集成AI框架,免去繁瑣的安
裝配置過程。針對(duì)不同層次的開發(fā)者,開發(fā)環(huán)境采用更加人性化
的操作接口,如拖拽式的可視化建模環(huán)境、JupyterLab、命令行
25
建模等,也可幫助用戶完成模型腳本在線編輯。主要功能包括:
(1)支持主流的傳統(tǒng)機(jī)器學(xué)習(xí)框架(庫)、深度學(xué)習(xí)框架,
及深度學(xué)習(xí)預(yù)訓(xùn)練模型。
(2)針對(duì)不同層次用戶提供多種建模方式,如交互式編碼、
可視化建模等。
8.模型訓(xùn)練
模型訓(xùn)練是按照既定的訓(xùn)練規(guī)則,通過訓(xùn)練數(shù)據(jù)集來完成算
法實(shí)例化的過程。訓(xùn)練過程中,根據(jù)業(yè)務(wù)需求提供不同的訓(xùn)練模
式,包括單機(jī)訓(xùn)練和分布式訓(xùn)練。平臺(tái)對(duì)用戶屏蔽算力設(shè)施的底
層復(fù)雜組網(wǎng)和配置,通過簡易的設(shè)置即可實(shí)現(xiàn)不同的訓(xùn)練模式。
平臺(tái)支持多種訓(xùn)練加速手段。整個(gè)訓(xùn)練過程有可視化指標(biāo)形式呈
現(xiàn)。主要功能包括:
(1)支持單機(jī)、分布式訓(xùn)練。
(2)支持GPU、國產(chǎn)化等多種異構(gòu)計(jì)算加速芯片。
(3)訓(xùn)練過程中計(jì)算、內(nèi)存等資源使用情況的可視化呈現(xiàn)。
(4)訓(xùn)練過程中模型精度等關(guān)鍵指標(biāo)可視化跟蹤。
(5)支持創(chuàng)建、啟停、刪除、修改及查詢等訓(xùn)練任務(wù)操作。
9.模型評(píng)估
模型評(píng)估是通過既定的各類AI任務(wù)評(píng)估指標(biāo),對(duì)訓(xùn)練生成
的模型進(jìn)行質(zhì)量評(píng)判,生成詳細(xì)的評(píng)估報(bào)告,選擇出符合要求的
模型用于后續(xù)環(huán)節(jié)。模型評(píng)估提供可視化的圖表形式呈現(xiàn)不同模
型版本的指標(biāo)對(duì)比,使用戶能快速分辨出模型優(yōu)劣。同時(shí),模型
26
評(píng)估對(duì)于分析模型對(duì)數(shù)據(jù)特征的偏好、模型的可解釋性等方面也
有指導(dǎo)意義。主要功能包括:
(1)針對(duì)待評(píng)估模型生成評(píng)估報(bào)告。
(2)常用模型如圖像分類、目標(biāo)檢測等的評(píng)估指標(biāo)。
(3)模型指標(biāo)的歷史版本評(píng)估結(jié)果比較。
(4)評(píng)估指標(biāo)的可視化呈現(xiàn),如精度、資源占用等指標(biāo)。
10.模型管理
模型管理是針對(duì)已有的模型,提供模型的導(dǎo)入導(dǎo)出、查詢檢
索、版本管理、模型格式轉(zhuǎn)化等功能,支持主流的模型格式。對(duì)
于一些資源緊張的部署環(huán)境,提供模型壓縮功能來降低模型的資
源消耗。主要功能包括:
(1)導(dǎo)入、查詢、修改及刪除等與模型文件存儲(chǔ)相關(guān)的基
本操作。
(2)支持ONNX、TensorFlow、PyTorch等業(yè)界主流模型格
式。
(3)支持不同模型格式的轉(zhuǎn)化。
11.模型部署
模型部署是按照一定的編排規(guī)則,將模型部署到生產(chǎn)環(huán)境中,
對(duì)外提供智能服務(wù)。根據(jù)具體業(yè)務(wù)需求,可將模型部署在云端、
邊緣側(cè)或終端側(cè)等不同位置。利用云計(jì)算平臺(tái)提供的基礎(chǔ)功能,
可實(shí)現(xiàn)AI模型的平滑升級(jí)、灰度測試、根據(jù)業(yè)務(wù)流量彈性伸縮
模型實(shí)例等功能。主要功能包括:
27
(1)支持容器鏡像部署方式。
(2)支持部署為在線服務(wù),如REST、gRPC接口。
(3)支持部署為批量推理服務(wù)。
(4)支持模型灰度發(fā)布及AB測試。
12.模型推理
模型推理是對(duì)用戶調(diào)用模型服務(wù)接口返回執(zhí)行結(jié)果的過程,
是發(fā)揮模型價(jià)值的環(huán)節(jié)。平臺(tái)應(yīng)分配相應(yīng)的計(jì)算資源,運(yùn)行模型
并輸出結(jié)果。主要功能包括:
(1)宜支持TensorFlow、PyTorch、MindSpore、
PaddlePaddle中兩種以上框架訓(xùn)練所得模型的高性能推理部署。
(2)推理服務(wù)管理操作,如任務(wù)啟動(dòng)、停止,服務(wù)的限流、
負(fù)載均衡等。
(3)推理服務(wù)的接口信息查詢和展示,如版本、實(shí)例數(shù)、
接口格式等。
(4)推理服務(wù)的使用情況統(tǒng)計(jì),如運(yùn)行狀態(tài)、調(diào)用量、成
功率等。
13.資源管理
AI平臺(tái)底層對(duì)基礎(chǔ)設(shè)施如計(jì)算、存儲(chǔ)、網(wǎng)絡(luò)等資源進(jìn)行管理
和配置,為AI的推理和訓(xùn)練場景分配資源和運(yùn)行環(huán)境。主要功
能包括:
(1)支持異構(gòu)加速資源的調(diào)度,如GPU、國產(chǎn)加速卡等。
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 《汽車網(wǎng)關(guān)信息安全技術(shù)要求及試驗(yàn)方法gbt+40857-2021》詳細(xì)解讀
- 《車載信息交互系統(tǒng)信息安全技術(shù)要求及試驗(yàn)方法gbt+40856-2021》詳細(xì)解讀
- 冠脈CT造影須知
- 重大項(xiàng)目燃料動(dòng)力費(fèi)支付申請(qǐng)表
- ATOX-50立磨出磨生料細(xì)度跑粗原因及措施
- 產(chǎn)品板材推廣文案策劃書
- 《社會(huì)保障卡經(jīng)辦服務(wù)規(guī)范(報(bào)批稿)》
- 新教材同步備課2024春高中數(shù)學(xué)第6章平面向量及其應(yīng)用6.4平面向量的應(yīng)用6.4.3余弦定理正弦定理第1課時(shí)余弦定理課件新人教A版必修第二冊(cè)
- 四萬電石爐專項(xiàng)測試題有答案
- 巨人通力電梯-GFS25培訓(xùn)資料-電氣部分 -V3.1
- 污水管道施工工程施工組織方案
- 倡導(dǎo)垃圾分類主題升旗儀式主持詞
- 灌漿料施工方案灌漿施工方案(三篇)
- 綠色上網(wǎng)文明上網(wǎng)主題班會(huì)課件
- 詢價(jià)小組簽到表
- 通用英語答題卡word模板
- 阿基米德稱王冠課件
- 產(chǎn)前篩查質(zhì)控工作總結(jié)報(bào)告
- 富血小板血漿的臨床應(yīng)用課件
- COSO-內(nèi)部控制框架
- 彈簧制造標(biāo)準(zhǔn)工藝
評(píng)論
0/150
提交評(píng)論