AI框架發(fā)展白皮書(2022年)_第1頁
AI框架發(fā)展白皮書(2022年)_第2頁
AI框架發(fā)展白皮書(2022年)_第3頁
AI框架發(fā)展白皮書(2022年)_第4頁
AI框架發(fā)展白皮書(2022年)_第5頁
已閱讀5頁,還剩48頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

No.202201

AI框架發(fā)展白皮書

(2022年)

中國信息通信研究院

2022年2月

前言

AI助力當(dāng)前經(jīng)濟(jì)社會(huì)步入智能經(jīng)濟(jì)時(shí)代。世界正在進(jìn)入以新一

代信息技術(shù)驅(qū)動(dòng)發(fā)展的重塑時(shí)期,人工智能(AI,ArtificialIntelligence)

作為其中重要的使能技術(shù),對(duì)激活實(shí)體經(jīng)濟(jì)具有溢出帶動(dòng)性很強(qiáng)的

“頭雁效應(yīng)”,對(duì)構(gòu)筑國家科技影響力具有舉足輕重的意義。人工智能

成為了全球各國新的科技熱點(diǎn),人工智能基礎(chǔ)設(shè)施建設(shè)也成為重要抓

手與著力點(diǎn)。未來十年是全球發(fā)展數(shù)字經(jīng)濟(jì)、邁入智能經(jīng)濟(jì)社會(huì)的黃

金發(fā)展期,著力發(fā)展人工智能基礎(chǔ)設(shè)施,將為我國人工智能產(chǎn)業(yè)發(fā)展

壯大、數(shù)字經(jīng)濟(jì)蓬勃發(fā)展提供強(qiáng)大牽引力。

AI框架是智能經(jīng)濟(jì)時(shí)代的操作系統(tǒng)。作為人工智能開發(fā)環(huán)節(jié)中

的基礎(chǔ)工具,AI框架承擔(dān)著AI技術(shù)生態(tài)中操作系統(tǒng)的角色,是AI

學(xué)術(shù)創(chuàng)新與產(chǎn)業(yè)商業(yè)化的重要載體,助力人工智能由理論走入實(shí)踐,

快速進(jìn)入了場(chǎng)景化應(yīng)用時(shí)代,也是發(fā)展人工智能所必需的基礎(chǔ)設(shè)施之

一。隨著重要性的不斷凸顯,AI框架已經(jīng)成為了人工智能產(chǎn)業(yè)創(chuàng)新

的焦點(diǎn)之一,引起了學(xué)術(shù)界、產(chǎn)業(yè)界的重視。

在此背景下,白皮書致力于厘清AI框架的概念內(nèi)涵、演進(jìn)歷程、

技術(shù)體系與作用意義,通過梳理總結(jié)當(dāng)前AI框架發(fā)展現(xiàn)狀,研判AI

框架技術(shù)發(fā)展趨勢(shì),并對(duì)AI框架發(fā)展提出展望與路徑建議。由于AI

框架仍處于快速發(fā)展階段,我們對(duì)AI框架的認(rèn)識(shí)還有待持續(xù)深化,

白皮書中存在的不足之處,歡迎大家批評(píng)指正。

AI框架發(fā)展白皮書(2022年)

一、AI框架技術(shù)持續(xù)演進(jìn),已形成較為完整的體系

AI框架是AI算法模型設(shè)計(jì)、訓(xùn)練和驗(yàn)證的一套標(biāo)準(zhǔn)接口、特

性庫和工具包,集成了算法的封裝、數(shù)據(jù)的調(diào)用以及計(jì)算資源的使

用,同時(shí)面向開發(fā)者提供了開發(fā)界面和高效的執(zhí)行平臺(tái),是現(xiàn)階段

AI算法開發(fā)的必備工具。當(dāng)前,人工智能基礎(chǔ)性算法理論研究創(chuàng)新

日益活躍,深度神經(jīng)網(wǎng)絡(luò)日趨成熟,各大廠商紛紛投入到深度神經(jīng)

網(wǎng)絡(luò)算法的工程實(shí)現(xiàn)并發(fā)力建設(shè)算法模型工具,進(jìn)一步將其封裝為

軟件框架供開發(fā)者使用,這個(gè)過程中AI框架(業(yè)界也稱AI開發(fā)框

架、深度學(xué)習(xí)框架等)應(yīng)運(yùn)而生。AI框架負(fù)責(zé)給開發(fā)者提供構(gòu)建神

經(jīng)網(wǎng)絡(luò)模型的數(shù)學(xué)操作,把復(fù)雜的數(shù)學(xué)表達(dá)轉(zhuǎn)換成計(jì)算機(jī)可識(shí)別的

計(jì)算圖,自動(dòng)對(duì)神經(jīng)網(wǎng)絡(luò)進(jìn)行訓(xùn)練,得到一個(gè)神經(jīng)網(wǎng)絡(luò)模型用于解

決機(jī)器學(xué)習(xí)中分類、回歸的問題,實(shí)現(xiàn)目標(biāo)分類、語音識(shí)別等應(yīng)用

場(chǎng)景。

(一)AI框架演進(jìn)步入深化階段

結(jié)合人工智能的發(fā)展歷程和AI框架的技術(shù)特性來看,AI框架

的發(fā)展大致可以分為四個(gè)階段,分別為萌芽階段(2000年初期)、

成長(zhǎng)階段(2012~2014年)、穩(wěn)定階段(2015年~2019年)、深化

階段(2020年以后)。其發(fā)展脈絡(luò)與人工智能,特別是神經(jīng)網(wǎng)絡(luò)技

術(shù)的異峰突起有非常緊密的聯(lián)系。

1

中國AI框架發(fā)展白皮書(2022年)

來源:中國信息通信研究院

圖1AI框架技術(shù)演進(jìn)

萌芽階段:受限于計(jì)算能力不足,這一階段的神經(jīng)網(wǎng)絡(luò)技術(shù)影

響力相對(duì)有限,因而出現(xiàn)了一些傳統(tǒng)的機(jī)器學(xué)習(xí)工具來提供基本支

持,也就是AI框架的雛形,但這些工具或者不是專門為神經(jīng)網(wǎng)絡(luò)

模型開發(fā)定制的,或者API極其復(fù)雜對(duì)開發(fā)者并不友好,且這些工

具并沒有對(duì)GPU算力進(jìn)行支持。這一階段的AI框架并不完善,開

發(fā)者不得不進(jìn)行大量基礎(chǔ)的工作,例如手寫反向傳播、搭建網(wǎng)絡(luò)結(jié)

構(gòu)、自行設(shè)計(jì)優(yōu)化器等。

成長(zhǎng)階段:2012年,AlexKrizhevsky等人提出了一種深度神經(jīng)

網(wǎng)絡(luò)架構(gòu),即著名的AlexNet,在ImageNet數(shù)據(jù)集上達(dá)到了最佳精

度,并碾壓第二名,引爆了深度神經(jīng)網(wǎng)絡(luò)的熱潮。自此極大地推動(dòng)

了AI框架的發(fā)展,出現(xiàn)了Caffe、Chainer和Theano等具有代表性

的早期AI框架,幫助開發(fā)者方便地建立復(fù)雜的深度神經(jīng)網(wǎng)絡(luò)模型,

如CNN、RNN、LSTM等。不僅如此,這些框架還支持多GPU訓(xùn)

2

AI框架發(fā)展白皮書(2022年)

練,讓開展更大、更深的模型訓(xùn)練成為可能。在這一階段,AI框架

體系已經(jīng)初步形成,聲明式風(fēng)格和命令式風(fēng)格為之后的AI框架趟

出了兩條不同的發(fā)展道路。

穩(wěn)定階段:2015年,何愷明等人提出的ResNet,再次突破了圖

像分類的邊界,在ImageNet數(shù)據(jù)集上的準(zhǔn)確率再創(chuàng)新高,也終于凝

聚了產(chǎn)業(yè)界和學(xué)界的共識(shí),那就是深度學(xué)習(xí)將成為下一個(gè)重大技術(shù)

趨勢(shì)。在這一到兩年里,Google開源了著名的TensorFlow框架,

它至今仍是機(jī)器學(xué)習(xí)領(lǐng)域最流行的AI框架。Caffe的發(fā)明者加入了

Facebook(現(xiàn)更名為Meta)并發(fā)布了Caffe2;與此同時(shí),F(xiàn)acebook

AI研究團(tuán)隊(duì)也發(fā)布了另一個(gè)流行的框架PyTorch,該框架拓展自

Torch框架,但使用了更流行的PythonAPI。微軟研究院開發(fā)了

CNTK框架。Amazon采用了MXNet,這是華盛頓大學(xué)、CMU和其

他機(jī)構(gòu)的聯(lián)合學(xué)術(shù)項(xiàng)目。國內(nèi)的百度則率先布局了PaddlePaddle飛

槳深度學(xué)習(xí)框架并于2016年發(fā)布。

TensorFlow和CNTK借鑒了Theano的聲明式編程風(fēng)格,而

PyTorch則繼承了Torch的直觀和開發(fā)者友好的命令式編程風(fēng)格。

FrancoisChollet幾乎是獨(dú)自開發(fā)了Keras框架,該框架提供了神經(jīng)

網(wǎng)絡(luò)和構(gòu)建塊的更直觀的高級(jí)抽象。同時(shí)各種AI框架不斷進(jìn)行迭

代,為框架提供各種面向高效友好開發(fā)的核心組件,例如幾乎所有

AI框架都支持的自動(dòng)微分能力,TensorFlow提供了分布式版本的

AI框架和支持iOS系統(tǒng)的能力,PyTorch則在完全擁抱Python的基

3

中國AI框架發(fā)展白皮書(2022年)

礎(chǔ)上提供了一整套包括優(yōu)化器、庫函數(shù)、API工具等支持。AI框架

迎來了繁榮,而在不斷發(fā)展的基礎(chǔ)上,各種框架不斷迭代,也被開

發(fā)者自然選擇。

經(jīng)過激烈的競(jìng)爭(zhēng)后,最終形成了兩大陣營(yíng),TensorFlow和

PyTorch雙頭壟斷。2019年,Chainer團(tuán)隊(duì)將他們的開發(fā)工作轉(zhuǎn)移到

PyTorch;Microsoft停止了CNTK框架的積極開發(fā),部分團(tuán)隊(duì)成員

轉(zhuǎn)而支持PyTorch;Keras被TensorFlow收編,并在TensorFlow2.0

版本中成為其高級(jí)API之一。

深化階段:隨著人工智能的進(jìn)一步發(fā)展,新的趨勢(shì)不斷涌現(xiàn),

例如超大規(guī)模模型的出現(xiàn)(GPT-3等),向AI框架提出了更高的

要求。隨著人工智能應(yīng)用場(chǎng)景的擴(kuò)展以及與更多領(lǐng)域交叉融合進(jìn)程

的加快,越來越多的需求被提出,如對(duì)全場(chǎng)景多任務(wù)的支持、對(duì)高

算力的需求等,這就要求AI框架最大化的實(shí)現(xiàn)編譯優(yōu)化,更好地

利用算力、調(diào)動(dòng)算力,充分發(fā)揮硬件資源的潛力。此外,人工智能

與社會(huì)倫理的痛點(diǎn)問題也促使可信賴人工智能在框架層面的進(jìn)步。

基于以上背景,現(xiàn)有的流行框架都在探索下一代AI框架的發(fā)展方

向,如2020年華為推出昇思MindSpore,在全場(chǎng)景協(xié)同、可信賴方

面有一定的突破;曠視推出天元MegEngine,在訓(xùn)練推理一體化方

面深度布局。在這一階段,AI框架正向著全場(chǎng)景支持、超大規(guī)模

AI、安全可信等技術(shù)特性深化探索,不斷實(shí)現(xiàn)新的突破。

4

AI框架發(fā)展白皮書(2022年)

(二)AI框架技術(shù)演化出三個(gè)層次

根據(jù)技術(shù)所處環(huán)節(jié)及定位,當(dāng)前主流AI框架的核心技術(shù)可分

為基礎(chǔ)層、組件層和生態(tài)層。

來源:中國信息通信研究院

圖2AI框架核心技術(shù)體系

1.基礎(chǔ)層

基礎(chǔ)層實(shí)現(xiàn)AI框架最基礎(chǔ)核心的功能,具體包括編程開發(fā)、

編譯優(yōu)化以及硬件使能三個(gè)子層。編程開發(fā)層是開發(fā)者與AI框架

互動(dòng)的窗口,為開發(fā)者提供構(gòu)建AI模型的API接口。編譯優(yōu)化層

是AI框架的關(guān)鍵部分,負(fù)責(zé)完成AI模型的編譯優(yōu)化并調(diào)度硬件資

源完成計(jì)算。硬件使能層是AI框架與AI算力硬件對(duì)接的通道,幫

助開發(fā)者屏蔽底層硬件技術(shù)細(xì)節(jié)。

編程開發(fā)-編程接口API:開發(fā)者通過調(diào)用編程接口來描述算法

的計(jì)算過程。對(duì)于開發(fā)者來說,編程接口的易用性以及接口的表達(dá)

5

中國AI框架發(fā)展白皮書(2022年)

能力非常重要,對(duì)算法的描述會(huì)映射到計(jì)算圖上。編程接口主要可

以分為3類:一類是基于數(shù)據(jù)流圖的編程接口,流行的基于數(shù)據(jù)流

圖的機(jī)器學(xué)習(xí)編程框架包括TensorFlow、MXNet、Theano、Torch7

等;另一類是基于層的編程接口,如Caffe;還有一類是基于算法的

編程接口,主要用于傳統(tǒng)機(jī)器學(xué)習(xí)算法的實(shí)現(xiàn),如Scikit-Learn。

編程開發(fā)-編碼語言:人工智能應(yīng)用場(chǎng)景眾多,人工智能開發(fā)者

基于不同場(chǎng)景選擇使用的編程語言多樣,完善的AI框架應(yīng)支持多

種不同的語言,例如Python/倉頡/Julia等。面向使用不同編程語言

的開發(fā)者,AI框架需要提供功能相同、性能可比的開發(fā)服務(wù)和技術(shù)

支持。

編譯優(yōu)化-分布式并行:指數(shù)據(jù)流并行、模型并行、Pipeline并

行、優(yōu)化器并行等策略。隨著模型規(guī)模的增大,傳統(tǒng)的數(shù)據(jù)并行無

法有效處理,自動(dòng)并行技術(shù)的使用將會(huì)是常態(tài)。需要將大模型切分

到不同的設(shè)備上,切分就是將不同大塊計(jì)算切分成小塊計(jì)算,并將

小塊計(jì)算發(fā)送到不同的計(jì)算資源進(jìn)行計(jì)算,最后將小塊計(jì)算的結(jié)構(gòu)

進(jìn)行規(guī)約合并。而切分策略尋優(yōu)是很困難的,不同的切分產(chǎn)生的通

信量差異巨大,計(jì)算利用率也很不一樣,比如Pipeline并行往往在

計(jì)算利用率方面存在較大的挑戰(zhàn),算子切分的并行則在通信量方面

存在較大的挑戰(zhàn),需要AI框架來支持。

編譯優(yōu)化-自動(dòng)微分:自動(dòng)微分是將一個(gè)復(fù)雜的數(shù)學(xué)運(yùn)算過程分

解為一系列簡(jiǎn)單的基本運(yùn)算,每一項(xiàng)基本運(yùn)算都可以通過查表得出

6

AI框架發(fā)展白皮書(2022年)

來。自動(dòng)微分有兩種形式,包括前向模式(forwardmode)和反向模式

(reversemode),前向模式是在計(jì)算圖前向傳播的同時(shí)計(jì)算微分,反

向模式需要對(duì)計(jì)算圖進(jìn)行一次正向計(jì)算,得出輸出值,再進(jìn)行反向

傳播。因此反向模式的內(nèi)存開銷要大一點(diǎn),它需要保存正向傳播中

的中間變量值,這些變量值用于反向傳播的時(shí)候計(jì)算導(dǎo)數(shù)。

編譯優(yōu)化-動(dòng)靜轉(zhuǎn)換:靜態(tài)圖在定義執(zhí)行前的所有操作和網(wǎng)絡(luò)結(jié)

構(gòu),并將其呈現(xiàn)給傳感器流,在訓(xùn)練期間提供了更高的性能,但這

樣做的代價(jià)是不易于使用、不夠靈活。動(dòng)態(tài)圖計(jì)算是即時(shí)執(zhí)行的,

提供了更大的靈活性和更容易的調(diào)試,但這樣做的代價(jià)是性能較低。

TensorFlow2.0、MindSpore等均支持動(dòng)態(tài)圖和靜態(tài)圖的轉(zhuǎn)換技術(shù),

可以實(shí)現(xiàn)計(jì)算效率和靈活性的平衡。

編譯優(yōu)化-模型輕量化:輕量化是指為滿足AI模型尺寸小、計(jì)

算復(fù)雜度低、電池耗電量低、下發(fā)更新部署靈活等要求下,AI框架

所配置的輕量化技術(shù)。一般來說,模型輕量化就是指模型壓縮和加

速,其中壓縮重點(diǎn)在于減少網(wǎng)絡(luò)參數(shù)量,加速則側(cè)重在降低計(jì)算復(fù)

雜度、提升并行能力等。算法層壓縮加速主要包括結(jié)構(gòu)優(yōu)化(如矩

陣分解、分組卷積、小卷積核等)、量化與定點(diǎn)化、模型剪枝、模

型蒸餾等;框架層加速主要包括編譯優(yōu)化、緩存優(yōu)化、稀疏存儲(chǔ)和

計(jì)算、NEON指令應(yīng)用、算子優(yōu)化等。

編譯優(yōu)化-圖算融合:通過自動(dòng)分析和優(yōu)化現(xiàn)有網(wǎng)絡(luò)計(jì)算圖邏輯,

并結(jié)合目標(biāo)硬件能力,對(duì)計(jì)算圖進(jìn)行計(jì)算化簡(jiǎn)和替代、算子拆分和

7

中國AI框架發(fā)展白皮書(2022年)

融合、算子特例化編譯等優(yōu)化,以提升設(shè)備計(jì)算資源利用率,實(shí)現(xiàn)

對(duì)網(wǎng)絡(luò)性能的整體優(yōu)化。相比傳統(tǒng)優(yōu)化技術(shù),圖算融合具有多算子

跨邊界聯(lián)合優(yōu)化、與算子編譯跨層協(xié)同、基于Polyhedral的算子即

時(shí)編譯等獨(dú)特優(yōu)勢(shì)。另外,圖算融合只需要開發(fā)者打開對(duì)應(yīng)配置,

整個(gè)優(yōu)化過程即可自動(dòng)完成,不需要網(wǎng)絡(luò)開發(fā)人員進(jìn)行其它額外感

知,使得開發(fā)者可以聚焦網(wǎng)絡(luò)算法實(shí)現(xiàn)。

編譯優(yōu)化-內(nèi)存優(yōu)化:由于硬件系統(tǒng)的內(nèi)存資源有限,特別是

AI芯片的內(nèi)存資源有限,需要有高效的內(nèi)存優(yōu)化策略降低AI網(wǎng)絡(luò)

對(duì)系統(tǒng)內(nèi)存的消耗。一般常用的內(nèi)存優(yōu)化技術(shù)有:靜態(tài)內(nèi)存復(fù)用優(yōu)

化和動(dòng)態(tài)內(nèi)存分配機(jī)制。靜態(tài)內(nèi)存復(fù)用優(yōu)化會(huì)分析計(jì)算圖的數(shù)據(jù)流

關(guān)系,基于數(shù)據(jù)的內(nèi)存占用大小、數(shù)據(jù)間的生命周期重疊關(guān)系,規(guī)

劃數(shù)據(jù)的內(nèi)存復(fù)用策略,從而最小化內(nèi)存占用。動(dòng)態(tài)內(nèi)存分配機(jī)制

是在運(yùn)行時(shí)創(chuàng)建大塊內(nèi)存,并按照實(shí)際算子執(zhí)行過程中需要的內(nèi)存

進(jìn)行內(nèi)存切片提供,當(dāng)算子執(zhí)行完且相關(guān)數(shù)據(jù)的引用均已結(jié)束時(shí),

釋放內(nèi)存切片,從而實(shí)現(xiàn)內(nèi)存的有效復(fù)用。

編譯優(yōu)化-算子生成:AI框架會(huì)提供基礎(chǔ)常用的算子,但是這

些算子往往不能滿足開發(fā)者算法不斷演進(jìn)的需求。因此,需要AI

框架具備針對(duì)不同算力設(shè)備的統(tǒng)一算子生成和優(yōu)化的能力,使得開

發(fā)人員只需要編寫高層編程語言(如DSL)就可以通過AI框架提

供的算子編譯生成能力,生成高質(zhì)量的底層算子,極大降低AI框

架和硬件平臺(tái)的開發(fā)和維護(hù)成本,拓展應(yīng)用范圍。

8

AI框架發(fā)展白皮書(2022年)

編譯優(yōu)化-中間表示:中間表示(IntermediateRepresentation,

簡(jiǎn)稱IR)是對(duì)計(jì)算圖和算子格式的定義。完備的中間表示需要支持

不同硬件設(shè)備算子定義和計(jì)算圖的性能優(yōu)化,支持不同類型的AI

模型網(wǎng)絡(luò)結(jié)構(gòu)的靈活表達(dá),支持不同設(shè)備間的模型中轉(zhuǎn)和遷移。

硬件接入-計(jì)算算子:在深度學(xué)習(xí)領(lǐng)域計(jì)算算子特指計(jì)算圖中的

一個(gè)函數(shù)節(jié)點(diǎn),一個(gè)在張量上執(zhí)行的計(jì)算操作,它接受零或多個(gè)張

量作為輸入,得到零或多個(gè)張量作為輸出,利用梯度、散度、旋度

的表達(dá)方式進(jìn)行計(jì)算。

硬件接入-通信算子:用于分布式節(jié)點(diǎn)通信的函數(shù)節(jié)點(diǎn)。

2.組件層

組件層主要提供AI模型生命周期的可配置高階功能組件,實(shí)

現(xiàn)細(xì)分領(lǐng)域性能的優(yōu)化提升,包括編譯優(yōu)化組件、科學(xué)計(jì)算組件、

安全可信組件、工具組件等,對(duì)人工智能模型開發(fā)人員可見。

并行及優(yōu)化組件-自動(dòng)并行:指對(duì)自動(dòng)并行技術(shù)的多樣化組合支

持。AI框架支持開發(fā)者進(jìn)行多種不同并行進(jìn)行組合,根據(jù)需要形成

混合并行策略,例如數(shù)據(jù)流并行和模型并行的組合、數(shù)據(jù)流和

Pipeline并行的組合等,支持開發(fā)者個(gè)性化的選擇自己的并行策略,

以更靈活的姿態(tài)支持人工智能模型訓(xùn)練、應(yīng)用適配。

并行及優(yōu)化組件-高階優(yōu)化器:AI框架支持多種不同的一階/二

階優(yōu)化器,能為開發(fā)者提供靈活方便的接口,例如SGD優(yōu)化器、

9

中國AI框架發(fā)展白皮書(2022年)

SGDM優(yōu)化器、NAG優(yōu)化器、AdaGrad優(yōu)化器、AdaDelta優(yōu)化器、

Adam優(yōu)化器、Nadam優(yōu)化器等。

科學(xué)計(jì)算組件-科學(xué)計(jì)算(數(shù)值方法):人工智能發(fā)展的重要方

向之一是科學(xué)計(jì)算,因此要求AI框架向開發(fā)者提供科學(xué)計(jì)算相關(guān)

的功能支持,通過函數(shù)式編程范式為AI+科學(xué)計(jì)算提供融合的表達(dá)

方式,使得開發(fā)者以更加接近數(shù)學(xué)計(jì)算的方式進(jìn)行編程,以緩解當(dāng)

前AI框架的編程接口主要面向深度神經(jīng)網(wǎng)絡(luò)設(shè)計(jì),但是科學(xué)計(jì)算

中需要大量的數(shù)學(xué)公式的表達(dá)(例如微分方程求解)的情況。

科學(xué)計(jì)算組件-科學(xué)計(jì)算(AI方法):針對(duì)AI方法直接替代數(shù)

值方法取得計(jì)算結(jié)果的形式,AI框架需要具備“AI+科學(xué)計(jì)算”統(tǒng)一

的數(shù)據(jù)底座,將傳統(tǒng)科學(xué)計(jì)算的輸入數(shù)據(jù)(如傳統(tǒng)科學(xué)計(jì)算軟件生

成的仿真數(shù)據(jù))轉(zhuǎn)換為AI框架的輸入數(shù)據(jù)(即張量)。針對(duì)AI方

法與數(shù)值方法配合取得計(jì)算結(jié)果形式,除了需要具備統(tǒng)一的數(shù)據(jù)引

擎之外,AI框架需要支持傳統(tǒng)數(shù)值計(jì)算的方法,例如高階微分求解、

線性代數(shù)計(jì)算等,并通過計(jì)算圖對(duì)傳統(tǒng)數(shù)值方法和AI方法的混合

計(jì)算優(yōu)化,從而實(shí)現(xiàn)“AI+科學(xué)計(jì)算”端到端加速。

安全可信組件-AI可解釋:AI框架需要具備三個(gè)層面的能力支

持可解釋人工智能。建模前的“數(shù)據(jù)可解釋”,分析數(shù)據(jù)分布,找出

代表性的特征,在訓(xùn)練時(shí)選擇需要的特征進(jìn)行建模。構(gòu)建“可解釋人

工智能模型”,通過與傳統(tǒng)機(jī)器學(xué)習(xí)(如貝葉斯概率編程)結(jié)合的方

式,對(duì)人工智能結(jié)構(gòu)進(jìn)行補(bǔ)充,平衡學(xué)習(xí)結(jié)果的有效性和學(xué)習(xí)模型

10

AI框架發(fā)展白皮書(2022年)

的可解釋性。對(duì)已構(gòu)筑模型進(jìn)行“解釋性分析”,通過分析人工智能

模型的輸入、輸出、中間信息的以來關(guān)系分析(如TB-Net的方式)

及驗(yàn)證模型的邏輯。

安全可信組件-數(shù)據(jù)安全:人工智能領(lǐng)域的數(shù)據(jù)安全問題不僅僅

涉及到原始數(shù)據(jù)本身的保護(hù),還要防止通過模型推理結(jié)果反推出數(shù)

據(jù)隱私關(guān)鍵信息。因此,AI框架本身除了要提供數(shù)據(jù)資產(chǎn)保護(hù)能力,

還需要通過差分隱私等方式,保護(hù)模型數(shù)據(jù)的隱私。同時(shí),為了源

頭保護(hù)數(shù)據(jù)安全,AI框架通過聯(lián)邦學(xué)習(xí)等方式進(jìn)行模型訓(xùn)練,使得

數(shù)據(jù)不出端的情況下模型得到訓(xùn)練更新。

安全可信組件-模型安全:訓(xùn)練模型時(shí)樣本訓(xùn)練不足,使得模型

泛化能力不足,導(dǎo)致模型面對(duì)惡意樣本時(shí),無法給出正確的判斷結(jié)

果。為此,AI框架首先需要提供豐富的人工智能魯棒性檢測(cè)工具,

通過黑盒、白盒、灰盒測(cè)試等對(duì)抗檢測(cè)技術(shù)測(cè)試人工智能模型的魯

棒性,如靜態(tài)結(jié)構(gòu)分析,動(dòng)態(tài)路徑分析等;其次,AI框架可以通過

支持網(wǎng)絡(luò)蒸餾、對(duì)抗訓(xùn)練等方式幫助開發(fā)者提高模型的魯棒性。

工具組件-訓(xùn)練可視化:支持訓(xùn)練過程可視化,可通過頁面直接

查看訓(xùn)練過程中的核心內(nèi)容,包括訓(xùn)練標(biāo)量信息、參數(shù)分布圖、計(jì)

算圖、數(shù)據(jù)圖、數(shù)據(jù)抽樣等模塊。

工具組件-調(diào)試器:神經(jīng)網(wǎng)絡(luò)訓(xùn)練中經(jīng)常出現(xiàn)數(shù)值誤差情況,如

無窮大等,開發(fā)者希望分析訓(xùn)練無法收斂的原因。但是,由于計(jì)算

被封裝為黑盒,以圖的方式執(zhí)行,開發(fā)者很難定位其中的錯(cuò)誤。調(diào)

11

中國AI框架發(fā)展白皮書(2022年)

試器是訓(xùn)練調(diào)試的工具,開發(fā)者可以在訓(xùn)練過程中查看圖的內(nèi)部結(jié)

構(gòu)以及節(jié)點(diǎn)的輸入/輸出,例如查看一個(gè)張量的值,查看圖中的節(jié)點(diǎn)

對(duì)應(yīng)的Python代碼等。此外,開發(fā)者還可以選擇一組節(jié)點(diǎn)設(shè)置條件

斷點(diǎn),實(shí)時(shí)監(jiān)控節(jié)點(diǎn)的計(jì)算結(jié)果。

3.生態(tài)層

生態(tài)層主要面向應(yīng)用服務(wù),用以支持基于AI框架開發(fā)的各種

人工智能模型的應(yīng)用、維護(hù)和改進(jìn),對(duì)于開發(fā)人員和應(yīng)用人員均可

見。

套件/模型庫:AI框架應(yīng)對(duì)領(lǐng)域通用任務(wù)提供預(yù)訓(xùn)練模型或者

定義好的模型結(jié)構(gòu),方便開發(fā)者獲取和開展人工智能模型訓(xùn)練和推

理,如CV、NLP等。

AI領(lǐng)域擴(kuò)展庫:AI框架要能夠提供豐富的領(lǐng)域任務(wù)支持,并

為相關(guān)任務(wù)提供典型案例,從而提供更好的應(yīng)用服務(wù),如GNN、強(qiáng)

化學(xué)習(xí)、遷移學(xué)習(xí)等。

AI+科學(xué)計(jì)算:與CV、NLP等傳統(tǒng)信息領(lǐng)域不同,科學(xué)計(jì)算問

題的求解需要具備相對(duì)專業(yè)的領(lǐng)域知識(shí)。為了加速AI+科學(xué)計(jì)算融

合的研究和落地,AI框架需要面向不同的科學(xué)計(jì)算領(lǐng)域(如電磁仿

真、科學(xué)制藥、能源、氣象、生物、材料等)提供簡(jiǎn)單易用的科學(xué)

計(jì)算套件,這些套件包含高質(zhì)量的領(lǐng)域數(shù)據(jù)集、高精度的基礎(chǔ)AI

模型和用于前后處理的工具集合。

12

AI框架發(fā)展白皮書(2022年)

文檔:AI框架應(yīng)提供完善的文檔體系,包括但不限于框架說明

文檔、框架API文檔、框架版本變更文檔、框架常見問題文檔、框

架特性文檔等。

社區(qū):人工智能服務(wù)發(fā)展需要社區(qū)支持,AI框架應(yīng)該經(jīng)營(yíng)或者

維護(hù)良好的社區(qū)環(huán)境,好的AI框架具備較好的維護(hù)性和易用性,

同時(shí)AI框架社區(qū)中應(yīng)該有代表性項(xiàng)目并長(zhǎng)期支持基于該框架的項(xiàng)

目和應(yīng)用。

(三)AI框架重要性愈加突顯

AI框架承上啟下,是整個(gè)人工智能技術(shù)體系的核心。從技術(shù)體

系中的功能定位看,AI框架對(duì)下調(diào)用底層硬件計(jì)算資源,能夠屏蔽

底層差異并提供良好的執(zhí)行性能,對(duì)上支撐AI應(yīng)用算法模型搭建,

提供算法工程化實(shí)現(xiàn)的標(biāo)準(zhǔn)環(huán)境,是AI技術(shù)體系的關(guān)鍵核心。除

完成AI算法的工程實(shí)現(xiàn)外,AI框架還能極大提高人工智能學(xué)習(xí)效

率、強(qiáng)化AI算法模型能力,如基于TensorFlow的AlphaGo在極短

時(shí)間內(nèi)學(xué)習(xí)到戰(zhàn)勝前任AlphaGo的技能。

AI框架是應(yīng)對(duì)智能經(jīng)濟(jì)時(shí)代的技術(shù)利器。大規(guī)模并行計(jì)算及智

能應(yīng)用是未來智能經(jīng)濟(jì)時(shí)代的主要特點(diǎn)。當(dāng)前硬件計(jì)算以CPU為代

表,軟件棧主要針對(duì)串行指令進(jìn)行優(yōu)化。由于人工智能算法涉及大

量的矩陣計(jì)算和并行數(shù)值計(jì)算,面向智能經(jīng)濟(jì)時(shí)代的硬件計(jì)算已經(jīng)

顯示出從串行遷移到并行計(jì)算的趨勢(shì),未來可能以GPU為代表,軟

件棧主要針對(duì)大規(guī)模并行計(jì)算進(jìn)行優(yōu)化,這其中AI框架將成為大

13

中國AI框架發(fā)展白皮書(2022年)

規(guī)模并行計(jì)算的關(guān)鍵調(diào)度者。此外,人工智能模型將主導(dǎo)智能經(jīng)濟(jì)

時(shí)代各行各業(yè)細(xì)分場(chǎng)景,智能應(yīng)用將呈現(xiàn)規(guī)?;⑸疃然忍攸c(diǎn),

而AI框架就是智能應(yīng)用快速落地的關(guān)鍵支撐者。

AI框架將成為智能經(jīng)濟(jì)時(shí)代的操作系統(tǒng)。當(dāng)前互聯(lián)網(wǎng)時(shí)代,操

作系統(tǒng)是IT業(yè)的核心樞紐點(diǎn),建立硬件和應(yīng)用軟件之間的聯(lián)系,左

右著數(shù)字設(shè)備的整個(gè)生態(tài),通過與通用計(jì)算芯片的深度綁定,形成

Windows+Intel、Android/iOS+ARM兩大穩(wěn)定的技術(shù)體系格局。智能

經(jīng)濟(jì)時(shí)代,AI框架承擔(dān)著AI技術(shù)生態(tài)中操作系統(tǒng)的角色,是AI

學(xué)術(shù)創(chuàng)新與產(chǎn)業(yè)商業(yè)化的重要載體,助力人工智能由理論走入實(shí)踐,

快速進(jìn)入場(chǎng)景化應(yīng)用時(shí)代??傮w來說,“AI框架+算力芯片”的組合

在一定程度上決定了人工智能產(chǎn)業(yè)應(yīng)用的主體技術(shù)路線,其研發(fā)能

夠促進(jìn)生態(tài)圈關(guān)聯(lián)及外圍的芯片、系統(tǒng)、軟硬件平臺(tái)等產(chǎn)業(yè)發(fā)展,

從而促進(jìn)人工智能核心生態(tài)圈的建設(shè)。隨著價(jià)值不斷凸顯,AI框架

已經(jīng)成為了人工智能產(chǎn)業(yè)創(chuàng)新的焦點(diǎn)之一,引起了學(xué)術(shù)界、產(chǎn)業(yè)界

的重視。

二、全球AI框架繁榮發(fā)展,多元化競(jìng)合態(tài)勢(shì)漸顯

(一)供給主體方面,企校貢獻(xiàn)最活躍

科技企業(yè)與頂尖高校對(duì)AI框架的發(fā)展成熟貢獻(xiàn)最為活躍。數(shù)

字科技企業(yè)巨頭與頂尖高校是AI框架發(fā)展壯大的主體維護(hù)力量,

打造技術(shù)產(chǎn)業(yè)生態(tài)、營(yíng)造學(xué)術(shù)創(chuàng)新氛圍,是兩大主體的源動(dòng)力。個(gè)

14

AI框架發(fā)展白皮書(2022年)

人及開源組織也扮演著重要的角色,是AI框架創(chuàng)新性、公益性的

重要體現(xiàn)。

數(shù)字科技企業(yè)巨頭是AI框架發(fā)展壯大的核心力量。自身AI業(yè)

務(wù)場(chǎng)景需求激發(fā)AI框架的應(yīng)用,并實(shí)現(xiàn)AI框架的驗(yàn)證完善。國際

知名數(shù)字科技巨頭主導(dǎo)開源AI框架技術(shù)生態(tài),我國數(shù)字科技企業(yè)

近年來也積極布局并不斷創(chuàng)新。Google、Meta、Microsoft、Amazon

等國外數(shù)字科技企業(yè)巨頭在基礎(chǔ)算法框架研發(fā)方面具有先發(fā)優(yōu)勢(shì),

依托自身AI業(yè)務(wù)場(chǎng)景以及龐大的數(shù)據(jù)資源,能夠?qū)λ惴蚣苓M(jìn)行

有效試驗(yàn)驗(yàn)證及功能完善。在此基礎(chǔ)之上,數(shù)字科技企業(yè)巨頭將原

本服務(wù)于內(nèi)部業(yè)務(wù)場(chǎng)景的AI框架進(jìn)行開源,為產(chǎn)業(yè)鏈下游合作伙

伴提供底層AI核心能力,滿足工業(yè)級(jí)應(yīng)用需求,逐步完善整體生

態(tài),實(shí)現(xiàn)合作共贏。國內(nèi)數(shù)字科技巨頭紛紛布局推出AI框架,立

足滿足自身的AI應(yīng)用需求外,也對(duì)外拓展服務(wù),如華為MindSpore、

百度PaddlePaddle、騰訊TNN、阿里MNN、字節(jié)跳動(dòng)BytePS以及

小米Mace等。

高校及科研院所是最早啟動(dòng)AI框架研發(fā)的主導(dǎo)力量之一,并

持續(xù)發(fā)揮著積極作用。高校及科研院所擁有強(qiáng)大的人才資源,基于

實(shí)驗(yàn)室科研創(chuàng)新需求對(duì)AI框架開展基礎(chǔ)性理論研究工作,布局整

體早于數(shù)字科技企業(yè),更易實(shí)現(xiàn)革命性突破創(chuàng)新。高校最早推出的

Theano、Caffe等開源框架能夠滿足學(xué)術(shù)研究需求,并對(duì)AI框架的

整體發(fā)展起到巨大推動(dòng)作用,但在大規(guī)模分布式計(jì)算等場(chǎng)景下的性

15

中國AI框架發(fā)展白皮書(2022年)

能不及企業(yè)推出的AI框架。隨后,高校通過更換維護(hù)主體以持續(xù)

釋放作用價(jià)值。例如,MXNet框架發(fā)起于卡內(nèi)基梅隆大學(xué),后捐贈(zèng)

給Apache基金會(huì),現(xiàn)成為AmazonAWS最主要的AI框架。我國高

校日漸重視AI框架研發(fā),如清華大學(xué)已陸續(xù)開發(fā)出開源框架計(jì)圖

Jittor、貝葉斯深度學(xué)習(xí)算法框架“珠算”等。

(二)開源生態(tài)方面,全球進(jìn)入活躍期

開源本質(zhì)上是一種人才、智慧的聚合,能夠助推AI框架快速

升級(jí)。茁壯的開源生態(tài)對(duì)于AI框架的發(fā)展至關(guān)重要。開發(fā)者通過

在開源社區(qū)進(jìn)行代碼開源、項(xiàng)目托管、協(xié)作分享、溝通交流等一系

列活動(dòng),實(shí)現(xiàn)與開源AI框架的緊密互動(dòng)。開源社區(qū)是AI框架開發(fā)

者必不可少的學(xué)習(xí)與交流環(huán)境,可以說開源社區(qū)在推動(dòng)AI框架發(fā)

展的過程中起著巨大的作用。開源社區(qū)的相關(guān)指標(biāo),也體現(xiàn)著AI

框架在整個(gè)行業(yè)內(nèi)的發(fā)展情況。對(duì)AI框架來說,國外最知名社區(qū)

是Microsoft收購的開源代碼托管平臺(tái)Github,國內(nèi)知名社區(qū)是由

OSCHINA.NET推出的代碼托管平臺(tái)Gitee(碼云)。

表1Github社區(qū)中主流AI框架情況(2022.1)

RankFrameworkCommits1Fork2Star3Contributors4

ForeignFramework

1TensorFlow124494863001630003056

1Commits代表開源代碼提交的次數(shù),表征開源項(xiàng)目活躍度.

2Fork代表代碼復(fù)刻、分叉,表征開源項(xiàng)目被引用情況.

3Star代表點(diǎn)贊數(shù),表征開源項(xiàng)目關(guān)注度.

4Contributors代表貢獻(xiàn)者,表征開源項(xiàng)目貢獻(xiàn)者規(guī)模.

16

AI框架發(fā)展白皮書(2022年)

RankFrameworkCommits1Fork2Star3Contributors4

2PyTorch4339014800537002137

Theano

32812725009500352

(StopDeveloping)

CNTK

416116440017100201

(StopDeveloping)

5MXNet11776690019800868

DomesticFramework

1MindSpore373085142700267

2PaddlePaddle33753430017500524

3MegEngine2282462410032

4OneFlow7621351300099

5Jittor1266235230031

來源:根據(jù)Github社區(qū)數(shù)據(jù)整理

Github作為業(yè)內(nèi)認(rèn)可度最高的開源社區(qū),也是AI框架開發(fā)者

最關(guān)注的代碼托管平臺(tái)。從Github指標(biāo)看,國外AI框架方面,

TensorFlow的各項(xiàng)指標(biāo)均高居榜首,并遠(yuǎn)超第二名,是全球目前活

躍度最高、應(yīng)用最廣的AI框架。近年來在學(xué)術(shù)領(lǐng)域表現(xiàn)亮眼的后

起之秀PyTorch緊隨其后,雖在頂會(huì)占據(jù)了主流地位,但與

TensorFlow相比仍略遜一籌。MXNet表現(xiàn)也較為亮眼,但與前兩者

不在同一量級(jí)。我國主體推出的AI框架方面,MindSpore是目前活

躍度最高的AI框架,在貢獻(xiàn)者方面也已集聚了一定規(guī)模使用群體。

百度PaddlePaddle開源時(shí)間較早,在關(guān)注度方面較其他框架有一定

優(yōu)勢(shì)。其余框架中,OneFlow的活躍度與貢獻(xiàn)者規(guī)模處于領(lǐng)先位置。

17

中國AI框架發(fā)展白皮書(2022年)

表2Gitee社區(qū)中主流AI框架情況(2022.1)

RankFrameworkCommitsForkStarContributors

1MindSpore3854924006100774

2PaddlePaddle327881953600561

3OneFlow752121126

4MegEngine(鏡像)228061635

5Jittor123931134

來源:根據(jù)Gitee社區(qū)數(shù)據(jù)整理

國內(nèi)最大的開源代碼托管平臺(tái)Gitee目前主要是我國企業(yè)所主

導(dǎo)AI框架進(jìn)行發(fā)布交流的平臺(tái)。國內(nèi)知名的框架除曠視MegEngine

尚未在社區(qū)上發(fā)布外,其他框架均有所布局,也吸引了國內(nèi)的開發(fā)

群體。其中,MindSpore在Gitee中的各項(xiàng)指標(biāo)都遠(yuǎn)超其他AI框架,

是國內(nèi)社區(qū)中最活躍、關(guān)注度最高、被應(yīng)用最多的框架,處在我國

開源生態(tài)的引領(lǐng)者地位。

(三)市場(chǎng)格局方面,雙寡頭持續(xù)引領(lǐng)

全球來看,國際主流AI框架由Google、Meta等科技巨頭主導(dǎo)。

目前以Google、Meta、Amazon、Microsoft等代表的互聯(lián)網(wǎng)科技巨

頭,憑借自身的數(shù)據(jù)、技術(shù)和資本等優(yōu)勢(shì),持續(xù)在AI框架生態(tài)領(lǐng)

域發(fā)力,引領(lǐng)全球AI框架技術(shù)創(chuàng)新升級(jí)趨勢(shì),并逐步形成了以

Google-TensorFlow和Meta-PyTorch為代表的雙寡頭格局。從市場(chǎng)

占有情況看,產(chǎn)業(yè)界以TensorFlow為主,學(xué)術(shù)界以PyTorch為主。

Github中Star數(shù)表征開源項(xiàng)目流行度,是開源項(xiàng)目在產(chǎn)業(yè)界中市場(chǎng)

18

AI框架發(fā)展白皮書(2022年)

份額的生動(dòng)體現(xiàn),據(jù)表1數(shù)據(jù)顯示,TensorFlowStar數(shù)達(dá)到163000,

遠(yuǎn)高于排名第二的PyTorch(53700),且Google于2019年推出

TensorFlowEnterprise,為大型企業(yè)提供TensorFlow的優(yōu)化版本以及

長(zhǎng)期的技術(shù)支持,并與GoogleCloud服務(wù)深度集成,持續(xù)鞏固

TensorFlow在產(chǎn)業(yè)界的領(lǐng)先地位。據(jù)PapersWithCode數(shù)據(jù)5顯示,

2021全年基于PyTorch的論文數(shù)量在所有基于AI框架的論文中占

比高達(dá)58.56%,遠(yuǎn)高于排名第二的TensorFlow(12.38%),PyTorch

在學(xué)術(shù)界的領(lǐng)先優(yōu)勢(shì)在持續(xù)加強(qiáng)。

國內(nèi)來看,雙寡頭并驅(qū)態(tài)勢(shì)下AI框架市場(chǎng)格局向著多元發(fā)展。

我國在AI應(yīng)用方面優(yōu)勢(shì)顯著,相當(dāng)規(guī)模的AI應(yīng)用均構(gòu)筑在國際主

流AI框架之上,從底層開源代碼貢獻(xiàn)、底層硬件適配,到中間算

子研發(fā)迭代、模型庫完善,以及上層算法模型構(gòu)建,雙寡頭持續(xù)為

國內(nèi)AI應(yīng)用生態(tài)輸出能力。不僅如此,近兩年國內(nèi)廠商推出的AI

框架市場(chǎng)占有率也正穩(wěn)步提升。MindSpore框架開源后獲得國內(nèi)外

開發(fā)者的積極響應(yīng),在Gitee千萬個(gè)開源項(xiàng)目中綜合排名第一,成

為國內(nèi)最活躍的AI開源框架。百度飛槳PaddlePaddle開發(fā)者規(guī)模也

在持續(xù)壯大,從IDC2021年調(diào)研的350份中小企業(yè)開發(fā)者樣本數(shù)據(jù)

顯示,飛槳開發(fā)者認(rèn)知度占比已超20%。

5/trends.

19

中國AI框架發(fā)展白皮書(2022年)

(四)支撐應(yīng)用方面,科研與產(chǎn)業(yè)齊驅(qū)

1.AI框架賦能學(xué)術(shù)科研

AI與超級(jí)計(jì)算機(jī)的結(jié)合,使科研領(lǐng)域的計(jì)算能力普遍提升到一

個(gè)新的高度。2021年世界排名前500的超級(jí)計(jì)算機(jī)中,68.4%采用

了AI技術(shù)進(jìn)行了加速。美國橡樹嶺國家實(shí)驗(yàn)室利用TensorFlow在

Summit超級(jí)計(jì)算機(jī)上訓(xùn)練了1.1EFLOP/s的極端天氣預(yù)報(bào)模型,用

來模擬預(yù)測(cè)氣候變遷會(huì)產(chǎn)生的極端天氣,提升了氣象研究的精準(zhǔn)度

和可能性。美國勞倫斯伯克利國家實(shí)驗(yàn)室在基于CPU的高性能計(jì)算

平臺(tái)上,使用TensorFlow框架開發(fā)了大型科學(xué)應(yīng)用程序CosmoFlow,

利用機(jī)器學(xué)習(xí)插件前所未有的將TensorFlow框架擴(kuò)展到8000多個(gè)

節(jié)點(diǎn),以這種規(guī)模處理三維空間數(shù)據(jù)卷,主要應(yīng)用在暗物質(zhì)N體模

擬實(shí)驗(yàn)中,為科學(xué)家提供了一個(gè)全新的平臺(tái)來加深對(duì)宇宙的了解。

TensorFlow被廣泛應(yīng)用于學(xué)術(shù)科研領(lǐng)域。美國航空航天局使用

TensorFlow對(duì)開普勒任務(wù)中積累的大量數(shù)據(jù)進(jìn)行分析,由于機(jī)器學(xué)

習(xí)能夠比人類更高效地搜索更廣范圍的信號(hào),發(fā)現(xiàn)了一直以來忽視

的開普勒-90i行星,這一發(fā)現(xiàn)使開普勒-90星系成為了目前所知除太

陽系外唯一八顆行星繞一顆恒星運(yùn)行的星系,取得了天體物理學(xué)領(lǐng)

域的一項(xiàng)重大突破。賓夕法尼亞大學(xué)研究利用TensorFlow解決農(nóng)業(yè)

病蟲害問題,通過注釋大量木薯植株圖像來識(shí)別和分類疾病,目前

在坦桑尼亞部分地區(qū)試驗(yàn)應(yīng)用,農(nóng)民們可以通過在木薯葉子前揮動(dòng)

手機(jī),快速實(shí)現(xiàn)病株識(shí)別,并給出最佳的方式來進(jìn)行管理。雨林保

20

AI框架發(fā)展白皮書(2022年)

護(hù)組織RainforestConnection基于TensorFlow開發(fā)了世界上首款可

自動(dòng)識(shí)別盜伐行為的可擴(kuò)展、實(shí)時(shí)監(jiān)控報(bào)警的熱帶雨林環(huán)保系統(tǒng),

在亞馬遜雨林試驗(yàn)應(yīng)用,通過當(dāng)?shù)氐氖謾C(jī)蜂窩網(wǎng)絡(luò)向中央云計(jì)算服

務(wù)器發(fā)送聲音采樣,依托TensorFlow來分析和審計(jì)數(shù)據(jù),從中甄別

電鋸、木運(yùn)卡車等與非法砍伐相關(guān)的聲音,以防止人工監(jiān)聽遺漏。

我國框架作為后起之秀在學(xué)術(shù)科研領(lǐng)域已經(jīng)嶄露頭角?;?/p>

MindSpore的鵬程.盤古作為全球首個(gè)發(fā)布的千億級(jí)預(yù)訓(xùn)練中文大模

型,模型規(guī)模高達(dá)2000億參數(shù),MindSpore采用全自動(dòng)并行訓(xùn)練方

式支撐鵬程.盤古大模型在4096張NPU芯片上高效訓(xùn)練。紫東.太初

是基于MindSpore框架構(gòu)建的全球首個(gè)圖文音三模態(tài)、千億級(jí)參數(shù)

預(yù)訓(xùn)練大模型,具備跨模態(tài)理解與跨模態(tài)生成能力。武漢大學(xué)運(yùn)用

MindSpore打造了全球首個(gè)專用深度學(xué)習(xí)遙感框架武漢.LuojiaNet,

實(shí)現(xiàn)大規(guī)模衛(wèi)星遙感影像的智能遙感解譯。PaddlePaddle聯(lián)合鵬城

實(shí)驗(yàn)室發(fā)布了鵬城-百度·文心,模型參數(shù)規(guī)模達(dá)到2600億,是目前

全球最大中文單體模型,在機(jī)器閱讀理解、文本分類、語義相似度

計(jì)算等60多項(xiàng)任務(wù)取得最好效果。此外,百度基于PaddlePaddle

研發(fā)推出量子機(jī)器學(xué)習(xí)工具集量槳(PaddleQuantum),建立起了

人工智能與量子計(jì)算之間的橋梁,可以快速實(shí)現(xiàn)量子神經(jīng)網(wǎng)絡(luò)的搭

建與訓(xùn)練,同時(shí)還提供多項(xiàng)前沿量子應(yīng)用。

2.AI框架賦能產(chǎn)業(yè)應(yīng)用

21

中國AI框架發(fā)展白皮書(2022年)

空客公司使用TensorFlow開發(fā)的模型進(jìn)行異常監(jiān)測(cè),保障空間

站運(yùn)行安全。空客公司為哥倫布實(shí)驗(yàn)艙的運(yùn)行及其在國際空間站上

的有效載荷提供多項(xiàng)服務(wù),哥倫布實(shí)驗(yàn)艙是歐洲航天局最大的國際

空間站項(xiàng)目,裝備有多種實(shí)驗(yàn)設(shè)備,能開展細(xì)胞生物學(xué)、外空生物

學(xué)、流體和材料科學(xué)、人類生理學(xué)、天文學(xué)和基礎(chǔ)物理學(xué)等多方面

的實(shí)驗(yàn),由多個(gè)組件組成,能夠產(chǎn)生約17000個(gè)獨(dú)特的遙測(cè)參數(shù)。

空客使用TensorFlow開發(fā)的模型在數(shù)據(jù)流監(jiān)控過程中進(jìn)行異常檢

測(cè),并實(shí)現(xiàn)實(shí)時(shí)報(bào)告,大大的簡(jiǎn)化了異常原因分析過程并縮短了解

決時(shí)間。

生物制藥龍頭Celgene公司借助MXNet促進(jìn)藥品研究和發(fā)明。

Celgene是一家從事免疫醫(yī)療的制藥企業(yè),通過訓(xùn)練神經(jīng)網(wǎng)絡(luò)識(shí)別

和決策帶有標(biāo)記細(xì)胞的顯微鏡圖像,解決了使用經(jīng)典的圖像分析方

法難以大規(guī)模識(shí)別和區(qū)分正常細(xì)胞和腫瘤細(xì)胞的問題。MXNet框架

對(duì)于毒理學(xué)預(yù)測(cè)尤其重要,可以無需活體患者承擔(dān)風(fēng)險(xiǎn),虛擬分析

潛在藥物的生物學(xué)影響。

PyTorch幫助采礦企業(yè)Datarock進(jìn)行基于深度學(xué)習(xí)的巖心鉆探。

Datarock通過深度學(xué)習(xí)模型幫助地質(zhì)學(xué)家更快地分析鉆芯樣品圖像。

傳統(tǒng)模式下地質(zhì)學(xué)家會(huì)一厘米一厘米地仔細(xì)研究這些樣本,以評(píng)估

礦物學(xué)和結(jié)構(gòu),工程師則會(huì)尋找諸如斷層、裂縫和巖石質(zhì)量等物理

特征,這個(gè)過程既緩慢又容易出現(xiàn)人為錯(cuò)誤。使用Datarock的技術(shù),

22

AI框架發(fā)展白皮書(2022年)

可以將手動(dòng)記錄耗費(fèi)的5-6小時(shí)縮短在半小時(shí)內(nèi),使地質(zhì)學(xué)家從繁

重的基礎(chǔ)工作中解放出來。

MindSpore在行業(yè)賦能方面成績(jī)斐然,擁有300多個(gè)SOTA模

型,超過4000個(gè)開源生態(tài)社區(qū)貢獻(xiàn)者,支持超過5000個(gè)在線AI

應(yīng)用,廣泛應(yīng)用于工業(yè)制造、金融、能源電力、交通、醫(yī)療等行業(yè)。

MindSpore賦能工業(yè)制造,通過AI技術(shù)助力降低重復(fù)勞動(dòng),華為松

山湖南方工廠通過引入MindSpore及AI質(zhì)檢算法,將印制電路板

的缺陷檢測(cè)精度由90%提升至99.9%,并將質(zhì)檢人員的工作效率提

升了3倍?;贛indSpore的金融解決方案在深圳、上海等地銀行

網(wǎng)點(diǎn)運(yùn)行效果顯著,有效提升潛在客戶轉(zhuǎn)化率,同時(shí)利用OCR識(shí)

別技術(shù)和生物識(shí)別技術(shù),實(shí)現(xiàn)企業(yè)年報(bào)、合同、保單、發(fā)票等各類

文檔及工單文本電子化,迅速提升工作效率?;贛indSpore的智

能輸電線路巡檢方案對(duì)輸電線路的設(shè)備和周界情況進(jìn)行前端監(jiān)控,

并分析異常問題及時(shí)報(bào)警,南方電網(wǎng)、深圳供電局更是開辟了“以系

統(tǒng)智能分析為主、人工判斷輔”的嶄新模式,使原來需要20天才能

完成的現(xiàn)場(chǎng)巡視工作,輸電監(jiān)控指揮中心現(xiàn)在僅需2小時(shí)就可完成,

巡檢效率提高了近80倍。除此之外,基于MindSpore孵化的紫東.

太初、武漢.Luojia已從學(xué)術(shù)科研向產(chǎn)業(yè)應(yīng)用轉(zhuǎn)化,支撐央視、愛奇

藝、新華社技術(shù)局、航天宏圖等企業(yè)開展創(chuàng)新應(yīng)用。

PaddlePaddle服務(wù)企業(yè)遍布能源、金融、工業(yè)、醫(yī)療、農(nóng)業(yè)等

多個(gè)行業(yè),助力千行萬業(yè)智能化升級(jí)。PaddlePaddle賦能人民日?qǐng)?bào)

23

中國AI框架發(fā)展白皮書(2022年)

“創(chuàng)作大腦”,覆蓋了全媒體策劃、采集、編輯、傳播效果分析等各

環(huán)節(jié)和業(yè)務(wù)場(chǎng)景,可以大幅提高新聞產(chǎn)品的生產(chǎn)效率,能夠進(jìn)行視

頻直播關(guān)鍵人物、語句識(shí)別、全網(wǎng)熱點(diǎn)數(shù)據(jù)自定義監(jiān)測(cè)預(yù)警、批量

生成可視化大數(shù)據(jù)報(bào)告等多種智能化生產(chǎn)。連心醫(yī)療基于

PaddlePaddle平臺(tái)開發(fā)上線“基于CT影像的肺炎篩查與病情預(yù)評(píng)估

AI系統(tǒng)”,已首先在湖南郴州湘南學(xué)院附屬醫(yī)院投入使用,可快速

檢測(cè)識(shí)別肺炎病灶,為病情診斷提供病灶的數(shù)量、體積、肺部占比

等定量評(píng)估信息,同時(shí)輔以雙肺密度分布的直方圖和病灶勾畫疊加

顯示等可視化手段,為臨床醫(yī)生篩查和預(yù)診斷患者肺炎病情提供定

性和定量依據(jù),提升醫(yī)生診斷和評(píng)估效率。

曠視MegEngine充分發(fā)揮視覺領(lǐng)域優(yōu)勢(shì),實(shí)現(xiàn)行業(yè)賦能。曠視

為某攝像頭模組企業(yè)提供的智能質(zhì)檢解決方案實(shí)現(xiàn)了產(chǎn)品的在線實(shí)

時(shí)檢測(cè),基于Brain++平臺(tái)的私有化部署版本MegOne,能夠?qū)崟r(shí)發(fā)

現(xiàn)產(chǎn)品劃傷、折痕、油污、破損等缺陷,缺陷檢測(cè)率同比提高90%,

降低85%以上人工成本,整體維護(hù)成本降低10%。曠視推出供應(yīng)鏈

操作系統(tǒng)——河圖,在電商倉庫中協(xié)同500臺(tái)機(jī)器人并發(fā)工作,將

倉庫效率提升了40%。曠視為華潤(rùn)電力部署了園區(qū)安全管理系統(tǒng),

利用人臉識(shí)別、物體檢測(cè)等計(jì)算機(jī)視覺算法,對(duì)變電設(shè)備周邊等危

險(xiǎn)區(qū)域?qū)崿F(xiàn)了7*24小時(shí)警戒,顯著提升了安全管理水平。

一流科技OneFlow充分發(fā)揮分布式可擴(kuò)展性能優(yōu)勢(shì),已服務(wù)科

研、政務(wù)、軍工、金融等諸多行業(yè)客戶。一流科技基于OneFlow框

24

AI框架發(fā)展白皮書(2022年)

架,集成大數(shù)據(jù)、云計(jì)算等組件,提供商業(yè)化產(chǎn)品OF智能云,包

括人工智能開發(fā)平臺(tái)OneBrain、強(qiáng)化學(xué)習(xí)解決方案OneAgent及AI

實(shí)訓(xùn)及編程平臺(tái)OneLab。其中OneBrain助力中關(guān)村智用研究院打

造一站式人工智能開發(fā)平臺(tái),提供多種混合算力解決方案,支持資

源按需擴(kuò)容,該項(xiàng)目交付智用投入使用后,經(jīng)計(jì)算,其系統(tǒng)算力率

可提升30%,模型訓(xùn)練時(shí)間相較傳統(tǒng)方式節(jié)省80%,整體解決了智

用復(fù)雜業(yè)務(wù)場(chǎng)景、高算力要求和邊界靈活延展要求。

(五)推廣途徑方面,三條路齊發(fā)并進(jìn)

致力于社區(qū)生態(tài)的壯大與優(yōu)化,吸引更多學(xué)術(shù)界與產(chǎn)業(yè)界開發(fā)

者。主流AI框架通過繁榮開源社區(qū)生態(tài),打造忠實(shí)的貢獻(xiàn)者團(tuán)隊(duì),

從而吸引更多開發(fā)者參與生態(tài)構(gòu)建。GoogleTensorFlow團(tuán)隊(duì)基于

GitHub開源,并逐步吸引早期開發(fā)者向貢獻(xiàn)者轉(zhuǎn)變。圍繞

TensorFlow開源社區(qū),貢獻(xiàn)者除了貢獻(xiàn)TensorFlow高階API代碼

外,還積極參與TensorFlow社區(qū)的管理、貢獻(xiàn)TensorFlow延伸出

來的開源項(xiàng)目以及傳播知識(shí)和分享經(jīng)驗(yàn)。華為推出MindSpore開發(fā)

者扶植計(jì)劃,為開發(fā)者提供優(yōu)惠的云服務(wù)資源和相關(guān)的知識(shí)賦能培

訓(xùn)資源,幫助個(gè)人開發(fā)者學(xué)習(xí)和構(gòu)建基于MindSpore的技術(shù)能力,

以獲得持續(xù)職業(yè)發(fā)展。百度攜手社區(qū)開發(fā)者共建生態(tài),成立飛槳城

市/高校領(lǐng)航團(tuán)150個(gè)、飛槳特別興趣小組12個(gè),目前全國范圍內(nèi)

已有132個(gè)城市和高校自組織社區(qū)在主動(dòng)自發(fā)舉辦飛槳社區(qū)活動(dòng)。

25

中國AI框架發(fā)展白皮書(2022年)

與高校科研院所聯(lián)動(dòng),拓展高校學(xué)術(shù)科研開發(fā)者規(guī)模以及學(xué)術(shù)

科研應(yīng)用。高校的人才培養(yǎng)和開發(fā)者的發(fā)展已成為整個(gè)AI框架生

態(tài)的重要組成部分,當(dāng)前國內(nèi)主流AI框架積極融入高校教學(xué)體系。

華為與教育部聯(lián)合啟動(dòng)建設(shè)“智能基座”產(chǎn)教融合協(xié)同育人基地,目

前MindSpore課程已經(jīng)在100多所高校開設(shè),并積極開展計(jì)算機(jī)系

統(tǒng)能力提升高級(jí)研修班,培養(yǎng)AI先鋒教師。百度支持教育部產(chǎn)學(xué)

合作協(xié)同育人項(xiàng)目,截至目前,PaddlePaddle已累計(jì)培訓(xùn)了3000多

位高校教師,并且參與編寫了一系列人工智能教材。此外,主流AI

框架也選擇通過設(shè)立創(chuàng)新基金激勵(lì)框架的創(chuàng)新應(yīng)用。華為于2020

年與中國人工智能學(xué)會(huì)共同發(fā)起《中國人工智能學(xué)會(huì)-華為

MindSpore學(xué)術(shù)獎(jiǎng)勵(lì)基金》,旨在激勵(lì)原創(chuàng)性科學(xué)研究開展,構(gòu)建

中國人工智能科學(xué)研究的全球影響力,累計(jì)已投入1600萬資金,支

持120多個(gè)項(xiàng)目,據(jù)PapersWithCode數(shù)據(jù)顯示,2021年10月統(tǒng)

計(jì)基于MindSpore的論文數(shù)量在所有基于AI框架的論文中占比10%

(當(dāng)月排名第2),成效顯著。百度于2020年與中國計(jì)算機(jī)學(xué)會(huì)聯(lián)

合成立了“CCF-百度松果基金”,旨在為青年學(xué)者提供經(jīng)費(fèi)、平臺(tái)、

數(shù)據(jù)、技術(shù)支持等服務(wù),推動(dòng)AI框架在科研領(lǐng)域的應(yīng)用。

面向產(chǎn)業(yè)應(yīng)用提供基礎(chǔ)設(shè)施及解決方案服務(wù),不斷吸納下游合

作伙伴。圍繞產(chǎn)業(yè)應(yīng)用,AI框架有三種層次的賦能路徑。首先是將

AI框架融入算力基礎(chǔ)設(shè)施,提供AI能力服務(wù),如各地政府在建的

和已上線運(yùn)營(yíng)的人工智能計(jì)算中心,重點(diǎn)依托我國AI框架構(gòu)建底

26

AI框架發(fā)展白皮書(2022年)

層AI開發(fā)能力,其中MindSpore成為主要選擇。其次是打造軟硬

一體化方案,將AI框架作為打通底層算力硬件與上層應(yīng)用的通道,

如PaddlePaddle積極與硬件廠商合作,完成適配或正在適配的芯片

與IP型號(hào)31種,進(jìn)一步促進(jìn)軟硬件聯(lián)合優(yōu)化、協(xié)同發(fā)展;之江實(shí)

驗(yàn)室天樞人工智能開源平臺(tái),以O(shè)neFlow框架為核心,上承算法應(yīng)

用,下接底層硬件。另外,還可依托AI框架打造面向具體行業(yè)的

應(yīng)用平臺(tái),如華為聯(lián)合合作伙伴基于MindSpore推出“昇騰智造”、

“昇騰智城”、“昇騰智行”、“昇騰智巡”四大行業(yè)解決方案。

三、應(yīng)對(duì)未來多樣化挑戰(zhàn),AI框架有六大技術(shù)趨勢(shì)

(一)泛開發(fā):AI框架將注重前端便捷性與后端高效性

的統(tǒng)一

AI框架需要提供更全面的API體系以及前端語言支持轉(zhuǎn)換能

力,從而提升前端開發(fā)便捷性。AI框架需要能為開發(fā)者提供完備度

高、性能優(yōu)異、易于理解和使用的API體系,TensorFlow、JAX等

相關(guān)開源項(xiàng)目成員組織的ConsortiumforPythonDataAPIStandards

已經(jīng)在啟動(dòng)構(gòu)建相應(yīng)的標(biāo)準(zhǔn)。目前PaddlePaddle已經(jīng)初步形成較完

備的API體系。同時(shí),AI框架在產(chǎn)業(yè)落地應(yīng)用時(shí),需要能夠與產(chǎn)業(yè)

級(jí)開發(fā)語言(C++、C#、Java、Go等)無縫銜接,也需要提供配套

的編程接口與功能支持。從開發(fā)語言來看,眾多已有的開發(fā)框架主

要以Python語言的支持為主,Julia、SwiftforTensorFlow及倉頡等

新的編程語言正嘗試在AI框架領(lǐng)域構(gòu)建Python之外的語言生態(tài),

27

中國AI框架發(fā)展白皮書(2022年)

從目前看,盡管Julia(科學(xué)計(jì)算)和Swift(工業(yè)級(jí)開發(fā)應(yīng)用)都

有些特色,但是短期內(nèi)還很難撼動(dòng)Python在AI框架領(lǐng)域的地位。

AI框架需要提供更為優(yōu)質(zhì)的動(dòng)靜態(tài)圖轉(zhuǎn)換能力,從而提升后端

運(yùn)行高效性。從開發(fā)者使用AI框架來實(shí)現(xiàn)模型訓(xùn)練和推理部署的

角度看,AI框架需要能夠通過動(dòng)態(tài)圖的編程范式,來完成在模型訓(xùn)

練的開發(fā)階段的靈活易用的開發(fā)體驗(yàn),以提升模型的開發(fā)效率;通

過靜態(tài)圖的方式來實(shí)現(xiàn)模型部署時(shí)的高性能運(yùn)行;同時(shí),通過動(dòng)態(tài)

圖轉(zhuǎn)靜態(tài)圖的方式,來實(shí)現(xiàn)方便的部署和性能優(yōu)化。目前,國際主

流基本均已經(jīng)實(shí)現(xiàn)動(dòng)態(tài)圖開發(fā)、靜態(tài)圖部署的編程范式,具備動(dòng)靜

態(tài)圖轉(zhuǎn)換的能力,不過基于開發(fā)效率考慮,動(dòng)態(tài)圖與靜態(tài)圖的轉(zhuǎn)換

與統(tǒng)一需要持續(xù)迭代優(yōu)化。

(二)全場(chǎng)景:AI框架將支持端邊云全場(chǎng)景跨平臺(tái)設(shè)備

部署

AI模型需要適配部署到端邊云全場(chǎng)景設(shè)備,對(duì)AI框架提出了

多樣化、復(fù)雜化、碎片化的挑戰(zhàn)。隨著云服務(wù)器、邊緣設(shè)備、終端

設(shè)備等人工智能硬件運(yùn)算設(shè)備的不斷涌現(xiàn),以及各類人工智能運(yùn)算

庫、中間表示工具以及編程框架的快速發(fā)展,人工智能軟硬件生態(tài)

呈現(xiàn)多樣化發(fā)展趨勢(shì)。但主流框架訓(xùn)練出來的模型卻不能通用,學(xué)

術(shù)科研項(xiàng)目間難以合作延伸,造成了AI框架的“碎片化”。目前業(yè)界

并沒有統(tǒng)一的中間表示層標(biāo)準(zhǔn),導(dǎo)致各硬件廠商解決方案存在一定

差異,以致應(yīng)用模型遷移不暢,增加了應(yīng)用部署難度。因此,基于

28

AI框架發(fā)展白皮書(2022年)

AI框架訓(xùn)練出來的模型進(jìn)行標(biāo)準(zhǔn)化互通將是未來的挑戰(zhàn)。

AI框架需要與硬件基礎(chǔ)設(shè)施平臺(tái)充分解耦,通過標(biāo)準(zhǔn)的硬件注

冊(cè)接口實(shí)現(xiàn)跨設(shè)備平臺(tái)的快速部署。隨著處理任務(wù)的復(fù)雜化、處理

數(shù)據(jù)的密集化,跨架構(gòu)的開發(fā)能力將會(huì)成為常態(tài)化的需求。AI框架

迫切需要開放一套可解耦的硬件注冊(cè)接口,支持硬件廠商無需觸碰

框架核心代碼即可完成適配,避免硬件廠商面對(duì)多種AI框架以及

不同框架版本的適配代碼進(jìn)行維護(hù)??山怦畹挠布?cè)接口,需包

括標(biāo)準(zhǔn)的硬件運(yùn)行態(tài)管理、算子抽象定義、性能優(yōu)化適配等接口,

使得AI框架和硬件平臺(tái)開發(fā)者遵從相同接口定義設(shè)備驅(qū)動(dòng)、運(yùn)行

時(shí)以及算子和計(jì)算圖等關(guān)鍵信息。除上述接口標(biāo)準(zhǔn)化外,還應(yīng)該對(duì)

模型的中間表示和算子進(jìn)行標(biāo)準(zhǔn)化,硬件廠商只需基于同一種模型

格式和同一套算子即可完成不同AI框架的適配,滿足端-邊-云不同

業(yè)務(wù)場(chǎng)景同步適配的業(yè)務(wù)需求。

(三)超大規(guī)模:AI框架將著力強(qiáng)化對(duì)超大規(guī)模AI的

支持

超大規(guī)模AI成為新的深度學(xué)習(xí)范式。OpenAI于2020年5月

發(fā)布GPT-3模型,包含1750億參數(shù),數(shù)據(jù)集(處理前)達(dá)到45T,

在多項(xiàng)NLP任務(wù)中超越了人類水平。這種通過超大規(guī)模的模型參數(shù)

及超大規(guī)模的數(shù)據(jù)集的AI大模型范式,實(shí)現(xiàn)了深度學(xué)習(xí)新的突破。

產(chǎn)業(yè)界和學(xué)術(shù)界看到這種新型范式的潛力后紛紛入局,繼OpenAI

后,華為基于MindSpore框架發(fā)布了盤古大模型、智源發(fā)布了悟道

29

中國AI框架發(fā)展白皮書(2022年)

模型、阿里發(fā)布了M6模型、百度發(fā)布了文心模型等。超大規(guī)模AI

正成為下一代人工智能的突破口,也是最有潛力的強(qiáng)人工智能技術(shù)。

超大規(guī)模AI需要大模型、大數(shù)據(jù)、大算力的三重支持,對(duì)AI

框架也提出了新的挑戰(zhàn),可總結(jié)為“五堵墻”。一是內(nèi)存墻,大模型

訓(xùn)練過程中需要存儲(chǔ)參數(shù)、激活、梯度、優(yōu)化器狀態(tài),鵬程.盤古一

個(gè)模型的訓(xùn)練就需要近4TB的內(nèi)存。二是算力墻,以鵬程.盤古2000

億參數(shù)量的大模型為例,需要3.6EFLOPS的算力支持,這要求必須

構(gòu)建大規(guī)模的異構(gòu)AI計(jì)算集群,才能滿足這樣的算力需求,同時(shí)

算力平臺(tái)要滿足智能調(diào)度,來提升算力資源的利用率。三是通信墻,

大模型并行切分到集群后,模型切片之間會(huì)產(chǎn)生大量通信,從而通

信就成了主要的瓶頸。四是調(diào)優(yōu)墻,在E級(jí)算力集群上訓(xùn)練一個(gè)千

億參數(shù)規(guī)模的,節(jié)點(diǎn)之間的通信關(guān)系非常復(fù)雜,要保證計(jì)算的正確

性、性能和可用性,手動(dòng)調(diào)試難以全面兼顧。五是部署墻,超大規(guī)

模AI面臨“大模型、小推理”的部署難題,需要對(duì)大模型進(jìn)行完美壓

縮以適應(yīng)推理側(cè)的部署需求。

AI框架將通過自動(dòng)混合并行、全局內(nèi)存管理、可視化調(diào)優(yōu)以及

分布式推理等核心技術(shù)支持超大規(guī)模AI發(fā)展。AI框架可通過多維

度自動(dòng)混合并行,支持?jǐn)?shù)據(jù)并行、模型并行、流水并行、優(yōu)化器并

行、子圖并行等多種維度的AI并行計(jì)算技術(shù),解決模型及集群的

橫向擴(kuò)展問題,支持超大規(guī)模模型切分到大集群高效訓(xùn)練,并實(shí)現(xiàn)

最優(yōu)的計(jì)算通信比,進(jìn)而提升算力的利用率。AI框架可通過全局內(nèi)

30

AI框架發(fā)展白皮書(2022年)

存管理及計(jì)算調(diào)度,實(shí)現(xiàn)CPU內(nèi)存、NPU內(nèi)存和NVMe三層存儲(chǔ)

的統(tǒng)一管理,從而提升單卡的縱向擴(kuò)展能力。超大規(guī)模AI的數(shù)據(jù)

集、網(wǎng)絡(luò)深度和寬度都非常大,AI框架需要通過張量分析、圖碼結(jié)

合等方式,快速定位出現(xiàn)精度異常的網(wǎng)絡(luò)結(jié)構(gòu)或者算子,提供方便

快捷的精度問題定位能力,并通過可視化的方式記錄并且分析開發(fā)

者的調(diào)優(yōu)路徑和AI模型的精度收斂趨勢(shì),向開發(fā)者推薦調(diào)優(yōu)策略,

加速調(diào)優(yōu)過程。此外,對(duì)于大模型的推理服務(wù),AI框架需要自動(dòng)從

分布式訓(xùn)練模式轉(zhuǎn)換成分布式推理模式,并實(shí)現(xiàn)服務(wù)化封裝,支持

快速上線大模型服務(wù)。

(四)科學(xué)計(jì)算:AI框架將進(jìn)一步與科學(xué)計(jì)算深度融合

交叉

傳統(tǒng)科學(xué)計(jì)算領(lǐng)域亟需AI技術(shù)加持融合??茖W(xué)計(jì)算一般以準(zhǔn)

確的數(shù)學(xué)模型為根基,以嚴(yán)謹(jǐn)?shù)挠?jì)算方法為手段,對(duì)應(yīng)用領(lǐng)域中氣

候氣象、能源材料、航空航天、生物醫(yī)藥

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論