AI框架發(fā)展白皮書（2022年）

上傳人：搬*** IP屬地：浙江上傳時(shí)間：2024-05-02 格式：PDF 頁數(shù)：53 大小：2.77MB 積分：12 舉報(bào) 版權(quán)申訴

已閱讀5頁，還剩48頁未讀，繼續(xù)免費(fèi)閱讀

版權(quán)說明：本文檔由用戶提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

No.202201

AI框架發(fā)展白皮書

（2022年）

中國信息通信研究院

2022年2月

前言

AI助力當(dāng)前經(jīng)濟(jì)社會(huì)步入智能經(jīng)濟(jì)時(shí)代。世界正在進(jìn)入以新一

代信息技術(shù)驅(qū)動(dòng)發(fā)展的重塑時(shí)期，人工智能（AI，ArtificialIntelligence）

作為其中重要的使能技術(shù)，對(duì)激活實(shí)體經(jīng)濟(jì)具有溢出帶動(dòng)性很強(qiáng)的

“頭雁效應(yīng)”，對(duì)構(gòu)筑國家科技影響力具有舉足輕重的意義。人工智能

成為了全球各國新的科技熱點(diǎn)，人工智能基礎(chǔ)設(shè)施建設(shè)也成為重要抓

手與著力點(diǎn)。未來十年是全球發(fā)展數(shù)字經(jīng)濟(jì)、邁入智能經(jīng)濟(jì)社會(huì)的黃

金發(fā)展期，著力發(fā)展人工智能基礎(chǔ)設(shè)施，將為我國人工智能產(chǎn)業(yè)發(fā)展

壯大、數(shù)字經(jīng)濟(jì)蓬勃發(fā)展提供強(qiáng)大牽引力。

AI框架是智能經(jīng)濟(jì)時(shí)代的操作系統(tǒng)。作為人工智能開發(fā)環(huán)節(jié)中

的基礎(chǔ)工具，AI框架承擔(dān)著AI技術(shù)生態(tài)中操作系統(tǒng)的角色，是AI

學(xué)術(shù)創(chuàng)新與產(chǎn)業(yè)商業(yè)化的重要載體，助力人工智能由理論走入實(shí)踐，

快速進(jìn)入了場(chǎng)景化應(yīng)用時(shí)代，也是發(fā)展人工智能所必需的基礎(chǔ)設(shè)施之

一。隨著重要性的不斷凸顯，AI框架已經(jīng)成為了人工智能產(chǎn)業(yè)創(chuàng)新

的焦點(diǎn)之一，引起了學(xué)術(shù)界、產(chǎn)業(yè)界的重視。

在此背景下，白皮書致力于厘清AI框架的概念內(nèi)涵、演進(jìn)歷程、

技術(shù)體系與作用意義，通過梳理總結(jié)當(dāng)前AI框架發(fā)展現(xiàn)狀，研判AI

框架技術(shù)發(fā)展趨勢(shì)，并對(duì)AI框架發(fā)展提出展望與路徑建議。由于AI

框架仍處于快速發(fā)展階段，我們對(duì)AI框架的認(rèn)識(shí)還有待持續(xù)深化，

白皮書中存在的不足之處，歡迎大家批評(píng)指正。

AI框架發(fā)展白皮書（2022年）

一、AI框架技術(shù)持續(xù)演進(jìn)，已形成較為完整的體系

AI框架是AI算法模型設(shè)計(jì)、訓(xùn)練和驗(yàn)證的一套標(biāo)準(zhǔn)接口、特

性庫和工具包，集成了算法的封裝、數(shù)據(jù)的調(diào)用以及計(jì)算資源的使

用，同時(shí)面向開發(fā)者提供了開發(fā)界面和高效的執(zhí)行平臺(tái)，是現(xiàn)階段

AI算法開發(fā)的必備工具。當(dāng)前，人工智能基礎(chǔ)性算法理論研究創(chuàng)新

日益活躍，深度神經(jīng)網(wǎng)絡(luò)日趨成熟，各大廠商紛紛投入到深度神經(jīng)

網(wǎng)絡(luò)算法的工程實(shí)現(xiàn)并發(fā)力建設(shè)算法模型工具，進(jìn)一步將其封裝為

軟件框架供開發(fā)者使用，這個(gè)過程中AI框架（業(yè)界也稱AI開發(fā)框

架、深度學(xué)習(xí)框架等）應(yīng)運(yùn)而生。AI框架負(fù)責(zé)給開發(fā)者提供構(gòu)建神

經(jīng)網(wǎng)絡(luò)模型的數(shù)學(xué)操作，把復(fù)雜的數(shù)學(xué)表達(dá)轉(zhuǎn)換成計(jì)算機(jī)可識(shí)別的

計(jì)算圖，自動(dòng)對(duì)神經(jīng)網(wǎng)絡(luò)進(jìn)行訓(xùn)練，得到一個(gè)神經(jīng)網(wǎng)絡(luò)模型用于解

決機(jī)器學(xué)習(xí)中分類、回歸的問題，實(shí)現(xiàn)目標(biāo)分類、語音識(shí)別等應(yīng)用

場(chǎng)景。

(一)AI框架演進(jìn)步入深化階段

結(jié)合人工智能的發(fā)展歷程和AI框架的技術(shù)特性來看，AI框架

的發(fā)展大致可以分為四個(gè)階段，分別為萌芽階段（2000年初期）、

成長階段（2012~2014年）、穩(wěn)定階段（2015年~2019年）、深化

階段（2020年以后）。其發(fā)展脈絡(luò)與人工智能，特別是神經(jīng)網(wǎng)絡(luò)技

術(shù)的異峰突起有非常緊密的聯(lián)系。

中國AI框架發(fā)展白皮書（2022年）

來源：中國信息通信研究院

圖1AI框架技術(shù)演進(jìn)

萌芽階段：受限于計(jì)算能力不足，這一階段的神經(jīng)網(wǎng)絡(luò)技術(shù)影

響力相對(duì)有限，因而出現(xiàn)了一些傳統(tǒng)的機(jī)器學(xué)習(xí)工具來提供基本支

持，也就是AI框架的雛形，但這些工具或者不是專門為神經(jīng)網(wǎng)絡(luò)

模型開發(fā)定制的，或者API極其復(fù)雜對(duì)開發(fā)者并不友好，且這些工

具并沒有對(duì)GPU算力進(jìn)行支持。這一階段的AI框架并不完善，開

發(fā)者不得不進(jìn)行大量基礎(chǔ)的工作，例如手寫反向傳播、搭建網(wǎng)絡(luò)結(jié)

構(gòu)、自行設(shè)計(jì)優(yōu)化器等。

成長階段：2012年，AlexKrizhevsky等人提出了一種深度神經(jīng)

網(wǎng)絡(luò)架構(gòu)，即著名的AlexNet，在ImageNet數(shù)據(jù)集上達(dá)到了最佳精

度，并碾壓第二名，引爆了深度神經(jīng)網(wǎng)絡(luò)的熱潮。自此極大地推動(dòng)

了AI框架的發(fā)展，出現(xiàn)了Caffe、Chainer和Theano等具有代表性

的早期AI框架，幫助開發(fā)者方便地建立復(fù)雜的深度神經(jīng)網(wǎng)絡(luò)模型，

如CNN、RNN、LSTM等。不僅如此，這些框架還支持多GPU訓(xùn)

AI框架發(fā)展白皮書（2022年）

練，讓開展更大、更深的模型訓(xùn)練成為可能。在這一階段，AI框架

體系已經(jīng)初步形成，聲明式風(fēng)格和命令式風(fēng)格為之后的AI框架趟

出了兩條不同的發(fā)展道路。

穩(wěn)定階段：2015年，何愷明等人提出的ResNet，再次突破了圖

像分類的邊界，在ImageNet數(shù)據(jù)集上的準(zhǔn)確率再創(chuàng)新高，也終于凝

聚了產(chǎn)業(yè)界和學(xué)界的共識(shí)，那就是深度學(xué)習(xí)將成為下一個(gè)重大技術(shù)

趨勢(shì)。在這一到兩年里，Google開源了著名的TensorFlow框架，

它至今仍是機(jī)器學(xué)習(xí)領(lǐng)域最流行的AI框架。Caffe的發(fā)明者加入了

Facebook（現(xiàn)更名為Meta）并發(fā)布了Caffe2；與此同時(shí)，F(xiàn)acebook

AI研究團(tuán)隊(duì)也發(fā)布了另一個(gè)流行的框架PyTorch，該框架拓展自

Torch框架，但使用了更流行的PythonAPI。微軟研究院開發(fā)了

CNTK框架。Amazon采用了MXNet，這是華盛頓大學(xué)、CMU和其

他機(jī)構(gòu)的聯(lián)合學(xué)術(shù)項(xiàng)目。國內(nèi)的百度則率先布局了PaddlePaddle飛

槳深度學(xué)習(xí)框架并于2016年發(fā)布。

TensorFlow和CNTK借鑒了Theano的聲明式編程風(fēng)格，而

PyTorch則繼承了Torch的直觀和開發(fā)者友好的命令式編程風(fēng)格。

FrancoisChollet幾乎是獨(dú)自開發(fā)了Keras框架，該框架提供了神經(jīng)

網(wǎng)絡(luò)和構(gòu)建塊的更直觀的高級(jí)抽象。同時(shí)各種AI框架不斷進(jìn)行迭

代，為框架提供各種面向高效友好開發(fā)的核心組件，例如幾乎所有

AI框架都支持的自動(dòng)微分能力，TensorFlow提供了分布式版本的

AI框架和支持iOS系統(tǒng)的能力，PyTorch則在完全擁抱Python的基

中國AI框架發(fā)展白皮書（2022年）

礎(chǔ)上提供了一整套包括優(yōu)化器、庫函數(shù)、API工具等支持。AI框架

迎來了繁榮，而在不斷發(fā)展的基礎(chǔ)上，各種框架不斷迭代，也被開

發(fā)者自然選擇。

經(jīng)過激烈的競(jìng)爭后，最終形成了兩大陣營，TensorFlow和

PyTorch雙頭壟斷。2019年，Chainer團(tuán)隊(duì)將他們的開發(fā)工作轉(zhuǎn)移到

PyTorch；Microsoft停止了CNTK框架的積極開發(fā)，部分團(tuán)隊(duì)成員

轉(zhuǎn)而支持PyTorch；Keras被TensorFlow收編，并在TensorFlow2.0

版本中成為其高級(jí)API之一。

深化階段：隨著人工智能的進(jìn)一步發(fā)展，新的趨勢(shì)不斷涌現(xiàn)，

例如超大規(guī)模模型的出現(xiàn)（GPT-3等），向AI框架提出了更高的

要求。隨著人工智能應(yīng)用場(chǎng)景的擴(kuò)展以及與更多領(lǐng)域交叉融合進(jìn)程

的加快，越來越多的需求被提出，如對(duì)全場(chǎng)景多任務(wù)的支持、對(duì)高

算力的需求等，這就要求AI框架最大化的實(shí)現(xiàn)編譯優(yōu)化，更好地

利用算力、調(diào)動(dòng)算力，充分發(fā)揮硬件資源的潛力。此外，人工智能

與社會(huì)倫理的痛點(diǎn)問題也促使可信賴人工智能在框架層面的進(jìn)步。

基于以上背景，現(xiàn)有的流行框架都在探索下一代AI框架的發(fā)展方

向，如2020年華為推出昇思MindSpore，在全場(chǎng)景協(xié)同、可信賴方

面有一定的突破；曠視推出天元MegEngine，在訓(xùn)練推理一體化方

面深度布局。在這一階段，AI框架正向著全場(chǎng)景支持、超大規(guī)模

AI、安全可信等技術(shù)特性深化探索，不斷實(shí)現(xiàn)新的突破。

AI框架發(fā)展白皮書（2022年）

(二)AI框架技術(shù)演化出三個(gè)層次

根據(jù)技術(shù)所處環(huán)節(jié)及定位，當(dāng)前主流AI框架的核心技術(shù)可分

為基礎(chǔ)層、組件層和生態(tài)層。

來源：中國信息通信研究院

圖2AI框架核心技術(shù)體系

1.基礎(chǔ)層

基礎(chǔ)層實(shí)現(xiàn)AI框架最基礎(chǔ)核心的功能，具體包括編程開發(fā)、

編譯優(yōu)化以及硬件使能三個(gè)子層。編程開發(fā)層是開發(fā)者與AI框架

互動(dòng)的窗口，為開發(fā)者提供構(gòu)建AI模型的API接口。編譯優(yōu)化層

是AI框架的關(guān)鍵部分，負(fù)責(zé)完成AI模型的編譯優(yōu)化并調(diào)度硬件資

源完成計(jì)算。硬件使能層是AI框架與AI算力硬件對(duì)接的通道，幫

助開發(fā)者屏蔽底層硬件技術(shù)細(xì)節(jié)。

編程開發(fā)-編程接口API：開發(fā)者通過調(diào)用編程接口來描述算法

的計(jì)算過程。對(duì)于開發(fā)者來說，編程接口的易用性以及接口的表達(dá)

中國AI框架發(fā)展白皮書（2022年）

能力非常重要，對(duì)算法的描述會(huì)映射到計(jì)算圖上。編程接口主要可

以分為3類：一類是基于數(shù)據(jù)流圖的編程接口，流行的基于數(shù)據(jù)流

圖的機(jī)器學(xué)習(xí)編程框架包括TensorFlow、MXNet、Theano、Torch7

等；另一類是基于層的編程接口，如Caffe；還有一類是基于算法的

編程接口，主要用于傳統(tǒng)機(jī)器學(xué)習(xí)算法的實(shí)現(xiàn)，如Scikit-Learn。

編程開發(fā)-編碼語言：人工智能應(yīng)用場(chǎng)景眾多，人工智能開發(fā)者

基于不同場(chǎng)景選擇使用的編程語言多樣，完善的AI框架應(yīng)支持多

種不同的語言，例如Python/倉頡/Julia等。面向使用不同編程語言

的開發(fā)者，AI框架需要提供功能相同、性能可比的開發(fā)服務(wù)和技術(shù)

支持。

編譯優(yōu)化-分布式并行：指數(shù)據(jù)流并行、模型并行、Pipeline并

行、優(yōu)化器并行等策略。隨著模型規(guī)模的增大，傳統(tǒng)的數(shù)據(jù)并行無

法有效處理，自動(dòng)并行技術(shù)的使用將會(huì)是常態(tài)。需要將大模型切分

到不同的設(shè)備上，切分就是將不同大塊計(jì)算切分成小塊計(jì)算，并將

小塊計(jì)算發(fā)送到不同的計(jì)算資源進(jìn)行計(jì)算，最后將小塊計(jì)算的結(jié)構(gòu)

進(jìn)行規(guī)約合并。而切分策略尋優(yōu)是很困難的，不同的切分產(chǎn)生的通

信量差異巨大，計(jì)算利用率也很不一樣，比如Pipeline并行往往在

計(jì)算利用率方面存在較大的挑戰(zhàn)，算子切分的并行則在通信量方面

存在較大的挑戰(zhàn)，需要AI框架來支持。

編譯優(yōu)化-自動(dòng)微分：自動(dòng)微分是將一個(gè)復(fù)雜的數(shù)學(xué)運(yùn)算過程分

解為一系列簡單的基本運(yùn)算，每一項(xiàng)基本運(yùn)算都可以通過查表得出

AI框架發(fā)展白皮書（2022年）

來。自動(dòng)微分有兩種形式，包括前向模式(forwardmode)和反向模式

(reversemode)，前向模式是在計(jì)算圖前向傳播的同時(shí)計(jì)算微分，反

向模式需要對(duì)計(jì)算圖進(jìn)行一次正向計(jì)算，得出輸出值，再進(jìn)行反向

傳播。因此反向模式的內(nèi)存開銷要大一點(diǎn)，它需要保存正向傳播中

的中間變量值，這些變量值用于反向傳播的時(shí)候計(jì)算導(dǎo)數(shù)。

編譯優(yōu)化-動(dòng)靜轉(zhuǎn)換：靜態(tài)圖在定義執(zhí)行前的所有操作和網(wǎng)絡(luò)結(jié)

構(gòu)，并將其呈現(xiàn)給傳感器流，在訓(xùn)練期間提供了更高的性能，但這

樣做的代價(jià)是不易于使用、不夠靈活。動(dòng)態(tài)圖計(jì)算是即時(shí)執(zhí)行的，

提供了更大的靈活性和更容易的調(diào)試，但這樣做的代價(jià)是性能較低。

TensorFlow2.0、MindSpore等均支持動(dòng)態(tài)圖和靜態(tài)圖的轉(zhuǎn)換技術(shù)，

可以實(shí)現(xiàn)計(jì)算效率和靈活性的平衡。

編譯優(yōu)化-模型輕量化：輕量化是指為滿足AI模型尺寸小、計(jì)

算復(fù)雜度低、電池耗電量低、下發(fā)更新部署靈活等要求下，AI框架

所配置的輕量化技術(shù)。一般來說，模型輕量化就是指模型壓縮和加

速，其中壓縮重點(diǎn)在于減少網(wǎng)絡(luò)參數(shù)量，加速則側(cè)重在降低計(jì)算復(fù)

雜度、提升并行能力等。算法層壓縮加速主要包括結(jié)構(gòu)優(yōu)化（如矩

陣分解、分組卷積、小卷積核等）、量化與定點(diǎn)化、模型剪枝、模

型蒸餾等；框架層加速主要包括編譯優(yōu)化、緩存優(yōu)化、稀疏存儲(chǔ)和

計(jì)算、NEON指令應(yīng)用、算子優(yōu)化等。

編譯優(yōu)化-圖算融合：通過自動(dòng)分析和優(yōu)化現(xiàn)有網(wǎng)絡(luò)計(jì)算圖邏輯，

并結(jié)合目標(biāo)硬件能力，對(duì)計(jì)算圖進(jìn)行計(jì)算化簡和替代、算子拆分和

中國AI框架發(fā)展白皮書（2022年）

融合、算子特例化編譯等優(yōu)化，以提升設(shè)備計(jì)算資源利用率，實(shí)現(xiàn)

對(duì)網(wǎng)絡(luò)性能的整體優(yōu)化。相比傳統(tǒng)優(yōu)化技術(shù)，圖算融合具有多算子

跨邊界聯(lián)合優(yōu)化、與算子編譯跨層協(xié)同、基于Polyhedral的算子即

時(shí)編譯等獨(dú)特優(yōu)勢(shì)。另外，圖算融合只需要開發(fā)者打開對(duì)應(yīng)配置，

整個(gè)優(yōu)化過程即可自動(dòng)完成，不需要網(wǎng)絡(luò)開發(fā)人員進(jìn)行其它額外感

知，使得開發(fā)者可以聚焦網(wǎng)絡(luò)算法實(shí)現(xiàn)。

編譯優(yōu)化-內(nèi)存優(yōu)化：由于硬件系統(tǒng)的內(nèi)存資源有限，特別是

AI芯片的內(nèi)存資源有限，需要有高效的內(nèi)存優(yōu)化策略降低AI網(wǎng)絡(luò)

對(duì)系統(tǒng)內(nèi)存的消耗。一般常用的內(nèi)存優(yōu)化技術(shù)有：靜態(tài)內(nèi)存復(fù)用優(yōu)

化和動(dòng)態(tài)內(nèi)存分配機(jī)制。靜態(tài)內(nèi)存復(fù)用優(yōu)化會(huì)分析計(jì)算圖的數(shù)據(jù)流

關(guān)系，基于數(shù)據(jù)的內(nèi)存占用大小、數(shù)據(jù)間的生命周期重疊關(guān)系，規(guī)

劃數(shù)據(jù)的內(nèi)存復(fù)用策略，從而最小化內(nèi)存占用。動(dòng)態(tài)內(nèi)存分配機(jī)制

是在運(yùn)行時(shí)創(chuàng)建大塊內(nèi)存，并按照實(shí)際算子執(zhí)行過程中需要的內(nèi)存

進(jìn)行內(nèi)存切片提供，當(dāng)算子執(zhí)行完且相關(guān)數(shù)據(jù)的引用均已結(jié)束時(shí)，

釋放內(nèi)存切片，從而實(shí)現(xiàn)內(nèi)存的有效復(fù)用。

編譯優(yōu)化-算子生成：AI框架會(huì)提供基礎(chǔ)常用的算子，但是這

些算子往往不能滿足開發(fā)者算法不斷演進(jìn)的需求。因此，需要AI

框架具備針對(duì)不同算力設(shè)備的統(tǒng)一算子生成和優(yōu)化的能力，使得開

發(fā)人員只需要編寫高層編程語言（如DSL）就可以通過AI框架提

供的算子編譯生成能力，生成高質(zhì)量的底層算子，極大降低AI框

架和硬件平臺(tái)的開發(fā)和維護(hù)成本，拓展應(yīng)用范圍。

AI框架發(fā)展白皮書（2022年）

編譯優(yōu)化-中間表示：中間表示（IntermediateRepresentation，

簡稱IR）是對(duì)計(jì)算圖和算子格式的定義。完備的中間表示需要支持

不同硬件設(shè)備算子定義和計(jì)算圖的性能優(yōu)化，支持不同類型的AI

模型網(wǎng)絡(luò)結(jié)構(gòu)的靈活表達(dá)，支持不同設(shè)備間的模型中轉(zhuǎn)和遷移。

硬件接入-計(jì)算算子：在深度學(xué)習(xí)領(lǐng)域計(jì)算算子特指計(jì)算圖中的

一個(gè)函數(shù)節(jié)點(diǎn)，一個(gè)在張量上執(zhí)行的計(jì)算操作，它接受零或多個(gè)張

量作為輸入，得到零或多個(gè)張量作為輸出，利用梯度、散度、旋度

的表達(dá)方式進(jìn)行計(jì)算。

硬件接入-通信算子：用于分布式節(jié)點(diǎn)通信的函數(shù)節(jié)點(diǎn)。

2.組件層

組件層主要提供AI模型生命周期的可配置高階功能組件，實(shí)

現(xiàn)細(xì)分領(lǐng)域性能的優(yōu)化提升，包括編譯優(yōu)化組件、科學(xué)計(jì)算組件、

安全可信組件、工具組件等，對(duì)人工智能模型開發(fā)人員可見。

并行及優(yōu)化組件-自動(dòng)并行：指對(duì)自動(dòng)并行技術(shù)的多樣化組合支

持。AI框架支持開發(fā)者進(jìn)行多種不同并行進(jìn)行組合，根據(jù)需要形成

混合并行策略，例如數(shù)據(jù)流并行和模型并行的組合、數(shù)據(jù)流和

Pipeline并行的組合等，支持開發(fā)者個(gè)性化的選擇自己的并行策略，

以更靈活的姿態(tài)支持人工智能模型訓(xùn)練、應(yīng)用適配。

并行及優(yōu)化組件-高階優(yōu)化器：AI框架支持多種不同的一階/二

階優(yōu)化器，能為開發(fā)者提供靈活方便的接口，例如SGD優(yōu)化器、

中國AI框架發(fā)展白皮書（2022年）

SGDM優(yōu)化器、NAG優(yōu)化器、AdaGrad優(yōu)化器、AdaDelta優(yōu)化器、

Adam優(yōu)化器、Nadam優(yōu)化器等。

科學(xué)計(jì)算組件-科學(xué)計(jì)算（數(shù)值方法）：人工智能發(fā)展的重要方

向之一是科學(xué)計(jì)算，因此要求AI框架向開發(fā)者提供科學(xué)計(jì)算相關(guān)

的功能支持，通過函數(shù)式編程范式為AI+科學(xué)計(jì)算提供融合的表達(dá)

方式，使得開發(fā)者以更加接近數(shù)學(xué)計(jì)算的方式進(jìn)行編程，以緩解當(dāng)

前AI框架的編程接口主要面向深度神經(jīng)網(wǎng)絡(luò)設(shè)計(jì)，但是科學(xué)計(jì)算

中需要大量的數(shù)學(xué)公式的表達(dá)（例如微分方程求解）的情況。

科學(xué)計(jì)算組件-科學(xué)計(jì)算（AI方法）：針對(duì)AI方法直接替代數(shù)

值方法取得計(jì)算結(jié)果的形式，AI框架需要具備“AI+科學(xué)計(jì)算”統(tǒng)一

的數(shù)據(jù)底座，將傳統(tǒng)科學(xué)計(jì)算的輸入數(shù)據(jù)（如傳統(tǒng)科學(xué)計(jì)算軟件生

成的仿真數(shù)據(jù)）轉(zhuǎn)換為AI框架的輸入數(shù)據(jù)（即張量）。針對(duì)AI方

法與數(shù)值方法配合取得計(jì)算結(jié)果形式，除了需要具備統(tǒng)一的數(shù)據(jù)引

擎之外，AI框架需要支持傳統(tǒng)數(shù)值計(jì)算的方法，例如高階微分求解、

線性代數(shù)計(jì)算等，并通過計(jì)算圖對(duì)傳統(tǒng)數(shù)值方法和AI方法的混合

計(jì)算優(yōu)化，從而實(shí)現(xiàn)“AI+科學(xué)計(jì)算”端到端加速。

安全可信組件-AI可解釋：AI框架需要具備三個(gè)層面的能力支

持可解釋人工智能。建模前的“數(shù)據(jù)可解釋”，分析數(shù)據(jù)分布，找出

代表性的特征，在訓(xùn)練時(shí)選擇需要的特征進(jìn)行建模。構(gòu)建“可解釋人

工智能模型”，通過與傳統(tǒng)機(jī)器學(xué)習(xí)（如貝葉斯概率編程）結(jié)合的方

式，對(duì)人工智能結(jié)構(gòu)進(jìn)行補(bǔ)充，平衡學(xué)習(xí)結(jié)果的有效性和學(xué)習(xí)模型

AI框架發(fā)展白皮書（2022年）

的可解釋性。對(duì)已構(gòu)筑模型進(jìn)行“解釋性分析”，通過分析人工智能

模型的輸入、輸出、中間信息的以來關(guān)系分析（如TB-Net的方式）

及驗(yàn)證模型的邏輯。

安全可信組件-數(shù)據(jù)安全：人工智能領(lǐng)域的數(shù)據(jù)安全問題不僅僅

涉及到原始數(shù)據(jù)本身的保護(hù)，還要防止通過模型推理結(jié)果反推出數(shù)

據(jù)隱私關(guān)鍵信息。因此，AI框架本身除了要提供數(shù)據(jù)資產(chǎn)保護(hù)能力，

還需要通過差分隱私等方式，保護(hù)模型數(shù)據(jù)的隱私。同時(shí)，為了源

頭保護(hù)數(shù)據(jù)安全，AI框架通過聯(lián)邦學(xué)習(xí)等方式進(jìn)行模型訓(xùn)練，使得

數(shù)據(jù)不出端的情況下模型得到訓(xùn)練更新。

安全可信組件-模型安全：訓(xùn)練模型時(shí)樣本訓(xùn)練不足，使得模型

泛化能力不足，導(dǎo)致模型面對(duì)惡意樣本時(shí)，無法給出正確的判斷結(jié)

果。為此，AI框架首先需要提供豐富的人工智能魯棒性檢測(cè)工具，

通過黑盒、白盒、灰盒測(cè)試等對(duì)抗檢測(cè)技術(shù)測(cè)試人工智能模型的魯

棒性，如靜態(tài)結(jié)構(gòu)分析，動(dòng)態(tài)路徑分析等；其次，AI框架可以通過

支持網(wǎng)絡(luò)蒸餾、對(duì)抗訓(xùn)練等方式幫助開發(fā)者提高模型的魯棒性。

工具組件-訓(xùn)練可視化：支持訓(xùn)練過程可視化，可通過頁面直接

查看訓(xùn)練過程中的核心內(nèi)容，包括訓(xùn)練標(biāo)量信息、參數(shù)分布圖、計(jì)

算圖、數(shù)據(jù)圖、數(shù)據(jù)抽樣等模塊。

工具組件-調(diào)試器：神經(jīng)網(wǎng)絡(luò)訓(xùn)練中經(jīng)常出現(xiàn)數(shù)值誤差情況，如

無窮大等，開發(fā)者希望分析訓(xùn)練無法收斂的原因。但是，由于計(jì)算

被封裝為黑盒，以圖的方式執(zhí)行，開發(fā)者很難定位其中的錯(cuò)誤。調(diào)

中國AI框架發(fā)展白皮書（2022年）

試器是訓(xùn)練調(diào)試的工具，開發(fā)者可以在訓(xùn)練過程中查看圖的內(nèi)部結(jié)

構(gòu)以及節(jié)點(diǎn)的輸入/輸出，例如查看一個(gè)張量的值，查看圖中的節(jié)點(diǎn)

對(duì)應(yīng)的Python代碼等。此外，開發(fā)者還可以選擇一組節(jié)點(diǎn)設(shè)置條件

斷點(diǎn)，實(shí)時(shí)監(jiān)控節(jié)點(diǎn)的計(jì)算結(jié)果。

3.生態(tài)層

生態(tài)層主要面向應(yīng)用服務(wù)，用以支持基于AI框架開發(fā)的各種

人工智能模型的應(yīng)用、維護(hù)和改進(jìn)，對(duì)于開發(fā)人員和應(yīng)用人員均可

見。

套件/模型庫：AI框架應(yīng)對(duì)領(lǐng)域通用任務(wù)提供預(yù)訓(xùn)練模型或者

定義好的模型結(jié)構(gòu)，方便開發(fā)者獲取和開展人工智能模型訓(xùn)練和推

理，如CV、NLP等。

AI領(lǐng)域擴(kuò)展庫：AI框架要能夠提供豐富的領(lǐng)域任務(wù)支持，并

為相關(guān)任務(wù)提供典型案例，從而提供更好的應(yīng)用服務(wù)，如GNN、強(qiáng)

化學(xué)習(xí)、遷移學(xué)習(xí)等。

AI+科學(xué)計(jì)算：與CV、NLP等傳統(tǒng)信息領(lǐng)域不同，科學(xué)計(jì)算問

題的求解需要具備相對(duì)專業(yè)的領(lǐng)域知識(shí)。為了加速AI+科學(xué)計(jì)算融

合的研究和落地，AI框架需要面向不同的科學(xué)計(jì)算領(lǐng)域（如電磁仿

真、科學(xué)制藥、能源、氣象、生物、材料等）提供簡單易用的科學(xué)

計(jì)算套件，這些套件包含高質(zhì)量的領(lǐng)域數(shù)據(jù)集、高精度的基礎(chǔ)AI

模型和用于前后處理的工具集合。

AI框架發(fā)展白皮書（2022年）

文檔：AI框架應(yīng)提供完善的文檔體系，包括但不限于框架說明

文檔、框架API文檔、框架版本變更文檔、框架常見問題文檔、框

架特性文檔等。

社區(qū)：人工智能服務(wù)發(fā)展需要社區(qū)支持，AI框架應(yīng)該經(jīng)營或者

維護(hù)良好的社區(qū)環(huán)境，好的AI框架具備較好的維護(hù)性和易用性，

同時(shí)AI框架社區(qū)中應(yīng)該有代表性項(xiàng)目并長期支持基于該框架的項(xiàng)

目和應(yīng)用。

(三)AI框架重要性愈加突顯

AI框架承上啟下，是整個(gè)人工智能技術(shù)體系的核心。從技術(shù)體

系中的功能定位看，AI框架對(duì)下調(diào)用底層硬件計(jì)算資源，能夠屏蔽

底層差異并提供良好的執(zhí)行性能，對(duì)上支撐AI應(yīng)用算法模型搭建，

提供算法工程化實(shí)現(xiàn)的標(biāo)準(zhǔn)環(huán)境，是AI技術(shù)體系的關(guān)鍵核心。除

完成AI算法的工程實(shí)現(xiàn)外，AI框架還能極大提高人工智能學(xué)習(xí)效

率、強(qiáng)化AI算法模型能力，如基于TensorFlow的AlphaGo在極短

時(shí)間內(nèi)學(xué)習(xí)到戰(zhàn)勝前任AlphaGo的技能。

AI框架是應(yīng)對(duì)智能經(jīng)濟(jì)時(shí)代的技術(shù)利器。大規(guī)模并行計(jì)算及智

能應(yīng)用是未來智能經(jīng)濟(jì)時(shí)代的主要特點(diǎn)。當(dāng)前硬件計(jì)算以CPU為代

表，軟件棧主要針對(duì)串行指令進(jìn)行優(yōu)化。由于人工智能算法涉及大

量的矩陣計(jì)算和并行數(shù)值計(jì)算，面向智能經(jīng)濟(jì)時(shí)代的硬件計(jì)算已經(jīng)

顯示出從串行遷移到并行計(jì)算的趨勢(shì)，未來可能以GPU為代表，軟

件棧主要針對(duì)大規(guī)模并行計(jì)算進(jìn)行優(yōu)化，這其中AI框架將成為大

中國AI框架發(fā)展白皮書（2022年）

規(guī)模并行計(jì)算的關(guān)鍵調(diào)度者。此外，人工智能模型將主導(dǎo)智能經(jīng)濟(jì)

時(shí)代各行各業(yè)細(xì)分場(chǎng)景，智能應(yīng)用將呈現(xiàn)規(guī)?；⑸疃然忍攸c(diǎn)，

而AI框架就是智能應(yīng)用快速落地的關(guān)鍵支撐者。

AI框架將成為智能經(jīng)濟(jì)時(shí)代的操作系統(tǒng)。當(dāng)前互聯(lián)網(wǎng)時(shí)代，操

作系統(tǒng)是IT業(yè)的核心樞紐點(diǎn)，建立硬件和應(yīng)用軟件之間的聯(lián)系，左

右著數(shù)字設(shè)備的整個(gè)生態(tài)，通過與通用計(jì)算芯片的深度綁定，形成

Windows+Intel、Android/iOS+ARM兩大穩(wěn)定的技術(shù)體系格局。智能

經(jīng)濟(jì)時(shí)代，AI框架承擔(dān)著AI技術(shù)生態(tài)中操作系統(tǒng)的角色，是AI

學(xué)術(shù)創(chuàng)新與產(chǎn)業(yè)商業(yè)化的重要載體，助力人工智能由理論走入實(shí)踐，

快速進(jìn)入場(chǎng)景化應(yīng)用時(shí)代?？傮w來說，“AI框架+算力芯片”的組合

在一定程度上決定了人工智能產(chǎn)業(yè)應(yīng)用的主體技術(shù)路線，其研發(fā)能

夠促進(jìn)生態(tài)圈關(guān)聯(lián)及外圍的芯片、系統(tǒng)、軟硬件平臺(tái)等產(chǎn)業(yè)發(fā)展，

從而促進(jìn)人工智能核心生態(tài)圈的建設(shè)。隨著價(jià)值不斷凸顯，AI框架

已經(jīng)成為了人工智能產(chǎn)業(yè)創(chuàng)新的焦點(diǎn)之一，引起了學(xué)術(shù)界、產(chǎn)業(yè)界

的重視。

二、全球AI框架繁榮發(fā)展，多元化競(jìng)合態(tài)勢(shì)漸顯

(一)供給主體方面，企校貢獻(xiàn)最活躍

科技企業(yè)與頂尖高校對(duì)AI框架的發(fā)展成熟貢獻(xiàn)最為活躍。數(shù)

字科技企業(yè)巨頭與頂尖高校是AI框架發(fā)展壯大的主體維護(hù)力量，

打造技術(shù)產(chǎn)業(yè)生態(tài)、營造學(xué)術(shù)創(chuàng)新氛圍，是兩大主體的源動(dòng)力。個(gè)

AI框架發(fā)展白皮書（2022年）

人及開源組織也扮演著重要的角色，是AI框架創(chuàng)新性、公益性的

重要體現(xiàn)。

數(shù)字科技企業(yè)巨頭是AI框架發(fā)展壯大的核心力量。自身AI業(yè)

務(wù)場(chǎng)景需求激發(fā)AI框架的應(yīng)用，并實(shí)現(xiàn)AI框架的驗(yàn)證完善。國際

知名數(shù)字科技巨頭主導(dǎo)開源AI框架技術(shù)生態(tài)，我國數(shù)字科技企業(yè)

近年來也積極布局并不斷創(chuàng)新。Google、Meta、Microsoft、Amazon

等國外數(shù)字科技企業(yè)巨頭在基礎(chǔ)算法框架研發(fā)方面具有先發(fā)優(yōu)勢(shì)，

依托自身AI業(yè)務(wù)場(chǎng)景以及龐大的數(shù)據(jù)資源，能夠?qū)λ惴蚣苓M(jìn)行

有效試驗(yàn)驗(yàn)證及功能完善。在此基礎(chǔ)之上，數(shù)字科技企業(yè)巨頭將原

本服務(wù)于內(nèi)部業(yè)務(wù)場(chǎng)景的AI框架進(jìn)行開源，為產(chǎn)業(yè)鏈下游合作伙

伴提供底層AI核心能力，滿足工業(yè)級(jí)應(yīng)用需求，逐步完善整體生

態(tài)，實(shí)現(xiàn)合作共贏。國內(nèi)數(shù)字科技巨頭紛紛布局推出AI框架，立

足滿足自身的AI應(yīng)用需求外，也對(duì)外拓展服務(wù)，如華為MindSpore、

百度PaddlePaddle、騰訊TNN、阿里MNN、字節(jié)跳動(dòng)BytePS以及

小米Mace等。

高校及科研院所是最早啟動(dòng)AI框架研發(fā)的主導(dǎo)力量之一，并

持續(xù)發(fā)揮著積極作用。高校及科研院所擁有強(qiáng)大的人才資源，基于

實(shí)驗(yàn)室科研創(chuàng)新需求對(duì)AI框架開展基礎(chǔ)性理論研究工作，布局整

體早于數(shù)字科技企業(yè)，更易實(shí)現(xiàn)革命性突破創(chuàng)新。高校最早推出的

Theano、Caffe等開源框架能夠滿足學(xué)術(shù)研究需求，并對(duì)AI框架的

整體發(fā)展起到巨大推動(dòng)作用，但在大規(guī)模分布式計(jì)算等場(chǎng)景下的性

中國AI框架發(fā)展白皮書（2022年）

能不及企業(yè)推出的AI框架。隨后，高校通過更換維護(hù)主體以持續(xù)

釋放作用價(jià)值。例如，MXNet框架發(fā)起于卡內(nèi)基梅隆大學(xué)，后捐贈(zèng)

給Apache基金會(huì)，現(xiàn)成為AmazonAWS最主要的AI框架。我國高

校日漸重視AI框架研發(fā)，如清華大學(xué)已陸續(xù)開發(fā)出開源框架計(jì)圖

Jittor、貝葉斯深度學(xué)習(xí)算法框架“珠算”等。

(二)開源生態(tài)方面，全球進(jìn)入活躍期

開源本質(zhì)上是一種人才、智慧的聚合，能夠助推AI框架快速

升級(jí)。茁壯的開源生態(tài)對(duì)于AI框架的發(fā)展至關(guān)重要。開發(fā)者通過

在開源社區(qū)進(jìn)行代碼開源、項(xiàng)目托管、協(xié)作分享、溝通交流等一系

列活動(dòng)，實(shí)現(xiàn)與開源AI框架的緊密互動(dòng)。開源社區(qū)是AI框架開發(fā)

者必不可少的學(xué)習(xí)與交流環(huán)境，可以說開源社區(qū)在推動(dòng)AI框架發(fā)

展的過程中起著巨大的作用。開源社區(qū)的相關(guān)指標(biāo)，也體現(xiàn)著AI

框架在整個(gè)行業(yè)內(nèi)的發(fā)展情況。對(duì)AI框架來說，國外最知名社區(qū)

是Microsoft收購的開源代碼托管平臺(tái)Github，國內(nèi)知名社區(qū)是由

OSCHINA.NET推出的代碼托管平臺(tái)Gitee（碼云）。

表1Github社區(qū)中主流AI框架情況（2022.1）

RankFrameworkCommits1Fork2Star3Contributors4

ForeignFramework

1TensorFlow124494863001630003056

1Commits代表開源代碼提交的次數(shù)，表征開源項(xiàng)目活躍度.

2Fork代表代碼復(fù)刻、分叉，表征開源項(xiàng)目被引用情況.

3Star代表點(diǎn)贊數(shù)，表征開源項(xiàng)目關(guān)注度.

4Contributors代表貢獻(xiàn)者，表征開源項(xiàng)目貢獻(xiàn)者規(guī)模.

AI框架發(fā)展白皮書（2022年）

RankFrameworkCommits1Fork2Star3Contributors4

2PyTorch4339014800537002137

Theano

32812725009500352

(StopDeveloping）

CNTK

416116440017100201

(StopDeveloping）

5MXNet11776690019800868

DomesticFramework

1MindSpore373085142700267

2PaddlePaddle33753430017500524

3MegEngine2282462410032

4OneFlow7621351300099

5Jittor1266235230031

來源：根據(jù)Github社區(qū)數(shù)據(jù)整理

Github作為業(yè)內(nèi)認(rèn)可度最高的開源社區(qū)，也是AI框架開發(fā)者

最關(guān)注的代碼托管平臺(tái)。從Github指標(biāo)看，國外AI框架方面，

TensorFlow的各項(xiàng)指標(biāo)均高居榜首，并遠(yuǎn)超第二名，是全球目前活

躍度最高、應(yīng)用最廣的AI框架。近年來在學(xué)術(shù)領(lǐng)域表現(xiàn)亮眼的后

起之秀PyTorch緊隨其后，雖在頂會(huì)占據(jù)了主流地位，但與

TensorFlow相比仍略遜一籌。MXNet表現(xiàn)也較為亮眼，但與前兩者

不在同一量級(jí)。我國主體推出的AI框架方面，MindSpore是目前活

躍度最高的AI框架，在貢獻(xiàn)者方面也已集聚了一定規(guī)模使用群體。

百度PaddlePaddle開源時(shí)間較早，在關(guān)注度方面較其他框架有一定

優(yōu)勢(shì)。其余框架中，OneFlow的活躍度與貢獻(xiàn)者規(guī)模處于領(lǐng)先位置。

中國AI框架發(fā)展白皮書（2022年）

表2Gitee社區(qū)中主流AI框架情況（2022.1）

RankFrameworkCommitsForkStarContributors

1MindSpore3854924006100774

2PaddlePaddle327881953600561

3OneFlow752121126

4MegEngine(鏡像）228061635

5Jittor123931134

來源：根據(jù)Gitee社區(qū)數(shù)據(jù)整理

國內(nèi)最大的開源代碼托管平臺(tái)Gitee目前主要是我國企業(yè)所主

導(dǎo)AI框架進(jìn)行發(fā)布交流的平臺(tái)。國內(nèi)知名的框架除曠視MegEngine

尚未在社區(qū)上發(fā)布外，其他框架均有所布局，也吸引了國內(nèi)的開發(fā)

群體。其中，MindSpore在Gitee中的各項(xiàng)指標(biāo)都遠(yuǎn)超其他AI框架，

是國內(nèi)社區(qū)中最活躍、關(guān)注度最高、被應(yīng)用最多的框架，處在我國

開源生態(tài)的引領(lǐng)者地位。

(三)市場(chǎng)格局方面，雙寡頭持續(xù)引領(lǐng)

全球來看，國際主流AI框架由Google、Meta等科技巨頭主導(dǎo)。

目前以Google、Meta、Amazon、Microsoft等代表的互聯(lián)網(wǎng)科技巨

頭，憑借自身的數(shù)據(jù)、技術(shù)和資本等優(yōu)勢(shì)，持續(xù)在AI框架生態(tài)領(lǐng)

域發(fā)力，引領(lǐng)全球AI框架技術(shù)創(chuàng)新升級(jí)趨勢(shì)，并逐步形成了以

Google-TensorFlow和Meta-PyTorch為代表的雙寡頭格局。從市場(chǎng)

占有情況看，產(chǎn)業(yè)界以TensorFlow為主，學(xué)術(shù)界以PyTorch為主。

Github中Star數(shù)表征開源項(xiàng)目流行度，是開源項(xiàng)目在產(chǎn)業(yè)界中市場(chǎng)

AI框架發(fā)展白皮書（2022年）

份額的生動(dòng)體現(xiàn)，據(jù)表1數(shù)據(jù)顯示，TensorFlowStar數(shù)達(dá)到163000，

遠(yuǎn)高于排名第二的PyTorch（53700），且Google于2019年推出

TensorFlowEnterprise，為大型企業(yè)提供TensorFlow的優(yōu)化版本以及

長期的技術(shù)支持，并與GoogleCloud服務(wù)深度集成，持續(xù)鞏固

TensorFlow在產(chǎn)業(yè)界的領(lǐng)先地位。據(jù)PapersWithCode數(shù)據(jù)5顯示，

2021全年基于PyTorch的論文數(shù)量在所有基于AI框架的論文中占

比高達(dá)58.56%，遠(yuǎn)高于排名第二的TensorFlow（12.38%），PyTorch

在學(xué)術(shù)界的領(lǐng)先優(yōu)勢(shì)在持續(xù)加強(qiáng)。

國內(nèi)來看，雙寡頭并驅(qū)態(tài)勢(shì)下AI框架市場(chǎng)格局向著多元發(fā)展。

我國在AI應(yīng)用方面優(yōu)勢(shì)顯著，相當(dāng)規(guī)模的AI應(yīng)用均構(gòu)筑在國際主

流AI框架之上，從底層開源代碼貢獻(xiàn)、底層硬件適配，到中間算

子研發(fā)迭代、模型庫完善，以及上層算法模型構(gòu)建，雙寡頭持續(xù)為

國內(nèi)AI應(yīng)用生態(tài)輸出能力。不僅如此，近兩年國內(nèi)廠商推出的AI

框架市場(chǎng)占有率也正穩(wěn)步提升。MindSpore框架開源后獲得國內(nèi)外

開發(fā)者的積極響應(yīng)，在Gitee千萬個(gè)開源項(xiàng)目中綜合排名第一，成

為國內(nèi)最活躍的AI開源框架。百度飛槳PaddlePaddle開發(fā)者規(guī)模也

在持續(xù)壯大，從IDC2021年調(diào)研的350份中小企業(yè)開發(fā)者樣本數(shù)據(jù)

顯示，飛槳開發(fā)者認(rèn)知度占比已超20%。

5/trends.

中國AI框架發(fā)展白皮書（2022年）

(四)支撐應(yīng)用方面，科研與產(chǎn)業(yè)齊驅(qū)

1.AI框架賦能學(xué)術(shù)科研

AI與超級(jí)計(jì)算機(jī)的結(jié)合，使科研領(lǐng)域的計(jì)算能力普遍提升到一

個(gè)新的高度。2021年世界排名前500的超級(jí)計(jì)算機(jī)中，68.4%采用

了AI技術(shù)進(jìn)行了加速。美國橡樹嶺國家實(shí)驗(yàn)室利用TensorFlow在

Summit超級(jí)計(jì)算機(jī)上訓(xùn)練了1.1EFLOP/s的極端天氣預(yù)報(bào)模型，用

來模擬預(yù)測(cè)氣候變遷會(huì)產(chǎn)生的極端天氣，提升了氣象研究的精準(zhǔn)度

和可能性。美國勞倫斯伯克利國家實(shí)驗(yàn)室在基于CPU的高性能計(jì)算

平臺(tái)上，使用TensorFlow框架開發(fā)了大型科學(xué)應(yīng)用程序CosmoFlow，

利用機(jī)器學(xué)習(xí)插件前所未有的將TensorFlow框架擴(kuò)展到8000多個(gè)

節(jié)點(diǎn)，以這種規(guī)模處理三維空間數(shù)據(jù)卷，主要應(yīng)用在暗物質(zhì)N體模

擬實(shí)驗(yàn)中，為科學(xué)家提供了一個(gè)全新的平臺(tái)來加深對(duì)宇宙的了解。

TensorFlow被廣泛應(yīng)用于學(xué)術(shù)科研領(lǐng)域。美國航空航天局使用

TensorFlow對(duì)開普勒任務(wù)中積累的大量數(shù)據(jù)進(jìn)行分析，由于機(jī)器學(xué)

習(xí)能夠比人類更高效地搜索更廣范圍的信號(hào)，發(fā)現(xiàn)了一直以來忽視

的開普勒-90i行星，這一發(fā)現(xiàn)使開普勒-90星系成為了目前所知除太

陽系外唯一八顆行星繞一顆恒星運(yùn)行的星系，取得了天體物理學(xué)領(lǐng)

域的一項(xiàng)重大突破。賓夕法尼亞大學(xué)研究利用TensorFlow解決農(nóng)業(yè)

病蟲害問題，通過注釋大量木薯植株圖像來識(shí)別和分類疾病，目前

在坦桑尼亞部分地區(qū)試驗(yàn)應(yīng)用，農(nóng)民們可以通過在木薯葉子前揮動(dòng)

手機(jī)，快速實(shí)現(xiàn)病株識(shí)別，并給出最佳的方式來進(jìn)行管理。雨林保

AI框架發(fā)展白皮書（2022年）

護(hù)組織RainforestConnection基于TensorFlow開發(fā)了世界上首款可

自動(dòng)識(shí)別盜伐行為的可擴(kuò)展、實(shí)時(shí)監(jiān)控報(bào)警的熱帶雨林環(huán)保系統(tǒng)，

在亞馬遜雨林試驗(yàn)應(yīng)用，通過當(dāng)?shù)氐氖謾C(jī)蜂窩網(wǎng)絡(luò)向中央云計(jì)算服

務(wù)器發(fā)送聲音采樣，依托TensorFlow來分析和審計(jì)數(shù)據(jù)，從中甄別

電鋸、木運(yùn)卡車等與非法砍伐相關(guān)的聲音，以防止人工監(jiān)聽遺漏。

我國框架作為后起之秀在學(xué)術(shù)科研領(lǐng)域已經(jīng)嶄露頭角。基于

MindSpore的鵬程.盤古作為全球首個(gè)發(fā)布的千億級(jí)預(yù)訓(xùn)練中文大模

型，模型規(guī)模高達(dá)2000億參數(shù)，MindSpore采用全自動(dòng)并行訓(xùn)練方

式支撐鵬程.盤古大模型在4096張NPU芯片上高效訓(xùn)練。紫東.太初

是基于MindSpore框架構(gòu)建的全球首個(gè)圖文音三模態(tài)、千億級(jí)參數(shù)

預(yù)訓(xùn)練大模型，具備跨模態(tài)理解與跨模態(tài)生成能力。武漢大學(xué)運(yùn)用

MindSpore打造了全球首個(gè)專用深度學(xué)習(xí)遙感框架武漢.LuojiaNet，

實(shí)現(xiàn)大規(guī)模衛(wèi)星遙感影像的智能遙感解譯。PaddlePaddle聯(lián)合鵬城

實(shí)驗(yàn)室發(fā)布了鵬城-百度·文心，模型參數(shù)規(guī)模達(dá)到2600億，是目前

全球最大中文單體模型，在機(jī)器閱讀理解、文本分類、語義相似度

計(jì)算等60多項(xiàng)任務(wù)取得最好效果。此外，百度基于PaddlePaddle

研發(fā)推出量子機(jī)器學(xué)習(xí)工具集量槳（PaddleQuantum），建立起了

人工智能與量子計(jì)算之間的橋梁，可以快速實(shí)現(xiàn)量子神經(jīng)網(wǎng)絡(luò)的搭

建與訓(xùn)練，同時(shí)還提供多項(xiàng)前沿量子應(yīng)用。

2.AI框架賦能產(chǎn)業(yè)應(yīng)用

中國AI框架發(fā)展白皮書（2022年）

空客公司使用TensorFlow開發(fā)的模型進(jìn)行異常監(jiān)測(cè)，保障空間

站運(yùn)行安全?？湛凸緸楦鐐惒紝?shí)驗(yàn)艙的運(yùn)行及其在國際空間站上

的有效載荷提供多項(xiàng)服務(wù)，哥倫布實(shí)驗(yàn)艙是歐洲航天局最大的國際

空間站項(xiàng)目，裝備有多種實(shí)驗(yàn)設(shè)備，能開展細(xì)胞生物學(xué)、外空生物

學(xué)、流體和材料科學(xué)、人類生理學(xué)、天文學(xué)和基礎(chǔ)物理學(xué)等多方面

的實(shí)驗(yàn)，由多個(gè)組件組成，能夠產(chǎn)生約17000個(gè)獨(dú)特的遙測(cè)參數(shù)。

空客使用TensorFlow開發(fā)的模型在數(shù)據(jù)流監(jiān)控過程中進(jìn)行異常檢

測(cè)，并實(shí)現(xiàn)實(shí)時(shí)報(bào)告，大大的簡化了異常原因分析過程并縮短了解

決時(shí)間。

生物制藥龍頭Celgene公司借助MXNet促進(jìn)藥品研究和發(fā)明。

Celgene是一家從事免疫醫(yī)療的制藥企業(yè)，通過訓(xùn)練神經(jīng)網(wǎng)絡(luò)識(shí)別

和決策帶有標(biāo)記細(xì)胞的顯微鏡圖像，解決了使用經(jīng)典的圖像分析方

法難以大規(guī)模識(shí)別和區(qū)分正常細(xì)胞和腫瘤細(xì)胞的問題。MXNet框架

對(duì)于毒理學(xué)預(yù)測(cè)尤其重要，可以無需活體患者承擔(dān)風(fēng)險(xiǎn)，虛擬分析

潛在藥物的生物學(xué)影響。

PyTorch幫助采礦企業(yè)Datarock進(jìn)行基于深度學(xué)習(xí)的巖心鉆探。

Datarock通過深度學(xué)習(xí)模型幫助地質(zhì)學(xué)家更快地分析鉆芯樣品圖像。

傳統(tǒng)模式下地質(zhì)學(xué)家會(huì)一厘米一厘米地仔細(xì)研究這些樣本，以評(píng)估

礦物學(xué)和結(jié)構(gòu)，工程師則會(huì)尋找諸如斷層、裂縫和巖石質(zhì)量等物理

特征，這個(gè)過程既緩慢又容易出現(xiàn)人為錯(cuò)誤。使用Datarock的技術(shù)，

AI框架發(fā)展白皮書（2022年）

可以將手動(dòng)記錄耗費(fèi)的5-6小時(shí)縮短在半小時(shí)內(nèi)，使地質(zhì)學(xué)家從繁

重的基礎(chǔ)工作中解放出來。

MindSpore在行業(yè)賦能方面成績斐然，擁有300多個(gè)SOTA模

型，超過4000個(gè)開源生態(tài)社區(qū)貢獻(xiàn)者，支持超過5000個(gè)在線AI

應(yīng)用，廣泛應(yīng)用于工業(yè)制造、金融、能源電力、交通、醫(yī)療等行業(yè)。

MindSpore賦能工業(yè)制造，通過AI技術(shù)助力降低重復(fù)勞動(dòng)，華為松

山湖南方工廠通過引入MindSpore及AI質(zhì)檢算法，將印制電路板

的缺陷檢測(cè)精度由90%提升至99.9%，并將質(zhì)檢人員的工作效率提

升了3倍?；贛indSpore的金融解決方案在深圳、上海等地銀行

網(wǎng)點(diǎn)運(yùn)行效果顯著，有效提升潛在客戶轉(zhuǎn)化率，同時(shí)利用OCR識(shí)

別技術(shù)和生物識(shí)別技術(shù)，實(shí)現(xiàn)企業(yè)年報(bào)、合同、保單、發(fā)票等各類

文檔及工單文本電子化，迅速提升工作效率。基于MindSpore的智

能輸電線路巡檢方案對(duì)輸電線路的設(shè)備和周界情況進(jìn)行前端監(jiān)控，

并分析異常問題及時(shí)報(bào)警，南方電網(wǎng)、深圳供電局更是開辟了“以系

統(tǒng)智能分析為主、人工判斷輔”的嶄新模式，使原來需要20天才能

完成的現(xiàn)場(chǎng)巡視工作，輸電監(jiān)控指揮中心現(xiàn)在僅需2小時(shí)就可完成，

巡檢效率提高了近80倍。除此之外，基于MindSpore孵化的紫東.

太初、武漢.Luojia已從學(xué)術(shù)科研向產(chǎn)業(yè)應(yīng)用轉(zhuǎn)化，支撐央視、愛奇

藝、新華社技術(shù)局、航天宏圖等企業(yè)開展創(chuàng)新應(yīng)用。

PaddlePaddle服務(wù)企業(yè)遍布能源、金融、工業(yè)、醫(yī)療、農(nóng)業(yè)等

多個(gè)行業(yè)，助力千行萬業(yè)智能化升級(jí)。PaddlePaddle賦能人民日?qǐng)?bào)

中國AI框架發(fā)展白皮書（2022年）

“創(chuàng)作大腦”，覆蓋了全媒體策劃、采集、編輯、傳播效果分析等各

環(huán)節(jié)和業(yè)務(wù)場(chǎng)景，可以大幅提高新聞產(chǎn)品的生產(chǎn)效率，能夠進(jìn)行視

頻直播關(guān)鍵人物、語句識(shí)別、全網(wǎng)熱點(diǎn)數(shù)據(jù)自定義監(jiān)測(cè)預(yù)警、批量

生成可視化大數(shù)據(jù)報(bào)告等多種智能化生產(chǎn)。連心醫(yī)療基于

PaddlePaddle平臺(tái)開發(fā)上線“基于CT影像的肺炎篩查與病情預(yù)評(píng)估

AI系統(tǒng)”，已首先在湖南郴州湘南學(xué)院附屬醫(yī)院投入使用，可快速

檢測(cè)識(shí)別肺炎病灶，為病情診斷提供病灶的數(shù)量、體積、肺部占比

等定量評(píng)估信息，同時(shí)輔以雙肺密度分布的直方圖和病灶勾畫疊加

顯示等可視化手段，為臨床醫(yī)生篩查和預(yù)診斷患者肺炎病情提供定

性和定量依據(jù)，提升醫(yī)生診斷和評(píng)估效率。

曠視MegEngine充分發(fā)揮視覺領(lǐng)域優(yōu)勢(shì)，實(shí)現(xiàn)行業(yè)賦能。曠視

為某攝像頭模組企業(yè)提供的智能質(zhì)檢解決方案實(shí)現(xiàn)了產(chǎn)品的在線實(shí)

時(shí)檢測(cè)，基于Brain++平臺(tái)的私有化部署版本MegOne，能夠?qū)崟r(shí)發(fā)

現(xiàn)產(chǎn)品劃傷、折痕、油污、破損等缺陷，缺陷檢測(cè)率同比提高90%，

降低85%以上人工成本，整體維護(hù)成本降低10%。曠視推出供應(yīng)鏈

操作系統(tǒng)——河圖，在電商倉庫中協(xié)同500臺(tái)機(jī)器人并發(fā)工作，將

倉庫效率提升了40%。曠視為華潤電力部署了園區(qū)安全管理系統(tǒng)，

利用人臉識(shí)別、物體檢測(cè)等計(jì)算機(jī)視覺算法，對(duì)變電設(shè)備周邊等危

險(xiǎn)區(qū)域?qū)崿F(xiàn)了7*24小時(shí)警戒，顯著提升了安全管理水平。

一流科技OneFlow充分發(fā)揮分布式可擴(kuò)展性能優(yōu)勢(shì)，已服務(wù)科

研、政務(wù)、軍工、金融等諸多行業(yè)客戶。一流科技基于OneFlow框

AI框架發(fā)展白皮書（2022年）

架，集成大數(shù)據(jù)、云計(jì)算等組件，提供商業(yè)化產(chǎn)品OF智能云，包

括人工智能開發(fā)平臺(tái)OneBrain、強(qiáng)化學(xué)習(xí)解決方案OneAgent及AI

實(shí)訓(xùn)及編程平臺(tái)OneLab。其中OneBrain助力中關(guān)村智用研究院打

造一站式人工智能開發(fā)平臺(tái)，提供多種混合算力解決方案，支持資

源按需擴(kuò)容，該項(xiàng)目交付智用投入使用后，經(jīng)計(jì)算，其系統(tǒng)算力率

可提升30%，模型訓(xùn)練時(shí)間相較傳統(tǒng)方式節(jié)省80%，整體解決了智

用復(fù)雜業(yè)務(wù)場(chǎng)景、高算力要求和邊界靈活延展要求。

(五)推廣途徑方面，三條路齊發(fā)并進(jìn)

致力于社區(qū)生態(tài)的壯大與優(yōu)化，吸引更多學(xué)術(shù)界與產(chǎn)業(yè)界開發(fā)

者。主流AI框架通過繁榮開源社區(qū)生態(tài)，打造忠實(shí)的貢獻(xiàn)者團(tuán)隊(duì)，

從而吸引更多開發(fā)者參與生態(tài)構(gòu)建。GoogleTensorFlow團(tuán)隊(duì)基于

GitHub開源，并逐步吸引早期開發(fā)者向貢獻(xiàn)者轉(zhuǎn)變。圍繞

TensorFlow開源社區(qū)，貢獻(xiàn)者除了貢獻(xiàn)TensorFlow高階API代碼

外，還積極參與TensorFlow社區(qū)的管理、貢獻(xiàn)TensorFlow延伸出

來的開源項(xiàng)目以及傳播知識(shí)和分享經(jīng)驗(yàn)。華為推出MindSpore開發(fā)

者扶植計(jì)劃，為開發(fā)者提供優(yōu)惠的云服務(wù)資源和相關(guān)的知識(shí)賦能培

訓(xùn)資源，幫助個(gè)人開發(fā)者學(xué)習(xí)和構(gòu)建基于MindSpore的技術(shù)能力，

以獲得持續(xù)職業(yè)發(fā)展。百度攜手社區(qū)開發(fā)者共建生態(tài)，成立飛槳城

市/高校領(lǐng)航團(tuán)150個(gè)、飛槳特別興趣小組12個(gè)，目前全國范圍內(nèi)

已有132個(gè)城市和高校自組織社區(qū)在主動(dòng)自發(fā)舉辦飛槳社區(qū)活動(dòng)。

中國AI框架發(fā)展白皮書（2022年）

與高?？蒲性核?lián)動(dòng)，拓展高校學(xué)術(shù)科研開發(fā)者規(guī)模以及學(xué)術(shù)

科研應(yīng)用。高校的人才培養(yǎng)和開發(fā)者的發(fā)展已成為整個(gè)AI框架生

態(tài)的重要組成部分，當(dāng)前國內(nèi)主流AI框架積極融入高校教學(xué)體系。

華為與教育部聯(lián)合啟動(dòng)建設(shè)“智能基座”產(chǎn)教融合協(xié)同育人基地，目

前MindSpore課程已經(jīng)在100多所高校開設(shè)，并積極開展計(jì)算機(jī)系

統(tǒng)能力提升高級(jí)研修班，培養(yǎng)AI先鋒教師。百度支持教育部產(chǎn)學(xué)

合作協(xié)同育人項(xiàng)目，截至目前，PaddlePaddle已累計(jì)培訓(xùn)了3000多

位高校教師，并且參與編寫了一系列人工智能教材。此外，主流AI

框架也選擇通過設(shè)立創(chuàng)新基金激勵(lì)框架的創(chuàng)新應(yīng)用。華為于2020

年與中國人工智能學(xué)會(huì)共同發(fā)起《中國人工智能學(xué)會(huì)-華為

MindSpore學(xué)術(shù)獎(jiǎng)勵(lì)基金》，旨在激勵(lì)原創(chuàng)性科學(xué)研究開展，構(gòu)建

中國人工智能科學(xué)研究的全球影響力，累計(jì)已投入1600萬資金，支

持120多個(gè)項(xiàng)目，據(jù)PapersWithCode數(shù)據(jù)顯示，2021年10月統(tǒng)

計(jì)基于MindSpore的論文數(shù)量在所有基于AI框架的論文中占比10%

（當(dāng)月排名第2），成效顯著。百度于2020年與中國計(jì)算機(jī)學(xué)會(huì)聯(lián)

合成立了“CCF-百度松果基金”，旨在為青年學(xué)者提供經(jīng)費(fèi)、平臺(tái)、

數(shù)據(jù)、技術(shù)支持等服務(wù)，推動(dòng)AI框架在科研領(lǐng)域的應(yīng)用。

面向產(chǎn)業(yè)應(yīng)用提供基礎(chǔ)設(shè)施及解決方案服務(wù)，不斷吸納下游合

作伙伴。圍繞產(chǎn)業(yè)應(yīng)用，AI框架有三種層次的賦能路徑。首先是將

AI框架融入算力基礎(chǔ)設(shè)施，提供AI能力服務(wù)，如各地政府在建的

和已上線運(yùn)營的人工智能計(jì)算中心，重點(diǎn)依托我國AI框架構(gòu)建底

AI框架發(fā)展白皮書（2022年）

層AI開發(fā)能力，其中MindSpore成為主要選擇。其次是打造軟硬

一體化方案，將AI框架作為打通底層算力硬件與上層應(yīng)用的通道，

如PaddlePaddle積極與硬件廠商合作，完成適配或正在適配的芯片

與IP型號(hào)31種，進(jìn)一步促進(jìn)軟硬件聯(lián)合優(yōu)化、協(xié)同發(fā)展；之江實(shí)

驗(yàn)室天樞人工智能開源平臺(tái)，以O(shè)neFlow框架為核心，上承算法應(yīng)

用，下接底層硬件。另外，還可依托AI框架打造面向具體行業(yè)的

應(yīng)用平臺(tái)，如華為聯(lián)合合作伙伴基于MindSpore推出“昇騰智造”、

“昇騰智城”、“昇騰智行”、“昇騰智巡”四大行業(yè)解決方案。

三、應(yīng)對(duì)未來多樣化挑戰(zhàn)，AI框架有六大技術(shù)趨勢(shì)

(一)泛開發(fā)：AI框架將注重前端便捷性與后端高效性

的統(tǒng)一

AI框架需要提供更全面的API體系以及前端語言支持轉(zhuǎn)換能

力，從而提升前端開發(fā)便捷性。AI框架需要能為開發(fā)者提供完備度

高、性能優(yōu)異、易于理解和使用的API體系，TensorFlow、JAX等

相關(guān)開源項(xiàng)目成員組織的ConsortiumforPythonDataAPIStandards

已經(jīng)在啟動(dòng)構(gòu)建相應(yīng)的標(biāo)準(zhǔn)。目前PaddlePaddle已經(jīng)初步形成較完

備的API體系。同時(shí)，AI框架在產(chǎn)業(yè)落地應(yīng)用時(shí)，需要能夠與產(chǎn)業(yè)

級(jí)開發(fā)語言（C++、C#、Java、Go等）無縫銜接，也需要提供配套

的編程接口與功能支持。從開發(fā)語言來看，眾多已有的開發(fā)框架主

要以Python語言的支持為主，Julia、SwiftforTensorFlow及倉頡等

新的編程語言正嘗試在AI框架領(lǐng)域構(gòu)建Python之外的語言生態(tài)，

中國AI框架發(fā)展白皮書（2022年）

從目前看，盡管Julia（科學(xué)計(jì)算）和Swift（工業(yè)級(jí)開發(fā)應(yīng)用）都

有些特色，但是短期內(nèi)還很難撼動(dòng)Python在AI框架領(lǐng)域的地位。

AI框架需要提供更為優(yōu)質(zhì)的動(dòng)靜態(tài)圖轉(zhuǎn)換能力，從而提升后端

運(yùn)行高效性。從開發(fā)者使用AI框架來實(shí)現(xiàn)模型訓(xùn)練和推理部署的

角度看，AI框架需要能夠通過動(dòng)態(tài)圖的編程范式，來完成在模型訓(xùn)

練的開發(fā)階段的靈活易用的開發(fā)體驗(yàn)，以提升模型的開發(fā)效率；通

過靜態(tài)圖的方式來實(shí)現(xiàn)模型部署時(shí)的高性能運(yùn)行；同時(shí)，通過動(dòng)態(tài)

圖轉(zhuǎn)靜態(tài)圖的方式，來實(shí)現(xiàn)方便的部署和性能優(yōu)化。目前，國際主

流基本均已經(jīng)實(shí)現(xiàn)動(dòng)態(tài)圖開發(fā)、靜態(tài)圖部署的編程范式，具備動(dòng)靜

態(tài)圖轉(zhuǎn)換的能力，不過基于開發(fā)效率考慮，動(dòng)態(tài)圖與靜態(tài)圖的轉(zhuǎn)換

與統(tǒng)一需要持續(xù)迭代優(yōu)化。

(二)全場(chǎng)景：AI框架將支持端邊云全場(chǎng)景跨平臺(tái)設(shè)備

部署

AI模型需要適配部署到端邊云全場(chǎng)景設(shè)備，對(duì)AI框架提出了

多樣化、復(fù)雜化、碎片化的挑戰(zhàn)。隨著云服務(wù)器、邊緣設(shè)備、終端

設(shè)備等人工智能硬件運(yùn)算設(shè)備的不斷涌現(xiàn)，以及各類人工智能運(yùn)算

庫、中間表示工具以及編程框架的快速發(fā)展，人工智能軟硬件生態(tài)

呈現(xiàn)多樣化發(fā)展趨勢(shì)。但主流框架訓(xùn)練出來的模型卻不能通用，學(xué)

術(shù)科研項(xiàng)目間難以合作延伸，造成了AI框架的“碎片化”。目前業(yè)界

并沒有統(tǒng)一的中間表示層標(biāo)準(zhǔn)，導(dǎo)致各硬件廠商解決方案存在一定

差異，以致應(yīng)用模型遷移不暢，增加了應(yīng)用部署難度。因此，基于

AI框架發(fā)展白皮書（2022年）

AI框架訓(xùn)練出來的模型進(jìn)行標(biāo)準(zhǔn)化互通將是未來的挑戰(zhàn)。

AI框架需要與硬件基礎(chǔ)設(shè)施平臺(tái)充分解耦，通過標(biāo)準(zhǔn)的硬件注

冊(cè)接口實(shí)現(xiàn)跨設(shè)備平臺(tái)的快速部署。隨著處理任務(wù)的復(fù)雜化、處理

數(shù)據(jù)的密集化，跨架構(gòu)的開發(fā)能力將會(huì)成為常態(tài)化的需求。AI框架

迫切需要開放一套可解耦的硬件注冊(cè)接口，支持硬件廠商無需觸碰

框架核心代碼即可完成適配，避免硬件廠商面對(duì)多種AI框架以及

不同框架版本的適配代碼進(jìn)行維護(hù)?？山怦畹挠布?cè)接口，需包

括標(biāo)準(zhǔn)的硬件運(yùn)行態(tài)管理、算子抽象定義、性能優(yōu)化適配等接口，

使得AI框架和硬件平臺(tái)開發(fā)者遵從相同接口定義設(shè)備驅(qū)動(dòng)、運(yùn)行

時(shí)以及算子和計(jì)算圖等關(guān)鍵信息。除上述接口標(biāo)準(zhǔn)化外，還應(yīng)該對(duì)

模型的中間表示和算子進(jìn)行標(biāo)準(zhǔn)化，硬件廠商只需基于同一種模型

格式和同一套算子即可完成不同AI框架的適配，滿足端-邊-云不同

業(yè)務(wù)場(chǎng)景同步適配的業(yè)務(wù)需求。

(三)超大規(guī)模：AI框架將著力強(qiáng)化對(duì)超大規(guī)模AI的

支持

超大規(guī)模AI成為新的深度學(xué)習(xí)范式。OpenAI于2020年5月

發(fā)布GPT-3模型，包含1750億參數(shù)，數(shù)據(jù)集（處理前）達(dá)到45T，

在多項(xiàng)NLP任務(wù)中超越了人類水平。這種通過超大規(guī)模的模型參數(shù)

及超大規(guī)模的數(shù)據(jù)集的AI大模型范式，實(shí)現(xiàn)了深度學(xué)習(xí)新的突破。

產(chǎn)業(yè)界和學(xué)術(shù)界看到這種新型范式的潛力后紛紛入局，繼OpenAI

后，華為基于MindSpore框架發(fā)布了盤古大模型、智源發(fā)布了悟道

中國AI框架發(fā)展白皮書（2022年）

模型、阿里發(fā)布了M6模型、百度發(fā)布了文心模型等。超大規(guī)模AI

正成為下一代人工智能的突破口，也是最有潛力的強(qiáng)人工智能技術(shù)。

超大規(guī)模AI需要大模型、大數(shù)據(jù)、大算力的三重支持，對(duì)AI

框架也提出了新的挑戰(zhàn)，可總結(jié)為“五堵墻”。一是內(nèi)存墻，大模型

訓(xùn)練過程中需要存儲(chǔ)參數(shù)、激活、梯度、優(yōu)化器狀態(tài)，鵬程.盤古一

個(gè)模型的訓(xùn)練就需要近4TB的內(nèi)存。二是算力墻，以鵬程.盤古2000

億參數(shù)量的大模型為例，需要3.6EFLOPS的算力支持，這要求必須

構(gòu)建大規(guī)模的異構(gòu)AI計(jì)算集群，才能滿足這樣的算力需求，同時(shí)

算力平臺(tái)要滿足智能調(diào)度，來提升算力資源的利用率。三是通信墻，

大模型并行切分到集群后，模型切片之間會(huì)產(chǎn)生大量通信，從而通

信就成了主要的瓶頸。四是調(diào)優(yōu)墻，在E級(jí)算力集群上訓(xùn)練一個(gè)千

億參數(shù)規(guī)模的，節(jié)點(diǎn)之間的通信關(guān)系非常復(fù)雜，要保證計(jì)算的正確

性、性能和可用性，手動(dòng)調(diào)試難以全面兼顧。五是部署墻，超大規(guī)

模AI面臨“大模型、小推理”的部署難題，需要對(duì)大模型進(jìn)行完美壓

縮以適應(yīng)推理側(cè)的部署需求。

AI框架將通過自動(dòng)混合并行、全局內(nèi)存管理、可視化調(diào)優(yōu)以及

分布式推理等核心技術(shù)支持超大規(guī)模AI發(fā)展。AI框架可通過多維

度自動(dòng)混合并行，支持?jǐn)?shù)據(jù)并行、模型并行、流水并行、優(yōu)化器并

行、子圖并行等多種維度的AI并行計(jì)算技術(shù)，解決模型及集群的

橫向擴(kuò)展問題，支持超大規(guī)模模型切分到大集群高效訓(xùn)練，并實(shí)現(xiàn)

最優(yōu)的計(jì)算通信比，進(jìn)而提升算力的利用率。AI框架可通過全局內(nèi)

AI框架發(fā)展白皮書（2022年）

存管理及計(jì)算調(diào)度，實(shí)現(xiàn)CPU內(nèi)存、NPU內(nèi)存和NVMe三層存儲(chǔ)

的統(tǒng)一管理，從而提升單卡的縱向擴(kuò)展能力。超大規(guī)模AI的數(shù)據(jù)

集、網(wǎng)絡(luò)深度和寬度都非常大，AI框架需要通過張量分析、圖碼結(jié)

合等方式，快速定位出現(xiàn)精度異常的網(wǎng)絡(luò)結(jié)構(gòu)或者算子，提供方便

快捷的精度問題定位能力，并通過可視化的方式記錄并且分析開發(fā)

者的調(diào)優(yōu)路徑和AI模型的精度收斂趨勢(shì)，向開發(fā)者推薦調(diào)優(yōu)策略，

加速調(diào)優(yōu)過程。此外，對(duì)于大模型的推理服務(wù)，AI框架需要自動(dòng)從

分布式訓(xùn)練模式轉(zhuǎn)換成分布式推理模式，并實(shí)現(xiàn)服務(wù)化封裝，支持

快速上線大模型服務(wù)。

(四)科學(xué)計(jì)算：AI框架將進(jìn)一步與科學(xué)計(jì)算深度融合

交叉

傳統(tǒng)科學(xué)計(jì)算領(lǐng)域亟需AI技術(shù)加持融合?？茖W(xué)計(jì)算一般以準(zhǔn)

確的數(shù)學(xué)模型為根基，以嚴(yán)謹(jǐn)?shù)挠?jì)算方法為手段，對(duì)應(yīng)用領(lǐng)域中氣

候氣象、能源材料、航空航天、生物醫(yī)藥

人人文庫> 全部分類> 辦公材料 > 辦公文檔

溫馨提示

1. 本站所有資源如無特殊說明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽，若沒有圖紙預(yù)覽就沒有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間，僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理，對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容，請(qǐng)與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

AI框架發(fā)展白皮書（2022年）

文檔簡介

溫馨提示

最新文檔

評(píng)論

AI框架發(fā)展白皮書（2022年）

文檔簡介

溫馨提示

最新文檔

評(píng)論

相關(guān)文檔