2018年人工智能發(fā)展白皮書技術(shù)架構(gòu)篇

上傳人：1*** IP屬地：江蘇上傳時(shí)間：2024-11-30 格式：DOCX 頁(yè)數(shù)：63 大?。?.66MB 積分：15 舉報(bào) 版權(quán)申訴

2018年人工智能發(fā)展白皮書技術(shù)架構(gòu)篇_第2頁(yè)

2018年人工智能發(fā)展白皮書技術(shù)架構(gòu)篇_第3頁(yè)

2018年人工智能發(fā)展白皮書技術(shù)架構(gòu)篇_第4頁(yè)

2018年人工智能發(fā)展白皮書技術(shù)架構(gòu)篇_第5頁(yè)

已閱讀5頁(yè)，還剩58頁(yè)未讀，繼續(xù)免費(fèi)閱讀

版權(quán)說(shuō)明：本文檔由用戶提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

人工智能是一種引發(fā)諸多領(lǐng)域產(chǎn)生顛覆性變革的前沿技術(shù)，當(dāng)今自然語(yǔ)言等應(yīng)用領(lǐng)域迅速發(fā)展，已經(jīng)開始像水電煤一樣賦能于各個(gè)行業(yè)。世界各國(guó)高度重視人工智能發(fā)展，美國(guó)白宮接連發(fā)布數(shù)個(gè)人工智能政府報(bào)告，是第一個(gè)將人工智能發(fā)展上升到國(guó)家戰(zhàn)略層面的國(guó)家，除此以外，英國(guó)、歐盟、日本等紛紛發(fā)布人工智能相關(guān)戰(zhàn)略、行動(dòng)計(jì)劃，著力構(gòu)筑人工智能先發(fā)優(yōu)勢(shì)。我國(guó)高度重視人工智能習(xí)近平總書記在十九大報(bào)告中指出，要“推動(dòng)互聯(lián)網(wǎng)、大數(shù)據(jù)、人工智能和實(shí)體經(jīng)濟(jì)深度融合“，從2016年起已有《“互聯(lián)網(wǎng)+人工智能三年行動(dòng)實(shí)施方案》、《新一代人工智能發(fā)展規(guī)劃》、《促進(jìn)新一代人工智能產(chǎn)業(yè)發(fā)展三年行動(dòng)計(jì)劃(2018-2020年)》等多個(gè)國(guó)家層面的政策出臺(tái)，也取得了積極的效果，我國(guó)逐漸形成了涵蓋計(jì)算芯片、開源平臺(tái)、基礎(chǔ)應(yīng)用、行業(yè)應(yīng)用及產(chǎn)品等環(huán)節(jié)較完善的人工智能產(chǎn)業(yè)鏈。2018人工智能發(fā)展白皮書是中國(guó)信息通信研究院、中國(guó)人工智能產(chǎn)業(yè)發(fā)展聯(lián)盟首次聯(lián)合發(fā)布。本篇為技術(shù)架構(gòu)篇，從產(chǎn)業(yè)發(fā)展的角度，選擇以深度學(xué)習(xí)算法驅(qū)動(dòng)的人工智能技術(shù)為主線，分析作為人工智能發(fā)展“三駕馬車”的算法、算力和數(shù)據(jù)的技術(shù)現(xiàn)狀、問(wèn)題以及趨并提出了目前存在的問(wèn)題和技術(shù)的發(fā)展趨勢(shì)。后續(xù)我院與中國(guó)人工智能產(chǎn)業(yè)發(fā)展聯(lián)盟將繼續(xù)發(fā)布人工智能應(yīng)用、產(chǎn)業(yè)和政策方面研究成果。 1 1 2 3 3 4 4 4 5 5 5 6 7 8 8 20 20 21 22 23 23 23 24 24 26 27 27 28 28 28 301中國(guó)信息通信研究院&中國(guó)人工智能產(chǎn)業(yè)發(fā)展聯(lián)盟人工同學(xué)科背景或應(yīng)用領(lǐng)域的學(xué)者，從不同角度，用不同的方法，沿著不同的途徑對(duì)智能進(jìn)行了探索。其中，符號(hào)主義、是人工智能發(fā)展歷史上的三大技術(shù)流派。符號(hào)主義又稱為邏輯主義，在人工智能早期一直占據(jù)主導(dǎo)地位。該學(xué)派認(rèn)為人工智能源于數(shù)學(xué)邏輯，其實(shí)質(zhì)是模擬人的抽象邏輯思維，用符號(hào)描述人類的認(rèn)知過(guò)程。早期的研究思路是通過(guò)基本的推斷步驟尋求完全解，出現(xiàn)了邏輯理論家和幾何定理證明器等。上世紀(jì)70年代出現(xiàn)了大量的專家系統(tǒng)，結(jié)合了領(lǐng)域知識(shí)和邏輯推斷，使得人工智能進(jìn)入了工程應(yīng)用。PC機(jī)的出現(xiàn)以及專家系統(tǒng)高昂的成本，使符號(hào)學(xué)派在人工智能領(lǐng)域的主導(dǎo)地位逐漸被連接主義取代。連接主義又稱為仿生學(xué)派，當(dāng)前占據(jù)主導(dǎo)地位。該學(xué)派認(rèn)為人工智能源于仿生學(xué)，應(yīng)以工程技術(shù)手段模擬人腦神經(jīng)系統(tǒng)的結(jié)構(gòu)和功能。連接主義最早可追溯到1943年麥卡洛克和皮茨創(chuàng)立的腦模型，由于潮。直到1982年霍普菲爾特提出的Hopfield神經(jīng)網(wǎng)絡(luò)模型和1986年魯梅爾哈特等人提出的反向傳播算法，使得神經(jīng)網(wǎng)絡(luò)的理論研究取使神經(jīng)網(wǎng)絡(luò)的能力大大提高。2012年，使用深度學(xué)習(xí)技術(shù)的AlexNet模型在ImageNet競(jìng)賽中獲得冠軍。2人工智能發(fā)展白皮書-技術(shù)架構(gòu)篇（2018）中國(guó)信息通信研究院&中國(guó)人工智能產(chǎn)業(yè)發(fā)行為主義又稱為進(jìn)化主義，近年來(lái)隨著AlphaGo取得的突破而受到廣泛關(guān)注。該學(xué)派認(rèn)為人工智能源于控制論，智能行為的基礎(chǔ)是“感知—行動(dòng)”的反應(yīng)機(jī)制，所以智能無(wú)需知識(shí)表示，無(wú)需推斷。智能只是在與環(huán)境交互作用中表現(xiàn)出來(lái)，需要具有不同的行為模塊與環(huán)境交互，以此來(lái)產(chǎn)生復(fù)雜的行為。在人工智能的發(fā)展過(guò)程中，符號(hào)主義、連接主義和行為主義等流派不僅先后在各自領(lǐng)域取得了成果，各學(xué)派也逐漸走向了相互借鑒和融合發(fā)展的道路。特別是在行為主義思想中引入連接主義的技術(shù)，從而誕生了深度強(qiáng)化學(xué)習(xí)技術(shù)，成為AlphaGo戰(zhàn)勝李世石背后最重要深度學(xué)習(xí)已經(jīng)在語(yǔ)音識(shí)別、圖像識(shí)別等領(lǐng)域取得突破。深度學(xué)習(xí)全稱深度神經(jīng)網(wǎng)絡(luò)，本質(zhì)上是多層次的人工神經(jīng)網(wǎng)絡(luò)算法，即從結(jié)構(gòu)上模擬人腦的運(yùn)行機(jī)制，從最基本的單元上模擬了人類大腦的運(yùn)行機(jī)制。深度學(xué)習(xí)已經(jīng)開始在計(jì)算機(jī)視覺(jué)、語(yǔ)音識(shí)別、自然語(yǔ)言理解等領(lǐng)域取得了突破。在語(yǔ)音識(shí)別領(lǐng)域，2010年，使用深度神經(jīng)網(wǎng)絡(luò)模型的語(yǔ)音識(shí)別相對(duì)傳統(tǒng)混合高斯模型識(shí)別錯(cuò)誤率降低超過(guò)20%，目前所有的商用語(yǔ)音識(shí)別算法都基于深度學(xué)習(xí)。在圖像分類領(lǐng)域，目前針對(duì)ImageNet數(shù)據(jù)集的算法分類精度已經(jīng)達(dá)到了95%以上，可以與人的自然語(yǔ)言理解等領(lǐng)域也取得了突破性的進(jìn)展。3中國(guó)信息通信研究院&中國(guó)人工智能產(chǎn)業(yè)發(fā)展聯(lián)盟人工海量的數(shù)據(jù)和高效的算力支撐是深度學(xué)習(xí)算法實(shí)現(xiàn)的基礎(chǔ)。深度學(xué)習(xí)分為訓(xùn)練(training)和推斷(inference)兩個(gè)環(huán)節(jié)。訓(xùn)練需要海量數(shù)據(jù)輸入，訓(xùn)練出一個(gè)復(fù)雜的深度神經(jīng)網(wǎng)絡(luò)模型。推斷指利用訓(xùn)練好的模圖形處理器（GraphicsProcessingUnit，GPU）等各種更加強(qiáng)大的計(jì)算設(shè)備的發(fā)展，使得深度學(xué)習(xí)可以充分利用海量數(shù)據(jù)（標(biāo)注數(shù)據(jù)、弱），數(shù)據(jù)濃縮成某種知識(shí)。當(dāng)前基于深度學(xué)習(xí)的人工智能技術(shù)架構(gòu)如圖4人工智能發(fā)展白皮書-技術(shù)架構(gòu)篇（2018）中國(guó)信息通信研究院&中國(guó)人工智能產(chǎn)業(yè)發(fā)當(dāng)前，基于深度學(xué)習(xí)的人工智能算法主要依托計(jì)算機(jī)技術(shù)體系架構(gòu)實(shí)現(xiàn)，深度學(xué)習(xí)算法通過(guò)封裝至軟件框架1的方式供開發(fā)者使用。軟件框架是整個(gè)技術(shù)體系的核心，實(shí)現(xiàn)對(duì)人工智能算法的封裝，數(shù)據(jù)的調(diào)用以及計(jì)算資源的調(diào)度使用。為提升算法實(shí)現(xiàn)的效率，其編譯器及底層硬件技術(shù)也進(jìn)行了功能優(yōu)化。具體架構(gòu)請(qǐng)見圖層、深度神經(jīng)網(wǎng)絡(luò)模型編譯器及軟件框架三層。本章所探討的人工智能技術(shù)體系主要包含三個(gè)維度，一是針對(duì)人工智能算法原理本身的探討，二是對(duì)算法實(shí)現(xiàn)所依托的技術(shù)體系進(jìn)行概述，三是針對(duì)深度學(xué)習(xí)所需的數(shù)據(jù)進(jìn)行分析。基礎(chǔ)硬件層為算法提供了基礎(chǔ)計(jì)算能力。硬件層涵蓋范圍除了中央處理器（CentralProcessingUnit，CPU）及GPU外，還包括為特定括GPU服務(wù)器集群，各類移動(dòng)終端設(shè)備以及類腦計(jì)算機(jī)等。深度神經(jīng)網(wǎng)絡(luò)模型編譯器是底層硬件和軟件框架、以及不同軟件框架之間的橋梁。該層旨在為上層應(yīng)用提供硬件調(diào)用接口，解決不同上層應(yīng)用在使用不同底層硬件計(jì)算芯片時(shí)可能存在的不兼容等問(wèn)題。其涵蓋范圍包括針對(duì)人工智能計(jì)算芯片定向優(yōu)化的深度神經(jīng)網(wǎng)絡(luò)模型編譯器，以及針對(duì)不同神經(jīng)網(wǎng)絡(luò)模型表示的規(guī)定及格式。5中國(guó)信息通信研究院&中國(guó)人工智能產(chǎn)業(yè)發(fā)展聯(lián)盟人工軟件框架層實(shí)現(xiàn)算法的模塊化封裝，為應(yīng)用開發(fā)提供集成軟件工具包。該層涵蓋范圍包括針對(duì)算法實(shí)現(xiàn)開發(fā)的各類應(yīng)用及算法工具包，為上層應(yīng)用開發(fā)提供了算法調(diào)用接口，提升應(yīng)用實(shí)現(xiàn)的效率。當(dāng)前人工智能的商業(yè)化實(shí)現(xiàn)主要是基于計(jì)算機(jī)視覺(jué)、智能語(yǔ)音、自然語(yǔ)言處理等基礎(chǔ)應(yīng)用技術(shù)實(shí)現(xiàn)，并形成了相應(yīng)的產(chǎn)品或服務(wù)。本部分將在第三章進(jìn)行詳細(xì)討論。當(dāng)前，人工智能算法已經(jīng)能夠完成智能語(yǔ)音語(yǔ)義、計(jì)算機(jī)視覺(jué)等取得了一定進(jìn)展，為人工智能應(yīng)用落地提供了可靠的理論保障。人工智能算法的設(shè)計(jì)邏輯可以從“學(xué)什么”、“怎么學(xué)”和“做什么”三個(gè)維度進(jìn)行概括。首先是學(xué)什么。人工智能算法需要學(xué)習(xí)的內(nèi)容，是能夠表征所需完成任務(wù)的函數(shù)模型。該函數(shù)模型旨在實(shí)現(xiàn)人們需要的輸入和輸出的映射關(guān)系，其學(xué)習(xí)的目標(biāo)是確定兩個(gè)狀態(tài)空間（輸入空間和輸出空間）內(nèi)所有可能取值之間的關(guān)系；其次是怎么學(xué)。算法通過(guò)不斷縮小函數(shù)模型結(jié)果與真實(shí)結(jié)果誤差來(lái)達(dá)到學(xué)習(xí)目的，一般該誤差稱為損失函數(shù)。損失函數(shù)能夠合理量化真實(shí)結(jié)果和訓(xùn)練結(jié)果的誤差，并將之反饋給機(jī)器繼續(xù)作迭代訓(xùn)練，最終實(shí)現(xiàn)學(xué)習(xí)模型輸出和真實(shí)結(jié)果的誤差處在合理范圍；最后是做什么。機(jī)器學(xué)習(xí)主要完成三件任務(wù)，即分類、回歸6人工智能發(fā)展白皮書-技術(shù)架構(gòu)篇（2018）中國(guó)信息通信研究院&中國(guó)人工智能產(chǎn)業(yè)發(fā)和聚類。目前多數(shù)人工智能落地應(yīng)用，都是通過(guò)對(duì)現(xiàn)實(shí)問(wèn)題抽象成相應(yīng)的數(shù)學(xué)模型，分解為這三類基本任務(wù)進(jìn)行有機(jī)組合，并對(duì)其進(jìn)行建模求解的過(guò)程。人工智能實(shí)際應(yīng)用問(wèn)題經(jīng)過(guò)抽象和分解，主要可以分為回歸、分類和聚類三類基本任務(wù)，針對(duì)每一類基本任務(wù)，人工智能算法都提供了各具特點(diǎn)的解決方案：一是回歸任務(wù)的算法?；貧w是一種用于連續(xù)型數(shù)值變量預(yù)測(cè)和建模的監(jiān)督學(xué)習(xí)算法。目前回歸算法最為常用的主要有四種，即線性回分類任務(wù)的算法。分類算法用于分類變量建模及預(yù)測(cè)的監(jiān)督學(xué)習(xí)算法，分類算法往往適用于類別（或其可能性）的預(yù)測(cè)。其中最為常用的算法主要有五種，分別為邏輯回歸（正則化）、分類樹（集成方法）、支持向量機(jī)、樸素貝葉斯和深度學(xué)習(xí)方法。三是聚類任務(wù)的算法。聚類算法基于數(shù)據(jù)內(nèi)部結(jié)構(gòu)來(lái)尋找樣本集群的無(wú)監(jiān)督學(xué)習(xí)任務(wù)，使用案例包括用戶畫像、電商物品聚類、社交網(wǎng)絡(luò)分析等。其中最為常用的算法主要有四種即K均值、仿射傳播、分層/層次和聚類算法(Density-BasedSpatialClusteringofApplicationswithNoise，DBSCAN)。7中國(guó)信息通信研究院&中國(guó)人工智能產(chǎn)業(yè)發(fā)展聯(lián)盟人工近年來(lái)，以深度學(xué)習(xí)算法為代表的人工智能技算機(jī)視覺(jué)、語(yǔ)音識(shí)別、語(yǔ)義理解等領(lǐng)域都實(shí)現(xiàn)了突破。但其相關(guān)算法目前并不完美，有待繼續(xù)加強(qiáng)理論性研究，也不斷有很多新的算法理論成果被提出，如膠囊網(wǎng)絡(luò)、生成對(duì)抗網(wǎng)絡(luò)、遷移學(xué)習(xí)等。膠囊網(wǎng)絡(luò)是為了克服卷積神經(jīng)網(wǎng)絡(luò)的局限性而提出的一種新的網(wǎng)絡(luò)架構(gòu)。卷積神經(jīng)網(wǎng)絡(luò)存在著難以識(shí)別圖像中的位置關(guān)系、缺少空間分層和空間推理能力等局限性。受到神經(jīng)科學(xué)的啟發(fā)，人工智能領(lǐng)軍人物Hinton提出了膠囊網(wǎng)絡(luò)的概念。膠囊網(wǎng)絡(luò)由膠囊而不是由神經(jīng)元構(gòu)成，膠囊由一小群神經(jīng)元組成，輸出為向量，向量的長(zhǎng)度表示物體存在的估計(jì)概率，向量的方向表示物體的姿態(tài)參數(shù)。膠囊網(wǎng)絡(luò)能同時(shí)處理多個(gè)不同目標(biāo)的多種空間變換，所需訓(xùn)練數(shù)據(jù)量小，從而可以有效地克服卷積神經(jīng)網(wǎng)絡(luò)的局限性，理論上更接近人腦的行為。但膠囊網(wǎng)絡(luò)也存在著計(jì)算量大、大圖像處理上效果欠佳等問(wèn)題，有待進(jìn)生成對(duì)抗網(wǎng)絡(luò)(GAN:GenerativeAdversarialNetworks)是于2014年提出的一種生成模型。該算法核心思想來(lái)源于博弈論的納什均衡，通過(guò)生成器和判別器的對(duì)抗訓(xùn)練進(jìn)行迭代優(yōu)化，目標(biāo)是學(xué)習(xí)真實(shí)數(shù)據(jù)的分布，從而可以產(chǎn)生全新的、與觀測(cè)數(shù)據(jù)類似的數(shù)據(jù)。與其他生成模型相比，GAN有生成效率高、設(shè)計(jì)框架靈活、可生成具有更高質(zhì)量的樣本等優(yōu)勢(shì)，2016年以來(lái)研究工作呈爆發(fā)式增長(zhǎng)，已成為人工智能一個(gè)熱門的研究方向。但GAN仍存在難以訓(xùn)練、梯度消失、模8人工智能發(fā)展白皮書-技術(shù)架構(gòu)篇（2018）中國(guó)信息通信研究院&中國(guó)人工智能產(chǎn)業(yè)發(fā)式崩潰等問(wèn)題，仍處于不斷研究探索的階段。遷移學(xué)習(xí)是利用數(shù)據(jù)、任務(wù)或模型之間的相似性，將學(xué)習(xí)過(guò)的模型應(yīng)用于新領(lǐng)域的一類算法。遷移學(xué)習(xí)可大大降低深度網(wǎng)絡(luò)訓(xùn)練所需的數(shù)據(jù)量，縮短訓(xùn)練時(shí)間。其中，F(xiàn)ine-Tune是深度遷移學(xué)習(xí)最簡(jiǎn)單的一種實(shí)現(xiàn)方式，通過(guò)將一個(gè)問(wèn)題上訓(xùn)練好的模型進(jìn)行簡(jiǎn)單的調(diào)整使其適用于一個(gè)新的問(wèn)題，具有節(jié)省時(shí)間成本、模型泛化能力好、實(shí)現(xiàn)當(dāng)前，人工智能基礎(chǔ)性算法已經(jīng)較為成熟，各大廠商紛紛發(fā)力建設(shè)算法模型工具庫(kù)，并將其封裝為軟件框架，供開發(fā)者使用，可以說(shuō)軟件框架是算法的工程實(shí)現(xiàn)。企業(yè)的軟件框架實(shí)現(xiàn)有閉源和開源兩種技術(shù)壁壘；目前業(yè)內(nèi)主流軟件框架基本都是開源化運(yùn)營(yíng)。本篇主要關(guān)注開源軟件框架的技術(shù)特點(diǎn)，對(duì)閉源軟件框架不做過(guò)多討論。人工智能國(guó)際巨頭企業(yè)將開源深度學(xué)習(xí)軟件框架作為打造開發(fā)及使用生態(tài)核心的核心?？傮w來(lái)說(shuō)開源軟件框架在模型庫(kù)建設(shè)及調(diào)用功能方面具有相當(dāng)共性，但同時(shí)又各具特點(diǎn)。業(yè)界目前主要有深度學(xué)習(xí)訓(xùn)練軟件框架和推斷軟件框架兩大類別。1)深度學(xué)習(xí)訓(xùn)練軟件框架基于深度學(xué)習(xí)的訓(xùn)練框架主要實(shí)現(xiàn)對(duì)海量數(shù)據(jù)的讀取、處理及訓(xùn)練，主要部署在CPU及GPU服務(wù)集群，主要側(cè)重于海量訓(xùn)練模型實(shí)9中國(guó)信息通信研究院&中國(guó)人工智能產(chǎn)業(yè)發(fā)展聯(lián)盟人工現(xiàn)、系統(tǒng)穩(wěn)定性及多硬件并行計(jì)算優(yōu)化等方面的任務(wù)。目前主流的深度學(xué)習(xí)訓(xùn)練軟件框架主要有TensorFlow，MXNet，Caffe/2+PyTorchTensorFlow以其功能全面，兼容性廣泛和生態(tài)完備而著稱。該軟件框架由谷歌大腦（GoogleBrain）團(tuán)隊(duì)主要支撐，實(shí)現(xiàn)了多GPU有模型檢查，可視化和序列化的配套模塊。其生態(tài)系統(tǒng)已經(jīng)成為深度學(xué)習(xí)開源軟件框架最大的活躍社區(qū)。MXNet以其優(yōu)異性能及全面的平臺(tái)支持而著稱。該軟件框架是由亞馬遜公司（Amazon）主導(dǎo)的深度學(xué)習(xí)平臺(tái)，目前已經(jīng)捐獻(xiàn)到阿全硬件平臺(tái)（包括手機(jī)端）運(yùn)行，提供包括Python、R語(yǔ)言、Julia、C++、Scala、Matlab以及Javascript的編程接口；二是具有靈活的編程模型，支持命令式和符號(hào)式編程模型；三是從云端到客戶端可移植，四是支持本地分布式訓(xùn)練，在多CPU/GPU設(shè)備上的分布式訓(xùn)練，使其可充分利用計(jì)算集群的規(guī)模優(yōu)勢(shì)。Caffe/2+PyTorch以其在圖像處理領(lǐng)域的深耕和易用性而著稱。該軟件框架是由臉書公司（Facebook）主導(dǎo)的平臺(tái)，目前Caffe1/2兩個(gè)項(xiàng)目已經(jīng)合并到PyTorch統(tǒng)一維護(hù)。在圖像處理領(lǐng)域Caffe有著深厚的生態(tài)積累，結(jié)合PyTorch作為一個(gè)易用性很強(qiáng)的軟件框架，越來(lái)越受到數(shù)據(jù)科學(xué)家的喜愛。我國(guó)很多人工智能圖像處理團(tuán)隊(duì)選擇人工智能發(fā)展白皮書-技術(shù)架構(gòu)篇（2018）中國(guó)信息通信研究院&中國(guó)人工智能產(chǎn)業(yè)發(fā)PyTorch作為主要工作平臺(tái)。MicrosoftCognitiveToolkit(CNTK)以其在智能語(yǔ)音語(yǔ)義領(lǐng)域的優(yōu)勢(shì)及良好性能而著稱。該軟件框架由微軟公司于2016年基于MIT協(xié)議開源，它具有速度快、可擴(kuò)展性強(qiáng)、商業(yè)級(jí)質(zhì)量高以及C++和依托于微軟的產(chǎn)品生態(tài)，在語(yǔ)音識(shí)別、機(jī)器翻譯、類別分析、圖像識(shí)別、圖像字幕、文本處理、語(yǔ)言理解和語(yǔ)言建模等領(lǐng)域都擁有良好應(yīng)PaddlePaddle以其易用性和支持工業(yè)級(jí)應(yīng)用而著稱。該軟件框架是百度旗下的深度學(xué)習(xí)開源平臺(tái)，是我國(guó)自主開發(fā)軟件框架代表。其最大特點(diǎn)就是易用性，得益于其對(duì)算法的封裝，對(duì)于現(xiàn)成算法(卷積使用可以直接執(zhí)行命令替換數(shù)據(jù)進(jìn)行訓(xùn)練。非常適合需要成熟穩(wěn)定的模型來(lái)處理新數(shù)據(jù)的情況。除上之外，業(yè)界及學(xué)術(shù)界還存在著多個(gè)機(jī)器學(xué)習(xí)及深度學(xué)習(xí)軟件框架，如Scikit-learn，Theano等。這些軟件框架在其專長(zhǎng)領(lǐng)域仍然發(fā)揮重要作用。但由于各軟件框架的維護(hù)力量及發(fā)展思路不同，同時(shí)缺少貢獻(xiàn)人員，導(dǎo)致軟件框架發(fā)展水平略顯滯后，存在著包括算法庫(kù)擴(kuò)展不及時(shí)，API水平較低以及不支持分布式任務(wù)等問(wèn)題。2)深度學(xué)習(xí)推斷軟件框架基于深度學(xué)習(xí)的推斷的計(jì)算量相對(duì)訓(xùn)練過(guò)程小很多，但仍涉及到大量的矩陣卷積、非線性變換等運(yùn)算，為了滿足在終端側(cè)限定設(shè)備性中國(guó)信息通信研究院&中國(guó)人工智能產(chǎn)業(yè)發(fā)展聯(lián)盟人工能及功耗等因素的場(chǎng)景下，業(yè)界也開發(fā)了眾多開源的終端側(cè)軟件框架。Caffe2go是最早出現(xiàn)的終端側(cè)推斷軟件框架，能夠讓深層神經(jīng)網(wǎng)絡(luò)在手機(jī)上高效的運(yùn)行。由于終端側(cè)的GPU設(shè)備性能有限，Caffe2go是基于CPU的優(yōu)化進(jìn)行設(shè)計(jì)。TensorFlowLite可以運(yùn)行在Android和iOS平臺(tái)，結(jié)合Android生態(tài)的神經(jīng)網(wǎng)絡(luò)運(yùn)行時(shí)能夠?qū)崿F(xiàn)較為高效的AI移動(dòng)端應(yīng)用速度。NCNN是騰訊開源的終端側(cè)AI軟件框架，支持多種訓(xùn)練軟件框架的模型轉(zhuǎn)換，是主要面向CPU的AI模型應(yīng)用，無(wú)第三方依賴具有較高的通用性，運(yùn)行速度突出，是國(guó)內(nèi)目前較為廣泛使用的終端側(cè)AI軟件框架。CoreML是蘋果公司開發(fā)的iOSAI軟件框架，能夠?qū)覥affe、PyTorch、MXNet、TensorFlow等絕大部分AI模型，并且自身提供了常用的各種手機(jī)端AI模型組件，目前也匯集了眾多開發(fā)者及貢獻(xiàn)力量。Paddle-mobile是百度自研的移動(dòng)端深度學(xué)習(xí)軟件框架，主要目的是將Paddle模型部署在手機(jī)端，其支持iOSGPU計(jì)算。但目前功能相對(duì)單一，支持較為有限。TensorRT是英偉達(dá)（NVIDIA）開發(fā)的深度學(xué)習(xí)推斷工具，已經(jīng)支持Caffe、Caffe2、TensorFlow、MXNet、PyTorch等主流深度學(xué)習(xí)庫(kù)，其底層針對(duì)NVIDIA顯卡做了多方面的優(yōu)化，可以和CUDA編譯器結(jié)合使用。目前主要產(chǎn)業(yè)巨頭均推出了基于自身技術(shù)體系的訓(xùn)練及推斷軟件框架，但由于目前產(chǎn)業(yè)生態(tài)尚未形成，深度學(xué)習(xí)模型表示及存儲(chǔ)尚未統(tǒng)一，訓(xùn)練軟件框架及推斷軟件框架尚未形成一一對(duì)應(yīng)關(guān)系，技術(shù)生態(tài)爭(zhēng)奪將繼續(xù)持續(xù)。人工智能發(fā)展白皮書-技術(shù)架構(gòu)篇（2018）中國(guó)信息通信研究院&中國(guó)人工智能產(chǎn)業(yè)發(fā)人工智能開源軟件框架生態(tài)的核心，是通過(guò)使用者和貢獻(xiàn)者之間而占據(jù)人工智能核心的主導(dǎo)地位。開源軟件框架的用戶包括最終服務(wù)及產(chǎn)品的使用者和開發(fā)者。當(dāng)前開源軟件框架的技術(shù)發(fā)展呈現(xiàn)出以下一是谷歌與其他公司間持續(xù)競(jìng)爭(zhēng)。巨頭公司在技術(shù)上將積極探尋包括模型互換，模型遷移等技術(shù)聯(lián)合，以對(duì)抗谷歌公司。例如臉書（Facebook）和微軟已經(jīng)合作開發(fā)了一個(gè)可互換的人工智能軟件框架解決方案。二是開源軟件框架在向統(tǒng)一和標(biāo)準(zhǔn)化方向發(fā)展。隨著人工智能應(yīng)用的爆發(fā)，開發(fā)人員在不同平臺(tái)上創(chuàng)建模型及部署模型的需求愈發(fā)強(qiáng)烈，在各類軟件框架間的模型遷移互換技術(shù)研發(fā)已經(jīng)成為重點(diǎn)。三是更高級(jí)的API2逐漸占據(jù)主導(dǎo)地位。以Keras為例，它是建立在TensorFlow、Theano、CNTK、MXNet和Gluon上運(yùn)行的高級(jí)開源神經(jīng)網(wǎng)絡(luò)庫(kù)，以其高級(jí)API易用性而得到了廣泛的使用。四是模型的集群并發(fā)計(jì)算成為業(yè)界研究熱點(diǎn)。當(dāng)前人工智能網(wǎng)絡(luò)對(duì)于單計(jì)算節(jié)點(diǎn)的算力要求過(guò)高，但當(dāng)前主流開源軟件框架對(duì)于模型分割進(jìn)行計(jì)算并沒(méi)有實(shí)現(xiàn)，而這個(gè)問(wèn)題也將隨著應(yīng)用場(chǎng)景的不斷豐富而不斷引起重視，成為開源軟件框架下一個(gè)核心競(jìng)爭(zhēng)點(diǎn)。在實(shí)際工程應(yīng)用中，人工智能算法可選擇多種軟件框架實(shí)現(xiàn)，訓(xùn)練和開發(fā)人工智能模型也可有多種硬件選項(xiàng)，這就開發(fā)者帶來(lái)了不小2應(yīng)用程序編程接口（API）：是一些預(yù)先定義的函數(shù)，目的是提供應(yīng)用中國(guó)信息通信研究院&中國(guó)人工智能產(chǎn)業(yè)發(fā)展聯(lián)盟人工導(dǎo)致在不同軟件框架下開發(fā)的模型之間相互轉(zhuǎn)換存在困難；二是適應(yīng)性問(wèn)題，軟件框架開發(fā)者和計(jì)算芯片廠商需要確保軟件框架和底層計(jì)算芯片之間良好的適配性。解決以上兩個(gè)挑戰(zhàn)的關(guān)鍵技術(shù)之一就是深度神經(jīng)網(wǎng)絡(luò)模型編譯器，它在傳統(tǒng)編譯器功能基礎(chǔ)上，通過(guò)擴(kuò)充面向深度學(xué)習(xí)網(wǎng)絡(luò)模型計(jì)算的專屬功能，以解決深度學(xué)習(xí)模型部署到多種設(shè)備時(shí)可能存在的適應(yīng)性和可移植性問(wèn)題。傳統(tǒng)編譯器缺少對(duì)深度學(xué)習(xí)算法基礎(chǔ)算子（卷積、殘差網(wǎng)絡(luò)及全連接計(jì)算等）的優(yōu)化，且對(duì)人工智能多種形態(tài)的計(jì)算芯片適配缺失，針對(duì)人工智能底層計(jì)算芯片及上層軟件框架進(jìn)行適配優(yōu)化的編譯器需求強(qiáng)烈。目前業(yè)界主要采用依托傳統(tǒng)編譯器架構(gòu)進(jìn)行演進(jìn)升級(jí)的方式來(lái)解決這個(gè)問(wèn)題。當(dāng)前業(yè)界主流編譯器主要包括英偉達(dá)公司的CUDA編譯器，英特爾公司開發(fā)的nGraph以及華盛頓大學(xué)團(tuán)隊(duì)開發(fā)的NNVM編譯器。目前產(chǎn)業(yè)界絕大多數(shù)編譯器都是按照LLVM體系架構(gòu)設(shè)計(jì)的。LLVM全稱LowLevelVirtualMachine，是一種應(yīng)用廣泛的開源編譯于這個(gè)軟件框架的大量工具可以使用，形成了具有實(shí)際標(biāo)準(zhǔn)意義的生英偉達(dá)通過(guò)提供針對(duì)LLVM內(nèi)核的CUDA源代碼及并行線程執(zhí)行后端打造了CUDA編譯器。該編譯器可支持C、C++以及Fortran人工智能發(fā)展白皮書-技術(shù)架構(gòu)篇（2018）中國(guó)信息通信研究院&中國(guó)人工智能產(chǎn)業(yè)發(fā)語(yǔ)言，能夠?yàn)檫\(yùn)用大規(guī)模并行英偉達(dá)GPU的應(yīng)用程序加速。英特爾基于LLVM架構(gòu)打造nGraph計(jì)算庫(kù)，為深度學(xué)習(xí)提供優(yōu)化方法，可以處理所有的計(jì)算芯片抽象細(xì)節(jié)，目前已經(jīng)開發(fā)了TensorFlow/XLA、MXNet和ONNX的軟件框架橋梁；華盛頓大學(xué)基于LLVM架構(gòu)打造了NNVM/TVM編譯器，能夠直接從多個(gè)深度學(xué)習(xí)前端將工作負(fù)載編譯成為優(yōu)化的機(jī)器代碼。實(shí)現(xiàn)端到端的全面優(yōu)化。在工程實(shí)踐中，人工智能軟件框架訓(xùn)練完成的模型將按照中間表示層的規(guī)定進(jìn)行表達(dá)和存儲(chǔ)。中間表示層（IntIR）是編譯器用來(lái)表示源碼的數(shù)據(jù)結(jié)構(gòu)或代碼，可以看作是不同中間件的集合，在性能優(yōu)化及通信方面有著非常重要的作用。上文介紹的LLVM架構(gòu)最大優(yōu)點(diǎn)之一就是其有一個(gè)表達(dá)形式很好的中間表示層語(yǔ)言，這種模塊化設(shè)計(jì)理念能夠支撐各種功能擴(kuò)充，三大主流深度學(xué)習(xí)網(wǎng)絡(luò)模型編譯器均是通過(guò)在中間表示層中增加專屬優(yōu)化的中間件來(lái)實(shí)現(xiàn)功能演進(jìn)創(chuàng)新的。擴(kuò)充性能的中間表示層是打通深度學(xué)習(xí)計(jì)算中多種不同前端訓(xùn)練軟件框架和多種不同后端的表達(dá)橋梁，使深度學(xué)習(xí)網(wǎng)絡(luò)模型編譯器更有效實(shí)現(xiàn)二者之間的優(yōu)化和影射。在深度學(xué)習(xí)網(wǎng)絡(luò)模型編譯器中，中間表示層的核心思想借鑒了LLVM架構(gòu)設(shè)計(jì)，新增加的專屬中間件是解決推斷側(cè)模型運(yùn)行在不同硬件平臺(tái)的重要描述方法。當(dāng)前深度學(xué)習(xí)網(wǎng)絡(luò)模型編譯器的中間表示層主要分為NNVM/TVM和TensorFlowXLA兩大陣營(yíng)，但實(shí)際上類似ONNX、NNEF等模型交中國(guó)信息通信研究院&中國(guó)人工智能產(chǎn)業(yè)發(fā)展聯(lián)盟人工換格式也是各種對(duì)中間層表示的定義。業(yè)界共識(shí)“IR”的競(jìng)爭(zhēng)，將是未來(lái)軟件框架之爭(zhēng)的重要一環(huán)。在工程實(shí)踐上，除了上文提到使用統(tǒng)一的中間表示層對(duì)模型進(jìn)行表達(dá)及存儲(chǔ)外，輸入數(shù)據(jù)格式以及模型表示規(guī)范也同樣是重要的影響主流軟件框架輸入數(shù)據(jù)集格式各有不同。由于在訓(xùn)練中已經(jīng)過(guò)清洗和標(biāo)注的數(shù)據(jù)依然面臨著多線程讀取、對(duì)接后端分布式文件系統(tǒng)等實(shí)際操作問(wèn)題，各主流人工智能軟件框架均采用了不同的技術(shù)和數(shù)據(jù)及PaddlePaddle使用的是RecordIO等。深度學(xué)習(xí)網(wǎng)絡(luò)模型的表示規(guī)范分為兩大陣營(yíng)。第一陣營(yíng)是OpenNeuralNetworkExchange（ONNX，開放神經(jīng)網(wǎng)絡(luò)交換），是一個(gè)用于表示深度學(xué)習(xí)模型的標(biāo)準(zhǔn)，可使模型在不同軟件框架之間進(jìn)行轉(zhuǎn)移。ONNX由微軟和Facebook聯(lián)合發(fā)布，該系統(tǒng)支持的軟件框架目前主要包括Caffe2，PyTorch，CognitiveToolkit和MXNet，而谷歌的TensorFlow并沒(méi)有被包含在內(nèi)。第二陣營(yíng)是NeuralNetworkExchangeFormat（NNEF，神經(jīng)網(wǎng)絡(luò)交換格式），是由KhronosGroup主導(dǎo)的跨廠商神經(jīng)網(wǎng)絡(luò)文件格式，計(jì)劃支持包括Torch,Caffe,TensorFlow,等幾乎所有人工智能軟件框架的模型格式轉(zhuǎn)換，目前已經(jīng)有30多家計(jì)算芯片企業(yè)參與其中。人工智能發(fā)展白皮書-技術(shù)架構(gòu)篇（2018）中國(guó)信息通信研究院&中國(guó)人工智能產(chǎn)業(yè)發(fā)NNEF采用扁平化方式描述網(wǎng)絡(luò)能夠在未來(lái)通過(guò)相似的流程語(yǔ)法描述可以通過(guò)控制流操作描通過(guò)避免涉及到機(jī)器表示及量化的方為張量使用固定的數(shù)據(jù)給深度學(xué)習(xí)計(jì)算芯片提出了更高的要求?？傮w來(lái)看，深度神經(jīng)網(wǎng)絡(luò)對(duì)計(jì)算芯片的需求主要有以下兩個(gè)方面：一是計(jì)算芯片和存儲(chǔ)間海量數(shù)據(jù)通信需求，這里有兩個(gè)層面，一個(gè)是緩存（Cache）和片上存儲(chǔ)（Memory）的要大，另一個(gè)是計(jì)算單元和存儲(chǔ)之間的數(shù)據(jù)交互帶寬要大。二是專用計(jì)算能力的提升，解決對(duì)卷積、殘差網(wǎng)絡(luò)、全連接等計(jì)算類型的大量計(jì)算需求，在提升運(yùn)算的同時(shí)實(shí)現(xiàn)降低功耗?？偟膩?lái)說(shuō)，AI計(jì)算芯片的發(fā)展過(guò)程可以總結(jié)為一直在圍繞如何有效解決存儲(chǔ)與計(jì)算單元的提升這兩個(gè)問(wèn)題而展開，成本問(wèn)題則作為一個(gè)舵手控制著最終的航向。中國(guó)信息通信研究院&中國(guó)人工智能產(chǎn)業(yè)發(fā)展聯(lián)盟人工在深度學(xué)習(xí)訓(xùn)練環(huán)節(jié)，除了使用CPU或GPU進(jìn)行運(yùn)算外，現(xiàn)場(chǎng)可編程門陣列（Field－ProgrammableGateArray，F(xiàn)PGA）以及專用集成電路（ApplicationSpecificIntegratedCircuit，ASIC）也發(fā)揮了重大作用；而用于終端推斷的計(jì)算芯片主要以ASIC為主。性能3功耗性能功耗比中性能功耗CPU在深度學(xué)習(xí)訓(xùn)練場(chǎng)景下表現(xiàn)不佳。最初的深度學(xué)習(xí)場(chǎng)景是使用CPU為架構(gòu)搭建的，如最初GoogleBrain就是基于CPU組成的。但由于CPU其本身是通用計(jì)算器，大量芯片核心面積要服務(wù)于通用場(chǎng)景的元器件，導(dǎo)致可用于浮點(diǎn)計(jì)算的計(jì)算單元偏少，無(wú)法滿足深度學(xué)習(xí)特別是訓(xùn)練環(huán)節(jié)的大量浮點(diǎn)運(yùn)算需求，且并行計(jì)算效率太低，很快被具有數(shù)量眾多的計(jì)算單元、具備強(qiáng)大并行計(jì)算能力的GPU代替。GPU成為目前深度學(xué)習(xí)訓(xùn)練的首要選擇。GPU的關(guān)鍵性能是并行計(jì)算，適合深度學(xué)習(xí)計(jì)算的主要原因一是高帶寬的緩存有效提升大量數(shù)據(jù)通信的效率。GPU的緩存結(jié)構(gòu)為共享緩存，相比于CPU，GPU線程（Thread）之間的數(shù)據(jù)通訊不需要訪問(wèn)全局內(nèi)存，而在共享內(nèi)存中就可以直接訪問(wèn)。二是多計(jì)算核心提升并行計(jì)算能力。G人工智能發(fā)展白皮書-技術(shù)架構(gòu)篇（2018）中國(guó)信息通信研究院&中國(guó)人工智能產(chǎn)業(yè)發(fā)基于由NVIDIA推出的通用并行計(jì)算架構(gòu)CUDA，使GPU能夠解決復(fù)雜的計(jì)算問(wèn)題。其包含的CUDA指令集架構(gòu)（ISA）以及GPU內(nèi)部的并行計(jì)算引擎可針對(duì)當(dāng)前深度學(xué)習(xí)計(jì)算進(jìn)行加速，但是由于深度學(xué)習(xí)算法還未完全穩(wěn)定，若深度學(xué)習(xí)算法發(fā)生大的變化，則GPU存在無(wú)法靈活適配問(wèn)題。沒(méi)有預(yù)先定義的指令集概念，也沒(méi)有確定的數(shù)據(jù)位寬，所以可以實(shí)現(xiàn)應(yīng)用場(chǎng)景的高度定制。但FPGA的靈活性（通用性）也意味著效率的損失。由于FPGA應(yīng)用往往都需要支持很大的數(shù)據(jù)吞吐量，這對(duì)于內(nèi)存帶寬和I/O互連帶寬要求很高。同時(shí)由于邏輯利用功耗大。FPGA市場(chǎng)化的主要阻礙是成本高昂，價(jià)格在幾十到幾萬(wàn)美元一片不等，且應(yīng)用者必須具備電路設(shè)計(jì)知識(shí)和經(jīng)驗(yàn)。由于FPGA省去了流片過(guò)程，在深度學(xué)習(xí)發(fā)展初期成為計(jì)算芯片主要解決方案之一，在GPU和ASIC中取得了權(quán)衡，很好的兼顧了處理速度和控制能力。ASIC（專用集成電路，ApplicationSpecificIntegratedCircuit）是不可配置的高度定制專用計(jì)算芯片。ASIC不同于GPU和FPGA的靈活性，定制化的ASIC一旦制造完成將不能更改，所以初期成本高、開發(fā)周期長(zhǎng)，使得進(jìn)入門檻高。但ASIC作為專用計(jì)算芯片性能高于FPGA，相同工藝的ASIC計(jì)算芯片比FPGA計(jì)算芯片快5-10倍，同時(shí)規(guī)模效應(yīng)會(huì)使得ASIC的成本降低。但高昂的研發(fā)成本和研發(fā)周期是未來(lái)廣泛應(yīng)用的阻礙。ASIC主要生產(chǎn)企業(yè)包括如Google的TPU系列計(jì)算芯片，以及國(guó)內(nèi)的寒武紀(jì)、地平線等公司。中國(guó)信息通信研究院&中國(guó)人工智能產(chǎn)業(yè)發(fā)展聯(lián)盟人工TPU的核心為脈動(dòng)陣列機(jī)，其設(shè)計(jì)思想是將多個(gè)運(yùn)算邏輯單元（ALU）串聯(lián)在一起，復(fù)用從一個(gè)寄存器中讀取的結(jié)果，從而有效平衡了運(yùn)算和I/O的需求。但其只適合做信號(hào)處理的卷積、信號(hào)和圖像處理（signalandimageprocessing），矩陣算術(shù)（matrixarithmetic）和一些非數(shù)值型應(yīng)用（non-numericapplication）。另一類ASIC代表企業(yè)為國(guó)內(nèi)寒武紀(jì)，其DianNao系列核心思想為結(jié)合神經(jīng)網(wǎng)絡(luò)模型的數(shù)據(jù)局部性特點(diǎn)以及計(jì)算特性，進(jìn)行存儲(chǔ)體系以及專用硬件設(shè)計(jì)，從而獲取更好的性能加速比以及計(jì)算功耗比?；谏疃葘W(xué)習(xí)的人工智能技術(shù)，核心在于通過(guò)計(jì)算找尋數(shù)據(jù)中的規(guī)律，運(yùn)用該規(guī)律對(duì)具體任務(wù)進(jìn)行預(yù)測(cè)和決斷。源數(shù)據(jù)需要進(jìn)行采集、標(biāo)注等處理后才能夠使用，標(biāo)注的數(shù)據(jù)形成相應(yīng)數(shù)據(jù)集。業(yè)務(wù)類型主要包括數(shù)據(jù)采集、數(shù)據(jù)處理、數(shù)據(jù)存儲(chǔ)以及數(shù)據(jù)交易等環(huán)節(jié)。當(dāng)前，人工智能數(shù)據(jù)集的參與主體主要有以下幾類:一是學(xué)術(shù)機(jī)類數(shù)據(jù)集以ImageNet為代表，主要用于算法的創(chuàng)新性驗(yàn)證、學(xué)術(shù)競(jìng)賽等，但其迭代速度較慢，難用于實(shí)際應(yīng)用場(chǎng)景。二是政府，等中立機(jī)構(gòu)，他們以公益形式開放的公共數(shù)據(jù)，主要包括政府、銀行機(jī)構(gòu)等行業(yè)數(shù)據(jù)及經(jīng)濟(jì)運(yùn)行數(shù)據(jù)等，數(shù)據(jù)標(biāo)注一般由使用數(shù)據(jù)的機(jī)構(gòu)完成。三是人工智能企業(yè)，他們?yōu)殚_展業(yè)務(wù)而自行建設(shè)數(shù)據(jù)集，企業(yè)一般自行采集，標(biāo)注形成自用數(shù)據(jù)集，或采購(gòu)專業(yè)數(shù)據(jù)公司提供的數(shù)據(jù)外包服務(wù)。四是數(shù)據(jù)處理外包服務(wù)公司，這類公司業(yè)務(wù)包括出售現(xiàn)成數(shù)據(jù)人工智能發(fā)展白皮書-技術(shù)架構(gòu)篇（2018）中國(guó)信息通信研究院&中國(guó)人工智能產(chǎn)業(yè)發(fā)訓(xùn)練集的使用授權(quán)，或根據(jù)用戶的具體需求提供數(shù)據(jù)處理服務(wù)（用戶提供原始數(shù)據(jù)、企業(yè)對(duì)數(shù)據(jù)進(jìn)行轉(zhuǎn)寫、標(biāo)注），具體業(yè)務(wù)服務(wù)形式包括且不限于提供數(shù)據(jù)庫(kù)資源、提供數(shù)據(jù)采集服務(wù)，提供數(shù)據(jù)轉(zhuǎn)寫標(biāo)注當(dāng)前，人工智能基礎(chǔ)數(shù)據(jù)類型主要包括語(yǔ)音語(yǔ)言類（包括聲音、文字、語(yǔ)言學(xué)規(guī)則）、圖像識(shí)別類（包括自然物體、自然環(huán)境、人造據(jù)服務(wù)商總部主要分布在美國(guó)、歐洲等發(fā)達(dá)國(guó)家。但其數(shù)據(jù)處理人員則大多數(shù)分布在第三世界國(guó)家；我國(guó)語(yǔ)音、圖像類資源企業(yè)機(jī)構(gòu)正處于快速發(fā)展階段，為產(chǎn)業(yè)發(fā)展增添了動(dòng)力。深度學(xué)習(xí)使用GPU計(jì)算具有優(yōu)異表現(xiàn)，催生了帶動(dòng)了GPU服務(wù)器的快速發(fā)展；同時(shí)，也帶動(dòng)了以服務(wù)的形式提供人工智能所需要的能力，如深度學(xué)習(xí)計(jì)算類的計(jì)算平臺(tái)，以及語(yǔ)音識(shí)別，人臉識(shí)別等服務(wù)，這也成為人工智能企業(yè)打造生態(tài)的重要抓手。服務(wù)器廠商相繼推出了專為AI而設(shè)計(jì)的、搭載GPU的服務(wù)器。GPU服務(wù)器是基于GPU應(yīng)用于視頻編解碼、深度學(xué)習(xí)、科學(xué)計(jì)算等多種場(chǎng)景的計(jì)算服務(wù)設(shè)備。GPU服務(wù)器為AI云場(chǎng)景對(duì)彈性配置能力予以優(yōu)化，以增強(qiáng)PCI-E拓?fù)浜蛿?shù)量配比的彈性，增加適配多種軟件框架的運(yùn)算需求，可以支持AI模型的線下訓(xùn)練和線上推理兩類場(chǎng)景，能夠讓AI模型訓(xùn)練性能最大化或AI在線推斷效能最大化，一般分為中國(guó)信息通信研究院&中國(guó)人工智能產(chǎn)業(yè)發(fā)展聯(lián)盟人工4卡，8卡，10卡等多種類型。另外，英偉達(dá)等公司推出了專用的GPU一體機(jī)。例如DGX-1系列深度學(xué)習(xí)一體機(jī)，采用定制的硬件架構(gòu)，并使用NVlink提升了CPU、GPU以及內(nèi)存之間的通信速度和帶寬；同時(shí)搭載了集成了NVIDIA開發(fā)的操作系統(tǒng)，NVIDIAdocker環(huán)境和很多常用的Framework的Docker鏡像，實(shí)現(xiàn)了從底層硬件到上層軟件的緊密耦合。類似的產(chǎn)品還有浪潮的AGX-1系列服務(wù)器。為了解決企業(yè)自行搭建AI能力時(shí)遇到的資金、技術(shù)和運(yùn)維管理等方面困難，人工智能企業(yè)紛紛以服務(wù)的形式提供AI所需要的計(jì)算資源、平臺(tái)資源以及基礎(chǔ)應(yīng)用能力。這類服務(wù)的意義在于一是有效推動(dòng)社會(huì)智能化水平的提升，降低企業(yè)使用人工智能的成本，智能向傳統(tǒng)行業(yè)融合。二是人工智能服務(wù)化轉(zhuǎn)型的重要基礎(chǔ)。服務(wù)平臺(tái)使人工智能服務(wù)和應(yīng)用不再封裝于具體產(chǎn)品中，而可以在以線、隨用隨取的服務(wù)形式呈現(xiàn)。三是服務(wù)平臺(tái)成為垂直行業(yè)落地的重要基礎(chǔ)。近兩年，教育、醫(yī)療、金融等傳統(tǒng)行業(yè)對(duì)人工智能相關(guān)技術(shù)和應(yīng)用需求的不斷提升，而服務(wù)平臺(tái)是解決技術(shù)和應(yīng)用的基礎(chǔ)。以服務(wù)形式提供人工智能服務(wù)主要有兩類，即平臺(tái)類的服務(wù)和軟件API形式的服務(wù)。平臺(tái)類服務(wù)主要包含GPU云服務(wù)，深度學(xué)習(xí)平和平臺(tái)即服務(wù)（PlatformasaService，PaaS）層。GPU云服務(wù)是以虛擬機(jī)的形式，為用戶提供GPU計(jì)算資源，可適用于深度學(xué)習(xí)、科學(xué)人工智能發(fā)展白皮書-技術(shù)架構(gòu)篇（2018）中國(guó)信息通信研究院&中國(guó)人工智能產(chǎn)業(yè)發(fā)計(jì)算、圖形圖像渲染、視頻解碼等應(yīng)用場(chǎng)景。深度學(xué)習(xí)平臺(tái)是以提供相應(yīng)的常用深度學(xué)習(xí)算法和模型，組合各種數(shù)據(jù)源、組件模塊，讓用戶可以基于該平臺(tái)對(duì)語(yǔ)音、文本、圖片、視頻等線模型訓(xùn)練、在線模型預(yù)測(cè)及可視化模型評(píng)估。軟件API服務(wù)主要分為智能語(yǔ)音語(yǔ)類服務(wù)和計(jì)算機(jī)視覺(jué)服務(wù)。其中智能語(yǔ)音語(yǔ)類服務(wù)主要提供語(yǔ)音語(yǔ)義相關(guān)的在線服務(wù)，可包括語(yǔ)音識(shí)別、語(yǔ)音合成、聲紋識(shí)別、語(yǔ)音聽轉(zhuǎn)寫等。計(jì)算機(jī)視覺(jué)類服務(wù)主要提供物體檢測(cè)、人臉識(shí)OCR）識(shí)別、智能鑒黃等服務(wù)。目前隨著深度學(xué)習(xí)算法工程化實(shí)現(xiàn)效率的提升和成本的逐漸降低，一些基礎(chǔ)應(yīng)用技術(shù)逐漸成熟，如智能語(yǔ)音，自然語(yǔ)言處理和業(yè)界也開始探索深度學(xué)習(xí)在藝術(shù)創(chuàng)作、路徑優(yōu)化、生物信息學(xué)相關(guān)技術(shù)中的實(shí)現(xiàn)與應(yīng)用，并已經(jīng)取得了矚目的成果。本章主要分析目前商業(yè)較為成熟的智能語(yǔ)音、自然語(yǔ)言處理和計(jì)算機(jī)視覺(jué)技術(shù)的情況，如圖2所示，每個(gè)基礎(chǔ)應(yīng)用技術(shù)各分為若干應(yīng)中國(guó)信息通信研究院&中國(guó)人工智能產(chǎn)業(yè)發(fā)展聯(lián)盟人工智能語(yǔ)音語(yǔ)義技術(shù)主要研究人機(jī)之間語(yǔ)音信息的處理問(wèn)題。簡(jiǎn)單來(lái)說(shuō)，就是讓計(jì)算機(jī)、智能設(shè)備、家用電器等通過(guò)對(duì)語(yǔ)音進(jìn)行分析、理解和合成，實(shí)現(xiàn)人“能聽會(huì)說(shuō)”、具備自然語(yǔ)言交流的能力。按機(jī)器在其中所發(fā)揮作用的不同，分為語(yǔ)音合成技術(shù)、語(yǔ)音識(shí)別技術(shù)、語(yǔ)音評(píng)測(cè)技術(shù)等。語(yǔ)音合成技術(shù)即讓機(jī)器開口說(shuō)話，通過(guò)機(jī)器自動(dòng)將文字信息轉(zhuǎn)化為語(yǔ)音，相當(dāng)于機(jī)器的嘴巴；語(yǔ)音識(shí)別技術(shù)即讓機(jī)器聽懂人說(shuō)話，通過(guò)機(jī)器自動(dòng)將語(yǔ)音信號(hào)轉(zhuǎn)化為文本及相關(guān)信息，相當(dāng)于機(jī)器的耳朵；語(yǔ)音評(píng)測(cè)技術(shù)通過(guò)機(jī)器自動(dòng)對(duì)發(fā)音進(jìn)行評(píng)分、檢錯(cuò)并給出矯正指導(dǎo)。此外，還有根據(jù)人的聲音特征進(jìn)行身份識(shí)別的聲紋識(shí)別技術(shù)，可實(shí)現(xiàn)變聲和聲音模仿的語(yǔ)音轉(zhuǎn)換技術(shù)，以及語(yǔ)音消噪和增強(qiáng)技術(shù)等。智能語(yǔ)音技術(shù)會(huì)成為未來(lái)人機(jī)交互的新方式，將從多個(gè)應(yīng)用形態(tài)成為未來(lái)人機(jī)交互的主要方式。智能音箱類產(chǎn)品提升家庭交互的便利性。智能音箱是從被動(dòng)播放人工智能發(fā)展白皮書-技術(shù)架構(gòu)篇（2018）中國(guó)信息通信研究院&中國(guó)人工智能產(chǎn)業(yè)發(fā)音樂(lè)，過(guò)渡到主動(dòng)獲取信息、音樂(lè)和控制流量的入口。當(dāng)前智能音箱以語(yǔ)音交互技術(shù)為核心，成為作為智能家庭設(shè)備的入口，不但能夠連接和控制各類智能家居終端產(chǎn)品，而且加入了個(gè)性化服務(wù)，如訂票、查詢天氣、播放音頻等能力。個(gè)人智能語(yǔ)音助手重塑了人機(jī)交互模式。個(gè)人語(yǔ)音助手，特別是嵌入到手機(jī)、智能手表、個(gè)人電腦等終端中的語(yǔ)音助手，將顯著提升這類產(chǎn)品的易用性。如蘋果虛擬語(yǔ)音助手Siri與蘋果智能家居平臺(tái)Homekit深度融合，用戶可通過(guò)語(yǔ)音控制智能家居。GoogleNow為用戶提供關(guān)心的內(nèi)容，如新聞、體育比賽、交通、天氣等等。微軟的Cortana主要優(yōu)勢(shì)在于提升個(gè)人計(jì)算機(jī)的易用性。以API形式提供的智能語(yǔ)音服務(wù)成為行業(yè)用戶的重要入口。智能語(yǔ)音API主要提供語(yǔ)音語(yǔ)義相關(guān)的在線服務(wù)，可包括語(yǔ)音識(shí)別、語(yǔ)音合成、聲紋識(shí)別、語(yǔ)音聽轉(zhuǎn)寫等服務(wù)類型，并且可以嵌入到各類產(chǎn)品，服務(wù)或APP中。在商業(yè)端，智能客服、教育（口語(yǔ)評(píng)測(cè)）、醫(yī)療（電子病歷）、金融（業(yè)務(wù)辦理）、安防、法律等領(lǐng)域需求強(qiáng)烈；在個(gè)人用戶領(lǐng)域，智能手機(jī)、自動(dòng)駕駛及輔助駕駛、傳統(tǒng)家電、智能家居等領(lǐng)域需求強(qiáng)烈。計(jì)算機(jī)視覺(jué)識(shí)別這一人工智能基礎(chǔ)應(yīng)用技術(shù)部分已達(dá)商業(yè)化應(yīng)用水平，被用于身份識(shí)別、醫(yī)學(xué)輔助診斷、自動(dòng)駕駛等場(chǎng)景。一般來(lái)講，計(jì)算機(jī)視覺(jué)主要分為圖像分類、目標(biāo)檢測(cè)、目標(biāo)跟蹤中國(guó)信息通信研究院&中國(guó)人工智能產(chǎn)業(yè)發(fā)展聯(lián)盟人工和圖像分割四大基本任務(wù)。圖像分類是指為輸入圖像分配類別標(biāo)簽。自2012年采用深度卷積網(wǎng)絡(luò)方法設(shè)計(jì)的AlexNet奪得ImageNet競(jìng)賽冠軍后，圖像分類開始全面采用深度卷積網(wǎng)絡(luò)。2015年，微軟提出的ResNet采用殘差思想，將輸入中的一部分?jǐn)?shù)據(jù)不經(jīng)過(guò)神經(jīng)網(wǎng)絡(luò)而直接進(jìn)入到輸出中，解決了反向傳播時(shí)的梯度彌散問(wèn)題，從而使得網(wǎng)絡(luò)深度達(dá)到152層，將錯(cuò)誤率降低到3.57%，遠(yuǎn)低于5.1%的人眼識(shí)別錯(cuò)誤率，奪得了ImageNet大賽的冠軍。2017年提出的DenseNet采用密集連接的卷積神經(jīng)網(wǎng)絡(luò)，降低了模型的大小，提高了計(jì)算效率，且具有非常好的抗過(guò)擬合性能。目標(biāo)檢測(cè)指用框標(biāo)出物體的位置并給出物體的類別。2013年加州大學(xué)伯克利分校的RossB.Girshick提出RCNN算法之后，基于卷是基于區(qū)域建議的目標(biāo)檢測(cè)算法，通過(guò)提取候選區(qū)域，對(duì)相應(yīng)區(qū)域進(jìn)SPP-net和MaskR-CNN等系列方法。二是基于回歸的目標(biāo)檢測(cè)算法，如YOLO、SSD和DenseBox等。目標(biāo)跟蹤指在視頻中對(duì)某一物體進(jìn)行連續(xù)標(biāo)識(shí)?；谏疃葘W(xué)習(xí)的跟蹤方法，初期是通過(guò)把神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)到的特征直接應(yīng)用到相關(guān)濾波或Struck的跟蹤框架中，從而得到更好的跟蹤結(jié)果，但同時(shí)也帶來(lái)了計(jì)算量的增加。最近提出了端到端的跟蹤框架，雖然與相關(guān)濾波等傳統(tǒng)方法相比在性能上還較慢，但是這種端到端輸出可以與其他的任務(wù)人工智能發(fā)展白皮書-技術(shù)架構(gòu)篇（2018）中國(guó)信息通信研究院&中國(guó)人工智能產(chǎn)業(yè)發(fā)一起訓(xùn)練，特別是和檢測(cè)分類網(wǎng)絡(luò)相結(jié)合，在實(shí)際應(yīng)用中有著廣泛的圖像分割指將圖像細(xì)分為多個(gè)圖像子區(qū)域。2015年開始，以全卷積神經(jīng)網(wǎng)絡(luò)（FCN）為代表的一系列基于卷積神經(jīng)網(wǎng)絡(luò)的語(yǔ)義分割方法相繼提出，不斷提高圖像語(yǔ)義分割精度，成為目前主流的圖像語(yǔ)義分割方法在政策引導(dǎo)、技術(shù)創(chuàng)新、資本追逐以及消費(fèi)需求的驅(qū)動(dòng)下，基于深度學(xué)習(xí)的計(jì)算機(jī)視覺(jué)應(yīng)用不斷落地成熟，并出現(xiàn)了三大熱點(diǎn)應(yīng)用方已大規(guī)模應(yīng)用到教育、交通、醫(yī)療、安防等行業(yè)領(lǐng)域及樓宇門禁、交通過(guò)檢、公共區(qū)域監(jiān)控、服務(wù)身份認(rèn)證、個(gè)人終端設(shè)備解鎖等特定場(chǎng)景。從2017年春運(yùn)，火車站開啟了“刷臉”進(jìn)站，通過(guò)攝像頭采集旅客的人臉信息，與身份證人臉信息進(jìn)行驗(yàn)證；2017年9月蘋果公司發(fā)布的iPhoneX第一次將3D人臉識(shí)別引入公眾視線，迅速引發(fā)了“移動(dòng)終端+人臉解鎖”的布局風(fēng)潮。二是視頻結(jié)構(gòu)化嶄露頭角，擁有廣闊應(yīng)用前景。視頻結(jié)構(gòu)化就是將視頻這種非結(jié)構(gòu)化的數(shù)據(jù)中的目標(biāo)貼上相對(duì)應(yīng)的標(biāo)簽，變?yōu)榭赏ㄟ^(guò)某種條件進(jìn)行搜索的結(jié)構(gòu)化數(shù)據(jù)。視頻結(jié)構(gòu)化技術(shù)的目標(biāo)是實(shí)現(xiàn)以機(jī)器自動(dòng)處理為主的視頻信息處理和分析。從應(yīng)用前景看，視頻監(jiān)控技術(shù)所面臨的巨大市場(chǎng)潛力為視頻結(jié)構(gòu)化描述提供了廣闊的應(yīng)用前景，中國(guó)信息通信研究院&中國(guó)人工智能產(chǎn)業(yè)發(fā)展聯(lián)盟人工很多行業(yè)需要實(shí)現(xiàn)機(jī)器自動(dòng)處理和分析視頻信息，提取實(shí)時(shí)監(jiān)控視頻或監(jiān)控錄像中的視頻信息，并存儲(chǔ)于中心數(shù)據(jù)庫(kù)中。用戶通過(guò)結(jié)構(gòu)化視頻合成回放，可以快捷的預(yù)覽視頻覆蓋時(shí)間內(nèi)的可疑事件和事件發(fā)三是姿態(tài)識(shí)別讓機(jī)器“察言觀色”，帶來(lái)全新人機(jī)交互體驗(yàn)。在視覺(jué)人機(jī)交互方面，姿態(tài)識(shí)別實(shí)際上是人類形體語(yǔ)言交流的一種延伸。它的主要方式是通過(guò)對(duì)成像設(shè)備中獲取的人體圖像進(jìn)行檢測(cè)、識(shí)別和跟蹤，并對(duì)人體行為進(jìn)行理解和描述。從用戶體驗(yàn)的角姿態(tài)識(shí)別的人機(jī)交互能產(chǎn)品夠大幅度提升人機(jī)交流的自然性，削弱人們對(duì)鼠標(biāo)和鍵盤的依賴，降低操控的復(fù)雜程度。從市場(chǎng)需求的角度來(lái)說(shuō)，姿態(tài)識(shí)別在計(jì)算機(jī)游戲、機(jī)器人控制和家用電器控制等方面具有廣闊的應(yīng)用前景，市場(chǎng)空間十分可觀。自然語(yǔ)言處理（NaturalLanguageProcessing，NLP）是研究計(jì)算機(jī)處理人類語(yǔ)言的一門技術(shù)，是機(jī)器理解并解釋人類寫作與說(shuō)話方式的能力，也是人工智能最初發(fā)展的切入點(diǎn)和目前大家關(guān)注的焦點(diǎn)。自然語(yǔ)言處理主要步驟包括分詞、詞法分析、語(yǔ)法分析、語(yǔ)義分中英文因其語(yǔ)言格式天然進(jìn)行了詞匯分隔，而中文等語(yǔ)言則需要對(duì)詞各類語(yǔ)言中名詞、動(dòng)詞、形容詞、副詞、介詞進(jìn)行分類，并對(duì)多種詞人工智能發(fā)展白皮書-技術(shù)架構(gòu)篇（2018）中國(guó)信息通信研究院&中國(guó)人工智能產(chǎn)業(yè)發(fā)賓語(yǔ)、定語(yǔ)、狀語(yǔ)、補(bǔ)語(yǔ)等句子元素。語(yǔ)義分析是指通過(guò)選擇詞的正確含義，在正確句法的指導(dǎo)下，將句子的正確含義表達(dá)出來(lái)。自然語(yǔ)言處理的應(yīng)用方向主要有文本分類和聚類、信息檢索和過(guò)濾、信息抽取、問(wèn)答系統(tǒng)、機(jī)器翻譯等方向。其中，文本分類和聚類主要是將文本按照關(guān)鍵字詞做出統(tǒng)計(jì)，建造

人人文庫(kù)> 全部分類> 圖紙下載 > 畢業(yè)設(shè)計(jì)

溫馨提示

1. 本站所有資源如無(wú)特殊說(shuō)明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽，若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間，僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理，對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容，請(qǐng)與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

2018年人工智能發(fā)展白皮書技術(shù)架構(gòu)篇

文檔簡(jiǎn)介

溫馨提示

最新文檔

評(píng)論

2018年人工智能發(fā)展白皮書技術(shù)架構(gòu)篇

文檔簡(jiǎn)介

溫馨提示

最新文檔

評(píng)論

相關(guān)文檔