AI芯片行業(yè)深度解析_第1頁
AI芯片行業(yè)深度解析_第2頁
AI芯片行業(yè)深度解析_第3頁
AI芯片行業(yè)深度解析_第4頁
AI芯片行業(yè)深度解析_第5頁
已閱讀5頁,還剩36頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

1、人工智能芯片:AI 巨輪的引擎AI芯片行業(yè)深度解析報告起因近日,Google 公布其第二代 TPU 產品,Apple 也宣稱正在研發(fā)一款名為“蘋果神經引擎(Apple Neural Engine)”的 AI 專用芯片,人工智能芯片浪潮再起。烏鎮(zhèn)圍棋峰會,谷歌人工智能 AlphaGo 橫掃柯潔等人類頂尖棋手,人工智能再度引發(fā)強烈關注。核心觀點人工智能芯片前景廣闊:隨著下游領域智能化需求的拉動,以及軟硬件技術不斷取得突破,人工智能技術再次迎來黃金發(fā)展期,有望引領新一輪技術革命。作為引領人工智能算法發(fā)展方向的深度學習技術,其中的核心環(huán)節(jié)在于采用 AI 芯片大幅提升計算能力,國內外各大科技巨頭紛紛著力

2、布局,人工智能芯片有望實現(xiàn)跨越式增長。各類 AI 芯片百花齊放:人工智能芯片主要包括 GPU、FPGA、ASIC 以及類腦芯片等類別,在人工智能時代,他們發(fā)揮各自優(yōu)勢,呈現(xiàn)百花齊放的態(tài)勢:GPU 并行計算能力突出,在深度學習訓練環(huán)節(jié)具備優(yōu)勢;FPGA 高性能低功耗的特性適合于推理環(huán)節(jié)取代傳統(tǒng)的 CPU;ASIC 芯片專門針對人工智能設計,有望未來成為主流;類腦芯片作為突破性技術路線,未來如實現(xiàn)突破也將推動人工智能產業(yè)長遠發(fā)展。人工智能芯片在云端與終端領域攜手共進:芯片是人工智能技術的核心環(huán)節(jié), 當前各大科技巨頭在云端 AI 芯片領域進步較快,通過“云端化”+“AI 芯片集群化”的模式高效為用戶

3、提供最大化便利;對于終端 AI 芯片領域,目前在汽車、機器人、家居等場景,人工智能技術已經開始得到應用,部分科技巨頭也開始切入相應市場進行布局,終端 AI 芯片領域未來有望放量。目 錄TOC o 1-2 h z u HYPERLINK l _TOC_250017 一、人工智能芯片前景廣闊5 HYPERLINK l _TOC_250016 人工智能市場高速增長5 HYPERLINK l _TOC_250015 深度學習引領人工智能算法發(fā)展方向7 HYPERLINK l _TOC_250014 二、GPU:并行計算能力突出10 HYPERLINK l _TOC_250013 GPU 已獲得廣泛應用

4、10 HYPERLINK l _TOC_250012 GPU 的優(yōu)勢來自并行計算能力11 HYPERLINK l _TOC_250011 Nvidia 壟斷 GPU 市場,國內公司逐步突破12 HYPERLINK l _TOC_250010 三、FPGA:低功耗場景凸顯優(yōu)勢14 HYPERLINK l _TOC_250009 FPGA 性能領先15 HYPERLINK l _TOC_250008 雙寡頭壟斷 FPGA 市場17 HYPERLINK l _TOC_250007 國內 FPGA 產業(yè)孜孜求索19 HYPERLINK l _TOC_250006 四、ASIC:有望成為主流趨勢20 H

5、YPERLINK l _TOC_250005 五、類腦芯片:超越“馮諾依曼”架構的新思路22 HYPERLINK l _TOC_250004 六、人工智能芯片在云端與終端攜手共進25 HYPERLINK l _TOC_250003 云端 AI 芯片領域百家爭鳴25 HYPERLINK l _TOC_250002 終端 AI 芯片領域初露頭角31 HYPERLINK l _TOC_250001 投資建議38 HYPERLINK l _TOC_250000 風險提示40圖表目錄圖 1:人工智能關鍵要素5圖 2:全球人工智能市場規(guī)模(單位:億美元)6圖 3:中國人工智能市場規(guī)模(單位:億元)6圖 4

6、:全球人工智能主要公司6圖 5:國際人工智能領域三巨頭動作6圖 6:國內人工智能主要企業(yè)7圖 7:深度學習 VS 神經網絡8圖 8:深度學習市場規(guī)模8圖 9:深度學習主要市場參與者及開源平臺9圖 10:各公司主要開源平臺列表9圖 11:主要深度學習平臺性能比較9圖 12:GPU 在深度學習領域應用廣泛10圖 13:使用 NVidia 加速計算 GPU 的企業(yè)數量快速增長 11圖 14:CPU 與 GPU 結構差異11圖 15:GPU 在 3 年時間內性能提高 50 倍12圖 16:GPU 每秒計算量遠超 CPU12圖 17:GPU 是 Nvidia 的主要產品(2016 年報) 13圖 18:

7、Nvidia 在 GPU 市場有絕對優(yōu)勢 13圖 19:NVidia 公司加速運算 GPU 及相關產品 13圖 20:Nvidia 近年來財務數據(單位:百萬美元) 13圖 21:中國在 GPU 領域取得最新成就14圖 22:FPGA 內部結構原理圖14圖 23:CPU、GPU 及 FPGA 單次迭代時間比較(單位:微秒)15圖 24:CPU、GPU 及 FPGA 單次迭代能耗比較(單位:毫焦)16圖 25:CPU、GPU 及 FPGA 三種芯片性能比較16圖 26:全球 FPGA 市場規(guī)模保持較快增長(單位:億美元)17圖 27:2016 年 FPGA 市場份額分布17圖 28:英特爾 La

8、ke Crest 架構18圖 29:Canyon Bridge Capital Partners 擬收購 Lattice 19圖 30:谷歌 TPU 內部架構21圖 31:寒武紀芯片21圖 32:寒武紀 2 號 DaDianNao 版圖 21圖 33:中星微 NPU 架構圖22圖 34:2022 年類腦芯片不同類型終端應用占比23圖 35:各國類腦計算研究項目列表23圖 36:各科技巨頭類腦芯片產品列表24圖 37:IBM 第一代 TrueNorth 芯片 24圖 38:第一代 IBM TrueNorth 芯片與第二代比較25圖 39:IBM 神經元計算機包含 16 顆 TrueNorth 芯

9、片 25圖 40:全球云計算市場規(guī)模(億美元)26圖 41:云計算平臺人工智能功能26圖 42:2011 年 Watson 參加節(jié)目Jeopardy并取得冠軍 26圖 43:Watson 產生答案流程 26圖 44:IBM POWER 處理器發(fā)展路徑 27圖 45:POWER8 架構圖27圖 46:微軟 Azure 功能28圖 47:2014 年亞馬遜 AWS 市場份額占比遙遙領先28圖 48:亞馬遜 AWS 能夠提供的服務28圖 49:谷歌云計算平臺29圖 50:阿里云適用場景30圖 51:阿里云新一代 HPC30圖 52:百度與 Altera 合作建立 FPGA 集群 31圖 53:百度開

10、放云功能31圖 54:Nvidia Drive PX 車載計算平臺 32圖 55:Nvidia Drive PX2 平臺 32圖 56:Nvidia Xavier 芯片 33圖 57:高通發(fā)布智能汽車芯片 602A33圖 58:國內汽車電子芯片市場規(guī)模34圖 59:飛思卡爾 Vybrid 處理器35圖 60:賽靈思 FPGA 芯片35圖 61:夏普機器人手機 RoBoHoN35圖 62:亞馬遜 Echo 音箱基本構造36圖 63:Echo 音箱主板芯片構成36圖 64:京東&科大訊飛叮咚音箱37圖 65:叮咚音箱主板構造37圖 66:人工智能芯片及應用37圖 67:A 股上市公司切入人工智能領

11、域情況38一、 人工智能芯片前景廣闊人工智能(AI,Artificial Intelligence)是用于開發(fā)和研究用于模擬甚至擴展人的智能的技術及應用系統(tǒng)的一門新的技術科學。人工智能的目標是對人意識和思維過程的模擬,讓機器做到像人一樣思考,甚至超過人的智能,從而使機器能夠勝任通常需要人類智能才能完成的復雜工作。當前實現(xiàn)人工智能的主要途徑是軟件算法。目前算法主要可以分為工程學方法和模擬法兩種,工程學方法利用大量數據處理經驗,運用傳統(tǒng)的編程技術使系統(tǒng)呈現(xiàn)智能效果,該方法已經在文字識別等領域有所建樹;模擬法則在運算結果和實現(xiàn)方法兩個維度模仿人類或其他生物機理,從而提升算法性能,遺傳算法(GA)及神

12、經網絡(ANN)均屬于此類算法。人工智能算法不同于常規(guī)算法, 需要用到大量的卷積等特定運算,常規(guī)處理器芯片在進行這些運算時效率較低,人工智能算法需要特殊的芯片。目前主流芯片為 GPU 并行計算神經網絡,而 FPGA 和 ASIC 也將成為推動人工智能進步的強大動力。圖 1:人工智能關鍵要素數據來源:艾瑞咨詢,東方證券研究所人工智能市場高速增長在人工智能超過 60 年的發(fā)展歷程中,經歷了漫長的歷史演進和技術更迭,并曾兩次陷入低谷。近幾年隨著工業(yè) 4.0、智能生活、“互聯(lián)網+”等領域的快速進步,加之深度學習算法在語音和視覺識別上取得突破,人工智能技術開始滲透至工業(yè)、醫(yī)療、教育、安全等多個領域,尤其

13、是近兩年來, 由 DeepMind 公司開發(fā)的人工智能機器人 AlphaGo 接連擊敗李世石、柯潔等著名圍棋選手,人工智能受到了全球大范圍關注,迎來了第三個黃金發(fā)展時期。根據艾瑞咨詢的報告,2015 年全球人工智能市場規(guī)模為 74.5 億美元,而到 2020 年市場規(guī)模將擴大至 183 億美元,復合年增長率將達到 19.7%。同時預計到 2020 年,中國人工智能市場規(guī)模將從2015 年的 12 億元增長至 91 億元人民幣,復合年增長率將達到 50.0%圖 2:全球人工智能市場規(guī)模(單位:億美元)圖 3:中國人工智能市場規(guī)模(單位:億元)200180160140120100806040200

14、183CAGR=19.7% 74.520152020100908070605040302010091CAGR=50% 1220152020數據來源:艾瑞咨詢,東方證券研究所數據來源:艾瑞咨詢,東方證券研究所人工智能市場規(guī)模的快速增長得益于其應用領域的不斷開拓。根據 Venture Scanner 對全球 957 家人工智能公司的跟蹤調查,目前已經覆蓋包括深度學習、機器視覺、指紋識別、人臉識別、個人助理、智慧機器人等 13 個具體應用,涉及工業(yè)機器人、安全識別、無人駕駛、智能醫(yī)療、智能家居等多個新興產業(yè),人工智能勢必將成為新一輪科技革命的強大推動力量。正因為此,國際科技公司巨頭正在加速在人工智能

15、領域的布局。谷歌、微軟和英特爾等公司均在該領域不斷深耕,取得巨大進展。圖 4:全球人工智能主要公司圖 5:國際人工智能領域三巨頭動作公司進展應用領域谷歌推出基于人工智能的新搜索算法RankBrain智能搜索聯(lián)合福特研發(fā)無人駕駛汽車無人駕駛開源人工智能平臺TensorFlow深度學習推出基于人工智能的聊天軟件智能機器人微軟推出第三代”微軟小冰” 智能機器人開源機器學習工具包DMTK機器學習推出人臉情緒識別器人臉識別人工智能助理小娜登陸各個平臺智能機器人英特爾6000萬美元投資無人機公司Yuneec無人機5000萬美元投資量子計算機硬件升級收購人工智能公司Saffron數據挖掘167億美元收購Al

16、tera芯片制造數據來源:Venture Scanner,東方證券研究所數據來源:互聯(lián)網,東方證券研究所在國內市場,百度、科大訊飛、阿里巴巴、騰訊等巨頭也紛紛在人工智能領域著力布局,而人工智能的廣闊前景也吸引國內上百家創(chuàng)業(yè)公司投入其中,主要聚焦領域包括智能語音、機器視覺、數據挖掘、智能機器人、無人機等。圖 6:國內人工智能主要企業(yè)數據來源:艾瑞咨詢,東方證券研究所深度學習引領人工智能算法發(fā)展方向目前深度學習作為人工智能最為主流的算法獲得廣泛關注。這一概念由 Hinton 等人于 2006 年提出,其實質是通過構建具有很多隱層的機器學習模型和海量的訓練數據,使機器去學習更有用的特征,從而最終提升

17、分類或預測的準確性。也就是說,深度學習是對不同模式進行建模的一種方式, 其結構具有較多層數的隱層節(jié)點以保證模型的深度;同時深度學習明確突出了特征學習的重要性, 其通過逐層特征變換,將樣本在原空間的特征表示變換到一個新特征空間,從而使識別或預測更加準確。因此深度學習集中體現(xiàn)了機器學習算法的三大趨勢,首先是用較為復雜的模型降低模型偏差,二是用大數據提升統(tǒng)計估計的準確性,三是用可擴展的梯度下降算法求解大規(guī)模優(yōu)化問題。圖 7:深度學習 VS 神經網絡數據來源:互聯(lián)網,東方證券研究所目前“大數據+深度神經網絡”模型已經成為機器學習發(fā)展的核心路徑,根據 Tractica 的預測,到2024 年,深度學習僅

18、僅在軟件方面的市場價值就將超過 104 億美元,硬件和服務方面的收入將會是軟件市場規(guī)模的數倍以上。圖 8:深度學習市場規(guī)模數據來源:Tractica,東方證券研究所面對深度學習龐大的市場前景,各大科技公司紛紛發(fā)力。深度學習不僅要求具備龐大的數據量作為訓練支撐,還需要根據系統(tǒng)輸出和目標之間的誤差調整模型各層參數,直至收斂。因此,全球各大人工智能巨頭爭相開源自身的深度學習平臺,不僅可以為機器學習提供大量的數據支持,同時為機器智能的訓練提供大量現(xiàn)實的場景。例如谷歌在 2015 年 11 月開源深度學習訓練平臺TensorFlow, 用戶可以使用該平臺訓練和導出自己所需要的人工智能模型。圖 9:深度學

19、習主要市場參與者及開源平臺數據來源:Tractica,東方證券研究所圖 10:各公司主要開源平臺列表時間開源平臺名稱公司平臺簡介開發(fā)語言速度靈活性文檔適合模型平臺難度2015年1月Torch7Facebook除了開源Torch7平臺之外,F(xiàn)acebook還開源人工智能硬件服務器Big SurC+/cuda/lua快好全面CNN/RNNLinux/OSX中等2015年10月MXNetDLMC包括各種網絡結構,擁有較友好的Python接口,并且支持混合編程C+/cuda快好全面CNN所有系統(tǒng)中等2015年11月TensorFlowGoogleTensorFlow是一個用來編寫和執(zhí)行機器學習算法的工

20、具C+/cuda/Python中等好中等CNN/RNNLinux/OSX難2015年11月DMTK微軟微軟開源機器學習開源工具包DMTK,其中包含多臺服務器上展開訓練的模塊框架、一個主題建模算法、一個進行自然語言處理的文字嵌入算法C+快好中等DNN/RNN/ CNNWindows/Linux中等2015年11月System MLIBM一門靈活的、可伸縮的機器學習語言,支持描述性分析、分類、聚類、回歸、矩陣分解以及生存分析等算法Java/Scala/Python中等好中等CNN/RNNWindows/Linux/MacOS中等2016年1月CNTK微軟CNTK為一個統(tǒng)一的深度學習工具包,它通過一

21、個有向圖將神經網絡描述為一系列計算步驟C/C+快好全面CNN/RNNWindows中等2016年3月Theano蒙特利爾研究組使得復雜的程序語言Python變得更加簡單,并讓這種語言在GPU上運行C+/cuda/Python中等好中等CNN/RNNLinux/OSX易2016年9月PaddlePaddle百度相對全功能的深度學習框架C+/cuda/Python中等好中等CNN/RNNLinux/OSX中等數據來源:各公司官網,東方證券研究所圖 11:主要深度學習平臺性能比較數據來源:微軟公司官網,東方證券研究所深度學習的興起得益于大數據的發(fā)展、計算機計算能力的大幅提升和算法本身的突破,其中計算

22、能力的大幅度提升則得益于 GPU、FPGA、ASIC 等人工智能芯片的廣泛應用,芯片作為人工智能技術核心環(huán)節(jié),未來前景廣闊。二、 GPU:并行計算能力突出GPU 已獲得廣泛應用GPU 即圖形處理器,原本是在個人電腦、工作站、游戲機和一些移動設備上專門進行圖像運算工作的微處理器。由于其強大的并行計算能力,GPU 逐漸成為目前深度學習領域使用最為廣泛的核心芯片。圖 12:GPU 在深度學習領域應用廣泛數據來源: TechTarget,東方證券研究所GPU 已經在圖像識別、人臉識別、語音識別、視頻分析、自然語言處理等多個領域大放奇彩,并逐漸向醫(yī)藥、安全、能源等領域滲透。下游應用的不斷擴展反過來又催生

23、了加速計算 GPU 的快速發(fā)展。圖 13:使用 NVidia 加速計算 GPU 的企業(yè)數量快速增長數據來源:Nvidia,東方證券研究所GPU 的優(yōu)勢來自并行計算能力GPU 與 CPU 有相同之處,兩者都有總線和外界聯(lián)系,都有自己的緩存系統(tǒng),以及數字和邏輯運算單元。兩者也具有很大的差異。CPU 需要很強的通用性來處理各種不同的數據類型,同時又需要進行邏輯判斷、分支跳轉和中斷等處理,因此 CPU 內部的結構異常復雜;而 GPU 專門執(zhí)行復雜的數學幾何計算,面對的是類型高度統(tǒng)一、相互無依賴的大規(guī)模數據和不需要被打斷的純凈計算環(huán)境。圖 14:CPU 與 GPU 結構差異數據來源:NVidia CUD

24、A,東方證券研究所設計目的和處理數據方式的不同導致 GPU 和 CPU 在設計結構上有著天壤之別,包括:片內緩存體系和數字邏輯運算單元結構。CPU 不斷增加處理器中晶體管的數量,但在運行單線程串行程序過程中,這些晶體管大多數被用作組成高速緩存,這樣做雖然把處理器的功耗控制在合理范圍內, 但也阻礙了性能的進一步提高;GPU 采用數量眾多的計算單元和超長的流水線,但只有非常簡單的控制邏輯而省去了高速緩存,所以與 CPU 擅長邏輯控制和通用類型數據運算不同,GPU 擅長大規(guī)模、獨立的浮點和并行計算,例如計算機圖像處理。圖 15:GPU 在 3 年時間內性能提高 50 倍圖 16:GPU 每秒計算量遠

25、超 CPU數據來源:東方證券研究所數據來源:AllegroViva,東方證券研究所基于深度學習需要在成千上萬的變量中尋找最佳值,并不斷通過嘗試實現(xiàn)收斂的特性,GPU 自身具備的高并行度、矩陣預算和強大的浮點計算能力可以大幅加速深度學習模型的訓練,在相同精度下能提供更快的處理速度、更少的服務器投入和更低的功耗,成為開啟深度學習大門的重要推手。Nvidia 壟斷 GPU 市場,國內公司逐步突破Nvidia 作為 GPU 領域當之無愧的王者,在視覺計算方面擁有數以千計的專利發(fā)明和突破性技術。GPU 作為其核心產品,占據其 84%的收入份額,應用領域涵蓋視頻游戲、電影制作、產品設計、醫(yī)學診斷以及科學研

26、究等各個門類。Nvidia 很早就開始深度神經網絡的研究并致力于開發(fā)加速運算 GPU,目前 Nvidia 已經與谷歌、微軟、IBM、豐田、百度等諸多嘗試利用深度神經網絡來解決海量復雜計算問題的企業(yè)建立合作關系,近年來,公司 GPU 出貨量的市場份額維持在 70%以上的絕對優(yōu)勢地位,遠遠超過 AMD 等競爭對手。3.82%11.92%圖 17:GPU 是 Nvidia 的主要產品(2016 年報)圖 18:Nvidia 在 GPU 市場有絕對優(yōu)勢GPUTegra處理器其他84.25%數據來源:Wind,東方證券研究所數據來源:WCCF Tech,東方證券研究所Nvidia 與下游客戶在深度學習領

27、域的合作不斷加深,已經開發(fā)出多款為深度學習量身打造的 GPU 產品,優(yōu)勢的市場地位使其過去幾年的毛利率維持在50%以上的較高水平。在今年的GTC 大會上, NVIDIA CEO 黃仁勛發(fā)布了首款 Volta 架構的 GPUGV100 以及產品Tesla V100 加速卡, Volta 是一款全新的架構,采用了臺積電 12nm FFN 制程,相較于之前的機遇 Pascal 架構的 GPU 產品是一次質的飛躍。圖 19:NVidia 公司加速運算 GPU 及相關產品圖 20:Nvidia 近年來財務數據(單位:百萬美元)時間產品性能2015年4月GeForce GTX TITAN X全球最快的GP

28、U,采用Nvidia Maxwell GPU架構的TITAN X,結合3072個處理核心,單精度峰值性能為7teraflops,12GB顯存,336.5GB/S帶寬2015年4月DIGITS DevBox平臺采用四個TITAN X GPU、包含DIGITS軟件包,和完整的GPU加速深度學習庫cuDNN2.02015年4月DRIVE PX用于自動駕駛汽車的深度學習平臺,定位是自動駕駛 車載電腦。基于Tegra X1s處理器2015年4月Pascal架構混合精度計算使GPU能在16位浮點精度下?lián)碛袃杀队?2位浮點精度下和容量的計算速度;采用3D堆疊顯存 提高近三倍帶寬;傳輸速度將是目前PCI-Ex

29、press標準的5-12倍2016年4月GP100包含153億個晶體管芯片,CUDA核心增加至1792個, 使精度提升至5.3TFLOPS2017年5月GV100211億晶體管,815平方毫米,基于臺積電的12nm FFN 制程800070006000500040003000200010000營業(yè)收入毛利潤毛利率70%60%50%40%30%20%10%FY 2000FY 2001FY 2002FY 2003FY 2004FY 2005FY 2006FY 2007FY 2008FY 2009FY 2010FY 2011FY 2012FY 2013FY 2014FY 2015FY 2016FY

30、20170%數據來源:Bloomberg,東方證券研究所數據來源:Bloomberg,東方證券研究所中國在 GPU 芯片設計領域發(fā)展相對較晚,當前掌握核心技術的公司包括景嘉微、兆芯等。其中景嘉微研發(fā)的 JM5400 圖形芯片打破國外芯片在我國軍用 GPU 領域的壟斷,實現(xiàn)了軍用 GPU 國產化。圖 21:中國在 GPU 領域取得最新成就時間公司產品進展2014 年景嘉微JM5400與龍芯為合作伙伴,芯片主要應用在軍用飛機和神舟飛船上2016 年兆芯ZX-2000公司主要技術來源于臺灣威盛授權,圖形核心為美國 S3 Graphics數據來源:互聯(lián)網,東方證券研究所三、 FPGA:低功耗場景凸顯優(yōu)

31、勢FPGA,即現(xiàn)場可編程門陣列,它是在 PAL、GAL、CPLD 等可編程器件的基礎上進一步發(fā)展的產物,并作為專用集成電路(ASIC)領域中的一種半定制電路而出現(xiàn),主要為了解決 ASIC 由于大規(guī)模工業(yè)化生產而導致的結構固化,無法滿足某些特定邏輯結構要求的弊端。FPGA 主要由三部分構成:可配置邏輯模塊(CLB)、輸出輸入模塊(IOB)和內部連線(Interconnect)。可編程邏輯塊(CLB)是 FPGA 的主要組成部分,是實現(xiàn)邏輯功能的基本單元,可以根據設計靈活地改變連接和設置,完成不同的邏輯功能;輸入/輸出模塊(IOB)是芯片和外界的接口,提供器件引腳和內部邏輯陣列之間的連接,完成不同

32、電器特性下的輸入/輸出功能;內部連線(Interconnect) 包括各種長度的金屬連線線段和一些可編程連接開關,它們將各個 CLB 之間以及 CLB 與 lOB 之間互相連接起來,構成各種復雜功能的系統(tǒng)。圖 22:FPGA 內部結構原理圖數據來源:基于 FPGA 的圖像處理算法的研究與硬件設計,東方證券研究所FPGA 性能領先FPGA 與 GPU 以及 CPU 相比,具有性能高、能耗低以及可硬件編程的特點。雖然 FPGA 的頻率一般比 CPU 低,但是可以用 FPGA 實現(xiàn)并行度很大的硬件計算器。比如一般CPU 每次只能處理 4 到 8 個指令,在 FPGA 上使用數據并行的方法可以每次處理

33、 256 個或者更多的指令,因此 FPGA 的數據吞吐量遠超 CPU。根據微軟研究院對 CPU、GPU 及 FPGA 在加速計算方面的研究,F(xiàn)PGA 和 GPU 算法的單次迭代時間均優(yōu)于 CPU,且隨著矩陣運算規(guī)模的增加,GPU 與 FPGA 相比于 CPU 的加速優(yōu)勢會越來越明顯。圖 23:CPU、GPU 及 FPGA 單次迭代時間比較(單位:微秒)9080706050403020100CPUGPUFPGA數據來源:和訊名家,東方證券研究所并且,F(xiàn)PGA 在能耗方面具有明顯的優(yōu)勢。CPU 的解碼器通常會占總能耗的 50%,而在 GPU 中, 即使其解碼器的部分相對較小,也會消耗 10%-20

34、%的能源。相比之下,由于 FPGA 內部結構沒有解碼器,加之 FPGA 的主頻比 CPU 及 GPU 低很多,通常 CPU 和 GPU 的主頻在 1-3GHz 之間, 而 FPGA 的主頻在 500MHz 以下,因此,F(xiàn)PGA 的能耗要遠低于 CPU 及 GPU。圖 24:CPU、GPU 及 FPGA 單次迭代能耗比較(單位:毫焦)6543210CPUGPUFPGA數據來源:和訊名家,東方證券研究所FPGA 支持硬件編程。FPGA 能夠使用戶較為方便的設計出所需的硬件邏輯,而且可以進行靜態(tài)重復編程和動態(tài)系統(tǒng)重配置,使系統(tǒng)的硬件功能可以向軟件一樣通過編程來修改,實現(xiàn)靈活而方便的更新和開發(fā),大大提

35、高系統(tǒng)設計的靈活性和通用性。圖 25:CPU、GPU 及 FPGA 三種芯片性能比較硬件CPUGPUFPGA單次迭代時間(微秒)805050單次迭代能耗(毫焦)550.4開發(fā)難度小較小大增加功能容易容易難硬件升級無需修改代碼無需修改代碼需要修改代碼性能/成本高低高片外存儲器內存,容量大,速度低顯存,速度高,容量大內存,速度低開發(fā)周期短短長注:使用芯片產品為微軟芯片基于 BLAS 算法 FPGA 和 GaxPy 算法 CPU、GPU。數據來源:微軟官網,東方證券研究所深度學習 FPGA 可以不再依賴于馮諾依曼架構,而能夠利用分布式片上存儲器以及深度流水線并行,完美地契合了深度學習大計算量的要求;

36、同時 FPGA 支持部分動態(tài)重新配置,這一特性大大降低大規(guī)模深度學習存儲讀取數據的成本;在算法層面 FPGA 給深度學習開拓了另一種思路:GPU等固定架構設計遵循軟件執(zhí)行模型,需要算法進行適應,但 FPGA 較少強調算法去適應某固定計算框架,從而給算法留下更大的自由空間和發(fā)揮余地。然而,F(xiàn)PGA 在展現(xiàn)架構優(yōu)勢的同時也存在不小的弊端,首先就是 FPGA 對于算法的要求更加寬泛,要求研究人員花費大量的時間去編譯和完善;同時,F(xiàn)PGA 的硬件編輯語言十分復雜,這會影響 FPGA 應用于深度學習過程中的效率。FPGA 高性能、低能耗以及可硬件編程的特點使其適用范圍得以擴大,目前 FPGA 主要應用于

37、通訊、醫(yī)療電子、安全、視頻、工業(yè)自動化等領域。廣闊的應用范圍也拉動著 FPGA 未來龐大的市場規(guī)模。據 Gartner 統(tǒng)計,2014 年全球 FPGA 市場規(guī)模達到 50 億美元,2015-2020 年的年均復合增長率為 9%,到 2020 年將達到 84 億美元。圖 26:全球 FPGA 市場規(guī)模保持較快增長(單位:億美元)8465595550717790807060504030201002014201520162017201820192020數據來源:Gartner,東方證券研究所雙寡頭壟斷FPGA 市場面對 FPGA 巨大的增長潛力,國際巨頭紛紛嘗試進入這一市場,據統(tǒng)計全球共有 60

38、多家公司先后出資數十億美元,試圖在 FPGA 行業(yè)占領一席之地,但目前全球 FPGA 市場主要被 Altera 和 Xilinx 瓜分,兩家公司合計占有近 90%的市場份額,合計專利達到 6000 多項,剩余份額被 Lattice 和Microsemi 兩家占據,合計共有超過 3000 項專利。技術專利的限制和漫長的開發(fā)周期使得 FPGA 行業(yè)形成了很高的壁壘,這也進一步鞏固了 Altera 和 Xilinx 兩家公司的優(yōu)勢地位和盈利水平。圖 27:2016 年 FPGA 市場份額分布7%3%36%53%Xilinx Intel(Altera) Microsemi Lattice數據來源:Pa

39、ul Dillien,東方證券研究所Xilinx 和 Altera 公司在深度學習方面都取得了豐碩成果。Xilinx 提出未來深度學習處理器一定要經過模型壓縮、模型定點化和編譯三大步驟,并且擁有針對神經網絡的專用結構。模型壓縮使用戶可以盡可能使用片上存儲來存儲深度學習算法模型,減少內存讀取,以此大幅度減少能耗;模型定點化能夠減少乘法器的大?。痪幾g能夠針對開發(fā)人員的具體要求進行特殊化處理從而實現(xiàn)更加高效的計算。Xilinx 提出的深度學習趨勢為 FPGA 在這一領域的廣泛應用打下堅實的理論基礎。2016 年初英特爾宣布以 167 億美元的高價宣布收購 Altera 公司。英特爾作為在數據處理市場

40、占據超過 95%市場份額的巨頭,一直在相關業(yè)務領域尋找新的增長點。目前的收購行為無疑表明英特爾將推動 FPGA 與 CPU 的整合,在未來的深度學習領域利用 FPGA 的硬件可編程性,在工作負載和計算需求發(fā)生波動時通過改變算法提高計算速度,同時維持較低功耗。在去年 11 月,英特爾發(fā)布了一款叫做 Nervana 的 AI 處理器,這個項目代碼為“Lake Crest”,將會用到 Nervana Engine 和 Neon DNN 相關軟件,這款芯片可以加速各類神經網絡,例如谷歌 TensorFlow 框架,芯片由所謂的“處理集群”陣列構成,相對于浮點運算,這種方法所需的數據量更少,因此帶來了

41、10 倍的性能提升。圖 28:英特爾 Lake Crest 架構數據來源:Intel,東方證券研究所從兩家 FPGA 巨頭的動作可以看出,由于 FPGA 在計算能力和靈活性上大大彌補了 CPU 的短板, 從而未來在深度學習領域 CPU+FPGA 的組合將成為重要的發(fā)展方向。國內 FPGA 產業(yè)孜孜求索2014 年中國 FPGA 市場規(guī)模已經達到 15 億美元,占全球市場份額的三分之一,中國作為全球最大的通訊和軍工市場之一,為了滿足經濟發(fā)展和通訊,尤其是國防等的需要,預計中國未來的 FPGA 市場需求量還會繼續(xù)擴張。雖然政府多年來在此領域投入數百億的科研經費,但由于美國對于技術專利的限制和 FP

42、GA 高聳的技術門檻,國內 FPGA 探索的進程十分艱難,在產品性能、功耗、容量和應用領域上都存在較大差距。目前國內較為知名的 FPGA 相關公司僅有同創(chuàng)國芯、京微雅格、高云等。2016 年 11 月,美國萊迪思半導體(Lattice)宣布,將被 Canyon Bridge Capital Partners 收購。后者是一家新成立的私募股權公司,唯一的投資人是 China Venture Capital Fund 的一家子公司, China Venture Capital Fund 則隸屬于中國國新基金,這筆交易規(guī)模達 13 億美元,若交易順利達成,有望幫助國內企業(yè)在 FPGA 領域實現(xiàn)彎道超

43、車。圖 29:Canyon Bridge Capital Partners 擬收購 Lattice數據來源:Business Insider,東方證券研究所四、 ASIC:有望成為主流趨勢為深度學習量身定制的 ASIC 芯片將在計算速度和功耗上趕超 GPU 和 FPGA,并隨著人工智能滲透率的不斷提升,未來在智能手機、物聯(lián)網、車聯(lián)網等領域,人工智能芯片將得到廣泛應用,廣闊的市場空間為 ASIC 大規(guī)模量產創(chuàng)造了可能。隨著大規(guī)模量產條件下單片成本大幅下降,ASIC 可能會成為未來深度學習領域的主流芯片。目前,科技巨頭紛紛在 ASIC 深度學習芯片上發(fā)力,隨著 AlphaGo 橫掃人類頂尖棋手,谷

44、歌在AlphaGo 中應用的 ASIC 產品 TPU(Tensor Processing Unit)最為受到業(yè)界的熱捧,谷歌于 2016 年 Google I/O 大會上正式介紹第一代 TPU 產品,并于今年 4 月首次發(fā)表論文披露了 TPU 的詳細架構和技術細節(jié),根據谷歌的統(tǒng)計,CPU+TPU 的方案比 CPU+GPU 方案提高單位能耗計算能力3080 倍,提高計算速度 1530 倍,適用于 Google 平臺上 95%的神經網絡應用場景。在今年 5 月的開發(fā)者 I/O 大會上,Google 正式公布了第二代 TPU,又稱為 Cloud TPU,其最大的特色在于相比初代 TPU,它既可以用于

45、訓練神經網絡,又可以用于推理,這既為推理階段進行了優(yōu)化,也為訓練階段進行了優(yōu)化。在性能方面,第二代 TPU 可以達到 180TFLOPs 的浮點性能, 和傳統(tǒng)的 GPU 相比提升 15 倍,更是 CPU 浮點性能的 30 倍。圖 30:谷歌 TPU 內部架構數據來源:Google,東方證券研究所蘋果公司正在研發(fā)一款名為“蘋果神經引擎(Apple Neural Engine)”的 AI 專用芯片,該芯片定位于在本地設備上處理 AI 任務,旨在將主處理器和圖像處理器巨大的計算量分開,把面部識別、語音識別等 AI 相關的任務卸載到 AI 專用模塊上處理,以提升 AI 算法效率,并延長電池壽命,未來其

46、可能應用于自動駕駛、Siri 語音助手及增強現(xiàn)實(AR)技術領域,未來還有可能嵌入 iPhone、iPad 等設備中,該芯片已在原型機中進行了測試。蘋果有望在今年六月即將召開的年度開發(fā)者大會上公布 AI 芯片的研發(fā)進展。國內在深度學習 ASIC 領域也不斷取得突破進展。北京中科寒武紀科技有限公司研發(fā)了國際首個深度學習專用處理器芯片(NPU),NPU 采用了“數據驅動并行計算”的架構,特別擅長處理視頻、圖像類的海量多媒體數據,其具有類似 GPU 的并行計算特點,但相比于 CPU,NPU 可以在線性代數運算上有更高的效率,但功耗上面可以比 CPU 低很多。目前寒武紀芯片 IP 指令集已擴大范圍授權

47、集成到手機、安防、可穿戴設備等終端芯片中,2016 年就已拿到一億元訂單。圖 31:寒武紀芯片圖 32:寒武紀 2 號 DaDianNao 版圖數據來源:雷鋒網,東方證券研究所數據來源:雷鋒網,東方證券研究所2016 年,中星微也推出了量產的 NPU 芯片“星光智能一號”,出貨量主要集中在安防攝像領域, 其中包含授權給其他安防攝像廠商部分,未來將主要向車載攝像頭、無人機航拍、機器人和工業(yè)攝像機方面進行推廣和應用。圖 33:中星微 NPU 架構圖數據來源:中星微,東方證券研究所五、 類腦芯片:超越“馮諾依曼”架構的新思路類腦芯片是一種基于神經形態(tài)工程、借鑒人腦信息處理方式、旨在打破“馮諾依曼”架

48、構束縛, 適于實時處理非結構化信息、具有學習能力的超低功耗新型計算芯片。可以說類腦芯片是更加接近人工智能目標的芯片,其力圖在基本架構上模仿人腦的工作原理,使用神經元和突觸的方式替代傳統(tǒng)“馮諾依曼”架構體系,使芯片能夠進行異步、并行、低速和分布式處理信息數據的能力,同時具備自主感知、識別和學習的能力。類腦芯片將主要實現(xiàn)兩大突破,一是突破傳統(tǒng)“執(zhí)行程序”計算范式的局限,有望形成“自主認知” 的新范式;二是突破傳統(tǒng)計算機體系結構限制,實現(xiàn)數據并行傳送、分布式處理,能夠以極低的功耗實時處理海量數據。類腦芯片實時海量數據處理及極低能耗的特性預示著其廣闊的市場前景。根據 Markets and Marke

49、ts 推測,如果類腦芯片能夠順利進入消費級應用,到 2022 年其市場規(guī)模將達到千億級美元水平,消費終端將占整體市場的 98.17%,其他主流應用包括國防安全、工業(yè)自動化、航空航天等領域。圖 34:2022 年類腦芯片不同類型終端應用占比數據來源:Markets and Markets,東方證券研究所正是由于類腦芯片巨大的發(fā)展?jié)摿蛷V闊的市場前景,各國政府及科技巨頭都在大力推動類腦芯片的研發(fā)進程,包括美國、日本、德國、英國、瑞士等發(fā)達國家已經制定相應的發(fā)展戰(zhàn)略,中國的類腦科學研究項目目前也已經正式啟動。圖 35:各國類腦計算研究項目列表時間國家機構項目名稱開展原因進展2003年日本日本政府腦科

50、學與教育將腦科學研究作為國家教育發(fā)展的一項戰(zhàn)略任 務正在面向教育理論和實際應用進行研究2012年美國美國國防高級研究計劃局DARPA類腦圖像處理器項目在情報、監(jiān)視與偵查數據中,圖像與視頻占據很大比重,而傳統(tǒng)的圖像處理器受器件和架構的制約,其性能雖然不斷增長,但無法滿足日益增長的戰(zhàn)爭畫面和視頻處理需要與密歇根大學合作開發(fā)處理速度比目前圖像處理器 快1000倍,但功耗僅為萬分之一的類腦圖像處理 器,密歇根大學將在四年內分兩階段完成2013年美國美國國立衛(wèi)生研究院BRAIN計劃推動美國神經技術及腦科學研究工作組計劃在未來五年投資將達到每年4億美元, 隨后5年為每年5億美元2013年歐盟歐盟未來技術項

51、目歐盟人腦計劃旨在建立一套基于神經科學的最新的、革命性的信息通信技術,建造一種模擬神經元功能的芯片,并將這種芯片用于建造超級計算機系統(tǒng)該計劃將持續(xù)十年,整體投資11.9億歐元2015年美國情報高級研究計劃局大腦皮層網絡機器智能項目試圖通過數據科學與神經科學的結合,通過人類大腦逆向工程算法快速推進機器學習阿赫人工智能研究,以提高對復雜信息的處理能力該項目計劃執(zhí)行期五年,分三階段完成,各階段將 會涉及人腦神經解剖學和神經生理學研究,以增進 對基于感覺信息處理的大腦皮層計算能力的認識2015年中國中國科技部中國腦計劃從認識腦、保護腦和模擬腦三個方向全面啟動。制定中國的腦科學和類腦研究方案清華大學、中

52、國科學院已經成立類腦研究中心2017年中國中科院、復旦大學、百度、微軟等類腦智能技術及應用國家工程實驗室建立腦認知和腦模擬技術研究與實驗平臺實驗室成立數據來源:互聯(lián)網,東方證券研究所目前一些科技巨頭也積極投入到類腦芯片的研發(fā)之中,并做出了一定的突破。代表產品包括 IBM TrueNorth 芯片、高通 Zeroth 芯片、谷歌公司“神經網絡圖靈機”等。圖 36:各科技巨頭類腦芯片產品列表時間公司芯片名稱研發(fā)過程&目的性能2011.08IBMTrueNorth第一代IBM公司通過模擬大腦結構研制出第一代兩個具有感知認知能力的硅芯片模型能夠像大腦一樣學習和處理信息,并能夠通過經驗進行學習,根據相應

53、神經元連接路徑進行重組2014.08IBMTrueNorth第二代在DARPA投資1億美元的”神經形態(tài)自適應可塑可擴展電子系統(tǒng)”項目的支持下進行開發(fā)神經元數量增加到100萬個,提高3906倍,可編程突觸數量增加976倍,每秒可執(zhí)行460億次突觸計 算,總功耗僅為70毫瓦2013.08高通Zeroth致力于開發(fā)突破傳統(tǒng)模式的全新計算框架,希望打造全新的計算處理器,模擬人類大腦和神經系統(tǒng), 使終端擁有大腦模擬計算驅動的嵌入式認知預計在2015年正式上市,Zeroth也被稱為神經處理單元,用戶可以使用傳統(tǒng)編程語言編寫程序,或利用”NPU訓練”終端實現(xiàn)類似人類的運動和行為2014.04斯坦福大學Neu

54、rogrid建立一種新的神經形態(tài)計算架構速度為普通電腦的9000倍,而所需能量低于普通電腦,產品原型為16個定制芯片組成,能夠模擬100 萬個大腦神經元以及幾十億個突觸連接2014.01谷歌神經網絡圖靈機通過核心芯片研發(fā)超級計算機融合傳統(tǒng)圖靈機和神經網絡的優(yōu)勢,可以在存儲信息的同時從信息中學習新知識,并利用新知識執(zhí)行邏輯任務2015英特爾神經形態(tài)芯片神經形態(tài)芯片未來市場規(guī)模龐大,增長潛力巨大芯片設計基于兩種技術,橫向自旋閥和憶阻器,前者能根據通過的電子自旋方向開關,后者工作方式類似神經元,能復制出大腦處理能力數據來源:互聯(lián)網,東方證券研究所IBM 的 TrueNorth 芯片最受關注。早在 2

55、011 年 8 月,IBM 公司通過模擬大腦結構,首先研制出第一代兩個具有感知認知能力的硅芯片原型,可以像大腦一樣具有學習和處理信息的能力。芯片包含256 個神經元和 256 個軸突,其中一枚芯片包含 65356 個學習突觸,能夠通過經驗進行學習,并根據相應對神經元連接路徑進行重組;而另一枚芯片包含 262144 個可編程突觸,可以根據預先設定,通過強化或弱化神經元之間的連接,更迅速有效地處理信息。但是該芯片“腦容量”的大小僅相當于蟲腦水平。圖 37:IBM 第一代 TrueNorth 芯片數據來源:互聯(lián)網,東方證券研究所2014 年 8 月,IBM 公司推出第二代 TrueNorth 芯片,

56、采用 28nm 硅工藝技術,包括 54 億個晶體管和 4096 個處理核,相當于 100 萬個可編程神經元,以及 2.56 億個可編程突觸。TrueNorth 每個處理核中包含約 120 萬個晶體管,大多數晶體管用作數據存儲、以及與其他核的通信,因此芯片的工作方式類似于人腦的神經元和突觸之間的協(xié)同。與一代相比,二代 TrueNorth 芯片性能大幅提高,且處理核體積僅為第一代的 1/15。目前,IBM 公司已經利用 16 顆 TrueNorth 芯片開發(fā)出一臺神經元計算機原型,具有實時視頻處理能力。圖 38:第一代 IBM TrueNorth 芯片與第二代比較圖 39:IBM 神經元計算機包含

57、 16 顆 TrueNorth 芯片數據來源:東方證券研究所數據來源:互聯(lián)網,東方證券研究所六、 人工智能芯片在云端與終端攜手共進在全球智能化發(fā)展的浪潮中,人工智能已經成為未來發(fā)展的重要領域,根據經濟學人的相關調查, 在 2015 年以后,市場對于人工智能領域的關注度呈現(xiàn)指數級增長,人工智能技術有望引領下一輪科技革命,對于各個科技強國及科技巨頭,如何構建最佳的架構和系統(tǒng)來處理 AI 工作所必需的海量數據是重中之重,從最初的 CPU 到目前應用較為廣泛的加速計算 GPU、FPGA,再到前沿的ASIC、類腦芯片,芯片作為人工智能技術的核心技術環(huán)節(jié),決定了整個領域未來的發(fā)展方向。云端 AI 芯片領域

58、百家爭鳴人工智能技術的發(fā)展跟數據量的飛躍式發(fā)展有密不可分的關系。根據 IDC 報告顯示,預計到 2020 年全球數據總量將超過 40ZB,而這一數據量是 2011 年的 22 倍。并且在過去的幾年,全球的數據量以每年 58%的速度增長。面對如此龐大的數據量,目前平均每年僅有 0.4%的數據得到了良好的分析利用,因此,進一步發(fā)展人工智能關鍵之一就是增強數據挖掘的“縱深”,分析更深層面、更大規(guī)模的數據。另根據 IDC 的調查,隨著云計算技術的不斷發(fā)展,和其超強計算、成本較低等特性被大眾所挖掘, 58%的受調查企業(yè)計劃使用基于網絡的云計算服務,而這一比例遠超 2014 年的 24%。云計算的市場規(guī)模

59、也在逐漸擴大,據 Gartner 的統(tǒng)計,到 2019 年,全球云計算市場規(guī)模將達到 3150 億美元, 遠超當前的 1720 億美元。圖 40:全球云計算市場規(guī)模(億美元)3150281225102000172014701250106075089035003000250020001500100050002010201120122013201420152016201720182019數據來源:Gartner,東方證券研究所因此,人工智能關鍵技術是在云計算和大數據日益成熟的背景下取得了突破性進展,云計算為人工智能提供平臺,而大數據為人工智能提供信息來源。目前各大科技巨頭看好未來人工智能走向云端的

60、發(fā)展態(tài)勢,紛紛在自有云平臺基礎上搭載人工智能系統(tǒng),以期利用沉淀在云端的大數據挖掘價值。圖 41:云計算平臺人工智能功能數據來源:互聯(lián)網,東方證券研究所IBM WastonIBM Watson 由 IBM 歷經 4 年時間研發(fā),并于 2011 年參加美國電視問答節(jié)目Jeopardy勇奪第一而一戰(zhàn)成名。目前Watson 已經發(fā)展成為集分析、發(fā)現(xiàn)、診斷、教學、偵查等功能為一體的綜合性認知計算系統(tǒng)。圖 42:2011 年 Watson 參加節(jié)目Jeopardy并取得冠軍 圖 43:Watson 產生答案流程數據來源:雷鋒網,東方證券研究所數據來源:雷鋒網,東方證券研究所Watson 驚艷的計算、分析能

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論