AI芯片的應(yīng)用落地推動(dòng)產(chǎn)品多樣化_第1頁(yè)
AI芯片的應(yīng)用落地推動(dòng)產(chǎn)品多樣化_第2頁(yè)
AI芯片的應(yīng)用落地推動(dòng)產(chǎn)品多樣化_第3頁(yè)
AI芯片的應(yīng)用落地推動(dòng)產(chǎn)品多樣化_第4頁(yè)
AI芯片的應(yīng)用落地推動(dòng)產(chǎn)品多樣化_第5頁(yè)
已閱讀5頁(yè),還剩19頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、AI 芯片的應(yīng)用落地推動(dòng)產(chǎn)品多樣化觀點(diǎn)聚焦投資建議過(guò)去一年,隨著 AI 在各個(gè)行業(yè)的不斷落地,行業(yè)痛點(diǎn)逐漸被發(fā)現(xiàn), AI 芯片的發(fā)展路徑漸趨明朗。未來(lái)五年,我們預(yù)計(jì) AI 芯片市場(chǎng)的規(guī)模有接近 10 倍的增長(zhǎng),2022 年將達(dá)到 352 億美元。在訓(xùn)練芯片方面,我們繼續(xù)看好 Nvidia 利用 CUDA+GPU 構(gòu)建的生態(tài)環(huán)境優(yōu)勢(shì), 以 Google TPU 為代表的 xPU 很難撼動(dòng)其壟斷地位。隨著終端細(xì)分場(chǎng)景落地,推斷芯片的發(fā)展出現(xiàn)專業(yè)化趨勢(shì),為現(xiàn)有及初創(chuàng)公司提供巨大發(fā)展空間。我們預(yù)計(jì),推斷芯片市場(chǎng)規(guī)模到 2022 年會(huì)超過(guò)訓(xùn)練芯片。中國(guó) AI 芯片設(shè)計(jì)企業(yè)中,建議關(guān)注海思、展銳,比特大陸

2、,寒武紀(jì),地平線,異構(gòu)智能,云天勵(lì)飛,龍加智。產(chǎn)業(yè)鏈上,建議關(guān)注臺(tái)積電,及 IP 廠商 Synopsys、Cadence、GUC 等。理由Nvidia 在訓(xùn)練芯片上的壟斷地位短期很難被撼動(dòng):過(guò)去一年,為維持其訓(xùn)練芯片市場(chǎng)的王者地位,Nvidia 推出 Volta 架構(gòu)以提升GPU 性能,并更新 CUDA 異構(gòu)計(jì)算平臺(tái)繼續(xù)鞏固其開(kāi)發(fā)者生態(tài)環(huán)境。一年前,我們擔(dān)心的“Google 會(huì)影響 NVIDIA 在 AI 芯片的領(lǐng)導(dǎo)地位嗎?”情況并未出現(xiàn)。我們預(yù)計(jì)訓(xùn)練芯片市場(chǎng)未來(lái)五年將保持 54%增速,到 2022 年達(dá)到 172 億美金規(guī)模。推斷芯片開(kāi)始專業(yè)化分工:在手機(jī)芯片方面,蘋果、高通、海思、聯(lián)發(fā)科等

3、芯片公司相繼推出支持 AI 加速功能的新一代芯片,實(shí)現(xiàn)產(chǎn)品附加價(jià)值的提升。寒武紀(jì)等初創(chuàng)公司及 ARM,Cadence 等設(shè)計(jì)企業(yè)主要通過(guò) IP 授權(quán)方式為行業(yè)提供附加價(jià)值。安防芯片方面, 海思、安霸等傳統(tǒng)視頻解碼芯片廠商也推出了支持 AI 加速的新一代產(chǎn)品,與 Nvidia,Mobileye 的終端推斷芯片形成有力競(jìng)爭(zhēng)??春贸鮿?chuàng)企業(yè)在云端推斷和無(wú)人駕駛領(lǐng)域的發(fā)展機(jī)會(huì):AI 在搜索, 電商,語(yǔ)音交互上的大規(guī)模應(yīng)用,為 AI 云端推斷芯片提供了廣闊的市場(chǎng)。由于各種場(chǎng)景對(duì)功耗、響應(yīng)速度等要求不同,硬件針對(duì)不同算法需要做特殊優(yōu)化,這也為獨(dú)立芯片設(shè)計(jì)公司提供了廣闊的發(fā)展前景。自動(dòng)駕駛 AI 芯片上,雖然

4、 Mobileye、Nvidia 暫時(shí)領(lǐng)先,但因真正的全自動(dòng)駕駛實(shí)現(xiàn)起來(lái)非常復(fù)雜,存在不同的發(fā)展路徑,對(duì) Tesla 等整車企業(yè)以及初創(chuàng)公司來(lái)說(shuō)都有發(fā)展機(jī)會(huì)。AI 芯片發(fā)展對(duì)產(chǎn)業(yè)鏈的影響:目前 AI 芯片設(shè)計(jì)百花齊放的格局, 將使 Synopsys、Cadence 等 IP 授權(quán)商,及 GUC 等 IC 后端設(shè)計(jì)商受益。此外,由于 AI 芯片一般采用 10nm 以上先進(jìn)制程,目前利好代工廠商臺(tái)積電。我們也應(yīng)長(zhǎng)期關(guān)注中芯國(guó)際在先進(jìn)工藝上的發(fā)展進(jìn)度。風(fēng)險(xiǎn)人工智能落地速度不及預(yù)期。目錄TOC o 1-2 h z u HYPERLINK l _bookmark0 AI 芯片:場(chǎng)景漸趨明朗,呈現(xiàn)專業(yè)化發(fā)

5、展4 HYPERLINK l _bookmark1 新品競(jìng)相發(fā)布,AI 芯片行業(yè)格局漸趨明朗4 HYPERLINK l _bookmark4 AI 芯片市場(chǎng)規(guī)模:未來(lái)五年有接近 10 倍的增長(zhǎng),2022 年將達(dá)到 352 億美元5 HYPERLINK l _bookmark9 云端訓(xùn)練芯片:TPU 很難撼動(dòng) Nvidia GPU 的壟斷地位7 HYPERLINK l _bookmark16 云端推斷芯片:百家爭(zhēng)鳴,各有千秋10 HYPERLINK l _bookmark22 用于智能手機(jī)的邊緣推斷芯片:競(jìng)爭(zhēng)格局穩(wěn)定,傳統(tǒng)廠商持續(xù)受益13 HYPERLINK l _bookmark28 用于安防

6、邊緣推斷芯片:海思、安霸與 Nvidia、Mobileye 形成有力競(jìng)爭(zhēng)14 HYPERLINK l _bookmark32 用于自動(dòng)駕駛的邊緣推斷芯片:一片藍(lán)海,新競(jìng)爭(zhēng)者有望突圍16 HYPERLINK l _bookmark39 主要中國(guó) AI 芯片公司介紹19 HYPERLINK l _bookmark41 海思半導(dǎo)體(Hisilicon)19 HYPERLINK l _bookmark42 清華紫光展銳 (Tsinghua UNISOC)20 HYPERLINK l _bookmark43 GUC(臺(tái)灣創(chuàng)意電子,3443 TT)20 HYPERLINK l _bookmark44 寒武

7、紀(jì)科技(Cambricon Technologies)20 HYPERLINK l _bookmark45 比特大陸(Bitmain)20 HYPERLINK l _bookmark46 地平線機(jī)器人(Horizon Robotics)20 HYPERLINK l _bookmark47 云天勵(lì)飛(Intellifusion)20 HYPERLINK l _bookmark48 異構(gòu)智能(NovuMind)21 HYPERLINK l _bookmark49 龍加智(Dinoplus)21圖表 HYPERLINK l _bookmark2 圖表 1: 自 2017 年 5 月以來(lái)發(fā)布的 AI

8、芯片一覽4 HYPERLINK l _bookmark3 圖表 2: AI 芯片投資地圖5 HYPERLINK l _bookmark5 圖表 3: AI 芯片市場(chǎng)規(guī)模及競(jìng)爭(zhēng)格局6 HYPERLINK l _bookmark6 圖表 4: 歷代 Apple 手機(jī)芯片成本趨勢(shì)7 HYPERLINK l _bookmark7 圖表 5: 自動(dòng)駕駛算力需求加速芯片升級(jí)7 HYPERLINK l _bookmark8 圖表 6: 英飛凌對(duì)各自動(dòng)駕駛等級(jí)中半導(dǎo)體價(jià)值的預(yù)測(cè)7 HYPERLINK l _bookmark10 圖表 7 : AI 芯片工作流程8 HYPERLINK l _bookmark11

9、 圖表 8: 云端訓(xùn)練芯片對(duì)比8 HYPERLINK l _bookmark12 圖表 9: Intel 單季度數(shù)據(jù)中心組業(yè)務(wù)收入9 HYPERLINK l _bookmark13 圖表 10: Nvidia 單季度數(shù)據(jù)中心業(yè)務(wù)收入9 HYPERLINK l _bookmark14 圖表 11: Xilinx 單季度通訊&數(shù)據(jù)中心業(yè)務(wù)收入9 HYPERLINK l _bookmark15 圖表 12: AMD 單季度計(jì)算&圖形業(yè)務(wù)收入9 HYPERLINK l _bookmark17 圖表 13: 主要云端推斷芯片對(duì)比10 HYPERLINK l _bookmark18 圖表 14: 智能音箱

10、通過(guò)云端推斷芯片工作11 HYPERLINK l _bookmark19 圖表 15: Nvidia 云端推斷芯片提升語(yǔ)音識(shí)別速度11 HYPERLINK l _bookmark20 圖表 16: 推斷芯片助力深度學(xué)習(xí)實(shí)現(xiàn)語(yǔ)義識(shí)別12 HYPERLINK l _bookmark21 圖表 17: TPU+RankBrain 在推斷正確率上獲得提高12 HYPERLINK l _bookmark23 圖表 18: 手機(jī) AI 芯片對(duì)比13 HYPERLINK l _bookmark24 圖表 19: 智能手機(jī) SoC 市占率分析(2017)13 HYPERLINK l _bookmark25 圖

11、表 20: 歷代 Apple 手機(jī)芯片成本趨勢(shì)13 HYPERLINK l _bookmark26 圖表 21:手機(jī) AI 芯片輔助圖片渲染優(yōu)化14 HYPERLINK l _bookmark27 圖表 22: 手機(jī) AI 芯片輔助 Vivo Jovi 處理復(fù)雜命令14 HYPERLINK l _bookmark29 圖表 23: 視頻結(jié)構(gòu)化數(shù)據(jù)提取實(shí)例15 HYPERLINK l _bookmark30 圖表 24: AI 芯片助力結(jié)構(gòu)化分析實(shí)現(xiàn)工作效率提升15 HYPERLINK l _bookmark31 圖表 25: 安防 AI 芯片對(duì)比15 HYPERLINK l _bookmark

12、33 圖表 26: 自動(dòng)駕駛推斷芯片+算法實(shí)現(xiàn)視頻的像素級(jí)語(yǔ)義分割16 HYPERLINK l _bookmark34 圖表 27: 自動(dòng)駕駛推斷芯片+算法實(shí)現(xiàn)自動(dòng)駕駛避障規(guī)劃17 HYPERLINK l _bookmark35 圖表 28: 自動(dòng)駕駛算力需求加速芯片升級(jí)17 HYPERLINK l _bookmark36 圖表 29: 自動(dòng)駕駛平臺(tái)對(duì)比18 HYPERLINK l _bookmark37 圖表 30: 下一代自動(dòng)駕駛 AI 芯片流片及投產(chǎn)時(shí)間預(yù)估18 HYPERLINK l _bookmark38 圖表 31: 各芯片廠商合作方比較18 HYPERLINK l _bookma

13、rk40 圖表 32: 中國(guó)大陸主要 AI 芯片設(shè)計(jì)公司至少有 20 家19AI 芯片:場(chǎng)景漸趨明朗,呈現(xiàn)專業(yè)化發(fā)展新品競(jìng)相發(fā)布,AI 芯片行業(yè)格局漸趨明朗AI 芯片設(shè)計(jì)是人工智能產(chǎn)業(yè)鏈的重要一環(huán)。自 2017 年 5 月以來(lái),各 AI 芯片廠商的新品競(jìng)相發(fā)布,經(jīng)過(guò)一年多的發(fā)展,各環(huán)節(jié)分工逐漸明顯。AI 芯片的應(yīng)用場(chǎng)景不再局限于云端,部署于智能手機(jī)、安防攝像頭、及自動(dòng)駕駛汽車等終端的各項(xiàng)產(chǎn)品日趨豐富。除了追求性能提升外,AI 芯片也逐漸專注于特殊場(chǎng)景的優(yōu)化。圖表 1: 自 2017 年 5 月以來(lái)發(fā)布的 AI 芯片一覽時(shí)間企業(yè)產(chǎn)品類型具體內(nèi)容2017年5月Nvidia云端芯片發(fā)布最新GPU V

14、olta 架構(gòu)芯片2017年5月Google云端芯片發(fā)布TPU 2.02017年5月ARM智能手機(jī)芯片相關(guān)技術(shù)發(fā)布針對(duì)AI優(yōu)化的DynamicIQ芯片架構(gòu)2017年8月Intel安防/無(wú)人機(jī)芯片推出新的Movidius Myriad X VPU2017年8月百度云端芯片發(fā)布XPU,一款256核基于FPGA的云計(jì)算加速芯片2017年9月Intel云端芯片推出自學(xué)習(xí)神經(jīng)元芯片Loihi,采用14nm工藝2017年9月華為海思智能手機(jī)芯片發(fā)布人工智能芯片“Kirin 970”2017年10月Apple智能手機(jī)芯片發(fā)布iPhone X,首次使用A11 Bionic芯片,搭載神經(jīng)網(wǎng)絡(luò)引擎2017年10月

15、深鑒科技安防芯片相關(guān)技術(shù)發(fā)布人臉識(shí)別模組、ARISTOTLE架構(gòu)平臺(tái)等2017年11月寒武紀(jì)智能手機(jī)芯片IP發(fā)布 Cambricon 1H8/1H16/1M芯片2017年11月比特大陸云端芯片發(fā)布全球首款張量加速計(jì)算芯片BM1680等2017年12月Qualcomm智能手機(jī)芯片發(fā)布Snapdragon 845移動(dòng)平臺(tái),采用10nm工藝,支持多種深度學(xué)習(xí)框架2017年12月地平線機(jī)器人安防/自動(dòng)駕駛芯片發(fā)布“旭日”和“征程”兩款嵌入式AI芯片,分別面向智能駕駛和智能攝像頭2018年1月Nvidia自動(dòng)駕駛芯片發(fā)布用于自動(dòng)駕駛的Jetson Xavier芯片,及車載計(jì)算機(jī)Drive PX2018年

16、1月異構(gòu)智能云端芯片發(fā)布NovuTensor一代 AI芯片Pegasus,搭載兩塊Xavier SoC,算力完全支持L52018年4月地平線機(jī)器人自動(dòng)駕駛芯片發(fā)布“征程2.0”芯片及MATRIX 1.0自動(dòng)駕駛計(jì)算平臺(tái)2018年5月Google云端芯片發(fā)布TPU 3.02018年5月寒武紀(jì)云端芯片發(fā)布MLU 100云端智能芯片資料來(lái)源:公司網(wǎng)站,中金公司研究部目前,人工智能產(chǎn)業(yè)鏈中,包括提供 AI 加速核的 IP 授權(quán)商,各種 AI 芯片設(shè)計(jì)公司,以及晶圓代工企業(yè)。按部署的位臵來(lái)分,AI 芯片可以部署在數(shù)據(jù)中心(云端),和手機(jī),安防攝像頭,汽車等終端上。按承擔(dān)的任務(wù)來(lái)分,可以被分為用于構(gòu)建神經(jīng)

17、網(wǎng)絡(luò)模型的訓(xùn)練芯片,與利用神經(jīng)網(wǎng)絡(luò)模型進(jìn)行推斷的推斷芯片。訓(xùn)練芯片注重絕對(duì)的計(jì)算能力,而推斷芯片更注重綜合指標(biāo),單位能耗算力、時(shí)延、成本等都要考慮。訓(xùn)練芯片受算力約束,一般只在云端部署。推斷芯片按照不同應(yīng)用場(chǎng)景,分為手機(jī)邊緣推斷芯片、安防邊緣推斷芯片、自動(dòng)駕駛邊緣推斷芯片。為方便起見(jiàn),我們也稱它們?yōu)槭謾C(jī) AI 芯片、安防 AI 芯片和汽車 AI 芯片。由于AI 芯片對(duì)單位能耗算力要求較高,一般采用14nm/12nm/10nm 等先進(jìn)工藝生產(chǎn)。臺(tái)積電目前和 Nvidia、Xilinx 等多家芯片廠商展開(kāi)合作,攻堅(jiān) 7nm AI 芯片。圖表 2: AI 芯片投資地圖IP 授權(quán)Synopsys (S

18、NPS US) Cadence (CNDS US) GUC (3443 TT)ARM (未上市)設(shè)計(jì)晶圓代工臺(tái)積電(2330 TT)AI 芯片云端邊緣(推斷)訓(xùn)練推斷汽車安防智能手機(jī)Intel (INTC US) Nvidia (NVDA US) Xilinx (XLNX US) Google (GOOG US)Intel (INTC US) Nvidia (NVDA US) Xilinx ( XLNX US) Google ( GOOG US)Mobileye (INTC US) Nvidia (NVDA US) NXP (NXPI US)TI (TXN US)海思半導(dǎo)體 (未上市) 安 霸

19、 (AMBA US) Movidius (INTC US) Nvidia (NVDA US)蘋果 (AAPL US) 高通 (QCOM US) 聯(lián)發(fā)科(2454 TT)海思半導(dǎo)體(未上市)Wave Computing (未上市)Cerebras Systems (未上市)STMicro (STM US)地平線機(jī)器人(未上市)比特大陸(未上市) 寒武紀(jì)科技(未上市)資料來(lái)源:中金公司研究部Graphcore (未上市)Groq (未上市)比特大陸(未上市) 寒武紀(jì)科技(未上市)Renesas(未上市)地平線機(jī)器人(未上市)AI 芯片市場(chǎng)規(guī)模:未來(lái)五年有接近 10 倍的增長(zhǎng),2022 年將達(dá)到 3

20、52 億美元根據(jù)我們對(duì)相關(guān)上市 AI 芯片公司的收入統(tǒng)計(jì),及對(duì) AI 在各場(chǎng)景中滲透率的估算,2017 年 AI 芯片市場(chǎng)規(guī)模已達(dá)到 39.1 億美元,具體情況如下:2017 年全球數(shù)據(jù)中心 AI 芯片規(guī)模合計(jì) 23.6 億美元,其中云端訓(xùn)練芯片市場(chǎng)規(guī)模 20.2億美元,云端推斷芯片 3.4 億美元。2017 年全球手機(jī) AI 芯片市場(chǎng)規(guī)模 3.7 億美元。2017 年全球安防攝像頭 AI 芯片市場(chǎng)規(guī)模 3.3 億美元。2017 年全球自動(dòng)駕駛 AI 芯片的市場(chǎng)規(guī)模在 8.5 億美元。圖表 3: AI 芯片市場(chǎng)規(guī)模及競(jìng)爭(zhēng)格局應(yīng)用場(chǎng)景市場(chǎng)規(guī)模2017(百萬(wàn)美元) 2022(百萬(wàn)美元) CAGR

21、(2017-2022)領(lǐng)導(dǎo)者挑戰(zhàn)者云端訓(xùn)練2,01517,21254%NvidiaGoogle/Intel/AMD/初創(chuàng)公司(機(jī)會(huì)較?。┩茢?437,18684%NvidiaGoogle/Intel/AMD/初創(chuàng)公司(有機(jī)會(huì))邊緣智能手機(jī)3683,79359%蘋果、三星、海思、高通、聯(lián)發(fā)科、展銳初創(chuàng)公司(IP授權(quán)模式可能有機(jī)會(huì))安防3301,82241%海思、安霸、Intel(Movidius)、Nvidia初創(chuàng)公司(機(jī)會(huì)較小)汽車8545,20444%Intel (Mobileye)、Nvidia初創(chuàng)公司(有機(jī)會(huì))合計(jì)39103521755%資料來(lái)源:中金公司研究部Nvidia 在 2017

22、 年時(shí)指出,到 2020 年,全球云端訓(xùn)練芯片的市場(chǎng)規(guī)模將達(dá)到 110 億美元,而推斷芯片(云端+邊緣)的市場(chǎng)規(guī)模將達(dá)到 150 億美元。Intel 在剛剛結(jié)束的 2018 DCI 峰會(huì)上,也重申了數(shù)據(jù)業(yè)務(wù)驅(qū)動(dòng)硬件市場(chǎng)增長(zhǎng)的觀點(diǎn)。Intel 將 2022 年與用于數(shù)據(jù)中心執(zhí)行 AI 加速的 FPGA 的 TAM 預(yù)測(cè),由 70 億美元調(diào)高至 80 億美元。而同時(shí)我們也注意到:手機(jī) SoC 價(jià)格不斷上升、AI 向中端機(jī)型滲透都將為行業(yè)創(chuàng)造更廣闊的市場(chǎng)空間。安防芯片受益于現(xiàn)有設(shè)備的智能化升級(jí),芯片需求擴(kuò)大。自動(dòng)駕駛方面,針對(duì)豐田公司提出的算力需求,我們看到當(dāng)下芯片算力與 L5 級(jí)自動(dòng)駕駛還有較大差

23、距。英飛凌公司給出了各自動(dòng)駕駛等級(jí)中的半導(dǎo)體價(jià)值預(yù)測(cè),可以為我們的 TAM 估算提供參考。結(jié)合以上觀點(diǎn),及我們對(duì) AI 在各應(yīng)用場(chǎng)景下滲透率的分析,我們預(yù)測(cè):云端訓(xùn)練芯片市場(chǎng)規(guī)模在 2022 年將達(dá)到 172 億美元,CAGR54%。云端推斷芯片市場(chǎng)規(guī)模在 2022 年將達(dá)到 72 億美元,CAGR84%。用于智能手機(jī)的邊緣推斷芯片市場(chǎng)規(guī)模 2022 年將達(dá)到 38 億美元,CAGR59%。用于安防攝像頭的邊緣推斷芯片市場(chǎng)規(guī)模 2022 年將達(dá)到 18 億美元,CAGR41%。用于自動(dòng)駕駛汽車的邊緣推斷芯片市場(chǎng)規(guī)模 2022 年將達(dá)到 52 億美元,CAGR44%。圖表 4: 歷代 Apple

24、 手機(jī)芯片成本趨勢(shì)圖表 5: 自動(dòng)駕駛算力需求加速芯片升級(jí) (Usd)26.927.52220191312 TOPS(GOPS, logscale)15x2300 x0.8 TOPS154 GOPS51 GOPS1.9 GOPS301000002510000201000151001010510Apple A6 (2012) Apple A7 (2013) Apple A8 (2014) Apple A9 (2015) Apple A10 (2016) Apple A11 Bionic(2017)iPhone processor cost資料來(lái)源:iHS,中金公司研究部資料來(lái)源:Toyota,中

25、金公司研究部圖表 6: 英飛凌對(duì)各自動(dòng)駕駛等級(jí)中半導(dǎo)體價(jià)值的預(yù)測(cè)資料來(lái)源:Infineon,中金公司研究部云端訓(xùn)練芯片:TPU 很難撼動(dòng) Nvidia GPU 的壟斷地位訓(xùn)練是指通過(guò)大量的數(shù)據(jù)樣本,代入神經(jīng)網(wǎng)絡(luò)模型運(yùn)算并反復(fù)迭代,來(lái)獲得各神經(jīng)元“正確”權(quán)重參數(shù)的過(guò)程。CPU 由于計(jì)算單元少,并行計(jì)算能力較弱,不適合直接執(zhí)行訓(xùn)練任務(wù),因此訓(xùn)練一般采用“CPU+加速芯片”的異構(gòu)計(jì)算模式。目前 Nvidia 的 GPU+CUDA 計(jì)算平臺(tái)是最成熟的 AI 訓(xùn)練方案,除此還有:第三方異構(gòu)計(jì)算平臺(tái) OpenCL + AMD GPU 或 OpenCL+Intel/Xilinx 的 FPGA。云計(jì)算服務(wù)商自

26、研加速芯片(如 Google 的 TPU)這兩種方案。各芯片廠商基于不同方案,都推出了針對(duì)于云端訓(xùn)練的 AI 芯片。圖表 7 : AI 芯片工作流程語(yǔ)音識(shí)別計(jì)算機(jī)視覺(jué)自然語(yǔ)言處理AI服務(wù)深度學(xué)習(xí)訓(xùn)練/推理深度學(xué)習(xí)框架(PaaS)CNTK (MSFT), Torch (FB, DeepMind)Tensorflow (Google)異構(gòu)計(jì)算平臺(tái)CUDA (Nvidia)OpenCL (General)AI加速芯片(IaaS)GPU (Nvidia)GPU (AMD)FPGA (Intel, Xilinx)TPU (Google)資料來(lái)源:中金公司研究部處理器名稱Nvidia P100 (Pasc

27、al)Nvidia V100 PCIe (Volta)Google第五代GPU第六代GPUTPU 2.0GoogleTPU 3.0Intel Stratix 10(FPGA)Xilinx VirtexUltrascale+圖表 8: 云端訓(xùn)練芯片對(duì)比(FPGA)邏輯核心數(shù)3,584(CUDA 核心)5,120(CUDA 核心)多核心多核心多核心多核心深度學(xué)習(xí)計(jì)算能力101204590最高達(dá) 10最高達(dá) 28緩存4MB L26MB L2NANA1MB L21MB L2內(nèi)存大小16GB16GB16GB32GBNAup to 8GB內(nèi)存帶寬720GB/s900GB/s600GB/sNA最高達(dá) 512

28、GB/sNA功耗250W250W約 200-250W約 200W低低資料來(lái)源:Intel,Nvidia,Google,Xilinx,中金公司研究部我們認(rèn)為,從整個(gè)云端訓(xùn)練芯片的市場(chǎng)競(jìng)爭(zhēng)格局來(lái)看,目前 Nvidia GPU 的優(yōu)勢(shì)暫時(shí)明顯。具體情況如下:NvidiaNvidia GPU 在云端訓(xùn)練芯片中占據(jù)領(lǐng)導(dǎo)者地位。GPU 最初只服務(wù)于圖形處理加速,為了使 GPU 能夠更好地用于通用計(jì)算,Nvidia 開(kāi)發(fā)了 CUDA 計(jì)算平臺(tái)。CUDA 對(duì)各種主流學(xué)習(xí)框架的兼容性最好,成為 Nvidia 的核心競(jìng)爭(zhēng)力之一。目前 Nvidia GPU 已發(fā)展到第六代 Volta 架構(gòu),5120 個(gè) CUDA

29、核心提供了超 120 TFLOPS 深度學(xué)習(xí)算力,帶寬高達(dá) 900GB/s,以其優(yōu)異的性能繼續(xù)在全球領(lǐng)先。Nvidia 來(lái)自數(shù)據(jù)中心的收入從 16 財(cái)年 4 季度起開(kāi)始飆升,從 9700 萬(wàn)美元暴增至 19 財(cái)年2 季度的 7.6 億美元,至今仍保持著高于 70%的同比增速,成為訓(xùn)練芯片中絕對(duì)的王者。目前,Nvidia V100 GPU 及次新款產(chǎn)品 P100 GPU 在 AWS 云、微軟云、百度云中都被廣泛應(yīng)用。即便是 Google 的一些深度學(xué)習(xí)訓(xùn)練任務(wù),同樣離不開(kāi) Nvidia GPU。Google在 GPU 之外,云端訓(xùn)練的新入競(jìng)爭(zhēng)者是 TPU。Google 在去年正式發(fā)布了其 TPU

30、 芯片,并在二代產(chǎn)品中開(kāi)始提供對(duì)訓(xùn)練的支持,但比較下來(lái),GPU 仍然擁有最強(qiáng)大的帶寬(900GB/s, 保證數(shù)據(jù)吞吐量)和極高的深度學(xué)習(xí)計(jì)算能力(120 TFLOPS vs. TPUv2 45 TFLOPS),在功 耗上也并沒(méi)有太大劣勢(shì)(TPU 進(jìn)行訓(xùn)練時(shí),引入浮點(diǎn)數(shù)計(jì)算,需要逾 200W 的功耗,遠(yuǎn)不及推斷操作節(jié)能)。目前 TPU 只提供按時(shí)長(zhǎng)付費(fèi)使用的方式,并不對(duì)外直接銷售,市占率暫時(shí)也難以和 Nvidia GPU 匹敵。Intel雖然深度學(xué)習(xí)任務(wù)主要由 GPU 承擔(dān),但 CPU 目前仍是云計(jì)算芯片的主體。Intel 于 2015 年底年收購(gòu)全球第二大 FPGA 廠商 Altera 以后,

31、也積極布局 CPU+FPGA 異構(gòu)計(jì)算助力 AI, 并持續(xù)優(yōu)化 Xeon CPU 結(jié)構(gòu)。2017 年 Intel 發(fā)布了用于 Xeon 服務(wù)器的,新一代標(biāo)準(zhǔn)化的加速卡,使用戶可以 AI 領(lǐng)域進(jìn)行定制計(jì)算加速。得益于龐大的云計(jì)算市場(chǎng)支撐,Intel 數(shù)據(jù)中心組業(yè)務(wù)收入規(guī)模一直位于全球首位,2016-17 年單季保持同比中高個(gè)位數(shù)增長(zhǎng)。2017年 4 季度起,收入同比增速開(kāi)始爬坡至 20%左右,但相比 Nvidia 的強(qiáng)勁增長(zhǎng)態(tài)勢(shì)仍有差距。圖表 9: Intel 單季度數(shù)據(jù)中心組業(yè)務(wù)收入圖表 10: Nvidia 單季度數(shù)據(jù)中心業(yè)務(wù)收入6,0005,0004,0003,0002,0001,000(

32、百萬(wàn)美元)9%5%10%8%9%8%6%20%23%30%26% 25%20%15%10%5%800700600500400300200100250%(百萬(wàn)美元)205%193%186%175%109.70%109% 105%83%71%62.50%10.20%-8.90%200%150%100%50%0%00%1Q2016 2Q2016 3Q2016 4Q2016 1Q2017 2Q2017 3Q2017 4Q2017 1Q2018 2Q20180Q3FY16 Q4FY16 Q1FY17 Q2FY17 Q3FY17 Q4FY17 Q1FY18 Q2FY18 Q3FY18 Q4FY18 Q1F

33、Y19 Q2FY19-50%Intel數(shù)據(jù)中心組業(yè)務(wù)收入同比增長(zhǎng)(%)Nvidia數(shù)據(jù)中心業(yè)務(wù)收入同比增長(zhǎng)(%)資料來(lái)源:公司季報(bào),中金公司研究部資料來(lái)源:公司季報(bào),中金公司研究部圖表 11: Xilinx 單季度通訊&數(shù)據(jù)中心業(yè)務(wù)收入圖表 12: AMD 單季度計(jì)算&圖形業(yè)務(wù)收入 270260250240230220210200(百萬(wàn)美元)0%11%21%10%6%2%0%-3%-14%-8%25%1,200(百萬(wàn)美元)100%95%00080%74%64%80060%60%52%60040%28%25%40020%15%11%2000%-14%20%1,15%10%5%0%-5%-10%-

34、15%-20%0-20%Q3FY16 Q4FY16 Q1FY17 Q2FY17 Q3FY17 Q4FY17 Q1FY18 Q2FY18 Q3FY18 Q4FY18Xilinx 數(shù)據(jù)中心及通信業(yè)務(wù)收入同比增長(zhǎng)(%)1Q2016 2Q2016 3Q2016 4Q2016 1Q2017 2Q2017 3Q2017 4Q2017 1Q2018 2Q2018AMD 圖形及計(jì)算業(yè)務(wù)收入同比增速(%) 資料來(lái)源:公司季報(bào),中金公司研究部資料來(lái)源:公司季報(bào),中金公司研究部Xilinx:Xilinx 是全球最大 FPGA 廠商,F(xiàn)PGA 用于深度學(xué)習(xí)訓(xùn)練擁有功耗上的優(yōu)勢(shì),但缺點(diǎn)是其編程模型過(guò)于復(fù)雜,需要工程師有

35、很強(qiáng)的硬件專業(yè)知識(shí),自 18 財(cái)年 2 季度起,受 4G 資本開(kāi)支下滑影響,通訊及數(shù)據(jù)中心業(yè)務(wù)收入出現(xiàn)同比負(fù)增長(zhǎng)。AMDAMD 雖未單獨(dú)拆分?jǐn)?shù)據(jù)中心收入,但從其計(jì)算和圖像業(yè)務(wù)的收入增長(zhǎng)情況來(lái)看,GPU 銷量向好。目前 AMD GPU 也開(kāi)始切入深度學(xué)習(xí)訓(xùn)練任務(wù),但市場(chǎng)規(guī)模落后于 Nvidia。云端推斷芯片:百家爭(zhēng)鳴,各有千秋推斷是指借助現(xiàn)有神經(jīng)網(wǎng)絡(luò)模型進(jìn)行運(yùn)算,利用新的輸入數(shù)據(jù)來(lái)一次性獲得正確結(jié)論的過(guò)程。推斷過(guò)程對(duì)響應(yīng)速度一般有較高要求,因此會(huì)采用 AI 芯片(搭載訓(xùn)練完成的神經(jīng)網(wǎng)絡(luò)模型)進(jìn)行加速。相比訓(xùn)練芯片,推斷芯片考慮的因素更加綜合:?jiǎn)挝还乃懔?,時(shí)延,成本等等。初期推斷也采用 GPU

36、進(jìn)行加速,但由于應(yīng)用場(chǎng)景的特殊性,依據(jù)具體神經(jīng)網(wǎng)絡(luò)算法優(yōu)化會(huì)帶來(lái)更高的效率,F(xiàn)PGA/ASIC 的表現(xiàn)可能更突出。除了 Nvidia、Google、Xilinx、Altera(Intel) 等傳統(tǒng)芯片大廠涉足云端推斷芯片以外,Wave computing、Groq 等初創(chuàng)公司也加入競(jìng)爭(zhēng)。中國(guó)公司里,寒武紀(jì)、比特大陸同樣積極布局云端芯片業(yè)務(wù)。GoogleTPU 1.0NvidiaP40 GPUNvidiaP4 GPUWavecomputingGroqCambriconMLU 100BitmainBM 1680訓(xùn)練計(jì)算性能NA12 (FP32)5.5 (FP32)支持訓(xùn)練支持訓(xùn)練支持訓(xùn)練2 (FP

37、16)推斷計(jì)算性能90 INT848 INT822 INT8180 INT8400 INT8128 INT8支持推斷片上內(nèi)存24MB11MBNANANANANA功耗75W250W75WNA50W80W25W帶寬34 GB/s350 GB/s192GB/s270GB/sNANA50GB/s圖表 13: 主要云端推斷芯片對(duì)比(TFLOPS)(TOPS)資料來(lái)源:Intel,Nvidia,Google,Wave computing,Groq,寒武紀(jì)科技,比特大陸,中金公司研究部我們認(rèn)為,云端推斷芯片在未來(lái)會(huì)呈現(xiàn)百花齊放的態(tài)勢(shì)。具體情況如下:Nvidia在云端推斷芯片領(lǐng)域,Nvidia 主打產(chǎn)品為 P

38、40 和 P4,二者均采用 TSMC 16nm 制程。Tesla P4 擁有 2560 個(gè)流處理器,每秒可進(jìn)行 22 萬(wàn)億次(TOPS)計(jì)算(對(duì)應(yīng) INT 8)。而性能更強(qiáng)的 Tesla P40 擁有 3840 個(gè)流處理器,每秒可進(jìn)行 47 萬(wàn)億次(TOPS)計(jì)算(對(duì)應(yīng) INT 8)。從單位功耗推斷能力來(lái)看,P4/P40 雖然有進(jìn)步,但仍遜于 TPU。GPU 在推斷上的優(yōu)勢(shì)是帶寬。GoogleGoogle TPU 1.0 為云端推斷而生,其運(yùn)算單元對(duì)神經(jīng)網(wǎng)絡(luò)中的乘加運(yùn)算進(jìn)行了優(yōu)化,并采用整數(shù)運(yùn)算。TPU 1.0 單位功耗算力在量產(chǎn)云端推端芯片中最強(qiáng),達(dá) 1.2TOPS/Watt,優(yōu)于主流 Nv

39、idia GPU。TPU 2.0 在推斷表現(xiàn)上相比于 1 代并沒(méi)有本質(zhì)提升,主要進(jìn)步是引入對(duì)浮點(diǎn)數(shù)運(yùn)算的支持,及更高的片上內(nèi)存。正如前文所述,支持訓(xùn)練的 TPU 功耗也會(huì)變得更高。Wave ComputingWave computing 于 2010 年 12 月成立于加州,目前累計(jì)融資 1.2 億美元,是專注于云端深度學(xué)習(xí)訓(xùn)練和推理的初創(chuàng)公司。Wave computing 的一代 DPU 深度學(xué)習(xí)算力達(dá) 180 TOPS, 且無(wú)需 CPU 來(lái)管理工作流。目前公司正與 Broadcomm 合作在開(kāi)發(fā)二代芯片,將采用 7nm 制程。GroqGroq 是由 Google TPU 初始團(tuán)隊(duì)離職創(chuàng)建的

40、 AI 芯片公司,計(jì)劃在 2018 年發(fā)布第一代 AI芯片產(chǎn)品,對(duì)標(biāo)英偉達(dá)的 GPU。其算力可達(dá) 400 TOPs(INT 8),單位能耗效率表現(xiàn)搶眼。寒武紀(jì)科技寒武紀(jì)在 2017 年 11 月發(fā)布云端芯片 MLU 100,同時(shí)支持訓(xùn)練和推斷,但更側(cè)重于推斷。MLU 100 在 80W 的功耗下就可以達(dá)到 128 TOPS(對(duì)應(yīng) INT 8)的運(yùn)算能力。比特大陸比特大陸的計(jì)算芯片 BM 1680,集成了深度學(xué)習(xí)算法硬件加速模塊(NPUs),應(yīng)用于云端計(jì)算與推理。BM1680 還提供了 4 個(gè)獨(dú)立的 DDR4 通道,用于高速數(shù)據(jù)緩存讀取,以提高系統(tǒng)的執(zhí)行速度。其典型功耗只有 25W,在單位能耗推

41、斷效率上有一定優(yōu)勢(shì)。應(yīng)用場(chǎng)景#1:云端推斷芯片助力智能語(yǔ)音識(shí)別云端推斷芯片提升語(yǔ)音識(shí)別速度。語(yǔ)音識(shí)別是推斷芯片的工作場(chǎng)景之一,如 Amazon 的語(yǔ)音助手 Alexa,其“智能”來(lái)自于 AWS 云中的推斷芯片。Alexa 是預(yù)裝在亞馬遜 Echo 內(nèi)的個(gè)人虛擬助手,可以接收及相應(yīng)語(yǔ)音命令。通過(guò)將語(yǔ)音數(shù)據(jù)上傳到云端,輸入推斷芯片進(jìn)行計(jì)算,再返回結(jié)果至本地來(lái)達(dá)到與人實(shí)現(xiàn)交互的目的。原先云端采用 CPU 進(jìn)行推斷工作,由于算力低,識(shí)別中會(huì)有 300-400ms 的延遲,影響用戶體驗(yàn)。而現(xiàn)今 AWS 云中采用了 Nvidia 的 P40 推斷芯片,結(jié)合 Tensor RT 高性能神經(jīng)網(wǎng)絡(luò)推理引擎(一個(gè)

42、 C+ 庫(kù)),可以將延遲縮減到 7ms。此外,AI 芯片支持深度學(xué)習(xí),降低了語(yǔ)音識(shí)別錯(cuò)誤率。目前,借助云端芯片的良好推斷能力,百度語(yǔ)音助手的語(yǔ)音識(shí)別準(zhǔn)確度已達(dá)到 97%之高。圖表 14: 智能音箱通過(guò)云端推斷芯片工作圖表 15: Nvidia 云端推斷芯片提升語(yǔ)音識(shí)別速度 資料來(lái)源:Amazon,中金公司研究部資料來(lái)源:Nvidia,中金公司研究部應(yīng)用場(chǎng)景#2:推斷芯片應(yīng)用于智能搜索RankBrain 是 Google 眾多搜索算法的一部分,它是一套計(jì)算機(jī)程序,能把知識(shí)庫(kù)中上十億個(gè)頁(yè)面進(jìn)行排序,然后找到與特定查詢最相關(guān)的結(jié)果。目前,Google 每天要處理 30 億條搜索,而其中 15%的詞語(yǔ)

43、是 Google 沒(méi)有見(jiàn)過(guò)的。RankBrain 可以觀察到看似無(wú)關(guān)復(fù)雜搜索之間的模式,并理解它們實(shí)際上是如何彼此關(guān)聯(lián)的,實(shí)現(xiàn)了對(duì)輸入的語(yǔ)義理解。這種能力離不開(kāi) Google 云端推斷芯片 TPU 的輔助。先前,在沒(méi)有深度學(xué)習(xí)情況下,單純依靠 PageRanking 及 InvertedIndex,Google 也能實(shí)現(xiàn)一定程度的對(duì)搜索詞條排序的優(yōu)化,但準(zhǔn)確率不夠。TPU 利用 RankBrain 中的深度學(xué)習(xí)模型,在 80%的情況下計(jì)算出的臵頂詞條,均是人們最想要的結(jié)果。圖表 16: 推斷芯片助力深度學(xué)習(xí)實(shí)現(xiàn)語(yǔ)義識(shí)別圖表 17: TPU+RankBrain 在推斷正確率上獲得提高傳統(tǒng)服務(wù)器T

44、PU+RankBrain處理陌生語(yǔ)句逐詞分開(kāi)搜索語(yǔ)義理解推斷搜索臵頂詞條正確率70%或者更低80%資料來(lái)源:Google,中金公司研究部資料來(lái)源:Google,中金公司研究部用于智能手機(jī)的邊緣推斷芯片:競(jìng)爭(zhēng)格局穩(wěn)定,傳統(tǒng)廠商持續(xù)受益手機(jī)芯片市場(chǎng)目前包括(1)蘋果,三星,華為這類采用芯片+整機(jī)垂直商業(yè)模式的廠商, 以及(2)高通,聯(lián)發(fā)科,展銳等獨(dú)立芯片供應(yīng)商和(3)ARM,Synopsys、Cadence 等向芯片企業(yè)提供獨(dú)立 IP 授權(quán)的供應(yīng)商。采用垂直商業(yè)模式廠商的芯片不對(duì)外發(fā)售,只服務(wù)于自身品牌的整機(jī),性能針對(duì)自身軟件做出了特殊優(yōu)化,靠效率取勝。獨(dú)立芯片供應(yīng)商以相對(duì)更強(qiáng)的性能指標(biāo),來(lái)獲得剩

45、余廠商的市場(chǎng)份額。從 2017 年開(kāi)始,蘋果,華為海思,高通,聯(lián)發(fā)科等主要芯片廠商相繼發(fā)布支持 AI 加速功能的新一代芯片(如下圖),AI 芯片逐漸向中端產(chǎn)品滲透。由于手機(jī)空間有限,獨(dú)立的 AI 芯片很難被手機(jī)廠采用。在 AI 加速芯片設(shè)計(jì)能力上有先發(fā)優(yōu)勢(shì)的企業(yè)(如寒武紀(jì))一般通過(guò) IP 授權(quán)的方式切入。圖表 18: 手機(jī) AI 芯片對(duì)比SoC 供應(yīng)商AppleHuawei HisiliconSamsungQualcommMediaTek芯片名稱A11 BionicKirin 970Exynos 9810Snapdragon 845Helios P60CPU2x Monsoon+4x Mist

46、ral4x Cortex A73 + 4x Cortex A534x M3 (Cortex A75)+ 4x Cortex-A554x Kyro 385 Gold+ 4x Kyro 385 Silver4x Cortex A73+ 4x Cortex A53GPUApple designed 3-core GPUARM Mali-G72 MP12ARM Mali-G72MP12Adreno 630ARM Mali-G72MP12AI處理器Apple designed 2-core neural engineNPUVPUHexagon 685 DSP2 x 140GMACs內(nèi)存LPDDR 4xL

47、PDDR4LPDDR4xLPDDR4xLPDDR3 LPDDR4xISP/攝像頭Apple ISP for faster auto- focusin low-lightDual 14-bit ISPDual-ISPDual 14-bit Spectra 280 ISP1x 32MP or 2x 16MP1x 32MP or 2x20+16MP集成通訊模塊NAKirin 970 Integrated LTE (Category 18/13)Custom Cat.18 LTE modemSnapdragon X20 LTE (Category 18/13)Category 7/13制造工藝TSMC

48、 10nm FinFETTSMC 10nm FinFET10nm FinFET10nm LPPTSMC 12nm FinFET資料來(lái)源:Intel,Nvidia,Google,中金公司研究部對(duì)這些廠商來(lái)說(shuō),我們認(rèn)為 AI 化的主要作用是提升芯片附加價(jià)值與產(chǎn)品單價(jià)。根據(jù) IHS 的數(shù)據(jù),隨著硬件性能的增強(qiáng)及針對(duì)于 AI 的運(yùn)算結(jié)構(gòu)不斷滲透,蘋果 A11 芯片的成本已達(dá)到 27.5 美元。芯片成本持續(xù)上漲有望帶動(dòng)垂直模式廠商整機(jī)售價(jià)走高,在出貨量相同的情況下為現(xiàn)有芯片廠商貢獻(xiàn)更多的營(yíng)業(yè)收入。高通、聯(lián)發(fā)科、展銳等獨(dú)立芯片供應(yīng)商則會(huì)受益于芯片本身 ASP 的提升。圖表 19: 智能手機(jī) SoC 市占率

49、分析(2017)圖表 20: 歷代 Apple 手機(jī)芯片成本趨勢(shì) 5%1%6%8%(Usd)26.927.5222019133018%41%25Qualcomm20AppleMediaTek15SamsungHisilicon10Spreadtrum5Others0Apple A6 (2012) Apple A7 (2013) Apple A8 (2014) Apple A9 (2015) Apple A10 (2016) Apple A11 Bionic(2017)21%iPhone processor cost 資料來(lái)源:CounterPoint,中金公司研究部資料來(lái)源:iHS, 中金公司

50、研究部應(yīng)用場(chǎng)景#1:推斷芯片為 AI 拍照技術(shù)提供硬件支持智能手機(jī)通過(guò) AI 算法+終端推斷芯片,可實(shí)現(xiàn)對(duì)于現(xiàn)實(shí)世界圖像的智能識(shí)別,并在此基礎(chǔ)上進(jìn)行實(shí)時(shí)優(yōu)化:1)從整個(gè)場(chǎng)景識(shí)別,到特殊優(yōu)化過(guò)程中,推斷芯片為算法運(yùn)行提供硬件支持。2)手機(jī)推斷芯片中 GPU、NPU 等單元的協(xié)同工作,實(shí)現(xiàn)了對(duì)邊緣虛化更準(zhǔn)確的處理,使小尺寸感光元件的手機(jī)獲得“單反”級(jí)的景深效果,增加相片的層次感。3) 人臉結(jié)構(gòu)的識(shí)別也離不開(kāi)邊緣推斷芯片,芯片性能的提升直接導(dǎo)致了 AI 美顏、3D 光效等特殊效果變得更加自然。如果缺少終端芯片的支持,一旦運(yùn)行高負(fù)載的 AI 任務(wù)手機(jī)就需要呼喚云端。而云端的相應(yīng)速度不夠,導(dǎo)致 AI 攝

51、影的識(shí)別率和準(zhǔn)確率下降,用戶體驗(yàn)將大打折扣。應(yīng)用場(chǎng)景#2:推斷芯片助力語(yǔ)音助手處理復(fù)雜命令從“聽(tīng)清”到“聽(tīng)懂”,自然語(yǔ)言理解能力提升與推斷芯片硬件的支持分不開(kāi):多麥克風(fēng)方案的普及解決了“聽(tīng)清”的問(wèn)題,而到“聽(tīng)懂”的跨越中自然語(yǔ)言理解能力是關(guān)鍵。這不僅對(duì)云端訓(xùn)練好的模型質(zhì)量有很高要求,也必須用到推斷芯片大量的計(jì)算。隨著對(duì)話式 AI 算法的發(fā)展,手機(jī) AI 芯片性能的提升,語(yǔ)音助手在識(shí)別語(yǔ)音模式、分辨模糊語(yǔ)音、剔除環(huán)境噪聲干擾等方面能力得到了優(yōu)化,可以接受理解更加復(fù)雜的語(yǔ)音命令。3D人像打光分級(jí)曝光逆光也清晰雙攝+AI背景虛化AI智慧美顏圖表 21:手機(jī) AI 芯片輔助圖片渲染優(yōu)化圖表 22: 手

52、機(jī) AI 芯片輔助 Vivo Jovi 處理復(fù)雜命令資料來(lái)源:OPPO,中金公司研究部資料來(lái)源:Vivo,中金公司研究部用于安防邊緣推斷芯片:海思、安霸與 Nvidia、Mobileye 形成有力競(jìng)爭(zhēng)視頻監(jiān)控行業(yè)在過(guò)去十幾年主要經(jīng)歷了“高清化”、“網(wǎng)絡(luò)化”的兩次換代,而隨著 2016 年以來(lái) AI 在視頻分析領(lǐng)域的突破,目前視頻監(jiān)控行業(yè)正處于第三次重要升級(jí)周期“智能化”的開(kāi)始階段。前端攝像頭裝備終端推斷芯片,可以實(shí)時(shí)對(duì)視頻數(shù)據(jù)進(jìn)行結(jié)構(gòu)化處理,“云+邊緣”的邊緣計(jì)算解決方案逐漸滲透。我們預(yù)計(jì),應(yīng)用安防攝像頭的推斷芯片市場(chǎng)規(guī)模,將從 2017 年的 3.3 億美元,增長(zhǎng)至 2022 年的 18 億

53、美元,CAGR41%。應(yīng)用場(chǎng)景:安防邊緣推斷芯片實(shí)現(xiàn)結(jié)構(gòu)化數(shù)據(jù)提取,減輕云端壓力即便采用 H.265 編碼,目前每日從攝像機(jī)傳輸?shù)皆贫说臄?shù)據(jù)也在 20G 左右,不僅給存儲(chǔ)造成了很大的壓力,也增加了數(shù)據(jù)的傳輸時(shí)間。邊緣推斷芯片在安防端的主要應(yīng)用,基于將視頻流在本地轉(zhuǎn)化為結(jié)構(gòu)化數(shù)據(jù)。這樣既節(jié)省云端存儲(chǔ)空間,也提升系統(tǒng)工作效率?!耙曨l結(jié)構(gòu)化”,簡(jiǎn)言之即從視頻中結(jié)構(gòu)化提取關(guān)鍵目標(biāo),包括車輛、人及其特征等。雖然這種對(duì)數(shù)據(jù)的有效壓縮要通過(guò)算法實(shí)現(xiàn),但硬件的支持不可或缺。根據(jù)??低曁峁┑陌咐覀兛梢钥吹?,由邊緣推斷芯片支持的結(jié)構(gòu)化分析,可以使原本長(zhǎng)達(dá)一個(gè)月的檢索時(shí)長(zhǎng)縮減到 5 秒內(nèi),大幅降低了公安部門的

54、工作強(qiáng)度及難度。圖表 23: 視頻結(jié)構(gòu)化數(shù)據(jù)提取實(shí)例圖表 24: AI 芯片助力結(jié)構(gòu)化分析實(shí)現(xiàn)工作效率提升 人工分析??到Y(jié)構(gòu)化分析監(jiān)控點(diǎn)數(shù)量500視頻時(shí)長(zhǎng)250小時(shí)檢索時(shí)長(zhǎng)30天5秒內(nèi)視頻中人流量50萬(wàn)人嘗試使用人海戰(zhàn)術(shù)進(jìn)行查看優(yōu)劣耗時(shí)久,易疲憊,可能遺漏關(guān)鍵信息分析速度快,效率高節(jié)省公安干警辦案時(shí)間其他案例剖析2012年,南京“1.6”周XX搶劫案監(jiān)控點(diǎn):1萬(wàn)多個(gè)視頻:2000T視頻查閱人員:1500多名公安干警耗時(shí):1個(gè)多月資料來(lái)源:明景科技,中金公司研究部資料來(lái)源:海康威視,中金公司研究部傳統(tǒng)視頻解碼芯片廠商積極布局 AI 升級(jí)。華為海思、安霸(Ambarella)都在近一年內(nèi)推出了支持

55、 AI 的安防邊緣推斷芯片。海思的 HI3559A 配備了雙核神經(jīng)網(wǎng)絡(luò)加速引擎,并成 為第一款支持 8k 視頻的芯片;安霸也通過(guò)集成 Cvflows 張量處理器到最新的 CV2S 芯片中, 以實(shí)現(xiàn)對(duì) CNN/DNN 算法的支持。打入視頻監(jiān)控解決方案龍頭??低暎瑢?shí)現(xiàn)前裝的 Nvidia,Movidius 同樣不甘示弱,Movidius 發(fā)布的最新產(chǎn)品 Myriad X 搭載神經(jīng)計(jì)算引擎,在 2W 的功耗下可實(shí)現(xiàn) 1TOPS 的算力。Nvidia TX2 是TX1 的升級(jí)產(chǎn)品,算力更強(qiáng),達(dá)到 1.5TFLOPS, 存儲(chǔ)能力也有提升。圖表 25: 安防 AI 芯片對(duì)比供應(yīng)商名稱華為海思Movidi

56、usNvidia安霸芯片型號(hào)HI3559AMyriad XJetson TX2CV2S發(fā)布時(shí)間2017/102017/082017/032018/05處理器2x A73 CPU、2x A53 CPU+ Mali G71 GPU+4x DSP+2x NNIE神經(jīng)網(wǎng)絡(luò)加速引擎神經(jīng)計(jì)算引擎(NCE)+ 16x 128-bit 流式混合架構(gòu)向量引擎2x Denver 2 CPU+ 4x A57 CPU,Pascal 64-bit GPU4x 64-bit A53 CPU+集成Cvflow張量處理器專門處理CNN/DNN算法運(yùn)算能力0.6 TOPS1 TOPS1.5 TFLOPSNA功耗NA2W7.5W

57、NA特點(diǎn)提供8K30/4K120 的數(shù)字視頻錄制支持H.265編碼輸出或4K30 RAW視頻輸出支持多路4K sensor輸入多路ISP圖像處理內(nèi)臵雙目深度檢測(cè)單元支持4K60編解碼16路MIPI通道最多支持連接8個(gè)高清攝像機(jī)提供4K60編解碼支持12路CSI通道 最多支持6個(gè)攝像機(jī)支持4K60編解碼8路MIPI通道資料來(lái)源: 海思半導(dǎo)體,Movidius,Nvidia,安霸,中金公司研究部我們認(rèn)為,目前整個(gè)安防 AI 芯片市場(chǎng)競(jìng)爭(zhēng)格局穩(wěn)定,現(xiàn)有廠商憑借與下游客戶長(zhǎng)期的合作,有望繼續(xù)受益于安防智能化的升級(jí),屬于新進(jìn)入者的市場(chǎng)空間有限。安防 AI 芯片下游客戶穩(wěn)定,為??低?、大華股份等視頻監(jiān)控

58、解決方案提供商??蛻襞c傳統(tǒng)視頻解碼芯片廠商的長(zhǎng)期合作具有粘性,同樣推出新產(chǎn)品,初創(chuàng)公司的競(jìng)爭(zhēng)優(yōu)勢(shì)弱一些,尤其是在安防 AI 芯片性能差異化很難做到很大的情況下。用于自動(dòng)駕駛的邊緣推斷芯片:一片藍(lán)海,新競(jìng)爭(zhēng)者有望突圍除了智能手機(jī),安防外,自動(dòng)駕駛汽車也是人工智能的落地場(chǎng)景之一。車用半導(dǎo)體強(qiáng)大需求已經(jīng)使供給端產(chǎn)能開(kāi)始吃緊,而用于自動(dòng)駕駛的推斷芯片需求,同樣有望在未來(lái) 5年內(nèi)實(shí)現(xiàn)高速增長(zhǎng)。我們預(yù)計(jì),其市場(chǎng)規(guī)模將從 2017 年的 8.5 億美元,增長(zhǎng)至 2022 年的 52 億美元,CAGR44%。若想使車輛實(shí)現(xiàn)真正的自動(dòng)駕駛,要經(jīng)歷在感知-建模-決策三個(gè)階段,每個(gè)階段都離不 開(kāi)終端推斷芯片的計(jì)算。

59、應(yīng)用場(chǎng)景#1:自動(dòng)駕駛芯片助力環(huán)境感知在車輛感知周圍環(huán)境的過(guò)程中,融合各路傳感器的數(shù)據(jù)并進(jìn)行分析是一項(xiàng)艱巨的工作, 推斷芯片在其中起到了關(guān)鍵性作用。我們首先要對(duì)各路獲得的“圖像”數(shù)據(jù)進(jìn)行分類, 在此基礎(chǔ)之上,以包圍盒的(bounding box)形式辨別出圖像中的目標(biāo)具體在什么位臵。但這并不能滿足需求:車輛必須要辨別目標(biāo)到底是其他車輛,是標(biāo)志物,是信號(hào)燈,還是人等等,因?yàn)椴煌繕?biāo)的行為方式各異,其位臵、狀態(tài)變化,會(huì)影響到車輛最終的決策,因而我們要對(duì)圖像進(jìn)行語(yǔ)義分割(segmantation,自動(dòng)駕駛的核心算法技術(shù))。語(yǔ)義分割的快慢和推斷芯片計(jì)算能力直接相關(guān),時(shí)延大的芯片很顯然存在安全隱患,不符

60、合自動(dòng)駕駛的要求。圖表 26: 自動(dòng)駕駛推斷芯片+算法實(shí)現(xiàn)視頻的像素級(jí)語(yǔ)義分割資料來(lái)源:地平線機(jī)器人,中金公司研究部應(yīng)用場(chǎng)景#2:自動(dòng)駕駛芯片助力避障規(guī)劃避障規(guī)劃是車輛主要探測(cè)障礙物,并對(duì)障礙物的移動(dòng)軌跡跟蹤(Moving object detection and tracking,即 MODAT)做出下一步可能位臵的推算,最終繪制出一幅含有現(xiàn)存、及潛在風(fēng)險(xiǎn)障礙物地圖的行為。出于安全的要求,這個(gè)風(fēng)險(xiǎn)提示的時(shí)延應(yīng)該被控制在 50ms級(jí)。隨著車速越來(lái)越快,無(wú)人車可行駛的路況越來(lái)越復(fù)雜,該數(shù)值在未來(lái)需要進(jìn)一步縮短,對(duì)算法效率及推斷芯片的算力都是極大的挑戰(zhàn)。例如,在復(fù)雜的城區(qū)路況下,所需算力可能超過(guò)

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論