版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)
文檔簡介
請務(wù)必閱讀正文之后的信息披露和免責(zé)申明請務(wù)必閱讀正文之后的信息披露和免責(zé)申明1半導(dǎo)體人工智能倒逼芯片底層的真正變革人類精密制造領(lǐng)域(半導(dǎo)體制造是目前為止人類制造領(lǐng)域的最巔峰)遇到硅基極限的挑戰(zhàn),摩爾定律的放緩似乎預(yù)示著底層架構(gòu)上的芯片性能的再提升已經(jīng)出現(xiàn)瓶頸,而數(shù)據(jù)量的增長卻呈現(xiàn)指數(shù)型的爆發(fā),兩者之間的不匹配勢必會帶來技術(shù)和產(chǎn)業(yè)上的變革升級。變革從底層架構(gòu)開始。計算的體系處于碎片化引發(fā)架構(gòu)變革。數(shù)據(jù)的擴張遠大于處理器性能的擴張,依靠處理器性能在摩爾定律推動下的提升的單極世界已經(jīng)崩潰,處理器性能提升的速度并不足以滿足AI所需的應(yīng)用程序的需求。大量數(shù)據(jù)消耗的數(shù)字運算能力比幾年前所有數(shù)據(jù)中心加起來還要多?;隈T諾伊曼架構(gòu)的拓撲結(jié)構(gòu)已經(jīng)持續(xù)了很多年并沒有本質(zhì)上的變化。而人工智能帶來的,是在摩爾定律放緩維度下引發(fā)芯片底層架構(gòu)重構(gòu)的變革。有可能引發(fā)的是一次超越以往任何時代的科技革命基于摩爾定律的機器時代的架構(gòu)——從Wintel到AA馮諾伊曼架構(gòu)帶來了計算體系的建立并通過Intel實現(xiàn)了最大化;ARM通過共享IP的商業(yè)模式帶來了更開放的生態(tài)體系,實現(xiàn)了軟硬件的結(jié)合延伸了人類的觸角觀察Intel和ARM的黃金十年,站在現(xiàn)在時點往后看,我們提出以下觀點:過去十年以下游的應(yīng)用驅(qū)動設(shè)計公司的成長轉(zhuǎn)換為由設(shè)計公司主導(dǎo)應(yīng)用正在發(fā)生。從需求層面看企業(yè)成長空間。類似90年代的PC和10年的智能手機帶來的億級大空間增量市場將很容易推動企業(yè)的快速增長。設(shè)計企業(yè)能夠在成長軌跡上實現(xiàn)跨越式突破的可能性來自于賽道的選擇。但站在現(xiàn)在時點看,人工智能是確定性的方向,在所有已有領(lǐng)域的人工智能滲透,都將極大的改變?nèi)祟惖纳睢L幱谧钋把氐男酒镜母镄抡谝源硕l(fā)生,重新定義底層架構(gòu)的芯片,從上游推動行業(yè)的變革。在并沒有具體應(yīng)用場景爆發(fā)之前已經(jīng)給予芯片公司充分的高估值就是認可設(shè)計公司的價值人工智能芯片——新架構(gòu)的異軍突起觀察人工智能系統(tǒng)的搭建,以目前的架構(gòu)而言,主要是以各種加速器來實現(xiàn)深度學(xué)習(xí)算法。討論各種加速器的形式和實現(xiàn),并探討加速器變革下引發(fā)的行業(yè)深層次轉(zhuǎn)變。認為人工智能芯片將有可能在摩爾定律放緩維度下引發(fā)芯片底層架構(gòu)重構(gòu)的變革。從2個維度測算人工智能芯片空間從兩個維度討論人工智能芯片的市場空間測算。維度一從人工智能總市場規(guī)??臻g反推芯片,維度二詳細拆分云端/移動端所需人工智能加速器的BOM進而推斷人工智能芯片市場空間。二個維度印證到2020年人工智能芯片將達到百億美元市場重點標(biāo)的:Intel,臺積電,NVIDIA,全志科技,富瀚微,北京君正證券研究報告2017年09月16日半導(dǎo)體滬深300-5%-11%-17%-23%資料來源:貝格數(shù)據(jù)1《半導(dǎo)體-行業(yè)研究周報:一周半導(dǎo)體2《半導(dǎo)體-行業(yè)點評:邊際改善提升業(yè)3《半導(dǎo)體-行業(yè)點評:抽絲剝繭——探尋本輪半導(dǎo)體元器件漲價背后的原因》風(fēng)險提示:人工智能芯片發(fā)展不達預(yù)期請務(wù)必閱讀正文之后的信息披露和免責(zé)申明請務(wù)必閱讀正文之后的信息披露和免責(zé)申明21.人工智能倒逼芯片底層的真正變革 42.基于摩爾定律的機器時代的架構(gòu)——從Wintel到AA 62.1.Intel——PC時代的王者榮耀 6 62.1.2.Intel帶來的PC行業(yè)的市場規(guī)模變革和產(chǎn)業(yè)變化 72.2.ARM——開放生態(tài)下移動時代的新王加冕 9 92.2.2.ARM架構(gòu)——重新塑造移動智能時代 102.2.3.生態(tài)的建立和商業(yè)模式的轉(zhuǎn)變——ARM重塑了行業(yè) 123.人工智能芯片——新架構(gòu)的異軍突起 15 16 17 193.3.ASIC——定制化的專用人工智能芯片 21 22 233.4.人工神經(jīng)網(wǎng)絡(luò)芯片 243.4.1.寒武紀(jì)——真正的不同 254.從2個維度測算人工智能芯片空間 265.重點標(biāo)的 29圖1:遵從摩爾定律發(fā)展到微處理器發(fā)展 4圖2:摩爾定律在放緩 4圖3:全球智能手機每月產(chǎn)生的數(shù)據(jù)量(EB)5年提升了13X 4圖4:單一神經(jīng)元VS復(fù)雜神經(jīng)元 5圖5:2次應(yīng)用驅(qū)動芯片發(fā)展 6圖6:英特爾x86處理器總市場份額 6圖7:使用X86架構(gòu)的單元 7圖8:摩爾定律下推動下的Intel股價上揚 8圖9:Intel2012Q1-2016Q4各產(chǎn)品線增速 8 8圖11:IntelVS全球半導(dǎo)體增速 8圖12:ARM的商業(yè)模式 9圖13:ARM架構(gòu)的發(fā)展 10圖14:高級消費電子產(chǎn)品正在結(jié)合更多的ARM技術(shù) 12圖15:ARM在智能手機中的成分 13圖16:基于ARM芯片的出貨量 13請務(wù)必閱讀正文之后的信息披露和免責(zé)申明請務(wù)必閱讀正文之后的信息披露和免責(zé)申明3圖17:ARM在載有處理器芯片部門的市場占有率 14圖18:ARM收入及利潤情況 14圖19:人工智能芯片產(chǎn)業(yè)鏈 15 16 16 17 17圖24:2012-2016年NVIDIA營收情況 18圖25:2012-2016年NVIDIA毛利情況 18圖26:NVIDIA2017年上半年收入構(gòu)成 18 20 20 20 21 22 22 23圖34:3D景深結(jié)構(gòu) 23圖35:3D成像 23 23 24圖38:傳統(tǒng)硬件處理方式 25圖39:寒武紀(jì)處理方式 25圖40:寒武紀(jì)芯片性能/能效 25圖41:終端和移動端 25圖42:人工智能市場規(guī)模 26圖43:人工智能芯片總市場規(guī)模 27表9:云端市場規(guī)模(單位:百萬美元) 28圖44:云端領(lǐng)域人工智能芯片規(guī)模預(yù)測 28圖45:終端領(lǐng)域人工智能芯片市場規(guī)模預(yù)測 29表1:ARM架構(gòu)匯總 11表2:2020年ARM在各類型智能手機部件中的可獲得的單機收入 13表3:人工智能系統(tǒng) 15 19 19表6:圖像應(yīng)用和語音應(yīng)用人工智能定制芯片 21表7:實現(xiàn)原理 22表8:馮諾伊曼架構(gòu)VS神經(jīng)網(wǎng)絡(luò)芯片架構(gòu) 24請務(wù)必閱讀正文之后的信息披露和免責(zé)申明請務(wù)必閱讀正文之后的信息披露和免責(zé)申明4研究人類的科技發(fā)展史,發(fā)現(xiàn)科技的進步速度呈現(xiàn)指數(shù)型加速態(tài)勢。尤其在1950年以后進入芯片時代,摩爾定律推動下的每18個月“芯片晶體管同比例縮小一半”帶來的性能提升以倍數(shù)計。每一次加速的過程推動,都引發(fā)了產(chǎn)業(yè)的深層次變革,帶動從底層到系統(tǒng)的階躍。我們本篇報告將著重從底層芯片角度出發(fā),探討人工智能芯片帶來的深層次變革。資料來源:Gartner,天風(fēng)證券研究所然而時至今日,人類精密制造領(lǐng)域(半導(dǎo)體制造是目前為止人類制造領(lǐng)域的最巔峰)遇到硅基極限的挑戰(zhàn),摩爾定律的放緩似乎預(yù)示著底層架構(gòu)上的芯片性能的再提升已經(jīng)出現(xiàn)瓶頸,而數(shù)據(jù)量的增長卻呈現(xiàn)指數(shù)型的爆發(fā),兩者之間的不匹配勢必會帶來技術(shù)和產(chǎn)業(yè)上的變革升級。資料來源:IFS,天風(fēng)證券研究所86420資料來源:CiscoVNL,天風(fēng)證券研究所請務(wù)必閱讀正文之后的信息披露和免責(zé)申明請務(wù)必閱讀正文之后的信息披露和免責(zé)申明5變革從底層架構(gòu)開始計算芯片的架構(gòu)50多年來都沒有發(fā)生過本質(zhì)上的變化,請注意計算架構(gòu)的決定是資源的組織形式。而傳統(tǒng)的馮諾伊曼是采取控制流架構(gòu),采用的是線性的記憶體和布爾函數(shù)作為基線計算操作。處理器的架構(gòu)基于流水線串行處理的機制建立,存儲器和處理器分離,流水線的計算過程可以分解為取指令,執(zhí)行,取數(shù)據(jù),數(shù)據(jù)存儲,依次循環(huán)。依靠整個串行的過程,邏輯清晰,但性能的提升通過兩種方式,一是摩爾定律下推動下晶體管數(shù)量的增多實現(xiàn)性能倍增;二是通過并行多個芯片核來實現(xiàn)。無論何種方式,本質(zhì)上都是線性的性能擴張。人工智能芯片根據(jù)數(shù)據(jù)流的碎片化和分布式而采取神經(jīng)網(wǎng)絡(luò)計算范式,特征在于分布式的表示和激活模式。變量由疊加在共享物理資源上的向量表示,并且通過神經(jīng)元的激活來進行計算。以神經(jīng)元架構(gòu)實現(xiàn)深度學(xué)習(xí)人工智能的臨界點實現(xiàn)主要原因在于:數(shù)據(jù)量的激增和計算機能力/成本。深度學(xué)習(xí)以神經(jīng)元為架構(gòu)。從單一的神經(jīng)元,再到簡單的神經(jīng)網(wǎng)絡(luò),到一個用于語音識別的深層神經(jīng)網(wǎng)絡(luò)。層次間的復(fù)雜度呈幾何倍數(shù)的遞增。數(shù)據(jù)量的激增要求的就是芯片計算能力的提升。資料來源:NVIDIA,天風(fēng)證券研究所計算的體系處于碎片化引發(fā)架構(gòu)變革。數(shù)據(jù)的擴張遠大于處理器性能的擴張,依靠處理器性能在摩爾定律推動下的提升的單極世界已經(jīng)崩潰,處理器性能提升的速度并不足以滿足AI所需的應(yīng)用程序的需求。大量數(shù)據(jù)消耗的數(shù)字運算能力比幾年前所有數(shù)據(jù)中心加起來還要多。我們在下一章將觀察歷史上兩次重要的電子產(chǎn)業(yè)變革,試圖證明無論是PC時代的“Wintel”還是智能手機時代的“ARM+Android”,都還無法擺脫機器本身的桎梏。換句話說,截止于現(xiàn)階段的一切技術(shù)和應(yīng)用,基于馮諾伊曼架構(gòu)的拓撲結(jié)構(gòu)已經(jīng)持續(xù)了很多年并沒有本質(zhì)上的變化。而人工智能帶來的,是在摩爾定律放緩維度下引發(fā)芯片底層架構(gòu)重構(gòu)的變革。有可能引發(fā)的是一次超越以往任何時代的科技革命。請務(wù)必閱讀正文之后的信息披露和免責(zé)申明請務(wù)必閱讀正文之后的信息披露和免責(zé)申明6本章我們重點討論兩次芯片架構(gòu)變化引發(fā)的產(chǎn)業(yè)變革和應(yīng)用爆發(fā)。Intel與Windows結(jié)合構(gòu)建PC生態(tài),本質(zhì)上誕生了軟硬件結(jié)合的機器時代。而在其基礎(chǔ)上的延升,2010后蘋果帶來的智能手機引發(fā)的ARM與Android生態(tài),將機器與人的結(jié)合拓展到了移動端。我們回顧歷史上的芯片架構(gòu)歷史,認為馮諾伊曼架構(gòu)帶來了計算體系的建立并通過Intel實現(xiàn)了最大化;ARM通過共享IP的商業(yè)模式帶來了更開放的生態(tài)體系,實現(xiàn)了軟硬件的結(jié)合延伸了人類的觸角。資料來源:SIA,天風(fēng)證券研究所觀察Intel和ARM的黃金十年,站在現(xiàn)在時點往后看,我們提出以下觀點:過去十年以下游的應(yīng)用驅(qū)動設(shè)計公司的成長轉(zhuǎn)換為由設(shè)計公司主導(dǎo)應(yīng)用正在發(fā)生。從需求層面看企業(yè)成長空間。類似90年代的PC和10年的智能手機帶來的億級大空間增量市場將很容易推動企業(yè)的快速增長。設(shè)計企業(yè)能夠在成長軌跡上實現(xiàn)跨越式突破的可能性來自于賽道的選擇。但站在現(xiàn)在時點看,人工智能是確定性的方向,在所有已有領(lǐng)域的人工智能滲透,都將極大的改變?nèi)祟惖纳?。處于最前沿的芯片公司的革新正在以此而發(fā)生,重新定義底層架構(gòu)的芯片,從上游推動行業(yè)的變革。在并沒有具體應(yīng)用場景爆發(fā)之前已經(jīng)給予芯片公司充分的高估值就是認可設(shè)計公司的價值本節(jié)重點闡述Intel公司在X86時代的芯片架構(gòu)產(chǎn)品以及此架構(gòu)下公司以及行業(yè)的變化。2.1.1.Intel公司簡介Intel是一家成立于1968年的半導(dǎo)體制造公司,總部位于美國加州。隨著個人電腦的普及和全球計算機工業(yè)的日益發(fā)展,公司逐漸發(fā)展成為全球最大的微處理器及相關(guān)零件的供應(yīng)商。公司在2016年實現(xiàn)營業(yè)收入594億美元,世界500強排名158。公司分為PC客戶端部門、數(shù)據(jù)中心部門、物聯(lián)網(wǎng)、移動及通訊部門、軟件及服務(wù)運營,其他還有筆記本部門、新設(shè)備部門及NVM解決方案部門。公司主要營業(yè)收入來自于PC客戶部門,其次是數(shù)據(jù)中心部門。公司的主要產(chǎn)品X86處理器占主導(dǎo)地位,接近90%,包括蘋果在2006年放棄PowerPC改用英特爾的x86processors。請務(wù)必閱讀正文之后的信息披露和免責(zé)申明請務(wù)必閱讀正文之后的信息披露和免責(zé)申明7資料來源:Intel,天風(fēng)證券研究所P2、P3、P4都用的同一種CPU架構(gòu),統(tǒng)稱X86。大多數(shù)英特爾處理器都是基于x86指令集,被稱為x86微處理器。指令集是微處理器可以遵循的基本命令集,它本質(zhì)上是微處理器的芯片級“語言”。英特爾擁有x86架構(gòu)的知識產(chǎn)權(quán)和給AMD和Via做處理器的許可權(quán)。資料來源:wind,天風(fēng)證券研究所2.1.2.Intel帶來的PC行業(yè)的市場規(guī)模變革和產(chǎn)業(yè)變化回顧Intel90年代至今發(fā)展歷程,清晰看到90年代是Intel發(fā)展最快的階段并在2000年前后達到了峰值。顯而易見的原因是個人電腦的快速普及滲透。而遵從摩爾定律的每一代產(chǎn)品的推出,疊加個人電腦快速滲透的乘數(shù)效應(yīng),持續(xù)放大了企業(yè)的市值,類似于戴維斯雙擊,推動股價的一路上揚。請務(wù)必閱讀正文之后的信息披露和免責(zé)申明請務(wù)必閱讀正文之后的信息披露和免責(zé)申明8資料來源:Wind,天風(fēng)證券研究所馮諾伊曼架構(gòu)帶來了計算體系的建立并通過Intel實現(xiàn)了最大化,但從本質(zhì)上說,英特爾參與的是機器時代的興起和計算芯片價值體現(xiàn)。但時至今日,在人口紅利消散,PC滲透率達到穩(wěn)定階段,依托于PC時代的處理器芯片進入了穩(wěn)定常態(tài)。英特爾在總產(chǎn)品收入提升的情況下,PC端提供的收入增長機會停滯。處理器依靠摩爾定律不斷推經(jīng)延續(xù)生命力,但在應(yīng)用增長乏力的階段缺乏爆發(fā)式的再增長。PC時代的處理器設(shè)計遵從了下游應(yīng)用驅(qū)動上游芯片的實質(zhì)。資料來源:Intel,天風(fēng)證券研究所資料來源:Intel,天風(fēng)證券研究所進入2010年后,英特爾的處理器增速同半導(dǎo)體行業(yè)基本協(xié)同一致,毫無疑問超越行業(yè)增速的增長已經(jīng)需要新的應(yīng)用拉動。摩爾定律支撐了10多年的快速增長再出現(xiàn)邊際改善的增長需要重新審視。請務(wù)必閱讀正文之后的信息披露和免責(zé)申明請務(wù)必閱讀正文之后的信息披露和免責(zé)申明9資料來源:Intel,天風(fēng)證券研究所本節(jié)重點闡述ARM在移動時代的芯片架構(gòu)產(chǎn)品以及此架構(gòu)下公司以及行業(yè)的變化。2.2.1.ARM公司簡介ARM公司是全球領(lǐng)先的半導(dǎo)體知識產(chǎn)權(quán)(IP)提供商,專門從事基于RISC技術(shù)芯片設(shè)計開發(fā),并因此在數(shù)字電子產(chǎn)品的開發(fā)中處于核心地位。公司的前身Acorn于1978年在倫敦正式成立。1990年ARM從Acorn分拆出來。得益于20世紀(jì)90年代手機的快速發(fā)展,基于ARM技術(shù)的芯片出貨量飛速增長,并于2017年宣布正式達成1000億芯片出貨量的里程碑。2016年7月,日本軟銀以320億美元收購了ARM。ARM本身不直接從事芯片生產(chǎn),只設(shè)計IP,包括指令集架構(gòu)、微處理器、圖形核心和互連架構(gòu),依靠轉(zhuǎn)讓設(shè)計許可由合作公司生產(chǎn)各具特色的芯片,目前它在世界范圍有超過1100個的合作伙伴。ARM的創(chuàng)新型商業(yè)模式為公司帶來了豐厚的回報率:它既使得ARM技術(shù)獲得更多的第三方工具、制造、軟件的支持,又使整個系統(tǒng)成本降低,使產(chǎn)品更容易進入市場被消費者所接受,更具有競爭力。正因為ARM的IP多種多樣以及支持基于ARM的解決方案的芯片和軟件體系十分龐大,全球領(lǐng)先的原始設(shè)備制造商(OEM)都在廣泛使用ARM技術(shù),因此ARM得以在智能手機、平板上一枝獨秀,全世界超過95%的智能手機都采用ARM架構(gòu)。請務(wù)必閱讀正文之后的信息披露和免責(zé)申明請務(wù)必閱讀正文之后的信息披露和免責(zé)申明資料來源:ARM,天風(fēng)證券研究所2.2.2.ARM架構(gòu)——重新塑造移動智能時代ARM沿用了馮諾伊曼架構(gòu),在性能和功耗上做到了更加平衡。在底層架構(gòu)沒有發(fā)生根本性變革的情況下,在架構(gòu)的橫向延伸上尋找到了技術(shù)的轉(zhuǎn)換,從而實現(xiàn)了智能手機時代移動端的產(chǎn)品階躍。處理器架構(gòu)在根源上看ARM延續(xù)了X86的底層架構(gòu)。正如我們在之前討論架構(gòu)時指出,處理器一般分為取指令,譯碼,發(fā)射,執(zhí)行,寫回五個步驟。而我們說的訪存,指的是訪問數(shù)據(jù),不是指令抓取。訪問數(shù)據(jù)的指令在前三步?jīng)]有什么特殊,在第四步,它會被發(fā)送到存取單元,等待完成。與X86不同的是在指令集方面,ARM架構(gòu)過去稱作進階精簡指令A(yù)RM指令集架構(gòu)的主要特點:一是體積小、低功耗、低成本、高性能,因此ARM處理器非常適用于移動通訊領(lǐng)域;二是大量使用寄存器且大多數(shù)數(shù)據(jù)操作都在寄存器中完成,指令執(zhí)行速度更快;三是尋址方式靈活簡單,執(zhí)行效率高;四是指令長度固定,可通過多流水線方式提高處理效率。請務(wù)必閱讀正文之后的信息披露和免責(zé)申明請務(wù)必閱讀正文之后的信息披露和免責(zé)申明資料來源:ARM,天風(fēng)證券研究所V7Cortex-M、請務(wù)必閱讀正文之后的信息披露和免責(zé)申明請務(wù)必閱讀正文之后的信息披露和免責(zé)申明資料來源:ARM、滿天芯,天風(fēng)證券研究所2.2.3.生態(tài)的建立和商業(yè)模式的轉(zhuǎn)變——ARM重塑了行業(yè)ARM的商業(yè)模式值得真正的關(guān)注。ARM通過授權(quán)和版稅來賺取收入。使用ARM的授權(quán),跟據(jù)流片的次數(shù),可以付一次流片的費用,也可以買三年內(nèi)無限次流片,更可以永久買斷。芯片量產(chǎn)后,根據(jù)產(chǎn)量,會按百分比收一點版稅。Intel通過售賣自己的芯片來贏得終端客戶和市場,而ARM則是通過授權(quán)讓全世界的芯片制造商使用自家的產(chǎn)品來推廣。ARM的商業(yè)模式之所以在智能手機時代能夠推廣,是因為移動端的生態(tài)更為開放,自上而下的生態(tài)建立,不僅是芯片開發(fā)者,也包括軟件開發(fā)者,都被構(gòu)建在生態(tài)的范圍內(nèi)。智能移動設(shè)備上包含多件ARM的處理器/技術(shù),每當(dāng)智能手機上新增一個功能時,就為新的ARM知識產(chǎn)權(quán)帶來了新的機會。2016年,ARM在移動應(yīng)用處理器(包括智能手機、平板電腦和筆記本電腦)上,根據(jù)量的測算,其市場份額高達90%,同時ARM估計移動應(yīng)用處理器規(guī)模將從2016年的200億美元增長到2025年的300億美元。資料來源:ARM,天風(fēng)證券研究所2016年,ARM各項技術(shù)在智能手機領(lǐng)域都有良好的滲透率:ARMv7-A技術(shù)早已完全滲入,ARMv8-A技術(shù)滲透率達到70%,Maligraphics達到50%,高核數(shù)技術(shù)(highcorecount)請務(wù)必閱讀正文之后的信息披露和免責(zé)申明請務(wù)必閱讀正文之后的信息披露和免責(zé)申明資料來源:ARM,天風(fēng)證券研究所ARM的累計出貨量已經(jīng)超過1000億支,2016年全年發(fā)出的基于ARM技術(shù)芯片達到177億,發(fā)貨量在過去5年時間中CAGR將近15%。ARM的增長完美契合了智能手機的快速增請務(wù)必閱讀正文之后的信息披露和免責(zé)申明請務(wù)必閱讀正文之后的信息披露和免責(zé)申明資料來源:ARM,天風(fēng)證券研究所資料來源:ARM,天風(fēng)證券研究所資料來源:ARM,天風(fēng)證券研究所請務(wù)必閱讀正文之后的信息披露和免責(zé)申明請務(wù)必閱讀正文之后的信息披露和免責(zé)申明觀察人工智能系統(tǒng)的搭建,以目前的架構(gòu)而言,主要是以各種加速器來實現(xiàn)深度學(xué)習(xí)算法。本章討論各種加速器的形式和實現(xiàn),并探討加速器變革下引發(fā)的行業(yè)深層次轉(zhuǎn)變,并從2個維度給出詳細的測算人工智能芯片的潛在空間首先我們必須描述人工智能對芯片的訴求,深度學(xué)習(xí)的目標(biāo)是模仿人類神經(jīng)網(wǎng)絡(luò)感知外部世界的方法。深度學(xué)習(xí)算法的實現(xiàn)是人工智能芯片需要完成的任務(wù)。在算法沒有發(fā)生質(zhì)變的前提下,追根溯源,所有的加速器芯片都是為了實現(xiàn)算法而設(shè)計。資料來源:Wind,天風(fēng)證券研究所我們整理了人工智能芯片相關(guān)的類型和產(chǎn)業(yè)鏈公司,傳統(tǒng)的芯片廠商/生態(tài)的建立者/新進入者。傳統(tǒng)的芯片制造廠商:Intel,Nvidia和AMD。他們的優(yōu)勢在于在已有架構(gòu)上對人工智能的延伸,對于硬件的理解會優(yōu)于競爭對手,但也會困頓于架構(gòu)的囹圄;2上層生態(tài)的構(gòu)建者進入芯片設(shè)計,比如蘋果和Google,優(yōu)勢在于根據(jù)生態(tài)靈活開發(fā)定制各類ASIC,專用性強;新進入者,某些全新的架構(gòu)比如神經(jīng)網(wǎng)絡(luò)芯片的寒武紀(jì),因為是全新的市場開拓,具有后發(fā)先至的可能。新進入者的機會,因為是個全新的架構(gòu)機會,將有機會誕生獨角獸。資料來源:Wind,半導(dǎo)體行業(yè)觀察,天風(fēng)證券研究所請務(wù)必閱讀正文之后的信息披露和免責(zé)申明請務(wù)必閱讀正文之后的信息披露和免責(zé)申明GPU使用SIMD(單指令多數(shù)據(jù)流)來讓多個執(zhí)行單元以同樣的步伐來處理不同的數(shù)據(jù),原本用于處理圖像數(shù)據(jù),但其離散化和分布式的特征,以及用矩陣運算替代布爾運算適合處理深度學(xué)習(xí)所需要的非線性離散數(shù)據(jù)。作為加速器的使用,可以實現(xiàn)深度學(xué)習(xí)算法。但注意的是,GPU架構(gòu)依然基于馮諾伊曼。我們以GPU和CPU的對比來說明GPU所具有的架構(gòu)特點。GPU由元以及存儲單元構(gòu)成GPU擁有大量的核(多達幾千個核)和大量的高速內(nèi)存,擅長做類似圖像處理的并行計算,以矩陣的分布式形式來實現(xiàn)計算。同CPU不同的是,GPU的計算單元明顯增多,特別適合大規(guī)模并行計算。資料來源:NVIDIA,天風(fēng)證券研究所注意GPU并行計算架構(gòu),其中的流處理器組(SMs)類似一個CPU核,多個流處理器組可實現(xiàn)數(shù)據(jù)的同時運算。因此,GPU主要適用于在數(shù)據(jù)層呈現(xiàn)很高的并行特性(data-parallelism)的應(yīng)用。資料來源:NVIDIA,天風(fēng)證券研究所請務(wù)必閱讀正文之后的信息披露和免責(zé)申明請務(wù)必閱讀正文之后的信息披露和免責(zé)申明CPU和GPU本身架構(gòu)方式和運算目的不同導(dǎo)致了CPU和GPU之間的不同,主要不同點列舉如下資料來源:Intel,天風(fēng)證券研究所深度學(xué)習(xí)是利用復(fù)雜的多級「深度」神經(jīng)網(wǎng)絡(luò)來打造一些系統(tǒng),這些系統(tǒng)能夠從海量的未標(biāo)記訓(xùn)練數(shù)據(jù)中進行特征檢測。因為GPU可以平行處理大量瑣碎信息。深度學(xué)習(xí)所依賴的是神經(jīng)系統(tǒng)網(wǎng)絡(luò)——與人類大腦神經(jīng)高度相似的網(wǎng)絡(luò)——而這種網(wǎng)絡(luò)出現(xiàn)的目的,就是要在高速的狀態(tài)下分析海量的數(shù)據(jù)。GPU擅長的是海量數(shù)據(jù)的快速處理GPU的特征決定了其特別適合做訓(xùn)練。機器學(xué)習(xí)的廣泛應(yīng)用:海量訓(xùn)練數(shù)據(jù)的出現(xiàn)以及GPU計算所提供的強大而高效的并行計算。人們利用GPU來訓(xùn)練這些深度神經(jīng)網(wǎng)絡(luò),所使用的訓(xùn)練集大得多,所耗費的時間大幅縮短,占用的數(shù)據(jù)中心基礎(chǔ)設(shè)施也少得多。GPU還被用于運行這些機器學(xué)習(xí)訓(xùn)練模型,以便在云端進行分類和預(yù)測,從而在耗費功率更低、占用基礎(chǔ)設(shè)施更少的情況下能夠支持遠比從前更大的數(shù)據(jù)量和吞吐量。與單純使用CPU的做法相比,GPU具有數(shù)以千計的計算核心、可實現(xiàn)10-100倍應(yīng)用吞吐量,因此GPU已經(jīng)成為數(shù)據(jù)科學(xué)家處理大數(shù)據(jù)的處理器。資料來源:NVIDIA,天風(fēng)證券研究所3.1.1.GPU芯片王者——NVIDIANVIDIA是一家以設(shè)計GPU芯片為主業(yè)的半導(dǎo)體公司,其主要產(chǎn)品從應(yīng)用領(lǐng)域劃分,包括GPU(如游戲圖形處理器GeForceGPU,深度學(xué)習(xí)處理器Tesla,圖形處理器GRID等)和請務(wù)必閱讀正文之后的信息披露和免責(zé)申明請務(wù)必閱讀正文之后的信息披露和免責(zé)申明0 資料來源:公司年報,天風(fēng)證券研究所0 資料來源:公司年報,天風(fēng)證券研究所從收入構(gòu)成來看,公司GPU芯片業(yè)務(wù)從2012年的32.52億美元增至2016年的58.22億美元,實現(xiàn)穩(wěn)步增長,GPU業(yè)務(wù)在收入結(jié)構(gòu)中占比穩(wěn)定在76%以上。0請務(wù)必閱讀正文之后的信息披露和免責(zé)申明請務(wù)必閱讀正文之后的信息披露和免責(zé)申明資料來源:公司年報,天風(fēng)證券研究所在高性能計算機、深度學(xué)習(xí)、人工智能等領(lǐng)域,NVIDIA的GPU芯片有十分關(guān)鍵的作用。NVIDIA的CUBA技術(shù),大幅度提高了純CPU構(gòu)成的超級計算機的性能。人工智能和深度學(xué)習(xí)需要大量的浮點計算,在高性能計算領(lǐng)域,GPU需求在不斷增強。目前NVIDIA的高性能顯卡已經(jīng)占有84%的市場份額。亞馬遜的AWS,F(xiàn)acebook,Google等世界一級數(shù)據(jù)中心都需要用NVIDIA的Tesla芯片,隨著云計算和人工智能的不斷發(fā)展,我們認為NVIDIA的GPU芯片業(yè)務(wù)在未來將繼續(xù)維持增長態(tài)勢,我們分拆每個領(lǐng)域的出貨量,預(yù)計將從2016年的3602萬顆增至2018年的4175萬顆。3資料來源:Wind,天風(fēng)證券研究所FPGA是用于解決專用集成電路的一種方案。專用集成電路是為特定用戶或特定電子系統(tǒng)制作的集成電路。人工智能算法所需要的復(fù)雜并行電路的設(shè)計思路適合用FPGA實現(xiàn)。FPGA計算芯片布滿“邏輯單元陣列”,內(nèi)部包括可配置邏輯模塊,輸入輸出模塊和內(nèi)部連線三個部分,相互之間既可實現(xiàn)組合邏輯功能又可實現(xiàn)時序邏輯功能的獨立基本邏輯單元。注意FPGA與傳統(tǒng)馮諾伊曼架構(gòu)的最大不同之處在于內(nèi)存的訪問。FPGA在本質(zhì)上是用硬件來實現(xiàn)軟件的算法,因此在實現(xiàn)復(fù)雜算法方面有一些難度。低高資料來源:Wind,天風(fēng)證券研究所架構(gòu)方面,F(xiàn)PGA擁有大量的可編程邏輯單元,可以根據(jù)客戶定制來做針對性的算法設(shè)計。除此以外,在處理海量數(shù)據(jù)的時候,F(xiàn)PGA相比于CPU和GPU,獨到的優(yōu)勢在于:FPGA請務(wù)必閱讀正文之后的信息披露和免責(zé)申明請務(wù)必閱讀正文之后的信息披露和免責(zé)申明更接近IO。換句話說,F(xiàn)PGA是硬件底層的架構(gòu)。比如,數(shù)據(jù)采用GPU計算,它先要進理,這過程并沒有時間優(yōu)勢;而使用FPGA的話,數(shù)據(jù)I/O接口進入FPGA,在里面解幀后進行數(shù)據(jù)處理或預(yù)處理,然后通過PCIE接口送入內(nèi)存讓CPU處理,一些很底層的工作已經(jīng)被FPGA處理完畢了(FPGA扮演協(xié)處理器的角色且積累到一定數(shù)量后以DMA形式傳輸?shù)絻?nèi)存,以中斷通知CPU來處理,這樣效率就高得多。資料來源:人工智能實驗室(AiLab天風(fēng)證券研究所信號處理,圖像處理)可能需要很多個時鐘周期,而FPGA可以通過編程重組電路,直接生成專用電路,加上電路并行性,可能做這個特定運算只需要一個時鐘周期。比如一般CPU每次只能處理4到8個指令,在FPGA上使用數(shù)據(jù)并行的方法可以每次處理256個請務(wù)必閱讀正文之后的信息披露和免責(zé)申明請務(wù)必閱讀正文之后的信息披露和免責(zé)申明資料來源:Altera,天風(fēng)證券研究所資料來源:Altera,天風(fēng)證券研究所看到FPGA與個人應(yīng)用和數(shù)據(jù)中心應(yīng)用的整合根據(jù)Altera內(nèi)部文件顯示,Altera很早就在研發(fā)使用FPGA針對深度學(xué)習(xí)算法的應(yīng)用,并在2015年Intel的論壇上展示了產(chǎn)品的性能。結(jié)論是在功耗和性能上相對同等級的CPU,有較大的優(yōu)勢。CPU+FPGA在人工智能深度學(xué)習(xí)領(lǐng)域,將會是未來的一個重要發(fā)展方向資料來源:Altera,天風(fēng)證券研究所ASIC(專用定制芯片)是為實現(xiàn)特定要求而定制的芯片,具有功耗低、可靠性高、性能高、體積小等優(yōu)點,但不可編程,可擴展性不及FPGA,尤其適合適合高性能/低功耗的移動端。我們梳理針對圖像和語音這兩方面的人工智能定制芯片,目前主要有專用于圖像處理的VPU,以及針對語音識別的FAGA和TPU芯片。等資料來源:Google,天風(fēng)證券研究所請務(wù)必閱讀正文之后的信息披露和免責(zé)申明請務(wù)必閱讀正文之后的信息披露和免責(zé)申明3.3.1.VPU——你是我的眼VPU是專門為圖像處理和視覺處理設(shè)計的定制芯片。根據(jù)特定算法來實現(xiàn)定制化的芯片架構(gòu),實現(xiàn)特定的圖像處理能力,提高效率,是VPU的基礎(chǔ)理念。集成在攝像頭中的VPU,直接對輸入圖像進行識別理解,消除了存儲器的讀寫操作。相較主流的移動處理芯片(集成GPU的SoCVPU的尺寸更小,視覺處理運算的效能更高。以Movidiu公司產(chǎn)品Myriad2為例,VPU芯片包括接口電路(Interfaces)、硬件加速器(HardwareAccelerators),矢量處理器陣列(ArrayofVectorProcessors),精簡指令集的CPU(RISCCPU)等部分。接口電路支持多路攝像頭傳感器等外部設(shè)備,硬件加速器可以迅速的提高運算處理速度,矢量處理器陣列專門針對機器視覺,精簡指令集的CPU(RISCCPU)主要進行任務(wù)分配。資料來源:Movidius,天風(fēng)證券研究所資料來源:Movidius,天風(fēng)證券研究所支持圖像信號和視覺信后的流水線信號處理,而32位的CPU,進行任務(wù)分配資料來源:Movidius,天風(fēng)證券研究所VPU能夠處理各種不同的任務(wù):利用立體攝像機的數(shù)據(jù)處理深度信息,還有來自聲納傳感器的近距離、空間定位,以及用于識別和跟隨人的先進光流;它也可以成為虛擬現(xiàn)實、現(xiàn)實增強技術(shù)的核心部分,讓智能手機以及更便宜的頭戴產(chǎn)品達成現(xiàn)如今較為昂貴的系統(tǒng)才能完成的目標(biāo)。如HTCVive,這臺設(shè)備需要比較詭異的頭戴式護目鏡,還需要兩個激光盒子繪制整個空間,并追蹤用戶的運動。而裝備VPU通過移動設(shè)備或者耳機就能做到這一點;此外,具備深度學(xué)習(xí)能力的VPU,能夠在設(shè)備本地就能利用強悍的圖像識別計算,設(shè)備能夠看見和理解周圍的世界,不需要檢索云端就能做到,避免了延遲的問題。目前,VPU的應(yīng)用市場有機器人、物聯(lián)網(wǎng)、智能穿戴設(shè)備、智能手機、無人駕駛、無人機請務(wù)必閱讀正文之后的信息披露和免責(zé)申明請務(wù)必閱讀正文之后的信息披露和免責(zé)申明資料來源:Movidius,天風(fēng)證券研究所結(jié)合光學(xué),在前端實現(xiàn)智能處理識別運算的芯片,正在移動端不斷滲透提升。在蘋果推出帶3D感應(yīng)功能的結(jié)構(gòu)光方案之后,我們預(yù)計會深度推動市場在向具有人工智能功能的特定芯片端邁進。VPU實現(xiàn)了在移動設(shè)備端具備PC級別的圖像處理能力。通常來說這類圖像處理芯片能耗非常高,而且也需要電腦支持,但通過VPU,成功將高級的圖像處理方案移植到移動設(shè)備中。在前端設(shè)備中引入帶有AI功能的新架構(gòu)芯片將帶來移動端價值量的提升和潛在的變革。資料來源:Movidius,天風(fēng)證券研究所資料來源:Movidius,天風(fēng)證券研究所TPU(TensorProcessingUnit)是谷歌的張量處理器,它是一款為機器學(xué)習(xí)而經(jīng)過了專門深度機器學(xué)習(xí)方面的訓(xùn)練,它有更高效能。請務(wù)必閱讀正文之后的信息披露和免責(zé)申明請務(wù)必閱讀正文之后的信息披露和免責(zé)申明資料來源:Google,天風(fēng)證券研究所Google對GPU,IntelXeonE5v3CPU和TPU進行了性能對比。在Googl用64位浮點數(shù)學(xué)運算器的18核心運行在2.3GHz的Ha瓦,其系統(tǒng)(擁有256GB內(nèi)存)滿載時消耗455瓦特。相比之下,TPU使用8位整數(shù)數(shù)學(xué)運算器,擁有256GB的主機內(nèi)存以及32GB的內(nèi)存,能夠?qū)崿F(xiàn)34GB/秒的內(nèi)存帶寬,瓦。但TPU是專為Google深度學(xué)習(xí)語言TensorFlow開發(fā)的一種芯片,不具有可擴展性。資料來源:Google,天風(fēng)證券研究所從底層架構(gòu)的變革角度看,最前沿的革新以深度學(xué)習(xí)原理打造的人工神經(jīng)網(wǎng)絡(luò)芯片。人工神經(jīng)網(wǎng)絡(luò)是模仿生物神經(jīng)網(wǎng)絡(luò)的計算架構(gòu)的總稱,由若干人工神經(jīng)元節(jié)點互連而成,神經(jīng)元之間通過突觸連接。每個神經(jīng)元其實是一個激勵函數(shù),突觸則是記錄神經(jīng)元間聯(lián)系的強弱權(quán)值。神經(jīng)網(wǎng)絡(luò)是多層的,一個神經(jīng)元函數(shù)的輸入由與其相連的上一個神經(jīng)元的輸出以及連接突觸權(quán)重共同決定。所謂訓(xùn)練神經(jīng)網(wǎng)絡(luò),就是通過不斷自動調(diào)整神經(jīng)元之間突觸權(quán)重的過程,直到輸出結(jié)果穩(wěn)定正確。然后在輸入新數(shù)據(jù)時,能夠根據(jù)當(dāng)前的突觸權(quán)重計算出輸出結(jié)果。以此來實現(xiàn)神經(jīng)網(wǎng)絡(luò)對已有知識的“學(xué)習(xí)”。神經(jīng)網(wǎng)絡(luò)中存儲和處理是一體化的,中間計算結(jié)果化身為突觸的權(quán)重。馮諾伊曼架構(gòu)的傳統(tǒng)處理器處理神經(jīng)網(wǎng)絡(luò)任務(wù)時效率低下,是由其本身的架構(gòu)限制決定的。馮諾伊曼架構(gòu)存儲和處理分離,基本運算為算術(shù)和邏輯操作,這兩點決定了一個神經(jīng)元的低高資料來源:Wind,天風(fēng)證券研究所請務(wù)必閱讀正文之后的信息披露和免責(zé)申明請務(wù)必閱讀正文之后的信息披露和免責(zé)申明3.4.1.寒武紀(jì)——真正的不同真正打造的類腦芯片,寒武紀(jì)試圖將通過低功耗高性能的架構(gòu)重塑,顛覆已有的馮諾伊曼架構(gòu),實現(xiàn)在移動端/云端的加速器實現(xiàn)。資料來源:寒武紀(jì)資料,天風(fēng)證券研究所資料來源:寒武紀(jì)資料,天風(fēng)證券研究所從寒武紀(jì)披露的數(shù)據(jù)來看,其性能遠超GPU和CPU。資料來源:寒武紀(jì)資料,天風(fēng)證券研究所寒武紀(jì)試圖將代表性智能算法的處理速度和性能功耗比提升一萬倍,在移動端實時完成圖像語音和文本的理解和識別,更為重要的是通過實時訓(xùn)練,還能不斷進化提升能力,真正實現(xiàn)超越。請務(wù)必閱讀正文之后的信息披露和免責(zé)申明請務(wù)必閱讀正文之后的信息披露和免責(zé)申明資料來源:寒武紀(jì)資料,天風(fēng)證券研究所我們在前二章重點討論了Intel和ARM的歷史發(fā)展,認為馮諾伊曼架構(gòu)帶來了計算體系的建立并通過Intel實現(xiàn)了最大化;ARM通過共享IP的商業(yè)模式帶來了更開放的生態(tài)體系,實現(xiàn)了軟硬件的結(jié)合延伸了人類的觸角。同時我們認為人工智能芯片將有可能在摩爾定律放緩維度下引發(fā)芯片底層架構(gòu)重構(gòu)的變革。本章我們重點討論人工智能芯片的市場空間測算,我們從兩個維度來進行估算,給出詳細的拆解。維度一:市場規(guī)模反推芯片空間根據(jù)Nvidia官方給出的資料統(tǒng)計,到2020年,由軟件、硬件、服務(wù)三者組成的人工智能市場將達到400億美元,其中硬件占到1/3強,為160億美元。而硬件的核心是芯片。我們估算硬件的BOM,芯片會占到60%,芯片空間將達到96億美元。請務(wù)必閱讀正文之后的信息披露和免責(zé)申明請務(wù)必閱讀正文之后的信息披露和免責(zé)申明資料來源:NVIDIA,天風(fēng)證券研究所維度2:詳細拆分云端/移動端所需人工智能加速器的BOM人工智能芯片從用途來看,分為云端加速器芯片和終端(包括智能手機、無人駕駛汽車、)智能芯片。我們基于這兩個場景,給出結(jié)論,預(yù)測至2021年,人工智能芯片市場有望達資料來源:Gartner,天風(fēng)證券研究所云端加速器詳細拆解億美元,其中,云基礎(chǔ)設(shè)施服務(wù)市場規(guī)模達863.5億美元。請務(wù)必閱讀正文之后的信息披露和免責(zé)申明請務(wù)必閱讀正文之后的信息披露和免責(zé)申明
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 二年級乘除法口訣專項練習(xí)1000題
- 人教部編版四年級語文上冊《快樂讀書吧》精美課件
- 算法設(shè)計與分析 課件 8.3-分支限界 - 典型應(yīng)用 - 0-1背包問題
- 2024年葫蘆島煙臺客運上崗證考試題
- 2024年長沙客運駕駛員從業(yè)資格考試系統(tǒng)
- 2024年沈陽c1客運資格證模擬考試題
- 2024年合肥小車客運從業(yè)資格證考試
- 2024年河南2024年客運從業(yè)資格證模擬考試題庫
- 吉首大學(xué)《高級語言程序設(shè)計A實驗》2021-2022學(xué)年期末試卷
- 吉林藝術(shù)學(xué)院《數(shù)字娛樂導(dǎo)論》2021-2022學(xué)年第一學(xué)期期末試卷
- 水利工程(水電站)安全生產(chǎn)標(biāo)準(zhǔn)化管理體系方案(達標(biāo)所需資料全套匯編)
- 高考英語3500詞匯表
- 2024年高考語文現(xiàn)代文閱讀之文學(xué)類閱讀教考銜接題型
- 公車拍賣質(zhì)量保證措施
- ??低暪景l(fā)展戰(zhàn)略研究
- 行政事業(yè)單位會計監(jiān)督
- 2023-2024學(xué)年譯林版八年級上學(xué)期英語12月月考模擬試卷(含答案解析)
- 【川教版】《生命 生態(tài) 安全》五上第8課《防患于未“燃”》課件
- 永久避難硐室避險安全知識課件
- 大學(xué)生心理健康教育課件-了解原生家庭
- 女性的情緒及壓力管理
評論
0/150
提交評論