詳談AI芯片分類和關(guān)鍵技術(shù)_第1頁(yè)
詳談AI芯片分類和關(guān)鍵技術(shù)_第2頁(yè)
詳談AI芯片分類和關(guān)鍵技術(shù)_第3頁(yè)
詳談AI芯片分類和關(guān)鍵技術(shù)_第4頁(yè)
詳談AI芯片分類和關(guān)鍵技術(shù)_第5頁(yè)
已閱讀5頁(yè),還剩2頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

-7-詳談AI芯片分類和關(guān)鍵技術(shù)人工智能芯片目前有兩種進(jìn)展路徑:一種是連續(xù)傳統(tǒng)計(jì)算架構(gòu),加速硬件計(jì)算力量,主要以3種類型的芯片為代表,即GPU、FPGA、ASIC,但CPU照舊發(fā)揮著不行替代的作用;另一種是顛覆經(jīng)典的馮·諾依曼計(jì)算架構(gòu),采納類腦神經(jīng)結(jié)構(gòu)來(lái)提升計(jì)算力量,以IBMTrueNorth芯片為代表。

人工智能芯片目前有兩種進(jìn)展路徑:一種是連續(xù)傳統(tǒng)計(jì)算架構(gòu),加速硬件計(jì)算力量,主要以3種類型的芯片為代表,即GPU、FPGA、ASIC,但CPU照舊發(fā)揮著不行替代的作用;另一種是顛覆經(jīng)典的馮諾依曼計(jì)算架構(gòu),采納類腦神經(jīng)結(jié)構(gòu)來(lái)提升計(jì)算力量,以IBMTrueNorth芯片為代表。

1、傳統(tǒng)CPU

計(jì)算機(jī)工業(yè)從1960年月早期開頭使用CPU這個(gè)術(shù)語(yǔ)。迄今為止,CPU從形態(tài)、設(shè)計(jì)到實(shí)現(xiàn)都已發(fā)生了巨大的變化,但是其基本工作原理卻始終沒(méi)有大的轉(zhuǎn)變。通常CPU由掌握器和運(yùn)算器這兩個(gè)主要部件組成。傳統(tǒng)的CPU內(nèi)部結(jié)構(gòu)圖如圖所示:

傳統(tǒng)CPU內(nèi)部結(jié)構(gòu)圖(ALU計(jì)算模塊)

從圖中我們可以看到:實(shí)質(zhì)上僅單獨(dú)的ALU模塊(規(guī)律運(yùn)算單元)是用來(lái)完成數(shù)據(jù)計(jì)算的,其他各個(gè)模塊的存在都是為了保證指令能夠一條接一條的有序執(zhí)行。這種通用性結(jié)構(gòu)對(duì)于傳統(tǒng)的編程計(jì)算模式特別適合,同時(shí)可以通過(guò)提升CPU主頻(提升單位時(shí)間內(nèi)執(zhí)行指令的條數(shù))來(lái)提升計(jì)算速度。但對(duì)于深度學(xué)習(xí)中的并不需要太多的程序指令、卻需要海量數(shù)據(jù)運(yùn)算的計(jì)算需求,這種結(jié)構(gòu)就顯得有些力不從心。尤其是在功耗限制下,無(wú)法通過(guò)無(wú)限制的提升CPU和內(nèi)存的工作頻率來(lái)加快指令執(zhí)行速度,這種狀況導(dǎo)致CPU系統(tǒng)的進(jìn)展遇到不行逾越的瓶頸。

2、并行加速計(jì)算的GPU

GPU作為最早從事并行加速計(jì)算的處理器,相比CPU速度快,同時(shí)比其他加速器芯片編程敏捷簡(jiǎn)潔。

傳統(tǒng)的CPU之所以不適合人工智能算法的執(zhí)行,主要緣由在于其計(jì)算指令遵循串行執(zhí)行的方式,沒(méi)能發(fā)揮出芯片的全部潛力。與之不同的是,GPU具有高并行結(jié)構(gòu),在處理圖形數(shù)據(jù)和簡(jiǎn)單算法方面擁有比CPU更高的效率。對(duì)比GPU和CPU在結(jié)構(gòu)上的差異,CPU大部分面積為掌握器和寄存器,而GPU擁有更ALU(ARITHMETICLOGICUNIT,規(guī)律運(yùn)算單元)用于數(shù)據(jù)處理,這樣的結(jié)構(gòu)適合對(duì)密集型數(shù)據(jù)進(jìn)行并行處理,CPU與GPU的結(jié)構(gòu)對(duì)比如圖所示。

CPU及GPU結(jié)構(gòu)對(duì)比圖

程序在GPU系統(tǒng)上的運(yùn)行速度相較于單核CPU往往提升幾十倍乃至上千倍。隨著英偉達(dá)、AMD等公司不斷推動(dòng)其對(duì)GPU大規(guī)模并行架構(gòu)的支持,面對(duì)通用計(jì)算的GPU(即GPGPU,GENERALPURPOSEGPU,通用計(jì)算圖形處理器)已成為加速可并行應(yīng)用程序的重要手段,GPU的進(jìn)展歷程可分為3個(gè)階段:

第一代GPU(1999年以前),部分功能從CPU分別,實(shí)現(xiàn)硬件加速,以GE(GEOMETRYENGINE)為代表,只能起到3D圖像處理的加速作用,不具有軟件編程特性。

其次代GPU(1999-2022年),實(shí)現(xiàn)進(jìn)一步的硬件加速和有限的編程性。1999年,英偉達(dá)發(fā)布了"專為執(zhí)行簡(jiǎn)單的數(shù)學(xué)和幾何計(jì)算的'GeForce256圖像處理芯片,將更多的晶體管用作執(zhí)行單元,而不是像CPU那樣用作簡(jiǎn)單的掌握單元和緩存,將TL(TRANSFORMANDLIGHTING)等功能從CPU分別出來(lái),實(shí)現(xiàn)了快速變換,這成為GPU真正消失的標(biāo)志。之后幾年,GPU技術(shù)快速進(jìn)展,運(yùn)算速度快速超過(guò)CPU。2022年英偉達(dá)和ATI分別推出的GEFORCE3和RADEON8500,圖形硬件的流水線被定義為流處理器,消失了頂點(diǎn)級(jí)可編程性,同時(shí)像素級(jí)也具有有限的編程性,但GPU的整體編程性仍舊比較有限。

第三代GPU(2022年以后),GPU實(shí)現(xiàn)便利的編程環(huán)境創(chuàng)建,可以直接編寫程序。2022年英偉達(dá)與ATI分別推出了CUDA(ComputeUnitedDeviceArchitecture,計(jì)算統(tǒng)一設(shè)備架構(gòu))編程環(huán)境和CTM(CLOSETOTHEMETAL)編程環(huán)境,使得GPU打破圖形語(yǔ)言的局限成為真正的并行數(shù)據(jù)處理超級(jí)加速器。

2022年,蘋果公司提出一個(gè)通用的并行計(jì)算編程平臺(tái)OPENCL(OPENCOMPUTINGLANGUAGE,開放運(yùn)算語(yǔ)言),與CUDA綁定在英偉達(dá)的顯卡上不同,OPENCL和詳細(xì)的計(jì)算設(shè)備無(wú)關(guān)。

GPU芯片的進(jìn)展階段

目前,GPU已經(jīng)進(jìn)展到較為成熟的階段。谷歌、FACEBOOK、微軟、TWITTER和百度等公司都在使用GPU分析圖片、視頻和音頻文件,以改進(jìn)搜尋和圖像標(biāo)簽等應(yīng)用功能。此外,許多汽車生產(chǎn)商也在使用GPU芯片進(jìn)展無(wú)人駕駛。不僅如此,GPU也被應(yīng)用于VR/AR相關(guān)的產(chǎn)業(yè)。

但是GPU也有肯定的局限性。深度學(xué)習(xí)算法分為訓(xùn)練和推斷兩部分,GPU平臺(tái)在算法訓(xùn)練上特別高效。但在推斷中對(duì)于單項(xiàng)輸入進(jìn)行處理的時(shí)候,并行計(jì)算的優(yōu)勢(shì)不能完全發(fā)揮出來(lái)。

3、半定制化的FPGA

FPGA是在PAL、GAL、CPLD等可編程器件基礎(chǔ)上進(jìn)一步進(jìn)展的產(chǎn)物。用戶可以通過(guò)燒入FPGA配置文件來(lái)定義這些門電路以及存儲(chǔ)器之間的連線。這種燒入不是一次性的,比如用戶可以把FPGA配置成一個(gè)微掌握器MCU,使用完畢后可以編輯配置文件把同一個(gè)FPGA配置成一個(gè)音頻編解碼器。因此,它既解決了定制電路敏捷性的不足,又克服了原有可編程器件門電路數(shù)有限的缺點(diǎn)。

FPGA可同時(shí)進(jìn)行數(shù)據(jù)并行和任務(wù)并行計(jì)算,在處理特定應(yīng)用時(shí)有更加明顯的效率提升。對(duì)于某個(gè)特定運(yùn)算,通用CPU可能需要多個(gè)時(shí)鐘周期;而FPGA可以通過(guò)編程重組電路,直接生成專用電路,僅消耗少量甚至一次時(shí)鐘周期就可完成運(yùn)算。

此外,由于FPGA的敏捷性,許多使用通用處理器或ASIC難以實(shí)現(xiàn)的底層硬件掌握操作技術(shù),利用FPGA可以很便利的實(shí)現(xiàn)。這個(gè)特性為算法的功能實(shí)現(xiàn)和優(yōu)化留出了更大空間。同時(shí)FPGA一次性成本(光刻掩模制作成本)遠(yuǎn)低于ASIC,在芯片需求還未成規(guī)模、深度學(xué)習(xí)算法暫未穩(wěn)定,需要不斷迭代改進(jìn)的狀況下,利用FPGA芯片具備可重構(gòu)的特性來(lái)實(shí)現(xiàn)半定制的人工智能芯片是最佳選擇之一。

功耗方面,從體系結(jié)構(gòu)而言,F(xiàn)PGA也具有天生的優(yōu)勢(shì)。傳統(tǒng)的馮氏結(jié)構(gòu)中,執(zhí)行單元(如CPU核)執(zhí)行任意指令,都需要有指令存儲(chǔ)器、譯碼器、各種指令的運(yùn)算器及分支跳轉(zhuǎn)處理規(guī)律參加運(yùn)行,而FPGA每個(gè)規(guī)律單元的功能在重編程(即燒入)時(shí)就已經(jīng)確定,不需要指令,無(wú)需共享內(nèi)存,從而可以極大的降低單位執(zhí)行的功耗,提高整體的能耗比。

由于FPGA具備敏捷快速的特點(diǎn),因此在眾多領(lǐng)域都有替代ASIC的趨勢(shì)。FPGA在人工智能領(lǐng)域的應(yīng)用如圖所示。

FPGA在人工智能領(lǐng)域的應(yīng)用

4、全定制化的ASIC

目前以深度學(xué)習(xí)為代表的人工智能計(jì)算需求,主要采納GPU、FPGA等已有的適合并行計(jì)算的通用芯片來(lái)實(shí)現(xiàn)加速。在產(chǎn)業(yè)應(yīng)用沒(méi)有大規(guī)模興起之時(shí),使用這類已有的通用芯片可以避開特地研發(fā)定制芯片(ASIC)的高投入和高風(fēng)險(xiǎn)。但是,由于這類通用芯片設(shè)計(jì)初衷并非特地針對(duì)深度學(xué)習(xí),因而自然?存在性能、功耗等方面的局限性。隨著人工智能應(yīng)用規(guī)模的擴(kuò)大,這類問(wèn)題日益突顯。

GPU作為圖像處理器,設(shè)計(jì)初衷是為了應(yīng)對(duì)圖像處理中的大規(guī)模并行計(jì)算。因此,在應(yīng)用于深度學(xué)習(xí)算法時(shí),有三個(gè)方面的局限性:第一,應(yīng)用過(guò)程中無(wú)法充分發(fā)揮并行計(jì)算優(yōu)勢(shì)。深度學(xué)習(xí)包含訓(xùn)練和推斷兩個(gè)計(jì)算環(huán)節(jié),GPU在深度學(xué)習(xí)算法訓(xùn)練上特別高效,但對(duì)于單一輸入進(jìn)行推斷的場(chǎng)合,并行度的優(yōu)勢(shì)不能完全發(fā)揮。其次,無(wú)法敏捷配置硬件結(jié)構(gòu)。GPU采納SIMT計(jì)算模式,硬件結(jié)構(gòu)相對(duì)固定。目前深度學(xué)習(xí)算法還未完全穩(wěn)定,若深度學(xué)習(xí)算法發(fā)生大的變化,GPU無(wú)法像FPGA一樣可以敏捷的配制硬件結(jié)構(gòu)。第三,運(yùn)行深度學(xué)習(xí)算法能效低于FPGA。

盡管FPGA倍受看好,甚至新一代百度大腦也是基于FPGA平臺(tái)研發(fā),但其究竟不是特地為了適用深度學(xué)習(xí)算法而研發(fā),實(shí)際應(yīng)用中也存在諸多局限:

第一,基本單元的計(jì)算力量有限。為了實(shí)現(xiàn)可重構(gòu)特性,F(xiàn)PGA內(nèi)部有大量極細(xì)粒度的基本單元,但是每個(gè)單元的計(jì)算力量(主要依靠LUT查找表)都遠(yuǎn)遠(yuǎn)低于CPU和GPU中的ALU模塊。

其次、計(jì)算資源占比相對(duì)較低。為實(shí)現(xiàn)可重構(gòu)特性,F(xiàn)PGA內(nèi)部大量資源被用于可配置的片上路由與連線。

第三,速度和功耗相對(duì)專用定制芯片(ASIC)仍舊存在不小差距;第四,F(xiàn)PGA價(jià)格較為昂貴,在規(guī)模放量的狀況下單塊FPGA的成本要遠(yuǎn)高于專用定制芯片。

因此,隨著人工智能算法和應(yīng)用技術(shù)的日益進(jìn)展,以及人工智能專用芯片ASIC產(chǎn)業(yè)環(huán)境的漸漸成熟,全定制化人工智能ASIC也逐步體現(xiàn)出自身的優(yōu)勢(shì),從事此類芯片研發(fā)與應(yīng)用的國(guó)內(nèi)外比較有代表性的公司如圖所示。

人工智能專用芯片研發(fā)狀況一覽

深度學(xué)習(xí)算法穩(wěn)定后,AI芯片可采納ASIC設(shè)計(jì)方法進(jìn)行全定制,使性能、功耗和面積等指標(biāo)面對(duì)深度學(xué)習(xí)算法做到最優(yōu)。

5、類腦芯片

類腦芯片不采納經(jīng)典的馮諾依曼架構(gòu),而是基于神經(jīng)形態(tài)架構(gòu)設(shè)計(jì),以IBMTruenor

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論