基于FPGA的通用CNN加速設(shè)計(jì)

上傳人：1*** IP屬地：湖南上傳時(shí)間：2023-09-30 格式：DOC 頁數(shù)：5 大?。?2.50KB 積分：3.6 舉報(bào) 版權(quán)申訴

全文預(yù)覽已結(jié)束

 下載本文檔

版權(quán)說明：本文檔由用戶提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

基于FPGA的通用CNN加速設(shè)計(jì)要做一些計(jì)算加速的工作，入手先要想好幾個(gè)問題：要加速的是什么應(yīng)用，應(yīng)用的瓶頸是什么，再針對(duì)這個(gè)瓶頸，參考前人工作選擇合適的方案。過早地執(zhí)著于fpga的技術(shù)細(xì)節(jié)容易護(hù)士許多的細(xì)節(jié)?，F(xiàn)在softwaredefinenetwork/flash/xxx，已然大勢所趨。WHEN？深度學(xué)習(xí)異構(gòu)計(jì)算現(xiàn)狀隨著互聯(lián)網(wǎng)用戶的快速增長，數(shù)據(jù)體量的急劇膨脹，數(shù)據(jù)中心對(duì)計(jì)算的需求也在迅猛上漲。同時(shí)，人工智能、高性能數(shù)據(jù)分析和金融分析等計(jì)算密集型領(lǐng)域的興起，對(duì)計(jì)算能力的需求已遠(yuǎn)遠(yuǎn)超出了傳統(tǒng)CPU處理器的能力所及。異構(gòu)計(jì)算被認(rèn)為是現(xiàn)階段解決此計(jì)算溝壑的關(guān)鍵技術(shù)，目前“CPU+GPU”以及“CPU+FPGA”是最受業(yè)界關(guān)注的異構(gòu)計(jì)算平臺(tái)。它們具有比傳統(tǒng)CPU并行計(jì)算更高效率和更低延遲的計(jì)算性能優(yōu)勢。面對(duì)如此巨大的市場，科技行業(yè)大量企業(yè)投入了大量的資金和人力，異構(gòu)編程的開發(fā)標(biāo)準(zhǔn)也在逐漸成熟，而主流的云服務(wù)商更是在積極布局。WHY？通用CNNFPGA加速業(yè)界可以看到諸如微軟等巨頭公司已經(jīng)部署大批量的FPGA來做AIinference加速，F(xiàn)PGA相較于其他器件的優(yōu)勢是什么呢？Flexibility：可編程性天然適配正在快速演進(jìn)的ML算法DNN、CNN、LSTM、MLP、reinforcementlearning以及決策樹等等任意精度動(dòng)態(tài)支持模型壓縮、稀疏網(wǎng)絡(luò)、更快更好的網(wǎng)絡(luò)Performance：構(gòu)建實(shí)時(shí)性AI服務(wù)能力相較于GPU/CPU數(shù)量級(jí)提升的低延時(shí)預(yù)測能力相較于GPU/CPU數(shù)量級(jí)提升的單瓦特性能能力Scale板卡間高速互聯(lián)IOIntelCPU-FPGA構(gòu)架與此同時(shí)，F(xiàn)PGA的短板也非常的明顯，F(xiàn)PGA使用HDL硬件描述語言來進(jìn)行開發(fā)，開發(fā)周期長，入門門檻高。以單獨(dú)的經(jīng)典模型如Alexnet以及Googlenet為例，針對(duì)一個(gè)模型進(jìn)行定制的加速開發(fā)，往往需要數(shù)月的時(shí)間。業(yè)務(wù)方以及FPGA加速團(tuán)隊(duì)需要兼顧算法迭代以及適配FPGA硬件加速，十分痛苦。一方面需要FPGA提供相較于CPU/GPU有足夠競爭力的低延時(shí)高性能服務(wù)，一方面需要FPGA的開發(fā)周期跟上深度學(xué)習(xí)算法的迭代周期，基于這兩點(diǎn)我們設(shè)計(jì)開發(fā)了一款通用的CNN加速器。兼顧主流模型算子的通用設(shè)計(jì)，以編譯器產(chǎn)生指令的方式來驅(qū)動(dòng)模型加速，可以短時(shí)間內(nèi)支持模型切換;同時(shí)，對(duì)于新興的深度學(xué)習(xí)算法，在此通用基礎(chǔ)版本上進(jìn)行相關(guān)算子的快速開發(fā)迭代，模型加速開發(fā)時(shí)間從之前的數(shù)月降低到現(xiàn)在的一到兩周之內(nèi)。HOW？通用CNNFPGA架構(gòu)基于FPGA的通用CNN加速器整體框架如下，通過Caffe/Tensorflow/Mxnet等框架訓(xùn)練出來的CNN模型，通過編譯器的一系列優(yōu)化生成模型對(duì)應(yīng)的指令;同時(shí)，圖片數(shù)據(jù)和模型權(quán)重?cái)?shù)據(jù)按照優(yōu)化規(guī)則進(jìn)行預(yù)處理以及壓縮后通過PCIe下發(fā)到FPGA加速器中。FPGA加速器完全按照指令緩沖區(qū)中的指令集驅(qū)動(dòng)工作，加速器執(zhí)行一遍完整指令緩沖區(qū)中的指令則完成一張圖片深度模型的計(jì)算加速工作。每個(gè)功能模塊各自相對(duì)獨(dú)立，只對(duì)每一次單獨(dú)的模塊計(jì)算請(qǐng)求負(fù)責(zé)。加速器與深度學(xué)習(xí)模型相抽離，各個(gè)layer的數(shù)據(jù)依賴以及前后執(zhí)行關(guān)系均在指令集中進(jìn)行控制。簡單而言，編譯器的主要工作就是對(duì)模型結(jié)構(gòu)進(jìn)行分析優(yōu)化，然后生成FPGA高效執(zhí)行的指令集。編譯器優(yōu)化的指導(dǎo)思想是：更高的MACdsp計(jì)算效率以及更少的內(nèi)存訪問需求。接下來我們以GooglenetV1模型為例，對(duì)加速器的設(shè)計(jì)優(yōu)化思路做簡單的分析。Inceptionv1的網(wǎng)絡(luò)，將1x1、3x3、5x5的conv和3x3的poolingstack在一起，一方面增加了網(wǎng)絡(luò)的width，另一方面增加了網(wǎng)絡(luò)對(duì)尺度的適應(yīng)性。下圖為模型中Inception的基本結(jié)構(gòu)。數(shù)據(jù)依賴關(guān)系分析此部分主要分析挖掘模型中可流水化以及可并行化的計(jì)算。流水化的設(shè)計(jì)可以提高加速器中的計(jì)算單元利用率，并行化的計(jì)算可以在同一時(shí)刻利用盡量多的計(jì)算單元。關(guān)于流水，分析部分包括數(shù)據(jù)從DDR加載到FPGA片上SRAM的操作與PE進(jìn)行計(jì)算的流水，通過此項(xiàng)優(yōu)化將內(nèi)存訪問的時(shí)間overlap;DSP計(jì)算整列的計(jì)算控制過程，保證DSP利用率的提升。關(guān)于并行，需要重點(diǎn)分析PE計(jì)算陣列與激活、pooling以及歸一化等“后處理”模塊之間的并行關(guān)系，如何確定好數(shù)據(jù)依賴關(guān)系以及防止沖突是此處設(shè)計(jì)關(guān)鍵。在Inception中，可以從其網(wǎng)絡(luò)結(jié)構(gòu)中看到，brancha/b/c的1x1的卷積計(jì)算與branchd中的pooling是可以并行計(jì)算的，兩者之間并不存在數(shù)據(jù)依賴關(guān)系。通過此處優(yōu)化，3x3maxpoolinglayer的計(jì)算就可以被完全overlap。模型優(yōu)化在設(shè)計(jì)中主要考慮兩個(gè)方面：尋找模型結(jié)構(gòu)優(yōu)化以及支持動(dòng)態(tài)精度調(diào)整的定點(diǎn)化。FPGA是支持大量計(jì)算并行的器件，從模型結(jié)構(gòu)上尋找更高維度的并行性，對(duì)于計(jì)算效率以及減少內(nèi)存訪問都十分有意義。在InceptionV1中，我們可以看到brancha\branchb\branchc的第一層1x1卷積層，其輸入數(shù)據(jù)完全一致，且卷積layer的stride以及pad均一致。那我們是否可以在outputfeaturemap維度上對(duì)齊進(jìn)行疊加？疊加后對(duì)inputdata的訪存需求就降低到了原來的1/3。另一方面，為了充分發(fā)揮FPGA硬件加速的特性，模型的Inference過程需要對(duì)模型進(jìn)行定點(diǎn)化操作。在fpga中，int8的性能可以做到int16的2倍，但是為了使公司內(nèi)以及騰訊云上的客戶可以無感知的部署其訓(xùn)練的浮點(diǎn)模型，而不需要retrainint8模型來控制精度損失，我們采用了支持動(dòng)態(tài)精度調(diào)整的定點(diǎn)化int16方案。通過此種方法，用戶訓(xùn)練好的模型可以直接通過編譯器進(jìn)行部署，而幾乎無任何精度損失。內(nèi)存架構(gòu)設(shè)計(jì)帶寬問題始終是計(jì)算機(jī)體系結(jié)構(gòu)中制約性能的瓶頸之一，同時(shí)內(nèi)存訪問直接影響加速器件功耗效率。為了最大化的減少模型計(jì)算過程中的DDR訪存，我們設(shè)計(jì)了如下的內(nèi)存架構(gòu)：Inputbuff以及outputbufferping-pong設(shè)計(jì)，最大化流水以及并行能力支持Inputbuff和outputbuffer自身之間的inner-copy操作Inputbuff和outputbuffer之間的cross-copy操作通過這種架構(gòu)，對(duì)于大多數(shù)目前主流模型，加速器可以做到將中間數(shù)據(jù)全部hold在FPGA片上，除了模型權(quán)重的加載外，中間無需消耗任何額外的內(nèi)存操作。對(duì)于無法將中間層featuremap完全存儲(chǔ)在片上的模型，我們在設(shè)計(jì)上，在Channel維度上引入了slice分片的概念，在featuremap維度上引入了part分片的概念。通過編譯器將一次卷積或是pooling\Norm操作進(jìn)行合理的拆分，將DDR訪存操作與FPGA加速計(jì)算進(jìn)行流水化操作，在優(yōu)先保證DSP計(jì)算效率的前提下盡量減少了DDR的訪存需求。計(jì)算單元設(shè)計(jì)基于FPGA的通用CNN加速器的核心是其計(jì)算單元，本加速器當(dāng)前版本基于XilinxKu115芯片設(shè)計(jì)，PE計(jì)算單元由4096個(gè)工作在500MHz的MACdsp核心構(gòu)成，理論峰值計(jì)算能力4Tflops。其基本組織框架如下圖所示。KU115芯片由兩個(gè)DIE對(duì)堆疊而成，加速器平行放置了兩組處理單元PE。每個(gè)PE由4組32x16=512的MAC計(jì)算DSP核心組成的XBAR構(gòu)成，設(shè)計(jì)的關(guān)鍵在于提升設(shè)計(jì)中的數(shù)據(jù)復(fù)用降低帶寬，實(shí)現(xiàn)模型權(quán)重復(fù)用和各layerfeaturemap的復(fù)用，提升計(jì)算效率。應(yīng)用場景及性能對(duì)比當(dāng)前深度學(xué)習(xí)主流使用GPU做深度學(xué)習(xí)中的Training過程，而線上Inference部署時(shí)需綜合考慮實(shí)時(shí)性、低成本以及低功耗特性選擇加速平臺(tái)。按深度學(xué)習(xí)落地場景分類，廣告推薦、語音識(shí)別、圖片/視頻內(nèi)容實(shí)時(shí)監(jiān)測等屬于實(shí)時(shí)性AI服務(wù)以及智慧交通、智能音箱以及無人駕駛等終端實(shí)時(shí)低功耗的場景，F(xiàn)PGA相較于GPU能夠?yàn)闃I(yè)務(wù)提供強(qiáng)有力的實(shí)時(shí)高性能的支撐。對(duì)于使用者而言，平臺(tái)性能、開發(fā)周期以及易用性究竟如何呢？加速性能以實(shí)際googlenetv1模型為例，CPU測試環(huán)境：2個(gè)6核CPU（E5-2620v3），64G內(nèi)存。將整機(jī)CPU打滿，單張基于KU115的加速器相較于CPU性能提升16倍，單張圖片檢測延時(shí)從250ms降低到4ms，TCO成本降低90%。同時(shí)，F(xiàn)PGA預(yù)測性能略強(qiáng)于Nvidia的GPUP4，但延時(shí)上有一個(gè)數(shù)量級(jí)的優(yōu)化。開發(fā)周期通用的CNNFPGA加速架構(gòu)，能夠支持業(yè)務(wù)快速迭代持續(xù)演進(jìn)中的深度學(xué)習(xí)模型，包括Googlenet/VGG/Resnet/ShuffleNet/MobileNet等經(jīng)典模型以及新的模型變種。對(duì)于經(jīng)典模型以及基于標(biāo)準(zhǔn)layer自研的算法變種，現(xiàn)有加速架構(gòu)已經(jīng)可以支持，可以在一天內(nèi)通過編譯器實(shí)現(xiàn)模型對(duì)應(yīng)指令集，實(shí)現(xiàn)部署上線。對(duì)于自研的特殊模型，例如不對(duì)稱卷積算子和不對(duì)稱pooling操作等，需要根據(jù)實(shí)際模型結(jié)構(gòu)在本平臺(tái)上進(jìn)行相關(guān)算子迭代開發(fā)，開發(fā)周期可縮短在一到兩周之內(nèi)進(jìn)行支持。易用性FPGACNN加速器對(duì)底層加速過程進(jìn)行封裝，向上對(duì)加速平臺(tái)的業(yè)務(wù)方提供易用SDK。業(yè)務(wù)方調(diào)用簡單的API函數(shù)即可完成加速操作，對(duì)業(yè)務(wù)自身邏輯幾乎無任何改動(dòng)。如果線上模型需要改動(dòng)，只需調(diào)用模型初始化函數(shù)，將對(duì)應(yīng)的模型指令集初始化FPGA即可，加速業(yè)務(wù)可以在幾秒內(nèi)進(jìn)行切換。結(jié)語基于FPGA的通用CNN加速設(shè)計(jì)，可以大大縮短

人人文庫> 全部分類> 行業(yè)資料 > 信息產(chǎn)業(yè)

溫馨提示

1. 本站所有資源如無特殊說明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽，若沒有圖紙預(yù)覽就沒有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間，僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理，對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容，請(qǐng)與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

基于FPGA的通用CNN加速設(shè)計(jì)

文檔簡介

溫馨提示

最新文檔

評(píng)論

基于FPGA的通用CNN加速設(shè)計(jì)

文檔簡介

溫馨提示

最新文檔

評(píng)論

相關(guān)文檔