下載本文檔
版權說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權,請進行舉報或認領
文檔簡介
基于FPGA的通用CNN加速設計要做一些計算加速的工作,入手先要想好幾個問題:要加速的是什么應用,應用的瓶頸是什么,再針對這個瓶頸,參考前人工作選擇合適的方案。過早地執(zhí)著于fpga的技術細節(jié)容易護士許多的細節(jié)?,F(xiàn)在softwaredefinenetwork/flash/xxx,已然大勢所趨。WHEN?深度學習異構計算現(xiàn)狀隨著互聯(lián)網(wǎng)用戶的快速增長,數(shù)據(jù)體量的急劇膨脹,數(shù)據(jù)中心對計算的需求也在迅猛上漲。同時,人工智能、高性能數(shù)據(jù)分析和金融分析等計算密集型領域的興起,對計算能力的需求已遠遠超出了傳統(tǒng)CPU處理器的能力所及。異構計算被認為是現(xiàn)階段解決此計算溝壑的關鍵技術,目前“CPU+GPU”以及“CPU+FPGA”是最受業(yè)界關注的異構計算平臺。它們具有比傳統(tǒng)CPU并行計算更高效率和更低延遲的計算性能優(yōu)勢。面對如此巨大的市場,科技行業(yè)大量企業(yè)投入了大量的資金和人力,異構編程的開發(fā)標準也在逐漸成熟,而主流的云服務商更是在積極布局。WHY?通用CNNFPGA加速業(yè)界可以看到諸如微軟等巨頭公司已經(jīng)部署大批量的FPGA來做AIinference加速,F(xiàn)PGA相較于其他器件的優(yōu)勢是什么呢?Flexibility:可編程性天然適配正在快速演進的ML算法DNN、CNN、LSTM、MLP、reinforcementlearning以及決策樹等等任意精度動態(tài)支持模型壓縮、稀疏網(wǎng)絡、更快更好的網(wǎng)絡Performance:構建實時性AI服務能力相較于GPU/CPU數(shù)量級提升的低延時預測能力相較于GPU/CPU數(shù)量級提升的單瓦特性能能力Scale板卡間高速互聯(lián)IOIntelCPU-FPGA構架與此同時,F(xiàn)PGA的短板也非常的明顯,F(xiàn)PGA使用HDL硬件描述語言來進行開發(fā),開發(fā)周期長,入門門檻高。以單獨的經(jīng)典模型如Alexnet以及Googlenet為例,針對一個模型進行定制的加速開發(fā),往往需要數(shù)月的時間。業(yè)務方以及FPGA加速團隊需要兼顧算法迭代以及適配FPGA硬件加速,十分痛苦。一方面需要FPGA提供相較于CPU/GPU有足夠競爭力的低延時高性能服務,一方面需要FPGA的開發(fā)周期跟上深度學習算法的迭代周期,基于這兩點我們設計開發(fā)了一款通用的CNN加速器。兼顧主流模型算子的通用設計,以編譯器產(chǎn)生指令的方式來驅動模型加速,可以短時間內(nèi)支持模型切換;同時,對于新興的深度學習算法,在此通用基礎版本上進行相關算子的快速開發(fā)迭代,模型加速開發(fā)時間從之前的數(shù)月降低到現(xiàn)在的一到兩周之內(nèi)。HOW?通用CNNFPGA架構基于FPGA的通用CNN加速器整體框架如下,通過Caffe/Tensorflow/Mxnet等框架訓練出來的CNN模型,通過編譯器的一系列優(yōu)化生成模型對應的指令;同時,圖片數(shù)據(jù)和模型權重數(shù)據(jù)按照優(yōu)化規(guī)則進行預處理以及壓縮后通過PCIe下發(fā)到FPGA加速器中。FPGA加速器完全按照指令緩沖區(qū)中的指令集驅動工作,加速器執(zhí)行一遍完整指令緩沖區(qū)中的指令則完成一張圖片深度模型的計算加速工作。每個功能模塊各自相對獨立,只對每一次單獨的模塊計算請求負責。加速器與深度學習模型相抽離,各個layer的數(shù)據(jù)依賴以及前后執(zhí)行關系均在指令集中進行控制。簡單而言,編譯器的主要工作就是對模型結構進行分析優(yōu)化,然后生成FPGA高效執(zhí)行的指令集。編譯器優(yōu)化的指導思想是:更高的MACdsp計算效率以及更少的內(nèi)存訪問需求。接下來我們以GooglenetV1模型為例,對加速器的設計優(yōu)化思路做簡單的分析。Inceptionv1的網(wǎng)絡,將1x1、3x3、5x5的conv和3x3的poolingstack在一起,一方面增加了網(wǎng)絡的width,另一方面增加了網(wǎng)絡對尺度的適應性。下圖為模型中Inception的基本結構。數(shù)據(jù)依賴關系分析此部分主要分析挖掘模型中可流水化以及可并行化的計算。流水化的設計可以提高加速器中的計算單元利用率,并行化的計算可以在同一時刻利用盡量多的計算單元。關于流水,分析部分包括數(shù)據(jù)從DDR加載到FPGA片上SRAM的操作與PE進行計算的流水,通過此項優(yōu)化將內(nèi)存訪問的時間overlap;DSP計算整列的計算控制過程,保證DSP利用率的提升。關于并行,需要重點分析PE計算陣列與激活、pooling以及歸一化等“后處理”模塊之間的并行關系,如何確定好數(shù)據(jù)依賴關系以及防止沖突是此處設計關鍵。在Inception中,可以從其網(wǎng)絡結構中看到,brancha/b/c的1x1的卷積計算與branchd中的pooling是可以并行計算的,兩者之間并不存在數(shù)據(jù)依賴關系。通過此處優(yōu)化,3x3maxpoolinglayer的計算就可以被完全overlap。模型優(yōu)化在設計中主要考慮兩個方面:尋找模型結構優(yōu)化以及支持動態(tài)精度調整的定點化。FPGA是支持大量計算并行的器件,從模型結構上尋找更高維度的并行性,對于計算效率以及減少內(nèi)存訪問都十分有意義。在InceptionV1中,我們可以看到brancha\branchb\branchc的第一層1x1卷積層,其輸入數(shù)據(jù)完全一致,且卷積layer的stride以及pad均一致。那我們是否可以在outputfeaturemap維度上對齊進行疊加?疊加后對inputdata的訪存需求就降低到了原來的1/3。另一方面,為了充分發(fā)揮FPGA硬件加速的特性,模型的Inference過程需要對模型進行定點化操作。在fpga中,int8的性能可以做到int16的2倍,但是為了使公司內(nèi)以及騰訊云上的客戶可以無感知的部署其訓練的浮點模型,而不需要retrainint8模型來控制精度損失,我們采用了支持動態(tài)精度調整的定點化int16方案。通過此種方法,用戶訓練好的模型可以直接通過編譯器進行部署,而幾乎無任何精度損失。內(nèi)存架構設計帶寬問題始終是計算機體系結構中制約性能的瓶頸之一,同時內(nèi)存訪問直接影響加速器件功耗效率。為了最大化的減少模型計算過程中的DDR訪存,我們設計了如下的內(nèi)存架構:Inputbuff以及outputbufferping-pong設計,最大化流水以及并行能力支持Inputbuff和outputbuffer自身之間的inner-copy操作Inputbuff和outputbuffer之間的cross-copy操作通過這種架構,對于大多數(shù)目前主流模型,加速器可以做到將中間數(shù)據(jù)全部hold在FPGA片上,除了模型權重的加載外,中間無需消耗任何額外的內(nèi)存操作。對于無法將中間層featuremap完全存儲在片上的模型,我們在設計上,在Channel維度上引入了slice分片的概念,在featuremap維度上引入了part分片的概念。通過編譯器將一次卷積或是pooling\Norm操作進行合理的拆分,將DDR訪存操作與FPGA加速計算進行流水化操作,在優(yōu)先保證DSP計算效率的前提下盡量減少了DDR的訪存需求。計算單元設計基于FPGA的通用CNN加速器的核心是其計算單元,本加速器當前版本基于XilinxKu115芯片設計,PE計算單元由4096個工作在500MHz的MACdsp核心構成,理論峰值計算能力4Tflops。其基本組織框架如下圖所示。KU115芯片由兩個DIE對堆疊而成,加速器平行放置了兩組處理單元PE。每個PE由4組32x16=512的MAC計算DSP核心組成的XBAR構成,設計的關鍵在于提升設計中的數(shù)據(jù)復用降低帶寬,實現(xiàn)模型權重復用和各layerfeaturemap的復用,提升計算效率。應用場景及性能對比當前深度學習主流使用GPU做深度學習中的Training過程,而線上Inference部署時需綜合考慮實時性、低成本以及低功耗特性選擇加速平臺。按深度學習落地場景分類,廣告推薦、語音識別、圖片/視頻內(nèi)容實時監(jiān)測等屬于實時性AI服務以及智慧交通、智能音箱以及無人駕駛等終端實時低功耗的場景,F(xiàn)PGA相較于GPU能夠為業(yè)務提供強有力的實時高性能的支撐。對于使用者而言,平臺性能、開發(fā)周期以及易用性究竟如何呢?加速性能以實際googlenetv1模型為例,CPU測試環(huán)境:2個6核CPU(E5-2620v3),64G內(nèi)存。將整機CPU打滿,單張基于KU115的加速器相較于CPU性能提升16倍,單張圖片檢測延時從250ms降低到4ms,TCO成本降低90%。同時,F(xiàn)PGA預測性能略強于Nvidia的GPUP4,但延時上有一個數(shù)量級的優(yōu)化。開發(fā)周期通用的CNNFPGA加速架構,能夠支持業(yè)務快速迭代持續(xù)演進中的深度學習模型,包括Googlenet/VGG/Resnet/ShuffleNet/MobileNet等經(jīng)典模型以及新的模型變種。對于經(jīng)典模型以及基于標準layer自研的算法變種,現(xiàn)有加速架構已經(jīng)可以支持,可以在一天內(nèi)通過編譯器實現(xiàn)模型對應指令集,實現(xiàn)部署上線。對于自研的特殊模型,例如不對稱卷積算子和不對稱pooling操作等,需要根據(jù)實際模型結構在本平臺上進行相關算子迭代開發(fā),開發(fā)周期可縮短在一到兩周之內(nèi)進行支持。易用性FPGACNN加速器對底層加速過程進行封裝,向上對加速平臺的業(yè)務方提供易用SDK。業(yè)務方調用簡單的API函數(shù)即可完成加速操作,對業(yè)務自身邏輯幾乎無任何改動。如果線上模型需要改動,只需調用模型初始化函數(shù),將對應的模型指令集初始化FPGA即可,加速業(yè)務可以在幾秒內(nèi)進行切換。結語基于FPGA的通用CNN加速設計,可以大大縮短
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經(jīng)權益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025民間的借款合同范本2
- 2025搬家貨運合同模板
- 2025年度年度水利工程設施維修管理協(xié)議3篇
- 二零二五年度2025年農(nóng)業(yè)合作社合伙人合同協(xié)議3篇
- 2025年度農(nóng)村房屋買賣合同(含房屋附屬設施及土地開發(fā))
- 二零二五年度農(nóng)村住房建設智能化系統(tǒng)安裝合同
- 2025年度大學畢業(yè)生就業(yè)意向與培養(yǎng)協(xié)議3篇
- 2025年度出差環(huán)境保護與可持續(xù)發(fā)展協(xié)議3篇
- 二零二五年度新型農(nóng)村機井承包管理協(xié)議
- 2025年度體育用品商鋪租賃合同范本(含賽事贊助合作)3篇
- ANSYS有限元技術分析優(yōu)化
- 模具專業(yè)英語完整版電子課件
- 小學數(shù)學北師大四年級上冊四運算律運算定律復習課PPT
- 個人社保代繳協(xié)議合同模板
- C4支持學生創(chuàng)造性學習與表達作業(yè)1-設計方案
- 給水排水管道工程外觀質量檢查記錄
- 2022年國家電力公司火力發(fā)電廠勞動定員標準
- 危險化學品水路運輸安全管理規(guī)定
- 教育中的心理效應
- 考古繪圖(課堂PPT)
- PE管熱熔對接施工方案完整
評論
0/150
提交評論