深度學(xué)習(xí)-0417教學(xué)文案_第1頁
深度學(xué)習(xí)-0417教學(xué)文案_第2頁
深度學(xué)習(xí)-0417教學(xué)文案_第3頁
深度學(xué)習(xí)-0417教學(xué)文案_第4頁
深度學(xué)習(xí)-0417教學(xué)文案_第5頁
已閱讀5頁,還剩40頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

深度學(xué)習(xí)-0417人工智能——為機器賦予人的智能人工智能、機器學(xué)習(xí)與深度學(xué)習(xí)人工智能機器學(xué)習(xí)深度學(xué)習(xí)1950's1960's1970's1980's1990's2000's2010's模擬、延伸和擴展人的智能的理論、方法、技術(shù)及應(yīng)用系統(tǒng)的技術(shù)科學(xué);讓機器象人一樣思考應(yīng)用:國際跳棋程序人工智能的分支,研究機器模擬或?qū)崿F(xiàn)人類的學(xué)習(xí)行為,以獲取新的知識技能,并改善自身性能應(yīng)用:垃圾郵件過濾一種機器學(xué)習(xí)方法,模擬人腦機制解釋數(shù)據(jù),通過組合低層特征形成更加抽象的高層屬性類別或特征應(yīng)用:谷歌視頻尋貓訓(xùn)練階段:輸入大量帶標(biāo)注動物圖片,訓(xùn)練網(wǎng)絡(luò)學(xué)會辨別推理階段:輸入未標(biāo)注圖片提取圖片內(nèi)容的低層特征,如輪廓分析提取高層的結(jié)構(gòu)特征,如四肢分析獲得頂層的抽象概念,如動物類型基于前期訓(xùn)練結(jié)果,預(yù)測圖片內(nèi)容深度學(xué)習(xí)的流程深度學(xué)習(xí)典型算法為卷積神經(jīng)網(wǎng)絡(luò),以2層卷積為例,算法為:輸入圖像與濾波器、偏置進(jìn)行卷積,產(chǎn)生卷積層的特征映射圖卷積層特征映射圖經(jīng)求和,加權(quán)值,偏置,函數(shù)處理得到采樣層采樣層重復(fù)上述流程處理后產(chǎn)生新的采樣層全連接層提取歸類獲得足夠好的高層特征表達(dá)信息深度學(xué)習(xí)的算法一層卷積學(xué)到的特征是局部的,層數(shù)越高,特征就越全局化。卷積和采樣具體過程為:卷積過程:濾波器fx卷積輸入圖像后,加偏置項bx,得卷積層Cx采樣過程:每鄰域4個像素求和得一個像素,通過標(biāo)量Wx+1加權(quán),加偏置項bx+1,通過sigmoid激活函數(shù)產(chǎn)生縮小4倍的特征圖Sx+1深度學(xué)習(xí)的算法深度學(xué)習(xí)開源框架層出不窮,用來實現(xiàn)深度學(xué)習(xí)算法避免重復(fù)工作,降低算法門檻Google、Microsoft、Facebook等均發(fā)布深度學(xué)習(xí)框架谷歌TensorFlow占絕對優(yōu)勢強大的人工智能研發(fā)水平、快速的迭代更新深度學(xué)習(xí)的開源框架谷歌2015年底發(fā)布開源深度學(xué)習(xí)框架TensorFlowTensor(張量):多維數(shù)組在高維空間的數(shù)學(xué)運算Flow(流):基于數(shù)據(jù)流圖的計算TensorFlow關(guān)鍵特性代碼簡潔多語言支持分布式算法執(zhí)行效率高移值靈活伸縮性好支持多種神經(jīng)網(wǎng)絡(luò)算法深度學(xué)習(xí)的開源框架報告提綱深度學(xué)習(xí)概念及其算法1深度學(xué)習(xí)硬件加速方式2典型神經(jīng)網(wǎng)絡(luò)芯片介紹3深度學(xué)習(xí)硬件加速方式當(dāng)前深度學(xué)習(xí)硬件加速方式主要有CPU、GPU、FPGA、DSP、ASIC深度學(xué)習(xí)硬件加速方式——CPU通用級加速方式,高度靈活性和易用性架構(gòu)上有先天弱勢運算能力較弱訪存帶寬受限代表:IntelXeonPhi系列芯片、高通驍龍820案例:GoogleBrain項目用16000個CPUCore的并行計算平臺保證訓(xùn)練算法速度,通過觀看YouTube的視頻,識別出貓SIMD方式,計算能力強,并行度支持好通用性,并非針對深度學(xué)習(xí)運行效率受影響能耗仍較大代表:NVIDIATeslaP100GPU案例:基于GPU深度學(xué)習(xí)加速受到谷歌、微軟、IBM以及百度等企業(yè)青睞;在汽車和先進(jìn)駕駛輔助系統(tǒng)(ADAS)方面與眾多車企進(jìn)行合作深度學(xué)習(xí)硬件加速方式——GPU能效較高且硬件配置靈活頂級GPU性能的1/5,能效相當(dāng)相比CPU,性能提升1個數(shù)量級,能效提升2個數(shù)量級增長的門資源和內(nèi)存帶寬帶來更大的設(shè)計空間省去ASIC方案所需流片過程代表:DeephiTech(深鑒科技)、Xilinx、Altera案例:微軟用AlteraFPGA實現(xiàn)基于卷積神經(jīng)網(wǎng)絡(luò)的數(shù)據(jù)中心加速,效能優(yōu)異。算法用于圖像分類、圖像識別及自然語言處理深度學(xué)習(xí)硬件加速方式——FPGA用傳統(tǒng)SIMD/DSP架構(gòu)來適配運算邏輯作修改,以適用卷積神經(jīng)網(wǎng)絡(luò)對深度學(xué)習(xí)全面計算能力支持不足核心數(shù)量較少,并行性支持較差代表:Cadence的TensilicaVisionP5處理器、Synopsys的EV處理器、中星微視頻處理芯片星光智能一號案例:星光智能一號廣泛應(yīng)用于高清視頻監(jiān)控、智能駕駛輔助、無人機、機器人等嵌入式機器視覺領(lǐng)域深度學(xué)習(xí)硬件加速方式——DSP阻礙深度學(xué)習(xí)發(fā)展的瓶頸仍是算法速度傳統(tǒng)處理器需要多條指令才能完成一個神經(jīng)元的處理ASIC根據(jù)深度學(xué)習(xí)算法定制:處理效率、能效均最高代表:Cambricon(寒武紀(jì)科技)DianNao芯片、谷歌的TPU芯片、HorizonRobotics(地平線機器人)BPU芯片案例:基于TPU的AlphaGo與圍棋冠軍李世石人機大戰(zhàn),總比分4:1獲勝深度學(xué)習(xí)硬件加速方式——ASIC深度學(xué)習(xí)硬件加速方式比較加速方式優(yōu)點缺點CPU通用結(jié)構(gòu)、可獨立工作通用性導(dǎo)致效率和能效比低GPU強大的并行計算能力通用性導(dǎo)致效率受影響、能耗大FPGA靈活性好、設(shè)計空間大、省去流片過程效能與功耗上不能更緊密適配算法、成本高DSP改動小、計算能力較高缺乏深度學(xué)習(xí)全面計算能力、核心數(shù)量較少,并行性支持較差A(yù)SIC能效比最好靈活性差、缺乏通用潛力、成本較高上述均為基于深度學(xué)習(xí)的加速芯片。作為人工神經(jīng)網(wǎng)絡(luò)芯片,還有另外一支,是從類似或模擬生物神經(jīng)系統(tǒng)來實現(xiàn)的神經(jīng)形態(tài)網(wǎng)絡(luò)芯片(類腦芯片)代表:IBMTrueNorth(真北)、Brainchip等其他人工神經(jīng)網(wǎng)絡(luò)芯片報告提綱深度學(xué)習(xí)概念及其算法1深度學(xué)習(xí)硬件加速方式2典型神經(jīng)網(wǎng)絡(luò)芯片介紹3IBM,2014年發(fā)布能模擬人類大腦的超大規(guī)模神經(jīng)突觸芯片TrueNorth基于類似人腦、非馮·諾依曼的計算架構(gòu)含有100萬神經(jīng)元,通過2.56億個突觸彼此通信4096個神經(jīng)突觸,每秒可執(zhí)行46千兆突觸運算三星28nm工藝,54億晶體管,功耗僅為70mW典型神經(jīng)網(wǎng)絡(luò)芯片——IBMTrueNorthTrueNorth芯片結(jié)構(gòu)、功能、物理形態(tài)圖典型神經(jīng)網(wǎng)絡(luò)芯片——IBMTrueNorth人腦分成三個層次——神經(jīng)突觸、腦功能區(qū)和腦皮層每個突觸由諸多神經(jīng)元組成,每個腦功能區(qū)由諸多突觸組成,一個能完整執(zhí)行任務(wù)的皮層由諸多個功能區(qū)組成TrueNorth芯片架構(gòu)對應(yīng)分為三個層次突觸對應(yīng)硬件—neurosynapticcore,有256個輸出與輸入及對應(yīng)的存儲,并集成神經(jīng)信號的路由器芯片有4096個core,組成腦功能區(qū)芯片與芯片間互聯(lián),實現(xiàn)完整的腦皮層功能TrueNorth基于脈沖神經(jīng)網(wǎng)絡(luò)設(shè)計,采用1KHz幀時鐘模擬生物上的脈沖,因而沒有全局時鐘控制的信號傳遞;數(shù)據(jù)和數(shù)據(jù)之間采用異步方式通訊,實現(xiàn)低功耗。典型神經(jīng)網(wǎng)絡(luò)芯片——IBMTrueNorthIBM用48塊TrueNorth芯片構(gòu)建一個電子的嚙齒類動物大腦,每一塊芯片都可以模擬大腦的一個基本功能區(qū)。系統(tǒng)可模擬4800萬個神經(jīng)細(xì)胞,與小型嚙齒動物大腦的神經(jīng)細(xì)胞數(shù)齊平基于該模擬大腦編寫的程序可識別照片和語音,并理解一些自然語言典型神經(jīng)網(wǎng)絡(luò)芯片——IBMTrueNorth2016年12月,IBM公布了TrueNorth芯片的最新成果美國陸軍研究實驗室利用TrueNorth芯片的低功耗和實時模式識別特性,幫助在部署數(shù)據(jù)收集時,減少延遲、降低數(shù)據(jù)復(fù)雜性、減少傳輸寬帶需求,同時解決分布式系統(tǒng)終端的數(shù)據(jù)存儲需求美國空軍研究實驗室利用TrueNorth橫向擴展系統(tǒng)來執(zhí)行并行數(shù)據(jù)的文本提取和識別任務(wù)。圖像文本被分割成單獨的字符后被TrueNorth系統(tǒng)進(jìn)行并行字符識別。歸類之后的結(jié)果將會被傳送到基于推理的自然語言模型中來重建單詞和句子勞倫斯·利弗莫爾國家實驗室訓(xùn)練一個16塊TrueNorth芯片組成的網(wǎng)絡(luò)追蹤激光熔化機的焊點質(zhì)量,可以識別7種等級。實時焊點質(zhì)量監(jiān)控使得閉環(huán)工藝改進(jìn)和立即排除缺陷部件成為可能典型神經(jīng)網(wǎng)絡(luò)芯片——IBMTrueNorth對TrueNorth的評價不同于馮諾依曼架構(gòu),將處理、存儲、通信集成在一起嘗試在硅片中模仿人腦以大規(guī)模平行方式處理信息向社會步入認(rèn)知計算機時代邁出重要一步短期看,TrueNorth情況不樂觀生態(tài)系統(tǒng)差編程困難缺乏高效的訓(xùn)練算法不具備調(diào)整的靈活性典型神經(jīng)網(wǎng)絡(luò)芯片——IBMTrueNorth2016年中科院計算所正式發(fā)布神經(jīng)網(wǎng)絡(luò)處理器寒武紀(jì)針對深度學(xué)習(xí)領(lǐng)域的專用芯片性能、功耗和面積上,比CPU/GPU有百倍優(yōu)勢寒武紀(jì)系列已包含四種原型處理器:寒武紀(jì)1號(英文名DianNao,面向神經(jīng)網(wǎng)絡(luò)的原型處理器結(jié)構(gòu))寒武紀(jì)2號(英文名DaDianNao,面向大規(guī)模神經(jīng)網(wǎng)絡(luò))寒武紀(jì)3號(英文名PuDianNao,面向多種機器學(xué)習(xí)算法)寒武紀(jì)4號(英文名ShiDianNao,面向視頻處理特定領(lǐng)域)配套首個深度學(xué)習(xí)指令集Cambricon(DianNaoYu)直接面對大規(guī)模神經(jīng)元和突觸的處理一條指令即可完成一組神經(jīng)元的處理對神經(jīng)元和突觸數(shù)據(jù)傳輸提供一系列支持典型神經(jīng)網(wǎng)絡(luò)芯片——寒武紀(jì)DianNao片上存儲:芯片內(nèi)含三塊片上存儲,用于存儲input的NBin、output的NBout和神經(jīng)網(wǎng)絡(luò)模型權(quán)重參數(shù)的SB;片上存儲與片外通過DMA通信運算邏輯:核心計算部件為由三級流水線組成NFUNFU和片上存儲的時分復(fù)用:運行時,網(wǎng)絡(luò)模型參數(shù)依次被加載到SB,每層神經(jīng)layer的輸入數(shù)據(jù)被依次加載到NBin,layer計算結(jié)果寫入到NBoutNFU里基礎(chǔ)計算不會與具體的神經(jīng)元或權(quán)重參數(shù)綁定靈活性和尺寸相較于全硬件方案有明顯改進(jìn)典型神經(jīng)網(wǎng)絡(luò)芯片——寒武紀(jì)DianNaoDianNao是寒武紀(jì)系列的第一個原型處理器結(jié)構(gòu)單核,主頻0.98GHz,峰值性能每秒4520億次神經(jīng)網(wǎng)絡(luò)基本運算65nm工藝,面積3.02mm2,功耗0.485W,性能超主流CPU核100倍,面積和功耗僅為1/10性能與主流GPU相當(dāng),面積和功耗僅為1/100典型神經(jīng)網(wǎng)絡(luò)芯片——寒武紀(jì)DianNaoDaDianNao在DianNao的基礎(chǔ)上進(jìn)一步擴大處理器的規(guī)模16個處理器核和更大的片上存儲多芯片間直接高速互連,避免內(nèi)存訪問開銷28nm工藝,主頻606MHz,面積67.7mm2,功耗16W性能超過主流GPU21倍,能耗僅為主流GPU的1/330典型神經(jīng)網(wǎng)絡(luò)芯片——寒武紀(jì)DianNao多用途機器學(xué)習(xí)處理器PuDianNao支持k-最近鄰、支持向量機、神經(jīng)網(wǎng)絡(luò)等近十種代表性機器學(xué)習(xí)算法主頻為1GHz,峰值性能每秒10560億次基本操作65nm工藝,面積3.51mm2,功耗0.596W性能與主流GPU相當(dāng),面積和功耗僅為主流GPGPU百分之一量級典型神經(jīng)網(wǎng)絡(luò)芯片——寒武紀(jì)DianNao2016年成果ShiDianNao傳感器可直接對圖像進(jìn)行流式識別處理,消除對圖像的讀寫操作用比較小的卷積神經(jīng)網(wǎng)絡(luò)在芯片上處理,消除對模型的讀寫操作65nm工藝,面積4.86mm2,功耗0.32W性能與CPU/GPU/專用加速器比,有50/30/2倍的提升典型神經(jīng)網(wǎng)絡(luò)芯片——寒武紀(jì)DianNao應(yīng)用案例:ShiDianNao在系統(tǒng)中進(jìn)行深度學(xué)習(xí)的模式識別,經(jīng)訓(xùn)練后具有類似人腦的識別能力,可從圖像中識別出貓正在進(jìn)行商業(yè)化推廣,將寒武紀(jì)IP盒子或芯片嵌入到傳統(tǒng)手機或個人電腦主板,極大提高處理速度典型神經(jīng)網(wǎng)絡(luò)芯片——寒武紀(jì)DianNao寒武紀(jì)系列芯片的技術(shù)突破:突破了內(nèi)存帶寬的主要性能瓶頸,通過EDRAM技術(shù)及多芯片互聯(lián),保證神經(jīng)網(wǎng)絡(luò)模型完整放于片上,完全無需訪問內(nèi)存

突破了片上通訊導(dǎo)致的延遲和功耗,分成的每塊內(nèi)部包含運算部件、神經(jīng)元數(shù)據(jù)、突觸數(shù)據(jù),可以減少90%以上片上通訊時間

突破了機器學(xué)習(xí)算法、變種眾多的困難,采用可編程VLIM處理其結(jié)構(gòu)以及靈活的運算部件,支持幾乎所有現(xiàn)有的主流機器學(xué)習(xí)算法

典型神經(jīng)網(wǎng)絡(luò)芯片——寒武紀(jì)DianNao2016年谷歌透露其機器學(xué)習(xí)專用芯片張量處理器TPU,并于2017年4月官方詳細(xì)介紹TPU專為深度學(xué)習(xí)框架TensorFlow進(jìn)行的ASIC設(shè)計脈動陣列處理結(jié)構(gòu):數(shù)據(jù)向運算陣列傳遞和處理有嚴(yán)格流程規(guī)定處理峰值92TOPS,比GPU和CPU快15到30倍功耗75W,能效比GPU和CPU提升了30到80倍典型神經(jīng)網(wǎng)絡(luò)芯片——谷歌TPU針對深度學(xué)習(xí)的定制化設(shè)計主要計算部件是黃色256*256的8位矩陣乘法單元、非線性神經(jīng)元計算單元(Activation),及用于歸一化和池化的計算單元輸入是藍(lán)色的權(quán)重數(shù)據(jù)隊列FIFO和藍(lán)色的統(tǒng)一緩沖(UnifiedBuffer)輸出是藍(lán)色的累加器(Accumulators)歸一化和池化計算單元的運算數(shù)據(jù)返回統(tǒng)一緩沖區(qū)典型神經(jīng)網(wǎng)絡(luò)芯片——谷歌TPU大規(guī)模片上內(nèi)存藍(lán)色為數(shù)據(jù)緩存:37%,24MB的局部內(nèi)存,4MB的累加器內(nèi)存及用于與主控處理器進(jìn)行對接的內(nèi)存黃色為計算單元:30%綠色為I/O端口:10%紅色為控制邏輯:2%典型神經(jīng)網(wǎng)絡(luò)芯片——谷歌TPU脈動(Systolic)陣列處理結(jié)構(gòu)最早由美籍華人計算機科學(xué)家孔祥重等提出矩陣乘法和卷積運算中數(shù)據(jù)是可復(fù)用的,同一數(shù)據(jù)需和不同權(quán)重相乘并累加。不同時刻,數(shù)據(jù)輸入只有少數(shù)新數(shù)據(jù)需從外面獲取,多數(shù)數(shù)據(jù)是上一時刻數(shù)據(jù)的移位脈動式數(shù)據(jù)流,最大化數(shù)據(jù)復(fù)用,減小內(nèi)存訪問次數(shù)、內(nèi)存帶寬壓力和訪存能量消耗典型神經(jīng)網(wǎng)絡(luò)芯片——谷歌TPU脈動陣列處理結(jié)構(gòu)進(jìn)行矩陣乘法運算的過程a11每次向右移一格,依次與b11、b12、b13相乘b11每次向下移一格,依次與a11、a21、a31相乘以此類推典型神經(jīng)網(wǎng)絡(luò)芯片——谷歌TPU低精度(8bit)計算使用低精度而非32bit全精度浮點計算已成深度學(xué)習(xí)界共識低精度運算準(zhǔn)確率損失小,硬件上功耗、運算速度、運算單元面積、內(nèi)存帶寬需求受益明顯TPU被設(shè)計為在PCIeI/O總線上的協(xié)處理器像GPU一樣直接接入數(shù)據(jù)中心主機服務(wù)器發(fā)送TPU指令來供其執(zhí)行典型神經(jīng)網(wǎng)絡(luò)芯片——谷歌TPUTPU指令共十余條,遵循CISC指令傳統(tǒng),其中有5條關(guān)鍵指令讀主機存儲:從CPU主存讀數(shù)據(jù)到統(tǒng)一緩沖讀權(quán)重Read_Weights:從權(quán)值存儲器讀權(quán)值數(shù)據(jù)到權(quán)值隊列,作為矩陣單元的輸入矩陣乘/卷積MatrixMultiply/Convolve:驅(qū)動矩陣單元執(zhí)行一次矩陣乘或一次卷積,將統(tǒng)一緩沖中的數(shù)據(jù)計算并輸出到累加器激活A(yù)ctivate:執(zhí)行人工神經(jīng)的非線性函數(shù),輸入是累加器結(jié)果,函數(shù)計算后輸出到統(tǒng)一緩沖。同時也執(zhí)行卷積所需池化操作寫主機存儲Write_Host_Memory:將數(shù)據(jù)從統(tǒng)一緩沖寫回CPU主存其他指令:備用主機內(nèi)存讀/寫,設(shè)置配置,同步,中斷主機,調(diào)試,空操作和停止典型神經(jīng)網(wǎng)絡(luò)芯片——谷歌TPU谷歌TPU與英特爾HaswellXeonE5處理器和英偉達(dá)K80的對比TPU使用8位整數(shù)數(shù)學(xué)運算器,擁有256GB主機內(nèi)存及32GB內(nèi)存,內(nèi)存帶寬最大34GB/秒,處理速度達(dá)92TOPSTPU芯片工作功耗40W,服務(wù)器工作功耗384WTPU各方面表現(xiàn)要強于前兩者典型神經(jīng)網(wǎng)絡(luò)芯片——谷歌TPUCPU、GPU和TPU處理不同批量大小推理任務(wù)的吞吐量批量大小為200,響應(yīng)時間為7毫秒時,提供225000個IPS運行推理基準(zhǔn),是其峰值性能的80%批量大小為250,響應(yīng)時間為10毫秒時,提供280000個IPS運行推理基準(zhǔn),達(dá)到峰值性能典型神經(jīng)網(wǎng)絡(luò)芯片——谷歌TPUGPU服務(wù)器、TPU服務(wù)器、CPU服務(wù)器的能效比對比其中,TPU'是改進(jìn)版的TPU;總和(Total)包含主機CPU服務(wù)器功耗,增量(incremental)減去主機CPU服務(wù)器功耗;GM和WM分別是幾何學(xué)圖形與加權(quán)平均值總和能效比,TPU是Haswell的17倍到34倍,是K80的14倍到16倍增量能效比,TP

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論