深度學(xué)習(xí)算法發(fā)展從多樣到統(tǒng)一

上傳人：b*** IP屬地：北京上傳時(shí)間：2023-02-05 格式：DOCX 頁(yè)數(shù)：12 大小：1.04MB 積分：15 舉報(bào) 版權(quán)申訴

深度學(xué)習(xí)算法發(fā)展從多樣到統(tǒng)一_第2頁(yè)

深度學(xué)習(xí)算法發(fā)展從多樣到統(tǒng)一_第3頁(yè)

深度學(xué)習(xí)算法發(fā)展從多樣到統(tǒng)一_第4頁(yè)

深度學(xué)習(xí)算法發(fā)展從多樣到統(tǒng)一_第5頁(yè)

已閱讀5頁(yè)，還剩7頁(yè)未讀，繼續(xù)免費(fèi)閱讀

版權(quán)說(shuō)明：本文檔由用戶提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

行業(yè)深度研究行業(yè)深度研究深度學(xué)習(xí)的三要素包括算法、數(shù)據(jù)和算力，本文主要對(duì)算法的演進(jìn)過(guò)程進(jìn)行了回顧，認(rèn)為過(guò)往神經(jīng)網(wǎng)絡(luò)的發(fā)展以eu激活函數(shù)的提出為分水嶺，分為淺層神經(jīng)網(wǎng)絡(luò)和深度學(xué)習(xí)兩個(gè)階。在淺層神經(jīng)網(wǎng)絡(luò)階段，最重要的任務(wù)就是解決梯度不穩(wěn)定的問(wèn)。在這個(gè)問(wèn)題未被妥善解決之前，神經(jīng)網(wǎng)絡(luò)應(yīng)用性能不佳，而屬于非神經(jīng)網(wǎng)絡(luò)的支持向量機(jī)算法）是解決人工智能模式識(shí)別的主流方法。201年eu激活函數(shù)被提出、梯度消失問(wèn)題被大幅緩解之，神經(jīng)網(wǎng)絡(luò)進(jìn)入深度學(xué)習(xí)時(shí)，算法和應(yīng)用的發(fā)展均突飛猛。最初C、RN等模型在不同的模態(tài)和任務(wù)均各有擅長(zhǎng)2017年rnsforer的提出讓深度學(xué)習(xí)進(jìn)入了大模型時(shí)代2020年sonransfrer的提出讓深度學(xué)習(xí)進(jìn)入了多模態(tài)時(shí)代，自此多模態(tài)和多任務(wù)底層算法被統(tǒng)一為ransforer架構(gòu)。目深度學(xué)習(xí)算法主要是基于ransforer骨干網(wǎng)絡(luò)進(jìn)行分支網(wǎng)絡(luò)的創(chuàng)新，如引入擴(kuò)散模型、強(qiáng)化學(xué)習(xí)等方法。整個(gè)行業(yè)算法發(fā)展速度放緩，靜待骨干網(wǎng)絡(luò)的下一次突破。下文我們將對(duì)各發(fā)展階段的經(jīng)典模型進(jìn)行回顧：感知機(jī)：第一個(gè)神經(jīng)網(wǎng)絡(luò)感知機(jī)由osenbatt在1958年提出是神經(jīng)網(wǎng)發(fā)展的起。感知機(jī)是一個(gè)單層的神經(jīng)網(wǎng)絡(luò)模，由輸入值、權(quán)、求和函數(shù)及激活函三部分組成。整個(gè)模型對(duì)輸入值進(jìn)行有監(jiān)學(xué)習(xí)，權(quán)重部分是可訓(xùn)練參；將對(duì)應(yīng)輸與權(quán)重相乘求和，得到的求和值與常數(shù)比對(duì)，判斷是否觸發(fā)激活函數(shù)，最終依據(jù)輸出的0-1信號(hào)判斷圖像類(lèi)別。感知機(jī)提出了用神經(jīng)網(wǎng)絡(luò)模型解決人工智能任務(wù)但作為神經(jīng)網(wǎng)絡(luò)模型的開(kāi)山之作，還存在以下問(wèn)：受階躍激活函數(shù)限制，感知機(jī)只能輸出0或1，因此只進(jìn)二元分。感知機(jī)只能處理線性可分?jǐn)?shù)據(jù)，無(wú)法處理線性不可分的數(shù)據(jù)，而線性不可分?jǐn)?shù)據(jù)是現(xiàn)實(shí)世界中的常態(tài)。該嚴(yán)重缺陷由nsky于1969年提出，扼殺了人們對(duì)感知機(jī)的興趣，也由此導(dǎo)致了神經(jīng)網(wǎng)絡(luò)域研究的長(zhǎng)期停滯。圖表1：感知機(jī)二元分類(lèi)過(guò)程圖表2：數(shù)據(jù)的線性可分性 AI與強(qiáng)化學(xué)習(xí)公眾號(hào)， PaddleEu多層感知機(jī)與BP算——神經(jīng)網(wǎng)絡(luò)的再興起多層感知機(jī)解決了多元分類(lèi)問(wèn)題20世紀(jì)0年代，多層感知機(jī)L）被提出。模由輸入層、輸出層和至少一層的隱藏層構(gòu)，是一種全連接神經(jīng)網(wǎng)絡(luò)，即每一個(gè)神經(jīng)元都會(huì)和上下兩層所有的神經(jīng)元相連接。各隱藏層中的神經(jīng)元可接收相鄰前序隱藏層中神經(jīng)元傳遞的信息，經(jīng)過(guò)加工處理后將信息輸出到后續(xù)隱藏層中的神經(jīng)元。-4-行業(yè)深度研究行業(yè)深度研究由于隱藏層豐富了神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu)，增強(qiáng)了神經(jīng)網(wǎng)絡(luò)的非線性表達(dá)能力，感知機(jī)的線性不可分問(wèn)題得以解決，因而神經(jīng)網(wǎng)絡(luò)再次迎來(lái)興起。圖表3：多層感知機(jī)通過(guò)引入隱藏層進(jìn)行多元分類(lèi)eepAI相較感知機(jī)，多層感知機(jī)主要進(jìn)行了如下改：解決了感知機(jī)的二元分類(lèi)問(wèn)題：引入隱藏層，并采用非線性激活函數(shù)god代替階躍函數(shù)，使得神經(jīng)網(wǎng)絡(luò)可以對(duì)非線性函數(shù)進(jìn)行擬合?？蛇M(jìn)行多元分類(lèi)任務(wù)：多層感知機(jī)拓寬了輸出層寬度。多層感知機(jī)的發(fā)展受到算力限。由于多層感知機(jī)是全連接神經(jīng)網(wǎng)絡(luò)，所需算力隨著神經(jīng)元的增呈幾增長(zhǎng)。而在算力相對(duì)匱乏20世紀(jì)80年代，算力瓶頸阻礙了多層感知的進(jìn)一步發(fā)。P算法：神經(jīng)網(wǎng)絡(luò)訓(xùn)練的基本算法1986年，nton提出了一種適用于多層感機(jī)訓(xùn)練的反向傳播算—P算法，至今仍是神經(jīng)網(wǎng)絡(luò)訓(xùn)練的主流算法。P算法的核心思想為將輸出值與標(biāo)記進(jìn)行比較，誤差反向由輸出層向輸入層傳播，在這個(gè)過(guò)程中利用梯度下降算法對(duì)神經(jīng)的權(quán)進(jìn)行調(diào)整。P算法最大的問(wèn)題在于梯度不穩(wěn)定。由于當(dāng)時(shí)god、anh作為非線性激活函數(shù)應(yīng)用廣泛，而這兩種激活函數(shù)都存在一定范圍內(nèi)梯度過(guò)大或過(guò)小的問(wèn)題。神經(jīng)網(wǎng)絡(luò)停在淺層時(shí)，連乘次數(shù)少、梯度較為穩(wěn)定；而當(dāng)神經(jīng)網(wǎng)絡(luò)向深層邁進(jìn)，梯度的不穩(wěn)定性加劇，使得深層神經(jīng)網(wǎng)絡(luò)無(wú)法正常訓(xùn)練。因此，有效緩解梯度不穩(wěn)定現(xiàn)象是神經(jīng)網(wǎng)絡(luò)向深層次邁進(jìn)前必須解決的問(wèn)。圖表4：梯度消失使神經(jīng)網(wǎng)絡(luò)無(wú)法正常訓(xùn)練SciencePog，深度學(xué)習(xí)與圖網(wǎng)絡(luò)公眾號(hào)，-5-行業(yè)深度研究行業(yè)深度研究淺層神經(jīng)網(wǎng)絡(luò)在多應(yīng)用領(lǐng)域各自演進(jìn)多層感知機(jī)的出現(xiàn)奠定了神經(jīng)網(wǎng)絡(luò)的基本結(jié)構(gòu)，也使得神經(jīng)網(wǎng)絡(luò)的應(yīng)用范圍不再局限于圖像識(shí)別，而是向自然語(yǔ)言處理、語(yǔ)音識(shí)別等其他領(lǐng)域拓展。由于各個(gè)領(lǐng)域的任務(wù)具有不同特點(diǎn)，神經(jīng)網(wǎng)絡(luò)產(chǎn)生了眾多分支模型。這一階段分支網(wǎng)絡(luò)探索各自領(lǐng)域的任務(wù)特點(diǎn)，通過(guò)機(jī)制創(chuàng)新使神經(jīng)網(wǎng)絡(luò)獲得對(duì)應(yīng)的特征提取能力。圖像識(shí)別領(lǐng)域“卷積”機(jī)制提取圖空間特征人類(lèi)在進(jìn)行圖像識(shí)別時(shí)，能夠從細(xì)小的特征推理得知事物的全貌，即“窺一斑而見(jiàn)全豹。在多層感知機(jī)時(shí)代，由于二維圖像被轉(zhuǎn)化為一維向量后輸入模型，因此丟失了圖像的空間特征信息。為了使神經(jīng)網(wǎng)絡(luò)獲得從特征到全局的圖像識(shí)別能力，卷積神經(jīng)網(wǎng)絡(luò)應(yīng)運(yùn)而生。1998年，Leet卷積神網(wǎng)（）首次應(yīng)用于圖像分。CN通過(guò)多個(gè)卷積層對(duì)特征進(jìn)行提取和壓縮，得到較為可靠的高層次特征，最終輸出的特征可應(yīng)用于圖像分類(lèi)等任務(wù)。Leet網(wǎng)絡(luò)由卷積層、池化層和全連接層構(gòu)成：卷積層：通過(guò)在輸入圖像上滑動(dòng)卷積核，進(jìn)行卷積操作提取關(guān)鍵特。卷積核的尺寸比輸入圖像小得多，無(wú)需像多層感知一樣學(xué)習(xí)完整圖片信息；池化層：對(duì)特征進(jìn)約減，從提取主要特征比如將卷積層的輸出劃分為若干矩形區(qū)域，取各區(qū)域的平均值或最大值，從而簡(jiǎn)化網(wǎng)絡(luò)計(jì)算復(fù)雜；全連接層：對(duì)提取到的特征進(jìn)行匯總，將多維的特征映射為二維輸出。圖表5：卷積神經(jīng)網(wǎng)絡(luò)典型結(jié)構(gòu) 圖表6：卷積的實(shí)質(zhì)是提取關(guān)鍵特征iveintoeepLeann（Atonhang等，221， VIIA相較多層感知機(jī)，卷積神經(jīng)網(wǎng)絡(luò)具備以下優(yōu)：計(jì)算量減少：神經(jīng)元只與對(duì)應(yīng)的部分局部連；圖像識(shí)別能力增強(qiáng)利用卷積思想，使神經(jīng)網(wǎng)絡(luò)具備了局部特征提取能力；平移不變性：由于卷積核會(huì)在輸入圖像上滑動(dòng)，所以無(wú)論被檢測(cè)物體在圖片哪個(gè)位臵都能被檢測(cè)到相同的特征。自然語(yǔ)言處理領(lǐng)域“循”機(jī)制提語(yǔ)言時(shí)序特征人類(lèi)在進(jìn)行文字閱讀、語(yǔ)音識(shí)別時(shí)，不僅會(huì)關(guān)注當(dāng)前看到、聽(tīng)到的詞句，還會(huì)聯(lián)上下文進(jìn)行輔助理解。在多層感知機(jī)時(shí)代，所有的輸入彼此獨(dú)立，模型僅針對(duì)當(dāng)前詞句進(jìn)行訓(xùn)練，而不關(guān)注前后信息，造成了時(shí)序信息的丟失。為了使神經(jīng)網(wǎng)絡(luò)獲得時(shí)序信息提取能力1986年循環(huán)神經(jīng)網(wǎng)絡(luò)R）被提出，將循環(huán)思想引入神經(jīng)網(wǎng)絡(luò)在RN中，每個(gè)神經(jīng)元既接受當(dāng)前時(shí)刻輸入信息、也接受上一時(shí)刻神經(jīng)元的輸出信息，使神經(jīng)網(wǎng)絡(luò)具備了時(shí)序特征提取能力。-6-行業(yè)深度研究行業(yè)深度研究圖表7：N同時(shí)接受當(dāng)前時(shí)刻輸入與上一時(shí)刻輸?shù)男畔ython與機(jī)器智能公眾號(hào)，相較多層感知機(jī)，循環(huán)神經(jīng)網(wǎng)絡(luò)具備以下優(yōu)：可處理文本、語(yǔ)音等時(shí)序相關(guān)的信息；計(jì)算量大大降低在循環(huán)神經(jīng)網(wǎng)絡(luò)進(jìn)行訓(xùn)練時(shí)，參數(shù)、、V是共享的，這減少了訓(xùn)練所需的計(jì)算量。支持向量機(jī)深度學(xué)習(xí)出之前的主算法支持向量機(jī)SV）是傳統(tǒng)機(jī)器學(xué)習(xí)中最重要的分類(lèi)算法之一作為有監(jiān)督的分類(lèi)器，其核心思想與感知機(jī)類(lèi)，但對(duì)目標(biāo)函數(shù)進(jìn)行了改：感知機(jī)目標(biāo)函數(shù)：錯(cuò)誤分類(lèi)點(diǎn)到超平面的距離之和最小。支持向量機(jī)目標(biāo)函數(shù)：支持向（距離超平面最近的正反例到超平面的距離最大化。圖表8：感知機(jī)與支持向量目標(biāo)函數(shù)不同人工智能技術(shù)公眾號(hào)，AI與強(qiáng)化學(xué)習(xí)公眾號(hào)，支持向量機(jī)的思想最早在1963由apnk等人提出，在90年代經(jīng)過(guò)多次模型和算法改進(jìn)，能解決感知機(jī)線性不可分和多元分等缺陷，并可應(yīng)用于人體動(dòng)作識(shí)別、人臉識(shí)別、文本識(shí)別、生物信息學(xué)等領(lǐng)域。圖表9：在深度學(xué)習(xí)之前支持向量是解決人工智能任務(wù)的主流方法時(shí)間理論提出者理論內(nèi)容3年k等在解決模式識(shí)別問(wèn)題時(shí)提出支持向量方法1年r等構(gòu)造基于支持向量構(gòu)建核空間的方法，可用于解決線性不可分問(wèn)題7年g等將支持向量方法用于人體動(dòng)作識(shí)別，最高準(zhǔn)確度達(dá)%5年k等提出“”的塊算法，正式為持機(jī)，其用于手寫(xiě)數(shù)字識(shí)別-7-行業(yè)深度研究行業(yè)深度研究6年z等將VM用于物體識(shí)別6年ct等將VM用于說(shuō)話人識(shí)別7年sa等提出分解算法，并將VM用于人臉識(shí)別7年c將VM用于文本識(shí)別8年sn等構(gòu)造多值分類(lèi)模型，可用VM處理多元分類(lèi)任務(wù)9年b等將VM應(yīng)用于基因表達(dá)微陣列數(shù)據(jù)分類(lèi)《Atuoalnupotvecormahnesforatteneonion（uges等，198《lecarclaifictonofcnce:lasdicoveyndcaspedicinbygeeexpeionmitoing（ob等，1999，電子與信息學(xué)報(bào)公眾號(hào)，聲振之家公眾號(hào)，由支持向量機(jī)方法基本上不涉及概率測(cè)度及大數(shù)定律，具有更嚴(yán)格的理論和數(shù)學(xué)基，因擁有泛化能力強(qiáng)、收斂到全局最優(yōu)、維數(shù)不敏感優(yōu)點(diǎn)作為與神經(jīng)網(wǎng)絡(luò)并行的方法流派，在“深度學(xué)習(xí)出現(xiàn)之前，支持向量機(jī)度擁有更高的精，是解人工智能任的主流方。支持向量的最大瓶頸在不適合進(jìn)行多維度大樣本訓(xùn)練其本質(zhì)是借助二次規(guī)劃獲得最優(yōu)解，當(dāng)樣本量過(guò)大時(shí)會(huì)極大增加機(jī)器內(nèi)存和運(yùn)算時(shí)。梯度消失問(wèn)題的解決使神經(jīng)網(wǎng)向深層邁進(jìn)逐層無(wú)監(jiān)督是深度學(xué)習(xí)的初次探索2006年，深度學(xué)習(xí)之父nton提出了一種梯度消失問(wèn)題的解決方法是深度學(xué)習(xí)的初次探。nton的解決方法分為兩步1）逐層無(wú)監(jiān)督：即先通過(guò)無(wú)監(jiān)督學(xué)習(xí)逐層初始各神經(jīng)元的參數(shù)而P算法的初始參數(shù)為隨機(jī)賦予，使各神經(jīng)元的參數(shù)較為接近最優(yōu)值，這一步極大地緩解了梯度消失問(wèn)；2）通過(guò)P算法進(jìn)行有監(jiān)督學(xué)習(xí)，得到神經(jīng)網(wǎng)絡(luò)的最優(yōu)參數(shù)。nton的論文發(fā)表之后，深度學(xué)習(xí)方法在學(xué)術(shù)界引起了巨大的反響，但由于此時(shí)模型的應(yīng)用表現(xiàn)較為一般，因此深度學(xué)習(xí)的浪潮未向產(chǎn)業(yè)界蔓延。圖表10：逐層無(wú)監(jiān)督P有監(jiān)督解決梯度消失問(wèn)題《AatLeaningAgitmforeepBeefet（intn等，20）eu激活函數(shù)的提出開(kāi)啟了深度學(xué)習(xí)時(shí)代201年，eLu激活函數(shù)被提出，該激活函數(shù)的優(yōu)點(diǎn)：具有更好的非線性擬合能，緩解梯度消失問(wèn)；具有稀疏激活性，去掉了無(wú)關(guān)的噪聲，能夠更好地挖掘相關(guān)特征、且提升訓(xùn)練速度（導(dǎo)數(shù)為0或1，非常簡(jiǎn)單。eLu激活函數(shù)被提出后201年微軟首次將深度學(xué)習(xí)應(yīng)用于語(yǔ)音識(shí)，使得-8-行業(yè)深度研究行業(yè)深度研究識(shí)別詞錯(cuò)誤率穩(wěn)定降低了2030，在產(chǎn)業(yè)界引起轟動(dòng)。2012年，nton及其學(xué)生提出exet，自此奠定了深度學(xué)習(xí)的經(jīng)典訓(xùn)練范式。exet采用了經(jīng)典的CN網(wǎng)絡(luò)結(jié)構(gòu)、使用eLu激活函數(shù)、對(duì)輸入值進(jìn)行有監(jiān)督學(xué)習(xí)（摒棄了此前的逐層無(wú)監(jiān)督方法、并采用GU對(duì)訓(xùn)練進(jìn)行加速。由于exet將ageet數(shù)據(jù)集上圖像分類(lèi)的錯(cuò)誤率由26%降至15，此后5年學(xué)術(shù)界均用exet的范式進(jìn)行深度學(xué)習(xí)訓(xùn)。同時(shí)，由于錯(cuò)誤率大幅降低，產(chǎn)業(yè)界開(kāi)啟了深度學(xué)習(xí)的應(yīng)用。圖表1：iid和tanh函數(shù)存在梯度過(guò)/過(guò)小問(wèn)題圖表12：殘差學(xué)習(xí)進(jìn)一步緩解了梯度消失問(wèn)題來(lái)源：PaddleEu 《eepeiulLanngforIaeeonton（inge等，2016，2016年，何愷明等人提出eset，使得神經(jīng)網(wǎng)絡(luò)可以對(duì)殘差進(jìn)行學(xué)習(xí)，更好地緩解了梯度消失問(wèn)題，也讓eset的神經(jīng)網(wǎng)絡(luò)深度高達(dá)152層。由于殘差學(xué)習(xí)能很好地緩解梯度消失問(wèn)題，在之的ransforer架構(gòu)中也得以沿用。ansoer統(tǒng)一了各任務(wù)底層算法，開(kāi)啟多模態(tài)和大模型時(shí)代2017年，Googe將注意力機(jī)制引入神經(jīng)網(wǎng)絡(luò)，提出了新一代深度學(xué)習(xí)底層算法——ransforer。于ransorer在物體分類(lèi)、語(yǔ)義理解等項(xiàng)任務(wù)準(zhǔn)確率超過(guò)、N等傳統(tǒng)算法，且能應(yīng)用于、LP等多模態(tài)，因而ransforer的提出使得多任務(wù)、多模態(tài)的底層算法得到統(tǒng)一。與、RN相，3種模型的算法復(fù)雜程度差異不大ransforer的主要優(yōu)勢(shì)在：可并行計(jì)算、減少訓(xùn)練時(shí)間、便于處理大數(shù)據(jù)ransforer用位臵編碼的方式代替了N的詞句逐個(gè)輸入、循環(huán)迭代，因此可以采用并行計(jì)算加速訓(xùn)練。加強(qiáng)了神經(jīng)網(wǎng)絡(luò)對(duì)時(shí)序特征的提取：無(wú)論兩個(gè)詞相隔多遠(yuǎn)，都能捕捉到彼此之間的依賴(lài)關(guān)系。-9-行業(yè)深度研究行業(yè)深度研究圖表13：Tafrer示意圖《AttentionIsAlloueed（hihaani等，207）由于在處理大數(shù)據(jù)方面具備顯著優(yōu)勢(shì)ransforer的出現(xiàn)開(kāi)啟了深度學(xué)習(xí)的“大模型”時(shí)代。如OpenI發(fā)布的G-3，該模型在多個(gè)任務(wù)都取得了第一的成績(jī)，而其在算法結(jié)構(gòu)上與前代的GT、G-2沒(méi)有明顯差別，最大的區(qū)別是采用海量數(shù)據(jù)進(jìn)行模型訓(xùn)練，生地詮釋了“大就是好”的理念。圖表14：GT系列模型參數(shù)呈指數(shù)級(jí)增長(zhǎng)模型名稱(chēng)發(fā)布時(shí)間參數(shù)量?jī)|訓(xùn)練數(shù)據(jù)大小算力消耗fs-ay8年6月756-29年2月4-30年5月00《OntheompaabityofPetaiedLanuaeMdl（Mathas等，00）2020年，Goge出sonransorer（T）以解決計(jì)算機(jī)視覺(jué)問(wèn)題，這標(biāo)志著自然語(yǔ)言處理、計(jì)算機(jī)視覺(jué)兩個(gè)最重要深度學(xué)領(lǐng)域?qū)崿F(xiàn)底層算法的統(tǒng)一。T的核心思想是把圖像當(dāng)文本處理，即將完整的圖像劃分為若干個(gè)小塊，把各個(gè)小塊視為詞，把各個(gè)小塊構(gòu)成的完整圖像視為語(yǔ)，在此基礎(chǔ)之進(jìn)行神經(jīng)網(wǎng)絡(luò)訓(xùn)。圖表15：iT模將圖像當(dāng)作文本進(jìn)行處理《Anmgeisoth1616od:TanfoesformgeecgiinatSce（oovitiy等，2020）-10-行業(yè)深度研究行業(yè)深度研究相較，T在計(jì)算機(jī)視覺(jué)領(lǐng)域任務(wù)處理的優(yōu)點(diǎn)在于：計(jì)算量降低：注意力機(jī)制的引入使得神經(jīng)網(wǎng)絡(luò)可以將有限算力應(yīng)用于關(guān)鍵信息，降低了計(jì)算量、提升了神經(jīng)網(wǎng)絡(luò)的性能。關(guān)注全局信息T不僅能對(duì)局部特征進(jìn)行提取，還關(guān)注各個(gè)小塊之間的空間依賴(lài)關(guān)系，能夠依靠多個(gè)局部特征之間的空間關(guān)系輔助推理，使得神經(jīng)網(wǎng)絡(luò)智能程度得到顯著提升。相較，T在計(jì)算機(jī)視覺(jué)領(lǐng)域任務(wù)處理的缺點(diǎn)在于：1）需要更大的訓(xùn)練樣本ransforr相較N缺少一定的平移不變性和局部感知性，因而需要更大的訓(xùn)練樣本獲得對(duì)局部特征的學(xué)習(xí)。在Iageet-21k、F-300M等大數(shù)據(jù)集之中T較eset準(zhǔn)確性更高。2021年nransforer的提出很好地彌合了上述問(wèn)，成為目前通用的骨干網(wǎng)絡(luò)與T始終進(jìn)行1616patch的全局建模不同，每層Snransforr模塊之間進(jìn)行了類(lèi)似于N池化層的atchergng降采樣操作，用于縮小分辨率，有效地降低了模型的計(jì)算復(fù)雜度。目前nransforr在圖像分類(lèi)、語(yǔ)義分割、目標(biāo)識(shí)別等領(lǐng)域均刷新了最優(yōu)記錄。圖表16：每層winTanfrer之間進(jìn)行了類(lèi)似N的atchering《SinTanfoe:ieacialiinTnfomeruinghftdno（eLu等，021，國(guó)金證券研究所探索多模態(tài)主干網(wǎng)絡(luò)T開(kāi)啟多模態(tài)時(shí)代之后，學(xué)術(shù)界開(kāi)始嘗試使用圖像以及其對(duì)應(yīng)的文本信息對(duì)神經(jīng)網(wǎng)絡(luò)進(jìn)行訓(xùn)練，以增強(qiáng)神經(jīng)網(wǎng)絡(luò)的理解能力。2021年1月penI發(fā)布了圖像和文本并行大規(guī)模多模模型L，該模型在超過(guò)4億的圖-文本對(duì)上進(jìn)行訓(xùn)，優(yōu)點(diǎn)在使神經(jīng)網(wǎng)絡(luò)不僅關(guān)注特征之間的空間聯(lián)系，而且還會(huì)關(guān)注特之間的語(yǔ)義聯(lián)系，使得神經(jīng)網(wǎng)絡(luò)對(duì)圖的理解能力邁向新高度。圖表17：P多模態(tài)網(wǎng)絡(luò)采用圖-文本聯(lián)合訓(xùn)練OpenAI-1-行業(yè)深度研究行業(yè)深度研究現(xiàn)階段的多模態(tài)神經(jīng)網(wǎng)絡(luò)主要面向計(jì)算機(jī)視覺(jué)領(lǐng)域，還無(wú)法完成機(jī)器翻譯、閱讀理解等經(jīng)典自然語(yǔ)言處理任務(wù)。其主要目的是通過(guò)引入文本信息幫助神經(jīng)網(wǎng)絡(luò)更好地完成傳統(tǒng)視覺(jué)任務(wù)，并且使神經(jīng)網(wǎng)絡(luò)能夠處理圖文檢索、語(yǔ)義圖像生成、語(yǔ)義圖像編輯等跨模態(tài)任務(wù)，拓寬深度學(xué)習(xí)能夠面向的下游領(lǐng)域。圖表18：目前主流的多模態(tài)主干網(wǎng)絡(luò)公司發(fā)布時(shí)間模型名稱(chēng)多模態(tài)任務(wù)AI1年1月P圖文檢索、地理定位、視頻動(dòng)作識(shí)別微軟1年8月-3視覺(jué)推理、視覺(jué)問(wèn)答、圖像描述、圖文檢索OpenAI，微軟，探索ansoer時(shí)代的分支網(wǎng)絡(luò)ransforr統(tǒng)一了多模態(tài)、多任務(wù)的骨干網(wǎng)絡(luò)，這也使得其分支網(wǎng)絡(luò)數(shù)量相對(duì)較少，往往是ransforer其他現(xiàn)有算法”的形式，學(xué)術(shù)界算法創(chuàng)新速度放。IGC領(lǐng)域：多模態(tài)ranfoer+擴(kuò)散模型人工智能生成內(nèi)容AG）是指由人工智能進(jìn)行創(chuàng)意創(chuàng)作，主要包括文學(xué)創(chuàng)作、代碼生成、圖像生成、視頻生成等。其中文學(xué)創(chuàng)作和代碼生成屬于單一模態(tài)任務(wù)、難度較低，基于ransforer主干網(wǎng)絡(luò)建立的大規(guī)模語(yǔ)言模型即可較好地適應(yīng)這類(lèi)任務(wù)。而圖像生成、視頻生成等任務(wù)難度較高，僅靠ransforer主干網(wǎng)絡(luò)難以很好地完成任務(wù)，因而催生出一批由ransforer與其他現(xiàn)有算法結(jié)合而成的分支網(wǎng)。擴(kuò)散模型是一種圖像生成方法，其核心思想是污染與重構(gòu)。擴(kuò)散模型最早提出于2015年2020年o等人在原模型基礎(chǔ)上進(jìn)行了簡(jiǎn)化和建模方式改進(jìn)，提出M模型，目前M是擴(kuò)散模型應(yīng)用的主流版本擴(kuò)散模型在訓(xùn)練時(shí)包括前向擴(kuò)散和反向生成過(guò)程兩個(gè)階段。在前向擴(kuò)散過(guò)程中，高斯噪音被逐步添加至圖像中，直到圖像成為完全隨機(jī)噪聲；在反向生成過(guò)程中，模型在每一個(gè)時(shí)間節(jié)點(diǎn)對(duì)噪聲的概率分布進(jìn)行預(yù)測(cè)，并嘗試重構(gòu)圖像。相較GAN而言，擴(kuò)散模型訓(xùn)練更加穩(wěn)定，且能生成更加多樣的樣本；缺點(diǎn)是訓(xùn)練和推理速度較慢。圖表19：擴(kuò)散模型的前向擴(kuò)散和反向生成過(guò)程oadsataScience2022年4月penI基于多模態(tài)主干網(wǎng)絡(luò)L、結(jié)合擴(kuò)散模型方法，訓(xùn)練得到了新一代圖像生成模型LL·E2。該模型能夠完成語(yǔ)義圖像生成、語(yǔ)義圖像編輯、圖像風(fēng)格遷移等多種任務(wù)，而用戶無(wú)需任何計(jì)算機(jī)知識(shí)，僅需輸入簡(jiǎn)短文字即可完成圖像生成。-12-行業(yè)深度研究行業(yè)深度研究圖表20：M在GC領(lǐng)域的前沿成果公司發(fā)布時(shí)間模型名稱(chēng)多模態(tài)任務(wù)AI2年4月A·E2語(yǔ)義圖像生成e2年8月rtort語(yǔ)義圖像編輯a2年9月eavo語(yǔ)義視頻生成編輯、圖像視頻生成OpenAI，Gool，Mta對(duì)話機(jī)器人haG：語(yǔ)言rasfrer+強(qiáng)化學(xué)習(xí)模型強(qiáng)化學(xué)習(xí)最早出現(xiàn)于20世紀(jì)60年代，核心思想是獎(jiǎng)勵(lì)機(jī)制，使模型能夠根據(jù)所處環(huán)境做出最優(yōu)決策Googe研發(fā)著圍棋人工智能phaGoero便是基于強(qiáng)化學(xué)習(xí)方法訓(xùn)練得到。圖表21：強(qiáng)化學(xué)習(xí)模型示意來(lái)源：清華大數(shù)據(jù)軟件團(tuán)隊(duì)公眾號(hào)，2022年1月0日，OpenI對(duì)外發(fā)布新一對(duì)話機(jī)器人hatGT，這是一個(gè)基于nstructGT模型，通過(guò)與人類(lèi)互動(dòng)進(jìn)行強(qiáng)化學(xué)習(xí)的語(yǔ)言網(wǎng)絡(luò)。相較G-3，nstructGT的參數(shù)量更小，但引入了人類(lèi)反饋強(qiáng)化學(xué)習(xí)LF）的方法。LF是強(qiáng)化學(xué)習(xí)的一種，其核心思想是將人類(lèi)提供的范例作為學(xué)習(xí)目標(biāo)，當(dāng)神經(jīng)網(wǎng)絡(luò)輸出的內(nèi)容接近范例時(shí)給予神經(jīng)網(wǎng)絡(luò)獎(jiǎng)勵(lì)。LF的另一優(yōu)點(diǎn)是能夠幫助模型后續(xù)迭代升級(jí)。隨著hatGT免費(fèi)開(kāi)放給公眾使用，廣大用戶形成的對(duì)話資料在經(jīng)過(guò)數(shù)據(jù)處理后，將成為最好的訓(xùn)練數(shù)據(jù)，助力模型智能水平進(jìn)一步提。小結(jié)及投資建議深度學(xué)習(xí)的三要素包括算法、數(shù)據(jù)和算力，本文主要對(duì)算法的演進(jìn)過(guò)程進(jìn)行了回顧，認(rèn)為過(guò)往神經(jīng)網(wǎng)絡(luò)的發(fā)展以eu激活函數(shù)的提出為分水嶺，分為淺層神經(jīng)網(wǎng)絡(luò)和深度學(xué)習(xí)兩個(gè)階段。在淺層神經(jīng)網(wǎng)絡(luò)階段，最重要的任務(wù)就是解決梯度不穩(wěn)定的問(wèn)。在這個(gè)問(wèn)題未被妥善解決之前，神經(jīng)網(wǎng)絡(luò)應(yīng)用性能不佳，而屬于非神經(jīng)網(wǎng)絡(luò)的支持向量機(jī)算法）是解決人工智能模式識(shí)別的主流方。201年eu激活函數(shù)被提、梯度消失問(wèn)題被大幅緩之后，神經(jīng)網(wǎng)絡(luò)進(jìn)入深度學(xué)習(xí)時(shí)代算法和應(yīng)用的發(fā)展均突飛猛。最初C、RN等模型在不同的模態(tài)和任務(wù)中各有擅長(zhǎng)2017年rnsforer的提出讓深度學(xué)習(xí)進(jìn)入了大模型時(shí)代2020年sonransfrer的提出讓深度學(xué)習(xí)進(jìn)入了多模態(tài)時(shí)代，自此多模態(tài)和多任務(wù)底層算法被統(tǒng)一為ransforer架構(gòu)。目深度學(xué)習(xí)算法主要是基于ransforer骨干網(wǎng)絡(luò)進(jìn)行分支網(wǎng)絡(luò)的創(chuàng)新，如引入擴(kuò)散模型、強(qiáng)化學(xué)習(xí)等方催生出G、hatGT等應(yīng)用熱。但隨著ransforr基本完成底層算法統(tǒng)一之后整個(gè)行業(yè)底層算法發(fā)展速度放緩，靜待骨干網(wǎng)絡(luò)的下一次突。同時(shí)基于ransforer對(duì)大數(shù)據(jù)的需求，催生了無(wú)監(jiān)督學(xué)習(xí)、高算力芯片的發(fā)展。-13-行業(yè)深度研究行業(yè)深度研究圖表22：神經(jīng)網(wǎng)絡(luò)各發(fā)展階段經(jīng)典模型梳理時(shí)代模型時(shí)間核心思想優(yōu)點(diǎn)缺點(diǎn)淺神網(wǎng)時(shí)感知機(jī)1958年通過(guò)激活函數(shù)進(jìn)行二元分類(lèi)神經(jīng)網(wǎng)絡(luò)發(fā)展的起點(diǎn)無(wú)法處理多維線性不可分的數(shù)據(jù)多層感知機(jī)1980s引入隱藏層及非線性激活函數(shù)，處理多分類(lèi)任務(wù)可擬合非線性函數(shù)，處多元分類(lèi)任務(wù)對(duì)算力要求高；所有輸入彼此獨(dú)立，失時(shí)間和空間信息RNN1986年每個(gè)神經(jīng)元既接受當(dāng)前時(shí)刻的輸入信息也接受上一時(shí)刻神元的輸出信息解決了時(shí)序信息的丟失題；計(jì)算量大大降低準(zhǔn)確率待提升，尤其圖像處理表現(xiàn)不佳CNNLeNet1998年通過(guò)多個(gè)卷積層對(duì)特征進(jìn)行提取和壓縮，得到高層次特征解決了空間信息的丟失問(wèn)題；計(jì)算量大大降低準(zhǔn)確率待提升，尤其是NL表現(xiàn)不佳-2006年用逐層無(wú)監(jiān)督初始化P算法有監(jiān)督學(xué)習(xí)的方法解決梯度消的問(wèn)題緩解梯度消失問(wèn)題實(shí)際應(yīng)用表現(xiàn)一般深學(xué)時(shí)leNet2012年CNNReLu激活函數(shù)+輸入值有監(jiān)督學(xué)習(xí)+PU訓(xùn)練梯度消失問(wèn)題大大緩解，準(zhǔn)確率更高訓(xùn)練速度提升NL表現(xiàn)不佳rans-ormer-2017年引入注意力機(jī)制，信息賦予不同的權(quán)開(kāi)啟了大模型時(shí)代，可并行處理大數(shù)據(jù)，訓(xùn)練時(shí)減少；加強(qiáng)了對(duì)時(shí)序特征的

人人文庫(kù)> 全部分類(lèi)> 行業(yè)資料 > 信息產(chǎn)業(yè)

溫馨提示

1. 本站所有資源如無(wú)特殊說(shuō)明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽，若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間，僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理，對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容，請(qǐng)與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

深度學(xué)習(xí)算法發(fā)展從多樣到統(tǒng)一

文檔簡(jiǎn)介

溫馨提示

最新文檔

評(píng)論

深度學(xué)習(xí)算法發(fā)展從多樣到統(tǒng)一

文檔簡(jiǎn)介

溫馨提示

最新文檔

評(píng)論

相關(guān)文檔