版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
行業(yè)深度研究行業(yè)深度研究深度學(xué)習(xí)的三要素包括算法、數(shù)據(jù)和算力,本文主要對算法的演進(jìn)過程進(jìn)行了回顧,認(rèn)為過往神經(jīng)網(wǎng)絡(luò)的發(fā)展以eu激活函數(shù)的提出為分水嶺,分為淺層神經(jīng)網(wǎng)絡(luò)和深度學(xué)習(xí)兩個(gè)階。在淺層神經(jīng)網(wǎng)絡(luò)階段,最重要的任務(wù)就是解決梯度不穩(wěn)定的問。在這個(gè)問題未被妥善解決之前,神經(jīng)網(wǎng)絡(luò)應(yīng)用性能不佳,而屬于非神經(jīng)網(wǎng)絡(luò)的支持向量機(jī)算法)是解決人工智能模式識別的主流方法。201年eu激活函數(shù)被提出、梯度消失問題被大幅緩解之,神經(jīng)網(wǎng)絡(luò)進(jìn)入深度學(xué)習(xí)時(shí),算法和應(yīng)用的發(fā)展均突飛猛。最初C、RN等模型在不同的模態(tài)和任務(wù)均各有擅長2017年rnsforer的提出讓深度學(xué)習(xí)進(jìn)入了大模型時(shí)代2020年sonransfrer的提出讓深度學(xué)習(xí)進(jìn)入了多模態(tài)時(shí)代,自此多模態(tài)和多任務(wù)底層算法被統(tǒng)一為ransforer架構(gòu)。目深度學(xué)習(xí)算法主要是基于ransforer骨干網(wǎng)絡(luò)進(jìn)行分支網(wǎng)絡(luò)的創(chuàng)新,如引入擴(kuò)散模型、強(qiáng)化學(xué)習(xí)等方法。整個(gè)行業(yè)算法發(fā)展速度放緩,靜待骨干網(wǎng)絡(luò)的下一次突破。下文我們將對各發(fā)展階段的經(jīng)典模型進(jìn)行回顧:感知機(jī):第一個(gè)神經(jīng)網(wǎng)絡(luò)感知機(jī)由osenbatt在1958年提出是神經(jīng)網(wǎng)發(fā)展的起。感知機(jī)是一個(gè)單層的神經(jīng)網(wǎng)絡(luò)模,由輸入值、權(quán)、求和函數(shù)及激活函三部分組成。整個(gè)模型對輸入值進(jìn)行有監(jiān)學(xué)習(xí),權(quán)重部分是可訓(xùn)練參;將對應(yīng)輸與權(quán)重相乘求和,得到的求和值與常數(shù)比對,判斷是否觸發(fā)激活函數(shù),最終依據(jù)輸出的0-1信號判斷圖像類別。感知機(jī)提出了用神經(jīng)網(wǎng)絡(luò)模型解決人工智能任務(wù)但作為神經(jīng)網(wǎng)絡(luò)模型的開山之作,還存在以下問:受階躍激活函數(shù)限制,感知機(jī)只能輸出0或1,因此只進(jìn)二元分。感知機(jī)只能處理線性可分?jǐn)?shù)據(jù),無法處理線性不可分的數(shù)據(jù),而線性不可分?jǐn)?shù)據(jù)是現(xiàn)實(shí)世界中的常態(tài)。該嚴(yán)重缺陷由nsky于1969年提出,扼殺了人們對感知機(jī)的興趣,也由此導(dǎo)致了神經(jīng)網(wǎng)絡(luò)域研究的長期停滯。圖表1:感知機(jī)二元分類過程 圖表2:數(shù)據(jù)的線性可分性 AI與強(qiáng)化學(xué)習(xí)公眾號, PaddleEu多層感知機(jī)與BP算——神經(jīng)網(wǎng)絡(luò)的再興起多層感知機(jī)解決了多元分類問題20世紀(jì)0年代,多層感知機(jī)L)被提出。模由輸入層、輸出層和至少一層的隱藏層構(gòu),是一種全連接神經(jīng)網(wǎng)絡(luò),即每一個(gè)神經(jīng)元都會(huì)和上下兩層所有的神經(jīng)元相連接。各隱藏層中的神經(jīng)元可接收相鄰前序隱藏層中神經(jīng)元傳遞的信息,經(jīng)過加工處理后將信息輸出到后續(xù)隱藏層中的神經(jīng)元。-4-行業(yè)深度研究行業(yè)深度研究由于隱藏層豐富了神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu),增強(qiáng)了神經(jīng)網(wǎng)絡(luò)的非線性表達(dá)能力,感知機(jī)的線性不可分問題得以解決,因而神經(jīng)網(wǎng)絡(luò)再次迎來興起。圖表3:多層感知機(jī)通過引入隱藏層進(jìn)行多元分類eepAI相較感知機(jī),多層感知機(jī)主要進(jìn)行了如下改:解決了感知機(jī)的二元分類問題:引入隱藏層,并采用非線性激活函數(shù)god代替階躍函數(shù),使得神經(jīng)網(wǎng)絡(luò)可以對非線性函數(shù)進(jìn)行擬合。可進(jìn)行多元分類任務(wù):多層感知機(jī)拓寬了輸出層寬度。多層感知機(jī)的發(fā)展受到算力限。由于多層感知機(jī)是全連接神經(jīng)網(wǎng)絡(luò),所需算力隨著神經(jīng)元的增呈幾增長。而在算力相對匱乏20世紀(jì)80年代,算力瓶頸阻礙了多層感知的進(jìn)一步發(fā)。P算法:神經(jīng)網(wǎng)絡(luò)訓(xùn)練的基本算法1986年,nton提出了一種適用于多層感機(jī)訓(xùn)練的反向傳播算—P算法,至今仍是神經(jīng)網(wǎng)絡(luò)訓(xùn)練的主流算法。P算法的核心思想為將輸出值與標(biāo)記進(jìn)行比較,誤差反向由輸出層向輸入層傳播,在這個(gè)過程中利用梯度下降算法對神經(jīng)的權(quán)進(jìn)行調(diào)整。P算法最大的問題在于梯度不穩(wěn)定。由于當(dāng)時(shí)god、anh作為非線性激活函數(shù)應(yīng)用廣泛,而這兩種激活函數(shù)都存在一定范圍內(nèi)梯度過大或過小的問題。神經(jīng)網(wǎng)絡(luò)停在淺層時(shí),連乘次數(shù)少、梯度較為穩(wěn)定;而當(dāng)神經(jīng)網(wǎng)絡(luò)向深層邁進(jìn),梯度的不穩(wěn)定性加劇,使得深層神經(jīng)網(wǎng)絡(luò)無法正常訓(xùn)練。因此,有效緩解梯度不穩(wěn)定現(xiàn)象是神經(jīng)網(wǎng)絡(luò)向深層次邁進(jìn)前必須解決的問。圖表4:梯度消失使神經(jīng)網(wǎng)絡(luò)無法正常訓(xùn)練SciencePog,深度學(xué)習(xí)與圖網(wǎng)絡(luò)公眾號,-5-行業(yè)深度研究行業(yè)深度研究淺層神經(jīng)網(wǎng)絡(luò)在多應(yīng)用領(lǐng)域各自演進(jìn)多層感知機(jī)的出現(xiàn)奠定了神經(jīng)網(wǎng)絡(luò)的基本結(jié)構(gòu),也使得神經(jīng)網(wǎng)絡(luò)的應(yīng)用范圍不再局限于圖像識別,而是向自然語言處理、語音識別等其他領(lǐng)域拓展。由于各個(gè)領(lǐng)域的任務(wù)具有不同特點(diǎn),神經(jīng)網(wǎng)絡(luò)產(chǎn)生了眾多分支模型。這一階段分支網(wǎng)絡(luò)探索各自領(lǐng)域的任務(wù)特點(diǎn),通過機(jī)制創(chuàng)新使神經(jīng)網(wǎng)絡(luò)獲得對應(yīng)的特征提取能力。圖像識別領(lǐng)域“卷積”機(jī)制提取圖空間特征人類在進(jìn)行圖像識別時(shí),能夠從細(xì)小的特征推理得知事物的全貌,即“窺一斑而見全豹。在多層感知機(jī)時(shí)代,由于二維圖像被轉(zhuǎn)化為一維向量后輸入模型,因此丟失了圖像的空間特征信息。為了使神經(jīng)網(wǎng)絡(luò)獲得從特征到全局的圖像識別能力,卷積神經(jīng)網(wǎng)絡(luò)應(yīng)運(yùn)而生。1998年,Leet卷積神網(wǎng)()首次應(yīng)用于圖像分。CN通過多個(gè)卷積層對特征進(jìn)行提取和壓縮,得到較為可靠的高層次特征,最終輸出的特征可應(yīng)用于圖像分類等任務(wù)。Leet網(wǎng)絡(luò)由卷積層、池化層和全連接層構(gòu)成:卷積層:通過在輸入圖像上滑動(dòng)卷積核,進(jìn)行卷積操作提取關(guān)鍵特。卷積核的尺寸比輸入圖像小得多,無需像多層感知一樣學(xué)習(xí)完整圖片信息;池化層:對特征進(jìn)約減,從提取主要特征比如將卷積層的輸出劃分為若干矩形區(qū)域,取各區(qū)域的平均值或最大值,從而簡化網(wǎng)絡(luò)計(jì)算復(fù)雜;全連接層:對提取到的特征進(jìn)行匯總,將多維的特征映射為二維輸出。圖表5:卷積神經(jīng)網(wǎng)絡(luò)典型結(jié)構(gòu) 圖表6:卷積的實(shí)質(zhì)是提取關(guān)鍵特征iveintoeepLeann(Atonhang等,221, VIIA相較多層感知機(jī),卷積神經(jīng)網(wǎng)絡(luò)具備以下優(yōu):計(jì)算量減少:神經(jīng)元只與對應(yīng)的部分局部連;圖像識別能力增強(qiáng)利用卷積思想,使神經(jīng)網(wǎng)絡(luò)具備了局部特征提取能力;平移不變性:由于卷積核會(huì)在輸入圖像上滑動(dòng),所以無論被檢測物體在圖片哪個(gè)位臵都能被檢測到相同的特征。自然語言處理領(lǐng)域“循”機(jī)制提語言時(shí)序特征人類在進(jìn)行文字閱讀、語音識別時(shí),不僅會(huì)關(guān)注當(dāng)前看到、聽到的詞句,還會(huì)聯(lián)上下文進(jìn)行輔助理解。在多層感知機(jī)時(shí)代,所有的輸入彼此獨(dú)立,模型僅針對當(dāng)前詞句進(jìn)行訓(xùn)練,而不關(guān)注前后信息,造成了時(shí)序信息的丟失。為了使神經(jīng)網(wǎng)絡(luò)獲得時(shí)序信息提取能力1986年循環(huán)神經(jīng)網(wǎng)絡(luò)R)被提出,將循環(huán)思想引入神經(jīng)網(wǎng)絡(luò)在RN中,每個(gè)神經(jīng)元既接受當(dāng)前時(shí)刻輸入信息、也接受上一時(shí)刻神經(jīng)元的輸出信息,使神經(jīng)網(wǎng)絡(luò)具備了時(shí)序特征提取能力。-6-行業(yè)深度研究行業(yè)深度研究圖表7:N同時(shí)接受當(dāng)前時(shí)刻輸入與上一時(shí)刻輸?shù)男畔ython與機(jī)器智能公眾號,相較多層感知機(jī),循環(huán)神經(jīng)網(wǎng)絡(luò)具備以下優(yōu):可處理文本、語音等時(shí)序相關(guān)的信息;計(jì)算量大大降低在循環(huán)神經(jīng)網(wǎng)絡(luò)進(jìn)行訓(xùn)練時(shí),參數(shù)、、V是共享的,這減少了訓(xùn)練所需的計(jì)算量。支持向量機(jī)深度學(xué)習(xí)出之前的主算法支持向量機(jī)SV)是傳統(tǒng)機(jī)器學(xué)習(xí)中最重要的分類算法之一作為有監(jiān)督的分類器,其核心思想與感知機(jī)類,但對目標(biāo)函數(shù)進(jìn)行了改:感知機(jī)目標(biāo)函數(shù):錯(cuò)誤分類點(diǎn)到超平面的距離之和最小。支持向量機(jī)目標(biāo)函數(shù):支持向(距離超平面最近的正反例到超平面的距離最大化。圖表8:感知機(jī)與支持向量目標(biāo)函數(shù)不同人工智能技術(shù)公眾號,AI與強(qiáng)化學(xué)習(xí)公眾號,支持向量機(jī)的思想最早在1963由apnk等人提出,在90年代經(jīng)過多次模型和算法改進(jìn),能解決感知機(jī)線性不可分和多元分等缺陷,并可應(yīng)用于人體動(dòng)作識別、人臉識別、文本識別、生物信息學(xué)等領(lǐng)域。圖表9:在深度學(xué)習(xí)之前支持向量是解決人工智能任務(wù)的主流方法時(shí)間 理論提出者 理論內(nèi)容3年k等在解決模式識別問題時(shí)提出支持向量方法1年r等構(gòu)造基于支持向量構(gòu)建核空間的方法,可用于解決線性不可分問題7年g等將支持向量方法用于人體動(dòng)作識別,最高準(zhǔn)確度達(dá)%5年k等提出“”的塊算法,正式為持機(jī),其用于手寫數(shù)字識別-7-行業(yè)深度研究行業(yè)深度研究6年z等將VM用于物體識別6年ct等將VM用于說話人識別7年sa等提出分解算法,并將VM用于人臉識別7年c將VM用于文本識別8年sn等構(gòu)造多值分類模型,可用VM處理多元分類任務(wù)9年b等將VM應(yīng)用于基因表達(dá)微陣列數(shù)據(jù)分類《Atuoalnupotvecormahnesforatteneonion(uges等,198《lecarclaifictonofcnce:lasdicoveyndcaspedicinbygeeexpeionmitoing(ob等,1999,電子與信息學(xué)報(bào)公眾號,聲振之家公眾號,由支持向量機(jī)方法基本上不涉及概率測度及大數(shù)定律,具有更嚴(yán)格的理論和數(shù)學(xué)基,因擁有泛化能力強(qiáng)、收斂到全局最優(yōu)、維數(shù)不敏感優(yōu)點(diǎn)作為與神經(jīng)網(wǎng)絡(luò)并行的方法流派,在“深度學(xué)習(xí)出現(xiàn)之前,支持向量機(jī)度擁有更高的精,是解人工智能任的主流方。支持向量的最大瓶頸在不適合進(jìn)行多維度大樣本訓(xùn)練其本質(zhì)是借助二次規(guī)劃獲得最優(yōu)解,當(dāng)樣本量過大時(shí)會(huì)極大增加機(jī)器內(nèi)存和運(yùn)算時(shí)。梯度消失問題的解決使神經(jīng)網(wǎng)向深層邁進(jìn)逐層無監(jiān)督是深度學(xué)習(xí)的初次探索2006年,深度學(xué)習(xí)之父nton提出了一種梯度消失問題的解決方法是深度學(xué)習(xí)的初次探。nton的解決方法分為兩步1)逐層無監(jiān)督:即先通過無監(jiān)督學(xué)習(xí)逐層初始各神經(jīng)元的參數(shù)而P算法的初始參數(shù)為隨機(jī)賦予,使各神經(jīng)元的參數(shù)較為接近最優(yōu)值,這一步極大地緩解了梯度消失問;2)通過P算法進(jìn)行有監(jiān)督學(xué)習(xí),得到神經(jīng)網(wǎng)絡(luò)的最優(yōu)參數(shù)。nton的論文發(fā)表之后,深度學(xué)習(xí)方法在學(xué)術(shù)界引起了巨大的反響,但由于此時(shí)模型的應(yīng)用表現(xiàn)較為一般,因此深度學(xué)習(xí)的浪潮未向產(chǎn)業(yè)界蔓延。圖表10:逐層無監(jiān)督P有監(jiān)督解決梯度消失問題《AatLeaningAgitmforeepBeefet(intn等,20)eu激活函數(shù)的提出開啟了深度學(xué)習(xí)時(shí)代201年,eLu激活函數(shù)被提出,該激活函數(shù)的優(yōu)點(diǎn):具有更好的非線性擬合能,緩解梯度消失問;具有稀疏激活性,去掉了無關(guān)的噪聲,能夠更好地挖掘相關(guān)特征、且提升訓(xùn)練速度(導(dǎo)數(shù)為0或1,非常簡單。eLu激活函數(shù)被提出后201年微軟首次將深度學(xué)習(xí)應(yīng)用于語音識,使得-8-行業(yè)深度研究行業(yè)深度研究識別詞錯(cuò)誤率穩(wěn)定降低了2030,在產(chǎn)業(yè)界引起轟動(dòng)。2012年,nton及其學(xué)生提出exet,自此奠定了深度學(xué)習(xí)的經(jīng)典訓(xùn)練范式。exet采用了經(jīng)典的CN網(wǎng)絡(luò)結(jié)構(gòu)、使用eLu激活函數(shù)、對輸入值進(jìn)行有監(jiān)督學(xué)習(xí)(摒棄了此前的逐層無監(jiān)督方法、并采用GU對訓(xùn)練進(jìn)行加速。由于exet將ageet數(shù)據(jù)集上圖像分類的錯(cuò)誤率由26%降至15,此后5年學(xué)術(shù)界均用exet的范式進(jìn)行深度學(xué)習(xí)訓(xùn)。同時(shí),由于錯(cuò)誤率大幅降低,產(chǎn)業(yè)界開啟了深度學(xué)習(xí)的應(yīng)用。圖表1:iid和tanh函數(shù)存在梯度過/過小問題 圖表12:殘差學(xué)習(xí)進(jìn)一步緩解了梯度消失問題來源:PaddleEu 《eepeiulLanngforIaeeonton(inge等,2016,2016年,何愷明等人提出eset,使得神經(jīng)網(wǎng)絡(luò)可以對殘差進(jìn)行學(xué)習(xí),更好地緩解了梯度消失問題,也讓eset的神經(jīng)網(wǎng)絡(luò)深度高達(dá)152層。由于殘差學(xué)習(xí)能很好地緩解梯度消失問題,在之的ransforer架構(gòu)中也得以沿用。ansoer統(tǒng)一了各任務(wù)底層算法,開啟多模態(tài)和大模型時(shí)代2017年,Googe將注意力機(jī)制引入神經(jīng)網(wǎng)絡(luò),提出了新一代深度學(xué)習(xí)底層算法——ransforer。于ransorer在物體分類、語義理解等項(xiàng)任務(wù)準(zhǔn)確率超過、N等傳統(tǒng)算法,且能應(yīng)用于、LP等多模態(tài),因而ransforer的提出使得多任務(wù)、多模態(tài)的底層算法得到統(tǒng)一。與、RN相,3種模型的算法復(fù)雜程度差異不大ransforer的主要優(yōu)勢在:可并行計(jì)算、減少訓(xùn)練時(shí)間、便于處理大數(shù)據(jù)ransforer用位臵編碼的方式代替了N的詞句逐個(gè)輸入、循環(huán)迭代,因此可以采用并行計(jì)算加速訓(xùn)練。加強(qiáng)了神經(jīng)網(wǎng)絡(luò)對時(shí)序特征的提?。簾o論兩個(gè)詞相隔多遠(yuǎn),都能捕捉到彼此之間的依賴關(guān)系。-9-行業(yè)深度研究行業(yè)深度研究圖表13:Tafrer示意圖《AttentionIsAlloueed(hihaani等,207)由于在處理大數(shù)據(jù)方面具備顯著優(yōu)勢ransforer的出現(xiàn)開啟了深度學(xué)習(xí)的“大模型”時(shí)代。如OpenI發(fā)布的G-3,該模型在多個(gè)任務(wù)都取得了第一的成績,而其在算法結(jié)構(gòu)上與前代的GT、G-2沒有明顯差別,最大的區(qū)別是采用海量數(shù)據(jù)進(jìn)行模型訓(xùn)練,生地詮釋了“大就是好”的理念。圖表14:GT系列模型參數(shù)呈指數(shù)級增長模型名稱發(fā)布時(shí)間參數(shù)量億訓(xùn)練數(shù)據(jù)大小算力消耗fs-ay8年6月756-29年2月4-30年5月00《OntheompaabityofPetaiedLanuaeMdl(Mathas等,00)2020年,Goge出sonransorer(T)以解決計(jì)算機(jī)視覺問題,這標(biāo)志著自然語言處理、計(jì)算機(jī)視覺兩個(gè)最重要深度學(xué)領(lǐng)域?qū)崿F(xiàn)底層算法的統(tǒng)一。T的核心思想是把圖像當(dāng)文本處理,即將完整的圖像劃分為若干個(gè)小塊,把各個(gè)小塊視為詞,把各個(gè)小塊構(gòu)成的完整圖像視為語,在此基礎(chǔ)之進(jìn)行神經(jīng)網(wǎng)絡(luò)訓(xùn)。圖表15:iT模將圖像當(dāng)作文本進(jìn)行處理《Anmgeisoth1616od:TanfoesformgeecgiinatSce(oovitiy等,2020)-10-行業(yè)深度研究行業(yè)深度研究相較,T在計(jì)算機(jī)視覺領(lǐng)域任務(wù)處理的優(yōu)點(diǎn)在于:計(jì)算量降低:注意力機(jī)制的引入使得神經(jīng)網(wǎng)絡(luò)可以將有限算力應(yīng)用于關(guān)鍵信息,降低了計(jì)算量、提升了神經(jīng)網(wǎng)絡(luò)的性能。關(guān)注全局信息T不僅能對局部特征進(jìn)行提取,還關(guān)注各個(gè)小塊之間的空間依賴關(guān)系,能夠依靠多個(gè)局部特征之間的空間關(guān)系輔助推理,使得神經(jīng)網(wǎng)絡(luò)智能程度得到顯著提升。相較,T在計(jì)算機(jī)視覺領(lǐng)域任務(wù)處理的缺點(diǎn)在于:1)需要更大的訓(xùn)練樣本ransforr相較N缺少一定的平移不變性和局部感知性,因而需要更大的訓(xùn)練樣本獲得對局部特征的學(xué)習(xí)。在Iageet-21k、F-300M等大數(shù)據(jù)集之中T較eset準(zhǔn)確性更高。2021年nransforer的提出很好地彌合了上述問,成為目前通用的骨干網(wǎng)絡(luò)與T始終進(jìn)行1616patch的全局建模不同,每層Snransforr模塊之間進(jìn)行了類似于N池化層的atchergng降采樣操作,用于縮小分辨率,有效地降低了模型的計(jì)算復(fù)雜度。目前nransforr在圖像分類、語義分割、目標(biāo)識別等領(lǐng)域均刷新了最優(yōu)記錄。圖表16:每層winTanfrer之間進(jìn)行了類似N的atchering《SinTanfoe:ieacialiinTnfomeruinghftdno(eLu等,021,國金證券研究所探索多模態(tài)主干網(wǎng)絡(luò)T開啟多模態(tài)時(shí)代之后,學(xué)術(shù)界開始嘗試使用圖像以及其對應(yīng)的文本信息對神經(jīng)網(wǎng)絡(luò)進(jìn)行訓(xùn)練,以增強(qiáng)神經(jīng)網(wǎng)絡(luò)的理解能力。2021年1月penI發(fā)布了圖像和文本并行大規(guī)模多模模型L,該模型在超過4億的圖-文本對上進(jìn)行訓(xùn),優(yōu)點(diǎn)在使神經(jīng)網(wǎng)絡(luò)不僅關(guān)注特征之間的空間聯(lián)系,而且還會(huì)關(guān)注特之間的語義聯(lián)系,使得神經(jīng)網(wǎng)絡(luò)對圖的理解能力邁向新高度。圖表17:P多模態(tài)網(wǎng)絡(luò)采用圖-文本聯(lián)合訓(xùn)練OpenAI-1-行業(yè)深度研究行業(yè)深度研究現(xiàn)階段的多模態(tài)神經(jīng)網(wǎng)絡(luò)主要面向計(jì)算機(jī)視覺領(lǐng)域,還無法完成機(jī)器翻譯、閱讀理解等經(jīng)典自然語言處理任務(wù)。其主要目的是通過引入文本信息幫助神經(jīng)網(wǎng)絡(luò)更好地完成傳統(tǒng)視覺任務(wù),并且使神經(jīng)網(wǎng)絡(luò)能夠處理圖文檢索、語義圖像生成、語義圖像編輯等跨模態(tài)任務(wù),拓寬深度學(xué)習(xí)能夠面向的下游領(lǐng)域。圖表18:目前主流的多模態(tài)主干網(wǎng)絡(luò)公司發(fā)布時(shí)間模型名稱多模態(tài)任務(wù)AI1年1月P圖文檢索、地理定位、視頻動(dòng)作識別微軟1年8月-3視覺推理、視覺問答、圖像描述、圖文檢索OpenAI,微軟,探索ansoer時(shí)代的分支網(wǎng)絡(luò)ransforr統(tǒng)一了多模態(tài)、多任務(wù)的骨干網(wǎng)絡(luò),這也使得其分支網(wǎng)絡(luò)數(shù)量相對較少,往往是ransforer其他現(xiàn)有算法”的形式,學(xué)術(shù)界算法創(chuàng)新速度放。IGC領(lǐng)域:多模態(tài)ranfoer+擴(kuò)散模型人工智能生成內(nèi)容AG)是指由人工智能進(jìn)行創(chuàng)意創(chuàng)作,主要包括文學(xué)創(chuàng)作、代碼生成、圖像生成、視頻生成等。其中文學(xué)創(chuàng)作和代碼生成屬于單一模態(tài)任務(wù)、難度較低,基于ransforer主干網(wǎng)絡(luò)建立的大規(guī)模語言模型即可較好地適應(yīng)這類任務(wù)。而圖像生成、視頻生成等任務(wù)難度較高,僅靠ransforer主干網(wǎng)絡(luò)難以很好地完成任務(wù),因而催生出一批由ransforer與其他現(xiàn)有算法結(jié)合而成的分支網(wǎng)。擴(kuò)散模型是一種圖像生成方法,其核心思想是污染與重構(gòu)。擴(kuò)散模型最早提出于2015年2020年o等人在原模型基礎(chǔ)上進(jìn)行了簡化和建模方式改進(jìn),提出M模型,目前M是擴(kuò)散模型應(yīng)用的主流版本擴(kuò)散模型在訓(xùn)練時(shí)包括前向擴(kuò)散和反向生成過程兩個(gè)階段。在前向擴(kuò)散過程中,高斯噪音被逐步添加至圖像中,直到圖像成為完全隨機(jī)噪聲;在反向生成過程中,模型在每一個(gè)時(shí)間節(jié)點(diǎn)對噪聲的概率分布進(jìn)行預(yù)測,并嘗試重構(gòu)圖像。相較GAN而言,擴(kuò)散模型訓(xùn)練更加穩(wěn)定,且能生成更加多樣的樣本;缺點(diǎn)是訓(xùn)練和推理速度較慢。圖表19:擴(kuò)散模型的前向擴(kuò)散和反向生成過程oadsataScience2022年4月penI基于多模態(tài)主干網(wǎng)絡(luò)L、結(jié)合擴(kuò)散模型方法,訓(xùn)練得到了新一代圖像生成模型LL·E2。該模型能夠完成語義圖像生成、語義圖像編輯、圖像風(fēng)格遷移等多種任務(wù),而用戶無需任何計(jì)算機(jī)知識,僅需輸入簡短文字即可完成圖像生成。-12-行業(yè)深度研究行業(yè)深度研究圖表20:M在GC領(lǐng)域的前沿成果公司發(fā)布時(shí)間模型名稱多模態(tài)任務(wù)AI2年4月A·E2語義圖像生成e2年8月rtort語義圖像編輯a2年9月eavo語義視頻生成編輯、圖像視頻生成OpenAI,Gool,Mta對話機(jī)器人haG:語言rasfrer+強(qiáng)化學(xué)習(xí)模型強(qiáng)化學(xué)習(xí)最早出現(xiàn)于20世紀(jì)60年代,核心思想是獎(jiǎng)勵(lì)機(jī)制,使模型能夠根據(jù)所處環(huán)境做出最優(yōu)決策Googe研發(fā)著圍棋人工智能phaGoero便是基于強(qiáng)化學(xué)習(xí)方法訓(xùn)練得到。圖表21:強(qiáng)化學(xué)習(xí)模型示意來源:清華大數(shù)據(jù)軟件團(tuán)隊(duì)公眾號,2022年1月0日,OpenI對外發(fā)布新一對話機(jī)器人hatGT,這是一個(gè)基于nstructGT模型,通過與人類互動(dòng)進(jìn)行強(qiáng)化學(xué)習(xí)的語言網(wǎng)絡(luò)。相較G-3,nstructGT的參數(shù)量更小,但引入了人類反饋強(qiáng)化學(xué)習(xí)LF)的方法。LF是強(qiáng)化學(xué)習(xí)的一種,其核心思想是將人類提供的范例作為學(xué)習(xí)目標(biāo),當(dāng)神經(jīng)網(wǎng)絡(luò)輸出的內(nèi)容接近范例時(shí)給予神經(jīng)網(wǎng)絡(luò)獎(jiǎng)勵(lì)。LF的另一優(yōu)點(diǎn)是能夠幫助模型后續(xù)迭代升級。隨著hatGT免費(fèi)開放給公眾使用,廣大用戶形成的對話資料在經(jīng)過數(shù)據(jù)處理后,將成為最好的訓(xùn)練數(shù)據(jù),助力模型智能水平進(jìn)一步提。小結(jié)及投資建議深度學(xué)習(xí)的三要素包括算法、數(shù)據(jù)和算力,本文主要對算法的演進(jìn)過程進(jìn)行了回顧,認(rèn)為過往神經(jīng)網(wǎng)絡(luò)的發(fā)展以eu激活函數(shù)的提出為分水嶺,分為淺層神經(jīng)網(wǎng)絡(luò)和深度學(xué)習(xí)兩個(gè)階段。在淺層神經(jīng)網(wǎng)絡(luò)階段,最重要的任務(wù)就是解決梯度不穩(wěn)定的問。在這個(gè)問題未被妥善解決之前,神經(jīng)網(wǎng)絡(luò)應(yīng)用性能不佳,而屬于非神經(jīng)網(wǎng)絡(luò)的支持向量機(jī)算法)是解決人工智能模式識別的主流方。201年eu激活函數(shù)被提、梯度消失問題被大幅緩之后,神經(jīng)網(wǎng)絡(luò)進(jìn)入深度學(xué)習(xí)時(shí)代算法和應(yīng)用的發(fā)展均突飛猛。最初C、RN等模型在不同的模態(tài)和任務(wù)中各有擅長2017年rnsforer的提出讓深度學(xué)習(xí)進(jìn)入了大模型時(shí)代2020年sonransfrer的提出讓深度學(xué)習(xí)進(jìn)入了多模態(tài)時(shí)代,自此多模態(tài)和多任務(wù)底層算法被統(tǒng)一為ransforer架構(gòu)。目深度學(xué)習(xí)算法主要是基于ransforer骨干網(wǎng)絡(luò)進(jìn)行分支網(wǎng)絡(luò)的創(chuàng)新,如引入擴(kuò)散模型、強(qiáng)化學(xué)習(xí)等方催生出G、hatGT等應(yīng)用熱。但隨著ransforr基本完成底層算法統(tǒng)一之后整個(gè)行業(yè)底層算法發(fā)展速度放緩,靜待骨干網(wǎng)絡(luò)的下一次突。同時(shí)基于ransforer對大數(shù)據(jù)的需求,催生了無監(jiān)督學(xué)習(xí)、高算力芯片的發(fā)展。-13-行業(yè)深度研究行業(yè)深度研究圖表22:神經(jīng)網(wǎng)絡(luò)各發(fā)展階段經(jīng)典模型梳理時(shí)代模型時(shí)間核心思想優(yōu)點(diǎn)缺點(diǎn)淺神網(wǎng)時(shí)感知機(jī)1958年通過激活函數(shù)進(jìn)行二元分類神經(jīng)網(wǎng)絡(luò)發(fā)展的起點(diǎn)無法處理多維線性不可分的數(shù)據(jù)多層感知機(jī)1980s引入隱藏層及非線性激活函數(shù),處理多分類任務(wù)可擬合非線性函數(shù),處多元分類任務(wù)對算力要求高;所有輸入彼此獨(dú)立,失時(shí)間和空間信息RNN1986年每個(gè)神經(jīng)元既接受當(dāng)前時(shí)刻的輸入信息也接受上一時(shí)刻神元的輸出信息解決了時(shí)序信息的丟失題;計(jì)算量大大降低準(zhǔn)確率待提升,尤其圖像處理表現(xiàn)不佳CNNLeNet1998年通過多個(gè)卷積層對特征進(jìn)行提取和壓縮,得到高層次特征解決了空間信息的丟失問題;計(jì)算量大大降低準(zhǔn)確率待提升,尤其是NL表現(xiàn)不佳-2006年用逐層無監(jiān)督初始化P算法有監(jiān)督學(xué)習(xí)的方法解決梯度消的問題緩解梯度消失問題實(shí)際應(yīng)用表現(xiàn)一般深學(xué)時(shí)leNet2012年CNNReLu激活函數(shù)+輸入值有監(jiān)督學(xué)習(xí)+PU訓(xùn)練梯度消失問題大大緩解,準(zhǔn)確率更高訓(xùn)練速度提升NL表現(xiàn)不佳rans-ormer-2017年引入注意力機(jī)制,信息賦予不同的權(quán)開啟了大模型時(shí)代,可并行處理大數(shù)據(jù),訓(xùn)練時(shí)減少;加強(qiáng)了對時(shí)序特征的
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 展覽展示策劃公司合伙協(xié)議
- 醫(yī)療設(shè)備采購合同管理
- 果園菜場租賃條款
- 醫(yī)療設(shè)備租賃公司招聘合同范例
- 醫(yī)療器械保養(yǎng)操作方案
- 企業(yè)購房合同模板二手房買賣
- 大型項(xiàng)目合同攪拌站租賃合同
- 建筑垃圾清理起重機(jī)服務(wù)協(xié)議
- 垃圾焚燒發(fā)電招投標(biāo)文件目錄
- 新能源項(xiàng)目在線招投標(biāo)模板
- 【課件】+布局經(jīng)營-繪畫構(gòu)圖基礎(chǔ)+課件高中美術(shù)人美版(2019)選擇性必修1+繪畫
- 《BIQS基礎(chǔ)培訓(xùn)》課件
- 停車場系統(tǒng)合同范本
- 2023年國家執(zhí)業(yè)獸醫(yī)資格考試試卷及參考答案下午卷1
- 偏差行為、卓越一生3.0版
- 企業(yè)政府溝通與合作制度
- 2024建筑外墻風(fēng)貌改造工程承包合同
- 2023年中級經(jīng)濟(jì)師《人力資源管理》(真題卷)(11月11日下午)
- 【淺析PLC在數(shù)控機(jī)床中的應(yīng)用5000字(論文)】
- 企業(yè)經(jīng)營模擬實(shí)訓(xùn)智慧樹知到期末考試答案章節(jié)答案2024年華南農(nóng)業(yè)大學(xué)
- 家長會(huì)課件:主題班會(huì)高二家長會(huì)課件
評論
0/150
提交評論