版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
大模型網(wǎng)絡(luò)結(jié)構(gòu)計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院智周萬(wàn)物?道濟(jì)天下o
Transformerl
注意力機(jī)制l
編碼器-解碼器結(jié)構(gòu)
l
大模型中的編碼器-解碼器結(jié)構(gòu)o
編碼器結(jié)構(gòu)----BERT家族l
BERT結(jié)構(gòu)l
預(yù)訓(xùn)練策略l
BERT的變體o
解碼器結(jié)構(gòu)----GPT家族l
GPT結(jié)構(gòu)l
自回歸預(yù)訓(xùn)練l
后續(xù)改進(jìn)o
思考
目錄2
目錄o
Transformerl
注意力機(jī)制l
編碼器-解碼器結(jié)構(gòu)
l
大模型中的編碼器-解碼器結(jié)構(gòu)o
編碼器結(jié)構(gòu)----BERT家族l
BERT結(jié)構(gòu)l
預(yù)訓(xùn)練策略l
BERT的變體o
解碼器結(jié)構(gòu)----GPT家族l
GPT結(jié)構(gòu)l
自回歸預(yù)訓(xùn)練l
后續(xù)改進(jìn)o
思考16o
面對(duì)問(wèn)題:記錄輸入序列中的長(zhǎng)期依賴關(guān)系o
Transformer利用注意力機(jī)制完成對(duì)源語(yǔ)言序列和目標(biāo)語(yǔ)言序列全局依賴的建模
Transformer4Transformer是自然語(yǔ)言處理領(lǐng)域的顛覆者,為后續(xù)大模型網(wǎng)絡(luò)結(jié)構(gòu)(BERT、GPT)的發(fā)展奠定了基礎(chǔ)o
基本結(jié)構(gòu):編碼器-解碼器結(jié)構(gòu)o
編碼器輸入,解碼器輸出
Transformer4o
嵌入表示層o
注意力層o
位置前饋感知層o
殘差連接o
層歸一化
Transformer43
目錄o
Transformerl
注意力機(jī)制l
編碼器-解碼器結(jié)構(gòu)
l
大模型中的編碼器-解碼器結(jié)構(gòu)o
編碼器結(jié)構(gòu)----BERT家族l
BERT結(jié)構(gòu)l
預(yù)訓(xùn)練策略l
BERT的變體o
解碼器結(jié)構(gòu)----GPT家族l
GPT結(jié)構(gòu)l
自回歸預(yù)訓(xùn)練l
后續(xù)改進(jìn)o
思考注意力機(jī)制是對(duì)人類行為的一種仿生,起源于對(duì)人類視覺(jué)注意機(jī)制的研究
注意力機(jī)制4注意力機(jī)制8不同的單詞通過(guò)不同權(quán)重計(jì)算影響1.自注意力模塊注意力機(jī)制8注意力機(jī)制8相關(guān)性通過(guò)詞與詞之間的關(guān)系來(lái)更好地理解當(dāng)前詞的意思注意力機(jī)制8點(diǎn)積雙線性多重感知機(jī)注意力機(jī)制8注意力圖查詢向量鍵向量注意力機(jī)制8縮放&Soft-max注意力機(jī)制8注意力機(jī)制8并行計(jì)算注意力機(jī)制8注意力機(jī)制8注意力機(jī)制8注意力機(jī)制8縮放Soft-max注意力機(jī)制8注意力機(jī)制8需要學(xué)習(xí)的參數(shù)注意力機(jī)制82.多頭注意力模塊注意力機(jī)制8注意力機(jī)制8注意力機(jī)制8=0=0=03.掩碼多頭注意力模塊在推理過(guò)程中,編碼器在生成當(dāng)前token時(shí),往往只能獲取之前token的信息注意力機(jī)制8縮放Soft-max注意力機(jī)制80000001111111011001000構(gòu)造掩碼矩陣注意力機(jī)制8000000000000注意力機(jī)制84.位置編碼在自注意力模塊中缺乏句子詞序位置編碼:每個(gè)位置有一個(gè)獨(dú)一無(wú)二的位置向量手工設(shè)計(jì)的也可以是學(xué)習(xí)得到的注意力機(jī)制8/abs/2003.092292
目錄o
Transformerl
注意力機(jī)制l
編碼器-解碼器結(jié)構(gòu)
l
大模型中的編碼器-解碼器結(jié)構(gòu)o
編碼器結(jié)構(gòu)----BERT家族l
BERT結(jié)構(gòu)l
預(yù)訓(xùn)練策略l
BERT的變體o
解碼器結(jié)構(gòu)----GPT家族l
GPT結(jié)構(gòu)l
自回歸預(yù)訓(xùn)練l
后續(xù)改進(jìn)o
思考編碼器-解碼器結(jié)構(gòu)31.編碼器編碼器Transformer中的編碼器編碼器-解碼器結(jié)構(gòu)4Transformer塊Transformer塊Transformer塊…………多頭注意力模塊FCFCFCFC前向傳播編碼器-解碼器結(jié)構(gòu)5多頭注意力模塊normFCFCnorm…norm均值標(biāo)準(zhǔn)差層歸一化/abs/1607.06450殘差連接編碼器-解碼器結(jié)構(gòu)62.解碼器解碼器編碼器<BOS>狗Dogslikeballs球0.1狗0.8歡0.0喜0.0……分布詞匯表大小Vsoftmaxmax喜max編碼器-解碼器結(jié)構(gòu)7解碼器編碼器<BOS>狗歡喜歡球Dogslikeballs狗maxmaxmax輸入的是解碼器的輸出Transformer中的解碼器編碼器-解碼器結(jié)構(gòu)8o
解碼器需要自己決定生成的目標(biāo)句的長(zhǎng)度o
實(shí)際上:機(jī)器并不能確定正確的輸出長(zhǎng)度喜max解碼器編碼器<BOS>狗歡球類喜歡球Dogslikeballs狗maxmaxmaxmax……會(huì)一直持續(xù)下去softmax編碼器-解碼器結(jié)構(gòu)9解碼器編碼器<BOS>狗Dogslikeballs球0.1狗0.0歡0.0喜0.0……<EOS>0.8分布softmaxmax解碼器<BOS>softmaxmax<EOS>喜歡球maxmaxmax喜狗歡球編碼器-解碼器結(jié)構(gòu)10在訓(xùn)練的過(guò)程中,不僅降低模型并行程度,使得訓(xùn)練時(shí)間變長(zhǎng),而且訓(xùn)練更加困難喜max解碼器編碼器<BOS>狗歡球<EOS>喜歡球Dogslikeballs狗maxmaxmaxmaxGroundTruthTeacherForcing:使用GroundTruth作為輸入編碼器-解碼器結(jié)構(gòu)為什么需要掩碼?11編碼器-解碼器結(jié)構(gòu)推理訓(xùn)練在訓(xùn)練的過(guò)程中,使用掩碼多頭注意力模塊12編碼器-解碼器結(jié)構(gòu)3.編碼器與解碼器之間的信息傳遞Crossattention13編碼器-解碼器結(jié)構(gòu)編碼器掩碼多頭注意力<BOS>FC14Crossattention編碼器-解碼器結(jié)構(gòu)編碼器掩碼多頭注意力<BOS>FC狗15
目錄o
Transformerl
注意力機(jī)制l
編碼器-解碼器結(jié)構(gòu)
l
大模型中的編碼器-解碼器結(jié)構(gòu)o
編碼器結(jié)構(gòu)----BERT家族l
BERT結(jié)構(gòu)l
預(yù)訓(xùn)練策略l
BERT的變體o
解碼器結(jié)構(gòu)----GPT家族l
GPT結(jié)構(gòu)l
自回歸預(yù)訓(xùn)練l
后續(xù)改進(jìn)o
思考16大模型中的編碼器-解碼器結(jié)構(gòu)1.BART17大模型中的編碼器-解碼器結(jié)構(gòu)TokenMaskingA[MASK]C.[MASK]E.
AB
C.DE.
18大模型中的編碼器-解碼器結(jié)構(gòu)TokenMaskingTokenDeletionA
C.
E.
A
C.
E.
19大模型中的編碼器-解碼器結(jié)構(gòu)TokenMaskingTokenDeletionTokenInfillingA[MASK].D[MASK]E.
A
2
.D0E.
20大模型中的編碼器-解碼器結(jié)構(gòu)TokenMaskingTokenDeletionTokenInfillingSentencePermutationDE.ABC.
2121大模型中的編碼器-解碼器結(jié)構(gòu)TokenMaskingTokenDeletionTokenInfillingSentencePermutationDocumentRotationC.DE.AB
Begin22大模型中的編碼器-解碼器結(jié)構(gòu)23大模型中的編碼器-解碼器結(jié)構(gòu)BaseLarge6層12層24大模型中的編碼器-解碼器結(jié)構(gòu)1.T5將所有文本處理問(wèn)題轉(zhuǎn)化為“文本到文本”的問(wèn)題25大模型中的編碼器-解碼器結(jié)構(gòu)ReplaceSpanA_.D_E.ABC.DE.norm殘差連接層歸一化norm262
目錄o
Transformerl
注意力機(jī)制l
編碼器-解碼器結(jié)構(gòu)
l
大模型中的編碼器-解碼器結(jié)構(gòu)o
編碼器結(jié)構(gòu)----BERT家族l
BERT結(jié)構(gòu)l
預(yù)訓(xùn)練策略l
BERT的變體o
解碼器結(jié)構(gòu)----GPT家族l
GPT結(jié)構(gòu)l
自回歸預(yù)訓(xùn)練l
后續(xù)改進(jìn)o
思考編碼器結(jié)構(gòu)-BERT家族3BERTTransformer中的編碼器like編碼器結(jié)構(gòu)-BERT家族42.預(yù)訓(xùn)練策略自監(jiān)督學(xué)習(xí)策略的提出使得BERT的訓(xùn)練成為可能BERT“掩碼語(yǔ)言建?!盌ogsballs隨機(jī)掩蓋其中一些token“[MASK]”softmaxballs0.0Dogs0.1like0.8……分布Linear交叉熵?fù)p失like訓(xùn)練GT編碼器結(jié)構(gòu)-BERT家族5“下句預(yù)測(cè)”DogslikeballsTheyarefuntoplaywith[CLS][SEP]BERTLinearsigmoidisNextnotNext二值交叉熵?fù)p失isNext訓(xùn)練GT6
目錄o
Transformerl
注意力機(jī)制l
編碼器-解碼器結(jié)構(gòu)
l
大模型中的編碼器-解碼器結(jié)構(gòu)o
編碼器結(jié)構(gòu)----BERT家族l
BERT結(jié)構(gòu)l
預(yù)訓(xùn)練策略l
BERT的變體o
解碼器結(jié)構(gòu)----GPT家族l
GPT結(jié)構(gòu)l
自回歸預(yù)訓(xùn)練l
后續(xù)改進(jìn)o
思考編碼器結(jié)構(gòu)-BERT家族71.BERT結(jié)構(gòu)Transformer編碼器文本嵌入Linear編碼器結(jié)構(gòu)-BERT家族8Transformer編碼器文本嵌入DogslikeballsTheyarefuntoplaywith[CLS][SEP][SEP]Token嵌入分段嵌入LinearLinear位置嵌入編碼器結(jié)構(gòu)-BERT家族91.BERT結(jié)構(gòu)Transformer編碼器文本嵌入輸出層DogslikeballsTheyarefuntoplaywith[CLS][SEP][SEP]LinearTanh輸出層輸出層10
目錄o
Transformerl
注意力機(jī)制l
編碼器-解碼器結(jié)構(gòu)
l
大模型中的編碼器-解碼器結(jié)構(gòu)o
編碼器結(jié)構(gòu)----BERT家族l
BERT結(jié)構(gòu)l
預(yù)訓(xùn)練策略l
BERT的變體o
解碼器結(jié)構(gòu)----GPT家族l
GPT結(jié)構(gòu)l
自回歸預(yù)訓(xùn)練l
后續(xù)改進(jìn)o
思考編碼器結(jié)構(gòu)-BERT家族3.BERT的變體BERT的參數(shù)量太大--ALBERT“跨層參數(shù)共享”全共享:Transformer塊的參數(shù)共享共享前饋網(wǎng)絡(luò)層:每個(gè)Transformer塊的前向傳播層參數(shù)共享共享注意力層:每個(gè)Transformer塊的多頭注意力層參數(shù)共享11編碼器結(jié)構(gòu)-BERT家族3.BERT的變體BERT的參數(shù)量太大--ALBERT“嵌入層參數(shù)因子分解”文本嵌入LinearLinearLinear12編碼器結(jié)構(gòu)-BERT家族萬(wàn)萬(wàn)13動(dòng)態(tài)掩碼編碼器結(jié)構(gòu)-BERT家族RoBERTa:改進(jìn)BERT預(yù)訓(xùn)練移除下句預(yù)測(cè)任務(wù)增加數(shù)據(jù)和訓(xùn)練步數(shù)增大batchsize使用字節(jié)級(jí)字節(jié)對(duì)編碼14編碼器結(jié)構(gòu)-BERT家族DogslikeballsTheyarefuntoplaywith[CLS][SEP]生成器(BERT)[eat]cat從詞匯表中隨機(jī)選擇一個(gè)token[]判別器Linearsigmoid實(shí)際替換15
目錄o
Transformerl
注意力機(jī)制l
編碼器-解碼器結(jié)構(gòu)
l
大模型中的編碼器-解碼器結(jié)構(gòu)o
編碼器結(jié)構(gòu)----BERT家族l
BERT結(jié)構(gòu)l
預(yù)訓(xùn)練策略l
BERT的變體o
解碼器結(jié)構(gòu)----GPT家族l
GPT結(jié)構(gòu)l
自回歸預(yù)訓(xùn)練l
后續(xù)改進(jìn)o
思考16解碼器結(jié)構(gòu)-GPT家族GPTTransformer解碼器樣式17解碼器結(jié)構(gòu)-GPT家族Transformer解碼器文本嵌入1.GPT結(jié)構(gòu)輸出層18<BOS>GPT解碼器結(jié)構(gòu)-GPT家族softmaxDogs
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 二零二五年度健康養(yǎng)生中心加盟管理合同4篇
- 2025年度美甲店美容護(hù)膚項(xiàng)目合作合同4篇
- 二零二五年度特種耐火材料采購(gòu)及技術(shù)服務(wù)合同4篇
- 2025版農(nóng)產(chǎn)品電商平臺(tái)客戶服務(wù)外包合同4篇
- 二零二五年度民政局離婚協(xié)議書(shū)模板版權(quán)授權(quán)協(xié)議4篇
- 二零二五年度智能機(jī)器人研發(fā)與應(yīng)用股權(quán)質(zhì)押擔(dān)保合同
- 二零二五年度戀愛(ài)雙方子女撫養(yǎng)權(quán)及探望權(quán)合同2篇
- 2025年度抹灰工程施工材料采購(gòu)合同范本4篇
- 2025年度農(nóng)場(chǎng)農(nóng)業(yè)產(chǎn)業(yè)鏈金融服務(wù)合同-@-1
- 二零二五年度高標(biāo)準(zhǔn)大棚建設(shè)與農(nóng)產(chǎn)品加工合作合同2篇
- 2024公路瀝青路面結(jié)構(gòu)內(nèi)部狀況三維探地雷達(dá)快速檢測(cè)規(guī)程
- 2024年高考真題-地理(河北卷) 含答案
- 中國(guó)高血壓防治指南(2024年修訂版)解讀課件
- 2024年浙江省中考科學(xué)試卷
- 2024風(fēng)力發(fā)電葉片維保作業(yè)技術(shù)規(guī)范
- 《思想道德與法治》課程教學(xué)大綱
- 2024光儲(chǔ)充一體化系統(tǒng)解決方案
- 2024年全國(guó)高考新課標(biāo)卷物理真題(含答案)
- 處理后事授權(quán)委托書(shū)
- 食材配送服務(wù)方案投標(biāo)方案(技術(shù)方案)
- 足療店?duì)I銷策劃方案
評(píng)論
0/150
提交評(píng)論