大模型原理與技術(shù)-課件 chap4 大模型網(wǎng)絡(luò)結(jié)構(gòu)_第1頁(yè)
大模型原理與技術(shù)-課件 chap4 大模型網(wǎng)絡(luò)結(jié)構(gòu)_第2頁(yè)
大模型原理與技術(shù)-課件 chap4 大模型網(wǎng)絡(luò)結(jié)構(gòu)_第3頁(yè)
大模型原理與技術(shù)-課件 chap4 大模型網(wǎng)絡(luò)結(jié)構(gòu)_第4頁(yè)
大模型原理與技術(shù)-課件 chap4 大模型網(wǎng)絡(luò)結(jié)構(gòu)_第5頁(yè)
已閱讀5頁(yè),還剩75頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

大模型網(wǎng)絡(luò)結(jié)構(gòu)計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院智周萬(wàn)物?道濟(jì)天下o

Transformerl

注意力機(jī)制l

編碼器-解碼器結(jié)構(gòu)

l

大模型中的編碼器-解碼器結(jié)構(gòu)o

編碼器結(jié)構(gòu)----BERT家族l

BERT結(jié)構(gòu)l

預(yù)訓(xùn)練策略l

BERT的變體o

解碼器結(jié)構(gòu)----GPT家族l

GPT結(jié)構(gòu)l

自回歸預(yù)訓(xùn)練l

后續(xù)改進(jìn)o

思考

目錄2

目錄o

Transformerl

注意力機(jī)制l

編碼器-解碼器結(jié)構(gòu)

l

大模型中的編碼器-解碼器結(jié)構(gòu)o

編碼器結(jié)構(gòu)----BERT家族l

BERT結(jié)構(gòu)l

預(yù)訓(xùn)練策略l

BERT的變體o

解碼器結(jié)構(gòu)----GPT家族l

GPT結(jié)構(gòu)l

自回歸預(yù)訓(xùn)練l

后續(xù)改進(jìn)o

思考16o

面對(duì)問(wèn)題:記錄輸入序列中的長(zhǎng)期依賴關(guān)系o

Transformer利用注意力機(jī)制完成對(duì)源語(yǔ)言序列和目標(biāo)語(yǔ)言序列全局依賴的建模

Transformer4Transformer是自然語(yǔ)言處理領(lǐng)域的顛覆者,為后續(xù)大模型網(wǎng)絡(luò)結(jié)構(gòu)(BERT、GPT)的發(fā)展奠定了基礎(chǔ)o

基本結(jié)構(gòu):編碼器-解碼器結(jié)構(gòu)o

編碼器輸入,解碼器輸出

Transformer4o

嵌入表示層o

注意力層o

位置前饋感知層o

殘差連接o

層歸一化

Transformer43

目錄o

Transformerl

注意力機(jī)制l

編碼器-解碼器結(jié)構(gòu)

l

大模型中的編碼器-解碼器結(jié)構(gòu)o

編碼器結(jié)構(gòu)----BERT家族l

BERT結(jié)構(gòu)l

預(yù)訓(xùn)練策略l

BERT的變體o

解碼器結(jié)構(gòu)----GPT家族l

GPT結(jié)構(gòu)l

自回歸預(yù)訓(xùn)練l

后續(xù)改進(jìn)o

思考注意力機(jī)制是對(duì)人類行為的一種仿生,起源于對(duì)人類視覺(jué)注意機(jī)制的研究

注意力機(jī)制4注意力機(jī)制8不同的單詞通過(guò)不同權(quán)重計(jì)算影響1.自注意力模塊注意力機(jī)制8注意力機(jī)制8相關(guān)性通過(guò)詞與詞之間的關(guān)系來(lái)更好地理解當(dāng)前詞的意思注意力機(jī)制8點(diǎn)積雙線性多重感知機(jī)注意力機(jī)制8注意力圖查詢向量鍵向量注意力機(jī)制8縮放&Soft-max注意力機(jī)制8注意力機(jī)制8并行計(jì)算注意力機(jī)制8注意力機(jī)制8注意力機(jī)制8注意力機(jī)制8縮放Soft-max注意力機(jī)制8注意力機(jī)制8需要學(xué)習(xí)的參數(shù)注意力機(jī)制82.多頭注意力模塊注意力機(jī)制8注意力機(jī)制8注意力機(jī)制8=0=0=03.掩碼多頭注意力模塊在推理過(guò)程中,編碼器在生成當(dāng)前token時(shí),往往只能獲取之前token的信息注意力機(jī)制8縮放Soft-max注意力機(jī)制80000001111111011001000構(gòu)造掩碼矩陣注意力機(jī)制8000000000000注意力機(jī)制84.位置編碼在自注意力模塊中缺乏句子詞序位置編碼:每個(gè)位置有一個(gè)獨(dú)一無(wú)二的位置向量手工設(shè)計(jì)的也可以是學(xué)習(xí)得到的注意力機(jī)制8/abs/2003.092292

目錄o

Transformerl

注意力機(jī)制l

編碼器-解碼器結(jié)構(gòu)

l

大模型中的編碼器-解碼器結(jié)構(gòu)o

編碼器結(jié)構(gòu)----BERT家族l

BERT結(jié)構(gòu)l

預(yù)訓(xùn)練策略l

BERT的變體o

解碼器結(jié)構(gòu)----GPT家族l

GPT結(jié)構(gòu)l

自回歸預(yù)訓(xùn)練l

后續(xù)改進(jìn)o

思考編碼器-解碼器結(jié)構(gòu)31.編碼器編碼器Transformer中的編碼器編碼器-解碼器結(jié)構(gòu)4Transformer塊Transformer塊Transformer塊…………多頭注意力模塊FCFCFCFC前向傳播編碼器-解碼器結(jié)構(gòu)5多頭注意力模塊normFCFCnorm…norm均值標(biāo)準(zhǔn)差層歸一化/abs/1607.06450殘差連接編碼器-解碼器結(jié)構(gòu)62.解碼器解碼器編碼器<BOS>狗Dogslikeballs球0.1狗0.8歡0.0喜0.0……分布詞匯表大小Vsoftmaxmax喜max編碼器-解碼器結(jié)構(gòu)7解碼器編碼器<BOS>狗歡喜歡球Dogslikeballs狗maxmaxmax輸入的是解碼器的輸出Transformer中的解碼器編碼器-解碼器結(jié)構(gòu)8o

解碼器需要自己決定生成的目標(biāo)句的長(zhǎng)度o

實(shí)際上:機(jī)器并不能確定正確的輸出長(zhǎng)度喜max解碼器編碼器<BOS>狗歡球類喜歡球Dogslikeballs狗maxmaxmaxmax……會(huì)一直持續(xù)下去softmax編碼器-解碼器結(jié)構(gòu)9解碼器編碼器<BOS>狗Dogslikeballs球0.1狗0.0歡0.0喜0.0……<EOS>0.8分布softmaxmax解碼器<BOS>softmaxmax<EOS>喜歡球maxmaxmax喜狗歡球編碼器-解碼器結(jié)構(gòu)10在訓(xùn)練的過(guò)程中,不僅降低模型并行程度,使得訓(xùn)練時(shí)間變長(zhǎng),而且訓(xùn)練更加困難喜max解碼器編碼器<BOS>狗歡球<EOS>喜歡球Dogslikeballs狗maxmaxmaxmaxGroundTruthTeacherForcing:使用GroundTruth作為輸入編碼器-解碼器結(jié)構(gòu)為什么需要掩碼?11編碼器-解碼器結(jié)構(gòu)推理訓(xùn)練在訓(xùn)練的過(guò)程中,使用掩碼多頭注意力模塊12編碼器-解碼器結(jié)構(gòu)3.編碼器與解碼器之間的信息傳遞Crossattention13編碼器-解碼器結(jié)構(gòu)編碼器掩碼多頭注意力<BOS>FC14Crossattention編碼器-解碼器結(jié)構(gòu)編碼器掩碼多頭注意力<BOS>FC狗15

目錄o

Transformerl

注意力機(jī)制l

編碼器-解碼器結(jié)構(gòu)

l

大模型中的編碼器-解碼器結(jié)構(gòu)o

編碼器結(jié)構(gòu)----BERT家族l

BERT結(jié)構(gòu)l

預(yù)訓(xùn)練策略l

BERT的變體o

解碼器結(jié)構(gòu)----GPT家族l

GPT結(jié)構(gòu)l

自回歸預(yù)訓(xùn)練l

后續(xù)改進(jìn)o

思考16大模型中的編碼器-解碼器結(jié)構(gòu)1.BART17大模型中的編碼器-解碼器結(jié)構(gòu)TokenMaskingA[MASK]C.[MASK]E.

AB

C.DE.

18大模型中的編碼器-解碼器結(jié)構(gòu)TokenMaskingTokenDeletionA

C.

E.

A

C.

E.

19大模型中的編碼器-解碼器結(jié)構(gòu)TokenMaskingTokenDeletionTokenInfillingA[MASK].D[MASK]E.

A

2

.D0E.

20大模型中的編碼器-解碼器結(jié)構(gòu)TokenMaskingTokenDeletionTokenInfillingSentencePermutationDE.ABC.

2121大模型中的編碼器-解碼器結(jié)構(gòu)TokenMaskingTokenDeletionTokenInfillingSentencePermutationDocumentRotationC.DE.AB

Begin22大模型中的編碼器-解碼器結(jié)構(gòu)23大模型中的編碼器-解碼器結(jié)構(gòu)BaseLarge6層12層24大模型中的編碼器-解碼器結(jié)構(gòu)1.T5將所有文本處理問(wèn)題轉(zhuǎn)化為“文本到文本”的問(wèn)題25大模型中的編碼器-解碼器結(jié)構(gòu)ReplaceSpanA_.D_E.ABC.DE.norm殘差連接層歸一化norm262

目錄o

Transformerl

注意力機(jī)制l

編碼器-解碼器結(jié)構(gòu)

l

大模型中的編碼器-解碼器結(jié)構(gòu)o

編碼器結(jié)構(gòu)----BERT家族l

BERT結(jié)構(gòu)l

預(yù)訓(xùn)練策略l

BERT的變體o

解碼器結(jié)構(gòu)----GPT家族l

GPT結(jié)構(gòu)l

自回歸預(yù)訓(xùn)練l

后續(xù)改進(jìn)o

思考編碼器結(jié)構(gòu)-BERT家族3BERTTransformer中的編碼器like編碼器結(jié)構(gòu)-BERT家族42.預(yù)訓(xùn)練策略自監(jiān)督學(xué)習(xí)策略的提出使得BERT的訓(xùn)練成為可能BERT“掩碼語(yǔ)言建?!盌ogsballs隨機(jī)掩蓋其中一些token“[MASK]”softmaxballs0.0Dogs0.1like0.8……分布Linear交叉熵?fù)p失like訓(xùn)練GT編碼器結(jié)構(gòu)-BERT家族5“下句預(yù)測(cè)”DogslikeballsTheyarefuntoplaywith[CLS][SEP]BERTLinearsigmoidisNextnotNext二值交叉熵?fù)p失isNext訓(xùn)練GT6

目錄o

Transformerl

注意力機(jī)制l

編碼器-解碼器結(jié)構(gòu)

l

大模型中的編碼器-解碼器結(jié)構(gòu)o

編碼器結(jié)構(gòu)----BERT家族l

BERT結(jié)構(gòu)l

預(yù)訓(xùn)練策略l

BERT的變體o

解碼器結(jié)構(gòu)----GPT家族l

GPT結(jié)構(gòu)l

自回歸預(yù)訓(xùn)練l

后續(xù)改進(jìn)o

思考編碼器結(jié)構(gòu)-BERT家族71.BERT結(jié)構(gòu)Transformer編碼器文本嵌入Linear編碼器結(jié)構(gòu)-BERT家族8Transformer編碼器文本嵌入DogslikeballsTheyarefuntoplaywith[CLS][SEP][SEP]Token嵌入分段嵌入LinearLinear位置嵌入編碼器結(jié)構(gòu)-BERT家族91.BERT結(jié)構(gòu)Transformer編碼器文本嵌入輸出層DogslikeballsTheyarefuntoplaywith[CLS][SEP][SEP]LinearTanh輸出層輸出層10

目錄o

Transformerl

注意力機(jī)制l

編碼器-解碼器結(jié)構(gòu)

l

大模型中的編碼器-解碼器結(jié)構(gòu)o

編碼器結(jié)構(gòu)----BERT家族l

BERT結(jié)構(gòu)l

預(yù)訓(xùn)練策略l

BERT的變體o

解碼器結(jié)構(gòu)----GPT家族l

GPT結(jié)構(gòu)l

自回歸預(yù)訓(xùn)練l

后續(xù)改進(jìn)o

思考編碼器結(jié)構(gòu)-BERT家族3.BERT的變體BERT的參數(shù)量太大--ALBERT“跨層參數(shù)共享”全共享:Transformer塊的參數(shù)共享共享前饋網(wǎng)絡(luò)層:每個(gè)Transformer塊的前向傳播層參數(shù)共享共享注意力層:每個(gè)Transformer塊的多頭注意力層參數(shù)共享11編碼器結(jié)構(gòu)-BERT家族3.BERT的變體BERT的參數(shù)量太大--ALBERT“嵌入層參數(shù)因子分解”文本嵌入LinearLinearLinear12編碼器結(jié)構(gòu)-BERT家族萬(wàn)萬(wàn)13動(dòng)態(tài)掩碼編碼器結(jié)構(gòu)-BERT家族RoBERTa:改進(jìn)BERT預(yù)訓(xùn)練移除下句預(yù)測(cè)任務(wù)增加數(shù)據(jù)和訓(xùn)練步數(shù)增大batchsize使用字節(jié)級(jí)字節(jié)對(duì)編碼14編碼器結(jié)構(gòu)-BERT家族DogslikeballsTheyarefuntoplaywith[CLS][SEP]生成器(BERT)[eat]cat從詞匯表中隨機(jī)選擇一個(gè)token[]判別器Linearsigmoid實(shí)際替換15

目錄o

Transformerl

注意力機(jī)制l

編碼器-解碼器結(jié)構(gòu)

l

大模型中的編碼器-解碼器結(jié)構(gòu)o

編碼器結(jié)構(gòu)----BERT家族l

BERT結(jié)構(gòu)l

預(yù)訓(xùn)練策略l

BERT的變體o

解碼器結(jié)構(gòu)----GPT家族l

GPT結(jié)構(gòu)l

自回歸預(yù)訓(xùn)練l

后續(xù)改進(jìn)o

思考16解碼器結(jié)構(gòu)-GPT家族GPTTransformer解碼器樣式17解碼器結(jié)構(gòu)-GPT家族Transformer解碼器文本嵌入1.GPT結(jié)構(gòu)輸出層18<BOS>GPT解碼器結(jié)構(gòu)-GPT家族softmaxDogs

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論