深度學(xué)習(xí) 課件 注意力機(jī)制 BERT_第1頁(yè)
深度學(xué)習(xí) 課件 注意力機(jī)制 BERT_第2頁(yè)
深度學(xué)習(xí) 課件 注意力機(jī)制 BERT_第3頁(yè)
深度學(xué)習(xí) 課件 注意力機(jī)制 BERT_第4頁(yè)
深度學(xué)習(xí) 課件 注意力機(jī)制 BERT_第5頁(yè)
已閱讀5頁(yè),還剩36頁(yè)未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

機(jī)器學(xué)習(xí)深度學(xué)習(xí)—注意力機(jī)制復(fù)旦大學(xué)趙衛(wèi)東注意力機(jī)制復(fù)旦大學(xué)趙衛(wèi)東Seq2seq模型Seq2seq模型最早是在2013年由cho等人提出一種RNN模型。Seq2seq模型是序列對(duì)序列的模型,本質(zhì)上是一種多對(duì)多的RNN模型,也就是輸入序列和輸出序列不等長(zhǎng)的RNN模型。Seq2seq廣泛應(yīng)用在機(jī)器翻譯、文本摘要、語(yǔ)音識(shí)別、文本生成、AI寫詩(shī)等。復(fù)旦大學(xué)趙衛(wèi)東注意力機(jī)制模型2014年復(fù)旦大學(xué)趙衛(wèi)東注意力機(jī)制模型復(fù)旦大學(xué)趙衛(wèi)東注意力機(jī)制模型復(fù)旦大學(xué)趙衛(wèi)東注意力計(jì)算語(yǔ)義表示向量ct復(fù)旦大學(xué)趙衛(wèi)東Seq2seq與注意力機(jī)制模型(1)注意力機(jī)制本質(zhì)上是一種注意力資源分配的模型。編碼器將輸入編碼成上下文向量C,在解碼時(shí)每一個(gè)輸出Y都會(huì)不加區(qū)分的使用這個(gè)C進(jìn)行解碼。注意力模型根據(jù)序列的每個(gè)時(shí)間步將編碼器編碼為不同C,在解碼時(shí),結(jié)合每個(gè)不同的C進(jìn)行解碼輸出。復(fù)旦大學(xué)趙衛(wèi)東Seq2seq與注意力機(jī)制模型(2)一段漢譯英的機(jī)器翻譯注意力模型圖解示意圖復(fù)旦大學(xué)趙衛(wèi)東機(jī)器翻譯(1)編碼器復(fù)旦大學(xué)趙衛(wèi)東機(jī)器翻譯(2)解碼器復(fù)旦大學(xué)趙衛(wèi)東機(jī)器翻譯(3)注意力機(jī)制復(fù)旦大學(xué)趙衛(wèi)東機(jī)器翻譯(2)復(fù)旦大學(xué)趙衛(wèi)東語(yǔ)言模型復(fù)旦大學(xué)趙衛(wèi)東WordVec詞嵌入模型復(fù)旦大學(xué)趙衛(wèi)東2013年Google團(tuán)隊(duì)發(fā)表了Word2VecWord2Vec模型主要包含兩個(gè)模型:CBOW和skip-gram,可以較好地表達(dá)不同詞之間的相似和類比關(guān)系。上下文詞的one-hot表示和輸入詞矩陣相乘后得到的詞向量求和再平均的值CBOWskip-gramGlove模型復(fù)旦大學(xué)趙衛(wèi)東GloVe是斯坦福大學(xué)在2014年發(fā)表的一種詞嵌入技術(shù)。相較于由Google的Mikolov等人在2013年提出來(lái)的Word2Vec,GloVe充分利用了語(yǔ)料,訓(xùn)練出來(lái)的詞向量質(zhì)量更好。自注意力self-attention(1)self-attention:輸入的句子自身跟自身做attention,是一個(gè)查詢(Query)到一系列鍵-值對(duì)(Key-Value)的映射。應(yīng)用于transformer(2017年),Bert(2018年)等架構(gòu)。AttentionisAllYouNeed:https:///abs/1706.03762復(fù)旦大學(xué)趙衛(wèi)東自注意力self-attention(2)復(fù)旦大學(xué)趙衛(wèi)東自注意力self-attention(3)復(fù)旦大學(xué)趙衛(wèi)東Transformer為什么Q和K使用不同的權(quán)重矩陣生成?如果不用Q,attentionscore矩陣是一個(gè)對(duì)稱矩陣,泛化能力很差。在不同空間上的投影,增加了表達(dá)能力,這樣計(jì)算得到的attentionscore矩陣的泛化能力更高。自注意力self-attention(4)復(fù)旦大學(xué)趙衛(wèi)東在進(jìn)行Softmax之前需要對(duì)attention除以d的平方根?假設(shè)Q和K的均值為0,方差為1。它們乘積得到的矩陣均值為0,方差為d,因此使用d的平方根用于縮放。自注意力self-attention(5)復(fù)旦大學(xué)趙衛(wèi)東自注意力self-attention(6)復(fù)旦大學(xué)趙衛(wèi)東多頭自注意力multi-headself-attention(1)復(fù)旦大學(xué)趙衛(wèi)東多頭自注意力multi-headself-attention(2)復(fù)旦大學(xué)趙衛(wèi)東多頭自注意力multi-headself-attention(3)復(fù)旦大學(xué)趙衛(wèi)東在進(jìn)行多頭注意力的時(shí)候需要對(duì)每個(gè)head進(jìn)行降維?將原有的高維空間轉(zhuǎn)化為多個(gè)低維空間并再最后進(jìn)行拼接,形成同樣維度的輸出,借此豐富特性信息,降低了計(jì)算量。Self-Attention雖然能很好解決語(yǔ)句中各單詞之間的相關(guān)性問(wèn)題,但由于self-attention在計(jì)算時(shí)并不考慮兩個(gè)單詞之間的位置關(guān)系,導(dǎo)致在decoder時(shí)無(wú)法解決語(yǔ)句中單詞順序的問(wèn)題。在Transformer中計(jì)算PositionEncoding所使用的公式為:pos:當(dāng)前詞在句子中的位置,i:向量中每個(gè)值的index將得到的PositionalEncoding與embedding的值相加,作為輸入。

位置編碼復(fù)旦大學(xué)趙衛(wèi)東Transformer的位置編碼Transformer使用了固定的positionalencoding來(lái)表示token在句子中的絕對(duì)位置信息.自注意力的可視化多頭復(fù)旦大學(xué)趙衛(wèi)東自注意力的實(shí)現(xiàn)(1)復(fù)旦大學(xué)趙衛(wèi)東自注意力的實(shí)現(xiàn)(2)復(fù)旦大學(xué)趙衛(wèi)東Transformer復(fù)旦大學(xué)趙衛(wèi)東encoder和decoder的self-attention層和ffn層都有殘差連接。反向傳播的時(shí)候不會(huì)造成梯度消失。轉(zhuǎn)化輸入與輸出句長(zhǎng)Transformer復(fù)旦大學(xué)趙衛(wèi)東Encoder復(fù)旦大學(xué)趙衛(wèi)東Transformer塊使用LayerNorm句子長(zhǎng)度不一致,并且各個(gè)batch的信息沒什么關(guān)系,因此只考慮句子內(nèi)信息的歸一化(BN)。Decoder復(fù)旦大學(xué)趙衛(wèi)東Bert模型復(fù)旦大學(xué)趙衛(wèi)東機(jī)器翻譯復(fù)旦大學(xué)趙衛(wèi)東Bert用于分類復(fù)旦大學(xué)趙衛(wèi)東Mask語(yǔ)言模型復(fù)旦大學(xué)趙衛(wèi)東摘要抽取復(fù)旦大學(xué)趙衛(wèi)東Bert其他應(yīng)用復(fù)旦大學(xué)趙衛(wèi)東動(dòng)態(tài)鍵值記憶網(wǎng)絡(luò)(DynamicKey-ValueMemoryNetworks.)JianiZhang,XingjianShi,IrwinKing,etal.DynamicKey-ValueMemoryNetworksforKnowledgeTracing.W

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論