深度學習：Transformers：位置編碼與嵌入層

上傳人：陳*** IP屬地：河北上傳時間：2024-10-04 格式：DOCX 頁數(shù)：14 大?。?8.65KB 積分：6 舉報 版權(quán)申訴

已閱讀5頁，還剩9頁未讀，繼續(xù)免費閱讀

版權(quán)說明：本文檔由用戶提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請進行舉報或認領(lǐng)

文檔簡介

深度學習：Transformers：位置編碼與嵌入層1深度學習基礎(chǔ)1.1神經(jīng)網(wǎng)絡簡介神經(jīng)網(wǎng)絡是深度學習的基礎(chǔ)，它模仿了人腦神經(jīng)元的連接方式，通過大量的節(jié)點（神經(jīng)元）和連接（突觸）來處理和學習復雜的數(shù)據(jù)模式。神經(jīng)網(wǎng)絡由輸入層、隱藏層和輸出層組成，每一層包含多個神經(jīng)元。神經(jīng)元接收輸入，通過加權(quán)和與激活函數(shù)處理這些輸入，然后將結(jié)果傳遞給下一層的神經(jīng)元。1.1.1示例：使用Keras構(gòu)建一個簡單的神經(jīng)網(wǎng)絡#導入所需庫

importnumpyasnp

fromtensorflowimportkeras

fromtensorflow.kerasimportlayers

#創(chuàng)建數(shù)據(jù)集

x_train=np.random.random((1000,20))

y_train=keras.utils.to_categorical(np.random.randint(10,size=(1000,1)),num_classes=10)

x_test=np.random.random((100,20))

y_test=keras.utils.to_categorical(np.random.randint(10,size=(100,1)),num_classes=10)

#構(gòu)建神經(jīng)網(wǎng)絡模型

model=keras.Sequential([

layers.Dense(64,activation='relu',input_shape=(20,)),

layers.Dense(64,activation='relu'),

layers.Dense(10,activation='softmax')

])

#編譯模型

pile(optimizer='adam',

loss='categorical_crossentropy',

metrics=['accuracy'])

#訓練模型

model.fit(x_train,y_train,epochs=5,batch_size=32)

#評估模型

model.evaluate(x_test,y_test)在這個例子中，我們使用Keras庫構(gòu)建了一個簡單的神經(jīng)網(wǎng)絡，包含兩個隱藏層和一個輸出層。輸入數(shù)據(jù)是隨機生成的，輸出層使用softmax激活函數(shù)，適合多分類問題。1.2注意力機制概述注意力機制是深度學習中的一種技術(shù)，它允許模型在處理序列數(shù)據(jù)時，關(guān)注序列中最重要的部分，而忽略不相關(guān)的信息。這種機制在處理自然語言處理任務時特別有效，例如機器翻譯、文本摘要和問答系統(tǒng)。注意力機制通過計算輸入序列中每個位置的權(quán)重，然后根據(jù)這些權(quán)重對輸入進行加權(quán)求和，從而生成一個更聚焦的表示。1.2.1示例：使用PyTorch實現(xiàn)一個簡單的注意力機制#導入所需庫

importtorch

importtorch.nnasnn

#定義注意力層

classSimpleAttention(nn.Module):

def__init__(self,input_dim):

super(SimpleAttention,self).__init__()

self.W=nn.Linear(input_dim,1)

defforward(self,x):

#計算注意力權(quán)重

attention_weights=self.W(x).squeeze(-1)

attention_weights=torch.softmax(attention_weights,dim=-1)

#應用注意力權(quán)重

weighted_x=x*attention_weights.unsqueeze(-1)

#求和得到最終表示

output=weighted_x.sum(dim=1)

returnoutput

#創(chuàng)建一個簡單的輸入序列

input_sequence=torch.randn(10,20,32)#假設序列長度為10，每個位置的向量維度為32

#實例化注意力層

attention_layer=SimpleAttention(32)

#應用注意力機制

output=attention_layer(input_sequence)

print(output.shape)#輸出應為(20,32)，即每個樣本的最終表示在這個例子中，我們使用PyTorch庫定義了一個簡單的注意力層。輸入是一個序列，每個位置的向量維度為32。注意力層計算每個位置的權(quán)重，然后應用這些權(quán)重對輸入序列進行加權(quán)求和，得到每個樣本的最終表示。2深度學習：Transformers：位置編碼與嵌入層2.1Transformer架構(gòu)2.1.1Transformer模型介紹Transformer模型是深度學習領(lǐng)域的一個重要突破，由Vaswani等人在2017年的論文《AttentionisAllYouNeed》中提出。它摒棄了傳統(tǒng)的循環(huán)神經(jīng)網(wǎng)絡（RNN）和卷積神經(jīng)網(wǎng)絡（CNN）在處理序列數(shù)據(jù)時的局限性，完全基于自注意力機制（Self-AttentionMechanism）構(gòu)建，能夠并行處理序列中的所有元素，極大地提高了訓練效率。Transformer模型在自然語言處理（NLP）任務中取得了顯著的成功，如機器翻譯、文本生成和問答系統(tǒng)等。2.1.2自注意力機制詳解自注意力機制是Transformer模型的核心組成部分，它允許模型在處理序列數(shù)據(jù)時關(guān)注輸入序列的不同部分。自注意力機制通過計算序列中每個位置的元素與其他所有位置元素之間的相關(guān)性，從而為每個位置生成一個加權(quán)的上下文向量。這一機制通過三個關(guān)鍵向量來實現(xiàn)：查詢向量（Query）、鍵向量（Key）和值向量（Value）。自注意力機制的計算過程查詢、鍵和值向量的生成：對于輸入序列中的每個元素，通過線性變換（即矩陣乘法）生成對應的查詢、鍵和值向量。計算注意力權(quán)重：通過計算查詢向量和鍵向量之間的點積，然后對結(jié)果進行縮放（通常除以鍵向量的維度的平方根），最后應用softmax函數(shù)，得到注意力權(quán)重矩陣。加權(quán)求和：將注意力權(quán)重矩陣與值向量矩陣相乘，得到加權(quán)求和的輸出，即每個位置的上下文向量。代碼示例下面是一個使用PyTorch實現(xiàn)自注意力機制的簡單示例：importtorch

importtorch.nnasnn

classSelfAttention(nn.Module):

def__init__(self,embed_size,heads):

super(SelfAttention,self).__init__()

self.embed_size=embed_size

self.heads=heads

self.head_dim=embed_size//heads

assert(self.head_dim*heads==embed_size),"Embedsizeneedstobedivisiblebyheads"

self.values=nn.Linear(self.head_dim,self.head_dim,bias=False)

self.keys=nn.Linear(self.head_dim,self.head_dim,bias=False)

self.queries=nn.Linear(self.head_dim,self.head_dim,bias=False)

self.fc_out=nn.Linear(heads*self.head_dim,embed_size)

defforward(self,values,keys,query,mask):

N=query.shape[0]

value_len,key_len,query_len=values.shape[1],keys.shape[1],query.shape[1]

#Splittheembeddingintoself.headsdifferentpieces

values=values.reshape(N,value_len,self.heads,self.head_dim)

keys=keys.reshape(N,key_len,self.heads,self.head_dim)

queries=query.reshape(N,query_len,self.heads,self.head_dim)

energy=torch.einsum("nqhd,nkhd->nhqk",[queries,keys])

#queriesshape:(N,query_len,heads,heads_dim),

#keysshape:(N,key_len,heads,heads_dim)

#energy:(N,heads,query_len,key_len)

ifmaskisnotNone:

energy=energy.masked_fill(mask==0,float("-1e20"))

attention=torch.softmax(energy/(self.embed_size**(1/2)),dim=3)

#attentionshape:(N,heads,query_len,key_len)

out=torch.einsum("nhql,nlhd->nqhd",[attention,values]).reshape(

N,query_len,self.heads*self.head_dim)

#valuesshape:(N,value_len,heads,heads_dim)

#outaftereinsum:(N,query_len,heads,head_dim),then

#outshape:(N,query_len,heads*head_dim)

out=self.fc_out(out)

returnout代碼解釋初始化：在__init__方法中，定義了線性層來生成查詢、鍵和值向量，以及一個輸出層fc_out用于將多頭注意力的輸出轉(zhuǎn)換回原始的嵌入維度。前向傳播：在forward方法中，首先將輸入的嵌入向量按照頭數(shù)（heads）分割，然后計算查詢向量和鍵向量之間的點積，得到能量矩陣。如果存在mask，則應用mask來屏蔽不需要關(guān)注的部分。最后，通過softmax函數(shù)計算注意力權(quán)重，并與值向量相乘，得到加權(quán)的上下文向量。這些向量再通過fc_out層，得到最終的輸出。通過上述代碼和解釋，我們可以看到自注意力機制如何在Transformer模型中實現(xiàn)對序列數(shù)據(jù)的并行處理，以及如何通過計算注意力權(quán)重來捕捉序列中不同部分之間的依賴關(guān)系。3深度學習：Transformers：嵌入層概念3.1詞嵌入的重要性在自然語言處理（NLP）領(lǐng)域，詞嵌入（WordEmbedding）是一種將文本中的詞或短語轉(zhuǎn)換為實數(shù)向量的技術(shù)。這些向量不僅能夠捕捉詞的語義信息，還能反映詞與詞之間的關(guān)系，如相似性、同義性、反義性等。詞嵌入的重要性在于：語義表示：將詞轉(zhuǎn)換為向量，使得機器能夠理解詞的含義。維度降低：相比于one-hot編碼，詞嵌入能夠?qū)⒏呔S的詞表示為低維的向量，減少計算復雜度。關(guān)系捕捉：詞嵌入能夠捕捉詞與詞之間的語義關(guān)系，如“國王”與“王后”的關(guān)系可以類比于“男人”與“女人”。3.1.1示例：使用GloVe創(chuàng)建詞嵌入矩陣假設我們有以下詞匯列表：words=['國王','王后','男人','女人','巴黎','法國','倫敦','英國']我們可以使用預訓練的GloVe模型來創(chuàng)建這些詞的嵌入矩陣。首先，需要加載GloVe模型，然后提取每個詞的向量表示。importnumpyasnp

fromgensim.modelsimportKeyedVectors

#加載預訓練的GloVe模型

glove_model=KeyedVectors.load_word2vec_format('path_to_glove_model.txt',binary=False)

#創(chuàng)建詞嵌入矩陣

embedding_matrix=np.zeros((len(words),300))#假設GloVe模型的向量維度為300

fori,wordinenumerate(words):

ifwordinglove_model:

embedding_matrix[i]=glove_model[word]

else:

embedding_matrix[i]=np.random.rand(300)#如果詞不在模型中，可以隨機初始化向量

#打印詞嵌入矩陣

print(embedding_matrix)在這個例子中，我們首先導入了必要的庫，然后加載了預訓練的GloVe模型。接著，我們創(chuàng)建了一個零矩陣，其大小為詞匯列表的長度乘以GloVe模型的向量維度。對于詞匯列表中的每個詞，我們檢查它是否在GloVe模型中，如果在，則將該詞的向量表示存儲在矩陣中對應的位置；如果不在，則隨機初始化一個向量。3.2創(chuàng)建詞嵌入矩陣詞嵌入矩陣是深度學習模型中用于表示詞匯的矩陣。每個詞在矩陣中對應一個行向量，這個向量是詞的嵌入表示。創(chuàng)建詞嵌入矩陣的步驟通常包括：定義詞匯表：收集所有需要表示的詞，形成詞匯表。加載預訓練模型：使用如GloVe、Word2Vec或FastText等預訓練模型。提取向量：從預訓練模型中提取每個詞的向量表示。填充矩陣：將提取的向量填充到矩陣中，形成詞嵌入矩陣。3.2.1示例：使用TensorFlow創(chuàng)建詞嵌入層在深度學習模型中，詞嵌入層通常作為模型的第一層，用于將詞匯表中的詞轉(zhuǎn)換為向量表示。下面是一個使用TensorFlow創(chuàng)建詞嵌入層的例子：importtensorflowastf

#定義詞匯表大小和嵌入維度

vocab_size=10000

embedding_dim=128

#創(chuàng)建詞嵌入層

embedding_layer=tf.keras.layers.Embedding(input_dim=vocab_size,output_dim=embedding_dim)

#創(chuàng)建一個樣本輸入

input_data=tf.constant([[1],[2],[3],[4]])

#通過詞嵌入層處理輸入數(shù)據(jù)

output=embedding_layer(input_data)

#打印輸出

print(output)在這個例子中，我們首先定義了詞匯表的大?。╲ocab_size）和嵌入維度（embedding_dim）。然后，使用tf.keras.layers.Embedding創(chuàng)建了一個詞嵌入層。我們創(chuàng)建了一個樣本輸入，該輸入是一個包含四個詞的列表，每個詞用一個整數(shù)表示。最后，我們通過詞嵌入層處理這個輸入，并打印輸出結(jié)果。詞嵌入層的輸出是一個三維張量，其形狀為(batch_size,sequence_length,embedding_dim)。在這個例子中，batch_size為1，sequence_length為4，embedding_dim為128。這意味著輸出是一個包含四個詞的嵌入向量的張量，每個向量的維度為128。通過以上兩個示例，我們可以看到詞嵌入在自然語言處理中的重要性，以及如何使用預訓練模型和深度學習框架來創(chuàng)建和使用詞嵌入矩陣和詞嵌入層。這些技術(shù)是構(gòu)建如Transformer這樣的現(xiàn)代NLP模型的基礎(chǔ)。4深度學習：Transformers：位置編碼原理4.1位置編碼的必要性在Transformer模型中，由于自注意力機制(Self-Attention)的引入，模型不再依賴于序列的順序信息，而是通過計算所有位置的權(quán)重來獲取上下文信息。然而，這種機制忽略了詞在句子中的相對位置或序列信息，這對于理解句子的語義結(jié)構(gòu)至關(guān)重要。例如，在句子“狗咬人”和“人咬狗”中，盡管詞匯相同，但詞的順序不同，導致句子的含義完全不同。因此，為了使Transformer能夠理解詞的位置信息，位置編碼(PositionalEncoding)被設計并加入到模型中。位置編碼是一種向模型輸入中添加位置信息的方法，它通過將一個額外的向量添加到每個詞的嵌入向量上，來表示詞在序列中的位置。這個額外的向量是根據(jù)詞在序列中的位置預先計算好的，且對于所有輸入序列都是相同的。位置編碼的設計需要滿足兩個條件：一是能夠區(qū)分不同的位置，二是能夠平滑地處理不同長度的序列。4.2正弦位置編碼實現(xiàn)正弦位置編碼(SinusoidalPositionalEncoding)是Transformer模型中使用的一種位置編碼方式，它利用正弦和余弦函數(shù)的周期性來編碼位置信息。具體來說，對于每個位置p和每個維度i，位置編碼PEP其中，dmodel4.2.1代碼示例下面是一個使用Python和PyTorch實現(xiàn)正弦位置編碼的示例：importtorch

importmath

defsinusoidal_positional_encoding(max_seq_len,d_model):

"""

生成正弦位置編碼矩陣

:parammax_seq_len:序列的最大長度

:paramd_model:模型的維度

:return:位置編碼矩陣，形狀為[max_seq_len,d_model]

"""

pe=torch.zeros(max_seq_len,d_model)

position=torch.arange(0,max_seq_len,dtype=torch.float).unsqueeze(1)

div_term=torch.exp(torch.arange(0,d_model,2).float()*(-math.log(10000.0)/d_model))

pe[:,0::2]=torch.sin(position*div_term)

pe[:,1::2]=torch.cos(position*div_term)

returnpe

#示例：生成一個最大長度為100，維度為512的位置編碼矩陣

max_seq_len=100

d_model=512

pe=sinusoidal_positional_encoding(max_seq_len,d_model)

print(pe.shape)#輸出：torch.Size([100,512])4.2.2解釋在上述代碼中，我們首先定義了一個函數(shù)sinusoidal_positional_encoding，它接受兩個參數(shù)：max_seq_len和d_model，分別表示序列的最大長度和模型的維度。函數(shù)內(nèi)部，我們創(chuàng)建了一個全零的矩陣pe，其形狀為[max_seq_len,d_model]。然后，我們使用torch.arange函數(shù)生成一個從0到max_seq_len的序列，表示每個位置的索引，并將其轉(zhuǎn)換為浮點數(shù)類型。接下來，我們計算div_term，它是一個用于縮放位置索引的向量，確保不同維度的位置編碼能夠區(qū)分不同的位置。最后，我們使用正弦和余弦函數(shù)計算位置編碼，并將其存儲在pe矩陣中。通過運行上述代碼，我們可以生成一個形狀為[100,512]的位置編碼矩陣，其中每一行對應一個位置，每一列對應一個維度。這個矩陣可以被添加到詞嵌入矩陣上，以提供位置信息給Transformer模型。4.2.3結(jié)論正弦位置編碼是一種有效的位置編碼方式，它能夠為Transformer模型提供位置信息，同時保持計算的高效性和對不同長度序列的適應性。通過上述代碼示例，我們可以看到正弦位置編碼的實現(xiàn)細節(jié)，并理解其如何在實際應用中發(fā)揮作用。5深度學習：Transformers：位置編碼與嵌入層結(jié)合5.1位置編碼添加到嵌入層在Transformer模型中，位置編碼(PositionalEncoding,PE)的引入是為了彌補模型在處理序列數(shù)據(jù)時缺乏對位置信息的感知。由于Transformer模型基于自注意力機制(self-attentionmechanism)，它不像循環(huán)神經(jīng)網(wǎng)絡(RNN)那樣通過時間步的順序來理解序列中的位置信息。因此，位置編碼成為了一個關(guān)鍵的組件，它允許模型在序列中區(qū)分不同位置的詞。5.1.1位置編碼的原理位置編碼是一個可加的向量，它被設計成與詞嵌入向量(WordEmbedding)的維度相同，這樣它們可以直接相加。位置編碼的值依賴于詞在序列中的位置和向量的維度。一個常見的位置編碼公式如下：PP其中，pos是詞在序列中的位置，i是向量的維度索引，d_model是詞嵌入向量的維度。通過使用正弦和余弦函數(shù)，位置編碼可以捕捉到詞在序列中的相對位置，而不僅僅是絕對位置。5.1.2代碼示例下面是一個使用PyTorch實現(xiàn)位置編碼的示例代碼：importtorch

importmath

defpositional_encoding(max_seq_len,d_model):

pe=torch.zeros(max_seq_len,d_model)

position=torch.arange(0,max_seq_len,dtype=torch.float).unsqueeze(1)

div_term=torch.exp(torch.arange(0,d_model,2).float()*(-math.log(10000.0)/d_model))

pe[:,0::2]=torch.sin(position*div_term)

pe[:,1::2]=torch.cos(position*div_term)

pe=pe.unsqueeze(0).transpose(0,1)

returnpe

#示例：創(chuàng)建一個最大序列長度為100，詞嵌入維度為512的位置編碼矩陣

max_seq_len=100

d_model=512

pe=positional_encoding(max_seq_len,d_model)5.1.3結(jié)合詞嵌入位置編碼通常與詞嵌入向量相加，以形成最終的輸入向量。詞嵌入向量是通過查找表(LookupTable)獲取的，它將每個詞映射到一個固定長度的向量，這個向量捕捉了詞的語義信息。#假設我們有一個詞嵌入矩陣，每個詞的嵌入維度為512

word_embeddings=torch.randn(max_seq_len,d_model)

#將位置編碼與詞嵌入相加

input_embeddings=word_embeddings+pe[:max_seq_len]5.2位置編碼對Transformer性能的影響位置編碼的引入對Transformer模型的性能有著顯著的影響。它使得模型能夠理解序列中詞的順序，這對于許多自然語言處理任務至關(guān)重要，如機器翻譯、文本分類和問答系統(tǒng)。沒有位置編碼，Transformer模型將無法區(qū)分序列中的不同位置，從而導致性能下降。5.2.1實驗對比為了說明位置編碼的重要性，我們可以進行一個簡單的實驗，比較有位置編碼和無位置編碼的Transformer模型在某個任務上的性能差異。例如，在機器翻譯任務中，我們可以通過BLEU分數(shù)來評估模型的性能。#有位置編碼的Transformer模型

transformer_with_pe=TransformerModel(d_model,pe)

#無位置編碼的Transformer模型

transformer_without_pe=TransformerModel(d_model,None)

#訓練和評估模型

bleu_with_pe=evaluate(transformer_with_pe,test_data)

bleu_without_pe=evaluate(transformer_without_pe,test_data)

#比較性能

print(f"有位置編碼的BLEU分數(shù):{bleu_with_pe}")

print(f"無位置編碼的BLEU分數(shù):{bleu_without_pe}")通常情況下，有位置編碼的Transformer模型會表現(xiàn)出更好的性能，特別是在處理長序列時，位置信息的準確捕捉對于模型理解上下文至關(guān)重要。5.2.2總結(jié)位置編碼是Transformer模型中一個不可或缺的組成部分，它通過引入位置信息，使得模型能夠處理序列數(shù)據(jù)，理解詞的順序。通過將位置編碼與詞嵌入向量相加，模型可以同時利用詞的語義信息和位置信息，從而在自然語言處理任務中取得更好的性能。6Transformers在機器翻譯中的應用6.1引入Transformer模型Transformer模型由Vaswani等人在2017年的論文《AttentionisAllYouNeed》中提出，它徹底改變了自然語言處理（NLP）領(lǐng)域，尤其是在機器翻譯任務上。與傳統(tǒng)的序列到序列模型不同，Transformer摒棄了循環(huán)神經(jīng)網(wǎng)絡（RNN）和卷積神經(jīng)網(wǎng)絡（CNN），轉(zhuǎn)而使用自注意力機制（Self-AttentionMechanism）和位置編碼（PositionalEncoding）來處理輸入序列，這使得模型能夠并行處理序列中的所有元素，大大提高了訓練效率。6.2位置編碼的重要性在Transformer模型中，位置編碼是一個關(guān)鍵組件，因為它幫助模型理解輸入序列中單詞的相對位置。由于自注意力機制本身并不包含位置信息，位置編碼被添加到嵌入層的輸出上，以確保模型能夠區(qū)分序列中的不同位置。位置編碼通常采用正弦和余弦函數(shù)來生成，這些函數(shù)能夠為序列中的每個位置提供一個唯一的向量表示。6.2.11位置編碼的計算位置編碼的計算公式如下：PP其中，pos是單詞在序列中的位置，i是維度索引，d是嵌入向量的維度。6.2.22代碼示例下面是一個使用PyTorch實現(xiàn)位置編碼的代碼示例：importtorch

importmath

defpositional_encoding(max_len,d_model):

pe=torch.zeros(max_len,d_model)

position=torch.arange(0,max_len,dtype=torch.float).unsqueeze(1)

div_term=torch.exp(torch.arange(0,d_model,2).float()*(-math.log(10000.0)/d_model))

pe[:,0::2]=torch.sin(position*div_term)

pe[:,1::2]=torch.cos(position*div_term)

pe=pe.unsqueeze(0).transpose(0,1)

returnpe

#示例：生成一個512維的位置編碼，最大長度為100

max_len=100

d_model=512

pe=positional_encoding(max_len,d_model)6.3嵌入層的作用嵌入層（EmbeddingLayer）在Transformer模型中用于將單詞轉(zhuǎn)換為稠密的向量表示。這些向量不僅包含了單詞的語義信息，還通過與位置編碼的結(jié)合，包含了單詞在句子中的位置信息。嵌入層的輸出向量通常具有較高的維度，這有助于模型捕捉到更復雜的語義關(guān)系。6.3.11代碼示例下面是一個使用PyTorch實現(xiàn)嵌入層的代碼示例：importtorch

importtorch.nnasnn

classEmbedding(nn.Module):

def__init__(self,vocab_size,d_model):

super(Embedding,self).__init__()

self.embedding=nn.Embedding(vocab_size,d_model)

self.d_model=d_model

defforward(self,x):

returnself.embedding(x)*math.sqrt(self.d_model)

#示例：創(chuàng)建一個嵌入層，詞匯表大小為10000，嵌入維度為512

vocab_size=10000

d_model=512

embedding_layer=Embedding(vocab_size,d_model)

#假設我們有一個句子，每個單詞用一個整數(shù)表示

sentence=torch.tensor([[1,2,3,4,5],[6,7,8,9,10]])

embedded_sentence=embedding_layer(sentence)6.4Transformers在文本生成中的應用Transformer模型不僅在機器翻譯中表現(xiàn)出色，它在文本生成任務中也具有廣泛的應用。文本生成任務包括但不限于自動摘要、對話系統(tǒng)、故事生成等。在這些任務中，Transformer模型能夠根據(jù)給定的上下文生成連貫且有意義的文本。6.4.11解碼器的自回歸特性在文本生成中，Transformer的解碼器部分使用自回歸（Autoregressive）策略，即在生成每個單詞時，它只考慮序列中之前生成的單詞。這種策略確保了生成的文本具有連貫性，因為每個單詞的生成都依賴于其前面的單詞。6.4.22代碼示例下面是一個使用Transformer模型進行文本生成的代碼示例：importtorch

importtorch.nn

人人文庫> 全部分類> 行業(yè)資料 > 信息產(chǎn)業(yè)

溫馨提示

1. 本站所有資源如無特殊說明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁內(nèi)容里面會有圖紙預覽，若沒有圖紙預覽就沒有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 人人文庫網(wǎng)僅提供信息存儲空間，僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理，對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對任何下載內(nèi)容負責。
6. 下載文件中如有侵權(quán)或不適當內(nèi)容，請與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

深度學習：Transformers：位置編碼與嵌入層

文檔簡介

溫馨提示

最新文檔

評論

深度學習：Transformers：位置編碼與嵌入層

文檔簡介

溫馨提示

最新文檔

評論

相關(guān)文檔