文本摘要:Transformers在文本摘要中的應(yīng)用:2.深度學(xué)習(xí)基礎(chǔ)回顧_第1頁
文本摘要:Transformers在文本摘要中的應(yīng)用:2.深度學(xué)習(xí)基礎(chǔ)回顧_第2頁
文本摘要:Transformers在文本摘要中的應(yīng)用:2.深度學(xué)習(xí)基礎(chǔ)回顧_第3頁
文本摘要:Transformers在文本摘要中的應(yīng)用:2.深度學(xué)習(xí)基礎(chǔ)回顧_第4頁
文本摘要:Transformers在文本摘要中的應(yīng)用:2.深度學(xué)習(xí)基礎(chǔ)回顧_第5頁
已閱讀5頁,還剩9頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

文本摘要:Transformers在文本摘要中的應(yīng)用:2.深度學(xué)習(xí)基礎(chǔ)回顧1深度學(xué)習(xí)基礎(chǔ)概念1.1神經(jīng)網(wǎng)絡(luò)的基本結(jié)構(gòu)神經(jīng)網(wǎng)絡(luò)的基本結(jié)構(gòu)由輸入層、隱藏層和輸出層組成。每一層由多個(gè)神經(jīng)元(或稱節(jié)點(diǎn))構(gòu)成,神經(jīng)元之間通過權(quán)重連接。權(quán)重是神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)的關(guān)鍵參數(shù),通過調(diào)整權(quán)重,網(wǎng)絡(luò)可以學(xué)習(xí)到數(shù)據(jù)的內(nèi)在模式。1.1.1輸入層輸入層接收原始數(shù)據(jù),例如圖像像素值、文本向量或傳感器數(shù)據(jù)。1.1.2隱藏層隱藏層是神經(jīng)網(wǎng)絡(luò)的“大腦”,負(fù)責(zé)處理和學(xué)習(xí)輸入數(shù)據(jù)的復(fù)雜特征。每一層的神經(jīng)元通過加權(quán)和與激活函數(shù)計(jì)算輸出,傳遞給下一層。1.1.3輸出層輸出層給出神經(jīng)網(wǎng)絡(luò)的最終預(yù)測(cè),如分類結(jié)果或數(shù)值預(yù)測(cè)。1.2反向傳播算法詳解反向傳播算法是深度學(xué)習(xí)中用于訓(xùn)練神經(jīng)網(wǎng)絡(luò)的核心算法。它通過計(jì)算損失函數(shù)對(duì)權(quán)重的梯度,來調(diào)整權(quán)重,最小化預(yù)測(cè)與實(shí)際結(jié)果之間的差距。1.2.1損失函數(shù)損失函數(shù)衡量模型預(yù)測(cè)與實(shí)際值之間的差異,常見的損失函數(shù)有均方誤差(MSE)和交叉熵?fù)p失(Cross-EntropyLoss)。1.2.2梯度下降梯度下降是一種優(yōu)化算法,通過沿著損失函數(shù)的梯度方向調(diào)整權(quán)重,以找到損失函數(shù)的最小值。1.2.3反向傳播過程前向傳播:輸入數(shù)據(jù)通過網(wǎng)絡(luò),計(jì)算預(yù)測(cè)輸出。計(jì)算損失:使用損失函數(shù)計(jì)算預(yù)測(cè)輸出與實(shí)際輸出之間的差異。反向傳播:從輸出層開始,向后計(jì)算損失對(duì)每個(gè)權(quán)重的梯度。權(quán)重更新:使用梯度下降算法更新權(quán)重。1.2.4代碼示例importnumpyasnp

#假設(shè)有一個(gè)簡(jiǎn)單的神經(jīng)網(wǎng)絡(luò),只有一個(gè)隱藏層

#輸入層有2個(gè)神經(jīng)元,隱藏層有3個(gè)神經(jīng)元,輸出層有1個(gè)神經(jīng)元

input_data=np.array([1.0,2.0])

weights={'hidden':np.array([[0.1,0.2,0.3],[0.4,0.5,0.6]]),

'output':np.array([0.7,0.8,0.9])}

bias={'hidden':np.array([0.1,0.2,0.3]),

'output':np.array([0.1])}

#激活函數(shù)

defsigmoid(x):

return1/(1+np.exp(-x))

#前向傳播

hidden_layer_input=np.dot(input_data,weights['hidden'])+bias['hidden']

hidden_layer_output=sigmoid(hidden_layer_input)

output_layer_input=np.dot(hidden_layer_output,weights['output'])+bias['output']

output=sigmoid(output_layer_input)

#假設(shè)真實(shí)輸出為1.0

target=1.0

#計(jì)算損失

loss=(target-output)**2

#反向傳播計(jì)算梯度

output_error=(target-output)*output*(1-output)

hidden_error=output_error*weights['output']*hidden_layer_output*(1-hidden_layer_output)

#更新權(quán)重和偏置

learning_rate=0.1

weights['output']+=hidden_layer_output*output_error*learning_rate

weights['hidden']+=input_data[:,None]*hidden_error*learning_rate

bias['output']+=output_error*learning_rate

bias['hidden']+=hidden_error*learning_rate1.3深度學(xué)習(xí)中的優(yōu)化器優(yōu)化器用于更新神經(jīng)網(wǎng)絡(luò)的權(quán)重,以最小化損失函數(shù)。常見的優(yōu)化器有隨機(jī)梯度下降(SGD)、動(dòng)量(Momentum)、RMSprop和Adam。1.3.1Adam優(yōu)化器Adam(AdaptiveMomentEstimation)結(jié)合了動(dòng)量和RMSprop的優(yōu)點(diǎn),通過計(jì)算梯度的一階矩估計(jì)和二階矩估計(jì)來調(diào)整學(xué)習(xí)率。1.3.2代碼示例importnumpyasnp

#Adam優(yōu)化器的實(shí)現(xiàn)

classAdamOptimizer:

def__init__(self,learning_rate=0.001,beta1=0.9,beta2=0.999,epsilon=1e-8):

self.learning_rate=learning_rate

self.beta1=beta1

self.beta2=beta2

self.epsilon=epsilon

self.t=0

self.m=None

self.v=None

defupdate(self,weights,gradients):

ifself.misNoneorself.visNone:

self.m=np.zeros_like(weights)

self.v=np.zeros_like(weights)

self.t+=1

self.m=self.beta1*self.m+(1-self.beta1)*gradients

self.v=self.beta2*self.v+(1-self.beta2)*gradients**2

m_hat=self.m/(1-self.beta1**self.t)

v_hat=self.v/(1-self.beta2**self.t)

weights+=-self.learning_rate*m_hat/(np.sqrt(v_hat)+self.epsilon)

returnweights

#使用Adam優(yōu)化器更新權(quán)重

optimizer=AdamOptimizer()

weights=np.array([0.1,0.2,0.3])

gradients=np.array([0.01,0.02,0.03])

weights=optimizer.update(weights,gradients)1.4深度學(xué)習(xí)框架簡(jiǎn)介深度學(xué)習(xí)框架提供了構(gòu)建和訓(xùn)練神經(jīng)網(wǎng)絡(luò)的工具,簡(jiǎn)化了深度學(xué)習(xí)的開發(fā)過程。常見的深度學(xué)習(xí)框架有TensorFlow、PyTorch和Keras。1.4.1TensorFlowTensorFlow是Google開發(fā)的開源框架,支持靜態(tài)圖和動(dòng)態(tài)圖,廣泛應(yīng)用于研究和生產(chǎn)環(huán)境。1.4.2PyTorchPyTorch由Facebook的AI研究團(tuán)隊(duì)開發(fā),以動(dòng)態(tài)圖和易于使用的API著稱,特別適合研究和快速原型開發(fā)。1.4.3KerasKeras是一個(gè)高級(jí)神經(jīng)網(wǎng)絡(luò)API,可以作為TensorFlow或Theano的前端,提供用戶友好的接口和模塊化設(shè)計(jì)。1.4.4代碼示例(使用TensorFlow)importtensorflowastf

#創(chuàng)建一個(gè)簡(jiǎn)單的神經(jīng)網(wǎng)絡(luò)模型

model=tf.keras.models.Sequential([

tf.keras.layers.Dense(32,activation='relu',input_shape=(784,)),

tf.keras.layers.Dense(10,activation='softmax')

])

#編譯模型

pile(optimizer='adam',

loss='sparse_categorical_crossentropy',

metrics=['accuracy'])

#加載數(shù)據(jù)

(x_train,y_train),(x_test,y_test)=tf.keras.datasets.mnist.load_data()

x_train,x_test=x_train/255.0,x_test/255.0

#訓(xùn)練模型

model.fit(x_train,y_train,epochs=5)

#評(píng)估模型

model.evaluate(x_test,y_test)以上內(nèi)容詳細(xì)介紹了深度學(xué)習(xí)的基礎(chǔ)概念,包括神經(jīng)網(wǎng)絡(luò)的基本結(jié)構(gòu)、反向傳播算法以及深度學(xué)習(xí)框架的使用。通過代碼示例,我們展示了如何在Python中實(shí)現(xiàn)這些概念,為深入學(xué)習(xí)深度學(xué)習(xí)和其在文本摘要中的應(yīng)用打下堅(jiān)實(shí)的基礎(chǔ)。2Transformer模型核心原理2.1自注意力機(jī)制解析自注意力機(jī)制(Self-AttentionMechanism)是Transformer模型的關(guān)鍵創(chuàng)新之一,它允許模型在處理序列數(shù)據(jù)時(shí),關(guān)注輸入序列中不同位置的元素,從而更好地理解上下文關(guān)系。自注意力機(jī)制通過計(jì)算序列中每個(gè)位置的權(quán)重,這些權(quán)重反映了序列中不同元素之間的相關(guān)性,進(jìn)而對(duì)序列進(jìn)行加權(quán)求和,得到每個(gè)位置的輸出表示。2.1.1自注意力機(jī)制的計(jì)算過程自注意力機(jī)制的計(jì)算可以分為以下幾個(gè)步驟:生成查詢、鍵和值向量:對(duì)于輸入序列中的每個(gè)元素,通過不同的線性變換生成查詢向量(Q)、鍵向量(K)和值向量(V)。計(jì)算注意力權(quán)重:通過計(jì)算查詢向量和鍵向量之間的點(diǎn)積,然后對(duì)結(jié)果進(jìn)行縮放,最后通過softmax函數(shù)得到注意力權(quán)重。加權(quán)求和:將注意力權(quán)重與值向量相乘,然后對(duì)所有元素進(jìn)行求和,得到加權(quán)后的表示。2.1.2代碼示例importtorch

importtorch.nnasnn

classSelfAttention(nn.Module):

def__init__(self,embed_size,heads):

super(SelfAttention,self).__init__()

self.embed_size=embed_size

self.heads=heads

self.head_dim=embed_size//heads

assert(self.head_dim*heads==embed_size),"Embedsizeneedstobedivisiblebyheads"

self.values=nn.Linear(self.head_dim,self.head_dim,bias=False)

self.keys=nn.Linear(self.head_dim,self.head_dim,bias=False)

self.queries=nn.Linear(self.head_dim,self.head_dim,bias=False)

self.fc_out=nn.Linear(heads*self.head_dim,embed_size)

defforward(self,values,keys,query,mask):

N=query.shape[0]

value_len,key_len,query_len=values.shape[1],keys.shape[1],query.shape[1]

#Splittheembeddingintoself.headsdifferentpieces

values=values.reshape(N,value_len,self.heads,self.head_dim)

keys=keys.reshape(N,key_len,self.heads,self.head_dim)

queries=query.reshape(N,query_len,self.heads,self.head_dim)

energy=torch.einsum("nqhd,nkhd->nhqk",[queries,keys])

#queriesshape:(N,query_len,heads,heads_dim),

#keysshape:(N,key_len,heads,heads_dim)

#energy:(N,heads,query_len,key_len)

ifmaskisnotNone:

energy=energy.masked_fill(mask==0,float("-1e20"))

attention=torch.softmax(energy/(self.embed_size**(1/2)),dim=3)

out=torch.einsum("nhql,nlhd->nqhd",[attention,values]).reshape(

N,query_len,self.heads*self.head_dim

)

#attentionshape:(N,heads,query_len,key_len)

#valuesshape:(N,value_len,heads,heads_dim)

#(N,query_len,heads,head_dim)->(N,query_len,embed_size)

out=self.fc_out(out)

returnout2.2Transformer架構(gòu)詳解Transformer模型由編碼器和解碼器兩部分組成,每一部分都包含多個(gè)相同的層。編碼器負(fù)責(zé)處理輸入序列,而解碼器則負(fù)責(zé)生成輸出序列。在編碼器和解碼器之間,通過多頭自注意力機(jī)制進(jìn)行信息傳遞。2.2.1編碼器與解碼器的結(jié)構(gòu)編碼器:由多層相同的編碼器層組成,每一層包含多頭自注意力機(jī)制和前饋神經(jīng)網(wǎng)絡(luò),以及殘差連接和層歸一化。解碼器:由多層相同的解碼器層組成,每一層包含多頭自注意力機(jī)制、多頭編碼器-解碼器注意力機(jī)制和前饋神經(jīng)網(wǎng)絡(luò),同樣包含殘差連接和層歸一化。2.2.2代碼示例classEncoderLayer(nn.Module):

def__init__(self,embed_size,heads,dropout,forward_expansion):

super(EncoderLayer,self).__init__()

self.attention=SelfAttention(embed_size,heads)

self.norm1=nn.LayerNorm(embed_size)

self.norm2=nn.LayerNorm(embed_size)

self.feed_forward=nn.Sequential(

nn.Linear(embed_size,forward_expansion*embed_size),

nn.ReLU(),

nn.Linear(forward_expansion*embed_size,embed_size),

)

self.dropout=nn.Dropout(dropout)

defforward(self,x,mask):

attention=self.attention(x,x,x,mask)

#Addandnorm

x=self.dropout(self.norm1(attention+x))

forward=self.feed_forward(x)

out=self.dropout(self.norm2(forward+x))

returnout

classDecoderLayer(nn.Module):

def__init__(self,embed_size,heads,forward_expansion,dropout,device):

super(DecoderLayer,self).__init__()

self.attention=SelfAttention(embed_size,heads)

self.norm=nn.LayerNorm(embed_size)

self.transformer_block=TransformerBlock(

embed_size,heads,dropout,forward_expansion

)

self.dropout=nn.Dropout(dropout)

defforward(self,x,value,key,src_mask,trg_mask):

attention=self.attention(x,x,x,trg_mask)

#Addandnorm

query=self.dropout(self.norm(attention+x))

out=self.transformer_block(value,key,query,src_mask)

returnout2.3編碼器與解碼器工作原理2.3.1編碼器工作原理編碼器接收輸入序列,通過多頭自注意力機(jī)制處理序列中的元素,捕捉不同位置之間的依賴關(guān)系。每個(gè)編碼器層的輸出作為下一個(gè)層的輸入,最終的輸出將作為解碼器的輸入。2.3.2解碼器工作原理解碼器在生成輸出序列時(shí),不僅使用自注意力機(jī)制處理輸出序列中的元素,還通過編碼器-解碼器注意力機(jī)制利用編碼器的輸出,以更好地生成目標(biāo)序列。解碼器的輸出經(jīng)過線性變換和softmax函數(shù),得到每個(gè)位置的預(yù)測(cè)概率分布。2.4位置編碼的重要性在處理序列數(shù)據(jù)時(shí),模型需要理解序列中元素的相對(duì)位置。位置編碼(PositionalEncoding)被添加到輸入序列的嵌入向量中,以提供位置信息。在Transformer模型中,位置編碼使用正弦和余弦函數(shù)生成,確保模型能夠?qū)W習(xí)到序列中元素的相對(duì)位置,而不僅僅是絕對(duì)位置。2.4.1位置編碼的計(jì)算位置編碼的計(jì)算公式如下:PP其中,pos是位置,i是維度,2.4.2代碼示例classPositionalEncoding(nn.Module):

def__init__(self,d_model,max_len=5000):

super(PositionalEncoding,self).__init__()

pe=torch.zeros(max_len,d_model)

position=torch.arange(0,max_len,dtype=torch.float).unsqueeze(1)

div_term=torch.exp(torch.arange(0,d_model,2).float()*(-math.log(10000.0)/d_model))

pe[:,0::2]=torch.sin(position*div_term)

pe[:,1::2]=torch.cos(position*div_term)

pe=pe.unsqueeze(0).transpose(0,1)

self.register_buffer('pe',pe)

defforward(self,x):

x=x+self.pe[:x.size(0),:]

returnx通過以上內(nèi)容,我們深入理解了Transformer模型的核心原理,包括自注意力機(jī)制、模型架構(gòu)以及位置編碼的重要性。這些原理是Transformer在文本摘要等自然語言處理任務(wù)中取得優(yōu)異性能的基礎(chǔ)。3文本摘要技術(shù)概覽3.1文本摘要的類型:抽取式與生成式文本摘要技術(shù)主要分為兩類:抽取式(Extractive)和生成式(Abstractive)。3.1.1抽取式摘要抽取式摘要技術(shù)基于統(tǒng)計(jì)或機(jī)器學(xué)習(xí)方法,從原始文本中直接抽取關(guān)鍵句子或片段,形成摘要。這種方法保留了原文的語義,但可能無法生成連貫的新句子。示例代碼:基于TF-IDF的抽取式摘要fromsklearn.feature_extraction.textimportTfidfVectorizer

fromnltk.corpusimportstopwords

fromheapqimportnlargest

defextractive_summary(text,top_n=5):

"""

使用TF-IDF算法生成抽取式摘要。

參數(shù):

text(str):需要摘要的文本。

top_n(int):選擇的最高TF-IDF值的句子數(shù)量。

返回:

str:生成的摘要。

"""

#分句

sentences=text.split('.')

#去除停用詞

stop_words=set(stopwords.words('english'))

#計(jì)算TF-IDF

vectorizer=TfidfVectorizer(stop_words=stop_words)

X=vectorizer.fit_transform(sentences)

#獲取句子重要性

sentence_scores=X.toarray().sum(axis=1)

#選擇最高得分的句子

top_sentences=nlargest(top_n,range(len(sentences)),sentence_scores.take)

#生成摘要

summary='.'.join([sentences[i]foriinsorted(top_sentences)])

returnsummary

#示例文本

text="TheTransformermodelwasintroducedinthepaper'AttentionisAllYouNeed'.IthasrevolutionizedthefieldofNaturalLanguageProcessing(NLP).Themodelisbasedontheself-attentionmechanism,whichallowsittoweightheimportanceofdifferentwordsinasentence.ThishasledtosignificantimprovementsinvariousNLPtasks,includingtextsummarization."

#生成摘要

summary=extractive_summary(text)

print(summary)3.1.2生成式摘要生成式摘要技術(shù)則通過理解文本的深層語義,生成新的、連貫的句子,以概括原文。這種方法更接近人類的摘要方式,但實(shí)現(xiàn)難度較高。3.2評(píng)價(jià)文本摘要質(zhì)量的指標(biāo)評(píng)價(jià)文本摘要的質(zhì)量通常涉及以下幾個(gè)指標(biāo):ROUGE(Recall-OrientedUnderstudyforGistingEvaluation):衡量摘要與參考摘要之間的重疊程度,包括ROUGE-N、ROUGE-L等。BLEU(BilingualEvaluationUnderstudy):用于評(píng)估機(jī)器翻譯和生成式摘要的指標(biāo),基于n-gram的精確匹配。METEOR(MetricforEvaluationofTranslationwithExplicitORdering):考慮詞序和同義詞的匹配,提供更全面的評(píng)估。3.3文本摘要中的挑戰(zhàn)與解決方案3.3.1挑戰(zhàn)信息丟失:摘要可能無法完全捕捉原文的關(guān)鍵信息。連貫性:生成的摘要可能在語法或邏輯上不連貫。多樣性:摘要可能重復(fù)原文中的信息,缺乏多樣性。3.3.2解決方案信息丟失:使用更復(fù)雜的模型,如Transformer,來理解文本的深層語義。連貫性:引入語義連貫性約束,或使用端到端的生成模型。多樣性:在生成摘要時(shí),采用多樣性的采樣策略,如top-k采樣或溫度調(diào)整。3.4Transformers在文本摘要中的優(yōu)勢(shì)Transformers模型,尤其是基于自注意力機(jī)制的架構(gòu),為文本摘要帶來了顯著優(yōu)勢(shì):并行處理:自注意力機(jī)制允許模型并行處理輸入序列,加速訓(xùn)練和推理過程。長(zhǎng)距離依賴:自注意力機(jī)制能夠捕捉文本中的長(zhǎng)距離依賴關(guān)系,這對(duì)于理解文本結(jié)構(gòu)和生成連貫摘要至關(guān)重要。預(yù)訓(xùn)練:通過在大規(guī)模語料庫上進(jìn)行預(yù)訓(xùn)練,Transformers能夠?qū)W習(xí)到豐富的語言表示,進(jìn)一步提升摘要的準(zhǔn)確性和流暢度。3.4.1示例代碼:使用HuggingFace的Transformers庫進(jìn)行生成式摘要fromtransformersimportpipeline

#初始化摘要生成器

summarizer=pipeline("summarization")

#示例文本

text="TheTransformermodelwasintroducedinthepaper'AttentionisAllYouNeed'.IthasrevolutionizedthefieldofNaturalLanguageProcessing(NLP).Themodelisbasedontheself-attentionmechanism,whichallowsittoweightheimportanceofdifferentwordsinasentence.ThishasledtosignificantimprovementsinvariousNLPtasks,includingtextsummarization."

#生成摘要

summary=summarizer(text,max_length=100,min_length=30,do_sample=False)

print(summary[0]['summary_text'])以上代碼使用了HuggingFace的Transformers庫,該庫提供了預(yù)訓(xùn)練的模型,可以輕松地進(jìn)行文本摘要任務(wù)。通過調(diào)整max_length和min_length參數(shù),可以控制生成摘要的長(zhǎng)度。do_sample=False表示使用貪婪策略生成摘要,以獲得最可能的下一個(gè)詞。通過上述代碼示例,我們可以看到,Transformers模型在文本摘要任務(wù)中,不僅能夠快速生成摘要,還能保持較高的連貫性和信息完整性,這得益于其強(qiáng)大的語言理解和生成能力。4實(shí)踐案例與代碼實(shí)現(xiàn)4.1使用Transformers進(jìn)行文本摘要的步驟在文本摘要任務(wù)中應(yīng)用Transformers,主要步驟包括數(shù)據(jù)預(yù)處理、模型選擇與配置、訓(xùn)練與調(diào)優(yōu)、以及結(jié)果評(píng)估。下面,我們將通過一個(gè)具體的例子來詳細(xì)說明這些步驟。4.1.1數(shù)據(jù)預(yù)處理數(shù)據(jù)預(yù)處理是文本摘要任務(wù)中的關(guān)鍵步驟,它包括文本清洗、分詞、以及將文本轉(zhuǎn)換為模型可以理解的格式。例如,使用HuggingFace的transformers庫,我們可以將文本轉(zhuǎn)換為適合BERT模型的輸入格式。fromtransformersimportBertTokenizer

#初始化BERT的分詞器

tokenizer=BertTokenizer.from_pretrained('bert-base-uncased')

#示例文本

text="Transformershaverevolutionizedthefieldofnaturallanguageprocessing.Theyareparticularlyeffectiveintaskssuchastextsummarization,whereunderstandingcontextandgeneratingcoherentsummariesarecrucial."

#分詞并轉(zhuǎn)換為模型輸入

inputs=tokenizer(text,return_tensors="pt",padding=True,truncation=True)4.1.2模型選擇與配置選擇一個(gè)適合文本摘要任務(wù)的Transformer模型,如T5或BART,并進(jìn)行必要的配置。這些模型通常在大規(guī)模語料庫上預(yù)訓(xùn)練,可以進(jìn)行微調(diào)以適應(yīng)特定任務(wù)。fromtransformersimportT5ForConditionalGeneration

#初始化T5模型

model=T5ForConditionalGeneration.from_pretrained('t5-small')

#配置模型參數(shù)

model.config.max_length=50

model.config.num_beams=44.1.3訓(xùn)練與調(diào)優(yōu)技巧訓(xùn)練Transformer模型進(jìn)行文本摘要,需要準(zhǔn)備摘要數(shù)據(jù)集,如CNN/DM數(shù)據(jù)集,并使用適當(dāng)?shù)膿p失函數(shù)和優(yōu)化器。調(diào)優(yōu)技巧包括學(xué)習(xí)率調(diào)整、批量大小優(yōu)化、以及使用早停策略。fromtransformersimportSeq2SeqTraini

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論