《人工智能技術(shù)基礎(chǔ)》思考與練習(xí)題答案 王科俊 -第1-6章_第1頁(yè)
《人工智能技術(shù)基礎(chǔ)》思考與練習(xí)題答案 王科俊 -第1-6章_第2頁(yè)
《人工智能技術(shù)基礎(chǔ)》思考與練習(xí)題答案 王科俊 -第1-6章_第3頁(yè)
《人工智能技術(shù)基礎(chǔ)》思考與練習(xí)題答案 王科俊 -第1-6章_第4頁(yè)
《人工智能技術(shù)基礎(chǔ)》思考與練習(xí)題答案 王科俊 -第1-6章_第5頁(yè)
已閱讀5頁(yè),還剩5頁(yè)未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

思考與練習(xí)題答案第1章什么是人工智能?試從學(xué)科和能力兩方面加以考慮。答:人工智能是研究用計(jì)算機(jī)對(duì)人類的智能進(jìn)行模擬和擴(kuò)展的一門技術(shù)科學(xué),其目的是讓機(jī)器能用與人類相似的智能對(duì)信息進(jìn)行處理和加工。在人工智能的發(fā)展過程中,有哪些思想起了重要作用?答:(1)模擬人的邏輯思維能力,(2)模擬人的大腦結(jié)構(gòu),(3)模擬人的行為能力。人工智能研究包括哪些內(nèi)容?這些內(nèi)容的重要性如何?答:(1)人工神經(jīng)網(wǎng)絡(luò),簡(jiǎn)單模擬生物神經(jīng)網(wǎng)絡(luò),構(gòu)造人工智能模型的基礎(chǔ);(2)知識(shí)圖譜,用圖模型表示知識(shí)、實(shí)現(xiàn)知識(shí)推理的技術(shù),是構(gòu)建邏輯思維的基礎(chǔ)結(jié)構(gòu);(3)圖神經(jīng)網(wǎng)絡(luò),圖和神經(jīng)網(wǎng)絡(luò)相結(jié)合的產(chǎn)物,融合形象思維和邏輯思維的橋梁;(4)機(jī)器學(xué)習(xí)方法,確定模型參數(shù)的方法,實(shí)現(xiàn)模型優(yōu)化的核心技術(shù)。第2章什么是神經(jīng)網(wǎng)絡(luò)?請(qǐng)寫出神經(jīng)網(wǎng)絡(luò)的基本結(jié)構(gòu)。答:人工神經(jīng)網(wǎng)絡(luò)是由大量人工神經(jīng)元按一定規(guī)則連接構(gòu)建成的網(wǎng)絡(luò)結(jié)構(gòu),是一種模仿生物神經(jīng)網(wǎng)絡(luò)行為特征具有分布式并行信息處理能力的數(shù)學(xué)模型。人工神經(jīng)網(wǎng)絡(luò)有三種基本結(jié)構(gòu):(1)前饋型網(wǎng)絡(luò):?jiǎn)蜗蚨鄬泳W(wǎng)絡(luò)結(jié)構(gòu),其中每一層包含若干個(gè)人工神經(jīng)元,同一層的人工神經(jīng)元之間沒有互相連接,層間信息的傳送只沿一個(gè)方向進(jìn)行。(2)反饋型網(wǎng)絡(luò):網(wǎng)絡(luò)中的人工神經(jīng)元不僅可以接受其它人工神經(jīng)元的信號(hào),同時(shí)也將自身的輸出信號(hào)作為輸入信號(hào)。(3)自組織神經(jīng)網(wǎng)絡(luò):通過自動(dòng)尋找輸入信息中的內(nèi)在規(guī)律和本質(zhì)屬性,自組織、自適應(yīng)地改變網(wǎng)絡(luò)參數(shù)與結(jié)構(gòu)的人工神經(jīng)網(wǎng)絡(luò)。自組織網(wǎng)絡(luò)中的節(jié)點(diǎn)與其鄰域內(nèi)其他節(jié)點(diǎn)廣泛相連,并互相激勵(lì),具備自主學(xué)習(xí)能力。計(jì)算ReLU函數(shù)的導(dǎo)數(shù),說(shuō)明ReLU函數(shù)的死亡問題。答:ReLU函數(shù)在x取值為負(fù)的情況下,函數(shù)輸出值為0,在其它情況下為線性函數(shù),因此,其導(dǎo)數(shù)僅在X為正時(shí)存在等于1。但由于ReLU函數(shù)使得所有小于0的輸入信號(hào)都等于0,這使得更新參數(shù)之后,會(huì)出現(xiàn)參數(shù)無(wú)法繼續(xù)更新的情況,即存在ReLU函數(shù)死亡問題。編寫計(jì)算機(jī)程序,分別使用梯度下降法,隨機(jī)梯度下降法比較試驗(yàn)結(jié)果。答:可以自己選擇任意可微函數(shù),使用任何計(jì)算機(jī)語(yǔ)言,例如Mtalab,Python,編程實(shí)現(xiàn)兩種梯度下降法,對(duì)比實(shí)驗(yàn)結(jié)果。為什么使用反向傳播算法進(jìn)行參數(shù)更新時(shí),不直接初始化為0?答:由于反向傳播算法是基于梯度下降的遞推優(yōu)化算法,梯度與參數(shù)直接相關(guān),如果將參數(shù)初始化為零,那么將導(dǎo)致梯度為零,進(jìn)而使參數(shù)無(wú)法更新,因此參數(shù)不能直接初始化為0。試述反向傳播的基本學(xué)習(xí)算法。答:反向傳播算法包含兩個(gè)過程,輸入信息沿著神經(jīng)網(wǎng)絡(luò)從前向后正向傳播,計(jì)算損失函數(shù);然后利用損失函數(shù)計(jì)算廣義誤差并從神經(jīng)網(wǎng)絡(luò)從后向前反向傳播,進(jìn)而利用廣義誤差進(jìn)行神經(jīng)網(wǎng)絡(luò)參數(shù)更新。編寫計(jì)算機(jī)程序,用動(dòng)量法實(shí)現(xiàn)兩層神經(jīng)網(wǎng)絡(luò)對(duì)MNIST手寫數(shù)據(jù)集的識(shí)別。答:可以使用任何計(jì)算機(jī)語(yǔ)言,例如Mtalab,Python,編程實(shí)現(xiàn)。注意這里的兩層神經(jīng)網(wǎng)絡(luò)指的是含有一個(gè)隱層的前向神經(jīng)網(wǎng)絡(luò)。第3章什么是卷積操作?說(shuō)明步長(zhǎng)、填充分別指的是什么。答:利用卷積核對(duì)輸入圖像做卷積運(yùn)算,以檢測(cè)輸入圖片的局部特征。步長(zhǎng)即卷積核在原始圖片上做卷積時(shí)每次滑動(dòng)的像素點(diǎn)。填充指對(duì)輸入特征圖進(jìn)行邊界填充,保證卷積運(yùn)算后得到需要大小的特征圖。什么是池化操作?說(shuō)明池化操作的種類和作用有哪些。答:池化操作用于改變的是圖像的尺寸,最大值池化提取池化區(qū)域的最有效特征,平均池化提取池化區(qū)域的平均特征。步長(zhǎng)指池化操作的特征圖上的滑動(dòng)距離。填充用于上采樣(反向池化)在相應(yīng)區(qū)域填零。試述LeNet-5、Alex-Net、VGG-Net的網(wǎng)絡(luò)結(jié)構(gòu)。答:參照書中給出的網(wǎng)絡(luò)結(jié)構(gòu)圖進(jìn)行描述。試述Inception、ResNet、SE-Net相對(duì)于VGG-Net的異同點(diǎn)。答:參照書中給出的網(wǎng)絡(luò)結(jié)構(gòu)圖進(jìn)行描述。試用編程實(shí)現(xiàn)Inception、ResNet、SE-ResNet等網(wǎng)絡(luò)模型,并對(duì)比分析實(shí)驗(yàn)結(jié)果。答:可以使用任何計(jì)算機(jī)語(yǔ)言,例如Mtalab,Python,在相應(yīng)的環(huán)境下編程實(shí)現(xiàn)。第4章什么是循環(huán)神經(jīng)網(wǎng)絡(luò)?為什么要使用循環(huán)神經(jīng)網(wǎng)絡(luò)?簡(jiǎn)要說(shuō)明其原理。答:循環(huán)神經(jīng)網(wǎng)絡(luò)(RecurrentNeuralNetwork,RNN)是一類處理序列數(shù)據(jù)的人工神經(jīng)網(wǎng)絡(luò)。相較于卷積神經(jīng)網(wǎng)絡(luò)關(guān)注的是數(shù)據(jù)中的局部特征,循環(huán)神經(jīng)網(wǎng)絡(luò)關(guān)注的是序列數(shù)據(jù)中按照序列順序的前后依賴關(guān)系。它將先前數(shù)據(jù)的計(jì)算結(jié)果與之后的數(shù)據(jù)一同計(jì)算產(chǎn)生新的結(jié)果,如此循環(huán)往復(fù)。正是因?yàn)檠h(huán)網(wǎng)絡(luò)對(duì)于不同時(shí)間步的數(shù)據(jù)不是同時(shí)計(jì)算的,因而可以處理可變長(zhǎng)度的序列數(shù)據(jù),大大擴(kuò)大了應(yīng)用范圍。2.對(duì)于一個(gè)單層且時(shí)間步為3的循環(huán)神經(jīng)網(wǎng)絡(luò),請(qǐng)寫出進(jìn)行第一次前向傳播的過程。答:?jiǎn)螌覴NN的網(wǎng)絡(luò)方程如下,對(duì)于t時(shí)刻:h(t)其中φ為激活函數(shù),一般來(lái)說(shuō)會(huì)選擇tanh函數(shù),b為偏置;x(t)輸出層輸出為:y(t)其中φ為激活函數(shù),通常RNN用于分類任務(wù),故這里一般用Softmax函數(shù)。第一次前向傳播過程如下:由于初始時(shí)刻,h(故第一次前向傳播隱層輸出為:h輸出層輸出為:y3.請(qǐng)思考對(duì)于詩(shī)歌等文本生成任務(wù)可以采用哪種網(wǎng)絡(luò)結(jié)構(gòu),并簡(jiǎn)述訓(xùn)練流程。答:由于詩(shī)歌等文本生成問題均需對(duì)輸入的作詩(shī)的要求進(jìn)行理解,而這些要求是有前后順序的序列數(shù)據(jù),因此必須采用有處理序列數(shù)據(jù)能力的RNN或Transformer為基礎(chǔ)的網(wǎng)絡(luò)結(jié)構(gòu)。這類網(wǎng)絡(luò)結(jié)構(gòu)的訓(xùn)練同樣采用有教師的誤差方向傳播算法進(jìn)行,其訓(xùn)練流程包括正向傳播輸入數(shù)據(jù),反向傳播廣義誤差,進(jìn)而實(shí)現(xiàn)網(wǎng)絡(luò)權(quán)值的更新三個(gè)過程。4.簡(jiǎn)述循環(huán)神經(jīng)網(wǎng)絡(luò)前向傳播和反向傳播的過程。答:由于循環(huán)神經(jīng)網(wǎng)絡(luò)可以按時(shí)間展開成前向神經(jīng)網(wǎng)絡(luò),因此它也可以使用誤差反向傳播算法進(jìn)行訓(xùn)練,也包含前向傳播和反向傳播兩個(gè)過程,需要注意的是RNN中的權(quán)僅包含輸入權(quán)、反饋權(quán)和輸出權(quán)三種,且在層之間是不變的。前向傳播的過程是從輸入層開始,通過網(wǎng)絡(luò)的每一層,直到輸出層(這里的層是按時(shí)間展開的RNN的層)。在前向傳播過程中,輸入數(shù)據(jù)通過網(wǎng)絡(luò)的每一層進(jìn)行計(jì)算,最終得到輸出結(jié)果。這個(gè)過程是計(jì)算網(wǎng)絡(luò)對(duì)輸入數(shù)據(jù)的預(yù)測(cè)結(jié)果。反向傳播的過程是在前向傳播的基礎(chǔ)上進(jìn)行的。在反向傳播過程中,首先計(jì)算損失函數(shù)對(duì)輸出結(jié)果的梯度,然后將這個(gè)梯度通過網(wǎng)絡(luò)的每一層反向傳播回輸入層。這個(gè)過程是計(jì)算網(wǎng)絡(luò)參數(shù)的更新量,以使得網(wǎng)絡(luò)的預(yù)測(cè)結(jié)果更加接近于真實(shí)結(jié)果。在前向傳播和反向傳播的過程中,需要注意權(quán)重的更新和梯度的計(jì)算。權(quán)重的更新是根據(jù)梯度的方向和大小進(jìn)行的,而梯度的計(jì)算是根據(jù)損失函數(shù)對(duì)輸出結(jié)果的偏導(dǎo)數(shù)進(jìn)行的。因此,在進(jìn)行反向傳播時(shí),需要計(jì)算損失函數(shù)對(duì)輸出結(jié)果的偏導(dǎo)數(shù),然后通過鏈?zhǔn)椒▌t計(jì)算每一層神經(jīng)元的梯度,最后根據(jù)梯度更新每一層的權(quán)重。通過前向傳播和反向傳播的反復(fù)迭代,網(wǎng)絡(luò)的權(quán)重會(huì)不斷更新,使得網(wǎng)絡(luò)的預(yù)測(cè)結(jié)果更加接近于真實(shí)結(jié)果。最終,當(dāng)網(wǎng)絡(luò)的損失函數(shù)達(dá)到一個(gè)較小的值或者不再明顯下降時(shí),可以認(rèn)為網(wǎng)絡(luò)已經(jīng)訓(xùn)練好了。5.簡(jiǎn)述什么是“梯度消失”和“梯度爆炸”,如何處理循環(huán)神經(jīng)網(wǎng)絡(luò)中出現(xiàn)的“梯度消失”和“梯度爆炸”問題?答:在神經(jīng)網(wǎng)絡(luò)的訓(xùn)練過程中廣義誤差趨于零的現(xiàn)象稱“梯度消失”,趨于無(wú)窮則稱為“梯度爆炸”。在循環(huán)神經(jīng)網(wǎng)絡(luò)中可以采用ReLU函數(shù)作為神經(jīng)元的的激活函數(shù)解決“梯度消失”問題,但ReLU函數(shù)的導(dǎo)數(shù)在其輸入大于零時(shí)恒為1這又會(huì)導(dǎo)致“梯度爆炸”現(xiàn)象出現(xiàn),這可以設(shè)置廣義誤差的最大值或采用逐層正則化(按時(shí)間步展開的虛擬層)來(lái)解決。簡(jiǎn)述LSTM網(wǎng)絡(luò)的結(jié)構(gòu)原理。答:LSTM是RNN的改進(jìn),通過增加隱層細(xì)胞狀態(tài)變量和門控機(jī)制提高網(wǎng)絡(luò)隱層的存儲(chǔ)容量,精妙的門控制將隱層的狀態(tài)信息(可以看做長(zhǎng)期記憶)和當(dāng)前時(shí)刻的輸入信息(可以看作短期記憶)結(jié)合起來(lái),有效地提高了網(wǎng)絡(luò)解決復(fù)雜問題的能力。LSTM網(wǎng)絡(luò)結(jié)構(gòu)中,遺忘門控制隱層狀態(tài)的遺忘程度,輸入門控制網(wǎng)絡(luò)輸入對(duì)隱層狀態(tài)影響,輸出門控制隱層狀態(tài)對(duì)隱層輸出的影響。細(xì)胞狀態(tài)和三個(gè)門使網(wǎng)絡(luò)增加了6個(gè)權(quán)值矩陣,大大擴(kuò)展了RNN的存儲(chǔ)能力。簡(jiǎn)述LSTM網(wǎng)絡(luò)與GRU網(wǎng)絡(luò)的區(qū)別。答:LSTM網(wǎng)絡(luò)的隱層有細(xì)胞狀態(tài)變量和隱層輸出,需要6個(gè)方程描述其工作過程。GRU將LSTM的細(xì)胞狀態(tài)與隱層輸出合并,僅需4個(gè)方程描述其工作過程。由于GRU沒有細(xì)胞狀態(tài),其記憶能力比LSTM有所下降(權(quán)矩陣少了2個(gè))。第5章什么是注意力機(jī)制?簡(jiǎn)要說(shuō)明其原理和工作過程。答:注意力機(jī)制(AttentionMechanism)是人類所特有的大腦信號(hào)處理機(jī)制。例如,人類視覺通過快速掃描全局圖像,獲得需要重點(diǎn)關(guān)注的目標(biāo)區(qū)域,也就是一般所說(shuō)的注意力焦點(diǎn),而后對(duì)這一區(qū)域投入更多注意力資源,獲取更多所需要關(guān)注目標(biāo)的細(xì)節(jié)信息,抑制其他無(wú)用信息,人類的聽覺也具有同樣的功能。深度神經(jīng)網(wǎng)絡(luò)中采用的注意力機(jī)制從本質(zhì)上講和人類的選擇性視覺、聽覺注意力機(jī)制類似,其核心目的也是從眾多信息中選擇出對(duì)當(dāng)前任務(wù)更關(guān)鍵的信息,降低對(duì)其它信息的關(guān)注度,提高任務(wù)處理的效率和準(zhǔn)確性。深度神經(jīng)網(wǎng)絡(luò)中使用的注意力機(jī)制有兩類:硬注意力(HardAttention)軟注意力(SoftAttention)。硬注意力機(jī)制的原理和工作過程是通過技術(shù)手段(例如,檢測(cè)和分割)選擇輸入中特定位置上的信息(例如,人的身體,人臉等),屏蔽掉其它信息,進(jìn)利用選定的信息完成特定的任務(wù)。通常硬注意力的操作是不可微的,很難在深度神經(jīng)網(wǎng)絡(luò)中通過訓(xùn)練來(lái)得到,因此實(shí)際應(yīng)用并不多。軟注意力機(jī)制不同于硬注意力它不是從N個(gè)信息中只選擇某幾個(gè),而是計(jì)算N個(gè)信息的加權(quán)平均。其原理和工作過程是首先對(duì)輸入信息做非線性變換作為相似度或計(jì)算詢問信息(來(lái)自于輸出或輸入)與輸入的相似度,然后將相似度做歸一化處理作為加權(quán)值,最后對(duì)輸入信息做加權(quán)處理作為注意力輸出。軟注意力是可微的,可以通過神經(jīng)網(wǎng)絡(luò)算出梯度并且利用前向傳播和反向傳播來(lái)學(xué)習(xí)得到注意力的權(quán)重。軟注意力是確定性的注意力,訓(xùn)練完成后直接可以通過網(wǎng)絡(luò)生成。軟注意力還可以細(xì)分為通道注意力、空間注意力、時(shí)間注意力;自注意力和互注意力等。請(qǐng)說(shuō)明為什么在卷積神經(jīng)網(wǎng)絡(luò)中要應(yīng)用通道注意力和空間注意力。答:在卷積神經(jīng)網(wǎng)絡(luò)中,特征圖代表了原始圖像數(shù)據(jù)的特征,在同一層中,不同的特征圖代表了不同的屬性。顯然,不同屬性對(duì)于卷積神經(jīng)網(wǎng)絡(luò)要完成的工作貢獻(xiàn)程度不同,應(yīng)該給予不同的重視程度。因此要在卷積神經(jīng)網(wǎng)絡(luò)中應(yīng)用通道注意力以反映對(duì)通道重視程度。卷積神經(jīng)網(wǎng)絡(luò)處理圖像數(shù)據(jù)中的每個(gè)像素對(duì)于所要完成的任務(wù)重要性不完全相同,同樣,隱層中特征圖中每個(gè)像素對(duì)所完成任務(wù)的重要性也不相同。因此給特征圖的每一個(gè)像素加權(quán)有利于提高卷積神經(jīng)網(wǎng)絡(luò)的性能,而這種加權(quán)是由空間注意力完成的,因此在卷積網(wǎng)絡(luò)中也要應(yīng)用空間注意力。自注意力的查詢量來(lái)自何處?能夠解決什么問題?答:來(lái)自輸入自身,能夠建立輸入序列的長(zhǎng)程關(guān)系,解決輸入序列的信息相關(guān)性難以建立的問題。在深度神經(jīng)網(wǎng)絡(luò)中應(yīng)用自注意力機(jī)制能夠有效提高深度神經(jīng)網(wǎng)絡(luò)的性能。說(shuō)明自注意力模塊不易獨(dú)立使用的原因。答:自注意力機(jī)制僅是通過尋找輸入量或輸入序列內(nèi)部相關(guān)性給輸入加權(quán)的一種方法,不能實(shí)現(xiàn)神經(jīng)網(wǎng)絡(luò)的非線性變換功能,因此不能將自注意力機(jī)制作為深度神經(jīng)網(wǎng)絡(luò)使用。自注意力機(jī)制與RNN有什么區(qū)別?答:(1)自注意力是前向線性單層網(wǎng)絡(luò),不能表示非線性映射關(guān)系,但能夠建立任何長(zhǎng)度輸入長(zhǎng)程關(guān)系,將它與某種前向神經(jīng)網(wǎng)絡(luò)結(jié)合,對(duì)于處理長(zhǎng)程依賴關(guān)系的問題會(huì)有更好效果;RNN是反饋網(wǎng)絡(luò),由于激活函數(shù)的特性,訓(xùn)練時(shí)會(huì)出現(xiàn)梯度消失和梯度爆炸問題,難以建立輸入數(shù)據(jù)的長(zhǎng)程關(guān)系,所以RNN在處理涉及長(zhǎng)程依賴關(guān)系的問題時(shí)效果不佳。(2)自注意力機(jī)制可以并行實(shí)現(xiàn),且可以采用二階矩陣相乘提高處理速度;RNN只能按數(shù)據(jù)的輸入順序串行計(jì)算,無(wú)法并行實(shí)現(xiàn),計(jì)算效率相對(duì)低下;雙向RNN由于存在正反兩個(gè)方向的串行計(jì)算,效率更低。(3)實(shí)現(xiàn)自注意力模型和RNN時(shí),自注意力模型和雙向RNN比普通RNN需要更大內(nèi)存空間,存儲(chǔ)中間結(jié)果,且輸入數(shù)據(jù)的長(zhǎng)度越長(zhǎng),需求越大。互注意力的查詢量來(lái)自何處?常用在什么類型的深度神經(jīng)網(wǎng)絡(luò)中?解決什么類型的問題?答:來(lái)自輸出信息,常用在具有編碼譯碼能力的深度神經(jīng)網(wǎng)絡(luò)中,解決具有內(nèi)容理解、語(yǔ)言翻譯等問題。請(qǐng)舉例說(shuō)明各種注意力機(jī)制的使用方法。答:在使用卷積神經(jīng)網(wǎng)絡(luò)的圖像恢復(fù)、去噪,圖像分類、目標(biāo)檢測(cè)等應(yīng)用中通道注意力、空間注意力和自注意力解決通道重要性、空間信息重要性和輸入信息間的關(guān)聯(lián)性問題。在解決自然語(yǔ)言處理問題的RNN中常使用互注意力解決輸出與重要輸入的關(guān)聯(lián),在Transformer中使用自注意力建立輸入序列的長(zhǎng)程關(guān)聯(lián),使用互注意力建立輸出與輸入的關(guān)聯(lián)。第6章說(shuō)明Transformer的來(lái)源,簡(jiǎn)要說(shuō)明其原理和工作過程。答:Transformer來(lái)源于VaswaniA等人在2017年發(fā)表的文章《Attentionisallyouneed》,由具有殘差連接的注意力機(jī)制和具有殘差連接的全連接前向網(wǎng)絡(luò)搭建而成。原始的Transformer是一個(gè)Encoder-Decoder的結(jié)構(gòu),由6個(gè)編碼模塊和6個(gè)譯碼模塊組成。編碼器最后一個(gè)模塊的輸出作為譯碼器每一個(gè)模塊的輸入。作為編碼譯碼結(jié)構(gòu)的Transformer其原理就是輸出復(fù)現(xiàn)輸入。工作過程包含三個(gè)步驟:(1)獲取輸入序列中的每個(gè)輸入的表示向量;將得到輸入向量矩陣送入編碼器中;(3)將編碼器輸出的編碼信息矩陣傳遞到譯碼器中,譯碼器依次會(huì)根據(jù)當(dāng)前輸出的前面所有輸出來(lái)產(chǎn)生下一個(gè)輸出。請(qǐng)說(shuō)明多頭注意力有什么作用。答:多頭注意力將多個(gè)注意力集成到一起,學(xué)習(xí)輸入特征空間的多個(gè)子集,使Transformer的特征提取能力進(jìn)一步提升。給出Transformer編碼器的結(jié)構(gòu),說(shuō)明各部分的功能。答:編碼器結(jié)構(gòu)如右圖所示:它是由Multi-HeadSelf-Attention,Add&Norm,F(xiàn)eedForward,Add&Norm組成的。Multi-HeadSelf-Attention:學(xué)習(xí)輸入特征空間的多個(gè)子集,多角度提取輸入特征;Add&Norm:殘差連接提升訓(xùn)練效果,層正則化加快網(wǎng)絡(luò)訓(xùn)練收斂速度;FeedForward:實(shí)現(xiàn)非線性特征提取。給出Transformer譯碼器的結(jié)構(gòu),說(shuō)明各部分的功能。答:譯碼器結(jié)構(gòu)如右圖所示:包含兩個(gè)Multi-HeadAttention層。第一個(gè)Multi-HeadAttention層采用了Masked操作,是掩膜輸入的多頭自注意力。第二個(gè)Multi-HeadAttention層的K,V矩陣使用Encoder的編碼信息矩陣C進(jìn)行計(jì)算,而Q使用上一個(gè)Decoderblock的輸出計(jì)算,是多頭互注意力。Decoderblock的最后有一個(gè)Softmax層計(jì)算下一個(gè)輸出(翻譯的單詞)的概率。Add&Norm:殘差連接提升訓(xùn)練效果,層正則化加快網(wǎng)絡(luò)訓(xùn)練收斂速度。FeedForward:實(shí)現(xiàn)非線性特

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論