




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
October15,2024PAGE10/22張敏October15,2024PAGE10/22張敏《深度學(xué)習(xí)入門—基于Python的實(shí)現(xiàn)》(吳喜之張敏)用于自然語言處理的變換器張敏October15,2024變換器的原理圖1:變換器示意圖,上為總體,下面左右圖分別為編碼器和解碼器細(xì)節(jié)自我專注的原理 每個(gè)字或詞都在進(jìn)入變換器后的第一個(gè)編碼器中嵌入成為(假定512大小的向量中(512)向量列表.在第一個(gè)編碼器中輸入的是單詞嵌入,而在其他編碼器中的輸入是前一個(gè)編碼器的輸出.在將單詞嵌入輸入序列后,每個(gè)單詞都通過編碼器的兩層.變換器的一個(gè)關(guān)鍵屬性就是每個(gè)位置的單詞都流經(jīng)編碼器中自己的路徑.自我專注層中這些路徑之間存在依賴關(guān)系.但前向傳播層不具有這些依賴性,因此可以在流過前向傳播層的同時(shí)按各種路徑進(jìn)行并行計(jì)算(見圖2).圖2:字詞從進(jìn)入一個(gè)編碼器到輸出的過程假定一句話中只有四個(gè)單詞tookthechallenge”,然后看(見圖3).這句話中的“took”指的是什么?對于人類來說,這是一個(gè)簡單的問題,但對于算法而言卻并非如此簡單.當(dāng)模型處理“took”一詞時(shí),自我專注使它與每個(gè)其他詞相關(guān)聯(lián),“we”為“whotook”;“challenge”代表“tookwhat”,而如“the”僅僅是冠詞而已.圖3:自我專注的示意圖多頭專注 ( )一組權(quán)重矩陣 W(q),W(k),W(v) 稱為專注頭(attention( )head),而變換器模型中的每一層都有多個(gè)專注頭.一個(gè)專注(token),通過多個(gè)專注頭例如對于每個(gè)詞,都有一些專注頭,主要是關(guān)注下一個(gè)單詞,或者主要關(guān)注動(dòng)詞到其直接賓語.由于變換器模型具有多個(gè)專注頭,因此它們有可能捕獲許多級別和類型的相關(guān)關(guān)系,從表面級別到語義.多專注頭層的多個(gè)輸出被傳遞到前向傳播層.( )在多頭專注具有多組權(quán)重矩陣 W(q),W(k),W(v) ,如果變換( )器使用8個(gè)專注頭,則每對編碼器/解碼器最終得到8組.這些集合中的每一個(gè)都是隨機(jī)初始化的,然后,通過訓(xùn)練將每個(gè)集合用于將輸入的嵌入(或來自較低編碼器/解碼器的向量)(X表示投影到不同的表示子空間中8個(gè)專注頭N下面是多頭專注的功能說明.N×64X ()(),() N×64
(i=0,1,...,7)?[Z|Z|...|Z
];(1.1)N×64 ? i
0 1 7N×(64×8)ZN×64
=[Z0Z1...Z7]| | |N×(64×| | |
W(o)(64×8)×64
. (1.2)使用位置編碼表示序列的順序 為了解決輸入序列中單詞順序的信息,變換器增加一個(gè)向量到每個(gè)輸入嵌入中.這些向量遵循模型學(xué)習(xí)的特定模式以確定每個(gè)單詞的位置或序列中不同單詞之間的距離.這些值添加到嵌入中后,QKV向量中,在點(diǎn)積專注時(shí)就可以提供嵌入向量之間有意義的距離.( ;具體來說,由于我們的模型不包含遞歸和卷積,為了使模型能夠利用序列的順序,必須注入一些有關(guān)詞語在序列中的相對或絕對位置的信息.為此,在編碼器和解碼器組合的輸入嵌入(dm(positionalencoding),因?yàn)榫S度相同,則二者可以相加.位置編碼有很多選擇,可以是學(xué)習(xí)來的或者是固定的.作為一種固定的位置編碼的例子,使用不同頻率的正弦和余弦函數(shù)( ;PE(pos,2i)
sin pos =cos pos100002i/=cos pos
(1.3)PE(pos,2i+1)
100002i/dm).預(yù)訓(xùn)練模塊TransformerOctober15,October15,2024PAGE15/22張敏兩個(gè)簡單的即時(shí)例子 情感分析輸入預(yù)先訓(xùn)練好的情感分析模型'sentiment-analysis'來判斷是正面還是負(fù)面情感:classifier=pipeline('sentiment-analysis')#classifier=pipeline('sentiment-analysis')#下載需要時(shí)間輸入一句話“Itisgreattolearndeeplearning.”classifier('Itisgreattolearndeeplearning.')[{'label':'POSITIVE','score':classifier('Itisgreattolearndeeplearning.')[{'label':'POSITIVE','score':0.9998034238815308}]顯然是正面,而且以很高得分來肯定.如果換一個(gè)句子:“Hedislikesanyparty.”:classifier('Hedislikesanyclassifier('Hedislikesanyparty.')輸出為:[{'label':'NEGATIVE','score':[{'label':'NEGATIVE','score':0.9949379563331604}]這就確定是負(fù)面的了.question_answerer({'question':'Whatisthefutureofdatascience?','context':'Dataquestion_answerer({'question':'Whatisthefutureofdatascience?','context':'Datascienceshouldabandonsignificanceandapplymachine})輸入預(yù)先訓(xùn)練好的模型'question-answering':question_answererquestion_answerer=pipeline('question-answering')(“Whatisthefutureofdatascience?”)及上下文(“DatascienceshouldabandonsignificanceandapplymachineOctober15,2024PAGE17/22張敏October15,2024PAGE17/22張敏輸出的答案為:{'score':0.3156715929508209,{'score':0.3156715929508209,'start':45,'end':66,'answer':'applymachinelerning.'}包含的模型 Transformers包含了來自不同創(chuàng)造者的各種模型(括號內(nèi)為創(chuàng)造者):BERT(Google),GPT(OpenAI),GPT-2(OpenAI),Transformer-XL(Google/CMU),XLNet(Google/CMU),XLM(Facebook),Facebook),DistilBERT(HuggingFace),CTRL(Salesforce),CamemBERT(Inria/Facebook/Sorbonne),ALBERT(GoogleResearchTechnologicalInstituteatChicago),T5(GoogleAI),XLM-RoBERTa(FacebookAI),MMBT(Facebook),Flau-BERT(CNRS),BART(Facebook),ELECTRA(GoogleResearch/StanfordUniversity),DialoGPT(MicrosoftResearch),Reformer(GoogleResearch),MarianMTMachinetranslationmodelstrainedusingOPUSdata(MicrosoftLongformer(AllenAI),DPR(Facebook),Pegasus(Google),MBart(Facebook),LXMERT(UNCChapelHill),Funnel(CMU/GoogleBrain),LayoutLM(MicrosoftResearchAsia),以及其他各社區(qū)貢獻(xiàn)的模型.BERT模型 BERT1(從變換器的雙向編碼器表示模型)設(shè)計(jì)為事先訓(xùn)練的關(guān)于英語的深度學(xué)習(xí)模型(maskedlanguagemodeling,MLM)對象.作為一種變換器,BERT以自我監(jiān)督的方式在大量的英語數(shù)據(jù)集上進(jìn)行了預(yù)訓(xùn)練.這意味著只對原始文本進(jìn)行了預(yù)訓(xùn)練,在沒有以任何人為方式為它們加上標(biāo)簽的情況下,產(chǎn)生輸入及標(biāo)簽的自動(dòng)過程,這就是它可以使用大量公開數(shù)據(jù)的原因.1BidirectionalEncoderRepresentationsfromTransformers的縮略語.GPT-2模型 GPT-2(causallanguagemodeling,CLM)的英語預(yù)訓(xùn)練模型它以自我監(jiān)督的方式在非常大的英語數(shù)據(jù)集上進(jìn)行預(yù)訓(xùn)練.這意味著只對原始文本進(jìn)行了預(yù)訓(xùn)練,沒有以任何人為方式為其加上標(biāo)簽,它是可以自動(dòng)產(chǎn)生輸入及標(biāo)簽的自動(dòng)過程.經(jīng)過訓(xùn)練可以猜測句子中的下一個(gè)詞.GPT-2模型的輸入是一定長度的連續(xù)文本序列,目標(biāo)是向右位移一個(gè)單詞的相同序列.它在內(nèi)部使用掩蓋機(jī)制來確保對詞的預(yù)測不使用將來的詞.模型以這種方式學(xué)習(xí)了英語的內(nèi)部表示形式,用來提取對下游任務(wù)有用的功能.該模型最擅長根據(jù)提示生成文本的預(yù)訓(xùn)練方法.seq2seq變換器示范代碼October15,202422/22張敏October15,202422/22張敏本節(jié)案例代碼來自網(wǎng)上2,它相當(dāng)清楚地展示了前面介紹的變換器的各種功能,但由于使用了比較概括的模塊,想了解細(xì)節(jié)則需要查詢那些模塊.這里通過的變換編碼器模型nn.TransformerEncoder來處理一個(gè)語言建模的任務(wù),目的是給出一個(gè)句子(詞序列)后面應(yīng)該跟隨的詞或詞序列的概率.編碼器的運(yùn)作順序如下:首先將一個(gè)詞序列轉(zhuǎn)換成嵌入.然后
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 【正版授權(quán)】 IEC 60931-2:2025 EN-FR Shunt power capacitors of the non-self-healing type for AC systems having a rated voltage up to and including 1 000 V - Part 2: Ageing test and destru
- 湖北省教師招聘數(shù)學(xué)試卷
- 廣東藝術(shù)類高考數(shù)學(xué)試卷
- 海濱一號數(shù)學(xué)試卷
- 韓國做中國數(shù)學(xué)試卷
- 2025年隧道養(yǎng)護(hù)市場分析報(bào)告
- 2021-2026年中國磨齒機(jī)市場深度評估及行業(yè)投資前景咨詢報(bào)告
- 報(bào)廢汽車回收拆解市場前景預(yù)測與預(yù)算管理策略研究報(bào)告
- 2024年中國焊接電源行業(yè)市場調(diào)查報(bào)告
- 多畫面彩色電視燈項(xiàng)目投資可行性研究分析報(bào)告(2024-2030版)
- 脊髓解剖及脊髓損傷
- 地下連續(xù)墻成槽垂直度控制
- 【超星爾雅學(xué)習(xí)通】《老子》《論語》今讀網(wǎng)課章節(jié)答案
- 中國農(nóng)業(yè)銀行筆試題庫(含答案)
- simufact教程基礎(chǔ)部分從Simufact得到支持
- NB-T 10651-2021 風(fēng)電場阻抗特性評估技術(shù)規(guī)范
- 電纜電線出廠檢驗(yàn)報(bào)告參考
- YY/T 0500-2021心血管植入物血管假體管狀血管移植物和血管補(bǔ)片
- YY/T 0148-2006醫(yī)用膠帶 通用要求
- GB/T 4745-2012紡織品防水性能的檢測和評價(jià)沾水法
- GB/T 39480-2020鋼絲繩吊索使用和維護(hù)
評論
0/150
提交評論