2023預(yù)訓(xùn)練大模型前景探討_第1頁
2023預(yù)訓(xùn)練大模型前景探討_第2頁
2023預(yù)訓(xùn)練大模型前景探討_第3頁
2023預(yù)訓(xùn)練大模型前景探討_第4頁
2023預(yù)訓(xùn)練大模型前景探討_第5頁
已閱讀5頁,還剩58頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

預(yù)訓(xùn)練大模型前景探討Content什么是預(yù)訓(xùn)練大模型預(yù)訓(xùn)練大模型的研究現(xiàn)狀和發(fā)展趨勢預(yù)訓(xùn)練大模型應(yīng)用前景展望總結(jié)Content什么是預(yù)訓(xùn)練大模型預(yù)訓(xùn)練大模型的研究現(xiàn)狀和發(fā)展趨勢預(yù)訓(xùn)練大模型應(yīng)用前景展望總結(jié)1_1_PAGE1/40什么是預(yù)訓(xùn)練大模型?人工智能研究的新范式深度學(xué)習(xí)模型參數(shù)規(guī)模大、訓(xùn)練數(shù)據(jù)大非特定任務(wù)預(yù)訓(xùn)練,可以應(yīng)用于廣泛的下游任務(wù)又被稱為基礎(chǔ)模型(FoundationModels)什么是預(yù)訓(xùn)練大模型?人工智能研究的新范式深度學(xué)習(xí)模型參數(shù)規(guī)模大、訓(xùn)練數(shù)據(jù)大非特定任務(wù)預(yù)訓(xùn)練,可以應(yīng)用于廣泛的下游任務(wù)又被稱為基礎(chǔ)模型(FoundationModels)Bommasanietal.,OntheOpportunitiesandRisksofFoundationModels,arXiv:2108.07258[cs.LG]PAGEPAGE2/40涌現(xiàn)和同質(zhì)化Bommasanietal.,OntheOpportunitiesandRisksofFoundationModels,arXiv:2108.07258[cs.LG]預(yù)訓(xùn)練大模型的特點(diǎn)預(yù)訓(xùn)練大模型的特點(diǎn)PAGEPAGE3/40預(yù)訓(xùn)練大模型的參數(shù)規(guī)模預(yù)訓(xùn)練大模型的參數(shù)規(guī)模4_4_PAGE1/402021-10-11剛剛發(fā)布預(yù)訓(xùn)練大模型給我們帶來了什么?預(yù)訓(xùn)練大模型給我們帶來了什么?PAGEPAGE5/40海量無標(biāo)注或弱標(biāo)注數(shù)據(jù)的利用(自監(jiān)督學(xué)習(xí))預(yù)訓(xùn)練++性能的普遍提高少樣本和零樣本的學(xué)習(xí)多語言表達(dá)能力多模態(tài)交互海量無標(biāo)注或弱標(biāo)注數(shù)據(jù)的利用(自監(jiān)督學(xué)習(xí))海量無標(biāo)注或弱標(biāo)注數(shù)據(jù)的利用(自監(jiān)督學(xué)習(xí))PAGEPAGE6/40Devlinetal.,BERT:Pre-trainingofDeepBidirectionalTransformersforLanguageUnderstanding,arXiv:1810.04805,2018預(yù)訓(xùn)練預(yù)訓(xùn)練+微調(diào)框架:下游任務(wù)模型結(jié)構(gòu)的簡化/性能的普遍提高PAGEPAGE7/40Devlinetal.,BERT:Pre-trainingofDeepBidirectionalTransformersforLanguageUnderstanding,arXiv:1810.04805,2018少樣本和零樣本的學(xué)習(xí)少樣本和零樣本的學(xué)習(xí)PAGEPAGE8/40Brownetal.,LanguageModelsareFew-ShotLearners,arXiv:2005.14165,2021多語言表達(dá)能力多語言表達(dá)能力9_9_PAGE2/40/google-research/bert/blob/master/multilingual.md多模態(tài)交互多模態(tài)交互10_10_PAGE1/40Bommasanietal.,OntheOpportunitiesandRisksofFoundationModels,arXiv:2108.07258[cs.LG]OpenAIDALL-Edemo,source:/blog/dall-e/FacebookAIWav2Vec2.0/blog/wav2vec-20-learning-the-structure-of-speech-from-raw-audio/Content什么是預(yù)訓(xùn)練大模型預(yù)訓(xùn)練大模型的研究現(xiàn)狀和發(fā)展趨勢預(yù)訓(xùn)練大模型應(yīng)用前景展望總結(jié)Content預(yù)訓(xùn)練大模型的研究現(xiàn)狀和發(fā)展趨勢如何做得更大?如何更能干?如何應(yīng)用和推理?1111/40如何做得更大?模型參數(shù)數(shù)量反應(yīng)了模型的容量(Capacity)模型的參數(shù)規(guī)模還可以大幅度增長單一集中式模型所使用的算力幾乎達(dá)到極限,除非出現(xiàn)新的計(jì)算模式(如量子計(jì)算)(如MoE,Mixture-of-Experts模型表達(dá)能力(Capacity)稀疏模型稀疏模型SparseTransformers12_12_PAGE1/40SparsefactorizationsoftheattentionmatrixwhichreducethistoO(n√n):Childetal.,GeneratingLongSequenceswithSparseTransformers,arXiv:1904.10509Relatedwork:BigBird(Zaheeretal.2020,NeurIPS),Longformer(Beltagyetal.2020),Reformer(Kitaevetal.2020,ICLR),Routing(Royetal.2021,ACL),稀疏模型稀疏模型MoETransformers13_13_PAGE1/40IntroducesMixture-of-Experts(MoE)incomponentsJasonBrownlee,AGentleIntroductiontoMixtureofExpertsEnsembles(blog)Switch(Google,2021.01)Backbone:T5Parameters:1571B,15layers,2048expertsDataset:C4(180Btokens)Router:switchrouting(top-1)Fedusetal.,SwitchTransformers:ScalingtoTrillionParameterModelswithSimpleandEfficientSparsity.arXiv:2101.03961,2021routing(Google)單個(gè)expert可以減少通信代價(jià),提升訓(xùn)練速度Fedusetal.,SwitchScalingtoParameterModelswithSimpleandEfficientSparsity.arXiv:2101.03961,2021routing(Google)通常從N個(gè)expert中選擇2個(gè)進(jìn)行稀疏路由Shazeeretal.,OutrageouslyLargeNeuralNetworks:TheSparsely-GatedMixture-of-ExpertsLayer.arXiv:1701.06538,2017Hashrouting(Facebook)不需要router的學(xué)習(xí),通過設(shè)定token-expert的映射來指導(dǎo)路由Rolleretal.,HashLayersForLargeSparseModels.arXiv:2106.04426,2021Domainrouting(AI2&Facebook)對不同領(lǐng)域數(shù)據(jù)設(shè)置不同的expert,根據(jù)領(lǐng)域進(jìn)行路由Gururanganetal.,DEMixLayers:DisentanglingDomainsforModularLanguageModeling.arXiv:2108.05036.2021Content預(yù)訓(xùn)練大模型的研究現(xiàn)狀和發(fā)展趨勢如何做得更大?如何更能干?如何應(yīng)用和推理?異構(gòu)數(shù)據(jù)引入異構(gòu)數(shù)據(jù)引入PAGEPAGE14/40大規(guī)模預(yù)訓(xùn)練語言模型強(qiáng)大的能力可以從更多樣的數(shù)據(jù)中吸收知識同時(shí),更多樣的知識來源可以互相增強(qiáng),使得大規(guī)模預(yù)訓(xùn)練語言模型更加強(qiáng)大多模態(tài)融入程序代碼圖文預(yù)訓(xùn)練模型圖文預(yù)訓(xùn)練模型:關(guān)鍵在于怎么進(jìn)行模態(tài)之間的交互PAGEPAGE15/40Loss進(jìn)行模態(tài)交互ALIGN,WENLAN模型Encoder或(和)Decoder的self-attention進(jìn)行模態(tài)交互:Encoder:SOHODecoder:DALL-E,FrozenMix:M6,OPTEncoder-decoder結(jié)構(gòu)中Decoder的cross-attention進(jìn)行模態(tài)交互ALBEF圖文預(yù)訓(xùn)練模型圖文預(yù)訓(xùn)練模型:CLIP:典型雙塔模型16_16_PAGE1/40ConnectingTextandImagesbyContrastiveLanguage-ImagePre-training,OpenAI2021globalfeature來進(jìn)行對比學(xué)習(xí)OpenAI4億單語言數(shù)據(jù)庫CLIP_SMALL:+GPT(12L-8head-emb512)CLIP_LARGE:+GPT-BASE(12L-12head-emb768)zero-shot像分類,image-text檢索

Zero-shotImageClassificationImage-textretrievalConnectingTextandImagesbyContrastiveLanguage-ImagePre-training,OpenAI2021圖文預(yù)訓(xùn)練模型圖文預(yù)訓(xùn)練模型:Dall-E:典型單塔模型Zero-ShotText-to-ImageGeneration.OpenAI,Zero-ShotText-to-ImageGeneration.OpenAI,202117_PAGE1/40視覺模態(tài)(numericdata):用等模型的encoder成某個(gè)模態(tài)的contextualizedtokenizerdecoder作為generator恢復(fù)到原本模態(tài)文本(symbolicdata):本身就是離散的,普通的文本tokenizer將視覺token和文本token連接成一個(gè)序列,用LM進(jìn)行訓(xùn)練(類似GPT)ImageGeneration圖文預(yù)訓(xùn)練模型圖文預(yù)訓(xùn)練模型:Frozen:典型小樣本模型MultimodalMultimodalFew-ShotLearningwithFrozenLanguageModels,Deepmind202118_PAGE2/40預(yù)訓(xùn)練固定住7B純文本預(yù)訓(xùn)練模型GPT,訓(xùn)練prefix(prompt)使用ImageCaption為訓(xùn)練目標(biāo)在CC12M數(shù)據(jù)集上面fine-tune一個(gè)NF-ResNet-50模型few-shot(in-context)learning能力和NLP的Pre-fixtuning的異同固定住純文本預(yù)訓(xùn)練大模型,只fientune可學(xué)習(xí)的Prefix跨模態(tài)Prefix這個(gè)Prefix是sample-dependent的,不同的圖片會產(chǎn)生不同的PrefixVQA:Inference:圖文預(yù)訓(xùn)練模型圖文預(yù)訓(xùn)練模型:ALBEF:典型cross-attention模型19_19_PAGE1/40預(yù)訓(xùn)練圖像pre-trained文本pre-trainedBERT圖像VIT最后一層[CLS]特征和文本BERT第六層[CLS]特征做image-textcontrastivelearning文本部分做maskedlanguagemodeling圖像特征輸入到文本decoder(BERT后六層)以cross-attention作了多模態(tài)交互之后做image-textmatching擁有類似gpt-3的跨模態(tài)few-shot(in-context)learning能力多種下游任務(wù)包括image-text檢索、VQA、VE、AlignbeforeFuse:VisionandLanguageRepresentationLearningwithMomentumDistillation,Salesforce2021Image-textRetrieval:VisualGrounding:AlignbeforeFuse:VisionandLanguageRepresentationLearningwithMomentumDistillation,Salesforce2021知識融入知識融入2020/40Yangetal.,ASurveyofKnowledgeEnhancedPre-trainedModels,arXiv:2110.00269Triplet-EnhancedPLMsPAGEPAGE21/40Zhangetal.,ERNIE:EnhancedLanguageRepresentationwithInformativeEntities,ACL2019知識融入:知識融入:Entity-EnhancedPLMsPAGEPAGE22/40Xiongetal.,PretrainedEncyclopedia:WeaklySupervisedKnowledge-PretrainedLanguageModel,ICLR2020加入檢索加入檢索PAGEPAGE23/40為什么PLMs需要Retrieval更忠實(shí)于客觀事實(shí)的文本生成適配高速動態(tài)變化的客觀世界知識對于Retrievalaugmented我們需要關(guān)注在Pre-training還是Fine-tuning階段做retrievalRetrieval到的(多個(gè))文檔如何建模Retriever與Generator(Predictor)是否端到端訓(xùn)練加入檢索:加入檢索:REALM(Retrieval-augmentedPre-training)PAGEPAGE24/40RetrievalAugmented的預(yù)訓(xùn)練預(yù)訓(xùn)練階段同時(shí)訓(xùn)練Retriever和Generator從原始BERT單純的模式記憶->檢索+記憶KnowledgeRetrieverMLMobject可提供遠(yuǎn)程監(jiān)督信號訓(xùn)練RetrieverEnd2End訓(xùn)練的最大挑戰(zhàn):DocumentIndexupdate異步MIPS更新Guu,Kelvin,etal."Realm:Retrieval-augmentedlanguagemodelpre-training."加入檢索:加入檢索:RAG(Retrieval-augmentedGeneration)Lewis,Lewis,Patrick,etal."Retrieval-augmentedgenerationforknowledge-intensivenlptasks."PAGE25/40在fine-tuning階段使用retriever和REALM雖同為End2endtraining,但RAG并不更新document索引和REALM類似,直接將檢索文檔和query拼接建模,都會受制于encoder的max-seq-length優(yōu)化目標(biāo)RAG-SequenceModel:Model:加入檢索:加入檢索:FiD(FusioninDecoder)PAGEPAGE26/40FiD給出一種在Decoder端進(jìn)行信息融合的方式Encoder端文檔獨(dú)立編碼文檔間的交互通過decoder端的Cross-Attention實(shí)現(xiàn)FiD可以更加高效地利用多文檔信息Generator與Retriever解耦,使用上較REALM和RAG更加靈活CrossAttentionScore具備一定的可解釋性在問答生成,對話生成等任務(wù)上均取得了的效果Izacard,Gautier,andEdouardGrave."Leveragingpassageretrievalwithgenerativemodelsforopendomainquestionanswering."Content預(yù)訓(xùn)練大模型的研究現(xiàn)狀和發(fā)展趨勢如何做得更大?如何更能干?如何應(yīng)用和推理?如何更有效地訓(xùn)練?如何更有效地訓(xùn)練?PAGEPAGE27/40大規(guī)模預(yù)訓(xùn)練模型因模型巨大,每次訓(xùn)練代價(jià)極高,如何節(jié)約成本、高效訓(xùn)練,成為必須考慮的重要問題:分布式并行訓(xùn)練遷移學(xué)習(xí)(盡量復(fù)用已有大模型參數(shù))持續(xù)訓(xùn)練(增量式訓(xùn)練、終身學(xué)習(xí),避免災(zāi)難性遺忘)三維并行訓(xùn)練三維并行訓(xùn)練PAGEPAGE28/40+Pipeline并行+模型并行Batch維度的切分PipelineLayer維度的切分射,可自由擴(kuò)展,高效訓(xùn)練如盤古ケ、GPT3等千億參數(shù)級別的模型/en-us/research/blog/deepspeed-extreme-scale-model-training-for-everyone/訓(xùn)練狀態(tài)并行訓(xùn)練狀態(tài)并行PAGEPAGE29/40Feature:inner-layer維切分。allgather和reduce-catter分別和正、反向運(yùn)算并行。fp16運(yùn)算,優(yōu)化器及參數(shù)采用fp32。重計(jì)算重計(jì)算PAGEPAGE30/40正向activation不存,反向計(jì)算時(shí),重新計(jì)算正向activation,時(shí)間換空間。異構(gòu)計(jì)算異構(gòu)計(jì)算PAGEPAGE31/40過去幾年,模型規(guī)模增大了1000但是并行計(jì)算設(shè)備的內(nèi)存只增大了5倍(GPU16G到80G)將一部分訓(xùn)練計(jì)算轉(zhuǎn)移到CPU將一部分存儲放在Host內(nèi)存。有代表性AdamOptimizerState是Weight的2175B參數(shù)量的GPT3模型,就有350B的OptimizerState;AdamOptimizer調(diào)度到HostCPU執(zhí)行,OptimizerState存儲到Host內(nèi)存;極大節(jié)省GPU,NPU等計(jì)算內(nèi)存空間。

OptimizerCPU執(zhí)行Content預(yù)訓(xùn)練大模型的研究現(xiàn)狀和發(fā)展趨勢如何做得更大?如何更能干?如何應(yīng)用和推理?PAGEPAGE32/40如何應(yīng)用和推理?價(jià)太高基于Prompt的微調(diào)模式受到廣泛關(guān)注基于Adapter的微調(diào)模式也可以適用于大規(guī)模預(yù)訓(xùn)練模型,但近期進(jìn)展不大傳統(tǒng)的模型蒸餾也變得代價(jià)極高,因?yàn)檎麴s過程需要在大量的數(shù)據(jù)上進(jìn)行推理其他模型壓縮算法如量化、剪枝等等都面臨新的問題PromptingMethodsforDownstreamTasksPromptingMethodsforDownstreamTasksPAGEPAGE33/40Liuetal.,Pre-train,Prompt,andPredict:ASystematicSurveyofPromptingMethodsinNaturalLanguageProcessing,arXiv:2107.

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論