2023預(yù)訓(xùn)練大模型前景探討

上傳人：1*** IP屬地：山西上傳時(shí)間：2024-02-09 格式：DOCX 頁數(shù)：63 大小：7.67MB 積分：15 舉報(bào) 版權(quán)申訴

已閱讀5頁，還剩58頁未讀，繼續(xù)免費(fèi)閱讀

版權(quán)說明：本文檔由用戶提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

預(yù)訓(xùn)練大模型前景探討Content什么是預(yù)訓(xùn)練大模型預(yù)訓(xùn)練大模型的研究現(xiàn)狀和發(fā)展趨勢預(yù)訓(xùn)練大模型應(yīng)用前景展望總結(jié)Content什么是預(yù)訓(xùn)練大模型預(yù)訓(xùn)練大模型的研究現(xiàn)狀和發(fā)展趨勢預(yù)訓(xùn)練大模型應(yīng)用前景展望總結(jié)1_1_PAGE1/40什么是預(yù)訓(xùn)練大模型？人工智能研究的新范式深度學(xué)習(xí)模型參數(shù)規(guī)模大、訓(xùn)練數(shù)據(jù)大非特定任務(wù)預(yù)訓(xùn)練，可以應(yīng)用于廣泛的下游任務(wù)又被稱為基礎(chǔ)模型（FoundationModels）什么是預(yù)訓(xùn)練大模型？人工智能研究的新范式深度學(xué)習(xí)模型參數(shù)規(guī)模大、訓(xùn)練數(shù)據(jù)大非特定任務(wù)預(yù)訓(xùn)練，可以應(yīng)用于廣泛的下游任務(wù)又被稱為基礎(chǔ)模型（FoundationModels）Bommasanietal.,OntheOpportunitiesandRisksofFoundationModels,arXiv:2108.07258[cs.LG]PAGEPAGE2/40涌現(xiàn)和同質(zhì)化Bommasanietal.,OntheOpportunitiesandRisksofFoundationModels,arXiv:2108.07258[cs.LG]預(yù)訓(xùn)練大模型的特點(diǎn)預(yù)訓(xùn)練大模型的特點(diǎn)PAGEPAGE3/40預(yù)訓(xùn)練大模型的參數(shù)規(guī)模預(yù)訓(xùn)練大模型的參數(shù)規(guī)模4_4_PAGE1/402021-10-11剛剛發(fā)布預(yù)訓(xùn)練大模型給我們帶來了什么？預(yù)訓(xùn)練大模型給我們帶來了什么？PAGEPAGE5/40海量無標(biāo)注或弱標(biāo)注數(shù)據(jù)的利用（自監(jiān)督學(xué)習(xí)）預(yù)訓(xùn)練++性能的普遍提高少樣本和零樣本的學(xué)習(xí)多語言表達(dá)能力多模態(tài)交互海量無標(biāo)注或弱標(biāo)注數(shù)據(jù)的利用（自監(jiān)督學(xué)習(xí)）海量無標(biāo)注或弱標(biāo)注數(shù)據(jù)的利用（自監(jiān)督學(xué)習(xí)）PAGEPAGE6/40Devlinetal.,BERT:Pre-trainingofDeepBidirectionalTransformersforLanguageUnderstanding,arXiv:1810.04805,2018預(yù)訓(xùn)練預(yù)訓(xùn)練+微調(diào)框架：下游任務(wù)模型結(jié)構(gòu)的簡化/性能的普遍提高PAGEPAGE7/40Devlinetal.,BERT:Pre-trainingofDeepBidirectionalTransformersforLanguageUnderstanding,arXiv:1810.04805,2018少樣本和零樣本的學(xué)習(xí)少樣本和零樣本的學(xué)習(xí)PAGEPAGE8/40Brownetal.,LanguageModelsareFew-ShotLearners,arXiv:2005.14165,2021多語言表達(dá)能力多語言表達(dá)能力9_9_PAGE2/40/google-research/bert/blob/master/multilingual.md多模態(tài)交互多模態(tài)交互10_10_PAGE1/40Bommasanietal.,OntheOpportunitiesandRisksofFoundationModels,arXiv:2108.07258[cs.LG]OpenAIDALL-Edemo,source:/blog/dall-e/FacebookAIWav2Vec2.0/blog/wav2vec-20-learning-the-structure-of-speech-from-raw-audio/Content什么是預(yù)訓(xùn)練大模型預(yù)訓(xùn)練大模型的研究現(xiàn)狀和發(fā)展趨勢預(yù)訓(xùn)練大模型應(yīng)用前景展望總結(jié)Content預(yù)訓(xùn)練大模型的研究現(xiàn)狀和發(fā)展趨勢如何做得更大？如何更能干？如何應(yīng)用和推理？1111/40如何做得更大？模型參數(shù)數(shù)量反應(yīng)了模型的容量（Capacity）模型的參數(shù)規(guī)模還可以大幅度增長單一集中式模型所使用的算力幾乎達(dá)到極限，除非出現(xiàn)新的計(jì)算模式（如量子計(jì)算）（如MoE，Mixture-of-Experts模型表達(dá)能力（Capacity）稀疏模型稀疏模型SparseTransformers12_12_PAGE1/40SparsefactorizationsoftheattentionmatrixwhichreducethistoO(n√n):Childetal.,GeneratingLongSequenceswithSparseTransformers,arXiv:1904.10509Relatedwork:BigBird(Zaheeretal.2020,NeurIPS)，Longformer(Beltagyetal.2020),Reformer(Kitaevetal.2020,ICLR),Routing(Royetal.2021,ACL),稀疏模型稀疏模型MoETransformers13_13_PAGE1/40IntroducesMixture-of-Experts(MoE)incomponentsJasonBrownlee,AGentleIntroductiontoMixtureofExpertsEnsembles(blog)Switch(Google,2021.01)Backbone:T5Parameters:1571B,15layers,2048expertsDataset:C4(180Btokens)Router:switchrouting(top-1)Fedusetal.,SwitchTransformers:ScalingtoTrillionParameterModelswithSimpleandEfficientSparsity.arXiv:2101.03961,2021routing(Google)單個(gè)expert可以減少通信代價(jià)，提升訓(xùn)練速度Fedusetal.,SwitchScalingtoParameterModelswithSimpleandEfficientSparsity.arXiv:2101.03961,2021routing(Google)通常從N個(gè)expert中選擇2個(gè)進(jìn)行稀疏路由Shazeeretal.,OutrageouslyLargeNeuralNetworks:TheSparsely-GatedMixture-of-ExpertsLayer.arXiv:1701.06538,2017Hashrouting(Facebook)不需要router的學(xué)習(xí)，通過設(shè)定token-expert的映射來指導(dǎo)路由Rolleretal.,HashLayersForLargeSparseModels.arXiv:2106.04426,2021Domainrouting(AI2&Facebook)對不同領(lǐng)域數(shù)據(jù)設(shè)置不同的expert，根據(jù)領(lǐng)域進(jìn)行路由Gururanganetal.,DEMixLayers:DisentanglingDomainsforModularLanguageModeling.arXiv:2108.05036.2021Content預(yù)訓(xùn)練大模型的研究現(xiàn)狀和發(fā)展趨勢如何做得更大？如何更能干？如何應(yīng)用和推理？異構(gòu)數(shù)據(jù)引入異構(gòu)數(shù)據(jù)引入PAGEPAGE14/40大規(guī)模預(yù)訓(xùn)練語言模型強(qiáng)大的能力可以從更多樣的數(shù)據(jù)中吸收知識同時(shí)，更多樣的知識來源可以互相增強(qiáng)，使得大規(guī)模預(yù)訓(xùn)練語言模型更加強(qiáng)大多模態(tài)融入程序代碼圖文預(yù)訓(xùn)練模型圖文預(yù)訓(xùn)練模型:關(guān)鍵在于怎么進(jìn)行模態(tài)之間的交互PAGEPAGE15/40Loss進(jìn)行模態(tài)交互ALIGN,WENLAN模型Encoder或（和）Decoder的self-attention進(jìn)行模態(tài)交互:Encoder:SOHODecoder:DALL-E,FrozenMix:M6,OPTEncoder-decoder結(jié)構(gòu)中Decoder的cross-attention進(jìn)行模態(tài)交互ALBEF圖文預(yù)訓(xùn)練模型圖文預(yù)訓(xùn)練模型:CLIP：典型雙塔模型16_16_PAGE1/40ConnectingTextandImagesbyContrastiveLanguage-ImagePre-training,OpenAI2021globalfeature來進(jìn)行對比學(xué)習(xí)OpenAI4億單語言數(shù)據(jù)庫CLIP_SMALL:+GPT(12L-8head-emb512)CLIP_LARGE:+GPT-BASE(12L-12head-emb768)zero-shot像分類，image-text檢索

Zero-shotImageClassificationImage-textretrievalConnectingTextandImagesbyContrastiveLanguage-ImagePre-training,OpenAI2021圖文預(yù)訓(xùn)練模型圖文預(yù)訓(xùn)練模型:Dall-E：典型單塔模型Zero-ShotText-to-ImageGeneration.OpenAI,Zero-ShotText-to-ImageGeneration.OpenAI,202117_PAGE1/40視覺模態(tài)（numericdata)：用等模型的encoder成某個(gè)模態(tài)的contextualizedtokenizerdecoder作為generator恢復(fù)到原本模態(tài)文本(symbolicdata)：本身就是離散的，普通的文本tokenizer將視覺token和文本token連接成一個(gè)序列，用LM進(jìn)行訓(xùn)練（類似GPT）ImageGeneration圖文預(yù)訓(xùn)練模型圖文預(yù)訓(xùn)練模型:Frozen：典型小樣本模型MultimodalMultimodalFew-ShotLearningwithFrozenLanguageModels,Deepmind202118_PAGE2/40預(yù)訓(xùn)練固定住7B純文本預(yù)訓(xùn)練模型GPT，訓(xùn)練prefix(prompt)使用ImageCaption為訓(xùn)練目標(biāo)在CC12M數(shù)據(jù)集上面fine-tune一個(gè)NF-ResNet-50模型few-shot(in-context)learning能力和NLP的Pre-fixtuning的異同固定住純文本預(yù)訓(xùn)練大模型，只fientune可學(xué)習(xí)的Prefix跨模態(tài)Prefix這個(gè)Prefix是sample-dependent的，不同的圖片會產(chǎn)生不同的PrefixVQA:Inference:圖文預(yù)訓(xùn)練模型圖文預(yù)訓(xùn)練模型:ALBEF:典型cross-attention模型19_19_PAGE1/40預(yù)訓(xùn)練圖像pre-trained文本pre-trainedBERT圖像VIT最后一層[CLS]特征和文本BERT第六層[CLS]特征做image-textcontrastivelearning文本部分做maskedlanguagemodeling圖像特征輸入到文本decoder（BERT后六層）以cross-attention作了多模態(tài)交互之后做image-textmatching擁有類似gpt-3的跨模態(tài)few-shot(in-context)learning能力多種下游任務(wù)包括image-text檢索、VQA、VE、AlignbeforeFuse:VisionandLanguageRepresentationLearningwithMomentumDistillation,Salesforce2021Image-textRetrieval:VisualGrounding:AlignbeforeFuse:VisionandLanguageRepresentationLearningwithMomentumDistillation,Salesforce2021知識融入知識融入2020/40Yangetal.,ASurveyofKnowledgeEnhancedPre-trainedModels,arXiv:2110.00269Triplet-EnhancedPLMsPAGEPAGE21/40Zhangetal.,ERNIE:EnhancedLanguageRepresentationwithInformativeEntities,ACL2019知識融入：知識融入：Entity-EnhancedPLMsPAGEPAGE22/40Xiongetal.,PretrainedEncyclopedia:WeaklySupervisedKnowledge-PretrainedLanguageModel,ICLR2020加入檢索加入檢索PAGEPAGE23/40為什么PLMs需要Retrieval更忠實(shí)于客觀事實(shí)的文本生成適配高速動態(tài)變化的客觀世界知識對于Retrievalaugmented我們需要關(guān)注在Pre-training還是Fine-tuning階段做retrievalRetrieval到的(多個(gè))文檔如何建模Retriever與Generator(Predictor)是否端到端訓(xùn)練加入檢索：加入檢索：REALM(Retrieval-augmentedPre-training)PAGEPAGE24/40RetrievalAugmented的預(yù)訓(xùn)練預(yù)訓(xùn)練階段同時(shí)訓(xùn)練Retriever和Generator從原始BERT單純的模式記憶->檢索+記憶KnowledgeRetrieverMLMobject可提供遠(yuǎn)程監(jiān)督信號訓(xùn)練RetrieverEnd2End訓(xùn)練的最大挑戰(zhàn):DocumentIndexupdate異步MIPS更新Guu,Kelvin,etal."Realm:Retrieval-augmentedlanguagemodelpre-training."加入檢索：加入檢索：RAG(Retrieval-augmentedGeneration)Lewis,Lewis,Patrick,etal."Retrieval-augmentedgenerationforknowledge-intensivenlptasks."PAGE25/40在fine-tuning階段使用retriever和REALM雖同為End2endtraining，但RAG并不更新document索引和REALM類似，直接將檢索文檔和query拼接建模，都會受制于encoder的max-seq-length優(yōu)化目標(biāo)RAG-SequenceModel:Model:加入檢索：加入檢索：FiD(FusioninDecoder)PAGEPAGE26/40FiD給出一種在Decoder端進(jìn)行信息融合的方式Encoder端文檔獨(dú)立編碼文檔間的交互通過decoder端的Cross-Attention實(shí)現(xiàn)FiD可以更加高效地利用多文檔信息Generator與Retriever解耦，使用上較REALM和RAG更加靈活CrossAttentionScore具備一定的可解釋性在問答生成，對話生成等任務(wù)上均取得了的效果Izacard,Gautier,andEdouardGrave."Leveragingpassageretrievalwithgenerativemodelsforopendomainquestionanswering."Content預(yù)訓(xùn)練大模型的研究現(xiàn)狀和發(fā)展趨勢如何做得更大？如何更能干？如何應(yīng)用和推理？如何更有效地訓(xùn)練？如何更有效地訓(xùn)練？PAGEPAGE27/40大規(guī)模預(yù)訓(xùn)練模型因模型巨大，每次訓(xùn)練代價(jià)極高，如何節(jié)約成本、高效訓(xùn)練，成為必須考慮的重要問題：分布式并行訓(xùn)練遷移學(xué)習(xí)（盡量復(fù)用已有大模型參數(shù)）持續(xù)訓(xùn)練（增量式訓(xùn)練、終身學(xué)習(xí)，避免災(zāi)難性遺忘）三維并行訓(xùn)練三維并行訓(xùn)練PAGEPAGE28/40+Pipeline并行+模型并行Batch維度的切分PipelineLayer維度的切分射，可自由擴(kuò)展，高效訓(xùn)練如盤古ケ、GPT3等千億參數(shù)級別的模型/en-us/research/blog/deepspeed-extreme-scale-model-training-for-everyone/訓(xùn)練狀態(tài)并行訓(xùn)練狀態(tài)并行PAGEPAGE29/40Feature：inner-layer維切分。allgather和reduce-catter分別和正、反向運(yùn)算并行。fp16運(yùn)算，優(yōu)化器及參數(shù)采用fp32。重計(jì)算重計(jì)算PAGEPAGE30/40正向activation不存，反向計(jì)算時(shí)，重新計(jì)算正向activation，時(shí)間換空間。異構(gòu)計(jì)算異構(gòu)計(jì)算PAGEPAGE31/40過去幾年，模型規(guī)模增大了1000但是并行計(jì)算設(shè)備的內(nèi)存只增大了5倍（GPU16G到80G）將一部分訓(xùn)練計(jì)算轉(zhuǎn)移到CPU將一部分存儲放在Host內(nèi)存。有代表性AdamOptimizerState是Weight的2175B參數(shù)量的GPT3模型，就有350B的OptimizerState；AdamOptimizer調(diào)度到HostCPU執(zhí)行，OptimizerState存儲到Host內(nèi)存；極大節(jié)省GPU，NPU等計(jì)算內(nèi)存空間。

OptimizerCPU執(zhí)行Content預(yù)訓(xùn)練大模型的研究現(xiàn)狀和發(fā)展趨勢如何做得更大？如何更能干？如何應(yīng)用和推理？PAGEPAGE32/40如何應(yīng)用和推理？價(jià)太高基于Prompt的微調(diào)模式受到廣泛關(guān)注基于Adapter的微調(diào)模式也可以適用于大規(guī)模預(yù)訓(xùn)練模型，但近期進(jìn)展不大傳統(tǒng)的模型蒸餾也變得代價(jià)極高，因?yàn)檎麴s過程需要在大量的數(shù)據(jù)上進(jìn)行推理其他模型壓縮算法如量化、剪枝等等都面臨新的問題PromptingMethodsforDownstreamTasksPromptingMethodsforDownstreamTasksPAGEPAGE33/40Liuetal.,Pre-train,Prompt,andPredict:ASystematicSurveyofPromptingMethodsinNaturalLanguageProcessing,arXiv:2107.

人人文庫> 全部分類> 行業(yè)資料 > 機(jī)電工程

溫馨提示

1. 本站所有資源如無特殊說明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽，若沒有圖紙預(yù)覽就沒有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 人人文庫網(wǎng)僅提供信息存儲空間，僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理，對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對任何下載內(nèi)容負(fù)責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容，請與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

2023預(yù)訓(xùn)練大模型前景探討

文檔簡介

溫馨提示

最新文檔

評論

2023預(yù)訓(xùn)練大模型前景探討

文檔簡介

溫馨提示

最新文檔

評論

相關(guān)文檔