行業(yè)多模態(tài)大模型訓推加速落地思考-阿里云+謝榛_第1頁
行業(yè)多模態(tài)大模型訓推加速落地思考-阿里云+謝榛_第2頁
行業(yè)多模態(tài)大模型訓推加速落地思考-阿里云+謝榛_第3頁
行業(yè)多模態(tài)大模型訓推加速落地思考-阿里云+謝榛_第4頁
行業(yè)多模態(tài)大模型訓推加速落地思考-阿里云+謝榛_第5頁
已閱讀5頁,還剩46頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

阿里云/行業(yè)多模態(tài)模型負責人,高級算法專家行業(yè)多模態(tài)模型迭代范式多模態(tài)生成多模態(tài)生成參數(shù):1.5B、7B、72B、xxxB看見且看懂:動態(tài)分辨率、OCR增強、視覺內容解析聽見且聽懂:多語言理解、音樂鑒賞、情感分析等能力長上下文窗口、代碼、數(shù)學、多語言多模態(tài)檢索多模態(tài)檢索多模態(tài)內容生成多模態(tài)內容理解多模態(tài)內容生成多模態(tài)大模型MLLM/VLM多模態(tài)大模型MLLM/VLM性本本否低高否低低高弱能能高高強ASurveyofLLMASurveyonMultimodalLargeLanguageModels2024.02.12024.2-Gemini2024.02.12024.2-MeteorChameleonInternVL1.5Grok-1.5VInternLM-XComposer2-4KHDFerret-UICuMo,Ovis……Claude-3.5Sonnet2024.06.212024.6EVLMVILA^2Llava-NextVideoPaliGemmaInternvLInternVL2InternLM-XComposer2.5SOLO,IDA-VLM,MoME,SlowFast-LLaMA……Grok-22024.08.132024.8Mini-InternVLCAriaCAriaNVLMmPLUG-DocOwl22024.11-122024.11-12Pixtral,Ferret-UI2……MoE-LLaVAMeituanMoblieVLMV2LWMDeepSeek-VLMini-GeminiMM1LLaVA-Next,ALLaVA2024.4-5GPT-4o2024.05.132024.7ParrotGLM-4VVideoLLaMA2Phi-3-VisionLlava-NextInterleaveCambrain-1EVE,LongVA……Llava-NextOneVisionmPLUG-Owl3MoMaTransFusionBLIP-3LongVILACogVLM2SHOW-O,Eagle2024.9-10LLaMA3.2Qwen2-VL2024.09.18O1-Pro2024.12.09Gemini2.02024.12.11LLaVA-cotTokenFlowMoE端側/小模型全模態(tài)(+audio)decoder-onlyReasoning行業(yè)多模態(tài)場景-AIcitychallengeAIcitychallenge有CVPR和英偉達主辦,旨在推動智慧城市發(fā)展隨著?模型技術爆發(fā),2024年特此開設多模態(tài)城市交通安全分析賽道3.環(huán)境背景復雜4.結果長文本描述modeldatadatafusedfusedmodelsmodelsVLMsVLMs行業(yè)模型迭代行業(yè)模型迭代Pipeline多模態(tài)RAG領域/動態(tài)知識CityLLaVA:EfficientFine-tuningforVlmsinCityScenarioThe1stPlaceSolutiontoThe8thNVIDIAAICityChallenge(CVPR2024workshop)Track2Global&LocalViewswithVisualPromptsQA自動生成關鍵點提煉視覺提示擴寫改寫LoRA及其變種LoRA及其變種全量微調方法說明添加低秩矩陣來適應新任務,顯著減少可訓練參數(shù)數(shù)量更新模型的所有參數(shù)添加新transformerlayer/MLP等模型層,新層經(jīng)過ZeRO初始化,保證模型增量訓練的穩(wěn)定性適用場景目標場景和任務在基模訓練基本覆蓋;微調主要聚焦關注點,調整整輸出形式;數(shù)據(jù)量較小,GPU資源不足目標場景和任務在基模幾乎不覆蓋,基模在該場景能力較差;訓練的數(shù)據(jù)量較大,GPU資源充足有相對足夠的場景數(shù)據(jù),希望盡可能減少訓練造成災難性遺忘,對于模型推理時延變長不敏感優(yōu)點訓練消耗資源??;減少過擬合;模型不會產(chǎn)生額外的推理時部署成本較低;通常可以在新的場景和新的任務上達到很好的性能;學習新知識能力強;兼顧學習新知識的能力,保持模型的通用能力;比全量微調就更好的穩(wěn)定性缺點無法學習到太多新的知識;在復雜或較為困難的任務上作用不大;訓練所需的機器資源龐大;數(shù)據(jù)量較低時容易過擬合及災難性遺忘;額外的推理的成本;KV-Cache優(yōu)化、量化加IVTP:指令指導的視覺Token剪枝技術(a)與模型架構緊密耦合:ViT和LLM之間插入可學習的聚合模塊,如BLIP2、Qwen-VL等,難以移植到其他模型框架BLIP2利用多層transformer壓縮視覺tokenQwen-vlQwen-vl通過單層互注TokenPacker在ViT和LLM中引入更為細粒度的視覺token聚合策更為細粒度的視覺token聚合策略量(b)針對純視覺ViT剪枝:ViT內部各層中插入聚合模塊,如ELIP、ToMe等,VLM凍結視覺編碼Tome在ViT中插入token聚合層結構ELIP利用文本信息指導ViT層間的視覺token壓縮IVTP:指令指導的視覺Token剪枝技術(a)與模型架構緊密耦合:ViT和LLM之間插入可學習的聚合模塊,如BLIP2、Qwen-VL等,難以移植到其他模型框架(b)針對純視覺ViT剪枝:ViT內部各層中插入聚合模塊,如ELIP、ToMe等,VLM凍結視覺編碼(c)分別在ViT和LLM中進行雙階段剪枝,考慮可遷移性、端否是弱業(yè)界方法b是否強ours是是強IVTP:指令指導的視覺Token剪枝技術有選擇性地剔除冗余的視覺信息,精簡token表征,在盡量不影響模型效果的前提下提升模型訓練和推理效率。STEP1:在視覺編碼器,提出分組token修剪(GTP)模塊根據(jù)ViT中的內在視覺CLStoken篩選低信息內容的冗余tokenSTEP2:在LLM的淺層,引入CLIP將文本指令聚合到文本CLStoken,再次利用GTP模塊,消除與當前query相關性低的視覺tokenIVTP:指令指導的視覺Token剪枝技術有選擇性地剔除冗余的視覺信息,精簡token表征,在盡量不影響模型效果的前提下提升模型訓練和推理效率。實驗結果表明,在12個基準測試中,實驗結果表明,在12個基準測試中,精度幾乎無損(小于1%)的情況下,視覺token數(shù)量減少了88.9%,計算復雜度降低了超過46%,顯著超過了現(xiàn)有的token剪枝方法`IVTP方法計算復雜度下降39.6%比同等指標下SOTA下降31.4%原始圖像TopK原始圖像TopKours原始圖像TopKours特征可視化`重訓練后,比無剪枝baseline精度更高可以以更少的token保證精度模型效果基本無損時(誤差0.5%)IPTV方法計算復雜度下降40.9%比同等指標下SOTA下降23.7%。總結-takeawayl模型發(fā)展關注點:理解生成統(tǒng)一、MoE、端側/小模型、全模態(tài)(+audio)、Reasoning等l行業(yè)多模態(tài)大模型效果提升:prompt優(yōu)化;?效微調;RAG/推理增強l多模態(tài)大模型能力提升l1)高效視覺表征或訓練方法;l2)理解與生成更高效的結合;l3)高效的數(shù)據(jù)構建生成方法;l多模態(tài)RAG、智能體l大模型高效訓推、模型小型化文字建議字體中文字體:微軟雅黑文字建議字體中文字體:微軟雅黑為保證文件兼容性,如無特殊情況,請勿使用其他藝術字體英文&數(shù)字字體Arial使用專有的英文字體可以使版面更加美觀,可以讓強調的英文&數(shù)字細節(jié)顯示更優(yōu)美,經(jīng)得起放大細看考慮到工作效率,非重要的文件無需考慮此項,而對文本中的英文數(shù)字單獨設置字體。字號標題字號:28*可以多使用8為尾數(shù)的字號,如:18、28、48、6

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論