書生萬象大模型的技術演進與應用探索

上傳人：策*** IP屬地：山西上傳時間：2024-11-12 格式：DOCX 頁數：91 大?。?.62MB 積分：19.9 舉報 版權申訴

已閱讀5頁，還剩86頁未讀，繼續(xù)免費閱讀

版權說明：本文檔由用戶提供并上傳，收益歸屬內容提供方，若內容存在侵權，請進行舉報或認領

文檔簡介

書生·萬象多模態(tài)大模型的目錄/OpenGVLab/InternVL未來:“通用性”一個模型多種任務多種模態(tài)深度學習理論突破深度置信網絡AlphaFold蛋白質結構預測準確率新高圍棋比賽AlphaGo4:1李世乭歷史:“特定任務+大數據”取得巨大成功未來:“通用性”一個模型多種任務多種模態(tài)深度學習理論突破深度置信網絡AlphaFold蛋白質結構預測準確率新高圍棋比賽AlphaGo4:1李世乭ImageNetImageNet競賽2016200620212012201620062021大規(guī)模語音識別大規(guī)模語音識別德州撲克首次在多人復雜對局中超越人類人臉識別LFW識別率99%,超過人類以視覺為核心的多模態(tài)大模型有望在眾多領域帶來AI生產力革命lili/OpenGVLab/InternVL/OpenGVLab/InternVL/OpenGVLab/InternVL目錄傳統(tǒng)視覺/視覺-語言基礎模型范式已落后于大語言模型的發(fā)展，亟需新的范式來推動其發(fā)展visionvisionvision?訓練數據單一、數據量小傳統(tǒng)視覺/視覺-語言基礎模型范式已落后于大語言模型的發(fā)展，亟需新的范式來推動其發(fā)展visionvisionvisionvision?訓練數據單一、數據量小?60億參數視覺模型+1000億參數語言模型?漸進式對齊視覺基礎模型和語言模型表征?大規(guī)模、多來源圖文多模態(tài)訓練數據核心思想：擴大視覺基礎模型并為通用視覺語言設計1：擴大視覺模型至6B參數/OpenGVLab/InternVL/OpenGVLab/InternVL設計1：擴大視覺模型至6B參數基于原始ViT結構，通過搜索模型深度{32,48,64,80}，注意力頭維度{64,128}，以及MLP比率{4,8}，將視覺模型擴大至6B參數，找到速度、精度、穩(wěn)定性平衡的模型核心思想：擴大視覺基礎模型并為通用視覺語言設計2：漸進式的圖像-文本對齊策略核心思想：擴大視覺基礎模型并為通用視覺語言設計2：漸進式的圖像-文本對齊策略設計2：漸進式的圖像-文本對齊策略階段1：利用海量帶噪聲的圖文數據進行對比學習預訓練（~5B圖像）階段2：利用過濾后的高質量圖文數據進行對比學習和生成式聯合訓練（~1B圖像）篩選指標：CLIP相似度,水印概率,unsafe概率,美學指標,圖片分辨率,caption長度等核心思想：擴大視覺基礎模型并為通用視覺語言設計2：漸進式的圖像-文本對齊策略從適配視覺感知任務，到適配通用視覺語言任務，極大地擴寬了ImageClassificationImageClassificationSemanticSemanticSegmentationImageClassificationImageClassificationObjectObjectDetectionInstanceSegmentationZeroInstanceSegmentationZero-ShotImageCLS.CaptioningSemanticCaptioningSemanticSegmentation…VisualQuestionAns…VisualQuestionAnsweringMulti-RoundDialogueMulti-RoundDialogue……I∈RH×W×3F∈R××C僅用不到不到三分之一參數量，實現了與ViT檢索性能優(yōu)于CLIP、OpenCLIP、CoCa等模型強零樣本圖像、視頻分類能力/OpenGVLab/InternVLhttps://github/OpenGVLab/InternVL/OpenGVLab/InternVLInternVL+LanguageAdapter->Zeroshot多語言內容生成OutputOutput(UNet,Transformer)?即插即用的為現有擴散模型增加多語言能力?只需要英文數據訓練，即可泛化到其他語言InternVL+LanguageAdapter->Zeroshot多語言內容生成只需要英文數據，即可支持超多語言/mulanai/MuLanInternVL+LanguageAdapter->Zeroshot多語言內容生成即插即用，無需對DiffusionModel做額外訓練AnimateDiffAnimateDiff目錄/OpenGVLab/InternVL）：）：理解，高分辨率非常重要。但是對于一些常）：53.6%56.8%53.6%56.8%59.4%58.5%52.8%49.9%50.5%52.1%88.3%78.2%88.1%80.3%78.1%78.0%-73.5%76.1%78.5%80.8%81.3%85.6%88.4%89.3%86.5%68.7%61.4%49.8%67.5%AI2D45.2%53.5%80.7%80.6%83.8%90.9%66.0%/OpenGVLab/InternVL/OpenGVLab/InternVL漸進式對齊訓練，通過模型"從小到大"、數據"從粗到精"的漸進式的訓練策略，以較低的成本完成了大模型的訓練，在有限資源下展現出卓越的性能表現大模型大數據僅需20%算力資源，比肩頂級閉源多模態(tài)大模型高效預訓練僅需20%算力資源，比肩頂級閉源多模態(tài)大模型/OpenGVLab/InternVL更強的OCR能力：毛筆字+豎排+繁體更強的圖表理解能力細節(jié)文字理解+文字深層含義細節(jié)文字理解+文字深層含義結合專業(yè)知識問答理解人工布置的巧妙之處httpshttps://github/OpenGVLab/InternVL

人人文庫> 全部分類> 應用文書 > 研究報告

溫馨提示

1. 本站所有資源如無特殊說明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請聯系上傳者。文件的所有權益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網頁內容里面會有圖紙預覽，若沒有圖紙預覽就沒有圖紙。
4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
5. 人人文庫網僅提供信息存儲空間，僅對用戶上傳內容的表現方式做保護處理，對用戶上傳分享的文檔內容本身不做任何修改或編輯，并不能對任何下載內容負責。
6. 下載文件中如有侵權或不適當內容，請與我們聯系，我們立即糾正。
7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

書生萬象大模型的技術演進與應用探索

文檔簡介

溫馨提示

最新文檔

評論

書生萬象大模型的技術演進與應用探索

文檔簡介

溫馨提示

最新文檔

評論

相關文檔