




版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
書生·萬象多模態(tài)大模型的目錄/OpenGVLab/InternVL未來:“通用性”一個模型多種任務多種模態(tài)深度學習理論突破深度置信網絡AlphaFold蛋白質結構預測準確率新高圍棋比賽AlphaGo4:1李世乭歷史:“特定任務+大數據”取得巨大成功未來:“通用性”一個模型多種任務多種模態(tài)深度學習理論突破深度置信網絡AlphaFold蛋白質結構預測準確率新高圍棋比賽AlphaGo4:1李世乭ImageNetImageNet競賽2016200620212012201620062021大規(guī)模語音識別 大規(guī)模語音識別 德州撲克首次在多人復雜對局中超越人類人臉識別LFW識別率99%,超過人類以視覺為核心的多模態(tài)大模型有望在眾多領域帶來AI生產力革命lili/OpenGVLab/InternVL/OpenGVLab/InternVL/OpenGVLab/InternVL目錄傳統(tǒng)視覺/視覺-語言基礎模型范式已落后于大語言模型的發(fā)展,亟需新的范式來推動其發(fā)展visionvisionvision?訓練數據單一、數據量小傳統(tǒng)視覺/視覺-語言基礎模型范式已落后于大語言模型的發(fā)展,亟需新的范式來推動其發(fā)展visionvisionvisionvision?訓練數據單一、數據量小?60億參數視覺模型+1000億參數語言模型?漸進式對齊視覺基礎模型和語言模型表征?大規(guī)模、多來源圖文多模態(tài)訓練數據核心思想:擴大視覺基礎模型并為通用視覺語言設計1:擴大視覺模型至6B參數/OpenGVLab/InternVL/OpenGVLab/InternVL設計1:擴大視覺模型至6B參數基于原始ViT結構,通過搜索模型深度{32,48,64,80},注意力頭維度{64,128},以及MLP比率{4,8},將視覺模型擴大至6B參數,找到速度、精度、穩(wěn)定性平衡的模型核心思想:擴大視覺基礎模型并為通用視覺語言設計2:漸進式的圖像-文本對齊策略核心思想:擴大視覺基礎模型并為通用視覺語言設計2:漸進式的圖像-文本對齊策略設計2:漸進式的圖像-文本對齊策略階段1:利用海量帶噪聲的圖文數據進行對比學習預訓練(~5B圖像)階段2:利用過濾后的高質量圖文數據進行對比學習和生成式聯合訓練(~1B圖像)篩選指標:CLIP相似度,水印概率,unsafe概率,美學指標,圖片分辨率,caption長度等核心思想:擴大視覺基礎模型并為通用視覺語言設計2:漸進式的圖像-文本對齊策略從適配視覺感知任務,到適配通用視覺語言任務,極大地擴寬了ImageClassificationImageClassificationSemanticSemanticSegmentationImageClassificationImageClassificationObjectObjectDetectionInstanceSegmentationZeroInstanceSegmentationZero-ShotImageCLS.CaptioningSemanticCaptioningSemanticSegmentation…VisualQuestionAns…VisualQuestionAnsweringMulti-RoundDialogueMulti-RoundDialogue……I∈RH×W×3F∈R××C僅用不到不到三分之一參數量,實現了與ViT檢索性能優(yōu)于CLIP、OpenCLIP、CoCa等模型強零樣本圖像、視頻分類能力/OpenGVLab/InternVLhttps://github/OpenGVLab/InternVL/OpenGVLab/InternVLInternVL+LanguageAdapter->Zeroshot多語言內容生成OutputOutput(UNet,Transformer)?即插即用的為現有擴散模型增加多語言能力?只需要英文數據訓練,即可泛化到其他語言InternVL+LanguageAdapter->Zeroshot多語言內容生成只需要英文數據,即可支持超多語言/mulanai/MuLanInternVL+LanguageAdapter->Zeroshot多語言內容生成即插即用,無需對DiffusionModel做額外訓練AnimateDiffAnimateDiff目錄/OpenGVLab/InternVL):):理解,高分辨率非常重要。但是對于一些常):53.6%56.8%53.6%56.8%59.4%58.5%52.8%49.9%50.5%52.1%88.3%78.2%88.1%80.3%78.1%78.0%-73.5%76.1%78.5%80.8%81.3%85.6%88.4%89.3%86.5%68.7%61.4%49.8%67.5%AI2D45.2%53.5%80.7%80.6%83.8%90.9%66.0%/OpenGVLab/InternVL/OpenGVLab/InternVL漸進式對齊訓練,通過模型"從小到大"、數據"從粗到精"的漸進式的訓練策略,以較低的成本完成了大模型的訓練,在有限資源下展現出卓越的性能表現大模型大數據僅需20%算力資源,比肩頂級閉源多模態(tài)大模型高效預訓練僅需20%算力資源,比肩頂級閉源多模態(tài)大模型/OpenGVLab/InternVL更強的OCR能力:毛筆字+豎排+繁體更強的圖表理解能力細節(jié)文字理解+文字深層含義細節(jié)文字理解+文字深層含義結合專業(yè)知識問答理解人工布置的巧妙之處httpshttps://github/OpenGVLab/InternVL
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 二零二五年度商業(yè)秘密合作轉讓合同協議
- 二零二五年度豬肉市場風險預警與應對合同
- 二零二五年度社區(qū)服務兼職志愿者服務協議
- 二零二五年度成人外語培訓機構報名服務協議
- 二零二五年度手貨車車輛轉讓與汽車金融服務及市場推廣合同
- 2025年度游學旅游線路研發(fā)與推廣協議
- 2025年度珠寶首飾返傭金代理合同
- 2025年度混凝土班組勞務合作施工進度合同
- 二零二五年度精裝修房屋買賣合同違約賠償標準
- 二零二五年度房產交易全程服務協議范本
- 尺寸鏈的計算表格
- 夏玉米套種辣椒技術
- 學術規(guī)范與寫作課件
- 絕緣電阻測試儀安全操作規(guī)程
- DB6101T 197-2022 藤蔓類尾菜堆肥技術規(guī)程
- 西藏房屋建筑工程竣工材料全套表格
- 量子力學英文課件格里菲斯Chapter4
- 鍋爐節(jié)能管理制度
- 2023年道路交通安全法實施條例
- 鹽城市殘疾人康復機構認定暫行辦法
- 護理不良事件管理、上報制度及流程
評論
0/150
提交評論