《數(shù)智化技術(shù)應(yīng)用與創(chuàng)新》課件 第6章 走進多模態(tài)大模型新世界_第1頁
《數(shù)智化技術(shù)應(yīng)用與創(chuàng)新》課件 第6章 走進多模態(tài)大模型新世界_第2頁
《數(shù)智化技術(shù)應(yīng)用與創(chuàng)新》課件 第6章 走進多模態(tài)大模型新世界_第3頁
《數(shù)智化技術(shù)應(yīng)用與創(chuàng)新》課件 第6章 走進多模態(tài)大模型新世界_第4頁
《數(shù)智化技術(shù)應(yīng)用與創(chuàng)新》課件 第6章 走進多模態(tài)大模型新世界_第5頁
已閱讀5頁,還剩72頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

多模態(tài)技術(shù)學(xué)習(xí)與發(fā)展目標(biāo)數(shù)智化技術(shù)應(yīng)用與創(chuàng)新6.1多模態(tài)技術(shù)發(fā)展6.1Developmentofmultimodaltechnology6.2圖像及視頻處理實戰(zhàn)6.2Practicalexercisesinimageandvideoprocessing6.3多模態(tài)大模型如何解決行業(yè)問題6.3Howmultimodallargemodelssolveindustryproblems6.4多模態(tài)大模型內(nèi)容創(chuàng)作6.4ContentcreationwithmultimodallargemodelsCONTENT目錄6.5典型案例-騰訊首個開源多模態(tài)大語言模型6.5Atypicalcase:Tencent'sfirstopen-sourcemultimodallargelanguagemodel知識目標(biāo)概覽PART01多模態(tài)技術(shù)術(shù)語與基礎(chǔ)定義術(shù)語及重要性多模態(tài)技術(shù)術(shù)語理解多模態(tài)技術(shù)基礎(chǔ)基礎(chǔ)概念介紹多模態(tài)技術(shù)架構(gòu)技術(shù)框架多模態(tài)基礎(chǔ)模型發(fā)展階段模型演變階段各階段的關(guān)鍵技術(shù)介紹關(guān)鍵技術(shù)0201最新技術(shù)突破與進展技術(shù)突破03基礎(chǔ)模型演變及關(guān)鍵技術(shù)應(yīng)用案例與未來趨勢預(yù)測多模態(tài)技術(shù)實際應(yīng)用案例應(yīng)用案例預(yù)測多模態(tài)技術(shù)未來發(fā)展方向未來趨勢分析技術(shù)對行業(yè)的影響與變革技術(shù)影響能力目標(biāo)詳解PART02分析技術(shù)在實際場景中的適用性多模態(tài)技術(shù)適用性評估運用指標(biāo)量化技術(shù)實施效果效果評估方法多領(lǐng)域應(yīng)用案例參考多領(lǐng)域成功案例進行分析多模態(tài)技術(shù)應(yīng)用分析能力在圖像識別、視頻編輯中深化應(yīng)用通過模型優(yōu)化,提升圖像視頻處理質(zhì)量利用多模態(tài)大模型提升處理效率圖像視頻處理技巧多模態(tài)模型應(yīng)用處理質(zhì)量優(yōu)化圖像視頻處理能力提升運用多模態(tài)技術(shù)加速創(chuàng)作流程高效內(nèi)容創(chuàng)作結(jié)合AI輔助,確保內(nèi)容原創(chuàng)性保持原創(chuàng)性策略利用模型優(yōu)化內(nèi)容,提升創(chuàng)作質(zhì)量創(chuàng)作質(zhì)量提升內(nèi)容創(chuàng)作創(chuàng)新與效率優(yōu)化010203跨領(lǐng)域知識結(jié)合將多模態(tài)技術(shù)與其他領(lǐng)域知識融合多模態(tài)技術(shù)融合案例分析多模態(tài)技術(shù)在跨領(lǐng)域中的實際應(yīng)用融合應(yīng)用創(chuàng)新探索多模態(tài)技術(shù)在跨領(lǐng)域中的創(chuàng)新應(yīng)用跨領(lǐng)域融合應(yīng)用實踐素質(zhì)目標(biāo)培養(yǎng)PART03多學(xué)科知識整合整合不同領(lǐng)域知識技術(shù)技術(shù)融合應(yīng)用實現(xiàn)多模態(tài)技術(shù)與其他領(lǐng)域結(jié)合創(chuàng)新解決方案提出跨學(xué)科的創(chuàng)新問題解決方案跨學(xué)科知識技術(shù)整合在多模態(tài)技術(shù)中運用創(chuàng)新思維創(chuàng)新思維應(yīng)用制定高效的問題解決策略與方法問題解決策略在創(chuàng)新過程中保持技術(shù)與應(yīng)用的原創(chuàng)性原創(chuàng)性保持創(chuàng)新思維與問題解決策略團隊成員間協(xié)作完成任務(wù)團隊協(xié)作通過協(xié)作與溝通,高效執(zhí)行任務(wù)任務(wù)高效執(zhí)行確保團隊成員間信息準確傳遞有效溝通010203團隊協(xié)作與有效溝通技術(shù)倫理與社會責(zé)任認知理解技術(shù)應(yīng)用中的倫理問題技術(shù)倫理認知技術(shù)對社會的影響與責(zé)任社會責(zé)任確保技術(shù)應(yīng)用符合法律法規(guī)與社會規(guī)范合規(guī)應(yīng)用面對技術(shù)變化,保持學(xué)習(xí)動力持續(xù)學(xué)習(xí)不斷提升個人技術(shù)與能力自我提升快速適應(yīng)多模態(tài)技術(shù)的不斷發(fā)展與變革適應(yīng)技術(shù)變革持續(xù)學(xué)習(xí)與自我提升動力6.1多模態(tài)技術(shù)發(fā)展多模態(tài)技術(shù)基礎(chǔ)PART01模態(tài)定義與來源信息的來源或形式模態(tài)定義如視覺、聽覺等感官體驗如文本、圖像等信息載體圖像文本聯(lián)合分析增強信息豐富度使用MMD約束訓(xùn)練提高模型泛化能力如CLIP模型利用大規(guī)模無監(jiān)督數(shù)據(jù)提高精度與魯棒性途徑優(yōu)于單模態(tài)學(xué)習(xí)效果提供多種人機交互方式融合多種類型數(shù)據(jù)全面獲取信息提升學(xué)習(xí)效果豐富交互形式多模態(tài)技術(shù)優(yōu)勢利用未標(biāo)記數(shù)據(jù)提高泛化不完全監(jiān)督提供粗粒度標(biāo)簽不確切監(jiān)督多模態(tài)數(shù)據(jù)融合結(jié)合同質(zhì)或異質(zhì)數(shù)據(jù)弱監(jiān)督方法多模態(tài)基礎(chǔ)模型演變PART02從單一到多模態(tài)轉(zhuǎn)變0102單模態(tài)到多模態(tài)AI模型處理多種數(shù)據(jù)類型深度學(xué)習(xí)發(fā)展全面理解和處理復(fù)雜信息03技術(shù)進步研究者探索綜合處理多種數(shù)據(jù)處理復(fù)雜推理任務(wù)適應(yīng)內(nèi)存受限設(shè)備場景改變數(shù)據(jù)處理方式為AI領(lǐng)域帶來新發(fā)展方向多模態(tài)整合處理和分析數(shù)據(jù)方式變革多模態(tài)大型語言模型應(yīng)用010203圖結(jié)構(gòu)整合復(fù)雜數(shù)據(jù)多模態(tài)圖卷積網(wǎng)絡(luò)應(yīng)用深度生成模型整合MultiVI模型預(yù)測生物學(xué)特性高質(zhì)量內(nèi)容識別圖結(jié)構(gòu)實現(xiàn)對復(fù)雜數(shù)據(jù)學(xué)習(xí)基于圖的多模態(tài)學(xué)習(xí)實際應(yīng)用與發(fā)展方向PART03結(jié)合醫(yī)學(xué)影像和文本診斷疾病醫(yī)療領(lǐng)域應(yīng)用整合多源信息提高決策安全性自動駕駛應(yīng)用0201提供自然人性化交互方式人機交互體驗03多模態(tài)技術(shù)實際應(yīng)用采集噪聲小的多模態(tài)對齊數(shù)據(jù)數(shù)據(jù)處理技術(shù)學(xué)習(xí)不同粒度的對齊和遷移能力算法設(shè)計能力優(yōu)化資源提高模型效率性能計算資源配置未來研究方向6.2圖像及視頻處理實戰(zhàn)圖像智能分析與處理PART01存在識別精度與泛化能力問題提升性能,擴展應(yīng)用,增強學(xué)習(xí)能力歷經(jīng)多階段,深度學(xué)習(xí)應(yīng)用廣泛文檔識別發(fā)展歷程當(dāng)前技術(shù)不足與挑戰(zhàn)多模態(tài)大模型新方向文檔識別研究與發(fā)展涵蓋圖像描述、問答等視覺語言任務(wù)類型提高模型靈活性與效率基于適配器預(yù)訓(xùn)練模型加速模型適應(yīng)新任務(wù),提升性能遷移學(xué)習(xí)方法優(yōu)勢視覺語言預(yù)訓(xùn)練模型多模態(tài)融合在視頻理解PART02多模態(tài)融合技術(shù)原理0102模態(tài)定義與分類區(qū)分不同模態(tài)數(shù)據(jù)模態(tài)特征提取提取各模態(tài)關(guān)鍵信息03多模態(tài)融合方法時空、低高、同步異步融合摘要、檢索、情感分析多樣視頻應(yīng)用多樣化數(shù)據(jù)處理、特征表示、融合、識別關(guān)鍵問題應(yīng)用挑戰(zhàn)技術(shù)實現(xiàn)與場景適應(yīng)難題視頻理解應(yīng)用與挑戰(zhàn)內(nèi)容識別與情感分析視頻內(nèi)容復(fù)雜多變內(nèi)容識別挑戰(zhàn)提高識別準確性與魯棒性多模態(tài)融合優(yōu)勢電影預(yù)告片情感分類等情感分析應(yīng)用早中晚期融合策略多模態(tài)融合方法視頻描述、摘要、檢索、監(jiān)控行為識別應(yīng)用0201提高準確性、增強魯棒性、降低成本事件檢測優(yōu)勢03行為識別與事件檢測6.3多模態(tài)大模型如何解決行業(yè)問題語料標(biāo)注規(guī)則制定PART01參考多模態(tài)語篇基礎(chǔ)層元素分析不同類型網(wǎng)站語篇基礎(chǔ)層查閱文獻,確定企業(yè)網(wǎng)站核心符號確定核心符號資源參考基礎(chǔ)層元素示例分析基礎(chǔ)層元素確定基礎(chǔ)層標(biāo)注規(guī)則查閱文獻,為規(guī)則制定提供基礎(chǔ)文獻回顧通過訪談完善標(biāo)注規(guī)則專家訪談0201參考15%樣本網(wǎng)站的預(yù)試標(biāo)注結(jié)果預(yù)試標(biāo)注參考03查閱文獻與參考示例語料標(biāo)注操作流程PART02標(biāo)注人員選拔與培訓(xùn)選拔兩位語言學(xué)博士生選拔有經(jīng)驗博士生培訓(xùn)標(biāo)注軟件操作及規(guī)則標(biāo)注軟件使用培訓(xùn)詳細講解標(biāo)注規(guī)則內(nèi)容標(biāo)注規(guī)則說明對15%樣本進行試標(biāo)注預(yù)試標(biāo)注樣本網(wǎng)站討論分歧,達成一致標(biāo)注意見討論達成一致意見正式標(biāo)注全部樣本按編碼表對全部樣本正式分析預(yù)試標(biāo)注與正式標(biāo)注010203標(biāo)注員間信度檢驗采用簡單一致性系數(shù)檢驗各模態(tài)元素信度系數(shù)信度系數(shù)均超過0.80多輪修改完善規(guī)則通過多輪修改,確保規(guī)則符合要求處理標(biāo)注分歧信度與效度檢驗方法PART03信度系數(shù)均超0.80標(biāo)注員間信度檢驗用于信度檢驗的標(biāo)準方法簡單一致性系數(shù)對全部樣本網(wǎng)站進行正式分析全面樣本分析標(biāo)注信度檢驗過程效度檢驗及規(guī)則建立0102內(nèi)容效度檢驗確保標(biāo)注規(guī)則符合研究要求標(biāo)注規(guī)則建立文獻回顧、專家訪談、預(yù)試標(biāo)注03多輪修改完善通過多輪修改,確保規(guī)則準確性6.4多模態(tài)大模型內(nèi)容創(chuàng)作多模態(tài)大模型優(yōu)勢PART01生成內(nèi)容多樣,滿足用戶需求處理多種模態(tài)信息多模態(tài)信息激發(fā)創(chuàng)作者靈感提供創(chuàng)作靈感內(nèi)容多樣性更高,提升創(chuàng)作價值高多樣性內(nèi)容信息處理多樣性多模態(tài)大模型提高創(chuàng)作速度快速生成內(nèi)容自動完成編輯校對,減輕負擔(dān)自動編輯校對高效創(chuàng)作流程高效創(chuàng)作,提升整體效率內(nèi)容創(chuàng)作高效性內(nèi)容創(chuàng)新獨特性0102獨特創(chuàng)作風(fēng)格學(xué)習(xí)大量數(shù)據(jù),掌握獨特風(fēng)格高創(chuàng)新性內(nèi)容生成內(nèi)容創(chuàng)新,吸引用戶關(guān)注03掌握表達方式掌握多樣表達方式,豐富創(chuàng)作多模態(tài)大模型應(yīng)用PART02豐富文本創(chuàng)作素材圖像生成文本描述融合圖像與文本,激發(fā)創(chuàng)意提供靈感和創(chuàng)意空間0201多模態(tài)大模型快速生成內(nèi)容高效內(nèi)容創(chuàng)作03圖像文本交融創(chuàng)作提供真實情感表達,增強體驗結(jié)合語音與文本,提升分析精度融合語音文本,分析情感狀態(tài)語音情感準確分析真實生動情感表達多模態(tài)數(shù)據(jù)融合語音情感結(jié)合分析語音、圖像等輸入方式融合多種輸入方式融合多模態(tài)交互,加快創(chuàng)作速度提高創(chuàng)作效率融合多種模態(tài),豐富創(chuàng)作趣味性豐富創(chuàng)作手段多模態(tài)交互升級體驗6.5典型案例-騰訊首個開源多模態(tài)大語言模型VITAVITA模型概況presentationandmakeitintoafilmtousedwiderfieldpresentationandmakeitintoafilmtousedwiderfield技術(shù)細節(jié)與優(yōu)勢presentationandmakeitintoafilmtousedwiderfieldpresentationandmakeitintoafilmtousedwiderfield應(yīng)用場景presentationandmakeitintoafilmtousedwiderfieldpresentationandmakeitintoafilmtousedwiderfield未來展望presentationandmakeitintoafilmtousedwiderfieldpresentationandmakeitintoafilmtousedwiderfield目錄VITA模型概況PART01推出背景2024年8月推出時間騰訊優(yōu)圖實驗室等推出機構(gòu)首個開源多模態(tài)大語言模型創(chuàng)新之處處理視頻、圖像、文本和音頻多模態(tài)理解無需喚醒詞,隨時響應(yīng)自然交互開源先鋒為后續(xù)研究奠定基礎(chǔ)主要特點技術(shù)細節(jié)與優(yōu)勢PART02Mixtral8×7B基礎(chǔ)模型擴展詞匯量,雙語指令微調(diào)中文優(yōu)化雙重模型,生成響應(yīng)&跟蹤輸入部署方式技術(shù)細節(jié)支持視頻、圖像、文本、音頻多模態(tài)處理無需喚醒詞,隨時響應(yīng)自然交互0201一個生成,一個跟蹤,提升交互體驗雙重模型優(yōu)勢03應(yīng)用優(yōu)勢應(yīng)用場景PART03日常應(yīng)用0102日常聊天伙伴作為聊天伙伴,提供陪伴健身陪伴建議健身時提供陪伴和專業(yè)建議03旅行幫助建議旅行中提供路線規(guī)劃和建議專業(yè)領(lǐng)域多模態(tài)數(shù)據(jù)處理處理視頻、圖像、文本和音頻數(shù)據(jù)圖像視頻問答根據(jù)圖像或視頻內(nèi)容回答問題0102未來展望PART04持續(xù)增強對視頻、圖像等的處理能力根據(jù)視頻和文本生成高質(zhì)量音頻VITA將支持情感豐富的語音合成情感語音合成多模態(tài)支持升級下一代技術(shù)探索技術(shù)發(fā)展探索同時生成高質(zhì)量音頻和視頻功能音頻視頻同步生成基于用戶反饋,不斷優(yōu)化現(xiàn)有功能體驗功能持續(xù)優(yōu)化功能升

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論