多模態(tài)數(shù)據(jù)融合與檢索技術PPT完整全套教學課件_第1頁
多模態(tài)數(shù)據(jù)融合與檢索技術PPT完整全套教學課件_第2頁
多模態(tài)數(shù)據(jù)融合與檢索技術PPT完整全套教學課件_第3頁
多模態(tài)數(shù)據(jù)融合與檢索技術PPT完整全套教學課件_第4頁
多模態(tài)數(shù)據(jù)融合與檢索技術PPT完整全套教學課件_第5頁
已閱讀5頁,還剩222頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權,請進行舉報或認領

文檔簡介

多模態(tài)數(shù)據(jù)融合與檢索技術

第1章:引言主要內(nèi)容1.2研究內(nèi)容1.1研究背景與意義多模態(tài)數(shù)據(jù)研究背景大數(shù)據(jù)時代:我們的生活和工作都需要大數(shù)據(jù)的支持,大數(shù)據(jù)給予我們豐富多彩的信息,我們也能夠挖掘數(shù)據(jù)內(nèi)部與信息之間的關系,這些“微妙”的關系在生活與生產(chǎn)中能大大減少人力物力,有效提高生活品質與生產(chǎn)效率,因此也可以說,大數(shù)據(jù)已經(jīng)成為了人類社會向前邁進的基石。多模態(tài)數(shù)據(jù)研究背景模態(tài):信息接收的特定方式。模態(tài)所包含的內(nèi)容之間的互信息可能很大也可能很小,但最終的指向卻是一種事物。多模態(tài)數(shù)據(jù)研究背景多模態(tài):兩個或者兩個以上不同模態(tài)數(shù)據(jù)的組合。多模態(tài)數(shù)據(jù)包含了常見的文字,圖像,視頻等多種模態(tài)數(shù)據(jù),可應用于無人駕駛、語音-文字、圖文搜索等多個領域。多模態(tài)數(shù)據(jù)研究意義多模態(tài)數(shù)據(jù)能夠提取更豐富的信息,通過不同模態(tài)數(shù)據(jù)之間的相互支撐、修正和融合,更深入理解與剖析待描述事物。多模態(tài)數(shù)據(jù)能夠提供多角度的描述,通過不同角度的數(shù)據(jù)進行它們之間的集成與補充,提高待描述事物所含信息的精準度與安全性。多模態(tài)數(shù)據(jù)能夠獲得更強大的應用效果,通過數(shù)據(jù)對信息的不同敏感性,在對信息進行捕捉時可以達到多方位的收集和解析,增強信息的多樣表達性和多模呈現(xiàn)性。多模態(tài)數(shù)據(jù)能夠達到更穩(wěn)定的系統(tǒng)性能,在信息對抗與信息加密上由于不同模態(tài)的相互加持,增加了魯棒性、抗干擾性和自控性,因此在對信息質量要求較高時,我們往往采用多模態(tài)數(shù)據(jù)進行描述與處理。主要內(nèi)容1.2研究內(nèi)容1.1研究背景與意義1.2.2多模態(tài)數(shù)據(jù)檢索技術1.2.1多模態(tài)數(shù)據(jù)融合技術1.2研究內(nèi)容1.2.1多模態(tài)數(shù)據(jù)融合技術數(shù)據(jù)融合:又被稱為信息融合技術,是為了達成某個目標而對多個信息進行綜合處理的過程。多模態(tài)數(shù)據(jù)融合:利用計算機對多種模態(tài)信息進行綜合處理的技術。對不同種類的多模態(tài)數(shù)據(jù)進行集成整合,聯(lián)合學習各模態(tài)數(shù)據(jù)的潛在共享信息,以獲取對客觀物體的狀態(tài)與環(huán)境信息更為準確的描述與判斷,進而提升表達精準性。1.2.1多模態(tài)數(shù)據(jù)融合技術多模態(tài)數(shù)據(jù)融合技術研究重點:對于多傳感器取得的不同模態(tài)數(shù)據(jù)選取最優(yōu)的特征識別方法和融合算法。這些算法通過完成多種不同傳感器信息的協(xié)調與互補,改善基于不確定數(shù)據(jù)的決策過程,來解決普通方法所無法確定的問題。多模態(tài)數(shù)據(jù)融合技術主要方向:探索不同模態(tài)之間的關聯(lián)性,挖掘各個模態(tài)間的特有信息與共享信息,并通過模態(tài)間信息的互補來學習更加準確的復雜數(shù)據(jù)特征,以支撐后續(xù)的研究工作。1.2.1多模態(tài)數(shù)據(jù)融合技術多模態(tài)數(shù)據(jù)融合具體操作:第一階段:多模態(tài)數(shù)據(jù)的匯聚,將所有模態(tài)的信息匯聚成較大的集合。第二階段:多模態(tài)數(shù)據(jù)的消除,將重合度與相關度過大甚至同樣的信息進行去除。第三階段:多模態(tài)數(shù)據(jù)的整合,將剩余的模態(tài)數(shù)據(jù)進行重新整合,得到新的融合數(shù)據(jù)。1.2.1多模態(tài)數(shù)據(jù)融合技術多模態(tài)數(shù)據(jù)融合應用:遙感影像融合:一個對多遙感器的影像數(shù)據(jù)和其他信息的處理過程,它著重于把那些在空間或時間上冗余或互補的多源數(shù)據(jù),按一定的規(guī)則進行運算處理,獲得比任何單一數(shù)據(jù)更精確、更豐富的信息,生成一幅具有新的空間、波譜、時間特征的合成影像。多光譜影像全色影像融合影像1.2.1多模態(tài)數(shù)據(jù)融合技術多模態(tài)數(shù)據(jù)融合應用:智能機器人:一種將傳感器以及所產(chǎn)生的多模態(tài)信息作為感受周圍環(huán)境的手段,能夠擁有與人類相似的感受、做出與人類類似的反應的智能設備。1.2.1多模態(tài)數(shù)據(jù)融合技術多模態(tài)數(shù)據(jù)融合應用:自動駕駛汽車:一種通過計算機系統(tǒng)實現(xiàn)無人駕駛的智能汽車,采用視頻攝像頭、雷達傳感器以及激光測距器等來感知周圍的交通狀況,并通過前期人工駕駛汽車采集到的詳盡地圖對前方的道路進行導航。1.2.1多模態(tài)數(shù)據(jù)融合技術多模態(tài)數(shù)據(jù)融合應用:醫(yī)學圖像融合:為了將有效信息進行融合而綜合使用多種醫(yī)學成像模式,幫助臨床工作人員快速獲取感興趣的病理信息。CT圖像PET圖像融合影像1.2.2多模態(tài)數(shù)據(jù)檢索技術1.2.1多模態(tài)數(shù)據(jù)融合技術1.2研究內(nèi)容1.2.2多模態(tài)數(shù)據(jù)檢索技術數(shù)據(jù)檢索:利用已擁有的數(shù)據(jù)在大量多樣數(shù)據(jù)中進行搜索,并得到期待數(shù)據(jù)的過程。多模態(tài)數(shù)據(jù)檢索:以一種模態(tài)的數(shù)據(jù)作為請求,檢索出最相關的另外一種或多種模態(tài)的數(shù)據(jù),豐富人們對于事物的認知和理解。其核心在于建立不同模態(tài)信息之間的關聯(lián),有效的度量不同模態(tài)數(shù)據(jù)的相似性。1.2.2多模態(tài)數(shù)據(jù)檢索技術多模態(tài)數(shù)據(jù)檢索應用:民用:常應用于搜索層面與互聯(lián)網(wǎng)領域,例如文字、圖像、音頻、視頻等數(shù)據(jù)。軍用:常應用于某地區(qū)的軍事偵察范圍,例如經(jīng)濟、文化、政治、氣候等信息。多模態(tài)數(shù)據(jù)融合與檢索技術

第2章:多模態(tài)學習2.3多模態(tài)數(shù)據(jù)融合與檢索技術2.2多模態(tài)學習2.1多模態(tài)數(shù)據(jù)概述主要內(nèi)容2.1.2異源多模態(tài)數(shù)據(jù)2.1.1異構多模態(tài)數(shù)據(jù)2.1多模態(tài)數(shù)據(jù)概述2.1.1異構多模態(tài)數(shù)據(jù)異構多模態(tài)數(shù)據(jù):由不同的媒介產(chǎn)生的模態(tài)數(shù)據(jù),包括文字、圖像、照片、聲音、動畫和影片。文本圖像動畫聲音視頻2.1.2異源多模態(tài)數(shù)據(jù)2.1.1異構多模態(tài)數(shù)據(jù)2.1多模態(tài)數(shù)據(jù)概述2.1.2異源多模態(tài)數(shù)據(jù)異源多模態(tài)數(shù)據(jù):來自不同傳感器的同一類媒介產(chǎn)生的數(shù)據(jù)。紅外圖像合成孔徑雷達(SAR)圖像超聲診斷圖像(B超)計算機斷層掃描圖像(CT)2.3多模態(tài)數(shù)據(jù)融合與檢索技術2.2多模態(tài)學習2.1多模態(tài)數(shù)據(jù)概述主要內(nèi)容2.2多模態(tài)學習2.2.3多模態(tài)學習實際應用2.2.2多模態(tài)學習研究進展2.2.1多模態(tài)學習分類概述2.2.4多模態(tài)學習研究展望2.2.1多模態(tài)學習分類概述多模態(tài)學習:多模態(tài)數(shù)據(jù)的挖掘分析過程可被理解為“多模態(tài)學習”,目的是建立一個能處理和關聯(lián)多種模態(tài)信息的模型,有效的“多模態(tài)學習”可獲得更豐富的語義信息,進而提升待表示事物的整體性能?;谀P偷亩嗄B(tài)學習:表示學習與協(xié)同學習基于任務的多模態(tài)學習:轉化任務,融合任務,檢索任務。傳統(tǒng)多模態(tài)學習前沿多模態(tài)學習1970-20102.2.1多模態(tài)學習分類概述多模態(tài)表示學習(MultimodalRepresentation):通過利用多模態(tài)之間的互補性和關聯(lián)性,剔除模態(tài)間的冗余性,從而為每個模態(tài)提取最具有判別性的特征表示,以幫助它們學習到更好的特征表示,并最終表示和匯總成多模式數(shù)據(jù)。包括兩大研究方向:聯(lián)合表示學習與協(xié)同表示學習。2.2.1多模態(tài)學習分類概述聯(lián)合表示學習(JointRepresentations):將多個單模態(tài)投影到一個共享的子空間。以便能夠融合多個模態(tài)的特征,形成一個多模態(tài)向量空間。2.2.1多模態(tài)學習分類概述協(xié)同表示學習(CoordinatedRepresentations):多模態(tài)中的每個模態(tài)分別映射到各自的表示空間,但映射后的向量之間滿足一定的相關性約束,例如線性相關。2.2.1多模態(tài)學習分類概述多模態(tài)協(xié)同學習(MultimodalCo-learning):使用一個資源豐富的模態(tài)信息來輔助另一個資源相對貧瘠的模態(tài)進行學習。遷移學習(TransferLearning):從相關領域中遷移標注數(shù)據(jù)或者知識結構來完成或改進目標領域的學習效果。2.2.1多模態(tài)學習分類概述多模態(tài)協(xié)同學習(MultimodalCo-learning):使用一個資源豐富的模態(tài)信息來輔助另一個資源相對貧瘠的模態(tài)進行學習。鄰域適應性(DomainAdaptation):解決將訓練域上學習到的模型應用到目標域中,利用信息豐富的源域樣本來提升目標域模型的性能。2.2.1多模態(tài)學習分類概述多模態(tài)轉化(MultimodalTranslation):也稱為映射,是將一個模態(tài)的數(shù)據(jù)信息轉換為另一個模態(tài)的數(shù)據(jù)信息。2.2.1多模態(tài)學習分類概述多模態(tài)融合(MultimodalFusion):通過聯(lián)合多個模態(tài)的信息,進行目標預測(分類或者回歸)任務,常見的應用包括視頻與音頻識別、手機身份認證、多模態(tài)情感分析等。視頻與音頻識別:分別提取音頻以及視頻的特征信息,再將有用的信息綜合起來作為某一個實例的融合特征,從而進行識別工作。2.2.1多模態(tài)學習分類概述多模態(tài)融合(MultimodalFusion):通過聯(lián)合多個模態(tài)的信息,進行目標預測(分類或者回歸)任務,常見的應用包括視頻與音頻識別、手機身份認證、多模態(tài)情感分析等。手機身份認證:利用手機的多傳感器信息,提取融合之后用于認證手機使用者是否是注冊用戶。2.2.1多模態(tài)學習分類概述多模態(tài)融合(MultimodalFusion):通過聯(lián)合多個模態(tài)的信息,進行目標預測(分類或者回歸)任務,常見的應用包括視頻與音頻識別、手機身份認證、多模態(tài)情感分析等。多模態(tài)情感分析:利用多個模態(tài)的數(shù)據(jù),得到更加準確的情感類型判斷結果。2.2.1多模態(tài)學習分類概述多模態(tài)檢索(MultimodalRetrieval):對來自同一個實例的不同模態(tài)信息的子分支或元素尋找對應關系,多模態(tài)檢索可分為時間維度、空間維度。時間維度空間維度2.2多模態(tài)學習2.2.3多模態(tài)學習實際應用2.2.2多模態(tài)學習研究進展2.2.1多模態(tài)學習分類概述2.2.4多模態(tài)學習研究展望2.2.2多模態(tài)學習研究進展多模態(tài)學習可應用于語音識別和生成、圖像識別、事件監(jiān)測、情感分析和跨媒體檢索等方面,賦予機器理解和融合圖像、語音、文字、視頻等模態(tài)所包含信息的能力。主要包含三種應用領域:視聽語音識別多媒體內(nèi)容索引和檢索多模態(tài)交互多模態(tài)學習表示學習協(xié)同學習轉換融合檢索視聽語音識別√√

√√多模態(tài)檢索√√√

√情感與影響

2.2多模態(tài)學習2.2.3多模態(tài)學習實際應用2.2.2多模態(tài)學習研究進展2.2.1多模態(tài)學習分類概述2.2.4多模態(tài)學習研究展望2.2.3多模態(tài)學習實際應用AlphaGO:世界圍棋第一人柯潔九段在和AlphaGo的圍棋終極人機大戰(zhàn)以0:3完敗,成為人類頂尖高手與這臺機器之間的最后一次較量。2.2.3多模態(tài)學習實際應用DeepLTranslator:在AI的輔助下,通過神經(jīng)網(wǎng)絡的學習,提供更好的翻譯結果,使不同文化更加貼近。它支持文檔翻譯和多種手寫語言的翻譯,實現(xiàn)了文本、視覺等模態(tài)信息的交流互通。2.2.3多模態(tài)學習實際應用自動駕駛汽車:通過多模態(tài)融合的方式更加準確引導車輛駕駛,包括超聲波雷達、毫米波雷達、激光雷達以及攝像頭多種信息感知設備。2.2.3多模態(tài)學習實際應用Facebook:運用機器學習讓網(wǎng)絡社交變得更加有趣、方便,提升了用戶的體驗度。包括風格遷移、文字翻譯、圖像-文字描述、人臉識別、自動監(jiān)測、搜索推薦。2.2.3多模態(tài)學習實際應用淘寶:網(wǎng)絡模型基于全球規(guī)模最大的商品認知圖譜以及全球首個每日萬億量級的云端協(xié)同圖神經(jīng)網(wǎng)絡,支持4億商品對應的圖像和視頻檢索,可利用自然語言學習、實時機器翻譯、語義識別等技術輔助店小蜜、實時翻譯、商品評價分析等關鍵鏈路。2.2.3多模態(tài)學習實際應用語音助手(Siri、Cortana):聽懂用戶需求并做出對應的操作,省去手動操作的困擾。智能音箱(小度、小愛同學):與智能家居相聯(lián)系,實現(xiàn)語音控制操作的功能,在很大程度上改善了人們生活習慣。圖像識別與標準(騰訊):減少了人工消耗,提高了識別進度與正確率。商品推薦系統(tǒng)(阿里巴巴):便捷了用戶對于同一類商品的需求搜索,實時更新的商品推薦也為用戶提供了更為新穎的購物體驗。自動駕駛汽車(特斯拉):通過輸入視覺信息、雷達信息、位置信息、語音信息、自然語言信息等,自動識別行人,障礙物,綜合信息后決定汽車的行駛方向與速度。2.2多模態(tài)學習2.2.3多模態(tài)學習實際應用2.2.2多模態(tài)學習研究進展2.2.1多模態(tài)學習分類概述2.2.4多模態(tài)學習研究展望2.2.4多模態(tài)學習研究展望多模態(tài)表示學習:主流方法局限于靜態(tài)條件下,如何進行動態(tài)學習是之后研究的主要方向。多模態(tài)協(xié)同學習:如何挖掘得到盡可能多的模態(tài)間的不同信息來促進模型的學習是一個很有價值的研究方向。多模態(tài)轉化任務:如何找到合適的主觀評價指標來適用于不同類型的轉化任務是未來的主要研究方向。多模態(tài)融合任務:由于每一種模態(tài)有可能會受到不同類型和不同程度的噪聲影響,如何解決多模態(tài)融合過程中的噪聲干擾是未來的主要研究方向。多模態(tài)檢索任務:解決針對不同模態(tài)數(shù)據(jù)設計相似度度量指標的問題;解決檢索精度受噪聲影響大,元素匹配錯位時模型性能下降嚴重的問題;解決由于媒介或成像機理不同,導致檢索過程會出現(xiàn)一對多的關系的問題。2.3多模態(tài)數(shù)據(jù)融合與檢索技術2.2多模態(tài)學習2.1多模態(tài)數(shù)據(jù)概述主要內(nèi)容2.3多模態(tài)數(shù)據(jù)融合與檢索技術2.3.2多模態(tài)數(shù)據(jù)檢索2.3.1多模態(tài)數(shù)據(jù)融合2.3.1多模態(tài)數(shù)據(jù)融合多模態(tài)數(shù)據(jù)融合:早期融合(EarlyFusion):先從每種模態(tài)中分別提取特征,這些特征很大程度上直接代表模態(tài),然后在特征級別進行不同方法的融合,即特征融合。2.3.1多模態(tài)數(shù)據(jù)融合多模態(tài)數(shù)據(jù)融合:后期融合(LateFusion):不在原始的數(shù)據(jù)維度上進行融合處理,而是對每種模態(tài)的數(shù)據(jù)分別用不同的算法模型進行訓練學習,將得到的不同結果以某種決策方式進行融合以得到最終的決策結果。2.3.1多模態(tài)數(shù)據(jù)融合多模態(tài)數(shù)據(jù)融合:中期融合(IntermediateFusion):針對不同模態(tài)數(shù)據(jù)的特點選擇不同的神經(jīng)網(wǎng)絡架構。圖像采用卷積神經(jīng)網(wǎng)絡(CNN);文本音頻等序列化數(shù)據(jù)采用循環(huán)神經(jīng)網(wǎng)絡(RNN);或選擇多個全連接層完成特征提取。然后通過共享表示層對不同的特征表示進行融合。2.3.1多模態(tài)數(shù)據(jù)融合多模態(tài)數(shù)據(jù)融合傳統(tǒng)方法:基于規(guī)則的融合方法:在時間對齊程度較高的多模態(tài)數(shù)據(jù)上能取得較好的效果,常見的方法是線性加權融合法?;诜诸惖娜诤戏椒ǎ簩⒍嗄B(tài)觀測的結果分類到預定義的類別中。分類的方法包括有支持向量機、貝葉斯推理、D-S理論、動態(tài)貝葉斯網(wǎng)絡和最大熵模型等?;诠烙嫷娜诤戏椒ǎ喊柭鼮V波、擴展卡爾曼濾波和粒子濾波融合方法。這些方法能夠根據(jù)多模態(tài)數(shù)據(jù)來更好地估計運動目標的狀態(tài)。2.3.1多模態(tài)數(shù)據(jù)融合多模態(tài)數(shù)據(jù)融合前沿方法:基于池化的融合方法:它通過計算視覺特征向量與文字特征向量兩者的外積來創(chuàng)造聯(lián)合表示空間,便于進行特征向量融合,以及多模態(tài)向量中所有元素之間的乘法交互?;谏疃葘W習的融合方法:算法中所使用的的深度模型大致可以分為判別模型和生成模型,將注意力集中在特征圖的特定區(qū)域或特征序列的特定時間步長上,可以提高整體性能與特征提取的可譯性。基于圖神經(jīng)網(wǎng)絡的融合方法:不僅適用于各個模態(tài)內(nèi)的拓撲關系圖建模,還適用于多個模態(tài)間的拓撲關系建模。它能夠傳遞更多的多模態(tài)數(shù)據(jù)信息,增強模型的可譯性與最終結果。2.3多模態(tài)數(shù)據(jù)融合與檢索技術2.3.2多模態(tài)數(shù)據(jù)檢索2.3.1多模態(tài)數(shù)據(jù)融合2.3.2多模態(tài)數(shù)據(jù)檢索多模態(tài)數(shù)據(jù)檢索:是以一種模態(tài)的數(shù)據(jù)作為請求,檢索出最相關的另外一種模態(tài)形式的數(shù)據(jù)。策略一:學習一個多模態(tài)數(shù)據(jù)的共享層,基于共享層來建模各模態(tài)數(shù)據(jù)之間的關聯(lián)。2.3.2多模態(tài)數(shù)據(jù)檢索多模態(tài)數(shù)據(jù)檢索:是以一種模態(tài)的數(shù)據(jù)作為請求,檢索出最相關的另外一種模態(tài)形式的數(shù)據(jù)。策略二:將不同模態(tài)的數(shù)據(jù)經(jīng)過抽象后都映射到一個公共的表示空間,在該表示空間中建立不同模態(tài)間的關聯(lián)。2.3.2多模態(tài)數(shù)據(jù)檢索多模態(tài)數(shù)據(jù)檢索傳統(tǒng)方法:基于典型相關分析法的檢索方法:優(yōu)化統(tǒng)計值來學習線性投影矩陣,主要用于數(shù)據(jù)分析和降維,能夠進行多個空間的聯(lián)合降維?;谄钚《朔ǖ臋z索方法:通過潛在變量對多種模態(tài)之間的關系進行建模。相比于典型相關分析法,還具備了去噪音、突出主要潛變量等其他優(yōu)點,有利于優(yōu)化基于相關性的跨模態(tài)信息檢索的結果?;陔p線性模型法的檢索方法:使用雙線性模型來學習近似解,不明確地描述問題的內(nèi)在幾何或物理現(xiàn)象,具有廣泛的適用性?;趥鹘y(tǒng)哈希的檢索方法:解決了需要在大量的高維數(shù)據(jù)中檢索出最相似數(shù)據(jù)的情況,而檢索過程需要采用索引技術,其中哈希法是最為常用的一種方法。2.3.2多模態(tài)數(shù)據(jù)檢索多模態(tài)數(shù)據(jù)檢索前沿方法:基于深度學習的檢索方法:利用深度學習的特征提取能力,通過卷積神經(jīng)網(wǎng)絡等模型來學習多模態(tài)數(shù)據(jù)的非線性關系?;诠5臋z索方法:為了找到數(shù)據(jù)不同模態(tài)之間的聯(lián)系,將不同模態(tài)的數(shù)據(jù)通過哈希函數(shù)映射到一個共同的漢明空間,也就是把任意長度的輸入轉化為固定長度的輸出,從而進行相似度檢索?;谥黝}模型的檢索方法:對多模態(tài)數(shù)據(jù)的隱含語義結構進行聚類的統(tǒng)計模型方法,可以采用監(jiān)督學習或非監(jiān)督學習的方式進行,被廣泛應用于文本挖掘、推薦系統(tǒng)、多模態(tài)檢索等領域。。多模態(tài)數(shù)據(jù)融合與檢索技術

第3章:多模態(tài)數(shù)據(jù)融合主要內(nèi)容3.3多模態(tài)融合前沿方法3.2多模態(tài)融合傳統(tǒng)方法3.1多模態(tài)數(shù)據(jù)融合介紹3.4多模態(tài)融合發(fā)展方向3.1多模態(tài)數(shù)據(jù)融合介紹3.1.3數(shù)據(jù)集介紹3.1.2國內(nèi)外現(xiàn)狀3.1.1多模態(tài)數(shù)據(jù)融合背景及意義3.1.4性能評判準則3.1.1多模態(tài)數(shù)據(jù)融合背景及意義多模態(tài)數(shù)據(jù)融合:模型在完成分析和識別任務時處理不同形式的數(shù)據(jù)的過程。多模態(tài)數(shù)據(jù)的融合可以為模型決策提供更多的信息,從而提高了決策總體結果的準確率,目的是建立能夠處理和關聯(lián)來自多種模態(tài)信息的模型。

3.1.1多模態(tài)數(shù)據(jù)融合背景及意義多模態(tài)數(shù)據(jù)檢索應用實例:情感分析智能推薦語音識別多模態(tài)融合3.1多模態(tài)數(shù)據(jù)融合介紹3.1.3數(shù)據(jù)集介紹3.1.2國內(nèi)外現(xiàn)狀3.1.1多模態(tài)數(shù)據(jù)融合背景及意義3.1.4性能評判準則3.1.2國內(nèi)外現(xiàn)狀國際方面:卡內(nèi)基梅隆大學MultiComp實驗室提出了建模多模態(tài)數(shù)據(jù)中的潛在動態(tài)的概率圖形模型,處理多個視圖之間的時間同步的條件隨機場模型等方法,并為多模態(tài)數(shù)據(jù)開發(fā)了新的深度神經(jīng)網(wǎng)絡表示。麻省理工學院Sentic團隊為多模態(tài)情感分析提出了張量融合網(wǎng)絡、上下文層次融合網(wǎng)絡、模糊常識推理等先進算法。微軟AI團隊提出了大規(guī)模多模態(tài)訓練模型,包括圖像-文本的通用圖像文字標識模型(UNITER)和視頻-文本的HERO模型。國內(nèi)方面:安徽大學湯進教授對光學與熱紅外兩種圖像的數(shù)據(jù)融合進行了大量研究,構建了一個大規(guī)模的多模態(tài)視頻基準數(shù)據(jù)集。3.1多模態(tài)數(shù)據(jù)融合介紹3.1.3數(shù)據(jù)集介紹3.1.2國內(nèi)外現(xiàn)狀3.1.1多模態(tài)數(shù)據(jù)融合背景及意義3.1.4性能評判準則3.1.3數(shù)據(jù)集介紹MVSA數(shù)據(jù)集MVSA數(shù)據(jù)集是一個多視圖情緒分析數(shù)據(jù)集,包含20392組從推特中收集的帶有人工注釋的圖文對樣本。3.1.3數(shù)據(jù)集介紹PinterestMultimodal數(shù)據(jù)集PinterestMultimodal數(shù)據(jù)集是通過抓取Pinterest上的公開可用數(shù)據(jù),構建的4000多萬張圖像的數(shù)據(jù)集,并且每幅圖像平均與12個描述句子相關聯(lián)。3.1.3數(shù)據(jù)集介紹MELD數(shù)據(jù)集MELD數(shù)據(jù)集是一個對話情感識別的多模態(tài)數(shù)據(jù)集。其包含文本、音頻和視頻模態(tài)。MELD數(shù)據(jù)集有1400多個對話和13000個話語。對話中的每句話都被標記為七種情緒中的任何一種——憤怒、厭惡、悲傷、喜悅、中立、驚訝和恐懼。3.1.3數(shù)據(jù)集介紹UTD-MHAD數(shù)據(jù)集UTD-MHAD數(shù)據(jù)集是由四種模態(tài)數(shù)據(jù)共861個數(shù)據(jù)序列構成,主要應用于人體動作識別的數(shù)據(jù)集。這四種模態(tài)數(shù)據(jù)包括:RGB視頻、深度視頻、骨骼位置照片和可穿戴慣性傳感器的慣性信號。3.1.3數(shù)據(jù)集介紹BerkeleyMHAD數(shù)據(jù)集一個用于人體動作識別的數(shù)據(jù)集,數(shù)據(jù)集中的數(shù)據(jù)由12個RGB攝像頭、2個微軟Kinect攝像頭采集完成。該數(shù)據(jù)集由12個參與者通過5次重復執(zhí)行的11個人類動作的659個數(shù)據(jù)序列組成。Montalbano手勢數(shù)據(jù)集意大利姿態(tài)數(shù)據(jù)集,每一位參與者在相機面前都會在說著意大利語的同時展示手勢。這些手勢共包括20組,由27位參與者完成。SYSU-MM01數(shù)據(jù)集該數(shù)據(jù)集主要包括RGB圖像和紅外圖像兩種模態(tài)。這些圖像主要是在在室內(nèi)和室外環(huán)境中,從四個RGB相機和兩個紅外相機采集得到的。該數(shù)據(jù)集已劃分成訓練集和測試集,其中訓練集包含395人的圖像,其中RGB圖像22258張,紅外圖像11909張。而測試集共有96人,有3803張紅外圖像用于查詢。3.1.3數(shù)據(jù)集介紹多模態(tài)檢索數(shù)據(jù)集信息總結數(shù)據(jù)集模態(tài)樣本數(shù)MVSA圖像+文本(異構)20392PinterestMultimodal圖像+文本(異構)10MMELD圖像+文本+聲音(異構)1400UTD-MHADRGB+深度+骨片模型+慣性信號(異構)861BerkeleyMHADRGB視頻+深度視頻(異源)659MontalbanoRGB+深度+用戶掩圖+骨骼模型(異源)13858SYSU-MM01RGB圖像+紅外圖像(異源)3034203.1多模態(tài)數(shù)據(jù)融合介紹3.1.3數(shù)據(jù)集介紹3.1.2國內(nèi)外現(xiàn)狀3.1.1多模態(tài)數(shù)據(jù)融合背景及意義3.1.4性能評判準則3.1.4性能評價準則精準率與召回率在數(shù)據(jù)集樣本中通常會含有正樣本與負樣本,模型將會對輸入的樣本進行判定,即判定輸入的樣本屬于正樣本或者負樣本。精準率(precision)表示判定為正的樣本中有多少樣本是真正的正樣本,召回率(recall)表示樣本中的正樣本有多少被判定正確。真正例率(TruePositiveRate,TPR)和假正例率(FalsePositiveRate,FPR)的計算公式如下:3.1.4性能評價準則點擊率點擊率(HitRatio,HR)是在典型的基于隱反饋的top-N推薦任務中常用的評測指標。HR@N用來度量測試集中的正例是否出現(xiàn)在top-N推薦列表里。計算公式如下:規(guī)范化折扣累計增益規(guī)范化折扣累計增益(NormalizedDiscountedCumulativeGain,NDCG)同樣是在典型的基于隱反饋的top-N推薦任務中常用的評測指標。比起HR@N,NDCG@N還考慮了測試集中的正例在top-N推薦列表中的位置,其中N是一個超參數(shù)。具體的計算方式為:主要內(nèi)容3.3多模態(tài)融合前沿方法3.2多模態(tài)融合傳統(tǒng)方法3.1多模態(tài)數(shù)據(jù)融合介紹3.4多模態(tài)融合發(fā)展方向3.2多模態(tài)融合傳統(tǒng)方法3.2.3基于估計的融合方法3.2.2基于分類的融合方法3.2.1基于規(guī)則的融合方法3.2.1基于規(guī)則的融合方法線性加權融合線性加權融合是一種最簡單、應用最廣泛的融合方法。在該方法中,從不同的模態(tài)中得到的信息是通過線性的方式進行組合的。這些信息可以是底層視頻特征(如視頻幀中的顏色和運動線索),也可以是高層語義級決策(如某些事件的發(fā)生)。一般而言,線性加權融合要經(jīng)歷兩個步驟:分數(shù)標準化和分數(shù)加權。分數(shù)標準化最簡單的歸一化技術是Min-max標準化。Min-max標準化最適合于匹配器輸出的分數(shù)的邊界——即最大值和最小值已知的情況。假設一組匹配分數(shù)為,則正則化分數(shù)的計算公式為:當從給定的匹配分數(shù)集估計最小值和最大值時,這種方法不是魯棒的,因為該方法對用于估計的數(shù)據(jù)中的異常值高度敏感。當不同匹配器的分數(shù)在對數(shù)尺度上時,可以應用小數(shù)定標標準化方法,3.2.1基于規(guī)則的融合方法線性加權融合最常用的分數(shù)標準化技術是z值標準化,它是用給定數(shù)據(jù)的算術平均值和標準偏差計算的。如果事先知道匹配器的平均分值和分值的變化情況,則該方案可以取得較好的效果。如果沒有任何關于匹配算法性質的先驗知識,那么就需要從一組給定的匹配分數(shù)中估計分數(shù)的平均值和標準差。Tanh預測器正則化方法[29]是由Hampel等人引入的,其兼具魯棒性和高效性,公式如下:式中和分別是Hampel估計器給出的真實分數(shù)分布的平均值和標準差估計。3.2.1基于規(guī)則的融合方法線性加權融合分數(shù)加權對分數(shù)進行標準化之后,便可對分數(shù)進行加權,完成線性融合。線性融合的一般方法可以這樣描述:表示從第個媒體源(如音頻、視頻等)獲得的特征向量或從第個分類器獲得的決策。同時,讓表示為第個媒體源或第個分類器的標準化權重。這些向量(假設它們具有相同的維數(shù))通過使用求和或求積的方式進行組合,并由分類器使用以提供高級決策。與其他方法相比,這種方法的計算成本較低。然而,一個融合系統(tǒng)需要確定和調整權重,以最優(yōu)地融合方式來完成一項任務。3.2.1基于規(guī)則的融合方法線性加權融合方法舉例Neti等人研究如何將視覺線索和音頻信號組合起來,用于提升自動機器識別的效果。他們從音頻特征(如音素)和視覺特征(如發(fā)音嘴型)中獲得說話人識別和語音事件檢測的單獨決策。然后采用線性加權和的策略來融合這些單獨的決策。3.2.1基于規(guī)則的融合方法線性加權融合方法舉例Lucey等人提出了隨機二次分類器用于對口語單詞的識別。該隨機二次分類器使用了線性加權的融合策略。下圖為該隨機二次分類器的判決過程。首先單詞識別器模塊分別對音頻和視頻數(shù)據(jù)進行處理,得到他們分別的判決值,然后再根據(jù)音頻數(shù)據(jù)的判決值以及視頻數(shù)據(jù)的判決值的對數(shù)概率對單詞進行二次判決。3.2.1基于規(guī)則的融合方法線性加權融合方法舉例Foresti和Snidaro設計了一種用于視頻監(jiān)控的分布式傳感器網(wǎng)絡(DistributedSensorNetwork,DSN),其能夠管理不同種類的傳感器(如光學、紅外、雷達等),以便在晝夜和不同天氣條件下(如霧、雨等)運行。為了達到此目的,在此分布式傳感器網(wǎng)絡中使用了上文介紹的線性加權和的方法來融合物體的軌跡信息。3.2.1基于規(guī)則的融合方法線性加權融合方法舉例多數(shù)投票多數(shù)投票是加權組合的一種特殊情況,其所有分類器的權重都是相等的。在基于多數(shù)投票的融合中,最終的決策是大多數(shù)分類器達成相同或相似的決策。特別的,對于二分類任務,分類器的數(shù)量必須是奇數(shù)且大于兩個的。自定義規(guī)則與上述使用標準統(tǒng)計規(guī)則的方法不同,Pfleger等人提出了一種基于生成規(guī)則的決策級融合方法,用于集成來自手寫字母和語音模態(tài)的輸入。在這種方法中,每一種輸入模態(tài)都可以用其使用的上下文解釋,這些上下文是根據(jù)先前識別的屬于同一用戶的輸入事件和對話狀態(tài)來確定的。生成規(guī)則包含三類規(guī)則:同步規(guī)則、多模態(tài)事件解釋規(guī)則和單模解釋規(guī)則,它們共同發(fā)揮作用以促進融合過程。3.2多模態(tài)融合傳統(tǒng)方法3.2.3基于估計的融合方法3.2.2基于分類的融合方法3.2.1基于規(guī)則的融合方法3.2.2基于分類的融合方法此類方法包括一系列分類技術,這些技術已用于將多模態(tài)觀測的結果分類為一種預定義的類。這類方法有支持向量機、貝葉斯推理、D-S理論、動態(tài)貝葉斯網(wǎng)絡和最大熵模型等。支持向量機支持向量機(SupportVectorMachine,SVM)是一個功能強大并且全面的機器學習模型,它能夠執(zhí)行線性或非線性分類、回歸等任務。具體來說,在多媒體領域,支持向量機被用于包括特征分類、概念分類、人臉檢測、文本分類、模態(tài)融合等不同任務。從多模態(tài)融合的角度,支持向量機用于解決模式分類問題。本節(jié)將首先從線性支持向量機和非線性支持向量機角度介紹支持向量機的核心概念,然后再介紹基于支持向量機的多模態(tài)數(shù)據(jù)融合方案。3.2.2基于分類的融合方法線性支持向量機下圖為三種線性分類器示例。其中藍色菱形塊代表A類數(shù)據(jù),橙色方形塊代表B類數(shù)據(jù),可以看出A類數(shù)據(jù)和B類數(shù)據(jù)是線性可分離的。圖中的兩條黑色實線和一條黑色虛線展示了三種可能的線性分類器的決策邊界。兩條黑色實線所代表的線性支持向量機分類器可以正確地將A、B兩類數(shù)據(jù)區(qū)分開來,只是它們的決策邊界與實例過于接近,當有新的實例出現(xiàn)出,可能會出現(xiàn)分類錯誤。黑色虛線代表的線性分類器沒有對A、B兩類數(shù)據(jù)進行正確地分類。3.2.2基于分類的融合方法線性支持向量機相比之下,下圖黑色實線所代表的線性支持向量機分類器不僅將A、B兩類數(shù)據(jù)分開,而且盡可能遠離最近的訓練實例。線性支持向量機分類器可以視為在類別之間擬合可能的最寬的街道(平行的虛線所示)。因此這也被稱為大間隔分類(largemarginclassification)。決策邊界是完全由街道邊緣的實例所決定的,這些實例被稱為支持向量。3.2.2基于分類的融合方法線性支持向量機如果嚴格地讓所有實例都不在街道上,并且位于正確的一邊,這就是硬間隔分類。硬間隔分類主要存在兩個問題:首先,它只在數(shù)據(jù)是線性可分離的時候才有效;其次,它對異常值非常敏感,如下圖中的異常數(shù)據(jù)將導致線性分類器找不到硬間隔。3.2.2基于分類的融合方法線性支持向量機下圖為硬間隔分類的決策邊界示意圖。異常值將導致該硬間隔分類器無法很好地泛化。要避免這些問題,最好使用更靈活的模型。目標是盡可能在保持街道寬闊和限制間隔違例(即位于街道之上,甚至在錯誤的一邊的實例)之間找到良好的平衡,這就是軟間隔分類。3.2.2基于分類的融合方法非線性支持向量機之前的討論是基于樣本實例是線性可分的這樣的假設的,但現(xiàn)實中,原始的樣本空間也許并不存在一個能正確劃分兩類樣本實例的平面。如下圖一維原始樣本空間所示,此原始樣本空間只有一個特征,此樣本空間中的A、B兩類數(shù)據(jù)不是線性可分的。3.2.2基于分類的融合方法非線性支持向量機對于這種問題,可通過添加更多特征的方式,將原始樣本空間映射到更高維的空間,使得在這個空間中樣本實例是可分的,如下圖二維樣本空間示意圖所示,添加了第二個特征,并令,在此高維的樣本空間中,A、B兩類樣本實例便可完全線性分離(在圖中被黑色虛線所代表的分類器所分離)。3.2.2基于分類的融合方法非線性支持向量機Adams等人采用了一種后期融合的方法,利用視頻、音頻和文本三種模態(tài)來檢測視頻中的語義概念(例如天空、火煙等)。該方案利用所有概念分類器的得分,構造一個向量作為語義特征傳遞給支持向量機進行分類。支持向量機在對音頻、視頻和文本得分進行分類之前,將所有概念分類器的得分合并到一個高維向量中。3.2.2基于分類的融合方法非線性支持向量機Ayache等人提出了一種核融合方案來使用視頻和文本等模態(tài)信息對多媒體資源進行語義索引。該方案可以根據(jù)不同的模態(tài)特征選擇不同的核函數(shù),例如文本模態(tài)可以使用字符串核或詞序列核來進行分類;其次,使用融合函數(shù)合并單模態(tài)核,以創(chuàng)建多模態(tài)核;最后,通過學習和分類步驟輸出一個分類分數(shù)。3.2.2基于分類的融合方法非線性支持向量機在圖像分類領域,Zhu等人提出了一種基于支持向量機的多模態(tài)融合框架,用于對空間坐標內(nèi)嵌入文本的圖像進行分類。該融合框架聚合過程遵循兩個步驟:一,采用詞袋模型對低層視覺特征進行分析來對給定圖像進行分類。同時,文本檢測器利用文本的顏色、大小、位置、邊緣密度、亮度、對比度等特征發(fā)現(xiàn)圖像中存在的文本行。二,使用成對的支持向量機分類器將視覺特征和文本特征融合在一起。3.2.2基于分類的融合方法貝葉斯推斷貝葉斯推斷方法根據(jù)概率論的規(guī)則對多模態(tài)信息進行組合,其既可以應用于早期融合,也可以應用于晚期融合。該方法的基本原理是組合從多種模態(tài)得到的觀測或從不同分類器得到的決策,然后推導出一個觀測或決策的聯(lián)合概率的推論。若要融合從種不同的模態(tài)獲得特征向量或決策(),假設這些模態(tài)是統(tǒng)計獨立的,那么基于融合特征向量或融合決策的假設的聯(lián)合概率可計算為:

用于正則化后驗概率估計

。對所有可能的假設計算后驗概率。根據(jù)最大后驗概率估計,估計的假設取最大概率的值,即:貝葉斯推斷方法具有多種優(yōu)點:第一,基于新的觀察結果,它可以逐步計算出假設成立的概率。第二,它允許任何關于假設的可能性的先驗知識在推理過程中被利用。新的觀測或決策用于更新先驗概率,以計算假設的后驗概率。第三,在缺乏經(jīng)驗數(shù)據(jù)的情況下,這種方法允許對先驗假設使用主觀的概率估計。3.2.2基于分類的融合方法貝葉斯推斷Atrey等人在中期融合層次都采用了貝葉斯推斷融合方法。下圖為該貝葉斯推斷融合方法工作流程示意圖。3.2.2基于分類的融合方法貝葉斯推斷在早期融合層面,Pitsikalis等采用貝葉斯推斷方法對視覺特征和聽覺特征向量進行組合。音頻特征向量包括13個靜態(tài)梅爾頻率倒譜系數(shù)及其衍生物,視覺特征向量由6個形狀和12個紋理特征拼接而成?;诮M合特征,計算語音段的聯(lián)合概率。在后期融合層面,Meyer等人融合了從語音和視覺模態(tài)獲得的決策。其方法共分為三個步驟:步驟一、從語音中提取梅爾頻率倒譜系數(shù)特征,從說話人的臉部提取嘴唇輪廓特征;步驟二、利用隱馬爾可夫模型分類器分別對這兩種特征進行概率分類,得到單獨的決策;步驟三、使用貝葉斯推斷方法融合這些概率估計值來估計語音數(shù)字的聯(lián)合概率。Xu和Chua也使用貝葉斯推斷融合方法來整合運動視頻中檢測到的偏移和非偏移事件的概率決策。通過融合視聽特征、文本線索和領域知識以及使用隱馬爾可夫模型分類器來檢測這些事件。在這項工作中,作者已經(jīng)表明貝葉斯推斷的準確性與基于規(guī)則的方案相當。3.2.2基于分類的融合方法D-S理論雖然貝葉斯推斷融合方法允許不確定性建模(通常采用高斯分布),但一些研究人員更傾向于使用Dempster-Shafer證據(jù)推理法(簡稱D-S理論),因為它使用置信值和似真值來表示證據(jù)及其對應的不確定性。此外,D-S理論方法對貝葉斯理論進行了推廣,放寬了貝葉斯推斷方法對假設相互排斥的限制,從而能夠為假設的并集分配證據(jù)。D-S推理系統(tǒng)是基于“識別框架”的基本概念,該框架包含著一個具有所有可能的相互排斥的假設的集合。每個假設是由可信度(belief)和似真度(plausibility)所確定的。3.2.2基于分類的融合方法D-S理論可信度是指一個假設被檢測為真時的置信下限,其約為所有支持假設的證據(jù)的總和;而似真度則表示該假設可能為真可能性的上限,即去掉所有反對假設的證據(jù)的剩余的部分。每一個假設都會被分配一個概率,即基本可信數(shù),基本可信數(shù)反映了對于假設本身(而不去管它的任何真子集與前因后果)的可信度大小。關于假設的判決是由可信度和似真度所限定的置信區(qū)間來衡量的。當存在多個獨立模態(tài)時,利用D-S理論規(guī)則可以對它們進行融合。準確地說,假設的基本可信數(shù)基于兩個模態(tài)和,可以由下面公式進行計算。式中和分別為模態(tài)和的基本可信數(shù)。3.2.2基于分類的融合方法D-S理論舉例Bendjebbour等人提出利用D-S理論融合雷達圖像中有云和無云兩個區(qū)域的基本可信數(shù)。他們在特征層和決策層兩個層次上進行融合。在特征層,以像素強度作為特征,計算并融合基于兩個傳感器像素的基本可信數(shù);在決策層,利用隱馬爾可夫模型分類器得到的關于一個像素的決策作為基本可信數(shù),然后對隱馬爾可夫模型輸出進行組合。Mena和Malpica使用了D-S理論融合方法對彩色圖像進行分割,用于從地面、航空或衛(wèi)星圖像中提取信息。他們從單個像素、成對的像素、一組像素中提取同一幅圖像的信息,然后利用D-S證據(jù)融合策略對基于位置分析的證據(jù)進行融合。Guironnet等人從TREC視頻數(shù)據(jù)中提取顏色或紋理等低層特征描述符,并使用支持向量機分類器根據(jù)每個描述符識別預定義的概念(如“海灘”或“道路”)。支持向量機分類器輸出采用D-S融合方法進行集成,稱之為可轉移信度模型(transferablebeliefmodel)。在生物特征學領域,Reddy將D-S理論用于融合手勢傳感器和腦計算接口傳感器兩個傳感器的輸出。融合結果表明,D-S融合方法有助于解決傳感器的模糊問題。3.2.2基于分類的融合方法動態(tài)貝葉斯網(wǎng)絡貝葉斯推斷可以擴展成網(wǎng)絡結構(或稱為圖結構),圖結構中的節(jié)點表示不同類型的隨機變量(觀察值或狀態(tài)),如音頻和視頻;邊表示它們的概率相關性。下圖為靜態(tài)貝葉斯網(wǎng)絡示例,用貝葉斯網(wǎng)絡描述了一個講話者檢測問題?!爸v話者”節(jié)點的值由“涼亭”節(jié)點的值及三個中間節(jié)點“可見的”,“正面的”和“講話”的值確定,而這些中間節(jié)點的值又是由度量節(jié)點“皮膚”、“紋理”、“臉”和“聲音”所推測出來的。靜態(tài)貝葉斯網(wǎng)絡示例中顯示了節(jié)點之間的依賴關系。然而,該網(wǎng)絡是靜態(tài)的,這意味著這個例子只是描述了某一特定時刻的狀態(tài)。3.2.2基于分類的融合方法動態(tài)貝葉斯網(wǎng)絡當貝葉斯網(wǎng)絡加入時間維度時,其工作方式轉變?yōu)閯討B(tài)貝葉斯網(wǎng)絡(DynamicBayesianNetwork,DBN)。3.2.2基于分類的融合方法動態(tài)貝葉斯網(wǎng)絡隱馬爾可夫模型用來描述一個含有隱含未知參數(shù)的馬爾可夫過程。其難點是從可觀察的參數(shù)中確定該過程的隱含參數(shù),然后利用這些參數(shù)來作進一步的分析。下圖所示為隱馬爾可夫模型的狀態(tài)遷移過程。其中表示在時刻的隱藏變量,是觀察者無法得知的變量。而表示在時刻觀測的結果。如果假設觀測到的結果為,即。隱藏條件為,即,則馬爾可夫模型的概率為:,可見馬爾可夫模型將該時間點前后的信息都納入考量。3.2.2基于分類的融合方法動態(tài)貝葉斯網(wǎng)絡舉例Nefian等人使用了耦合隱馬爾可夫模型(CoupledHiddenMarkovModel,CHMM),它是隱馬爾可夫模型的泛化。耦合隱馬爾可夫模型允許主干節(jié)點進行交互,同時擁有自己的觀察結果。耦合隱馬爾可夫模型適用于需要集成兩個或多個流的多模態(tài)場景。在這項工作中,作者對音頻特征(梅爾頻率倒譜系數(shù))和視覺特征(嘴唇區(qū)域的2D離散余弦變換系數(shù))的狀態(tài)異步建模,同時保持它們時間的相關性。該方法可用于語音識別。Bengio在特征級別提出了異步隱馬爾可夫模型(AsynchronousHMM,AHMM)。異步隱馬爾可夫模型是隱馬爾可夫模型的一種變體,用于處理異步數(shù)據(jù)流。對描述同一事件的異步序列、語音流和視頻(形狀和強度特征)流的聯(lián)合概率分布進行建模。Fisher等提出了一種無參數(shù)方法來學習音頻和視頻特征的聯(lián)合分布。他們?yōu)榱俗畲蠡成潆S機變量之間的互信息,而估計了低維子空間上的線性投影。該方法被應用于音頻、視頻定位。Wu等人在ACM國際會議上提出了一項使用影響圖方法(貝葉斯網(wǎng)絡的一種形式)來表示圖像的語義的多模態(tài)融合框架。此多模態(tài)融合框架將上下文信息(位置、時間和相機參數(shù))、內(nèi)容信息(整體和感知局部特征)與面向領域的語義本體(由有向無環(huán)圖表示)融合在一起。3.2.2基于分類的融合方法最大熵模型在一般情況下,最大熵模型是一種統(tǒng)計分類器,它遵循信息理論的方法,根據(jù)它所具有的信息內(nèi)容預測其屬于某個特定類的觀測的概率。最大熵模型假設分類模型是一個條件概率分布,為特征,為輸出。假設滿足所有約束條件的模型集合為:定義在條件概率分布上的條件熵為:最大熵模型的目標就是求得使最大的時候對應的。通過求最大似然估計可以求得最大熵模型的解。3.2.2基于分類的融合方法最大熵模型舉例Magalhaes等人將這種基于最大熵模型的融合方法用于多媒體語義索引。在這項工作中,他們將基于文本和基于圖像的特征融合起來進行查詢關鍵字的檢索。具體而言,他們將文本和圖像特征映射到最優(yōu)特征子空間,然后為每一個查詢關鍵字提出了一個最大熵模型:為了估計最大熵模型,權重是唯一需要通過在整個數(shù)據(jù)集上最小化上述模型的對數(shù)似然值來計算的變量:因為其采用高斯函數(shù)來減小過擬合效果,因此對數(shù)似然函數(shù)的形式為:3.2.2基于分類的融合方法基于分類的融合方法優(yōu)缺點對比本節(jié)主要介紹了基于分類的融合方法,主要包括支持向量機、貝葉斯推斷、D-S理論、動態(tài)貝葉斯網(wǎng)絡和最大熵模型。每種方法都有其優(yōu)勢與劣勢,研究者應該根據(jù)實際的場景來酌情使用,以提高模型的效果。基于概率原理的貝葉斯推斷融合方法提供了對新觀測的簡單集成和先驗信息的使用。但是,它們不適合處理相互排斥的假設。此外,由于缺乏合適的先驗信息,導致該方法的融合結果不準確。另一方面,D-S理論融合方法善于處理相互排斥的假設。但是,這種方法很難處理大量的假設組合。D-S理論融合方法已用于語音識別、運動視頻分析和事件檢測等任務。動態(tài)貝葉斯網(wǎng)絡被廣泛應用于處理時間序列數(shù)據(jù)。動態(tài)貝葉斯網(wǎng)絡是使用時間數(shù)據(jù)的貝葉斯推斷的變形。動態(tài)貝葉斯網(wǎng)絡方法以其不同的形式(如隱馬爾可夫模型)已成功地應用于語音識別、說話人識別與跟蹤、視頻鏡頭分類等多媒體分析任務。然而,在這種方法中,往往很難確定正確的動態(tài)貝葉斯網(wǎng)絡狀態(tài)。在各種基于分類的傳統(tǒng)的融合方法中,支持向量機和動態(tài)貝葉斯網(wǎng)絡得到了研究人員的廣泛應用。支持向量機因其改進的分類性能而受到青睞,而動態(tài)貝葉斯網(wǎng)絡被發(fā)現(xiàn)更適合建模時態(tài)數(shù)據(jù)。3.2多模態(tài)融合傳統(tǒng)方法3.2.3基于估計的融合方法3.2.2基于分類的融合方法3.2.1基于規(guī)則的融合方法3.2.3基于估計的融合方法卡爾曼濾波卡爾曼濾波(Kalmanfilter,KF)允許對動態(tài)的數(shù)據(jù)進行實時處理,并從具有一定統(tǒng)計意義的融合數(shù)據(jù)中得到系統(tǒng)的狀態(tài)估計。為了使該濾波器運行,假設一個帶有高斯噪聲的線性動態(tài)系統(tǒng)模型,狀態(tài)空間方程如下:基于上述狀態(tài)空間模型,卡爾曼濾波器不需要保存觀測歷史,只依賴于前一時間戳的狀態(tài)估計數(shù)據(jù)。卡爾曼濾波器的使用僅限于線性系統(tǒng)模型,不適用于具有非線性特性的系統(tǒng)。對于非線性系統(tǒng)模型,通常使用卡爾曼濾波器的一種變體,即擴展卡爾曼濾波器(ExtendedKalmanFilter,EKF)。3.2.3基于估計的融合方法卡爾曼濾波卡爾曼濾波器和擴展卡爾曼濾波器也已經(jīng)成功地用于目標的源定位和跟蹤。下圖為卡爾曼濾波器融合過程示意圖,其展現(xiàn)了使用該卡爾曼濾波器進行單目標定位和跟蹤的融合過程。在本地處理器部分使用基本卡爾曼濾波器處理視頻傳感器傳入的數(shù)據(jù),使用擴展卡爾曼濾波器處理音頻傳感器傳入的數(shù)據(jù)(基于音頻位置的估計是非線性估計的)。然后在融合中心內(nèi)融合音頻和視頻估計的輸出。3.2.3基于估計的融合方法粒子濾波粒子濾波是一套復雜的基于仿真的方法,常用于估計非線性和非高斯狀態(tài)空間模型的狀態(tài)分布。這些方法也被稱為順序蒙特卡羅(SequentialMonteCarlo,SMC)方法。在這種方法中,粒子代表了狀態(tài)變量的隨機樣本,其中每個粒子都有一個相關的權值。粒子濾波算法包括預測和更新步驟:預測步驟根據(jù)每個粒子的動力學來傳播,而更新步驟根據(jù)最新的感知信息來重估一個粒子的重量。雖然卡爾曼濾波器、擴展卡爾曼濾波器或逆卡爾曼濾波器僅對線性高斯過程是最優(yōu)的,但當獲取足夠多的樣本時,粒子濾波方法可以為非線性非高斯過程提供貝葉斯最優(yōu)估計。3.2.3基于估計的融合方法粒子濾波舉例Vermaak等人使用粒子濾波器來估計基于音頻和視頻的觀察結果的預測。在其所提出的系統(tǒng)中使用了一個攝像頭和一對麥克風,并根據(jù)存儲的視聽序列進行了測試。視聽特征的融合發(fā)生在特征層面,這意味著來自兩種模態(tài)特征的單個粒子坐標被合并來跟蹤說話者。Perez等人采用粒子濾波方法融合二維物體形狀信息和音頻信息,用于說話人的追蹤。與Vermaak等人的工作不同的是,后者使用了重要性粒子濾波的概念,其中音頻信息專門用于生成一個重要性函數(shù),來影響基于音頻的觀察似然的計算。雖然卡爾曼濾波器、擴展卡爾曼濾波器或逆卡爾曼濾波器僅對線性高斯過程是最優(yōu)的,但當獲取足夠多的樣本時,粒子濾波方法可以為非線性非高斯過程提供貝葉斯最優(yōu)估計。主要內(nèi)容3.3多模態(tài)融合前沿方法3.2多模態(tài)融合傳統(tǒng)方法3.1多模態(tài)數(shù)據(jù)融合介紹3.4多模態(tài)融合發(fā)展方向3.3多模態(tài)檢索前沿方法3.3.3基于圖神經(jīng)網(wǎng)絡的融合方法3.3.2基于深度學習的融合方法3.3.1基于池化的融合方法3.3.1基于池化的融合方法三部分組成:第一部分為模態(tài)嵌入子網(wǎng)絡,其對于語言、視覺和聲音模態(tài)有不同的設計;第二部分是張量融合層(TensorFusionLayer,TFL),是為了解決不同模態(tài)之間交互的問題而設計的;第三部分是情緒推理子網(wǎng)絡,其承接張量融合層的輸出,并進行情感推理。(1)張量融合網(wǎng)絡方法3.3.1基于池化的融合方法該融合方法可以認為是張量融合網(wǎng)絡方法的等價升級版,其利用低秩權值張量分解提高多模態(tài)融合的效率并且不影響多模態(tài)融合的性能。首先低秩多模態(tài)融合方法通過將單模態(tài)輸入分別傳遞到三個子嵌入網(wǎng)絡中,得到單模態(tài)表示向量。然后低秩多模態(tài)融合方法通過與特定模態(tài)因子進行低秩多模態(tài)融合輸出多模態(tài)表示向量。(2)低秩多模態(tài)融合方法3.3.1基于池化的融合方法進一步地,通過堆疊多項式張量池化塊搭建了層次多項式融合網(wǎng)絡。一個多項式張量池化塊在一個“接收窗口”上運行,該“接收窗口”覆蓋了所有八個時間點和三種模態(tài)的特征。這樣,多項式張量池化塊就可以捕獲窗口內(nèi)總共二十四個混合特征之間的高階非線性交互作用。多項式張量池化塊與一個小的“接收窗口”相關聯(lián),它自然地表現(xiàn)出局部相關性。(3)多項式張量池化方法3.3.1基于池化的融合方法通過對權重張量施加低秩控制,多模態(tài)低秩雙線性池化(MultimodalLow-rankBilinearPooling,MLB)方法將雙線性池的三維權值張量分解為三個二維權值矩陣。多個多模態(tài)因子分解雙線性池化模型可以級聯(lián)來建模輸入特性之間的高階交互,這被稱為多模態(tài)因數(shù)化高階池化(Multi-modalFactorizedHigh-orderPooling,MFH)方法。Ben-Younes等人提出的MUTAN是一種基于多模態(tài)張量的Tucker分解的方法,其使用Tucker分解將原始的三維權重張量算子分解為低維核心張量和MLB使用的三個二維權量矩陣。近期提出的BLOCK方法使用了一個基于塊的超對角陣的融合框架,其利用塊項分解來計算雙線性池化。BLOCK將MUTAN泛化為多個MUTAN模型的總和,為模態(tài)之間的交互提供更豐富的建模。(4)其他基于池化的融合方法3.3多模態(tài)檢索前沿方法3.3.3基于圖神經(jīng)網(wǎng)絡的融合方法3.3.2基于深度學習的融合方法3.3.1基于池化的融合方法3.3.2基于深度學習的融合方法判別模型直接對輸入數(shù)據(jù)X到輸出數(shù)據(jù)Y之間的映射關系進行建模,模型參數(shù)是通過最小化一些提前設計好的目標損失函數(shù)學習而來。這類模型比較適合一些多模態(tài)學習任務,比如多模態(tài)數(shù)據(jù)分類任務,推薦系統(tǒng),視覺問答(VisualQuestionAnswer,VQA),人類行為識別任務等。多層感知機也叫作前饋神經(jīng)網(wǎng)絡,是典型的深度學習模型。神經(jīng)網(wǎng)絡的基本組成單元是神經(jīng)元,下圖為單神經(jīng)元結構示例。(1)多層感知機介紹3.3.2基于深度學習的融合方法常用的激活函數(shù)有用于高斯輸出分布的線性激活函數(shù),用于伯努利輸出分布的Sigmoid型函數(shù),用于多變量伯努利輸出分布的softmax函數(shù),整流線性單元ReLU函數(shù)及一系列變體等。(1)多層感知機介紹3.3.2基于深度學習的融合方法隨著隱層數(shù)量的增多,該類模型可被稱為多層感知機。當引入非線性的隱含層后,理論上只要網(wǎng)絡結構足夠深(隱藏層數(shù)目足夠多)或網(wǎng)絡結構足夠寬(隱藏層的節(jié)點足夠多),通過多層非線性變換多層感知機就可以擬合任意函數(shù)。圖中每一層網(wǎng)絡的輸入都為上一層網(wǎng)絡的輸出,這意味著網(wǎng)絡中不存在反饋,信號總是向前傳播。(1)多層感知機介紹3.3.2基于深度學習的融合方法卷積神經(jīng)網(wǎng)絡對于圖像數(shù)據(jù)的平移、縮放、傾斜或者其它一些形式的變形具有良好的容錯能力。卷積神經(jīng)網(wǎng)絡結構具有局部連接和權值共享的特點。前一層的每個神經(jīng)元只與后一層特定范圍內(nèi)的神經(jīng)元存在連接。每個神經(jīng)元只對局部感知,然后將局部的信息傳到下一層綜合起來就得到了全局的信息,使得連接具有稀疏性,這樣將大大節(jié)約空間存儲和訓練所需時間。權值共享:理論證明,圖像的各部分統(tǒng)計特性之間具有相似性和連續(xù)性,所以對于一幅圖像上的不同位置,可以采用同樣的濾波器學習完成一幅圖像的一次特征映射,反映到結構設計上體現(xiàn)為同一層中某些神經(jīng)元之間共享連接權重。(2)卷積神經(jīng)網(wǎng)絡介紹3.3.2基于深度學習的融合方法卷積神經(jīng)網(wǎng)絡結構上增加了特有的卷積層和池化層,數(shù)據(jù)信號在網(wǎng)絡中的前向傳播和殘差反向傳播也與多層感知機有所區(qū)別。(2)卷積神經(jīng)網(wǎng)絡介紹3.3.2基于深度學習的融合方法卷積神經(jīng)網(wǎng)絡深的各輸入元素之間是相互獨立的,輸入與輸出也是獨立的。希望從數(shù)據(jù)中挖掘到上下文之間的關系從而更好的實現(xiàn)預測,遞歸神經(jīng)網(wǎng)絡針對序列模式設計的特殊結構可以利用輸入數(shù)據(jù)的上下文的信息,使其廣泛應用于文本生成、機器翻譯、語音識別等領域。遞歸神經(jīng)網(wǎng)絡通過隱藏層信號在不同時間步之間的傳遞使得模型可以基于前面的信息學習后面的特征。(3)遞歸神經(jīng)網(wǎng)絡及長短期記憶單元網(wǎng)絡介紹3.3.2基于深度學習的融合方法長短期記憶(Longshort-termmemory,LSTM)單元用于克服典型RNN不能學習雙向的上下文、不能“記憶”長期信息等缺陷。能夠解決長序列訓練過程中的梯度消失和梯度爆炸問題,在更長的序列中有更好的表現(xiàn)。主要由遺忘門、輸入門和輸出門三部分組成,均采用sigmoid函數(shù)。(3)遞歸神經(jīng)網(wǎng)絡及長短期記憶單元網(wǎng)絡介紹3.3.2基于深度學習的融合方法多模態(tài)卷積神經(jīng)網(wǎng)絡m-CNN為了充分捕捉語義關聯(lián),在端到端架構中設計了單詞等級、詞組等級和句子等級三種等級的融合策略。單詞等級和詞組等級的融合是指將句子中的部分單詞或詞組與圖像的部分區(qū)域相融合。句子等級的融合則指整個句子和圖像的整體相融合。設計了三個子網(wǎng)絡,分別是:圖像子網(wǎng)絡、匹配子網(wǎng)絡和評估子網(wǎng)絡。(4)基于判別模型的多模態(tài)數(shù)據(jù)融合方案3.3.2基于深度學習的融合方法模態(tài)數(shù)據(jù)的興趣相關產(chǎn)品相似模型(MultimodalInterest-RelatedItemSimilaritymodel,MultimodalIRIS將用戶與產(chǎn)品的交互信息以及產(chǎn)品的圖像數(shù)據(jù)與文本數(shù)據(jù)相融合,用于產(chǎn)品的推薦。MultimodalIRIS模型由三個模塊組成,即多模態(tài)特征學習模塊、興趣相關網(wǎng)絡(Interest-RelatedNetwork,IRN)和產(chǎn)品相似度推薦模塊。(4)基于判別模型的多模態(tài)數(shù)據(jù)融合方案3.3.2基于深度學習的融合方法編碼器是基于生成模型中常見的一種模型。通常意義的自編碼器原理很簡單,包括一個編碼器和解碼器,數(shù)學上都表現(xiàn)為輸入信號的變換運算。編碼器經(jīng)變換運算將輸入信號編碼成信號,而解碼器將經(jīng)編碼的轉換成輸出信號。自編碼器區(qū)別于多層感知器的最重要的一點是采用無監(jiān)督學習方式,訓練時輸入即輸出,不需要額外的標簽。輸入層到隱含層為編碼器,它可以從高維輸入空間變換到低維隱含空間,即學習到數(shù)據(jù)的隱含表示。隱含層到輸出層為解碼器,利用學習到的隱含特征重構輸出逼近原始輸入數(shù)據(jù)。(5)基于生成模型的多模態(tài)數(shù)據(jù)融合方法3.3.2基于深度學習的融合方法典型的自編碼器結構,輸入層的通過編碼器的編碼過程得到隱藏層的低維向量,再通過解碼器重構輸出逼近輸入的。(5)基于生成模型的多模態(tài)數(shù)據(jù)融合方法3.3.2基于深度學習的融合方法兩模態(tài)深度自編碼器首先從音頻輸入和視頻輸入中分別得到音頻表示向量和視頻表示向量,然后經(jīng)過編碼融合得到共享表示向量,最后經(jīng)過解碼器得到音頻重建向量和視頻重建向量。(5)基于生成模型的多模態(tài)數(shù)據(jù)融合方法3.3.2基于深度學習的融合方法注意力機制允許模型將注意力集中在特征圖的特定區(qū)域或特征序列的特定時間點上。通過該機制,不僅僅可以提高性能,而且可以提高特征表示的可解釋性。注意力決策過程不是一次性地使用所有信息,而是選擇性地將注意力集中在需要的場景部分,忽略不重要的部分?;阪I的注意力機制使用鍵值來搜索顯著的局部特征?;阪I的注意力機制在視覺描述類的問題上應用廣泛。它提供了一種方法來評估一個模態(tài)內(nèi)或模態(tài)間特征的重要性。(6)基于注意力機制多模態(tài)數(shù)據(jù)融合方法3.3.2基于深度學習的融合方法多模態(tài)對抗表示網(wǎng)絡(MultimodalAdversarialRepresentationNetwork,MARN)用于點擊率(Click-ThroughRate,CTR)預估任務。(6)基于注意力機制多模態(tài)數(shù)據(jù)融合方法3.3.2基于深度學習的融合方法無鍵注意力機制主要用于分類或回歸任務。在這樣的應用場景中,由于結果是在單一步驟中生成的,很難定義一個鍵來引導注意力模塊?;蛘?,注意力機制是直接應用于局部特征,不涉及任何鍵。公式如下:由于無鍵注意力機制可以從原始輸入中選擇顯著的線索的性質,無鍵注意機制適用于存在語義沖突、重復和噪聲等問題的多模態(tài)特征融合任務。(6)基于注意力機制多模態(tài)數(shù)據(jù)融合方法3.3.2基于深度學習的融合方法基于無鍵注意力機制提出的多視圖順序學習神經(jīng)模型——記憶融合網(wǎng)絡(MemoryFusionNetwork,MFN),用于多視圖順序學習問題。(6)基于注意力機制多模態(tài)數(shù)據(jù)融合方法3.3多模態(tài)檢索前沿方法3.3.3基于圖神經(jīng)網(wǎng)絡的融合方法3.3.2基于深度學習的融合方法3.3.1基于池化的融合方法3.3.3基于圖神經(jīng)網(wǎng)絡的融合方法圖神經(jīng)網(wǎng)絡是對圖結構數(shù)據(jù)進行特征提取的重要手段,在多模態(tài)特征學習中圖神經(jīng)網(wǎng)絡不僅適用于各個模態(tài)內(nèi)的拓撲關系圖建模,還適用于多個模態(tài)間的拓撲關系建模,因此,圖神經(jīng)網(wǎng)絡在多模態(tài)融合學習中有著重要作用。基于譜分析的圖神經(jīng)網(wǎng)絡是最常見的一種圖神經(jīng)網(wǎng)絡之一,其主要思想是相鄰節(jié)點的特征傳播,其中特征消息傳播的一般表達式可以表示為卷積神經(jīng)網(wǎng)絡(GraphConvolutionalNetwork,GCN)是基于譜分析的圖神經(jīng)網(wǎng)絡中具有代表性的模型,其工作原理如下:首先,圖卷積神經(jīng)網(wǎng)絡需要構建關系拓撲圖。然后,利用特征傳播算法將圖網(wǎng)絡各個節(jié)點的特征通過相鄰關系進行傳播。最后,進行特征間關系提取,將圖卷積神經(jīng)網(wǎng)絡輸出的特征表示通過池化或級聯(lián)等方式對關系拓撲圖進行特征提取,得到圖結構數(shù)據(jù)在不同階層的抽象表示。3.3.3基于圖神經(jīng)網(wǎng)絡的融合方法圖卷積神經(jīng)網(wǎng)絡工作原理3.3.3基于圖神經(jīng)網(wǎng)絡的融合方法圖神經(jīng)網(wǎng)絡還可以根據(jù)任務的不同進行網(wǎng)絡結構的修改,除了圖卷積神經(jīng)網(wǎng)絡之外還有圖注意力網(wǎng)絡(GraphAttentionNetwork,GAT),關系圖卷積神經(jīng)網(wǎng)絡(RelationalGraphConvolutionalNetwork,R-GCN),這些圖神經(jīng)網(wǎng)絡結構旨在解決具有不同結構、不同特征關系的圖網(wǎng)絡特征提取??缒9蚕硖囟ㄌ卣鱾鬏斔惴ń鉀Q以往的研究中只專注于將不同的模態(tài)嵌入到同一個特征空間中來學習共同的表達,而忽視了特征的差異性的問題根據(jù)模態(tài)共有特征建立不同模態(tài)樣本的親和力模型,然后在模態(tài)之間傳遞模態(tài)共有的特征和模態(tài)特定的特征圖卷積神經(jīng)網(wǎng)絡舉例主要內(nèi)容3.3多模態(tài)融合前沿方法3.2多模態(tài)融合傳統(tǒng)方法3.1多模態(tài)數(shù)據(jù)融合介紹3.4多模態(tài)融合發(fā)展方向3.4多模態(tài)融合的發(fā)展方向解決方案:(1)壓縮海量參數(shù)問題具有更強大計算架構的新的學習框架通過并行算法在云平臺等計算密集型架構上執(zhí)行結合當前的壓縮策略設計新的多模態(tài)深度學習壓縮方法3.4多模態(tài)融合的發(fā)展方向解決方案:(2)緩解低質量數(shù)據(jù)問題將不完整模態(tài)實例進行刪除,利用剩余多模態(tài)數(shù)據(jù)實例進行融合通過缺失值填充對不完整多模態(tài)數(shù)據(jù)進行預處理通過弱監(jiān)督學習的模型對噪聲數(shù)據(jù)進行識別與糾正(3)利用實時數(shù)據(jù)問題ThankYou!多模態(tài)數(shù)據(jù)融合與檢索技術

第4章:多模態(tài)數(shù)據(jù)檢索主要內(nèi)容4.3多模態(tài)檢索前沿方法4.2多模態(tài)檢索傳統(tǒng)方法4.1多模態(tài)數(shù)據(jù)檢索介紹4.4多模態(tài)檢索發(fā)展方向4.1多模態(tài)數(shù)據(jù)檢索介紹4.1.3數(shù)據(jù)集介紹4.1.2國內(nèi)外現(xiàn)狀4.1.1多模態(tài)數(shù)據(jù)檢索背景及意義4.1.4性能評價準則4.1.1多模態(tài)數(shù)據(jù)檢索背景及意義多模態(tài)數(shù)據(jù)檢索:針對一種模態(tài)的查詢詞,返回與之相關的其他不同模態(tài)的檢索結果。4.1.1多模態(tài)數(shù)據(jù)檢索背景及意義多模態(tài)數(shù)據(jù)檢索應用實例:語音交互電商平臺搜索引擎?zhèn)鞲衅髦悄?.1.1多模態(tài)數(shù)據(jù)檢索背景及意義多模態(tài)檢索技術是一個融合圖像處理、計算機視覺、機器學習、自然語言處理和語音識別等多個領域的綜合問題多模態(tài)檢索方法的研究將極大地促進子空間學習、測度學習、深度學習、哈希變換、多視角學習等諸多機器學習理論的發(fā)展和應用,具有重要的理論意義多模態(tài)數(shù)據(jù)檢索在搜索引擎、電商購物平臺、商品推薦、語音交互以及智能傳感器等場景中都得到了深度應用4.1多模態(tài)數(shù)據(jù)檢索介紹4.1.3數(shù)據(jù)集介紹4.1.2國內(nèi)外現(xiàn)狀4.1.1多模態(tài)數(shù)據(jù)檢索背景及意義4.1.4性能評價準則4.1.2國內(nèi)外現(xiàn)狀國際方面:美國圣地亞哥大學視覺計算實驗室伊利若亞大學喬治亞理工學院印度理工學院悉尼科技大學ReLER實驗室楊易老師課題組國內(nèi)方面:北京交通大學張磊博士北京郵電大學花妍博士浙江大學金仲明博士西北工業(yè)大學李學龍老師課題組北京大學彭宇新老師課題組南京大學李武軍老師課題組廈門大學媒體分析與計算實驗室紀榮嶸老師課題組4.1多模態(tài)數(shù)據(jù)檢索介紹4.1.3數(shù)據(jù)集介紹4.1.2國內(nèi)外現(xiàn)狀4.1.1多模態(tài)數(shù)據(jù)檢索背景及意義4.1.4性能評價準則4.1.3數(shù)據(jù)集介紹PascalVOC數(shù)據(jù)集由5011/4952(訓練/測試)圖像標簽對組成,可分為20個不同的類別。Wikipedia數(shù)據(jù)集基于維基百科中的“精選文章”,每篇文章根據(jù)其標題劃分為幾個部分,最終將此數(shù)據(jù)集分為2866個圖像/文本對,包含10種語義分類。4.1.3數(shù)據(jù)集介紹NUS-WIDE數(shù)據(jù)集由新加坡國立大學媒體研究實驗室通過網(wǎng)絡爬蟲從Flickr采集得到的網(wǎng)絡圖像數(shù)據(jù)集,共269648張圖像,5018個標簽。INRIA-Websearch數(shù)據(jù)集該數(shù)據(jù)集包含71478個圖像-文本對,可分為353種不同的內(nèi)容,包括著名的地標,演員,電影,徽標等。Flickr30K數(shù)據(jù)集包含了31783張從不同的Flickr群組收集的圖像,并專注于涉及人和動物的事件。每張圖像都與五個句子相關聯(lián),這些句子由以英語為母語的土耳其機器人(MechanicalTurk)獨立撰寫。4.1.3數(shù)據(jù)集介紹XMedia數(shù)據(jù)集由北京大學多媒體計算實驗室通過Wikipedia、Flickr、YouTube等來源采集。共包括20個語義類,每個類別有600個媒體實例,分別包含250段文本、250幅圖像、25段視頻、50段語音、25個3D模型共5種不同模態(tài)。Clickture數(shù)據(jù)集由4000萬張圖像和7360萬條文本查詢組成。4.1.3數(shù)據(jù)集介紹RegDB數(shù)據(jù)集由系統(tǒng)收集的412人的8240張圖像組成,每個人有10個不同的可見光圖像和10個不同的熱紅外圖像。CUFS數(shù)據(jù)集由來自三個數(shù)據(jù)庫的臉部照片-素描對組成:香港中文大學學生數(shù)據(jù)庫(188人),AR數(shù)據(jù)庫(123人)和XM2VTS數(shù)據(jù)庫(295人)。4.1.3數(shù)據(jù)集介紹多模態(tài)檢索數(shù)據(jù)集信息總結數(shù)據(jù)集模態(tài)樣本數(shù)類別數(shù)PascalVOC圖像-標簽(異構)996320Wikipedia圖像-文本(異構)286610NUS-WIDE圖像-標簽(異構)26964881INRIA-Websearch圖像-文本(異構)71478353Flickr30K圖像-句子(異構)31783--XMedia圖像-文本-視頻-音頻-3D模型(異構)1200020Clickture圖像-文本(異構)11360萬--RegDB紅外圖像-自然圖像(異源)4120206CUFS照片-素描(異源)6066064.1多模態(tài)數(shù)據(jù)檢索介紹4.1.3數(shù)據(jù)集介紹4.1.2國內(nèi)外現(xiàn)狀4.1.1多模態(tài)數(shù)據(jù)檢索背景及意義4.1.4性能評價準則4.1.4性能評價準則P-R曲線當我們根據(jù)學習器的預測結果對樣例進行排序時(排在前面的學習器認為“最可能”是正例的樣本),我們計算每個位置的準確率和召回率,描出來就會得到一個P-R曲線。也就是說,根據(jù)預測結果進行排序之后,我們選擇1個正例(學習器返回1個正例),我們計算精確率以及找回,畫出一個點,然后選擇2個正例,3個,...,這樣就能得到一個曲線。4.1.4性能評價準則平均精度我們直接根據(jù)P-R曲線就可以得到平均精度(AveragePrecision,AP),平均精度的值就等于PR曲線所圍成的面積。計算公式如下:其中,T為檢索數(shù)據(jù)集中相關文件的數(shù)量,P(r)表示前r個檢索結果的精度。如果第r個檢索結果與查詢數(shù)據(jù)相

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論