多模態(tài)數(shù)據(jù)融合與檢索技術(shù)-多模態(tài)數(shù)據(jù)融合_第1頁
多模態(tài)數(shù)據(jù)融合與檢索技術(shù)-多模態(tài)數(shù)據(jù)融合_第2頁
多模態(tài)數(shù)據(jù)融合與檢索技術(shù)-多模態(tài)數(shù)據(jù)融合_第3頁
多模態(tài)數(shù)據(jù)融合與檢索技術(shù)-多模態(tài)數(shù)據(jù)融合_第4頁
多模態(tài)數(shù)據(jù)融合與檢索技術(shù)-多模態(tài)數(shù)據(jù)融合_第5頁
已閱讀5頁,還剩81頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

多模態(tài)數(shù)據(jù)融合與檢索技術(shù)

多模態(tài)數(shù)據(jù)融合主要內(nèi)容3.3多模態(tài)融合前沿方法3.2多模態(tài)融合傳統(tǒng)方法3.1多模態(tài)數(shù)據(jù)融合介紹3.4多模態(tài)融合發(fā)展方向3.1多模態(tài)數(shù)據(jù)融合介紹3.1.3數(shù)據(jù)集介紹3.1.2國內(nèi)外現(xiàn)狀3.1.1多模態(tài)數(shù)據(jù)融合背景及意義3.1.4性能評判準(zhǔn)則3.1.1多模態(tài)數(shù)據(jù)融合背景及意義多模態(tài)數(shù)據(jù)融合:模型在完成分析和識別任務(wù)時(shí)處理不同形式的數(shù)據(jù)的過程。多模態(tài)數(shù)據(jù)的融合可以為模型決策提供更多的信息,從而提高了決策總體結(jié)果的準(zhǔn)確率,目的是建立能夠處理和關(guān)聯(lián)來自多種模態(tài)信息的模型。

3.1.1多模態(tài)數(shù)據(jù)融合背景及意義多模態(tài)數(shù)據(jù)檢索應(yīng)用實(shí)例:情感分析智能推薦語音識別多模態(tài)融合3.1多模態(tài)數(shù)據(jù)融合介紹3.1.3數(shù)據(jù)集介紹3.1.2國內(nèi)外現(xiàn)狀3.1.1多模態(tài)數(shù)據(jù)融合背景及意義3.1.4性能評判準(zhǔn)則3.1.2國內(nèi)外現(xiàn)狀國際方面:卡內(nèi)基梅隆大學(xué)MultiComp實(shí)驗(yàn)室提出了建模多模態(tài)數(shù)據(jù)中的潛在動態(tài)的概率圖形模型,處理多個(gè)視圖之間的時(shí)間同步的條件隨機(jī)場模型等方法,并為多模態(tài)數(shù)據(jù)開發(fā)了新的深度神經(jīng)網(wǎng)絡(luò)表示。麻省理工學(xué)院Sentic團(tuán)隊(duì)為多模態(tài)情感分析提出了張量融合網(wǎng)絡(luò)、上下文層次融合網(wǎng)絡(luò)、模糊常識推理等先進(jìn)算法。微軟AI團(tuán)隊(duì)提出了大規(guī)模多模態(tài)訓(xùn)練模型,包括圖像-文本的通用圖像文字標(biāo)識模型(UNITER)和視頻-文本的HERO模型。國內(nèi)方面:安徽大學(xué)湯進(jìn)教授對光學(xué)與熱紅外兩種圖像的數(shù)據(jù)融合進(jìn)行了大量研究,構(gòu)建了一個(gè)大規(guī)模的多模態(tài)視頻基準(zhǔn)數(shù)據(jù)集。3.1多模態(tài)數(shù)據(jù)融合介紹3.1.3數(shù)據(jù)集介紹3.1.2國內(nèi)外現(xiàn)狀3.1.1多模態(tài)數(shù)據(jù)融合背景及意義3.1.4性能評判準(zhǔn)則3.1.3數(shù)據(jù)集介紹MVSA數(shù)據(jù)集MVSA數(shù)據(jù)集是一個(gè)多視圖情緒分析數(shù)據(jù)集,包含20392組從推特中收集的帶有人工注釋的圖文對樣本。3.1.3數(shù)據(jù)集介紹PinterestMultimodal數(shù)據(jù)集PinterestMultimodal數(shù)據(jù)集是通過抓取Pinterest上的公開可用數(shù)據(jù),構(gòu)建的4000多萬張圖像的數(shù)據(jù)集,并且每幅圖像平均與12個(gè)描述句子相關(guān)聯(lián)。3.1.3數(shù)據(jù)集介紹MELD數(shù)據(jù)集MELD數(shù)據(jù)集是一個(gè)對話情感識別的多模態(tài)數(shù)據(jù)集。其包含文本、音頻和視頻模態(tài)。MELD數(shù)據(jù)集有1400多個(gè)對話和13000個(gè)話語。對話中的每句話都被標(biāo)記為七種情緒中的任何一種——憤怒、厭惡、悲傷、喜悅、中立、驚訝和恐懼。3.1.3數(shù)據(jù)集介紹UTD-MHAD數(shù)據(jù)集UTD-MHAD數(shù)據(jù)集是由四種模態(tài)數(shù)據(jù)共861個(gè)數(shù)據(jù)序列構(gòu)成,主要應(yīng)用于人體動作識別的數(shù)據(jù)集。這四種模態(tài)數(shù)據(jù)包括:RGB視頻、深度視頻、骨骼位置照片和可穿戴慣性傳感器的慣性信號。3.1.3數(shù)據(jù)集介紹BerkeleyMHAD數(shù)據(jù)集一個(gè)用于人體動作識別的數(shù)據(jù)集,數(shù)據(jù)集中的數(shù)據(jù)由12個(gè)RGB攝像頭、2個(gè)微軟Kinect攝像頭采集完成。該數(shù)據(jù)集由12個(gè)參與者通過5次重復(fù)執(zhí)行的11個(gè)人類動作的659個(gè)數(shù)據(jù)序列組成。Montalbano手勢數(shù)據(jù)集意大利姿態(tài)數(shù)據(jù)集,每一位參與者在相機(jī)面前都會在說著意大利語的同時(shí)展示手勢。這些手勢共包括20組,由27位參與者完成。SYSU-MM01數(shù)據(jù)集該數(shù)據(jù)集主要包括RGB圖像和紅外圖像兩種模態(tài)。這些圖像主要是在在室內(nèi)和室外環(huán)境中,從四個(gè)RGB相機(jī)和兩個(gè)紅外相機(jī)采集得到的。該數(shù)據(jù)集已劃分成訓(xùn)練集和測試集,其中訓(xùn)練集包含395人的圖像,其中RGB圖像22258張,紅外圖像11909張。而測試集共有96人,有3803張紅外圖像用于查詢。3.1.3數(shù)據(jù)集介紹多模態(tài)檢索數(shù)據(jù)集信息總結(jié)數(shù)據(jù)集模態(tài)樣本數(shù)MVSA圖像+文本(異構(gòu))20392PinterestMultimodal圖像+文本(異構(gòu))10MMELD圖像+文本+聲音(異構(gòu))1400UTD-MHADRGB+深度+骨片模型+慣性信號(異構(gòu))861BerkeleyMHADRGB視頻+深度視頻(異源)659MontalbanoRGB+深度+用戶掩圖+骨骼模型(異源)13858SYSU-MM01RGB圖像+紅外圖像(異源)3034203.1多模態(tài)數(shù)據(jù)融合介紹3.1.3數(shù)據(jù)集介紹3.1.2國內(nèi)外現(xiàn)狀3.1.1多模態(tài)數(shù)據(jù)融合背景及意義3.1.4性能評判準(zhǔn)則3.1.4性能評價(jià)準(zhǔn)則精準(zhǔn)率與召回率在數(shù)據(jù)集樣本中通常會含有正樣本與負(fù)樣本,模型將會對輸入的樣本進(jìn)行判定,即判定輸入的樣本屬于正樣本或者負(fù)樣本。精準(zhǔn)率(precision)表示判定為正的樣本中有多少樣本是真正的正樣本,召回率(recall)表示樣本中的正樣本有多少被判定正確。真正例率(TruePositiveRate,TPR)和假正例率(FalsePositiveRate,FPR)的計(jì)算公式如下:3.1.4性能評價(jià)準(zhǔn)則點(diǎn)擊率點(diǎn)擊率(HitRatio,HR)是在典型的基于隱反饋的top-N推薦任務(wù)中常用的評測指標(biāo)。HR@N用來度量測試集中的正例是否出現(xiàn)在top-N推薦列表里。計(jì)算公式如下:規(guī)范化折扣累計(jì)增益規(guī)范化折扣累計(jì)增益(NormalizedDiscountedCumulativeGain,NDCG)同樣是在典型的基于隱反饋的top-N推薦任務(wù)中常用的評測指標(biāo)。比起HR@N,NDCG@N還考慮了測試集中的正例在top-N推薦列表中的位置,其中N是一個(gè)超參數(shù)。具體的計(jì)算方式為:主要內(nèi)容3.3多模態(tài)融合前沿方法3.2多模態(tài)融合傳統(tǒng)方法3.1多模態(tài)數(shù)據(jù)融合介紹3.4多模態(tài)融合發(fā)展方向3.2多模態(tài)融合傳統(tǒng)方法3.2.3基于估計(jì)的融合方法3.2.2基于分類的融合方法3.2.1基于規(guī)則的融合方法3.2.1基于規(guī)則的融合方法線性加權(quán)融合線性加權(quán)融合是一種最簡單、應(yīng)用最廣泛的融合方法。在該方法中,從不同的模態(tài)中得到的信息是通過線性的方式進(jìn)行組合的。這些信息可以是底層視頻特征(如視頻幀中的顏色和運(yùn)動線索),也可以是高層語義級決策(如某些事件的發(fā)生)。一般而言,線性加權(quán)融合要經(jīng)歷兩個(gè)步驟:分?jǐn)?shù)標(biāo)準(zhǔn)化和分?jǐn)?shù)加權(quán)。分?jǐn)?shù)標(biāo)準(zhǔn)化最簡單的歸一化技術(shù)是Min-max標(biāo)準(zhǔn)化。Min-max標(biāo)準(zhǔn)化最適合于匹配器輸出的分?jǐn)?shù)的邊界——即最大值和最小值已知的情況。假設(shè)一組匹配分?jǐn)?shù)為,則正則化分?jǐn)?shù)的計(jì)算公式為:當(dāng)從給定的匹配分?jǐn)?shù)集估計(jì)最小值和最大值時(shí),這種方法不是魯棒的,因?yàn)樵摲椒▽τ糜诠烙?jì)的數(shù)據(jù)中的異常值高度敏感。當(dāng)不同匹配器的分?jǐn)?shù)在對數(shù)尺度上時(shí),可以應(yīng)用小數(shù)定標(biāo)標(biāo)準(zhǔn)化方法,3.2.1基于規(guī)則的融合方法線性加權(quán)融合最常用的分?jǐn)?shù)標(biāo)準(zhǔn)化技術(shù)是z值標(biāo)準(zhǔn)化,它是用給定數(shù)據(jù)的算術(shù)平均值和標(biāo)準(zhǔn)偏差計(jì)算的。如果事先知道匹配器的平均分值和分值的變化情況,則該方案可以取得較好的效果。如果沒有任何關(guān)于匹配算法性質(zhì)的先驗(yàn)知識,那么就需要從一組給定的匹配分?jǐn)?shù)中估計(jì)分?jǐn)?shù)的平均值和標(biāo)準(zhǔn)差。Tanh預(yù)測器正則化方法[29]是由Hampel等人引入的,其兼具魯棒性和高效性,公式如下:式中和分別是Hampel估計(jì)器給出的真實(shí)分?jǐn)?shù)分布的平均值和標(biāo)準(zhǔn)差估計(jì)。3.2.1基于規(guī)則的融合方法線性加權(quán)融合分?jǐn)?shù)加權(quán)對分?jǐn)?shù)進(jìn)行標(biāo)準(zhǔn)化之后,便可對分?jǐn)?shù)進(jìn)行加權(quán),完成線性融合。線性融合的一般方法可以這樣描述:表示從第個(gè)媒體源(如音頻、視頻等)獲得的特征向量或從第個(gè)分類器獲得的決策。同時(shí),讓表示為第個(gè)媒體源或第個(gè)分類器的標(biāo)準(zhǔn)化權(quán)重。這些向量(假設(shè)它們具有相同的維數(shù))通過使用求和或求積的方式進(jìn)行組合,并由分類器使用以提供高級決策。與其他方法相比,這種方法的計(jì)算成本較低。然而,一個(gè)融合系統(tǒng)需要確定和調(diào)整權(quán)重,以最優(yōu)地融合方式來完成一項(xiàng)任務(wù)。3.2.1基于規(guī)則的融合方法線性加權(quán)融合方法舉例Neti等人研究如何將視覺線索和音頻信號組合起來,用于提升自動機(jī)器識別的效果。他們從音頻特征(如音素)和視覺特征(如發(fā)音嘴型)中獲得說話人識別和語音事件檢測的單獨(dú)決策。然后采用線性加權(quán)和的策略來融合這些單獨(dú)的決策。3.2.1基于規(guī)則的融合方法線性加權(quán)融合方法舉例Lucey等人提出了隨機(jī)二次分類器用于對口語單詞的識別。該隨機(jī)二次分類器使用了線性加權(quán)的融合策略。下圖為該隨機(jī)二次分類器的判決過程。首先單詞識別器模塊分別對音頻和視頻數(shù)據(jù)進(jìn)行處理,得到他們分別的判決值,然后再根據(jù)音頻數(shù)據(jù)的判決值以及視頻數(shù)據(jù)的判決值的對數(shù)概率對單詞進(jìn)行二次判決。3.2.1基于規(guī)則的融合方法線性加權(quán)融合方法舉例Foresti和Snidaro設(shè)計(jì)了一種用于視頻監(jiān)控的分布式傳感器網(wǎng)絡(luò)(DistributedSensorNetwork,DSN),其能夠管理不同種類的傳感器(如光學(xué)、紅外、雷達(dá)等),以便在晝夜和不同天氣條件下(如霧、雨等)運(yùn)行。為了達(dá)到此目的,在此分布式傳感器網(wǎng)絡(luò)中使用了上文介紹的線性加權(quán)和的方法來融合物體的軌跡信息。3.2.1基于規(guī)則的融合方法線性加權(quán)融合方法舉例多數(shù)投票多數(shù)投票是加權(quán)組合的一種特殊情況,其所有分類器的權(quán)重都是相等的。在基于多數(shù)投票的融合中,最終的決策是大多數(shù)分類器達(dá)成相同或相似的決策。特別的,對于二分類任務(wù),分類器的數(shù)量必須是奇數(shù)且大于兩個(gè)的。自定義規(guī)則與上述使用標(biāo)準(zhǔn)統(tǒng)計(jì)規(guī)則的方法不同,Pfleger等人提出了一種基于生成規(guī)則的決策級融合方法,用于集成來自手寫字母和語音模態(tài)的輸入。在這種方法中,每一種輸入模態(tài)都可以用其使用的上下文解釋,這些上下文是根據(jù)先前識別的屬于同一用戶的輸入事件和對話狀態(tài)來確定的。生成規(guī)則包含三類規(guī)則:同步規(guī)則、多模態(tài)事件解釋規(guī)則和單模解釋規(guī)則,它們共同發(fā)揮作用以促進(jìn)融合過程。3.2多模態(tài)融合傳統(tǒng)方法3.2.3基于估計(jì)的融合方法3.2.2基于分類的融合方法3.2.1基于規(guī)則的融合方法3.2.2基于分類的融合方法此類方法包括一系列分類技術(shù),這些技術(shù)已用于將多模態(tài)觀測的結(jié)果分類為一種預(yù)定義的類。這類方法有支持向量機(jī)、貝葉斯推理、D-S理論、動態(tài)貝葉斯網(wǎng)絡(luò)和最大熵模型等。支持向量機(jī)支持向量機(jī)(SupportVectorMachine,SVM)是一個(gè)功能強(qiáng)大并且全面的機(jī)器學(xué)習(xí)模型,它能夠執(zhí)行線性或非線性分類、回歸等任務(wù)。具體來說,在多媒體領(lǐng)域,支持向量機(jī)被用于包括特征分類、概念分類、人臉檢測、文本分類、模態(tài)融合等不同任務(wù)。從多模態(tài)融合的角度,支持向量機(jī)用于解決模式分類問題。本節(jié)將首先從線性支持向量機(jī)和非線性支持向量機(jī)角度介紹支持向量機(jī)的核心概念,然后再介紹基于支持向量機(jī)的多模態(tài)數(shù)據(jù)融合方案。3.2.2基于分類的融合方法線性支持向量機(jī)下圖為三種線性分類器示例。其中藍(lán)色菱形塊代表A類數(shù)據(jù),橙色方形塊代表B類數(shù)據(jù),可以看出A類數(shù)據(jù)和B類數(shù)據(jù)是線性可分離的。圖中的兩條黑色實(shí)線和一條黑色虛線展示了三種可能的線性分類器的決策邊界。兩條黑色實(shí)線所代表的線性支持向量機(jī)分類器可以正確地將A、B兩類數(shù)據(jù)區(qū)分開來,只是它們的決策邊界與實(shí)例過于接近,當(dāng)有新的實(shí)例出現(xiàn)出,可能會出現(xiàn)分類錯(cuò)誤。黑色虛線代表的線性分類器沒有對A、B兩類數(shù)據(jù)進(jìn)行正確地分類。3.2.2基于分類的融合方法線性支持向量機(jī)相比之下,下圖黑色實(shí)線所代表的線性支持向量機(jī)分類器不僅將A、B兩類數(shù)據(jù)分開,而且盡可能遠(yuǎn)離最近的訓(xùn)練實(shí)例。線性支持向量機(jī)分類器可以視為在類別之間擬合可能的最寬的街道(平行的虛線所示)。因此這也被稱為大間隔分類(largemarginclassification)。決策邊界是完全由街道邊緣的實(shí)例所決定的,這些實(shí)例被稱為支持向量。3.2.2基于分類的融合方法線性支持向量機(jī)如果嚴(yán)格地讓所有實(shí)例都不在街道上,并且位于正確的一邊,這就是硬間隔分類。硬間隔分類主要存在兩個(gè)問題:首先,它只在數(shù)據(jù)是線性可分離的時(shí)候才有效;其次,它對異常值非常敏感,如下圖中的異常數(shù)據(jù)將導(dǎo)致線性分類器找不到硬間隔。3.2.2基于分類的融合方法線性支持向量機(jī)下圖為硬間隔分類的決策邊界示意圖。異常值將導(dǎo)致該硬間隔分類器無法很好地泛化。要避免這些問題,最好使用更靈活的模型。目標(biāo)是盡可能在保持街道寬闊和限制間隔違例(即位于街道之上,甚至在錯(cuò)誤的一邊的實(shí)例)之間找到良好的平衡,這就是軟間隔分類。3.2.2基于分類的融合方法非線性支持向量機(jī)之前的討論是基于樣本實(shí)例是線性可分的這樣的假設(shè)的,但現(xiàn)實(shí)中,原始的樣本空間也許并不存在一個(gè)能正確劃分兩類樣本實(shí)例的平面。如下圖一維原始樣本空間所示,此原始樣本空間只有一個(gè)特征,此樣本空間中的A、B兩類數(shù)據(jù)不是線性可分的。3.2.2基于分類的融合方法非線性支持向量機(jī)對于這種問題,可通過添加更多特征的方式,將原始樣本空間映射到更高維的空間,使得在這個(gè)空間中樣本實(shí)例是可分的,如下圖二維樣本空間示意圖所示,添加了第二個(gè)特征,并令,在此高維的樣本空間中,A、B兩類樣本實(shí)例便可完全線性分離(在圖中被黑色虛線所代表的分類器所分離)。3.2.2基于分類的融合方法非線性支持向量機(jī)Adams等人采用了一種后期融合的方法,利用視頻、音頻和文本三種模態(tài)來檢測視頻中的語義概念(例如天空、火煙等)。該方案利用所有概念分類器的得分,構(gòu)造一個(gè)向量作為語義特征傳遞給支持向量機(jī)進(jìn)行分類。支持向量機(jī)在對音頻、視頻和文本得分進(jìn)行分類之前,將所有概念分類器的得分合并到一個(gè)高維向量中。3.2.2基于分類的融合方法非線性支持向量機(jī)Ayache等人提出了一種核融合方案來使用視頻和文本等模態(tài)信息對多媒體資源進(jìn)行語義索引。該方案可以根據(jù)不同的模態(tài)特征選擇不同的核函數(shù),例如文本模態(tài)可以使用字符串核或詞序列核來進(jìn)行分類;其次,使用融合函數(shù)合并單模態(tài)核,以創(chuàng)建多模態(tài)核;最后,通過學(xué)習(xí)和分類步驟輸出一個(gè)分類分?jǐn)?shù)。3.2.2基于分類的融合方法非線性支持向量機(jī)在圖像分類領(lǐng)域,Zhu等人提出了一種基于支持向量機(jī)的多模態(tài)融合框架,用于對空間坐標(biāo)內(nèi)嵌入文本的圖像進(jìn)行分類。該融合框架聚合過程遵循兩個(gè)步驟:一,采用詞袋模型對低層視覺特征進(jìn)行分析來對給定圖像進(jìn)行分類。同時(shí),文本檢測器利用文本的顏色、大小、位置、邊緣密度、亮度、對比度等特征發(fā)現(xiàn)圖像中存在的文本行。二,使用成對的支持向量機(jī)分類器將視覺特征和文本特征融合在一起。3.2.2基于分類的融合方法貝葉斯推斷貝葉斯推斷方法根據(jù)概率論的規(guī)則對多模態(tài)信息進(jìn)行組合,其既可以應(yīng)用于早期融合,也可以應(yīng)用于晚期融合。該方法的基本原理是組合從多種模態(tài)得到的觀測或從不同分類器得到的決策,然后推導(dǎo)出一個(gè)觀測或決策的聯(lián)合概率的推論。若要融合從種不同的模態(tài)獲得特征向量或決策(),假設(shè)這些模態(tài)是統(tǒng)計(jì)獨(dú)立的,那么基于融合特征向量或融合決策的假設(shè)的聯(lián)合概率可計(jì)算為:

用于正則化后驗(yàn)概率估計(jì)

。對所有可能的假設(shè)計(jì)算后驗(yàn)概率。根據(jù)最大后驗(yàn)概率估計(jì),估計(jì)的假設(shè)取最大概率的值,即:貝葉斯推斷方法具有多種優(yōu)點(diǎn):第一,基于新的觀察結(jié)果,它可以逐步計(jì)算出假設(shè)成立的概率。第二,它允許任何關(guān)于假設(shè)的可能性的先驗(yàn)知識在推理過程中被利用。新的觀測或決策用于更新先驗(yàn)概率,以計(jì)算假設(shè)的后驗(yàn)概率。第三,在缺乏經(jīng)驗(yàn)數(shù)據(jù)的情況下,這種方法允許對先驗(yàn)假設(shè)使用主觀的概率估計(jì)。3.2.2基于分類的融合方法貝葉斯推斷Atrey等人在中期融合層次都采用了貝葉斯推斷融合方法。下圖為該貝葉斯推斷融合方法工作流程示意圖。3.2.2基于分類的融合方法貝葉斯推斷在早期融合層面,Pitsikalis等采用貝葉斯推斷方法對視覺特征和聽覺特征向量進(jìn)行組合。音頻特征向量包括13個(gè)靜態(tài)梅爾頻率倒譜系數(shù)及其衍生物,視覺特征向量由6個(gè)形狀和12個(gè)紋理特征拼接而成。基于組合特征,計(jì)算語音段的聯(lián)合概率。在后期融合層面,Meyer等人融合了從語音和視覺模態(tài)獲得的決策。其方法共分為三個(gè)步驟:步驟一、從語音中提取梅爾頻率倒譜系數(shù)特征,從說話人的臉部提取嘴唇輪廓特征;步驟二、利用隱馬爾可夫模型分類器分別對這兩種特征進(jìn)行概率分類,得到單獨(dú)的決策;步驟三、使用貝葉斯推斷方法融合這些概率估計(jì)值來估計(jì)語音數(shù)字的聯(lián)合概率。Xu和Chua也使用貝葉斯推斷融合方法來整合運(yùn)動視頻中檢測到的偏移和非偏移事件的概率決策。通過融合視聽特征、文本線索和領(lǐng)域知識以及使用隱馬爾可夫模型分類器來檢測這些事件。在這項(xiàng)工作中,作者已經(jīng)表明貝葉斯推斷的準(zhǔn)確性與基于規(guī)則的方案相當(dāng)。3.2.2基于分類的融合方法D-S理論雖然貝葉斯推斷融合方法允許不確定性建模(通常采用高斯分布),但一些研究人員更傾向于使用Dempster-Shafer證據(jù)推理法(簡稱D-S理論),因?yàn)樗褂弥眯胖岛退普嬷祦肀硎咀C據(jù)及其對應(yīng)的不確定性。此外,D-S理論方法對貝葉斯理論進(jìn)行了推廣,放寬了貝葉斯推斷方法對假設(shè)相互排斥的限制,從而能夠?yàn)榧僭O(shè)的并集分配證據(jù)。D-S推理系統(tǒng)是基于“識別框架”的基本概念,該框架包含著一個(gè)具有所有可能的相互排斥的假設(shè)的集合。每個(gè)假設(shè)是由可信度(belief)和似真度(plausibility)所確定的。3.2.2基于分類的融合方法D-S理論可信度是指一個(gè)假設(shè)被檢測為真時(shí)的置信下限,其約為所有支持假設(shè)的證據(jù)的總和;而似真度則表示該假設(shè)可能為真可能性的上限,即去掉所有反對假設(shè)的證據(jù)的剩余的部分。每一個(gè)假設(shè)都會被分配一個(gè)概率,即基本可信數(shù),基本可信數(shù)反映了對于假設(shè)本身(而不去管它的任何真子集與前因后果)的可信度大小。關(guān)于假設(shè)的判決是由可信度和似真度所限定的置信區(qū)間來衡量的。當(dāng)存在多個(gè)獨(dú)立模態(tài)時(shí),利用D-S理論規(guī)則可以對它們進(jìn)行融合。準(zhǔn)確地說,假設(shè)的基本可信數(shù)基于兩個(gè)模態(tài)和,可以由下面公式進(jìn)行計(jì)算。式中和分別為模態(tài)和的基本可信數(shù)。3.2.2基于分類的融合方法D-S理論舉例Bendjebbour等人提出利用D-S理論融合雷達(dá)圖像中有云和無云兩個(gè)區(qū)域的基本可信數(shù)。他們在特征層和決策層兩個(gè)層次上進(jìn)行融合。在特征層,以像素強(qiáng)度作為特征,計(jì)算并融合基于兩個(gè)傳感器像素的基本可信數(shù);在決策層,利用隱馬爾可夫模型分類器得到的關(guān)于一個(gè)像素的決策作為基本可信數(shù),然后對隱馬爾可夫模型輸出進(jìn)行組合。Mena和Malpica使用了D-S理論融合方法對彩色圖像進(jìn)行分割,用于從地面、航空或衛(wèi)星圖像中提取信息。他們從單個(gè)像素、成對的像素、一組像素中提取同一幅圖像的信息,然后利用D-S證據(jù)融合策略對基于位置分析的證據(jù)進(jìn)行融合。Guironnet等人從TREC視頻數(shù)據(jù)中提取顏色或紋理等低層特征描述符,并使用支持向量機(jī)分類器根據(jù)每個(gè)描述符識別預(yù)定義的概念(如“海灘”或“道路”)。支持向量機(jī)分類器輸出采用D-S融合方法進(jìn)行集成,稱之為可轉(zhuǎn)移信度模型(transferablebeliefmodel)。在生物特征學(xué)領(lǐng)域,Reddy將D-S理論用于融合手勢傳感器和腦計(jì)算接口傳感器兩個(gè)傳感器的輸出。融合結(jié)果表明,D-S融合方法有助于解決傳感器的模糊問題。3.2.2基于分類的融合方法動態(tài)貝葉斯網(wǎng)絡(luò)貝葉斯推斷可以擴(kuò)展成網(wǎng)絡(luò)結(jié)構(gòu)(或稱為圖結(jié)構(gòu)),圖結(jié)構(gòu)中的節(jié)點(diǎn)表示不同類型的隨機(jī)變量(觀察值或狀態(tài)),如音頻和視頻;邊表示它們的概率相關(guān)性。下圖為靜態(tài)貝葉斯網(wǎng)絡(luò)示例,用貝葉斯網(wǎng)絡(luò)描述了一個(gè)講話者檢測問題。“講話者”節(jié)點(diǎn)的值由“涼亭”節(jié)點(diǎn)的值及三個(gè)中間節(jié)點(diǎn)“可見的”,“正面的”和“講話”的值確定,而這些中間節(jié)點(diǎn)的值又是由度量節(jié)點(diǎn)“皮膚”、“紋理”、“臉”和“聲音”所推測出來的。靜態(tài)貝葉斯網(wǎng)絡(luò)示例中顯示了節(jié)點(diǎn)之間的依賴關(guān)系。然而,該網(wǎng)絡(luò)是靜態(tài)的,這意味著這個(gè)例子只是描述了某一特定時(shí)刻的狀態(tài)。3.2.2基于分類的融合方法動態(tài)貝葉斯網(wǎng)絡(luò)當(dāng)貝葉斯網(wǎng)絡(luò)加入時(shí)間維度時(shí),其工作方式轉(zhuǎn)變?yōu)閯討B(tài)貝葉斯網(wǎng)絡(luò)(DynamicBayesianNetwork,DBN)。3.2.2基于分類的融合方法動態(tài)貝葉斯網(wǎng)絡(luò)隱馬爾可夫模型用來描述一個(gè)含有隱含未知參數(shù)的馬爾可夫過程。其難點(diǎn)是從可觀察的參數(shù)中確定該過程的隱含參數(shù),然后利用這些參數(shù)來作進(jìn)一步的分析。下圖所示為隱馬爾可夫模型的狀態(tài)遷移過程。其中表示在時(shí)刻的隱藏變量,是觀察者無法得知的變量。而表示在時(shí)刻觀測的結(jié)果。如果假設(shè)觀測到的結(jié)果為,即。隱藏條件為,即,則馬爾可夫模型的概率為:,可見馬爾可夫模型將該時(shí)間點(diǎn)前后的信息都納入考量。3.2.2基于分類的融合方法動態(tài)貝葉斯網(wǎng)絡(luò)舉例Nefian等人使用了耦合隱馬爾可夫模型(CoupledHiddenMarkovModel,CHMM),它是隱馬爾可夫模型的泛化。耦合隱馬爾可夫模型允許主干節(jié)點(diǎn)進(jìn)行交互,同時(shí)擁有自己的觀察結(jié)果。耦合隱馬爾可夫模型適用于需要集成兩個(gè)或多個(gè)流的多模態(tài)場景。在這項(xiàng)工作中,作者對音頻特征(梅爾頻率倒譜系數(shù))和視覺特征(嘴唇區(qū)域的2D離散余弦變換系數(shù))的狀態(tài)異步建模,同時(shí)保持它們時(shí)間的相關(guān)性。該方法可用于語音識別。Bengio在特征級別提出了異步隱馬爾可夫模型(AsynchronousHMM,AHMM)。異步隱馬爾可夫模型是隱馬爾可夫模型的一種變體,用于處理異步數(shù)據(jù)流。對描述同一事件的異步序列、語音流和視頻(形狀和強(qiáng)度特征)流的聯(lián)合概率分布進(jìn)行建模。Fisher等提出了一種無參數(shù)方法來學(xué)習(xí)音頻和視頻特征的聯(lián)合分布。他們?yōu)榱俗畲蠡成潆S機(jī)變量之間的互信息,而估計(jì)了低維子空間上的線性投影。該方法被應(yīng)用于音頻、視頻定位。Wu等人在ACM國際會議上提出了一項(xiàng)使用影響圖方法(貝葉斯網(wǎng)絡(luò)的一種形式)來表示圖像的語義的多模態(tài)融合框架。此多模態(tài)融合框架將上下文信息(位置、時(shí)間和相機(jī)參數(shù))、內(nèi)容信息(整體和感知局部特征)與面向領(lǐng)域的語義本體(由有向無環(huán)圖表示)融合在一起。3.2.2基于分類的融合方法最大熵模型在一般情況下,最大熵模型是一種統(tǒng)計(jì)分類器,它遵循信息理論的方法,根據(jù)它所具有的信息內(nèi)容預(yù)測其屬于某個(gè)特定類的觀測的概率。最大熵模型假設(shè)分類模型是一個(gè)條件概率分布,為特征,為輸出。假設(shè)滿足所有約束條件的模型集合為:定義在條件概率分布上的條件熵為:最大熵模型的目標(biāo)就是求得使最大的時(shí)候?qū)?yīng)的。通過求最大似然估計(jì)可以求得最大熵模型的解。3.2.2基于分類的融合方法最大熵模型舉例Magalhaes等人將這種基于最大熵模型的融合方法用于多媒體語義索引。在這項(xiàng)工作中,他們將基于文本和基于圖像的特征融合起來進(jìn)行查詢關(guān)鍵字的檢索。具體而言,他們將文本和圖像特征映射到最優(yōu)特征子空間,然后為每一個(gè)查詢關(guān)鍵字提出了一個(gè)最大熵模型:為了估計(jì)最大熵模型,權(quán)重是唯一需要通過在整個(gè)數(shù)據(jù)集上最小化上述模型的對數(shù)似然值來計(jì)算的變量:因?yàn)槠洳捎酶咚购瘮?shù)來減小過擬合效果,因此對數(shù)似然函數(shù)的形式為:3.2.2基于分類的融合方法基于分類的融合方法優(yōu)缺點(diǎn)對比本節(jié)主要介紹了基于分類的融合方法,主要包括支持向量機(jī)、貝葉斯推斷、D-S理論、動態(tài)貝葉斯網(wǎng)絡(luò)和最大熵模型。每種方法都有其優(yōu)勢與劣勢,研究者應(yīng)該根據(jù)實(shí)際的場景來酌情使用,以提高模型的效果?;诟怕试淼呢惾~斯推斷融合方法提供了對新觀測的簡單集成和先驗(yàn)信息的使用。但是,它們不適合處理相互排斥的假設(shè)。此外,由于缺乏合適的先驗(yàn)信息,導(dǎo)致該方法的融合結(jié)果不準(zhǔn)確。另一方面,D-S理論融合方法善于處理相互排斥的假設(shè)。但是,這種方法很難處理大量的假設(shè)組合。D-S理論融合方法已用于語音識別、運(yùn)動視頻分析和事件檢測等任務(wù)。動態(tài)貝葉斯網(wǎng)絡(luò)被廣泛應(yīng)用于處理時(shí)間序列數(shù)據(jù)。動態(tài)貝葉斯網(wǎng)絡(luò)是使用時(shí)間數(shù)據(jù)的貝葉斯推斷的變形。動態(tài)貝葉斯網(wǎng)絡(luò)方法以其不同的形式(如隱馬爾可夫模型)已成功地應(yīng)用于語音識別、說話人識別與跟蹤、視頻鏡頭分類等多媒體分析任務(wù)。然而,在這種方法中,往往很難確定正確的動態(tài)貝葉斯網(wǎng)絡(luò)狀態(tài)。在各種基于分類的傳統(tǒng)的融合方法中,支持向量機(jī)和動態(tài)貝葉斯網(wǎng)絡(luò)得到了研究人員的廣泛應(yīng)用。支持向量機(jī)因其改進(jìn)的分類性能而受到青睞,而動態(tài)貝葉斯網(wǎng)絡(luò)被發(fā)現(xiàn)更適合建模時(shí)態(tài)數(shù)據(jù)。3.2多模態(tài)融合傳統(tǒng)方法3.2.3基于估計(jì)的融合方法3.2.2基于分類的融合方法3.2.1基于規(guī)則的融合方法3.2.3基于估計(jì)的融合方法卡爾曼濾波卡爾曼濾波(Kalmanfilter,KF)允許對動態(tài)的數(shù)據(jù)進(jìn)行實(shí)時(shí)處理,并從具有一定統(tǒng)計(jì)意義的融合數(shù)據(jù)中得到系統(tǒng)的狀態(tài)估計(jì)。為了使該濾波器運(yùn)行,假設(shè)一個(gè)帶有高斯噪聲的線性動態(tài)系統(tǒng)模型,狀態(tài)空間方程如下:基于上述狀態(tài)空間模型,卡爾曼濾波器不需要保存觀測歷史,只依賴于前一時(shí)間戳的狀態(tài)估計(jì)數(shù)據(jù)。卡爾曼濾波器的使用僅限于線性系統(tǒng)模型,不適用于具有非線性特性的系統(tǒng)。對于非線性系統(tǒng)模型,通常使用卡爾曼濾波器的一種變體,即擴(kuò)展卡爾曼濾波器(ExtendedKalmanFilter,EKF)。3.2.3基于估計(jì)的融合方法卡爾曼濾波卡爾曼濾波器和擴(kuò)展卡爾曼濾波器也已經(jīng)成功地用于目標(biāo)的源定位和跟蹤。下圖為卡爾曼濾波器融合過程示意圖,其展現(xiàn)了使用該卡爾曼濾波器進(jìn)行單目標(biāo)定位和跟蹤的融合過程。在本地處理器部分使用基本卡爾曼濾波器處理視頻傳感器傳入的數(shù)據(jù),使用擴(kuò)展卡爾曼濾波器處理音頻傳感器傳入的數(shù)據(jù)(基于音頻位置的估計(jì)是非線性估計(jì)的)。然后在融合中心內(nèi)融合音頻和視頻估計(jì)的輸出。3.2.3基于估計(jì)的融合方法粒子濾波粒子濾波是一套復(fù)雜的基于仿真的方法,常用于估計(jì)非線性和非高斯?fàn)顟B(tài)空間模型的狀態(tài)分布。這些方法也被稱為順序蒙特卡羅(SequentialMonteCarlo,SMC)方法。在這種方法中,粒子代表了狀態(tài)變量的隨機(jī)樣本,其中每個(gè)粒子都有一個(gè)相關(guān)的權(quán)值。粒子濾波算法包括預(yù)測和更新步驟:預(yù)測步驟根據(jù)每個(gè)粒子的動力學(xué)來傳播,而更新步驟根據(jù)最新的感知信息來重估一個(gè)粒子的重量。雖然卡爾曼濾波器、擴(kuò)展卡爾曼濾波器或逆卡爾曼濾波器僅對線性高斯過程是最優(yōu)的,但當(dāng)獲取足夠多的樣本時(shí),粒子濾波方法可以為非線性非高斯過程提供貝葉斯最優(yōu)估計(jì)。3.2.3基于估計(jì)的融合方法粒子濾波舉例Vermaak等人使用粒子濾波器來估計(jì)基于音頻和視頻的觀察結(jié)果的預(yù)測。在其所提出的系統(tǒng)中使用了一個(gè)攝像頭和一對麥克風(fēng),并根據(jù)存儲的視聽序列進(jìn)行了測試。視聽特征的融合發(fā)生在特征層面,這意味著來自兩種模態(tài)特征的單個(gè)粒子坐標(biāo)被合并來跟蹤說話者。Perez等人采用粒子濾波方法融合二維物體形狀信息和音頻信息,用于說話人的追蹤。與Vermaak等人的工作不同的是,后者使用了重要性粒子濾波的概念,其中音頻信息專門用于生成一個(gè)重要性函數(shù),來影響基于音頻的觀察似然的計(jì)算。雖然卡爾曼濾波器、擴(kuò)展卡爾曼濾波器或逆卡爾曼濾波器僅對線性高斯過程是最優(yōu)的,但當(dāng)獲取足夠多的樣本時(shí),粒子濾波方法可以為非線性非高斯過程提供貝葉斯最優(yōu)估計(jì)。主要內(nèi)容3.3多模態(tài)融合前沿方法3.2多模態(tài)融合傳統(tǒng)方法3.1多模態(tài)數(shù)據(jù)融合介紹3.4多模態(tài)融合發(fā)展方向3.3多模態(tài)檢索前沿方法3.3.3基于圖神經(jīng)網(wǎng)絡(luò)的融合方法3.3.2基于深度學(xué)習(xí)的融合方法3.3.1基于池化的融合方法3.3.1基于池化的融合方法三部分組成:第一部分為模態(tài)嵌入子網(wǎng)絡(luò),其對于語言、視覺和聲音模態(tài)有不同的設(shè)計(jì);第二部分是張量融合層(TensorFusionLayer,TFL),是為了解決不同模態(tài)之間交互的問題而設(shè)計(jì)的;第三部分是情緒推理子網(wǎng)絡(luò),其承接張量融合層的輸出,并進(jìn)行情感推理。(1)張量融合網(wǎng)絡(luò)方法3.3.1基于池化的融合方法該融合方法可以認(rèn)為是張量融合網(wǎng)絡(luò)方法的等價(jià)升級版,其利用低秩權(quán)值張量分解提高多模態(tài)融合的效率并且不影響多模態(tài)融合的性能。首先低秩多模態(tài)融合方法通過將單模態(tài)輸入分別傳遞到三個(gè)子嵌入網(wǎng)絡(luò)中,得到單模態(tài)表示向量。然后低秩多模態(tài)融合方法通過與特定模態(tài)因子進(jìn)行低秩多模態(tài)融合輸出多模態(tài)表示向量。(2)低秩多模態(tài)融合方法3.3.1基于池化的融合方法進(jìn)一步地,通過堆疊多項(xiàng)式張量池化塊搭建了層次多項(xiàng)式融合網(wǎng)絡(luò)。一個(gè)多項(xiàng)式張量池化塊在一個(gè)“接收窗口”上運(yùn)行,該“接收窗口”覆蓋了所有八個(gè)時(shí)間點(diǎn)和三種模態(tài)的特征。這樣,多項(xiàng)式張量池化塊就可以捕獲窗口內(nèi)總共二十四個(gè)混合特征之間的高階非線性交互作用。多項(xiàng)式張量池化塊與一個(gè)小的“接收窗口”相關(guān)聯(lián),它自然地表現(xiàn)出局部相關(guān)性。(3)多項(xiàng)式張量池化方法3.3.1基于池化的融合方法通過對權(quán)重張量施加低秩控制,多模態(tài)低秩雙線性池化(MultimodalLow-rankBilinearPooling,MLB)方法將雙線性池的三維權(quán)值張量分解為三個(gè)二維權(quán)值矩陣。多個(gè)多模態(tài)因子分解雙線性池化模型可以級聯(lián)來建模輸入特性之間的高階交互,這被稱為多模態(tài)因數(shù)化高階池化(Multi-modalFactorizedHigh-orderPooling,MFH)方法。Ben-Younes等人提出的MUTAN是一種基于多模態(tài)張量的Tucker分解的方法,其使用Tucker分解將原始的三維權(quán)重張量算子分解為低維核心張量和MLB使用的三個(gè)二維權(quán)量矩陣。近期提出的BLOCK方法使用了一個(gè)基于塊的超對角陣的融合框架,其利用塊項(xiàng)分解來計(jì)算雙線性池化。BLOCK將MUTAN泛化為多個(gè)MUTAN模型的總和,為模態(tài)之間的交互提供更豐富的建模。(4)其他基于池化的融合方法3.3多模態(tài)檢索前沿方法3.3.3基于圖神經(jīng)網(wǎng)絡(luò)的融合方法3.3.2基于深度學(xué)習(xí)的融合方法3.3.1基于池化的融合方法3.3.2基于深度學(xué)習(xí)的融合方法判別模型直接對輸入數(shù)據(jù)X到輸出數(shù)據(jù)Y之間的映射關(guān)系進(jìn)行建模,模型參數(shù)是通過最小化一些提前設(shè)計(jì)好的目標(biāo)損失函數(shù)學(xué)習(xí)而來。這類模型比較適合一些多模態(tài)學(xué)習(xí)任務(wù),比如多模態(tài)數(shù)據(jù)分類任務(wù),推薦系統(tǒng),視覺問答(VisualQuestionAnswer,VQA),人類行為識別任務(wù)等。多層感知機(jī)也叫作前饋神經(jīng)網(wǎng)絡(luò),是典型的深度學(xué)習(xí)模型。神經(jīng)網(wǎng)絡(luò)的基本組成單元是神經(jīng)元,下圖為單神經(jīng)元結(jié)構(gòu)示例。(1)多層感知機(jī)介紹3.3.2基于深度學(xué)習(xí)的融合方法常用的激活函數(shù)有用于高斯輸出分布的線性激活函數(shù),用于伯努利輸出分布的Sigmoid型函數(shù),用于多變量伯努利輸出分布的softmax函數(shù),整流線性單元ReLU函數(shù)及一系列變體等。(1)多層感知機(jī)介紹3.3.2基于深度學(xué)習(xí)的融合方法隨著隱層數(shù)量的增多,該類模型可被稱為多層感知機(jī)。當(dāng)引入非線性的隱含層后,理論上只要網(wǎng)絡(luò)結(jié)構(gòu)足夠深(隱藏層數(shù)目足夠多)或網(wǎng)絡(luò)結(jié)構(gòu)足夠?qū)挘[藏層的節(jié)點(diǎn)足夠多),通過多層非線性變換多層感知機(jī)就可以擬合任意函數(shù)。圖中每一層網(wǎng)絡(luò)的輸入都為上一層網(wǎng)絡(luò)的輸出,這意味著網(wǎng)絡(luò)中不存在反饋,信號總是向前傳播。(1)多層感知機(jī)介紹3.3.2基于深度學(xué)習(xí)的融合方法卷積神經(jīng)網(wǎng)絡(luò)對于圖像數(shù)據(jù)的平移、縮放、傾斜或者其它一些形式的變形具有良好的容錯(cuò)能力。卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)具有局部連接和權(quán)值共享的特點(diǎn)。前一層的每個(gè)神經(jīng)元只與后一層特定范圍內(nèi)的神經(jīng)元存在連接。每個(gè)神經(jīng)元只對局部感知,然后將局部的信息傳到下一層綜合起來就得到了全局的信息,使得連接具有稀疏性,這樣將大大節(jié)約空間存儲和訓(xùn)練所需時(shí)間。權(quán)值共享:理論證明,圖像的各部分統(tǒng)計(jì)特性之間具有相似性和連續(xù)性,所以對于一幅圖像上的不同位置,可以采用同樣的濾波器學(xué)習(xí)完成一幅圖像的一次特征映射,反映到結(jié)構(gòu)設(shè)計(jì)上體現(xiàn)為同一層中某些神經(jīng)元之間共享連接權(quán)重。(2)卷積神經(jīng)網(wǎng)絡(luò)介紹3.3.2基于深度學(xué)習(xí)的融合方法卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)上增加了特有的卷積層和池化層,數(shù)據(jù)信號在網(wǎng)絡(luò)中的前向傳播和殘差反向傳播也與多層感知機(jī)有所區(qū)別。(2)卷積神經(jīng)網(wǎng)絡(luò)介紹3.3.2基于深度學(xué)習(xí)的融合方法卷積神經(jīng)網(wǎng)絡(luò)深的各輸入元素之間是相互獨(dú)立的,輸入與輸出也是獨(dú)立的。希望從數(shù)據(jù)中挖掘到上下文之間的關(guān)系從而更好的實(shí)現(xiàn)預(yù)測,遞歸神經(jīng)網(wǎng)絡(luò)針對序列模式設(shè)計(jì)的特殊結(jié)構(gòu)可以利用輸入數(shù)據(jù)的上下文的信息,使其廣泛應(yīng)用于文本生成、機(jī)器翻譯、語音識別等領(lǐng)域。遞歸神經(jīng)網(wǎng)絡(luò)通過隱藏層信號在不同時(shí)間步之間的傳遞使得模型可以基于前面的信息學(xué)習(xí)后面的特征。(3)遞歸神經(jīng)網(wǎng)絡(luò)及長短期記憶單元網(wǎng)絡(luò)介紹3.3.2基于深度學(xué)習(xí)的融合方法長短期記憶(Longshort-termmemory,LSTM)單元用于克服典型RNN不能學(xué)習(xí)雙向的上下文、不能“記憶”長期信息等缺陷。能夠解決長序列訓(xùn)練過程中的梯度消失和梯度爆炸問題,在更長的序列中有更好的表現(xiàn)。主要由遺忘門、輸入門和輸出門三部分組成,均采用sigmoid函數(shù)。(3)遞歸神經(jīng)網(wǎng)絡(luò)及長短期記憶單元網(wǎng)絡(luò)介紹3.3.2基于深度學(xué)習(xí)的融合方法多模態(tài)卷積神經(jīng)網(wǎng)絡(luò)m-CNN為了充分捕捉語義關(guān)聯(lián),在端到端架構(gòu)中設(shè)計(jì)了單詞等級、詞組等級和句子等級三種等級的融合策略。單詞等級和詞組等級的融合是指將句子中的部分單詞或詞組與圖像的部分區(qū)域相融合。句子等級的融合則指整個(gè)句子和圖像的整體相融合。設(shè)計(jì)了三個(gè)子網(wǎng)絡(luò),分別是:圖像子網(wǎng)絡(luò)、匹配子網(wǎng)絡(luò)和評估子網(wǎng)絡(luò)。(4)基于判別模型的多模態(tài)數(shù)據(jù)融合方案3.3.2基于深度學(xué)習(xí)的融合方法模態(tài)數(shù)據(jù)的興趣相關(guān)產(chǎn)品相似模型(MultimodalInterest-RelatedItemSimilaritymodel,MultimodalIRIS將用戶與產(chǎn)品的交互信息以及產(chǎn)品的圖像數(shù)據(jù)與文本數(shù)據(jù)相融合,用于產(chǎn)品的推薦。MultimodalIRIS模型由三個(gè)模塊組成,即多模態(tài)特征學(xué)習(xí)模塊、興趣相關(guān)網(wǎng)絡(luò)(Interest-RelatedNetwork,IRN)和產(chǎn)品相似度推薦模塊。(4)基于判別模型的多模態(tài)數(shù)據(jù)融合方案3.3.2基于深度學(xué)習(xí)的融合方法編碼器是基于生成模型中常見的一種模型。通常意義的自編碼器原理很簡單,包括一個(gè)編碼器和解碼器,數(shù)學(xué)上都表現(xiàn)為輸入信號的變換運(yùn)算。編碼器經(jīng)變換運(yùn)算將輸入信號編碼成信號,而解碼器將經(jīng)編碼的轉(zhuǎn)換成輸出信號。自編碼器區(qū)別于多層感知器的最重要的一點(diǎn)是采用無監(jiān)督學(xué)習(xí)方式,訓(xùn)練時(shí)輸入即輸出,不需要額外的標(biāo)簽。輸入層到隱含層為編碼器,它可以從高維輸入空間變換到低維隱含空間,即學(xué)習(xí)到數(shù)據(jù)的隱含表示。隱含層到輸出層為解碼器,利用學(xué)習(xí)到的隱含特征重構(gòu)輸出逼近原始輸入數(shù)據(jù)。(5)基于生成模型的多模態(tài)數(shù)據(jù)融合方法3.3.2基于深度學(xué)習(xí)的融合方法典型的自編碼器結(jié)構(gòu),輸入層的通過編碼器的編碼過程得到隱藏層的低維向量,再通過解碼器重構(gòu)輸出逼近輸入的。(5)基于生成模型的多模態(tài)數(shù)據(jù)融合方法3.3.2基于深度學(xué)習(xí)的融合方法兩模態(tài)深度自編碼器首先從音頻輸入和視頻輸入中分別得到音頻表示向量和視頻表示向量,然后經(jīng)過編碼融合得到共享表示向量,最后經(jīng)過解碼器得到音頻重建向量和視頻重建向量。(5)基于生成模型的多模態(tài)數(shù)據(jù)融合方法3.3.2基于深度學(xué)習(xí)的融合方法注意力機(jī)制允許模型將注意力集中在特征圖的特定區(qū)域或特征序列的特定時(shí)間點(diǎn)上。通過該機(jī)制,不僅僅可以提高性能,而且可以提高特征

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論