版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
多模態(tài)數(shù)據(jù)融合與檢索技術(shù)
第1章:引言主要內(nèi)容1.2研究?jī)?nèi)容1.1研究背景與意義多模態(tài)數(shù)據(jù)研究背景大數(shù)據(jù)時(shí)代:我們的生活和工作都需要大數(shù)據(jù)的支持,大數(shù)據(jù)給予我們豐富多彩的信息,我們也能夠挖掘數(shù)據(jù)內(nèi)部與信息之間的關(guān)系,這些“微妙”的關(guān)系在生活與生產(chǎn)中能大大減少人力物力,有效提高生活品質(zhì)與生產(chǎn)效率,因此也可以說,大數(shù)據(jù)已經(jīng)成為了人類社會(huì)向前邁進(jìn)的基石。多模態(tài)數(shù)據(jù)研究背景模態(tài):信息接收的特定方式。模態(tài)所包含的內(nèi)容之間的互信息可能很大也可能很小,但最終的指向卻是一種事物。多模態(tài)數(shù)據(jù)研究背景多模態(tài):兩個(gè)或者兩個(gè)以上不同模態(tài)數(shù)據(jù)的組合。多模態(tài)數(shù)據(jù)包含了常見的文字,圖像,視頻等多種模態(tài)數(shù)據(jù),可應(yīng)用于無人駕駛、語音-文字、圖文搜索等多個(gè)領(lǐng)域。多模態(tài)數(shù)據(jù)研究意義多模態(tài)數(shù)據(jù)能夠提取更豐富的信息,通過不同模態(tài)數(shù)據(jù)之間的相互支撐、修正和融合,更深入理解與剖析待描述事物。多模態(tài)數(shù)據(jù)能夠提供多角度的描述,通過不同角度的數(shù)據(jù)進(jìn)行它們之間的集成與補(bǔ)充,提高待描述事物所含信息的精準(zhǔn)度與安全性。多模態(tài)數(shù)據(jù)能夠獲得更強(qiáng)大的應(yīng)用效果,通過數(shù)據(jù)對(duì)信息的不同敏感性,在對(duì)信息進(jìn)行捕捉時(shí)可以達(dá)到多方位的收集和解析,增強(qiáng)信息的多樣表達(dá)性和多模呈現(xiàn)性。多模態(tài)數(shù)據(jù)能夠達(dá)到更穩(wěn)定的系統(tǒng)性能,在信息對(duì)抗與信息加密上由于不同模態(tài)的相互加持,增加了魯棒性、抗干擾性和自控性,因此在對(duì)信息質(zhì)量要求較高時(shí),我們往往采用多模態(tài)數(shù)據(jù)進(jìn)行描述與處理。主要內(nèi)容1.2研究?jī)?nèi)容1.1研究背景與意義1.2.2多模態(tài)數(shù)據(jù)檢索技術(shù)1.2.1多模態(tài)數(shù)據(jù)融合技術(shù)1.2研究?jī)?nèi)容1.2.1多模態(tài)數(shù)據(jù)融合技術(shù)數(shù)據(jù)融合:又被稱為信息融合技術(shù),是為了達(dá)成某個(gè)目標(biāo)而對(duì)多個(gè)信息進(jìn)行綜合處理的過程。多模態(tài)數(shù)據(jù)融合:利用計(jì)算機(jī)對(duì)多種模態(tài)信息進(jìn)行綜合處理的技術(shù)。對(duì)不同種類的多模態(tài)數(shù)據(jù)進(jìn)行集成整合,聯(lián)合學(xué)習(xí)各模態(tài)數(shù)據(jù)的潛在共享信息,以獲取對(duì)客觀物體的狀態(tài)與環(huán)境信息更為準(zhǔn)確的描述與判斷,進(jìn)而提升表達(dá)精準(zhǔn)性。1.2.1多模態(tài)數(shù)據(jù)融合技術(shù)多模態(tài)數(shù)據(jù)融合技術(shù)研究重點(diǎn):對(duì)于多傳感器取得的不同模態(tài)數(shù)據(jù)選取最優(yōu)的特征識(shí)別方法和融合算法。這些算法通過完成多種不同傳感器信息的協(xié)調(diào)與互補(bǔ),改善基于不確定數(shù)據(jù)的決策過程,來解決普通方法所無法確定的問題。多模態(tài)數(shù)據(jù)融合技術(shù)主要方向:探索不同模態(tài)之間的關(guān)聯(lián)性,挖掘各個(gè)模態(tài)間的特有信息與共享信息,并通過模態(tài)間信息的互補(bǔ)來學(xué)習(xí)更加準(zhǔn)確的復(fù)雜數(shù)據(jù)特征,以支撐后續(xù)的研究工作。1.2.1多模態(tài)數(shù)據(jù)融合技術(shù)多模態(tài)數(shù)據(jù)融合具體操作:第一階段:多模態(tài)數(shù)據(jù)的匯聚,將所有模態(tài)的信息匯聚成較大的集合。第二階段:多模態(tài)數(shù)據(jù)的消除,將重合度與相關(guān)度過大甚至同樣的信息進(jìn)行去除。第三階段:多模態(tài)數(shù)據(jù)的整合,將剩余的模態(tài)數(shù)據(jù)進(jìn)行重新整合,得到新的融合數(shù)據(jù)。1.2.1多模態(tài)數(shù)據(jù)融合技術(shù)多模態(tài)數(shù)據(jù)融合應(yīng)用:遙感影像融合:一個(gè)對(duì)多遙感器的影像數(shù)據(jù)和其他信息的處理過程,它著重于把那些在空間或時(shí)間上冗余或互補(bǔ)的多源數(shù)據(jù),按一定的規(guī)則進(jìn)行運(yùn)算處理,獲得比任何單一數(shù)據(jù)更精確、更豐富的信息,生成一幅具有新的空間、波譜、時(shí)間特征的合成影像。多光譜影像全色影像融合影像1.2.1多模態(tài)數(shù)據(jù)融合技術(shù)多模態(tài)數(shù)據(jù)融合應(yīng)用:智能機(jī)器人:一種將傳感器以及所產(chǎn)生的多模態(tài)信息作為感受周圍環(huán)境的手段,能夠擁有與人類相似的感受、做出與人類類似的反應(yīng)的智能設(shè)備。1.2.1多模態(tài)數(shù)據(jù)融合技術(shù)多模態(tài)數(shù)據(jù)融合應(yīng)用:自動(dòng)駕駛汽車:一種通過計(jì)算機(jī)系統(tǒng)實(shí)現(xiàn)無人駕駛的智能汽車,采用視頻攝像頭、雷達(dá)傳感器以及激光測(cè)距器等來感知周圍的交通狀況,并通過前期人工駕駛汽車采集到的詳盡地圖對(duì)前方的道路進(jìn)行導(dǎo)航。1.2.1多模態(tài)數(shù)據(jù)融合技術(shù)多模態(tài)數(shù)據(jù)融合應(yīng)用:醫(yī)學(xué)圖像融合:為了將有效信息進(jìn)行融合而綜合使用多種醫(yī)學(xué)成像模式,幫助臨床工作人員快速獲取感興趣的病理信息。CT圖像PET圖像融合影像1.2.2多模態(tài)數(shù)據(jù)檢索技術(shù)1.2.1多模態(tài)數(shù)據(jù)融合技術(shù)1.2研究?jī)?nèi)容1.2.2多模態(tài)數(shù)據(jù)檢索技術(shù)數(shù)據(jù)檢索:利用已擁有的數(shù)據(jù)在大量多樣數(shù)據(jù)中進(jìn)行搜索,并得到期待數(shù)據(jù)的過程。多模態(tài)數(shù)據(jù)檢索:以一種模態(tài)的數(shù)據(jù)作為請(qǐng)求,檢索出最相關(guān)的另外一種或多種模態(tài)的數(shù)據(jù),豐富人們對(duì)于事物的認(rèn)知和理解。其核心在于建立不同模態(tài)信息之間的關(guān)聯(lián),有效的度量不同模態(tài)數(shù)據(jù)的相似性。1.2.2多模態(tài)數(shù)據(jù)檢索技術(shù)多模態(tài)數(shù)據(jù)檢索應(yīng)用:民用:常應(yīng)用于搜索層面與互聯(lián)網(wǎng)領(lǐng)域,例如文字、圖像、音頻、視頻等數(shù)據(jù)。軍用:常應(yīng)用于某地區(qū)的軍事偵察范圍,例如經(jīng)濟(jì)、文化、政治、氣候等信息。多模態(tài)數(shù)據(jù)融合與檢索技術(shù)
第2章:多模態(tài)學(xué)習(xí)2.3多模態(tài)數(shù)據(jù)融合與檢索技術(shù)2.2多模態(tài)學(xué)習(xí)2.1多模態(tài)數(shù)據(jù)概述主要內(nèi)容2.1.2異源多模態(tài)數(shù)據(jù)2.1.1異構(gòu)多模態(tài)數(shù)據(jù)2.1多模態(tài)數(shù)據(jù)概述2.1.1異構(gòu)多模態(tài)數(shù)據(jù)異構(gòu)多模態(tài)數(shù)據(jù):由不同的媒介產(chǎn)生的模態(tài)數(shù)據(jù),包括文字、圖像、照片、聲音、動(dòng)畫和影片。文本圖像動(dòng)畫聲音視頻2.1.2異源多模態(tài)數(shù)據(jù)2.1.1異構(gòu)多模態(tài)數(shù)據(jù)2.1多模態(tài)數(shù)據(jù)概述2.1.2異源多模態(tài)數(shù)據(jù)異源多模態(tài)數(shù)據(jù):來自不同傳感器的同一類媒介產(chǎn)生的數(shù)據(jù)。紅外圖像合成孔徑雷達(dá)(SAR)圖像超聲診斷圖像(B超)計(jì)算機(jī)斷層掃描圖像(CT)2.3多模態(tài)數(shù)據(jù)融合與檢索技術(shù)2.2多模態(tài)學(xué)習(xí)2.1多模態(tài)數(shù)據(jù)概述主要內(nèi)容2.2多模態(tài)學(xué)習(xí)2.2.3多模態(tài)學(xué)習(xí)實(shí)際應(yīng)用2.2.2多模態(tài)學(xué)習(xí)研究進(jìn)展2.2.1多模態(tài)學(xué)習(xí)分類概述2.2.4多模態(tài)學(xué)習(xí)研究展望2.2.1多模態(tài)學(xué)習(xí)分類概述多模態(tài)學(xué)習(xí):多模態(tài)數(shù)據(jù)的挖掘分析過程可被理解為“多模態(tài)學(xué)習(xí)”,目的是建立一個(gè)能處理和關(guān)聯(lián)多種模態(tài)信息的模型,有效的“多模態(tài)學(xué)習(xí)”可獲得更豐富的語義信息,進(jìn)而提升待表示事物的整體性能。基于模型的多模態(tài)學(xué)習(xí):表示學(xué)習(xí)與協(xié)同學(xué)習(xí)基于任務(wù)的多模態(tài)學(xué)習(xí):轉(zhuǎn)化任務(wù),融合任務(wù),檢索任務(wù)。傳統(tǒng)多模態(tài)學(xué)習(xí)前沿多模態(tài)學(xué)習(xí)1970-20102.2.1多模態(tài)學(xué)習(xí)分類概述多模態(tài)表示學(xué)習(xí)(MultimodalRepresentation):通過利用多模態(tài)之間的互補(bǔ)性和關(guān)聯(lián)性,剔除模態(tài)間的冗余性,從而為每個(gè)模態(tài)提取最具有判別性的特征表示,以幫助它們學(xué)習(xí)到更好的特征表示,并最終表示和匯總成多模式數(shù)據(jù)。包括兩大研究方向:聯(lián)合表示學(xué)習(xí)與協(xié)同表示學(xué)習(xí)。2.2.1多模態(tài)學(xué)習(xí)分類概述聯(lián)合表示學(xué)習(xí)(JointRepresentations):將多個(gè)單模態(tài)投影到一個(gè)共享的子空間。以便能夠融合多個(gè)模態(tài)的特征,形成一個(gè)多模態(tài)向量空間。2.2.1多模態(tài)學(xué)習(xí)分類概述協(xié)同表示學(xué)習(xí)(CoordinatedRepresentations):多模態(tài)中的每個(gè)模態(tài)分別映射到各自的表示空間,但映射后的向量之間滿足一定的相關(guān)性約束,例如線性相關(guān)。2.2.1多模態(tài)學(xué)習(xí)分類概述多模態(tài)協(xié)同學(xué)習(xí)(MultimodalCo-learning):使用一個(gè)資源豐富的模態(tài)信息來輔助另一個(gè)資源相對(duì)貧瘠的模態(tài)進(jìn)行學(xué)習(xí)。遷移學(xué)習(xí)(TransferLearning):從相關(guān)領(lǐng)域中遷移標(biāo)注數(shù)據(jù)或者知識(shí)結(jié)構(gòu)來完成或改進(jìn)目標(biāo)領(lǐng)域的學(xué)習(xí)效果。2.2.1多模態(tài)學(xué)習(xí)分類概述多模態(tài)協(xié)同學(xué)習(xí)(MultimodalCo-learning):使用一個(gè)資源豐富的模態(tài)信息來輔助另一個(gè)資源相對(duì)貧瘠的模態(tài)進(jìn)行學(xué)習(xí)。鄰域適應(yīng)性(DomainAdaptation):解決將訓(xùn)練域上學(xué)習(xí)到的模型應(yīng)用到目標(biāo)域中,利用信息豐富的源域樣本來提升目標(biāo)域模型的性能。2.2.1多模態(tài)學(xué)習(xí)分類概述多模態(tài)轉(zhuǎn)化(MultimodalTranslation):也稱為映射,是將一個(gè)模態(tài)的數(shù)據(jù)信息轉(zhuǎn)換為另一個(gè)模態(tài)的數(shù)據(jù)信息。2.2.1多模態(tài)學(xué)習(xí)分類概述多模態(tài)融合(MultimodalFusion):通過聯(lián)合多個(gè)模態(tài)的信息,進(jìn)行目標(biāo)預(yù)測(cè)(分類或者回歸)任務(wù),常見的應(yīng)用包括視頻與音頻識(shí)別、手機(jī)身份認(rèn)證、多模態(tài)情感分析等。視頻與音頻識(shí)別:分別提取音頻以及視頻的特征信息,再將有用的信息綜合起來作為某一個(gè)實(shí)例的融合特征,從而進(jìn)行識(shí)別工作。2.2.1多模態(tài)學(xué)習(xí)分類概述多模態(tài)融合(MultimodalFusion):通過聯(lián)合多個(gè)模態(tài)的信息,進(jìn)行目標(biāo)預(yù)測(cè)(分類或者回歸)任務(wù),常見的應(yīng)用包括視頻與音頻識(shí)別、手機(jī)身份認(rèn)證、多模態(tài)情感分析等。手機(jī)身份認(rèn)證:利用手機(jī)的多傳感器信息,提取融合之后用于認(rèn)證手機(jī)使用者是否是注冊(cè)用戶。2.2.1多模態(tài)學(xué)習(xí)分類概述多模態(tài)融合(MultimodalFusion):通過聯(lián)合多個(gè)模態(tài)的信息,進(jìn)行目標(biāo)預(yù)測(cè)(分類或者回歸)任務(wù),常見的應(yīng)用包括視頻與音頻識(shí)別、手機(jī)身份認(rèn)證、多模態(tài)情感分析等。多模態(tài)情感分析:利用多個(gè)模態(tài)的數(shù)據(jù),得到更加準(zhǔn)確的情感類型判斷結(jié)果。2.2.1多模態(tài)學(xué)習(xí)分類概述多模態(tài)檢索(MultimodalRetrieval):對(duì)來自同一個(gè)實(shí)例的不同模態(tài)信息的子分支或元素尋找對(duì)應(yīng)關(guān)系,多模態(tài)檢索可分為時(shí)間維度、空間維度。時(shí)間維度空間維度2.2多模態(tài)學(xué)習(xí)2.2.3多模態(tài)學(xué)習(xí)實(shí)際應(yīng)用2.2.2多模態(tài)學(xué)習(xí)研究進(jìn)展2.2.1多模態(tài)學(xué)習(xí)分類概述2.2.4多模態(tài)學(xué)習(xí)研究展望2.2.2多模態(tài)學(xué)習(xí)研究進(jìn)展多模態(tài)學(xué)習(xí)可應(yīng)用于語音識(shí)別和生成、圖像識(shí)別、事件監(jiān)測(cè)、情感分析和跨媒體檢索等方面,賦予機(jī)器理解和融合圖像、語音、文字、視頻等模態(tài)所包含信息的能力。主要包含三種應(yīng)用領(lǐng)域:視聽語音識(shí)別多媒體內(nèi)容索引和檢索多模態(tài)交互多模態(tài)學(xué)習(xí)表示學(xué)習(xí)協(xié)同學(xué)習(xí)轉(zhuǎn)換融合檢索視聽語音識(shí)別√√
√√多模態(tài)檢索√√√
√情感與影響
2.2多模態(tài)學(xué)習(xí)2.2.3多模態(tài)學(xué)習(xí)實(shí)際應(yīng)用2.2.2多模態(tài)學(xué)習(xí)研究進(jìn)展2.2.1多模態(tài)學(xué)習(xí)分類概述2.2.4多模態(tài)學(xué)習(xí)研究展望2.2.3多模態(tài)學(xué)習(xí)實(shí)際應(yīng)用AlphaGO:世界圍棋第一人柯潔九段在和AlphaGo的圍棋終極人機(jī)大戰(zhàn)以0:3完敗,成為人類頂尖高手與這臺(tái)機(jī)器之間的最后一次較量。2.2.3多模態(tài)學(xué)習(xí)實(shí)際應(yīng)用DeepLTranslator:在AI的輔助下,通過神經(jīng)網(wǎng)絡(luò)的學(xué)習(xí),提供更好的翻譯結(jié)果,使不同文化更加貼近。它支持文檔翻譯和多種手寫語言的翻譯,實(shí)現(xiàn)了文本、視覺等模態(tài)信息的交流互通。2.2.3多模態(tài)學(xué)習(xí)實(shí)際應(yīng)用自動(dòng)駕駛汽車:通過多模態(tài)融合的方式更加準(zhǔn)確引導(dǎo)車輛駕駛,包括超聲波雷達(dá)、毫米波雷達(dá)、激光雷達(dá)以及攝像頭多種信息感知設(shè)備。2.2.3多模態(tài)學(xué)習(xí)實(shí)際應(yīng)用Facebook:運(yùn)用機(jī)器學(xué)習(xí)讓網(wǎng)絡(luò)社交變得更加有趣、方便,提升了用戶的體驗(yàn)度。包括風(fēng)格遷移、文字翻譯、圖像-文字描述、人臉識(shí)別、自動(dòng)監(jiān)測(cè)、搜索推薦。2.2.3多模態(tài)學(xué)習(xí)實(shí)際應(yīng)用淘寶:網(wǎng)絡(luò)模型基于全球規(guī)模最大的商品認(rèn)知圖譜以及全球首個(gè)每日萬億量級(jí)的云端協(xié)同圖神經(jīng)網(wǎng)絡(luò),支持4億商品對(duì)應(yīng)的圖像和視頻檢索,可利用自然語言學(xué)習(xí)、實(shí)時(shí)機(jī)器翻譯、語義識(shí)別等技術(shù)輔助店小蜜、實(shí)時(shí)翻譯、商品評(píng)價(jià)分析等關(guān)鍵鏈路。2.2.3多模態(tài)學(xué)習(xí)實(shí)際應(yīng)用語音助手(Siri、Cortana):聽懂用戶需求并做出對(duì)應(yīng)的操作,省去手動(dòng)操作的困擾。智能音箱(小度、小愛同學(xué)):與智能家居相聯(lián)系,實(shí)現(xiàn)語音控制操作的功能,在很大程度上改善了人們生活習(xí)慣。圖像識(shí)別與標(biāo)準(zhǔn)(騰訊):減少了人工消耗,提高了識(shí)別進(jìn)度與正確率。商品推薦系統(tǒng)(阿里巴巴):便捷了用戶對(duì)于同一類商品的需求搜索,實(shí)時(shí)更新的商品推薦也為用戶提供了更為新穎的購物體驗(yàn)。自動(dòng)駕駛汽車(特斯拉):通過輸入視覺信息、雷達(dá)信息、位置信息、語音信息、自然語言信息等,自動(dòng)識(shí)別行人,障礙物,綜合信息后決定汽車的行駛方向與速度。2.2多模態(tài)學(xué)習(xí)2.2.3多模態(tài)學(xué)習(xí)實(shí)際應(yīng)用2.2.2多模態(tài)學(xué)習(xí)研究進(jìn)展2.2.1多模態(tài)學(xué)習(xí)分類概述2.2.4多模態(tài)學(xué)習(xí)研究展望2.2.4多模態(tài)學(xué)習(xí)研究展望多模態(tài)表示學(xué)習(xí):主流方法局限于靜態(tài)條件下,如何進(jìn)行動(dòng)態(tài)學(xué)習(xí)是之后研究的主要方向。多模態(tài)協(xié)同學(xué)習(xí):如何挖掘得到盡可能多的模態(tài)間的不同信息來促進(jìn)模型的學(xué)習(xí)是一個(gè)很有價(jià)值的研究方向。多模態(tài)轉(zhuǎn)化任務(wù):如何找到合適的主觀評(píng)價(jià)指標(biāo)來適用于不同類型的轉(zhuǎn)化任務(wù)是未來的主要研究方向。多模態(tài)融合任務(wù):由于每一種模態(tài)有可能會(huì)受到不同類型和不同程度的噪聲影響,如何解決多模態(tài)融合過程中的噪聲干擾是未來的主要研究方向。多模態(tài)檢索任務(wù):解決針對(duì)不同模態(tài)數(shù)據(jù)設(shè)計(jì)相似度度量指標(biāo)的問題;解決檢索精度受噪聲影響大,元素匹配錯(cuò)位時(shí)模型性能下降嚴(yán)重的問題;解決由于媒介或成像機(jī)理不同,導(dǎo)致檢索過程會(huì)出現(xiàn)一對(duì)多的關(guān)系的問題。2.3多模態(tài)數(shù)據(jù)融合與檢索技術(shù)2.2多模態(tài)學(xué)習(xí)2.1多模態(tài)數(shù)據(jù)概述主要內(nèi)容2.3多模態(tài)數(shù)據(jù)融合與檢索技術(shù)2.3.2多模態(tài)數(shù)據(jù)檢索2.3.1多模態(tài)數(shù)據(jù)融合2.3.1多模態(tài)數(shù)據(jù)融合多模態(tài)數(shù)據(jù)融合:早期融合(EarlyFusion):先從每種模態(tài)中分別提取特征,這些特征很大程度上直接代表模態(tài),然后在特征級(jí)別進(jìn)行不同方法的融合,即特征融合。2.3.1多模態(tài)數(shù)據(jù)融合多模態(tài)數(shù)據(jù)融合:后期融合(LateFusion):不在原始的數(shù)據(jù)維度上進(jìn)行融合處理,而是對(duì)每種模態(tài)的數(shù)據(jù)分別用不同的算法模型進(jìn)行訓(xùn)練學(xué)習(xí),將得到的不同結(jié)果以某種決策方式進(jìn)行融合以得到最終的決策結(jié)果。2.3.1多模態(tài)數(shù)據(jù)融合多模態(tài)數(shù)據(jù)融合:中期融合(IntermediateFusion):針對(duì)不同模態(tài)數(shù)據(jù)的特點(diǎn)選擇不同的神經(jīng)網(wǎng)絡(luò)架構(gòu)。圖像采用卷積神經(jīng)網(wǎng)絡(luò)(CNN);文本音頻等序列化數(shù)據(jù)采用循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN);或選擇多個(gè)全連接層完成特征提取。然后通過共享表示層對(duì)不同的特征表示進(jìn)行融合。2.3.1多模態(tài)數(shù)據(jù)融合多模態(tài)數(shù)據(jù)融合傳統(tǒng)方法:基于規(guī)則的融合方法:在時(shí)間對(duì)齊程度較高的多模態(tài)數(shù)據(jù)上能取得較好的效果,常見的方法是線性加權(quán)融合法。基于分類的融合方法:將多模態(tài)觀測(cè)的結(jié)果分類到預(yù)定義的類別中。分類的方法包括有支持向量機(jī)、貝葉斯推理、D-S理論、動(dòng)態(tài)貝葉斯網(wǎng)絡(luò)和最大熵模型等。基于估計(jì)的融合方法:包括卡爾曼濾波、擴(kuò)展卡爾曼濾波和粒子濾波融合方法。這些方法能夠根據(jù)多模態(tài)數(shù)據(jù)來更好地估計(jì)運(yùn)動(dòng)目標(biāo)的狀態(tài)。2.3.1多模態(tài)數(shù)據(jù)融合多模態(tài)數(shù)據(jù)融合前沿方法:基于池化的融合方法:它通過計(jì)算視覺特征向量與文字特征向量?jī)烧叩耐夥e來創(chuàng)造聯(lián)合表示空間,便于進(jìn)行特征向量融合,以及多模態(tài)向量中所有元素之間的乘法交互?;谏疃葘W(xué)習(xí)的融合方法:算法中所使用的的深度模型大致可以分為判別模型和生成模型,將注意力集中在特征圖的特定區(qū)域或特征序列的特定時(shí)間步長(zhǎng)上,可以提高整體性能與特征提取的可譯性?;趫D神經(jīng)網(wǎng)絡(luò)的融合方法:不僅適用于各個(gè)模態(tài)內(nèi)的拓?fù)潢P(guān)系圖建模,還適用于多個(gè)模態(tài)間的拓?fù)潢P(guān)系建模。它能夠傳遞更多的多模態(tài)數(shù)據(jù)信息,增強(qiáng)模型的可譯性與最終結(jié)果。2.3多模態(tài)數(shù)據(jù)融合與檢索技術(shù)2.3.2多模態(tài)數(shù)據(jù)檢索2.3.1多模態(tài)數(shù)據(jù)融合2.3.2多模態(tài)數(shù)據(jù)檢索多模態(tài)數(shù)據(jù)檢索:是以一種模態(tài)的數(shù)據(jù)作為請(qǐng)求,檢索出最相關(guān)的另外一種模態(tài)形式的數(shù)據(jù)。策略一:學(xué)習(xí)一個(gè)多模態(tài)數(shù)據(jù)的共享層,基于共享層來建模各模態(tài)數(shù)據(jù)之間的關(guān)聯(lián)。2.3.2多模態(tài)數(shù)據(jù)檢索多模態(tài)數(shù)據(jù)檢索:是以一種模態(tài)的數(shù)據(jù)作為請(qǐng)求,檢索出最相關(guān)的另外一種模態(tài)形式的數(shù)據(jù)。策略二:將不同模態(tài)的數(shù)據(jù)經(jīng)過抽象后都映射到一個(gè)公共的表示空間,在該表示空間中建立不同模態(tài)間的關(guān)聯(lián)。2.3.2多模態(tài)數(shù)據(jù)檢索多模態(tài)數(shù)據(jù)檢索傳統(tǒng)方法:基于典型相關(guān)分析法的檢索方法:優(yōu)化統(tǒng)計(jì)值來學(xué)習(xí)線性投影矩陣,主要用于數(shù)據(jù)分析和降維,能夠進(jìn)行多個(gè)空間的聯(lián)合降維?;谄钚《朔ǖ臋z索方法:通過潛在變量對(duì)多種模態(tài)之間的關(guān)系進(jìn)行建模。相比于典型相關(guān)分析法,還具備了去噪音、突出主要潛變量等其他優(yōu)點(diǎn),有利于優(yōu)化基于相關(guān)性的跨模態(tài)信息檢索的結(jié)果?;陔p線性模型法的檢索方法:使用雙線性模型來學(xué)習(xí)近似解,不明確地描述問題的內(nèi)在幾何或物理現(xiàn)象,具有廣泛的適用性?;趥鹘y(tǒng)哈希的檢索方法:解決了需要在大量的高維數(shù)據(jù)中檢索出最相似數(shù)據(jù)的情況,而檢索過程需要采用索引技術(shù),其中哈希法是最為常用的一種方法。2.3.2多模態(tài)數(shù)據(jù)檢索多模態(tài)數(shù)據(jù)檢索前沿方法:基于深度學(xué)習(xí)的檢索方法:利用深度學(xué)習(xí)的特征提取能力,通過卷積神經(jīng)網(wǎng)絡(luò)等模型來學(xué)習(xí)多模態(tài)數(shù)據(jù)的非線性關(guān)系?;诠5臋z索方法:為了找到數(shù)據(jù)不同模態(tài)之間的聯(lián)系,將不同模態(tài)的數(shù)據(jù)通過哈希函數(shù)映射到一個(gè)共同的漢明空間,也就是把任意長(zhǎng)度的輸入轉(zhuǎn)化為固定長(zhǎng)度的輸出,從而進(jìn)行相似度檢索。基于主題模型的檢索方法:對(duì)多模態(tài)數(shù)據(jù)的隱含語義結(jié)構(gòu)進(jìn)行聚類的統(tǒng)計(jì)模型方法,可以采用監(jiān)督學(xué)習(xí)或非監(jiān)督學(xué)習(xí)的方式進(jìn)行,被廣泛應(yīng)用于文本挖掘、推薦系統(tǒng)、多模態(tài)檢索等領(lǐng)域。。多模態(tài)數(shù)據(jù)融合與檢索技術(shù)
第3章:多模態(tài)數(shù)據(jù)融合主要內(nèi)容3.3多模態(tài)融合前沿方法3.2多模態(tài)融合傳統(tǒng)方法3.1多模態(tài)數(shù)據(jù)融合介紹3.4多模態(tài)融合發(fā)展方向3.1多模態(tài)數(shù)據(jù)融合介紹3.1.3數(shù)據(jù)集介紹3.1.2國(guó)內(nèi)外現(xiàn)狀3.1.1多模態(tài)數(shù)據(jù)融合背景及意義3.1.4性能評(píng)判準(zhǔn)則3.1.1多模態(tài)數(shù)據(jù)融合背景及意義多模態(tài)數(shù)據(jù)融合:模型在完成分析和識(shí)別任務(wù)時(shí)處理不同形式的數(shù)據(jù)的過程。多模態(tài)數(shù)據(jù)的融合可以為模型決策提供更多的信息,從而提高了決策總體結(jié)果的準(zhǔn)確率,目的是建立能夠處理和關(guān)聯(lián)來自多種模態(tài)信息的模型。
3.1.1多模態(tài)數(shù)據(jù)融合背景及意義多模態(tài)數(shù)據(jù)檢索應(yīng)用實(shí)例:情感分析智能推薦語音識(shí)別多模態(tài)融合3.1多模態(tài)數(shù)據(jù)融合介紹3.1.3數(shù)據(jù)集介紹3.1.2國(guó)內(nèi)外現(xiàn)狀3.1.1多模態(tài)數(shù)據(jù)融合背景及意義3.1.4性能評(píng)判準(zhǔn)則3.1.2國(guó)內(nèi)外現(xiàn)狀國(guó)際方面:卡內(nèi)基梅隆大學(xué)MultiComp實(shí)驗(yàn)室提出了建模多模態(tài)數(shù)據(jù)中的潛在動(dòng)態(tài)的概率圖形模型,處理多個(gè)視圖之間的時(shí)間同步的條件隨機(jī)場(chǎng)模型等方法,并為多模態(tài)數(shù)據(jù)開發(fā)了新的深度神經(jīng)網(wǎng)絡(luò)表示。麻省理工學(xué)院Sentic團(tuán)隊(duì)為多模態(tài)情感分析提出了張量融合網(wǎng)絡(luò)、上下文層次融合網(wǎng)絡(luò)、模糊常識(shí)推理等先進(jìn)算法。微軟AI團(tuán)隊(duì)提出了大規(guī)模多模態(tài)訓(xùn)練模型,包括圖像-文本的通用圖像文字標(biāo)識(shí)模型(UNITER)和視頻-文本的HERO模型。國(guó)內(nèi)方面:安徽大學(xué)湯進(jìn)教授對(duì)光學(xué)與熱紅外兩種圖像的數(shù)據(jù)融合進(jìn)行了大量研究,構(gòu)建了一個(gè)大規(guī)模的多模態(tài)視頻基準(zhǔn)數(shù)據(jù)集。3.1多模態(tài)數(shù)據(jù)融合介紹3.1.3數(shù)據(jù)集介紹3.1.2國(guó)內(nèi)外現(xiàn)狀3.1.1多模態(tài)數(shù)據(jù)融合背景及意義3.1.4性能評(píng)判準(zhǔn)則3.1.3數(shù)據(jù)集介紹MVSA數(shù)據(jù)集MVSA數(shù)據(jù)集是一個(gè)多視圖情緒分析數(shù)據(jù)集,包含20392組從推特中收集的帶有人工注釋的圖文對(duì)樣本。3.1.3數(shù)據(jù)集介紹PinterestMultimodal數(shù)據(jù)集PinterestMultimodal數(shù)據(jù)集是通過抓取Pinterest上的公開可用數(shù)據(jù),構(gòu)建的4000多萬張圖像的數(shù)據(jù)集,并且每幅圖像平均與12個(gè)描述句子相關(guān)聯(lián)。3.1.3數(shù)據(jù)集介紹MELD數(shù)據(jù)集MELD數(shù)據(jù)集是一個(gè)對(duì)話情感識(shí)別的多模態(tài)數(shù)據(jù)集。其包含文本、音頻和視頻模態(tài)。MELD數(shù)據(jù)集有1400多個(gè)對(duì)話和13000個(gè)話語。對(duì)話中的每句話都被標(biāo)記為七種情緒中的任何一種——憤怒、厭惡、悲傷、喜悅、中立、驚訝和恐懼。3.1.3數(shù)據(jù)集介紹UTD-MHAD數(shù)據(jù)集UTD-MHAD數(shù)據(jù)集是由四種模態(tài)數(shù)據(jù)共861個(gè)數(shù)據(jù)序列構(gòu)成,主要應(yīng)用于人體動(dòng)作識(shí)別的數(shù)據(jù)集。這四種模態(tài)數(shù)據(jù)包括:RGB視頻、深度視頻、骨骼位置照片和可穿戴慣性傳感器的慣性信號(hào)。3.1.3數(shù)據(jù)集介紹BerkeleyMHAD數(shù)據(jù)集一個(gè)用于人體動(dòng)作識(shí)別的數(shù)據(jù)集,數(shù)據(jù)集中的數(shù)據(jù)由12個(gè)RGB攝像頭、2個(gè)微軟Kinect攝像頭采集完成。該數(shù)據(jù)集由12個(gè)參與者通過5次重復(fù)執(zhí)行的11個(gè)人類動(dòng)作的659個(gè)數(shù)據(jù)序列組成。Montalbano手勢(shì)數(shù)據(jù)集意大利姿態(tài)數(shù)據(jù)集,每一位參與者在相機(jī)面前都會(huì)在說著意大利語的同時(shí)展示手勢(shì)。這些手勢(shì)共包括20組,由27位參與者完成。SYSU-MM01數(shù)據(jù)集該數(shù)據(jù)集主要包括RGB圖像和紅外圖像兩種模態(tài)。這些圖像主要是在在室內(nèi)和室外環(huán)境中,從四個(gè)RGB相機(jī)和兩個(gè)紅外相機(jī)采集得到的。該數(shù)據(jù)集已劃分成訓(xùn)練集和測(cè)試集,其中訓(xùn)練集包含395人的圖像,其中RGB圖像22258張,紅外圖像11909張。而測(cè)試集共有96人,有3803張紅外圖像用于查詢。3.1.3數(shù)據(jù)集介紹多模態(tài)檢索數(shù)據(jù)集信息總結(jié)數(shù)據(jù)集模態(tài)樣本數(shù)MVSA圖像+文本(異構(gòu))20392PinterestMultimodal圖像+文本(異構(gòu))10MMELD圖像+文本+聲音(異構(gòu))1400UTD-MHADRGB+深度+骨片模型+慣性信號(hào)(異構(gòu))861BerkeleyMHADRGB視頻+深度視頻(異源)659MontalbanoRGB+深度+用戶掩圖+骨骼模型(異源)13858SYSU-MM01RGB圖像+紅外圖像(異源)3034203.1多模態(tài)數(shù)據(jù)融合介紹3.1.3數(shù)據(jù)集介紹3.1.2國(guó)內(nèi)外現(xiàn)狀3.1.1多模態(tài)數(shù)據(jù)融合背景及意義3.1.4性能評(píng)判準(zhǔn)則3.1.4性能評(píng)價(jià)準(zhǔn)則精準(zhǔn)率與召回率在數(shù)據(jù)集樣本中通常會(huì)含有正樣本與負(fù)樣本,模型將會(huì)對(duì)輸入的樣本進(jìn)行判定,即判定輸入的樣本屬于正樣本或者負(fù)樣本。精準(zhǔn)率(precision)表示判定為正的樣本中有多少樣本是真正的正樣本,召回率(recall)表示樣本中的正樣本有多少被判定正確。真正例率(TruePositiveRate,TPR)和假正例率(FalsePositiveRate,FPR)的計(jì)算公式如下:3.1.4性能評(píng)價(jià)準(zhǔn)則點(diǎn)擊率點(diǎn)擊率(HitRatio,HR)是在典型的基于隱反饋的top-N推薦任務(wù)中常用的評(píng)測(cè)指標(biāo)。HR@N用來度量測(cè)試集中的正例是否出現(xiàn)在top-N推薦列表里。計(jì)算公式如下:規(guī)范化折扣累計(jì)增益規(guī)范化折扣累計(jì)增益(NormalizedDiscountedCumulativeGain,NDCG)同樣是在典型的基于隱反饋的top-N推薦任務(wù)中常用的評(píng)測(cè)指標(biāo)。比起HR@N,NDCG@N還考慮了測(cè)試集中的正例在top-N推薦列表中的位置,其中N是一個(gè)超參數(shù)。具體的計(jì)算方式為:主要內(nèi)容3.3多模態(tài)融合前沿方法3.2多模態(tài)融合傳統(tǒng)方法3.1多模態(tài)數(shù)據(jù)融合介紹3.4多模態(tài)融合發(fā)展方向3.2多模態(tài)融合傳統(tǒng)方法3.2.3基于估計(jì)的融合方法3.2.2基于分類的融合方法3.2.1基于規(guī)則的融合方法3.2.1基于規(guī)則的融合方法線性加權(quán)融合線性加權(quán)融合是一種最簡(jiǎn)單、應(yīng)用最廣泛的融合方法。在該方法中,從不同的模態(tài)中得到的信息是通過線性的方式進(jìn)行組合的。這些信息可以是底層視頻特征(如視頻幀中的顏色和運(yùn)動(dòng)線索),也可以是高層語義級(jí)決策(如某些事件的發(fā)生)。一般而言,線性加權(quán)融合要經(jīng)歷兩個(gè)步驟:分?jǐn)?shù)標(biāo)準(zhǔn)化和分?jǐn)?shù)加權(quán)。分?jǐn)?shù)標(biāo)準(zhǔn)化最簡(jiǎn)單的歸一化技術(shù)是Min-max標(biāo)準(zhǔn)化。Min-max標(biāo)準(zhǔn)化最適合于匹配器輸出的分?jǐn)?shù)的邊界——即最大值和最小值已知的情況。假設(shè)一組匹配分?jǐn)?shù)為,則正則化分?jǐn)?shù)的計(jì)算公式為:當(dāng)從給定的匹配分?jǐn)?shù)集估計(jì)最小值和最大值時(shí),這種方法不是魯棒的,因?yàn)樵摲椒▽?duì)用于估計(jì)的數(shù)據(jù)中的異常值高度敏感。當(dāng)不同匹配器的分?jǐn)?shù)在對(duì)數(shù)尺度上時(shí),可以應(yīng)用小數(shù)定標(biāo)標(biāo)準(zhǔn)化方法,3.2.1基于規(guī)則的融合方法線性加權(quán)融合最常用的分?jǐn)?shù)標(biāo)準(zhǔn)化技術(shù)是z值標(biāo)準(zhǔn)化,它是用給定數(shù)據(jù)的算術(shù)平均值和標(biāo)準(zhǔn)偏差計(jì)算的。如果事先知道匹配器的平均分值和分值的變化情況,則該方案可以取得較好的效果。如果沒有任何關(guān)于匹配算法性質(zhì)的先驗(yàn)知識(shí),那么就需要從一組給定的匹配分?jǐn)?shù)中估計(jì)分?jǐn)?shù)的平均值和標(biāo)準(zhǔn)差。Tanh預(yù)測(cè)器正則化方法[29]是由Hampel等人引入的,其兼具魯棒性和高效性,公式如下:式中和分別是Hampel估計(jì)器給出的真實(shí)分?jǐn)?shù)分布的平均值和標(biāo)準(zhǔn)差估計(jì)。3.2.1基于規(guī)則的融合方法線性加權(quán)融合分?jǐn)?shù)加權(quán)對(duì)分?jǐn)?shù)進(jìn)行標(biāo)準(zhǔn)化之后,便可對(duì)分?jǐn)?shù)進(jìn)行加權(quán),完成線性融合。線性融合的一般方法可以這樣描述:表示從第個(gè)媒體源(如音頻、視頻等)獲得的特征向量或從第個(gè)分類器獲得的決策。同時(shí),讓表示為第個(gè)媒體源或第個(gè)分類器的標(biāo)準(zhǔn)化權(quán)重。這些向量(假設(shè)它們具有相同的維數(shù))通過使用求和或求積的方式進(jìn)行組合,并由分類器使用以提供高級(jí)決策。與其他方法相比,這種方法的計(jì)算成本較低。然而,一個(gè)融合系統(tǒng)需要確定和調(diào)整權(quán)重,以最優(yōu)地融合方式來完成一項(xiàng)任務(wù)。3.2.1基于規(guī)則的融合方法線性加權(quán)融合方法舉例Neti等人研究如何將視覺線索和音頻信號(hào)組合起來,用于提升自動(dòng)機(jī)器識(shí)別的效果。他們從音頻特征(如音素)和視覺特征(如發(fā)音嘴型)中獲得說話人識(shí)別和語音事件檢測(cè)的單獨(dú)決策。然后采用線性加權(quán)和的策略來融合這些單獨(dú)的決策。3.2.1基于規(guī)則的融合方法線性加權(quán)融合方法舉例Lucey等人提出了隨機(jī)二次分類器用于對(duì)口語單詞的識(shí)別。該隨機(jī)二次分類器使用了線性加權(quán)的融合策略。下圖為該隨機(jī)二次分類器的判決過程。首先單詞識(shí)別器模塊分別對(duì)音頻和視頻數(shù)據(jù)進(jìn)行處理,得到他們分別的判決值,然后再根據(jù)音頻數(shù)據(jù)的判決值以及視頻數(shù)據(jù)的判決值的對(duì)數(shù)概率對(duì)單詞進(jìn)行二次判決。3.2.1基于規(guī)則的融合方法線性加權(quán)融合方法舉例Foresti和Snidaro設(shè)計(jì)了一種用于視頻監(jiān)控的分布式傳感器網(wǎng)絡(luò)(DistributedSensorNetwork,DSN),其能夠管理不同種類的傳感器(如光學(xué)、紅外、雷達(dá)等),以便在晝夜和不同天氣條件下(如霧、雨等)運(yùn)行。為了達(dá)到此目的,在此分布式傳感器網(wǎng)絡(luò)中使用了上文介紹的線性加權(quán)和的方法來融合物體的軌跡信息。3.2.1基于規(guī)則的融合方法線性加權(quán)融合方法舉例多數(shù)投票多數(shù)投票是加權(quán)組合的一種特殊情況,其所有分類器的權(quán)重都是相等的。在基于多數(shù)投票的融合中,最終的決策是大多數(shù)分類器達(dá)成相同或相似的決策。特別的,對(duì)于二分類任務(wù),分類器的數(shù)量必須是奇數(shù)且大于兩個(gè)的。自定義規(guī)則與上述使用標(biāo)準(zhǔn)統(tǒng)計(jì)規(guī)則的方法不同,Pfleger等人提出了一種基于生成規(guī)則的決策級(jí)融合方法,用于集成來自手寫字母和語音模態(tài)的輸入。在這種方法中,每一種輸入模態(tài)都可以用其使用的上下文解釋,這些上下文是根據(jù)先前識(shí)別的屬于同一用戶的輸入事件和對(duì)話狀態(tài)來確定的。生成規(guī)則包含三類規(guī)則:同步規(guī)則、多模態(tài)事件解釋規(guī)則和單模解釋規(guī)則,它們共同發(fā)揮作用以促進(jìn)融合過程。3.2多模態(tài)融合傳統(tǒng)方法3.2.3基于估計(jì)的融合方法3.2.2基于分類的融合方法3.2.1基于規(guī)則的融合方法3.2.2基于分類的融合方法此類方法包括一系列分類技術(shù),這些技術(shù)已用于將多模態(tài)觀測(cè)的結(jié)果分類為一種預(yù)定義的類。這類方法有支持向量機(jī)、貝葉斯推理、D-S理論、動(dòng)態(tài)貝葉斯網(wǎng)絡(luò)和最大熵模型等。支持向量機(jī)支持向量機(jī)(SupportVectorMachine,SVM)是一個(gè)功能強(qiáng)大并且全面的機(jī)器學(xué)習(xí)模型,它能夠執(zhí)行線性或非線性分類、回歸等任務(wù)。具體來說,在多媒體領(lǐng)域,支持向量機(jī)被用于包括特征分類、概念分類、人臉檢測(cè)、文本分類、模態(tài)融合等不同任務(wù)。從多模態(tài)融合的角度,支持向量機(jī)用于解決模式分類問題。本節(jié)將首先從線性支持向量機(jī)和非線性支持向量機(jī)角度介紹支持向量機(jī)的核心概念,然后再介紹基于支持向量機(jī)的多模態(tài)數(shù)據(jù)融合方案。3.2.2基于分類的融合方法線性支持向量機(jī)下圖為三種線性分類器示例。其中藍(lán)色菱形塊代表A類數(shù)據(jù),橙色方形塊代表B類數(shù)據(jù),可以看出A類數(shù)據(jù)和B類數(shù)據(jù)是線性可分離的。圖中的兩條黑色實(shí)線和一條黑色虛線展示了三種可能的線性分類器的決策邊界。兩條黑色實(shí)線所代表的線性支持向量機(jī)分類器可以正確地將A、B兩類數(shù)據(jù)區(qū)分開來,只是它們的決策邊界與實(shí)例過于接近,當(dāng)有新的實(shí)例出現(xiàn)出,可能會(huì)出現(xiàn)分類錯(cuò)誤。黑色虛線代表的線性分類器沒有對(duì)A、B兩類數(shù)據(jù)進(jìn)行正確地分類。3.2.2基于分類的融合方法線性支持向量機(jī)相比之下,下圖黑色實(shí)線所代表的線性支持向量機(jī)分類器不僅將A、B兩類數(shù)據(jù)分開,而且盡可能遠(yuǎn)離最近的訓(xùn)練實(shí)例。線性支持向量機(jī)分類器可以視為在類別之間擬合可能的最寬的街道(平行的虛線所示)。因此這也被稱為大間隔分類(largemarginclassification)。決策邊界是完全由街道邊緣的實(shí)例所決定的,這些實(shí)例被稱為支持向量。3.2.2基于分類的融合方法線性支持向量機(jī)如果嚴(yán)格地讓所有實(shí)例都不在街道上,并且位于正確的一邊,這就是硬間隔分類。硬間隔分類主要存在兩個(gè)問題:首先,它只在數(shù)據(jù)是線性可分離的時(shí)候才有效;其次,它對(duì)異常值非常敏感,如下圖中的異常數(shù)據(jù)將導(dǎo)致線性分類器找不到硬間隔。3.2.2基于分類的融合方法線性支持向量機(jī)下圖為硬間隔分類的決策邊界示意圖。異常值將導(dǎo)致該硬間隔分類器無法很好地泛化。要避免這些問題,最好使用更靈活的模型。目標(biāo)是盡可能在保持街道寬闊和限制間隔違例(即位于街道之上,甚至在錯(cuò)誤的一邊的實(shí)例)之間找到良好的平衡,這就是軟間隔分類。3.2.2基于分類的融合方法非線性支持向量機(jī)之前的討論是基于樣本實(shí)例是線性可分的這樣的假設(shè)的,但現(xiàn)實(shí)中,原始的樣本空間也許并不存在一個(gè)能正確劃分兩類樣本實(shí)例的平面。如下圖一維原始樣本空間所示,此原始樣本空間只有一個(gè)特征,此樣本空間中的A、B兩類數(shù)據(jù)不是線性可分的。3.2.2基于分類的融合方法非線性支持向量機(jī)對(duì)于這種問題,可通過添加更多特征的方式,將原始樣本空間映射到更高維的空間,使得在這個(gè)空間中樣本實(shí)例是可分的,如下圖二維樣本空間示意圖所示,添加了第二個(gè)特征,并令,在此高維的樣本空間中,A、B兩類樣本實(shí)例便可完全線性分離(在圖中被黑色虛線所代表的分類器所分離)。3.2.2基于分類的融合方法非線性支持向量機(jī)Adams等人采用了一種后期融合的方法,利用視頻、音頻和文本三種模態(tài)來檢測(cè)視頻中的語義概念(例如天空、火煙等)。該方案利用所有概念分類器的得分,構(gòu)造一個(gè)向量作為語義特征傳遞給支持向量機(jī)進(jìn)行分類。支持向量機(jī)在對(duì)音頻、視頻和文本得分進(jìn)行分類之前,將所有概念分類器的得分合并到一個(gè)高維向量中。3.2.2基于分類的融合方法非線性支持向量機(jī)Ayache等人提出了一種核融合方案來使用視頻和文本等模態(tài)信息對(duì)多媒體資源進(jìn)行語義索引。該方案可以根據(jù)不同的模態(tài)特征選擇不同的核函數(shù),例如文本模態(tài)可以使用字符串核或詞序列核來進(jìn)行分類;其次,使用融合函數(shù)合并單模態(tài)核,以創(chuàng)建多模態(tài)核;最后,通過學(xué)習(xí)和分類步驟輸出一個(gè)分類分?jǐn)?shù)。3.2.2基于分類的融合方法非線性支持向量機(jī)在圖像分類領(lǐng)域,Zhu等人提出了一種基于支持向量機(jī)的多模態(tài)融合框架,用于對(duì)空間坐標(biāo)內(nèi)嵌入文本的圖像進(jìn)行分類。該融合框架聚合過程遵循兩個(gè)步驟:一,采用詞袋模型對(duì)低層視覺特征進(jìn)行分析來對(duì)給定圖像進(jìn)行分類。同時(shí),文本檢測(cè)器利用文本的顏色、大小、位置、邊緣密度、亮度、對(duì)比度等特征發(fā)現(xiàn)圖像中存在的文本行。二,使用成對(duì)的支持向量機(jī)分類器將視覺特征和文本特征融合在一起。3.2.2基于分類的融合方法貝葉斯推斷貝葉斯推斷方法根據(jù)概率論的規(guī)則對(duì)多模態(tài)信息進(jìn)行組合,其既可以應(yīng)用于早期融合,也可以應(yīng)用于晚期融合。該方法的基本原理是組合從多種模態(tài)得到的觀測(cè)或從不同分類器得到的決策,然后推導(dǎo)出一個(gè)觀測(cè)或決策的聯(lián)合概率的推論。若要融合從種不同的模態(tài)獲得特征向量或決策(),假設(shè)這些模態(tài)是統(tǒng)計(jì)獨(dú)立的,那么基于融合特征向量或融合決策的假設(shè)的聯(lián)合概率可計(jì)算為:
用于正則化后驗(yàn)概率估計(jì)
。對(duì)所有可能的假設(shè)計(jì)算后驗(yàn)概率。根據(jù)最大后驗(yàn)概率估計(jì),估計(jì)的假設(shè)取最大概率的值,即:貝葉斯推斷方法具有多種優(yōu)點(diǎn):第一,基于新的觀察結(jié)果,它可以逐步計(jì)算出假設(shè)成立的概率。第二,它允許任何關(guān)于假設(shè)的可能性的先驗(yàn)知識(shí)在推理過程中被利用。新的觀測(cè)或決策用于更新先驗(yàn)概率,以計(jì)算假設(shè)的后驗(yàn)概率。第三,在缺乏經(jīng)驗(yàn)數(shù)據(jù)的情況下,這種方法允許對(duì)先驗(yàn)假設(shè)使用主觀的概率估計(jì)。3.2.2基于分類的融合方法貝葉斯推斷Atrey等人在中期融合層次都采用了貝葉斯推斷融合方法。下圖為該貝葉斯推斷融合方法工作流程示意圖。3.2.2基于分類的融合方法貝葉斯推斷在早期融合層面,Pitsikalis等采用貝葉斯推斷方法對(duì)視覺特征和聽覺特征向量進(jìn)行組合。音頻特征向量包括13個(gè)靜態(tài)梅爾頻率倒譜系數(shù)及其衍生物,視覺特征向量由6個(gè)形狀和12個(gè)紋理特征拼接而成。基于組合特征,計(jì)算語音段的聯(lián)合概率。在后期融合層面,Meyer等人融合了從語音和視覺模態(tài)獲得的決策。其方法共分為三個(gè)步驟:步驟一、從語音中提取梅爾頻率倒譜系數(shù)特征,從說話人的臉部提取嘴唇輪廓特征;步驟二、利用隱馬爾可夫模型分類器分別對(duì)這兩種特征進(jìn)行概率分類,得到單獨(dú)的決策;步驟三、使用貝葉斯推斷方法融合這些概率估計(jì)值來估計(jì)語音數(shù)字的聯(lián)合概率。Xu和Chua也使用貝葉斯推斷融合方法來整合運(yùn)動(dòng)視頻中檢測(cè)到的偏移和非偏移事件的概率決策。通過融合視聽特征、文本線索和領(lǐng)域知識(shí)以及使用隱馬爾可夫模型分類器來檢測(cè)這些事件。在這項(xiàng)工作中,作者已經(jīng)表明貝葉斯推斷的準(zhǔn)確性與基于規(guī)則的方案相當(dāng)。3.2.2基于分類的融合方法D-S理論雖然貝葉斯推斷融合方法允許不確定性建模(通常采用高斯分布),但一些研究人員更傾向于使用Dempster-Shafer證據(jù)推理法(簡(jiǎn)稱D-S理論),因?yàn)樗褂弥眯胖岛退普嬷祦肀硎咀C據(jù)及其對(duì)應(yīng)的不確定性。此外,D-S理論方法對(duì)貝葉斯理論進(jìn)行了推廣,放寬了貝葉斯推斷方法對(duì)假設(shè)相互排斥的限制,從而能夠?yàn)榧僭O(shè)的并集分配證據(jù)。D-S推理系統(tǒng)是基于“識(shí)別框架”的基本概念,該框架包含著一個(gè)具有所有可能的相互排斥的假設(shè)的集合。每個(gè)假設(shè)是由可信度(belief)和似真度(plausibility)所確定的。3.2.2基于分類的融合方法D-S理論可信度是指一個(gè)假設(shè)被檢測(cè)為真時(shí)的置信下限,其約為所有支持假設(shè)的證據(jù)的總和;而似真度則表示該假設(shè)可能為真可能性的上限,即去掉所有反對(duì)假設(shè)的證據(jù)的剩余的部分。每一個(gè)假設(shè)都會(huì)被分配一個(gè)概率,即基本可信數(shù),基本可信數(shù)反映了對(duì)于假設(shè)本身(而不去管它的任何真子集與前因后果)的可信度大小。關(guān)于假設(shè)的判決是由可信度和似真度所限定的置信區(qū)間來衡量的。當(dāng)存在多個(gè)獨(dú)立模態(tài)時(shí),利用D-S理論規(guī)則可以對(duì)它們進(jìn)行融合。準(zhǔn)確地說,假設(shè)的基本可信數(shù)基于兩個(gè)模態(tài)和,可以由下面公式進(jìn)行計(jì)算。式中和分別為模態(tài)和的基本可信數(shù)。3.2.2基于分類的融合方法D-S理論舉例Bendjebbour等人提出利用D-S理論融合雷達(dá)圖像中有云和無云兩個(gè)區(qū)域的基本可信數(shù)。他們?cè)谔卣鲗雍蜎Q策層兩個(gè)層次上進(jìn)行融合。在特征層,以像素強(qiáng)度作為特征,計(jì)算并融合基于兩個(gè)傳感器像素的基本可信數(shù);在決策層,利用隱馬爾可夫模型分類器得到的關(guān)于一個(gè)像素的決策作為基本可信數(shù),然后對(duì)隱馬爾可夫模型輸出進(jìn)行組合。Mena和Malpica使用了D-S理論融合方法對(duì)彩色圖像進(jìn)行分割,用于從地面、航空或衛(wèi)星圖像中提取信息。他們從單個(gè)像素、成對(duì)的像素、一組像素中提取同一幅圖像的信息,然后利用D-S證據(jù)融合策略對(duì)基于位置分析的證據(jù)進(jìn)行融合。Guironnet等人從TREC視頻數(shù)據(jù)中提取顏色或紋理等低層特征描述符,并使用支持向量機(jī)分類器根據(jù)每個(gè)描述符識(shí)別預(yù)定義的概念(如“海灘”或“道路”)。支持向量機(jī)分類器輸出采用D-S融合方法進(jìn)行集成,稱之為可轉(zhuǎn)移信度模型(transferablebeliefmodel)。在生物特征學(xué)領(lǐng)域,Reddy將D-S理論用于融合手勢(shì)傳感器和腦計(jì)算接口傳感器兩個(gè)傳感器的輸出。融合結(jié)果表明,D-S融合方法有助于解決傳感器的模糊問題。3.2.2基于分類的融合方法動(dòng)態(tài)貝葉斯網(wǎng)絡(luò)貝葉斯推斷可以擴(kuò)展成網(wǎng)絡(luò)結(jié)構(gòu)(或稱為圖結(jié)構(gòu)),圖結(jié)構(gòu)中的節(jié)點(diǎn)表示不同類型的隨機(jī)變量(觀察值或狀態(tài)),如音頻和視頻;邊表示它們的概率相關(guān)性。下圖為靜態(tài)貝葉斯網(wǎng)絡(luò)示例,用貝葉斯網(wǎng)絡(luò)描述了一個(gè)講話者檢測(cè)問題?!爸v話者”節(jié)點(diǎn)的值由“涼亭”節(jié)點(diǎn)的值及三個(gè)中間節(jié)點(diǎn)“可見的”,“正面的”和“講話”的值確定,而這些中間節(jié)點(diǎn)的值又是由度量節(jié)點(diǎn)“皮膚”、“紋理”、“臉”和“聲音”所推測(cè)出來的。靜態(tài)貝葉斯網(wǎng)絡(luò)示例中顯示了節(jié)點(diǎn)之間的依賴關(guān)系。然而,該網(wǎng)絡(luò)是靜態(tài)的,這意味著這個(gè)例子只是描述了某一特定時(shí)刻的狀態(tài)。3.2.2基于分類的融合方法動(dòng)態(tài)貝葉斯網(wǎng)絡(luò)當(dāng)貝葉斯網(wǎng)絡(luò)加入時(shí)間維度時(shí),其工作方式轉(zhuǎn)變?yōu)閯?dòng)態(tài)貝葉斯網(wǎng)絡(luò)(DynamicBayesianNetwork,DBN)。3.2.2基于分類的融合方法動(dòng)態(tài)貝葉斯網(wǎng)絡(luò)隱馬爾可夫模型用來描述一個(gè)含有隱含未知參數(shù)的馬爾可夫過程。其難點(diǎn)是從可觀察的參數(shù)中確定該過程的隱含參數(shù),然后利用這些參數(shù)來作進(jìn)一步的分析。下圖所示為隱馬爾可夫模型的狀態(tài)遷移過程。其中表示在時(shí)刻的隱藏變量,是觀察者無法得知的變量。而表示在時(shí)刻觀測(cè)的結(jié)果。如果假設(shè)觀測(cè)到的結(jié)果為,即。隱藏條件為,即,則馬爾可夫模型的概率為:,可見馬爾可夫模型將該時(shí)間點(diǎn)前后的信息都納入考量。3.2.2基于分類的融合方法動(dòng)態(tài)貝葉斯網(wǎng)絡(luò)舉例Nefian等人使用了耦合隱馬爾可夫模型(CoupledHiddenMarkovModel,CHMM),它是隱馬爾可夫模型的泛化。耦合隱馬爾可夫模型允許主干節(jié)點(diǎn)進(jìn)行交互,同時(shí)擁有自己的觀察結(jié)果。耦合隱馬爾可夫模型適用于需要集成兩個(gè)或多個(gè)流的多模態(tài)場(chǎng)景。在這項(xiàng)工作中,作者對(duì)音頻特征(梅爾頻率倒譜系數(shù))和視覺特征(嘴唇區(qū)域的2D離散余弦變換系數(shù))的狀態(tài)異步建模,同時(shí)保持它們時(shí)間的相關(guān)性。該方法可用于語音識(shí)別。Bengio在特征級(jí)別提出了異步隱馬爾可夫模型(AsynchronousHMM,AHMM)。異步隱馬爾可夫模型是隱馬爾可夫模型的一種變體,用于處理異步數(shù)據(jù)流。對(duì)描述同一事件的異步序列、語音流和視頻(形狀和強(qiáng)度特征)流的聯(lián)合概率分布進(jìn)行建模。Fisher等提出了一種無參數(shù)方法來學(xué)習(xí)音頻和視頻特征的聯(lián)合分布。他們?yōu)榱俗畲蠡成潆S機(jī)變量之間的互信息,而估計(jì)了低維子空間上的線性投影。該方法被應(yīng)用于音頻、視頻定位。Wu等人在ACM國(guó)際會(huì)議上提出了一項(xiàng)使用影響圖方法(貝葉斯網(wǎng)絡(luò)的一種形式)來表示圖像的語義的多模態(tài)融合框架。此多模態(tài)融合框架將上下文信息(位置、時(shí)間和相機(jī)參數(shù))、內(nèi)容信息(整體和感知局部特征)與面向領(lǐng)域的語義本體(由有向無環(huán)圖表示)融合在一起。3.2.2基于分類的融合方法最大熵模型在一般情況下,最大熵模型是一種統(tǒng)計(jì)分類器,它遵循信息理論的方法,根據(jù)它所具有的信息內(nèi)容預(yù)測(cè)其屬于某個(gè)特定類的觀測(cè)的概率。最大熵模型假設(shè)分類模型是一個(gè)條件概率分布,為特征,為輸出。假設(shè)滿足所有約束條件的模型集合為:定義在條件概率分布上的條件熵為:最大熵模型的目標(biāo)就是求得使最大的時(shí)候?qū)?yīng)的。通過求最大似然估計(jì)可以求得最大熵模型的解。3.2.2基于分類的融合方法最大熵模型舉例Magalhaes等人將這種基于最大熵模型的融合方法用于多媒體語義索引。在這項(xiàng)工作中,他們將基于文本和基于圖像的特征融合起來進(jìn)行查詢關(guān)鍵字的檢索。具體而言,他們將文本和圖像特征映射到最優(yōu)特征子空間,然后為每一個(gè)查詢關(guān)鍵字提出了一個(gè)最大熵模型:為了估計(jì)最大熵模型,權(quán)重是唯一需要通過在整個(gè)數(shù)據(jù)集上最小化上述模型的對(duì)數(shù)似然值來計(jì)算的變量:因?yàn)槠洳捎酶咚购瘮?shù)來減小過擬合效果,因此對(duì)數(shù)似然函數(shù)的形式為:3.2.2基于分類的融合方法基于分類的融合方法優(yōu)缺點(diǎn)對(duì)比本節(jié)主要介紹了基于分類的融合方法,主要包括支持向量機(jī)、貝葉斯推斷、D-S理論、動(dòng)態(tài)貝葉斯網(wǎng)絡(luò)和最大熵模型。每種方法都有其優(yōu)勢(shì)與劣勢(shì),研究者應(yīng)該根據(jù)實(shí)際的場(chǎng)景來酌情使用,以提高模型的效果?;诟怕试淼呢惾~斯推斷融合方法提供了對(duì)新觀測(cè)的簡(jiǎn)單集成和先驗(yàn)信息的使用。但是,它們不適合處理相互排斥的假設(shè)。此外,由于缺乏合適的先驗(yàn)信息,導(dǎo)致該方法的融合結(jié)果不準(zhǔn)確。另一方面,D-S理論融合方法善于處理相互排斥的假設(shè)。但是,這種方法很難處理大量的假設(shè)組合。D-S理論融合方法已用于語音識(shí)別、運(yùn)動(dòng)視頻分析和事件檢測(cè)等任務(wù)。動(dòng)態(tài)貝葉斯網(wǎng)絡(luò)被廣泛應(yīng)用于處理時(shí)間序列數(shù)據(jù)。動(dòng)態(tài)貝葉斯網(wǎng)絡(luò)是使用時(shí)間數(shù)據(jù)的貝葉斯推斷的變形。動(dòng)態(tài)貝葉斯網(wǎng)絡(luò)方法以其不同的形式(如隱馬爾可夫模型)已成功地應(yīng)用于語音識(shí)別、說話人識(shí)別與跟蹤、視頻鏡頭分類等多媒體分析任務(wù)。然而,在這種方法中,往往很難確定正確的動(dòng)態(tài)貝葉斯網(wǎng)絡(luò)狀態(tài)。在各種基于分類的傳統(tǒng)的融合方法中,支持向量機(jī)和動(dòng)態(tài)貝葉斯網(wǎng)絡(luò)得到了研究人員的廣泛應(yīng)用。支持向量機(jī)因其改進(jìn)的分類性能而受到青睞,而動(dòng)態(tài)貝葉斯網(wǎng)絡(luò)被發(fā)現(xiàn)更適合建模時(shí)態(tài)數(shù)據(jù)。3.2多模態(tài)融合傳統(tǒng)方法3.2.3基于估計(jì)的融合方法3.2.2基于分類的融合方法3.2.1基于規(guī)則的融合方法3.2.3基于估計(jì)的融合方法卡爾曼濾波卡爾曼濾波(Kalmanfilter,KF)允許對(duì)動(dòng)態(tài)的數(shù)據(jù)進(jìn)行實(shí)時(shí)處理,并從具有一定統(tǒng)計(jì)意義的融合數(shù)據(jù)中得到系統(tǒng)的狀態(tài)估計(jì)。為了使該濾波器運(yùn)行,假設(shè)一個(gè)帶有高斯噪聲的線性動(dòng)態(tài)系統(tǒng)模型,狀態(tài)空間方程如下:基于上述狀態(tài)空間模型,卡爾曼濾波器不需要保存觀測(cè)歷史,只依賴于前一時(shí)間戳的狀態(tài)估計(jì)數(shù)據(jù)。卡爾曼濾波器的使用僅限于線性系統(tǒng)模型,不適用于具有非線性特性的系統(tǒng)。對(duì)于非線性系統(tǒng)模型,通常使用卡爾曼濾波器的一種變體,即擴(kuò)展卡爾曼濾波器(ExtendedKalmanFilter,EKF)。3.2.3基于估計(jì)的融合方法卡爾曼濾波卡爾曼濾波器和擴(kuò)展卡爾曼濾波器也已經(jīng)成功地用于目標(biāo)的源定位和跟蹤。下圖為卡爾曼濾波器融合過程示意圖,其展現(xiàn)了使用該卡爾曼濾波器進(jìn)行單目標(biāo)定位和跟蹤的融合過程。在本地處理器部分使用基本卡爾曼濾波器處理視頻傳感器傳入的數(shù)據(jù),使用擴(kuò)展卡爾曼濾波器處理音頻傳感器傳入的數(shù)據(jù)(基于音頻位置的估計(jì)是非線性估計(jì)的)。然后在融合中心內(nèi)融合音頻和視頻估計(jì)的輸出。3.2.3基于估計(jì)的融合方法粒子濾波粒子濾波是一套復(fù)雜的基于仿真的方法,常用于估計(jì)非線性和非高斯?fàn)顟B(tài)空間模型的狀態(tài)分布。這些方法也被稱為順序蒙特卡羅(SequentialMonteCarlo,SMC)方法。在這種方法中,粒子代表了狀態(tài)變量的隨機(jī)樣本,其中每個(gè)粒子都有一個(gè)相關(guān)的權(quán)值。粒子濾波算法包括預(yù)測(cè)和更新步驟:預(yù)測(cè)步驟根據(jù)每個(gè)粒子的動(dòng)力學(xué)來傳播,而更新步驟根據(jù)最新的感知信息來重估一個(gè)粒子的重量。雖然卡爾曼濾波器、擴(kuò)展卡爾曼濾波器或逆卡爾曼濾波器僅對(duì)線性高斯過程是最優(yōu)的,但當(dāng)獲取足夠多的樣本時(shí),粒子濾波方法可以為非線性非高斯過程提供貝葉斯最優(yōu)估計(jì)。3.2.3基于估計(jì)的融合方法粒子濾波舉例Vermaak等人使用粒子濾波器來估計(jì)基于音頻和視頻的觀察結(jié)果的預(yù)測(cè)。在其所提出的系統(tǒng)中使用了一個(gè)攝像頭和一對(duì)麥克風(fēng),并根據(jù)存儲(chǔ)的視聽序列進(jìn)行了測(cè)試。視聽特征的融合發(fā)生在特征層面,這意味著來自兩種模態(tài)特征的單個(gè)粒子坐標(biāo)被合并來跟蹤說話者。Perez等人采用粒子濾波方法融合二維物體形狀信息和音頻信息,用于說話人的追蹤。與Vermaak等人的工作不同的是,后者使用了重要性粒子濾波的概念,其中音頻信息專門用于生成一個(gè)重要性函數(shù),來影響基于音頻的觀察似然的計(jì)算。雖然卡爾曼濾波器、擴(kuò)展卡爾曼濾波器或逆卡爾曼濾波器僅對(duì)線性高斯過程是最優(yōu)的,但當(dāng)獲取足夠多的樣本時(shí),粒子濾波方法可以為非線性非高斯過程提供貝葉斯最優(yōu)估計(jì)。主要內(nèi)容3.3多模態(tài)融合前沿方法3.2多模態(tài)融合傳統(tǒng)方法3.1多模態(tài)數(shù)據(jù)融合介紹3.4多模態(tài)融合發(fā)展方向3.3多模態(tài)檢索前沿方法3.3.3基于圖神經(jīng)網(wǎng)絡(luò)的融合方法3.3.2基于深度學(xué)習(xí)的融合方法3.3.1基于池化的融合方法3.3.1基于池化的融合方法三部分組成:第一部分為模態(tài)嵌入子網(wǎng)絡(luò),其對(duì)于語言、視覺和聲音模態(tài)有不同的設(shè)計(jì);第二部分是張量融合層(TensorFusionLayer,TFL),是為了解決不同模態(tài)之間交互的問題而設(shè)計(jì)的;第三部分是情緒推理子網(wǎng)絡(luò),其承接張量融合層的輸出,并進(jìn)行情感推理。(1)張量融合網(wǎng)絡(luò)方法3.3.1基于池化的融合方法該融合方法可以認(rèn)為是張量融合網(wǎng)絡(luò)方法的等價(jià)升級(jí)版,其利用低秩權(quán)值張量分解提高多模態(tài)融合的效率并且不影響多模態(tài)融合的性能。首先低秩多模態(tài)融合方法通過將單模態(tài)輸入分別傳遞到三個(gè)子嵌入網(wǎng)絡(luò)中,得到單模態(tài)表示向量。然后低秩多模態(tài)融合方法通過與特定模態(tài)因子進(jìn)行低秩多模態(tài)融合輸出多模態(tài)表示向量。(2)低秩多模態(tài)融合方法3.3.1基于池化的融合方法進(jìn)一步地,通過堆疊多項(xiàng)式張量池化塊搭建了層次多項(xiàng)式融合網(wǎng)絡(luò)。一個(gè)多項(xiàng)式張量池化塊在一個(gè)“接收窗口”上運(yùn)行,該“接收窗口”覆蓋了所有八個(gè)時(shí)間點(diǎn)和三種模態(tài)的特征。這樣,多項(xiàng)式張量池化塊就可以捕獲窗口內(nèi)總共二十四個(gè)混合特征之間的高階非線性交互作用。多項(xiàng)式張量池化塊與一個(gè)小的“接收窗口”相關(guān)聯(lián),它自然地表現(xiàn)出局部相關(guān)性。(3)多項(xiàng)式張量池化方法3.3.1基于池化的融合方法通過對(duì)權(quán)重張量施加低秩控制,多模態(tài)低秩雙線性池化(MultimodalLow-rankBilinearPooling,MLB)方法將雙線性池的三維權(quán)值張量分解為三個(gè)二維權(quán)值矩陣。多個(gè)多模態(tài)因子分解雙線性池化模型可以級(jí)聯(lián)來建模輸入特性之間的高階交互,這被稱為多模態(tài)因數(shù)化高階池化(Multi-modalFactorizedHigh-orderPooling,MFH)方法。Ben-Younes等人提出的MUTAN是一種基于多模態(tài)張量的Tucker分解的方法,其使用Tucker分解將原始的三維權(quán)重張量算子分解為低維核心張量和MLB使用的三個(gè)二維權(quán)量矩陣。近期提出的BLOCK方法使用了一個(gè)基于塊的超對(duì)角陣的融合框架,其利用塊項(xiàng)分解來計(jì)算雙線性池化。BLOCK將MUTAN泛化為多個(gè)MUTAN模型的總和,為模態(tài)之間的交互提供更豐富的建模。(4)其他基于池化的融合方法3.3多模態(tài)檢索前沿方法3.3.3基于圖神經(jīng)網(wǎng)絡(luò)的融合方法3.3.2基于深度學(xué)習(xí)的融合方法3.3.1基于池化的融合方法3.3.2基于深度學(xué)習(xí)的融合方法判別模型直接對(duì)輸入數(shù)據(jù)X到輸出數(shù)據(jù)Y之間的映射關(guān)系進(jìn)行建模,模型參數(shù)是通過最小化一些提前設(shè)計(jì)好的目標(biāo)損失函數(shù)學(xué)習(xí)而來。這類模型比較適合一些多模態(tài)學(xué)習(xí)任務(wù),比如多模態(tài)數(shù)據(jù)分類任務(wù),推薦系統(tǒng),視覺問答(VisualQuestionAnswer,VQA),人類行為識(shí)別任務(wù)等。多層感知機(jī)也叫作前饋神經(jīng)網(wǎng)絡(luò),是典型的深度學(xué)習(xí)模型。神經(jīng)網(wǎng)絡(luò)的基本組成單元是神經(jīng)元,下圖為單神經(jīng)元結(jié)構(gòu)示例。(1)多層感知機(jī)介紹3.3.2基于深度學(xué)習(xí)的融合方法常用的激活函數(shù)有用于高斯輸出分布的線性激活函數(shù),用于伯努利輸出分布的Sigmoid型函數(shù),用于多變量伯努利輸出分布的softmax函數(shù),整流線性單元ReLU函數(shù)及一系列變體等。(1)多層感知機(jī)介紹3.3.2基于深度學(xué)習(xí)的融合方法隨著隱層數(shù)量的增多,該類模型可被稱為多層感知機(jī)。當(dāng)引入非線性的隱含層后,理論上只要網(wǎng)絡(luò)結(jié)構(gòu)足夠深(隱藏層數(shù)目足夠多)或網(wǎng)絡(luò)結(jié)構(gòu)足夠?qū)挘[藏層的節(jié)點(diǎn)足夠多),通過多層非線性變換多層感知機(jī)就可以擬合任意函數(shù)。圖中每一層網(wǎng)絡(luò)的輸入都為上一層網(wǎng)絡(luò)的輸出,這意味著網(wǎng)絡(luò)中不存在反饋,信號(hào)總是向前傳播。(1)多層感知機(jī)介紹3.3.2基于深度學(xué)習(xí)的融合方法卷積神經(jīng)網(wǎng)絡(luò)對(duì)于圖像數(shù)據(jù)的平移、縮放、傾斜或者其它一些形式的變形具有良好的容錯(cuò)能力。卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)具有局部連接和權(quán)值共享的特點(diǎn)。前一層的每個(gè)神經(jīng)元只與后一層特定范圍內(nèi)的神經(jīng)元存在連接。每個(gè)神經(jīng)元只對(duì)局部感知,然后將局部的信息傳到下一層綜合起來就得到了全局的信息,使得連接具有稀疏性,這樣將大大節(jié)約空間存儲(chǔ)和訓(xùn)練所需時(shí)間。權(quán)值共享:理論證明,圖像的各部分統(tǒng)計(jì)特性之間具有相似性和連續(xù)性,所以對(duì)于一幅圖像上的不同位置,可以采用同樣的濾波器學(xué)習(xí)完成一幅圖像的一次特征映射,反映到結(jié)構(gòu)設(shè)計(jì)上體現(xiàn)為同一層中某些神經(jīng)元之間共享連接權(quán)重。(2)卷積神經(jīng)網(wǎng)絡(luò)介紹3.3.2基于深度學(xué)習(xí)的融合方法卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)上增加了特有的卷積層和池化層,數(shù)據(jù)信號(hào)在網(wǎng)絡(luò)中的前向傳播和殘差反向傳播也與多層感知機(jī)有所區(qū)別。(2)卷積神經(jīng)網(wǎng)絡(luò)介紹3.3.2基于深度學(xué)習(xí)的融合方法卷積神經(jīng)網(wǎng)絡(luò)深的各輸入元素之間是相互獨(dú)立的,輸入與輸出也是獨(dú)立的。希望從數(shù)據(jù)中挖掘到上下文之間的關(guān)系從而更好的實(shí)現(xiàn)預(yù)測(cè),遞歸神經(jīng)網(wǎng)絡(luò)針對(duì)序列模式設(shè)計(jì)的特殊結(jié)構(gòu)可以利用輸入數(shù)據(jù)的上下文的信息,使其廣泛應(yīng)用于文本生成、機(jī)器翻譯、語音識(shí)別等領(lǐng)域。遞歸神經(jīng)網(wǎng)絡(luò)通過隱藏層信號(hào)在不同時(shí)間步之間的傳遞使得模型可以基于前面的信息學(xué)習(xí)后面的特征。(3)遞歸神經(jīng)網(wǎng)絡(luò)及長(zhǎng)短期記憶單元網(wǎng)絡(luò)介紹3.3.2基于深度學(xué)習(xí)的融合方法長(zhǎng)短期記憶(Longshort-termmemory,LSTM)單元用于克服典型RNN不能學(xué)習(xí)雙向的上下文、不能“記憶”長(zhǎng)期信息等缺陷。能夠解決長(zhǎng)序列訓(xùn)練過程中的梯度消失和梯度爆炸問題,在更長(zhǎng)的序列中有更好的表現(xiàn)。主要由遺忘門、輸入門和輸出門三部分組成,均采用sigmoid函數(shù)。(3)遞歸神經(jīng)網(wǎng)絡(luò)及長(zhǎng)短期記憶單元網(wǎng)絡(luò)介紹3.3.2基于深度學(xué)習(xí)的融合方法多模態(tài)卷積神經(jīng)網(wǎng)絡(luò)m-CNN為了充分捕捉語義關(guān)聯(lián),在端到端架構(gòu)中設(shè)計(jì)了單詞等級(jí)、詞組等級(jí)和句子等級(jí)三種等級(jí)的融合策略。單詞等級(jí)和詞組等級(jí)的融合是指將句子中的部分單詞或詞組與圖像的部分區(qū)域相融合。句子等級(jí)的融合則指整個(gè)句子和圖像的整體相融合。設(shè)計(jì)了三個(gè)子網(wǎng)絡(luò),分別是:圖像子網(wǎng)絡(luò)、匹配子網(wǎng)絡(luò)和評(píng)估子網(wǎng)絡(luò)。(4)基于判別模型的多模態(tài)數(shù)據(jù)融合方案3.3.2基于深度學(xué)習(xí)的融合方法模態(tài)數(shù)據(jù)的興趣相關(guān)產(chǎn)品相似模型(MultimodalInterest-RelatedItemSimilaritymodel,MultimodalIRIS將用戶與產(chǎn)品的交互信息以及產(chǎn)品的圖像數(shù)據(jù)與文本數(shù)據(jù)相融合,用于產(chǎn)品的推薦。MultimodalIRIS模型由三個(gè)模塊組成,即多模態(tài)特征學(xué)習(xí)模塊、興趣相關(guān)網(wǎng)絡(luò)(Interest-RelatedNetwork,IRN)和產(chǎn)品相似度推薦模塊。(4)基于判別模型的多模態(tài)數(shù)據(jù)融合方案3.3.2基于深度學(xué)習(xí)的融合方法編碼器是基于生成模型中常見的一種模型。通常意義的自編碼器原理很簡(jiǎn)單,包括一個(gè)編碼器和解碼器,數(shù)學(xué)上都表現(xiàn)為輸入信號(hào)的變換運(yùn)算。編碼器經(jīng)變換運(yùn)算將輸入信號(hào)編碼成信號(hào),而解碼器將經(jīng)編碼的轉(zhuǎn)換成輸出信號(hào)。自編碼器區(qū)別于多層感知器的最重要的一點(diǎn)是采用無監(jiān)督學(xué)習(xí)方式,訓(xùn)練時(shí)輸入即輸出,不需要額外的標(biāo)簽。輸入層到隱含層為編碼器,它可以從高維輸入空間變換到低維隱含空間,即學(xué)習(xí)到數(shù)據(jù)的隱含表示。隱含層到輸出層為解碼器,利用學(xué)習(xí)到的隱含特征重構(gòu)輸出逼近原始輸入數(shù)據(jù)。(5)基于生成模型的多模態(tài)數(shù)據(jù)融合方法3.3.2基于深度學(xué)習(xí)的融合方法典型的自編碼器結(jié)構(gòu),輸入層的通過編碼器的編碼過程得到隱藏層的低維向量,再通過解碼器重構(gòu)輸出逼近輸入的。(5)基于生成模型的多模態(tài)數(shù)據(jù)融合方法3.3.2基于深度學(xué)習(xí)的融合方法兩模態(tài)深度自編碼器首先從音頻輸入和視頻輸入中分別得到音頻表示向量和視頻表示向量,然后經(jīng)過編碼融合得到共享表示向量,最后經(jīng)過解碼器得到音頻重建向量和視頻重建向量。(5)基于生成模型的多模態(tài)數(shù)據(jù)融合方法3.3.2基于深度學(xué)習(xí)的融合方法注意力機(jī)制允許模型將注意力集中在特征圖的特定區(qū)域或特征序列的特定時(shí)間點(diǎn)上。通過該機(jī)制,不僅僅可以提高性能,而且可以提高特征表示的可解釋性。注意力決策過程不是一次性地使用所有信息,而是選擇性地將注意力集中在需要的場(chǎng)景部分,忽略不重要的部分?;阪I的注意力機(jī)制使用鍵值來搜索顯著的局部特征?;阪I的注意力機(jī)制在視覺描述類的問題上應(yīng)用廣泛。它提供了一種方法來評(píng)估一個(gè)模態(tài)內(nèi)或模態(tài)間特征的重要性。(6)基于注意力機(jī)制多模態(tài)數(shù)據(jù)融合方法3.3.2基于深度學(xué)習(xí)的融合方法多模態(tài)對(duì)抗表示網(wǎng)絡(luò)(MultimodalAdversarialRepresentationNetwork,MARN)用于點(diǎn)擊率(Click-ThroughRate,CTR)預(yù)估任務(wù)。(6)基于注意力機(jī)制多模態(tài)數(shù)據(jù)融合方法3.3.2基于深度學(xué)習(xí)的融合方法無鍵注意力機(jī)制主要用于分類或回歸任務(wù)。在這樣的應(yīng)用場(chǎng)景中,由于結(jié)果是在單一步驟中生成的,很難定義一個(gè)鍵來引導(dǎo)注意力模塊。或者,注意力機(jī)制是直接應(yīng)用于局部特征,不涉及任何鍵。公式如下:由于無鍵注意力機(jī)制可以從原始輸入中選擇顯著的線索的性質(zhì),無鍵注意機(jī)制適用于存在語義沖突、重復(fù)和噪聲等問題的多模態(tài)特征融合任務(wù)。(6)基于注意力機(jī)制多模態(tài)數(shù)據(jù)融合方法3.3.2基于深度學(xué)習(xí)的融合方法基于無鍵注意力機(jī)制提出的多視圖順序?qū)W習(xí)神經(jīng)模型——記憶融合網(wǎng)絡(luò)(MemoryFusionNetwork,MFN),用于多視圖順序?qū)W習(xí)問題。(6)基于注意力機(jī)制多模態(tài)數(shù)據(jù)融合方法3.3多模態(tài)檢索前沿方法3.3.3基于圖神經(jīng)網(wǎng)絡(luò)的融合方法3.3.2基于深度學(xué)習(xí)的融合方法3.3.1基于池化的融合方法3.3.3基于圖神經(jīng)網(wǎng)絡(luò)的融合方法圖神經(jīng)網(wǎng)絡(luò)是對(duì)圖結(jié)構(gòu)數(shù)據(jù)進(jìn)行特征提取的重要手段,在多模態(tài)特征學(xué)習(xí)中圖神經(jīng)網(wǎng)絡(luò)不僅適用于各個(gè)模態(tài)內(nèi)的拓?fù)潢P(guān)系圖建模,還適用于多個(gè)模態(tài)間的拓?fù)潢P(guān)系建模,因此,圖神經(jīng)網(wǎng)絡(luò)在多模態(tài)融合學(xué)習(xí)中有著重要作用。基于譜分析的圖神經(jīng)網(wǎng)絡(luò)是最常見的一種圖神經(jīng)網(wǎng)絡(luò)之一,其主要思想是相鄰節(jié)點(diǎn)的特征傳播,其中特征消息傳播的一般表達(dá)式可以表示為卷積神經(jīng)網(wǎng)絡(luò)(GraphConvolutionalNetwork,GCN)是基于譜分析的圖神經(jīng)網(wǎng)絡(luò)中具有代表性的模型,其工作原理如下:首先,圖卷積神經(jīng)網(wǎng)絡(luò)需要構(gòu)建關(guān)系拓?fù)鋱D。然后,利用特征傳播算法將圖網(wǎng)絡(luò)各個(gè)節(jié)點(diǎn)的特征通過相鄰關(guān)系進(jìn)行傳播。最后,進(jìn)行特征間關(guān)系提取,將圖卷積神經(jīng)網(wǎng)絡(luò)輸出的特征表示通過池化或級(jí)聯(lián)等方式對(duì)關(guān)系拓?fù)鋱D進(jìn)行特征提取,得到圖結(jié)構(gòu)數(shù)據(jù)在不同階層的抽象表示。3.3.3基于圖神經(jīng)網(wǎng)絡(luò)的融合方法圖卷積神經(jīng)網(wǎng)絡(luò)工作原理3.3.3基于圖神經(jīng)網(wǎng)絡(luò)的融合方法圖神經(jīng)網(wǎng)絡(luò)還可以根據(jù)任務(wù)的不同進(jìn)行網(wǎng)絡(luò)結(jié)構(gòu)的修改,除了圖卷積神經(jīng)網(wǎng)絡(luò)之外還有圖注意力網(wǎng)絡(luò)(GraphAttentionNetwork,GAT),關(guān)系圖卷積神經(jīng)網(wǎng)絡(luò)(RelationalGraphConvolutionalNetwork,R-GCN),這些圖神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)旨在解決具有不同結(jié)構(gòu)、不同特征關(guān)系的圖網(wǎng)絡(luò)特征提取。跨模共享特定特征傳輸算法解決以往的研究中只專注于將不同的模態(tài)嵌入到同一個(gè)特征空間中來學(xué)習(xí)共同的表達(dá),而忽視了特征的差異性的問題根據(jù)模態(tài)共有特征建立不同模態(tài)樣本的親和力模型,然后在模態(tài)之間傳遞模態(tài)共有的特征和模態(tài)特定的特征圖卷積神經(jīng)網(wǎng)絡(luò)舉例主要內(nèi)容3.3多模態(tài)融合前沿方法3.2多模態(tài)融合傳統(tǒng)方法3.1多模態(tài)數(shù)據(jù)融合介紹3.4多模態(tài)融合發(fā)展方向3.4多模態(tài)融合的發(fā)展方向解決方案:(1)壓縮海量參數(shù)問題具有更強(qiáng)大計(jì)算架構(gòu)的新的學(xué)習(xí)框架通過并行算法在云平臺(tái)等計(jì)算密集型架構(gòu)上執(zhí)行結(jié)合當(dāng)前的壓縮策略設(shè)計(jì)新的多模態(tài)深度學(xué)習(xí)壓縮方法3.4多模態(tài)融合的發(fā)展方向解決方案:(2)緩解低質(zhì)量數(shù)據(jù)問題將不完整模態(tài)實(shí)例進(jìn)行刪除,利用剩余多模態(tài)數(shù)據(jù)實(shí)例進(jìn)行融合通過缺失值填充對(duì)不完整多模態(tài)數(shù)據(jù)進(jìn)行預(yù)處理通過弱監(jiān)督學(xué)習(xí)的模型對(duì)噪聲數(shù)據(jù)進(jìn)行識(shí)別與糾正(3)利用實(shí)時(shí)數(shù)據(jù)問題ThankYou!多模態(tài)數(shù)據(jù)融合與檢索技術(shù)
第4章:多模態(tài)數(shù)據(jù)檢索主要內(nèi)容4.3多模態(tài)檢索前沿方法4.2多模態(tài)檢索傳統(tǒng)方法4.1多模態(tài)數(shù)據(jù)檢索介紹4.4多模態(tài)檢索發(fā)展方向4.1多模態(tài)數(shù)據(jù)檢索介紹4.1.3數(shù)據(jù)集介紹4.1.2國(guó)內(nèi)外現(xiàn)狀4.1.1多模態(tài)數(shù)據(jù)檢索背景及意義4.1.4性能評(píng)價(jià)準(zhǔn)則4.1.1多模態(tài)數(shù)據(jù)檢索背景及意義多模態(tài)數(shù)據(jù)檢索:針對(duì)一種模態(tài)的查詢?cè)~,返回與之相關(guān)的其他不同模態(tài)的檢索結(jié)果。4.1.1多模態(tài)數(shù)據(jù)檢索背景及意義多模態(tài)數(shù)據(jù)檢索應(yīng)用實(shí)例:語音交互電商平臺(tái)搜索引擎?zhèn)鞲衅髦悄?.1.1多模態(tài)數(shù)據(jù)檢索背景及意義多模態(tài)檢索技術(shù)是一個(gè)融合圖像處理、計(jì)算機(jī)視覺、機(jī)器學(xué)習(xí)、自然語言處理和語音識(shí)別等多個(gè)領(lǐng)域的綜合問題多模態(tài)檢索方法的研究將極大地促進(jìn)子空間學(xué)習(xí)、測(cè)度學(xué)習(xí)、深度學(xué)習(xí)、哈希變換、多視角學(xué)習(xí)等諸多機(jī)器學(xué)習(xí)理論的發(fā)展和應(yīng)用,具有重要的理論意義多模態(tài)數(shù)據(jù)檢索在搜索引擎、電商購物平臺(tái)、商品推薦、語音交互以及智能傳感器等場(chǎng)景中都得到了深度應(yīng)用4.1多模態(tài)數(shù)據(jù)檢索介紹4.1.3數(shù)據(jù)集介紹4.1.2國(guó)內(nèi)外現(xiàn)狀4.1.1多模態(tài)數(shù)據(jù)檢索背景及意義4.1.4性能評(píng)價(jià)準(zhǔn)則4.1.2國(guó)內(nèi)外現(xiàn)狀國(guó)際方面:美國(guó)圣地亞哥大學(xué)視覺計(jì)算實(shí)驗(yàn)室伊利若亞大學(xué)喬治亞理工學(xué)院印度理工學(xué)院悉尼科技大學(xué)ReLER實(shí)驗(yàn)室楊易老師課題組國(guó)內(nèi)方面:北京交通大學(xué)張磊博士北京郵電大學(xué)花妍博士浙江大學(xué)金仲明博士西北工業(yè)大學(xué)李學(xué)龍老師課題組北京大學(xué)彭宇新老師課題組南京大學(xué)李武軍老師課題組廈門大學(xué)媒體分析與計(jì)算實(shí)驗(yàn)室紀(jì)榮嶸老師課題組4.1多模態(tài)數(shù)據(jù)檢索介紹4.1.3數(shù)據(jù)集介紹4.1.2國(guó)內(nèi)外現(xiàn)狀4.1.1多模態(tài)數(shù)據(jù)檢索背景及意義4.1.4性能評(píng)價(jià)準(zhǔn)則4.1.3數(shù)據(jù)集介紹PascalVOC數(shù)據(jù)集由5011/4952(訓(xùn)練/測(cè)試)圖像標(biāo)簽對(duì)組成,可分為20個(gè)不同的類別。Wikipedia數(shù)據(jù)集基于維基百科中的“精選文章”,每篇文章根據(jù)其標(biāo)題劃分為幾個(gè)部分,最終將此數(shù)據(jù)集分為2866個(gè)圖像/文本對(duì),包含10種語義分類。4.1.3數(shù)據(jù)集介紹NUS-WIDE數(shù)據(jù)集由新加坡國(guó)立大學(xué)媒體研究實(shí)驗(yàn)室通過網(wǎng)絡(luò)爬蟲從Flickr采集得到的網(wǎng)絡(luò)圖像數(shù)據(jù)集,共269648張圖像,5018個(gè)標(biāo)簽。INRIA-Websearch數(shù)據(jù)集該數(shù)據(jù)集包含71478個(gè)圖像-文本對(duì),可分為353種不同的內(nèi)容,包括著名的地標(biāo),演員,電影,徽標(biāo)等。Flickr30K數(shù)據(jù)集包含了31783張從不同的Flickr群組收集的圖像,并專注于涉及人和動(dòng)物的事件。每張圖像都與五個(gè)句子相關(guān)聯(lián),這些句子由以英語為母語的土耳其機(jī)器人(MechanicalTurk)獨(dú)立撰寫。4.1.3數(shù)據(jù)集介紹XMedia數(shù)據(jù)集由北京大學(xué)多媒體計(jì)算實(shí)驗(yàn)室通過Wikipedia、Flickr、YouTube等來源采集。共包括20個(gè)語義類,每個(gè)類別有600個(gè)媒體實(shí)例,分別包含250段文本、250幅圖像、25段視頻、50段語音、25個(gè)3D模型共5種不同模態(tài)。Clickture數(shù)據(jù)集由4000萬張圖像和7360萬條文本查詢組成。4.1.3數(shù)據(jù)集介紹RegDB數(shù)據(jù)集由系統(tǒng)收集的412人的8240張圖像組成,每個(gè)人有10個(gè)不同的可見光圖像和10個(gè)不同的熱紅外圖像。CUFS數(shù)據(jù)集由來自三個(gè)數(shù)據(jù)庫的臉部照片-素描對(duì)組成:香港中文大學(xué)學(xué)生數(shù)據(jù)庫(188人),AR數(shù)據(jù)庫(123人)和XM2VTS數(shù)據(jù)庫(295人)。4.1.3數(shù)據(jù)集介紹多模態(tài)檢索數(shù)據(jù)集信息總結(jié)數(shù)據(jù)集模態(tài)樣本數(shù)類別數(shù)PascalVOC圖像-標(biāo)簽(異構(gòu))996320Wikipedia圖像-文本(異構(gòu))286610NUS-WIDE圖像-標(biāo)簽(異構(gòu))26964881INRIA-Websearch圖像-文本(異構(gòu))71478353Flickr30K圖像-句子(異構(gòu))31783--XMedia圖像-文本-視頻-音頻-3D模型(異構(gòu))1200020Clickture圖像-文本(異構(gòu))11360萬--RegDB紅外圖像-自然圖像(異源)4120206CUFS照片-素描(異源)6066064.1多模態(tài)數(shù)據(jù)檢索介紹4.1.3數(shù)據(jù)集介紹4.1.2國(guó)內(nèi)外現(xiàn)狀4.1.1多模態(tài)數(shù)據(jù)檢索背景及意義4.1.4性能評(píng)價(jià)準(zhǔn)則4.1.4性能評(píng)價(jià)準(zhǔn)則P-R曲線當(dāng)我們根據(jù)學(xué)習(xí)器的預(yù)測(cè)結(jié)果對(duì)樣例進(jìn)行排序時(shí)(排在前面的學(xué)習(xí)器認(rèn)為“最可能”是正例的樣本),我們計(jì)算每個(gè)位置的準(zhǔn)確率和召回率,描出來就會(huì)得到一個(gè)P-R曲線。也就是說,根據(jù)預(yù)測(cè)結(jié)果進(jìn)行排序之后,我們選擇1個(gè)正例(學(xué)習(xí)器返回1個(gè)正例),我們計(jì)算精確率以及找回,畫出一個(gè)點(diǎn),然后選擇2個(gè)正例,3個(gè),...,這樣就能得到一個(gè)曲線。4.1.4性能評(píng)價(jià)準(zhǔn)則平均精度我們直接根據(jù)P-R曲線就可以得到平均精度(AveragePrecision,AP),平均精度的值就等于PR曲線所圍成的面積。計(jì)算公式如下:其中,T為檢索數(shù)據(jù)集中相關(guān)文件的數(shù)量,P(r)表示前r個(gè)檢索結(jié)果的精度。如果第r個(gè)檢索結(jié)果與查詢數(shù)據(jù)相
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 浙江經(jīng)濟(jì)職業(yè)技術(shù)學(xué)院《房地產(chǎn)市場(chǎng)理論與實(shí)務(wù)》2023-2024學(xué)年第一學(xué)期期末試卷
- 中國(guó)礦業(yè)大學(xué)《中醫(yī)經(jīng)典綜合實(shí)訓(xùn)》2023-2024學(xué)年第一學(xué)期期末試卷
- 浙大寧波理工學(xué)院《材料與成型》2023-2024學(xué)年第一學(xué)期期末試卷
- 棗莊職業(yè)學(xué)院《塑性加工力學(xué)》2023-2024學(xué)年第一學(xué)期期末試卷
- DB2201T 70-2024 非洲豬瘟病毒環(huán)境監(jiān)測(cè)采樣技術(shù)規(guī)范
- 數(shù)學(xué)游戲演講模板
- 專業(yè)案例(暖通空調(diào)專業(yè))-公用設(shè)備工程師(暖通空調(diào)專業(yè))《專業(yè)案例》押題密卷
- 生命起源理論教學(xué)
- 七夕節(jié)青年?duì)I銷策略
- 二零二五版交通事故傷殘鑒定及賠償協(xié)議3篇
- 鋼結(jié)構(gòu)施工管理培訓(xùn)課件
- 2024年度工程建設(shè)項(xiàng)目安全評(píng)價(jià)合同2篇
- 《飛機(jī)操縱面》課件
- 商業(yè)咨詢報(bào)告范文大全
- 自我發(fā)展與團(tuán)隊(duì)管理課件
- 《婦產(chǎn)科學(xué)》課件-17.盆腔器官脫垂
- 監(jiān)理報(bào)告范本
- 店鋪交割合同范例
- 大型活動(dòng)LED屏幕安全應(yīng)急預(yù)案
- 2024年內(nèi)蒙古包頭市中考道德與法治試卷
- 湖南省長(zhǎng)沙市2024-2025學(xué)年高二上學(xué)期期中考試地理試卷(含答案)
評(píng)論
0/150
提交評(píng)論