基于深度學(xué)習(xí)的圖像融合方法綜述_第1頁
基于深度學(xué)習(xí)的圖像融合方法綜述_第2頁
基于深度學(xué)習(xí)的圖像融合方法綜述_第3頁
基于深度學(xué)習(xí)的圖像融合方法綜述_第4頁
基于深度學(xué)習(xí)的圖像融合方法綜述_第5頁
已閱讀5頁,還剩68頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

t第28卷第1期(總第321期)t第28卷第1期(總第321期)2023年1月16日國圖象圖形學(xué)報(bào)》投稿,均視為同意在本刊網(wǎng)站及CNKI等全文數(shù)據(jù),所刊載論文已獲得著作權(quán)人的本刊所有圖片均為非商業(yè)目的使有內(nèi)容,未經(jīng)許可,不得轉(zhuǎn)載或CopyrightAllrightsreservedbyJournalofImageandGraphics,InstituteofRemoteSensingandDigitalEarth,CAS.Thecontent(includingbutnotlimitedtext,photo,etc)publishedinthisjournalisfornon-commercialuse.刊名題字:宋健月刊(1996年創(chuàng)刊)學(xué)院天信息創(chuàng)新研究院與計(jì)算數(shù)學(xué)研究所編話址《中國圖象圖形學(xué)報(bào)》編輯出版委員會北京市海淀區(qū)北四環(huán)西路19號100190jig@廣告發(fā)布登記號京朝工商廣登字20170218號總發(fā)行北京報(bào)刊發(fā)行局訂購全國各地郵局際圖書貿(mào)易集團(tuán)有限公司 印刷裝訂北京科信印刷有限公司JournalofImageandGraphicsleinscriptionSongJiantedinSuperintendedbyChineseAcademyofSciencesSponsoredbyAerospaceInformationResearchInstitute,CASinaSocietyofImageandGraphicseofAppliedPhysicsandComputationalMathematicsrinChiefWuYirongditorPublisherEditorialandPublishingBoardofJournalofhicsAddressNo,North4thRingRoadWest,HaidianDistrict,ngPRChinaZipcode100190E-mailjig@TelephonsticAllLocalPostOfficesinChinaverseasChinaInternationalBookTradingCorporationPOBoxBeijing00048,P.R.China))PrintedbyBeijingKexinPrintingCo.,Ltd.CN11-3758/TBISSN1006-8961CODENZTTXFZ2023年1月2023年1月第28卷第1期(總第321期)ZhongguoTuxiangTuxingXuebao紅外與肝臟腫的多光譜遙合(第0290頁)《中國圖象圖形學(xué)報(bào)》圖像融合??喗槔顦錆?,吳小俊,馬佳義,白相志,劉羽,李輝,韓向娣.....................................................0001的圖像融合方法綜述唐霖峰,張浩,徐涵,馬佳義................................................................................................0003法綜述李成龍,鹿安東,劉磊,湯進(jìn)................................................................................................0037全色銳化的卷積神經(jīng)網(wǎng)絡(luò)方法研究進(jìn)展鄧良劍,冉燃,吳瀟,張?zhí)砭?...............................................................................................0057焦圖像融合方法綜述王磊,齊爭爭,劉羽..............................................................................................................0080圖像融合技術(shù)進(jìn)展左一帆,方玉明,馬柯德.......................................................................................................0102黃渝萍,李偉生....................................................................................................................0118光圖像融合圖像融合質(zhì)量評價(jià)指標(biāo)分析孫彬,高云翔,諸葛吳為,王梓萱.........................................................................................0144光圖像漸進(jìn)融合深度網(wǎng)絡(luò)邱德粉,胡星宇,梁鵬偉,劉賢明,江俊君...........................................................................0156紅外與可見光圖像分組融合的視覺Transformer孫旭輝,官錚,王學(xué)..............................................................................................................0166積相結(jié)合的紅外與可見光圖像融合張子晗,吳小俊,徐天陽.......................................................................................................0179高分辨率可見光圖像引導(dǎo)紅外圖像超分辨率的Transformer網(wǎng)絡(luò)邱德粉,江俊君,胡星宇,劉賢明,馬佳義...........................................................................0196紅外與可見光圖像融合王彥舜,聶仁燦,張谷鋮,楊小飛.........................................................................................0207跨模態(tài)圖像融合的并行分解自適應(yīng)融合模型周濤,劉珊,董雅麗,白靜,陸惠玲.....................................................................................0221應(yīng)翔,劉振,朱佳琳,姜漢,張瑞璇,高潔...........................................................................0234殘差密集注意力網(wǎng)絡(luò)多模態(tài)MR圖像超分辨率重建劉羽,朱文瑜,成娟,陳勛....................................................................................................0248的肝臟腫瘤檢測馬金林,歐陽軻,馬自萍,毛凱績,陳勇..............................................................................0260理光譜與多光譜圖像融合方帥,許漫.............................................................................................................................0277絡(luò)的多光譜遙感圖像融合余典,李坤,張瑋,李對對,田昕,江昊..............................................................................0290的漸進(jìn)增強(qiáng)遙感圖像全色銳化算法賈雅男,郭曉杰....................................................................................................................0305特征融合的音視頻對抗對比學(xué)習(xí)盛振濤,陳雁翔,齊國君.......................................................................................................0317提供,影像來源于中國高分一號衛(wèi)星。Volume28,Number1PublishedJanuary16,2023JOURNALOFIMAGEANDGRAPHICSInfraredandvisibleimagefus-levelguidednetworkP0207)Multiscaleadaptivefusionnet-workbasedalgorithmforlivertumordetection(P0260)tisensingP0)TangLinfeng,ZhangHao,XuHan,MaJiayi...........................................................................0003yLiChenglong,LuAndong,LiuLei,TangJin...........................................................................0037viewDengLiangjian,RanRan,WuXiao,ZhangTianjing...............................................................0057WangLei,QiZhengzheng,LiuYu..........................................................................................0080ZuoYifanFangYumingMaKede.........................................................................................0102HuangYuping,LiWeisheng...................................................................................................0118SunBinGaoYunxiangZhugeWuweiWangZixuan.............................................0144QiuDefen,HuXingyu,LiangPengwei,LiuXianming,JiangJunjun.......................................0156SunXuhui,GuanZheng,WangXue.......................................................................................0166ZhangZihan,WuXiaojun,XuTianyang.................................................................................0179QiuDefen,JiangJunjun,HuXingyu,LiuXianming,MaJiayi.................................................0196angYanshunNieRencanZhangGuchengYangXiaofeiedicalImageProcessingZhouTaoLiuShanDongYaliBaiJingLuHuiling....................................0221YingXiangLiuZhenZhuJialinJiangHanZhangRuixuanGaoJie.........................0234LiuYuZhuWenyuChengJuan,ChenXun...........................................................................0248MaJinlin,OuyangKe,MaZiping,MaoKaiji,ChenYong........................................................0260mageProcessingFangShuai,XuMan...............................................................................................................0277YuDianLiKunZhangWeiLiDuiduiTianXinJiangHao.........................................0290JiaYanan,GuoXiaojie...........................................................................................................0305dalInformationFusionusionShengZhentao,ChenYanxiang,QiGuojun...........................................................................03173中圖法分類號:TP391文獻(xiàn)標(biāo)識碼:A文章編號:1006-8961(2023)01-0003-340003-0036(唐霖峰,張浩,徐涵,馬佳義.2023.基于深度學(xué)習(xí)的圖像融合方法綜述.中國圖象圖形學(xué)報(bào),28(01):0003-0036)[DOI:10.11834/基于深度學(xué)習(xí)的圖像融合方法綜述武漢大學(xué)電子信息學(xué)院,武漢430072摘要:圖像融合技術(shù)旨在將不同源圖像中的互補(bǔ)信息整合到單幅融合圖像中以全面表征成像場景,并促進(jìn)后續(xù)的視覺任務(wù)。隨著深度學(xué)習(xí)的興起,基于深度學(xué)習(xí)的圖像融合算法如雨后春筍般涌現(xiàn),特別是自編碼器、生成對抗網(wǎng)絡(luò)以及Transformer等技術(shù)的出現(xiàn)使圖像融合性能產(chǎn)生了質(zhì)的飛躍。本文對不同融合任務(wù)場景下的前沿深度融合算法進(jìn)行全面論述和分析。首先,介紹圖像融合的基本概念以及不同融合場景的定義。針對多模圖像融合、數(shù)字?jǐn)z影圖像融合以及遙感影像融合等不同的融合場景,從網(wǎng)絡(luò)架構(gòu)和監(jiān)督范式等角度全面闡述各類方法的基本思想,并討論各類方法的特點(diǎn)。其次,總結(jié)各類算法的局限性,并給出進(jìn)一步的改進(jìn)方向。再次,簡要介紹不同融合場景中常用的數(shù)據(jù)集,并給出各種評估指標(biāo)的具體定義。對于每一種融合任務(wù),從定性評估、定量評估和運(yùn)行效率等多角度全面比較其中代表性算法的性能。本文提及的算法、數(shù)據(jù)集和評估指標(biāo)已匯總至/Linfeng-Tang/Image-Fusion。最后,給出了本文結(jié)論以及圖像融合研究中存在的一些嚴(yán)峻挑戰(zhàn),并對未來可能的研究方向進(jìn)行了展望。關(guān)鍵詞:圖像融合;深度學(xué)習(xí);多模圖像;數(shù)字?jǐn)z影;遙感影像s收稿日期:2022-05-18;修回日期:2022-07-18;預(yù)印本日期:2022-07-25基金項(xiàng)目:國家自然科學(xué)基金項(xiàng)目(62276192);湖北省自然科學(xué)基金項(xiàng)目(2020BAB113)4,,,nd,,,,,,,,,,,,,,,,y,,,,0引言由于成像設(shè)備硬件限制,單一類型或單一設(shè)置下的傳感器通常無法全面地表征成像場景(Liu等,2018;Zhang等,2021b)。例如可見光圖像通常包含豐富的紋理細(xì)節(jié)信息,但卻容易遭受極端環(huán)境和遮擋的影響而丟失場景中的目標(biāo)。與之相反,紅外傳感器通過捕獲物體散發(fā)的熱輻射信息成像,能夠有效地突出行人、車輛等顯著目標(biāo),但是缺乏對場景的細(xì)節(jié)描述(Ma等,2019a)。此外,具有不同ISO(in-間的相機(jī)只能捕捉在其動態(tài)范圍內(nèi)的場景信息,而不可避免地丟失動態(tài)范圍之外的信息。值得注意的是,不同類型或不同光學(xué)設(shè)置下的傳感器通常包含大量互補(bǔ)信息,這也啟發(fā)人們將這些互補(bǔ)信息集成5 第28卷/第1期/2023年1月唐霖峰,張浩,徐涵,馬佳義/基于深度學(xué)習(xí)的圖像融合方法綜述到單一的圖像中。因此,圖像融合技術(shù)應(yīng)運(yùn)而生。根據(jù)成像設(shè)備/成像設(shè)置的差異,圖像融合通常字?jǐn)z影圖像融合和遙感影像融合。1)多模圖像融合。由于成像原理的限制,單一類型的傳感器只能捕獲部分場景信息。多模圖像融合能夠?qū)⒍鄠€(gè)傳感器捕獲的有用信息整合到單幅的融合圖像中,以實(shí)現(xiàn)對場景有效且全面地表征。典型的多模圖像融合包括紅外和可見光圖像融合以及醫(yī)學(xué)圖像融合。2)數(shù)字?jǐn)z影圖像融合。由于光學(xué)器件的限制,數(shù)碼相機(jī)通常無法在單一設(shè)置下收集成像場景中的所有信息。具體來說,數(shù)碼相機(jī)拍攝的圖像通常只能適應(yīng)一定范圍的光照變化,并且只能清晰地呈現(xiàn)在預(yù)定義景深中的場景。多曝光圖像融合和多聚焦圖像融合作為數(shù)字?jǐn)z影圖像融合中典型的任務(wù)能夠?qū)⒉煌O(shè)置下拍攝的圖像進(jìn)行融合,并生成高動態(tài)的融合圖像。3)遙感影像融合。在保證信噪比的前提下,光相互矛盾的(Zhang等,2021b)。這意味著,僅依靠一種傳感器無法同時(shí)捕獲高空間分辨率、高光譜分辨率的圖像。遙感影像融合旨在將空間分辨率和光譜分辨率不同的圖像進(jìn)行融合,得到一幅高空間分辨率和高光譜分辨率兼?zhèn)涞娜诤蠄D像。多光譜與全色圖像融合是最具有代表性的遙感影像融合場景。從源圖像的成像角度來看,遙感影像融合也屬于多模圖像融合。但是遙感影像融合相較于多模圖像融合需要更高的空間和光譜保真度來提升分辨率。因討論。這3種圖像融合場景示意圖如圖1所示。融合圖像能夠吸收源圖像中的互補(bǔ)特性,并具有更好的場景表達(dá)和視覺感知效果,從而能夠有效地促進(jìn)諸等實(shí)際計(jì)算機(jī)視覺應(yīng)用。圖1各類圖像融合場景示意圖在深度學(xué)習(xí)席卷計(jì)算機(jī)視覺領(lǐng)域之前,圖像融合問題已經(jīng)得到了深入研究。傳統(tǒng)的圖像融合算法通常是在空間域或變換域(通過某種數(shù)學(xué)變換將圖像轉(zhuǎn)換至變換域)執(zhí)行活動水平測量并手動設(shè)計(jì)融合規(guī)則來實(shí)現(xiàn)圖像融合(Ma等,2019a)。經(jīng)典的傳統(tǒng)圖像融合框架主要包括基于多尺度變換的融合框ue2016;Liu等,2017a;樓建強(qiáng)等,2017;焦姣和吳玲2021)、基于稀疏表示的融合框架(李奕和吳小俊,2014;Liu等,2016;楊培等,2021)、基于子空間的2016)、基于顯著性的融合框架(Ma等,2017;霍星等,2021;楊培等,2021)、基于變分模型的融合框架(馬寧等,2013;周雨薇等,2015;Ma等,2016)等。盡管現(xiàn)有的傳統(tǒng)圖像融合算法在多數(shù)情況下能夠產(chǎn)生較為滿意的結(jié)果,但是仍然存在一些阻礙其進(jìn)一步發(fā)展的難題。首先,現(xiàn)有的方法通常使用相同的變換或表示從源圖像中提取特征,卻沒能考慮不同源圖像存在本質(zhì)差異。其次,手工9設(shè)計(jì)的活動水平測量和融合規(guī)則無法適應(yīng)復(fù)雜的融合場景,而且為了追求更好的融合性能,活動水平測量和融合規(guī)則的設(shè)計(jì)變得越來越復(fù)雜(Li等,近年來,深度學(xué)習(xí)以其強(qiáng)大的特征提取和表達(dá)能力主導(dǎo)了計(jì)算機(jī)視覺領(lǐng)域的發(fā)展,并在諸如圖像HeHuang標(biāo)檢測(Red-monRen(Ronneberg-er等,2015;Chen等,2018)等視覺任務(wù)上展現(xiàn)了顯著的性能優(yōu)勢。為了克服傳統(tǒng)算法的不足,圖像融合領(lǐng)域的研究者也探索了大量基于深度學(xué)習(xí)的圖像融合算法?,F(xiàn)有基于深度學(xué)習(xí)的圖像融合算法主要關(guān)鍵問題:特征提取、特征融合和圖像重建。根據(jù)采用的網(wǎng)絡(luò)架構(gòu),基于深度學(xué)習(xí)的圖像融合算法可分為基于自編碼器(auto-encoder,AE)的圖像融合框架、基于卷積神經(jīng)網(wǎng)絡(luò)GAN)的圖像融合框架3類。圖2展示了這3類圖像融合框架的整體流程。圖2不同圖像融合框架示意圖1)基于自編碼器(AE)的圖像融合框架首先在大型數(shù)據(jù)集上預(yù)訓(xùn)練一個(gè)自編碼器,用來實(shí)現(xiàn)特征提數(shù)據(jù)集(Deng等,2009)。然后采用手工設(shè)計(jì)的融合策略來整合從不同源圖像中提取的深度特征以實(shí)現(xiàn)LiWuLi等,2020a),然而這些手工設(shè)計(jì)的融合策略并不一定適用于深度特征,從而限制了基于AE的融合框架的性能。2)基于卷積神經(jīng)網(wǎng)絡(luò)(CNN)的圖像融合框架通過設(shè)計(jì)網(wǎng)絡(luò)結(jié)構(gòu)和損失函數(shù)來實(shí)現(xiàn)端到端的特征提取、特征融合和圖像重建,從而避免手動設(shè)計(jì)融合規(guī)則的煩瑣(Ma等,2021c)。圖2(b)是一種主流的基于CNN的圖像融合框架,通過度量融合圖像與源圖像之間的相似性來構(gòu)造損失函數(shù),指導(dǎo)網(wǎng)絡(luò)進(jìn)行端到端訓(xùn)練(Han等,2022)。也有方法利用先驗(yàn)知識設(shè)計(jì)一個(gè)偽標(biāo)簽圖像與融合圖像構(gòu)造損失函數(shù)(Deng等,2021)。此外,有部分基于CNN的方法將卷積神經(jīng)網(wǎng)絡(luò)作為整體方法的一部分用于特征提取或活動水平測量(Liu等,2017c)。3)基于生成對抗網(wǎng)絡(luò)(GAN)的圖像融合框架將圖像融合問題建模為生成器與判別器之間的對抗7 第28卷/第1期/2023年1月唐霖峰,張浩,徐涵,馬佳義/基于深度學(xué)習(xí)的圖像融合方法綜述博弈問題。如圖2(c)所示,基于GAN的圖像融合框架通過判別器來迫使生成器生成的融合結(jié)果在概率分布上與目標(biāo)分布趨于一致,從而隱式地實(shí)現(xiàn)特征提取、融合和圖像重建?,F(xiàn)有基于GAN的融合方法通過源圖像(Ma等,2020c)或者偽標(biāo)簽圖像(Xu等,2020b)來構(gòu)造目標(biāo)分布。根據(jù)訓(xùn)練過程中使用的監(jiān)督范式,基于深度學(xué)習(xí)的圖像融合算法還可分為無監(jiān)督圖像融合框架、自監(jiān)督圖像融合框架和有監(jiān)督圖像融合框架。本文根據(jù)網(wǎng)絡(luò)架構(gòu)并輔以監(jiān)督范式,全面系統(tǒng)地闡述基于深度學(xué)習(xí)的多模圖像融合、數(shù)字?jǐn)z影圖像融合以及遙感影像融合的研究進(jìn)展,以便人們能夠更好地掌握深度圖像融合領(lǐng)域的研究現(xiàn)狀。本文結(jié)構(gòu)框架如圖3所示。首先結(jié)合網(wǎng)絡(luò)架構(gòu)和監(jiān)督范式,討論3大融合場景中有代表性的基于深度學(xué)習(xí)的方法以及通用的圖像融合算法。然后簡要介紹不同融合任務(wù)中的數(shù)據(jù)集和評估指標(biāo),并對有代表性的算法進(jìn)行全面評估分析。最后,對全文進(jìn)行總結(jié),并結(jié)合圖像融合中存在的挑戰(zhàn)提出展望。圖3本文結(jié)構(gòu)框架1方法回顧多模圖像融合旨在通過整合不同傳感器捕獲的互補(bǔ)信息來全面地表征成像場景,典型的多模圖像融合任務(wù)主要包括紅外和可見光圖像融合以及醫(yī)學(xué)圖像融合。紅外傳感器通過捕獲物體的熱輻射信息成像,即使在極端條件、惡劣天氣及部分遮擋情況下也能夠有效地突出顯著目標(biāo)。但是紅外圖像無法提供足夠的環(huán)境信息,如紋理細(xì)節(jié)、環(huán)境照明等。與之相反,可見光傳感器通過收集物體表面的反射光成像,因此可見光圖像包含豐富的紋理細(xì)節(jié)信息并更加符合人類的視覺感知。紅外和可見光圖像融合旨在整合源圖像中的互補(bǔ)信息,并生成既能突出顯著目標(biāo)又包含豐富紋理細(xì)節(jié)的高對比度融合圖像(Zhang等,2020c),主要包括基于AE、基于CNN和基于GAN的紅外和可見光圖像融合框架?;贏E的方法首先在大規(guī)模自然圖像數(shù)據(jù)集上訓(xùn)練一個(gè)自編碼器,然后預(yù)訓(xùn)練的編碼網(wǎng)絡(luò)和解碼網(wǎng)絡(luò)分別用于實(shí)現(xiàn)特征提取與圖像重建,最后一般使用手工設(shè)計(jì)的融合策略融合編碼網(wǎng)絡(luò)提取的深度特征來實(shí)現(xiàn)圖像融合。為了強(qiáng)化編碼網(wǎng)絡(luò)提取特和王建中等人(2021)在基于AE的圖像融合框架中及殘差密集塊。此外,(2022)在基于AE的融合框架中引入注意力機(jī)制,使網(wǎng)絡(luò)能夠更加關(guān)注顯著目標(biāo)以及紋理細(xì)節(jié)信息。8(2021b)將解離化表征學(xué)習(xí)注入到了基于AE的圖像融合框架中。值得一提的是,上述算法均采用手工設(shè)計(jì)的融合策略(例如逐像素相加、逐像素加權(quán)求和以及最大選擇策略)融合深度特征,在傳統(tǒng)方法中取得了不錯(cuò)的融合效果,但是深度特征通常具有不可解釋性,因此手工設(shè)計(jì)的融合策略無法為深度特征分配恰當(dāng)?shù)臋?quán)重,以至于限制了這類算法的性能提升。Xu等人(2021c)基于像素級顯著性和可解釋重要性評估,提出一種可學(xué)習(xí)的融合策略,能夠根據(jù)深度特征的重要性和顯著性,為不同源圖像的特征分配恰當(dāng)?shù)臋?quán)重,自適應(yīng)地融合這些深度特征,進(jìn)而賦予深度融合算法更強(qiáng)的可解釋性。然而,計(jì)算像素級顯著性以及執(zhí)行重要性評估十分耗時(shí)。所以,進(jìn)一步研究實(shí)時(shí)的可學(xué)習(xí)融合策略將是未來基于AE的圖像融合框架下的研究熱點(diǎn)之一?;贑NN的端到端圖像融合框架是另一種避免手動設(shè)計(jì)融合規(guī)則弊端的技術(shù)路線。這類方法通常依靠設(shè)計(jì)的網(wǎng)絡(luò)結(jié)構(gòu)和損失函數(shù)隱式地實(shí)現(xiàn)特征合和圖像重建。一方面,人們提出聚合殘差密集網(wǎng)絡(luò)(Long等,2021)、基于雙注意力的特征融合模塊(Li等,2021d)、梯度殘差密集塊(Tang國洋等,2022)和跨模差分感知融合模塊(Tang等,2022b)等網(wǎng)絡(luò)結(jié)構(gòu)來提升融合性能,但這些網(wǎng)絡(luò)結(jié)構(gòu)通常會增加網(wǎng)絡(luò)復(fù)雜度,從而影響方法的運(yùn)行效率。Liu等人(2021b)提出一種基于網(wǎng)絡(luò)架構(gòu)搜索法,能夠針對不同融合任務(wù)的特點(diǎn),自適應(yīng)地構(gòu)造高效且有效的特征提取、特征融合以及。另一方面,人們使用強(qiáng)度損失、梯度M義損失等損失函數(shù)從不同層面約束融合圖像與源圖像的相似性。值得一提的是,Li等人(2021b)結(jié)合元學(xué)習(xí)實(shí)現(xiàn)了不同分辨率條件下,只需重新訓(xùn)練一個(gè)學(xué)習(xí)模型便能生成任意大小的融合結(jié)果。此外,Tang等人(2022a)結(jié)合高層視覺任務(wù)(目標(biāo)檢測、語義分割等)的需求,提出一種高層視覺任務(wù)驅(qū)動的圖像融合框架(SeAFusion)來集成盡可能多的語義信息,以提升高層視覺任務(wù)在融合圖像上的性能。盡管考慮了高層視覺任務(wù)的需求,但是作為初步的嘗試只考慮了在損失函數(shù)上的改進(jìn)。如何以一種更加自洽的方式探索圖像融合問題與高層視覺任務(wù)之間的內(nèi)在聯(lián)系將是未來圖像融合領(lǐng)域的發(fā)展趨勢之一。督信息的情形下也能夠有效地建模數(shù)據(jù)分布,該特性非常符合紅外和可見光圖像融合的需求。Ma等人(2019b)在FusionGAN中首次將圖像融合問題定義為生成器與判別器之間的對抗博弈。具體來說,生成器負(fù)責(zé)捕獲源圖像樣本中的潛在分布,并將這些分布特性充分集成到融合圖像中。判別器負(fù)責(zé)從分布上判別輸入的是源圖像還是融合圖像,從而迫使生成器合成的融合結(jié)果盡可能多地包含源圖像的分布特性。在FusionGAN之后,細(xì)節(jié)損失、邊緣增2021b)、視覺顯著性圖(周祎楠和楊曉敏,2021)、條ng2021c)、多分類生成對抗網(wǎng)絡(luò)(Ma等,2021d)、聚合紋理圖以及引導(dǎo)濾波器(Yang等,2021a)等新穎的損失和網(wǎng)絡(luò)相繼引入到基于GAN的融合框架中,進(jìn)一步提升了融合性能。然而單判別器容易在訓(xùn)練過程中造成模態(tài)失衡,導(dǎo)致融合結(jié)果無法保持紅外圖像的對比度或可見光圖像中的紋理細(xì)節(jié)信息。Xu等人(2019)和Ma等人(2020c)提出利用雙判別器維持不同模態(tài)間的信息平衡,并更好地約束融合結(jié)果的概率分布。在此基礎(chǔ)上,Li等人(2021c,d)將注意力機(jī)制注入到基于GAN的圖像融合框架中,以促使生成器和判別器更關(guān)注那些重要區(qū)域。類似于SeAFusion,Zhou等人(2021)將語義標(biāo)簽引入到基于GAN的圖像融合框架中,從而迫使生成器保留更多的語義信息。盡管基于GAN的圖像融合算法能夠生成較好的融合結(jié)果,但如何在訓(xùn)練過程中維持生成器與判別器的平衡仍值得深入研究?;谏疃葘W(xué)習(xí)的多模圖像融合算法歸納如表1所示。根據(jù)源圖像表征的信息,醫(yī)學(xué)影像可以分為結(jié)構(gòu)圖像和功能圖像兩大類。結(jié)構(gòu)圖像主要提供結(jié)構(gòu)utedtomography可以很好地反映骨頭和植入物等密質(zhì)結(jié)構(gòu),MRI9 第28卷/第1期/2023年1月唐霖峰,張浩,徐涵,馬佳義/基于深度學(xué)習(xí)的圖像融合方法綜述表1多模圖像融合研究歸納方法場景基礎(chǔ)框架監(jiān)督范式發(fā)表期刊或會議CNN(Liu等,2017b)MedCNN無監(jiān)督MedCNN無監(jiān)督GFPPC-GAN(Tang等,2019)MedGAN無監(jiān)督CMMMDenseFuse(Li和Wu,2019)VIFAEDDcGAN(Xu等,2019)VIF和MedGAN無監(jiān)督IJCAIFusionGAN(Ma等,2019b)VIFGAN無監(jiān)督CCN-CP(Wang等,2020)MedCNN無監(jiān)督MGMDcGAN(Huang等,2020a)MedGAN無監(jiān)督DDcGAN(Ma等,2020c)VIF和MedGAN無監(jiān)督VIFAETIMEMFusion(Xu和Ma,2021)MedCNN無監(jiān)督MedCNN無監(jiān)督TCIMSPRN(Fu等,2021a)MedCNN無監(jiān)督BSPCVIFCNN無監(jiān)督SDDGAN(Zhou等,2021)VIFGAN無監(jiān)督TMMVIFAECSF(Xu等,2021c)VIFAETCIDRF(Xu等,2021b)VIFAETIMVIFAETIMEAGIFLiub)VIFAETCSVTRXDNFuse(Long等,2021)VIFCNN無監(jiān)督VIF和MedCNN無監(jiān)督VIFCNN無監(jiān)督TIMVIFGAN無監(jiān)督VIFGAN無監(jiān)督VIF和MedCNN無監(jiān)督ACMMMGAN-FM(Zhang等,2021c)VIFGAN無監(jiān)督TCIVIFGAN無監(jiān)督TMMGANMcC(Ma等,2021d)VIFGAN無監(jiān)督TIMMgANFuseLi021d)VIFGAN無監(jiān)督TIMTC-GAN(Yang等,2021a)VIFGAN無監(jiān)督TCSVTVIFGAN無監(jiān)督CVPRVIFCNN無監(jiān)督VIFCNN無監(jiān)督注:場景中的Med代表醫(yī)學(xué)圖像融合場景,VIF代表紅外和可見光圖像融合場景。10腫瘤的功能和代謝,SPECT圖像則反映組織器官和Ma能夠反映與生物細(xì)胞分子分布相關(guān)的功能信息并展現(xiàn)細(xì)胞中的蛋白質(zhì)分布。而高分辨率的相襯(phasecontrast,PC)圖像能夠清晰地展現(xiàn)包括細(xì)胞核和線粒體在內(nèi)的亞細(xì)胞結(jié)構(gòu)信息(Tang等,2021)。醫(yī)學(xué)圖像融合旨在將多幅不同類型圖像中重要的、互補(bǔ)的信息整合到一幅信息豐富的融合圖像中,幫助醫(yī)生快速準(zhǔn)確地診斷疾病。本文通過基于CNN和基于GAN的圖像融合框架介紹深度學(xué)習(xí)背景下醫(yī)學(xué)圖像融合的研究進(jìn)展。最初,基于CNN的醫(yī)學(xué)圖像融合方法只利用卷積神經(jīng)網(wǎng)絡(luò)實(shí)現(xiàn)活動水平測量或特征提取。一方面,部分方法基于拉普拉斯金字塔(Liu等,2017b)或?qū)Ρ榷冉鹱炙?Wang等,2020)實(shí)現(xiàn)圖像分解和重建,然后使用暹羅卷積神經(jīng)網(wǎng)絡(luò)度量源圖像的像素活動水平并生成融合權(quán)重圖;另一方面,一些方法(Lahoud和Süsstrunk,2019)采用預(yù)訓(xùn)練的卷積神經(jīng)網(wǎng)絡(luò)從源圖像中提取深度特征,并利用高斯濾波器融合這些深度特征來獲得融合圖像,然而采用的網(wǎng)絡(luò)并未在醫(yī)學(xué)圖像上進(jìn)行預(yù)訓(xùn)練,因而無法有效捕獲不同類型醫(yī)學(xué)圖像中的特性?;诖?人們提出了基于CNN的端到端醫(yī)學(xué)圖像融合算法(Liang等,2019;Fu等,2021a)。類似于基于CNN的紅外和可見光圖像融合方法,基于CNN的醫(yī)學(xué)圖像融合算法也通過精心設(shè)計(jì)網(wǎng)絡(luò)結(jié)構(gòu)和損失函數(shù),以端到端的特征提取、融合以及圖像重建。具體來說,Tang等人(2021)提出了由結(jié)構(gòu)引導(dǎo)的功能特征提取分支、功能引導(dǎo)的結(jié)構(gòu)特征提取分支以及細(xì)節(jié)保留模塊組成的細(xì)節(jié)保留交叉網(wǎng)絡(luò)(detailpreservingcrossnetwork,DPCN),實(shí)現(xiàn)端到端的GFP和PC圖像融合。另外,Xu和Ma(2021)提出的無監(jiān)督的端fusionnetwork,EMFusion)能夠通過施加表層約束和深層約束,實(shí)現(xiàn)信息增強(qiáng)以及互補(bǔ)信息聚合。基于GAN的方法通過對抗學(xué)習(xí)將醫(yī)學(xué)圖像中重要信息的潛在分布進(jìn)行建模,如功能圖像中的強(qiáng)度分布和結(jié)構(gòu)圖像中的空間紋理細(xì)節(jié)等。GFPPC-(Tang等,2019)首次將生成對抗網(wǎng)絡(luò)引入到醫(yī)學(xué)圖像融合任務(wù)中,并設(shè)計(jì)了基于融合圖像與PC圖像之間的對抗學(xué)習(xí)來強(qiáng)化生成網(wǎng)絡(luò)對結(jié)構(gòu)信息保存的能力。此外,Zhao等人(2021a)將密集連接和編—解碼結(jié)構(gòu)注入到基于GAN的醫(yī)學(xué)圖像融合框架中,并設(shè)計(jì)了細(xì)節(jié)損失和結(jié)構(gòu)相似度損失來強(qiáng)化生成網(wǎng)絡(luò)對功能信息和邊緣細(xì)節(jié)的提取能力,然而單個(gè)判別器無法在對抗過程中有效維持結(jié)構(gòu)信息與功能信息的平衡。Ma等人(2020c)提出一個(gè)多判別器的衡的信息融合。具體來說,DDcGAN通過建立單個(gè)生成器與多個(gè)判別器的對抗博弈,促使生成網(wǎng)絡(luò)同時(shí)捕獲源圖像中的功能信息和紋理細(xì)節(jié)。在此基礎(chǔ)上,Huang等人(2020a)進(jìn)一步設(shè)計(jì)了一個(gè)多生成器MGMDcGAN),在更加平衡地融合互補(bǔ)信息的同時(shí),實(shí)現(xiàn)跨分辨率醫(yī)學(xué)圖像融合。盡管引入多個(gè)生成器和判別器能夠提升融合網(wǎng)絡(luò)的性能和功能,但有可能導(dǎo)致訓(xùn)練不穩(wěn)定問題以及模式坍塌。像融合數(shù)字成像設(shè)備首先利用光學(xué)鏡頭捕獲反射光,錄場景信息,但是由于動態(tài)范圍有限,CCD和CMOS等元件無法承受過大的曝光差異。因此,在曝光差異過大時(shí),單幅圖像無法準(zhǔn)確呈現(xiàn)場景中的所有細(xì)節(jié)信息。此外,受光學(xué)鏡頭景深限制的影響,數(shù)碼相機(jī)很難在一幅圖像內(nèi)保證場景中所有目標(biāo)都在景深范圍內(nèi)。然而只有在景深范圍內(nèi)的物體才能在圖像中清晰地呈現(xiàn),景深外的物體將變得模糊不清。數(shù)字?jǐn)z影圖像融合旨在將不同光學(xué)設(shè)置下拍攝的多幅圖像組合在一起,并生成具有高動態(tài)范圍的全聚焦圖像,這是解決上述難題的不二之選。通常成像場景中存在較大的光照變化,此時(shí)由于傳感器捕獲的動態(tài)范圍有限,單一光學(xué)設(shè)置下拍攝的數(shù)字圖像會因過度曝光或曝光不足而不可避免地丟失場景信息。多曝光圖像融合能夠?qū)⒉煌毓獬潭葓D像中的有效信息整合起來并產(chǎn)生曝光合適、CNN和基于GAN的多曝光圖像融合框架,回顧基11 第28卷/第1期/2023年1月唐霖峰,張浩,徐涵,馬佳義/基于深度學(xué)習(xí)的圖像融合方法綜述于深度學(xué)習(xí)的多曝光圖像融合的發(fā)展?;贑NN的多曝光圖像融合算法在損失函數(shù)的指導(dǎo)下,利用卷積神經(jīng)網(wǎng)絡(luò)直接學(xué)習(xí)多幅曝光不同的源圖像到正常曝光圖像的映射關(guān)系。根據(jù)是否使用監(jiān)督信息,這類算法可以進(jìn)一步分為有監(jiān)督方案和無監(jiān)督方案。有監(jiān)督方案通常使用手動挑選的良好曝光圖像作為監(jiān)督信息指導(dǎo)融合網(wǎng)絡(luò)的訓(xùn)練Deng等人(2021)設(shè)計(jì)的深度反饋網(wǎng)絡(luò)能夠?qū)⒍嗥毓鈭D像融合與圖像超分問題統(tǒng)一建模到一個(gè)框架中,在校正圖像曝光水平的同時(shí)提升融合圖像的分辨率。然而人工挑選正常曝光圖像是非常主觀的,會不可避免地為這類技術(shù)方案設(shè)置性能上限。為了避免人工挑選正常曝光圖像帶來的弊端,無監(jiān)督多曝光圖像融合方法受到廣泛關(guān)注。無監(jiān)督方案一般量來構(gòu)造損失函數(shù),并引導(dǎo)融合網(wǎng)絡(luò)生成高質(zhì)量的Prabhakar等,2017;Ma等,2020d;Qi出的這類方法,在MEF-SSIM損失的指導(dǎo)下,利用簡單的5層網(wǎng)絡(luò)學(xué)習(xí)多曝光輸入到單幅融合圖像的映射關(guān)系??紤]到簡單的網(wǎng)絡(luò)無法提取深層語義特征,人們將一些新穎的學(xué)習(xí)方式如深度強(qiáng)化學(xué)習(xí)2022)引入到多曝光圖像融合任務(wù)中,進(jìn)一步提升融合性能。與上述技術(shù)路線不同,Ma等人(2020d)提出上下文聚合網(wǎng)絡(luò)(MEF-Net)來學(xué)習(xí)不同源圖像的權(quán)重圖,最后對源圖像進(jìn)行加權(quán)求和生成最終的融合結(jié)果。然而僅在像素層面對源圖像進(jìn)行線性加權(quán)會不可避免地在融合結(jié)果中引入偽影,因此在精心設(shè)計(jì)的損失函數(shù)的指導(dǎo)下,直接學(xué)習(xí)輸入圖像到融合結(jié)果的映射關(guān)系仍然是無監(jiān)督方案的主流思想。然而MEF-SSIM度量指標(biāo)只能衡量融合圖像的對比度和結(jié)構(gòu)信息,忽略了融合圖像的色彩信息。所以上述方法的重心更多在于校正源圖像的曝光水平,對于色彩信息只能采用簡單方式處理。事實(shí)上,恰當(dāng)?shù)纳蕦τ谔嵘龜?shù)字圖像的視覺效果尤為重deepperceptualenhancement)將視覺真實(shí)性納入多曝光圖像融合問題的建模過程中,并設(shè)計(jì)了兩個(gè)獨(dú)立的模塊,分別負(fù)責(zé)內(nèi)容細(xì)節(jié)信息收集和融合圖像的色彩校正(Han等,2022)。值得注意的是,無監(jiān)督方案的融合性能很大程度上取決于采用的非參考指標(biāo)能否有效且全面地表征融合結(jié)果的質(zhì)量。因此,研究一種能更加全面表征融合圖像質(zhì)量的評估指標(biāo)是進(jìn)一步提升融合效果的關(guān)鍵之一。此外,如何使融合網(wǎng)絡(luò)自適應(yīng)感知正常的曝光水平也是未來的研究思路之一?;贕AN的多曝光圖像融合算法將曝光條件建模為概率分布,通過對抗學(xué)習(xí)使融合結(jié)果的曝光水平趨于正常。因此,這類技術(shù)路線的關(guān)鍵在于如CNN的方法,基于GAN的方法也分為有監(jiān)督方案和無監(jiān)督方案。其中,無監(jiān)督方案將生成器輸出的融合圖像與手動挑選的偽標(biāo)簽圖像(一般來自MEFCai,2018),標(biāo)簽圖像是基于13種多曝光融合和基于堆棧的高動態(tài)范圍算法挑選的)構(gòu)造基于曝光分布的對抗博弈,使生成網(wǎng)絡(luò)產(chǎn)生與偽標(biāo)中,MEF-GAN(Xu等,2020b)引入了自注意力模塊和局部細(xì)節(jié)模塊來強(qiáng)化生成器對細(xì)節(jié)信息的提取和端曝光條件下的圖像融合,并設(shè)計(jì)了一個(gè)全局與局部相結(jié)合的判別器來平衡融合圖像的像素強(qiáng)度分布并校正色彩失真。但這類技術(shù)方案利用手動挑選的偽標(biāo)簽圖像作為監(jiān)督信息,往往面臨性能受限的困境。為此,Yang等人(2021b)提出一種基于GAN的無監(jiān)督多曝光圖像融合方法,通過引入差分相關(guān)性息組合的角度構(gòu)造了融合圖像與源圖像之間的對抗博弈,認(rèn)為融合圖像與源圖像的差分結(jié)果能夠表征另一幅源圖像的分布。盡管這樣構(gòu)造的對抗模型能夠約束生成器保留盡可能多的信息,但這是基于融合圖像是兩幅源圖像之和這樣一個(gè)不準(zhǔn)確的假設(shè)而實(shí)現(xiàn)的,因此研究如何有效利用源圖像中的先驗(yàn)信息(如曝光條件、場景結(jié)構(gòu))來建立無監(jiān)督對抗模型將是實(shí)現(xiàn)高質(zhì)量多曝光圖像融合的良好選擇之一。由于光學(xué)鏡頭的局限性,單一光學(xué)設(shè)置下的數(shù)碼相機(jī)很難將不同景深下的物體都集中在一幅圖像中(Zhang,2022)。多聚焦圖像融合能夠?qū)⒉煌?2焦區(qū)域的圖像進(jìn)行組合并生成全聚焦的融合圖像?;贑NN和基于GAN的融合框架是兩種主流的多聚焦圖像融合框架。此外,由于多聚焦圖像融合可以看做是清晰像素的選擇問題,因此上述框架還可以進(jìn)一步劃分為基于決策圖的方案和基于整體重建的方案?;跊Q策圖的CNN方法本質(zhì)上是學(xué)習(xí)一個(gè)能夠確定每個(gè)像素聚焦與否的二值分類器,然后進(jìn)一步修正分類結(jié)果以生成融合決策圖,最后根據(jù)融合決策圖對源圖像中的每一個(gè)像素進(jìn)行選擇組合來生成全聚焦的融合圖像。這類方案通常使用高斯模糊核構(gòu)造訓(xùn)練二值分類器的數(shù)據(jù)集并利用一致性驗(yàn)證Yang高斯濾波器、保邊濾波器(Ma等,2021a)和條件隨機(jī)場(Xiao等,2021a,b)等技術(shù)作為后處理來得到最終的融合決策圖。其中,Xiao等人(2021a)將基于離散切比雪夫矩的深度神經(jīng)網(wǎng)絡(luò)引入到這類技術(shù)方案中,實(shí)現(xiàn)實(shí)時(shí)的多聚焦圖像融合。但是上述方案通常需要使用手工設(shè)計(jì)的后處理操作來進(jìn)一步修正神經(jīng)網(wǎng)絡(luò)輸出的聚焦圖,而無法實(shí)現(xiàn)端到端的圖處理過程,Amin-Naji等人(2019)提出一種基于集成學(xué)習(xí)的方法,通過組合不同模型的決策圖直接得到最終決策圖。類似地,深度信息納入到聚焦圖的估計(jì)過程中,并提出一個(gè)直接從源圖像估計(jì)決策圖的深度蒸餾模型。除了利用高斯核構(gòu)造訓(xùn)練數(shù)據(jù)外,Li等人(2020c)和Ma等人(2021b)提出利用二值掩膜來構(gòu)造訓(xùn)練數(shù)據(jù),并引入梯度損失來引導(dǎo)融合網(wǎng)絡(luò)生成清晰的全聚焦圖像。然而基于高斯模糊核或二值掩膜構(gòu)造的訓(xùn)練數(shù)據(jù)集均無法模擬多聚集圖像真實(shí)的成像方式,特別是這兩種方法都沒有考慮現(xiàn)實(shí)世界中多聚焦圖像存在的散焦擴(kuò)散效應(yīng)。Ma等人(2020a)提出一種α-啞光邊界散焦模型,用于精確模擬散焦擴(kuò)散效應(yīng)并生成更加逼真的訓(xùn)練數(shù)據(jù)。Xu等人(2020c)設(shè)計(jì)了一個(gè)多聚焦結(jié)構(gòu)相似度(MFF-SSIM)指標(biāo)來衡量融合結(jié)果的質(zhì)量,并使用隨機(jī)梯度算法在融合過程中最大化MFF-SSIM。與基于決策圖的方法不同,基于整體重構(gòu)的方法利用一些特殊的度量指標(biāo)(例如MFF-SSIM)作為損失函數(shù)來引導(dǎo)融合網(wǎng)絡(luò)以端到端、無監(jiān)督學(xué)習(xí)的方式直接實(shí)現(xiàn)多聚焦圖像融合(Yan等,2020)。但這類技術(shù)方案目前還未將散焦擴(kuò)散效應(yīng)納入到建模過程中,因此結(jié)合多聚焦圖像的成像原理,通過整體重構(gòu)的技術(shù)路線,在實(shí)現(xiàn)有用信息保留的同時(shí)消除散焦擴(kuò)散效應(yīng),或許是未來基于CNN的多聚焦圖像融合框架的研究方向之一?;跊Q策圖的GAN方法通常利用生成器學(xué)習(xí)源圖像到?jīng)Q策圖的映射關(guān)系并生成融合結(jié)果,同時(shí)通過對抗學(xué)習(xí)迫使融合結(jié)果在分布上接近參考的全聚焦圖像。具體來說,FuseGAN(Guo等,2019)將人工標(biāo)注的聚焦掩膜與源圖像堆疊在一起作為正樣本,而生成器輸出的決策圖與源圖像堆疊在一起作為負(fù)樣本來構(gòu)造對抗博弈關(guān)系,指導(dǎo)生成網(wǎng)絡(luò)從兩MFIF-GAN(Wang等,2021b)引入前景區(qū)域的聚焦圖應(yīng)大于對應(yīng)的目標(biāo)這一先驗(yàn)來改善散焦擴(kuò)散效應(yīng)?;贕AN的整體重構(gòu)方法則利用生成器直接輸出全聚焦的融合圖像,然后再利用參考圖像和融部分基于GAN的方法無法有效解決多聚焦圖像融合任務(wù)中的散焦擴(kuò)散效應(yīng),而散焦擴(kuò)散效應(yīng)會嚴(yán)重影響融合圖像的視覺效果。因此如何從分布的角度充分建模散焦擴(kuò)散效應(yīng),在生成更加逼真且細(xì)節(jié)清晰的融合圖像的同時(shí),進(jìn)一步提升融合圖像的視覺質(zhì)量是一個(gè)值得進(jìn)一步探索的研究方向?;谏疃葘W(xué)習(xí)的數(shù)字?jǐn)z影圖像融合算法歸納如表2所示,其中MEF表示多曝光圖像融合場景,MFF表示多聚焦圖像融合場景。在遙感成像中,光譜傳感器的光譜/濾波機(jī)制需要較大的瞬時(shí)視場(IFOV)來滿足信噪比的要求,這意味著在保證成像光譜分辨率的同時(shí)必然降低空間分辨率。然而在高精度遙感應(yīng)用中,空間分辨率和光譜分辨率同等重要,前者描述地物的物理形態(tài),后者反映地面的物質(zhì)組成。因此空間和光譜分辨率不可兼得的特性極大制約了高層遙感任務(wù)的精度提升。在此背景下,多光譜與全色圖像融合技術(shù)應(yīng)運(yùn)而生,通過將全色圖像中的空間信息及多光譜圖像中的光譜信息相融合,生成空間和光譜分辨率并存的高質(zhì)量遙感圖像?;诓捎玫谋O(jiān)督范式,深度多光譜與全色圖像融合方法分為有監(jiān)督的方案和無監(jiān)督的方案兩類。兩類方案采取的網(wǎng)絡(luò)架構(gòu)主要有CNN和GAN兩種。13 第28卷/第1期/2023年1月唐霖峰,張浩,徐涵,馬佳義/基于深度學(xué)習(xí)的圖像融合方法綜述表2數(shù)字?jǐn)z影圖像融合研究歸納方法場景基礎(chǔ)框架監(jiān)督范式發(fā)表期刊或會議MEFCNN無監(jiān)督ICCVCNNLiu17c)MFFCNN有監(jiān)督CNN(Li和Zhang,2018)MEFCNN無監(jiān)督ECNN(Amin-Naji等,2019)MFFCNN有監(jiān)督MLFCNN(Yang等,2019)MFFCNN有監(jiān)督TCIFuseGAN(Guo等,2019)MFFGAN有監(jiān)督TMMMEF-Net(Ma等,2020e)MEFCNN無監(jiān)督ICENPan)MEFCNN無監(jiān)督NCMEF-GAN(Xu等,2020b)MEFGAN無監(jiān)督DRPLLi020c)MFFCNN有監(jiān)督MMF-Net(Ma等,2020a)MFFCNN有監(jiān)督MFF-SSIM(Xu等,2020c)MFFCNN有監(jiān)督TCIMFNet(Ha等,2017)MFFCNN無監(jiān)督ACGAN(Huang等,2020b)MFFGAN有監(jiān)督NCAAMEFCNN無監(jiān)督UMEF(Qi等,2021)MEFCNN無監(jiān)督PA-GAN(Yin等,2022)MEFGAN無監(jiān)督TMMAGAL(Liu等,2022c)MEFGAN無監(jiān)督TCSVTGANFuse(Yang等,2021b)MEFGAN無監(jiān)督NCAAMFFCNN有監(jiān)督DTMNetXiao2021a)MFFCNN有監(jiān)督ICCVSMFuse(Ma等,2021b)MFFCNNTCID2FMIF(Zhao等,2021b)MFFCNN無監(jiān)督TMMuseMaaMFFCNN無監(jiān)督NCAAMFF-GAN(Zhang等,2021a)MFFGAN無監(jiān)督MFIF-GAN(Wang等,2021b)MFFGAN有監(jiān)督SPICDPE-MEF(Han等,2022)MEFCNN無監(jiān)督TransMEF(Qu等,2022)MEFAAAI有監(jiān)督的多光譜與全色圖像融合方法在銳化結(jié)果與參考圖像間構(gòu)造最小距離損失,引導(dǎo)神經(jīng)網(wǎng)絡(luò)的輸出不斷趨近于參考圖像對應(yīng)的理想分布。PNN使用深度學(xué)習(xí)解決多光譜與全色圖像融合問題的開創(chuàng)之作,首次引入CNN提取和融合全色和多光譜圖像中的有效信息。然而僅在l2距離損失的約束下,PNN的結(jié)果往往存在局部空間結(jié)構(gòu)平滑的現(xiàn)象。此外,簡單的3層結(jié)構(gòu)限制了PNN的非線性擬合能力,導(dǎo)致一定程度的光譜失真。后續(xù)方法主要從網(wǎng)絡(luò)架構(gòu)和約束條件兩方面進(jìn)行改進(jìn)來提升融合性能。首先,通過改進(jìn)網(wǎng)絡(luò)架構(gòu)使融合過程中信息的PanNet(deepnetwork14殘差學(xué)習(xí)將網(wǎng)絡(luò)的訓(xùn)練轉(zhuǎn)換到高通域進(jìn)行,使網(wǎng)絡(luò)專注于高頻結(jié)構(gòu)信息的學(xué)習(xí),極大提升了融合結(jié)果同時(shí),PanNet引入ResNet加深網(wǎng)絡(luò)深度,強(qiáng)化了非線性擬合能力,在一定程度上緩解了光譜失真。Liu等人(2021a)使用GAN架構(gòu)提升融合性能,提出一個(gè)多光譜與全色圖像融合框架PSGAN將參考圖像的概率分布定義為目標(biāo)分布,并使用連續(xù)的對抗學(xué)習(xí)迫使融合結(jié)果在分布上逼近參考圖像,保證了信息保留質(zhì)量。與此不同,SRPPNN(su-漸進(jìn)學(xué)習(xí)兩種特定的結(jié)構(gòu)設(shè)計(jì),使網(wǎng)絡(luò)能夠不斷捕獲不同尺度上的空間細(xì)節(jié),并連續(xù)注入到上采樣的多光譜圖像中。類似地,基于網(wǎng)絡(luò)架構(gòu)改進(jìn)的有監(jiān)設(shè)計(jì)網(wǎng)絡(luò)架構(gòu)時(shí)未考慮輸入數(shù)據(jù)與融合結(jié)果間的內(nèi)在關(guān)系,更多的是從圖像超分辨率這個(gè)角度進(jìn)行的。ning)(Xu等,2021d)從全色圖像與多光譜圖像的生成模型出發(fā),探討空間和光譜退化過程,并將其作為先驗(yàn)來指導(dǎo)神經(jīng)網(wǎng)絡(luò)的優(yōu)化,極大提升了融合性能。與上述方法不同,另外一些多光譜與全色圖像融合方法通過額外設(shè)計(jì)一些更合理的約束條件來改善融合結(jié)果中空間和光譜信息的保留質(zhì)量。SDPNet(Xu等,2021a)除了在參考圖像與融合結(jié)果間建立常用的表觀一致性損失外,還通過訓(xùn)練兩個(gè)多光譜與全色模態(tài)互相轉(zhuǎn)換網(wǎng)絡(luò)以及一個(gè)自編碼網(wǎng)絡(luò)來定義模態(tài)相關(guān)的獨(dú)特特征,然后在定義的獨(dú)特特征上建立一致性損失,進(jìn)一步保證了融合性能的提升。Zhang(2022)認(rèn)為只約束融合結(jié)果與參考圖像的一致性無法有效利用全色圖像中的空間信息,且會因?yàn)榭臻g結(jié)構(gòu)缺乏顯式約束引發(fā)光譜與空間信息的不平合光譜退化過程,在梯度域中建立了更加準(zhǔn)確的多光譜與全色圖像的非線性回歸關(guān)系,并將此非線性回歸關(guān)系作為一種先驗(yàn)來約束空間結(jié)構(gòu)的保留,從而保障光譜與空間信息的平衡。然而有監(jiān)督的多光譜與全色圖像融合方法本質(zhì)上是學(xué)習(xí)輸入圖像到參考圖像的非線性映射,實(shí)際性能很大程度上依賴于參考圖像構(gòu)建的合理性。在有監(jiān)督方法中,參考圖像的構(gòu)建遵循Wald協(xié)議,該協(xié)議將全分辨率多光譜與全色圖像進(jìn)行空間下采樣,得到降分辨率數(shù)據(jù)并作為網(wǎng)絡(luò)的輸入,而將原始的全分辨率多光譜圖像作為參考圖像監(jiān)督網(wǎng)絡(luò)的優(yōu)化。這種策略面,采取的空間退化模式可能與真實(shí)的遙感數(shù)據(jù)退化模式不一致,使網(wǎng)絡(luò)學(xué)到的映射關(guān)系無法推廣到真實(shí)遙感數(shù)據(jù)上;另一方面,有監(jiān)督方法遵循的尺度不變性假設(shè)可能并不成立,使得在降分辨率數(shù)據(jù)上訓(xùn)練的模型無法有效地推廣到全分辨率數(shù)據(jù)上。為了擺脫網(wǎng)絡(luò)對參考圖像的依賴,進(jìn)而解決上述難題,無監(jiān)督多光譜與全色圖像融合方法受到了廣泛關(guān)注。具體來說,無監(jiān)督方案通過建立融合結(jié)果與輸入多光譜和全色圖像之間的聯(lián)系來分別約束光譜分布與空間結(jié)構(gòu)的保留,生成光譜和空間分辨率兼具的理想圖像。從技術(shù)路線來看,無監(jiān)督方案的優(yōu)勢包括兩方面。首先,無監(jiān)督方法不再需要合成配對數(shù)據(jù),使網(wǎng)絡(luò)優(yōu)化和學(xué)習(xí)更加便捷;其次,網(wǎng)絡(luò)訓(xùn)練直接在衛(wèi)星真實(shí)捕獲的全分辨率數(shù)據(jù)上進(jìn)行,在保證數(shù)據(jù)可信度的同時(shí),能夠充分利用有監(jiān)督方法中忽視的全分辨率全色圖像包含的信息。無監(jiān)督方法的研究主要在于如何完善約束光譜保留的空間退化模型和約束空間結(jié)構(gòu)保留的光譜退化模型。Pan-GAN(Ma等,2020d)是首個(gè)探索無監(jiān)督多光譜與全色圖像融合的方法,引入了兩個(gè)判別器在融合結(jié)果與兩幅源圖像間建立對抗,分別判定光譜與空間信息是否保真。在Pan-GAN中,光譜退化模型定義為平均池化操作,空間退化模型定義為插值采樣譜退化模型定義在高通域并使用最大池化來實(shí)現(xiàn)通道合并,空間退化模型定義在低通域并使用插值采樣實(shí)現(xiàn)空間分辨率降低。然而這兩種方法都采樣相對粗糙的方式模擬光譜退化模型和空間退化模型,在一定程度上限制了融合質(zhì)量的提升。Luo等人(2020)將光譜退化模型建模為多譜段全局線性加15 第28卷/第1期/2023年1月唐霖峰,張浩,徐涵,馬佳義/基于深度學(xué)習(xí)的圖像融合方法綜述權(quán),并使用最小二乘法求解加權(quán)系數(shù)。對于空間退化模型,采用與MTF相關(guān)的高斯模糊以及插值采樣操作來模擬該過程,取得了一定的性能提升。需要強(qiáng)調(diào)的是,光譜退化模型更傾向于局部非線性而不是全局線性,使用最小二乘求解系數(shù)所依賴的尺度不變性假設(shè)也可能并不成立。為了實(shí)現(xiàn)更準(zhǔn)確地估2020)采用卷積神經(jīng)網(wǎng)絡(luò)和全連接網(wǎng)絡(luò)分別估計(jì)空間模糊核以及光譜模糊核,然后結(jié)合插值采樣操作在退化一致性的約束下估計(jì)空間和光譜退化模型。值得注意的是,這種無監(jiān)督退化模型估計(jì)的解空間是非常大的,僅依賴退化一致性非常容易陷入平凡解或局部最優(yōu)解。類似地,無監(jiān)督多光譜與全色圖r方法,對于無監(jiān)督多光譜與全色圖像融合方法的研究還相對較少,如何估計(jì)更準(zhǔn)確的觀測模型是未來進(jìn)一步提升融合性能的關(guān)鍵?;谏疃葘W(xué)習(xí)的遙感影像融合算法歸納如表3合場景。表3遙感影像融合研究歸納方法場景基礎(chǔ)框架監(jiān)督范式發(fā)表期刊或會議PNN(Masi等,2016)CNN有監(jiān)督RSCNN有監(jiān)督ICCVBKL(Guo等,2020)CNN無監(jiān)督IGARSSPan-GAN(Ma等,2020d)GAN無監(jiān)督CNN有監(jiān)督TFNetUCNN(Luo等,2020)CNN無監(jiān)督JSTARSCNN無監(jiān)督ACCESSGPPNN(Xu等,2021d)CNN有監(jiān)督CVPRGTP-PNet(Zhang,2022)CNN有監(jiān)督ISPRSHMCNN(Wang等,2021a)CNN有監(jiān)督CNN無監(jiān)督SDPNetXu等,2021a)CNN有監(jiān)督TGRSCNN有監(jiān)督CVPRSRPPNN(Cai和Huang,2021)CNN有監(jiān)督TGRSPSGAN(Liu等,2021a)GAN有監(jiān)督TGRSMDCNN(Dong等,2021)CNN有監(jiān)督JRSGAN有監(jiān)督ESADPFN(Wang等,2022a)CNN有監(jiān)督TGRSMSGAN(Wang等,2022b)GAN無監(jiān)督ICMMUCGAN(Zhou等,2022)GAN無監(jiān)督TGRS任務(wù)特定的圖像融合算法均通過挖掘不同融合問題中的先驗(yàn)知識來提升融合性能,但忽略了不同融合任務(wù)之間的內(nèi)在聯(lián)系。因此,人們致力于開發(fā)等,2020d)是首個(gè)基于深度學(xué)習(xí)的通用圖像融合方法,該方法參考DeepFuse(Prabhakar等,2017)設(shè)計(jì)網(wǎng)絡(luò)結(jié)構(gòu),并在大型的多聚焦圖像數(shù)據(jù)集上通過端到端的方式訓(xùn)練網(wǎng)絡(luò)。特別地,IFCNN通過改變?nèi)?6合層的融合策略,將不同圖像融合任務(wù)統(tǒng)一到一個(gè)題定義為梯度和強(qiáng)度的比例維持,并設(shè)計(jì)一個(gè)統(tǒng)一的損失函數(shù)形式,根據(jù)不同任務(wù)的先驗(yàn)知識,手動調(diào)整各項(xiàng)損失函數(shù)的加權(quán)系數(shù),能夠在一個(gè)統(tǒng)一框架下解決不同的圖像融合問題。為了避免手動調(diào)整超參數(shù),Zhang和Ma(2021b)進(jìn)一步提出了擠壓分解自適應(yīng)決策塊來提升融合性能。類似地,Jung等人(2020)將多種圖像融合問題統(tǒng)一為對比度保持問題,并引入結(jié)構(gòu)張量來表征圖像對比度以及構(gòu)造損定義為獨(dú)特特征與公共特征的集合,并基于多模卷積稀疏編碼模型提出一種用于解決通用多模圖像恢復(fù)和多模圖像融合難題的深度卷積神經(jīng)網(wǎng)絡(luò)(Cu-學(xué)習(xí)和解糾纏表示學(xué)習(xí)將源圖像分解為私有特征和公有特征,并提出一種空間自適應(yīng)策略融合來自不同源圖像的私有特征,在統(tǒng)一的基于自編碼器的框架下實(shí)現(xiàn)多種圖像融合任務(wù)。為了學(xué)習(xí)到特定任務(wù)的特征,Li等人(2021e)提出使用多個(gè)面向任務(wù)的編碼器和一個(gè)通用的解碼器來實(shí)現(xiàn)多任務(wù)圖像融合,并設(shè)計(jì)一個(gè)自適應(yīng)損失函數(shù)來指導(dǎo)網(wǎng)絡(luò)訓(xùn)練。值得一提的是,考慮到不同的融合任務(wù)能夠相互促進(jìn),Xu等人(2020a,2022a)結(jié)合可學(xué)習(xí)信息測量和彈性權(quán)重固化,開發(fā)了一種無監(jiān)督圖像融合模型用于解決多場景圖像融合問題。其中,彈性權(quán)重固化用于克服多任務(wù)持續(xù)學(xué)習(xí)中的遺忘難題。Ma等人(2022)提出一種融合框架(SwinFusion),通過充分挖掘同一幅源圖像的域內(nèi)上下文信息,以及多源圖像的域間全局交互以充分整合互補(bǔ)信息,在多模圖像融合以及數(shù)字?jǐn)z影圖像融合上都取得了較好的性能表現(xiàn)。綜合考慮各類圖像融合任務(wù)的共性并設(shè)計(jì)統(tǒng)一的融合框架來同時(shí)解決多種融合問題能夠增加融合算法的實(shí)用性。因此,設(shè)計(jì)通用的圖像融合框架仍然是未來的研究熱點(diǎn)之一。基于深度學(xué)習(xí)的通用圖像融合算法如表4所示。表4通用圖像融合研究歸納方法場景基礎(chǔ)框架監(jiān)督范式發(fā)表期刊或會議IFCNN(Zhang等,2020d)CNN有監(jiān)督DNXuaCNN無監(jiān)督AAAIPMGI(Zhang等,2020b)CNN無監(jiān)督AAAICNN有監(jiān)督TPAMISDNet(Zhang和Ma,2021b)CNN無監(jiān)督IJCVCNN無監(jiān)督AETMMCNN無監(jiān)督ICMEaCNN無監(jiān)督TPAMI無監(jiān)督JAS注:場景中Unified表示通用圖像融合場景。2數(shù)據(jù)集與評估指標(biāo)各類圖像融合任務(wù)中常用的數(shù)據(jù)集主要包括紅外和可見光圖像融合數(shù)據(jù)集、醫(yī)學(xué)圖像融合數(shù)據(jù)集、多曝光圖像融合數(shù)據(jù)集、多聚焦圖像融合數(shù)據(jù)集和多光譜與全色圖像融合數(shù)據(jù)集,如圖4所示。17 第28卷/第1期/2023年1月唐霖峰,張浩,徐涵,馬佳義/基于深度學(xué)習(xí)的圖像融合方法綜述圖4圖像融合常用數(shù)據(jù)集匯總TNO_Image_Fusion_Dataset/1008029)是紅外和可見圖像融合常用數(shù)據(jù)集之一,包含60對軍事相關(guān)場景提供,包含12對不同天氣條件拍攝的紅外和可見光視頻。TNO數(shù)據(jù)集和INO數(shù)據(jù)集只包含少量圖像對,無法用來訓(xùn)練性能優(yōu)異的融合網(wǎng)絡(luò)。為此,Xuna-xu/RoadScene),該數(shù)據(jù)集由221對已配準(zhǔn)的紅外和可見光圖像組成,包含豐富的道路、車輛以及行人場景。此外,Tang等人(2022b)基于MFNet數(shù)據(jù)集(Ha等,2017)發(fā)布一個(gè)新的多光譜數(shù)據(jù)集MSRSLinfeng-Tang/MSRS),用于紅外和可見光圖像融合集包含361對圖像,該數(shù)據(jù)集為每一對圖像提供了語義分割標(biāo)簽,并提供了80對有目標(biāo)檢測標(biāo)簽的圖像。該數(shù)據(jù)集能夠促進(jìn)高層視覺任務(wù)驅(qū)動的圖像融合和基于高層視覺任務(wù)的圖像融合評估的發(fā)展。借助于??低晹z像機(jī),Jia等人(2021)在夜間場景收集了visi據(jù)集為每一個(gè)場景提供了相應(yīng)的行人檢測的標(biāo)簽,能夠用于圖像融合、行人檢測和圖像轉(zhuǎn)換等多項(xiàng)任務(wù)。此外,Liu等人(2022a)基于構(gòu)建的同步紅外和可見光傳感器成像系統(tǒng),發(fā)布了一個(gè)多場景多模態(tài)JinyuanLiu-CV/TarDAL)。M3FD數(shù)據(jù)集包含4177對已配準(zhǔn)的紅外和可見光圖像并標(biāo)注了23635個(gè)目標(biāo)檢測對象,場景覆蓋白天、陰天、夜間以及一些具有挑戰(zhàn)性的情形。值得強(qiáng)調(diào)的是,LLVIP數(shù)據(jù)集和M3FD數(shù)據(jù)集的發(fā)布能夠促使研究者開展極端條件下的紅外和可見光圖像融合的研究。AANLIB/home.html)是一個(gè)用于機(jī)器學(xué)習(xí)的權(quán)威醫(yī)療數(shù)據(jù)集,涵蓋醫(yī)學(xué)影像、電子健康記錄、UCI數(shù)據(jù)和生物醫(yī)學(xué)文獻(xiàn),提供了大量CT-MRI,PET-MRI、SPECT-MRI、CT-SPECT圖像對,用于醫(yī)學(xué)圖像融合模型的訓(xùn)練和評估以及智慧醫(yī)療診斷。Cai等人(2018)利用7種相機(jī)在室內(nèi)和室外場光圖像融合算法或基于堆棧的HDR(highdynamicrange)算法來生成對應(yīng)的高質(zhì)量參考圖像。Zhang(2021)從互聯(lián)網(wǎng)以及現(xiàn)有的多曝光圖像融合數(shù)據(jù)庫中集了100對具有不同曝光水平的圖像對,并發(fā)布了MEFB用于評估多聚焦圖像融合算法性能的數(shù)據(jù)集(Nejati色多聚焦圖像以及4個(gè)具有3種焦距的多聚焦圖像序oZhang1018/MFI-WHU)是Zhang等人(2021a)基于18MEF數(shù)據(jù)集以及MS-COCO數(shù)據(jù)集建立的多聚焦圖像融合數(shù)據(jù)集,包含120對由高斯模糊和手動標(biāo)注的決策圖合成的多聚焦圖像。值得注意的是,Lytro和MFI-WHU數(shù)據(jù)集都沒能明顯突出散焦擴(kuò)散效應(yīng)對多聚焦圖像融合任務(wù)的影響。MFFW(multi-focusa69b3c323908e62b45)數(shù)據(jù)集是Xu等人(2020d)提出的一個(gè)新基準(zhǔn)數(shù)據(jù)集,用于測試多聚焦圖像融合多光譜與全色圖像融合的數(shù)據(jù)通常由商業(yè)衛(wèi)星我國自主研發(fā)的民用光學(xué)遙感衛(wèi)星。GaoFen1號衛(wèi)星拍攝的全色(panchromatic,PAN)圖像和多光譜GaoFen2號衛(wèi)星拍攝的全色圖像和多光譜圖像分辨率分別為1m和4m。QuickBird衛(wèi)星和World-rd0.72m,多光譜圖像的分辨率為2.442.88m。WorldView-2衛(wèi)星提供0.5m分辨率的全色圖像和ew31cm分辨率的全色圖像和1.24m分辨率的多光譜圖像。GeoEye系列衛(wèi)星由美國GeoEye衛(wèi)星公司發(fā)射,GeoEye-1衛(wèi)星提供0.41m分辨率的全色圖和1.65m彩色分辨率的多光譜圖像。各種定量評估圖像融合算法的性能指標(biāo)包括通用的評估指標(biāo)和為多光譜與全色圖像融合特別設(shè)計(jì)的評估指標(biāo)。通用的圖像融合評估指標(biāo)能夠用于評估多模圖像融合和數(shù)字?jǐn)z影圖像融合,其中部分指標(biāo)也能夠用于評估多光譜與全色圖像融合。根據(jù)其定義的不同,通用的指標(biāo)可以分為基于信息熵的指標(biāo)、基于圖像特征的指標(biāo)、基于相關(guān)性的指標(biāo)、基于圖像結(jié)構(gòu)的指標(biāo)以及基于人類感知的指標(biāo)等5類。圖5匯總了主流的通用圖像融合評估指標(biāo)。在通用圖像融合評估指標(biāo)中,A和B分別表示源圖像A和源圖像B,X泛指所有的源圖像,F代表融合圖像,M和N分別表示圖像的寬和高。圖5通用圖像融合評估指標(biāo)匯總1)基于信息熵的指標(biāo)。(1)信息熵(entropy,E

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論