圖像到圖像翻譯的無監(jiān)督雙重學習DualGAN_第1頁
圖像到圖像翻譯的無監(jiān)督雙重學習DualGAN_第2頁
圖像到圖像翻譯的無監(jiān)督雙重學習DualGAN_第3頁
圖像到圖像翻譯的無監(jiān)督雙重學習DualGAN_第4頁
圖像到圖像翻譯的無監(jiān)督雙重學習DualGAN_第5頁
已閱讀5頁,還剩6頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領

文檔簡介

1、DualGAN:圖像到圖像翻譯的無監(jiān)督雙重學習摘要:近年來,用于跨域圖像翻譯的條件生成對抗網(wǎng)絡(GANs)取得了很大的進展。根據(jù)任務復雜度,需要數(shù)千到數(shù)百萬個標記的圖像來訓練條件GAN。然而,人類的標簽是昂貴的,甚至不切實際的,大量的數(shù)據(jù)可能并不總是可用的。受自然語言翻譯的雙重學習的啟發(fā),我們提出了一種新的雙重GAN機制,使圖像翻譯人員能夠從兩個領域的兩組未標記圖像中進行訓練。在我們的架構(gòu)中,原始GAN學習將圖像從域U轉(zhuǎn)換到域V,而雙GAN學習反轉(zhuǎn)任務。由原始任務和雙重任務構(gòu)成的閉環(huán)允許對來自任一域的圖像進行翻譯和重建。因此,可以使用一個能解釋圖像重建誤差的損失函數(shù)來訓練翻譯人員。在無標記數(shù)據(jù)

2、的多個圖像翻譯任務上的實驗表明,與單個GAN相比,DualGAN具有相當大的性能增益。在某些任務中,DualGAN甚至可以獲得與基于全標記數(shù)據(jù)訓練的條件GAN相當或稍好的結(jié)果。一、介紹許多圖像處理和計算機視覺任務,例如,圖像分割、樣式化和抽象,可以構(gòu)成圖像到圖像的轉(zhuǎn)換問題4,它將對象或場景的一種視覺表示轉(zhuǎn)換為另一種視覺表示。傳統(tǒng)上,這些任務由于其內(nèi)在差異而被單獨處理7、8、21、12、4、18。直到過去兩年,通用和端到端的深度學習框架,特別是那些利用完全卷積網(wǎng)絡(FCNs)11和條件生成對抗網(wǎng)絡(cGANs)4的框架才得以開發(fā),以便能夠統(tǒng)一處理這些任務。到目前為止,這些通用的方法都是通過大量的

3、標記和匹配圖像對來監(jiān)督和訓練的。然而,在實踐中,獲取這樣的訓練數(shù)據(jù)可能很耗時(例如,使用像素化或拼湊標記),甚至是不現(xiàn)實的。例如,雖然有大量的照片或草圖可供使用,但描繪同一姿勢下同一個人的照片草圖圖像對卻很少。在其他圖像轉(zhuǎn)換設置中,例如,將日光場景轉(zhuǎn)換為夜間場景,即使可以使用固定相機獲得標記和匹配的圖像對,場景中的移動對象通常會導致不同程度的內(nèi)容差異。本文旨在開發(fā)一個通用的圖像到圖像轉(zhuǎn)換的無監(jiān)督學習框架,該框架僅依賴于未標記的圖像數(shù)據(jù),如兩組照片和草圖,來完成圖像到草圖的轉(zhuǎn)換任務。顯而易見的技術(shù)挑戰(zhàn)是如何在沒有任何數(shù)據(jù)來描述正確翻譯的情況下對譯者進行培訓。我們的方法受到自然語言處理的雙重學習的

4、啟發(fā)23。雙重學習通過最小化由于兩個翻譯人員的嵌套應用而導致的重建損失,同時訓練兩個“相反”的語言翻譯人員(例如,英語到法語和法語到英語)。這兩個翻譯器代表一個原始對偶對,嵌套的應用程序形成一個閉環(huán),允許應用強化學習。具體來說,在單語數(shù)據(jù)(英語或法語)上測量的重建損失將產(chǎn)生信息反饋,以訓練雙語翻譯模型。本文首次提出了一種圖像到圖像翻譯的雙重學習框架,它不同于夏等人的NLP雙重學習方法。23主要有兩個方面。首先,NLP方法依賴于預先訓練的(英語和法語)語言模型,以表明譯者輸出的是各自目標語言中的自然句子的自信程度??紤]到通用處理,并且意識到這種預先訓練的模型對于許多圖像翻譯任務是很難獲得的,我們

5、的工作開發(fā)了經(jīng)過訓練的GAN鑒別器3,那是與翻譯人員進行反向培訓以獲取域分配規(guī)劃設計。因此,我們稱我們的學習架構(gòu)為DualGAN。此外,我們使用FCNs作為譯者,它自然地適應了圖像的二維結(jié)構(gòu),而不是LSTM或門循環(huán)單元(GUT)等順序到順序的翻譯模型。DualGAN以兩組未標記的圖像作為輸入,每一組圖像具有一個圖像域的特征,同時從一個域?qū)W習到另一個域的兩個可靠的圖像翻譯器,因此可以執(zhí)行各種各樣的圖像到圖像的翻譯任務。通過與GAN(帶有圖像條件發(fā)生器和原始鑒別器)和條件GAN的比較,驗證了端GAN的有效性。比較結(jié)果表明,在某些應用中,DualGAN的性能優(yōu)于基于標記數(shù)據(jù)訓練的有監(jiān)督方法。2。相關

6、工作從古德費羅等人的開創(chuàng)性工作開始。32014年,針對各種各樣的問題提出了一系列的GAN族方法。原始GAN可以通過引入一個對抗性的鑒別器來學習生成器來捕獲真實數(shù)據(jù)的分布,該鑒別器進化為區(qū)分真實數(shù)據(jù)和偽造數(shù)據(jù)3。不久之后,各種條件GANs(cGAN)被提出用于對類標簽13、屬性14,24、文本15和圖像7、8、21、12、4、18上的圖像生成進行條件化。大多數(shù)圖像條件模型都是為特定應用開發(fā)的,例如超分辨率7、紋理合成8、從普通地圖到圖像的樣式轉(zhuǎn)換21和視頻預測12,而很少有其他模型是針對通用處理4,18。Isola等人提出的圖像到圖像轉(zhuǎn)換的通用解。需要大量標記的圖像對。Taigman等人提出的跨

7、域圖像轉(zhuǎn)換的無監(jiān)督機制。18可以在沒有成對圖像的情況下訓練圖像條件生成器,但依賴于一個復雜的預訓練函數(shù),該函數(shù)將圖像從任一域映射到中間表示,這需要其他格式的標記數(shù)據(jù)。雙重學習最早是由夏等人提出的。23減少英法、法英翻譯培訓中對標注數(shù)據(jù)的要求。法語-英語翻譯是英語-法語翻譯的雙重任務,他們可以并肩受訓。雙重學習的核心思想是建立一個包含兩個主體的雙重學習游戲,每個主體只能理解一種語言,并且能夠評估譯文是目標語言中的自然句子的可能性,以及重建的句子與原文的一致程度。這種機制在雙方交替使用,只允許從單語數(shù)據(jù)中訓練翻譯人員。盡管缺乏平行的雙語數(shù)據(jù),兩種類型反饋信號可以產(chǎn)生:評價譯文屬于目標語言的可能性的

8、隸屬度得分,以及衡量重建句子與原文之間差異的重建誤差。這兩種信號都是在特定應用領域知識的幫助下進行評估的,即經(jīng)過預先培訓的英語和法語語言模型。在我們的工作中,我們的目標是一個通用的解決方案,圖像到圖像的轉(zhuǎn)換,因此不利用任何領域特定的知識或預先訓練的領域表示。相反,我們使用區(qū)域自適應GAN鑒別器來評估翻譯樣本的隸屬度得分,而重建誤差則被測量為每個圖像區(qū)域內(nèi)重建圖像與原始圖像之間絕對差的平均值。在CycleGAN中,由Zhu等人同時完成的一項工作。26對于未配對的圖像到圖像的轉(zhuǎn)換提出了同樣的想法,其中DualGAN中的原始-對偶關系被稱為循環(huán)映射,它們的循環(huán)一致性損失與我們的重建損失基本相同。賽馬

9、的優(yōu)勢已經(jīng)被證明在一些配對訓練數(shù)據(jù)幾乎不存在的任務中,例如在物體變形和繪畫風格和季節(jié)轉(zhuǎn)換中。我們稱之為耦合GAN或CoGAN的Liu和Tuzel10最近的工作也在沒有成對訓練數(shù)據(jù)的情況下一起訓練兩個GAN來解決圖像翻譯問題。與DualGAN或CycleGAN不同,CoGAN中的兩個Gan沒有鏈接以強制循環(huán)一致性。相反,CoGAN從兩個域?qū)W習圖像的聯(lián)合分布。CoGAN通過在生成網(wǎng)絡和判別網(wǎng)絡中共享對應于高級語義的權(quán)重參數(shù),可以強制兩個gan以相同的方式解釋這些圖像語義。然而,如CycleGAN的比較研究26所示,CoGAN和類似方法(如2,9)中的權(quán)重分擔假設不會導致有效的通用解決方案,因為其適

10、用性取決于任務,導致非自然的圖像翻譯結(jié)果。DualGAN和CycleGAN都致力于通用的圖像到圖像轉(zhuǎn)換,而不需要聯(lián)合表示來連接這兩個圖像域。此外,DualGAN同時訓練原始GANs和對偶GANs,允許使用重建誤差項來生成信息反饋信號。三。方法給定分別從域U和域V采樣的兩組無標記和無配對圖像,dualGAN的首要任務是學習將圖像U三U映射到圖像V三V的生成器GA:UtV,而對偶任務是訓練一個逆生成器GB:VtU。為此,我們使用了兩個GAN,原始GAN和對偶GAN。原始GAN學習發(fā)生器gaa和鑒別器DA區(qū)分遺傳算法假輸出和域V的實成員的數(shù)據(jù)。類似地,雙GAN學習生成器gba和鑒別器DB??傮w架構(gòu)和

11、數(shù)據(jù)流如圖1所示。MembershipDomainU(skdiKh)HMnnructkinhrrar|rDscrlminatorrtembenihipwore圖1:DualGAN用于圖像到圖像轉(zhuǎn)換的網(wǎng)絡結(jié)構(gòu)和數(shù)據(jù)流程圖。如圖1所示,使用遺傳算法將圖像u三u轉(zhuǎn)換為域V。平移GA(u,z)在V中的適配程度由DA評估,其中z是隨機噪聲,下面顯示的z0也是。然后,使用GB將GA(u,z)轉(zhuǎn)換回域u,該域輸出GB(GA(u,z),z0)作為u的重構(gòu)版本。同樣,v三v轉(zhuǎn)換為u作為GB(v,z0),然后重構(gòu)為GA(GB(v,z0),z)。判別器DAis以v為正樣本,GA(u,z)為負樣本訓練,dbu為正樣本

12、,GB(v,zO)為負樣本訓練。生成器gaa和GB被優(yōu)化以模擬“假”輸出,從而使相應的鑒別器dad和DB盲,并將兩個重建損失kGA(GB(v,zO),z)vk和kGB(GA(u,z),zO)uk最小化。3.1條。目標與傳統(tǒng)的GAN一樣,鑒別器的目標是將生成的假樣本與真實樣本區(qū)分開來。然而,這里我們使用Wasserstein-GAN(WGAN)1倡導的損耗格式,而不是原始GAN3中使用的sigmoid交叉熵損耗。結(jié)果表明,前者在發(fā)電機收斂性和樣本質(zhì)量方面,以及在提高優(yōu)化穩(wěn)定性方面都有較好的表現(xiàn)1。數(shù)據(jù)和數(shù)據(jù)庫中使用的相應損耗函數(shù)定義為:件(弘V)=01(6(船司)-(必(1)電仏訶二刀機刃)-皿

13、3(2)其中U三u和v三v。對于目標相同的發(fā)電機GA和GBas,采用相同的損失函數(shù)。以前的作品條件圖像合成發(fā)現(xiàn)用L1代替12距離是有益的,因為前者常常導致模糊6,23。因此,我們采用l1距離來測量恢復誤差,并將其添加到GAN目標中,以強制轉(zhuǎn)換的樣本服從域分布:少何芒)=局冋-川地訃X川+(3)-DbGb(yf/)-Da(Ga(u,z),其中u三u,v三v,和Au,入變?yōu)閮蓚€常數(shù)參數(shù)。根據(jù)應用,入Uand入Vare通常設置為100.0,1000.0范圍內(nèi)的值。如果U包含自然圖像而V不包含(例如航空照片地圖),我們發(fā)現(xiàn)使用較小的AUthanAV更有效。3.2條。網(wǎng)絡配置DualGAN采用相同的Ga

14、和GB網(wǎng)絡結(jié)構(gòu)。生成器配置有相同數(shù)量的下采樣(池)和上采樣層。此外,我們在鏡像的下采樣層和上采樣層之間配置了跳過連接的生成器,如16,4所示,使其成為一個U形網(wǎng)絡。這樣的設計使得在輸入和輸出之間共享低級信息,這是有益的,因為許多圖像轉(zhuǎn)換問題隱式地假定輸入和輸出中的圖像結(jié)構(gòu)(例如,對象形狀、紋理、雜波等)之間的對齊。如果沒有跳過層,所有級別的信息都必須通過瓶頸,這通常會導致高頻信息的大量丟失。此外,類似于4,我們沒有顯式地提供噪聲向量z,z0。相反,它們只以退出的形式提供,并在培訓和測試階段應用于我們的發(fā)電機的幾層。對于鑒別器,我們采用了文8中所述的馬爾可夫帕奇根結(jié)構(gòu),該結(jié)構(gòu)假定距離特定區(qū)域以外

15、的像素之間的獨立性僅在修補程序級別而不是在完整圖像上調(diào)整圖像大小并對其建模。這樣的配置在捕獲局部高頻特征(如紋理和樣式)方面是有效的,但在建模全局分布時效果較差。它很好地滿足了我們的需求,因為恢復損失鼓勵保存全局和低頻信息,并且鑒別器被指定來捕獲本地高頻信息。這種結(jié)構(gòu)的有效性已經(jīng)在各種翻譯任務中得到了驗證23。與23類似,我們在圖像上卷積運行這個鑒別器,平均所有響應以提供最終輸出。這種方案的另一個優(yōu)點是它需要更少的參數(shù),運行速度更快,并且對輸入圖像的大小沒有限制。鑒別器工作時的塊大小固定在70 x70,圖像分辨率大多為256x256,與pix2pix4相同。Resultsofday-to-ni

16、ghttranslation.DualGANsuccessfullyemulatesthenightsceneswhilepreservingtexturesintheinputs,e.g.,seedifferencesoverthecloudregionsbetweenourresultsandthegroundtruth(GT).Incomparison,resultsofcGANandGANcontainmuchlessdetails.Photo-to-sketchtranslationforfacesResultsofDualGANaregenerallysharperthanthos

17、efromcGAN,eventhoughtheformerwastrainedusingunpaireddata,whereasthelattermakesuseofimagecorrespondence.ExperimentalresultsfortranslatingChinesepaintingstooilpaintings.ThebackgroundgridsshownintheGANresultsimplythattheoutputsofGANarenotasstableasthoseofDualGAN.3.3條。培訓程序為了優(yōu)化DualGAN網(wǎng)絡,我們遵循WGAN1中提出的訓練程序

18、;見Alg。一。我們先訓練鑒別器一步一步,然后再訓練發(fā)電機。我們采用小批量隨機梯度下降,并應用RMSProp解算器,因為基于動量的方法,如Adam有時會導致不穩(wěn)定1,RMSProp甚至在高度非平穩(wěn)問題19,1上也有很好的表現(xiàn)。我們通常將每個生成器迭代的臨界迭代次數(shù)ncriticto設置為2-4,并將批大小指定為1-4,而在實驗的有效性上沒有明顯的差異。剪裁參數(shù)c通常在0.01,0.1中設置,隨應用而變化。算法1DualGAN訓練過程要求:圖像集U、圖像集V、具有生成器參數(shù)0A和鑒別器參數(shù)wA的GANA、具有生成器參數(shù)0B的GANB、帶鑒別器參數(shù)wB、剪裁參數(shù)c、批量大小m和ncritic1:R

19、iindornlyijnitidizc龜,I.VB2:reptwit3:/11:i:iMo:sampleimagesC!TWfLtCV5:update心tnminimize;=,肚:lfi:叩血It旳tominimizc匸二惜(t/幻衛(wèi))7:也加(出扣一州廠,cf加(3卩.一聽rS;etuifur9:sampleimagesli亀c比巒cVLQ:update召?v,Brtnminimize占刀量1叫辺製理)ll:untilconvergence傳統(tǒng)的GANs訓練需要在生成器和鑒別器之間仔細地平衡,因為隨著鑒別器的改進,sigmoid交叉熵損失是局部飽和,可能導致梯度消失。與傳統(tǒng)的GANs不同,

20、Wasserstein損失幾乎在任何地方都是可微的,從而產(chǎn)生了更好的判別器。在每次迭代中,直到鑒別器被訓練為ncriticsteps,生成器才被訓練。這樣的過程使得鑒別器能夠提供更可靠的梯度信息1。圖2:晝夜翻譯結(jié)果。cGAN4是用標記數(shù)據(jù)訓練的,而DualGAN和GAN是用無監(jiān)督的方式訓練的。DualGAN成功地模擬了夜景,同時保留了輸入中的紋理,例如,我們的結(jié)果和地面真相(GT)之間的云區(qū)域差異。相比之下,cGAN和GAN的結(jié)果包含的細節(jié)要少得多。四。實驗結(jié)果與評價為了評估DualGAN在通用圖像到圖像翻譯中的能力,我們對多種任務進行了實驗,包括照片草圖轉(zhuǎn)換、標簽圖像翻譯和藝術(shù)風格化。為了

21、將DualGAN與GAN和cGAN進行比較4,使用了四個標記數(shù)據(jù)集:照片草圖22,25、DayNIGHT5、標簽正面20和從Google地圖4直接捕獲的天線圖。這些數(shù)據(jù)集由兩個域之間的對應圖像組成;它們作為基本真值(GT),也可用于監(jiān)督學習。然而,這些數(shù)據(jù)集都不能保證像素級的特征精確對齊。例如,草圖照片數(shù)據(jù)集中的草圖是由藝術(shù)家繪制的,與相應的照片不精確對齊,移動對象和云圖案的變化經(jīng)常出現(xiàn)在DayNIGHT數(shù)據(jù)集中,而LABELFACADES數(shù)據(jù)集中的標簽并不總是準確。這在一定程度上突出了獲得高質(zhì)量匹配圖像對的困難。II7iErl*円亶存和電Ql:4eMairi*9lt4*1Ui*|Inpui(

22、;TIhlMGAIVOANcGAN|圖3:標簽T外觀翻譯的結(jié)果。DualGAN忠實地保留了標簽圖像中的結(jié)構(gòu),盡管有些標簽在細節(jié)上與相應的照片不太匹配。相比之下,GAN和cGAN的結(jié)果包含許多偽影。在labelphoto失調(diào)的區(qū)域上,cGAN通常會產(chǎn)生模糊的輸出(例如,第二排的屋頂和第三排的入口)。DualGAN使我們能夠利用大量來自網(wǎng)絡的未標記圖像源。實驗中還測試了兩個未標記和未配對的數(shù)據(jù)集。材質(zhì)數(shù)據(jù)集包括由不同材質(zhì)(如石頭、金屬、塑料、織物和木材)制成的對象的圖像。這些圖像是從Flickr中手動選擇的,涵蓋了各種照明條件、構(gòu)圖、顏色、紋理和材質(zhì)子類型17。此數(shù)據(jù)集最初用于物料識別,但在此處應

23、用于物料轉(zhuǎn)移。中國油畫數(shù)據(jù)集包括兩種不同風格的藝術(shù)畫:油畫和中國畫。所有圖片都是從搜索引擎中抓取的,它們包含不同質(zhì)量、格式和大小的圖片。我們重新格式化、裁剪和調(diào)整圖像大小以進行訓練和評估。在這兩個數(shù)據(jù)集中,來自不同域的圖像之間沒有對應關系。5個。定性評價使用四個標記的數(shù)據(jù)集,我們首先在以下翻譯任務中比較DualGAN與GAN和cGAN4:白天夜晚(圖2)、標簽口立面(圖3和10)、面部照片n草圖(圖4和5)和地圖n航空照片(圖8和9)在所有這些任務中,cGAN使用標記(即配對)數(shù)據(jù)進行訓練,其中運行4中提供的模型和代碼,并為每個任務選擇最佳損失函數(shù):L1lossforfacadelabel和L

24、1+cGANlossforothertasks(參見4了解更多詳細信息)。相比之下,DualGAN和GAN是以一種無監(jiān)督的方式進行訓練的,即我們分離圖像對,然后重新組合數(shù)據(jù)。通過在等式(3)中設置入U二入V=0.0,使用我們的方法生成GAN的結(jié)果,注意該GAN與原始GAN模型3不同,因為它使用條件生成器。所有三個模型都在相同的訓練數(shù)據(jù)集上訓練,并在不與訓練數(shù)據(jù)重疊的新數(shù)據(jù)上測試。所有的訓練都是在一個GeForceGTXTitanXGPU上進行的。在測試時,所有的模型在這個GPU上運行的時間都小于1秒。與GAN相比,在幾乎所有情況下,DualGAN產(chǎn)生的結(jié)果不那么模糊,包含的偽影更少,并且更好地

25、保留目標域的輸入和捕獲特征(例如,紋理、顏色和/或樣式)中的內(nèi)容結(jié)構(gòu)。我們將這些改進歸因于重構(gòu)損失,它迫使輸入通過雙生成器從輸出中重構(gòu),并增強對目標分布進行編碼的反饋信號。在許多情況下,DualGAN在輸出清晰度和對輸入圖像的忠實度方面也優(yōu)于有監(jiān)督的cGAN;參見圖2、3、4、5和8。這是令人鼓舞的,因為cGAN中的監(jiān)控確實利用了額外的圖像和像素對應關系。另一方面,當在照片和基于語義的標簽(如地圖-空中和標簽-正面)之間進行轉(zhuǎn)換時,通常不可能僅基于目標分布推斷像素顏色和標簽之間的對應關系。因此,DualGAN可能會將像素映射到錯誤的標簽(參見圖9和圖10)或?qū)撕炗成涞藉e誤的顏色/紋理(參見圖

26、3和圖8)。圖6和圖7顯示了使用兩個未標記的數(shù)據(jù)集獲得的圖像翻譯結(jié)果,這些數(shù)據(jù)集包括機油n中文、塑料金屬、金屬石頭、皮革織物以及木材n塑料。結(jié)果表明,當目標區(qū)域內(nèi)沒有相應的圖像時,DualGAN可以產(chǎn)生具有視覺說服力的圖像。同樣,DualGAN的結(jié)果通常比GAN的結(jié)果包含更少的偽影。5.1條。定量評價為了定量評估DualGAN,我們通過AmazonMechanicalTurk(AMT)建立了兩個用戶研究?!安牧细兄睖y試評估材料傳輸結(jié)果,我們混合所有材料傳輸任務的輸出,讓土庫曼人根據(jù)他們認為圖像中的對象是由哪種材料構(gòu)成的來選擇最佳匹配。對于總共176幅輸出圖像,每幅圖像都由10名土庫曼人進行評

27、估。如果至少有三個土耳其人選擇了目標材料類型,則輸出圖像被認為是成功的。表1總結(jié)了使用不同方法得到的各種材料傳輸結(jié)果的成功速率,表明DualGAN在很大程度上優(yōu)于GAN。圖4:照片面部草圖平移。DualGAN的結(jié)果通常比cGAN的結(jié)果更清晰,盡管前者使用未配對數(shù)據(jù)進行訓練,而后者使用圖像對應。cCTDiuilGANAu上叱圖5:草圖結(jié)果面的照片平移。由GAN和cGAN產(chǎn)生的結(jié)果比DualGAN顯示出更多的偽影和模糊性。圖6:將中國畫翻譯成油畫的實驗結(jié)果(沒有GT)。GAN結(jié)果中的背景網(wǎng)格表明,GAN的輸出不如DualGAN的輸出穩(wěn)定Kfraibmil3uE;AK|-wniT:AK|-kTtci

28、lirriiliHsiDuiKiAifrx|QI|JJLiDburiANlpU-Jii.ilai-rilI內(nèi)llirnjC-AIiid!I&AN|MMn!rqi甲日胡心-兀逼旳nihGANl圖7:各種材料轉(zhuǎn)移任務的實驗結(jié)果。從上到下,塑料T金屬、金屬T石頭、皮革織物和塑料少木材。TuskDualGANGAN2/11(VI1plastic1/110/11metalsBonc2/11()/11stonemclaJ2/110/11leather-*fabric3/11彗IIfabricleather2/111/11pJaNticHinctal7/113/1JrrujLalT卩1昭lie1/110/1

29、1表1:基于AMF材料感知”測試的各種材料轉(zhuǎn)移任務的成功率。在每一組傳輸結(jié)果中有11幅圖像,DualGAN比GAN有明顯的改進Taskj%vg.realnessscoreZIGANcGAN|GANGTsketchphotoL.W7.&9.D4556daynighlZ421.890耳3.05hbelrt詆坨itkisi.sy2.591.43mipiieriiil2.512.92l.RS111表2:各項任務產(chǎn)出的平均AMF真實性”得分。結(jié)果表明,DualGAN在所有任務中都優(yōu)于GAN。它在素描、拍照、白天、夜間任務上也優(yōu)于cGAN,但在標簽、立面、地圖、空中任務上仍然落后。在后兩個任務中,訓練數(shù)據(jù)

30、中額外的圖像對應將有助于cGAN映射標簽到正確的顏色/紋理。此外,我們還對素描照片、標簽地圖立面、地圖航拍、白天夜間翻譯進行AMT“真實度評分”。為了消除潛在的偏見,對于四個評估中的每一個,我們是隨機的洗牌真實的照片和輸出從這三種方法之前帶他們?nèi)ネ炼?。每幅圖片都會展示給20個土耳其人,他們被要求根據(jù)合成照片看起來真實的程度給圖片打分。“真實性”得分從0分(完全缺失)、1分(差)、2分(可接受)、3分(好)到4分(令人信服)。然后計算不同蟑螂在不同任務上的平均得分,并顯示在表中。2。AMT研究結(jié)果表明,DualGAN在所有任務上都優(yōu)于GAN,在兩個任務上也優(yōu)于cGAN。這表明cGAN對圖像對之間的不對中和不一致的容忍度很低,但是額外的像素級對應確實有助于cGAN將標簽正確映射到顏色和紋理。最后,如表3和表4所示,我們計算了立面標簽和空中地圖任務的分割精度。比較結(jié)果表明,在沒有圖像對應信息的情況下,很難從訓練數(shù)據(jù)中推斷出正確的標記,因此DualGAN的性能優(yōu)于cGAN。6。結(jié)論我們提出了一種新的無監(jiān)督的通用圖像到圖像的雙

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論