計算機視覺領域最常見幾中損失函數(shù)_第1頁
計算機視覺領域最常見幾中損失函數(shù)_第2頁
計算機視覺領域最常見幾中損失函數(shù)_第3頁
計算機視覺領域最常見幾中損失函數(shù)_第4頁
計算機視覺領域最常見幾中損失函數(shù)_第5頁
已閱讀5頁,還剩5頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權,請進行舉報或認領

文檔簡介

1、損失函數(shù)在模型的性能中起著關鍵作用。選擇正確的損失函數(shù)可以 幫助你的模型學習如何將注意力集中在數(shù)據(jù)中的正確特征集合上,從而 獲得最優(yōu)和更快的收斂。計算機視覺是計算機科學的一個領域,主要研究從數(shù)字圖像中自動提取信/兇、0在過去的十年中,在深度學習方面的創(chuàng)新,大量數(shù)據(jù)的方便獲取以及GPU的使用已經(jīng)將計算機視覺領域推到了聚光燈下。它甚至開始在一些任務中實現(xiàn)“超人”的性能,比如人臉識別和手寫文本識別。(事實上,如今登機的自動人臉驗證已經(jīng)變得越來越普遍了。)近年來,我們在網(wǎng)絡架構、激活函數(shù)、損失函數(shù)等計算機視覺領域看到了 許多創(chuàng)新。損失函數(shù)在模型的性能中起著關鍵作用。選擇正確的損失函數(shù)可以幫助你 的模型

2、學習如何將注意力集中在數(shù)據(jù)中的正確特征集合上,從而獲得最優(yōu)和更 快的收斂。Pixel-wise 損失函數(shù)顧名思義,這種損失函數(shù)計算預測圖像和目標圖像的像素間損失。損失函 數(shù),如MSE L2損失、MA或L1損失、交叉嫡損失等,大部分都可以應用于 在目標變量的每一對像素之間進行預測。由于這些損失函數(shù)分別對每個像素向量的類預測進行評估,然后對所有像 素進行平均,因此它們斷言圖像中的每個像素都具有相同的學習能力。這在圖 像的語義分割中特別有用,因為模型需要學習像素級的密集預測。在U-Net等模型中也使用了這些損失函數(shù)的變體,在用于圖像分割時采用 加權的像素級交叉嫡損失來處理類間不平衡問題。類不平衡是像

3、素級分類任務中常見的問題。當圖像數(shù)據(jù)中的各種類不平衡 時,就會出現(xiàn)這種情況。由于像素方面的損失是所有像素損失的平均值,因此 訓練會被分布最多的類來主導。Perceptual損失函數(shù)Johnson et al (2016) , Perceptual損失函數(shù)用于比較看起來相似的兩 個不同的圖像,就像相同的照片,但移動了一個像素或相同的圖像使用了不同 的分辨率。在這種情況下,雖然圖像非常相似,pixel-wise損失函數(shù)將輸出一個大的誤差值。而Perceptual損失函數(shù)比較圖像之間的高級感知和語義差異??紤]一個圖像分類網(wǎng)絡如 VGG已經(jīng)在ImageNet的數(shù)以百萬計的圖像數(shù)據(jù) 集上訓練過,第一層的

4、網(wǎng)絡往往提取底層的特征 (如線,邊緣或顏色漸變)而最 后的卷積層應對更復雜的概念(如特定的形狀和模式)。根據(jù)Johnson等人的觀 點,這些在前幾層捕獲的低層次特征對于比較非常相似的圖像非常有用。例如,假設你構建了一個網(wǎng)絡來從輸入圖像重構一個超分辨圖像。在訓練 期間,你的目標圖像將是輸入圖像的超分辨率版本。你的目標是比較網(wǎng)絡的輸 出圖像和目標圖像。為此,我們將這些圖像通過一個預先訓練好的VGM絡傳遞,并提取VGCfr前幾個塊的輸出值,從而提取圖像的底層特征信息。這些低 級的特征張量可以通過簡單的像素級損失來進行比較。Sty Is Targst2 通,了理】耳?.2/也3Vs I麗F0Loss

5、Network (VGG-16)庚;IT%Content Target與力用于圖像分類的預訓練的損失網(wǎng)絡Perceptual損失的數(shù)學表示_ l|vy(r)- vyy)2j j j其中,V_j(Y)表示VGM絡第j層在處理圖像Y時的激活情況,其形狀為(C_j, H_j, W_j)。我們使用L2損失的平方,根據(jù)圖像的形狀歸一化,比較了 ground truth 圖像Y和預測圖像YA的激活情況。如果你想使用VGM絡的多個特征映射作為你的損失計算的一部分,只需為多 個j添加L_j值。內(nèi)容-風格損失函數(shù)一神經(jīng)網(wǎng)絡風格轉(zhuǎn)換風格轉(zhuǎn)換是將圖像的語義內(nèi)容轉(zhuǎn)換成不同風格的過程。風格轉(zhuǎn)換模型的目 標是,給定一個內(nèi)

6、容圖像(C)和一個風格圖像(S),生成包含C的內(nèi)容和S的風 格的輸出圖像。在這里,我們將討論content-style 損失函數(shù)的最簡單實現(xiàn)之一,該函數(shù)用于訓練這種風格的轉(zhuǎn)換模型。后來的研究中使用了許多內(nèi)容-風格損失函數(shù)的變體。下一節(jié)將討論一個這樣的損失函數(shù),稱為“紋理損失”。內(nèi)容/風格損失的數(shù)學表示已經(jīng)發(fā)現(xiàn),CNN妊較高的層次上捕獲內(nèi)容的信息,而較低的層次更關注單個像素值。因此,我們使用一個或多個 CNN層,計算原始內(nèi)容圖像(C)和預測輸出(P) 的激活圖。Z IK/(c)-AZ/(P)|22r cx -2同樣,通過計算預測圖像(P)和風格圖像(S)的下一級特征圖的L2距離,可以計算出風格損

7、失,得到的損失函數(shù)定義為:Lss = aLosscontent + Loss lealpha和beta是超參數(shù)。注意:只有減少樣式和內(nèi)容損失的優(yōu)化會導致高像素化和噪聲輸出。為了解決這個問題,我們引入了 total variation loss來保證生成的圖像的空間連續(xù)性和平滑性。紋理損失Gatys et al (2016)首次引入的用于圖像風格轉(zhuǎn)換的風格損失組件。紋理損失是一種引入的損失函數(shù),是對感知損失的改進,特別適用于捕獲圖像的風 格。Gatys et al發(fā)現(xiàn),我們可以通過查看激活或特征圖(來自VGM絡)內(nèi)的 值的空間相關性來提取圖像的風格表示。這是通過計算Gram矩陣來實現(xiàn)的:Gram

8、巨陣(對于VG第絡的l層)是向量化特征映射F_i和F_j(在l層)的 內(nèi)積,它捕捉了特征在圖像不同部分同時出現(xiàn)的趨勢。紋理損失的數(shù)學表示Ei = 422 M2 52 ( - 4 5)這里,GN和AN分別是模型輸出的l層和目標圖像的l層的風格樣式表 示。Nl是層l中不同特征映射的數(shù)量,Ml是層l(i)中特征映射的容量(也 就是通道的寬和高)。最后,El是圖層l的紋理損失。網(wǎng)絡的紋理損失是所有紋理損失的加權和,表示為:Lstyle(用刃=叫區(qū),2=0這里a是原始圖像,x是預測圖像。注意:雖然這里的數(shù)學看起來有點復雜,但請理解紋理損失只是應用在特征圖 的gram矩陣上的感知損失。mask拓撲感知損失

9、函數(shù)即拓撲感知損耗函數(shù)。這可以被認為是感知損失的延伸,應用于分割 預測Mosinska等人認為,在圖像分割問題中使用的像素級損失,如交叉嫡損失, 只依賴于局部測度,而不考慮拓撲結構的特征,如連接組件或孔的數(shù)量。因此, 傳統(tǒng)的分割模型如U-Net往往會對薄的結構進行錯誤的分類。這是因為對薄層 像素的錯誤分類在像素損失方面的代價很低。作為對像素損失的改進,他們建 議引入一個懲罰項,該懲罰項基于 VGG-19網(wǎng)絡生成白特征圖(類似于感知損失), 以考慮拓撲信息。(c)(d)(c)使用像素級丟失檢測神經(jīng)元膜后獲得的分割,(d)利用拓撲損耗檢測細胞膜 后得到的分割這種方法在從衛(wèi)星圖像中進行道路分割時也特

10、別有用,例如,樹木的遮擋。拓撲感知損失的數(shù)學表示N Mn|C(r)- n?)ll22n=l m=lZ/MS /流 / + 黑p這里,在RHS上,l(m,n)表示VGG1R絡第n層的第m個feature mapMu是衡量像素損失和拓撲損失相對重要性的標量。對比損失/三元組損失Embeddings4 Triplet(0 0 lol) CQIOIO) Go.,Triplet loss 是由 Florian Schroff 等人在 FaceNet(2015)中提出的,其 目的是在有限的小數(shù)據(jù)集(如辦公室中的人臉識別系統(tǒng))上構建一個人臉識別系 統(tǒng)。傳統(tǒng)的CNNA臉識別架構在這種情況下總是失敗。Flori

11、an Schroff et al關注的事實是,在人臉識別的小樣本空間中,我們不僅要正確識別匹配的人臉,還要準確區(qū)分兩個不同的人臉。為了解決這個 問題,F(xiàn)aceNet的論文引入了一個名為“ Siamese網(wǎng)絡”的概念。在Siamese網(wǎng)絡中,我們通過網(wǎng)絡傳遞一個圖像 A,并將其轉(zhuǎn)換成一個更 小的表示,稱為嵌入?,F(xiàn)在,在不更新網(wǎng)絡的任何權值或偏差的情況下,我們 對不同的圖像B重復這個過程并提取其嵌入。如果圖像 B與圖像A中的人是同 一個人,那么它們相應的嵌入必須非常相似。如果它們屬于不同的人,那么它 們相應的嵌入一定是非常不同的。重申一下,Siamese網(wǎng)絡的目標是確保一個特定的人的圖像(錨點)與

12、同一 個人的所有其他圖像(positive) 的距離要比與任何其他人的圖像(negative)的 距離更近。為了訓練這樣一個網(wǎng)絡,他們引入了三元組損失函數(shù)。考慮一個三元組: anchor, positive, negative 。三元組損失定義為: 1.定義距離度量d=L2范數(shù)計算anchor圖像與positive 圖像的嵌入距離=d(a, p)計算anchor圖像嵌入到negative圖像的距離=d(a, n)三元組損失=d(a, p) - d(a, n) + offset三元組的數(shù)學表示Loss = E|f() -/(V)|22 - I1AV)-/WIL2 + 01這里,xAaA - an

13、chor, xApA- positive , xAnA - negative注:為了快速收斂,必須選取正確的三元組進行損失計算。FaceNet的論文討論了實現(xiàn)這一目標的兩種方法一一離線三元組生成和在線三元組生成。關 于這個話題的詳細討論我們將留到以后討論。GAN 失由Ian Goodfellow 等人首先提出的生成式對抗網(wǎng)絡是目前最流行的圖像生 成任務解決方案。GANS勺靈感來自博弈論,并使用一個對抗的方案,使它可以 用無監(jiān)督的方式訓練。GAN時以被看作是一個兩個人白游戲,我們讓生成器(比如產(chǎn)生一個超分 辨率的圖像)與另一個網(wǎng)絡一一判別器進行較量。判別器的任務是評估一個圖 像是來自原始數(shù)據(jù)集(

14、真實圖像)還是來自另一個網(wǎng)絡(假圖像)。判別器模型像 任何其他深度學習神經(jīng)網(wǎng)絡一樣 k可以被更新,生成器使用判別器作為損失函 數(shù),這意味著生成器的損失函數(shù)是隱式的,是在訓練過程中學習的。對于典型 的機器學習模型,收斂可以看作是在訓練數(shù)據(jù)集上讓所選損失函數(shù)最小化。在 GAN中,收斂標志著雙人博弈的結束,是尋求生成器和判別器損失之間的平衡。于GANm說,生成器和判別器是兩個參與者,它們輪流更新各自的模型權 值。在這里,我們將總結一些用于 GANR絡的損失函數(shù) 1. Min-Max損失函數(shù)Discriminator -* max : log D(x) + log1 - D(G(z)Generator

15、 min : log(l - (G(z)然而,在實踐中發(fā)現(xiàn),這種生成器的損失函數(shù)會飽和。也就是說,如果它 不能像判別器學習得那么快,判別器贏了,游戲就結束了,模型就不能得到有 效的訓練。.不飽和的GAN失不飽和GANK失是一種改進的生成器損失,以克服飽和的問題,使用了一 個微妙的變化。該生成器不是最小化所生成圖像的負判別器概率的對數(shù),而是 最大化所生成圖像的判別器概率的對數(shù)。Generator max : log(D(G(z).最小均方GAN失由Xudong Mao, et al (2016) 提出,當生成的圖像與真實圖像非常不同時, 這種損失函數(shù)特別有用,因為此時會導致梯度非常小或梯度消失,

16、進而導致模 型很少或沒有更新。Discriminator - min : (D(x) -1)2 + (D(G(z)j2Generator min : (D(G(z) - 1). Wasserstein GAN 損失Martin Arjovsky 等人(2017)。他們觀察到,傳統(tǒng) GAN勺目的是最小化真 實圖像和生成圖像的實際概率分布和預測概率分布之間的距離,即所謂的 Kullback-Leibler (KL) 散度。相反,他們建議在 Earth- Mover s distance 上 對問題進行建模,該模型根據(jù)將一個分布轉(zhuǎn)換成另一個分布的成本來計算兩個 概率分布之間的距離。使用Wassers

17、tein損失的GAh#及到將判別器的概念改變?yōu)橐粋€更改評估 器,比生成器模型更新得更頻繁(例如,更新頻率是生成器模型的五倍)。評估 器用實際的數(shù)字而不是預測概率來給圖像打分。它還要求模型的權重保持較小。該得分的計算使得真假圖像的得分之間的距離最大程度地分離。Wasserstein的損失的好處是,它提供了一個有用幾乎無處不在的梯度,允許模型的繼續(xù)訓 練。WGANLossReal Images) = 1 * avg predicted scoreWGANLoss(Fake Images)=-1 * avg predicted score.循環(huán)一致性損失Zebras Horseszebra hors

18、ehorse 1 zebra圖像到圖像的轉(zhuǎn)換是一個圖像合成的任務,需要對給定的圖像進行有控制 的修改,生成一個新的圖像。例如,把馬轉(zhuǎn)換成斑馬(或反過來),把繪畫轉(zhuǎn)換成照片(或反過來),等等。訓練用于圖像到圖像轉(zhuǎn)換的模型通常需要大量成對的樣本數(shù)據(jù)集,這些樣 本很難找到。CycleGAN是一種不需要配對實例的自動訓練技術。這些模型以一 種無監(jiān)督的方式進行訓練,使用來自源和目標域的圖像集合,這些圖像不需要 以任何方式關聯(lián)。CycleGAN GAN*系結構的擴展,它同時訓練兩個生成器模型和兩個判別 器模型。一個生成器從第一個域獲取圖像作為第二個域的輸入和輸出圖像,另 一個生成器從第二個域獲取圖像作為輸入并生成第

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論