




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
第16章自監(jiān)督學(xué)習(xí)16.1自監(jiān)督學(xué)習(xí)概述16.2自監(jiān)督學(xué)習(xí)方法16.3自監(jiān)督學(xué)習(xí)的應(yīng)用拓展本章小結(jié)
16.1自監(jiān)督學(xué)習(xí)概述16.1.1自監(jiān)督學(xué)習(xí)背景
深度學(xué)習(xí)方法在計(jì)算機(jī)視覺領(lǐng)域所取得的巨大成功,要?dú)w功于大型訓(xùn)練數(shù)據(jù)集的支持。這些帶豐富標(biāo)注信息的數(shù)據(jù)集能夠幫助網(wǎng)絡(luò)學(xué)習(xí)到可判別性的視覺特征。然而,收集并標(biāo)注這樣的數(shù)據(jù)集成本太高,而所標(biāo)注的信息也具有一定的局限性。作為替代,使用完全自監(jiān)督方式學(xué)習(xí)并設(shè)計(jì)輔助任務(wù)來學(xué)習(xí)視覺特征的方式,已逐漸成為計(jì)算機(jī)視覺領(lǐng)域的熱點(diǎn)研究方向。雖然現(xiàn)在也有很多域自適應(yīng)方法,但深度學(xué)習(xí)的遷移性能很差。在實(shí)際的應(yīng)用中,最好的方法還是不停地增加標(biāo)注數(shù)據(jù),因此產(chǎn)生了自監(jiān)督學(xué)習(xí)方法。
自監(jiān)督學(xué)習(xí)方法本質(zhì)上是一種無監(jiān)督學(xué)習(xí)的方法。不同于傳統(tǒng)的Auto-Encoder等方法僅僅以重構(gòu)輸入為目的,沒有包含更多的語義特征,對下游任務(wù)沒有很大的幫助,自監(jiān)督學(xué)習(xí)希望通過前置任務(wù)學(xué)習(xí)到和高層語義信息相關(guān)聯(lián)的特征,通常會(huì)設(shè)置一個(gè)前置任務(wù),根據(jù)數(shù)據(jù)的一些特點(diǎn),構(gòu)造偽標(biāo)簽來訓(xùn)練網(wǎng)絡(luò)模型,在前置任務(wù)訓(xùn)練完成后,將學(xué)習(xí)到的參數(shù)用于預(yù)訓(xùn)練的模型,并通過微調(diào)轉(zhuǎn)移到其他下游計(jì)算機(jī)視覺任務(wù)(比如目標(biāo)分類、目標(biāo)識(shí)別、語義分割和實(shí)例分割等下游任務(wù))。這些下游任務(wù)用于評估學(xué)習(xí)到的特征的質(zhì)量。在
下游任務(wù)的知識(shí)轉(zhuǎn)移過程中,僅前幾層的一般特征會(huì)轉(zhuǎn)移到下游任務(wù)。因此,自監(jiān)督學(xué)習(xí)也可以看作用于學(xué)習(xí)圖像的通用視覺表示特征。
為了避免耗時(shí)且昂貴的數(shù)據(jù)標(biāo)注,目前產(chǎn)生了許多自監(jiān)督方法,其可以在不使用任何人工標(biāo)注的情況下從大規(guī)模未標(biāo)注的圖像或視頻中學(xué)習(xí)視覺特征。一種常見的解決方案是
利用卷積神經(jīng)網(wǎng)絡(luò)解決各種前置任務(wù),同時(shí)通過學(xué)習(xí)前置任務(wù)的目標(biāo)函數(shù)來訓(xùn)練網(wǎng)絡(luò),并且通過這個(gè)過程來學(xué)習(xí)特征。自監(jiān)督學(xué)習(xí)提出了各種前置任務(wù),包括給灰度圖像著色、圖
像修復(fù)、圖像拼圖等。前置任務(wù)有兩個(gè)共同的屬性:
①圖像或視頻的視覺特征需要由卷積神經(jīng)網(wǎng)絡(luò)捕獲來完成前置任務(wù);
②監(jiān)督信息通過利用其結(jié)構(gòu)由數(shù)據(jù)本身生成。
自監(jiān)督學(xué)習(xí)的一般流程如圖16.1所示。在自監(jiān)督訓(xùn)練階段,設(shè)計(jì)一個(gè)前置任務(wù)供深度卷積神經(jīng)網(wǎng)絡(luò)求解,并且根據(jù)數(shù)據(jù)的某些屬性自動(dòng)生成前置任務(wù)的偽標(biāo)簽,然后訓(xùn)練深度卷積神經(jīng)網(wǎng)絡(luò)來學(xué)習(xí)前置任務(wù)的目標(biāo)函數(shù)。圖16.1自監(jiān)督學(xué)習(xí)的一般流程圖
16.1.2術(shù)語解釋
前置任務(wù):是網(wǎng)絡(luò)為解決實(shí)際問題而預(yù)先設(shè)計(jì)的。視覺特征是通過學(xué)習(xí)前置任務(wù)的客觀功能而得到的。前置任務(wù)可以是預(yù)測任務(wù)、生成任務(wù)、對比任務(wù)或它們的組合。前置任務(wù)的監(jiān)督信號(hào)是根據(jù)數(shù)據(jù)本身的結(jié)構(gòu)生成的。
偽標(biāo)簽:前置任務(wù)中使用的標(biāo)簽。它是根據(jù)前置任務(wù)的數(shù)據(jù)結(jié)構(gòu)生成的。
下游任務(wù):自監(jiān)督訓(xùn)練產(chǎn)生的權(quán)重,需要遷移到其他任務(wù)上,以此來看自監(jiān)督的訓(xùn)練效果。通常認(rèn)為自監(jiān)督訓(xùn)練出來的模型可以學(xué)到這個(gè)數(shù)據(jù)的一些比較通用的特征,所以通過遷移之后的任務(wù)表現(xiàn)來判定這個(gè)自監(jiān)督算法是否有效。因此,下游任務(wù)是在自監(jiān)督訓(xùn)練完成后后續(xù)需要遷移自監(jiān)督模型的任務(wù)。
監(jiān)督學(xué)習(xí):指使用帶精確的人工標(biāo)注的標(biāo)簽數(shù)據(jù)來訓(xùn)練網(wǎng)絡(luò)或進(jìn)行學(xué)習(xí)的方法。
半監(jiān)督學(xué)習(xí):指使用少量標(biāo)記數(shù)據(jù)和大量未標(biāo)記數(shù)據(jù)進(jìn)行學(xué)習(xí)的學(xué)習(xí)方法。
弱監(jiān)督學(xué)習(xí):指使用粗粒度標(biāo)簽或不準(zhǔn)確標(biāo)簽進(jìn)行學(xué)習(xí)的學(xué)習(xí)方法。
無監(jiān)督學(xué)習(xí):指不使用任何人為標(biāo)注標(biāo)簽的學(xué)習(xí)方法。
自監(jiān)督學(xué)習(xí):是無監(jiān)督學(xué)習(xí)方法的一個(gè)子集,指利用數(shù)據(jù)本身的結(jié)構(gòu)和數(shù)據(jù)本身產(chǎn)生的監(jiān)督信號(hào)來訓(xùn)練深度卷積神經(jīng)網(wǎng)絡(luò)。
由于在自監(jiān)督訓(xùn)練期間不需要人工標(biāo)注來生成偽標(biāo)簽,因此自監(jiān)督學(xué)習(xí)方法的主要優(yōu)點(diǎn)是它可以以非常低的成本很容易地?cái)U(kuò)展到大規(guī)模數(shù)據(jù)集。使用這些偽標(biāo)簽進(jìn)行訓(xùn)練后,
自監(jiān)督方法取得了令人滿意的結(jié)果,并且在下游任務(wù)的性能上取得了與監(jiān)督方法差距較小的效果。
16.1.3自監(jiān)督學(xué)習(xí)前置任務(wù)
根據(jù)設(shè)計(jì)的前置任務(wù)的數(shù)據(jù)屬性,可將前置任務(wù)的設(shè)計(jì)方法歸納為三類:基于上下文的方法、基于時(shí)序的方法和基于對比的方法。
(1)基于上下文的方法(Context-BasedMethods):主要利用圖像的上下文特征(如上下文相似性、空間上下文結(jié)構(gòu)等)來設(shè)計(jì)。
①上下文相似性(ContextSimilarity):基于圖像塊之間的背景相似性來設(shè)計(jì)。這類方法包括基于圖像聚類的方法和基于圖形約束的方法。
②空間上下文結(jié)構(gòu)(SpatialContextStructure):將前置任務(wù)用于訓(xùn)練基于圖像塊之間空間關(guān)系的轉(zhuǎn)換網(wǎng)絡(luò)。這類方法包括圖像拼圖、上下文預(yù)測和幾何變換識(shí)別等。
(2)基于時(shí)序的方法:主要利用視頻的時(shí)序特征(如視頻幀的先后順序、視頻幀的相似性等來設(shè)計(jì)。
①視頻幀的先后順序:設(shè)計(jì)一個(gè)模型來判斷當(dāng)前的視頻序列是否是正確的順序。
②視頻幀的相似性:即認(rèn)為視頻中的相鄰幀特征是相似的,而相隔較遠(yuǎn)的視頻幀是不相似的,通過構(gòu)建這種相似和不相似的樣本來進(jìn)行自監(jiān)督約束。
(3)基于對比的方法:構(gòu)建正樣本和負(fù)樣本,通過度量正負(fù)樣本的距離來實(shí)現(xiàn)自監(jiān)督學(xué)習(xí)。
以上我們簡單介紹了三種用于自監(jiān)督學(xué)習(xí)前置任務(wù)的方法,包括基于上下文的方法、基于時(shí)序的方法和基于對比的方法,用這些方法設(shè)計(jì)前置任務(wù)都是為了更好地學(xué)習(xí)圖像特
征,從而得到對下游任務(wù)有價(jià)值的表征。
下面我們將通過使用GAN生成圖像(生成假圖像)、圖像超分辨(生成高分辨率圖像)、圖像修復(fù)(預(yù)測缺失的圖像區(qū)域)和圖像著色(將灰度圖像著色為彩色圖像)等方法來簡單介
紹自監(jiān)督學(xué)習(xí)前置任務(wù)的設(shè)計(jì)。對于這些方法,偽訓(xùn)練標(biāo)簽P通常是圖像本身,訓(xùn)練過程中不需要人工標(biāo)注標(biāo)簽,因此這些方法屬于自監(jiān)督學(xué)習(xí)方法。
1.GAN生成圖像
生成對抗網(wǎng)絡(luò)(GAN)是Goodfellow等人提出的一種深層生成模型。一個(gè)GAN模型通常由兩種網(wǎng)絡(luò)組成:一個(gè)是根據(jù)潛在向量(latentvector)生成圖像的生成器,另一個(gè)是用來區(qū)分輸入圖像是否由生成器生成的鑒別器。鑒別器強(qiáng)制生成器生成逼真的圖像,而生成器強(qiáng)制鑒別器提高其可分辨性。在訓(xùn)練過程中,它們的網(wǎng)絡(luò)相互競爭,使彼此更強(qiáng)大。圖16.2所示為從隨機(jī)噪聲任務(wù)中生成圖像的通用架構(gòu)。圖16.2從隨機(jī)噪聲任務(wù)中生成圖像的通用框架
2.圖像修復(fù)
圖像修復(fù)是指根據(jù)其余圖像預(yù)測任意缺失的區(qū)域。圖16.3是圖像修復(fù)任務(wù)的定性圖示。要正確地預(yù)測缺失區(qū)域,需要網(wǎng)絡(luò)來學(xué)習(xí)常識(shí),包括常見對象的顏色和結(jié)構(gòu)。只有知道了這一知識(shí),網(wǎng)絡(luò)才可以基于圖像的其余部分來推斷缺失的區(qū)域。圖16.3圖像修復(fù)任務(wù)的定性圖示
生成網(wǎng)絡(luò)一般由兩部分組成:編碼器和解碼器。編碼器的輸入是需要修復(fù)的圖像,上下文編碼器學(xué)習(xí)圖像的語義特征。上下文解碼器就是根據(jù)這個(gè)特征來預(yù)測缺失區(qū)域的。生
成網(wǎng)絡(luò)需要理解圖像的內(nèi)容,以便生成可實(shí)施的假設(shè)。通過訓(xùn)練鑒別網(wǎng)絡(luò)可區(qū)分輸入圖像是否是發(fā)生器的輸出。為了完成圖像修復(fù)任務(wù),兩個(gè)網(wǎng)絡(luò)都需要學(xué)習(xí)圖像的語義特征。
3.圖像超分辨
圖像超分辨(SR)是指增強(qiáng)圖像分辨率。借助全卷積網(wǎng)絡(luò),可以由低分辨率圖像生成更精細(xì)、更逼真的高分辨率圖像。SRGAN是Ledig等人提出的用于單圖像超分辨率的生成對
抗網(wǎng)絡(luò)。這種方法的獨(dú)到之處是利用了包括對抗性損失和內(nèi)容損失在內(nèi)的感知損失。因此SRGAN能夠從大量下采樣的圖像中恢復(fù)逼真的紋理,并顯示出明顯的感知質(zhì)量的提升。
圖像超分辨能夠?qū)W習(xí)圖像的語義特征,與其他GAN類似,鑒別網(wǎng)絡(luò)的參數(shù)可以轉(zhuǎn)移到其他下游任務(wù)。
4.圖像著色
圖像著色是指給出給定輸入灰度的圖像對應(yīng)的彩色圖像。圖16.4顯示了圖像著色的框架。要正確地著色每個(gè)像素,網(wǎng)絡(luò)需要識(shí)別對象并將同一部分的像素分組在一起。因此,可以在完成圖像著色的過程中學(xué)習(xí)視覺特征。圖16.4圖像著色的架構(gòu)
16.1.4自監(jiān)督學(xué)習(xí)下游任務(wù)
為了通過自監(jiān)督方法評估所學(xué)習(xí)的圖像或視頻特征的質(zhì)量,通常需要將自監(jiān)督學(xué)習(xí)所學(xué)習(xí)的參數(shù)用作預(yù)先訓(xùn)練的模型,然后對下游任務(wù)進(jìn)行微調(diào),如圖像分類、語義分割、對象
檢測和動(dòng)作識(shí)別等。遷移學(xué)習(xí)在這些高級(jí)視覺任務(wù)上的表現(xiàn)證明了所學(xué)特征的普遍性。如果自監(jiān)督學(xué)習(xí)的網(wǎng)絡(luò)能夠?qū)W習(xí)一般特征,那么預(yù)處理后的模型可以用作其他視覺任務(wù)的良好起點(diǎn),這些視覺任務(wù)需要從圖像或視頻中捕捉相似的特征。
以下是視覺特征評估中常用的高級(jí)任務(wù)的簡要介紹。
(1)語義分割。
(2)目標(biāo)檢測。
(3)圖像分類。
(4)人體動(dòng)作識(shí)別。
除了以上學(xué)習(xí)特征的定量評估之外,還有一些定性可視化方法可用來評估自監(jiān)督學(xué)習(xí)特征的質(zhì)量。
(1)核可視化:定性地可視化通過前置任務(wù)學(xué)習(xí)的第一個(gè)卷積層的卷積核,并比較監(jiān)督模型的內(nèi)核。
(2)特征圖可視化:特征圖被可視化以顯示網(wǎng)絡(luò)的注意力區(qū)域。
(3)最近鄰檢索:一般來說,具有相似外觀的圖像通常在特征空間中更接近。最近鄰法用于從自監(jiān)督學(xué)習(xí)模型所學(xué)習(xí)的特征空間找到前K個(gè)最近鄰。
16.1.5自監(jiān)督學(xué)習(xí)數(shù)據(jù)集
本節(jié)介紹用于訓(xùn)練和評估自監(jiān)督視覺特征學(xué)習(xí)方法的常用數(shù)據(jù)集。為監(jiān)督學(xué)習(xí)收集的數(shù)據(jù)集可以用于自監(jiān)督訓(xùn)練,而無須使用它們的人工標(biāo)注標(biāo)簽。對所學(xué)特征質(zhì)量的評估通
常是通過對具有相對較小的數(shù)據(jù)集(通常具有準(zhǔn)確的標(biāo)簽)的高級(jí)視覺任務(wù)進(jìn)行微調(diào)來進(jìn)行的,如視頻動(dòng)作識(shí)別、對象檢測、語義分割等。
16.2自監(jiān)督學(xué)習(xí)方法
16.2.1基于對比的自監(jiān)督學(xué)習(xí)基于對比的自監(jiān)督學(xué)習(xí)方法通過對兩個(gè)事物的相似或不相似進(jìn)行編碼來構(gòu)建表征,主要思想是構(gòu)建正樣本(positive)和負(fù)樣本(negative),然后度量正負(fù)樣本的距離來實(shí)現(xiàn)自監(jiān)督學(xué)習(xí)。樣本和正樣本之間的距離應(yīng)遠(yuǎn)遠(yuǎn)大于樣本和負(fù)樣本之間的距離:
這里的x通常也稱為anchor數(shù)據(jù)。為了優(yōu)化anchor數(shù)據(jù)和其正負(fù)樣本的關(guān)系,我們可以使用點(diǎn)積的方式構(gòu)造距離函數(shù),然后構(gòu)造一個(gè)softmax分類器,以正確分類正樣本和負(fù)樣
本。將相似性度量函數(shù)較大的值分配給正樣本,將較小的值分配給負(fù)樣本:
通常這個(gè)損失也被稱為InfoNCE損失。最小化InfoNCE損失可最大限度地提高f(x)和f(x+)之間相互信息的下限。后面的很多工作也基本是圍繞這個(gè)損失進(jìn)行的。
DeepInfoMax(DIM)的方法通過最大化互信息來學(xué)習(xí)期望特征的表示。DIM通過利用圖像中存在的局部結(jié)構(gòu)來學(xué)習(xí)圖像表示。DIM背后的對比任務(wù)其實(shí)就是對全局特征和局部特征是否來自同一圖像進(jìn)行分類。如圖16.5所示,全局特征是卷積編碼器的最終輸出(一個(gè)平面向量Y),局部特征是編碼器中的中間層的輸出(一個(gè)M×M的特征圖)。每個(gè)局部特
征圖都有一個(gè)有限的接收域。因此,從直覺上講,這意味著要很好地完成對比任務(wù),全局特征向量必須捕獲來自所有不同局部區(qū)域的信息。
從DIM的損失函數(shù)角度來看,我們可以發(fā)現(xiàn)它與上面描述的對比損失函數(shù)完全一樣。在這里,給定一個(gè)錨圖像x,f(x)是全局特征,f(x+)是同一圖像(正樣本)的局部特征,f(x-)是來自其他圖像(負(fù)樣本)的局部特征。圖16.5用DIM最大化局部特征和全局特征的互信息
利用點(diǎn)積計(jì)算相似度,這里用一種稱為InfoNCE的對比損失函數(shù):
對比方法往往在有大量的負(fù)樣本時(shí)工作得更好,因?yàn)楦鄶?shù)量的負(fù)樣本可以更有效地覆蓋基礎(chǔ)分布,從而提供更好的訓(xùn)練信號(hào)。但是通常的對比學(xué)習(xí)公式中,梯度反向流過正
樣本和負(fù)樣本的編碼器。這意味著負(fù)樣本的數(shù)量被限制為小批量。無監(jiān)督視覺表征學(xué)習(xí)的動(dòng)量對比(MoCo)方法有效地解決了這一問題。如圖16.6所示,維持大量的負(fù)樣本隊(duì)列,不
使用反向傳播來更新密鑰編碼器,而使用動(dòng)量更新的方式更新密鑰編碼器:圖16.6MoCo通過使用對比損失將編碼查詢q與編碼密鑰的字典相匹配來訓(xùn)練視覺表征編碼器
MoCo使用對比損失,與圖16.7中的兩個(gè)現(xiàn)有的一般機(jī)制進(jìn)行比較。它們在字典大小和一致性上表現(xiàn)出了不同的特性。圖16.7三種對比損失機(jī)制的概念比較(這里演示一對查詢和鍵。這三種機(jī)制在如何維護(hù)密鑰和如何更新密鑰編碼器方面有所不同)
SimCLR算法通過組合數(shù)據(jù)增強(qiáng)后的圖像對比來學(xué)習(xí)特征,這個(gè)工作主要是對一個(gè)輸入的樣本進(jìn)行不同的數(shù)據(jù)增廣。對于同一個(gè)樣本的不同增廣是正樣本,對于不同樣本的增
廣是負(fù)樣本,如圖16.8所示。整個(gè)過程比之前動(dòng)量對比(MoCo)更加簡單,同時(shí)省去了數(shù)據(jù)存儲(chǔ)隊(duì)列。SimCLR首先在表征層和最后的損失層增加了一個(gè)非線性映射以增強(qiáng)性能;其次,數(shù)據(jù)增廣對于自監(jiān)督學(xué)習(xí)是有益的,不同數(shù)據(jù)增廣方式的結(jié)合比單一增廣更好。與監(jiān)督學(xué)習(xí)相比,對比學(xué)習(xí)能夠從更大的批處理大小和更多的訓(xùn)練步驟中受益。圖16.8SimCLR算法框架圖
16.2.2基于上下文的自監(jiān)督學(xué)習(xí)
在基于上下文的圖像特征學(xué)習(xí)中,前置任務(wù)的設(shè)計(jì)主要利用的是圖像的上下文特征,如上下文相似性、空間上下文信息等。當(dāng)將上下文相似性用作自監(jiān)督學(xué)習(xí)的監(jiān)督信號(hào)時(shí),
數(shù)據(jù)會(huì)被聚類成不同的組。在假設(shè)數(shù)據(jù)來自同一組的情況下,同一組的數(shù)據(jù)具有較高的上下文相似性,而來自不同組的數(shù)據(jù)具有較低的上下文相似性。
利用空間上下文線索進(jìn)行自監(jiān)督視覺特征學(xué)習(xí)是先驅(qū)工作之一,其為圖像的自監(jiān)督學(xué)習(xí)提供了一種范式,類似于文本的自監(jiān)督學(xué)習(xí),對上下文做出預(yù)測。通過構(gòu)造上下文預(yù)測這樣一個(gè)前置任務(wù),可使網(wǎng)絡(luò)學(xué)到圖像中的上下文信息,而這些信息對于圖像分類、目標(biāo)檢測和語義分割等計(jì)算機(jī)視覺任務(wù)有幫助。如圖16.9所示
遵循這個(gè)想法,許多不同的方法被提出來用于解決空間圖像問題。圖16.10為用卷積神經(jīng)網(wǎng)絡(luò)解決圖像拼圖。圖16.10(a)是具有9個(gè)采樣圖像塊的圖像,圖(b)是打包圖像塊的
示例,圖(c)顯示了9個(gè)采樣塊的正確順序。打包的圖像塊被送到網(wǎng)絡(luò),該網(wǎng)絡(luò)經(jīng)過訓(xùn)練以通過學(xué)習(xí)圖像的空間上下文結(jié)構(gòu)(如對象顏色、結(jié)構(gòu)和高級(jí)語義信息)來識(shí)別輸入塊的正確的空間位置。圖16.10圖像拼接的可視化圖16.10圖像拼接的可視化
16.2.3基于時(shí)序的自監(jiān)督學(xué)習(xí)
第一種方法依據(jù)的是幀的相似性。
另一種方法依據(jù)的是無監(jiān)督追蹤方法。
除了基于特征的相似性外,視頻的先后順序也是一種自監(jiān)督信息。視頻由各種長度的幀組成,這些幀具有豐富的空間和時(shí)間信息。利用時(shí)間上下文關(guān)系提出了各種前置任務(wù),
包括時(shí)間順序驗(yàn)證和時(shí)間順序識(shí)別。時(shí)間順序驗(yàn)證用于驗(yàn)證輸入幀序列是否按正確的時(shí)間順序進(jìn)行,而時(shí)間順序識(shí)別用于識(shí)別輸入幀序列的順序。
圖16.12所示為使用時(shí)間順序驗(yàn)證作為2D卷積神經(jīng)網(wǎng)絡(luò)的前置任務(wù)的視頻特征學(xué)習(xí)方法。該過程有兩個(gè)主要步驟:①從視頻中采樣具有重要運(yùn)動(dòng)的幀;②將采樣的幀打亂并饋送到經(jīng)過訓(xùn)練的網(wǎng)絡(luò)以驗(yàn)證輸入數(shù)據(jù)的順序是否正確。為了成功驗(yàn)證輸入幀的順序,需要網(wǎng)絡(luò)捕獲幀之間的細(xì)微差異,如人的移動(dòng)。因此,可以通過完成此任務(wù)的過程來學(xué)習(xí)語
義特征。時(shí)間順序識(shí)別任務(wù)使用類似體系結(jié)構(gòu)的網(wǎng)絡(luò)。但是,這些方法通常要經(jīng)歷大量的數(shù)據(jù)集準(zhǔn)備步驟,且需要大量的計(jì)算資源。因此,需要更多直接和省時(shí)的方法來進(jìn)行自監(jiān)督視頻特征學(xué)習(xí)。圖16.12Shuffle和Learn的流程(訓(xùn)練網(wǎng)絡(luò)以驗(yàn)證輸入幀是否按正確的時(shí)間順序排列)
16.3自監(jiān)督學(xué)習(xí)的應(yīng)用拓展
16.3.1自監(jiān)督學(xué)習(xí)輔助的知識(shí)蒸餾模型壓縮有很多種選擇,如剪枝、量化、知識(shí)蒸餾等。剪枝在維持模型結(jié)構(gòu)不變的同時(shí),試圖剪掉對網(wǎng)絡(luò)影響不大的通道。量化可以將32bit的高精度計(jì)算降至8bit的低精度計(jì)算。知識(shí)蒸餾由Hinton在2015年首次提出,不同于剪枝和量化,它并非去修改一個(gè)已有的大模型,而是構(gòu)建一個(gè)新的小模型,期望在大模型的監(jiān)督下可使小模型的性能得到提升。知識(shí)蒸餾的框架如圖16.13所示。通常稱大模型為教師模型(teacher),稱小模型為學(xué)生模型(student)。圖16.13知識(shí)蒸餾的框架
來自教師模型的輸出被形象化為知識(shí),而從教師模型提取知識(shí)并轉(zhuǎn)移至學(xué)生模型,與化學(xué)中從混合物中蒸餾出某純凈物的過程相似,所以用教師模型監(jiān)督學(xué)生模型的方法被稱
作蒸餾。
1.現(xiàn)行蒸餾方法
一個(gè)應(yīng)用于分類任務(wù)的CNN通常包含兩部分:
①用于提取特征的網(wǎng)絡(luò)主干;
②用于將特征映射到分類結(jié)果的分類器。
一張輸入圖像經(jīng)過整個(gè)網(wǎng)絡(luò)處理,除了最后一層輸出分類結(jié)果外,還會(huì)得到非常多不同尺度、不同語義的中間層特征。在Hinton最早嘗試用最后一層輸出作為knowledge后,
后續(xù)的工作便開始探索中間層特征及其變體作為knowledge的可能性,如FitNet用featuremap本身,AttentionTransfer(AT)用attentionmap,FlowofSolutionProcedure
(FSP)用層之間的gram矩陣等,這些工作可以用一個(gè)統(tǒng)一的公式來表達(dá):
2.自監(jiān)督學(xué)習(xí)輔助的知識(shí)蒸餾
現(xiàn)有的知識(shí)蒸餾方法的研究主要集中在學(xué)生模型應(yīng)該模仿哪種類型的教師網(wǎng)絡(luò)的中間表示上。這些表示包括注意力圖、語法矩陣、梯度、預(yù)激活和特征分布統(tǒng)計(jì)。盡管網(wǎng)絡(luò)的中間表示可以提供更細(xì)粒度的信息,但是這些知識(shí)的介質(zhì)其共同特征是它們都來自單個(gè)任務(wù)(通常是原始分類任務(wù))。知識(shí)是高度特定于任務(wù)的,因此,此類知識(shí)可能只反映封裝在煩
瑣網(wǎng)絡(luò)中的完整知識(shí)的單個(gè)方面。為了挖掘更豐富的潛藏知識(shí),我們需要開展除原始分類任務(wù)之外的輔助任務(wù),以提取與分類知識(shí)互補(bǔ)的更豐富的信息。
圖16.14顯示了使用自監(jiān)督學(xué)習(xí)作為知識(shí)蒸餾的輔助任務(wù)的幾個(gè)優(yōu)點(diǎn)(我們將組合稱為SSKD(KnowledgeDistillationMeetsSelf-Supervision))。圖16.14傳統(tǒng)的知識(shí)蒸餾和自監(jiān)督學(xué)習(xí)輔助的知識(shí)蒸餾
因此,自監(jiān)督學(xué)習(xí)輔助的知識(shí)蒸餾的出發(fā)點(diǎn)便是:通過自監(jiān)督任務(wù),補(bǔ)足teacher模型中原本分類任務(wù)無法覆蓋的那部分知識(shí),通過分類任務(wù)和自監(jiān)督任務(wù)的雙重蒸餾,促進(jìn)student模型的性能提升,其原理如圖16.15所示。圖16.15自監(jiān)督學(xué)習(xí)輔助的知識(shí)蒸餾的結(jié)構(gòu)框架
16.3.2自監(jiān)督半監(jiān)督學(xué)習(xí)
自監(jiān)督學(xué)習(xí)技術(shù)定義了僅使用未標(biāo)記數(shù)據(jù)就可以制訂的前置任務(wù),因此為解決這些前置任務(wù)而訓(xùn)練的模型可用于解決其他感興趣的下游任務(wù),如圖像識(shí)別等。半監(jiān)督學(xué)習(xí)試圖
從未標(biāo)記的樣本和標(biāo)記的樣本中學(xué)習(xí),通常假定它們是從相同或相似的分布中采樣的??刹捎貌煌椒▽ξ礃?biāo)記數(shù)據(jù)結(jié)構(gòu)獲得不同的信息。
用于評估半監(jiān)督學(xué)習(xí)算法的標(biāo)準(zhǔn)協(xié)議的工作原理如下:從標(biāo)準(zhǔn)標(biāo)記數(shù)據(jù)集開始,只保留該數(shù)據(jù)集上的一部分標(biāo)簽(如10%),將其余的視為未標(biāo)記數(shù)據(jù)。深度神經(jīng)網(wǎng)絡(luò)半監(jiān)督學(xué)
習(xí)的許多初步結(jié)果都基于生成模型,如降噪自動(dòng)編碼器、變分自動(dòng)編碼器和生成對抗網(wǎng)絡(luò)。最近的一系列研究表明,通過對未標(biāo)記數(shù)據(jù)增加一致性正則化損失,標(biāo)準(zhǔn)基線的結(jié)果得到了改善,這些一致性正則化損失度量了在擾動(dòng)的未標(biāo)記數(shù)據(jù)點(diǎn)上所做的預(yù)測之間的差異。在測量這些擾動(dòng)之前,通過平滑預(yù)測可以顯示出其他改進(jìn)。這類方法包括π模型、時(shí)間集合和虛擬對抗訓(xùn)練等。
半監(jiān)督學(xué)習(xí)的另外一種重要方法(即在深度神經(jīng)網(wǎng)絡(luò)和其他類型的模型中均顯示出成功的方法)是偽標(biāo)簽。偽標(biāo)簽是一種簡單的方法,它僅在標(biāo)記的數(shù)據(jù)上訓(xùn)練模型,然后對未標(biāo)記的數(shù)據(jù)進(jìn)行預(yù)測,之后使用未標(biāo)記數(shù)據(jù)點(diǎn)的預(yù)測類別擴(kuò)大其訓(xùn)練集,最后使用這個(gè)放大的標(biāo)記數(shù)據(jù)集重新訓(xùn)練模型。而條件熵最小化鼓勵(lì)所有未標(biāo)記的樣本對某類做出有信心的預(yù)測。
自監(jiān)督半監(jiān)督方法(S4L)聚焦于半監(jiān)督圖像分類問題。形式上,假設(shè)數(shù)據(jù)會(huì)在圖像和標(biāo)簽上生成聯(lián)合分布P(X,Y)。學(xué)習(xí)算法可以訪問已標(biāo)記的訓(xùn)練集Dl(這個(gè)訓(xùn)練集從P(X,Y)中被獨(dú)立同分布采樣)和一個(gè)未標(biāo)記的訓(xùn)練集Du(從邊緣分布P(X)中被獨(dú)立同分布采樣),如圖16.16所示。
在這個(gè)方法中考慮的半監(jiān)督方法具有以下形式的學(xué)習(xí)目標(biāo):圖16.16一種自監(jiān)督半監(jiān)督方法S4L-Rotation示意圖
需要注意的是,自監(jiān)督半監(jiān)督學(xué)習(xí)的目標(biāo)函數(shù)(式(1611))實(shí)際上是使用隨機(jī)梯度下降或其變體進(jìn)行優(yōu)化,而隨機(jī)梯度下降或者其變體使用小批量數(shù)據(jù)來更新參數(shù)θ。在這種情況下,有監(jiān)督的小批量大小xl,yl?Dl和無監(jiān)督的小批量大小xu?Du的大小可以任意選擇。在S4L算法中,默認(rèn)采用相同大小的小批量這個(gè)最簡單的選擇。
自監(jiān)督半監(jiān)督學(xué)習(xí)算法通過運(yùn)用預(yù)測圖像旋轉(zhuǎn)和預(yù)測示例這兩個(gè)突出的自監(jiān)督技術(shù),在具有挑戰(zhàn)性的ILSVRC2012數(shù)據(jù)集上展現(xiàn)出了非常不錯(cuò)的表現(xiàn)。
S4L-Rotation旋轉(zhuǎn)自監(jiān)督的關(guān)鍵思想是旋轉(zhuǎn)輸入圖像,然后預(yù)測這些旋轉(zhuǎn)圖像的旋轉(zhuǎn)角度。損失定義為
式中,R是4個(gè)旋轉(zhuǎn)角度的集合,xr
是圖像x經(jīng)過旋轉(zhuǎn)r角度后得到的,fθ(·)是一個(gè)帶有參數(shù)θ的模型,L是交叉熵?fù)p失。這導(dǎo)致了一個(gè)4類分類問題。在單步的優(yōu)化過程中,我們總是應(yīng)用和預(yù)測在一個(gè)小batch中每張圖片的所有四個(gè)旋轉(zhuǎn)。
我們還將自監(jiān)督的損失應(yīng)用于每個(gè)小批量中的有標(biāo)記圖像。由于在這種情況下我們處理旋轉(zhuǎn)的有監(jiān)督圖像,因此建議對這些圖像也應(yīng)用分類損失。當(dāng)只有少量標(biāo)記的圖像可用時(shí),這可以視為在方案中對模型進(jìn)行正則化的另一種方法。
S4L框架可用于將任何自監(jiān)督方法轉(zhuǎn)變?yōu)榘氡O(jiān)督學(xué)習(xí)模型,彌合了自監(jiān)督學(xué)習(xí)和半監(jiān)督學(xué)習(xí)之間的差距。通過實(shí)例化S4L-Rotation和S4LExemplar這兩種方法表明,它們在具有挑戰(zhàn)性
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 學(xué)校教學(xué)成果表格
- 農(nóng)學(xué)作物種植技術(shù)測試題及答案解析
- 高效辦公數(shù)字化解決方案實(shí)踐指南
- 財(cái)務(wù)人員擔(dān)保協(xié)議書
- 水資源智能監(jiān)控與管理合同
- 金融科技反欺詐技術(shù)合作協(xié)議
- 基于人工智能的智能種植管理系統(tǒng)優(yōu)化實(shí)踐
- 月子中心月嫂服務(wù)合同
- 建筑裝修行業(yè)施工安全責(zé)任書
- 西方童話格林童話讀后感和兒童成長影響
- 2025年河南林業(yè)職業(yè)學(xué)院單招職業(yè)技能測試題庫完整版
- 地理-浙江省強(qiáng)基聯(lián)盟2025年2月高三年級(jí)聯(lián)考試題和答案
- (必刷)湖南省醫(yī)學(xué)院校高職單招職業(yè)技能測試必會(huì)題庫(含往年真題)
- 2025《醫(yī)藥企業(yè)防范商業(yè)賄賂風(fēng)險(xiǎn)合規(guī)指引》解讀課件
- 血透病人皮膚瘙癢課件
- 2025年度船舶焊接維修工程合同范本資料下載
- 貴州茅臺(tái)課程設(shè)計(jì)
- 工業(yè)攝像頭知識(shí)培訓(xùn)課件
- 2024-2025學(xué)年六年級(jí)數(shù)學(xué)人教版上冊寒假作業(yè)(綜合基礎(chǔ)復(fù)習(xí)篇含答案)
- DB33T 1134-2017 靜鉆根植樁基礎(chǔ)技術(shù)規(guī)程
- 樓梯塑料滴水線施工方案
評論
0/150
提交評論