機器遷移學(xué)習(xí)入門手冊

上傳人：逗*** IP屬地：寧夏上傳時間：2024-12-01 格式：DOCX 頁數(shù)：149 大?。?.65MB 積分：15 舉報 版權(quán)申訴

已閱讀5頁，還剩144頁未讀，繼續(xù)免費閱讀

版權(quán)說明：本文檔由用戶提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

遷移學(xué)習(xí)作為機器學(xué)習(xí)的一大分支，已經(jīng)取得了長足的進(jìn)步。本手冊簡明地介紹遷移學(xué)習(xí)的概念與基本方法，并對其中的領(lǐng)域自適應(yīng)問題中的若干代表性方法進(jìn)行講述。最后本手冊編寫的目的是幫助遷移學(xué)習(xí)領(lǐng)域的初學(xué)者快速入門并掌握基本方法，為自己的本手冊的編寫邏輯很簡單：是什么——介紹遷移學(xué)習(xí)；為什么——為什么要用遷移學(xué)I寫在前面I5遷移學(xué)習(xí)的基本方法18致謝II手冊說明III 致謝II手冊說明III 1 1 1 2 4 56.1邊緣分布自適應(yīng) 6.2條件分布自適應(yīng) 2遷移學(xué)習(xí)的研究領(lǐng)域76.3聯(lián)合分布自適應(yīng) 3遷移學(xué)習(xí)的應(yīng)用97第二類方法：特征選擇30 8第三類方法：子空間學(xué)習(xí)32 8第三類方法：子空間學(xué)習(xí)324基礎(chǔ)知識128.1統(tǒng)計特征對齊 4.1遷移學(xué)習(xí)的問題形式化 9深度遷移學(xué)習(xí)379.1深度網(wǎng)絡(luò)的可遷移性 9深度遷移學(xué)習(xí)379.1深度網(wǎng)絡(luò)的可遷移性 9.2最簡單的深度遷移：finetune.41 4.3.3KL散度與JS距離 4.3.5PrincipalAngle 4.3.7Hilbert-Schmidt 4.3.7Hilbert-SchmidtInde- pendenceCriterion 1610上手實踐52II11遷移學(xué)習(xí)前沿5811.1機器智能與人類經(jīng)驗結(jié)合遷移 11.6遷移學(xué)習(xí)的可解釋性 12總結(jié)語6213附錄63 13.4遷移學(xué)習(xí)常用算法及數(shù)據(jù)資源III本手冊的編寫目的是幫助遷移學(xué)習(xí)領(lǐng)域的初學(xué)者快速進(jìn)行入門。我們盡可能繞開那些本手冊的方法部分，關(guān)注點是近年來持續(xù)走熱的領(lǐng)域自適應(yīng)(DomainAdaptation)問第1章介紹了遷移學(xué)習(xí)的概念，重點解決什么是遷移學(xué)習(xí)、為什么要進(jìn)行遷移學(xué)習(xí)這第4章是遷移學(xué)習(xí)領(lǐng)域的一些基本知識，包括問題定義，域和任務(wù)的表示，以及遷移第5章簡要介紹了遷移學(xué)習(xí)的四種基本方法，即基于樣本遷移、基于特征遷移、基于11.1引子我們何以根據(jù)北京的天氣來推測出紐約、東京和巴黎的天氣？我們又何以不能用相同我們可以利用這些地點地理位置的相似性和差異性，很容易地推測出其他地點的天氣。1.2遷移學(xué)習(xí)的概念我們都對機器學(xué)習(xí)有了基本的了解。機器學(xué)習(xí)是人工智能的一大類重要方法，也是目而應(yīng)用于新的問題中。遷移學(xué)習(xí)作為機器學(xué)習(xí)的一個重要分支，側(cè)重于將已經(jīng)學(xué)習(xí)過的知其實我們?nèi)祟悓τ谶w移學(xué)習(xí)這種能力，是與生俱來的。比如，我們?nèi)绻呀?jīng)會打乒乓遷移學(xué)習(xí)最權(quán)威的綜述文章是香港科技大學(xué)楊強教授團(tuán)隊的Asurveyontransferlearn-ing[PanandYang,2010]。2了解了遷移學(xué)習(xí)的概念之后，緊接著還有一個非常重要的問題：遷移學(xué)習(xí)的目的是什可以依賴于如此海量的數(shù)據(jù)，持續(xù)不段地訓(xùn)練和更新相應(yīng)的模型，使得模型的性能越來越取到海量的數(shù)據(jù)，這些數(shù)據(jù)往往是很初級的原始形態(tài)，很少有數(shù)據(jù)被加以正確的人工標(biāo)注。GoogleTPU也都是有錢人的才可以用得起的。絕大多數(shù)普通用戶是不可能具有這些強計算能力的。這就引發(fā)了大數(shù)據(jù)和弱計算之間機器學(xué)習(xí)的目標(biāo)是構(gòu)建一個盡可能通用的模型，使得這個模型對于不同用戶、不同設(shè)3卻始終無法徹底解決的問題。人們的個性化需求五花八門，短期內(nèi)根本無法用一個通用的以解決絕大多數(shù)的公共問題。但是具體到每個個體、每個需求，都存在其唯一性和特異4.特定應(yīng)用的需求。精準(zhǔn)的服務(wù)？現(xiàn)實世界中的應(yīng)用驅(qū)動著我們?nèi)ラ_發(fā)更加便捷更加高效的機器學(xué)習(xí)方法來加上述存在的幾個重要問題，使得傳統(tǒng)的機器學(xué)習(xí)方法疲于應(yīng)對。遷移學(xué)習(xí)則可以很好4地進(jìn)行解決。那么，遷移學(xué)習(xí)是如何進(jìn)行解決的呢?不可能所有人都有能力利用大數(shù)據(jù)快速進(jìn)行模型的訓(xùn)練。利用遷移學(xué)習(xí)的思想，我們可以將那些大公司在大數(shù)據(jù)上訓(xùn)練好的模型，遷移到我們的任務(wù)中。針對于我們的任務(wù)進(jìn)1.4與已有概念的區(qū)別和聯(lián)系些區(qū)別。我們在這里匯總一些與遷移學(xué)習(xí)非常接近的概念，并簡述遷移學(xué)習(xí)與它們的區(qū)別1.遷移學(xué)習(xí)VS傳統(tǒng)機器學(xué)習(xí)：遷移學(xué)習(xí)屬于機器學(xué)習(xí)的一類，但它在如下2.遷移學(xué)習(xí)VS終身學(xué)習(xí)：5終身學(xué)習(xí)強調(diào)連續(xù)不斷地在一個概念和任務(wù)上進(jìn)行學(xué)習(xí)，模型持續(xù)優(yōu)化。遷移學(xué)習(xí)則3.遷移學(xué)習(xí)VS多任務(wù)學(xué)習(xí)：多任務(wù)學(xué)習(xí)指多個相關(guān)的任務(wù)一起協(xié)同學(xué)習(xí)；遷移學(xué)習(xí)則強調(diào)知識由一個領(lǐng)域遷移到4.遷移學(xué)習(xí)VS領(lǐng)域自適應(yīng)：5.遷移學(xué)習(xí)VS增量學(xué)習(xí)：增量學(xué)習(xí)側(cè)重解決數(shù)據(jù)不斷到來，模型不斷更新的問題。遷移學(xué)習(xí)顯然和其有著不同6.遷移學(xué)習(xí)VS自我學(xué)習(xí)：自我學(xué)習(xí)指的是模型不斷地從自身處進(jìn)行更新，而遷移學(xué)習(xí)強調(diào)知識在不同的領(lǐng)域間7.遷移學(xué)習(xí)VS協(xié)方差漂移1.5負(fù)遷移以，這個任務(wù)基本上完不成。這時候，我們可以說出現(xiàn)了負(fù)遷移(NegativeTransfer)。遷移學(xué)習(xí)領(lǐng)域權(quán)威學(xué)者、香港科技大學(xué)楊強教授發(fā)表的遷移學(xué)習(xí)的綜述文章Asurveyontransferlearning[PanandYang,2010]給出了負(fù)遷移的一個定義：6?方法問題：源域和目標(biāo)域是相似的，但是，遷移學(xué)習(xí)方法不夠好，沒找到可遷移的成負(fù)遷移給遷移學(xué)習(xí)的研究和應(yīng)用帶來了負(fù)面影響。在實際應(yīng)用中，找數(shù)據(jù)挖掘領(lǐng)域頂級會議KDD上發(fā)表了傳遞遷移學(xué)習(xí)文章Transitivetransferlearning[Tanetal.,2015]，提出了傳遞遷移學(xué)習(xí)的思想。傳統(tǒng)遷移學(xué)習(xí)就好比是踩著一塊石頭過河，傳遞遷移學(xué)習(xí)就更進(jìn)一步，楊強教授團(tuán)隊在2017年人工智能領(lǐng)域頂級會議AAAI上發(fā)表了遠(yuǎn)領(lǐng)域遷移學(xué)習(xí)的文章Distantdomaintransferlearning[Tanetal.,2017]，可以用人臉來識別飛機！這就好比是踩著一連串石頭過河。這些研究的意義在于，傳統(tǒng)遷移學(xué)習(xí)只有兩個領(lǐng)域足夠72遷移學(xué)習(xí)的研究領(lǐng)域是一個分類下的研究領(lǐng)域，也可能同時處于另一個分類下。下面我們對這些分類方法及相2.1按目標(biāo)域標(biāo)簽分1.監(jiān)督遷移學(xué)習(xí)(SupervisedTransferLearning)2.半監(jiān)督遷移學(xué)習(xí)(Semi-SupervisedTransferLearning)3.無監(jiān)督遷移學(xué)習(xí)(UnsupervisedTransferLearning)2.2按學(xué)習(xí)方法分類1.基于樣本的遷移學(xué)習(xí)方法(InstancebasedTransferLearning)2.基于特征的遷移學(xué)習(xí)方法(FeaturebasedTransferLearning)83.基于模型的遷移學(xué)習(xí)方法(ModelbasedTransferLearning)4.基于關(guān)系的遷移學(xué)習(xí)方法(RelationbasedTransferLearning)基于模型的遷移，就是說構(gòu)建參數(shù)共享的模型。這個主要就是在神經(jīng)網(wǎng)絡(luò)里面用的特別多，因為神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu)可以直接進(jìn)行遷移。比如說神經(jīng)網(wǎng)絡(luò)最經(jīng)典的finetune就是?；陉P(guān)系的遷移，這個方法用的比較少，這個主要就是說挖掘和利用關(guān)系進(jìn)行類比遷目前最熱的就是基于特征還有模型的遷移，然后基于實例的遷移方法和他們結(jié)合起來2.3按特征分類1.同構(gòu)遷移學(xué)習(xí)(HomogeneousTransferLearning)2.異構(gòu)遷移學(xué)習(xí)(HeterogeneousTransferLearning)2.4按離線與在線形式分1.離線遷移學(xué)習(xí)(OfflineTransferLearning)2.在線遷移學(xué)習(xí)(OnlineTransferLearning)93遷移學(xué)習(xí)的應(yīng)用滿足遷移學(xué)習(xí)問題情景的應(yīng)用，遷移學(xué)習(xí)都可以發(fā)揮作用。這些領(lǐng)域包括但不限于計算機3.1計算機視覺方法被稱為DomainAdaptation。Domainadaptation的應(yīng)用場景有很多，比如圖片分類、圖10展示了不同的遷移學(xué)習(xí)圖片分類任務(wù)示意。同一類圖片，不同的拍攝角度、不同計算機視覺三大頂會(CVPR、ICCV、ECCV)每年都會發(fā)表大量的文章對遷移學(xué)習(xí)在3.2文本分類到另一個領(lǐng)域上。這就需要用到遷移學(xué)習(xí)。例如，在電影評論文本數(shù)據(jù)集上訓(xùn)練好的分類器，不能直接用于圖書評論的預(yù)測。這就需要進(jìn)行遷移學(xué)習(xí)。圖11是一個由電子產(chǎn)品評論文本和網(wǎng)絡(luò)領(lǐng)域頂級會議WWW和CIKM每年有大量的文章對遷移學(xué)習(xí)在文本領(lǐng)域3.3時間序列行為識別(ActivityRecognition)主要通過佩戴在用戶身體上的傳感器，研究用戶的行時間序列數(shù)據(jù)的分布發(fā)生變化。此時，也需要進(jìn)行遷移學(xué)習(xí)。圖12展示了同一用戶不同位置的信號差異性。在這個領(lǐng)域，華盛頓州立大學(xué)的DianeCook等人在2013年發(fā)表的關(guān)于室內(nèi)定位(IndoorLocation)與傳統(tǒng)的室外用GPS定位不同，它通過WiFi、藍(lán)牙等設(shè)備研究人在室內(nèi)的位置。不同用戶、不同環(huán)境、不同時刻也會使得采集的信號分布發(fā)生變化。圖13展示了不同時間、不同設(shè)備的Wi3.4醫(yī)療健康醫(yī)療健康領(lǐng)域的研究正變得越來越重要。不同于其他領(lǐng)域，醫(yī)療領(lǐng)域研究的難點問題最近，頂級生物期刊細(xì)胞雜志報道了由張康教授領(lǐng)導(dǎo)的廣州婦女兒童醫(yī)療中心和加州大學(xué)圣迭戈分校團(tuán)隊的重磅研究成果：基于深度學(xué)習(xí)開發(fā)出一個能診斷眼病和肺炎兩大類在頂級生物醫(yī)學(xué)雜志發(fā)表有關(guān)醫(yī)學(xué)人工智能的研究成果；也是世界范圍內(nèi)首次使用如此龐4基礎(chǔ)知識本部分介紹遷移學(xué)習(xí)領(lǐng)域的一些基本知識。我們對遷移學(xué)習(xí)的問題進(jìn)行簡單的形式化，給出遷移學(xué)習(xí)的總體思路，并且介紹目前常用的一些度量準(zhǔn)則。本部分中出現(xiàn)的所有符號4.1遷移學(xué)習(xí)的問題形式化遷移學(xué)習(xí)的問題形式化，是進(jìn)行一切研究的前提。在遷移學(xué)習(xí)中，有兩個基本的概念：領(lǐng)域(Domain)和任務(wù)(Task)。它們是最基礎(chǔ)的概念。定義如下：4.1.1領(lǐng)域概率分布。通常我們用花體D來表示一個domain，用大寫斜體P來表示一個概率分布。特別地，因為涉及到遷移，所以對應(yīng)于兩個基本的領(lǐng)域：源領(lǐng)域(SourceDomain)和目標(biāo)領(lǐng)域(TargetDomain)。這兩個概念很好理解。源領(lǐng)域就是有知識、有大量數(shù)據(jù)標(biāo)注領(lǐng)域上的數(shù)據(jù)，我們通常用小寫粗體x來表示，它也是向量的表示形式。例如，xi就表示第i個樣本或特征。用大寫的黑體X表示一個領(lǐng)域的數(shù)據(jù)，這是一種矩陣形式。我們值得注意的是，概率分布P通常只是一個邏輯上的概念，即我們認(rèn)為不同領(lǐng)域有不同4.1.2任務(wù)任務(wù)(Task):是學(xué)習(xí)的目標(biāo)。任務(wù)主要由兩部分組成：標(biāo)簽和標(biāo)簽對應(yīng)的函數(shù)。通常我們用花體Y來表示一個標(biāo)簽空間，用f(·)來表示一相應(yīng)地，源領(lǐng)域和目標(biāo)領(lǐng)域的類別空間就可以分別表示為Ys和Yt。我們用小寫ys和4.1.3遷移學(xué)習(xí)遷移學(xué)習(xí)(TransferLearning):給定一個有標(biāo)記的源域Ds={xi,yi和一個無標(biāo)記的目標(biāo)域Dt={xj}。這兩個領(lǐng)域的數(shù)據(jù)分布P(xs)和P(xt)不同，即P(xs)P(xt)。遷移學(xué)習(xí)的目的就是要借助Ds的知識，來學(xué)習(xí)目標(biāo)域Dt的知識(標(biāo)簽)。(3)條件概率分布的異同：即Qs(ys|xs)和Qt(yt|xt)是否相等。結(jié)合上述形式化，我們給出領(lǐng)域自適應(yīng)(DomainAdaptation)這一熱門研究方向的領(lǐng)域自適應(yīng)(DomainAdaptation):給定一個有標(biāo)記的源域Ds={xi,yi和一個無標(biāo)記的目標(biāo)域假定它們的特征空間相同，即Xs=Xt，并且它們的類別空間也相同，即Ys=Yt。但是這兩個域的邊緣分布不同，即Ps(xs)Pt(xt)，條件概率分一個分類器f:xt}→yt來預(yù)測目標(biāo)域Dt的標(biāo)簽yt∈Yt.下標(biāo)s/t指示源域/目標(biāo)域Ds/Dt源域數(shù)據(jù)/目標(biāo)域數(shù)據(jù)x/X/X向量/矩陣/特征空間y/Y類別向量/類別空間(n,m)[或(n1,n2)或(ns,nt)]P(xs)/P(xt)Q(ys|xs)/Q(yt|xt)f(·)4.2總體思路際象棋和中國象棋是相似的；羽毛球和網(wǎng)球的打球方式是相似的。這種相似性也可以理解舉一個楊強教授經(jīng)常舉的例子來說明：我們都知道在中國大陸開車時，駕駛員坐在左4.3度量準(zhǔn)則度量不僅是機器學(xué)習(xí)和統(tǒng)計學(xué)等學(xué)科中使用的基礎(chǔ)手段，也是遷移學(xué)習(xí)中的重要工具。類算法就對距離非常敏感。本質(zhì)上就是找一個變換使得源域和目標(biāo)域的距離最小（相似度這里給出常用的度量手段，它們都是遷移學(xué)習(xí)研究中非常常見的度量準(zhǔn)則。對這些準(zhǔn)DISTANCE(Ds,Dt)=DistanceMeasure(·,·)(4.1)4.3.1常見的幾種距離dEuclidean=√(4.2)2.閔可夫斯基距離Minkowskidistance，兩個向量（點）的p階距離：dMinkowski=(|x—y|p)1/p(4.3)3.馬氏距離dMahalanobis=√(4.4)4.3.2相似度1.余弦相似度(4.5)余弦相似度也被一些遷移學(xué)習(xí)研究所使用。比如發(fā)表在2009年UbiComp上的文2.互信息(4.6)3.皮爾遜相關(guān)系數(shù)衡量兩個隨機變量的相關(guān)性。隨機變量X,Y的Pearson相關(guān)ρX,Y=(4.7)4.Jaccard相關(guān)系數(shù)(4.8)擴(kuò)展：Jaccard距離=1?J。4.3.3KL散度與JS距離1.KL散度Kullback–Leiblerdivergence，又叫做相對熵，衡量兩個概率分布P(x),Q(x)的距離：(4.9)這是一個非對稱距離：DKL(P||Q)DKL(Q||P).2.JS距離(4.10)其中M=+Q)。4.3.4最大均值差異MMD最大均值差異是遷移學(xué)習(xí)中使用頻率最高的度量。Maximummeandiscrepancy，它度量在再生希爾伯特空間中兩個分布的距離，是一種核學(xué)習(xí)方法。(4.11)其中?(·)是映射，用于把原變量映射到再生核希爾伯特空間(ReproducingKernelHilbertSpace,RKHS)[Borgwardtetal.,2006]中。什么是RKHS？形式化定義太復(fù)雜，簡Multiple-kernelMMD：多核的MMD，簡稱MK-MMD?，F(xiàn)有的MMD方法是基于單一核變換的，多核的MMD假設(shè)最優(yōu)的核可以由多個和計算方法在文獻(xiàn)[Grettonetal.,2012]中形式化給出。MK-MMD在許多后來的方法中被4.3.5PrincipalAngle個點。Principalangle是求這兩堆數(shù)據(jù)的對應(yīng)維度的夾角之和。對于兩個矩陣X,Y，計算方法：首先正交化(用PCA)兩個矩陣，然后：sinθi(4.12)XTY=U(cosΘ)VT(4.13)4.3.6A-distanceA-distance是一個很簡單卻很有用的度量。文獻(xiàn)[Ben-Davidetal.,2007]介紹了此距分兩個數(shù)據(jù)領(lǐng)域的hinge損失(也就是進(jìn)行二類分類的hinge損失)。它的計算方式是，我們首先在源域和目標(biāo)域上訓(xùn)練一個二分類器h，使得這個分類器可以區(qū)分樣本是來自于哪一個領(lǐng)域。我們用err(h)來表示分類器的損失，則A-distance定義為：A(Ds,Dt)=2(1?2err(h))(4.14)A-distance通常被用來計算兩個領(lǐng)域數(shù)據(jù)的相似性程度，以便與實驗結(jié)果進(jìn)行驗證對4.3.7Hilbert-SchmidtIndependenceCriterion希爾伯特-施密特獨立性系數(shù)，Hilbert-SchmidtIndependenceCriterion，用來檢驗兩組HSIC(X,Y)=trace(HXHY)(4.15)4.4遷移學(xué)習(xí)的理論保證*在第一章里我們介紹了兩個重要的概念：遷移學(xué)習(xí)是什么，以及為什么需要遷移學(xué)習(xí)。Blitzeretal.,2008,Ben-Davidetal.,2010]對遷移學(xué)習(xí)的理論進(jìn)行探討。在文中，作者將此稱之為“Learningfromdifferentdomains”。在三篇文章也成為了遷移學(xué)習(xí)理論方面的經(jīng)學(xué)習(xí)誤差：給定兩個領(lǐng)域Ds,Dt，X是定義在個領(lǐng)域Ds,Dt之間的H-divergence被定義為因此，這個H-divergence依賴于假設(shè)H來判別數(shù)據(jù)是來自于Ds還是Dt。作者證明[RDs(η?)+RDt(η?)](4.19)(4.20)另外，英國的Gretton等人也在進(jìn)行一些學(xué)習(xí)理論方面的研究，有興趣的讀者可以關(guān)5遷移學(xué)習(xí)的基本方法按照遷移學(xué)習(xí)領(lǐng)域權(quán)威綜述文章Asurveyontransferlearning[PanandYang,2010]，本部分簡要敘述各種方法的基本原理和代表性相關(guān)工作?；谔卣骱湍Ｐ偷倪w移方法5.1基于樣本遷移基于樣本的遷移學(xué)習(xí)方法(InstancebasedTransferLearning)根據(jù)一定的權(quán)重生成規(guī)在遷移學(xué)習(xí)中，對于源域Ds和目標(biāo)域Dt，通常假定產(chǎn)生它們的概率分布是不同且未知的(P(xs)P(xt))。另外，由于實例的維度和數(shù)量通常都非常大，因此，直接對P(xs)和P(xt)進(jìn)行估計是不可行的。因而，大量的研究工作[KhanandHeisterkamp,2016,Zadrozny,2004,Cortesetal.,2008,Daietal.,2007,Tanetal.,2015,Tanetal.,2017]著眼于對源域和目標(biāo)域的分布比值進(jìn)行估計(P(xt)/P(xs))。所估計得到的比值即為樣本的權(quán)重。這些方法通常都假設(shè)并且源域和目標(biāo)域的條件概率分布相同(P(y|xs)=AdaBoost的思想應(yīng)用于遷移學(xué)習(xí)中，提高有利于目標(biāo)分類任務(wù)的實例權(quán)重、降低不利于目標(biāo)分類任務(wù)的實例權(quán)重，并基于PAC理論推導(dǎo)了模型的泛化誤差上界。TrAdaBoost方法是此方面的經(jīng)典研究之一。文獻(xiàn)[Huangetal.,2007]提出核均值匹配方法(KernelMeanMatching,KMM)對于概率分布進(jìn)行估計，目標(biāo)是使得加權(quán)后的源域和目標(biāo)域的概率分布盡可能相近。在最新的研究成果中，香港科技大學(xué)的Tan等人擴(kuò)展了實例遷移學(xué)習(xí)方法的應(yīng)用場景，提出了傳遞遷移學(xué)習(xí)方法(TransitiveTransferLearning,TTL)[Tanetal.,2015]和遠(yuǎn)域遷移學(xué)習(xí)(DistantDomainTransferLearning,DDTL)[Tanetal.,2017]，利用聯(lián)合5.2基于特征遷移基于特征的遷移方法(FeaturebasedTransferLearning)是指將通過特征變換的方式互相遷移[Liuetal.,2011,Zhengetal.,2008,HuandYang,2011]，來減少源域和目標(biāo)域之間的差距；或者將源域和目標(biāo)域的數(shù)據(jù)特征變換到統(tǒng)一特征空間中[Panetal.,2011,Longetal.,2014b,Duanetal.,2012]，然后利用傳統(tǒng)的機器學(xué)習(xí)方法進(jìn)行分類識別。根據(jù)特征的同構(gòu)和異構(gòu)性，又可以分為同構(gòu)和異構(gòu)遷移學(xué)習(xí)。圖15很形象地表示了兩種基于特基于特征的遷移學(xué)習(xí)方法是遷移學(xué)習(xí)領(lǐng)域中最熱門的研究方法，這類方法通常假設(shè)源域和目標(biāo)域間有一些交叉的特征。香港科技大學(xué)的Pan等人[Panetal.,2011]提出的遷移成分分析方法(TransferComponentAnalysis,TCA)是其中較為典型的一個方法。該方法的核心內(nèi)容是以最大均值差異(MaximumMeanDiscrepancy,MMD)[Borgwardtetal.,2006]作為度量準(zhǔn)則，將不同數(shù)據(jù)領(lǐng)域中的分布差異最小化。加州大學(xué)伯克利分校的Blitzer等人[Blitzeretal.,2006]提出了一種基于結(jié)構(gòu)對應(yīng)的學(xué)習(xí)方法(StructuralCorrespondingLearning,SCL)，該算法可以通過映射將一個空間中獨有的一些特征變換到其他所有空間中的軸特征上，然后在該特征上使用機器學(xué)習(xí)的算法進(jìn)行分類預(yù)測。清華大學(xué)龍明盛等ferJointMatching,TJM)方法，將實例和特征遷移學(xué)習(xí)方法進(jìn)行了有機的結(jié)合。澳大利亞臥龍崗大學(xué)的JingZhang等人[Zhangetal.,2017a]提出對于源域和目標(biāo)域各自訓(xùn)練不同Longetal.,2017,Seneretal.,2016]，在神經(jīng)網(wǎng)絡(luò)的訓(xùn)練中進(jìn)行學(xué)習(xí)特征和模型的遷移。由5.3基于模型遷移基于模型的遷移方法(Parameter/ModelbasedTransferLearning)是指從源域和目標(biāo)域中找到他們之間共享的參數(shù)信息，以實現(xiàn)遷移的方法。這種遷移方式要求的假設(shè)條件是：源域中的數(shù)據(jù)與目標(biāo)域中的數(shù)據(jù)可以共享一些模型的參數(shù)。其中的代表性工作主要有[Zhaoetal.,2010,Zhaoetal.,2011,Panetal.,2008b,Panetal.,2008a]。圖16形象地室內(nèi)定位研究。另一部分研究人員對支持向量機SVM進(jìn)行了改進(jìn)研究[Nateretal.,2011,Lietal.,2012]。這些方法假定SVM中的權(quán)重向量w可以分成兩個部分：w=wo+v，其中w0代表源域和目標(biāo)域的共享部分，v代表了對于不同領(lǐng)域的特定處理。在最新的研究成果中，香港科技大學(xué)的Wei等人[Weietal.,2016b]將社交信息加入遷移學(xué)習(xí)方法的正則項中，對方法進(jìn)行了改進(jìn)。清華大學(xué)龍明盛等人[Longetal.,2015a,Longetal.,2016,網(wǎng)絡(luò)進(jìn)行結(jié)合[Longetal.,2015a,Longetal.,2016,Longetal.,2017,Tzengetal.,2015,Longetal.,2016]。這些方法對現(xiàn)有的一些神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)進(jìn)行修改，在網(wǎng)絡(luò)中加入領(lǐng)域適配5.4基于關(guān)系遷移基于關(guān)系的遷移學(xué)習(xí)方法(RelationBasedTransferLearning)與上述三種方法具有截然不同的思路。這種方法比較關(guān)注源域和目標(biāo)域的樣本之間的關(guān)系。圖17形象地表示了不就目前來說，基于關(guān)系的遷移學(xué)習(xí)方法的相關(guān)研究工作非常少，僅有幾篇連貫式的文章討論：[Mihalkovaetal.,2007,MihalkovaandMooney,2008,DavisandDomingos,2009]。這些文章都借助于馬爾科夫邏輯網(wǎng)絡(luò)(MarkovLogicNet)來挖掘不同領(lǐng)域之間的關(guān)系相似我們將重點討論基于特征和基于模型的遷移學(xué)習(xí)方法，這也是目前絕大多數(shù)研究工作6第一類方法：數(shù)據(jù)分布自適應(yīng)數(shù)據(jù)分布自適應(yīng)(DistributionAdaptation)是一類最常用的遷移學(xué)習(xí)方法。這種方法(a)源域數(shù)據(jù)合分布自適應(yīng)。下面我們分別介紹每類方法的基本原理和代表性研究工作。介紹每類研究6.1邊緣分布自適應(yīng)6.1.1基本思路邊緣分布自適應(yīng)方法(MarginalDistributionAdaptation)的目標(biāo)是減小源域和目標(biāo)域和P(xt)之間的距離來近似兩個領(lǐng)域之間的差異。即：DISTANCE(Ds,Dt)≈||P(xs)?P(xt)||(6.1)邊緣分布自適應(yīng)對應(yīng)于圖19中由圖19(a)遷移到圖19(b)的情形。6.1.2核心方法名稱為遷移成分分析(TransferComponentAnalysis)。由于P(xs)P(xt)，因此，直接減小二者之間的距離是不可行的。TCA假設(shè)存在一個特征映P(?(xs))≈P(?(xt))。TCA假設(shè)如果邊緣分布接近，那么兩個領(lǐng)域的條件分布也會接近，即條件分布P(ys|?(xs)))≈P(yt|?(xt)))。這就是TCA的全部思想。因此，我們現(xiàn)在的目更進(jìn)一步，這個距離怎么算？機器學(xué)習(xí)中有很多種形式的距離，從歐氏距離到馬氏距離，從曼哈頓距離到余弦相似度，我們需要什么距離呢？TCA利用了一個經(jīng)典的也算是比較“高端”的距離叫做最大均值差異(MMD，maximummeandiscrepancy)。我們令n1,n2TCA是怎么做的呢，這里就要感謝矩陣了！我們數(shù)的形式來求，不就可以了？于是，TCA引入了一個核矩陣K：(6.3)lij=tr(KL)—λtr(K)(6.5)其中，tr(·)操作表示求矩陣的跡，用人話來說就是一個矩陣對角線元素的和。這樣是不過它是一個數(shù)學(xué)中的半定規(guī)劃(SDP，semi-definiteprogramming)的問題，解決起來非常耗費時間。由于TCA的第一作者SinnoJialinPan以前是中山大學(xué)的數(shù)學(xué)碩士，他想用他想出了用降維的方法去構(gòu)造結(jié)果。用一個更低維度的矩陣W：=(KK?1/2)(TK?1/2K)=KWWTK(6.6)這里的W矩陣是比K更低維度的矩陣。最后的W就是問題的解答了！minWs.t.tr(WTKLKW)+μtr(WTW)WTKHKW=Im(6.7)這里的H是一個中心矩陣，H=In1+n2—1/(n1+n2)11T.這個式子下面的條件是什么意思呢？那個min的目標(biāo)我們大概理解，就是要最小化源TCA要維持的是什么特征呢？文章中說是variance，但是實際是scattermatrix，就是AHAT。這個H就是上面的中心矩陣?yán)?。解決上面的優(yōu)化問題時，作者又求了它的拉格朗日對偶。最后得出結(jié)論，W的解就是好了，我們現(xiàn)在總結(jié)一下TCA方法的步驟。輸入是兩個特征矩陣，我們首先計算L和H矩陣，然后選擇一些常用的核函數(shù)進(jìn)行映射(比如線性核、高斯核)計算K，接著求(KLK+μI)?1KHK的前m個特征值。僅此而已。然后，得到的就是源域和目標(biāo)域的降維為了形象地展示TCA方法的優(yōu)勢，我們借用[Panetal.,2011]中提在圖中展示了對于源域和目標(biāo)域數(shù)據(jù)(紅色和藍(lán)色)，分別由PCA(主成分分析)和TCA得處理后，概率分布更加接近。這說明了TCA在拉近圖20:TCA和PCA的效果對比6.1.3擴(kuò)展TCA方法是遷移學(xué)習(xí)領(lǐng)域一個經(jīng)典的方法，之后的許多研究工作都以TCA為基礎(chǔ)。?ACA(AdaptingComponentAnalysis)[DorriandGhodsi,2012]:在TCA中加入HSIC?DTMKL(DomainTransferMultipleKernelLearning)[Duanetal.,2012]:在TCA?TJM(TransferJointMatching)[Longetal.,2014b]:在優(yōu)化目標(biāo)中同時進(jìn)行邊緣分布?DDC(DeepDomainConfusion)[Tzengetal.,2014]:將MMD度量加入了深度網(wǎng)絡(luò)?DAN(DeepAdaptationNetwork)[Longetal.,2015a]:擴(kuò)展了DDC的工作，將MMD換成了MK-MMD，并且進(jìn)行多層los?DME(DistributionMatchingEmbedding):先計算變換矩陣，再進(jìn)行特征映射(與TCA順序相反)?CMD(CentralMomentMatching)[Zellingeretal.,2017]:MMD著眼于一階，此工6.2條件分布自適應(yīng)條件分布自適應(yīng)方法(ConditionalDistributionAdaptation)的目標(biāo)是減小源域和目標(biāo)域的條件概率分布的距離，從而完成遷移學(xué)習(xí)。從形式上來說，條件分布自適應(yīng)方法是用P(ys|xs)和P(yt|xt)之間的距離來近似兩個領(lǐng)域之間的差異。即：DISTANCE(Ds,Dt)≈||P(ys|xs)?P(yt|xt)||(6.8)條件分布自適應(yīng)對應(yīng)于圖19中由圖19(a)遷移到圖19(c)的情形。目前單獨利用條件分布自適應(yīng)的工作較少，這些工作主要可以在[Saitoetal.,2017]中找到。最近，中科院計算所的Wang等人提出了STL方法(StratifiedTransferLearn-ing)[Wangetal.,2018]。作者提出了類內(nèi)遷移(Intra-classTransfer)的思想。指出現(xiàn)有的絕大多數(shù)方法都只是學(xué)習(xí)一個全局的特征變換(GlobalDomainShift)，而忽略了類內(nèi)的相STL方法的基本思路如圖所示。首先利用大多數(shù)投票的思想，對無標(biāo)定的位置行為生SourcedomainTargetdomain1………1 Majority>voting2transfer2predict3Trans.predict3Second >annotation.Trans >annotation.Trans.<>為了實現(xiàn)類內(nèi)遷移，我們需要計算每一類別的MMD距離。由于目標(biāo)域沒有標(biāo)記，作其中，Ds(c)和Dt(c)分別表示源域和目標(biāo)域中屬于類別c的樣本。n1(c)=|Ds(c)|，且STL方法在大量行為識別數(shù)據(jù)中進(jìn)行了跨位置行為識別的實驗。實驗結(jié)果表明，該方6.3聯(lián)合分布自適應(yīng)6.3.1基本思路聯(lián)合分布自適應(yīng)方法(JointDistributionAdaptation)的目標(biāo)是減小源域和目標(biāo)域的聯(lián)P(xt)之間的距離、以及P(ys|xs)和P(yt|xt)之間的距離來近似兩個領(lǐng)域之間的差異。即：DISTANCE(Ds,Dt)≈||P(xs)?P(xt)||+||P(ys|xs)?P(yt|xt)||(6.10)聯(lián)合分布自適應(yīng)對應(yīng)于圖19中由圖19(a)遷移到圖19(b)的情形、以及圖19(a)遷移到6.3.2核心方法聯(lián)合分布適配的JDA方法[Longetal.,2013]首次發(fā)表于2013年的ICCV(計算機視和目標(biāo)域邊緣分布不同，2）源域和目標(biāo)域條件分布不同。既然有了目標(biāo)那么，JDA方法的目標(biāo)就是，尋找一個變換A，使得經(jīng)過變換后的P(ATxs)和P(ATxt)的距離能夠盡可能地接近，同時，P(ys|ATxs)和P(yt|ATxt)的距離也要小。很自然地，這首先來適配邊緣分布，也就是P(ATxs)和P(ATxt)的距離能夠盡可能地接近。其實這個操作就是遷移成分分析(TCA)。我們?nèi)匀皇褂肕MD距離來最小化源域和目標(biāo)域的最大均值差異。MMD距離是ATxi?ATxj(6.11)這個式子實在不好求解。我們引入核方法，化簡D(Ds,Dt)=tr(ATXM0XTA)(6.12)其中A就是變換矩陣，我們把它加黑加粗，X是源域和目標(biāo)域合并起來的數(shù)據(jù)。M0一個變換A，使得P(ys|ATxs)和P(yt|ATxt)的距離也要小。那么簡單了，我們再用一遍MMD啊?？墒菃栴}來了：我們的目標(biāo)域里，沒有yt，沒法求目標(biāo)域的條件這條路看來是走不通了。也就是說，直接建模P(yt|xt)不行。那么，能不能有別的辦法可以逼近這個條件概率？我們可以換個角度，利用類條件概率P(xt|yt)。根據(jù)貝葉斯公式P(yt|xt)=p(yt)p(xt|yt)，我們?nèi)绻雎訮(xt)，那么豈不是就可以用P(xt|yt)來近似P(yt|xt)？(比如knn、邏輯斯特回歸)，到xt上直接進(jìn)行預(yù)測?？偰軌虻玫揭恍﹤螛?biāo)簽t。我們根據(jù)ii其中，nc,mc分別標(biāo)識源域和目標(biāo)域中來(6.15)其中Mc為'('0,otherwise+λⅡAⅡ(6.17)換前后數(shù)據(jù)的方差要維持不變。怎么求數(shù)據(jù)的方差呢，還和TCA一樣：ATXHXTA=I，其中的H也是中心矩陣，I是單位矩陣。也就是說，我們又添加了一個優(yōu)化目標(biāo)是要maxATXHXTA(這一個步驟等價于PCA了)。和原來的優(yōu)化目標(biāo)合并，優(yōu)化目標(biāo)統(tǒng)一為：(6.18)+λⅡAⅡs.t.ATXHXTA=IA=XHXTAΦ(6.20)可是偽標(biāo)簽終究是偽標(biāo)簽啊，肯定精度不高，怎么辦？有個東西叫做迭代，一次不行，6.3.3擴(kuò)展JDA方法是十分經(jīng)典的遷移學(xué)習(xí)方法。后續(xù)的相關(guān)工作通過在JDA的基礎(chǔ)上加入額?ARTL(AdaptationRegularization)[Longetal.,2014a]:將JDA嵌入一個結(jié)構(gòu)風(fēng)險?VDA[TahmoresnezhadandHashemi,2016]:在JDA的優(yōu)化目標(biāo)中加入了類內(nèi)距和?[Hsiaoetal.,2016]:在JDA的基礎(chǔ)上加入結(jié)構(gòu)不變性控制1?[Houetal.,2015]：在JDA的基礎(chǔ)上加入目標(biāo)域的選擇?JGSA(JointGeometricalandStatisticalAlignment)[Zhangetal.,2017a]:在JDA?JAN(JointAdaptationNetwork)[Longetal.,2017]:提出了聯(lián)合分布度量JMMD，作者提出了BDA方法(BalancedDistributionAdaptation)來解決這一問題。該方法確而言，BDA通過采用一種平衡因子μ來動態(tài)調(diào)DISTANCE(Ds,Dt)≈(1?μ)DISTANCE(P(xs),P(xt))+μDISTANCE(P(ys|xs),P(yt|xt))(6.21)其中的平衡因子μ可以通過分別計算兩個領(lǐng)域數(shù)據(jù)的整體和局部的A-distance近似給出。特別地，當(dāng)μ=0時，方法退化為TCA；當(dāng)μ=0.5時，方法退化為JDA。衡因子可以取得比JDA、TCA更小的MMD距離、更高的精度。6.4小結(jié)1.精度比較：BDA>JDA>TCA>條件分布自適應(yīng)?！狟——B—TCA oBDA200(a)不同方法的MMD距離比較48Accuracy(%)46Accuracy(%)444240383634CWCCA→CWCCA→00.10.20.30.40.50.60.70.80.91(b)BDA方法中平衡因子μ的作用7第二類方法：特征選擇7.1核心方法這這個領(lǐng)域比較經(jīng)典的一個方法是發(fā)表在2006年的ECML-PKDD會議上，作者提出了一個叫做SCL的方法(StructuralCorrespondenceLearning)[Blitzeretal.,2006]。這個方法的目標(biāo)就是我們說的，找到兩個領(lǐng)域公共的那些特征。作者將這些公共的特征叫做Pivotfeature。找出來這些Pivotfeature，就完成了遷移學(xué)習(xí)的任務(wù)。圖25:特征選擇法中的Pivotfeature示意圖圖25形象地展示了Pivotfeature的含義。Pivotfeature指的是在文本分類中，在不同7.2擴(kuò)展?Jointfeatureselectionandsubspacelearning[Guetal.,2011]：特征選擇+子空間學(xué)習(xí)?TJM(TransferJointMatching)[Longetal.,2014b]:在優(yōu)化目標(biāo)中同時進(jìn)行邊緣分布?FSSL(FeatureSelectionandStructurePreservation)[Lietal.,2016]:特征選擇+信7.3小結(jié)?特征選擇法從源域和目標(biāo)域中選擇提取共享的特征，建立統(tǒng)一模型?通常與分布自適應(yīng)方法進(jìn)行結(jié)合?通常采用稀疏表示||A||2,1實現(xiàn)特征選擇8第三類方法：子空間學(xué)習(xí)子空間學(xué)習(xí)法通常假設(shè)源域和目標(biāo)域數(shù)據(jù)在變換后的子空間中會有著相似的分布。我們按照特征變換的形式，將子空間學(xué)習(xí)法分為兩種：基于統(tǒng)計特征變換的統(tǒng)計特征對齊方法，以及基于流形變換的流形學(xué)習(xí)方法。下面我們分別介紹這兩種方法的基本思路和代表8.1統(tǒng)計特征對齊統(tǒng)計特征對齊方法主要將數(shù)據(jù)的統(tǒng)計特征進(jìn)行變換對齊。對齊后的數(shù)據(jù)，可以利用傳SA方法(SubspaceAlignment，子空間對齊)[Fernandoetal.,2013]是其中的代表性F(M)=||XsM?Xt||(8.1)M?=arg(8.2)F(M)=||XXsM?XXt||=||M?XXt||(8.3)基于SA方法，Sun等人在2015年提出了SDA方法(SubspaceDistributionAlign-ment)[SunandSaenko,2015]。該方法在SA的基礎(chǔ)上，加入了概率分布自適應(yīng)。圖26示M=XsTAX(8.4)有別于SA和SDA方法只進(jìn)行源域和目標(biāo)域的一階特征對齊，S方法(CORrelationALignment)，對兩個領(lǐng)域進(jìn)行二階特征對齊。假設(shè)Cs和Ct分別是源領(lǐng)域和目標(biāo)領(lǐng)域的協(xié)方差矩陣，則CORAL方法學(xué)習(xí)一個二階特征變換A，使得源域和目min||ATCsA?Ct||(8.5)CORAL方法的求解同樣非常簡單且高效。CORAL方法被應(yīng)用到神經(jīng)網(wǎng)絡(luò)中，提出了DeepCORAL方法[SunandSaenko,2016]。作者將CORAL度量作為一個神經(jīng)網(wǎng)絡(luò)的損失進(jìn)行計算。圖展示了DeepCORAL方法的網(wǎng)絡(luò)結(jié)構(gòu)。?CORAL=||Cs?Ct||(8.6)圖27:Deep-CORAL方法示意圖8.2流形學(xué)習(xí)高維空間中的低維流形結(jié)構(gòu)。流形就是是一種幾何對象(就是我們能想像能觀測到的)。通俗點說就是，我們無法從原始的數(shù)據(jù)表達(dá)形式明顯看出數(shù)據(jù)所具有的結(jié)構(gòu)特征，那我把它想像成是處在一個高維空間，在這個高維空間里它是有個形狀的。一個很好的例子就是星自星座，比如織女座、獵戶座。流形學(xué)習(xí)的經(jīng)典方法有Isomap、locallylinearembedding、laplacianeigenmap等。流形空間中的距離度量：兩點之間什么最短？在二維上是直線地球上的兩個點的最短距離可不是直線，它是把地球展開成二維平面后畫的那條直線。那條線在三維的地球上就是一條曲線。這條曲線就表示了兩個點之間的最短距離，我們叫它測地線。更通俗一點，兩點之間，測地線最短。在流形學(xué)習(xí)中，我們遇到測量距離的時候，由于在流形空間中的特征通常都有著很好的幾何性質(zhì)，可以避免特征扭曲，因此我們可以通過將原始的d維子空間(特征向量)看作它基礎(chǔ)的元素，從而可以幫助學(xué)習(xí)分類器。在Grassmann流形中，特征變換和分布適配通常都有著有效的數(shù)值形式，因此在遷移學(xué)習(xí)問題中可以被很高效地表示和求解[HammandLee,2008]。因此，利用Grassmann流形空間中來進(jìn)行遷移學(xué)習(xí)是可行的。現(xiàn)存有很多方法可以將原始特征變換到流形空間中[Gopalanetal.,2011,Baktashmotlaghetal.,2014]。在眾多的基于流形變換的遷移學(xué)習(xí)方法中，GFK(GeodesicFlowKernel)方法[Gongetal.,2012]是最為代表性的一個。GFK是在2011年發(fā)表在ICCV上的SGF方法[Gopalanetal.,2SGF方法從增量學(xué)習(xí)中得到啟發(fā)：人類從一個點想到達(dá)另一個點，需要從這個點一步源域變換到目標(biāo)域的過程不就完成了遷移學(xué)習(xí)嗎？也就是說，路是于是SGF就做了這個事情。它是怎么做的呢？把源域和目標(biāo)域分別看成高維空間(即Grassmann流形)中的兩個點，在這兩個點的測地線距離上取d個中間點，然后依次連接SGF方法的主要貢獻(xiàn)在于：提出了這種變換的計算及實現(xiàn)了相應(yīng)的算法。但是它有很明顯的缺點：到底需要找?guī)讉€中間點？SGF也沒能給出答案，就是說這個參數(shù)d是沒法估GFK方法首先解決SGF的問題：如何確定中間點的個數(shù)d。它通過提出一種核學(xué)習(xí)的方法，利用路徑上的無窮個點的積分，把這個問題解決了。這是第一個貢獻(xiàn)。然后，它又解決了第二個問題：當(dāng)有多個源域的時候，我們?nèi)绾螞Q定使用哪個源域跟目標(biāo)域進(jìn)行遷移？GFK通過提出RankofDomain度量，度量出跟目標(biāo)域最近的源域，來解決這個問題。用Ss和St分別表示源域和目標(biāo)域經(jīng)過主成分分析(PCA)之后的子空間，則G可以此，在兩點之間的測地線{Φ(t):0≤t≤1}可以在兩個子空間之間構(gòu)成一條路徑。如果我們令Ss=Φ(0)，St=Φ(1)，則尋找一條從Φ(0)到Φ(1)的測地線就等同于將原始的特征變換到一個無窮維度的空間中，最終減小域之間的漂移現(xiàn)象。這種方法可以被看作是一種特別地，流形空間中的特征可以被表示為z=Φ(t)Tx。變換后的特征zi和zj的內(nèi)積定義了一個半正定(positivesemidefinite)的測地線流式核GFK方法詳細(xì)的計算過程可以參考原始的文章，我們在這8.3擴(kuò)展與小結(jié)子空間學(xué)習(xí)方法和概率分布自適應(yīng)方法可以有機地進(jìn)行組合，克服各自的缺點。下面?DIP(Domain-InvariantProjection)[Baktashmotlaghetal.,2013]:邊緣分布自適應(yīng)+?[Baktashmotlaghetal.,2014]:統(tǒng)計流形法，在黎曼流形上進(jìn)行距離度量。最近的一些工作[SunandSaenko,2016]顯示，子空間學(xué)習(xí)法和神經(jīng)網(wǎng)絡(luò)的結(jié)合會更9深度遷移學(xué)習(xí)隨著深度學(xué)習(xí)方法的大行其道，越來越多的研究人員使用深度對比傳統(tǒng)的非深度遷移學(xué)習(xí)方法，深度遷移學(xué)習(xí)直接提升了在不同任務(wù)上的學(xué)習(xí)效果。并地提取更具表現(xiàn)力的特征，以及滿足了實際應(yīng)用中的端到端(End-to-End)需求。近年來，以生成對抗網(wǎng)絡(luò)(GenerativeAdversarialNets,GAN)[Goodfellowetal.,2014]圖展示了近幾年的一些代表性方法在相同數(shù)據(jù)集上的表現(xiàn)。從圖中的結(jié)果我們可以看出，深度遷移學(xué)習(xí)方法(BA、DDC、DAN)對比傳統(tǒng)遷移學(xué)習(xí)方法(TCA、GFK等)，度網(wǎng)絡(luò)是可遷移的？然后，我們介紹最簡單的深度網(wǎng)絡(luò)遷移形式：finetune。接著分別介紹使用深度網(wǎng)絡(luò)和深度對抗網(wǎng)絡(luò)進(jìn)行遷移學(xué)習(xí)的基本思路和核心方法。值得注意的是，由于深度遷移學(xué)習(xí)方面的研究工作層出不窮，我們不可能覆蓋到所有最新的方法。但是基本上，9.1深度網(wǎng)絡(luò)的可遷移性隨著AlexNet[Krizhevskyetal.,2012]在2012年的ImageNet大賽上獲得冠軍，深度學(xué)習(xí)開始在機器學(xué)習(xí)的研究和應(yīng)用領(lǐng)域大放異彩。盡管取得了很好的結(jié)果，但是神經(jīng)網(wǎng)絡(luò)本身就像一個黑箱子，看得見，摸不著，解釋性不好。由于神經(jīng)網(wǎng)絡(luò)具有良好的層次結(jié)構(gòu)，這非常好理解，我們也都很好接受。那么問題來了：如何得知哪些層能夠?qū)W習(xí)到generalfeature，哪些層能夠?qū)W習(xí)到specificfeature。更進(jìn)一步：如果應(yīng)用于遷移學(xué)習(xí)，如何決定該來自康奈爾大學(xué)的JasonYosinski等人[Yosinskietal.,2014]率先進(jìn)行了深度神經(jīng)網(wǎng)為了更好地說明finetune的結(jié)果，作者提出了有趣的概念：AnB和BnB。遷移A網(wǎng)絡(luò)的前n層到B（AnB）vs固定B網(wǎng)絡(luò)的前相應(yīng)地，有BnB：把訓(xùn)練好的B網(wǎng)絡(luò)的前n層拿來并將它frozen，這個圖說明了什么呢？我們先看藍(lán)色的BnB和BnB+(就是BnB加上finetune)。對BnB而言，原訓(xùn)練好的B模型的前3層直接拿來就可以用而不會對模型精度有什么損失。然奇跡般地回升了！這是為什么？原因如下：對于一開始精度下降的第4第5層實是到了這一步，feature變得越來越specific，所以下降了。那對于第6第7層為什么精對BnB+來說，結(jié)果基本上都保持不變。說明finetune對模型結(jié)果有著很好的促進(jìn)作我們重點關(guān)注AnB和AnB+。對AnB來說，直接將A網(wǎng)絡(luò)的前3層遷移到B，貌似不會有什么影響，再一次說明，網(wǎng)絡(luò)的前3層學(xué)到的co-adaptation和featurerepresentation。就是說，第4第5層精度下降的時候，主要是由了，學(xué)習(xí)能力太差，此時feature學(xué)不到，所以精度下降得更厲再看AnB+。加入了finetune以后，AnB+的表現(xiàn)對于所有的n幾乎都非常好，甚至一些比較相似的類使結(jié)果好了？比如說A里有貓，B里有獅子，所下再做AnB，與原來精度比較（0%為基準(zhǔn)然還是可以遷移的！同時，與隨機初始化所有權(quán)重比較，遷?神經(jīng)網(wǎng)絡(luò)的前3層基本都是generalfeature，進(jìn)行遷移的效果會比較好；?深度遷移網(wǎng)絡(luò)中加入fine-tune，效果會提升比較大，可能會比原網(wǎng)絡(luò)效果還好；?Fine-tune可以比較好地克服數(shù)據(jù)之間的差異性；?網(wǎng)絡(luò)層數(shù)的遷移可以加速網(wǎng)絡(luò)的學(xué)習(xí)和優(yōu)化。9.2最簡單的深度遷移：finetune深度網(wǎng)絡(luò)的finetune也許是最簡單的深度網(wǎng)絡(luò)遷移方法。Finetune，也叫微調(diào)、fine-絡(luò)，針對自己的任務(wù)再進(jìn)行調(diào)整。從這個意思上看，我們不難理解finetune是遷移學(xué)習(xí)的2.為什么需要finetune？因為別人訓(xùn)練好的模型，可能并不是完全適用于我們自己的任務(wù)。可能別人的訓(xùn)練數(shù)的就是在CIFAR-100上訓(xùn)練好的神經(jīng)網(wǎng)絡(luò)。但是CIFAR-100有100圖36展示了一個簡單的finetune過程。從圖中我們可以看到，我們采用的預(yù)訓(xùn)練好的3.Finetune的優(yōu)勢Finetune的優(yōu)勢是顯然的，包括：?預(yù)訓(xùn)練好的模型通常都是在大數(shù)據(jù)集上進(jìn)行的，無形中擴(kuò)充了我們的訓(xùn)練數(shù)據(jù)，使得?Finetune實現(xiàn)簡單，使得我們只關(guān)注自己的任務(wù)即可。4.Finetune的擴(kuò)展tune是一個理想的選擇。Finetune并不只是針對深度神經(jīng)網(wǎng)絡(luò)有促進(jìn)作用，對傳統(tǒng)的非深度學(xué)習(xí)也有很好的效伯克利的研究人員提出了DeCAF特征提取方法[Donahueetal.,2014]，直接使用深度卷積入[Razavianetal.,2014]，顯著提9.3深度網(wǎng)絡(luò)自適應(yīng)9.3.1基本思路深度網(wǎng)絡(luò)的finetune可以幫助我們節(jié)省訓(xùn)練時間，提高學(xué)習(xí)精度。但是finetune有它的先天不足：它無法處理訓(xùn)練數(shù)據(jù)和測試數(shù)據(jù)分布不同的情況。而這一現(xiàn)象在實際應(yīng)用中比比皆是。因為finetune的基本假設(shè)也是訓(xùn)練數(shù)據(jù)和測試數(shù)據(jù)服從相同的數(shù)據(jù)分布。這在Longetal.,2015a]都開發(fā)出了自適應(yīng)層(AdaptationLayer)來完成源域和目標(biāo)域數(shù)據(jù)的自深度網(wǎng)絡(luò)中最重要的是網(wǎng)絡(luò)損失的定義。絕大多數(shù)深度遷移學(xué)習(xí)方法都采用了以下的l=lc(Ds,ys)+λlA(Ds,Dt)(9.1)其中，l表示網(wǎng)絡(luò)的最終損失，lc(Ds,ys)表示網(wǎng)絡(luò)在有標(biāo)注的數(shù)據(jù)(大部分是源域)上的常規(guī)分類損失(這與普通的深度網(wǎng)絡(luò)完全一致)，lA(Ds,Dt)表示網(wǎng)絡(luò)的自適應(yīng)損失。最后一部分是傳統(tǒng)的深度網(wǎng)絡(luò)所不具有的、遷移學(xué)習(xí)所獨有的。此部分的表達(dá)與我們先前討論自適應(yīng)度量，最后對網(wǎng)絡(luò)進(jìn)行finetu9.3.2核心方法前期的研究者在2014年環(huán)太平洋人工智能大會(PRICAI)上提出了一個叫做DaNN(DomainAdaptiveNeuralNetwork)的神經(jīng)網(wǎng)絡(luò)[Ghifaryetal.,2014]。DaNN的結(jié)構(gòu)異常簡單，它僅由兩層神經(jīng)元組成：特征層和分類器層。作者的創(chuàng)新工作在于，在特征層后加入了一項但是，由于網(wǎng)絡(luò)太淺，表征能力有限，故無法很有效地解決domainadaptation問題。因此，后續(xù)的研究者大多數(shù)都基于其思想進(jìn)行擴(kuò)充，如將淺層網(wǎng)絡(luò)改為更深層的AlexNet、ResNet、VGG等；如將MMD換為多核的MMD等。1.第一個方法：DDC加州大學(xué)伯克利分校的Tzeng等人[Tzengetal.,2014]首先提出了一個DDC方法(DeepDomainConfusion)解決深度網(wǎng)絡(luò)的自適應(yīng)問題。DDC遵循了我們上述討論過的基本思路，采用了在ImageNet數(shù)據(jù)集上訓(xùn)練好的AlexNet網(wǎng)絡(luò)[Krizhevskyetal.,2012]進(jìn)層)上加入了自適應(yīng)的度量。自適應(yīng)度量方法采用了被廣泛使用的MMD準(zhǔn)則。DDC方法?=?c(Ds,ys)+λMMD2(Ds,Dt)(9.2)為什么選擇了倒數(shù)第二層?DDC方法的作者在文章中提到，他們經(jīng)過了多次實驗，在這也是與我們的認(rèn)知相符合的。通常來說，分類器前一層即特征，在特征上加入自適2.DAN來自清華大學(xué)的龍明盛等人在2015年發(fā)表在機器(DeepAdaptationNetworks)[Longetal.,2015a]對DDC方法進(jìn)行了幾個方面的擴(kuò)展。首度網(wǎng)絡(luò)的訓(xùn)練中，不增加網(wǎng)絡(luò)的額外訓(xùn)練時間。DAN方法在多個任務(wù)上都取得了比DDC中已經(jīng)說了，網(wǎng)絡(luò)的遷移能力在這三層開始就會特別地task-specific，所以要著重適配這三層。至于別的網(wǎng)絡(luò)（比如GoogLeNet、VGG）等是不是這三層就需要通過測。DAN只關(guān)注使用AlexNet。MK-MMD的多核表示形式為本上所有的機器學(xué)習(xí)方法都會定義一個損失函數(shù)，它來度量預(yù)測值和真實值的差異。分布距離就是我們上面提到的MK-MMD距離。于是，DAN的優(yōu)化目標(biāo)就是這個式子中，Θ表示網(wǎng)絡(luò)的所有權(quán)重和bias參數(shù)，是用來學(xué)習(xí)的目標(biāo)。其中l(wèi)1,l2分別是6和8,表示網(wǎng)絡(luò)適配是從第6層到第8層，前面的不進(jìn)行適配。xa,na表示目標(biāo)域中所有有標(biāo)注的數(shù)據(jù)的集合。J(·)就定義了一個損失函數(shù)，在深度網(wǎng)絡(luò)中一般都是cross-entropy。DAN的網(wǎng)絡(luò)結(jié)構(gòu)對Θ的學(xué)習(xí)依賴于MK-MMD距離的計算。通過kerneltrick(類比以前的MMD變采用了Gretton在文章[Grettonetal.,2012]提出的對MK-MMD的無偏估計：d(p,q)=Σ2gk(zi)，其中的zi是一個四元組：zi纟(xi?1,xi,xi?1,xi)。將kernel作用到zi上以后，變成gk(zi)纟k(xi?1,xi)+k(xi?1,xi)?k(xi?1,xi)?k(xi,xi?1)。2.這樣就可以把時間復(fù)雜度降低到O(n)！至于具體的理論，可以去參考Gretton的論文，maxk∈Kd(D,D)σ2(9.5)這里的σ2=E[g(z)]?[E(gk(z))]2是估計方差。實際求解的時候問題可以被規(guī)約成3.同時遷移領(lǐng)域和任務(wù)DDC的作者Tzeng在2015年擴(kuò)展了DDC方法，提出了領(lǐng)域和任務(wù)同時遷移的方一是domaintransfer，就是適配分布，特別地是指適配marginaldistribution，但是沒有考慮類別信息。如何做domaintransfer：在傳統(tǒng)深度網(wǎng)路的loss上，再加另一個confusiontransfer。二是tasktransfer，就是利用class之間的相似度，其實特指的是conditionaldistribu-鍵盤不相似。文章的原話：itdoesnotnecessarilyaligntheclassesinthetargetwiththoseinthesource.Thus,wealsoexplicitytransferthesimilaritystructureamongstcategories.現(xiàn)有的深度遷移學(xué)習(xí)方法通常都只是考慮domaintransfer，而沒有考慮到類別之間的信息。如何把domain和tasktransfer結(jié)合起來

人人文庫> 全部分類> 教育資料 > 課件下載

溫馨提示

1. 本站所有資源如無特殊說明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽，若沒有圖紙預(yù)覽就沒有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 人人文庫網(wǎng)僅提供信息存儲空間，僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理，對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對任何下載內(nèi)容負(fù)責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容，請與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

機器遷移學(xué)習(xí)入門手冊

文檔簡介

溫馨提示

最新文檔

評論

相關(guān)文檔