2022機器視覺計算技術_第1頁
2022機器視覺計算技術_第2頁
2022機器視覺計算技術_第3頁
2022機器視覺計算技術_第4頁
2022機器視覺計算技術_第5頁
已閱讀5頁,還剩37頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

|CVPR(ConferenceonComputerVisionandPatternRecognition)是計算機視覺領域的頂日在美國猶他州鹽湖城舉辦。本屆大會有超過3300篇的大會論文投稿,錄取979篇(接受率約為29%),其中包括70篇Oral論文和224篇Spotlight論文,參會人數達到GUAlipres,Laada等電商appKUCVPR18者晚宴、展臺技術TalkFashionAI、鹿班CV7SpotlghtGrundTruhSpotlght()Pacalontex,SN-RBD和COOStuffSotlghtof-the-artocaizedGANodecollaseGANLalac-BetraicalizdGN(GAN)GAN的moecllaseCNNSISR)算法不能擴SISR(即模糊核和噪聲水平)作為網絡輸入來解決SISR大多數現有的零樣本學習(Zero-ShotLearning,ZSL)方法都存在強偏問題。在論文《基于ZSLAI阿里巴巴Spotlight論文:基于時間尺度選擇的在線行為預 實 摘 引 方 實 總 阿里巴巴Poster論文:整體還是局部?應用LocalizedGAN進行圖像內容編輯、半監(jiān)督訓練和解決modecollapse問 摘 GAN和基于圖模型的半監(jiān)督機器學習的關 從幾何角度研究Modecollapse問 阿里巴巴Poster論文:處理多種退化類型的卷積超分辨 阿里巴巴Poster論文:基于尺度空間變換的本征圖像分 摘 引 實 結 阿里巴巴Poster論文:基于直推式無偏嵌入的零樣本學 摘 引 QFSL模 實 討 結 0在這篇論文中,作者提出了一個“尺度選擇網”(scaleselectionnetwork)來在不同時刻diledcovoltio)erachia1,第243中,來估計當前動作的當前幀到該動作起始幀之間的距離(s)s((c3,133skpcnneionSSNetSSNet-GTGroundTruthFS-Net(S)則表示在所有時間點均采用同一個固定的尺度用于行為預測。ST-LSTMT-PAMISkeleton-BasedActionRecognitionUsingSpatio-TemporalLSTMNetworkwithTrustGates”。AttentionNetCVPR17“GlobalContext-AwareAttentionLSTMNetworksfor3DActionRecognition”。JCR-RNNMSRAPKUECCV16OnlineHumanActionDetectionusingJointClassification-RegressionRecurrentNeuralNetworks”??梢钥吹?,本文提出SSNetGroundTruthCVPR-18Spotlight論文:基于語境對比特征和門控多尺度融合并且使得像素Askip(如圖三所CVPR-18Spotlight論文:\h所見所想所找-基于生成模型的跨模\hMSCOCOFlickr30Kstate-of-the-artankngloss型的跨模態(tài)特征學習框架(generativecross-modalfeaturelearningframework,GXN),下LookMatchLook,ImagineMatch,也稱為”所看所想所找”。LookImagine看”去“腦補”預期的匹配結果,也就是從得到的局部特征去生成目標模態(tài)的數據;MatchGXN(上部區(qū)域);圖像-文本生成特征學習(藍色路徑)和射到共同空間。這里包括一個圖像編碼器CNNEnc和兩個句子編碼器RNN?和RNN?? 2(??????)是高層語義特征而(????????)作為局部層次的特征。這里的局部層次特征是通過生成模型學習得到的。第三部分(綠色路徑)cGAN????中生成一幅圖像,包括一個只需要計算{???,???}和{????,????}之間的相似度來進行跨模態(tài)檢索。本文提出的方法在MSCOCOstate-of-the-不僅能學習到多模態(tài)數據的高層的抽象表示,還能學習到底層的表示。顯著超越state-of-the-artPosterLocalizedGAN進modecollapse問題GAN局部的AN整體方法Lalac-Betrairap時我們還展示了如果用calizdGN(GANGAN的odeollapeUCFUCFMAPLE實驗室(MAchinePerceptionandLEarning)和阿CVPR2018Guo-JunQi,LihengZhang,HaoHu,MarziehEdraki,JingdongWangandXian-ShengHua.GlobalversusLocalizedGenerativeAdversarialNets,inCVPR2018.GANanioldGap)Grph它輸出z,我們就可以在高維空間中劃出一個流型結構。G,我們可以在數據流型上研究各種幾何結構。比如切向量空LaplacianLaplace-Beltrami法在一些數據集上得到的結果。更多的結果可以參考我們的論文“GlobalversusLocalizedGenerativeAdversarialNetworks“。同時,使用局部坐標系的另一個更加實際的好處是,我們給定一個目標數據點xG(zzxzGANmodecollapseGAN,modecollapseGAN的modecollapsezz,GNmecolapsdmenondeicint。constraintCelebAGAN這個思GANGAN數據樣本或者一個batchGAN論文原文地址\h展。然而現有基于CNNSISR(LR)圖像由高分辨率(HR)圖像經過雙三SISR(即模糊核和噪聲水SISR其中表示HR清晰圖像??與模糊核??之間的卷積,表示系數為??的降采樣算子,??表示標準差(噪聲水平)為的加性高斯白噪聲(AWGN)。SISR的方法尤其是基于CNNSISRCNNSIRSRNN在EC(14)VSR在PSRESPN和FSRNNGANicuic)SISRISRNNn-bndSI本文首先分析了在最大后驗(MAP)SISRCNNSISRLR??對應HR??可以通過求解下述問題近似,其中為似然(也即數據保真)項,為先驗(也即正則)項,為似然項和先驗項之間的權衡參數。簡單來說,上述公式包含兩點:1)HRSISR2)對于非盲超分辨率問題,??的求LR??、模糊核??、噪聲水平以及權衡參數SISRMAPCNNCNNSISR水平CNNMAPCNNSISRLRCNNLRW×HPCA噪聲水平并在一起得到一個t+1維的向量??,接著將??拉伸為W×H×(t+1)維的張量,我們將此張量稱之為退化圖(DegradationMaps),其中第??個W×H圖的所有元素均為????。LRCNN選取了快速有效的ESPCNLRBatchNormalization在訓練階段,SRMD075]之間的高斯在測試階段,SRMDbicubicPSNR和SSIM(如表1)??梢钥闯鲭m然SRMDbicubicSRMDTitanXpGPU512×512LR0.084VDSR2PSNRSSIMSRMD4SRMDLR5SRMDHR4SRMD(a)噪聲水平以及模糊核寬度的空間分布;(b)LR(最近鄰插值放大);(c)HR(放大兩倍)。通過實驗展示了用合成圖像訓練得到的超分辨網絡模型可以有效地處理真實圖像復現出優(yōu)異的性能。我們在兩個基準數據集上評估了網絡:MPI-SintelMITIntrinsicImagesetinx-rMPI-SintelMIT相關工作(略I轉換為輸出圖像A非局部映射函數If()L(3)中,我們將描述從ResNet我們將圖像I[I0,I1,...,IK]I0=I,KLk(I)=Iku(k1ku拉普拉斯金字塔展開為I=[L0(I),L1(I),...,Lk?1(I),IKL0(IIK首先,讓我們使用兩個塊(LH)的簡化網絡來為低頻帶的映射建模映射I→f(I):L,并HL省略。通過將LH連接和求和,該網絡是ResNet一個關鍵的過渡是從(b)到(c)LHH(c)等價于(b)-它們表示拉普拉斯分解方程的兩種等價形式,即通過將剩余分量從左手邊移到右手邊并改變符號。(c)Ld,為此類似于拉普拉斯金字塔分解結構,我們?yōu)楦哳l帶引入多個子網絡塊H0,H1,......HK-1LK:網絡輸入塊級聯下采樣,并且網絡塊的輸出被上采樣并從左到右聚合以形成目標輸出。在網絡中學習下采樣和上采樣算子的所有參數(2形)3.26Conv(3x3)-ELU-Conv(3x3)-ELUHuangDenseNet中,最后一個ConvELU3231x1Conv我們使用指數線性單位(ELU)ReLUx<0ELUBNELU換,ELU2?=?????????????+?????????????????+數據損失數據損失定義了預測圖像與真實之間的像素級相似性。我們采用下面的聯合雙邊 =

??∑||?????????||2+||??????

??????=

??????=

CNN們利用標準的VGG-19[44]網絡從神經激活中提取語義信息。我們的感知損失定義如下: =

??????||Φ??(??)?

????變分損失 ?????=

|????+??,???????,??|+|????,??+1?Boostrap證明是相當有效的。例如,LiAA和S為了在增強數據集中引入進一步的擾動,我們另外應用自適應流形濾波器到AS,并使用過濾結果合成新數據。AMFASMP-Sntl187500ResynhSitelAS=I()MTIntrnsc011ConstantShadingConstantAlbedo,一些傳統(tǒng)方法以及最新的最新的基于神經網絡si-MSE25%,在DSSIM43%,這表明我們網絡結構在更具有挑戰(zhàn)性的數據集上依然表現良好。3.1題,傳播。該行(OursSequential)2(a)顯示了結果。它顯示該架構產DSSIM1-210%-15%的改進。我們也有一套關于其他因素的控制自我比較,包括金字塔結構,損失實驗(OurswoPyramid)使用單通道網絡顯示結果,即,我們使用單個殘差1230%以上。請注意,隨著金字塔層數的增加,網絡復雜損失函數實驗(Oursw/MSEloss)MSE事實證明,MSEMSEMSE(DSSIM)MSE們的損失之間也顯示出更清晰的邊際(10.238.86)。CNN我們進一步研究在這個任務中高斯金字塔圖像分量作為我們網絡輸入的影CNN(Oursw/'FPN'input)CNNFPNCNNITntrnsicImagsOurs+A和Ours+DAOus+DAOus+DAMPISintelMIT大多數現有的零樣本學習(Zero-ShotLearning,ZSL)方法都存在強偏問題:訓練階段看不見(目標)類的實例在測試時往往被歸類為所看到的(源)ZSLAwA2,CUBSUNZSL9.3%至24.5ZSL0.216.2%的提升。2ZSL2ZSL(inductiveZSLZSL(transductiveZSLZSL,訓練階段只能獲取得到ZSL,訓練階段可以獲取到有標注的源類數據和未標注的目標類數據。直推ZSLZSLZSLZSL(conventionalsettings)。然而,在一個更加實際的應用場景中,測試圖像不僅來源于目標叫作廣義設定(generalizedsettings)。ZSLZSLZSL強偏(stongbia(1:在ZSLZSL(Quasi-FullySupervisedLearning,QFSL)2AlxNe、GgleNt();()相關工作(略假設存在一個源數據集????={(????????)}????,每張圖片????與相應的標簽????對應,其中????∈????=

{(??)}??,S表示源類中類的個數。目標數據集????={(????????)}????,每張圖片????與相應的標簽??????

應,其中????∈????={(????)}??,T表示目標類中類的個數。ZSL

??(??;??)=argmax??∈????(??,??;??(??,??;??)=? ∑???(????,??(????;??))+??本文假設給定標注源數據集????,無標注目標數據集????={(????)}????和語義嵌入??ZSL ??4eLUsftmxCNN??CNNCNN模型??ZSLCNN??(??,??;??)=??(??(??;????);入:???(??)=??(??)。[???(??1)???(??2)???(????+??)]來初始化。和視覺嵌入子網絡和視覺-語義銜接子網絡不同的是,得與視覺嵌入???(????)此,在訓練階段,我們的模型對于一張給定的圖像,產生了??+??個得分。經過得分函數后,我們

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論