人工智能-計算機視覺-2019_第1頁
人工智能-計算機視覺-2019_第2頁
人工智能-計算機視覺-2019_第3頁
人工智能-計算機視覺-2019_第4頁
人工智能-計算機視覺-2019_第5頁
已閱讀5頁,還剩92頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

計算機視覺計算機視覺本章參考講義:《動手學深度學習》第9章計算機視覺計算機視覺典型任務-圖像分類-定位-目標識別-目標檢測-語義分割-目標追蹤圖像處理基本原理計算機視覺基本原理-通用策略-現(xiàn)有數(shù)據(jù)集目標檢測原理及模型-R-CNN-F-RCNN-YOLO系列-SSD語義分割

計算機視覺計算機視覺典型任務-圖像分類-定位-目標識別-目標檢測-語義分割-目標追蹤圖像處理基本原理計算機視覺基本原理-通用策略-現(xiàn)有數(shù)據(jù)集目標檢測原理及模型-R-CNN-F-RCNN-YOLO系列-SSD語義分割

計算機視覺典型任務計算機視覺解決的主要問題是:給出一張二維圖像,計算機視覺系統(tǒng)必須識別出圖像中的對象及其特征,如形狀、紋理、顏色、大小、空間排列等,從而盡可能完整地描述該圖像。計算機視覺典型任務計算機視覺典型任務區(qū)分計算機視覺與其相關(guān)領(lǐng)域圖像處理圖像處理旨在處理原始圖像以應用某種變換。其目標通常是改進圖像或?qū)⑵渥鳛槟稠椞囟ㄈ蝿盏妮斎?,而計算機視覺的目標是描述和解釋圖像。例如,降噪、對比度或旋轉(zhuǎn)操作這些典型的圖像處理組件可以在像素層面執(zhí)行,無需對圖像整體具備全面的了解。機器視覺機器視覺是計算機視覺用于執(zhí)行某些(生產(chǎn)線)動作的特例。在化工行業(yè)中,機器視覺系統(tǒng)可以檢查生產(chǎn)線上的容器(是否干凈、空置、無損)或檢查成品是否恰當封裝,從而幫助產(chǎn)品制造。計算機視覺典型任務計算機視覺計算機視覺可以解決更復雜的問題,如人臉識別、詳細的圖像分析(可幫助實現(xiàn)視覺搜索,如GoogleImages),或者生物識別方法。計算機視覺典型任務

目標識別(objectrecognition)給定一幅圖像檢測到圖像中所有的目標(類別受限于訓練集中的物體類別)得到檢測到的目標的矩形框,并對所有檢測到的矩形框進行分類

計算機視覺典型任務目標檢測(objectdetection)定位+分類與objectrecognition目標類似但只有兩個類別,只需要找到目標所在的矩形框和非目標矩形框例如,人臉檢測(人臉為目標、

背景為非目標)、汽車檢測(汽車為目標、

背景為非目標)計算機視覺典型任務語義分割(semanticsegmentation)需要對圖像的每一個像素點進行分類這里的類別為:多個目標類別和多個非目標類別左邊為輸入圖像,右邊為經(jīng)過語義分割后的輸出圖像,該模型不僅要識別出摩托車和駕駛者還要標出每個對象的邊界。因此,與分類目的不同,相關(guān)模型要具有像素級的密集預測能力計算機視覺計算機視覺典型任務-圖像分類-定位-目標識別-目標檢測-語義分割-目標追蹤圖像處理基本原理計算機視覺基本原理-通用策略-現(xiàn)有數(shù)據(jù)集目標檢測原理及模型-邊界框、錨框-F-RCNN-YOLO系列-SSD語義分割

光學圖像LenaIKONOS衛(wèi)星光學圖像423mile高16000miles/h1m分辨率EP-3,海南陵水,01-4-4大腦斷層圖像

SIR-CSARL/r-L/g-C/bHH-HV-HVpolar沙漠中的長城April10,199425kmx75km

圖像圖像處理基本原理什么是圖像?

圖像:對客觀存在的物體的某種屬性的描述。 光學圖像: 波長0.38-0.8um

其他波段圖像: 伽瑪射線:0.003-0.03nm X射線:0.03-3nm

紫外線:3-300nm

紅外線:0.8-300um

微波:0.3-100cm

聲波圖: 如B超 其他: 由感興趣的物理量轉(zhuǎn)換而成,如密度分布圖。使用圖像的通常是人,人約有80%的信息由視覺獲得。

圖像處理圖像處理基本原理什么是圖像處理?

圖像處理就是對圖像信息進行加工處理,以滿足人的視覺心理和實際應用的要求。

例子:調(diào)整了亮度和對比度圖像處理基本原理圖像處理(增強、復原、編碼和壓縮)圖像輸入圖像輸出以人為最終的信息接收者,其主要目的是改善圖像的質(zhì)量。(a)圖像處理的幾個基本目的:圖像預處理(增強、復原)圖像分割特征提取圖像分類圖像輸入符號輸出(b)

另一類圖像處理以機器為對象,目的是使機器或計算機能自動識別目標,稱為圖像識別。圖像處理的內(nèi)容

圖像變換

圖像編碼

圖像增強

圖像分割

圖像的理解和識別圖像處理圖像處理基本原理圖像變換:

如付立葉變換、沃爾什變換、離散余弦變換(DCT)等間接處理技術(shù),將空間域的處理轉(zhuǎn)換為變換域處理,不僅可減少計算量,而且可獲得更有效的處理。目前小波變換在時域和頻域中都具有良好的局部化特性,它在圖像處理中也有著廣泛而有效的應用。圖像處理基本原理19圖像編碼壓縮:

圖像編碼壓縮技術(shù)可減少描述圖像的數(shù)據(jù)量(即比特數(shù)),以便節(jié)省圖像傳輸、處理時間和減少存儲器容量。壓縮可以在不失真前提下獲得,也可以在允許的失真條件下進行。編碼是壓技縮技術(shù)中最重要的方法,它在圖像處理技術(shù)中是發(fā)展最早且比較成熟的技術(shù)。圖像處理基本原理2024/11/138x8的DCT變換,64個系數(shù)中只保留6個低頻分量。圖像增強和復原:2024/11/1321目的是提高圖像的質(zhì)量,如去除噪聲,提高清晰度等。圖像增強不考慮圖像降質(zhì)的原因,突出圖像中所感興趣的部分。如強化圖像高頻分量,可使圖像中物體輪廓清晰,細節(jié)明顯;如強調(diào)低頻分量可減少圖像中噪聲影響。圖像復原要求對圖像降質(zhì)的原因有一定的了解,建立“降質(zhì)模型”,再采用某種方法,恢復或重建原來的圖像。圖像增強圖像處理基本原理2024/11/1322/group/dipr圖像增強圖像處理基本原理運動模糊圖像恢復圖像圖像恢復圖像處理基本原理2024/11/1324圖像分割數(shù)字圖像處理中的關(guān)鍵技術(shù)之一。將圖像中有意義的特征部分提取出來,其有意義的特征有圖像中物體的邊緣、區(qū)域等,進一步進行圖像識別、分析和理解的基礎(chǔ)。圖像分割圖像處理基本原理2024/11/1325

像分圖像識別數(shù)據(jù)獲取模式分割模式識別姚明ROCKETS11圖像識別DatadrivenModelbased圖像檢索圖像降噪2024/11/13282024/11/1329在安檢系統(tǒng)中的偽彩色圖像增強2024/11/1330PS2024/11/1331視頻監(jiān)控--世界上超級大數(shù)據(jù)生成器

補充:圖像處理基本原理相關(guān)圖像特征:灰度灰度分辨率圖像的頻率紋理材質(zhì)把白色與黑色之間按對數(shù)關(guān)系分為若干等級,稱為灰度。灰度分為256階。用灰度表示的圖像稱作灰度圖。一幅完整的圖像,是由RGB三個通道組成的。三個通道的縮覽圖都是以灰度顯示的。用不同的灰度色階來表示“紅,綠,藍”在圖像中的比重?;叶葓D像在黑色與白色之間還有許多級的顏色深度?;叶葓D像經(jīng)常是在單個電磁波頻譜如可見光內(nèi)測量每個像素的亮度得到的。用于顯示的灰度圖像通常用每個采樣像素8位的非線性尺度來保存,這樣可以有256級灰度。這種精度剛剛能夠避免可見的條帶失真,并且非常易于編程。在醫(yī)學圖像與遙感圖像這些技術(shù)應用中經(jīng)常采用更多的級數(shù)以充分利用每個采樣10或12位的傳感器分辨率,并且避免計算時的近似誤差。2024/11/1334數(shù)字圖像顯示2024/11/1335數(shù)字圖像灰度表示(灰度化)f(x,y)灰度:R=G=B2024/11/1336灰度圖像紅綠藍彩色圖像彩色圖像圖像分辨率圖像分辨率是指每英寸圖像內(nèi)的像素點數(shù)。圖像分辨率是有單位的,叫ppi(像素每英寸)。分辨率越高,像素的點密度越高,圖像越逼真空間分辨率空間分辨率是指圖像可辨認的臨界物體空間幾何長度的最小極限。如果一幅圖像的尺寸為MxN,表明在成像時采集了MxN個樣本,空間分辨率是MxNpixels2024/11/1338數(shù)字圖像的空間分辨率5122561286432GMN

5125122562561281286464323216162024/11/13392024/11/1340數(shù)字圖像灰度分辨率2563282圖像灰度級2561286432168422024/11/1341數(shù)字圖像的基本特點(1)處理的大多是二維信息,信息量大。

256x256黑白圖像 64K byte 512x512 彩色圖像 768Kbyte 25Frame/s電視圖像約20M byte(2) 數(shù)字圖像傳輸占用的頻帶較寬。 語音 4KHz

電視圖像 5.6MHz

對圖像的壓縮提出了要求。2024/11/1342(3) 有很多數(shù)字圖像中象素間的相關(guān)性較大,冗余比較多,有利于壓縮。從左圖中可以看到:有大塊的區(qū)域的灰度值是相差不大的。2024/11/1343(4) 對三維景物圖像的理解一個視角的二維圖像通常是不夠的。(5) 數(shù)字圖像處理后的圖像很多情況下是給人觀察和評價的,因此受人的因素影響較大。正面還是側(cè)面?圖像頻率:灰度值變化劇烈程度的指標,是灰度在平面空間上的梯度圖像的高低頻是對圖像各個位置之間強度變化的一種度量方法.低頻分量:主要對整副圖像的強度的綜合度量.高頻分量:主要是對圖像邊緣和輪廓的度量.低頻:灰度緩慢地變化,代表著那是連續(xù)漸變的一塊區(qū)域,邊緣以內(nèi)的內(nèi)容為低頻,而邊緣內(nèi)的內(nèi)容就是圖像的大部分信息,是圖像的近似信息。高頻:就是頻率變化快.圖像邊緣的灰度值變化快,就對應著頻率高,即高頻顯示圖像邊緣。圖像的細節(jié)處也是屬于灰度值急劇變化的區(qū)域。另外噪聲(即噪點)也是這樣,該像素點灰度值明顯與正常的點顏色不一樣了。不同圖像灰度不同,邊界處一般會有明顯的邊緣,利用此特征可以分割圖像。邊緣=物體間的邊界?。?!目前研究者正在試圖在邊緣提取中加入高層的語義信息。圖像中明顯的線特征就是邊緣和細線狀要素,都可以通過邊緣檢測算法提取出來。梯度算子對邊緣有很高的響應,因此梯度算子也會叫做邊緣檢測算子圖像特征提取主要有點、線兩類。點特征在圖像配準、圖像幾何校正、圖像鑲嵌、多視幾何恢復任務中起到了至關(guān)重要的作用。對于線特征,由于缺乏有效的描述方法以及連接成閉合圖形的方法,目前還沒有什么廣泛的用處。點特征提取算法的核心思路有三種,其代表算法分別是Harris、FAST、SUSAN。Harris角點檢測算法還有SIFT、SURF、KAZE三類角點檢測算法紋理/材質(zhì)紋理特征也是一種全局特征,它也描述了圖像或圖像區(qū)域所對應景物的表面性質(zhì)。但紋理只是一種物體表面的特性,并不能完全反映出物體的本質(zhì)屬性,所以僅僅利用紋理特征是無法獲得高層次圖像內(nèi)容的。與顏色特征不同,紋理特征不是基于像素點的特征,它需要在包含多個像素點的區(qū)域中進行統(tǒng)計計算。在模式匹配中,這種區(qū)域性的特征具有較大的優(yōu)越性,不會由于局部的偏差而無法匹配成功。作為一種統(tǒng)計特征,紋理特征常具有旋轉(zhuǎn)不變性,并且對于噪聲有較強的抵抗能力。但是,紋理特征也有其缺點,一個很明顯的缺點是當圖像的分辨率變化的時候,所計算出來的紋理可能會有較大偏差。另外,由于有可能受到光照、反射情況的影響,從2-D圖像中反映出來的紋理不一定是3-D物體表面真實的紋理。典型紋理圖像:緩慢變化和周期性重復常用紋理特征提取與描述方法分類計算機視覺計算機視覺典型任務-圖像分類-定位-目標識別-目標檢測-語義分割-目標追蹤圖像處理基本原理計算機視覺運行原理-通用策略-現(xiàn)有數(shù)據(jù)集目標檢測原理及模型-R-CNN-F-RCNN-YOLO系列-SSD語義分割

計算機視覺運行原理通用策略--利用CNN構(gòu)建計算機視覺模型:創(chuàng)建一個包含標注圖像的數(shù)據(jù)集或者使用現(xiàn)有的數(shù)據(jù)集。標注可以是圖像類別(適用于分類任務)、邊界框和類別對(適用于目標檢測問題),或者對圖像中每個感興趣對象進行像素級分割(適用于實例分割問題)。從每張圖像中提取與待處理任務相關(guān)的特征,這是建模的重點。例如,用來識別人臉的特征、基于人臉標準的特征與用來識別旅游景點或人體器官的特征存在顯著區(qū)別?;谔卣饔柧毶疃葘W習模型。訓練意味著向機器學習模型輸入很多圖像,然后模型基于特征學習如何解決任務。使用不同于訓練所用數(shù)據(jù)的圖像評估模型,從而測試訓練模型的準確率。計算機視覺運行原理現(xiàn)有數(shù)據(jù)集1st,ImageNet,該數(shù)據(jù)集包含1400萬人工標注圖像。該數(shù)據(jù)集包含100萬張具備邊界框標注的圖像計算機視覺運行原理MicrosoftCommonObjectsinContext(COCO)數(shù)據(jù)集,它包含328,000張圖像、91個對象類別,以及250萬標注實例。計算機視覺計算機視覺典型任務-圖像分類-定位-目標識別-目標檢測-語義分割-目標追蹤圖像處理基本原理計算機視覺基本原理-通用策略-現(xiàn)有數(shù)據(jù)集目標檢測原理及模型-R-CNN-R-CNN/F-RCNN-YOLO系列-SSD語義分割

目標檢測原理及模型RoadMap目標檢測原理及模型傳統(tǒng)目標檢測:三板斧選出候選區(qū)域

提取候選區(qū)域的特征

分類器分類缺點:采取滑動窗口的思想來解決這一問題?;瑒哟翱谝獙φ麖垐D遍歷,存在大量的冗余窗口,時間復雜度非常高傳統(tǒng)方法提取的特征通常是SIFT、

HOG特征,魯棒性差

基于深度學習的端到端目標檢測主流算法:標志:FasterR-CNNRPN(RegionProposalNetworks)網(wǎng)絡(luò)特征提取ROI池化(Regionofinterestpooling)之前:R-CNN,

區(qū)域建議(regionproposal)SPP-NET

FastRCNN,特征圖經(jīng)過ROIpooling目標檢測原理及模型

發(fā)展軌跡目標檢測原理及模型兩個流派:兩步(two-stage)檢測算法FasterR-CNNRFCNFPN,MaskR-CNN一步(one-stage)檢測算法SSD(SingleShotMultiBoxDetector)YOLOv1/v2/

v3

目標檢測原理及模型SelectiveSearch相鄰區(qū)域的相似度:顏色、紋理、尺寸和空間交疊這4個參數(shù)?相似度是上一步驟的計算得到的各種相似度的加權(quán)和,重復合并為一個區(qū)域,而在這個合并過程中,得到的大大小小的區(qū)域的邊界框,都將作為侯選框目標檢測原理及模型R-CNN流程利用區(qū)域候選(regionproposal)方法提取可能的對象。使用CNN識別每個區(qū)域中的特征。利用支持向量機(SVM)對每個區(qū)域進行分類。目標檢測原理及模型-SPPNet空間金字塔池化(SpatialPyramidPooling)目標檢測原理及模型

-FasterR-CNN

算法流程目標檢測原理及模型

-FasterR-CNN

目標檢測原理及模型-FasterR-CNN三大關(guān)鍵:特征提取網(wǎng)絡(luò)使用一個基礎(chǔ)CNN(conv+relu+pooling層),提取一次候選圖像的特征圖。該特征圖被共享用于后續(xù)RPN(RegionProposalNetwork)層和全連接(fullyconnection)層原論文中用的backbone網(wǎng)絡(luò)是VGG-16去掉最后分類用的平均池化層和全連接層,

ResNet101等目標檢測原理及模型-FasterR-CNN卷積網(wǎng)絡(luò)包括13個卷積層,13個激活層,4個池化層conv=3x3,padding=1,stride=1;Pooling=2x2,padding=0,stride=2;這樣做簡化了計算復雜性。也就是說3x3的卷積操作后,圖像的尺寸不變;2x2的池化操作后,圖像的尺寸變?yōu)樵瓐D的0.5x0.5所以,一張MxN大小的圖像經(jīng)過VGG16計算后,特征圖像尺寸變?yōu)?M/16)x(N/16)。目標檢測原理及模型-FasterR-CNN區(qū)域候選網(wǎng)絡(luò)(RegionProposalNetworks,RPN)經(jīng)典的檢測方法生成檢測框都非常耗時,如OpenCVAdaboost使用滑動窗口+圖像金字塔生成檢測框;或如R-CNN使用SS(SelectiveSearch)方法生成檢測框。而FasterRCNN則拋棄了傳統(tǒng)的滑動窗口和SS方法,直接使用RPN生成檢測框,能極大提升檢測框的生成速度。目標檢測原理及模型-FasterR-CNNRPN網(wǎng)絡(luò)實際分為2條線:上面的網(wǎng)絡(luò)分支通過softmax分類anchors預測前景(目標)和背景;下面的網(wǎng)絡(luò)分支用于計算對于anchors的邊界框回歸的偏移量,以獲得精確的目標候選區(qū)。跟隨的Proposal層綜合前景錨點和邊界框回歸偏移量獲取目標的候選區(qū),同時剔除太小和超出邊界的目標區(qū)域。所以,RPN實際就是實現(xiàn)了目標定位功能。目標檢測原理及模型-FasterR-CNN9種基礎(chǔ)anchor生成:原文中生成的基礎(chǔ)anchor有3種大?。?28*128,256*256,512*512。同時每種大小的anchor有3種寬高比:2:1、1:1、1:2。所以anchor的尺寸一共有9種。FasterR-CNN中生成anchor的特征圖是C4,假設(shè)C4的尺寸是W*H像素。假設(shè)一共生成k種尺寸的anchor(k=9),那么遍歷下來C4總共生成的anchor數(shù)量為W*H*k個目標檢測原理及模型-FasterR-CNN目標檢測原理及模型-FasterR-CNN生成anchor:

對于特征圖上的每一個像素點,生成一組不同尺寸和長寬比的anchor;然后將每個像素點對應的這組anchor映射到原(特征)圖的位置上,所有像素點映射回原圖的anchor即是候選區(qū)域框的備選集合。目標檢測原理及模型-FasterR-CNNAnchor機制總結(jié):只用CNN提取一次特征,把候選區(qū)域映射到特征圖上即可找到候選區(qū)域特征目標識別任務應具有平移不變性和尺度不變性,傳統(tǒng)的做法是采用imagepyramid或filterpyramid,Anchor機制滿足這樣的要求且更加的cost-efficient相比較R-CNN和FastR-CNN中selectivesearch(或EdgeBoxes)的方法,避免了大量的額外運算,且整個過程融合到一個網(wǎng)絡(luò)中,方便訓練和測試目標檢測原理及模型-FasterR-CNN前景/后景錨點預測置信度W*H*k個anchor在進入reshape與softmax之前,先做了1x1卷積,可以看到其通道數(shù)num_output=18,也就是經(jīng)過該卷積的輸出圖像為WxHx18大小。這也就剛好對應了featuremaps每一個點都有9個anchors,同時每個anchors又有可能是foreground和background,所有這些信息都保存W*H*(9*2)大小的矩陣。目標檢測原理及模型-FasterR-CNN非極大值抑制NMS(Non-MaximumSuppression)交并比IOU(RegionofInterest)目標檢測原理及模型-FasterR-CNN邊界框回歸(boudingboxregression)目標檢測原理及模型-FasterR-CNN預測回歸系數(shù)(4*k)目標檢測原理及模型-FasterR-CNNProposalLayer

負責綜合所有回歸變換量和foregroundanchors,計算出精準的proposal,送入后續(xù)RoIPoolingLayer。ProposalLayer有3個輸入:fg/bganchors分類器結(jié)果rpn_cls_prob_reshape,對應的bboxreg的變換量rpn_bbox_pred,以及im_info;另外還有參數(shù)feat_stride=16。FasterR-CNN目標區(qū)(ROI)池化RoIPooling層負責收集proposal,并計算出proposalfeaturemaps,送入后續(xù)網(wǎng)絡(luò)。Rolpooling層有2個輸入:原始的featuremapsRPN輸出的proposalboxes(大小各不相同)即將不同尺寸的ROI特征圖最大池化到同一尺寸目標檢測原理及模型-FasterR-CNN目標分類(Classification)

分類部分利用已經(jīng)獲得的proposalfeaturemaps,通過fullconnection層與softmax計算每個proposal具體屬于那個類別,輸出cls_prob概率向量;同時再次利用boundingboxregression獲得每個proposal的位置偏移量bbox_pred,用于回歸更加精確的目標檢測框。目標檢測原理及模型-onestage目標檢測原理及模型-YOLO

YOLO(YouOnlyLookOnce)1.Resize成448*448,圖片分割得到7*7網(wǎng)格(cell)2.CNN提取特征和預測:卷積部分負責提特征,全鏈接部分負責預測:a)7*7*2=98個boundingbox(bbox)的坐標x_{center},y_{center},w,h和是否有物體的con?dence。b)7*7=49個cell所屬20個物體的概率。3.過濾bbox(通過NMS)一幅圖片分成7x7個網(wǎng)格(gridcell),某個物體的中心落在這個網(wǎng)格中此網(wǎng)格就負責預測這個物體。最后一層輸出為(7*7)*30的維度。每個1*1*30的維度對應原圖7*7個cell中的一個,1*1*30中含有類別預測和bbox坐標預測。每個網(wǎng)格(1*1*30維度對應原圖中的cell)要預測2個boundingbox的坐標(x_{center},y_{center},w,h),其中:中心坐標的x_{center},y_{center}相對于對應的網(wǎng)格歸一化到0-1之間,w,h用圖像的width和height歸一化到0-1之間。每個boundingbox除了要回歸自身的位置之外,還要附帶預測一個confidence值。這個confidence代表了所預測的box中含有object的置信度。每個網(wǎng)格還要預測類別信息,論文中有20類。7x7的網(wǎng)格,每個網(wǎng)格要預測2個boundingbox和20個類別概率,輸出就是7x7x(5x2+20)。(通用公式:SxS個網(wǎng)格,每個網(wǎng)格要預測B個boundingbox還要預測C個categories,輸出就是SxSx(5*B+C)的一個tensor。結(jié)構(gòu)特點缺陷:YOLO對相互靠的很近的物體(挨在一起且中點都落在同一個格子上的情況),還有很小的群體檢測效果不好,這是因為一個網(wǎng)格中只預測了兩個框,并且只屬于一類。測試圖像中,當同一類物體出現(xiàn)的不常見的長寬比和其他情況時泛化能力偏弱。由于損失函數(shù)的問題,定位誤差是影響檢測效果的主要原因,尤其是大小物體的處理上,還有待加強。目標檢測原理及模型-SSDSSD目標檢測方法,在速度上比之前最快的YOLO還要快,在檢測精度上可以和FasterRCNN相媲美SSD的核心是在特征圖上采用卷積核來預測一系列defaultboundingboxes的類別分數(shù)、偏移量為了提高檢測準確率,在不同尺度的特征圖上進行預測,此外,還得到具有不同aspectratio的結(jié)果這些改進設(shè)計,實現(xiàn)了end-to-end訓練,并且,即使圖像的分辨率比較低,也能保證檢測的精度在不同的數(shù)據(jù)集,如:PASCALVOC、MSCOCO、ILSVRC,進行了測試,并且與其他的方法進行了對比結(jié)構(gòu)特點剛開始的層使用圖像分類模型中的層,稱為basenetwork,在此基礎(chǔ)上,添加一些輔助結(jié)構(gòu):Mult-scalefeaturemapfordetection在basenetwork后,添加一些卷積層,這些層的大小逐漸減小,可以進行多尺度預測Convolutionalpredictorsfordetection每一個新添加的層,可以使用一系列的卷積核進行預測。對于一個大小為m*n、p通道的特征層,使用3*3的卷積核進行預測,在某個位置上預測出一個值,該值可以是某一類別的得分,也可以是相對于defaultboundingboxes的偏移量,并且在圖像的每個位置都將產(chǎn)生一個值,如圖2所示。Defaultboxesandaspectratio在特征圖的每個位置預測K個box。對于每個box,預測C個類別得分,以及相對于defaultboundingbox的4個偏移值,這樣需要(C+4)*k個預測器,在m*n的特征圖上將產(chǎn)生(C+4)*k*m*n個預測值。這里,defaultboundingbox類似于FasterRCNN中anchors目標檢測原理及模型-SSDSSD端到端網(wǎng)絡(luò)結(jié)構(gòu)與FasterR-CNN對比優(yōu)化1.HardNegativeMining:用于預測的featuremap上的每個點都對應有6個不同的defaultbox,絕大部分的defaultbox都是負樣本,導致了正負樣本不平衡。在訓練過程中,采用了HardNegativeMining的策略(根據(jù)confidenceloss對所有的box進行排序,使正負例的比例保持在1:3)來平衡正負樣本的比率。這樣做能提高4%左右。2.Dataaugmentation為了模型更加魯棒,需要使用不同尺寸的輸入和形狀,作者對數(shù)據(jù)進行了如下方式的隨機采樣:使用整張圖片使用IOU和目標物體為0.1,0.3,0.5,0.7,0.9的patch(這些patch在原圖的大小的[0.1,1]之間,相應的寬高比在[1/2,2]之間)隨機采取一個patch當groundtruthbox的中心(center)在采樣的patc

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論