數(shù)字圖像處理與深度學習技術應用 課件 第13章 基于深度學習Faster R-CNN模型的手勢識別_第1頁
數(shù)字圖像處理與深度學習技術應用 課件 第13章 基于深度學習Faster R-CNN模型的手勢識別_第2頁
數(shù)字圖像處理與深度學習技術應用 課件 第13章 基于深度學習Faster R-CNN模型的手勢識別_第3頁
數(shù)字圖像處理與深度學習技術應用 課件 第13章 基于深度學習Faster R-CNN模型的手勢識別_第4頁
數(shù)字圖像處理與深度學習技術應用 課件 第13章 基于深度學習Faster R-CNN模型的手勢識別_第5頁
已閱讀5頁,還剩31頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權,請進行舉報或認領

文檔簡介

第13章基于深度學習FasterR-CNN模型的手勢識別目錄13.1RCNN目標檢測與識別模型13.2邊框回歸(BoundingBoxRegression)原理13.3FasterR-CNN目標檢測與識別模型13.3.1FasterR-CNN模型框架13.3.2基于區(qū)域提議網(wǎng)絡(RPN)的目標檢測13.3.3基于RoI池化和分類技術的目標識別13.4手勢識別系統(tǒng)設計13.5構建手勢識別模型13.5.1構建FasterR-CNN模型13.5.2FasterR-CNN識別模型訓練13.6手勢識別模型檢驗 13.1RCNN目標檢測與識別模型目標檢測目的是在圖像中識別和定位感興趣的目標,并確定它們的類別。基于深度學習的目標檢測算法可以分為兩類:二階算法:先生成區(qū)域候選框,再通過卷積神經(jīng)網(wǎng)絡進行分類和回歸修正。常見算法有RCNN、SPPNet、FastRCNN,F(xiàn)asterRCNN和RFCN等。相較之下二階算法檢測結果更精確。一階算法:不生成候選框,直接在網(wǎng)絡中提取特征來預測物體的分類和位置。常見算法有SSD、YOLO系列和RetinaNet等。相較之下一階算法檢測速度更快。R-CNN(Region-CNN)主要步驟:1.生成候選區(qū)域將圖像分割成小區(qū)域,然后合并包含同一物體可能性高的區(qū)域作為候選區(qū)域輸出,

實現(xiàn)步驟:步驟1在圖像上設有n個預分割的區(qū)域,表示為R={R1,R2,…,Rn}。步驟2計算每個區(qū)域與它相鄰區(qū)域的相似度,得到一個n×n的相似度矩陣。步驟3從矩陣中找出最大相似度值對應的兩個區(qū)域,將這兩個區(qū)域合二為一,這時候圖像上還剩下n-1個區(qū)域。步驟4重復上面的過程,只需要計算新的區(qū)域與它相鄰區(qū)域的相似度,相似區(qū)域總數(shù)目最后變成了1。2.對每個候選區(qū)域用CNN進行特征提取對每個候選區(qū)域都使用深度神經(jīng)網(wǎng)絡提取特征,并重新訓練全連接層。在候選區(qū)域輸入訓練好的神經(jīng)網(wǎng)絡模型,得到固定維度的特征圖輸出,得到特征矩陣。3.用每一類的SVM分類器對CNN的輸出特征圖進行分類使用SVM分類器對每一個特征圖進行分類。4.非極大值抑制剔除重疊建議框交并比(IntersectionoverUnion,IoU),即(A∩B)/(AUB),指的是A和B的重合區(qū)域面積與A和B總面積的比。IoU越大說明A和B的重合部分占比越大,即A和B越相似。步驟1將屬于同一個分類的候選區(qū)域進行歸類。步驟2找到每一個分類的候選區(qū)域中預測概率最高的區(qū)域作為參考區(qū)域,保留該區(qū)域,并將其從候選區(qū)域列表中移除。步驟3對于列表中剩余的候選區(qū)域,計算它們與參考區(qū)域的交并比(IoU)。刪除所有IoU值高于預設閾值的候選區(qū)域。5.使用回歸器精修候選區(qū)域的位置通過SelectiveSearch算法得到的候選區(qū)域位置不一定準確,用最小二乘法解決線性回歸問題。剩余的建議框進行回歸操作,最終得到每個類別的修正后的目標區(qū)域。圖13-3預測區(qū)域效果示意圖13.2邊框回歸(BoundingBoxRegression)原理1.多元線性回歸方程線性回歸其本質上就是對數(shù)據(jù)進行擬合,從大量的數(shù)據(jù)中,獲得一個方程來近似描述這些數(shù)據(jù),并用該方程對新的輸入進行預測。t*=w0*+w1*x1+w2*x2+…+wn*xn其中,*代表x、y、w、h四個標識之一;t*代表x和y偏移量、高度和寬度的縮放因子;x1,x2,…,xn代表樣本特征;W*為多元線性回歸方程的參數(shù),w0*為截距,w1*,w2*,…wn*為回歸系數(shù)。其中可以被看成一個結構為(n+1,1)的列矩陣,X是一個結構為(m,n+1)的特征矩陣。2.損失函數(shù)(1)平方和做損失函數(shù):(2)SmoothL1Loss3.多元線性回歸的參數(shù)求解(1)最小二乘法損失函數(shù)為凸函數(shù),其表達式為:(3-17)令(13-7)求導后一階導數(shù)為零,則:(2)梯度下降法對(13-7)參數(shù)求導:將上述梯度帶入隨機梯度下降公式:13.3FasterR-CNN目標檢測與識別模型13.3.1FasterR-CNN模型框架主要實現(xiàn)步驟:步驟1使用主干網(wǎng)絡對輸入圖像提取主干特征圖。步驟2主干特征圖具有256個通道。主干特征圖上的每個點經(jīng)過3×3卷積操作后,作為256維特征向量輸入RPN網(wǎng)絡的兩個分支。步驟4RPN網(wǎng)絡的一個分支輸出錨框的標簽類型概率,另一個分支輸出錨框修正的偏移量。步驟5提議層負責在原始圖像中找到正標簽的錨框。從大量正標簽錨框中篩選出最可能包含目標的錨框,作為目標框的候選提議(Proposal),并相應地調(diào)整這些錨框的位置。步驟6RoI池化技術用于將目標檢測中的候選提議(Proposal)映射到特征圖上,從而得到目標區(qū)域的特征表示。步驟7使用分類分支和回歸分支進一步預測目標類別和實現(xiàn)目標位置的精確定位。圖13-4FasterR-CNN框架結構示意圖13.3.2基于區(qū)域提議網(wǎng)絡(RPN)的目標檢測FasterR-CNN則拋棄了傳統(tǒng)的滑動窗口和SelectiveSearch方法,直接使用區(qū)域提議網(wǎng)絡(RegionProposalNetworks,RPN)來生成檢測框,極大提升了檢測框的生成速度。RPN網(wǎng)絡是一個全卷積網(wǎng)絡,由卷積層(256維)+ReLU激勵函數(shù)+左右兩個全連接層(有1×1卷積實現(xiàn))。RPN網(wǎng)絡接收來自主干網(wǎng)絡的特征圖作為輸入,并輸出前景和背景的分類置信度,以及每個提議區(qū)域(Proposal)的中心坐標和尺寸(寬度和高度)的回歸值。核心思想是利用滑動窗口和錨點策略來生成候選框。RPN實現(xiàn)過程錨框錨框是用于目標檢測的候選區(qū)域,它們以特征圖上的一個點為中心,預先設定不同尺寸和比例的矩形區(qū)域。錨框有三種尺寸和三種比例,三種尺寸分別是?。ㄋ{128)中(紅256)大(綠512),三個比例分別是1

:

1,1

:

2,2

:

1。3×3的組合總共有9種錨框。3.RPN的結構RPN的結構由3×3的卷積層(輸出通道數(shù)為256)+ReLU激活函數(shù)+兩個平行的1×1的卷積層(由分類層clclayer和回歸層reglayer)組成。圖13-6RPN的結構示意圖RPN實現(xiàn)過程如下:步驟1獲取256通道的主干網(wǎng)絡提取的特征。步驟2對每一個通道以中心點進行3×3卷積操作,在中心點處取出256通道相應位置的特征,組成256維特征矢量。步驟3粗糙分類,獲取錨框的正標簽與負標簽的屬性評分。進行1×1×18卷積操作,通過全連接層+Softmax函數(shù)獲取當前中心點的9個錨框關于正標簽和負標簽的屬性評分。步驟4獲取錨框的偏移量和縮放因子。進行1×1×36卷積操作,通過全連接層獲取當前中心點的9個錨框相對于目標的偏移量和縮放因子。步驟5在原圖上,找到與中心點對應的點和錨框,取正標簽評分高的前N個錨框,根據(jù)偏移量和縮放因子,進行修正,獲得提議區(qū)域。步驟6將修正后的錨框區(qū)域映射回主干網(wǎng)絡(backbone)的特征圖上,以確定每個錨框對應的特征圖位置。4.提議(Proposal)層提議層的主要任務是找到原圖上的錨框所對應的特征區(qū)域。原始圖像經(jīng)過卷積層處理后生成特征圖。處理步驟如下:(1)接收來自分類層的兩個輸入:正標簽和負標簽錨框分類結果,以及來自回歸層的4個參數(shù)。(2)在原始圖像上生成錨框,并使用偏置量和縮放因子對所有錨框進行邊界框回歸。(3)根據(jù)Softmax函數(shù)得分將錨框排序,提取前N個正標簽錨框,并修正它們的位置。(4)確保所有正標簽錨框都在圖像邊界內(nèi),防止在區(qū)域池化時超出圖像范圍。(5)剔除尺寸過小的正標簽錨框。(6)對剩余的正標簽錨框應用非極大值抑制(NMS)。(7)輸出提議區(qū)域,格式為[x1,y1,x2,y2]。由于已將錨框映射回原始圖像尺度并進行了邊界檢查,輸出的提議區(qū)域是對應于原始M×N尺寸圖像的。11.3.3基于RoI池化和分類技術的目標識別RoI池化層負責從RPN網(wǎng)絡生成的提議(Proposal)中提取特征圖。利用提取的候選區(qū)域特征圖,通過全連接層和Softmax函數(shù)計算每個提議屬于各個類別的概率,輸出cls_prob概率向量。同時,通過邊界框回歸進一步微調(diào)每個提議的位置,得到更精確的目標檢測框bbox_pred。圖13-7分類結構示意圖13.4手勢識別系統(tǒng)設計設計一個手勢識別系統(tǒng)包含三個主要部分,分別為訓練手勢標注、學習過程和識別過程。具體設計模式:圖13-8功能總體設計模式1.訓練手勢標注標注應該包含目標的邊界框和類別信息。(1)邊界框信息。(x_min,y_min):左上角坐標(x_max,y_max):右下角坐標(2)類別信息。2.學習過程模塊學習過程模塊主要分為三個步驟,包括手勢圖像預處理、構建訓練集、構建識別模型。在構建訓練集、搭建模型之后,對模型進行訓練。3.識別過程模塊識別過程模塊主要分為三個步驟,包括獲取待識別手勢圖像、手勢圖像預處理、分類決策和決策分析。4.手勢識別系統(tǒng)開發(fā)步驟(1)數(shù)據(jù)采集使用攝像頭或傳感器收集手勢數(shù)據(jù)。(2)圖像預處理包括去噪、調(diào)整圖像大小和亮度等。標準化手勢數(shù)據(jù)。(3)對采集到的手勢進行標記,以便訓練模型。標記包括手的位置和手勢類別等信息。(4)模型訓練(5)系統(tǒng)集成(6)優(yōu)化和調(diào)試13.5構建手勢識別模型13.5.1構建FasterR-CNN模型1.一般步驟:(1)安裝依賴庫安裝深度學習框架,如TensorFlow或PyTorch。安裝其他必要的庫,如NumPy、Matplotlib等。(2)獲取數(shù)據(jù)集(3)預訓練模型使用預訓練的卷積神經(jīng)網(wǎng)絡(如ResNet、VGG等)作為FasterR-CNN的基礎模型。2.搭建提取主干特征的卷積神經(jīng)網(wǎng)絡在FasterR-CNN模型中使用預訓練的VGG1616模型3.搭建檢測目標的RPN網(wǎng)絡①選擇適當?shù)闹鞲删W(wǎng)絡,提取圖像特征。②AnchorGenerator負責生成候選錨框的尺寸和長寬比。③RPN的頭部用于處理主干網(wǎng)絡輸出的特征圖,生成候選錨框和對應的邊界框回歸信息。④RPNBlock是RPN中的一個組件,包含兩個分支。分類分支(cls_logits):該分支負責預測每個錨框是前景(目標)還是背景的概率?;貧w分支(bbox_pred):該分支負責預測每個錨框相對于其真實位置的邊界框偏移量。4.搭建RoI(RegionofInterest)池化層RoI池化用于將不同尺寸的感興趣區(qū)域映射為固定大小的特征圖,以便在后續(xù)的目標分類和回歸任務中使用。13.5.2FasterR-CNN識別模型訓練1.主干特征提取本節(jié)主要采用的是Caffe框架下的VGG16預訓練模型。2.錨框貼標簽在區(qū)域提議網(wǎng)絡(RPN)中,每個中心點會對應生成k個錨框,分類層(clclayer)負責輸出每個錨框的兩個參數(shù):預測為前景的概率和損失函數(shù)。損失函數(shù)采用交叉熵損失函數(shù)。3.計算損失函數(shù)FasterR-CNN的損失函數(shù)通常包括分類損失和邊界框回歸損失。分類損失用于確定每個候選錨框中是否包含目標,而邊界框回歸損失用于精確定位目標的位置。4.RPN生成RoIsRPN生成RoI的過程:

對于輸入的每張圖片,RPN首先利用其特征圖來計算每個位置上的錨框屬于前景的概率,以及這些錨框的位置參數(shù)。選擇那些具

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論