數(shù)字圖像處理與深度學(xué)習(xí)技術(shù)應(yīng)用課件第13章基于深度學(xué)習(xí)Faster R-CNN模型的手勢(shì)識(shí)別

上傳人：h*** IP屬地：山東上傳時(shí)間：2024-08-30 格式：PPTX 頁數(shù)：36 大小：534.61KB 積分：15 舉報(bào) 版權(quán)申訴

數(shù)字圖像處理與深度學(xué)習(xí)技術(shù)應(yīng)用課件第13章基于深度學(xué)習(xí)Faster R-CNN模型的手勢(shì)識(shí)別_第2頁

數(shù)字圖像處理與深度學(xué)習(xí)技術(shù)應(yīng)用課件第13章基于深度學(xué)習(xí)Faster R-CNN模型的手勢(shì)識(shí)別_第3頁

數(shù)字圖像處理與深度學(xué)習(xí)技術(shù)應(yīng)用課件第13章基于深度學(xué)習(xí)Faster R-CNN模型的手勢(shì)識(shí)別_第4頁

數(shù)字圖像處理與深度學(xué)習(xí)技術(shù)應(yīng)用課件第13章基于深度學(xué)習(xí)Faster R-CNN模型的手勢(shì)識(shí)別_第5頁

已閱讀5頁，還剩31頁未讀，繼續(xù)免費(fèi)閱讀

版權(quán)說明：本文檔由用戶提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

第13章基于深度學(xué)習(xí)FasterR-CNN模型的手勢(shì)識(shí)別目錄13.1RCNN目標(biāo)檢測(cè)與識(shí)別模型13.2邊框回歸（BoundingBoxRegression）原理13.3FasterR-CNN目標(biāo)檢測(cè)與識(shí)別模型13.3.1FasterR-CNN模型框架13.3.2基于區(qū)域提議網(wǎng)絡(luò)（RPN）的目標(biāo)檢測(cè)13.3.3基于RoI池化和分類技術(shù)的目標(biāo)識(shí)別13.4手勢(shì)識(shí)別系統(tǒng)設(shè)計(jì)13.5構(gòu)建手勢(shì)識(shí)別模型13.5.1構(gòu)建FasterR-CNN模型13.5.2FasterR-CNN識(shí)別模型訓(xùn)練13.6手勢(shì)識(shí)別模型檢驗(yàn) 13.1RCNN目標(biāo)檢測(cè)與識(shí)別模型目標(biāo)檢測(cè)目的是在圖像中識(shí)別和定位感興趣的目標(biāo)，并確定它們的類別?；谏疃葘W(xué)習(xí)的目標(biāo)檢測(cè)算法可以分為兩類：二階算法：先生成區(qū)域候選框，再通過卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行分類和回歸修正。常見算法有RCNN、SPPNet、FastRCNN，F(xiàn)asterRCNN和RFCN等。相較之下二階算法檢測(cè)結(jié)果更精確。一階算法：不生成候選框，直接在網(wǎng)絡(luò)中提取特征來預(yù)測(cè)物體的分類和位置。常見算法有SSD、YOLO系列和RetinaNet等。相較之下一階算法檢測(cè)速度更快。R-CNN（Region-CNN）主要步驟：1.生成候選區(qū)域?qū)D像分割成小區(qū)域，然后合并包含同一物體可能性高的區(qū)域作為候選區(qū)域輸出，

實(shí)現(xiàn)步驟：步驟1在圖像上設(shè)有n個(gè)預(yù)分割的區(qū)域，表示為R={R1,R2,…,Rn}。步驟2計(jì)算每個(gè)區(qū)域與它相鄰區(qū)域的相似度，得到一個(gè)n×n的相似度矩陣。步驟3從矩陣中找出最大相似度值對(duì)應(yīng)的兩個(gè)區(qū)域，將這兩個(gè)區(qū)域合二為一，這時(shí)候圖像上還剩下n-1個(gè)區(qū)域。步驟4重復(fù)上面的過程，只需要計(jì)算新的區(qū)域與它相鄰區(qū)域的相似度，相似區(qū)域總數(shù)目最后變成了1。2.對(duì)每個(gè)候選區(qū)域用CNN進(jìn)行特征提取對(duì)每個(gè)候選區(qū)域都使用深度神經(jīng)網(wǎng)絡(luò)提取特征，并重新訓(xùn)練全連接層。在候選區(qū)域輸入訓(xùn)練好的神經(jīng)網(wǎng)絡(luò)模型，得到固定維度的特征圖輸出，得到特征矩陣。3．用每一類的SVM分類器對(duì)CNN的輸出特征圖進(jìn)行分類使用SVM分類器對(duì)每一個(gè)特征圖進(jìn)行分類。4．非極大值抑制剔除重疊建議框交并比（IntersectionoverUnion，IoU），即(A∩B)/(AUB)，指的是A和B的重合區(qū)域面積與A和B總面積的比。IoU越大說明A和B的重合部分占比越大，即A和B越相似。步驟1將屬于同一個(gè)分類的候選區(qū)域進(jìn)行歸類。步驟2找到每一個(gè)分類的候選區(qū)域中預(yù)測(cè)概率最高的區(qū)域作為參考區(qū)域，保留該區(qū)域，并將其從候選區(qū)域列表中移除。步驟3對(duì)于列表中剩余的候選區(qū)域，計(jì)算它們與參考區(qū)域的交并比（IoU）。刪除所有IoU值高于預(yù)設(shè)閾值的候選區(qū)域。5．使用回歸器精修候選區(qū)域的位置通過SelectiveSearch算法得到的候選區(qū)域位置不一定準(zhǔn)確，用最小二乘法解決線性回歸問題。剩余的建議框進(jìn)行回歸操作，最終得到每個(gè)類別的修正后的目標(biāo)區(qū)域。圖13-3預(yù)測(cè)區(qū)域效果示意圖13.2邊框回歸（BoundingBoxRegression）原理1．多元線性回歸方程線性回歸其本質(zhì)上就是對(duì)數(shù)據(jù)進(jìn)行擬合，從大量的數(shù)據(jù)中，獲得一個(gè)方程來近似描述這些數(shù)據(jù)，并用該方程對(duì)新的輸入進(jìn)行預(yù)測(cè)。t*=w0*+w1*x1+w2*x2+…+wn*xn其中，*代表x、y、w、h四個(gè)標(biāo)識(shí)之一；t*代表x和y偏移量、高度和寬度的縮放因子；x1,x2,…,xn代表樣本特征；W*為多元線性回歸方程的參數(shù)，w0*為截距，w1*,w2*,…wn*為回歸系數(shù)。其中可以被看成一個(gè)結(jié)構(gòu)為(n+1,1)的列矩陣，X是一個(gè)結(jié)構(gòu)為(m,n+1)的特征矩陣。2．損失函數(shù)（1）平方和做損失函數(shù)：（2）SmoothL1Loss3．多元線性回歸的參數(shù)求解（1）最小二乘法損失函數(shù)為凸函數(shù)，其表達(dá)式為：(3-17)令（13-7）求導(dǎo)后一階導(dǎo)數(shù)為零，則：（2）梯度下降法對(duì)（13-7）參數(shù)求導(dǎo)：將上述梯度帶入隨機(jī)梯度下降公式：13.3FasterR-CNN目標(biāo)檢測(cè)與識(shí)別模型13.3.1FasterR-CNN模型框架主要實(shí)現(xiàn)步驟：步驟1使用主干網(wǎng)絡(luò)對(duì)輸入圖像提取主干特征圖。步驟2主干特征圖具有256個(gè)通道。主干特征圖上的每個(gè)點(diǎn)經(jīng)過3×3卷積操作后，作為256維特征向量輸入RPN網(wǎng)絡(luò)的兩個(gè)分支。步驟4RPN網(wǎng)絡(luò)的一個(gè)分支輸出錨框的標(biāo)簽類型概率，另一個(gè)分支輸出錨框修正的偏移量。步驟5提議層負(fù)責(zé)在原始圖像中找到正標(biāo)簽的錨框。從大量正標(biāo)簽錨框中篩選出最可能包含目標(biāo)的錨框，作為目標(biāo)框的候選提議（Proposal），并相應(yīng)地調(diào)整這些錨框的位置。步驟6RoI池化技術(shù)用于將目標(biāo)檢測(cè)中的候選提議（Proposal）映射到特征圖上，從而得到目標(biāo)區(qū)域的特征表示。步驟7使用分類分支和回歸分支進(jìn)一步預(yù)測(cè)目標(biāo)類別和實(shí)現(xiàn)目標(biāo)位置的精確定位。圖13-4FasterR-CNN框架結(jié)構(gòu)示意圖13.3.2基于區(qū)域提議網(wǎng)絡(luò)（RPN）的目標(biāo)檢測(cè)FasterR-CNN則拋棄了傳統(tǒng)的滑動(dòng)窗口和SelectiveSearch方法，直接使用區(qū)域提議網(wǎng)絡(luò)（RegionProposalNetworks，RPN）來生成檢測(cè)框，極大提升了檢測(cè)框的生成速度。RPN網(wǎng)絡(luò)是一個(gè)全卷積網(wǎng)絡(luò)，由卷積層（256維）+ReLU激勵(lì)函數(shù)+左右兩個(gè)全連接層（有1×1卷積實(shí)現(xiàn)）。RPN網(wǎng)絡(luò)接收來自主干網(wǎng)絡(luò)的特征圖作為輸入，并輸出前景和背景的分類置信度，以及每個(gè)提議區(qū)域（Proposal）的中心坐標(biāo)和尺寸（寬度和高度）的回歸值。核心思想是利用滑動(dòng)窗口和錨點(diǎn)策略來生成候選框。RPN實(shí)現(xiàn)過程錨框錨框是用于目標(biāo)檢測(cè)的候選區(qū)域，它們以特征圖上的一個(gè)點(diǎn)為中心，預(yù)先設(shè)定不同尺寸和比例的矩形區(qū)域。錨框有三種尺寸和三種比例，三種尺寸分別是?。ㄋ{(lán)128）中（紅256）大（綠512），三個(gè)比例分別是1

1，1

2，2

1。3×3的組合總共有9種錨框。3．RPN的結(jié)構(gòu)RPN的結(jié)構(gòu)由3×3的卷積層（輸出通道數(shù)為256）+ReLU激活函數(shù)+兩個(gè)平行的1×1的卷積層（由分類層clclayer和回歸層reglayer）組成。圖13-6RPN的結(jié)構(gòu)示意圖RPN實(shí)現(xiàn)過程如下：步驟1獲取256通道的主干網(wǎng)絡(luò)提取的特征。步驟2對(duì)每一個(gè)通道以中心點(diǎn)進(jìn)行3×3卷積操作，在中心點(diǎn)處取出256通道相應(yīng)位置的特征，組成256維特征矢量。步驟3粗糙分類，獲取錨框的正標(biāo)簽與負(fù)標(biāo)簽的屬性評(píng)分。進(jìn)行1×1×18卷積操作，通過全連接層+Softmax函數(shù)獲取當(dāng)前中心點(diǎn)的9個(gè)錨框關(guān)于正標(biāo)簽和負(fù)標(biāo)簽的屬性評(píng)分。步驟4獲取錨框的偏移量和縮放因子。進(jìn)行1×1×36卷積操作，通過全連接層獲取當(dāng)前中心點(diǎn)的9個(gè)錨框相對(duì)于目標(biāo)的偏移量和縮放因子。步驟5在原圖上，找到與中心點(diǎn)對(duì)應(yīng)的點(diǎn)和錨框，取正標(biāo)簽評(píng)分高的前N個(gè)錨框，根據(jù)偏移量和縮放因子，進(jìn)行修正，獲得提議區(qū)域。步驟6將修正后的錨框區(qū)域映射回主干網(wǎng)絡(luò)（backbone）的特征圖上，以確定每個(gè)錨框?qū)?yīng)的特征圖位置。4．提議（Proposal）層提議層的主要任務(wù)是找到原圖上的錨框所對(duì)應(yīng)的特征區(qū)域。原始圖像經(jīng)過卷積層處理后生成特征圖。處理步驟如下：（1）接收來自分類層的兩個(gè)輸入：正標(biāo)簽和負(fù)標(biāo)簽錨框分類結(jié)果，以及來自回歸層的4個(gè)參數(shù)。（2）在原始圖像上生成錨框，并使用偏置量和縮放因子對(duì)所有錨框進(jìn)行邊界框回歸。（3）根據(jù)Softmax函數(shù)得分將錨框排序，提取前N個(gè)正標(biāo)簽錨框，并修正它們的位置。（4）確保所有正標(biāo)簽錨框都在圖像邊界內(nèi)，防止在區(qū)域池化時(shí)超出圖像范圍。（5）剔除尺寸過小的正標(biāo)簽錨框。（6）對(duì)剩余的正標(biāo)簽錨框應(yīng)用非極大值抑制（NMS）。（7）輸出提議區(qū)域，格式為[x1,y1,x2,y2]。由于已將錨框映射回原始圖像尺度并進(jìn)行了邊界檢查，輸出的提議區(qū)域是對(duì)應(yīng)于原始M×N尺寸圖像的。11.3.3基于RoI池化和分類技術(shù)的目標(biāo)識(shí)別RoI池化層負(fù)責(zé)從RPN網(wǎng)絡(luò)生成的提議（Proposal）中提取特征圖。利用提取的候選區(qū)域特征圖，通過全連接層和Softmax函數(shù)計(jì)算每個(gè)提議屬于各個(gè)類別的概率，輸出cls_prob概率向量。同時(shí)，通過邊界框回歸進(jìn)一步微調(diào)每個(gè)提議的位置，得到更精確的目標(biāo)檢測(cè)框bbox_pred。圖13-7分類結(jié)構(gòu)示意圖13.4手勢(shì)識(shí)別系統(tǒng)設(shè)計(jì)設(shè)計(jì)一個(gè)手勢(shì)識(shí)別系統(tǒng)包含三個(gè)主要部分，分別為訓(xùn)練手勢(shì)標(biāo)注、學(xué)習(xí)過程和識(shí)別過程。具體設(shè)計(jì)模式：圖13-8功能總體設(shè)計(jì)模式1．訓(xùn)練手勢(shì)標(biāo)注標(biāo)注應(yīng)該包含目標(biāo)的邊界框和類別信息。（1）邊界框信息。(x_min,y_min)：左上角坐標(biāo)(x_max,y_max)：右下角坐標(biāo)（2）類別信息。2．學(xué)習(xí)過程模塊學(xué)習(xí)過程模塊主要分為三個(gè)步驟，包括手勢(shì)圖像預(yù)處理、構(gòu)建訓(xùn)練集、構(gòu)建識(shí)別模型。在構(gòu)建訓(xùn)練集、搭建模型之后，對(duì)模型進(jìn)行訓(xùn)練。3．識(shí)別過程模塊識(shí)別過程模塊主要分為三個(gè)步驟，包括獲取待識(shí)別手勢(shì)圖像、手勢(shì)圖像預(yù)處理、分類決策和決策分析。4．手勢(shì)識(shí)別系統(tǒng)開發(fā)步驟（1）數(shù)據(jù)采集使用攝像頭或傳感器收集手勢(shì)數(shù)據(jù)。（2）圖像預(yù)處理包括去噪、調(diào)整圖像大小和亮度等。標(biāo)準(zhǔn)化手勢(shì)數(shù)據(jù)。（3）對(duì)采集到的手勢(shì)進(jìn)行標(biāo)記，以便訓(xùn)練模型。標(biāo)記包括手的位置和手勢(shì)類別等信息。（4）模型訓(xùn)練（5）系統(tǒng)集成（6）優(yōu)化和調(diào)試13.5構(gòu)建手勢(shì)識(shí)別模型13.5.1構(gòu)建FasterR-CNN模型1.一般步驟：（1）安裝依賴庫安裝深度學(xué)習(xí)框架，如TensorFlow或PyTorch。安裝其他必要的庫，如NumPy、Matplotlib等。（2）獲取數(shù)據(jù)集（3）預(yù)訓(xùn)練模型使用預(yù)訓(xùn)練的卷積神經(jīng)網(wǎng)絡(luò)（如ResNet、VGG等）作為FasterR-CNN的基礎(chǔ)模型。2．搭建提取主干特征的卷積神經(jīng)網(wǎng)絡(luò)在FasterR-CNN模型中使用預(yù)訓(xùn)練的VGG1616模型3．搭建檢測(cè)目標(biāo)的RPN網(wǎng)絡(luò)①選擇適當(dāng)?shù)闹鞲删W(wǎng)絡(luò)，提取圖像特征。②AnchorGenerator負(fù)責(zé)生成候選錨框的尺寸和長(zhǎng)寬比。③RPN的頭部用于處理主干網(wǎng)絡(luò)輸出的特征圖，生成候選錨框和對(duì)應(yīng)的邊界框回歸信息。④RPNBlock是RPN中的一個(gè)組件，包含兩個(gè)分支。分類分支（cls_logits）：該分支負(fù)責(zé)預(yù)測(cè)每個(gè)錨框是前景（目標(biāo)）還是背景的概率?；貧w分支（bbox_pred）：該分支負(fù)責(zé)預(yù)測(cè)每個(gè)錨框相對(duì)于其真實(shí)位置的邊界框偏移量。4．搭建RoI（RegionofInterest）池化層RoI池化用于將不同尺寸的感興趣區(qū)域映射為固定大小的特征圖，以便在后續(xù)的目標(biāo)分類和回歸任務(wù)中使用。13.5.2FasterR-CNN識(shí)別模型訓(xùn)練1．主干特征提取本節(jié)主要采用的是Caffe框架下的VGG16預(yù)訓(xùn)練模型。2．錨框貼標(biāo)簽在區(qū)域提議網(wǎng)絡(luò)（RPN）中，每個(gè)中心點(diǎn)會(huì)對(duì)應(yīng)生成k個(gè)錨框，分類層（clclayer）負(fù)責(zé)輸出每個(gè)錨框的兩個(gè)參數(shù)：預(yù)測(cè)為前景的概率和損失函數(shù)。損失函數(shù)采用交叉熵?fù)p失函數(shù)。3．計(jì)算損失函數(shù)FasterR-CNN的損失函數(shù)通常包括分類損失和邊界框回歸損失。分類損失用于確定每個(gè)候選錨框中是否包含目標(biāo)，而邊界框回歸損失用于精確定位目標(biāo)的位置。4．RPN生成RoIsRPN生成RoI的過程：

對(duì)于輸入的每張圖片，RPN首先利用其特征圖來計(jì)算每個(gè)位置上的錨框?qū)儆谇熬暗母怕?，以及這些錨框的位置參數(shù)。選擇那些具

人人文庫> 全部分類> 教育資料 > 課件下載

溫馨提示

1. 本站所有資源如無特殊說明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽，若沒有圖紙預(yù)覽就沒有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間，僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理，對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容，請(qǐng)與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

數(shù)字圖像處理與深度學(xué)習(xí)技術(shù)應(yīng)用課件第13章基于深度學(xué)習(xí)Faster R-CNN模型的手勢(shì)識(shí)別

文檔簡(jiǎn)介

溫馨提示

最新文檔

評(píng)論

數(shù)字圖像處理與深度學(xué)習(xí)技術(shù)應(yīng)用 課件 第13章 基于深度學(xué)習(xí)Faster R-CNN模型的手勢(shì)識(shí)別

文檔簡(jiǎn)介

溫馨提示

最新文檔

評(píng)論

相關(guān)文檔

數(shù)字圖像處理與深度學(xué)習(xí)技術(shù)應(yīng)用課件第13章基于深度學(xué)習(xí)Faster R-CNN模型的手勢(shì)識(shí)別