專利申請技術交底書模板_第1頁
專利申請技術交底書模板_第2頁
專利申請技術交底書模板_第3頁
專利申請技術交底書模板_第4頁
專利申請技術交底書模板_第5頁
已閱讀5頁,還剩16頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

一種基于機器人巡拍圖片的目標識別和隱患檢測方法初擬的發(fā)明名稱一種基于機器人巡拍圖片的目標識別和隱患檢測方法所屬于的技術領域新興信息技術(云計算,大數(shù)據(jù),機器人巡拍,AI,區(qū)塊鏈,物聯(lián)網(wǎng)/車聯(lián)網(wǎng),業(yè)務平臺,視頻通信等)領域。背景技術近年來,隨著民用無人機的快速發(fā)展和技術迭代,如大疆等國產品牌正在占領全球市場,得到廣大消費者的青睞,由此無人機在測繪上的方便性也開始進入公眾視野,機器人巡拍技術可以使用在地理測繪、農業(yè)巡檢、災害監(jiān)測和環(huán)保監(jiān)控等領域。機器人巡拍技術不同于以往的衛(wèi)星和飛機等攝像測繪手段,無人機通常工作于低空近地領域,沒有外層和低空平流層的視線干擾,并且起飛方便快捷,可短時間內多次重復飛行進行數(shù)據(jù)收集。機器人巡拍技術可以安全、方便快捷地獲得精確的低空近地俯視三維圖,用于數(shù)據(jù)分析和安全防控?;谌S圖片的目標識別技術作為計算機視覺領域的重要技術之一,廣泛運用于人臉識別、機動車車牌識別、前景分割、人流檢測等下游任務。依托于機器人巡拍技術采集航拍遙感圖片數(shù)據(jù),目標檢測技術通過圖像處理和深度網(wǎng)絡模型提取目標特征,然后將各級特征進行特征融合,并經過上采樣和多層感知器(MLP)處理,最后通過分類器將目標種類篩出。由于不同的深度網(wǎng)絡在深度、廣度和結構有所不同,對于特征的提取能力會產生差異,找到一種合適機器人巡拍圖片特征提取的深度學習網(wǎng)絡也是行業(yè)內圖像分析研究的一個重要方向?;跈C器人巡拍圖片的目標檢測技術可適用于地質測繪、農業(yè)災害預警、沙漠災害預警、河流湖泊變化預警、建筑種類違建預警、戰(zhàn)場敵情預警等任務。目前,基于三維圖片的目標識別技術中對于特征提取的深度網(wǎng)絡結構主要分為兩種:一是基于多個卷積層、池化層和全連接層組成的卷積神經網(wǎng)絡(CNN),用于提取圖像高效特征和分類;二是利用自注意力(Self-attention)機制和Vision-Transformer(ViT)網(wǎng)絡進行全局特征提取。前者在處理局部特征的能力更強,但處理全局特征需要使用大量的卷積層和池化層,導致深度網(wǎng)絡模型變得復雜和難以訓練。后者存在自注意力機制和較弱的歸置偏置依賴的特點,能夠更好地處理全局特征和上下文信息。如果在擁有足夠多的數(shù)據(jù)進行訓練的條件下,ViT網(wǎng)絡可以表現(xiàn)出更強的泛化能力,在下游任務中獲得更好的遷移效果。由此,ViT網(wǎng)絡在大規(guī)模的機器人巡拍數(shù)據(jù)集條件下,可以適應更多場景的目標識別任務。發(fā)明創(chuàng)造的目的在機器人巡拍三維圖像目標識別領域,缺乏一種結合無人機可快速起飛、穩(wěn)定獲取高清圖片特點的實時檢測分類、差異檢測的目標檢測算法。目前針對機器人巡拍圖像的差異檢測算法通常是根據(jù)遙感圖像的目標邊緣進行多邊形標注,然后輸入到雙路參數(shù)共享的深度網(wǎng)絡進行特征提取,提取后的特征向量進行作差再輸入到全連接層學習,最后輸出差異部分的圖像和坐標信息。這些方法由于特征提取網(wǎng)絡較為復雜,且數(shù)據(jù)標注成本較大,訓練難度大且預測效率較低。為此,本發(fā)明擬提出一種基于實時目標檢測框架YOLOv6-Swin-Transformer的目標識別技術,該技術結合了機器人巡拍大規(guī)模數(shù)據(jù)集的特點,使用一種包含滑窗操作、具有層級設計的Swin-Transformer的特征提取網(wǎng)絡結構,該結構相較于ViT網(wǎng)絡的優(yōu)勢在于將注意力計算限制在窗口中,一方面能引入CNN卷積操作的局部性,另一方面降低了計算復雜度,提高了識別檢測效率。使用該技術可以得到多張不同時間的航拍大圖的目標識別結果,基于該結果輸出的種類和坐標信息進行對齊后進行對比,可以得到差異變化,完成差異檢測。發(fā)明創(chuàng)造方案方案描述利用無人機掛載的高清攝像頭對同一航線上的進行多次拍攝,利用坐標點信息和航拍飛行角度信息,將多次航拍俯視圖合并為一張航拍大圖,分辨率為4096×4096,該航拍大圖所有子圖可視為同一時刻拍攝,即一張航拍大圖視為某時刻Tpast將采集的航拍大圖進行對齊匹配,如若圖片包含GPS定位信息,不同時間的航拍大圖依據(jù)定位信息進行對齊,若不包含GPS定位信息,則依據(jù)特征相似度或者特征點匹配的方式進行對齊,并對不包含識別目標的圖片邊緣進行裁剪。數(shù)據(jù)標注:對車輛、建筑等目標物體進行標注,本方案使用方形框標注方式,依據(jù)實際場景下進行重疊標注,針對超大面積的工廠建筑僅標注邊緣以提升模型準確度。構建網(wǎng)絡模型,本發(fā)明所提方案中使用的網(wǎng)絡框架為YOLOv6-Swin-Transformer,以目標檢測YOLOv6為基礎,其包含四個部分:輸入端數(shù)據(jù)處理模塊、Backbone特征提取網(wǎng)絡、Neck特征處理模塊和Head檢測模塊,分別用于對輸入圖像進行數(shù)據(jù)增強、從輸入圖像中提取特征、提高模型的感受野和減少特征圖大小的損失以及用于將提取的特征轉化為預測的目標框、置信度和類別信息。

輸入端數(shù)據(jù)處理模塊中使用了馬賽克數(shù)據(jù)增強、自適應圖片縮放。Backbone特征提取網(wǎng)絡則使用Swin-Transformer模塊,其網(wǎng)絡結構主要由以下部分組成:圖塊劃分、平移窗口、Swin-Transformer階段(Stage)、下采樣、歸一化層和池化頭(PoolingHead)。圖塊劃分是將輸入的三位圖像切塊成一系列的固定大小的圖塊(Patch)經過一個簡單的線性變換得到一個固定長度的向量,作用是縮小分辨率和調整通道數(shù)。平移窗口是將每個圖塊放到一個大小為K×K的滑動窗口內,每個窗口在兩個方向上做固定的S步滑動。Swin-Transformer階段包含多個Swin-TransformerBlock,其包括多頭的自注意力機制(MSA)和MLP層。下采樣層是通過降采樣來縮小特征圖大小,采用窗口化卷積來處理邊緣效應。池化頭通常使用全局池化或者多層感知器來實現(xiàn)。接下來將著重介紹Swin-Transformer模塊,經過輸入端的線性投影和維度轉化操作以后,一個維度為H×W×C的三維特征圖X轉化為三個維度為N×C'的向量矩陣以提供自注意力,其中Attention其中,Attention(Q,K,V)表示特征圖上所有元素與其他元素之間的注意力矩陣,聚合了全局特征信息。同時在計算Attention中的Q和K時加入了相對位置編碼,q其相對位置偏置值為B,即在自注意力機制的計算過程中添加了一個可學習的相對位置參數(shù)。綜上,特征提取網(wǎng)絡模型流程總結如下:先對特征圖進行歸一化,然后通過平移窗口機制對特征圖進行平移變換,并將特征圖切成一個個窗口。在指定窗口大小內計算Attention,通過自注意力掩碼(Attention-mask)來區(qū)分是窗口Attention還是平移窗口Attention,計算完畢后將各個窗口進行合并,并把之前的平移操作恢復。之后進行Dropout操作和殘差操作減少過擬合,最后再通過一次歸一化處理和全連接層,以及Dropout操作和殘差連接操作。Neck特征處理和特征融合:Neck部分也采用了和特征提取相類似的方式進行特征融合,將輸入特征分成兩個分支進行處理,其中一個分支進行1×1卷積降維,另一個分支進行3×3卷積。假設輸入圖像大小為640×640,那么經過特征提取網(wǎng)絡可生成而Head檢測模塊的輸入是由Neck網(wǎng)絡提取的特征圖。在Head網(wǎng)絡中,首先使用1×1卷積層將特征圖的通道數(shù)降低,然后接一個SPP層用于提取特征的多尺度信息。接著再使用3×3卷積層和1×1卷積層對特征進行卷積和降維,最后再進行一系列的卷積操作得到輸出。這個輸出是一個特征圖,它由每個格子的anchorHead網(wǎng)絡輸出的特征圖需要經過NMS(非極大值抑制)處理后,才能得到最終的目標檢測結果。NMS算法將重疊較高的目標框進行篩選,保留得分最高的目標框,并且將與該框IoU(交并比)大于一定閾值的其他框排除。最終輸出的目標框即為檢測結果。圖SEQ圖\*ARABIC1?IOU損失函數(shù)計算公式為:?其中,υ是權衡縱橫比一致性參數(shù),記為υ=4π2arctanwgt?gt?arctanw?2,網(wǎng)絡訓練:將機器人巡拍獲得的三維俯視圖按預設的圖像參數(shù)大小進行分割,例如分割為大小為640×640的子圖,并經過縮放和裁剪、歸一化處理??勺鯩osaic數(shù)據(jù)增強的方式,即隨機取網(wǎng)絡預測:根據(jù)分類識別任務的不同,預測方式也存在差異。以需要實時檢測的車輛識別任務和長時間跨度的建筑違建預警任務為例。車輛識別任務將實時拍攝的航拍圖像進行分割處理,可以一次性進行預測,預測后返回預測類別和預測框坐標,如卡車、挖掘機、轎車等類別和坐標信息,隨后附帶標識信息后返回至服務器,實時顯示結果,由于計算復雜度較低,單張圖片GPU預測速率在百毫秒級內,識別準確率在90%以上。(二)建筑隱患識別任務不同于車輛識別任務,建筑違建預警任務輸入的圖片為該區(qū)域拍攝的航拍圖像圖片依據(jù)定位信息和特征信息拼接的區(qū)域大圖,分辨率和尺寸較大,無法直接進行預測,需要進行網(wǎng)格化切割,如20480×20480分辨率的區(qū)域大圖可分割為32當輸入兩個時間Tpast和T(1)如若兩者識別的種類相同,如兩者都為民房,則對兩者民房的坐標信息進行中心點對齊,在不超過預設的中心點偏差閾值,那么視為這兩個區(qū)域的民房為同一地理位置的建筑。針對同一種類、同一地理位置的建筑需要進行細化區(qū)分,本發(fā)明的做法是細化判斷算法提高算法準確率,在現(xiàn)有的發(fā)明和文獻中,通常不會對預測分類結果進行進一步判斷其準確性,只是輸出該種類置信度最大的種類,受到遙感圖像的距離因素和大小種類不均衡、小目標太多的情況,本發(fā)明對YOLOv6-SwinTransformer分類網(wǎng)絡的結果框內進行前景分割,示例圖如下:圖SEQ圖\*ARABIC2圖SEQ圖\*ARABIC3如圖2和圖3所示,圖2為檢測框落在右下角的情況,兩者的檢測框在同一位置,種類相同,再次對原圖該位置的檢測框內進行前景分割,可分割出建筑和背景,再根據(jù)分割出的建筑圖像計算其像素點的多少,即建筑的面積。同時利用RGB檢測對分割后的建筑進行顏色分析,若T時刻前后面積變化和顏色分布變化超過預設范圍,則視為產生違建行為,隨后輸出圖2的違建類別和違建坐標,圖3與圖2處理方法相同。(2)若圖2和圖3的檢測框在同一位置,但是檢測框的標簽種類不同,則進一步比較檢測框的長寬比,本發(fā)明認為大多數(shù)情況下,檢測框標簽種類若發(fā)生改變,則其檢測框的長寬比也會發(fā)生相當程度的變化,這時候根據(jù)長寬比和標簽變化進行聯(lián)合比較,若超過設定的閾值則視為發(fā)生違建行為。長寬比的比較處理有助于減少誤檢,提高建筑分類的準確率。(3)若不同時間內的區(qū)域內在同一地理位置僅識別到一次,那視為產生拆除建筑或者新建建筑的違建行為。如時刻Tpast檢測到的建筑目標在時刻Tlast沒有檢測到,則視為該建筑已被拆除,反之則視為新建了某類建筑。隨后在時刻Tlast(三)生態(tài)預警模塊生態(tài)預警模塊是根據(jù)機器人巡拍拼接的區(qū)域大圖進行預警分析的,首先定位到森林、耕地等地理位置,然后對區(qū)域大圖進行圖庫檢索、顏色分布計算,若森林、耕地顏色變化劇烈則視為面積變換,當面積變換超過預設閾值時則認為生態(tài)發(fā)生明顯變化,提出告警信息至服務器。 上述三個模塊的具體流程圖如下:圖SEQ圖\*ARABIC4當epoch=200或300時,建筑分類結果對比如下:表5-1建筑分類效果對比MethodBackboneSizemAP@.5mAP@.5:.95epoch=200YOLOv6Standard(v5m)48.2GFLOPs0.8330.618YOLOv6SwinTransformer30.1GFLOPs0.8280.605epoch=300YOLOv6YOLOv6m_C3HB48.2GFLOPs0.7730.559YOLOv6Standard(v5m)48.2GFLOPs0.7550.502YOLOv6SwinTransformer30.1GFLOPs0.8720.715建筑分類結果如上表1所示,其中Backbone的Standard代表的是YOLOv6s和YOLOv6m原生標準框架,Size代表的是參數(shù)量大小,而ConvnNext和YOLOv6m_C3HB分別是遙感圖像語義分割經典算法[待引]和基于YOLOv6的微調框架,可以看到,從mAP@.5性能指標來看,Swin-Transformer框架提升至0.872,mAP@.5:.95指標提升至0.715,性能優(yōu)于其他算法。綜上,本發(fā)明所提出的方案在車輛識別、建筑違建預警等任務中表現(xiàn)出色,所使用的先進框架準確率均比其他方案有所提高,同時計算成本低廉,適合配合邊緣服務器和無人機進行實時預測和建筑違建預警工作。本申請相對現(xiàn)有技術而言,所具有的優(yōu)點和效果。目前的專利技術:CN092553178B,專利名稱:《一種基于雙網(wǎng)絡的航拍圖像差異檢測方法》,發(fā)明人:布樹輝、李清、韓鵬程;CN109871798B,專利名稱:《一種基于卷積神經網(wǎng)絡的遙感影像建筑物提取方法》,發(fā)明人:鄧水光、朱光亞、林博、尹建偉。與現(xiàn)有的技術相比,本發(fā)明具有以下有益效果:本方法通過引入Swin-Transformer特征提取框架進一步提升了深度學習網(wǎng)絡的分類準確率,同時降低了網(wǎng)絡參數(shù)量,以更小的模型提升了分類準確率,降低了計算資源損耗。本方法依據(jù)建筑數(shù)據(jù)集的特點,創(chuàng)新地設計了二次分類的處理

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論