版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
摘要:利用先進的人工智能和計算機視覺技術,物流管理取得了重大進展。如何建立一套能夠有效解決物體遮擋、運動模糊、目標相似等實際問題的檢測技術,是一個重要的挑戰(zhàn)。文章提出了一種基于YOLOv8和Deep-SORT的方法來跟蹤貨物位置。該系統(tǒng)可以有效地識別、定位、跟蹤和計數(shù)鏡頭前的貨物。稱之為“warehousemanagement”,該算法基于示例跟蹤范式,并將跟蹤應用于檢測對象的邊界框。在此基礎上,自動識別感興趣區(qū)域(ROI),有效消除不需要物體。我們的F1的分數(shù)是0.8167。關鍵詞:Deep-SORT;YOLOv8;warehousemanagement;目標檢測;圖像識別0
引
言近幾年來,由于人們的消費能力提高,商品的需求量與日俱增,因此,如何對商品進行有效的庫存管理已成為一個亟待解決的問題。大部分的倉庫管理者都是以手工方式清點存貨。但這種方法成本較高,由于要經(jīng)常監(jiān)視進貨和出貨,因此需要大量的勞動力,迫切需要能降低勞力、大大節(jié)約成本的倉儲管理系。為了解決倉庫管理問題,現(xiàn)有的各種管理解決方案都使用物聯(lián)網(wǎng)設備為工作人員提供實時庫存細節(jié)。雖然采用了感應器和硬件,保證了精確性,但卻要求持續(xù)的維修,這使得其并不適合于市場,仍需要進行低成本的存貨檢查。在零售行業(yè)中,將人工智能與計算機視覺相結合(尤其是在庫存自動化方面),已成為一個新興的研究熱點。自助服務的潮流已經(jīng)影響到我們生活的方方面面。但實際情況下,如目標遮擋、目標運動、目標相似度高、新季節(jié)性商品的引入等,對目標識別造成了很大的阻礙。我們獲得了一個訓練數(shù)據(jù)集,包含真實圖像和合成圖像總計116500個項目掃描以及相關的分割掩碼。該測試資料包含了大量的錄像剪輯,每一剪輯都包含了一至幾個用戶用一種很自然的方式所做的掃描操作。由于涉及到多個管理員,且每一個管理員的掃描方式都稍有差異,試驗變得更加復雜。在測試方案中,會有一個用于存放被掃描項目的托盤,同時攝像頭會被放在結算臺的正上方。本項目提出一種全新的warehousemanagement管理方法,該方法融合了檢測、追蹤和篩選等多個功能,能夠精確地計算出不同物體的個數(shù)。近年來,利用相機進行庫存行為檢測的研究取得了很大進展。目前,很多的研究都是利用高斯混合模型對汽車進行分割,以獲取汽車的相關信息。Akhawaji等[1]使用卡爾曼濾波器,進一步消除了假陽性,從而改善了跟蹤的效率。但是,當作業(yè)區(qū)光照條件改變時,該方法的效果就會降低。在圖像處理之外,我們也會使用深度學習的方法來探測目標。在此基礎上,給出了一個基于YOLOv8的實時庫存管理方法。一種最新的物件檢測算法,YOLOv8已經(jīng)被用來檢測存貨中的物件數(shù)目。然后,對每一類目標進行識別、深度排序。并對該方法進行優(yōu)化,使其在各種光照、氣象條件及短時遮擋等情況下更具優(yōu)越性。由于這種方法無需對目標區(qū)域有先驗知識,所以其適用范圍廣泛。1
相關工作人們對深度學習研究得越深入,對其認識就越來越多。例如分類、物體探測、物體追蹤、以及健康護理。由于其取消了傳統(tǒng)的收銀臺,并顯著地減少了收銀員的工作時間,因而引起了自助收銀員的濃厚興趣。這種方法最大程度上節(jié)約了人力資源,因為它采用了機器視覺和感應器融合技術,以識別被選擇的商品,并在結束時,通過手機應用軟件將其結算給收銀員。松下公司已經(jīng)開發(fā)出一套基于無線電波識別(RFID)標簽的自助檢驗系統(tǒng),該技術已經(jīng)被廣泛地應用于安防領域。這一系統(tǒng)具有很高的性價比,這使得它非常適合在倉儲中使用。目前,國內外學者已對視覺物體的識別與分類進行了大量的研究,尤其是在倉庫中,以貨架上的商品探測為主要研究內容。即便如此,也有多視角立體視覺(MVS)利用圓錐直方圖(CHoG)作為特征描述子,從檢索圖像中抽取出隱藏的特征,然后發(fā)送給數(shù)據(jù)服務器以供識別。除閱讀標簽外,還可將檢測自動功能延伸至對物品進行視覺特性及總體外觀的分析。Aquilina等[2]開創(chuàng)了一種利用SCARA機器人簡化倉庫結算流程的方法,SCARA機器人帶有機器視覺的四軸機器人系統(tǒng)。當管理員把東西放到傳送帶上時,這個系統(tǒng)會確認東西,把它們包裝好,并且會自動產(chǎn)生一個總賬。相比之下,Redmon等[3]提出使用傳統(tǒng)多類檢測器,依賴于卷積神經(jīng)網(wǎng)絡從單個RGB圖像中檢測并識別項目。1.1
對象檢測在此基礎上,提出了一種基于機器學習方法的物體檢測方法。在Liu等[4]的目標檢測模型中,主要包含了3個階段:感興趣區(qū)域的選擇、特征的提取和目標的分類。一種常用的感興趣區(qū)域提取方法是利用一個滑動窗口來對一張圖片進行不同比例的變換。如圖1所示。深度學習算法主要可以分為兩類,其中將檢測任務視為回歸問題的是YouOnlyLookOnce(YOLO)和SingleShotMulti-BoxDetector(SSD)。另一方面,以區(qū)域為基礎的CNN(Region-basedCNN,R-CNN)等算法對目標區(qū)域先進行定位再進行分類。該方法是一種新的圖像分類方法。根據(jù)提取出的特征,采用SVM方法對待識別區(qū)域中有無目標進行分類。RCNN的訓練耗時較長,而且在探測速度上有一定的局限性。本文基于SSD、YOLO等一階檢測器來實現(xiàn)對物體的探測。圖2展示了SSD模型的體系結構。在SSD算法中,采用了基于CNN的特征抽取方法。在此基礎上,利用卷積圖對圖像進行多尺度分類。因為SSD算法沒有采用基于面積的推薦算法,所以SSD算法比R-CNN算法更快。如圖3所示。對于移動對象的檢測,通常采用基于SIFT或者HOG的特征提取技術。但是,受目標表觀、尺度、噪聲、光照等因素影響,現(xiàn)有方法存在較大誤差。卷積神經(jīng)網(wǎng)絡(CorrelationNetwork,CNN)具有較好的學習效果。近年來,隨著物體探測技術的發(fā)展,人們提出了一類、二級探測器和無錨點探測技術。這兩種模型都是以數(shù)據(jù)為基礎的,使得機器可以自主地學會圖像中的特征表示,因此不需要抽取圖像中的特征。兩階段檢測架構將檢測過程分為區(qū)域提議階段和分類階段,目前比較流行的模型包括R-CNN、FastR-CNN和FasterR-CNN等。而單級檢測器則采用單一的前向全卷積網(wǎng)路,可直接提供目標的邊界盒及目標類別。在這類產(chǎn)品中,最常用的模型是SSD和YOLO。最近幾年,無錨檢測模型在目標檢測領域的應用越來越突出。另外,Redmon等[5]提出的Task-aligned一階段對象檢測(Task-alignedOne-StageObjectDetection,TOOD)方法也是一個很好的例子。該方法在對齊測度中引入了目標的定位與分類,從而實現(xiàn)了任務間的互動與目標間的協(xié)調。他們還建議采用任務對齊的方式,使錨定位最優(yōu),從而使其表現(xiàn)優(yōu)于之前的一階偵察機。另外,YOLOX是YOLO系列檢測器模型的非錨定演化。他們使用了諸如去耦合頭等高級探測技術,并使用了領先的標簽分發(fā)戰(zhàn)略模擬OTA。YOLOX比其他同類產(chǎn)品具有更高的性能?;贜VIDIAV100GPU,YOLOv7的推理速度可達30fps以上,比現(xiàn)有的任何一種實時目標檢測器都要快。另外,最新的YOLOv8看起來也比之前YOLO的任何一個版本都要好。由于包含了海量目標類型,可以很好地進行特征學習,在訓練過程中往往會采用MS-COCO檢測問題,ImageNet問題,以及PASCALVOC問題。通過訓練,該模型可以很好地適應某一特定的任務。但是,目前大部分的物體檢測算法都存在精度與性能的矛盾,如何兼顧這兩個問題是一個亟待解決的問題。1.2
對象跟蹤目標跟蹤是指在不同的幀間,根據(jù)不同的時間和空間特征,對不同的目標進行檢測。在最簡單的情況下,獲取第一個檢測集,給出它們的ID,然后在框架內對它們進行追蹤,這就是物體追蹤的精髓。單個目標和多個目標可以進一步劃分為兩種類型。多目標追蹤算法的主要任務是對圖像中的多個目標進行辨識,并對其進行指派和維護,以及對輸入圖像中的目標進行追蹤。物體追蹤是指在一系列的影像中對物體進行定位與追蹤。這一工作在很多實際應用中都很重要。目標跟蹤過程中存在目標表觀、目標遮擋、攝像機運動、光照、尺度等問題。針對上述問題,國內外學者提出了多種基于特征的、深度學習的、基于概率的目標跟蹤方法。隨著機器學習、計算機視覺等技術的發(fā)展,目標跟蹤技術得到了長足的發(fā)展。Bewley等[6]提出了一種簡單的在線實時跟蹤(SimpleOnlineReal-TimeTracker,SORT)的多目標跟蹤的實用方法,并將其重點放在了高效實時的對象關聯(lián)上。此項研究突出了偵測品質對追蹤效能的影響,而采用不同的偵測方式可將追蹤效能提升18.9%。另外,由于該算法的簡單性,它可以達到260赫茲的高更新速率,是其他高級追蹤器的20倍。Deep-SORT是一種SORT追蹤方法,該方法根據(jù)影像的特性,將深度關聯(lián)量值融入其中。Zhang等[7]提出了一種高級的目標跟蹤算法,該算法利用類似于Deep-SORT的深度神經(jīng)網(wǎng)絡以獲得最新的跟蹤精度。針對實際目標跟蹤中存在的諸如遮擋、尺度偏差、運動模糊等問題,提出了一種新的目標跟蹤算法。ByteTrack已經(jīng)在許多標準測試中取得了很好的成績,并且在精確度和速度上超過了其他受歡迎的物體追蹤工具。ByteTrack將充分發(fā)揮深度學習的優(yōu)勢,極大地促進目標跟蹤技術的發(fā)展。1.3
視頻修復視頻補繪是利用可靠信息對視頻序列中的缺損進行修復的一種方法。該技術在影視等領域具有廣泛的應用前景。由于視頻繪制涉及到時空兩個方面的信息,因此,圖像繪制是一個極具挑戰(zhàn)的研究課題。針對該問題,人們提出了多種基于卷積神經(jīng)網(wǎng)絡的時空上下文學習方法。雖然近年來視頻渲染技術已經(jīng)有了一定的發(fā)展,但其研究還處于起步階段,還面臨著諸多問題,如場景的復雜性、時序的連續(xù)性、以及圖像中存在的大量空白區(qū)域等。Zhang等[7]提出了一種流修復網(wǎng)絡,它是通過利用本地時間窗口內的相關流特征,來完成一個被破壞的流。在此基礎上,針對時空變換的特點,提出了一種窗口劃分策略。另外,為了準確地控制電流對每個空間transformer的影響,在此基礎上,提出了一種新的業(yè)務權重計算模型,并將其與雙視圖空間多頭自動注意(MHSA)技術相結合,實現(xiàn)了全局性和視窗型注意力的融合。2
實
驗圖4是對我們架構的說明。該方案是一種多步的方案,下面將對其進行更多的討論。該方法以測試集合A的數(shù)據(jù)作為輸入。在第一個步驟中,幀會經(jīng)過剪切和覆蓋幀的預處理。第二個步驟是把經(jīng)過處理的圖像送到一個探測網(wǎng)絡,由探測網(wǎng)絡產(chǎn)生一個定位框。在此基礎上,將含有運動軌跡位置的圖像輸入深度集,并將其與運動軌跡進行分類,從而得到運動軌跡的類別得分。最后一個步驟是利用一個合并的算法來調整目標軌道,并且為每一個軌道選擇一個軌道的輸出框架。2.1
生成數(shù)據(jù)和訓練模型本研究的物件檢測模式,利用三維掃描物件模式與其對應之分割蒙板所產(chǎn)生之復合影像來發(fā)展??紤]到對外源數(shù)據(jù)的利用,本文采用了一種與實驗視頻中目標顏色相似的背景,并且在背景中添加了一種高斯噪聲。為了充實訓練資料組(如圖5所示),本文還探討了如何將背景圖像中的目標進行放大,增強其分辨能力的方法。鑒于原始圖片的低品質。本項目前期研究發(fā)現(xiàn),采用基于產(chǎn)生式對抗網(wǎng)絡(SRGAN)的超分辨方法,可實現(xiàn)對單個圖片的超分辨,并取得較好的訓練圖片質量。我們一共產(chǎn)生了13萬個訓練圖片和20000個驗證圖片。我們在YOLOv8中調整了預先訓練好的權重(如圖6所示)。2.2
異常對象去除我們所使用的數(shù)據(jù)集合,是一組嵌入在正常圖片中的單一商品的綜合圖片。在訓練過程中,所有的作品都被單獨放在一個框架內,并且放在一個不允許其他物品接近的“自由空間”里。但是,在進行邏輯推理時,即使現(xiàn)場沒有任何商品,該模型也可能對員工的雙手或軀體進行錯誤的檢測。針對這一問題,本項目擬采用計算機視覺技術,從一幅圖像中提取出人體部分,尤其是手部,并對其進行遮擋。其中,主要是利用關鍵點偵測和事例分割兩種方式,來估算出每個手部的語義關鍵點的位置,或是把手部當作物件來辨識。隨后,我們應用Flow-GuidedVideoInpainting(FGVI),利用flowcompletion,featurepropagation,contenthallucination這3個可訓練模塊共同優(yōu)化Inpainting過程。2.3
感興趣區(qū)域檢測本研究以手部對象的識別為研究對象,擬通過對手部對象的動態(tài)識別,來實現(xiàn)對手部對象的檢測與跟蹤,從而提高整個加工管線的檢測精度和總體工作效率。首先利用高斯混合模型對每一段視頻進行背景提取,然后對其進行檢測。在此基礎上,采用背景相減的方法,將前一幀圖像進行合成,并將各幀的前景圖像進行分割。由于相機在場景中不會發(fā)生運動,因此我們僅在關鍵幀中獲取感興趣區(qū)域的坐標。但是,為防止出現(xiàn)異常感興趣區(qū)域,對每一幀,我們都會計算出當前一幀、前后兩幀的感興趣區(qū)域,并從中選取一個帶中間值邊框的感興趣區(qū)域。同時,本文還提出了一種基于填充的差分圖像處理方法,以確定具有類似于種子值的像素。在這個范例中,將種子放置在影像的中央,但是你可以隨意設定它。通過這種方式,所有附著在邊界上的象素都會被識別出來,并且這些像素被稱為“托盤”。但是,這個方法得到的整體效果較差。當每一個物體經(jīng)過ROI的磁道被決定后,我們決定一個框架ID,這個框架是磁道中最中央的物體邊框。在此基礎上,我們先求出每一個被探測到的邊界盒的中心點,再求出它們到相應的邊界盒中心的歐氏距離,從而得到該邊界盒。最后,給出了在各感興趣區(qū)域中心最短幀內的目標探測結果。2.4
應用分析與R-CNN、DPM等方法相比,YOLO方法表現(xiàn)出了很好的效果,但是對于小型目標的準確定位還不夠理想。因為,在這個問題范圍內,并沒有包含很小的圖片,所以,YOLO可以很容易地被用于這項研究。YOLO把輸入的圖片分成一個方格,例如M*M。YOLO將可信度用Pr(物體)*IOU來表示,這里的Pr(物體)代表物體出現(xiàn)的可能性;IOU是指推理結果與地表真實結果有交疊的區(qū)域。各網(wǎng)格單位產(chǎn)生5種預測(x,y,w,h和置信得分)。另外,每個格子生成用Pr(類別|對象)表示的條件類別概率。如公式(1)所示,說明了在測試階段怎樣才能得到特定的類的置信度得分。(1)最后一層是用來預測與其關聯(lián)的類別機率和邊界框的坐標。然后,將包圍盒標準化到0至1。所有其他的層都采用了ReLu激活函數(shù),以提高非線性度,如公式(2)所示。(2)在該框架下,Yolov8采用了基于CSP(C2f)的C2f模塊,而Yolov5采用了C3模塊。CSP結構可以提高CNN的學習性能,降低模型的運算量。C2f模塊包括兩個Conv模塊以及多個瓶頸,它們之間用分叉和Concat相連接。其他的主要和YOLOv5一樣。在主干網(wǎng)絡的最底層,采用了SPPF組件。然后,我們用YOLOv8檢測器來檢測物體,見圖5。這個最新技術的偵測器可以增加投資回報,它可以將影像的尺寸調整到640×640。為保證最大程度的精確性和最快的推理速度,本文采用了深度追蹤算法。通過對產(chǎn)生目標的樣本集的訓練,我們得到了116種不同類型的樣本,其中在訓練過程中,樣本集的準確率達到了98.3%。此外,本算法在對目標進行定位的同時,還使用了探測置信度與類別置信度。我們的個別產(chǎn)品追蹤解決方案包括兩個在線追蹤算法:SORT與Deep-Sort。這兩種方法都具有很好的目標追蹤效果,而且都是基于邊界矩形來追蹤所關注的物體。這兩種方法都是利用卡爾曼濾波器對每一個目標的將來位置進行預測。最后,將預測結果與對應的軌跡相結合,保證了目標在視頻中的精確追蹤。綜合上述兩個方面的研究成果,使得該方法在實際應用中具有較高的精度和較高的計算效率。SORT和Deep-Sort尤其適用于目標非常接近或者有遮擋的情形,這兩種算法都是為解決高速追蹤問題而設計的。同時,本文提出的方法可以有效地應對物體的尺寸、方位、外觀等因素的改變,使得圖像在光照、背景等因素的影響下,具有較強的魯棒性。在此基礎上,本項目的研究成果可應用于多種場景下,對單一商品進行高精度的追蹤??傊?,本項目提出的算法具有較高的計算精度和較高的計算效率,對實際應用具有重要意義。因此,該方法是一種切實可行的方法,適用于各種場合。我們所選的追蹤者為算法提供一系列track-let,每一個track-let都有一個不同的ID。在每一個track-let中,我們都保留了被測物體的邊界框坐標,它的類別指派,以及它的可信度。然后,我們給每一個track-let指定了一個類別標簽,這個類別是在track-let的所有類別中平均置信程度最高的。接著,我們對某些軌跡進行了分析,認為有些軌跡是單一軌跡的延續(xù),并且對其進行了合并。對任何兩個track-let,我們都會按照一定的順序進行比較,如果在一個track-let中,最后一個frame中,x和y的坐標都在K個像素之內,那么就會將這兩個frame進行合并。采用一種基于深度分類的算法,對每一個物體在整個框架內都進行跟蹤。Deep-SORT利用表觀描述符,將標識的轉變減到最少,為了改進追蹤效果,在處理有時序信息和時序信息的情況下,一般采用卡爾曼濾波方法。具體見表1。2.5
實驗裝置這一部分將介紹用于win11系統(tǒng)的試驗平臺。所有的試驗都是在英特爾3.6GHz處理器,8GB內存,以及NVIDIAQuadroP4000圖形卡上完成的。如圖7所示。本系統(tǒng)的硬件架構,使本系統(tǒng)具有較強的運算力,可于較短時間內完成相關實驗。盡管我們的算法同時利用了CPU和GPU兩種資源,但是在試驗過程中,我們僅用了一個GPU。在CPU上使用多線程進行處理,保證了對現(xiàn)有計算資源的高效利用。但是,該算法以GPU為核心,實現(xiàn)了大規(guī)模運算。我們的試驗是可擴充的,也就是說,這些試驗可以適用于各種不同的硬件配置。與其他YOLO算法相比,YOLOv8的計算結果準確率為53.9。所以,YOLOv8被選為車輛探測的對象。由于這些類別是在MSCOCO的資料集中被訓練過的,因此使用了預訓練模型。該視頻輸入具有1080p(1920×1080)的分辨率和15fps的幀速率。由于該數(shù)據(jù)集合中的每一個分類都包含在內,因此將其視為均衡的。對于YOLOv8來說,image尺寸參數(shù)被設定為640。這個模式把最長的尺寸調節(jié)到了640,也就是在保留了縱橫比的情況下,把1920的尺寸變成了640。這樣,208個可變尺寸的圖片接近640×360。平置信度閾值設置為0.5。這個類別出現(xiàn)在一個有邊框的盒子里的可能性是通過一個可信度得分來評價的。在推理方面,我們主要關注于感興趣區(qū)域中的目標的檢測與追蹤。為了達到這個目的,我們只從感興趣區(qū)域中抽取像素,并將其設置為640×640。在每一秒都會開始對感興趣區(qū)域進行檢測。因為視頻是60幀/秒,所以我們把n設為10,這樣就可以省去65%的ROI運算。實驗結果表明,SRGAN網(wǎng)絡對訓練樣本中任意組合的目標圖像的增強效果最好。我們前期對已有的80個數(shù)據(jù)集進行了精細調整,取得了96.8%的準確率。最后,我們采用中介體YOLOv8對75次樣本進行精細調整后,得到的
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經(jīng)權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025手機買賣合同書范本
- 二零二五年度物業(yè)管理公司增資擴股合同2篇
- 2024版外腳手架租賃合同范本
- 2024版未成年人教育費用擔保合同范本版B版
- 二零二五年度新型建筑材料安全施工合作協(xié)議2篇
- 2024版房屋預訂協(xié)議書3篇
- 二零二五年度智能穿戴設備模具設計與制造合同2篇
- 2024年知識產(chǎn)權許可使用合同標的權利界定
- 2024版公司人事招聘勞動協(xié)議樣本版B版
- 2025年能見度測試儀項目立項申請報告模板
- 雅禮中學2024-2025學年初三創(chuàng)新人才選拔數(shù)學試題及答案
- 下屬企業(yè)考核報告范文
- 采購合同評審表-模板
- 冬季高空作業(yè)施工方案
- 2024-2025學年人教版九年級數(shù)學上學期復習:圓的綜合解答題 壓軸題型專項訓練(30道題)
- 高中學生交通安全課件
- 高速收費站文明服務培訓
- 2024年基金應知應會考試試題
- 2024員工質量意識培訓內容大全
- 上海市徐匯區(qū)南洋模范中學2025屆物理高二第一學期期末檢測試題含解析
- 2024年教師資格考試初級中學學科知識與教學能力數(shù)學試題及解答參考
評論
0/150
提交評論