胡瑤 胡經(jīng)蒙 楊欣怡 孫世誠 劉慶華
摘 要:利用先進(jìn)的人工智能和計(jì)算機(jī)視覺技術(shù),物流管理取得了重大進(jìn)展。如何建立一套能夠有效解決物體遮擋、運(yùn)動(dòng)模糊、目標(biāo)相似等實(shí)際問題的檢測技術(shù),是一個(gè)重要的挑戰(zhàn)。文章提出了一種基于YOLOv8和Deep-SORT的方法來跟蹤貨物位置。該系統(tǒng)可以有效地識別、定位、跟蹤和計(jì)數(shù)鏡頭前的貨物。稱之為“warehouse management”,該算法基于示例跟蹤范式,并將跟蹤應(yīng)用于檢測對象的邊界框。在此基礎(chǔ)上,自動(dòng)識別感興趣區(qū)域(ROI),有效消除不需要物體。我們的F1的分?jǐn)?shù)是0.816 7。
關(guān)鍵詞:Deep-SORT;YOLOv8;warehouse management;目標(biāo)檢測;圖像識別
中圖分類號:F253;U169.7 文獻(xiàn)標(biāo)志碼:A DOI:10.13714/j.cnki.1002-3100.2024.10.007
Abstract: Utilizing advanced artificial intelligence and computer vision technology, logistics management has made significant progress. How to establish a set of detection technology that can effectively solve the practical problems such as object occlusion, motion ambiguity and target similarity is an important challenge. This paper presents a method based on YOLOv8 and Deep-SORT to track cargo location. The system can effectively identify, locate, track and count goods in front of the lens. It is called“warehouse management” and the algorithm is based on the example trace paradigm and applies the trace to the bounding box of the detected object. Based on this, the Region of Interest (ROI) is automatically identified, effectively eliminating unwanted objects. Our F1 score is 0.816 7.
Key words: Deep-SORT; YOLOv8; warehouse management; target detection; image recognition
0? ? 引? ? 言
近幾年來,由于人們的消費(fèi)能力提高,商品的需求量與日俱增,因此,如何對商品進(jìn)行有效的庫存管理已成為一個(gè)亟待解決的問題。大部分的倉庫管理者都是以手工方式清點(diǎn)存貨。但這種方法成本較高,由于要經(jīng)常監(jiān)視進(jìn)貨和出貨,因此需要大量的勞動(dòng)力,迫切需要能降低勞力、大大節(jié)約成本的倉儲管理系。為了解決倉庫管理問題,現(xiàn)有的各種管理解決方案都使用物聯(lián)網(wǎng)設(shè)備為工作人員提供實(shí)時(shí)庫存細(xì)節(jié)。雖然采用了感應(yīng)器和硬件,保證了精確性,但卻要求持續(xù)的維修,這使得其并不適合于市場,仍需要進(jìn)行低成本的存貨檢查。
在零售行業(yè)中,將人工智能與計(jì)算機(jī)視覺相結(jié)合(尤其是在庫存自動(dòng)化方面),已成為一個(gè)新興的研究熱點(diǎn)。自助服務(wù)的潮流已經(jīng)影響到我們生活的方方面面。但實(shí)際情況下,如目標(biāo)遮擋、目標(biāo)運(yùn)動(dòng)、目標(biāo)相似度高、新季節(jié)性商品的引入等,對目標(biāo)識別造成了很大的阻礙。我們獲得了一個(gè)訓(xùn)練數(shù)據(jù)集,包含真實(shí)圖像和合成圖像總計(jì)116 500個(gè)項(xiàng)目掃描以及相關(guān)的分割掩碼。該測試資料包含了大量的錄像剪輯,每一剪輯都包含了一至幾個(gè)用戶用一種很自然的方式所做的掃描操作。由于涉及到多個(gè)管理員,且每一個(gè)管理員的掃描方式都稍有差異,試驗(yàn)變得更加復(fù)雜。在測試方案中,會有一個(gè)用于存放被掃描項(xiàng)目的托盤,同時(shí)攝像頭會被放在結(jié)算臺的正上方。本項(xiàng)目提出一種全新的warehouse management管理方法,該方法融合了檢測、追蹤和篩選等多個(gè)功能,能夠精確地計(jì)算出不同物體的個(gè)數(shù)。近年來,利用相機(jī)進(jìn)行庫存行為檢測的研究取得了很大進(jìn)展。目前,很多的研究都是利用高斯混合模型對汽車進(jìn)行分割,以獲取汽車的相關(guān)信息。Akhawaji等[1]使用卡爾曼濾波器,進(jìn)一步消除了假陽性,從而改善了跟蹤的效率。但是,當(dāng)作業(yè)區(qū)光照條件改變時(shí),該方法的效果就會降低。在圖像處理之外,我們也會使用深度學(xué)習(xí)的方法來探測目標(biāo)。
在此基礎(chǔ)上,給出了一個(gè)基于YOLOv8的實(shí)時(shí)庫存管理方法。一種最新的物件檢測算法,YOLOv8已經(jīng)被用來檢測存貨中的物件數(shù)目。然后,對每一類目標(biāo)進(jìn)行識別、深度排序。并對該方法進(jìn)行優(yōu)化,使其在各種光照、氣象條件及短時(shí)遮擋等情況下更具優(yōu)越性。由于這種方法無需對目標(biāo)區(qū)域有先驗(yàn)知識,所以其適用范圍廣泛。
1? ? 相關(guān)工作
人們對深度學(xué)習(xí)研究得越深入,對其認(rèn)識就越來越多。例如分類、物體探測、物體追蹤、以及健康護(hù)理。由于其取消了傳統(tǒng)的收銀臺,并顯著地減少了收銀員的工作時(shí)間,因而引起了自助收銀員的濃厚興趣。這種方法最大程度上節(jié)約了人力資源,因?yàn)樗捎昧藱C(jī)器視覺和感應(yīng)器融合技術(shù),以識別被選擇的商品,并在結(jié)束時(shí),通過手機(jī)應(yīng)用軟件將其結(jié)算給收銀員。松下公司已經(jīng)開發(fā)出一套基于無線電波識別(RFID)標(biāo)簽的自助檢驗(yàn)系統(tǒng),該技術(shù)已經(jīng)被廣泛地應(yīng)用于安防領(lǐng)域。這一系統(tǒng)具有很高的性價(jià)比,這使得它非常適合在倉儲中使用。目前,國內(nèi)外學(xué)者已對視覺物體的識別與分類進(jìn)行了大量的研究,尤其是在倉庫中,以貨架上的商品探測為主要研究內(nèi)容。即便如此,也有多視角立體視覺(MVS)利用圓錐直方圖(CHoG)作為特征描述子,從檢索圖像中抽取出隱藏的特征,然后發(fā)送給數(shù)據(jù)服務(wù)器以供識別。除閱讀標(biāo)簽外,還可將檢測自動(dòng)功能延伸至對物品進(jìn)行視覺特性及總體外觀的分析。Aquilina等[2]開創(chuàng)了一種利用 SCARA機(jī)器人簡化倉庫結(jié)算流程的方法, SCARA機(jī)器人帶有機(jī)器視覺的四軸機(jī)器人系統(tǒng)。當(dāng)管理員把東西放到傳送帶上時(shí),這個(gè)系統(tǒng)會確認(rèn)東西,把它們包裝好,并且會自動(dòng)產(chǎn)生一個(gè)總賬。相比之下, Redmon等[3]提出使用傳統(tǒng)多類檢測器,依賴于卷積神經(jīng)網(wǎng)絡(luò)從單個(gè)RGB圖像中檢測并識別項(xiàng)目。
1.1? ? 對象檢測
在此基礎(chǔ)上,提出了一種基于機(jī)器學(xué)習(xí)方法的物體檢測方法。在 Liu等[4]的目標(biāo)檢測模型中,主要包含了3個(gè)階段:感興趣區(qū)域的選擇、特征的提取和目標(biāo)的分類。一種常用的感興趣區(qū)域提取方法是利用一個(gè)滑動(dòng)窗口來對一張圖片進(jìn)行不同比例的變換。如圖1所示。
深度學(xué)習(xí)算法主要可以分為兩類,其中將檢測任務(wù)視為回歸問題的是 You Only Look Once (YOLO)和 Single Shot Multi-Box Detector (SSD)。另一方面,以區(qū)域?yàn)榛A(chǔ)的 CNN (Region-based CNN,R-CNN)等算法對目標(biāo)區(qū)域先進(jìn)行定位再進(jìn)行分類。該方法是一種新的圖像分類方法。根據(jù)提取出的特征,采用 SVM方法對待識別區(qū)域中有無目標(biāo)進(jìn)行分類。RCNN的訓(xùn)練耗時(shí)較長,而且在探測速度上有一定的局限性。
本文基于 SSD、YOLO等一階檢測器來實(shí)現(xiàn)對物體的探測。圖2展示了SSD模型的體系結(jié)構(gòu)。在SSD算法中,采用了基于CNN的特征抽取方法。在此基礎(chǔ)上,利用卷積圖對圖像進(jìn)行多尺度分類。因?yàn)镾SD算法沒有采用基于面積的推薦算法,所以 SSD算法比R-CNN算法更快。如圖3所示。
對于移動(dòng)對象的檢測,通常采用基于 SIFT或者 HOG的特征提取技術(shù)。但是,受目標(biāo)表觀、尺度、噪聲、光照等因素影響,現(xiàn)有方法存在較大誤差。卷積神經(jīng)網(wǎng)絡(luò)(Correlation Network,CNN)具有較好的學(xué)習(xí)效果。近年來,隨著物體探測技術(shù)的發(fā)展,人們提出了一類、二級探測器和無錨點(diǎn)探測技術(shù)。這兩種模型都是以數(shù)據(jù)為基礎(chǔ)的,使得機(jī)器可以自主地學(xué)會圖像中的特征表示,因此不需要抽取圖像中的特征。兩階段檢測架構(gòu)將檢測過程分為區(qū)域提議階段和分類階段,目前比較流行的模型包括R-CNN、FastR-CNN和Faster R-CNN等。而單級檢測器則采用單一的前向全卷積網(wǎng)路,可直接提供目標(biāo)的邊界盒及目標(biāo)類別。在這類產(chǎn)品中,最常用的模型是SSD和YOLO。
最近幾年,無錨檢測模型在目標(biāo)檢測領(lǐng)域的應(yīng)用越來越突出。另外,Redmon等[5]提出的Task-aligned一階段對象檢測(Task-aligned One-Stage Object Detection,TOOD)方法也是一個(gè)很好的例子。該方法在對齊測度中引入了目標(biāo)的定位與分類,從而實(shí)現(xiàn)了任務(wù)間的互動(dòng)與目標(biāo)間的協(xié)調(diào)。他們還建議采用任務(wù)對齊的方式,使錨定位最優(yōu),從而使其表現(xiàn)優(yōu)于之前的一階偵察機(jī)。另外,YOLOX是 YOLO系列檢測器模型的非錨定演化。他們使用了諸如去耦合頭等高級探測技術(shù),并使用了領(lǐng)先的標(biāo)簽分發(fā)戰(zhàn)略模擬OTA。YOLOX比其他同類產(chǎn)品具有更高的性能?;贜VIDIAV100 GPU,YOLOv7的推理速度可達(dá)30fps以上,比現(xiàn)有的任何一種實(shí)時(shí)目標(biāo)檢測器都要快。另外,最新的YOLOv8看起來也比之前 YOLO的任何一個(gè)版本都要好。由于包含了海量目標(biāo)類型,可以很好地進(jìn)行特征學(xué)習(xí),在訓(xùn)練過程中往往會采用MS-COCO檢測問題,ImageNet問題,以及 PASCAL VOC問題。通過訓(xùn)練,該模型可以很好地適應(yīng)某一特定的任務(wù)。但是,目前大部分的物體檢測算法都存在精度與性能的矛盾,如何兼顧這兩個(gè)問題是一個(gè)亟待解決的問題。
1.2? ? 對象跟蹤
目標(biāo)跟蹤是指在不同的幀間,根據(jù)不同的時(shí)間和空間特征,對不同的目標(biāo)進(jìn)行檢測。在最簡單的情況下,獲取第一個(gè)檢測集,給出它們的ID,然后在框架內(nèi)對它們進(jìn)行追蹤,這就是物體追蹤的精髓。單個(gè)目標(biāo)和多個(gè)目標(biāo)可以進(jìn)一步劃分為兩種類型。多目標(biāo)追蹤算法的主要任務(wù)是對圖像中的多個(gè)目標(biāo)進(jìn)行辨識,并對其進(jìn)行指派和維護(hù),以及對輸入圖像中的目標(biāo)進(jìn)行追蹤。
物體追蹤是指在一系列的影像中對物體進(jìn)行定位與追蹤。這一工作在很多實(shí)際應(yīng)用中都很重要。目標(biāo)跟蹤過程中存在目標(biāo)表觀、目標(biāo)遮擋、攝像機(jī)運(yùn)動(dòng)、光照、尺度等問題。針對上述問題,國內(nèi)外學(xué)者提出了多種基于特征的、深度學(xué)習(xí)的、基于概率的目標(biāo)跟蹤方法。隨著機(jī)器學(xué)習(xí)、計(jì)算機(jī)視覺等技術(shù)的發(fā)展,目標(biāo)跟蹤技術(shù)得到了長足的發(fā)展。
Bewley等[6]提出了一種簡單的在線實(shí)時(shí)跟蹤(Simple Online Real-Time Tracker,SORT)的多目標(biāo)跟蹤的實(shí)用方法,并將其重點(diǎn)放在了高效實(shí)時(shí)的對象關(guān)聯(lián)上。此項(xiàng)研究突出了偵測品質(zhì)對追蹤效能的影響,而采用不同的偵測方式可將追蹤效能提升18.9%。另外,由于該算法的簡單性,它可以達(dá)到260赫茲的高更新速率,是其他高級追蹤器的20倍。Deep-SORT是一種SORT追蹤方法,該方法根據(jù)影像的特性,將深度關(guān)聯(lián)量值融入其中。
Zhang等[7]提出了一種高級的目標(biāo)跟蹤算法,該算法利用類似于Deep-SORT的深度神經(jīng)網(wǎng)絡(luò)以獲得最新的跟蹤精度。針對實(shí)際目標(biāo)跟蹤中存在的諸如遮擋、尺度偏差、運(yùn)動(dòng)模糊等問題,提出了一種新的目標(biāo)跟蹤算法。ByteTrack已經(jīng)在許多標(biāo)準(zhǔn)測試中取得了很好的成績,并且在精確度和速度上超過了其他受歡迎的物體追蹤工具。ByteTrack將充分發(fā)揮深度學(xué)習(xí)的優(yōu)勢,極大地促進(jìn)目標(biāo)跟蹤技術(shù)的發(fā)展。
1.3? ? 視頻修復(fù)
視頻補(bǔ)繪是利用可靠信息對視頻序列中的缺損進(jìn)行修復(fù)的一種方法。該技術(shù)在影視等領(lǐng)域具有廣泛的應(yīng)用前景。由于視頻繪制涉及到時(shí)空兩個(gè)方面的信息,因此,圖像繪制是一個(gè)極具挑戰(zhàn)的研究課題。針對該問題,人們提出了多種基于卷積神經(jīng)網(wǎng)絡(luò)的時(shí)空上下文學(xué)習(xí)方法。雖然近年來視頻渲染技術(shù)已經(jīng)有了一定的發(fā)展,但其研究還處于起步階段,還面臨著諸多問題,如場景的復(fù)雜性、時(shí)序的連續(xù)性、以及圖像中存在的大量空白區(qū)域等。Zhang等[7]提出了一種流修復(fù)網(wǎng)絡(luò),它是通過利用本地時(shí)間窗口內(nèi)的相關(guān)流特征,來完成一個(gè)被破壞的流。在此基礎(chǔ)上,針對時(shí)空變換的特點(diǎn),提出了一種窗口劃分策略。另外,為了準(zhǔn)確地控制電流對每個(gè)空間transformer的影響,在此基礎(chǔ)上,提出了一種新的業(yè)務(wù)權(quán)重計(jì)算模型,并將其與雙視圖空間多頭自動(dòng)注意(MHSA)技術(shù)相結(jié)合,實(shí)現(xiàn)了全局性和視窗型注意力的融合。
2? ? 實(shí)? ? 驗(yàn)
圖4是對我們架構(gòu)的說明。該方案是一種多步的方案,下面將對其進(jìn)行更多的討論。該方法以測試集合A的數(shù)據(jù)作為輸入。在第一個(gè)步驟中,幀會經(jīng)過剪切和覆蓋幀的預(yù)處理。第二個(gè)步驟是把經(jīng)過處理的圖像送到一個(gè)探測網(wǎng)絡(luò),由探測網(wǎng)絡(luò)產(chǎn)生一個(gè)定位框。在此基礎(chǔ)上,將含有運(yùn)動(dòng)軌跡位置的圖像輸入深度集,并將其與運(yùn)動(dòng)軌跡進(jìn)行分類,從而得到運(yùn)動(dòng)軌跡的類別得分。最后一個(gè)步驟是利用一個(gè)合并的算法來調(diào)整目標(biāo)軌道,并且為每一個(gè)軌道選擇一個(gè)軌道的輸出框架。
2.1? ? 生成數(shù)據(jù)和訓(xùn)練模型
本研究的物件檢測模式,利用三維掃描物件模式與其對應(yīng)之分割蒙板所產(chǎn)生之復(fù)合影像來發(fā)展。考慮到對外源數(shù)據(jù)的利用,本文采用了一種與實(shí)驗(yàn)視頻中目標(biāo)顏色相似的背景,并且在背景中添加了一種高斯噪聲。為了充實(shí)訓(xùn)練資料組(如圖5所示),本文還探討了如何將背景圖像中的目標(biāo)進(jìn)行放大,增強(qiáng)其分辨能力的方法。鑒于原始圖片的低品質(zhì)。本項(xiàng)目前期研究發(fā)現(xiàn),采用基于產(chǎn)生式對抗網(wǎng)絡(luò)(SRGAN)的超分辨方法,可實(shí)現(xiàn)對單個(gè)圖片的超分辨,并取得較好的訓(xùn)練圖片質(zhì)量。我們一共產(chǎn)生了13萬個(gè)訓(xùn)練圖片和20 000個(gè)驗(yàn)證圖片。我們在YOLOv8中調(diào)整了預(yù)先訓(xùn)練好的權(quán)重(如圖6所示)。
2.2? ? 異常對象去除
我們所使用的數(shù)據(jù)集合,是一組嵌入在正常圖片中的單一商品的綜合圖片。在訓(xùn)練過程中,所有的作品都被單獨(dú)放在一個(gè)框架內(nèi),并且放在一個(gè)不允許其他物品接近的“自由空間”里。但是,在進(jìn)行邏輯推理時(shí),即使現(xiàn)場沒有任何商品,該模型也可能對員工的雙手或軀體進(jìn)行錯(cuò)誤的檢測。針對這一問題,本項(xiàng)目擬采用計(jì)算機(jī)視覺技術(shù),從一幅圖像中提取出人體部分,尤其是手部,并對其進(jìn)行遮擋。其中,主要是利用關(guān)鍵點(diǎn)偵測和事例分割兩種方式,來估算出每個(gè)手部的語義關(guān)鍵點(diǎn)的位置,或是把手部當(dāng)作物件來辨識。隨后,我們應(yīng)用Flow-Guided Video Inpainting (FGVI),利用flow completion,feature propagation,content hallucination 這3個(gè)可訓(xùn)練模塊共同優(yōu)化Inpainting過程。
2.3? ? 感興趣區(qū)域檢測
本研究以手部對象的識別為研究對象,擬通過對手部對象的動(dòng)態(tài)識別,來實(shí)現(xiàn)對手部對象的檢測與跟蹤,從而提高整個(gè)加工管線的檢測精度和總體工作效率。首先利用高斯混合模型對每一段視頻進(jìn)行背景提取,然后對其進(jìn)行檢測。在此基礎(chǔ)上,采用背景相減的方法,將前一幀圖像進(jìn)行合成,并將各幀的前景圖像進(jìn)行分割。由于相機(jī)在場景中不會發(fā)生運(yùn)動(dòng),因此我們僅在關(guān)鍵幀中獲取感興趣區(qū)域的坐標(biāo)。但是,為防止出現(xiàn)異常感興趣區(qū)域,對每一幀,我們都會計(jì)算出當(dāng)前一幀、前后兩幀的感興趣區(qū)域,并從中選取一個(gè)帶中間值邊框的感興趣區(qū)域。同時(shí),本文還提出了一種基于填充的差分圖像處理方法,以確定具有類似于種子值的像素。在這個(gè)范例中,將種子放置在影像的中央,但是你可以隨意設(shè)定它。通過這種方式,所有附著在邊界上的象素都會被識別出來,并且這些像素被稱為“托盤”。但是,這個(gè)方法得到的整體效果較差。
當(dāng)每一個(gè)物體經(jīng)過 ROI的磁道被決定后,我們決定一個(gè)框架ID,這個(gè)框架是磁道中最中央的物體邊框。在此基礎(chǔ)上,我們先求出每一個(gè)被探測到的邊界盒的中心點(diǎn),再求出它們到相應(yīng)的邊界盒中心的歐氏距離,從而得到該邊界盒。最后,給出了在各感興趣區(qū)域中心最短幀內(nèi)的目標(biāo)探測結(jié)果。
2.4? ? 應(yīng)用分析
與R-CNN、 DPM等方法相比, YOLO方法表現(xiàn)出了很好的效果,但是對于小型目標(biāo)的準(zhǔn)確定位還不夠理想。因?yàn)?,在這個(gè)問題范圍內(nèi),并沒有包含很小的圖片,所以,YOLO可以很容易地被用于這項(xiàng)研究。YOLO把輸入的圖片分成一個(gè)方格,例如 M*M。YOLO將可信度用Pr(物體)*IOU來表示,這里的Pr(物體)代表物體出現(xiàn)的可能性;IOU是指推理結(jié)果與地表真實(shí)結(jié)果有交疊的區(qū)域。各網(wǎng)格單位產(chǎn)生5種預(yù)測(x,y,w,h和置信得分)。另外,每個(gè)格子生成用 Pr(類別|對象)表示的條件類別概率。如公式(1)所示,說明了在測試階段怎樣才能得到特定的類的置信度得分。
(1)
最后一層是用來預(yù)測與其關(guān)聯(lián)的類別機(jī)率和邊界框的坐標(biāo)。然后,將包圍盒標(biāo)準(zhǔn)化到0至1。所有其他的層都采用了ReLu激活函數(shù),以提高非線性度,如公式(2)所示。
(2)
在該框架下,Yolov8采用了基于CSP(C2f)的C2f模塊,而Yolov5采用了C3模塊。CSP結(jié)構(gòu)可以提高CNN的學(xué)習(xí)性能,降低模型的運(yùn)算量。C2f模塊包括兩個(gè)Conv模塊以及多個(gè)瓶頸,它們之間用分叉和 Concat相連接。其他的主要和YOLOv5一樣。在主干網(wǎng)絡(luò)的最底層,采用了SPPF組件。然后,我們用YOLOv8檢測器來檢測物體,見圖5。這個(gè)最新技術(shù)的偵測器可以增加投資回報(bào),它可以將影像的尺寸調(diào)整到640×640。為保證最大程度的精確性和最快的推理速度,本文采用了深度追蹤算法。通過對產(chǎn)生目標(biāo)的樣本集的訓(xùn)練,我們得到了116種不同類型的樣本,其中在訓(xùn)練過程中,樣本集的準(zhǔn)確率達(dá)到了98.3%。此外,本算法在對目標(biāo)進(jìn)行定位的同時(shí),還使用了探測置信度與類別置信度。我們的個(gè)別產(chǎn)品追蹤解決方案包括兩個(gè)在線追蹤算法:SORT與Deep-Sort。這兩種方法都具有很好的目標(biāo)追蹤效果,而且都是基于邊界矩形來追蹤所關(guān)注的物體。這兩種方法都是利用卡爾曼濾波器對每一個(gè)目標(biāo)的將來位置進(jìn)行預(yù)測。最后,將預(yù)測結(jié)果與對應(yīng)的軌跡相結(jié)合,保證了目標(biāo)在視頻中的精確追蹤。綜合上述兩個(gè)方面的研究成果,使得該方法在實(shí)際應(yīng)用中具有較高的精度和較高的計(jì)算效率。SORT和Deep-Sort尤其適用于目標(biāo)非常接近或者有遮擋的情形,這兩種算法都是為解決高速追蹤問題而設(shè)計(jì)的。同時(shí),本文提出的方法可以有效地應(yīng)對物體的尺寸、方位、外觀等因素的改變,使得圖像在光照、背景等因素的影響下,具有較強(qiáng)的魯棒性。
在此基礎(chǔ)上,本項(xiàng)目的研究成果可應(yīng)用于多種場景下,對單一商品進(jìn)行高精度的追蹤??傊?,本項(xiàng)目提出的算法具有較高的計(jì)算精度和較高的計(jì)算效率,對實(shí)際應(yīng)用具有重要意義。因此,該方法是一種切實(shí)可行的方法,適用于各種場合。我們所選的追蹤者為算法提供一系列track-let,每一個(gè)track-let都有一個(gè)不同的ID。在每一個(gè)track-let中,我們都保留了被測物體的邊界框坐標(biāo),它的類別指派,以及它的可信度。然后,我們給每一個(gè)track-let指定了一個(gè)類別標(biāo)簽,這個(gè)類別是在 track-let的所有類別中平均置信程度最高的。接著,我們對某些軌跡進(jìn)行了分析,認(rèn)為有些軌跡是單一軌跡的延續(xù),并且對其進(jìn)行了合并。對任何兩個(gè)track-let,我們都會按照一定的順序進(jìn)行比較,如果在一個(gè)track-let中,最后一個(gè)frame中,x和 y的坐標(biāo)都在 K個(gè)像素之內(nèi),那么就會將這兩個(gè)frame進(jìn)行合并。采用一種基于深度分類的算法,對每一個(gè)物體在整個(gè)框架內(nèi)都進(jìn)行跟蹤。Deep-SORT利用表觀描述符,將標(biāo)識的轉(zhuǎn)變減到最少,為了改進(jìn)追蹤效果,在處理有時(shí)序信息和時(shí)序信息的情況下,一般采用卡爾曼濾波方法。具體見表1。
2.5? ? 實(shí)驗(yàn)裝置
這一部分將介紹用于win11系統(tǒng)的試驗(yàn)平臺。所有的試驗(yàn)都是在英特爾3.6 GHz處理器,8 GB內(nèi)存,以及 NVIDIA Quadro P4000圖形卡上完成的。 如圖7所示。
本系統(tǒng)的硬件架構(gòu),使本系統(tǒng)具有較強(qiáng)的運(yùn)算力,可于較短時(shí)間內(nèi)完成相關(guān)實(shí)驗(yàn)。盡管我們的算法同時(shí)利用了 CPU和 GPU兩種資源,但是在試驗(yàn)過程中,我們僅用了一個(gè)GPU。在 CPU上使用多線程進(jìn)行處理,保證了對現(xiàn)有計(jì)算資源的高效利用。但是,該算法以 GPU為核心,實(shí)現(xiàn)了大規(guī)模運(yùn)算。我們的試驗(yàn)是可擴(kuò)充的,也就是說,這些試驗(yàn)可以適用于各種不同的硬件配置。與其他YOLO算法相比,YOLOv8的計(jì)算結(jié)果準(zhǔn)確率為53.9。所以,YOLOv8被選為車輛探測的對象。由于這些類別是在 MSCOCO的資料集中被訓(xùn)練過的,因此使用了預(yù)訓(xùn)練模型。該視頻輸入具有1 080p (1 920×1 080)的分辨率和15 fps的幀速率。由于該數(shù)據(jù)集合中的每一個(gè)分類都包含在內(nèi),因此將其視為均衡的。對于YOLOv8來說, image尺寸參數(shù)被設(shè)定為640。這個(gè)模式把最長的尺寸調(diào)節(jié)到了640,也就是在保留了縱橫比的情況下,把1 920的尺寸變成了640。這樣,208個(gè)可變尺寸的圖片接近640×360。平置信度閾值設(shè)置為0.5。這個(gè)類別出現(xiàn)在一個(gè)有邊框的盒子里的可能性是通過一個(gè)可信度得分來評價(jià)的。
在推理方面,我們主要關(guān)注于感興趣區(qū)域中的目標(biāo)的檢測與追蹤。為了達(dá)到這個(gè)目的,我們只從感興趣區(qū)域中抽取像素,并將其設(shè)置為640×640。在每一秒都會開始對感興趣區(qū)域進(jìn)行檢測。因?yàn)橐曨l是60幀/秒,所以我們把 n設(shè)為10,這樣就可以省去65%的 ROI運(yùn)算。實(shí)驗(yàn)結(jié)果表明, SRGAN網(wǎng)絡(luò)對訓(xùn)練樣本中任意組合的目標(biāo)圖像的增強(qiáng)效果最好。我們前期對已有的80個(gè)數(shù)據(jù)集進(jìn)行了精細(xì)調(diào)整,取得了96.8%的準(zhǔn)確率。最后,我們采用中介體YOLOv8對75次樣本進(jìn)行精細(xì)調(diào)整后,得到的 MAP值為98.3%。在目標(biāo)跟蹤方面,本文采用了 SORT和 Deep-Sort這兩種方法。在這兩個(gè)例子中,我們把能夠突破的追蹤次數(shù)提高到30個(gè),從而使追蹤的魯棒性和可靠性得到進(jìn)一步提高。我們試過各種畫面長度,發(fā)現(xiàn)30個(gè)畫面是最佳的。最后,我們設(shè)置K,即我們的合并算法中前一個(gè)軌道的最后一幀中心與下一個(gè)軌道的第一幀中心之間的最大像素?cái)?shù)為100。
2.6? ? 實(shí)驗(yàn)結(jié)果
我們考察了該框架在不同階段的效率,以達(dá)到預(yù)期的成果。結(jié)果顯示,YOLOv8檢測器模式與深度追蹤算法的配合最佳,其F1值可達(dá)0.816 7。因此,必須謹(jǐn)慎地選擇探測器模型和追蹤方法,以達(dá)到最佳的效能。在此基礎(chǔ)上,對多種 ROI檢測技術(shù)進(jìn)行了研究。研究結(jié)果表明,相對于單一的感興趣區(qū)域,利用每一幀感興趣區(qū)域可以有效地改善圖像的流水處理性能。因此,在現(xiàn)有的視頻監(jiān)視任務(wù)中,使用感興趣區(qū)域探測方法是非常重要的。
為此,本項(xiàng)目以 YOLOX、YOLOv8等多種 YOLO模型為研究對象,通過對各種 YOLO模型的測試,進(jìn)一步提高目標(biāo)探測的性能。結(jié)果表明,YOLOv8具有較好的識別效果。我們通過對比不同尺寸圖片對搜索效果的影響,發(fā)現(xiàn)不同尺寸圖片的搜索效果基本一致,提示圖片尺寸并不是影響搜索效果的重要因素。
在YOLO模型的基礎(chǔ)上,本文對 SORT算法和Deep-Sort算法進(jìn)行了性能評估。這兩個(gè)跟蹤器的表現(xiàn)都非常優(yōu)秀,但是我們發(fā)現(xiàn),F(xiàn)1得分為0.816 7,它有著更好的穩(wěn)定性。由于我們所用的圖片僅為640×640,因此,在追蹤時(shí),我們可以采用更高的分辨率。
3? ? 結(jié)? ? 語
本文提出了一種全面的架構(gòu),可以在所關(guān)注的區(qū)域內(nèi)對商品進(jìn)行精確檢測與統(tǒng)計(jì)。本文采用視頻圖像處理方法以提高檢測效果,并將假陽性率降至最低。該算法可以實(shí)現(xiàn)對目標(biāo)區(qū)域的自動(dòng)檢測和分割,并將目標(biāo)區(qū)域從背景中刪除。本文利用YOLOv8即時(shí)檢測網(wǎng)絡(luò),以及只有一個(gè)有邊框的追蹤器來取得這個(gè)成果。在此方法中,F(xiàn)1得分0.816 7。在此基礎(chǔ)上,本課題還將對其在更為復(fù)雜的場景下的適用性和基于深度學(xué)習(xí)的物體檢測方法進(jìn)行深入的研究,進(jìn)一步改進(jìn)系統(tǒng)的準(zhǔn)確性。
參考文獻(xiàn):
[1] AKHAWAJI R,SEDKY M,SOLIMAN,A H.Illegal parking detection using gaussian mixture 287 model and kalman filter[C]//?In Proceedings of the 2017 IEEE/ACS 14th International Conference 288 on Computer Systems and Applications (AICCSA),? ? Hammamet,Tunisia,October 30–November 3,2017,IEEE,2017,46(1):840-847.
[2] AQUILINA Y,SALIBA M A.An automated supermarket checkout system utilizing a scara robot: Preliminary prototype development[J].? ?Procedia Manufacturing,2019,38:1558-1565.
[3] REDMON J,DIVVALA S,GIRSHICK R,et al.You only look once: Unified,real-time 322 object detection[C]//2016 IEEE??Conference on Computer Vision and Pattern Recognition (CVPR),Las Vegas,Nevada,June 27-30, 2016, IEEE, 2016,50(1):55-60.
[4] LIU Wei ANGUELOV D,ERHAN D,et al.SSD: Single shot 324 multi-box detector[J].Computer Vision-ECCV,2016,45(2) :21-37.
[5] REDMON J,F(xiàn)ARHADI A.Yolo9000: Better,faster,stronger[C]//In 2017 IEEE Conference on Computer Vision and Pattern?? ?Recognition(CVPR),Honolulu,Hawaii,July21-26, 2017, IEEE, 2017,55(1),6517-6525.
[6] BEWLEY A,GE Zongyuan,OTT L,et al.Simple online and real-time tracking[C]// IEEE International Conference on Image Processing?? ?(ICIP),Phoenix,Arizona,September 25-28, 2016, IEEE, 2016,46(2):1249-1254.
[7] ZHANG Kaidong,F(xiàn)U Jingjing,LIU Dong.Flow-guided transformer for video inpainting [J].Springer International Publishing,2022,24(3):840-847.