羅建坤 黃道平 吳菁 劉乙奇 劉少君
基于深度學(xué)習(xí)的包裹追蹤檢測(cè)計(jì)數(shù)系統(tǒng)*
羅建坤 黃道平 吳菁 劉乙奇 劉少君
(華南理工大學(xué)自動(dòng)化科學(xué)與工程學(xué)院)
根據(jù)深度學(xué)習(xí)的智能檢測(cè)特點(diǎn),以智能化管理倉(cāng)庫(kù)物流數(shù)據(jù)為目的,提出基于深度學(xué)習(xí)的包裹追蹤檢測(cè)計(jì)數(shù)系統(tǒng),有利于倉(cāng)庫(kù)分揀中心的數(shù)字化管理。經(jīng)某倉(cāng)庫(kù)分揀中心測(cè)試表明,該系統(tǒng)能實(shí)時(shí)檢測(cè)包裹數(shù)量,并對(duì)檢測(cè)點(diǎn)的數(shù)據(jù)進(jìn)行處理,計(jì)算出包裹流量數(shù)據(jù),可實(shí)時(shí)將檢測(cè)數(shù)據(jù)上傳到倉(cāng)庫(kù)數(shù)據(jù)管理中心。
深度學(xué)習(xí);數(shù)字化管理;追蹤;檢測(cè);實(shí)時(shí)監(jiān)測(cè)
隨著經(jīng)濟(jì)的發(fā)展,我國(guó)快遞業(yè)務(wù)量從上世紀(jì)80年代的153萬(wàn)件/年提升到2018年的507億件/年,2019年有望突破600億件/年,30年年均增速高達(dá)41.5%。我國(guó)已經(jīng)成為世界上發(fā)展較快的新興寄遞市場(chǎng),包裹快遞量超過(guò)美國(guó)、日本和歐洲等國(guó)家的總和。然而,在物流體系方面國(guó)內(nèi)還比較落后。推動(dòng)物流企業(yè)采用智能科技,加快推進(jìn)傳統(tǒng)企業(yè)業(yè)務(wù)流程的數(shù)字化改造,是物流業(yè)發(fā)展面臨的巨大挑戰(zhàn)[1]。利用云計(jì)算、大數(shù)據(jù)、物聯(lián)網(wǎng)等技術(shù),把物流每個(gè)環(huán)節(jié)的信息轉(zhuǎn)化為數(shù)據(jù),并將這些數(shù)據(jù)在線化;同時(shí),通過(guò)智能化技術(shù)使物流各個(gè)環(huán)節(jié)提高效率、降低成本,是解決傳統(tǒng)物流企業(yè)業(yè)務(wù)數(shù)字化的關(guān)鍵。為促進(jìn)物流企業(yè)倉(cāng)庫(kù)分揀中心的數(shù)字化管理,設(shè)計(jì)一個(gè)對(duì)不同類(lèi)型的包裹進(jìn)行實(shí)時(shí)追蹤檢測(cè)計(jì)數(shù)的系統(tǒng)至關(guān)重要。
包裹追蹤計(jì)數(shù)的重要環(huán)節(jié)是包裹檢測(cè)。包裹檢測(cè)主要運(yùn)用目標(biāo)檢測(cè)技術(shù),包括物體識(shí)別和物體定位技術(shù),不僅要識(shí)別物體屬于哪個(gè)分類(lèi),更重要的是檢測(cè)物體在圖像中的具體位置。目標(biāo)檢測(cè)分為2類(lèi)[2]:一類(lèi)為兩步檢測(cè),即將物體識(shí)別和物體定位分為2個(gè)步驟完成,其識(shí)別錯(cuò)誤率和漏識(shí)別率較低,但檢測(cè)速度較慢,無(wú)法滿足實(shí)時(shí)檢測(cè)需求,典型代表有R-CNN[3], fast R-CNN[4]和faster R-CNN[5]等;另一類(lèi)為單步檢測(cè),具有較快的識(shí)別速度,可以達(dá)到實(shí)時(shí)性需求,且準(zhǔn)確率也能達(dá)到faster R-CNN水平,典型代表有SSD[6], YOLO, YOLOv2[7]和YOLOv3[8]等。隨著單目標(biāo)檢測(cè)模型的不斷發(fā)展,學(xué)者利用公共數(shù)據(jù)集進(jìn)行訓(xùn)練并測(cè)試典型的單步檢測(cè)模型。測(cè)試結(jié)果表明,YOLOv3模型目標(biāo)檢測(cè)準(zhǔn)確度高并且速度快。
現(xiàn)有的包裹追蹤計(jì)數(shù)系統(tǒng)分為RFID錄入計(jì)數(shù)和激光線掃描計(jì)數(shù)2種類(lèi)型。其中,RFID錄入計(jì)數(shù)對(duì)包裹的外包裝要求較高,每個(gè)外包裝都需要嵌入芯片,成本高;激光線掃描計(jì)數(shù)對(duì)堆疊的物體無(wú)法準(zhǔn)確計(jì)數(shù),且目標(biāo)物體外包裝的掃描標(biāo)簽面朝下時(shí)可能出現(xiàn)漏計(jì)的情況。為解決以上不足,本系統(tǒng)采用YOLOv3模型作為包裹檢測(cè)識(shí)別模塊,結(jié)合包裹的運(yùn)動(dòng)信息進(jìn)行包裹追蹤檢測(cè)計(jì)數(shù)。
YOLOv3為提高目標(biāo)檢測(cè)的定位和分類(lèi)精度,設(shè)計(jì)了更深的卷積神經(jīng)網(wǎng)絡(luò),且融合了YOLOv2, Darknet-19以及其他新型殘差網(wǎng)絡(luò)的結(jié)構(gòu)。為提升小目標(biāo)檢測(cè)的準(zhǔn)確度,借鑒特征金字塔網(wǎng)絡(luò)[9],設(shè)計(jì)了多尺度特征提取結(jié)構(gòu)。
YOLOv3模型主要由Darknet-53特征提取網(wǎng)絡(luò)和多尺度融合網(wǎng)絡(luò)組成。YOLOv3輸出3個(gè)不同的尺度1,2,3,分別代表小、中、大尺度的特征圖輸出。YOLOv3模型結(jié)構(gòu)如圖1所示。
Darknet-53特征提取網(wǎng)絡(luò)主要由53個(gè)卷積層構(gòu)成,并大量采用3×3和1×1的卷積核。為訓(xùn)練53層深度網(wǎng)絡(luò),需考慮淺層特征值丟失問(wèn)題。借鑒深度殘差網(wǎng)絡(luò)[10]的設(shè)計(jì)思想,在卷積層之間構(gòu)建殘差模塊,并設(shè)置跳躍連接,具體結(jié)構(gòu)如圖2所示。
圖1 YOLOv3模型結(jié)構(gòu)
圖2 Darknet-53 網(wǎng)絡(luò)結(jié)構(gòu)
基于深度學(xué)習(xí)的包裹追蹤檢測(cè)計(jì)數(shù)系統(tǒng)主要包括多目標(biāo)物體檢測(cè)和多目標(biāo)物體追蹤2部分。基于視頻流對(duì)每一幀圖像進(jìn)行多目標(biāo)物體檢測(cè),可識(shí)別當(dāng)前幀圖像中多個(gè)目標(biāo)物體的形狀和位置;結(jié)合使用目標(biāo)物體的運(yùn)動(dòng)信息實(shí)現(xiàn)多目標(biāo)物體追蹤計(jì)數(shù)。系統(tǒng)框圖如圖3所示。
圖3 基于深度學(xué)習(xí)的包裹追蹤檢測(cè)計(jì)數(shù)系統(tǒng)框圖
多目標(biāo)物體檢測(cè)部分采用深度學(xué)習(xí)目標(biāo)檢測(cè)技術(shù)設(shè)計(jì)YOLOv3識(shí)別檢測(cè)模塊。本文首先利用采集的數(shù)據(jù)訓(xùn)練YOLOv3模型;然后修改模型的接口形式,編寫(xiě)供本系統(tǒng)調(diào)用的功能模塊,即YOLOv3識(shí)別檢測(cè)模塊。YOLOv3識(shí)別檢測(cè)模塊的輸入是數(shù)據(jù)模塊的圖像數(shù)據(jù),該圖像數(shù)據(jù)由相機(jī)現(xiàn)場(chǎng)實(shí)時(shí)拍照采集;輸出是檢測(cè)的包裹在圖像中的位置信息,并將該信息傳到包裹運(yùn)動(dòng)追蹤檢測(cè)模塊。
在多目標(biāo)物體追蹤部分,設(shè)計(jì)包裹運(yùn)動(dòng)追蹤檢測(cè)模塊,其核心思想是利用多目標(biāo)物體的運(yùn)動(dòng)信息,計(jì)算預(yù)測(cè)目標(biāo)物體與深度學(xué)習(xí)識(shí)別物體形狀位置的交集,建立運(yùn)動(dòng)物體一一追蹤過(guò)程。包裹運(yùn)動(dòng)追蹤檢測(cè)模塊的輸入包括YOLOv3識(shí)別檢測(cè)模塊輸出的包裹位置信息和數(shù)據(jù)模塊的傳送帶運(yùn)動(dòng)速度,傳送帶運(yùn)動(dòng)速度由編碼器數(shù)據(jù)采集模塊實(shí)時(shí)采集;輸出是包裹累計(jì)數(shù)量,并將該數(shù)據(jù)傳到數(shù)據(jù)模塊。
最后,LED顯示屏實(shí)時(shí)顯示包裹的累計(jì)數(shù)量。
在某物流倉(cāng)庫(kù)里,利用工業(yè)相機(jī)連續(xù)拍照,采集大量圖像數(shù)據(jù),該數(shù)據(jù)包含各種類(lèi)別的目標(biāo)物體。按時(shí)間順序采集的圖像數(shù)據(jù)如圖4所示。
首先標(biāo)注目標(biāo)物體在圖像中的左上角坐標(biāo)及右下角坐標(biāo),并保存為txt文件;然后利用Python將txt文件數(shù)據(jù)整理成含目標(biāo)物體的xml文件,如圖5所示;最后整理成YOLOv3模型訓(xùn)練所需的標(biāo)簽數(shù)據(jù),并將標(biāo)簽數(shù)據(jù)與對(duì)應(yīng)的圖像數(shù)據(jù)整理成訓(xùn)練集和驗(yàn)證集。
利用YOLOv3通用模型的源代碼及初始配置文件,初始化權(quán)值文件。初始配置文件cfg設(shè)置的參數(shù)包括一次迭代送入網(wǎng)絡(luò)的圖片數(shù)、學(xué)習(xí)率、學(xué)習(xí)下降方式、預(yù)選框、優(yōu)化方法的動(dòng)量參數(shù)和YOLOv3的神經(jīng)網(wǎng)絡(luò)配置參數(shù)(網(wǎng)絡(luò)層數(shù)和連接及候選框等)等。本文設(shè)置一次迭代送入網(wǎng)絡(luò)的圖片數(shù)為64;學(xué)習(xí)率為0.001;學(xué)習(xí)方式為小批量梯度下降;預(yù)選框?yàn)?個(gè),并使用K-means生成預(yù)選框的長(zhǎng)和寬,9對(duì)預(yù)選框長(zhǎng)、寬的數(shù)據(jù)如表1所示。
表1 預(yù)選框的設(shè)置
設(shè)置網(wǎng)絡(luò)層(卷積層、池化層等)和層級(jí)連接。本文設(shè)置網(wǎng)絡(luò)輸入圖像大小為448×448。神經(jīng)網(wǎng)絡(luò)連接設(shè)置如表2所示。
導(dǎo)入訓(xùn)練集和驗(yàn)證集進(jìn)行YOLOv3模型訓(xùn)練。下載初始的權(quán)值文件(weights文件),結(jié)合配置的cfg文件,開(kāi)始模型的訓(xùn)練,模型會(huì)漸漸趨近收斂并停止訓(xùn)練。每次訓(xùn)練結(jié)束都對(duì)weights文件進(jìn)行一次更新,如圖6所示。
表2 神經(jīng)網(wǎng)絡(luò)連接設(shè)置
圖6 YOLOv3模型更新過(guò)程
每次模型訓(xùn)練結(jié)束后,YOLOv3模型都會(huì)輸出驗(yàn)證集識(shí)別的效果,包括識(shí)別精度和召回率。根據(jù)模型輸出的結(jié)果,判斷YOLOv3模型是否需要調(diào)整再訓(xùn)練。若需要再訓(xùn)練則修改cfg文件的參數(shù),再次訓(xùn)練YOLOv3模型。通過(guò)不斷地優(yōu)化訓(xùn)練,直到最后模型輸出的識(shí)別精度和召回率滿足要求,保存模型的cfg文件及weights文件,對(duì)YOLOv3模型的接口進(jìn)行修改封裝生成YOLOv3識(shí)別檢測(cè)模塊。YOLOv3模型訓(xùn)練的識(shí)別效果如圖7所示。
圖7 YOLOv3模型訓(xùn)練的識(shí)別效果圖
包裹運(yùn)動(dòng)追蹤檢測(cè)模塊對(duì)連續(xù)幀圖像中的同一物體進(jìn)行跟蹤。圖像中的多目標(biāo)物體可能出現(xiàn)殘缺、遮擋和堆疊等情況,跟蹤難度較大。利用YOLOv3識(shí)別檢測(cè)模塊輸出的包裹位置信息和數(shù)據(jù)模塊的傳送帶運(yùn)動(dòng)速度(包裹運(yùn)動(dòng)速度),設(shè)計(jì)包裹運(yùn)動(dòng)追蹤檢測(cè)模塊跟蹤目標(biāo)物體的步驟。
1)跟蹤過(guò)程需要結(jié)合物體的運(yùn)動(dòng)信息。利用編碼器測(cè)量物體的運(yùn)動(dòng)速度,以前一幀的目標(biāo)物體位置和識(shí)別框?yàn)榛鶞?zhǔn),計(jì)算當(dāng)前幀目標(biāo)物體的位置信息和識(shí)別框。
2)建立時(shí)間與多目標(biāo)物體之間的對(duì)應(yīng)關(guān)系;調(diào)用YOLOv3模型接口,得到當(dāng)前幀多目標(biāo)物體的位置信息和識(shí)別框;根據(jù)步驟1)計(jì)算的識(shí)別框與步驟2)得出識(shí)別框的對(duì)應(yīng)關(guān)系進(jìn)行包裹數(shù)量的計(jì)數(shù)。
識(shí)別框的對(duì)應(yīng)關(guān)系主要對(duì)由YOLOv3識(shí)別檢測(cè)模塊得到的當(dāng)前幀圖像的包裹位置和由當(dāng)前傳送帶運(yùn)動(dòng)速度得到的當(dāng)前幀包裹的位置作交并比運(yùn)算,求出重疊的比例。若重疊比例高于閾值(一般設(shè)為0.8),判斷結(jié)果為包裹數(shù)量沒(méi)有增加;反之,判斷結(jié)果為包裹數(shù)量增加。
3)在連續(xù)計(jì)數(shù)過(guò)程中,以某一位置拍照的圖像為初始幀,以目標(biāo)物體離開(kāi)相機(jī)視野范圍的某一位置為結(jié)束幀,重復(fù)前面2個(gè)步驟。
4)對(duì)包裹數(shù)量進(jìn)行累計(jì)求和,并將數(shù)據(jù)傳到數(shù)據(jù)模塊。
基于Windows操作系統(tǒng)開(kāi)發(fā)平臺(tái)和VS2013開(kāi)發(fā)工具,搭建基于深度學(xué)習(xí)的包裹追蹤檢測(cè)計(jì)數(shù)系統(tǒng)。根據(jù)實(shí)際情況配置硬件環(huán)境:電腦(intel i5處理器、4 G內(nèi)存、GTX1050Ti及以上版本顯卡、100 G存儲(chǔ)空間)、14寸顯示器、相機(jī)、支架、網(wǎng)線和編碼器等。在顯卡1050Ti加速的情況下進(jìn)行測(cè)試。
選取SSD,YOLOv2,YOLOv3三種模型進(jìn)行測(cè)試,其中SSD采用SSD 300的網(wǎng)絡(luò)結(jié)構(gòu);YOLOv2和YOLOv3設(shè)置網(wǎng)絡(luò)輸入圖像大小為448×448。訓(xùn)練集和驗(yàn)證集一共有1871組數(shù)據(jù),其中,訓(xùn)練集1851組,驗(yàn)證集20組。
評(píng)價(jià)模型的指標(biāo)有平均檢測(cè)準(zhǔn)確度(average precision, AP),它表示張圖像的平均檢測(cè)準(zhǔn)確度;平均檢測(cè)準(zhǔn)確度均值(mean average precision, mAP),它表示個(gè)類(lèi)別的平均檢測(cè)準(zhǔn)確度、召回率(Recall)和每秒識(shí)別圖像數(shù)(frames per second, FPS),它用來(lái)衡量檢測(cè)速度的快慢,其數(shù)值由軟件計(jì)時(shí)器計(jì)算得到。指標(biāo)計(jì)算公式為
其中,表示正樣本識(shí)別成正例的個(gè)數(shù);表示正樣本識(shí)別成負(fù)例的個(gè)數(shù)。這里的類(lèi)別數(shù)是1,則與相等。
3種模型的測(cè)試結(jié)果如表3所示。
表3 模型測(cè)試結(jié)果
由表3可以看出:YOLOv3模型的和相比SSD和YOLOv2有所提高,分別提高14%和8%;分別提高15%和11%。這主要是由于YOLOv3的特征提取網(wǎng)絡(luò)Darknet-53及特征融合網(wǎng)絡(luò)極大地提高了模型的識(shí)別準(zhǔn)確度。然而,不足之處是識(shí)別速度有所下降,相較于SSD和YOLOv2分別減少了4幀和2幀,但仍然滿足實(shí)時(shí)檢測(cè)的需求。
基于深度學(xué)習(xí)的包裹追蹤檢測(cè)計(jì)數(shù)系統(tǒng)在某倉(cāng)庫(kù)分揀中心進(jìn)行測(cè)試,實(shí)時(shí)檢測(cè)該傳送帶上的包裹數(shù)量。2018年12月12日16:00到18:00進(jìn)行系統(tǒng)測(cè)試,每組數(shù)據(jù)連續(xù)測(cè)試時(shí)間為10 min,共測(cè)試了12組數(shù)據(jù),測(cè)試結(jié)果如表4所示,其中軟件計(jì)數(shù)是系統(tǒng)輸出的包裹數(shù)量。
表4 系統(tǒng)測(cè)試的統(tǒng)計(jì)結(jié)果
由表4可知:實(shí)際包裹的數(shù)量比軟件計(jì)數(shù)多644件,推測(cè)存在YOLOv3識(shí)別檢測(cè)模塊出現(xiàn)漏檢測(cè),包裹運(yùn)動(dòng)追蹤檢測(cè)模塊出現(xiàn)匹配錯(cuò)誤的情況。系統(tǒng)整體的準(zhǔn)確率達(dá)到95%。
本文設(shè)計(jì)的基于深度學(xué)習(xí)的包裹追蹤檢測(cè)計(jì)數(shù)系統(tǒng)經(jīng)測(cè)試,運(yùn)行穩(wěn)定、識(shí)別速度快、準(zhǔn)確率高、實(shí)現(xiàn)簡(jiǎn)單,且對(duì)復(fù)雜應(yīng)用場(chǎng)景有較高的容錯(cuò)率。此外,系統(tǒng)對(duì)于目標(biāo)物體的外包裝沒(méi)有要求,需要的成本較低。系統(tǒng)設(shè)計(jì)的難點(diǎn)是包裹堆疊嚴(yán)重時(shí),YOLOv3識(shí)別檢測(cè)模塊的準(zhǔn)確率下降,包裹運(yùn)動(dòng)追蹤檢測(cè)模塊的計(jì)數(shù)準(zhǔn)確度也會(huì)下降。后續(xù)考慮對(duì)包裹追蹤檢測(cè)計(jì)數(shù)系統(tǒng)進(jìn)行改進(jìn),從三維觀測(cè)視角對(duì)包裹進(jìn)行全方位的檢測(cè)追蹤。
[1] 張欣.基于物聯(lián)網(wǎng)技術(shù)的快遞企業(yè)競(jìng)爭(zhēng)力研究[D].濟(jì)南:濟(jì)南大學(xué),2015.
[2] 謝娟英,劉然.基于深度學(xué)習(xí)的目標(biāo)檢測(cè)算法研究進(jìn)展[J].陜西師范大學(xué)學(xué)報(bào)(自然科學(xué)版),2019,47(5):1-9.
[3] Sun Yi, Wang Xiaogang, Tang Xiaoou. Deep learning face representation by joint identification-verification[C]. International Conference on Neural Information Processing Systems (The 28 Annual Conference on Neural Information Processing Systems, Canada), 2014.
[4] Girshick R. Fast R-CNN[C]. IEEE International Conference on Computer Vision, Santigago, Chile,2015.
[5] Ren S, He K, Girshick R, et al. Faster R-CNN: towards real-time object detection with region proposal networks[C]. International Conference on Neural Information Processing Systems. MIT Press, 2015:91-99.
[6] Liu W, Anguelov D, Erhan D, et al. SSD: Single Shot MultiBox detector[C]. European Conference on Computer Vision, 2016.
[7] Redmon J, Farhadi A, YOLO9000: better, faster, stronger[C]. Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, Honolulu, USA,2017: 1384-1392.
[8] Redmon J, Farhadi A. Yolov3: an incremental improvement[J]. arXiv preprint arXiv:1804.02767, 2018.
[9] Lin T-Y, Dollar P, Girshick R, et al. Feature pyramid networks for object detection[C]. In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, 2017.
[10] He K, Zhang X, Ren S, et al. Deep residual learning for image recognition[C]. Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, 2016:770-778.
Package Tracking Detection and Counting System Based on Deep Learning
Luo Jiankun Huang Daoping Wu Jing Liu Yiqi Liu Shaojun
(School of Automation Science and Engineering, South China University of Technology)
According to the intelligent detection characteristics of deep learning, a package tracking, detection and counting system based on deep learning is proposed to improve the intelligent management of warehouse logistics data, which is conducive to the digital management of the warehouse sorting center. In this paper, a detection system is designed for a sorting line in the warehouse sorting center.The system can detect the number of packages in real time. Then, it can obtain the package real-time monitoring data by processing the data of detection points and calculating the package flow data. Finally, the data can be uploaded to the warehouse data management center through the network.
Deep Learning; Digital Management; Tracking; Detection; Real-Time Monitoring
羅建坤,男,1994年生,碩士研究生,主要研究方向:圖像檢測(cè)。E-mail: 2689788379@qq.com
黃道平,男,1961年生,博士,教授,主要研究方向:智能檢測(cè)與控制,軟測(cè)量技術(shù)。
吳菁,女,1988年生,博士研究生,講師,主要研究方向:軟測(cè)量技術(shù)。
劉乙奇,男,1983年生,博士,副教授,主要研究方向:軟測(cè)量,故障診斷和污水處理。
劉少君,男,1974年生,碩士,講師,主要研究方向:智能檢測(cè)與控制。
國(guó)家自然科學(xué)基金資助項(xiàng)目(61673181,61873096);廣州市科技項(xiàng)目(201804010256)。