吳靖,趙爾敦,林卓成,秦文清
基于注意力與特征融合的工程機(jī)械目標(biāo)檢測(cè)方法
吳靖,趙爾敦,林卓成,秦文清
(華中師范大學(xué),武漢 430079)
針對(duì)施工環(huán)境中工程機(jī)械目標(biāo)大小不一、相互遮擋、工作形態(tài)各異等問(wèn)題,提出一種基于注意力與特征融合的目標(biāo)檢測(cè)方法(AT–FFRCNN)。在主干網(wǎng)絡(luò)中采用ResNet50和特征路徑聚合網(wǎng)絡(luò)PFPN,融合不同尺度的特征信息,在區(qū)域建議網(wǎng)絡(luò)(RPN)和全連接層引入注意力機(jī)制,提高目標(biāo)識(shí)別的能力,在損失函數(shù)中使用廣義交并比(GIoU),提高目標(biāo)框的準(zhǔn)確性。實(shí)驗(yàn)表明,文中提出方法檢測(cè)準(zhǔn)確率比其他方法有較大提高,檢測(cè)平均準(zhǔn)確率(mAP)達(dá)到90%以上。能夠較好地完成工程機(jī)械目標(biāo)的檢測(cè)任務(wù)。
目標(biāo)檢測(cè);Faster R–CNN;注意力機(jī)制;特征融合
在施工現(xiàn)場(chǎng)中,工程機(jī)械目標(biāo)常常是釀成安全事故的隱患,存在倒塌、側(cè)翻等不穩(wěn)定的因素,因此對(duì)工程機(jī)械進(jìn)行目標(biāo)檢測(cè)是實(shí)現(xiàn)生產(chǎn)安全的重要一環(huán)。智能化的視頻監(jiān)控和影像分析可以實(shí)時(shí)了解施工現(xiàn)場(chǎng)的施工進(jìn)度、秩序以及安全性。
近年來(lái),基于深度學(xué)習(xí)目標(biāo)檢測(cè)方法的研究發(fā)展十分迅速,主要分為一階段和兩階段的檢測(cè)方法。一階段的檢測(cè)方法主要代表有YOLO[1]系列方法、CenterNet[2]、RetinaNet[3]、SSD[4]等,其特點(diǎn)是速度較快,候選框的生成和分類同時(shí)進(jìn)行,將目標(biāo)圖片直接送入網(wǎng)絡(luò)即可生成預(yù)測(cè)框;兩階段的檢測(cè)方法有R–CNN[5]、Fast R–CNN[6]、Faster R–CNN[7]等,不同于一階段的檢測(cè)方法,兩階段方法將候選框的生成和分類分開(kāi)進(jìn)行,整體網(wǎng)絡(luò)由提取區(qū)域建議網(wǎng)絡(luò)RPN和公共特征層二者相結(jié)合而構(gòu)成,檢測(cè)精度相對(duì)較高。
施工場(chǎng)景的目標(biāo)檢測(cè)有以下難點(diǎn):塔吊、挖機(jī)、吊車等工程機(jī)械目標(biāo)形態(tài)、顏色各異;真實(shí)施工場(chǎng)景監(jiān)控?cái)z像頭的位置距離目標(biāo)較遠(yuǎn),拍攝到的目標(biāo)尺寸相差較大;目標(biāo)與建筑物、目標(biāo)與目標(biāo)之間會(huì)出現(xiàn)相互遮擋的情況;受天氣的影響,會(huì)存在光照不足或者背光的情況,導(dǎo)致目標(biāo)不明顯。
為了解決上述檢測(cè)難點(diǎn),文中基于Faster R–CNN提出一種基于注意力與特征融合的工程機(jī)械目標(biāo)檢測(cè)方法(AT–FFRCNN),其特點(diǎn)如下:在主干特征提取網(wǎng)絡(luò)采用ResNet50,在特征提取網(wǎng)絡(luò)之后加上特征路徑聚合網(wǎng)絡(luò)(PFPN),讓網(wǎng)絡(luò)能更好地學(xué)習(xí)不同尺度的特征;在區(qū)域建議網(wǎng)絡(luò)(RPN)中引入注意力機(jī)制模塊CABM(AT–RPN),實(shí)現(xiàn)對(duì)與目標(biāo)有關(guān)的特征通道和空間位置賦予更多的關(guān)注,并在全連接層引入注意力機(jī)制進(jìn)行增強(qiáng)(AT–FC),對(duì)目標(biāo)建議框周圍的建議框的特征向量賦予不同的權(quán)值并且進(jìn)行融合,來(lái)更新目標(biāo)建議框的特征向量;采用K–means聚類算法對(duì)樣本集進(jìn)行聚類,采用更適用于此問(wèn)題的先驗(yàn)錨框(Anchor Box)寬高比(該問(wèn)題場(chǎng)景計(jì)算出寬高比為1∶1.4、1∶1.7、1.5∶1);回歸損失函數(shù)采用為廣義交并比損失(GIoU),解決SmoothL1沒(méi)有考慮預(yù)測(cè)框與真實(shí)框的重疊問(wèn)題。
文中提出的AT–FFRCNN算法框架見(jiàn)圖1,算法步驟如下。
1)首先將圖片送入特征提取模塊,經(jīng)過(guò)主干網(wǎng)絡(luò)ResNet–50和特征路徑聚合網(wǎng)絡(luò)PFPN后得到特征圖。
2)接著將得到的特征圖經(jīng)過(guò)3×3的卷積之后得到特征圖,隨后將特征圖送入融合注意力機(jī)制的區(qū)域建議網(wǎng)絡(luò)AT–RPN,得到區(qū)域建議框。
3)將區(qū)域建議框映射到特征圖上,得到一系列的特征矩陣,再對(duì)特征矩陣進(jìn)行感興趣區(qū)域池化,固定其尺寸大小。后將池化后的特征矩陣與目標(biāo)建議框送入基于關(guān)系增強(qiáng)的全連接層,融合周圍目標(biāo)建議框,獲取位置信息更精準(zhǔn)的目標(biāo)建議框,最后再送入分類與回歸模塊進(jìn)行目標(biāo)檢測(cè)。
文中將Faster R?CNN的特征提取網(wǎng)絡(luò)由VGG16[8]替換成ResNet50[9],雖然能夠提取到更為精細(xì)的特征,提高了檢測(cè)大目標(biāo)的檢測(cè)效果。由于加深了網(wǎng)絡(luò)的層數(shù),也丟失了較多的淺層語(yǔ)義特征[10],最終導(dǎo)致無(wú)法精準(zhǔn)地檢測(cè)出小目標(biāo)。為了解決這個(gè)問(wèn)題,文中基于特征金字塔網(wǎng)絡(luò)FPN和實(shí)例分割網(wǎng)絡(luò)(PANet)的思想[11],構(gòu)造一種特征路徑聚合網(wǎng)絡(luò)(PFPN),其結(jié)構(gòu)見(jiàn)圖2。特征路徑聚合網(wǎng)絡(luò)PFPN主要由特征金字塔(FPN)和自下而上的路徑聚合(Path aggregation,PA)組成。PFPN的具體工作流程如下。
圖1 AT–FFRCNN算法框架示意圖
由于PFPN添加了自下而上的路徑聚合過(guò)程,相較于原始的FPN,能夠更好地保留淺層特征信息,增加特征的表達(dá)能力,更有利于小目標(biāo)的檢測(cè)。這是因?yàn)镕PN雖然增加了自上而下的特征融合操作,能夠保留一定的淺層特征信息,但是由于主干網(wǎng)絡(luò)較深,淺層特征信息經(jīng)過(guò)了太長(zhǎng)的路徑到達(dá)深層,丟失的淺層信息仍然較多,如圖2中長(zhǎng)點(diǎn)劃線所示。在增加了自下而上的路徑聚合后,更好地保留了淺層特征信息,如圖2中圓點(diǎn)線所示。
AT–RPN網(wǎng)絡(luò)在RPN網(wǎng)絡(luò)的基礎(chǔ)上引入了注意力模塊CBAM[12],提高RPN網(wǎng)絡(luò)的目標(biāo)分類與回歸能力,獲取更精細(xì)的目標(biāo)候選框。CBAM包含通道注意力[13-14]和空間注意力,這兩個(gè)部分相互連接、相互補(bǔ)充,能夠突出圖像中的目標(biāo)特征抑制非目標(biāo)部分(背景)的特征,而且還能突出目標(biāo)的空間位置信息。
圖2 PFPN網(wǎng)絡(luò)結(jié)構(gòu)
在AT–RPN網(wǎng)絡(luò)之后,存在目標(biāo)建議框與其交并比IoU較大的周圍建議框,這些周圍建議框與目標(biāo)建議框之間存在一定的關(guān)系,其含有的位置信息能夠幫助該目標(biāo)建議框修正位置。為了使目標(biāo)建議框的位置信息更精準(zhǔn),文中提出在RoI池化之后的全連接層引入注意力機(jī)制[15],構(gòu)造了一種基于關(guān)系增強(qiáng)的全連接層AT–FC。AT–FC的原理見(jiàn)圖3,運(yùn)用注意力機(jī)制計(jì)算得出周圍建議框與目標(biāo)建議框位置信息的關(guān)系大?。?quán)值),然后將這些周圍建議框與其對(duì)應(yīng)的權(quán)值相乘,以加權(quán)求和的方式融合并更新目標(biāo)建議框。通過(guò)AT–FC更新之后,目標(biāo)建議框的位置信息將更加精確。
圖3 建議框融合算法
基于注意力機(jī)制的周圍建議框融合算法步驟如下。
5)將更新后目標(biāo)建議框特征向量送入后續(xù)全連接層,進(jìn)行目標(biāo)分類和位置回歸定位。
損失函數(shù)由2部分組成,分別是區(qū)域建議網(wǎng)絡(luò)RPN的損失和分類與回歸模塊的損失。
1.6.1 區(qū)域建議網(wǎng)絡(luò)RPN損失
RPN網(wǎng)絡(luò)包含錨框的分類與回歸,其損失函數(shù)為:
1.6.2 分類與回歸模塊損失
文中使用的損失函數(shù)為:
文中收集了施工現(xiàn)場(chǎng)中3類機(jī)械目標(biāo)的樣本數(shù)據(jù)集,本數(shù)據(jù)集共包含有塔吊(crane)、挖機(jī)(excavator)和吊車(hoist)3類機(jī)械設(shè)備的圖片共1 415張,其中991張為訓(xùn)練集,283張為驗(yàn)證集,141張為測(cè)試集。
文中實(shí)驗(yàn)采用帶動(dòng)量的隨機(jī)梯度下降法(Stochasitc Gradient Descent,SGD)對(duì)網(wǎng)絡(luò)進(jìn)行訓(xùn)練,初始學(xué)習(xí)率為0.005,學(xué)習(xí)率更新策略采用的是Step,動(dòng)量系數(shù)為0.9,學(xué)習(xí)率調(diào)整倍數(shù)為0.33,建議框融合算法閾值為0.7。
2.2.1 結(jié)果對(duì)比
與Faster R–CNN不同,AT–FFRCNN算法提出了多種模塊,在文中的數(shù)據(jù)集下進(jìn)行消融實(shí)驗(yàn),探求各模塊對(duì)實(shí)驗(yàn)效果的影響,實(shí)驗(yàn)對(duì)比結(jié)果見(jiàn)表1。表1中,mAP表示目標(biāo)檢測(cè)的評(píng)價(jià)精確率。由表1可知,F(xiàn)aster R–CNN網(wǎng)絡(luò)的mAP值為77.8%,而將主干網(wǎng)絡(luò)調(diào)整為ResNet50之后,mAP值提升了3.9%;在此基礎(chǔ)之上加入特征金字塔網(wǎng)絡(luò)FPN后,mAP值又提升了1.8%;引入文中構(gòu)造的特征路徑聚合網(wǎng)絡(luò)FPFN后,mAP值則提升了1.9%。后繼續(xù)通過(guò)K–means算法對(duì)樣本聚類,修改RPN網(wǎng)絡(luò)的錨框?qū)捀弑群螅琺AP值又提升了2.8%,最后在引入GIoU回歸損失后,mAP值達(dá)到了90.2%。
表1 不同改進(jìn)下的mAP對(duì)比
Tab.1 mAP comparison under different improvements
2.2.2 不同錨框?qū)捀弑鹊膶?shí)驗(yàn)結(jié)果對(duì)比
利用文中K–mean聚類算法對(duì)錨框?qū)捀弑冗M(jìn)行調(diào)整的多組實(shí)驗(yàn)結(jié)果見(jiàn)表2。從表2中可以得出,錨框的寬高比例并不是越多越好,也即K–means對(duì)樣本聚的簇不是越多越好,最適合文中問(wèn)題場(chǎng)景的錨框?qū)捀弑葹?∶1.4、1∶1.7、1.5∶1,隨著寬高比例數(shù)量的增加,模型的檢測(cè)精度mAP值會(huì)變低。對(duì)比表格的第1行和第2行可知,相較于Faster R–CNN的默認(rèn)錨框?qū)捀弑?,使用K–means聚類算法對(duì)錨框?qū)捀弑冗M(jìn)行調(diào)整后,網(wǎng)絡(luò)模型的檢測(cè)精度mAP值比初始Faster R–CNN提高了3.5%。
表2 不同錨框?qū)捀弑认碌臋z測(cè)mAP
Tab.2 Detection mAP with different anchor box aspect ratios
2.2.3 不同算法模型實(shí)驗(yàn)結(jié)果對(duì)比
為了驗(yàn)證文中提出AT–FFRCNN算法的效果,文中也與當(dāng)前其他目標(biāo)檢測(cè)算法進(jìn)行了對(duì)比,不同網(wǎng)絡(luò)模型實(shí)驗(yàn)結(jié)果評(píng)價(jià)指標(biāo)見(jiàn)表3。
從表3中可以看出,F(xiàn)aster R–CNN在使用文中數(shù)據(jù)集進(jìn)行訓(xùn)練并在驗(yàn)證集上進(jìn)行驗(yàn)證得到的AP50和AP75值分別為86.7%和68.9%,mAP值為77.8%。文中AT–FFRCN算法的AP50和AP75值相較于Faster R–CNN分別提高了10.5%、20.4%,并且mAP值達(dá)到了95.4%,在原來(lái)的基礎(chǔ)上提升了17.8%。同其他目標(biāo)檢測(cè)算法比較,文中AT–FFRCN算法的各項(xiàng)指標(biāo)均提高了不少,相較于SSD,AP50提高了13%,AP75提高了22.5%,mAP提高了20.1%,相較于YOLOV3,AP50、AP75、mAP則分別提高了9.4%、19.8%、17.3%,這也充分證明該算法在Faster R–CNN基礎(chǔ)上的改進(jìn)是有效的,能夠解決文中引言中提出的問(wèn)題。
表3 不同網(wǎng)絡(luò)模型實(shí)驗(yàn)結(jié)果評(píng)價(jià)指標(biāo)對(duì)比
Tab.3 Comparison of evaluation indicators of experimental results of different network models
注:評(píng)價(jià)指標(biāo)AP50和AP75分別表示預(yù)測(cè)框與真實(shí)框交并比IoU值大于0.5和大于0.75的檢測(cè)精度。
2.2.4 檢測(cè)效果示例
圖4是文中算法與Faster R?CNN檢測(cè)效果圖,其中圖4a為Faster R–CNN算法的檢測(cè)效果,圖4b為AT–FFRCNN算法對(duì)應(yīng)的檢測(cè)效果??梢钥闯觯珹T–FFRCNN檢測(cè)出的工程機(jī)械目標(biāo)準(zhǔn)確率更高,位置信息也更準(zhǔn)確,并且能夠識(shí)別出尺寸較小和不明顯的目標(biāo),針對(duì)Faster R–CNN在復(fù)雜場(chǎng)景目標(biāo)遮擋、交叉的特殊情況下的漏檢、錯(cuò)檢問(wèn)題有顯著改善。
圖4 2種算法的檢測(cè)效果
為實(shí)現(xiàn)對(duì)施工現(xiàn)場(chǎng)工程機(jī)械目標(biāo)的準(zhǔn)確檢測(cè),文中提出了基于一種基于多尺度特征融合的施工目標(biāo)檢測(cè)方法AT–FFRCNN。該方法采用了ResNet50作為主干特征提取結(jié)構(gòu),結(jié)合構(gòu)造的特征路徑聚合網(wǎng)絡(luò)PFPN,提高了對(duì)不同尺寸目標(biāo)的檢測(cè)精度;使用GIoU和K–means錨框?qū)捀弑染垲愃惴?,彌補(bǔ)了目標(biāo)定位不準(zhǔn)確的問(wèn)題;在區(qū)域建議網(wǎng)絡(luò)和全連接層引入注意力機(jī)制進(jìn)行增強(qiáng)(AT–FC),提高了復(fù)雜環(huán)境中目標(biāo)檢測(cè)的能力。文中對(duì)設(shè)計(jì)的算法進(jìn)行了相關(guān)對(duì)比實(shí)驗(yàn),實(shí)驗(yàn)結(jié)果表明,文中提出的算法能實(shí)現(xiàn)對(duì)施工隱患目標(biāo)更精準(zhǔn)的檢測(cè),滿足了實(shí)際應(yīng)用的需求。
[1] REDMON J, DIVVALA S, GIRSHICK R, et al. You only Look Once: Unified, Real-Time Object Detection[J]. Proceedings of the IEEE Computer Society Conference on Computer Vision and Pattern Recognition, 2016, 10: 779-788.
[2] DUAN KAIWEN, BAI SONG, XIE LINGXI, et al. CenterNet: Keypoint Triplets for Object Detection[C]// Proceedings of 2019 IEEE/CVF International Conference on Computer Vision, 2019: 6568-6577.
[3] LIN T Y, GOYAL P, GIRSHICK R, et al. Focal Loss for Dense Object Detection[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2020, 42(2): 318-327.
[4] LIU WEI, ANGUELOV D, ERHAN D, et al. SSD: Single Shot MultiBox Detector[C]// European conference on computer vision, Springer, Cham, 2016: 21-37.
[5] GIRSHICK R, DONAHUE J, DARRELL T, et al. Rich Feature Hierarchies for Accurate Object Detection and Semantic Segmentation[J]. Proceedings of the IEEE Computer Society Conference on Computer Vision and Pattern Recognition, 2014: 580-587.
[6] GIRSHICK R. Fast R-Cnn[C]// Proceedings of the IEEE international conference on computer vision. 2015: 1440-1448.
[7] REN S, HE K, GIRSHICK R, et al. Faster R-CNN: Towards Real-Time Object Detection with Region Proposal Networks[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2017, 39(6): 1137-1149.
[8] SIMONYAN K, ZISSERMAN A. Very Deep Convolutional Networks for Large-Scale Image Recognition[C]// International Conference on Learning Representations, 2015: 4011-4019.
[9] HE KAIMING, ZHANG XIANGYU, REN SHAOQING, et al. Deep Residual Learning for Image Recognition[C]// Conference on Computer Vision and Pattern Recognition. IEEE, 2015: 1212-1231.
[10] ZAGORUYKO S, LERER A, LIN T Y, et al. A MultiPath Network for Object Detection[J]. Computer Vision and Pattern Recognition, 2016,23(4):1604.
[11] LIU SHU, QI LU, QIN HAIFANG, et al. Path Aggregation Network for Instance Segmentation[C]// Proceedings of 2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition, 2018: 8759-8768.
[12] WOO S, PARK J, LEE J Y, et al. CBAM: Convolutional Block Attention Module[C]//Proceedings of the European Conference on Computer Vision (ECCV), 2018: 3-19.
[13] HU Jie, SHEN Li, SUN Gang, et al. Squeeze-and-Excitation Networks[C]// Proceedings of the 2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition, 2018: 7132-7141.
[14] WANG Q, WU B, ZHU P, et al. ECA-Net: Efficient Channel Attention for Deep Convolutional Neural Networks[J]. Proceedings of the IEEE Computer Society Conference on Computer Vision and Pattern Recognition, 2020, Issue: 11531-11539.
[15] YANG JIANWEI, LU JIASEN, LEE S, et al. Graph R-CNN for Scene Graph Generation[C]// Proceedings of 15th European Conference on Computer Vision. Munich, Germany, 2018:670-685.
[16] REZATOFIGHI H, TSOI N, GWAK J, et al. Generalized Intersection over Union: A Metric and a Loss for Bounding Box Regression[C]// Proceedings of the 2019 IEEE Conference on Computer Vision and Pattern Recognition, 2019: 658-666.
Object Detection Method of Construction Machinery Based on Attention and Feature Fusion
WU Jing, ZHAO Er-dun,LIN Zhuo-cheng,QIN Wen-qing
(Central China Normal University, Wuhan 430079, China)
The work aims to propose an object detection method based on attention and feature fusion (AT-FFRCNN) aiming at the problems of different size, mutual occlusion and different working forms of construction machinery objects in the construction environment.ResNet50 and feature path aggregation network PFPN were used in the backbone network to fuse feature information of different scales, and an attention mechanism was introduced into the region proposal network (RPN) and fully connected layer to improve the ability of target recognition, and generalized intersection over union (GIoU) was used in the loss function to improve the accuracy of the object box.Experiments indicated that the detection accuracy of the proposed method was greatly improved compared with other methods, and the average detection accuracy (mAP) reached more than 90%. The proposed method can complete the detection task of the construction machinery better.
object detection; Faster R-CNN; attention mechanism; feature fusion
TP391
A
1001-3563(2022)15-0061-07
10.19554/j.cnki.1001-3563.2022.15.007
2022–06–09
吳靖(1997—),男,華中師范大學(xué)碩士生,主攻深度學(xué)習(xí)、機(jī)器視覺(jué)。
趙爾敦(1972—),男,博士,華中師范大學(xué)副教授,主要研究方向?yàn)闄C(jī)器視覺(jué)。
責(zé)任編輯:曾鈺嬋