摘 要:隨著旅客數(shù)量的逐年增長(zhǎng),火車站、機(jī)場(chǎng)等交通場(chǎng)所的安檢壓力在不斷增加。長(zhǎng)時(shí)間的高強(qiáng)度工作容易導(dǎo)致安檢員疲勞,進(jìn)而導(dǎo)致對(duì)管制刀具的漏檢、誤檢,使旅客在旅途中的安全風(fēng)險(xiǎn)大大增加。為了解決上述問題,提出了一種基于改進(jìn)YOLOv5的X光圖像管制刀具檢測(cè)模型。首先,在YOLOv5s模型的Neck部分加入卷積塊注意力模塊,以增強(qiáng)模型的特征提取能力;其次,在YOLOv5s模型的Prediction部分增加一個(gè)新的預(yù)測(cè)層,以提升模型對(duì)小體積管制刀具的檢測(cè)能力。實(shí)驗(yàn)結(jié)果顯示,改進(jìn)后的模型能夠有效檢測(cè)出X光圖像中出現(xiàn)的管制刀具與原始YOLOv5s模型相比,在平均精度上有著8.56%的提升,滿足了安檢任務(wù)的需求。
關(guān)鍵詞:X光圖像;管制刀具;YOLOv5s模型;卷積塊注意力機(jī)制
中圖分類號(hào):TP391.41"""" 文獻(xiàn)標(biāo)識(shí)碼:A""""" 文章編號(hào):2095-9699(2024)06-0052-05
X光檢測(cè)機(jī)是當(dāng)前安全檢測(cè)行業(yè)使用最廣泛的非接觸式安全檢查設(shè)備,它能夠在不打開旅客行李的前提下完成對(duì)行李內(nèi)物品圖像的顯示,解決了手動(dòng)搜查可能會(huì)導(dǎo)致尷尬和侵犯隱私的問題,具備“零接觸”的優(yōu)點(diǎn)[1],被廣泛應(yīng)用于機(jī)場(chǎng)、火車站等公共交通場(chǎng)所。盡管X光檢測(cè)機(jī)具備上述優(yōu)勢(shì),但其應(yīng)用效果容易受到操作者個(gè)人主觀因素的影響,當(dāng)安檢員疲勞或經(jīng)驗(yàn)不足時(shí),可能會(huì)導(dǎo)致對(duì)X光圖像中管制刀具的誤檢和漏檢,進(jìn)而為不法分子攜帶違禁物品進(jìn)入公共交通工具提供了可乘之機(jī)。
隨著深度學(xué)習(xí)的發(fā)展,基于卷積神經(jīng)網(wǎng)絡(luò)的X光物品檢測(cè)技術(shù)取得了重要成果。Wang等[2]人將YOLOv4(You Only Look Once version 4)中原有的空間金字塔池化替換為空洞空間金字塔池化,提升了模型的感受野,加強(qiáng)了模型對(duì)X光圖像中多尺度特征的提取能力。穆思奇等[3]人在YOLOv4的基礎(chǔ)上加入了空洞卷積模塊,提升了模型對(duì)X光圖像中特征的表達(dá)能力。曹洋等[4]人使用空洞殘差模塊和可變形空洞金字塔池化分別處理不同層級(jí)的X光圖像特征,實(shí)現(xiàn)了模型特征表達(dá)能力的提升。上述方法雖然在X光圖像檢測(cè)上取得了一定進(jìn)展,然而在實(shí)際的管制刀具檢測(cè)任務(wù)中存在著兩個(gè)難題亟須解決:管制刀具尺寸小、安檢X光圖像背景復(fù)雜。
為了解決上述問題,文章以YOLOv5s模型為基礎(chǔ),在其Neck部分加入卷積塊注意力模塊,并將Prediction部分的預(yù)測(cè)層由3個(gè)增加為4個(gè),構(gòu)建了改進(jìn)YOLOv5s模型。該改進(jìn)通過增強(qiáng)對(duì)小體積管制刀具的特征提取能力,顯著提升了模型在目標(biāo)密集重疊的X光安檢圖像中對(duì)管制刀具的檢測(cè)精度。
1 YOLOv5s模型
YOLOv5(You Only Look Once version 5)是目前目標(biāo)檢測(cè)領(lǐng)域性能最好的模型之一,屬于one-stage檢測(cè)模型[5],它可以分為s、m、l、x四個(gè)不同尺寸的模型,模型的尺寸越大,其檢測(cè)性能越好,但檢測(cè)速度也會(huì)因?yàn)閰?shù)規(guī)模的增加而變慢??紤]到實(shí)際安檢任務(wù)中需要對(duì)大量X光圖像進(jìn)行處理,對(duì)實(shí)時(shí)性有較高要求,因此采用尺寸最小的YOLOv5s作為基礎(chǔ)模型。
YOLOv5s模型主要由四個(gè)部分組成:輸入端、Backbone部分、Neck部分、Prediction部分,其結(jié)構(gòu)如圖1所示。在YOLOv5s中,Backbone部分由Focus模塊、CONV模塊、C3模塊和SPP模塊4類不同卷積結(jié)構(gòu)的模塊組成,其功能是將基礎(chǔ)層的特征圖進(jìn)行跨層次合并,消除不同卷積層產(chǎn)生的重復(fù)梯度信息;Neck部分的功能是通過FPN+PAN結(jié)構(gòu)對(duì)不同尺度特征圖進(jìn)行融合再輸出,提升整個(gè)模型的感受野;Prediction部分的功能是對(duì)Neck部分生成的三種不同尺度特征圖進(jìn)行預(yù)測(cè),輸出模型最終的檢測(cè)結(jié)果[3]。
2 改進(jìn)后的YOLOv5s模型構(gòu)建
2.1 卷積塊注意力模塊
卷積塊注意力模塊(Convolutional Block Attention Module,CBAM)是圖像處理中常用的注意力機(jī)制算法,它是由通道注意力模塊和空間注意力模塊組成[7],具體如圖2所示。CBAM首先對(duì)輸入特征圖進(jìn)行通道注意力處理,將通道注意力處理結(jié)果與原輸入特征圖進(jìn)行逐元素相乘,再將逐元素相乘的結(jié)果進(jìn)行空間注意力處理,并將空間注意力處理結(jié)果與處理前的輸入進(jìn)行逐元素相乘,得到最終的高精度特征。
(1)通道注意力模塊
通道注意力模塊是一種用于加強(qiáng)卷積神經(jīng)網(wǎng)絡(luò)中通道特征關(guān)聯(lián)性的技術(shù),其原理是通過學(xué)習(xí)來自各個(gè)通道的特征信息來為各個(gè)通道的重要性生成相應(yīng)的權(quán)重[8]。通過動(dòng)態(tài)學(xué)習(xí)各通道的重要性權(quán)重,通道注意力模塊允許模型在學(xué)習(xí)過程中自動(dòng)調(diào)整每個(gè)通道的貢獻(xiàn),使其更聚焦于與目標(biāo)相關(guān)聯(lián)的信息,提高了模型的表達(dá)能力和泛化能力。其結(jié)構(gòu)如圖3所示。
在輸入特征圖后,通道注意力模塊首先通過兩種池化層對(duì)輸入特征圖在空間維度上進(jìn)行壓縮,其次在通過共享網(wǎng)絡(luò)后對(duì)兩者進(jìn)行逐元素求和,最終通過sigmoid激活函數(shù)獲得模塊的輸出,其數(shù)學(xué)表達(dá)如式(1):
Mc(F)=σ(W1(W0(FcAvg))+W1(W0(FcMax)))(1)
式中,MC代表模塊輸出,F(xiàn)代表輸入特征圖,W0和W1代表共享網(wǎng)絡(luò)的權(quán)重,F(xiàn)CAvg代表使用平均池化對(duì)輸入進(jìn)行空間維度壓縮的結(jié)果,F(xiàn)CMax代表使用最大池化對(duì)輸入進(jìn)行空間維度壓縮的結(jié)果,σ代表sigmoid激活函數(shù)。
(2)空間注意力模塊
空間注意力模塊是一種用于加強(qiáng)卷積神經(jīng)網(wǎng)絡(luò)中空間特征關(guān)聯(lián)性的技術(shù),其原理是允許模型在處理圖像等結(jié)構(gòu)化數(shù)據(jù)時(shí)對(duì)不同位置的特征進(jìn)行動(dòng)態(tài)加權(quán)處理[9]??臻g注意力模塊旨在強(qiáng)調(diào)輸入數(shù)據(jù)中不同空間位置的重要性,增強(qiáng)模型對(duì)空間位置相關(guān)信息的關(guān)注,使模型可以更加有針對(duì)性地聚焦與目標(biāo)聯(lián)系密切的空間位置信息,減少?gòu)?fù)雜背景帶來的干擾,其結(jié)構(gòu)如圖4所示。
在輸入特征圖后,空間注意力模塊首先通過兩種池化層對(duì)輸入特征圖在通道維度上進(jìn)行壓縮,其次依靠單層卷積對(duì)合并后的池化結(jié)果進(jìn)行特征提取,最終通過sigmoid激活函數(shù)獲得模塊的輸出,其數(shù)學(xué)表達(dá)如式(2):
MS(F)=σ(f7×7([FSAvg;FSMax]))(2)
式中,MS代表模塊輸出,F(xiàn)代表輸入特征圖,f7×7代表卷積核大小為7×7的單層卷積,F(xiàn)SAvg代表使用平均池化對(duì)輸入進(jìn)行通道維度壓縮的結(jié)果,[FSAvg;FSMax]代表將兩個(gè)池化結(jié)果在通道維度拼接,σ代表sigmoid激活函數(shù)。
2.2 改進(jìn)后的YOLOv5s模型
針對(duì)安檢任務(wù)實(shí)時(shí)性、準(zhǔn)確性的需求,并結(jié)合X光安檢圖像背景復(fù)雜、管制刀具目標(biāo)小等特點(diǎn),文章在原始YOLOv5s模型的基礎(chǔ)上進(jìn)行了改進(jìn),提出了一種改進(jìn)YOLOv5s模型,其結(jié)構(gòu)如圖5所示。模型的改進(jìn)舉措主要有兩個(gè)方面:
(1)CBAM嵌入
考慮到安檢X光圖像背景較為復(fù)雜,往往會(huì)出現(xiàn)行李物品堆疊的情況,為了減輕此類問題對(duì)模型性能產(chǎn)生的負(fù)面影響,文章在YOLOv5s模型Neck部分的不同尺寸特征輸入層前分別加入一個(gè)CBAM。CBAM中的通道注意力模塊允許模型在學(xué)習(xí)過程中自動(dòng)調(diào)整每個(gè)通道的貢獻(xiàn),使其更聚焦于X光圖像中與管制刀具相關(guān)聯(lián)的信息,提高了模型的表達(dá)能力和泛化能力。同時(shí),它所包含的空間注意力模塊能夠增強(qiáng)模型對(duì)空間位置相關(guān)信息的關(guān)注,使模型可以更加有針對(duì)性地聚焦X光圖像中與管制刀具聯(lián)系密切的空間位置信息,減少?gòu)?fù)雜背景帶來的干擾。
(2)增加新的預(yù)測(cè)層
傳統(tǒng)的YOLOv5s模型只包含三個(gè)預(yù)測(cè)層,分別輸出8倍、16倍、32倍下采樣生成的尺寸為80×80像素、40×40像素、20×20像素的特征圖(默認(rèn)輸入特征圖尺寸為640×640像素)。在安檢場(chǎng)景下,旅客的行李大小、數(shù)量及種類均存在不同,可能存在極小尺寸的目標(biāo),為了提升模型對(duì)小尺度目標(biāo)的識(shí)別性能,文章在YOLOv5s模型的基礎(chǔ)上增加了一個(gè)輸出新預(yù)測(cè)尺度特征圖的預(yù)測(cè)層。具體改進(jìn)措施為在模型Neck部分中增加1次上采樣,在第3次上采樣后,將上采樣結(jié)果與Backbone部分第1個(gè)C3模塊的輸出結(jié)果進(jìn)行疊加,得到新增加的尺寸為160×160的預(yù)測(cè)層,用以對(duì)X光圖像中的小尺寸目標(biāo)進(jìn)行檢測(cè)。改進(jìn)后的模型擁有4個(gè)不同預(yù)測(cè)尺度的預(yù)測(cè)層,在并未顯著增加網(wǎng)絡(luò)復(fù)雜度的同時(shí),實(shí)現(xiàn)了底層高分辨率信息和深層高語義信息的充分利用,提升了模型的識(shí)別性能。
3 實(shí)驗(yàn)與分析
3.1 實(shí)驗(yàn)數(shù)據(jù)集
文章實(shí)驗(yàn)采用SIXray數(shù)據(jù)集中的部分?jǐn)?shù)據(jù)進(jìn)行模型訓(xùn)練與測(cè)試。SIXray數(shù)據(jù)集是由Miao等人制作的用于安全檢查中對(duì)違禁物品進(jìn)行檢測(cè)的X光圖像數(shù)據(jù)集,涉及槍、刀、扳手、鉗子、剪刀和錘子六類常見的違禁物品。考慮到只針對(duì)管制刀具進(jìn)行檢測(cè),因此在數(shù)據(jù)集整理階段對(duì)無關(guān)類別進(jìn)行了刪除,整理后的數(shù)據(jù)集共計(jì)6 156張圖片,按照51劃分訓(xùn)練集和數(shù)據(jù)集。
3.2 評(píng)價(jià)指標(biāo)
實(shí)驗(yàn)使用目標(biāo)檢測(cè)領(lǐng)域常用的精準(zhǔn)率(Precision,P)、召回率(Recall,R)和平均精度(Average Precision,AP)對(duì)模型的性能進(jìn)行評(píng)價(jià)。
精準(zhǔn)率表示所有檢測(cè)出管制刀具的樣本中結(jié)果正確的樣本所占的比例,召回率表示所有存在管制刀具的樣本中被正確檢測(cè)出來的比例,平均精度表示不同召回率下精準(zhǔn)率的均值。三者具體計(jì)算公式如下:
P=TPTP+FP(3)
R=TPTP+FN(4)
AP=∫10P(R)dR(5)
其中,TP表示存在管制刀具并且被正確預(yù)測(cè)出的樣本數(shù)量,F(xiàn)P表示不存在管制刀具但被預(yù)測(cè)出管制刀具的樣本數(shù)量,F(xiàn)N表示存在管制刀具但未被檢測(cè)出管制刀具的樣本數(shù)量。
3.3 消融實(shí)驗(yàn)與分析
為驗(yàn)證文章在原始YOLOv5s模型上改進(jìn)措施的有效性,以原始YOLOv5s模型為基線模型,在數(shù)據(jù)集上進(jìn)行了驗(yàn)證分析,消融實(shí)驗(yàn)結(jié)果如表1所示。
實(shí)驗(yàn)結(jié)果顯示,將CBAM加入基線模型后,模型的精準(zhǔn)率P、召回率R以及平均精度AP分別提升了4.92%、5.56%和6.51%,證明了CBAM能夠提升基線模型對(duì)圖像中與管制刀具相關(guān)信息的提取能力,減輕復(fù)雜背景帶來的干擾;在增加基線模型的預(yù)測(cè)層后,模型的精準(zhǔn)率P、召回率R以及平均精度AP分別提升了0.81%、2.83%和3.53%,證明了增加新的預(yù)測(cè)層能夠幫助模型充分利用圖像中的底層高分辨率信息和深層高語義信息,提升模型檢測(cè)性能;當(dāng)在基線模型中同時(shí)采用上述兩種改進(jìn)舉措時(shí),模型的精準(zhǔn)率P、召回率R以及平均精度AP分別提升了6.46%、9.93%和8.56%,證明了文章的改進(jìn)措施確實(shí)能夠提升YOLOv5s模型在X光圖像管制刀具檢測(cè)任務(wù)上的檢測(cè)性能。
3.4 對(duì)比實(shí)驗(yàn)與分析
為了檢驗(yàn)改進(jìn)模型的檢測(cè)效果,以未改進(jìn)的YOLOv5s模型、SSD模型以及CenterNet模型作為參照進(jìn)行了對(duì)比實(shí)驗(yàn),具體實(shí)驗(yàn)結(jié)果如表2所示。
實(shí)驗(yàn)結(jié)果顯示,改進(jìn)后模型與未改進(jìn)的YOLOv5s模型相比,在精準(zhǔn)率P上有著6.46%的提升;在召回率R上有著9.93%的提升;在平均精度AP上有著的8.56%相對(duì)提升。與SSD模型相比,在精準(zhǔn)率P上有著9.50%的提升;在召回率R上有著14.06%的提升;在平均精度AP上有著的11.89%相對(duì)提升。與CenterNet模型相比,在精準(zhǔn)率P上有著8.21%的提升;在召回率R上有著5.67%的提升;在平均精度AP上有著的6.85%相對(duì)提升。實(shí)驗(yàn)結(jié)果證明,改進(jìn)后模型在X光圖像上的檢測(cè)性能要優(yōu)于上述常見目標(biāo)檢測(cè)模型,能夠?qū)崿F(xiàn)對(duì)X光圖像中管制刀具的有效檢測(cè)。
4 結(jié)論
為緩解公共場(chǎng)所安檢壓力,本研究基于YOLOv5s模型架構(gòu),通過引入CBAM注意力模塊與新增預(yù)測(cè)層,構(gòu)建了X光圖像管制刀具自動(dòng)檢測(cè)模型。改進(jìn)后的模型顯著增強(qiáng)了對(duì)刀具特征的提取能力,實(shí)現(xiàn)了底層高分辨率細(xì)節(jié)與深層語義信息的有效融合。該模型對(duì)于安檢工作具有一定的實(shí)用價(jià)值和現(xiàn)實(shí)意義。
參考文獻(xiàn):
[1]董乙杉.注意力與反向瓶頸設(shè)計(jì)的X光違禁品檢測(cè)研究[D].北京:中國(guó)人民公安大學(xué),2023.
[2]WANG B, DING H, CHEN C. AC-YOLOv4: an object detection model incorporating attention mechanism and atrous convolution for contraband detection in x-ray images[J]. Multimedia Tools and Applications, 2024,83(9):26485-26504.
[3]穆思奇,林進(jìn)健,汪海泉,等.基于改進(jìn)YOLOv4 的X射線圖像違禁品檢測(cè)算法[J].兵工學(xué)報(bào),2021, 42(12):2675-2683.
[4]曹洋,張莉,孟俊熙,等.針對(duì)X光安檢場(chǎng)景的多目標(biāo)違禁品識(shí)別算法[J].激光與光電子學(xué)進(jìn)展,2022,59(10):324-332.
[5]張康佳,張鵬偉,陳景霞,等.基于改進(jìn)YOLOv5s的X光圖像危險(xiǎn)品檢測(cè)[J].陜西科技大學(xué)學(xué)報(bào),2023,41(06):176-183,200.
[6]Liwei C R Z .A Fine-Grained Object Detection Model for Aerial Images Based on YOLOv5 DeepNeural Network[J].Chinese Journal of Electronics,2023,32(01):51-63.
[7]蘆碧波,周允,李小軍,等.融合注意力機(jī)制的YOLOv5輕量化煤礦井下人員檢測(cè)算法[J].煤炭技術(shù),2023,42(10):200-203.
[8]黃圣;茅健.基于注意力機(jī)制的動(dòng)態(tài)手勢(shì)識(shí)別方法[J].智能計(jì)算機(jī)與應(yīng)用,2023,13(09):111-115.
[9]胡丹丹;張忠婷;牛國(guó)臣.融合CBAM注意力機(jī)制與可變形卷積的車道線檢測(cè)[J/OL].北京航空航天大學(xué)學(xué)報(bào),1-14[2023-11-28]https://doi.org/10.13700/j.bh.1001-5965.2022.0601.
責(zé)任編輯:肖祖銘
X-ray Image Model for Controlled-tools Detection Based on Improved YOLOv5s Model
LU Yuncong
(Zhengzhou Police University, Zhengzhou 450000, China)
Abstract:With the increase in the number of passengers in railway stations, airports and other transportation places year by year, the pressure of security checks is increasing. High intensity work for a long time can easily lead to the fatigue of the security inspector, which leads to the missing and mis-detecting of the controlled-tools, so that the safety risk of the passengers in the journey is greatly increased. In order to solve the above problems, an X-ray image model for controlled-tools detection based on improved YOLOv5 is proposed. Firstly, the Convolutional Block Attention Mechanism is added to the Neck part of YOLOv5s model to enhance the feature extraction capability of the model. Secondly, a new Prediction layer is added to the prediction part of YOLOv5s model to improve the detection ability of small-volume controlled-tools. The experimental results show that the improved model can effectively detect the controlled-tools in the X-ray image, and the average accuracy is improved by 8.56% compared with the original YOLOv5 model, which meets the requirements of security inspection tasks.
Keywords: X-ray images; controlled-tools; YOLOv5s model; Convolutional Block Attention Mechanism
基金項(xiàng)目:中央高?;究蒲袠I(yè)務(wù)經(jīng)費(fèi)項(xiàng)目(2023TJJBKY016);河南省重點(diǎn)研發(fā)與推廣專項(xiàng)(232102210022);河南省高等學(xué)校重點(diǎn)科研項(xiàng)目(23A520042)
作者簡(jiǎn)介:盧云聰(1994—),男,河南鄭州人,講師,主要從事目標(biāo)檢測(cè)研究。