李晨,張輝, *,張鄒銓,車愛博,王耀南
1.長沙理工大學(xué),長沙 410114;2.湖南大學(xué),長沙 410082
X光圖像是通過使用X射線照射物體表面,并根據(jù)它們的光譜吸收速率用偽顏色渲染成像得到的(Whittig和Allardice,1986)。不同于可見光,X射線本身具有穿透性,可以對一些物體內(nèi)部信息進(jìn)行成像顯示。因此,X光圖像也常用于內(nèi)部檢查任務(wù),如人體胸內(nèi)損傷檢查(陳勝和張茗屋,2016;張智睿 等,2020)、鑄件內(nèi)部缺陷檢查(談紹熙和黃茜,2008)以及安檢違禁物品檢查等。在早期的安全檢查中,由于交通設(shè)施普及率低、人流量少,使用X圖像無傷檢測輔助人工視查的方式足以達(dá)到檢測速度及效率的要求(鄭金州和魯紹棟,2012)。然而隨著全球化和交通運(yùn)輸行業(yè)的快速發(fā)展以及生活水平的提高,人們的出行次數(shù)越來越頻繁,旅客運(yùn)輸量和客貨運(yùn)輸量不斷增多,使得安檢人員工作負(fù)荷大,檢查過程中更易造成漏檢及誤檢(McCarley等,2004),進(jìn)而造成交通、人流進(jìn)一步堵塞。
為了提高對違禁物品的檢測精度、減輕安檢人員的壓力以及加快安檢速度,人們開始使用傳統(tǒng)圖像處理技術(shù)來處理X光圖像中的違禁物品(宋修竹,2014;張寧和朱金福,2015),并用以輔助人工檢測。根據(jù)側(cè)重方向不同又可以將傳統(tǒng)檢測方法分為基于圖像特征增強(qiáng)和基于圖像特征匹配的兩種方式。特征增強(qiáng)以手工設(shè)計特征為主,如Toyofuku和Schatzki(2005)提出一種基于圖像特征(image feature based, IFB)方法,通過直接尋找與違禁品相關(guān)的特定曲線圖案或紋理特征代替尋找特定的違禁品。韓萍等人(2011)提出了一種兩級X光圖像增強(qiáng)方法,利用離散小波變換和自適應(yīng)正弦灰度變換兩種變換操作實現(xiàn)兩級特征增強(qiáng),有效地解決了低對比度X光圖像在機(jī)場安檢中的高虛警或高漏警問題。特征匹配則是對現(xiàn)有特征更好的利用,如Mery等人(2015)通過提出一種自適應(yīng)稀疏表示(adaptive sparse representation, ASR)方法來檢測手槍和爆炸物等違禁物品。它包括訓(xùn)練和測試兩個階段,通過在訓(xùn)練階段構(gòu)建具有代表性的字典,利用稀疏表示分類(sparse representation classification, SRC)方法對每個測試補(bǔ)丁進(jìn)行分類,然后利用補(bǔ)丁投票對包含違禁物品的X光圖像進(jìn)行分類。自適應(yīng)稀疏表示使得模型能夠處理較少的約束條件,在一些對比度變異性、類內(nèi)變異性問題上取得了不錯的效果。王宇等人(2017)將兩種方法結(jié)合在一起,提出了基于Tamura紋理特征和隨機(jī)森林的X射線異物分類方法。首先使用Contourlet變換得到Taruma紋理特征向量,然后采用隨機(jī)森林分類器對違禁品圖像進(jìn)行分類判斷,完成對X光異物圖像進(jìn)行自動識別。但是由于手工設(shè)計的特征提取器捕捉特征能力差,只能捕捉到一些淺層紋理信息,對于一些背景噪聲干擾強(qiáng)、目標(biāo)紋理特征不明顯的區(qū)域很難提取到有用信息,對尺度變化大和存在透視遮擋的目標(biāo)違禁物品檢測效果不理想。
隨著深度學(xué)習(xí)越來越受到人們關(guān)注,越來越強(qiáng)大的深度學(xué)習(xí)模型(Krizhevsky等,2012;He等,2016)被提出。卷積神經(jīng)網(wǎng)絡(luò)因為具有強(qiáng)大的特征提取能力和良好的特征表達(dá)能力,在X光違禁物品檢測領(lǐng)域得到了廣泛的關(guān)注和應(yīng)用(Ak?ay等,2016;Miao等,2019)。與傳統(tǒng)的X光違禁物品檢測方法相比,更深的卷積神經(jīng)網(wǎng)絡(luò)能夠提取更豐富的圖像特征信息,大量的非線性變換提高了網(wǎng)絡(luò)的特征表達(dá)能力。同時神經(jīng)網(wǎng)絡(luò)的自主學(xué)習(xí)能力使得檢測人員無需設(shè)計專門的特征算子,人工成本大幅降低,更利于實現(xiàn)端到端的自動化檢測。Liu等人(2019)首次利用顏色信息的前景背景分割方法對從X射線行李安全影像中待測物體進(jìn)行輪廓分析。然后提出一種深度卷積神經(jīng)網(wǎng)絡(luò)(deep convolutional neural networks, DCNN)的對象檢測框架Faster R-CNN(Ren等,2015)對X射線圖像中不同類型的對象進(jìn)行分類和定位,對于一些紋理特征和顏色信息豐富的違禁物品取得了較高的檢測精度。Gaus等人(2019)首次將細(xì)粒度信息引入X光違禁物品檢測,提出了用于復(fù)雜安全X射線圖像內(nèi)自動異常檢測的雙卷積神經(jīng)網(wǎng)絡(luò)體系結(jié)構(gòu)。利用基于R-CNN(region convolutional neural network)(Girshick等,2014)和Mask R-CNN(He等,2017)的檢測架構(gòu),為感興趣的特定對象類別提供對象定位變體,通過建立卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural network,CNN)對象和細(xì)粒度類別分類方法完成對X光違禁物品的檢測。細(xì)粒度類別分類又稱為子類任務(wù)分類,由于子類目標(biāo)之間特征差異不明顯,因此需要更精細(xì)的特征信息。常規(guī)的特征提取網(wǎng)絡(luò)很難關(guān)注到有局部細(xì)微差異的特征信息,導(dǎo)致分類錯誤。雙卷積神經(jīng)網(wǎng)絡(luò)可以從X光安檢圖像中提取更豐富的特征信息,通過可辨識的細(xì)粒度特征在對違禁物品子類目標(biāo)分類問題上取得了不錯的效果。但是由于使用兩種卷積網(wǎng)絡(luò)進(jìn)行檢測,導(dǎo)致模型復(fù)雜度較高,訓(xùn)練難度大,且模型檢測實時性差,難以滿足實際應(yīng)用需求。
上述檢測模型提高了對部分違禁物品的檢測精度,但是卻忽略了不同違禁物品之間可能出現(xiàn)多尺度變化、視覺遮擋等實際問題,導(dǎo)致整體檢測精度偏低。Xu等人(2018)提出了一種自上而下的注意機(jī)制來增強(qiáng)CNN分類器,以進(jìn)一步定位違禁物品。通過引入高級語義反饋循環(huán),將目標(biāo)語義信號映射到輸入的X射線圖像空間,生成關(guān)于特定任務(wù)的注意力圖來輸入圖像中禁止物品的位置和大致輪廓。注意力圖使模型關(guān)注于感興趣區(qū)域,從中提取更豐富的特征信息,降低背景信息干擾,緩解了因背景噪聲造成的遮擋現(xiàn)象。但是針對前景遮擋現(xiàn)象,遮擋物體與被遮擋物體都為感興趣目標(biāo),模型缺少全局信息指導(dǎo),造成漏檢現(xiàn)象嚴(yán)重。蘇志剛和姚少卿(2020)提出了一種基于語義分割技術(shù)的多目標(biāo)違禁品識別算法。在編碼階段使用空洞空間金字塔卷積模塊(atrous spatial pyramid convention block,ASPC)和注意力機(jī)制對X光圖像進(jìn)行特征編碼,通過逐級上采樣操作輸出預(yù)測掩碼,實現(xiàn)對多目標(biāo)違禁物品的檢測。張友康等人(2020)在一階段目標(biāo)檢測網(wǎng)絡(luò)SSD框架的基礎(chǔ)上,提出了適用于X光安檢圖像多尺度違禁品的非對稱卷積多視野神經(jīng)網(wǎng)絡(luò)(asymmetrical convolution multi-view neural network, ACMNet)。通過使用小卷積非對稱模塊、空洞多視野卷積模塊和多尺度特征圖融合策略提高對小尺度違禁品的識別能力并解決可能出現(xiàn)的遮擋問題。上述兩種方法以空洞卷積為基礎(chǔ),分別通過空洞空間金字塔卷積模塊和空洞多視野卷積模塊提高網(wǎng)絡(luò)感受野,獲取全局上下文特征信息,緩解視覺遮擋問題。ACMNet還通過將全局信息與局部信息相結(jié)合的方式進(jìn)一步增強(qiáng)特征表達(dá)能力來應(yīng)對物體遮擋問題。然而空洞卷積獲取全局上下文特征信息能力有限,較大的空洞率會產(chǎn)生退化現(xiàn)象和網(wǎng)格效應(yīng),使得基于空洞卷積模型獲取的全局上下文信息存在不連續(xù)、特征稀疏性等問題,對全局信息利用率不足。
針對X光違禁物品檢測中出現(xiàn)的小目標(biāo)檢測、復(fù)雜背景噪聲干擾和視覺遮擋問題,提出一種融合多尺度特征與全局上下文信息的特征增強(qiáng)融合網(wǎng)絡(luò)(feature enhancement fusion network, FEFNet),抑制背景噪聲干擾,解決視覺遮擋問題,提高對違禁物品的檢測精度。本文主要貢獻(xiàn)包括:
1)提出特征增強(qiáng)融合策略,使用坐標(biāo)注意力增強(qiáng)主干網(wǎng)絡(luò)特征提取能力,提高顯著性區(qū)域特征,降低背景噪聲干擾。利用自監(jiān)督二階融合生成密集空間像素相關(guān)性矩陣獲取連續(xù)的全局上下文特征信息,提高對全局信息的利用率,解決視覺遮擋問題。
2)使用多尺度檢測與跨尺度融合策略,解決違禁物品尺度不一的問題,提高對小尺度目標(biāo)的檢測能力。同時跨尺度連接方式使得全局上下文特征信息與不同感受野的局部區(qū)域特征信息相結(jié)合,提高特征表達(dá)能力,緩解違禁物品之間的視覺遮擋現(xiàn)象。
3)本文在SIXray-Lite違禁物品數(shù)據(jù)集上進(jìn)行驗證,并與SSD(single shot detection),RetinaNet,F(xiàn)aster R-CNN,YOLOv5(you only look once)等目標(biāo)檢測網(wǎng)絡(luò)和ACMNet違禁物品檢測網(wǎng)絡(luò)進(jìn)行了對比。實驗結(jié)果顯示,本文方法增強(qiáng)了對多尺度及小目標(biāo)違禁物品的檢測能力,緩解了視覺遮擋現(xiàn)象,提高了模型整體檢測精度。
FEFNet以YOLOv3目標(biāo)檢測網(wǎng)絡(luò)為基礎(chǔ),增加特征增強(qiáng)融合模塊(feature enhancement fusion module,F(xiàn)EFM)和多尺度融合特征金字塔模塊(multi-scale fusion future pyramid module,MFFP),提高多尺度目標(biāo)檢測能力,獲取完整的全局上下文特征信息,緩解視覺遮擋問題。特征增強(qiáng)融合網(wǎng)絡(luò)的整體框圖如圖1所示,其中CBL(convolution bn leaky-rule)表示由卷積層、歸一化層、激活層組成的卷積單元。FEFM模塊由坐標(biāo)注意力(coordinate attention, CA)(Hou等,2021)和自監(jiān)督二階融合(self-supervised second-order fusion, SOF)兩部分組成。坐標(biāo)注意力應(yīng)用在YOLOv3(Redmon和Farhadi,2018)的特征提取主干網(wǎng)絡(luò)darknet53中,將空間坐標(biāo)位置信息通過兩個1維卷積分別從X方向和Y方向嵌入到通道信息,增強(qiáng)特征通道的表達(dá)能力,提高主干網(wǎng)絡(luò)對前景目標(biāo)區(qū)域的特征提取能力,降低背景噪聲干擾。同時,將2維卷積分解為兩個不同方向的1維卷積,降低卷積復(fù)雜度,提高卷積運(yùn)算效率。自監(jiān)督二階融合模塊受自注意力機(jī)制與同源雙線性融合(閆子旭 等,2021)的啟發(fā),對特征提取主干網(wǎng)絡(luò)輸出的增強(qiáng)特征進(jìn)一步融合。首先使用1×1卷積壓縮通道特征,降低運(yùn)算量,然后使用二階融合獲取特征像素之間的密集映射相關(guān)性矩陣,通過相關(guān)性矩陣獲取特征像素之間的全局上下文特征信息,利用全局上下文特征信息緩解違禁物品之間的視覺遮擋問題。MFFP模塊在原有特征金字塔網(wǎng)絡(luò)的基礎(chǔ)上增加一層大尺度預(yù)測特征提高對小物體違禁目標(biāo)的檢測能力,同時4種不同尺度的預(yù)測特征和不同尺寸的先驗框可以很好地應(yīng)對違禁物品形狀差異大、尺度規(guī)模不一的問題。MFFP模塊中的跨尺度融合策略可以將融合得到的全局上下文特征信息直接與不同尺度的預(yù)測特征進(jìn)行特征融合,不同尺度的預(yù)測特征提供了不同感受野大小的局部特征信息。通過將全局上下文特征信息和局部特征信息相結(jié)合的方式,以全局信息為指導(dǎo),結(jié)合局部細(xì)節(jié)特征,進(jìn)一步緩解了不同尺度下違禁物品之間的視覺遮擋問題。
圖1 FEFNet網(wǎng)絡(luò)整體框架
特征增強(qiáng)融合模塊共包括兩部分,分別為坐標(biāo)注意力和自監(jiān)督二階融合。坐標(biāo)注意力通過在特征提取主干網(wǎng)絡(luò)加入注意力機(jī)制,增強(qiáng)主干網(wǎng)絡(luò)的特征提取能力。將目標(biāo)空間坐標(biāo)位置信息編碼在通道維度,利用不同通道之間的激活映射提高局部顯著目標(biāo)區(qū)域的關(guān)注能力,抑制背景噪聲干擾。由于空洞卷積自身的退化效應(yīng)和網(wǎng)格效應(yīng),以及不同膨脹率帶來的卷積核稀疏映射,導(dǎo)致基于堆疊的空洞卷積模塊難以獲取完整的全局上下文信息。自監(jiān)督二階融合模塊通過對特征信息進(jìn)行二階線性融合獲取特征空間像素相關(guān)性矩陣,相關(guān)性矩陣包含了所有空間特征像素之間的密集映射關(guān)系。這種一一對應(yīng)的映射關(guān)系保留了空間特征的長距離上下文依賴關(guān)系,提供了更豐富、更密集的全局上下文信息。對存在遮擋區(qū)域,由于只能提取到違禁物品的部分特征,難以確定違禁物品所屬類別。特征增強(qiáng)融合模塊使用坐標(biāo)注意力增強(qiáng)局部細(xì)節(jié)特征提取能力的同時利用自監(jiān)督二階融合獲取全局的上下文信息,從全局視野的角度對遮擋區(qū)域進(jìn)行信息補(bǔ)充,緩解了視覺遮擋現(xiàn)象。
1.1.1 坐標(biāo)注意力
坐標(biāo)注意力模塊(coordinate attention module,CAM)位于原始特征提取主干網(wǎng)絡(luò)darknet53的最后4個殘差階段中。與直接利用全局池化操作將特征張量轉(zhuǎn)換為單個特征向量的通道注意力(convolutional block attention module, CBAM)(Woo等,2018)不同,CAM對特征張量進(jìn)行2維編碼,分別沿2個空間方向聚合特征,在沿一個空間方向捕獲遠(yuǎn)程依賴關(guān)系同時沿另一空間方向保留精確的位置信息。最后,將生成的特征圖分別編碼為一對方向感知和位置敏感的注意力圖,互補(bǔ)地應(yīng)用于輸入特征,以增強(qiáng)關(guān)注對象的表示。其中CAM流程框圖如圖2所示。
圖2 坐標(biāo)注意力流程框圖
1)將殘差階段的輸出特征圖x∈RC×H×W在W和H兩個方向上分別進(jìn)行全局池化。輸出特征zh∈RC×H×1,zw∈RC×1×W,公式為
(1)
式中,H為特征圖x的長度,W為特征圖x的寬度。
2)對于式(1)輸出的特征zh和zw,首先在空間維度上進(jìn)行融合,然后經(jīng)過卷積F和激活δ操作得到聚合后的特征f∈RC/r×1×(H+W),卷積F利用通道因子r對通道維度進(jìn)行降維至C/r維來減少計算量。
f=δ(F([zh,zw]))
(2)
式中,[·,·]為拼接操作,F(xiàn)為卷積操作,δ為非線性激活函數(shù),即圖2中的Sigmoid。
3)沿著空間維度把f分解成兩個單獨(dú)的張量fh∈RC/r×H×1和fw∈RC/r×1×W,對fh和fw分別使用卷積Fh,F(xiàn)w和激活δ操作,得到W和H兩個方向上的注意力向量gh∈RC×H×1和gw∈RC×1×W
(3)
4)最后,將得到的注意力向量應(yīng)用在輸入特征上,得到最終的特征表示y∈RC×H×W
y(i,j)=x(i,j)×gh(i)×gw(j)
(4)
式(4)使用廣播機(jī)制將W方向特征gw(j)和H方向特征gh(i)疊加在輸入特征x上,并保持輸出特征圖y(i,j)和輸出特征圖x(i,j)的尺寸大小一致。
1.1.2 自監(jiān)督二階融合
自監(jiān)督二階融合模塊以特征提取主干網(wǎng)絡(luò)的最高維輸出特征圖作為輸入,該特征圖經(jīng)過多次降采樣操作,擁有更大的感受野,可以提供更豐富的語義信息和全局信息。在此基礎(chǔ)上通過對高維空間特征向量進(jìn)行二階線性融合,重新整合不同空間位置的依賴關(guān)系,獲取密集的空間位置信息相關(guān)性矩陣。最后通過這種一一對應(yīng)的空間位置相關(guān)性輸出包含全局上下文信息的融合特征,融合模塊具體結(jié)構(gòu)如圖3所示。
圖3 自監(jiān)督二階融合結(jié)構(gòu)圖
具體地,該模塊以特征提取主干網(wǎng)絡(luò)輸出的特征圖F∈RC×H×W作為輸入,分別經(jīng)過兩個1×1的卷積對輸入特征F的通道維度進(jìn)行降維1/r用于降低網(wǎng)絡(luò)計算量以及模型復(fù)雜度,得到兩個特征圖F1∈RC/r×H×W和F2∈RC/r×H×W。然后將兩個特征分別在空間維度上拉伸得到兩個空間向量V1∈RC/r×N和V2∈RC/r×N,其中N=H×W。最后利用雙線性池化(矩陣乘法)對特征向量V1和V2進(jìn)行二階融合得到空間融合矩陣,空間融合矩陣編碼了不同特征像素位置之間的全局表示,并使用Softmax激活函數(shù)對空間位置的激活響應(yīng)進(jìn)行歸一化處理。
(5)
式中,Sji表示空間像素上第i個位置對第j個位置的編碼,Vij表示特征向量Vi的第j個元素。
同時,對原特征圖F∈RC×H×W做V1,V2相同操作得到空間向量V3∈RC/r×N,將空間融合矩陣應(yīng)用在空間向量V3上并于原始特征進(jìn)行殘差連接后得到輸出特征E∈RC/r×H×W,即
(6)
式中,N為空間融合矩陣S的維度,C/r表示特征圖的通道維度。
最后,將特征圖E經(jīng)過一個1×1卷積將通道映射回原始輸入通道大小,最后將融合后的空間特征相關(guān)性矩陣以殘差結(jié)構(gòu)的形式應(yīng)用在輸出特征上,獲取特征的全局上下文關(guān)系表示。
在安檢領(lǐng)域的X光違禁物品檢測中,由于乘客攜帶的物品種類繁多,包含的違禁物品之間也形狀各異,尺度不一。YOLOv3網(wǎng)絡(luò)借鑒FPN(feature pyramid networks)的思想,使用不同降采樣率的特征圖對不同尺度大小的違禁物品進(jìn)行檢測。降采樣率越高,特征感受野信息越大,對大尺度目標(biāo)檢測能力越強(qiáng),反之,小感受野特征圖對小目標(biāo)有較強(qiáng)的檢測能力。對于一些小型違禁物品,過大的降采樣率使得小尺度目標(biāo)的特征信息丟失或者被忽略,導(dǎo)致網(wǎng)絡(luò)在預(yù)測階段因缺乏足夠的特征信息而造成漏檢誤檢,降低了模型的整體檢測精度。因此,在原有特征金字塔結(jié)構(gòu)的基礎(chǔ)上增加一層降采樣率為1/4的特征圖(104×104像素),保留更多小尺度目標(biāo)的特征信息,提高模型對小尺度目標(biāo)的召回率。坐標(biāo)注意力提取可辨識的顯著特征,并將這種特征編碼在通道維度上,不同的通道位置代表不同顯著特征的激活映射。在金字塔特征融合時,應(yīng)盡可能保留來自提取層的特征激活映射響應(yīng),而不是重新進(jìn)行特征選擇。因此,在特征提取層和金字塔特征融合階段,使用元素加和操作替代原有的通道拼接操作,將來自坐標(biāo)注意力的激活響應(yīng)特征值直接加和在多尺度的金字塔特征上。加和操作可以保留更多的原始特征信息,同時擁有更少的計算量和參數(shù)量。最后,將全局上下文特征信息通過特征金字塔與不同尺度的預(yù)測特征相結(jié)合,全局的語義信息對質(zhì)地相近的違禁品輪廓信息進(jìn)行判斷,局部信息可以提供更多的細(xì)節(jié)補(bǔ)充,共同完成在全局視野下遮擋違禁物品的特征學(xué)習(xí)。MFFP的具體結(jié)構(gòu)如圖4所示。
圖4 多尺度融合金字塔結(jié)構(gòu)圖
具體地,MFFP模塊共包括3大改進(jìn):1)在特征提取主干網(wǎng)絡(luò)的第2個殘差階段后增加一層104×104像素的小感受野特征圖,提高對小尺度物體的檢測能力;2)將特征層拼接操作改為元素加和操作,保留了特征提取主干網(wǎng)絡(luò)中坐標(biāo)注意力編碼的注意力特征激活映射,同時元素加和操作降低了模型計算量;3)將特征增強(qiáng)融合輸出的全局上下文特征信息與包含多個不同局部感受野信息的特征金字塔層進(jìn)行特征并建立直接殘差連接,利用全局和局部信息相結(jié)合的方式緩解視覺遮擋問題。
2.1.1 實驗數(shù)據(jù)介紹
X光違禁物品數(shù)據(jù)集SIXray共包括1059 231幅X光圖像,其中包含違禁物品類別的圖像8 929幅,共分為5類。分別為包含槍的圖像3 131幅、刀1 943幅、扳手2 199幅、鉗子3 961 幅和剪刀983幅,5類違禁物品展示如圖5所示。
圖5 違禁物品類別樣例展示
在SIXRay數(shù)據(jù)集中,根據(jù)遮擋物的不同,存在的視覺遮擋現(xiàn)象可以分為背景遮擋和前景遮擋兩種,如圖6所示。背景遮擋(圖6(b))是待檢測物體被無關(guān)背景噪聲覆蓋,而前景遮擋(圖6(c))意味著被遮擋物體和遮擋物體都是待檢測目標(biāo)。
圖6 違禁物品遮擋情況示例
SIXray數(shù)據(jù)集樣本中包含大量不含違禁物品的未標(biāo)注樣本,只有小部分為帶有正確標(biāo)注的可用樣本。因此本文對SIXray數(shù)據(jù)集進(jìn)行重新整理,將帶有標(biāo)注信息的8 908幅樣本子集作為本次實驗數(shù)據(jù)集。8 908幅數(shù)據(jù)樣本中,7 408幅圖像作為訓(xùn)練集用于模型訓(xùn)練,1 500幅圖像作為測試集用于模型評估,最后將劃分好的數(shù)據(jù)集轉(zhuǎn)換為PASCAL VOC(pattern analysis, statistical modeling and computational learning visual object classes)統(tǒng)一標(biāo)注格式用于訓(xùn)練和測試。將整理后的數(shù)據(jù)集命名為SIXray-Lite,訓(xùn)練集和測試集中包含不同違禁物品數(shù)量如表1所示。
表1 SIXray-Lite數(shù)據(jù)集違禁物品數(shù)量統(tǒng)計
2.1.2 先驗框設(shè)計
在基于先驗框(anchor)的目標(biāo)檢測框架中,由于先驗框的存在,使得回歸問題被替換為選擇問題,只需從有限的預(yù)測框中挑選出包含物體的框并進(jìn)行分類,而不是從無限的范圍內(nèi)直接回歸出框的坐標(biāo)。預(yù)測框由先驗框生成,因此先驗框的選擇對網(wǎng)絡(luò)模型的性能起著重要作用。先驗框由待檢測物體本身的形狀和尺寸決定,不同的數(shù)據(jù)集會對應(yīng)不同的先驗框。對于SIXray違禁物品數(shù)據(jù)集,使用K-means維度聚類的方法對包含的違禁物品進(jìn)行聚類分析,使得先驗框尺寸和違禁物品尺寸更匹配,設(shè)計更適合SIXray-Lite數(shù)據(jù)集的先驗框參數(shù)。具體地,將416×416像素的X光圖像作為輸入圖像,對數(shù)據(jù)集中所有的正樣本標(biāo)記框進(jìn)行維度聚類,并計算不同聚類數(shù)目下的平均交并比,如圖7所示。
圖7 錨框的不同聚類數(shù)目和平均交并比
聚類過程中使用處理后的交并比(intersection-over-union, IoU)作為歐氏距離,這是因為在聚類過程中,認(rèn)為正樣本框和聚類中心重合度越高代表距離越短,而與正樣本框本身的大小沒有關(guān)系,IoU距離計算為
dis(box,center)=1-fIoU(box,center)
(7)
式中,box表示正樣本框,center表示聚類中心。fIoU(box,center)為聚類中心框和正樣本框的交并比,表示預(yù)測框的準(zhǔn)確程度,計算為
(8)
式中,下標(biāo)pre表示預(yù)測結(jié)果,gt表示真實樣本,S為框的面積,∩計算兩個框之間的交集面積,∪計算兩個框之間的并集面積。
最終,綜合考慮模型的檢測效率和準(zhǔn)確率,選擇12個anchor作為先驗框,平均分配到特征金字塔的4個輸出特征圖上。具體的分配如表2所示。
表2 先驗框的分配結(jié)果
2.2.1 實驗參數(shù)
實驗中所用到的開發(fā)環(huán)境為:1)Ubuntu 16.04操作系統(tǒng);2)CPU為Inter core i7-6700K;3)GPU為NVIDIA GeForce GTX 1080Ti 16 GB;4)模型和對比實驗均在開源框架Pytorch下完成。模型訓(xùn)練過程中采用了多尺度訓(xùn)練策略,其余部分實驗參數(shù)如表3所示,其中SGD(stochastic gradient descent)為隨機(jī)梯度下降優(yōu)化器。
表3 部分實驗參數(shù)設(shè)置
2.2.2 評估指標(biāo)
為了驗證模型在SIXray-Lite數(shù)據(jù)集上的檢測性能以及更好地對比實驗,實驗選取的評估方式如下:
1)精度(precision,P)和召回率(recall,R)。精確度(P)是真實正樣本(true positive, TP)的數(shù)量除以真實正樣本和錯誤正樣本(false positive, FP)數(shù)量的和。召回率(R)是真實正樣本(TP)的數(shù)量除以真實正樣本(TP)和錯誤負(fù)樣本(false negative, FN)數(shù)量的和。具體計算為
(9)
2)平均精度(average precision, AP)和平均精度均值(mean average precision, mAP):通過式(9)可以得到一組精度(precision)和召回率(recall),通過改變置信度閾值,可以得到多組精確度和召回率,將這些值按照橫軸為召回率,縱軸為精度進(jìn)行繪制,得到精度—召回率曲線(precision-recall curve,P-R Curve)。P-R曲線展示精度和召回率之間的權(quán)衡,曲線下面積代表該類別的平均精度AP,平均精度均值mAP是所有類別AP的均值,計算為
(10)
式中,n為置信度閾值取值個數(shù),N為違禁物品類別個數(shù),R為召回率,P為精度。
3)每秒幀數(shù)(frames per second, FPS)。安檢領(lǐng)域的違禁物品檢測需要滿足實時性要求,因此需要在很短的時間內(nèi)確認(rèn)乘客是否攜帶了違禁物品,檢測速度評估尤為重要。FPS用于描述檢測模型每秒能夠檢測的圖像數(shù)量,F(xiàn)PS值越大,模型檢測速度越快。本文的FPS測試指標(biāo)均在Ubuntu16.04,NVIDIA GPU 1080Ti下完成。
4)計算量(floating point operations, FLOPs)。即浮點(diǎn)運(yùn)算數(shù),表示前向傳播時所需的計算能力,用來衡量不同模型之間的復(fù)雜度。
為了驗證特征增強(qiáng)融合網(wǎng)絡(luò)FEFNet在X光違禁物品檢測上的性能,進(jìn)行多組對比實驗并對不同的實驗結(jié)果進(jìn)行分析。對比實驗包含兩部分,第1部分為消融實驗,對所提兩種模塊進(jìn)行驗證并分析實驗結(jié)果。第2部分為對不同檢測模型之間的性能指標(biāo)進(jìn)行對比,對比模型包括SSD(Liu等,2016),F(xiàn)aster R-CNN,RetinaNet(Lin等,2017),YOLOv5和ACMNet(張友康 等,2020)。
2.3.1 消融實驗
為了定量分析特征增強(qiáng)融合模塊和多尺度融合特征金字塔模塊在X光違禁物品上的檢測性能,設(shè)計了模型消融實驗。在YOLOv3模型的基礎(chǔ)上分別添加改進(jìn)模塊并與改進(jìn)前進(jìn)行實驗對比。實驗內(nèi)容以及檢測結(jié)果如表4所示,不同的檢測模型在不同違禁物品類別上的檢測精度如圖8所示。
助力城市經(jīng)濟(jì)發(fā)展,將文化資源有效轉(zhuǎn)變?yōu)槲幕Y產(chǎn)。傳統(tǒng)的城市經(jīng)濟(jì)發(fā)展模式和產(chǎn)業(yè)結(jié)構(gòu)往往有高投入、高耗能、高排放、低效益的特點(diǎn),亟待轉(zhuǎn)變原有經(jīng)濟(jì)發(fā)展模式,調(diào)整產(chǎn)業(yè)結(jié)構(gòu),走資源節(jié)約型、環(huán)境優(yōu)化型道路。在這樣的背景下,文化作為重要的經(jīng)濟(jì)活動體現(xiàn),其本身具有獨(dú)特的優(yōu)勢。在市場經(jīng)濟(jì)條件下,文化不單是一種意識形態(tài),也是一種資產(chǎn)。文化營銷具有極強(qiáng)的傳導(dǎo)性、擴(kuò)散性,不但能幫助產(chǎn)業(yè)結(jié)構(gòu)調(diào)整,還有助于提升城市影響力,并大大改善城市投資環(huán)境,為城市經(jīng)濟(jì)可持續(xù)發(fā)展提供強(qiáng)勁的支撐和有力保障。文化營銷,已經(jīng)成為促進(jìn)城市發(fā)展的有效動力。
表4 消融實驗結(jié)果對比
圖8 不同模型在不同類別上的檢測平均精度對比
關(guān)于消融實驗的具體結(jié)果分析如下:
1)模型1(YOLOv3+FEFM)的檢測平均精度均值mAP相較于改進(jìn)前提高了6.78%,在刀和剪刀的平均精度AP提升最多,分別為10.34%和11.68%。在SIXray-Lite違禁物品數(shù)據(jù)集中,刀和剪刀類別存在大量視覺遮擋現(xiàn)象,特征增強(qiáng)融合中的自監(jiān)督二階融合策略通過特征空間像素相關(guān)性矩陣獲取全局上下文信息,緩解視覺遮擋現(xiàn)象,提高對遮擋區(qū)域目標(biāo)的檢測能力。此外,剪刀類別在5類物品中數(shù)據(jù)樣本占比最小,常規(guī)的特征提取網(wǎng)絡(luò)提取的特征有限,不能從少量樣本中提取出足夠的特征信息。加入坐標(biāo)注意力的特征提取網(wǎng)絡(luò)能夠提高對目標(biāo)顯著性區(qū)域的關(guān)注,降低背景干擾信息,在只有少量訓(xùn)練數(shù)據(jù)情況下也能較好地完成對剪刀類別的特征提取,進(jìn)一步提高了模型的整體檢測精度。
2)模型2(YOLOv3+MFFP)的檢測平均精度均值mAP相比于YOLOv3提高了5.39%,其中刀和剪刀的平均精度AP提升最多,分別為9.02%和7.49%。MFFP模塊帶來的性能提升主要在多尺度檢測和小目標(biāo)檢測。在SIXRay-Lite數(shù)據(jù)集中,5種類別的違禁物品尺度大小不一,且屬于同一類的違禁物品之間也包含不同尺度和形狀的子類,增大了檢測難度。MFFP通過4個感受野大小不同的特征層來預(yù)測不同尺度的違禁目標(biāo),解決了違禁物品之間的多尺度變化問題。此外,針對剪刀類別在5種違禁物品中多為小尺寸,增加的一層小感受野特征層(104×104像素)有效地提高了模型對剪刀類別的檢測能力。
3)FEFNet模型融合了上述2種改進(jìn)算法,檢測效果相較于單獨(dú)的每一項改進(jìn)都有提升,實驗結(jié)果表明FEFNet模型的檢測平均精度均值mAP為85.64%,較原始的YOLOv3提高了11.24%,在5類違禁物品上都有不同程度的提升。FEFNet在特征增強(qiáng)融合模塊和多尺度融合特征金字塔模塊帶來性能提升的同時,將特征增強(qiáng)融合模塊中的全局上下文信息與多尺度融合特征金字塔模塊中不同感受野大小的預(yù)測層進(jìn)行殘差融合。通過將全局上下文信息和局部特征細(xì)節(jié)信息相結(jié)合的方式,以全局信息為指導(dǎo),結(jié)合局部細(xì)節(jié)特征緩解視覺遮擋現(xiàn)象,在提升多尺度檢測能力的同時也解決了多尺度場景下的不同違禁物品視覺遮擋問題。
2.3.2 不同檢測模型對比實驗
為了進(jìn)一步驗證所提檢測模型FEFNet的有效性,設(shè)計了不同檢測模型之間的對比實驗。同時為了更好地對比模型本身差異帶來的性能影響,在訓(xùn)練階段選用相同的超參數(shù)設(shè)置,包括模型配置參數(shù)和數(shù)據(jù)增強(qiáng)策略,保持輸入圖像尺寸為模型本身建議輸入尺寸。本文列出了不同模型在SIXray-Lite數(shù)據(jù)集上的性能指標(biāo),包括每類的平均精度(AP),所有類別的平均精度均值(mAP),預(yù)測每幅圖像所用的推理時間(ms),每秒幀數(shù)(FPS)和模型的計算量(FLOPs),如表5所示。繪制了不同對比模型在不同類別下的P-R曲線,曲線與X軸(precision)和Y軸(recall)所圍成的面積記為平均精度,面積越大代表模型性能越好,具體指標(biāo)結(jié)果如圖9所示。最后,可視化不同對比模型在SIXray-Lite數(shù)據(jù)集上的檢測結(jié)果,如圖10所示。
圖9 不同類別違禁物品的P-R曲線
表5 不同模型實驗結(jié)果對比
關(guān)于不同模型對比的結(jié)果分析具體如下:
1)SSD是單階段的目標(biāo)檢測模型,其優(yōu)勢在于模型參數(shù)少、計算量小、檢測速度快,如表5所示。SSD的平均每幅圖像的檢測時間為19.33 ms,F(xiàn)PS高達(dá)51.73 幀/s,是對比模型中檢測速度最快的,但是SSD的檢測精度是較低的,平均精度均值mAP只有71.67%。SSD使用VGG(Visual Geometry Group)作為特征提取主干網(wǎng)絡(luò),相比于ResNet和darknet53,VGG網(wǎng)絡(luò)深度不夠,缺少殘差連接,特征提取能力弱。SSD模型雖然采用多尺度特征預(yù)測,但是沒有FPN層上采樣融合操作,對多尺度信息融合不足。對于存在視覺遮擋區(qū)域,如圖10中圖像2—4,缺乏全局上下文信息,漏檢現(xiàn)象嚴(yán)重,導(dǎo)致整體檢測精度較低。
2)YOLOv3的平均精度均值mAP為74.40%,平均每幅圖像檢測時間為22.00 ms,F(xiàn)PS為45.45 幀/s。相比于SSD,YOLOv3使用了特征提取能力更強(qiáng)的主干網(wǎng)絡(luò)darknet53,因此參數(shù)更多、計算量更大。在特征金字塔層,由于缺少小感受野信息的預(yù)測特征層,使得模型無法獲取小尺度目標(biāo)的完整信息,造成大量漏檢現(xiàn)象,如圖10中圖像2左下角的小手槍和圖10中圖像5左下角的小剪刀。對于存在視覺遮擋現(xiàn)象的違禁物品,如圖10中圖像2—4,YOLOv3缺少全局上下文特征信息指導(dǎo),僅使用局部特征信息對遮擋目標(biāo)進(jìn)行直接檢測,導(dǎo)致出現(xiàn)大量漏檢,整體檢測精度偏低。
3)RetinaNet的平均精度均值mAP為78.24%,平均每幅圖像檢測時間為30.67 ms,F(xiàn)PS為32.61幀/s,相比于YOLOv3,mAP 提高了3.84%。RetinaNet采用一步預(yù)測法,在預(yù)測時采用密集框預(yù)測,為了提高模型的召回率,盡可能保留更多的預(yù)測結(jié)果,最后使用NMS(non-maximum suppression)抑制不合適的框,保留正確的預(yù)測框。這種策略使得RetinaNet具有更高的召回率,間接地提高對重疊目標(biāo)的檢出率,如圖10中圖像2和3。但是RetinaNet模型對局部細(xì)節(jié)特征提取能力較弱,缺少全局上下文信息指導(dǎo),對視覺遮擋目標(biāo)容易出現(xiàn)漏檢,如圖10中中圖像5和6。即使被密集預(yù)測機(jī)制正確檢出遮擋目標(biāo),其類別預(yù)測精度通常也不高,圖10中圖像3中刀的類別預(yù)測精度僅為0.45?;诿芗蝾A(yù)測的結(jié)果在NMS抑制效果不足的情況下會出現(xiàn)大量冗余預(yù)測框,如圖10中圖像1所示,降低了模型整體的檢測精度。
圖10 SIXRay-Lite數(shù)據(jù)集上不同模型測試結(jié)果
4)Faster R-CNN是經(jīng)典的兩階段目標(biāo)檢測模型,模型中間的RPN(region proposal network)層可以很好地去除負(fù)樣本,有效解決了正負(fù)樣本分配不均衡的問題。由于Faster R-CNN的結(jié)構(gòu)復(fù)雜、計算量大,在提高檢測精度的同時,檢測速度也會隨之降低。Faster R-CNN的平均精度均值mAP為80.16%,平均每幅圖像檢測時間為38.67 ms,F(xiàn)PS為25.86幀/s。Faster R-CNN 首先通過RPN篩選了一部分負(fù)樣本,避免了這些無效負(fù)樣本對后續(xù)網(wǎng)絡(luò)的影響。因此,F(xiàn)aster R-CNN相較于RetinaNet在保證正確預(yù)測的同時減少了包含同一物體的重復(fù)框個數(shù),如圖10中圖像1和5。Faster R-CNN網(wǎng)絡(luò)中同樣缺少對特征的全局上下文信息獲取能力,同時RPN階段的負(fù)樣本過濾機(jī)制使得在存在視覺遮擋目標(biāo)上檢測效果甚至不如RetinaNet,如圖10中圖像2和3。但是兩階段的檢測策略使得Faster R-CNN在無遮擋區(qū)域或者少遮擋區(qū)域,如圖10中圖像1和5,具有較好的檢測效果,因此整體檢測性能高于RetinaNet。
5)YOLOv5的平均精度均值mAP為82.03%,平均每幅圖像檢測時間為29.26 ms,F(xiàn)PS為34.18幀/s。YOLOv5將特征提取網(wǎng)絡(luò)darknet53替換為CSPDarknet53(cross stage partial darknet53),利用CSP殘差結(jié)構(gòu)增強(qiáng)特征提取能力,同時在FPN加入路徑增強(qiáng)(path aggregation feature pyramid networks, PAFPN)融合,對多尺度特征進(jìn)行增強(qiáng)融合。路徑增強(qiáng)融合操作將CSPDarknet53輸出的高維語義信息與局部多尺度特征信息充分融合,提供了解決視覺遮擋問題的可能性,如圖10中圖像2和4。但是在圖10中圖像4中,由于融合的高維語義信息有限,缺少足夠的全局上下文信息,對其中一支手槍的預(yù)測概率值只有0.38,且預(yù)測框匹配程度也不如FEFNet。此外,對于一些復(fù)雜視覺遮擋中,如圖10中圖像3和6,YOLOv5模型出現(xiàn)大量漏檢,影響了模型整體檢測精度。
6)本文提出的檢測模型FEFNet的平均精度均值mAP為85.64%,較改進(jìn)前的YOLOv3提高了11.24%。平均每幅圖像檢測時間為32.00 ms,F(xiàn)PS為31.25幀/s,在刀、鉗子和剪刀類別上均達(dá)到了最優(yōu)的檢測結(jié)果。FEFNet通過坐標(biāo)注意力提高特征提取主干網(wǎng)絡(luò)的特征提取能力,抑制背景噪聲干擾。自監(jiān)督二階融合策略獲取密集的特征空間像素相關(guān)性矩陣,進(jìn)而獲取完整的全局上下文信息。同時利用多尺度融合金字塔結(jié)構(gòu),將全局上下文信息與金字塔預(yù)測層的局部特征信息相結(jié)合,提高了模型對視覺遮擋目標(biāo)的檢測能力,緩解了視覺遮擋現(xiàn)象。在圖10中圖像1—4中,均存在不同程度的視覺遮擋現(xiàn)象,F(xiàn)EFNet都能較好地將違禁物品檢測出來。不同于RetinaNet和YOLOv5,F(xiàn)EFNet模型檢測出的違禁物品類別預(yù)測概率值都很高。如圖10中圖像3對兩把刀的類別預(yù)測率分別為0.94和1.00,優(yōu)于RetinaNet的0.45和0.95;圖10中圖像4中對兩把手槍的類別預(yù)測率分別為0.80和1.00,優(yōu)于YOLOv5的0.38和0.99。多尺度融合特征金字塔通過一層小感受野預(yù)測層(104×104像素)提高對小尺度目標(biāo)的檢測能力。在無遮擋環(huán)境下,如圖10中圖像2和5,原始YOLOv3對圖10中圖像2中左下角的小手槍和圖10中圖像5中左下角的小剪刀均出現(xiàn)了漏檢,而FEFNet則更準(zhǔn)確地完成了對小尺度目標(biāo)的檢測。對多目標(biāo)遮擋嚴(yán)重的情況,如圖10中圖像6,F(xiàn)EFNet還有很大的提升空間。FEFNet雖然可以在全局上下文特征信息的指導(dǎo)下成功將5支手槍檢出,但是對于密集遮擋區(qū)域的局部特征信息提取還不充分,導(dǎo)致最后的回歸框存在預(yù)測偏差,不能較好地覆蓋檢測目標(biāo)。
在模型對比實驗中,ACMNet和FEFNet在X光違禁物品檢測上取得了較好的檢測結(jié)果,證明了通過全局上下文特征信息和局部細(xì)節(jié)特征信息相結(jié)合的方式有助于解決違禁物品之間的視覺遮擋問題。與ACMNet相比,F(xiàn)EFNet在單個剪刀類別上提高了3.70%。這是由于剪刀類別多為小尺度目標(biāo),額外增加的一層小感受野特征圖有效地提高了對小尺度目標(biāo)的檢測能力。實驗結(jié)果驗證了多尺度特征加小感受野檢測方法在對小尺度目標(biāo)的檢測上優(yōu)于非對稱卷積多視野神經(jīng)網(wǎng)絡(luò)。在多為復(fù)雜背景的扳手類別,F(xiàn)EFNet的檢測效果較ACMNet下降了1.95%,說明了在復(fù)雜背景檢測下,坐標(biāo)注意力抑制背景噪聲的能力仍有不足,使用多尺度特征圖融合策略在復(fù)雜背景噪聲干擾問題上要略優(yōu)于坐標(biāo)注意力方法??傊?,與ACMNet相比,F(xiàn)EFNet模型在平均精度均值mAP上提高了1.34%,在刀、鉗子和剪刀類別上均取得了較優(yōu)的檢測效果。實驗結(jié)果表明通過使用二階融合策略可以獲取更完整的全局上下文信息,相較于空洞卷積的稀疏性,自監(jiān)督二階融合模塊獲得的全局上下文信息更密集,能夠提供更豐富的全局監(jiān)督信息,解決了違禁物品之間的視覺遮擋問題,提升了模型整體檢測精度。
針對安檢領(lǐng)域的X光違禁物品檢測,本文提出一種融合多尺度特征與全局上下文信息的特征增強(qiáng)融合網(wǎng)絡(luò),實現(xiàn)對尺度特征變化大、存在視覺重疊遮擋的違禁物品目標(biāo)進(jìn)行準(zhǔn)確檢測,提高多類違禁物品的檢測精度。特征增強(qiáng)融合模塊通過坐標(biāo)注意力增強(qiáng)特征提取主干網(wǎng)絡(luò)的特征提取能力,抑制背景噪聲干擾。將提取的特征通過自監(jiān)督二階融合獲取全局上下文特征信息,解決背景遮擋問題。多尺度檢測和跨尺度融合有助于提高對多尺度違禁目標(biāo)的檢測能力,通過將全局信息和不同感受野的局部特征相結(jié)合的方式,緩解前景目標(biāo)之間相互遮擋帶來的漏檢問題。實驗結(jié)果表明,本文提出的特征增強(qiáng)融合模型對SIXray-Lite數(shù)據(jù)集的檢測精度mAP為85.64%,檢測速度為31.25 幀/s。相較于其他檢測模型,可以在不影響檢測效率的前提下達(dá)到較高的檢測精度,提升了對不同尺度目標(biāo)物體的檢測能力,解決了違禁物品之間的視覺遮擋問題。
雖然特征增強(qiáng)融合網(wǎng)絡(luò)緩解了視覺遮擋現(xiàn)象,但是對于一些少量的密集復(fù)雜背景遮擋區(qū)域,由于遮擋區(qū)域面積較高,導(dǎo)致局部特征嚴(yán)重重疊,特征提取網(wǎng)絡(luò)很難從中捕獲差異信息,造成漏檢誤檢現(xiàn)象。因此如何提高對密集遮擋區(qū)域目標(biāo)的召回率是下一步研究的問題。此外,SIXray數(shù)據(jù)集中同時也包含了大量未標(biāo)記樣本,如何進(jìn)一步結(jié)合半監(jiān)督學(xué)習(xí),利用已標(biāo)記樣本和未標(biāo)記樣本同時學(xué)習(xí)的方式提高模型的泛化能力也是下一步的研究工作。