楊嘉誠, 黃佳慧, 韓永麟, 王 萍, 李曉輝
(長安大學 電子與控制工程學院, 西安 710021)
隨著社會的發(fā)展, 人們的出行方式變得越來越多樣化. 與此同時, 違禁品種類也變的越來越復雜. 因此,安檢則是當今社會必不可少的一項工作. 安檢應用于飛機、火車、地鐵等場所, 在人們的生活中起著重要的作用[1].
X光安檢儀是安檢過程中最常用的設備, 該設備檢測圖像具有以下特點: (1)多尺度性: 安檢違禁品種類很多, 形狀各不相同, 且同一類別的違禁品在外觀上也可能存在很大差異. (2)雜亂性: 安檢圖像的一塊區(qū)域中會有很多物品混合在一起, 會產生嚴重干擾.
目前, X光安檢儀與人工檢查相配合是大部分場所的安檢手段. 這種模式下安檢質量很大程度上決定于安檢員的工作狀態(tài). 人工檢查受環(huán)境因素影響大, 導致效率較低, 很可能會出現漏檢、誤檢等問題[2,3].
要想解決上述問題, 需要有一個自動的檢測模式.目前, 深度學習是一種較好的選擇. 本文主要針對X光安檢圖像, 將深度學習模型YOLOv4 (You Only Look Once)與ResNet殘差網絡相融合, 提出了一種新型網絡架構Res152-YOLO以優(yōu)化對安檢過程中違禁品的檢測效果.
實驗結果表明, Res152-YOLO網絡的性能相較于YOLOv4原網絡有了較顯著的提升, 更適用于違禁品檢測.
本文主要貢獻有:
(1)針對ResNet網絡進行優(yōu)化和激活函數的更新;通過適當降低幀率、增加網絡層數以獲得更佳效果;采用了創(chuàng)新式結構融合算法.
(2)針對X光圖像進行數據增強處理, 突出物品特征; 制作后端接口軟件, 使檢測操作一體化.
(3)進行了多種相關變體網絡的對比實驗.
深度學習提出了一種讓計算機自動學習出模式特征的方法, 并將特征學習融入到了建立模型的過程中,從而減少了人為設計特征造成的不完備性, 深度學習的網絡層數較深, 有利于多尺度違禁物品的識別.
基于深度學習的目標檢測算法主要分為基于區(qū)域建議的方法和無區(qū)域建議的方法兩類.
(1)基于區(qū)域建議的方法: 2014年, Girshick等人提出的RCNN模型[4], 比傳統(tǒng)的方法有了明顯的改進;同年, He等人針對RCNN要求輸入圖像塊尺寸固定以及速度慢等問題提出了空間金字塔池化模型SPP[5];2015年, Girshick、Ren等人先后提出了Fast RCNN[6]、Faster RCNN[7], 該類方法檢測精度高, 但是檢測速度較慢.
(2)無區(qū)域建議的方法: 2015年He等人針對梯度彌散的問題, 提出了深度殘差網絡ResNet[8];2019年發(fā)布的YOLOv4[9]相較于以往的版本, 進一步在檢測性能上有了提升. 之后, 在YOLOv4的基礎上產生了一些改進的算法, 例如: 2020年11月蔣镕圻等人結合scSE注意力機制和SPP, 設計了一種scSEIYOLOv4算法[10], 其能夠顯著提升小目標的檢測精度.
YOLOv4的網絡結構分為: (1) Input輸入端: 使用Mosaic及 CutMix 數據增強以增加輸入圖像可變性, 豐富圖像特征信息, 所設計的目標檢測模型可以獲得更高的魯棒性. (2) BackBone主干網絡: 提取輸入圖像的特征, 并通過卷積層進行5次下采樣實現特征圖的降維. 該部分的改進在于融合了多種新方式. (3) Neck部分: 由YOLOv3采用的特征金字塔網改為加入空間金字塔池化層的路徑聚合網絡, 改善了淺層特征丟失的問題. (4) Prediction部分: 實現了對小、中、大型目標的檢測, 并在原圖像上對檢測物進行錨框標注.
目前, 常見的紅外X光圖像數據集有兩類: (1)GDXray[11]: 數據集僅包含簡單背景中的灰度圖像, 包含來自5個不同子集的19 407個X射線樣本, 此數據集內容相對比較簡單. (2) SIXray[12]: 數據集由中國科學院大學模式識別與智能系統(tǒng)開發(fā)實驗室構建, 由1059 231張X射線圖像組成, 其中5類8929個違禁品是標注的, 此數據集內容比較復雜, 較有挑戰(zhàn)性. SIXray數據集部分圖片如圖1所示.
圖1 SIXray數據集部分圖片
X射線安檢系統(tǒng)根據物品的物質類別對安檢圖像進行顏色設定, 把屬于有機物的物體顏色設定為橙色,把無機物設定為藍色, 把混合物設定為綠色. 針對X光數據集圖像普遍的特性: 顏色昏暗、圖像噪聲大, 存在物品遮擋帶來的干擾[13], 本文統(tǒng)一對輸入數據進行增強處理. 該部分具體實現過程如下:
(1)比例校正: 由于檢測網絡只能接受正方形圖像,這會強制大多數X光數據集圖片產生拉伸形變. 因此,本文對圖像周圍進行灰度填充, 使圖像大小標準化.
(2)亮度與色度增強: 物品顏色較深, 包裹顏色較淺. 經亮度與色度增強后, 包裹亮度增強, 趨近于白色,輪廓及細節(jié)得以弱化, 而物品仍保有深色, 便可有效區(qū)分包裹背景和物體.
(3)對比度增強: 為了解決圖像中物品重疊、遮擋所造成的干擾問題, 進行了對比度增強處理, 提高重疊部分物品亮度, 同時降低被遮擋違禁品亮度, 使其在圖像中顯示更加清晰. 如圖2所示.
圖2 數據增強對比圖
在YOLOv4的主干特征提取網絡中, 采用由一系列殘差網絡結構組成的CSPDarknet-53網絡[14]. 該網絡采用了較低層數提取特征同時保證了檢測速度與精度, 能夠應用于實時傳輸的視頻流處理. 然而, 目前大多數紅外安檢設備具有圖像存儲功能, 可以進行任意圖像處理、連續(xù)保存工作. 若將視頻處理轉化為截取圖像處理會大大減少算法網絡對于檢測速度的要求,故可適當的減少檢測幀率, 這也使得架構中可以擴充原網絡的層數. YOLOv4及優(yōu)化后結構如圖3所示.
圖3 YOLOv4及優(yōu)化后結構圖
2.2.1 ResNet-152網絡搭建
本文針對X光安檢場景提出了一種改進后的Res152-YOLO網絡結構. Res152-YOLO網絡結構舍去了原YOLOv4中的CSPDarknet-53淺層網絡, 代替為ResNet-152深層網絡. ResNet-152是具有152層的ResNet殘差網絡, 可以看作是殘差單元(RU)的堆棧.該堆棧包含3個卷積層: 第一個1×1卷積層僅具有64個特征圖, 它充當了瓶頸層; 然后是一個3×3卷積層, 具有64個特征圖; 其次是另一個1×1卷積層, 具有256個特征圖來恢復原始深度. ResNet-152包含3個此類RU, 可輸出256個特征圖, 然后是512個特征圖的8個RU, 具有1024個特征圖的36個RU, 最后是具有2048個特征圖的3個RU.
2.2.2 ResNet-152網絡優(yōu)化
ResNet-152網絡最初應用于圖像分類而非物體檢測任務, 相較于Inception、VGG、Densenet等分類網絡, ResNet-152是其中圖片分類任務中表現最好的神經網絡之一, 并可繼續(xù)延伸至更高層數[15,16]. 因此本文選擇該網絡作為YOLOv4的主干特征提取網絡. 但是,對于X光圖像這類檢測任務, 需要將ResNet-152進行修改使其能夠與YOLOv4的后端結構進行銜接.
因為原ResNet-152網絡的后端緊密連接層用于執(zhí)行分類任務, 故刪除網絡末尾的average pool層、flatten層、Dense層, 只保留輸入端以及骨干卷積層部分, 并根據需要調整卷積層的部分參數設置. 將原ResNet網絡的激活函數ReLU改為Mish函數, 因為Mish在訓練穩(wěn)定性和準確性上均優(yōu)于原激活函數.
2.2.3 ResNet-152網絡與YOLOv4相融合
首先, 將ResNet卷積網絡與YOLOv4后端網絡連接. 當輸入為416×416的圖像時, 最開始的輸出為256個特征圖的3個RU層不變, 隨后將8個RU的輸出送至PANet高層進行特征提取, 36個RU的輸出送至PANet中層, 將輸出為2048個特征圖的3個RU進行3次卷積后送至SPP結構, 分別利用4個不同尺度的最大池化進行處理, 最大池化的池化核大小分別為13×13、9×9、5×5、1×1. 此結構能極大地增加感受野,分離出顯著的特性. 后將SPP結構的輸出送至PANet底層. 至此3個不同特征圖的輸出已全部連接PANet特征金字塔的結構. PANet利用該特征金字塔從下到上以及從上到下進行特征的反復提取, 送至YoloHead結構.
其次, 利用YoloHead對獲得的特征進行預測并解碼預測結果, 從而得到預測框的具體位置, 再將預測框繪制在原圖上.
Res152-YOLO網絡相較于YOLOv4網絡具有更深的網絡層, 使其在理論上可以獲得更好的效果: 對X光圖像中違禁品的檢測精度更高. 同時, Res152-YOLO網絡也會因為殘差塊的增加而減慢單張圖像的檢測速度. 結合前文所述, 在X光檢測場景中更注重精度性能, 故可以接受檢測速度下降帶來的負面效果, Res152-YOLO仍具有可行性.
除ResNet-152外, ResNet還有其他的的多種變體網絡如: ResNet-18、ResNet-34等[17,18]. 本文嘗試將ResNet一些變體同樣替換掉YOLOv4原主干特征提取網絡,目的是將這些新網絡的性能進行橫向對比.
本文分別構建了不同層數的ResNet網絡與YOLOv4網絡的其他結合, 分別命名為Res50-YOLO 與Res101-YOLO, 它們的前端殘差塊層數分別為50、101, 在各自網絡中每個殘差模塊的RU的個數分別為3, 4, 6,3與3, 4, 23, 3. 這兩種網絡的大體結構與Res152-YOLO相近, 區(qū)別僅在于RU個數的不同導致網絡深度小于后者. 在YOLOv4原網絡、Res50-YOLO、Res101-YOLO、Res152-YOLO四個網絡中均加入了Mosaic數據增強、Label Smoothing平滑以及余弦退火衰減算法用于優(yōu)化學習率的調節(jié). 總網絡結構見圖4所示.
圖4 網絡總結構圖
該部分利用軟件形式搭建后端, 使檢測結果可視化以實現以下目的: (1)便于操作者使用和檢測: 用戶可添加自定義X光圖像進行檢測, 同時還可以在文件路徑欄和當前狀態(tài)欄獲取文件路徑信息和軟件運行狀態(tài). (2)輸入輸出圖像實時對比: 能夠同時查看檢測前圖像、數據增強后的輸出圖像及二者對比效果, 使檢測結果更加直觀. 界面如圖5所示.
圖5 后端接口界面
本節(jié)將針對YOLOv4原網絡、Res50-YOLO、Res101-YOLO、Res152-YOLO進行對比實驗, 分別比較四者的損失曲線、檢測各違禁品類別的性能以及網絡的總體檢測性能. 最后, 本文將測試Res152-YOLO與YOLOv4網絡的運行幀率, 測試其是否能滿足安檢設備運行條件.
實驗環(huán)境: 本實驗運行平臺為Linux; 顯卡型號GeForce GTX 2080Ti (顯存11 GB); 電腦內存為31 GB.
3.1.1 數據集選擇
(1)數據集名稱: SIXray.
(2)違禁品類別: 小刀、手槍、扳手、鉗子、剪刀共5類.
(3)數據集特點: 圖像較為復雜, 包含物體重疊、噪聲等圖像干擾.
3.1.2 超參數設置
(1) Batch批量大小: 8.
(2) Epoch訓練輪數: 100.
(3) Learning rate初始學習率: 0.0001.
訓練并記錄YOLOv4原網絡、Res50-YOLO、Res101-YOLO、Res152-YOLO四個網絡在訓練輪次中的訓練損失函數曲線以及驗證損失函數曲線. 損失函數loss采用原YOLOv4中的CIoU loss函數. 曲線如圖6所示.
圖6 各網絡loss函數損失
首先, 從圖6中曲線中可以看出, 所有網絡的損失函數值總體趨于下降趨勢, 且每個網絡的訓練損失與驗證損失曲線基本吻合. 這說明沒有產生梯度爆炸、過擬合等問題, 所有網絡都具有一定的非線性表達能力, 可以擬合復雜的特征輸入.
其次, 在100次迭代過程中, Res101-YOLO、Res152-YOLO模型的損失函數值明顯低于其它兩個模型, 且后者在最終訓練輪次達到了Loss值的最低點.這說明Res152-YOLO的檢測效果在數據集的圖像上最接近于真實目標.
3.3.1 違禁品檢測結果
在訓練結束后, 測試YOLOv4原網絡、Res50-YOLO、Res101-YOLO、Res152-YOLO分別針對5個類別違禁品的性能測試指標: 精度、召回率、AP值.檢測結果分別如表1、表2、表3所示.
表1 安檢違禁品的檢測精度(%)
表2 召回率(%)
表3 AP (%)
根據實驗得到以下結論: (1)精度: Res101-YOLO網絡與Res152-YOLO網絡的檢測精度大致相同, 其中Res152-YOLO網絡的對于5類違禁品的檢測精度都大于90%, 對手槍、鉗子、剪刀這3類違禁品的檢測精度達到了95%以上. (2)召回率: 召回率是所有網絡普遍較弱的性能, YOLOv4原網絡對于扳手的召回率低至27.6%, 這說明各網絡對于各違禁品難以查全.Res152-YOLO的各類違禁品召回率能保持在50.0%以上, 其中對于扳手的召回率55.0%相較于YOLOv4提高了99.2%. (3) AP值: Res152-YOLO網絡的各AP值均大于70%, 其中鉗子、剪刀、扳手分別高出YOLOv4原網絡12.9%, 18.6%, 39.2%, 進一步說明了Res152-YOLO網絡的優(yōu)越性.
3.3.2 網絡總體性能對比
將4個網絡中對所有違禁品的AP值進行平均化后得到mAP, 以反應每個網絡的總體檢測性能.
從對比實驗圖7中可以看出, Res152-YOLO的mAP值最大, 其值為81.52%, 其次是Res101-YOLO值為77.50%. Res50-YOLO與YOLOv4網絡的mAP相差不大, 分別為74.91%和73.03%. 相較于YOLOv4原網絡, Res152-YOLO的mAP提高了11.62%. 這說明在總體的檢測性能上, Res152-YOLO網絡的安檢違禁品檢測能力超越了YOLOv4網絡.
圖7 各網絡mAP值
對網絡Res152-YOLO與YOLOv4分別進行幀率測試, 測試結果如表4.
表4 幀率測試
根據表格得出, Res152-YOLO的檢測速度弱于YOLOv4, 其值為40.09 f/s. 由于一般紅外安檢設備的30至60 f/s, 且違禁品檢測方法并非實時對象追蹤, 故Res152-YOLO網絡檢測速度仍能滿足多數安檢場景.
本文基于X光安檢設備特性的考慮, 在原YOLOv4網絡的基礎上改進其網絡結構, 進行了數據增強并構建了Res152-YOLO等一系列殘差融合網絡. 根據多組對比實驗, 本文得到結論: Res152-YOLO網絡的總體性能較YOLOv4提升了近11%, 且在部分違禁品如扳手、剪刀上效果遠超YOLOv4. 綜上所述, Res152-YOLO網絡在安檢場景下滿足幀數的要求, 可以更精確的識別違禁品并具備更高的工作效率, 有助于公共場所的安全防范.