王國新, 王珂碩
(黑龍江科技大學 電氣與控制工程學院, 哈爾濱 150022)
我國作為一個能源大國,煤礦作為一個高危產(chǎn)業(yè),各煤炭企業(yè)在井下各個關鍵的位置裝有大量的監(jiān)控攝像頭,由于礦井下環(huán)境復雜、光線暗淡、噪聲干擾大。攝像頭大多被安裝在高處,因此,監(jiān)控視頻中的行人可能會存在尺寸偏小、尺度變化以及行人重疊的問題[1]。為使大量的監(jiān)控視頻能夠得到更好地利用,及時發(fā)現(xiàn)井下行人的異常,保障其安全,對井下行人檢測具有較高的價值及實際意義。
近些年,隨著神經(jīng)網(wǎng)絡的快速發(fā)展,井下行人檢測算法也迅速發(fā)展。張應團等[2]提出基于DCNN的井下行人監(jiān)測方法是對YOLO網(wǎng)絡中的第8層進行改進及優(yōu)化,并應用到井下的行人檢測中。蔡麗梅[3]等為解決視頻中目標由于被遮擋或者產(chǎn)生形變而不能判斷其是否為礦工的情況,提出利用安全帽特征對其目標進行檢測的算法。呂建中[4]等針對圖像質(zhì)量問題,提出一種改進的基于模糊集理論的圖像增強方法,通過加入基于顏色與邊緣信息進行目標檢測。王琳等[5]提出的井下行人檢測方法以YOLO系統(tǒng)為基礎,引入結(jié)合了金字塔池化模塊。李偉山等[6]利用深度學習目標檢測的方法,基于金字塔RPN的Faster R-CNN算法實現(xiàn)了井下行人檢測。李現(xiàn)國等[7]提出的井下行人檢測的方法是以DenseNet輕量級卷積神經(jīng)網(wǎng)絡作為SSD神經(jīng)網(wǎng)絡的主干部分實現(xiàn)的。韓江洪等[8]提出通過Faster R-CNN網(wǎng)絡來實現(xiàn)井下行人定位。但各種深度學習檢測模型權(quán)重體積較大,不能很好支撐實時行人檢測。而YOLO系列的簡化版本對硬件要求低、速度快,在小型設備平臺上使用更廣泛[9]。因此,改進YOLOv4-tiny網(wǎng)絡結(jié)構(gòu),引入注意力機制,在更快訓練檢測速度及更小的模型下,提高檢測精度,使其更加適合實時井下行人檢測。
YOLOv4-tiny[10]是Alexey等提出的 YOLOv4 的簡化版模型。相比于 YOLOv4和YOLOv4-tiny的網(wǎng)絡結(jié)構(gòu)更加簡單,不僅降低了對硬件的要求,減小了訓練的計算量,提高了檢測的速度,但是其檢測精度有所下降。YOLOv4-tiny的神經(jīng)網(wǎng)絡結(jié)構(gòu)如圖1所示。YOLOv4-tiny網(wǎng)絡主要由三部分組成,包括主干特征提取網(wǎng)絡、特征金字塔和YLOLHead。其中,以CSPDarknet53-tiny網(wǎng)絡結(jié)構(gòu)作為YOLOv4-tiny的主干網(wǎng)絡,并將激活函數(shù)修改為LeakyReLU。通過主干特征提取網(wǎng)絡,可以獲得兩個不同尺寸的特征層,即13×13和26×26的有效特征層,提取FPN的兩個特征層的加強特征。
圖1 YOLOv4-tiny 網(wǎng)絡結(jié)構(gòu)Fig. 1 YOLOv4-tiny network structure
特征金字塔FPN主要是對經(jīng)過Backbone所獲得的兩個特征層進行特征融合。FPN會將對尺寸為13×13的有效特征層先進行卷積,然后進行上采樣,與尺寸為26×26的有效特征層進行堆疊并卷積,提高特征提取能力,最后分別生成兩個輸出通道。
研究者們將注意力機制引入到神經(jīng)網(wǎng)絡中,僅增加少量計算量,就能大大提高的原網(wǎng)絡模型的性能。ECA注意力機制[11]主要改進了SENet,通過一種不降維的局部跨信道交互策略和自適應選擇一維卷積核大小的方法,實現(xiàn)性能的提升。具體來說,就是在給定輸入特征的情況下,SE模塊[12]如圖2所示。
圖2 SE模塊結(jié)構(gòu)Fig. 2 SE module structure
在對每個通道全局平均池化(GAP)后,通過兩個非線性的全連接層,選擇Sigmoid函數(shù)作為其激活函數(shù)。由圖2可見,SE模塊里的兩個非線性全連接層用來捕捉非線性跨通道交互,通過降維的方式降低了模型的復雜性。深度CNN的高效通道注意(ECA)模塊不需要進行降維就可以有效捕獲跨通道交互信息。ECA模塊的結(jié)構(gòu)如圖3所示。
圖3 ECA模塊結(jié)構(gòu)Fig. 3 ECA module structure
與SE 不同,ECA模塊也用到了全局平均池化,但是不會降低通道維數(shù)。ECA模塊捕獲局部跨通道的交互信息是通過每個通道以及通道的k個鄰居來實現(xiàn)的。值得注意的是,ECA模塊采用的是卷積核大小為k的一維快速卷積。k不僅是卷積核的大小,也代表了局部跨信道交互的覆蓋率。也就是說每個通道附近都有k個鄰居參與了注意力預測。這種注意力機制在保證了模型效率的同時,也保證了計算的效果。為了避免交叉驗證,需要對k的值進行優(yōu)化選擇。k值可以通過總通道數(shù)C的函數(shù)自適應地確定,計算公式為
式中:k——每個通道鄰數(shù);
C——總通道數(shù);
|x|odd——離x最近的奇數(shù)。
在 YOLOv4-tiny 中CSP結(jié)構(gòu)的尾部添加 ECA 注意力機制模塊,通過ECA計算特征圖在通道位置上的權(quán)重信息,根據(jù)計算得到的權(quán)重分配,使網(wǎng)絡能夠更多關注到特征圖中有利于檢測的行人特征信息,還可以抑制無關背景及其他非行人的次要信息,從而有效提升網(wǎng)絡模型的性能,其網(wǎng)絡結(jié)構(gòu)如圖4所示。
圖4 改進YOLOv4-tiny 網(wǎng)絡結(jié)構(gòu)Fig. 4 Improved YOLOv4-tiny network structure
實驗所使用的操作系統(tǒng)為 Windows10 LTSC 2019,處理器為Intel Xeon Gold 6240×2,內(nèi)存大小為 128 G,GPU 為 NVIDIA GeForce RTX2080TI×4,學習框架采用Pytorch1.8.1,編譯環(huán)境為Python 語言,運行環(huán)境為Anaconda3。
834 Research status and application prospect of artificial intelligence technology in lung tumors
在目標檢測任務中,常通過交并比判斷目標檢測的效果。交并比ηIoU是一個用來評價預測精度的重要指標。它通常用來表示標注框與預測框的重合程度,如圖5所示。通過ηIoU的大小判斷預測框是否接近標注框,當ηIoU的值越接近 1 時,說明預測效果越佳。
圖5 預測框與標注框的相互交疊Fig. 5 Overlapping between prediction box and annotation box
交并比的計算公式為
(1)
式中:D——預測值;
G——標注值。
由式(1)可知,當預測值和標注值交叉范圍較小時,即預測值與標注值偏差過大時,ηIoU的數(shù)值會比較小,當預測值與標注值接近時,ηIoU的數(shù)值比較大,當預測完全正確,即預測值就是實際標注值時ηIoU=1。
在實驗中,使用αmAP作為評價指標。αmAP為多類檢測模型中所有類別平均準確率的平均值,αmAP的值越大越接近于1,表示模型識別定位的準確率越高,αmAP的計算公式為
式中:αmAP——所有類別平均準確率的平均值;
C——類別數(shù);
Pek——平均準確度;
Pek的值由P-R曲線下的面積計算而得。P-R曲線是指準確率P和召回率R的代數(shù)關系曲線。準確率P為檢測模型預測正確的部分占所有預測結(jié)果為正樣本的比例。召回率R是檢測模型預測判斷正確的部分占所有正樣本中的比例。準確率和召回率的計算公式為
式中:P——準確率;
R——召回率;
TP——檢測模型檢測正確的樣本數(shù);
FP——檢測模型誤檢的樣本數(shù);
FN——檢測模型漏檢的樣本數(shù)。
為更加符合井下實際環(huán)境,實驗所用的部分數(shù)據(jù)集為井下真實監(jiān)控視頻中截取的圖像,如圖6所示。但由于監(jiān)控視頻資源有限,為保證數(shù)據(jù)集足夠大,滿足神經(jīng)網(wǎng)絡訓練大量數(shù)據(jù)集的要求,在上述數(shù)據(jù)集中補充公共數(shù)據(jù)集VOC2012中含有行人的部分,共有11 755張圖片,其中,井下行人圖像有1 791張。
圖6 礦井下視頻截取圖像Fig. 6 Underground video capture image
為了進行充分對比實驗,分別對加入 ECA的YOLOv4-tiny、YOLOv4-tiny、SSD300和YOLOv3模型進行訓練對比。將實驗中訓練井下行人檢測網(wǎng)絡模型的學習率為0.001,EPOCH為20,根據(jù)顯存大小,將Batch Size設為64。實驗結(jié)果如表1所示。其中,αmAP為所有類別平均準確率的平均值,P為模型參數(shù)量,vtu為訓練速度,vte為測試速度。實驗選取了一些井下圖像進行對比,不同模型的檢測結(jié)果,如圖 7所示。
由表 1 可知,與模型參數(shù)量相差不大的 YOLOv4-tiny 網(wǎng)絡模型相比,文中所提的YOLOv4-tiny+ECA 模型在整個數(shù)據(jù)集中的αmAP提高了2.69%。其主要原因是加入ECA注意力機制,能夠更好關注特征圖中通道位置上的關鍵信息,更好提取圖像特征,加強對提取出來的特征的利用率,提高井下行人檢測的準確率。盡管YOLOv3的準確率高于文中所提出的模型,但其訓練速度及測試速度慢于文中所提的模型。且YOLOv4-tiny及文中所提的YOLOv4-tiny+ECA模型的參數(shù)量遠小于SSD模型和YOLOv3模型的參數(shù)量,對硬件條件相對就更低,能夠更好將模型移植到硬件當中,各網(wǎng)絡模型訓練時準確率的迭代曲線如圖8所示。
圖7 不同模型預測結(jié)果Fig. 7 Prediction results of different models
表1 各模型訓練結(jié)果對比
圖8 各網(wǎng)絡模型訓練時準確率的迭代曲線Fig. 8 Iterative curve of accuracy during training of each network model
由圖7和8可以看出,SSD網(wǎng)絡出現(xiàn)了漏檢的錯誤,YOLOv3網(wǎng)絡的準確率最高。對比圖7c、d,YOLOv4-tiny網(wǎng)絡的平均準確率要低于YOLOv4-tiny+ECA網(wǎng)絡的平均準確率,YOLOv4-tiny+ECA網(wǎng)絡的魯棒性強于YOLOv4-tiny網(wǎng)絡。
(1)將注意力機制融入到 YOLOv4-tiny 網(wǎng)絡模型中,網(wǎng)絡能夠更多關注到特征圖中有利于檢測的行人特征信息,還可以抑制無關背景及其他非行人的次要信息,有效提升了網(wǎng)絡模型的性能。
(2)實驗結(jié)果表明,在公共數(shù)據(jù)集與自制的數(shù)據(jù)集中,網(wǎng)絡的參數(shù)量和檢測速度與原網(wǎng)絡相當,但檢測準確度有了明顯提高,相比于其他網(wǎng)絡,準確度不及YOLOv3,但文中網(wǎng)絡遠快于YOLOv3,且模型參數(shù)量遠小于其他網(wǎng)絡,更適用于小型設備的實時井下行人檢測任務。