汪睿卿,王慧琴,王可
融合細(xì)節(jié)特征與混合注意力機(jī)制的火災(zāi)煙霧檢測(cè)
汪睿卿,王慧琴*,王可
(西安建筑科技大學(xué) 信息與控制工程學(xué)院,陜西 西安 710311)
針對(duì)卷積神經(jīng)網(wǎng)絡(luò)高層特征圖中細(xì)節(jié)特征被削弱造成煙霧圖像底層特征丟失的問題,提出一種融合細(xì)節(jié)特征與混合注意力機(jī)制的YOLOv4改進(jìn)算法。設(shè)計(jì)了細(xì)節(jié)特征融合模塊,將主干網(wǎng)絡(luò)中的底層細(xì)節(jié)特征引入高層特征圖,得到具有豐富多尺度信息的融合特征。在通道和空間維度上采用混合注意力機(jī)制對(duì)融合特征的圖權(quán)重進(jìn)行重新賦值,在增強(qiáng)煙霧目標(biāo)特征的同時(shí)抑制無關(guān)區(qū)域特征,使煙霧特征表達(dá)具有更好的魯棒性。實(shí)驗(yàn)結(jié)果表明,本文算法的平均精確率、精確率和召回率相比YOLOv4算法分別提高了4.31%,1.21%,9.86%,同時(shí)保持了較快的檢測(cè)速度。本文算法能夠有效提取煙霧目標(biāo)的整體特征,對(duì)于復(fù)雜背景下的火災(zāi)煙霧檢測(cè)任務(wù)更為適用。
煙霧檢測(cè);深度學(xué)習(xí);YOLOv4算法;特征融合;混合注意力機(jī)制
當(dāng)前,主流的火災(zāi)探測(cè)方法仍然依靠傳統(tǒng)的傳感器來監(jiān)測(cè)特定物理量,如煙霧顆粒、環(huán)境溫度、相對(duì)濕度和輻射光強(qiáng)等。由于火災(zāi)燃燒產(chǎn)物的生成和傳播需要一定時(shí)間,因此,此類探測(cè)器可能會(huì)產(chǎn)生響應(yīng)延遲,且難以在大空間建筑和室外環(huán)境正常工作[1]?;馂?zāi)的早期陰燃階段常伴有煙霧生成,實(shí)時(shí)檢測(cè)火災(zāi)煙霧可對(duì)火災(zāi)的產(chǎn)生發(fā)出早期預(yù)警,及時(shí)發(fā)現(xiàn)早期火情,避免了因燃燒產(chǎn)物的傳播造成的檢測(cè)滯后,其檢測(cè)范圍相較傳統(tǒng)傳感器也更廣,適用于大空間建筑和室外環(huán)境的火災(zāi)檢測(cè)。此外,這種檢測(cè)方式可節(jié)約大量人力資源并消除了人的主觀錯(cuò)誤判斷對(duì)火災(zāi)預(yù)警的影響。
基于傳統(tǒng)計(jì)算機(jī)視覺算法的視頻煙霧檢測(cè)主要可分為如下幾個(gè)階段:圖像預(yù)處理、疑似區(qū)域提取、煙霧特征描述和煙霧識(shí)別[1]。Kim[2]等人利用高斯混合模型(Gaussian Mixture Model, GMM)作為背景估計(jì)算法提取煙霧區(qū)域,采用Adaboost算法檢測(cè)候選區(qū)域的煙霧,在室外煙霧檢測(cè)中取得了較好效果。Zhao[3]等人利用卡爾曼濾波分割候選煙霧區(qū)域并采用局部二元模式(Local Binary Motion Pattern, LBMP)定義煙霧的紋理特征,提出了一種基于動(dòng)態(tài)紋理特征的煙霧檢測(cè)算法。Wang[4]等人采用基于模糊邏輯的數(shù)據(jù)增強(qiáng)策略增強(qiáng)了圖像的灰度動(dòng)態(tài)范圍,提取并融合了煙霧圖像的靜態(tài)和動(dòng)態(tài)特征,將這些特征向量歸一化并輸入到支持向量機(jī)(Support Vector Machine, SVM)模型中進(jìn)行識(shí)別。為有效提取煙霧圖像的紋理特征,Ye[5]等人將視頻幀序列視作獨(dú)立的多維數(shù)據(jù),設(shè)計(jì)了一種融合Surfacelet變換和3D-隱馬爾可夫樹模型(Hidden Markov Tree, HTM)的煙霧動(dòng)態(tài)特征描述子,這種特征描述子更接近煙霧圖像動(dòng)態(tài)紋理的本質(zhì)特征。
上述視頻煙霧檢測(cè)方法基于人工設(shè)計(jì)復(fù)雜的煙霧特征,人工設(shè)計(jì)的煙霧特征在很大程度上依賴于設(shè)計(jì)者的先驗(yàn)知識(shí),具有較強(qiáng)的可解釋性但是泛化性很差,僅適用于簡單的火災(zāi)場(chǎng)景[6]。卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network, CNN)作為最重要的深度學(xué)習(xí)模型之一,具有良好的特征提取能力和泛化能力,隨著硬件算力的提升和大規(guī)模數(shù)據(jù)集的出現(xiàn),卷積神經(jīng)網(wǎng)絡(luò)的工程化應(yīng)用得以實(shí)現(xiàn),成為計(jì)算機(jī)視覺領(lǐng)域的主流方法之一[7-8]。Tao[9]等人基于AlexNet[10]設(shè)計(jì)了一個(gè)端到端的火災(zāi)煙霧識(shí)別網(wǎng)絡(luò),在測(cè)試集上實(shí)現(xiàn)了99.4%的檢測(cè)率,優(yōu)于傳統(tǒng)檢測(cè)算法。為緩解訓(xùn)練樣本不平衡造成的過擬合,Yin[11]等人將批量歸一化(Batch Normalization, BN)引入煙霧識(shí)別網(wǎng)絡(luò),有效提高了識(shí)別精度。為了提高特征提取效果,Gu[12]等人提出了一個(gè)由兩個(gè)子網(wǎng)絡(luò)組成煙霧檢測(cè)網(wǎng)絡(luò),并以串行形式融合兩個(gè)子網(wǎng)絡(luò)的輸出。隨著卷積神經(jīng)網(wǎng)絡(luò)的發(fā)展,諸多性能優(yōu)異的目標(biāo)檢測(cè)網(wǎng)絡(luò)也被應(yīng)用到火災(zāi)煙霧檢測(cè)中。He[13]等人將Faster R-CNN[14]中的特征提取網(wǎng)絡(luò)替換為深度殘差網(wǎng)絡(luò)(Residual Network, ResNet)[15]并將特征金字塔網(wǎng)絡(luò)(Feature Pyramid Network, FPN)集成到區(qū)域候選網(wǎng)絡(luò)(Regional Proposal Networks, RPN)中,相比原始算法在煙霧和火焰的識(shí)別精度上均有提高。端到端的單階段檢測(cè)算法結(jié)構(gòu)簡單,具有較強(qiáng)的實(shí)時(shí)性。Cai[16]等人通過將通道注意力模塊和正則化模塊引入 YOLOv3[17]提出了YOLO-SMOKE算法,在提高了精確率的同時(shí)增強(qiáng)了算法的魯棒性。Gagliardi[18]等人將卡爾曼濾波器和改進(jìn)的輕量級(jí)SSD[19]算法相結(jié)合,設(shè)計(jì)了一個(gè)級(jí)聯(lián)的端到端煙霧檢測(cè)算法,在嵌入式設(shè)備上實(shí)現(xiàn)了較快的檢測(cè)速度。吳凡[20]等人通過改進(jìn)三維卷積神經(jīng)網(wǎng)絡(luò),提出了一種時(shí)空域煙霧檢測(cè)算法,引入了時(shí)域變化特征,提高了煙霧檢測(cè)準(zhǔn)確率。
卷積神經(jīng)網(wǎng)絡(luò)可以獲取豐富的圖像特征,其中底層特征圖包含了圖像的紋理、邊緣等細(xì)節(jié)特征,高層特征圖則保留了抽象的語義信息[21]。在火災(zāi)煙霧檢測(cè)任務(wù)中,底層細(xì)節(jié)特征有利于煙霧目標(biāo)準(zhǔn)確定位,高層語義特征則有利于煙霧目標(biāo)正確分類。隨著網(wǎng)絡(luò)層數(shù)的增加,特征圖包含的高層語義信息愈發(fā)抽象,同時(shí)分辨率降低,特征圖中關(guān)于煙霧目標(biāo)的底層細(xì)節(jié)特征將會(huì)被削弱。
本文提出了一種基于YOLOv4(You Only Look Once version4)[22]網(wǎng)絡(luò)的火災(zāi)煙霧檢測(cè)算法,通過融合特征提取網(wǎng)絡(luò)CSPDarknet53各層級(jí)特征圖,得到同時(shí)具有細(xì)粒度特征和語義信息的特征表示,并結(jié)合CBAM混合注意力機(jī)制[23]在融合后特征圖的空間和通道維度上進(jìn)行權(quán)重重新分配。實(shí)驗(yàn)結(jié)果表明,本文算法在保持較快檢測(cè)速度的同時(shí)提高了火災(zāi)煙霧的檢測(cè)精度。
作為YOLO系列算法的后續(xù)版本,YOLOv4算法繼承了前代算法的思想,將目標(biāo)檢測(cè)任務(wù)視作回歸問題構(gòu)建了一個(gè)端到端的網(wǎng)絡(luò)模型,在檢測(cè)速度和檢測(cè)精度上均有優(yōu)異表現(xiàn)。YOLOv4的網(wǎng)絡(luò)結(jié)構(gòu)如圖1所示,其主要由CSPDarknet53(Cross Stage Partial Connections Darknet53)、空間金字塔池化(Spatial Pyramid Pooling, SPP)[24]、路徑聚合網(wǎng)絡(luò)(Path Aggregation Network, PANet)[25]和YOLO檢測(cè)頭(YOLO Head)等部分組成。其中,基于Darknet53[17]特征提取網(wǎng)絡(luò)并引入CSPNet(Cross Stage Partial Network)[26]思想提出了新的骨干網(wǎng)絡(luò)CSPDarknet53。CSPDarknet53共有5個(gè)CSPDarknet模塊,生成的5個(gè)層級(jí)特征圖對(duì)應(yīng)原始輸入的下采樣率分別為2,4,8,16,32,特征圖對(duì)應(yīng)的通道數(shù)分別為64,128,256,512,1 014。YOLOv4算法的頸部(Neck)由SPP和 PANet結(jié)構(gòu)組成,PANet使用了更短的路徑對(duì)特征圖進(jìn)行融合,SPP模塊通過最大池化(Max Pooling)操作增大了感受野,在高層特征圖融合了全局特征和局部特征。
圖1 YOLOv4 網(wǎng)絡(luò)結(jié)構(gòu)圖
更深層的卷積可提高卷積神經(jīng)網(wǎng)絡(luò)的語義表達(dá)和特征提取能力,然而高層特征圖中關(guān)于圖像的細(xì)節(jié)特征將會(huì)被削弱,不利于目標(biāo)的有效定位,而且真實(shí)火災(zāi)煙霧場(chǎng)景中的復(fù)雜背景和遮擋將會(huì)對(duì)煙霧檢測(cè)造成干擾。本文通過提取CSPDarknet53特征提取網(wǎng)絡(luò)生成的5個(gè)層級(jí)的特征圖,將淺層細(xì)節(jié)特征融合至高層特征圖,獲得具有豐富多尺度信息的高質(zhì)量煙霧特征。隨后,使用混合注意力機(jī)制對(duì)融合后特征圖在通道域和空間域進(jìn)行權(quán)重重新分配,使得無效背景信息被進(jìn)一步抑制,提高了煙霧目標(biāo)區(qū)域的特征表達(dá)效果,增強(qiáng)了網(wǎng)絡(luò)特征表達(dá)的魯棒性。
CSPDarknet53特征提取網(wǎng)絡(luò)由Darknet53網(wǎng)絡(luò)改進(jìn)而來,其中包括5個(gè)CSPDarknet結(jié)構(gòu),對(duì)應(yīng)輸出5個(gè)層級(jí)不同尺寸的特征圖。YOLOv4算法中提取3個(gè)高層的特征圖將其輸入至PANet中進(jìn)行融合,最后經(jīng)過YOLO Head結(jié)構(gòu)得到輸出結(jié)果。通用的目標(biāo)檢測(cè)算法旨在處理多類別的目標(biāo)檢測(cè)任務(wù),底層的細(xì)節(jié)特征如紋理、邊緣和輪廓等不足以有效區(qū)分不同類目標(biāo),因此也較少被直接用于表征目標(biāo)特征信息?;馂?zāi)煙霧檢測(cè)是一種單類別目標(biāo)檢測(cè),圖像底層的細(xì)節(jié)特征有利于區(qū)分煙霧目標(biāo)和圖像背景;此外,常見的煙霧場(chǎng)景多樣復(fù)雜,煙霧的擴(kuò)散也會(huì)造成特征的不明顯。為增強(qiáng)煙霧區(qū)域特征,設(shè)計(jì)了一個(gè)細(xì)節(jié)特征融合模塊(Detailed Feature Fusion Module, DFF),通過統(tǒng)一特征圖的尺寸將底層特征圖和高層特征圖在通道維度進(jìn)行拼接,實(shí)現(xiàn)了細(xì)節(jié)特征與語義特征的融合,如圖2所示。
圖2 細(xì)節(jié)特征融合模塊
細(xì)節(jié)特征融合模塊是由兩個(gè)特征金字塔(Feature Pyramid Networks)[27]結(jié)構(gòu)組成的特征金字塔網(wǎng)絡(luò)。兩個(gè)特征金字塔分別為自頂向下(Top-down)支路和自底向上(Bottom-up)支路,同時(shí)接收底層特征圖和高層特征圖,對(duì)尺寸較大的底層特征圖采用最大池化(Max Pooling)操作進(jìn)行下采樣,對(duì)尺寸較小的高層特征圖以雙線性插值法(Bilinear Interpolate)進(jìn)行上采樣,分別生成兩個(gè)尺寸一致的特征圖。常見的特征融合方式主要包括通道拼接、逐元素相乘和逐元素相加3種形式,為避免特征金字塔獲取的細(xì)節(jié)特征被高層特征覆蓋造成細(xì)節(jié)特征丟失,對(duì)生成的特征圖采用通道拼接的方式進(jìn)行融合,得到信息更豐富的強(qiáng)魯棒性多尺度特征。以底層特征圖和高層特征圖分別經(jīng)過兩次下采樣和上采樣為例,細(xì)節(jié)特征融合模塊可表示為式(1):
其中:和分別表示輸入特征金字塔底層和高層特征圖;和分別表示最大池化運(yùn)算和雙線性插值,下標(biāo)和表示下采樣和上采樣中的尺度因子;表示沿通道維度拼接操作,融合過程如圖3所示。
以實(shí)驗(yàn)中設(shè)置的輸入圖片尺寸(416,416,3)為例,CSPDarknet53特征提取網(wǎng)絡(luò)共生成了5個(gè)尺寸分別為(208,208,64),(104,104,128),(52,52,256),(26,26,512),(13,13,1 024)的特征圖,分別為scale1,scale2,scale3,scale4,scale5。scale5是CSPDarknet53網(wǎng)絡(luò)經(jīng)特征映射輸出的最高層特征圖,其通道維長度為1 024,具有豐富的語義信息;但是scale5特征圖的分辨率較低,其長寬均為13,缺乏足夠的細(xì)節(jié)特征。因此本文選擇將scale5特征圖同最底層特征圖scale1相融合,使用最短路徑引入細(xì)節(jié)特征,以獲得更豐富的具有尺度差異的特征表達(dá)并盡可能保留原始特征,同理特征圖scale2和scale4相融合。具體來看,DFF模塊1同時(shí)輸入特征圖scale2和特征圖scale4,首先分別對(duì)這兩個(gè)特征圖進(jìn)行兩次尺度因子為2的下采樣和上采樣,經(jīng)過卷積操作將通道數(shù)調(diào)整為128,最后在通道維度進(jìn)行拼接生成了尺寸為(52,52,256)的融合特征圖;DFF模塊2則對(duì)scale1和scale5特征圖進(jìn)行了融合,得到的融合特征圖尺寸同DFF模塊1。
表1細(xì)節(jié)特征融合模塊參數(shù)設(shè)置
Tab.1 Parameters setting of DFF modules
通過細(xì)節(jié)特征融合可將煙霧圖像底層細(xì)節(jié)特征引入高層特征圖,但是通過通道拼接方式得到的特征圖可能會(huì)帶來冗余信息及無關(guān)背景信息,因此引入注意力機(jī)制對(duì)融合特征圖進(jìn)行權(quán)重重新分配,以提升煙霧特征的表達(dá)效果,增強(qiáng)網(wǎng)絡(luò)特征表達(dá)的魯棒性。注意力機(jī)制通過調(diào)整特征圖的權(quán)重達(dá)到抑制無關(guān)區(qū)域特征和增強(qiáng)目標(biāo)區(qū)域特征的目的,提高了網(wǎng)絡(luò)的特征表達(dá)效果。卷積神經(jīng)網(wǎng)絡(luò)中的注意力機(jī)制可分為通道注意力機(jī)制、空間注意力機(jī)制和混合注意力機(jī)制3種。通道注意力和空間注意力分別在通道域和空間域?qū)μ卣鲌D加以權(quán)重,混合注意力機(jī)制則兼顧這兩點(diǎn)。本文在此處采用的CBAM[20]是一種典型的混合注意力機(jī)制,通過池化操作獲得通道域和空間域權(quán)重,并以串行形式將這兩部分權(quán)重與輸入特征圖進(jìn)行逐元素相乘,如圖4所示。
此外,為了緩解混合注意力機(jī)制中特征映射過程造成的特征丟失,避免出現(xiàn)網(wǎng)絡(luò)退化問題,本文對(duì)輸入混合注意力機(jī)制的特征圖通過殘差連接方式(Shortcut Connections)[15]同混合注意力機(jī)制的輸出特征圖進(jìn)行逐元素相加,如式(5)所示:
生成最終的殘差混合注意力特征圖。
CBAM機(jī)制的細(xì)節(jié)特征融合模塊(Detailed Feature Fusion module with CBAM, DFF-CBAM)由DFF模塊和CBAM模塊串聯(lián)組成,如圖5所示。DFF-CBAM模塊中對(duì)DFF輸出的特征圖分別在通道域和空間域加以權(quán)重,融合了煙霧圖像底層細(xì)節(jié)特征并對(duì)特征圖通道間和空間位置的特征分布進(jìn)行了學(xué)習(xí),在煙霧特征得到進(jìn)一步強(qiáng)化的同時(shí)對(duì)背景干擾信息進(jìn)行了抑制,使得圖像中煙霧區(qū)域特征對(duì)網(wǎng)絡(luò)輸出結(jié)果具有更大的貢獻(xiàn),得到了更具魯棒性的特征表達(dá)。
圖5 引入CBAM的細(xì)節(jié)特征融合
本文算法的網(wǎng)絡(luò)結(jié)構(gòu)如圖6所示,算法的主干網(wǎng)絡(luò)為CSPDarknet53特征提取網(wǎng)絡(luò),頸部由引入CBAM的細(xì)節(jié)特征融合模塊(DFF-CBAM)和PANet組成,頭部由YOLO Head組成。輸入圖像經(jīng)CSPDarknet53得到5個(gè)不同尺寸的特征圖,底層的特征圖scale1和scale2分別通過DFF-CBAM模塊與高層的scale5和scale4融合,得到的融合特征圖引入了底層細(xì)節(jié)特征同時(shí)在空間域和通道域?qū)?quán)重進(jìn)行了重新賦值,對(duì)圖像煙霧區(qū)域特征進(jìn)行增強(qiáng),生成了信息更豐富且更具魯棒性的特征表達(dá)。隨后,融合特征圖和CSPDarknet53輸出的scale3特征圖依次經(jīng)過PANet和YOLO Head結(jié)構(gòu)得到最終的多尺度預(yù)測(cè)結(jié)果。本文算法中提出的DFF-CBAM模塊直接將底層特征圖和高層特征進(jìn)行融合,保留了更多的原始特征,得到了信息更豐富的融合結(jié)果。本文算法移除了SPP模塊,減少了冗余操作并降低了模型參數(shù)量。
圖6 網(wǎng)絡(luò)整體結(jié)構(gòu)
本文實(shí)驗(yàn)的硬件環(huán)境為AMD Ryzen9 5900x處理器,32 GB內(nèi)存,NVIDIA GeForce RTX3090顯卡;軟件環(huán)境為Windows 10操作系統(tǒng),Pytorch 1.8.1深度學(xué)習(xí)框架,CUDA 11.1,Python 3.6。
訓(xùn)練中采用自適應(yīng)動(dòng)量估計(jì)(Adaptive Moment Estimation, Adam)優(yōu)化器,批量大?。˙atch Size)設(shè)置為16,初始學(xué)習(xí)率設(shè)置為0.001,每個(gè)訓(xùn)練周期(Epoch)結(jié)束后學(xué)習(xí)率調(diào)整為上一次的0.92倍。
本文采用精確率(Precision)、召回率(Recall)和平均精確率均值(mAP)對(duì)模型進(jìn)行評(píng)估,因本文檢測(cè)目標(biāo)為單類別目標(biāo),故mAP即為平均精確率(AP),公式如下:
本文算法的檢測(cè)結(jié)果示例如圖7所示,包括了室內(nèi)火災(zāi)煙霧、室內(nèi)燈光干擾下煙霧、室外小目標(biāo)煙霧、室外復(fù)雜背景煙霧、森林火災(zāi)煙霧和夜間火災(zāi)煙霧等常見火災(zāi)煙霧場(chǎng)景。結(jié)果表明,在多個(gè)實(shí)際場(chǎng)景中,本文算法均能以較高置信度準(zhǔn)確檢測(cè)出完整的煙霧目標(biāo)。
圖7 檢測(cè)結(jié)果示例。(a)室內(nèi)煙霧;(b)室內(nèi)燈光干擾煙霧;(c)室外小目標(biāo)煙霧;(d)室外復(fù)雜背景煙霧;(e)森林火災(zāi)煙霧;(f)夜間火災(zāi)煙霧。
實(shí)驗(yàn)中發(fā)現(xiàn),部分室外煙霧目標(biāo)易受類煙物體干擾,訓(xùn)練集的完備性也對(duì)網(wǎng)絡(luò)訓(xùn)練有較大的影響,因此算法在少數(shù)測(cè)試樣本上的檢測(cè)結(jié)果并未達(dá)到預(yù)期。典型的未成功檢測(cè)圖像如圖8所示,圖中煙霧目標(biāo)整體輪廓較模糊,且和昏暗的天空背景相連,難以有效區(qū)分;煙霧區(qū)域內(nèi)多呈半透明的白色,缺少足夠的紋理特征,易受植被和裸露的巖石等干擾。因此,在這種情況下,算法對(duì)于煙霧目標(biāo)的整體把握較差,即使檢測(cè)出的部分煙霧目標(biāo)其置信度也較低,不能判定為成功檢測(cè)。
圖8 未成功檢測(cè)圖像
為充分說明本文算法中設(shè)計(jì)和改進(jìn)的模塊對(duì)火災(zāi)煙霧檢測(cè)效果的影響,設(shè)計(jì)消融實(shí)驗(yàn)以驗(yàn)證各模塊的有效性,實(shí)驗(yàn)結(jié)果如表2所示。
表2消融實(shí)驗(yàn)結(jié)果
Tab.2 Experimental results of ablation study
消融實(shí)驗(yàn)中除YOLOv4算法以外均刪去SPP模塊。加入DFF模塊后,在引入煙霧圖像細(xì)節(jié)特征的同時(shí)也帶來部分背景無關(guān)信息,使得算法精確率相比于YOLOv4算法下降了1.62%,但召回率提升了7.2%。加入CBAM模塊后,算法更聚焦于煙霧目標(biāo)區(qū)域,使得精確率相較于YOLOv4算法提升了1.16%,同時(shí)召回率也得到了提升。值得注意的是,實(shí)驗(yàn)中在刪去SPP模塊并加入CBAM模塊之后,檢測(cè)速度比原始YOLOv4算法更快,這也表明了CBAM機(jī)制在引入較少參數(shù)的情況下有效提升了模型性能。
為全面評(píng)估本文算法的有效性,設(shè)計(jì)實(shí)驗(yàn)與當(dāng)前主流的深度學(xué)習(xí)目標(biāo)檢測(cè)算法和基于深度學(xué)習(xí)的火災(zāi)煙霧檢測(cè)算法進(jìn)行對(duì)比,實(shí)驗(yàn)結(jié)果如表3所示。
表3與其他檢測(cè)算法性能對(duì)比
Tab.3 Performance comparison with other algorithms
實(shí)驗(yàn)結(jié)果中,本文算法的精確率、召回率和平均精確率均優(yōu)于對(duì)比算法,檢測(cè)速度相較于改進(jìn)前的YOLOv4算法略有下降,但優(yōu)于兩階段目標(biāo)檢測(cè)算法。文獻(xiàn)[29]和文獻(xiàn)[30]分別基于單階段算法SSD和YOLOv4針對(duì)煙霧檢測(cè)任務(wù)進(jìn)行改進(jìn),檢測(cè)性能相較原始算法均有提升。其中文獻(xiàn)[29]中采用了遞進(jìn)池化和反卷積操作指導(dǎo)特征提取和融合。文獻(xiàn)[30]則采用嵌入通道注意力機(jī)制的方式增強(qiáng)了YOLO檢測(cè)頭的信息提取能力。
圖9為YOLOv4算法和本文算法的PR曲線圖,圖中陰影面積即為平均精確率。通過細(xì)節(jié)特征融合和引入注意力機(jī)制,本文算法在相同實(shí)驗(yàn)條件下相比于YOLOv4算法的平均精確率提高了4.31%。
圖9 PR曲線。(a) YOLOv4算法PR曲線;(b)本文算法PR曲線。
圖10和圖11分別為精確率曲線和召回率曲線圖,計(jì)算精確率和召回率時(shí)設(shè)置置信度閾值為0.5。本文算法的精確率和召回率相比于YOLOv4算法分別提高1.21%和9.86%。圖11的召回率曲線顯示,隨著置信度閾值的提高,本文算法的召回率相比于YOLOv4有了更大的提升,這表明本文算法對(duì)于難分煙霧樣本有更好的檢測(cè)效果。綜合上述對(duì)比結(jié)果可知,本文算法在煙霧檢測(cè)方面具有更好的性能。細(xì)節(jié)特征融合增強(qiáng)了煙霧圖像的特征表達(dá)效果,提升了算法對(duì)煙霧目標(biāo)的定位能力;同時(shí)注意力機(jī)制可抑制無關(guān)的圖像背景特征并對(duì)煙霧特征賦予更大的權(quán)重,減少了檢測(cè)結(jié)果中假負(fù)例的數(shù)量,從而使得召回率相比于改進(jìn)前有明顯提高。
圖10 精確率曲線
圖11 召回率曲線
為了進(jìn)一步分析本文算法在煙霧圖像特征表達(dá)上相較YOLOv4算法的優(yōu)勢(shì),設(shè)計(jì)了特征圖可視化對(duì)比實(shí)驗(yàn)并利用CAM[31]方法繪制熱力圖。
圖12是網(wǎng)絡(luò)中5個(gè)層級(jí)特征圖的可視化對(duì)比實(shí)驗(yàn)結(jié)果,分別為scale1、scale2、YOLO Head1、YOLO Head2和YOLO Head3,對(duì)應(yīng)尺寸大小為(208,208),(104,104),(52,52),(26,26),(13,13)。特征圖隨著網(wǎng)絡(luò)層數(shù)的加深尺寸逐漸變小,并在運(yùn)算過程中逐漸將細(xì)節(jié)特征映射到高層語義特征。圖12中本文算法的底層特征圖相較于YOLOv4算法提取了更多明顯的細(xì)節(jié)信息,如紋理和邊緣輪廓等。隨著感受野的增大,細(xì)節(jié)信息逐漸稀疏化,特征圖分辨率降低,紋理和輪廓等愈發(fā)難以辨認(rèn),但是語義信息得到進(jìn)一步增強(qiáng),在目標(biāo)區(qū)域中心形成聚焦并逐步映射至目標(biāo)整體區(qū)域。在高層特征圖中,得益于混合注意力機(jī)制對(duì)特征圖空間維度和通道維度權(quán)重的重新分配,本文算法在煙霧目標(biāo)中心區(qū)域產(chǎn)生了更高的激活值,且激活值的分布范圍更符合實(shí)際圖像中煙霧的分布。
圖12 特征圖可視化
圖13是兩種算法的熱力圖對(duì)比實(shí)驗(yàn)結(jié)果,通過熱力圖可以看出,由于煙霧目標(biāo)的視覺特征較差且煙霧背景復(fù)雜,兩種算法在檢測(cè)過程中均不同程度地受到了影響,YOLOv4算法在煙霧目標(biāo)區(qū)域的激活值較低且分布較為雜亂,在背景區(qū)域的激活范圍和強(qiáng)度明顯高于本文算法,難以有效反映出真實(shí)煙霧目標(biāo)位置;本文算法則相對(duì)更準(zhǔn)確地在煙霧目標(biāo)區(qū)域形成聚焦產(chǎn)生較高的激活值,并對(duì)背景區(qū)域的激活進(jìn)行了抑制。由此可見,本文提出的基于注意力機(jī)制的細(xì)節(jié)特征融合方法有效增強(qiáng)了煙霧目標(biāo)的整體特征,能夠改善煙霧檢測(cè)中煙霧目標(biāo)特征不明顯和背景復(fù)雜、干擾信息較多的問題。
圖13 熱力圖對(duì)比
本文針對(duì)火災(zāi)煙霧檢測(cè)中高層特征圖的細(xì)節(jié)特征被削弱且背景干擾較多的問題,基于YOLOv4提出了一種融合細(xì)節(jié)特征與注意力機(jī)制的火災(zāi)煙霧檢測(cè)算法。通過引入細(xì)節(jié)特征,提高了網(wǎng)絡(luò)的特征提取和表達(dá)能力;利用CBAM機(jī)制對(duì)融合特征圖進(jìn)行權(quán)重重新賦值,得到了更具魯棒性的特征表達(dá)。與YOLOv4算法相比,在保持較高檢測(cè)速率的同時(shí),本文算法的平均精確率、精確率和召回率分別提高了4.31%,1.21%,9.86%。下一步工作將優(yōu)化特征融合過程,減少冗余操作并降低模型參數(shù)量,設(shè)計(jì)適用于嵌入式設(shè)備的輕量化火災(zāi)煙霧檢測(cè)網(wǎng)絡(luò)。
[1] 史勁亭,袁非牛,夏雪.視頻煙霧檢測(cè)研究進(jìn)展[J].中國圖象圖形學(xué)報(bào),2018,23(3):303-322.
SHI J T, YUAN F N, XIA X. Video smoke detection: a literature survey[J]., 2018, 23(3): 303-322. (in Chinese)
[2] KIM H, RYU D, PARK J. Smoke detection using GMM and adaboost[J]., 2014, 3(2): 123-126.
[3] ZHAO Y Q, ZHOU Z, XU M M. Forest fire smoke video detection using spatiotemporal and dynamic texture features[J]., 2015, 2015: 40.
[4] WANG Y B. Smoke recognition based on machine vision[C]2016. Xi'an, China: IEEE, 2016: 668-671.
[5] YE W, ZHAO J H, WANG S,. Dynamic texture based smoke detection using Surfacelet transform and HMT model[J]., 2015, 73: 91-101.
[6] 李欣健,張大勝,孫利雷,等.復(fù)雜場(chǎng)景下基于CNN的輕量火焰檢測(cè)方法[J].模式識(shí)別與人工智能,2021,34(5):415-422.
LI X J, ZHANG D S, SUN L L,. CNN-based lightweight flame detection method in complex scenes[J]., 2021, 34(5): 415-422. (in Chinese)
[7] 林景棟,吳欣怡,柴毅,等.卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)優(yōu)化綜述[J].自動(dòng)化學(xué)報(bào),2020,46(1):24-37.
LIN J D, WU X Y, CHAI Y,. Structure optimization of convolutional neural networks: a survey[J]., 2020, 46(1): 24-37. (in Chinese)
[8] 夏雪,袁非牛,章琳,等.從傳統(tǒng)到深度:視覺煙霧識(shí)別、檢測(cè)與分割[J].中國圖象圖形學(xué)報(bào),2019,24(10):1627-1647.
XIA X, YUAN F N, ZHANG L,. From traditional methods to deep ones: review of visual smoke recognition, detection, and segmentation[J]., 2019, 24(10): 1627-1647. (in Chinese)
[9] TAO C Y, ZHANG J, WANG P. Smoke detection based on deep convolutional neural networks[C]//2016. Wuhan, China: IEEE, 2016: 150-153.
[10] KRIZHEVSKY A, SUTSKEVER I, HINTON G E. ImageNet classification with deep convolutional neural networks[C]25. Lake Tahoe: Curran Associates Inc., 2012: 1097-1105.
[11] YIN Z J, WAN B Y, YUAN F N,. A deep normalization and convolutional neural network for image smoke detection[J]., 2017, 5: 18429-18438.
[12] GU K, XIA Z F, QIAO J F,. Deep dual-channel neural network for image-based smoke detection[J]., 2020, 22(2): 311-323.
[13] HE Z X, XIE L P, HUA B C,. Joint detection of smoke and flame in photovoltaic system based on deep learning[C]2020(). Shanghai, China: IEEE, 2020: 6067-6071.
[14] REN S Q, HE K M, GIRSHICK R,. Faster R-CNN: towards real-time object detection with region proposal networks[J]., 2017, 39(6): 1137-1149.
[15] HE K M, ZHANG X Y, REN S Q,. Deep residual learning for image recognition[C]2016. Las Vegas: IEEE, 2016: 770-778.
[16] CAI W B, WANG C Y, HUANG H G,. A real-time smoke detection model based on YOLO-SMOKE algorithm[C]2020. Fuzhou, China: IEEE, 2020: 1-3.
[17] REDMON J, FARHADI A. YoLOv3: an incremental improvement[J]., 2018:1804.02767.
[18] GAGLIARDI A, DE GIOIA F, SAPONARA S. A real-time video smoke detection algorithm based on Kalman filter and CNN[J]., 2021, 18(6): 2085-2095.
[19] LIU W, ANGUELOV D, ERHAN D,. SSD: single shot MultiBox detector[C]14. Amsterdam: Springer, 2016: 21-37.
[20] 吳凡,王慧琴,王可.時(shí)空域深度學(xué)習(xí)火災(zāi)煙霧檢測(cè)[J].液晶與顯示,2021,36(8):1186-1195.
WU F, WANG H Q, WANG K. Spatio-temporal deep learning fire smoke detection[J]., 2021, 36(8): 1186-1195. (in Chinese)
[21] 李紅光,于若男,丁文銳.基于深度學(xué)習(xí)的小目標(biāo)檢測(cè)研究進(jìn)展[J].航空學(xué)報(bào),2021,42(7):024691.
LI H G, YU R N, DING W R. Research development of small object traching based on deep learning[J]., 2021, 42(7): 024691. (in Chinese)
[22] BOCHKOVSKIY A, WANG C Y, LIAO H Y M. YOLOv4: optimal speed and accuracy of object detection[J].:2004.10934, 2020.
[23] WOO S, PARK J, LEE J Y,. CBAM: convolutional block attention module[C]15. Munich, Germany: Springer, 2018: 3-19.
[24] HE K M, ZHANG X Y, REN S Q,. Spatial pyramid pooling in deep convolutional networks for visual recognition[J]., 2015, 37(9): 1904-1916.
[25] LIU S, QI L, QIN H F,. Path aggregation network for instance segmentation[C]2018. Salt Lake City, UT, USA: IEEE, 2018: 8759-8768.
[26] WANG C Y, LIAO H Y M, WU Y H,. CSPNet: a new backbone that can enhance learning capability of CNN[C]2020. Seattle, WA, USA: IEEE, 2020: 1571-1580.
[27] LIN T Y, DOLLáR P, GIRSHICK R,. Feature pyramid networks for object detection[C]2017. Honolulu, USA: IEEE, 2017: 936-944.
[28] TAN M X, LE Q V. EfficientNet: rethinking model scaling for convolutional neural networks[C]36. Long Beach, CA, USA: PMLR, 2019: 6105-6114.
[29] 劉麗娟,陳松楠.一種基于改進(jìn)SSD的煙霧實(shí)時(shí)檢測(cè)模型[J].信陽師范學(xué)院學(xué)報(bào)(自然科學(xué)版),2020,33(2):305-311.
LIU L J, CHEN S N. Real-time smoke detection model based on improved SSD[J].(), 2020, 33(2): 305-311. (in Chinese)
[30] 謝書翰,張文柱,程鵬,等.嵌入通道注意力的YOLOv4火災(zāi)煙霧檢測(cè)模型[J].液晶與顯示,2021,36(10):1445-1453.
XIE S H, ZHANG W Z, CHENG P,. Firesmoke detection model based on YOLOv4 with channel attention[J]., 2021, 36(10): 1445-1453. (in Chinese)
[31] ZHOU B L, KHOSLA A, LAPEDRIZA A,. Learning deep features for discriminative localization[C]2016. Las Vegas, NV, USA: IEEE, 2016: 2921-2929.
Fire smoke detection combined with detailed features and hybrid attention mechanism
WANG Rui-qing,WANG Hui-qin*,WANG Ke
(,,710055,)
To solve the problem that the detailed features of the high-level feature map are weakened and the low-level features of the smoke image are lost, an improved YOLOv4 algorithm that combines the detailed features and the attention mechanism is proposed. The detail feature fusion module is designed, and the low-level features in backbone network are introduced into high-level features to obtain the fusion feature map with extensive multi-scale information. Then, a hybrid attention mechanism in two separate dimensions of channel and spatial is adopted, to reassign the weight of the fusion feature map. The smoke target features are enhanced the background features are suppersed, hence the proposed algorithm is robust in feature expression. The experimental results show that the average precision, precision and recall rate of the algorithm in this paper are increased by 4.31%, 1.21% and 9.86% respectively compared with the YOLOv4 algorithm, while maintaining a high detection speed. The proposed algorithm can effectively extract the overall features of smoke targets, and is suitable for smoke detection tasks in complex backgrounds.
smoke detection; deep learning; YOLOv4; feature fusion; hybrid attention mechanism
TP391
A
10.37188/CJLCD.2021-0325
1007-2780(2022)07-0900-13
2021-12-14;
2022-01-11.
陜西省自然科學(xué)基礎(chǔ)研究計(jì)劃(No.2021JM-377);陜西省科技廳科技合作項(xiàng)目(No.2020KW-012);陜西省教育廳智庫項(xiàng)目(No.18JT006);西安市科技局高校人才服務(wù)企業(yè)項(xiàng)目(No.GXYD10.1)
Supported by Natural Science Basic Research Plan in Shaanxi Province (No. 2021JM-377); Science and Technology Cooperation Projects in Department of Science and Technology of Shaanxi Province(No. 2020KW-012); Think Tank Project in Department of Education of Shaanxi Province(No. 18JT006); Talent Service Enterprise Project of Science and Technology University in Xi'an City(No.GXYD10.1)
,E-mail:hqwang@xauat.edu.cn
汪睿卿(1996—),男,安徽安慶人,碩士研究生,2019于皖西學(xué)院獲得學(xué)士學(xué)位,主要從事深度學(xué)習(xí)與計(jì)算機(jī)視覺等方面的研究。E-mail:wrq1216@163.com
王慧琴(1970—),女,山西長治人,博士,教授,2002年于西安交通大學(xué)獲得博士學(xué)位,主要從事智能信息處理、信息理論與應(yīng)用、信息技術(shù)與管理、數(shù)字建筑等方面的研究。E-mail:hqwang@xauat.edu.cn