吳 凡, 王慧琴, 王 可
(西安建筑科技大學(xué) 信息與控制工程學(xué)院, 陜西 西安710055)
火災(zāi)是自然和社會災(zāi)害中發(fā)生概率最高的災(zāi)害之一,對人類的生活和生命安全構(gòu)成嚴重威脅[1]。因此,快速而準確地檢測火災(zāi)發(fā)生至關(guān)重要。
當前的火災(zāi)探測方式仍以各種火災(zāi)傳感器為主,雖然其低價簡單,但極易受到粉塵、氣流以及高度等因素的干擾[2]。通常情況下,明火在與空氣充分接觸之后才會產(chǎn)生,而在燃燒初期煙霧即已出現(xiàn),因此準確檢測煙霧能夠比火焰檢測更早發(fā)出火災(zāi)報警[3]。
目前煙霧檢測研究流程大致可分為疑似煙霧目標提取、煙霧特征提取以及煙霧檢測幾個重要部分。Barmpoutis[4]等基于HSV(Hue, Saturation, Value) 顏色模型,使用結(jié)合煙霧顏色特征的背景差法提取幀內(nèi)疑似煙霧區(qū)域。Park[5]等結(jié)合幀差法和非參數(shù)顏色模型檢測疑似煙霧目標,基于此算法設(shè)計了一種煙霧檢測隨機森林分類器。該算法可以加快煙霧檢測速度,但檢測煙區(qū)中易存在空洞,且用于復(fù)雜環(huán)境時煙霧檢測虛警率高。在以上研究基礎(chǔ)上,一些學(xué)者為增強分類器的性能,加入了機器視覺方法。李紅娣[6]等使用金字塔分解算法提取煙霧的金字塔紋理和邊緣特征,并通過支持向量機(Support Vector Machine)進行訓(xùn)練和檢測煙霧。Zhao[7]等利用煙霧的顏色等特性,基于CS Adaboost算法對煙霧進行檢測,該算法可有效地分辨濃霧和煙霧。上述方法的煙霧特征設(shè)計與提取多數(shù)由手工完成,需基于經(jīng)驗設(shè)定閾值作為識別煙霧的判斷依據(jù),未必能夠反映煙霧的本質(zhì)特征,其合理性會因煙霧本身和環(huán)境變化受到影響。
近年來,基于深度學(xué)習(xí)的視頻檢測方法發(fā)展迅猛,作為一種性能強、適用性廣的方法逐漸在火災(zāi)探測中得到應(yīng)用[8]。Kim[9]等提出用卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Networks,CNN)檢測視頻中的煙霧。該研究利用輸入視頻圖像的顏色信息提取煙霧候選區(qū)域,然后利用預(yù)訓(xùn)練的CNN進行煙霧檢測。該方法較之前的傳統(tǒng)檢測方法誤檢率和漏檢率得到改善,性能有所提高。陳俊周[10]等融合煙霧的動靜態(tài)紋理信息,提出基于級聯(lián)卷積神經(jīng)網(wǎng)絡(luò)的煙霧紋理識別框架,提高煙霧檢測的準確率,然而其將靜態(tài)動態(tài)紋理信息分別處理導(dǎo)致算法復(fù)雜度增加,影響煙霧實時檢測。孫穎[11]提出了一種基于3D殘差密集網(wǎng)絡(luò)的煙霧檢測算法,將殘差網(wǎng)絡(luò)和密集連接網(wǎng)絡(luò)進行整合,形成3D Residual Dense Block網(wǎng)絡(luò)模塊,以提取煙霧的時空特征。神經(jīng)網(wǎng)絡(luò)算法雖然性能較優(yōu),但二維 CNN無法提取時域特征,丟失了時間維度的幀間運動信息,因而檢測效果不佳;三維 CNN則因特征維度提升,計算成本大幅增加,影響檢測時效和準確率。
本文提出一種基于時空域深度學(xué)習(xí)的火災(zāi)煙霧視頻檢測算法,利用分塊的運動目標檢測算法過濾非煙霧區(qū)域,再輸入經(jīng)預(yù)訓(xùn)練的二加一維時空域網(wǎng)絡(luò)模型,提取煙霧的時空域特征,抑制無關(guān)特征,最后將煙霧區(qū)域分塊標記,提高了檢測準確率和時效。
卷積神經(jīng)網(wǎng)絡(luò)是深度學(xué)習(xí)(Deep learning)的代表算法之一,模仿生物的視覺感知機制構(gòu)建,可進行監(jiān)督學(xué)習(xí)和非監(jiān)督學(xué)習(xí)。三維卷積神經(jīng)網(wǎng)絡(luò)是一種視頻檢測網(wǎng)絡(luò),在物體識別、動作檢測等方面有著巨大優(yōu)勢。
一些研究使用二維神經(jīng)網(wǎng)絡(luò)對視頻進行檢測,研究對象大多數(shù)是視頻的幀截圖,忽略了幀間運動信息的時間序列,因此時間維度上的幀間運動信息會丟失。如果將二維卷積神經(jīng)網(wǎng)絡(luò)拓展到三維,便可同時提取時間和空間維度特征,增加時間維度的特征信息,濾波器的內(nèi)核維度也因此會增加,在學(xué)習(xí)單個圖片鄰近像素的同時學(xué)習(xí)時間上接近的像素,即學(xué)習(xí)時空特征,其公式如式(1)所示:
(1)
圖1 三維卷積原理圖Fig.1 Schematic diagram of three-dimensional convolution
由于煙霧屬于運動目標,從視頻圖像中提取運動目標可濾除大量非煙霧區(qū)域,再對分割出的疑似煙霧區(qū)域進行預(yù)處理,輸入網(wǎng)絡(luò)模型進行煙霧識別,可有效提高準確率和時效。為了使運動目標檢測部分達到理想的效果,本研究將采用高斯混合模型和四幀差分法相結(jié)合的運動檢測算法提取疑似煙霧目標,準備輸入網(wǎng)絡(luò)模型。
3.1.1 高斯混合模型
在高斯混合模型[12](Gaussian mixture model)中,每一個背景圖片像素點的描述都由N個高斯分布組成,這幾個高斯分布的加權(quán)組合形成背景。
首先是構(gòu)建初始背景模型。讀取視頻序列前N幀圖片,通過預(yù)處理將其轉(zhuǎn)化成灰度圖片序列fi(i=1,2,3,…,N),將圖片中坐標為(x,y)的像素值fi(x,y)分別向這N個高斯分布的均值ui,l(x,y)賦值,隨后用一個相對較大的方差將每個高斯分布初始化,至此高斯混合模型建立完成,表達式如下:
(2)
其中,N是高斯模型的數(shù)量,ηl(fi,ui,l,σi,l)代表第l個高斯分布,ωi,l表示第l個高斯分布的權(quán)重,通常初始值設(shè)為1/M。
第二步是前景目標檢測。讀取下一幀圖片,經(jīng)預(yù)處理后記做fi+1,依照ω/σ的值從大到小的順序?qū)i+1(x,y)對應(yīng)的高斯模型排序,選擇比值較大的前B個高斯分布生成該圖片的背景,B的表達式如下:
(3)
其中,T為使用者設(shè)定的閾值,亦稱門限參數(shù),隨后依照下面的表達式(4)進行匹配,若fi+1(x,y)與其背景模型中序號為k(k≤B)的高斯分布匹配,則該點可以認定為背景,否則為前景目標。λ是前景閾值,一般設(shè)為2.5。
|ft+1(x,y)-ut,k|≤λσt,k
.
(4)
第三步是背景模型更新。新的一幀圖片完成檢測后,若fi+1(x,y)被判定來自于前景,即說明前B個高斯分布模型沒有一個能與該點對應(yīng)的模型相匹配,需要一個新的高斯分布函數(shù)代替ω/σ值最小的那個分布函數(shù),其均值為fi+1(x,y),給定的權(quán)值較小,方差較大。
與fi+1(x,y)匹配的高斯分布表達式按下面的表達式更新:
ωt+1,l(x,y)=(1-α)ωt,l(x,y)+α
(5)
ut+1,l(x,y)=(1-ρ)ui,l(x,y)+ρft+1(x,y)
(6)
(7)
不與fi+1(x,y)匹配的高斯分布表達式則按照表達式(8)更新:
ωt+1,l(x,y)=(1-α)wi,l(x,y)
(8)
最終將權(quán)值歸一化,式中α、ρ是通常由經(jīng)驗設(shè)定的學(xué)習(xí)速率。
3.1.2 四幀差分法
幀間差分法(Frame difference method)是通過獲得相鄰連續(xù)幀的差別以進行運動目標檢測,具有算法簡單、時間復(fù)雜度低的優(yōu)點,對動靜態(tài)背景適應(yīng)性好,不需要提取和更新背景。然而常用的二幀差分法無法解決雙影與空洞問題,本研究采用性能較好的四幀差分法[13]以消除目標檢測過程中存在的空洞和雙影現(xiàn)象。具體步驟如下:
(1)讀取視頻序列連續(xù)4幀圖片,處理為灰度圖片后進行中值濾波去噪,獲得連續(xù)4幀預(yù)處理過的圖片,并將其設(shè)為Ik(x,y),Ik+1(x,y),Ik+2(x,y),Ik+3(x,y)。
(2)將4幀圖片進行間隔差分,即第1幀與第3幀、第2幀與第4幀差分,使用閾值進行分割,獲得二值化圖片,表達式如下:
(9)
(10)
式中,d1k、d2k是差分處理過的圖片,Z是預(yù)設(shè)的二值化固定閾值。
(3)將第2步得到的二值化圖片中運動目標的輪廓進行填充,由于背景為純黑色,故選用易于分辨的純白色對運動目標區(qū)域進行填充。
(4)為了減少雙影現(xiàn)象,對第3步結(jié)果進行邏輯“與”操作,見下式:
Dk=d1k∩d2k
(11)
.
(12)
3.1.3 視頻分塊檢測
煙霧部分明顯特征是形狀不確定,運動方向和速度不規(guī)律,為了更便捷地標記運動區(qū)域,以及將疑似煙霧目標區(qū)域輸入后續(xù)神經(jīng)網(wǎng)絡(luò)中進行學(xué)習(xí),本文將原始視頻數(shù)據(jù)的每一幀分成相同大小互不重合的小方塊,進行如圖2的分塊運動檢測,分塊公式如下所示:
圖2 煙霧圖像分塊處理示例Fig.2 Example of block processing of smoke image
(13)
其中,hX、hY分別代表原始圖像的寬和高,hx、hy分別代表圖像每個分塊的寬和高,nc、nr分別代表視頻幀被分割的行數(shù)與列數(shù)。
3.1.4 高斯混合模型與四幀差分法混合運動目標檢測
本文采取四幀差分法與高斯混合模型混合算法進行運動目標檢測。首先將讀取的視頻序列進行預(yù)處理,隨后分別送入四幀差分改進算法和高斯混合模型當中進行前景目標提取,再將兩個算法分割的前景目標進行“與”邏輯操作,通過連通性分析,形態(tài)學(xué)處理,得到疑似煙霧目標區(qū)域,最后使用分塊將其標記并儲存。具體算法流程如圖3所示。
圖3 運動目標檢測算法流程圖Fig.3 Moving target detection algorithm flow chart
煙霧本身外觀特征復(fù)雜,也會環(huán)境變化增大特征差異。傳統(tǒng)人工設(shè)計處理的特征難以描述煙霧的全部本質(zhì),極易受到相似目標的干擾,因此檢測準確率不高。三維神經(jīng)網(wǎng)絡(luò)在視頻檢測,動作分類等領(lǐng)域優(yōu)勢巨大,而殘差網(wǎng)絡(luò)則在特征提取方面擁有出色表現(xiàn),本文結(jié)合二者優(yōu)勢,提出一種改進的二加一維時空域網(wǎng)絡(luò)。將一般的三維卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)分解為二維加一維卷積網(wǎng)絡(luò)層,先后提取視頻圖像的空域和時域特征,并加入注意力機制,利用該機制的小型子網(wǎng)絡(luò)運算重新標定特征通道權(quán)重,過濾無關(guān)特征,最后通過全連接層得到最終檢測結(jié)果。
3.2.1 二加一維時空域網(wǎng)絡(luò)結(jié)構(gòu)
三維卷積神經(jīng)網(wǎng)絡(luò)因其能同時提取時空域特征在視頻檢測領(lǐng)域得到應(yīng)用,但是其存在參數(shù)量多、計算量高的問題。以最常見的三維網(wǎng)絡(luò)模型C3D(Convolutional 3D Network)為例,在使用數(shù)據(jù)集Sports-1M訓(xùn)練時,模型大小超過300 MB。視頻煙霧檢測系統(tǒng)多用于嵌入式設(shè)備,這就要求煙霧時空域特征提取所用到的神經(jīng)網(wǎng)絡(luò)計算成本低,模型參數(shù)少。
二加一維神經(jīng)網(wǎng)絡(luò)模塊是指將三維網(wǎng)絡(luò)結(jié)構(gòu)拆分為獨立的二維空域卷積結(jié)構(gòu)和一維時域網(wǎng)絡(luò)結(jié)構(gòu),使得非線性數(shù)量增加一倍,同時分解交織的時間與空間信息,使得網(wǎng)絡(luò)利于優(yōu)化,從而在保證三維網(wǎng)絡(luò)性能的前提下降低了計算成本。設(shè)輸入特征圖尺寸為l×w×h×f,其中l(wèi)為視頻幀數(shù),w為視頻寬度,h為視頻高度,f為輸入特征維度。原三維卷積核尺寸為t×k×k,將其拆分為1×k×k的空域卷積核與t×1×1的時域卷積核后,計算過程由t×k×k變?yōu)閠+k×k,計算量得到明顯減少,然而參數(shù)量的銳減對模型的復(fù)雜性和表達能力有明顯影響。由此需要在充分利用二加一維網(wǎng)絡(luò)的優(yōu)點的同時保留足夠的參數(shù)量。
本文參考文獻[14]的方法,通過一個超參數(shù)M更改中間特征通道數(shù)量,將二加一維參數(shù)量恢復(fù)到原三維網(wǎng)絡(luò)的水平,圖4為采用超參數(shù)M的二加一維結(jié)構(gòu)。M的計算公式以及計算參數(shù)對比如下:
(14)
3D:Ni-1×Ni×t×k×k;(2+1)D:Ni-1×M×1×k×k+M×Ni×t×1×1
.
(15)
在時域與空域卷積之后是批標準化層(Batch Normalization,BN)[15],其作用對象是每個隱層神經(jīng)元,其輸入分布在逐漸向非線性函數(shù)映射后,取值區(qū)間會向極限飽和區(qū)靠攏,BN層可以將其強制拉回到均值為0、方差為1的標準正態(tài)分布,使非線性變換函數(shù)的輸入值落入對輸入比較敏感的區(qū)域,有效解決不同層數(shù)據(jù)分布不一致和梯度消失問題。之后引入整流線性單元(Rectified Linear Unit,ReLU)激活函數(shù)層[16],其作用是增加模型的非線性表達能力,防止過擬合現(xiàn)象,提升訓(xùn)練精度。
二加一維網(wǎng)絡(luò)結(jié)構(gòu)因為有M超參數(shù)的存在,使得時空域兩個子卷積層之間增加了一個非線性操作,與原來同樣參數(shù)量的三維卷積結(jié)構(gòu)相比非線性操作數(shù)量翻倍,網(wǎng)絡(luò)復(fù)雜度由此增加。第二個好處是時空域分解讓優(yōu)化的過程也分解開,三維時空卷積把空間信息和動態(tài)信息交織在一起,優(yōu)化過程較為復(fù)雜。而二加一維卷積分別提取時空域特征,優(yōu)化過程相對簡單,可以使模型誤差降低。
3.2.2 注意力機制層
為了提高檢測效率,本文在二加一維網(wǎng)絡(luò)結(jié)構(gòu)中引入注意力機制。Hu[17]等提出了一種壓縮和激勵網(wǎng)絡(luò)(Squeeze-and-Excitation Network,SENet),在網(wǎng)絡(luò)訓(xùn)練過程中可以自動重新標定特征,抑制對分類無用的特征,提高網(wǎng)絡(luò)的分類識別能力。
該網(wǎng)絡(luò)層包括以下3個處理步驟:
(1)壓縮(Squeeze)操作:將大小為l×w×h×f的輸入,使用一個全局池化層壓縮輸入張量中除特征通道維度f之外的所有維度,使其轉(zhuǎn)化為一特征通道數(shù)大小的實數(shù)向量,大小為1×f。
(2)激勵(Excitation)操作:通過一個全連接層壓縮轉(zhuǎn)換的特征向量,使其維度降低到f/r,大小為1×f/r,再經(jīng)過ReLU函數(shù)激活后通過一個全連接層,得到一個輸出維度與輸入特征通道數(shù)相匹配的特征權(quán)重向量,大小為1×f。
(3)權(quán)值重標定(Reweight)操作:使用Sigmoid函數(shù)將權(quán)重歸一化,最后將Excitation操作得到的權(quán)重對特征通道進行加權(quán),從而實現(xiàn)對特征的重新標定。
將SENet和二加一維網(wǎng)絡(luò)按圖5的形式結(jié)合在一起,就形成了時空域注意力網(wǎng)絡(luò)模塊。
圖5 時空域注意力網(wǎng)絡(luò)模塊Fig.5 Spatio-temporal attention network module
3.2.3 網(wǎng)絡(luò)總體框架
本文提出的二加一維時空域網(wǎng)絡(luò)采用時間卷積層和空間卷積層串聯(lián)結(jié)構(gòu)替代三維卷積結(jié)構(gòu)提取時空特征,并引入注意力機制,過濾無關(guān)特征,提高了網(wǎng)絡(luò)的檢測性能。本文提出的網(wǎng)絡(luò)結(jié)構(gòu)整體框架如圖6所示。
圖6 時空域深度卷積神經(jīng)網(wǎng)絡(luò)架構(gòu)圖Fig.6 Graph of convolutional neural network in spatio-temporal
(1)輸入層:輸入為l幀連續(xù)RGB煙霧圖像,尺寸為l×w×h×f,其中l(wèi)為視頻幀數(shù),w為視頻寬度,h為視頻高度,f為輸入特征維度。本文輸入為連續(xù)的RGB圖像,故f取值為3。
(7)輸出層:將輸入數(shù)據(jù)送入通道數(shù)為512的全局平均池化層,最后通過全連接層得到是否為煙霧的評估結(jié)果。
本研究實驗環(huán)境為 Win10 64位操作系統(tǒng),內(nèi)存為16 GB,CPU為Intel Core i7-8700,圖形處理器為 NVIDIA GeForce RTX2070 8G,深度學(xué)習(xí)框架為Pytorch,在Python和 Microsoft Visual Studio Code 編程環(huán)境下實現(xiàn)。
為驗證本算法的有效性,數(shù)據(jù)集從課題組自行拍攝的煙霧視頻以及網(wǎng)絡(luò)煙霧視頻集中截取,選取不同場景下的煙霧正樣本及負樣本進行火災(zāi)識別實驗。場景分為室內(nèi)與室外開闊空間兩種環(huán)境,干擾物有與煙霧顏色相近的云朵、加濕器水霧、白色背景墻,樹林等。總樣本為208 184張,每8張連續(xù)圖片為一個視頻塊,其中 188 792 張用于train數(shù)據(jù)集,9 792 張用于val數(shù)據(jù)集,9 600張作為test數(shù)據(jù)集,每幀樣本大小為32×32。
本次研究使用4.1節(jié)的數(shù)據(jù)集進行訓(xùn)練,在參數(shù)設(shè)定環(huán)節(jié)中,我們選擇隨機梯度下降(Stochastic Gradient Descent,SGD)作為網(wǎng)絡(luò)損耗的優(yōu)化器,訓(xùn)練Epoch數(shù)量設(shè)置為50,一次訓(xùn)練所選取的樣本數(shù)(Batch_size)為64,設(shè)置動量系數(shù)為0.9和權(quán)重衰減值為0.000 5,初始學(xué)習(xí)率設(shè)置為0.001,學(xué)習(xí)率每經(jīng)過10個訓(xùn)練周期(Epoch)便衰減為原來的1/10。
為了測試本研究算法的性能,采用文獻[18]的評價標準。計算得到準確率(ACC),正確率(TPR),虛警率(FPR),公式如下:
(16)
(17)
(18)
式中,N為總煙霧樣本數(shù),TP為被檢測為有煙霧的有煙霧樣本數(shù),TN為被檢測為無煙霧的無煙霧樣本數(shù),F(xiàn)P為被檢測為有煙霧的無煙霧樣本數(shù),F(xiàn)N為被檢測為無煙霧的有煙霧樣本數(shù)。
本次研究共選擇10段視頻作為測試,具體描述說明如表1所示。
表1 測試視頻說明Tab.1 Test video description
圖7所示為部分視頻煙霧檢測效果,圖中檢測出的煙霧區(qū)域為白色方塊標記的位置。實驗結(jié)果表明,本文采用的煙霧檢測算法在10段測試視頻中都取得了良好的效果。對于不同顏色、不同濃度、不同速度的煙霧都能夠取得理想的檢測效果。在加濕器水霧、云等類煙運動物體、多云和白色背景墻的復(fù)雜背景干擾下也具有良好的魯棒性。
圖7 部分檢測結(jié)果。(a)、(b)、(c)為有煙霧視頻,(d)為無煙霧視頻。Fig.7 Part of the test results. (a),(b),(c) Smoke videos; (d) Non-smoke video.
為充分驗證本算法的有效性,將去掉第三與第四時空殘差卷積塊,減少特征通道維度變換次數(shù)的模型稱為算法1,所有時空殘差卷積塊去掉SENet網(wǎng)絡(luò)層的模型稱為算法2,共同與本文提出的算法進行對比,對比的數(shù)值為10個視頻評價標準的平均數(shù)值,分別為平均準確率(AACC),平均正確率(ATPR)和平均虛警率(AFPR),結(jié)果如表2所示。
表2 不同結(jié)構(gòu)性能對比
由表2可知,算法1由于減少時空殘差卷積塊導(dǎo)致網(wǎng)絡(luò)的層數(shù)減少,模型深度不足,對煙霧特征提取不充分,故而本文算法比算法1平均準確率增加3.09%,虛警率降低2.18%,說明較深層數(shù)的網(wǎng)絡(luò)模型能夠有效提取煙霧特征。而對于算法2,本文算法增加了SENet層以重新標定特征權(quán)重,減少了冗余的無用特征,因此平均準確率提升0.97%,平均虛警率也有所改善,降低了0.7%,說明增加Senet層能夠使網(wǎng)絡(luò)模型對煙霧特征的注意力提高。
為進一步驗證煙霧檢測算法的有效性,本文還將采用LBP和LBPV檢測煙霧的文獻[19]方法,采用PCA主成分分析和Inception Resnet v2網(wǎng)絡(luò)算法的文獻[20]方法,采用VGG16和Resnet50網(wǎng)絡(luò)融合算法的文獻[21]方法以及采用3D密集殘差網(wǎng)絡(luò)的文獻[11]方法加入本文算法性能對比,結(jié)果如表3所示。
表3 與其他算法性能對比Tab.3 Performance comparison with other algorithms
由表3結(jié)果可知,與傳統(tǒng)的手工設(shè)計提取煙霧特征以及機器視覺算法的檢測方法相比,卷積神經(jīng)網(wǎng)絡(luò)能夠?qū)崿F(xiàn)端對端、自動選取煙霧的檢測特征,且特征種類和規(guī)模更加豐富,因此文獻[20],文獻[21]、文獻[11]的算法及本文算法平均準確率均可以達到90%以上,文獻[21]的方法平均虛警率比文獻[19]降低了18%。而對于各種基于二維卷積神經(jīng)網(wǎng)絡(luò)的算法,本文算法使用的網(wǎng)絡(luò)模型能夠?qū)D像和運動信息建模,同時提取空域與時域特征,最終平均準確率提升2.34%,虛警率改善明顯,降低了1.24%,說明提取時空域特征可以顯著提升煙霧檢測效果。對于文獻[11]方法,由于本文算法增加了非線性因素且時空域分開運算,因而檢測準確率提升1.07%,虛警率提升0.17%。
為了驗證煙霧檢測算法的時效,本文以每秒傳輸幀數(shù)(Frames Per Second,F(xiàn)PS)作為對比指標,將采用三維密集殘差網(wǎng)絡(luò)的文獻[11]方法,以及去掉本文算法時空網(wǎng)絡(luò)塊中SENet層的算法3加入性能對比,結(jié)果如表4所示。
表4 檢測效率對比Tab.4 Comparison of detection efficiency
由表4結(jié)果可知,本文的二加一維網(wǎng)絡(luò)算法比標準的三維網(wǎng)絡(luò)檢測速率有明顯提升,且未因SENet層的加入出現(xiàn)大幅降低的現(xiàn)象,對比算法3,檢測準確率有所提升,綜合效果更好。
本文為了準確地從視頻中檢測煙霧,充分提取視頻的時空域特征,同時改善三維網(wǎng)絡(luò)模型的檢測時效問題,提出了一種加入注意力機制的二加一維時空域深度學(xué)習(xí)檢測算法。利用分塊的運動目標檢測算法,過濾非煙霧目標,經(jīng)預(yù)處理后輸入到二加一維神經(jīng)網(wǎng)絡(luò)模型進行時空域特征提取。為抑制無關(guān)特征,使用注意力機制重新標定特征通道,經(jīng)全連接層輸出檢測結(jié)果后將煙霧區(qū)域分塊標定。在實驗數(shù)據(jù)集測試得到的結(jié)果中,平均準確率為97.12%,平均正確率為97.06%,平均虛警率為2.74%,平均FPS為10.49幀/s。實驗數(shù)據(jù)表明,該算法可以有效減少復(fù)雜場景、類煙目標對煙霧特征的干擾,相比現(xiàn)有三維CNN算法提升了檢測速率,取得了良好的檢測效果。