張晉瑞,宋煥生,孫士杰,梁浩翔,張朝陽,王 宇,劉蒞辰
1.長安大學 信息工程學院,西安710064
2.中車株洲電力機車有限公司,湖南 株洲412000
進入21世紀以來,我國在隧道工程建設規(guī)模上已經(jīng)成為了世界上數(shù)量最多、里程最長的國家。統(tǒng)計數(shù)據(jù)顯示,我國公路隧道共有21 999.3 km[1],其中超過70%為長隧道和特長隧道。公路隧道的結構復雜、空間狹小、封閉性強、出入口少,火災事故是危害最大的一類事故,成因復雜,且事故發(fā)生具有不確定性,會破壞隧道內(nèi)部結構,對被困人員的人身和財產(chǎn)安全構成極大的威脅,在社會上產(chǎn)生較大的負面影響。因此對隧道火災進行實時監(jiān)測是十分必要的,是隧道火災研究的重點和難點,同時有助于隧道火災事故的應急處理與防治。
火災發(fā)生往往先有陰燃產(chǎn)生的煙霧然后才有火焰,形狀顏色多種多樣,許多研究者利用火災煙霧的靜態(tài)特征和動態(tài)特性進行檢測。顏色是火災煙霧最明顯的靜態(tài)特征,通過提取圖像的顏色直方圖[2],可以確定火災煙霧區(qū)域。因單一特征的檢測準確率很差,通過提取顏色、紋理、能量等多特征融合的方法提高了火災煙霧的檢測精度[3-4]。但是這種方法提取的特征數(shù)較多,計算量較大,導致檢測速度慢。為了提升檢測速度同時保證準確率,引入了機器學習的方法,利用支持向量機(support vector machine,SVM)生成候選區(qū)域進行分類[5-6]。人工提取的特征受天氣、光照、時間等影響大,分類器閾值的選取多依賴于個人經(jīng)驗,使得方法的抗干擾能力較差。這類方法普遍存在一定局限性。
深度學習方法能夠跳出傳統(tǒng)模式識別的框架局限,但使用深度學習進行火災檢測的研究內(nèi)容和數(shù)據(jù)集相對較少。Frizzi等[7]采用LeNet進行火焰和煙霧檢測,但只能檢測火災是否發(fā)生而無法得知火災的具體位置。通過預處理方法提取圖像可疑運動區(qū)域,然后使用卷積神經(jīng)網(wǎng)絡對可疑區(qū)域進行識別[8-10]的方法可有效降低誤檢的發(fā)生,但存在漏檢的情況,且檢測速度較慢。Zhang等[11]使用Faster R-CNN,通過合成圖像自制數(shù)據(jù)集的方式解決了訓練數(shù)據(jù)缺乏的問題,但網(wǎng)絡模型難以保證在真實場景中的檢測精度。石磊等[12]將DenseNet網(wǎng)絡作為SSD的基礎網(wǎng)絡,提高了對小目標的檢測能力,但在數(shù)據(jù)集上存在過擬合現(xiàn)象。羅小權等[13]對YOLOv3做了一系列改進,提升了網(wǎng)絡模型檢測火災的精度,但數(shù)據(jù)集樣本數(shù)較少,檢測速度較低。Namozov等[14]使用傳統(tǒng)數(shù)據(jù)增強技術和生成對抗網(wǎng)絡解決有限數(shù)據(jù)集引起的過擬合問題。謝書翰等[15]使用YOLOv4網(wǎng)絡訓練火災煙霧檢測模型,嵌入通道注意力機制提升模型性能。Ding等[16]提出了一種基于時空注意機制的雙流卷積神經(jīng)網(wǎng)絡煙霧區(qū)域分割算法,提高了細煙、小煙的分割能力,但模型在不同場景的適應能力較差?,F(xiàn)有的基于深度學習的方法檢測往往依賴于單幅圖像,很難同時兼顧檢測精度和速度,存在較多漏檢和誤檢,不能達到現(xiàn)有工業(yè)場景應用的需求。
聚焦到隧道火災檢測,根據(jù)近年來的研究表明,傳統(tǒng)火災探測器[17]在公路隧道等大空間環(huán)境存在響應慢和功能單一的問題,使用傳感器手段檢測[18-20]的精度往往依賴于傳感器的數(shù)量和位置,且維護成本較高。目前在隧道中使用的火災探測技術還存在一定的局限性[21]。Sarvari等[22]通過隧道監(jiān)控相機人工判斷火災事故點存在響應不及時的問題。通過將圖像在顏色空間中分割疑似火災區(qū)域[23-24],并提取多種特征進行模型訓練的方式,在人為制作的模擬隧道火災煙霧視頻中的準確率較高,但該方法計算量大,檢測速度慢,難以反映真實隧道火災場景的檢測。Wu等[25]利用人工智能方法實現(xiàn)隧道內(nèi)溫度時空分布的實時預測,在模擬隧道火災場景數(shù)據(jù)庫中有較高的預測精度,但缺乏實際場景的應用。通過上述研究可以看出,基于隧道監(jiān)控視頻進行火災檢測成為這一領域研究的主流,在實際工程應用中,檢測需要實時可靠,可以在早期檢測到火災事件并定位,且要排除隧道內(nèi)其他因素如車輛燈光、尾氣等引起的誤報。
YOLOv5檢測網(wǎng)絡具有輕量化,檢測精度較高、速度較快的優(yōu)點,因此使用YOLOv5檢測網(wǎng)絡是目前視覺火災檢測研究的一個方向。Lei等[26]證明了YOLOv5在地下環(huán)境感知退化的場景中,遷移學習的目標檢測效果最好。Zhang等[27]證明了使用YOLOv5進行環(huán)境異常檢測的有效性,包括火災、煙霧、水和漏油檢測。Wu等[28]通過改進SPP與NMS模塊提高了YOLOv5對小火焰目標的檢測效果,但對于形似火焰的光照仍存在誤檢。Huang等[29]使用YOLOv5提取火焰蔓延位置、蔓延速度和火焰寬度等火災發(fā)展關鍵參數(shù),可以為制定滅火救援戰(zhàn)術提供重要關鍵依據(jù),并以城市能源輸送的綜合管廊火災監(jiān)控為例說明有效性,但該場景較為昏暗,火災發(fā)生時特征明顯,與公路隧道存在差異。而目前YOLOv5在隧道火災領域的研究較為匱乏,因此針對上述問題,本文提出了一種改進YOLOv5的隧道火災檢測網(wǎng)絡,主要貢獻如下:
(1)使用3D卷積構建幀差網(wǎng)絡,將其銜接至YOLOv5形成隧道火災檢測網(wǎng)絡,使網(wǎng)絡可以融合視頻幀間的時空信息,提高檢測精度;同時優(yōu)化了損失函數(shù),模型可以更快收斂。
(2)基于訓練后的網(wǎng)絡,通過實驗選取最優(yōu)的隧道火災分析策略,形成了一種隧道火災檢測應用方法,可進一步降低漏檢、誤檢情況的發(fā)生。
(3)根據(jù)研究內(nèi)容構建了大型高分辨率隧道火災數(shù)據(jù)集。數(shù)據(jù)集以場景進行分類,添加公開數(shù)據(jù)集的部分場景進行擴充,增強網(wǎng)絡模型的魯棒性。
經(jīng)實驗驗證,本文方法可以有效提高隧道火災的檢測精度,且具有實時檢測的能力,可為隧道火災檢測提供重要參考。
YOLOv5是由Ultralytics公司提出的單階段目標檢測算法,在YOLOv4[30]的基礎上做了進一步的改進,模型尺寸更小,推理速度更快。YOLOv5的網(wǎng)絡結構如圖1所示,主要分為Backbone、Neck和Head三部分。
Backbone是檢測網(wǎng)絡的主干,包括Focus模塊、卷積層、B_CSP模塊和SPP模塊。其中,F(xiàn)ocus模塊設計目的用于降低FLOPS并提高速度。B_CSP模塊借鑒跨局部連接網(wǎng)絡(CSPNet)的設計思路,將基礎層的特征圖劃分為兩部分,通過CSP結構合并,實現(xiàn)更豐富梯度組合的同時減少了計算量,既保證了推理速度和準確率,又減小了模型尺寸。YOLOv5設計了2種CSP結構,Backbone中使用B_CSP_1,采用了殘差結構。SPP模塊為空間金字塔池化,通過4個不同大小的最大池化層進行下采樣,進行多尺度融合,增大感受野。
Neck將特征進行融合,包含F(xiàn)PN結構[31]和PAN結構[32]。FPN結構自頂向下傳遞特征,通過上采樣對信息進行融合,PAN結構為自底向上的特征金字塔,通過下采樣增強網(wǎng)絡特征融合的能力。主要生成特征金字塔,增強模型對于不同縮放尺度對象的檢測,從而能夠準確識別不同大小和尺度的同一物體。Neck中使用了B_CSP_2,沒有殘差結構。
Head主要用于最終檢測部分,在特征圖上應用anchor框,并生成帶有包圍框、對象置信度得分和類別概率的最終輸出向量。
YOLOv5檢測網(wǎng)絡有較高的檢測精度和速度,但在隧道火災檢測領域方面,因光線、車輛等因素的影響,檢測精度難以保證,本文提出了幀差網(wǎng)絡結構,設計了隧道火災檢測應用方法,并通過實驗驗證本文方法在隧道火災檢測方面的可行性。
火災在視頻中具有運動特性,但目前的單幀目標檢測算法只關注單幅圖像中目標的特征,對火災檢測來說無法做出及時準確的反應。因此本文設計了幀差網(wǎng)絡(frame difference network,F(xiàn)DN),既可以利用時間上下文信息消除幀間的信息冗余,又可以獲取目標在幀間的運動信息,補充單幀圖像中信息提供有限的問題,從而實現(xiàn)更快更準的檢測。FDN主要由3D卷積組成,在圖像的寬、高基礎上增加時間維度,增強CNN的學習能力,網(wǎng)絡結構如圖2所示,可以分為網(wǎng)絡輸入、3D切片、分支融合、網(wǎng)絡輸出四個模塊。
圖2 FDN網(wǎng)絡結構Fig.2 FDN network structure
(1)網(wǎng)絡輸入
使用3D卷積更適合于時空特征的學習,傳統(tǒng)的2D卷積,它僅在空間上完成;而3D卷積可以更好地建模時間信息,在時空上執(zhí)行。兩者運算的差異如圖3所示。對于單幅圖像的2D卷積將輸出一個圖像,在每次卷積運算后就會丟失數(shù)據(jù)的時間信息,只有3D卷積才能保留時間信息。
圖3 2D卷積和3D卷積運算Fig.3 2D convolution and 3D convolution operations
通常3D卷積運算較為耗時,且對設備要求較高,這會增加成本,網(wǎng)絡模型較大導致檢測速度會降低,同時網(wǎng)絡輸入的圖片數(shù)量也會影響計算量。因此FDN結構雖全部由3D卷積組成,但通過控制網(wǎng)絡輸入的圖片數(shù)量來降低計算量。這樣既可以提取目標的時空特征,又能夠降低網(wǎng)絡訓練對設備的要求,節(jié)約成本,還可以滿足實時檢測。
FDN網(wǎng)絡的輸入是通過滑動窗口在視頻中選取的關鍵幀,選取方法如圖4所示,其中藍色虛線框代表滑動窗口,棕色部分代表挑選出的關鍵幀。滑動窗口大小為0.5 s,選取相隔t的2幅圖像為關鍵幀作為網(wǎng)絡的輸入,并以前1幅圖像為主,圖像大小為640×640。
圖4 關鍵幀選取Fig.4 Key frame selection
火災發(fā)生后短時間內(nèi)目標形態(tài)跳變比較明顯,因此設置滑動窗口大小為0.5 s;又因相鄰幀時間跨度太小,目標的特征變化并不明顯,因此選擇相隔t挑選關鍵幀,t隨機生成,范圍在0.2 s到0.4 s之間。
(2)3D切片
網(wǎng)絡采用3D切片主要通過改進下采樣的方式降低模型的計算量,具體操作如圖5所示。對于輸入的2張圖片,每隔一個像素點取一個值,經(jīng)過Concat得到8張圖片,每4張為一組,組間圖片的信息是互補的,不存在信息丟失,這樣變向地將圖片的寬高信息整合到通道空間,原先的RGB三通道變成了12通道,最終經(jīng)過一個3D卷積,得到?jīng)]有信息丟失的而被下采樣特征圖。
圖5 3D切片示意圖Fig.5 3D slice diagram
普通下采樣與3D切片的計算量對比如圖6所示,可以發(fā)現(xiàn),3D切片的計算量約為普通卷積的55.6%,大大降低了模型的復雜度。(3)分支融合
圖6 計算量對比Fig.6 Comparison of calculation amount
隨著卷積神經(jīng)網(wǎng)絡層數(shù)的加深,輸出到輸入的路徑就會變得很長,這樣當反向傳播時易出現(xiàn)梯度消失的現(xiàn)象,同時梯度信息的重復利用也會導致神經(jīng)網(wǎng)絡在推理過程中計算量過高,檢測的速度變慢。因此使用分支融合設計可以將梯度的變化從頭到尾集成到特征圖中,提升網(wǎng)絡的學習能力。
將輸入通過一個3D卷積進行通道拆分,實現(xiàn)分支。其中一個分支將一半的特征經(jīng)過卷積核大小為3的3D卷積,獲得淺層特征。另一分支將一半的特征經(jīng)過稠密層(dense layer),獲得深層特征;最終經(jīng)過Concat將特征進行融合。稠密層除了常規(guī)卷積之外,增加了殘差結構(Res unit)可以增加層與層之間反向傳播的梯度值,避免因為網(wǎng)絡加深帶來的梯度消失,而且可以提取到更細粒度的特征,不用擔心網(wǎng)絡退化。
分支融合的做法可以為網(wǎng)絡各層均勻地分配計算量,提高每個計算單元的利用率,減少不必要的能耗。因為參與稠密層的通道只有原來的一半,所以可以減少近一半的計算瓶頸。同時這種層次化的特征融合機制,采用了截斷梯度流的策略來防止不同的層學習重復的梯度信息,最大化了梯度組合的差異,這樣在減少計算量的同時保證準確率。
(4)網(wǎng)絡輸出
將FDN銜接至YOLOv5網(wǎng)絡的Backbone處形成隧道火災幀差檢測網(wǎng)絡,具體銜接方式如圖7所示。
圖7 FDN銜接YOLOv5示意圖Fig.7 FDN connection YOLOv5 schematic diagram
去掉YOLOv5主干網(wǎng)絡中Focus模塊與一個2D卷積,在第一個B_CSP_1模塊處接入FDN。因為FDN為全3D卷積結構,而YOLOv5為2D卷積結構,F(xiàn)DN的輸出大小與YOLOv5的輸入大小是不同的,所以將FDN網(wǎng)絡的輸出經(jīng)過線性層(Linear),消除時間維度,并把對應位置的2幅特征圖融合,實現(xiàn)降維。最終FDN的輸出128×2×320×320變?yōu)?28×320×320,作為YOLOv5中B_CSP_1模塊的輸入,進行2D卷積提取特征的過程。
隧道火災幀差檢測網(wǎng)絡可以檢測單幅圖像及兩幅圖像,向下兼容。
YOLOv5的損失函數(shù)由邊界框損失、置信度損失和分類損失組成,如式(1)所示:
其中,Lbox為邊界框回歸損失,Lobj為置信度損失,Lcls為分類損失。
YOLOv5算法采用GIOU作為邊界框回歸的損失函數(shù),GIoU方法克服了IoU缺點的同時又充分利用了IoU的優(yōu)點,但對于預測框和目標框包含或者寬高對齊的情況,檢測精度會下降,收斂速度慢。為解決此問題,本文方法使用CIoU[33]計算邊界框回歸損失,同時針對火災檢測問題將置信度損失和分類損失融合,使用二值交叉熵損失函數(shù)計算。優(yōu)化后的損失函數(shù)計算公式如式(2)所示:
其中,L為總損失,LCIoU為邊界框回歸損失,LBCE為置信度和分類損失。
CIoU將目標與anchor之間的距離、重疊率、尺度以及寬高比都考慮進來,使目標回歸框更加穩(wěn)定,進一步快速收斂和提高性能。使用參數(shù)υ度量寬高比的相似性,計算如式(3)所示:
其中,w、h和wgt、hgt分別為預測框和真實框的寬和高。參數(shù)α為υ的權重函數(shù),重疊區(qū)域可以控制權重大小,計算如式(4)所示:
完整的CIoU函數(shù)計算如式(5)所示:
其中,IoU為預測框和真實框的交并比,ρ(·)為歐氏距離,b和bgt分別是預測框和真實框的中心點,c表示最小包圍預測框和真實框的對角線長度。
3.1.1 實驗環(huán)境
本文實驗在如表1所示的環(huán)境平臺上進行,編程語言為Python,深度學習框架為Pytorch。
表1 實驗環(huán)境Table 1 Experimental environment
3.1.2 TFD數(shù)據(jù)集
本文的實驗數(shù)據(jù)共包含2部分。一部分為根據(jù)現(xiàn)有研究數(shù)據(jù)構建了大型高分辨率隧道火災數(shù)據(jù)集(tunnel fire dataset,TFD)。數(shù)據(jù)集按照場景進行分類,包含4個公路隧道場景和1個隨機場景,隧道場景由4段高速公路隧道中的火災視頻制作而成,隨機場景由公開火災數(shù)據(jù)集與自制數(shù)據(jù)集組成。數(shù)據(jù)集示例如圖8所示。
圖8 各子集示例圖Fig.8 Example diagram of each TFD subset
據(jù)研究統(tǒng)計,隧道內(nèi)70%的火災事故是由車輛故障引起的,18%是由車輛交通事故引起的。由此可見車輛是隧道火災的主要成因。本文的TFD數(shù)據(jù)集主要包含這兩種情況,如子集1、3和4為車輛故障,子集2為車輛交通事故。因隧道內(nèi)火災位置發(fā)生的不確定性,在部分監(jiān)控視頻中火災為小目標,TFD中的子集3為遠景小目標。同時考慮到隧道的火災監(jiān)控視頻數(shù)據(jù)不易獲取,且隧道內(nèi)存在一些干擾因素會影響火災目標的檢測,因此在TFD中子集5由部分公開火災數(shù)據(jù)集樣本與自制樣本組成,子集5的作用在于增強火災目標的特征,增加在不同場景中的火災樣本,提高模型的魯棒性。
選用標注工具LabelImg對TFD的樣本進行標注,因火災為非剛性物體,沒有固定的形狀,在標注時存在人為因素的影響,因此制定標注規(guī)則:對火災的顯著性特征進行標注,盡可能降低背景信息。數(shù)據(jù)集共有23 612張樣本,各子集中訓練集、驗證集和測試集占比分別為60%、20%、20%,具體樣本數(shù)據(jù)統(tǒng)計結果如表2所示。
表2 TFD樣本數(shù)據(jù)統(tǒng)計Table 2 TFD sample data statistics
為了讓網(wǎng)絡能夠更好地學習火災目標的特征,TFD樣本數(shù)據(jù)在訓練前進行數(shù)據(jù)增強,以提高模型的魯棒性。本文使用的數(shù)據(jù)增強方法有灰度變換、高斯模糊;翻轉、裁剪、仿射變換和透視變換。其中仿射變換包含平移、旋轉和放縮,仿射變換和透視變換占比較大。數(shù)據(jù)增強如圖9所示。
圖9 數(shù)據(jù)增強示例Fig.9 Data enhancement example diagram
實驗數(shù)據(jù)的另一部分為本文整合2個公開數(shù)據(jù)集中的視頻數(shù)據(jù)組成的火災視頻集(fire video set,F(xiàn)VS),來源于江西財經(jīng)大學袁非牛教授團隊和韓國啟明大學火災視頻庫,包括火災視頻和非火災視頻。FVS不參與模型訓練,部分示例圖如圖10所示。
圖10 FVS示例圖Fig.10 Example diagram of FVS
本文共有兩類評價指標,一類評價模型,另一類評價應用方法。
模型評價包括訓練后模型檢測的準確率(precision,P)、召回率(recall,R)、平均精度(average precision,AP)、每秒檢測幀數(shù)(frames per second,F(xiàn)PS)和模型大?。╯ize,S),由公式(6)~(8)計算:
其中,TP為真正例,F(xiàn)P為假正例,F(xiàn)N為假負例。AP為以準確率和召回率分別為Y軸和FP X軸繪制曲線,進而計算所得。隧道火災檢測對應的P-R曲線如圖11所示。
圖11 P-R曲線Fig.11 P-R curve
應用方法的評價包括火災視頻的漏檢率(miss detection rate,M)和非火災視頻的誤檢率(wrong detection rate,W),由公式(9)、(10)計算:
其中,N為視頻總幀數(shù),df為檢測到火災目標的幀數(shù),wf為發(fā)生誤檢的幀數(shù)。
3.3.1 模型訓練
TFD通過本文網(wǎng)絡進行訓練,初始學習率為0.000 1,動量因子為0.9,迭代500輪,批處理大?。╞atch size)為64,網(wǎng)絡輸入大小為2×640×640。采用數(shù)據(jù)增強來增加訓練樣本,在訓練過程中保存訓練日志同時更新權重,根據(jù)損失函數(shù)對網(wǎng)絡進行調(diào)參至最優(yōu),選擇loss收斂時的權重作為最終權重,進行檢測。
loss變化曲線如圖12所示,可以看出,在訓練400輪之后,loss曲線趨于平滑,說明模型已收斂,選擇此時的權重進行實驗。
圖12 loss曲線Fig.12 loss curve
3.3.2 不同改進模塊的消融實驗
本文在第2章中提出了FDN網(wǎng)絡和CIoU損失函數(shù)優(yōu)化方法對YOLOv5進行改進。
FDN網(wǎng)絡整體使用3D卷積提取視頻幀間的圖像特征,由殘差結構和分支分別完成對深層特征的提取以及特征的融合。FND對YOLOv5的改進結果如表3所示。
表3 FDN改進結果Table 3 Improvement results of FDN
其中,F(xiàn)DN_1與FDN_2為不同結構的幀差網(wǎng)絡設計,F(xiàn)DN_1不包含殘差結構和分支,只使用3D卷積;FDN_2包含殘差結構但沒有分支;FDN既包含殘差結構又有分支。通過將這3種不同的幀差網(wǎng)絡銜接至YOLOv5,并與YOLOv5檢測網(wǎng)絡在檢測精度與速度進行對比,可以看出,4種方法的檢測速度基本持平,都可以滿足實時檢測;但在檢測精度方面,經(jīng)過3種不同幀差網(wǎng)絡的改進,與原YOLOv5相比,檢測的平均精度有了不同程度的提高,分別提高了0.3、2.43、6.84個百分點,其中FDN對于YOLOv5提升最為明顯,說明使用3D卷積提取幀間特征的方法對隧道火災檢測是有效的。FDN相比FDN_1和FDN_2對YOLOv5檢測精度提高了6.54、4.41個百分點,說明包含殘差結構與分支設計的FDN結構對YOLOv5的改進效果更好。
使用CIoU損失函數(shù)可以克服原GIoU損失函數(shù)的缺點,并使網(wǎng)絡可以快速收斂。通過圖13可以看出,GIoU損失函數(shù)在第460輪訓練開始收斂,而使用CIoU損失函數(shù)收斂的時間提前了60輪,這表明本文的loss函數(shù)加快了收斂速度。
圖13 loss改進結果Fig.13 Improvement results of loss
3.3.3 測試集檢測結果
本文方法TFD的測試集檢測的平均精度達到了91.03%,部分檢測結果如圖14所示。
圖14 本文方法部分檢測結果Fig.14 Test results of this method
圖14中(a)、(b)為隧道場景,(c)、(d)為其他場景。(a)和(c)中的火災目標區(qū)域較大,(b)和(d)中的火災目標區(qū)域較小,本文方法可以有效檢測到遠處火災目標以及小火災目標,并且有較高的置信度;(a)和(b)中場景較為復雜,受視頻分辨率和隧道、車輛燈光等因素的影響,本文方法依然可以在復雜情況下有效檢測火災目標;同時(a)、(b)和(c)、(d)的結果表明,針對隧道場景的模型在其他場景下也可以有效檢測火災目標。
實驗結果表明本文方法可以有效檢測隧道場景下的火災目標,且對于其他場景有一定的魯棒性,對于遠處小火災目標也有良好的檢測效果,能夠有效區(qū)分火災區(qū)域和非火災區(qū)域。
3.3.4 與先進檢測方法的對比實驗
為了進一步驗證本文方法在隧道火災檢測上的有效性,將本文方法與YOLOv3、YOLOv4、YOLOv5、Deformable DETR以及STPM等方法在TFD數(shù)據(jù)集上進行對比實驗分析,6種方法測試結果如表4所示。
表4 不同模型對比結果Table 4 Comparison results of different models
與YOLO系列算法進行對比,本文方法的AP與FPS相比YOLOv3和YOLOv4分別提升了21.75個百分點、49.0與14.5個百分點、27.4,在性能上有大幅度提高。本文方法相比YOLOv5,P、R、AP分別提升了5.6個百分點、5.34個百分點、6.84個百分點,因增加了幀差網(wǎng)絡,雖然FPS降低了2.7、模型大小S增加了1.5 MB,但卻以犧牲少量檢測速度為代價提升了檢測精度,使模型綜合性能更佳,達到了實時檢測的要求。
本文方法與Deformable DETR[34]相比,P、R、AP FPS分別提高了6.63個百分點、4.16個百分點、7.61個百分點、61.19,Deformable DETR是典型的使用transformers注意力機制的算法,更加關注局部特征。該算法整體性能較好,但模型較大,F(xiàn)PS僅為2.51,檢測速度慢,無法達到隧道火災實時檢測的需求。
火災屬于隧道中的意外性異常事件,STPM[35]是一種針對此類事件的異常檢測網(wǎng)絡。本文方法比STPM的P、R、AP、FPS提高了4.81個百分點、2.44個百分點、5.86個百分點、56.04。雖然STPM的檢測精度較高,但FPS為7.66,檢測速度較低,同樣無法滿足實時檢測的需求。
將標注的真值框和YOLOv4、YOLOv5、Deformable DETR、STPM以及本文方法的檢測結果進行對比,結果如圖15所示,為突出檢測區(qū)域,顯示時對框內(nèi)部做了顏色加深,同時馬賽克處理了敏感信息。
圖15 部分檢測結果對比Fig.15 Comparison of different test results
YOLOv4的檢測框區(qū)域普遍比真值框更小,結果受隧道內(nèi)燈光、車輛等因素的影響較大,誤檢情況較多,置信度低。YOLOv5的檢測框區(qū)域則比真值框大,結果受隧道燈光、車輛的影響較輕,但還存在誤檢和漏檢的情況,置信度較低。Deformable DETR檢測精度較高,但檢測框較真值框略大,且在第2、4、5幅圖的這種有較多車輛和燈光的復雜環(huán)境中,存在誤檢情況。STPM的檢測精度較高,僅低于本文方法,但檢測框區(qū)域同樣偏大,同時對于隧道這種昏暗的復雜場景中,如第3、4、5幅圖,環(huán)境中其他因素的干擾導致誤檢情況較為嚴重。以上4種方法的檢測精度均低于本文方法,存在不同程度的檢測框大小偏離以及誤檢情況。本文方法的檢測結果更貼近真值框,幀差網(wǎng)絡可以屏蔽大部分靜態(tài)因素的干擾,置信度較高。此外第一幅圖的對比結果表明,本文方法可以區(qū)分不連通的火災區(qū)域為不同目標,表明對火災目標的定位更加精確。
本文方法可以滿足隧道火災的實時檢測,并以每秒63.7幀的檢測速度,達到了91.03%的平均精度。本文方法的檢測結果位置更精確,置信度更高,抗干擾能力強,可以有效降低漏檢和誤檢情況的發(fā)生。實驗證明了本文方法對于隧道火災檢測的可行性。
3.3.5 魯棒性驗證
為了驗證本文方法的魯棒性,將本文方法訓練的模型在3.2節(jié)的FVS中進行實驗,結果如表5所示。
表5 本文方法在FVS的實驗結果Table 5 Results of thismethodin FVS
通過表5可以看出,在TFD上訓練的模型在FVS中的多個不同場景中的P、R、AP、FPS達到了83.26%、78.49%、85.34%、63.5,有較高的檢測精度和速度,表明本文方法模型具有良好的魯棒性。
本文提出了隧道火災幀差檢測網(wǎng)絡,并基于該網(wǎng)絡設計了不同的分析策略,形成隧道火災檢測應用方法,在隧道場景與其他場景下,對火災視頻和非火災視頻進行檢測測試,對比不同策略下的漏檢率和誤檢率,選取最優(yōu)的策略。
火災是一個持續(xù)的事件,單獨一幀圖像的檢測結果并不可靠,無法得出準確的判斷,因此可以通過對連續(xù)的多幀圖像進行分析,綜合判斷得到可靠準確的結果。中華人民共和國國家標準(GB 15631—2008)中特種火災探測器對于圖像型火災探測的響應時間規(guī)定為:從發(fā)生火災到發(fā)出火災報警信號的響應時間應不大于20 s。本文設計了不同的基于多幀圖像的火災判定方法:
(1)判斷連續(xù)10幀圖像是否均檢測到火災目標;
(2)判斷連續(xù)25幀圖像中存在火災目標的圖像是否大于等于20幀;
(3)判斷連續(xù)125幀圖像中存在火災目標的圖像是否大于等于100幀。
本文設計的隧道火災檢測應用方法在隧道場景和其他場景中使用不同策略進行測試,結果如表6所示。
表6 不同策略測試結果Table 6 Test results of different strategies
根據(jù)表6可以看出,策略(1)對于火災視頻在隧道場景的漏檢率為2.52%,比策略(2)和策略(3)分別低1.43個百分點和1.83個百分點;在其他場景的漏檢率為2.18%,比策略(2)和策略(3)分別低1.93個百分點和2.6個百分點。說明策略(1)判斷連續(xù)10幀均檢測到火災目標的方法可以有效降低漏檢情況的發(fā)生,提高了火災檢測的精度。
對于非火災視頻在隧道場景的誤檢率,策略(1)為2.03%,比策略(2)和策略(3)分別低2.77個百分點和4.38個百分點;在其他場景,策略(1)的誤檢率為1.82%,比策略(2)和策略(3)分別低2.23個百分點和5.2個百分點。說明策略(1)可以大幅降低算法在實際場景中檢測火災的漏檢率,使隧道火災檢測應用方法有更高的可靠性。
隧道火災檢測應用方法使用隧道火災幀差檢測網(wǎng)絡,通過判斷連續(xù)10幀圖像是否均檢測到火災目標,確定是否發(fā)生火災。實驗證明,隧道火災檢測應用方法具有較低的漏檢率和誤檢率,基本可以滿足實際應用場景的需求。
目前關于隧道火災檢測的研究方法和數(shù)據(jù)都比較缺乏,通過研究現(xiàn)有的火災檢測方法,本文提出了一種基于全卷積的隧道火災幀差網(wǎng)絡。FDN使用3D卷積提取關鍵幀的特征,有時序感知能力;CIoU函數(shù)優(yōu)化網(wǎng)絡的損失函數(shù),使模型可以更快收斂。通過隧道火災數(shù)據(jù)集和整合的公開火災視頻集進行實驗。
本文設計了改進模塊的消融實驗、與先進檢測器的對比實驗,結果表明,本文方法在數(shù)據(jù)集TFD上達到了91.03%的AP,每秒檢測速度高達63.7,模型在FVS上有很好的魯棒性。基于提出的隧道火災幀差網(wǎng)絡,通過實驗選取最優(yōu)的分析策略,構成隧道火災檢測應用方法。該方法能夠進行實際應用,可對隧道火災檢測提供重要參考。在之后的工作中,如何有效擴充隧道火災數(shù)據(jù)集是今后研究的重點;在保證檢測速度的前提下,通過3D卷積進行多幀檢測提升精度是今后研究的難點。