黨偉超, 張澤杰, 白尚旺, 龔大力, 吳喆峰
(1.太原科技大學 計算機科學與技術學院,山西 太原 030024;2.精英數智科技股份有限公司,山西 太原 030006)
穩(wěn)定的電力供應是保障煤礦安全生產的前提[1]。井下配電室是煤礦電力供應系統(tǒng)的重要一環(huán),因此,需要對井下配電室進行定期巡檢,及時發(fā)現隱患并進行處理[2]。當前判斷人員是否按規(guī)定完成巡檢任務,主要是通過檢查紙質記錄及監(jiān)控室人工監(jiān)視,存在巡檢人員作弊、人工監(jiān)視工作量大等問題。因此,有必要研究配電室巡檢行為智能識別方法,以確保巡檢人員按照規(guī)定完成巡檢,保障煤礦電力系統(tǒng)安全。
對于煤礦井下配電室巡檢行為檢測來說,其主導因素是人,對人體行為的視覺分析顯得尤為重要。卷積神經網絡(Convolution Neural Network, CNN)[3]由于其特殊的網絡結構,特別適用于計算機視覺任務。當前主流的基于CNN的人體行為識別方法主要有以下3種:① 三維卷積神經網絡(3D CNN)方法。Ji Shuiwang等[4]提出了3D CNN模型,將傳統(tǒng)的二維卷積神經網絡(2D CNN)模型拓展到3D CNN模型并提取空間和時間2個維度上的特征。D.Tran等[5]在文獻[4]的基礎上提出了可以基于視頻提取特征的 C3D網絡。但是,3D CNN模型的計算量很大,且當網絡深度增加時,在數據樣本不夠大的情況下,容易產生過擬合,人體行為識別效果不佳。② CNN與循環(huán)神經網絡結合的方法。J.Donahue等[6]提出了長期循環(huán)卷積神經網絡(Long-term Recurrent Convolutional Network, LRCN)。LRCN的結構包括長短期記憶網絡(Long Short-Term Memory,LSTM)和CNN兩部分。LRCN充分利用了視頻空間維度和時間維度上的信息,但是只能避免梯度消失問題,未解決梯度爆炸問題。③ 雙流CNN方法[7]。所謂雙流,即網絡由分別處理空間(RGB圖像幀)和時間(堆疊光流幀)維度的2個CNN組成。該方法采用多任務訓練方法將2個網絡進行融合,獲取行為特征,但是對長視頻中的行為識別效果不佳。
井下配電室監(jiān)控視頻持續(xù)時間較長且行為類型復雜,傳統(tǒng)雙流CNN方法對此類行為識別效果較差。針對該問題,本文對雙流CNN方法進行改進,提出了一種基于改進雙流法的井下配電室巡檢行為識別方法。首先,將每個巡檢視頻等分為3個部分,分別對應巡檢開始、巡檢中和巡檢結束;采用雙流CNN方法對各部分視頻進行分別處理,即隨機采樣獲取代表空間特征的RGB圖像及代表運動特征的10幀X方向和10幀Y方向的連續(xù)光流圖像;將RGB圖像和光流圖像分別輸入空間流CNN和時間流CNN進行特征提取,在各自流內對等分網絡的輸出特征進行融合;對2個流的預測特征進行加權融合,獲取巡檢行為識別結果。
配電室巡檢行為動作由一系列簡單動作組合而成,為保證每類動作分類準確,類型間差別明顯,對巡檢動作進行了詳細分解。根據煤礦配電室巡檢有關規(guī)定,巡檢人員應定時認真檢查各種儀表、線路、進線柜、出線柜等,以發(fā)現電力設備運行隱患,保證配電設備安全運行。巡檢過程中,巡檢人員除站立查看、檢測外,還需下蹲檢測線路、設備等,確保完成規(guī)定檢測;配電室范圍較大,完成整個配電室的巡檢需要多次走動;完成巡檢后,需按規(guī)定進行記錄,一般有站立記錄和坐下記錄2種情況。因此,將巡檢行為分為5類,分別為站立檢測、下蹲檢測、走動、站立記錄、坐下記錄。完成這5類中的4類即可認為完成了巡檢行為。
巡檢行為發(fā)生在背景較為固定的井下配電室,且由多個簡單動作組成,完成一次巡檢行為需要數分鐘。使用現有公開數據集進行模型訓練,巡檢動作識別效果較差,準確率不高,因此,專門制作了用于配電室巡檢行為識別的數據集IBDS5。IBDS5數據集采集于現有的煤礦井下配電室視頻監(jiān)控系統(tǒng)。攝像頭安裝于配電室入口處正上方,距地面2.5 m,光源對準配電室內部,確保能清晰地拍攝人物動作。共采集21段視頻(共計10.5 h),經過人工挑選從每段視頻中提取包含5類動作的樣本,共計提取400個視頻樣本,每類動作樣本數約為80個,每個視頻樣本長度約為5 s。巡檢動作分類如圖1所示。
站立檢測和下蹲檢測行為都可分為3個部分:與設備剛接觸、進行設備檢測和完成檢測后準備離開設備。如果對整個視頻進行隨機幀采樣,就不能很好地學習此類動作的特征。因此,將視頻分割成3個等長且不重疊的視頻段,對每段視頻分別進行RGB圖像幀和堆疊光流幀提取。將獲取到的圖像幀分別輸入對應的空間流網絡和時間流網絡進行特征提取,然后在各自流內對網絡輸出特征進行融合,最后對2個流的預測特征進行加權融合,獲取巡檢行為識別結果。巡檢行為識別總體框架如圖2所示。
(a)站立檢測
(b)下蹲檢測
(c)走動
(d)坐下記錄
(e)站立記錄
圖2 巡檢行為識別總體框架
將代表行為類別的視頻分割為3個等長的視頻段V1,V2,V3,基于分段采樣的時空雙通道CNN表達式為
(1)
式中:H為輸出函數,用于對識別結果進行分類,得到每個行為類別的概率值,本文選用softmax函數;g為聚合函數,用于對3個分段特征以均值方法進行融合,得到空間流或者時間流的特征;Tj表示視頻第j個分段的隨機采樣,j=1,2,3;F(Tj;W)表示用參數為W的CNN對Tj進行特征提取,時間流和空間流網絡在3個視頻片段上分別共享各自網絡的一套參數W。
softmax函數表達式為
(2)
式中Gi為分段共識函數,Gi=g(Fi(T1),Fi(T2),Fi(T3)),i=1,2,…,C,C為行為分類的總類別數,C=5。
通過softmax函數預測得到整段視頻被識別分類為每一類行為的概率。為避免訓練過程太慢,結合標準分類交叉熵損失函數,得到關于分段共識函數Gi的損失函數為
(3)
式中yi為第i類行為的真實標簽值。
模型是有梯度的,使用標準的反向傳播算法,利用多個片段來聯合優(yōu)化參數W。在反向傳播過程中,損失函數L(yi,Gi)對于模型參數W的梯度為
(4)
式中K為視頻分段數,K=3。
網絡是從3個視頻段即完整的視頻中學習模型參數,而不是從單一的短片段中學習模型參數。
通過空間流網絡對視頻中隨機采樣的靜態(tài)RGB圖像進行訓練,提取巡檢行為的空間特征。在靜態(tài)圖片識別過程中,目標物體的姿態(tài)與背景起著至關重要的作用。IBDS5數據集采集于煤礦井下,背景固定且變化較少,能更好地實現空間特征提取。
卷積網絡分類器以端到端的多層方式進行集成,通過網絡層數量的疊加豐富圖像特征。第一代經典的LeNet網絡模型集成了5層卷積層,后來逐漸發(fā)展出8層的AlexNet模型、19層的VggNet模型及22層的GoogLeNet模型。大量實驗表明,卷積層數的增加可以增強網絡學習能力,提高圖像分類準確率。但是增加網絡層數也會帶來隨機梯度消失問題,網絡準確率達到飽和狀態(tài)后會迅速下降,因此,CNN的層數最多為20。HE Kaiming等[8]提出了ResNet模型,并利用殘差網絡將CNN的層數增加到152,將錯誤率降低了3.75%。殘差網絡大大提高了圖像識別率。ResNet網絡不僅可以加深CNN的層數,而且有效解決了因層數疊加導致的訓練誤差增大的問題。本文采用ResNet152提取圖像的空間特征。
視頻中的運動信息對于行為識別至關重要,光流因其簡單實用并能表達圖像序列運動信息被廣泛用于提取行為運動特征。B.K.P.Horn等[9]推導出了圖像序列光流的計算公式,因光流數值接近0且有正有負,為了能夠作為時間流網絡通道的輸入,需要對其進行線性變換,最終將X,Y方向的光流保存為2張灰度圖像。本文使用TV-L1[10]方法提取視頻的光流幀,提取結果如圖3所示。
(a)X方向光流
(b)Y方向光流
時間流網絡和空間流網絡都采用ResNet152網絡進行巡檢行為識別。因為時間流和空間流網絡都在ImageNet[11]上進行預訓練,所以第1個卷積層輸入的通道數為3。空間流網絡輸入的是RGB圖像,不需要進行調整。而對于時間流來說,采用10幀X方向的連續(xù)堆疊光流幀和10幀Y方向的連續(xù)堆疊光流幀進行運動特征提取,相當于向網絡輸入20幅光流圖像,與第1個卷積層的通道數不匹配。采用跨模態(tài)交叉預訓練的方法解決該問題,即獲取第1個卷積層的3個通道的權值后,取其平均值,再復制20份作為時間流網絡第1個卷積層20個通道的權值,而時域網絡其他層的權值與空域對應層的權值參數相同。
由式(1)可得整個空間流網絡的行為識別結果Sspatial和時間流網絡的行為識別結果Stemporal分別為
Sspatial=g(F(T1;W),F(T2;W),F(T3;W))
(5)
Stemporal=g(F(T1;W),F(T2;W),F(T3;W))
(6)
對Sspatial和Stemporal進行加權求和,得到最后的視頻分類結果Slabels:
Slabels=k1Sspatial+k2Stemporal
(7)
式中k1,k2分別為空間流網絡和時間流網絡權值,均為正整數。
為了得到一個好的分類模型,機器學習方法需要足夠的訓練樣本用于學習。IBDS5數據集訓練樣本相對較少,為避免因訓練樣本數據不足造成過擬合情況,使用了數據增強和遷移學習技術。
通過數據增強技術,可擴大輸入數據的規(guī)模,增加樣本的差異性,并增強網絡模型的泛化能力。對RGB圖像幀和光流圖像幀使用了角度翻轉、平移變換、邊角剪裁、尺度抖動[12]等數據增強方法。邊角剪裁是指對輸入圖像的1個中心區(qū)域和邊緣4個角落區(qū)域進行裁剪,裁剪后的圖像與原圖像差異性較大,網絡輸入的變化增加,因此,能有效減小過擬合的影響。尺度抖動是指將輸入圖像裁剪為固定尺寸,本文將輸入圖像從1 920×1 080修正為256×340,然后裁剪寬和高,寬和高的尺寸在{256,224,196,168}中隨機采樣,再將裁剪區(qū)域尺寸修正為224×224后輸入對應網絡進行訓練。
遷移學習是指利用已有的知識來解決不同但相似的問題,即使用預訓練模型來克服目標任務數據不足的缺點。對于新目標任務,需要將預訓練網絡模型中最后一個用于分類的全連接層替換成新的針對目標任務類別數目的全連接層。本文采用的源域數據集為UCF101行為識別數據集,目標數據集為IBDS5數據集。首先對源域數據集進行處理,構建訓練集和測試集,并進行預處理;將預處理后的數據輸入ImageNet網絡中進行預訓練,保存參數;將預訓練保存的參數加載到目標域神經網絡模型(本文采用VGG16,ResNet18/34/50/101/152)中,并將模型中最后一個用于分類的全連接層設置為對應的5類輸出;最后對IBDS5數據集進行處理,并輸入遷移后的神經網絡模型中進行訓練,得到行為識別結果。
基于Pytorch1.1.0深度學習框架進行實驗,實驗所使用的硬件及軟件配置見表1。
在實驗過程中,將IBDS5數據集分為訓練集、測試集和驗證集3個部分。這3個部分之間沒有交集,數據量比例為3∶1∶1。
4.2.1 空間流網絡訓練
將每個包含巡檢行為的視頻等分為3段短視頻,從每段視頻中隨機抽取RGB圖像,輸入空間流網絡進行特征提取,然后融合3段視頻的識別結果,獲得空間流網絡的識別結果。
表1 實驗軟硬件配置
空間流網絡基本參數設置:初始學習率為0.000 1,批尺寸Batch-size為16,訓練2 000代,每50輪測試1次,超參數momentum為0.9。學習率是非常重要的一個超參數,甚至能左右模型性能,本文采用隨機梯度下降優(yōu)化算法,根據學習結果自動更新學習率。
為加快網絡收斂速度并抑制神經網絡過擬合現象[13],在全連接層后增加一個丟包層,對網絡進行優(yōu)化。在訓練過程中,隨機丟棄神經網絡單元及其連接,抑制過擬合現象。設置空間流網絡的丟失率為0.9。表2給出了網絡結構為VGG16,ResNet18,ResNet34,ResNet50,ResNet101,ResNet152的空間流網絡在IBDS5數據集上的準確率。其中Top-1準確率是指預測排名第一的類別與實際結果相符的概率。
從表2可看出,與其他網絡結構相比,ResNet152結構的空間流網絡取得了最高的行為識別準確率,Top-1準確率達到了94.47%。
4.2.2 時間流網絡訓練
時間流網絡訓練與空間流網絡訓練類似。將每個包含巡檢行為的視頻等分為3段短視頻,從每段視頻中隨機抽取10幀X方向和10幀Y方向的連續(xù)堆疊光流幀,輸入時間流網絡進行學習,然后融合3段視頻的識別結果,獲得時間流網絡的識別結果。
相對較大的初始學習率有利于網絡快速收斂,因此,設置初始學習率為0.001。丟失率設置為0.8。其他參數與空間流網絡參數相同。時間流網絡在IBDS5數據集上的準確率見表3。
從表3可看出,ResNet152結構的時間流網絡取得了最高的行為識別準確率,Top-1準確率達到了96.22%。
表3 時間流網絡在IBDS5數據集上的準確率
ResNet152結構的空間流網絡和時間流網絡性能最好,因此,對其進行進一步加權融合。設置多種權重比例進行實驗分析,結果見表4。
表4 雙流網絡在IBDS5數據集上的準確率
從表4可看出,當空間流和時間流的權重比例逐漸減小時,Top-1準確率逐漸上升,這說明時間流網絡提取的運動特征對巡檢行為識別有更重要的作用。當k1和k2的比例為1∶2時,Top-1準確率最高,達到了98.92%。而單獨空間流網絡使用ResNet152網絡的Top-1準確率為94.47%,單獨時間流網絡使用ResNet152網絡的Top-1準確率為96.22%,這說明集成雙流網絡的特征可以有效提升巡檢行為識別性能。
4.4.1 IBDS5數據集實驗
不同方法在IBDS5數據集上的準確率見表5。3D-CNN方法的Top-1準確率為92.48%,這是由于巡檢行為數據集樣本較少,出現了過擬合問題,導致識別效果不佳。傳統(tǒng)雙流CNN方法的Top-1準確率為94.27%,這是由于配電室巡檢監(jiān)控視頻持續(xù)時間較長,而傳統(tǒng)雙流CNN方法對含有復雜動作的長視頻識別效果不佳。雙流CNN+LSTM 方法[14]的Top-1準確率為95.86%,亦低于本文方法。
表5 不同方法在IBDS5數據集上的準確率
4.4.2 UCF101數據集實驗
為了進一步驗證本文方法的性能,使用UCF101數據集進行實驗。UCF101數據集是目前行為識別領域應用最廣泛的數據集,共包含101類動作,由25個人每人做4~7組動作,每個視頻時長為2~10 s,共13 320個視頻,共6.5 GB。
使用UCF101數據集訓練時,采用Split1訓練/測試分割方案,空間流網絡和時間流網絡的權重比例為1∶2,實驗結果見表6。
表6 不同方法在UCF101數據集上的準確率
對比表5和表6可知,各種方法在IBDS5數據集上的識別準確率均高于在UCF101數據集上的識別準確率。其原因在于IBDS5數據集的背景較固定,而UCF101數據集的背景變化較大,且人員遮擋問題較嚴重。
(1)提出了一種基于改進雙流法的井下配電室巡檢行為識別方法。自制配電室巡檢行為數據集IBDS5,通過實驗討論并分析了不同網絡結構和不同權重比例集成策略對識別準確率的影響。
(2)實驗結果表明,以ResNet152網絡結構為基礎,且權重比例為1∶2的空間流和時間流雙流融合網絡具有較高的識別準確率,Top-1準確率達到98.92%;本文方法在IBDS5數據集和公共數據集UCF101上的識別準確率均優(yōu)于3D-CNN、傳統(tǒng)雙流CNN等現有方法。
(3)本文方法仍存在以下不足:當多個巡檢人員同時巡檢時,巡檢人員之間可能出現相互遮擋的情況,造成誤識別和未識別問題。下一步工作將在多人巡檢行為識別方面進行研究,以滿足實際應用需求。