李 梅,郭 飛,張立中,王 波,張俊嶺,李兆桐
1) 國網(wǎng)寧夏電力有限公司,銀川 750001 2) 國網(wǎng)寧夏電力有限公司吳忠供電公司,吳忠 751101 3) 山東魯能軟件技術(shù)有限公司,濟(jì)南250001 4) 中國石油大學(xué)(華東)計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院,青島 266580
輸電線路的安全對國家的發(fā)展至關(guān)重要,由于吊車等大型機(jī)械運(yùn)作時的高度跟輸電線路的高度比較接近甚至更高,當(dāng)這些設(shè)備在輸電線附近進(jìn)行作業(yè)時會對輸電線路的安全造成威脅. 因此,設(shè)計(jì)一種能夠?qū)旊娋€路威脅進(jìn)行自動報警的方法顯得十分必要[1].
國家電網(wǎng)在輸電塔上配備了圖像抓拍設(shè)備,但目前其供電方式為太陽能充電,能夠提供的功率較小并且難以支撐監(jiān)控設(shè)備的長時間運(yùn)行. 因此,對輸電線路進(jìn)行全天候監(jiān)控并利用常規(guī)深度學(xué)習(xí)目標(biāo)檢測的方式來進(jìn)行報警變得不再可行.針對以上問題,本文提出了一種基于TATLNet的輸電線路威脅報警方法,該方法通過紅外傳感器來對過往的大型設(shè)備進(jìn)行監(jiān)控[2],當(dāng)檢測到大型機(jī)械時再喚醒系統(tǒng)加以分析以減少能耗. 利用本文提出的一種新的輸電線路威脅檢測網(wǎng)絡(luò)TATLNet,并用通道剪枝的策略來對模型進(jìn)行壓縮[3?5],提高檢測速度,使之可以在輕量級計(jì)算平臺上運(yùn)行. 同時,由于可以采集到的吊車、起重機(jī)等大型機(jī)械入侵圖像較少,采用傳統(tǒng)圖像幾何變換與GAN[6](Generative adversarial network,對抗生成網(wǎng)絡(luò))相結(jié)合的方式來對數(shù)據(jù)集進(jìn)行數(shù)據(jù)增強(qiáng).
該方法的貢獻(xiàn)主要有以下幾點(diǎn):
(1)解決了如何在無人值守的情況下對入侵輸電場地的吊車等大型機(jī)械進(jìn)行報警的難題;
(2)針對低能耗計(jì)算平臺的限制以及入侵輸電場地機(jī)械在圖像中的特點(diǎn),設(shè)計(jì)了一種新的端到端輸電線路威脅檢測網(wǎng)絡(luò)TATLNet;
(3)提出了目標(biāo)檢測的一個新思路,即將大多數(shù)計(jì)算用于提出更精確的候選區(qū)域,并針對具有較高準(zhǔn)確率的候選區(qū)域設(shè)計(jì)較小的分類網(wǎng)絡(luò).
目前對輸電線路威脅的監(jiān)控大多通過采集監(jiān)控圖像,并利用圖像匹配或者深度學(xué)習(xí)方法對圖像進(jìn)行分析. 文獻(xiàn)[7]中,攝像頭拍攝監(jiān)控區(qū)域圖像,通過對大型運(yùn)動目標(biāo)進(jìn)行實(shí)時匹配,來確定運(yùn)動目標(biāo)與輸電線路的位置和距離. 文獻(xiàn)[8]中,應(yīng)用紅外濾片式自動切換網(wǎng)絡(luò)攝像機(jī),對監(jiān)控區(qū)域進(jìn)行24 h全天候監(jiān)控,并將圖像上傳至服務(wù)器,在服務(wù)器中應(yīng)用混合高斯背景建模實(shí)現(xiàn)對大型機(jī)械入侵的定向識別.
自從Hinton等[9]在2012年提出深度學(xué)習(xí)的概念,深度學(xué)習(xí)便逐漸取代了傳統(tǒng)的檢測算法而成為目標(biāo)檢測領(lǐng)域的主流方法. 近年來深度學(xué)習(xí)的發(fā)展為輸電線路威脅報警提供了新的方案,卷積神經(jīng)網(wǎng)絡(luò)對于目標(biāo)的幾何變換、光照等因素適應(yīng)性較強(qiáng),有效克服了目標(biāo)外觀的多樣性帶來的識別阻力. 它可以根據(jù)輸入到網(wǎng)絡(luò)的數(shù)據(jù)而自動生成相應(yīng)的特征描述,具有較高的靈活性和普適性[10?13].
目前圖像中的目標(biāo)檢測主要分為單步檢測方法和兩步檢測方法兩種. 其中,單步檢測方法包括SSD(Single shot multibox detector)、YOLO(You only look once)和CornerNet(基于角點(diǎn)的目標(biāo)檢測神經(jīng)網(wǎng)絡(luò))等[14?16];兩步檢測方法包括如R-CNN(Region-CNN)、Fast R-CNN、Faster R-CNN和Mask R-CNN等[17?20]. 單步檢測方法直接在圖像上經(jīng)過計(jì)算生成檢測結(jié)果;兩步檢測方法先在圖像上提取候選區(qū)域,再基于候選區(qū)域進(jìn)行特征提取,然后在圖像中進(jìn)行預(yù)測. 相對來說單步檢測方法速度快,準(zhǔn)確率略低;而兩步檢測方法準(zhǔn)確率高,速度略慢. 但是因?yàn)檩旊娝系脑O(shè)備由太陽能電池供電,攝像頭無法全天開啟并且難以支撐大型計(jì)算平臺的運(yùn)行,因此上述傳統(tǒng)目標(biāo)檢測方法在此場景下并不適用. 而最近新提出的YOLO-Lite、MobileNet和ShuffleNet等輕型網(wǎng)絡(luò)結(jié)構(gòu)[21?23],盡管在速度和體積上有了極大的提升,但因此產(chǎn)生的準(zhǔn)確率損失使得其難以在此場景下滿足檢測要求.
綜上所述,將深度學(xué)習(xí)用于輸電場景的威脅報警是當(dāng)前的一個研究趨勢. 目前常規(guī)的深度學(xué)習(xí)方法已經(jīng)取得了一定的效果,但是在檢測準(zhǔn)確率和效率方面仍有一定的提升空間,并且在限定能耗的條件下也不再適用. 因此,針對輸電場景大型機(jī)械入侵的偶然性和圖像特征,需要提出一整套新的輸電場景大型機(jī)械入侵檢測方法.
基于TATLNet的輸電場景下的威脅報警方法通過開啟或者關(guān)閉紅外傳感器控制系統(tǒng)來減少運(yùn)行能耗,當(dāng)紅外傳感器探測到大型機(jī)械的運(yùn)行時會喚醒攝像頭并加載神經(jīng)網(wǎng)絡(luò),在對攝像頭采集的視頻解碼后將圖像傳輸至輸電線路威脅檢測網(wǎng)絡(luò)TATLNet. TATLNet分為可疑區(qū)域生成網(wǎng)絡(luò)VRGNet(Vehicle regions generation network)和威脅判別網(wǎng)絡(luò)VTCNet(Vehicle threat classification network). VRGNet提取圖像中可能存在目標(biāo)的區(qū)域,VTCNet實(shí)現(xiàn)與VRGNet的特征共享并對候選區(qū)域進(jìn)行進(jìn)一步的分類. 檢測結(jié)果通過無線傳輸發(fā)送至服務(wù)器,在服務(wù)器上實(shí)現(xiàn)對大型機(jī)械入侵的報警,流程圖如圖1所示.
圖 1 系統(tǒng)流程圖Fig.1 System flow chart
由于可以獲得的數(shù)據(jù)集樣本較少,采用多種數(shù)據(jù)增強(qiáng)方式對數(shù)據(jù)集進(jìn)行擴(kuò)充,包括傳統(tǒng)的幾何變換數(shù)據(jù)增強(qiáng)和GAN生成新圖像的數(shù)據(jù)增強(qiáng)方法. 在用GAN對數(shù)據(jù)集進(jìn)行擴(kuò)充時,采用深度卷積對抗生成網(wǎng)絡(luò)(Deep convolutional generative adversarial network,DCGAN)來生成新的圖像[24].考慮計(jì)算機(jī)顯存的限制,在訓(xùn)練時統(tǒng)一將圖像在960×640像素的尺寸上進(jìn)行訓(xùn)練,每16張圖像為一個批次,訓(xùn)練過程中生成的圖像樣本如圖2(a)所示. 對于傳統(tǒng)的圖像幾何變換方法,采用隨機(jī)裁剪、水平翻轉(zhuǎn)、圖像傾斜、添加噪聲和圖像縮放的方式對數(shù)據(jù)集進(jìn)行了擴(kuò)充,圖2(b)為添加椒鹽噪聲的圖像.
圖 2 數(shù)據(jù)增強(qiáng)圖像. (a) GAN生成圖像;(b)椒鹽噪聲圖像Fig.2 Images from data enhancement: (a)image generated from GAN;(b) image with salt and pepper noise
針對計(jì)算平臺低能耗的需求以及入侵輸電場地的機(jī)械在圖像中的特點(diǎn),設(shè)計(jì)了一種端到端的輸電線路威脅檢測網(wǎng)絡(luò)TATLNet,分別設(shè)計(jì)可疑區(qū)域生成網(wǎng)絡(luò)VRGNet和吊車分類網(wǎng)絡(luò)VTCNet兩部分,并采用模型壓縮的方式來對模型進(jìn)行壓縮以減少非必要參數(shù)數(shù)量、縮小模型體積、提高運(yùn)算速度. 其中,VRGNet負(fù)責(zé)輸電場景下吊車的粗略檢測,VTCNet負(fù)責(zé)對VRGNet的檢測結(jié)果進(jìn)行進(jìn)一步判斷(可以將VRGNet視為一個更為精確的RPN[25]),VTCNet與VRGNet共享部分卷積層以減少檢測的計(jì)算量,TATLNet結(jié)構(gòu)圖如圖3所示.
2.3.1 VRGNet結(jié)構(gòu)設(shè)計(jì)
VRGNet借鑒了YOLO邊框回歸計(jì)算的思想,并對其主體網(wǎng)絡(luò)做了一定的精簡以盡可能縮小模型的體積,網(wǎng)絡(luò)結(jié)構(gòu)如圖4所示,其中Conv為卷積層(Convolutional layer),同時包含一個最大池化層(Max pooling layer)和relu激活層(Rectified linear unit layer),F(xiàn)c為全連接層(Fully connection layer).首先將輸入圖像縮放至統(tǒng)一尺寸后在圖像中劃分出多個網(wǎng)格,如果目標(biāo)中心點(diǎn)落在某個網(wǎng)格中,則該網(wǎng)格就負(fù)責(zé)對該目標(biāo)的檢測. 由于大型機(jī)械在運(yùn)作時不會十分密集,并且該網(wǎng)絡(luò)的主要任務(wù)為檢測大型機(jī)械是否存在,對目標(biāo)的個數(shù)沒有很高的要求,因此每個網(wǎng)格只預(yù)測至多一個目標(biāo)出現(xiàn)的坐標(biāo)和概率. 由于需要檢測的目標(biāo)只有吊車這一類,所以VRGNet并不需要單獨(dú)的分類器,因而舍棄了目標(biāo)類別預(yù)測的分支,采用置信度來衡量邊框中存在目標(biāo)的概率. 根據(jù)對數(shù)據(jù)集中吊車尺寸的統(tǒng)計(jì),可以發(fā)現(xiàn)圖像中目標(biāo)的尺寸大小沒有大的波動,因此舍棄了特征金字塔結(jié)構(gòu)[14]來減小計(jì)算量. 經(jīng)過實(shí)驗(yàn),將圖像劃分為9×9的網(wǎng)格時模型準(zhǔn)確率最高.
圖 3 TATLNet結(jié)構(gòu)圖Fig.3 Structure of TATLNet
圖 4 VRGNet結(jié)構(gòu)圖Fig.4 Structure of VRGNet
2.3.2 VTCNet結(jié)構(gòu)設(shè)計(jì)
對于由VRGNet經(jīng)過回歸計(jì)算得到的可疑區(qū)域坐標(biāo),將其映射到VRGNet得到的特征圖上. 由此VTCNet與VRGNet實(shí)現(xiàn)了部分特征共享,所以VTCNet對候選區(qū)域圖像的判別不必從原圖開始對候選區(qū)域進(jìn)行特征提取,因此VTCNet層數(shù)不必太多,由此可以大幅度減少由圖像特征提取帶來的計(jì)算量. 如圖5所示,VTCNet根據(jù)區(qū)域坐標(biāo)在特征圖上得到候選區(qū)域,通過RoIPooling以及雙線性插值將候選區(qū)域縮放至統(tǒng)一尺寸,經(jīng)過兩個卷積層后通過一個全連接層生成固定長度的特征向量,該向量通過Softmax算法實(shí)現(xiàn)對候選區(qū)域的判別.
圖 5 VTCNet結(jié)構(gòu)圖Fig.5 Structure of VTCNet
2.3.3 損失函數(shù)設(shè)計(jì)
由于TATLNet只需要檢測一類目標(biāo)而不用進(jìn)行多類別分類,所以最終的分類損失函數(shù)只需要判斷單類別的置信度,目標(biāo)置信度Lconf采用交叉熵?fù)p失函數(shù),具體如公式(1)所示.
其中,S2表示網(wǎng)格單元的總數(shù),Ci表示第i個網(wǎng)格目標(biāo)檢測器所產(chǎn)生的預(yù)測結(jié)果的置信度,C*i表示預(yù)測目標(biāo)框與真實(shí)目標(biāo)之間的交并比. 目標(biāo)坐標(biāo)的損失函數(shù)Lloc如公式(2)所示,其中pro代表所有目標(biāo),(xi,yi)表示第i個網(wǎng)格所產(chǎn)生的預(yù)測結(jié)果的中心點(diǎn)坐標(biāo),(x*i,y*i)為真實(shí)的中心點(diǎn)坐標(biāo). 相應(yīng)地,(wi,hi)和(w*i,h*i)分別代表預(yù)測目標(biāo)和真實(shí)目標(biāo)的寬、高.
結(jié)合TATLNet的結(jié)構(gòu)圖,如公式(3)所示,TATLNet的損失函數(shù)L可以設(shè)計(jì)為對置信度損失和坐標(biāo)損失的加權(quán)相加,其中α為加權(quán)系數(shù).
2.3.4 模型壓縮
通過通道剪枝的方式來對模型進(jìn)行壓縮,對已經(jīng)訓(xùn)練好的模型,選擇出相對不重要的通道,將這些通道刪除,然后構(gòu)造新的模型圖,經(jīng)過重新訓(xùn)練,恢復(fù)原先模型的準(zhǔn)確率,消除由于模型壓縮帶來的準(zhǔn)確率損失.
對于每一個通道上的卷積核,首先計(jì)算出其Frobenius范數(shù). 然后將其二值化,即如果計(jì)算出的Frobenius范數(shù)大于0則令其為1,如果等于0則保持不變. 將通道上的這一指標(biāo)累加起來,以此找出神經(jīng)網(wǎng)絡(luò)各層中的冗余通道,實(shí)現(xiàn)對神經(jīng)網(wǎng)絡(luò)作用較小的分支的剪枝,獲得體積更小的模型圖.通過剪枝獲得的模型,利用訓(xùn)練集進(jìn)行重新訓(xùn)練,以彌補(bǔ)由于剪枝帶來的準(zhǔn)確率損失,在不損失模型準(zhǔn)確率的基礎(chǔ)上實(shí)現(xiàn)對深度學(xué)習(xí)模型的體積壓縮和速度提升.
為了測試TATLNet的各項(xiàng)性能指標(biāo),在英偉達(dá)輕量級計(jì)算平臺 NVIDIA Tegra X2 上進(jìn)行了各項(xiàng)實(shí)驗(yàn),算法的性能以準(zhǔn)確率(Precision)、召回率(Recall)和檢測效率(Efficiency)為指標(biāo):
其中,TP為測試集檢測對的目標(biāo)數(shù);FP為漏檢數(shù);FN為誤檢數(shù);Time為算法在測試集進(jìn)行推理上所用時間總和,ms;Number為測試集樣本總數(shù).
考慮現(xiàn)場監(jiān)控場景下目標(biāo)在監(jiān)控圖像中的比例對檢測結(jié)果的影響,為了選取合適的VRGNet網(wǎng)格單元劃分比例,對不同尺度網(wǎng)格單元下的檢測模型進(jìn)行測試,訓(xùn)練數(shù)據(jù)和測試數(shù)據(jù)均采用自制的吊車圖像數(shù)據(jù)集,測試結(jié)果如表1所示. 可以看出,隨著網(wǎng)格數(shù)目的增加,準(zhǔn)確率也隨之增加,而召回率有先增加后降低的趨勢,檢測效率則隨著網(wǎng)格的增加迅速降低. 綜合準(zhǔn)確率與檢測效率,9×9為最優(yōu)網(wǎng)格劃分方案.
表 1 VRGNet中網(wǎng)格劃分對檢測結(jié)果的影響Table 1 Different strategies of grid cells partitioning
為了測試該方法所采用的數(shù)據(jù)增強(qiáng)技術(shù)對準(zhǔn)確率的影響,對無數(shù)據(jù)增強(qiáng)、傳統(tǒng)的圖像幾何變換、GAN以及GAN與圖形變換相結(jié)合的方式進(jìn)行了對照實(shí)驗(yàn),其中原始圖像500張,傳統(tǒng)的圖像幾何變換生成新的圖像1500張,GAN生成新圖像1500張. 實(shí)驗(yàn)結(jié)果表2所示,可以看出,GAN與傳統(tǒng)圖像幾何變換相結(jié)合的方式可以極大地提高模型的準(zhǔn)確率.
表 2 數(shù)據(jù)增強(qiáng)效果Table 2 Effect of data enhancement %
一般而言,輸入圖像的尺寸越高,神經(jīng)網(wǎng)絡(luò)檢測的準(zhǔn)確率越高,與此同時會伴隨著推理時間的增加. 為了在模型準(zhǔn)確率和推理速度之間達(dá)到平衡,對輸入圖像的不同尺寸進(jìn)行了測試,測試結(jié)果表3所示. 根據(jù)實(shí)際場景的需要,綜合檢測準(zhǔn)確率和效率,選擇480×480像素作為最終的圖像輸入尺寸.
表 3 不同輸入圖像尺寸的比較Table 3 Comparison of different image scales
為了測試TATLNet的性能,將其與未經(jīng)壓縮的TATLNet、MobileNet和ShuffleNet進(jìn)行了對比實(shí)驗(yàn),實(shí)驗(yàn)結(jié)果如表4所示. 可以看出,經(jīng)過壓縮以后的TATLNet在準(zhǔn)確率損失可控的情況下實(shí)現(xiàn)了檢測速度的大幅提升. 跟其他輕量級目標(biāo)檢測算法相比,無論是檢測準(zhǔn)確率還是檢測效率,壓縮后的TATLNet都要更勝一籌.
表 4 與其他方法的比較Table 4 Comparison with other methods
為了測試方法性能,在寧夏省銀川市進(jìn)行了現(xiàn)場部署測試. 現(xiàn)場使用的攝像機(jī)為HIKVISION DS-2CD3T25D-I5,安裝在50個輸電塔35~40 m的高度,采集到的圖像尺寸為1920×1080像素,計(jì)算平臺為NVIDIA Tegra X2,生成的識別結(jié)果示例如圖6所示,在一個月中的報警數(shù)據(jù)如表5所示.
從中可以看出,該方法可以有效地檢測出攝像頭監(jiān)控范圍內(nèi)入侵的吊車等大型機(jī)械,并且對于距離較遠(yuǎn)的目標(biāo)也具有較高的準(zhǔn)確性.
圖 6 實(shí)地部署檢測效果Fig.6 Detection result in field deployment
表 5 現(xiàn)場部署檢測統(tǒng)計(jì)Table 5 Detection statistics in field deployment
針對輸電場景中的大型機(jī)械檢測問題,本文以一種新的輸電線路威脅檢測網(wǎng)絡(luò)TATLNet為主體提出了一種基于深度學(xué)習(xí)的輸電線路威脅報警方法. 通過一系列實(shí)驗(yàn)證明了TATLNet在對大型入侵機(jī)械上的優(yōu)越性,并測試了不同的檢測策略及超參數(shù)對檢測準(zhǔn)確率和效率的影響,實(shí)現(xiàn)了輸電場景下大型機(jī)械入侵檢測的優(yōu)化研究. 主要結(jié)論為:
(1)以傳統(tǒng)幾何變換與GAN相結(jié)合的方式進(jìn)行數(shù)據(jù)增強(qiáng),在此情境下可以獲得最高的準(zhǔn)確率增益.
(2)采用模型壓縮策略可以在不大量損失準(zhǔn)確率的前提下實(shí)現(xiàn)檢測速度的大幅提升.
(3)以準(zhǔn)確率、召回率和檢測效率作為評價指標(biāo),對網(wǎng)格劃分策略以及輸入圖像尺寸進(jìn)行比較,在將圖片劃分為9×9時各項(xiàng)指標(biāo)達(dá)到最優(yōu),圖像輸入尺寸在480×480像素時準(zhǔn)確率和效率達(dá)到最佳平衡.
(4)通過跟其他檢測方法的對比實(shí)驗(yàn)以及現(xiàn)場部署結(jié)果表明,該方法在準(zhǔn)確率和效率上都要優(yōu)于已有算法,具有較強(qiáng)的可用性、實(shí)時性和健壯性.
在實(shí)際應(yīng)用中發(fā)現(xiàn)了新的業(yè)務(wù)優(yōu)化需求,由于該方法檢測圖像中的所有大型機(jī)械并發(fā)出提示,會產(chǎn)生一定的誤報警. 在后續(xù)的研究中將會對系統(tǒng)進(jìn)行進(jìn)一步延伸,實(shí)現(xiàn)大型機(jī)械與輸電線路相對距離的檢測,從而消除大型機(jī)械在輸電線路威脅距離以外時產(chǎn)生的報警.