林 磊,錢 平,董 毅,陳志偉
(1.國(guó)網(wǎng)浙江省電力有限公司,杭州 310007;2.杭州馬太能源互聯(lián)網(wǎng)技術(shù)有限公司,杭州 310012;3.浙江華云信息科技有限公司,杭州 310008)
變電站是電能長(zhǎng)距離輸送過程中升降電壓工作的主要完成場(chǎng)所,其首要任務(wù)是為生產(chǎn)裝置提供安全穩(wěn)定的電源供應(yīng)。在電能傳輸過程中,往往需要多個(gè)變電站才能滿足長(zhǎng)距離、大范圍等各種復(fù)雜供電需求[1]。為了保證變電站的安全穩(wěn)定運(yùn)行,需建立變電站安全監(jiān)控和保護(hù)系統(tǒng)。對(duì)變電站進(jìn)行實(shí)時(shí)安全監(jiān)控,是確保變電站安全穩(wěn)定工作的必要條件。傳統(tǒng)的變電站在線監(jiān)測(cè)系統(tǒng)主要是以數(shù)字波形采集和處理技術(shù)為核心,這些系統(tǒng)利用先進(jìn)的傳感器技術(shù)和數(shù)字波形采集和處理等技術(shù)[2],其主要檢測(cè)對(duì)象為變電站元器件,并不能對(duì)出現(xiàn)在變電站的行人進(jìn)行安全監(jiān)測(cè)。行人檢測(cè)由于很難用傳統(tǒng)的信號(hào)或者傳感器信號(hào)來進(jìn)行表征,因而對(duì)于傳統(tǒng)的變電站在線監(jiān)測(cè)系統(tǒng)來說是難以完成的任務(wù)。
近年來,隨著深度學(xué)習(xí)技術(shù)的發(fā)展,借助深度學(xué)習(xí)技術(shù)等人工智能算法來進(jìn)行計(jì)算機(jī)視覺領(lǐng)域內(nèi)的行人檢測(cè)問題研究,已經(jīng)取得比傳統(tǒng)的機(jī)器學(xué)習(xí)好得多的成果[3-8]。文獻(xiàn)[3]利用多個(gè)基于深度神經(jīng)網(wǎng)絡(luò)的粒度檢測(cè)器來進(jìn)行行人檢測(cè),特別是有遮擋的行人檢測(cè),其特點(diǎn)之一是所提出的檢測(cè)器可以被弱標(biāo)記數(shù)據(jù)進(jìn)行訓(xùn)練。文獻(xiàn)[4]提出了一個(gè)統(tǒng)一的深度模型來進(jìn)行聯(lián)合式的特征提取、部件檢測(cè)和遮擋分類等學(xué)習(xí)任務(wù),因?yàn)樵趯W(xué)習(xí)過程中組件之間進(jìn)行了充足的相互交互,因而當(dāng)這些組件被統(tǒng)一起來進(jìn)行行人檢測(cè)的時(shí)候,每個(gè)組件都能最充分地發(fā)揮作用。以往大部分的深度學(xué)習(xí)將行人檢測(cè)作為二值分類問題進(jìn)行處理,這樣易與困難的負(fù)樣本混淆,文獻(xiàn)[5]將行人檢測(cè)細(xì)分為行人屬性(背部,性別和視角)和場(chǎng)景屬性(車輛,樹木等),目標(biāo)是在高層特征空間分離或聚合相似的屬性結(jié)構(gòu)下進(jìn)行行人檢測(cè)。
基于先進(jìn)的深度學(xué)習(xí)技術(shù)在變電站環(huán)境下對(duì)行人進(jìn)行安全檢測(cè),即當(dāng)有行人出現(xiàn)在變電站監(jiān)控場(chǎng)景中時(shí),可以及時(shí)進(jìn)行自動(dòng)化的檢測(cè)并發(fā)出警報(bào),達(dá)到變電站安全監(jiān)控和減少人員觸電事故的目的。變電站場(chǎng)景下進(jìn)行行人檢測(cè)的難點(diǎn)主要體現(xiàn)在以下方面:
(1)復(fù)雜的環(huán)境。變電站中充滿各種電容設(shè)備和電線,導(dǎo)致整個(gè)監(jiān)控畫面干擾噪音非常多。
(2)訓(xùn)練數(shù)據(jù)不足。眾所周知,計(jì)算機(jī)視覺領(lǐng)域中,當(dāng)前性能較好的主流算法都是基于訓(xùn)練學(xué)習(xí)的。目前尚沒有大型的變電站場(chǎng)景下行人檢測(cè)的數(shù)據(jù)集發(fā)布。
(3)行人過小。變電站環(huán)境下,監(jiān)控?cái)z像機(jī)一般架設(shè)在距離變電站電桿較遠(yuǎn)的地方,以便能較多地覆蓋多個(gè)電桿,因而在監(jiān)控畫面中出現(xiàn)行人的尺寸會(huì)非常小。
基于深度學(xué)習(xí)的卷積神經(jīng)模型在完成變電站環(huán)境下行人檢測(cè)任務(wù)時(shí)主要面對(duì)以下2個(gè)難點(diǎn):其一,大多數(shù)深度學(xué)習(xí)的模型都是海量數(shù)據(jù)驅(qū)動(dòng)的,需要大量的訓(xùn)練數(shù)據(jù),而到目前為止,無論學(xué)術(shù)界還是工業(yè)界都沒有發(fā)布任何變電站背景下行人檢測(cè)的數(shù)據(jù)集;其二,目前主流的基于深度卷積網(wǎng)絡(luò)的物體檢測(cè)和行人檢測(cè)方法對(duì)小物體的檢測(cè)能力不足,這是因?yàn)殡S著卷積網(wǎng)絡(luò)感受野的增大,特征圖上的精細(xì)信息會(huì)不斷減少,而在變電站監(jiān)控環(huán)境下,人在畫面中所占的面積非常小,這就導(dǎo)致一般的卷積網(wǎng)絡(luò)對(duì)變電站的行人檢測(cè)能力不足。如果以上2個(gè)難點(diǎn)能被很好地解決,則基于深度卷積網(wǎng)絡(luò)進(jìn)行變電站場(chǎng)景下行人安全檢測(cè)將變得可行。
針對(duì)以上難點(diǎn),提出了切實(shí)可行的解決方案:首先,運(yùn)用遷移學(xué)習(xí)技術(shù)來解決變電站行人檢測(cè)訓(xùn)練數(shù)據(jù)不足問題[9-10];其次,針對(duì)主流卷積網(wǎng)絡(luò)對(duì)小物體檢測(cè)能力不足的問題,運(yùn)用全卷積大尺度檢測(cè)技術(shù)來解決;最后,對(duì)提出的方法進(jìn)行實(shí)驗(yàn)驗(yàn)證。
當(dāng)前,已有很多基于深度學(xué)習(xí)的物體檢測(cè)模型被提出, 例如 VGG16[11], Faster RCNN[12],SSD[13],YOLO[14],ResNet[15]等,這些模型往往被設(shè)計(jì)用來對(duì)多類目標(biāo)(例如汽車、自行車、椅子、牛等)進(jìn)行檢測(cè),它們具有精巧的模型結(jié)構(gòu),同時(shí)模型參數(shù)在海量數(shù)據(jù)集上進(jìn)行了訓(xùn)練,因而在大部分的大型數(shù)據(jù)集上(如PASCAL VOC 2012,MS COCO和ImageNet等)都表現(xiàn)出了優(yōu)異的測(cè)試效果。這些模型由于其優(yōu)異的多目標(biāo)檢測(cè)性能,也為設(shè)計(jì)行人檢測(cè)等單目標(biāo)網(wǎng)絡(luò)結(jié)構(gòu)提供了參考。參考SSD來設(shè)計(jì)行人檢測(cè)網(wǎng)絡(luò)結(jié)構(gòu),原因在于:SSD是一個(gè)全卷積網(wǎng)絡(luò),可以適用任意大小的圖片;由于其全卷積的特點(diǎn),所以運(yùn)行速度非???,而且準(zhǔn)確率也很高。SSD是一個(gè)28層的全卷積神經(jīng)網(wǎng)絡(luò),它首先繼承了VGG 16的前13層,然后添加了9層卷積層,最后運(yùn)用6個(gè)卷積分類器在不同的特征圖上進(jìn)行物體檢測(cè)。然而,作為一個(gè)28層的深度網(wǎng)絡(luò),據(jù)報(bào)告,SSD對(duì)小物體的檢測(cè)力度不足,這是因?yàn)殡S著網(wǎng)絡(luò)的不斷加深,每一個(gè)卷積層的感受野會(huì)不斷增大,對(duì)精細(xì)的特征感知能力會(huì)不斷下降。SSD網(wǎng)絡(luò)結(jié)構(gòu)見圖1。
為了檢測(cè)變電站行人,在借鑒SSD的基礎(chǔ)上,采用了全卷積大尺度的檢測(cè)策略?!按蟪叨取笔侵赶鄬?duì)于一般的神經(jīng)網(wǎng)絡(luò),行人檢測(cè)卷積神經(jīng)網(wǎng)絡(luò)輸入圖片的尺寸比較大,一般的網(wǎng)絡(luò)往往最多采用700×700大小的輸入尺度,為了提高對(duì)小物體的檢測(cè)力度,該網(wǎng)絡(luò)采用900×900大小的輸入尺度,這樣能保證有更多的細(xì)節(jié)性特征被傳遞到深層的網(wǎng)絡(luò)以供檢測(cè)?!叭矸e”描述了該網(wǎng)絡(luò)結(jié)構(gòu)的特征,即整個(gè)網(wǎng)絡(luò)都是由卷積層構(gòu)成的,這樣方便使用不同尺度大小的圖片作為輸入,在實(shí)際應(yīng)用過程中,可以方便地根據(jù)變電站場(chǎng)景下行人的大小來調(diào)整輸入圖片的大小,因此,全卷積提高了網(wǎng)絡(luò)結(jié)構(gòu)的可擴(kuò)展性。這2個(gè)方面構(gòu)成了全卷積大尺度變電站行人檢測(cè)的基礎(chǔ)。
網(wǎng)絡(luò)結(jié)構(gòu)具體配置為:首先是輸入圖片層,接收3通道RGB圖片;然后,先繼承了VGG16的前13層,原始的VGG16因?yàn)榘矸e結(jié)構(gòu),不適用于任意尺寸的圖片,但VGG16是在大型數(shù)據(jù)集上訓(xùn)練得較為充分的經(jīng)典網(wǎng)絡(luò)結(jié)構(gòu),其對(duì)圖片的特征提取能力較好,因此,為了對(duì)輸入圖片進(jìn)行較好的特征提取,并達(dá)到整個(gè)網(wǎng)絡(luò)結(jié)構(gòu)全卷積的目的以及適用于不同尺寸大小的圖片,繼承其前13層卷積層作為一張輸入圖片基本的特征提取器;在此基礎(chǔ)上,再加3層卷積層,分別是卷積層6,7,8,來進(jìn)一步對(duì)VGG16的輸出特征圖進(jìn)行卷積處理,具體每一層的卷積核大小、步長(zhǎng)以及卷積器個(gè)數(shù)如圖2所示;然后使用5個(gè)行人檢測(cè)器,分別在VGG16的conv4_3和conv5_2層以及新加的6,7,8層進(jìn)行行人檢測(cè)。其中,行人檢測(cè)器與其他各層之間的連接方式如圖2所示。基于其所連接的特征圖,每一個(gè)行人檢測(cè)器在每一個(gè)特征圖的每個(gè)位置同時(shí)進(jìn)行行人存在性和包圍框的檢測(cè)工作。行人檢測(cè)器以卷積的方式進(jìn)行工作,其輸出包括行人存在性打分和包圍框的4個(gè)坐標(biāo),它是借鑒SSD中的物體分類器來設(shè)計(jì)的,和SSD中的物體分類器具有同樣的結(jié)構(gòu),不同之處在于,SSD中的物體分類器是同時(shí)進(jìn)行多類物體檢測(cè),而此處的檢測(cè)器只關(guān)注行人檢測(cè)。
相較于SSD,該網(wǎng)絡(luò)結(jié)構(gòu)主要有以下特點(diǎn):
(1)更加緊湊。這意味著使用了更少的層數(shù),以保證更多的細(xì)節(jié)性特征能傳送到深度較深的行人檢測(cè)器層,便于對(duì)變電站場(chǎng)景中的小行人進(jìn)行檢測(cè)。
(2)在更淺層次的特征圖上進(jìn)行行人檢測(cè),即同時(shí)在VGG16的Con4_3和Con5_3層進(jìn)行行人檢測(cè),而SSD僅僅在Con5_3層上進(jìn)行物體檢測(cè)。在更淺層進(jìn)行行人檢測(cè)可以有效地解決SSD框架小行人檢測(cè)能力不足的問題。
(3)檢測(cè)對(duì)象不同。SSD是針對(duì)多類物體檢測(cè)的檢測(cè)框架,它不僅能檢測(cè)人還能檢測(cè)汽車、椅子等,因?yàn)闄z測(cè)物體的種類過多,其在單類物體檢測(cè)效能上的準(zhǔn)確度并不是很高。但變電站場(chǎng)景下不需要檢測(cè)多類物體,因而SSD對(duì)變電站環(huán)境下行人檢測(cè)應(yīng)用場(chǎng)景適用性并不高。相反,本文設(shè)計(jì)的網(wǎng)絡(luò)結(jié)構(gòu)是針對(duì)變電站場(chǎng)景下小行人的檢測(cè),主要關(guān)注變電站復(fù)雜環(huán)境和行人尺寸較小的問題,因而更具有針對(duì)性和適用性。
近年來,解決訓(xùn)練數(shù)據(jù)不足的一種典型的學(xué)習(xí)框架是遷移學(xué)習(xí)。當(dāng)一個(gè)需要完成檢測(cè)任務(wù)的領(lǐng)域缺乏訓(xùn)練數(shù)據(jù)或者訓(xùn)練數(shù)據(jù)不足時(shí),可以從另外一個(gè)訓(xùn)練數(shù)據(jù)較容易獲取的領(lǐng)域提取訓(xùn)練數(shù)據(jù)來訓(xùn)練當(dāng)前神經(jīng)網(wǎng)絡(luò)。其有一個(gè)前提條件,就是從另外一個(gè)領(lǐng)域獲取的數(shù)據(jù)要與當(dāng)前完成任務(wù)所需要測(cè)試的數(shù)據(jù)在數(shù)據(jù)分布或者結(jié)構(gòu)上同質(zhì)或相似。雖然目前學(xué)術(shù)界還是工業(yè)界都沒有發(fā)布任何變電站背景下行人檢測(cè)的數(shù)據(jù)集,但是有很多一般場(chǎng)景下行人檢測(cè)的數(shù)據(jù)集已經(jīng)發(fā)布,例如Caltech 行人數(shù)據(jù)庫(kù)[8,16]、 NICTA 行人數(shù)據(jù)庫(kù)[17]、ETH行人數(shù)據(jù)庫(kù)[18]、Daimler行人數(shù)據(jù)庫(kù)[19]等。因此,基于遷移學(xué)習(xí)的思想,首先使用一般的行人檢測(cè)訓(xùn)練數(shù)據(jù)集來預(yù)訓(xùn)練變電站行人檢測(cè)深度神經(jīng)網(wǎng)絡(luò),再在初步收集的變電站真實(shí)場(chǎng)景行人檢測(cè)數(shù)據(jù)集上進(jìn)行微調(diào)網(wǎng)絡(luò),以緩解真實(shí)變電站場(chǎng)景下行人檢測(cè)數(shù)據(jù)不足的問題。
圖1 SSD網(wǎng)絡(luò)結(jié)構(gòu)
圖2 行人檢測(cè)卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)
在訓(xùn)練過程中采用和SSD類似的損失函數(shù),由于本文只限于行人單目標(biāo)檢測(cè),因而對(duì)SSD的多目標(biāo)損失函數(shù)退化為單目標(biāo)進(jìn)行損失函數(shù)。深度模型在訓(xùn)練階段使用300×300大小的圖片進(jìn)行訓(xùn)練,訓(xùn)練數(shù)據(jù)集主要包含Caltech行人數(shù)據(jù)庫(kù)的部分圖片和真實(shí)變電站場(chǎng)景下及模擬場(chǎng)景下的行人檢測(cè)圖片。在Caltech行人數(shù)據(jù)庫(kù)上,學(xué)習(xí)率初步設(shè)置為10-3,經(jīng)過10 k次迭代以后,學(xué)習(xí)率衰減為10-4。在自主收集的變電站行人檢測(cè)數(shù)據(jù)集上,學(xué)習(xí)率設(shè)置為10-5。使用SGD(隨機(jī)梯度下降)方法來訓(xùn)練整個(gè)網(wǎng)絡(luò),其中,動(dòng)量和權(quán)重衰減系數(shù)分別設(shè)置為0.9和5×10-4。本文神經(jīng)網(wǎng)絡(luò)的訓(xùn)練是在一臺(tái)配置了單張GeForce GTX 1080顯卡的計(jì)算機(jī)工作站上完成的,其中,深度學(xué)習(xí)框架選用的是Caffe[20]。
對(duì)全卷積大尺度變電站行人檢測(cè)深度神經(jīng)網(wǎng)絡(luò)進(jìn)行實(shí)驗(yàn)測(cè)試,并分析實(shí)驗(yàn)情況及結(jié)果。
首先在Caltech[8,16]行人數(shù)據(jù)庫(kù)中選擇了5萬張包含行人的圖片對(duì)網(wǎng)絡(luò)進(jìn)行40 k次迭代訓(xùn)練,然后在自主收集的變電站行人檢測(cè)數(shù)據(jù)集上對(duì)網(wǎng)絡(luò)結(jié)構(gòu)進(jìn)行5 k次迭代微調(diào),其中收集的數(shù)據(jù)集主要包括變電站真實(shí)場(chǎng)景圖片和模擬拍攝小行人圖片。每張訓(xùn)練圖片至少包含一個(gè)人,即一個(gè)訓(xùn)練樣例。所有訓(xùn)練圖片中共包含10 600個(gè)訓(xùn)練樣例(即10 600個(gè)事先標(biāo)注好的單個(gè)行人矩形框),其中真實(shí)變電站場(chǎng)景下2 300個(gè)訓(xùn)練樣例,模擬場(chǎng)景下8 300個(gè)訓(xùn)練樣例。
測(cè)試數(shù)據(jù)集也分為2個(gè)部分:第一個(gè)部分是在真實(shí)變電站環(huán)境下拍攝的視頻,由采集人員進(jìn)入變電站配合視頻拍攝,部分圖片如圖3所示;第二個(gè)部分是所拍攝的模擬小行人數(shù)據(jù)集,由于變電站行人檢測(cè)的主要特點(diǎn)之一就是行人過小的問題,為了檢驗(yàn)深度模型是否能有效對(duì)小行人進(jìn)行準(zhǔn)確檢測(cè),采集制作了小行人檢測(cè)數(shù)據(jù)集,如圖4所示,在不同拍攝角度、不同場(chǎng)景、不同距離下,分別對(duì)不同人員進(jìn)行拍攝,每張測(cè)試圖片至少包含一個(gè)人,即一個(gè)測(cè)試樣例。所有測(cè)試圖片共包含3 200個(gè)測(cè)試樣例,其中真實(shí)變電站場(chǎng)景下800個(gè),模擬場(chǎng)景下2 400個(gè)。
參考國(guó)際通用的行人檢測(cè)基準(zhǔn)數(shù)據(jù)集[8]中的評(píng)價(jià)標(biāo)準(zhǔn)對(duì)實(shí)驗(yàn)結(jié)果進(jìn)行評(píng)估。在測(cè)試之前,對(duì)每一張測(cè)試圖片中的每一個(gè)行人進(jìn)行手工包圍框標(biāo)定,記錄下每一張圖中行人的包圍框坐標(biāo),即ground truth。在測(cè)試階段,針對(duì)每一張輸入圖片,行人檢測(cè)系統(tǒng)會(huì)返回定位到的行人的包圍框坐標(biāo),即detection。最終的評(píng)價(jià)是在所有由行人檢測(cè)系統(tǒng)返回的包圍框上進(jìn)行的。具體的可參考文獻(xiàn)[8],計(jì)算一個(gè)系統(tǒng)返回的包圍框和一個(gè)事先人工標(biāo)定的人工標(biāo)記包圍框的交集與他們的并集的比率a0:
式中:BBdt為系統(tǒng)的每一個(gè)檢測(cè)結(jié)果包圍框;BBgt是標(biāo)定的ground truth包圍框。
如果a0>0.5,則認(rèn)為該檢測(cè)到的行人包圍框?yàn)橐粋€(gè)準(zhǔn)確的檢測(cè)結(jié)果;否則為失敗的檢測(cè)結(jié)果。
同時(shí),一個(gè)人工標(biāo)定的人工標(biāo)記包圍框最多只能被成功匹配一次。針對(duì)同一個(gè)人工標(biāo)記,如果系統(tǒng)返回了多個(gè)包圍框并且它們都與這個(gè)人工標(biāo)記包圍框匹配成功,那么只有一個(gè)檢測(cè)結(jié)果被算作準(zhǔn)確檢測(cè)結(jié)果,其余均被算作錯(cuò)誤。
表1是訓(xùn)練樣例、測(cè)試樣例數(shù)及相應(yīng)準(zhǔn)確率的結(jié)果統(tǒng)計(jì)。從表1可以發(fā)現(xiàn),該方法在變電站場(chǎng)景測(cè)試集上取得了87.13%的行人檢測(cè)準(zhǔn)確率,在模擬場(chǎng)景測(cè)試集上取得了90.83%的行人檢測(cè)準(zhǔn)確率。這表明該深度模型能對(duì)真實(shí)變電站場(chǎng)景下行人進(jìn)行準(zhǔn)確檢測(cè),當(dāng)有行人闖入變電站時(shí),可以及時(shí)給出系統(tǒng)警告。
圖3是部分變電站場(chǎng)景下的實(shí)驗(yàn)效果圖。從圖中可以發(fā)現(xiàn),在變電站復(fù)雜場(chǎng)景下,行人非常小和模糊,但該系統(tǒng)依然能夠檢測(cè)出大部分的行人。同時(shí)發(fā)現(xiàn),有遮擋或者行人位置非常接近對(duì)系統(tǒng)的穩(wěn)定性有影響。例如:在圖3(c)中,一個(gè)測(cè)試樣例因?yàn)橄掳肷肀浑娤渫耆趽鯇?dǎo)致被系統(tǒng)漏掉;在圖3(d)中,2個(gè)行人由于距離非常近而被系統(tǒng)檢測(cè)為一個(gè)人。
表1 訓(xùn)練樣例、測(cè)試樣例數(shù)及相應(yīng)準(zhǔn)確率
模擬測(cè)試集中包含了不同數(shù)量的行人,他們的姿態(tài)及與攝像頭的距離各不相同。圖4是部分小行人模擬數(shù)據(jù)行人檢測(cè)效果圖,展示了該系統(tǒng)良好的小行人檢測(cè)效果。同時(shí),噪音也會(huì)干擾系統(tǒng)的魯棒性, 如圖 4(d)和圖 4(e)所示, 因?yàn)楣嗄镜雀蓴_的存在,系統(tǒng)分別漏掉了一個(gè)人。
基于人工智能技術(shù)的計(jì)算機(jī)視覺物體檢測(cè)和識(shí)別技術(shù)近年來已經(jīng)得到了長(zhǎng)遠(yuǎn)的發(fā)展,并在國(guó)民經(jīng)濟(jì)中扮演了重要角色。一大批技術(shù)如人臉識(shí)別技術(shù)、指紋識(shí)別技術(shù)和車牌定位技術(shù)已經(jīng)在現(xiàn)實(shí)生活中落地并發(fā)揮重要作用。未來人工智能技術(shù)還會(huì)影響和促進(jìn)更多的領(lǐng)域和行業(yè)發(fā)展。
變電站作為電能傳輸?shù)幕A(chǔ)保障場(chǎng)所,在國(guó)民生產(chǎn)生活中有至關(guān)重要的作用。運(yùn)用先進(jìn)的人工智能技術(shù)對(duì)變電站進(jìn)行安全監(jiān)控和保護(hù),是確保變電站穩(wěn)定運(yùn)行的重要舉措。未來應(yīng)該關(guān)注將更多人工智能技術(shù)應(yīng)用于電網(wǎng)安全傳輸這一關(guān)系國(guó)計(jì)民生的重大任務(wù)之中。
圖3 真實(shí)變電站行人監(jiān)控環(huán)境下部分檢測(cè)結(jié)果
圖4 模擬小行人監(jiān)控環(huán)境下部分檢測(cè)結(jié)果