劉 穎, 胡 楠, 楊壯觀, 同東輝, 胡 畔
(國(guó)網(wǎng)遼寧省電力有限公司 信息通信分公司, 沈陽(yáng) 110006)
隨著網(wǎng)絡(luò)技術(shù)的快速發(fā)展,基于流媒體技術(shù)和圖像壓縮技術(shù)的視頻監(jiān)控系統(tǒng)被廣泛應(yīng)用于廠礦、學(xué)校和銀行等場(chǎng)合[1].電力系統(tǒng)由于受生產(chǎn)環(huán)境和廠地位置的限制,通常分布在較偏僻的地區(qū).為了保證電網(wǎng)系統(tǒng)安全穩(wěn)定運(yùn)行,電網(wǎng)公司安裝了大量的監(jiān)控系統(tǒng),并通過人工監(jiān)管和查看后期視頻對(duì)電網(wǎng)進(jìn)行監(jiān)測(cè)[2-3],然而這并不能及時(shí)發(fā)現(xiàn)電網(wǎng)風(fēng)險(xiǎn),挽回?fù)p失.因此,開發(fā)和設(shè)計(jì)智能行人檢測(cè)與識(shí)別系統(tǒng)能減輕監(jiān)控人員的負(fù)擔(dān),并能更好地保障電網(wǎng)環(huán)境的安全[4].
電網(wǎng)監(jiān)控視頻通常面臨著背景復(fù)雜、場(chǎng)景多變等問題,人體姿態(tài)的變化和遮擋也會(huì)對(duì)檢測(cè)與識(shí)別帶來(lái)困難[5].傳統(tǒng)的行人檢測(cè)方法側(cè)重于提取有效的行人特征,設(shè)計(jì)簡(jiǎn)單的分類器,常見的特征包括局部二值模式(local binary pattern,LBP)特征、梯度向量直方圖(histogram of oriented gradient,HOG)特征、Haar特征和積分通道特征等[6-7];常見的行人分類器有SVM(support vector machine)、人工神經(jīng)網(wǎng)絡(luò)和隨機(jī)森林等.基于這些特征與分類器提出了諸多行人檢測(cè)與識(shí)別方法,如文獻(xiàn)[8]提出了一種基于SVM和小波特征的行人檢測(cè)方法;文獻(xiàn)[9]基于AdaBoost算法和聚類方法利用多個(gè)決策器的輸出組合檢測(cè)出行人目標(biāo).
相比于上述特征提取方法,深度學(xué)習(xí)[10]采用貪婪逐級(jí)訓(xùn)練策略從海量訓(xùn)練數(shù)據(jù)中提取出更豐富的特征.基于深度學(xué)習(xí)的目標(biāo)檢測(cè)方法有端到端和區(qū)域提名兩種,端到端方法主要包括SSD(single shot multibox detector)和YOLO(you only look once)兩種;區(qū)域提名方法主要包括RCNN和SPP-Net[11].這些方法使用海量數(shù)據(jù)訓(xùn)練神經(jīng)網(wǎng)絡(luò),大幅提高了目標(biāo)檢測(cè)的準(zhǔn)確性和魯棒性.本文基于深度學(xué)習(xí)技術(shù)實(shí)時(shí)分析電網(wǎng)監(jiān)控系統(tǒng)的圖像,并對(duì)其中工作人員進(jìn)行檢測(cè)和識(shí)別,以輔助保障電網(wǎng)安全生產(chǎn)及設(shè)備安全穩(wěn)定.
本文使用Faster-Rcnn檢測(cè)電網(wǎng)監(jiān)控視頻中的工作人員,總體流程如圖1所示.該算法首先使用卷積神經(jīng)網(wǎng)絡(luò)提取監(jiān)控視頻中每一幀圖片的特征,并生成特征圖,然后由區(qū)域生成網(wǎng)絡(luò)RPN根據(jù)特征圖生成可能存在目標(biāo)的得分,最后由ROI池化層根據(jù)生成的區(qū)域建議和閾值判斷出目標(biāo)的類別,并在此通過邊框回歸獲得目標(biāo)的精確位置.本文設(shè)置閾值為0.5,當(dāng)區(qū)域建議的分?jǐn)?shù)大于0.5時(shí),標(biāo)記這些邊框?yàn)槟繕?biāo);否則標(biāo)記為背景.相比于傳統(tǒng)的目標(biāo)檢測(cè)方法,F(xiàn)aster-Rcnn具有更快的訓(xùn)練速度和更高的檢測(cè)精確.
Faster-Rcnn的特征提取網(wǎng)絡(luò)由多組Conv、Relu和Pooling層組成,通過不斷改變輸入、輸出特征圖的大小來(lái)獲得更大的感受野,本文使用Res50網(wǎng)絡(luò)作為特征提取網(wǎng)絡(luò).傳統(tǒng)的目標(biāo)檢測(cè)方法使用活動(dòng)窗口和圖像金字塔的方式生成目標(biāo)位置,而Faster-Rcnn使用RPN網(wǎng)絡(luò)直接生成檢測(cè)框,從而大幅提高了檢測(cè)速度,圖2所示為RPN網(wǎng)絡(luò)架構(gòu).該網(wǎng)絡(luò)采用錨策略在特征圖中選取k個(gè)具有不同大小和長(zhǎng)寬比的錨,每個(gè)錨使用Softmax將目標(biāo)框分為有行人和沒有行人兩類,并計(jì)算出目標(biāo)框的偏移量以獲取更精確的結(jié)果.假設(shè)目標(biāo)框由(x,y,w,h)表示,其中,x,y為目標(biāo)的最左上坐標(biāo);w和h為目標(biāo)框的寬和高,則將隨機(jī)初始化的位置A=(Ax,Ay,Aw,Ah)映射到真實(shí)窗口G=(Gx,Gy,Gw,Gh)時(shí)需要先做平移變化再做縮放,即
圖1 行人檢測(cè)流程Fig.1 Flow chart of pedestrian detection
(1)
式中,dx(A)、dy(A)、dw(A)、dh(A)為需要學(xué)習(xí)的偏移量.訓(xùn)練時(shí)輸入目標(biāo)位置b=(bx,by,bw,bh),輸出為dx(A),dy(A),dw(A),dh(A)的4個(gè)變換,則有
d(A)=WTφ(A)
(2)
式中:W為網(wǎng)絡(luò)參數(shù);φ(A)為特征向量.
圖2 RPN網(wǎng)絡(luò)結(jié)構(gòu)Fig.2 RPN network structure
為了使得到的位置盡量精確,需要使輸入與輸出的損失函數(shù)最小,即
(3)
ROI池化層將原始特征和RPN的結(jié)果作為輸入,根據(jù)輸入特征計(jì)算出位置建議特征,并送入后續(xù)網(wǎng)絡(luò)得到最終的目標(biāo)位置,使得每個(gè)特征圖被歸一化到相同的大小.由于所有建議的目標(biāo)位置的尺度均為M×N,因此,ROI池化層首先將參數(shù)映射為M×N大小的尺度,并將每個(gè)位置建議按水平、豎直方向分為7份,得到7×7大小的建議,最后,使用全連接和Softmax層計(jì)算每個(gè)建議的類別并輸出概率向量.
工作人員檢測(cè)網(wǎng)絡(luò)的目標(biāo)函數(shù)為多任務(wù)分類函數(shù),即網(wǎng)絡(luò)一方面要準(zhǔn)確地判斷是否有工作人員,另一方面也要確定出檢測(cè)框的具體坐標(biāo).因此,本文定義的目標(biāo)函數(shù)為
(4)
(5)
繼續(xù)對(duì)檢測(cè)網(wǎng)絡(luò)檢測(cè)到的工作人員進(jìn)行再識(shí)別,本文將兩個(gè)網(wǎng)絡(luò)融為一個(gè)網(wǎng)絡(luò),使用相同的特征提取網(wǎng)絡(luò)實(shí)現(xiàn)多任務(wù)學(xué)習(xí).本文使用Res50網(wǎng)絡(luò)作為特征提取層,具體檢測(cè)與識(shí)別架構(gòu)如圖3所示.該網(wǎng)絡(luò)主要包括特征提取網(wǎng)絡(luò)、工作人員檢測(cè)網(wǎng)絡(luò)和工作人員識(shí)別網(wǎng)絡(luò),首先,使用Res50網(wǎng)絡(luò)提取輸入圖片的特征,然后,使用工作人員檢測(cè)網(wǎng)絡(luò)檢測(cè)出工作人員框,最后,使用工作人員識(shí)別網(wǎng)絡(luò)識(shí)別出工作人員的身份信息.
圖3 工作人員檢測(cè)與識(shí)別網(wǎng)絡(luò)Fig.3 Staff detection and identification network
1) 特征提取網(wǎng)絡(luò).該網(wǎng)絡(luò)為工作人員檢測(cè)與識(shí)別網(wǎng)絡(luò)的共享網(wǎng)絡(luò),輸入圖片大小為600×1 000,用Res50網(wǎng)絡(luò)的前4個(gè)塊提取特征,得到1 024個(gè)大小為38×63的特征映射.測(cè)試時(shí)只需將輸入圖片調(diào)整到600×100分辨率即可.該網(wǎng)絡(luò)的具體參數(shù)如表1所示.表1中data為輸入層數(shù)據(jù),圖像大小為3通道、寬600、長(zhǎng)1 000;Conv1為卷積層,卷積核大小為7×7,核數(shù)量為64,步長(zhǎng)為2;Pool為池化層,核大小為3×3,步長(zhǎng)為2,其它各層的參數(shù)定義類似.
2) 工作人員檢測(cè)網(wǎng)絡(luò).該網(wǎng)絡(luò)使用上文介紹的Faster-Rcnn提取出候選框,將第1部分Res50網(wǎng)絡(luò)提取出的特征圖的每個(gè)位置選取出9個(gè)Anchors,并回歸計(jì)算出行人框.
3) 工作人員識(shí)別網(wǎng)絡(luò).該網(wǎng)絡(luò)將特征提取網(wǎng)絡(luò)提取出的特征圖輸入到ROI池化層,以統(tǒng)一特征維度.此網(wǎng)絡(luò)將特征圖固定在14×14的大小,并使用如表2所示的網(wǎng)絡(luò)架構(gòu)進(jìn)一步進(jìn)行特征提取,然后將生成的2 048維特征向量輸入到全連接層和Softmax層,對(duì)邊框中的行人進(jìn)行識(shí)別.
表1 特征提取網(wǎng)絡(luò)參數(shù)Tab.1 Feature extraction network parameters
表2 工作人員識(shí)別網(wǎng)絡(luò)架構(gòu)Tab.2 Staff identification network architecture
本文使用Softmax損失和IOM損失來(lái)判別檢測(cè)出的行人是否為電網(wǎng)工作人員.其中,IOM損失可以在擴(kuò)大類間距離的同時(shí)減小類內(nèi)距離,使不同特征的類盡量分開,其定義為
(6)
式中:z為提取出的特征;γ∈[0,1];vi和uk分別為預(yù)先提取的第i個(gè)和第k個(gè)工作人員的特征;Q、L為各類工作人員的總數(shù);si為待查詢的工作人員是第i個(gè)標(biāo)記的工作人員的概率;gi為待查詢的工作人員不是第i個(gè)標(biāo)記的工作人員的概率.
本文截取電網(wǎng)監(jiān)控視頻的圖像來(lái)構(gòu)建數(shù)據(jù)集,該數(shù)據(jù)集共包括40 000張訓(xùn)練圖片和3 000張測(cè)試圖片.本文使用GTX1060 GPU訓(xùn)練該網(wǎng)絡(luò),并設(shè)置初始學(xué)習(xí)率為0.001,使用Adam優(yōu)化網(wǎng)絡(luò)參數(shù).使用監(jiān)控視頻數(shù)據(jù)集和上文介紹的深度神經(jīng)網(wǎng)絡(luò)來(lái)檢測(cè)與識(shí)別電網(wǎng)工作人員,并通過分別計(jì)算檢測(cè)及識(shí)別精度來(lái)驗(yàn)證所提方法的有效性.
圖4為本算法在20 000次迭代中識(shí)別精度和平均檢測(cè)精度(mAP)的變化情況.從圖4可以看出,網(wǎng)絡(luò)迭代10 000次后即可獲得較好的檢測(cè)和識(shí)別精度,且隨著迭代次數(shù)的增加,性能穩(wěn)定上升.
增加深度神經(jīng)網(wǎng)絡(luò)的特征維度,將增加訓(xùn)練復(fù)雜度和訓(xùn)練時(shí)間,但也能一定程度上提升網(wǎng)絡(luò)性能.本文比較了使用不同數(shù)量的特征維度時(shí),電網(wǎng)工作人員的識(shí)別與檢測(cè)精度,如圖5所示.從圖5中可以看出,在特征維度為256時(shí)具有最優(yōu)的檢測(cè)精度和識(shí)別精度,因此,本文在后續(xù)電網(wǎng)工作人員的識(shí)別與檢測(cè)測(cè)試中設(shè)置特征的維度為256.
圖4 檢測(cè)與識(shí)別精度Fig.4 Accuracy of detection and recognition
圖5 不同特征維度下的性能比較Fig.5 Performance comparison under different feature dimensions
為了驗(yàn)證本文方法的有效性,將所提出的方法與CCF、ACF、GT等檢測(cè)方法及DSIFT+Euclidean、DSIFT+KISSME、BOW+Cosine、LOMO+XQDA、PS等識(shí)別方法進(jìn)行比較,各種方法均使用默認(rèn)的參數(shù)設(shè)置,比較結(jié)果如表3、4所示.表3分別給出了各種算法的平均精度均值和top-1精度,其中top-1精度為預(yù)測(cè)結(jié)果中概率最大的分類結(jié)果的正確率.由表3可以看出,相比于傳統(tǒng)方法,本方法能獲得更高的檢測(cè)和識(shí)別精度.同時(shí),由于光照條件和工作人員被遮擋時(shí)均會(huì)對(duì)檢測(cè)和識(shí)別的精度產(chǎn)生影響,本文也比較了在低光照及有遮擋時(shí)各種方法的檢測(cè)和識(shí)別精度,結(jié)果如表4所示.從表4可以看出,在遮擋和低光照情況下,所提出的方法均能取得更好的檢測(cè)和識(shí)別結(jié)果.
本文提出一種基于深度學(xué)習(xí)的電網(wǎng)監(jiān)控視頻中工作人員檢測(cè)與識(shí)別算法.該算法組合了行人檢測(cè)網(wǎng)絡(luò)和行人識(shí)別網(wǎng)絡(luò),能夠識(shí)別出電網(wǎng)監(jiān)控視頻中的工作人員.兩個(gè)網(wǎng)絡(luò)共享Res50網(wǎng)絡(luò)提取出的行人特征,并使用RPN網(wǎng)絡(luò)和ROI池化快速、精確地檢測(cè)出電網(wǎng)中的工作人員;使用Softmax和IOM損失對(duì)檢測(cè)出的工作人員進(jìn)行身份確認(rèn).在電網(wǎng)監(jiān)控視頻構(gòu)成的數(shù)據(jù)集上的測(cè)試結(jié)果表明,所提出的方法具有更高的檢測(cè)和識(shí)別精度,且對(duì)遮擋及低光照?qǐng)D片具有較好的魯棒性.
表3 各種算法精度比較Tab.3 Accuracy comparison of various algorithms %
表4 低分辨率和低光照時(shí)精度比較Tab.4 Accuracy comparison under low resolution and illumination %