高峰,楊瑩,馬瑋娜
(1.國網(wǎng)河南省電力公司信息通信公司,河南鄭州 450052;2.河南九域騰龍信息工程有限公司,河南鄭州 450000)
隨著信息技術(shù)的快速發(fā)展,智能電網(wǎng)成為我國相關(guān)建設(shè)的重點內(nèi)容及方向,同時也為進一步推動電力信息通信系統(tǒng)的建設(shè)提供了契機[1]。當(dāng)前各地電網(wǎng)企業(yè)已初步建立了電力運營監(jiān)控與信息管理平臺,通過對運維數(shù)據(jù)的采集、分析來優(yōu)化電力通信運維體系,從而提升智能電網(wǎng)的水平[2]。但由于信息系統(tǒng)的檢修存在管理流程、網(wǎng)絡(luò)環(huán)境、涉及人員及遠程操作均較為復(fù)雜的特點,因此對相關(guān)操作進行審計仍是檢修管理中的難點[3-5]。人工智能(Artificial Intelligence,AI)的崛起,使得計算機視覺技術(shù)被廣泛應(yīng)用于醫(yī)療、工業(yè)、教育等領(lǐng)域[6-8],實現(xiàn)了對視頻圖像數(shù)據(jù)進行分類、檢測、識別和分割等任務(wù)。而應(yīng)用該技術(shù)對機房的視頻監(jiān)控數(shù)據(jù)進行實時采集與分析,可獲取現(xiàn)場檢修時間、人員和位置等信息;再將其與遠程檢修審計信息進行對比分析,可以找出不符合檢修計劃、無票檢修等一系列問題,從而及時發(fā)現(xiàn)并審計違規(guī)行為。其中的關(guān)鍵技術(shù)是實現(xiàn)對監(jiān)控視頻圖像中檢修人員的檢測,即人員目標(biāo)檢測。通過利用目標(biāo)檢測模型對機房視頻幀圖片進行計算識別,以此判斷各個信息機房中人員出現(xiàn)的時間及位置信息。文中基于深度學(xué)習(xí)(Deep Learning,DL)算法,設(shè)計了一種針對機房檢修人員的檢測模型。
目前主流的目標(biāo)檢測方法主要采用深度學(xué)習(xí)算法[9-11],通??煞譃閮煞N:兩階段檢測與單階段檢測。兩階段檢測使用多個固定的滑動窗口對整個圖像進行掃描,以產(chǎn)生多個候選框,再從中篩選出正樣本并進行二次修正后得到最終效果[13]。而單階段檢測提前劃分單元格,再將實例對象放入其中,最后不斷對錨框進行分類與位置修正并得到最終的效果。
YOLO 系列算法是單階段檢測模型,其優(yōu)點是能顯著提升計算速度,故可滿足實時性要求較高的場景。該模型的核心思想是將目標(biāo)檢測看作一個回歸問題,并把輸入圖片劃分成若干網(wǎng)格;再用卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Networks,CNN)對圖片進行特征提取;當(dāng)檢測到目標(biāo)時,根據(jù)當(dāng)前網(wǎng)格的先驗框得出預(yù)測框,進而實現(xiàn)對圖像類別及位置的判別。
YOLOv4 模型[14]相比于傳統(tǒng)的YOLO 系列算法,可大幅提高檢測速度和準(zhǔn)確性。該模型從數(shù)據(jù)預(yù)處理、主干網(wǎng)絡(luò)、激活函數(shù)與損失函數(shù)多個部分進行優(yōu)化。改進模型主要有三個貢獻:1)構(gòu)建一個低門檻、高性能的目標(biāo)檢測模型,即使用較低的GPU 就能訓(xùn)練出一個快速且準(zhǔn)確的目標(biāo)檢測器;2)驗證了兩種先進Bag-of-Freebies 和Bag-of-Specials 方法對于模型訓(xùn)練的影響;3)引入了交叉迭代歸一化(Cross Iteration Batch Normalization,CBN)、特征融合PAN、空間注意力機制SAM 等技術(shù)。
由于對機房監(jiān)控視頻處理的實時性要求較高,且還需保證能夠準(zhǔn)確識別和定位人員信息,所以文中以YOLOv4 作為基礎(chǔ)模型。整個模型包含輸入端、主干網(wǎng)絡(luò)、頸部網(wǎng)絡(luò)及輸出端四部分。首先,將機房運維監(jiān)控的視頻幀圖像作為網(wǎng)絡(luò)的輸入;然后,使用主干網(wǎng)絡(luò)對圖像特征加以提??;再利用頸部網(wǎng)絡(luò)將獲得的特征做進一步提取,并對不同尺度特征圖的信息進行融合;最終輸出檢測結(jié)果。改進YOLOv4 框架結(jié)構(gòu)如圖1 所示。
與傳統(tǒng)的YOLOv4 相比,文中進行了如下改進:首先,用DenseNet 替換傳統(tǒng)模型主干網(wǎng)絡(luò)中的Cspdarketnet53,原因是DenseNet 網(wǎng)絡(luò)可增強層與層之間的密度,并提高特征的傳播及融合,從而減少梯度消失的問題且降低了參數(shù)的數(shù)量與計算負(fù)荷;其次,提出人員特征提取模塊PM 來改進空間金字塔池化,該模塊能夠?qū)Σ煌叨鹊臋C房運維人員特征進行有效提?。淮送?,CBL 模塊則是由卷積Conv、批量歸一化BN 以及Leaky ReLU 激活函數(shù)組成。
由于文中將損失函數(shù)變?yōu)長eaky ReLU,促進了特征的重用和融合,因此,改進模型通過使用DenseNet模塊來提高層間的密度,使網(wǎng)絡(luò)結(jié)構(gòu)變得更為復(fù)雜,從而更有效地對人員信息進行檢測。
DenseNet[15]主要思想是通過特征重用和旁路設(shè)置來解決梯度消失與模型退化的問題,同時還大幅減少了參數(shù)的數(shù)量。其網(wǎng)絡(luò)結(jié)構(gòu)也是基于ResNet 網(wǎng)絡(luò)[16],不同之處在于DenseNet 中建立了所有前層及后層間的密集連接,并同時重用了該特性。密集網(wǎng)模型由密集塊與中間區(qū)間模塊過渡層組成。在同一個密集塊中,特征層的寬度和高度并未改變,而通道的數(shù)量則會發(fā)生相應(yīng)變化。過渡層是一個連接不同密集塊的模塊,其結(jié)合了密集塊的特性以減少前一個密集塊的寬度及高度。在模塊被堆疊后,功能也會連續(xù)堆疊,由此使得各層間的連接更為緊密。DenseNet 網(wǎng)絡(luò)結(jié)構(gòu)如圖2 所示。
圖2 DenseNet網(wǎng)絡(luò)結(jié)構(gòu)
傳統(tǒng)的網(wǎng)絡(luò)經(jīng)過第n層后的輸出結(jié)果為:
而在DenseNet 中,其會連接前面所有層作為輸入,由此得到的結(jié)果為:
式中,Hn(·) 表示非線性轉(zhuǎn)化函數(shù),包括歸一化、激活函數(shù)、池化和卷積操作;n層與n-1 層之間實際包含多個卷積層。
由于室內(nèi)檢修人員的目標(biāo)尺度大小不同,使用單一尺度的特征提取效果通常并不理想。而提取多尺度特征信息的關(guān)鍵,是對目標(biāo)的每種尺度均進行充分利用,因此文中利用先驗的人員長寬比信息加入SPP 結(jié)構(gòu)進行改進,以獲取不同尺度的人員感受野,進而有效對檢修人員的多尺度特征加以提取。
SPP 網(wǎng)絡(luò)使用的感受野均為正方形,但這樣會覆蓋諸多除人員以外的無效背景,導(dǎo)致圖像噪聲較多,進而干擾人員多尺度信息的提取。因此文中采用更寬的網(wǎng)絡(luò)加入人員的長寬比先驗信息,形成了一個新的人員特征提取模塊PM,其結(jié)構(gòu)如圖3所示。
圖3 PM結(jié)構(gòu)圖
人員特征提取模塊采用3×1、3×2 和3×3 共3 種大小不同的感受野來進行特征提取。為了能夠擬合人員的寬高比,對3×2 與3×3 的卷積核在高度上使用擴張率為1、2 的空洞卷積;同時借助1×1 的卷積對輸入通道進行壓縮,以減少計算量;最后,再使用1×1的卷積進行通道變換。
在目標(biāo)檢測中,僅基于距離的損失函數(shù)無法進行準(zhǔn)確度量,因此文中采用GIoU 作為損失函數(shù),其能夠?qū)︻A(yù)測邊框與實際標(biāo)注邊框進行對比,從而計算損失。
GIoU 損失函數(shù)可用公式表示為:
其中,LGIoU表示GIoU 的損失值;LIoU代表實際真實框與預(yù)測框的交并比;d表示兩個框中心點之間的歐式距離;c表示兩個框最小閉包區(qū)域的對角線長度;v表示兩個框?qū)捀弑纫恢滦缘膮?shù);wgt和hgt、w及h分別表示真實框、預(yù)測框的寬度及高度;α表示長寬比一致的權(quán)衡函數(shù)。
由于設(shè)備檢修工作人員均在室內(nèi)工作,故攝像頭在采集數(shù)據(jù)時易受到多種因素的影響。為了提高模型的檢測效果,選用曠視科技的CrowdHuman 數(shù)據(jù)集為基礎(chǔ)數(shù)據(jù)集來進行實驗,該數(shù)據(jù)集內(nèi)包含有各種人員在不同背景環(huán)境下的24 370 張圖片。實驗將其中15 000 張作為訓(xùn)練集,另外的5 000 張作為測試集,剩余的4 370 張則為驗證集。
實驗采用的深度學(xué)習(xí)框架為PyTorch1.0 版本,使用的編程語言為Python,操作系統(tǒng)為Linux,處理器為Intel Core i7-5960,內(nèi)存為32 GB,顯卡為RTX2080。
在訓(xùn)練時將最小批次大小設(shè)置為128 張,并采用隨機梯度下降法作為模型訓(xùn)練的優(yōu)化策略。初始學(xué)習(xí)速率設(shè)置為0.001,動量設(shè)置為0.9,其余參數(shù)設(shè)置與YOLOv4 模型相同且保持不變。
在目標(biāo)檢測時,通常使用評價指標(biāo)來判別模型的優(yōu)劣。文中采用的指標(biāo)除了常見的準(zhǔn)確率、召回率、F1 值外,還需增加檢測速度。每秒幀率(FPS)是最常用的平均指標(biāo),即在硬件環(huán)境相同的情況下,模型1 s 內(nèi)處理圖片的幀數(shù),F(xiàn)PS 值越大,說明模型的檢測速度越快,且性能越優(yōu)。
根據(jù)人員目標(biāo)檢測的真實情況和預(yù)測情況可以分為四類:1)TP,人員檢測框的真實情況是正類,預(yù)測也為正類;2)TN,人員檢測框的真實情況為負(fù)類,預(yù)測也為負(fù)類;3)FP,人員檢測框的真實情況是負(fù)類,預(yù)測是正類;4)FN,人員檢測框的真實情況是正類,預(yù)測是負(fù)類。
準(zhǔn)確率、召回率以及F1 值的計算方式如下:
將數(shù)據(jù)集輸入訓(xùn)練模型,經(jīng)過800 次的迭代訓(xùn)練后,整個模型取得了良好的結(jié)果,圖4 顯示了準(zhǔn)確率與迭代次數(shù)的關(guān)系曲線。從圖中可以看到,迭代800 次后的訓(xùn)練集、測試集和驗證集準(zhǔn)確率基本不變,且模型趨于穩(wěn)定,精度逐漸達峰。表1 是模型不同評價指標(biāo)的最終結(jié)果,可看到模型的準(zhǔn)確率為87.9%,召回率為80.1%,F(xiàn)1 值為88.7%,F(xiàn)PS 為73,總體取得了較好的結(jié)果。
表1 改進YOLOv4模型評價指標(biāo)
圖4 準(zhǔn)確率與迭代次數(shù)關(guān)系圖
為了驗證文中所提出模型的性能,將檢測結(jié)果與主流的目標(biāo)檢測模型進行對比,結(jié)果如表2 所示。從表中可以看出,該文模型的準(zhǔn)確率相比SSD、YOLO 以及YOLOv4 模型分別提高了25.8%、19.2%和7.3%;召回率比SSD 模型提高了21.4%,但相比于YOLOv4 模型略低;F1 值則比YOLOv4 模型提高了9.2%;同時FPS 也達到了73,較其他模型能夠更快處理視頻圖像數(shù)據(jù)。
表2 不同算法模型的評價指標(biāo)對比結(jié)果
在電力運維的過程中,傳統(tǒng)信息系統(tǒng)檢修操作過程需要依靠人工監(jiān)護及審計,監(jiān)護人員需要全程跟蹤操作過程,事后審計也需要耗費大量精力進行數(shù)據(jù)回溯,審計效率低,且在多操作同時開展時,難以兼顧所有的操作細(xì)節(jié)。為了解決上述問題,文中提出了基于YOLOv4 的改進模型來對檢修人員進行定位檢測。該模型用DenseNet 網(wǎng)絡(luò)替換原有YOLOv4 中的主干網(wǎng)絡(luò),從而減少了梯度消失,且使參數(shù)的數(shù)量和計算負(fù)荷均有所降低。同時還提出了人員特征提取模塊PM,對不同尺度的機房運維人員特征進行有效提取。在公開數(shù)據(jù)集上進行的實驗驗證結(jié)果表明,所提出的模型準(zhǔn)確率達到了87.9%,召回率為80.1%,F(xiàn)1 值則達到88.7%,F(xiàn)PS 為73,優(yōu)于目前大部分主流模型的效果。因此該模型可以有效處理電力運維視頻圖像數(shù)據(jù),實現(xiàn)對電力運維檢修人員的智能化審計。然而模型仍存在一定的不足,后續(xù)可以進一步對模型加以改進,從而提高模型的準(zhǔn)確率,同時優(yōu)化模型計算效率。