范海兵,胡錫幸,劉明一,肖俊
(1. 國網浙江省電力有限公司檢修分公司,浙江 寧波 315000;2. 國網浙江省電力有限公司杭州供電公司,浙江 杭州 310007;3. 國網浙江省電力有限公司金華供電公司,浙江 金華 321000;4. 浙江大學 計算機科學與技術學院,浙江 杭州 310012)
隨著社會的快速發(fā)展,社會用電需求逐年上漲。據《浙江省電力發(fā)展“十三五”規(guī)劃》披露,在“十二五”末的2015年,浙江全省最高負荷和用電量分別達到62.9 GW、355.3 TWh左右。此外,依據《浙江省電力發(fā)展“十三五”規(guī)劃》中推薦方案的預測,在“十三五”末的2020年,全省最高負荷、用電量將分別達到84.0 GW、453.0 TWh。隨著電網規(guī)模的擴大,對電力供應的可靠性的要求也在不斷提高。電力設備在長期運轉的過程中,不可避免地會出現銹蝕問題。而作為基礎設施的電力設備一旦出現嚴重的銹蝕缺陷問題,極有可能導致設備故障,影響整個相關區(qū)域的電力系統(tǒng)正常運行,從而嚴重影響生產生活并帶來難以預計的經濟損失。這就需要對相應的電力設備進行定期巡檢和及時的維護檢修。及時發(fā)現銹跡并檢修銹蝕問題,能夠有效減少電力設備的惡劣性故障,從而保障電網安全穩(wěn)定運行。
傳統(tǒng)的電氣設備狀態(tài)查驗主要是依靠人工的方式對電力設備進行定期的巡視檢查,這種人力巡檢方式存在許多問題[1]:①巡檢人員的安全難以保證。與其他普通巡檢任務不同,對電力設備的檢視通常需要工作人員暴露在大量高負荷運轉的電氣設備中,且這些設備隨時可能發(fā)生故障,具有一定的安全風險。②巡檢效率低。安排人力定期逐個檢查設備,對管理人員和作業(yè)人員都是很大的考驗,工作強度較大,如果遇到惡劣天氣則更加影響工作效率。③巡檢準確度不高。人力巡檢的判斷主觀性比較強,尤其是長期重復作業(yè),更容易降低該作業(yè)的穩(wěn)定性。
2019年,國家電網有限公司做出了加快構建“三型兩網”的主要戰(zhàn)略部署,提出了構建狀態(tài)全面感知、信息高效處理、應用便捷靈活的泛在電力物聯網。構建設備狀態(tài)全感知、數據高度信息化的能源互聯網已經成為必然的發(fā)展趨勢,針對電力設備的銹蝕,有必要研究準確而又高效的智能巡檢方法。
網絡通信基礎設施的建設,使視頻圖像采集任務得到保障。目前主要的圖像采集方式是無人機巡檢[2-4]和核心設備間安裝的全天候視頻監(jiān)控[5]。這些智能化的設備會產生大量的巡檢圖像,并實時傳輸到后臺系統(tǒng)中,再由監(jiān)控中心的工作人員根據捕獲到的視頻圖像資料判斷是否存在異常。依靠人工查驗這些采集到的視頻圖像信息并找出設備銹蝕的方案雖然存在可行性,但是效率低、反饋慢,而且人力成本昂貴;因此,對于智能化識別方法的需求十分迫切[6]。常規(guī)的圖像處理方法泛化能力不足,這些方法通過產生滑動窗口對整幅圖像進行遍歷,得到候選區(qū)域后,提取區(qū)域內的邊緣、輪廓等特征,然后送入分類器進行目標物體的類別判斷。這種基于常規(guī)圖像處理的目標檢測方法存在一些問題:①滑動窗口往往是設定固定的1個或者多個尺寸,沒有靈活性,對圖片中不同大小的物體檢測任務冗余性太大;②邊緣、輪廓這種人工預設的特征魯棒性較差[7]。
近年來,得益于單位成本計算能力的提高,機器學習、深度學習發(fā)展迅猛。尤其是深度學習下的目標檢測技術,得到了學術界和工業(yè)界的廣泛認可[8-12]。本文基于目標檢測領域中主流的Faster R-CNN算法和YOLOv3算法,提出基于深度學習的電力設備銹蝕檢測技術,并從高精度和高速度2個方面進行實例驗證,實現從視頻、圖片數據流中檢測并定位實際作業(yè)環(huán)境中電力設備上的銹蝕區(qū)域。
目標檢測是采用卷積神經網絡(convolutional neural network,CNN)等深度學習方法來快速定位圖像中感興趣目標的技術,它不僅要檢測出目標所屬的類別,還要定位出目標所在的位置和大小,該方向是當前計算機視覺的研究熱點。2012年之前,目標檢測算法主要是基于手工提取目標特征,因此算法的實際效果很大程度上取決于人力在模型訓練和參數調整上的經驗,泛化能力差而且對復雜對象的特征學習效果不好。2012年AlexNet模型[13]的提出,標志著深度學習、目標檢測乃至計算機視覺進入了全新的階段。發(fā)展至今,深度學習下的目標檢測技術主要分為單階法和雙階法2類。雙階法是先產生候選框,然后將候選框中的圖像特征送入分類器進行預測并得到最終的分類結果,代表的模型有區(qū)域卷積神經網絡(region-based convolutional neural network,R-CNN)[14]和它的改進版本Fast R-CNN[15]和Faster R-CNN[16]等;單階法是將目標檢測作為回歸任務,對圖像的網格直接進行回歸操作,不生成候選框,代表的模型有YOLO(you only look once)[17]、SSD(single shot multi detector)[18]和RetinaNet[19]等。
目前,基于深度學習的目標檢測技術開始逐漸應用到電網電力系統(tǒng)中[20-24]。雙階法憑借訓練速度快、提取的特征可復用等優(yōu)勢,成為眾多非實時性檢測任務的首選方法。上海大學的湯踴、韓軍[25]等人利用Faster R-CNN來實現輸電線路上不同部件的識別與分類,并提出通過調整CNN模型的卷積核大小和通過對圖像的旋轉變換來擴充數據集的方法,更好地提高模型的識別準確率和縮短識別時間;上海電力大學的馬靜怡[26]等人針對Faster R-CNN算法在電力設備狀態(tài)圖像處理過程中生成的候選框與目標設備不匹配而導致的設備識別率降低問題,提出依據像素值相近及位置相鄰原則構建連通域,將連通域的長寬比作為輸入信息對Anchor候選框進行修正;長沙理工大學的王超洋[27]等人提出了基于融合特征金字塔網絡(feature pyramid network,FPN)結構的Faster R-CNN配電網架空線路異常狀態(tài)檢測系統(tǒng),可以更好地識別變壓器等小目標物體。在單階法方面,樊紹勝等人提出基于改進的SSD電力設備紅外圖像異常自動檢測方法[28]和基于YOLOv3的輸電線路故障檢測方法[29],不僅泛化性強,而且可以在極短的時間內對待檢測圖像實現物體的定位和分類,從而實現實時自動檢測,使現有電力巡檢設備實現“智能+”。
在銹蝕檢測領域,難點主要在于如何解決銹跡不規(guī)則和數據集樣本不足的問題。對此,中國石油大學的薛冰提出基于Mask R-CNN的電力設備銹蝕檢測識別方法[30],采用Faster R-CNN完成目標檢測的功能,采用全卷積網絡(fully convolutional network,FCN)完成語義分割的功能,最后實現像素級別的分類識別,一定程度上解決了識別不規(guī)則圖像的問題。浙江大學的紀揚等人[31]在電纜隧道鐵銹識別這項任務中,引入遷移學習的概念,很好地解決了基于中小規(guī)模數據集訓練的CNN難以獲得較高識別精度的問題。
R-CNN是目標檢測領域中十分經典的方法,相比于傳統(tǒng)的手工特征提取方式,R-CNN使用CNN來提取圖像的深度特征,然后接1個分類器來預測候選區(qū)域的類別,并得到最終的結果。Faster R-CNN是R-CNN的改進方法,網絡框架如圖1所示,該算法由區(qū)域提案網絡(region proposal net,RPN)候選框提取模塊和Fast R-CNN檢測模塊組成。
ROI—感興趣區(qū)域,region of interest的縮寫。圖1 Faster R-CNN網絡框架Fig.1 Faster R-CNN framework
1.2.1 RPN
以往的目標檢測算法生成候選框都非常耗時,如OpenCV中的AdaBoost使用滑動窗口和圖像金字塔來產生建議窗口,R-CNN使用基于遍歷的選擇性搜索(selective search,SS)[32]方法。Faster R-CNN丟棄傳統(tǒng)的滑動窗口和暴力遍歷方法,使用RPN來生成建議窗口,明顯地加速了候選框的區(qū)域提案。
RPN可以通過圖形處理器(graphics processing unit,GPU)來加速網絡訓練計算速度,其中Anchor是RPN的核心。在得到特征圖后,使用滑動窗口來生成建議區(qū)域,特征圖上滑動窗口的中心映射在原圖的1個區(qū)域就是Anchor,然后以此為中心,生成3種尺度和3種長寬比兩兩組合成的9種Anchors。特征圖每個位置都會對應9個Anchors,如果特征圖的大小為W×H,那么這張圖中Anchors的數量就是W×H×9。這種滑動窗口的方式可以關聯整張?zhí)卣鲌D,最后得到多尺度、多長寬比的Anchors。
特征圖上的每個點前向映射得到k(k=9)個Anchors,后向輸出512維度的特征向量,而Anchors是用來獲取用于分類和回歸的區(qū)域候選框,因此全連接層后需要連接2個子連接層,即分類層和回歸層(網絡框架如圖2所示)。分類層用于判斷Anchor屬于前景(foreground,待預測)還是背景(background,需要舍棄),向量維數為2k;回歸層用于計算Anchors的偏移量和縮放量,實現輸出結果的精準定位,共4個參數{X,Y,W,H},分別代表該矩形候選框的中心點坐標和矩形的長寬,向量維數為4k。
圖2 RPN網絡框架Fig.2 RPN framework
1.2.2 Fast R-CNN分類網絡
Fast R-CNN用于對前面通過RPN生成的建議區(qū)域進行分類和邊框回歸的計算,從而獲得精準的目標位置。如圖1所示,整個系統(tǒng)共享卷積特征圖,即通過CNN計算得到的特征圖(feature map)不僅作為RPN的輸入,也作為Fast R-CNN的輸入,避免了重復計算,加快了運行速度。
分類(classification)部分如圖3所示,首先網絡結合RPN得到的ROI和主干網絡輸出的卷積特征(proposal feature),通過全連接層(full connect layer)和softmax函數計算這些區(qū)域最終分類到哪個類別(cls_prob,如人、車、樹等),輸出的是一個概率向量;同時,再次利用矩形框回歸(bounding box regression)計算每個建議區(qū)域的位置偏移量,并不斷修正,得到更加精確的目標定位框(bbox_pred)。
圖3 分類網絡框架Fig.3 Classification network framework
1.2.3 模型訓練
整個Faster R-CNN網絡的損失函數L分為2個部分﹝式(1)﹞,即分類損失Lcls和回歸損失Lreg。分類損失﹝式(2)﹞是經典的二分類交叉熵損失,回歸損失﹝式(3)﹞是對anchors位置偏差的計算,其中fsmooth為smooth函數表達式,見式(4)。
(1)
(2)
(3)
(4)
不同于Faster R-CNN這種2步檢測算法,YOLO這種單階法是直接在待預測圖像上計算候選框的類別概率和位置信息。YOLO算法采用1個單獨的CNN結構實現端到端(end-to-end)的目標檢測,不需要利用RPN來生成候選框,因此YOLO算法的檢測速度比R-CNN算法快。
1.3.1 網格劃分下的回歸和分類
YOLO算法首先把1張圖像拆分為S×S個方格(grid cell),若1個物體的中心落在某個方格之內,那么這個方格就負責預測這個物體。這樣的話,就不需要生成候選框,直接對每個方格進行計算即可。比如,圖4中“狗”的中心坐落于5行2列的方格中,所以這個方格就負責預測圖像中的“狗”。具體來說,每個方格會預測若干個邊界框(Bounding Box)和每個邊界框的置信度(confidence score)。其中置信度包括2個方面,一個是考慮邊界框含有“目標”的可能性,另一個是邊界框的準確度。前者記為Pobject,當該邊界框為背景時(即不包含任何物體),此時Pobject=0;而當該邊界框包含物體時,Pobject=1。邊界框的準確度通過采用預測框和實際框(ground truth)的交并比(intersection over union,IOU)來表征,記為Itruth,pred。因此回歸層面的置信得分定義為C=Pobject×Itruth,pred。這樣來看,每個邊界框的預測值包含5個元素{X,Y,W,H,C}。
圖4 YOLO算法網格劃分示意圖Fig.4 Schematic diagram of YOLO grid partitioning
對分類的處理和回歸類似,同樣是基于拆分好的單元格,模型網絡對每個單元格預測c個類別的概率值。值得注意的是,1個單元格可能會歸納為多個邊界框中,但是只預測1組類別概率值,這是算法上的缺陷,相應的改進措施將在后文中論述。
1.3.2 網絡設計
與大多數深度學習下目標檢測的模型一樣,YOLO算法采用CNN來提取特征,接著使用全連接層來獲取預測值。YOLO算法的網絡層級如圖5所示,網絡結構參考Google Net模型,包含24個卷積層和2個全連接層。這種深層模型主要由1×1和3×3的卷積層組成,且每個卷積層后面都接上一個批次歸一化層和1個Leaky ReLu激活層。此外,在后期還引入了ResNet的殘差模塊來解決網絡深度加深時出現的訓練退化問題。
圖5 YOLO算法網絡架構Fig.5 Network framework of YOLO algorithm
1.3.3 損失函數
YOLO算法的損失函數主要分為3個部分,即坐標誤差Lcoord﹝式(5)﹞、IOU誤差Liou﹝式(6)﹞和分類誤差Lcls﹝式(7)﹞:
(5)
(6)
(7)
基于深度學習的CNN在長期發(fā)展和應用中,尤其是在計算機視覺領域中,取得了很好的成績。同時,也逐漸暴露出一些問題:分類網絡的“位置不敏感性”(平移不變性)和檢測網絡中“位置敏感性”之間的矛盾[33]。如圖6所示,深度神經網絡在進行圖像分類時﹝圖6(b)和圖6(c)﹞,無論圖中的“貓”處于圖片中的何處,最終都能識別出這張圖片是“貓”,這種現象被稱為“位置不敏感性”。但是對于“目標檢測”這種輸出結果包含“目標坐標位置信息”的檢測網絡﹝圖6(a)﹞,一定是對位置敏感的。
圖6 “位置不敏感性”和“位置敏感性”的示例Fig.6 Examples of the dilemma between ‘translation-invariance’ and ‘translation-variance’
目前絕大部分基于深度學習的檢測網絡都是以預訓練的圖像分類網絡模型作為主干網絡和特征提取網絡,這些網絡大部分屬于“位置不敏感”,從而導致最終提取的特征丟失了很多信息。對此,一些方法比如空間變換網絡(spatial transformer networks,STN)、FCN和數據增廣等方法被提出,用于改善目標檢測這類任務的檢測效果。
CNN在圖像分類中取得顯著的成效,主要是得益于其深層結構具有空間不變性;因此,即使對圖像中的目標物體作了平移變換或者旋轉變換,CNN模型依然可以將其識別出來??梢酝ㄟ^選擇合適的降采樣比例來保證準確率和空間不變性,但是池化層帶來的空間不變性是不夠的,它受限于預先選定的固定尺寸的感受野。STN引進了一種可學習的采樣模塊Spatial Transformer[34],該模塊的學習不需要引入額外的數據標簽,可以在網絡中對特征圖進行空間變換操作。
CNN是盡可能讓模型適應物體的形變,而STN是通過Spatial Transformer將形變后的物體變換回正常形態(tài)(比如將字擺正),然后再送入分類器識別。如圖7所示,U為原始圖像,V為經由網絡映射后的輸出結果。圖7(a)中的圖如果送入分類器進行識別的話,通常輸出的結果是“字母a”,但是經過仿射變換后分類器的輸出結果是“數字9”﹝圖7(b)﹞。
圖7 仿射變換示例Fig.7 Affine transformation examples
在實際生產作業(yè)環(huán)境中,監(jiān)控探頭等圖像采集設備捕獲的視頻圖像資料容易因光線干擾、設備安裝位置移動和信號噪聲等而產生畸變;因此,需要深度學習網絡模型進行必要的修正,對獲取到的ROI的特征進行變換,變?yōu)橄鄬φ_的姿態(tài)再送入分類器進行識別。
2.2.1 主干特征網絡的調整
Faster R-CNN采用VGG16[35]作為主干網絡(backbone)來提取輸入圖像的特征,已經取得了不錯的成績。從經驗來看,神經網絡的深度對模型性能影響很大,當增加網絡層數后,網絡可以進行更深更復雜的特征提取,所以理論上網絡層數越深,模型的效果應該越好;但是,大量實驗結果表明深度的網絡會出現退化現象,網絡準確度出現飽和甚至下降。深層網絡存在梯度消失或者梯度爆炸問題,這使得深度學習模型很難訓練。對此,帶有“短路機制”的殘差深度神經網絡模型ResNet[36]被提出,可以很好地解決退化問題。本文在實例驗證部分,還會選用ResNet的升級版ResNeXt網絡[37]進行對比實驗。
2.2.2 更精準和精細的RPN
對于RPN的改進,可以通過生成更多Anchor來實現。但是這樣會增加計算量,降低模型預測速度。此外,針對電力設備銹蝕這一檢測任務,分類單一而且數據集標注不夠精確,刻意地增加Anchor未必能提高網絡模型的效果,甚至會出現性能降低。
本文選用FPN對Faster R-CNN的RPN進行優(yōu)化。FPN先進行傳統(tǒng)的自下而上(bottom-up)的特征卷積,然后對左側橫向對應特征圖進行特征融合,并生成自頂而下(top-down)的特征,從而得到不同分辨率下的特征。可以發(fā)現,FPN已經有不同大小的特征,無須像RPN中選用3種不同比率、尺寸的Anchor,只需要3種比率不同的框,即每級Anchor的尺寸相同。
2.3.1 分類的置信得分計算
從前文對YOLO算法的介紹可知,對劃分好的方格進行概率預測時,這些概率值其實是在各個邊界框置信度下的條件概率,即Pclassi|object。因此,無論1個方格預測多少個邊界框,其只預測1組類別的概率值。對此,可以把類別概率預測和邊界框綁在一起,實現方法如式(8)所示,同時可以計算出各個邊界框類別的置信度。
Pclassi|object×Pobject×Itruth,pred=PclassiI×truth,pred.
(8)
2.3.2 分類損失函數
YOLO算法在初代版本使用的是softmax函數,這種損失函數會擴大最大類別概率值而抑制其他類別概率值。其后期版本中已更改為每一個類獨立使用邏輯分類器,使用交叉熵(cross-entroy)損失,這樣能夠更好地處理標簽重疊(包含)關系。
2.3.3 多尺度預測
YOLO算法雖然檢測速度快,但是初期最大的問題是對小尺寸物體的檢測效果不理想。在YOLOv3中,通過對低分辨率的特征圖與高分辨率的特征圖進行特征融合的方法,形成新的特征圖層,并對其作單獨預測,形成最終的多尺度預測。
值得注意的是,YOLO系列中的多尺度有2種含義,一個是輸入圖像的多尺度,另一個是不同分辨率的特征圖,本文選用后者。此外,原模型作者是先對圖像進行歸一化再縮放到統(tǒng)一尺寸??紤]到電力設備銹跡的不規(guī)則性,本文是先進行圖像預處理直接縮放到統(tǒng)一尺寸,再送入CNN,并在YOLOv3的特征金字塔結構(Darknet-53)的基礎上額外增加1次下采樣用于模擬類FPN結構。
通過對變電站、輸電網絡等電力設備實際作業(yè)環(huán)境的實地圖像采集和對電網系統(tǒng)監(jiān)控視頻流的圖片抽取,收集形成初步的圖像數據集。在圖像預處理階段,對圖片的文件格式和編碼格式進行統(tǒng)一。本文實驗中模型訓練所采用的數據集格式統(tǒng)一為RGB三通道的jpg文件,通過編寫程序進行格式轉換和必要的數據清洗,圖8為初篩之后數據集的部分樣本圖片。
圖8 數據集部分樣本Fig.8 Dataset samples
無論是R-CNN系列還是YOLO系列算法,都屬于全監(jiān)督機器學習模型,所以需要對數據集樣本進行標注,以便網絡在訓練過程中有可以作為參照基準的目標位置和類別標簽。本文使用目前主流的一款開源標注軟件labelImg對已經清洗完畢的圖片數據集進行標注,這個軟件可以幫助用戶快速生成帶有Bounding Box(物體的目標位置)和Label(物體類別)數據的XML文件,供程序在模型訓練時讀取。
銹跡識別與其他目標檢測任務的主要區(qū)別在于:不同設備上鐵銹的形狀和顏色相差較大,相同設備在不同生產環(huán)境下產生的銹跡也有所不同。此外,人力對數據集的標注主觀性比較強,對于一些銹跡的邊緣區(qū)域難以標注或者是選擇性標注。因此,用于訓練的銹跡圖像數據集具有自身性的缺陷。對此需要采取一些額外的操作來盡可能降低這些缺陷造成的影響。如圖9所示,本文對清洗完畢的數據集采取一些非形變的幾何變換類和顏色變換類的數據增廣方法,來實現對那些形狀、顏色差異性較大而且樣本數較少的銹蝕圖像的數據擴充。
圖9 數據增廣示例Fig.9 Examples of data augmentation
本文的實驗環(huán)境為Intel(R) Xeon(R) CPU E5-2667 v2 @3.30 GHz,128 GB RAM,單張Nvidia GTX 1080Ti @12 GB,以及Ubuntu 16.04 LTS操作系統(tǒng)。算法模型基于PyTorch機器學習框架,實驗驗證的指標包括準確率和召回率,準確率為正確檢測的目標數量與標記目標總數量之比,召回率為正確檢測的目標數量與實際目標總數量之比。值得注意的是,本文對預測結果的閾值設置為0.8,這是相對于應用場景過高的一個數值。閾值越低,最終得到的召回率和精準率越高。為了在消融實驗中得到較好的對比效果,故采用較高的閾值。真實生產環(huán)境下的預測結果可參照后文的預測可視化結果。
3.4.1 實驗結果的可視化
實驗結果表明Faster R-CNN在不同主干網絡下表現無明顯差異,可視化結果上不作冗余展示。圖像檢測的部分可視化結果如圖10所示。
從可視化角度來說,最終訓練好的模型都能夠檢測出較為明顯的銹蝕。對比來看,Faster R-CNN的檢測結果要優(yōu)于YOLOv3的檢測結果。這是因為Faster R-CNN中相對更加復雜的網絡結構能夠更深度地提取出銹蝕的圖像特征,而且雙階法能夠提案更多有意義的候選框。
3.4.2 實驗數據及其分析
本文為了更具體地表現單階法(以YOLOv3為例)和雙階法(以Faster R-CNN為例)的區(qū)別及不同改進方法對模型最終表現的影響,設計了消融實驗,通過實驗結果的對比,驗證電力設備銹蝕檢測技術的可行性和多場景應用的適應性。
如圖11的損失曲線所示,以Faster R-CNN和YOLOv3的損失曲線為參照,模型基本在迭代數64 500左右收斂到局部最小值,故以下的消融實驗中默認選用迭代數為65 000的模型進行測試。
圖11 模型訓練損失曲線Fig.11 Training loss curves of models
本文從整套消融實驗中選取了具有代表性的9組實驗,表1為這9組實驗模型的最終測試結果。其中,第8組和第9組中的“Darknet*”代表對原YOLOv3網絡結構的修改版本,包括多尺度參數的調整、網絡增加下采樣層等。
表1 模型測試結果Tab.1 Model test results
下面詳細分析表格中所展示的消融實驗結果。首先,最明顯的一點是YOLO系列的速度比R-CNN系列快得多,這是因為R-CNN系列在使用RPN產生候選框時消耗了大量的計算時間。本文的實驗平臺采用的是高性能GPU計算平臺,如果在中央處理器(central processing unit,CPU)平臺上運行網絡模型,則兩者的差距會更明顯。同時,更多的計算消耗帶來的是更精準的預測結果,從測試結果數據上來看,R-CNN系列比YOLO系列準確度高約10%。
接著,從R-CNN系列來看,模型性能基本會隨著各個模塊的優(yōu)化而得到提升,召回率呈現增長趨勢。由第4組和5組分別與第3組的數據對比可知,FPN相比于STN的改進效果更好。這個現象可以從以下2個方面進行解釋:①FPN產生的多尺度特征比RPN產生的多尺度Anchor更具有價值,尤其是在電力設備銹蝕這種形狀顏色不規(guī)則的使用場景下,優(yōu)勢更為明顯;②在數據預處理階段已經對數據集進行了空間變換的增廣,這樣就使得STN的優(yōu)勢難以體現出來。召回率的增長基本符合理論預期,但是對比第5組和第6組的實驗數據可知,召回率提高,而精準率卻略微降低。這一現象主要是因為在對網絡結構改進時,為了追求檢測小物體而對PRN產生候選框的懲罰系數設置不合理,也就是側重于Anchor的產生而不重視邊界框回歸或分類失敗的損失。
然后,從YOLO系列來看,模型性能整體提升的幅度并不明顯。值得注意的是,STN在YOLO下的優(yōu)化效果要稍好于在R-CNN下的提升,這很大程度上取決于兩者在特征金字塔模型設計上的差異。此外,Faster R-CNN下的RPN是一個很成熟的網絡,這也限制了STN提升的空間。
3.4.3 實驗結果總結
總的來說,單階法、雙階法這2種目標檢測方法都可以有效地檢測出電力設備的銹蝕。2種方法的特點也非常明顯:雙階法精度更高,模型訓練時間快,檢測速度稍慢;單階法精度稍低,模型訓練時間慢,檢測速度快。通常情況下,對于那些配有高性能服務器的大型數據中心,對檢測的實時性要求較低,則可以選用雙階法的目標檢測算法模型。此外,由于擁有的海量數據可以及時更新模型,雙階法對模型訓練也足夠友好,訓練成本低。而對于那些類似于無人機實時巡檢任務的場景,采用單階法的目標檢測算法則是更好的選擇。在考慮模型實際應用時,首要考慮的是在高速度和高精度之間的優(yōu)先選擇,如果沒有明確界限,則需要再考慮模型后期升級成本或者模型運行的計算硬件條件,綜合各方面因素選用較為合適的方案。
本文將深度學習中的目標檢測技術應用到電力設備銹蝕檢測中,并分別以Faster R-CNN和YOLOv3模型為基礎模型進行實例驗證。結果表明這2種模型都可以檢測并定位較為明顯的銹蝕,而且從實驗數據可以看出這2種深度學習模型有著各自的特點:Faster R-CNN在準確度和小尺寸的銹蝕檢測方面有著更好的表現;YOLOv3在檢測速度上略勝一籌。實際應用時,可根據不同使用場景的需求選用不同的模型。該技術的應用可以很好地提升電力系統(tǒng)監(jiān)控的自動化、信息化水平。
下一步的研究重心主要有以下幾點:①增加數據集的樣本數,初期考慮到數據資料保密性等原因,能收集的圖像數據有限,而數據集規(guī)模的增大通常能夠對模型的魯棒性和精準度有所促進;②增強對于小尺寸目標的檢測能力,加強小目標的特征表達,優(yōu)化模型的損失函數(如交叉熵損失[38]);③裁剪模型,盡可能在不太影響預測結果的前提下減少網絡層數和參數,減小執(zhí)行預測任務時的計算量,實現邊緣設備的模型部署[39-40]。