吳碧海,王超,魏嘉隆,裴星宇
(南方電網(wǎng)廣東珠海供電局,廣東 珠海 519000)
變電站為電力系統(tǒng)的重要組成部分之一,承擔(dān)著電能傳輸、轉(zhuǎn)換、配送等關(guān)鍵功能,其安全和穩(wěn)定運(yùn)行對(duì)整個(gè)電力系統(tǒng)的穩(wěn)定性具有重要影響[1],為了及時(shí)發(fā)現(xiàn)變電站的故障,有必要定期對(duì)變電站設(shè)備進(jìn)行巡視檢查[2]。巡視檢查不僅可以及早發(fā)現(xiàn)潛在的故障,還有助于保持設(shè)備的良好狀態(tài),延長(zhǎng)設(shè)備的使用壽命。目前,變電站設(shè)備的主要檢測(cè)方式有人工檢測(cè)、機(jī)器人檢測(cè)[3]和無(wú)人機(jī)檢測(cè)[4],其中人工檢測(cè)仍然是主要的檢測(cè)方式,而機(jī)器人巡檢和無(wú)人機(jī)巡檢主要用于數(shù)據(jù)采集,運(yùn)維人員從中準(zhǔn)確定位可能存在損傷或隱藏故障的電力設(shè)備。機(jī)器人和無(wú)人機(jī)巡檢在實(shí)踐中也面臨著一些困難,例如,它們需要投入大量的時(shí)間和人力,同時(shí)由于環(huán)境復(fù)雜性,其準(zhǔn)確性也可能受到一定影響;因此,需要持續(xù)不斷地探索和優(yōu)化這些技術(shù),以提升巡檢的效率和準(zhǔn)確性水平。這種探索和優(yōu)化的方向包括智能算法的應(yīng)用、更高分辨率的圖像采集手段,以及更精準(zhǔn)的故障診斷方法等。
隨著人工智能技術(shù)的迅猛發(fā)展,基于巡檢圖像數(shù)據(jù)的變電設(shè)備智能評(píng)估已成為現(xiàn)實(shí),例如,利用卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural networks,CNN)的目標(biāo)檢測(cè)算法能夠提取目標(biāo)特征,從而實(shí)現(xiàn)對(duì)變電站故障設(shè)備的智能識(shí)別和標(biāo)記[5-6]。目前,以深度學(xué)習(xí)為核心的目標(biāo)檢測(cè)算法實(shí)現(xiàn)思路主要分為2種類型:一類是二階段目標(biāo)檢測(cè)算法[7],如區(qū)域卷積神經(jīng)網(wǎng)絡(luò)(region-CNN,R-CNN)[8]、Faster R-CNN[9]、Mask R-CNN[10]等,這類算法通過(guò)生成一系列樣本候選框,再使用神經(jīng)網(wǎng)絡(luò)方法提高候選框的分類及定位檢測(cè)精度,算法檢測(cè)精度高,但檢測(cè)速度低;另一類是一階段目標(biāo)檢測(cè)算法[11],例如YOLO[12]、SSD[13]等,這類算法則根據(jù)回歸框的位置、大小以及目標(biāo)類別的概率來(lái)直接檢測(cè)目標(biāo),檢測(cè)速度快且準(zhǔn)確率也較高。
在電力設(shè)備領(lǐng)域,研究人員已經(jīng)成功將深度學(xué)習(xí)應(yīng)用于紅外圖像故障識(shí)別:Wang等[14]使用Mask R-CNN自動(dòng)提取紅外圖像中的多個(gè)絕緣子,使機(jī)器能夠獨(dú)立分析絕緣子的故障,但該方法在識(shí)別精度和計(jì)算速度方面還存在改進(jìn)的空間,尚難以滿足實(shí)時(shí)檢測(cè)的需求;Wei等[15]提出基于殘差網(wǎng)絡(luò)(residual network,ResNet)和改進(jìn)貝葉斯優(yōu)化的變電站設(shè)備熱故障診斷模型,雖然該模型達(dá)到一定的識(shí)別精度,但數(shù)據(jù)集的大小仍然對(duì)最終的識(shí)別精度有很大的影響;為進(jìn)一步提升紅外圖像故障診斷效率,Xiao等[16]提出基于紅外圖像分割和人工神經(jīng)網(wǎng)絡(luò)故障診斷相結(jié)合的絕緣子診斷方法,引入K-means聚類方法消除不良數(shù)據(jù),可以準(zhǔn)確地識(shí)別故障絕緣子的故障類型和位置;Zhao等[17]提出結(jié)合CNN和支持向量機(jī)的二進(jìn)制分類方法,該方法不僅能夠精確地定位絕緣子,而且所需的時(shí)間較少??梢?jiàn),CNN在紅外圖像故障診斷方面發(fā)揮出色,能夠自動(dòng)識(shí)別故障,同時(shí)快速并準(zhǔn)確地診斷故障;因此,基于CNN的紅外圖像故障診斷方法是一種具有潛力的方法,可以為變電站設(shè)備的智能評(píng)估提供可靠的技術(shù)支持。
雖然紅外圖像被廣泛應(yīng)用于變電設(shè)備熱故障診斷,但紅外傳感器獲得的單個(gè)紅外圖像細(xì)節(jié)較少,在光照條件下拍攝對(duì)比度和分辨率較低,導(dǎo)致故障檢測(cè)不準(zhǔn)確;與此相比,由光學(xué)傳感器獲得的可見(jiàn)光圖像保留了電力設(shè)備豐富的紋理信息:因此,眾多學(xué)者提出了將來(lái)自不同傳感器的信息整合在一起,不僅便于故障識(shí)別和檢測(cè),還可以壓縮數(shù)據(jù),節(jié)省通信流量。在此研究方向:Liu等[18]提出基于CNN的紅外和可見(jiàn)光圖像融合新方法,利用孿生卷積網(wǎng)絡(luò)獲得融合了2個(gè)源圖像像素活動(dòng)信息的權(quán)重圖;Li等[19]研究了自動(dòng)編碼器-解碼器網(wǎng)絡(luò),在編碼器中使用殘差密集塊來(lái)提取特征,并在解碼器中融合這些特征以獲得融合圖像;Zhang等[20]提出基于CNN的通用圖像融合框架,該框架采用2個(gè)卷積層,從多個(gè)輸入圖像中提取顯著的圖像特征,然后通過(guò)特征融合規(guī)則來(lái)融合這些特征,最后利用2個(gè)卷積層來(lái)結(jié)合和重建這些特征以獲取融合圖像。然而,目前大多數(shù)紅外和可見(jiàn)光圖像的融合方法通常會(huì)對(duì)所有輸入圖像執(zhí)行相同的表示框架,這并不適用于特定的故障檢測(cè)任務(wù),需要進(jìn)一步研究如何根據(jù)具體任務(wù),來(lái)選擇最合適的圖像融合方法,以提高故障檢測(cè)的準(zhǔn)確性和可靠性。
為此,針對(duì)變電設(shè)備元件尺寸差異大、故障類型多樣、檢測(cè)效率低下等問(wèn)題,本研究選擇YOLOv5算法作為基礎(chǔ)框架,以實(shí)現(xiàn)高效準(zhǔn)確的變電設(shè)備故障檢測(cè)。為了進(jìn)一步提高模型的特征提取能力和降低計(jì)算量,本研究改進(jìn)了YOLOv5的主干網(wǎng)絡(luò)并增加了注意力模塊,以提高對(duì)微小缺陷的識(shí)別能力。所提模型實(shí)現(xiàn)了對(duì)變電站設(shè)備故障的高效、精確檢測(cè),可以滿足實(shí)際工業(yè)生產(chǎn)和巡視的需求。主要研究?jī)?nèi)容如下:
a)針對(duì)白天拍攝的紅外圖像對(duì)比度低的問(wèn)題,提出多尺度拉伸紅外圖像和可見(jiàn)光圖像融合算法,通過(guò)融合紅外、可見(jiàn)光圖像,生成邊緣增強(qiáng)、質(zhì)量更好的合成圖像。
b)針對(duì)跨階段部分(cross stage partial,CSP)網(wǎng)絡(luò)結(jié)構(gòu)計(jì)算復(fù)雜、耗費(fèi)資源大的問(wèn)題,在特征提取時(shí),采用更加輕量化的ShuffleNet v2作為主干網(wǎng)絡(luò),以降低模型的參數(shù)量和計(jì)算量,從而提高檢測(cè)的準(zhǔn)確性和穩(wěn)定性。
c)針對(duì)變電設(shè)備微小元件特征損失較大的問(wèn)題,將卷積塊注意力模塊(convolutional block attention module,CBAM)[21-22]嵌入YOLOv5的預(yù)測(cè)網(wǎng)絡(luò)中,增強(qiáng)網(wǎng)絡(luò)特征提取能力,提高對(duì)小元件的檢測(cè)性能,從而提高模型檢測(cè)準(zhǔn)確率。
d)為解決廣義交并比(generalized intersection over union,GIOU)損失函數(shù)的不足,YOLOv5算法采用有效交并比(efficient intersection over union,EIOU)損失函數(shù),提升了精度和收斂速度,取得更好的計(jì)算效果。
為了提高變電站的整體運(yùn)營(yíng)效率并降低安全風(fēng)險(xiǎn),本研究提出基于多模態(tài)感知的變電站智能巡視技術(shù),采用圖片數(shù)據(jù)來(lái)監(jiān)測(cè)變電站設(shè)備的運(yùn)行狀態(tài)、溫度、表面污穢、裂縫、破損等,從而識(shí)別變電站設(shè)備內(nèi)部的變壓器、斷路器、隔離開(kāi)關(guān)、電流互感器等器件故障,旨在實(shí)現(xiàn)對(duì)變電站環(huán)境的全方位監(jiān)控,并顯著提升巡視工作的效率。
本文所提出的變電站智能巡視技術(shù)的工作流程具體為:首先,為了優(yōu)化數(shù)據(jù)質(zhì)量,對(duì)可見(jiàn)光圖像和紅外圖像分別進(jìn)行去噪處理(中值濾波),有助于削減圖像中的噪聲干擾,提升后續(xù)處理的準(zhǔn)確性和可靠性;其次,采用多尺度拉伸紅外圖像和可見(jiàn)光圖像融合算法,融合處理紅外圖像和可見(jiàn)光圖像,以提高紅外圖像分辨度和細(xì)節(jié)層次度,并保留紅外圖像特征信息;最后,使用改進(jìn)后的YOLOv5網(wǎng)絡(luò)對(duì)變電站設(shè)備的數(shù)據(jù)進(jìn)行訓(xùn)練,以識(shí)別變電站設(shè)備內(nèi)部的變壓器、斷路器、隔離開(kāi)關(guān)、電流互感器等器件故障,及時(shí)發(fā)現(xiàn)設(shè)備及回路預(yù)警,并實(shí)現(xiàn)變電站缺陷的快速響應(yīng)和隱患的精準(zhǔn)定位。
如果在白天或者較強(qiáng)燈光的條件下拍攝變電設(shè)備紅外圖片,光照會(huì)嚴(yán)重干擾紅外成像,導(dǎo)致紅外圖像的細(xì)節(jié)丟失嚴(yán)重[23]。為了有效解決這一問(wèn)題,本文提出采用紅外圖像與可見(jiàn)光圖像的融合處理方法。這種處理方式可以在融合圖像中加強(qiáng)可見(jiàn)光圖像的紋理結(jié)構(gòu),并保留紅外圖像的熱信息,從而更好地揭示設(shè)備故障的熱點(diǎn)??梢?jiàn)光圖像在光照條件下具有更好的成像能力,融合后的圖像能夠更好地呈現(xiàn)設(shè)備表面的紋理特征,有助于提升圖片的細(xì)節(jié)度;因此,該處理方法可提高設(shè)備缺陷的識(shí)別率。
本研究采用多尺度拉伸紅外圖像和可見(jiàn)光圖像融合算法,將2個(gè)圖像的信息整合到融合圖像中,并保留可見(jiàn)光圖像的顏色。首先,引入一種內(nèi)容自適應(yīng)的Gamma校正方法,根據(jù)可見(jiàn)光圖像的動(dòng)態(tài)范圍拉伸紅外圖像的動(dòng)態(tài)范圍,以緩解融合圖像中過(guò)度亮度變化和顏色失真的問(wèn)題,其公式為
(1)
式中:p為圖像中的像素;Ze(p)為拉伸后的紅外圖像;Zd(p)為紅外圖像的細(xì)節(jié)層(紋理、噪聲等);Zb(p)為紅外圖像的基本層(由具有尖銳邊緣的均勻區(qū)域組成);γ為調(diào)整參數(shù),
(2)
為了擴(kuò)展紅外圖像動(dòng)態(tài)范圍并同時(shí)保持輸出不大于最大強(qiáng)度,假設(shè)Ze(p)的最大值、最小值分別為Ze,max、Ze,min,輸出歸一化拉伸后的紅外圖像Ze,s(用下標(biāo)s表示相關(guān)參數(shù)的歸一化值,下同),
(3)
然后,根據(jù)紅外圖像和可見(jiàn)光圖像的特點(diǎn)引入新的權(quán)重矩陣,拉伸的紅外圖像和可見(jiàn)光圖像的權(quán)重
W(p)=CwC(p)EwE(p).
(4)
式中:C(p)、E(p)分別為對(duì)比度、曝光度;wC、wE為對(duì)應(yīng)C(p)、E(p)的權(quán)重指數(shù),其默認(rèn)值為1。對(duì)于每個(gè)圖像,采用Laplacian濾波器Lf來(lái)處理其灰度空間Ig,取濾波器響應(yīng)的絕對(duì)值以獲得對(duì)比度,即
C(p)=Lf?Ig(p).
(5)
式中“?”為卷積運(yùn)算符號(hào)。
紅外圖像中亮度較高的部分在權(quán)重矩陣中具有較低的值,因此紅外圖像關(guān)注的某些部分(例如電纜)在融合圖像中變得昏暗。為了防止融合圖像被可見(jiàn)光圖像所主導(dǎo),需要采取一些策略來(lái)平衡兩者的影響。在這一背景下,將經(jīng)過(guò)拉伸處理的紅外圖像的對(duì)比度,映射到與可見(jiàn)光圖像的對(duì)比度相匹配,以確保兩者在數(shù)量級(jí)上保持一致,公式為
(6)
式中:Cv,max、Cv,min分別為可見(jiàn)光圖像對(duì)比度的最大值、最小值;Cs,max、Cs,min分別為拉伸紅外圖像的對(duì)比度的最大值、最小值;Cs(p)為經(jīng)過(guò)拉伸處理的紅外圖像的對(duì)比度;C′s(p)為Cs(p)匹配后的值。
在E(p)中,根據(jù)Ig(p)與0.5的接近程度使用高斯曲線進(jìn)行加權(quán),即
(7)
為改善拉伸后的紅外圖像中高亮部分的權(quán)重,式(7)中參數(shù)φ設(shè)置為:對(duì)于可見(jiàn)光圖像,φ=0.2;對(duì)于紅外圖像,φ=0.375。
最后,根據(jù)權(quán)重矩陣使用高斯金字塔和拉普拉斯金字塔組合,以產(chǎn)生融合圖像。
YOLO目標(biāo)檢測(cè)算法的特點(diǎn)之一是將目標(biāo)檢測(cè)任務(wù)轉(zhuǎn)化為回歸與分類的綜合任務(wù)[24-25],其核心思想是將輸入圖像劃分為S×S(S為網(wǎng)格的邊長(zhǎng))的網(wǎng)格,在每個(gè)網(wǎng)格單元中執(zhí)行目標(biāo)檢測(cè)任務(wù),包括預(yù)測(cè)物體類別和位置參數(shù),以及生成邊界框。每個(gè)邊界框包含目標(biāo)物體的類別標(biāo)簽、置信度、尺寸和位置參數(shù)。為獲得最終目標(biāo)檢測(cè)結(jié)果,采用非極大值抑制(non-maximum suppression,NMS)算法清除冗余邊界框。通過(guò)比較各邊界框的置信度,NMS算法過(guò)濾多余檢測(cè)結(jié)果,保留最具置信度的預(yù)測(cè)框,提供最可靠的目標(biāo)識(shí)別結(jié)果。這一步驟有效消除了重復(fù)檢測(cè)和冗余信息,使最終輸出更準(zhǔn)確可靠。
變電站智能巡視技術(shù)的核心目標(biāo)是采用先進(jìn)的計(jì)算機(jī)視覺(jué)技術(shù)替代常規(guī)的人工巡視方法。為實(shí)現(xiàn)這一目標(biāo),需要具備實(shí)時(shí)識(shí)別和高檢測(cè)精度的識(shí)別模型。在變電站智能巡視任務(wù)中,YOLO系列算法在多個(gè)方面(包括靈活性、檢測(cè)速度和模型尺寸)表現(xiàn)出顯著的優(yōu)勢(shì),在目標(biāo)檢測(cè)領(lǐng)域表現(xiàn)卓越,其卓越的準(zhǔn)確率和對(duì)小目標(biāo)的良好識(shí)別能力使其在實(shí)際應(yīng)用中備受青睞;因此,本文采用YOLOv5算法作為變電站設(shè)備故障識(shí)別模型。
YOLOv5網(wǎng)絡(luò)模型由4個(gè)關(guān)鍵模塊組成:輸入端、主干網(wǎng)絡(luò)、瓶頸塊和預(yù)測(cè)端。該模型以圖像數(shù)據(jù)作為輸入,輸出檢測(cè)框和對(duì)應(yīng)的類別標(biāo)簽。為提高魯棒性和泛化能力,采用Mosaic數(shù)據(jù)增強(qiáng)、自適應(yīng)錨框計(jì)算等方法,通過(guò)擴(kuò)充數(shù)據(jù)集提高泛化能力和檢測(cè)精度。主干網(wǎng)絡(luò)結(jié)構(gòu)采用焦點(diǎn)、CSP網(wǎng)絡(luò)和空間金字塔池化(spatial pyramid pooling,SPP),防止圖像失真,并解決CNN重復(fù)提取圖像特征的問(wèn)題。瓶頸塊結(jié)構(gòu)采用特征金字塔網(wǎng)絡(luò)結(jié)合路徑聚合網(wǎng)絡(luò),縮短層間路徑,促使高層和低層語(yǔ)義信息更好融合。預(yù)測(cè)端包括邊界框損失和NMS算法,通過(guò)NMS處理,保留最佳目標(biāo)框并去除冗余預(yù)測(cè)框,以確保檢測(cè)結(jié)果的準(zhǔn)確性和可靠性。
YOLOv5網(wǎng)絡(luò)架構(gòu)及子模塊分別如圖1、圖2所示。圖1中,F(xiàn)ocus表示焦點(diǎn),CBL表示卷積層后接批量歸一化層,Contact表示通道疊加,Conv表示普通卷積層;圖2中,BN表示批歸一化,Leaky relu表示允許負(fù)值有非零的梯度的激活函數(shù),Res uint表示殘差單元,add表示結(jié)合模塊,Maxpool表示最大池化模塊,slice表示從張量中提取特定的部分或切片。
圖1 YOLOv5網(wǎng)絡(luò)架構(gòu)Fig.1 The network architecture of YOLOv5
圖2 YOLOv5子模塊Fig.2 The sub-module of YOLOv5
YOLOv5網(wǎng)絡(luò)模型的核心參數(shù)包括輸入圖像尺寸、訓(xùn)練數(shù)據(jù)集、超參數(shù)(如學(xué)習(xí)率、批次大小、迭代次數(shù))等。通常情況下,較大的輸入尺寸可以提供更精細(xì)的檢測(cè)結(jié)果,但也會(huì)增加計(jì)算復(fù)雜度。
1.4.1 主干網(wǎng)絡(luò)改進(jìn)
在YOLOv5的主干網(wǎng)絡(luò)中,CSP網(wǎng)絡(luò)結(jié)構(gòu)雖然在提升檢測(cè)性能方面表現(xiàn)出色,但在計(jì)算資源受限的硬件設(shè)備上,其計(jì)算復(fù)雜性給推理過(guò)程帶來(lái)了挑戰(zhàn),導(dǎo)致推理時(shí)間難以滿足各種應(yīng)用需求。相對(duì)于YOLOv5的默認(rèn)主干網(wǎng)絡(luò),ShuffleNet是一種更輕量級(jí)、更高效的選擇,不僅能夠顯著減小模型的規(guī)模和計(jì)算量,還能夠在一定程度上提升模型的運(yùn)行效率;因此,主干網(wǎng)絡(luò)采用了主流的輕量化網(wǎng)絡(luò)結(jié)構(gòu)ShuffleNet v2。其中,混洗單元是ShuffleNet v2的一個(gè)關(guān)鍵組件,其結(jié)構(gòu)如圖3所示,圖中DWConv表示深度卷積層,Channel Split表示通道分割,Channel Shuffle表示通道混洗。圖3(a)、(b)所示分別為輕量級(jí)網(wǎng)絡(luò)ShuffleNet v2的2種核心模塊,分別為模塊a和模塊b。當(dāng)步長(zhǎng)為1時(shí),使用模塊a,它可以增加通道數(shù)但保持輸入輸出尺寸不變;當(dāng)步長(zhǎng)為2時(shí),使用模塊b,它會(huì)將通道數(shù)加倍并將特征圖尺寸減半。
圖3 混洗單元結(jié)構(gòu)Fig.3 Structure of shuffle unit
混洗單元將輸入特征圖拆分成2個(gè)分支,步長(zhǎng)為1時(shí)左邊的分支不做處理,右邊的分支則經(jīng)過(guò)3個(gè)卷積操作,來(lái)確保輸入特征矩陣和輸出特征矩陣的通道數(shù)相等,從而達(dá)到最小的乘加操作值并減少時(shí)間消耗,最后,混洗單元在通道維度上隨機(jī)打亂特征圖的順序,以融合2個(gè)分支之間的特征信息。當(dāng)步長(zhǎng)為2時(shí),不再進(jìn)行通道拆分。這種結(jié)構(gòu)使得ShuffleNet v2網(wǎng)絡(luò)的計(jì)算量和參數(shù)量較低,有利于輕量化網(wǎng)絡(luò)的構(gòu)建。改進(jìn)前后的主干網(wǎng)絡(luò)整體結(jié)構(gòu)如圖4所示。
圖4 主干網(wǎng)絡(luò)改進(jìn)前后對(duì)比Fig.4 Comparison of the backbone network before and after improvement
1.4.2 CBAM
變電站環(huán)境通常比較復(fù)雜,可能存在灰塵、水汽等干擾物,導(dǎo)致收集到的圖像細(xì)節(jié)模糊,容易造成誤檢和漏檢。在目標(biāo)檢測(cè)領(lǐng)域,鑒于輸入網(wǎng)絡(luò)的圖像復(fù)雜且多樣,引入注意力機(jī)制可使模型在資源有限的情況下,關(guān)注重要內(nèi)容和關(guān)鍵位置,以提高模型的檢測(cè)精度。多頭注意力機(jī)制可以1次并行運(yùn)行1個(gè)注意力模塊。CBAM是一種用于前饋CNN的視覺(jué)注意力模塊,旨在提高網(wǎng)絡(luò)的性能和準(zhǔn)確度,它的實(shí)現(xiàn)較為簡(jiǎn)單且有效。與常規(guī)的注意力模塊(包括多頭注意力模塊)相比,CBAM具有以下優(yōu)點(diǎn):①可以同時(shí)沿著通道和空間這2個(gè)獨(dú)立維度推導(dǎo)出各自的權(quán)重系數(shù),從而多維度地表示特征;②可以根據(jù)不同的特征圖自適應(yīng)地細(xì)化特征,以更好地捕捉特征之間的相關(guān)性和重要性,提高模型的性能和準(zhǔn)確率;③可以靈活地插入到前饋網(wǎng)絡(luò)結(jié)構(gòu)中,以提高網(wǎng)絡(luò)的特征提取能力和檢測(cè)性能。鑒于此,本研究采用CBAM并將其嵌入預(yù)測(cè)網(wǎng)絡(luò)中,增強(qiáng)網(wǎng)絡(luò)特征提取能力,提高模型檢測(cè)準(zhǔn)確率。
如圖5所示,通道注意力模塊和空間注意力模塊是該模塊的2個(gè)部分。首先,通過(guò)通道注意力模塊對(duì)輸入特征圖進(jìn)行最大池化和平均池化操作,以獲取不同通道的特征向量權(quán)重參數(shù),之后使用全連接層和sigmoid函數(shù)進(jìn)行歸一化處理,最終賦值給通道權(quán)重,以實(shí)現(xiàn)通道維度上的特征變換;然后,將輸入特征輸入空間注意力模塊,經(jīng)過(guò)最大池化和平均池化操作后得到雙通道的特征圖,最終進(jìn)行卷積、sigmoid函數(shù)處理等操作,實(shí)現(xiàn)空間維度上的特征變換。簡(jiǎn)單來(lái)說(shuō),CBAM先在通道維度上實(shí)現(xiàn)特征變換得到新的特征圖,然后在空間維度上對(duì)新的特征圖進(jìn)行特征變換,輸出最終特征圖。
圖5 CBAMFig.5 CBAM
本研究在YOLOv5的預(yù)測(cè)端的3個(gè)分支后添加了CBAM,以提高模型檢測(cè)精度。由于實(shí)際工業(yè)監(jiān)測(cè)中采集到的圖像尺度大小不一,這一方法可以幫助模型學(xué)習(xí)到更多重要的信息,同時(shí)幾乎不會(huì)影響模型的大小。改進(jìn)前后的預(yù)測(cè)端結(jié)構(gòu)如圖6所示。
圖6 預(yù)測(cè)端改進(jìn)前后對(duì)比Fig.6 Comparison of prediction terminal before and after improvement
YOLOv5的損失函數(shù)包含3個(gè)部分,分別是目標(biāo)分類誤差Lcls、置信度誤差Lobj,以及邊界框位置預(yù)測(cè)誤差Lbbox。原網(wǎng)絡(luò)采用GIOU損失函數(shù)對(duì)邊界框位置誤差進(jìn)行預(yù)測(cè),計(jì)算式為
(8)
式中:kIOU為預(yù)測(cè)框和真實(shí)框的交并比;S2為覆蓋預(yù)測(cè)框和真實(shí)框的最小矩形面積;S1為交集的面積。
該損失函數(shù)解決了兩框沒(méi)有交集面積時(shí)kIOU值為0的問(wèn)題,但是當(dāng)預(yù)測(cè)框和真實(shí)框的寬高相等且處于同一水平或同一垂直線時(shí),損失退化為交并比損失,而且在橫向與縱向收斂較為緩慢;因此,為了提高模型的收斂穩(wěn)定性,本研究采用EIOU損失函數(shù)來(lái)定義YOLOv5算法在目標(biāo)檢測(cè)中的損失函數(shù),其涵蓋了重疊損失LIOU、距離損失Ldis和寬高損失Lasp3個(gè)方面的損失函數(shù)[26],公式為
(9)
式中:b為邊界框;bgt為真實(shí)邊界框;w、h分別為邊界框的寬度、高度;wgt、hgt分別為真實(shí)邊界框的寬度、高度;wc、hc分別為能夠共同包圍2個(gè)邊界框(預(yù)測(cè)框和真實(shí)框)的最小矩形的寬度、高度;ρ(b,bgt)為2個(gè)框中心點(diǎn)的距離;ρ(w,wgt)、ρ(h,hgt)分別為2個(gè)框?qū)挾?、高度之間的差異。EIOU損失函數(shù)不僅考慮了重疊損失和中心距離損失,也調(diào)整了寬高損失,在懲罰過(guò)程中,直接對(duì)w和h的預(yù)測(cè)結(jié)果進(jìn)行懲罰,可以更好地反映預(yù)測(cè)框和真實(shí)框之間的寬高差異,加快網(wǎng)絡(luò)收斂,有助于提高回歸精度。
本研究模型訓(xùn)練與測(cè)試采用的軟件環(huán)境和硬件環(huán)境配置為:Windows 11操作系統(tǒng)、PyTorch深度學(xué)習(xí)框架、CUDAv11.6、OpenCV4.6.0、CPU Intel i5-12500H @2.50 GHz、16GiB RAM、GPU NVIDIA GeForce RTX 3060。設(shè)置輸入圖片的大小為512×512,設(shè)置批次大小為8,進(jìn)行5 000次迭代,學(xué)習(xí)率設(shè)為0.001。CBAM中空間注意力模塊的降維系數(shù)設(shè)置為16,隱層單元數(shù)設(shè)置為256,卷積核大小設(shè)置為7,步長(zhǎng)設(shè)置為1,填充值設(shè)置為1。
2.2.1 數(shù)據(jù)集
因尚無(wú)公開(kāi)的變電設(shè)備圖像數(shù)據(jù)集可用,本研究采用自建方式,構(gòu)建了包含紅外和可見(jiàn)光圖像的變電設(shè)備數(shù)據(jù)集。使用海康威視H16熱像儀采集變電設(shè)備圖像,該設(shè)備可同時(shí)采集分辨率為160×120的紅外圖像和分辨率為1 600×1 200的可見(jiàn)光圖像,其測(cè)溫的量程范圍為-20~400 ℃,滿足本研究的需求。使用??低旽16熱像儀得到6 301張圖像,共涉及11種缺陷檢測(cè)類別,其中包括了表計(jì)讀數(shù)異常、外殼破損、箱門(mén)閉合異常、蓋板破損等。之后將標(biāo)記的數(shù)據(jù)集分為5 000張圖像的訓(xùn)練集和1 301張圖像的測(cè)試集,見(jiàn)表1。
表1 變電站圖像數(shù)據(jù)集Tab.1 Substation image dataset
為了進(jìn)一步豐富數(shù)據(jù)集,本研究采用圖像翻轉(zhuǎn)和平移等增強(qiáng)技術(shù),對(duì)部分圖像進(jìn)行數(shù)據(jù)增強(qiáng)以擴(kuò)展數(shù)據(jù)集的數(shù)量,提高模型在不同視角和場(chǎng)景下的魯棒性和泛化能力,其數(shù)據(jù)集如圖7所示。
圖7 數(shù)據(jù)集可視化Fig.7 Dataset visualization
2.2.2 評(píng)價(jià)指標(biāo)
為了驗(yàn)證改進(jìn)后的YOLOv5網(wǎng)絡(luò)模型在變電站智能巡視中的性能,引入混淆矩陣指標(biāo)對(duì)模型進(jìn)行評(píng)價(jià),混淆矩陣包含4種類型的定義:TP(將正樣本正確預(yù)測(cè)為正樣本,樣本數(shù)量記為nTP)、TN(將負(fù)樣本正確預(yù)測(cè)為負(fù)樣本,樣本數(shù)量記為nTN)、FP(將負(fù)樣本錯(cuò)誤地預(yù)測(cè)為正樣本,樣本數(shù)量記為nFP)、FN(將正樣本錯(cuò)誤地預(yù)測(cè)為負(fù)樣本,樣本數(shù)量記為nFN)。在評(píng)價(jià)模型性能時(shí),選擇平均準(zhǔn)確率kmAP、召回率R、模型參數(shù)量kpar、模型計(jì)算量kFLOP和檢測(cè)速率kFPS作為主要評(píng)價(jià)指標(biāo)。各計(jì)算公式如下所示:
(10)
(11)
(12)
式中:P為準(zhǔn)確率,表示正確預(yù)測(cè)的樣本占所有預(yù)測(cè)出目標(biāo)的比例;SAP為準(zhǔn)確率-召回率曲線與坐標(biāo)軸圍成的面積;n為類別的總數(shù)。kFPS為每秒檢測(cè)的幀數(shù),衡量算法檢測(cè)速度的快慢[27]。
本研究選用4種輕量化目標(biāo)檢測(cè)模型(YOLOv5s、YOLOv5-MobileNet[28-29]、YOLOv4-tiny[30]和YOLOv3[31])和2種目標(biāo)檢測(cè)領(lǐng)域SOTA的模型(SIOD[32-33]和MonoDETR[34]),與本文所提的改進(jìn)后的YOLOv5模型在變電站場(chǎng)景下進(jìn)行性能對(duì)比。在測(cè)試階段,將模型應(yīng)用于數(shù)據(jù)集中的所有圖像,并計(jì)算出每個(gè)模型的平均準(zhǔn)確率、計(jì)算量、參數(shù)量和檢測(cè)速率,結(jié)果見(jiàn)表2。
表2 對(duì)比實(shí)驗(yàn)結(jié)果Tab.2 Comparative experimental results
從表2中可以看出,相較于其他輕量化模型,改進(jìn)YOLOv5模型的參數(shù)量和計(jì)算量均最低,且平均準(zhǔn)確率最高:平均準(zhǔn)確率較YOLOv5s模型提高了約4%,能夠滿足變電設(shè)備故障檢測(cè)的高精度需求;檢測(cè)速率略高于YOLOv5s模型,低于YOLOv4-tiny,但仍具有實(shí)時(shí)性。本文所提模型在整體框架的基礎(chǔ)上融合了ShuffleNet v2,大大降低了模型的參數(shù)量,相較于2種SOTA模型具有輕量級(jí)的特點(diǎn),可以輕松部署到移動(dòng)平臺(tái),滿足對(duì)變電站設(shè)備實(shí)時(shí)監(jiān)測(cè)的場(chǎng)景需求,并且在特征提取模塊引入了注意力機(jī)制(CBAM),該機(jī)制允許模型集中注意力在與當(dāng)前任務(wù)相關(guān)的部分輸入數(shù)據(jù)上,通過(guò)這種方式可以更好地處理噪聲數(shù)據(jù)或不相關(guān)信息,應(yīng)對(duì)輸入數(shù)據(jù)中的干擾。這種集中注意力的能力有助于提高模型的準(zhǔn)確性和性能,增強(qiáng)模型魯棒性。
綜合上述實(shí)驗(yàn)結(jié)果,本文所提的改進(jìn)YOLOv5模型是一種高效準(zhǔn)確的變電設(shè)施檢測(cè)模型,其獨(dú)特的性能表現(xiàn)包括出色的檢測(cè)精度和實(shí)時(shí)性,使其在變電設(shè)備智能巡視領(lǐng)域具有重要的價(jià)值。圖8展示了該模型對(duì)某些變電站設(shè)備的缺陷檢測(cè)可視化結(jié)果。示例中虛線框內(nèi)標(biāo)注的區(qū)域是溫度超過(guò)設(shè)定閾值的異常部分,即可能存在缺陷的局部區(qū)域。實(shí)驗(yàn)結(jié)果與實(shí)際情況相符,表明了本文所提模型的有效性和準(zhǔn)確性,可以有效地對(duì)變電站設(shè)備進(jìn)行精確檢測(cè)識(shí)別。
圖8 改進(jìn)YOLOv5模型可視化結(jié)果Fig.8 Improved visualization result of YOLOv5 model
在實(shí)際應(yīng)用中,本文所提的改進(jìn)模型有望為變電站設(shè)備故障的自動(dòng)檢測(cè)和識(shí)別提供可靠的解決方案,從而提升了電力設(shè)施的運(yùn)行效率和安全性。
為了更加全面地分析改進(jìn)后的YOLOv5網(wǎng)絡(luò)模型中各個(gè)關(guān)鍵改進(jìn)模塊對(duì)于變電設(shè)備識(shí)別的優(yōu)越性,本研究在原YOLOv5的基礎(chǔ)上,將改進(jìn)后的主干網(wǎng)絡(luò)(ShuffleNet v2)、注意力機(jī)制(CBAM)分別加入原YOLOv5中,進(jìn)行一系列消融實(shí)驗(yàn)。僅加入ShuffleNet v2的改進(jìn)模型記為“YOLOv5+Shuffle-Net v2”,僅加入CBAM的改進(jìn)模型記為“YOLOv5+CBAM”。具體實(shí)驗(yàn)內(nèi)容與測(cè)試結(jié)果見(jiàn)表3。
表3 消融實(shí)驗(yàn)結(jié)果Tab.3 Ablation results
從表3中可以看出:僅加入ShuffleNet v2后,YOLOv5模型的平均準(zhǔn)確率下降了5.30%,但參數(shù)量、計(jì)算量分別減少了5.73 Mibit、10.5 Gibit,模型的檢測(cè)速率提高了17幀/s,模型的計(jì)算速度得到了顯著提高,此舉實(shí)現(xiàn)了在保持一定精度的同時(shí),大幅度提升模型的計(jì)算效率,從而使其具備更好的實(shí)時(shí)性能;而僅將CBAM引入YOLO v5模型后,平均準(zhǔn)確率提高了2.1%,計(jì)算量和參數(shù)量的變化不大,但檢測(cè)速率稍微降低;與原YOLOv5模型相比,融合了這2個(gè)方面的改進(jìn)YOLOv5模型參數(shù)量減少了5.26 Mibit,計(jì)算量減少了10.3 Gibit,平均準(zhǔn)確率提升了4.0%。綜合上述實(shí)驗(yàn)結(jié)果可知,融合ShuffleNet v2和CBAM的改進(jìn)YOLOv5模型,不僅能夠在不降低精度的情況下減少計(jì)算負(fù)擔(dān),還能夠有效提升檢測(cè)速度和實(shí)時(shí)性。這一優(yōu)化策略為目標(biāo)檢測(cè)算法的發(fā)展提供了新的思路,尤其在對(duì)計(jì)算效率和精度均有高要求的變電設(shè)備智能巡視任務(wù)中,具有顯著的應(yīng)用潛力。
本文提出一種改進(jìn)YOLOv5模型的變電站智能巡視技術(shù)。首先,結(jié)合ShuffleNet v2對(duì)主干網(wǎng)絡(luò)進(jìn)行修改,大大降低模型的體積和計(jì)算量,提高檢測(cè)速度;其次,在YOLOv5的預(yù)測(cè)端引入注意力機(jī)制(CBAM),增強(qiáng)算法檢測(cè)變電設(shè)備故障的能力,提高檢測(cè)精度;最后,在損失函數(shù)部分,引入EIOU函數(shù)解決長(zhǎng)、寬損失定義不明確的問(wèn)題,在不影響檢測(cè)速度的前提下,提高算法的檢測(cè)性能。在自建數(shù)據(jù)集上完成實(shí)驗(yàn),結(jié)果表明:相比于原YOLOv5模型,改進(jìn)后的模型大大降低了參數(shù)量和計(jì)算量,且提高了模型檢測(cè)的準(zhǔn)確率;同時(shí),與目前主流的輕量化模型相比,本文所提的改進(jìn)YOLOv5模型綜合性能最好。
然而,這些改進(jìn)仍需考慮模型的魯棒性、數(shù)據(jù)集多樣性,以及實(shí)際部署時(shí)的硬件限制和性能要求。進(jìn)一步研究可以集中在提高模型的適應(yīng)能力、解釋性和實(shí)際應(yīng)用中的可行性,將有助于將改進(jìn)YOLOv5模型更好地應(yīng)用于變電站智能巡視等現(xiàn)實(shí)場(chǎng)景。