摘 要:智能電網(wǎng)的建設(shè)思路決定了遠(yuǎn)郊變電站異常入侵監(jiān)測(cè)的無人化趨勢(shì),促進(jìn)了變電站異常入侵智能檢測(cè)方法的快速發(fā)展?,F(xiàn)階段尚未擁有該場(chǎng)景下異常入侵目標(biāo)數(shù)據(jù)集,且現(xiàn)有的目標(biāo)檢測(cè)方法也未針對(duì)變電站邊緣計(jì)算端進(jìn)行輕量化優(yōu)化設(shè)計(jì),不適用于需要全天候?qū)崟r(shí)監(jiān)測(cè)的變電站邊緣設(shè)備。針對(duì)上述問題,從實(shí)際應(yīng)用需求出發(fā),構(gòu)建變電站異常入侵目標(biāo)數(shù)據(jù)集(Dataset for Anomaly Invasion Targets in Substations,SAITD),基于YOLOv5s 模型提出適用于變電站邊緣檢測(cè)設(shè)備的輕量化異常入侵目標(biāo)檢測(cè)網(wǎng)絡(luò)YOLOv5-Substation。添加微小尺度目標(biāo)特征提取層與上采樣輕量化算子CARAFE,在擴(kuò)大感受野的同時(shí),充分保留特征圖中多尺度目標(biāo)的語義信息,從架構(gòu)端提高原有模型的檢測(cè)精度?;谥R(shí)蒸餾模型,使用網(wǎng)絡(luò)剪枝(Network-slimming) 策略對(duì)原有模型進(jìn)行輕量化改進(jìn),在保證原模型檢測(cè)精度的同時(shí),加速模型推理。仿真實(shí)驗(yàn)表明,輕量化后的邊緣端計(jì)算模型精度相較于YOLOv5s 提高了3. 3% ,推理速度提升了41. 9% ,可為智能電網(wǎng)的全速運(yùn)行提供強(qiáng)有力的數(shù)據(jù)基礎(chǔ)、技術(shù)支撐與安全保障。
關(guān)鍵詞:異常入侵目標(biāo)檢測(cè);網(wǎng)絡(luò)剪枝;知識(shí)蒸餾;邊緣計(jì)算平臺(tái);輕量化模型
中圖分類號(hào):TP391. 4 文獻(xiàn)標(biāo)志碼:A 開放科學(xué)(資源服務(wù))標(biāo)識(shí)碼(OSID):
文章編號(hào):1003-3106(2024)06-1584-11
0 引言
我國(guó)“十四五”規(guī)劃明確提出建設(shè)智能電網(wǎng)[1],無人值守變電站在構(gòu)建智能電網(wǎng)中起到了至關(guān)重要的作用。無人值守變電站多建于距離城市較遠(yuǎn)的野外環(huán)境中,因此常有各類動(dòng)物入侵變電站導(dǎo)致變電站設(shè)備嚴(yán)重故障甚至發(fā)生火災(zāi),極大地影響了社會(huì)穩(wěn)定和經(jīng)濟(jì)發(fā)展。伴隨視覺監(jiān)控系統(tǒng)的廣泛應(yīng)用,利用變電站內(nèi)安裝的攝像頭,加載異常入侵目標(biāo)檢測(cè)算法,對(duì)其進(jìn)行全天候智能化監(jiān)測(cè)是大勢(shì)所趨[2]。然而,目前尚未擁有針對(duì)變電站場(chǎng)景下的完整異常入侵目標(biāo)數(shù)據(jù)庫,且現(xiàn)使用的目標(biāo)檢測(cè)算法模型也未針對(duì)此場(chǎng)景進(jìn)行輕量化改進(jìn)設(shè)計(jì),并不適合部署在對(duì)檢測(cè)速度要求極高的變電站邊緣檢測(cè)設(shè)備上。
現(xiàn)階段的異常入侵目標(biāo)檢測(cè)方法可分為傳統(tǒng)檢測(cè)方法與基于深度學(xué)習(xí)的異常入侵目標(biāo)檢測(cè)方法。傳統(tǒng)的異常入侵目標(biāo)檢測(cè)方法一般采用背景模板與圖像對(duì)比來進(jìn)行異常目標(biāo)檢測(cè)。Stauffer 等[3]提出了高斯混合模型來檢測(cè)前景目標(biāo),但高斯分布并不能充分的概括表達(dá)背景特征,限制了該算法的使用場(chǎng)景和檢測(cè)精度。Lin 等[4]提出了一種基于特征匹配的局部運(yùn)動(dòng)穩(wěn)定算法減少檢測(cè)前景中由樹木和花草引起的誤報(bào),但本質(zhì)上仍然依賴于手工設(shè)計(jì)的特征,在復(fù)雜環(huán)境下依然會(huì)存在較多誤檢。傳統(tǒng)檢測(cè)方法計(jì)算復(fù)雜度通常較低,檢測(cè)速度較快,無需大量先驗(yàn)信息和監(jiān)督,但易受光影變化、風(fēng)吹草動(dòng)等環(huán)境噪聲的干擾。遂開始研究基于深度學(xué)習(xí)的異常入侵目標(biāo)檢測(cè)方法。Lim 等[5]提出了一種基于多尺度編解碼網(wǎng)絡(luò)的FgSegNet 模型,但這種方法時(shí)常漏檢較小尺寸的異常入侵目標(biāo)。Braham 等[6]提出了一種基于背景補(bǔ)丁的訓(xùn)練方式,可以在同一段訓(xùn)練視頻數(shù)據(jù)中獲得良好的檢測(cè)效果,但由于數(shù)據(jù)高度冗余計(jì)算量過大,無法實(shí)時(shí)檢測(cè)異常入侵目標(biāo)。以上提及的基于機(jī)器學(xué)習(xí)的異常入侵目標(biāo)檢測(cè)方法和基于深度學(xué)習(xí)的檢測(cè)方法,在變電站這一特殊場(chǎng)景下均無法較好地兼顧模型輕量化與檢測(cè)準(zhǔn)確率。
目前常見的異常入侵目標(biāo)檢測(cè)與識(shí)別技術(shù)都集中在主機(jī)平臺(tái)上,伴隨著移動(dòng)互聯(lián)網(wǎng)的崛起和邊緣計(jì)算的發(fā)展,許多研究者結(jié)合邊緣計(jì)算,開始研究移動(dòng)設(shè)備上的目標(biāo)檢測(cè)技術(shù)。Chen 等[7] 開發(fā)了Glimpse 系統(tǒng)通過卸載部分計(jì)算任務(wù)在手機(jī)上執(zhí)行目標(biāo)檢測(cè)任務(wù)。Liu 等[8]等在邊緣計(jì)算協(xié)助下為增強(qiáng)現(xiàn)實(shí)系統(tǒng)設(shè)計(jì)了目標(biāo)檢測(cè)系統(tǒng)。Ren 等[9]提出了一種分布式的邊緣計(jì)算場(chǎng)景下的目標(biāo)檢測(cè)解決方案。由于在移動(dòng)設(shè)備執(zhí)行高性能目標(biāo)檢測(cè)算法有著極為廣闊的發(fā)展前景,大量研究者投身于此。但是這些研究很少能在工業(yè)場(chǎng)景下實(shí)現(xiàn)落地,并且在變電站場(chǎng)景下的相關(guān)應(yīng)用更是稀缺,基本沒有利用邊緣計(jì)算平臺(tái)針對(duì)此應(yīng)用場(chǎng)景開展異常入侵目標(biāo)檢測(cè)與識(shí)別研究,因此這個(gè)領(lǐng)域整體仍處于研究的早期階段。
現(xiàn)有的異常入侵目標(biāo)數(shù)據(jù)集,大部分是針對(duì)公路、鐵路或軌道等場(chǎng)景建立異常入侵目標(biāo)數(shù)據(jù)集,例如王瑞等[10]針對(duì)鐵路周界異常入侵目標(biāo)泥石流、落石等進(jìn)行研究。郭保青等[11]細(xì)化鐵路異常入侵目標(biāo)分類,針對(duì)鐵路內(nèi)部的行人進(jìn)行研究。何文玉等[12]將研究重心放在軌道上的異常入侵目標(biāo),如塑料瓶、行人、自行車和汽車等。然而,通過實(shí)地考察,可能會(huì)對(duì)變電站產(chǎn)生安全隱患的異常入侵目標(biāo)主要是尺寸相差較大的鳥、貓、狗、人、蛇、鼠和松鼠等。不同的應(yīng)用場(chǎng)景、不同異常入侵目標(biāo)類別與不同于常見數(shù)據(jù)集的目標(biāo)尺度均無法對(duì)變電站場(chǎng)景下的異常入侵目標(biāo)檢測(cè)提供助力。
針對(duì)上述問題,本文以YOLOv5s 模型為基礎(chǔ),首先引入微小尺度目標(biāo)特征提取層與上采樣輕量化算子CARAFE,充分利用特征圖中多尺度目標(biāo)的語義信息,從架構(gòu)端提高原有模型的檢測(cè)精度;其次,使用網(wǎng)絡(luò)剪枝(Networkslimming)策略和知識(shí)蒸餾對(duì)原有模型進(jìn)行輕量化改進(jìn),在保證原模型檢測(cè)精度的同時(shí)加速模型推理,滿足變電站場(chǎng)景下異常入侵目標(biāo)實(shí)時(shí)檢測(cè)需求。
1 基于YOLOv5s 改進(jìn)的多尺度異常入侵目標(biāo)輕量化檢測(cè)方法
YOLOv5 目標(biāo)檢測(cè)模型由于較高的檢測(cè)精度和強(qiáng)大的泛化能力,備受工業(yè)界青睞。根據(jù)應(yīng)用場(chǎng)景和應(yīng)用需求的不同,YOLOv5 共有5 種不同大小的網(wǎng)絡(luò)模型供以選擇,從小到大分別是YOLOv5n、YOLOv5s、YOLOv5m、YOLOv5L、YOLOv5XL。每個(gè)版本的模型結(jié)構(gòu)均一致,唯一區(qū)別在于網(wǎng)絡(luò)的深度和寬度不盡相同。鑒于YOLOv5s 在模型檢測(cè)性能和模型計(jì)算量?jī)煞矫孑^為均衡,本文選擇YOLOv5s作為應(yīng)用于變電站場(chǎng)景下實(shí)時(shí)檢測(cè)的基礎(chǔ)模型。在此基礎(chǔ)上不斷優(yōu)化改進(jìn),獲得輕量化的網(wǎng)絡(luò)模型,便于部署在邊緣計(jì)算平臺(tái)上進(jìn)行實(shí)時(shí)快速準(zhǔn)確檢測(cè)。
多尺度異常入侵目標(biāo)輕量化檢測(cè)方法框架如圖1 所示。首先,在模型頸部添加160 pixel ×160 pixel 的特征提取層,增加的檢測(cè)頭用于檢測(cè)微小尺度異常入侵目標(biāo),再結(jié)合YOLOv5s 原有大、中、?。?種尺度檢測(cè)頭,實(shí)現(xiàn)多尺度異常入侵目標(biāo)檢測(cè);其次,引入CARAFE 上采樣輕量化算子替換YOLOv5s中原有的最近鄰上采樣,在不引入過多參數(shù)量前提下,擴(kuò)大感受野,充分利用多尺度特征圖中原本被忽略的豐富語義信息;最后,使用Network-slimming 方法與知識(shí)蒸餾對(duì)改進(jìn)后的網(wǎng)絡(luò)模型進(jìn)行剪枝壓縮和蒸餾,對(duì)于多尺度異常入侵目標(biāo),在保證了較高檢測(cè)精度的同時(shí)有效地降低了網(wǎng)絡(luò)參數(shù)量和計(jì)算量。
1. 1 多尺度特征提取層
YOLOv5s 網(wǎng)絡(luò)模型檢測(cè)頭部分本身涵蓋3 個(gè)不同尺度的目標(biāo)檢測(cè)頭。假設(shè)圖片輸入尺寸為640 pixel×640 pixel,則頸部提取出的淺層特征圖尺寸為80 pixel×80 pixel,其包含比較多的淺層級(jí)信息,適用于檢測(cè)小目標(biāo);尺寸為20 pixel×20 pixel 的深層特征圖,容納了更豐富的深層次信息,例如環(huán)境信息、外貌特征等,適用于檢測(cè)大目標(biāo);而尺寸介于二者之間的40 pixel×40 pixel 特征圖,則適合用于檢測(cè)中等大小的目標(biāo)。由于變電站實(shí)際場(chǎng)景中常出現(xiàn)尺寸差異較大的異常入侵目標(biāo),而目前已有的目標(biāo)檢測(cè)方法時(shí)常漏檢較小尺寸的目標(biāo)。因此,修改網(wǎng)絡(luò)中的特征提取層,在網(wǎng)絡(luò)模型的頸部連續(xù)3 次下采樣,使得底層特征圖放大至160 pixel×160 pixel,含有更多且更豐富的底層特征信息。在添加小尺度特征提取層的同時(shí),也在檢測(cè)頭部分添加對(duì)應(yīng)小尺寸檢測(cè)頭,如圖2 所示。
新添加的小尺寸檢測(cè)頭對(duì)于微小目標(biāo)會(huì)更加敏感,需重新分配錨框來解決小尺度目標(biāo)漏檢問題。YOLOv5s 初始錨框大小的設(shè)置是基于MS COCO 數(shù)據(jù)集目標(biāo)尺寸預(yù)設(shè)。在訓(xùn)練時(shí),模型會(huì)基于初始錨框輸出預(yù)測(cè)框數(shù)值,再將其與真實(shí)框數(shù)值相減后,反向更新,以此不停迭代網(wǎng)絡(luò)參數(shù)。由于變電站異常入侵目標(biāo)與COCO 數(shù)據(jù)集目標(biāo)尺寸差異較大,本算法將關(guān)閉YOLOv5s 的自動(dòng)計(jì)算錨框功能,采用K 均值(K-means)聚類方法重新獲取更加適配于變電站異常入侵目標(biāo)尺寸的錨框,使改進(jìn)后的網(wǎng)絡(luò)模型對(duì)于不同尺度的異常入侵目標(biāo)檢測(cè)效果更佳。錨框大小分配如表1 所示。
1. 2 輕量化上采樣算子CARAFE
YOLOv5s 采用最直接的上采樣方法———最近鄰插值,也稱為零階插值,其核心思想是使得圖像變換后,某像素的灰度值與其距離最近的輸入像素灰度值相同。這種上采樣方法僅以像素點(diǎn)的空間位置作為決定上采樣核的唯一元素,完全忽略特征圖中豐富的語義信息,感受野也被嚴(yán)重限制在1×1 的范圍內(nèi)。基于上述原因,引入Wang 等[13]提出的CA-RAFE 上采樣算子,在不引入過多參數(shù)量和計(jì)算量的前提下,帶來較大的感受野,同時(shí)充分利用各層次特征圖中的語義信息進(jìn)行上采樣。CARAFE 由上采樣核預(yù)測(cè)模塊和特征重組模塊兩部分組成。假設(shè)給定上采樣倍率為σ(設(shè)σ 為整數(shù)),輸入特征圖χ 尺寸為H×W×C,CARAFE 將產(chǎn)生尺寸為σH×σW×C 的新特征圖。對(duì)于χ′中的任何目標(biāo)位置l′= (i′,j′),在輸入特征圖χ 中都有與其對(duì)應(yīng)的源位置l = (i,j),其中i 與j 的關(guān)系如式(1)和式(2)所示:
i = |i′/ σ| , (1)
j = |j′/ σ |。(2)
N = (χl,k)表示在χ 中以l 為中心的k×k 范圍的鄰域。
CARAFE 上采樣算子示意如圖3 所示。第一步,上采樣核預(yù)測(cè)模塊Ψ 基于χl 的鄰域?yàn)槊總€(gè)位置預(yù)測(cè)重組核wl′,如式(3)所示;第二步,特征重組模塊Φ 利用上一步預(yù)測(cè)出的核wl′ 重組特征,輸出特征圖χ′,如式(4)所示:
wl′ = Ψ(N(χl,kencoder )), (3)
χ′l′ = Φ(N(χl,kup ),wl′ ), (4)
式中:kup 表示內(nèi)核的尺寸,kencoder 表示內(nèi)容編碼器中卷積層內(nèi)核的尺寸。
上采樣核預(yù)測(cè)模塊負(fù)責(zé)以內(nèi)容感知的方式生成重組內(nèi)核,主要由通道壓縮模塊、內(nèi)容編碼器和歸一化模塊3 個(gè)子模塊組成。首先是通道壓縮模塊,為減少計(jì)算量,H×W×C 的特征圖會(huì)經(jīng)過通道壓縮變?yōu)椋取粒住粒茫?。其次是內(nèi)容編碼器將壓縮的特征圖作為輸入,使用內(nèi)核大小為kencoder 的卷積層在輸入特征的內(nèi)容基礎(chǔ)上預(yù)測(cè)新上采樣核。kencoder 的大小與感受野的大小呈正相關(guān),越大的kencoder 可以利用越大范圍內(nèi)的上下文信息。但是,模型整體的計(jì)算復(fù)雜度也會(huì)伴隨kencoder 的增大而增加。經(jīng)過實(shí)驗(yàn)證明,當(dāng)kup = 3,kencoder = 1 時(shí),模型在性能與計(jì)算量之間取得了一個(gè)較好的折衷。最后,將通道維在空間維展開,得到σH×σW ×k2up 的上采樣核然后利用歸一化指數(shù)函數(shù)將其進(jìn)行歸一化處理,使得卷積核權(quán)重和為1。在特征重組模塊中,將輸出特征圖中的每個(gè)像素都映射回初始輸入的特征圖中,取出以l =(i,j)為中心點(diǎn)的對(duì)應(yīng)N = (χl,kup )區(qū)域,并與在上采樣核預(yù)測(cè)模塊中得到的預(yù)測(cè)該像素點(diǎn)的上采樣核wl′作點(diǎn)積操作,加強(qiáng)了特征圖的語義信息,如式(5)所示,最后得到輸出為σH ×σW ×C 的特征圖χ′。
將CARAFE 上采樣算子替換原有的最近鄰上采樣算子后,網(wǎng)絡(luò)模型對(duì)于圖像特征提取和融合的能力得到了一定的提升,有效地保留了多尺度異常入侵目標(biāo)的特征信息,同時(shí)也并未引入過多的計(jì)算量,使融合后的多尺度特征具有了更為豐富的表達(dá)能力。整體優(yōu)化改進(jìn)后的網(wǎng)絡(luò)結(jié)構(gòu)如圖4 所示。
1. 3 Network-slimming 策略
添加了新的特征提取層和CARAFE 上采樣算子的網(wǎng)絡(luò)模型在訓(xùn)練好后,仍然存在大量冗余的參數(shù),因此無法移植部署至邊緣計(jì)算平臺(tái)上,實(shí)現(xiàn)實(shí)時(shí)檢測(cè)異常入侵目標(biāo)的功能,如何對(duì)改進(jìn)后的模型剪枝是輕量化模型的關(guān)鍵所在。本算法采用Network-slimming 策略[14]實(shí)施剪枝,由于每個(gè)尺度參數(shù)與卷積通道是一一映射的,因此,批歸一化(Batch Nor-malization,BN)使用比例因子對(duì)歸一化后的特征通道進(jìn)行整體縮放,而縮放范圍在一定程度上反映了通道的重要性,可以根據(jù)比例因子的絕對(duì)值對(duì)通道重要性進(jìn)行評(píng)估,將重要性相對(duì)較低的通道進(jìn)行剪枝,從而減少網(wǎng)絡(luò)參數(shù)量,獲得一個(gè)更加緊湊的網(wǎng)絡(luò)模型,圖5 展示了模型參數(shù)剪枝策略的基本流程。設(shè)zin 與zout 分別表示BN 層的輸入和輸出,B 表示當(dāng)前的最小批,BN 層將執(zhí)行以下變換:
式中:μB 和σB 表示B 的平均值和標(biāo)準(zhǔn)偏差值,γ 表示每個(gè)通道的比例因子,β 表示可訓(xùn)練的仿射變換參數(shù)。通過式(7)可以看出每個(gè)通道的zout 與比例因子γ 呈正相關(guān)。
在網(wǎng)絡(luò)中BN 層的比例因子都具備一定的絕對(duì)值大小,這意味著每個(gè)通道都具有不可忽略的重要性,因此在稀疏訓(xùn)練中對(duì)尺度參數(shù)添加L1 正則化,稀疏化部分通道。因此,剪枝流程整體為首先使用每個(gè)通道的比例因子γ 乘以該通道的輸出;其次,聯(lián)合訓(xùn)練網(wǎng)絡(luò)權(quán)重,并為通道添加稀疏正則化;最后,剪去比例因子較小的,貢獻(xiàn)較少,并微調(diào)剪枝后的網(wǎng)絡(luò),損失函數(shù)由下式給出:
式中:(x,y)表示訓(xùn)練輸入和執(zhí)行目標(biāo),W 表示可訓(xùn)練的權(quán)重,第一個(gè)求和項(xiàng)表示卷積網(wǎng)絡(luò)的正常訓(xùn)練損失,g(·)表示計(jì)算L1 范數(shù)對(duì)比例因子的損失。
本文采用Fang 等[15]提出的Torch-Pruning 工具,一種通用的結(jié)構(gòu)化剪枝庫,可快速實(shí)現(xiàn)Network-slimming 策略,降低模型推理成本。當(dāng)網(wǎng)絡(luò)模型通過一次完整的稀疏化訓(xùn)練、剪枝、微調(diào)后,還可以多次遍歷重復(fù)該流程,如圖6 所示,以此獲得更為緊湊的模型,運(yùn)行占用內(nèi)存和計(jì)算操作也會(huì)相應(yīng)地大大減少。
1. 4 知識(shí)蒸餾微調(diào)
經(jīng)過剪枝后的模型雖然網(wǎng)絡(luò)參數(shù)量和計(jì)算量都大大減少,但是檢測(cè)精度劣化是一個(gè)難以避免的情況。為了克服此困難,本小節(jié)將知識(shí)蒸餾(Knowledgedistillation)[16]與模型微調(diào)有機(jī)充分結(jié)合,盡可能消除網(wǎng)絡(luò)模型剪枝后所帶來的負(fù)面影響。知識(shí)蒸餾使用教師-學(xué)生訓(xùn)練模式,由完成預(yù)訓(xùn)練的大型教師模型對(duì)小型學(xué)生模型進(jìn)行知識(shí)蒸餾,以輕微的性能損失為代價(jià),將非常復(fù)雜的教師模型中的知識(shí)完全遷移到學(xué)生模型中,不但學(xué)習(xí)了教師模型的泛化能力,也獲得了近似于教師模型的性能。其中,蒸餾損失函數(shù)式(9)將計(jì)算教師模型與學(xué)生模型預(yù)測(cè)結(jié)果的差異:
L = δLhard + (1 - δ)Lsoft, (9)
式中:Lhard 為使用真實(shí)值訓(xùn)練輸出的硬樣本損失函數(shù),Lsoft 為教師模型預(yù)測(cè)的軟樣本損失函數(shù),δ 為平衡軟、硬樣本二者損失函數(shù)的參數(shù)。
圖7 全面展示了本文網(wǎng)絡(luò)模型知識(shí)蒸餾過程。教師模型采YOLOv5XL 網(wǎng)絡(luò),是YOLOv5 系列中性能最好、模型參數(shù)最大的網(wǎng)絡(luò),學(xué)生模型則使用改進(jìn)并剪枝后的YOLOv5s 模型。
2 實(shí)驗(yàn)數(shù)據(jù)集及評(píng)估指標(biāo)
2. 1 變電站異常入侵目標(biāo)數(shù)據(jù)集
現(xiàn)有的異常入侵目標(biāo)數(shù)據(jù)集,均不適用于變電站場(chǎng)景下的訓(xùn)練與測(cè)試,理由有以下3 點(diǎn):
(1)獨(dú)特應(yīng)用場(chǎng)景
具有實(shí)際應(yīng)用場(chǎng)景的數(shù)據(jù)集是網(wǎng)絡(luò)模型訓(xùn)練測(cè)試的關(guān)鍵,而目前現(xiàn)有的異常入侵目標(biāo)數(shù)據(jù)集并沒有針對(duì)變電站這一特殊場(chǎng)景建立。
(2)獨(dú)特異常入侵目標(biāo)
常見異常入侵目標(biāo)數(shù)據(jù)集多數(shù)針對(duì)鐵路或軌道中的泥石流、落石、行人、汽車和自行車等異常入侵目標(biāo)建立。然而本文所提出的數(shù)據(jù)庫是針對(duì)變電站場(chǎng)景下專有的異常入侵目標(biāo):鳥、貓、狗、人、松鼠、鼠和蛇,與現(xiàn)有的異常入侵?jǐn)?shù)據(jù)集中的類別并無關(guān)聯(lián)。
(3)獨(dú)特異常入侵目標(biāo)尺度
經(jīng)過實(shí)地勘探發(fā)現(xiàn),變電站異常入侵目標(biāo)的尺寸相較于鐵路場(chǎng)景下的入侵目標(biāo)尺寸差距較大,如圖8 所示。
由于變電站場(chǎng)景下的異常入侵檢測(cè)目標(biāo)類別和尺寸均與普通異常入侵目標(biāo)差異較大,并且檢測(cè)場(chǎng)景也完全不同,因此,現(xiàn)有的異常入侵目標(biāo)數(shù)據(jù)集不能用于變電站的異常入侵檢測(cè)。本文在變電站實(shí)際場(chǎng)景下收集數(shù)據(jù)建立了一個(gè)變電站異常入侵目標(biāo)數(shù)據(jù)集(Dataset for Anomaly Invasion Targets in Substa-tions,SAITD),以保證后續(xù)實(shí)驗(yàn)研究結(jié)果具有較高的可靠性。
SAITD 通過在變電站實(shí)際場(chǎng)景下安裝攝像頭拍攝的真實(shí)視頻,通過Potplayer 軟件跳幀剪成共2 310 張圖片,每張圖片尺寸為640 pixel×640 pixel,共涵蓋7 類目標(biāo),分別為鳥(bird)、狗(dog)、貓(cat)、人(person)、蛇(snake)、松鼠(squirrel)和鼠(mouse)。異常入侵目標(biāo)類別及對(duì)應(yīng)數(shù)量如表2所示。
按照8 ∶ 1 ∶ 1 的比例將SAITD 劃分為訓(xùn)練集、驗(yàn)證集和測(cè)試集。
2. 2 性能評(píng)價(jià)指標(biāo)
由于改進(jìn)后的算法可根據(jù)需要實(shí)地部署在變電站場(chǎng)景中,應(yīng)從檢測(cè)準(zhǔn)確度、模型復(fù)雜度、計(jì)算量和檢測(cè)實(shí)時(shí)性等方面評(píng)估算法性能。因此,本實(shí)驗(yàn)采用交并比閾值為0. 5 的平均精度均值(meanAverage Precision,mAP)、單張圖片推理時(shí)間、模型計(jì)算量(GFLOPs)和模型參數(shù)量(Parameters)等性能評(píng)價(jià)指標(biāo)從多維度評(píng)估算法。
3 實(shí)驗(yàn)及結(jié)果分析
3. 1 實(shí)驗(yàn)環(huán)境
本算法在服務(wù)器上運(yùn)行訓(xùn)練,在英偉達(dá)JestonNano 開發(fā)板上部署測(cè)試,具體如圖9 所示。英偉達(dá)Jeston Nano 操作系統(tǒng)為Ubuntu 20. 04,GPU 為Max-well2. 0,網(wǎng)絡(luò)模型是基于PyTorch1. 11. 0 版本深度學(xué)習(xí)框架進(jìn)行搭建,CUDA 版本為11. 6,Python 語言版本為3. 7。
3. 2 模塊對(duì)比實(shí)驗(yàn)分析
為了驗(yàn)證改進(jìn)模型算法的可行性和有效性,針對(duì)改進(jìn)模塊和知識(shí)蒸餾進(jìn)行橫向?qū)Ρ葘?shí)驗(yàn),在保持模型其余部分不變的基礎(chǔ)之上,對(duì)相同位置不同改進(jìn)點(diǎn)或不同教師模型進(jìn)行對(duì)比實(shí)驗(yàn)。所有實(shí)驗(yàn)均在YOLOv5-6. 0 版本基礎(chǔ)上進(jìn)行改進(jìn),迭代次數(shù)為300。
3. 2. 1 CARAFE 中kup 與kencoder 取值對(duì)比
由于內(nèi)容編碼器需要較大的kencoder ×kencoder 感受野來利用更大范圍內(nèi)的上下文信息預(yù)測(cè)上采樣核wl′,所以kup 的大小需要對(duì)應(yīng)增加。但是,模型整體的計(jì)算復(fù)雜度也會(huì)伴隨kencoder 的增大而增加。
為了使得模型能夠兼顧更快的檢測(cè)速度和較高的檢測(cè)精度,針對(duì)kencoder 和kup 的不同取值進(jìn)行模型性能對(duì)比。設(shè)定一般場(chǎng)景下:kencoder = kup -2。實(shí)驗(yàn)結(jié)果如表3 所示,模型計(jì)算量和參數(shù)量隨著kencoder 的增大而逐漸增加,當(dāng)kencoder = 1,kup = 3 時(shí),模型能在保證較高mAP 的情況下,獲得較少的參數(shù)量和計(jì)算量開銷,更有利于輕量化模型的構(gòu)建和部署。
3. 2. 2 不同上采樣算子對(duì)比分析
將CARAFE 上采樣算子替代模型原有的最近鄰插值法,并同時(shí)與雙線性插值法(Bilinear Interpola-tion)轉(zhuǎn)置卷積法(convTranspose2d)這2 種上采樣方法進(jìn)行對(duì)比,實(shí)驗(yàn)結(jié)果如表4 所示??梢钥闯?,CA-RAFE 上采樣算子相較于其余上采樣方法對(duì)于改進(jìn)后的模型貢獻(xiàn)更大,在計(jì)算量與參數(shù)量增加不多的前提下,檢測(cè)精度提升最多。引入的CARAFE 上采樣算子可以充分利用不同尺寸特征圖中的語義信息,擴(kuò)大感受野,使小尺寸異常入侵目標(biāo)的特征更為明顯,位置信息更加清晰,能夠更好地融合多尺度特征。
3. 2. 3 知識(shí)蒸餾對(duì)比分析
為了驗(yàn)證使用YOLOv5XL 模型作為教師模型的有效性,針對(duì)知識(shí)蒸餾微調(diào)模型中使用不同的教師模型進(jìn)行實(shí)驗(yàn)對(duì)比分析。分別使用YOLOv5L、YOLOv7 兩種中大型網(wǎng)絡(luò)模型作為知識(shí)蒸餾中的教師模型,實(shí)驗(yàn)結(jié)果如圖10 所示。使用YOLOv5XL作為教師模型對(duì)改進(jìn)且剪枝后的網(wǎng)絡(luò)模型進(jìn)行蒸餾,模型計(jì)算量下降了32. 08% ,檢測(cè)精度提升了1. 8% ,證明該教師模型可使學(xué)生模型在保障模型復(fù)雜度較低的前提下,獲得更好的檢測(cè)性能。
3. 3 消融實(shí)驗(yàn)分析
為了驗(yàn)證模型改進(jìn)的有效性,本節(jié)對(duì)模型改進(jìn)處在SAITD 上進(jìn)行消融實(shí)驗(yàn)。實(shí)驗(yàn)結(jié)果如表5 所示,YOLOv5s 加入新的特征提取層后,對(duì)于小尺度異常入侵目標(biāo)漏檢的情況有明顯改善,相較于基準(zhǔn)模型平均檢測(cè)精度提升了1. 37% ,相應(yīng)的參數(shù)量和計(jì)算量都有一定的增加。在此基礎(chǔ)上引入了CARAFE 算子后,模型參數(shù)量明顯增多,檢測(cè)精度提升了2. 2% 。使用Network-slimming 策略對(duì)改進(jìn)后的模型進(jìn)行剪枝,由圖11 可說明,參數(shù)量直線下降了約49. 2% ,證明剪枝策略效果較好,但會(huì)損失一定的檢測(cè)精度作為剪枝壓縮模型的代價(jià)。使用知識(shí)蒸餾微調(diào)模型后,不但保持了較低的參數(shù)量和計(jì)算量,還恢復(fù)了一定的檢測(cè)精度。實(shí)驗(yàn)證明,所提改進(jìn)模塊在SAITD 上展示的性能均有一定幅度的提升,YOLOv5-Substation 在保證較高檢測(cè)準(zhǔn)確度時(shí),也具有較快的檢測(cè)速度,實(shí)現(xiàn)了輕量化實(shí)時(shí)檢測(cè)異常入侵目標(biāo)的功能。
3. 4 模型對(duì)比實(shí)驗(yàn)分析
使用YOLOv5n、YOLOv7[17]等5 款主流模型與YOLOv5-Substation 在SAITD 上進(jìn)行對(duì)比實(shí)驗(yàn)。分別從mAP、模型計(jì)算量、模型參數(shù)量和單張圖片推理時(shí)間4 個(gè)維度來評(píng)估6 個(gè)模型的性能。實(shí)驗(yàn)數(shù)據(jù)結(jié)果如表6 和圖12 所示,可視化結(jié)果如圖13 所示。YOLOv5n 雖然是6 種網(wǎng)絡(luò)模型中最輕量、推理時(shí)間最快的模型,但是檢測(cè)精度卻非常不理想,出現(xiàn)漏檢場(chǎng)景里出現(xiàn)的小尺寸異常入侵目標(biāo)的情況。YOLOv5L、YOLOv5XL、YOLOv7 作為中大型模型,相比于輕量化模型,中大型模型的檢測(cè)精度展示出了較高標(biāo)準(zhǔn),但由于模型整體計(jì)算開銷和占用內(nèi)存較大,并不適合部署于邊緣計(jì)算平臺(tái)上。改進(jìn)后的YOLOv5Substation 極大地改善了其余模型漏檢較小尺寸異常入侵目標(biāo)的情況,相比于YOLOv5s,有效提高了多尺度目標(biāo)檢測(cè)精度,減少了近26% 計(jì)算開銷,擁有了更為輕量化的模型參數(shù),能夠滿足無人值守變電站下實(shí)時(shí)檢測(cè)的需求。
4 結(jié)束語
本文針對(duì)無人值守變電站場(chǎng)景下異常入侵目標(biāo)檢測(cè)方法無法兼顧檢測(cè)精度與實(shí)時(shí)性能的問題,從實(shí)際應(yīng)用需求出發(fā),基于YOLOv5s 模型提出適用于變電站邊緣檢測(cè)設(shè)備的輕量化異常目標(biāo)檢測(cè)網(wǎng)絡(luò)YOLOv5-Substation。有效緩解了小尺度目標(biāo)漏檢問題,在保證模型對(duì)于多尺度目標(biāo)較高檢測(cè)精度的同時(shí),加速模型推理,使得輕量化后的邊緣端計(jì)算模型推理速度相較于原有YOLOv5s 提升了41. 9% ,SAITD 的建立也為后續(xù)研究變電站異常入侵目標(biāo)提供了強(qiáng)有力的數(shù)據(jù)支撐,為智能電網(wǎng)的建設(shè)提供了切實(shí)可行的方法。
參考文獻(xiàn)
[1] 新華社. 中華人民共和國(guó)國(guó)民經(jīng)濟(jì)和社會(huì)發(fā)展第十四個(gè)五年規(guī)劃和2035 年遠(yuǎn)景目標(biāo)綱要[EB / OL ].(2021-03-13)[2023-08-27]. https:∥www. gov. cn /xinwen / 2021-03 / 13 / content_5592681. htm.
[2] TANG W J,CHEN H G. Research on IntelligentSubstation Monitoring by Image Recognition Method[J].International Journal of Emerging Electric Power Systems,2021,22(1):1-7.
[3] STAUFFER C,GRIMSON W E L. Adaptive BackgroundMixture Models for Realtime Tracking[C]∥1999 IEEEComputer Society Conference on Computer Vision andPattern Recognition. Fort Collins:IEEE,1999:246-252.
[4] LIN Y W,TONG Y,CAO Y,et al. VisualattentionbasedBackground Modeling for Detecting Infrequently MovingObjects[J]. IEEE Transactions on Circuits and Systemsfor Video Technology,2017,27(6):1208-1221.
[5] LIM L A,KELES H Y. Foreground Segmentation Using aTriplet Convolutional Neural Network for Multiscale Feature Encoding [EB / OL]. (2018 - 01 - 07)[2023 - 08 -27]. https:∥arxiv. org / abs / 1801. 02225.
[6] BRAHAM M,DROOGENBROECK M V. Deep BackgroundSubtraction with Scenespecific Convolutional Neural Networks[C]∥2016 International Conference on Systems,Signals and Image Processing. Bratislava:IEEE,2016:1-4.
[7] CHEN T Y H,RAVINDRANATH L,DENG S,et al.GLIMPSE:Continuous,Realtime Object Recognition onMobile Devices [C ] ∥ 13th ACM Conference onEmbedded Networked Sensor Systems. Seoul:ACM,2015:155-168.
[8] LIU L Y,LI H Y,GRUTESER M. Edge Assisted Realtime Object Detection for Mobile Augmented Reality[C]∥The 25th Annual International Conference on Mobile Computing and Networking. Los Cabos:ACM,2019:1-16.
[9] REN J,GUO Y D,ZHANG D Y,et al. Distributed and Efficient Object in Edge Computing:Challenges andSolutions[J]. IEEE Network,2018,32(6):137-143.
[10] 王瑞,李霄峰,史天運(yùn),等. 基于視頻深度學(xué)習(xí)的鐵路周界入侵檢測(cè)算法研究[J]. 交通運(yùn)輸系統(tǒng)工程與信息,2020,20(2):61-68.
[11] 郭保青,王寧. 基于改進(jìn)深度卷積網(wǎng)絡(luò)的鐵路入侵行人分類算法[J ]. 光學(xué)精密工程,2018,26 (12 ):3040-3050.
[12] 何文玉,楊杰,張?zhí)炻叮?基于深度學(xué)習(xí)的軌道異物入侵檢測(cè)算法[J]. 計(jì)算機(jī)工程與設(shè)計(jì),2020,41 (12 ):3376-3383.
[13] WANG J Q,CHEN K,XU R,et al. CARAFE:Contentaware Reassembly of Features[C]∥2019 IEEE / CVF International Conference on Computer Vision. Seoul:IEEE,2019:3007-3016.
[14] LIU Z,LI J G,SHEN Z Q,et al. Learning Efficient Convolutional Networks through Network Slimming[C]∥ 2017IEEE International Conference on Computer Vision (ICCV). Venice:IEEE,2017:2755-2763.
[15] FANG G F,MA X Y,SONG M L,et al. Dep Graph:Towards Any Structural Pruning[C]∥ Proceedings of theIEEE Conference on Computer Vision and Pattern Recognition. Vancouver:IEEE,2023:16091-16101.
[16] HINTON G,VINYALS O,DEAN J. Distilling theKnowledge in a Neural Network [EB / OL]. (2015 - 03 -09)[2023-08-27]. https:∥arxiv. org / abs / 1503.
[17] WANG C Y,BOCHKOVSKIY A,LIAO H Y M. YOLOv7:Trainable Bagoffreebies Sets New Stateoftheart forRealtime Object Detectors [C ]∥ Proceedings of theIEEE Conference on Computer Vision and Pattern Recognition. Vancouver:IEEE,2023:7464-7475.
作者簡(jiǎn)介
潘 磊 男,(1982—),博士,副教授,碩士生導(dǎo)師。主要研究方向:智慧民航、計(jì)算機(jī)視覺和情感計(jì)算等。
(*通信作者)趙枳晴 女,(1997—),碩士研究生。主要研究方向:運(yùn)動(dòng)目標(biāo)檢測(cè)、小目標(biāo)檢測(cè)。
傅 強(qiáng) 男,(1969—),碩士,研究員,碩士生導(dǎo)師。主要研究方向:計(jì)算機(jī)技術(shù)與民航行業(yè)應(yīng)用。
鄭 遠(yuǎn) 男,(1993—),博士,講師。主要研究方向:計(jì)算機(jī)視覺、軌跡規(guī)劃等。
田 俊 男,(1998—),碩士研究生。主要研究方向:圖像增強(qiáng)、目標(biāo)檢測(cè)。
基金項(xiàng)目:中國(guó)民用航空飛行學(xué)院智慧民航專項(xiàng)(ZHMM2022-005);民航飛行技術(shù)與飛行安全重點(diǎn)實(shí)驗(yàn)室開放基金(FZ2022KF10);民航飛行技術(shù)與飛行安全重點(diǎn)實(shí)驗(yàn)室自主研究項(xiàng)目(FZ2022ZZ06);中國(guó)民用航空飛行學(xué)院重點(diǎn)面上項(xiàng)目(ZJ2021-11);中國(guó)民用航空飛行學(xué)院2023 研究生創(chuàng)新項(xiàng)目(X2023-29)