姜振邦,鄒寬勝
(江蘇師范大學(xué)電氣工程及自動化學(xué)院,徐州 221116)
電力線提取是保障飛行器低空安全飛行的重要措施,提前檢測出電力線并實施避障具有重要意義。美軍數(shù)據(jù)顯示:1997~2006年,共發(fā)生54 起軍用飛行器撞擊電力線事故,造成13 名軍事人員死亡,經(jīng)濟損失高達2.24 億美元[1]。飛行器與電力線發(fā)生碰撞會導(dǎo)致電力線損壞,影響電力系統(tǒng)的穩(wěn)定性。電力作為國民經(jīng)濟的重要基礎(chǔ)工業(yè),一旦發(fā)生故障將造成巨大的經(jīng)濟損失和社會影響。2019年8 月9日,英國倫敦等重要城市發(fā)生大規(guī)模停電事故,導(dǎo)致地鐵與城際火車停運、道路交通信號中斷,市民被困在鐵路和地鐵中,居民生活受到嚴重影響[2]。為保障電力系統(tǒng)健康運行,需定期進行電力巡檢,掌握輸電線路的運行情況以及線路周圍環(huán)境和線路保護區(qū)的變化情況。電力線提取又是電力巡檢中的關(guān)鍵環(huán)節(jié),因此對電力線提取方法進行研究尤為重要。
利用圖像處理技術(shù)可以高效地提取出電力線。最直觀的電力線特征是基于邊緣檢測的直線特征[3],文獻[4‐5]將電力線簡化為直線模型,但在復(fù)雜場景中這類基于邊緣檢測直線特征的提取方法,提取到的線段可能是車道、樹枝或建筑物邊緣等。為解決這類問題,學(xué)者們提出結(jié)合全局輔助物和上下文信息的電力線提取方法,文獻[6‐7]均利用電力桿塔作為全局輔助物提取電力線。結(jié)合全局輔助物的電力線提取方法彌補了區(qū)分電力線和非電力線時僅依靠電力線自身特征所引起的不足,但預(yù)設(shè)的輔助物與電力線的關(guān)聯(lián)模型(如塔‐線關(guān)聯(lián)模型)難以適用多種多樣的航拍圖像[8]。文獻[9‐10]將上下文信息與電力線特征相結(jié)合用以區(qū)分電力線和偽電力線,但上下文信息作為一種先驗知識,當(dāng)場景發(fā)生劇烈變化時,場景上下文特征無法發(fā)揮作用。
深度學(xué)習(xí)方法在圖像處理領(lǐng)域得到廣泛應(yīng)用,如圖像分類、目標(biāo)檢測[11‐12]和圖像分割。在電力線提取任務(wù)中,學(xué)者們嘗試引入深度學(xué)習(xí)方法。文獻[13]通過卷積神經(jīng)網(wǎng)絡(luò)提取圖像特征,將圖像分為包含電力線和不包含電力線兩大類,但無法實現(xiàn)電力線的準確定位。文獻[14]通過構(gòu)建一個改進的VGG16 神經(jīng)網(wǎng)絡(luò)獲取每一層的分層響應(yīng),并將分層響應(yīng)特征圖進行整合以生成融合輸出,實現(xiàn)了端對端的電力線提取。但由于電力線公開數(shù)據(jù)集的樣本量少,模型提取到的電力線特征有限,復(fù)雜背景下的電力線提取效果并不理想。文獻[15]針對醫(yī)學(xué)圖像提出U‐net 模型,在小數(shù)據(jù)集上取得較好效果,對電力線提取具有借鑒意義。
文獻[16]提出注意力機制(Attention mechanism),其主要用于翻譯模型,因其強大的關(guān)注特性和特征表達能力被引入計算機視覺領(lǐng)域。背景復(fù)雜的航空影像包含大量冗雜信息,注意力機制則能夠通過聚焦重要信息,抑制非重要特征,提高電力線提取的效率與準確性。
因此本文提出一種基于階段注意力機制的電力線提取模型,該模型采用語義分割模型的編碼‐解碼結(jié)構(gòu)。編碼階段采用提出的階段輸入融合策略,將多尺度圖像與池化后的特征圖進行通道上的拼接。解碼階段嵌入改進的階段注意力模塊,通過將空間注意力、通道注意力和金字塔注意力融合,選擇重點位置、增強代表性物體、減弱背景干擾,實現(xiàn)像素級跨場景電力線提取。
使用SA‐Unet 模型進行電力線提取的整體流程如圖1 所示:特征工程將數(shù)據(jù)處理成算法能夠理解的格式,并劃分為訓(xùn)練集和測試集。訓(xùn)練集用以訓(xùn)練深度學(xué)習(xí)模型,測試集用以預(yù)測和評估模型并返回預(yù)測結(jié)果。
圖1 整體流程Fig.1 Overall process
模型整體架構(gòu)采用編碼‐解碼的U 型結(jié)構(gòu),如圖2 所示。編碼過程采用階段輸入融合策略,充分利用圖像不同接受域的信息,減少池化帶來的空間位置信息丟失。同時仿照人類視覺機制設(shè)計出階段注意力模塊,從大量信息中篩選出對當(dāng)前任務(wù)目標(biāo)更關(guān)鍵的信息。
如圖2 所示,SA‐Unet 編碼部分由卷積模塊、池化模塊、階段輸入模塊和特征融合模塊組成。在網(wǎng)絡(luò)的輸入端輸入一張128×128×3 的RGB 彩色圖像,并生成3 種小尺寸輸入圖像。4 種不同尺寸的輸入圖像通過卷積模塊提取特征,并與上一層經(jīng)過池化的特征圖進行通道上的融合。融合后的特征圖分為兩路,一路進行池化下采樣操作,另一路與解碼對應(yīng)部分進行通道融合。SA‐Unet 解碼部分由卷積模塊、上采樣模塊、階段注意力模塊和特征融合模塊組成。特征圖經(jīng)過上采樣模塊,圖像尺寸增大,并與編碼對應(yīng)部分進行通道融合。通過階段注意力模塊,關(guān)注重點區(qū)域,抑制無效特征,最后進入卷積模塊進行特征還原。
圖2 SA‐Unet 模型Fig.2 Model of SA‐Unet
編碼階段進行4 次池化操作,極大減少參數(shù)量,加速損失的收斂。池化操作損失空間位置信息,某種程度上實現(xiàn)了一定的平移不變性,但是損失了圖像部件之間精確的空間相對關(guān)系。另外,卷積神經(jīng)網(wǎng)絡(luò)(Convolutional neural network,CNN)的內(nèi)部表示本身并沒有很好地考慮低層部件和高層概念的空間層次關(guān)系。
對于電力線提取任務(wù)來說,除電力線本身特征外,輔助物和上下文信息是成功提取電力線的關(guān)鍵。然而部件間的空間相對關(guān)系和低層部件與高層概念間的空間層次關(guān)系,在某種程度上正是電力線提取任務(wù)中的輔助物和上下文信息,這些特征有助于電力線的提取。因此本文提出階段輸入融合策略,如圖2 編碼階段所示:首先輸入一幅圖像,在經(jīng)過卷積塊的特征提取后進行4 次池化操作,并在第2 層至第4 層增加原始圖像的多尺度輸入,每一層的多尺度輸入與上一層經(jīng)過卷積和池化操作后的特征圖進行特征融合,最終完成特征提取。
注意力機制[17]是人類視覺所特有的大腦信號處理機制。人類視覺通過快速掃描全局圖像,獲得需要重點關(guān)注的目標(biāo)區(qū)域,也就是一般所說的注意力焦點,而后對這一區(qū)域投入更多注意力資源,以獲取更多所需要關(guān)注目標(biāo)的細節(jié)信息,而抑制其他無用信息。這是人類利用有限的注意力資源從大量信息中快速篩選出高價值信息的手段,是人類在長期進化中形成的一種生存機制,人類視覺注意力機制極大地提高了視覺信息處理的效率與準確性。如圖3 所示,本文改進的注意力模塊由空間注意力機制、通道注意力機制和金字塔注意力機制組成,通過對特征圖進行加權(quán)處理達到增強目標(biāo)特征并且抑制背景的目的。
圖3 階段注意力模塊Fig.3 Stage attention module
卷積操作通過通道和空間信息的混合來提取特征,通過本文提出的階段注意力模塊強調(diào)通道維度和空間維度的有價值特征,且不同位置設(shè)置不同的特征關(guān)注度。在得到中間特征映射圖的情況下,階段注意力模塊會進行3 個階段的注意力映射,依次為通道注意力映射、空間注意力映射和金字塔注意力映射,然后將注意力映射相乘到輸入特征映射中進行自適應(yīng)特征細化。模塊自動學(xué)習(xí)信息的重要程度,設(shè)置注意力權(quán)重,有效地幫助特征信息在網(wǎng)絡(luò)模型中進行傳輸。
1.3.1 通道注意力
不同通道的特征圖代表不同類型的圖像特征,如形狀,顏色和紋理等。同時不同類型的圖像特征包含差異性信息,具有不同的貢獻程度。通道注意力對不同的通道給定不同的關(guān)注度,關(guān)注有價值的通道信息,抑制其他通道的無用信息。因此設(shè)置通道注意力權(quán)重,關(guān)注重要通道信息,如圖4 所示。
圖4 通道注意力模塊Fig.4 Channel attention module
將不同通道上的特征圖F分別進行全局最大池化和全局平均池化,得到最大池化向量VM和平均池化向量VA。然后將兩個向量輸入到權(quán)值共享的感知機進行運算,輸出兩個處理過的空間注意力向量VMN和VAN。接著對兩個空間注意力向量進行逐像素相加,并送入Sigmoid 激活函數(shù),得到新的空間注意力向量Mc(F)。最后將新得到的空間注意力向量與原特征圖相乘,獲得最終的特征圖FC。
計算公式為
式中:AvgPool( ?) 為全局平均池化;MaxPool( ?) 為全局最大池化;MLP( ?) 為感知機;σ( ?) 為Sigmoid 激活函數(shù)。
1.3.2 空間注意力
根據(jù)人類視覺系統(tǒng)的特點,人類觀察事物首先會注意到感興趣的區(qū)域,忽略空間中其他區(qū)域??臻g注意力機制從人類的視覺系統(tǒng)中得到啟發(fā),將特征圖的不同部分配以不同的權(quán)重,關(guān)注一幅圖像中的重要目標(biāo)區(qū)域。本文提出的空間注意力模塊,如圖5 所示。
圖5 空間注意力模塊Fig.5 Spatial attention module
將經(jīng)過通道注意力生成的特征圖FC輸入至空間注意力模塊,分別做基于通道的全局最大池化和全局平均池化,得到最大池化特征圖和平均池化特征圖,并將兩個特征圖在通道上進行拼接。然后通過卷積操作將特征圖的通道降為1 得到FS,再經(jīng)過Sigmoid 激活函數(shù)生成空間注意力特征。最后將輸入特征與空間注意力特征進行乘法操作,得到最終的特征圖。
計算公式為
式中:AvgPool( ?)為全局平均池化;MaxPool( ?)為全局最大池化;f( ?)為卷積操作;σ( ?)為Sigmoid 激活函數(shù)。
1.3.3 金字塔注意力
視覺系統(tǒng)在處理任務(wù)時會綜合考慮多方面信息,比如在使用顯微鏡觀察細胞時,不同的放大倍數(shù)觀測到的細胞特征完全不同。金字塔注意力依據(jù)人類視覺處理機制,通過提取圖像不同感受野的特征圖,獲取不同感受野下的圖像信息,將這些信息融合,獲得最后的權(quán)重系數(shù)[18]。本文提出的金字塔注意力模塊如圖6 所示。
圖6 金字塔注意力模塊Fig.6 Pyramid attention module
計算公式為
式中:f1( ?)表示卷積核大小為1 的卷積操作;f3( ?)表示卷積核大小為3 的卷積操作;f5( ?)表示卷積核大小為5 的卷積操作;σ( ?)為Sigmoid 激活函數(shù)。
實驗數(shù)據(jù)采用公開的Powerline Image Dataset 數(shù)據(jù)集,本數(shù)據(jù)集由土耳其電力傳輸公司(TEIAS)從實際飛機上獲取視頻畫面,并對視頻幀進行徹底的檢查,分離、捕捉和清理。本數(shù)據(jù)集共采集了4 000張紅外圖像和4 000 張可見光圖像,并縮放到128 像素×128 像素。紅外文件夾包含2 000 張帶有電力線的紅外圖片和2 000 張沒有電力線的紅外圖片??梢姽馕募A包含2 000 張含有電力線的可見光圖像和2 000 張不包含電力線的可見光圖像。視頻拍攝于土耳其21 個不同地區(qū)的不同季節(jié)。由于不同的背景,不同的溫度和天氣條件,以及不同的照明條件,所獲得的正集包含極其困難的場景,其中低對比度導(dǎo)致電力線接近不可見。原始視頻的紅外分辨率為576 像素×325 像素,可見光為全高清。然而,捕獲的幀被縮小到更小的尺寸128 像素×128 像素。
在包含電力線的2 000 張可見光圖像中,低對比度導(dǎo)致部分圖像的電力線接近不可見,無法進行數(shù)據(jù)的像素級標(biāo)注,故將其剔除。最終共獲得1 974 張包含電力線的可見光圖像,包括訓(xùn)練數(shù)據(jù)1 874 張,測試數(shù)據(jù)100 張。
關(guān)于數(shù)據(jù)的標(biāo)注工作,共邀請了6 名具有資深經(jīng)驗的數(shù)據(jù)標(biāo)注師進行人工標(biāo)注。實驗使用數(shù)據(jù)標(biāo)注軟件Labelme 對可見光圖像進行數(shù)據(jù)標(biāo)注,生成json 文件,文件中包含像素點的位置信息以及所屬類別。最終通過Python 程序?qū)son 文件轉(zhuǎn)換為標(biāo)注圖(Ground truth,GT)。
本文引入FCN8s[19],F(xiàn)CN16s[19],F(xiàn)CN32s[19],Unet[15]和SegNet[20]5 種模型與本文提出的SA‐Unet在Powerline Image Dataset 圖像數(shù)據(jù)集上進行比較,以驗證模型的有效性。SA‐Unet 利用模型減枝即丟棄不代表模型性能的權(quán)重加速模型,并通過Fusing batch normalization and convolution 和多線程等策略提高算法效率。模型采用BCE With LogitsLoss 損失函數(shù),Adam[21]優(yōu)化函數(shù),學(xué)習(xí)率(Learning rate)設(shè)置為2e - 4,循環(huán)周期(epoch)設(shè)置為50。其余的實驗配置:Windows10 操作系統(tǒng),Pytorch1.7.0 深度學(xué)習(xí)框架,CPU:Intel(R)Core(TM)i9‐10900k CPU @ 3.70 GHz,GPU:顯存為8 GB 的NVIDIA Ge‐Force RTX 2070。
為衡量SA‐Unet 模型預(yù)測能力的好壞,本文使用語義分割中最常用的平均交并比(Mean intersec‐tion over union,MIoU)和像素精度(Pixel accuracy,PA)作為度量標(biāo)準。
MIoU 是衡量圖像分割精度的重要指標(biāo),即在每個類別上計算兩個集合的交集與并集之比,最后再求取整體的平均值。MIoU 的值越大,表示模型的預(yù)測能力越好,分割精度越高。
計算公式為
式中:n表示類別數(shù);pii表示像素實值為i且預(yù)測結(jié)果為i的數(shù)目;pij表示像素實值為i且預(yù)測結(jié)果為j的數(shù)目;pji表示像素實值為j且預(yù)測結(jié)果為i的數(shù)目。
像素精度即分類正確的像素占總像素的比例,計算公式為
式中:n表示類別數(shù);pii表示像素實值為i且預(yù)測結(jié)果為i的數(shù)目;pij表示像素實值為i且預(yù)測結(jié)果為j的數(shù)目。
在消融實驗中,通過移除階段輸入融合模塊得到A‐Unet,通過A‐Unet 與SA‐Unet 的效果對比,查看使用階段輸入融合策略帶來的好處。類似地,從SA‐Unet 中刪除階段輸入融合模塊和階段注意力模塊得到Unet,通過A‐Unet 與Unet 的效果對比,以查看階段注意力模塊在網(wǎng)絡(luò)執(zhí)行過程中的作用。實驗結(jié)果如表1 所示,其中Time 表示推理一張圖片所用的時間。
表1 消融實驗結(jié)果Table 1 Results of ablation experiment
橫向來看,SA‐Unet 比A‐Unet 在評價指標(biāo)PA 上提高0.13%,在評價指標(biāo)MIoU 上提高1.25%,顯然階段輸入融合策略可以明顯提高電力線的分割精度。A‐Unet 和Unet 相比,PA 指標(biāo)降低0.05%,而MIoU 指標(biāo)提高0.76%,表明階段注意力機制犧牲微乎其微的PA 指數(shù)換取MIoU 指數(shù)的明顯提升。經(jīng)過優(yōu)化的SA‐Unet 推理一張圖片用時0.253 1 s,低于A‐Unet 和Unet 模型,證實了SA‐Unet 使用加速策略的有效性。
縱向來看,Unet、A‐Unet 和SA‐Unet 在評價基準PA 上均取得較高分數(shù),而且三者相差不大。因為對于航空電力線圖像而言,電力線在整幅圖像中占比較小,屬于小目標(biāo)和弱特征物體。而評價指標(biāo)PA描述的是分類正確的像素占總像素的比例,對于電力線占比極小的航空電力線圖像而言,電力線分類正確與否對PA 值的貢獻不大,故3 種模型均取得較高分數(shù)且相差不大。
本文給出包括SA‐Unet 在內(nèi)的6 種模型在數(shù)據(jù)集部分測試圖像中的分割預(yù)測效果,見圖7。Power‐line Image Dataset 數(shù)據(jù)集大致可以分為城市電力線場景和鄉(xiāng)村電力線場景,本文選取數(shù)據(jù)集中背景復(fù)雜、電力線提取難度高的4 張電力線圖像進行展示,其中包括1 張城市電力線場景圖和3 張鄉(xiāng)村電力線場景圖。鄉(xiāng)村電力線場景分別選取鄉(xiāng)村森林電力線場景、鄉(xiāng)村田地電力線場景和鄉(xiāng)村公路電力線場景,基本覆蓋數(shù)據(jù)集所有的場景類型。
圖7(a)展示4 張不同場景和難易程度的航空電力線圖像。第1 幅圖像為樹林、電力線桿塔和電力線相互交織的場景,第2 幅和第3 幅圖像為鄉(xiāng)村田地的電力線場景,其中第3 幅圖像中混入鄉(xiāng)間公路,第4 幅圖像為高樓林立的城市電力線場景。圖7(b)展示4 種不同場景航空電力線圖像的人工標(biāo)注。由圖7(c)可以看出,F(xiàn)CN32s 由于直接將提取到的特征圖進行雙線性上采樣至輸入圖像尺寸,故僅能提取特征明顯的電力線,在第1 幅、第3 幅和第4 幅圖像中存在電力線漏檢,在第2 幅圖像中則出現(xiàn)了電力線錯檢。如圖7(d)和圖7(e)所示,F(xiàn)CN16s 和FCN8s 最終輸出前融合淺層特征,較FCN32s 圖像分割精度提高。但FCN16s 和FCN8s 在第1 幅圖像中均出現(xiàn)電力線斷續(xù)的問題,在第2 幅圖像中則出現(xiàn)電力線過分割問題。由此可見,F(xiàn)CN 系列模型對小目標(biāo)物體的分割并不理想。如圖7(f)所示,Segnet 在第2 幅和第4 幅圖像中取得了較好的分割效果,這是由于Segnet 采用編碼‐解碼結(jié)構(gòu)并且利用最大池化改善了邊界劃分的結(jié)果。由于光照等因素的影響,第1 幅和第3 幅圖像中的部分電力線特征較弱,幾乎不可見。Segnet 在第1 幅圖像中提取到的電力線存在斷續(xù),第3 幅圖像中漏檢了弱特征電力線。如圖7(g)所示,Unet 在第1 幅和第2 幅圖像中取得了較好的分割效果,同樣在第3 幅圖像中出現(xiàn)漏檢,并且在第4 幅圖像中將少量的建筑物邊緣視為電力線提取出來。如圖7(h)所示,SA‐Unet 在第3 幅圖像的電力線提取中存在斷續(xù),這是由本數(shù)據(jù)集可見光圖像低對比度和光照導(dǎo)致電力線不可見導(dǎo)致的。SA‐Unet 整體取得了最好的分割效果,能較準確地區(qū)分出前景目標(biāo)和背景區(qū)域,這得益于模型的多階段輸入融合策略和階段注意力機制。
圖7 電力線分割預(yù)測效果Fig.7 Prediction effect of power line segmentation
表2 給出包括SA‐Unet 在內(nèi)的6 種模型在100 張測試圖像中的實驗性能對比,其中Time 表示推理一張圖片所用的時間。橫向來看,F(xiàn)CN32s 和其他5 個網(wǎng)絡(luò)模型相比,在兩個指標(biāo)上的性能表現(xiàn)最差,表明FCN32s 模型在數(shù)據(jù)集上,經(jīng)過模型預(yù)測的像素分類準確度較低,電力線預(yù)測區(qū)域和電力線標(biāo)注區(qū)域之間的重合區(qū)域較少,在很多情況下不能正確分割出電力線。FCN16s 和FCN8s 明顯優(yōu)于FCN32s,但與Segnet、Unet 和SA‐Unet 相比,差距仍很明顯。Segnet 模型和Unet 模型整體效果較好,Unet 模型通過犧牲0.05% 的PA 值換取了MIoU 指數(shù)1.99% 的提升。SA‐Unet 模型在PA 和MIoU 兩項指標(biāo)中表現(xiàn)最好,充分表明利用階段輸入融合策略并嵌入階段注意力模塊的SA‐Unet 模型的有效性。經(jīng)過優(yōu)化的SA‐Unet 推理一張圖片用時0.253 1 s,低于Unet、Segnet 和FCN32s,略高于FCN16s 和FCN8s,平衡了算法的效率和精度,基本滿足低速條件下的實時性需求。
表2 對比實驗結(jié)果Table 2 Results of comparative experiment
縱向來看,SA‐Unet 模型在評價指標(biāo)PA 和評價指標(biāo)MIoU 上表現(xiàn)最好,分別取得97.57% 和68.37% 的優(yōu)異成績,比性能第2 的Unet 模型分別提高了0.08% 和2.01%,在MIoU 指標(biāo)上有顯著性提升。
本文提出一種基于階段注意力機制的電力線提取算法。在編碼階段,根據(jù)航空影像中電力線圖像特點,提出階段輸入融合策略以減少空間位置信息丟失。在解碼階段,嵌入改進的階段注意力模塊,利用有限的注意力資源從大量信息中快速篩選出高價值信息。此外,對Powerline Image Dataset 數(shù)據(jù)集進行整理和標(biāo)注,并將本文提出的算法在數(shù)據(jù)集上進行測試。通過消融實驗證實了本文提出的階段輸入融合策略與階段注意力機制的有效性,并與5 種語義分割算法進行比較,在PA 指標(biāo)和MIoU 指標(biāo)上均取得最優(yōu)結(jié)果。但是電力線在航空影像中屬于小目標(biāo)物體,所占像素極少,能夠提取到的特征有限,并且由于環(huán)境和光照等因素的影響,部分電力線不可見。因此,基于單一數(shù)據(jù)源的語義分割模型普遍存在分割精度不高甚至部分電力線無法提取等問題。接下來將探索多種數(shù)據(jù)源融合的電力線提取算法,利用多模態(tài)信息提高算法在小目標(biāo)和弱特征物體上的分割精度。