韓谷靜,何 敏,雷宇航,張 敏,趙 柳,秦 亮
(1.武漢紡織大學電子與電氣工程學院,湖北武漢 430200;2.武漢大學電氣與自動化學院,湖北武漢 430072)
絕緣子作為輸電線路中電氣絕緣和機械固定的關(guān)鍵部件,對架空線路的可靠運行起到重要作用,需要定期巡檢。傳統(tǒng)的人工巡線方式效率低下,巡查質(zhì)量難以得到保證。近年來,無人機巡線技術(shù)以其高效、經(jīng)濟等特點獲得了廣泛應(yīng)用。而準確地從航拍圖像中分割出絕緣子串、實現(xiàn)絕緣子目標的高精檢測,是對其狀態(tài)感知與故障診斷的重要前提。
對圖像進行分割的方法主要有兩類,第一類是傳統(tǒng)的利用數(shù)字圖像處理、拓撲學、數(shù)學等知識進行圖像分割,主要方法有:閾值分割法、區(qū)域分割法、分水嶺算法、邊緣檢測算法等,這些方法不僅分割速度較慢,而且容易受到環(huán)境影響,分割精度較低[1-4]。
第二類是基于深度學習技術(shù)的分割方法,該方法通過深度神經(jīng)網(wǎng)絡(luò)的多級非線性變換提取并組合低層次的特征,形成數(shù)據(jù)的高級抽象特征表示,以達到較高的準確率和較強的泛化能力。文獻[5]使用實時目標檢測算法(FasterRegions with Convolutional Neural Network Features,F(xiàn)aster RCNN)與101 層殘差神經(jīng)網(wǎng)絡(luò)(Residual Neural Network,ResNet)結(jié)合定位絕緣子,然后使用全連接網(wǎng)絡(luò)(Fully Convolutional Networks,F(xiàn)CN)進行復(fù)雜背景的絕緣子分割。文獻[6]以特征金字塔網(wǎng)絡(luò)(Feature Pyramid Networks,F(xiàn)PN)ResNet 結(jié)合提取特征,而后利用全卷積網(wǎng)絡(luò)FCN 進行絕緣子的分割。文獻[7]改進單位鏈接脈沖耦合神經(jīng)網(wǎng)絡(luò)(Unit-linking Pulse Coupled Neural Network,UL-PCNN)中的連接輸入和耦合系數(shù)后,對絕緣子圖像進行分割。這些方法存在著語義信息和細節(jié)信息相對較少,網(wǎng)絡(luò)結(jié)構(gòu)復(fù)雜,參數(shù)冗余、訓練時間過長等缺點。文獻[8]采用U-Net 網(wǎng)絡(luò),并進行優(yōu)化器調(diào)整、批規(guī)范化處理、添加丟棄機制等適應(yīng)性的優(yōu)化。文獻[9]在U-Net 網(wǎng)絡(luò)中還添加了殘差網(wǎng)絡(luò),它們都在一定程度上提供了較為豐富的細節(jié)信息和語義信息,提高了絕緣子分割的精度。但以上方法的特征層對目標特征與干擾特征賦予相同的重要性,不利于背景復(fù)雜、對比度不明顯等的絕緣子圖像分割。
本文提出一種改進型U-Net 模型[10-11],即在UNet 網(wǎng)絡(luò)的主干特征提取網(wǎng)絡(luò)中引入注意力模型,增強網(wǎng)絡(luò)對絕緣子的識別能力,使分割結(jié)果更加精確[12-13]。實驗結(jié)果表明:在U-Net 網(wǎng)絡(luò)中嵌入注意力模型確能提高絕緣子分割的準確性,其中CBAM注意力模型與U-Net 網(wǎng)絡(luò)相結(jié)合的方式最好,平均重合度(Intersection over Union,IoU)由原始U-Net網(wǎng)絡(luò)的94.36%提升到96.57%,明顯提高了絕緣子分割的精確度。
U-Net 網(wǎng)絡(luò)于2015 年5 月由Ronneberger 等提出,最初廣泛應(yīng)用于醫(yī)學圖像分割領(lǐng)域[14-15]。作為一種經(jīng)典的全卷積網(wǎng)絡(luò),U-Net 在端對端的處理中,同時使用全局位置和上下文信息,以圖片為整體進行分割,直接生成分割圖;且只需要少量的訓練樣本就可以實現(xiàn)較好的分割效果。
圖1 給出了U-Net 網(wǎng)絡(luò)結(jié)構(gòu)。由圖1 可知,UNet 網(wǎng)絡(luò)整體呈現(xiàn)U 形對稱結(jié)構(gòu),左側(cè)用于精確定位的壓縮路徑(主干特征提取網(wǎng)絡(luò))逐步壓縮圖像尺寸、抽象特征、提取邊緣信息、獲取圖像的深層語義特征。右側(cè)拓展路徑(加強特征提取網(wǎng)絡(luò))逐步恢復(fù)尺寸。中間的跳躍連接部分則是將壓縮路徑的特征圖復(fù)制、裁剪到與對應(yīng)層擴展路徑特征圖尺寸相同,然后進行拼接操作,得到包含不同層次特征的特征圖,實現(xiàn)了更加精細的語義分割。
圖1 U-Net網(wǎng)絡(luò)結(jié)構(gòu)圖Fig.1 U-Net network structure
原始U-Net 網(wǎng)絡(luò)主要用于小目標精細分割,其主干特征提取網(wǎng)絡(luò)的感受野較小。而絕緣子圖片目標占比較高,較小的感受野獲得的局部信息過多,會導致全局信息的丟失,不利于絕緣子的高精度分割。為了改善特征層中局部信息與全局信息的失衡比例,采用以多個連續(xù)的小卷積核代替單個大卷積核來增大網(wǎng)絡(luò)感受野的VGG16(結(jié)構(gòu)如圖2所示)替換主干特征提取網(wǎng)絡(luò)。這樣不僅可以大大減少網(wǎng)絡(luò)參數(shù),加快訓練速度;還使得網(wǎng)絡(luò)深度與學習能力兼得[16-17]。
圖2 VGG16網(wǎng)絡(luò)結(jié)構(gòu)圖Fig.2 VGG16 network structure
增大網(wǎng)絡(luò)感受野后,主干特征提取網(wǎng)絡(luò)已經(jīng)可以獲取絕緣子較為豐富的語義信息和細節(jié)信息,但此時特征層中的背景干擾特征具有與目標特征相同的權(quán)重,對精確分割背景復(fù)雜等的絕緣子依舊存在較大的干擾,且當絕緣子目標被遮擋時,更會造成絕緣子特征信息缺失的問題。為了增加特征圖對特定區(qū)域和特定通道的目標識別能力,減少復(fù)雜背景、遮擋等對絕緣子分割的影響,需要增強特征圖在不同維度上對目標特征的關(guān)注度,降低干擾特征信息對絕緣子分割的影響,將網(wǎng)絡(luò)注意力放在絕緣子自身上。
注意力機制起源于對人類注意力的研究,由于信息處理能力有限,人類會選擇性地關(guān)注所接收信息的重要部分,而這也是我們希望模型在接收和學習大量信息時所能具備的能力。用數(shù)學上的語言來說,就是通過模型自主學習出一組權(quán)重系數(shù),并將這一系列權(quán)重分配到模型所收到信息的各個區(qū)域中。使得目標信息權(quán)重變大,無關(guān)信息權(quán)重變小,實現(xiàn)目標的關(guān)注[18]。
為了實現(xiàn)特征層在不同維度對目標特征的關(guān)注,引入基于通道注意力與空間注意力機制不同應(yīng)用方式的多種注意力模型,降低特征層中干擾信息的影響,使得網(wǎng)絡(luò)能夠關(guān)注絕緣子目標。本文根據(jù)通道、空間注意力的不同使用方式選取了兩種典型的單維度注意力模型和兩種典型的多維度注意力模型進行對比分析。
1)SENet 注意力模型。通道激勵與壓縮注意力模型(Squeeze-and-Excitation Networks,SENet),主要通過增強特征提取層的感受野來提升網(wǎng)絡(luò)性能[19]。圖3給出了SENet網(wǎng)絡(luò)結(jié)構(gòu)。由圖3可知,SENet首先對輸入特征進行全局平均池化(Global Average Pooling,GAP),使每個特征圖都具有全局的感受野,讓感受野尺寸較小的低層網(wǎng)絡(luò)也能夠利用全局信息。然后通過兩個全連接層激活、映射得到每個通道對應(yīng)的權(quán)重并加權(quán),得到更新后的特征。如此一來,網(wǎng)絡(luò)將具有更高的非線性關(guān)系,可以更好的擬合通道的相關(guān)性,實現(xiàn)絕緣子的特征關(guān)注。圖3中,Input為輸入特征,Output為注意力機制更新后的輸出特征,H為特征圖高度,W為特征圖寬度,C為特征圖通道數(shù),r為全連接過程中通道數(shù)縮減系數(shù)。
圖3 SENet結(jié)構(gòu)圖Fig.3 SENet structure
2)ECA-Net 注意力模型。高效的通道注意力模型(Efficient Channel Attention Neural Networks,ECA-Net)是基于SENet 改進的,可以在不增加模型復(fù)雜度的情況下,獲得較為明顯的性能增益[20]。圖4給出了ECA-Net 網(wǎng)絡(luò)結(jié)構(gòu)。由圖4 可知,ECA-Net采用不降維的卷積核(Kernel_size)大小為k的快速一維卷積代替SENet 全連接的方式產(chǎn)生權(quán)重,獲取各個通道之間的相關(guān)性。通過k近鄰的捕獲跨通道性交互,實現(xiàn)局部交叉、通道交互的目的,有效減少了跨所有通道進行交互的計算量和復(fù)雜度。使得特征Output的不同位置表現(xiàn)出不同的特征信息,從而提取出表征絕緣子目標的關(guān)鍵信息。即:
圖4 ECA-Net結(jié)構(gòu)圖Fig.4 ECA-Net structure
式中:C為輸入特征通道數(shù)。
多維注意力模型由通道注意力與空間注意力機制構(gòu)成。通道注意力機制通過對特征圖中的通道權(quán)重進行重分配,提高與絕緣子相關(guān)通道的權(quán)重,降低其余通道的權(quán)重,結(jié)構(gòu)圖如圖5 所示[21-22],outputCA表示通道注意力模塊中的特征更新權(quán)重;空間注意力機制對空間權(quán)重進行重新賦予,提高特征圖中絕緣子區(qū)域的權(quán)重,降低其余區(qū)域權(quán)重,結(jié)構(gòu)圖如圖6 所示[23-24],outputSA表示空間注意力模塊中的特征更新權(quán)重。將兩種維度的注意力機制結(jié)合使用以獲得更具互補性的特征[25]。
圖5 通道注意力機制結(jié)構(gòu)圖Fig.5 Structure of channel attention mechanism
圖6 空間注意力機制結(jié)構(gòu)圖Fig.6 Structure of spatial attention mechanism
1)CBAM 注意力模型。卷積注意力模型(Convolutional Block Attention Module,CBAM)是通道注意力和空間注意力級聯(lián)而成的雙重注意力選擇模塊,可以從多維角度增強特征信息,在一定程度上增強重要特征的表達能力,從而取得更好的特征關(guān)注[26-27]。CBAM 模型首先通過通道注意力模塊,對每個通道的權(quán)重進行重新標定,使得表達小目標和遮擋目標區(qū)域的特征通道對最終特征有更大的貢獻;再利用空間注意力模塊來突出目標區(qū)域,引導網(wǎng)絡(luò)關(guān)注目標區(qū)域并抑制背景干擾。CBAM 結(jié)構(gòu)如圖7 所示。
圖7 CBAM結(jié)構(gòu)圖Fig.7 CBAM structure
2)CSAR 注意力模型。通道與空間的殘差注意力模型(Channel-wise and Spatial Attention Residual,CSAR)與CBAM 不同之處在于其將通道與空間注意力機制并聯(lián)起來,在不同維度上對輸入特征不同位置的重要性進行重新標定,將不同維度更新后的特征疊加,實現(xiàn)多維特征關(guān)注,捕獲不同維度的重要信息[28-29]。更新后的特征同時包含通道與空間雙重并行特征關(guān)注,豐富了特征信息,增強模型表示能力。CSAR 結(jié)構(gòu)如圖8 所示。
圖8 CSAR結(jié)構(gòu)圖Fig.8 CSAR structure
改進后的網(wǎng)絡(luò)結(jié)構(gòu)如圖9 所示。本文對于U-Net 的改進點在于:(1)在網(wǎng)絡(luò)編碼階段引入了注意力模型(Attention),將其嵌入到U-Net 的下采樣模塊,提高網(wǎng)絡(luò)的特征提取能力;同時,將經(jīng)過注意力機制更新的特征經(jīng)過跳躍連接部分傳送到解碼階段進行拼接、上采樣操作,使網(wǎng)絡(luò)在訓練過程中能夠全程關(guān)注目標特征;(2)在加強特征提取網(wǎng)絡(luò)中直接進行2 倍上采樣再進行特征融合,使得最終獲得的特征層與輸入圖片的尺寸相同,避免下采樣獲得的特征層在跳躍連接后進行融合過程中的裁剪產(chǎn)生的信息丟失問題,增強了網(wǎng)絡(luò)的通用性。
圖9 改進的網(wǎng)絡(luò)結(jié)構(gòu)圖Fig.9 Improved network structure
本文使用的是基于Keras2.5.1 環(huán)境下的深度學習框架,Ubuntu18.08 系統(tǒng)、python 為3.8.0、CUDA=11.2,其中訓練的顯卡配置為1 塊RTX A6000/48G顯存的顯卡。
實驗數(shù)據(jù)集來自于無人機現(xiàn)場作業(yè)采集,通過數(shù)據(jù)預(yù)處理,進行篩選打標簽,圖片共計750 張。然后進行旋轉(zhuǎn)、鏡像翻轉(zhuǎn)、對比度以及亮度調(diào)整等方式進行了數(shù)據(jù)增強、擴充數(shù)據(jù)集,部分數(shù)據(jù)集展示如圖10 所示。模型訓練過程中訓練集、驗證集與測試集的比例為8:1:1。
圖10 背景復(fù)雜、對比度不明顯等絕緣子圖像Fig.10 Insulator images under the conditions of complex background and inconspicuous contrast
訓練過程中,對公開U-net 模型采用遷移學習的思想,凍結(jié)層的訓練epoch 輪次為50 輪,解凍訓練為200 輪,使用早停算法,以使模型的訓練損失達到最優(yōu)。對于改進的模型采取重新訓練,同樣設(shè)置200 輪并使用早停算法。模型的初始學習率為0.000 1,動量為0.9,權(quán)重衰減為0.000 5。圖11 為原始模型及改進的各個模型的訓練損失的收斂情況。由圖11 可知,在U-Net 網(wǎng)絡(luò)中嵌入CBAM 注意力模型的損失波動與損失值都最小。
圖11 訓練集損失收斂整體及局部示意圖Fig.11 Overall and partial schematics of training set loss convergence
圖12 為原始模型及所提出的改進模型對絕緣子航拍圖像的分割效果對比圖。圖12 中①-⑦分為原圖、標簽、CBAM+U-Net、CSAR+U-Net、ECA-Net+U-Net、SENet+U-Net 及U-Net 的分割示意圖。由圖12 可知,無論圖像質(zhì)量好壞、圖像背景如何復(fù)雜、絕緣子是否被遮擋、絕緣子自身是否重疊,在U-Net 網(wǎng)絡(luò)中嵌入CBAM 注意力模型的整體及局部分割效果都能達到最好,實現(xiàn)更加準確、精細的分割。
圖12 絕緣子分割效果對比Fig.12 Comparison of insulator segmentation effect
為了更好對比不同算法之間的性能,實驗采取以混淆矩陣中的參數(shù)指標進行衡量,如表1 所示。
表1 混淆矩陣Table 1 Confusion matrix
表1 中,數(shù)值1 為像素點在實際圖片與預(yù)測圖片中對應(yīng)區(qū)域,數(shù)值0 表示像素點不在對應(yīng)區(qū)域。即TP 為標簽是絕緣子,且預(yù)測為絕緣子的像素點數(shù);FP 為標簽是背景但預(yù)測為絕緣子的像素點數(shù);TN 為標簽是背景,且預(yù)測為背景的像素點數(shù);FN 為標簽是絕緣子,但預(yù)測為背景的像素點數(shù)。
通過表1 中的參數(shù)可以衍生出以下評價指標:
1)Precision指在被所有預(yù)測為正的樣本中實際為正樣本的概率,即模型認為是絕緣子并且確實是絕緣子的部分占模型認為是絕緣子的比例。計算公式如式(2)所示:
2)Recall指在實際為正的樣本中被預(yù)測為正樣本的概率,即模型認為是絕緣子并且確實是絕緣子的部分占所有確實是絕緣子的比例。計算公式如式(3)所示:
3)IoU表示分割結(jié)果與標簽的交集同分割結(jié)果與標簽之間并集的比值,IoU越接近1 表示預(yù)測結(jié)果越接近正確結(jié)果。計算公式如式(4)所示:
4)重合率(Dice similarity coefficient,Dice)Dice是交并比的另一種表達形式。是統(tǒng)計學用來衡量二分類任務(wù)模型精確度的指標,它表示分割結(jié)果與標記之間的重疊相似度。計算公式如式(5)所示:
U-Net 模型與改進模型測試集分類結(jié)果對比如表2 所示。由表2 可知,嵌入注意力機制后,模型的Precision、Recall、IoU和Dice等指標均有不同程度提高。特別是CBAM 注意力模型與U-Net 相結(jié)合的方式,其IoU提升達2.21%。
表2 U-Net及改進模型對比Table 2 Comparison of U-Net and improved model
表中,改進1 為U-Net+CBAM 注意力模型的改進方式;改進2 為U-Net+CSAR 注意力模型的改進方式;改進3 為U-Net+ECA-Net 注意力模型的改進方式;改進4 為U-Net+SENet 注意力模型的改進方式。
本文針對無人機采集圖片存在的各種問題導致絕緣子分割精度不高的問題,采用U-Net 網(wǎng)絡(luò)并分別嵌入不同的注意力模型進行改進。實驗結(jié)果表明,改進U-Net 模型通過增強骨干特征提取網(wǎng)絡(luò)的特征提取能力從而提高圖像分割精度的優(yōu)化策略是有效的。相較于原始U-Net 模型,改進U-Net模型的IoU值均有提升,且CBAM 注意力模型與U-Net 結(jié)合的方式效果最好,提升率達到2.21%。