翟永杰,楊 旭,王金娜,王坤峰,趙振兵
1.華北電力大學(xué) 自動化系,河北 保定071003
2.中國科學(xué)院 自動化研究所 復(fù)雜系統(tǒng)管理與控制國家重點實驗室,北京100190
3.華北電力大學(xué) 電子與通訊工程系,河北 保定071003
絕緣子是輸電線路中的重要設(shè)備,也是故障頻發(fā)的部件,因此是電力巡檢中的重點[1]。傳統(tǒng)的人工巡檢方式是由巡檢人員手持望遠鏡觀察,不僅操作不便,而且漏檢率較高[2]。無人機巡檢方式的出現(xiàn),彌補了人工巡檢的一些不足[3]。然而在巡檢線路時,無人機僅僅是作為望遠鏡的替代品和近距離拍照的工具,絕緣子目標和缺陷的檢測仍需人工對航拍圖像進行檢查。因此,基于航拍圖像的絕緣子目標和缺陷自動檢測方法得到越來越廣泛的關(guān)注。
目前,深度學(xué)習(xí)發(fā)展火熱,基于深度卷積神經(jīng)網(wǎng)絡(luò)的目標檢測[4-6]技術(shù)已經(jīng)被廣泛應(yīng)用于絕緣子目標和缺陷檢測。文獻[7]應(yīng)用Faster R-CNN[5]算法進行絕緣子故障檢測,取得了較高的準確率。文獻[8]應(yīng)用YOLO[9]目標檢測框架,實現(xiàn)了從輸入圖像到檢測結(jié)果的端到端的絕緣子檢測方法。
雖然深度卷積神經(jīng)網(wǎng)絡(luò)在絕緣子目標和缺陷檢測中取得了較高的準確率,但是這些復(fù)雜模型的內(nèi)部運作機理,以及它們?nèi)绾文軌蛉〉昧己玫男阅?,目前并沒有較為明確的論述[10]。例如,在調(diào)試網(wǎng)絡(luò)模型時,通過修改某個參數(shù)值,使得準確率得到了較大的提升,但是卻無法對調(diào)整的原理做出一個準確的解釋。為了更好地理解深度卷積神經(jīng)網(wǎng)絡(luò)的工作原理,近年來有大量學(xué)者都在對深度卷積神經(jīng)網(wǎng)絡(luò)的內(nèi)部特征進行可視化分析,反卷積技術(shù)被廣泛應(yīng)用于各種深度模型可視化分析中[11]。文獻[12]中提出了一種反向的卷積神經(jīng)網(wǎng)絡(luò),即輸入是特征圖,輸出是圖像,從而實現(xiàn)網(wǎng)絡(luò)特征圖的可視化,為研究深度卷積神經(jīng)網(wǎng)絡(luò)的內(nèi)部機理提供了方法。文獻[13]提出了多面特征可視化的概念,為每個神經(jīng)元的作用提供了更清晰全面的描述,有助于更好地理解網(wǎng)絡(luò)。文獻[14]研究了如何發(fā)現(xiàn)深度卷積神經(jīng)網(wǎng)絡(luò)隱層單元響應(yīng)不變性的方法,為降低可視化特征計算的復(fù)雜度提供了基礎(chǔ)。文獻[15]則采用了激活最大化技術(shù)來生成神經(jīng)網(wǎng)絡(luò)的可視化。
因此,本文在平行視覺研究框架下,提出一種基于真實和人工絕緣子圖像樣本的深度卷積神經(jīng)網(wǎng)絡(luò)可視化模型。通過可視化模型,將網(wǎng)絡(luò)的特征響應(yīng)用圖的形式呈現(xiàn)出來,并基于可視化的結(jié)果,分析了絕緣子占比、位置和角度對網(wǎng)絡(luò)性能的影響,最后根據(jù)復(fù)雜背景下真實圖像和純背景下人工圖像的可視化結(jié)果對網(wǎng)絡(luò)的結(jié)構(gòu)進行調(diào)整,進而提升了網(wǎng)絡(luò)的性能。
平行視覺[16]是復(fù)雜系統(tǒng)建模與調(diào)控的ACP(Artificial societies,Computational experiments,and Parallel execution)理論[17-19]在視覺計算領(lǐng)域的推廣應(yīng)用。其核心思想是利用人工場景來模擬復(fù)雜的實際場景,并對所建立的視覺模型進行訓(xùn)練和評估,最后,通過虛實互動的平行執(zhí)行來在線優(yōu)化視覺模型,以實現(xiàn)對復(fù)雜環(huán)境的智能感知和理解。平行圖像[20]是平行視覺的重要組成部分,且作為模型訓(xùn)練的數(shù)據(jù)來源,本文采用了真實圖像和人工圖像兩種樣本,其中人工圖像樣本是參照真實圖像所生成的。
本文依照如圖1所示的平行視覺框架,采用真實和人工圖像樣本所組成的數(shù)據(jù)集,對影響深度卷積神經(jīng)網(wǎng)絡(luò)模型內(nèi)部的因素進行探究。首先本文通過3D MAX建模工具構(gòu)建常見的玻璃、陶瓷和復(fù)合材料的絕緣子模型,如圖2所示為陶瓷絕緣子的3D模型圖,之后經(jīng)顏色渲染,并通過控制絕緣子縮放和旋轉(zhuǎn)等操作生成多樣化人工絕緣子圖像樣本。如圖3 所示,其中圖(a)分別為白陶、玻璃和復(fù)合材質(zhì)絕緣子真實圖像樣本;圖(b)分別為所生成的陶瓷、玻璃和復(fù)合材質(zhì)人工絕緣子圖像樣本。相較于真實圖像,人工圖像具有可控性強、獲取樣本容易等優(yōu)勢。真實場景中的絕緣子圖像,主要通過航拍獲取,由于航拍像距、角度等的不同,真實樣本間絕緣子在圖像中主要的差異在于絕緣子占比、角度和位置不同。因此,本文根據(jù)真實圖像的特點,建立人工絕緣子圖像樣本集,具體步驟如下:
(1)根據(jù)電力線路絕緣子國家標準(GB/T 1386)進行絕緣子各部件進行標準化三維建模。
(2)對各部件的材質(zhì)參數(shù)進行設(shè)定,對三維模型進行顏色和材質(zhì)的渲染。
為探究不同特點的絕緣子樣本對網(wǎng)絡(luò)的影響,本文采用控制變量的方法,分別用絕緣子占比、角度和位置三個變量創(chuàng)建樣本集。以3D 人工玻璃絕緣子樣本為例,在控制兩個變量不變的條件下,分別改變絕緣子占比、角度和位置其中一個變量,結(jié)果如圖3(c)、(d)、(e)所示。
圖1 平行視覺的基本框架
圖2 絕緣子3D MAX模型圖
圖3 絕緣子圖像樣本集
網(wǎng)絡(luò)可視化是指將網(wǎng)絡(luò)的特征圖用圖像的形式呈現(xiàn)出來,其中關(guān)鍵的技術(shù)是反卷積(Deconvolution)[21]。深度卷積神經(jīng)網(wǎng)絡(luò)[22]的基本結(jié)構(gòu)包括卷積層和池化層。卷積層是由上一層的輸出和卷積核做卷積運算得到的,是提取特征的結(jié)果。池化層是對卷積層得到的結(jié)果進行最大值篩選,是特征選擇和信息過濾的結(jié)果。如圖4(a)所示,卷積過程即為綠色的圖像經(jīng)過卷積運算得到藍色的特征圖,是一個從下到上的過程。
圖4 卷積和反卷積過程
反卷積的結(jié)構(gòu)與卷積的結(jié)構(gòu)恰好相反,分為反卷積層和反池化層,分別和卷積中卷積層和池化層對應(yīng)。反卷積層的運算和卷積層的運算是一樣的,不過反卷積層運算時使用的卷積核是卷積層訓(xùn)練結(jié)束后得到的卷積核的轉(zhuǎn)置。這里的轉(zhuǎn)置是上下和左右同時顛倒,和線性代數(shù)中矩陣的轉(zhuǎn)置不一樣。如圖4(b)所示,反卷積過程是藍色的特征圖經(jīng)過反卷積運算得到綠色的圖像,是一個從上到下的過程。
在卷積中的池化層保留了圖像或特征中的最大值信息,而丟失了非最大值的信息,因此是不可逆操作。利用Zeiler 等人[21]提出的方法,將最大值的位置信息記錄并保存下來,這樣在反卷積的時候就可以使特征找到在原像素空間中的位置,非最大值的位置補零,這種方法使得卷積成為可逆操作。
本文采用圖5 所示的網(wǎng)絡(luò)結(jié)構(gòu)對輸入圖像進行特征圖獲取和可視化,其包括卷積過程和反卷積過程。
第一個過程是卷積過程,如圖5中的convolution部分所示,用于得到輸入圖像的特征圖。該過程包括2個卷積層和2 個池化層,輸入圖片的尺寸是200×200×3,conv1 的卷積核大小為5×5×32,池化層pool1 的感受野大小為2×2,conv2和pool2的參數(shù)同層1。
第二個過程是反卷積過程,如圖5 中的unconvolution部分所示,對經(jīng)過卷積過程后得到的特征圖進行可視化。首先對第二個卷積層得到的pool2進行反池化得到unconv2,這個操作使用了從conv2到pool2過程中記錄最大值位置的S2。f2′由卷積過程中使用的卷積核f2 進行轉(zhuǎn)置得到,unconv2 和f2′ 卷積得到unpool1。unpool1再利用S1進行反池化得到unconv1,最后unconv1和f1′卷積得到輸出圖像。
圖5 可視化結(jié)構(gòu)
圖6 三種不同特征的分類正確率曲線
可視化網(wǎng)絡(luò)之前,因為網(wǎng)絡(luò)初始時參數(shù)都是隨時初始化的,所以需要對網(wǎng)絡(luò)進行訓(xùn)練,這樣得到的特征響應(yīng)才能反映出網(wǎng)絡(luò)對目標感興趣的區(qū)域。首先對卷積過程進行訓(xùn)練,網(wǎng)絡(luò)訓(xùn)練的損失函數(shù)根據(jù)分類時的類別差值進行計算,損失函數(shù)如下式(1)所示:
當一組樣本訓(xùn)練結(jié)束后,保存網(wǎng)絡(luò)模型參數(shù)。將需要可視化的圖像重新送入卷積過程,延用之前保存的模型參數(shù),得到卷積的第一層和第二層特征圖。得到的特征圖送入反卷積過程,最終得到圖像的特征可視化結(jié)果。
本實驗訓(xùn)練集選用正樣本和負樣本各12 000 張構(gòu)成,正樣本包括8 000張真實絕緣子圖像和4 000張人工絕緣子圖像,負樣本為12 000張不含絕緣子的圖像。測試集由正負樣本各4 000張構(gòu)成,包含4 000張真實絕緣子圖像和4 000張不含絕緣子的圖像樣本。使用以上訓(xùn)練集和測試集進行訓(xùn)練及測試,得到測試集的分類準確率見表1所示。
進一步探究不同的人工圖像樣本對網(wǎng)絡(luò)的影響,測試不同占比、角度和位置的人工絕緣子圖像樣本分類正確的概率,以下簡稱分類正確率,實驗結(jié)果如圖6所示。
表1 測試集的分類準確率
可以看出,位置對分類正確率的影響最大,曲線波動明顯,呈現(xiàn)兩邊低中間高的趨勢,即當絕緣子位于圖像正中(-2,1)范圍內(nèi)的分類正確率較高;其次是比例,曲線也呈現(xiàn)出兩邊低中間高的趨勢,即當絕緣子位于圖像正中(1,3.3)范圍內(nèi)的準確率較高,但是波動較小;角度的影響最小,曲線呈現(xiàn)較為平緩的趨勢。
本文使用的網(wǎng)絡(luò)結(jié)構(gòu)包括2個卷積層,分別對這兩個卷積層進行可視化。首先,利用訓(xùn)練得到的模型參數(shù),將測試的圖像逐一輸入到模型中。然后,依據(jù)如圖5所示的反卷積原理,把經(jīng)過卷積過程得到的2個卷積層的特征圖分別進行反卷積,進而得到這2個卷積層的可視化結(jié)果。如圖7所示,分別為復(fù)雜背景下真實圖像和純色背景人工圖像的可視化結(jié)果。從圖7(b)和(e)可以看出,第一個卷積層對絕緣子的輪廓有所響應(yīng),但是響應(yīng)并不是很完整,而第二個卷積層,如圖7(c)和(f)所示,其對絕緣子的輪廓響應(yīng)強烈,且信息包含完整,但受背景的影響,對背景信息也有較大的響應(yīng)。
圖7 特征圖可視化結(jié)果
同時,對不同占比、角度和位置的人工絕緣子圖像樣本也進行可視化,得到第一層的可視化結(jié)果如圖8所示??梢钥闯霎斘恢貌煌瑫r,特征網(wǎng)絡(luò)的響應(yīng)略有不同。對比絕緣子位于圖片中間和左右兩邊的特征響應(yīng),可以看出當絕緣子位于圖片中間時響應(yīng)更為強烈。對比不同比例的絕緣子特征響應(yīng),可以看出當絕緣子比例太小和太大時特征響應(yīng)都不完整。反觀絕緣子的角度對特征響應(yīng)的影響最小,不同的樣本均有較強的特征響應(yīng)。
圖8 特征圖可視化結(jié)果
根據(jù)圖7所展示的兩個特征層的可視化效果,可以看出,第一層的響應(yīng)較弱,第二層響應(yīng)雖強,但對背景響應(yīng)過多,出現(xiàn)了較為嚴重的堆疊現(xiàn)象。根據(jù)這一現(xiàn)象分析網(wǎng)絡(luò)結(jié)構(gòu)發(fā)現(xiàn),第一層卷積層采用的是尺寸為5×5×32 的卷積核,步長為4,第二層卷積層采用的卷積核尺寸為5×5×64,步長為2。因此對卷積核的尺寸和步長進行優(yōu)化,調(diào)整第一層卷積層的步長為2,將第二層卷積層的卷積核尺寸調(diào)整為3×3×64。
將測試的絕緣子圖像輸入優(yōu)化后的模型中進行可視化,得到如圖9所示的可視化結(jié)果。對比圖9(b)和圖7(b)可以看出,調(diào)整之后的網(wǎng)絡(luò)第一個卷積層的特征響應(yīng)得到了加強,同時也較之前完整;對比圖9(c)和圖7(c)可以看出,調(diào)整之后第二個卷積層對背景的響應(yīng)減少,絕緣子的特征響應(yīng)更清晰。
圖9 優(yōu)化后的可視化結(jié)果
選取復(fù)雜背景下的真實絕緣子圖像進行優(yōu)化前后的可視化測試,得到如圖10 所示的測試結(jié)果。對比圖(b)和(d),以及圖(c)和圖(e)可以看出,針對背景復(fù)雜的真實絕緣子圖像,優(yōu)化后第一層對絕緣子的響應(yīng)更為完整,同時第二層對背景的響應(yīng)減少,起到了一定的過濾作用。
圖10 復(fù)雜背景下的可視化結(jié)果
圖11 優(yōu)化后3種不同特征的分類正確率曲線
依據(jù)對不同比例、角度和位置絕緣子樣本的可視化結(jié)果,通過人工場景優(yōu)化人工圖像,豐富訓(xùn)練樣本中的絕緣子人工樣本。測試樣本不進行調(diào)整,保證優(yōu)化的可信度。將調(diào)整后的網(wǎng)絡(luò)和樣本進行訓(xùn)練和測試,計算其分類準確率。識別目標為絕緣子(Insulator)、桿塔(Tower)和防震錘(Damper),實驗方法增加經(jīng)典的分類網(wǎng)絡(luò)Lenet 和VGG19。實驗結(jié)果見表2 所示,可以看出改進后的網(wǎng)絡(luò)在絕緣子分類中取得了最高的準確率,桿塔和防震錘的最高準確率方法為VGG19,但是在平均準確率上改進后的網(wǎng)絡(luò)和VGG19僅相差0.02%,改進后的網(wǎng)絡(luò)的訓(xùn)練時間僅為VGG19的51.4%。VGG19總共擁有16個卷積層和3個全連接層,而改進后的網(wǎng)絡(luò)只有2個卷積層和2個全連層,網(wǎng)絡(luò)層數(shù)大幅減少,性能相差無幾,訓(xùn)練時間大幅減少。
表2 幾種方法的對比實驗結(jié)果%
利用改進后的網(wǎng)絡(luò),對不同位置、比例和角度的人工絕緣子圖像樣本再次進行實驗,得到不同特征絕緣子的分類正確率曲線和可視化結(jié)果,如圖11、12所示。對比圖6 和圖11 優(yōu)化前后的曲線,可以看出,優(yōu)化后位置的影響明顯減弱,3個特征的正確率都有所提升。同時對比圖8 和圖12 的3 種不同特征優(yōu)化前后的可視化結(jié)果,優(yōu)化前的特征響應(yīng)只對絕緣子傘裙的一半有響應(yīng),優(yōu)化后的特征響應(yīng)對絕緣子的傘的兩邊都有了響應(yīng),響應(yīng)更為完整。并且優(yōu)化后,絕緣子位置、大小和角度的改變對特征響應(yīng)的影響削弱,不同的樣本都有較為完整明顯的響應(yīng)。
本文在平行視覺研究框架下,提出了一種基于真實和人工兩種絕緣子圖像樣本的深度卷積神經(jīng)網(wǎng)絡(luò)可視化的模型,該模型將網(wǎng)絡(luò)中的特征響應(yīng)以圖的形式呈現(xiàn)出來。
圖12 優(yōu)化后3種不同特征的可視化結(jié)果
首先,根據(jù)分類正確率曲線和特征可視化結(jié)果,分析了絕緣子不同占比、角度和位置對網(wǎng)絡(luò)性能的影響,結(jié)果表明絕緣子位置的變化對網(wǎng)絡(luò)的影響最大,當絕緣子位于圖像的中間時分類正確率最高。
其次,根據(jù)復(fù)雜背景下真實圖像和純背景人工圖像的可視化結(jié)果,對網(wǎng)絡(luò)結(jié)構(gòu)進行了合理的調(diào)整,使網(wǎng)絡(luò)的性能得到了一定的提升。
該方法為調(diào)整和解釋網(wǎng)絡(luò)提供了一種可行性的方法,同時也提升了絕緣子目標和缺陷檢測的性能。