張秋雁,楊忠,姜遇紅,李弘宸,韓家明,陳科羽
1. 貴州電網有限責任公司,貴州 貴陽 550000
2. 南京航空航天大學 自動化學院,江蘇 南京 211106
3. 南京航空航天大學 無人機研究院,江蘇 南京 210016
絕緣子是輸電線路系統(tǒng)的重要組成部分之一,絕緣子檢測在保證輸電線路正常運行方面有著極為重要的作用。由于人工近距離拍攝存在效率低、安全性差等缺點,所以絕緣子檢測主要通過無人機(unmanned aerial vehicles,UAV)航拍的方式實現。預先在巡線視頻中篩選出具有絕緣子的圖像可以提高絕緣子檢測的效率。輸電線路場景分類對于線路部件目標的識別與跟蹤有著重要的輔助作用。若分類信息表明圖像中存在線路部件(如絕緣子),系統(tǒng)可據此對圖像進行目標識別與跟蹤,因此場景分類是一個提升系統(tǒng)性能的預處理環(huán)節(jié)。除此之外,分類信息也是引導并控制無人機實施電力作業(yè)的重要參考。當無人機接近輸電線路時,圖像分類信息可以用于控制無人機沿線飛行并保持與線路的安全距離。
卷積神經網絡是深度學習基本框架[1]。1959年,Hubel和Wiesel[2]提出了生物視覺的分層結構。1989年,LeCun等[3]提出了第一個真正意義上的神經網絡并將該神經網絡應用到了手寫字符的識別中。LeCun等[4]對原始網絡經過修改和優(yōu)化后提出了LeNet?5。神經網絡的概念出現較早[5],但是第一個成熟的深度卷積神經網絡是直到2012年才出現的AlexNet,由于ReLU函數和dropout層減弱了加深層數帶來的過擬合[6?7],AlexNet比之前的網絡有更多的層數。文獻[8]在AlexNet的基礎上加入轉置卷積提出了ZFNet。2014年,Google將Inception機制應用到了卷積神經網絡中并提出了GoogleNet[9]。Inception機制可以有效地減少網絡參數,提高網絡性能。牛津大學的科研人員在2014年提出了VGGNet[10],首次在卷積神經網絡中加入了大量尺寸較小的卷積核。VGG?Net的結構十分簡單而且泛化性很強,如今VGG?Net被大量地應用在圖像的特征提取問題中[11]。
隨著高性能計算硬件的進步,卷積神經網絡逐漸加深并被廣泛地應用在圖像分類領域中。文獻[12]將一種基于分形理論和BP神經網絡的圖像分類方法應用到彩色航拍圖像分類中。將圖像從RGB格式轉化為HSI格式,這樣可以根據亮度計算紋理特征,同時紋理特征具有尺度不變性,適用于對遙感圖像進行分類。該種方法將光譜信息和紋理特征相結合,將歸一化后的飽和度信息用神經網絡進行分類,結果證實改進方法效果較好。
文獻[13]提出了一種通過建立模糊模型來對航拍圖像進行分類的方法,主要研究了絕緣子的污穢程度和表面是否有裂紋這兩方面信息。對航拍圖像進行分析,將污穢檢測分為整體污穢和局部污穢2部分,而后對2種污穢的檢測原理和算法進行討論,并用MATLAB仿真驗證。實驗結果表明這種方法不僅可以提高巡線效率,還能更加快速地發(fā)現輸電線路的故障。
文獻[14]提出了一種基于圖譜分解和概率神經網絡的圖像分類方法,指出圖譜特征可以很好地保持圖像特征。經過實驗分析,基于概率的神經網絡可以準確地進行圖像分類。
以上文獻對航拍圖像的分類都做了大量的研究,且具有很大參考價值。然而以上文獻都沒有對卷積神經網絡的結構做改進,傳統(tǒng)卷積神經網絡的最后一層為全連接層,全連接層包含的參數占整個網絡參數的絕大部分。為了減少網絡參數,我們將卷積層代替全連接層并以此為基礎提出了一種基于VGG?19的優(yōu)化網絡。實驗結果表明,優(yōu)化網絡比傳統(tǒng)的卷積神經網絡有更加優(yōu)異的分類性能。
卷積神經網絡的結構可以劃分為卷積層、池化層和全連接層[15]。通過卷積層中的卷積核可以提取數據的深層信息和圖像的局部特征。池化層可以在減少數據量的情況下保留有用的信息,它可以加快計算速度,同時防止過擬合。本文采用了最大池化層,最大池化層的示意圖如圖1。
圖1 最大池化層示意
全連接層大部分情況下位于網絡尾端,經常作為輸出層使用。它對前面逐層變換和映射提取的特征進行回歸分類等處理。全連接層的每一個結點都與上一層的所有結點相連,用來把前邊提取到的特征綜合起來。圖像特征的提取是通過卷積操作和池化操作實現的,進入神經網絡的數據經過激活函數的處理得到輸出值,式(1)是輸出值的計算方法。
上一層帶有圖像特征的數據經過卷積核的處理后可以得到另一組數據,這些新生成的數據經過這一層的激活函數便可以得到一組新的輸出值,新的輸出值為
池化層可以增加算法的穩(wěn)定性并降低數據的維度,池化層的輸出維度計算為
在卷積神經網絡中,全連接層通常在卷積層之后。全連接層可以將卷積層和池化層產生的特征圖映射成一個固定長度的特征向量。但是過多的全連接層會造成網絡的參數過多并導致過擬合現象,因此本文提出了一種基于傳統(tǒng)卷積神經網絡的優(yōu)化網絡,在輸電線路場景數據集進行訓練并測試。實驗結果表明,本文提出的優(yōu)化網絡解決了傳統(tǒng)卷積神經網絡在輸電線路場景數據集的過擬合現象。
為了解決傳統(tǒng)卷積神經網絡在圖像分類方面的缺陷,我們用多卷積層的特定組合代替卷積神經網絡的全連接層的方式構建一種新的優(yōu)化網絡。本文選擇VGG?19網絡作為優(yōu)化的對象。VGG?19網絡是一種分類性能較好的卷積神經網絡,所以在解決一些復雜的分類問題時經常使用VGG?19網絡做預處理,并提取數據特征。利用上文描述的方法,將最后3層全連接層替換為多層卷積層的組合,為了避免由于層數加深所造成的過擬合,通常在卷積神經網絡中加入Batch Normalization(BN)層[16]。BN層可以在一定程度上避免梯度消失,其作用是把逐漸向極限飽和區(qū)靠攏的輸入分布強制拉回到均值為0、方差為1的比較標準的正態(tài)分布,使得非線性變換函數的輸入值落入對輸入比較敏感的區(qū)域,以此避免梯度消失問題。基于VGG?19網絡的優(yōu)化結構如圖2所示。
圖2 基于 VGG?19 的優(yōu)化網絡機構
在多層神經網絡中,上層節(jié)點的輸出和下層節(jié)點的輸入之間的函數關系被稱作是激活函數。近年來神經網絡取得巨大發(fā)展的原因之一是性能更加優(yōu)異的激活函數被應用到了網絡中。如果不使用激活函數,那么一個神經元的輸出值和輸入值相同,無論神經網絡有多少層網絡的輸出,最終輸出都是輸入的線性組合,這將導致網絡的逼近能力有限。為了避免出現上述情況,激活函數應為非線性函數,這樣神經網絡的逼近能力將得到很大提高,因為從理論上講神經網絡可以逼近任意函數。
現有的激活函數主要有Sigmoid、tanh和ReLU,Sigmoid的數學表達式如式(2)所示。一般來說采用Sigmoid作為激活函數的神經網絡的深度有一定的限制,如果層數過多非常容易出現梯度消失現象[17]。
tanh函數避免了非零均值輸出的現象,所以它可以在一定程度上緩解梯度消失,其數學表達
ReLU是一個分段函數,它的函數表達式如式(3)所示。雖然ReLU可以在很大程度上緩解梯度消失現象,但是隨著訓練的推進,神經網絡的權值將無法繼續(xù)更新。
由于上述3種激活函數均存在著一定的缺陷,因此本文采用了 Leaky ReLU[18]。Leaky ReLU的數學表達式如式(4)所示,其中參數從 區(qū)間取值。Leaky ReLU函數圖像如圖3所示。Leaky ReLU具有ReLU的所有優(yōu)點,而且不會出現梯度消失。
圖3 Leaky ReLU 函數圖像
文中將數據集分為訓練集、驗證集和測試集3部分,每部分有3種類別,分別為無絕緣子、無清晰絕緣子、有清晰絕緣子的圖像,這些圖像均通過無人機航拍得到。在實驗之前,首先對圖像進行預處理操作。數據集具體組成如表1所示,數據集中相關樣本如圖4所示。
表1 數據集組成
圖4 部分樣本展示
圖像中無清晰絕緣子代表無人機距離絕緣子較遠,這種情況會給后續(xù)絕緣子檢測工作的開展帶來一定困難。過分類處理篩選出具有清晰絕緣子的圖片,并對其進行絕緣子檢測,提高分類精度。
將整理好的數據集分別用AlexNet、VGG?19和本文中提出的優(yōu)化網絡進行訓練以及類別預測,這3種網絡的訓練過程如圖5所示,類別預測的實驗結果如表2所示。
圖5 網絡訓練過程
表2 實驗結果
AlexNet的精確度為89.6%,該網絡的訓練過程有2個特點:1)在訓練初期,驗證集的精確度往往大于訓練集精確度;2)在訓練中期,精確度曲線出現大幅度波動,精確度急劇下降且這種現象在多個連續(xù)的迭代中出現。該網絡在處理輸電線路場景數據集時,容易陷入局部極值甚至分類精確度快速下降。同時,訓練過程總共有100次迭代,但是在第40次迭代之后驗證集精確度難以上升,并且測試集精確度曲線直到第90次迭代時精確度才出現收斂。當訓練結束時,驗證集精確度比訓練集精確度約小18%,這說明AlexNet的學習能力較差。VGG?19的精確度為93.5%,相比于AlexNet,VGG?19訓練收斂更快且曲線沒有出現劇烈下降現象。該網絡的訓練過程有2個特點:1)在訓練初期,精確度曲線上升較快,但是當精確度上升到約75%時,精確度上升十分緩慢且曲線波動較大;2)在訓練收斂后,精確度曲線仍會出現較小的波動。VGG?19的分類性能比Alex-Net強,但是仍有一定提升的空間。本文提出的優(yōu)化網絡的精確度為95.1%,相比于以上2種網絡,優(yōu)化網絡的訓練過程更加平穩(wěn)。訓練收斂后,精確度曲線穩(wěn)定,不會出現較大的波動。驗證集的精確度比訓練集的精確度約低8%,雖然在這方面優(yōu)化網絡和VGG?19幾乎相同,但是優(yōu)化網絡的精確度曲線比VGG?19的精確度曲線更加平滑,可以認為優(yōu)化網絡在輸電線路場景數據集上的分類性能優(yōu)于VGG?19。
混淆矩陣可以更加詳細地顯示優(yōu)化網絡對數據集中不同類別樣本的分類情況,優(yōu)化網絡的混淆矩陣如圖6所示?;煜仃嚤砻鲀?yōu)化網絡對3種類別場景的分類精度都很高,其中對有清晰絕緣子的圖像分類效果最好。對于類別1,有93%的樣本被分類正確,有6%的樣本被分類器識別為類別3,經分析這種現象產生的原因是分類網絡將類別1中的公路認作了絕緣子。綜上所述,本文提出的優(yōu)化網絡更適合解決場景較為復雜的輸電線路場景分類問題。
圖6 優(yōu)化網絡混淆矩陣
本文以VGG?19為基礎,通過將網絡底層的全連接層替換成多卷積層的組合從而優(yōu)化網絡結構,減少網絡參數。實驗表明本文提出的優(yōu)化網絡在輸電線路場景數據集上的分類性能與經典卷積神經網絡相比更加優(yōu)異。
1)與經典的卷積神經網絡相比,本文提出的優(yōu)化網絡具有更高的分類精準度。在訓練過程中,優(yōu)化網絡訓練更加平穩(wěn)、收斂更快,對不同種類別的輸電線路場景圖片均有較好的分類效果。
2)本文提出的優(yōu)化網絡存在一些問題,該網絡只應用于輸電線路場景數據集,可以通過使用多種數據集,所以無法說明該網絡具有泛用性。因此要訓練網絡,修改網絡參數,增強模型的泛用性。
3)在輸電線路場景分類中,景物的亮度會隨著時間的變化而變化;同時,灰塵的密集程度也會改變絕緣子等景物的圖像特征,這兩點因素會影響網絡的分類性能。將大量環(huán)境信息引入輸電線路場景分類中是未來發(fā)展的主要方向。