陳城,史芙蓉,許海源,林華盛,江萬壽
?
基于卷積神經(jīng)網(wǎng)絡(luò)的架空鐵塔護坡提?。?/p>
陳城1,史芙蓉2,許海源1,林華盛1,江萬壽2
(1.深圳供電局有限公司,廣東 深圳 518000;2.武漢大學(xué)測繪遙感信息工程國家重點實驗室,湖北 武漢 430079)
以深圳電力線巡線時所獲得的高分辨率航空影像為例,提出了基于集成卷積神經(jīng)網(wǎng)絡(luò)的架空鐵塔護坡自動提取方法。該方法首先通過Faster R-CNN目標檢測網(wǎng)絡(luò)在多幅航空影像中框取護坡目標,然后通過SegNet語義分割網(wǎng)絡(luò)進一步分割目標框中的護坡與背景,獲取精確的護坡掩膜信息。與直接應(yīng)用SegNet模型的“一步式”護坡提取方法相比,“先定位后分割”的方法在2個實驗數(shù)據(jù)上的虛警率下降超過38.1%;與基于Mask R-CNN卷積神經(jīng)網(wǎng)絡(luò)提取方法相比,該方法在2個數(shù)據(jù)上的正確率均高于98%,優(yōu)于Mask R-CNN所達到的95.96%.
架空鐵塔護坡;卷積神經(jīng)網(wǎng)絡(luò);目標檢測;語義分割
護坡是為防止邊坡受沖刷,在坡面上建設(shè)的各種鋪砌和栽植的統(tǒng)稱,被廣泛應(yīng)用于電力工程中,是電力設(shè)施數(shù)據(jù)庫的一類基本要素,在對輸電線路塔基邊坡狀態(tài)進行檢測防護、確保輸電線路安全運行的過程中發(fā)揮重要作用[1-2]。極端天氣、工程活動等因素會對護坡的穩(wěn)定性造成影響,誘發(fā)邊坡災(zāi)害,架空輸電塔基周圍的邊坡災(zāi)害則危及輸電線路傳輸,傳統(tǒng)的護坡監(jiān)測方法通過傳感器數(shù)據(jù)分析護坡狀態(tài)[3]。隨著遙感技術(shù)手段的發(fā)展,通過攝影測量技術(shù)手段,能夠恢復(fù)電力走廊的三維信息[4],從而對邊坡的面積、坡度和狀態(tài)進行探測,為輸電線路塔基邊坡監(jiān)測提供了新思路,而基于航空影像的架空鐵塔護坡提取是護坡重建和監(jiān)測的基礎(chǔ)。
遙感領(lǐng)域常用監(jiān)督式的機器學(xué)習(xí)方法進行目標提取,葛廣英[5]將幀差法與支持向量機相結(jié)合,從視頻圖像序列中檢測和分割運動車輛;Mo G等[6]提出了一種基于SIFT特征和Boosting分類器的車輛檢測方法,來減弱背景差異對目標提取的影響。傳統(tǒng)的監(jiān)督訓(xùn)練方法通過多種特征的設(shè)計和組合描述對象的結(jié)構(gòu)信息,對簡單場景能取得較好的效果,然而,特征的設(shè)計和選擇需要依賴于操作人員,且淺層特征難以準確表達目標的深層結(jié)構(gòu),難以處理復(fù)雜的多場景任務(wù)。深度學(xué)習(xí)突破傳統(tǒng)監(jiān)督方法的局限,能自動學(xué)習(xí)不同層次的抽象特征,當前深度學(xué)習(xí)方法逐漸應(yīng)用于基于圖像的船只、飛機等目標識別領(lǐng)域,并在多類場景下取得了較好的效果[7-8]。但是,基于航空影像的電力線、塔附近的邊坡提取,由于應(yīng)用場景和提取目標特殊尚未受到廣泛關(guān)注,因此,本文提取出了集成卷積神經(jīng)網(wǎng)絡(luò)的方法,先后建立護坡定位、分割模型,實驗結(jié)果表明該方法能夠準確地提取出影像中的護坡,為護坡智能提取問題提供了一種行之有效的解決方案。
架空鐵塔護坡提取流程如圖1所示。
圖1 架空鐵塔護坡提取流程
本文的架空鐵塔護坡提取總體技術(shù)流程如圖1所示,主要包括模型訓(xùn)練和模型應(yīng)用兩部分,模型訓(xùn)練包括護坡檢測模型訓(xùn)練以及護坡分割模型訓(xùn)練,模型應(yīng)用時對航空影像先后加載訓(xùn)練好的檢測模型和分割模型,精確地提取出架空鐵塔護坡這一目標。
本文采用Faster R-CNN卷積網(wǎng)絡(luò)[9]訓(xùn)練護坡檢測模型。Faster R-CNN處理過程如圖2所示,F(xiàn)aster R-CNN由區(qū)域生成網(wǎng)絡(luò)(Region Proposal Network,RPN)和Fast R-CNN[10]兩個子網(wǎng)絡(luò)構(gòu)成,RPN根據(jù)訓(xùn)練數(shù)據(jù)集產(chǎn)生可能包含目標的候選框,F(xiàn)ast R-CNN對候選框進行分類和回歸得到目標所在準確位置。
圖2 Faster R-CNN處理過程
1.2.1 特征提取
卷積神經(jīng)網(wǎng)絡(luò)本質(zhì)上是一種輸入到輸出的映射,能夠?qū)W習(xí)大量輸入與輸出之間的映射關(guān)系,采用局部權(quán)值共享的特殊結(jié)構(gòu)降低了網(wǎng)絡(luò)的訓(xùn)練參數(shù),使其布局更接近于實際的生物神經(jīng)網(wǎng)絡(luò),在圖像處理方面有著獨特的優(yōu)越性。
本文的Faster R-CNN采用VGG16網(wǎng)絡(luò)提取特征,相比于LeNet、AlexNet、ZFNet網(wǎng)絡(luò),VGG16網(wǎng)絡(luò)層次更深,能獲取更好的特征。
1.2.2 RNP
RNP網(wǎng)絡(luò)結(jié)構(gòu)如圖3所示。
圖3 RNP網(wǎng)絡(luò)結(jié)構(gòu)
用一個大小為3×3的卷積核作為滑動窗口在特征圖上進行卷積,每個滑動窗口的中心對應(yīng)9個錨點,每個錨點對應(yīng)不同的尺度和長寬比,即在每個位置都會預(yù)測9個候選框;將卷積后得到的512維特征向量輸入2個全連接層,得到每個候選框的類別(目標或背景)和位置信息,保留與真實目標框重疊度大于0.7(正樣本)和小于0.3(負樣本)的候選框,并用非極大值抑制法將候選框的數(shù)量控制在300個。
1.2.3 Fast R-CNN
在RNP階段,產(chǎn)生沒有類別信息的候選框,通過Fast R-CNN中的ROI池化層為每個候選框提取特征,即用每個候選框裁剪卷積特征映射,然后用雙線性插值將裁剪后的映射調(diào)整14×14的固定大小,并用最大池得到最終7×7的特征映射;Fast R-CNN最后用全連接輸出每個對象可能的類別的分數(shù),賦予候選框類別信息。
1.2.4 模型訓(xùn)練
Faster R-CNN包括了RNP和Fast R-CNN兩個網(wǎng)絡(luò),通過共享卷積層減少網(wǎng)絡(luò)參數(shù),采用了交替訓(xùn)練的方式,訓(xùn)練步驟如下:①利用在ImageNet目標分類數(shù)據(jù)庫上進行訓(xùn)練得到的模型初始化RPN參數(shù),在架空鐵塔護坡訓(xùn)練數(shù)據(jù)集上獨立訓(xùn)練RPN,訓(xùn)練80 000次。②同樣用ImageNet模型初始化Fast R-CNN參數(shù),利用上述得到的候選框作為輸入訓(xùn)練Fast R-CNN,訓(xùn)練40 000次。③用上述步驟得到的參數(shù)初始化RPN的網(wǎng)絡(luò),把RPN與Fast R-CNN共享的卷積層的學(xué)習(xí)率設(shè)為0,僅更新RPN特有的網(wǎng)絡(luò)層,重新訓(xùn)練,訓(xùn)練80 000次。④用上述步驟得到的參數(shù)初始化Fast R-CNN的網(wǎng)絡(luò),不改變共享層,微調(diào)其全連接層,訓(xùn)練40 000次,建立Faster R-CNN模型。
SegNet網(wǎng)絡(luò)是一種具有編解碼結(jié)構(gòu)的圖像語義分割深度卷積神經(jīng)網(wǎng)絡(luò)[11],SegNet的總體結(jié)構(gòu)如圖4所示,它擁有一個編碼網(wǎng)絡(luò)和與之對應(yīng)的解碼網(wǎng)絡(luò),將最后一個解碼器的輸出送入像素分類器中,每個像素產(chǎn)生類概率得到分割結(jié)果圖。
圖4 SegNet網(wǎng)絡(luò)結(jié)構(gòu)
1.3.1 編碼器
SegNet的編碼器包括卷積層、批歸一化層、激活層以及池化層,每組編碼器產(chǎn)生一組特征圖及對應(yīng)最大池化層的索引值。
1.3.2 解碼器
在解碼器中,根據(jù)保存的索引值信息,對輸入的特征圖進行采樣,得到稀疏的特征圖,然后用一組可訓(xùn)練的解碼濾波器組對這些稀疏的特征圖進行卷積操作,從而得到稠密的特征圖;最后一層解碼器輸出一組與輸入圖像相同維度的特征圖,這些特征圖最終被送進一個為像素點分類而設(shè)計的Softmax分類器中,Softmax分類器輸出具有個通道,并輸入圖像尺寸相同的概率圖,值為類別個數(shù),概率值最大的類別即為該像素點的類別,從而實現(xiàn)像素級別的語義分割。
1.3.3 模型訓(xùn)練
利用在ImageNet模型初始化SegNet中編碼器及解碼器網(wǎng)絡(luò)參數(shù),采用隨機梯度下降的參數(shù)訓(xùn)練策略,學(xué)習(xí)率固定為0.001,卷積核大小為7×7,迭代次數(shù)設(shè)置40 000次。根據(jù)Faster R-CNN模型檢測出的架空鐵塔護坡圖像,制作語義分割樣本庫,語義分割樣本庫由裁剪后的檢測圖像及其對應(yīng)的標注圖像組成,標注結(jié)果為二值化灰度圖像,0為背景,1為護坡。由于檢測圖像較大,為了解決顯卡顯存不足的問題,需要將其及對應(yīng)的灰度圖像裁剪,將該樣本庫輸入SegNet網(wǎng)絡(luò),建立護坡語義分割模型。
本文實驗在Ubuntu下用GPU進行加速計算,F(xiàn)aster R-CNN和SegNet在Caffe這一主流深度學(xué)習(xí)框架下運行。實驗中的實驗數(shù)據(jù)通過無人機低空遙感技術(shù)獲取,包括不同光照、不同拍攝角度、不同背景等情況下的護坡無人機高分辨遙感影像,影像地面采樣距離約為0.5 m,影像大小為6 000×4 000或者4 000×6 000,影像中的護坡與架空鐵塔相鄰,周圍地區(qū)主要被植被、道路、裸土、田地等覆蓋。
用已完成訓(xùn)練的Faster R-CNN模型檢測護坡,確定護坡位置,將候選區(qū)域集滿足以下2個條件的區(qū)域確定為護坡:①分類概率大于0.8;②該區(qū)域分類概率比所有有重疊部分取得的分類概率都高,即該區(qū)域分類概率是一個局部最大值。護坡檢測結(jié)果如圖5所示,黑色框為護坡的檢測框,可以看出該檢測框完整包含了護坡,且大大降低了背景的干擾。
圖5 護坡定位結(jié)果
完成檢測后,根據(jù)檢測框得到檢測影像,用已完成訓(xùn)練的SegNet模型對該影像進行分割,并根據(jù)檢測框坐標將分割影像定位至原圖像中,分割結(jié)果的掩模結(jié)果如圖6所示。
圖6 護坡分割掩模結(jié)果
本文與SegNet網(wǎng)絡(luò)直接對原始影像分割的方法進行對比,驗證了“先定位后分割”的優(yōu)越性,并與文獻[12]中的Mask R-CNN方法進行實驗對比,Mask R-CNN方法與本文方法相似之處在于都遵循“先定位后分割”的思路,不同之處在于本文方法采用串聯(lián)的卷積神經(jīng)網(wǎng)絡(luò)訓(xùn)練方法,檢測模型在原始圖像提取的特征上訓(xùn)練,分割模型在檢測圖像提取的特征上訓(xùn)練,而Mask R-CNN采用并行的卷積網(wǎng)絡(luò)訓(xùn)練方法,檢測模型和分割模型同時在原始圖像提取的特征進行訓(xùn)練。護坡提取結(jié)果對比如圖7所示。
實驗結(jié)果的評價分為定性評價和定量評價。為了度量護坡提取精度,本文采用基于像素數(shù)量誤差的定量精度評價方法,將正確率d和虛警率f作為評價標準,定量評價指標計算公式如下[13]:
式(1)(2)中:t為提取的理想護坡像素總數(shù);C為采用深度卷積神經(jīng)網(wǎng)絡(luò)方法被正確提取的護坡像素數(shù)量;f為采用深度卷積神經(jīng)網(wǎng)絡(luò)方法被誤分為護坡的像素數(shù)量。評價結(jié)果如表1所示。
表1的統(tǒng)計數(shù)據(jù)表明,直接對原始影像進行分割的方法虛警率非常高,而本文提出的方法明顯降低了虛警率,且正確率和虛警率均優(yōu)于Mask R-CNN的方法,平均正確率比Mask R-CNN的高出3.00%,平均虛警率低了0.38%,說明該方法能更加準確地提取出護坡。
針對無人機影像護坡提取這一需求,本文利用卷積神經(jīng)網(wǎng)絡(luò)能自動學(xué)習(xí)圖像本質(zhì)特征的優(yōu)勢,提出了基于Faster R-CNN+SegNet集成卷積網(wǎng)絡(luò)的架空鐵塔護坡提取方法,該方法遵循“先定位后分割”的路線。定位后的護坡圖像降低了護坡背景的復(fù)雜度,使護坡在圖像中占據(jù)主要地位,有利于進行后續(xù)護坡的提取工作。與Mask R-CNN相比,重新訓(xùn)練定位后的圖像特征,能更加準確地對護坡本質(zhì)進行表達。實驗表明采用本文提出的方法能準確地從復(fù)雜場景中提取出護坡,這為護坡以及其他本身具有一定規(guī)律特征而所在背景復(fù)雜多樣的地物(比如居民地)的提取提供了一個參照方法。
注:(a)(b)兩組圖中的第一幅圖都為人工標注提取結(jié)果,第二幅圖都為只用SegNet提取結(jié)果,第三幅圖都為Mask R-CNN提取結(jié)果,第四幅圖都為本文采取的Faster R-CNN+SegNet提取結(jié)果。
表1 精度對比
實驗數(shù)據(jù)方法正確率/(%)虛警率/(%) 數(shù)據(jù)1SegNet98.6659.34 Mask R-CNN95.812.10 Faster R-CNN+SegNet98.431.53 數(shù)據(jù)2SegNet99.1439.28 Mask R-CNN95.961.30 Faster R-CNN+SegNet99.341.10
[1]裴慧坤,周偉才,周榮林,等.架空鐵塔邊坡狀態(tài)監(jiān)測技術(shù)的研究[J].中國新技術(shù)新產(chǎn)品,2013(24):37-38.
[2]曾川峰.山區(qū)高壓電力鐵塔基礎(chǔ)邊坡治理[J].低碳世界,2015(35):23-24.
[3]辛紅園. 爆破對鄰近高邊坡頂鐵塔的影響研究[D].重慶:重慶交通大學(xué),2016.
[4]裴慧坤,姜三,林國安,等.依托無人機傾斜攝影的電力走廊三維重建[J].測繪科學(xué),2016,41(12):292-296.
[5]葛廣英.基于SVM的車型檢測和識別算法[J].計算機工程,2007(06):6-8,11.
[6]Mo G,Zhang Y,Zhang S,et al. A Method of Vehicle Detection Based on SIFT Features and Boosting Classifier[J].Journal of Convergence Information Technology,2012,7(12):328-334.
[7]歐陽穎卉,林翬,李樹濤.基于卷積神經(jīng)網(wǎng)絡(luò)的光學(xué)遙感圖像船只檢測[J].包裝工程,2016,37(15):1-6.
[8]戴陳卡,李毅.基于Faster RCNN以及多部件結(jié)合的機場場面靜態(tài)飛機檢測[J].計算機應(yīng)用,2017,37(S2):85-88.
[9]Ren S,He K,Girshick R,et al.Faster R-CNN:Towards Real-Time Object Detection with Region Proposal Networks[J].IEEE Transactions on Pattern Analysis & Machine Intelligence,2015,39(06):1137-1149.
[10]Girshick,Ross.“Fast r-cnn.”[J].Proceedings of the IEEE International Conference on Computer Vision,2015.
[11]Badrinarayanan V,Handa A,Cipolla R.SegNet:A Deep Convolutional Encoder-Decoder Architecture for Robust Semantic Pixel-Wise Labelling[J].Computer Science,2015.
[12]He K,Gkioxari G,Dollár P,et al.Mask R-CNN[C]//IEEE International Conference on Computer Vision. IEEE,2017:2980-2988.
[13]曹建農(nóng),王平祿,董昱威.高分辨率遙感影像上居民地自動提取方法[J].武漢大學(xué)學(xué)報(信息科學(xué)版),2014,39(07):831-837.
〔編輯:張思楠〕
深圳供電局科技項目(編號:090000KK52160017)
2095-6835(2018)19-0038-04
TM753
A
10.15913/j.cnki.kjycx.2018.19.038
陳城(1989—),男,湖南湘潭人,工程師,主要從事架空輸電線路技術(shù)研究。