鐘映春,謝林烽,鄭海陽,羅志勇
(1.廣東工業(yè)大學(xué) 自動化學(xué)院,廣州 510006;2.廣州市優(yōu)飛信息科技有限公司,廣州 510630)
采用多旋翼無人機(jī)進(jìn)行電力輸電線路巡檢是當(dāng)前電網(wǎng)巡檢的主要發(fā)展趨勢之一[1]。無人機(jī)在巡檢過程中不斷對輸電線路進(jìn)行航拍,而后通過算法對航拍圖像進(jìn)行線路缺陷或故障、事故隱患的初次篩選,再把結(jié)果圖像發(fā)送到遠(yuǎn)程服務(wù)器端進(jìn)行二次甄別。這樣可以顯著減少無人機(jī)上圖像數(shù)據(jù)的傳送量,提高效率。
輸電線路下方或附近若存在無覆蓋物的裸露地表,是輸電線路隱患的主要因素之一。其原因在于:首先,輸電線路下方或附近存在裸露地表,說明該處很可能會進(jìn)行工程施工。在施工過程中,工程機(jī)械在舉升挖斗或者起重臂時,極易進(jìn)入輸電線路的安全范圍,導(dǎo)致?lián)舸┦鹿实陌l(fā)生。其次,裸露地表存在泥土流失或塌方的隱患,嚴(yán)重時會導(dǎo)致輸電線的支撐鐵塔失穩(wěn)甚至傾覆。因此,在輸電線路巡檢過程中,發(fā)現(xiàn)并及時處置裸露地表是電網(wǎng)巡檢的重要工作內(nèi)容之一。
采用無人機(jī)進(jìn)行電力輸電線路巡檢,實現(xiàn)無人機(jī)航拍圖像中的裸露地表的自動識別,可以顯著提高巡檢效率和人員安全性,是當(dāng)前電網(wǎng)巡檢的主要趨勢之一。Zhengrong Li等[2]利用脈沖耦合神經(jīng)濾波器消除背景噪聲和改進(jìn)的Hough變換實現(xiàn)無人機(jī)航拍檢測電力線。何思遠(yuǎn)等[3]通過對無人機(jī)輸電線路圖像進(jìn)行中值濾波、膨脹和腐蝕的預(yù)處理,提取預(yù)處理圖像的小波特征值,利用基于近鄰傳播的聚類方法實現(xiàn)對目標(biāo)圖像中絕緣子、防震錘和輸電塔設(shè)備的分類與識別。Carlos Sampedro等[4]采用梯度直方圖(HOG,histogram of grey)特征訓(xùn)練兩個多層感知神經(jīng)網(wǎng)絡(luò),第一個用于背景-前景分割,第二個用于分類4種不同類型的電塔取得不錯的效果。Zhenbing Zhao等[5]采用一種深度卷積神經(jīng)網(wǎng)絡(luò)檢測無人機(jī)航拍圖像絕緣子的新穎方法,應(yīng)用具有多面體特征提取方法的卷積神經(jīng)網(wǎng)絡(luò)(CNN,convolution neural network)模型來表示絕緣子的狀態(tài),并基于這些特征訓(xùn)練支持向量機(jī)(SVM,support vector machine)。Xiao Wu等[6]提出采用條紋方向直方圖和條紋長度直方圖描述鳥巢的特征,并將其用于高鐵架輸電線接觸網(wǎng)系統(tǒng)中鳥巢的檢測識別。Meng Lan等[7]提出一種替換掉RoI池化層的基于區(qū)域的Faster R-CNN模型,用于無人機(jī)巡檢過程中對電氣設(shè)備的缺陷檢測。鐘映春等[8]采用YOLO (you only look once)V3算法對無人機(jī)航拍圖像中鐵塔上的鳥巢進(jìn)行識別。鄒捷等[9]提出一種優(yōu)化的R-FCN深度學(xué)習(xí)圖像識別算法,該算法提高了驗收圖像缺陷識別的效率,提升了無人機(jī)在巡檢輸電線路工程驗收的工作效率。這些研究表明,從圖像中甄別電力輸電線路各個元器件的缺陷、故障、隱患等是電網(wǎng)巡檢的主要趨勢之一。但是,針對無人機(jī)電力巡檢圖像中裸露地表的識別研究尚未見諸報道。
針對無人機(jī)電力巡檢圖像中裸露地表的識別問題,本文在采用Mask R-CNN(mask region-convolution neural network )識別效果不佳的基礎(chǔ)上,提出了一種圖像特征融合的方法,即人工提取兩種不同的圖像特征,經(jīng)過不同權(quán)重的融合共同表征圖像中裸露地表的特征。
本文研究的思路如圖1所示。
圖1 研究思路
從圖1可見,在構(gòu)建圖像數(shù)據(jù)集的基礎(chǔ)上,本文首先嘗試了深度學(xué)習(xí)方法里的Mask R-CNN算法,發(fā)現(xiàn)該方法在識別裸露地表時的識別率難以達(dá)到使用的最低要求。在Mask R-CNN方法難以取得突破的情況下,本文嘗試采用人工提取單一特征和SVM識別方法,結(jié)果表明識別率同樣難以達(dá)到使用的最低要求。在嘗試了兩種單一特征后,采用了特征融合的方法進(jìn)行裸露地表識別,使識別率達(dá)80%以上,且實時性比較高,基本滿足裸露地表的識別要求。
本文采用大疆“御”Mavic 2無人機(jī)搭載LID-20c哈蘇航拍相機(jī)采集圖像,航拍圖像分辨率為5 472*3 684 pixels,共采集包含不同場景的圖像1 493張。對采集的圖像進(jìn)行歸一化處理為1 280*1 040 pixels。
由無人機(jī)采集的原始圖像總體數(shù)量不多。因此為了增加圖像數(shù)據(jù)的多樣性、減少模型訓(xùn)練過程中產(chǎn)生的過擬合、提高模型泛化能力,本文采用了圖像擴(kuò)增技術(shù)[10],主要包括:
1)隨機(jī)角度旋轉(zhuǎn)原始圖像。
2)在原始圖像中增加高斯噪聲等。
經(jīng)過圖像擴(kuò)增后,得到圖像數(shù)據(jù)集共計4 479張,隨機(jī)選取75%的圖像3 359張圖像作為訓(xùn)練集圖像,其余的 1 120張圖像作為測試集圖像。任意挑選一張無人機(jī)航拍圖像及其經(jīng)過圖像擴(kuò)增后得到的圖像如圖2所示。
圖2 圖像擴(kuò)增示例
本文使用LabelImg軟件作為標(biāo)注工具,對圖像數(shù)據(jù)集中裸露地表的這一類別和位置進(jìn)行標(biāo)注[11]。
Mask R-CNN[12]是在延續(xù)了Faster R-CNN的思想上發(fā)展而來的,模型結(jié)構(gòu)圖如圖3所示。其模型框架由兩個階段組成,第一階段掃描圖像并生成可能包含一個目標(biāo)的Region Proposal,第二階段對提議進(jìn)行分類并生成邊界框和Mask掩碼,Mask R-CNN算法在Faster R-CNN基礎(chǔ)上增加RoIAlign以及全卷積網(wǎng)絡(luò)(fully convolutional network,FCN),Mask R-CNN將分類預(yù)測和掩碼(mask)預(yù)測拆分為網(wǎng)絡(luò)的兩個分支,分類預(yù)測分支與Faster R-CNN相同,對感興趣區(qū)域給出預(yù)測,產(chǎn)生類別標(biāo)簽以及矩形框坐標(biāo)輸出,而掩碼預(yù)測分支產(chǎn)生的每個二值掩碼依賴分類預(yù)測結(jié)果,基于此分隔出物體。Mask R-CNN對每個類別均獨(dú)立地預(yù)測一個二值掩碼,避開類間的競爭。在特征提取網(wǎng)絡(luò)上,它采用Resnet101殘差網(wǎng)絡(luò)與FPN特征金字塔網(wǎng)絡(luò)結(jié)合,能有效減少因網(wǎng)絡(luò)過于深導(dǎo)致的網(wǎng)絡(luò)退化問題。過往的經(jīng)驗表明Mask R-CNN具有優(yōu)秀的目標(biāo)識別精確度,這是本文采用該方法的主要原因。
圖3 Mask R-CNN模型結(jié)構(gòu)
采用人工提取特征的裸露地表識別模型總體框架如圖4所示。
圖4 人工提取特征的裸露地表識別模型框架
對標(biāo)注好裸露地表類別的每張圖像裁切出若干個128*104 pixels的子塊,然后對圖像子塊分別采用以下5種方法構(gòu)建識別模型。
方法一:采用原始HOG特征的識別方法。首先,對圖像劃分為若干個圖像子塊,而后提取圖像子塊HOG特征;其次,將子塊HOG特征合并為單張圖像的HOG 特征;再次,輸入到SVM分類器中訓(xùn)練獲取得到模型2。
方法二:采用主成分分析(PCA,principal component analysis)降維HOG特征的識別方法。首先,提取圖像子塊HOG特征;其次,采用PCA降維方法對特征矩陣進(jìn)行降維處理;第三,將降維后的子塊HOG特征合并為單張圖像的HOG 特征;第四,輸入到SVM分類器中訓(xùn)練得到模型3。
方法三:采用原始局部二值模式(LBP,local binary patterns)特征的識別方法。首先,提取圖像子塊原始LBP特征;其次,將子塊原始LBP特征合并為單張圖像的原始LBP特征;再次,輸入到SVM分類器中訓(xùn)練獲取得到模型4。
方法四:采用等價模式LBP特征的識別方法。首先,提取圖像子塊等價模式LBP特征;其次,將子塊等價模式LBP特征合并為單張圖像的等價模式LBP特征;再次,輸入到SVM分類器中訓(xùn)練獲取得到模型5。
方法五:采用降維后的HOG特征與等價模式LBP特征融合的識別方法。首先,分別提取圖像HOG特征和等價模式LBP特征;其次,對HOG特征進(jìn)行PCA降維處理;第三,將降維后的子塊HOG特征合并為單張圖像的HOG 特征,將子塊等價模式的LBP特征合并為單張圖像的等價模式LBP特征;第四,用不同權(quán)重的融合降維后的HOG特征和等價模式LBP特征;第五,輸入到SVM分類器中訓(xùn)練得到模型6。
3.2.1 提取圖像HOG特征的裸露地表識別模型
1)HOG特征:
梯度方向直方圖HOG特征是一種描述圖像邊緣和形狀特征的算子[13]。它通過計算和統(tǒng)計圖像局部區(qū)域的梯度方向直方圖來構(gòu)成特征。對于一副圖像,梯度或者邊緣的方向密度分布能夠較好地描述局部目標(biāo)的表象和形狀。HOG特征提取算法的實現(xiàn)過程如下:
(1)對樣本圖像進(jìn)行標(biāo)準(zhǔn)化Gamma空間和顏色空間,將圖像進(jìn)行Gamma標(biāo)準(zhǔn)化,這種處理能有效降低圖像局部的陰影和光照變化等因素的影響。
(2)計算圖像中橫坐標(biāo)和縱坐標(biāo)方向的梯度。
(3)統(tǒng)計單元內(nèi)梯度直方圖。
(4)獲取最終特征。本方法采用滑動窗口法,滑動步長為8*8,把每個歸一化好的塊內(nèi)的特征向量串聯(lián)起來,即可得到最終的HOG特征向量。
2)特征降維:
本方法實驗采用的圖像子塊為128*104 pixels,提取圖像子塊HOG特征所得特征向量維數(shù)為6 480維。由于該特征向量維度較高,包含信息較多,有些信息可能會對識別產(chǎn)生干擾,而且高維度特征所需訓(xùn)練時間也較長,所以嘗試對特征向量進(jìn)行降維。主成分分析PCA降維是較為常用的線性降維方法[13],主要是通過將原來高維度的變量做線性投影到低維度的空間上。一般通過式(1)來計算特征的主成分:
(1)
(2)
由人工提取圖像HOG特征后,對特征進(jìn)行PCA降維處理,處理后獲得的特征輸入到SVM分類器進(jìn)行訓(xùn)練,獲取裸露 地表圖像識別模型。
3.2.2 提取圖像LBP特征的裸露地表識別模型
1)LBP特征:
局部二值模式LBP特征是一種描述圖像局部紋理特征的算子。它通過利用中心像素點(diǎn)的灰度值作為閾值,其相鄰像素點(diǎn)的灰度值與中心像素點(diǎn)進(jìn)行大小比較得到的二進(jìn)制編碼來表示局部的紋理特征。原始的LBP算子定義為:在3*3的窗口內(nèi),以窗口中心像素點(diǎn)為閾值,周圍的8個像素點(diǎn)的灰度值與中心點(diǎn)進(jìn)行比較,若周圍像素值大于等于中心像素值,則該像素點(diǎn)的位置標(biāo)記為1,小于中心像素值標(biāo)記為0。如此,按順時針方向的8個像素點(diǎn)經(jīng)過比較后可產(chǎn)生8位二進(jìn)制數(shù),即可得到該窗口中心像素點(diǎn)的LBP值。如圖5所示。
圖5 原始LBP算子
2)等價模式LBP特征:
原始LBP算子僅能夠處理局部3*3小范圍內(nèi)的信息,難以滿足不同尺寸的特征提取的需求,具有局限性。Timo Ojala等改進(jìn)了原始的LBP算子[14],由原來的3*3范圍擴(kuò)展為任意范圍,但與此同時,鄰域的擴(kuò)展使得二進(jìn)制模式類別顯著增加,產(chǎn)生過多模式,降低了效率,不利于統(tǒng)計和分類。由此,Ojala提出一種“等價模式”(Uniform Pattern)的LBP算子,實現(xiàn)了對LBP算子的降維處理。
當(dāng)LBP算子的循環(huán)二進(jìn)制數(shù)從0跳到1或從1跳到0最多2次時,則屬于等價模式,例如00011000。由以下公式(3)、(4)可計算是否為等價模式:
(3)
U(Gp)=|s(gp-1-gc)-s(g0-gc)|+
(4)
其中:gc對應(yīng)局部領(lǐng)域中心像素的灰度值,gp對應(yīng)于半徑為R的圓周上等間隔像素p的灰度值,若計算所得U(Gp)不大于2,則為等價模式。等價模式能使原來二進(jìn)制模式類別由種降低到種,通過此種方式,不但可以簡化模式類別,還可以降低高頻噪聲干擾,在不損失有效的圖像信息同時降低了特征數(shù)據(jù)的維度。實驗證明采用等價模式的LBP特征比采用別的模式LBP特征對裸露地表分類識別的效果更好。
由人工提取圖像等價模式的LBP特征后,輸入到SVM分類器進(jìn)行訓(xùn)練,獲取裸露地表圖像識別模型。
3.2.3 融合HOG與LBP的裸露地表識別模型
1)特征融合的原因:
LBP特征是一種用來描述圖像局部紋理特征的算子,具有灰度不變性和旋轉(zhuǎn)不變性、計算較為簡單等顯著的優(yōu)點(diǎn),對圖像局部紋理特征描述較好,但單獨(dú)使用時容易對復(fù)雜圖像特征提取不完整。HOG特征是一種描述圖像邊緣和形狀特征的算子,對圖像幾何和光學(xué)的形狀保持良好的不變性,但HOG特征對邊緣主體部分以及一些容易混淆的邊緣部分很難表征,且當(dāng)背景有較多噪聲邊緣時也會削弱HOG特征的描述能力。針對單一LBP特征以及單一HOG特征在表征圖像特征上的不足,本方法將圖像的LBP特征和HOG特征融合,該融合方法既可以描述圖像的局部紋理信息又可以描述圖像的邊緣輪廓信息,提供了更加豐富的圖像特征信息,能更好提升裸露地表識別的效果。
2)融合方式:
本方法采取的特征融合方式為兩個特征向量以不同的權(quán)重系數(shù)和后進(jìn)行串聯(lián)融合,由于實驗所得到的HOG特征與LBP特征數(shù)值上不在同一個數(shù)量級上,若HOG特征與LBP特征直接串聯(lián)融合容易出現(xiàn)其中一方特征數(shù)據(jù)遠(yuǎn)遠(yuǎn)大于另一方特征數(shù)據(jù),使得另一方的特征表征特性被削弱,降低識別分類精度的情況。所以在嘗試兩個特征以不同權(quán)重進(jìn)行融合時,一般選取的兩個特征的權(quán)重數(shù)量級上的差距與原始的兩個特征數(shù)量級的差距相當(dāng),以此消除因兩個特征在數(shù)量級上的差距而造成的一方特征表征特性被削弱的問題。融合后的特征F如式(5)所示:
F=αHOG+βLBP
(5)
由人工分別提取圖像的HOG特征、等價模式的LBP特征,對HOG特征進(jìn)行PCA處理,然后經(jīng)PCA處理后的HOG特征和等價模式的LBP特征以不同權(quán)重進(jìn)行串聯(lián)融合,通過反復(fù)評價不同權(quán)重的LBP特征和HOG特征融合后的識別效果,選取最優(yōu)的權(quán)重組合,獲取裸露地表的最佳識別模型。
4.1.1 深度學(xué)習(xí)實驗環(huán)境
實驗硬件環(huán)境:CPU為i7-6700K,內(nèi)存32 G,GPU為英偉達(dá)公司的GTX1070,顯存8 G,硬盤1 T。
實驗軟件環(huán)境:操作系統(tǒng)為linux-ubuntu16.04,深度學(xué)習(xí)專用編程框架CUDA,加速庫cuDNN,高層神經(jīng)網(wǎng)絡(luò)API 庫Keras,TensorFlow和Python 3.6。
4.1.2 人工提取特征的實驗環(huán)境
實驗硬件平臺:CPU為Core i5-8250U,內(nèi)存8 G,GPU為英偉達(dá)公司的MX150,顯存2 G,硬盤為1 T。
實驗軟件平臺:操作系統(tǒng)為windows10,圖像處理庫skimage,常用的機(jī)器學(xué)習(xí)庫sklearn,Python 3.6。
本文設(shè)計以下實驗。
實驗1:采用模型1即Mask R-CNN模型進(jìn)行裸露地表識別,獲得識別精確度和F1值。
實驗2:采用模型2即原始的HOG特征方式進(jìn)行裸露地表識別,獲得識別精確度和F1值。
實驗3:采用模型3即經(jīng)過PCA降維的HOG特征進(jìn)行裸露地表識別,獲得識別精確度和F1值。
實驗4:采用模型4即原始的LBP特征方式進(jìn)行裸露地表識別,獲得識別精確度和F1值。
實驗5:采用模型5即等價模式的LBP特征方式進(jìn)行裸露地表識別,獲得識別精確度和F1值。
實驗6:在對比上述各個實驗的識別精確度和F1值的基礎(chǔ)上,采用模型6即特征串聯(lián)融合的方式進(jìn)行裸露地表識別,并探索最佳的融合權(quán)重。
為了評估本文所采用的方法的效果,本文擬使用以下兩個評價指標(biāo)進(jìn)行評價:精確度(AP,average precision)[15]、F1指標(biāo)[16]。
其中,AP值為識別模型在測試集上識別每個類別的平均精確度,它由精確度(Precision)和召回率(Recall)一同決定,計算式子如下:
(6)
(7)
(8)
上述式子中,TP為正確預(yù)測為正類的正樣本數(shù);FP為錯誤預(yù)測為正類的負(fù)樣本數(shù);FN為錯誤預(yù)測為負(fù)類的正樣本數(shù)。AP值為在0到1之間的所有召回值的精確平均值,即P-R曲線(Precision-recall curves)下的面積。AP值越接近1,說明模型效果越好。
F1指標(biāo)綜合表達(dá)了召回率Recall和精確度Precision相互促進(jìn)又相互制約的關(guān)系,可以在二者之間取得平衡。F1值越高,模型效果越好。F1值計算式子如下:
(9)
4.4.1 實驗1的結(jié)果與分析
實驗1采用原始的Mask R-CNN模型,以及調(diào)整學(xué)習(xí)率、batch size等參數(shù)的Mask R-CNN模型。實驗結(jié)果如表1所示。
表1 實驗1結(jié)果
由表1可以看出,采用Mask R-CNN模型在測試集上識別裸露地表的效果一般,調(diào)參后測試的AP值只有不到58%,F(xiàn)1值也只有55.61%,說明在無人機(jī)采集的原始圖像數(shù)據(jù)集不多的情況下,采用Mask R-CNN模型的表現(xiàn)一般。
4.4.2 實驗2與實驗3的結(jié)果與分析
實驗2和實驗3的實驗結(jié)果如表2所示。
表2 實驗2與實驗3結(jié)果
由表2可以看出,經(jīng)過特征PCA降維處理的模型3,在測試集上的表現(xiàn)AP值和F1值分別相對于模型2提高了1.09%和1.05%。同時,由于降維后的特征維度更低、計算量更少,識別時間也比未降維前快了16 ms。實驗說明采用PCA對原始HOG特征進(jìn)行降維對裸露地表的識別效果和效率均有一定提升。
4.4.3 實驗4與實驗5的結(jié)果與分析
實驗4和實驗5的實驗結(jié)果如表3所示。
表3 實驗2與實驗3結(jié)果
由表3可以看出,采用等價模式LBP特征的模型5比模型4在測試集上的AP值高出6.33%,F(xiàn)1值高出5.12%。這說明等價模式的LBP特征有效降低了噪聲干擾,提升了裸露地表的識別效果。同時,等價模式的LBP特征相比原始LBP特征簡化了模式類別、降低了特征維度,所以在識別時間上也有了3 ms的提升。
4.4.4 實驗6的結(jié)果與分析
通過實驗2~5結(jié)果可以看出,無論是經(jīng)過降維處理的HOG特征還是等價模式的LBP特征,單一特征的識別方法對裸露地表的識別精確度始終無法達(dá)到80%以上,無法達(dá)到實際應(yīng)用的基本要求。
實驗6對經(jīng)過降維處理的HOG特征和等價模式的LBP特征進(jìn)行不同權(quán)重的融合,最后輸入到SVM分類器訓(xùn)練。不同權(quán)重組合經(jīng)訓(xùn)練的模型6在測試集上的表現(xiàn)如圖6所示。
圖6 不同權(quán)重特征融合測試結(jié)果
由圖6可以看出,當(dāng)LBP特征的權(quán)重系數(shù)為0.001 5,HOG特征權(quán)重系數(shù)為1.1時,兩特征融合后訓(xùn)練所獲取的模型對裸露地表識別效果最佳,AP值達(dá)到了81.13%,同時該權(quán)重組合的測試F1值也達(dá)到了78.37%。由此可見,相比于提取單一特征訓(xùn)練獲取的模型,提取HOG特征和LBP特征經(jīng)融合后再訓(xùn)練的模型對識別裸露地表效果提升明顯。此外,不同的權(quán)重系數(shù)組合會對識別效果產(chǎn)生影響,通過AP值的高低反復(fù)評價不同權(quán)重對裸露地表識別的效果,多次實驗,尋找出最優(yōu)的權(quán)重組合。其本質(zhì)就是,選取的兩個特征的權(quán)重數(shù)量級上的差距與原始的兩個特征數(shù)量級的差距相當(dāng)。
4.4.5 實驗結(jié)果匯總與分析
實驗1至實驗6獲得的實驗結(jié)果如表4所示。
表4 實驗結(jié)果匯總
由表4可知,采用Mask R-CNN模型的實驗1無論是訓(xùn)練時間還是訓(xùn)練出來的權(quán)重參數(shù)規(guī)模都大于其余實驗,且識別時間也比其余實驗多將近100 ms,對于小數(shù)據(jù)集訓(xùn)練樣本應(yīng)用到無人機(jī)平臺來說,訓(xùn)練時間和權(quán)重參數(shù)規(guī)模都不宜過大。實驗6采用的特征按照權(quán)重系數(shù)融合的方法,既保證了識別的精確度,且運(yùn)行的效率比較高,訓(xùn)練出來的權(quán)重參數(shù)規(guī)模占用空間也比較小。
任意挑選2張無人機(jī)航拍采集的圖像,模型6對該圖像裸露地表識別結(jié)果如圖7所示,基本滿足要求。
圖7 模型6的識別案例
電力輸電線路附近的裸露地表是導(dǎo)致電力輸電線路發(fā)生相關(guān)事故的重要隱患之一。在無人機(jī)巡檢電力輸電線路過程中,識別發(fā)現(xiàn)航拍圖像中的裸露地表,可以預(yù)防相關(guān)事故的發(fā)生,是當(dāng)前無人機(jī)電力巡檢過程中現(xiàn)實而急迫的需要。然而,目前尚未有從航拍圖像中識別裸露地表的相關(guān)研究見諸報道。
針對航拍圖像中裸露地表的識別問題,我們分別采用深度學(xué)習(xí)中的Mask R-CNN模型、人工提取單一HOG/LBP特征和特征融合等3種方法進(jìn)行了研究和探索。在規(guī)模為4 000張圖像左右的數(shù)據(jù)集上進(jìn)行的實驗結(jié)果表明,1)將HOG和LBP特征按照權(quán)重進(jìn)行特征融合后用于識別裸露地表是有效方法之一。2)在HOG和LBP特征按照權(quán)重進(jìn)行特征融合的方法中,選取的權(quán)重系數(shù)在使得兩種特征的數(shù)量級相當(dāng)時,得到的AP值和F1值最佳。
當(dāng)前,廣泛采用深度學(xué)習(xí)的方法識別無人機(jī)航拍圖像中電力輸電線路的金具、絕緣子、輸電線、鐵塔等各個具體環(huán)節(jié)[5,7-9,17-18]。鑒于此,本研究也將深度學(xué)習(xí)方法作為首選,采用Mask R-CNN模型識別裸露地表。但是,實驗結(jié)果表明Mask R-CNN模型的識別率和難以令人滿意。對比文獻(xiàn)和本文的研究發(fā)現(xiàn),其中的原因很可能有:(1)圖像數(shù)據(jù)集規(guī)模不夠大;(2)文獻(xiàn)中的識別目標(biāo)多數(shù)都具有顯著的細(xì)節(jié)特征。在深度學(xué)習(xí)中以CNN為基礎(chǔ)的模型較擅長提取目標(biāo)的細(xì)節(jié)特征,但是在識別裸露地表這類具有宏觀特征的目標(biāo)時,其局限性比較明顯。
在采用Mask R-CNN模型難以取得滿意結(jié)果后,我們嘗試采用了人工提取特征的方法。雖然也有一些研究采用人工提取特征方法進(jìn)行輸電線路相關(guān)的研究[3-4,6],但是這些特征提取方法均未涉及到識別裸露地表這樣的目標(biāo)。我們的實驗表明,提取圖像中裸露地表的單一特征的識別率同樣難以令人滿意。從航拍圖像可見,從宏觀上看裸露地表與周邊地塊有顯著差異,同時具有一定的紋理特性。HOG特征更多的表達(dá)了目標(biāo)的灰度宏觀特征[19],而LBP特征主要表達(dá)目標(biāo)的紋理特征[20]。為此,我們采用權(quán)重的方式將兩者融合在一起,并研究了權(quán)重對識別率的影響。實驗結(jié)果表明,在權(quán)重使得兩個特征的數(shù)量級相當(dāng)時,識別率基本達(dá)到實際使用的要求。
相對于深度學(xué)習(xí)的Mask R-CNN模型而言,特征融合的方法不僅在訓(xùn)練時間上顯著更少,而且在小規(guī)模圖像數(shù)據(jù)集的情況下識別精度也顯著比Mask R-CNN模型更高。相對于單一特征的方法而言,采用權(quán)重融合特征的方法兼具了宏觀特征和微觀特征表達(dá),能夠更加準(zhǔn)確的反映圖像區(qū)域的本質(zhì)。由此可見,針對無人機(jī)航拍圖像中的裸露地表識別問題,在圖像數(shù)據(jù)集規(guī)模不大的情況下,我們提出權(quán)重融合特征的識別方法,比較準(zhǔn)確高效的識別出圖像中的裸露地表區(qū)域。這個方法不僅是無人機(jī)機(jī)載平臺對圖像進(jìn)行實時初篩的關(guān)鍵基礎(chǔ)之一,而且為解決其它具有宏觀特征的目標(biāo)識別提供了一種良好的解決方案。
需要指出的是,盡管特征融合的方法能夠使得識別率基本達(dá)到要求,但是距離實際應(yīng)用相去甚遠(yuǎn)。后續(xù),我們將探索融合更多的特征,將裸露地表的識別率提高到95%以上,真正能夠進(jìn)入實際應(yīng)用階段。此外,盡管目前Mask R-CNN模型對裸露地表的識別率不高,但是相比于人工提取特征,深度學(xué)習(xí)方法顯然具有更大的提升空間。因此,后續(xù)我們將在增大圖像數(shù)據(jù)集規(guī)模的基礎(chǔ)上,探索改進(jìn)深度學(xué)習(xí)中相關(guān)模型在宏觀表達(dá)上的能力。
針對無人機(jī)巡檢航拍圖像的裸露地表識別,本文分別對Mask R-CNN模型、人工提取單一HOG/LBP特征和特征融合等3種方法進(jìn)行了研究和探索。在小規(guī)模數(shù)據(jù)集下,將HOG和LBP特征按照權(quán)重進(jìn)行特征融合后用于識別裸露地表相較于深度學(xué)習(xí)模型和人工提取單一特征的模型是更為有效的方法,在保證了識別裸露地表一定的精確度同時,也具備了實時性的特點(diǎn),同時訓(xùn)練時間以及權(quán)重參數(shù)規(guī)模都更低。本文的探索為無人機(jī)巡檢過程中實時識別航拍圖像中的目標(biāo)物提供了一種新思路。