潘 健,董 翔,楊玉永,婁世平,徐秀杰,王 宇
1(山東省地震局,濟南 250014)
2(山東省國土測繪院,濟南 250100)
近年來,我國“高分”系列和各類商用遙感衛(wèi)星投入使用,無人機平臺的快速普及,各類高分辨率航空航天遙感影像數據變得越來越容易獲取.高分辨率航空圖像為圖像識別提供了足夠的結構和紋理信息,同時也對現(xiàn)有的分割方法提出了新的挑戰(zhàn)[1].近年來,深度學習、卷積神經網絡技術作為機器學習的一個熱門方向,被引入到遙感圖像處理中,在遙感領域得到廣泛關注.在高分辨率遙感圖像分割研究中取得了顯著效果[2,3],同時也在圖像預處理、基于像素的分類、場景理解、目標檢測4 個領域[4],推動了遙感技術應用方法的創(chuàng)新.
目標檢測屬于遙感圖像處理的一個子類,但具有特殊的難點與技術復雜度,深度學習由于其特征提取潛力可以在遙感圖像目標檢測中發(fā)揮重要作用.遙感圖像目標由于背景復雜度高、噪聲大、干擾強等的原因,其目標檢測難度,較客觀物體、人體行為等自然圖像更大.Chen 等[5]提出一種基于卷積神經網絡的車輛檢測算法,Zhang 等[6]、Tang 等[7]和YU 等[8]分別實現(xiàn)了基于CNN、RCNN、FCN、U-NET 等深度學習技術的油罐、艦船和飛機目標檢測.
有學者Vakalopoulou 等[9–11]在深度學習識別建筑物輪廓信息領域開展應用研究,拓展了深度學習的應用領域,但以往研究往往局限于城市地區(qū),數據源多選擇正視高分辨遙感影像.黑盒深度學習和無人機傾斜攝影技術方興未艾,兩種技術的交叉應用尚處于起步探索階段,本文以無人機傾斜攝影圖像為數據源,深度學習技術為主要技術手段,對村鎮(zhèn)磚(混)木房屋進行識別研究.
基于卷積神經網絡CNN 技術的目標檢測識別、圖像分類,豐富了傳統(tǒng)監(jiān)督分類、非監(jiān)督分類、面向對象等遙感圖像的解譯方法,提高了遙感圖像后期分類處理準確率[12].Girshick 等于2014年提出了基于候選框的目標檢測分割算法R-CNN[13],使用選擇性搜索策略得到大量目標候選框,利用卷積網絡獲取所有區(qū)域特征,然后對所有區(qū)域逐一進行分類.這也造成了因候選區(qū)域重疊、冗余圖像重復計算,而引發(fā)的算力浪費問題.He 等[14]將空間金字塔池化層引入R-CNN,從特征圖中提取特征取代了從原圖獲取特征,解決了R-CNN 重復運算的缺點,提高了運算效率.Girshick 等人在此基礎上提出了Fast R-CNN,每張圖像提取特征圖只通過一次運算,再一次提高了算法的效能.候選區(qū)域生成速度緩慢,依然是Fast R-CNN 算法的痛點.為解決此問題,Ren 等[15]又提出了Faster R-CNN,增加了區(qū)域建議網絡,使得全局特征圖中的目標可以在各個候選框共享,現(xiàn)了端到端的訓練.在Faster R-CNN的基礎上He 等[16]增加了一個進行語義分割的分支得到了Mask R-CNN,并且將原來的ROI Pooling 改為了ROI Align 策略,使得Mask R-CNN 可以保持Faster R-CNN快速的同時,可以完成包括目標分類、目標檢測、語義分割、人體關鍵動作識別等多種任務,刷新了COCO數據集上的記錄[16].
本文基于Faster R-CNN 模型,對村鎮(zhèn)磚(混)木房屋進行識別提取的詳細步驟如下:
(1)將磚(混)木房屋訓練集圖片,導入訓練網絡進行訓練,利用特征提取網絡提取磚(混)木房屋的特征圖像,得到的特征圖像由所有候選區(qū)域RPN[17]網絡和Fast R-CNN 網絡二者共享.較傳統(tǒng)Fast R-CNN 中Selective Search[18]方法實現(xiàn)了候選框提取,提高了圖像檢測精度,減少了重復訓練次數,節(jié)約了計算機硬件資源.
(2)候選區(qū)域RPN 網絡中的Softmax 分類器,對特征圖像進行二分類,確定所劃分錨點(anchors)屬于前景還是背景,同時利用錨點回歸規(guī)則,得到候選框位置.
(3)Fast R-CNN 結合特征圖和候選框信息,通過多重卷積層和池化層處理,對圖像中候選區(qū)域所在部分進行特征提取和學習,識別前景所屬類別,對候選區(qū)域進行識別,判斷其是否為磚(混)木房屋目標,隨即產出檢測框所在精確位置.
Fast R-CNN 依據所制作圖片集中訓練圖片的標注屬性,類似機器學習中的訓練樣本的標簽,經過迭代訓練網絡,網絡中的參數趨近最優(yōu),增加目標識別精度.技術流程圖,如圖1所示.
因RPN 網絡提取候選框的應用,使得Faster RCNN 克服了多任務模塊串行模式,模型誤差不斷收斂,實現(xiàn)了從輸入端到輸出端的物體檢測.在特征圖傳入全卷積網絡RPN 后,使用3×3的滑窗生成一個n 維長度的特征向量,然后將此特征向量分別傳入回歸層與分類層.在分類層中,使用Softmax 分類器對anchors進行前景或背景的二分判斷.在回歸層中,通過調整錨點邊框的中心坐標與長寬,擬合出候選框位置[19].另外,在訓練過程中,RPN 網絡需要使用損失函數分類層損失函數與回歸層損失函數.
圖1 Faster R-CNN 模型結構
RPN和Fast R-CNN 兩個網絡相互獨立,單獨網絡進行訓練很難得到最終的收斂結果,本文采用交替訓練的思路對RPN和Fast R-CNN 兩個網絡進行訓練.
首先采用ImageNet 提供的預訓練模型對RPN 網絡中的卷積層進行參數初始化,獲得磚(混)木房屋圖像通用特征,并生成候選區(qū)域框.其次,利用RPN 網絡輸出的特征候選框對Fast R-CNN 進行訓練,得到卷積層實時參數,反作用于RPN 網絡,RPN 訓練結束后,僅更新RPN 中特有網絡層參數.最后固定共享卷積層,并對Fast R-CNN的全連接層進行細微調整.通過以上操作,將RPN與Fast R-CNN 兩個網絡統(tǒng)一一致,相同的卷積層在兩個網絡中得到共享.
為保證樣本集能充分涵蓋不同建筑結構、建筑習俗的村鎮(zhèn)房屋類型,最大限度增加深度學習模型泛化性,采用擴大研究區(qū)面積并隨機選取的原則.沿山東境內郯廬斷裂帶兩側10~20 千米,劃定54 行5×5 千米正方形樣本格網,每行格網隨機選取一個格網,并在其內部隨機選取一個村鎮(zhèn).根據測區(qū)環(huán)境,使用飛馬F200(原始影像分辨率5456×3632)或大疆精靈(原始影像分辨率5472×3648)無人機進行傾斜攝影航測.實際航測區(qū)域,如圖2所示.
圖2 傾斜攝影作業(yè)區(qū)
因航測現(xiàn)場存在平原、丘陵、山地多種地形,及無人機型號、電量等客觀條件限制,原始航片地面采樣間隔GSD 不一,但最大不超過3 cm.共獲取54 個村鎮(zhèn)駐地的航空遙感影像,原始影像集共計732 GB.
由于無人機傾斜攝影可以從目標正視、左視、后視、后視、俯視5 個方向進行拍攝,故從每個視角各隨機選取1100 個樣本,組成樣本集,共計5500 個樣本,如表1所示.
表1 樣本數據集組成
本次實驗使用的處理器CPU Intel i7-8700K,顯卡GPU NVIDIA GTX1080Ti,固態(tài)硬盤512 GB,內存32 GB.在開源Caffe (Convolutional architecture for fast feature embedding)深度學習框架[20]上,采用Python 作為編程語言,實現(xiàn)本文磚(混)木房屋識別Faster RCNN 算法.
本文從多個視角對磚(混)木房屋目標進行檢測,房屋訓練集圖片的大小統(tǒng)一為200×200,并且將檢測出的房屋用紅色框標出,為了驗證該方法檢測準確度,將檢測框概率的閾值設置為0.81,同時避免部分和待檢測目標關聯(lián)度較小的區(qū)域參與計算,圖像中低于0.81 閾值的目標不被框選.雖然RPN 網絡篩選出的候選區(qū)域數量較少,但若全部候選區(qū)域都進行分類判定,容易引起過擬合現(xiàn)象.本實驗中,檢測框上部的藍色區(qū)域即表示房屋的概率大小,被標注出的房屋目標概率總體高于0.88,如圖3所示.
圖3 磚(混)木房屋識別結果
通過實驗結果可以看出,在拍攝不同角度、光照條件、復雜背景等條件下,絕大多數磚(混)木房屋已被標記識別,但存在少量的漏檢、誤標問題發(fā)生.小部分土木、石木結構房屋被標記,被樹木、高大建筑遮擋的房屋不能得到很好的識別.
采用平均準確率Ap(Average precision)作為磚(混)木房屋檢測的評價指標,相關計算公式如下:
其中,Pre—精確率,Rec—召回率,TP—被正確劃分為正樣本的數量,FP—被錯誤劃分為正樣本的數量,FN—被錯誤劃分為負樣本的數量.Ap平均精度,平均精度代表模型識別效果,其值越大效果越好,反之越差.
精確率-召回率曲線,平均精度是對精確率-召回率曲線進行積分,曲線的橫軸召回率表示分類器對正樣本的覆蓋能力,縱軸精確率表示分類器預測正樣本的精準度,結果如表2所示.
表2 精度評價結果
綜上研究可知,本文采用的Faster R-CNN 在村鎮(zhèn)磚石木房屋識別應用中取得了良好的效果,在復雜背景目標識別過程中體現(xiàn)了模型較強的魯棒性.隨著對測試集數據進行,人為降低目標大小、提高目標遮擋率等操作,模型識別精度隨之降低,暴露了模型在弱小目標識別、強遮擋等方面的缺陷.同時,針對本文所用訓練數據集、驗證數據集采用Faste R-CNN 進行對比實驗,提升了0.2%左右準確度.
本文雖取得了一定的研究成果,但在此研究方法的基礎上,可進一步豐富訓練樣本、改進算法、優(yōu)化模型參數.提高傾斜攝影圖像建筑物目標分類能力,實現(xiàn)自動識別多類建筑結構,達到產出區(qū)域性地震災害風險報告的中長期目標.
推動深度學習技術在地震行業(yè)應用,是提升防震減災能力的有力抓手,更是新時代防震減災工作的內在要求.震前和震后開展的各項現(xiàn)場工作,離不開房屋結構數據的支持,本研究可起到減少人力成本,提供精準輔助決策數據的關鍵作用.