潘勇卓,謝洪斌,楊 雪,姜良美,張 勇
(1.外生成礦與礦山環(huán)境重慶市重點(diǎn)實(shí)驗(yàn)室(重慶地質(zhì)礦產(chǎn)研究院),重慶 401120;2.煤炭資源與安全開(kāi)采國(guó)家重點(diǎn)實(shí)驗(yàn)室重慶研究中心,重慶 401120)
礦產(chǎn)資源是人類社會(huì)存在與發(fā)展的重要物質(zhì)基礎(chǔ),礦產(chǎn)資源的合理開(kāi)發(fā)、利用是國(guó)土資源監(jiān)管的重要主題。為及時(shí)發(fā)現(xiàn)礦產(chǎn)資源的偷采、盜采、亂采行為,國(guó)土資源部開(kāi)展了土地礦產(chǎn)衛(wèi)片執(zhí)法專項(xiàng)行動(dòng),對(duì)違法采礦行為進(jìn)行了有力打擊,有效維護(hù)了礦業(yè)開(kāi)采秩序。然而衛(wèi)片執(zhí)法過(guò)程中,海量遙感影像的礦山信息提取工作主要為人工解譯,不僅成本高、時(shí)效性差,而且解譯結(jié)果受人為主觀影響,容易出現(xiàn)錯(cuò)誤和遺漏。隨著遙感技術(shù)的發(fā)展,影像的獲取將更加快捷、頻繁,影像所包含的監(jiān)測(cè)信息也更加海量,這無(wú)疑對(duì)傳統(tǒng)的人工信息提取工作帶來(lái)更大的考驗(yàn)。
遙感影像信息自動(dòng)提取分類常用的方法有BP 神經(jīng)網(wǎng)絡(luò)、支持向量機(jī)(SVM)等,然而這些分類方法難以應(yīng)用于衛(wèi)片執(zhí)法工作,究其原因主要在于其自動(dòng)提取的精度難以達(dá)到生產(chǎn)需求,因此難以代替人工解譯。近年來(lái),人工智能領(lǐng)域的深度學(xué)習(xí)技術(shù)在計(jì)算機(jī)視覺(jué)、語(yǔ)音識(shí)別、信息檢索等領(lǐng)域取得了良好的效果,具有高精度、高時(shí)效的特點(diǎn),為遙感影像信息的分類提取提供了新的思路。
在此,本文以石灰?guī)r礦山為例,將深度學(xué)習(xí)的方法引入到遙感影像礦山信息精確識(shí)別中,利用大量人工解譯的礦山圖斑制作樣本,通過(guò)深度卷積神經(jīng)網(wǎng)絡(luò)框架Mask R-CNN 進(jìn)行機(jī)器訓(xùn)練圈取礦山,并結(jié)合采礦權(quán)信息與GIS空間分析技術(shù),探索露天礦山疑似違法圖斑線索快速提取的應(yīng)用方法。
Mask R-CNN是由HE等提出的一種用于實(shí)例分割(Instance Segmentation)的深度卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Networks,CNN)框架,是當(dāng)前實(shí)例分割領(lǐng)域的研究熱點(diǎn)。該框架擴(kuò)展自該作者提出的Faster R-CNN,模擬人腦神經(jīng)網(wǎng)絡(luò)進(jìn)行信號(hào)識(shí)別,能并行地在邊緣檢測(cè)器(Bounding Box Recognition)分支上添加一個(gè)用于預(yù)測(cè)目標(biāo)掩模(Object Mask)的新分支,不僅可對(duì)圖像中的目標(biāo)進(jìn)行檢測(cè),還可以對(duì)每一個(gè)目標(biāo)給出一個(gè)高質(zhì)量的分割結(jié)果,有效實(shí)現(xiàn)圖片中目標(biāo)物體的像素級(jí)識(shí)別圈取。
Mask R-CNN 框架的工作分兩階段進(jìn)行,其網(wǎng)絡(luò)結(jié)構(gòu)如圖1所示。第一個(gè)階段掃描圖像,通過(guò)CNN和區(qū)域建議網(wǎng)絡(luò)(Region Proposal Networks,RPN)生成有可能包含目標(biāo)區(qū)域的感興趣區(qū)(Region of Interest,RoI),第二個(gè)階段平行于預(yù)測(cè)類別和坐標(biāo)信息,利用一個(gè)小的全積神經(jīng)網(wǎng)絡(luò)(Fully Convolutional Network,FCN)對(duì)每個(gè)RoI 輸出一個(gè)預(yù)測(cè)分割掩膜Mask。
為了提供網(wǎng)絡(luò)的分層非線性映射學(xué)習(xí)能力,減小預(yù)測(cè)值與真實(shí)值之間的差距程度,Mask R-CNN 提供如下?lián)p失函數(shù)來(lái)參與訓(xùn)練,并對(duì)每個(gè)RoI 輸出一個(gè)二值Mask:
上式中,Lclass表示分類識(shí)別的損失,本文采用softmax的分類交叉熵形式表示;Lbbox表示邊框回歸的損失,邊框回歸的目的是增大輸出邊框與真實(shí)邊框之間的重疊度;Lmask表示掩膜的損失,根據(jù)RoI 中每個(gè)像素點(diǎn)計(jì)算sigmoid 形式的平均二值交叉熵得出,該定義允許每個(gè)類都生成掩膜,并且不會(huì)存在類間競(jìng)爭(zhēng)關(guān)系。
圖1 Mask RCNN 網(wǎng)絡(luò)結(jié)構(gòu)圖
圖2 ResNet 結(jié)構(gòu)示意圖
常見(jiàn)的CNN 網(wǎng)絡(luò)模型由LeNet、AlexNet、GoogleNet、VGG、ResNet等,不同的模型結(jié)構(gòu)對(duì)樣本容量有不同的適應(yīng)性,樣本容量過(guò)低或過(guò)高則會(huì)出現(xiàn)訓(xùn)練欠擬合或過(guò)擬合的問(wèn)題。深度殘差網(wǎng)絡(luò)ResNet 由He 提出,核心思想是用學(xué)習(xí)輸入x的殘差F(x)替代映射H(x),解決了網(wǎng)絡(luò)加深的同時(shí)梯度彌散越發(fā)顯著的問(wèn)題[,該網(wǎng)絡(luò)模型在小樣本研究中表現(xiàn)出相比其他模型更高的準(zhǔn)確率,因此本文選擇ResNet 作為CNN的網(wǎng)絡(luò)模型,選擇ReLU 作為激活函數(shù)。其結(jié)構(gòu)如圖2所示。
Mask R-CNN 可用于遙感影像的訓(xùn)練與目標(biāo)識(shí)別,從而圈取影像中的目標(biāo)圖斑。本文以露天礦山作為自動(dòng)提取的對(duì)象,通過(guò)Mask R-CNN 獲得礦山圖斑后,需對(duì)存在開(kāi)采問(wèn)題的圖斑進(jìn)行判定。
采礦許可證是采礦權(quán)人行使開(kāi)采礦產(chǎn)資源權(quán)利的法律憑證,是國(guó)家有關(guān)部門(mén)指導(dǎo)和規(guī)范礦山開(kāi)發(fā)秩序的有效參考。采礦權(quán)許可證明確規(guī)定了礦山合法開(kāi)采的空間范圍,即采礦權(quán)范圍內(nèi)的視為合法開(kāi)采,采礦權(quán)范圍外的則為疑似違法開(kāi)采。因此本文以采礦權(quán)矢量圖層作為疑似違法檢測(cè)依據(jù),通過(guò)GIS空間疊加法[14]判定存在開(kāi)采問(wèn)題的圖斑。
實(shí)驗(yàn)所使用的影像為高分二號(hào)遙感影像(包含紅、綠、藍(lán)、近紅外4 波段,分辨率0.81m),選取石灰?guī)r、砂巖作為礦山識(shí)別對(duì)象。首先,對(duì)52 幅影像進(jìn)行人工解譯,圈取共632個(gè)礦山矢量圖斑;其次,以圖斑中的每個(gè)影像像素為中心,按50 像素的步長(zhǎng)逐點(diǎn)裁切為512×512大小的樣本影像,同時(shí)裁切對(duì)應(yīng)的矢量范圍。最終形成礦山樣本(包含影像和矢量)共約110 000個(gè)。
為了增加樣本的相關(guān)性,使模型具有更好的泛化能力,本文依次對(duì)訓(xùn)練樣本進(jìn)行旋轉(zhuǎn)(90°、180°、270°)和翻轉(zhuǎn)(水平、垂直、對(duì)角線)操作,最終礦山樣本擴(kuò)充至880 000個(gè)。
Mask R-CNN的訓(xùn)練數(shù)據(jù)集通常為COCO數(shù)據(jù)格式,該格式文件包含了,即樣本圖片和該圖片對(duì)應(yīng)的掩膜。根據(jù)高分二號(hào)影像采集的樣本包含了樣本影像(tif圖像格式)和影像中對(duì)應(yīng)的礦山矢量范圍(shp文件格式),輸入到Mask R-CNN 進(jìn)行訓(xùn)練之前需將樣本轉(zhuǎn)換為COCO數(shù)據(jù)格式。
實(shí)驗(yàn)樣本的tif圖像包含四個(gè)波段信息,與常規(guī)RGB 三通道圖片不同,COCO 文件無(wú)法直接讀取tif圖像,因此通過(guò)二進(jìn)制文件流的形式讀取tif圖像并保存到COCO數(shù)據(jù)的圖片信息中。
shp 文件包含有礦山矢量范圍的節(jié)點(diǎn)坐標(biāo),可用于生成COCO 中的掩膜本。文中礦山樣本的shp 文件坐標(biāo)系為空間地理坐標(biāo)系,然而COCO數(shù)據(jù)中的掩膜節(jié)點(diǎn)坐標(biāo)為圖形坐標(biāo),因此需通過(guò)如下公式進(jìn)行坐標(biāo)轉(zhuǎn)換。
上式中,xgeo、ygeo為shp 文件中的節(jié)點(diǎn)坐標(biāo);x′、y ′為影像左上角頂點(diǎn)坐標(biāo),可從tif 頭文件中獲取;p為像素的空間分辨率,高分二號(hào)影像p值取0.81;x、y為轉(zhuǎn)換后的圖像坐標(biāo)。
根據(jù)上述方法將樣本構(gòu)建為COCO數(shù)據(jù)集輸入到Mask R-CNN 中進(jìn)行訓(xùn)練,直至損失函數(shù)不再下降,即完成模型訓(xùn)練。
通過(guò)Mask R-CNN 訓(xùn)練后的模型即可用于礦山圖斑的自動(dòng)提取,而該過(guò)程的輸入影像尺寸應(yīng)與訓(xùn)練樣本的影像尺寸保持一致。在識(shí)別一幅完整的遙感影像之前,通過(guò)切割處理將影像分割為數(shù)個(gè)512×512尺寸的小影像。為避免影像邊緣的目標(biāo)被切割后區(qū)域過(guò)小而導(dǎo)致識(shí)別遺漏,本文設(shè)置一定的重疊區(qū)域提高目標(biāo)切割的完整性。
自動(dòng)提取的圖斑成果基于切割后的小影像,圖斑掩膜節(jié)點(diǎn)坐標(biāo)為圖形坐標(biāo),無(wú)法與采礦權(quán)矢量圖層進(jìn)行疊加分析。因此根據(jù)式(2)反算節(jié)點(diǎn)的空間地理坐標(biāo),從而構(gòu)建礦山圖斑矢量文件。利用自動(dòng)提取的礦山圖斑矢量文件與采礦權(quán)矢量圖層進(jìn)行空間疊加分析,位于采礦權(quán)矢量圖層范圍外的礦山圖斑即可提取判定為疑似違法圖斑。
圖3 礦山提取效果圖
1)人工解譯遙感影像制作礦山圖斑,并切割為512×512 尺寸的小樣本,樣本包含tif 影像和shp 矢量文件。
2)擴(kuò)充樣本,對(duì)樣本進(jìn)行旋轉(zhuǎn)、翻轉(zhuǎn)操作。
3)制作COCO數(shù)據(jù)集用于Mask R-CNN 網(wǎng)絡(luò)模型訓(xùn)練,直至損失函數(shù)不再下降即完成訓(xùn)練。
4)利用訓(xùn)練好的模型提取遙感影像中的礦山圖斑。
5)根據(jù)采礦權(quán)矢量圖層提取疑似違法圖斑。
本文實(shí)驗(yàn)采用Linux系統(tǒng),Mask R-CNN 搭建采用Caffe2-GPU平臺(tái),算法仿真采用Python 語(yǔ)言,計(jì)算機(jī)顯卡為GeForce GTX1080(顯存8G),處理器為Core i7-4790 CPU@3.60GHz(內(nèi)存16G)。模型訓(xùn)練時(shí)長(zhǎng)約380小時(shí),損失函數(shù)停留在1.05左右。提取效果如圖3所示。
mAP(mean,Average,Precision)是深度學(xué)習(xí)目標(biāo)檢測(cè)中衡量識(shí)別精度的常用指標(biāo),通過(guò)目標(biāo)、非目標(biāo)的正確、錯(cuò)誤分類的數(shù)量反映識(shí)別的效果。本文以像素為單位,橫向?qū)Ρ缺疚姆椒ㄅcKNN和SVM 方法在本文數(shù)據(jù)上的實(shí)驗(yàn)效果。各類方法mAP 精度如下表。由表可知,本文方法的精度高于傳統(tǒng)方法,在露天礦山疑似違法圖斑提取的問(wèn)題上具有很強(qiáng)的有效性和優(yōu)越性。
提取精度表
本文提出了一種基于Mask R-CNN的遙感影像露天礦山疑似違法圖斑自動(dòng)檢測(cè)提取方法,通過(guò)人工采集大量礦山圖斑樣本并對(duì)其進(jìn)行擴(kuò)充處理,制作特定的COCO數(shù)據(jù)集輸入到Mask R-CNN 進(jìn)行訓(xùn)練,得到的分類網(wǎng)絡(luò)模型用于目標(biāo)識(shí)別,實(shí)現(xiàn)遙感影像礦山圖斑的自動(dòng)提取,再以采礦權(quán)矢量圖層作為疑似違法的判定依據(jù),圈取影像中的問(wèn)題圖斑,從而實(shí)現(xiàn)疑似違法圖斑的自動(dòng)提取。經(jīng)實(shí)驗(yàn),本文方法的提取精度高于傳統(tǒng)分類方法20%以上,能有效圈取目標(biāo)圖斑。
同時(shí)本文方法仍有不足,實(shí)驗(yàn)過(guò)程中發(fā)現(xiàn)對(duì)部分礦山邊緣輪廓的勾畫(huà)不準(zhǔn)確;錯(cuò)解、漏解的數(shù)量遠(yuǎn)高于人工解譯,因此難以替代實(shí)際衛(wèi)片執(zhí)法工作中的人工解譯勞動(dòng)力;數(shù)據(jù)輸入和成果輸出以裁切后512×512的小圖形式為單元,未實(shí)現(xiàn)整幅遙感影像的直接輸入和成果展示。
礦產(chǎn)資源衛(wèi)片執(zhí)法工作中,本文方法提取成果可作為初步解譯結(jié)果輔助人工判讀,為深度學(xué)習(xí)在衛(wèi)片執(zhí)法中的應(yīng)用研究作出了實(shí)踐性嘗試。今后的研究重點(diǎn)將著力于提高識(shí)別的準(zhǔn)確性、精確性以及勾畫(huà)完整性,并嘗試實(shí)現(xiàn)完整影像的輸入與輸出。