摘要:
露天礦場是生產(chǎn)建設項目水土保持信息化監(jiān)管的重要對象,對其范圍的高效精準識別對于監(jiān)測非法違規(guī)開采行為,加強開采過程中的水土流失預防與治理具有重要意義?;赥ransformer深度學習模型提出了露天礦場的遙感影像智能識別方法,并在四川省宜賓市的露天礦場影像數(shù)據(jù)集上與常用的基于卷積神經(jīng)網(wǎng)絡的深度學習識別方法進行了實驗對比。結果表明:該方法對露天礦場范圍識別的精確率、召回率、F1-score和IoU指標分別達到91.25%,90.66%,90.95%和83.41%,能夠滿足水土保持遙感監(jiān)管的精確度要求;在識別精確度和識別效果上優(yōu)于對比方法,在運行效率上與對比方法保持在同一數(shù)量級,表現(xiàn)出較強的應用價值。該方法在大區(qū)域露天礦場范圍快速準確識別方面有推廣應用潛力。
關" 鍵" 詞:
水土保持; 遙感監(jiān)管; 露天礦場; 深度學習; Transformer模型; 語義分割; 宜賓市
中圖法分類號: TP753
文獻標志碼: A
DOI:10.16232/j.cnki.1001-4179.2024.07.008
收稿日期:
2023-11-27;接受日期:
2024-01-26
基金項目:
國家自然科學基金項目(41601298)
作者簡介:
陳佳晟,男,碩士研究生,研究方向為遙感影像智能解譯。E-mail:chenjs@whu.edu.cn
通信作者:
張" 彤,男,教授,博士,主要從事時空機器學習、遙感解譯研究。E-mail:zhangt@whu.edu.cn
Editorial Office of Yangtze River. This is an open access article under the CC BY-NC-ND 4.0 license.
文章編號:1001-4179(2024) 07-0059-06
引用本文:
陳佳晟,游翔,沈盛彧,等.
基于Transformer語義分割模型的露天礦場識別
[J].人民長江,2024,55(7):59-64.
0" 引 言
中國幅員遼闊、礦產(chǎn)資源豐富,露天礦場的大量開采,迅速帶動了地區(qū)經(jīng)濟的發(fā)展。然而,露天礦場開采破壞了原始地貌和植被,產(chǎn)生了大量廢石、廢渣等松散物質(zhì),如果施工不合理、水土保持措施不到位,在降水和地表徑流的作用下,將出現(xiàn)嚴重的水土流失,對生態(tài)環(huán)境造成不可逆轉的損害。2023年1月3日,中共中央辦公廳、國務院辦公廳印發(fā)《關于加強新時代水土保持工作的意見》[1],明確提出全面加強水土流失預防保護的要求,其中突出抓好水土流失源頭防控的部分就涉及礦產(chǎn)資源開發(fā)的實施過程;同時需要依法嚴格人為水土流失監(jiān)管,創(chuàng)新和完善監(jiān)管方式。因此,如何創(chuàng)新手段快速找開采的到露天礦場,特別是非法違規(guī)開采行為,準確勾繪露天礦場開采范圍,作為露天礦場監(jiān)測和執(zhí)法的依據(jù),是當前值得深入研究的問題。
早期的露天礦場監(jiān)管往往采用人工實地調(diào)查的方式,費時費力[2]。近年來隨著遙感對地觀測技術的快速發(fā)展,基于高空間分辨率遙感影像的信息提取解譯為高效開展資源調(diào)查[3]、水土保持監(jiān)管[4]、糧食安全預警[5]等任務提供了可能。但傳統(tǒng)的遙感影像解譯主要依靠人工目視判讀[6],無法勝任時間緊、范圍大、準確度要求高的影像數(shù)據(jù)解譯工作。隨著人工智能技術的發(fā)展,機器學習和深度學習技術近年來也被廣泛應用于遙感影像中礦場的自動化解譯[7]。常用的機器學習方法包括支持向量機[8]、決策樹[9]、最大似然法[10]等。這類機器學習方法雖然節(jié)約了一定人力資源,但在解譯的精確度、泛化性上都存在較大的提升空間。隨著深度學習在圖像識別領域取得的成功[11-12],基于卷積神經(jīng)網(wǎng)絡(Convolutional Neural Network,CNN)的露天礦場識別技術受到了更多的關注:程國軒等[13]對簡單的CNN-F[14]網(wǎng)絡進行遷移學習提高了露天采礦場的識別效率;Balaniuk[15]、張成業(yè)[16-17]等驗證了將全卷積神經(jīng)網(wǎng)絡、U-Net、DeepLabV3+[18]等經(jīng)典CNN網(wǎng)絡應用于尾礦庫、露天煤礦區(qū)范圍智能識別的可行性;劉培等[19]在目標檢測網(wǎng)絡基礎上對尾礦庫結構進行語義分割,實現(xiàn)了高效的潰壩風險評估。
這些基于CNN的深度學習方法能夠有效提取遙感影像中的深層抽象特征,提高了露天礦場等地物的自動化識別效果。但受限于卷積神經(jīng)網(wǎng)絡的計算機制,這些方法缺少對長距離依賴信息的捕捉能力,而Transformer模型的注意力機制可以充分挖掘影像的全局上下文信息,因此在影像解譯的精確度上領先于基于CNN的深度學習方法[20]。對于露天煤礦范圍的識別,基于Transformer模型的深度學習方法也取得了良好的識別效果[21],但由于目前相關的研究仍然較少,且研究的數(shù)據(jù)量偏小,方法的魯棒性仍有待更充分的驗證。
為了進一步提高露天礦場開采項目自動化識別的精確度和效率,為其開采過程中的水土流失監(jiān)管和執(zhí)法提供數(shù)據(jù)支撐,本文基于谷歌地球(Google Earth Pro)遙感影像制作了四川省宜賓市的露天礦場影像數(shù)據(jù)集和標簽數(shù)據(jù),設計了基于Transformer深度學習模型的露天礦場語義分割識別方法,并與常用的基于卷積神經(jīng)網(wǎng)絡的深度學習方法展開了對比實驗。
1" 研究區(qū)域與數(shù)據(jù)源
研究區(qū)域為四川省宜賓市,地跨北緯27°50′~29°16′,東經(jīng)103°36′~105°20′,處于川、滇、黔三省結合部,金沙江、岷江、長江三江交匯處,如圖1所示。研究區(qū)包含3個市轄區(qū)和7個縣、總面積約13 283 km2,屬于亞熱帶濕潤季風氣候區(qū),雨量充沛,氣候溫和,礦產(chǎn)資源豐富,其中煤炭、硫鐵礦、石灰石等礦產(chǎn)的保有儲量均居四川省前列[22]。宜賓市的露天礦場開采項目數(shù)量較多,分布較為密集,在生產(chǎn)建設過程中未批先建、未批先棄等違法違規(guī)行為的隱患較大,有較高的人為水土流失風險。
本文所使用的數(shù)據(jù)為谷歌地球遙感影像,包括多種數(shù)據(jù)來源,如WorldView、QuickBird、LandSat、Spot等多種衛(wèi)星影像和航拍影像[23]。
2 "研究方法
本文總體技術流程如圖2所示,主要包括數(shù)據(jù)獲取與預處理、模型訓練與露天礦場識別、不同方法的識別結果評估3個部分。
2.1" 露天礦場數(shù)據(jù)集構建
數(shù)據(jù)集由谷歌地球中不同傳感器獲取的影像進行樣本采集而得,影像空間分辨率約0.6 m,其中訓練數(shù)據(jù)影像362張,露天礦場與非露天礦場影像各181張,測試數(shù)據(jù)影像100張,露天礦場與非露天礦場影像各50張。露天礦場范圍標簽參考了多年四川省生產(chǎn)建設項目水土保持遙感監(jiān)管成果數(shù)據(jù),由經(jīng)驗豐富的水土保持作業(yè)人員目視解譯并結合現(xiàn)場實地復核而來,使用labelme軟件[24]進行標注,主要為石灰石礦、采石場等露天非金屬礦場。露天礦場范圍標注樣本示例如圖3所示,紅色框線內(nèi)為露天礦場區(qū)域,影像右下角為標注結果的二值化柵格圖。為了擴充數(shù)據(jù)量以提升模型學習效率,本文對數(shù)據(jù)集進行在線的隨機縮放、裁剪、翻轉等數(shù)據(jù)增強處理。
2.2" 露天礦場范圍識別方法
本文使用基于Transformer架構的語義分割模型SegFormer網(wǎng)絡[25],其特點是簡單、高效且具有較強的像素識別魯棒性。SegFormer的網(wǎng)絡結構如圖4所示,包括編碼器和解碼器部分。對于輸入尺寸為H×W×3的露天礦影像,首先將其分割為4×4的圖像塊,使用Transformer編碼器提取圖像塊不同分辨率
的多級特征,其中包括高分辨率的礦區(qū)紋理等粗糙特
征和礦區(qū)邊緣等低分辨率的細致特征。將這些特征傳遞給由多個多層感知機(Multilayer Perceptron,MLP)組成的解碼器中進行上采樣與融合,最終得到露天礦場范圍的識別結果。
編碼器部分提取了影像中的分層特征表示,類似于CNN的多級特征,隨著分辨率的降低特征表示的粒度逐漸變細,綜合多級特征可以提供更加豐富的語義分割識別信息。其核心為Transformer模塊,包括高效自注意力層、混合前饋網(wǎng)絡層和重疊塊合并3個部分。首先通過高效的自注意力層以較低的計算復雜度求得特征圖中任意兩個位置像素的全局依賴關系,從而學習得到圖像中的關注點信息。接著輸入一個混合了3×3卷積和MLP層的混合前饋網(wǎng)絡,以為Transformer提供圖像塊的位置信息。切割的小圖像塊經(jīng)過多次的自注意力層和混合前饋網(wǎng)絡完成基于Transformer的信息編碼。為了更好地表示圖像塊周圍的局部連續(xù)性,保證完整的露天礦場識別效果,使用重疊塊合并的方式保持多個圖像塊鄰近范圍的信息。經(jīng)過多層Transformer模塊特征圖編碼,其分辨率逐漸變小,得到多級分層的影像特征表示。
解碼器僅由輕量的MLP層組成,用于融合提取的多級特征表示,以獲得露天礦場分割掩碼。其解碼過程主要包括4個步驟:首先在混合Transformer編碼器中編碼的特征通過一個MLP層統(tǒng)一通道維度,其次特征圖被上采樣到1/4大小并進行拼接,接著使用一個MLP層融合拼接后的特征,其輸出再通過最后的MLP層預測得到最終的識別掩碼。
遷移學習為深度學習模型解決過擬合現(xiàn)象的常用策略[26],其過程為先基于大型數(shù)據(jù)集對模型進行預訓練,提高模型對不同數(shù)據(jù)的識別魯棒性,再通過對目標數(shù)據(jù)集的訓練學習進行網(wǎng)絡權重的微調(diào),以提高模型學習的效率。本文的SegFormer模型網(wǎng)絡權重經(jīng)過ADE20K數(shù)據(jù)集[27]的遷移學習預訓練。
2.3" 用于對比實驗的基線方法
為了更好地評估基于Transformer深度學習方法的露天礦場識別效果,本文使用在深度學習語義分割中常用的基于卷積神經(jīng)網(wǎng)絡(CNN)的方法進行精度對比實驗,包括U-Net[11]、DeepLabV3+[18]、PSPNet[28]、FastSCNN[29]。這些方法的網(wǎng)絡權重都經(jīng)過公開大型數(shù)據(jù)集的遷移學習預訓練。
3" 實驗與結果分析
3.1" 實驗設置與評估指標
本次研究的實驗硬件環(huán)境為Intel(R) i9-10900F (2.80GHz) CPU和NVIDIA GeForce RTX 2080Ti GPU,運行內(nèi)存為32 G。所有代碼是在Microsoft Windows 10操作系統(tǒng)上基于OpenMMLab深度學習框架使用PyTorch實現(xiàn)的,所用的Python版本為3.8。實驗過程為先在露天礦場訓練數(shù)據(jù)集上進行學習,輸入的遙感影像尺寸為512×512像素,模型訓練的批處理大小為4張,訓練過程迭代8 000輪次達到模型收斂,之后輸入露天礦場測試數(shù)據(jù)集對模型識別精度進行驗證。
本文使用精確率(Precision)、召回率(Recall)、F1-score和IoU這4個語義分割評估指標對實驗結果進行定量精度評價。其中精確率表示正確識別為露天礦場的像素數(shù)占所有被識別為露天礦場像素的比例,召回率表示正確識別為露天礦場的像素數(shù)占所有露天礦場像素數(shù)的比例,F(xiàn)1-score為精確率和召回率的調(diào)和平均數(shù),IoU表示正確識別為露天礦場的像素數(shù)占預測的露天礦場像素和真實的露天礦場像素并集的比例。
它們的計算公式分別為
Precision=TPFP+TP(1)
Recall=TPFN+TP(2)
F1-score=2×P×RP+R(3)
IoU=TPTP+FP+FN(4)
式中:TP,F(xiàn)P,TN,F(xiàn)N分別為預測正確的正樣本數(shù)、預測錯誤的正樣本數(shù)、預測正確的負樣本數(shù)和預測錯誤的負樣本數(shù)。
3.2" 精度比較
本文基于Transformer深度學習方法的露天礦場識別結果與U-Net、DeepLabV3+、PSPNet、FastSCNN等基于CNN方法的對比示例如圖5所示,半透明紅色區(qū)域為識別得到的結果??梢姳疚姆椒ㄌ崛〉穆短斓V場范圍與參考真實范圍最為接近且完整程度最高。各
類基線方法中U-Net和DeepLabV3+能大致識別出
露天礦場區(qū)域范圍,但破碎斑塊較多且準確度不夠高。PSPNet和FastSCNN方法對范圍的識別較為完整,但也容易造成大面積的誤判或缺漏,尤其難以區(qū)分露天礦場周圍色彩和紋理較為接近的農(nóng)田;而對于被道路等間隔為多個區(qū)域的露天礦場很容易產(chǎn)生漏判,往往只識別出部分看似完整的區(qū)域,缺少對影像全局信息的理解。
露天礦場識別精度定量評估結果如表1所列,其中U-Net方法提取的精度最低,其次是FastSCNN方法,DeepLabV3+和PSPNet方法均有不錯的語義分割精度,而本文方法在4個精度指標上均為最優(yōu),其中IoU指標達到了83.41%,露天礦場范圍識別的效果最好。
3.3" 運行效率比較
為了從效率方面評估本文方法識別效果,驗證其實際應用的可行性,本文對不同方法識別露天礦場的運行時間進行了統(tǒng)計。設定所有方法在相同的計算機環(huán)境下運行相同的數(shù)據(jù)量,即測試數(shù)據(jù)集中的100張影像,得到的運行效率對比如表2所示??梢姼黝惙椒▽y試數(shù)據(jù)集的運行時間都在10 s以內(nèi),處于同一數(shù)量級。其中,DeepLabV3+方法用時最長,而FastSCNN方法以其高度輕量化的網(wǎng)絡結構實現(xiàn)了最短的運行用時。本文方法用時上略遜于FastSCNN方法和U-Net方法,但識別精度遠優(yōu)于這兩種方法。綜上所述,本文方法在精度最優(yōu)的前提下,也有著不錯的運行效率,綜合性能最優(yōu),能夠較好地滿足露天礦場自動化高效識別的需求。
4" 結論與展望
本文針對露天礦場開采的水土流失遙感監(jiān)管需求,提出了基于Transformer深度學習模型的露天礦場范圍智能識別方法。主要結論包括:
(1) 本文應用基于Transformer的深度學習模型和高分遙感影像對露天礦場范圍進行智能識別,對四川省宜賓市露天礦場數(shù)據(jù)集的識別IoU精度達到83.41%,能夠滿足水土保持遙感監(jiān)管的精確度需求。
(2) 本文方法在露天采礦場的識別精確度和識別效果上,優(yōu)于U-Net、DeepLabV3+等傳統(tǒng)的基于卷積神經(jīng)網(wǎng)絡的方法。
(3) 本文方法在露天礦場識別的計算機運行時間上與常用方法在同一數(shù)量級,且有著不錯的運行效率,能夠實現(xiàn)自動化、高效的露天礦場范圍遙感解譯。
綜上所述,本文方法對于露天礦場的遙感識別有較為出色的綜合表現(xiàn),疊加對不同時相遙感影像的識別和對比分析,有望推廣應用于更大區(qū)域的露天礦場范圍變化的遙感監(jiān)管中。但同時,由于本文所采集露天礦場影像數(shù)據(jù)集的規(guī)模和種類有限(以宜賓市數(shù)量較多的石灰石礦等露天非金屬礦場為主),對于影像特征差異較大的露天礦場如金、銅礦等的識別仍需要拓展相應的樣本庫。本文方法也可類比應用于機場工程、火電工程等水土保持監(jiān)管對象,對于生產(chǎn)建設項目水土保持信息化監(jiān)管有較大的推廣應用潛力。
致" 謝
本論文的數(shù)值計算得到了武漢大學超級計算中心的計算支持和幫助。
參考文獻:
[1]" 中華人民共和國生態(tài)環(huán)境部.中共中央辦公廳 國務院辦公廳印發(fā)《關于加強新時代水土保持工作的意見》[EB/OL].(2023-01-03)[2023-11-18].https:∥www.mee.gov.cn/zcwj/zyygwj/202301/t20230103_1009406.shtml.
[2]" 於永東,林國利,陳炳富,等.GNSS技術在尾礦庫壩體變形監(jiān)測中的應用[J].測繪通報,2014(增1):60-62.
[3]" 康雄華,田一帆,張毅.高分六號影像在自然資源調(diào)查中的應用研究[J].地理空間信息,2023,21(4):54-61.
[4]" 李樂,時宇.生產(chǎn)建設項目水土保持遙感解譯與判別技術實踐及思考[J].中國水土保持,2022(1):31-34,7.
[5]" 王玉璽,史航,郭珊.基于多源衛(wèi)星遙感的全國冬小麥墑情及長勢監(jiān)測分析[J].江蘇科技信息,2023,40(18):66-70.
[6]" 李鎮(zhèn),張巖,楊松,等.QuickBird影像目視解譯法提取切溝形態(tài) 參數(shù)的精度分析[J].農(nóng)業(yè)工程學報,2014,30(20):179-186.
[7]" 胡乃勛,陳濤,甄娜,等.基于卷積神經(jīng)網(wǎng)絡的面向對象露天采場提取[J].遙感技術與應用,2021,36(2):265-274.
[8]" 王立廷.支持向量機結合面向對象提取尾礦庫的應用研究[D].北京:中國地質(zhì)大學(北京),2018.
[9]" 于海若,燕琴,董春,等.基于決策樹分類的大屯礦區(qū)地物信息提取及礦區(qū)污染分析[J].測繪與空間地理信息,2016,39(4):67-69,72.
[10]胡一鴻.衛(wèi)星遙感影像在稀土礦山動態(tài)監(jiān)測研究[J].福建地質(zhì),2018,37(1):44-50.
[11]RONNEBERGER O,F(xiàn)ISCHER P,BROX T.U-net:convolutional networks for biomedical image segmentation[C]∥ Medical Image Computing and Computer-Assisted Intervention-MICCAI 2015:18th International Conference,Munich,Germany,October 5-9,2015,Proceedings,Part III 18.Munich:Springer International Publishing,2015:234-241.
[12]HE K,ZHANG X,REN S,et al.Deep residual learning for image recognition[C]∥Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition.IEEE,2016:770-778.
[13]程國軒,牛瑞卿,張凱翔,等.基于卷積神經(jīng)網(wǎng)絡的高分遙感影像露天采礦場識別[J].地球科學,2018,43(增2):256-262.
[14]CHATFIELD K,SIMONYAN K,VEDALDI A,et al.Return of the devil in the details:delving deep into convolutional nets[C]∥ Proceedings of the British Machine Vision Conference 2014.London:The British Machine Vision Association,2014.
[15]BALANIUK R,ISUPOVA O,REECE S.Mining and tailings dam detection in satellite imagery using deep learning[J].Sensors,2020,20(23):6936.
[16]張成業(yè),李飛躍,李軍,等.基于DeepLabv3+與GF-2高分辨率影像的露天煤礦區(qū)土地利用分類[J].煤田地質(zhì)與勘探,2022,50(6):94-103.
[17]張成業(yè),邢江河,李軍,等.基于U-Net網(wǎng)絡和GF-6影像的尾礦庫空間范圍識別[J].自然資源遙感,2021,33(4):252-257.
[18]CHEN L C,ZHU Y,PAPANDREOU G,et al.Encoder-decoder with atrous separable convolution for semantic image segmentation[C]∥ Proceedings of the European Conference on Computer Vision (ECCV).ECCV,2018:801-818.
[19]劉培,谷燦,李慶亭,等.深度語義分割支撐下的尾礦庫風險檢測[J].遙感學報,2021,25(7):1460-1472.
[20]DOSOVITSKIY A,BEYER L,KOLESNIKOV A,et al.An image is worth 16x16 words:Transformers for image recognition at scale[C]∥ International Conference on Learning Representations,2020.
[21]田偉學.基于Transformer的目標檢測和語義分割模型在煤礦遙感影像的應用[D].北京:中國礦業(yè)大學,2023.
[22]宜賓市地方志辦公室.宜賓概況[EB/OL].(2019-02-19)[2023-11-18].http:∥dfz.yibin.gov.cn/ybdq/ybfw/2018 12/t 20181225_30b150.html.
[23]MADARASINGHE S K,YAPA K,JAYATISSA L P.Google Earth imagery coupled with on-screen digitization for urban land use mapping:case study of Hambantota,Sri Lanka[J].National Science Foundation of Sri Lanka,2020,48(4):357-366.
[24]TORRALBA A,RUSSELL B C,YUEN J.LabelMe:online image annotation and applications [J].Proceedings of the IEEE,2010,98(8):1467-1484.
[25]XIE E,WANG W,YU Z,et al.SegFormer:simple and efficient design for semantic segmentation with transformers[J].Advances in Neural Information Processing Systems,2021,34:12077-12090.
[26]PAN S J,YANG Q.A Survey on Transfer Learning[J].IEEE Trans actions on Knowledge and Data Engineering,2010,22(10):1345-1359.
[27]ZHOU B,ZHAO H,PUIG X,et al.Scene parsing through ade20k dataset[C]∥Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition.IEEE,2017:633-641.
[28]ZHAO H,SHI J,QI X,et al.Pyramid scene parsing network[C]∥ Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition.IEEE,2017:2881-2890.
[29]POUDEL R P K,LIWICKI S,CIPOLLA R.Fast-scnn:fast semantic segmentation network[C]∥ Proceedings of the British Machine Vision Conference 2019.Munich:Springer International Publishing,2019.
(編輯:黃文晉)
Open-pit mine recognition based on Transformer model
CHEN Jiasheng1,YOU Xiang2,SHEN Shengyu3,LIAO Zikai2,ZHANG Tong1
(1.State Key Laboratory of Information Engineering in Surveying,Mapping and Remote Sensing,Wuhan University,Wuhan 430079,China;" 2.Sichuan Water and Soil Conservation Ecological Environment Monitoring Station,Chengdu 610074,China;" 3.Institute of Soil and Water Conservation,Changjiang River Scientific Research Institute,Wuhan 430010,China)
Abstract:
Open-pit mine is an important object of water and soil conservation information supervision in production and construction projects.The efficient and accurate identification of its scope is of great significance for monitoring illegal mining behaviors and strengthening the prevention and control of soil and water loss in the mining process.We introduced an intelligent recognition method utilizing a Transformer-based deep learning model for analyzing remote sensing images of open-pit mining areas.Comparative experiments were conducted on the open-pit mine dataset in Yibin City,Sichuan Province,using widely adopted deep learning recognition methods based on convolutional neural networks.The results indicated that the reveal precision,recall,F(xiàn)1-score,and IoU values of this method for identifying the scope of open-pit mines were 91.25%,90.66%,90.95% and 83.41%,respectively,which can meet the accuracy requirements of remote sensing supervision for water and soil conservation.Additionally,the efficiency and accuracy of our method remained superior to the contrasted methods while it shows equivalent running efficiency,indicating significant practical utility.The method introduced in this paper holds substantial potential for widespread application,enabling swift and accurate recognition of open-pit mines across extensive regions.
Key words:
water and soil conservation; remote sensing supervision; open-pit mine; deep learning; Transformer model; semantic segmentation; Yibin City