謝俊,張小詠,盧凱旋,陳正超
(1.北京信息科技大學 高動態(tài)導航技術北京市重點實驗室,北京 100101;2.中國科學院遙感與數(shù)字地球研究所,北京 100094)
當今社會,電力資源是推動國家發(fā)展的必需品。在我國,水電供應滿足全國五分之一的電力需求,它除了使用清潔水力資源來發(fā)電,在防汛抗旱方面也作用顯著。隨著社會發(fā)展,水電站的數(shù)量快速增加,建設水電站也會產生負面問題,特別是一些私人的違規(guī)建造易破壞生態(tài)環(huán)境和影響水源。因此,加強水電站的動態(tài)監(jiān)測,對水資源調度和環(huán)境監(jiān)管很有必要。衛(wèi)星遙感探測技術的發(fā)展,可以在短時間內對大范圍進行監(jiān)測,很好地解決了時間和空間問題,為水電站的監(jiān)測提供了可能。
深度學習技術作為人工神經網(wǎng)絡研究的產物,通過模擬人腦神經元工作機理,可以在特征多樣的復雜場景下訓練學習能力,組合低層特征形成更加抽象的高層特征,對背景復雜的對象具有較高的推理能力,與傳統(tǒng)的基于物理模型提取信息的技術比較,在效率和精度上具有明顯優(yōu)勢。深度學習在語音識別、自動駕駛和人臉識別等領域取得了大量創(chuàng)新和成功應用[1]。隨著大數(shù)據(jù)時代的到來,含有更多隱含層的深度卷積神經網(wǎng)絡[2](convolutional neural networks,CNNs)具有更復雜的網(wǎng)絡結構,與傳統(tǒng)機器學習方法相比具有更強大的特征學習和特征表達能力[3],是實現(xiàn)目標檢測的主流算法,而且檢測精度在某些方面已經超過人工識別。R-CNN(region-CNN)[4]是第一個基于卷積神經網(wǎng)絡的目標檢測方法,通過創(chuàng)建候選區(qū)域來實現(xiàn)目標分類,但該網(wǎng)絡創(chuàng)建的候選區(qū)域數(shù)量龐大,嚴重影響訓練速度。Fast R-CNN[5]、Faster R-CNN[6]和Mask R-CNN[7]在R-CNN的基礎上做出相關改進以適應不同目標的檢測,提高了檢測效果。但是這些基于創(chuàng)建候選區(qū)域的檢測算法,檢測效率會被巨大的計算量限制。YOLO(you only look once)[8]系列和SSD(singel shot multibox detector)[9]單階段目標檢測算法使用回歸思想直接定位目標,對區(qū)域內的目標回歸糾偏以準確獲取邊界,有效降低了計算量,提高了網(wǎng)絡的檢測速度。
研究人員受自然圖像在神經網(wǎng)絡中的應用啟發(fā),把遙感影像用于目標檢測研究,取得了很好的效果。如Li等[10]提出了一種提取特征時魯棒性強、檢測率高的去噪卷積神經網(wǎng)絡來實現(xiàn)遙感圖像中車輛的檢測;Zhang等[11]提出了一種基于耦合的弱監(jiān)督學習網(wǎng)絡對遙感圖像中的飛機進行檢測,在特定數(shù)據(jù)集精度可以達到82%;朱明明等[12]提出了調整區(qū)域候選框和改進損失函數(shù)的方法,實現(xiàn)了機場在遙感影像復雜背景下的檢測等。與以上目標不同,本文的研究對象是河流上的水電站,其遙感影像背景信息更加豐富且復雜,存在水體、橋梁和類似發(fā)電廠房建筑的干擾。同時,水電站的局部特征不完全一致,不同水電站的大壩長寬差距較大,大壩和發(fā)電廠房的建筑風格也不盡相同,這對水電站的提取帶來了一定的考驗。
基于深層卷積神經網(wǎng)絡可以很好地解決高空間分辨率遙感影像海量數(shù)據(jù)、復雜細節(jié)和尺度依賴等特點帶來的難點[13]。本文從遙感影像和水電站的特點出發(fā),提出的基于SSD目標檢測網(wǎng)絡的改進方法,實現(xiàn)了基于GF-2衛(wèi)星遙感圖像的水電站提取。本文的主要工作如下。
1)制作了一批國內的河流水電站數(shù)據(jù)集,將深度學習方法應用于河流水電站檢測領域,成功驗證了SSD模型提取遙感圖像中河流水電站目標的可行性。
2)在原始網(wǎng)絡前端Conv4_3進行上采樣插值,融合Conv3_3的特征圖后進行卷積,不僅保留了目標豐富的語義信息,還細化了目標的位置信息。
圖1 尺度多變的水電站
3)設計感受野大小不同的SSD檢測網(wǎng)絡,找出對目標訓練更友好的感受野模型。
4)使用性能較好的網(wǎng)絡模型,實現(xiàn)了研究區(qū)域的水電站目標檢測。
我國水能資源分布不均,東部地區(qū)水資源較為貧乏,西南地區(qū)水能資源最為豐富[14]。合理開發(fā)利用該地區(qū)的水電資源,不僅有利于改善我國的能源結構、實現(xiàn)資源優(yōu)化配置,還可以加強生態(tài)環(huán)境的保護。同時,在國家西部大開發(fā)戰(zhàn)略的號召下,西南水電建設是推動地區(qū)經濟發(fā)展和促進區(qū)域協(xié)調發(fā)展的重點項目。云貴川地區(qū)作為中國西南的核心區(qū)域,西電東送工程南線的主要地區(qū),水電站建設得到大力發(fā)展,故選取該地區(qū)作為水電站提取的研究區(qū)域。云貴川地區(qū)總面積為1.05×106km2,包含云南、貴州、四川三省。有效實現(xiàn)云貴川地區(qū)水電站的監(jiān)測對水力調度和環(huán)境保護具有重要意義。
本文采用的數(shù)據(jù)源為中國高分二號(GF-2)衛(wèi)星數(shù)據(jù)。GF-2衛(wèi)星是中國首顆全色分辨率優(yōu)于1 m的民用光學對地觀測衛(wèi)星,具有亞米級的空間分辨率、高輻射精度和高定位精度。其中,多光譜分辨率優(yōu)于4 m,成像幅寬是45 km。GF-2衛(wèi)星于2014年8月19日在太原衛(wèi)星發(fā)射中心由長四乙運轉火箭成功發(fā)射。
使用人工解譯的方法獲取全國水電站的點位,共獲得500個水電站的點位,其中云貴川地區(qū)有100個,非云貴川地區(qū)得到400個水電站點位??紤]到區(qū)域適應性,云貴川地區(qū)的水電站點位也在制作后放入訓練集,樣本制作主要參考以下因素。
1)水電站主要由溢流壩、發(fā)電廠房、船閘和攔污柵等組成,整體具有狹長的特征,具有水力發(fā)電功能的大壩是提取水電站的主要目標。根據(jù)水電站所處的背景,提取的干擾因素主要有:與大壩整體特征類似的水面橋梁或沿河公路、與發(fā)電廠房近似的建筑物、與水面顏色相近的田野等??紤]到水電站之間特征的一致性和差異性,選擇水電站的整體特征作為提取對象來標記樣本,使用最小外接矩形對水電站區(qū)域進行標記,防止區(qū)域周圍的多余特征產生干擾。
2)根據(jù)發(fā)電規(guī)模,水電站有大型、中型、小型之分,在局部特征中的體現(xiàn)是大壩的長度差異。如全國最大的三峽水電站壩長2 300 m,而一些小型水電站的壩長在100 m左右甚至更短。水電站尺度大小差別大,無法使用一個統(tǒng)一的標準進行切片制作,切片太小,大型水電站無法完整顯示,切片太大,小型水電站特征不明顯,在訓練和預測過程中GPU無法處理。為了使水電站樣本特征明顯、紋理清晰、能包含水電站的整體特征,人工提取了一批水電站點位,以點位為中心分別在空間分辨率為1 m和2 m的GF-2影像上剪切生成1 536像素×1 536像素的兩批樣本。
3)考慮到水電站樣本制作的復雜性和水電站之間特征的差異性,在人工解譯的水電站數(shù)量不多的情況下,易使模型的泛化性能變差,因此,利用多時相GF-2衛(wèi)星影像進行樣本標記以擴大訓練集數(shù)據(jù)。
綜合考慮以上因素,在人工解譯的500個水電站點位的基礎上,制得的原始樣本數(shù)量為:空間分辨率為1 m的樣本500張;空間分辨率為2 m的樣本由于部分目標分辨率太低舍棄后有420張。由于樣本數(shù)據(jù)不多,易影響模型泛化性能,在全國相同區(qū)域使用已有樣本訓練模型進行預測挑選,最后獲取1 m和2 m分辨率正樣本1 510張和1 220張,各拿出200張正樣本作為驗證集。
本文使用不同感受野的SSD深度學習網(wǎng)絡提取云貴川地區(qū)的水電站,提取流程如圖2所示。首先,使用GF-2衛(wèi)星影像制作訓練集和驗證集時,考慮到水電站空間大小差異,為使目標清晰、輪廓完整地呈現(xiàn)在樣本中,以提高水電站的檢測效果,分別制作了1 m和2 m分辨率的樣本;其次,改變SSD的前端網(wǎng)絡和感受野分別進行訓練,得到1 m和2 m分辨率下對應不同感受野的四組網(wǎng)絡模型,作為提取水電站的基礎檢測網(wǎng)絡;再次,對四組模型進行迭代訓練和優(yōu)化,評估模型性能;最后,在四組模型中選擇性能最優(yōu)的檢測網(wǎng)絡,提取云貴川地區(qū)的水電站,得到該地區(qū)的水電站數(shù)量和地理分布。
圖2 水電站提取流程
從零開始訓練一個網(wǎng)絡,不僅需要消耗大量的時間來調整參數(shù),而且由于缺少調參經驗,訓練出來的網(wǎng)絡精度無法保證。在眾多目標檢測模型中,SSD網(wǎng)絡具有以下優(yōu)勢:多尺度的特征圖可以兼顧檢測目標大小差異;多種寬高比的先驗框可以較準確地捕捉正樣本;數(shù)據(jù)增強模塊可以豐富樣本數(shù)據(jù),緩和小目標樣本造成的過擬合情況??紤]到遙感影像的顏色紋理等低層特征和普通圖像具有相似性,使用VGG16作為預訓練模型提取水電站的低層特征,同時節(jié)省了大量的前期摸索時間。本文修改后的SSD網(wǎng)絡結構(BRF-SSD)如圖3所示。
圖3 BRF-SSD模型結構圖
VGG16[15]作為一種提取低層特征的成熟網(wǎng)絡,是本文提取水電站特征的基礎網(wǎng)絡。VGG16網(wǎng)絡包含13個卷積層、3個全連接層和5個池化層,具有較深的網(wǎng)絡層次。卷積層主要用來提取目標特征,卷積核大小為3×3,卷積的步長為1,像素矩陣的擴充設為1,使輸出的特征圖像在尺寸上與輸入一致。池化層進行卷積運算以縮小特征圖的寬和高,進一步提取特征信息,池化核大小為2×2,步長為2。多層的卷積層進行卷積運算,其對應網(wǎng)絡層生成的特征圖像的分辨率不斷降低,特征圖像映射到輸入圖像的區(qū)域在不斷增大。原始的SSD網(wǎng)絡建立在截斷VGG16網(wǎng)絡Conv5_3的基礎上,額外添加了FC6-Conv11_2系列卷積層。本文網(wǎng)絡在截取VGG16網(wǎng)絡的基礎上,共得到Conv3_3、Conv7_2、Conv8_2、Conv9_2、Conv10_2共五個卷積層,在Conv4_3增大卷積步長以增大感受野,將經過Conv4_3的特征圖進行上采樣與進入Conv3_3的特征圖融合,對產生的不同尺度的特征圖提取特征,預測輸入圖像中是否存在目標。表1顯示了兩個基礎網(wǎng)絡中卷積層的感受野大小。
表1 兩種尺度感受野在卷積層中的大小
感受野本質上是網(wǎng)絡中的卷積層每次進行卷積運算時得到的特征圖像對輸入圖像某塊區(qū)域的一個映射[16]。感受野是深度卷積神經網(wǎng)絡提取輸入圖像特征信息過程中的一個重要因素。感受野大小不僅影響訓練時長,還會影響目標特征信息是否能被全面地提取。因此,合適大小的感受野可以較好解決水電站的尺度差異問題,提高水電站的檢測精度。
改變感受野之前,特征圖經過Conv4_3后進行上采樣插值,與進入Conv3_3的特征圖進行融合,再進入后續(xù)卷積層,以保留目標豐富的語義信息和精細化目標的位置信息。改變感受野大小,可以從以下情況進行討論。一是改變卷積核的大小,改變參與卷積運算的像素區(qū)域大小,從而改變網(wǎng)絡的感受野大小。然而卷積核大小根據(jù)以往的實驗摸索結果一般是固定的,改變卷積核大小涉及很多參數(shù)調整,缺乏實驗經驗設置的參數(shù)可能降低網(wǎng)絡的提取效果。二是改變卷積核移動的步長,使特征圖像在輸入圖像中的映射區(qū)域變化來改變感受野大小。表1是本文改變卷積步長后各卷積層對應的兩種尺度的感受野,是根據(jù)當前卷積層及前置每層卷積運算的卷積核大小、卷積步長以及輸入影像大小進行計算得出的。第三,對于一個檢測目標來說,要改變它在網(wǎng)絡中的感受野范圍,可以通過不同分辨率的輸入圖像來實現(xiàn)。同一個目標在大小一致但分辨率不同的圖像上占據(jù)的像素區(qū)域不同,在分辨率高的圖像中,目標占據(jù)的像素區(qū)域較大,反之,在分辨率低的圖像中占據(jù)的像素區(qū)域較小。同時,在分辨率相同的輸入圖像中,不同目標之間存在大小差異,若目標可以較好地被一個感受野包含,則網(wǎng)絡可以快速完整地捕獲目標。因此,本文根據(jù)第二種和第三種方法,設計了兩種不同大小感受野的SSD網(wǎng)絡,分別使用不同分辨率的樣本進行訓練,分析樣本目標大小和感受野大小的適應關系,以找到效果更好的檢測模型。
相同分辨率的網(wǎng)絡訓練共享正樣本和驗證集數(shù)據(jù),經過迭代訓練獲取最終的四組SSD檢測模型。在兩批不同分辨率的樣本中,空間分辨率為1 m的樣本能更好地體現(xiàn)小型水電站的特征信息,分辨率為2 m的樣本可以較好地提取大中型水電站的特征信息,同時避免1 m樣本無法完整包含目標的問題。
樣本數(shù)據(jù)進入網(wǎng)絡后,首先經過數(shù)據(jù)增強模塊,改變圖像的顏色、亮度和飽和度,或對圖像進行翻轉、隨機放大和縮小等操作;隨后將圖像重采樣至1 024×1 024×3大小,送進卷積網(wǎng)絡訓練,讓和卷積核大小一致的像素區(qū)域與卷積核進行計算,并提取該區(qū)域的圖像信息至特征圖像。特征圖像經過填充保持與輸入圖像的尺寸一致。特征圖像經過池化層的卷積運算進一步壓縮,得到特征信息更簡單明確的特征圖像與輸入圖像形成映射。SSD網(wǎng)絡對特征圖像中的每個元素按照一定的長寬比產生大量的預選框與輸入圖像中的真實值進行匹配,若匹配結果大于閾值0.5,則判定為正樣本,反之為負樣本,以此進行網(wǎng)絡的迭代訓練。
其中,網(wǎng)絡模型的一些參數(shù)設置如表2所示。batch_size是批處理參數(shù),與輸入圖像的大小和GPU的顯存容量有關,設置大小合適將提高內存利用率,此處設置為1。base_lr是學習率,其大小影響損失函數(shù)的變化速度,學習率越小,損失函數(shù)變化速度越慢,模型收斂時間越長,此處base_lr設置為0.000 1??捎柧毜姆趴s變量gamma系數(shù)設為0.1,動量參數(shù)momentum設為0.9,防止模型過擬合的權重衰減參數(shù)weight_decay設為0.000 5。
表2 網(wǎng)絡參數(shù)設置
訓練得到的檢測模型需要進行精度評估,這里采用的是傳統(tǒng)的目標檢測網(wǎng)絡的評價指標:精確度(precision)、召回率(recall)和F1分數(shù)(F1-score)。
精確度和召回率一般呈負相關,是評估模型預測準確程度的重要指標。F1是綜合權衡精確度和召回率的調和值,可以較全面地評估一個檢測模型。
水電站目標和橋梁目標在結構上具有一定的相似性。為了降低橋梁誤檢造成的干擾,本文從二者的遙感影像特征出發(fā)對網(wǎng)絡進行了改進。水電站建筑規(guī)模較大,包含發(fā)電廠房、攔水大壩、溢流壩、攔污柵、閘門等設施,在遙感影像上空間特征明顯,紋理特征豐富。與之對比,一同橫貫水域的橋梁包含多種結構體系,但大多由橋柱和橋臺組成,影像特征較簡單。但是,部分結構簡單的水電站與橋梁整體特征接近,如圖4所示,容易造成誤檢,特別是影像分辨率較低時,誤檢更高。
圖4 橋梁和水電站
因此,本文在原始SSD網(wǎng)絡的基礎上,在其網(wǎng)絡前端的特征圖經過Conv4_3后進行上采樣插值,與Conv3_3得到的特征圖進行融合,再進入后續(xù)卷積層,使網(wǎng)絡可以保留目標豐富的語義信息,提升了網(wǎng)絡對特征豐富的目標的學習能力,降低簡單相似特征帶來的干擾。為檢測改進網(wǎng)絡的性能,制作了一批包含水電站和橋梁兩類目標的樣本加以訓練,所得模型與原始網(wǎng)絡模型相比性能得到明顯提升,二者的精度曲線和召回率曲線如圖5所示。改進后的網(wǎng)絡可以較準確地區(qū)分出水電站和橋梁,進一步提高了檢測水電站的能力。圖6是改進網(wǎng)絡訓練得到的模型將置信度閾值調至0.7時在驗證集上的檢測結果。結果表明,初步改進后的網(wǎng)絡大大降低了網(wǎng)絡對橋梁的誤檢,保證了網(wǎng)絡對水電站的識別能力,為后期探索調整網(wǎng)絡的感受野適應不同分辨率樣本的訓練做好了準備。
圖5 不同置信度下的精度曲線和召回率曲線
圖6 橋梁和水電站的檢測結果
平均精度均值(mAP)可以從整體上反映精確度和召回率變化,是比較不同目標檢測模型的重要參考指標。從挖掘模型性能出發(fā),不計負樣本差距,訓練迭代40 000次后結束,得到四組SSD模型:1 mSSD(1 m樣本訓練的小感受野模型及1 m原始SSD模型)、1 mBRF-SSD(1 m樣本訓練的大感受野模型)、2 mSSD(2 m樣本訓練的小感受野模型及2 m原始SSD模型)、2 mBRF-SSD(2 m樣本訓練的大感受野模型)。各個檢測模型的mAP曲線如圖7所示。不同模型在訓練過程中mAP隨迭代次數(shù)發(fā)生變化,從結果看,1 m大感受野和小感受野的模型的準確度為82.3%、69.5%,2 m大感受野和小感受野的模型的準確度為73.5%、82.0%。綜合檢測結果可以驗證,水電站作為檢測目標,在1 m樣本中的尺度較大,增大感受野的1 m模型比原始1 m模型對水電站的特征把握要好,更能準確捕捉檢測目標;水電站在2 m樣本中的尺度較小,增大感受野的2 m模型比原始的2 m模型對水電站的特征提取效果要差,不能較準確地提取水電站的特征信息。總體上,1 m模型對目標的局部特征把握較好,適合提取小型和中型尺度目標;2 m模型對目標的整體特征把握較好,當目標尺度較大時,具有較好的檢測效果。
圖7 四種網(wǎng)絡訓練的mAP曲線
圖8 不同置信度閾值下的精度曲線、召回率曲線、F1分數(shù)曲線
根據(jù)模型性能,采用性能更好的1 mBRF-SSD和2 mSSD的檢測模型對云貴川地區(qū)進行水電站檢測。檢測數(shù)據(jù)為GF-2衛(wèi)星遙感影像,空間分辨率分別為1 m和2 m,切片大小為1 536像素×1 536像素。
在水電站的實際檢測中,優(yōu)先考慮水電站的召回率,將模型的置信度閾值設為0.5對云貴川地區(qū)進行檢測,得到的水電站提取結果如下:1 mBRF-SSD模型檢測出246座水電站,人工篩選發(fā)現(xiàn)誤判39座,檢測精度為84.1%;2 mSSD模型檢測出182座水電站,誤判33座,檢測精度為81.9%?;谶b感影像的水電站檢測結果如圖9所示,該網(wǎng)絡模型有效實現(xiàn)了對云貴川地區(qū)的水電站提取。
本文通過分析水電站的結構特征及其在遙感影像上提取的可靠性,改進網(wǎng)絡的前端結構,降低了與水電站具有相似性的橋梁的誤檢,同時改變原始SSD網(wǎng)絡的感受野大小,使用兩種分辨率的目標樣本進行訓練,構建了基于GF-2衛(wèi)星遙感影像的水電站目標檢測網(wǎng)絡,有效實現(xiàn)了云貴川地區(qū)河流水電站的檢測。檢測結果表明,適當增大感受野的1 m模型(1 mBRF-SSD)在云貴川地區(qū)的水電站的檢測工作中取得了很好的效果,檢測精度可以達到84.1%。根據(jù)水電站空間分布大小的差異性,本文提出的改變感受野大小的目標檢測方法對檢測大區(qū)域目標具有可行性。同時,該方法還可推廣至檢測大區(qū)域其他影響環(huán)境或有重要意義的地物目標,進一步提升對目標的監(jiān)測力度以及對環(huán)境的保護力度。
由于河流水電站特征的復雜性,除了降低一些相似性建筑的干擾之外,一些農村水電站的訓練集的制作難度大、樣本數(shù)量較少,會在一定程度上制約水電站目標檢測模型的精度。但是,水電站的特征豐富,大部分主體結構特征具有一致性,今后應主要圍繞農村水電站的局部特征進行網(wǎng)絡優(yōu)化,進一步提高大區(qū)域水電站的檢測精度。