杜康寧 鄧云凱 王 宇 李 寧
(中國科學院電子學研究所 北京 100190)
基于多層神經(jīng)網(wǎng)絡的中分辨SAR圖像時間序列建筑區(qū)域提取
杜康寧 鄧云凱 王 宇 李 寧*
(中國科學院電子學研究所 北京 100190)
為提高合成孔徑雷達(Synthetic Aperture Radar, SAR)圖像時間序列建筑區(qū)域提取的準確率和穩(wěn)定性,該文結(jié)合時間序列圖像的特點,提出了一種基于多層神經(jīng)網(wǎng)絡的建筑提取方法。該方法使用單幅SAR圖像進行樣本的粗略標記,并從經(jīng)過直方圖規(guī)定化處理后的時間序列圖像中獲得大量樣本。通過單幅SAR圖像生成的少量樣本確定網(wǎng)絡的深度,并從時間序列生成的樣本中篩選出具有更高質(zhì)量的樣本作為最終模型的訓練樣本。利用數(shù)量大且質(zhì)量高的訓練樣本學習得到模型參數(shù)。使用包含38幅25 m分辨率ENVISAT ASAR圖像的數(shù)據(jù)集進行兩組對比實驗,實驗結(jié)果中該文方法的最低準確率和最低Kappa系數(shù)分別90.2%和0.725,均高于其它3種傳統(tǒng)方法,算法的穩(wěn)定性以及準確率都有顯著提高。此外,該方法還具有人工操作少、推廣性強、訓練高效等優(yōu)點。
多層神經(jīng)網(wǎng)絡;合成孔徑雷達;時間序列;建筑提取
引用格式:杜康寧, 鄧云凱, 王宇, 等.基于多層神經(jīng)網(wǎng)絡的中分辨SAR圖像時間序列建筑區(qū)域提?。跩].雷達學報,2016, 5(4): 410-418.DOI: 10.12000/JR16060.
Reference format: Du Kangning, Deng Yunkai, Wang Yu, et al..Medium resolution SAR image time-series built-up area extraction based on multilayer neural network[J].Journal of Radars, 2016, 5(4): 410-418.DOI: 10.12000/JR16060.
合成孔徑雷達(Synthetic Aperture Radar,SAR)由于其對地物的散射特性的特殊表征常用于目標識別[1-13]。由于星載SAR具有重訪周期短、全天時、全天候和寬測繪帶的特點,成為了連續(xù)觀測大城市建設(shè)發(fā)展的重要手段之一。綜合考慮計算量、檢測精度以及覆蓋面積等因素,中分辨率(10 m 到30 m)SAR圖像比高分辨率和低分辨率圖像更適合大城市的長期監(jiān)測[3]。SAR圖像時間序列對建筑提取的一個主要的難點在于如何保證每幅圖像均獲得高精度的提取結(jié)果,而高精度、高穩(wěn)定性也是進行長時間變化監(jiān)測的基本要求[4]。
目前,研究人員提出了大量SAR圖像的目標識別方法[1-13],如馬爾科夫隨機場(Markov Random Fields, MRF)[5]、稀疏表示[6]、小波變換(Wavelet Transform, WT)[7,8]、灰度共生矩陣(Gray-Level Cooccurrence Matrix, GLCM)[8]等。這些方法嚴重依賴于特征的質(zhì)量,而深度學習的方法弱化了手工設(shè)計特征的重要性,為目標識別提供了另一種有效手段[8-12]。深度學習的研究熱潮起于2006年,Hinton et al.首次成功訓練了深度信念網(wǎng)(Deep Belief Network, DBN)[9],該方法能從訓練數(shù)據(jù)中學習到抽象概念[10]。隨后的2010年,Mnih et al.為從光學遙感圖像中提取道路信息訓練了限制玻爾茲曼機(Restricted Boltzmann Machine, RBM)模型,并在提取精度上遠遠超過當時先進的算法[11]。近年來,深度學習算法在SAR圖像領(lǐng)域也逐漸得到應用,并取得了很好的結(jié)果[8,12,13]。但并沒有文獻研究如何結(jié)合SAR圖像時間序列的特點將深度學習算法用于建筑區(qū)域的提取。
對于時間序列圖像的建筑提取任務,通常有如下3類模型訓練方法:
(Ⅰ) 使用單幅圖像生成的樣本訓練模型,并用該模型對整個時間序列進行預測。
(Ⅱ) 使用每幅圖像生成的樣本各訓練一個模型,并用該模型預測對應的圖像。
(Ⅲ) 使用所有圖像生成的樣本訓練一個模型,并用該模型對整個時間序列進行預測。
針對SAR圖像時間序列建筑提取高準確率與高穩(wěn)定性的要求,本文提出了一種基于多層神經(jīng)網(wǎng)絡(一種典型的深度學習結(jié)構(gòu))的建筑提取方法。該方法采用第Ⅲ類時間序列訓練方法,并結(jié)合SAR圖像的特點做出了方法上的改進。本文的第2節(jié)對提出的方法進行了具體描述,大致有如下3個步驟:(1)利用SAR圖像時間序列空間信息的一致性,采用粗略手動標記單幅圖像和直方圖匹配獲得大量訓練樣本;(2)利用時間序列信息的冗余性,通過對單幅圖像獲得樣本的訓練確定模型深度并從時間序列中篩選出質(zhì)量高且數(shù)量大的訓練樣本;(3)利用時間序列信息的互補性,使用由時間序列生成的大量訓練樣本獲得有效的多層神經(jīng)網(wǎng)絡模型。在第3節(jié),通過對比實驗分析了本文提出的方法與傳統(tǒng)模型訓練方法在提取性能上的提升。
本文提出的建筑區(qū)域提取方法如圖1所示,下面將分4個小節(jié)詳細介紹。
圖1 提出的建筑區(qū)域提取流程圖Fig.1 Proposed built-up area detection scheme
2.1 預處理
由于地物的散射特性會隨著時間存在一定的變化[14]、SAR傳感器本身存在的不穩(wěn)定性和SAR圖像對入射角與方位角敏感等原因,圖像間的整體亮度和紋理會存在差異。因而不同圖像間獲得的分類準確率會有不同。假設(shè)時間序列SAR圖像已配準,即相同目標在不同圖像中具有相同位置。利用時間序列SAR圖像空間上的一致性可去除圖像間強度的整體差異,并減少樣本標記的工作量。利用建筑區(qū)域在時間上緩慢變化的特性,將代表研究時間段中間狀態(tài)時間點的圖像選作參考圖像。
(1) 直方圖規(guī)定化。在城市中心附近選擇一塊地物隨時間變化相對穩(wěn)定的區(qū)域作為參考區(qū)域,如圖2(b)藍色方框所示。將參考圖像在該區(qū)域的直方圖作為參考直方圖。以時間序列中每幅圖像在參考區(qū)域的直方圖各自作為一個輸入,參考直方圖作為輸出,計算每個輸入到輸出的映射函數(shù)。將每個映射函數(shù)應用于對應的整幅圖像上,以獲得強度統(tǒng)一的時間序列圖像。以上直方圖規(guī)定化的詳細實現(xiàn)方式可參考文獻[15]。該方法使時間序列在穩(wěn)定的城市區(qū)域具有一致的強度特性,消除了不同圖像間的整體差異,降低提取任務難度。
(2) 樣本標記。在參考圖像中,將一部分總體類別相同且分布集中的區(qū)域手動標記成建筑區(qū)域(正樣本)和非建筑區(qū)域(負樣本),如圖2(c)所示。該標記過程為粗略標記,后續(xù)將介紹如何提升標簽的準確程度。將從參考圖像得到的標簽作為整個時間序列的標簽,用于生成樣本。由于僅對參考圖像進行標記且精度要求不高,所以僅需要少量的人工操作。
(3) 樣本生成。由于本文使用中分辨率圖像,因而較小尺寸的圖像樣本就能辨別該區(qū)域是建筑或非建筑。利用樣本標記獲得的標簽,以滑窗的方法從直方圖規(guī)定化處理后的每幅圖像中生成大量帶有標簽的樣本。從參考圖像生成的樣本中隨機抽取等量正負樣本構(gòu)成集合R,將整個時間序列每幅圖像單獨生成的樣本共同構(gòu)成集合S。利用樣本集R用于模型深度的確定(具體訓練方法見2.2小節(jié)),在確定模型深度過程中會獲得一個有效模型MR。我們首先利用MR對S中的樣本進行預測,并從預測結(jié)果與手動標簽一致的樣本中隨機篩選出等量的正負樣本作為集合T,然后利用新生成的樣本集T重新對模型MR的網(wǎng)絡結(jié)構(gòu)進行訓練得到最終的模型MT。
圖2 數(shù)據(jù)集Fig.2 Dataset
2.2 模型結(jié)構(gòu)
本文采用的多層神經(jīng)網(wǎng)絡結(jié)構(gòu)如圖3所示。該結(jié)構(gòu)通過引入批量歸一化[16]、修正線性單元(Rectified Linear Unit, ReLU)激活函數(shù)[17]、Dropout[18]等現(xiàn)代深度學習技術(shù)以提高模型訓練速度及對超參數(shù)的魯棒性[10]。下面是本文的網(wǎng)絡結(jié)構(gòu)說明和參數(shù)設(shè)置原理:
(1) 批量歸一化:批量歸一化處理單元通過將每個批量訓練樣本的均值和方差都調(diào)整到0和1以達到加速模型訓練的目的[16]。本文將批量歸一化處理單元設(shè)置在輸入層和每一個隱藏層的激活函數(shù)之后。
(2) Dropout:該技術(shù)通過在訓練階段隨機將部分節(jié)點的輸出置零,以防止模型過擬合[18]。由于批量歸一化的引入,模型對Dropout的參數(shù)并不十分敏感,通常建議設(shè)定較小的置零率[18]。在本文將Dropout設(shè)置在每個隱藏層,并將參數(shù)設(shè)定為20%,即每次參數(shù)更新時隨機將20%的輸出置零。
(3) 激活函數(shù):由于ReLU: a=max(0, x)具有稀疏性和易于訓練的特點[17],本文將其作為每個隱藏層的激活函數(shù)。使用Sigmoid函數(shù):a=1/(1+e-x)作為輸出層激活函數(shù)。
圖3 本文使用的網(wǎng)絡結(jié)構(gòu)。綠色圓圈表示網(wǎng)絡結(jié)點;圓圈中的1表示偏置節(jié)點;輸入層的x1到xn表示第1到第n個輸入特征;箭頭表示網(wǎng)絡的權(quán)重;圓圈中的折線表示ReLU激活函數(shù),光滑曲線表示Sigmoid激活函數(shù),×表示訓練過程中的Dropout單元Fig.3 The network architecture used by this paper.Green circle represent node; ‘1' in the circle represent bias unit; x1to xnrepresent the 1-st and n-th input feature; arrows represent network weights; fold line in the circle represents ReLU activation function, smooth curve in the circle represents Sigmoid activation function, ×represents Dropout unit
(5) 輸入層和輸出層節(jié)點數(shù):首先將樣本映射成n維向量作為模型輸入,輸入層節(jié)點數(shù)即為n。區(qū)分建筑區(qū)域與非建筑區(qū)域是二分類問題,因而將輸出層節(jié)點數(shù)設(shè)為1。
(6) 隱藏層寬度和深度:隱藏層寬度和深度是控制模型容量和泛化能力的重要超參數(shù)。由于超參數(shù)需花費較多時間調(diào)優(yōu),較少的超參數(shù)更利于將該方法快速地應用到不同的數(shù)據(jù)中。因此,本文將每個隱藏層寬度作為由輸入層節(jié)點數(shù)確定的常量,而將深度作為變量。為了兼顧計算效率和模型容量,隱藏層寬度需要滿足兩個限制:是2的指數(shù)且接近輸入層節(jié)點數(shù)。由于數(shù)據(jù)經(jīng)過直方圖規(guī)定化處理,時間序列的差異性已經(jīng)減小,提取任務的難度也隨之降低,因而本文使用單幅圖像生成的樣本R來確定隱藏層的深度。首先,將隱藏層深度設(shè)置為1,使用R訓練模型,在訓練結(jié)束后記錄該模型在R的準確率;然后,逐次增加隱藏層數(shù)量并重新訓練,直到模型在R上的準確率不再增加結(jié)束訓練。假設(shè)結(jié)束訓練時隱藏層深度為l,將l-1作為最終模型的隱藏層數(shù)量,并將隱藏層深度為l-1時訓練得到的模型記作MR。由于R樣本數(shù)量較小,因而此過程并不耗時。
2.3 訓練方法
本文使用后向傳播(Back Propagation, BP)算法及批量隨機梯度下降(Stochastic Gradient Descent, SGD)對模型進行訓練。關(guān)于BP算法的推導過程可參考文獻[10],本文不再重復論述。下面將首先介紹訓練過程中需要注意的關(guān)鍵內(nèi)容。隨后再針對時間序列SAR圖像介紹如何使用不同的數(shù)據(jù)集獲得最終的模型。
(1) 隨機化:對每個用于訓練的數(shù)據(jù)集按照1:9的比例隨機分為訓練集和交叉驗證集,且每個子集具有等量的正負樣本。將訓練集的正負樣本分別隨機化,并且讓每個批量的訓練樣本都包含正負樣本各16個。
(2) 初始化:由于本文的模型結(jié)構(gòu)引入了ReLU、Dropout、批量歸一化等現(xiàn)代結(jié)構(gòu),參數(shù)初始化不再需要進行逐層非監(jiān)督訓練[10],而是選擇使用標準正態(tài)分布作為初始權(quán)重。
(3) 優(yōu)化器:由于Adam算法能夠在訓練過程中根據(jù)數(shù)據(jù)自適應地調(diào)整學習率和沖量[10],本文將Adam算法作為SGD優(yōu)化算法,所有參數(shù)與文獻[19]一致。
(4) 訓練結(jié)束條件:使用Early Stopping算法監(jiān)測訓練的過程,并設(shè)定訓練終止條件。訓練過程中使用訓練集更新模型參數(shù),在每輪訓練結(jié)束后記錄交叉驗證集的代價函數(shù)值。如果交叉驗證集的代價函數(shù)值不再減小并超過指定的容忍次數(shù),則停止訓練。
使用以上訓練方法,首先利用R數(shù)據(jù)集訓練具有不同隱藏層深度的模型,以確定最終隱藏層深度l-1和模型MR。隨后將MR用于數(shù)據(jù)集S的預測,并從預測結(jié)果與手動標記一致的樣本中隨機選出等量的正負樣本作為數(shù)據(jù)集T。最后使用數(shù)據(jù)集T重新訓練包含l-1個隱藏層結(jié)構(gòu)得到最終的模型MT。需要注意的是在使用T進行重新訓練模型時必須重新初始化模型參數(shù),否則會因為訓練集T為已訓練模型的正確預測而無法繼續(xù)學習,出現(xiàn)過擬合。
以上訓練過程中,使用R確定時間序列模型深度的原因在于通過直方圖規(guī)定化處理后的時間序列SAR圖像具有一致的整體強度特征及重復的信息量,由單幅圖像的樣本確定的模型復雜度適用于整個時間序列。由于樣本標記是基于參考圖像實施的,理論上R樣本標簽的準確程度會高于序列中其他圖像生成的樣本。利用R訓練得到的模型用于篩選最終的訓練樣本,可以去除大量由于標記不精確而引入的帶有錯誤標簽的樣本,既提高了樣本的質(zhì)量,也放寬了對手動標記樣本的精度要求。
超參數(shù)的數(shù)量是制約多層神經(jīng)網(wǎng)絡在不同數(shù)據(jù)中推廣能力的重要因素。要獲得較優(yōu)的性能通常會花費大量的訓練時間進行參數(shù)的調(diào)優(yōu),因而本文在設(shè)計過程中折衷選擇了一些自適應的方法。具體為:選擇Adam算法主要在于其具有自動調(diào)整學習率的特點;批量歸一化使每層輸入數(shù)據(jù)都有穩(wěn)定的分布,從而使訓練過程對超參數(shù)有較高的魯棒性。因而本文將大量的超參數(shù)都設(shè)為常數(shù)(如Dropout參數(shù)為20%,批量樣本數(shù)為32,及每層節(jié)點的數(shù)量),僅保留了模型深度這一變量用于不同數(shù)據(jù)的自適應調(diào)整。既保留了方法的靈活性,又避免了將該方法應用于不同數(shù)據(jù)時過多的參數(shù)調(diào)整。
2.4 山體去除
上文介紹了一個適用于時間序列SAR圖像的建筑區(qū)提取方法,在利用樣本數(shù)據(jù)確定模型參數(shù)后,以滑窗的方式將該模型用于整幅圖像檢測出建筑區(qū)域。由于山體和建筑在SAR圖像中特征十分相似,模型可能無法區(qū)分。因而,使用DEM數(shù)據(jù)生成坡度信息,并將坡度大于30°的像素從檢測到的建筑區(qū)域中移除,得到最終的檢測結(jié)果[3]。
3.1 實驗數(shù)據(jù)
本文選取北京地區(qū)為研究區(qū)域。北京市總面積約16410.54 km2,主城區(qū)位于平原區(qū)域,其北部和西部均有高山包圍,如圖2(a)所示。實驗數(shù)據(jù)來自于搭載在歐空局ENVISAT-1/2衛(wèi)星上的ASAR傳感器。本文使用2003年6月到2009年3月這一時間段內(nèi)的采集到的38幅圖像進行實驗,該組數(shù)據(jù)均采用C波段HH極化方式IMP模式獲取。原始復數(shù)圖像通過多視、配準、地理編碼、幾何校正處理后,以距離向和方位向均為25 m每像素的分辨率投影到WGS84(World Geodetic System 84)參考坐標系下。處理后的所有圖像大小均為7053×5634像素。盡管ASAR具有1個月的重訪周期,但僅能從存檔數(shù)據(jù)中獲得38幅圖像。表1列出了所有數(shù)據(jù)的采集年月,可以看出不同年份的圖像數(shù)量差異較大。
3.2 實驗分析
實驗部分包括3個內(nèi)容,首先介紹本文方法實驗的過程以及參數(shù)設(shè)定;然后,給出與第Ⅰ類、第Ⅱ類典型訓練方法的對比;最后進行本文方法與第Ⅲ類常規(guī)方法的對比分析。
表1 數(shù)據(jù)采集年月Tab.1 The acquire year and month of data
本文選擇2007年2月采集的圖像作為參考圖像。在市中心附近選擇大小為 1200×1200像素的區(qū)域作為參考區(qū)域,如圖2(b)藍色方框所示。用參考圖像計算參考直方圖并對其他所有圖像進行直方圖規(guī)定化處理。選擇9×9的圖像塊作為樣本,因而輸入層和隱藏層的寬度分別確定為81與64。利用標記的區(qū)域由參考圖像和時間序列的所有圖像分別生成包含40萬樣本的數(shù)據(jù)集R和包含約1500萬樣本的S。在確定隱藏層深度訓練模型時,將Early Stopping的容忍度設(shè)為3。使用R進行不同深度的模型訓練,當隱藏層深度增加到3時,模型在R的準確率不再增加,因而,將隱藏層深度設(shè)定為2,模型結(jié)構(gòu)為81-64-64-1。在這個過程中同時獲得了該結(jié)構(gòu)下的有效模型,使用該模型對樣本集S進行預測,預測準確率約為81.5%。從正確預測的樣本中隨機選出1000萬作為時間序列的訓練集T。最后再用T重新訓練模型81-64-64-1,此時由于樣本數(shù)量較大,因而將Early Stopping的容忍度設(shè)為1,通過3輪訓練獲得最終模型。為了驗證本文確定模型深度方法的有效性,再次使用T對隱藏層深度分別為1到4的網(wǎng)絡進行訓練,并在T上進行驗證,準確率分別為75.2%, 92.4%, 91.5%, 92.7%,可以看出隱藏層深度增加到2后準確率的提升將很小,單幅圖像的樣本確定的模型深度一致。
為比較不同訓練方法的性能,本文使用準確率和Kappa系數(shù)作為性能評估的指標,并將本文提出方法標記為#0。將圖2(b)紅色方框所標記大小為1500×1500像素的區(qū)域作為測試數(shù)據(jù)。并結(jié)合高分辨率光學圖像和SAR圖像,通過手工標記的方法獲得每一幅圖像的真實類別。在所有實驗中均采用相同的標記作為生成訓練樣本。對比實驗分為兩組,第1組標記為#0, #1, #2;第2組標記為#0, #3,#4, #5,基本設(shè)定如表2所示。
表2 對比實驗設(shè)定Tab.2 The settings of method comparison experiments
對比實驗1 使用81-64-64-1的網(wǎng)絡結(jié)構(gòu),將本文方法得到的結(jié)果與第Ⅰ類(#1)、第Ⅱ類(#2)方法的的結(jié)果進行比較。由于#1與#2的訓練樣本僅從單幅圖像生成,數(shù)量較小,因而使用圖像旋轉(zhuǎn)的方法生成更多的訓練樣本以提高模型性能。先將圖像旋轉(zhuǎn)到7個不同的方向,即π/4, 2π/4,··, 7π/4,再使用與#0相同的標簽生成訓練樣本。該組實驗的詳細設(shè)置如表2中#0, #1和#2所示,實驗詳細結(jié)果如圖4(a)、圖4(b)和表3所示。
由于#1使用參考圖像進行訓練,因而在參考圖像上有較好的評估結(jié)果,準確率和Kappa系數(shù)分別為92.7%和0.798。然而將該模型用于其它時間序列圖像的預測時,某些與參考圖像差異較大的數(shù)據(jù)的評估結(jié)果性能很差,因而得到的準確率和Kappa系數(shù)曲線抖動較大,其標準差分別為3.8×10-2和8.1×10-2。實驗中最差結(jié)果的準確率僅有75.9%,Kappa系數(shù)僅為0.465。盡管測試圖像經(jīng)過了直方圖規(guī)定化處理,圖像間的差異性仍然存在,僅靠單幅圖像生成的訓練樣本得到的模型很難在所有圖像上都獲得較好的檢測性能。
表3 不同方法實驗結(jié)果Tab.3 Result from different methods
圖4 方法對比評估結(jié)果Fig.4 Different methods evaluation results
#2為每幅圖像訓練一個模型,增加了一定的自適應性,因而相比#1性能有所提高。平均準確率達到89.9%,最低準確率也為85.9%。然而最小的Kappa系數(shù)仍然很低,僅為0.502,準確率曲線和Kappa系數(shù)曲線波動都很大,其標準差分別為1.9×10-2和8.1×10-2。性能較差的一個原因在于圖像中其它區(qū)域的特征沒有被模型學習到。另一個原因在于僅使用參考圖像得到的標簽生成訓練樣本,但序列的其他圖像中建筑區(qū)域可能發(fā)生了改變,導致引入了較多的錯誤標簽。
相較于#1和#2,本文方法(#0)使用了整個時間序列生成的大量樣本進行模型訓練,利用了時間序列在信息上的互補性,豐富了訓練樣本的特征,因而在檢測性能和穩(wěn)定性上都有較大的提高。
對比實驗2 為比較本文提出方法對傳統(tǒng)第III類方法的改進,本文對不同深度模型做了實驗對比。傳統(tǒng)的第Ⅲ類方法通常使用原始數(shù)據(jù)生成大量訓練樣本訓練模型,通過調(diào)整模型的復雜度以獲得更好的性能。在這組實驗中,使用直接隨機選擇的大量訓練樣本(未經(jīng)過直方圖規(guī)定化與樣本篩選處理)直接訓練不同深度(隱藏層數(shù)量分別為2, 3,4)的模型,以驗證是否可以僅通過增加模型復雜度提高模型性能。實驗設(shè)置如表2中方法#0, #3, #4,#5所示,實驗結(jié)果如圖4(c)、圖4(d)和表3所示。
從實驗結(jié)果可以看出雖然模型深度增加,但模型性能并未得到提升,反而會由于深度的增加而增加了訓練過程中所需的計算量。本文方法通過使用直方圖規(guī)定化,將不同時間的圖像的整體強度進行了統(tǒng)一,避免了由于圖像間由于強度不一致而造成的正負樣本特征混淆,將時間序列建筑區(qū)域提取的難度降低。隨后使用R訓練的模型對樣本進行預測并篩選出訓練樣本,可以去除部分由于粗略標記和不同時間建筑區(qū)域的變化而引入的帶有錯誤標簽的樣本,提高了訓練樣本的質(zhì)量。使用大量質(zhì)量較高的訓練樣本對一個復雜度較低的網(wǎng)絡進行訓練,從而得到性能上的改善。由于樣本質(zhì)量的提升,#0訓練過程僅通過3次迭代訓練就停止,即兩次迭代即可獲得最終的模型。而#3, #4, #5訓練過程分別迭代了5次、6次、5次訓練才結(jié)束,并且#4,#5隱藏層深度比#0和#3高,每次迭代所需的時間也更多。雖然#0需要通過R訓練得到的模型進行預測和樣本篩選,而R僅有40萬樣本,訓練過程和預測過程所需時間遠小于使用1000萬樣本單次迭代所需要的時間。綜上所述,本文方法具有較高的訓練效率及模型精度。
圖5給出了2007年2月的數(shù)據(jù),使用本文提出方法得到的檢測結(jié)果。圖5(a)是模型直接分類后的檢測結(jié)果,圖5(b)是利用DEM去除山體干擾后的結(jié)果。
本文探索了多層神經(jīng)網(wǎng)絡在中等分辨率SAR圖像時間序列的建筑區(qū)域提取的方法和性能。由于時間序列在特征上的差異性使得穩(wěn)定而準確的建筑區(qū)域提取較為困難。本文利用時間序列SAR圖像在空間上的一致性、在信息上的冗余性,通過獲取高質(zhì)量的訓練樣本并訓練低復雜度的模型結(jié)構(gòu)得到性能穩(wěn)定且精度較高的模型。文中兩組對比實驗,說明了本文的訓練方法在提取性能和穩(wěn)定性上有較大提高,整個時間序列的最低準確率和Kappa系數(shù)分別90.2%和0.725遠高于其它幾種方法。從整個流程上看,本文提出的方法還具備以下良好特性:(1)只對單幅圖像進行粗略標記即可獲得大量高質(zhì)量的樣本,減少了樣本采集需要的時間和工作量;(2)僅有模型深度一個超參數(shù)需要調(diào)優(yōu),有利于該方法在不同數(shù)據(jù)的應用,具有較強的推廣能力;(3)具有高質(zhì)量的訓練樣本和較低的模型復雜度,訓練過程高效。
圖5 2007年2月北京建筑提取結(jié)果Fig.5 Beijing built-up area extraction result from February 2007 data
[1] 王璐, 張帆, 李偉, 等.基于Gabor濾波器和局部紋理特征提取的SAR目標識別算法[J].雷達學報, 2015, 4(6): 658-665.Wang Lu, Zhang Fan, Li Wei, et al..A method of SAR target recognition based on Gabor filter and local texture feature extraction[J].Journal of Radars, 2015, 4(6): 658-665.
[2] 孫志軍, 薛磊, 許陽明, 等.基于多層編碼器的SAR目標及陰影聯(lián)合特征提取算法[J].雷達學報, 2013, 2(2): 195-202.Sun Zhi-jun, Xue Lei, Xu Yang-ming, et al..Shared representation of SAR target and shadow based on multilayer auto-encoder[J].Journal of Radars, 2013, 2(2): 195-202.
[3]Gamba P, Aldrighi M, and Stasolla M.Robust extraction of urban area extents in HR and VHR SAR images[J].IEEE Journal of Selected Topics in Applied Earth Observations and Remote Sensing, 2011, 4(1): 27-34.
[4]Hussain M, Chen D, Cheng A, et al..Change detection from remotely sensed images: from pixel-based to object-based approaches[J].ISPRS Journal of Photogrammetry and Remote Sensing, 2013, 80: 91-106.
[5]Voisin A, Krylov V A, Moser G, et al..Classification of very high resolution SAR images of urban areas using copulas and texture in a hierarchical Markov random field model[J].IEEE Geoscience and Remote Sensing Letters, 2013, 10(1): 96-100.
[6] 韓萍, 王歡.基于改進的稀疏保持投影的SAR目標特征提取與識別[J].雷達學報, 2015, 4(6): 674-680.Han Ping and Wang Huan.Synthetic aperture radar target feature extraction and recognition based on improved sparsity preserving projections[J].Journal of Radars, 2015,4(6): 674-680.
[7]Uslu E and Albayrak S.Curvelet-based synthetic aperture radar image classification[J].IEEE Geoscience and Remote Sensing Letters, 2014, 11(6): 1071-1075.
[8]Geng J, Fan J, Wang H, et al..High-resolution SAR image classification via deep convolutional autoencoders[J].IEEE Geoscience and Remote Sensing Letters, 2015, 12(11): 2351-2355.
[9]Hinton G E, Osindero S, and Teh Y W.A fast learning algorithm for deep belief nets[J].Neural Computation, 2006,18(7): 1527-1554.
[10]Ian Goodfellow, Yoshua Bengio, and Aaron Courville.Deep learning[OL].http://www.deeplearningbook.org/, 2015.10.
[11]Mnih V and Hinton G E.Learning to detect roads in highresolution aerial images[C].Computer Vision-ECCV 2010,Springer Berlin Heidelberg, 2010: 210-223.
[12]Lv Q, Dou Y, Niu X, et al..Classification of land cover based on deep belief networks using polarimetric RADARSAT-2 data[C].2014 IEEE Geoscience and Remote Sensing Symposium (IGARSS), Quebec City, Canada, 2014: 4679-4682.
[13]Gong M, Zhao J, Liu J, et al..Change detection in synthetic aperture radar images based on deep neural networks[J].IEEE Transactions on Neural Networks and Learning Systems, 2016, 27(1): 125-138.
[14]Rossetti G, Prati C, and Rucci A.Monitoring the urban environment with multitemporal SAR data[C].2015 IEEE Radar Conference (RadarCon), Arlington, VA, USA, 2015: 0622-0627.
[15]Gonzalez R C, Woods R E著, 阮秋琦, 阮宇智, 譯.數(shù)字圖像處理[M].第2版, 北京: 電子工業(yè)出版社, 2010: 74-79.Gonzalez R C, Woods R E, Ruan Qiuqi and Ruan Yuzhi.Digital Image Processing[M].Beijing: Publishing House of Electronics Industry, 2010: 74-79.
[16]Ioffe S and Szegedy C.Batch normalization: accelerating deep network training by reducing internal covariate shift[OL].arXiv: 1502.03167, 2015.
[17]Glorot X, Bordes A, and Bengio Y.Deep sparse rectifier neural networks[C].International Conference on Artificial Intelligence and Statistics, La Palma, Spain, 2011: 315-323.
[18]Srivastava N, Hinton G, Krizhevsky A, et al..Dropout: a simple way to prevent neural networks from overfitting[J].The Journal of Machine Learning Research, 2014, 15(1): 1929-1958.
[19]Kingma D and Ba J.Adam: a method for stochastic optimization[OL].arXiv: 1412.6980, 2014.
杜康寧(1988-),男,博士研究生,合成孔徑雷達圖像信息提取。
E-mail: dukangning11@mails.ucas.ac.cn
鄧云凱(1962-),男,研究員,博士生導師,研究方向為星載SAR系統(tǒng)設(shè)計、成像及微波遙感理論。
E-mail: ykdeng@mail.ie.ac.cn
王 宇(1979-),男,研究員,博士生導師,研究方向為星載SAR系統(tǒng)設(shè)計及信號處理。
E-mail: yuwang@mail.ie.ac.cn
李 寧(1987-),男,安徽天長人,畢業(yè)于中國科學院電子學研究所,獲得博士學位,現(xiàn)為中國科學院電子學研究所助理研究員,研究方向為多模式合成孔徑雷達成像及其應用技術(shù)。
E-mail: lining_nuaa@163.com
Medium Resolution SAR Image Time-series Built-up Area Extraction Based on Multilayer Neural Network
Du Kangning Deng Yunkai Wang Yu Li Ning
(Institute of Electronics, Chinese Academy of Science, Beijing 100190, China)
To improve the accuracy and stability of built-up area extraction from Synthetic Aperture Radar (SAR) image time series, in this paper, we propose a multilayer neural-network-based built-up area extraction method that combines the characters of time-series images.The proposed method coarsely tags single images and obtains a large number of samples from time-series images that have been processed by a histogram specification procedure.To generate a training sample dataset, we use samples generated from one image to determine network depth and select samples with higher accuracy from the sample set taken from the timeseries images.The final model is trained by the selected large and high quality training dataset.We perform two comparison experiments with 38 25-m resolution ENVISAT ASAR images.Using the proposed method, we achieved 90.2% minima accuracy and a 0.725 minima Kappa coefficient, which are much higher than those of the three conventional methods.Thus, the accuracy and stability of built-up area extraction are significantly improved.In addition, the method proposed in this paper has the advantages of requiring minimal manual operation, well generalization, and training efficiency.
Multilayer neural network; Synthetic Aperture Radar (SAR); Time-series; Built-up extraction
TP753
A
2095-283X(2016)04-0410-09
10.12000/JR16060
2016-03-19;改回日期:2016-06-12;網(wǎng)絡出版:2016-06-27
李寧 lining_nuaa@163.com
國家自然科學基金(61301025),中國科學院百人計劃
Foundation Items: The National Natural Science Foundation of China (61301025), Hundred-Talent Program of the Chinese Academy of Sciences