黃如金,聶運菊
(東華理工大學測繪工程學院,330013,南昌)
隨著計算機技術和空間技術的不斷進步,使得遙感學科充分發(fā)揮自身優(yōu)勢釋放出巨大的商業(yè)價值和科研價值,國家政府部門在發(fā)展規(guī)劃中也把地理信息產業(yè)列為工作的重點之一,包括擴大遙感技術及遙感數(shù)據(jù)應用領域,以及鼓勵社會資本進入遙感應用產業(yè)等[1]。同時,我國城市化進程大量人口涌入城市,據(jù)國家統(tǒng)計局數(shù)據(jù)顯示2018年我國城鎮(zhèn)人口占總人口比重達到59.58%,這距離發(fā)達國家平均水平的75%還有15個百分點意味著未來我國還會有大約2.15億人進入城市,隨之形成龐大的人口密集建筑區(qū)將帶來相當嚴峻的社會問題。
傳統(tǒng)的遙感信息獲取主要利用航拍相片或者中、低分辨率衛(wèi)星影像,常用的方法有目視判讀以及基于像元的計算機分類法[2]。其分類技術通常運用的是一種基于像元的分類,無論是監(jiān)督分類還是非監(jiān)督分類僅僅是基于像元級別的處理,更加適用于獲取中、低分辨率遙感影像的信息。高分遙感影像的發(fā)展這種分類方法已經不能滿足分類的精度需求和影像信息的提取,面向對象的分類方法不再是針對單個像元,而是針對影像對象[3]。卷積神經網(wǎng)絡(CNN)的應用使得這一問題有了很好的解決[4],Krizhevsky等提出了8層的Alex Net模型,大幅提高了圖像分類的準確度[5];Simonyan等提出了16層的VGG-16模型和19層的VGG-19模型分類準確度進一步提升[6];Res Net模型的提出解決了網(wǎng)絡退化的問題;劉嘉政提出基于Inception_v3模型的遷移學習并對結構進行微調適應花卉識別[7-8]。在遙感影像分類領域,由韓軍偉構建包含45類場景的遙感場景分類數(shù)據(jù)集NWPU-RESISC45,并使用多種模型對數(shù)據(jù)集進行分類實驗,其準確率遠高于傳統(tǒng)方法。但用于城市人口密集建筑的分類識別研究還未有深入研究,本文通過將NWPU-RESISC45數(shù)據(jù)集與手動裁剪獲取樣本相結合的方法得到實驗樣本數(shù)據(jù)集并對樣本數(shù)據(jù)進行數(shù)據(jù)增廣,分別利用Alex Net、VGG-19、Res Net 3種網(wǎng)絡對城市人口密集建筑進行遷移學習的分類識別研究,為未來城市地質遙感城市地物分類提供借鑒意義。
卷積神經網(wǎng)絡(CNN)是深度學習算法領域中在當前生產中應用最廣泛、最成功的算法模型之一,它是一種基于反向傳播的模型[9]主要包括一維卷積神經網(wǎng)絡、二維卷積神經網(wǎng)絡以及三維卷積神經網(wǎng)絡。在遙感領域主要利用的是二維卷積,即應用于圖像類文本的識別,而遙感影像本身也是圖像恰好符合卷積神經網(wǎng)絡特征對象提取的優(yōu)點。卷積神經網(wǎng)絡通常情況下是由卷積層、池化層、激活函數(shù)和全連接層等組成,核心部分操作分卷積操作和池化操作,整體結構如圖1所示。
圖1 卷積神經經網(wǎng)絡架構
從整體架構上來看,卷積神經網(wǎng)絡就是一個從輸入層讀取圖片信息然后經過一系列運算到達輸出層得到輸出結果的過程,在這個過程中,通過每一層結構參數(shù)的計算逐步將信息傳遞到下一層,不斷地進行卷積和池化操作得到具體的抽象信息,將這些信息映射到隱層特征空間實現(xiàn)對目標圖像進行特征提取,經過全連接層和分類函數(shù)進行分類。當前,深度學習技術迅猛發(fā)展涌現(xiàn)出了如Alex Net、Res Net、VGG-19等較為經典且分類效果較好的網(wǎng)絡模型。Alex Net[10]相較與傳統(tǒng)神經網(wǎng)絡方法的主要創(chuàng)新優(yōu)化在于利用Re Lu激活函數(shù)[11]和Drop Out方法來抑制過擬合。Re Lu激活函數(shù)取代Sigmoid非線性激活函數(shù),通過Re Lu激活函數(shù)可有效改善梯度消失及收斂波動,Re Lu只需一個閾值即可得到激活值且其為非飽和線性函數(shù);引入多種權值組合的Drop Out方法控制過擬合。通過Drop Out方法,網(wǎng)絡每輸入一組新數(shù)據(jù),都會激活一組不同的隱層神經元,從而每次訓練的時候相當于使用一個全新的網(wǎng)絡,而網(wǎng)絡的所有激活狀態(tài)始終共享權值,從而顯著降低了神經元間復雜的互適應關系,從而實現(xiàn)對過擬合的抑制。VGG-19模型是對Alex Net模型的一種改進。與Alex Net相比,VGG系列模型的特點體現(xiàn)在2個方面:1)所有的卷積層都使用非常小的感受野(3×3和1×1);2)模型擁有多個卷積層,在模型深度上遠遠超過Alex Net。Res Net[12]通過Residual殘差模塊解決隨著網(wǎng)絡深度的加深網(wǎng)絡帶來的退化問題。Residual block通過shortcut connection實現(xiàn),利用shortcut將block的輸入和輸出進行一個element-wise的加疊,極大提高模型的訓練速度并獲得比較好的訓練效果,同時,隨著模型的層數(shù)不斷加深引入批歸一化層使得網(wǎng)絡更容易訓練,3種方法各有特點在不同程度上都對卷積神經網(wǎng)絡的發(fā)展研究有著重大意義。同時,在許多實際實驗過程中會出現(xiàn)數(shù)據(jù)量不足、訓練效果不佳的情況,這就需要對數(shù)據(jù)進行數(shù)據(jù)增廣[13]。本文分別利用鏡像(flip)、旋轉(rotation)、縮放(scale)、裁剪(crop)、圖像亮度、飽和度對比變化實現(xiàn)數(shù)據(jù)的增廣。
1)鏡像變換公式:
式中:ω為圖像寬度,(x1,y1)為變換后的圖像坐標,(x0,y0)為變化前坐標。
2)旋轉變換公式:
式中(x1,y1)為變換后的圖像坐標,(x0,y0)為變化前坐標。
3)其余幾種變換方法多有類似之處,都可以通過一定方法獲得隨機對圖像進行縮放、裁剪、圖像亮度、圖像飽和度調整。
本文的實驗分析共分為(Alex Net、VGG-19、Res Net)3組實驗,選用NWPU-RESISC45與人工手動制作樣本相結合的方式制作成新的貼近本次實驗的樣本數(shù)據(jù)集。實驗選定總體分類精度(Overall Accuracy)、精確率(Precision)、混淆矩陣3個指標作為實驗結果的評價指標,其中,總體精度是為了在分類過程中被正確分類的像元數(shù);精確率是為了顯示實際正樣本的概率;混淆矩陣就是簡單明了地展示分類對錯觀測值個數(shù)的標準格式。
試驗訓練的樣本數(shù)據(jù)主要有2個部分,一部分通過網(wǎng)絡獲取的完整訓練樣本,經過具體訓練條件篩選后使用;另一部分通過原始影像人工裁剪獲得實驗樣本,分為居民區(qū)、高層商業(yè)建筑、體育場、工業(yè)區(qū)4類,每一類分有700張共2 800張,圖片尺寸為256×256,如圖2所示,同時對數(shù)據(jù)進行數(shù)據(jù)增廣后的結果如圖3所示。
圖2 影像數(shù)據(jù)實例
圖3 數(shù)據(jù)增廣效果圖
2.2.1 Alex Net結構 Alex Net結構實驗結果如圖4所示,圖4上圖為測試精度與訓練代數(shù)的變化圖。測試集精度隨著訓練代數(shù)的增加測試精度逐漸提高,由于載入了預訓練的Alex Net的模型參數(shù),所以訓練精度提升得很快。在第3代時效果有了較大的變化,從3~44代測試精度呈現(xiàn)不斷提高到底趨勢,但中間測試精度還在不斷的震蕩,在第50代時測試精度趨于緩和,此時模型訓練達到目標精度。圖4下圖為測試集的損失函數(shù)隨著訓練代數(shù)的變化圖。在第3代開始損失函數(shù)的值有了明顯變化,從第3代開始損失函數(shù)緩慢下降其中略有回升、震蕩,在第50代開始損失函數(shù)逐步趨于平緩,在50代之后降到了目標之下。
圖4 Alex Net精度曲線(上)與損失曲線(下)
圖5 Alex Net混淆矩陣
如圖5為Alex Net的混淆矩陣,可以看出其對于高層商業(yè)建筑和工業(yè)區(qū)以及居民區(qū)和工業(yè)區(qū)的分類錯誤率較大,其主要原因是由于工業(yè)區(qū)和居民區(qū)都是建筑密集區(qū)域,而居民區(qū)和工業(yè)區(qū)不僅都是建筑密集區(qū)域且其建筑形態(tài)較為相似。因此,Alex Net網(wǎng)絡區(qū)分居民區(qū)和工業(yè)區(qū)的準確率比區(qū)分體育館和高層商業(yè)建筑區(qū)的準確率要低。
2.2.2 VGG-19結構 VGG-19結構實驗結果如圖6所示,圖6上圖為測試精度與訓練代數(shù)的變化圖。測試集精度隨著訓練代數(shù)的增加,測試精度逐漸提高,由于載入了預訓練的VGG-19的模型參數(shù),所以訓練精度提升得很快,第3代時由于模型拋棄了一些不必要的特征,精度出現(xiàn)了急速下墜,經過3~40代的持續(xù)上升、震蕩在第40代之后達到了較好的效果,測試精度仍有震蕩,在第63代時測試精度最高并達到目標精度。圖6下圖為測試集的損失函數(shù)隨著訓練代數(shù)的變化圖。如圖,訓練開始損失函數(shù)下降,在第3代急速上升,造成這一結果的主要原因是模型拋棄了之前學習到的一些特征,從第3代開始損失函數(shù)逐步下降,在第45代開始損失函數(shù)降到了目標之下并趨于平緩。
圖6 VGG-19精度曲線(上)與損失曲線(下)
圖7為4類的混淆矩陣,從圖6可以看出VGG-19的分類精度較好,基本能夠實現(xiàn)對密度建筑的準確分類。但從圖7中仍能發(fā)現(xiàn)在面對工業(yè)區(qū)和居民區(qū)這些人口密度大、建筑規(guī)模不一、形態(tài)混亂的建筑分類識別的準確度仍有提升空間。
2.2.3 Res Net結構 Res Net結構實驗結果如圖8所示,圖8上圖為測試精度與訓練代數(shù)的變化圖。隨著訓練代數(shù)的增加測試精度逐漸提高,通過載入預訓練的Res Net模型參數(shù),所以訓練精度提升得很快,在第1~40代之間精度波動較大,40代之后就達到了較好的效果,但測試精度還在不斷地震蕩整體趨于平緩,在第53代時測試精度達到最高并穩(wěn)定平緩,此時模型訓練達到目標精度。圖8下圖為測試集的損失函數(shù)隨著訓練代數(shù)的變化圖。損失函數(shù)的值在初始階段就有了明顯下降,之后損失函數(shù)不斷下降,中間在第9代有明顯回升,之后不斷震蕩總體下降呈穩(wěn)定趨勢,在第40代開始損失函數(shù)基本達到目標,但仍有波動,53代之后損失函數(shù)降到了0.05之下并趨于平緩。
圖7 VGG-19混淆矩陣
圖8 Res Net精度曲線(上)與損失曲線(下)
圖9為Res Net混淆矩陣可以看出對于居民區(qū)以及工業(yè)區(qū)的分辨精度較低,較多次將居民區(qū)以及工業(yè)區(qū)混淆。居民區(qū)和工業(yè)區(qū)都為建筑密集區(qū),它們的紋理、顏色等特征都有較大的相似性,這種相似性對圖片的分類精度有較大的干擾。體育館由于其有明顯的特征,其辨識度較高。綜上可以知道,Res Net對于特征明顯的地物有較好的識別度,但是對于像居民區(qū)以及工業(yè)區(qū)之類的相似性較高的地物識別精度會下降。
圖9 Res Net混淆矩陣
本文對3種網(wǎng)絡結構在總體精度、精確率、優(yōu)點3個維度進行對比分析,如表1所示。Alex Net通過激活函數(shù)將精度提高到90.5%;Res Net引入殘差網(wǎng)絡精度為91.16%;VGG-19對VGG網(wǎng)絡進行卷積層數(shù)增加精度為93.5%。從精確率可以看到在4種分類中,都對高層商業(yè)建筑、體育館這些特征信息明確相對城市存在個數(shù)較少的建筑分類效果較好,對居民區(qū)、工業(yè)區(qū)這些整體特征信息明顯但局部模糊的建筑分類效果不佳更容易將兩者混淆,這些都對以后的研究提供了方向。
表1 3種方法評價指標對比表
通過對比實驗驗證了卷積神經網(wǎng)絡在遙感影像分類識別的過程中的應用價值,面對大量復雜繁瑣的分類工作不僅提升了效率,同時在精度上有了很大的保證。遷移學習在機器學習的基礎上省去了前期訓練模型的大量時間,降低了機器學習的使用成本。
通過3種卷積神經網(wǎng)絡結構的實驗分析,明確了卷積神經網(wǎng)絡在影像分類識別領域的價值。深入其中不難發(fā)現(xiàn)VGG-19雖然處理當前問題精度較高但單純的增加卷積層數(shù)在達到一定數(shù)值時必然會導致參數(shù)的數(shù)量過多;故在未來將引入Res Net殘差塊以解決梯度消失問題,讓網(wǎng)絡能構建得更深,使用VGG-19的網(wǎng)絡結構設計卷積神經網(wǎng)絡模塊,以提升分類精度。