何婧媛,謝生龍,田原,田琴琴
(延安大學數(shù)學與計算機科學學院,陜西延安 716000)
遙感圖像場景分類通常是根據(jù)特征進行分類,圖像特征的提取很大程度上決定了場景分類的準確度。目前,圖像特征表示方法主要有基于人工提取特征、基于無監(jiān)督特征學習和基于深度特征學習三種。遙感圖像空間分辨率的提高使得遙感圖像分類經(jīng)歷了三個階段:像素級、目標級和場景級。近年來對圖像場景分類的研究越來越多,場景分類面臨的主要挑戰(zhàn)[1]是圖像類別和帶標記的數(shù)據(jù)樣本數(shù)量少、類內(nèi)多樣性大、類間相似性高、場景尺度變化大、具有判別力的特征提取困難等。
目前,卷積神經(jīng)網(wǎng)絡已經(jīng)廣泛應用于遙感圖像場景分類任務,與傳統(tǒng)方法相比,CNN 具有端到端的特點,同時能夠提取手工制作特征方法無法學習到的高級視覺特征。通過大量實驗驗證了利用現(xiàn)有的CNN 網(wǎng)絡進行特征提取在小規(guī)模數(shù)據(jù)集上是簡單和有效的,但訓練樣本的數(shù)量若不足以從頭訓練一個新的CNN 時,可以選擇在已經(jīng)訓練好的CNN 上對目標數(shù)據(jù)集進行微調(diào)?;贑NN 的遙感圖像場景分類主要有使用現(xiàn)成的CNNs 作為特征提取器、在目標數(shù)據(jù)集上對已經(jīng)訓練好的CNNs 進行微調(diào)和對輕量級CNNs 模型進行優(yōu)化這三種策略[2-5]。
在場景分類任務中,針對基于CNN 的方法需要將大量帶標記的遙感圖像作為訓練數(shù)據(jù)集,無監(jiān)督學習方法GANs 引入了遙感圖像場景分類?;贕AN 的方法通過對抗性訓練能夠模擬真實場景中的樣本分布并生成新樣本,它主要用于沒有標記數(shù)據(jù)的場景分類。GAN 是一種深度學習模型,通過博弈的對抗性訓練,GAN 可以模擬真實樣本的分布并生成新的樣本?;贕AN 的方法已經(jīng)成功地應用于遙感圖像數(shù)據(jù)集中沒有人工標注標簽的遙感圖像場景分類。表1 列出了一些基于GAN 的遙感圖像場景分類。
表1 基于GAN的遙感圖像場景分類總結
GAN 通過增強鑒別器的表示能力,獲得了較好的場景分類性能?;贕AN 的方法通常使用GAN來生成樣本,或者對抗性地通過訓練網(wǎng)絡進行特征學習?;贕AN 的場景分類方法比基于CNN 的場景分類方法少很多,但由于GAN 具有強大的自監(jiān)督特征學習能力,因此,其是場景分類一個較好的發(fā)展與研究方向。
通過提取圖像特征對圖像進行分類,需要大量帶標簽的圖像作為樣本數(shù)據(jù)來訓練網(wǎng)絡模型,然而實際情況并不能達到預期目標,在模型訓練過程中經(jīng)常會出現(xiàn)過擬合現(xiàn)象。這就促使了將一些訓練好的深度網(wǎng)絡模型遷移到遙感圖像場景分類中。將在具有足夠數(shù)據(jù)的數(shù)據(jù)集上訓練好的網(wǎng)絡模型應用到需要遙感圖像場景分類,且可以將其使用在訓練好的網(wǎng)絡模型上的結構和參數(shù)等信息中,然后在新的數(shù)據(jù)集上對其進行重新訓練。采用遷移學習進行圖像分類,大部分情況下是通過對訓練好的網(wǎng)絡模型進行微調(diào)來達到目的,具體如何對模型進行訓練與使用,取決于數(shù)據(jù)集的大小以及源數(shù)據(jù)和目標數(shù)據(jù)之間的數(shù)據(jù)相似程度。
文獻[14]采用數(shù)據(jù)增廣和遷移學習兩種技術在UC-Merced 數(shù)據(jù)集上驗證了五種現(xiàn)有網(wǎng)絡性能,并得到了較高的分類精度。在文獻[15]中提出了一種基于遷移學習的卷積神經(jīng)網(wǎng)絡高分辨率遙感影像識別方法,用來解決小樣本集合的遙感影像場景分類問題,該方法在UC-Merced 數(shù)據(jù)集上的準確率達到97.92%。針對相同和不同高光譜多場景圖像的網(wǎng)絡遷移問題,吳斯凡在基于多尺度多場景遷移學的高光譜圖像分類算法研究中采用基于模型的遷移學習和基于特征-模型的遷移學習方法,解決了高光譜圖像標記缺乏的問題,同時提高了分類性能。從大量基于遷移學習的遙感圖像分類文獻中可以看出,對于小樣本或零樣本的圖像分類問題,采用遷移學習方法能夠較有效地解決圖像標記缺乏帶來的分類準確率不高、分類性能較低等問題,為跨域圖像場景分類帶來了新的研究方向。
通過對深度學習場景分類現(xiàn)狀的研究,針對場景分類中存在的多尺度特征提取困難以及特征表征能力弱的問題,在卷積神經(jīng)網(wǎng)絡的基礎上提出適應場景分類的網(wǎng)絡模型。
構建遙感圖像樣本數(shù)據(jù)集為D=[D1,D2,…,DN],樣本標簽為L=[L1,L2,…,LN],其中N表示有N類遙感圖像,Di(i=1,2,…,N)表示第i類遙感圖像的數(shù)據(jù)集合,Li(i=1,2,…,N)表示第i類遙感圖像的標簽集合。樣本數(shù)據(jù)集是由訓練集Tra和測試集Tes構成。對于數(shù)據(jù)集中的每類遙感圖像,假設其樣本總數(shù)為n,訓練集從樣本總數(shù)中隨機抽取m張圖像進行構建,測試集由剩余n-m張圖像進行構建,即Tra=[Tra1,Tra2,…,TraN],Tes=[Tes1,Tes2,…,TesN],其中,Trai(i=1,2,…,N)代表的含義是第i類遙感圖像的訓練集,總共包含了m張訓練圖像,Tesi(i=1,2,…,N)代表的含義是第i類遙感圖像的測試集,由n-m張測試圖像構成。
文中構建了一個基于卷積神經(jīng)網(wǎng)絡和多尺度特征融合(MFF-CNN)的網(wǎng)絡模型,如圖1 所示。
圖1 MFF-CNN模型
MFF-CNN 網(wǎng)絡采用特征融合模塊將高層網(wǎng)絡Level 6、Level 5 分別與低層網(wǎng)絡Level 1、Level 2 通過跳躍連接方式進行融合。融合模塊1 對Level 1 與Level 6 進行融合,融合模塊2 對Level 2 與Level 5 進行融合,以此實現(xiàn)高層語義信息與低層特征信息的融合,然后將特征融合模塊與全連接層fc7 同時輸入到多核支持向量機(MKSVM)進行分類,實現(xiàn)來自不同卷積層、不同尺度、不同特征的多元信息分類,最后得到分類結果。
1)前向計算MFF-CNN 網(wǎng)絡每個神經(jīng)元的輸出值[16]。
第k層卷積層的第j個特征圖的計算公式如下:
第k層池化層的第j個特征圖的計算公式如下:
第k層為全連接層時,第j個特征圖的計算公式如下:
其中,yk-1表示第k-1 層所有特征圖加權之后的結果。
2)反向計算MFF 網(wǎng)絡整體損失函數(shù)[17]。
對于圖像訓練集中帶標簽樣本Imi的標簽函數(shù)由如下公式確定:
若判定標簽樣本Imi為第c類的概率是(c=1,2,…,N),則將其誤差定義為Eri,公式如下:
根據(jù)所有訓練樣本的誤差來計算損失函數(shù)Los,計算公式如下:
3)采用梯度下降法更新網(wǎng)絡參數(shù),同時對損失函數(shù)進行最小化。
4)根據(jù)公式(3)計算得到fc7 層輸出結果fe_fc7,其包含了fc7 層的所有特征圖。
在高層特征自適應融合的基礎上設計一種多核支持向量機(MKSVM)分類器[16]:
式中,f(xj)代表第j張圖像的預測標簽值,αi是優(yōu)化參數(shù),li是訓練樣本標簽,Num為訓練樣本數(shù),ωn代表各子核權重,Kern(xi,xj)表示第n個核函數(shù),b是最優(yōu)偏置。式(8)中xi表示第 張圖像在全連接層fc7 的特征向量,xj和xq分別表示第j張和第q張圖像在融合模塊1 和融合模塊2 的特征向量,η表示帶寬參數(shù)。分類器訓練好后,將MFF-CNN 網(wǎng)絡中采用融合模塊融合后的圖像特征和全連接層的輸出作為輸入數(shù)據(jù),共同輸入MKSVM 分類器,然后采用MKSVM 分類器對圖像進行分類。將測試集中所有圖像采用分類器分類后得到的預測值與其原始標簽值相比,能夠得到圖像分類準確率。
數(shù)據(jù)集對圖像分類的評價有著重要的作用,近年來高分辨率衛(wèi)星圖像的獲取也更加容易,為了提高分類準確率和精確率,一些公開的分辨率高的基準數(shù)據(jù)集相繼產(chǎn)生。目前運用最廣泛的遙感圖像場景數(shù)據(jù)集[1]是發(fā)布于2010 年的UC-Merced 以及發(fā)布于2017 年的AID 和NWPU-RESISC45 這3 個公開基準數(shù)據(jù)集,其中AID 和NWPU-RESISC45是最新的兩個大型場景分類基準數(shù)據(jù)集,這3 個數(shù)據(jù)集及其特征如表2所示。
表2 3個公開可用的遙感圖像場景分類數(shù)據(jù)集
文中采用的數(shù)據(jù)集是UC-Merced、AID和NWPURESISC45 三個用于遙感圖像場景分類數(shù)據(jù)集,數(shù)據(jù)集中圖像的角度、方向、光照等各不相同,增加了分類難度。在實驗中訓練樣本和測試樣本均是隨機選擇的,三個數(shù)據(jù)集中每類圖像的訓練樣本和測試樣本比例分別為8∶2、5∶5 和2∶8。
為了驗證該文提出的MFF-CNN 方法在遙感圖像場景分類中的性能,將文獻中的一些基于深度學習的場景分類方法與MFF-CNN 方法在3 個公開的基準數(shù)據(jù)集UC-Merced、AID 和NWPU-RESISC45 上的總體精度(OA)進行對比,分類精度對比結果如表3所示。
對表3 進行分析看出UC-Merced 數(shù)據(jù)集上的分類準確率可以達到98%以上,該文為98.84%。AID數(shù)據(jù)集上的分類準確率可以達到96%以上,該文為96.95%。NWPU-RESISC45 數(shù)據(jù)集上一些基于CNN的先進方法可以達到91%以上的分類準確率,該文為91.58%。從實驗結果對比分析中發(fā)現(xiàn),UC-Merced數(shù)據(jù)集上的分類性能已經(jīng)接近飽和,今后的研究重點應主要針對AID 和NWPU-RESISC45 數(shù)據(jù)集,且NWPU-RESISC45 數(shù)據(jù)集與UC-Merced 數(shù)據(jù)集和AID 數(shù)據(jù)集相比分類準確率有更大的提升空間。
表3 場景分類方法分類準確率對比結果
該文方法輸入圖像更加豐富,特征表示能力更強,實現(xiàn)了高層特征和底層特征間的融合,同時具有更好的泛化能力。實驗結果也充分展示了該文方法具有較高的整體分類準確率,是一種有效的遙感圖像分類算法。深度學習方法的分類性能不斷提高,但基于深度學習的方法對訓練數(shù)據(jù)有較高的依賴性,需要大量帶標記的樣本用于訓練或調(diào)優(yōu),耗費的精力和財力巨大,因此對遙感圖像場景分類研究應趨向于無監(jiān)督學習和遷移學習,進一步提高現(xiàn)實場景的魯棒性、泛化能力以及分類性能。