蘇賦, 于海鵬, 朱威西
(西南石油大學電氣信息學院,成都 610500)
隨著遙感技術(shù)的發(fā)展,我國在提高遙感影像分辨率方面有了重大突破,通過高分系列衛(wèi)星采集的遙感影像分辨率已經(jīng)達到了米級甚至是亞米級[1]。與中分辨率和低分辨率的遙感影像相比較,高分辨率遙感影像中包含了更加豐富和詳盡的細節(jié)信息??梢詼蚀_地反映出地表類型以及空間布局,但是由于地表建筑的空間分布和幾何結(jié)構(gòu)相當繁雜,導致同譜異物和同物異譜的現(xiàn)象愈加嚴重,為高分遙感影像的分類帶來了巨大的挑戰(zhàn)[2]。
隨著深度學習技術(shù)的發(fā)展,神經(jīng)網(wǎng)絡被廣泛應用于圖像處理領域,特別是卷積神經(jīng)網(wǎng)絡在遙感領域表現(xiàn)突出。如Liu等[3]采用了多尺度的卷積結(jié)構(gòu),利用兩個不同尺度的卷積結(jié)構(gòu)分別提取不同的特征表示,學習到的特征具有尺度不變性,實現(xiàn)了對遙感數(shù)據(jù)的分類。Zan等[4]提出了循環(huán)變換網(wǎng)絡,能夠?qū)W習到局部區(qū)域的特征表示,提取遙感影像的關(guān)鍵信息用于分類。Wang等[5]提出了一種遞歸注意網(wǎng)絡模型,能夠捕捉遙感影像的關(guān)鍵區(qū)域的特征進行場景信息的理解。Sun等[6]提出了一種雙向門控網(wǎng)絡結(jié)構(gòu),能夠?qū)Σ煌謱拥奶卣鬟M行聚合以及消除干擾信息,去除冗余特征,增強了模型對于遙感影像潛在語義信息的理解。這些方法都是通過對網(wǎng)絡結(jié)構(gòu)進行優(yōu)化用以提升其對于遙感特征的擬合能力,對于遙感影像中存在的紋理,形狀,顏色的差別,以及拍攝的角度和高度問題沒有進行針對性的訓練,導致了網(wǎng)絡模型的泛化能力不足。
當前的網(wǎng)絡模型大多使用Softmax[7]損失來衡量真實概率分布與模型預測概率分布之間的差異,使用模型預測概率分布表示真實概率分布的困難程度。該損失函數(shù)的值越大,說明該模型在真實標簽的分類概率越小,性能也越差。由于Softmax損失僅僅懲罰整體分類的損失,忽略了遙感影像的類內(nèi)差異性以及類間相似性,導致模型泛化能力不足,為了實現(xiàn)遙感影像的特征可分,Center損失[8]、三元組損失[9]、對比度損失[10]以及L-Softmax損失[11]等被先后提出。Center損失使用歐氏距離來衡量同類特征之間的距離,結(jié)合Softmax損失函數(shù)來進行網(wǎng)絡結(jié)構(gòu)的優(yōu)化,忽略了遙感影像不同類別特征重疊的問題,導致模型訓練效果一般。三元組損失和對比度損失需要構(gòu)建遙感圖像的三元組和圖像對作為訓練樣本度量同類和異類之間的特征距離。用以提升模型對于各類特征的分類性能,但是由于訓練樣本的急劇增加,模型收斂變得緩慢和不穩(wěn)定,增加了模型計算的復雜性并且使訓練過程變得繁瑣。L-Softmax損失是一種大間隔學習方法,引入了余弦余量項,最大化特征空間中的決策邊緣。但是由于決策邊緣的固定性,對所有特征進行相同程度的懲罰,無法進行針對性學習,并且類別之間間隔越大,相應類別的區(qū)域流形就越小,從而導致訓練困難的問題。
針對以上問題,本文在中心損失的基礎上提出了新的標簽聚類損失。首先根據(jù)聚類中心的選取影響著聚類效果的好壞,提出了類標簽中心初始化方法,對類別中心進行參數(shù)初始化; 模型在初始訓練階段沒有形成一定的概率分布,遙感數(shù)據(jù)離散程度高,分布范圍廣,十分不穩(wěn)定,為了保持各類別中心在模型初始訓練階段的穩(wěn)定性,提出了正弦衰減學習率來控制類別中心的優(yōu)化與訓練; 最后使用歐氏距離與余弦距離進行類內(nèi)特征的聚集,指數(shù)級歐氏距離和余弦距離進行類間中心的遠離。通過聯(lián)合交叉熵損失函數(shù)進行監(jiān)督訓練。使用了不同的網(wǎng)絡模型進行驗證。本文提出的損失函數(shù)不僅有效的實現(xiàn)了遙感影像同類特征的聚集以及類別中心的遠離,并且在不增加網(wǎng)絡模型復雜度,訓練樣本數(shù)量,以及訓練時間的同時,有效提高了網(wǎng)絡模型的特征擬合能力。
Softmax損失是遙感影像分類任務中最常用的損失函數(shù),定義如下:
(1)
式中:m為訓練樣本的批次大?。籲為訓練樣本的類別個數(shù);xi∈Rd為第i個樣本的特征值,并且樣本屬于yi類;W∈Rd×n為網(wǎng)絡模型最后一層全連接層的權(quán)重;Wj∈Rd為最后一層全連接層權(quán)重的第j列;b∈Rd為網(wǎng)絡模型最后一層全連接層的偏置。由于該損失函數(shù)只考慮了分類的正確性與否,沒有明確考慮正負樣本得分的大小,使網(wǎng)絡模型學習到的特征沒有被有效的區(qū)分開,導致了特征提取效果不佳。
為提高同類別特征的聚集性能,提升網(wǎng)絡模型的可分性,使用歐氏距離來計算各個類別與類別中心之間的距離,并使其達到最小,使各類別特征向各自的類別中心進行聚集,由此提出了中心損失函數(shù)為:
,
(2)
式中:xi為第i個樣本的特征值;cxi∈Rd為第i個樣本的特征所屬類別中心;m為訓練批次的大小。該損失函數(shù)使用小批次訓練的方式來進行網(wǎng)絡模型的優(yōu)化以及類別中心的更新,隨著訓練批次的更新,帶動各類別所屬樣本及特征值產(chǎn)生變化,使類別中心cxi進行更新。并且中心損失通過與Softmax損失聯(lián)合的方式進行訓練,在保證網(wǎng)絡模型特征提取性能的同時,使類內(nèi)特征進行聚集,聯(lián)合損失函數(shù)表示為:
,
(3)
式中λ為Softmax損失和中心損失的調(diào)節(jié)因子,用來調(diào)節(jié)兩種損失函數(shù)所占比重。當λ=0時,表示僅使用Softmax損失函數(shù)。由于遙感影像同一類場景內(nèi)存在較大的差別,導致每個集群內(nèi)的特征值較為分散,且每類不同的場景內(nèi)存在高度相似的部分,導致不同集群特征間有較大的重疊部分。雖然樣本特征被拉向各自的類別中心,但是不同的特征集群之間存在著大量相交的部分。該損失函數(shù)在一定程度上可以提高模型對于遙感影像的特征辨別能力,但是還存在著進一步的優(yōu)化空間。
借鑒聚類算法[12]中的思想,聚類中心的選取影響著聚類效果的好壞。本文模擬理想條件下的類別中心以及數(shù)據(jù)的分布情況,提出了一種類標簽中心初始化方法來代替隨機初始化。首先將網(wǎng)絡模型最后一層全連接層提取的特征進行歸一化處理,之后將每一類場景的類別標簽進行獨熱編碼,使每一個類別的標簽數(shù)據(jù)生成一組二值向量,類別標簽中對應的類別數(shù)目取值為1,其余的取值為0,然后進行數(shù)據(jù)平滑。能夠降低正確標簽的自信度,提高錯誤標簽的關(guān)注度,也就是對模型的分類準確度進行一定的懲罰。不再只針對正確標簽進行訓練,也對錯誤標簽進行懲罰訓練,使網(wǎng)絡模型在初始階段就學到一個較優(yōu)的類別中心,可以有效的降低網(wǎng)絡模型訓練的復雜度以及提高模型的泛化能力。類標簽中心初始化表示為:
,
(4)
式中:x為每一類別的獨熱編碼向量;ε為平滑參數(shù),取值為0.01;m為訓練集的類別數(shù)目;rand為隨機初始化向量。
網(wǎng)絡模型在初始訓練階段沒有形成一定的概率分布,數(shù)據(jù)分布范圍廣,離散程度高,波動性大,十分不穩(wěn)定,會對類標簽中心造成較大程度影響甚至使其失效。為解決這一問題,本文提出了正弦衰減學習率,使類別中心在初始階段以較小的學習率進行學習,然后逐漸增大,并使其從小到大進行周期性迭代。在解決模型預熱階段類標簽中心失效問題的同時,防止模型訓練陷入局部最優(yōu),使模型更好的收斂到最優(yōu)解。正弦衰減學習率表示為:
?s=?0‖sin(xs)‖+ε,xs∈(0,kπ),k=1,2,3,…,N
,
(5)
式中: ?0為初始學習率,取值為0.5;ε為調(diào)節(jié)因子,取值為0.01。
如圖1所示為正弦衰減學習率示意圖,橫坐標軸代表訓練次數(shù),縱坐標軸代表學習率,類別中心開始階段以較小的學習率開始學習,然后不斷增大,模型經(jīng)過預熱階段之后,學習率進行周期性的迭代變化,衰減周期為25個訓練次數(shù)。其中正弦衰減學習率最小值為0.01,最大值為0.51。
圖1 正弦衰減學習率
遙感影像中存在著大量的角度,光照和顏色的變化。在度量遙感影像特征分布的任務中,中心損失函數(shù)僅通過減小類內(nèi)特征之間的歐式距離,使特征值向各自類別中心聚集。雖然在一定程度上提高了網(wǎng)絡模型的性能,但是依舊存在著進一步的優(yōu)化空間。本文提出了一種新的聚類損失函數(shù),使用歐氏距離和余弦距離來計算類內(nèi)特征之間的距離,在考慮絕對距離的同時,考慮了相對方向的問題,使類內(nèi)特征與類別中心的絕對直線距離與角度值大小同時達到最小,進行類內(nèi)特征的聚集。使用指數(shù)級歐氏距離和余弦距離度量類間中心之間的距離,使各類別中心的直線距離和角度值達到最大,從而實現(xiàn)類別中心之間的分離。聚類損失函數(shù)的表達式為:
(6)
式中:m為訓練批次大?。粁i為第i個樣本的特征值;cxi∈Rd表示第i個樣本特征所屬的類別中心;N為遙感影像的類別總數(shù);cj為第j類樣本中心的取值;ck為除第j類樣本中心之外其余的樣本中心的取值;β0為類內(nèi)特征和類別中心之間的絕對直線距離與相對角度方向的權(quán)重比例;β1為不同類別中心之間的絕對直線距離與相對角度方向的權(quán)重比例。
關(guān)于式(6)的更新以及優(yōu)化,本文使用Adam優(yōu)化算法進行網(wǎng)絡模型的反向傳播和優(yōu)化。聚類損失函數(shù)Lc對輸入特征xi的微分形式為:
,
(7)
訓練樣本類別中心cj的梯度更新值為:
,
(8)
式中:δ(xi=j)為樣本特征xj屬于第j類樣本中心cj,則計數(shù)為1,否則計數(shù)為0。在每一個訓練批次中,類別中心cj以正弦衰減學習率?s進行迭代更新,其中正弦衰減學習率的取值范圍為?s∈(0.01,0.51),更新方式為:
cjt+1=cjt-?sΔcjt
,
(9)
式中:t為迭代次; ?s為正弦衰減學習率;cjt為第t次迭代訓練中第j類別中心的取值;Δcjt為第t次迭代訓練中第j類樣本中心的梯度更新值。
表1為算法1的標簽聚類損失函數(shù)的學習過程。
表1 標簽聚類損失訓練過程
為了驗證本文提出方法的有效性,使用數(shù)據(jù)集NWPU-RESISC45進行實驗。該數(shù)據(jù)集是由西北工業(yè)大學創(chuàng)建的遙感圖像場景分類的一個公開的可用基準。來自100多個國家和地區(qū),在2017年公布使用。該數(shù)據(jù)集一共包含31 500幅遙感影像,45類遙感場景,每個類別為700幅尺寸大小為256像素×256像素的影像,此數(shù)據(jù)集在平移、光照、遮擋、背景、分辨率方面都有著很大的變化,并且有著較高的類內(nèi)多樣性和類間相似性,該數(shù)據(jù)集對于本文提出的方法有較高的挑戰(zhàn)性。
如圖2所示為該數(shù)據(jù)集的部分遙感影像,圖2(a)-(d)為同一類遙感影像的對比圖,圖2(e)-(h)為不同類別遙感影像對比圖,從中可以看出同類場景之間的光照、角度、顏色、輪廓有著較大的差異,不同類別場景之間的色彩、背景、光照、形狀以及輪廓有著很大的相似性。
(a) 商業(yè)區(qū)(b) 密集住宅區(qū)
(c) 跑道(d) 山脈
(e) 網(wǎng)球場和藍球場(f) 教堂和宮殿
(g) 體育館和跑道(h) 工業(yè)區(qū)和公園
本文采用80%的數(shù)據(jù)作為訓練樣本,20%的數(shù)據(jù)作為測試樣本,并且數(shù)據(jù)集未通過旋轉(zhuǎn)、翻轉(zhuǎn)、縮放、裁剪等手段進行數(shù)據(jù)增強。
為了比較不同損失函數(shù)在不同模型中遙感特征的收斂情況,本文設置了兩組實驗進行驗證,分別使用VGG16網(wǎng)絡模型和ResNet50網(wǎng)絡模型來驗證本文提出方法的有效性,其中訓練次數(shù)設置為100,訓練批次設置為32,調(diào)節(jié)因子λ設置為0.000 1,β0和β1為調(diào)節(jié)參數(shù)。
如圖3(a)和圖3(b)所示為2個不同的網(wǎng)絡模型在不同損失函數(shù)中的訓練效果對比圖。通過對比可以看出中心損失函數(shù)在2個基線模型的基礎上提升均有限,效果不明顯,本文提出的聚類損失函數(shù)在基線模型的基礎上均有較高的提升,而標簽聚類損失更是進一步提升了模型的特征提取能力,并且增加了模型的穩(wěn)定性,本文提出的方法在殘差網(wǎng)絡模型中提升效果更佳。
(a) 不同損失函數(shù)在VGG16網(wǎng)絡模型訓練步驟圖(b) 不同損失函數(shù)在ResNet50網(wǎng)絡模型訓練步驟圖
針對標簽聚類損失函數(shù)的兩個超參數(shù)β0和β1,本文使用網(wǎng)格搜索法進行最優(yōu)超參數(shù)的確定。搜索空間設定為{0.01,0.1,0.3,0.5,0.7,0.9,1},其中當β0=0.1時,依次在搜索空間中進行β1的取值,當β1=0.1時,在搜索空間進行β0的取值,如圖4(a)和圖4(b)所示為不同網(wǎng)絡模型的超參數(shù)搜索圖,其中VGG16網(wǎng)絡模型在β0=0.1和β1=0.1取得最優(yōu)值,ResNet50網(wǎng)絡模型在β0=0.3和β1=0.1處取得最優(yōu)值。
(a) VGG16網(wǎng)絡模型超參數(shù)搜索圖 (b) ResNet50網(wǎng)絡模型超參數(shù)搜索圖
為了更好地對比標簽聚類損失函數(shù)與其他損失函數(shù)的性能,本文分別記錄了不同損失函數(shù)在2個網(wǎng)絡模型中的平均準確率以及Kappa系數(shù),對比結(jié)果如表2所示,其中softmax_loss表示基線網(wǎng)絡模型,center_loss表示使用中心損失訓練出的網(wǎng)絡模型,no label_loss表示使用聚類損失,即不使用類標簽中心初始化條件下訓練出的網(wǎng)絡模型,label_loss表示使用本文提出的標簽聚類損失訓練出的網(wǎng)絡模型。從中可以看出本文提出的損失函數(shù)在2個不同的網(wǎng)絡模型中的平均準確率和Kappa系數(shù)均有顯著提升,相比softmax損失,本文方法在VGG16網(wǎng)絡模型中平均準確率提高了2.3%,Kappa系數(shù)增加了0.017,在ResNet50網(wǎng)絡模型中平均準確率提高了5.7%,Kappa系數(shù)增加了0.06,相比中心損失,本文方法也顯示出了良好的性能,可以學到判別性更好的特征。
表2 不同損失函數(shù)在不同網(wǎng)絡模型的測試結(jié)果
為了進一步闡釋本文方法在特征空間數(shù)據(jù)的分布情況,使用TSNE算法和PCA算法對模型輸出的特征進行數(shù)據(jù)降維,得到了數(shù)據(jù)特征的二維空間映射圖。如圖5所示為VGG16網(wǎng)絡模型的二維特征映射圖,圖5(a)和圖5(b)分別為使用softmax損失函數(shù)在訓練集和測試集上的二維特征映射圖,從中可以看出softmax訓練的特征,過分關(guān)注了正確類別,忽略了負樣本的得分,導致特征分布較為散亂,各類特征的聚集性較差,每一個類別之間的距離較近,各類之間沒有形成一定的界限。在測試集上數(shù)據(jù)分布則是更加散亂。圖5(c)和圖5(d)分別為使用標簽聚類損失函數(shù)在訓練集和測試集上的二維特征映射圖,從中可以看出在訓練集當中使用標簽聚類損失后,各類別之間的特征被完全分離,表現(xiàn)為每一類特征向類別中心聚集,特征的聚集程度顯著提升,每一類的特征中心被完全分離,各類別之間的界限更加明顯,在二維空間形成了較好的數(shù)據(jù)分布。在測試集上的表現(xiàn)相對于softmax損失也有較大的改善。
(a) VGG16+softmax訓練集二維特征映射圖(b) VGG16+softmax測試集二維特征映射圖
(c) VGG16+label訓練集二維特征映射圖(d) VGG16+label測試集二維特征映射圖
為了更加直觀有效的觀察不同損失函數(shù)在網(wǎng)絡模型中對于遙感影像不同場景的分類性能。本文繪制了各類別場景的精度對比圖,如圖6(a)和圖6(b)所示分別為VGG16網(wǎng)絡模型和ResNet50網(wǎng)絡模型使用不同損失函數(shù)的各類別精度對比圖,可以看出本文提出的標簽聚類損失函數(shù)較softmax損失各類別場景的準確度均得到了不同程度的提高,尤其是ResNet50網(wǎng)絡模型中提升效果更加顯著。同時可以看出在準確率最低的第8類和第28類(教堂,宮殿)也均獲得了較好的提升效果。
(a) VGG16網(wǎng)絡模型不同損失函數(shù)各類別精度對比圖(b) ResNet50網(wǎng)絡模型不同損失函數(shù)各類別精度對比圖
為了評價不同算法的分類效果,將本文提出的方法與目前幾種流行的方法進行比較,如表3所示,本文方法得到了較好的分類精度。
表3 不同方法分類準確率
為了解決高分遙感影像同類別場景差異性較大、不同類別場景相似性較大的問題,本文提出了一種標簽聚類損失,使用歐氏距離和余弦距離共同度量類內(nèi)特征和類間中心的絕對距離與角度變化。在兩個不同的網(wǎng)絡模型中進行了優(yōu)化訓練,使學習到特征向每一類的中心進行聚集,并且每一個類別中心之間都被區(qū)分開來,達到了最小化類內(nèi)距離、最大化類間距離的效果,學習到了擁有較強區(qū)分度的遙感場景特征。通過實驗結(jié)果表明本文提出的方法在不增加訓練時間、模型規(guī)模以及訓練樣本的同時,可以直接用于不同的網(wǎng)絡模型中。用以提升基準模型的準確率,并且支持端到端的訓練模式,不需要任何復雜的處理流程,在遙感影像分類任務中具有較大的優(yōu)勢。在之后的研究中將進一步進行損失函數(shù)的改進,減少人工的干預以及改進超參數(shù)調(diào)優(yōu)的方法,使其更好地指導神經(jīng)網(wǎng)絡模型的訓練,能夠使遙感影像分類的準確率能夠得到進一步的提升。