周國華,蔣暉,顧曉清,殷新春
(1.常州工業(yè)職業(yè)技術學院信息工程學院,江蘇 常州 213164;2.常州大學計算機與人工智能學院,江蘇常州 213164;3.揚州大學 信息工程學院,江蘇 揚州 225127)
隨著人工智能技術的發(fā)展,基于機器學習的遙感圖像場景分類能夠準確、快速地識別地物的類別信息,在精準農(nóng)業(yè)、地質(zhì)調(diào)查、軍事偵察、識別偽裝等領域有重要應用[1-2]。實時遙感場景分類是對從遙感圖像中提取的內(nèi)容進行實時場景分類和識別的過程。提高實時場景分類的準確性有利于提高目標檢測結果,更好地完成覆蓋分析、利用分析、土地規(guī)劃和土地資源建設等任務[3-5]。目前,常用的傳統(tǒng)模式識別和分類方法有支持向量機、深度學習、神經(jīng)網(wǎng)絡、主動學習和稀疏表示等[6-10]。給定一個輸入數(shù)據(jù)矩陣,通過稀疏表示旨在找到一組基本向量(即字典),捕獲高層語義以及相對于字典的稀疏坐標,使得每個數(shù)據(jù)點均可表示為少量向量的線性組合。例如,WEI 等[11]提出了一種基于分析字典學習的遙感圖像場景分類方法,該方法將頻譜數(shù)據(jù)分成若干段,在學習過程中同時考慮譜內(nèi)和譜間的特征;同時,為保持光譜之間的關系,將像素之間的相似性作為約束條件。HAO 等[12]開發(fā)了挖掘高光譜圖像的類內(nèi)和類間結構信息字典。首先,構造了2 個特殊的流形正則化器,平衡類內(nèi)共享和類間競爭,將這些正則化器合并至目標函數(shù),學習判別能力強的字典。然后,在協(xié)同表示框架下,通過學習類字典得到稀疏表示。最后,將數(shù)據(jù)的稀疏表示輸入支持向量機進行訓練,應用支持向量機分類器預測測試集標簽。VU 等[13]開發(fā)了一種基于共享詞典和特定類詞典的圖像分類方法。對于共享字典,提出了低秩約束,即生成的子空間是低維的,且該字典對應的系數(shù)相似。對于特定類詞典,則引入Fisher 判別。
雖然這些稀疏字典學習方法在一定分類場景下是有效的,但遙感圖像場景分類工作仍面臨巨大挑戰(zhàn)。原因在于:(1)數(shù)據(jù)域不一致性。遙感圖像受各種因素影響,如在不同的光照和天氣條件下拍攝的遙感圖像會發(fā)生變化[14]。傳統(tǒng)的分類器假設了一個固定的場景,即源域和目標域應來自同一概率分布,但當訓練圖像和測試圖像之間存在數(shù)據(jù)集偏差時,分類器的性能將大大降低。(2)缺少標記數(shù)據(jù)。傳統(tǒng)的遙感圖像場景分類方法需要足夠多的帶標記的訓練圖像,而在實際應用中,要獲得大量的圖像標記幾乎是不可行的,并且在新的領域,帶標記的圖像通常是極少的[15]。(3)普通圖像的分類算法不能直接應用于遙感圖像場景分類。因為遙感圖像與普通圖像在成像角度、成像波段上差別很大,且遙感圖像具有方位敏感性[16]。
機器學習中的遷移學習能利用已有的標記樣本遷移知識輔助新樣本的學習,不需要數(shù)據(jù)同分布假設。從遷移場景看,根據(jù)目標域數(shù)據(jù)標記情況,可將遷移學習分為歸納式遷移學習和直推式遷移學習2 類,前者目標域數(shù)據(jù)標記,后者目標域數(shù)據(jù)不標記。機器學習中的半監(jiān)督學習方法同時使用未標記數(shù)據(jù)和少量標記數(shù)據(jù)進行模式識別。即使在目標域標記數(shù)據(jù)較少的情況下,半監(jiān)督方法也比無監(jiān)督方法效果好[17]。目標域少量帶標記樣本對分類器的構建具有指導作用,同時利用未標記的目標域數(shù)據(jù),提高分類器的性能。
一般來說,遙感圖像分類任務中帶標記的源域數(shù)據(jù)和不帶標記的目標域數(shù)據(jù)都較充足,有標記的目標域數(shù)據(jù)則比較稀缺?;谶@一場景,本文研究一種新的半監(jiān)督遷移學習的遙感場景圖像分類問題,即源域數(shù)據(jù)帶類別標記,目標域數(shù)據(jù)僅少量帶標記。進而提出一種基于半監(jiān)督子空間遷移的稀疏表示(sparse representation method based on semi-supervised transfer learning subspace,SR-SSTLS)遙感圖像場景分類方法。為減少在源域和目標域分布上的差異,在源域、目標域和源域-目標域數(shù)據(jù)之間建立拉普拉斯圖矩陣,將不同數(shù)據(jù)域的遙感圖像投影至同一子空間,同時,在投影子空間上學習共享字典,能很好地編碼源域和目標域上的數(shù)據(jù)。對目標域上未標記的數(shù)據(jù),用拉普拉斯正則化項保證其子空間內(nèi)數(shù)據(jù)點的幾何流形結構。
本文的主要貢獻有:(1)提出了一種基于半監(jiān)督和遷移學習的稀疏表示方法。該方法既屬于遷移學習的范疇,又屬于半監(jiān)督學習的范疇,不僅能有效利用相關場景的帶標記圖像信息,也能有效利用目標場景帶標記和未帶標記的圖像信息。在遙感圖像分類中是一種新的嘗試。(2)為有效求解子空間和稀疏表示模型的最優(yōu)參數(shù),采用交替優(yōu)化方法,使得子空間和稀疏表示的參數(shù)同時達到最優(yōu)。(3)在真實遙感圖像場景數(shù)據(jù)集上的大量實驗表明,方法有效且優(yōu)于多個對比的非遷移和遷移學習算法。
給定數(shù)據(jù)集X=[x1,x2,…,xN],設D=[d1,d2,…,dk]為字典矩陣,A=[a1,a2,…,aN]為稀疏編碼矩陣,A中的第i行對應第i個樣本的稀疏表示。也就是說,每個數(shù)據(jù)點均可表示為基向量的稀疏線性組合。用最小化經(jīng)驗損失函數(shù),得到稀疏表示式[18]:
其中,正則化范數(shù)項中p=1,2 或∞,‖ ‖0表示零階范數(shù)。用拉格朗日乘子法將式(1)轉(zhuǎn)化為無約束優(yōu)化問題:
其中,λ為大于0 的實數(shù)。式(2)中的2 個待優(yōu)化變量常通過LASSO(least absolute shrinkage and selection operator)[19]或OMP(orthogonal matching pursuit)[20]方法求解。
對于待分類的測試樣本y,分類結果可表示為
其中,Xi為第i類訓練數(shù)據(jù)。式(3)也可表示為利用稀疏判別系數(shù)訓練的其他形式的分類器,如支持向量機和K近鄰分類器等。
本文提出的基于半監(jiān)督子空間遷移的稀疏表示方法通過投影矩陣將源域數(shù)據(jù)和目標域數(shù)據(jù)投影至同一子空間,在最優(yōu)子空間令源域數(shù)據(jù)和目標域數(shù)據(jù)的分布偏移盡可能小。
設訓練集數(shù)據(jù)采集自2 個不同的領域:源域大量帶標記數(shù)據(jù)Xs=[xs,1,xs,2,…,xs,ns]∈Rd×ns,目標域帶標記數(shù)據(jù)Xt=[xt,1,xt,2,…,xt,nt]∈Rd×nt和未帶標記數(shù)據(jù)Xu=[xu,1,xu,2,…,xu,nt]∈Rd×nu。訓練數(shù)據(jù)集Z可表示為
為充分利用源域和目標域的可分辨信息,在源域、目標域和源域-目標域的數(shù)據(jù)之間分別構建拉普拉斯圖矩陣Ws,Wt和Wst,3 個矩陣的元素分別為Ws,ij,Wt,ij和Wst,ij:
首先,為減少不同領域分布變化的影響,使用投影矩陣將原始的高維特征空間投影至子空間,同時,在共享子空間學習字典,建立源域和目標域之間的聯(lián)系,可表示為
其中,Ps,Pt和Pu分別對應源域、帶標記目標域和未帶標記目標域的投影矩陣;As,At和Au分別對應源域、帶標記目標域和未帶標記目標域的稀疏編碼矩陣;D為源域和目標域?qū)W習的共享字典;β為正常數(shù)。式(7)的第4~6 項分別為源域、目標域和源域-目標域標記數(shù)據(jù)的拉普拉斯正則化項,使各自領域中同類樣本字典編碼盡可能相似,異類樣本字典編碼盡可能不同。由圖的拉普拉斯矩陣性質(zhì)[21],可將
其中,Ls,Lt和Lst分別為源域、目標域和源域-目標域上的圖拉普拉斯矩陣。
其次,考慮目標域未標記數(shù)據(jù)信息,引入數(shù)據(jù)Xu在稀疏編碼上的拉普拉斯正則化項,以保證子空間未標記數(shù)據(jù)的幾何流形結構,即
其中,Wu為目標域未標記數(shù)據(jù)Xu上的近鄰矩陣,Qu為對角矩陣,Lu為圖拉普拉斯矩陣。為此,建立Xu數(shù)據(jù)域上的鄰接矩陣Wu,其元素Wu,ij表示為
最后,考慮Xs,Xt和Xu數(shù)據(jù)上稀疏編碼的正則化,即。本文方法的目標函數(shù)為
其中,λ和γ為正常數(shù),用以調(diào)節(jié)各分項在目標函數(shù)中的占比。定義矩陣:
則式(11)可簡化為
模型涉及3 個參數(shù):字典D,投影矩陣P和稀疏編碼矩陣A,采用交替優(yōu)化方法求解最優(yōu)參數(shù)。
首先,固定參數(shù)D和A,求解參數(shù)P。此時,式(12)可轉(zhuǎn)化為
用拉格朗日對偶方法求矩陣P:
其中,δ為值很小的對角矩陣,其作用是避免求解矩陣P時XXT出現(xiàn)不可逆情況。
然后,固定參數(shù)P和A,求解參數(shù)D。此時,式(12)可轉(zhuǎn)化為
用拉格朗日對偶方法求矩陣D:
其中,Θ與矩陣δ的功能類似,也是一個值很小的對角矩陣。
最后,固定參數(shù)P和D,求解參數(shù)A。令
則式(12)可轉(zhuǎn)化為
由于式(17)的每一項都是二次的,對ai取一階導數(shù),可得
對測試圖像z,用獲得的投影矩陣P和字典D計算稀疏編碼az:
于是,通過式(3)可實現(xiàn)對遙感場景圖像的分類。算法描述如下:
算法1基于半監(jiān)督子空間遷移的稀疏表示(SR-SSTLS)方法。
輸入:源域數(shù)據(jù)Xs、帶標記目標域數(shù)據(jù)Xt和未帶標記目標域數(shù)據(jù)Xu。
輸出:測試圖像z的類別標簽。
初始化:t=0,設置迭代最大次數(shù)T,用式(1)計算每個類別樣本的字典,初始化D0。
Fort Step 1 固定參數(shù)Dt和At,用式(14)求解參數(shù)Pt; Step 2 固定參數(shù)Pt和At,用式(16)求解參數(shù)Dt; Step 3 固定參數(shù)Pt和Dt,用式(18)求解參數(shù)At; End Step 4 用式(19)計算測試樣本的稀疏編碼; Step 5 用式(3)計算測試樣本的類別標簽。 對提出的SR-SSTLS 方法在真實遙感圖像數(shù)據(jù)集上進行驗證。實驗所用數(shù)據(jù)集為4 種公開的高光譜遙感圖像數(shù)據(jù)集:RSSCN7[22]、Ucmerced Land[23]、AID[24]和Google[25],其在圖像像素、場景類別和圖像數(shù)量上存在差異。RSSCN7 數(shù)據(jù)集由7 個子類的2 800 幅圖像組成,每個子類有400 幅圖像,圖像像素為400×400;Ucmerced Land 數(shù)據(jù)集由21個子類的2 100 幅航空場景圖像組成,圖像像素為256×256;AID 為由30 個子類的10 000 幅圖像組成的大型航空場景數(shù)據(jù)集,圖像像素為600×600;Google 也為航空場景數(shù)據(jù)集,由12 個子類的航空場景圖像組成,每個子類包含200 幅圖像,圖像像素為200×200。4 種遙感場景圖像數(shù)據(jù)集對應子類的部分樣本圖像示例如圖1 所示。為有效表示遙感圖像,采用文獻[15]的方法,在訓練集上分別用CaffeNet[26]和VGG-VD-16[24]模型提取2 種不同類型的深度特征。CaffeNet 由13 層神經(jīng)網(wǎng)絡組成,包括5 個卷積層、5 個匯集層和3 個完全連接層。VGG-VD-16 由16 層神經(jīng)網(wǎng)絡組成,包括13個卷積層和3 個完全連接層。提取得到的2 種遙感圖像深度特征的維數(shù)均為2 048。 圖1 4 種遙感圖像數(shù)據(jù)集的部分樣本圖像示例Fig.1 Sample images in four remote sensing image datasets 將SR-SSTLS 算法與多個常規(guī)分類算法和遷移學習分類算法做了比較,包括稀疏表示分類器SC[18]、局部保持半監(jiān)督支持向量機LPSSVM[17]、深度神經(jīng)網(wǎng)絡AlexNet[27]、適應正則化遷移學習ARTL[28]、半監(jiān)督學習遷移分量分析SS-TCA[29]和聯(lián)合分布分析JDA[30]。各算法的參數(shù)設置如下:SC使用K近鄰分類器,K近鄰參數(shù)的搜索范圍為{1,2,…,9},字典的大小與每類中訓練圖像的數(shù)量相同。LPSSVM 的K近鄰參數(shù)的搜索范圍為{1,2,…,9},熱核參數(shù)的搜索范圍為{0.5,1.0,…,4.0},正則化參數(shù)的搜索范圍為{10?3,10?2,…,103},平衡參數(shù)的搜索范圍為{2?7,2?4,2?1,…,27}。ARTL 收縮參數(shù)的搜索范圍為{0.01,0.05,0.1,0.2,…,1},MMD 參數(shù)的搜索范圍為{0.1,0.5,1,2,…,10},流形正則化參數(shù)的搜索范圍為{0.001,0.01,…,1 000},K近鄰參數(shù)的搜索范圍為{1,2,…,9}。SS-TCA 參數(shù)μ的搜索范圍為{10?3,10?2,…,103},K近鄰參數(shù)的搜索范圍為{1,2,…,9}。JDA 子空間參數(shù)的搜索范圍為{10,20,…,200},正則化參數(shù)的搜索范圍為{10?3,10?2,…,103}。SR-SSTLS 子空間維數(shù)的搜索范圍為{300,400,500},參數(shù)η的搜索范圍為{0.1,0.5,2,5},參 數(shù)β和γ的搜索范圍為{10?2,10?1,1,2,4,10},字典的大小與每類訓練圖像中的數(shù)量相同。AlexNet 網(wǎng)絡由5 個卷積層和3 個完全連接層組成,參照文獻[31]的方法,實驗中同時調(diào)整源域和目標域訓練數(shù)據(jù),得到AlexNet 模型參數(shù)。 設計3 個遷移遙感圖像分類場景:Ucmerced Land→RSSCN7、AID→RSSCN7 和 Google→RSSCN7,源域分別為Ucmerced Land、AID 和Google 數(shù)據(jù)集,目標域均為RSSCN7 數(shù)據(jù)集。為與RSSCN7 中的6 個子類匹配,從源域中選擇相似子類,3 個遷移遙感圖像分類場景及其匹配子類的詳細信息如表1 所示。隨機選取80%的源域圖像和5%的目標域圖像進行模型訓練,其中一半目標域圖像帶類別標簽,一半不帶類別標簽,剩余的目標域圖像用于測試。此過程執(zhí)行10 次,記錄每次運行的分類精度。深度特征的提取工作在Titan XP GPU的Linux 平臺的Pythorch 中實現(xiàn),各對比算法在2.6 GHz 雙 核CPU 和16 G 內(nèi) 存Windows 平臺的MATLAB 上實現(xiàn)。 表1 4 種遙感圖像數(shù)據(jù)集的子類信息Table 1 The selected subclasses in four remote sensing image datasets 比較SR-SSTLS 在3 種跨領域遙感場景分類任務中的性能。各子類的實驗結果見表2~表4。各算法的平均分類準確率如圖2 所示。實驗結果表明:(1)在所有分類子任務中,遷移學習方法(ARTL、SS-TCA、JDA 和SR-SSTLS)較非遷移學習方法(SC 和LPSSVM)表現(xiàn)更好。深度模型AlexNet 與ARTL 方法的分類準確率相當。在3 個場景分類任務中,源域和目標域均采集自不同的遙感數(shù)據(jù)集,因此遙感圖像的類型和內(nèi)容有很大不同。然而,非遷移學習方法無法處理源域和目標域之間的差異,源域的輔助知識對目標域來說是有限的,特別是在Ucmerced Land→RSSCN7 任務中,數(shù)據(jù)集的分布差異很大,遷移學習方法優(yōu)勢明顯。(2)SR-SSTLS 在3 個跨域遙感場景分類任務中均取得了最好的識別效果。SR-SSTLS 將源域和目標域的所有圖像投影至公共子空間,并在子空間學習共享的判別字典,從而從源域中提取足夠準確的輔助信息。共享字典通過圖的拉普拉斯正則化項挖掘幾何結構信息,從而很好地利用標記圖像的鑒別信息進行模型訓練。此外,結合子空間和字典學習的迭代學習策略,保證所有參數(shù)最優(yōu)。(3)深層特征提供了分類器高效的特征表示。因遙感場景圖像中包含的信息往往與其子類密切相關,傳統(tǒng)的特征信息,如顏色、紋理、空間和光譜信息已不能滿足遙感場景分類的需要,特別是當某些子類對應的特征不顯著時,分類器的分類精度降低。盡管SR-SSTLS是一種非深度學習方法,但實驗用CaffeNet 和VGG-VD-16 模型獲得了遙感圖像的深度特征,SR-SSTLS 具有令人滿意的分類結果。 圖2 算法的平均分類精度Fig.2 Average classification accuracy of methods 表2 Ucmerced Land→RSSCN7 任務中每個子類的分類準確率Table 2 Classification accuracy of each subclass on the Ucmerced Land→RSSCN7 task 表3 AID→RSSCN7 任務中子類的分類準確率Table 3 Classification accuracy of each subclass on the AID→RSSCN7 task 表4 Google→RSSCN7 任務中子類的分類準確率Table 4 Classification accuracy of each subclass on the Google→RSSCN7 task 為進一步驗證SR-SSTLS 方法的性能,表5~表7 分別列出了SR-SSTLS 方法在3 個遷移遙感場景分類問題中的混淆矩陣。在RSSCN7 數(shù)據(jù)集中,每個場景子類的測試數(shù)據(jù)均由380 幅圖像組成?;煜仃囍械闹当硎痉诸惤Y果中對應子類的圖像數(shù)。由表5~ 表7 的結果可知:(1)SR-SSTLS 在Ucmerced Land→RSSCN7 場景中對草、河、森林子類的分類精度均在80%以上,而對工業(yè)子類的分類精度較低。這是因為RSSCN7 數(shù)據(jù)集的草、河、森林子類和Ucmerced Land 數(shù)據(jù)集的農(nóng)業(yè)、河、森林子類之間具有較高的相似性;而RSSCN7 數(shù)據(jù)集的工業(yè)子類和Ucmerced Land 數(shù)據(jù)集的建筑子類差異較大。(2)SR-SSTLS 在AID→RSSCN7 和Google→RSSCN7 場景中的分類精度與在Ucmerced Land→RSSCN7 場景中的相似,在源域和目標域中,遙感場景圖像相似度高的子類(如河和森林)的分類精度比遙感場景圖像相似度低的子類(如居民)的高。 表5 SR-SSTLS 方法在Ucmerced Land→RSSCN7 任務中的混淆矩陣Table 5 Confusion matrix of SR-SSTLS on Ucmerced Land→RSSCN7 task 表6 SR-SSTLS 方法在AID→RSSCN7 任務中的混淆矩陣Table 6 Confusion matrix of SR-SSTLS on AID→RSSCN7 task 表7 SR-SSTLS 方法在Google→RSSCN7 任務中的混淆矩陣Table 7 Confusion matrix of SR-SSTLS on Google→RSSCN7 task 提出了一種基于半監(jiān)督子空間遷移的稀疏表示遙感圖像場景分類方法。通過投影技術將源域和目標域數(shù)據(jù)投影至子空間,以減少不同領域分布間的差異,并通過學習共享字典建立源域和目標域之間的聯(lián)系,使得源域數(shù)據(jù)輔助目標域模型的建立。同時,對于目標域上的未標記數(shù)據(jù),SR-SSTLS 通過數(shù)據(jù)鄰接圖技術保持數(shù)據(jù)的流形結構,從而使模型表現(xiàn)出較高的分類能力。 本文只使用單一源域數(shù)據(jù)輔助目標域數(shù)據(jù)建立分類模型。后續(xù)工作主要包括:如何聯(lián)合多個源域數(shù)據(jù)輔助模型建立;稀疏表示的另一大優(yōu)點是去噪能力較強,下階段將研究本模型對帶噪遙感圖像場景的分類;另外,本文用交替優(yōu)化方法調(diào)整SRSSTLS 參數(shù),參數(shù)的訓練效率有待提高。3 實 驗
3.1 遙感圖像數(shù)據(jù)集和實驗設置
3.2 性能比較
4 結語