孫建國,田 野,李思照
(哈爾濱工程大學(xué) 計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院,黑龍江 哈爾濱 150001)
隨著傳感器技術(shù)的迅猛發(fā)展,高分遙感圖像的數(shù)據(jù)量顯著增加。其復(fù)雜場(chǎng)景識(shí)別和分類在遙感圖像的應(yīng)用中起著重要的作用,被廣泛應(yīng)用于城市規(guī)劃、土地資源分配及全球環(huán)境污染監(jiān)測(cè)等方面,具有重要的理論意義和實(shí)踐價(jià)值。遙感圖像不僅具有豐富的空間和紋理特征,而且還包含大量的場(chǎng)景語義信息。因此為了理解和識(shí)別遙感圖像中的場(chǎng)景信息,遙感圖像場(chǎng)景分類技術(shù)獲得了航空和衛(wèi)星圖像分析領(lǐng)域研究者的廣泛關(guān)注[1]。
場(chǎng)景分類的核心是遙感圖像特征提取,傳統(tǒng)的遙感圖像場(chǎng)景分類研究工作大致可以分為具有底層場(chǎng)景特征的方法和具有中層場(chǎng)景特征的方法[2]。常用的低層方法包括尺度不變特征變換、局部二進(jìn)制模式以及顏色直方圖等。中層方法通過對(duì)低層本地特征描述符進(jìn)行編碼來表示場(chǎng)景,中層編碼方法包括視覺詞袋、空間金字塔匹配以及潛在迪利克雷分配等。然而這些方法在對(duì)信息更加豐富、結(jié)構(gòu)更加復(fù)雜的高分遙感圖像進(jìn)行分類時(shí),由于受到遙感圖像中包含的復(fù)雜的非線性特征、光譜信息之間在互補(bǔ)的同時(shí)又存在極大冗余性特點(diǎn)的影響,很難得到理想的分類結(jié)果[3]。
近年來,深度卷積神經(jīng)網(wǎng)絡(luò)(CNN)[4-5]在遙感場(chǎng)景分類領(lǐng)域取得了顯著成就。與基于人工設(shè)計(jì)的低層和中層特征不同,CNN通過學(xué)習(xí)大量的樣本來生成圖像的特征表示。同時(shí),CNN具有多層結(jié)構(gòu),獲得的深層特征相對(duì)于手工設(shè)計(jì)的特征而言是對(duì)遙感圖像內(nèi)容的高層抽象,在對(duì)復(fù)雜場(chǎng)景識(shí)別時(shí)有著更好的效果。然而在應(yīng)用CNN進(jìn)行遙感圖像場(chǎng)景分類時(shí),通常情況下需要大量均衡的標(biāo)記數(shù)據(jù)進(jìn)行訓(xùn)練,當(dāng)樣本數(shù)量不均衡時(shí)很難,CNN很難在樣本較少的種類上實(shí)現(xiàn)較好的分類性能。
為了解決遙感圖像場(chǎng)景分類中的數(shù)據(jù)不平衡問題,許多數(shù)據(jù)不平衡處理方法被提出[6-8]。文獻(xiàn)[7]針對(duì)數(shù)據(jù)進(jìn)行重新采樣,對(duì)多數(shù)類進(jìn)行下采樣并對(duì)少數(shù)類進(jìn)行過采樣以確保每個(gè)類別的均等分布。文獻(xiàn)[8]基于重新加權(quán)的方法,在損失函數(shù)中對(duì)于不同的類別加入與類別數(shù)量成反比的權(quán)重系數(shù)。文獻(xiàn)[9]采用元度量學(xué)習(xí)的方式,對(duì)多數(shù)類進(jìn)行隨機(jī)訓(xùn)練以學(xué)習(xí)跨數(shù)據(jù)分布的廣義知識(shí),然后在所有類別數(shù)據(jù)上進(jìn)行微調(diào),以進(jìn)一步提高模型的分類性能。然而,這些方法在處理高度不平衡數(shù)據(jù)時(shí)仍然受到一定的限制。重采樣方法可能會(huì)丟失多數(shù)類的信息并對(duì)少數(shù)類數(shù)據(jù)過擬合,重加權(quán)的方式只能在一定程度上緩解不平衡數(shù)據(jù)的分類問題,而元度量學(xué)習(xí)需要經(jīng)過多次訓(xùn)練,并不是一種端到端的學(xué)習(xí)方式。
本文提出一種新的基于混合采樣與插值訓(xùn)練的端到端的訓(xùn)練模型算法,來解決遙感圖像場(chǎng)景分類中的數(shù)據(jù)不平衡問題。具體來說,將遙感圖像的訓(xùn)練數(shù)據(jù)分為樣本均衡的訓(xùn)練子集和樣本高不均衡的訓(xùn)練子集兩部分。在訓(xùn)練模型過程中,使用MixUp[10]方法,對(duì)兩部分的數(shù)據(jù)信息充分混合,以提高CNN對(duì)遙感圖像的分類性能。實(shí)驗(yàn)結(jié)果表明,基于混合采樣與插值訓(xùn)練的端到端的訓(xùn)練模型算法能夠在不影響對(duì)多數(shù)類別的分類性能的情況下提高CNN對(duì)少數(shù)類別的分類精度。
本文提出的基于混合采樣與插值訓(xùn)練的場(chǎng)景分類方法主要分為3個(gè)步驟:首先通過混合采樣將數(shù)據(jù)分為樣本均衡訓(xùn)練子集和高不平衡訓(xùn)練子集兩部分;然后使用MixUp方法對(duì)兩個(gè)子集中的數(shù)據(jù)進(jìn)行融合產(chǎn)生新的樣本,并送入CNN中訓(xùn)練模型;最后通過多次重復(fù)迭代上述步驟得到泛化能力好的分類模型。
在訓(xùn)練神經(jīng)網(wǎng)絡(luò)的過程中,網(wǎng)絡(luò)的規(guī)模受到樣本數(shù)量的限制,訓(xùn)練樣本的多樣性對(duì)于模型的泛化性能有著直接的影響。因此,數(shù)據(jù)增廣技術(shù)已經(jīng)成為了在訓(xùn)練模型是的一種常用手段,通常情況下,依據(jù)是否生成新的虛擬樣本,對(duì)于遙感圖像來說,數(shù)據(jù)增廣可以分為兩類:一類是通過隨機(jī)剪裁、水平翻轉(zhuǎn)、垂直翻轉(zhuǎn)等簡單運(yùn)算得到增廣后的樣本;另一類則是通過生成對(duì)抗網(wǎng)絡(luò)、線性插值等手段,以原樣本為基礎(chǔ)生成新的虛擬樣本。
λ~Beta(α,α),
(1)
λ′=max(λ,1-λ),
(2)
(3)
(4)
這種半監(jiān)督學(xué)習(xí)方法是利用了插值訓(xùn)練方法所產(chǎn)生的樣本對(duì)原樣本的線性疊加而生成的,可以使不同類別樣本間的分布更為平滑,進(jìn)一步提高模型的識(shí)別能力。
(5)
本節(jié)首先介紹了實(shí)驗(yàn)環(huán)境和數(shù)據(jù),然后介紹了實(shí)驗(yàn)過程,最后將本文方法和其他相關(guān)算法進(jìn)行對(duì)比。通過準(zhǔn)確率、混淆矩陣和不同類別分類效果對(duì)比的方式證明本文算法在處理高不平衡遙感數(shù)據(jù)時(shí)的優(yōu)勢(shì)。
本文采用了航空影像數(shù)據(jù)集(Aerial Image Dataset,AID)[12]進(jìn)行實(shí)驗(yàn)驗(yàn)證。AID數(shù)據(jù)集中共有30類場(chǎng)景,每個(gè)場(chǎng)景類別的圖像數(shù)量在220~420之間,共計(jì)10 000張場(chǎng)景圖像。圖像大小為600×600 px,部分場(chǎng)景圖像如圖1所示。在AID數(shù)據(jù)集的每個(gè)類別中隨機(jī)選取50%的樣本作為訓(xùn)練數(shù)據(jù),并在余下的數(shù)據(jù)中,每個(gè)類別選取100個(gè)樣本作為測(cè)試數(shù)據(jù)集,余下的樣本作為驗(yàn)證集。
圖1 部分遙感圖像示例Fig.1 Some samples of remote sensing images
使用在Imagenet數(shù)據(jù)集上預(yù)訓(xùn)練的Resnet50[13]作為模型的框架,并且將Resnet50最后一個(gè)1 000維度的全鏈接層改為30個(gè)維度的全鏈接層以實(shí)現(xiàn)對(duì)遙感圖像的場(chǎng)景分類。
對(duì)于本文實(shí)驗(yàn),在混合采樣后得到的兩個(gè)數(shù)據(jù)子集中,每個(gè)子集選取16個(gè)樣本作為一個(gè)批次,200批次為一個(gè)epoch,共計(jì)迭代40個(gè)epoch,并使用Adam優(yōu)化器以3×10-5的學(xué)習(xí)率優(yōu)化模型。對(duì)于其他對(duì)比方法,使用Adam作為優(yōu)化器以3×10-5的學(xué)習(xí)率優(yōu)化模型訓(xùn)練500個(gè)epoch,使用驗(yàn)證集上表現(xiàn)最佳的模型在測(cè)試集上的準(zhǔn)確率作為最終結(jié)果。
為了評(píng)價(jià)本文提出的高不平衡遙感圖像場(chǎng)景分類算法性能,將其與現(xiàn)有的重采樣、重加權(quán)以及元度量學(xué)習(xí)方法進(jìn)行對(duì)比。同時(shí),在不使用任何策略的情況下訓(xùn)練Resnet50模型作為基準(zhǔn)對(duì)比方法。
實(shí)驗(yàn)一結(jié)果如表1所示。由表1可見,在少數(shù)類別樣本中,在每個(gè)類別僅有5個(gè)樣本的情況下,無論是對(duì)多數(shù)類的分類情況,還是對(duì)少數(shù)類樣本的分類情況,本文算法的分類準(zhǔn)確率都是最高的,充分證明了本文算法在處理高不平衡遙感場(chǎng)景分類時(shí)的優(yōu)勢(shì)。
表1 實(shí)驗(yàn)一:不同算法分類精度的比較
圖2和圖3為實(shí)驗(yàn)一中元度量學(xué)習(xí)與本文算法在30類遙感圖像測(cè)試集上的混淆矩陣,清晰顯示了算法對(duì)不同類別的識(shí)別精度。通過圖2與圖3的對(duì)比可以看出,本文方法既能充分提高少樣本類別分類準(zhǔn)確率,又能在多樣本類中保持較好的識(shí)別效果。
圖2 實(shí)驗(yàn)一:元度量學(xué)習(xí)的混淆矩陣Fig.2 Experiment 1:Confusion matrices of meta metric learning
圖3 實(shí)驗(yàn)一:本文算法的混淆矩陣Fig.3 Experiment 1:confusion matrices of our algorithms
實(shí)驗(yàn)二結(jié)果如表2所示。同實(shí)驗(yàn)一的結(jié)果相似,當(dāng)少數(shù)類的樣本數(shù)量略有提升時(shí),本文算法在所有類別的分類精度上仍具有較大優(yōu)勢(shì)。
表2 實(shí)驗(yàn)二:不同算法分類精度的比較
圖4為實(shí)驗(yàn)二中本文算法在30類遙感圖像測(cè)試集上的混淆矩陣。
圖4 實(shí)驗(yàn)二:本文算法的混淆矩陣Fig.4 Experiment 2:confusion matrices of our algorithms
圖5通過對(duì)比的方式,詳細(xì)顯示了本文算法和元度量學(xué)習(xí)算法在少數(shù)類別中,每個(gè)類別有10個(gè)樣本情況下的精度對(duì)比。由圖5可知,在每個(gè)少數(shù)類別僅有10個(gè)訓(xùn)練樣本的情況下雖然本文算法對(duì)個(gè)別類別的分類精度略有降低,但對(duì)于大多數(shù)類別的分類精度均有明顯提高。
圖5 實(shí)驗(yàn)二:本文算法與元度量學(xué)習(xí)方法精度對(duì)比Fig.5 Experiment 2:accuracy comparison between the algorithm in this paper and the meta-metric learning method
對(duì)高不平衡分布的遙感圖像數(shù)據(jù),本文首先采用混合采樣的方式對(duì)數(shù)據(jù)集進(jìn)行處理,將數(shù)據(jù)集分為兩個(gè)子集,然后基于插值運(yùn)算對(duì)兩個(gè)數(shù)據(jù)集中的樣本進(jìn)行處理,將得到的新樣本用于訓(xùn)練遙感圖像場(chǎng)景分類模型。由實(shí)驗(yàn)結(jié)果可以看出,所提出的混合采樣與值運(yùn)算方法在處理類不平衡的遙感數(shù)據(jù)時(shí),既能很好地改善少數(shù)類別的識(shí)別精度,又能對(duì)多數(shù)類別的識(shí)別精度有所提升,最終提升整體分類性能。