赫曉慧 李志強(qiáng) 李盼樂(lè) 田智慧 周廣勝,3
1(鄭州大學(xué)地球科學(xué)與技術(shù)學(xué)院 河南 鄭州 450052) 2(鄭州大學(xué)信息工程學(xué)院 河南 鄭州 450001) 3(中國(guó)氣象科學(xué)研究院鄭州大學(xué)生態(tài)氣象聯(lián)合實(shí)驗(yàn)室 河南 鄭州 450052)
隨著對(duì)地觀測(cè)和遙感技術(shù)的迅速發(fā)展,高分辨率數(shù)據(jù)成為重要的信息來(lái)源,比傳統(tǒng)圖像包含更多的結(jié)構(gòu)化和統(tǒng)一的數(shù)據(jù),對(duì)高分遙感數(shù)據(jù)的挖掘應(yīng)用在社會(huì)經(jīng)濟(jì)、政治、國(guó)防等方面建設(shè)中的重要性日益凸顯。遙感影像分類(lèi)是指根據(jù)遙感影像的內(nèi)容,自動(dòng)為每個(gè)遙感影像像素分配一個(gè)特定的語(yǔ)義標(biāo)簽,由于其在土地利用、城市規(guī)劃、土地資源管理等方面的重要應(yīng)用,已成為遙感圖像解譯領(lǐng)域的一個(gè)重要的研究?jī)?nèi)容[1-4]。
近年來(lái),隨著深度學(xué)習(xí)方法的普及,在包括圖像分類(lèi)[5]、對(duì)象識(shí)別[6]和語(yǔ)義分割[7]在內(nèi)的許多應(yīng)用中取得了矚目的成績(jī)。深度學(xué)習(xí)模型可以通過(guò)深層架構(gòu)神經(jīng)網(wǎng)絡(luò)來(lái)學(xué)習(xí)更強(qiáng)大、抽象和有區(qū)別的功能,而無(wú)需大量的工程技能和領(lǐng)域?qū)I(yè)知識(shí)。所有這些深度學(xué)習(xí)模型,尤其是卷積神經(jīng)網(wǎng)絡(luò)(CNN),更適用于遙感圖像分類(lèi)并取得優(yōu)異的結(jié)果[8-21]。
盡管基于CNN的方法已大大提高了分類(lèi)準(zhǔn)確性,但是依然沒(méi)有解決遙感影像分類(lèi)中類(lèi)不平衡問(wèn)題,即樣本比例不平衡和難易樣本不平衡。樣本比例不平衡是指在一個(gè)數(shù)據(jù)集中,一個(gè)類(lèi)的樣本很少,即少數(shù)類(lèi),另一類(lèi)樣本很多,即多數(shù)類(lèi)[22-24]。在遙感影像分類(lèi)問(wèn)題中,類(lèi)別的樣本比例存在嚴(yán)重不平衡性,例如背景、道路和建筑物三分類(lèi)時(shí),背景像素占絕大多數(shù),道路和建筑物占比較小。以馬薩諸塞州數(shù)據(jù)集中1 108幅訓(xùn)練集為例,道路像素平均比例為4.77%,最小占比不到1%,最大也不過(guò)20%。難易樣本數(shù)量不平衡是遙感影像分類(lèi)中固有的問(wèn)題。困難樣本是指難以分類(lèi)像素,例如,被樹(shù)木遮擋的道路像素;簡(jiǎn)單樣本就是可以輕松分類(lèi)的像素。傳統(tǒng)的分類(lèi)模型給予難易樣本相同的誤分類(lèi)代價(jià),包含較多簡(jiǎn)單樣本的類(lèi)別對(duì)整體損失值會(huì)起到?jīng)Q定性的影響,而含有較少困難樣本的類(lèi)別對(duì)損失的影響微乎其微,其必然導(dǎo)致模型傾向于含有較多易分訓(xùn)練樣本的類(lèi)別進(jìn)行預(yù)測(cè)。遙感影像包含豐富的目標(biāo)信息,不同樣本比例差距更大,而且相互遮擋嚴(yán)重,所以解決遙感影像分類(lèi)中類(lèi)不平衡問(wèn)題是至關(guān)重要的。
代價(jià)敏感學(xué)習(xí)是從算法層面解決不平衡問(wèn)題的主要方法。Kukar等[25]表明,將代價(jià)信息納入損失函數(shù)可以提高性能。但是,它們的代價(jià)是在網(wǎng)絡(luò)的多個(gè)運(yùn)行中隨機(jī)選擇的,并且在每次運(yùn)行的學(xué)習(xí)過(guò)程中保持不變。Chung等[26]提出了一個(gè)新的CoSen損失函數(shù),用回歸損失代替了傳統(tǒng)的Softmax,但是該損失函數(shù)存在當(dāng)網(wǎng)絡(luò)加深使梯度減小的問(wèn)題,不適用于深度神經(jīng)網(wǎng)絡(luò)。Khan等[27]提出了CoSen卷積神經(jīng)網(wǎng)絡(luò),同時(shí)對(duì)網(wǎng)絡(luò)的參數(shù)和cost參數(shù)進(jìn)行優(yōu)化,并在多種經(jīng)典損失函數(shù)(MSE loss,SVM loss,CE loss)上進(jìn)行實(shí)驗(yàn),提升了卷積神經(jīng)網(wǎng)絡(luò)的分類(lèi)準(zhǔn)確度,有效地解決了樣本不平衡的問(wèn)題,但是沒(méi)有考慮到簡(jiǎn)單樣本和困難樣本的關(guān)系。
以上方法證明代價(jià)敏感學(xué)習(xí)對(duì)解決類(lèi)不平衡問(wèn)題的有效性,但是都還存在著一些不足,并且沒(méi)有應(yīng)用到遙感影像分類(lèi)困難樣本中。為了解決遙感影像分類(lèi)中類(lèi)不平衡問(wèn)題,本文將代價(jià)敏感學(xué)習(xí)與深度學(xué)習(xí)相結(jié)合,提出自適應(yīng)樣本特征的代價(jià)敏感遙感影像分類(lèi)算法(SCoSen-CNN)。算法的核心思想是:首先,分別為每個(gè)類(lèi)分別建立損失函數(shù),同時(shí)對(duì)損失函數(shù)添加自適應(yīng)正負(fù)樣本平衡因子,降低樣本不平衡問(wèn)題對(duì)分類(lèi)模型精確度的影響,加速模型參數(shù)的自動(dòng)更新。然后引入誤分類(lèi)代價(jià)矩陣,不同誤分類(lèi)給予不同的誤分代價(jià),增加模型對(duì)困難樣本的學(xué)習(xí)能力,在一定程度上緩解了不平衡數(shù)據(jù)對(duì)模型分類(lèi)的影響。并且提出一種用于聯(lián)合交替優(yōu)化網(wǎng)絡(luò)參數(shù)和類(lèi)別代價(jià)敏感因子的算法。本文算法適用于不平衡遙感影像二分類(lèi)和多分類(lèi)問(wèn)題。
在為了解決遙感影像分類(lèi)任務(wù)中數(shù)據(jù)不平衡問(wèn)題,本文提出一種自適應(yīng)樣本特征的代價(jià)敏感損失函數(shù),將該損失函數(shù)引入到卷積神經(jīng)網(wǎng)絡(luò)(CNN)中,以構(gòu)建成代價(jià)敏感的卷積神經(jīng)網(wǎng)絡(luò),可以有效地解決遙感影像分類(lèi)任務(wù)中數(shù)據(jù)不平衡問(wèn)題,最后通過(guò)代價(jià)敏感的卷積神經(jīng)網(wǎng)絡(luò)的分類(lèi)結(jié)果即為最終的分類(lèi)結(jié)果。具體的算法流程如圖1所示。
圖1 本文算法總體流程
SCoSen首先在訓(xùn)練階段對(duì)各個(gè)類(lèi)分別建立損失函數(shù),計(jì)算每一個(gè)類(lèi)別的平均誤差,將所有類(lèi)的平均損失值相加,并且對(duì)訓(xùn)練樣本進(jìn)行特征統(tǒng)計(jì),根據(jù)統(tǒng)計(jì)的結(jié)果損失函數(shù)進(jìn)行動(dòng)態(tài)加權(quán)(u),最終的損失值由每個(gè)類(lèi)加權(quán)損失的平均值相加構(gòu)成,以解決樣本不平衡問(wèn)題。然后在CNN的輸出層和損失層之間增加代價(jià)敏感層,利用代價(jià)矩陣ξ對(duì)模型的輸出賦予不同的誤分類(lèi)代價(jià),從而解決困難樣本與簡(jiǎn)單樣本不平衡的問(wèn)題。
遙感影像分類(lèi)使用損失函數(shù)通常定義如下:
(1)
式中:y(i)(w,b)是模型第i個(gè)樣本的預(yù)測(cè)輸出;w、b是網(wǎng)絡(luò)權(quán)重和偏差;M是訓(xùn)練樣本總數(shù);d(i)∈{0,1}1×N是第i個(gè)樣本標(biāo)簽,N表示輸出層中神經(jīng)元的總數(shù),即類(lèi)別數(shù)。
該函數(shù)可以表示為訓(xùn)練集的平均損失,其中,l(*)可以是任何合適的損失函數(shù),如均方誤差(MSE)、交叉熵?fù)p失函數(shù)(CE)等,本文中使用的是交叉熵?fù)p失函數(shù),如式(2)所示。
(2)
CNN模型在訓(xùn)練集上表現(xiàn)不佳時(shí),會(huì)造成更大的誤差。學(xué)習(xí)算法的目的是找到最優(yōu)參數(shù)(w*,b*),該參數(shù)給出最小的可能成本E*。因此,優(yōu)化目標(biāo)為:
(3)
遙感影像中類(lèi)別的樣本比例存在嚴(yán)重的不平衡性,傳統(tǒng)的損失函數(shù)無(wú)法區(qū)分易分樣本和稀有樣本,較多的樣本造成大量的損耗,導(dǎo)致模型傾向于簡(jiǎn)單樣本學(xué)習(xí),而忽略了稀有困難樣本。
針對(duì)遙感影像訓(xùn)練集中樣本比例不平衡問(wèn)題,本文將每個(gè)類(lèi)別的損失分別考慮,分別構(gòu)建一個(gè)損失函數(shù),然后計(jì)算每一個(gè)類(lèi)別的平均誤差:
(4)
然后將所有類(lèi)的平均損失值相加,最終的損失值由每類(lèi)損失的平均值相加構(gòu)成,以減小不同類(lèi)別之間訓(xùn)練樣本數(shù)量不平衡性的影響,平均類(lèi)別損失如式(5)所示。
(5)
同時(shí),通過(guò)原始(訓(xùn)練)數(shù)據(jù)集中的原始類(lèi)比例,在損失函數(shù)的計(jì)算中添加自適應(yīng)樣本特征的權(quán)重,將式(5)改進(jìn)為自適應(yīng)樣本特征的加權(quán)交叉熵?fù)p失函數(shù)(SCE)。其中權(quán)重u定義如下:
(6)
式中:N是初始數(shù)據(jù)集中的類(lèi)數(shù);un是第n類(lèi)樣本所添加權(quán)重;pn是初始數(shù)據(jù)集中第n類(lèi)樣本占總樣本的比例。式(7)展示了自適應(yīng)樣本特征的加權(quán)損失函數(shù):
un∈U(D)
U(D)=(u1,u2,…,uN)
(7)
式中:每個(gè)類(lèi)的權(quán)重un從包含權(quán)重的權(quán)重U(D)集合中獲取,權(quán)重U(D)在學(xué)習(xí)過(guò)程開(kāi)始時(shí)針對(duì)初始數(shù)據(jù)集D計(jì)算得出,不需要通過(guò)大量的實(shí)驗(yàn)進(jìn)行調(diào)整,并且適應(yīng)隨著訓(xùn)練過(guò)程變化而變化的數(shù)據(jù)分布。
SCE通過(guò)對(duì)每個(gè)類(lèi)都建立損失函數(shù),并且添加權(quán)重調(diào)節(jié)因子,最終的損失值由每個(gè)類(lèi)的加權(quán)損失的平均值相加構(gòu)成。盡管SCE平衡了樣本比例,但它并未區(qū)分簡(jiǎn)單/困難樣本。本文將SCE函數(shù)重塑為輕量化簡(jiǎn)單樣本損失,從而將訓(xùn)練重點(diǎn)放在稀有困難樣本上。
針對(duì)遙感影像分類(lèi)中困難樣本與簡(jiǎn)單樣本不平衡問(wèn)題,本文將代價(jià)敏感學(xué)習(xí)應(yīng)用到深度學(xué)習(xí)中,使不同類(lèi)別之間發(fā)生誤分類(lèi)獲得不同的懲罰代價(jià),將SCE改進(jìn)為自適應(yīng)樣本特征的代價(jià)敏感(SCoSen)損失函數(shù):
(8)
傳統(tǒng)代價(jià)矩陣通常具有以下形式:
(9)
(10)
這種代價(jià)矩陣可能將相應(yīng)的損失增加到很大的值。在CNN訓(xùn)練期間,這種網(wǎng)絡(luò)損失可能使訓(xùn)練過(guò)程不穩(wěn)定,并可能導(dǎo)致誤差函數(shù)不收斂。本文使用替代的代價(jià)矩陣。
相較于SCE,SCoSen-CE給激活值乘以一個(gè)代價(jià)矩陣的代價(jià)向量,將誤分類(lèi)代價(jià)考慮在內(nèi)。不僅通過(guò)原始(訓(xùn)練)數(shù)據(jù)集中的原始類(lèi)比例,在計(jì)算中添加自適應(yīng)樣本特征的權(quán)重,平衡了訓(xùn)練集的樣本比例,而且可以區(qū)分簡(jiǎn)單和困難樣本,減少了簡(jiǎn)單樣本的損失值,將訓(xùn)練的重點(diǎn)放在了分類(lèi)困難的稀有樣本上。接下來(lái)給出本文使用的代價(jià)矩陣。
本文使用一個(gè)適合于卷積神經(jīng)網(wǎng)絡(luò)(CNN)訓(xùn)練的代價(jià)矩陣ξ。代價(jià)矩陣ξ用于修改CNN最后一層的輸出(在Softmax層和Loss層之前),如圖2所示。然后在計(jì)算分類(lèi)損失之前將得到的激活值(activate)壓縮在[0,1]之間。
圖2 訓(xùn)練過(guò)程中使用的CNN參數(shù)(θ)與類(lèi)相關(guān) 代價(jià)矩陣(ξ)和權(quán)重(w)的關(guān)系
對(duì)于CNN,分類(lèi)決策是針對(duì)具有最大分類(lèi)得分的類(lèi)別做出的。在訓(xùn)練過(guò)程中,修改分類(lèi)模型權(quán)重以重塑分類(lèi)模型的置信度(分類(lèi)概率),使所需分類(lèi)具有最大分?jǐn)?shù),而其他分類(lèi)具有明顯較低的分?jǐn)?shù)。由于較少的類(lèi)別在訓(xùn)練集中所占的比例不足,因此引入了分?jǐn)?shù)級(jí)代價(jià)(score-level costs),以加強(qiáng)對(duì)比例小的類(lèi)別進(jìn)行正確分類(lèi)。因此,根據(jù)函數(shù)(F)使用代價(jià)矩陣ξ修改CNN輸出(o),計(jì)算如下:
(11)
式中:y表示修改后的輸出;p是所需的類(lèi);F:R→R表示一個(gè)函數(shù),其確切定義取決于損失層的類(lèi)型。類(lèi)的代價(jià)會(huì)擾亂分類(lèi)模型的置信度,這種擾動(dòng)可以使分類(lèi)模型將重點(diǎn)放在數(shù)量少且難以分離的類(lèi)上。引入的代價(jià)矩陣具有以下的性質(zhì):
(1) 所有與代價(jià)無(wú)關(guān)的損失函數(shù)的代價(jià)矩陣ξ是全1矩陣,即1p×p。
(2) 代價(jià)矩陣ξ中的所有代價(jià)均為正,即ξ>0,并且使其所有值都在(0,1]范圍內(nèi),即ξp,q∈(0,1)。
新的代價(jià)矩陣的形式如下:
(12)
與傳統(tǒng)代價(jià)矩陣不同的是,本文中的代價(jià)因子N不是一個(gè)人工判別的固定值,而是利用類(lèi)對(duì)類(lèi)(c2c)的可分離性,通過(guò)估計(jì)類(lèi)內(nèi)樣本與類(lèi)間樣本之間的差異來(lái)衡量,不需要人工對(duì)代價(jià)矩陣進(jìn)行判別,并且使用聯(lián)合優(yōu)化算法,在模型迭代的過(guò)程中不斷地對(duì)代價(jià)因子進(jìn)行優(yōu)化,以得到合適的代價(jià)因子N。
根據(jù)以上描述的性質(zhì),本文引入的代價(jià)矩陣ξ既不會(huì)過(guò)度增加CNN輸出激活,也不會(huì)將其減少為零輸出值。并且可以實(shí)現(xiàn)平穩(wěn)的訓(xùn)練過(guò)程,從而可以正確更新模型參數(shù)。
當(dāng)使用SCoSen-CE時(shí),由于平衡因子u可以通過(guò)訓(xùn)練樣本自適應(yīng)調(diào)節(jié),所以CNN的目標(biāo)是共同學(xué)習(xí)參數(shù)θ和與類(lèi)相關(guān)的損失函數(shù)參數(shù)ξ。對(duì)于聯(lián)合優(yōu)化,本文通過(guò)保持一個(gè)參數(shù)固定不變并使另一個(gè)參數(shù)最小化代價(jià)來(lái)解決這兩種參數(shù)優(yōu)化,如算法1所示。具體來(lái)說(shuō),為優(yōu)化θ,我們使用隨機(jī)梯度下降和誤差的反向傳播。接下來(lái),為優(yōu)化ξ,再次使用梯度下降算法計(jì)算更新參數(shù)。與類(lèi)相關(guān)的損失函數(shù)參數(shù)ξ還取決于類(lèi)-類(lèi)(class-to-class)的可分離性,即使用當(dāng)前的參數(shù)網(wǎng)絡(luò)估計(jì)CNN所產(chǎn)生的分類(lèi)誤差以及總體分類(lèi)誤差。類(lèi)對(duì)類(lèi)(c2c)的可分離性是通過(guò)估計(jì)類(lèi)內(nèi)樣本與類(lèi)間樣本之間的差異來(lái)衡量的。換句話說(shuō),它測(cè)量同類(lèi)樣本之間的距離與不同類(lèi)之間分隔邊界的大小之間的關(guān)系。
算法1參數(shù)(θ,ξ)的迭代優(yōu)化
輸入:訓(xùn)練集(x,d),驗(yàn)證集(xv,dv),最大迭代值(MeP),θ的學(xué)習(xí)率(γθ),ξ的學(xué)習(xí)率(γξ)。
輸出:參數(shù)學(xué)習(xí)(θ*,ξ*)。
1.Net←construct_CNN()
2.θ←initialize_Net(Net)
//隨機(jī)初始化
3.ξ←1,val-err←1
4.fore∈[1,MeP]do
//迭代次數(shù)
5.gradξ←compute-grad(x,d,F(ξ))
6.ξ*←update-CostParams(ξ,γξ,gradξ)
7.ξ←ξ*
8.forb∈[1,B]
//樣本訓(xùn)練次數(shù)
9.outb←forward-pass(xb,db,Net,θ)
10.gradb←backward-pass(outb,xb,db,Net,θ,ξ)
11.θ*←update-NetParams(Net,θ,γθ,gradb)
12.θ←θ*
13.endfor
14.val-err*←forward-pass(xv,dv,Net,θ)
15.ifval-err*>val-errthen
16.γξ←γξ*0.01
//梯度下降速度
17.val-err←val-err*
18.endif
19.endfor
20.return(θ*,ξ*)
為了計(jì)算c2c之間的可分離性,首先計(jì)算cP類(lèi)中的每個(gè)點(diǎn)與其所屬的cP的最近鄰居和cq類(lèi)中的最近的鄰居之間的距離。類(lèi)間距離通過(guò)特征空間中計(jì)算,其中每個(gè)點(diǎn)都是4 096維特征向量(fi:i∈[1,N′],N′是屬于cP類(lèi)的樣本)從倒數(shù)第二個(gè)CNN層(在輸出層之前)獲得。然后,為一個(gè)類(lèi)中的每個(gè)像素點(diǎn)找到類(lèi)內(nèi)距離與類(lèi)間距離的平均值,并計(jì)算平均值的比率以找到c2c可分離性指數(shù)。兩個(gè)類(lèi)p和q之間的類(lèi)可分離性定義為:
(13)
式中:dintraNN(fi)為類(lèi)間距離;dinterNN(fi)為類(lèi)內(nèi)距離。
為了避免過(guò)度擬合并證明該步驟在計(jì)算上可行,本文在一個(gè)小的驗(yàn)證集上測(cè)量c2c可分離性。而且,發(fā)現(xiàn)c2c的可分離性與每個(gè)階段的混淆矩陣相關(guān)。因此,本文在每十個(gè)周期之后計(jì)算一次,以最大限度地減少計(jì)算開(kāi)銷(xiāo)。這表明類(lèi)別相關(guān)代價(jià)(ξ*)的最佳參數(shù)值不應(yīng)與訓(xùn)練數(shù)據(jù)分布中類(lèi)別的頻率相同。以下代價(jià)函數(shù)用于梯度計(jì)算以更新ξ:
(14)
式中:Eval是驗(yàn)證誤差。矩陣T定義如下:
(15)
式中:μ和σ表示參數(shù),分別為使用交叉驗(yàn)證的集合;R表示當(dāng)前的分類(lèi)錯(cuò)誤作為混淆矩陣;S表示c2c類(lèi)可分離性矩陣;H表示使用直方圖向量h定義的矩陣,該矩陣對(duì)訓(xùn)練集中的類(lèi)的分布進(jìn)行編碼。矩陣H和向量h的聯(lián)系如下:
(16)
式中:c是給定數(shù)據(jù)集中所有類(lèi)的集合。最優(yōu)ξ*的最小化目標(biāo)可以表示為:
(17)
使用梯度下降算法優(yōu)化式(15)中的代價(jià)函數(shù),該算法計(jì)算更新步驟的方向如下:
-(va-vb)1T
(18)
式中:va=vec(T);vb=vec(ξ);J表示雅可比矩陣。為了合并F(ξ)對(duì)驗(yàn)證誤差Eval的依賴(lài)性,僅在Eval減小時(shí)才采取更新步驟。
為了驗(yàn)證所提出損失函數(shù)的有效性,建立類(lèi)不平衡的高分辨率遙感影像數(shù)據(jù)集。如圖3所示,數(shù)據(jù)集覆蓋了津巴布韋的多個(gè)城市、郊區(qū)和農(nóng)村的遙感影像,包括原影像以及各自影像目標(biāo)的標(biāo)簽影像,有道路和建筑物兩類(lèi)目標(biāo)樣本,統(tǒng)計(jì)數(shù)據(jù)集192幅訓(xùn)練樣本。通過(guò)對(duì)該數(shù)據(jù)集每幅影像的像素和平均像素統(tǒng)計(jì)發(fā)現(xiàn),單幅影像中背景占有50%以上的像素,平均占比高達(dá)80%,而道路和建筑物最大的占比也只有30%,最小不足1%,平均占比只有10%左右,如表1所示,樣本之間的比例是極其不平衡的。該數(shù)據(jù)集的原影像分辨率非常高,分辨率為0.28 m,而且遙感影像來(lái)源于開(kāi)源的Bing地圖和OSM的矢量數(shù)據(jù),可以根據(jù)需要自由地進(jìn)行擴(kuò)展。
表1 不同數(shù)量下各類(lèi)平均像素占比(%)
該數(shù)據(jù)集提供了233幅圖像,圖片為1 500×1 500像素的RGB影像,地面分辨率約為0.28 m,分為建筑物和道路兩個(gè)數(shù)據(jù)類(lèi),有大量的建筑物和清晰的道路數(shù)據(jù)。數(shù)據(jù)集包含訓(xùn)練集192幅衛(wèi)星照片及其對(duì)應(yīng)標(biāo)注圖,測(cè)試集41幅衛(wèi)星照片及其對(duì)應(yīng)標(biāo)注圖,驗(yàn)證集5幅衛(wèi)星照片及其對(duì)應(yīng)標(biāo)注圖,每一幅衛(wèi)星照片中都包含有道路目標(biāo)。圖3給出該數(shù)據(jù)集的目標(biāo)信息。
圖3 數(shù)據(jù)集展示
網(wǎng)絡(luò)的訓(xùn)練采用了數(shù)據(jù)集中訓(xùn)練集和對(duì)應(yīng)標(biāo)注圖,并且通過(guò)數(shù)據(jù)增強(qiáng)的方法對(duì)數(shù)據(jù)集進(jìn)行擴(kuò)充,將原始圖片從1 500×1 500像素縮放為92×92像素及對(duì)應(yīng)的24×24像素的標(biāo)注圖,使用其測(cè)試集共41幅影像及其標(biāo)注圖對(duì)本文提出的損失函數(shù)性能進(jìn)行評(píng)估。
在遙感影像目標(biāo)檢測(cè)中,正樣本類(lèi)別的實(shí)例很少,負(fù)樣本類(lèi)別過(guò)多可能會(huì)影響模型評(píng)估表現(xiàn)。由于錯(cuò)誤率不能很好地評(píng)價(jià)樣本不平衡的數(shù)據(jù)集,所以本文采用準(zhǔn)確率(accuracy)、召回率(recall)、F1-score和精度(precision)進(jìn)行衡量:
式中:FN是正樣本判定為負(fù)樣本;FP是負(fù)樣本被判定為正樣本;TN是負(fù)樣本被判定為負(fù)樣本;TP是正樣本被判定為正樣本。
VGGNet使用了3個(gè)3×3卷積核來(lái)代替7×7卷積核,2個(gè)3×3卷積核來(lái)代替5×5卷積核。在保證具有相同感知野的條件下,提升了網(wǎng)絡(luò)的深度,多層的激活層具有更好的非線性表達(dá)能力,并且減少了網(wǎng)絡(luò)的參數(shù),在一定程度上提升了神經(jīng)網(wǎng)絡(luò)的效果,大大延長(zhǎng)了訓(xùn)練時(shí)間。為了驗(yàn)證方法的有效性,本文提出一個(gè)深度卷積神經(jīng)網(wǎng)絡(luò)VGA來(lái)學(xué)習(xí)用于圖像分類(lèi)任務(wù)的魯棒性特征表示。網(wǎng)絡(luò)結(jié)構(gòu)如圖4所示,該網(wǎng)絡(luò)受啟發(fā)于VGGNet,不同的是,為了加速收斂與避免參數(shù)過(guò)多引起的過(guò)擬合問(wèn)題,本文的網(wǎng)絡(luò)在輸出層和提出的SCoSen損失層之前只有一個(gè)的全連接層。
圖4 VGA網(wǎng)絡(luò)結(jié)構(gòu)
本文使用VGG16[28]的預(yù)訓(xùn)練模型初始化模型的前16層,并為最后全連接層設(shè)置隨機(jī)權(quán)重。然后,以相對(duì)較高的學(xué)習(xí)率訓(xùn)練整個(gè)網(wǎng)絡(luò),以得到最優(yōu)的網(wǎng)絡(luò)參數(shù)。并且使用本文介紹的修改后的自適應(yīng)樣本特征的代價(jià)敏感損失函數(shù)(SCoSen-CE)對(duì)網(wǎng)絡(luò)進(jìn)行訓(xùn)練。
本文以代價(jià)敏感的交叉熵?fù)p失函數(shù)結(jié)合卷積神經(jīng)網(wǎng)絡(luò)VGA為基礎(chǔ)的遙感影像多目標(biāo)分類(lèi),在VGA實(shí)驗(yàn)中,分別使用交叉熵?fù)p失函數(shù)(CE)、SCE、CoSen-CE、Focal loss和SCoSen-CE進(jìn)行實(shí)驗(yàn),取得了良好的實(shí)驗(yàn)結(jié)果,驗(yàn)證了本文方法的有效性。并且通過(guò)可視化和數(shù)值兩個(gè)方面進(jìn)行結(jié)果的分析,證明本文方法的有效性。
2.4.1對(duì)比實(shí)驗(yàn)結(jié)果分析
在正負(fù)樣本不平衡的遙感影像數(shù)據(jù)集下,通過(guò)CE、SCE、CoSen CE、Focal loss[29]和SCoSen CE等方法進(jìn)行對(duì)比,證明了SCoSen CE良好的性能。
使用建立的高空間分辨率數(shù)據(jù)集的41幅測(cè)試圖片進(jìn)行測(cè)試,所得結(jié)果指標(biāo)如表2和表3所示。
表2 不同方法的道路提取結(jié)果對(duì)比
表3 不同方法的建筑物提取結(jié)果對(duì)比
由于本文方法使用基于自適應(yīng)樣本特征的代價(jià)敏感性的交叉熵?fù)p失函數(shù),使得訓(xùn)練中的遙感影像正負(fù)樣本比例更加平衡。同時(shí)在訓(xùn)練的過(guò)程中,根據(jù)樣本的比例自適應(yīng)地進(jìn)行調(diào)節(jié)因子的優(yōu)化,所以更加適合道路和建筑物的特征提取,從而降低了背景的學(xué)習(xí)概率,使得道路和建筑物的特征提取結(jié)果更好。從表2和表3中可以看出,在不使用代價(jià)敏感的交叉熵?fù)p失函數(shù)的情況下,VGA網(wǎng)絡(luò)對(duì)道路檢測(cè)的F1值為88.5%,對(duì)建筑物檢測(cè)的F1值為85.4%,在引進(jìn)SCE、CoSen-CE和Focal loss之后,使得道路的F1達(dá)到了90.6%、90.2%和90.8%,分別提高了2.1百分點(diǎn)、1.7百分點(diǎn)和2.3百分點(diǎn),建筑物的F1值達(dá)到了86.7%、88.2%和88.2%,分別提高了1.3百分點(diǎn)、2.8百分點(diǎn)和2.8百分點(diǎn),證明了CoSen-CE對(duì)于遙感影像中多目標(biāo)檢測(cè)是有效的。
引入SCoSen-CE進(jìn)一步提高了對(duì)道路和建筑物網(wǎng)絡(luò)的提取能力,使得道路和建筑物的F1值達(dá)到了91.1%和89.5%,分別提高了2.6百分點(diǎn)和4.1百分點(diǎn),除了結(jié)果指標(biāo)有所提升,道路和建筑物邊緣區(qū)域預(yù)測(cè)的置信度也顯著高于CE、SCE、CoSen-CE和Focal loss,證明了對(duì)損失函數(shù)的改進(jìn)可以改善類(lèi)不均衡帶來(lái)的影響。
為了更好地體現(xiàn)出本文方法在細(xì)節(jié)的表現(xiàn)能力,使用四幅分類(lèi)結(jié)果的可視化圖進(jìn)行對(duì)比。如圖5所示,CE方法存在許多誤檢測(cè)區(qū)域,錯(cuò)誤點(diǎn)明顯多于SCE、CoSen-CE、Focal loss和SCoSen-CE。相較于對(duì)照方法,本文方法所得結(jié)果錯(cuò)誤點(diǎn)較少,且道路結(jié)構(gòu)和建筑物清晰完整。本文方法分辨率高,較好地保存了道路和建筑物的結(jié)構(gòu)細(xì)節(jié)信息,因而能夠有效避免周?chē)尘碍h(huán)境干擾,準(zhǔn)確地提取道路結(jié)構(gòu)。可以看出,本文方法在結(jié)果的準(zhǔn)確性方面優(yōu)于其他方法。并且通過(guò)表4和表5可以看出,本文方法與CE、SCE、CoSen-CE和Focal loss相比有較好的提升。
圖5 道路和建筑物提取結(jié)果的可視化對(duì)比
表4 可視化圖中使用不同方法的道路提取結(jié)果對(duì)比
表5 可視化圖中使用不同方法的建筑物提取結(jié)果對(duì)比
2.4.2P-R曲線分析
深度學(xué)習(xí)網(wǎng)絡(luò)在應(yīng)用階段不需要預(yù)設(shè)閾值參數(shù),為了證明本文方法具有很強(qiáng)的魯棒性,在不同的情況下依然可以使用,并且具有較好提取效果,本文還使用設(shè)置閾值的方法,選取在不同閾值的情況,進(jìn)行道路和建筑物的目標(biāo)檢測(cè),并且對(duì)結(jié)果進(jìn)行P-R曲線的繪制,如圖6和圖7所示。
圖6 建筑物不同閾值下的P-R曲線
圖7 道路不同閾值下的P-R曲線
其中,閾值為α=0.1,0.2,…,0.9,通過(guò)圖6和圖7中的P-R曲線可以看出,在不同的閾值下,SCoSen-CE的提取效果依然要優(yōu)于CE、SCE、CoSen-CE和Focal loss,這也說(shuō)明本文方法具有一定的魯棒性,在不同的閾值下也能達(dá)到較好的提取效果。
針對(duì)遙感影像分類(lèi)中數(shù)據(jù)不平衡的問(wèn)題,改進(jìn)交叉熵?fù)p失函數(shù),提出適用于多分類(lèi)的自適應(yīng)樣本特征的代價(jià)敏感交叉熵?fù)p失函數(shù)(SCoSen-CE)。為了驗(yàn)證該損失函數(shù)的有效性,建立類(lèi)不平衡的遙感影像數(shù)據(jù)集,并且在該數(shù)據(jù)集與CE、CoSen-CE和Focal loss進(jìn)行實(shí)驗(yàn)對(duì)比。
實(shí)驗(yàn)表明,SCoSen-CE在Recall、Precision和F1-score指標(biāo)上均表現(xiàn)優(yōu)異,所提取道路和建筑物結(jié)構(gòu)完整清晰,且具有良好的適應(yīng)性能,可以有效地解決遙感影像分類(lèi)中類(lèi)不平衡問(wèn)題。為了驗(yàn)證本文方法的魯棒性,本文還是使用預(yù)設(shè)閾值參數(shù)的方法,并通過(guò)P-R曲線表明在不同閾值的情況下,本文方法依然具有良好的性能。