寶音圖,劉 偉,牛朝陽(yáng),李潤(rùn)生,張浩波
(信息工程大學(xué)數(shù)據(jù)與目標(biāo)工程學(xué)院,鄭州 450001)
隨著對(duì)地觀測(cè)技術(shù)水平的提高,光學(xué)遙感圖像的數(shù)量急劇增加,如何充分利用不斷增多的光學(xué)遙感圖像進(jìn)行智能地球觀測(cè)成為研究熱點(diǎn),科學(xué)高效地解析海量光學(xué)遙感圖像顯得尤為重要。場(chǎng)景分類通過(guò)給定的語(yǔ)義類別對(duì)不同的場(chǎng)景圖像進(jìn)行分類標(biāo)識(shí),是一種有效的光學(xué)遙感圖像解析技術(shù)。近年來(lái),光學(xué)遙感圖像場(chǎng)景分類在城市規(guī)劃、災(zāi)害檢測(cè)、環(huán)境監(jiān)測(cè)等領(lǐng)域得到廣泛應(yīng)用[1]。
與光學(xué)自然圖像分類任務(wù)相比,光學(xué)遙感圖像場(chǎng)景分類任務(wù)的圖像特征類型復(fù)雜、分布范圍廣,有效提取語(yǔ)義特征以及理解語(yǔ)義內(nèi)容難度更大[1]。根據(jù)應(yīng)用需求的不同,光學(xué)遙感圖像特征提取方法被分為三大類:一是初級(jí)特征提取方法,其針對(duì)光學(xué)遙感圖像特點(diǎn)在局部或全局設(shè)計(jì)人類工程特征[1-2],初級(jí)特征提取方法主要包括尺度不變特征變換(Scale-Invariant Feature Transform,SIFT)[3]、局部二進(jìn)制模式(Local Binary Patterns,LBP)[4]、定向梯度直方圖(Histogram of Oriented Gradient,HOG)[5]等,這些方法只能針對(duì)特定目標(biāo),缺乏靈活性,泛化能力較弱且只有局部特性,不能直接表示整幅圖像[6];二是中級(jí)特征提取方法,其先提取圖像的局部特征,然后對(duì)多個(gè)局部特征進(jìn)行編碼以獲得遙感圖像的中級(jí)特征[2],中級(jí)特征提取方法主要包括視覺(jué)詞袋模型(Bag of Visual Word,BoVW)[7]、稀疏編碼(Sparse Coding)[8]等,其因?yàn)楹?jiǎn)單有效的特點(diǎn)而得到廣泛應(yīng)用,但是因?yàn)楸磉_(dá)能力的限制,導(dǎo)致其分類精度不高;三是高級(jí)特征提取方法,該類方法基于深度學(xué)習(xí)提取光學(xué)遙感圖像特征,與初級(jí)和中級(jí)方法不同,深度學(xué)習(xí)模型通過(guò)架構(gòu)神經(jīng)網(wǎng)絡(luò)來(lái)學(xué)習(xí)更強(qiáng)大、更抽象和更深層次的特征,這極大地推動(dòng)了深度學(xué)習(xí)在光學(xué)遙感圖像中的應(yīng)用。多數(shù)深度學(xué)習(xí)模型,尤其是卷積神經(jīng)網(wǎng)絡(luò)(Convolution Neural Network,CNN),包 括AlexNet[9]、VGGNet[10]、GoogLeNet[11]、ResNet[12]等,均適用于光學(xué)遙感圖像場(chǎng)景分類,并已取得了較好的分類效果。
雖然基于深度學(xué)習(xí)的方法已大幅提高了分類準(zhǔn)確性,但是光學(xué)遙感圖像除了含有顏色、紋理、空間信息等淺層次的信息[13],還有很多深層次的信息,包括:遙感圖像同類場(chǎng)景的多樣性;遙感圖像不同類場(chǎng)景的相似性;遙感圖像場(chǎng)景的尺寸、方向的動(dòng)態(tài)性。這些深層次的信息提升了場(chǎng)景分類的難度[14],導(dǎo)致難以實(shí)現(xiàn)精準(zhǔn)分類[2]。
深度學(xué)習(xí)網(wǎng)絡(luò)模型的深度和寬度對(duì)光學(xué)遙感圖像分類精度影響較大[14-16]。然而,網(wǎng)絡(luò)規(guī)模的擴(kuò)大導(dǎo)致容易發(fā)生梯度消失或梯度爆炸現(xiàn)象,還會(huì)引起網(wǎng)絡(luò)退化問(wèn)題,導(dǎo)致訓(xùn)練誤差增大[17]。同時(shí),網(wǎng)絡(luò)規(guī)模的擴(kuò)大也會(huì)帶來(lái)權(quán)重參數(shù)的大量冗余,導(dǎo)致訓(xùn)練周期過(guò)長(zhǎng)、硬件要求過(guò)高,不適合末端應(yīng)用部署,難以大范圍普及[18]。隨著深度學(xué)習(xí)技術(shù)的進(jìn)一步發(fā)展,MobileNets[19]等易訓(xùn)練、易部署的輕量化網(wǎng)絡(luò)模型逐漸成為研究重點(diǎn),但是這些網(wǎng)絡(luò)模型通常針對(duì)自然圖像而提出,在光學(xué)遙感圖像領(lǐng)域應(yīng)用時(shí)還需有針對(duì)性地調(diào)整網(wǎng)絡(luò)結(jié)構(gòu)。
本文提出一種基于輕量化網(wǎng)絡(luò)模型的光學(xué)遙感圖像場(chǎng)景分類方法,該方法通過(guò)EfficientNet[18]網(wǎng)絡(luò)模型提取圖像特征,針對(duì)光學(xué)遙感圖像場(chǎng)景容易誤分類的情況,構(gòu)建集成學(xué)習(xí)模塊來(lái)提升網(wǎng)絡(luò)模型的分類性能。
為使網(wǎng)絡(luò)模型獲得更好的精度,通常采取優(yōu)化網(wǎng)絡(luò)深度、網(wǎng)絡(luò)寬度和圖像分辨率的方式,如ResNet、DenseNet 等,但是這些網(wǎng)絡(luò)模型往往只改變網(wǎng)絡(luò)深度、網(wǎng)絡(luò)寬度和圖像分辨率3 個(gè)維度中的1 個(gè),且需要繁瑣的手動(dòng)調(diào)整參數(shù),并且仍然產(chǎn)生次優(yōu)的精度和效率。Google Brain Team 通過(guò)復(fù)合比較網(wǎng)絡(luò)深度、網(wǎng)絡(luò)寬度以及圖像分辨率對(duì)精度、參數(shù)量和浮點(diǎn)運(yùn)算量的影響,提出一種EfficientNet[18]網(wǎng)絡(luò)模型。EfficientNet 網(wǎng)絡(luò)模型將網(wǎng)絡(luò)深度、網(wǎng)絡(luò)寬度、圖像分辨率的不同組合轉(zhuǎn)變?yōu)閮?yōu)化問(wèn)題,如下:
其中:N為網(wǎng)絡(luò)模型;d、w、r是縮放網(wǎng)絡(luò)的深度、寬度和圖像分辨率的系數(shù);i是網(wǎng)絡(luò)模型的組件;s是組件的總個(gè)數(shù);是預(yù)設(shè)的網(wǎng)絡(luò)層結(jié)構(gòu);是預(yù)設(shè)的層數(shù);是預(yù)設(shè)的分辨率;是預(yù)設(shè)的通道數(shù);X將參數(shù)按縮放系數(shù)調(diào)整;Memory(N)為網(wǎng)絡(luò)的參數(shù)量;FLOPS(N)為網(wǎng)絡(luò)的浮點(diǎn)運(yùn)算量;⊙將每個(gè)組件設(shè)置為調(diào)整后的參數(shù)并搭建網(wǎng)絡(luò)模型;target_memory 為參數(shù)量的閾值;target_flpos 為浮點(diǎn)運(yùn)算量的閾值;max Accuracy 表示求網(wǎng)絡(luò)模型的最大精度。
平衡網(wǎng)絡(luò)深度、寬度和分辨率3 個(gè)維度可以獲得更好的準(zhǔn)確率和效率,EfficientNet 使用復(fù)合系數(shù)?對(duì)3 個(gè)維度進(jìn)行縮放,具體如下:
其中:α、β、γ是對(duì)應(yīng)d、w、r運(yùn)行維度的資源分配參數(shù);?是資源控制系數(shù)。在滿足約束條件的情況下,通過(guò)神經(jīng)架構(gòu)搜索(Neural Architecture Search,NAS)對(duì)各參數(shù)進(jìn)行優(yōu)化調(diào)整。在參數(shù)量和運(yùn)算量不增加的基礎(chǔ)上,EfficientNet 模型通過(guò)不斷調(diào)整網(wǎng)絡(luò)深度、網(wǎng)絡(luò)寬度和圖像分辨率的系數(shù)達(dá)到最優(yōu)的精度。
根據(jù)圖像分辨率的不同,EfficientNet 網(wǎng)絡(luò)構(gòu)建了B0~B7共8個(gè)模型。其中,B7模型在自然圖像ImageNet數(shù)據(jù)集上Top-1 和Top-5 的精度分別為84.4%和97.1%,已達(dá)到當(dāng)時(shí)最優(yōu)精度,并且在達(dá)到同等精度的網(wǎng)絡(luò)中,B0~B7 模型的參數(shù)量和運(yùn)算量均最少。ImageNet數(shù)據(jù)集上各模型性能對(duì)比結(jié)果如表1 所示。
表1 ImageNet 數(shù)據(jù)集上各模型性能對(duì)比結(jié)果Table 1 Performance comparison results of various models on ImageNet dataset
EfficientNet 網(wǎng)絡(luò)模型在自然場(chǎng)景圖像上達(dá)到了較高精度,但光學(xué)遙感圖像場(chǎng)景包含更豐富的語(yǔ)義信息,場(chǎng)景的類內(nèi)相異性、類間相似性以及場(chǎng)景的尺寸方向變換等情況影響了EfficientNet 網(wǎng)絡(luò)模型的分類精度。為解決上述問(wèn)題,本文通過(guò)EfficientNet 網(wǎng)絡(luò)模型提取圖像特征,利用多個(gè)子分類器構(gòu)建集成學(xué)習(xí)模塊提升分類效果,使用Dropout 算法防止發(fā)生過(guò)擬合,采用交叉熵?fù)p失函數(shù)輔助網(wǎng)絡(luò)訓(xùn)練,從而提高網(wǎng)絡(luò)模型對(duì)光學(xué)遙感圖像場(chǎng)景的分類精度。
1.2.1 網(wǎng)絡(luò)模型結(jié)構(gòu)
集成學(xué)習(xí)通過(guò)構(gòu)建多個(gè)子分類器來(lái)提升分類效果[6]。本文方法基于EfficientNet 網(wǎng)絡(luò)提取圖像特征(一級(jí)特征),將所有的一級(jí)特征按照預(yù)先設(shè)定的比率進(jìn)行隨機(jī)選取,然后進(jìn)行融合產(chǎn)生新的特征(二級(jí)特征),特征提取比率過(guò)低會(huì)因?yàn)檫x取特征不夠充分影響精度,特征提取比率過(guò)高會(huì)大幅增加模型的參數(shù)量。為在提升精度的同時(shí)不過(guò)多地增加模型的參數(shù)量,本文將特征提取比率設(shè)定為60%。給每個(gè)二級(jí)特征分配一個(gè)子分類器進(jìn)行預(yù)分類,集成加權(quán)所有子分類器的預(yù)分類結(jié)果,從而產(chǎn)生最終的分類結(jié)果。每個(gè)子分類器選取的一級(jí)特征不完全一樣,能夠更充分地解析圖像的語(yǔ)義信息,實(shí)現(xiàn)子分類器之間的優(yōu)勢(shì)互補(bǔ),從而獲得比單一分類器更好的分類效果。本文網(wǎng)絡(luò)模型結(jié)構(gòu)如圖1 所示。
圖1 本文網(wǎng)絡(luò)模型結(jié)構(gòu)Fig.1 Network model structure in this paper
1.2.2 Dropout 算法
在深度學(xué)習(xí)中,當(dāng)參數(shù)較多而訓(xùn)練樣本又較少時(shí),網(wǎng)絡(luò)模型容易產(chǎn)生過(guò)擬合現(xiàn)象。Dropout 算法能夠緩解過(guò)擬合問(wèn)題,起到正則化的效果[20]。Dropout算法表達(dá)式如下:
其中:r為以給定概率產(chǎn)生的0、1 序列;x為對(duì)應(yīng)層的神經(jīng)元;為經(jīng)過(guò)Dropout算法保留下的神經(jīng)元;w為權(quán)重;b為偏置;y為輸出的神經(jīng)元;l為神經(jīng)元所在的層數(shù)。
在訓(xùn)練過(guò)程中,每個(gè)神經(jīng)元以一定概率保留,每次向前傳播保留下來(lái)的神經(jīng)元都不同,這樣可以使得模型不依賴于某些局部特征,泛化能力更強(qiáng)[20]。Dropout 算法結(jié)構(gòu)如圖2 所示,考慮到光學(xué)遙感圖像數(shù)據(jù)集的訓(xùn)練樣本偏少,為了防止過(guò)擬合發(fā)生,本文在每個(gè)子分類器中都添加了Dropout 算法。
圖2 Dropout 算法效果Fig.2 Dropout algorithm effect
1.2.3 交叉熵?fù)p失函數(shù)
深度學(xué)習(xí)中用損失函數(shù)來(lái)度量網(wǎng)絡(luò)模型得到的預(yù)測(cè)標(biāo)簽和數(shù)據(jù)真實(shí)標(biāo)簽之間的差距,損失函數(shù)可以衡量網(wǎng)絡(luò)模型的泛化能力優(yōu)劣[21],根據(jù)不同的應(yīng)用需求,選擇合適的損失函數(shù)可以使模型得到更好的訓(xùn)練效果。本文針對(duì)多場(chǎng)景分類問(wèn)題,采用更適合的交叉熵?fù)p失函數(shù)[22],其表達(dá)式如下:
其中:y為樣本真實(shí)標(biāo)簽;為樣本通過(guò)網(wǎng)絡(luò)模型得到的預(yù)測(cè)標(biāo)簽;N為樣本數(shù)。通過(guò)交叉熵?fù)p失函數(shù)可以得到樣本預(yù)測(cè)標(biāo)簽和真實(shí)標(biāo)簽之間的損失值,損失值越小,預(yù)測(cè)標(biāo)簽越接近真實(shí)標(biāo)簽;損失值越大,預(yù)測(cè)標(biāo)簽和真實(shí)標(biāo)簽差距越大。通過(guò)損失值可以判斷預(yù)測(cè)結(jié)果的優(yōu)劣,從而更有效地訓(xùn)練網(wǎng)絡(luò)模型。
為驗(yàn)證本文網(wǎng)絡(luò)模型的有效性,選用2 個(gè)公開(kāi)的大規(guī)模遙感圖像數(shù)據(jù)集AID[23]和NWPU-RESISC45[24]進(jìn)行實(shí)驗(yàn)。
AID 數(shù)據(jù)集是由華中科技大學(xué)和武漢大學(xué)聯(lián)合創(chuàng)建的大規(guī)模遙感圖像數(shù)據(jù)集,該數(shù)據(jù)集共有10 000 張圖像,分為機(jī)場(chǎng)、河流、草地等30 個(gè)場(chǎng)景類別,不同場(chǎng)景類型的圖像數(shù)量從220~420 不等,每張圖像尺寸為600 像素×600 像素,圖像空間分辨率為0.5~8.0 m,該數(shù)據(jù)集從Google Earth 影像中收集,圖像選取自不同國(guó)家、地區(qū)、時(shí)間、季節(jié)以及不同的成像條件[23],如圖3 所示。
圖3 AID 數(shù)據(jù)集部分場(chǎng)景示例Fig.3 Partial scenario examples of AID dataset
NWPU-RESISC45是由西北工業(yè)大學(xué)創(chuàng)建的大規(guī)模遙感圖像數(shù)據(jù)集,其比AID 數(shù)據(jù)集更為復(fù)雜,共有31 500張遙感圖像,分為飛機(jī)、湖、云等45個(gè)場(chǎng)景類別,每個(gè)類別有700張圖像,每張圖像尺寸為256像素×256像素,圖像的空間分辨率為0.2~30.0 m,該數(shù)據(jù)集從Google Earth中提取,選自全球100多個(gè)國(guó)家和地區(qū)包含不同天氣、季節(jié)的圖像。為了增加難度,本文選取了含有遮擋、重疊等復(fù)雜因素的遙感圖像[24],如圖4所示。
圖4 NWPU-RESISC45 數(shù)據(jù)集部分場(chǎng)景示例Fig.4 Partial scenario examples of NWPU-RESISC45 dataset
實(shí)驗(yàn)環(huán)境為PyTorch 1.5 框架,操作系統(tǒng)為Windows10 系統(tǒng),CPU 為12 核的Intel Xeon Gold 6226,主頻為2.70 GHz,內(nèi)存為64 GB DDR4,GPU為NVIDIA公司的TITAN XP,顯存為12 GB,CUDA 版本為10.2,cudnn 版本為7.6.5。本文實(shí)驗(yàn)選擇EfficientNet-B3 網(wǎng)絡(luò)模型。
為了保證實(shí)驗(yàn)的公平性、合理性,數(shù)據(jù)集的訓(xùn)練比率與文獻(xiàn)[1-2]一致。對(duì)于AID 數(shù)據(jù)集,隨機(jī)選取每類場(chǎng)景數(shù)據(jù)總量的20%、50%作為訓(xùn)練數(shù)據(jù),余下的80%、50%作為測(cè)試數(shù)據(jù)。對(duì)于NWPU-RESISC45數(shù)據(jù)集,隨機(jī)選取每類場(chǎng)景數(shù)據(jù)總量的10%、20%作為訓(xùn)練數(shù)據(jù),余下的90%、80%作為測(cè)試數(shù)據(jù)。
遷移學(xué)習(xí)不僅能解決過(guò)擬合問(wèn)題,同時(shí)也能縮減模型訓(xùn)練時(shí)間[15]。本文實(shí)驗(yàn)使用在ImageNet 數(shù)據(jù)集上訓(xùn)練好的權(quán)重進(jìn)行遷移訓(xùn)練。為防止訓(xùn)練期間發(fā)生梯度消失或梯度爆炸現(xiàn)象,本次實(shí)驗(yàn)分2 個(gè)階段進(jìn)行訓(xùn)練:第一個(gè)階段為預(yù)訓(xùn)練階段,凍結(jié)除分類層以外的網(wǎng)絡(luò)層權(quán)重,損失函數(shù)使用交叉熵?fù)p失函數(shù),優(yōu)化器使用隨機(jī)梯度下降(Stochastic Gradient Descent,SGD)方法,初始學(xué)習(xí)率為1e?1,權(quán)重衰減為5e?3,動(dòng)量為0.9,每2 個(gè)epoch 學(xué)習(xí)率下降一次,下降系數(shù)為0.9,共訓(xùn)練10 個(gè)epoch;第二個(gè)階段在預(yù)訓(xùn)練的基礎(chǔ)上繼續(xù)訓(xùn)練,解凍所有網(wǎng)絡(luò)層的權(quán)重,損失函數(shù)使用交叉熵?fù)p失函數(shù),優(yōu)化器使用SGD,初始學(xué)習(xí)率為1e?3,權(quán)重衰減為5e?3,動(dòng)量為0.9,每5 個(gè)epoch 學(xué)習(xí)率下降一次,下降系數(shù)為0.95,共訓(xùn)練200 個(gè)epoch。為了增強(qiáng)網(wǎng)絡(luò)模型的訓(xùn)練效果,實(shí)驗(yàn)中使用了PyTorch 框架下transforms 庫(kù)中的水平翻轉(zhuǎn)、垂直翻轉(zhuǎn)、顏色亮度變換、角度旋轉(zhuǎn)等方式進(jìn)行數(shù)據(jù)增強(qiáng),如圖5 所示。為了確保實(shí)驗(yàn)的準(zhǔn)確性,每種測(cè)試都重復(fù)10 次。圖6 所示為本文模型訓(xùn)練過(guò)程中隨循環(huán)次數(shù)變化的損失值和準(zhǔn)確率曲線,從圖6 可以看出,經(jīng)過(guò)200 次循環(huán),損失值和準(zhǔn)確率逐漸收斂,說(shuō)明網(wǎng)絡(luò)模型較為穩(wěn)定。圖6(a)中180 次循環(huán)后損失值不再下降,保持在0.1 以下,圖6(b)中180 次循環(huán)后準(zhǔn)確率不再增加,最終達(dá)到97.52%。
圖5 數(shù)據(jù)增強(qiáng)示例Fig.5 Examples of data enhancement
圖6 模型訓(xùn)練過(guò)程中的損失值和準(zhǔn)確率Fig.6 Loss values and accuracy in model training
將AID 數(shù)據(jù)集分為訓(xùn)練集和測(cè)試集,用本文網(wǎng)絡(luò)模型進(jìn)行訓(xùn)練測(cè)試,統(tǒng)計(jì)測(cè)試結(jié)果得到混淆矩陣,其中,20%訓(xùn)練比率的混淆矩陣如圖7 所示,對(duì)角線元素為各場(chǎng)景分類的準(zhǔn)確率。從圖7 可以看出,30 類場(chǎng)景中有25 類場(chǎng)景的準(zhǔn)確率達(dá)到90%以上,海灘、森林、高架橋等場(chǎng)景的準(zhǔn)確率接近100%,但是,度假勝地和中心區(qū)2 個(gè)場(chǎng)景誤分類較多,準(zhǔn)確率不足80%,度假勝地場(chǎng)景的準(zhǔn)確率最低為75%。為了比較模型性能,選取現(xiàn)階段光學(xué)遙感圖像場(chǎng)景分類中4 種典型網(wǎng)絡(luò)模型進(jìn)行比對(duì):GoogLeNet 是2014 年提出的一種22 層的網(wǎng)絡(luò)模型;D-CNNs[25]是2018 年提出的網(wǎng)絡(luò)模型,其通過(guò)引入度量學(xué)習(xí)正則化來(lái)提升分類能力;CNN-CapsNet[2]是2019 年提出的網(wǎng)絡(luò)模型,其通過(guò)膠囊網(wǎng)絡(luò)捕獲空間信息來(lái)增強(qiáng)特征提取能力。表2 為各網(wǎng)絡(luò)模型在AID 數(shù)據(jù)集上的性能對(duì)比結(jié)果,可以看出,本文方法取得了較好的精度,與D-CNNs 和CNN-CapsNet 網(wǎng)絡(luò)模型相比,本文方法在達(dá)到近似精度的情況下所需的參數(shù)量和浮點(diǎn)運(yùn)算量大幅減少,與EfficientNet 網(wǎng)絡(luò)模型相比,本文方法分類準(zhǔn)確率有3%~4%的提升,參數(shù)量?jī)H增加了2 ×106,浮點(diǎn)運(yùn)算量沒(méi)有改變,說(shuō)明引入集成學(xué)習(xí)模塊后的網(wǎng)絡(luò)模型僅需較少的硬件消耗,就可在不影響運(yùn)算時(shí)間的情況下獲取明顯的分類性能提升。
圖7 AID 數(shù)據(jù)集訓(xùn)練比率為20%時(shí)的混淆矩陣Fig.7 Confusion matrix when the training ratio of AID dataset is 20%
表2 各模型在AID 數(shù)據(jù)集上的性能對(duì)比結(jié)果Table 2 Performance comparison results of each model on AID dataset
將NWPU-RESISC45 數(shù)據(jù)集分為訓(xùn)練集和測(cè)試集,用本文網(wǎng)絡(luò)模型進(jìn)行訓(xùn)練測(cè)試,統(tǒng)計(jì)測(cè)試結(jié)果得到混淆矩陣,其中,20%訓(xùn)練比率的分類結(jié)果如圖8所示,對(duì)角線元素為各場(chǎng)景分類的準(zhǔn)確率。通過(guò)混淆矩陣可以看出,45 種場(chǎng)景中有39 種場(chǎng)景的準(zhǔn)確率在90%以上,灌木叢場(chǎng)景的準(zhǔn)確率接近100%,但是教堂、中型住宅、宮殿3 個(gè)場(chǎng)景的準(zhǔn)確率不足80%,宮殿場(chǎng)景的準(zhǔn)確率最低為75.2%。表3 為本文方法與其他網(wǎng)絡(luò)模型在NWPU-RESISC45數(shù)據(jù)集上的性能對(duì)比,可以看出,本文方法在NWPU-RESISC45 數(shù)據(jù)集上同樣取得了較好的精度,且參數(shù)量和浮點(diǎn)運(yùn)算量也最少。在2 個(gè)數(shù)據(jù)集上都取得較好結(jié)果,說(shuō)明本文方法較為穩(wěn)定且魯棒性較強(qiáng)。
圖8 NWPU-RESISC45 數(shù)據(jù)集訓(xùn)練比率為20%時(shí)的混淆矩陣Fig.8 Confusion matrix when the training ratio of NWPU-RESISC45 dataset is 20%
表3 各模型在NWPU-RESISC45數(shù)據(jù)集上的性能對(duì)比結(jié)果Table 3 Performance comparison results of each model on NWPU-RESISC45 dataset
為了更直觀地比較網(wǎng)絡(luò)模型對(duì)易誤分類場(chǎng)景的辨識(shí)性能,選取準(zhǔn)確率達(dá)不到90%的場(chǎng)景,繪制各場(chǎng)景在不同網(wǎng)絡(luò)中準(zhǔn)確率的對(duì)比情況,結(jié)果如圖9 所示。從圖9 可以看出,本文方法在大多數(shù)易誤分類場(chǎng)景中取得了最好的分類效果,說(shuō)明其在易誤分類場(chǎng)景中也有一定優(yōu)勢(shì)。
圖9 易誤分類場(chǎng)景中各網(wǎng)絡(luò)模型的性能對(duì)比結(jié)果Fig.9 Performance comparison results of each network model in error prone classification scenario
本文研究深度學(xué)習(xí)在光學(xué)遙感圖像場(chǎng)景分類中的應(yīng)用問(wèn)題,聯(lián)合集成學(xué)習(xí)和輕量化網(wǎng)絡(luò)模型的優(yōu)勢(shì),提出一種硬件要求低、運(yùn)算時(shí)間短的光學(xué)遙感圖像場(chǎng)景分類方法。采用EfficientNet 網(wǎng)絡(luò)模型來(lái)減少參數(shù)量和浮點(diǎn)運(yùn)算量,通過(guò)集成學(xué)習(xí)模塊充分解析圖像特征的語(yǔ)義信息。在2 個(gè)光學(xué)遙感圖像數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果表明,該方法分類準(zhǔn)確率較高,在多數(shù)易誤分類場(chǎng)景中依然能夠取得較好的分類效果,與其他網(wǎng)絡(luò)模型相比,本文方法所需的參數(shù)量和浮點(diǎn)運(yùn)算量大幅減少,更適合在末端部署并進(jìn)行普及推廣。然而,本文方法在個(gè)別場(chǎng)景上的分類精度仍有待進(jìn)一步提高,解決該問(wèn)題并探索如何在末端部署實(shí)現(xiàn)本文方法將是今后的研究方向。