周維勛
南京信息工程大學(xué)遙感與測(cè)繪工程學(xué)院,江蘇 南京 210044
基于內(nèi)容的遙感影像檢索是解決遙感大數(shù)據(jù)“數(shù)據(jù)海量、信息淹沒”問題的有效方法,但面對(duì)海量的遙感數(shù)據(jù),存在兩個(gè)方面的嚴(yán)峻挑戰(zhàn):第一,遙感影像具有數(shù)據(jù)海量、尺度依賴、地物種類繁多和場(chǎng)景復(fù)雜等特點(diǎn),基于單一或組合低層視覺特征的檢索很難取得滿意的檢索結(jié)果;第二,設(shè)計(jì)一種適用于不同傳感器影像的特征描述方法是不切實(shí)際的,傳統(tǒng)的人工設(shè)計(jì)特征的策略不再適用。深度學(xué)習(xí)通過構(gòu)造多層網(wǎng)絡(luò)結(jié)構(gòu)對(duì)圖像內(nèi)容進(jìn)行逐級(jí)特征表達(dá),能夠?qū)崿F(xiàn)特征的自適應(yīng)學(xué)習(xí)。論文研究基于深度學(xué)習(xí)對(duì)復(fù)雜的遙感影像進(jìn)行場(chǎng)景分析,通過自適應(yīng)特征學(xué)習(xí)實(shí)現(xiàn)海量遙感影像的精確、快速檢索,主要工作和貢獻(xiàn)如下。
(1) 傳統(tǒng)的基于內(nèi)容的影像檢索通過提取影像的光譜、紋理、形狀等低層視覺特征進(jìn)行檢索,這些特征屬于人工設(shè)計(jì)特征的范疇。然而,設(shè)計(jì)一種穩(wěn)健、有效的特征描述方法不僅耗時(shí)、費(fèi)力,而且設(shè)計(jì)的特征難以適用于各種傳感器類型的遙感影像。針對(duì)這一問題,論文提出了基于SIFT(scale-invariant feature transform)自編碼的無監(jiān)督遙感影像特征學(xué)習(xí)與檢索方法。該方法以自編碼器作為網(wǎng)絡(luò)的基本結(jié)構(gòu),利用SIFT特征點(diǎn)訓(xùn)練自編碼網(wǎng)絡(luò)學(xué)習(xí)局部特征提取器,進(jìn)而挖掘遙感影像的隱含特征模式,較基于像素的自編碼方法具有更少的參數(shù)、更低的特征維度、更簡(jiǎn)單的特征提取過程以及更好的檢索結(jié)果。該方法利用無標(biāo)簽遙感數(shù)據(jù)進(jìn)行特征學(xué)習(xí),有效解決了缺少標(biāo)注數(shù)據(jù)情況下的影像特征學(xué)習(xí)問題,改善了傳統(tǒng)手工特征以及像素自編碼的檢索效果。
(2) SIFT自編碼改善了手工特征的檢索效果,但受限于淺層模型本身的學(xué)習(xí)能力,導(dǎo)致提取的特征相比某些手工特征并沒有表現(xiàn)出明顯的優(yōu)勢(shì)。CNN(convolutional neural network)作為一種有監(jiān)督的深層網(wǎng)絡(luò)結(jié)構(gòu),往往包含幾十甚至上百個(gè)網(wǎng)絡(luò)層,能夠?qū)W習(xí)更高層次的圖像特征以進(jìn)一步改善檢索結(jié)果,但訓(xùn)練一個(gè)成功的CNN往往需要大量的標(biāo)注數(shù)據(jù),而標(biāo)注數(shù)據(jù)在遙感領(lǐng)域是稀缺的。此外,CNN提取的圖像特征通常是成千上萬維的高維特征,高維特征不僅需要占用更多的存儲(chǔ)空間而且會(huì)由于相似性匹配時(shí)間更長(zhǎng)導(dǎo)致檢索效率低下,不適用于大規(guī)模的遙感影像檢索。針對(duì)這一問題,論文首先通過遷移學(xué)習(xí),利用預(yù)訓(xùn)練的CNN提取遙感影像的全連接層特征和局部卷積層特征進(jìn)行影像檢索,在此基礎(chǔ)上,提出了“卷積層+多層感知機(jī)”的低維卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu),較預(yù)訓(xùn)練的網(wǎng)絡(luò)結(jié)構(gòu)具有更少的待學(xué)習(xí)參數(shù)、更低的特征維度及更好的檢索效果。該方法利用少量的標(biāo)注數(shù)據(jù)進(jìn)行網(wǎng)絡(luò)訓(xùn)練,有效解決了擁有少量標(biāo)注數(shù)據(jù)情況下的基于CNN網(wǎng)絡(luò)的影像特征學(xué)習(xí)問題,進(jìn)一步改善了傳統(tǒng)手工特征和SIFT自編碼的檢索效果。
(3) 遙感影像通常是由多種地物構(gòu)成的復(fù)雜場(chǎng)景,導(dǎo)致對(duì)于重合度較高的不同場(chǎng)景現(xiàn)有單標(biāo)簽檢索方法難以有效、準(zhǔn)確地描述影像內(nèi)容。針對(duì)這一問題,論文提出了基于全卷積神經(jīng)網(wǎng)絡(luò)(fully convolutional network,F(xiàn)CN)的多標(biāo)簽遙感影像檢索方法,首先利用密集標(biāo)注的遙感圖像庫(kù)訓(xùn)練FCN,然后基于訓(xùn)練的網(wǎng)絡(luò)對(duì)遙感影像進(jìn)行多標(biāo)簽分析和區(qū)域卷積特征提取,最后基于圖像的多標(biāo)簽向量和提取的單尺度、多尺度區(qū)域卷積特征實(shí)現(xiàn)了遙感影像的多標(biāo)簽檢索。該方法通過多標(biāo)簽分析挖掘了影像包含的豐富語義信息,能夠更準(zhǔn)確地對(duì)影像內(nèi)容進(jìn)行描述,較單標(biāo)簽影像檢索方法更適用于復(fù)雜的、重合度高的遙感影像。