葉發(fā)茂,董 萌,羅 威,肖 慧,趙旭青,閔衛(wèi)東,3
基于卷積神經(jīng)網(wǎng)絡(luò)和重排序的農(nóng)業(yè)遙感圖像檢索
葉發(fā)茂1,2,董 萌1,羅 威1,肖 慧1,趙旭青1,閔衛(wèi)東1,3※
(1. 南昌大學(xué)信息工程學(xué)院,南昌 330031; 2. 東華理工大學(xué)測(cè)繪工程學(xué)院,南昌 330013;3.南昌大學(xué)軟件學(xué)院,南昌 330047)
卷積神經(jīng)網(wǎng)絡(luò)具有很強(qiáng)的分類能力,并在圖像分類等應(yīng)用中取得顯著成效,但遙感圖像檢索應(yīng)用中還較少利用該分類能力。為了提高農(nóng)業(yè)遙感圖像檢索性能,該文提出一種利用卷積神經(jīng)網(wǎng)絡(luò)分類能力的遙感圖像檢索方法。首先利用微調(diào)的卷積神經(jīng)網(wǎng)絡(luò)模型提取查詢圖像的檢索特征和估計(jì)查詢圖像的每個(gè)類別權(quán)重,然后利用根據(jù)CNN模型判斷的檢索圖像類別和初始排序結(jié)果計(jì)算類別查準(zhǔn)率,根據(jù)查詢圖像的類別權(quán)重和類別查準(zhǔn)率計(jì)算加權(quán)類別查準(zhǔn)率,最后根據(jù)加權(quán)類別查準(zhǔn)率對(duì)圖像類別進(jìn)行排序,并根據(jù)排序結(jié)果對(duì)初始檢索結(jié)果進(jìn)行重排序,從而得到最終的檢索結(jié)果。試驗(yàn)結(jié)果表明:該檢索方法在PatternNet數(shù)據(jù)集中平均查準(zhǔn)率達(dá)到97.56%,平均歸一化調(diào)整后的檢索秩達(dá)到0.020 1;在UCM_LandUse數(shù)據(jù)集中平均查準(zhǔn)率達(dá)到93.67%,平均歸一化調(diào)整后的檢索秩達(dá)到0.049 2,較之其他遙感圖像檢索方法下降0.2358,降幅超過82.7%;平均每張檢索圖像重排序時(shí)間大約是初始排序時(shí)間的1%。該文提出的重排序方法可以得到更好的遙感圖像檢索結(jié)果,提高了遙感圖像檢索性能,將有助于農(nóng)業(yè)信息領(lǐng)域信息化和智能化。
遙感;圖像檢索;特征提取;重排序;卷積神經(jīng)網(wǎng)絡(luò)
隨著傳感技術(shù)的發(fā)展,有關(guān)農(nóng)業(yè)的遙感圖像數(shù)據(jù)量不斷增加,如何快速和準(zhǔn)確地從龐大的數(shù)據(jù)庫中檢索出用戶需要的圖像已成為一個(gè)亟需解決的問題。傳統(tǒng)的以文本為索引的檢索方法已不能完全滿足人們新的需求,如查找農(nóng)作物中病蟲害圖像、查詢同類的農(nóng)作物以及尋找具有某種形狀特征的農(nóng)作物等。這些需求需要檢索系統(tǒng)具有從大量圖像中尋找主題目標(biāo)的能力,基于內(nèi)容的圖像檢索(content-based image retrieval,CBIR)是較好的解決方法。因此基于內(nèi)容圖像檢索技術(shù)在農(nóng)業(yè)信息領(lǐng)域里的應(yīng)用研究具有深遠(yuǎn)的意義[1-4]。
基于內(nèi)容的圖像檢索技術(shù)充分利用視覺內(nèi)容識(shí)別相關(guān)圖像,有效地彌補(bǔ)了基于文本圖像檢索的不足,使得圖像信息的表示更加簡潔,圖像檢索更加高效。傳統(tǒng)的基于內(nèi)容的遙感圖像檢索(content-based remote sensing image retrieval, CBRSIR)主要提取遙感圖像底層視覺特征,包括顏色特征、光譜特征、紋理特征、尺度不變特征轉(zhuǎn)換(scale invariant feature transform, SIFT)特征等。肖秦琨等[5]將融合顏色和紋理特征的方法運(yùn)用到遙感圖像檢索;葛蕓等[6]采用SIFT特征,通過聚類的方式構(gòu)建成低維的視覺詞袋(bag of visual words, BoVW)模型并與Gabor紋理特征融合在一起進(jìn)行遙感圖像檢索。然而,這些底層特征都是人工提取,缺少靈活性,且只針對(duì)特定的目標(biāo)對(duì)象,同時(shí)由于圖像內(nèi)容的多樣性和復(fù)雜性,圖像底層特征到高層語義特征之間存在較大差異,即語義鴻溝,所以該特征提取方法容易導(dǎo)致檢索結(jié)果不理想[7]。
近年來,隨著深度學(xué)習(xí)的發(fā)展,卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural network, CNN)[8]在圖像識(shí)別[9-11]、模式識(shí)別[12]和自然語言處理[13]等領(lǐng)域的研究已取得巨大成功,同時(shí)也開始應(yīng)用于遙感圖像檢索[14-20]。例如李宇等[14]運(yùn)用CNN提取圖像的高層特征進(jìn)行遙感圖像檢索;Ge等[15]分別提取了2類CNN特征用于遙感圖像檢索,一種是直接從高層的輸出中提取,另一種是用平均池化來聚合中間層的輸出。這些方法證明利用卷積神經(jīng)網(wǎng)絡(luò)提取的高層特征能夠提高遙感圖像檢索精度。
近幾年的研究表明,圖像檢索的重排序可以進(jìn)一步提高圖像檢索的準(zhǔn)確率[21-23]。圖像檢索的重排序是利用圖像的內(nèi)容信息對(duì)于初始查詢結(jié)果中的圖像進(jìn)行重新的排列,使最終的查詢結(jié)果能夠更符合用戶的需求。例如金婕[21]提出基于多特征融合和結(jié)果重排的圖像檢索,在提取高層特征后通過多特征融合方法得到最可能的相似備選集,以精確特征重新排序,得到最優(yōu)的檢索結(jié)果,但是此方法僅針對(duì)特定圖像,具有一定的局限性;Tang等[22]為了提高合成孔徑雷達(dá)(synthetic aperture radar, SAR)圖像檢索的性能,提出了一種基于融合相似性的圖像重排序(fusion similarity-based reranking, FSR)算法,從初始檢索列表中排名靠前的SAR圖像中提取3種視覺特征后,然后融合相似度分?jǐn)?shù)再重新排序,但是此方法受初始排名靠前的不相關(guān)圖像影響較大。
遙感圖像檢索方法中已經(jīng)較好地應(yīng)用了CNN強(qiáng)大的特征提取能力,但忽視了CNN在圖像分類、識(shí)別等應(yīng)用中顯示出的強(qiáng)大分類能力。為了提高遙感圖像檢索性能,本文利用CNN特征提取的同時(shí)將CNN的強(qiáng)大圖像分類能力應(yīng)用于遙感圖像的檢索。根據(jù)加權(quán)類別查準(zhǔn)率對(duì)初始檢索結(jié)果進(jìn)行重排序,以提高遙感圖像檢索精度。
基于重排序的農(nóng)業(yè)遙感圖像檢索過程主要包括CNN特征提取、CNN模型微調(diào)、基于CNN的圖像分類和基于加權(quán)類別查準(zhǔn)率的重排序4個(gè)步驟,具體流程如圖1所示。
圖1 基于重排序的農(nóng)業(yè)遙感圖像檢索流程
CNN是一種深度學(xué)習(xí)的結(jié)構(gòu),主要由卷積層、池化層、全連接層、輸入輸出層等組成,其基本框架如圖2所示。CNN能夠利用輸入的圖像數(shù)據(jù)的二維結(jié)構(gòu),即可以直接將原始圖像輸入到CNN中,能夠避免對(duì)圖像進(jìn)行復(fù)雜預(yù)處理工作,得到了廣泛應(yīng)用[24]。
圖2 CNN的基本框架
目前已有很多CNN模型被提出,其中VGG和ResNet模型在圖像分類和目標(biāo)識(shí)別等眾多領(lǐng)域取得令人矚目的成就。VGG16模型結(jié)構(gòu)[25]幾乎全部采用多個(gè)3×3小卷積核來代替大的卷積核,不僅可以使參數(shù)量顯著減少,而且比大卷積核具有更多的非線性變換,使得 CNN 對(duì)特征的學(xué)習(xí)能力更強(qiáng);ResNet模型[26]在圖像分類上具有非常好的效果,并且結(jié)構(gòu)簡單,全部由殘差塊組成,收斂快。Ge等[15]利用CNN(VGG16,ResNet)模型提取CNN特征用于遙感圖像檢索,取得了較好的結(jié)果。因此,本文采用VGG16和ResNet50這2個(gè)模型用于遙感圖像檢索。
VGG16中全連接層(fully connected layers,F(xiàn)C)特征是復(fù)雜的深層特征,由于FC8層的輸出是圖像類別的概率分?jǐn)?shù),通常被用于圖像分類,因此本文摒棄FC8層,而選擇其前2層,即FC7和FC6層的輸出作為檢索特征,這2層的維數(shù)都是4 096。ResNet50中最后一層的輸出頁是圖像類別的概率分?jǐn)?shù),因此選擇其前一層,即2 048維度的pool5層的輸出作為檢索特征。
因?yàn)槿狈Υ罅坑糜谟?xùn)練CNN模型的帶標(biāo)簽樣本,所以本文采用在ImageNet數(shù)據(jù)集上預(yù)訓(xùn)練的CNN模型。由于ImageNet數(shù)據(jù)集中的圖像與遙感圖像差別較大,導(dǎo)致從預(yù)訓(xùn)練的CNN模型中提取的特征不太適合遙感圖像檢索。為了提取更適合遙感圖像檢索任務(wù)的檢索特征和對(duì)遙感圖像的類別進(jìn)行估計(jì),需要對(duì)預(yù)訓(xùn)練的CNN模型進(jìn)行微調(diào)。
本文在ImageNet上預(yù)訓(xùn)練好的CNN模型基礎(chǔ)上,利用部分檢索庫中部分圖像對(duì)預(yù)訓(xùn)練CNN模型進(jìn)行微調(diào)。首先將CNN模型最后一層的維數(shù)修改為遙感數(shù)據(jù)集類別數(shù),然后采用均值為0、方差為0.01的高斯分布對(duì)CNN模型最后一層的權(quán)重進(jìn)行隨機(jī)初始化;最后將學(xué)習(xí)速率的初始值設(shè)為0.001,權(quán)重設(shè)為0.005,批大?。╞atchSize)設(shè)為256,動(dòng)量設(shè)為0.9,采用Adam(adaptive moment estimation)學(xué)習(xí)方法[27],設(shè)置迭代300次訓(xùn)練。對(duì)預(yù)訓(xùn)練的CNN模型進(jìn)行微調(diào),使CNN模型更適合遙感圖像檢索。
對(duì)初始檢索結(jié)果進(jìn)行重排序過程中需要用到遙感圖像的類別信息,所以要先對(duì)檢索圖像進(jìn)行分類。本文利用微調(diào)后的CNN模型進(jìn)行遙感圖像分類。
通常CNN模型的最后一層被用于圖像分類,本文的CNN模型最后一層采用一個(gè)非線性分類能力強(qiáng)的Softmax回歸層作為分類器[28]。Softmax回歸在邏輯回歸的基礎(chǔ)上推廣而來,可以解決多分類問題。Softmax回歸分類器的輸入維度與CNN的最后一層輸出維度相同,并且該輸出維度與數(shù)據(jù)集中圖像的類別數(shù)一致。
由于遙感圖像的復(fù)雜性,導(dǎo)致有些利用CNN提取的圖像特征不能較好反映圖像內(nèi)容,從而使得初始圖像檢索結(jié)果較差。為了改善初始檢索結(jié)果,需要對(duì)初始檢索結(jié)果進(jìn)行重新排序。本文利用初始排序結(jié)果計(jì)算每個(gè)類別的加權(quán)類別查準(zhǔn)率,并根據(jù)其對(duì)遙感圖像的類別進(jìn)行排序。
初始排序方法如下:首先將查詢圖像輸入到微調(diào)后的CNN模型中,得到相應(yīng)查詢圖像的CNN特征;再計(jì)算查詢圖像和檢索圖像的CNN特征之間的距離;最后根據(jù)距離大小進(jìn)行排序,得到初始檢索結(jié)果。本文采用歐式距離,計(jì)算公式如式(2)所示。
式中x和y分別表示查詢圖像與檢索圖像的特征向量,為查詢圖像與檢索圖像的特征向量的長度。
得到初始檢索結(jié)果后,利用其計(jì)算每個(gè)類別的加權(quán)類別查準(zhǔn)率。加權(quán)類別查準(zhǔn)率計(jì)算過程如下:
假設(shè)有1張查詢圖像,利用前個(gè)檢索圖像計(jì)算類別查準(zhǔn)率。檢索圖像數(shù)據(jù)集中有個(gè)與查詢圖像類別相同的圖像。根據(jù)初始檢索結(jié)果和以下公式計(jì)算出查詢圖像屬于第個(gè)類別圖像的類別查準(zhǔn)率CAP(class average precision)。
通過公式(4)得到查詢結(jié)果中每個(gè)圖像類別查準(zhǔn)率。某個(gè)類別的圖像類別查準(zhǔn)率越大,查詢圖像是該圖像類別的可能性越大。因此,根據(jù)圖像類別查準(zhǔn)率可以衡量查詢圖像為某個(gè)類別的可能性。
(6)
本文方法的檢索流程分為2個(gè)過程,一是離線過程,二是在線過程。離線過程是為在線過程事先提取檢索圖像特征和確定檢索圖像類別,從而提高檢索速度。在線過程是指一幅查詢圖像的整個(gè)檢索過程。2個(gè)過程的具體步驟如下:
離線過程:
1)使用遙感圖像訓(xùn)練集在預(yù)訓(xùn)練的CNN模型上進(jìn)行微調(diào),得到微調(diào)之后的CNN模型。
2)利用微調(diào)之后的模型提取檢索圖像集的CNN特征,得到特征庫;利用最后softmax分類層,對(duì)檢索圖像分類。
在線過程:
2)根據(jù)查詢圖像與檢索圖像集的特征向量計(jì)算圖像之間的相似度,并根據(jù)相似度排序,得到初始的檢索列表。
本文方法的時(shí)間復(fù)雜度主要包含2部分:1)初始排序;2)利用加權(quán)類別查準(zhǔn)率重排序。初始排序過程主要包括計(jì)算查詢圖像與所有檢索圖像間相似度度量的復(fù)雜度()和根據(jù)相似度對(duì)檢索圖像進(jìn)行排序的復(fù)雜度(log2);根據(jù)加權(quán)類別查準(zhǔn)率的重排序過程包括計(jì)算類別查準(zhǔn)率值的復(fù)雜度(),計(jì)算加權(quán)類別查準(zhǔn)率值并排序的復(fù)雜度(log2),對(duì)初始排序結(jié)果利用加權(quán)類別查準(zhǔn)率結(jié)果進(jìn)行重排的復(fù)雜度()。其中為圖像特征向量的長度,為檢索圖像的數(shù)量,為圖像庫的類別數(shù)量。本文方法時(shí)間復(fù)雜度主要在初始排序過程,而重排序的時(shí)間復(fù)雜度僅為(),因此本文提出的重排序方法的算法復(fù)雜度很低。
本文試驗(yàn)在MS Windows 10系統(tǒng)下利用MATLAB進(jìn)行,使用的工具包為matconvnet,處理器為英特爾i7-7700,內(nèi)存16 GB,GPU為Nvidia GeForce GTX 1080。
本文的試驗(yàn)數(shù)據(jù)集是UCM_LandUse(UCMD)和PatternNet。UCMD中包含農(nóng)田、森林、河流等21個(gè)類別,每類包含100幅256×256像素的圖像,共2 100張。PatternNet包含了沙灘、河流等38個(gè)分類,每類包含800幅256×256像素的圖像,共30 400張。
評(píng)價(jià)遙感圖像檢索方法的常用性能指標(biāo)有多種,本文采用常用的平均查準(zhǔn)率(mean average precision,mAP)[29]和平均歸一化調(diào)整后的檢索秩(average normalized modified retrieval rank,ANMRR)[15]作為檢索性能的評(píng)判標(biāo)準(zhǔn)。
為了驗(yàn)證重排序是否有助于提高遙感圖像的檢索精度,本文首先取UCMD數(shù)據(jù)集中一幅圖像作為查詢圖像,利用微調(diào)后的模型提取圖像的pool5特征進(jìn)行檢索,對(duì)初始排序結(jié)果和利用加權(quán)類別查準(zhǔn)率重排序結(jié)果進(jìn)行比較分析。其中,初始排序結(jié)果見圖3a,其重排序檢索結(jié)果如圖3b。從圖3中可以看出,初始檢索結(jié)果中前15張圖像有10張不相關(guān)圖像,而重排序結(jié)果中只有1張不相關(guān)圖像。同時(shí),該查詢圖像的初始檢索結(jié)果的查準(zhǔn)率是43.25%,而重排序后的查準(zhǔn)率是86.31%,檢索精度有了明顯的提升,可以看出重排序的效果明顯。
注:圖中第1幅圖像為待檢索圖像;“√”表示檢索到的圖像是相關(guān)圖像,“×”表示檢索到的圖像是不相關(guān)圖像。
為了定量分析重排序?qū)z索性能的影響,在UCMD數(shù)據(jù)集上進(jìn)行測(cè)試,將初始檢索結(jié)果和重排序后的結(jié)果在不同特征下的類別mAP進(jìn)行比較,結(jié)果如圖4所示。
從圖4中可以看出,重排序方法能夠有效提高初始檢索結(jié)果的精度,但特征是否微調(diào)對(duì)檢索結(jié)果影響不大。例如FC6、FC7和pool5層預(yù)訓(xùn)練特征初始檢索結(jié)果的mAP均值分別為56.16%、54.68%和57.69%,其重排序檢索結(jié)果的mAP均值分別為90.39%、90.84%和92.70%,重排序檢索結(jié)果比初始檢索結(jié)果的mAP均值大約提升30%。而FC6、FC7和pool5層微調(diào)特征重排序檢索結(jié)果的mAP均值分別為90.64%、90.87%和93.67%,其中,F(xiàn)C6層和FC7層微調(diào)特征與其對(duì)應(yīng)的預(yù)訓(xùn)練特征的mAP均值非常接近,而pool層微調(diào)特征比對(duì)應(yīng)的預(yù)訓(xùn)練特征的mAP均值僅提高0.97%,說明微調(diào)前后的特征對(duì)重排序檢索結(jié)果影響很微弱。建筑物,十字路口,油罐倉庫等初始檢索效果不好的類別,經(jīng)過重排序后檢索精度有明顯的提升。例如十字路口這類圖像,pre_pool5特征初始檢索結(jié)果的mAP值為34.3%,而pre_pool5_rerank特征和ft_pool5_rerank特征重排序檢索結(jié)果的mAP值分別為86.76%和91.69%,均比初始檢索結(jié)果提升50%左右,因此采用重排序方法能夠取得較好的檢索結(jié)果。
注:a為農(nóng)田;b為飛機(jī);c為棒球場;d為海灘;e為建筑物;f為灌叢;g為稠密居住區(qū);h為森林;i為高速公路;j為高爾夫球場;k為港口;l為十字路口;m為中等稠密居住區(qū);n為活動(dòng)房區(qū);o為立交橋;p為停車場;q為河流;r為跑道;s為居住區(qū);t為油罐倉庫;u為網(wǎng)球場。pre_FC6,pre_FC7,pre_pool5分別表示FC6、FC7和pool5層預(yù)訓(xùn)練特征的初始檢索結(jié)果;pre_FC6_rerank,pre_FC7_rerank,pre_pool5_rerank分別表示FC6、FC7和pool5層的預(yù)訓(xùn)練特征重排序后檢索結(jié)果;ft_FC6_rerank,ft_FC7_rerank,ft_pool5_rerank分別表示FC6、FC7和pool5層微調(diào)特征重排序后檢索結(jié)果。mAP表示平均查準(zhǔn)率,AVG表示每個(gè)類別的平均查準(zhǔn)率的平均值,下同。
微調(diào)過程中使用的訓(xùn)練集圖像數(shù)量是影響分類精度以及檢索特征是否能夠很好表達(dá)圖像信息的一個(gè)重要因素,對(duì)檢索效果影響較大,因此本文通過大小不同的訓(xùn)練集進(jìn)行對(duì)比試驗(yàn),分析訓(xùn)練集數(shù)量對(duì)檢索性能的影響。試驗(yàn)所需要的數(shù)據(jù)集分為訓(xùn)練集和檢索集2部分。在PatternNet庫中,每個(gè)類別中分別隨機(jī)取5、10、20、30、40、50、60、70、80、90幅圖像作為訓(xùn)練集,剩余圖像為檢索集。將訓(xùn)練集中的每類圖像分別隨機(jī)取80%用作訓(xùn)練CNN模型,另20%作為CNN模型的測(cè)試數(shù)據(jù)集。此外,在檢索集中每類各隨機(jī)取20%作為查詢圖像集,剩余圖像作為檢索圖像集。結(jié)果如表1和表2所示。
由表1可知,微調(diào)過程中使用的訓(xùn)練集圖像數(shù)量對(duì)檢索效果影響較大,3種特征中均表現(xiàn)為:隨著訓(xùn)練樣本增加,mAP值逐漸增大,但增長幅度逐步降低。例如,對(duì)于ft_pool5_rerank特征,樣本數(shù)量為5時(shí),mAP值為75.89%,當(dāng)樣本數(shù)量達(dá)到90時(shí),mAP值為97.56%,當(dāng)樣本數(shù)量由5變?yōu)?0時(shí),mAP值增加了11.31%,而當(dāng)樣本數(shù)量由80變?yōu)?0時(shí),mAP值僅增加4.8%。由表2可知,在3種特征中,ANMMR值隨著訓(xùn)練樣本增加逐漸下降,但下降速度逐步降低。例如,ft_pool5_rerank特征,樣本數(shù)量為5時(shí),ANMRR值為0.210 5,當(dāng)樣本數(shù)量達(dá)到90時(shí),ANMRR值為0.020 1,ANMRR值不斷降低;當(dāng)樣本數(shù)量由5變?yōu)?0時(shí),ANMRR值下降了0.097 4,而當(dāng)樣本數(shù)量由80變?yōu)?0時(shí),ANMRR值僅下降0.002 2。
表1 不同訓(xùn)練圖像數(shù)量時(shí)各特征的mAP
表2 不同訓(xùn)練圖像數(shù)量時(shí)各特征的ANMRR
由表1和表2可知, pool5特征能夠得到最好的檢索性能,說明pool5的特征更適用于本文重排序的農(nóng)業(yè)遙感圖像檢索方法。例如,重排序檢索結(jié)果ft_pool5_rerank特征的mAP值最高達(dá)97.56%,而ft_FC6_rerank和ft_FC7_rerank特征的mAP值最高為95.57%和95.76%;ft_pool5_rerank特征的ANMRR值最低,為0.020 1,而ft_FC6_rerank和ft_FC7_rerank特征的mAP值最低為0.033 5和0.033 9,由此知,ft_FC6_rerank和ft_FC7_rerank的特征檢索性能接近,但均劣于ft_pool5_rerank。
為了測(cè)試本文方法的檢索速度,對(duì)初始排序過程和重排序過程運(yùn)行時(shí)間進(jìn)行分析。如表3所示,在UCMD數(shù)據(jù)集,3種特征中,F(xiàn)C6層和FC7層特征的平均初始檢索時(shí)間很相近,分別為13.5和13.44 ms,平均重排序時(shí)間分別為0.12和0.22 ms,總檢索時(shí)間為13.62和13.66 ms,總檢索時(shí)間相對(duì)于初始檢索時(shí)間的增長率分別為0.89%和1.6%,pool5層特征的平均初始檢索時(shí)間為6.68 ms,平均重排序時(shí)間為0.04 ms,總檢索時(shí)間相對(duì)于初始檢索時(shí)間的增長率為0.6%;在PatternNet數(shù)據(jù)集上,3種特征的總檢索時(shí)間相對(duì)于初始檢索時(shí)間的增長率分別為0.3%、0.18%和1.01%。本文重排序檢索時(shí)間比初始排序時(shí)間增加不超過1%,不影響實(shí)際檢索速度。
表3 不同數(shù)據(jù)集上的運(yùn)行時(shí)間比較
Table 3 Running time comparison of different datasets
為進(jìn)一步驗(yàn)證本文方法的有效性,與已有文獻(xiàn)研究方法的ANMRR進(jìn)行比較,結(jié)果如表4所示。
表4 UCMD數(shù)據(jù)集上不同遙感圖像檢索方法的ANMRR比較
從表4中可以看到,在UCMD數(shù)據(jù)集中,本文方法的檢索結(jié)果明顯優(yōu)于其他檢索方法。例如,文獻(xiàn)[19] 中MultiPacth+PCA(GoogleNet) 的ANMRR值為0.285,是除本文方法之外檢索結(jié)果最好的。而本文采用3種特征的重排序方法中,ft_FC6_rerank 、ft_FC7_rerank和ft_pool5_rerank的ANMRR值分別為0.075 5、0.074 0、0.049 2,比MultiPacth+PCA(GoogleNet)分別降低0.209 5、0.211、0.235 8。其中ft_pool5_rerank的ANMRR值降幅超過了82.7%。
本文提出了一種基于卷積神經(jīng)網(wǎng)絡(luò)和重排序的農(nóng)業(yè)遙感圖像檢索方法,首先利用CNN的分類能力對(duì)檢索圖像進(jìn)行分類;然后根據(jù)分類結(jié)果計(jì)算初始檢索結(jié)果中每個(gè)類別的權(quán)重類別查準(zhǔn)率;最后根據(jù)權(quán)重類別查準(zhǔn)率對(duì)初始檢索結(jié)果進(jìn)行重排序,得到最終檢索結(jié)果。試驗(yàn)結(jié)果表明:
1)通過定性和定量的分析,重排序方法能夠有效提高初始檢索結(jié)果的精度,在UCMD數(shù)據(jù)集中, 3種特征重排序結(jié)果比初始檢索結(jié)果的mAP均值大約提升30%。
2)隨著訓(xùn)練樣本數(shù)量的增加,檢索特征的平均查準(zhǔn)率逐漸增加,平均歸一化調(diào)整后的檢索秩逐漸下降,其變化幅度逐漸趨于平緩。并且pool層的特征比FC6、FC7層特征的檢索效果要好,更適用于重排序的遙感圖像檢索。
3)在PatternNet數(shù)據(jù)集中,本文方法的平均查準(zhǔn)率達(dá)到97.56%,平均歸一化調(diào)整后的檢索秩能夠達(dá)到0.020 1。平均運(yùn)行時(shí)間總計(jì)最少的是pool5層特征,為223.06 ms,其初始排序時(shí)間為220.82 ms,重排序時(shí)間為2.24 ms,總時(shí)間對(duì)初始時(shí)間的增長率為1.01%。
4)在UCMD數(shù)據(jù)集中,本文方法的平均查準(zhǔn)率達(dá)到93.67%,平均歸一化調(diào)整后的檢索秩達(dá)到0.049 2,相比其他方法降幅超過了82.7%。pool5層特征的平均總運(yùn)行時(shí)間最少,為6.72 ms,其中初始排序時(shí)間為6.68 ms,重排序時(shí)間為0.04 ms,總檢索時(shí)間對(duì)初始檢索時(shí)間的增長率為0.6%,有效提高了遙感圖像檢索精度。
由于本文方法在檢索圖像分類過程中使用了有標(biāo)簽樣本數(shù)據(jù),這些樣本數(shù)據(jù)需要手工進(jìn)行標(biāo)注。后續(xù)的研究中將進(jìn)行無監(jiān)督深度學(xué)習(xí)分類方法的研究,以提高方法的適用性。
[1] 閆薇,張長利. 基于綜合特征的圖像檢索在農(nóng)業(yè)信息化中的應(yīng)用[J]. 農(nóng)機(jī)化研究,2011,33(7):205-208.
Yan Wei, Zhang Changli. Comprehensive feature- based image retrieval and the application in agriculture[J]. Journal of Agricultural Mechanization Research, 2011, 33(7): 205-208. (in Chinese with English abstract)
[2] 陳桂蘭,田淑梅,王偉. 基于內(nèi)容的圖像檢索技術(shù)在農(nóng)業(yè)信息化中的應(yīng)用[J]. 農(nóng)機(jī)化研究,2010,32(5):176-179.
Chen Guilan, Tian Shumei, Wang Wei. The technique of content-based image retrieval and the applicationin agriculture[J]. Journal of Agricultural Mechanization Research, 2010, 32(5): 176-179. (in Chinese with English abstract)
[3] 朱玲,李振波,楊照璐,等. 基于混合特征的互聯(lián)網(wǎng)茄子圖像檢索方法與系統(tǒng)[J]. 農(nóng)業(yè)工程學(xué)報(bào),2017,33(增刊1):177-183.
Zhu Ling, Li Zhenbo, Yang Zhaolu, et al. Internet eggplant image retrieval method and system based on mixed features[J]. Transactions of the Chinese Society of Agricultural Engineering (Transactions of the CSAE), 2017, 33(Supp.1): 177-183. (in Chinese with English abstract)
[4] 濮永仙. 基于病斑特征融合的煙草病害圖像檢索方法[J]. 河南農(nóng)業(yè)科學(xué),2015,44(2):71-76.
Pu Yongxian. Image searching method of tobacco disease based on disease spot feature fusion[J]. Journal of Henan Agricultural Sciences, 2015, 44(2): 71-76. (in Chinese with English abstract)
[5] 肖秦琨,劉米娜,高嵩. 基于顏色和紋理特征的遙感圖像檢索[J]. 計(jì)算機(jī)技術(shù)與發(fā)展,2013,23(4):107-110.
Xiao Qinkun, Liu Mina, Gao Song. Remote sensing image retrieval based on color and texture[J]. Computer Technology and Development, 2013, 23(4): 107-110. (in Chinese with English abstract)
[6] 葛蕓,江順亮,葉發(fā)茂,等. 視覺詞袋和Gabor紋理融合的遙感圖像檢索[J]. 光電工程,2016,43(2):76-81.
Ge Yun, Jiang Shunliang, Ye Famao, et al. Remote sensing image retrieval based on the fusion of BoVW and gabor texture[J]. Opto-Electronic Engineering, 2016, 43(2): 76-81. (in Chinese with English abstract)
[7] 王新建,羅光春,秦科,等. 一種基于SVM和主動(dòng)學(xué)習(xí)的圖像檢索方法[J]. 計(jì)算機(jī)應(yīng)用研究,2016,33(12):3836-3838.
Wang Xinjian, Luo Guangchun, Qin Ke, et al. Image retrieval method based on SVM and active learning[J]. Application Research of Computers, 2016, 33(12): 3836-3838. (in Chinese with English abstract)
[8] Krizhevsky A, Sutskever I, Hinton G E. ImageNet classification with deep convolutional neural networks[C]// International Conference on Neural Information Processing Systems, Curran Associates Inc. 2012: 1097-1105.
[9] 龍滿生,歐陽春娟,劉歡,等. 基于卷積神經(jīng)網(wǎng)絡(luò)與遷移學(xué)習(xí)的油茶病害圖像識(shí)別[J]. 農(nóng)業(yè)工程學(xué)報(bào),2018,34(18):194-201.
Long Mansheng, Ouyang Chunjuan, Liu Huan, et al. Image recognition of camellia oleifera diseases based on convolutional neural network & transfer learning[J]. Transactions of the Chinese Society of Agricultural Engineering (Transactions of the CSAE), 2018, 34(18): 194-201. (in Chinese with English abstract)
[10] 傅隆生,馮亞利,Elkamil Tola,等. 基于卷積神經(jīng)網(wǎng)絡(luò)的田間多簇獼猴桃圖像識(shí)別方法[J]. 農(nóng)業(yè)工程學(xué)報(bào),2018,34(2):205-211.
Fu Longsheng, Feng Yali, Elkamil Tola, et al. Image recognition method of multi-cluster kiwifruit in field based on convolutional neural networks[J]. Transactions of the Chinese Society of Agricultural Engineering (Transactions of the CSAE), 2018, 34(2): 205-211. (in Chinese with English abstract)
[11] 盧偉,胡海陽,王家鵬,等. 基于卷積神經(jīng)網(wǎng)絡(luò)面部圖像識(shí)別的拖拉機(jī)駕駛員疲勞檢測(cè)[J]. 農(nóng)業(yè)工程學(xué)報(bào),2018,34(7):192-199.
Lu Wei, Hu Haiyang, Wang Jiapeng, et al. Driver fatigue detection based on convolution neural network and facial image recognition[J].Transactions of the Chinese Society of Agricultural Engineering (Transactions of the CSAE), 2018, 34(7): 192-199. (in Chinese with English abstract)
[12] 羅建豪,吳建鑫. 基于深度卷積特征的細(xì)粒度圖像分類研究綜述[J]. 自動(dòng)化學(xué)報(bào),2017,43(8):1306-1318.
Luo Jianhao, Wu Jianxin. A survey on fine-grained image categorization using deep convolutional features[J]. Acta Automatica Sinica, 2017, 43(8): 1306-1318. (in Chinese with English abstract)
[13] 金麗嬌,傅云斌,董啟文. 基于卷積神經(jīng)網(wǎng)絡(luò)的自動(dòng)問答[J]. 華東師范大學(xué)學(xué)報(bào):自然科學(xué)版,2017(5):66-79.
Jin Lijiao, Fu Yunbin, Dong Qiwen. The auto-question answering system based on convolution neural network[J]. Journal of East China Normal University: Natural Science, 2017(5): 66-79. (in Chinese with English abstract)
[14] 李宇,劉雪瑩,張洪群,等. 基于卷積神經(jīng)網(wǎng)絡(luò)的光學(xué)遙感圖像檢索[J]. 光學(xué)精密工程,2018,26(1):200-207.
Li Yu, Liu Xueying, Zhang Hongqun, et al. Optical remote sensing image retrieval based on convolutional neural networks[J]. Optics and Precision Engineering, 2018, 26(1): 200-207. (in Chinese with English abstract)
[15] Ge Yun, Jiang Shunliang, Xu Qingyong, et al. Exploiting representations from pre-trained convolutional neural networks for high-resolution remote sensing image retrieval[J]. Multimedia Tools & Applications, 2017(5): 1-27.
[16] Ye F M, Su Y F, Xiao H, et al. Remote Sensing Image Registration Using Convolutional Neural Network Features[J]. IEEE Geoscience & Remote Sensing Letters, 2018, 15(2): 232-236.
[17] 彭晏飛,宋曉男,訾玲玲,等. 基于深度卷積神經(jīng)網(wǎng)絡(luò)和改進(jìn)模糊C均值的遙感圖像檢索[J]. 激光與光電子學(xué)進(jìn)展,2018,55(9):091008.
Peng Yanfei, Song Xiaonan, Zi Lingling, et al. Remote sensing image retrieval based on convolutional neural network and modified fuzzy C-Means[J]. Laser & Optoelectronics Progress, 2018, 55(9): 091008. (in Chinese with English abstract)
[18] 張洪群,劉雪瑩,楊森,等. 深度學(xué)習(xí)的半監(jiān)督遙感圖像檢索[J]. 遙感學(xué)報(bào),2017,21(3):406-414.
Zhang Hongqun, Liu Xueying, Yang Sen, et al. Retrieval of remote sensing image based on semisupervised deep learing[J]. Journal of Remote Sensing, 2017, 21(3): 406-414. (in Chinese with English abstract)
[19] Zhou Weixun, Newsam Shawn, Li Congmin, et al. Learning low dimensional convolutional neural networks for high-resolution remote sensing image retrieval[J]. Remote Sensing, 2017, 9(5): 489.
[20] Hu Fan, Tong Xinyi, Xia Guisong, et al. Delving into deep representations for remote sensing image retrieval[C]// IEEE International Conference on Signal Processing. IEEE, 2017: 198-203.
[21] 金婕. 基于多特征融合和結(jié)果重排的特定圖像檢索[D]. 上海:上海交通大學(xué),2015.
Jin Jie. CBIR of Specific Object Based on Multi-feature Fusion and Re-ranking[D]. Shanghai: Shanghai Jiaotong University, 2015. (in Chinese with English abstract)
[22] 唐旭. 基于圖像學(xué)習(xí)表征和重排序的遙感影像內(nèi)容檢索[D]. 西安:西安電子科技大學(xué),2017.
Tang Xu. Remote Sensing Image Content Retrieval Based on Image Learning Representation and Reranking[D]. Xi’an: Xidian University, 2017. (in Chinese with English abstract)
[23] Tang Xu, Li Chengjiao, William J Emery, et al. Two-stage reranking for remote sensing image retrieval[J]. IEEE Transactions on Geoscience & Remote Sensing, 2017, 55(10): 5798-5817.
[24] 王征,李皓月,許洪山,等. 基于卷積神經(jīng)網(wǎng)絡(luò)和SVM的中國畫情感分類[J]. 南京師范大學(xué)學(xué)報(bào):自然科學(xué)版,2017,40(3):74-79.
Wang Zheng, Li Haoyue, Xu Hongshan, et al. Chinese painting emotion classification based on onvolution neural network and SVM[J]. Journal of Nanjing Normal University: Natural Science Edition, 2017, 40(3): 74-79. (in Chinese with English abstract)
[25] Simonyan K, Zisserman A. Very deep convolutional networks for large-scale image recognition[J/OL]. [2015-04-10], https://arxiv.org/abs/1409.1556.
[26] Wu Zifeng, Shen Chunhua, Hengel A V D. Wider or deeper: Revisiting the resNet model for visual recognition[J/OL]. [2016-11-30], https://arxiv.org/abs/1611.10080.
[27] Kingma D P, Ba J. Adam: A Method for stochastic optimization[J/OL]. [2017-01-30], https://arxiv.org/abs/1412.6980.
[28] 胡二雷,馮瑞. 基于深度學(xué)習(xí)的圖像檢索系統(tǒng)[J]. 計(jì)算機(jī)系統(tǒng)應(yīng)用,2017,26(3):8-19.
Hu Erlei, Feng Rui. Image retrieval system based on deep learning[J]. Computer Systems & Applications, 2017, 26(3): 8-19. (in Chinese with English abstract)
[29] 劉海龍,李寶安,呂學(xué)強(qiáng),等. 基于深度卷積神經(jīng)網(wǎng)絡(luò)的圖像檢索算法研究[J]. 計(jì)算機(jī)應(yīng)用研究,2017,34(12):3816-3819.
Liu Hailong, Li Baoan, LüXueqiang, et al. Image retrieval based on deep convolutional neural network[J]. Application Research of Computers, 2017, 34(12): 3816-3819. (in Chinese with English abstract)
[30] 葛蕓,江順亮,葉發(fā)茂,等. 聚合CNN特征的遙感圖像檢索[J]. 國土資源遙感,2019,31(1) :49-57.
Ge Yun, Jiang Shunliang, Ye Famao, et al. Aggregating CNN features for remote sensing image retrieval[J]. Remote Sens Land Resour, 2019, 31(1): 49-57. (in Chinese with English abstract)
Agricultural remote sensing image retrieval based on convolutional neural network and reranking
Ye Famao1,2, Dong Meng1, Luo Wei1, Xiao Hui1, Zhao Xuqing1, Min Weidong1,3※
(1.,330031,;2.,330013,;3.,330047,)
Convolutional neural network (CNN), a hierarchical neural network, can extract powerful feature representations and make accurate classification at the same time. CNN has already made remarkable achievements in various fields such as image classification and object recognition. The ability of feature extraction of CNN has been used to retrieve images in lots of works, however, the powerful classification ability of CNN is ignored by most researchers. To improve the agricultural image retrieval performance, this paper proposes a reranking method that uses the classification ability of CNN. Firstly, the fine-tuned cnn model is used to extract the retrieval features of the query image and estimate the weight of each category of the query image. Second, the retrieved images are sorted according to the image similarity of the CNN features between the query image and each retrieved image, and then the initial retrieval results are obtained. Third, the initial retrieval results are used to calculate the weighted class average precision (CAP) of each image class. Finally, the order of image classes is obtained through sorting the classes according to the weighted CAP, and the retrieved images are re-ranked by the order of image classes. The images in the same class are retained their order in the initial result. Hence, the final retrieval result is obtained. Experiments of two publicly available datasets of remote sensing, PatternNet and UCM_LandUse, are carried to verify the validation of the proposed method. The experimental results are concluded as follows: 1) The reranking method can improve the initial results and get more relevant images in a contrast experiment. 2) Per class mean average precision (mAP) values of three features (FC6 and FC7 of VGG16, pool5 of ResNet50) are evaluated on UCM_LandUse dataset, and the reranking retrieval results have increased by approximately 30% than the initial results. 3) To determine the optimal parameter values, an experiment of the different training data volume on PatternNet is conducted to evaluate the influence of different number of training images on the retrieval performance. It can be seen that the mAP and ANMRR(Average normalized modified retrieval rank) improves with the increases of the number of training image. For example, the mAP of ft_pool5_rerank feature increases from 75.89% to 97.56% as the number of the training image per class grows from 5 to 90. 4) The average resort retrieval time increases by no more than 1% over the initial retrieval time. 5) The mAP of the proposed method on UCMD is 93.67%, and the ANMRR is 0.049 2, which is 0.235 8 lower than that of the state-of-the-art methods.The proposed method can realize higher retrieval performance of agricultural remote sensing image retrieval, it will be helpful to improve the level of information and intellectualization in the agricultural information field.
remote sensing; image retrieval; feature extraction; reranking; convolutional neural network
10.11975/j.issn.1002-6819.2019.15.018
TP394.1; TH691.9
A
1002-6819(2019)-15-0138-08
2018-11-05
2019-04-25
國家自然科學(xué)基金(41261091, 61762061);江西省自然科學(xué)基金資助項(xiàng)目(20161ACB20004)
葉發(fā)茂,副教授,博士,主要從事遙感圖像處理和人工智能方面的研究。Email:yefamao@gmail.com
閔衛(wèi)東,教授,博士,博士生導(dǎo)師,主要從事計(jì)算機(jī)圖形圖像處理、人工智能、大數(shù)據(jù)等方面的研究。Email:minweidong@ncu.edu.cn
葉發(fā)茂,董 萌,羅 威,肖 慧,趙旭青,閔衛(wèi)東. 基于卷積神經(jīng)網(wǎng)絡(luò)和重排序的農(nóng)業(yè)遙感圖像檢索[J]. 農(nóng)業(yè)工程學(xué)報(bào),2019,35(15):138-145. doi:10.11975/j.issn.1002-6819.2019.15.018 http://www.tcsae.org
Ye Famao, Dong Meng, Luo Wei, Xiao Hui, Zhao Xuqing, Min Weidong. Agricultural remote sensing image retrieval based on convolutional neural network and reranking[J]. Transactions of the Chinese Society of Agricultural Engineering (Transactions of the CSAE), 2019, 35(15): 138-145. (in Chinese with English abstract) doi:10.11975/j.issn.1002-6819.2019.15.018 http://www.tcsae.org