戴玉超,張 靜,,F(xiàn)atih PORIKLI,何明一
1. 西北工業(yè)大學(xué)電子信息學(xué)院,陜西 西安 710129; 2. 澳大利亞國(guó)立大學(xué)工程研究院,澳大利亞 堪培拉 2601
在航空航天等方面,數(shù)字?jǐn)z影測(cè)量與機(jī)器視覺(jué)的融合發(fā)展成為近來(lái)備受關(guān)注的高性能對(duì)地觀測(cè)手段,同時(shí)以深度學(xué)習(xí)為代表的智能化處理方法不斷發(fā)展,如何有效結(jié)合深度學(xué)習(xí)方法實(shí)現(xiàn)更加智能的攝影測(cè)量成為一個(gè)關(guān)鍵的研究問(wèn)題。本文側(cè)重于介紹智能化攝影測(cè)量深度學(xué)習(xí)的深度殘差方法,研究基于深度殘差網(wǎng)絡(luò)的遙感圖像顯著目標(biāo)檢測(cè)方法。圖像顯著目標(biāo)檢測(cè)致力于自動(dòng)檢測(cè)和定位圖像中對(duì)人所最感興趣的目標(biāo)區(qū)域。該項(xiàng)技術(shù)已經(jīng)被成功應(yīng)用到多項(xiàng)計(jì)算機(jī)視覺(jué)與模式識(shí)別任務(wù)中,包括交互式圖像分割[1]、圖像剪裁[2]、基于上下文的圖像編輯[3]、圖像識(shí)別[4]和動(dòng)作識(shí)別[5]等。傳統(tǒng)的顯著目標(biāo)檢測(cè)方法通過(guò)手工設(shè)計(jì)特征,計(jì)算圖像各像素或者超像素與鄰域像素或者超像素之間的對(duì)比度實(shí)現(xiàn)顯著目標(biāo)檢測(cè)(1代表顯著性前景;0代表非顯著性背景)。對(duì)于簡(jiǎn)單場(chǎng)景,傳統(tǒng)算法可以取得不錯(cuò)的結(jié)果。然而基于手工設(shè)計(jì)特征的傳統(tǒng)顯著目標(biāo)檢測(cè)方法難以應(yīng)對(duì)復(fù)雜場(chǎng)景,如包含多個(gè)顯著目標(biāo)或者顯著目標(biāo)在場(chǎng)景中所占比例較低等復(fù)雜情形。
隨著深度學(xué)習(xí)的巨大進(jìn)展,特別是全卷積神經(jīng)網(wǎng)絡(luò)[6](fully convolutional networks,F(xiàn)CN)的引入,基于深度卷積網(wǎng)絡(luò)(convolutional neural network,CNN)的顯著目標(biāo)檢測(cè)算法取得巨大進(jìn)步。近兩年來(lái)出現(xiàn)了眾多基于CNN的顯著目標(biāo)檢測(cè)方法。由于深度網(wǎng)絡(luò)可以有效提取顯著目標(biāo)更抽象且更加高維的特征,相比于傳統(tǒng)方法,基于深度學(xué)習(xí)的顯著目標(biāo)檢測(cè)性方法取得的巨大的性能提升,特別是在復(fù)雜場(chǎng)景的顯著目標(biāo)檢測(cè)方面。
然而,由于圖像數(shù)據(jù)獲取和標(biāo)記的困難性,多光譜遙感圖像顯著目標(biāo)檢測(cè)的研究依然以人工定義特征檢測(cè)為主。同時(shí),傳統(tǒng)的多光譜數(shù)據(jù)顯著目標(biāo)檢測(cè)算法并沒(méi)有充分挖掘波段信息,只是在不同波段按照自然圖像的處理方式來(lái)提取顏色對(duì)比度信息和紋理信息等。為了有效利用多光譜各譜段信息,本文提出一個(gè)基于自上而下深度殘差網(wǎng)絡(luò)的多光譜遙感圖像顯著目標(biāo)檢測(cè)模型??紤]到多光譜遙感圖像顯著目標(biāo)數(shù)據(jù)的有限性和獲取的困難性,本文首先提出一種多光譜超分辨率網(wǎng)絡(luò)模型,用于從已有的RGB圖像,產(chǎn)生多光譜遙感圖像(本文從RGB圖像產(chǎn)生近紅外波段圖像)。然后,使用已有的RGB圖像,產(chǎn)生足夠多的多光譜圖像。最后,使用上述模型產(chǎn)生的多光譜圖像來(lái)訓(xùn)練一個(gè)基于殘差網(wǎng)絡(luò)的自上而下的深度學(xué)習(xí)模型。本文基于殘差網(wǎng)絡(luò)的顯著目標(biāo)檢測(cè)模型結(jié)構(gòu)如圖1所示。
傳統(tǒng)顯著目標(biāo)檢測(cè)算法依賴于人工定義的特征。文獻(xiàn)[7]提出一種邊界連接性指標(biāo)(background connectivity),通過(guò)計(jì)算圖像中每個(gè)超像素區(qū)域與圖像邊界的連接程度來(lái)計(jì)算顯著性值。文獻(xiàn)[8]定義對(duì)比度、聚集度和物體度(一個(gè)像素或者超像素屬于一個(gè)物體的概率)實(shí)現(xiàn)顯著目標(biāo)檢測(cè)。文獻(xiàn)[9]將顯著目標(biāo)檢測(cè)問(wèn)題描述為一個(gè)低秩矩陣分解問(wèn)題,在矩陣分解框架下實(shí)現(xiàn)顯著目標(biāo)檢測(cè)。感興趣的讀者可以閱讀文獻(xiàn)(arXiv.eprint:1411.5878,2017)和文獻(xiàn)[10],這些文獻(xiàn)系統(tǒng)總結(jié)并比較了深度學(xué)習(xí)時(shí)代之前的傳統(tǒng)顯著目標(biāo)檢測(cè)方法。
與基于人工計(jì)算特征的傳統(tǒng)顯著目標(biāo)檢測(cè)算法不同,深度網(wǎng)絡(luò)能夠自適應(yīng)訓(xùn)練一個(gè)深度模型以提取顯著目標(biāo)更加高維更加抽象的特征,從而實(shí)現(xiàn)更好的顯著目標(biāo)檢測(cè)。同時(shí)深度卷積網(wǎng)絡(luò)可以充分挖掘顯著目標(biāo)檢測(cè)與圖像語(yǔ)義分割之間的聯(lián)系,學(xué)習(xí)并表達(dá)刻畫顯著目標(biāo)的高層語(yǔ)義信息。文獻(xiàn)[11]提出使用深度特征取代傳統(tǒng)的手工特征,然后通過(guò)一個(gè)分類器確定區(qū)域的顯著性值。作為文獻(xiàn)[11]的擴(kuò)展版本,文獻(xiàn)[12]提出結(jié)合深度特征和手工特征的顯著性方法,即在深度特征基礎(chǔ)上,添加手工特征,實(shí)現(xiàn)更加精確的顯著目標(biāo)檢測(cè)。區(qū)別于文獻(xiàn)[12],文獻(xiàn)[13]提出一種端到端的多模型融合的深度顯著性模型,將手工特征顯著性圖和原始圖像同時(shí)輸入深度網(wǎng)絡(luò),從而更好地利用手工特征和深度特征的互補(bǔ)信息。文獻(xiàn)[14]提出一個(gè)多任務(wù)深度網(wǎng)絡(luò),同時(shí)實(shí)現(xiàn)顯著目標(biāo)檢測(cè)和圖像語(yǔ)義分割,充分挖掘兩項(xiàng)任務(wù)之間的關(guān)聯(lián)性,以便充分利用深度網(wǎng)絡(luò)中淺層和深層信息。文獻(xiàn)[15—18]研究多尺度信息融合的深度顯著性檢測(cè)網(wǎng)絡(luò)。由于深度網(wǎng)絡(luò)存在池化操作以獲得更大的感受野,導(dǎo)致輸出的顯著性圖分辨率較低,文獻(xiàn)[19]提出一種網(wǎng)狀結(jié)構(gòu)的編解碼模型,以提高輸出顯著性圖的分辨率。文獻(xiàn)[20]提出基于注意力模型的自上而下的深度顯著性模型實(shí)現(xiàn)高分辨率顯著性圖輸出。上述深度網(wǎng)絡(luò)顯著性模型均依賴與大規(guī)模訓(xùn)練數(shù)據(jù),文獻(xiàn)[21—22]提出無(wú)監(jiān)督深度顯著性檢測(cè)模型,其中文獻(xiàn)[21]通過(guò)逐步更新和優(yōu)化一個(gè)基于先驗(yàn)信息的測(cè)度來(lái)迭代更新顯著性圖,文獻(xiàn)[22]則通過(guò)同時(shí)優(yōu)化一個(gè)顯著性模型和噪聲模型實(shí)現(xiàn)無(wú)監(jiān)督深度顯著性檢測(cè)。
常規(guī)顯著目標(biāo)檢測(cè)算法一般針對(duì)圖像波段范圍在380~780 nm,即可見(jiàn)光范圍,也就是所說(shuō)的RGB圖像。與常規(guī)可見(jiàn)光圖像顯著目標(biāo)檢測(cè)不同,對(duì)與多光譜圖像,由于其數(shù)據(jù)獲取的困難性,導(dǎo)致多光譜顯著性檢測(cè)的研究比較少。文獻(xiàn)[23]和文獻(xiàn)[24]提出綜合考慮RGB和近紅外波段上的對(duì)比度信息和紋理信息來(lái)進(jìn)行多光譜顯著性檢測(cè)。文獻(xiàn)[25]采用隨機(jī)森林回歸機(jī)器學(xué)習(xí)算法檢測(cè)圖像中的顯著建筑物。文獻(xiàn)[26]系統(tǒng)研究了通過(guò)引入目標(biāo)先驗(yàn)信息以獲取與目標(biāo)更相關(guān)的感興趣區(qū)域。
與現(xiàn)有應(yīng)用于RGB圖像的顯著目標(biāo)檢測(cè)算法不同,本文研究多光譜遙感圖像顯著目標(biāo)檢測(cè),
本文方法包括多光譜顯著目標(biāo)檢測(cè)訓(xùn)練數(shù)據(jù)產(chǎn)生網(wǎng)絡(luò);使用RGB數(shù)據(jù)作為上述網(wǎng)絡(luò)的輸入,從而產(chǎn)生足夠多的多光譜顯著性檢測(cè)訓(xùn)練數(shù)據(jù);使用深度網(wǎng)絡(luò)產(chǎn)生的多光譜數(shù)據(jù)訓(xùn)練顯著目標(biāo)檢測(cè)深度網(wǎng)絡(luò)模型。圖1為基于深度殘差網(wǎng)絡(luò)自上而下的顯著性檢測(cè)模型,采用已有的多光譜數(shù)據(jù)進(jìn)行了性能驗(yàn)證。試驗(yàn)結(jié)果證明了本文算法的有效性。
由于多光譜數(shù)據(jù)的有限性,為了訓(xùn)練一個(gè)多光譜顯著目標(biāo)檢測(cè)深度網(wǎng)絡(luò),本文首先訓(xùn)練多光譜超分辨率模型,從RGB圖像生成多光譜(多波段)遙感圖像,用于產(chǎn)生多光譜顯著目標(biāo)檢測(cè)訓(xùn)練數(shù)據(jù)。
目前的深度網(wǎng)絡(luò)一般都是基于VGG(arXiv:1409.1556,2014)框架或者ResNet[27]框架。針對(duì)目標(biāo),即最終產(chǎn)生的多光譜數(shù)據(jù)與輸入圖像尺度應(yīng)該一致,嘗試通過(guò)添加對(duì)稱的反卷積層實(shí)現(xiàn)分辨率不變的目標(biāo)。然而試驗(yàn)結(jié)果表明,上述框架對(duì)于本文目的無(wú)法有效的收斂。進(jìn)一步考慮本文目的是實(shí)現(xiàn)細(xì)節(jié)保留的同分辨率數(shù)據(jù)輸出,于是直接設(shè)計(jì)一個(gè)淺層神經(jīng)網(wǎng)絡(luò),如圖2所示。
本文使用的多光譜數(shù)據(jù)集[28]包含RGB和近紅外波段,為了產(chǎn)生足夠多的多光譜顯著目標(biāo)檢測(cè)訓(xùn)練數(shù)據(jù),本文構(gòu)造圖2淺層網(wǎng)絡(luò),用于從已有RGB圖像,產(chǎn)生近紅外數(shù)據(jù)??紤]產(chǎn)生的近紅外數(shù)據(jù)應(yīng)該和原始圖像具有相同的空間分辨率,本文淺層網(wǎng)絡(luò)中沒(méi)有使用池化操作(pooling),并保證所有卷積層輸入尺寸相同。
訓(xùn)練細(xì)節(jié):使用caffe框架訓(xùn)練網(wǎng)絡(luò),并設(shè)置最大迭代次數(shù)為150 000次。每幅訓(xùn)練圖像的RGB部分作為網(wǎng)絡(luò)輸入,近紅外波段作為網(wǎng)絡(luò)輸出。對(duì)于每幅RGB圖像,均勻剪裁出32×32大小的圖像片送入網(wǎng)絡(luò),并保持相鄰圖像片有4個(gè)像素的重疊。使用“xavier”策略初始化網(wǎng)絡(luò)參數(shù),設(shè)置偏置為常數(shù)。使用隨機(jī)梯度下降法更新權(quán)值,并設(shè)置動(dòng)量為0.9?;A(chǔ)學(xué)習(xí)率設(shè)置為0.000 001,并固定。使用歐氏距離損失函數(shù)。本文淺層多光譜超分辨率網(wǎng)絡(luò)訓(xùn)練時(shí)間是17 h,使用NVIDIA Quadro M4000 GPU。
注:本文深度網(wǎng)絡(luò)模型輸入包括兩部分,即原始RGB圖像和通過(guò)本文提出的多光譜超分辨率模型產(chǎn)生的近紅外波段圖像。網(wǎng)絡(luò)最后一部分的輸出被逐步反饋到網(wǎng)絡(luò)淺層部分,有效實(shí)現(xiàn)保留高層語(yǔ)義信息和底層細(xì)節(jié)信息的目的。圖1 基于自上而下的深度殘差網(wǎng)絡(luò)多光譜遙感圖像顯著目標(biāo)檢測(cè)模型Fig.1 Our deep residual network based top-down multispectral image salient object detection model
由于多光譜近紅外數(shù)據(jù)和原始RGB數(shù)據(jù)相似性較高,特別是在細(xì)節(jié)邊緣上,如果使用較深的網(wǎng)絡(luò)結(jié)構(gòu)(如VGG或者ResNet),過(guò)多的非線性操作將導(dǎo)致原始圖像很多細(xì)節(jié)丟失。通過(guò)圖2描述的一個(gè)淺層網(wǎng)絡(luò)可以有效根據(jù)RGB圖像估計(jì)近紅外波段,同時(shí)保留盡可能多的細(xì)節(jié)信息。圖3是多光譜數(shù)據(jù)集上部分?jǐn)?shù)據(jù)及通過(guò)本文多光譜超分辨率網(wǎng)絡(luò)產(chǎn)生的近紅外數(shù)據(jù)與原始近紅外波段數(shù)據(jù)對(duì)比。從圖3可見(jiàn),由本文多光譜超分辨率模型產(chǎn)生的近紅外波段與原始近紅外波段比較相似,從而驗(yàn)證了本文網(wǎng)絡(luò)模型的有效性。
前3個(gè)卷積層后面都添加ReLU激活函數(shù).前兩個(gè)卷積層使用卷積核大小為5×5,后兩個(gè)卷積卷積核大小為3×3。圖2 光譜超分辨率模型Fig.2 The proposed multispectral super-resolution model
相較于淺層神經(jīng)網(wǎng)絡(luò),深度網(wǎng)絡(luò)由于其高維的非線性操作,從而可以實(shí)現(xiàn)更抽象的圖像特征提取與表示。然而,隨著網(wǎng)絡(luò)層數(shù)的加深,一方面網(wǎng)絡(luò)優(yōu)化變得更加困難,另一方面,“梯度消失”現(xiàn)象導(dǎo)致在網(wǎng)絡(luò)高層更新的權(quán)重信息無(wú)法有效地傳遞到網(wǎng)絡(luò)底層。為了應(yīng)對(duì)上述問(wèn)題,文獻(xiàn)[27]提出了一個(gè)基于短連接的殘差深層網(wǎng)絡(luò)結(jié)構(gòu)(ResNet)。設(shè)深度網(wǎng)絡(luò)中某隱含層的非線性操作函數(shù)H,對(duì)于沒(méi)有短連接的深度網(wǎng)絡(luò),給定該層輸入為x,則輸出為H(x)。添加短連接之后,相同的隱層函數(shù)H,最后網(wǎng)絡(luò)的輸出變?yōu)镠(x)+x,這樣一來(lái),就可以得到一種全新的殘差結(jié)構(gòu)單元,如圖4所示,其中(a)是一般的深度網(wǎng)絡(luò)模型數(shù)據(jù)傳遞過(guò)程,(b)是殘差網(wǎng)絡(luò)模型的數(shù)據(jù)傳遞過(guò)程。殘差單元的輸出由多個(gè)卷積層級(jí)聯(lián)的輸出與輸入元素間相加(保證卷積層輸出與輸入元素維度相同),再經(jīng)過(guò)ReLU激活后得到。與一般深度網(wǎng)絡(luò)結(jié)構(gòu)相比,ResNet更容易優(yōu)化,同時(shí)較好地防止了梯度消失現(xiàn)象的發(fā)生。
原始ResNet網(wǎng)絡(luò)中使用5次池化操作,使得最后全連接層之前數(shù)據(jù)分辨率下降為原始分辨率的1/32。為了提高輸出特征圖的分辨率,本文首先去掉最后一個(gè)池化操作以及ResNet最后的全連接層,同時(shí)使用膨脹卷積層(Dilated Convolution)[27,29],最后改造后的全卷積ResNet網(wǎng)絡(luò)輸出分辨率是原始輸入的1/8。為了產(chǎn)生更高的特征圖分辨率,本文提出一種自上而下的殘差網(wǎng)絡(luò)結(jié)構(gòu),如圖1所示。將殘差網(wǎng)絡(luò)分成5個(gè)部分,conv1、conv2、conv3、conv4和conv5部分。經(jīng)過(guò)conv1之后,特征圖分辨率是原始的1/2,經(jīng)過(guò)conv2之后,分辨率降到1/4,conv3之后,分辨率保持不變,為1/8。為了進(jìn)一步提高特征圖分辨率,將高層輸出作為語(yǔ)義信息去優(yōu)化淺層信息。具體是,對(duì)于網(wǎng)絡(luò)每部分的輸出,首先通過(guò)一個(gè)3×3的卷積層將其維度降低到M,然后與網(wǎng)絡(luò)前一個(gè)部分的輸出疊加,其中M設(shè)置為網(wǎng)絡(luò)上一部分輸出的維度。
訓(xùn)練細(xì)節(jié):使用caffe框架訓(xùn)練網(wǎng)絡(luò),并設(shè)置最大迭代次數(shù)為10 000次。每幅訓(xùn)練圖像包括4個(gè)波段,分別為原始的RGB圖像,以及由以上多光譜超分辨率網(wǎng)絡(luò)產(chǎn)生的近紅外波段。對(duì)于每幅輸入圖像,將其尺寸固定為281×281。使用“xavier”策略初始化網(wǎng)絡(luò)參數(shù),設(shè)置偏置為常數(shù)。使用隨機(jī)梯度下降法更新權(quán)值,并設(shè)置動(dòng)量為0.9。基礎(chǔ)學(xué)習(xí)率設(shè)置為0.000 8,學(xué)習(xí)率更新策略為“poly”,用“SoftmaxWithLoss”作為損失函數(shù)。整個(gè)網(wǎng)絡(luò)訓(xùn)練時(shí)間為12 h,使用NVIDIA Quadro M4000 GPU。
本文多光譜顯著目標(biāo)檢測(cè)模型分為兩部分,即多光譜超分辨率模型和多光譜顯著目標(biāo)檢測(cè)模型。前者用于根據(jù)RGB圖像產(chǎn)生多光譜圖像,后者為本文的顯著目標(biāo)檢測(cè)模型。
本文多光譜超分辨率模型數(shù)據(jù)來(lái)自文獻(xiàn)[28]。這個(gè)數(shù)據(jù)集包括477幅來(lái)自9個(gè)類別的圖像,包括RGB圖像和對(duì)應(yīng)的近紅外波段圖像。這些圖像是從一個(gè)改進(jìn)的單反相機(jī),通過(guò)獨(dú)立曝光,分別獲取可見(jiàn)光波段和近紅外波段圖像。每一個(gè)圖像對(duì)包括可見(jiàn)光圖像和對(duì)應(yīng)區(qū)域的近紅外圖像。大部分圖像中只包括一個(gè)顯著目標(biāo),比較適合多光譜顯著目標(biāo)檢測(cè)任務(wù)。本文選擇15幅圖像作為遙感多光譜圖像顯著目標(biāo)檢測(cè)測(cè)試圖像,其余462幅多光譜圖像用于訓(xùn)練多光譜超分辨率模型,即根據(jù)RGB圖像,預(yù)測(cè)對(duì)應(yīng)的近紅外波段。
本文的多光譜遙感圖像顯著檢測(cè)數(shù)據(jù)集來(lái)自文獻(xiàn)[30]。該數(shù)據(jù)集包括5000幅按像素標(biāo)注的顯著目標(biāo)檢測(cè)圖像。從中選擇2500幅作為訓(xùn)練數(shù)據(jù),500幅作為驗(yàn)證數(shù)據(jù),剩余2000幅為測(cè)試數(shù)據(jù),與文獻(xiàn)[17,31]保持一致。
本文使用4種性能測(cè)度,包括平均絕對(duì)誤差(MAE)、最大Fβ度量、平均Fβ度量和準(zhǔn)確率/召回率曲線。MAE描述了檢測(cè)的顯著性圖與原始真值圖的相似程度,定義如下
(1)
式中,W和H是檢測(cè)到的顯著性圖S的寬和高,G是真值圖。Fβ度量定義如下
(2)
式中,Precision為準(zhǔn)確率,Recall為召回率。和文獻(xiàn)[17]等一樣,鑒于在顯著性檢測(cè)中,準(zhǔn)確率比召回率更重要,使用β2=0.3來(lái)更加強(qiáng)調(diào)準(zhǔn)確率。最大Fβ度量描述了一個(gè)顯著檢測(cè)模型可以達(dá)到的最優(yōu)性能,平均Fβ度量則描述當(dāng)前模型的整體性能。
由于多光譜顯著性檢測(cè)算法比較少,而且都沒(méi)有現(xiàn)成的代碼或者顯著性圖,針對(duì)RGB圖像的顯著性檢測(cè)算法進(jìn)行對(duì)比。本文選擇4個(gè)傳統(tǒng)顯著性檢測(cè)算法(包括DRFI[31],DSR[32],MC[33]和RBD[7])和4個(gè)近期的基于深度網(wǎng)絡(luò)的顯著性檢測(cè)算法(包括DSS[17],LEGS[34],MDF[11],RFCN[35])。由于上述算法只接收3通道RGB圖像的輸入,對(duì)于本文4通道測(cè)試數(shù)據(jù)集,選擇所有3通道圖像的組合送入對(duì)比算法,并選擇最優(yōu)的一組結(jié)果作為該算法最終結(jié)果。
計(jì)算上述對(duì)比算法在本文標(biāo)注的15幅多光譜顯著目標(biāo)檢測(cè)測(cè)試數(shù)據(jù)集上的Fβ度量和MAE,結(jié)果如表1所示。
表1 本文算法與對(duì)比算法在多光譜顯著性檢測(cè)數(shù)據(jù)集上的性能比較
從表1可以得到如下結(jié)論:首先,從MAE上考慮,基于深度網(wǎng)路的顯著目標(biāo)檢測(cè)算法優(yōu)于傳統(tǒng)算法,特別是DSS[17]算法,其MAE是上述4個(gè)最好傳統(tǒng)算法的0.43倍;其次,本文算法,以圖像4個(gè)通道同時(shí)輸入,取得了最好的結(jié)果,特別是最大Fβ度量,比最好的深度網(wǎng)絡(luò)算法提高10%。
同時(shí),比較準(zhǔn)確率/召回率曲線(PR曲線),結(jié)果如圖5(a)所示,其中“OUR”表示本文算法。
由于使用的測(cè)試數(shù)據(jù)有限,導(dǎo)致曲線比較不平滑。但還是可以看出,本文算法在準(zhǔn)確率/召回率曲線上也明顯優(yōu)于對(duì)比算法。圖6顯示了本文算法顯著性和幾個(gè)對(duì)比算法的顯著性。由于施加了自上而下的策略,本文算法結(jié)果在細(xì)節(jié)上處理得更合理。
由于多光譜數(shù)據(jù)的稀有性和獲取的困難性,本文使用了常規(guī)RGB圖像生成近紅外波段,以增加多光譜數(shù)據(jù)量,從而訓(xùn)練一個(gè)基于自上而下殘
差網(wǎng)絡(luò)的深度模型。為了驗(yàn)證本文算法在生成遙感多光譜圖像上的有效性,在MSRA-B測(cè)試數(shù)據(jù)集上,進(jìn)行了顯著目標(biāo)檢測(cè)試驗(yàn)。首先通過(guò)光譜超分辨率生成多光譜圖像,然后采用本文提出的多光譜遙感圖像顯著目標(biāo)檢測(cè)算法進(jìn)行目標(biāo)檢測(cè),試驗(yàn)結(jié)果如圖5(b)和圖7所示。圖5(b)描述的是本文算法與對(duì)比算法在2000幅MSRA-B生成多光譜測(cè)試數(shù)據(jù)集上的PR曲線對(duì)比,其中“OUR”表示本文算法。圖5(b)結(jié)果顯示本文算法在PR曲線上優(yōu)于對(duì)比算法。圖7展示了生成MSRA-B數(shù)據(jù)集上的測(cè)試圖像及本文算法結(jié)果,其中近紅外波段是由本文光譜超分辨率模型產(chǎn)生。試驗(yàn)結(jié)果顯示本文算法可以充分應(yīng)對(duì)不同類型的多光譜多波段圖像,同時(shí)通過(guò)網(wǎng)絡(luò)學(xué)習(xí)生成的多光譜圖像具有更加豐富的物理屬性信息,更加有利于顯著目標(biāo)的表示與提取,從而取得比傳統(tǒng)方法更好的結(jié)果。
圖5 數(shù)據(jù)Fig.5 Dataset
從左到右分別是:輸入RGB圖像,輸入近紅外圖像,像素級(jí)真值圖,算法LEGS[34],DSS[17]和本文提出算法的顯著目標(biāo)檢測(cè)結(jié)果。圖6 本文算法顯著性與對(duì)比算法顯著性Fig.6 Visual comparison of our method with the state-of-the-art competing methods
從左到右:輸入RGB圖像,通過(guò)光譜超分辨率模型產(chǎn)生的近紅外波段,像素級(jí)別真值,以及本文算法顯著性。圖7 本文算法在RGB圖像上的結(jié)果Fig.7 Results of our method on MSRA-B testing dataset
以航空航天領(lǐng)域攝影測(cè)量與機(jī)器視覺(jué)的不斷深入融合和以深度學(xué)習(xí)為代表的智能化處理方法的巨大進(jìn)展為背景,本文側(cè)重于研究智能化攝影測(cè)量深度學(xué)習(xí)中的深度殘差方法,提出基于深度殘差網(wǎng)絡(luò)的多光譜遙感圖像顯著目標(biāo)檢測(cè)模型??紤]到多光譜遙感圖像數(shù)據(jù)獲取的困難性,為了應(yīng)對(duì)多波段遙感圖像數(shù)據(jù)量有限、無(wú)法訓(xùn)練深度殘差網(wǎng)絡(luò)的問(wèn)題,本文首先提出通過(guò)淺層神經(jīng)網(wǎng)絡(luò)從RGB圖像直接生成多波段遙感圖像,實(shí)現(xiàn)光譜方向的超分辨率。其次,提出一種基于深度殘差網(wǎng)絡(luò)的自上而下的多光波段遙感圖像顯著目標(biāo)檢測(cè)網(wǎng)絡(luò),該網(wǎng)絡(luò)可以有效挖掘深度殘差網(wǎng)絡(luò)不同層次上的顯著性特征,以端對(duì)端方式實(shí)現(xiàn)顯著目標(biāo)檢測(cè)。在現(xiàn)有多波段遙感圖像和可見(jiàn)光圖像顯著目標(biāo)檢測(cè)數(shù)據(jù)集上的試驗(yàn)結(jié)果超過(guò)當(dāng)前最好方法10%以上,表明了本文提出方法的有效性。進(jìn)一步的研究工作將聚焦于通過(guò)多維卷積的形式進(jìn)一步挖掘多光譜遙感圖像空間-譜間聯(lián)合信息,同時(shí)構(gòu)建更大規(guī)模的多光譜遙感圖像顯著目標(biāo)檢測(cè)數(shù)據(jù)集以促進(jìn)本領(lǐng)域的進(jìn)一步發(fā)展。
參考文獻(xiàn):
[1] LI Junxia, MA Runing, DING Jundi. Saliency-seeded Region Merging: Automatic Object Segmentation[C]∥First Asian Conference on Pattern Recognition. Beijing, China: IEEE, 2011: 691-695.
[2] MARCHESOTTI L, CIFARELLI C, CSURKA G. A Framework for Visual Saliency Detection with Applications to Image Thumbnailing[C]∥IEEE 12th International Conference on Computer Vision. Kyoto, Japan: IEEE, 2009: 2232-2239.
[3] ZHANG Guoxin, CHENG Mingming, HU Shimin, et al. A Shape Preserving Approach to Image Resizing[J]. Computer Graphics Forum, 2009, 28(7): 1897-1906.
[4] NAVALPAKKAM V, ITTI L. An Integrated Model of Top-down and Bottom-up Attention for Optimizing Detection Speed[C]∥IEEE Computer Society Conference on Computer Vision and Pattern Recognition. New York, NY: IEEE, 2006: 2049-2056.
[5] SHARMA S, KIROS R, SALAKHUTDINOV R. Action Recognition Using Visual Attention[C]∥NIPS Time Series Workshop, 2015.
[6] SHELHAMER E, LONG J, DARRELL T. Fully Convolutional Networks for Semantic Segmentation[C]∥IEEE Conference on Computer Vision and Pattern Recognition. Boston, MA: IEEE, 2015: 3431-3440.
[7] ZHU Wangjiang, LIANG Shuang, WEI Yichen, et al. Saliency Optimization from Robust Background Detection[C]∥IEEE Conference on Computer Vision and Pattern Recognition. Columbus, OH: IEEE, 2014: 2814-2821.
[8] JIANG Peng, LING Haibin, YU Jingyi, et al. Salient Region Detection by UFO: Uniqueness, Focusness and Objectness[C]∥IEEE International Conference on Computer Vision. Sydney, NSW, Australia: IEEE, 2013: 1976-1983.
[9] SHEN Xiaohui, WU Ying. A Unified Approach to Salient Object Detection via Low Rank Matrix Recovery[C]∥IEEE Conference on Computer Vision and Pattern Recognition. Providence, RI: IEEE, 2012: 853-860.
[10] BORJI A, CHENG Mingming, JIANG Huaizu, et al. Salient Object Detection: A Benchmark[J]. IEEE Transactions on Image Processing, 2015, 24(12): 5706-5722.
[11] LI Guanbin, YU Yizhou. Visual Saliency Based on Multiscale Deep Features[C]∥IEEE Conference on Computer Vision and Pattern Recognition. Boston, MA: IEEE, 2015: 5455-5463.
[12] LI Guanbin, YU Yizhou. Visual Saliency Detection Based on Multiscale Deep CNN Features[J]. IEEE Transactions on Image Processing, 2016, 25(11): 5012-5024.
[13] ZHANG Jing, LI Bo, DAI Yuchao, et al. Integrated Deep and Shallow Networks for Salient Object Detection[C]∥IEEE International Conference on Image Processing. Beijing, China: IEEE, 2017: 1537-1541.
[14] LI Xi, ZHAO Liming, WEI Lina, et al. Deepsaliency: Multi-task Deep Neural Network Model for Salient Object Detection[J]. IEEE Transactions on Image Processing, 2016, 25(8): 3919-3930.
[15] LI Guanbin, YU Yizhou. Deep Contrast Learning for Salient Object Detection[C]∥IEEE Conference on Computer Vision and Pattern Recognition. Las Vegas, NV: IEEE, 2016: 478-487.
[16] ZHANG Jing, DAI Yuchao, PORIKLI F. Deep Salient Object Detection by Integrating Multi-level Cues[C]∥IEEE Winter Conference on Application of Computer Vision. Santa Rosa, CA: IEEE, 2017: 1-10.
[17] HOU Qibin, CHENG Mingming, HU Xiaowei, et al. Deeply Supervised Salient Object Detection with Short Connections[C]∥IEEE Conference on Computer Vision and Pattern Recognition. Honolulu, Hawaii: IEEE, 2017: 5300-5309.
[18] ZHANG Jing, DAI Yuchao, PORIKLI F, et al. Multi-Scale Salient Object Detection with Pyramid Spatial Pooling[C]∥Asia-Pacific Signal and Information Processing Association Annual Summit and Conference. Kuala Lumpur, Malaysia: IEEE, 2017: 1286-1291.
[19] ZHANG Ping, WANG Dong, LU Huchuan, et al. Amulet: Aggregating Multi-level Convolutional Features for Salient Object Detection[C]∥IEEE International Conference on Computer Vision. Venice, Italy: IEEE, 2017: 202-211.
[20] ZHANG Jing, DAI Yuchao, LI Bo, et al. Attention to the Scale: Deep Multi-scale Salient Object Detection[C]∥International Conference on Digital Image Computing: Techniques and Application. Sydney, NSW, Australia: IEEE, 2017: 1-7.
[21] ZHANG Dingwen, HAN Junwei, ZHANG Yu. Supervision by Fusion: Towards Unsupervised Learning of Deep Salient Object Detector[C]∥IEEE International Conference on Computer Vision. Venice, Italy: IEEE, 2017: 4068-4076.
[22] ZHANG Jing, ZHANG Tong, DAI Yuchao, et al. Deep Unsupervised Saliency Detection: A Multiple Noisy Labeling Perspective[C]∥IEEE International Conference on Computer Vision. [s.l.]: IEEE, 2018.
[23] WANG Qi, YAN Pingkun, YUAN Yuan, et al. Multi-Spectral Saliency Detection[J]. Pattern Recognition Letters, 2013, 34(1): 34-41.
[24] WANG Qi, ZHU Guokang, YUAN Yuan. Multi-Spectral Dataset and Its Application in Saliency Detection[J]. Computer Vision and Image Understanding, 2013, 117(12): 1748-1754.
[25] 潘朝. 多尺度顯著性引導(dǎo)的高分辨率遙感影像建筑物提取[J]. 科技創(chuàng)新與生產(chǎn)力, 2017(5): 106-109.
PAN Zhao. Building Extraction from High Resolution Remote Sensing Image Based on Visual Saliency Detection[J]. Technology Innovation and Productivity, 2017(5): 106-109.
[26] 崔曉光. 融合目標(biāo)信息的遙感圖像顯著性檢測(cè)方法研究[D]. 北京: 中國(guó)科學(xué)院大學(xué), 2013.
CUI Xiaoguang. Saliency Detection Methods via Fusing Target Information[D]. Beijing: University of Chinese Academy of Sciences, 2013.
[27] HE Kaiming, ZHANG Xiangyu, REN Shaoqing, et al. Deep Residual Learning for Image Recognition[C]∥IEEE Conference on Computer Vision and Pattern Recognition. Las Vegas, NV: IEEE, 2016: 770-778.
[28] BROWN M, SUSSTRUNK S. Multi-spectral SIFT for Scene Category Recognition[C]∥IEEE Conference on Computer Vision and Pattern Recognition. Providence, RI: IEEE, 2011: 177-184.
[29] YU F, KOLTUN V. Multi-Scale Context Aggregation by Dilated Convolutions[C]∥International Conference on Learning Representations. [s.l.]: IEEE, 2016.
[30] LIU Tie, SUN Jian, ZHENG Nanning, et al. Learning to Detect a Salient Object[C]∥IEEE Conference on Computer Vision and Pattern Recognition. Minneapolis, MN: IEEE, 2007: 1-8.
[31] JIANG Huaizu, WANG Jingdong, YUAN Zejiang, et al. Salient Object Detection: A Discriminative Regional Feature Integration Approach[C]∥IEEE Conference on Computer Vision and Pattern Recognition. Portland, OR: IEEE, 2013: 2083-2090.
[32] LI Xiaohui, LU Huchuan, ZHANG Lihe, et al. Saliency Detection via Dense and Sparse Reconstruction[C]∥IEEE International Conference on Computer Vision. Sydney, NSW, Australia: IEEE, 2013: 2976-2983.
[33] JIANG Bowen, ZHANG Lihe, LU Huchuan, et al. Saliency Detection via Absorbing Markov Chain[C]∥IEEE International Conference on Computer Vision. Sydney, NSW, Australia: IEEE, 2013: 1665-1672.
[34] WANG Lijun, LU Huchuan, RUAN Xiang, et al. Deep Networks for Saliency Detection via Local Estimation and Global Search[C]∥IEEE Conference on Computer Vision and Pattern Recognition. Boston, MA: IEEE, 2015: 3183-3192.
[35] WANG Linzhao, WANG Lijun, LU Huchuan, et al. Saliency Detection with Recurrent Fully Convolutional Networks[M]∥LEIBE B, MATAS J, SEBE N, et al. Computer Vision-ECCV 2016. Cham: Springer, 2016: 825-841.