周金坤,王先蘭,穆楠,王晨
(1.武漢郵電科學(xué)研究院,武漢 430074;2.四川師范大學(xué) 計(jì)算機(jī)科學(xué)學(xué)院,成都 610101;3.南京烽火天地通信科技有限公司,南京 210019)
無(wú)人機(jī)(Unmanned Aerial Vehicle,UAV)作為遙感平臺(tái)之一,相較于衛(wèi)星和飛機(jī),具有操作性強(qiáng)、便利性高、云層影響度低、數(shù)據(jù)采集能力強(qiáng)[1-2]等特點(diǎn),廣泛應(yīng)用于各個(gè)領(lǐng)域,如植被細(xì)分[3]、車輛監(jiān)測(cè)[4]、建筑提?。?]等。然而,當(dāng)定位系統(tǒng)(如全球定位系統(tǒng)(Global Positioning System,GPS)、北斗等)不可用時(shí),如何有效地進(jìn)行無(wú)人機(jī)定位及導(dǎo)航是一項(xiàng)巨大的挑戰(zhàn)。近年來(lái),跨視角地理定位(cross-view geolocalization)在自動(dòng)駕駛和增強(qiáng)現(xiàn)實(shí)的潛在應(yīng)用,為無(wú)人機(jī)定位及導(dǎo)航任務(wù)提供了新思路。它能夠?qū)o(wú)地理標(biāo)記的圖像與數(shù)據(jù)庫(kù)中有地理標(biāo)記的圖像進(jìn)行匹配,進(jìn)而實(shí)現(xiàn)無(wú)人機(jī)的定位和導(dǎo)航任務(wù)[6],如圖1 所示。圖1 中A 表示給定無(wú)人機(jī)視圖,查詢對(duì)應(yīng)衛(wèi)星視圖,執(zhí)行無(wú)人機(jī)定位任務(wù);B 表示給定衛(wèi)星視圖,查詢對(duì)應(yīng)無(wú)人機(jī)視圖,執(zhí)行無(wú)人機(jī)導(dǎo)航任務(wù)。
作為跨視角地理定位的主要研究方法,跨視角圖像匹配(cross-view image matching)是將不同視角(如地面、無(wú)人機(jī)、衛(wèi)星視角)的同場(chǎng)景圖像進(jìn)行跨視角匹配的一種方法。其早期研究主要基于地面視圖之間的圖像匹配[7-9];然而由于地面圖像存在遮擋嚴(yán)重、視野有限、覆蓋范圍小等問(wèn)題,導(dǎo)致匹配效率過(guò)低。相比之下,附帶全球地理位置標(biāo)記的空中視圖(包括無(wú)人機(jī)視圖與衛(wèi)星視圖)具有地面視圖不可取代的優(yōu)越性,如無(wú)遮擋、變化小、覆蓋面廣;因此,將地面視圖與空中視圖進(jìn)行匹配從而實(shí)現(xiàn)地理定位的方式逐漸成為主流[10-13]。此外,由于地面和空中視圖之間視點(diǎn)的劇烈變化,導(dǎo)致嚴(yán)重的空間域差(domain gap)問(wèn)題,使得傳統(tǒng)的手工特征方法如尺度不變特征轉(zhuǎn)換(Scale-Invariant Feature Transform,SIFT)[14-15]和加速魯棒特 征(Speed Up Robust Feature,SURF)[16]很難提取到復(fù)雜且具有辨識(shí)力的視點(diǎn)不變特征,跨視角圖像匹配仍具挑戰(zhàn)性。
隨著深度學(xué)習(xí)在計(jì)算機(jī)視覺(jué)任務(wù)中取得較大的成功,大多數(shù)跨視角圖像匹配工作開始采用卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network,CNN)來(lái)解決空間域差問(wèn)題[17-20]。現(xiàn)階段,實(shí)現(xiàn)該任務(wù)的CNN 方法大體可以分為兩種。
第一種是基于度量學(xué)習(xí)(Metric Learning)的方法,該方法將跨視角圖像匹配視為圖像檢索領(lǐng)域的子任務(wù),旨在通過(guò)網(wǎng)絡(luò)學(xué)習(xí)出兩幅圖像的相似度。Tian等[19]利用建筑物作為地面視圖和衛(wèi)星視圖之間的橋梁,進(jìn)行視點(diǎn)圖像匹配,技術(shù)上首次提出通過(guò)孿生網(wǎng)絡(luò)來(lái)匹配K個(gè)最相似的圖像,并通過(guò)對(duì)比損失(Contrastive Loss,CL)來(lái)度量圖像間的相似度。Hu等[21]基于孿生網(wǎng)絡(luò)和網(wǎng)絡(luò)局部聚集描述子向量NetVLAD(Net Vector of Local Aggregated Descriptors)[22]提出CVM-Net(Cross-View Matching Network),他們使用三元組損失(Triplet Loss,TL)進(jìn)行相似度訓(xùn)練,首次在跨視角地理定位任務(wù)實(shí)現(xiàn)了穩(wěn)定的rank1 指標(biāo)性能。Regmi等[23]基于條件生成對(duì)抗網(wǎng)絡(luò)(Conditional Generative Adversarial Nets,CGANs)[24]提出了一種圖像生成方法來(lái)減小兩個(gè)視圖之間的視覺(jué)差異,此外他們采用加權(quán)軟邊界三元組損失(Weighted Soft Margin triplet loss,WSM)[21]來(lái)輔助訓(xùn)練。該方法可以從相應(yīng)的地面視圖圖像生成看似合理的空中視圖圖像,然后進(jìn)行匹配。Cai等[25]采用注意力機(jī)制,將空間和通道注意力嵌入特征圖,并使用硬樣本重加權(quán)三重?fù)p失(hard exemplar reweighting triplet loss)來(lái)進(jìn)行訓(xùn)練。該類方法通常使用的數(shù)據(jù)集(如CVUSA(Cross-View USA)[17]、CVACT[26])在目標(biāo)位置通常只有一個(gè)圖像對(duì)(每個(gè)視圖只有一張圖像)。當(dāng)相同目標(biāo)地點(diǎn)的不同視角圖像作為同類來(lái)進(jìn)行跨視角圖像匹配任務(wù)時(shí),基于度量學(xué)習(xí)的第一種方法是行不通的。
第二種是將跨視角地理定位任務(wù)當(dāng)作分類問(wèn)題來(lái)看待,旨在將不同視圖的特征映射到同一特征空間進(jìn)行分類匹配,一般使用ID 損失(identification loss)進(jìn)行訓(xùn)練。Zheng等[6]使用3 個(gè)CNN 分支,基于建筑類別標(biāo)簽在其提出的數(shù)據(jù)集University-1652[6]上實(shí)現(xiàn)了衛(wèi)星視圖、無(wú)人機(jī)視圖、地面視圖間的匹配,成功驗(yàn)證了無(wú)人機(jī)定位和導(dǎo)航任務(wù)的可行性。Ding等[27]將衛(wèi)星視圖和無(wú)人機(jī)視圖放在同一支網(wǎng)絡(luò)進(jìn)行分類任務(wù),專注于無(wú)人機(jī)和衛(wèi)星視圖的匹配任務(wù)。Hu等[28]考慮到相機(jī)風(fēng)格的偏差,采用基于色階的方法來(lái)統(tǒng)一圖像風(fēng)格樣式,此外他們還采用網(wǎng)格劃分的方式來(lái)進(jìn)行局部特征(Local Features,LF)對(duì)齊。
然而以上兩種方法將跨視角圖像匹配任務(wù)割裂地看成了度量學(xué)習(xí)任務(wù)[19,21,23]或分類任務(wù)[6,27-29],依然存在著網(wǎng)絡(luò)參數(shù)量過(guò)大、圖像表征特征單一、訓(xùn)練難以收斂等缺點(diǎn);并且,現(xiàn)有大多數(shù)方法均只對(duì)全局特征(Global Feature,GF)進(jìn)行表征,忽略了局部特征帶來(lái)的上下文信息。
此外,現(xiàn)有跨視角圖像匹配方法主要針對(duì)空中視圖(包括衛(wèi)星視圖)和地面視圖,且目標(biāo)地點(diǎn)僅具有單個(gè)圖像對(duì)。這些方法并未考慮到衛(wèi)星視圖和無(wú)人機(jī)視圖間的相似性,因此難以應(yīng)用于衛(wèi)星視圖和無(wú)人機(jī)視圖之間的跨視圖圖像匹配任務(wù)。
為了解決現(xiàn)有方法所存在的度量任務(wù)和分類任務(wù)割裂、表征特征粒度不均勻、采樣不平衡等問(wèn)題。本文提出了一種新的基于多視角多監(jiān)督網(wǎng)絡(luò)(Multi-view and Multisupervision Network,MMNet)的無(wú)人機(jī)定位方法,來(lái)學(xué)習(xí)跨視角圖像匹配中不同視圖的全局特征和局部特征,從而實(shí)現(xiàn)無(wú)人機(jī)定位和導(dǎo)航任務(wù)。MMNet 采用孿生網(wǎng)絡(luò)架構(gòu),有兩個(gè)CNN 分支,分別用于學(xué)習(xí)衛(wèi)星視圖和無(wú)人機(jī)視圖。且每個(gè)CNN 具有兩個(gè)子分支,分別用于提取全局特征和局部特征。為了充分融合度量學(xué)習(xí)和分類任務(wù)的訓(xùn)練特性,并學(xué)習(xí)到兩個(gè)視圖間的視點(diǎn)不變特征,采取了多監(jiān)督方式進(jìn)行訓(xùn)練。具體來(lái)說(shuō),在對(duì)全局特征向量進(jìn)行分類監(jiān)督的基礎(chǔ)上,進(jìn)一步對(duì)衛(wèi)星和無(wú)人機(jī)視圖執(zhí)行非對(duì)稱相似性度量,該任務(wù)采用了新提出的重加權(quán)正則化三元組損失(Reweighted Regularization Triplet loss,RRT)。最后,使用加權(quán)策略來(lái)整合全局特征和局部特征,來(lái)表征目標(biāo)地點(diǎn)的多視角圖像,從而實(shí)現(xiàn)無(wú)人機(jī)定位和導(dǎo)航任務(wù)。
本文的主要工作為以下5 個(gè)方面:
1)提出了MMNet 來(lái)解決無(wú)人機(jī)定位和導(dǎo)航問(wèn)題,其能夠在統(tǒng)一的網(wǎng)絡(luò)架構(gòu)中,通過(guò)加權(quán)的方式將衛(wèi)星和無(wú)人機(jī)圖像的全局粗粒度信息和局部上下文信息進(jìn)行多視角聚合,學(xué)習(xí)到兼具細(xì)粒度的視點(diǎn)不變特征,從而更完整地表征目標(biāo)地點(diǎn)圖像。
2)MMNet 在跨視角圖像匹配領(lǐng)域首次采用RRT 與ID 損失融合的多監(jiān)督訓(xùn)練方式來(lái)執(zhí)行相似性度量任務(wù)和分類任務(wù),兼具度量學(xué)習(xí)和分類學(xué)習(xí)的優(yōu)點(diǎn)。
3)MMNet 在訓(xùn)練過(guò)程中綜合考慮了上下文模式,充分利用目標(biāo)建筑周圍的環(huán)境,以端到端的方式學(xué)習(xí)目標(biāo)場(chǎng)景的上下文信息。
4)提出了多視角平衡采樣(Multi-view-based Balanced Mining,MBM)和重加權(quán)正則化策略,MMNet 能夠有效緩解衛(wèi)星視圖和無(wú)人機(jī)視圖的訓(xùn)練樣本失衡問(wèn)題,在實(shí)驗(yàn)中驗(yàn)證了其有效性。
5)MMNet 在最新提出的無(wú)人機(jī)數(shù)據(jù)集University-1652 上進(jìn)行了大量實(shí)驗(yàn)驗(yàn)證,MMNet 相較于現(xiàn)有的跨視角圖像匹配方法在各項(xiàng)指標(biāo)中均取得了最優(yōu)性能。
本章主要介紹了所提出的多視角多監(jiān)督網(wǎng)絡(luò)MMNet(如圖2 所示)。首先闡述MMNet 的網(wǎng)絡(luò)結(jié)構(gòu)和特征提取方式,然后針對(duì)數(shù)據(jù)集的多視角樣本失衡提出RRT,最后通過(guò)多監(jiān)督方式聯(lián)合ID 損失和RRT 訓(xùn)練出更有區(qū)分度的特征,從而實(shí)現(xiàn)無(wú)人機(jī)定位和導(dǎo)航功能。
任務(wù)描述為:給定無(wú)人機(jī)地理定位數(shù)據(jù)集,x和y分別表示輸入圖像及對(duì)應(yīng)的類別標(biāo)簽,下標(biāo)m表示數(shù)據(jù)源xm的來(lái)源平臺(tái),其中m∈{1,2},x1表示衛(wèi)星視圖,x2表示無(wú)人機(jī)視圖。標(biāo)簽y∈[1,C],其中C為類別總數(shù)。本文實(shí)驗(yàn)所用數(shù)據(jù)集為University-1652,訓(xùn)練集共含有701 棟建筑物,且每棟建筑物包含多張圖像。將701 棟建筑分為701 個(gè)索引,每個(gè)索引代表一個(gè)類別,即標(biāo)簽y∈[1,701]。對(duì)于跨視角圖像匹配,MMNet 通過(guò)學(xué)習(xí)一個(gè)映射函數(shù),可以將來(lái)自不同平臺(tái)的圖像映射到一個(gè)共享的特征空間中,同一索引圖像間距離非常近,而不同索引的圖像彼此間距離會(huì)被拉開。
所提出的MMNet 基于孿生網(wǎng)絡(luò)架構(gòu),包含兩個(gè)分支(如圖2 中C1 和C2 所示),分別用于衛(wèi)星視角和無(wú)人機(jī)視角的圖像匹配。鑒于每個(gè)分支權(quán)重共享[6],MMNet 可以使用任何預(yù)訓(xùn)練網(wǎng)絡(luò)架構(gòu)(如VGG[30]和ResNet[31])作為骨干網(wǎng)。本文采用了經(jīng)過(guò)微調(diào)的ResNet-50[31]作為每個(gè)分支的骨干網(wǎng)。ResNet-50 包含5 個(gè)模塊:Conv1、Conv2、Conv3、Conv4、Conv5、一個(gè)平均池化層和一個(gè)全連接層。具體來(lái)說(shuō),舍棄了平均池化層及后續(xù)網(wǎng)絡(luò)層,并將Conv5_1 的步長(zhǎng)由2 更改為1。
為了訓(xùn)練MMNet,首先將輸入圖像的尺寸調(diào)整為256×256。其中衛(wèi)星視角和無(wú)人機(jī)視角分支具有相同的特征提取方式,當(dāng)圖像經(jīng)過(guò)改進(jìn)的ResNet-50后,可以從多視角網(wǎng)絡(luò)分支提取到維度為2 048 的中間特征圖,用于后續(xù)的分類和度量學(xué)習(xí)。將此層映射記為Fbackbone,多視角特征提取過(guò)程可表征為:
其中:fm表示輸入圖像xm的輸出特征圖。每個(gè)視角在骨干網(wǎng)后分別設(shè)置了全局子分支和局部子分支來(lái)學(xué)習(xí)各視角的全局特征和局部特征。
為了提取細(xì)粒度特征,本文在全局分支中采用了一種可自學(xué)習(xí)的廣義平均(Generalized-Mean,GeM)池化[32],該池化層融合了最大池化和平均池化的優(yōu)點(diǎn),能捕獲到特定領(lǐng)域的區(qū)分特征。fm在經(jīng)過(guò)GeM 池化后,提取得到全局特征gm∈R1×2048。GeM 池化公式如下:
其中:fk表示特征圖,k表示通道方向上的位置序號(hào),k∈{1,2,…,K};Xk表示特征圖中各個(gè)通道層的激活圖,其尺寸為W×H;Pk表示一個(gè)可訓(xùn)練超參數(shù),其在全局分支中初始化為6,并通過(guò)反向傳播不斷更新學(xué)習(xí)。對(duì)于上述操作,當(dāng)Pk→∞時(shí),GeM 池化等價(jià)于最大池化;當(dāng)Pk→1時(shí),GeM 池化等價(jià)于平均池化。最終,利用RRT 聯(lián)合訓(xùn)練衛(wèi)星視圖和無(wú)人機(jī)視圖的全局特征,將多視角映射到同一個(gè)特征空間。
在局部分支中,為了充分利用上下文信息,采用方形環(huán)切割策略[29]來(lái)切割特征圖fm。觀察到,目標(biāo)地點(diǎn)通常分布在圖像的中心,而上下文信息輻射性地分布在其周圍?;谶@種語(yǔ)義信息分布的假設(shè),方形環(huán)劃分的中心可以近似地對(duì)準(zhǔn)特征圖的中心。如圖3 所示,根據(jù)到圖像中心的距離將全局特征fm分為4 個(gè)部分,獲得了4 塊環(huán)狀的特征圖,(n=1,2,3,4)。上標(biāo)n代表從中心算起的第n部分。同樣,局部分支也采用GeM 池化操作,將轉(zhuǎn)換成通道數(shù)為2 048 的局部特征,Pk初始化為1。該過(guò)程可表征為:
其中:Fslice代表方形環(huán)劃分;Gempool代表GeM 池化操作。隨后,MMNet 采用尺寸為1 × 1 的卷積核對(duì)進(jìn)行降維,得到∈R1×512(i=1,2,3,4)。
至此,MMNet 已經(jīng)獲取了各個(gè)分支的局部特征以及全局特征。由于特征是從不同的分支中提取的,可能具有不同的分布,不能直接用于匹配。為了突破這一限制,除了利用RRT 將全局特征映射在一個(gè)共享空間外,還建立了一個(gè)多視角參數(shù)共享的分類模塊。該分類模塊針對(duì)局部特征向量和全局特征向量gm分別建立了5 支參數(shù)不共享的分類子模塊執(zhí)行分類任務(wù),來(lái)預(yù)測(cè)各自的標(biāo)簽y。這5 支分類子模塊結(jié)構(gòu)相同,由以下層構(gòu)建:全連接層(Fully Connected layer,F(xiàn)C)、批歸一化層(Batch Normalization layer,BN)、棄參層(Dropout layer,Dropout)、分類層(Classification Layer,CL)。此處的CL 也是一個(gè)全連接層,后接Softmax 函數(shù)可將分類特征向量進(jìn)行歸一化。
在訓(xùn)練過(guò)程中,利用反向傳播來(lái)降低損失,并利用Adam優(yōu)化器來(lái)更新網(wǎng)絡(luò)參數(shù)。通過(guò)同時(shí)最小化RRT 和多支特征的ID 損失之和來(lái)優(yōu)化MMNet。在對(duì)所提出的MMNet 進(jìn)行訓(xùn)練之后,采用加權(quán)策略來(lái)聚合全局和局部特征進(jìn)行目標(biāo)地點(diǎn)圖像表示。
針對(duì)數(shù)據(jù)集University-1652 無(wú)人機(jī)視角和衛(wèi)星視角樣本量極其不平衡(無(wú)人機(jī)視圖與衛(wèi)星視圖的比例為54∶1)的特點(diǎn),提出了多視角平衡采樣(MBM)策略。多視角樣本不平衡表示兩個(gè)視角之間的樣本量不平衡,而每個(gè)視角的類別數(shù)和每個(gè)類別的樣本數(shù)都是平衡的。如果在訓(xùn)練時(shí),按類別隨機(jī)采樣,各視角采樣數(shù)相同,則導(dǎo)致樣本量多的視角出現(xiàn)欠采樣問(wèn)題,同理,樣本量過(guò)少的視角易出現(xiàn)過(guò)采樣問(wèn)題,因此網(wǎng)絡(luò)會(huì)偏向于出現(xiàn)過(guò)采樣問(wèn)題的同視角樣本之間的分類任務(wù)學(xué)習(xí)。如果各視角采樣比例等同于數(shù)據(jù)集視角間樣本量比例,則會(huì)導(dǎo)致網(wǎng)絡(luò)傾向于樣本量多的一方的同視角分類任務(wù)學(xué)習(xí),從而使網(wǎng)絡(luò)忽略掉了跨視角視圖間的匹配學(xué)習(xí)。
本文提出的MBM 策略,根據(jù)不同視角總樣本量的比例,進(jìn)行一個(gè)折中的采樣比例設(shè)置。根據(jù)經(jīng)驗(yàn),初始化時(shí)將比例γ設(shè)為3。即每次批量采樣,每個(gè)目標(biāo)地點(diǎn)的衛(wèi)星視圖與無(wú)人機(jī)視圖的采樣量之比為1∶3。
三元組損失(triplet loss)已被廣泛應(yīng)用于各種圖像匹配任務(wù),包括人臉識(shí)別[33]、行人重識(shí)別[34-35]和圖像檢索[36-37]。三元組損失目標(biāo)是訓(xùn)練網(wǎng)絡(luò)將正樣本拉近錨點(diǎn),同時(shí)將負(fù)樣本推開。最簡(jiǎn)單的三元組損失為最大邊界三元組損失(maxmargin triplet loss),公式如下:
文獻(xiàn)[21]中為了提高網(wǎng)絡(luò)訓(xùn)練的收斂速度,提出了加權(quán)軟邊界三元組損失,該損失設(shè)置了一個(gè)縮放系數(shù)α,公式如下:
其中:正樣本和負(fù)樣本有著相同的權(quán)重,致使下降梯度的幅度相同。這意味著正、負(fù)樣本將會(huì)以相同的方式和力度被拉近或推開。在實(shí)踐中,無(wú)人機(jī)視圖相較于衛(wèi)星視圖更易收集,導(dǎo)致數(shù)據(jù)集University-1652 中無(wú)人機(jī)視圖數(shù)量要遠(yuǎn)高于衛(wèi)星視圖數(shù)量。在前文中提出了用MBM 策略來(lái)減輕多視角樣本不平衡的影響。在該策略下,每一個(gè)訓(xùn)練batch 中都會(huì)存在比例為γ∶1 的無(wú)人機(jī)、衛(wèi)星視圖分布,所以在梯度下降的過(guò)程當(dāng)中,應(yīng)該采取兩個(gè)優(yōu)化策略:1)以無(wú)人機(jī)視圖聚類為錨點(diǎn),將同類別間的衛(wèi)星視圖聚類,相較于將聚類逐個(gè)拉向單個(gè)衛(wèi)星圖錨點(diǎn)會(huì)更容易;2)盡可能拉近同類別間的距離,而不是推開負(fù)樣本,因?yàn)閷⑸贁?shù)匹配的樣本拉到錨點(diǎn)附近比將所有負(fù)樣本推離錨點(diǎn)更容易?;谏鲜鰞?yōu)化策略,采用重加權(quán)的方法,調(diào)整正負(fù)樣本間的不同權(quán)重,可以更好地緩解多視角樣本不平衡的問(wèn)題。
此外,上述三種三元組損失均是采用硬樣本批量采樣策略,即在每個(gè)批次中,只選取最遠(yuǎn)的正樣本和最近的負(fù)樣本組成一個(gè)三元組,計(jì)算一次三元組損失。該策略僅僅捕獲了少量且具有豐富信息的樣本,卻忽略了大量的常規(guī)樣本,同時(shí)還破壞了原本特征空間樣本的分布結(jié)構(gòu)。鑒于此,根據(jù)每對(duì)樣本間的學(xué)習(xí)難度賦予不同的權(quán)重,且不引入任何邊界余量。具體來(lái)說(shuō),即對(duì)于距離越遠(yuǎn)的正樣本和距離越近的負(fù)樣本對(duì),賦予更高的權(quán)重。該策略能夠保持原樣本間的空間結(jié)構(gòu),降低計(jì)算復(fù)雜度,更有利于收斂。RRT 函數(shù)如下:
其中:(i,j,k)表示每次訓(xùn)練批次中的三元組;對(duì)于每張圖像i,Pi是與之對(duì)應(yīng)的正樣本;Ni是與之相對(duì)應(yīng)的負(fù)樣本分別表示正負(fù)樣本對(duì)之間的距離分別代表每個(gè)正負(fù)樣本對(duì)的正則化權(quán)重。如果設(shè)置較大的αn,負(fù)樣本對(duì)的梯度隨著損失優(yōu)化會(huì)快速下降,意味著只能將負(fù)樣本對(duì)推開小段距離。對(duì)于較小的αp,正樣本對(duì)的梯度則會(huì)緩速下降,會(huì)迅速將正樣本按特征空間距離比例拉向錨點(diǎn)。當(dāng)正樣本數(shù)遠(yuǎn)少于負(fù)樣本時(shí),例如只有一個(gè)衛(wèi)星正樣本的無(wú)人機(jī)定位任務(wù)中,將唯一匹配的正樣本拉近錨點(diǎn)比將所有負(fù)樣本推開更容易,因此本文可通過(guò)設(shè)置一個(gè)遠(yuǎn)小于αn的αp值來(lái)驗(yàn)證此猜想。
為了提高視角特征以及類間特征的可區(qū)分度,本文使用ID 損失聯(lián)合學(xué)習(xí)類間的全局和局部特征,并提出RRT 聯(lián)合學(xué)習(xí)視角間的全局特征。因此,MMNet 不僅能執(zhí)行分類任務(wù),還能執(zhí)行相似性度量任務(wù)。這種針對(duì)性的聯(lián)合學(xué)習(xí)策略能夠同時(shí)有效地學(xué)習(xí)視角間的顯著性特征,提高跨視角圖像匹配任務(wù)中特征可區(qū)分度。
1.4.1 分類學(xué)習(xí)
近年,許多計(jì)算機(jī)視覺(jué)任務(wù)如人臉識(shí)別、目標(biāo)檢測(cè)、行人重識(shí)別等都用到了分類的思想,可將該任務(wù)看成一個(gè)圖像分類任務(wù)。本文從分類的角度出發(fā),采用交叉熵(crossentropy)損失聯(lián)合學(xué)習(xí)全局和局部特征,將無(wú)人機(jī)定位任務(wù)視為圖像分類任務(wù)來(lái)訓(xùn)練MMNet。兩個(gè)視角分支的不同特征分別進(jìn)入一個(gè)參數(shù)共享的分類模塊,將所有特征映射到一個(gè)共享的特征空間中。通過(guò)結(jié)合全局特征和4 個(gè)局部特征進(jìn)行分類共享,能夠有效將同地點(diǎn)的輸入圖像聚類。
具體來(lái)說(shuō),采用MBM 策略,在一個(gè)訓(xùn)練批次中,選擇P類ID 的目標(biāo)建筑圖像,每類ID 選擇γ幅無(wú)人機(jī)視圖,1 幅衛(wèi)星視圖。因此一個(gè)批次中,共有P× (γ+1)幅圖像。訓(xùn)練過(guò)程中,MMNet 將降維后的局部特征和全局特征gm作為輸入,通過(guò)分類模塊后,輸出列向量為和zm,分別表征和gm。然后,利用Softmax 函數(shù)將輸出列向量進(jìn)行歸一化,并且預(yù)測(cè)各特征的類別。該過(guò)程表征如下:
接下來(lái),將交叉熵?fù)p失作為損失函數(shù)來(lái)計(jì)算該批次圖像中的局部特征和全局特征的ID 損失:
其中:LPid和LGid分別表示整個(gè)批次的局部特征ID 損失和全局特征ID 損失。
1.4.2 度量學(xué)習(xí)
三元組損失常用于跨視角地理定位任務(wù),用于執(zhí)行全局特征的相似性度量任務(wù)。本文將新提出的RRT 應(yīng)用在MMNet 中的全局特征度量學(xué)習(xí)。RRT 的重加權(quán)策略以及相對(duì)距離權(quán)重正則化策略能夠有效地將同場(chǎng)景的不同視角圖像進(jìn)行再聚類,提升同類圖像的相似度。在MMNet中,RRT可表征為:
為了計(jì)算最終損失,本文使用多監(jiān)督加權(quán)策略將分類損失和度量損失進(jìn)行線性聚合:
其中:η是權(quán)重系數(shù),按訓(xùn)練經(jīng)驗(yàn)設(shè)定為0.5。
MMNet 融合了全局和局部特征表示目標(biāo)地點(diǎn)圖像,可以用降維后的局部特征hn(n∈(1,2,3,4))來(lái)表示局部特征:
最后,MMNet 使用加權(quán)策略融合全局和局部特征進(jìn)行圖像表征:
其中:β是控制局部特征重要性的權(quán)重系數(shù)。
本章首先介紹大型無(wú)人機(jī)定位數(shù)據(jù)集University-1652[6],然后描述了實(shí)驗(yàn)設(shè)置細(xì)節(jié),最后通過(guò)對(duì)提出的方法進(jìn)行消融實(shí)驗(yàn)以及整體評(píng)估,證明了MBM 策略、RRT、多監(jiān)督聯(lián)合學(xué)習(xí)對(duì)于無(wú)人機(jī)定位任務(wù)的有效性,同時(shí)提供了MMNet 與University-1652 現(xiàn)有前沿工作的比較。
2.1.1 數(shù)據(jù)集
University-1652[6]是一個(gè)多視圖多源數(shù)據(jù)集,包含衛(wèi)星視圖、無(wú)人機(jī)視圖和地面視圖數(shù)據(jù),其收集了全世界72 所大學(xué)的1 652 棟建筑。訓(xùn)練集包括33 所大學(xué)的701 棟建筑,測(cè)試集包括其余39 所大學(xué)的951 棟建筑。訓(xùn)練和測(cè)試集中沒(méi)有重疊的大學(xué)。由于一些建筑物沒(méi)有足夠的地面圖像來(lái)覆蓋這些建筑物的不同方面,因此數(shù)據(jù)集還提供了一個(gè)附加的訓(xùn)練集,該附加數(shù)據(jù)集中的圖像是從谷歌地圖中收集的,它們具有與地面圖像相似的視圖。此外,附加的訓(xùn)練集可以作為地面圖像的補(bǔ)充。該數(shù)據(jù)集主要用作兩個(gè)新任務(wù)的研究,分別為無(wú)人機(jī)定位(無(wú)人機(jī)→衛(wèi)星,如圖1 中A 所示)和無(wú)人機(jī)導(dǎo)航(衛(wèi)星→無(wú)人機(jī),如圖1 中B 所示)。訓(xùn)練集含有50 218幅圖像,共覆蓋了701 棟建筑。在無(wú)人機(jī)目標(biāo)定位任務(wù)中,Query 集含有37 855 幅無(wú)人機(jī)視圖圖像,Gallery 集含有701幅可匹配的衛(wèi)星視圖圖像和250 幅干擾衛(wèi)星視圖。在無(wú)人機(jī)導(dǎo)航任務(wù)中,Query 集中有701 幅衛(wèi)星視圖,Gallery 集含有37 855 幅可匹配的無(wú)人機(jī)視圖和13 500 幅干擾無(wú)人機(jī)視圖。
2.1.2 實(shí)驗(yàn)細(xì)節(jié)
MMNet 的骨干網(wǎng)采用了微調(diào)的ResNet-50,在ImageNet數(shù)據(jù)集上對(duì)ResNet-50 進(jìn)行了預(yù)處理。本文實(shí)驗(yàn)中,無(wú)論是訓(xùn)練還是測(cè)試,輸入圖像的尺寸均采用256 × 256。在訓(xùn)練時(shí),使用隨機(jī)水平翻轉(zhuǎn)、隨機(jī)裁剪以及隨機(jī)旋轉(zhuǎn)來(lái)增加數(shù)據(jù)的多樣性。本文采用多視角平衡采樣策略,訓(xùn)練批次設(shè)置為32,γ設(shè)置為3,即一個(gè)批次中隨機(jī)選取8 類目標(biāo)地點(diǎn)圖像,每類圖像包含3 幅無(wú)人機(jī)視圖和1 幅衛(wèi)星視圖。在反傳過(guò)程當(dāng)中,本文采用隨機(jī)梯度下降法優(yōu)化參數(shù),momentum設(shè)置為0.9,weight_decay為0.000 5。骨干網(wǎng)初始學(xué)習(xí)率設(shè)為0.001,分類模塊學(xué)習(xí)率為0.01,80 個(gè)epoch 后衰減為原來(lái)的1/10,經(jīng)過(guò)120 個(gè)epoch 完成訓(xùn)練。對(duì)于RRT 中的超參數(shù),按經(jīng)驗(yàn)分別設(shè)αp=5,αn=20。在測(cè)試過(guò)程中,利用歐氏距離來(lái)度量Query 圖像和Gallery 集中候選圖像之間的相似性。本文在PyTorch 1.7.1 上實(shí)現(xiàn),所有實(shí)驗(yàn)都在一個(gè)NVIDIA RTX 2080Ti GPU 上進(jìn)行。
2.1.3 評(píng)價(jià)標(biāo)準(zhǔn)
本文實(shí)驗(yàn)使用召回率(Recall@K,R@K)和平均精準(zhǔn)率(Average Precision,AP)來(lái)評(píng)估性能。R@K代表在Top-K的Ranking List 中的正確匹配圖像的比例,較高的R@K表明網(wǎng)絡(luò)性能較好。AP 代表了精準(zhǔn)率-召回率曲線下的面積。分別在無(wú)人機(jī)定位和導(dǎo)航任務(wù)中使用上述兩個(gè)指標(biāo)作為實(shí)驗(yàn)評(píng)價(jià)標(biāo)準(zhǔn)。
在University-1652 數(shù)據(jù)集上進(jìn)行了廣泛的實(shí)驗(yàn),通過(guò)和4 個(gè)具有競(jìng)爭(zhēng)性的前沿方法進(jìn)行比較,來(lái)評(píng)估本文所提出方法的性能。如表1 所示,與本文方法作對(duì)比的4 個(gè)前沿方法分別為:實(shí)例損失(Instance Loss,IL)方法[6]、LCM(cross-view Matching based on Location Classification)方法[27]、SFPN(Salient Feature Partition Network)方法[38]、LPN(Local Pattern Network)方法[29]。MMNet 在無(wú)人機(jī)定位任務(wù)中(無(wú)人機(jī)視圖→衛(wèi)星視圖)達(dá)到了83.97%的R@1 性能和86.96%的AP 性能,在無(wú)人機(jī)導(dǎo)航任務(wù)中(衛(wèi)星視圖→無(wú)人機(jī)視圖)達(dá)到了90.15%的R@1 性能和84.69%的AP 性能。
表1 University-1652數(shù)據(jù)集上本文方法與前沿方法的比較 單位:%Tab.1 Comparison of the proposed method with state-of-the-art methods on University-1652 dataset unit:%
相較于性能次好的LPN 方法,MMNet 在無(wú)人機(jī)定位任務(wù)中的R@1 指標(biāo)提升了10.59%,在無(wú)人機(jī)導(dǎo)航任務(wù)中AP 指標(biāo)提升了13.24%,表明MMNet 在University-1652 數(shù)據(jù)集上的無(wú)人機(jī)定位和導(dǎo)航任務(wù)中都顯著優(yōu)于現(xiàn)有方法。
對(duì)于無(wú)人機(jī)視角地理定位任務(wù),Gallery 中有951 幅衛(wèi)星視角圖像。為了使這項(xiàng)匹配任務(wù)更具挑戰(zhàn)性,本文從CVUSA 的測(cè)試集中收集了8 884 幅衛(wèi)星圖像添加到University-1652 的Gallery 集中作為干擾物(表1 最后一行)。盡管干擾物會(huì)降低整體表現(xiàn),但表1 中R@1 和AP 并沒(méi)有顯著下降,結(jié)果仍然具有競(jìng)爭(zhēng)力。這證明了MMNet 對(duì)干擾物的魯棒性。
此外,在圖4 中展示了兩個(gè)任務(wù)的一些檢索結(jié)果。觀察到,無(wú)論是在無(wú)人機(jī)定位還是在無(wú)人機(jī)導(dǎo)航任務(wù)中,MMNet都可以根據(jù)內(nèi)容來(lái)檢索合理的圖像;但圖4(a)中第三行展示了一個(gè)失敗案例,MMNet 并沒(méi)有成功地匹配R@1 圖像。本文發(fā)現(xiàn)這項(xiàng)任務(wù)仍具挑戰(zhàn)性,由于R@1 圖像與Query 圖像具有非常相似的空間結(jié)構(gòu)特點(diǎn),兩幅圖像所含中心建筑的外觀尤為相似。
本文在數(shù)據(jù)集University-1652[6]上評(píng)估了MMNet 的各模塊性能,各模塊均采用MBM 策略進(jìn)行采樣,實(shí)驗(yàn)結(jié)果如表2所示。在表2中,全局特征(GF)表示僅利用MMNet 的全局分支提取到的特征,即gm來(lái)訓(xùn)練網(wǎng)絡(luò);局部特征(LF)表示僅利用MMNet 的局部分支提取到的特征,即來(lái)訓(xùn)練網(wǎng)絡(luò);聯(lián)合特征(Joint Features,JF)表示聯(lián)合全局特征和局部特征來(lái)訓(xùn)練網(wǎng)絡(luò)。括號(hào)中表示網(wǎng)絡(luò)訓(xùn)練所使用的損失函數(shù),其中:ID 表示損失函數(shù)采用ID 損失中的交叉熵?fù)p失,用來(lái)學(xué)習(xí)分類任務(wù);RRT 表示采用本文所提出的RRT,用來(lái)學(xué)習(xí)度量任務(wù)。
通過(guò)表2 可看出,本文采用的各方法模塊如MBM、RRT,多監(jiān)督聯(lián)合學(xué)習(xí)對(duì)整個(gè)網(wǎng)絡(luò)的性能提升均有貢獻(xiàn)。
表2 University-1652數(shù)據(jù)集上MMNet不同模塊的比較結(jié)果 單位:%Tab.2 Comparison results of different MMNet modules on University-1652 dataset unit:%
2.3.1 多視角平衡采樣策略
為了證明所提出的MBM 策略的有效性,在基線上進(jìn)行了兩個(gè)對(duì)比實(shí)驗(yàn),分別采取文獻(xiàn)[6]中的批量挖掘,以及本文提出的MBM。在批量挖掘中,batch_size 設(shè)為32,每個(gè)batch采樣16 個(gè)類別的目標(biāo)地點(diǎn)圖像,無(wú)人機(jī)和衛(wèi)星視圖各一幅圖像。由于文獻(xiàn)[6]中每類目標(biāo)地點(diǎn)的無(wú)人機(jī)視圖與衛(wèi)星視圖比例均為54∶1,所以會(huì)存在明顯無(wú)人機(jī)視圖欠采樣問(wèn)題。此外對(duì)于度量任務(wù)計(jì)算RRT 而言,批量挖掘中每個(gè)錨點(diǎn)的正樣本均只有一幅,嚴(yán)重影響了損失優(yōu)化的平衡性。理論上,MBM 可以有效緩解采樣中視角圖像數(shù)量不平衡問(wèn)題,在特征空間中可以增強(qiáng)無(wú)人機(jī)聚類,拉近衛(wèi)星視圖與無(wú)人機(jī)視圖的距離。從表3 中數(shù)據(jù)可以看出,本文提出的MBM 顯著提升了MMNet 在University-1652 數(shù)據(jù)集上的性能。
表3 MMNet采用不同采樣策略的結(jié)果 單位:%Tab.3 Results of different sampling strategies in MMNet unit:%
2.3.2 重加權(quán)正則化三元組損失
為了驗(yàn)證RRT 在University-1652 數(shù)據(jù)集上的有效性。在文獻(xiàn)[6]提出的基線上(采用批量挖掘策略)對(duì)常用的幾種損失如:CL[6]、TL[6]、WSM[21]以及RRT 進(jìn)行了對(duì)比實(shí)驗(yàn),結(jié)果如表4 所列。在RRT中,根據(jù)經(jīng)驗(yàn),設(shè)αp=5,αn=20,從而達(dá)到了最好的性能,AP 值均得到較大提升。為了能夠有效驗(yàn)證重加權(quán)策略,在以上RRT 實(shí)驗(yàn)的基礎(chǔ)上采用MBM 策略,將R@1 和AP 平均提升了2.61 個(gè)百分點(diǎn)左右。對(duì)于性能提升而言,RRT 采用的重加權(quán)策略,以及MBM 策略,均能有效緩解University-1652 數(shù)據(jù)集的多視角樣本不平衡問(wèn)題,將無(wú)人機(jī)圖像聚類的同時(shí),能夠讓同地點(diǎn)衛(wèi)星圖像更接近于無(wú)人機(jī)圖像聚類。
表4 RTT與其他度量損失的比較 單位:%Tab.4 Comparison of RRT with other metric losses unit:%
2.3.3 多監(jiān)督聯(lián)合學(xué)習(xí)
本文所提出的聯(lián)合學(xué)習(xí)主要體現(xiàn)在兩個(gè)方面,分別是全局和局部特征之間的聯(lián)合學(xué)習(xí),以及分類損失和度量損失之間的聯(lián)合學(xué)習(xí)。前者能夠同時(shí)關(guān)注全局特征的粗粒度感知信息和局部特征的細(xì)粒度上下文信息,做到多粒度信息融合。通過(guò)對(duì)比表2 中的GF(ID)、LF(ID)和JF(ID)方法可看出,局部特征相較于全局特征能夠大幅度提升網(wǎng)絡(luò)性能。聯(lián)合全局特征和局部特征的網(wǎng)絡(luò)能夠在局部特征網(wǎng)絡(luò)基礎(chǔ)上兼具粗粒度信息,使網(wǎng)絡(luò)相較于局部特征訓(xùn)練能夠有效地將R@1 和AP 平均提升1.43 個(gè)百分點(diǎn)左右。這些數(shù)據(jù)表明,聯(lián)合全局和局部特征聚合了多粒度視點(diǎn)不變特征,學(xué)習(xí)出更豐富的目標(biāo)地點(diǎn)信息。
在MMNet中,分類任務(wù)能夠?qū)⒉煌暯堑耐瑘?chǎng)景目標(biāo)地點(diǎn)圖像在兩個(gè)特征空間分別進(jìn)行聚類,然后通過(guò)映射方式實(shí)現(xiàn)跨視角圖像匹配。相對(duì)而言,度量任務(wù)則是通過(guò)將所有圖像映射在一個(gè)特征空間,然后拉近不同視角的同場(chǎng)景圖像距離,推開異類圖像,從而實(shí)現(xiàn)跨視角圖像匹配任務(wù)。簡(jiǎn)而言之,分類任務(wù)專注于同視角間同類場(chǎng)景圖像的聚類任務(wù),度量任務(wù)專注于不同視角的同場(chǎng)景圖像匹配任務(wù)。對(duì)比表2 中GF(ID)、GF(RRT)、JF(ID)和MMNet 方法的數(shù)據(jù),可以看出MMNet 在融合了交叉熵?fù)p失和RRT后,顯著提升了網(wǎng)絡(luò)性能,其中在無(wú)人機(jī)定位任務(wù)的R@1 和導(dǎo)航任務(wù)的AP指標(biāo)上分別提高了4.32 和5.58 個(gè)百分點(diǎn)。
2.3.4 超參數(shù)分析
為了評(píng)估β在式(16)中的影響,單獨(dú)改變?chǔ)轮翟贛MNet測(cè)試中做了單一變量實(shí)驗(yàn),結(jié)果如圖5 所示,可以看到當(dāng)β=1時(shí),R@1 和AP 的性能達(dá)到最高值。
本文基于孿生網(wǎng)絡(luò)架構(gòu)提出了一種新的深度學(xué)習(xí)網(wǎng)絡(luò)MMNet,用于跨視角圖像匹配。MMNet 有效融合了多視角全局和局部特征,學(xué)習(xí)到兼具粗粒度感知和細(xì)粒度上下文的目標(biāo)地點(diǎn)信息;同時(shí)MMNet 聯(lián)合了分類損失和度量損失進(jìn)行多監(jiān)督訓(xùn)練,能夠有效互補(bǔ)分類和度量任務(wù)中的固有缺陷。對(duì)于全局特征,在采用分類損失的基礎(chǔ)上,提出了重加權(quán)正則化三元組損失,有效緩解了分類損失對(duì)于跨視角視圖映射較弱的問(wèn)題。對(duì)于局部特征,采用方形環(huán)分割策略,將全局特征劃分成多個(gè)環(huán)形部分,從卷積圖中學(xué)習(xí)潛在的上下文信息,并為局部特征執(zhí)行分類任務(wù)。對(duì)于University-1652 數(shù)據(jù)集,本文所提出的多視角平衡采樣策略,能夠有效緩解該數(shù)據(jù)集無(wú)人機(jī)視圖和衛(wèi)星視圖樣本數(shù)量不平衡問(wèn)題。此外,基于多監(jiān)督訓(xùn)練方式有效提升了無(wú)人機(jī)定位和導(dǎo)航任務(wù)的跨視角圖像匹配性能。在目前流行的無(wú)人機(jī)數(shù)據(jù)集上證實(shí)了所提出的MMNet 的有效性,相較于現(xiàn)有的前沿方法,顯著了提高了無(wú)人機(jī)定位和導(dǎo)航任務(wù)的準(zhǔn)確性。
下一步工作將會(huì)考慮衛(wèi)星視圖和無(wú)人機(jī)視圖之間的視角轉(zhuǎn)換,讓網(wǎng)絡(luò)自動(dòng)學(xué)習(xí)多視角間的視點(diǎn)不變特征的基礎(chǔ)上,訓(xùn)練出針對(duì)空間域差的自適應(yīng)視角轉(zhuǎn)換方法。