亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

AttentionRanker——基于排名優(yōu)化的自-互注意力機制

2023-09-26 05:26:56趙艷明林美秀曾姝瑤

中國傳媒大學學報(自然科學版) 2023年4期

關(guān)鍵詞：特征實驗信息

趙艷明，林美秀，曾姝瑤

（中國傳媒大學信息與通信工程學院，北京 100024）

1 引言

圖像匹配在40 年前由David Marr[1]教授首次提出，旨在探索不同視覺對象之間的差異性和共同性，并且作為計算機視覺的底層任務(wù)連接著兩個具有相同或相似屬性的圖像目標，是計算機視覺中最為重要的研究領(lǐng)域之一。

相機位姿估計任務(wù)作為圖像匹配的一個基礎(chǔ)下游任務(wù)，需要匹配網(wǎng)絡(luò)提供對應(yīng)的點對匹配信息從而還原出相機的旋轉(zhuǎn)平移運動，如圖 1所示，它作為低層視覺通往高層視覺的紐帶，不但承接著三維重建、同步定位與地圖構(gòu)建（Simultaneous Localization and Mapping，SLAM）等大型任務(wù)，同時也是實現(xiàn)信息識別與整合[2-4]以及從低維圖像恢復(fù)高維結(jié)構(gòu)[5-6]的重要途徑。

目前大多數(shù)圖像匹配算法通常包括三個獨立的步驟：特征檢測、特征描述和特征匹配。近年來隨著深度學習的迅速發(fā)展，這三個步驟逐漸被整合到一個端到端網(wǎng)絡(luò)當中，利用深度神經(jīng)網(wǎng)絡(luò)根據(jù)不同圖像集特點在特征檢測階段學習到特征點之間的關(guān)系并進行匹配。然而由于很多室內(nèi)數(shù)據(jù)集圖像中的弱紋理區(qū)域或者重復(fù)區(qū)域往往會占據(jù)圖像的大部分空間，并且相機運動和光照條件會帶來強視點變化和強光線變化，這使得特征檢測器很難提取到可重復(fù)的特征點，從而無法找到正確的特征點對應(yīng)關(guān)系。最近的一些研究工作直接通過建立像素級的密集匹配并在其中選擇置信度高的匹配對，避免了特征檢測器無法提取到足夠多的特征點進行后續(xù)匹配的問題。

針對原始Transformer結(jié)構(gòu)處理長序列時帶來的顯存爆炸問題，雖然已經(jīng)有很多研究提出了高效的Transformer 變體，但其中絕大多數(shù)研究集中于自然語言處理的稀疏方法，在計算機視覺領(lǐng)域則通常直接引用前者思路，缺少針對性面向圖像處理的注意力稀疏算法。

圍繞上述問題，本文展開研究工作，通過梳理自-互注意力機制在提取得到的密集局部特征中進行信息交互的過程，提出了基于排名優(yōu)化的自-互注意力方法-AttentionRanker。該算法創(chuàng)新性地通過對位置編碼后的一維輸入特征圖進行重塑形，然后利用類空間注意力機制挑選少量活躍像素點，成功地將每層注意力的時間復(fù)雜度降為O(N· lnN) ，對于不同圖像生成不同的權(quán)值從而實現(xiàn)自適應(yīng)優(yōu)化。

2 相關(guān)工作

2.1 無特征檢測器的圖像匹配算法研究現(xiàn)狀

密集特征匹配思想可以追溯到2010 年的Liu 等人[7]提出的基于光流法的SIFT Flow。2018 年Ignacio等人[8]針對弱紋理區(qū)域和圖案重復(fù)區(qū)域用最近鄰方法容易產(chǎn)生錯誤匹配的問題，提出鄰域共識網(wǎng)絡(luò)（Neighbourhood Consensus Network, NC-Net），它通過構(gòu)造4D 代價容量函數(shù)來枚舉圖像之間所有可能的匹配點對，然后利用4D 卷積對代價容量進行正則化，以鄰域共識思想約束所有的匹配點對。然而NC-Net 中的4D 卷積神經(jīng)網(wǎng)絡(luò)也帶來了巨大的內(nèi)存消耗和時間復(fù)雜度問題，2020年，Li等人[9]提出的雙分辨率對應(yīng)網(wǎng)絡(luò)(Dual-Resolution Correspondence Networks, DRCNet)同樣通過構(gòu)造四維卷積神經(jīng)網(wǎng)絡(luò)獲取密集匹配，通過這種由粗到細的方式極大地提高了匹配的可靠性并且避免了整個網(wǎng)絡(luò)都進行4D 卷積運算所帶來的巨大計算代價。

2021 年CVPR 挑戰(zhàn)賽中Sun 等人[10]提出了在SuperGlue[11]的匹配思路下設(shè)計的基于Transformer 的圖像匹配網(wǎng)絡(luò)LoFTR[10]。其整體可分為四個組成部分：特征金字塔、自-互注意力信息傳遞、粗匹配預(yù)測、多尺度特征融合匹配。

首先輸入兩張圖片IA、IB∈?h×w，然后構(gòu)建一個具有三層結(jié)構(gòu)的ResNet-FPN 網(wǎng)絡(luò)，輸出粗精度特征圖和細精度特征圖F^。然后將得到的一對粗精度特征圖分別展平為一維向量A、B∈?N×d，融合位置編碼后送入自-互注意力模塊,得到圖像內(nèi)部的關(guān)鍵點信息以及圖像之間的關(guān)鍵點信息。然后利用Sinkhorn 算法[12-13]或雙Softmax（Dual-softmax）法得到粗精度匹配預(yù)測。最后是進行多尺度特征融合匹配，對于每一對粗匹配(i,j)，在細精度特征圖F^ 上定位其位置，然后裁剪兩組大小為w×w的網(wǎng)格窗口并展平，通過自-互注意力信息傳遞后，得到兩個以粗匹配預(yù)測的定位點i和j分別作為F^A和F^B中心的細精度局部特征表示。通過計算概率分布的期望，收集F^A中所有特征點的對應(yīng)匹配后，最終得到細精度特征圖上的亞像素級匹配(i,j′) ∈Mf。

2.2 注意力矩陣的稀疏分解

為了降低注意力模型的時間復(fù)雜度，Zaheer 等人[14]提出了兩個假設(shè)的注意力模型，分別是空洞注意力模型（圖2）和局部注意力模型（圖3），這兩種模型在計算上都有所簡化。

與這兩種算法有相似之處，Sparse Transformer[15]在注意力的計算上直接將兩個假設(shè)合并起來，也就是對于每一個元素來說，都只和與它距離不超過k，以及距離為mk(k> 1) 的元素相關(guān)聯(lián)，這樣不僅可以學習緊密相關(guān)的局部信息，并且在全局關(guān)聯(lián)性的計算中稀疏了一些注意力，降低計算復(fù)雜度。具體算法如下：

定義一個集合S=S1,…SN，N 為向量長度。Si表示第i個輸出向量對應(yīng)于輸入向量中的索引集合，即第i個元素可以關(guān)聯(lián)到的元素集合，輸入向量X通過S與輸出向量關(guān)聯(lián)起來（公式（1）、（2））：

其中KSi=Wkxj，VSi=Wvxj(j∈Si),Wq、Wk、Wv分別表示將給定輸入元素xi轉(zhuǎn)換為query、key 和value的權(quán)重矩陣，attention(xi,Si) 表示xi和可以關(guān)注的元素之間的注意力。

當使用兩個注意力頭時，讓每個注意力關(guān)注不同的位置，文中選取讓其中一個注意力頭只關(guān)注當前位置的距離為以內(nèi)的元素，讓另一個注意力頭只關(guān)注距離當前位置為的元素。這樣就將計算復(fù)雜度由O(N2·d)降低為

3 本文方法

3.1 自互注意力機制

圖像匹配任務(wù)的傳統(tǒng)方法是在獲取特征點后計算其視覺描述符信息，然后通過暴力匹配計算描述符歐氏距離獲得匹配點對。近年來的匹配算法受Transformer[16]的啟發(fā)，在圖神經(jīng)網(wǎng)絡(luò)的基礎(chǔ)上，利用注意力機制整合其他的上下文線索，從而給特征點或者特征圖賦予更多的全局信息。

使用卷積神經(jīng)網(wǎng)絡(luò)提取兩張原始圖像IA、IB∈?h×w的局部特征圖FA和FB，自-互注意力模塊提取密集匹配過程如下：

（1）使用絕對正弦-余弦位置編碼為FA和FB中的每個元素添加特定的位置信息，使得圖像上的特征與其所在的位置相關(guān)聯(lián)，提高在弱紋理區(qū)域找到對應(yīng)匹配區(qū)域的能力。參考Carion 等人[17]的位置編碼方法，將第i個特征通道中(x,y)位置的正弦-余弦位置編碼的二維擴展定義為式（3）：

（2）將特征圖FA和FB展平為一維向量，分別與位置編碼融合相加得到和后輸入自-互注意力模塊。

（3）對兩個序列計算圖注意力：對于自注意力層，輸入特征fi和fj相同，來自于或；對于互注意力層，輸入特征fi和fj則分別來自于和或者和具體情況視互注意力方向而定）。

（4）將自-互注意力模塊中的自注意力層和互注意力層交替Nc次，對輸入特征進行變換，最終輸出融合本張圖片鄰域信息與待匹配圖像信息的特征和

圖4給出了基于Transformer 的自-互注意力流程。自注意力層使得每個點關(guān)注其周圍所有點以及關(guān)聯(lián)性，互注意力層使得每個點關(guān)注另一幅圖上的所有點及其關(guān)聯(lián)性。

3.2 基于排名優(yōu)化的自-互注意力機制

因為直接使用普通的Transformer 編碼器結(jié)構(gòu)對算力要求過高，為了能夠輕量化使用Transformer，本小節(jié)根據(jù)輸入圖像的不同特點進行針對性處理，結(jié)合活躍像素點的注意力挑選策略，提出基于排名優(yōu)化的自-互注意力機制。

3.2.1活躍像素點的挑選策略

針對普通注意力機制中忽略稀疏性，對所有的query 和key 進行點積運算從而造成時間復(fù)雜度高的問題，一方面需要考慮不遺漏計算重要的注意力，另一方面需要考慮如何有效地減少計算量。對于每一個一維向量Fpe∈?N×d，通過線性映射后得到查詢向量q∈?d、值向量k∈?d和鍵向量v∈?d。如圖5 所示，本節(jié)跟隨Informer[18]的實驗結(jié)論定義兩種查詢類型，活躍查詢qa（active query）和非活躍查詢ql（lazy query）：

（1）qa是能在key 中查詢出更關(guān)鍵的信息的query，即qa-key 點積對對于注意力有貢獻，這種query在注意力中有一個或多個注意力分數(shù)的峰值，其他地方的分數(shù)則比較低。

（2）ql是使key 起平均值作用的query，即ql-key點積對對于注意力僅僅起很微弱的貢獻。這種query在注意力中注意力分數(shù)沒有太大的起伏，整體分布比較平均。

為了從所有query中量化區(qū)分“活躍性”，在每次進入自注意力層和互注意力層之前首先將一維向量進行重新整合，轉(zhuǎn)換為特征圖大小的向量x∈?(h × w)×d，此時的隱藏維度d可以看作是通道數(shù)，圖像上的每個像素點經(jīng)過特征提取和位置編碼融合后，使得x不但帶有豐富的位置信息，且攜帶了特征的抽象表達，而這種抽象表達的信息更多體現(xiàn)在“通道維度”上。

如圖6 所示，利用Woo 等人[19-20]提出的空間注意力思想，對通道進行降維操作，將隱藏維度帶有的信息壓縮后送入類空間注意力模塊，實現(xiàn)對特征圖x的重構(gòu)。特征圖x同時經(jīng)過全局平均池化[21]和全局最大池化，得到兩種不同的通道特征描述算子后將其進行拼接：

其中特征圖x′∈?(h×w)×2。將拼接得到特征圖x′經(jīng)過輸出通道數(shù)out_channels=1、卷積核大小為7×7的卷積層實現(xiàn)降維和增大感受野后，使用Sigmoid 激活函數(shù)得到通道信息的注意力權(quán)重矩陣MSA。

如果某個像素位置的通道信息權(quán)重MSA越大，則表明此像素點在線性映射為query后，與key的點積結(jié)合越有可能查詢出信息。

基于此，將通道信息的注意力權(quán)重MSA作為qa的度量方法。對于自注意力層，對輸入的每張圖像分別進行同樣的操作：將重構(gòu)后的特征圖X∈?(h × w× )d再次展開為一維向量后，通過不同的參數(shù)矩陣Wq∈?d×d、Wk∈?d×d、Wv∈?d×d線性映射為查詢矩陣Q∈?N×d、鍵矩陣K∈?N×d、值矩陣V∈?N×d，將得到的注意力權(quán)重MSA從大到小進行排序，在Q中挑選出其中占主導地位的Top-m 個qa（圖7(a)），從而實現(xiàn)對所有query 的稀疏度評估。根據(jù)Zhou 等人[22]提出的策略對m進行定義（式(5)）：

其中c為可調(diào)超參數(shù)。非活躍像素點形成空洞直接由value 的平均值填充，最終得到與原始查詢矩陣Q大小相同的稀疏矩陣Qˉ，此時式(5)變?yōu)槭?6)：

對于互注意力層，將得到的兩個輸入向量進行特征重構(gòu)后，其中一個輸出向量X1線性映射為K和V，另一個輸出向量X2線性映射為Q，同樣使用注意力權(quán)重進行qa的挑選。其過程由圖7(b)所示。

因為只計算了稀疏度度量下的Top-m 個query，理論上每層注意力的時間復(fù)雜度降為O(N· lnN)。

3.2.2AttentionRanker——基于排名優(yōu)化的自-互注意力機制

上文活躍像素點的挑選策略已經(jīng)確定了每層自注意力和互注意力的運行機制，其流程示意圖如圖8所示。

對于每一張圖像，與Sparse Transformer等啟發(fā)式稀疏注意力方法不同，AttentionRanker 會根據(jù)圖像的特征自適應(yīng)地生成不同的空間注意力權(quán)重值，每層自注意力和互注意力的輸入都會用Top-m 思想評估出不同的qa，計算生成不同的矩陣，從而使得在計算多頭注意力時，每張圖像上的重要像素點既不會因為注意力頭不同而改變，對于每一層的輸入又可以自適應(yīng)選擇活躍query從而采取不同的優(yōu)化策略。

在自注意力層中，其Qs、Ks、Vs的輸入都來自于同一特征向量。在將重構(gòu)后的特征向量展平并經(jīng)過不同的線性層轉(zhuǎn)換成表征長度相同的向量后，通過隱藏維度的信息壓縮選出空間注意力權(quán)重最高的Top-m個qa，只計算這些qa和所有key的點積結(jié)果，其余的ql不再進行計算（即不再為value計算權(quán)重），而是直接對value取均值作為輸出，從而保證輸入輸出的長度統(tǒng)一。并行計算每個特征圖的自注意力，得到帶有自身特征關(guān)聯(lián)信息的和，將其進行特征重構(gòu)后分別作為互注意力層Qc和Kc、Vc的輸入特征向量，同樣進行上述步驟后輸出帶有相互特征關(guān)聯(lián)信息的和。將上一層的輸出向量作為下一層自-互注意力的輸入向量，在Nc次信息傳遞之后，最終得到融合本張圖片鄰域信息與待匹配圖像信息的輸出特征和

3.3 無檢測器的特征匹配模型

3.3.1強紋理增強模塊

本節(jié)介紹在特征金字塔ResNet18-FPN 的基礎(chǔ)上加入強紋理特征增強模塊（Strong Texture Feature Enhancement Module，ST-FEM）后的網(wǎng)絡(luò)結(jié)構(gòu)。

如圖9 所示，將ResNet 每層特征圖的輸出表示為{C1,C2,C3}，自頂向下過程中的每層特征圖的輸出表示為{P1,P2,P3}。圖9(a)給出了FPN 自頂向下過程中P2級別到P1級別的融合路徑示意圖，通過1×1卷積核對C1進行通道降維，橫向連接來自空間域2 倍最近鄰上采樣的特征圖P2和自底向上特征提取過程中相同空間大小的特征圖C1。下文所述的網(wǎng)絡(luò)結(jié)構(gòu)均為將ST-FEM模塊置于1×1卷積前的情況。

2018 年P(guān)ark 等人提出的BAM[19-20]中指出在神經(jīng)網(wǎng)絡(luò)中，不同的維度所代表的意義不同：對于通道維度而言，其包含的信息更多為特征的抽象表達，而對于空間維度，則擁有更為豐富的特征位置信息。為了使得特征提取網(wǎng)絡(luò)更加關(guān)注于強紋理區(qū)域特征，本章將來自于自底向上過程中的除最高層語義的其他尺度特征圖（以C1、C2為例）進行如下處理：

（1）經(jīng)過全局最大池化MaxPool和全局平均池化AvgPool得到不同的語義描述符M∈?h×w×1（式（7））和A∈?h×w×1（式（8）），即將每個像素點在不同通道上的最大值和平均值表示在空間維度的每個位置中：

（2）將每個像素點在空間維度上進行全局低維嵌入{(h×w) →(1 × 1) }，即將M和A經(jīng)過全局平均得到整張圖的最大值A(chǔ)vg(M)和平均值A(chǔ)vg(A)。

（3）將M和Avg(M)相減得到每個像素點與整張圖像的差異絕對值描述符M′（式（9）），同理得到A和Avg(A)的差異絕對值描述符A′（式（10）），絕對值越大則代表這個像素點與周圍、與整張圖像越不同，即本節(jié)所述的強紋理特征區(qū)：

（4）將帶有強紋理特征相對位置的M′和A′進行拼接，經(jīng)過卷積核大小為7×7的卷積層f(·)和Sigmoid激活函數(shù)σ(·)后，與自底向上過程中提取的特征圖C1、C2進行融合得到強紋理特征增強的特征圖C′1和（式（11））：

最后經(jīng)過1×1 卷積形成一個完整的橫向連接。整體結(jié)構(gòu)如圖10所示。

圖1 位姿估計任務(wù)示意圖

圖2 空洞注意力的注意力矩陣及其關(guān)聯(lián)關(guān)系示意圖

圖3 局部注意力的注意力矩陣及其關(guān)聯(lián)關(guān)系示意圖

圖4 特征圖FA、FB的自-互注意力流程

圖5 活躍查詢和非活躍查詢的注意力分布示意圖

圖6 利用類空間注意力算法挑選活躍像素點

圖7 自-互注意力層挑選活躍像素點

圖8 基于排名優(yōu)化的自-互注意力機制

圖9 特征金字塔中的ST-FEM 模塊示意圖

圖10 強紋理特征增強模塊ST-FEM 示意圖

3.3.2多尺度自-互注意力融合機制

針對特征金字塔提取的多尺度特征圖，采用兩種不同的自-互注意力融合設(shè)計：

圖11 Linear Transformer的注意力機制

對于粗精度的自-互注意力特征融合步驟，在非稀疏方法下需要進行近五千個點積計算的查詢向量中挑選幾十個活躍查詢可以很大程度上降低計算量，但如果對細精度匹配步驟采用同樣的Attention-Ranker稀疏方法，在非常少量的查詢向量中挑選活躍像素點意義不大。故本文針對不同尺度的特征圖選用了“AttentionRanker +Linear”兩種不同的稀疏注意力方法。

3.3.3損失函數(shù)設(shè)計

整體算法的搭建包含“由粗到細”的多尺度遞進匹配思路，遵循文獻[10-11，24]的損失函數(shù)設(shè)計方案，本文算法最終損失L包括粗精度損失Lc和細精度損失Lf（如式（12））：

（1）粗精度損失Lc

每個特征都代表原圖上的一個像素網(wǎng)格，由于粗精度特征圖和細精度特征圖是多尺度的，在由粗到細的匹配過程中很可能會存在一對多的匹配結(jié)果，因此也難以準確獲得粗精度匹配的真值標簽。

ScanNet 數(shù)據(jù)集[25]提供相機位姿和深度圖，本文采用在訓練過程中實時計算出置信矩陣Pc作為真值標簽的方法：通過衡量兩組低分辨率網(wǎng)格中心位置的重投影距離，從而確定互最近鄰，即取A中網(wǎng)格的中心位置，將其投影到與深度圖相同的比例，并在數(shù)據(jù)集中對其深度信息進行索引，基于深度值和已知的相機位姿，將網(wǎng)格中心扭曲到另一張?zhí)卣鲌DB上，并將其最近鄰作為匹配候選，從B到A重復(fù)同樣的過程。最后基于兩組不同方向的最近鄰匹配，保留互最近鄰的值作為最終粗匹配的真值

當使用雙Softmax 方法進行匹配時，將返回的置信矩陣Pc上的負對數(shù)似然損失作為Lc（式（13））：

（2）細精度損失Lf

細精度級別的自-互注意力融合是在以粗匹配預(yù)測為中心的5×5 小窗口中進行的。對于每一組粗精度匹配(i,j)，本文將F^A網(wǎng)格的中心位置扭曲到上，計算其與最近鄰之間的距離，并對對應(yīng)匹配點j′是否位于細精度特征圖網(wǎng)格的對應(yīng)5×5窗口進行檢查，過濾無法找到對應(yīng)匹配點的粗匹配預(yù)測對，最終獲得真值對于細精度特征圖的每個網(wǎng)格中心點，通過計算相應(yīng)熱力圖的總方差σ2(i) 來衡量其不確定性。為了優(yōu)化具有低不確定性的亞像素級別匹配位置，使用L2損失設(shè)計加權(quán)細精度損失Lf（式（14））：

4 實驗

4.1 數(shù)據(jù)集及評價指標

4.1.1數(shù)據(jù)集

整體模型基于ScanNet 數(shù)據(jù)集[25]進行了訓練、驗證和測試。ScanNet數(shù)據(jù)集是目前室內(nèi)相機位姿估計任務(wù)中使用最廣泛且規(guī)模最大的室內(nèi)圖像數(shù)據(jù)集，包含了707 個不同大小的真實室內(nèi)空間類型，根據(jù)不同場景的多次RGB-D 掃描組成了1513 個單目序列，每一個序列都提供了相應(yīng)的相機內(nèi)外參數(shù)、真實位姿和深度圖像。

考慮實驗條件，本文在ScanNet數(shù)據(jù)集的1513個單目序列中使用隨機函數(shù)Random獲得200個編號數(shù)。該數(shù)據(jù)集每一個場景命名方式為其場景編號（0～706）與掃描次數(shù)編號（0～3）組成，其中編號為scene0307_00、scene0366_00、scene0412_00、scene0645_00的場景由于解析錯誤造成數(shù)據(jù)損壞（其余使用該數(shù)據(jù)集的算法[25]同樣將其做刪除處理），故最終構(gòu)成包含約30 萬個視圖的子數(shù)據(jù)集ScanNet196。

為保證實驗結(jié)果的公平性與有效性，本文的所有實驗包括其它算法的復(fù)現(xiàn)均在ScanNet196 上進行。

4.1.2評價指標

根據(jù)本文的算法結(jié)構(gòu)，STEM 屬于無特征檢測器的圖像匹配算法，對于此類匹配網(wǎng)絡(luò)，暫時沒有明確的類似匹配分數(shù)MS 等衡量匹配精度的度量方法，因此本文沿用SuperGlue[11]算法在ScanNet 數(shù)據(jù)集[25]中針對相機位姿估計任務(wù)的Pose eatimation AUC 評估標準，以旋轉(zhuǎn)和平移的最大角度誤差的累積誤差曲線的曲線下面積作為評價指標。本文分別取AUC@5°、AUC@10°和AUC@20°的指標進行實驗結(jié)果分析。

4.2 實驗設(shè)置及實施細節(jié)

4.2.1實驗環(huán)境

實驗采用PyTorch 深度學習框架下的Python 3.8語言進行編程，在Ubuntu18.04 操作系統(tǒng)下使用3 塊GPUs (NVIDIA RTX A5000) 對模型進行訓練。實驗環(huán)境具體配置如表1所示。

表1 實驗環(huán)境配置

4.2.2訓練細節(jié)

使用初始學習率為6 × 10-3，批量大?。˙atch size）為64 的Adam 優(yōu)化器[26]對模型進行70 個周期的訓練。學習率的調(diào)整策略為線性縮放規(guī)則（Linear Scaling Rule）：先線性預(yù)熱4800 次迭代（iteration），從第3 個周期開始，每3 個周期學習率衰減0.5。每個周期訓練結(jié)束后，自動保存驗證結(jié)果，最終保存各項指標最優(yōu)的5個結(jié)果。

整個模型采用隨機初始化權(quán)值進行端到端訓練。基于排名優(yōu)化的自-互注意力方法在粗精度階段循環(huán)4次，其中采樣超參數(shù)c設(shè)置為5，即每次挑選Top-45個活躍query；細精度階段使用基準網(wǎng)絡(luò)LoFTR 的Linear Transformer方法循環(huán)1次，即Nc= 4，Nf= 1。設(shè)置置信度閾值θc為0.2，窗口大小5×5。粗精度特征圖和細精度特征圖的大小分別是原圖的1 8和1 2。

4.3 實驗結(jié)果分析

本節(jié)以2021 年圖像匹配任務(wù)榜首的LoFTR[10]作為基準網(wǎng)絡(luò)進行對比試驗，由于實驗環(huán)境及配置等因素限制，僅在ScanNet 數(shù)據(jù)集中隨機挑選196 個場景進行訓練，并在1500對圖像上進行驗證與測試。

（1）消融實驗

上文提到的方法是將輸入特征圖x通過類空間注意力機制進行重構(gòu)后，通過不同的參數(shù)矩陣將其線性映射為查詢矩陣Q、鍵矩陣K和值矩陣V，然后利用注意力權(quán)重MSA對查詢向量query 進行稀疏度評估。為了探究此處特征重構(gòu)對key-value鍵值對在進行自-互注意力信息融合是否也有一定的積極作用，故設(shè)計三個消融實驗，并以實驗1、2、3來代指。

實驗1為不進行類空間注意力挑選活躍像素點的實驗情況。實驗2 直接將輸入特征圖x進行線性映射得到key-value鍵值對，特征重構(gòu)后的輸出向量X映射為query 并進行后續(xù)活躍像素點的挑選。實驗3 則是query和key-value都經(jīng)過特征重構(gòu)的實驗情況。以自注意力層為例，實驗2、3 的處理方式分別如圖12 (a)、(b)所示。

圖12 兩種不同的特征映射方式

從表2 的結(jié)果可以看出，同時對比實驗1、2、3，僅對query 進行特征重構(gòu)和活躍像素點挑選，位姿估計精確度在各閾值下僅有少量的提升，而如果在線性映射為key-value之前也進行了隱藏維度的信息壓縮，其Pose estimation AUC 則會在5°、10°、20°閾值下在前者（實驗2）的基礎(chǔ)上再提升0.47%，1.75%和1.06%，說明輸入特征x的特征重構(gòu)可以加強整體自-互注意力信息融合階段的特征信息表達。

（2）注意力方法的對比實驗

在驗證集上的進行自-互注意力模塊的對比實驗，由于普通Transformer 空間復(fù)雜度過高，表3 中第一行數(shù)據(jù)為使用6 塊GPU 進行訓練、驗證得到的結(jié)果。為保證結(jié)果精確性，計算最優(yōu)本地結(jié)果的平均值并保留兩位小數(shù)。實驗主要對比普通Transformer 方法以及兩種不同的稀疏注意力算法在LoFTR 基準網(wǎng)絡(luò)上的室內(nèi)位姿估計精度。

表3 自-互注意力模塊的對比實驗

在特征向量長度N= 4800，表征維度d= 256 的情況下，AttentionRanker 方法在位姿估計精度（AUC@5°、10°、20°）上比普通Transformer 算法分別高0.89%、2.87%、2.37%。同時對比LoFTR 文章中提到的線性稀疏注意力算法Linear Transformer，在輸入兩張圖片進行位姿估計的整體耗時上也比前者快18ms。這說明AttentionRanker 算法不僅在理論層面降低了時間復(fù)雜度，在執(zhí)行實際的室內(nèi)姿態(tài)估計任務(wù)時，也能消耗更少的時間。

（3）整體結(jié)果分析

根據(jù)表4 結(jié)果顯示，在ScanNet196 數(shù)據(jù)集下，將AttentionRanker 應(yīng)用到室內(nèi)位姿估計任務(wù)后在閾值為10°和20°的情況下表現(xiàn)出了最好的效果，分別達到了34.95%和51.75%。與曾經(jīng)基于特征檢測器的圖像匹配最優(yōu)算法SuperPoint和SuperGlue相比，本文算法能夠很大程度提高位姿估計精度，并且僅在閾值為5°時略遜色于2022 年的四叉樹注意力算法（LoFTRQuadTreeB）。本文的方法在進一步降低計算復(fù)雜度的同時，可以維持甚至優(yōu)于當前室內(nèi)位姿估計的最優(yōu)算法，這說明自適應(yīng)稀疏自-互注意力機制在輕量化Transformer類室內(nèi)位姿估計任務(wù)的同時，也能更好地感知圖像中的相關(guān)信息。

表4 在ScanNet196數(shù)據(jù)集上的室內(nèi)位姿估計結(jié)果

5 結(jié)論

本文對現(xiàn)有的圖像匹配算法展開了研究，針對在匹配融合階段引入Transformer 帶來的計算復(fù)雜度高這一問題，設(shè)計了面向計算機視覺任務(wù)的基于排名優(yōu)化的自-互注意力機制AttentionRanker。該算法通過對位置編碼后的一維輸入特征圖進行重塑形，利用類空間注意力機制挑選少量活躍像素點，成功地將點積注意力的時間復(fù)雜度從二次降為近線性。實驗結(jié)果表明，采用了AttentionRanker 稀疏方法的網(wǎng)絡(luò)在前向推理時耗時比基準網(wǎng)絡(luò)快18ms，且其Pose estimation AUC@5°/10°/20°相較于Linear Transformer 方法分別提升了0.72%、2.42%、1.39%。