李大湘,辛嘉妮,劉 穎
(西安郵電大學(xué) 通信與信息工程學(xué)院,陜西 西安 710121)
隨著飛行器與通信技術(shù)的快速發(fā)展,無人機(jī)作為一種新型的拍攝工具,憑借獨(dú)特的拍攝視角,以及攜帶方便與成本低的特點(diǎn),在民用和軍事方面得到了廣泛的應(yīng)用[1]。面向無人機(jī)航拍影像,為了提高用戶對航拍內(nèi)容的觀看效率,基于機(jī)器學(xué)習(xí)技術(shù)設(shè)計(jì)無人機(jī)航拍圖像目標(biāo)檢測算法已經(jīng)成為當(dāng)今計(jì)算視覺領(lǐng)域中的一個(gè)新興研究分支[2]。
近年來,深度學(xué)習(xí)作為無人機(jī)航拍圖像目標(biāo)檢測的主流方法,根據(jù)是否使用錨框相關(guān)算法可分為兩大類。基于錨框(Anchor-based)的代表性算法有Faster R-CNN[3],Cascade R-CNN[4],SSD[5]與YOLOv4[6]等。針對航拍圖像目標(biāo)檢測的應(yīng)用需求,Yang 等[7]提出了用于小目標(biāo)檢測的QueryDet 網(wǎng)絡(luò),設(shè)計(jì)了一種簡單有效的級聯(lián)稀疏查詢機(jī)制,有效地利用航拍圖像高分辨率特征,提高對小目標(biāo)的檢測性能。Li 等[8]提出了一種Oriented RepPoints 空中目標(biāo)檢測方法,通過引入靈活的自適應(yīng)點(diǎn),能夠捕捉任意方向?qū)嵗膸缀涡畔?。Liang 等[9]提出了一個(gè)稱之為DEA-Net 的動(dòng)態(tài)錨點(diǎn)增強(qiáng)網(wǎng)絡(luò),該網(wǎng)絡(luò)實(shí)現(xiàn)了基于錨的單元和無錨單元之間的交互式樣本篩選,以生成合格樣本,提高檢測小目標(biāo)的性能。這類基于錨框的方法雖然在航拍圖像目標(biāo)檢測中取得了較好的性能,但在檢測過程中要依賴于人工預(yù)先設(shè)置的錨框信息,不僅會(huì)增加模型超參的數(shù)量(如:錨框的數(shù)量、尺寸與高寬比等),還會(huì)增大參數(shù)調(diào)試的復(fù)雜性,即無法通過反向傳播進(jìn)行端到端訓(xùn)練,通常需要人為仔細(xì)地調(diào)整錨框參數(shù)才能獲得最佳的檢測性能。
在無錨框方法的研究上,Law 等[10]提出的CornerNet 算法先預(yù)測目標(biāo)左上角和右下角點(diǎn),再對角點(diǎn)分類組合形成檢測框。Tian 等[11]提出的FCOS 算法針對每個(gè)圖像像素進(jìn)行預(yù)測,得到該像素到檢測框的4 個(gè)邊框的距離,最終輸出整體目標(biāo)的檢測框。Dai 等[12]提出了ACE 空中旋轉(zhuǎn)目標(biāo)檢測方法,使用四邊形邊界框來定位任意方向?qū)ο蠛蛣?dòng)態(tài)采樣方法,有助于關(guān)鍵點(diǎn)的準(zhǔn)確定位。除了這些方法之外,近兩年來,由于Transformer 在計(jì)算機(jī)視覺領(lǐng)域的廣泛應(yīng)用,Carion 等[13]將它整合到目標(biāo)檢測基線中,設(shè)計(jì)了一種DETR 的目標(biāo)檢測算法,該算法不需要任何的人工干預(yù),可以用端到端的方式進(jìn)行訓(xùn)練。Zhu等[14]提出了一種Deformable DETR 的目標(biāo)檢測算法,設(shè)計(jì)了可變形注意力模塊,該模塊只注意參考點(diǎn)周圍的某些采樣點(diǎn),減少了計(jì)算量。Li等[15]通過引入帶有噪聲的真實(shí)邊界框作為查詢向量,通過去噪技術(shù)解決二分圖匹配的不穩(wěn)定性問題,加速模型訓(xùn)練?;赥ransformer 的方法框架簡潔,不用手工設(shè)置錨框及非極大值抑制(Non-Maximum Suppression,NMS),泛化能力強(qiáng),建模圖像的全局依賴關(guān)系,有效利用上下文信息,減少由于錨框設(shè)置不合理導(dǎo)致的問題,但需要一些特殊的損失函數(shù)提高算法穩(wěn)定性,小目標(biāo)的檢測性能相對較差。
綜上所述,Transformer 框架下的DETR 雖然具有思想簡潔、結(jié)構(gòu)清晰與無NMS 操作等優(yōu)點(diǎn),但因無人機(jī)拍攝距離過遠(yuǎn),小目標(biāo)過多,現(xiàn)有模型很難取得理想的檢測效果。所以,本文設(shè)計(jì)了一種位置敏感Transformer 目標(biāo)檢測(Position Sensitive Transformer Object Detection,PSTOD)模型。該模型在DETR 的基礎(chǔ)上,設(shè)計(jì)了一個(gè)基于位置通道嵌入三維注意力(Position Channel Embedding 3D Attention,PCE3DA)的多尺度特征融合(Multi-Scale Feature Fusion,MSFF)模塊,且將該模塊連接在骨干網(wǎng)絡(luò)和Transformer 之間,讓網(wǎng)絡(luò)更好地獲取具有多層級上下文信息的特征,以增強(qiáng)模型對小目標(biāo)的檢測能力;此外,設(shè)計(jì)了位置敏感自注意力(Position Sensitive Self-Attention,PSSA)機(jī)制,用它替代原模型中的自注意力(Self Attention,SA),即使用可學(xué)習(xí)的相對位置敏感編碼信息,幫助Transformer 模型中的編-解器獲得更準(zhǔn)確的目標(biāo)位置信息,以提高無人機(jī)航拍圖像目標(biāo)的定位能力及檢測精度。
圖1 是本文設(shè)計(jì)的PS-TOD 模型示意圖,它主要由CNN 主干網(wǎng)絡(luò)、MSFF 模塊、位置敏感Transformer 編-解碼器與集合匹配預(yù)測模塊4 個(gè)組件構(gòu)成。對于待檢測圖像,首先使用CNN 主干網(wǎng)絡(luò)與MSFF 模塊,獲得圖像的跨層融合多尺度特征;然后,采用帶有PSSA 機(jī)制的Transformer 編碼器,對圖像的多尺度特征連同其相對位置信息一起進(jìn)行學(xué)習(xí),獲得圖像的位置敏感編碼特征;其次,在Transformer 解碼器中再通過多頭SA 及交叉注意力將對象查詢向量轉(zhuǎn)換為解碼輸出;最后,利用兩個(gè)不同的FFN 對解碼器輸出的每個(gè)特征進(jìn)行預(yù)測,分別得到它們所對應(yīng)的框坐標(biāo)和類標(biāo)簽,以獲得最終的目標(biāo)預(yù)測集合。
小目標(biāo)數(shù)量多作為無人機(jī)航拍圖像目標(biāo)檢測的主要挑戰(zhàn)。DETR 算法[13]因只使用ResNet最后一個(gè)卷積模塊conv5_x 的輸出作為特征表示,即特征圖譜經(jīng)32 倍下采樣后,導(dǎo)致原圖中的小目標(biāo)消失在特征圖中從而造成漏檢。所以,本文設(shè)計(jì)了PCE3DA,且基于它構(gòu)造了一個(gè)自底向上的跨層MSFF 模塊,在提高小目標(biāo)檢測精度的同時(shí)還可兼顧整個(gè)算法對多尺度目標(biāo)的檢測能力。
設(shè)IMG 表示任意一幅訓(xùn)練圖像,將它送入主干網(wǎng)絡(luò)ResNet-50,conv3_x,conv4_x 與conv5_x輸出的特征圖譜分別記作F3,F(xiàn)4與F5,且使用1×1 卷積將它們的通道數(shù)均調(diào)整為256,分別記為。為了將它們的信息融合起來而得到圖像的多尺度特征表示,設(shè)計(jì)了一個(gè)自下而上的跨層特征融合方案,即圖1 中的MSFF模塊。
2.2.1 多尺度特征融合
圖2 PCE3DA 跨層特征圖譜融合方案示意圖Fig.2 Fusion scheme of PCE3DA cross layer feature map
將融合后的Fa通過設(shè)計(jì)的PCE3DA 進(jìn)行加權(quán)得到加權(quán)特征,即:
為了保留特征的初始信息,使用殘差連接將自適應(yīng)增強(qiáng)的特征與其原始特征分別相加。因此,獲得增強(qiáng)特征,分別為:
最后,分別通過3×3 卷積層后再進(jìn)行特征相加融合,獲得跨層融合特征,即:
2.2.2 PCE3DA 原理
為了更好地提取無人機(jī)圖像的特征信息,傳統(tǒng)方法是分別對特征圖譜實(shí)施空間與通道注意力,這類方法導(dǎo)致參數(shù)與計(jì)算量大,且不能同時(shí)考慮空間維度和通道維度之間的相互關(guān)系,導(dǎo)致空間和通道信息相互孤立。如圖3 所示,在坐標(biāo)注意力[16]的啟發(fā)下設(shè)計(jì)了PCE3DA,式(2)中采用PCE3DA 進(jìn)行注意力加權(quán),即:將空間位置信息嵌入到通道注意力中,這樣可以同時(shí)利用空間和通道維度的相互依賴信息,得到三維注意力權(quán)值,用于加強(qiáng)感興趣區(qū)域的特征表示,以幫助模型聚焦有助于目標(biāo)精準(zhǔn)定位的局部細(xì)節(jié)信息。
圖3 位置通道嵌入三維注意力流程Fig.3 Flow chart of position channel embedding 3D attention
設(shè)F∈RC×H×W表示任意輸入PCE3DA 的特征圖譜,其中C,H與W分別表示F的通道數(shù)、高度與寬度。首先,使用一個(gè)X軸的1×1 卷積對F中的數(shù)據(jù)沿水平方向進(jìn)行聚合,在捕獲X軸長距離依賴關(guān)系的同時(shí),也可以保留垂直方向的位置信息,該過程可表示為:
其中zX∈RC×H×1表示卷積結(jié)果。然后,將zX送入1×1 卷積,且經(jīng)過歸一化與激活函數(shù)處理,得到:
其中:σ表示Swish 非線性激活函數(shù),BN()表示批量歸一化,fX∈RC/r×H×1表示垂直方向上對空間信息進(jìn)行編碼的中間特征圖。這里,r表示壓縮通道比例(實(shí)驗(yàn)中r=4);隨后,利用另外一個(gè)1×1 卷積,將fX變換并與輸入特征圖F的通道數(shù)相同,記為:
其中g(shù)X∈RC×H×1表示通道擴(kuò)充結(jié)果。
同理,采用另一個(gè)Y軸的1×1 卷積對F中的數(shù)據(jù)沿垂直方向進(jìn)行聚合,在捕獲Y軸長距離依賴關(guān)系的同時(shí),也可以保留水平方向的位置信息,該過程可表示為:
綜上所述,將gX與gY作廣播機(jī)制加法⊕,再經(jīng)Sigmoid 函數(shù)處理之后,記為:
其中β∈RC×H×W,表示三維注意力權(quán)值。最后,將權(quán)值β與輸入F點(diǎn)乘?,從而得到經(jīng)PCE3DA加權(quán)之后特征,記為:
對于目標(biāo)檢測任務(wù),位置信息極為重要。在DETR 算法中,采用絕對位置編碼感知圖像的全局上下文信息,但在目標(biāo)檢測中圖像的分辨率通常很高,目標(biāo)特征更多依賴圖像的局部信息。因此,本文設(shè)計(jì)了一種PSSA 機(jī)制,且以此構(gòu)造位置敏感Transformer 編-解碼器,以提高模型對位置信息的敏感能力,從而提升目標(biāo)檢測精度。
2.3.1 PSSA 機(jī)制
為了利用每個(gè)元素在序列中的位置信息,提高它在計(jì)算機(jī)視覺任務(wù)中的表達(dá)能力,傳統(tǒng)的做法是將絕對位置編碼AP=[p1;p2;…;pN]嵌入到序列X的每個(gè)元素xi(如ViT[17])中,即:
其中pi∈Rdx表示第i個(gè)元素的絕對位置編碼向量,通常可采用正余弦函數(shù)計(jì)算得到[17]。最后,絕對位置編碼SA 可表示為:
在目標(biāo)檢測任務(wù)中,像素之間的相對位置信息對于提高模型對目標(biāo)的定位能力尤其重要。如圖4 所示,這里利用序列各元素之間的相對位置信息,設(shè)計(jì)了一種PSSA 機(jī)制,即通過嵌入可學(xué)習(xí)的相對位置編碼向量到SA 機(jī)制中,利用圖像中各特征之間的相對位置關(guān)系,提高模型的位置敏感能力,從而實(shí)現(xiàn)目標(biāo)的精確定位。
圖4 位置敏感自注意力機(jī)制Fig.4 Position sensitive self-attention mechanism
設(shè)Fms∈RC×H×W表示經(jīng)MSFF 模塊得到的多尺度特征圖譜,其中C,H與W分別表示通道數(shù)、高度與寬度。首先,對Fms中每個(gè)位置(h,w)沿通道維度的C個(gè)數(shù)據(jù)抽取出來,由此可將Fms轉(zhuǎn)化成一個(gè)由N(這里N=W×H)個(gè)元素組成序列,記為S={sn(h,w)|n=1,2,…,N},其中sn(h,w)∈R1×C表示第n個(gè)元素,h∈[1,H]與w∈[1,W]分別表示它在Fms中對應(yīng)的空間位置坐標(biāo);然后,為了建模sn(h,w)相對于S中任意其他元素sm(h,w)之間的相對位置關(guān)系,定義一個(gè)索引函數(shù)E(n,m)與3 個(gè)相對位置編碼向量,記為:
綜上所述,在輸入序列S中,根據(jù)兩個(gè)元素sn(h,w)與sm(h,w)之間的城區(qū)距離,為了學(xué)習(xí)它們之間的相對位置依賴關(guān)系,需額外考慮3 個(gè)與位置相關(guān)的向量,即在Query,Key 與Value 上分別加入相對位置編碼構(gòu)成PSSA,記為:
其中:WQ,WK,WV∈RC×C'分別表示與Q,K,V相對應(yīng)的且可學(xué)習(xí)的變換矩陣。C與C'分別表示輸入、輸出特征的維度,則對于S中的任意一個(gè)元素sn(h,w)∈R1×C,其PSSA 編碼過程可表示為:
其中:zn∈R1×C'表示PSSA 編碼輸出,ωnm表示使用縮放點(diǎn)積與SoftMax 計(jì)算的歸一化權(quán)重[18]。
2.3.2 位置敏感Transformer 編-解碼器
基于PSSA 機(jī)制,在DETR 算法[13]的啟發(fā)下,設(shè)計(jì)的位置敏感Transformer 編-解器如圖5所示,它主要由編碼器與解碼器兩部分組成。為了使模型在性能與參數(shù)量之間得到一個(gè)很好的平衡,如圖5 左側(cè)所示,編碼器由6 個(gè)相同的層構(gòu)成,且每個(gè)層主要由多頭PSSA 與MLP 組成。對于輸入序列S,將其寫成矩陣形式S0∈RN×C,記為:
圖5 編-解碼器結(jié)構(gòu)Fig.5 Encoder-decoder structure
編碼器重構(gòu)特征的過程可表示為:
其中:LN(),MLP()與mhPSSA()分別表示層歸一化、多層感知機(jī)與多頭PSSA 等操作,Y∈RN×C表示第6 層編碼器的輸出,即對序列S的最終編碼結(jié)果。mhPSSA 作為PSSA 的擴(kuò)展,即并行地運(yùn)行K個(gè)不同的PSSA 操作,每個(gè)注意力頭將分別關(guān)注輸入信息的不同部分,并將它們的輸出串聯(lián)起來作為最終的編碼結(jié)果:
為了使S經(jīng)mhPSSA 編碼之后,其輸入S與輸出Y保持相同的維度,每個(gè)PSSA 輸出的維度C'設(shè)置為輸入元素維度的K分之一,即。為了與DERT 模型進(jìn)行公平比較,本文模型中的C也與其一樣也設(shè)置為256,且為了保證K能整除C,K只能取2,4,8,16 等整數(shù)。隨著注意力頭數(shù)的增加,模型計(jì)算復(fù)雜度會(huì)增加,所以本文后續(xù)實(shí)驗(yàn)中K取4,一則可以在計(jì)算效率和性能之間達(dá)到折中;二則由于設(shè)計(jì)的模型面向無人機(jī)航拍圖像目標(biāo)檢測,mhPSSA 機(jī)制中的每個(gè)頭將從不同的角度感知目標(biāo)的不同部分。這些目標(biāo)按4 個(gè)角度觀察也可滿足要求,例如車的車頭和車尾、人體的頭部和身體等,mhPSSA將從4 個(gè)角度感知這些目標(biāo),且捕捉它們之間的語義關(guān)系而提取圖像的全局特征,從而能夠提高目標(biāo)檢測的準(zhǔn)確率。
MLP 包括兩個(gè)FC 層,F(xiàn)C1 層將輸入擴(kuò)大為原來的4 倍,由于殘差連接的存在,F(xiàn)C2 輸出層再恢復(fù)原始維度,相應(yīng)的計(jì)算過程為:
其中:W1表示將特征從256 維投影到1 024 維的變換矩陣,W2表示從1 024 維投影回256 維變換矩陣,b1與b2均表示偏置向量。
如圖5 右側(cè)所示,解碼器類似于Transformer的標(biāo)準(zhǔn)結(jié)構(gòu),由6 個(gè)完全相同的層構(gòu)成,每個(gè)層主要由多頭SA、多頭交叉SA 與MLP 組成。設(shè)B0=[b1;b2;…;bM]表示由M個(gè)元素組成的目標(biāo)查詢(object query)序列,其中bi∈R1×C表示B中的第i個(gè)元素,對應(yīng)的是圖像中第i個(gè)預(yù)測目標(biāo)的特征向量。編碼器的第一個(gè)階段是先采用多頭SA 對進(jìn)行編碼,然后,將輸出與編碼器的輸出Y相結(jié)合,再采用多頭交叉SA 進(jìn)行編碼;最后,經(jīng)類似于編碼器的MLP 處理,得到最終的解碼特征。該過程描述為:
其中mhCSA()表示由K個(gè)交叉自注意力CSA()組成的多頭交叉自注意力,即:
對于目標(biāo)查詢序列B0=[b1;b2;…;bM],經(jīng)解碼器輸出得到,再將它們輸入兩個(gè)不同的FFN,以分別預(yù)測每個(gè)解碼特征所對應(yīng)目標(biāo)的類別標(biāo)簽與邊框,得到預(yù)測結(jié)果記為,相應(yīng)訓(xùn)練圖像所有真實(shí)目標(biāo)的類別clsi與邊框boxi的Ground Truth集合記為,實(shí)驗(yàn)中M設(shè)置為200,通常遠(yuǎn)遠(yuǎn)大于圖像中真實(shí)目標(biāo)的數(shù)量J。在Transformer 這種端到端的目標(biāo)檢測框架中,因不需要NMS 后處理,訓(xùn)練時(shí)就得在U與二個(gè)集合之間尋找最佳匹配[13]。為了便于用匈牙利算法[19]在集合U與中找到最佳匹配,首先,將集合U填充M-J個(gè)?(表示無目標(biāo)),使它與元素?cái)?shù)量相等,對于U中的每個(gè)ui=(clsi,boxi),其中clsi是目標(biāo)類標(biāo)簽(可能是?),boxi∈[0,1]4是其相對于圖像尺寸的中心坐標(biāo)及高度與寬度;然后,要在集合U與之間尋找最佳匹配,就是要尋找中M個(gè)元素的最佳置換σ∈ξM,使式(25)所示的匹配損失最小,即:
其中αt與γ為超參數(shù),分別表示第clsi類的權(quán)重與衰減參數(shù),αt=0.25,γ=2。
為了驗(yàn)證本文提出的PS-TOD 模型的有效性,本文使用公開的VisDrone 數(shù)據(jù)集[20]進(jìn)行對比實(shí)驗(yàn)。該數(shù)據(jù)集由天津大學(xué)AISKYEYE 團(tuán)隊(duì)使用無人機(jī)在不同條件下低空拍攝獲得,包含1 360×765 和960×540 像素兩種圖像尺寸,涵蓋各種天氣和光照條件下日常生活中的各種場景,其中訓(xùn)練集6 471 張圖像、測試集3 190 張圖像和驗(yàn)證集548 張圖像。數(shù)據(jù)集的圖像中包括行人、人、汽車、公交車、自行車、卡車、三輪車、雨棚三輪車、面包車以及摩托車等十類目標(biāo)。
本文采用COCO 數(shù)據(jù)集中的評價(jià)指標(biāo)來評價(jià)模型性能[23],主要比較AP,AP50,AP75,APS,APM與APL,其中AP 表示在0.5 至0.95 步長0.05 共10 個(gè)交并比閾值下的平均檢測精度的平均值,AP50與AP75分別表示交并比閾值為0.5 和0.75 時(shí)的平均檢測精度,APS,APM與APL分別表示對測試集中的小目標(biāo)(像素?cái)?shù)量<322)、中等目標(biāo)(322<像素?cái)?shù)量<962)與大目標(biāo)(像素?cái)?shù)量>962)的平均檢測精度。實(shí)驗(yàn)平臺(tái)采用Ubuntu18.04 操作系統(tǒng),GPU 為NVIDIA TITANX×4,CPU 為Intel(R)Core(TM)Xeon E5-2640,內(nèi)存為128 GB,編程語言為Python3.8,torch 版本為1.7.0。模型訓(xùn)練過程中使用AdamW 優(yōu)化器來優(yōu)化模型,批大?。˙atch_size)為16,初始學(xué)習(xí)率為2×10-4,權(quán)值衰減為1×10-4,整個(gè)模型訓(xùn)練500 個(gè)Epoch,為了加快訓(xùn)練收斂速度,在初始訓(xùn)練時(shí)使用官方提供的Transformer 預(yù)訓(xùn)練模型。所有實(shí)驗(yàn)均以VisDrone 的訓(xùn)練集與驗(yàn)證集來完成模型的訓(xùn)練,然后對測試集中的所有圖像進(jìn)行目標(biāo)檢測,統(tǒng)計(jì)相應(yīng)評價(jià)指標(biāo)。
3.2.1 模塊消融實(shí)驗(yàn)
為了驗(yàn)證PS-TOD 模型中兩個(gè)關(guān)鍵模塊(即基于PCE3DA 的MSFF 模塊與基于PSSA 的Transformer 編-解碼模塊)以及修改損失函數(shù)在無人機(jī)航拍圖像目標(biāo)檢測中的有效性,基于Vis-Drone 數(shù)據(jù)集進(jìn)行了消融實(shí)驗(yàn),且在相同實(shí)驗(yàn)條件下,再與基線模型DETR[13]進(jìn)行對比,消融實(shí)驗(yàn)結(jié)果如表1 所示。其中“Param”表示模型的參數(shù)量,單位取“兆(M)”,即當(dāng)不同模塊被嵌入到“基線”模型之后,以對比改進(jìn)模型參數(shù)量的變化。
表1 VisDrone 測試集上的消融實(shí)驗(yàn)結(jié)果Tab.1 Ablation experiment results on VisDrone test set(%)
由表1 實(shí)驗(yàn)結(jié)果可見,在基線模型的基礎(chǔ)上,分別只應(yīng)用MSFF,PSSA 的Transformer 編-解碼或修改損失函數(shù)等部件,其AP 分別提高了1.7%,1.1%或1.3%,這說明本文所設(shè)計(jì)的兩個(gè)模塊與修改損失函數(shù)在無人機(jī)圖像目標(biāo)檢測任務(wù)中是有效的;若同時(shí)使用其中任意二個(gè)模塊,較之只使用一個(gè)模塊檢測精度可得到進(jìn)一步提高,當(dāng)同時(shí)使用三個(gè)部件時(shí),AP 達(dá)到最高28.8%。通過對各類目標(biāo)的檢測結(jié)果分析可知,MSFF 模塊通過類似于殘差連接的方式進(jìn)行多尺度特征融合,且在PCE3DA 的驅(qū)動(dòng)下,模型在具備多尺度特征提取能力的基礎(chǔ)上,還可更好地保留小目標(biāo)的特征信息;設(shè)計(jì)的PSSA 機(jī)制,較之原始的自注意力更能獲取像素之間的相對位置關(guān)系,在位置敏感的作用下,模型可以更好地關(guān)注圖像中的重點(diǎn)區(qū)域,并且在修改損失函數(shù)的約束下,不僅緩解了數(shù)據(jù)集類別以及正負(fù)樣本不平衡帶來的問題,同時(shí)使損失函數(shù)更加關(guān)注邊界框的位置,更能優(yōu)化模型的訓(xùn)練而提高無人機(jī)圖像中目標(biāo)的檢測精度。雖然設(shè)計(jì)的模塊可提高目標(biāo)檢測精度,但是會(huì)帶來參數(shù)量的增加,例如:當(dāng)MSFF 或PSSA 模塊分別被引入之后,較之“基線”模型,會(huì)帶來2.4M 或3.3M 參數(shù)量的增加,同時(shí)引入MSFF 與PSSA 模塊時(shí),模型參數(shù)量達(dá)到42.51M。
3.2.2 PCE3DA 機(jī)制消融實(shí)驗(yàn)
為了驗(yàn)證設(shè)計(jì)的PCE3DA 機(jī)制在MSFF 模塊中的有效性,設(shè)計(jì)了7 組消融實(shí)驗(yàn),即在A 組(Baseline DETR[13)的基礎(chǔ)上,B,C,D,E 與F 組分別表示基于-SE(SENet[24]的SE 通道注意力),-SA(BAM[25]的空間注意力),-CA(文獻(xiàn)[16]的坐標(biāo)注意力),-CBAM(文獻(xiàn)[26]的通道和空間注意力)與-PCE3DA(本文設(shè)計(jì)的)等5 種不同的注意力機(jī)制,對骨干網(wǎng)絡(luò)的最后一層特征圖譜進(jìn)行注意力加權(quán);G 組表示在F 組的基礎(chǔ)上還采用MSFF 進(jìn)行多尺度特征融合,再結(jié)合Baseline 模型中編-解碼器與檢測頭。消融實(shí)驗(yàn)結(jié)果如表2所示。
表2 不同注意力機(jī)制及使用多尺度特征的實(shí)驗(yàn)結(jié)果Tab.2 Experimental results for different attention mechanisms and using multi-scale features(%)
由表2 可知,骨干網(wǎng)絡(luò)的特征圖譜只要經(jīng)注意力加權(quán)之后,不同尺寸目標(biāo)的檢測精度均可得到提高,且空間注意力要優(yōu)于通道注意力??傮w上,本文設(shè)計(jì)的PCE3DA(即F 組)優(yōu)于其他4 種注意力,并且經(jīng)MSFF 模塊對多層級特征圖譜進(jìn)行融合,檢測效果達(dá)到最優(yōu)(即G 組)。這主要得益于PCE3DA 能將特征更好地聚焦在感興趣區(qū)域,抑制無關(guān)信息,同時(shí)增強(qiáng)了特征表達(dá)與空間位置結(jié)構(gòu)信息,融合后的特征圖具有更豐富的語義信息和幾何細(xì)節(jié)信息。
3.2.3 PSSA 機(jī)制消融實(shí)驗(yàn)
在Transformer 編-解碼中,為了驗(yàn)證設(shè)計(jì)的PSSA 機(jī)制的性能,與文獻(xiàn)[27]及[28]計(jì)算相對位置編碼的方法進(jìn)行了消融實(shí)驗(yàn),實(shí)驗(yàn)結(jié)果如表3 所示??梢钥闯?,在計(jì)算注意力得分時(shí)考慮兩個(gè)元素之間的相對位置,即引入相對位置編碼是必要的。本文所提相對位置計(jì)算方法最大程度提升了模型的AP 值,其主要原因是PSSA 通過定義的索引函數(shù)映射相對位置,使得到的相對位置編碼信息更加準(zhǔn)確,模型能夠獲得一定的平移不變性,更加符合目標(biāo)檢測任務(wù)的需求。
表3 不同相對位置計(jì)算方法的實(shí)驗(yàn)結(jié)果Tab.3 Experimental results of different relative position calculation methods(%)
為了進(jìn)一步驗(yàn)證本文提出的PS-TOD 模型在無人機(jī)航拍圖像目標(biāo)檢測任務(wù)中的性能,在VisDrone 數(shù)據(jù)集上與經(jīng)典及先進(jìn)的目標(biāo)檢測模型進(jìn)行實(shí)驗(yàn)對比,包括Cascade R-CNN[4]、YOLOv8[32]與PVTv2[33]等方法。為了對比的公平性,每種算法除了其專門參數(shù)沿用原文之外,學(xué)習(xí)率、批大小與Epoches 等超參設(shè)置均與3.1 節(jié)相同,實(shí)驗(yàn)結(jié)果如表4 所示。
表4 不同算法在VisDrone 測試集上的性能對比Tab.4 Performance comparison of different algorithms on VisDrone test set(%)
根據(jù)表4 的數(shù)據(jù),本文設(shè)計(jì)的PS-TOD 模型在無人機(jī)航拍圖像目標(biāo)檢測中表現(xiàn)良好,其AP50,AP75與AP 值分別達(dá)到了51.8%,28.3%與28.8%。與YOLOv8(速度最快)相比,雖然FPS有所下降,但YOLOv8 識(shí)別物體位置的精準(zhǔn)性差,而PS-TOD 的檢測精度獲得了2.3% 的提升;與具有相近檢測精度的QueryDet 模型相比,PS-TOD 的準(zhǔn)確率AP 和檢測速度FPS 都高于該模型。但AP75較之低了0.5,原因是AP75指標(biāo)對于目標(biāo)檢測框的重合率要求更高,PS-TOD 模型作為一種無錨框引導(dǎo)的檢測方法,在目標(biāo)定位精確方面可能稍弱于專門針對小目標(biāo)優(yōu)化的QueryDet 模型,但與其他模型相比,PS-TOD 在AP75方面仍然具有明顯的優(yōu)勢,即PS-TOD 能較好地平衡檢測精度與檢測速度。綜上所述,通過對比實(shí)驗(yàn)結(jié)果可知,在設(shè)計(jì)的PS-TOD 模型中,首先基于PCE3DA 機(jī)制構(gòu)造自底向上的跨層MSFF 模塊,可讓網(wǎng)絡(luò)更好地獲取圖像的上下文多尺度特征,在提高小目標(biāo)檢測精度的同時(shí),還可兼顧多尺度目標(biāo)的檢測能力;然后,基于PSSA 機(jī)制設(shè)計(jì)的Transformer 編碼器,可使用像素之間的相對位置信息,增強(qiáng)模型的位置敏感能力,提高了無人機(jī)航拍圖像目標(biāo)的定位能力及檢測精度。
為了觀察PS-TOD 模型在無人機(jī)航拍圖像目標(biāo)檢測中的具體表現(xiàn),圖6 為可視化VisDrone測試集中各種情況下具有代表性的圖像檢測結(jié)果??梢钥闯?,本文模型在光照變化、復(fù)雜背景、高空拍攝視角、目標(biāo)稀疏、目標(biāo)密集與運(yùn)動(dòng)模糊等6 種不同的環(huán)境下,均能夠檢測出大多數(shù)的目標(biāo),說明設(shè)計(jì)的PS-TOD 模型對無人航拍機(jī)圖像在各種情況下都具有非常優(yōu)秀的檢測能力,足以應(yīng)對生活中發(fā)生的各類實(shí)際情況。
圖6 PS-TOD 在VisDrone 測試集上的部分檢測結(jié)果Fig.6 Partial detection results of PS-TOD on VisDrone test set
除此之外,為了進(jìn)一步觀察PS-TOD 對每類目標(biāo)的檢測性能,分別統(tǒng)計(jì)了它與基線模型DETR[13]對VisDrone 測試集中每類目標(biāo)的具體檢測性能,如表5 所示。對比結(jié)果表明,PS-TOD 總體上改善了單類目標(biāo)的平均檢測精度,尤其是對于小目標(biāo),提升效果非常明顯。在小目標(biāo)比例較多的行人、人、自行車與摩托車這四類目標(biāo)中,相較于基線模型檢測精度分別提升了4.2%,3.7%,2.6%與3.5%;另外,在目標(biāo)尺寸相對較大的類別(如汽車類和卡車類)中同樣也有明顯優(yōu)勢,如汽車類別別的AP 高達(dá)64.3%。綜合各種尺寸目標(biāo)的檢測效果,充分驗(yàn)證了本文提出的PS-TOD模型在提高小目標(biāo)檢測精度的同時(shí),還可兼顧其他尺度的目標(biāo)檢測能力。
表5 VisDrone 測試集中不同類別實(shí)驗(yàn)結(jié)果Tab.5 Experimental results of different categories on VisDrone test set(%)
為了更深入觀察基線DETR[13]模型與PSTOD 在小目標(biāo)檢測中的性能優(yōu)劣,在VisDrone測試集中選取小目標(biāo)存在的夜晚和白天等兩種場景,如圖7 所示,可視化得到4 組檢測效果的對比圖。通過對比圖7(a)與圖7(e)、圖7(b)與圖7(f),在夜間較低照明的狀態(tài)下,基線模型由于背景噪聲信號的影響漏檢了圖7(a)中站立在高架橋上的行人與圖7(b)中大量行人,而PS-TOD通過注意力機(jī)制,減少背景影響、增加感興趣目標(biāo)的特征信息,成功檢測到基線漏檢的行人;對比圖7(c)與圖7(g)、圖7(d)與圖7(h)可以發(fā)現(xiàn),基線模型漏檢了圖7(c)大量遠(yuǎn)處的人及汽車與圖7(d)中路口處的人及行人等小目標(biāo),而PSTOD 通過融合多尺度信息與添加位置信息,使得模型得到更好的目標(biāo)特征信息,強(qiáng)化模型對小目標(biāo)的定位能力,可精確檢測部分漏檢的小目標(biāo)??傊?,PS-TOD 相對于基線模型具有更為優(yōu)越的檢測性能,尤其針對較小尺寸目標(biāo)具有更強(qiáng)的檢測辨別能力,有效降低小目標(biāo)漏檢與誤檢的概率。
圖7 小目標(biāo)檢測效果對比Fig.7 Comparison of small object detection result
針對無人機(jī)航拍圖像小目標(biāo)多且檢測困難的問題,本文在Transformer 框架下提出了一個(gè)PS-TOD 模型。首先,設(shè)計(jì)了基于PCE3DA 的多尺度特征融合模塊,即通過融合不同層級的特征圖譜,有效地利用它們在空間與通道二個(gè)維度中的上下文信息,以增加骨干網(wǎng)絡(luò)的多尺度特征提取能力;然后,結(jié)合相對位置編碼,設(shè)計(jì)了PSSA機(jī)制,且以此構(gòu)造了一個(gè)Transformer 編-解碼器,以幫助模型在捕獲圖像全局上下文信息的長期依賴關(guān)系時(shí),也可提高模型對位置信息的敏感能力,從而提升模型對小目標(biāo)的檢測精度?;赩isDrone 數(shù)據(jù)集的實(shí)驗(yàn)結(jié)果表明,所提PS-TOD作為一種端到端的目標(biāo)檢測模型,其檢測過程不需要事先錨框設(shè)置與事后NMS 處理,在復(fù)雜背景下能精確地對無人機(jī)航拍圖像進(jìn)行目標(biāo)檢測,且有效地改善了小目標(biāo)的檢測效果。在后續(xù)工作中,除了進(jìn)一步優(yōu)化PSSA 機(jī)制,以降低模型的參數(shù)量,提高檢測速度之外,還需要將研究成果應(yīng)用到其他數(shù)據(jù)集中,進(jìn)一步驗(yàn)證所提模型的檢測精度與泛化能力。