亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于YOLOv5的無人機航拍改進目標檢測算法Dy-YOLO

        2024-01-15 08:41:02楊秀娟曾智勇
        關(guān)鍵詞:特征檢測方法

        楊秀娟,曾智勇

        (福建師范大學(xué)計算機與網(wǎng)絡(luò)空間安全學(xué)院,福建 福州 350117)

        近年來,計算機視覺技術(shù)發(fā)展迅猛,目標檢測是計算機視覺中一個基本而重要的問題,主要用于對圖像中的物體類別進行標識。隨著深度學(xué)習(xí)技術(shù)的發(fā)展,配備遙感目標檢測技術(shù)的無人機在城市監(jiān)控、農(nóng)業(yè)生產(chǎn)、人員救援、災(zāi)害管理等方面得到了廣泛的應(yīng)用。然而,無人機飛行高度的快速變化導(dǎo)致目標在圖像中的尺度變化劇烈。同時,無人機捕獲的圖像中通常存在高密度的物體,并且這些物體之間可能會發(fā)生遮擋,增加了目標識別和定位的難度。此外,無人機拍攝的圖像覆蓋面積較大,包含復(fù)雜的地理元素,可能導(dǎo)致捕獲的圖像存在令人困惑的背景干擾。因此,提高無人機航拍圖像中目標檢測的精度和準確性仍然是一個挑戰(zhàn)。

        針對如何解決這些問題,目前已經(jīng)有很多學(xué)者進行了大量的研究,例如在多尺度學(xué)習(xí)和特征融合方面,經(jīng)典的多尺度學(xué)習(xí)網(wǎng)絡(luò)結(jié)構(gòu)是特征金字塔結(jié)構(gòu)(feature pyramid network,F(xiàn)PN)[1],它通過自下而上的特征提取和特征融合,提高了網(wǎng)絡(luò)的表征能力,然而多尺度學(xué)習(xí)會增加模型的參數(shù)數(shù)量,導(dǎo)致推理速度下降;YOLO-Drone[2]提出一個包含一個空間金字塔池(spatial pyramid pooling,SPP)和3個空洞金字塔池化(atrous spatial pyramid pooling,ASPP)的復(fù)雜特征聚合模塊MSPP-FPN,改善了目標檢測頸部階段的特征聚合。有的學(xué)者則關(guān)注到小目標上下文信息整合不足的問題,例如Wang[3]等人提出了一個特征細化網(wǎng)絡(luò)(feature refinement network,F(xiàn)RNet),它學(xué)習(xí)不同上下文中每個特征的位級上下文感知特征表示。FRNet由2個關(guān)鍵組件組成:信息提取單元(information extraction unit,IEU)負責(zé)捕獲上下文信息和跨特征關(guān)系,以指導(dǎo)上下文感知特征細化;互補選擇門(complementary selection gate,CSGate)則自適應(yīng)地將IEU 中學(xué)習(xí)到的原始特征和互補特征與位級權(quán)重相結(jié)合。還有學(xué)者發(fā)現(xiàn)卷積神經(jīng)網(wǎng)絡(luò)結(jié)合Tramsfomer可以幫助提升檢測效果,例如TPH-YOLOv5[4]將Transformer預(yù)測頭(transformer prediction heads,TPH)引入到Y(jié)OLOv5以提高網(wǎng)絡(luò)的預(yù)測回歸能力,同時使用自注意力機制提高對小目標的關(guān)注度。PETNet[5]則提出了一種先驗增強Transformer(prior enhanced transformer,PET)和一對多特征融合機制(one-to-many feature fusion,OMFF)來嵌入YOLO網(wǎng)絡(luò),2個額外的檢測頭被添加到淺層特征映射中,PET被用于捕獲增強的全局信息,以提高網(wǎng)絡(luò)的表達能力,OMFF旨在融合多種類型的特征,以最大限度地減少小對象的信息丟失;有的學(xué)者則針對無人機圖像中的遮擋問題提出改進方法,例如Li[6]等人提出了遮擋引導(dǎo)多任務(wù)網(wǎng)絡(luò)(occlusion-guided multi-task network,OGMN),其包含遮擋估計模塊(occlusion estimation module,OEM)來精確定位遮擋,用遮擋解耦頭來取代常規(guī)檢測頭,通過2個多任務(wù)交互實現(xiàn)遮擋引導(dǎo)檢測。Ye[7]等人為了解決被遮擋物體特征不連續(xù)的問題設(shè)計了一種高效的卷積多頭自注意力(convolutional multihead self-attention,CMHSA)算法,通過提取物體的上下文信息來提高被遮擋物體的識別能力。還有學(xué)者從預(yù)測框入手,例如提出一種歸一化高斯距離(normalized wasserstein distance,NWD)[8]的新度量,將邊界框建模為2D高斯分布,然后通過其對應(yīng)的高斯分布計算邊界框之間的相似性以解決小目標體位置偏差非常敏感的問題。文獻[9]提出了一種改進加權(quán)框融合BF(improved weighted boxes fusion,IWBF)的無人機目標檢測算法,通過用IWBF代替非極大值抑制(non-maximum suppression,NMS),可以充分利用預(yù)測盒信息,篩選出最優(yōu)融合盒,減少多尺度目標的漏檢和誤檢問題;還有學(xué)者從加快推理速度角度出發(fā),例如QueryDet[10]采用了一種查詢機制來加速目標檢測器的推理速度,利用低分辨率特征預(yù)測粗略定位以引導(dǎo)高分辨率特征進行更精確的預(yù)測回歸。受前人研究啟發(fā),本文則提出了一種基于YOLOv5的無人機場景的改進目標檢測算法,在模型方法與結(jié)構(gòu)上的貢獻如下:

        (1)在YOLOv5中引入SimOTA[11]動態(tài)標簽分配方法,有效緩解基于(intersection over union,IoU)的匹配策略對于小目標敏感的問題。

        (2)提出了一個基于YOLOv5改進的目標檢測模型Dy-YOLO,在預(yù)測頭(Head)前引入Dynamic Head[12]統(tǒng)一自注意力,從尺度、通道以及多任務(wù)3個角度提升了網(wǎng)絡(luò)的目標定位能力。在頸部(Neck)使用輕量級上采樣算子CARAFE[13],緩解最近鄰上采樣操作恢復(fù)細節(jié)信息能力較弱的問題,使特征重組時有較大的感受野聚合上下文信息,提升目標檢測效果的同時提高模型魯棒性。

        (3)在主干(Backbone)設(shè)計了C3-DCN結(jié)構(gòu)與Dynamic Head注意力結(jié)構(gòu)首尾呼應(yīng),利用可變形卷積實現(xiàn)了自適應(yīng)感受野和處理空間變形的能力,相互配合提高目標邊界的準確性以及增強模型的表達能力。

        1 相關(guān)工作

        1.1 YOLOv5介紹

        YOLOv5目標檢測模型有s,m,l,x 4種尺寸規(guī)格,其網(wǎng)絡(luò)結(jié)構(gòu)相同但是對應(yīng)不同的網(wǎng)絡(luò)深度與寬度,較小的尺寸可以減少模型的存儲需求和計算開銷,深層網(wǎng)絡(luò)則可提取更豐富特征。YOLOv5使用改進后的CSPDarknet53結(jié)構(gòu)和空間金字塔快速池化(spatial pyramid pooling-fast,SPPF)模塊作為主干網(wǎng)絡(luò),用于提取輸入圖像的特征;頸部是網(wǎng)絡(luò)銜接部分,主要用來獲取傳遞特征信息并進行融合。使用FPN-PAN結(jié)構(gòu),F(xiàn)PN結(jié)構(gòu)是自頂向下結(jié)構(gòu),通過上采樣和融合底層特征信息的方式得到預(yù)測特征圖,PAN(path aggregation network)采用自低向上結(jié)構(gòu)對FPN特征圖進行融合補充的特征金字塔網(wǎng)絡(luò)結(jié)構(gòu),以獲得更豐富的語義信息,以及使用YOLO傳統(tǒng)檢測頭用來預(yù)測目標的類別、位置和置信度。

        1.2 標簽分配方法

        目標檢測旨在從自然圖像中定位和識別感興趣的目標,它通常被稱為通過聯(lián)合優(yōu)化目標分類和定位的多任務(wù)學(xué)習(xí)問題。分類任務(wù)的目的是學(xué)習(xí)集中在目標的關(guān)鍵或顯著部分的判別特征,而定位任務(wù)的目的是精確定位整個目標及其邊界。由于分類和定位學(xué)習(xí)機制的差異,2個任務(wù)學(xué)習(xí)到的特征的空間分布可能不同,當(dāng)使用2個單獨的分支進行預(yù)測時,會導(dǎo)致一定程度的錯位。所以如何減少或者彌補分類與定位的信息差就顯得非常重要,前期的標簽分配策略大多是基于某種度量的手工分配策略,比如需要手動調(diào)整劃分正負樣本的超參數(shù),提前設(shè)定anchor框等等。但是,從近些年的論文可以看出,研究實現(xiàn)標簽自動化分配的方案越來越多,RetinaNet[14]根據(jù)anchor和目標的IoU確定正負樣本,F(xiàn)COS[15]根據(jù)目標中心區(qū)域和目標的尺度確定正負樣本,ATSS[16]提出自適應(yīng)訓(xùn)練樣本選擇的方法確定正負樣本。OTA[17]創(chuàng)新性地從全局的角度重新審視了該問題,提出解決目標檢測中的標簽分配問題的新思路:將標簽分配問題看作最優(yōu)傳輸問題來處理。YOLOX中改進的SimOTA使用動態(tài)Top-k策略替代Sinkhorn-Knopp算法,縮短了OTA增加的訓(xùn)練時間,TOOD[18]則提出了(task-aligned head,T-head)和(task alignment learning,TAL)來解決分類和定位對不齊的問題,加強了2個任務(wù)的交互,提升檢測器學(xué)習(xí)對齊與否的能力。

        1.3 注意力機制

        注意力機制可以看作是一個動態(tài)選擇過程,通過學(xué)習(xí)權(quán)重或分配機制對特征進行自適應(yīng)加權(quán)來實現(xiàn),給予不同輸入元素不同的重要性,這些權(quán)重或分配機制可以通過學(xué)習(xí)得到,也可以基于規(guī)則或先驗知識設(shè)置。它是一種在有限的計算資源中使得整個網(wǎng)絡(luò)更關(guān)注重點區(qū)域,降低對非關(guān)鍵區(qū)域的關(guān)注度,甚至過濾掉無關(guān)信息,就可以一定程度上緩解信息過載問題,使得網(wǎng)絡(luò)提取到更多需要的特征信息,并提高任務(wù)處理的效率和準確性。注意力機制的核心在于讓網(wǎng)絡(luò)關(guān)注重點信息而忽略無關(guān)信息,其分類大致可以分為空間注意力機制、通道注意力機制和混合注意力機制等??臻g注意力關(guān)注圖像中的感興趣區(qū)域,通過加權(quán)處理不同空間位置來聚焦于重要的區(qū)域,其代表方法有STN[19]等。通道注意力則關(guān)注的是不同通道之間的關(guān)系,不同通道包含的信息是不同的,對相應(yīng)的任務(wù)的影響也是不同的,因而學(xué)習(xí)每個通道的重要程度,針對不同任務(wù)增強或抑制不同的通道從而達到提高任務(wù)準確度的效果,通道注意力機制中代表性方法有SENet[20]等?;旌献⒁饬C制則是混合了多種注意力機制的方法,其代表性方法有CBAM[21]等。注意力機制能夠捕捉全局上下文信息,適應(yīng)不同尺度的目標,并提高模型對目標的區(qū)分能力,然而,它也存在計算復(fù)雜度高、學(xué)習(xí)困難和特征表示不穩(wěn)定等缺點。

        1.4 上采樣方法

        上采樣方法在目標檢測中被廣泛應(yīng)用,用于將低分辨率特征圖上采樣到與輸入圖像相同的分辨率,以便更好地捕捉小目標或細節(jié)信息。雙線性插值[22]是一種常用的上采樣方法,它通過在輸入特征圖的像素之間進行插值來生成更高分辨率的特征圖,并利用周圍像素的權(quán)重來計算插值,從而平滑地增加特征圖的尺寸。最近鄰插值是一種簡單的上采樣方法,它將每個目標像素的值設(shè)置為最近鄰原像素的值。雖然計算速度快,但它可能導(dǎo)致圖像的鋸齒狀邊緣效果和信息丟失。插值法通過像素點的空間位置來決定上采樣核,并沒有利用特征圖的語義信息,而轉(zhuǎn)置卷積[23]則與插值法不同,它不僅可以根據(jù)學(xué)習(xí)到的權(quán)重對低分辨率特征圖進行插值,生成高分辨率的特征圖,還可以學(xué)習(xí)到更復(fù)雜的上采樣模式,但也容易導(dǎo)致圖像的偽影和重疊現(xiàn)象,而且引入了大量的參數(shù)與計算。本文采用的CARAFE上采樣算子主要分為2個模塊(圖1),一個是上采樣核預(yù)測模塊,用于生成用于重組計算的核上的權(quán)重,另一個是特征重組模塊,用于將計算到的權(quán)重融于輸入的特征圖中,會根據(jù)輸入特征來指導(dǎo)重組過程,同時整個算子比較輕量。

        圖1 CARAFE原理圖Fig.1 CARAFE schematic diagram

        2 Dy-YOLO算法

        首先介紹Dy-YOLO模型結(jié)構(gòu),然后詳細介紹各項改進措施。

        2.1 Dy-YOLO模型

        Dy-YOLO模型的網(wǎng)絡(luò)結(jié)構(gòu)如圖2所示。在主干中的C3-DCN模塊是類似C3結(jié)構(gòu)設(shè)計的一個可變形卷積模塊,這個模塊在處理具有形變、遮擋或不規(guī)則形狀的圖像時表現(xiàn)更加有效,能夠更好地捕捉目標在不同位置和尺度上的細節(jié)信息。在頸部采用輕量級上采樣算子CARAFE來代替最鄰近插值法,它能夠有效利用特征圖的語義信息,并且具有更大的感受野聚合上下文信息,計算速度也更快。此外,引入了Dynamic Head的統(tǒng)一注意力機制,結(jié)合傳統(tǒng)的YOLO檢測頭,通過在尺度感知的特征層、空間感知的空間位置以及任務(wù)感知的輸出通道內(nèi)連貫地結(jié)合多頭注意力機制。Dynamic Head注意力機制與主干中的C3-DCN模塊效果互補,使得模型對于淺層、深層的特征信息的提取達到有效平衡,同時還能抑制背景信息迭代累積所帶來的噪聲,有效提高了模型對于航拍影像的檢測能力。需要注意的是,圖2中的Conv模塊并非僅包含卷積操作,還包括歸一化和激活函數(shù)的處理。而C3模塊是一個用于特征提取的模塊,它采用了ResNet的殘差結(jié)構(gòu),內(nèi)部的BottleNeck數(shù)量可以根據(jù)需要進行調(diào)節(jié)。

        圖2 Dy-YOLO網(wǎng)絡(luò)結(jié)構(gòu)Fig.2 Dy-YOLO network structure

        2.2 Sim-OTA

        YOLOv5使用的標簽分配方法是基于IoU的匹配策略:該方法通過計算預(yù)測框與真實框之間的IoU值來確定它們的匹配程度,并根據(jù)設(shè)定的閾值將預(yù)測框分配給對應(yīng)的真實框,但是IoU閾值的選擇對結(jié)果非常敏感,特別影響對小目標的檢測精度。而且在目標檢測任務(wù)中,正樣本通常比負樣本數(shù)量少很多,這會導(dǎo)致訓(xùn)練過程中的樣本不平衡問題,可能會影響模型的性能和訓(xùn)練穩(wěn)定性,而在無人機航拍任務(wù)中,小目標樣本數(shù)量占比較多,還伴隨著大量的遮擋以及模糊,所以原先的標簽分配方式不適合無人機航拍任務(wù)。因此本文采取YOLOX中提出的sim-OTA標簽分配方法,它根據(jù)OTA標簽分配方法改進,OTA是一種考慮全局最優(yōu)的標簽分配方法,它提出將標簽分配問題當(dāng)作最優(yōu)傳輸問題,在GT和所有預(yù)測框之間計算運輸成本,通過尋找一個合適的映射關(guān)系,使得運輸成本最低。OTA通過Sinkhorn-Knopp算法求解cost矩陣,這會帶來25% 的額外訓(xùn)練時間,sim-OTA則是將其簡化為動態(tài)top-k策略,直接用k個最小cost值的候選框作為正樣本以獲得近似解,不僅減少了訓(xùn)練時間,而且避免了求解 Sinkhorn-Knopp算法中額外的超參數(shù),sim-OTA的標簽分配方式在本文中減少了負樣本的影響,有效地提高了目標檢測精度。sim-OTA首先計算成對匹配度,由每個預(yù)測GT對的成本或質(zhì)量表示。例如,在Sim-OTA中,gi和預(yù)測框pj之間的成本計算如下:

        (1)

        (2)

        其中,Lcls代表分類損失,Lreg代表定位損失,Lobj代表目標存在損失,λ代表定位損失的平衡系數(shù),即被分為正樣本的Anchor Point數(shù)。

        2.3 Dynamic Head

        為了提高目標檢測的準確性,越來越多的模型中加入注意力機制來讓網(wǎng)絡(luò)更加聚焦重點區(qū)域,然而大多數(shù)注意力機制普適性不強,有的注意力機制在引入以后,不僅大大增加了模型的計算復(fù)雜度以及參數(shù)量,而且檢測效果不升反降。對于加入網(wǎng)絡(luò)中不同位置的效果,還需要大量的實驗測試,這對于資源有限的研究者無疑需要耗費大量時間及資源。Dynamic Head是微軟提出的一種多重注意力機制統(tǒng)一物體檢測頭方法,通過在3個不同的角度(尺度感知、空間位置、多任務(wù))分別運用注意力機制,在不增加計算量的情況下顯著提升模型目標檢測頭的表達能力,這種新的實現(xiàn)方式,提供了一種可插拔特性,并提高了多種目標檢測框架的性能。Dynamic Head結(jié)構(gòu)如圖3所示。

        圖3 Dynamic Head 網(wǎng)絡(luò)結(jié)構(gòu)Fig.3 Dynamic Head network structure

        3個感知增強模塊如圖3所示,通過3個運用在不同位置的注意力即得到增強后的輸出:

        W(F)=πC(πS(πL(F)·F)·F)·F。

        (3)

        (1)尺度感知注意力πL:

        (4)

        (2)空間感知注意力πS:

        (5)

        其中K是稀疏采樣位置的數(shù)量,pk+△pk是通過自學(xué)空間偏移量 偏移的位置,以關(guān)注判別區(qū)域,而△mk是位置pk處的自學(xué)習(xí)重要性標量,兩者都是從F的中值水平的輸入特征中學(xué)習(xí)的。

        (3)任務(wù)感知注意力πC:

        πC(F)·F=max(α1(F)·FC+β1(F),α2(F)·FC+β2(F)),

        (6)

        其中,F(xiàn)C是第C個通道的特征切片,[α1,α2,β1,β2]T=θ(·)是學(xué)習(xí)控制激活閾值的超函數(shù)。θ(·)首先對維進行全局平均池化降維,然后使用2個全連接層和一個歸一化層,最后應(yīng)用shifted sigmoid函數(shù)對輸出到[-1,1]。上述3種注意力機制是順序應(yīng)用的,它們的通道數(shù)一致,可以多次嵌套方程式(3)有效地將多個πL(F)、πS(F)和πC(F)塊堆疊在一起,并且統(tǒng)一這3種注意力于檢測頭,而已知YOLOv5 Neck輸出256,512,1024共3種不同通道數(shù)的特征圖進入檢測頭,所以本文在Neck輸出的3個特征圖后接一層卷積,使3層特征圖通道數(shù)一致,經(jīng)過尺度感知注意力模塊πL(F),特征圖對前景物體的尺度差異更加敏感;進一步通過空間感知注意力模塊πS(F)后,特征圖變得更加稀疏,并專注于前景物體去辨別空間位置;最后通過任務(wù)感知注意力模塊πC(F)后,特征映射根據(jù)不同下游任務(wù)的要求重新形成不同的激活。

        2.4 C3-DCN

        Dynamic Head中提到,主干中使用可變形卷積(deformable convolutional network,DCN)[24]可以與所提出的動態(tài)頭部互補,傳統(tǒng)的卷積采用固定尺寸的卷積核,在感受野內(nèi)使用固定的權(quán)重進行特征提取,不能很好地適應(yīng)幾何形變,而可變形卷積通過引入額外的可學(xué)習(xí)參數(shù)來動態(tài)地調(diào)整感受野中不同位置的采樣位置和權(quán)重,這使得可變形卷積能夠在處理具有形變、遮擋或不規(guī)則形狀的圖像時更加有效。但是DCN的一大缺陷在于,其采樣點經(jīng)過偏移之后的新位置會超出我們理想中的采樣位置,導(dǎo)致部分可變形卷積的卷積點可能是一些和物體內(nèi)容不相關(guān)的部分;DCNv2[25]則針對偏移干擾問題引入了一種調(diào)制機制:

        (7)

        其中,△pp和△mp分別是第k個位置的可學(xué)習(xí)偏移量和調(diào)制標量。調(diào)制標量△mp位于[0,1]范圍內(nèi),而△pp是一個范圍不受約束的實數(shù)。由于p+pp+△pp是小數(shù),因此在計算x(p+pp+△pp)時應(yīng)用雙線性插值,△pp和△mp都是通過應(yīng)用于相同輸入特征圖的單獨卷積層獲得的。

        DCNv2不僅讓模型學(xué)習(xí)采樣點的偏移,還要學(xué)習(xí)每個采樣點的權(quán)重,這是減輕無關(guān)因素干擾的最重要的工作,提高了模型的表達能力和適應(yīng)性。然而單純地使用DCNv2效果不佳,于是在Dy-YOLO中,根據(jù)C3結(jié)構(gòu)設(shè)計了C3-DCN模塊(圖4),并在第8層替換了C3,沒有在Backbone全部替換的原因是:一方面,可變形卷積引入了額外的偏移以及調(diào)制參數(shù),大量使用顯然會增加模型復(fù)雜度以及訓(xùn)練難度;另一方面,在實驗探索過程中,大量替換C3模塊檢測效果不升反降,合理使用C3-DCN模塊可以在一定程度上緩解圖像遮擋問題,在VisDrone數(shù)據(jù)集上,使得Dy-YOLO網(wǎng)絡(luò)模型對具有高密度的被遮擋對象有更好的識別性能。

        圖4 C3-DCN網(wǎng)絡(luò)結(jié)構(gòu)Fig.4 C3-DCN network structure

        3 實驗與結(jié)果分析

        3.1 數(shù)據(jù)集與實驗設(shè)置

        為了測試模型在無人機航空目標檢測任務(wù)中的效果,選擇VisDrone2019數(shù)據(jù)集,其由天津大學(xué)機器學(xué)習(xí)和數(shù)據(jù)挖掘?qū)嶒炇褹ISKYEYE團隊收集,通過各種無人機攝像頭捕獲,覆蓋范圍十分廣泛,標注了行人、人、汽車、面包車、公共汽車、卡車、貨車、自行車、遮陽三輪車和三輪車10類樣本。VisDrone2019官方數(shù)據(jù)集將樣本分為訓(xùn)練集(6 471幅圖像)、驗證集(548幅圖像)和測試集(3 190幅圖像),其中測試集分為challege(1 580幅圖像)和dev(1 610幅圖像),共計260萬個目標實例樣本。本文所有的模型都使用TeslaA100 GPU進行訓(xùn)練,在訓(xùn)練階段,使用YOLOv5m的預(yù)訓(xùn)練權(quán)重,因為Dy-YOLO和YOLOv5共享大部分網(wǎng)絡(luò)結(jié)構(gòu),有很多權(quán)重可以從YOLOv5m轉(zhuǎn)移到Dy-YOLO,通過使用這些權(quán)重可以節(jié)省大量的訓(xùn)練時間。訓(xùn)練參數(shù)如下:訓(xùn)練輪次設(shè)置為200,批處理尺寸大小設(shè)置為8,圖片尺寸均為640×640像素,訓(xùn)練超參數(shù)為hyp.scratch-low.yaml文件的原始數(shù)據(jù),采用SGD優(yōu)化器。

        3.2 評價指標

        為了更準確地評估算法的性能,選取平均精度(average precision,AP)和均值平均精度(mean average precision,mAP)作為評價指標。AP 能夠反映單個目標類別的檢測性能,mAP 能夠反映所有類別的綜合檢測性能。AP 由精確率(Precision)和召回率(Recall)計算得到,精確率和召回率由式(8)和(9)計算得到:

        (8)

        (9)

        其中,TP 表示被預(yù)測為正例的正樣本,F(xiàn)P 表示被預(yù)測為正例的負樣本,F(xiàn)N表示被預(yù)測為負例的正樣本。選定一個IoU閾值,AP的計算方式是對該IoU閾值下的不同類別的精確率-召回率曲線(PR曲線)進行積分,mAP則是對所有類別AP取平均值:

        (10)

        (11)

        3.3 實驗結(jié)果

        為了驗證 Dy-YOLO 模型的性能,本文選取了多種先進的無人機航拍圖像目標檢測模型進行對比分析。表 1 給出了各個模型在VisDrone2021測試集上在 IoU 閾值為0.50的mAP和AP。如表1所示,本文的方法比大多數(shù)方法檢測效果更優(yōu),對比近年的針對小目標的檢測器TPH-YOLOv5及檢測mAP差距不到1%,但是TPH-YOLOv5是以YOLOv5的X模型、大尺寸以及多種訓(xùn)練方法得到測試結(jié)果,本文提出的Dy-YOLO以YOLOv5的M模型為基準,訓(xùn)練使用640×640像素的圖片尺寸,整體達到輕量而高效,與基準模型YOLOv5結(jié)果進行對比,在mAP50上提升了7.1%,對比其他方法仍然保持了檢測精度的優(yōu)勢。

        表1 VisDrone測試數(shù)據(jù)集實驗結(jié)果Tab.1 Experiment results in VisDrone test dataset %

        表2中從上到下依次添加了本文改進的模塊或方法,從消融實驗結(jié)果可以看出,本文設(shè)計添加的組件對模型檢測目標的準確度均有提升,首先實驗添加的Sim-OTA動態(tài)標簽方法整體提升最多,精度與準度都提升了6%,mAP50甚至提升了7.2%,說明基于IoU的標簽分配方法對于小目標數(shù)據(jù)集損失比較大,證明加入Sim-OTA動態(tài)標簽方法的有效性;C3-DCN+Dynamic Head結(jié)構(gòu)加入雖然提升不多,但是可以看出它與Sim-OTA動態(tài)標簽方法相結(jié)合提升了召回率,并且mAP50又提升了1.1%,說明了此結(jié)構(gòu)與Sim-OTA標簽方法配合能很好地使網(wǎng)絡(luò)關(guān)注重點區(qū)域;最后把CARAFE替換Nearest上采樣,精度和準度均有提升,mAP50提升了0.3%,在訓(xùn)練過程中也更快更穩(wěn)定。

        表2 VisDrone測試數(shù)據(jù)集消融實驗結(jié)果Tab.2 Ablation results in VisDrone test dataset

        對于C3-DCN在Backbone的位置本文也做了實驗探索,結(jié)果如表3所示,選擇從深層往淺層網(wǎng)絡(luò)過渡,是因為網(wǎng)絡(luò)隨著深度增加往往會丟失很多淺層特征,而小目標的檢測依賴淺層特征。替換第8層檢測效果最好,替換第6和8層效果不增反減,把Backbone中C3全部替換雖然效果不及替換第8層,但是結(jié)果可以看出C3-DCN結(jié)構(gòu)有利于提高召回率,規(guī)整的可變形卷積網(wǎng)絡(luò)結(jié)構(gòu)有利于提取特征。

        表3 VisDrone測試數(shù)據(jù)集上C3-DCN位置的消融實驗結(jié)果 Tab.3 Ablation results of C3-DCN in VisDrone test dataset %

        為驗證本文提出的改進YOLOv5目標檢測算法具有更好的目標檢測能力,本文與YOLOv5(M)以及目前的先進目標檢測算法進行各類檢測效果對比實驗。如表4所示,Dy-YOLO在檢測行人(pedestrian)、人(people)和摩托車(motor)等小目標的效果上達到最優(yōu),對比基準模型YOLOv5,分別提升了7.3%、10.8%和12%,并且在檢測車(car)等體型較大的目標上的效果也有所提升,提升了7.4%。

        3.4 可視化分析

        為了驗證Dy-YOLO算法在實際場景中的檢測效果,選取VisDrone2019測試集中多個復(fù)雜場景下的無人機航拍圖像進行測試。檢測結(jié)果如圖5所示,在白天與黑夜場景中,對于分布密集的小目標,例如汽車、行人,摩托等目標樣本,可以準確識別每個目標的確切位置;在背景復(fù)雜的情況下,該方法也能夠排除例如樹木、建筑等干擾物體的影響,正確地分類和定位目標??偟膩碚f,本文方法在不同光照條件、背景、分布狀況的實際場景中均展現(xiàn)出較好的檢測效果,可以滿足無人機航拍圖像目標檢測任務(wù)的需求。

        圖5 不同場景檢測效果Fig.5 Detection effects in different scenarios

        4 總結(jié)與展望

        通過分析無人機航拍圖像的特點,總結(jié)了無人機航拍目標檢測遇到的困境,針對當(dāng)下無人機航拍目標檢測效果不太理想的問題,本文提出了一個基于YOLOv5的改進目標檢測模型Dy-YOLO,通過引入Dynamic Head頭部統(tǒng)一的注意力,從尺度、通道和多任務(wù)3個角度提升了目標定位能力。同時,通過引入SimOTA動態(tài)標簽分配方法,提升了小目標的檢測效果。此外,設(shè)計了可變形卷積結(jié)構(gòu)C3-DCN與Dynamic Head首尾呼應(yīng),實現(xiàn)了自適應(yīng)感受野和處理空間變形的能力,提升了目標邊界的準確性和模型的表達能力,最后還采用了CARAFE上采樣算子能夠更好地聚合上下文信息并提高模型魯棒性。這些改進方法為無人機航拍目標檢測帶來了顯著的性能提升和新的研究思路。

        猜你喜歡
        特征檢測方法
        “不等式”檢測題
        “一元一次不等式”檢測題
        “一元一次不等式組”檢測題
        如何表達“特征”
        不忠誠的四個特征
        抓住特征巧觀察
        可能是方法不對
        小波變換在PCB缺陷檢測中的應(yīng)用
        用對方法才能瘦
        Coco薇(2016年2期)2016-03-22 02:42:52
        四大方法 教你不再“坐以待病”!
        Coco薇(2015年1期)2015-08-13 02:47:34
        青青手机在线视频观看| 啪啪无码人妻丰满熟妇| 日韩黑人欧美在线视频观看| 欧美人与动牲交片免费| 免费人成黄页网站在线一区二区| 国产成人无码a区在线观看导航| 欧美亚洲国产片在线播放| 久久国产成人亚洲精品影院老金| 丝袜美腿诱惑一二三区| 国产自拍av在线观看视频 | 亚洲女av中文字幕一区二区| 成人做爰69片免费看网站野花| 成人无码区免费a片www| 丰满人妻一区二区乱码中文电影网| av在线入口一区二区| 欧美性猛交xxxx三人| 日本夜爽爽一区二区三区| 亚洲一区二区免费日韩| 亚洲中文字幕精品视频| 亚洲av美国av产亚洲av图片| 丝袜AV在线一区二区三区| 中国少妇和黑人做爰视频| 色吧噜噜一区二区三区| 亚洲精品一区久久久久久| 国产成人一区二区三区免费观看| 精品中文字幕精品中文字幕 | 国产精品亚洲欧美天海翼| 成人激情视频一区二区三区 | 国产精品 无码专区| 又黄又爽又高潮免费毛片| 亚洲女同系列高清在线观看| 97中文字幕精品一区二区三区| 狠狠色狠狠色综合| 国产爆乳无码一区二区在线| 中文片内射在线视频播放| 日韩av高清在线观看| 亚洲自偷自偷偷色无码中文| 亚洲黄色官网在线观看| 久久99精品久久久久麻豆| 亚洲欧美另类激情综合区| 亚洲成av人无码免费观看 |