亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        聯(lián)合自注意力和分支采樣的無人機(jī)圖像目標(biāo)檢測(cè)

        2023-09-27 07:22:14張?jiān)谱?/span>武存宇劉亞猛張?zhí)?/span>鄭宇鑫
        光學(xué)精密工程 2023年18期
        關(guān)鍵詞:分支卷積特征

        張?jiān)谱簦?武存宇, 劉亞猛, 張?zhí)欤?鄭宇鑫

        (1.石家莊鐵道大學(xué) 信息科學(xué)與技術(shù)學(xué)院,河北 石家莊 050043;2.河北省電磁環(huán)境效應(yīng)與信息處理重點(diǎn)實(shí)驗(yàn)室,河北 石家莊 050043)

        1 引 言

        作為信息化時(shí)代的新型技術(shù)產(chǎn)物,無人機(jī)在遙感測(cè)繪、城市管理、災(zāi)害預(yù)警等領(lǐng)域都展現(xiàn)出了巨大的價(jià)值和應(yīng)用前景[1]。但無人機(jī)高空巡航、飛行高度不定等作業(yè)方式,使其所捕獲的圖像通常存在背景復(fù)雜、包含大量密集微小目標(biāo)、目標(biāo)尺度變化劇烈等特點(diǎn)[2-3],因此無人機(jī)圖像目標(biāo)檢測(cè)仍然是一項(xiàng)具有挑戰(zhàn)性的任務(wù)。

        傳統(tǒng)目標(biāo)檢測(cè)方法通??煞譃槿剑菏紫韧ㄟ^區(qū)域選擇器以遍歷的方式選出候選區(qū)域;然后利用HOG(Histograms of Oriented Gradients)[4],Haar[5]等特征提取器進(jìn)行特征提取;最后使用AdaBoost[6]、支持向量機(jī)[7]等分類器對(duì)提取到的特征進(jìn)行分類。但該類方法通過窮舉候選框來得到感興趣區(qū)域,不僅時(shí)間復(fù)雜度高,而且會(huì)產(chǎn)生大量窗口冗余[8]。此外手工設(shè)計(jì)的特征提取器泛化能力不足以應(yīng)對(duì)航拍圖像中的復(fù)雜場(chǎng)景和多類檢測(cè)任務(wù)[9]。

        得益于硬件和算力的發(fā)展,基于深度學(xué)習(xí)的無人機(jī)圖像目標(biāo)檢測(cè)算法逐漸代替?zhèn)鹘y(tǒng)方法成為了主流。與傳統(tǒng)方法相比,基于深度學(xué)習(xí)的方法因其出色的特征表達(dá)和學(xué)習(xí)能力促進(jìn)了無人機(jī)航拍圖像目標(biāo)檢測(cè)的發(fā)展。Yang等[10]提出了一種集群檢測(cè)網(wǎng)絡(luò)ClusDet,將聚類和檢測(cè)過程統(tǒng)一到了端到端框架中,同時(shí)通過隱式地建模先驗(yàn)上下文信息提高尺度估計(jì)的準(zhǔn)確性。Yu等[11]對(duì)于無人機(jī)數(shù)據(jù)集中類別分布不均衡的問題進(jìn)行了研究,并采用雙路徑方式分別處理頭部類和尾部類,這種處理方式有效提高了尾部類的檢測(cè)效果。Liu等[12]設(shè)計(jì)了一種針對(duì)高分辨率圖像的檢測(cè)模型HRDNet。該方法利用深層主干網(wǎng)絡(luò)和淺層主干網(wǎng)絡(luò)分別對(duì)低分辨率特征圖和高分辨率特征圖進(jìn)行處理,解決了檢測(cè)高分辨率特征圖時(shí)計(jì)算開銷過大的問題。Wu等[13]從提高無人機(jī)目標(biāo)檢測(cè)魯棒性的角度展開研究,通過對(duì)抗學(xué)習(xí)方式區(qū)分有效的目標(biāo)特征和干擾因素,提高了單類目標(biāo)檢測(cè)的魯棒性。Youssef等[14]將多層級(jí)聯(lián)RCNN與特征金字塔進(jìn)行融合,在個(gè)別類別上提升了精度,但整體效果下降。Li等[15]提出了一種感知生成對(duì)抗網(wǎng)絡(luò)模型,用于實(shí)現(xiàn)小目標(biāo)的超分辨率表示,使小目標(biāo)具有與大目標(biāo)相似的表達(dá),從而縮減尺度差異。Tang等[16]設(shè)計(jì)了一種無錨框的檢測(cè)器,并將原始高分辨率圖像分割為多個(gè)子圖像進(jìn)行檢測(cè),這使得算法在精度上得到提高,但這也帶來了更多的計(jì)算負(fù)荷。Mekhalfi等[17]通過膠囊網(wǎng)絡(luò)對(duì)目標(biāo)之間的關(guān)系進(jìn)行建模,提高了網(wǎng)絡(luò)對(duì)于擁擠、遮擋情況下目標(biāo)的解析能力。Chen等[18]提出了場(chǎng)景上下文特征金字塔,強(qiáng)化了目標(biāo)與場(chǎng)景之間的關(guān)系,抑制了尺度變化帶來的影響,此外在ResNeXt結(jié)構(gòu)的基礎(chǔ)上,引入了膨脹卷積增大感受野。這些方法從不同角度入手對(duì)密集微小目標(biāo)檢測(cè)任務(wù)進(jìn)行優(yōu)化,但此類方法沒有考慮到復(fù)雜背景對(duì)航拍圖像目標(biāo)檢測(cè)任務(wù)的影響,以及微小目標(biāo)信息隨網(wǎng)絡(luò)層數(shù)增加而丟失的問題。

        為了實(shí)現(xiàn)對(duì)無人機(jī)視角中微小目標(biāo)的精準(zhǔn)檢測(cè),本文提出了一種聯(lián)合自注意力和分支采樣的無人機(jī)圖像目標(biāo)檢測(cè)方法。首先,通過嵌套殘差結(jié)構(gòu)將自注意力機(jī)制集成到主干網(wǎng)絡(luò)中,實(shí)現(xiàn)對(duì)于全局信息和局部信息的有效結(jié)合,提升網(wǎng)絡(luò)對(duì)全局信息和上下文信息的捕獲能力。其次,針對(duì)現(xiàn)存特征融合模塊的缺陷,設(shè)計(jì)了一種基于分支采樣的特征融合模塊,通過分支并行策略分別實(shí)現(xiàn)上、下采樣操作,而后對(duì)不同分支的采樣結(jié)果進(jìn)行融合,有效強(qiáng)化模型的空間位置信息和特征表達(dá)能力,并緩解了小目標(biāo)信息丟失問題。此外,將包含細(xì)粒度特征的淺層特征圖引入到特征融合序列中,改善小目標(biāo)檢測(cè)效果。最后,構(gòu)建了一種基于反殘差結(jié)構(gòu)的特征增強(qiáng)模塊以提取具有鑒別性的小目標(biāo)特征。

        2 算法設(shè)計(jì)

        目前主流目標(biāo)檢測(cè)算法可以分為兩大類:以R-CNN系列[19-20]為代表的雙階段算法和以Yolo系列[21-22]為代表的單階段算法,其中雙階段算法的精度更高,但檢測(cè)速度較慢,而單階段算法憑借簡(jiǎn)潔快速的優(yōu)點(diǎn)得到了更廣泛的應(yīng)用。

        本文選擇Yolov5算法作為基線模型,改進(jìn)后的網(wǎng)絡(luò)結(jié)構(gòu)圖如圖1所示,其中,主干部分由CSPDarkNet53和本文提出卷積和自注意力相結(jié)合的嵌套殘差模塊(Nested Residual combining Convolution and Self-attention, NRCS)構(gòu)成,CSPDarkNet53用于提取局部特征,NRCS模塊獲取特征之間的全相關(guān)性,實(shí)現(xiàn)局部特征和全局特征的結(jié)合。Neck部分通過本文所提出的雙分支采樣的特征融合模塊(Double-Branch Sampling Feature Fusion model, DBS-FU)實(shí)現(xiàn)特征融合。該結(jié)構(gòu)通過多分支并行策略生成更精細(xì)的特征以提高特征融合效果。Head中引入淺層特征,構(gòu)建新的檢測(cè)頭(Head 1)。每個(gè)檢測(cè)頭通過編碼目標(biāo)信息生成具有S2×B×(4+1+C)維度的張量。S2為特征圖中包含的網(wǎng)格數(shù);B為每個(gè)網(wǎng)格上預(yù)設(shè)的預(yù)測(cè)框數(shù)量,在本文中被設(shè)置為3;S2×B×(4+1+C)中的數(shù)字4表示預(yù)測(cè)框的坐標(biāo)信息(x,y,h,w),數(shù)字1表示置信度;C表示待檢測(cè)目標(biāo)的類別數(shù)量。同時(shí)使用本文提出的反殘差結(jié)構(gòu)的特征增強(qiáng)模塊(Feature Enhancement module of In-Residual,F(xiàn)E-IR)對(duì)新增的檢測(cè)頭進(jìn)行特征增強(qiáng)。

        圖1 本文所提算法整體結(jié)構(gòu)圖Fig.1 Overall structure of the algorithm proposed in this paper

        2.1 集成自注意力的特征提取網(wǎng)絡(luò)

        無人機(jī)所捕獲的高分辨率航拍圖像背景復(fù)雜,在通常情況下背景信息遠(yuǎn)超目標(biāo)信息。如果不予以處理,主干網(wǎng)絡(luò)在特征提取過程中就會(huì)提取到大量的無效背景信息。因此,需要讓模型聚焦在有效的目標(biāo)信息上。

        自注意力機(jī)制最初被廣泛應(yīng)用在自然語言處理領(lǐng)域中。Dosovitskiy等[23]首次將自注意力機(jī)制引入到了計(jì)算機(jī)視覺領(lǐng)域,并取得了一定成效。隨著對(duì)自注意力機(jī)制研究的不斷深入,自注意力機(jī)制的作用已經(jīng)在計(jì)算機(jī)視覺領(lǐng)域得到了廣泛認(rèn)可。

        在基于卷積神經(jīng)網(wǎng)絡(luò)的主干網(wǎng)絡(luò)中,通過共享的卷積核進(jìn)行特征提取,減少冗余參數(shù)的同時(shí)也帶來了兩種歸納偏好,即平移不變性和局部相關(guān)性,這使得卷積神經(jīng)網(wǎng)絡(luò)在提取底層特征和視覺結(jié)構(gòu)方面具有很大優(yōu)勢(shì),但這也導(dǎo)致卷積神經(jīng)網(wǎng)絡(luò)受限于局部感受野,無法捕獲全局依賴關(guān)系。而自注意力機(jī)制則通過全局相似度計(jì)算像素之間的聯(lián)系,為不同像素點(diǎn)賦予不同權(quán)重,從而獲得全局相關(guān)性。自注意力相似度計(jì)算公式如下:

        其中:X表示輸入序列,Wq,Wk,Wv分別表示三個(gè)隨機(jī)初始化矩陣,并且它們可以通過注意力進(jìn)行動(dòng)態(tài)調(diào)整,X與它們相乘得到Q,K,V。

        其中:Q點(diǎn)乘KT,計(jì)算每個(gè)輸入序列和其他序列之間的相似程度。除以用于防止內(nèi)積過大導(dǎo)致梯度消失。其中dk為隱藏層維度。通過Softmax進(jìn)行歸一化計(jì)算得到權(quán)重系數(shù)后再與V相乘即可得到通過自注意力機(jī)制調(diào)整后的輸入序列。

        卷積神經(jīng)網(wǎng)絡(luò)擅長(zhǎng)于對(duì)局部信息進(jìn)行提取,而自注意力機(jī)制更擅長(zhǎng)于對(duì)全局信息進(jìn)行建模。綜上,基于卷積神經(jīng)網(wǎng)絡(luò)和自注意力機(jī)制互補(bǔ)的思想,設(shè)計(jì)了卷積和自注意力相結(jié)合的嵌套殘差模塊NRCS,其結(jié)構(gòu)如圖2所示。該結(jié)構(gòu)是一種嵌套殘差結(jié)構(gòu),外層殘差邊對(duì)局部信息進(jìn)行恒等映射,內(nèi)層殘差結(jié)構(gòu)中使用多頭自注意力模塊(Multi Head Self Attention module,MHSA)計(jì)算全局相關(guān)性。與卷積結(jié)構(gòu)相比,所提出的NRCS模塊通過結(jié)合局部信息和全局信息提高模型對(duì)上下文信息的捕獲能力。

        圖2 NRCS結(jié)構(gòu)圖Fig.2 Structure diagram of NRCS

        此外,無人機(jī)圖像分辨率遠(yuǎn)超普通圖像,Sun等[24]研究發(fā)現(xiàn),對(duì)分辨率較高的特征圖進(jìn)行全局相關(guān)性計(jì)算會(huì)帶來過多的計(jì)算量和顯存開銷,并導(dǎo)致訓(xùn)練過程難以收斂。實(shí)驗(yàn)中發(fā)現(xiàn)目標(biāo)檢測(cè)任務(wù)中淺層的高分辨率特征圖更依賴卷積的局部特征提取能力。而對(duì)經(jīng)過多次下采樣的深層低分辨率特征圖進(jìn)行全局相關(guān)性建模不僅可以保證主干網(wǎng)絡(luò)對(duì)局部信息和全局信息進(jìn)行有效提取,而且所需的內(nèi)存開銷和計(jì)算量也更符合應(yīng)用需求。因此,本文方法僅在主干網(wǎng)絡(luò)末端使用NRCS結(jié)構(gòu),其余部分仍然使用卷積神經(jīng)網(wǎng)絡(luò)。這樣做既保留了卷積神經(jīng)網(wǎng)絡(luò)強(qiáng)大的局部特征提取能力,也通過自注意力獲取了全局信息。同時(shí)在深層低分辨率特征圖中使用NRCS模塊可以有效減少模型的參數(shù)量。

        2.2 分支采樣特征融合

        在特征融合階段,原始網(wǎng)絡(luò)結(jié)構(gòu)中通過構(gòu)建雙向特征金字塔實(shí)現(xiàn)信息交互,其中第一個(gè)特征金字塔通過線性插值進(jìn)行上采樣,將淺層特征圖中的空間位置信息傳遞到深層特征圖。第二個(gè)特征金字塔則通過卷積進(jìn)行下采樣,將融合后的信息逐步傳遞回淺層特征圖,保證每層特征層都有足夠的信息進(jìn)行預(yù)測(cè),但這種設(shè)計(jì)有兩個(gè)明顯的缺陷。首先,在深層特征圖向淺層特征圖傳遞信息的時(shí)候使用的采樣方法單一,導(dǎo)致深層語義信息并未有效傳遞。其次,在淺層特征圖向深層特征圖適配的過程中會(huì)出現(xiàn)嚴(yán)重的信息衰減的問題。而小目標(biāo)攜帶的信息量本就遠(yuǎn)小于常規(guī)目標(biāo),因此信息衰減問題對(duì)小目標(biāo)檢測(cè)來說更加致命。針對(duì)這些缺陷,設(shè)計(jì)了一種基于雙分支采樣的特征融合模塊DBS-FU。具體來講,DBSFU包含DBUS和DBDS兩個(gè)主要模塊。其結(jié)構(gòu)如圖3所示。

        圖3 DBS-FU結(jié)構(gòu)圖Fig.3 Structure diagram of DBS-FU

        如圖3(a)所示,DBUS模塊通過構(gòu)建Bilinear和Nearest兩條并行分支分別實(shí)現(xiàn)上采樣,其中Bilinear分支和Nearest中的采樣倍數(shù)(Scale_factor)均設(shè)為2。得到上采樣結(jié)果后使用歸一化(Batch Normalization, BN)分別對(duì)不同的上采樣結(jié)果進(jìn)行處理,防止梯度消失。最后將各分支采樣結(jié)果進(jìn)行逐元素加和,并使用SiLU激活函數(shù)引入更多非線性因素,得到最終的采樣結(jié)果。相較于單一的采樣方式,該結(jié)構(gòu)通過生成高質(zhì)量的上采樣結(jié)果強(qiáng)化淺層特征圖中的語義信息,從而提高模型對(duì)混淆目標(biāo)的分類能力。該過程定義如下:

        其中:Branch_Bi和Branch_Ne對(duì)應(yīng)不同分支的上采樣結(jié)果,BN表示批處理歸一化層,⊕表示逐元素加和。

        如圖3(b)所示,DBDS通過構(gòu)建Conv和Maxpool兩條并行分支分別實(shí)現(xiàn)下采樣,其中,Conv分支中卷積核大小為3,填充量為1,步長(zhǎng)為2;Maxpool分支中池化核大小為2,填充量為0,步長(zhǎng)為2。Conv分支提取局部感受野內(nèi)的整體特征,Maxpool分支則專注于池化核內(nèi)最突出的信息。這兩種特性對(duì)小目標(biāo)來說同樣重要,任意一種單一采樣方式都會(huì)導(dǎo)致某種信息的丟失。而分支并行策略可以有效緩解這一問題。每條分支都代表了原始特征圖中一部分特征。將下采樣結(jié)果融合后,可以對(duì)深層特征圖中的空間位置信息進(jìn)行進(jìn)一步強(qiáng)化,提高對(duì)小目標(biāo)的定位能力,并保留更多的上下文信息。其公式如下:

        其中:Branch_Conv和Branch_Max對(duì)應(yīng)不同分支的下采樣結(jié)果,BN表示批處理歸一化層,⊕表示逐元素加和。

        2.3 針對(duì)微小目標(biāo)的改進(jìn)檢測(cè)頭

        在基于卷積的深度學(xué)習(xí)網(wǎng)絡(luò)對(duì)圖像進(jìn)行處理的過程中,特征圖的分辨率會(huì)隨著層數(shù)加深而逐漸變小。深層特征圖包含豐富的語義信息,但空間位置信息逐漸喪失。相比而言,淺層特征圖保留著較多的細(xì)粒度信息,更適合預(yù)測(cè)無人機(jī)圖像中大量的密集小目標(biāo)。因此,本文選擇將較淺層的特征圖集成到特征圖融合序列中。所提算法將最終用于預(yù)測(cè)的特征圖分為S×S個(gè)單元格,每個(gè)單元格僅預(yù)測(cè)一個(gè)中心點(diǎn)落入該單元格內(nèi)的目標(biāo)。當(dāng)多個(gè)目標(biāo)的中心點(diǎn)落入同一個(gè)單元格時(shí)會(huì)導(dǎo)致大量目標(biāo)漏檢。而淺層高分辨率特征圖將包含更密集的S,這降低了多個(gè)目標(biāo)落入同一網(wǎng)格區(qū)域的概率,有效提高密集小目標(biāo)的檢測(cè)精度。同時(shí),我們通過將高分辨率特征圖的通道數(shù)由128提升至256,以提高特征融合過程中的淺層特征圖權(quán)重,該方法可有效提高模型對(duì)微小目標(biāo)的敏感性。

        此外,在輸出最終的檢測(cè)結(jié)果前,需要先對(duì)特征進(jìn)行降維,但對(duì)無人機(jī)圖像中大量存在的小目標(biāo)來說,低維特征不足以保留足夠的有用信息。并且特征通道數(shù)不足可能會(huì)阻礙梯度回傳,不利于模型訓(xùn)練。因此本文設(shè)計(jì)了一個(gè)基于反殘差的特征增強(qiáng)模塊FE-IR。該結(jié)構(gòu)先對(duì)特征進(jìn)行升維,并利用深度卷積(Depthwise Convolution, DWConv)對(duì)高維特征進(jìn)行特征提取以保證代表性。同時(shí),我們將跳連路徑建立在升維后的特征上,將增強(qiáng)后的特征映射至下一層。激活函數(shù)ReLU會(huì)將分布小于0的特征截?cái)啵瑢?dǎo)致信息損失。因此本文選擇在深層模型上效果更好的Swish作為激活函數(shù),以提高FE-IR模塊性能。本文將該模塊嵌入到檢測(cè)層之前,用于對(duì)小目標(biāo)特征進(jìn)行增強(qiáng)。其結(jié)構(gòu)圖如圖4所示。

        圖4 FE-IR 模塊結(jié)構(gòu)圖Fig.4 Structure diagram of FE-IR

        2.4 損失函數(shù)

        損失函數(shù)用于度量網(wǎng)絡(luò)的預(yù)測(cè)結(jié)果與真實(shí)標(biāo)簽之間的距離,通過使損失函數(shù)最小化,不斷修正網(wǎng)絡(luò)參數(shù),實(shí)現(xiàn)精準(zhǔn)預(yù)測(cè)。所提算法使用的損失函數(shù)由三部分組成:置信度損失表示檢測(cè)框內(nèi)是否存在目標(biāo);回歸損失用于衡量預(yù)測(cè)框與真實(shí)框的誤差;分類損失表示預(yù)測(cè)類別和真實(shí)標(biāo)簽的差異??傮w損失函數(shù)定義如下:

        其中:LossObj,LossRect,LossCls分別表示置信度損失、回歸損失和分類損失。A,B,C表示不同損失所占權(quán)重。

        本文在計(jì)算回歸損失時(shí)考慮到預(yù)測(cè)值與真實(shí)值中心點(diǎn)坐標(biāo)、重疊面積和寬高比之間的相關(guān)性,通過CIoU處理回歸損失。定義如下:

        其中:ρ為預(yù)測(cè)框和真實(shí)框的中心點(diǎn)距離,c為兩者的最小包圍矩形的對(duì)角線長(zhǎng)度,v為兩者的寬高比相似度,λ為v的影響因子。

        本文置信度損失使用二值交叉熵(Binary cross entropy, BCE)。置信度損失定義如下:

        其中:oi表示預(yù)測(cè)框i內(nèi)是否存在目標(biāo),ci表示預(yù)測(cè)值。

        BCE損失不僅適用于二分類任務(wù),也可以通過多個(gè)二元分類疊加實(shí)現(xiàn)多標(biāo)簽分類,故本文分類損失同樣采用BCE損失,分類損失定義如下:

        其中:Oij表示預(yù)測(cè)框i內(nèi)的目標(biāo)是否為當(dāng)前類別,Cij表示預(yù)測(cè)值。

        3 實(shí)驗(yàn)與分析

        3.1 實(shí)驗(yàn)環(huán)境

        本文實(shí)驗(yàn)的運(yùn)行環(huán)境為:操作系統(tǒng)CentOS7,顯卡型號(hào)NVIDIA Tesla V100S-PCIE-32GB,處理器Intel(R) Xeon(R) Gold 6226R CPU @ 2.90 GHz。采用Pytorch深度學(xué)習(xí)框架。實(shí)驗(yàn)過程中,所有模型訓(xùn)練均采用隨機(jī)梯度下降算法,初始學(xué)習(xí)率為0.001,動(dòng)量因子為0.9,Batchsize為2。

        3.2 實(shí)驗(yàn)數(shù)據(jù)集

        VisDrone2019數(shù)據(jù)集[25]由AISKYEKY團(tuán)隊(duì)制作,其中包含288個(gè)視頻片段,共包括261 908幀和10 209個(gè)靜態(tài)圖像,官方提供的數(shù)據(jù)集中選取了6 471張圖像作為訓(xùn)練集,548張圖像作為驗(yàn)證集。數(shù)據(jù)集中包含了11個(gè)類別,分別是行人、汽車、人、公交車、自行車、卡車、面包車、帶棚三輪車、三輪車、摩托車以及others,其中others是非有效目標(biāo)區(qū)域,本次實(shí)驗(yàn)中予以忽略。訓(xùn)練過程中,輸入圖像分辨率為1 536×1 536。

        UAVDT數(shù)據(jù)集[26]由Du等在2018年歐洲計(jì)算機(jī)視覺會(huì)議提出。數(shù)據(jù)集中包含50個(gè)視頻片段。本文按照通用標(biāo)準(zhǔn),將前30個(gè)視頻片段中的22 919張圖像用于訓(xùn)練,后20個(gè)視頻片段中的17 457張圖像用于測(cè)試。該數(shù)據(jù)集共包含汽車、貨車、公交車3類檢測(cè)目標(biāo),涉及十字路口、高速公路、街區(qū)等常見場(chǎng)景。訓(xùn)練過程中,輸入圖像分辨率為800×800。

        3.3 評(píng)估指標(biāo)

        為了精準(zhǔn)量化所提模型在無人機(jī)航拍圖像上的檢測(cè)性能,本文采用多類目標(biāo)檢測(cè)任務(wù)中公認(rèn)度最高的評(píng)估指標(biāo):平均精度均值(mean Average Precision, mAP)。其中mAP是通過按0.05為步長(zhǎng)在0.5~0.95中取10個(gè)IoU閾值再取平均精度的過程,mAP50和mAP75則是分別以0.5和0.75的作為IoU閾值計(jì)算得到的平均精度,mAP計(jì)算過程如下:

        其中:TP(True Positives)表示真正例,F(xiàn)P(False Positive)表示假正例,F(xiàn)N(Flase Negatives)表示假反例,n表示類別數(shù)量,J(Precision,Recall)k表示平均精度函數(shù)。

        3.4 對(duì)比實(shí)驗(yàn)

        為了適應(yīng)不同的需求,本文通過調(diào)整網(wǎng)絡(luò)的深度和寬度獲得了兩種不同規(guī)模的模型:m和s。其中m模型精度更高,但檢測(cè)速度相對(duì)較低。s模型檢測(cè)速度優(yōu)于m模型,但精度相較于m模型有所下降。我們將兩種模型在VisDrone2019數(shù)據(jù)集上的表現(xiàn)和其他目標(biāo)檢測(cè)算法進(jìn)行比較,并在UAVDT數(shù)據(jù)集上驗(yàn)證所提方法的泛化能力。

        3.4.1 VisDrone數(shù)據(jù)集實(shí)驗(yàn)結(jié)果

        為了直觀地展示本文所提算法相較于基線模型的性能提升,我們?cè)诒?中顯示了兩種基線模型和本文所提算法對(duì)VisDrone2019數(shù)據(jù)集中各類目標(biāo)的檢測(cè)性能。實(shí)驗(yàn)結(jié)果表明,本文所提算法的兩種模型在全部類別上均實(shí)現(xiàn)提升,其中,行人、人、摩托車等小目標(biāo)提升效果明顯。

        表1 基線模型和本文算法在VisDrone2019上的性能對(duì)比Tab.1 Comparison of the results of the baseline and the algorithm in this paper on VisDrone2019(%)

        為了客觀地展示本文所提方法的性能優(yōu)勢(shì),我們將兩種型號(hào)的模型與其他最先進(jìn)的目標(biāo)檢測(cè)方法在VisDrone2019數(shù)據(jù)集上的性能表現(xiàn)進(jìn)行了比較和分析。結(jié)果如表2所示,其中所提方法的m模型的mAP50,mAP和mAP75分別達(dá)到62.1%,38.9%和39.5%,在所有對(duì)比算法中達(dá)到最優(yōu)。此外,所提算法的s模型的mAP50,mAP和mAP75分別達(dá)到59.3%,37.1%和38.3%,其中mAP和mAP75達(dá)到次優(yōu)。mAP50僅次于所提算法的m模型和HRDNet。值得注意的是,HRDNet算法的輸入圖像分辨率遠(yuǎn)超本文所提方法,盡管這會(huì)提高精度,但這會(huì)嚴(yán)重影響檢測(cè)速度。本文所提方法的兩種模型在輸入圖像分辨率遠(yuǎn)低于HRDNet的情況下,整體性能仍然取得了最優(yōu)和次優(yōu)的結(jié)果。因此,本文所提方法更適合處理無人機(jī)圖像目標(biāo)檢測(cè)。

        表2 不同算法模型在VisDrone2019上的結(jié)果對(duì)比Tab.2 Comparison of results of different algorithm models on VisDrone2019(%)

        3.4.2 UAVDT數(shù)據(jù)集實(shí)驗(yàn)結(jié)果

        為了探究本文所提算法的泛化能力,我們測(cè)試了兩種型號(hào)的基線模型和本文所提算法在UAVDT數(shù)據(jù)集中的檢測(cè)性能。結(jié)果如表3所示,相較于基線模型,本文所提算法在全部類別上的檢測(cè)精度均實(shí)現(xiàn)提升。

        表3 基線模型和本文方法在UAVDT上的性能對(duì)比Tab.3 Comparison of the results of the baseline and the algorithm in this paper on UAVDT(%)

        表4列舉了本文所提方法和其他對(duì)比算法在UAVDT數(shù)據(jù)集上的性能表現(xiàn)。實(shí)驗(yàn)結(jié)果表明,本文所提方法的m模型在UAVDT數(shù)據(jù)集上的mAP50,mAP和mAP75分別達(dá)到44.7%,25.3%和28.1%,相較于其他對(duì)比方法,m模型的三項(xiàng)指標(biāo)均達(dá)到最優(yōu),而s模型的mAP50和mAP也達(dá)到次優(yōu)。綜上,本文所提方法具有較高的檢測(cè)精度和泛化能力。

        表4 不同算法在UAVDT數(shù)據(jù)集上的結(jié)果對(duì)比Tab.4 Comparison of results of different algorithm models on UAVDT(%)

        3.5 消融實(shí)驗(yàn)

        本文提出的DBS-FU模塊通過并行分支分別進(jìn)行采樣,以獲取高質(zhì)量的特征融合結(jié)果。為了驗(yàn)證單一采樣和并行采樣方式的性能差異,我們?cè)赩isDrone2019數(shù)據(jù)集上進(jìn)行了相關(guān)測(cè)試,結(jié)果如表5所示。當(dāng)使用基線模型默認(rèn)的Nearest上采樣和Conv下采樣時(shí),mAP50和mAP分別為53.7%和31.7%。相較于Nearest,Bilinear利用相鄰像素分別在兩個(gè)方向上進(jìn)行插值。在替換Bilinear后,模型性能有所提升。而本文所提出的DBUS模塊通過不同分支分別進(jìn)行上采樣,并在批處理歸一化后對(duì)不同的上采樣結(jié)果進(jìn)行逐元素加,再由激活函數(shù)SiLU引入更多非線性因素。相較于單一方式的采樣結(jié)果,DBUS所得到的特征圖中攜帶更多的信息量,在特征融合過程中可以向淺層特征圖傳遞更豐富的語義信息,從而提高模型對(duì)目標(biāo)的分類性能。因此,當(dāng)使用DBUS時(shí),模型精度優(yōu)于任意一種單一采樣方法。在下采樣時(shí),使用卷積或池化任意一種下采樣方式都會(huì)導(dǎo)致另一部分信息缺失,而本文所提出的DBDS模塊同時(shí)使用兩條采樣分支捕獲不同信息,有效減少信息損耗。

        表5 不同采樣方式性能對(duì)比Tab.5 Performance comparison of different sampling methods(%)

        表6 消融實(shí)驗(yàn)結(jié)果Tab.6 Ablation experiment result

        為了驗(yàn)證本文所提出的各個(gè)模塊對(duì)模型整體性能的影響,本文選取6.0版本的Yolov5-s作為基線模型,通過消融實(shí)驗(yàn)對(duì)所提出的各個(gè)模塊的有效性進(jìn)行驗(yàn)證。結(jié)果如表5所示。對(duì)于消融實(shí)驗(yàn)結(jié)果的具體分析如下:

        在未添加任何改進(jìn)模塊時(shí),基線模型的mAP50和mAP分別為53.7%和31.7%。在此基礎(chǔ)上,引入淺層高分辨率特征圖構(gòu)建新的檢測(cè)頭,mAP50和mAP增長(zhǎng)至54.8%和32.4%,但參數(shù)量有所上升。當(dāng)提高特征融合序列中淺層特征圖權(quán)重占比,并通過加大深層特征圖中卷積步距來平衡參數(shù)時(shí),mAP50和mAP進(jìn)一步增長(zhǎng)至56.1%和34.3%,并且參數(shù)量下降。NRCS模塊通過結(jié)合局部信息和全局信息,降低復(fù)雜背景對(duì)模型的影響。數(shù)據(jù)表明在加入NRCS模塊后,mAP50和mAP增長(zhǎng)至56.9%和35.1%,參數(shù)量明顯下降。考慮到現(xiàn)有特征融合方法無法高效融合多尺度信息,信息衰減嚴(yán)重,構(gòu)建DBS-FU特征融合模塊,該模塊通過并行分支生成高質(zhì)量特征圖,提高信息傳遞效率。數(shù)據(jù)表明分別加入DBUS模塊和DBDS模塊后,mAP50和mAP均出現(xiàn)上升,證明采用分支并行策略生成的采樣結(jié)果在特征融合過程中效果更優(yōu)。為了對(duì)小目標(biāo)特征進(jìn)行增強(qiáng),設(shè)計(jì)了FE-IR模塊,數(shù)據(jù)表明加入3組FE-IR模塊后,mAP50和mAP增長(zhǎng)至59.7%和37.1%,但檢測(cè)速度有所下降。鑒于FE-IR模塊即插即用,使用者可以根據(jù)需求靈活增加或減少FE-IR模塊的數(shù)量。綜上所述,消融實(shí)驗(yàn)表明本文所提的四個(gè)改進(jìn)點(diǎn)都可以提高無人機(jī)圖像目標(biāo)檢測(cè)的精度。

        3.6 算法有效性展示

        為客觀表現(xiàn)本文所提算法相較于其他算法的優(yōu)勢(shì),本文在VisDrone2019和UAVDT數(shù)據(jù)集中選取了不同場(chǎng)景下的圖片作為測(cè)試對(duì)象,不同檢測(cè)結(jié)果中差異較大的區(qū)域被黃色線框標(biāo)注(彩圖見期刊電子版)。

        如圖5所示,我們?cè)赩isDrone2019數(shù)據(jù)集中選取了四種常見的無人機(jī)圖像,分別為高空視角、低空視角、密集小目標(biāo)場(chǎng)景和夜間場(chǎng)景。圖5(a)展示無人機(jī)在城市高空捕獲的鳥瞰圖像,該類圖像分辨率較高,但背景信息復(fù)雜,容易對(duì)待測(cè)目標(biāo)造成干擾。如圖5(a)結(jié)果所示,其他檢測(cè)算法不僅將圖像右上角中的形似物體(民房、小屋等)誤判為目標(biāo),而且部分待測(cè)目標(biāo)并未被檢測(cè),而本文所提算法可以通過引入全局信息對(duì)復(fù)雜背景進(jìn)行有效抑制。圖5(b)中展示了無人機(jī)在低空作業(yè)環(huán)境下捕獲的圖像,該類圖像中目標(biāo)尺寸差異明顯。觀察結(jié)果可發(fā)現(xiàn),此類圖像中漏檢情況較為頻繁,而所提方法在檢測(cè)不同尺寸的目標(biāo)時(shí)更具有優(yōu)勢(shì)。圖5(c)展示了密集小目標(biāo)場(chǎng)景中模型的檢測(cè)性能,其他算法中將特征圖分為若干網(wǎng)格單元,每個(gè)網(wǎng)格單元預(yù)測(cè)一個(gè)目標(biāo)。當(dāng)目標(biāo)尺寸較小且排列密集時(shí),多個(gè)目標(biāo)落入同一網(wǎng)格單元的概率將大大增加,導(dǎo)致大量目標(biāo)未被檢測(cè)。而所提方法通過改進(jìn)后的檢測(cè)頭引入淺層特征層增加了網(wǎng)格單元的數(shù)量,減少了多個(gè)小尺寸目標(biāo)落入同一網(wǎng)格的概率。圖5(d)中展示了夜間場(chǎng)景的檢測(cè)結(jié)果。目標(biāo)檢測(cè)模型極易受到光線不足帶來的影響。該類圖像中,可用特征較少,目標(biāo)難以與背景分離。其他算法的檢測(cè)結(jié)果中大量受到遮擋或處于暗處的目標(biāo)未能被檢測(cè)。而本文所提算法可以提取到精細(xì)和具有鑒別性的特征,從而提高在此類場(chǎng)景中的檢測(cè)能力。

        圖5 不同算法在VisDrone2019數(shù)據(jù)集上的檢測(cè)結(jié)果對(duì)比Fig.5 Comparison of detection results of different algorithms on VisDrone2019

        圖6中展示了不同算法在UAVDT數(shù)據(jù)集上的檢測(cè)結(jié)果。結(jié)果表明,本文所提方法街道、路口、夜晚多種復(fù)雜場(chǎng)景中取得了顯著的檢測(cè)結(jié)果。

        圖6 不同算法在UAVDT數(shù)據(jù)集上的檢測(cè)結(jié)果對(duì)比Fig.6 Comparison of detection results of different algorithms on UAVDT

        不同數(shù)據(jù)集上的驗(yàn)證結(jié)果表明,本文所提方法具有抗干擾性強(qiáng)、檢測(cè)精度高、泛化能力強(qiáng)等優(yōu)勢(shì),更適合于無人機(jī)圖像目標(biāo)檢測(cè)任務(wù)。

        4 結(jié) 論

        無人機(jī)圖像中存在背景復(fù)雜、尺度變化劇烈、包含大量密集微小目標(biāo)等問題,這對(duì)無人機(jī)圖像目標(biāo)檢測(cè)任務(wù)帶來了一定挑戰(zhàn)性。針對(duì)上述問題,本文提出了一種聯(lián)合自注意力和分支采樣的無人機(jī)圖像目標(biāo)檢測(cè)方法。首先,該方法在現(xiàn)有的目標(biāo)檢測(cè)算法基礎(chǔ)上,構(gòu)建卷積和自注意力相結(jié)合的嵌套殘差模塊NRCS,通過結(jié)合局部信息和全局信息提高模型對(duì)上下文信息的捕獲能力,緩解復(fù)雜背景帶來的干擾問題。其次,針對(duì)現(xiàn)有特征融合模塊的缺陷,通過分支并行策略構(gòu)建DBS-FU特征融合模塊,提高特征融合質(zhì)量。最后,將經(jīng)過權(quán)重調(diào)整后的淺層細(xì)粒度特征圖引入到特征融合序列中,設(shè)置對(duì)應(yīng)的檢測(cè)頭以適應(yīng)尺度變化的影響,并利用提出的特征增強(qiáng)模塊FE-IR捕獲更具有鑒別能力的小目標(biāo)特征。實(shí)驗(yàn)結(jié)果表明,本文所提方法在不同場(chǎng)景中均表現(xiàn)出了良好的檢測(cè)性能。

        猜你喜歡
        分支卷積特征
        基于3D-Winograd的快速卷積算法設(shè)計(jì)及FPGA實(shí)現(xiàn)
        如何表達(dá)“特征”
        巧分支與枝
        從濾波器理解卷積
        電子制作(2019年11期)2019-07-04 00:34:38
        不忠誠(chéng)的四個(gè)特征
        基于傅里葉域卷積表示的目標(biāo)跟蹤算法
        一類擬齊次多項(xiàng)式中心的極限環(huán)分支
        抓住特征巧觀察
        一種基于卷積神經(jīng)網(wǎng)絡(luò)的性別識(shí)別方法
        線性代數(shù)的應(yīng)用特征
        河南科技(2014年23期)2014-02-27 14:19:15
        久久久极品少妇刺激呻吟网站 | 国产老熟女狂叫对白| 国产激情久久久久久熟女老人| 少妇被粗大的猛进出69影院| 大ji巴好深好爽又大又粗视频| 最近免费mv在线观看动漫| 人妻av无码系列一区二区三区| 中文字幕无码av激情不卡| 婷婷综合缴情亚洲狠狠| 日韩精品人妻中文字幕有码| 亚州中文字幕乱码中文字幕 | 老妇高潮潮喷到猛进猛出| 欧美a级在线现免费观看| 性色av闺蜜一区二区三区 | 日本伦理视频一区二区| 久久精品国产亚洲av高清三区 | 日本牲交大片免费观看| 女人体免费一区二区| 韩国女主播一区二区在线观看| 午夜无码熟熟妇丰满人妻| 久久久国产精品粉嫩av| 国产精品农村妇女一区二区三区| 一区二区激情偷拍老牛视频av| 久久精品国产亚洲av久按摩| 中文字幕人妻在线少妇| 国产人成无码视频在线观看| 老司机亚洲精品影院| 亚洲天堂中文| 国产成人无精品久久久| 国产传媒剧情久久久av| av免费观看网站大全| 性av一区二区三区免费| 国产成人精品a视频一区| 天码人妻一区二区三区| 四虎影视久久久免费| 国产一区二区在三区在线观看| 一个人午夜观看在线中文字幕 | 国产精品一区二区蜜臀av| 中国男男女在线免费av| 日本又色又爽又黄的a片18禁| 八戒网站免费观看视频|