亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

基于多尺度語義的目標(biāo)檢測方法

2024-01-22 07:18:06曾溢良呂志武

計算機(jī)工程與設(shè)計 2024年1期

曾溢良，張浩，呂志武

(1.北京科技大學(xué) 自動化學(xué)院，北京 100083；2.中國航天科工集團(tuán)第二研究院七〇六所，北京 100854)

0 引言

目標(biāo)檢測作為一項(xiàng)基本的計算機(jī)視覺任務(wù)，旨在找出目標(biāo)的位置并判斷目標(biāo)的類別，在遙感[1]、智能監(jiān)控[2]、智能交通[3]、缺陷檢測[4]等多個領(lǐng)域都有著廣泛的應(yīng)用。近年來，CNN憑借其強(qiáng)大的高維特征提取能力，在圖像分類競賽中取得了巨大成功。受這一進(jìn)展的啟發(fā)，研究人員提出了許多基于CNN的目標(biāo)檢測算法，將CNN作為特征提取模塊融入目標(biāo)檢測框架中，極大地提高了目標(biāo)檢測算法的性能。然而，傳統(tǒng)的CNN只關(guān)注目標(biāo)本身的空間特征信息，無法有效編碼目標(biāo)與場景、目標(biāo)與目標(biāo)之間的相互關(guān)系，限制了目標(biāo)檢測算法在復(fù)雜場景下的性能。而目標(biāo)在真實(shí)場景中并不單獨(dú)存在，因此語義信息對于檢測目標(biāo)至關(guān)重要。

本文的主要創(chuàng)新總結(jié)如下：①提出了一種新型多尺度語義特征提取方法，針對CNN特征層次化的特點(diǎn)，從底層特征圖中提取局部語義信息，從高層特征圖中提取全局語義信息，實(shí)現(xiàn)了局部語義和全局語義的綜合表達(dá)。②提出了一種新型特征融合方法，將空間特征和語義特征通過對齊和歸一化，使得多特征優(yōu)勢互補(bǔ)，降低信息損失，實(shí)現(xiàn)對特征的有效利用。③提出了一種新型的目標(biāo)檢測框架，將語義特征提取模塊融合到目標(biāo)檢測框架中，綜合利用了目標(biāo)自身信息和語義信息，從而提高了檢測精度。

1 相關(guān)工作

研究人員提出了多種方法將語義信息編碼到基于CNN的目標(biāo)檢測算法中，以增強(qiáng)CNN對語義信息的提取，取得了一定的成果。Feng等[5]提出語義信息自適應(yīng)聚合模塊(context adaptive aggregation module)從各層特征圖中提取語義信息。Chen等[6]提出了一種針對基于區(qū)域的目標(biāo)檢測方法的分層語義嵌入框架(hierarchical context embedding framework)，設(shè)計圖像級類別信息嵌入模塊推進(jìn)高依賴性語義信息的特征學(xué)習(xí)，并將其融合到樣例級特征，提高目標(biāo)檢測方法的分類性能。Gong等[7]針對超高分辨率遙感圖像的目標(biāo)檢測問題，設(shè)計了上下文感知卷積神經(jīng)網(wǎng)絡(luò)(context-aware convolutional neural network，CA-CNN)，在端到端的目標(biāo)檢測網(wǎng)絡(luò)中集成語義感興趣區(qū)域挖掘?qū)?，?shí)現(xiàn)從前景建議中提取語義特征，在保證了網(wǎng)絡(luò)高效的前提下，提高了檢測準(zhǔn)確性。Wu等[8]提出了全局語義信息聚合模塊(global context aggregation module，GCAM)，組合高層特征和底層特征的全局語義信息，提高了對密集目標(biāo)的檢測能力。Ruan等[9]設(shè)計了一種空間感知語義模塊(spatially-aware context block)通過建模目標(biāo)間的依賴關(guān)系實(shí)現(xiàn)對空間語義的學(xué)習(xí)。王鼎山等[10]利用語義細(xì)化模塊(context refinement module)，將多層特征圖的語義信息進(jìn)行匯總和篩選，從而增強(qiáng)了無人機(jī)航拍圖像中小目標(biāo)的特征表示，提高了檢測效果。陳孝如等[11]利用循環(huán)神經(jīng)網(wǎng)絡(luò)充分挖掘圖像的語義信息并與注意力機(jī)制結(jié)合，實(shí)現(xiàn)了對圖像的細(xì)粒度細(xì)節(jié)的提取。張彧等[12]提出了一種全局語義感知模塊(global semantic awareness，GSA)，并將其融入CNN各層中，有效編碼各層次語義信息，從而提高了對目標(biāo)位置的定位精度。

以上這些方法都關(guān)注到了語義信息對目標(biāo)檢測的重要性，提出了多種語義信息提取的方法，提高了目標(biāo)檢測的性能。但對語義信息的細(xì)化分類研究較少，沒有深層次的分析CNN層次化特征對語義信息的影響，并提出面向CNN不同層特征圖的語義信息提取方法。本文提出了一種面向目標(biāo)檢測的多尺度語義提取網(wǎng)絡(luò)(multi-scale context extraction network，MSCE-Net)，該網(wǎng)絡(luò)將CNN提取的空間特征和在CNN特征圖上提取多尺度語義特征融合，然后實(shí)現(xiàn)目標(biāo)檢測。在PASCAL VOC數(shù)據(jù)集上的測試結(jié)果驗(yàn)證了本文方法的有效性和先進(jìn)性。

2 本文方法

圖1 基于多尺度語義的目標(biāo)檢測方法框架

整個過程可以用公式表示

O=Det[f(a3，c3)；f(a4，c4)；f(a5，c5)，P]

(1)

其中，O表示目標(biāo)檢測結(jié)果，P表示候選區(qū)域，Det表示目標(biāo)檢測，f() 表示融合。值得一提的是“；”表示“或”的關(guān)系，而“，”表示“與”的關(guān)系。具體到公式，表示分別結(jié)合融合特征f(a3，c3)，f(a4，c4)，f(a5，c5) 與候選區(qū)域P結(jié)合預(yù)測目標(biāo)的位置和類別，并將結(jié)果合并。

2.1 特征提取

CNN強(qiáng)大的特征提取能力是基于深度學(xué)習(xí)目標(biāo)檢測方法性能優(yōu)越的關(guān)鍵。本文利用移除了全連接層、Softmax層和均值池化層的ResNet-101作為主干網(wǎng)絡(luò)，結(jié)構(gòu)見表1。

表1 主干網(wǎng)絡(luò)結(jié)構(gòu)

因此在每組卷積層之間利用跨連結(jié)構(gòu)讓非相鄰層相連，而不是一層一層接續(xù)相連，跨連結(jié)構(gòu)如圖2所示。傳統(tǒng)CNN結(jié)構(gòu)可以表示為H(x)=F(x)，而引入跨連結(jié)構(gòu)表示為H(x)=F(x)+x，其中x表示網(wǎng)絡(luò)的輸入，H(x)表示網(wǎng)絡(luò)的輸出，F(xiàn)(x) 表示三層卷積的輸出。主干網(wǎng)絡(luò)選取了3種卷積：7×7、3×3和1×1。在輸入層選擇7×7這樣較大的卷積是增大卷積的感受野，增加相鄰像素的影響，提取目標(biāo)的語義信息。輸入層之后選擇3×3卷積是在降低運(yùn)算復(fù)雜度的同時，有效提取特征。而1×1卷積是為了調(diào)整特征圖維度，便于特征圖的運(yùn)算。總的來說，CNN不斷下采樣特征圖生成多尺度特征圖。其中，高層的特征圖具有的深層特征，對識別起著關(guān)鍵的作用。而底層的特征圖分辨率高，對定位目標(biāo)有優(yōu)勢。

圖2 傳統(tǒng)CNN結(jié)構(gòu)與跨連結(jié)構(gòu)

圖3 FPN結(jié)構(gòu)

2.2 語義信息提取

在深度學(xué)習(xí)目標(biāo)檢測框架中提取語義信息是本文的核心。對于圖像而言，單個像素并不是單獨(dú)存在的，而是和周圍的像素或全局的像素存在某種關(guān)系。實(shí)現(xiàn)目標(biāo)周圍像素對目標(biāo)像素影響的有效編碼，就可以提取語義信息。而循環(huán)神經(jīng)網(wǎng)絡(luò)(recurrent neural network，RNN)在基礎(chǔ)原理上符合這一要求。

將序列數(shù)據(jù)順序輸入RNN，實(shí)現(xiàn)對當(dāng)前時刻特征以及之前時刻特征的提取，RNN的具體結(jié)構(gòu)如圖4所示。對任意時刻，網(wǎng)絡(luò)的輸入和輸出分別是x和o，網(wǎng)絡(luò)隱含層變量為h，網(wǎng)絡(luò)的輸入與網(wǎng)絡(luò)隱含層變量之間連接的網(wǎng)絡(luò)權(quán)重為U，兩個相鄰時刻的網(wǎng)絡(luò)隱含層變量之間的網(wǎng)絡(luò)權(quán)重為W，網(wǎng)絡(luò)隱含層變量與網(wǎng)絡(luò)輸出之間連接的網(wǎng)絡(luò)權(quán)重為V。通過這樣的結(jié)構(gòu)設(shè)計，RNN實(shí)現(xiàn)了對按時間排序數(shù)據(jù)的特征提取。

圖4 RNN結(jié)構(gòu)

將RNN按照時間展開，具體的結(jié)構(gòu)表達(dá)如圖5所示。其中，x(t-1)、x(t) 和x(t+1) 分別表示RNN在t-1、t和t+1時刻的輸入。h(t-1)、h(t) 和h(t+1) 分別表示RNN在t-1、t和t+1時刻的隱含層變量。其中，在t時刻的隱含層變量h(t) 與t-1時刻的隱含層變量h(t-1) 和t時刻的輸入x(t) 直接相關(guān)，其公式表達(dá)如下

圖5 RNN展開結(jié)構(gòu)

h(t)=σ(Ux(t)+Wh(t-1)+b)

(2)

其中，σ() 為RNN隱含層網(wǎng)絡(luò)連接的激活函數(shù)，用以增加網(wǎng)絡(luò)的非線性。b為神經(jīng)網(wǎng)絡(luò)偏置。RNN在t-1、t和t+1時刻的輸出分別是o(t-1)、o(t) 和o(t+1)。t時刻的RNN輸出o(t) 與t時刻的隱含層變量h(t) 直接相關(guān)，其公式表達(dá)如下

o(t)=σ(Vh(t)+b)

(3)

當(dāng)輸入數(shù)據(jù)為圖像時，RNN能夠挖掘像素之間的相關(guān)性，實(shí)現(xiàn)對語義信息的有效提取。本文從上下左右4個方向提取目標(biāo)的語義信息，提出的語義提取模塊結(jié)構(gòu)如圖6所示。以方向“上”的語義信息提取為例，使用RNN在特征圖由下而上的移動，每移動一步消耗一個輸入，更新一次隱藏層狀態(tài)，并產(chǎn)生一個輸出。

圖6 語義信息提取結(jié)構(gòu)

方向“上”的語義信息提取如公式

(4)

C=concat(cleft，cright，cup，cdown)

(5)

其中，concat() 定義為1×1卷積和ReLU(rectified linear units)激活函數(shù)。通過這種方式，輸出的特征圖取決于整個輸入，在空間上就表示為整幅圖像均會對每個像素產(chǎn)生影響，實(shí)現(xiàn)了對語義信息的編碼。

圖7 語義金字塔

2.3 特征融合

將提取的語義特征融合到深度學(xué)習(xí)目標(biāo)檢測框架中是重要的研究內(nèi)容，語義特征和卷積神經(jīng)網(wǎng)絡(luò)特征的維度差異是特征融合的難點(diǎn)。提出的特征融合模塊結(jié)構(gòu)如圖8所示，首先分別從CNN特征和語義特征中利用感興趣區(qū)域?qū)R算法(region of interest align，RoI Align)[13]為每個候選區(qū)域生成大小相同的特征向量。然后對特征向量進(jìn)行批歸一化和串聯(lián)合并統(tǒng)一特征形式，并在通道方向上實(shí)現(xiàn)最終的特征融合。

圖8 特征融合模塊結(jié)構(gòu)

感興趣區(qū)域?qū)R解決區(qū)域特征不匹配的問題，具體操作如圖9所示。首先遍歷特征圖中所有感興趣區(qū)域，將每個感興趣區(qū)域劃分為k×k個單元，圖9中為2×2個單元。然后以每個單元的中心點(diǎn)為采樣位置，利用雙線性插值方法計算每個采樣位置的值。最后對特征圖執(zhí)行最大值池化以得到維度數(shù)固定的輸出。避免了區(qū)域不匹配的問題，使得模型能獲得位置更加準(zhǔn)確的候選區(qū)域。

圖9 感興趣區(qū)域?qū)R

(6)

(7)

之后將每一層的概率分布變換為均值為0，方差為1的標(biāo)準(zhǔn)正態(tài)分布

(8)

最后，引入特征重構(gòu)參數(shù)γ和β以擬合原來的分布

(9)

其中，y為對特征歸一化再重構(gòu)的輸出數(shù)據(jù)，γ和β初始化為1和0，之后通過訓(xùn)練學(xué)習(xí)迭代更新。

為了保持特征圖的空間信息，串聯(lián)合并歸一化后的卷積神經(jīng)網(wǎng)絡(luò)特征和語義特征，然后利用1×1卷積按照通道融合空間特征和語義特征。1×1卷積可以實(shí)現(xiàn)對兩個特征圖按照通道進(jìn)行融合，實(shí)現(xiàn)信息交互和整合，使輸出的特征圖包含語義特征。并且還可以在1×1后添加激活函數(shù)增加網(wǎng)絡(luò)的非線性，防止過擬合，增加網(wǎng)絡(luò)的泛化性。

2.4 區(qū)域候選網(wǎng)絡(luò)

圖10 錨框生成機(jī)制

區(qū)域候選網(wǎng)絡(luò)產(chǎn)生大量的錨框，而這些錨框冗余了大量無效錨框，通過刪除越過圖像邊界的錨框、剔除相關(guān)性強(qiáng)的錨框等操作得到真正需要的感興趣區(qū)域。

2.5 位置回歸和類別分類

將目標(biāo)檢測網(wǎng)絡(luò)的位置回歸和類別分類部分聯(lián)合訓(xùn)練，以加快訓(xùn)練速度。目標(biāo)檢測網(wǎng)絡(luò)整體的損失函數(shù)由位置回歸Lcls和類別分類Lreg兩部分組成，如下

L=Lcls+λLreg

(10)

其中，λ為平衡權(quán)重參數(shù)。

具體的，Lcls為交叉熵?fù)p失函數(shù)

(11)

其中，yic為指示變量，當(dāng)?shù)趇個樣本為類別c時候，設(shè)置為1，否則設(shè)置為0。pic是第i個樣本預(yù)測為類別c時的概率。N為樣本數(shù)量。

Lreg為平滑L1損失函數(shù)

(12)

3 實(shí)驗(yàn)結(jié)果與分析

3.1 開發(fā)環(huán)境和網(wǎng)絡(luò)訓(xùn)練設(shè)置

實(shí)驗(yàn)在Windows 10操作系統(tǒng)上，利用PaddlePaddle深度學(xué)習(xí)框架搭建網(wǎng)絡(luò)框架并完成訓(xùn)練和測試。GPU型號為NVIDIA GTX 3080 16 G，CPU型號為Intel Xeon E5-2609 v4 1.7 GHz，內(nèi)存大小為32 G。在訓(xùn)練中利用Xavier初始化網(wǎng)絡(luò)參數(shù)，并選擇基于動量的隨機(jī)梯度下降算法作為優(yōu)化算法。

3.2 數(shù)據(jù)集

選擇PASCAL VOC 2007和PASCAL VOC 2012為數(shù)據(jù)集測試所提方法的有效性。PASCAL VOC 2007的訓(xùn)練集、驗(yàn)證集和測試集的數(shù)量分別為2500、2500和5000。PASCAL VOC 2012的訓(xùn)練集、驗(yàn)證集和測試集的數(shù)量分別為5700、5800和11 000。兩個數(shù)據(jù)集包含的類別數(shù)量均為20類目標(biāo)，涉及到四大類生活中常見的目標(biāo)類別，包括交通工具：飛機(jī)(aero)、自行車(bike)、船只(boat)、巴士(bus)、汽車(car)、摩托車(mbike)、列車(train)；動物：鳥(bird)、貓(cat)、奶牛(cow)、狗(dog)、馬(horse)、羊(sheep)；生活用品：瓶子(bottle)、椅子(chair)、桌子(table)、盆栽植物(plant)、沙發(fā)(sofa)、電視(tv)以及人(person)。

3.3 評價指標(biāo)

利用平均精度(average precision，AP)作為評價指標(biāo)，評價檢測單一類別目標(biāo)的檢測精度，同時利用均值平均精度(mean average precision，mAP)作為評價指標(biāo)，評價檢測類別目標(biāo)的檢測精度，兩者的計算公式為

(13)

(14)

其中，Ri和Pi分別代表類別的召回率(recall)和精準(zhǔn)率(precision)，T表示類別的數(shù)量。召回率和精準(zhǔn)率的計算如下

(15)

(16)

其中，TP、FP和FN分別代表正陽(true positive，TP)、假陽(false positive，F(xiàn)P)和假陰(false negative，F(xiàn)N)。

設(shè)定坐標(biāo)系的縱軸為精確率，橫軸為召回率繪制精確率-召回率曲線(precision-recall curve，PR曲線)以直觀地評價算法的性能。PR曲線和橫縱坐標(biāo)軸之間包圍形成的面積越大，則目標(biāo)檢測方法的性能越好。

3.4 實(shí)驗(yàn)結(jié)果

3.4.1 對比實(shí)驗(yàn)

對比本文方法和基線方法Faster R-CNN，在PASCAL VOC 2007和PASCAL VOC 2012的訓(xùn)練集上訓(xùn)練，然后在PASCAL VOC 2007測試上測試，繪制PR曲線如圖11所示。

圖11 PR曲線

可以看出本文方法的PR曲線與縱軸(precision軸)和橫軸(recall軸)所圍成的面積明顯大于Faster R-CNN，驗(yàn)證了本文方法的性能相比于Faster R-CNN有了明顯的提升。

為更廣泛對比本文方法與其它方法，選取典型的基于CNN的目標(biāo)檢測算法，包括二階段目標(biāo)檢測方法Faster R-CNN[14]，F(xiàn)aster R-CNN的改進(jìn)方法G-CNN[15]，一階段檢測方法SSD[16]、YOLOv4[17]，SSD的升級版本DSSD[18]，二階段和一階段的結(jié)合目標(biāo)檢測方法RefineDet[19]以及經(jīng)典的融合語義信息的目標(biāo)檢測方法ION，同樣在PASCAL VOC 2007和PASCAL VOC 2012的訓(xùn)練集上訓(xùn)練，然后在PASCAL VOC 2007測試上測試，統(tǒng)計結(jié)果見表2，并將最佳AP加粗。

可以明顯看出，本文方法和YOLOv4都取得了總體最佳，達(dá)到了83.8%的mAP，并且在相當(dāng)多的類別上都實(shí)現(xiàn)了最佳的檢測效果，驗(yàn)證了本文方法對檢測各種類別目標(biāo)均具有很好的有效性。與基線網(wǎng)絡(luò)Faster R-CNN相比，本文方法是在Faster R-CNN的基礎(chǔ)上引入語義信息以增強(qiáng)目標(biāo)檢測性能?？梢钥吹剑啾扔贔aster R-CNN(VGG-16主干網(wǎng)絡(luò))和Faster R-CNN(ResNet-101主干網(wǎng)絡(luò))分別提升了10.6個百分點(diǎn)和7.4個百分點(diǎn)，驗(yàn)證了本文的語義信息提取有助于提高目標(biāo)檢測性能。本文方法與經(jīng)典語義信息目標(biāo)檢測算法ION相比，提升了8個百分點(diǎn)，驗(yàn)證了本文的語義信息提取方法的先進(jìn)性。與目前的主流目標(biāo)檢測方法RefineDet、YOLOv4相比，也有一定的優(yōu)勢。在自行車、鳥、船、公交車、轎車、奶牛、馬、盆栽、羊、沙發(fā)、火車以及顯示器上都取得了最佳的AP。

為更直觀地對比本文方法與其它方法，選取了一些具有代表性的結(jié)果如圖12所示。這些圖片中目標(biāo)之間堆疊分布、目標(biāo)外形輪廓不完整等問題，容易造成漏檢、錯檢。但存在豐富的語義信息，目標(biāo)與目標(biāo)、目標(biāo)與周圍環(huán)境的依賴性明顯。本文方法實(shí)現(xiàn)了對所有目標(biāo)的檢測，沒有出現(xiàn)漏檢、錯檢現(xiàn)象。具體來說，準(zhǔn)確地檢測到了第一行圖片中被桌子擋住的人；第二行圖像中摩托車后座上的人；第三行圖片中角落里的馬；第四行圖片中公交車?yán)锏娜?。而其它沒有提取語義信息的方法Faster R-CNN和YOLOv4，存在漏檢現(xiàn)象，容易忽視被其它目標(biāo)遮擋的目標(biāo)。而ION存在對目標(biāo)重復(fù)檢測的現(xiàn)象，無法很好地剔除不必要的候選框。而本文方法對混疊目標(biāo)、小目標(biāo)的檢測效果明顯更好并且抑制了混疊目標(biāo)重復(fù)預(yù)測框的問題和小目標(biāo)漏檢問題。驗(yàn)證了本文方法實(shí)現(xiàn)了對語義信息的有效提取與編碼，從而增強(qiáng)了目標(biāo)檢測效果。

圖12 PASCAL VOC 2007測試集上不同方法檢測效果對比

3.4.2 消融實(shí)驗(yàn)

(1)不同主干網(wǎng)絡(luò)的影響

主干網(wǎng)絡(luò)作為深度學(xué)習(xí)目標(biāo)檢測方法的關(guān)鍵，本文分別選取了VGG-16、ResNet-50和ResNet-101作為主干網(wǎng)絡(luò)在PASCAL VOC 2012數(shù)據(jù)集上開展實(shí)驗(yàn)，實(shí)驗(yàn)結(jié)果見表3。

表3 不同主干網(wǎng)絡(luò)的影響

選擇網(wǎng)絡(luò)層數(shù)最少的VGG-16作為主干網(wǎng)絡(luò)可以實(shí)現(xiàn)最快的FPS：30.4 f/s和最低的mAP：74.6%，選擇網(wǎng)絡(luò)層數(shù)最多ResNet-101作為主干網(wǎng)絡(luò)可以實(shí)現(xiàn)最高的mAP：82.4%和最慢的FPS：19.5 f/s?？梢钥闯觯S著主干網(wǎng)絡(luò)層數(shù)的加深，主干網(wǎng)絡(luò)更為復(fù)雜，檢測的精度有了提高，相應(yīng)的運(yùn)算速度會下降。具體到不同檢測任務(wù)，應(yīng)選擇合適的主干網(wǎng)絡(luò)，平衡檢測精度和檢測速度。

(2)特征融合方式的影響

兩個特征圖之間逐像素相加(element-wise sum)、兩個特征圖之間逐像素相乘(element-wise product)和利用1×1卷積融合兩個特征圖是3種常見的特征圖融合方式。為驗(yàn)證不同特征融合方式對最終特征圖的影響，本文在特征融合模塊中分別利用這3種融合方式在PASCAL VOC 2012數(shù)據(jù)集上開展實(shí)驗(yàn)，實(shí)驗(yàn)結(jié)果見表4。

表4 不同特征融合方式的影響

可以看出，相比于另兩種方法，1×1卷積的特征融合方式取得了最好的檢測精度，比其它兩種方法逐像素加和逐像素乘，mAP分別提升2.2和5.1個百分點(diǎn)。這是由于1×1卷積是一種自主學(xué)習(xí)的特征融合方法，為特征圖增加了更多的非線性，提升了特征的表達(dá)能力。而另外兩種方法是人工設(shè)計的特征融合方法，對復(fù)雜的高維特征存在應(yīng)用限制。

3.4.3 可視化

為進(jìn)一步直觀的驗(yàn)證所提方法的有效性，采用類激活映射的方法可視化對目標(biāo)的檢測結(jié)果，如圖13所示。

圖13 類激活映射可視化結(jié)果

類激活映射量化了圖像中每個像素對檢測結(jié)果的重要程度，對檢測結(jié)果越重要顏色越深?？梢钥闯?，車輛、飛機(jī)、瓶子、羊等目標(biāo)均呈現(xiàn)顏色加深，表明了這些位置的像素對檢測結(jié)果的貢獻(xiàn)度最高。而其它位置的像素較淺，表明這些位置對檢測結(jié)果的貢獻(xiàn)度低。驗(yàn)證了所提方法能夠有效實(shí)現(xiàn)對目標(biāo)的檢測。

4 結(jié)束語

本文在深度學(xué)習(xí)目標(biāo)檢測方法的框架上引入了語義信息以提高目標(biāo)檢測算法的精度。設(shè)計語義信息提取模塊，有效編碼CNN特征圖中的每個像素受到周圍像素的作用，從而實(shí)現(xiàn)了在CNN特征圖上提取語義信息。針對CNN層次化的特點(diǎn)，選擇三層特征圖，分別提取各層語義特征并與原始CNN特征融合，實(shí)現(xiàn)局部語義信息和全局語義信息、目標(biāo)空間特征和目標(biāo)語義特征的綜合利用。實(shí)驗(yàn)結(jié)果表明，本文提出的基于多尺度語義信息的目標(biāo)檢測方法有效地提高了檢測精度，尤其是對混疊目標(biāo)、小目標(biāo)有更好的檢測效果。