亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于多尺度語義的目標(biāo)檢測方法

        2024-01-22 07:18:06曾溢良呂志武
        計算機(jī)工程與設(shè)計 2024年1期
        關(guān)鍵詞:語義特征融合

        曾溢良,張 浩,呂志武

        (1.北京科技大學(xué) 自動化學(xué)院,北京 100083;2.中國航天科工集團(tuán)第二研究院 七〇六所,北京 100854)

        0 引 言

        目標(biāo)檢測作為一項(xiàng)基本的計算機(jī)視覺任務(wù),旨在找出目標(biāo)的位置并判斷目標(biāo)的類別,在遙感[1]、智能監(jiān)控[2]、智能交通[3]、缺陷檢測[4]等多個領(lǐng)域都有著廣泛的應(yīng)用。近年來,CNN憑借其強(qiáng)大的高維特征提取能力,在圖像分類競賽中取得了巨大成功。受這一進(jìn)展的啟發(fā),研究人員提出了許多基于CNN的目標(biāo)檢測算法,將CNN作為特征提取模塊融入目標(biāo)檢測框架中,極大地提高了目標(biāo)檢測算法的性能。然而,傳統(tǒng)的CNN只關(guān)注目標(biāo)本身的空間特征信息,無法有效編碼目標(biāo)與場景、目標(biāo)與目標(biāo)之間的相互關(guān)系,限制了目標(biāo)檢測算法在復(fù)雜場景下的性能。而目標(biāo)在真實(shí)場景中并不單獨(dú)存在,因此語義信息對于檢測目標(biāo)至關(guān)重要。

        本文的主要創(chuàng)新總結(jié)如下:①提出了一種新型多尺度語義特征提取方法,針對CNN特征層次化的特點(diǎn),從底層特征圖中提取局部語義信息,從高層特征圖中提取全局語義信息,實(shí)現(xiàn)了局部語義和全局語義的綜合表達(dá)。②提出了一種新型特征融合方法,將空間特征和語義特征通過對齊和歸一化,使得多特征優(yōu)勢互補(bǔ),降低信息損失,實(shí)現(xiàn)對特征的有效利用。③提出了一種新型的目標(biāo)檢測框架,將語義特征提取模塊融合到目標(biāo)檢測框架中,綜合利用了目標(biāo)自身信息和語義信息,從而提高了檢測精度。

        1 相關(guān)工作

        研究人員提出了多種方法將語義信息編碼到基于CNN的目標(biāo)檢測算法中,以增強(qiáng)CNN對語義信息的提取,取得了一定的成果。Feng等[5]提出語義信息自適應(yīng)聚合模塊(context adaptive aggregation module)從各層特征圖中提取語義信息。Chen等[6]提出了一種針對基于區(qū)域的目標(biāo)檢測方法的分層語義嵌入框架(hierarchical context embedding framework),設(shè)計圖像級類別信息嵌入模塊推進(jìn)高依賴性語義信息的特征學(xué)習(xí),并將其融合到樣例級特征,提高目標(biāo)檢測方法的分類性能。Gong等[7]針對超高分辨率遙感圖像的目標(biāo)檢測問題,設(shè)計了上下文感知卷積神經(jīng)網(wǎng)絡(luò)(context-aware convolutional neural network,CA-CNN),在端到端的目標(biāo)檢測網(wǎng)絡(luò)中集成語義感興趣區(qū)域挖掘?qū)?,?shí)現(xiàn)從前景建議中提取語義特征,在保證了網(wǎng)絡(luò)高效的前提下,提高了檢測準(zhǔn)確性。Wu等[8]提出了全局語義信息聚合模塊(global context aggregation module,GCAM),組合高層特征和底層特征的全局語義信息,提高了對密集目標(biāo)的檢測能力。Ruan等[9]設(shè)計了一種空間感知語義模塊(spatially-aware context block)通過建模目標(biāo)間的依賴關(guān)系實(shí)現(xiàn)對空間語義的學(xué)習(xí)。王鼎山等[10]利用語義細(xì)化模塊(context refinement module),將多層特征圖的語義信息進(jìn)行匯總和篩選,從而增強(qiáng)了無人機(jī)航拍圖像中小目標(biāo)的特征表示,提高了檢測效果。陳孝如等[11]利用循環(huán)神經(jīng)網(wǎng)絡(luò)充分挖掘圖像的語義信息并與注意力機(jī)制結(jié)合,實(shí)現(xiàn)了對圖像的細(xì)粒度細(xì)節(jié)的提取。張彧等[12]提出了一種全局語義感知模塊(global semantic awareness,GSA),并將其融入CNN各層中,有效編碼各層次語義信息,從而提高了對目標(biāo)位置的定位精度。

        以上這些方法都關(guān)注到了語義信息對目標(biāo)檢測的重要性,提出了多種語義信息提取的方法,提高了目標(biāo)檢測的性能。但對語義信息的細(xì)化分類研究較少,沒有深層次的分析CNN層次化特征對語義信息的影響,并提出面向CNN不同層特征圖的語義信息提取方法。本文提出了一種面向目標(biāo)檢測的多尺度語義提取網(wǎng)絡(luò)(multi-scale context extraction network,MSCE-Net),該網(wǎng)絡(luò)將CNN提取的空間特征和在CNN特征圖上提取多尺度語義特征融合,然后實(shí)現(xiàn)目標(biāo)檢測。在PASCAL VOC數(shù)據(jù)集上的測試結(jié)果驗(yàn)證了本文方法的有效性和先進(jìn)性。

        2 本文方法

        圖1 基于多尺度語義的目標(biāo)檢測方法框架

        整個過程可以用公式表示

        O=Det[f(a3,c3);f(a4,c4);f(a5,c5),P]

        (1)

        其中,O表示目標(biāo)檢測結(jié)果,P表示候選區(qū)域,Det表示目標(biāo)檢測,f() 表示融合。值得一提的是“;”表示“或”的關(guān)系,而“,”表示“與”的關(guān)系。具體到公式,表示分別結(jié)合融合特征f(a3,c3),f(a4,c4),f(a5,c5) 與候選區(qū)域P結(jié)合預(yù)測目標(biāo)的位置和類別,并將結(jié)果合并。

        2.1 特征提取

        CNN強(qiáng)大的特征提取能力是基于深度學(xué)習(xí)目標(biāo)檢測方法性能優(yōu)越的關(guān)鍵。本文利用移除了全連接層、Softmax層和均值池化層的ResNet-101作為主干網(wǎng)絡(luò),結(jié)構(gòu)見表1。

        表1 主干網(wǎng)絡(luò)結(jié)構(gòu)

        因此在每組卷積層之間利用跨連結(jié)構(gòu)讓非相鄰層相連,而不是一層一層接續(xù)相連,跨連結(jié)構(gòu)如圖2所示。傳統(tǒng)CNN結(jié)構(gòu)可以表示為H(x)=F(x), 而引入跨連結(jié)構(gòu)表示為H(x)=F(x)+x, 其中x表示網(wǎng)絡(luò)的輸入,H(x)表示網(wǎng)絡(luò)的輸出,F(xiàn)(x) 表示三層卷積的輸出。主干網(wǎng)絡(luò)選取了3種卷積:7×7、3×3和1×1。在輸入層選擇7×7這樣較大的卷積是增大卷積的感受野,增加相鄰像素的影響,提取目標(biāo)的語義信息。輸入層之后選擇3×3卷積是在降低運(yùn)算復(fù)雜度的同時,有效提取特征。而1×1卷積是為了調(diào)整特征圖維度,便于特征圖的運(yùn)算。總的來說,CNN不斷下采樣特征圖生成多尺度特征圖。其中,高層的特征圖具有的深層特征,對識別起著關(guān)鍵的作用。而底層的特征圖分辨率高,對定位目標(biāo)有優(yōu)勢。

        圖2 傳統(tǒng)CNN結(jié)構(gòu)與跨連結(jié)構(gòu)

        圖3 FPN結(jié)構(gòu)

        2.2 語義信息提取

        在深度學(xué)習(xí)目標(biāo)檢測框架中提取語義信息是本文的核心。對于圖像而言,單個像素并不是單獨(dú)存在的,而是和周圍的像素或全局的像素存在某種關(guān)系。實(shí)現(xiàn)目標(biāo)周圍像素對目標(biāo)像素影響的有效編碼,就可以提取語義信息。而循環(huán)神經(jīng)網(wǎng)絡(luò)(recurrent neural network,RNN)在基礎(chǔ)原理上符合這一要求。

        將序列數(shù)據(jù)順序輸入RNN,實(shí)現(xiàn)對當(dāng)前時刻特征以及之前時刻特征的提取,RNN的具體結(jié)構(gòu)如圖4所示。對任意時刻,網(wǎng)絡(luò)的輸入和輸出分別是x和o, 網(wǎng)絡(luò)隱含層變量為h, 網(wǎng)絡(luò)的輸入與網(wǎng)絡(luò)隱含層變量之間連接的網(wǎng)絡(luò)權(quán)重為U, 兩個相鄰時刻的網(wǎng)絡(luò)隱含層變量之間的網(wǎng)絡(luò)權(quán)重為W, 網(wǎng)絡(luò)隱含層變量與網(wǎng)絡(luò)輸出之間連接的網(wǎng)絡(luò)權(quán)重為V。 通過這樣的結(jié)構(gòu)設(shè)計,RNN實(shí)現(xiàn)了對按時間排序數(shù)據(jù)的特征提取。

        圖4 RNN結(jié)構(gòu)

        將RNN按照時間展開,具體的結(jié)構(gòu)表達(dá)如圖5所示。其中,x(t-1)、x(t) 和x(t+1) 分別表示RNN在t-1、t和t+1時刻的輸入。h(t-1)、h(t) 和h(t+1) 分別表示RNN在t-1、t和t+1時刻的隱含層變量。其中,在t時刻的隱含層變量h(t) 與t-1時刻的隱含層變量h(t-1) 和t時刻的輸入x(t) 直接相關(guān),其公式表達(dá)如下

        圖5 RNN展開結(jié)構(gòu)

        h(t)=σ(Ux(t)+Wh(t-1)+b)

        (2)

        其中,σ() 為RNN隱含層網(wǎng)絡(luò)連接的激活函數(shù),用以增加網(wǎng)絡(luò)的非線性。b為神經(jīng)網(wǎng)絡(luò)偏置。RNN在t-1、t和t+1時刻的輸出分別是o(t-1)、o(t) 和o(t+1)。t時刻的RNN輸出o(t) 與t時刻的隱含層變量h(t) 直接相關(guān),其公式表達(dá)如下

        o(t)=σ(Vh(t)+b)

        (3)

        當(dāng)輸入數(shù)據(jù)為圖像時,RNN能夠挖掘像素之間的相關(guān)性,實(shí)現(xiàn)對語義信息的有效提取。本文從上下左右4個方向提取目標(biāo)的語義信息,提出的語義提取模塊結(jié)構(gòu)如圖6所示。以方向“上”的語義信息提取為例,使用RNN在特征圖由下而上的移動,每移動一步消耗一個輸入,更新一次隱藏層狀態(tài),并產(chǎn)生一個輸出。

        圖6 語義信息提取結(jié)構(gòu)

        方向“上”的語義信息提取如公式

        (4)

        C=concat(cleft,cright,cup,cdown)

        (5)

        其中,concat() 定義為1×1卷積和ReLU(rectified linear units)激活函數(shù)。通過這種方式,輸出的特征圖取決于整個輸入,在空間上就表示為整幅圖像均會對每個像素產(chǎn)生影響,實(shí)現(xiàn)了對語義信息的編碼。

        圖7 語義金字塔

        2.3 特征融合

        將提取的語義特征融合到深度學(xué)習(xí)目標(biāo)檢測框架中是重要的研究內(nèi)容,語義特征和卷積神經(jīng)網(wǎng)絡(luò)特征的維度差異是特征融合的難點(diǎn)。提出的特征融合模塊結(jié)構(gòu)如圖8所示,首先分別從CNN特征和語義特征中利用感興趣區(qū)域?qū)R算法(region of interest align,RoI Align)[13]為每個候選區(qū)域生成大小相同的特征向量。然后對特征向量進(jìn)行批歸一化和串聯(lián)合并統(tǒng)一特征形式,并在通道方向上實(shí)現(xiàn)最終的特征融合。

        圖8 特征融合模塊結(jié)構(gòu)

        感興趣區(qū)域?qū)R解決區(qū)域特征不匹配的問題,具體操作如圖9所示。首先遍歷特征圖中所有感興趣區(qū)域,將每個感興趣區(qū)域劃分為k×k個單元,圖9中為2×2個單元。然后以每個單元的中心點(diǎn)為采樣位置,利用雙線性插值方法計算每個采樣位置的值。最后對特征圖執(zhí)行最大值池化以得到維度數(shù)固定的輸出。避免了區(qū)域不匹配的問題,使得模型能獲得位置更加準(zhǔn)確的候選區(qū)域。

        圖9 感興趣區(qū)域?qū)R

        (6)

        (7)

        之后將每一層的概率分布變換為均值為0,方差為1的標(biāo)準(zhǔn)正態(tài)分布

        (8)

        最后,引入特征重構(gòu)參數(shù)γ和β以擬合原來的分布

        (9)

        其中,y為對特征歸一化再重構(gòu)的輸出數(shù)據(jù),γ和β初始化為1和0,之后通過訓(xùn)練學(xué)習(xí)迭代更新。

        為了保持特征圖的空間信息,串聯(lián)合并歸一化后的卷積神經(jīng)網(wǎng)絡(luò)特征和語義特征,然后利用1×1卷積按照通道融合空間特征和語義特征。1×1卷積可以實(shí)現(xiàn)對兩個特征圖按照通道進(jìn)行融合,實(shí)現(xiàn)信息交互和整合,使輸出的特征圖包含語義特征。并且還可以在1×1后添加激活函數(shù)增加網(wǎng)絡(luò)的非線性,防止過擬合,增加網(wǎng)絡(luò)的泛化性。

        2.4 區(qū)域候選網(wǎng)絡(luò)

        圖10 錨框生成機(jī)制

        區(qū)域候選網(wǎng)絡(luò)產(chǎn)生大量的錨框,而這些錨框冗余了大量無效錨框,通過刪除越過圖像邊界的錨框、剔除相關(guān)性強(qiáng)的錨框等操作得到真正需要的感興趣區(qū)域。

        2.5 位置回歸和類別分類

        將目標(biāo)檢測網(wǎng)絡(luò)的位置回歸和類別分類部分聯(lián)合訓(xùn)練,以加快訓(xùn)練速度。目標(biāo)檢測網(wǎng)絡(luò)整體的損失函數(shù)由位置回歸Lcls和類別分類Lreg兩部分組成,如下

        L=Lcls+λLreg

        (10)

        其中,λ為平衡權(quán)重參數(shù)。

        具體的,Lcls為交叉熵?fù)p失函數(shù)

        (11)

        其中,yic為指示變量,當(dāng)?shù)趇個樣本為類別c時候,設(shè)置為1,否則設(shè)置為0。pic是第i個樣本預(yù)測為類別c時的概率。N為樣本數(shù)量。

        Lreg為平滑L1損失函數(shù)

        (12)

        3 實(shí)驗(yàn)結(jié)果與分析

        3.1 開發(fā)環(huán)境和網(wǎng)絡(luò)訓(xùn)練設(shè)置

        實(shí)驗(yàn)在Windows 10操作系統(tǒng)上,利用PaddlePaddle深度學(xué)習(xí)框架搭建網(wǎng)絡(luò)框架并完成訓(xùn)練和測試。GPU型號為NVIDIA GTX 3080 16 G,CPU型號為Intel Xeon E5-2609 v4 1.7 GHz,內(nèi)存大小為32 G。在訓(xùn)練中利用Xavier初始化網(wǎng)絡(luò)參數(shù),并選擇基于動量的隨機(jī)梯度下降算法作為優(yōu)化算法。

        3.2 數(shù)據(jù)集

        選擇PASCAL VOC 2007和PASCAL VOC 2012為數(shù)據(jù)集測試所提方法的有效性。PASCAL VOC 2007的訓(xùn)練集、驗(yàn)證集和測試集的數(shù)量分別為2500、2500和5000。PASCAL VOC 2012的訓(xùn)練集、驗(yàn)證集和測試集的數(shù)量分別為5700、5800和11 000。兩個數(shù)據(jù)集包含的類別數(shù)量均為20類目標(biāo),涉及到四大類生活中常見的目標(biāo)類別,包括交通工具:飛機(jī)(aero)、自行車(bike)、船只(boat)、巴士(bus)、汽車(car)、摩托車(mbike)、列車(train);動物:鳥(bird)、貓(cat)、奶牛(cow)、狗(dog)、馬(horse)、羊(sheep);生活用品:瓶子(bottle)、椅子(chair)、桌子(table)、盆栽植物(plant)、沙發(fā)(sofa)、電視(tv)以及人(person)。

        3.3 評價指標(biāo)

        利用平均精度(average precision,AP)作為評價指標(biāo),評價檢測單一類別目標(biāo)的檢測精度,同時利用均值平均精度(mean average precision,mAP)作為評價指標(biāo),評價檢測類別目標(biāo)的檢測精度,兩者的計算公式為

        (13)

        (14)

        其中,Ri和Pi分別代表類別的召回率(recall)和精準(zhǔn)率(precision),T表示類別的數(shù)量。召回率和精準(zhǔn)率的計算如下

        (15)

        (16)

        其中,TP、FP和FN分別代表正陽(true positive,TP)、假陽(false positive,F(xiàn)P)和假陰(false negative,F(xiàn)N)。

        設(shè)定坐標(biāo)系的縱軸為精確率,橫軸為召回率繪制精確率-召回率曲線(precision-recall curve,PR曲線)以直觀地評價算法的性能。PR曲線和橫縱坐標(biāo)軸之間包圍形成的面積越大,則目標(biāo)檢測方法的性能越好。

        3.4 實(shí)驗(yàn)結(jié)果

        3.4.1 對比實(shí)驗(yàn)

        對比本文方法和基線方法Faster R-CNN,在PASCAL VOC 2007和PASCAL VOC 2012的訓(xùn)練集上訓(xùn)練,然后在PASCAL VOC 2007測試上測試,繪制PR曲線如圖11所示。

        圖11 PR曲線

        可以看出本文方法的PR曲線與縱軸(precision軸)和橫軸(recall軸)所圍成的面積明顯大于Faster R-CNN,驗(yàn)證了本文方法的性能相比于Faster R-CNN有了明顯的提升。

        為更廣泛對比本文方法與其它方法,選取典型的基于CNN的目標(biāo)檢測算法,包括二階段目標(biāo)檢測方法Faster R-CNN[14],F(xiàn)aster R-CNN的改進(jìn)方法G-CNN[15],一階段檢測方法SSD[16]、YOLOv4[17],SSD的升級版本DSSD[18],二階段和一階段的結(jié)合目標(biāo)檢測方法RefineDet[19]以及經(jīng)典的融合語義信息的目標(biāo)檢測方法ION,同樣在PASCAL VOC 2007和PASCAL VOC 2012的訓(xùn)練集上訓(xùn)練,然后在PASCAL VOC 2007測試上測試,統(tǒng)計結(jié)果見表2,并將最佳AP加粗。

        可以明顯看出,本文方法和YOLOv4都取得了總體最佳,達(dá)到了83.8%的mAP,并且在相當(dāng)多的類別上都實(shí)現(xiàn)了最佳的檢測效果,驗(yàn)證了本文方法對檢測各種類別目標(biāo)均具有很好的有效性。與基線網(wǎng)絡(luò)Faster R-CNN相比,本文方法是在Faster R-CNN的基礎(chǔ)上引入語義信息以增強(qiáng)目標(biāo)檢測性能??梢钥吹剑啾扔贔aster R-CNN(VGG-16主干網(wǎng)絡(luò))和Faster R-CNN(ResNet-101主干網(wǎng)絡(luò))分別提升了10.6個百分點(diǎn)和7.4個百分點(diǎn),驗(yàn)證了本文的語義信息提取有助于提高目標(biāo)檢測性能。本文方法與經(jīng)典語義信息目標(biāo)檢測算法ION相比,提升了8個百分點(diǎn),驗(yàn)證了本文的語義信息提取方法的先進(jìn)性。與目前的主流目標(biāo)檢測方法RefineDet、YOLOv4相比,也有一定的優(yōu)勢。在自行車、鳥、船、公交車、轎車、奶牛、馬、盆栽、羊、沙發(fā)、火車以及顯示器上都取得了最佳的AP。

        為更直觀地對比本文方法與其它方法,選取了一些具有代表性的結(jié)果如圖12所示。這些圖片中目標(biāo)之間堆疊分布、目標(biāo)外形輪廓不完整等問題,容易造成漏檢、錯檢。但存在豐富的語義信息,目標(biāo)與目標(biāo)、目標(biāo)與周圍環(huán)境的依賴性明顯。本文方法實(shí)現(xiàn)了對所有目標(biāo)的檢測,沒有出現(xiàn)漏檢、錯檢現(xiàn)象。具體來說,準(zhǔn)確地檢測到了第一行圖片中被桌子擋住的人;第二行圖像中摩托車后座上的人;第三行圖片中角落里的馬;第四行圖片中公交車?yán)锏娜?。而其它沒有提取語義信息的方法Faster R-CNN和YOLOv4,存在漏檢現(xiàn)象,容易忽視被其它目標(biāo)遮擋的目標(biāo)。而ION存在對目標(biāo)重復(fù)檢測的現(xiàn)象,無法很好地剔除不必要的候選框。而本文方法對混疊目標(biāo)、小目標(biāo)的檢測效果明顯更好并且抑制了混疊目標(biāo)重復(fù)預(yù)測框的問題和小目標(biāo)漏檢問題。驗(yàn)證了本文方法實(shí)現(xiàn)了對語義信息的有效提取與編碼,從而增強(qiáng)了目標(biāo)檢測效果。

        圖12 PASCAL VOC 2007測試集上不同方法檢測效果對比

        3.4.2 消融實(shí)驗(yàn)

        (1)不同主干網(wǎng)絡(luò)的影響

        主干網(wǎng)絡(luò)作為深度學(xué)習(xí)目標(biāo)檢測方法的關(guān)鍵,本文分別選取了VGG-16、ResNet-50和ResNet-101作為主干網(wǎng)絡(luò)在PASCAL VOC 2012數(shù)據(jù)集上開展實(shí)驗(yàn),實(shí)驗(yàn)結(jié)果見表3。

        表3 不同主干網(wǎng)絡(luò)的影響

        選擇網(wǎng)絡(luò)層數(shù)最少的VGG-16作為主干網(wǎng)絡(luò)可以實(shí)現(xiàn)最快的FPS:30.4 f/s和最低的mAP:74.6%,選擇網(wǎng)絡(luò)層數(shù)最多ResNet-101作為主干網(wǎng)絡(luò)可以實(shí)現(xiàn)最高的mAP:82.4%和最慢的FPS:19.5 f/s??梢钥闯觯S著主干網(wǎng)絡(luò)層數(shù)的加深,主干網(wǎng)絡(luò)更為復(fù)雜,檢測的精度有了提高,相應(yīng)的運(yùn)算速度會下降。具體到不同檢測任務(wù),應(yīng)選擇合適的主干網(wǎng)絡(luò),平衡檢測精度和檢測速度。

        (2)特征融合方式的影響

        兩個特征圖之間逐像素相加(element-wise sum)、兩個特征圖之間逐像素相乘(element-wise product)和利用1×1卷積融合兩個特征圖是3種常見的特征圖融合方式。為驗(yàn)證不同特征融合方式對最終特征圖的影響,本文在特征融合模塊中分別利用這3種融合方式在PASCAL VOC 2012數(shù)據(jù)集上開展實(shí)驗(yàn),實(shí)驗(yàn)結(jié)果見表4。

        表4 不同特征融合方式的影響

        可以看出,相比于另兩種方法,1×1卷積的特征融合方式取得了最好的檢測精度,比其它兩種方法逐像素加和逐像素乘,mAP分別提升2.2和5.1個百分點(diǎn)。這是由于1×1卷積是一種自主學(xué)習(xí)的特征融合方法,為特征圖增加了更多的非線性,提升了特征的表達(dá)能力。而另外兩種方法是人工設(shè)計的特征融合方法,對復(fù)雜的高維特征存在應(yīng)用限制。

        3.4.3 可視化

        為進(jìn)一步直觀的驗(yàn)證所提方法的有效性,采用類激活映射的方法可視化對目標(biāo)的檢測結(jié)果,如圖13所示。

        圖13 類激活映射可視化結(jié)果

        類激活映射量化了圖像中每個像素對檢測結(jié)果的重要程度,對檢測結(jié)果越重要顏色越深??梢钥闯?,車輛、飛機(jī)、瓶子、羊等目標(biāo)均呈現(xiàn)顏色加深,表明了這些位置的像素對檢測結(jié)果的貢獻(xiàn)度最高。而其它位置的像素較淺,表明這些位置對檢測結(jié)果的貢獻(xiàn)度低。驗(yàn)證了所提方法能夠有效實(shí)現(xiàn)對目標(biāo)的檢測。

        4 結(jié)束語

        本文在深度學(xué)習(xí)目標(biāo)檢測方法的框架上引入了語義信息以提高目標(biāo)檢測算法的精度。設(shè)計語義信息提取模塊,有效編碼CNN特征圖中的每個像素受到周圍像素的作用,從而實(shí)現(xiàn)了在CNN特征圖上提取語義信息。針對CNN層次化的特點(diǎn),選擇三層特征圖,分別提取各層語義特征并與原始CNN特征融合,實(shí)現(xiàn)局部語義信息和全局語義信息、目標(biāo)空間特征和目標(biāo)語義特征的綜合利用。實(shí)驗(yàn)結(jié)果表明,本文提出的基于多尺度語義信息的目標(biāo)檢測方法有效地提高了檢測精度,尤其是對混疊目標(biāo)、小目標(biāo)有更好的檢測效果。

        猜你喜歡
        語義特征融合
        村企黨建聯(lián)建融合共贏
        融合菜
        從創(chuàng)新出發(fā),與高考數(shù)列相遇、融合
        《融合》
        語言與語義
        如何表達(dá)“特征”
        不忠誠的四個特征
        抓住特征巧觀察
        “上”與“下”語義的不對稱性及其認(rèn)知闡釋
        認(rèn)知范疇模糊與語義模糊
        国产精品国产三级国产av品爱网| 欧美日韩国产乱了伦| 性一交一乱一伦a片| 午夜毛片午夜女人喷潮视频| 在线免费观看亚洲天堂av| 精品三级国产一区二区三| 波多野结衣久久精品99e| 亚洲欧洲日产国码无码久久99| 日本韩国三级aⅴ在线观看| 蜜桃在线高清视频免费观看网址 | 美女扒开内裤让男生桶| 人片在线观看无码| 国产成人亚洲精品91专区高清 | 国产一区二区三区探花 | 国产精品丝袜美女在线观看| 久久亚洲综合亚洲综合| 国产性虐视频在线观看| 久久精品第九区免费观看| 中国国语毛片免费观看视频| 久久久久中文字幕无码少妇| 国产视频在线播放亚洲| 国产一区二区黄色录像| 少妇无码av无码专区线| 日韩成人无码v清免费| 亚洲中文字幕乱码免费看| 国产av熟女一区二区三区| 狼人香蕉香蕉在线28 - 百度| 欧美日韩不卡中文字幕在线| 日本精品一区二区三区在线播放| 日韩在线观看入口一二三四| 精品深夜av无码一区二区老年| 麻豆变态另类视频在线观看| 亚洲精品久久麻豆蜜桃| 欧美牲交a欧美牲交aⅴ| 同性男男黄g片免费网站| 天堂岛国精品在线观看一区二区| 亚洲香蕉av一区二区三区| а√资源新版在线天堂| 亚洲an日韩专区在线| 婷婷久久亚洲中文字幕| 国产精品综合色区在线观看|