亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于注意力特征金字塔的輕量級目標(biāo)檢測算法

        2021-11-04 03:48:28趙義飛
        電子技術(shù)應(yīng)用 2021年10期
        關(guān)鍵詞:特征融合檢測

        趙義飛,王 勇

        (北京工業(yè)大學(xué) 信息學(xué)部,北京 100124)

        0 引言

        目前基于深度學(xué)習(xí)的目標(biāo)檢測算法可分為單階段檢測算法和兩階段檢測算法兩類。單階段目標(biāo)檢測算法以SSD[2]和Yolo[3-5]系列算法為代表,是一種通過在卷積神經(jīng)網(wǎng)絡(luò)提取的特征圖上設(shè)置錨點(diǎn),并對每個錨點(diǎn)上預(yù)設(shè)的不同大小和長寬比例的邊界框進(jìn)行檢測的方法。兩階段目標(biāo)檢測算法以RCNN[6-8]系列算法為代表,先在特征圖上采用額外步驟生成候選區(qū)域,再對候選區(qū)域進(jìn)行檢測。與單階段算法相比,兩階段算法一般擁有更高的檢測精度,但由于增加了額外的運(yùn)算量,檢測速度也相對較低。

        基于深度學(xué)習(xí)的目標(biāo)檢測算法擁有很好的性能,同時也有著更高的模型復(fù)雜度和計(jì)算量。實(shí)際應(yīng)用中,由于功耗、成本等限制,這些模型是難以直接部署的。為了使目標(biāo)檢測任務(wù)能在移動設(shè)備等難以提供高額算力的硬件上更好地完成,本文提出了一種基于輕量級網(wǎng)絡(luò)的檢測算法,并通過引入注意力機(jī)制使得原始特征圖具有更細(xì)粒度的特征表達(dá)能力,從而獲得更好的檢測效果。

        1 特征金字塔網(wǎng)絡(luò)

        基于深度學(xué)習(xí)的目標(biāo)檢測算法中,SSD[2]算法通過多級檢測的方式在不同尺度的原始特征圖上各自進(jìn)行預(yù)測,而FPN[9]則進(jìn)一步通過一種自頂向下的簡單的特征融合方式從原始特征圖中重構(gòu)出特征金字塔,將網(wǎng)絡(luò)淺層的強(qiáng)位置信息與深層的強(qiáng)語義信息相結(jié)合。PANet[10]在FPN 的基礎(chǔ)上添加了自底向上路徑聚合的結(jié)構(gòu),利用網(wǎng)絡(luò)淺層的位置信息增強(qiáng)了整個特征層次,縮短了淺層與深層特征之間的信息路徑。EfficientDet[11]提出了一種新型的BiFPN 結(jié)構(gòu),在對PANet 進(jìn)行了簡化之后,增加了shortcut 結(jié)構(gòu)并引入了加權(quán)策略,通過對原有特征圖整體賦予不同權(quán)重,更靈活地實(shí)現(xiàn)了多尺度特征融合。DetectoRS[12]則通過將原始FPN 融合后的輸出作為輸入重新返回到模型中再次進(jìn)行計(jì)算的方式實(shí)現(xiàn)了一種Recursion-FPN 的結(jié)構(gòu),并在目標(biāo)檢測、實(shí)例分割等多個領(lǐng)域達(dá)到了最高精度。

        2 本文方法

        選擇低計(jì)算量的神經(jīng)網(wǎng)絡(luò)作為特征提取骨架,可以顯著提升算法的檢測速度,降低算法部署的成本需求。本文以Cream[13]分類模型為基礎(chǔ),采用單階段的方式進(jìn)行檢測。Cream 模型的主體結(jié)構(gòu)由NAS(Neural Architecture Search)獲得,相比人工設(shè)計(jì)的網(wǎng)絡(luò),具有更好的特征提取性能和更少的浮點(diǎn)運(yùn)算次數(shù)。

        2.1 注意力特征金字塔網(wǎng)絡(luò)

        文獻(xiàn)[9]通過采用最鄰近插值法將深層尺寸較小的特征圖放大至與相鄰的前一層相等的方式將深層特征圖融合進(jìn)淺層達(dá)到重建特征圖的目的,這種方法簡化了計(jì)算,但不具備學(xué)習(xí)能力。文獻(xiàn)[11]通過對不同層的特征圖整體賦予權(quán)重的方式,實(shí)現(xiàn)了一種更為靈活的加權(quán)特征融合BiFPN。文獻(xiàn)[14]對卷積神經(jīng)網(wǎng)絡(luò)中特征通道之間的相互依賴關(guān)系進(jìn)行顯式建模,采用了一種全新的特征重標(biāo)定的策略,將注意力機(jī)制引入到了計(jì)算機(jī)視覺分類算法當(dāng)中。這種注意力機(jī)制使得模型能夠通過學(xué)習(xí)的方式自動獲取不同特征通道的重要程度,并相應(yīng)地對來自不同通道的特征進(jìn)行抑制或者提升,從而將更有效的特征向后傳遞,達(dá)到提升算法精度的目的。受文獻(xiàn)[11]和[14]啟發(fā),本文提出了注意力特征金字塔網(wǎng)絡(luò)(Attention-Feature Pyramid Network,AFPN),通過在通道維度進(jìn)行重新標(biāo)定的方式對原始特征圖對特征金字塔的貢獻(xiàn)進(jìn)行更為細(xì)粒度的建模。以Cream604 為例,本文將Cream604 中下采樣倍數(shù)為8 倍、16 倍、32 倍的特征圖分別記為P8、P16 和P32,并額外添加一個64 倍的下采樣層,特征圖記為P64。模型的整體結(jié)構(gòu)如圖1 所示。

        圖1 目標(biāo)檢測模型整體結(jié)構(gòu)

        由于不同層的特征圖在分辨率和通道數(shù)上都不一致,在進(jìn)行特征融合時,要對參與構(gòu)建特征金字塔的特征圖進(jìn)行調(diào)整。文獻(xiàn)[11]指出不同的輸入特征圖對特征金字塔的貢獻(xiàn)是不均等的,并通過添加權(quán)重系數(shù)來表示原始特征圖對其所參與構(gòu)建的特征金字塔層的貢獻(xiàn),通過分別將與原始特征圖相鄰的下一層和上一層特征圖按照先后次序融入的方式構(gòu)建新的特征圖。AFPN 同樣考慮了輸入特征圖對特征金字塔的貢獻(xiàn)不同,采取了一種更為細(xì)化的特征融合的方式。AFPN 以低層的特征圖為主體,采用自頂向下的方式將深層的特征圖向淺層融合,將深層富含的語義信息與淺層的位置信息相結(jié)合,以求得到更好的檢測效果。為了簡化計(jì)算,AFPN 采取最鄰近插值的方式對深層特征圖進(jìn)行上采樣。由于通過插值進(jìn)行上采樣的方式不需要進(jìn)行計(jì)算,因而沒有可供進(jìn)行學(xué)習(xí)的參數(shù)。AFPN 首先在上采樣特征圖后面添加了額外的卷積模塊,增加了上采樣特征圖的特征表達(dá)能力。隨后,AFPN 采用注意力機(jī)制對低層的特征圖和經(jīng)過上采樣的高層特征圖進(jìn)行建模,讓網(wǎng)絡(luò)通過學(xué)習(xí)的方式自動獲取原始特征圖在通道維度對新特征的重要程度。如圖2 所示,以大小為96×20×20 的特征圖P16 為例,經(jīng)AFPN 中的特征融合得到P16 out 的過程可以用如下公式描述:

        圖2 注意力特征金字塔網(wǎng)絡(luò)結(jié)構(gòu)

        其中,Upsample 表示最鄰近插值上采樣操作,這部分沒有參數(shù),不具備學(xué)習(xí)能力;P32 的大小為320×10×10,經(jīng)過上采樣后變?yōu)?20×20×20。MBConvSE 表示融合通道注意力機(jī)制的轉(zhuǎn)置瓶頸[15]結(jié)構(gòu),具體如圖3 所示。其中Conv 代表卷積運(yùn)算(Convolution),BN 代表批量歸一化操作(Batch Normalization),SE 代表基于通道的注意力模塊(Squeeze-and-Excitation block),而SE 模塊中的Global Pooling 則仍然采用全局平均池化(Global Average Pooling)的方式進(jìn)行運(yùn)算。文獻(xiàn)[15]指出,通過將特征圖擴(kuò)展至高維再降回低維的方式可以減少ReLU 激活函數(shù)對特征圖中所包含信息的損耗。AFPN 中的轉(zhuǎn)置瓶頸模塊選用了更適合低算力設(shè)備的hswish 激活函數(shù),對于P32,首先通過1×1 卷積將特征圖擴(kuò)張至640×20×20,再通過3×3卷積提取特征,最后通過1×1 卷積降維至與P16 相同的96×20×20 以便進(jìn)行特征融合;對于P16,則先擴(kuò)張為320×20×20 再調(diào)整回96×20×20。對于調(diào)整后的兩組特征圖,采用element-wise add 而不是concatenate 的方式以避免計(jì)算量的進(jìn)一步增加。AFPN 中注意力機(jī)制的實(shí)現(xiàn)也針對計(jì)算量進(jìn)行了優(yōu)化,具體為將文獻(xiàn)[14]中的SE module 中的兩個全連接層替換為1×1 卷積并保持通道數(shù)不變,并將最后的sigmoid 函數(shù)替換為hsigmoid 激活函數(shù)。此外注意力機(jī)制的實(shí)現(xiàn)被直接融合進(jìn)了轉(zhuǎn)置瓶頸結(jié)構(gòu)之中,與文獻(xiàn)[14]中的標(biāo)準(zhǔn)SE module 相比,這種方式可以在保持相似性能的同時進(jìn)一步降低運(yùn)算量。

        圖3 MBConvSE 模塊

        2.2 AFPN 損失函數(shù)計(jì)算

        AFPN 采用傳統(tǒng)的單階段目標(biāo)檢測算法的檢測模式,即對特征圖上產(chǎn)生的每個預(yù)測框進(jìn)行檢測。由于目標(biāo)檢測模型的訓(xùn)練一般是在包含多個類的數(shù)據(jù)集上進(jìn)行的,因此損失函數(shù)的計(jì)算要在所有類上進(jìn)行。記用于表示第i 個先驗(yàn)框與數(shù)據(jù)集中物體所處的真正位置在類別p 上的匹配程度,當(dāng)兩者的交并比大于預(yù)設(shè)值時,認(rèn)為該預(yù)測框?yàn)檎龢颖荆磇∈Positive,此時否則計(jì)為負(fù)樣本即i∈Negative。文獻(xiàn)[16]指出,正負(fù)樣本比例失衡是導(dǎo)致單階段目標(biāo)檢測算法精度較低的重要原因之一。采用難例挖掘的方式對整幅樣本比例進(jìn)行控制,通過將負(fù)樣本的數(shù)量控制在正樣本3 倍左右,可以簡單而有效地提高訓(xùn)練的穩(wěn)定性。最終得到的AFPN 的損失函數(shù)Loss 由定位損失Ll和類別置信度損失Lc共同組成:

        當(dāng)復(fù)雜句子中包含很多的分句而且這些分句的句法和邏輯結(jié)構(gòu),語序都與中文一致時,采用順譯的方法,即按照英語句子的語序就能直接進(jìn)行翻譯。

        3 實(shí)驗(yàn)

        3.1 數(shù)據(jù)集及評價指標(biāo)

        Pascal VOC 數(shù)據(jù)集是計(jì)算機(jī)視覺領(lǐng)域的經(jīng)典數(shù)據(jù)集,共包含了人、貓、公共汽車等在內(nèi)的20 類物體。其中VOC07 數(shù)據(jù)集共有9 963 張圖片,共包含了24 640 個帶標(biāo)注的物體;VOC12 數(shù)據(jù)集中訓(xùn)練集和驗(yàn)證集共有11 540張圖片,共包含了27 450 個帶標(biāo)注的物體。將VOC07 和VOC12 數(shù)據(jù)集中的訓(xùn)練集和驗(yàn)證集作為總訓(xùn)練集,VOC07 數(shù)據(jù)集中的測試集作為總測試集,已成為目標(biāo)檢測算法經(jīng)典的訓(xùn)練和評估方法。

        由于目標(biāo)檢測問題本質(zhì)上仍然是二分類問題,因此可將樣例按所數(shù)據(jù)集中所標(biāo)注的真實(shí)類別與模型所預(yù)測類別的組合劃分為真正例(True Positive,TP)、假正例(False Positive,F(xiàn)P)、真反例(True Negative,TN)和假反例(False Negative,F(xiàn)N)4 種情況,所有情況組成的混淆矩陣如表1 所示。

        表1 預(yù)測結(jié)果混淆矩陣

        查準(zhǔn)率(Precision)和查全率(Recall)可由表中的混淆矩陣計(jì)算得出,二者分別定義為:其中,all detections 表示所有預(yù)測框的數(shù)量,all ground truths 表示數(shù)據(jù)集中所有標(biāo)注物體的數(shù)量。對于VOC 數(shù)據(jù)集,首先計(jì)算所有不同的Recall 值,然后將每個Recall值對應(yīng)的大于等于該Recall 的最大Precision 值進(jìn)行求和平均,即得到了AP(Average Precision)值。對數(shù)據(jù)集中包含的所有類的AP 值取平均數(shù)即得到了 mAP(mean Average Precision)。mAP 作為最常用的檢測指標(biāo)之一,被廣泛應(yīng)用于圖像分類、目標(biāo)檢測等計(jì)算機(jī)視覺領(lǐng)域。

        3.2 數(shù)據(jù)預(yù)處理

        文獻(xiàn)[2]指出,通過數(shù)據(jù)增強(qiáng)的方式對數(shù)據(jù)集中的圖像進(jìn)行預(yù)處理,可以有效提升模型的檢測性能。本文采取了隨機(jī)裁剪、鏡像翻轉(zhuǎn)、圖像擴(kuò)張、隨機(jī)添加噪聲、隨機(jī)調(diào)整亮度等方式對VOC 數(shù)據(jù)集中的圖像進(jìn)行了增強(qiáng)處理,以提高模型的魯棒性。將經(jīng)過數(shù)據(jù)增強(qiáng)處理的圖像縮放到320×320 像素,并將圖像對應(yīng)的標(biāo)注信息進(jìn)行相應(yīng)調(diào)整,即得到了模型輸入值。

        3.3 模型超參數(shù)設(shè)置

        本文采用mini-batch 梯度下降法,設(shè)置batch size 為32,并使用momentum 優(yōu)化器對梯度下降過程進(jìn)行優(yōu)化,momentum 系數(shù)設(shè)置為0.9,L2 正則化系數(shù)設(shè)置為5×10-4。模型共在VOC 數(shù)據(jù)集上進(jìn)行120 000 次迭代,初始學(xué)習(xí)率設(shè)置為1×10-3,并采用動態(tài)調(diào)整學(xué)習(xí)率的方式,具體為在迭代進(jìn)行到80 000 次和100 000 次時將學(xué)習(xí)率調(diào)整為1×10-4和1×10-5,從而更助于找到模型最優(yōu)解。

        3.4 實(shí)驗(yàn)結(jié)果

        表2 比較了本文所設(shè)計(jì)的模型與目前部分主流算法在VOC 數(shù)據(jù)集上的表現(xiàn)。

        表2 不同算法在VOC 數(shù)據(jù)集上的表現(xiàn)

        可以看出,對于復(fù)雜檢測模型,以SSD300 為例,本文設(shè)計(jì)的算法在保持了與其相似輸入圖像尺寸和精度的同時,將浮點(diǎn)運(yùn)算量降低到了1/20 以下,部分圖像的檢測結(jié)果對比如圖4 所示。對于其他小型檢測模型,以YOLO Nano 為例,本文的算法依然占有精度和運(yùn)算量的優(yōu)勢。

        圖4 AFPN(左)和SSD300(右)檢測結(jié)果對比

        4 結(jié)論

        本文針對傳統(tǒng)目標(biāo)檢測算法模型復(fù)雜度高、計(jì)算量大的問題,通過對特征融合方式進(jìn)行研究,提出了一種基于注意力特征融合的輕量級檢測算法。實(shí)驗(yàn)結(jié)果證明了本文的算法的有效性,對于移動端等低算力平臺,本文的算法具有更強(qiáng)的適用性。

        猜你喜歡
        特征融合檢測
        村企黨建聯(lián)建融合共贏
        “不等式”檢測題
        “一元一次不等式”檢測題
        “一元一次不等式組”檢測題
        融合菜
        從創(chuàng)新出發(fā),與高考數(shù)列相遇、融合
        《融合》
        如何表達(dá)“特征”
        不忠誠的四個特征
        抓住特征巧觀察
        精品人妻va一区二区三区| 蜜桃在线播放免费一区二区三区 | 国产高潮精品久久AV无码| 久久免费精品视频老逼| 国产精品成人一区二区不卡| 中文字幕乱码亚洲精品一区| 亚洲人成无码网站在线观看| 久久人人爽人人爽人人片av麻烦| 日韩国产成人精品视频| 黄片一级二级三级四级| 青春草在线视频观看| 免费超爽大片黄| 成在人线av无码免费| 国产亚洲av人片在线播放| 国产自拍精品在线免费观看| 久久天天躁狠狠躁夜夜av| 国产人成午夜免电影观看| 一区二区三区岛国av毛片| 亚洲熟妇一区二区蜜桃在线观看| 日本精品少妇一区二区三区| 久久久久亚洲av无码专区桃色| 国产亚洲视频在线观看播放| 国产精品农村妇女一区二区三区| 国产日本精品视频一区二区| 亚洲国产精品福利片在线观看| 久久久久久99精品| 国成成人av一区二区三区| 亚洲av无码码潮喷在线观看| 亚洲欧美日韩综合久久久| 国产 在线播放无码不卡| 人妻少妇精品专区性色anvn| 夜鲁很鲁在线视频| 国产偷2018在线观看午夜| 亚洲一区二区三区福利久久蜜桃| 国产夫妇肉麻对白| 在线中文字幕有码中文| 国产黑色丝袜在线观看网站91| 精品无码av无码专区| 999久久久免费精品国产| 久久精品国产亚洲av成人擦边| 国产精品日韩经典中文字幕|