亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

基于漸進式嵌套特征的融合網(wǎng)絡

2023-02-25 09:06:52孫君頂王金凱唐朝生毋小省

模式識別與人工智能 2023年1期

孫君頂王金凱唐朝生毋小省

SUN Junding1, WANG Jinkai1, TANG Chaosheng1, WU Xiaosheng1

顯著性目標檢測(Salient Object Detection, SOD)旨在檢測圖像中吸引人類注意力的對象，在計算機視覺任務中具有廣泛應用.傳統(tǒng)檢測方法往往依賴圖像局部細節(jié)和全局上下文信息，由于缺乏高級語義信息，在復雜場景上的檢測能力較弱[1-2].

近年來，基于深度學習的方法在顯著性目標檢測方面取得較優(yōu)性能[2]，尤其是基于特征金字塔網(wǎng)絡(Feature Pyramid Network, FPN)[3]的檢測框架.基于FPN的檢測框架主要分為3種類型：自底向上編碼流框架、多尺度特征預測框架和自頂向下解碼流框架.

自底向上編碼流框架基本原理是基于自底向上的編碼器實現(xiàn)特征提取，再在編碼器的頂部附加一個簡單的分類器，預測像素的顯著性映射.該框架往往設計一個或多個正向的網(wǎng)絡路徑以預測顯著性目標圖.Liu等[4]構建3種自底向上的編碼器，應對3種不同分辨率的輸入圖像.Li等[5]在設計三路徑框架提取多尺度特征的基礎上采用兩個全連接層，實現(xiàn)顯著性目標的預測.Li等[6]使用共享的自底向上編碼路徑及2個并行預測頭，完成語義分割和顯著性預測.

多尺度特征預測框架基本原理是在編碼器的多個階段進行預測.Hou等[7]在整體嵌套邊緣檢測的網(wǎng)絡體系結構[8]中引入skip-layer結構，用于增強多尺度特征.Zhao等[9]引入空間注意力機制和通道注意力機制，分別實現(xiàn)低級特征和高級特征的增強.Gao等[10]提出gOctConv(Generalized Octave Convo-lution)，基于動態(tài)權值衰減方案減少表示冗余.Wu等[11]提出CPD(Cascaded Partial Decoder),實現(xiàn)快速準確的顯著性目標檢測.之后，Wu等[12]提出SCRN(Stacked Cross Refinement Network)，通過堆疊交叉細化單元同時細化顯著目標檢測和邊緣檢測的多層次特征.

自頂向下解碼流框架采用編碼器-解碼器體系結構，由編碼器特征圖逐層融合得到解碼器.Liu等[13]提出PoolNet,設計基于池化的U型架構，同時引入全局引導模塊和特征聚合模塊,引導自頂向下的路徑.Feng等[14]提出注意反饋模塊,較好地探索物體結構.Lee等[15]提出TRACER(Extreme Atten-tion Guided Salient Object Tracing Network)，合并注意引導跟蹤模塊,檢測具有顯式邊緣的顯著對象.Liu等[16]提出PoolNet+,設計特征聚合模塊，無縫融合低級語義信息與自上而下路徑中的細粒度特征.Xie等[17]提出Pyramid Grafting Network，利用Trans-former和卷積神經(jīng)網(wǎng)絡(Convolutional Neural Net-work, CNN)主干,分別從不同分辨率圖像中提取特征，再將特征從Transformer分支移植到CNN分支.Fang等[18]設計漸進壓縮快捷路徑，將編碼器高級特征中的傳播語義信息增強到解碼器的底部卷積塊，形成密集嵌套的自上而下特征流.Zhao等[19]提出EGNet(Edge Guidance Network),通過漸進融合的方式提取顯著的對象特征，并整合局部邊緣信息和全局位置信息，得到顯著的邊緣特征.

雖然基于上述檢測框架的網(wǎng)絡在顯著性目標檢測中都取得較優(yōu)的檢測效果，但是在特征傳遞過程中往往存在語義信息被稀釋的問題，造成目標缺失、背景誤判等現(xiàn)象.同時，上述網(wǎng)絡往往只是在最后的特征融合階段才能訪問圖像的細粒度特征，造成預測結果邊緣不清晰的問題.針對上述問題，本文提出基于漸進式嵌套特征的融合網(wǎng)絡(Fusion Network Based on Progressive Nested Feature, PNFFNet).為了解決高級語義信息被逐漸稀釋的問題，設計漸進式壓縮模塊(Progressive Compression Module, PCM)，將由編碼器得到的特征圖逐步壓縮傳輸?shù)胶罄m(xù)的解碼器中，從而充分利用圖像高層特征.為了解決預測結果邊緣不清晰的問題，設計加權特征融合模塊(Weighted Feature Fusion Module, WFFM)，通過動態(tài)生成權重與編碼器各層特征圖進行融合，并映射到解碼器的每個階段，使每個階段都能訪問到既包含全局信息又包含細粒度信息的特征圖.在HKU-IS[5]、DUTS[20]、ECSSD[21]、PASCAL-S[22]、SOD[23]、DUT-O[24]這6個公開數(shù)據(jù)集上的實驗表明本文網(wǎng)絡取得較優(yōu)的檢測效果.

1 基于漸進式嵌套特征的融合

網(wǎng)絡

1.1 網(wǎng)絡結構

本文提出漸進式嵌套特征的融合網(wǎng)絡(PNFFNet)，本質仍屬于一種編碼器-解碼器結構，具體網(wǎng)絡結構如圖1所示，其中編碼器可采用去掉全連接層的特征提取網(wǎng)絡，如ResNet[25]和Effi-cientNet[26]等.

圖1以ResNet50作為編碼器骨干網(wǎng)絡為例說明.在圖中，E1表示ResNet50中的第 1個7×7的卷積模塊，E2、E3、E4、E5分別對應ResNet50中其余4個模塊，CU操作表示將輸入特征圖進行1×1卷積后再使用雙線性插值法進行上采樣，CC操作表示將輸入特征圖拼接后進行1×1卷積，F(xiàn)操作表示多個輸入特征圖拼接后進行3×3卷積，非對稱卷積模塊(Asymmetric Convolution Block, ACB)[27]實現(xiàn)對輸入特征進行3條路徑的卷積操作，得分層表示對輸入特征圖進行1×1卷積后將通道數(shù)調整為1并上采樣到原圖大小.

圖1 PNFFNet結構圖

1.2 漸進式壓縮模塊

為了避免高級語義信息被逐漸稀釋導致檢測目標不完整的問題，基于殘差連接,本文設計漸進式壓縮模塊(PCM)，具體計算過程如圖2所示.

圖2 PCM模塊計算過程

較深的特征圖能反映顯著區(qū)域的位置信息，卻丟失細粒度特征；較淺的特征圖側重于細粒度信息，卻缺少全局特征.PCM模塊的基本思想就是通過深層特征圖到淺層特征圖的系列短連接，融合深層特征圖的全局特征與淺層特征圖的細節(jié)特征，得到稠密而準確的顯著圖.具體來說，PCM模塊利用ResNet[25]的思想將語義信息使用殘差連接進行傳遞，在殘差連接中采用1×1卷積進行通道調整.在傳統(tǒng)模型中，往往采用多個3×3卷積，在解碼器的每個階段構造金字塔融合模塊，PCM采用1×1卷積，目的是為了減少參數(shù)量.

PCM的具體操作分為4個階段.第1階段，A5經(jīng)過CU操作得到與A4相同大小和通道數(shù)的特征圖，并與A4進行CC操作，得到的特征圖與A4一起傳入解碼器中.第2階段，A5、A4分別經(jīng)過2次、1次CU操作得到與A3相同大小和通道數(shù)的特征圖，并與A3進行CC操作，得到的特征圖與A3一起傳入解碼器中.第3階段和第4階段的過程可以以此類推.

1.3 加權特征融合模塊

在FPN結構中：低級特征中包含有助于重建對象邊界的空間結構信息，但只是在最終融合階段才被訪問；高級特征中包含有助于定位完整對象的語義信息，但其漸進地被傳遞至淺層，存在被稀釋的問題.而且，采用遠距離層間的間接信息傳遞，也會降低特征融合有效性,造成輸出邊界不清晰、目標不完整的現(xiàn)象.為此本文設計加權特征融合模塊(WFFM).該模塊通過加權聚合后生成既包含全局信息又包含細粒度信息的特征圖，并將其分配到解碼器的所有層中，獲得豐富的上下文信息.WFFM模塊基本結構如圖3所示.

圖3 WFFM模塊結構圖

其中，‖表示拼接操作函數(shù)，(i,j)表示每級特征圖的坐標，Hn、Wn表示第n個特征圖的高和寬，An表示第n個特征圖.權重

α=W2(ReLU(W1(Z))),

其中，W1∈RD×M、W2∈RM×N表示兩個全連接層，D表示Z的通道數(shù)，M表示轉換后的維度,本文設置為128.

1.4 非對稱卷積模塊

在ACNet(Asymmetric Convolutional Network)[27]中，為了提升模型對圖像翻轉和旋轉的魯棒性，強化特征提取能力，提出ACB模塊.為了進一步提高顯著性目標檢測性能，在本文網(wǎng)絡中也引入ACB模塊，結構如圖4所示.

圖4 ACB模塊結構圖

ACB模塊對輸入特征進行3條路徑的卷積操作，卷積核大小分別為3×3、1×3和3×1，融合3條路徑的輸出特征，得到ACB模塊的輸出.本文使用ACB模塊代替標準的方形卷積，可提高網(wǎng)絡訓練的精度，減少模型訓練的參數(shù)和復雜度，卻不會引入額外的開銷.

1.5 損失函數(shù)

為了關注突出對象的邊緣，本文采用邊緣加權二值交叉熵[28]作為損失函數(shù)，定義如下：

其中，BCE(·)表示交叉熵損失函數(shù)，γ表示常數(shù)，H、W分別表示圖像的高和寬，P表示預測圖像，Y表示標簽，Pi,j表示在(i,j)處預測值，Yi,j表示在(i,j)處標簽值，βi,j表示在位置(i,j)處分配給損失的權重，δ表示βi,j計算的窗口半徑大小.

2 實驗結果及分析

2.1 實驗設置

本文實驗采用如下6個公開數(shù)據(jù)集：DUTS數(shù)據(jù)集[20]、ECSSD數(shù)據(jù)集[21]、HKU-IS數(shù)據(jù)集[5]、PAS-CAL-S數(shù)據(jù)集[22]、SOD數(shù)據(jù)集[23]及 DUT-O數(shù)據(jù)集[24].

評價指標選擇F-measure[29]、平均絕對誤差(Mean Absolute Error, MAE)、S-measure(S)[30]、PR(Precision-Recall)曲線.

編碼骨干網(wǎng)絡分別采用ResNet[25]和Efficient-Net[26].對于ResNet，采用知識蒸餾策略[31]初始化網(wǎng)絡參數(shù).對于EfficientNet，在ImageNet[32]上預訓練并進行參數(shù)初始化.

初始學習速率設置為5e-5，動量為0.9，權重衰減為5e-4，損失函數(shù)中的超參數(shù)設置為γ=3和δ=10，優(yōu)化器選擇Adam優(yōu)化器(Adaptive Mo-ment Estimation)[33].

實驗中的所有模型均在公開的DUTS數(shù)據(jù)集上進行訓練.

模型使用PyTorch實現(xiàn)，采用48 GB的NVIDIA Quadro RTX 8000 GPU.

2.2 壓縮倍數(shù)選擇

為了降低模型復雜度和參數(shù)量，在編碼階段使用1×1卷積進行r倍通道壓縮，為了選擇合適的壓縮比，設計如下實驗.

對于EfficientNet，由于其本身為輕量級網(wǎng)絡，若采用較大的壓縮比雖然會大幅降低參數(shù)量，但導致模型性能下降較大，為此在后續(xù)的實驗中將其壓縮比設置為2.

對于ResNet50，當r=2，4，8，16，32，指標值如表1所示.由表可看出，隨著壓縮比的增大，參數(shù)量和計算量迅速下降，但效果也逐步降低.綜合考慮，在后面的實驗中設置壓縮比r=4.

表1 不同壓縮比對網(wǎng)絡性能的影響

2.3 消融實驗結果

為了驗證PCM模塊和WFFM模塊的有效性，采用ResNet50作為骨干網(wǎng)絡，DUTS數(shù)據(jù)集作為實驗數(shù)據(jù)集，共設計4組對比實驗，結果如表2所示.在表中，√表示使用該模塊，×表示未使用該模塊.由表可看出，分別加入PCM模塊和WFFM模塊后，指標值均有所提升，將二者都加入后，取得最優(yōu)效果.

表2 各模塊消融實驗結果

各模塊消融實驗的可視化對比結果如圖5所示，圖中Baseline表示沒有添加PCM模塊和WFFM模塊的特征金字塔網(wǎng)絡.由圖可看到，不采用PCM模塊和WFFM模塊時，網(wǎng)絡輸出的顯著性目標圖像存在邊緣不清晰及目標不完整的情況.當僅加入WFFM模塊時，網(wǎng)絡會關注目標邊緣，但由于特征傳遞過程中高級語義逐步被稀釋，仍存在目標缺失的情況.當僅加入PCM模塊時，目標擁有一定的完整性，但會忽略邊緣信息及細節(jié)部分.同時加入PCM模塊和WFFM模塊后，得到擁有清晰邊界和完整目標的顯著性目標圖.

(a)原始圖像 (b)真實標注

為了驗證ACB模塊對本文網(wǎng)絡的影響，分別使用ACB模塊和3×3卷積作為解碼過程中的卷積塊.解碼器使用不同卷積塊對本文網(wǎng)絡的影響如表3所示.由表可看出，相比直接使用3×3卷積，使用ACB模塊后的網(wǎng)絡性能更優(yōu).

表3 解碼器使用不同卷積塊對本文網(wǎng)絡的影響

2.4 實驗結果對比

為了進一步驗證PNFFNet的性能，本文選擇如下顯著性目標檢測網(wǎng)絡進行對比：BASNet(Boundary Aware Network)[2]、文獻[7]網(wǎng)絡、CPD[11]、SCRN[12]、TRACER[15]、PoolNet+[16]、EGNet[19]、F3Net[28]、ITSD(Lightweight Interactive Two-Stream Decoder)[34]、MINet[35].

各網(wǎng)絡在DUTS、HKU-IS數(shù)據(jù)集上的實驗結果如表4和表5所示，表中黑體數(shù)字表示最優(yōu)值，表4采用的骨干網(wǎng)絡為ResNet，表5采用的骨干網(wǎng)絡為EfficientNet.

由表4可看出，當使用ResNet作為骨干網(wǎng)絡時，傳統(tǒng)方法中EGNet效果較優(yōu)，PNFFNet略優(yōu)于EGNet，但PNFFNet參數(shù)量卻只有EGNet的1/4.

表4 基于ResNet骨干網(wǎng)絡的指標值對比

由表5可看出，當使用EfficientNet-b3作為骨干網(wǎng)絡時，PNFFNet雖然在參數(shù)量上略多于ITSD，但檢測效果在所有對比模型中明顯更優(yōu).采用Effi-cientNet-b0作為骨干網(wǎng)絡時，PNFFNet參數(shù)量明顯少于其它模型，而檢測效果并未明顯降低.

表5 基于EfficientNet骨干網(wǎng)絡的指標值對比

各網(wǎng)絡在ECSSD、PASCAL-S、SOD、DUT-O數(shù)據(jù)集上的實驗結果如表6所示，表中黑體數(shù)字表示最優(yōu)值，除標明外，其余網(wǎng)絡使用EfficientNet-b3作為骨干網(wǎng)絡.

由表6可看出，在4個數(shù)據(jù)集上，PNFFNet也取得較優(yōu)的檢測效果.

表6 各網(wǎng)絡在4個數(shù)據(jù)集上的指標值對比

為了進一步驗證PNFFNet的檢測效果，選擇如下對比網(wǎng)絡：BASNet[2]、CPD[11]、PoolNet[13]、PiCA-Net(Pixel-Wise Contextual Attention Network)[36]、U2-Net[37]、CapSal[38]、文獻[39]網(wǎng)絡.各網(wǎng)絡在DUST數(shù)據(jù)集上的PR曲線和F-measure曲線如圖6所示.PR曲線和F-measure曲線包圍的面積越大，說明該網(wǎng)絡性能越優(yōu).網(wǎng)絡均采用ResNet作為骨干網(wǎng)絡.

由圖6可明顯看出，PNFFNet以較少的參數(shù)量取得較優(yōu)效果.

(a)F-measure (b)PR

各網(wǎng)絡在DUTS數(shù)據(jù)集上的檢測結果的視覺對比如圖7所示，網(wǎng)絡均采用ResNet作為骨干網(wǎng)絡.由圖可看出，對于顯著性目標與背景高度相似圖像(第1幅和第7幅)、顯著性目標較小(第5幅)和存在多個顯著性目標圖像(第6幅和第7幅)，PNFFNet均能較好地檢測顯著性目標并給出較清晰的輪廓邊界.

(a)原始圖像

3 結束語

針對顯著性目標檢測中存在的檢測目標邊緣模糊、目標不完整和小目標漏檢的問題，基于FPN檢測框架，本文提出基于漸進式嵌套特征的融合網(wǎng)絡(PNFFNet).通過漸進式特征壓縮模塊(PCM)，將更高階段的特征融入解碼器的每個階段，從而充分利用高層語義特征，提升檢測性能和目標完整性.通過加權特征融合模塊(WFFM)，在每個階段均能融合圖像的細粒度特征，保證顯著性目標的清晰邊緣和對小目標的檢測.在廣泛應用的公開數(shù)據(jù)集上的實驗驗證PNFFNet的檢測效果較優(yōu).今后將研究與偽裝目標檢測任務的聯(lián)合學習，進一步提高網(wǎng)絡的檢測精度.