亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

判別相關分析雙注意力機制的目標檢測算法

2022-09-06 11:08:42鄭愛玲

計算機工程與應用 2022年17期

趙珊，鄭愛玲

河南理工大學計算機科學與技術學院，河南焦作 454003

目標檢測是一種基于統(tǒng)計特征和幾何特征的圖像自動檢測過程，需要對圖像中的目標進行準確的分類和定位。作為機器視覺領域的研究熱點，廣泛地應用于智能監(jiān)控、無人機導航、智能交通等領域，但對于復雜環(huán)境中的目標，多變的光線和復雜的背景增加了目標檢測的難度。近年來，基于深度學習的目標檢測技術成為研究的熱點。

目前基于深度學習的目標檢測算法主要分為兩種，一種是以R-CNN[1]系列為代表的two-stage 目標檢測算法，此類算法首先產生區(qū)域候選框，然后再對候選區(qū)域進行分類和回歸，精度高但速度慢。另一種是以YOLO[2]、SSD[3]為代表的基于回歸的one-stage目標檢測算法，此類算法直接對目標物進行回歸，速度快但精度低。針對two-stage 以及one-stage 算法的現存缺點，如何提高算法的檢測性能近年來備受關注。

由于網絡結構的改善可增加模型的魯棒性，Shen等人[4]提出了基于圖神經網絡（GNN）的圖像識別，將視覺特征學習最大化，以實現精確的相似度估計。He等人[5]提出基于雙分支體素特征提取的三維物體檢測網絡，在小尺度目標物基礎上可捕捉更精細的幾何特征。熊偉華等人[6]提出將集成蒸餾策略和反卷積相結合用于目標檢測，對于微小物體可達到與大型物體相似的精確度。為了獲得更多的特征細節(jié)信息，將全局信息和局部信息融合在一起的思想在視覺任務中得到了廣泛的應用。Zhao等人[7]設計了金字塔池化模塊用于場景解析，提取分層的全局上下文先驗信息與局部FCN 特征連接，增加了網絡的利用率。陳灝然等人[8]基于感受野特征提取，融入特征融合模塊用于目標檢測，保證了算法的識別率。Felzenszwalb 等人[9]結合全局根模型和精細的局部模型來表示高度可變的目標，緩解了小目標的漏檢率。以上算法通過對細節(jié)特征的關注有效改善了算法性能，但在分類過程中，常會因算法模型忽略物體類別間的相關性而導致模型訓練時間過長。

典型相關分析（canonical correlation analysis，CCA[10]）通過學習兩個模態(tài)的投影矩陣，來實現跨模態(tài)之間的整體相關性，可直接對兩組隨機變量的相關關系進行研究，但沒有考慮多物體的多類別信息，一定程度上影響了算法的性能。Haghighat 等人[11]基于此提出了判別相關分析（discriminant correlation analysis，DCA）的特征融合方法，充分利用單模態(tài)類別信息，有效地將同類特征信息進行關聯，同時消除不同類別樣本之間的相關性，緩解了網絡訓練過程中的部分缺陷。后續(xù)學者[12-13]將相關分析算法同其他模型結合，并廣泛地應用于整個計算機視覺領域，但對重點信息的關注和對無關信息的抑制仍然不夠。

為解決上述局限性，Hu 等人提出注意力機制SENet[14]，較好地實現了特征通道間的相互依賴關系，但模型復雜度仍較高。針對此問題，Li 等人[15-17]提出很多改進方法。近年來，雙注意力機制的提出有助于獲得對多種語義抽象的視覺關注，但增加注意力機制的層數也容易發(fā)生過擬合。

上述算法均在不同程度上提高了檢測精度，但大部分模型經過多次卷積運算后無法檢測出分辨率較低的小目標，且受噪聲影響較大。本文針對該問題，提出一種判別相關分析的雙注意力機制的目標檢測算法，以提高小目標為出發(fā)點，將雙注意力機制與多尺度層次特征融合技術相結合，通過提取不同卷積級別的特征來檢測小目標并合理的給不同的通道分配權重，實驗表明，本文提出的算法具有可行性。

1 Faster R-CNN檢測算法

Faster R-CNN[18]是兩階段目標檢測的代表性算法，主要工作原理圖如圖1 所示。首先將圖片輸入到主干網絡中進行目標的特征提取，隨后將得到的特征圖采用區(qū)域生成網絡（region proposal networks，RPN）進行k個目標候選域（anchors）的生成，并選取不同的尺寸和比例，接著對生成的感興趣區(qū)域進行二分類，在模型測試過程中，使用NMS 算法剔除冗余建議框，并將得分較高的建議框作為感興趣區(qū)域（ROIs），通過ROI pooling層統(tǒng)一大小后，送入多分類器進行最后階段的分類與回歸。較原CNN 系列算法更新了區(qū)域生成方式，并通過兩次候選框的篩選，得到了較高的精度值，但正因為如此，網絡的耗時性也成為該算法的一大劣勢，再加上訓練過程中特征圖經過一系列操作后信息損失較多，小物體的漏檢也成為一個不可忽視的問題。

2 改進算法

Faster R-CNN 之所以會導致小目標的漏檢是因為它是一個單尺度檢測網絡，經過深度卷積后會導致特征提取不充分。針對尺度多變性問題，本文首先通過一種結合判別相關分析的特征融合技術代替常規(guī)特征融合方式，去分析變量間的相關關系來增強同類特征之間的相關性，同時最大化不同類之間的差異，保證特征間的信息交互，以緩解自然場景圖像中存在的尺度多變性問題。再者提出殘差雙注意力機制（residual attention mechanism，RAM）來挖掘類標簽和局部特征關鍵區(qū)域之間的相關性，通過調整通道的權重比，獲取更豐富的特征信息以提高算法的檢測精度。在通道注意力模型的構造過程中，通過結合空洞卷積技術設計混合卷積層，擴大感受野的同時又減少了信息損失，另外殘差結構的引入，使得全局信息和局部信息得到了有效整合，最大限度地保證了網絡的特征提取性能。本文算法的網絡模型如圖2所示。

2.1 基于判別相關分析的特征融合

信息融合是將多個信息源中獲取的數據進行綜合、以獲得精確位置的過程。在這個過程中，信息處理也在不斷地自我修正，作為圖像識別算法的關鍵環(huán)節(jié)，信息融合的方式極其重要。

對于原Faster R-CNN 使用的Concat 融合技術，隨著分辨率小的特征通道數的增多，會帶來不必要的參數的增加，且當數據集種類較多時，會對神經網絡產生無形的壓力，不僅需要分析各類別之間的聯系與區(qū)別來提高算法的準確率，還要考慮如何減少時間的消耗來提高算法的性能。

為解決這一問題，本文引入判別相關分析技術（DCA）代替常規(guī)特征融合方式，通過最大化兩個特征集對應特征之間的相關性，同時最大化類間差異性的方法來實現特征融合。其中矩陣降維作為DCA算法的核心部分，用來揭示內在線性結構，合并相似特征，去除冗余特征，數據集維數的縮減，可有效解決多類別目標特征映射訪問內存時所需的成本問題，從而加快計算速度。同時通過計算高層特征的類間散布矩陣，來突出不同類特征之間的差異，提高特征的判別能力，最后選擇串聯或相加兩種方式對不同高層特征間的顯著信息進行融合，真正做到在降低特征維數的同時提高特征的表達能力，從而提高算法檢測效果。

DCA特征融合結構如圖2中Feature Fusion部分所示。為了保證融合特征向量的最大可能長度，對于圖示五組特征，首先將秩最高的兩個特征集C1和C2通過DCA 算法融合在一起得到M12，接著將結果與下一個秩最高的特征集C3融合得到M123，對于相同等級的特征集，可隨時融合在一起，以此類推，直到最短的特征向量長度可在最后一步中確定，通過對此特征向量計算后得到兩個變換特征Z1和Z2，再對其使用串聯或相加操作得到最終融合特征，以圖像數據集的兩組高層特征矩陣C1、C2為例，DCA具體計算過程如下：

圖2 本文總體網絡結構圖Fig.2 Overall network structure of article

假設A表示圖像數據集，N是數據集的類別數量屬于A，令上述圖像數據集A采集到的特征集的兩組高層特征矩陣C1和C2為X、Y，高層特征融合后的特征M12為Z，首先根據式（1）、（2）計算出類內特征向量平均值以及類間特征向量平均值。

式（1）中表示第i類下的xij向量的平均值，ni表示第i類圖像的數量，xij∈X表示第i類的第j個樣本，式（2）中表示整個特征矩陣Q的平均值，由和可得出不同特征類間關系的散布矩陣Sbx，如式（3）所示：

式中，Q是的正交特征向量矩陣，Λ為降序排列特征值的對角陣，為了得到r階最大非零特征，取Q中前r個特征向量用φ(N×r)表示，則：

令轉換矩陣Wbx=ΦbxφΛ-1/2將Sbx單位化，并且可使得特征矩陣X的維數從p降到r，如式（7）、（8）所示：

式中，I是經過Wbx轉換降維后的類間散布矩陣，經過變換后，大大減少了高層特征中不同類別之間的聯系。

重復上述計算過程，可求得另一特征集變換矩陣Y′，為了增加X中的特征與Y中對應同類特征之間的相關性，需使用奇異值分解來對角化變換后兩個高層特征矩陣X′和Y′的類間協(xié)方差矩陣S′xy，即S′xy=X′Y′T，S′xy(r×r)=UΣVT，式中，Σ是含有非零元素的對角矩陣，則(UΣ-1/2)TS′xy(VΣ-1/2)=I。同理，令Wcx=UΣ-1/2，Wcy=VΣ-1/2為轉換矩陣，可得到最終的轉換特征集X*和Y*，如式（9）、（10）所示：

式中，Wx與Wy分別為高層特征X和Y的轉換矩陣，且X和Y經過DCA 降維后，轉換特征集的類間散度矩陣同為對角矩陣，由此可見，該算法最大化相同類之間的聯系以及不同類之間的差異的性能進一步得以體現，最后，為了不增加特征向量的維度，本文選用相加操作進行特征融合，如式（11）所示：

2.2 殘差雙注意力機制

一般來說，網絡經過一系列卷積之后，會得到部分特征信息，但不會自動區(qū)分高低頻間的詳細信息與各個類別特征間的差異性，網絡選擇性地使用特征的能力有限，鑒于注意力機制能夠選擇聚焦位置，產生更具分辨性的特征表示，且加入注意力模塊后的特征會隨著網絡的加深產生適應性的改變，本文參考雙注意力網絡CBAM[19]，并在此基礎上進行改進。通過引入殘差結構，將其與提出的雙注意力網絡相結合來構造殘差雙注意力模型，此模型將空間注意力和通道注意力并行組合，使得不同類型的有效信息被大量捕捉到，可有效增強特征辨別學習能力，在網絡訓練過程中，任務處理系統(tǒng)更專注于找到輸入數據中顯著的與當前輸出相關的有用信息，從而提高輸出的質量，且漸增的注意力模塊將帶來持續(xù)的性能提升，具體如圖3所示。首先將輸入圖像F分別進行通道注意力和空間注意力操作進行特征提取，接著通過結合判別相關分析的特征融合技術將通道注意力特征圖FMC和空間注意力特征圖FMS相加，分析變量的相關關系來增強同類特征之間的相關性，然后經過一個Sigmoid函數來學習特征通道間的非線性關系，再逐元素與原特征相乘，得到經過自適應特征學習后的加權特征圖F′，最后經過一個全局跳連將深淺層特征融合來進行信息重構，避免了高分辨率特征經過一系列操作后導致的信息丟失問題，其目標特征得到了充分學習與強化。

圖3 殘差雙注意力機制模型結構圖Fig.3 Structure diagram of residual attention mechanism model

對于一個輸入特征圖F∈RC×H×W（C、H、W表示的是特征圖的通道數、長度和寬度），殘差雙注意力模塊的計算過程如式（12）所示：

式中，MC(·)表示通道注意力操作，MS(·)表示空間注意力操作，DCA(·)為判別分析操作，σ為Sigmoid函數，F為輸入圖像，?表示元素乘法，在乘法過程中注意特征值被相應地傳播，F′為經過自適應特征學習后的加權特征圖，+表示全局跳連操作，F″為最終輸出。

2.2.1 殘差結構

隨著卷積神經網絡層數的加深，網絡的分類準確度得到一定程度的提高，但超過一定的深度后，會受低分辨率的影響，導致網絡損失值變大，分類性能發(fā)生退化。針對此問題，何凱明等人提出殘差模塊ResNet，如圖4 所示。通過在卷積層的輸入和輸出之間添加Skip Connection實現層數回退機制，經過特征圖的維度匹配后，將低層特征圖直接映射到高層，進行對應位置元素相加，得到最終殘差模塊輸出H(x)=F(x)+x。

圖4 殘差模塊Fig.4 Residual model

考慮到本文提出的雙注意力模型的深度，將殘差模塊引入本文模型中進行信息重構，在保留結構化信息的同時彌補高、低分辨率圖像之間的高頻信息損失。首先使用卷積神經網絡所學習到的結構化的圖像信息訓練一個端到端的網絡模型，再采用殘差模型將原始圖像信息與經過一系列操作后得到的對分類有利的語義信息進行結合，對丟失的高頻信息進行補償，使得目標特征得到了充分學習與強化，從而獲得具有更好視覺效果的高分辨率圖像。

2.2.2 通道注意力模型

通道注意力模型利用特征的通道間關系生成通道注意力特征圖，用來關注輸入的圖像中是否包含有意義的輸入目標，在改善深度卷積神經網絡性能方面具有巨大的潛力，具體通過自動學習的方式獲取每個通道的重要程度并為其賦予不同的權值，使得神經網絡達到對重點信息的關注以及對無關信息的抑制效果，來提高特征提取網絡的表征能力，另外通過結構化地選取輸入的子集，可有效減小處理高維輸入數據的計算負擔，降低數據維度。本文提出的通道注意力模塊具體如圖5 所示。首先將特征圖F輸入混合卷積層（mixed convolution layer，MCL）中，此模塊的設計包括并聯的四個分支，由一個卷積核大小為3×3的普通卷積層以及三個卷積核大小為3×3的空洞卷積層構成，分別對輸入特征圖進行操作，將空洞卷積三個分支的擴張率分別設置為2、3、4，通過不同擴張率的設置可獲得不同感受域的圖像信息，即可得到不同尺度的特征圖，在擴大感受野的同時，又避免了下采樣損失信息，接著將4 個分支特征圖進行融合，使得采樣更為密集，既擁有了高層特征，也沒有增加額外的參數量?；旌暇矸e層得到的特征通過全局平均池化將每個通道上的二維特征圖壓縮為一個實數，作為該通道的權重，通道注意力分支通過自動學習特征在通道維度上的權重分布來獲取每個通道的重要程度，最后經過一層全連接層將所得到的權重信息有效整合并作為預測向量進行輸出，在訓練過程中，對通道權重比不斷優(yōu)化，最大限度地保證網絡的特征提取性能，生成最終需要的通道注意力特征圖。

圖5 通道注意力網絡結構圖Fig.5 Channel attention network structure

對于輸入特征圖F∈RC×H×W，通道注意力模塊的計算過程如式（13）所示：

式中，FMC表示通道注意力特征圖，MC(·)表示通道注意力模塊的內部操作，F為輸入圖像，W為Softmax 函數，FC表示全連接層操作符，GAP(·)為全局平均池化操作，MCL(·)表示混合卷積層的內部操作，其中conv為標準卷積，dconvi為空洞卷積，i為空洞卷積的第幾分支，⊕表示元素加法。

2.2.3 空間注意力模型

空間注意力模型利用特征間的空間關系生成空間注意力特征圖，是對通道注意力特征圖的一個強化補充，兩者不同的是通道注意力關注的是每個特征面的權重，而空間注意力關注的是面上每一個局部的權重，即目標所在位置的特征信息，具體通過不同的卷積器提取圖像中的邊緣和紋理信息，來增強網絡辨別學習能力，提升算法的檢測精度，如圖6所示。首先將輸入特征圖F沿通道進行平均池化和最大池化操作，接著將聚合的通道注意力特征分成兩個二維映射：FMSAX和FASvg，分別表示通道中的平均池化特征和最大池化特征，通過標準卷積后再經過Sigmoid函數激活，最終生成二維空間注意力特征圖。

圖6 空間注意力網絡結構圖Fig.6 Spatial attention network structure

對于輸入特征圖F∈RC×H×W，空間注意力模塊的計算過程如式（14）所示：

式中，表示空間注意力特征圖，MS(·)表示空間注意力模塊的內部操作，F為輸入圖像，σ為Sigmoid 函數，f7×7表示卷積核為7×7的卷積操作，AvgPool(·)和MaxPool(·)分別表示平均池化和最大池化操作。

3 實驗

本文所用實驗配置為Windows10操作系統(tǒng)，CPU為Intel i5-3337U，主頻為1.80 GHz，內存為8 GB，GPU 為NVIDIA TITAN V，顯存大小為12 GB，開發(fā)語言為Python3，深度學習框架為TensorFlow，在梯度下降優(yōu)化過程中，初始學習率設置為0.001，動量更新和正則化權重衰減分別設置為0.9 和0.000 5，batch size 設置為32，用loss函數反向傳播來調整網絡各層的權值，用平均精度（mean average precision，MAP）作為算法的衡量指標，用每秒傳輸幀數（frames per second，FPS）來衡量算法的檢測速度。

3.1 在PASCAL VOC2007數據集上的對比實驗

本節(jié)選用PASCAL VOC2007作為實驗數據集，共有9 963張圖片，其中訓練集5 011張圖片，測試集4 952張圖片，包含20個類別。大部分圖片背景復雜，包含多種類別的多個物體，為了保證測試的公平性，所有算法迭代次數均設置為20 000 次，當迭代到15 000 步時，將學習率衰減為0.000 1。

本文提出的算法與其他4 種檢測模型在PASCAL VOC2007 數據集上的精度對比結果如表1 所示。其中YOLO[2]算法、SSD[3]算法作為一階段檢測的代表性算法，實時性較強，但因為本身固有的局限性，導致網絡利用率不高。較一階段檢測算法，Fast R-CNN[20]與Faster R-CNN[18]算法定位誤差較小，但部分物體精度值較低。而本文提出的算法以提高小目標為出發(fā)點，重點關注細節(jié)信息，通過對常規(guī)融合方式的改進，減少了不必要的參數的增加。同時殘差雙注意力機制的提出，使得神經網絡自動關注重點信息，抑制無關信息，有效提高了網絡的利用率，最終準確率達到了77.5%，與原Faster R-CNN 模型相比，精度值提升了5.3 個百分點，取得了較為不錯的檢測結果。

表1 不同目標檢測算法的實驗結果對比Table 1 Comparison of experimental results of different object detection algorithms %

對應表1數據值，將實驗結果以散點圖的形式展現如圖7所示，可以更清晰地看出本文所提算法同其他算法相比具有較好的檢測效果。

圖7 不同檢測算法的精度結果對比圖Fig.7 Comparison of accuracy results of different detection algorithms

訓練過程中的Loss 曲線圖如圖8 所示，由圖可知，在經過15 000 次迭代后本文提出的算法模型可以很好地實現收斂。

圖8 模型訓練Loss曲線圖Fig.8 Loss curves of model training

為了進一步驗證本文算法的檢測效果，不同算法在PASCAL VOC2007 數據集上的檢測結果示例如圖9 所示。由圖可知，YOLO[2]算法在很大幾率上存在漏檢、錯檢問題，Faster R-CNN[18]算法雖說能檢測出大部分目標物，但也存在不能精細化回歸定位問題，SSD[3]算法結合特征金字塔思想，部分小目標的檢測率得到了一定的提高，但檢測精度較低。本文算法吸取經驗，以關注小目標為出發(fā)點，解決了各個算法中存在的精細化回歸定位問題且各目標物的分值也有了明顯的提升，檢測效果均優(yōu)于其他幾種模型，進一步證明了本文算法的可行性。

圖9 不同目標檢測算法的實驗結果對比圖Fig.9 Comparison of experimental results of different object detection algorithms

3.2 在KITTI數據集上的對比實驗

本節(jié)選用KITTI數據集作為實驗數據集，共有7 482張圖片，其中訓練集6 001張圖片，測試集1 481張圖片，包含8個類別。為了便于統(tǒng)計分析，現將其融合為3個類別：Car、Person、Cyclist，在街景圖像中，大部分目標物與背景相似或相融，識別結果能進一步體現出算法的檢測性能，為了保證測試的公平性，所有算法模型均訓練50個Epoch。

本文提出的算法與其他4種檢測模型在KITTI數據集上的對比結果如表2 所示，其中SSD[3]的實驗結果引自文獻[21]，YOLOV3[22]、AM-YOLOV3的實驗結果引自文獻[22]，由實驗結果可知，本文檢測效果較為理想，檢測速度較YOLOV3只慢了2 FPS，基本達到了實時檢測的要求。

表2 在KITTI數據集上不同目標檢測算法的結果對比Table 2 Comparison of results of different object detection algorithms on KITTI dataset

在KITTI 數據集上不同算法及各類目標精度值的結果對比如圖10 所示。由圖可知，結合判別相關分析的特征融合技術可有效保證信息間的交互，在降低特征維數的同時能夠有效提高特征的判別能力。較Faster R-CNN[18]、SSD[3]以及YOLOV3[22]算法相比，本文算法提高了數據集中每一類目標的平均精準度。對于AM-YOLOV3[22]算法，汽車的檢測精度值略有下降，但人和自行車的精度值均有一定的提升。

圖10 不同檢測算法各類目標物的精度結果對比圖Fig.10 Comparison of accuracy results of various targets with different detection algorithms

3.3 在Portrait數據集上的對比實驗

本節(jié)選用從各個數據集中挑選出來部分數據所組成小型人像數據集作為實驗數據集，將其命名為Portrait數據集，并用LabelImg 工具做好標注信息。此類數據集一共包含5 769 張圖片，其中訓練集4 633 張圖片，測試集1 136 張圖片，分為真人、擺件、海報、雕塑等類別，為了保證測試的公平性，所有算法模型均訓練50個Epoch。

本文提出的改進算法與其他幾種檢測模型在人像數據集上的對比結果如表3 所示，由實驗數據可知，一階段檢測算法較Faster R-CNN[18]具有明顯的速度優(yōu)勢，但隨著IOU 的增大，不能與真實數據完美契合，最終達不到理想檢測效果。本文算法對于不同尺度的高低層信息，使用基于判別相關分析的方法進行特征融合，使得每個尺度特征都具有豐富的語義信息，另外混合卷積層的設計，在一定程度上融合了不同尺度的特征信息，在應對不同類別的人像時可表現出較好的檢測性能，最終達到了80.9%的準確率，檢測精度和速度較原Faster R-CNN 算法[18]分別提升了3.7%和23 FPS，取得了較為不錯的檢測結果。

表3 在Portrait數據集上不同目標檢測算法的結果對比Table 3 Comparison of results of different object detection algorithms on Portrait dataset

為了更好地理解本文各個改進模塊對檢測效果的影響，在Portrait數據集上進行消融實驗，實驗結果如表4所示。從實驗結果可以看出，DCA[11]算法的引入，有效緩解了常規(guī)特征融合方式存在的特征提取能力不足問題，保證了特征間的信息交互，且數據降維能夠有效解決多類別目標特征映射訪問內存時的所需成本問題，從而提高算法運行速度，與原Faster R-CNN[18]算法相比，MAP值從77.2%提高到77.8%，且檢測速度提升了2 FPS。殘差雙注意力網絡（RAM）的提出，不僅有助于模型有針對性地處理具有不同屬性的層次特征，而且增加了每一特征所表征的信息量，其中混合卷積層的設計在擴大感受野的同時又減少了信息損失，最大限度地保證了網絡的特征提取性能，較Faster R-CNN算法提升了3.1個百分點，速度提高了18 FPS，同時較另外兩種注意力機制SENet[14]、CBAM[19]，MAP 值分別提升了1.2 個百分點以及0.7 個百分點，檢測速度分別提升了5 FPS 以及3 FPS，完全滿足實時性檢測的要求，體現了其較好的檢測性能。

表4 在Portrait數據集上的消融實驗對比Table 4 Comparison of ablation experiments on Portrait dataset

分別將注意力機制SENet[14]、CBAM[19]以及本文提出的RAM結構結合Faster R-CNN進行訓練，三種網絡模型第一個全連接層中的參數可視化如圖11所示。由圖可知，Faster R-CNN+RAM模型結構在保證識別準確率的基礎上使用了更少的參數，具體歸因于三個方面：首先通道注意力機制采用混合卷積層的設計不僅可融合不同尺度的特征信息，且引入空洞卷積擴大感受野的同時沒有增加額外的參數量，其次使用DCA 算法代替常規(guī)融合方式，在保證信息交互的同時進行數據降維，減少了不必要的參數的增加，最后選擇不增加矩陣維度的相加操作方式進行高層特征信息集成，在一定程度上同樣保證了模型的計算量，進一步說明了本文提出的殘差雙注意力模型的優(yōu)勢。

圖11 不同注意力機制模型參數對比圖Fig.11 Comparison chart of parameters of different attention mechanism models

為了進一步驗證本文算法的有效性，將本文算法應用在Portrait 數據集上進行真值圖與預測圖的對比，結果如圖12所示，由圖可知，本文算法能夠很好地檢測出人像，使得預測圖在很大程度上接近真值圖。圖13 示例了本文算法在Portrait 數據集上的部分檢測結果，可見經過訓練的模型可以較好地實現目標檢測的功能，對于數據集中的真人，檢測效果較理想，精度值較高。對于海報中的肖像，因其特征大概率接近真人，所以檢測效果也很明顯，但對于雕塑以及小型擺件來說，由于主體缺少靈活性且部分特征不突出，導致檢測精度與另外兩類相比略有差距，此類問題也是今后研究過程中需要關注的問題。

圖12 在Portrait數據集上真值圖和預測圖的對比結果Fig.12 Comparison results of truth map and prediction map on Portrait dataset

圖13 本文算法在Portrait數據集上的部分檢測結果圖Fig.13 Part of detection results of proposed algorithm on Portrait dataset

4 結語

為解決Faster R-CNN 算法檢測小目標的不足，提出了一種基于判別相關分析的雙注意力機制的目標檢測算法。對于輸入圖像經過深度CNN 后的多尺度特征，通過結合判別相關分析的特征融合技術最大化兩個特征集中對應特征的相關關系，同時最大化不同類之間的差異，來保證信息間的交互，在降低特征維數的同時提高了特征的判別能力。對于融合后的特征，選擇引入雙注意力機制來增強網絡的信息表征能力，使得神經網絡可自動學習特征間的重要性，可有效地提升小目標的特征信息，其中混合卷積層的設計，在擴大感受野的同時，又避免了下采樣損失信息，最后結合殘差結構進行信息重構，避免了高分辨率特征信息弱化問題，大大改善了網絡的檢測性能，實驗表明，本文提出算法具有可行性。下一步將進一步改進本文方法，并嘗試與其他網絡模型結合，尋找最優(yōu)的網絡模型去解決不同光照條件下的多尺度的目標檢測問題。