亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

目標檢測中特征不匹配問題研究進展

2021-11-21 11:46:38林文杰

南昌航空大學學報(自然科學版) 2021年3期

儲珺，林文杰，徐鵬

（1. 南昌航空大學軟件學院，南昌 330063；2. 南昌航空大學信息工程學院，南昌 330063；3. 九江市0901工程管理處，江西九江 332000）

引言

目標檢測是計算機視覺的基本任務之一，旨在給定的任意圖像上對含有語義信息的目標實例進行分類和定位。其在自動駕駛、人臉識別、行人檢測、醫(yī)療檢測等方面有著重要的應用。同時，目標檢測也可以作為圖像分割、圖像描述、目標跟蹤、動作識別等更復雜的計算機視覺任務的研究基礎(chǔ)。

傳統(tǒng)目標檢測算法首先通過目標無關(guān)的滑動窗口等方法生成大量冗余的目標候選框，采用手工設(shè)計的特征提取器提取候選框特征，然后再將這些特征送入到SVM、AdaBoost分類器中判斷目標是否存在，最后對目標進行回歸。這類算法產(chǎn)生大量冗余計算，而且手工設(shè)計的特征提取器的特征表達能力有限，分類結(jié)果魯棒性較差，檢測性能往往不夠理想。

隨著計算機硬件的計算能力的飛速提升以及大規(guī)模數(shù)據(jù)處理技術(shù)的廣泛應用，深度神經(jīng)以其強大的特征提取能力被廣泛應用到模式識別的各個領(lǐng)域。相較于傳統(tǒng)目標檢測算法，深度目標檢測器無論是精度還是泛化能力都更具優(yōu)勢，摒棄了復雜的目標候選框后其推理速度更是超越前者。特別是Faster R-CNN網(wǎng)絡的誕生，將傳統(tǒng)目標檢測算法的分段操作統(tǒng)一到深度網(wǎng)絡框架之下，真正實現(xiàn)了目標檢測任務的端到端訓練以及一步推理，奠定了現(xiàn)代目標檢測器的基礎(chǔ)。

深度目標檢測已經(jīng)成為目標檢測的一個主流研究方向，按照是否生成區(qū)域候選，深度目標檢測器可以劃分為二階段目標檢測器和一階段目標檢測器。二階段目標檢測器的檢測流程與傳統(tǒng)目標檢測的流程類似，需要先生成候選區(qū)域，這一過程通常由RPN(Region Proposal Network) 實現(xiàn)；然后通過池化操作從候選區(qū)域提取出目標，進行分類和回歸。由于候選區(qū)域是由網(wǎng)絡生成的，具有不俗的定位精度，因此后續(xù)的回歸操作相當于進一步微調(diào)了定位邊界框，因此二階段目標檢測器具有更好的定位精度。一階段目標檢測器取消了區(qū)域候選生成操作，盡管這帶來更為嚴重的樣本失衡以及定位精度較差的問題，但也因此具有更快的運算速度，能滿足實時性的要求，具有更好的應用前景。特別是FCOS，YoLo系列等優(yōu)秀工作的提出，使得一階段目標檢測器在檢測性能上能夠媲美甚至超過大部分二階段目標檢測器。

盡管深度目標檢測器已經(jīng)具備了很好的檢測性能，但其本身包含了分類和回歸兩個目標完全不同的子任務，而現(xiàn)有的大部分目標檢測算法中采用參數(shù)共享的檢測網(wǎng)絡實現(xiàn)分類和回歸任務，導致現(xiàn)有的深度目標檢測器性能提升出現(xiàn)瓶頸。深度目標檢測器本質(zhì)上是對于目標特征的處理函數(shù)，即接受目標的特征作為輸入，產(chǎn)生相應的分類和定位輸出。因此不難看出，分類任務和回歸任務之間的沖突本質(zhì)上是分類特征和回歸特征之間的沖突，這種沖突源自于分類特征和回歸特征的差異，其對檢測性能所造成的影響稱為特征不匹配問題。

本文首先分析特征不匹配問題的原因，指出特征不匹配問題對于網(wǎng)絡的輸出響應造成的影響，然后詳細介紹現(xiàn)有的解決方案，最后給出對于此問題的思考和未來的發(fā)展方向，為日后的研究提供一個可供參考的研究路徑。

1 特征不匹配問題

首先從目標檢測中分類和和回歸任務的本質(zhì)來描述特征不匹配問題。目標檢測中的分類和回歸任務可以描述為：

其中：φ表示仿射變換函數(shù)；p和p分別表示分類特征和回歸特征；F和F分別表示分類函數(shù)和回歸函數(shù)。從式(1)、式(2)可以看出分類函數(shù)和回歸函數(shù)對于輸入的響應存在差別，也就是說分類任務和回歸任務目標不一致。

深度目標檢測器中分類和回歸任務是通過對目標函數(shù)的優(yōu)化來完成。目標檢測的分類和回歸任務的目標函數(shù)可以定義為：

其中：L和 L分別表示分類目標函數(shù)和回歸目標函數(shù)；f表示one-hot函數(shù)；和Δ分別表示分類標簽和回歸標簽。從式(3)、式(4)可以看出分類任務的輸出是離散的，目標是尋找目標類別的決策邊界；而回歸任務的輸出是連續(xù)的，目標是尋找真實目標框的最優(yōu)擬合。因此，分類任務和回歸任務的輸出空間也是不一致的。

由上述分析可知目標檢測的分類和回歸任務在目標和網(wǎng)絡的輸出上都存在不一致。那么分類和回歸任務的輸入特征是否也存在這種不一致性？

為了更好地說明這個問題，分別對并聯(lián)檢測網(wǎng)絡的分類特征和回歸特征進行可視化，可視化結(jié)果如圖1所示。其中：圖1a中第一行表示分類置信度高但定位精度低的候選框會抑制分類置信度低但定位精度高的候選框；第二行表示分類特征和回歸特征的聯(lián)合分布以及密集預測策略，其中紅色框均為真實目標框。圖1b給出了并聯(lián)檢測網(wǎng)絡輸出的前一層的特征熱圖，熱圖中顏色越深的地方說明響應越強，可以看出分類特征和回歸特征的分布有著非常明顯的差異。分類特征更多聚集在真實目標中包含更多語義信息的顯著區(qū)域，而回歸特征則更多分布在真實目標框的邊緣，也就是說分類任務和回歸任務的輸入特征確實是存在不一致性。

圖1 特征不匹配問題

從上面的分析和實驗結(jié)果都證明了目標檢測中確實存在特征不匹配的問題，本文認為這種不匹配是由于分類任務和回歸任務的監(jiān)督目標的差異造成的。下面從網(wǎng)絡的監(jiān)督優(yōu)化過程來分析這種特征不匹配產(chǎn)生的原因。

在分類任務中，目標是訓練一個對真實標簽具有最大激活值的檢測器，而不關(guān)心它的真實類別，如常用的BCE (Binary Cross Entropy) 損失函數(shù)，標簽與分類預測之間在計算損失時并沒有明確的偏差，顯然這并不是一個度量空間。這意味網(wǎng)絡在訓練過程中只需要學習讓偏好類別的響應比其他類別高即可的推理模式。因此，隨著訓練的進行，為了更好的分類，網(wǎng)絡會更加關(guān)注不變的核心特征。

在回歸任務中，網(wǎng)絡需要預測當前空間位置與目標空間位置的偏移量，得到準確的真實空間坐標。無論選擇?1還是作為損失函數(shù)，顯然都滿足度量空間的約束。由于使用真實目標框作為回歸目標，為了學習準確的距離度量，網(wǎng)絡更注重邊緣特征來確定目標與背景的邊界，從而獲得更精確的候選邊界框。這就是分類特征和回歸特征的本質(zhì)區(qū)別。

另一方面，注意到圖1c中分類和回歸的響應峰值存在明顯差異。這種差異顯然與其各自特征分布相關(guān)，我們認為是由于特征分布的不對齊導致了響應分布的不一致。也就是說，解決特征不對齊問題需要兼顧特征不匹配以及響應不一致兩個方面。接下來，將分別詳細描述特征不匹配問題當前的解決方案以及響應不一致和特征不匹配問題的聯(lián)系及其現(xiàn)有工作。

2 特征不匹配的解決方案

正如前面分析，特征不匹配是由于分類特征和回歸特征的分布不一致造成的，參數(shù)共享的并聯(lián)檢測網(wǎng)絡顯然不能很好地編碼這種差異，限制了網(wǎng)絡的檢測性能。因此，如何有效地分離分類特征和回歸特征，成為目前解決特征不匹配問題的主要方法。

RetinaNet是第一個提出用參數(shù)獨立的并聯(lián)檢測網(wǎng)絡代替共享檢測網(wǎng)絡。因為參數(shù)獨立的分類網(wǎng)絡和回歸網(wǎng)絡在各自的監(jiān)督信號下可以分別對分類特征和回歸特征進行編碼，其特征表達的準確性要高于共享檢測網(wǎng)絡。但并聯(lián)檢測網(wǎng)絡同時也意味著網(wǎng)絡參數(shù)的增加，在深度神經(jīng)網(wǎng)絡中參數(shù)的增加在一定程度上能帶來檢測器性能的提升，因此并不能簡單地把檢測性能的提升簡單地歸結(jié)于并聯(lián)檢測網(wǎng)絡對于沖突特征的分離，而且文中也沒有具體分析對特征不匹配的原因。

Wu 等采用并聯(lián)檢測網(wǎng)和共享檢測網(wǎng)絡的不同組合進行實驗，進一步研究檢測網(wǎng)絡對分類和回歸的影響。實驗采用全連接子網(wǎng)絡和卷積子網(wǎng)絡以共享或者并聯(lián)的方式，通過不同的排列組合構(gòu)建了四組用于對照實驗的檢測網(wǎng)絡 (如圖2所示)，分別進行訓練后在測試集上測試其性能。不同檢測網(wǎng)絡在MS COCO數(shù)據(jù)集上的檢測性能如表1所示。

圖2 Double-Head不同檢測網(wǎng)絡對照

表1 不同檢測網(wǎng)絡的性能

從圖2a、圖2c可以看出網(wǎng)絡檢測性能的提升與采用并聯(lián)檢測網(wǎng)絡后網(wǎng)絡參數(shù)增加無關(guān)，因為采用了并聯(lián)檢測網(wǎng)絡(圖2c)的性能要低于采用共享檢測網(wǎng)絡(圖2a)。同樣地從圖2c、圖2d可以看出目標檢測中分類任務和回歸任務確實存在不一致性。分別采用全連接網(wǎng)絡和卷積網(wǎng)絡用于分類與回歸任務的監(jiān)測性能要比卷積網(wǎng)絡用于分類、全連接網(wǎng)絡用于回歸的AP高出6%。因為分類任務比回歸任務更側(cè)重于目標的語義信息，而卷積網(wǎng)絡保留的空間結(jié)構(gòu)信息更有助于目標的定位。在不考慮網(wǎng)絡結(jié)構(gòu)具體設(shè)計的前提下，圖2d可以看作是參數(shù)獨立的并聯(lián)檢測網(wǎng)絡，圖2a可以看作是參數(shù)共享的并聯(lián)檢測網(wǎng)絡。

TSD認為盡管Double-Head采用并聯(lián)檢測網(wǎng)絡有效地分離了來自于FPN的共享特征中的分類特征和回歸特征，使得并聯(lián)檢測網(wǎng)絡的分類和回歸特征的編碼更精確。但是，文中認為其分類子網(wǎng)絡和回歸子網(wǎng)絡的池化操作提取的目標特征來自于相同的目標候選區(qū)域，從空間上看2個子網(wǎng)絡的特征仍然來自于相同的區(qū)域，也就是說兩者的輸入特征編碼是相同的。因為RoIAlign操作不帶參數(shù)，因此輸入相同的情況下輸出也是相同。所以作者認為分類特征和回歸特征的沖突仍然存在，并提出了任務敏感的空間解耦操作(Task-aware Spatial Disentanglement，TSD)來解決這一問題。具體來說，就是引入可變形RoI池化替代RoIAlign操作，通過可變形RoI池化學習的偏移參數(shù)使分類子網(wǎng)絡和回歸子網(wǎng)絡從目標候選區(qū)域的不同空間位置提取合適的特征，極大地增強了并聯(lián)網(wǎng)絡對于分類特征和回歸特征的編碼能力，將網(wǎng)絡在MSCOCO val2017上的檢測性能從36.1%提升到了38.2%。

不難看出，上述工作均在模型的檢測網(wǎng)絡中對來自主干網(wǎng)絡的共享特征進行解耦操作，這說明目標檢測中分類特征和回歸特征的分布是不一致的，對分類特征和回歸特征進行分離可以有效地緩解特征不匹配問題。

3 響應不一致及其解決方案

現(xiàn)代深度目標檢測器為了提升召回率，通常采用密集預測策略，即網(wǎng)絡在特征映射的每個空間位置上都進行預測。對于同一實例，將不可避免地會產(chǎn)生多個輸出，如圖1a。從圖1c可以看出分類和回歸在最高響應上存在明顯差異，本文認為其很大程度是由于分類特征和回歸特征的分布差異，造成置信度高但定位精度低的問題，即分類和回歸響應不一致問題。對于這一問題的目前解決方法可以分為三類：基于不同重疊閾值的多區(qū)域候選網(wǎng)絡的方法，增加額外的定位置信度分支的方法，聯(lián)合預測分類和回歸分布的方法。

基于錨框的方法采用具有不同重疊閾值的多個區(qū)域候選網(wǎng)絡來篩選出定位精度更高的樣本，通過高重疊閾值的級聯(lián)區(qū)域候選網(wǎng)絡施加額外的分類損失提高這些樣本的分類響應，增加推理時高置信度且高定位精度的樣本的數(shù)量。這類似于門控機制，一般采用三層級聯(lián)的方式，重疊閾值從低到高分別取0.5、0.75和0.95。樣本的定位精度越高，施加的額外的分類損失也越大。不過，這種基于樣本篩選機制的級聯(lián)結(jié)構(gòu)往往會增加模型的復雜度，網(wǎng)絡在訓練時難以收斂。

增加額外的定位置信度分支的方法要簡潔有效得多。當前大多數(shù)目標檢測器采用分類置信度作為后處理中非極大值抑制選擇最優(yōu)預測邊界框的度量。但正如前文所述，網(wǎng)絡的分類響應和回歸響應并不一致，因此使用分類置信度選擇目標候選框并不一定是最好的定位結(jié)果。當前網(wǎng)絡中缺少能夠直接度量定位精度的結(jié)果，因此Jiang等首次提出添加額外的定位置信度分支來預測定位精度的方法。定位置信度分支和分類分支類似，但預測結(jié)果是定位的精確度，用于替代分類置信度在極大值抑制操作中作為最好目標候選框選擇的度量或者作為調(diào)整分類置信度的權(quán)重。因為僅僅增加一個額外的分支，無論是計算量還是參數(shù)數(shù)量都遠小于級聯(lián)區(qū)域候選網(wǎng)絡的方法，訓練復雜度也大大降低。

Li等首次提出了預測分類和回歸聯(lián)合分布的方法，通過分類和回歸的聯(lián)合權(quán)重來調(diào)整樣本的分類和回歸的梯度更新權(quán)重；另一方面采用分類和回歸的聯(lián)合標簽作為分類的優(yōu)化目標，讓分類的預測輸出不僅包含類別信息，同時還包含定位的準確性度量。避免增加定位置信度預測分支所帶來的計算增加，也可以解決定位置信度預測帶來的誤差問題。在這一方向上，Li 等進一步提出的generalized focal loss (GFL) 分類損失，直接采用回歸精度作為分類任務的訓練標簽，這是因為除了類別的通道信息外分類的真實目標并不能為分類和回歸響應的平衡提供額外的有效信息。而定位精度的預測，顯然能夠更準確地描述當前樣本的定位效果。

這一類工作開創(chuàng)了采用分類分支預測定位精度的全新研究方向，我們對它們進行總結(jié)并形式化如下：

其中：loc和cls分別表示第個樣本的分類置信度和回歸置信度(樣本和真實目標之間的IoU)；(·)表示分類損失函數(shù)；α和γ是權(quán)重調(diào)節(jié)因子。表示變換函數(shù)，用以調(diào)整分類置信度和定位精度的幅值。

當α的取值范圍為(0,1)之間時，式7為Li等人提出分類和回歸的聯(lián)合預測損失；當α設(shè)為1，變換函數(shù)設(shè)為(cls?loc)，則為GFL分類損失。

上述方法在一定程度上都可以視為利用樣本和真實目標之間的IoU來調(diào)節(jié)分類預測，從而調(diào)整分類響應和回歸響應之間的不一致性，但也可以看出這些方法還沒有很好地和特征解耦操作相結(jié)合，進一步調(diào)整網(wǎng)絡中的特征不匹配問題。

4 未來研究方向

從上文可以看到，特征不匹配問題同時存在分類特征和回歸特征空間分布不一致的問題以及兩種特征空間分布差異帶來分類響應和回歸響應不一致的問題。這兩個問題并不是相互獨立，而是存在因果上的聯(lián)系，但目前的解決方案沒有將兩個問題聯(lián)系起來?；谏衔牡难芯炕A(chǔ)和分析，本文分析了特征不匹配問題未來的3個發(fā)展方向：

1) 結(jié)合特征解耦操作和響應對齊策略作為一個整體的解決方案。一方面目前的解耦操作僅停留在檢測網(wǎng)絡部分，而輸入到FPN結(jié)構(gòu)的特征中分類和回歸的分布沖突仍然存在。另一方面當前的響應對齊策略通常采用IoU作為樣本選擇的度量，但在分類特征和回歸特征分布存在差異的情況下，選擇兩個分布之間重合的高響應區(qū)域的樣本顯然是更好的策略。

2) 采用單一預測策略來替代目前廣泛采用的密集采樣策略。相對于特征分布不一致帶來的分類和定位精度下降的問題，密集采樣策略導致的置信度高但定位精度低的問題在目標檢測器的性能評估上的影響顯然更為顯著。因此，如果令網(wǎng)絡針對單個目標實例只產(chǎn)生一個目標預測將有效地降低響應不一致帶來的影響。不過，由于網(wǎng)絡參數(shù)的隨機初始化，如何有效地確定真實目標的樣本將會是一個挑戰(zhàn)。

3) 引入Transformer通過網(wǎng)絡自身的學習自適應地分離分類特征和回歸特征，利用可學習的注意力機制針對某個真實目標產(chǎn)生相應的單一的預測結(jié)果。在消除極大值抑制的工作上，近期基于Transformer的工作DETR已經(jīng)取得了相當不錯的進展。但Transformer在小目標以及訓練復雜度上仍然值得探索。

5 結(jié) 論

將深度神經(jīng)網(wǎng)絡引入到目標檢測領(lǐng)域確實能夠顯著地提升模型的檢測性能，尤其是現(xiàn)代深度目標檢測器已經(jīng)將傳統(tǒng)目標檢測的分段式訓練和推理方式集成到了一個統(tǒng)一的框架下，極大提升了目標檢測訓練的便捷性和推理速度。但是深度神經(jīng)網(wǎng)絡帶來的特征不匹配問題也越來越成為目標檢測器性能提升的一個瓶頸。本文首先從目標檢測器的分類和回歸任務的本質(zhì)分析了特征不匹配問題產(chǎn)生的原因，詳細介紹了現(xiàn)有的解決方法，指出特征不匹配給密集預測策略帶來的分類和回歸響應不一致的影響以及在此問題上的解決方案，最后給出了特征不匹配問題解決的未來發(fā)展方向。

南昌航空大學學報(自然科學版)2021年3期

南昌航空大學學報(自然科學版)的其它文章: 大學數(shù)學課程改革探索; 目標檢測中特征不匹配問題研究進展; “雙線驅(qū)動、四段遞進、五維協(xié)同”的電子信息類專業(yè)實踐體系建設(shè)與實踐; 突出航空特色的“高分子化學”“課程思政”教學路徑探索與實踐; 全程體認式機械設(shè)計實踐教學體系的重構(gòu); 基于TOPCARES-CDIO構(gòu)建高水平工程人才評估體系研究