許宜明,李東生,楊 浩
(國防科技大學電子對抗學院,合肥 230031)
視頻SAR 是一種新型的雷達系統(tǒng),不僅具備傳統(tǒng)SAR 全天時、全天候的觀測優(yōu)勢,還具備傳統(tǒng)SAR 所不具備的高幀率和高分辨率成像特性,可以對目標區(qū)域實現持續(xù)不間斷的監(jiān)測。美國桑迪亞國家實驗室(SNL)利用子孔徑重疊,首次實現了Ku波段的高幀率成像,并成功將視頻SAR 模塊集成到多部系統(tǒng)中。美國國防部高級研究計劃局(DARPA)采用提高工作頻率實現了高幀率成像的太赫茲雷達,并于2018 年公開了工作在235 GHz 頻段的Video SAR的成像結果[1]。
由于SAR 圖像中多普勒頻移會使得動目標在真實位置處形成陰影,而視頻SAR 高幀率、高分辨率的特性使得陰影的成像效果較佳,因此,近年來國內外學者提出了很多基于陰影的檢測算法。文獻[2]將尺度不變特征變換和隨機抽樣一致性算法相結合,從而實現幀間圖像配準,然后利用閾值分割、背景差分等圖像處理方法實現陰影的檢測。文獻[3]利用目標尺寸、速度等先驗信息,提出了一種基于知識輔助的陰影檢測算法。文獻[4]分析了Video SAR 運動目標陰影與目標速度的關系,給出了陰影檢測速度限制的表達式,并在單幀圖像上實現了基于陰影的動目標的檢測。
傳統(tǒng)圖像處理方法在對陰影進行檢測時流程較為復雜,處理時間較久,不利于實時檢測。而深度學習方法則可以實現端到端的檢測,但當前可用于訓練的數據集較為稀少,且動目標的檢測對于模型性能的要求較高。文獻[5-6]基于SNL 官方公布的視頻SAR 數據,提出一種Faster RCNN+滑窗密度聚類+Bi-LSTM 的動目標檢測方法來抑制虛警和漏警。文獻[7]使用雙重Faster R-CNN 算法,對Video SAR 圖像中的陰影和多普勒能量分別進行檢測,并共享兩個獨立RPN 生成的建議框,有效降低了虛警和漏檢。文獻[8]針對傳統(tǒng)視頻SAR 運動目標檢測中存在的幀間配準難、陰影特征不明顯等問題,利用K-means 聚類和FPN 結構,提出一種改進Faster R-CNN 的檢測算法對運動目標的“亮線”進行檢測,所用數據集為自研的Mini-SAR 系統(tǒng)數據。文獻[9]提出一種用于Video SAR 陰影檢測的深度網絡ShadowDENet,該算法使用直方圖均衡化、變換自注意機制等方法對Faster R-CNN 方法進行改進,但算法稍微犧牲了一些檢測速度。文獻[10]針對SAR目標檢測訓練樣本不足的問題,提出一種改進SSD的目標檢測算法,主要是對模型結構進行優(yōu)化和小樣本增強。文獻[11]通過利用K-means聚類和添加注意力模塊,對RetinaNet進行改進并用于SAR圖像檢測,在不損失精度的前提下降低了模型復雜度。
針對Video SAR 數據集缺少的現狀,本文利用SNL官方網站發(fā)布的真實視頻SAR數據制作了數據集[12],并在改進模型上實現了視頻SAR 動目標端到端的檢測。主要對Faster R-CNN 檢測模型進行改進,在預處理環(huán)節(jié)加入S 曲線增強方法來增強圖像中目標的對比度,利用K-means聚類+遺傳算法自適應地計算先驗框尺寸,并使用截取后的殘差網絡作為主干網絡來提取視頻SAR 的深層特征,有效提升了視頻SAR動目標的檢測率,也抑制了虛警和漏檢。
一般SAR 圖像整體偏暗,對比度較低,對于人眼的可視性不強。在對視頻SAR 圖像的像素值進行直方圖統(tǒng)計發(fā)現,如圖1(a)所示,灰度值主要集中在[30,70]之間,呈現單峰狀態(tài),不利于目標和背景的分離。本文在數據集的預處理環(huán)節(jié)增加圖像增強步驟,以此來增強圖像的對比度,提高陰影的檢測概率。傳統(tǒng)空間域的對比度增強方法有線性變換、直方圖均衡化、直方圖規(guī)定化等[13]。本文利用一種S型曲線增強方法來對原圖像幀進行增強處理,從而對陰影區(qū)域實施有針對性地增強。如圖1(c)所示,S 型曲線的斜率不斷變化,呈現先緩后抖再緩的趨勢,從而實現“重點區(qū)間強拉伸,非重點區(qū)間弱拉伸”的效果。其常見的數學形式為:
圖1 視頻SAR圖像增強前后的直方圖及S型曲線函數圖Fig.1 Histogram and s-curve function diagram of video SAR image before and after enhancement
其中,k代表函數在x→∞時的函數極限值;a決定了曲線的單調性;b是曲線沿x軸平移距離。a為正時,曲線單調遞增,a為負時,曲線單調遞減,且|a|值越大,曲線越抖,|a|值越小,曲線越平緩。
這種非線性拉伸辦法模糊了圖像增強的灰度區(qū)間,可以將陰影有效地從背景中突顯出來。如圖1(b),經過S曲線增強后,目標區(qū)間能夠較為平滑地被拉伸,從而實現了針對目標區(qū)域的對比度增強。
為了更直觀地察看增強效果,本文引入直方圖均衡化方法作為對比。由于SAR 圖像中相干斑的存在,實驗在圖像增強前加入中值濾波技術來對圖像進行降噪處理。如圖2所示,從顯示效果來看,兩種方法都能實現原圖的對比度增強,且目標區(qū)域陰影的增強效果較為明顯。其中,直方圖均衡化方法增強效果更為明顯,但可能對于原圖的像素信息有了一定程度破壞,而S 曲線增強方法既能對原圖陰影信息進行有效地增強,又能較好地保留原圖的信息,具體的對比驗證詳見下章相關實驗。
圖2 不同圖像增強方法后的效果圖Fig.2 Effects with different image enhancement methods
深度學習目標檢測算法主要分為兩類,一類是基于回歸的一階段算法,一類是基于候選區(qū)域二階段算法。一階段算法直接提取特征進行目標分類與位置回歸,速度較快,代表的有SSD、YOLO 和RetinaNet等。而二階段需要經過候選區(qū)域生成和目標精確檢測兩個步驟,準確度較高,代表的有RCNN系列。其中,Faster R-CNN[14]作為經典高效的二階段算法,創(chuàng)新性地提出候選區(qū)域網絡結構(RPN),大大提高了目標檢測的精度。本文以Faster R-CNN 算法作為檢測模型的基本框架,來進行視頻SAR 動目標的檢測,下頁圖3 為改進的Faster R-CNN 檢測算法流程圖。本文使用ROI Align 來替換ROI Pooling[15],從而保證了目標信息最大程度的保留,提高算法的檢測精度。在數據預處理環(huán)節(jié)加入訓練數據的歸一化操作,以此來消除樣本的共性特征,凸顯個體差異,提高訓練的穩(wěn)定性,加快模型的收斂。
圖3 基于改進Faster R-CNN 的視頻SAR動目標檢測流程圖Fig.3 Flow chart of moving target detection in video SAR based on improved Faster R-CNN
在Faster R-CNN 中,錨框(anchor box)的大小由人為設定,原始算法是根據PASCAL VOC 數據集經驗所得,遷移至其他數據集上使用時效果不是很好,而初始設定的先驗框對于網絡的收斂和精度提升非常關鍵?;诖耍疚氖褂靡环N自適應錨框大小的計算方法來獲取最適合數據集的先驗框尺寸。算法的思路是首先利用K-means 聚類算法,初步獲取數據集中的邊界框聚類,然后利用遺傳算法對聚類結果進行變異擇優(yōu),擇優(yōu)過程由適應度函數來評估,召回率較高,則說明此次突變效果好,最后輸出最優(yōu)結果。具體的算法步驟如下:
1)載入數據集,獲取數據集中所有邊界框的尺寸,根據輸入模型圖像前后的縮放比例,等比例縮放邊界框,得到縮放后的尺寸w*h;
2)隨機選取K個邊界框的(wc,hc)作為初始質心,根據IoU 距離度量對樣本集進行K-means 聚類,將所有邊界框劃歸最近的質心,距離度量公式和IoU計算如式(2):
其中,A、B分別為兩個矩形框;SA∩B、SA∪B為兩者相交、相并部分面積;
3)利用中值法更新每個簇的質心,并利用新質心重新聚類所有樣本;
4)重復迭代過程,直至各簇樣本質心不再變化;
5)使用遺傳算法對邊界框進行隨機變異n次,若變異后效果變好,則更新質心,效果不好,則跳過,輸出最終變異結果。
特征提取網絡(backbone)為檢測模型的特征提取部分,本文使用經典的ResNet50 網絡作為backbone 來提取圖像的深度特征。由于視頻SAR 數據的特殊性,圖像上的動目標大部分為陰影,目標的信息比較簡單(形狀、大小較為固定),且由于視頻SAR 所在平臺為飛行單元,故對于檢測器模型性能不僅僅考慮精度的高低,還需要將網絡的復雜度、參數量以及推理時間等因素列入考慮。因此,本文基于實用性角度出發(fā),對ResNet50 結構進行部分截取,以達到模型輕量化的目的,如圖4所示。
圖4 截取后的ResNet50結構Fig.4 Intercepted structure of ResNet50
本文實驗平臺為配備NVIDIA GeForce RTX 3070 GPU(8G)、Intel(R)Core(TM)i9-10900K CPU的個人計算機,開發(fā)環(huán)境為python3.8,Torch-1.10.2和Torchvision-0.11.3,以及CUDA-11.3 和CuDNN-8.2.1用于GPU加速。
實驗選取的數據集為美國Sandia國家實驗室在官網公布的實測視頻SAR 數據,該數據采集于柯特蘭空軍基地的尤班克大門前一段實時監(jiān)控片段,被處理為視頻格式。通過提取,可以得到900 幀數據用于實驗。圖5為Sandia國家實驗室視頻SAR的工作現場環(huán)境。實驗選用前600 張用于訓練,后300張用于測試,所有數據均已進行人工標注。由于深度學習需要大量的數據,因此,對用于訓練的600幀進行數據增強處理以擴充數據集,常用的數據增強方法有平移、鏡像、旋轉、加噪、縮放、錯切等,擴充后數據集為12 600張。
圖5 SNL視頻SAR雷達工作現場照片和SAR成像圖Fig.5 SNL video SAR radar work site photo and SAR imaging picture
采用PASCAL VOC 2012 評價標準作為算法評估指標,常用的有檢測率(p)、召回率(r)、虛警率(f)和漏檢率(m)。另外,要想得知在高置信度閾值條件下模型的檢測性能,通常利用繪制Precision-Recall 曲線,來觀察p、r值的變化規(guī)律,結果可用曲線下方的面積來描述,即平均精度(AP):
同時,為了更好地在檢測率和召回率之間進行權衡,這里需要引入F1分數:
最后為了評估模型的實時性能,引入幀率FPS(frames per second),即單位時間內模型能夠檢測的圖像數:
本文中,N取100;T為模型預測100張圖像所需要的總時間。
本文實驗中,模型訓練皆采用warm up+學習率衰減方法,初始學習率設置為0.005,學習率衰減步長為3,衰減系數為0.33,動量為0.9,權值衰減為0.000 5。網絡采用SGD 優(yōu)化器,受限于硬件水平,batch size 設為2。在經過實驗觀察后發(fā)現,網絡大多在10 輪左右開始收斂,如圖6 所示。因此,將本文中的對比實驗epochs都設置為15,每輪迭代6 300次。極大值抑制所用的IoU閾值為0.7,Faster RCNN計算誤差時采集正負樣本的IoU閾值為0.5。
圖6 訓練損失與學習率的變化曲線Fig.6 The curve of training loss and learning rate
為了驗證所提出圖像增強方法對于動目標檢測的有效性,本文進行了不同圖像增強方法的對比實驗,主要引入直方圖均衡化(HE)和直方圖規(guī)定化(HP)兩種方法,與本文的S 曲線增強方法(SE)形成對比。實驗基線為以原始ResNet50 結構作為backbone 的Faster R-CNN 檢測模型,為更好地發(fā)揮算法的檢測性能,縮短模型的推理時間,將先驗框尺寸更改為[16,32,64],寬高比保持不變([0.5,1,2])。
表1 實驗結果表明,本文所提出的S 曲線增強方法帶來了最高性能提升,其中,與基線模型相比,AP提升約為9%,F1分數提升約為5%。而直方圖規(guī)定化方法也能帶來較好的性能提升,F1 分數提升與本文方法持平,但AP的提升約為7%,不足S 曲線增強方法。直方圖均衡化由于選擇的是限制對比度的自適應直方圖均衡化(CLAHE)方法,盡管增強的顯示效果較好,但對于圖像的原始信息有了一些破壞,并不適用于Video SAR 圖像,所以導致最終的檢測結果反而變差了。
表1 不同圖像增強方法的Faster R-CNN 檢測結果Table 1 Faster R-CNN detection results with different image enhancement methods
為了量化每項改進方法對于檢測器性能的提升效果,本文進行了相關的消融實驗。實驗基線與4.3節(jié)保持一致,在這基礎上依次施加自適應錨框計算、網絡截取、圖像增強(SE)3 種改進方法,以此來查看每項改進措施對于模型的檢測性能增益,具體實驗結果如下頁表2所示。
表2 消融實驗Table 2 Ablation experiment
消融實驗表明本文提出的模型無論是檢測率還是檢測速度都相較基線有極大的提升,其中,平均精度(AP)提升為10.7%,F1 分數提升為12.1%,檢測速度(FPS)提升為13.9%。其中,自適應錨框計算、網絡優(yōu)化、圖像增強帶來不同程度的性能提升,F1 分數的提升分別為2.5%、7.2%、2.4%。由于在數據預處理環(huán)節(jié)增加了S 曲線增強項,導致模型檢測速度略微有所下降(FPS下降約為3.1f∕s),但帶來AP與F1 的提升卻是明顯的(AP提升為2.9%,F1 提升為2.4%)。從虛警率(f)和漏檢率(m)一項可以看出,改進后的Faster R-CNN 模型對于視頻SAR 動目標的檢測中存在的誤檢和漏檢問題,也得到有效的改善,其中,虛警率下降為12.7%,漏檢率下降為8.4%。為了更好地分析模型改進和圖像增強對于檢測性能提升的具體貢獻,分別將實驗5 和實驗3與基線進行對比,可以得出圖像增強對原始Faster R-CNN 檢測模型也有提高(AP提升為5.9%,F1 提升為4.9%),但相比之下,模型改進帶來的提升更為顯著(AP提升為7.8%,F1提升為9.7%)。
為了更加直觀地感受本文方法對于視頻SAR動目標的檢測性能的提升,本文選取驗證集第603、774、806、900 幀作為測試圖像,對改進后的Faster R-CNN 模型進行動目標檢測的定性實驗,預測結果如圖7 所示,其中,圖7(a)為真實目標所在位置(綠色框),圖7(b)為以ResNet50 網絡作為主干網絡的原始Faster R-CNN 檢測結果(粉色框),圖7(c)為改進后但不增加圖像增強環(huán)節(jié)的Faster R-CNN 檢測結果(橙色框),圖7(d)為模型改進+圖像增強的Faster R-CNN 檢測結果(青色框),檢測框上面的數字為該框的置信度。為增強可視效果,檢測結果圖中的漏檢目標用紅色橢圓形進行了標記,誤檢目標用黃色三角形進行了標記。
圖7 視頻SAR動目標的檢測結果對比Fig.7 Comparison of detection results of moving targets in video SAR
從圖7(b)可以看出,基于Faster R-CNN 的檢測器能夠有效實現視頻SAR 動目標端到端的檢測,在目標陰影較為清晰時,能夠較好地進行檢測(如603幀),但當目標速度過快,導致陰影成像不佳時,便會出現較多的漏檢目標(如774 幀和900 幀),且運動目標距離過近也會導致檢測器誤認為一個目標而發(fā)生漏檢。圖中一些靜態(tài)目標產生的陰影與相干斑雜波導致背景的對比度發(fā)生異常,也會造成檢測器發(fā)生誤檢,形成虛警目標。而本文所提出的改進方法則能夠有效提升模型的檢測性能,如圖7(c)和圖7(d)所示。4 幀圖像動目標總個數為27 個,原始Faster R-CNN 模型誤檢個數為8,漏檢個數為6,本文方法誤檢個數為3,漏檢個數為3,可以看出,虛警和漏檢都得到了有效抑制。
為了更進一步評估算法對于精度與速度之間的權衡,除原始Faster R-CNN算法外,本文還加入一階段經典算法SSD和RetinaNet作為對比。為確保實驗公平,實驗訓練策略保持不變,且均以ResNet50作為主干網絡,其中,先驗框尺寸的設置保持原始值。
實驗結果如表3 所示,SSD 和RetinaNet 算法無論是檢測精度還是檢測速度都要優(yōu)于原始Faster R-CNN 算法,其中,SSD 模型由于對原圖像進行了縮放處理(300×300),因此,數據處理速度較快,幀率達到91.7 f∕s,同為一階段的RetinaNet模型則速度提升不太明顯,這與其自身擁有的FPN 結構有關。而改進后的Faster R-CNN 算法精度和速度較原算法都得到大幅度提升,虛警和漏檢得到了有效抑制。其中,檢測精度方面,AP的提升為10.7%,F1 分數的提升為12.1%,超過SSD算法和RetinaNet算法;檢測速度方面,FPS提升為17.9 f∕s,僅次于低分辨率下的SSD算法。
表3 對比實驗Table 3 Contrast experiment
視頻SAR 作為一種高幀率、高分辨率的SAR 系統(tǒng),為基于深度學習方法的目標檢測算法提供了實現途徑。本文基于SNL 官方數據制作了視頻SAR數據集,通過改進Faster R-CNN 算法,有效實現了視頻SAR 動目標端到端的檢測。利用自適應錨框計算、網絡截取等,對Faster R-CNN 模型進行優(yōu)化,并使用S 增強方法來增強圖像的對比度,實驗結果表明,模型對于視頻SAR 動目標的檢測性能得到有效提升,改善了虛警和漏檢問題,且在檢測速度方面也有不錯的表現,從實驗結果來看,檢測精度優(yōu)于SSD 和RetinaNet 算法,檢測速度僅次于低分辨率下的SSD算法。由于傳統(tǒng)信號域方法中閾值設定不當會導致虛警與漏檢的矛盾對立,本文在圖像域對雷達目標進行檢測,IoU 閾值設定同樣存在此類狀況,但本文引入F1 分數和平均精度AP作為均衡檢測率與召回率兩者矛盾的評價指標,旨在找到最佳CNN 網絡模型,因此,可以在同等IoU 閾值條件下通過一系列改進措施來不斷提升預測結果,從而起到同時改善虛警和漏檢的效果。