王 冰,周 焰,張懷念,趙 凱
(空軍預(yù)警學(xué)院預(yù)警情報(bào)系,武漢 430019)
遙感影像飛機(jī)目標(biāo)檢測(cè)能夠通過獲取地面飛機(jī)動(dòng)態(tài)信息,為后續(xù)的空中目標(biāo)識(shí)別提供情報(bào),在軍事與民用領(lǐng)域有廣泛應(yīng)用。近年來,深度學(xué)習(xí)依靠強(qiáng)大的自動(dòng)提取特征能力,成為處理飛機(jī)目標(biāo)檢測(cè)問題的重要途徑。文獻(xiàn)[1-3]基于深度卷積神經(jīng)網(wǎng)絡(luò)完成圖像特征的自動(dòng)提取與目標(biāo)檢測(cè),能夠較為準(zhǔn)確地檢測(cè)到飛機(jī)目標(biāo)。
目前基于深度學(xué)習(xí)的飛機(jī)目標(biāo)檢測(cè)方法主要有兩類。第1 類方法的代表為Faster R-CNN[4]、SPP-Net[5]等,這類方法的檢測(cè)精度較高,但必須將候選框輸入CNN 中再檢測(cè),導(dǎo)致檢測(cè)速度較慢。第2 類方法的代表為YOLO[6](You Only Look Once)、單一目標(biāo)多尺度檢測(cè)框架[7](Single Shot MultiBox Detector,SSD)等,它的思想是利用深度卷積神經(jīng)網(wǎng)絡(luò)提取圖像特征后,將特征圖均勻分割成網(wǎng)格,在網(wǎng)格上使用候選框檢測(cè)目標(biāo)。由于減少了輸入候選框到CNN 中再檢測(cè)的環(huán)節(jié),SSD 方法的檢測(cè)速度相對(duì)較高,是飛機(jī)目標(biāo)檢測(cè)的首選框架,但存在的問題是對(duì)不同目標(biāo)的特征提取無差異,未針對(duì)飛機(jī)目標(biāo)的特征與尺寸設(shè)計(jì)網(wǎng)絡(luò)。
針對(duì)以上的問題,設(shè)計(jì)并構(gòu)建了飛機(jī)目標(biāo)Inception 網(wǎng)絡(luò)(AFInceptionNet)以及飛機(jī)目標(biāo)候選框生成網(wǎng)絡(luò)(Aircraft Target Region Proposal Network,AFRPN)。用以上網(wǎng)絡(luò)改進(jìn)SSD 檢測(cè)框架,提出了AFSSD 飛機(jī)目標(biāo)檢測(cè)方法。
SSD 檢測(cè)框架是一種可以一次檢測(cè)多個(gè)目標(biāo)的檢測(cè)模型,主要由特征提取網(wǎng)絡(luò)、候選框生成網(wǎng)絡(luò)這兩部分組成。在模型的訓(xùn)練與檢測(cè)時(shí),將圖像輸入到模型中,特征提取網(wǎng)絡(luò)提取圖像的特征圖并傳遞給候選框生成網(wǎng)絡(luò),后者直接在特征圖上完成候選框的訓(xùn)練與檢測(cè),舍棄了再將候選框輸入到CNN中訓(xùn)練與檢測(cè)的過程。所以SSD 框架大大提升了檢測(cè)的速度。
SSD 框架獲取大于IOU 閾值的候選框,通過非極大值抑制,得到可信度分?jǐn)?shù)最高的候選框作為檢測(cè)結(jié)果。
在訓(xùn)練階段,需依據(jù)交并比與人工標(biāo)注的真值框進(jìn)行匹配,并將候選框劃分為正樣本與負(fù)樣本兩類,為訓(xùn)練檢測(cè)框架做準(zhǔn)備。匹配過程包括3 個(gè)階段:1)依次判斷與每個(gè)真值框具有最大交并比的候選框,即是否大于SSD 檢測(cè)框架所設(shè)定的IOU 閾值。若滿足此判斷條件,則劃分到正樣本類別中,并將其與該真值框匹配;2)將階段1)中未匹配的候選框,通過階段1)的再次篩選,直到剩余的候選框全部小于IOU 閾值;3)將未匹配的候選框劃分到負(fù)樣本的類別中。
在得到正、負(fù)樣本后,SSD 檢測(cè)框架依據(jù)最小化損失函數(shù)的原則,訓(xùn)練候選框。在綜合了可信度分?jǐn)?shù)損失函數(shù)與候選框位置的損失函數(shù)后,總損失函數(shù)為:
圖1 SSD 檢測(cè)框架的結(jié)構(gòu)
圖2 AFSSD 檢測(cè)方法的結(jié)構(gòu)示意圖
視覺模式是計(jì)算機(jī)視覺領(lǐng)域中圖像所表達(dá)的場(chǎng)景或者具體對(duì)象,不同的卷積神經(jīng)網(wǎng)絡(luò)的特征圖對(duì)應(yīng)不同的視覺模式。本文將梯度下降應(yīng)用于卷積神經(jīng)網(wǎng)絡(luò)(CNN)輸入圖像的值,然后利用VGG16[8]與InceptionV3 網(wǎng)絡(luò)[9]對(duì)卷積神經(jīng)網(wǎng)絡(luò)的過濾器進(jìn)行可視化[10],得到使卷積層特征圖具有最大響應(yīng)的視覺模式。
圖3 使卷積神經(jīng)網(wǎng)絡(luò)不同卷積層的特征圖得到最大響應(yīng)的視覺模式
圖3 給出了使不同卷積層的特征圖得到最大響應(yīng)的視覺模式。分析圖3 可以看出:CNN 的1-4層卷積層對(duì)應(yīng)顏色特征、簡(jiǎn)單的邊緣紋理特征,如自然圖像中的條紋、波浪、斑點(diǎn)、裂痕等;緊隨連接LeNet-5 結(jié)構(gòu)的卷積層對(duì)應(yīng)的是眼睛、羽毛、鱗片、樹枝、葉片、稻田、耕地等特征;在之后連接Inception結(jié)構(gòu)對(duì)應(yīng)的是具有對(duì)稱性的目標(biāo),且目標(biāo)周圍是與其形成反差的背景,如地面、機(jī)場(chǎng)跑道等。
雖然飛機(jī)目標(biāo)的外形輪廓較為復(fù)雜,但組成飛機(jī)的各個(gè)部分的幾何特點(diǎn)較為簡(jiǎn)單。飛機(jī)以機(jī)身為對(duì)稱軸,左右兩翼對(duì)稱地分布于機(jī)身兩側(cè),具有較好的對(duì)稱性。
依據(jù)CNN 卷積層特征圖具有最大響應(yīng)的視覺模式以及飛機(jī)目標(biāo)的幾何特征,設(shè)計(jì)AFInception-Net 飛機(jī)目標(biāo)特征提取網(wǎng)絡(luò),專門提取遙感影像中飛機(jī)目標(biāo)的特征。該AFInceptionNet 網(wǎng)絡(luò)由C1~C3層、C4~C6 層、P1~P2 層和5 個(gè)Inception 層I1~I(xiàn)5 組成。其中,C1~C3、C4~C6 層主要提取機(jī)場(chǎng)場(chǎng)景中的顏色與紋理特征,P1~P2 層起到降維的作用,I1~I(xiàn)5層用來提取在機(jī)場(chǎng)的多種邊緣、紋理特征中具有對(duì)稱性的飛機(jī)目標(biāo)的特征。AFInceptionNet 網(wǎng)絡(luò)的結(jié)構(gòu)及具體參數(shù)如下頁(yè)圖4 所示,參數(shù)為該層特征圖的長(zhǎng)、寬、通道數(shù)。
首先基于K-均值方法[11]對(duì)飛機(jī)尺寸聚類,將得到的聚類中心作為代表性的飛機(jī)尺寸,然后優(yōu)化SSD 檢測(cè)框架中候選框長(zhǎng)寬比的設(shè)定,并將代表性的飛機(jī)尺寸作為優(yōu)化后的候選框,建立AFRPN 飛機(jī)目標(biāo)候選框生成網(wǎng)絡(luò)。
圖4 AFInceptionNet 網(wǎng)絡(luò)的結(jié)構(gòu)
2.3.1 K-均值對(duì)飛機(jī)尺寸聚類
圖5 原始飛機(jī)目標(biāo)尺寸分布
圖6 K-均值聚類后飛機(jī)目標(biāo)尺寸分布
表1 具有代表性的飛機(jī)目標(biāo)尺寸與比例
2.3.2 優(yōu)化候選框
圖7、圖8 分別給出了真值框與AFRPN 候選框生成網(wǎng)絡(luò)生成候選框的過程。如圖8 所示,在訓(xùn)練與檢測(cè)階段,AFRPN 在圖像上遍歷地產(chǎn)生5 種候選框,實(shí)現(xiàn)對(duì)不同尺寸飛機(jī)目標(biāo)的有效檢測(cè)。
圖7 標(biāo)注了真值框的飛機(jī)目標(biāo)
圖8 生成不同尺寸候選框的示意圖
實(shí)驗(yàn)選取了DOTA 數(shù)據(jù)集[12]與NWPU VHR-10數(shù)據(jù)集[13]中包含飛機(jī)的影像,經(jīng)過裁剪與旋轉(zhuǎn)后構(gòu)建了用于訓(xùn)練的飛機(jī)目標(biāo)檢測(cè)數(shù)據(jù)集。數(shù)據(jù)集共包含遙感影像1 000 張、飛機(jī)對(duì)象2 967 個(gè)。RSODDataset 數(shù)據(jù)集[14]作為測(cè)試數(shù)據(jù)。訓(xùn)練和測(cè)試所用的硬件為NVIDIA GEFORCE GTX 1 050 GPU,內(nèi)存為12.0 GB,深度學(xué)習(xí)框架為TensorFlow。訓(xùn)練的優(yōu)化方式為隨機(jī)梯度下降法,學(xué)習(xí)率為0.004,動(dòng)量為0.95,權(quán)值衰減為0.000 04,每次處理2 幅影像,最大迭代次數(shù)為10 000 次。
為考察AFSSD 的檢測(cè)性能,設(shè)被正確分類的飛機(jī)目標(biāo)為TP,未被正確分類的飛機(jī)目標(biāo)為FP,被誤分為飛機(jī)目標(biāo)的背景為FN,被正確分類的背景為TN。則召回率與準(zhǔn)確率之間關(guān)系的計(jì)算公式為
圖9、圖10 給出運(yùn)用AFSSD 與其他4 種檢測(cè)方法得到的“準(zhǔn)確率-召回率”曲線、“虛警率-召回率”曲線。由圖9、圖10 可知,在相同的召回率的條件下,AFSSD 飛機(jī)檢測(cè)方法具有更高準(zhǔn)確率以及更低的虛警率。
圖9 5 種檢測(cè)方法的“準(zhǔn)確率-召回率”曲線
圖10 5 種檢測(cè)方法的“虛警率-召回率”曲線
表2 候選框設(shè)計(jì)對(duì)檢測(cè)精度的影響
為了解決SSD 檢測(cè)框架對(duì)不同目標(biāo)的特征提取無差異的問題,本文首先基于使卷積神經(jīng)網(wǎng)絡(luò)的特征圖得到最大響應(yīng)的視覺模式,結(jié)合遙感影像中飛機(jī)目標(biāo)的幾何特征,建立了AFInceptionNet 飛機(jī)目標(biāo)特征提取網(wǎng)絡(luò);然后使用K-均值方法對(duì)飛機(jī)尺寸聚類,將聚類中心作為代表性的飛機(jī)目標(biāo)尺寸,構(gòu)建了AFRPN 飛機(jī)目標(biāo)候候選框生成網(wǎng)絡(luò);用AFInceptionNet 與AFRPN 改進(jìn)SSD 檢測(cè)框架,提出了AFSSD 飛機(jī)目標(biāo)檢測(cè)方法。針對(duì)該方法的檢測(cè)性能開展對(duì)比實(shí)驗(yàn),仿真結(jié)果表明,該候選框生成網(wǎng)絡(luò)能夠有效檢測(cè)不同尺寸的飛機(jī)目標(biāo);該檢測(cè)方法可以準(zhǔn)確地檢測(cè)出遙感影像中的飛機(jī)目標(biāo),并且相比于SSD 檢測(cè)框架提高了檢測(cè)精度,為下一步的飛機(jī)目標(biāo)類型識(shí)別提供了解決思路。
圖11 5 種檢測(cè)方法的檢測(cè)結(jié)果