韓 彤,曹鐵勇,鄭云飛,王 楊,陳 雷,王燁奎,付炳陽
(1.陸軍工程大學(xué) 指揮控制工程學(xué)院,江蘇 南京 210007;2.95911部隊(duì),甘肅 酒泉 735000;3.陸軍炮兵防空兵學(xué)院,江蘇 南京 211100;4.31401部隊(duì),吉林 長(zhǎng)春 130000)
迷彩偽裝是最基本的軍事偽裝技術(shù)之一,其設(shè)計(jì)旨在模仿背景的顏色及紋理等特征來降低目標(biāo)的顯著性,以此規(guī)避人眼及機(jī)器偵察。近年來,基于卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Networks,CNN)[1]來檢測(cè)迷彩偽裝目標(biāo)的研究取得了良好的進(jìn)展[2-6]。如何進(jìn)一步提升其檢測(cè)模型的遷移性和有效性,關(guān)鍵之一在于需要深入分析迷彩偽裝目標(biāo)檢測(cè)模型的內(nèi)在機(jī)理。然而,神經(jīng)網(wǎng)絡(luò)的黑盒性質(zhì)使得模型的運(yùn)行機(jī)制難以被準(zhǔn)確理解。
近來的研究表明,CNN與人類視覺系統(tǒng)(Human Visual System,HVS)的決策機(jī)制有相似之處[7-8]。研究者嘗試分析顏色、形狀、紋理特征在常規(guī)對(duì)象識(shí)別中的作用,但相關(guān)研究[9-10]主要針對(duì)的是顯著性目標(biāo)分類,其結(jié)果無法直接用于指導(dǎo)迷彩偽裝目標(biāo)檢測(cè)模型的優(yōu)化。
為此,該文從人類視覺特征角度出發(fā),針對(duì)迷彩偽裝目標(biāo)檢測(cè)的特點(diǎn),設(shè)計(jì)了一種新的視覺特征解耦方法,在此基礎(chǔ)上研究了CNN迷彩偽裝目標(biāo)檢測(cè)模型對(duì)不同視覺特征的偏向性。在迷彩偽裝人員數(shù)據(jù)集與常規(guī)人員檢測(cè)數(shù)據(jù)集上進(jìn)行的對(duì)比實(shí)驗(yàn)表明,CNN目標(biāo)檢測(cè)模型對(duì)于迷彩偽裝目標(biāo)偏向于學(xué)習(xí)其紋理,對(duì)于常規(guī)目標(biāo)偏向于學(xué)習(xí)其形狀,顏色特征在二者的檢測(cè)中均不占主導(dǎo)地位。
20世紀(jì)中期,迷彩偽裝技術(shù)逐漸成熟并廣泛用于軍事領(lǐng)域。早期研究人員通過設(shè)計(jì)特定的紋理提取算子來檢測(cè)迷彩圖案[11-14]。隨著深度學(xué)習(xí)技術(shù)的發(fā)展,研究人員開始使用基于卷積神經(jīng)網(wǎng)絡(luò)的模型來解決迷彩發(fā)現(xiàn)問題。Zheng等人[15-16]構(gòu)建了迷彩偽裝人員數(shù)據(jù)集并對(duì)迷彩偽裝目標(biāo)進(jìn)行分割。文獻(xiàn)[2-6]使用基于CNN的目標(biāo)檢測(cè)模型實(shí)現(xiàn)了迷彩偽裝目標(biāo)的精準(zhǔn)分類與定位。文獻(xiàn)[17]使用相同的對(duì)抗樣本對(duì)不同迷彩偽裝目標(biāo)檢測(cè)模型進(jìn)行攻擊,產(chǎn)生了不同程度的性能下降,然而該文獻(xiàn)缺乏對(duì)模型機(jī)理的進(jìn)一步研究。文中工作一方面有助于檢測(cè)模型的改進(jìn),另一方面對(duì)提升迷彩偽裝目標(biāo)檢測(cè)的對(duì)抗攻擊效果有指導(dǎo)意義。
神經(jīng)科學(xué)研究證明,顏色、形狀和紋理是人類視覺系統(tǒng)中最重要的三個(gè)特征且相互獨(dú)立[18-23]。由于人類視覺系統(tǒng)是許多計(jì)算機(jī)視覺算法的黃金標(biāo)準(zhǔn),研究[7-8]將HVS與CNN進(jìn)行比較。2018年,Geirhos等人[9]使用風(fēng)格遷移構(gòu)建具有沖突線索的數(shù)據(jù)集,通過實(shí)驗(yàn)揭示了在ImageNet上訓(xùn)練的分類模型具有紋理偏重并且提高形狀偏重可以提升模型的魯棒性。此后,研究人員致力于設(shè)計(jì)提高模型形狀偏重的方法[24-25],對(duì)任務(wù)本身的特征偏重研究較少。直至2022年,文獻(xiàn)[10]指出,模型的偏向性是任務(wù)相關(guān)的。例如,識(shí)別同樣形狀但不同類別的鳥主要依靠顏色,而區(qū)分斑馬和印有斑馬條紋的汽車主要依靠形狀。
為了對(duì)模型的視覺特征偏重進(jìn)一步研究,Ge等人[10]提出了常規(guī)目標(biāo)分類模型的特征解耦框架,分別提取數(shù)據(jù)集的顏色、形狀、紋理特征。在提取顏色時(shí)將圖片變換到頻域進(jìn)行相位加擾再逆變換;在提取形狀時(shí),通過分割圖像的顯著區(qū)域得到形狀掩膜;在提取紋理時(shí),先將圖像的顯著區(qū)域進(jìn)行灰度化處理,然后將其切割成多個(gè)方塊,取其中四個(gè)方塊拼接成一個(gè)新的圖像,作為該圖像的紋理特征。
解耦并分析迷彩偽裝目標(biāo)檢測(cè)模型的視覺特征有助于解釋模型工作機(jī)理、提高模型性能。然而目前還沒有針對(duì)該問題的研究?,F(xiàn)有研究旨在提取單一視覺特征,無法用于迷彩偽裝目標(biāo)檢測(cè),具體表現(xiàn)在:如果對(duì)全圖提取單一視覺特征會(huì)導(dǎo)致目標(biāo)位置信息丟失,如果只對(duì)目標(biāo)提取單一視覺特征會(huì)破壞目標(biāo)的偽裝性。
與以往框架不同,所提框架旨在分別消除目標(biāo)某單一特征并保留其余特征。基于此框架,分別在顏色、紋理、形狀方面設(shè)計(jì)解耦方法。
分析框架如圖1所示。首先,在數(shù)據(jù)集的訓(xùn)練集上訓(xùn)練好模型;其次,對(duì)數(shù)據(jù)集的原始測(cè)試集分別解耦顏色、紋理、形狀特征得到三個(gè)特征解耦測(cè)試集;最后,在訓(xùn)練好的模型上分別驗(yàn)證特征解耦測(cè)試集。分別計(jì)算模型mAP的變化率,并進(jìn)行歸一化處理,用不同特征的占比表示模型的視覺特征偏好。
圖1 視覺特征偏好分析框架
在對(duì)不同屬性特征進(jìn)行解耦時(shí)應(yīng)遵循以下原則:一是最大化改變一種屬性特征的同時(shí)其余屬性應(yīng)盡量保持不變;二是紋理的變化應(yīng)遵循迷彩的特點(diǎn)和規(guī)律,不應(yīng)破壞其偽裝性;三是在迷彩偽裝場(chǎng)景下,目標(biāo)自身結(jié)構(gòu)被迷彩紋理破壞,目標(biāo)的形狀特征體現(xiàn)在目標(biāo)的外圍輪廓。解耦方法將目標(biāo)分割輪廓視作目標(biāo)形狀,將分割輪廓內(nèi)的灰度圖像視作目標(biāo)紋理,使用RGB空間描述圖像的顏色。
2.2.1 消除顏色
(1)
其中,w1為0.299,w2為0.587,w3為0.114分別表示圖像的R,G,B分量加權(quán)值。式1為灰度心理學(xué)公式,該公式的權(quán)重系數(shù)根據(jù)心理學(xué)上關(guān)于人類視覺系統(tǒng)對(duì)綠色最敏感等結(jié)論得出。
2.2.2 破壞紋理
紋理是人類視覺系統(tǒng)的一種感知形式,迄今還沒有文字或公式化定義,但諸多研究認(rèn)為:局部紋理體現(xiàn)在像素及其周圍空間鄰域的灰度分布,全局紋理體現(xiàn)在局部紋理不同程度的重復(fù)性[26-29]。改變紋理的方法包括對(duì)像素值的操作(如濾波、仿射變換)和對(duì)像素空間關(guān)系的操作(如交換、置亂)。像素值的改變可能影響顏色信息,為了保持形狀和顏色不變,選擇在目標(biāo)分割輪廓內(nèi)對(duì)像素的空間關(guān)系進(jìn)行操作。此處借鑒像素置亂的思想,對(duì)區(qū)域內(nèi)的紋理塊進(jìn)行置亂。
給定圖像X,將目標(biāo)輪廓內(nèi)的區(qū)域切分為若干個(gè)N×N像素的紋理塊,然后將紋理塊的空間位置進(jìn)行置亂。具體流程如算法1所示,其中n表示尺寸為N×N的紋理塊。由于紋理的破壞程度受置亂區(qū)域的大小影響,在此進(jìn)行了不同尺度的區(qū)域置亂實(shí)驗(yàn),效果如圖2所示。分別設(shè)置N為20,10,5,2,1,當(dāng)N=1時(shí)即為像素置亂。
圖2 不同尺度的區(qū)域置亂
算法1:區(qū)域置亂
輸入:圖像X、圖像X的二值化mask、空數(shù)組E
2.whilen∈Pdo
3.E=E∪{Xn}
4.end while
5.E=Shuffle(E)
6.whilet∈Eandn∈Pdo
8.end while
2.2.3 改變形狀
對(duì)目標(biāo)形狀的破壞包括消除目標(biāo)輪廓和改變目標(biāo)輪廓為其他形狀。在消除輪廓時(shí),嘗試使用濾波方法將目標(biāo)輪廓與背景融合,當(dāng)濾波區(qū)域較小時(shí)不能達(dá)到明顯消除輪廓的效果,當(dāng)濾波區(qū)域較大時(shí),背景與前景邊界處的紋理產(chǎn)生了較大改變。因此,研究改變目標(biāo)形狀的方法。
給定一幅寬W高H的圖像X,對(duì)目標(biāo)輪廓內(nèi)區(qū)域隨機(jī)取最大內(nèi)接圓形或內(nèi)接矩形,步驟如算法2所示。
算法2:取目標(biāo)最大內(nèi)接圓或內(nèi)接矩形
輸入:寬W高H的圖像X,X的掩膜mask
輸出:目標(biāo)最大內(nèi)接圓或內(nèi)接矩形的掩膜maskc
1.對(duì)mask先腐蝕后膨脹,消除尖端和噪聲,得到mask
2.對(duì)mask'進(jìn)行輪廓提取
3.隨機(jī)選擇取圓形或取矩形,若取圓形則轉(zhuǎn)步驟4,若取矩形則轉(zhuǎn)到步驟5
4.遍歷每個(gè)輪廓的所有坐標(biāo),取輪廓內(nèi)點(diǎn)到輪廓的最大值為圓半徑,此時(shí)的點(diǎn)為圓心。繪制寬W高H的掩膜maskc,令圓形區(qū)域內(nèi)像素值為1,其余為0
5.遍歷每個(gè)輪廓的所有坐標(biāo),使用中心擴(kuò)散法[30]求四個(gè)邊界點(diǎn)坐標(biāo)。繪制寬W高H的掩膜maskc,令矩形區(qū)域內(nèi)為像素值1,其余為0
為解決取內(nèi)接形狀后,內(nèi)接形狀和原始輪廓之間像素缺失問題,考慮以下兩種方案:一是用背景紋理覆蓋整個(gè)目標(biāo)真實(shí)框,二是用背景紋理覆蓋目標(biāo)輪廓??梢暬P洼敵龊?發(fā)現(xiàn)方案一產(chǎn)生的定位偏差更小,方案二仍然能檢測(cè)到原始目標(biāo)形狀,因此使用方案一更合適。在提取背景紋理時(shí),以目標(biāo)最小外接矩形為單元,以8鄰域內(nèi)的背景單元作為候選區(qū)域,如圖3所示。
圖3 背景候選區(qū)域
為了選擇與目標(biāo)顏色相似度最大的背景單元,計(jì)算目標(biāo)區(qū)域與背景單元的顏色直方圖,使用巴氏系數(shù)表示顏色相似度:
(2)
(3)
其中,maskc為內(nèi)接形狀的掩膜,B為使用背景單元M覆蓋目標(biāo)GT框區(qū)域所得的圖像。
本節(jié)重點(diǎn)對(duì)迷彩偽裝目標(biāo)檢測(cè)模型的視覺特征進(jìn)行分析,為了比較迷彩偽裝目標(biāo)與常規(guī)目標(biāo)檢測(cè)任務(wù)在視覺特征偏向性的差異,使用第2節(jié)提出的視覺特征偏好分析框架及解耦方法,選取相同的CNN模型在迷彩偽裝目標(biāo)與常規(guī)目標(biāo)兩類數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn)。
CAMP[15]是一種公開的迷彩偽裝數(shù)據(jù)集,由2 600張迷彩偽裝人員圖片及其分割標(biāo)注構(gòu)成。該文對(duì)原數(shù)據(jù)集中的分割標(biāo)注結(jié)果用最小外接矩形框重新標(biāo)注,以用于檢測(cè)任務(wù)。
由于CAMP數(shù)據(jù)集目標(biāo)為人,為方便對(duì)比,對(duì)于常規(guī)目標(biāo)檢測(cè)的實(shí)驗(yàn),數(shù)據(jù)集中的目標(biāo)也應(yīng)設(shè)置為人。SBD數(shù)據(jù)集對(duì)PASCAL VOC數(shù)據(jù)中沒有分割標(biāo)注的數(shù)據(jù)重新進(jìn)行了標(biāo)注。從SBD數(shù)據(jù)集中選擇類別為人的圖片,設(shè)置為常規(guī)人員檢測(cè)數(shù)據(jù)集(以下簡(jiǎn)稱為SBD_PERSON)。實(shí)驗(yàn)數(shù)據(jù)集的類別及樣本劃分情況見表1。
表1 數(shù)據(jù)集類別及樣本劃分
現(xiàn)有CNN目標(biāo)檢測(cè)模型可分為基于候選區(qū)域的Anchor-based模型(以Faster R-CNN[31]算法為代表)、基于回歸的Anchor-based模型(主要有SSD[32],RetinaNet[33],YOLO系列算法)和Anchor-free的檢測(cè)模型(包括FCOS[34],CenterNet2[35]等)。實(shí)驗(yàn)使用Faster R-CNN,Cascade R-CNN[36],Mask R-CNN[37],SSD,RetinaNet,YOLOv5s,YOLOv7[38],FCOS,CenterNet2共9種通用的CNN目標(biāo)檢測(cè)模型。
3.3.1 平均準(zhǔn)確度均值
目標(biāo)檢測(cè)的結(jié)果按是否正確可分為:真正例(True Positive,TP)、真反例(True Negative,TN)、假正例(False Positive,FP)、假反例(False Negative,FN)。由此可計(jì)算模型的查準(zhǔn)率p和查全率r,計(jì)算公式如下:
(4)
(5)
平均準(zhǔn)確度均值(mean Average Precision,mAP)反映了模型中各類別檢測(cè)的平均精度的均值,其計(jì)算如下:
(6)
其中,Q是數(shù)據(jù)集中包含的類別數(shù),AP指某一類別的平均精度,AP計(jì)算如下:
(7)
3.3.2 mAP變化率
不同模型訓(xùn)練得到的初始mAP值不同,為了便于分析,使用mAP變化率作為評(píng)價(jià)指標(biāo)。將mAP變化率定義為視覺特征解耦后mAP值的變化量占原始mAP值的比率,其計(jì)算如下:
(8)
3.4.1 區(qū)域置亂的尺度選擇
為比較不同置亂尺度下的紋理特征破壞程度,使用顏色直方圖衡量顏色相似度,使用SSIM指標(biāo)衡量紋理相似度。給定圖像X、經(jīng)紋理破壞后的圖像Y,SSIM指標(biāo)計(jì)算如下:
(9)
其中,μX,μY分別為X,Y的平均值,σX,σY,σXY分別為X的標(biāo)準(zhǔn)差、Y的標(biāo)準(zhǔn)差、XY的協(xié)方差。計(jì)算不同尺寸N下紋理塊置亂圖與原圖在紋理和顏色特征的相似度,結(jié)果見表2。置亂后的測(cè)試集與原始測(cè)試集的顏色相似度始終較高,SSIM值隨N逐漸減小,這說明顏色特征的統(tǒng)計(jì)量不受置亂區(qū)域的大小影響,紋理特征的破壞程度隨N的減小而增大。故取N=1(像素值亂)的區(qū)域置亂用于特征解耦方法中紋理特征的破壞。
表2 不同尺度紋理置亂圖與原圖相似度
3.4.2 解耦方法的有效性驗(yàn)證
文獻(xiàn)[10]制作了在人類視覺上分別具有顏色偏重、形狀偏重和紋理偏重的三個(gè)分類數(shù)據(jù)集并且對(duì)每個(gè)數(shù)據(jù)集分別訓(xùn)練了顏色、形狀和紋理三種特征編碼器。為驗(yàn)證所提解耦方法的有效性,使用所提解耦方法對(duì)不同屬性偏置數(shù)據(jù)集分別解耦其對(duì)應(yīng)偏置屬性的特征。將解耦后的數(shù)據(jù)輸入特征編碼器中,與將原始圖像輸入特征編碼器輸出的準(zhǔn)確率進(jìn)行比較,結(jié)果見表3。括號(hào)外和括號(hào)內(nèi)的數(shù)字分別表示不使用解耦方法和使用解耦方法后的準(zhǔn)確率。
表3 特征解耦數(shù)據(jù)與原始數(shù)據(jù)在視覺特征編碼器的表現(xiàn)
由表3知,在特定屬性偏置數(shù)據(jù)集上使用視覺特征解耦方法,可以消除對(duì)應(yīng)屬性的特征,導(dǎo)致該屬性特征編碼器失效,但不影響其他屬性特征編碼器的性能。因此,提出的特征解耦方法能夠消除數(shù)據(jù)集某一屬性特征,同時(shí)不改變其他屬性特征。
3.4.3 方法對(duì)比
文獻(xiàn)[10]中提取圖像單一特征的解耦方法僅適用于常規(guī)目標(biāo)的分類任務(wù),而該文提出的分析框架及方法在分類任務(wù)和檢測(cè)任務(wù)、常規(guī)場(chǎng)景和偽裝場(chǎng)景中均可使用。為比較兩種方法的效果,在常規(guī)目標(biāo)的分類任務(wù)上進(jìn)行分析。使用文獻(xiàn)[10]提供的數(shù)據(jù)集,在數(shù)據(jù)集原始圖像上訓(xùn)練好模型,分別將使用文獻(xiàn)[10]中方法所得圖像和使用文中方法所得圖像輸入模型,模型準(zhǔn)確率如表4所示。解耦方法為表格第一列,方法中是否保留顏色、紋理、形狀特征示于表格第二至四列,Ds1,Ds2,Ds3分別為顏色偏置數(shù)據(jù)集、紋理偏置數(shù)據(jù)集、形狀偏置數(shù)據(jù)集。
表4 不同解耦方法對(duì)模型準(zhǔn)確率的影響比較
文獻(xiàn)[10]提取單一特征輸入模型,模型在特征解耦數(shù)據(jù)的準(zhǔn)確率越高表示在該特征偏好越強(qiáng)。文中方法消除圖像的單一特征,模型準(zhǔn)確率越低表示在該特征的偏好越強(qiáng)。由表4知,當(dāng)使用文獻(xiàn)[10]中方法時(shí),對(duì)數(shù)據(jù)集Ds1,模型的準(zhǔn)確率均保持較低水平,難以比較模型的偏向性。對(duì)Ds2,模型對(duì)紋理特征有較強(qiáng)偏好,但對(duì)顏色特征和形狀特征的偏向性難以區(qū)分;對(duì)于Ds3,模型在顏色和形狀特征的偏向性難以區(qū)分。使用文中方法,模型在數(shù)據(jù)集上對(duì)顏色、紋理、形狀特征的偏向性區(qū)分更加明顯。
在CAMP數(shù)據(jù)集上應(yīng)用所提視覺特征解耦方法,效果如圖4所示。將原始測(cè)試集與特征解耦后的測(cè)試集輸入訓(xùn)練良好的目標(biāo)檢測(cè)模型,檢測(cè)結(jié)果見表5,括號(hào)外數(shù)據(jù)為mAP值,括號(hào)內(nèi)數(shù)據(jù)為mAP變化率。
表5 CAMP數(shù)據(jù)集特征解耦后模型mAP
圖4 特征解耦效果
由表5知,對(duì)于CAMP數(shù)據(jù)集,表中9個(gè)CNN目標(biāo)檢測(cè)模型皆對(duì)紋理特征更為敏感。當(dāng)消除顏色特征時(shí),模型的mAP變化率范圍為2.1%~9.8%,均值為4.5%;破壞紋理特征后,模型的mAP變化率范圍為55.9%~86.6%,均值為74.1%;改變形狀特征后,模型的mAP變化率范圍為26.1%~59.6%,均值為40.2%。取三種特征解耦數(shù)據(jù)上的mAP變化率均值,歸一化處理后,可得模型在CAMP數(shù)據(jù)集上的視覺特征偏向性為:紋理(62%)>形狀(34%)>顏色(4%)。
在SBD_PERSON上進(jìn)行同樣的實(shí)驗(yàn),實(shí)驗(yàn)結(jié)果見表6。由表6知,對(duì)于SBD_PERSON數(shù)據(jù)集,模型皆對(duì)形狀特征更為敏感。消除顏色后,模型的mAP變化率均值為8.5%;破壞紋理后,模型的mAP變化率均值為42%;改變形狀后,模型的mAP變化率均值為68.4%。取三種特征解耦數(shù)據(jù)上的mAP變化率均值,歸一化處理后,可得模型在SBD_PERSON數(shù)據(jù)集上的視覺特征偏向性為:形狀(58%)>紋理(35%)>顏色(7%)。
基于上述研究結(jié)果,得出如下結(jié)論:盡管不同模型對(duì)不同視覺特征的敏感程度略有不同,總體來講,現(xiàn)有基于CNN的通用目標(biāo)檢測(cè)模型在學(xué)習(xí)迷彩偽裝目標(biāo)的特征時(shí)具有較強(qiáng)的紋理偏好,在學(xué)習(xí)常規(guī)目標(biāo)的特征時(shí)具有較強(qiáng)的形狀偏好。
同時(shí),相對(duì)于形狀和紋理特征,顏色特征對(duì)二者的檢測(cè)影響較小。因此,迷彩偽裝目標(biāo)的檢測(cè)任務(wù)不應(yīng)與常規(guī)目標(biāo)的檢測(cè)任務(wù)一概而論,針對(duì)迷彩偽裝目標(biāo)檢測(cè)的模型改進(jìn)可以從設(shè)計(jì)特征網(wǎng)絡(luò)使之捕捉更精細(xì)的紋理特征、使用紋理增強(qiáng)的方法進(jìn)行數(shù)據(jù)處理等方面入手。
通過實(shí)驗(yàn)對(duì)比了迷彩偽裝目標(biāo)與常規(guī)目標(biāo)的視覺特征在目標(biāo)檢測(cè)任務(wù)中的敏感程度。實(shí)驗(yàn)證明:對(duì)于CNN目標(biāo)檢測(cè)模型,迷彩偽裝目標(biāo)的檢測(cè)主要依賴其紋理,常規(guī)目標(biāo)的檢測(cè)主要依賴其形狀。同時(shí),顏色特征在二者的檢測(cè)中不占主導(dǎo)地位。
實(shí)驗(yàn)結(jié)論可用于指導(dǎo)下一步迷彩偽裝技術(shù)的發(fā)展和迷彩目標(biāo)檢測(cè)模型的改進(jìn)。實(shí)驗(yàn)中運(yùn)用的視覺特征解耦方法和思路可用于驗(yàn)證不同數(shù)據(jù)集在計(jì)算機(jī)視覺任務(wù)中的特征偏向性,指導(dǎo)設(shè)計(jì)具有特定偏向性的數(shù)據(jù)集和網(wǎng)絡(luò)模型。