宋曉茹, 劉康, 高嵩, 陳超波
(西安工業(yè)大學(xué)電子信息工程學(xué)院, 西安 710021)
當(dāng)前科學(xué)技術(shù)不斷發(fā)展,在新形勢下,現(xiàn)代化戰(zhàn)爭逐漸轉(zhuǎn)變?yōu)檐娛驴萍紝?shí)力的較量,網(wǎng)絡(luò)化聯(lián)合作戰(zhàn)通過多平臺(tái)途徑,包括傳感器、視頻等獲得大量在不同時(shí)間空間下的各種類型不同分辨率的圖像,從中獲取軍事目標(biāo)類別信息、位置信息,幫助指戰(zhàn)員在戰(zhàn)時(shí)復(fù)雜情況下做出正確的戰(zhàn)場決定。軍事目標(biāo)的智能化識(shí)別因?yàn)槠淅萌斯ぶ悄軐?duì)采集到的海量圖像進(jìn)行準(zhǔn)確快速的分析,使人工資源與物質(zhì)資源的消耗得到減少,而且隨著國防水平的不斷提高與科技能力的不斷增強(qiáng),即處理器運(yùn)算速度的提升與識(shí)別算法的不斷優(yōu)化,對(duì)于目標(biāo)的識(shí)別速度與準(zhǔn)確率也遠(yuǎn)遠(yuǎn)高于人的肉眼。新形勢下,迎合信息化聯(lián)合作戰(zhàn)與智能化武器裝備,會(huì)在未來無人戰(zhàn)爭的發(fā)展中,對(duì)掌握戰(zhàn)場態(tài)勢、獲取最終勝利起到至關(guān)重要的作用。如何能夠在復(fù)雜環(huán)境中快速精準(zhǔn)的識(shí)別軍事目標(biāo)是目前軍事領(lǐng)域的研究熱點(diǎn)與趨勢,而基于深度學(xué)習(xí)的目標(biāo)識(shí)別技術(shù)則是當(dāng)今軍事技術(shù)研究領(lǐng)域的前言課題之一。
從20世紀(jì)50年代開始,美國是最先開展軍事目標(biāo)識(shí)別技術(shù)研究的國家[1]。從國外的整個(gè)軍事目標(biāo)研究的發(fā)展來看,整個(gè)過程大致可以分為6個(gè)階段:經(jīng)典的統(tǒng)計(jì)模式識(shí)別方法[2]、基于知識(shí)的自動(dòng)目標(biāo)識(shí)別方法[3]、基于模型的自動(dòng)目標(biāo)識(shí)別方法[4]、基于多傳感器信息融合的自動(dòng)目標(biāo)識(shí)別方法[5]、基于人工神經(jīng)網(wǎng)絡(luò)和專家系統(tǒng)混合應(yīng)用的自動(dòng)目標(biāo)識(shí)別方法[6]、基于人工智能和深度學(xué)習(xí)的自動(dòng)目標(biāo)識(shí)別方法[7]。這其中,基于前5個(gè)軍事目標(biāo)識(shí)別方法的發(fā)展,其結(jié)果難以超越人的識(shí)別水平;而對(duì)于最后一個(gè)發(fā)展階段,近年來,由于大規(guī)模集成電路、神經(jīng)網(wǎng)絡(luò)、多傳感器集成技術(shù)、人工智能技術(shù)、深度學(xué)習(xí)、大數(shù)據(jù)技術(shù)等的飛速發(fā)展,國外軍事目標(biāo)識(shí)別已經(jīng)從理論研究逐漸發(fā)展到實(shí)際應(yīng)用。中國基于深度學(xué)習(xí)的軍事目標(biāo)識(shí)別研究主要處于理論探索和實(shí)驗(yàn)室仿真階段,有待逐漸突破并走向?qū)嶋H應(yīng)用。
基于深度學(xué)習(xí)的目標(biāo)識(shí)別算法大體分為兩類:一類是基于候選區(qū)域,包括R-CNN[8]、SPP-NET[9]、Fast R-CNN[10]、Faster R-CNN[11]、R-FCN[12]、Mask R-CNN[13]等,這些算法有一個(gè)共同的缺點(diǎn),那就是這些算法的網(wǎng)絡(luò)實(shí)時(shí)性較差,難以滿足軍事目標(biāo)識(shí)別的實(shí)時(shí)性需求;另一類是基于回歸,包括YOLO系列各種識(shí)別算法[14-17]、SSD[18]、FPN[19]、RetinaNet[20]等?;诨貧w的目標(biāo)識(shí)別算法不僅在識(shí)別的實(shí)時(shí)性方面優(yōu)于基于候選區(qū)域的識(shí)別算法,而且在識(shí)別準(zhǔn)確度方面也優(yōu)于基于候選區(qū)域的識(shí)別算法;不僅如此,基于回歸的識(shí)別算法更加關(guān)注小目標(biāo)物體的檢測,所以,基于回歸的目標(biāo)識(shí)別算法在軍事目標(biāo)識(shí)別領(lǐng)域應(yīng)用甚廣。
基于此,現(xiàn)按照網(wǎng)絡(luò)模型在軍事目標(biāo)中的應(yīng)用順序介紹近年來主流的幾種軍事目標(biāo)識(shí)別算法,前3種是基于候選區(qū)域的軍事目標(biāo)識(shí)別算法,后3種是基于回歸的軍事目標(biāo)識(shí)別算法,對(duì)每種模型進(jìn)行介紹和分析其優(yōu)劣,并做出總結(jié)和展望。
Mask R-CNN是由He等[13]提出的雙步檢測框架,框架提出后被整合在了Detectron項(xiàng)目中。陳程[21]利用Mask R-CNN網(wǎng)絡(luò)實(shí)現(xiàn)對(duì)軍事目標(biāo)的識(shí)別,其網(wǎng)絡(luò)的主要結(jié)構(gòu)由主干網(wǎng)絡(luò)(Backbone),區(qū)域建議網(wǎng)絡(luò)(RPN)與頭結(jié)構(gòu)(Head)三部分組成。其中Backbone由ResNet-101[22]構(gòu)成,用于對(duì)圖像進(jìn)行特征提??;RPN用于生成矩形候選區(qū)域;頭結(jié)構(gòu)包含F(xiàn)ast R-CNN檢測器和Mask分支,用于輸出檢測框、分類和二元掩碼。具體結(jié)構(gòu)如圖1所示。
圖1 Mask R-CNN網(wǎng)絡(luò)結(jié)構(gòu)圖[13]Fig.1 Network structure diagram of Mask R-CNN[13]
黃航[23]通過提出新的目標(biāo)生成框,使Mask R-CNN網(wǎng)絡(luò)的檢測魯棒性得到提升;馬嘯等[24]通過在Mask R-CNN中加入判別模塊、類別預(yù)測分支和語義分割分支提高識(shí)別準(zhǔn)確率;孔英會(huì)等[25]通過引入特征金字塔與多尺度變換提升網(wǎng)絡(luò)的檢測準(zhǔn)確率;李景文等[26]通過在網(wǎng)絡(luò)中加入RoIAlign算法與卡爾曼濾波提升了Mask R-CNN在干擾背景下的魯棒性。對(duì)自然圖像的目標(biāo)識(shí)別Mask R-CNN已經(jīng)取得了不錯(cuò)的效果,但對(duì)于精度要求更高的軍事目標(biāo)識(shí)別,陳程[21]在Anchor尺度優(yōu)化與目標(biāo)區(qū)域閾值優(yōu)化兩部分進(jìn)行改進(jìn)。首先,在Anchor尺度優(yōu)化部分,軍事目標(biāo)中可能會(huì)出現(xiàn)士兵、飛機(jī)出現(xiàn)在同一張圖像中,而這兩個(gè)目標(biāo)的大小不一樣,原始框架中的大尺度核就不適用于此種情況的目標(biāo)識(shí)別,很難識(shí)別到較小的士兵目標(biāo),所以在RPN網(wǎng)絡(luò)中增加了兩個(gè)小的尺度核用來增強(qiáng)網(wǎng)絡(luò)對(duì)于小目標(biāo)的識(shí)別能力。其次,對(duì)于目標(biāo)區(qū)域閾值優(yōu)化部分,采用非極大值抑制(non-maximum suppression,NMS)[27]消除冗余項(xiàng),在最后測試階段也會(huì)使用NMS,用于獲得更加準(zhǔn)確的結(jié)果。通過設(shè)置置信度閾值,在軍事目標(biāo)識(shí)別時(shí)對(duì)輸出檢測框的置信度進(jìn)行判斷,若檢測框的置信度高于設(shè)置的置信度閾值,則屬于該類軍事目標(biāo),反之則不屬于。但是置信度閾值如果設(shè)置不合適,會(huì)增加目標(biāo)的誤檢漏檢率,在原始的Mask R-CNN網(wǎng)絡(luò)中置信度閾值設(shè)置為0.7,而考慮到軍事目標(biāo)的圖像常常存在偽裝目標(biāo)的情況,所以陳程在改進(jìn)的Mask R-CNN網(wǎng)絡(luò)中將置信度閾值修改為0.65,以減少漏檢率。
由于在實(shí)際應(yīng)用中軍事目標(biāo)的數(shù)據(jù)集相對(duì)較少,而使用訓(xùn)練的小樣本數(shù)據(jù)集會(huì)使網(wǎng)絡(luò)發(fā)生嚴(yán)重的過擬合現(xiàn)象,導(dǎo)致最終識(shí)別的準(zhǔn)確率低,所以為了解決改進(jìn)的Mask R-CNN網(wǎng)絡(luò)在訓(xùn)練時(shí)發(fā)生這種現(xiàn)象,引入遷移學(xué)習(xí)[28]。遷移學(xué)習(xí)包括數(shù)據(jù)集大但數(shù)據(jù)集相似度低、數(shù)據(jù)集大且數(shù)據(jù)集相似度高、數(shù)據(jù)集小但數(shù)據(jù)集相似度高和數(shù)據(jù)集小且數(shù)據(jù)集相似度低這4種預(yù)訓(xùn)練方法,而由于在軍事目標(biāo)識(shí)別中沒有公開數(shù)據(jù)集,所以數(shù)據(jù)集有限,因此選擇第4種預(yù)訓(xùn)練方法,通過凍結(jié)部分預(yù)訓(xùn)練模型權(quán)重來彌補(bǔ)數(shù)據(jù)集小的問題??紤]到主干網(wǎng)絡(luò)提取圖像特征,如果直接預(yù)訓(xùn)練會(huì)使模型的特征提取能力受到影響,所以凍結(jié)除Head部分之外的所有層,保證主干網(wǎng)絡(luò)的特征提取能力,再對(duì)整個(gè)網(wǎng)絡(luò)模型進(jìn)行微調(diào)使其適用于目標(biāo)數(shù)據(jù)集。最后以COCO(common objects in context)數(shù)據(jù)集為數(shù)據(jù)源建立軍事目標(biāo)數(shù)據(jù)集進(jìn)行測試,將識(shí)別結(jié)果與未引入遷移學(xué)習(xí)模型的結(jié)果進(jìn)行對(duì)比,得出未引入遷移學(xué)習(xí)的模型誤檢漏檢率高,而使用遷移學(xué)習(xí)的模型能夠正確的檢測出所有目標(biāo),并正確分割,準(zhǔn)確率到達(dá)了92.3%,F(xiàn)1得與達(dá)到了81.1%。經(jīng)過多目標(biāo)的識(shí)別效果對(duì)比,雖然對(duì)于大部分目標(biāo)具有較好的檢測效果,但是當(dāng)目標(biāo)受遮擋時(shí),檢測效果不是能夠令人滿意,這可能是由于訓(xùn)練集中受遮擋目標(biāo)較少,使網(wǎng)絡(luò)學(xué)習(xí)到此特征的機(jī)會(huì)較少而導(dǎo)致的;最后,該模型雖然在檢測精度上表現(xiàn)效果較好,但是并沒有考慮到實(shí)時(shí)性的要求。
在基于深度學(xué)習(xí)的軍事目標(biāo)識(shí)別的研究中,用于訓(xùn)練的數(shù)據(jù)集樣本量少,這導(dǎo)致普通的目標(biāo)識(shí)別算法在訓(xùn)練模型時(shí)難以達(dá)到令人滿意的效果。直到Goodfellow等[29]提出生成對(duì)抗網(wǎng)絡(luò)(GAN),通過在GAN網(wǎng)絡(luò)中輸入一組圖像進(jìn)而生成能夠保留原圖像主要內(nèi)容,但具有新的形狀和特征的新圖像[30],這個(gè)功能解決了依賴于大量數(shù)據(jù)集訓(xùn)練的模型,使網(wǎng)絡(luò)在小樣本條件下也可以有效構(gòu)建模型,再通過深度森林[31]對(duì)軍事目標(biāo)進(jìn)行分類識(shí)別。
GAN的提出對(duì)于數(shù)據(jù)集少,但網(wǎng)絡(luò)模型要求效果好的研究人員來說具有十分重要的意義。GAN由生成器和判別器兩部分構(gòu)成,生成器擬合真樣本的數(shù)據(jù)分布,生成與其類似的樣本;判別器對(duì)生成器的結(jié)果進(jìn)行分類,并將其作為生成器的輸入不斷迭代,當(dāng)判別器無法判斷時(shí)迭代終止,具體結(jié)構(gòu)如圖2所示。GAN在近年來根據(jù)不同的情況也有許多創(chuàng)新型的改變:①基于改變模型的CGAN[32],即條件約束的GAN;②DCGAN[33]改善了GAN訓(xùn)練不穩(wěn)定的問題;③WGAN[34]徹底解決了GAN訓(xùn)練不穩(wěn)定的問題;④LSGAN[35]與BEGAN[36]使傳統(tǒng)GAN生成圖片質(zhì)量不高和訓(xùn)練不穩(wěn)定這兩個(gè)缺陷得以改善。
圖2 GAN擴(kuò)展樣本數(shù)據(jù)結(jié)構(gòu)圖[29]Fig.2 Extended sample data structure diagram of GAN[29]
Zhou等[31]提出了深度森林(deep forest,DF)模型,打破了深度學(xué)習(xí)僅依賴于神經(jīng)網(wǎng)絡(luò)的局限,為深度學(xué)習(xí)提供了新的方向。深度森林模型是基于不可微構(gòu)件的深度學(xué)習(xí)模型,其訓(xùn)練過程不需反向傳播(back propagation,BP)[37],不依賴梯度計(jì)算,其基本組成單位便是傳統(tǒng)機(jī)器學(xué)習(xí)方法之一的決策樹[38]。深度森林模型stack分為兩個(gè)部分,一部分由多粒度掃描顯現(xiàn)輸入數(shù)據(jù)的差異性,另一部分通過級(jí)聯(lián)森林提高輸入數(shù)據(jù)的分類能力。多粒度掃描即利用多個(gè)大小不同的滑窗在原始數(shù)據(jù)上進(jìn)行滑窗取值,由多粒度掃描的stack森林接收上一步的結(jié)果作為輸入,其標(biāo)簽對(duì)應(yīng)原始數(shù)據(jù)的標(biāo)簽。級(jí)聯(lián)森林部分是分類任務(wù)的核心,即使沒有多粒度掃描也可以直接用級(jí)聯(lián)森林進(jìn)行分類。多粒度掃描得到的轉(zhuǎn)換特征將用于級(jí)聯(lián)森林的特征提取,輸入為不同維度的轉(zhuǎn)換特征,輸出為類別概率;多級(jí)森林是由前一級(jí)的輸出與多粒度掃描得到的轉(zhuǎn)換特征循環(huán)構(gòu)建,最終輸出不同類別概率的均值。
陳龍等[39]提出了小樣本條件下基于深度森林學(xué)習(xí)模型的典型軍事目標(biāo)識(shí)別方法,該方法即利用GAN與深度森林相結(jié)合,GAN對(duì)軍事目標(biāo)數(shù)據(jù)集進(jìn)行樣本擴(kuò)展,采用主動(dòng)學(xué)習(xí)中基于后驗(yàn)概率的啟發(fā)式主動(dòng)學(xué)習(xí)算法對(duì)樣本進(jìn)行優(yōu)化,基于擴(kuò)展優(yōu)化后的樣本采用深度森林方法,使模型具有魯棒性,提升識(shí)別準(zhǔn)確率。該方法在其自建數(shù)據(jù)集上進(jìn)行測試,分別與KNN[40]、SVM[41]、CNN[42]、DF等相關(guān)算法進(jìn)行對(duì)比,結(jié)果表明典型軍事目標(biāo)識(shí)別平均正確率高于70%,使數(shù)據(jù)庫中的75%類別的平均識(shí)別準(zhǔn)確率都高于對(duì)比算法。
林洋等[43]提出了一種基于CGAN和GcForest的軍事目標(biāo)識(shí)別方法,即基于改進(jìn)GAN與深度森林的軍事目標(biāo)識(shí)別方法,通過CGAN對(duì)軍事目標(biāo)樣本進(jìn)行擴(kuò)展和質(zhì)量提升,再通過啟發(fā)式學(xué)習(xí)進(jìn)行抽樣迭代進(jìn)而構(gòu)建樣本數(shù)據(jù)集,最后利用GcForest進(jìn)行監(jiān)督學(xué)習(xí)構(gòu)建出軍事目標(biāo)識(shí)別模型。最后在自建的軍事目標(biāo)數(shù)據(jù)集上進(jìn)行測試,并與CNN、KNN、SVM等相關(guān)算法識(shí)別效果進(jìn)行對(duì)比,得出提出的算法在小樣本情況下整體高出29.21%~67.50%。這兩種模型對(duì)比結(jié)果如表1所示。
表1 兩種方法對(duì)比與總結(jié)Table 1 Comparison and summary of the two methods
用于軍事目標(biāo)識(shí)別的密集連通區(qū)域快速分類網(wǎng)絡(luò)(dense connected region fast classification network,DRFCN)算法由潘浩[44]提出,他通過對(duì)卷積神經(jīng)網(wǎng)絡(luò)特征結(jié)構(gòu)的研究發(fā)現(xiàn),目標(biāo)識(shí)別算法的高準(zhǔn)確率大多由大量卷積層的堆疊與算法模型的加深得到;引入共享卷積層特征到目標(biāo)識(shí)別的算法中,以提高識(shí)別分類的準(zhǔn)確率。DRFCN算法主要由兩部分組成:基于稠密卷積神經(jīng)網(wǎng)絡(luò)的區(qū)域采樣算法(DRPN)和基于稠密卷積神經(jīng)網(wǎng)絡(luò)的快速區(qū)域分類算法(DFCN)。
高質(zhì)量的區(qū)域采樣圖片是將可見光圖片或紅外圖片通過DRPN算法生成,每張區(qū)域采樣圖片中目標(biāo)區(qū)域稱為前景,反之則為背景。而算法通過批量隨機(jī)梯度下降算法(mini-batch stochastic gradient descent,MSGD)[45]訓(xùn)練之后進(jìn)行分類,提取高質(zhì)量目標(biāo)采樣區(qū)域后,同樣采用MSGD算法,最后對(duì)已分類的前景采樣區(qū)域通過基于深度學(xué)習(xí)的坐標(biāo)回歸預(yù)測算法進(jìn)行坐標(biāo)修正。DRFCN算法結(jié)構(gòu)框圖如圖3所示。
DRPN算法是基于卷積神經(jīng)網(wǎng)絡(luò)的區(qū)域采樣算法RPN[11]提出的,得益于卷積神經(jīng)網(wǎng)絡(luò)的泛化能力與特征表達(dá)能力強(qiáng)、能夠獲取高質(zhì)量的采樣區(qū)域、采樣時(shí)間少的特點(diǎn),所以從RPN算法模型結(jié)構(gòu)著手,在前人的工作基礎(chǔ)上改進(jìn)后提出DRPN算法。在訓(xùn)練DRPN網(wǎng)絡(luò)時(shí),采用NMS提煉錨框,采用聯(lián)合代價(jià)函數(shù),使稠密卷積網(wǎng)絡(luò)的計(jì)算量和儲(chǔ)存空間得以共享,最后考慮正負(fù)樣本會(huì)存在不均勻的情況,所以采用MSGD算法對(duì)DRPN進(jìn)行訓(xùn)練。
Dense Block為密集模塊;conv為卷積操作;Classifier為分類器圖3 DRFCN網(wǎng)絡(luò)結(jié)構(gòu)圖[44]Fig.3 Network structure diagram of DRFCN[44]
DFCN算法是在共享卷積層特征圖的分類算法模型DenseNet[46]下做出的改進(jìn),DenseNet模型易于實(shí)現(xiàn)輕量化網(wǎng)絡(luò),解決了梯度彌散問題。而在其基礎(chǔ)上,DFCN算法對(duì)于軍事目標(biāo)識(shí)別任務(wù)又做出了兩點(diǎn)改進(jìn),一個(gè)是DFCN算法是在深層次的特征圖上提取特征進(jìn)行分類,DenseNet只是在三通道的原圖上進(jìn)行分類,另一個(gè)是在輸出時(shí)同時(shí)得到軍事目標(biāo)的類別和位置信息,原有的DenseNet是輸出類別信息。DFCN算法在特征轉(zhuǎn)換時(shí)采用批歸一化(batch normalization,BN)方法[47]加快算法模型訓(xùn)練速度,類比He等[22]提出的用殘差算法模型解決梯度彌散膨脹的問題,采用稠密連接卷積層的方式即在模型中反向傳遞并加強(qiáng)了算法的特征表達(dá)能力,解決了梯度彌散膨脹的問題。訓(xùn)練時(shí)與DRPN一樣,采用聯(lián)合代價(jià)函數(shù)與MSGD的方法對(duì)算法模型進(jìn)行訓(xùn)練。
DRFCN算法為了使DRPN算法與DFCN算法共享稠密卷積層,使DRPN與DFCN聯(lián)合分布參數(shù),采用MSGD進(jìn)行訓(xùn)練,在前向傳遞中,DFCN利用DRPN輸出的采樣區(qū)域直接訓(xùn)練,在反向傳遞中,DRPN與DFCN梯度依次反轉(zhuǎn),直至收斂。
潘浩[44]使用DRFCN算法在VOC2007與V0C2012數(shù)據(jù)集上同時(shí)訓(xùn)練,最后結(jié)果與當(dāng)時(shí)最前沿的VGG16[48]和DFCN算法進(jìn)行對(duì)比,提出的算法在VOC2007與VOC2012上的準(zhǔn)確率分別達(dá)到了75.3%和80.7%,明顯高于VGG16,而在保證與RFCN算法準(zhǔn)確率相持的情況下,模型的大小小于RFCN。最后仿照VOC數(shù)據(jù)集格式,收集并建立10 000張軍事目標(biāo)圖片。在軍事目標(biāo)識(shí)別任務(wù)中,該算法在準(zhǔn)確率和實(shí)時(shí)性均能夠得以滿足。
E-MobileNet網(wǎng)絡(luò)是在Sandler等[49]提出的MobileNet-V2深度學(xué)習(xí)檢測框架的基礎(chǔ)上做出改進(jìn)而提出的網(wǎng)絡(luò)模型;喬夢雨等[50]考慮到在實(shí)際戰(zhàn)場環(huán)境中,作戰(zhàn)人員無法隨身攜帶具有高算力的設(shè)備使具有大參數(shù)量的目標(biāo)識(shí)別網(wǎng)絡(luò)實(shí)時(shí)工作,提出了面向陸戰(zhàn)場目標(biāo)識(shí)別的輕量級(jí)卷積神經(jīng)網(wǎng)絡(luò)。
Conv為卷積操作;AVG POOL 為平均池化;ELU為激活函數(shù);Global Average Pool為全局平均池化;Softmas為分類器圖4 E-MobileNet網(wǎng)絡(luò)結(jié)構(gòu)圖[49]Fig.4 Network structure diagram of E-MobileNet[49]
E-MobileNet網(wǎng)絡(luò)結(jié)構(gòu)如圖4所示,首先在卷積層前輸入圖像,再將圖像特征放入改進(jìn)的殘差模塊中進(jìn)行學(xué)習(xí),最后通過Softmax分類函數(shù)對(duì)圖像進(jìn)行分類。其結(jié)構(gòu)在原始的MobileNet-V2上做出了以下改進(jìn):①在可分離卷積層部分添加AVG Pool層使殘差塊對(duì)元素進(jìn)行相加;②在可分離卷積層部分采用擴(kuò)張?jiān)賶嚎s的方法使通道信息與位置信息解耦,減少計(jì)算量;③改變激活函數(shù)來規(guī)避梯度消失,不僅使網(wǎng)絡(luò)的收斂速度得到提升,而且提高了識(shí)別的準(zhǔn)確率;④在于運(yùn)用全局池化方式,使特征映射傳遞至下一層網(wǎng)絡(luò)。
在測試部分,喬夢雨等[50]為了進(jìn)一步體現(xiàn)所設(shè)計(jì)的網(wǎng)絡(luò)是否能夠在保證準(zhǔn)確率的前提下滿足實(shí)時(shí)性的要求,將網(wǎng)絡(luò)模型與當(dāng)下流行的MobileNet v2、ShuffleNet[51]、SSD、YOLOv3等目標(biāo)檢測算法進(jìn)行對(duì)比,通過仿照PASCAL VOC數(shù)據(jù)集的格式自建軍事目標(biāo)數(shù)據(jù)集,其中包括坦克、炮塔、裝甲車、人、槍5類目標(biāo)。在驗(yàn)證實(shí)時(shí)性之前,為了驗(yàn)證網(wǎng)絡(luò)改進(jìn)的方法是否較原始網(wǎng)絡(luò)有了提高,首先將改進(jìn)的ELU激活函數(shù)與PReLU、ReLU兩個(gè)激活函數(shù)應(yīng)用到網(wǎng)絡(luò)中進(jìn)行比對(duì),發(fā)現(xiàn)使用改進(jìn)激活函數(shù)的網(wǎng)絡(luò)模型在模型迭代損失函數(shù)值與準(zhǔn)確率這兩個(gè)方面均優(yōu)于其他兩者;其次將E-MobileNet和全局池化結(jié)合后的網(wǎng)絡(luò)模型與E-MobileNet和全連接網(wǎng)絡(luò)結(jié)合后的網(wǎng)絡(luò)模型二者在準(zhǔn)確率方面進(jìn)行對(duì)比,發(fā)現(xiàn)后者在準(zhǔn)確率方面更占優(yōu)勢。最后為了體現(xiàn)出改進(jìn)算法在輕量級(jí)與移動(dòng)檢測端的實(shí)時(shí)性,將改進(jìn)后的網(wǎng)絡(luò)與上述4種網(wǎng)絡(luò)模型進(jìn)行對(duì)比得出,在網(wǎng)絡(luò)的平均精度均值(mean average precision,mAP)方面,提出的算法排名第二,達(dá)到了84.6%,與最高的SSD僅差了0.003,但是每秒傳輸幀數(shù)(frames per second,F(xiàn)PS)值其改進(jìn)算法最高,證明了在綜合識(shí)別準(zhǔn)確率與檢測速度下,所提出的算法目標(biāo)識(shí)別的效果最好。但是,沒有考慮損失函數(shù)對(duì)目標(biāo)識(shí)別準(zhǔn)確率和實(shí)時(shí)性的影響。
單發(fā)多目標(biāo)檢測器(single shot multiBox detector,SSD)是Liu等[18]在ECCV2016的基礎(chǔ)上提出的新型目標(biāo)識(shí)別算法,是目前為止目標(biāo)識(shí)別框架的主流算法之一。此算法在實(shí)時(shí)性方面比Faster RCNN算法更具優(yōu)勢,而在mAP值方面強(qiáng)于YOLO算法(不過在YOLO更新的后續(xù)算法中已經(jīng)將其超越)。由于其既有速度優(yōu)勢,又能夠滿足精度要求,所以楊朝紅等[52]提出了基于優(yōu)化SSD300的小尺度典型軍事目標(biāo)識(shí)別方法。
SSD300算法是因?yàn)镾SD算法的輸入圖片尺寸大小是300×300,所以別稱SSD300,其結(jié)構(gòu)如圖5所示,該網(wǎng)絡(luò)雖然在精度和速度的效果上十分可觀,但是其網(wǎng)絡(luò)模型對(duì)于小尺度目標(biāo)識(shí)別效果并不是十分理想,例如,將一個(gè)目標(biāo)十分小的導(dǎo)彈識(shí)別為導(dǎo)彈和裝甲車,出現(xiàn)兩個(gè)結(jié)果,導(dǎo)致這一現(xiàn)象的原因有很多,如模型在訓(xùn)練過程中對(duì)于小目標(biāo)特征的學(xué)習(xí)不夠充分,即小目標(biāo)數(shù)據(jù)集的數(shù)據(jù)量過少,又或者是SSD300的網(wǎng)絡(luò)結(jié)構(gòu)對(duì)于小目標(biāo)特征的提取能力有限,造成擬合的效果不好。對(duì)于第一種原因,解決的方法就是增加小目標(biāo)數(shù)據(jù)集,使網(wǎng)絡(luò)能夠充分學(xué)習(xí)小目標(biāo)特征;而第二種原因解決則需要優(yōu)化網(wǎng)絡(luò)模型,提高網(wǎng)絡(luò)對(duì)于小目標(biāo)特征的提取能力。
胡習(xí)之等[53]通過將SSD300主干網(wǎng)絡(luò)改為ResNet-50改善梯度消失的問題;馬原東等[54]通過改進(jìn)SSD300網(wǎng)絡(luò)的Multibox層和引入ARConv抗旋轉(zhuǎn)卷積在網(wǎng)絡(luò)結(jié)構(gòu)統(tǒng)一的基礎(chǔ)上降低了誤檢率;對(duì)于軍事領(lǐng)域的小目標(biāo)識(shí)別而言,特征圖中的default box數(shù)量與能否準(zhǔn)確標(biāo)定目標(biāo)的概率息息相關(guān),default box數(shù)量越多,尺度越小,準(zhǔn)確識(shí)別目標(biāo)的概率就越大。楊紅朝等[52]將SSD300的Conv4_3層特征圖default box種類數(shù)量增加到5個(gè),同時(shí)將6個(gè)特征圖上的default box尺度均作縮小處理,并且對(duì)于Conv4_3層的卷積核也做了更改處理以增加卷積核輸出圖像大小使其更加有利于小目標(biāo)識(shí)別。
圖5 SSD300網(wǎng)絡(luò)結(jié)構(gòu)圖[18]Fig.5 Network structure diagram of SSD300[18]
實(shí)驗(yàn)部分為了驗(yàn)證優(yōu)化后的網(wǎng)絡(luò)模型具有更好的效果,采用原始SSD300與優(yōu)化后的SSD300進(jìn)行對(duì)比試驗(yàn),兩個(gè)網(wǎng)絡(luò)模型的訓(xùn)練部分采用相同的自建軍事目標(biāo)數(shù)據(jù)集,平臺(tái)為中國科學(xué)院計(jì)算技術(shù)研究所的SeeTaas,完成模型的訓(xùn)練與測試。結(jié)果表明,所優(yōu)化的模型在識(shí)別速度上雖然有小幅度下降,但與原始網(wǎng)絡(luò)模型的識(shí)別速度相差不大,而且在識(shí)別精度上要比原始的網(wǎng)絡(luò)模型好,達(dá)到了72.96%,最后利用優(yōu)化后的網(wǎng)絡(luò)對(duì)前面提到的識(shí)別錯(cuò)誤的小目標(biāo)導(dǎo)彈進(jìn)行重新測試識(shí)別,發(fā)現(xiàn)能夠準(zhǔn)確地進(jìn)行識(shí)別,證明了優(yōu)化算法的魯棒性。所以,在對(duì)密集小目標(biāo)的識(shí)別上,進(jìn)一步優(yōu)化SSD300網(wǎng)絡(luò)模型對(duì)于軍事目標(biāo)的識(shí)別任務(wù)十分有幫助。
YOLO(you only look once)系列算法的開山之作是YOLOv1,由Redmon等[14]提出,該算法一經(jīng)提出就十分受歡迎,其最大的優(yōu)勢就是檢測速度快,它將候選區(qū)與檢測兩個(gè)階段合二為一,能夠?qū)崿F(xiàn)端到端的目標(biāo)識(shí)別,只需看一眼就能夠識(shí)別出圖像中的物體及其位置,相比于Faster R-CNN能夠更好地區(qū)分目標(biāo)和背景。但是其缺點(diǎn)也十分明顯,單個(gè)單元格功能單一導(dǎo)致預(yù)測的數(shù)量被限制,而輸入圖像的分辨率需與訓(xùn)練圖像保持一致;基于上述缺點(diǎn),Redmon等[15]提出對(duì)YOLOv1更新后的YOLOv2,在原來的基礎(chǔ)上提出了新的網(wǎng)絡(luò)Darknet-19,同時(shí)使用聯(lián)合訓(xùn)練方法來提升網(wǎng)絡(luò)模型的性能,使其檢測出的物體種類大于9 000,故又稱YOLO9000,但是其對(duì)于衣物或設(shè)備的識(shí)別效果并不是十分令人滿意;所以,Redmon等[16]在此基礎(chǔ)上又進(jìn)行改進(jìn),提出了YOLOv3。YOLOv3也是one-stage中經(jīng)典的算法,Joseph Redmon通過將殘差塊加入Darknet-19,使得網(wǎng)絡(luò)結(jié)構(gòu)得到進(jìn)一步深化,并且使用特征金字塔網(wǎng)絡(luò)(feature pyramid network, FPN)架構(gòu)實(shí)現(xiàn)多尺度檢測,并且提高了檢測的速度和準(zhǔn)確度。由于YOLO前三個(gè)版本的作者Joseph Redmon退出CV領(lǐng)域,所以YOLO系列的更新停止了兩年,在2020年由AlexeyAB[17]繼承YOLO前面系列的思想,提出了YOLOv4,并得到了原作者Joseph Redmon的認(rèn)可,在AP和FPS方面分別提升了10%和12%,能夠得到實(shí)時(shí)與高精度的檢測結(jié)果,YOLO系列的網(wǎng)絡(luò)模型在近幾年軍事目標(biāo)識(shí)別中的應(yīng)用也逐漸增多。
曾國釗[55]將YOLO與Faster R-CNN相結(jié)合應(yīng)用于軍事目標(biāo)識(shí)別中,考慮到Faster R-CNN精度雖然比YOLO高,卻由于網(wǎng)絡(luò)結(jié)構(gòu)復(fù)雜使得實(shí)時(shí)性難以滿足,而YOLO識(shí)別速度快,但是其精度有所損失,并且對(duì)多物體和小目標(biāo)識(shí)別效果不夠理想,所以將二者結(jié)合,并且在使用回歸思想的基礎(chǔ)上增加先驗(yàn)框,既能夠保證精度要求,又能夠滿足實(shí)時(shí)性。最后在自建的軍事目標(biāo)數(shù)據(jù)集上進(jìn)行測試,為了增強(qiáng)模型識(shí)別能力,提高多物體目標(biāo)的識(shí)別準(zhǔn)確率,在構(gòu)建數(shù)據(jù)集時(shí)盡量增加多的多目標(biāo)圖像數(shù)量,為了使其適應(yīng)不同環(huán)境需求,圖像的分辨率與清晰度也不同,在參數(shù)量方面比YOLO少了10倍以上,降低了對(duì)設(shè)備的要求,使其能夠更好地應(yīng)用于實(shí)際環(huán)境。通過測試證明了檢測效果良好,準(zhǔn)確率在90%以上,而且檢測速率能夠達(dá)到275FPS,最終將該網(wǎng)絡(luò)應(yīng)用于嵌入式設(shè)備,實(shí)現(xiàn)移動(dòng)軍事目標(biāo)的識(shí)別。
李鑫等[56]提出了基于非監(jiān)督網(wǎng)絡(luò)的軍事目標(biāo)識(shí)別算法,利用YOLOv3與DCGAN相結(jié)合,有效解決了由于數(shù)據(jù)集不足而導(dǎo)致的識(shí)別精度低的問題。由于YOLO算法在手工標(biāo)注好的大規(guī)模數(shù)據(jù)集上進(jìn)行訓(xùn)練才會(huì)取得好的識(shí)別效果,而軍事目標(biāo)并沒有統(tǒng)一的大規(guī)模數(shù)據(jù)集,需要自己進(jìn)行手動(dòng)收集和標(biāo)注,所以這也致使網(wǎng)絡(luò)的魯棒性較差,而利用生成對(duì)抗網(wǎng)絡(luò)可以將隨機(jī)信號(hào)與真實(shí)圖像進(jìn)行博弈生成特征類似的圖像,從而擴(kuò)充數(shù)據(jù)集并進(jìn)行自動(dòng)標(biāo)注達(dá)到非監(jiān)督學(xué)習(xí)的目的。在實(shí)驗(yàn)測試部分,通過自建軍事目標(biāo)數(shù)據(jù)集訓(xùn)練,并將訓(xùn)練好的模型與其他相關(guān)主流算法,如Faster R-CNN、Faster R-CNN相關(guān)改進(jìn)算法、YOLOv2、YOLOv3、SSD513、DSSD513、RetinaNet進(jìn)行對(duì)比,得出YOLOv3+DCGAN在AP、AP75、Aps、APM、APL、FPS等指標(biāo)方面均優(yōu)于其他網(wǎng)絡(luò),表明該網(wǎng)絡(luò)能夠有效解決數(shù)據(jù)集不足而導(dǎo)致的精度不足問題。
符惠桐等[57]提出了面向移動(dòng)目標(biāo)識(shí)別的輕量化網(wǎng)絡(luò)模型,即基于Ghost模塊[58]的YOLO目標(biāo)識(shí)別模型。主要是針對(duì)現(xiàn)有設(shè)備算力有限,而無法在保證識(shí)別速度的同時(shí)滿足精度要求的問題而提出,通過Ghost模塊重構(gòu)目標(biāo)識(shí)別網(wǎng)絡(luò),通過減少模型參數(shù)而提升識(shí)別速度,然后加入空間金字塔模型提升識(shí)別精度,最后通過通道剪枝剔除冗余參數(shù)壓縮模型體積從而使其成為輕量化模型,滿足現(xiàn)有設(shè)備的目標(biāo)識(shí)別需求。在其自建軍事目標(biāo)數(shù)據(jù)集上進(jìn)行訓(xùn)練,在GTX1060與嵌入式計(jì)算平臺(tái)TX2上進(jìn)行測試,通過與YOLOv4及YOLOv4相關(guān)改進(jìn)算法進(jìn)行對(duì)比試驗(yàn),表明了相較于傳統(tǒng)的YOLOv4模型,改進(jìn)后的模型將原模型體積壓縮96%,浮點(diǎn)計(jì)算量減少91.2%,預(yù)測速度提升2.9倍,識(shí)別精度達(dá)到87.63%,精度僅損失2.43%,即滿足了更小的模型、高的精度、更快的預(yù)測速度。
劉茹茹等[59]提出了復(fù)雜場景下軍事目標(biāo)的輕量級(jí)檢測方法,即輕量化Light-YOLOv3網(wǎng)絡(luò)的軍事目標(biāo)識(shí)別。在深層特征網(wǎng)絡(luò)的構(gòu)建中,骨干網(wǎng)絡(luò)采用輕量級(jí)網(wǎng)絡(luò)單元,以提升網(wǎng)絡(luò)的特征提取能力并降低其計(jì)算量;預(yù)測網(wǎng)絡(luò)部分將MSCA(multi-scale context aggregation)模塊[60]加入預(yù)測網(wǎng)絡(luò)中,完成淺層到深層特征復(fù)用和融合,對(duì)遠(yuǎn)距離目標(biāo)識(shí)別問題提供了有效的幫助,并改善了復(fù)雜環(huán)境中軍事目標(biāo)被遮擋的情況。通過自建數(shù)據(jù)集對(duì)Light-YOLOv3網(wǎng)絡(luò)進(jìn)行驗(yàn)證,并與主流的Faster R-CNN、R-FCN、Mask R-CNN、SSD、YOLO系列相關(guān)算法進(jìn)行對(duì)比,得出該方法明顯優(yōu)于其他方法,在與代表性目標(biāo)識(shí)別算法YOLOv4的對(duì)比中,體積是YOLOv4的1/5,F(xiàn)PS是YOLOv4的3.8倍,而且識(shí)別準(zhǔn)確率也為最高的97.8%。將模型在非數(shù)據(jù)集的軍事視頻中進(jìn)行測試,能夠精準(zhǔn)地對(duì)軍事目標(biāo)進(jìn)行識(shí)別,證明了該模型具有很好的魯棒性,能夠適應(yīng)多種實(shí)際場景下的軍事目標(biāo)識(shí)別。
首先回顧深度學(xué)習(xí)在軍事目標(biāo)識(shí)別領(lǐng)域的發(fā)展,介紹了深度學(xué)習(xí)的目標(biāo)識(shí)別相關(guān)算法,并對(duì)適用條件進(jìn)行分析,如表2所示;而后重點(diǎn)介紹了目前主流的目標(biāo)識(shí)別算法在軍事目標(biāo)識(shí)別中的應(yīng)用。通過介紹其原始網(wǎng)絡(luò)結(jié)構(gòu),相關(guān)原理,以及針對(duì)軍事目標(biāo)識(shí)別而做出的改進(jìn)及應(yīng)用,整個(gè)軍事目標(biāo)識(shí)別算法的對(duì)比如表3所示。
(1)Mask R-CNN網(wǎng)絡(luò)通過對(duì)Anchor尺度的優(yōu)化以及引入遷移學(xué)習(xí)來解決原網(wǎng)絡(luò)的漏檢率和優(yōu)于軍事目標(biāo)數(shù)據(jù)集少而導(dǎo)致的精度低問題。
(2)GAN與深度森林結(jié)合、CGAN與深度深林結(jié)合這兩種模型首先利用GAN及其改進(jìn)之后CGAN的特性對(duì)小樣本數(shù)據(jù)集進(jìn)行擴(kuò)充,而后通過深度森林的對(duì)軍事目標(biāo)進(jìn)行分類識(shí)別。
(3)DRFCN算法是DRPN算法與DFCN算法的結(jié)合,前者用來生成高質(zhì)量的采樣圖片,后者在深層次的特征圖上提取特征進(jìn)行分類識(shí)別,二者共享稠密卷積層聯(lián)合訓(xùn)練,最后應(yīng)用在軍事目標(biāo)識(shí)別上。
表2 目標(biāo)識(shí)別算法對(duì)比分析Table 2 Comparative analysis of target recognition algorithms
表3 軍事目標(biāo)識(shí)別算法對(duì)比Table 3 Comparison of military target recognition algorithms
(4)E-MobileNet網(wǎng)絡(luò)通過改進(jìn)原始Mobile-Net-V2網(wǎng)絡(luò)的可分離卷積層與激活函數(shù),在減少計(jì)算量、加快收斂速度的同時(shí)提高了模型的識(shí)別準(zhǔn)確率。
(5)SSD300網(wǎng)絡(luò)通過增加default box種類數(shù)量來提高密集小目標(biāo)的識(shí)別能力,從而使網(wǎng)絡(luò)更加適用于小目標(biāo)軍事目標(biāo)識(shí)別。
(6)YOLO與Faster R-CNN網(wǎng)絡(luò)的結(jié)合,在保證識(shí)別效率的同時(shí)保證了識(shí)別的準(zhǔn)確率,并將其應(yīng)用于嵌入式設(shè)備實(shí)現(xiàn)了移動(dòng)軍事目標(biāo)的識(shí)別。
(7)YOLOv3與DCGAN的結(jié)合有效地解決了由于數(shù)據(jù)集不足導(dǎo)致的識(shí)別準(zhǔn)確率低的問題。
(8)基于Ghost模塊的YOLO算法以YOLOv4為基礎(chǔ),通過減少模型參數(shù)、壓縮模型體積提升識(shí)別速度,實(shí)現(xiàn)輕量化高準(zhǔn)確率,使其能夠更加容易部署在移動(dòng)平臺(tái)實(shí)現(xiàn)移動(dòng)軍事目標(biāo)的識(shí)別。
(9)輕量化Light-YOLOv3網(wǎng)絡(luò)通過在預(yù)測網(wǎng)絡(luò)中使用MSCA模塊解決實(shí)際戰(zhàn)場環(huán)境中軍事目標(biāo)遮擋的問題并實(shí)現(xiàn)遠(yuǎn)距離目標(biāo)識(shí)別。
軍事目標(biāo)具有數(shù)據(jù)集少,遠(yuǎn)距離軍事目標(biāo)小,實(shí)際戰(zhàn)場環(huán)境中易受遮擋等特點(diǎn),對(duì)于深度學(xué)習(xí)的目標(biāo)識(shí)別算法要求就比較高,要求其網(wǎng)絡(luò)能夠克服數(shù)據(jù)集少,在此基礎(chǔ)上能夠?qū)崿F(xiàn)高準(zhǔn)確率的識(shí)別;而且由于其特殊性,在未來戰(zhàn)場中需要部署在相關(guān)設(shè)備中進(jìn)行實(shí)時(shí)的軍事目標(biāo)識(shí)別,所以需要能夠解決算力問題的更多高實(shí)時(shí)性高準(zhǔn)確率的輕量化模型,實(shí)現(xiàn)對(duì)敵方目標(biāo)的快速精準(zhǔn)識(shí)別,為實(shí)現(xiàn)精準(zhǔn)打擊打下基礎(chǔ)。