霍煜豪 徐志京
摘要:針對光電圖像中艦船分類檢測困難的問題,提出一種基于改進(jìn)循環(huán)注意卷積神經(jīng)網(wǎng)絡(luò)(recurrent attention convolutional neural network,RA-CNN)的艦船目標(biāo)識別方法。該方法中的VGG19采用多個卷積層提取圖像特征,注意建議網(wǎng)絡(luò)(attention proposal network,APN)通過全連接層的輸出定位特征區(qū)域,然后采用尺度依賴池化(scale-dependent pooling,SDP)算法選擇VGG19中合適的卷積層輸出進(jìn)行類別判定,最后引入多特征描述特征區(qū)域,交叉訓(xùn)練VGG19和APN來加速收斂和提高模型精度。利用自建艦船數(shù)據(jù)集對方法進(jìn)行測試,識別準(zhǔn)確率較VGG19和RA-CNN有較大提升,識別準(zhǔn)確率最高可達(dá)86.7%。
關(guān)鍵詞:艦船識別; 細(xì)粒度圖像分類; 循環(huán)注意卷積神經(jīng)網(wǎng)絡(luò)(RA-CNN); 尺度依賴池化(SDP); 交叉訓(xùn)練
中圖分類號: U674.7; TP391.413
文獻(xiàn)標(biāo)志碼: A
Abstract: Aiming at the difficulty of classification and detection of ships in photoelectric images, a ship target identification method based on the improved recurrent attention convolutional neural network (RA-CNN) is proposed. The VGG19 in the method uses multiple convolutional layers to extract image features. The attention proposal network (APN) locates the feature region through the output of the fully connected layer, and then uses the scale-dependent pooling (SDP) algorithm to select the appropriate convolution in VGG19 for class determination. The multiple features are introduced to describe feature regions. The VGG19 and APN are cross-trained to accelerate the convergence and improve the accuracy. The method is tested using the self-built ship database of the model. The identification accuracy of the method is higher than that of VGG19 and RA-CNN, and the highest identification accuracy is 86.7%.
0 引 言
艦船光電圖像是由不同成像系統(tǒng)觀測得到的模擬或數(shù)字艦船圖像。傳統(tǒng)艦船光電圖像多來源于衛(wèi)星遙感觀測系統(tǒng),易受云層遮擋影響且觀測角度均為俯視,魯棒性和時效性都存在不足?,F(xiàn)階段隨著無人機逐步發(fā)展,通過高性能機載光電設(shè)備獲取艦船光電圖像變得更加容易且更具時效性,清晰度也大幅提升,通過控制還可以獲得艦船各種角度圖像,在軍事偵察、預(yù)警等領(lǐng)域具有極為重要的應(yīng)用價值。同時,由于船種繁多,同船種之間又派生出各種型號,相互之間差異細(xì)微,使得快速精準(zhǔn)分辨艦船類別、及時預(yù)警出警成為一個研究難題。
鑒于以上所述艦船光電圖像特點,將艦船分類歸屬于細(xì)粒度圖像分類[1]范疇。國內(nèi)外學(xué)者多通過深度學(xué)習(xí)技術(shù)解決艦船光電圖像分類問題。目前主流的識別方法多采用卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural network,CNN)提取圖像特征[2]、定位目標(biāo)位置并判別艦船種類,其主要可以分為強監(jiān)督和弱監(jiān)督兩種分類方式[3]。
強監(jiān)督分類方式不僅使用圖像標(biāo)簽進(jìn)行分類,還依賴目標(biāo)標(biāo)注框和部件標(biāo)注點輔助網(wǎng)絡(luò)學(xué)習(xí)特征。ZHANG等[4]提出了部件R-CNN(part region-CNN)算法,該算法基于部件R-CNN對部件模塊分別進(jìn)行識別最后綜合判別目標(biāo)類別。WEI等[5]提出了掩碼CNN(mask-CNN)算法,通過全連接網(wǎng)絡(luò)定位目標(biāo)并將目標(biāo)分割成兩個mask聯(lián)合判別。
弱監(jiān)督分類方式僅依靠圖像標(biāo)簽進(jìn)行分類,精度比強監(jiān)督分類方式有所下降,但無須額外信息。SIMON等[6]提出了Constellations算法,通過卷積操作得到特征圖,根據(jù)特征圖計算梯度確定位置和分類。LIN等[7]提出了雙線性CNN(bilinear CNN)算法,
提出使用兩個CNN網(wǎng)絡(luò)分別完成定位和判別工作,相互優(yōu)化提升整體識別效果。
2017年FU等[8]提出了循環(huán)注意CNN (recurrent attention CNN,RA-CNN)用以解決細(xì)粒度圖像集的分類問題。該網(wǎng)絡(luò)在CUB Birds、Stanford Dogs和Stanford Cars三個主流細(xì)粒度圖像集上達(dá)到了最優(yōu)水平,分別取得3.3%、3.7%和3.8%的準(zhǔn)確率提升。然而,該網(wǎng)絡(luò)不能很好利用圖像全局信息,對特征區(qū)域形狀選取單一,故本文提出一種改進(jìn)的RA-CNN用來識別光電艦船目標(biāo)。
1 RA-CNN模型簡介
RA-CNN在結(jié)構(gòu)設(shè)計上主要包含3個尺度的子網(wǎng)絡(luò),每個尺度子網(wǎng)絡(luò)的網(wǎng)絡(luò)結(jié)構(gòu)相同,但網(wǎng)絡(luò)參數(shù)不同且互相獨立。每個尺度子網(wǎng)絡(luò)都包含2種不同的網(wǎng)絡(luò),分別是分類網(wǎng)絡(luò)——VGG19[9-10]和定位網(wǎng)絡(luò)——注意建議網(wǎng)絡(luò)(attention proposal network,APN)。分類網(wǎng)絡(luò)提取輸入圖像的特征并進(jìn)行分類;APN基于提取到的特征進(jìn)行訓(xùn)練得到特征區(qū)域信息,再將特征區(qū)域裁剪出來并放大,作為第二個尺度子網(wǎng)絡(luò)的輸入,重復(fù)進(jìn)行3次得到3個尺度子網(wǎng)絡(luò)的輸出結(jié)果,通過融合不同尺度子網(wǎng)絡(luò)的結(jié)果判斷細(xì)粒度圖像的類別[11]。
該網(wǎng)絡(luò)的優(yōu)點在于通過多個尺度層結(jié)構(gòu)讓網(wǎng)絡(luò)在學(xué)習(xí)過程中將學(xué)習(xí)重點逐步聚焦到特征區(qū)域。此外RA-CNN中有2個損失函數(shù)——分類損失函數(shù)和尺度間損失函數(shù),通過交叉訓(xùn)練可使分類和定位網(wǎng)絡(luò)相互促進(jìn)學(xué)習(xí),使損失更快地收斂。
細(xì)粒度圖像之間相似度高、特征相近,對其進(jìn)行標(biāo)注需要專業(yè)知識與仔細(xì)評估,因此標(biāo)注數(shù)據(jù)集需要大量時間和精力。RA-CNN在訓(xùn)練學(xué)習(xí)過程中為弱監(jiān)督分類方式,只依賴圖像標(biāo)簽進(jìn)行類別判斷而不需要數(shù)據(jù)集提供相應(yīng)的bounding box信息來幫助網(wǎng)絡(luò)定位特征區(qū)域[12]。同時RA-CNN中APN生成的特征區(qū)域形狀固定,不利于網(wǎng)絡(luò)對具有各種特殊幾何外觀的特征區(qū)域的學(xué)習(xí)。APN僅通過損失函數(shù)減少對VGG19的影響,忽略了定位后特征區(qū)域?qū)GG19的直接影響,因此本研究使用尺度依賴池化(scale-dependent pooling,SDP)算法[13]與多特征區(qū)域聯(lián)合判別的辦法改進(jìn)系統(tǒng)模型。
2 系統(tǒng)模型
將預(yù)處理過的艦船光電圖像送入訓(xùn)練好的神經(jīng)網(wǎng)絡(luò)進(jìn)行檢測,在輸出圖像中使用正方形框出艦船特征區(qū)域并在右上角顯示其類別。艦船光電目標(biāo)識別流程見圖1。
4 結(jié)束語
本文基于細(xì)粒度檢測網(wǎng)絡(luò)RA-CNN提出了一種改進(jìn)的用于智能區(qū)分不同艦船的方法。作為一種端到端的弱監(jiān)督檢測網(wǎng)絡(luò),無須訓(xùn)練集提供標(biāo)注框即可進(jìn)行訓(xùn)練。通過尺度依賴池化(SDP)算法讓分類網(wǎng)絡(luò)可以自適應(yīng)地選擇合適的池化輸出,加強網(wǎng)絡(luò)對于局部特征的學(xué)習(xí)能力。針對艦船特殊的幾何外觀特征提出MF算法,通過在圖像中提取多個先驗特征框綜合描述特征區(qū)域,避免單一特征形狀區(qū)域中包含與特征無關(guān)的背景部分,同時使用加權(quán)平均決策預(yù)測標(biāo)簽,加強矩形框影響力。采用BN、Dropout、改變學(xué)習(xí)率和預(yù)訓(xùn)練方式優(yōu)化網(wǎng)絡(luò)模型,加速網(wǎng)絡(luò)訓(xùn)練收斂。結(jié)果表明,該方法可以高精度快速分類檢測復(fù)雜背景下的艦船光電目標(biāo),為軍事偵查和預(yù)警提供便利。
參考文獻(xiàn):
[1]ZHANG Xiaopeng, XIONG Hongkai, ZHOU Wengang, et al. Picking deep filter responses for fine-grained image recognition[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. 2016, IEEE: 1134-1142.DOI: 10.1109/CVPR.2016.128.
[2]IOFFE S, SZEGEDY C. Batch normalization: accelerating deep network training by reducing internal covariate shift[C]//32nd International Conference on Machine Learning, Lille 2015: 448-456.
[3]RADENOVIC' F, TOLIAS G, CHUM O. CNN image retrieval learns from BoW: unsupervised fine-tuning with hard examples[C]//European Conference on Computer Vision. ECCV 2016: 3-20.DOI: 10.1007/978-3-319-46448-0_1.
[4]ZHANG Ning, DONAHUE J, GIRSHICK R, et al. Part-based R-CNNs for fine-grained category detection[C]//European Conference on Computer Vision. ECCV 2014: 834-849.DOI: 10.1007/978-3-319-10590-1_54.
[5]WEI Xiu-Shen, XIE Chen-Wei, WU Jianxin, et al. Mask-CNN: localizing parts and selecting descriptors for fine-grained bird species categorization[J]. Pattern Recognition, 2018, 76: 704-714.DOI: 10.1016/j.patcog.2017.10.002.
[6]SIMON M, RODNER E. Neural activation constellations: unsupervised part model discovery with convolutional networks[C]//Proceedings of the IEEE International Conference on Computer Vision. ICCV 2015: 1143-1151.DOI: 10.1109/ICCV.2015.136.
[7]LIN Tsung-Yu, ROYCHOWDHURY A, MAJI S. Bilinear CNNs models for fine-grained visual recognition[C]//Proceedings of the IEEE International Conference on Computer Vision. ICCV 2015: 1449-1457.DOI: 10.1109/ICCV.2015.170.
[8]FU J, ZHENG H, MEI T. Look closer to see better: recurrent attention convolutional neural network for fine-grained image recognition[C]//2017 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). CVPR 2017: 3.DOI: 10.1109/CVPR.2017.476.
[9]RUSSAKOVSKY O, DENG Jia, SU Hao, et al. ImageNet large scale visual recognition challenge[J]. International Journal of Computer Vision, 2015, 115(3): 211-252. DOI: 10.1109/ACCESS.2017.2735019.
[10]BOTTOU L, CURTIS F E, NOCEDAL J. Optimization methods for large-scale machine learning[J]. SIAM Review, 2018, 60(2): 223-311. DOI: 10.1137/16M1080173.
[11]DU Chaoben, GAO Shesheng. Image segmentation-based multi-focus image fusion through multi-scale convolutional neural network[J]. IEEE Access, 2017, 5: 15750-15761. DOI: 10.1109/ACCESS.2017.2735019.
[12]GIRSHICK R, DONAHUE J, DARRELL T, et al. Rich feature hierarchies for accurate object detection and semantic segmentation[C]//Proceedings of the IEEE conference on computer vision and pattern recognition. CVPR 2014: 580-587.
[13]YANG Fan, CHOI Wongun, LIN Yuanqing. Exploit all the layers: fast and accurate CNN object detector with scale dependent pooling and cascaded rejection classifiers[C]//Proceedings of the IEEE conference on computer vision and pattern recognition. CVPR 2016: 2129-2137.DOI: 10.1109/CVPR.2016.234.
[14]KLAMBAUER G, UNTERTHINER T, MAYR A, et al. Self-normalizing neural networks[C]//Advances in Neural Information Processing Systems. NIPS 2017: 971-980.
[15]FAWCETT T. An introduction to ROC analysis[J]. Pattern Recognition Letters, 2006, 27: 861-874. DOI: 10.1016/j.patrec.2005.10.010.
(編輯 趙勉)