亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

基于改進YOLOv3網(wǎng)絡(luò)的遙感目標(biāo)快速檢測方法

2019-10-26 01:33:12方青云王兆魁

上海航天 2019年5期

方青云，王兆魁

(清華大學(xué) 航天航空學(xué)院，北京 100084)

0 引言

近年來，伴隨著航天遙感技術(shù)的快速發(fā)展，高分辨率大尺度遙感圖像數(shù)據(jù)不斷豐富，實現(xiàn)快速遙感目標(biāo)檢測成為提升天基遙感應(yīng)用能力的關(guān)鍵。遙感目標(biāo)檢測是指在遙感圖像中找到興趣目標(biāo)的具體位置并識別其類別，該技術(shù)在港口、機場流量監(jiān)測、交通疏導(dǎo)、尋找丟失船只等民用、軍用領(lǐng)域有著重要的作用。然而,基于傳統(tǒng)機器學(xué)習(xí)的遙感目標(biāo)檢測方法往往效果不理想，文獻[1]認為相比常規(guī)圖像，遙感圖像背景十分復(fù)雜，在數(shù)千米的視野半徑范圍內(nèi)存在各種復(fù)雜背景，這些復(fù)雜背景對檢測器造成強烈的干擾。普通數(shù)據(jù)集大多是以與地面水平的視角拍攝的，目標(biāo)方向相對地面具有一定的垂直方向性，而遙感目標(biāo)由于是以俯視視角拍攝的，其方向在平面內(nèi)可以是任意的，因此需要檢測器對方向具有魯棒性。此外，遙感目標(biāo)大多為稠密的小目標(biāo)，而提高稠密小目標(biāo)檢測精度正是目前目標(biāo)檢測面臨的挑戰(zhàn)之一。

傳統(tǒng)機器學(xué)習(xí)效率低，主觀性強，嚴重依賴于數(shù)據(jù)結(jié)構(gòu)和專業(yè)知識，其特征泛化能力差，難以解決上述問題。近年來，深度學(xué)習(xí)逐漸成為研究熱點，它通過對大量數(shù)據(jù)的學(xué)習(xí)，自動提取出最有效的特征，并通過建立復(fù)雜的網(wǎng)絡(luò)結(jié)構(gòu)實現(xiàn)精確檢測。自2012年KRIZHEVSKY[2]掀起學(xué)術(shù)界深度學(xué)習(xí)熱潮，深度卷積神經(jīng)網(wǎng)絡(luò)憑借其包含的深層語義特征在計算機視覺領(lǐng)域取得了巨大成功,近年來越來越多地被應(yīng)用到圖像的目標(biāo)檢測任務(wù)中。目前廣泛使用的基于卷積神經(jīng)網(wǎng)絡(luò)的目標(biāo)檢測方法主要分為兩類：第一類是“兩個階段”方法，該類方法將目標(biāo)檢測分為檢測與識別兩個階段，首先由算法或者網(wǎng)絡(luò)在圖像中尋找興趣目標(biāo)區(qū)域，再對區(qū)域內(nèi)的目標(biāo)進行識別，如RCNN[3]、Faster-RCNN[4]、Mask-RCNN[5]等；第二類是“一個階段”方法，該類方法利用回歸思想同時完成檢測與識別，實現(xiàn)端到端檢測與識別，如YOLO[6]、SSD[7]等，它們相對第一類“兩個階段”方法，在速度方面快很多，但檢測識別精度相對較低。

目前已經(jīng)有很多學(xué)者將深度學(xué)習(xí)應(yīng)用于遙感圖像領(lǐng)域，并提出很多針對遙感目標(biāo)檢測的網(wǎng)絡(luò)。2016年ZOU等[8]提出了一種SVDNet，將DCNN和機器學(xué)習(xí)的SVM相結(jié)合，在船只檢測中取得了很好效果。2018年YANG等[9]將深度殘差網(wǎng)絡(luò)ResNet和超矢量編碼(Super-Vector Coding)相結(jié)合，實現(xiàn)對飛機目標(biāo)的高效檢測。2018年XU等[10]將多層特征融合技術(shù)應(yīng)用到全卷積網(wǎng)絡(luò)(FCN)中，實現(xiàn)了對飛機目標(biāo)的高精度定位。YAO等[11]提出一種多架構(gòu)神經(jīng)網(wǎng)絡(luò)(MSCNN)，每個架構(gòu)分別針對大中小三類遙感目標(biāo)進行檢測，相比于單一框架網(wǎng)絡(luò)，該網(wǎng)絡(luò)在虛警率和召回率上都有較大的提升。

但在火災(zāi)監(jiān)測報警、海上目標(biāo)搜救和地震、火山、海嘯災(zāi)害評估等重大緊急任務(wù)中，地面離線處理星上傳回的圖像方法，耗時長久，會耽誤抗震救災(zāi)、人員搜救的黃金時間，因此星上在線識別處理將成為未來遙感技術(shù)的重要發(fā)展方向。受衛(wèi)星本身質(zhì)量和功耗的限制，其攜帶的計算單元的內(nèi)存、算力有限，雖然目前關(guān)于利用深度學(xué)習(xí)方法實現(xiàn)遙感目標(biāo)檢測的論文不在少數(shù)，但此類論文提出的網(wǎng)絡(luò)規(guī)模和計算量都較大，難以在星上內(nèi)存和算力都受限的情況下完成對目標(biāo)的實時檢測。

針對上述問題，本文采用了YOLOv3-MobileNet網(wǎng)絡(luò)，利用輕量化網(wǎng)絡(luò)MobileNet[12]替代原先YOLOv3[13]的特征提取網(wǎng)絡(luò)DarkNet53，在大量減少網(wǎng)絡(luò)參數(shù)的同時顯著提升運行速度。在后續(xù)對比實驗中發(fā)現(xiàn)，在兩者平均精度均值(mAP)都在76%附近時，YOLOv3-MobileNet檢測速度是YOLOv3的3.7倍。此外，本文還提出了一種IoUK-medians算法，對數(shù)據(jù)集groundtruths進行尺度聚類分析，使得到的先驗框更加適合目標(biāo)檢測。使用IoUK-medians算法后，在YOLOv3上的目標(biāo)檢測mAP提升了7.0%，在YOLOv3-MobileNet上提升了2.3%。

1 研究基礎(chǔ)

1.1 YOLOv3網(wǎng)絡(luò)

與之前的YOLO算法相比，YOLOv3采用了精度更高的DarkNet53作為特征提取網(wǎng)絡(luò)，設(shè)計了目標(biāo)多尺度檢測結(jié)構(gòu)，使用了logistics函數(shù)代替?zhèn)鹘y(tǒng)的softmax函數(shù)。DarkNet53借鑒了ResNet[14]殘差網(wǎng)絡(luò)的思路，在一些層之間設(shè)置了快捷路徑，實驗表明：DarkNet53相比于ResNet-152，在精度上接近，但速度更快[13]。此外，YOLOv3對小目標(biāo)的檢測效果有明顯的提升，這得益于網(wǎng)絡(luò)新增的 top-down結(jié)構(gòu)，分別在13×13、26×26、52×52特征圖上進行預(yù)測，解決了 YOLO算法檢測顆粒粗、對小目標(biāo)檢測無力的問題。

1.2 輕量化網(wǎng)絡(luò)

雖然現(xiàn)在卷積神經(jīng)網(wǎng)絡(luò)(如AlexNet[2]、ResNet[14]、GoogLeNet[15]和DenseNet[16]等)的特征提取能力隨著網(wǎng)絡(luò)層數(shù)的加深正在不斷地提升，但在實際工程中還需要考慮模型尺寸和模型預(yù)測速度。深度卷積神經(jīng)網(wǎng)絡(luò)包含幾十層甚至上百層的網(wǎng)絡(luò)，有著大量的權(quán)重參數(shù)，保存這些權(quán)重參數(shù)對設(shè)備內(nèi)存有很高的要求。此外，在實際應(yīng)用中往往要求檢測速度在幾十毫秒甚至更少時間內(nèi)完成目標(biāo)檢測。

為解決上述問題，通常的方法是對訓(xùn)練好的模型進行壓縮，在減少網(wǎng)絡(luò)參數(shù)的同時提升預(yù)測速度。輕量化網(wǎng)絡(luò)則通過更高效的卷積計算方式，使得網(wǎng)絡(luò)參數(shù)和計算量大大減少，且不損失網(wǎng)絡(luò)性能。MobileNet由2017年Google 團隊提出，它采用一種深度可分離卷積的高效卷積方法來提升運算速度。在深度可分離卷積中，一個卷積核負責(zé)一部分特征圖，且每個特征圖只被一個卷積核卷積。深度可分離卷積涉及另外兩個超參數(shù)：寬度乘法器和分辨率乘法器，這兩個超參數(shù)用于衡量網(wǎng)絡(luò)設(shè)計的大小和量化模型規(guī)模。MobileNet在計算量、存儲空間和準(zhǔn)確率方面取得了很好的平衡，與VGG16[17]相比，在很小的精度損失情況下，將運算量減小為1/30。

2 網(wǎng)絡(luò)設(shè)計

2.1 YOLOv3-MobileNet網(wǎng)絡(luò)

圖1為YOLOv3-MobileNet網(wǎng)絡(luò)結(jié)構(gòu)，相比于DarkNet53有53個卷積層，MobileNet只有1個卷積層和13個深度可分離卷積層。

從圖1中可以看出藍色的深度可分離卷積模塊將卷積操作分成了Depthwise和Pointwise兩個步驟。Depthwise對于不同輸入通道采取不同的卷積核進行卷積，卷積核和通道是一一對應(yīng)的，再通過1×1 Pointwise 卷積完成對Depthwise輸出特征圖的整合，這樣就避免了普通卷積層中任意一個卷積核都需要對所有通道進行操作的缺陷。通過Depthwise和Pointwise兩個步驟實現(xiàn)卷積層，其參數(shù)僅約為普通卷積的1/9，乘法計算量僅為普通卷積的1/c+1/9，其中c為輸入通道數(shù)?；谶@種高效卷積的MobileNet將大大精簡整個模型的規(guī)模，極大減少計算量。表1為在輸入圖片尺寸為416×416時YOLOv3-MobileNet與YOLOv3在參數(shù)量、計算量方面的比較,在模型規(guī)模方面 , YOLOv3-MobileNet參數(shù)相比于YOLOv3降低了1.5倍; 在浮點數(shù)計算量方面, YOLOv3-MobileNet浮點數(shù)計算量相比于YOLOv3降低了3.3倍。

圖1 YOLOv3-MobileNet 網(wǎng)絡(luò)結(jié)構(gòu)Fig.1 YOLOv3-MobileNet architecture

表1 YOLOv3-MobileNet與YOLOv3對比

從圖1可看到，YOLOv3-MobileNet未改變YOLOv3 top-down結(jié)構(gòu)，這種結(jié)構(gòu)借鑒了特征金字塔網(wǎng)絡(luò)[18]的概念，對特定卷積神經(jīng)網(wǎng)絡(luò)層數(shù)的特征圖(YOLOv3-MobileNet中第5、11、13深度可分離卷積層)進行處理，以生成反映此維度信息的特征。top-down結(jié)構(gòu)處理后所生成的特征之間也有關(guān)聯(lián)，上層高維度特征會影響下層低維度特征的表達，最終所有維度的特征一起作為目標(biāo)檢測的輸入，如圖2所示。不同維度的特征圖可以針對不同尺度的目標(biāo)進行檢測；最上面的特征層，特征維度豐富但特征尺度壓縮嚴重，因此比較適合檢測大目標(biāo)；最下面的特征層，特征維度少但特征尺寸大，適合檢測小目標(biāo)；中間特征層居于上、下兩層中間，適合檢測中等目標(biāo)。這種多尺度的檢測極大地改善了YOLO檢測粗糙的問題，特別是對小目標(biāo)的檢測精度有了很大的提升。

圖2 自上向下結(jié)構(gòu)Fig.2 Top-down architecture

2.2 IoU K-medians聚類改進

Faster RCNN和SSD算法中都需要手動挑選先驗邊界框的尺寸，顯然這種方法過于主觀。統(tǒng)計學(xué)習(xí)中的K-means方法通過對訓(xùn)練集中目標(biāo)的邊界框尺寸進行聚類，自動挑選出更精準(zhǔn)、更具代表性的邊界框尺寸，使得卷積神經(jīng)網(wǎng)絡(luò)更容易準(zhǔn)確預(yù)測目標(biāo)位置。對于給定的樣本集，根據(jù)樣本間的距離大小，將樣本劃分為K個簇,通過一系列迭代使得簇內(nèi)的樣本距離盡可能小，而讓簇間的距離盡量大，這是K-means的主要思想，其本質(zhì)上是一種基于最大期望的無監(jiān)督聚類方法。

K-means算法中通常以歐氏距離、曼哈頓距離、切比雪夫距離或者閔氏距離作為距離度量。設(shè)置先驗邊界框大小的目的是使得預(yù)測框與groundtruths 之間的交并比(IoU)結(jié)果更好，但使用這些傳統(tǒng)的度量往往得不到很好的效果。因此本文使用一種新的距離度量標(biāo)準(zhǔn)，即

d(B,C)=1-IoU(B,C)

(1)

式中：B表示為groundtruths集合；C為邊界框的簇中心集合；IoU(B,C)為groundtruths和邊界框簇中心的交并比。IoU在目標(biāo)檢測中代表預(yù)測框與groundtruths之間的相關(guān)度，相關(guān)度越高，兩者越相近，預(yù)測框就越精確，IoU的具體計算式為

(2)

式中：bgti為第i個groundtruth；bpdj為第j個預(yù)測框。

K-means算法在簇迭代中采用求取均值后更新的方法，這樣會導(dǎo)致其對野值和噪聲比較敏感。在遙感圖像目標(biāo)檢測中，由于衛(wèi)星拍攝高度、相機分辨率以及物體本身實際尺寸大小均存在較大差異，會存在少數(shù)超大或者超小的目標(biāo)出現(xiàn)，這些異常目標(biāo)會對K-means聚類精度造成很大影響。為避免該現(xiàn)象，本文采用一種K-means的改進算法K-medians，將原先K-means簇迭代中求取均值替換為求取中位數(shù)。中位數(shù)對噪聲點或者野值具有很強的抗干擾性，避免了異常目標(biāo)尺寸的影響，進而提升目標(biāo)檢測精度。

圖3展示了以歐幾里得距離為度量的K-means、以 IoU為度量的K-means和K-medians三種方法在數(shù)據(jù)集上的平均 IoU隨聚類中心個數(shù)K的曲線圖。圖3驗證了使用普通的距離度量往往得不到一個理想的結(jié)果，甚至隨著簇中心個數(shù)K的增加，以歐氏距離為度量的K-means效果在有些情況下反而變差了。原因是在使用歐氏距離為度量時，尺寸大的預(yù)測框比尺寸小的預(yù)測框更容易產(chǎn)生損失誤差，這必然會導(dǎo)致K-means生成的預(yù)測框偏大，從而使得最后得到的平均IoU偏低。而直接以IoU為度量的聚類方法避免了預(yù)測框大小造成損失不平衡的情況，得到的IoU更好，且結(jié)果與預(yù)測框的尺寸無關(guān)。此外，本文提出的基于IoUK-medians方法相比其他兩者的平均IoU更高，得到的先驗框更精確也更具代表性。

圖3 不同聚類方法的平均IoU比較Fig.3 Average IoU for different methods

3 實驗對比分析

3.1 數(shù)據(jù)集介紹

實驗使用的數(shù)據(jù)集是對NWPU-VHR10數(shù)據(jù)集的擴充，數(shù)據(jù)集原有650張圖像，擴充398張圖像，包含飛機、艦船、儲油罐、棒球場、網(wǎng)球場、籃球場、操場、港口、橋梁和車輛10類目標(biāo)，總計6 686個目標(biāo)。選取數(shù)據(jù)集中70%的圖像作為訓(xùn)練樣本，其余30%作為測試樣本。

3.2 檢測指標(biāo)

實驗結(jié)果指標(biāo)采用國際PASCAL VOC 目標(biāo)檢測挑戰(zhàn)賽的度量，即精度(Precision)、召回率(Recall)、平均精度(AP)和平均精度均值(mAP)。精度P是正確預(yù)測的實例占預(yù)測總數(shù)的百分比，可表示為

P=NTP/(NTP+NFP)

(3)

式中：NTP為正陽性實例;NFP為假陽性實例。NTP和NFP相加就是總預(yù)測數(shù)。召回率R是正確預(yù)測的實例占實例總數(shù)的百分比，可表示為

R=NTP/(NTP+NFN)

(4)

式中：NFN為假陰性實例。NFN和NTP相加就是實例總數(shù)。對于每一種類別，平均精度是精度隨召回率變化(PR)曲線的積分，以圖4中飛機目標(biāo)為例，其平均精度是其PR曲線的積分，即圖中淡藍色區(qū)域的面積。mAP表示所有類別平均精度的均值。

圖4 飛機目標(biāo)平均精度Fig.4 AP of airplane

3.3 實驗分析

實驗采用的軟硬件平臺配置如下。CPU：Intel(R) Core(TM) i9-7900X @ 3.30 GHz; GPU: NVIDIA Titan xp; 操作系統(tǒng): ubuntu 16. 04LTS; 深度學(xué)習(xí)框架: Keras。

表2是YOLOv3和YOLOv3-MobileNet使用和不使用IoUK-medians算法的對比。通過對比可以發(fā)現(xiàn)：使用IoUK-medians算法能產(chǎn)生很好的效果，在YOLOv3上的mAP提升了7%，在YOLOv3-MobileNet上則提升了2.3%。檢測平臺界面如圖5所示。圖6是YOLOv3-MobileNet的部分檢測結(jié)果，最右側(cè)小圖中棒球場目標(biāo)在圖像中只占很小一部分，但也能被正確檢測，側(cè)面反映了YOLOv3-MobileNet具有強大的學(xué)習(xí)能力。

表2 IoU K-medians效果

圖7中，YOLOv3-MobileNet相比于YOLOv3在檢測速度方面有很大的優(yōu)勢,其檢測速度為GPU耗時的倒數(shù)，YOLOv3-MobileNet最快能達到101 frame/s,滿足實時檢測的需求。當(dāng)YOLOv3-MobileNet和YOLOv3 兩者的mAP都在76%附近時，YOLOv3-MobileNet的檢測速度為78 frame/s，而YOLOv3的檢測速度只有21 frame/s，前者是后者的3.7倍。當(dāng)YOLOv3-MobileNet的mAP達到82.2%時，其檢測速度仍能達到33 frame/s,是YOLOv3最快速度(21 frame/s)的1.6倍，并且比YOLOv3的mAP高6%。

圖5 遙感目標(biāo)檢測系統(tǒng)界面Fig.5 System interface of remote sensing target detection

圖6 YOLOv3-MobileNet 檢測示例Fig.6 Some examples of YOLOv3-MobileNet detection

圖7 YOLOv3-MobileNet 與YOLOv3的mAP和檢測速度對比Fig.7 Comparison of mAP and detection speed between YOLOv3-MobileNet and YOLOv3

不同尺寸的輸入圖像對YOLOv3-MobileNet結(jié)果有很大的影響，總體來說，隨著網(wǎng)絡(luò)輸入圖像尺寸增大，mAP也在提升，如表3所示。大的輸入圖像能保留更加豐富的信息，因此其檢測精度也相對較高。值得注意的是，對于不同大小的目標(biāo)，隨著輸入圖像尺度增加，檢測精度不一定提高。對于儲油罐和汽車這類小尺寸目標(biāo)，隨著輸入尺度的增加，精度不斷提升；而對于操場、棒球場等超大尺寸的目標(biāo)，隨著輸入尺度增加，精度會降低；對于飛機這類中等尺寸的目標(biāo)，隨著輸入尺度增加，精度基本不變化。對于小目標(biāo)，在輸入尺寸較小時，經(jīng)過多層的卷積池化后，其大量信息丟失，使得最終特征的維度過低，從而難以區(qū)分出來。隨著輸入尺寸增大，保留下的信息變多，因而小目標(biāo)檢測精度得到提升。大目標(biāo)正好相反，輸入尺寸過大，使得提取特征的維度過高，最終導(dǎo)致精度下降。

表3 不同輸入尺寸YOLOv3-MobileNet各類目標(biāo)AP檢測結(jié)果

4 結(jié)束語

本文針對將來星上實時檢測內(nèi)存和計算能力都受限的情況，在YOLOv3的基礎(chǔ)上進行了改進，利用輕量化網(wǎng)絡(luò)MobileNet代替了DarkNet53，在保持檢測精度相差不多的情況下，極大減小了模型規(guī)模和計算量。此外還提出了一種IoUK-medians算法，通過對groundtruths進行聚類分析，得到更精準(zhǔn)、更具代表性的先驗框，使得YOLOv3-MobileNet更容易預(yù)測目標(biāo)準(zhǔn)確位置，并通過實驗進行了驗證。該實驗也為將來在嵌入式平臺上對算法進行后續(xù)仿真驗證奠定了基礎(chǔ)。