程懷俊,陳鵬,陳杰,劉杰,彭德中
(1.四川大學(xué)計算機學(xué)院,成都610065;2.西華大學(xué)計算機與軟件工程學(xué)院,成都610039)
快速準確地在特定場景中識別出無人機目標,可以幫助軍事基地、機場等對制空權(quán)要求高的場所快速的對外來無人機目標進行高效精準的檢測。對于無人機領(lǐng)域的目標檢測問題,不僅具有領(lǐng)域的特殊性、無人機形態(tài)的多樣性、識別場景的多變性,同時還將面臨檢測過程中的實效性、準確性等復(fù)雜問題。本文提出了一種基于視覺感受野的方法來完成無人機目標檢測任務(wù)。無人機數(shù)據(jù)是在特定場景中使用特定攝像頭進行采集的。深度神經(jīng)網(wǎng)絡(luò)方法以數(shù)據(jù)為驅(qū)動,可以自動識別出無人機的圖像特征,從而基于這些圖像特征對目標進行分類和定位。這種方法對于大量復(fù)雜度高的圖片進行目標檢測具有顯著的優(yōu)勢。在計算機視覺領(lǐng)域,深度神經(jīng)網(wǎng)絡(luò)已經(jīng)在目標分割、目標分類、目標跟蹤等任務(wù)中展現(xiàn)出優(yōu)勢,并且在特征提取層面與傳統(tǒng)方法相比,不需要大量的先驗知識,這也就意味著不需要人工設(shè)計特征,避免了人工制定特征模版需要很多專業(yè)知識已經(jīng)模版可移植性差的問題。
計算機視覺技術(shù)現(xiàn)如今已經(jīng)廣泛應(yīng)用于各行各業(yè),如視覺測量、事件監(jiān)測、目標檢測、場景重建等。其中目標檢測技術(shù)作為計算機視覺領(lǐng)域的重要研究方向之一,它在軍事偵察、智慧城市、智能交通、視頻監(jiān)控等領(lǐng)域有著重要的應(yīng)用前景。常用的目標檢測算法有基于光流法、幀差法、背景減除法、匹配法、深度神經(jīng)網(wǎng)絡(luò)目標檢測法等。隨著近些年來硬件性能的不斷提升以及新的算法的提出,基于深度神經(jīng)網(wǎng)絡(luò)的方法通過自主學(xué)習(xí)目標特征,在目標檢測領(lǐng)域中表現(xiàn)出了強大的魯棒性。2012 年,Krizhevsky 等人設(shè)計了一個用于圖像分類的深度卷積神經(jīng)網(wǎng)絡(luò)AlexNet[1],奪得了2012 年ImageNet LSVRC 的冠軍并大幅度提高了圖像分類的準確率,引起了學(xué)術(shù)界極大的轟動。隨后幾年陸續(xù)出現(xiàn)了GooLeNet[2]、VGG[3]、ResNet[4]等分類網(wǎng)絡(luò),均取得了優(yōu)秀的圖像分類效果?;谏疃葘W(xué)習(xí)的目標檢測方法的研究主要存在兩個方向:兩階段算法主要是先提取候選區(qū)域(region proposals)之后進行分類和位置精修,其優(yōu)點是精度高,代表算法主要是Faster R-CNN[5]、RFCN[6]等;一階段算法直接回歸產(chǎn)生物體的類別概率和位置坐標值,其優(yōu)點是速度快,代表算法主要是YOLOv3[7]、SSD[8]等。
早期的圖像特征檢測和提取技術(shù)主要采用邊緣檢測、角檢測等方法,后來通過區(qū)域檢測進一步提取出圖像的顯著特征。早期的圖像特征提取一般分為三個步驟:預(yù)處理、特征提取、特征處理;然后再利用機器學(xué)習(xí)等方法對特征進行分類等操作。神經(jīng)網(wǎng)絡(luò)中用來提取圖像特征最早應(yīng)用是卷積神經(jīng)網(wǎng)絡(luò)[1],從最開始的LeNet5[9],到在圖像識別任務(wù)上取得重大突破的AlexNet[1],再到更強大的ZFNet[10]、ResNet[4],Darknet[11],都充分展示了卷積神經(jīng)網(wǎng)絡(luò)在圖像領(lǐng)域的地位。深度學(xué)習(xí)的快速發(fā)展和設(shè)備能力的改善(如算力、內(nèi)存容量、能耗、圖像傳感器分辨率和光學(xué)器件)提升了視覺應(yīng)用的性能和成本效益,并進一步加快了此類應(yīng)用的擴展。基于深度學(xué)習(xí)的特征提取方法主要是基于卷積神經(jīng)網(wǎng)絡(luò)來自動提取圖像的特征。
隨著深度神經(jīng)網(wǎng)絡(luò)的發(fā)展,目前性能最佳的目標檢測模型都依賴于深度的CNN[1]主干網(wǎng),如ResNet-101[4]和Inception[12],雖然強大的特征表示有利于性能的提升,但卻帶來高額的計算成本。相反的,一些輕量級的檢測模型可以實時的處理檢測問題,但隨之帶來的是精度的犧牲。文獻[13]通過使用人工設(shè)計的網(wǎng)絡(luò)模塊(hand-crafted mechanism)強化輕量級特征來構(gòu)建快速準確的檢測模型。受人類視覺系統(tǒng)中感受野(RF)結(jié)構(gòu)的啟發(fā),文獻[13]提出了一種新穎的RF 模塊(RFB),它通過模擬RF 的大小和偏心率之間的關(guān)系增強了特征的可辨性和模型的魯棒性。RFB[13]是一種多分支的卷積模塊,它的內(nèi)部結(jié)構(gòu)可以分為兩個部分:具有不同卷積核的多分支卷積層后接膨脹池化或膨脹卷積。
數(shù)據(jù)決定了學(xué)習(xí)的上限,而神經(jīng)網(wǎng)絡(luò)只是逼近這個上限,所以一開始的數(shù)據(jù)收集工作,起到了關(guān)鍵的作用。其中,數(shù)據(jù)的采集又是非常困難的,因為針對無人機目標檢測問題,并不存在公開的標準訓(xùn)練數(shù)據(jù)庫能夠訓(xùn)練神經(jīng)網(wǎng)絡(luò),所以只能按照現(xiàn)有的條件重新采集新的數(shù)據(jù)。無人機數(shù)據(jù)集采集主要是通過使用攝像機對6 種市面主流的消費級無人機(五種不同大小不同形狀的四旋翼無人機和一種直升機)和主要干擾物氣球進行拍攝視頻,然后對視頻進行抽幀,得到無人機圖片,之后再對圖片進一步篩選標注,就得到了無人機的數(shù)據(jù)集。數(shù)據(jù)集的分布與樣例如表1-表3。
表1 無人機數(shù)據(jù)集
表2 多目標UAV 圖像樣本分布
表3 單目標UAV 圖像樣本分布
圖1 無人機數(shù)據(jù)集示例
對得到的數(shù)據(jù)集進一步預(yù)處理,首先包括顏色隨機調(diào)整(包括對比度、飽和度、亮度和灰度)以及對圖像進行裁剪、縮放和翻轉(zhuǎn)操作,其次使用雙邊濾波對圖像進行去噪,從而達到保持圖像邊緣特性平滑去噪的目的。
由于雙階段目標檢測算法具有檢測精度更高的優(yōu)點,所以本文采用倆階段檢測算法中的經(jīng)典框架Faster R-CNN[5]作為主要檢測框架。Faster R-CNN 使用區(qū)域候選網(wǎng)絡(luò)(RPN)替代Fast R-CNN[14]中的選擇搜索,同時引入錨框(anchor box)應(yīng)對目標形狀的變化問題,另外Faster R-CNN 使用感興趣區(qū)域池化層(ROI pooling layer)把不同大小輸入映射到一個固定尺度的特征向量。Faster R-CNN 檢測算法的主要流程如下:將整張圖片輸進特征提取網(wǎng)絡(luò),得到feature map;將卷積特征輸入到RPN,得到候選框的特征信息;對候選框中提取出的特征,使用分類器判別是否屬于一個特定類;對于屬于某一類別的候選框,用回歸器進一步調(diào)整其位置??蚣芰鞒倘鐖D2 所示。
圖2 Faster R-CNN流程圖
兩階段目標檢測算法中使用的VGG[3]、ResNet[4]等特征提取網(wǎng)絡(luò)雖然在公開數(shù)據(jù)集如VOC2007 上能取的較好的效果。但是自己采集的數(shù)據(jù)集相比公開數(shù)據(jù)集復(fù)雜度更高,背景更加多樣,且目標像素占比較小?;谝曈X感受野的RFBNet[13]采用膨脹卷積來捕獲多尺度信息,從而能更好的結(jié)合特征圖的高層語義信息和低層細節(jié)信息來對目標進行精準識別。Darknet53[11]由于其引入殘差結(jié)構(gòu)可以獲得圖像更深層次的特征,且計算效率更高,故本文采用Darknet53 與RFB 模塊進行融合得到RFB-Darknet 特征提取器。
RFB-Darknet 特征提取器結(jié)構(gòu)如圖3 所示。
圖3 RFB-Darknet特征提取器
實驗中,本文基于Faster R-CNN 框架,采用RFBDarknet 模型作為特征提取網(wǎng)絡(luò)。模型使用SGD 優(yōu)化算法訓(xùn)練40 個輪次,初始學(xué)習(xí)率為10-3,權(quán)重衰減數(shù)值為10-4,權(quán)重衰減步長為5,NMS 閾值為0.7,批大小為1。算法并行運行在擁有兩塊NVIDIA GeForce GTX 2080 GPU 的計算機的PyTorch 上。實驗采用端到端訓(xùn)練方式,將不同大小的圖片數(shù)據(jù)集輸入模型進行訓(xùn)練驗證。其中驗證集使用的是從13803 張圖片中隨機抽取出的2000 張圖片,訓(xùn)練集使用余下的11803 張圖片。
本文對比多種主流檢測算法進行實驗,模型在訓(xùn)練集上進行訓(xùn)練之后,再在驗證集上進行驗證得到最終結(jié)果。本文以目標檢測領(lǐng)域的主流MAP(Mean Average Precision)評價指標作為標準。MAP 由所有檢測類別上的平均精度計算得到,計算公式為:
其中N(TP)C表示對于類別C 的真正樣本的數(shù)量,N(TotalObject)C表示類別為C 的所有物體的數(shù)量,N(TotalTrain)C表示訓(xùn)練集的大小,最終MAP 則是所有類別上的平均精度的均值。
本文主要采用3 種目標檢測領(lǐng)域主流方法進行實驗對比,而且使用了3 種最常使用的特征提取器。實驗對比不同檢測模型在無人機數(shù)據(jù)集上的效果。實驗主要對比方法是SSD 和YOLOv3,倆者都是單目標檢測算法,其中SSD 采用多尺度特征圖檢測,YOLOv3 使用跨尺度特征圖預(yù)測。主要特征提取器是VGG16、ResNet50、Darknet53,其中VGG16 使用小卷積核加快計算效率,ResNet50 使用殘差結(jié)構(gòu)加強信息流動且獲取更深層次信息,Darknet 使用快捷連接獲取多尺度特征信息。
表4 對比實驗結(jié)果
從實驗結(jié)果可以看到,F(xiàn)aster R-CNN 采用提出的RFB-Darknet 特征提取器所得實驗結(jié)果最高。其中三種算法都采用了Darknet 特征提取器,而我們的方法較采用Darknet 特征提取器的算法結(jié)果都有提升,表明Darknet 網(wǎng)絡(luò)融合RFB 模塊對無人機檢測具有提升效果。其中,RFB 采用的多分支卷積模塊構(gòu)建了更深層次的特征映射,獲取了圖像更深層次的信息,因此能在倆階段目標算法上取得較好效果。本文在保持其他條件同等情況下,通過融合視覺感受野模塊與Darknet 特征提取網(wǎng)絡(luò),將無人機檢測效果提升了0.9MAP,證明本文提出的算法能勝任無人機目標檢測任務(wù)。
本文針對無人機目標檢測任務(wù),構(gòu)建了特定領(lǐng)域數(shù)據(jù)集用于算法的研究和計算。并且就兩階段目標檢測器常用的特征提取器難以捕獲多尺度信息,從而導(dǎo)致模型性能不夠理想進行改進。本文在倆階段目標檢測框架的基礎(chǔ)上提出了融合感受野模塊和Darknet 網(wǎng)絡(luò)的特征提取器。應(yīng)用本文提出的特征提取器,無人機檢測效果得到了顯著提升。但是算法對于小目標無人機檢測效果沒有其他類別效果好,后續(xù)將研究如何在現(xiàn)有算法的基礎(chǔ)上進一步提升小目標效果。