亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于深度卷積神經(jīng)網(wǎng)絡(luò)的小型民用無(wú)人機(jī)檢測(cè)研究進(jìn)展

        2022-11-25 08:08:44李邵港王以政
        紅外技術(shù) 2022年11期
        關(guān)鍵詞:卷積特征圖像

        楊 欣,王 剛,李 椋,李邵港,高 晉,王以政

        專(zhuān)欄:〈紅外目標(biāo)檢測(cè)〉

        紅外目標(biāo)探測(cè)具有工作距離遠(yuǎn)、抗干擾能力強(qiáng)、測(cè)量精度高、不受天氣影響、能晝夜工作等特點(diǎn),在軍事和民用領(lǐng)域得到了廣泛的應(yīng)用。近年來(lái),在以深度學(xué)習(xí)技術(shù)為代表的智能化浪潮推動(dòng)下,目標(biāo)探測(cè)領(lǐng)域取得了長(zhǎng)足的發(fā)展與進(jìn)步?;诖?,《紅外技術(shù)》面向研究人員推出“紅外目標(biāo)檢測(cè)專(zhuān)欄”,力圖展示目標(biāo)檢測(cè)技術(shù)的最新研究成果,為從事相關(guān)研究的讀者提供參考。

        通過(guò)廣泛征集和嚴(yán)格評(píng)審,本期專(zhuān)欄收錄了來(lái)自南京工業(yè)大學(xué)、西安電子科技大學(xué)、蘇州大學(xué)等從事紅外目標(biāo)檢測(cè)團(tuán)隊(duì)的8篇論文。論文內(nèi)容既有對(duì)小型無(wú)人機(jī)檢測(cè)等熱門(mén)研究方向的綜述與分析,也有針對(duì)弱小目標(biāo)檢測(cè)、抗遮擋目標(biāo)跟蹤、三維目標(biāo)識(shí)別等人工智能最新應(yīng)用技術(shù)的研究。

        然而,紅外目標(biāo)的多樣性、探測(cè)環(huán)境的復(fù)雜性、應(yīng)用場(chǎng)景的開(kāi)放性等都對(duì)紅外目標(biāo)檢測(cè)技術(shù)的發(fā)展和應(yīng)用提出了更嚴(yán)峻的挑戰(zhàn)。本期專(zhuān)欄只是一個(gè)起點(diǎn),希望能夠啟發(fā)廣大讀者作出更多更精彩的研究。

        最后,感謝各位審稿專(zhuān)家和編輯的辛勤工作。

        ——王衛(wèi)華

        基于深度卷積神經(jīng)網(wǎng)絡(luò)的小型民用無(wú)人機(jī)檢測(cè)研究進(jìn)展

        楊 欣1,2,王 剛2,3,李 椋2,李邵港1,2,高 晉4,王以政2

        (1. 南華大學(xué),湖南 衡陽(yáng) 421001;2. 軍事科學(xué)院軍事認(rèn)知與腦科學(xué)研究所,北京 100850;3. 北京腦科學(xué)與類(lèi)腦研究中心,北京 102206;4. 中國(guó)科學(xué)院自動(dòng)化研究所,北京 100190)

        小型民用無(wú)人機(jī)預(yù)警探測(cè)是公共安全領(lǐng)域的熱點(diǎn)問(wèn)題,也是視覺(jué)目標(biāo)檢測(cè)領(lǐng)域的研究難點(diǎn)。采用手工特征的經(jīng)典目標(biāo)檢測(cè)方法在語(yǔ)義信息的提取和表征方面存在局限性,因此基于深度卷積神經(jīng)網(wǎng)絡(luò)的目標(biāo)檢測(cè)方法在近年已成為業(yè)內(nèi)主流技術(shù)手段。圍繞基于深度卷積神經(jīng)網(wǎng)絡(luò)的小型民用無(wú)人機(jī)檢測(cè)技術(shù)發(fā)展現(xiàn)狀,本文介紹了計(jì)算機(jī)視覺(jué)目標(biāo)檢測(cè)領(lǐng)域中基于深度卷積神經(jīng)網(wǎng)絡(luò)的雙階段算法和單階段檢測(cè)算法,針對(duì)小型無(wú)人機(jī)檢測(cè)任務(wù)分別總結(jié)了面向靜態(tài)圖像和視頻數(shù)據(jù)的無(wú)人機(jī)目標(biāo)檢測(cè)方法,進(jìn)而探討了無(wú)人機(jī)視覺(jué)檢測(cè)中亟待解決的瓶頸性問(wèn)題,最后對(duì)該領(lǐng)域研究的未來(lái)發(fā)展趨勢(shì)進(jìn)行了討論和展望。

        計(jì)算機(jī)視覺(jué);目標(biāo)檢測(cè);視頻目標(biāo)檢測(cè);無(wú)人機(jī)檢測(cè);深度卷積神經(jīng)網(wǎng)絡(luò);

        0 引言

        隨著無(wú)人航空技術(shù)的快速發(fā)展,小型民用無(wú)人機(jī)一方面被廣泛應(yīng)用于安全巡查、農(nóng)業(yè)監(jiān)測(cè)、抗災(zāi)救援等任務(wù)中,為人類(lèi)生產(chǎn)和生活帶來(lái)極大的便利和幫助;另一方面,無(wú)人機(jī)憑借其價(jià)低便攜、易于部署、隱蔽性強(qiáng)等特性,也成為違禁品走私、間諜測(cè)繪、抵近偵察等違法行為的重要手段,對(duì)公共安全造成巨大威脅。因此,開(kāi)發(fā)面向低空近程小型無(wú)人機(jī)的預(yù)警探測(cè)系統(tǒng)具有重要意義。由于小型無(wú)人機(jī)雷達(dá)反射面小、飛行高度低、運(yùn)動(dòng)速度慢,而且常隱藏在樓宇、山坳或樹(shù)林等背景中,傳統(tǒng)雷達(dá)探測(cè)易受地雜波干擾難以辨別目標(biāo),因而光電傳感器(包括紅外和可見(jiàn)光等頻段)相比于雷達(dá)更適于復(fù)雜背景下的低空近程無(wú)人機(jī)目標(biāo)探測(cè)。光電傳感器獲得圖像視頻數(shù)據(jù)后,需要進(jìn)一步采用視覺(jué)目標(biāo)自動(dòng)識(shí)別技術(shù)輸出無(wú)人機(jī)檢測(cè)結(jié)果。

        視覺(jué)目標(biāo)檢測(cè)是指在圖像中發(fā)現(xiàn)、識(shí)別并標(biāo)記特定目標(biāo)的過(guò)程[1],與物體分類(lèi)、目標(biāo)跟蹤和圖像分割技術(shù)密切相關(guān)。經(jīng)典目標(biāo)檢測(cè)方法[2-4]通常采用滑動(dòng)窗口策略,即采用一系列的滑動(dòng)窗口遍歷整個(gè)圖像來(lái)判斷圖像中目標(biāo)可能存在的位置,然后在圖像窗口上提取一些手工設(shè)計(jì)的特征,例如尺度不變特征變換[5],方向梯度直方圖[6]和局部二值模式[7]等,再使用支持向量機(jī)(support vector machine,SVM)[8]或AdaBoost[9]分類(lèi)器對(duì)提取的特征進(jìn)行分類(lèi)。由于分類(lèi)后仍然可能存在許多冗余窗口,還需要再使用非極大值抑制[10]技術(shù)排除冗余窗口,實(shí)現(xiàn)目標(biāo)檢測(cè)。由于經(jīng)典目標(biāo)檢測(cè)算法采用滑動(dòng)窗口策略來(lái)生成目標(biāo)候選區(qū)域,窗口冗余計(jì)算量大,時(shí)間復(fù)雜度高,目標(biāo)檢測(cè)效率有限。同時(shí),采用手工設(shè)計(jì)的特征來(lái)進(jìn)行檢測(cè),可移植性差,難以應(yīng)對(duì)目標(biāo)形態(tài)和背景的變化,而且每次對(duì)新類(lèi)別目標(biāo)檢測(cè)都要花費(fèi)大量時(shí)間來(lái)設(shè)計(jì)手工特征。

        為了解決經(jīng)典目標(biāo)檢測(cè)方法存在的上述瓶頸性問(wèn)題,研究人員在近年來(lái)將最初應(yīng)用于物體分類(lèi)的深度卷積神經(jīng)網(wǎng)絡(luò)(deep convolutional neural networks,DCNNs)引入到目標(biāo)檢測(cè)領(lǐng)域[11],將特征學(xué)習(xí)和模式判別統(tǒng)一到同一模型框架下,同時(shí)借助大規(guī)模標(biāo)注數(shù)據(jù)和高性能計(jì)算資源,實(shí)現(xiàn)了低階圖像特征和高階語(yǔ)義特征的層次化表征,在多個(gè)大型公開(kāi)數(shù)據(jù)集取得了可觀的目標(biāo)檢測(cè)精度。因此,基于DCNN的方法已成為目標(biāo)檢測(cè)領(lǐng)域的主流手段之一[12-13]。在通用目標(biāo)檢測(cè)技術(shù)的基礎(chǔ)上,業(yè)內(nèi)已經(jīng)提出了一些面向小型無(wú)人機(jī)的目標(biāo)檢測(cè)算法,在檢測(cè)精度和實(shí)時(shí)性方面取得了一定的積極進(jìn)展。本文對(duì)業(yè)內(nèi)現(xiàn)有的無(wú)人機(jī)目標(biāo)檢測(cè)算法進(jìn)行了歸納總結(jié),探討了現(xiàn)有算法在實(shí)際應(yīng)用中尚存在的瓶頸性問(wèn)題,并對(duì)基于DCNN的無(wú)人機(jī)目標(biāo)檢測(cè)未來(lái)發(fā)展方向進(jìn)行了展望。

        1 基于DCNN的視覺(jué)目標(biāo)檢測(cè)

        基于深度卷積神經(jīng)網(wǎng)絡(luò)的目標(biāo)檢測(cè)算法[14]主要可以分為基于候選區(qū)域的雙階段算法和端到端的單階段算法,表1[15-43]對(duì)該類(lèi)代表性算法進(jìn)行了歸納。這些工作重塑了計(jì)算機(jī)視覺(jué)領(lǐng)域中目標(biāo)檢測(cè)的架構(gòu)和思路,對(duì)無(wú)人機(jī)目標(biāo)檢測(cè)算法的開(kāi)發(fā)具有重要的支撐作用和借鑒意義。

        1.1 雙階段方法

        深度卷積神經(jīng)網(wǎng)絡(luò)最初用于物體分類(lèi),識(shí)別圖片中是否包含某個(gè)感興趣的目標(biāo),即主要回答“what”的問(wèn)題,而目標(biāo)檢測(cè)還需要對(duì)目標(biāo)進(jìn)行定位,解答“what is where”的問(wèn)題。針對(duì)經(jīng)典目標(biāo)檢測(cè)方法存在的局限性,R-CNN[15]將DCNN從圖像分類(lèi)引入目標(biāo)檢測(cè),采用DCNN代替手工設(shè)計(jì)來(lái)自動(dòng)提取和表征特征。R-CNN首先從輸入圖片中選擇性搜索選出約2000個(gè)候選區(qū)域,將每個(gè)候選區(qū)域縮放到固定大小再輸入到類(lèi)似AlexNet[16]的網(wǎng)絡(luò)模型,提取一個(gè)維度為4096×1的特征向量,然后分別對(duì)每個(gè)類(lèi)別訓(xùn)練一個(gè)SVM分類(lèi)器,判斷每個(gè)候選區(qū)域是否包含某個(gè)類(lèi)別的目標(biāo),進(jìn)而訓(xùn)練回歸器來(lái)修正候選區(qū)域中目標(biāo)的位置,最后用訓(xùn)練好的模型對(duì)新輸入的圖片做預(yù)測(cè)。這種將目標(biāo)檢測(cè)分為候選區(qū)域提取和目標(biāo)分類(lèi)的方法一般被稱(chēng)為雙階段方法(如圖1所示)。R-CNN在VOC2012數(shù)據(jù)集上取得了53.3%的按類(lèi)均值平均精度(mAP),相對(duì)于之前的經(jīng)典目標(biāo)檢測(cè)算法提升了30%左右,展示出DCNN在目標(biāo)檢測(cè)領(lǐng)域的巨大潛力。然而,該算法對(duì)生成2000個(gè)候選區(qū)域提取特征,候選區(qū)域之間重疊多,提取特征時(shí)存在著大量的冗余計(jì)算,影響檢測(cè)速度,同時(shí)每一個(gè)候選區(qū)域提取特征前要縮放到固定尺寸,這會(huì)導(dǎo)致區(qū)域內(nèi)目標(biāo)發(fā)生幾何形變,影響目標(biāo)檢測(cè)的性能。

        針對(duì)上述問(wèn)題,2015年He等人提出了空間金字塔池化(Spatial Pyramid Pooling)的SPPNet[17]模型,空間金字塔池化能夠在輸入任意大小的情況下產(chǎn)生固定大小的輸出,只需一次性提取整張圖片的特征,然后在特征圖中找到每個(gè)候選區(qū)域?qū)?yīng)的特征圖,在每個(gè)候選區(qū)域的特征圖上應(yīng)用空間金字塔池化,形成這個(gè)候選區(qū)域的一個(gè)固定長(zhǎng)度的特征向量,再用SVM分類(lèi)器分類(lèi)。該方法與R-CNN相比速度提升了100倍,但是由于SPP的結(jié)構(gòu)阻斷了梯度下降的反向傳播,網(wǎng)絡(luò)難以對(duì)卷積層參數(shù)進(jìn)行有效更新,導(dǎo)致檢測(cè)準(zhǔn)確度降低。

        此外,R-CNN訓(xùn)練中需要將提取到的特征進(jìn)行保存,然后為每個(gè)類(lèi)訓(xùn)練單獨(dú)的SVM分類(lèi)器和邊界框回歸器,需要耗費(fèi)大量的存儲(chǔ)空間。2016年提出的Fast R-CNN[18]將物體分類(lèi)與檢測(cè)框回歸在同一網(wǎng)絡(luò)框架下訓(xùn)練,不需額外存儲(chǔ)特征。Fast R-CNN還借鑒了SPPNet中的空間金字塔池化層,將網(wǎng)絡(luò)的最后一個(gè)池化層替代為ROI pooling,用softmax全連接層來(lái)代替SVM分類(lèi)器。Fast R-CNN極大地縮短了訓(xùn)練時(shí)間和預(yù)測(cè)時(shí)間,基于VGG16的Fast R-CNN模型在VOC2012數(shù)據(jù)集上獲得了66%的mAP值,在訓(xùn)練速度上比R-CNN提升近9倍,比SPPNet提升近3倍,測(cè)試速度比R-CNN快大約213倍,比SPPNet快大約10倍。

        表1 視覺(jué)目標(biāo)檢測(cè)領(lǐng)域代表性算法歸納

        圖1 以R-CNN算法[15]為例的雙階段目標(biāo)檢測(cè)算法示意圖

        上文介紹的R-CNN、SPPNet和Fast R-CNN都是用選擇性搜索來(lái)生成候選區(qū)域,計(jì)算效率低,沒(méi)有實(shí)現(xiàn)端到端的目標(biāo)檢測(cè)。針對(duì)該問(wèn)題,F(xiàn)aster R-CNN[21]提出了區(qū)域候選網(wǎng)絡(luò)來(lái)代替選擇性搜索,而且區(qū)域候選網(wǎng)絡(luò)與檢測(cè)網(wǎng)絡(luò)共享卷積特征,同時(shí)引入錨框(Anchor box)適應(yīng)目標(biāo)外形的變化,提升了檢測(cè)精度和速度。

        大多數(shù)目標(biāo)檢測(cè)算法輸出的結(jié)果是目標(biāo)的類(lèi)別標(biāo)簽及其矩形外接框(bounding box),在外接框中既包括目標(biāo)本身也包含局部背景。但在一些任務(wù)中需要輸出像素級(jí)的檢測(cè)結(jié)果,即輸出實(shí)體分割結(jié)果。Mask R-CNN[27]在原有Faster R-CNN的基礎(chǔ)上,在每個(gè)感興趣區(qū)域上添加基于全卷積網(wǎng)絡(luò)的掩模(mask)預(yù)測(cè)分支,用于判斷給定像素是否屬于目標(biāo),還添加了原始圖像與特征圖對(duì)齊的模塊,進(jìn)而同時(shí)得到像素級(jí)別的圖像分割和目標(biāo)檢測(cè)結(jié)果。

        1.2 單階段方法

        相比于雙階段算法,單階段目標(biāo)檢測(cè)算法同時(shí)預(yù)測(cè)目標(biāo)類(lèi)別和位置信息,不需要顯式地生成候選框(如圖2所示),因此檢測(cè)速度通常較快。

        2016年提出的YOLO[33](You Only Look Once)實(shí)現(xiàn)了端到端的模型訓(xùn)練和目標(biāo)檢測(cè),在單階段目標(biāo)檢測(cè)的發(fā)展過(guò)程中具有里程碑的意義。該模型以GoogLeNet為骨干網(wǎng)絡(luò),將輸入圖片分為×個(gè)網(wǎng)格,每個(gè)網(wǎng)格負(fù)責(zé)預(yù)測(cè)個(gè)檢測(cè)框和個(gè)類(lèi)別概率,相應(yīng)地,每個(gè)網(wǎng)格輸出的目標(biāo)預(yù)測(cè)框包含5個(gè)參數(shù),即,,,,confidence;其中,(,)表示預(yù)測(cè)框中心相對(duì)當(dāng)前網(wǎng)格的偏移量,(,)表示預(yù)測(cè)框相對(duì)整張圖像的大小,confidence表示預(yù)測(cè)框包含某類(lèi)目標(biāo)的置信度。YOLO算法的損失函數(shù)由坐標(biāo)誤差、置信度誤差和分類(lèi)誤差3個(gè)部分構(gòu)成,通過(guò)調(diào)整坐標(biāo)誤差和分類(lèi)誤差的權(quán)重,進(jìn)而提高坐標(biāo)誤差的比重,適當(dāng)降低分類(lèi)誤差權(quán)重,可以防止網(wǎng)絡(luò)過(guò)早收斂,提高網(wǎng)絡(luò)的穩(wěn)定性。YOLO算法不需要生成一系列候選框,直接在整張圖像上做回歸和分類(lèi),能夠大幅度提升檢測(cè)速度。然而,由于該算法假定每個(gè)網(wǎng)格內(nèi)只有1~2個(gè)目標(biāo),極大地限定了預(yù)測(cè)目標(biāo)數(shù)量的上限,因此檢測(cè)小型目標(biāo)和群簇目標(biāo)時(shí)極易出現(xiàn)漏檢。

        圖2 以YOLO算法[33]為例的單階段目標(biāo)檢測(cè)算法流程示意圖

        鑒于淺層網(wǎng)絡(luò)通??梢詫W(xué)習(xí)和表征圖像更多的細(xì)節(jié)信息,針對(duì)多尺度目標(biāo)檢測(cè)任務(wù),Liu[35]等人以VGG16為基礎(chǔ)提出了SSD(Single Shot MultiBox Detector)模型,將VGG16網(wǎng)絡(luò)中的全連接層改為卷積層,并在末端增加了4個(gè)卷積層,同時(shí)使用5個(gè)層次的卷積特征圖進(jìn)行檢測(cè);借鑒Faster RCNN算法的思想,在特征圖上設(shè)置不同幾何尺寸的先驗(yàn)檢測(cè)框,并直接在特征圖上進(jìn)行密集采樣提取候選框,檢測(cè)準(zhǔn)確度和速度相比YOLO均有提升。但是由于淺層特征在目標(biāo)表征方面存在局限性,SSD在檢測(cè)小目標(biāo)時(shí)仍然存在一定困難。

        2017年提出的YOLOv2算法[36]采用了若干改進(jìn)策略來(lái)提升初版YOLO算法的準(zhǔn)確度和召回率。YOLOv2在卷積網(wǎng)絡(luò)中加入批歸一化(Batch normalization),加快了模型收斂;通過(guò)添加passthrough層,將淺層特征與深層特征聯(lián)系起來(lái),改進(jìn)神經(jīng)網(wǎng)絡(luò)模型對(duì)細(xì)節(jié)特征的提取和表征能力;借鑒Fast R-CNN方法的anchor box思想,用k-means聚類(lèi)算法生成更具代表性的先驗(yàn)檢測(cè)框;進(jìn)行多尺度輸入分辨率訓(xùn)練,使得網(wǎng)絡(luò)在檢測(cè)時(shí)能適應(yīng)不同分辨率。YOLOv2雖然解決了YOLO模型召回率低和定位準(zhǔn)確性差的問(wèn)題,但在小目標(biāo)檢測(cè)方面的改進(jìn)仍然有限。

        2018年Redmon等人提出了YOLOv3算法[38]。該算法借鑒了殘差網(wǎng)絡(luò)中捷徑連接架構(gòu),有效緩解了網(wǎng)絡(luò)退化的問(wèn)題;采用了類(lèi)似特征金字塔的思想,面向3個(gè)尺度進(jìn)行目標(biāo)檢測(cè);通過(guò)特征圖上采樣和特征融合,使網(wǎng)絡(luò)能夠從早期特征映射中的上采樣特征和更細(xì)粒度的信息中獲得更精細(xì)的語(yǔ)義信息,從而提升小目標(biāo)的檢測(cè)效果;通過(guò)優(yōu)化卷積核尺寸提高了計(jì)算效率。在后續(xù)的YOLOv4[42]中,作者比較不同訓(xùn)練技巧和算法,設(shè)計(jì)了一個(gè)能夠應(yīng)用于實(shí)際工作環(huán)境中的快速目標(biāo)檢測(cè),而且能夠在單塊GPU上訓(xùn)練的模型。

        2 基于DCNN的小型無(wú)人機(jī)視覺(jué)檢測(cè)研究

        2.1 無(wú)人機(jī)目標(biāo)檢測(cè)數(shù)據(jù)集

        基于DCNN的目標(biāo)檢測(cè)算法通常需要依靠較大規(guī)模的數(shù)據(jù)集進(jìn)行模型訓(xùn)練和性能評(píng)估。然而,當(dāng)前業(yè)內(nèi)仍然缺乏公開(kāi)的大型無(wú)人機(jī)檢測(cè)數(shù)據(jù)集?,F(xiàn)有的無(wú)人機(jī)檢測(cè)國(guó)際挑戰(zhàn)賽數(shù)據(jù)集和公開(kāi)發(fā)表文獻(xiàn)中的自建數(shù)據(jù)集介紹如下。

        2.1.1 Anti-UAV2020數(shù)據(jù)集

        Anti-UAV2020[44]數(shù)據(jù)集包含160段較高質(zhì)量的雙模態(tài)(可見(jiàn)光+近紅外)視頻序列,其中100段視頻用于訓(xùn)練和驗(yàn)證,60段視頻用于測(cè)試。該數(shù)據(jù)集涵蓋了多種場(chǎng)景、多種尺度和多種機(jī)型(包括DJI-Inspire、DJI-Phantom 4、DJI-Mavic Air、DJI-Mavic PRO)的商用無(wú)人機(jī)。該數(shù)據(jù)集中的示例圖片如圖3所示??梢?jiàn)光與近紅外視頻數(shù)據(jù)分別由固定于地面的可見(jiàn)光和紅外光電傳感器采集獲得。已公開(kāi)的標(biāo)注數(shù)據(jù)真值由專(zhuān)業(yè)數(shù)據(jù)標(biāo)注員給出,其中標(biāo)注信息包括:檢測(cè)框位置和大小、目標(biāo)屬性(大、中、小型目標(biāo),白天、夜晚、云霧、樓宇、虛假目標(biāo)、速度驟變、懸停、遮擋、尺度變化)以及表示當(dāng)前幀是否存在目標(biāo)的標(biāo)志位。在第二屆Anti-UAV2021[45]反無(wú)人機(jī)挑戰(zhàn)大賽中,數(shù)據(jù)集已擴(kuò)展到280段高清紅外視頻數(shù)據(jù),涵蓋多種復(fù)雜場(chǎng)景下無(wú)人機(jī)目標(biāo)的快速運(yùn)動(dòng),使無(wú)人機(jī)探測(cè)任務(wù)更具挑戰(zhàn)性。

        圖3 Anti-UAV2020數(shù)據(jù)集示例圖片(左列為可見(jiàn)光圖像,右列為紅外圖像)

        2.1.2 Drone-vs-Bird Detection Challenge數(shù)據(jù)集

        Drone-vs-Bird Detection Challenge[46]數(shù)據(jù)集包含11個(gè)在不同時(shí)間拍攝的MPEG4格式視頻,每個(gè)視頻文件對(duì)應(yīng)有XML格式的標(biāo)注文件。如圖4所示,場(chǎng)景中的無(wú)人機(jī)呈現(xiàn)出多尺度、多視角和亮度異質(zhì)性。特別地,數(shù)據(jù)集中包含大量遠(yuǎn)距離的小尺寸無(wú)人機(jī)和飛鳥(niǎo),很多無(wú)人機(jī)的面積小于20像素,有300多個(gè)無(wú)人機(jī)的目標(biāo)標(biāo)注檢測(cè)框邊長(zhǎng)甚至低至3~4個(gè)像素,對(duì)這些微小目標(biāo)的檢測(cè)非常具有挑戰(zhàn)性。

        圖4 Drone-vs-Bird Detection Challenge[46]數(shù)據(jù)集示例圖片

        2.1.3 未開(kāi)源自建數(shù)據(jù)集

        除了上述公開(kāi)數(shù)據(jù)集外,許多研究人員通過(guò)自建數(shù)據(jù)集來(lái)訓(xùn)練網(wǎng)絡(luò),并在其公開(kāi)發(fā)表的論文中進(jìn)行了相應(yīng)的介紹。

        文獻(xiàn)[47]建立的Anti-Drone Dataset包含449個(gè)視頻,所拍攝的無(wú)人機(jī)機(jī)型包括Mavic pro,Phantom 2和Phantom等,視頻幀分辨率為2048×1536和1024×768,幀速率為24 FPS。如圖5所示,該數(shù)據(jù)集中的視頻畫(huà)面涵蓋了不同的相機(jī)角度、放大倍率、天氣、白天或黑夜等情況,反映出無(wú)人機(jī)目標(biāo)檢測(cè)任務(wù)的復(fù)雜性。

        圖5 Anti-drone Dataset[47]中示例圖片

        UAV data[48]采集了20款無(wú)人機(jī)的圖像,其中包括15種旋翼無(wú)人機(jī)、3種固定翼無(wú)人機(jī)和2種無(wú)人直升機(jī)。該數(shù)據(jù)集還特別突出了背景的復(fù)雜性和多樣性,如圖6所示,畫(huà)面中的無(wú)人機(jī)背景包括居民建筑、商業(yè)中心、山地、林木、河流、工廠、海岸等30個(gè)不同的地點(diǎn),較好地反映了無(wú)人機(jī)探測(cè)系統(tǒng)在實(shí)際部署時(shí)可能會(huì)遇到的多種場(chǎng)景。該數(shù)據(jù)集包含200000張圖像,其中包括140000張訓(xùn)練集圖像和60000張測(cè)試集圖像以及每張圖像對(duì)應(yīng)的標(biāo)注真值,圖像分辨率為1920×1080。

        圖6 UAV dataset[48]示例圖片

        2.2 面向靜態(tài)圖像的無(wú)人機(jī)檢測(cè)

        圍繞無(wú)人機(jī)探測(cè)預(yù)警任務(wù),業(yè)內(nèi)學(xué)者基于主流目標(biāo)檢測(cè)的算法開(kāi)發(fā)了相當(dāng)數(shù)量的無(wú)人機(jī)目標(biāo)檢測(cè)算法。這些算法主要解決的問(wèn)題包括:基于通用目標(biāo)檢測(cè)算法的多尺度無(wú)人機(jī)目標(biāo)檢測(cè)、少樣本無(wú)人機(jī)目標(biāo)檢測(cè)和紅外圖像無(wú)人機(jī)目標(biāo)檢測(cè)等。

        2.2.1 基于通用目標(biāo)檢測(cè)算法的無(wú)人機(jī)目標(biāo)檢測(cè)

        無(wú)人機(jī)目標(biāo)檢測(cè)算法按照是否顯式生成候選區(qū)域,同樣可大致分為雙階段和單階段算法,兩種類(lèi)型的算法各具優(yōu)勢(shì)。在相同的數(shù)據(jù)集中,不采用任何優(yōu)化算法的情況下,雙階段的Faster R-CNN算法有較高的檢測(cè)準(zhǔn)確率,單階段的YOLO系列算法處理速度較快。當(dāng)前計(jì)算機(jī)視覺(jué)領(lǐng)域提出的面向靜態(tài)圖像的無(wú)人機(jī)目標(biāo)檢測(cè)算法介紹如下。

        針對(duì)遠(yuǎn)距離無(wú)人機(jī)在成像視野中尺寸小的問(wèn)題,Vasileios[49]通過(guò)在Faster R-CNN訓(xùn)練中加入深度超分辨率模型提出了新型無(wú)人機(jī)目標(biāo)檢測(cè)算法。如圖7所示,該算法中的超分辨率模型[50]采用深度殘差網(wǎng)絡(luò)來(lái)提取特征并重構(gòu)圖像,提升輸入圖像中無(wú)人機(jī)小目標(biāo)的分辨率,進(jìn)而提升基于Faster R-CNN目標(biāo)檢測(cè)模型的召回率。Celine Craye[51]等人將無(wú)人機(jī)的檢測(cè)分為兩個(gè)步驟,首先將視頻圖像的時(shí)空序列輸入U(xiǎn)-Net[52]模型中來(lái)獲取無(wú)人機(jī)候選區(qū)域,再使用ResNet101模型對(duì)其進(jìn)行分類(lèi),該算法與雙階段算法R-CNN相似,能夠提升對(duì)小目標(biāo)無(wú)人機(jī)的檢測(cè)效果。然而,采用基于Faster R-CNN等雙階段的檢測(cè)方法在計(jì)算實(shí)時(shí)性方面存在一定局限性。

        鑒于YOLO系列算法計(jì)算效率方面存在優(yōu)勢(shì),文獻(xiàn)[53]開(kāi)發(fā)了基于YOLOv2的無(wú)人機(jī)目標(biāo)檢測(cè)算法。然而,由于YOLOv2算法在工作時(shí)需要在圖像上劃分網(wǎng)格,而且每個(gè)網(wǎng)格最多只能預(yù)測(cè)單個(gè)目標(biāo),因此多個(gè)目標(biāo)落入同一個(gè)網(wǎng)格時(shí)就會(huì)出現(xiàn)漏檢。此外,傳統(tǒng)深度卷積網(wǎng)絡(luò)在所學(xué)特征對(duì)方向和尺度變化魯棒性差,因此對(duì)于小物體和重疊物體檢測(cè)效果不佳。

        圖7 超分辨率增強(qiáng)模塊結(jié)合Faster R-CNN模型的無(wú)人機(jī)檢測(cè)算法流程圖[49]

        文獻(xiàn)[54]基于YOLOv3的Darknet53骨干網(wǎng)絡(luò)采用Gabor濾波器調(diào)制DCNN中的卷積核,借以增強(qiáng)特征對(duì)方向和尺度變化的魯棒性,并在數(shù)據(jù)集上進(jìn)行了驗(yàn)證,性能超過(guò)了基于尺度不變特征變換(Scale-invariant feature transform, SIFT)特征和局部特征聚合描述符、詞袋和費(fèi)舍爾向量等分類(lèi)模型相結(jié)合的方法。但是該算法尚未與YOLOv3等基于DCNN的目標(biāo)檢測(cè)方法進(jìn)行對(duì)比,Gabor濾波器調(diào)制DCNN算法的優(yōu)勢(shì)沒(méi)有得到驗(yàn)證。

        由于無(wú)人機(jī)目標(biāo)在成像視場(chǎng)中的尺度變化較大,YOLOv3中在3個(gè)尺度層面的檢測(cè)難以有效覆蓋無(wú)人機(jī)尺度變化范圍。針對(duì)該問(wèn)題,文獻(xiàn)[55]在YOLOv3模型中加入多尺度的特征融合,來(lái)檢測(cè)尺度變化顯著的無(wú)人機(jī)。文獻(xiàn)[48]同樣基于YOLOv3模型提出了針對(duì)無(wú)人機(jī)目標(biāo)檢測(cè)的UAVDet模型(如圖8所示),將YOLOv3擴(kuò)展為4個(gè)尺度進(jìn)行預(yù)測(cè),而且在第二個(gè)下采樣后增加兩個(gè)殘差模塊來(lái)獲得更多定位信息。需要指出的是,由于單階段算法沒(méi)有顯式生成候選框的過(guò)程,YOLO系列算法需要事先使用k-means[56]聚類(lèi)算法根據(jù)數(shù)據(jù)集生成先驗(yàn)框,因此在使用YOLO系列算法進(jìn)行目標(biāo)檢測(cè)時(shí),同樣需要使用k-means對(duì)特定的無(wú)人機(jī)數(shù)據(jù)集聚類(lèi)生成更適合無(wú)人機(jī)的先驗(yàn)框。同時(shí),為了解決圖像中存在的運(yùn)動(dòng)模糊問(wèn)題,對(duì)數(shù)據(jù)集用高斯模糊和運(yùn)動(dòng)模糊的方法進(jìn)行數(shù)據(jù)增強(qiáng),有效提升檢測(cè)準(zhǔn)確度和召回率。

        圖8 基于多尺度YOLOv3的UAVDet算法[48]流程示意圖

        2.2.2 遷移學(xué)習(xí)和數(shù)據(jù)增廣在無(wú)人機(jī)檢測(cè)中的應(yīng)用

        如前文所述,基于DCNN目標(biāo)檢測(cè)算法通常是數(shù)據(jù)驅(qū)動(dòng)的監(jiān)督學(xué)習(xí)算法,需要依靠較大規(guī)模的數(shù)據(jù)集進(jìn)行模型訓(xùn)練和性能評(píng)估,但是目前業(yè)內(nèi)缺乏公開(kāi)的大型無(wú)人機(jī)檢測(cè)數(shù)據(jù)集,基于少樣本數(shù)據(jù)集訓(xùn)練DCNN模型容易造成過(guò)擬合問(wèn)題,因此研究人員通過(guò)遷移學(xué)習(xí)和數(shù)據(jù)增廣來(lái)緩解這個(gè)矛盾。

        遷移學(xué)習(xí)是一種機(jī)器學(xué)習(xí)領(lǐng)域常用的技術(shù),通常指將一個(gè)預(yù)訓(xùn)練的模型被重新用在另一個(gè)任務(wù)中的過(guò)程,能夠?qū)⒛P驮谝环N數(shù)據(jù)集中學(xué)到的知識(shí)遷移應(yīng)用在另一個(gè)數(shù)據(jù)集中,進(jìn)而提高模型的泛化性能。具體在無(wú)人機(jī)檢測(cè)任務(wù)上,可以首先在其他類(lèi)型(如通用目標(biāo)檢測(cè))的大規(guī)模數(shù)據(jù)集中對(duì)模型進(jìn)行比較充分的訓(xùn)練,然后將預(yù)訓(xùn)練的網(wǎng)絡(luò)在特定的相對(duì)較小規(guī)模無(wú)人機(jī)檢測(cè)數(shù)據(jù)集上進(jìn)行微調(diào)。Muhamma等人[57]將經(jīng)過(guò)ImageNet數(shù)據(jù)集預(yù)訓(xùn)練過(guò)的模型在Drone-vs-Bird Detection Challenge數(shù)據(jù)集上進(jìn)行微調(diào),進(jìn)而使模型能夠更好地檢測(cè)無(wú)人機(jī)。作者采用Faster R-CNN算法,對(duì)比了ZFNet,VGG16和VGG_CNN_1024三種特征提取網(wǎng)絡(luò)的檢測(cè)性能,結(jié)果顯示VGG16模型在該數(shù)據(jù)集取得相對(duì)更好的性能。在2019年的Drone-vs-Bird Detection Challenge挑戰(zhàn)賽中,競(jìng)賽數(shù)據(jù)引入了更復(fù)雜的目標(biāo)背景、更豐富的光照條件以及更多變的畫(huà)面縮放,甚至還有很多低對(duì)比度畫(huà)面和多種鳥(niǎo)類(lèi)存在的場(chǎng)景。Nalamati等人[58]采用了類(lèi)似的遷移學(xué)習(xí)技術(shù)路線,并且對(duì)比了Faster R-CNN和SSD算法,其實(shí)驗(yàn)結(jié)果表明基于ResNet101網(wǎng)絡(luò)的Faster R-CNN算法檢測(cè)準(zhǔn)確度較好,但是在實(shí)時(shí)性方面存在局限性。

        數(shù)據(jù)增廣是另外一種緩解模型訓(xùn)練過(guò)擬合問(wèn)題的常用手段,通過(guò)變換現(xiàn)有數(shù)據(jù)或根據(jù)現(xiàn)有數(shù)據(jù)創(chuàng)建新的合成數(shù)據(jù)來(lái)增加樣本數(shù)量。常用的數(shù)據(jù)增廣方法有圖像幾何變換、翻轉(zhuǎn)、顏色修改、裁剪、旋轉(zhuǎn)、添加噪聲、隨機(jī)遮擋、透明度混疊、裁剪混疊等。這些方法都可以引入到無(wú)人機(jī)目標(biāo)檢測(cè)中來(lái)緩解少樣本的問(wèn)題。例如,針對(duì)大規(guī)模無(wú)人機(jī)目標(biāo)檢測(cè)數(shù)據(jù)獲取困難的問(wèn)題,文獻(xiàn)[59]將鳥(niǎo)和無(wú)人機(jī)的圖像塊拼接到不同的背景圖片中,最終得到了676534張圖片,進(jìn)而可以更好地訓(xùn)練無(wú)人機(jī)目標(biāo)檢測(cè)模型。

        2.2.3 紅外圖像無(wú)人機(jī)檢測(cè)

        可見(jiàn)光圖像分辨率高,通常具有較好的紋理和形狀信息,非常利于DCNN模型進(jìn)行特征學(xué)習(xí)和表征,進(jìn)而實(shí)現(xiàn)無(wú)人機(jī)檢測(cè)。但是,在霧天或夜間等光照條件差的情況下,可見(jiàn)光傳感器獲得的圖像數(shù)據(jù)能見(jiàn)度差,難以捕獲無(wú)人機(jī)目標(biāo)。相比之下,紅外成像傳感器具有探測(cè)距離遠(yuǎn)、全天候工作、光照條件適應(yīng)性強(qiáng)等優(yōu)勢(shì),但同時(shí)也存在分辨率小、對(duì)比度差、信噪比低、紋理形狀信息缺乏等缺點(diǎn),因此面向紅外圖像的無(wú)人機(jī)目標(biāo)檢測(cè)更具挑戰(zhàn)性。文獻(xiàn)[60]對(duì)紅外圖像進(jìn)行倒置,直方圖均衡,去噪和銳化預(yù)處理后,在YOLOv3模型的基礎(chǔ)上引入SPP模塊和GIOU(Generalized Intersection over Union)損失函數(shù),改善了模型對(duì)近距離大目標(biāo)和邊緣目標(biāo)的檢測(cè)能力。文獻(xiàn)[61]使用全卷積神經(jīng)網(wǎng)絡(luò)對(duì)紅外圖像進(jìn)行分割,利用視覺(jué)顯著性機(jī)制對(duì)小目標(biāo)進(jìn)行增強(qiáng),抑制背景和虛警,檢測(cè)結(jié)果優(yōu)于典型的紅外目標(biāo)檢測(cè)算法。文獻(xiàn)[62]利用紅外圖像與可見(jiàn)光圖像的互補(bǔ)特性進(jìn)行多尺度顯著特征融合,使用改進(jìn)的YOLOv3模型進(jìn)行檢測(cè),采用注意機(jī)制對(duì)輔助網(wǎng)絡(luò)和骨干網(wǎng)絡(luò)的特征信息融合,增強(qiáng)有效信息通道,抑制無(wú)效信息通道,提升小目標(biāo)檢測(cè)效果。

        當(dāng)紅外圖像中的無(wú)人機(jī)目標(biāo)尺寸非常小時(shí)(例如小于9×9像素),需要將無(wú)人機(jī)目標(biāo)看作紅外小目標(biāo)進(jìn)行檢測(cè)?;谑止ぬ卣鞯募t外小目標(biāo)檢測(cè)典型方法包括高斯差分濾波器、局部對(duì)比度算法[63]、二維最小均方濾波器[64]、形態(tài)學(xué)Top-hat變換[65-66]算法、非線性圖像塊處理[67]模型等。針對(duì)基于手工特征的方法自適應(yīng)能力有限的問(wèn)題,近來(lái)有學(xué)者將DCNN引入紅外小目標(biāo)檢測(cè)領(lǐng)域。文獻(xiàn)[68]將小目標(biāo)檢測(cè)問(wèn)題轉(zhuǎn)化為小目標(biāo)位置分布分類(lèi)問(wèn)題,利用全卷積網(wǎng)絡(luò)對(duì)紅外小目標(biāo)進(jìn)行背景抑制和目標(biāo)增強(qiáng),同時(shí)獲得目標(biāo)潛在區(qū)域;然后將原始圖像和目標(biāo)潛在區(qū)域同時(shí)輸入分類(lèi)網(wǎng)絡(luò),進(jìn)而輸出目標(biāo)檢測(cè)結(jié)果。在50000張圖片上的訓(xùn)練和測(cè)試結(jié)果表明,該方法能夠有效檢測(cè)復(fù)雜背景和低信噪比甚至存在運(yùn)動(dòng)模糊的小目標(biāo)。但是,該方法仍然存在虛警率較高的問(wèn)題,這是因?yàn)樵诤芏嗲闆r下,僅僅依賴(lài)靜態(tài)外觀特征難以區(qū)分真實(shí)小目標(biāo)和背景中的非目標(biāo)點(diǎn)狀物體。因此,在復(fù)雜背景和低信噪比情況下有效利用時(shí)空上下文信息進(jìn)行紅外小目標(biāo)檢測(cè)仍然是一項(xiàng)具有挑戰(zhàn)性的任務(wù)[69]。

        2.3 面向視頻數(shù)據(jù)的無(wú)人機(jī)檢測(cè)

        面向視頻數(shù)據(jù)的無(wú)人機(jī)檢測(cè)是無(wú)人機(jī)檢測(cè)的核心任務(wù),一方面是因?yàn)榛诠怆妭鞲衅鞯臒o(wú)人機(jī)探測(cè)數(shù)據(jù)通常為視頻數(shù)據(jù)(即圖像序列),另一方面在單幀靜態(tài)圖像上無(wú)法辨識(shí)目標(biāo)時(shí)需要借助視頻數(shù)據(jù)中的上下文時(shí)空信息進(jìn)行目標(biāo)增強(qiáng)和檢測(cè)識(shí)別。然而,基于視頻數(shù)據(jù)實(shí)現(xiàn)無(wú)人機(jī)檢測(cè)也存在若干難點(diǎn)。一是視頻序列中的連續(xù)幀之間存在大量冗余信息;二是復(fù)雜運(yùn)動(dòng)模態(tài)的背景會(huì)對(duì)目標(biāo)檢測(cè)造成極大干擾;三是無(wú)人機(jī)劇烈運(yùn)動(dòng)或者傳感器鏡頭失焦會(huì)造成目標(biāo)外觀模糊。因此,面向視頻數(shù)據(jù)的無(wú)人機(jī)檢測(cè)需要聯(lián)合靜態(tài)外觀信息和目標(biāo)特異性運(yùn)動(dòng)信息(即空域和時(shí)域的上下文信息)進(jìn)行判別。如前文所述,計(jì)算機(jī)視覺(jué)領(lǐng)域已經(jīng)提出了相當(dāng)數(shù)量的面向靜態(tài)圖像的目標(biāo)檢測(cè)方法,但是面向視頻數(shù)據(jù)的目標(biāo)檢測(cè)特別是無(wú)人機(jī)檢測(cè)的研究還相對(duì)較少,已有的工作主要借助光流和時(shí)序特征來(lái)表征運(yùn)動(dòng)信息,進(jìn)而更好地實(shí)現(xiàn)視頻數(shù)據(jù)中的目標(biāo)檢測(cè)任務(wù)。

        2.3.1 基于光流場(chǎng)的視頻目標(biāo)檢測(cè)

        視頻運(yùn)動(dòng)目標(biāo)檢測(cè)是在視頻的連續(xù)圖像序列中將運(yùn)動(dòng)物體檢測(cè)出來(lái)的過(guò)程,運(yùn)動(dòng)目標(biāo)檢測(cè)方法包括兩幀/多幀差分法、背景抑制法和光流法等,其中光流法對(duì)運(yùn)動(dòng)信息的表征最為有效。光流的概念通常是指空間中的運(yùn)動(dòng)物體在成像平臺(tái)上像素運(yùn)動(dòng)的瞬時(shí)速度(包含速率和方向)。如果圖像中沒(méi)有運(yùn)動(dòng)目標(biāo)時(shí),整幅圖像中的光流是連續(xù)變化的;如果存在運(yùn)動(dòng)目標(biāo),那么運(yùn)動(dòng)目標(biāo)形成的光流場(chǎng)與背景的光流場(chǎng)就會(huì)存在差異,進(jìn)而可以將運(yùn)動(dòng)目標(biāo)與背景進(jìn)行區(qū)分。光流場(chǎng)的有效計(jì)算方法最初是由Horn和Schunck[70]于1981年提出,該方法假設(shè)物體的瞬時(shí)灰度值不變且在整個(gè)圖像上平滑變化來(lái)求解光流。Lueas和Kanade[71]提出了改進(jìn)光流算法,假設(shè)在一個(gè)小空間領(lǐng)域上運(yùn)動(dòng)矢量保持恒定,然后使用加權(quán)最小二乘法估計(jì)光流。但是以上方法需要通過(guò)迭代的方式計(jì)算光流,通常計(jì)算量比較大。更重要的是,該類(lèi)方法對(duì)圖像連續(xù)幀亮度恒定的假設(shè)過(guò)于嚴(yán)格,因而在復(fù)雜光照條件下的光流計(jì)算準(zhǔn)確度有限。2015年Fischer將光流計(jì)算轉(zhuǎn)化為監(jiān)督學(xué)習(xí)問(wèn)題,提出了基于深度學(xué)習(xí)的FlowNet[72]方法。如圖9所示,F(xiàn)lowNet模型的輸入為連續(xù)的兩幀圖像(支持RGB圖像),網(wǎng)絡(luò)分為卷積下采樣和反卷積上采樣兩部分,其中下采樣網(wǎng)絡(luò)負(fù)責(zé)分層提取特征和編碼高級(jí)語(yǔ)義信息,反卷積網(wǎng)絡(luò)利用高級(jí)語(yǔ)義信息解碼和分層提取的特征進(jìn)行光流預(yù)測(cè),借助大量數(shù)據(jù)的訓(xùn)練,顯著提升了光流計(jì)算性能。后續(xù)的FlowNet2.0[73]模型和RAFT[74]模型進(jìn)一步提高了基于DCNN的光流計(jì)算能力。

        圖9 FlowNet[72]模型計(jì)算光流過(guò)程示意圖

        鑒于光流場(chǎng)在目標(biāo)運(yùn)動(dòng)信息表征方面存在許多優(yōu)良特性,可以預(yù)期將光流信息引入視頻運(yùn)動(dòng)目標(biāo)檢測(cè)將顯著提升視頻目標(biāo)檢測(cè)的性能。一種思路是利用光流信息消除圖像連續(xù)幀之間的冗余信息。例如,文獻(xiàn)[75]發(fā)現(xiàn)DCNN模型提取的相鄰幀圖像的特征圖通常非常相似,因此利用DCNN模型逐幀處理視頻將消耗大量的非必要計(jì)算資源,因此可以在處理視頻時(shí)按固定時(shí)間間隔僅選取和處理關(guān)鍵幀,而非關(guān)鍵幀的特征可以由關(guān)鍵幀的特征借助光流信息遷移獲得。由于光流計(jì)算速度遠(yuǎn)高于DCNN特征提取速度,因此該方法大幅減少了視頻處理的計(jì)算量,從而提升了視頻目標(biāo)檢測(cè)速度。然而,該方法主要適用于運(yùn)動(dòng)物體和背景在相鄰幀之間連續(xù)變化的情況。另一種利用光流信息進(jìn)行視頻運(yùn)動(dòng)目標(biāo)檢測(cè)的思路是將光流信息與靜態(tài)外觀信息進(jìn)行疊加,從而進(jìn)一步增加目標(biāo)與背景之間的差異性。文獻(xiàn)[76]采用DCNN模型獲得當(dāng)前幀和參考幀的外觀特征圖,同時(shí)采用FlowNet模型預(yù)測(cè)當(dāng)前幀和參考幀的光流場(chǎng),然后將對(duì)應(yīng)幀的外觀特征圖與光流信息疊加為時(shí)空混合特征圖,進(jìn)而根據(jù)當(dāng)前幀和參考幀的時(shí)空混合特征圖獲得目標(biāo)檢測(cè)結(jié)果。這種方法有效地利用了視頻數(shù)據(jù)的時(shí)空信息,而且有助于解決運(yùn)動(dòng)目標(biāo)模糊的問(wèn)題,因此顯著提升了目標(biāo)檢測(cè)性能。但是該方法對(duì)目標(biāo)強(qiáng)度和局部信噪比有一定的要求,而且主要適用于離線視頻目標(biāo)檢測(cè),在實(shí)時(shí)在線目標(biāo)檢測(cè)方面還需要改進(jìn)。借助無(wú)人機(jī)視頻及其標(biāo)注數(shù)據(jù),這些基于光流場(chǎng)的目標(biāo)檢測(cè)模型可以有效遷移到無(wú)人機(jī)檢測(cè)任務(wù)中。

        2.3.2 基于多幀相關(guān)特征的無(wú)人機(jī)檢測(cè)

        光流法通常在視頻圖像質(zhì)量較高時(shí)能夠有效表征目標(biāo)運(yùn)動(dòng)信息,但在目標(biāo)模糊或者極端弱隱的情況下容易失效。針對(duì)該問(wèn)題,Rozantsev等人[77]利用時(shí)序維度上的多個(gè)連續(xù)幀對(duì)目標(biāo)能量進(jìn)行累積進(jìn)而達(dá)到目標(biāo)增強(qiáng)的目的。如圖10所示,首先用不同尺度的滑動(dòng)窗口在圖像序列中獲取時(shí)空?qǐng)D像立方體(Spatio-Temporal Image Cube);然后對(duì)每個(gè)cube進(jìn)行運(yùn)動(dòng)補(bǔ)償?shù)玫綍r(shí)空穩(wěn)像立方體,這個(gè)操作能夠極大地增強(qiáng)候選目標(biāo)的能量,增強(qiáng)潛在目標(biāo)的局部信噪比;最后再采用分類(lèi)器判斷該時(shí)空穩(wěn)像立方體是否包含目標(biāo),并通過(guò)非極大值抑制技術(shù)優(yōu)化目標(biāo)檢測(cè)結(jié)果。該方法與基于光流的方法相比,抗復(fù)雜背景干擾和抗目標(biāo)運(yùn)動(dòng)模糊的能力顯著提高。

        由于卷積神經(jīng)網(wǎng)絡(luò)訓(xùn)練過(guò)程丟失時(shí)間維度信息,無(wú)法保證特征的時(shí)空一致性的問(wèn)題,除了上述用運(yùn)動(dòng)補(bǔ)償來(lái)獲得時(shí)空穩(wěn)定特征的方法外,有研究者提出輸入圖像序列到神經(jīng)網(wǎng)絡(luò)中來(lái)提取隱含的運(yùn)動(dòng)信息,主要包括Siamese[78]和循環(huán)神經(jīng)網(wǎng)絡(luò)(Recurrent Neural Network, RNN)[79]網(wǎng)絡(luò)。文獻(xiàn)[80]提出了基于全卷積神經(jīng)網(wǎng)絡(luò)的目標(biāo)檢測(cè)框架,該框架通過(guò)使用Siamese網(wǎng)絡(luò)來(lái)提取時(shí)序信息,同時(shí),RNN作為一種時(shí)間序列模型也能夠提供時(shí)序信息,在循環(huán)神經(jīng)網(wǎng)絡(luò)中,當(dāng)前層的輸出不僅與輸入有關(guān),還取決于前一時(shí)刻的輸入,使得神經(jīng)網(wǎng)絡(luò)具有“記憶”功能,RNN主要應(yīng)用于自然語(yǔ)言處理領(lǐng)域。

        面向視頻數(shù)據(jù)的無(wú)人機(jī)檢測(cè)在實(shí)際應(yīng)用中通常會(huì)遇到樹(shù)枝、飛鳥(niǎo)等動(dòng)態(tài)的非目標(biāo)干擾物,單純利用幀間光流信息難以將其與真實(shí)目標(biāo)區(qū)分開(kāi)來(lái)。針對(duì)該問(wèn)題,文獻(xiàn)[81]發(fā)現(xiàn)無(wú)人機(jī)作為一種人工設(shè)計(jì)的飛行器,其飛行動(dòng)力學(xué)具有一定的特異性規(guī)律,因此提出一種基于多幀目標(biāo)形態(tài)變化特性和航跡規(guī)律的無(wú)人機(jī)目標(biāo)檢測(cè)方法,能夠一定程度上降低目標(biāo)檢測(cè)虛警率。但是該方法的目標(biāo)分割過(guò)程建立在背景差分法之上,因此對(duì)背景運(yùn)動(dòng)復(fù)雜度以及傳感器運(yùn)動(dòng)(包括移動(dòng)、轉(zhuǎn)動(dòng)和擾動(dòng))幅度具有較高的要求。

        2.4 無(wú)人機(jī)檢測(cè)的難點(diǎn)問(wèn)題及解決思路

        2.4.1 無(wú)人機(jī)檢測(cè)的難點(diǎn)問(wèn)題

        如圖11所示,小型民用無(wú)人機(jī)目標(biāo)檢測(cè)的難點(diǎn)主要包括目標(biāo)特性復(fù)雜性和背景復(fù)雜性?xún)蓚€(gè)方面。

        無(wú)人機(jī)檢測(cè)的目標(biāo)特性復(fù)雜性主要體現(xiàn)在:①無(wú)人機(jī)的型號(hào)、顏色、外形、運(yùn)動(dòng)特性等復(fù)雜多變;②無(wú)人機(jī)數(shù)量較多時(shí),在成像視場(chǎng)中有時(shí)會(huì)出現(xiàn)相互重疊、遮擋等情況;③無(wú)人機(jī)距離傳感器較遠(yuǎn)時(shí),在成像視場(chǎng)中尺寸較小,缺乏形狀和紋理等信息;④無(wú)人機(jī)快速機(jī)動(dòng)或者傳感器失焦時(shí)會(huì)造成目標(biāo)模糊;⑤無(wú)人機(jī)運(yùn)動(dòng)或者傳感器變焦時(shí)會(huì)造成目標(biāo)尺度變化。

        無(wú)人機(jī)檢測(cè)的背景復(fù)雜性主要體現(xiàn)在:①無(wú)人機(jī)的天空背景有時(shí)會(huì)存在云朵、強(qiáng)光等干擾;②無(wú)人機(jī)飛行高度較低時(shí),其背景會(huì)出現(xiàn)建筑物、塔吊、山坳等靜態(tài)物體或者樹(shù)枝、旗幟、海浪等動(dòng)態(tài)物體;③無(wú)人機(jī)飛行時(shí)背景中會(huì)出現(xiàn)飛鳥(niǎo)、風(fēng)箏等干擾物。

        此外,圖像噪聲和成像過(guò)程擾動(dòng)也會(huì)顯著降低深度卷積網(wǎng)絡(luò)的模式判別正確率。而且,業(yè)內(nèi)目前缺乏大型公開(kāi)無(wú)人機(jī)數(shù)據(jù)集,為高容量模型的訓(xùn)練和評(píng)估造成一定困難。若干已有工作[47-48]雖然通過(guò)自建數(shù)據(jù)集來(lái)緩解數(shù)據(jù)需求矛盾,但是難以用于算法性能的橫向?qū)Ρ取?/p>

        圖10 運(yùn)動(dòng)補(bǔ)償?shù)哪繕?biāo)檢測(cè)算法流程[77]

        圖11 無(wú)人機(jī)檢測(cè)的難點(diǎn)和瓶頸性問(wèn)題示例圖像

        注:第一行:目標(biāo)小尺寸且缺乏外觀信息[47,55,62];第二行:背景復(fù)雜多樣[47-48];第三行:目標(biāo)尺度異質(zhì)性問(wèn)題[53]

        Note: Row 1: Targets that are small and weak in appearance information[47,55,62]; Row 2: Targets in complex and diverse backgrounds[47-48];Row 3: Targets that have heterogeneous scales[53])

        2.4.2 突破小型無(wú)人機(jī)檢測(cè)瓶頸的若干思路

        通過(guò)前文對(duì)視覺(jué)目標(biāo)檢測(cè)文獻(xiàn)的梳理可以發(fā)現(xiàn),當(dāng)前算法雖然已經(jīng)初步實(shí)現(xiàn)了小型民用無(wú)人機(jī)的自動(dòng)化檢測(cè),但是在復(fù)雜條件下實(shí)現(xiàn)低虛警率、高召回率、強(qiáng)魯棒性的無(wú)人機(jī)檢測(cè)仍然是一項(xiàng)極具挑戰(zhàn)性的任務(wù)。針對(duì)基于深度卷積神經(jīng)網(wǎng)絡(luò)的小型民用無(wú)人機(jī)檢測(cè)系統(tǒng)存在的瓶頸性問(wèn)題,未來(lái)工作在以下幾個(gè)方面值得深入研究。

        一是更合理地根據(jù)靜態(tài)圖像中上下文信息搜索和辨別目標(biāo)特性復(fù)雜的無(wú)人機(jī)目標(biāo)。人類(lèi)在目標(biāo)發(fā)現(xiàn)和識(shí)別過(guò)程中通常伴隨眼跳現(xiàn)象,即反映眼動(dòng)規(guī)律的注視點(diǎn)會(huì)按照無(wú)意注意和任務(wù)驅(qū)動(dòng)有意注意的規(guī)律跳躍性感知語(yǔ)義要素,并通過(guò)高級(jí)推理快速完成目標(biāo)價(jià)值判定。與通用目標(biāo)檢測(cè)和顯著性檢測(cè)等視覺(jué)任務(wù)不同,小型無(wú)人機(jī)目標(biāo)的尺寸、紋理、形狀等信息的特異性較低。因此探究如何利用空間上下文(Spatial Context)信息進(jìn)行任務(wù)驅(qū)動(dòng)的推理式快速搜索以及根據(jù)關(guān)鍵語(yǔ)義要素實(shí)現(xiàn)無(wú)人機(jī)目標(biāo)模式判別具有重要的理論及應(yīng)用意義。

        二是更有效地提取和表征目標(biāo)運(yùn)動(dòng)信息,并將其作為關(guān)鍵特征用于無(wú)人機(jī)目標(biāo)判別。從小型無(wú)人機(jī)檢測(cè)的人類(lèi)行為實(shí)驗(yàn)結(jié)果顯示,在很多復(fù)雜場(chǎng)景下即使是人類(lèi)也很難僅憑小型無(wú)人機(jī)的靜態(tài)表觀特性完成目標(biāo)檢測(cè)任務(wù),而視頻數(shù)據(jù)的時(shí)間上下文(Temporal Context)信息是準(zhǔn)確檢測(cè)目標(biāo)的重要基礎(chǔ)。人腦視覺(jué)信息加工過(guò)程中,同樣需要借助背側(cè)通路和腹側(cè)通路分別處理運(yùn)動(dòng)和靜態(tài)表觀信息,并在多個(gè)層次上進(jìn)行橫向信息投射和跨層交互融合。因此,探究無(wú)人機(jī)目標(biāo)運(yùn)動(dòng)信息提取和表征方法,利用目標(biāo)視覺(jué)運(yùn)動(dòng)信息輔助目標(biāo)定位和識(shí)別,進(jìn)而通過(guò)消除相鄰視頻幀的冗余信息增加目標(biāo)檢測(cè)效率,具有重要的研究?jī)r(jià)值。

        三是更好地融合目標(biāo)靜態(tài)表觀特征和運(yùn)動(dòng)特征,綜合利用時(shí)空上下文信息進(jìn)行無(wú)人機(jī)目標(biāo)檢測(cè)。人腦視覺(jué)系統(tǒng)中存在并行信息處理的大細(xì)胞通路和小細(xì)胞通路,在腦區(qū)架構(gòu)方面存在背側(cè)通路和腹側(cè)通路,分別處理視覺(jué)運(yùn)動(dòng)和靜態(tài)表觀信息,并在多個(gè)層次上進(jìn)行有效融合。因此,綜合利用時(shí)空上下文信息進(jìn)行無(wú)人機(jī)目標(biāo)檢測(cè)將是未來(lái)解決小型無(wú)人機(jī)目標(biāo)檢測(cè)瓶頸問(wèn)題的關(guān)鍵。

        四是建立大規(guī)模公開(kāi)小型無(wú)人機(jī)數(shù)據(jù)集。由于目前業(yè)內(nèi)基于深度卷積神經(jīng)網(wǎng)絡(luò)的先進(jìn)算法大多是基于數(shù)據(jù)驅(qū)動(dòng)的算法,需要依賴(lài)標(biāo)注數(shù)據(jù)進(jìn)行模型訓(xùn)練、驗(yàn)證和測(cè)試。業(yè)界現(xiàn)有的若干數(shù)據(jù)集在反映多類(lèi)型復(fù)雜背景和多樣化無(wú)人機(jī)目標(biāo)方面還存在一定差距,因此建立大規(guī)模公開(kāi)無(wú)人機(jī)數(shù)據(jù)集對(duì)促進(jìn)小型民用無(wú)人機(jī)檢測(cè)技術(shù)的研究和發(fā)展具有重要意義。此外,引入自監(jiān)督學(xué)習(xí)、無(wú)監(jiān)督學(xué)習(xí)等機(jī)器學(xué)習(xí)技術(shù)也是緩解無(wú)人機(jī)數(shù)據(jù)不足矛盾的一個(gè)重要思路。

        3 總結(jié)與展望

        小型民用無(wú)人機(jī)為人類(lèi)社會(huì)帶來(lái)便利的同時(shí)也給公共安全造成了較大威脅。面向高準(zhǔn)確性和高魯棒性的無(wú)人機(jī)目標(biāo)檢測(cè),計(jì)算機(jī)視覺(jué)領(lǐng)域已經(jīng)提出了相當(dāng)數(shù)量的算法。本文首先介紹了目標(biāo)檢測(cè)領(lǐng)域中基于深度卷積神經(jīng)網(wǎng)絡(luò)的主流算法,然后針對(duì)小型無(wú)人機(jī)檢測(cè)任務(wù)分別總結(jié)了面向靜態(tài)圖像和視頻數(shù)據(jù)的無(wú)人機(jī)檢測(cè)方法,進(jìn)而歸納了造成無(wú)人機(jī)檢測(cè)困難的主要原因。

        業(yè)內(nèi)現(xiàn)有工作雖然已經(jīng)初步實(shí)現(xiàn)了小型民用無(wú)人機(jī)自動(dòng)目標(biāo)檢測(cè),但是在復(fù)雜條件下實(shí)現(xiàn)低虛警率、高召回率、強(qiáng)魯棒性、低能耗性的無(wú)人機(jī)檢測(cè)仍然是一項(xiàng)極具挑戰(zhàn)性的任務(wù)。目標(biāo)特性復(fù)雜性和目標(biāo)背景復(fù)雜性都會(huì)對(duì)無(wú)人機(jī)檢測(cè)算法的性能造成嚴(yán)重影響,圖像噪聲和對(duì)抗性擾動(dòng)也會(huì)顯著降低深度卷積網(wǎng)絡(luò)的模式判別正確率。此外,業(yè)內(nèi)目前缺乏大型公開(kāi)無(wú)人機(jī)數(shù)據(jù)集,為高容量模型的訓(xùn)練和評(píng)估造成一定困難。雖然有研究人員通過(guò)自建數(shù)據(jù)集來(lái)緩解數(shù)據(jù)需求矛盾,但是難以用于算法性能的橫向?qū)Ρ?。針?duì)基于深度卷積神經(jīng)網(wǎng)絡(luò)的小型民用無(wú)人機(jī)檢測(cè)系統(tǒng)存在的瓶頸性問(wèn)題,預(yù)期未來(lái)工作將圍繞圖像空間上下文信息提取與表征、視頻時(shí)間上下文信息提取與表征、視覺(jué)時(shí)空上下文信息融合和大規(guī)模數(shù)據(jù)集的建立等方面展開(kāi)。

        值得指出的是,深度卷積神經(jīng)網(wǎng)絡(luò)模型已經(jīng)在通用目標(biāo)檢測(cè)和物體分類(lèi)等視覺(jué)任務(wù)中取得了較好的性能,然而在復(fù)雜背景下的低慢小目標(biāo)檢測(cè)任務(wù)中依然無(wú)法達(dá)到人類(lèi)甚至非人靈長(zhǎng)類(lèi)的識(shí)別水平。深度卷積神經(jīng)網(wǎng)絡(luò)雖然符合神經(jīng)可塑性、非線性整合和分層加工等機(jī)制,但仍然是對(duì)生物神經(jīng)系統(tǒng)高度抽象化的模型,關(guān)于深度卷積網(wǎng)絡(luò)的可解釋性、小樣本泛化性、對(duì)抗魯棒性等方面的研究還處于初始階段,人工智能和計(jì)算機(jī)視覺(jué)領(lǐng)域還比較缺乏能夠有效模擬靈長(zhǎng)類(lèi)認(rèn)知推理、學(xué)習(xí)記憶、反饋調(diào)節(jié)等機(jī)制的算法和模型。因此,通過(guò)借鑒和模擬靈長(zhǎng)類(lèi)視知覺(jué)和學(xué)習(xí)記憶等神經(jīng)機(jī)制提出更符合生物視覺(jué)特性的視覺(jué)計(jì)算模型[82],對(duì)于突破小型無(wú)人機(jī)視覺(jué)檢測(cè)在可解釋性、魯棒性、可遷移性和低功耗等方面存在的瓶頸性問(wèn)題具有重要的理論研究?jī)r(jià)值和良好的應(yīng)用前景。

        [1] WANG J, LIU Y, SONG H. Counter-unmanned aircraft system (s)(C-UAS): State of the art, challenges, and future trends[J]., 2021, 36(3): 4-29.

        [2] LI Xiaoping, LEI Songze, ZHANG Boxing, et al. Fast aerial UAV detection using improved inter-frame difference and SVM[C]//, 2019, 1187(3): 032082.

        [3] WANG C, WANG T, WANG E, et al. Flying small target detection for anti-UAV based on a Gaussian mixture model in a compressive sensing domain[J]., 2019, 19(9): 2168.

        [4] Seidaliyeva U, Akhmetov D, Ilipbayeva L, et al. Real-time and accurate drone detection in a video with a static background[J]., 2020, 20(14): 3856.

        [5] ZHAO W, CHEN X, CHENG J, et al. An application of scale-invariant feature transform in iris recognition[C]///12th,, 2013: 219-222.

        [6] SHU C, DING X, FANG C. Histogram of the oriented gradient for face recognition[J]., 2011, 16(2): 216-224.

        [7] SHEN Y K, CHIU C T. Local binary pattern orientation based face recognition[C]//,, 2015: 1091-1095.

        [8] YUAN Xiaofang, WANG Yaonan. Parameter selection of support vector machine for function approximation based on chaos optimization[J]., 2008, 19(1): 191-197.

        [9] FENG J, WANG L, Sugiyama M, et al. Boosting and margin theory[J]., 2012, 7(1): 127-133.

        [10] WEI L, HONG Z, Gui-Jin H. NMS-based blurred image sub-pixel registration[C]//2011: 98-101.

        [11] 羅會(huì)蘭, 陳鴻坤. 基于深度學(xué)習(xí)的目標(biāo)檢測(cè)研究綜述[J]. 電子學(xué)報(bào), 2020, 48(6):1230-1239.

        LUO Huilan, CHEN Hongkun. Survey of object detection based on deep learning[J]., 2020, 48(6): 1230-1239.

        [12] Bosquet B, Mucientes M, Brea V M. STDNet: exploiting high resolution feature maps for small object detection[J]., 2020, 91: 103615.

        [13] SUN H, YANG J, SHEN J, et al. TIB-Net: Drone detection network with tiny iterative backbone[J]., 2020, 8: 130697-130707.

        [14] LIU L, OUYANG W, WANG X, et al. Deep learning for generic object detection: a survey[J]., 2020, 128(2): 261-318.

        [15] Girshick R, Donahue J, Darrell T, et al. Rich feature hierarchies for accurate object detection and semantic segmentation[C]//, 2014: 580-587.

        [16] Krizhevsky A, Sutskever I, Hinton G E. Imagenet classification with deep convolutional neural networks[C]//, 2012, 25: 1097-1105.

        [17] HE K, ZHANG X, REN S, et al. Spatial pyramid pooling in deep convolutional networks for visual recognition[J]., 2015, 37(9): 1904-1916.

        [18] Girshick R. Fast R-CNN[C]//, 2015: 1440-1448.

        [19] Zeiler M D, Fergus R. Visualizing and understanding convolutional networks[C]//, 2014: 818-833.

        [20] Simonyan K, Zisserman A. Very deep convolutional networks for large-scale image recognition[J/OL].:1409.1556, 2014.

        [21] REN S, HE K, Girshick R, et al. Faster R-CNN: Towards real-time object detection with region proposal networks[J]., 2016, 39(6): 1137-1149.

        [22] Bell S, Lawrence Zitnick C, Bala K, et al. Inside-outside net: detecting objects in context with skip pooling and recurrent neural networks[C]//, 2016: 2874-2883.

        [23] LE Q V, Jaitly N, Hinton G E. A simple way to initialize recurrent networks of rectified linear units[J/OL].: 1504.00941, 2015.

        [24] DAI J, LI Y, HE K, et al. R-FCN: Object detection via region-based fully convolutional networks[J/OL].:1605.06409, 2016.

        [25] HE K, ZHANG X, REN S, et al. Deep residual learning for image recognition[C]//, 2016: 770-778.

        [26] LIN T Y, Dollár P, Girshick R, et al. Feature pyramid networks for object detection[C]//, 2017: 2117-2125.

        [27] He K, Gkioxari G, Dollár P, et al. Mask R-CNN[C]//, 2017: 2961-2969.

        [28] XIE S, Girshick R, Dollár P, et al. Aggregated residual transformations for deep neural networks[C]//, 2017: 1492-1500.

        [29] LIU S, QI L, QIN H, et al. Path aggregation network for instance segmentation[C]//, 2018: 8759-8768.

        [30] LI Y, CHEN Y, WANG N, et al. Scale-aware trident networks for object detection[C]//, 2019: 6054-6063.

        [31] DUAN K, XIE L, QI H, et al. Corner proposal network for anchor-free, two-stage object detection[C]//, 2020: 399-416.

        [32] Newell A, YANG K, DENG J. Stacked hourglass networks for human pose estimation[C]//, 2016: 483-499.

        [33] Redmon J, Divvala S, Girshick R, et al. You only look once: unified, real-time object detection[C]//, 2016: 779-788.

        [34] Szegedy C, LIU W, JIA Y, et al. Going deeper with convolutions [C]//, 2015: 1-9.

        [35] LIU W, Anguelov D, Erhan D, et al. SSD: single shot multibox detector[C]//, 2016: 21-37.

        [36] Redmon J, Farhadi A. YOLO9000: Better, faster, stronger[C]//, 2017: 7263-7271.

        [37] LIN T Y, Goyal P, Girshick R, et al. Focal loss for dense object detection[C]//, 2017: 2980-2988.

        [38] Redmon J, Farhadi A. YOLOv3: An incremental improvement[J/OL].: 1804.02767, 2018.

        [39] ZHOU P, NI B, GENG C, et al. Scale-transferrable object detection[C]//, 2018: 528-537.

        [40] HUANG G, LIU Z, Van Der Maaten L, et al. Densely connected convolutional networks[C]//, 2017: 4700-4708.

        [41] LAW H, DENG J. Cornernet: Detecting objects as paired keypoints[C]//, 2018: 734-750.

        [42] Bochkovskiy A, WANG C Y, LIAO H Y M. YOLOv4: Optimal speed and accuracy of object detection[J/OL].: 2004.10934, 2020.

        [43] Carion N, Massa F, Synnaeve G, et al. End-to-end object detection with transformers[C]//, 2020: 213-229.

        [44] JIANG N, WANG K, PENG X, et al. Anti-UAV: A large multi-modal benchmark for UAV tracking[J].:2101.08466, 2021.

        [45] ZHAO J, WANG G, LI J, et al. The 2nd Anti-UAV Workshop & Challenge: Methods and results[J].:2108.09909, 2021.

        [46] Coluccia A, Fascista A, Schumann A, et al. Drone-vs-Bird detection challenge at IEEE AVSS2019[C]//, 2019: 1-7.

        [47] WU M, XIE W, SHI X, et al. Real-time drone detection using deep learning approach[C]//, 2018: 22-32.

        [48] ZHAO W, ZHANG Q, LI H, et al. Low-altitude UAV detection method based on one-staged detection framework[C]//, 2020: 112-117.

        [49] Magoulianitis V, Ataloglou D, Dimou A, et al. Does deep super-resolution enhance UAV detection?[C]//, 2019: 1-6.

        [50] Kim J, Kwon Lee J, Mu Lee K. Accurate image super-resolution using very deep convolutional networks[C]//, 2016: 1646-1654.

        [51] Craye C, Ardjoune S. Spatio-temporal semantic segmentation for drone detection[C]//, 2019: 1-5.

        [52] Ronneberger O, Fischer P, Brox T. U-Net: Convolutional networks for biomedical image segmentation[C]//, 2015: 234-241.

        [53] Aker C. End-to-end Networks for Detection and Tracking of Micro Unmanned Aerial Vehicles[D]. Ankara, Turkey: Middle East Technical University, 2018.

        [54] 張錫聯(lián), 段海濱. 一種基于Gabor深度學(xué)習(xí)的無(wú)人機(jī)目標(biāo)檢測(cè)算法[J].空間控制技術(shù)與應(yīng)用, 2019, 45(4): 38-45.

        ZHANG X, DUAN H. A target detection algorithm for UAV based on Gabor deep learning[J]., 2019, 45(4): 38-45.

        [55] 馬旗, 朱斌, 張宏偉, 等. 基于優(yōu)化YOLOv3的低空無(wú)人機(jī)檢測(cè)識(shí)別方法[J]. 激光與光電子學(xué)進(jìn)展, 2019, 56(20): 279-286.

        MA Q, ZHU B, ZHANG H, et al. Low-Altitude UAV detection and recognition method based on optimized YOLOv3[J]., 2019, 56(20): 279-286.

        [56] Cohen M B, Elder S, Musco C, et al. Dimensionality reduction for k-means clustering and low rank approximation[C]//, 2015: 163-172.

        [57] Saqib M, Khan S D, Sharma N, et al. A study on detecting drones using deep convolutional neural networks[C]//, 2017: 1-5.

        [58] Nalamati M, Kapoor A, Saqib M, et al. Drone detection in long-range surveillance videos[C]//, 2019: 1-6.

        [59] Aker C, Kalkan S. Using deep networks for drone detection[C]//, 2017: 1-6.

        [60] 張汝榛, 張建林, 祁小平, 等. 復(fù)雜場(chǎng)景下的紅外目標(biāo)檢測(cè)[J]. 光電工程, 2020, 47(10): 128-137.

        ZHANG R, ZHANG J, QI X, et al. Infrared target detection and recognition in complex scene[J]., 2020, 47(10):128-137.

        [61] 劉俊明, 孟衛(wèi)華. 融合全卷積神經(jīng)網(wǎng)絡(luò)和視覺(jué)顯著性的紅外小目標(biāo)檢測(cè)[J]. 光子學(xué)報(bào), 2020, 49(7):46-56.

        LIU J, MENG W. Infrared small target detection based on fully convolutional neural network and visual saliency[J]., 2020, 49(7): 46-56.

        [62] 馬旗, 朱斌, 程正東, 等.基于雙通道的快速低空無(wú)人機(jī)檢測(cè)識(shí)別方法[J]. 光學(xué)學(xué)報(bào), 2019, 39(12): 105-115.

        MA Q, ZHU B, CHENG Z, et al. Detection and recognition method of fast low-altitude unmanned aerial vehicle based on dual channel[J]., 2019, 39(12): 105-115.

        [63] CUI Z, YANG J, JIANG S, et al. An infrared small target detection algorithm based on high-speed local contrast method[J]., 2016, 76: 474-481.

        [64] ZHAO Y, PAN H, DU C, et al. Bilateral two-dimensional least mean square filter for infrared small target detection[J]., 2014, 65: 17-23.

        [65] Lange H. Real-time contrasted target detection for IR imagery based on a multiscale top hat filter[C]//, 1999, 3720: 214-226.

        [66] BAI X, ZHOU F, ZHANG S, et al. Top-Hat by the reconstruction operation-based infrared small target detection[C]//, 2012: 867-873.

        [67] 王剛, 陳永光, 楊鎖昌, 等. 采用圖像塊對(duì)比特性的紅外弱小目標(biāo)檢測(cè)[J]. 光學(xué)精密工程, 2015, 23(5): 1424-1433.

        WANG G, CHEN Y, YANG S, et al. Infrared dim and small target detection using image block contrast characteristics[J]., 2015, 23(5):1424-1433.

        [68] 吳雙忱, 左崢嶸. 基于深度卷積神經(jīng)網(wǎng)絡(luò)的紅外小目標(biāo)檢測(cè)[J]. 紅外與毫米波學(xué)報(bào), 2019, 38(3): 371-380.

        WU S, ZUO Z. Infrared small target detection based on deep convolutional neural network[J]., 2019, 38(3): 371-380.

        [69] 李俊宏, 張萍, 王曉瑋, 等. 紅外弱小目標(biāo)檢測(cè)算法綜述[J]. 中國(guó)圖象圖形學(xué)報(bào), 2020, 25(9): 1739-1753.

        LI J, ZHANG P, WANG X, et al. A survey of infrared dim target detection algorithms[J]., 2020, 25(9): 1739-1753.

        [70] Horn B K P, Schunck B G. Determining optical flow[C]//, 1981, 281: 319-331.

        [71] Lucas B D, Kanade T. An iterative image registration technique with an application to stereo vision[C]//, 1981: 674-679.

        [72] Dosovitskiy A, Fischer P, Ilg E, et al. Flownet: Learning optical flow with convolutional networks[C]//, 2015: 2758-2766.

        [73] Ilg E, Mayer N, Saikia T, et al. FlowNet 2.0: Evolution of optical flow estimation with deep networks[C]//, 2017: 2462-2470.

        [74] Teed Z, Deng J. Raft: Recurrent all-pairs field transforms for optical flow[C]//, 2020: 402-419.

        [75] ZHU X, XIONG Y, DAI J, et al. Deep feature flow for video recognition[C]//, 2017: 2349-2358.

        [76] ZHU X, WANG Y, DAI J, et al. Flow-guided feature aggregation for video object detection[C]//, 2017: 408-417.

        [77] Rozantsev A, Lepetit V, Fua P. Flying objects detection from a single moving camera[C]//, 2015: 4128-4136.

        [78] Bertinetto L, Valmadre J, Henriques J F, et al. Fully-convolutional siamese networks for object tracking[C]//, 2016: 850-865.

        [79] Stewart R, Andriluka M, Ng A Y. End-to-end people detection in crowded scenes[C]//, 2016: 2325-2333.

        [80] ZHAO B, ZHAO B, TANG L, et al. Deep spatial-temporal joint feature representation for video object detection[J]., 2018, 18(3): 774.

        [81] 劉宜成, 廖鷺川, 張勁, 等. 基于軌跡和形態(tài)識(shí)別的無(wú)人機(jī)檢測(cè)方法[J]. 計(jì)算機(jī)工程, 2020, 46(12): 283-289.

        LIU Y, LIAO L, ZHANG J, et al. UAV detection method based on trajectory and shape recognition[J]., 2018, 18(3): 774.

        [82] 吳飛, 陽(yáng)春華, 蘭旭光, 等. 人工智能的回顧與展望[J]. 中國(guó)科學(xué)基金, 2018, 32(3): 243-250.

        WU F, YANG C H, LAN X, et al. Retrospect and prospect of artificial intelligence[J]., 2018, 32(3): 243-250.

        Civil Drone Detection Based on Deep Convolutional Neural Networks: a Survey

        YANG Xin1,2,WANG Gang2,3,LI Liang2,LI Shaogang1,2,GAO Jin4,WANG Yizheng2

        (1.,421001,; 2.,,100850,; 3.,102206,; 4.,,100190,)

        Vision-based early warnings against civil drones are crucial in the field of public security and are also challenging in visual object detection. Because conventional target detection methods built on handcrafted features are limited in terms of high-level semantic feature representations, methods based on deep convolutional neural networks (DCNNs) have facilitated the main trend in target detection over the past several years. Focusing on the development of civil drone-detection technology based on DCNNs, this paper introduces the advancements in DCNN-based object detection algorithms, including two-stage and one-stage algorithms. Subsequently, existing drone-detection methods developed for still images and videos are summarized separately. In particular, motion information extraction approaches to drone detection are investigated. Furthermore, the main bottlenecks in drone detection are discussed. Finally, potentially promising solutions and future development directions in the drone-detection field are presented.

        computer vision, object detection, video object detection, civil drone detection, deep convolutional neural networks

        TP391.4

        A

        1001-8891(2022)11-1119-13

        2021-09-03;

        2021-10-13.

        楊欣(1997-),女,碩士研究生,研究方向?yàn)橐曨l目標(biāo)檢測(cè)。E-mail: yangxinioi@163.com。

        王剛(1988-),男,副研究員,研究方向?yàn)轭?lèi)腦視覺(jué)感知。E-mail: g_wang@foxmail.com。

        北京市自然科學(xué)基金(4214060);國(guó)家自然科學(xué)基金(62102443)。

        猜你喜歡
        卷積特征圖像
        改進(jìn)的LapSRN遙感圖像超分辨重建
        基于3D-Winograd的快速卷積算法設(shè)計(jì)及FPGA實(shí)現(xiàn)
        有趣的圖像詩(shī)
        如何表達(dá)“特征”
        從濾波器理解卷積
        電子制作(2019年11期)2019-07-04 00:34:38
        不忠誠(chéng)的四個(gè)特征
        基于傅里葉域卷積表示的目標(biāo)跟蹤算法
        抓住特征巧觀察
        一種基于卷積神經(jīng)網(wǎng)絡(luò)的性別識(shí)別方法
        線性代數(shù)的應(yīng)用特征
        河南科技(2014年23期)2014-02-27 14:19:15
        国产一区二区高清不卡在线| 亚洲中文字幕高清乱码毛片| AV无码人妻一区二区三区牛牛| 两个人免费视频大全毛片| 福利视频自拍偷拍视频| 在线观看国产激情免费视频| 国产日产韩国级片网站| 亚洲天堂av一区二区三区不卡| 久久综合精品人妻一区二区三区| 国产专区一线二线三线码| 亚洲国产精品毛片av不卡在线| 亚洲精品国偷拍自产在线麻豆| 自拍偷自拍亚洲精品播放| 麻豆国产巨作AV剧情老师| 国产av一区二区三区丝袜| 四虎成人精品国产永久免费| 国产在线视频一区二区三| 亚洲精品98中文字幕| 日本一区二区三区人妻| 久久国产加勒比精品无码| 最近中文字幕完整版免费| 秋霞午夜无码鲁丝片午夜精品| 精品亚洲欧美高清不卡高清| 中文字幕乱码人妻无码久久久1 | 久久久亚洲av成人乱码| 色偷偷偷在线视频播放| 全免费a级毛片免费看网站| 久久久久亚洲av无码专区| JIZZJIZZ国产| 亚洲国产成人av第一二三区| 91日韩东京热中文字幕| 无遮挡1000部拍拍拍免费| 亚洲欧美一区二区成人片| 亚洲国产精品第一区二区| 午夜a福利| 国产一区二区三区不卡在线播放| 日本按摩偷拍在线观看| 国产亚洲成性色av人片在线观| av无码国产在线看免费网站| 精品少妇人妻av无码久久| 国产小屁孩cao大人|