陳超逸 魏沛杰 劉永峰 韋哲 薛松
摘 要 :深度學(xué)習(xí)在計(jì)算機(jī)目標(biāo)檢測(cè)領(lǐng)域近幾年突飛猛進(jìn),取得了較大的成果。本文總結(jié)了迄今為止相關(guān)研究成果并分析了主要算法的利弊,從無人機(jī)航拍影響數(shù)據(jù)集和目標(biāo)檢測(cè)算法的研究發(fā)展趨勢(shì)出發(fā),分析了無人機(jī)航拍的成像特點(diǎn)、相關(guān)計(jì)算機(jī)目標(biāo)檢測(cè)算法的存在問題和改進(jìn)空間。目前,無人機(jī)影像目標(biāo)檢測(cè)技術(shù)正處于快速發(fā)展階段,具有廣闊的應(yīng)用前景和實(shí)用價(jià)值。
關(guān)鍵字:目標(biāo)檢測(cè);深度學(xué)習(xí);計(jì)算機(jī)視覺;無人機(jī)影像
1研究背景及意義
目標(biāo)檢測(cè)作為計(jì)算機(jī)視覺研究領(lǐng)域之一,是熱點(diǎn)課題也是重點(diǎn)課題,一直以來受到廣大學(xué)者的關(guān)注和研究。傳統(tǒng)的目標(biāo)檢測(cè)方式首先從指定的圖形上確定幾個(gè)候選的地區(qū),然后再以滑動(dòng)的方法對(duì)這些地區(qū)提取特點(diǎn),最后利用經(jīng)過訓(xùn)練的分級(jí)器,對(duì)所提取的特點(diǎn)加以分組運(yùn)算。由于采用滑動(dòng)窗口的區(qū)域選擇策略沒有針對(duì)性,且時(shí)間復(fù)雜性較高,因此窗口多余嚴(yán)重,而手工設(shè)計(jì)的特征針對(duì)多樣性的改變也不能很好的魯棒性,因此傳統(tǒng)目標(biāo)檢測(cè)算法難以滿足發(fā)展需求,已經(jīng)逐步淘汰。
深度學(xué)習(xí)是計(jì)算機(jī)學(xué)習(xí)研究中的全新重要領(lǐng)域,隨著學(xué)術(shù)界對(duì)關(guān)鍵技術(shù)的進(jìn)一步深入研究與發(fā)展,基于深度學(xué)習(xí)的目標(biāo)測(cè)試技術(shù)也獲得了突破性發(fā)展。基于學(xué)習(xí)的目標(biāo)檢測(cè)算法利用深度卷積神經(jīng)網(wǎng)絡(luò)獲取目標(biāo)特征,在魯棒性、準(zhǔn)確度和檢測(cè)速度方面均超過了傳統(tǒng)算法。深度研究的實(shí)質(zhì)意義上,是指利用建立有很多隱層結(jié)構(gòu)的機(jī)器學(xué)習(xí)模型和海量的訓(xùn)練數(shù)據(jù)分析,來了解更全面的系統(tǒng)特性,以便于最終提高分析或預(yù)測(cè)結(jié)果的精確度,具有良好的泛化性,相比較傳統(tǒng)算法,在完成指定場(chǎng)景下的檢測(cè)任務(wù)具有更好的表現(xiàn)。
隨著無人機(jī)技術(shù)的發(fā)展以及安全方面的需求,經(jīng)常需要利用無人機(jī)航拍來進(jìn)行數(shù)據(jù)的采集。無人機(jī)能夠快速的獲取大量數(shù)據(jù),在農(nóng)業(yè)、軍事、建筑、地質(zhì)等許多領(lǐng)域發(fā)揮了重要作用。目前為止,常規(guī)圖像目標(biāo)檢測(cè)技術(shù)的發(fā)展已經(jīng)趨向成熟,可無人機(jī)航拍時(shí)視野廣、視角高、天氣復(fù)雜,其成像不穩(wěn)定、目標(biāo)尺度小,難以直接提取影像中的信息特征,深度學(xué)習(xí)目標(biāo)檢測(cè)算法在此領(lǐng)域依舊需要進(jìn)一步的研究與改進(jìn)。
2國內(nèi)外研究現(xiàn)狀
2.1目標(biāo)檢測(cè)研究現(xiàn)狀
目標(biāo)檢測(cè)任務(wù)是尋找目標(biāo)在給定圖像中的位置并判定目標(biāo)的歸屬類別。目標(biāo)檢測(cè)技術(shù)發(fā)展至今已有多年歷程,從2001年至2021年目標(biāo)檢測(cè)技術(shù)發(fā)展的線路方案,大致上經(jīng)過了兩個(gè)主要發(fā)展階段——基于經(jīng)典特征信息提取的目標(biāo)檢測(cè)時(shí)代、以及基于深度學(xué)習(xí)的目標(biāo)檢測(cè)時(shí)代。
在深度學(xué)習(xí)時(shí)代以前,早期基于經(jīng)典特征提取的傳統(tǒng)目標(biāo)檢測(cè)方式的過程主要包括了三步:候選框生成、特征矢量獲取,以及區(qū)域劃分。候選框生成的主要功能是尋找目標(biāo)在圖片中可能出現(xiàn)的地方,如"感興趣區(qū)域"ROI,并通過更多尺寸的滑動(dòng)窗口掃描整幅圖片;第二階段需要設(shè)計(jì)能夠捕捉語義信息和魯棒性的視覺特征用來判別任務(wù)目標(biāo);第三階段使用區(qū)域分類器,將目標(biāo)對(duì)象與其他類別區(qū)分。
近年來,計(jì)算機(jī)硬件技術(shù)的飛速發(fā)展為深度卷積神經(jīng)網(wǎng)絡(luò)的實(shí)現(xiàn)提供了算力保障,基于深度學(xué)習(xí)的目標(biāo)檢測(cè)算法逐步成為目標(biāo)檢測(cè)算法的主流。基于深度學(xué)習(xí),目標(biāo)檢測(cè)分別向兩個(gè)主要研究方向發(fā)展——基于候選區(qū)域的算法和基于回歸的算法。基于候選區(qū)域的算法也叫雙階段目標(biāo)檢測(cè)算法,第一階段是選取候選區(qū)域,第二階段是進(jìn)行分類和邊框位置的回歸。雙階段目標(biāo)檢測(cè)的代表算法主要有RCNN、Fast RCNN、Faster RCNN等?;诨貧w的算法又叫單階段目標(biāo)檢測(cè)算法,該算法可以跳過對(duì)候選框的選擇,直接從卷積網(wǎng)絡(luò)中預(yù)測(cè)類別的坐標(biāo)值和置信度,單階段目標(biāo)檢測(cè)的代表算法主要有YOLO、YOLOv2、YOLOv3、SSD等?;谏疃葘W(xué)習(xí)的目標(biāo)檢測(cè)方法,從結(jié)果分析來看,從速度和精度上都大大超越了傳統(tǒng)的目標(biāo)檢測(cè)方式,并且降低了人為因素,從而擁有卓越的泛化能力,基于深度學(xué)習(xí)研究目標(biāo)檢測(cè),已逐漸成為主流。
2.2無人機(jī)航拍影像的目標(biāo)檢測(cè)研究工作現(xiàn)狀
無人機(jī)因其航拍特殊性,其成像中任務(wù)目標(biāo)廣泛較小、大范圍拍攝造成的尺度差異懸殊、背景多變,許多已在常規(guī)數(shù)據(jù)集上驗(yàn)證有效的深度學(xué)習(xí)方法無法直接利用。因此,許多研究針對(duì)無人機(jī)影像特點(diǎn)改進(jìn)深度學(xué)習(xí)模型,以優(yōu)化小目標(biāo)檢測(cè)的精度?,F(xiàn)有的目標(biāo)檢測(cè)算法在無人機(jī)影像上的檢測(cè)效果仍然不盡理想。對(duì)無人機(jī)視角下的影像進(jìn)行檢測(cè)有以下幾方面的研究重點(diǎn)和研究難點(diǎn):
(1)可用數(shù)據(jù)集缺乏。雖然無人機(jī)技術(shù)得到了飛速發(fā)展,無人機(jī)航拍影像的質(zhì)量也逐漸提升、種類更加完全,但是還是缺少大范圍的無人機(jī)航拍公開數(shù)據(jù)集,無法確保模型的充分訓(xùn)練。
(2)無人機(jī)成像目標(biāo)尺度小。無人機(jī)在高空拍攝時(shí),角度高,視野廣,而任務(wù)目標(biāo)在成像里往往可能只有數(shù)百像素,與全景圖像尺寸比很小。
(3) 無人機(jī)航拍目標(biāo)尺度變化大、背景復(fù)雜。無人機(jī)對(duì)地面物體拍攝時(shí)的范疇較廣并且角度各異,導(dǎo)致圖像中涉及的目標(biāo)角度和尺度差異較大,尤其是隨著無人機(jī)與目的距離的靠近。
3無人機(jī)目標(biāo)檢測(cè)研究進(jìn)展
針對(duì)無人機(jī)圖像中的機(jī)場(chǎng)、飛機(jī)、汽車等目標(biāo)識(shí)別,屬于一種“大范圍、小目標(biāo)”的識(shí)別應(yīng)用,受限于目標(biāo)尺寸、目標(biāo)形態(tài)改變、背景干擾等各種因素的影響,傳統(tǒng)的目標(biāo)識(shí)別方法很難達(dá)到較高的準(zhǔn)確性,近年來基于深度學(xué)習(xí)的目標(biāo)檢測(cè)方法在無人機(jī)技術(shù)應(yīng)用領(lǐng)域取得了一些重要的研究進(jìn)展。面向無人機(jī)圖像的深度學(xué)習(xí)目標(biāo)識(shí)別方法,可以解決在復(fù)雜場(chǎng)景下對(duì)“大范圍、小目標(biāo)”應(yīng)用的快速準(zhǔn)確定位問題。通過深度學(xué)習(xí)方法,首先對(duì)機(jī)場(chǎng)、飛機(jī)等目標(biāo)進(jìn)行識(shí)別,之后再對(duì)目標(biāo)類型進(jìn)行精細(xì)識(shí)別。使用候選窗口獲取和分類器辨識(shí)的識(shí)別框架:先通過區(qū)域候選計(jì)算,獲取待辨識(shí)的目標(biāo)區(qū)域;在候選范圍上使用已經(jīng)訓(xùn)練好的學(xué)習(xí)模塊,對(duì)范圍內(nèi)所包含主要目標(biāo)類型做出分類辨識(shí)。
3.1航空影像數(shù)據(jù)集現(xiàn)狀
無人機(jī)航拍影像有其獨(dú)特顯著的特點(diǎn),在公開的自然情形圖像數(shù)據(jù)集MS COCO等上面做檢測(cè)任務(wù)時(shí)取得的效果令人差強(qiáng)人意。
出現(xiàn)用無人機(jī)當(dāng)拍攝平臺(tái)來制作數(shù)據(jù)集的時(shí)間比較晚。深度學(xué)習(xí)的結(jié)果非常依賴數(shù)據(jù)集的質(zhì)量,然而在無人機(jī)影像目標(biāo)檢測(cè)上,我們?nèi)鄙俅罅恐T如ImageNet、MS COCO等成熟公開的數(shù)據(jù)集。目前,無人機(jī)航拍影像數(shù)據(jù)集的類別數(shù)量,以及目標(biāo)標(biāo)注過的公開數(shù)據(jù)集非常少,絕大多數(shù)現(xiàn)有的數(shù)據(jù)集收集的類別大概局限在車輛、建筑、飛機(jī)和船舶,比較下來,ImageNet里包括1000個(gè)類別共1281167張帶注釋(標(biāo)簽)的訓(xùn)練集圖片,所以現(xiàn)有的數(shù)據(jù)集難以表現(xiàn)現(xiàn)實(shí)世界的復(fù)雜程度;同時(shí),目標(biāo)的尺度變化和旋轉(zhuǎn)特性不夠豐富,相比于衛(wèi)星和傳統(tǒng)航空遙感平臺(tái),無人機(jī)有著較高的靈活性,目標(biāo)較為豐富的變化才能逼近無人機(jī)的實(shí)際航拍場(chǎng)景。因此,在采集和制作無人機(jī)影像數(shù)據(jù)集時(shí)應(yīng)作如下方向努力:
1)數(shù)據(jù)集應(yīng)具有較大的規(guī)模。目標(biāo)類別、目標(biāo)標(biāo)注在數(shù)量上要足以支撐基于深度學(xué)習(xí)的方法。類別的選擇除了滿足實(shí)際應(yīng)用還要平衡正負(fù)樣本的比率,從而進(jìn)一步提高無人機(jī)影像目標(biāo)檢測(cè)的技術(shù)水平。
2)數(shù)據(jù)集應(yīng)具有較好的泛化性,淡化數(shù)據(jù)集本身的特征。使用不同傳感器進(jìn)行航拍,保證相同類別目標(biāo)具有不同的分辨率;拍攝時(shí)段和天氣應(yīng)多樣化,從而確保影像信息之間具有偏差更加貼合實(shí)際。
3)數(shù)據(jù)集應(yīng)充分表征無人機(jī)影像的特點(diǎn)。背景信息足夠豐富,不能刻意排除模糊、有遮擋或難以辨別的目標(biāo);采集數(shù)據(jù)時(shí)應(yīng)注意同類目標(biāo)的多樣性和相似性,包括尺度和形狀的變化、旋轉(zhuǎn)特性等。
3.2無人機(jī)目標(biāo)檢測(cè)研究現(xiàn)狀與重難點(diǎn)
計(jì)算機(jī)視覺領(lǐng)域中基于深度學(xué)習(xí)的目標(biāo)檢測(cè)方法在自然場(chǎng)景領(lǐng)域取得了巨大的成功,這對(duì)于無人機(jī)目標(biāo)檢測(cè)任務(wù)是值得借鑒和參考的,很多國內(nèi)外研究提出了效果顯著的改進(jìn)算法。本文從無人機(jī)影像的4個(gè)特點(diǎn)出發(fā),分析比較了一些具有代表性的方法。
3.2.1無人機(jī)影像中的復(fù)雜背景問題
無人機(jī)影像中目標(biāo)密集區(qū)域往往存在著大量近似物體,從而導(dǎo)致檢測(cè)中的漏檢或誤報(bào)增加。此外,無人機(jī)影像背景中大量噪聲信息,還會(huì)使目標(biāo)被弱化或遮擋,難以被連續(xù)和完整地檢測(cè)。
在解決無人機(jī)影像中的復(fù)雜背景問題時(shí),上下文信息可以幫助模型對(duì)目標(biāo)與背景的理解,從而從提取更好的目標(biāo)特征,但上下文信息需要進(jìn)行挑選,通常只有部分信息是對(duì)模型有用的;空洞卷積在增加感受野的同時(shí)保留細(xì)節(jié)信息,為了適應(yīng)無人機(jī)影像中的目標(biāo)分布和遮擋情況,多尺度空洞券積中提取的特征大小和數(shù)量顯得尤為重要:注意力機(jī)制可以有效過濾背景中的無用信息,不過在無人機(jī)目標(biāo)檢測(cè)這種特定的場(chǎng)景下需要合理地分配權(quán)重,避免小目標(biāo)的漏檢或誤報(bào)。
3.2.2無人機(jī)影像中的小目標(biāo)問題
無人機(jī)影像中目標(biāo)的尺度范圍大,各類目標(biāo)經(jīng)常出現(xiàn)在同一圖片中。小目標(biāo)在圖片中占比極小,提供的分辨率有限,從而造成檢測(cè)困難。
在解決無人機(jī)影像中的小目標(biāo)問題時(shí),特征融合的方法可以結(jié)合多層特征來進(jìn)行預(yù)測(cè),提高對(duì)多尺度目標(biāo)尤其是小目標(biāo)的檢測(cè)效果。根據(jù)不同場(chǎng)景下無人機(jī)目標(biāo)檢測(cè)任務(wù)的需求,具有相應(yīng)特性的CNN模型或模塊與FPN結(jié)合都取得了較好的檢測(cè)效果,但卻增加了時(shí)間成本。輕量化的網(wǎng)絡(luò)模型是一種解決方法,另一種思路則從訓(xùn)練深度學(xué)習(xí)模型的角度出發(fā),在已有數(shù)據(jù)集的情況下改進(jìn)訓(xùn)練質(zhì)量,具有很高的實(shí)際工程適用性。
3.2.3無人機(jī)影像中的大視場(chǎng)問題
無人機(jī)的探測(cè)范圍較廣,且不受地理因素等限制因此得到的圖像視場(chǎng)往往很大。大視場(chǎng)下的目標(biāo)檢測(cè)面臨著目標(biāo)分布不均、目標(biāo)稀疏等問題。
針對(duì)候選區(qū)域生成算法的缺點(diǎn),一些研究將強(qiáng)化學(xué)習(xí)用于大視場(chǎng)圖片的目標(biāo)搜索中。在解決無人機(jī)影像中的大視場(chǎng)問題時(shí),首先要考慮的是減少目標(biāo)搜索的成本,常見的方法為區(qū)域特征編碼方法的優(yōu)化,如增加ROI輸出的數(shù)量或增加ROI生成模塊感受野;對(duì)子圖片進(jìn)行檢測(cè)時(shí),目標(biāo)尺度的估計(jì)對(duì)檢測(cè)精度有著較大影響。減少搜索區(qū)域的方法本質(zhì)上還是兩階段的目標(biāo)檢測(cè)方法,需要遍歷整張圖片,效率較低。強(qiáng)化學(xué)習(xí)與CNN的結(jié)合實(shí)現(xiàn)了大視場(chǎng)影像中的自適應(yīng)擔(dān)索,增加效率的同時(shí)保證了子圖片檢測(cè)的精度。
3.2.4無人機(jī)影像中的旋轉(zhuǎn)問題
無人機(jī)影像中的物體可能在任意位置和方向上出現(xiàn),同一類物體的角度變化也不盡相同。無人機(jī)目標(biāo)檢測(cè)任務(wù)因此變得困難,旋轉(zhuǎn)的物體使位置回歸變得困難,因而大量的目標(biāo)被漏檢。常見的檢測(cè)方法按照候選區(qū)域和包圍盒的形式,可分為水平檢測(cè)和旋轉(zhuǎn)檢測(cè)。
在解決無人機(jī)影像中的旋轉(zhuǎn)問題時(shí),較為直接而簡(jiǎn)便的方法為保持水平的ROI不變,自定義包用盒的形狀來適應(yīng)目標(biāo)旋轉(zhuǎn)特性;使用旋轉(zhuǎn)的RROI生成的區(qū)域特征與目標(biāo)旋轉(zhuǎn)特性較為匹配,可以有效避免大量的回歸錯(cuò)位,但旋轉(zhuǎn)的錨定框的生成增加了計(jì)算量;通過默認(rèn)的水平錨定框轉(zhuǎn)換得到RROI避免了計(jì)算量的增加,且仍有著較高的回歸精度。而無錨點(diǎn)的回歸擺脫了錨定框?qū)Π鼑械南拗疲鰪?qiáng)了模型的實(shí)時(shí)性和精度,不過回歸的穩(wěn)定性需要進(jìn)一步研究。
4總結(jié)與展望
目前,無人機(jī)目標(biāo)檢測(cè)算法的受關(guān)注程度與日俱增,現(xiàn)有的算法也取得了不錯(cuò)的檢測(cè)效果,但還有很大的改進(jìn)空間。復(fù)雜背景給目標(biāo)檢測(cè)任務(wù)帶來的干擾得到了有效抑制,但現(xiàn)有的算法仍存在虛警和漏檢問題,檢測(cè)效果不太理想;基于兩階段方法的目標(biāo)檢測(cè)算法在分類和回歸的精度上有優(yōu)勢(shì),大部分小目標(biāo)檢測(cè)方法都是基于此來進(jìn)行改進(jìn),加之新模塊和網(wǎng)絡(luò)的引入,使得檢測(cè)速度仍然較慢;多數(shù)算法都是基于現(xiàn)有算法的改進(jìn),增加了檢測(cè)的局限性,需要有新的方法來提高定位精度。
針對(duì)上述問題和近幾年的研究趨勢(shì),本文對(duì)無人機(jī)目標(biāo)檢測(cè)未來研究的方向做出如下討論:
1)在增大感受野的同時(shí),密集地生成不同尺度的特征。無人機(jī)影像的分辨率較高,ASPP 可以在保證特征分辨率的同時(shí),增大感受野,但隨著擴(kuò)張率的增長(zhǎng),空洞卷積會(huì)失效。
2)自適應(yīng)地融合特征和生成ROI。無人機(jī)因應(yīng)用場(chǎng)景的不同而獲取不同特性的影像,為了避免有用信息的丟失,在特征融合和生成ROI時(shí)可以給不同的特征層賦權(quán),通過加權(quán)融合得到相應(yīng)的上下文特征和高質(zhì)量的ROI,進(jìn)而提高目標(biāo)檢測(cè)模型的泛化性。
3)深度學(xué)習(xí)方法與其他方法的結(jié)合。深度學(xué)習(xí)方法在目標(biāo)檢測(cè)領(lǐng)域有著顯著的優(yōu)勢(shì),也取得了極大的成功,其他算法的加入將會(huì)彌補(bǔ)單一方法的局限性。
4)減少進(jìn)行位置回歸時(shí)的限制?;阱^點(diǎn)的回歸中錨定框的設(shè)置需要與待檢測(cè)的目標(biāo)形狀相符合,但在無人機(jī)影像中,目標(biāo)的形狀和朝向多變,預(yù)設(shè)的錨定框限制了位置回歸。對(duì)于關(guān)鍵點(diǎn)重合而導(dǎo)致的檢測(cè)結(jié)果不穩(wěn)定問題,可以對(duì)關(guān)鍵點(diǎn)進(jìn)行二次預(yù)測(cè)和匹配來提高檢測(cè)的精確性。
參考文獻(xiàn):
[1]石葉楠,鄭國磊,三種用于機(jī)加工特征識(shí)別的神經(jīng)網(wǎng)絡(luò)方法綜述[J].航空學(xué)報(bào),2019,40(9);182-198
[2] RAZAKARIVONY S, JURIE F. Vehicle detection in aerial imagery[J]. Journal of Visual Communication and Image Representation,2016, 34(C):187-203.
[3]Fahlstrom P,Gleason T.無人機(jī)系統(tǒng)導(dǎo)論[M].吳漢平,施自勝,丁亞非,等,譯.二版.北京:電子工業(yè)出版社,2003.
[4]朱華勇,牛軼峰,沈林成,等.無人機(jī)系統(tǒng)資助控制技術(shù)研究現(xiàn)狀與發(fā)展趨勢(shì)[J].國防科技大學(xué)學(xué)報(bào),2010,32(3):115-120.
[5]江波,屈若錕,李彥冬,李誠龍,基于深度學(xué)習(xí)的無人機(jī)航拍目標(biāo)檢測(cè)研究綜述[J].航空學(xué)報(bào),2021,42(4)