冷佳旭,莫夢竟成,周應(yīng)華,葉永明,高陳強(qiáng),高新波*
1.重慶郵電大學(xué)計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院,重慶 400065;2.重慶郵電大學(xué)通信與信息工程學(xué)院,重慶 400065
以目標(biāo)檢測為代表的計(jì)算機(jī)視覺等先進(jìn)技術(shù)為無人機(jī)賦予了自主感知、分析和決策能力,使其在現(xiàn)實(shí)生活中發(fā)揮著愈發(fā)重要的作用。無人機(jī)結(jié)合智能目標(biāo)檢測技術(shù)可自主定位感興趣目標(biāo),可充分發(fā)揮其獨(dú)特空中視角及高機(jī)動(dòng)性的優(yōu)勢,從而實(shí)現(xiàn)靈活高效的數(shù)據(jù)收集能力。隨著目標(biāo)檢測技術(shù)的發(fā)展,無人機(jī)在交通監(jiān)控(Byun 等,2021)、電力巡檢(Abdelfattah 等,2021)、作物分析(Osco 等,2021)和災(zāi)害救援(Bo?i?-?tuli? 等,2019)等多個(gè)領(lǐng)域中展現(xiàn)出廣闊的應(yīng)用前景。例如在交通監(jiān)控領(lǐng)域,無人機(jī)可以空中飛行進(jìn)行偵測,不受道路限制,具有速度快、自由度高和視野寬廣等優(yōu)點(diǎn)。當(dāng)交通事故等突發(fā)事件發(fā)生時(shí),無人機(jī)可以第一時(shí)間進(jìn)行響應(yīng),到達(dá)現(xiàn)場進(jìn)行圖像采集與分析,為應(yīng)急救援與管理提供及時(shí)有效的數(shù)據(jù)支撐。在深度學(xué)習(xí)的驅(qū)動(dòng)下,目標(biāo)檢測技術(shù)獲得了長足的發(fā)展,取得了諸多令人矚目的成就。然而,大多數(shù)研究聚焦于地面視頻監(jiān)控圖像的分析,面向無人機(jī)視角圖像的目標(biāo)檢測還未得到充分的研究。目前,即使是最好的目標(biāo)檢測算法,在無人機(jī)圖像上的平均精確率也難以達(dá)到40%(Cao等,2021)。
無人機(jī)視角下的目標(biāo)檢測之所以難,其主要原因在于無人機(jī)圖像存在尺度變化、疏密分布、目標(biāo)數(shù)量較多且小目標(biāo)占比較高等問題,特別是無人機(jī)高分辨率圖像高計(jì)算需求與現(xiàn)階段低功耗芯片有限算力之間的矛盾難以平衡。相對(duì)于地面視角拍攝的自然圖像,無人機(jī)視角下的廣闊視場在提供更為豐富的可視化信息的同時(shí),也意味著更為復(fù)雜的場景和更加多樣的目標(biāo),給目標(biāo)檢測任務(wù)帶來了更多無用噪聲的干擾。而且在無人機(jī)視角下,圖像中的目標(biāo)往往因遠(yuǎn)端拍攝、背景遮擋或光照影響等因素檢測難度較大,需要使用高分辨率圖像提供更多的信息以達(dá)到較好的檢測效果。這極大地增加了目標(biāo)檢測算法的計(jì)算開銷與內(nèi)存需求,直接使用未經(jīng)過特殊設(shè)計(jì)的通用目標(biāo)檢測算法將帶來難以承受的計(jì)算開銷與內(nèi)存需求,進(jìn)一步加劇了目標(biāo)檢測的難度。在實(shí)際應(yīng)用場景中,往往面臨著類似于識(shí)別車輛種類這種細(xì)粒度分類的問題,這些相似目標(biāo)給模型正確識(shí)別目標(biāo)帶來了巨大的挑戰(zhàn)。此外,受限于現(xiàn)實(shí)世界中的目標(biāo)數(shù)量,無人機(jī)視角下某些類別的樣本數(shù)量往往極為有限,這種數(shù)據(jù)不均衡也對(duì)模型的學(xué)習(xí)能力提出了更高的要求。
因此,緊密結(jié)合智能目標(biāo)檢測技術(shù),針對(duì)無人機(jī)視角下圖像的特性設(shè)計(jì)行之有效的方法,促使模型更好地學(xué)習(xí)理解無人機(jī)視角下的視覺數(shù)據(jù),對(duì)于無人機(jī)在實(shí)際場景中充分發(fā)揮其效用是至關(guān)重要的。無人機(jī)視角下的目標(biāo)檢測在應(yīng)用廣泛的同時(shí)面臨著諸多挑戰(zhàn),具有深刻的現(xiàn)實(shí)意義與重要的研究意義。對(duì)無人機(jī)視角下的目標(biāo)檢測展開研究將有助于推動(dòng)目標(biāo)檢測領(lǐng)域的進(jìn)一步發(fā)展,增強(qiáng)目標(biāo)檢測在面對(duì)真實(shí)場景時(shí)的應(yīng)用能力。
目標(biāo)檢測作為計(jì)算機(jī)視覺領(lǐng)域的基礎(chǔ)研究,已有學(xué)者對(duì)此進(jìn)行研究與總結(jié),并發(fā)表許多優(yōu)秀的綜述。Zou 等人(2019)梳理了400 多篇關(guān)于目標(biāo)檢測技術(shù)發(fā)展的論文,系統(tǒng)而全面地展現(xiàn)了目標(biāo)檢測領(lǐng)域。Oksuz 等人(2021)從目標(biāo)檢測中存在的類別不平衡、尺度不平衡、空間不平衡以及優(yōu)化目標(biāo)不平衡等4 大不平衡問題出發(fā),對(duì)現(xiàn)有的目標(biāo)檢測算法進(jìn)行了深入的總結(jié)。Chen等人(2020)從小目標(biāo)4大基礎(chǔ)方法的角度出發(fā),總結(jié)并分析了小目標(biāo)檢測的相關(guān)優(yōu)化思路。曹家樂等人(2022)回顧并總結(jié)了基于單目相機(jī)的視覺目標(biāo)檢測方法,并對(duì)比介紹了單目目標(biāo)檢測和雙目目標(biāo)檢測的國內(nèi)外研究進(jìn)展情況。然而,以上綜述對(duì)于無人機(jī)視角下目標(biāo)檢測的關(guān)注不夠,未能系統(tǒng)地梳理無人機(jī)視角下的目標(biāo)檢測方法和面臨的挑戰(zhàn)。
聚焦到無人機(jī)視角下的目標(biāo)檢測,Mittal 等人(2020)關(guān)注低空無人機(jī)數(shù)據(jù)集,評(píng)估并總結(jié)了當(dāng)前流行的目標(biāo)檢測算法,但是局限于簡單的性能對(duì)比,沒有深入總結(jié)分析。Sambolek 和Iva?i?-Kos(2020)介紹了在搜索和救援行動(dòng)中使用無人機(jī)的可能性,并提供了在無人機(jī)圖像中檢測相關(guān)人員的方法概述。Srivastava 等人(2021)關(guān)注無人機(jī)圖像的車輛檢測,從提高精度和減少計(jì)算開銷兩個(gè)方面回顧了這些工作。Bouguettaya 等人(2022)關(guān)注于無人機(jī)視角下的車輛檢測應(yīng)用,總結(jié)并介紹了多種網(wǎng)絡(luò)結(jié)構(gòu)對(duì)于改善車輛檢測的貢獻(xiàn)。江波等人(2021)對(duì)常見的航空影像數(shù)據(jù)集進(jìn)行了梳理,并對(duì)近期的無人機(jī)目標(biāo)檢測研究進(jìn)行了歸納和分析。楊浩然和張雨晗(2022a)對(duì)目標(biāo)檢測相關(guān)算法進(jìn)行了簡單的優(yōu)缺點(diǎn)分析。然而,這些綜述對(duì)于無人機(jī)視角下面臨的挑戰(zhàn)總結(jié)不夠系統(tǒng),在算法方面的趨勢總結(jié)較為薄弱,而且對(duì)于目標(biāo)檢測算法的實(shí)際應(yīng)用闡述也較為簡略。
與以往關(guān)注于通用領(lǐng)域目標(biāo)檢測的綜述或僅關(guān)注于無人機(jī)在特定應(yīng)用場景下應(yīng)用的綜述不同,本文著重于對(duì)無人機(jī)視角下的目標(biāo)檢測這一意義重大且極具挑戰(zhàn)性的研究領(lǐng)域進(jìn)行系統(tǒng)且深入的分析與總結(jié)。首先簡要闡述無人機(jī)視角下目標(biāo)檢測的重要研究意義,然后對(duì)無人機(jī)視角下目標(biāo)檢測領(lǐng)域中存在的挑戰(zhàn)進(jìn)行系統(tǒng)的歸納和總結(jié),隨之介紹并分析無人機(jī)視角下的目標(biāo)檢測優(yōu)化思路,包括數(shù)據(jù)增強(qiáng)、多尺度特征融合、區(qū)域聚焦策略、多任務(wù)學(xué)習(xí)、模型輕量化以及其他優(yōu)化策略等。本文將特別展示無人機(jī)視角下目標(biāo)檢測算法的應(yīng)用,闡明該研究的實(shí)際意義。此外,本文將介紹無人機(jī)視角下適用于檢測任務(wù)的相關(guān)數(shù)據(jù)集,并在常用的數(shù)據(jù)集上分析對(duì)比現(xiàn)有算法的檢測性能。最后,對(duì)本文內(nèi)容進(jìn)行簡要的總結(jié),并討論無人機(jī)視角下的目標(biāo)檢測未來可能的研究方向和發(fā)展趨勢。
相較于常規(guī)圖像,無人機(jī)視角下的圖像因其拍攝平臺(tái)的特殊性,有著許多獨(dú)有的特性。其中最為顯著的特性便是廣闊的空中視野,這種空中視野使得無人機(jī)可以捕獲更為豐富的信息,進(jìn)而實(shí)現(xiàn)強(qiáng)大的數(shù)據(jù)收集能力,但同時(shí)也給目標(biāo)檢測帶來了極大的挑戰(zhàn)。不同與以往綜述簡單地羅列無人機(jī)視角下目標(biāo)檢測面臨的問題,本文嘗試從數(shù)據(jù)不均衡的角度來分析并總結(jié)無人機(jī)視角下的挑戰(zhàn)。如圖1 所示,無人機(jī)視角下的目標(biāo)檢測中存在著目標(biāo)尺度不均衡、空間分布不均衡、樣本數(shù)量不均衡、類別語義不均衡以及優(yōu)化目標(biāo)不均衡等五大不均衡問題。接下來,本文將基于這五大不均衡問題對(duì)無人機(jī)視角下目標(biāo)檢測難度高的原因以及其面臨的挑戰(zhàn)進(jìn)行分析與總結(jié)。
圖1 無人機(jī)視角下目標(biāo)檢測存在的5大不均衡問題Fig.1 Five imbalance challenges of object detection from the drone viewpoint((a)scale imbalance;(b)spatial imbalance;(c)sample imbalance;(d)semantic imbalance;(e)objective imbalance)
無人機(jī)靈活自由的飛行高度導(dǎo)致了無人機(jī)與拍攝目標(biāo)之間的距離容易產(chǎn)生急劇變化,加之無人機(jī)有著多變的拍攝視角,往往同時(shí)含括近處與遠(yuǎn)端的目標(biāo),這使得無人機(jī)圖像中的目標(biāo)存在著極度的尺度不均衡問題。如圖1(a)所示,無人機(jī)圖像中同一類別目標(biāo)尺寸分布范圍較廣,而且在分布上小尺寸的目標(biāo)占比極高。一方面,這種目標(biāo)尺度上的劇烈變化對(duì)于網(wǎng)絡(luò)的泛化能力提出了更高的要求?,F(xiàn)有方法大多基于深度卷積神經(jīng)網(wǎng)絡(luò),隨著網(wǎng)絡(luò)層數(shù)的加深,特征的語義信息逐漸加強(qiáng),而細(xì)節(jié)信息也隨之弱化,難以提取合適的特征同時(shí)處理無人機(jī)視角下不同尺寸的目標(biāo)。另一方面,無人機(jī)圖像中小目標(biāo)所攜帶的可視化信息少,在復(fù)雜場景中易受到背景噪聲干擾,難以提取有效特征,往往需要使用高分辨率圖像,檢測器才能較好地識(shí)別。
無人機(jī)圖像視野廣闊,在覆蓋較多目標(biāo)的同時(shí)也涵蓋了較多的背景物體。事實(shí)上,車輛往往行駛于道路之上,行人往往集中于空地之上,反映到圖像上便是目標(biāo)呈現(xiàn)聚集性分布。如圖1(b)所示,無人機(jī)視角下不同區(qū)域之間的差異較大,目標(biāo)往往集中于圖像中的小部分區(qū)域,即目標(biāo)的空間分布存在極度不均衡問題。一方面,小部分區(qū)域目標(biāo)聚集,極易產(chǎn)生目標(biāo)之間的密集遮擋問題,檢測模型需投入更多的關(guān)注才能有效區(qū)分不同目標(biāo);另一方面,大部分區(qū)域目標(biāo)稀疏甚至沒有目標(biāo),若無差別地對(duì)這些空白區(qū)域進(jìn)行處理將極大地浪費(fèi)計(jì)算資源。
現(xiàn)有數(shù)據(jù)驅(qū)動(dòng)的模型極度依賴數(shù)據(jù)質(zhì)量與數(shù)量,當(dāng)數(shù)據(jù)集中某個(gè)類別相對(duì)于其他類別占有更高的比例時(shí),模型在學(xué)習(xí)時(shí)便極易產(chǎn)生偏見,導(dǎo)致整體性能下降。從目標(biāo)檢測的角度來看,無人機(jī)視角下數(shù)據(jù)集中存在著兩種樣本數(shù)量不均衡:正—負(fù)樣本不均衡和不同類別之間的樣本數(shù)量不均衡。相對(duì)于自然圖像,無人機(jī)圖像中目標(biāo)數(shù)量較多,但是圖像中前景目標(biāo)的覆蓋面積卻極小。這種前后景占比之間的巨大差距帶來了正—負(fù)樣本不均衡問題,使得模型的學(xué)習(xí)過程更易被背景噪聲所干擾,從而難以關(guān)注到無人機(jī)視角下的感興趣目標(biāo)。此外,在基于無人機(jī)視角的數(shù)據(jù)集中,類別之間在數(shù)量上往往存在著不均衡的問題,不同類別目標(biāo)的數(shù)量占比存在較大差別。如圖1(c)所示,在VisDrone(Cao 等,2021)數(shù)據(jù)集中,“Car”與“Awning-tricycle”這兩個(gè)類別的數(shù)量相差近30 倍。若不進(jìn)行特殊的設(shè)計(jì),這種不均衡將導(dǎo)致模型過于關(guān)注樣本數(shù)量多的類別,而對(duì)于樣本數(shù)量少的類別學(xué)習(xí)不足,泛化性能極差。此外,不同類別的外觀表征不同,檢測難度不一。例如,“Bus”與“Tricycle”的數(shù)量相當(dāng),但是“Bus”的可視特征較為明顯,易于檢測;而“Tricycle”這一類別結(jié)構(gòu)復(fù)雜,難以從環(huán)境中區(qū)分出來,導(dǎo)致其檢測性能遠(yuǎn)低于“Bus”類別。
在尺度變化之外,無人機(jī)自由靈活的運(yùn)動(dòng)方式還帶來了視角轉(zhuǎn)換、運(yùn)動(dòng)模糊等問題。此外,在不同應(yīng)用場景中天氣往往不同,帶來了光照影響、云霧遮擋等問題。如圖1(d)所示,這些因素導(dǎo)致屬于同一類別的不同目標(biāo)外觀差異較大,對(duì)檢測模型的泛化能力提出了極大挑戰(zhàn)。此外,現(xiàn)有數(shù)據(jù)集往往僅關(guān)注于某一領(lǐng)域的具體應(yīng)用,不同類別標(biāo)簽所定義的語義信息往往相近。例如在適用于交通監(jiān)控領(lǐng)域的VisDrone(Cao 等,2021)數(shù)據(jù)集中,“People”與“Pedestrian”、“Car”與“Van”雖然屬于不同類別,但是外觀極為相似,這種類間差異小的問題導(dǎo)致檢測器難以有效區(qū)分不同目標(biāo)。
如圖1(e)所示,相對(duì)于地面視角的自然圖像數(shù)據(jù)集,無人機(jī)數(shù)據(jù)集中的圖像分辨率往往較高。一方面,這得益于無人機(jī)廣闊的空中視角可以捕獲較高分辨率的圖像;另一方面,無人機(jī)視角下,目標(biāo)極易受到復(fù)雜環(huán)境噪聲的干擾,需要高分辨率圖像才能有效識(shí)別。然而,處理高分辨率圖像所需的顯存與計(jì)算量都是無人機(jī)平臺(tái)的芯片難以承受的。相對(duì)于普通的消費(fèi)級(jí)顯卡,輕量化的嵌入式芯片僅能提供不到1/10的計(jì)算能力。這給無人機(jī)視角下目標(biāo)檢測算法的實(shí)際部署帶來了極大的挑戰(zhàn)。此外,面向無人機(jī)高分辨率圖像的目標(biāo)檢測往往有著低延遲的要求。這進(jìn)一步加劇了模型計(jì)算量與檢測精度之間的矛盾,由此產(chǎn)生了無人機(jī)視角下目標(biāo)檢測的優(yōu)化目標(biāo)不均衡的問題。
前文簡要地總結(jié)并分析了無人機(jī)視角下目標(biāo)檢測面臨的五大不均衡問題。這些不均衡問題阻礙了航拍圖像中目標(biāo)檢測精度的進(jìn)一步提升,一定程度上影響了無人機(jī)視角下目標(biāo)檢測的應(yīng)用。為此,學(xué)者們進(jìn)行了大量研究工作,涌現(xiàn)出許多創(chuàng)新優(yōu)化思路以解決這些不均衡問題。本文收集了相關(guān)論文并依據(jù)其作者的國家、機(jī)構(gòu)、發(fā)表的期刊/會(huì)議、年份、所屬的優(yōu)化思路以及重點(diǎn)解決的問題進(jìn)行了梳理與分析。如圖2 所示,中國在無人機(jī)視角下的目標(biāo)檢測研究領(lǐng)域占據(jù)著主導(dǎo)地位,國內(nèi)有較多的機(jī)構(gòu)進(jìn)行了相關(guān)研究工作,包括中國科學(xué)院大學(xué)、北京工業(yè)大學(xué)、武漢大學(xué)、北京航空航天大學(xué)等。此外,無人機(jī)視角下目標(biāo)檢測的相關(guān)研究大多聚焦于解決目標(biāo)尺度不均衡問題,這一問題也是無人機(jī)圖像最為突出、阻礙性能進(jìn)一步提升的因素。
圖2 無人機(jī)視角下目標(biāo)檢測研究概覽Fig.2 Overview of object detection research from the drone viewpoint
無人機(jī)視角下的目標(biāo)檢測尚處于發(fā)展階段,其數(shù)據(jù)集相對(duì)于自然圖像數(shù)據(jù)集規(guī)模較小,而且場景往往較為單一,加之同一場景中不同幀之間差距較小,這導(dǎo)致了目標(biāo)在樣本數(shù)量和質(zhì)量上的欠缺。此外,無人機(jī)視角下往往還存在著尺度變化、運(yùn)動(dòng)模糊和光照影響等因素干擾,檢測器難以有效學(xué)習(xí)到識(shí)別目標(biāo)所需的特征。面對(duì)這些挑戰(zhàn),數(shù)據(jù)增強(qiáng)便是一種很自然且有效的思路。通過不同的數(shù)據(jù)增強(qiáng)策略可以擴(kuò)充訓(xùn)練數(shù)據(jù)集的規(guī)模,豐富數(shù)據(jù)集的多樣性,從而增強(qiáng)檢測模型的健壯性和泛化能力,一定程度上緩解無人機(jī)視角下數(shù)據(jù)匱乏的問題。
在目標(biāo)檢測領(lǐng)域,數(shù)據(jù)增強(qiáng)因其有效性得到了廣泛的應(yīng)用。例如,屬于區(qū)域卷積神經(jīng)網(wǎng)絡(luò)(region convolutional neural network,R-CNN)(Girshick 等,2014)系列的Fast R-CNN(Girshick,2015)、Cascade R-CNN(Cai 和Vasconcelos,2018)中使用的水平翻轉(zhuǎn),單次檢測器YOLO(you only look once)(Redmon等,2016)、YOLO9000(Redmon 和Farhadi,2017)中使用的調(diào)整圖像曝光和飽和度,還有常被使用的CutOut(DeVries 和Taylor,2017)、Mix-Up(Zhang 等,2017)、CutMix(Yun 等,2019)等方法。而后,更是有諸如馬賽克增強(qiáng)(Bochkovskiy 等,2020)、保持增強(qiáng)(Gong 等,2021)、自適應(yīng)增強(qiáng)(Zoph 等,2020)等創(chuàng)新策略提出。這些數(shù)據(jù)增強(qiáng)策略一定程度上可以提升無人機(jī)視角下的目標(biāo)檢測性能。然而,無人機(jī)視角下目標(biāo)尺度變化范圍更廣,目標(biāo)形式更為多樣,不同類別之間的樣本數(shù)量極不均衡,需要更具針對(duì)性的數(shù)據(jù)增強(qiáng)策略。為此,學(xué)者們進(jìn)行了大量的研究。
受尺度正則化圖像金字塔(scale normalization for image pyramids,SNIP)(Singh 和Davis,2018)及其后續(xù)工作SNIPER(Singh 等,2018)的啟發(fā),ünel 等人(2019)針對(duì)無人機(jī)視角下的小目標(biāo)檢測問題,通過統(tǒng)一裁剪的方法有效降低了顯存占用。Zhang 等人(2019d)將裁剪后的圖片用于訓(xùn)練階段,進(jìn)一步提高了檢測性能。但是,這種方法容易破壞目標(biāo)的完整性,且忽視了無人機(jī)圖像中存在的樣本數(shù)量不均衡問題,從而阻礙了檢測性能的進(jìn)一步提升。Hong 等人(2019)參照Kisantal等人(2019)的方法,針對(duì)無人機(jī)視角下目標(biāo)覆蓋的面積小、出現(xiàn)位置缺乏多樣性、檢測框與真值框之間的交并比遠(yuǎn)小于期望閾值等問題,引入“復(fù)制—粘貼”數(shù)據(jù)增強(qiáng)方法,通過在圖像中多次復(fù)制粘貼小目標(biāo)的方式來增加小目標(biāo)的訓(xùn)練樣本數(shù),從而提升了圖像中小目標(biāo)的檢測性能,并在一定程度上緩解了正負(fù)樣本不均衡問題。而后,Chen等人(2019a)提出一種自適應(yīng)重采樣策略(如圖3(a)所示)進(jìn)行數(shù)據(jù)增強(qiáng),通過預(yù)訓(xùn)練的語義分割網(wǎng)絡(luò)獲取圖像的上下文信息指導(dǎo)前景目標(biāo)的復(fù)制,以解決簡單復(fù)制過程中可能出現(xiàn)的背景不匹配和尺度不匹配問題,從而達(dá)到較好的數(shù)據(jù)增強(qiáng)效果。Tang 等人(2020)進(jìn)一步構(gòu)建前景圖像庫,在分割圖的指導(dǎo)下添加不同的前景圖像。以上方法對(duì)于小目標(biāo)問題和樣本數(shù)量不均衡問題取得了較好的解決效果,但是對(duì)于無人機(jī)視角下存在的尺度變化問題的關(guān)注不夠充分。
圖3 數(shù)據(jù)增強(qiáng)策略的代表性方法Fig.3 Representative approaches of data augmentation((a)adaptive resampling augmentation strategy;(b)unified foreground packing strategy)
Wei 等人(2020)通過對(duì)統(tǒng)一裁剪生成圖像中的目標(biāo)尺度進(jìn)行統(tǒng)計(jì),并依據(jù)統(tǒng)計(jì)結(jié)果采取自適應(yīng)的縮放策略,從而一定程度上緩解了尺度變化問題。Yu 等人(2020)提出了一種簡單有效的尺度匹配(scale match)方法,用于在兩個(gè)數(shù)據(jù)集之間對(duì)齊目標(biāo)尺寸分布,以實(shí)現(xiàn)更為有效的微小目標(biāo)表示。而后,該團(tuán)隊(duì)(Jiang 等,2021)改善了從圖像層面到實(shí)例層面的尺度匹配,通過更為精細(xì)尺度匹配實(shí)現(xiàn)了較好的尺度分布對(duì)齊。此外,還提出了一種概率結(jié)構(gòu)繪畫(probabilistic structure inpainting,PSI)方法用于圖像的背景處理,實(shí)現(xiàn)了更為自然的數(shù)據(jù)增強(qiáng)效果。如圖3(b)所示,Huang 等人(2022)提出了一種統(tǒng)一前景增強(qiáng)(unified foreground packing,UFP)策略,通過將原始無人機(jī)圖像轉(zhuǎn)換為統(tǒng)一的馬賽克圖像,從而顯著提高前景比例并平衡不同大小目標(biāo)的尺寸。此外,Cai等人(2019)通過加入亮度噪聲模擬晴天或夜晚,以及使用柏林噪聲模擬云霧遮擋,從而增強(qiáng)模型檢測性能的穩(wěn)定性。而Kiefer 等人(2021b)則通過虛擬數(shù)據(jù)集擴(kuò)充合成大規(guī)模的高分辨率數(shù)據(jù),用于幫助網(wǎng)絡(luò)處理現(xiàn)實(shí)世界中相似的目標(biāo)檢測任務(wù)。
總的來說,數(shù)據(jù)增強(qiáng)是一種行之有效且?guī)缀醪辉黾油评沓杀镜姆椒ǎ欢ǔ潭壬辖鉀Q了無人機(jī)視角下的目標(biāo)尺度不均衡、樣本數(shù)量不均衡以及類別語義不均衡等問題,有效提高了網(wǎng)絡(luò)在不同場景下檢測的健壯性。但是數(shù)據(jù)增強(qiáng)策略帶來了訓(xùn)練成本的大幅增加,如何設(shè)計(jì)高效的數(shù)據(jù)增強(qiáng)策略仍是值得探究的重點(diǎn)問題。此外,如果增加的數(shù)據(jù)不能模擬真實(shí)場景,則會(huì)誤導(dǎo)模型。在面對(duì)真實(shí)復(fù)雜場景中的不同實(shí)際應(yīng)用任務(wù)時(shí),往往需要針對(duì)新任務(wù)的特性再次進(jìn)行設(shè)計(jì)與訓(xùn)練,遷移成本較高。
由于飛行高度以及拍攝視角的變化,無人機(jī)圖像中同一類目標(biāo)呈現(xiàn)的尺寸隨之急劇變化,這給目標(biāo)檢測帶來了嚴(yán)峻的挑戰(zhàn)。不同尺度中含有差距較大的深層語義信息和淺層表征信息,基于單一尺度的模型往往難以同時(shí)處理這兩種信息。而多尺度特征融合可以結(jié)合不同層次的有效信息,從而有效緩解無人機(jī)視角下的目標(biāo)尺度不均衡問題。
在通用目標(biāo)檢測領(lǐng)域,多尺度特征融合已經(jīng)得到了較為廣泛的應(yīng)用。早期的目標(biāo)檢測方法(Lowe,2004;Dalal 和Triggs,2005)中多尺度的思路主要基于圖像金字塔(Adelson等,1984)。如圖4(a)所示,這類方法通過輸入不同尺度的圖像,對(duì)不同尺度大小的目標(biāo)進(jìn)行檢測。但是,基于圖像金字塔訓(xùn)練卷積神經(jīng)網(wǎng)絡(luò)模型對(duì)計(jì)算機(jī)算力和內(nèi)存都有極高的要求,在實(shí)際研究應(yīng)用中較少被使用,僅有SNIP/SNIPER(Singh 和Davis,2018;Singh 等,2018)等方法針對(duì)不同數(shù)據(jù)集之間目標(biāo)尺度分布差異過大的問題而使用。為節(jié)省計(jì)算資源并獲得更好的特征融合效果,Lin等人(2017a)結(jié)合單一特征映射、金字塔特征層次和綜合特征的優(yōu)點(diǎn),提出了特征金字塔網(wǎng)絡(luò)(feature pyramid network,F(xiàn)PN)。如圖4(b)所示,F(xiàn)PN 是目前最流行的多尺度網(wǎng)絡(luò),它引入了一種自底向上、自頂向下的網(wǎng)絡(luò)結(jié)構(gòu),通過融合相鄰層的特征以達(dá)到特征增強(qiáng)的目的。在FPN 的基礎(chǔ)上,又涌現(xiàn)出一批創(chuàng)新方法(Tan 等,2020;Qiao 等,2021;Huang等,2021)。
圖4 多尺度特征融合的代表性方法Fig.4 Representative approaches of multi-scale feature fusion((a)image pyramid network;(b)feature pyramid network)
聚焦于無人機(jī)視角下的目標(biāo)檢測領(lǐng)域,Vieira-e-Silva 等人(2021)在圖像層級(jí)應(yīng)用多尺度檢測,一個(gè)分支檢測降采樣圖像中的大目標(biāo),一個(gè)分支檢測均勻裁剪后的高分辨率原圖,提高了性能。Liu 等人(2020)在使用多個(gè)分支處理不同尺度的基礎(chǔ)上,通過殘差塊和跳躍連接融合不同尺度的特征,獲得更為豐富的空間信息。Liang 等人(2020)在Li 和Zhou(2017)工作的基礎(chǔ)上,通過增加一個(gè)額外的反卷積模塊分支和平均池化來調(diào)整特征融合模塊,并使用特征融合和反卷積模塊產(chǎn)生的兩個(gè)特征金字塔對(duì)無人機(jī)圖像中的小目標(biāo)進(jìn)行預(yù)測,從而提升了檢測性能。Yang 等人(2019b)設(shè)計(jì)了一種采樣融合網(wǎng)絡(luò),將多層特征融合到有效的錨點(diǎn)采樣中,以提高對(duì)小目標(biāo)的靈敏度。而后,Xiao 等人(2020)在多尺度融合的基礎(chǔ)上進(jìn)一步進(jìn)行多尺度預(yù)測,獲得了較好的檢測精度。Lyu 等人(2020)提出了一種基于無錨框架的尺度自適應(yīng)平衡機(jī)制,并將不同感受野的淺層特征映射加入主干網(wǎng)絡(luò)中,有效提升了小目標(biāo)檢測性能。Lin 等人(2021)提出了一種三路融合特征金字塔網(wǎng)絡(luò),通過構(gòu)建一種三路融合結(jié)構(gòu)捕獲更為豐富的相鄰尺度層級(jí)上的上下文信息。Tang 等人(2021)提出了一種水平特征金字塔網(wǎng)絡(luò),在水平方向構(gòu)建層數(shù)逐層遞減的特征金字塔,生成更為豐富的特征。Liu和Zhang(2021)針對(duì)無人機(jī)高分辨率圖像中的小目標(biāo)問題,提出了多深度圖像金字塔網(wǎng)絡(luò)和多尺度特征金字塔網(wǎng)絡(luò),通過將低分辨率圖像送入深層網(wǎng)絡(luò)提取語義,高分辨率圖像送入淺層網(wǎng)絡(luò)用于定位,從而實(shí)現(xiàn)了較好的檢測性能。Amudhan和Sudheer(2022)重點(diǎn)考慮上下文信息對(duì)于小目標(biāo)的輔助作用,通過構(gòu)建淺層特征與深層特征之間的跳躍鏈接,從而有效提升了航拍圖像中的小目標(biāo)檢測性能。
多尺度特征融合同時(shí)考慮了淺層的表征信息和深層的語義信息,有利于不同尺寸目標(biāo)的特征提取,能夠有效地緩解目標(biāo)尺度不均衡問題。然而,處理高分辨率的無人機(jī)圖像時(shí),使用多尺度特征融合方法將帶來巨額的計(jì)算量與顯存占用,一定程度上阻礙了模型的實(shí)際部署及應(yīng)用。此外,無人機(jī)視角下所拍攝的圖像往往包含較多背景物體,在特征融合過程中,難以避免地帶來額外的背景噪聲干擾,這阻礙了相關(guān)算法的檢測性能進(jìn)一步提升。
無人機(jī)圖像中存在著目標(biāo)空間分布不均衡的問題,不同區(qū)域的檢測難度之間存在著較大差異。若平等對(duì)待不同區(qū)域?qū)⒃诓恢匾膮^(qū)域浪費(fèi)大量的計(jì)算資源,從而限制目標(biāo)檢測性能的提升。因此,引導(dǎo)網(wǎng)絡(luò)學(xué)習(xí)聚焦于重要區(qū)域并進(jìn)行精細(xì)處理是一種不錯(cuò)的優(yōu)化思路。
早期的開創(chuàng)性工作(Lu 等,2016;Gao 等,2018)提出了自適應(yīng)搜索策略,即在自然圖像中搜索目標(biāo)可能存在的區(qū)域,然后不斷放大,通過減少所需計(jì)算的像素?cái)?shù),高效地處理圖像中的小目標(biāo)。在此基礎(chǔ)(Lu 等,2016;Gao 等,2018)上,Yang 等人(2019a)首先提出通過檢測目標(biāo)的聚集區(qū)域而非直接檢測單個(gè)目標(biāo),然后將目標(biāo)聚集區(qū)域裁剪出來送入精細(xì)檢測器進(jìn)行進(jìn)一步的檢測,這一方法一定程度上解決了無人機(jī)圖像中存在的小目標(biāo)聚集問題和不均勻分布問題。隨后,Li等人(2020)和Duan 等人(2021)引入了一些其他領(lǐng)域的網(wǎng)絡(luò),例如人群計(jì)數(shù)領(lǐng)域的多列卷積神經(jīng)網(wǎng)絡(luò)(multi-column convolutional neural network,MCNN)(Zhang 等,2016),通過預(yù)測圖像中物體的分布來輔助獲得更好的重點(diǎn)關(guān)注區(qū)域。受在線困難樣本挖掘(online hard example mining,OHEM)(Shrivastava 等,2016)和焦點(diǎn)損失函數(shù)(focal loss)(Lin 等,2017b)的啟發(fā),Zhang 等人(2019b)和Wang等人(2020)通過裁剪出低置信度目標(biāo)聚集的區(qū)域進(jìn)行特別關(guān)注,從而實(shí)現(xiàn)了較好的檢測性能。Deng 等人(2021)在根據(jù)低分辨率圖像上的粗糙檢測結(jié)果選取重點(diǎn)區(qū)域的基礎(chǔ)上,進(jìn)一步對(duì)重點(diǎn)區(qū)域進(jìn)行超分處理,然后再次進(jìn)行檢測,同時(shí)兼顧了檢測精度與網(wǎng)絡(luò)計(jì)算開銷。Leng 等人(2023)從不同區(qū)域目標(biāo)檢測難度不同的角度出發(fā),指導(dǎo)網(wǎng)絡(luò)學(xué)習(xí)聚焦于困難目標(biāo)所在的區(qū)域,并首次引入?yún)^(qū)域獨(dú)有上下文輔助困難區(qū)域的檢測,獲得了較好的檢測性能。此外,Xu 等人(2021b)通過引入強(qiáng)化學(xué)習(xí)搜索重點(diǎn)關(guān)注區(qū)域,一定程度上減少了誤檢結(jié)果對(duì)于區(qū)域選取的干擾。該類方法在檢測速度與精度之間取得了較好的平衡,一定程度上緩解了無人機(jī)視角下存在的空間分布不均衡問題。然而,現(xiàn)有方法對(duì)于無人機(jī)視角下豐富的上下文信息缺乏顯式的利用,往往忽略了易于檢測的目標(biāo)對(duì)于難以檢測的目標(biāo)的輔助作用。此外,該類方法框架中往往涉及較多超參數(shù)設(shè)置,難以端到端地優(yōu)化,影響了性能的進(jìn)一步提升。圖5展示了區(qū)域聚焦策略的代表性方法。
圖5 區(qū)域聚焦策略的代表性方法Fig.5 Representative approaches of regional focusing strategy((a)based on dense small objects;(b)based on low-confidence objects)
現(xiàn)有模型多為數(shù)據(jù)驅(qū)動(dòng),而無人機(jī)視角下的視野較寬闊,上下文信息較多。若能充分利用這些先驗(yàn)信息,構(gòu)建“數(shù)據(jù)—知識(shí)”雙驅(qū)動(dòng)的檢測模型,將有助于進(jìn)一步提升檢測性能,進(jìn)而推動(dòng)無人機(jī)視角下目標(biāo)檢測算法的實(shí)際應(yīng)用。
Chang 等人(2018)指出無人機(jī)航拍圖像中物體的透視投影變形影響了模型的識(shí)別能力,并提出通過圖像分割和消失點(diǎn)變換來克服上述挑戰(zhàn)。Pi等人(2019)依據(jù)場景上下文信息進(jìn)行輔助推理,通過分析并去除誤檢候選框,以提高檢測精度。Zhou 等人(2019b)通過使用金字塔場景解析網(wǎng)絡(luò)(pyramid scene parsing network,PSPNet)(Zhao 等,2017)進(jìn)行像素級(jí)的場景解析,然后利用場景類別相關(guān)知識(shí)來微調(diào)修正目標(biāo)的分類置信度。受Mask R-CNN(He等,2017)啟發(fā),Zhang 等人(2019d)構(gòu)建了一個(gè)目標(biāo)邊界框與遮罩聯(lián)合學(xué)習(xí)的交錯(cuò)層級(jí)結(jié)構(gòu),改善了無人機(jī)圖像中密集小目標(biāo)的檢測效果。如圖6(a)所示,Wu 等人(2019b)提出了一種名為干擾解纏特征轉(zhuǎn)換(nuisance disentangled feature transform,NDFT)的新框架,通過使用高度、天氣和視角等輔助信息,實(shí)現(xiàn)了更為穩(wěn)健的目標(biāo)檢測。Messmer 等人(2021)針對(duì)無人機(jī)視角下存在的目標(biāo)尺度不均衡問題,通過使用無人機(jī)數(shù)據(jù)集的高度信息,約束同一類別的尺寸大小,獲得了不錯(cuò)的效果。Li等人(2021)將“距地采樣距離”作為先驗(yàn)知識(shí),輔助確定目標(biāo)的物理尺寸,并通過結(jié)合圖像場景信息,提高了相似目標(biāo)之間的可辨別性。此外,還在目標(biāo)檢測任務(wù)中引入目標(biāo)計(jì)數(shù)任務(wù)作為約束,進(jìn)一步提升了模型的檢測性能和泛化能力。Fang 等人(2021)基于自注意力機(jī)制提出一種有效的跨模態(tài)特征融合方法,通過充分利用不同模態(tài)綜合性信息,顯著改善了航拍圖像中多光譜目標(biāo)檢測的性能。如圖6(b)所示,Sun 等人(2022)提出了一個(gè)不確定性感知跨膜態(tài)車輛檢測(uncertainty aware cross-modality rehicle detection,VA-CMDet)框架,通過融合可視圖像與紅外圖像兩種模態(tài)的信息,并使用光照估計(jì)量化不同目標(biāo)的不確定性,從而減少高不確定性目標(biāo)帶來的檢測偏差,實(shí)現(xiàn)了全天候極端場景下的車輛檢測。
圖6 多任務(wù)學(xué)習(xí)的代表性方法Fig.6 Representative approaches of multi-task learning((a)methodological framework of NDFT;(b)methodological framework of UA-CMDet)
多任務(wù)學(xué)習(xí)可以有效抑制數(shù)據(jù)中存在的噪聲,提高模型的泛化能力。然而,現(xiàn)有模型對(duì)于無人機(jī)視角下圖像的特性關(guān)注還不夠深入,主要傾向于關(guān)注目標(biāo)尺度不均衡問題,而忽略了類別語義不均衡這一重要問題。此外,這些方法大多隱式地利用的高度、光照等先驗(yàn)信息或融合可視圖像、紅外圖像等不同模態(tài)的信息,未能顯式地利用特定目標(biāo)在不同場景下呈現(xiàn)的外觀表征來優(yōu)化檢測結(jié)果。
現(xiàn)有的先進(jìn)目標(biāo)檢測方法大多依賴強(qiáng)大的基礎(chǔ)神經(jīng)網(wǎng)絡(luò),這些網(wǎng)絡(luò)通常有著巨大的內(nèi)存開銷與計(jì)算需求,難以直接應(yīng)用于無人機(jī)這種低功耗圖像處理平臺(tái)。為此,諸多學(xué)者對(duì)低功耗的目標(biāo)檢測算法進(jìn)行了大量且深入的研究。
較為通用的做法是進(jìn)行模型壓縮,即在已經(jīng)訓(xùn)練好的模型上簡化,使得網(wǎng)絡(luò)攜帶更少的網(wǎng)絡(luò)參數(shù),從而可以同時(shí)解決內(nèi)存與計(jì)算速度的問題。例如,靳麗蕾等人(2018)提出了一種結(jié)合權(quán)重剪枝和卷積核剪枝的混合剪枝方法。基于YOLOv3(Redmon 和Farhadi,2017)改進(jìn)的SlimYOLOv3(Zhang 等,2019c)通過剪枝減少計(jì)算量,顯著降低了網(wǎng)絡(luò)所需功耗。Ringwald 等人(2019)通過自適應(yīng)地修剪模型,改進(jìn)網(wǎng)絡(luò)預(yù)測層,從而在計(jì)算能力較弱的無人機(jī)上實(shí)現(xiàn)了較好的檢測效果。冀樹偉等人(2019)提出了一種基于特征復(fù)用的卷積神經(jīng)網(wǎng)絡(luò)壓縮模塊特征復(fù)用單元(feature-reuse unit,F(xiàn)R-unit),實(shí)現(xiàn)了在保證準(zhǔn)確率的同時(shí)減小卷積神經(jīng)網(wǎng)絡(luò)模型的體積與計(jì)算量。這些方法一定程度上推進(jìn)了無人機(jī)平臺(tái)上目標(biāo)檢測算法的部署與應(yīng)用。但該類方法在訓(xùn)練階段難以收斂,結(jié)果穩(wěn)定性較差,實(shí)際操作過程復(fù)雜。
另一種較為流行的思路是設(shè)計(jì)更為高效的卷積拓?fù)浣Y(jié)構(gòu)。Iandola 等人(2016)從網(wǎng)絡(luò)結(jié)構(gòu)優(yōu)化的角度出發(fā),通過使用1 × 1 卷積來替代部分3 × 3 卷積,并減少輸入通道的數(shù)量,從而有效降低了卷積計(jì)算量。Howard 等人(2017,2019)和Sandler 等人(2018)發(fā)揮深度可分離卷積的優(yōu)勢,提升了卷積計(jì)算的效率。Zhang等人(2018)和Ma等人(2018)在分組卷積的思想上提出了通道混洗操作,避免了大量1 × 1 卷積操作。Azimi(2019)通過使用通道混洗和分組卷積,并通過增加網(wǎng)絡(luò)寬度實(shí)現(xiàn)了對(duì)于不同尺寸和幾何形狀車輛的高效檢測。Wu等人(2019a)通過使用引導(dǎo)層作為分類與定位回歸的預(yù)先配置,從而在邊緣計(jì)算設(shè)備上實(shí)現(xiàn)了20幀/s的檢測速度。
最近,谷歌(Xiong 等,2021)提出了一種輕量化目標(biāo)檢測網(wǎng)絡(luò),通過設(shè)計(jì)一種基于正則卷積構(gòu)建塊的增強(qiáng)搜索空間系列,使得神經(jīng)結(jié)構(gòu)搜索算法可以獲得更優(yōu)的網(wǎng)絡(luò)架構(gòu),從而在各種移動(dòng)設(shè)備上實(shí)現(xiàn)更好的延遲—準(zhǔn)確性權(quán)衡。針對(duì)低功耗設(shè)備的有限算力,百度提出了一種新的實(shí)時(shí)目標(biāo)檢測器(Yu 等,2021a),通過采用自研的超輕量骨干網(wǎng)絡(luò)與檢測頭,并采用更精準(zhǔn)的采樣策略,從而有效推動(dòng)了輕量化目標(biāo)檢測算法的應(yīng)用部署。如圖7 所示,Yang 等人(2022)提出了一種名為查詢檢測器(query detector,QueryDet)的網(wǎng)絡(luò),通過使用一種新穎的查詢機(jī)制來加快基于特征金字塔的目標(biāo)檢測器的推斷速度,在利用高分辨率特征圖細(xì)節(jié)信息的同時(shí),避免了對(duì)背景區(qū)域的無效處理,從而實(shí)現(xiàn)了檢測速度與精度之間較好的平衡。
圖7 QueryDet(Yang等,2022)方法主框架圖Fig.7 Main methodological framework of QueryDet(Yang et al.,2022)
模型輕量化很大程度上緩解了無人機(jī)視角下目標(biāo)檢測的計(jì)算壓力,在特定應(yīng)用場景下獲得了較好的性能,使得算法的實(shí)際部署應(yīng)用成為可能。但是相較于目前的先進(jìn)檢測器,輕量化網(wǎng)絡(luò)在檢測精度上還存在較大差距,僅能用于特定的簡單場景。在復(fù)雜真實(shí)場景中,如何構(gòu)建穩(wěn)定有效的輕量化檢測器仍然是亟待解決的重點(diǎn)問題。
針對(duì)無人機(jī)視角下的目標(biāo)檢測任務(wù),除了前文總結(jié)的方法外,還有諸多方法取得了不錯(cuò)效果。Chen 等人(2019c)針對(duì)無人機(jī)圖像中的小目標(biāo)問題,通過在圖像超分辨率重建生成對(duì)抗網(wǎng)絡(luò)(generative adversarial network for image super-resolution,SRGAN)(Ledig等,2017)的基礎(chǔ)上添加分類分支,并引入分類損失以獲得利于分類鑒別的高質(zhì)量特征,從而提升了無人機(jī)視角下的小目標(biāo)檢測性能。Li等人(2019)從目標(biāo)的表示方式入手解決尺度變化問題,提出了一種尺度自適應(yīng)的邊界框表示,并使用循環(huán)網(wǎng)絡(luò)結(jié)構(gòu)指導(dǎo)特征提取,加強(qiáng)不同尺度特征之間的信息交互。Adaimi等人(2020)提出了一種新穎的目標(biāo)表示方法,在考慮目標(biāo)的寬高之外,還關(guān)注各個(gè)方向與中心點(diǎn)的聯(lián)系,然后使用投票機(jī)制綜合信息剔除干擾,在航拍圖像上獲取較好的檢測效果。Wang 等人(2021)受Zhou 等人(2019a)工作的啟發(fā),提出了一種基于多中心點(diǎn)的學(xué)習(xí)網(wǎng)絡(luò),通過提升網(wǎng)絡(luò)的定位性能緩解了航拍圖像中的極小目標(biāo)檢測問題。Xu 等人(2021a)通過使用目標(biāo)中心點(diǎn)之間的距離代替常規(guī)的交并比作為度量,一定程度上緩解了航拍圖像中定位小目標(biāo)時(shí),邊界框難以回歸的問題。Albaba和Ozer(2021)從不同檢測器的學(xué)習(xí)能力及傾向角度入手進(jìn)行考慮,將多階段的方法與單階段的方法相結(jié)合,提升了檢測質(zhì)量。Yu 等人(2021b)基于密度圖指導(dǎo)的目標(biāo)檢測網(wǎng)絡(luò)(density-map guided object detection network,DMNet)(Li 等,2020),通過使用雙分支網(wǎng)絡(luò),在不同困難目標(biāo)占比的數(shù)據(jù)集上進(jìn)行訓(xùn)練,然后融合兩個(gè)分支的檢測結(jié)果,從而一定程度上緩解了長尾分布帶來的檢測精度下降問題。此外,Zhang 等人(2021)通過引入自注意力機(jī)制(Carion 等,2020)獲得更好的特征提取能力,一定程度上緩解了尺度變化、復(fù)雜背景和靈活視點(diǎn)等挑戰(zhàn)帶來的檢測精度下降問題。Zhu 等人(2021)通過使用額外的分類器區(qū)分易混淆類別,從而提高了檢測性能。Shaniya 等人(2021)針對(duì)無人機(jī)圖像中存在的光照變化與運(yùn)動(dòng)模糊問題,通過構(gòu)建可視圖像與紅外圖像的成對(duì)數(shù)據(jù)集,有效提高了網(wǎng)絡(luò)對(duì)于小目標(biāo)的檢測性能。Yang 等人(2022b)針對(duì)夜間條件下目標(biāo)難以檢測的問題,通過使用仿真模擬平臺(tái)(Shah等,2018)和循環(huán)生成對(duì)抗網(wǎng)絡(luò)(Zhu 等,2017)創(chuàng)建合成紅外圖像,融合多模態(tài)信息輔助檢測器學(xué)習(xí)進(jìn)一步識(shí)別夜間目標(biāo)。
與地面監(jiān)控圖像相比,無人機(jī)視角下的圖像具有獨(dú)特的空中視野。高機(jī)動(dòng)性的無人機(jī)可以有效規(guī)避地面建筑的遮擋,結(jié)合智能目標(biāo)檢測算法可以實(shí)現(xiàn)高效靈活的數(shù)據(jù)收集能力。如圖8 所示,這種大范圍、低成本的監(jiān)控及分析能力使得無人機(jī)視角下的目標(biāo)檢測具有廣闊的商業(yè)前景,已廣泛應(yīng)用于交通監(jiān)控(如圖8(a))、電力巡檢(如圖8(b))、作物分析(如圖8(c))以及災(zāi)害救援(如圖8(d))等多個(gè)領(lǐng)域。
圖8 無人機(jī)視角下目標(biāo)檢測的應(yīng)用Fig.8 Applications of object detection in drone view((a)traffic surveillance;(b)power inspection;(c)crop monitoring;(d)search and rescue)
隨著城市化進(jìn)程的推進(jìn),城市規(guī)模不斷擴(kuò)大,傳統(tǒng)的基于地面監(jiān)控的交通監(jiān)控系統(tǒng)已難以滿足當(dāng)前的實(shí)時(shí)響應(yīng)需求。相對(duì)于傳統(tǒng)的道路監(jiān)控,無人機(jī)高度機(jī)動(dòng)、布點(diǎn)靈活,在事故處理、秩序管理、交通疏導(dǎo)和流量檢測等方面具有巨大應(yīng)用優(yōu)勢,特別是在一些監(jiān)控盲區(qū),無人機(jī)可以發(fā)揮重要作用。
Hsieh 等人(2017)針對(duì)基于回歸的計(jì)數(shù)方法無法精確地定位目標(biāo)物體的問題,提出了一個(gè)新的大規(guī)模停車場數(shù)據(jù)集(car parking lot dataset,CARPK),通過利用空間布局信息(例如,汽車經(jīng)常有規(guī)律地停放),并將這些空間規(guī)則化的約束引入網(wǎng)絡(luò)模型,以提高檢測精度,成功實(shí)現(xiàn)了基于無人機(jī)圖像的高效且精確的車輛計(jì)數(shù)。Zhu 等人(2018a)通過無人機(jī)捕獲超高分辨率的交通監(jiān)控視頻,并提出了一種增強(qiáng)型檢測器,實(shí)現(xiàn)了更高精度的車輛檢測與識(shí)別,利用這些技術(shù)進(jìn)一步地進(jìn)行城市交通密度估計(jì)。Liu等人(2021)基于YOLOv4(Bochkovskiy 等,2020)設(shè)計(jì)了一種面向城市環(huán)境的車輛自動(dòng)檢測和跟蹤方法,有效提高了城市智能交通監(jiān)控的效率。Byun 等人(2021)提出了一種基于深度神經(jīng)網(wǎng)絡(luò)的方法,通過分析無人機(jī)采集的視頻數(shù)據(jù)以檢測并跟蹤車輛,進(jìn)而實(shí)現(xiàn)了高效的車輛速度估計(jì),為道路交通監(jiān)控系統(tǒng)提供數(shù)據(jù)支持。Chen等人(2023)通過優(yōu)化卷積網(wǎng)絡(luò)中的殘差連接模塊,并增加卷積核的數(shù)量,從而增強(qiáng)網(wǎng)絡(luò)對(duì)于高分辨率航拍圖像的特征提取能力,在真實(shí)無人機(jī)視角場景下取得了較好的檢測效果。
輸配電線路是現(xiàn)代電力系統(tǒng)的重要組成部分。定期巡檢相關(guān)線路及設(shè)備并及時(shí)發(fā)現(xiàn)設(shè)備缺陷和線路安全隱患,是保證輸電線路安全和穩(wěn)定運(yùn)行的一項(xiàng)基礎(chǔ)工作。然而,輸配電線路分布范圍較廣,所處的戶外自然環(huán)境往往較為惡劣,這給傳統(tǒng)人工巡檢帶來了極大挑戰(zhàn)。使用無人機(jī)巡視不受地理障礙限制,飛行速度快,覆蓋范圍廣,可以極大地提升巡檢效率并有效保障人員安全。
Zhang 等人(2019a)提出了一種基于 卷積神經(jīng)網(wǎng)絡(luò)的方法,通過充分利用多尺度特征,并引入結(jié)構(gòu)化的先驗(yàn)信息以克服嘈雜背景干擾問題,實(shí)現(xiàn)了準(zhǔn)確而高效的檢測。Jalil 等人(2019)通過在可見光圖像的基礎(chǔ)上融合熱圖像信息,使得算法更為關(guān)注溫度差異,并在一定程度上可以避免光照變化對(duì)于元器件的影響,從而實(shí)現(xiàn)更為健壯實(shí)用的缺陷檢測方法。Shihavuddin 等人(2019)關(guān)注于無人機(jī)視角下風(fēng)力渦輪機(jī)的污損檢測,通過使用數(shù)據(jù)增強(qiáng)等策略構(gòu)建了一個(gè)泛化性能更好的智能污損檢測系統(tǒng),可以更為高效地完成電力巡檢任務(wù)。Vemula 和Frye(2020)通過使用遷移學(xué)習(xí),在Mask R-CNN(He 等,2017)的基礎(chǔ)上實(shí)現(xiàn)了智能高效的無人機(jī)電力巡檢系統(tǒng)的開發(fā)、集成以及測試。Iversen 等人(2021)通過收集正式場中的困難案例,構(gòu)建新的數(shù)據(jù)集輔助網(wǎng)絡(luò)進(jìn)行訓(xùn)練,結(jié)合工業(yè)相關(guān)技術(shù)開發(fā)并驗(yàn)證了一個(gè)用于自主電力線檢查的綜合性無人機(jī)系統(tǒng)。
在農(nóng)業(yè)生產(chǎn)中,實(shí)時(shí)監(jiān)控田間作物的表型信息是掌握作物生長狀況最簡單有效的方式。相對(duì)于固定的地面監(jiān)控,無人機(jī)具備靈活高效的數(shù)據(jù)收集能力,可以快速有效地獲取大面積農(nóng)田中可靠的作物信息,從而為作物生長進(jìn)程的監(jiān)控與分析提供支撐。
Chen 等人(2019b)開發(fā)了一種基于無人機(jī)圖像的草莓花檢測系統(tǒng),用于準(zhǔn)確估計(jì)草莓花的數(shù)量及其在草莓田中的分布,進(jìn)而預(yù)測未來的草莓產(chǎn)量。這種精準(zhǔn)的產(chǎn)量預(yù)測結(jié)果使得農(nóng)業(yè)生產(chǎn)者可以為收獲、運(yùn)輸以及銷售分配最佳的勞動(dòng)力和設(shè)備等資源,獲得更高的收益。Wittstruck 等人(2020)借助無人機(jī)拍攝的高分辨率圖像,實(shí)現(xiàn)了大面積的南瓜檢測,為南瓜種植戶提供詳細(xì)的收成預(yù)測。Shams 和Desbarats(2020)從生物防治入手,提出了一種基于無人機(jī)的檢測方法,通過分析可見光譜和前視紅外圖像以識(shí)別隱藏在樹葉間的亞洲大黃蜂巢穴,從而避免其對(duì)于生態(tài)系統(tǒng)的不利影響。Yuan 和Choi(2021)基于無人機(jī)實(shí)現(xiàn)了一種防凍需求評(píng)估方法,通過及時(shí)高效的空中檢測避免了蘋果園中霜凍保護(hù)處理不充分或過度加熱導(dǎo)致能源的浪費(fèi)。Osco 等人(2021)提出了一種基于深度學(xué)習(xí)的作物檢測方法,適用于在高度密集的種植園中檢測作物并分析其分布,從而輔助決策作物的種植規(guī)劃,促進(jìn)農(nóng)業(yè)系統(tǒng)的智能管理。
迅速而準(zhǔn)確定位遇險(xiǎn)人員是災(zāi)害救援中的關(guān)鍵。具備空中視野與高機(jī)動(dòng)性的無人機(jī)可以實(shí)現(xiàn)高效且安全的大面積區(qū)域搜索和救援,對(duì)于掌控現(xiàn)場態(tài)勢以及保障人員安全起著重要的作用。
Bo?i?-?tuli?等人(2019)提出了一種在無人機(jī)空中圖像中進(jìn)行人員檢測的新方法,通過使用注意力機(jī)制減少搜索空間,從而提高了搜索與救援任務(wù)的效率。Domozi 等人(2020)開發(fā)了一種輕量化的實(shí)時(shí)目標(biāo)檢測系統(tǒng),可以實(shí)際部署于常見的無人機(jī)平臺(tái),從而有效地輔助搜尋失蹤人員。Queralta 等人(2020)開發(fā)了無人機(jī)搜索與救援平臺(tái),搭載有自適應(yīng)深度學(xué)習(xí)算法的無人機(jī),可以高效地執(zhí)行偵察任務(wù)以協(xié)助海上救援行動(dòng)。Perdana 等人(2020)通過使用卷積神經(jīng)網(wǎng)絡(luò)檢測無人機(jī)拍攝的紅外熱圖像,可以從復(fù)雜的背景中識(shí)別人員,從而幫助搜救隊(duì)及時(shí)找到并救援遇險(xiǎn)者。Bultmann等人(2021)提出了一種用于實(shí)時(shí)語義推理和融合多種傳感器模式的無人機(jī)系統(tǒng),基于可見光圖像與紅外熱圖像實(shí)現(xiàn)了較好的目標(biāo)檢測性能,可有效應(yīng)用與災(zāi)害救援場景。Dong 等人(2021)通過模型剪枝和參數(shù)調(diào)優(yōu)獲得了一個(gè)可實(shí)際部署于無人機(jī)的輕量化模型,用于實(shí)現(xiàn)高效的災(zāi)后幸存人員檢測。Rizk等人(2021)通過使用智能檢測技術(shù)輔助無人機(jī)迅速找到遇險(xiǎn)人員,以輔助指導(dǎo)救援人員和醫(yī)療隊(duì)的工作,從而實(shí)現(xiàn)更高效且經(jīng)濟(jì)的救援。
在自然圖像數(shù)據(jù)集上,現(xiàn)有研究對(duì)常規(guī)目標(biāo)的檢測已取得了不錯(cuò)的成效。然而,無人機(jī)視角下的目標(biāo)檢測性能仍然不盡人意。這一方面是由于無人機(jī)視角下目標(biāo)自身的特性導(dǎo)致檢測器難以識(shí)別,另一方面是因?yàn)橄噍^于常規(guī)目標(biāo)檢測數(shù)據(jù)集,無人機(jī)視角下的目標(biāo)檢測數(shù)據(jù)集規(guī)模較小,受到的關(guān)注較少。如圖9 所示,本文選取了部分影響力較大的無人機(jī)圖像數(shù)據(jù)集,并對(duì)其被引數(shù)量、年份、圖像數(shù)量以及標(biāo)注數(shù)量等信息進(jìn)行了展示。其中,數(shù)據(jù)集氣泡面積的大小代表其被引用數(shù)量的多少。在無人機(jī)視角下的目標(biāo)檢測數(shù)據(jù)集中,較受關(guān)注的數(shù)據(jù)集(Zhu等,2018b;Du等,2018)主要集中在交通監(jiān)控領(lǐng)域,檢測目標(biāo)多為行人、車輛等,而且無人機(jī)數(shù)據(jù)集圖像中的目標(biāo)數(shù)量相對(duì)較多。
接下來,本文將按照時(shí)間順序簡要介紹現(xiàn)有的基于無人機(jī)視角的目標(biāo)數(shù)據(jù)集,并在兩個(gè)常用的公開數(shù)據(jù)集上對(duì)現(xiàn)有算法進(jìn)行性能評(píng)估。
1)CARPK(car parking lot)數(shù)據(jù)集(Hsieh 等,2017)為無人機(jī)視角下的大規(guī)模停車場數(shù)據(jù)集,涵蓋在不同場景下的多個(gè)停車場,用于車輛的檢測和計(jì)數(shù)任務(wù)。數(shù)據(jù)集圖像分辨率為1 280 × 720 像素,使用目標(biāo)邊界框的形式對(duì)車輛進(jìn)行標(biāo)注。
2)無人機(jī)目標(biāo)檢測與追蹤(unmanned aerial vehicle detection and tracking,UAVDT)數(shù)據(jù)集是中國科學(xué)院大學(xué)Du 等人(2018)在歐洲計(jì)算機(jī)視覺國際會(huì)議(European Conference on Computer Vision,ECCV)上提出的大規(guī)模目標(biāo)檢測基準(zhǔn)數(shù)據(jù)集,圖像分辨率為1 080 × 540 像素,包括“car”、“truck”和“bus”3 種類別的車輛標(biāo)注。該數(shù)據(jù)集覆蓋廣場、主干道、收費(fèi)站、高速公路、交叉口和T 形交叉口等多個(gè)常見場景,并在邊界框之外詳細(xì)注釋了多達(dá)14 種屬性(例如天氣條件、飛行高度、相機(jī)視圖、車輛類別和遮擋信息等)。
3)無人機(jī)視覺(visual in drone,VisDrone)數(shù)據(jù)集(Zhu 等,2018b)由天津大學(xué)機(jī)器學(xué)習(xí)和數(shù)據(jù)挖掘?qū)嶒?yàn)室收集,適用于無人機(jī)視角下的目標(biāo)檢測任務(wù)。該數(shù)據(jù)集由10 209 幅分辨率為2 000 × 1 500 像素的圖像組成,涵蓋了不同天氣和照明條件下的多個(gè)場景,并特別提供了目標(biāo)遮擋、截?cái)嗟谋壤刃畔?。此外,該?shù)據(jù)集中對(duì)于目標(biāo)進(jìn)行了細(xì)粒度分類標(biāo)注。例如,姿勢為站立和行走的人被標(biāo)記為“Pedestrian”,而具有其他姿勢的人被標(biāo)記為“People”。
4)DTU-Drone 數(shù)據(jù)集(Shihavuddin 等,2019)為無人機(jī)視角下的風(fēng)力渦輪機(jī)圖像數(shù)據(jù)集,由丹麥技術(shù)大學(xué)(Technical University of Denmark,DTU)提出,共包含701 幅分辨率為4 000 × 3 000 像素的圖像。該數(shù)據(jù)集提供了損壞或安裝對(duì)象的示例,主要用于檢測風(fēng)力渦輪機(jī)葉片的表面損傷,減少停機(jī)時(shí)間和避免可能的災(zāi)難性結(jié)構(gòu)故障。
5)無人機(jī)視頻中運(yùn)動(dòng)物體識(shí)別(moving object recognition in unmanned aerial vehicle videos,MORUAV)數(shù)據(jù)集(Mandal 等,2020)由無人機(jī)平臺(tái)在高速公路、立交橋、交通路口、城區(qū)和農(nóng)田等多個(gè)位置捕獲收集,包括遮擋、光照變化、天氣變化、運(yùn)動(dòng)模糊、高度變化和視角變化等多種挑戰(zhàn)。圖像分辨率從1 280 × 720 像素到1 920 × 1 080 像素不等,包含89 783個(gè)車輛標(biāo)注。
6)輸電塔和輸電線路航空圖像(transmission towers and power lines aerial-image,TTPLA)數(shù)據(jù)集(Abdelfattah 等,2021)為關(guān)注于輸電塔和輸電線路檢測和分割的航拍圖像數(shù)據(jù)集,主要應(yīng)用于無人機(jī)視角下的電力巡檢。TTPLA 數(shù)據(jù)集由1 100 幅分辨率為3 840 × 2 160 像素的圖像組成,包含手動(dòng)標(biāo)記的8 987個(gè)輸電塔和電力線實(shí)例。
7)自動(dòng)空中監(jiān)控(autonomous aerial surveillance,AU-AIR)數(shù)據(jù)集(Bozcan 和Kayacan,2020)是首個(gè)用于多模態(tài)目標(biāo)檢測任務(wù)的航拍圖像數(shù)據(jù)集,其中圖像的最大分辨率為1 920 × 1 080 像素。該數(shù)據(jù)集擁有多模態(tài)數(shù)據(jù),著重強(qiáng)調(diào)低空航拍圖像與自然圖像之間存在的差異,在提供常規(guī)可視數(shù)據(jù)外還額外標(biāo)注了無人機(jī)拍攝時(shí)的時(shí)間、位置、角速率、高度和線速度等參數(shù)信息。
8)DroneCrowd 數(shù)據(jù)集(Wen 等,2021)關(guān)注于無人機(jī)視角下?lián)頂D場景中人群的密度圖估計(jì)、計(jì)數(shù)和跟蹤。DroneCrowd 數(shù)據(jù)集由33 600 幅分辨率為1 920 × 1 080 像素的圖像組成,這些圖像涵蓋了城市、鄉(xiāng)村等不同場景中,其中包含多種照明條件、比例和密度下的人群。
9)PeopleOnGrass 數(shù)據(jù)集(Kiefer 等,2021a)為無人機(jī)視角下的人員檢測數(shù)據(jù)集,包含2 900幅分辨率為3 840 × 2 160 像素的圖像,共標(biāo)注13 713 個(gè)目標(biāo)。其中,每幅圖像都注釋有拍攝高度、角度、時(shí)間、位置以及無人機(jī)速度等信息。
10)無人機(jī)對(duì)無人機(jī)的檢測與追蹤(UAV to UAV detection and tracking,U2U-D&T)數(shù)據(jù)集(Li等,2022)主要面向于無人機(jī)之間的檢測與跟蹤應(yīng)用場景,由70 250 幀分辨率為1 920 ×1 080 像素或1 280 × 1 060像素的視頻圖像組成,包含超過7萬個(gè)實(shí)例標(biāo)注。隨著無人機(jī)數(shù)量的增加,越來越需要無人機(jī)對(duì)無人機(jī)的檢測和跟蹤系統(tǒng)來規(guī)劃路徑以避免碰撞。
11)DroneVehicle 數(shù)據(jù)集(Sun 等,2022)由56 878 幅分辨率為840 × 712 像素的圖像組成,包含可視圖像與紅外圖像兩種模態(tài),用于復(fù)雜場景(如低光照條件)下的車輛檢測。DroneVehicle 數(shù)據(jù)集共有“car”、“truck”、“bus”、“van”、“freight car”等5 種類型的目標(biāo),并且含有真實(shí)環(huán)境的遮擋和尺度變化。
12)SeaDroneSee 數(shù)據(jù)集(Varga 等,2022)旨在推動(dòng)在海上場景中使用無人機(jī)進(jìn)行搜索與救援工作。數(shù)據(jù)集系統(tǒng)注釋了54 000 多幀圖像,包含5~260 m不同高度和0~90°不同視角下的約40 萬個(gè)目標(biāo)實(shí)例。此外,該數(shù)據(jù)集還提供了拍攝高度、視角等額外的圖像注釋。
現(xiàn)有的基于無人機(jī)視角的目標(biāo)數(shù)據(jù)集如表1所示。
表1 基于無人機(jī)視角的檢測數(shù)據(jù)集Table 1 Drone-view object detection datasets
本文在兩個(gè)常用的無人機(jī)視角的檢測數(shù)據(jù)集上對(duì)現(xiàn)有算法的性能進(jìn)行評(píng)估,并提供了較為經(jīng)典算法的檢測效率數(shù)據(jù),便于研究人員更好地了解無人機(jī)視角下目標(biāo)檢測的發(fā)展現(xiàn)狀,從而推動(dòng)該領(lǐng)域的進(jìn)一步發(fā)展。
4.2.1 在VisDrone數(shù)據(jù)集上的性能評(píng)估
表2 給出了較為先進(jìn)的檢測算法在VisDrone-DET 數(shù)據(jù)集上的檢測結(jié)果。其中,AP50、AP75分別表示交并比(intersection over union,IoU)設(shè)為0.5、0.75 時(shí)的平均精準(zhǔn)率(average precision,AP),AR1、AR10、AR100以及AR500分別表示最大檢測數(shù)目設(shè)置為1、10、100、500時(shí)的平均召回率(average recall,AR)。
表2 VisDrone-DET 數(shù)據(jù)集上的簡要性能評(píng)估Table 2 Performance evaluation on VisDrone-DET dataset /%
在所有比較的算法中,使用統(tǒng)一前景增強(qiáng)策略的多代理檢查網(wǎng)絡(luò)(multi-proxy detection network with unified foreground packing,UFPMP-Det)(Huang等,2022)通過使用統(tǒng)一前景庫平衡樣本數(shù)量以及目標(biāo)尺度不均衡問題,并使用多代理檢測網(wǎng)絡(luò)進(jìn)一步緩解了類別語義不均衡問題,從而取得了最好的檢測性能,在平均精確度上達(dá)到了40.1%。
4.2.2 在UAVDT數(shù)據(jù)集上的性能評(píng)估
表3 給出了較為先進(jìn)的檢測算法UAVDT 數(shù)據(jù)集上的檢測結(jié)果。APS、APM、APL分別表示小目標(biāo)、中等尺寸目標(biāo)、大尺寸目標(biāo)的平均精準(zhǔn)率。在比較算法中,粗粒度密度圖網(wǎng)絡(luò)(coarse-grained density map network,CDMNet)(Duan 等,2021)設(shè)計(jì)了一個(gè)輕量的密度估計(jì)網(wǎng)絡(luò),通過預(yù)測的密度圖指導(dǎo)檢測器關(guān)注于目標(biāo)聚集區(qū)域,并改進(jìn)馬賽克(Mosaic)數(shù)據(jù)增強(qiáng)以緩解航拍圖像中存在的類別不平衡問題,獲得了20.7%的平均精準(zhǔn)率。
表3 UAVDT 數(shù)據(jù)集上的簡要性能評(píng)估Table 3 Performance evaluation on UAVDT dataset/%
4.2.3 算法效率評(píng)估
表4 給出了較為經(jīng)典的檢測算法的檢測效率數(shù)據(jù),包括相關(guān)算法的主干網(wǎng)絡(luò)、測試數(shù)據(jù)集、輸入尺寸、實(shí)驗(yàn)設(shè)備、單張檢測時(shí)間以及發(fā)表年份等信息。現(xiàn)有的無人機(jī)視角下的目標(biāo)檢測算法在圖形工作站上表現(xiàn)尚可,但是在真實(shí)應(yīng)用場景中,無人機(jī)所能搭載的芯片性能遠(yuǎn)低于實(shí)驗(yàn)所用的圖形處理器。因此,在確保有效檢測目標(biāo)的同時(shí),如何盡可能地減少計(jì)算量以提高檢測速度,仍然是當(dāng)前航拍圖像目標(biāo)檢測相關(guān)算法所需關(guān)注的重點(diǎn)問題。
表4 無人機(jī)視角下目標(biāo)檢測算法的效率評(píng)估Table 4 Efficiency evaluation of drone-view object detection algorithms
無人機(jī)視角下的目標(biāo)檢測因其挑戰(zhàn)性和重要性成為新的研究熱點(diǎn),本文對(duì)近年來無人機(jī)視角下的目標(biāo)檢測相關(guān)研究進(jìn)行了歸類分析與比較,并對(duì)應(yīng)闡述了這些方法解決的問題。首先,本文對(duì)無人機(jī)視角下存在的目標(biāo)尺度不均衡、空間分布不均衡、樣本數(shù)量不均衡、類別語義不均衡以及優(yōu)化目標(biāo)不均衡等五大不均衡問題進(jìn)行了系統(tǒng)而全面的總結(jié)。針對(duì)無人機(jī)視角下的這些挑戰(zhàn),本文分類介紹了不同目標(biāo)檢測算法的優(yōu)化思路,包括數(shù)據(jù)增強(qiáng)、多尺度特征融合、區(qū)域聚焦策略、多任務(wù)學(xué)習(xí)、模型輕量化以及其他優(yōu)化策略等。然后,本文展示了無人機(jī)目標(biāo)檢測算法在交通監(jiān)控、電力巡檢、作物分析以及災(zāi)害救援等多個(gè)領(lǐng)域的實(shí)際應(yīng)用。最后,本文全面介紹了已有的無人機(jī)視角下目標(biāo)檢測數(shù)據(jù)集,并在最常用的兩個(gè)數(shù)據(jù)集上對(duì)現(xiàn)有算法進(jìn)行了性能比較和分析。盡管在人工智能浪潮下,深度學(xué)習(xí)技術(shù)的應(yīng)用使得無人機(jī)視角下的目標(biāo)檢測算法獲得了快速發(fā)展。但是無人機(jī)視角下的目標(biāo)檢測性能仍受限于復(fù)雜的真實(shí)場景,難以滿足健壯穩(wěn)定的實(shí)際應(yīng)用需求。因此,本文從無人機(jī)視角下的目標(biāo)檢測存在的5 大不均衡問題出發(fā),對(duì)未來的研究趨勢進(jìn)行展望。
1)數(shù)據(jù)增強(qiáng)方面。相對(duì)于通用目標(biāo)檢測領(lǐng)域的自然圖像數(shù)據(jù)集,當(dāng)前無人機(jī)視角下的目標(biāo)檢測數(shù)據(jù)集規(guī)模較小,而且目標(biāo)種類數(shù)量往往較少。這在一定程度上限制了網(wǎng)絡(luò)模型所能學(xué)習(xí)到的泛化能力。加之無人機(jī)視角下,圖像成像易受到視角變換、云霧遮擋以及光照變化等因素的影響,使得待檢測的目標(biāo)外觀表征不明顯,進(jìn)一步加劇了網(wǎng)絡(luò)識(shí)別的難度。因此,如何在常規(guī)數(shù)據(jù)增強(qiáng)策略的基礎(chǔ)上結(jié)合無人機(jī)視角下的圖像特性,為網(wǎng)絡(luò)提供數(shù)量更多、質(zhì)量更好的學(xué)習(xí)樣本,是未來極具價(jià)值的研究方向。
2)多尺度表示方面。無人機(jī)視角,因?yàn)闊o人機(jī)飛行高度及拍攝視角的變化,目標(biāo)與鏡頭之間距離的變化極為劇烈,由此產(chǎn)生了目標(biāo)尺度不均衡這一亟待解決的問題?,F(xiàn)有的方法通過融合不同層級(jí)的多尺度特征,一定程度上緩解了尺度變化帶來的類間差異問題。盡管這類方法有效提升了無人機(jī)圖像中目標(biāo)的特征表達(dá)能力,但是在融合過程中往往忽略了無人機(jī)視角下目標(biāo)存在的空間分布不均衡問題,導(dǎo)致了算力的浪費(fèi),并可能引入額外的噪聲干擾。因此,如何在特征融合中使用更為高效的融合策略從而有效提取不同尺度的關(guān)鍵信息是未來一個(gè)可行的研究方向。
3)視覺推理方面?,F(xiàn)有模型大多為數(shù)據(jù)驅(qū)動(dòng),未能充分利用無人機(jī)視角下豐富的上下文信息,特別是未能充分利用復(fù)雜場景中存在的先驗(yàn)知識(shí)以及目標(biāo)與目標(biāo)之間的密切聯(lián)系來輔助檢測目標(biāo)。因此,如何使用無人機(jī)視角下所獨(dú)有的信息,從圖像中挖掘出有利于識(shí)別目標(biāo)的上下文信息,并利用易檢目標(biāo)來輔助提升難檢目標(biāo)的檢測性能,是未來的一個(gè)重要研究方向。