羅旭東,吳一全,陳金林
南京航空航天大學(xué) 電子信息工程學(xué)院,南京 211106
無人機(jī)(Unmanned Aerial Vehicle,UAV)操作簡單、靈活機(jī)動、性能優(yōu)良,使用時(shí)受場地和環(huán)境限制小,適合在復(fù)雜的場景中執(zhí)行任務(wù)[1-2]。由于無人機(jī)拍攝時(shí)飛行高度和視角的不同,與水平角度拍攝的自然影像相比,無人機(jī)航拍影像包含更加豐富的小目標(biāo),且圖像內(nèi)物體排列無序、方向隨機(jī)、背景復(fù)雜。無人機(jī)系統(tǒng)便于攜帶多種類型的傳感器進(jìn)行日常巡檢,具有數(shù)據(jù)采集強(qiáng)度高、運(yùn)營成本低和便于運(yùn)輸?shù)葍?yōu)點(diǎn)。無人機(jī)系統(tǒng)與先進(jìn)的深度學(xué)習(xí)方法相結(jié)合,使其更加智能、便捷、高效,現(xiàn)已廣泛應(yīng)用于農(nóng)作物監(jiān)測[3-5]、交通監(jiān)管[6]、城市規(guī)劃[7]、市政管理[8-9]、輸電線路巡檢[10-11]、搜索與救援[12-13]和國防軍事[14-15]等領(lǐng)域:①無人機(jī)在農(nóng)業(yè)信息化建設(shè)中表現(xiàn)出巨大的發(fā)展和應(yīng)用前景,利用無人機(jī)傳輸?shù)挠跋裥畔⒖梢垣@取農(nóng)田的相關(guān)數(shù)據(jù),通過掛載的不同設(shè)備可以輕松實(shí)現(xiàn)噴灑農(nóng)藥、作物播種、定量施肥等;②無人機(jī)的應(yīng)用豐富了交通管理部門的管理方式,提高了工作效率;利用圖像識別技術(shù),可以幫助無人機(jī)在飛行過程中捕獲非法停車和占道,監(jiān)測早晚高峰擁堵情況等,便于相關(guān)部門及時(shí)取證和快速恢復(fù)道路暢通;③無人機(jī)在電力線巡檢、應(yīng)急響應(yīng)和輸電線路鐵塔建設(shè)等方面的應(yīng)用逐步增多;相關(guān)工作經(jīng)目標(biāo)檢測方法的賦能,可以實(shí)時(shí)檢測出存在故障的絕緣子、防振錘和螺釘?shù)饶繕?biāo),幫助工作人員快速了解故障情況;④無人機(jī)在現(xiàn)代戰(zhàn)爭中具有極其重要的作用;自阿富汗戰(zhàn)爭中無人機(jī)的首次使用,到近期俄烏沖突中的突出表現(xiàn),察打一體無人機(jī)在復(fù)雜多變的戰(zhàn)場上所起的作用不容小覷,其偵查、監(jiān)測、目標(biāo)捕獲和實(shí)時(shí)打擊的能力,極大地縮短了從發(fā)現(xiàn)到摧毀目標(biāo)的時(shí)間,能夠應(yīng)用于多種戰(zhàn)爭場景。
圖像目標(biāo)檢測的方法可以劃分為基于傳統(tǒng)特征與基于深度學(xué)習(xí)網(wǎng)絡(luò)兩大類。傳統(tǒng)目標(biāo)檢測方法包括特征檢測和分割檢測2 個(gè)方向[16-20]。其中特征的設(shè)計(jì)與選擇極大地依賴先驗(yàn)條件,其準(zhǔn)確性、客觀性、魯棒性和泛化性都受到了不同程度的制約。同時(shí),傳統(tǒng)的目標(biāo)檢測方法大多采用滑動窗口策略,導(dǎo)致計(jì)算時(shí)間長、效率低、處理復(fù)雜且準(zhǔn)確度低。語義分割不同于目標(biāo)檢測,它對圖像中的每一個(gè)像素點(diǎn)進(jìn)行分類,確定其所屬的類別,實(shí)現(xiàn)區(qū)域劃分,轉(zhuǎn)換為具有突出顯示的感興趣區(qū)域掩膜。傳統(tǒng)的語義分割方法包括閾值 分割[21]、區(qū)域分割[22]和邊緣分割[23]等。這些方法常采用硬編碼的規(guī)則,難以準(zhǔn)確表示復(fù)雜類別,存在效率和準(zhǔn)確性低的問題。隨著計(jì)算機(jī)算力的提升和數(shù)據(jù)集規(guī)模的發(fā)展,傳統(tǒng)方法已無法滿足人們的需求。從2014年開始,以R-CNN[24]為代表的深度學(xué)習(xí)目標(biāo)檢測方法憑借其優(yōu)秀的檢測效果受到了眾多研究人員的關(guān)注,在2015 年,Long 等[25]提出了第一個(gè)深度學(xué)習(xí)語義分割模型,即全卷積網(wǎng)絡(luò)(Fully Convolutional Networks,F(xiàn)CN)?;谏疃葘W(xué)習(xí)的目標(biāo)檢測和語義分割方法具有良好的特征表達(dá)能力,與傳統(tǒng)方法相比能夠更好地處理模糊、復(fù)雜和非線性的數(shù)據(jù),提取出更多具有辨識性的抽象特征。此外,在擁有良好檢測精度的同時(shí)大大縮短了時(shí)間開銷。受無人機(jī)飛行高度的影響,無人機(jī)航拍影像相比于地面自然影像包含了更多的小目標(biāo),它們往往方向隨機(jī)、分布不均并且目標(biāo)之間經(jīng)常排列密集和相互遮擋[26-27]。無人機(jī)飛行途中,不同的位置信息使得獲取的圖像背景各異,包含了不同的光照變化、天氣條件和地形地勢。由于拍攝時(shí)機(jī)載相機(jī)的抖動可能會降低圖像的清晰度,捕獲的圖像中存在大量噪聲干擾,使得目標(biāo)模糊不清。拍攝時(shí)視角的改變,使得同一物體也會存在不同的表現(xiàn)形式、尺寸大小和紋理信息。以上特點(diǎn)使得當(dāng)前目標(biāo)檢測方法在無人機(jī)航拍影像上表現(xiàn)欠佳,原有的基于深度學(xué)習(xí)的目標(biāo)檢測方法仍存在很大的改進(jìn)空間。為了提高原有檢測器在無人機(jī)航拍影像上的檢測性能,已提出了大量的改進(jìn)方法,基于無人機(jī)航拍影像的目標(biāo)檢測與語義分割現(xiàn)已成為研究熱點(diǎn)之一。
隨著無人機(jī)和深度學(xué)習(xí)技術(shù)的快速發(fā)展,其結(jié)合愈發(fā)緊密。針對無人機(jī)航拍影像中目標(biāo)的特點(diǎn)和實(shí)時(shí)性的需求,已提出了眾多有針對性的改進(jìn)方法。近些年,基于無人機(jī)航拍影像目標(biāo)檢測與語義分割的相關(guān)綜述有:Mittal 等[28]分析了現(xiàn)有的兩階段檢測器和單階段檢測器在低空無人機(jī)航拍影像數(shù)據(jù)集上的表現(xiàn),列出了其目標(biāo)檢測任務(wù)中面臨的挑戰(zhàn),但文中所提方法僅限于2020 年之前且各類中列舉的方法數(shù)量有待擴(kuò)充。Diez 等[29]總結(jié)了基于無人機(jī)航拍影像中樹木檢測、樹種分類和森林異常等方面的深度學(xué)習(xí)方法,但囿于單一的林業(yè)方向且缺少對方法局限性的討論。江波等[1]按照無人機(jī)航拍影像的特點(diǎn)將總結(jié)方法所針對的問題分為復(fù)雜背景問題、小目標(biāo)問題、大視場問題和旋轉(zhuǎn)問題4 類,但未包含針對上述組合問題的綜合改進(jìn)方法,且遷移學(xué)習(xí)部分的論述仍需完善;更應(yīng)注意的是,在此之后尚有大量相關(guān)論文發(fā)表,該綜述內(nèi)容有待補(bǔ)充和更新。Zhu 等[30]回顧了ECCV2018 和ICCV2019 會議中,基于Vis-Drone 無人機(jī)數(shù)據(jù)集所提交的目標(biāo)檢測方法,分別從圖像目標(biāo)檢測、視頻目標(biāo)檢測、單目標(biāo)跟蹤和多目標(biāo)跟蹤4 個(gè)方面進(jìn)行了總結(jié)。程擎等[31]從無人機(jī)航拍影像的特點(diǎn)出發(fā),介紹了相關(guān)的語義分割方法,包括小目標(biāo)檢測分割、模型實(shí)時(shí)性和多尺度特征融合等方面,概括了無人機(jī)航拍影像語義分割的相關(guān)應(yīng)用,包括線檢測、農(nóng)業(yè)和建筑物提取。
本文概述了無人機(jī)航拍影像目標(biāo)檢測與語義分割方法的發(fā)展歷程,綜述了不同場景下基于各種網(wǎng)絡(luò)模型的無人機(jī)航拍影像目標(biāo)檢測與語義分割方法,歸納了無人機(jī)航拍影像數(shù)據(jù)集和目標(biāo)檢測與語義分割模型的評價(jià)指標(biāo),最后從模型和數(shù)據(jù)集2 個(gè)維度闡述了本領(lǐng)域當(dāng)前存在的有關(guān)問題,并對下一步的工作進(jìn)行了展望。
在2012 年之前,局部或全局特征常用來描述圖像中的內(nèi)容。紋理因具有良好的區(qū)分性,被廣泛應(yīng)用于無人機(jī)航拍影像分類中,有效實(shí)現(xiàn)了彩色、多光譜和高光譜圖像的特征提取。在此基礎(chǔ)上,通過對特征數(shù)據(jù)的后處理操作進(jìn)一步提高了分類精度,可以更有效地對圖像內(nèi)容進(jìn)行語義建模。盡管基于特征的方法性能良好,但忽略了高階局部特征和它們之間復(fù)雜的空間相關(guān)性。2014 年,R-CNN 的出現(xiàn)克服了上述缺點(diǎn),多層卷積模塊的疊加,更有利于從訓(xùn)練數(shù)據(jù)中學(xué)習(xí)深層的抽象特征,取得更好的檢測效果。因此在無人機(jī)航拍影像中基于深度神經(jīng)網(wǎng)絡(luò)的檢測方法日益受到普遍的認(rèn)可[32-35]。
傳統(tǒng)的目標(biāo)檢測方法由區(qū)域選擇、特征提取和分類器組成。首先,在給定的圖像上尋找候選區(qū)域,然后在這些區(qū)域中提取特征,最后,使用訓(xùn)練好的分類器進(jìn)行分類。由于目標(biāo)可能出現(xiàn)在圖像中的任意位置,并且目標(biāo)的大小和長寬比例等事先無法確定,所以需要設(shè)置不同尺度的滑動窗口對整幅圖像進(jìn)行遍歷。這種窮舉的策略雖然包含了目標(biāo)可能出現(xiàn)的位置,但是存在時(shí)間復(fù)雜度高、冗余窗口多和區(qū)域匹配差等問題,嚴(yán)重影響后續(xù)特征提取的速度和效果。實(shí)際上,由于受到時(shí)間復(fù)雜度問題的限制,滑動窗口的尺寸一般是幾個(gè)固定的預(yù)設(shè)值,對于長寬比浮動較大的目標(biāo),即便是遍歷整幅圖像也很難獲取相匹配的特征區(qū)域。在特征提取階段,常采用局部二值模式(Local Binary Pattern,LBP)[36]、尺度不變特征變換(Scale-Invariant Feature Transform,SIFT)[16]和方向梯度直方圖(Histogram of Oriented Gradient,HOG)[17]等特征。由于目標(biāo)形態(tài)多樣、光照變化不確定、目標(biāo)背景復(fù)雜,使得設(shè)計(jì)具有魯棒性的特征非常困難。然而,提取特征的質(zhì)量將直接影響分類的準(zhǔn)確性。綜上,傳統(tǒng)檢測方法的效果不穩(wěn)定,容易受到多種因素的影響,難以投入實(shí)際使用。自深度學(xué)習(xí)技術(shù)出現(xiàn)之后,基于卷積神經(jīng)網(wǎng)絡(luò)的目標(biāo)檢測方法取得了巨大的突破。其中最受關(guān)注的2 個(gè)方向有:①以RCNN 為代表的基于區(qū)域建議的深度學(xué)習(xí)目標(biāo)檢測方 法,例 如R-CNN、Fast R-CNN[37]、Faster RCNN[38]和Cascade R-CNN[39]等。它們是兩階段檢測器,需要先使用啟發(fā)式方法或卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Networks,CNN)產(chǎn)生區(qū)域建議,然后在該區(qū)域內(nèi)進(jìn)行分類與回歸操作。②以YOLO(You Only Look Once)[40]為代表的基于回歸思想的深度學(xué)習(xí)目標(biāo)檢測方法,例如SSD(Single Shot MultiBox Detector)[41]、YOLO、RetinaNet[42]、EfficientDet[43]、CenterNet[44]和FCOS(Fully Convolutional One Stage)[45]等。它們是單階段檢測器,僅使用一個(gè)CNN 網(wǎng)絡(luò)就直接預(yù)測不同目標(biāo)的類別與位置信息。在語義分割方面,F(xiàn)CN 在抽象的特征信息中恢復(fù)出每個(gè)像素的所屬類別,即從圖像級的分類進(jìn)一步延伸至像素級。盡管與傳統(tǒng)的語義分割方法相比性能有所提升,但仍存在分類結(jié)果不夠準(zhǔn)確,對圖像中細(xì)節(jié)信息不敏感,像素之間相關(guān)性考慮不足等問題。在后續(xù)的研究中,已提出了多種更加優(yōu)秀的網(wǎng)絡(luò)結(jié)構(gòu),其中常見的語義分割模型包括U-Net[46]、Seg-Net[47]和Mask R-CNN[48]等。目標(biāo)檢測與語義分割方法的發(fā)展歷程如圖1所示,2008年及以前為傳統(tǒng)目標(biāo)檢測方法;2014 年及以后為深度學(xué)習(xí)方法,時(shí)間軸的上方為兩階段目標(biāo)檢測與語義分割方法,下方為單階段目標(biāo)檢測方法。本文將依據(jù)不同的網(wǎng)絡(luò)模型進(jìn)行歸類,闡述它們在無人機(jī)航拍影像中的對比、改進(jìn)和應(yīng)用。
圖1 目標(biāo)檢測與語義分割方法的發(fā)展歷程Fig.1 Development history of object detection and semantic segmentation methods
最早的兩階段檢測方法是R-CNN,它由候選區(qū)域建議和CNN 組成,奠定了以后的目標(biāo)檢測方法的基礎(chǔ)。R-CNN 采用選擇性搜索算法對輸入圖像進(jìn)行分割,獲取了大量的目標(biāo)候選區(qū)域。由于需要對所有的候選區(qū)域進(jìn)行特征提取,因此計(jì)算復(fù)雜且非常耗時(shí)。網(wǎng)絡(luò)中的全連接層需要保證輸入的大小統(tǒng)一,圖像經(jīng)過裁剪和縮放等處理會導(dǎo)致畸變,影響檢測效果。He等[49]提出了SPP-Net 網(wǎng)絡(luò),在R-CNN 的末端添加了空間金字塔池化(Spatial Pyramid Pooling,SPP)模塊,避免了對輸入大小的限制,使得網(wǎng)絡(luò)可以輸入任意尺寸的圖像。該網(wǎng)絡(luò)通過對整幅圖像的處理,獲取了固定長度的特征向量,檢測速度明顯提升。Fast R-CNN 借鑒了SPPNet 中金字塔池化的思想,提出了感興趣區(qū)域(Region of Interest,RoI)池化層,并且使用Softmax 層替換了SVM 用于分類。但是,該算法仍采用選擇性搜索策略提取候選區(qū)域,過程復(fù)雜耗時(shí)。Faster R-CNN 提出了創(chuàng)新的區(qū)域建議網(wǎng)絡(luò)(Region Proposal Network,RPN),利用與Fast R-CNN 共享的卷積層直接獲取候選區(qū)域,大幅降低了計(jì)算成本,提高了檢測速度。Cascade R-CNN 針對檢測過程中交并比(Intersection over Union,IoU)閾值的選取問題進(jìn)行了改進(jìn)。它由3 個(gè)級聯(lián)的檢測頭組成,每個(gè)檢測頭在訓(xùn)練和測試時(shí)設(shè)置了不同大小的IoU 閾值,邊界框回歸在經(jīng)過3 次修正之后,得到了良好的預(yù)測效果。
無人機(jī)航拍影像目標(biāo)檢測方法的相關(guān)研究中,常使用的兩階段檢測器有Faster R-CNN 和Cascade R-CNN。
2.1.1 無人機(jī)航拍影像目標(biāo)檢測的改進(jìn)Faster R-CNN 算法
奚祥書等[50]研究了基于多光譜數(shù)據(jù)的不同降維方法處理對無人機(jī)航拍影像中樹木冠層檢測效果的影響。在實(shí)驗(yàn)過程中,通過特征波段選擇、特征提取和波段組合的方法生成5 種不同的數(shù)據(jù)集,用于FPN-Faster-R-CNN、YOLOv3 和Faster R-CNN 檢測器的訓(xùn)練。結(jié)果表明,若降維后影像中目標(biāo)物體顏色與背景差異明顯且輪廓清晰,會更有利于深度學(xué)習(xí)網(wǎng)絡(luò)提取樹木冠層的特征,獲得更好的預(yù)測結(jié)果。
為了準(zhǔn)確快速地確定害蟲在葉片上的啃食區(qū)域,以便做出及時(shí)的防治。Du 等[51]在Faster R-CNN 的基礎(chǔ)上提出了Pest R-CNN 檢測模型。Pest R-CNN 由特征提取模塊、區(qū)域建議網(wǎng)絡(luò)和預(yù)測頭組成。特征提取模塊中,增加了輸出特征圖的數(shù)量,增強(qiáng)了多尺度特征融合,擴(kuò)張了感受野,提高了泛化性。在區(qū)域建議網(wǎng)絡(luò)中,添加了通道注意力模塊(Channel Attention Module,CAM)和空間注意力模塊(Spatial Attention Module,SAM),用于向害蟲啃食位置提供更高的權(quán)重,突出該位置的語義信息。
為了提高無人機(jī)圖像中絕緣子缺陷識別的檢測精度,Tang 等[52]提出了一種改進(jìn)的基于Faster R-CNN 的檢測方法。進(jìn)行了如下3 處改進(jìn):①使用ResNet-50 網(wǎng)絡(luò)作為模型主干;②使用FPN 網(wǎng)絡(luò)融合多層特征;③使用RoIAlign 方法對RoI 池化層進(jìn)行替換。這些改進(jìn)有利于緩解梯度消失或梯度爆炸的問題,使淺層網(wǎng)絡(luò)中的位置信息和深層網(wǎng)絡(luò)中的語義信息更好地融合,解決了RoI 池化層兩次量化所引入的誤差。
由于無人機(jī)圖像中車輛等目標(biāo)尺寸普遍較小,在經(jīng)過多層的卷積神經(jīng)網(wǎng)絡(luò)之后容易導(dǎo)致細(xì)節(jié)信息嚴(yán)重丟失。針對上述問題,Wang 等[53]改進(jìn)了Faster R-CNN 網(wǎng)絡(luò)結(jié)構(gòu),使其能夠更好地提取小目標(biāo)的詳細(xì)信息。首先,增加了主干輸出特征圖的數(shù)量,補(bǔ)充了小目標(biāo)的紋理特征,然后,根據(jù)訓(xùn)練圖像中待檢測目標(biāo)的直方圖分布,增加了錨框數(shù)量,調(diào)整了錨框參數(shù)。
在分析無人機(jī)航拍影像時(shí),由于無人機(jī)飛行時(shí)相機(jī)會抖動,影響影像的質(zhì)量。常見的解決方案是在不同尺度上分析輸入圖像,以獲得盡可能多的信息來正確地檢測和跟蹤視頻序列中的目標(biāo)。Avola 等[54]提出了MS-Faster R-CNN 網(wǎng)絡(luò),這是一種多數(shù)據(jù)流(Multi-Stream,MS)結(jié)構(gòu)。首先,利用MS 卷積神經(jīng)網(wǎng)絡(luò)從給定的某幀畫面中獲取目標(biāo)的多尺度特征,然后,通過Faster R-CNN 提取特征映射,預(yù)測目標(biāo)的邊界框,最后,使用Deep Sort跟蹤算法實(shí)現(xiàn)整個(gè)視頻中目標(biāo)的跟蹤。
Ding 等[55]提出了一種在無人機(jī)航拍影像中針對倒塌建筑物的目標(biāo)檢測方法。通常情況下倒塌建筑物分布在邊界模糊且沒有特定幾何形狀的大范圍內(nèi),導(dǎo)致標(biāo)記數(shù)據(jù)的主觀性影響很大。盡管非極大值抑制(Non-Maximum Suppression,NMS)方法在后處理過程中消除了大多數(shù)檢測到的重疊預(yù)測框,但是不規(guī)則的目標(biāo)形狀會造成預(yù)測框之間相互嵌套。此外,以倒塌的建筑物為目標(biāo)的檢測結(jié)果難以評價(jià),可能出現(xiàn)一個(gè)真實(shí)框?qū)?yīng)多個(gè)預(yù)測框,或者多個(gè)真實(shí)框?qū)?yīng)一個(gè)預(yù)測框的問題。因此在Faster R-CNN 的基礎(chǔ)框架上引入了可形變卷積(Deformable Convolution,DConv),用于學(xué)習(xí)不規(guī)則幾何特征的相關(guān)信息,提高對任意形狀倒塌建筑物的適應(yīng)性。提出了目標(biāo)相交比(Intersected Proportion of Objects,IPO)替代傳統(tǒng)的IoU 指標(biāo),用于衡量預(yù)測框之間的重合程度,并作為NMS 的判斷依據(jù)。
大型起重機(jī)設(shè)備表面的金屬結(jié)構(gòu)復(fù)雜,并且不同位置之間可能存在較大的光照差異。為了實(shí)現(xiàn)對這類設(shè)備表面裂紋的準(zhǔn)確檢測,Zhou 等[56]提出了一種適用于無人機(jī)航拍影像的檢測方法。該方法采用Faster R-CNN 對裂紋區(qū)域進(jìn)行檢測,通過最大熵閾值分割、Canny 邊緣檢測算子和投影特征提取等方法識別裂紋的長度、寬度、面積和縱橫比等參數(shù)。
表1 總結(jié)了上述不同場景下改進(jìn)的Faster R-CNN 無人機(jī)航拍影像目標(biāo)檢測方法。
表1 不同場景下改進(jìn)的Faster R-CNN 無人機(jī)航拍影像目標(biāo)檢測方法Table 1 Improved Faster R-CNN object detection method for UAV aerial images in different scenarios
2.1.2 無人機(jī)航拍影像目標(biāo)檢測的改進(jìn)Cascade R-CNN 算法
無人機(jī)航拍影像中的目標(biāo)小而密集,場景復(fù)雜,這些一直都是目標(biāo)檢測的難點(diǎn)。Huang 等[57]針對上述問題,提出了一種基于Cascade R-CNN的目標(biāo)檢測方法。該方法針對不同的目標(biāo)類別對檢測頭進(jìn)行了細(xì)分,使其可以更好地提取邊緣幀并對邊緣幀進(jìn)行精確地調(diào)整,提供更準(zhǔn)確的感興趣區(qū)域,提高檢測結(jié)果的可靠性。
為了準(zhǔn)確定位和識別高壓輸電線路中防振錘等部件的缺陷,Bao 等[58]提出了一種基于Cascade R-CNN 的防振錘缺陷檢測方法。首先,通過對數(shù)據(jù)集進(jìn)行預(yù)處理,提高網(wǎng)絡(luò)的泛化性,然后,使用ResNeXt-101 網(wǎng)絡(luò)作為主干,加入FPN模塊進(jìn)行多尺度特征融合,最后,使用Focal Loss損失函數(shù)改善RPN 模塊的分類損失,解決正負(fù)樣本不平衡的問題。
由于無人機(jī)飛行高度和姿態(tài)的變化,無人機(jī)圖像中目標(biāo)尺度存在較大的差異,這給目標(biāo)檢測帶來了很大的挑戰(zhàn)。針對上述問題Lin 等[59]提出了ECascade-RCNN 目標(biāo)檢測網(wǎng)絡(luò)。該網(wǎng)絡(luò)由Trident-FPN 主干、RPN 和級聯(lián)雙頭檢測器組成。依據(jù)無人機(jī)航拍影像中目標(biāo)尺寸的分布特點(diǎn),重新聚類RPN 中的錨框,獲得更精細(xì)化的參數(shù)。
李鑫等[60]提出了一種改進(jìn)的Cascade RCNN 多目標(biāo)檢測方法,用于解決無人機(jī)航拍影像中小目標(biāo)、物體遮擋和正負(fù)樣本不平衡的問題。以ResNet-101 網(wǎng)絡(luò)為主干,設(shè)計(jì)了一種新的特征金字塔網(wǎng)絡(luò)。在后處理過程中使用Soft-NMS方法抑制冗余預(yù)測框,緩解了目標(biāo)遮擋的問題。在計(jì)算目標(biāo)回歸的損失時(shí),利用Focal Loss 思想,提升了模型的泛化性。針對無人機(jī)航拍影像中目標(biāo)尺度變化大、分布差異明顯、背景復(fù)雜和存在大量遮擋等特點(diǎn),張瑞倩等[61]在Cascade RCNN 和Faster R-CNN 算法的基礎(chǔ)上,添加了多尺度空洞卷積,用于擴(kuò)大模型的感受野,提升在復(fù)雜背景下的檢測精度。
表2 總結(jié)了上述不同場景下改進(jìn)的Cascade R-CNN 無人機(jī)航拍影像目標(biāo)檢測方法。
表2 不同場景下改進(jìn)的Cascade R-CNN 無人機(jī)航拍影像目標(biāo)檢測方法Table 2 Improved Cascade R-CNN object detection method for UAV aerial images in different scenarios
本節(jié)主要介紹了基于Faster R-CNN 和Cascade R-CNN 的無人機(jī)航拍影像目標(biāo)檢測方法。這些方法的改進(jìn)策略大多集中在模型的主干和頸部,其中也包括一些針對激活函數(shù)和損失函數(shù)的改進(jìn)。改進(jìn)的目的是為了加快模型的運(yùn)算速度,同時(shí)保持良好的檢測精度。經(jīng)過優(yōu)化后的檢測器,在無人機(jī)航拍影像上有著更加優(yōu)秀的表現(xiàn)。
隨著目標(biāo)檢測技術(shù)在工業(yè)中的應(yīng)用越來越多,效率與實(shí)時(shí)性的需求不斷提高。SSD 在一定程度上克服了之前YOLO 算法難以檢測小目標(biāo)和定位不準(zhǔn)確的問題。它使用卷積層在不同尺度的特征圖中獲得運(yùn)算結(jié)果,受Faster R-CNN中錨框的啟發(fā),預(yù)設(shè)了不同長寬比的先驗(yàn)框,降低了訓(xùn)練難度。需要注意的是,SSD 的一些參數(shù)無法在訓(xùn)練過程中學(xué)習(xí)得到,必須人工設(shè)置。此外,SSD 雖然采用了特征金字塔的層次結(jié)構(gòu),但仍難以處理大尺度的變化,在檢測小物體時(shí)尤其明顯。YOLOv2[62]與YOLO 相比,使用了新的分類網(wǎng)絡(luò),借鑒了Network in Network[63]的思路,3×3 與1×1 的卷積操作交替進(jìn)行,以壓縮特征圖的通道數(shù),使用批歸一化策略加快了模型的收斂速度,保留了跳躍連接路徑用于存儲淺層的網(wǎng)絡(luò)信息。與YOLO 相比,YOLOv2 的檢測精度雖然提升了許多,但是難以投入實(shí)際使用。He 等提出了Focal Loss 損失函數(shù),通過控制正負(fù)樣本和難易分類樣本之間的權(quán)重來解決單階段目標(biāo)檢測器中的樣本不平衡問題。設(shè)計(jì)了RetinaNet檢測器驗(yàn)證有效性,它的結(jié)構(gòu)簡單,但生成預(yù)測框數(shù)量非常多,通常需要額外的階段來完成圖像分類任務(wù)。YOLOv3[64]的主干為DarkNet53,使用的殘差結(jié)構(gòu)有效地增加了網(wǎng)絡(luò)深度并緩解了梯度消失的問題,在頸部融合了不同尺度的特征圖,它們分別位于主干中間層、中下層和底層,這有利于更好地捕獲目標(biāo)的淺層位置信息和深層語義信息,提高檢測精度。YOLOv3 使用Leaky-ReLU 激活函數(shù),解決了Dead ReLU 問題,但是該激活函數(shù)在深層網(wǎng)絡(luò)中性能容易下降。EfficientDet 采用EfficientNet 為主干,加權(quán)雙向特征金字塔網(wǎng)絡(luò)(Bidirectional Feature Pyramid Network,BiFPN)為頸部,按照模型尺寸從小到大劃分為D0~D7,共計(jì)8 個(gè)版本。模型通過增加輸入圖片的分辨率和深層的網(wǎng)絡(luò)結(jié)構(gòu)獲取了更抽象的特征信息,但是在訓(xùn)練和預(yù)測時(shí),需要花費(fèi)更多的時(shí)間來完成圖像的推理工作?;阱^框的檢測器的性能非常容易受到錨框大小、縱橫比和數(shù)量等因素的影響。在處理小目標(biāo)時(shí),錨框往往還需要依據(jù)對象的特征而重新設(shè)定,這會阻礙模型的泛化能力。并且,錨框也會涉及一些復(fù)雜的計(jì)算,例如計(jì)算真實(shí)框與預(yù)測框之間的IoU 值等。針對上述問題,提出了CenterNet 和FCOS 檢測模型。CenterNet 采用關(guān)鍵點(diǎn)估計(jì)來尋找物體的中心點(diǎn),并通過回歸的方法獲取物體的其他屬性。FCOS 采用特征金字塔網(wǎng)絡(luò)處理多尺度目標(biāo)的邊界框,使用中心度分支彌補(bǔ)預(yù)測像素點(diǎn)與對應(yīng)邊界框中心點(diǎn)的誤差。此外,F(xiàn)COS 可以被拓展應(yīng)用到兩階段檢測方法中,例如作為Faste R-CNN的區(qū)域建議網(wǎng)絡(luò)取得了良好的性能提升。YOLOv4[65]、YOLOv5 和YOLOX[66]是YOLOv3 的后續(xù)版本,改進(jìn)主要分布在模型的主干、頸部和頭部,整體在運(yùn)算速度與檢測精度方面均有所提升,并且對同一模型按照總參數(shù)量的大小進(jìn)行了細(xì)分,使其可以更好地應(yīng)用于不同的需求場景。
在無人機(jī)航拍影像目標(biāo)檢測方法的研究中,常使用的單階段檢測器有SSD、YOLOv2、RetinaNet、YOLOv3、EfficientDet、CenterNet、FCOS、YOLOv4、YOLOv5 和YOLOX 等。
2.2.1 無人機(jī)航拍影像目標(biāo)檢測的改進(jìn)SSD算法
Rampriya 等[67]利用無人機(jī)航拍影像制作了鐵路障礙物檢測數(shù)據(jù)集,包含了6 種鐵路上常見的障礙物類別。利用該數(shù)據(jù)集對CenterNet、SSD、Faster R-CNN 和YOLOv3 檢測器進(jìn)行了評估。此外,對比了EfficientNet、MobileNet V2 和ResNet-50 3 種不同主干SSD 模型的檢測效果。實(shí)驗(yàn)結(jié)果表明,基于MobileNet V2 的SSD 模型在檢測精度和召回率等方面表現(xiàn)最佳。
為了提高無人機(jī)航拍影像中小目標(biāo)檢測的準(zhǔn)確性,Liu 等[68]提出了CBSSD 目標(biāo)檢測方法。CBSSD 在VGG-16 的基礎(chǔ)上,增加了ResNet-50 網(wǎng)絡(luò)作為輔助主干,提高了特征提取能力,有利于保留更加豐富的語義信息。CBSSD 模型擁有更高的識別率和更低的誤檢率,在低光照的條件下仍能保持良好的檢測效果。裴偉等[69]為提高模型對小目標(biāo)的檢測精度,減少漏檢與重復(fù)檢測,提出了R-SSD 和CI-SSD 目標(biāo)檢測方法。R-SSD 使用ResNet-50 替換了原先的VGG-16 網(wǎng)絡(luò),提高了特征提取能力,降低了訓(xùn)練難度。CI-SSD 利用空洞卷積和反卷積操作擴(kuò)大了模型的感受野,融合了不同層間的特征信息,增強(qiáng)了模型的泛化性。無人機(jī)捕獲的航拍影像分辨率高,其中車輛等小尺寸目標(biāo)特征點(diǎn)分布較為稀疏。針對該問題,李旭等[70]提出了一種基于目標(biāo)空間分布特征的無人機(jī)航拍影像車輛檢測網(wǎng)絡(luò)DF-Net。DF-Net 由E-SSD 檢測器和航拍車輛密度估計(jì)網(wǎng)絡(luò)組成。E-SSD 以SSD 為基礎(chǔ),調(diào)整了錨框參數(shù),使用深度可分離卷積替換了原先的3×3 卷積,并且在特征圖下采樣操作前添加了抗混疊低通濾波器。航拍車輛密度估計(jì)網(wǎng)絡(luò)基于條件生成對抗網(wǎng)絡(luò)的思想,用于獲取車輛準(zhǔn)確的分布特征,便于后續(xù)的圖像切分處理。
無人機(jī)視頻車輛檢測容易受到視頻質(zhì)量、天氣環(huán)境等客觀因素的影響,導(dǎo)致檢測結(jié)果較差。針對該問題,Wang 等[71]提出了一種基于深度學(xué)習(xí)的無人機(jī)航拍影像車輛檢測方法。首先,對原始采集到的圖像進(jìn)行HSV(Hue、Saturation、Value)空間亮度平移,以增強(qiáng)對不同光照條件和樣本多樣性的適應(yīng)能力,然后,以SSD 檢測器為基礎(chǔ),引入焦點(diǎn)損失進(jìn)行優(yōu)化,用于提高模型的檢測精度。
表3 總結(jié)了上述不同場景下改進(jìn)的SSD 無人機(jī)航拍影像目標(biāo)檢測方法。
表3 不同場景下改進(jìn)的SSD 無人機(jī)航拍影像目標(biāo)檢測方法Table 3 Improved SSD object detection method for UAV aerial images in different scenarios
2.2.2 無人機(jī)航拍影像目標(biāo)檢測的改進(jìn)YOLOv2 算法
Jawaharlalnehru 等[72]針對無人機(jī)航拍影像目標(biāo)檢測中多尺度目標(biāo)定位精度低、檢測速度慢和目標(biāo)漏檢等問題,提出了一種改進(jìn)的YOLOv2算法。為了使錨框參數(shù)適應(yīng)具體的檢測任務(wù),重新對自制的航拍檢測數(shù)據(jù)集進(jìn)行了聚類。在網(wǎng)絡(luò)的訓(xùn)練過程中,每間隔10 個(gè)輪次改變模型輸入的大小,提高了對不同尺度圖像的魯棒性。
Javed 等[73]利用通道剪枝和深度可分離卷積等壓縮技術(shù)改進(jìn)了Tiny-YOLOv2 檢測器,提出了QuantYOLO 目標(biāo)檢測方法,適用于資源和功率受限的無人機(jī)部署平臺。QuantYOLO 很好地平衡了吞吐量和檢測精度之間的關(guān)系,實(shí)現(xiàn)了低功耗和實(shí)時(shí)的目標(biāo)檢測。
表4 總結(jié)了上述不同場景下改進(jìn)的YOLOv2 無人機(jī)航拍影像目標(biāo)檢測方法。
表4 不同場景下改進(jìn)的YOLOv2 無人機(jī)航拍影像目標(biāo)檢測方法Table 4 Improved YOLOv2 object detection method for UAV aerial images in different scenarios
2.2.3 無人機(jī)航拍影像目標(biāo)檢測的改進(jìn)RetinaNet 算法
Liu 等[74]提出了一種基于RetinaNet 的目標(biāo)檢測模型,用于無人機(jī)電力線巡檢中相關(guān)目標(biāo)的檢測。該模型采用K-Means++算法在目標(biāo)數(shù)據(jù)集上重新聚類,獲取了更加匹配的錨框。使用DenseNet-121 網(wǎng)絡(luò)作為模型的主干,有助于提高檢測精度,使得模型更加輕量化。
Purcell 等[75]研究了RetinaNet 算法在無人機(jī)視頻片段中檢測鯊魚種類的能力。分別使用了ResNet-50 和MobileNet V1 網(wǎng)絡(luò)作為模型主干。其中,MobileNet V1 網(wǎng)絡(luò)在處理小目標(biāo)時(shí)性能會下降,因此在部署前需要仔細(xì)對其參數(shù)進(jìn)行調(diào)整。為確保檢測結(jié)果可靠,建議最佳的無人機(jī)飛行高度應(yīng)保持在25~50 m。Takaya 等[76]研究了使用RetinaNet 網(wǎng)絡(luò)檢測海灘上海洋廢棄物的可行性。首先,使用無人機(jī)在目標(biāo)區(qū)域按照指定高度采集航拍影像,然后,對采集到的圖片進(jìn)行標(biāo)注,劃分為人為海洋碎片和自然物體,最后,評估RetinaNet 在其上的表現(xiàn)。實(shí)驗(yàn)結(jié)果證實(shí)了方法的可行性,但是難以檢測塑料制品碎片這樣的小目標(biāo),并且模型靈敏度低,存在過多的假陰性。
李洪瑤等[77]提出了一種多無人協(xié)同的目標(biāo)檢測方法。該方法在單架無人機(jī)上利用改進(jìn)的RetinaNet 網(wǎng)絡(luò)檢測特定目標(biāo),然后對多架無人機(jī)的預(yù)測結(jié)果進(jìn)行拼接以完成大規(guī)模巡查任務(wù)。改進(jìn)包括如下3 點(diǎn):①增加了錨框數(shù)量并調(diào)整了寬高比;②優(yōu)化了正負(fù)樣本的閾值區(qū)間和損失函數(shù);③利用遷移學(xué)習(xí)的策略,擴(kuò)充了用于訓(xùn)練的圖片數(shù)量。
表5 總結(jié)了上述不同場景下改進(jìn)的RetinaNet 無人機(jī)航拍影像目標(biāo)檢測方法。
表5 不同場景下改進(jìn)的RetinaNet 無人機(jī)航拍影像目標(biāo)檢測方法Table 5 Improved RetinaNet object detection method for UAV aerial images in different scenarios
2.2.4 無人機(jī)航拍影像目標(biāo)檢測的改進(jìn)YOLOv3 算法
Cheng 等[78]基于無人機(jī)航拍影像,對Faster R-CNN 和YOLOv3 目標(biāo)檢測算法進(jìn)行了對比,在相同的數(shù)據(jù)集和硬件環(huán)境下,根據(jù)比較平均準(zhǔn)確率和檢測時(shí)間來幫助選擇符合實(shí)際需求的算法。如果用戶需要更高的檢測精度,F(xiàn)aster RCNN 更加適合;如果對檢測速度的要求更加緊迫,那么在保證一定準(zhǔn)確率的前提下,YOLOv3是更好的選擇。
Junos 等[79]以無人機(jī)航拍影像中棕櫚果為目標(biāo)提出了YOLO-P 檢測模型。為了提高模型的魯棒性,使用亮度調(diào)整、旋轉(zhuǎn)形變和模糊處理等方法對訓(xùn)練圖片進(jìn)行了數(shù)據(jù)增強(qiáng),用于模擬實(shí)際的自然環(huán)境情況。YOLO-P 在YOLOv3-Tiny的基礎(chǔ)上,在主干中使用了密集卷積網(wǎng)絡(luò)、Swish激活函數(shù)、增加了小目標(biāo)檢測層并且依據(jù)目標(biāo)數(shù)據(jù)集利用K-Means 算法重新確定錨框的大小。
針對無人機(jī)電力線巡檢過程中絕緣子缺陷檢測準(zhǔn)確率低的問題,Yang 等[80]提出了一種改進(jìn)的YOLOv3 網(wǎng)絡(luò)。為了提高對小目標(biāo)的識別精度,將YOLOv3 中原先單向信息流的特征金字塔結(jié)構(gòu)改進(jìn)為雙向融合網(wǎng)絡(luò)。為了使預(yù)測框更加逼近真實(shí)框,引入了高效交并比(Efficient Intersection over Union,EIOU)損失。針對檢測精度、運(yùn)行時(shí)間和存儲空間之間的平衡問題,Liu等[11]提出了MTI-YOLO 目標(biāo)檢測方法。該方法針對無人機(jī)電力線巡檢中絕緣子等目標(biāo),在YOLOv3-Tiny 的基礎(chǔ)上添加了多尺度特征檢測頭、多尺度特征融合結(jié)構(gòu)和SPP 模塊。以上改進(jìn),有助于獲取關(guān)于絕緣子等目標(biāo)更加有針對性的語義信息,提高了對不同尺寸絕緣子的檢測精度,改善了特征的表達(dá)效果。
Zhu 等[81]提出了利用無人機(jī)進(jìn)行路面破損的檢測方法,搭建了圖像采集平臺,并對無人機(jī)的飛行設(shè)置進(jìn)行了研究。針對6 種道路病害問題,采集了相關(guān)的航拍影像,制作了路面航拍圖像數(shù)據(jù)集,對比了Faster R-CNN、YOLOv3 和YOLOv4 等目標(biāo)檢測算法對路面破損的分類和定位效果。實(shí)驗(yàn)結(jié)果表明,YOLOv3 對陰影、樹木和路面標(biāo)記等不同環(huán)境下的裂縫檢測具有較強(qiáng)的魯棒性。
Sahin 等[82]研究了YOLO 網(wǎng)絡(luò)架構(gòu)的改變對無人機(jī)航拍影像中小目標(biāo)檢測效果的影響,并在YOLOv3 的基礎(chǔ)上進(jìn)行了改進(jìn),提出了YOLODrone 目標(biāo)檢測方法。該方法將原先3 個(gè)不同尺度的輸出層進(jìn)行了擴(kuò)充,增加至5 個(gè)。這有助于獲取更多的位置信息,提高對小目標(biāo)的定位效果,加強(qiáng)模型多尺度特征融合的能力。
劉芳等[83]提出了一種基于YOLOv3 的無人機(jī)航拍影像目標(biāo)檢測方法,用于解決無人機(jī)航拍影像中小目標(biāo)檢測困難的問題。首先,利用多尺度卷積(Mutil-Scale Convolution,MSConv)替換標(biāo)準(zhǔn)卷積,構(gòu)建了自適應(yīng)特征提取網(wǎng)絡(luò)MSDark-Net-53,然后,在主干的殘差結(jié)構(gòu)中添加了卷積塊注意力模塊(Convolutional Block Attention Module,CBAM)來獲取空間和通道維度中的特征權(quán)重,最后,擴(kuò)展了主干的輸出,并將所有的特征圖調(diào)整至相同大小,用于對小目標(biāo)的精細(xì)檢測。針對無人機(jī)航拍影像中小目標(biāo)漏檢率和誤檢率高的問題,蒲良等[84]提出了一種基于YOLOv3-Tiny 的目標(biāo)檢測方法。該方法在主干中的不同位置添加了1×1 和3×3 的卷積層,增加了主干輸出特征圖的數(shù)量,并對K-Means 聚類算法進(jìn)行了優(yōu)化。
表6 總結(jié)了上述不同場景下改進(jìn)的YOLOv3無人機(jī)航拍影像目標(biāo)檢測方法。
表6 不同場景下改進(jìn)的YOLOv3 無人機(jī)航拍影像目標(biāo)檢測方法Table 6 Improved YOLOv3 object detection method for UAV aerial images in different scenarios
2.2.5 無人機(jī)航拍影像目標(biāo)檢測的改進(jìn)EfficientDet 算法
無人機(jī)航拍影像的小目標(biāo)檢測在實(shí)際應(yīng)用中是一項(xiàng)具有挑戰(zhàn)性的任務(wù),檢測結(jié)果容易受復(fù)雜背景、高密度區(qū)域和隨機(jī)紋理等因素的干擾。Tseng 等[85]對比了HOG-SVM、EfficientDet 和Faster R-CNN 在無人機(jī)航拍影像中水稻幼苗的檢測效果。實(shí)驗(yàn)結(jié)果表明,使用支持向量機(jī)分類的模型,它的計(jì)算復(fù)雜度會隨樣本數(shù)量的大小呈指數(shù)增長,在實(shí)際應(yīng)用中存在一定的缺陷?;诰矸e神經(jīng)網(wǎng)絡(luò)的模型具有更好的泛化性和良好的實(shí)時(shí)性,在不同成像條件的測試集上,EfficientDet 擁有最佳的檢測精度。
Aldahoul 等[86]建立了一個(gè)基于EfficientDet-D7 用于人體檢測和人體活動識別的系統(tǒng)。首先,對比了EfficientDet、YOLO 和Faster R-CNN 在COCO 數(shù)據(jù)集上訓(xùn)練用于人體檢測的效果,然后,對比了不同版本的EfficientDet,如D0、D4 和D7,在UCF-ARG 無人機(jī)航拍影像數(shù)據(jù)集中對揮手、行走和奔跑等行為的識別能力,最后,通過添加水平翻轉(zhuǎn)、模糊處理、高斯噪聲和明暗變化等數(shù)據(jù)增強(qiáng)方法,驗(yàn)證了EfficientDet-D7 的魯棒性。由于無人機(jī)高空成像的原因,在航拍影像中可能僅有0.1%~0.2%的部分為待檢測的目標(biāo)。Dousai 等[87]針對感興趣區(qū)域覆蓋率低的問題,提出了一種基于EfficientDet 結(jié)構(gòu)的目標(biāo)檢測模型。該模型的頸部由BiFPN 和全連接特征金字塔網(wǎng)絡(luò)(Fully Connected Feature Pyramid Network,F(xiàn)C-FPN)級聯(lián)組成,取得了在HERIDAL數(shù)據(jù)集上以人類為目標(biāo)的最高準(zhǔn)確率結(jié)果。
表7 總結(jié)了上述不同場景下改進(jìn)的Efficient-Det 無人機(jī)航拍影像目標(biāo)檢測方法。
表7 不同場景下改進(jìn)的EfficientDet 無人機(jī)航拍影像目標(biāo)檢測方法Table 7 Improved EfficientDet object detection method for UAV aerial images in different scenarios
2.2.6 無人機(jī)航拍影像目標(biāo)檢測的改進(jìn)CenterNet 算法
Xia等[88]提出了一種基于MobileNet-CenterNet的絕緣子檢測模型,用于解決無人機(jī)電力線巡檢過程中絕緣子等目標(biāo)檢測精度低、實(shí)時(shí)性差等問題。該模型使用MobileNet V1 輕量化網(wǎng)絡(luò)作為主干,在不同位置添加了CBAM 注意力模塊,利用DIOU-NMS(Distance-Intersection over Union-NMS,DIOU-NMS)抑制冗余預(yù)測框,并增加了3 個(gè)基于轉(zhuǎn)置卷積的上采樣層。
與自然影像相比,無人機(jī)航拍影像中目標(biāo)類型分布不均,并且物體的方向、形狀和比例差異更大。針對上述問題,Albaba 等[89]提出了SyNet目標(biāo)檢測網(wǎng)絡(luò)。SyNet 利用圖像增強(qiáng)技術(shù)處理樣本類別不均衡的問題,通過單階段與多階段檢測方法相互協(xié)同的策略,結(jié)合CenterNet 和Cascade R-CNN 檢測器,提升了對小目標(biāo)的預(yù)測效果。劉鑫等[90]針對在復(fù)雜背景下小目標(biāo)特征信息學(xué)習(xí)困難的問題,提出了MSA-CenterNet 檢測方法。MSA-CenterNet 在CenterNet 的基礎(chǔ)上添加了自適應(yīng)(Modified Self-Adaptive,MSA)基礎(chǔ)模塊和升維全局上下文注意力模塊(Global Context-Block,GC-Block),并在模型的頭部使用了深度可分離卷積和Mish 激活函數(shù)。這些改進(jìn)有助于抑制冗余的特征表達(dá),強(qiáng)化關(guān)鍵點(diǎn)的語義信息。由于高分辨率的無人機(jī)航拍影像在輸入網(wǎng)絡(luò)時(shí),圖像壓縮造成了小目標(biāo)的遺失,不利于目標(biāo)特征的提取。針對上述問題,王勝科等[91]提出了一種基于CenterNet 的檢測模型。該方法通過剪裁對圖像進(jìn)行預(yù)處理,用于獲取合適的輸入尺寸。在主干中引入了雙重注意力機(jī)制,以提高對小目標(biāo)的特征表達(dá)能力。使用GIOU(Generalized Intersection over Union)作為NMS 的判定依據(jù),加強(qiáng)了模型后處理的能力。
表8 總結(jié)了上述不同場景下改進(jìn)的Center-Net 無人機(jī)航拍影像目標(biāo)檢測方法。
表8 不同場景下改進(jìn)的CenterNet 無人機(jī)航拍影像目標(biāo)檢測方法Table 8 Improved CenterNet object detection method for UAV aerial images in different scenarios
2.2.7 無人機(jī)航拍影像目標(biāo)檢測的改進(jìn)FCOS算法
利用無人機(jī)進(jìn)行交通監(jiān)控具有視野廣闊、機(jī)動性強(qiáng)、不影響交通等優(yōu)點(diǎn),但是飛行高度、拍攝角度和復(fù)雜背景等給目標(biāo)的檢測帶來了不小的挑戰(zhàn)。Akshatha 等[92]對比了FCOS 和YOLOv3在無人機(jī)航拍影像中對車輛的檢測效果。基于平均精度的評價(jià)指標(biāo)分析表明,F(xiàn)COS 的表現(xiàn)比YOLOv3 更好。Wang 等[93]利用無人機(jī)采集電力線圖像,建立了絕緣子缺陷檢測數(shù)據(jù)集。該數(shù)據(jù)集由14 074 幅高分辨率圖像和19 113 個(gè)注釋組成?;谠摂?shù)據(jù)集,對比了FCOS、Faster R-CNN和YOLOv4 在缺陷檢測任務(wù)中的性能。此外,給出了一些有助于提高檢測效果的建議:①可以利用數(shù)據(jù)增強(qiáng)的方法彌補(bǔ)訓(xùn)練樣本不足的問題;②通過對原始圖像的剪裁來提高小目標(biāo)的檢測效果;③根據(jù)數(shù)據(jù)集中目標(biāo)的特點(diǎn)對錨框參數(shù)進(jìn)行微調(diào)。
由于無人機(jī)特殊的高空視角,使得圖像中包含了大量的小目標(biāo)。Gao 等[94]提出了一種針對無人機(jī)圖像的單級檢測器。它采用了FOCS 中無錨框的思想,使得正負(fù)樣本的判定更加合理;使用匹配分?jǐn)?shù)圖策略,有助于充分利用特征圖中的相似信息;通過Soft-NMS 方法緩解密集排列造成的漏檢問題,有利于傾斜目標(biāo)的檢測。
針對無人機(jī)輸電線路巡檢中目標(biāo)尺度差異大、背景復(fù)雜等特點(diǎn),Zhao 等[95]提出了一種基于FCOS 的目標(biāo)檢測方法。該方法由特征提取網(wǎng)絡(luò)、特征金字塔網(wǎng)絡(luò)和每個(gè)特征層對應(yīng)的檢測頭組成。在特征金字塔網(wǎng)絡(luò)中,改變了自上而下結(jié)構(gòu)中的部分卷積連接,增加了自下而上的分支結(jié)構(gòu),有利于充分利用語義信息和位置信息,提高小目標(biāo)的檢測性能。在檢測頭通過高斯分布計(jì)算符合目標(biāo)分布的中心權(quán)重,對預(yù)測結(jié)果進(jìn)行修正,實(shí)現(xiàn)了正負(fù)樣本標(biāo)簽的自適應(yīng)分配,減小了復(fù)雜背景對檢測精度的影響。
針對無人機(jī)航拍影像噪聲干擾強(qiáng)、目標(biāo)密集排列的特點(diǎn),張智等[96]提出了一種結(jié)合多幀檢測的車輛檢測方法。該方法對FCOS 網(wǎng)絡(luò)中后處理的操作進(jìn)行了改進(jìn),使用Soft-NMS 抑制相互重疊的預(yù)測框。設(shè)計(jì)了多幀目標(biāo)回歸模塊,用于結(jié)合當(dāng)前幀畫面和鄰近幀中同一物體的特征表示,突出了目標(biāo)信息,削弱了背景噪聲干擾。
表9 總結(jié)了上述不同場景下改進(jìn)的FCOS 無人機(jī)航拍影像目標(biāo)檢測方法。
表9 不同場景下改進(jìn)的FCOS 無人機(jī)航拍影像目標(biāo)檢測方法Table 9 Improved FCOS object detection method for UAV aerial images in different scenarios
2.2.8 無人機(jī)航拍影像目標(biāo)檢測的改進(jìn)YOLOv4 算法
針對無人機(jī)航拍影像背景復(fù)雜、目標(biāo)小并且存在相互遮擋等情況,Tan 等[97]對YOLOv4 進(jìn)行了改進(jìn),提出了YOLOv4_DRONE 檢測模型。首先,在主干中添加了感受野模塊(Receptive Field Block,RFB),擴(kuò)張了模型的感受野,然后,在特征金字塔結(jié)構(gòu)中加入了超輕量級子空間注意力機(jī)制(Ultra-Lightweight Subspace Attention Mechanism,ULSAM),最 后,使 用Soft-NMS 方法緩解因遮擋而造成的目標(biāo)漏檢問題。
Cheng 等[98]針對無人機(jī)航拍過程中因相機(jī)抖動造成的影像模糊問題、光照不均導(dǎo)致的曝光問題以及傳輸過程中產(chǎn)生的噪聲問題,提出了一種改進(jìn)的YOLO 模型。該方法采用了仿射變換、高斯模糊處理和灰度變換等多種數(shù)據(jù)增強(qiáng)方法,加強(qiáng)了YOLOv4 模型的數(shù)據(jù)預(yù)處理能力,有效地緩解了因數(shù)據(jù)量較少而造成的訓(xùn)練困難問題。
Guo 等[10]提出了一種基于改進(jìn)的YOLOv4模型用于輸電線路中防振錘故障的檢測。由于無人機(jī)航拍影像中防振錘這類的小目標(biāo),在經(jīng)過YOLOv4 主干網(wǎng)絡(luò)的多次下采樣之后,容易造成小目標(biāo)特征被遺漏的問題。因此擴(kuò)展了主干輸出的特征層,并添加了RFB 模塊用于加強(qiáng)網(wǎng)絡(luò)的特征提取能力。在模型的頸部,融合了多種尺度大小的特征信息,檢測精度有了明顯提升。Bao 等[99]建立了基于無人機(jī)航拍影像的輸電線路異常減震器數(shù)據(jù)集,其中含了4 種不同類型的減震器,存在生銹、破損和正常等不同情況。針對數(shù)據(jù)集中小目標(biāo)和復(fù)雜背景的特點(diǎn),設(shè)計(jì)了PAM-YOLO 檢測網(wǎng)絡(luò)。PAM-YOLO 以YOLOv4 為基礎(chǔ),在模型的頸部添加了平行混合注意力(Parallel Mixed Attention,PMA)模塊,并使用K-Means 聚類算法重新求取了更加適合的錨框。
在無人機(jī)拍攝的果樹冠層圖像中,由于存在相互粘連和遮擋等情況,影響了檢測器的準(zhǔn)確性。為了提高現(xiàn)實(shí)場景中果樹冠層的識別精度,Zhu 等[100]提出了一種改進(jìn)的YOLOv4 檢測方法。使用MobileNet V3 網(wǎng)絡(luò)作為主干,在模型的不同位置添加了CBAM 注意力模塊,在頸部的末尾添加了自適應(yīng)空間特征融合(Adaptively Spatial Feature Fusion,ASFF)模塊,并且在訓(xùn)練期間使用余弦退火衰減策略調(diào)整學(xué)習(xí)率的大小。針對YOLOv4 算法在無人機(jī)航拍影像中對松材線蟲病變樹木識別效率低的問題,黃麗明等[101]對YOLOv4 的主干和頸部進(jìn)行了改進(jìn)。在主干使用了MobleNet V2 網(wǎng)絡(luò)用于減少參數(shù)數(shù)量,在頸部使用深度可分離卷積替換部分標(biāo)準(zhǔn)卷積并且簡化了PANet 的結(jié)構(gòu),提高了識別速度。
為了實(shí)現(xiàn)無人機(jī)對橋梁裂縫的實(shí)時(shí)檢測,Yu等[102]在YOLOv4 的基礎(chǔ)上提出了YOLOv4-FPM 檢測模型。YOLOv4-FPM 利用Focal Loss 的思想對損失函數(shù)進(jìn)行了優(yōu)化,采用剪枝算法簡化了網(wǎng)絡(luò)結(jié)構(gòu),使用多尺度數(shù)據(jù)集訓(xùn)練網(wǎng)絡(luò)擴(kuò)展了可預(yù)測范圍。實(shí)驗(yàn)結(jié)果表明,改進(jìn)后的方法在檢測精度和模型尺寸方面均取得了提升,可以有效檢測不同大小圖片中的裂縫目標(biāo)。
表10 總結(jié)了上述不同場景下改進(jìn)的YOLOv4 無人機(jī)航拍影像目標(biāo)檢測方法。
表10 不同場景下改進(jìn)的YOLOv4 無人機(jī)航拍影像目標(biāo)檢測方法Table 10 Improved YOLOv4 object detection method for UAV aerial images in different scenarios
2.2.9 無人機(jī)航拍影像目標(biāo)檢測的改進(jìn)YOLOv5 算法
Wu 等[103]針對無人機(jī)航拍影像中小目標(biāo)比例高和背景干擾多等問題,對YOLOv5 算法進(jìn)行改進(jìn)與優(yōu)化,提出了PWR-YOLOv5,用于檢測防振錘和絕緣子等部件的腐蝕情況。PWR-YOLOv5引入了加權(quán)自適應(yīng)路徑聚合網(wǎng)絡(luò)(Weight Adaptive Path Aggregation Network,WA-PANet)、金字塔分裂注意力(Pyramid Split Attention,PSA)模塊和感受性特征增強(qiáng)網(wǎng)絡(luò)(Receptive Feature Enhancement Network,RFENet)。此 外,采 用EIOU 損失函數(shù)計(jì)算邊界框回歸的損失,用于提高網(wǎng)絡(luò)的定位精度和收斂速度。在以往的模型中,常采用特征金字塔結(jié)構(gòu)來改善無人機(jī)航拍影像中小目標(biāo)的漏檢問題,但是關(guān)于小目標(biāo)的信息可能已經(jīng)在特征圖中因下采樣處理而丟失。針對上述問題,Zhu 等[104]基于YOLOv5 提出了UavTinyDet 檢測網(wǎng)絡(luò)。UavTinyDet 的頸部為擴(kuò)展特征金字塔(Expanded Feature Pyramid,EFP)模塊,增加了針對小目標(biāo)的檢測層,保留了充分的位置信息,對小目標(biāo)的檢測更加友好。劉樹東等[105]提出了一種基于倒置殘差注意力的無人機(jī)航拍影像小目標(biāo)檢測方法。該方法使用倒置殘差C3(Inverted Residuals,IRC3)模塊和倒置殘差注意力C3(Inverted Residuals Attention,IRAC3)模塊替換了原先的殘差結(jié)構(gòu),并且添加了多尺度特征融合(Multi-scale Feature Fusion,MFF)模塊。以上改進(jìn)有利于獲取豐富的小目標(biāo)位置信息和深層語義信息,提高了模型的定位效果。無人機(jī)航拍影像中小目標(biāo)實(shí)例多、背景復(fù)雜等特點(diǎn)導(dǎo)致檢測模型特征提取困難,冒國韜等[106]提出了一種基于多尺度分割注意力的目標(biāo)檢測方法MSA-YOLO(Multi-scale Split Attention-YOLO)。其在YOLOv5 的基礎(chǔ)上引入了多尺度分割注意力單元(Multi-scale Split Attention Unit,MSAU)和自適應(yīng)加權(quán)特征融合方法(Adaptive Weighted-feature Fusion,AWF),使得模型可以更具指向性地提取目標(biāo)區(qū)域的關(guān)鍵信息,動態(tài)調(diào)節(jié)各個(gè)特征層之間的權(quán)重大小。
目前,許多檢測方法雖然擁有較高的檢測精度,但是其參數(shù)多、復(fù)雜度高,難以達(dá)到實(shí)時(shí)處理要求。針對上述問題,Li 等[107]設(shè)計(jì)了一種滿足無人機(jī)實(shí)時(shí)檢測需求的輕量級方法。以YOLOv5s為基礎(chǔ),添加了擠壓和激發(fā)(Squeeze-and-Excitation,SE)模塊來提高網(wǎng)絡(luò)的表達(dá)能力,刪除了部分主干中冗余的1×1 卷積來減少模型的參數(shù)數(shù)量,在SPP 模塊中增加了一個(gè)3×3 的最大池化層來提高模型的接收范圍。
針對風(fēng)力機(jī)葉片表面缺陷檢測中存在的檢測能力不足、模型推理時(shí)間長、對小目標(biāo)和長條形狀缺陷識別準(zhǔn)確率低的問題,Zhang 等[108]提出了一種基于YOLOv5 的無人機(jī)航拍影像目標(biāo)檢測方法SOD-YOLO。首先,對風(fēng)力機(jī)葉片圖像進(jìn)行前景分割和霍夫變換,建立缺陷檢測數(shù)據(jù)集,然后,主干增加了小目標(biāo)檢測層,利用KMeans 算法對錨框重新聚類,并添加CBAM 注意力模塊,最后,采用通道剪枝算法降低模型尺寸,提高模型的運(yùn)算速度。在無人機(jī)對風(fēng)力發(fā)電機(jī)進(jìn)行巡檢過程中,精準(zhǔn)定位其槳葉前端是一項(xiàng)具有挑戰(zhàn)性的任務(wù),與此同時(shí),受機(jī)載模塊有限的算力制約,常見方法的檢測效率低下。白健鵬等[109]提出了一種基于輕量級的YOLOv5 風(fēng)力發(fā)電機(jī)槳葉檢測與定位方法。該方法使用ShuffleNet V2 輕量化網(wǎng)絡(luò)作為主干,減少了參數(shù)數(shù)量。設(shè)計(jì)了槳葉葉尖空間定位方法,利用檢測所得的像素坐標(biāo)、無人機(jī)位置與姿態(tài)信息和空間平面的幾何關(guān)系,對槳葉進(jìn)行精準(zhǔn)定位。
針對路面修復(fù)區(qū)域檢測難度大、效率低的問題,Liu 等[7]提出了M-YOLO 目標(biāo)檢測算法。MYOLO 使用MobileNet V3 網(wǎng)絡(luò)替換了YOLOv5s的主干,降低了模型尺寸,提高了目標(biāo)的檢測速度。為了防止圖像失真和小目標(biāo)檢測精度不足的問題,在模型頭部添加了SPP-Net網(wǎng)絡(luò)結(jié)構(gòu)。
針對枯死樹木目標(biāo)小、細(xì)節(jié)信息不明顯的特點(diǎn),Wang 等[110]在YOLOv5 框架的基礎(chǔ)上提出了一種新的輕量級檢測網(wǎng)絡(luò)LDS-YOLO。LDSYOLO 的特征提取模塊重復(fù)利用了之前層的特征信息,在小樣本數(shù)據(jù)集上表現(xiàn)出非常好的抗過擬合性。使用了深度可分離卷積減少模型參數(shù),使其便于在智能終端上進(jìn)行部署。使用了SoftPool 池化操作對SPP 模塊進(jìn)行優(yōu)化,以確保小目標(biāo)在檢測過程中不會被遺漏。Liu 等[111]分析了基于無人機(jī)航拍影像中的玉米雄穗檢測面臨的挑戰(zhàn),針對玉米雄穗目標(biāo)小,形態(tài)變化大、相互重疊等情況,提出了YOLOv5-Tassel 目標(biāo)檢測方法。該方法采用YOLOv5 主干提取雄穗特征,然后使用BiFPN 特征金字塔結(jié)構(gòu)進(jìn)行多尺度特征融合。在模型的頸部添加了SimAM 注意力模塊,并且增加了檢測頭的數(shù)量,增強(qiáng)了模型的檢測能力。無人機(jī)航拍影像中麥穗分布稠密、重疊嚴(yán)重、尺寸小、背景信息復(fù)雜,容易導(dǎo)致誤檢和漏檢等情況,從而降低了麥穗的檢測精度,無法對其進(jìn)行準(zhǔn)確計(jì)數(shù)。針對上述問題,鮑文霞等[112]提出了一種基于TPH-YOLO 檢測器的麥穗計(jì)數(shù)方法。TPH-YOLO 以YOLOv5為基礎(chǔ),添加了協(xié)調(diào)注意力(Coordinate Attention,CA)模塊,使用了Transformer 預(yù)測頭。在訓(xùn)練過程中,采用Retinex 算法進(jìn)行圖像增強(qiáng)處理,通過遷移學(xué)習(xí)策略先后在不同數(shù)據(jù)集上進(jìn)行訓(xùn)練,提高了模型的泛化能力和檢測精度。
表11 總結(jié)了上述不同場景下改進(jìn)的YOLOv5 無人機(jī)航拍影像目標(biāo)檢測方法。
表11 不同場景下改進(jìn)的YOLOv5 無人機(jī)航拍影像目標(biāo)檢測方法Table 11 Improved YOLOv5 object detection method for UAV aerial images in different scenarios
2.2.10 無人機(jī)航拍影像目標(biāo)檢測的改進(jìn)YOLOX 算法
Ru 等[113]提出了一種適用于無人機(jī)航拍影像的輕量化電力線絕緣子檢測模型ECAYOLOX-Tiny。該檢測模型在YOLOX-Tiny 的主干中添加了高效通道注意力(Efficient Channel Attention,ECA)模塊調(diào)整了輸入圖像的分辨率大小,在訓(xùn)練階段采用了余弦退火算法調(diào)整學(xué)習(xí)率參數(shù)。上述改進(jìn)有利于獲取關(guān)于小目標(biāo)更多的特征信息,加快了模型的收斂速度。
無人機(jī)航拍影像中的麥穗具有目標(biāo)小、易遮擋、分布密集和背景復(fù)雜等特點(diǎn),為了快速且準(zhǔn)確地對其進(jìn)行識別,Yao 等[114]對YOLOX-m 進(jìn)行了優(yōu)化,設(shè)計(jì)了一種改進(jìn)的Mosaic 數(shù)據(jù)增強(qiáng)策略。所提方法使用BiFPN 網(wǎng)絡(luò)作為模型的頸部,添加了SE 模塊,使用可以學(xué)習(xí)的權(quán)重來調(diào)整不同輸入特征的重要性,實(shí)現(xiàn)更有效的多尺度特征融合。
Hou 等[115]提出了一種基于YOLOX 的無人機(jī)航拍影像山體滑坡檢測方法YOLOX-Pro,提高了針對不同地貌環(huán)境下的檢測精度。YOLOX-Pro使用Focal Loss 損失函數(shù),用于解決大小樣本分布不均的問題。對比了SE 模塊、CBAM 模塊和CA 模塊在模型中的改善效果。實(shí)驗(yàn)結(jié)果表明,CA 模塊更有助于提高模型的檢測精度,加強(qiáng)了特定區(qū)域的識別能力。
利用無人機(jī)獲取的航拍影像檢測煙霧目標(biāo)可以有效地監(jiān)測早期森林火災(zāi),Zhan 等[116]以YOLOX-l 為基礎(chǔ),提出了PDAM-STPNet 檢 測網(wǎng)絡(luò)。該網(wǎng)絡(luò)使用并行空間域注意力機(jī)制(Parallel Spatial Domain Attention Mechanism,PDAM),利用局部和全局注意力子模塊,捕獲了圖像中的位置和語義信息,使得預(yù)測結(jié)果更加可靠。在預(yù)處理過程中,設(shè)計(jì)了組件拼接(Component Stitching)數(shù)組增強(qiáng)技術(shù),增加了小目標(biāo)樣本的數(shù)量,提高了模型的泛化性。
表12 總結(jié)了上述不同場景下改進(jìn)的YOLOX無人機(jī)航拍影像目標(biāo)檢測方法。
表12 不同場景下改進(jìn)的YOLOX 無人機(jī)航拍影像目標(biāo)檢測方法Table 12 Improved YOLOX object detection method for UAV aerial images in different scenarios
本節(jié)介紹了基于SSD、YOLOv2、RetinaNet、YOLOv3、EfficientDet、CenterNet、FCOS、YOLOv4、YOLOv5 和YOLOX 的無人機(jī)航拍影像目標(biāo)檢測方法。因?yàn)閱坞A段檢測器擁有良好的檢測速度,所以相比于兩階段方法更適合應(yīng)用于無人機(jī)航拍影像。上述檢測方法經(jīng)過改進(jìn)升級后,更加適用于無人機(jī)航拍影像中目標(biāo)的檢測,勝任于多種多樣的無人機(jī)應(yīng)用場景。
針對FCN 結(jié)果不夠準(zhǔn)確、圖像細(xì)節(jié)信息不敏感的問題,Badrinarayanan 等[47]提出了SegNet 語義分割模型。它的編碼和解碼部分分別由13 個(gè)卷積層和5 個(gè)上采樣層組成,并且使用池化索引(Pooling Indices)對特征圖進(jìn)行上采樣處理,這有利于保留更多的物體輪廓信息,幫助圖像重建。但是,對低分辨率的特征圖進(jìn)行去池化處理時(shí),容易忽略鄰近像素間的相關(guān)性。Ronneberger 等[46]提出了U-Net 語義分割模型,可以劃分為特征提取網(wǎng)絡(luò)與特征融合網(wǎng)絡(luò),分別對應(yīng)為編碼器與解碼器。編碼器用于獲取圖像中物體對應(yīng)的語義信息,然后解碼器將特征恢復(fù)至輸入尺寸,得到最終的預(yù)測結(jié)果。U-Net 采用完全對稱的U 型結(jié)構(gòu),有助于特征間的相互融合,但是在實(shí)際分割中,大物體的邊緣信息和小物體本身很容易在深層網(wǎng)絡(luò)中因下采樣操作而丟失。He 等[48]提出了Mask R-CNN 算法,其在Faster R-CNN 的基礎(chǔ)上增加了全卷積神經(jīng)網(wǎng)絡(luò)以生成對應(yīng)的掩膜分支,使用了RoIAlign 層,很好地保留了特征點(diǎn)準(zhǔn)確的空間位置,有助于提升掩膜的精度。
在處理無人機(jī)航拍影像中,語義分割得到了廣泛的應(yīng)用,其中常見的包括SegNet、U-Net 和Mask R-CNN 算法。
Zhong 等[117]提出了一種基于多尺度特征融合的網(wǎng)絡(luò)結(jié)構(gòu)——W-SegNet,用于像素級路面破損檢測。建立了多場景、多類型的無人機(jī)瀝青路面破損數(shù)據(jù)集。W-SegNet 網(wǎng)絡(luò)由2 個(gè)對稱的編解碼器組成,并且在編碼器和解碼器之間添加了由一系列上采樣、級聯(lián)和卷積操作組成的特征融合模塊。這有助于更好地利用淺層位置信息和深層語義信息,提高特征圖的分辨率,有利于檢測出裂縫、坑洞和補(bǔ)丁等不同大小的多尺度路面問題。
Qi 等[118]提出了一種基于SegNet 網(wǎng)絡(luò)的果樹冠層圖像分割方法,用于從無人機(jī)航拍影像中快速提取冠層信息。所提方法使用了Elu 激活函數(shù)和Adam 優(yōu)化器,通過批歸一化處理、隨機(jī)化數(shù)據(jù)集序列輸入和Dropout 層提高了模型的抗過擬合性。與SegNet 相比,訓(xùn)練過程更穩(wěn)定、收斂速度更快、魯棒性更強(qiáng)、在不同光照條件下識別目標(biāo)輪廓更精細(xì)。Li 等[119]針對幾種波段的組合,研究了基于無人機(jī)三通道彩色圖像的多光譜波段信息對向日葵倒伏狀態(tài)特征提取的影響。改進(jìn)了SegNet 網(wǎng)絡(luò)的輸入,使其適用于多波段圖像的處理。實(shí)驗(yàn)結(jié)果表明,添加近紅外波段有助于提高分類精度,而加入紅外波段則會造成精度的負(fù)增長。Li 等[120]提出了CD-SegNet 網(wǎng)絡(luò)模型,用于無人機(jī)航拍影像中棉花的像素分割。CDSegNet 減少了SegNet 網(wǎng)絡(luò)中編碼塊和解碼塊的卷積數(shù)量,降低了模型復(fù)雜度,提高了分割效率。引入了空洞卷積,在保持特征空間分辨率的同時(shí)擴(kuò)大了模型的感受野,減少了因上采樣而造成的信息丟失。
表13 總結(jié)了上述不同場景下改進(jìn)的SegNet無人機(jī)航拍影像語義分割方法。
表13 不同場景下改進(jìn)的SegNet 無人機(jī)航拍影像語義分割方法Table 13 Improved SegNet semantic segmentation method for UAV aerial images in different scenarios
Jeon 等[121]評估了利用無人機(jī)航拍影像和深度學(xué)習(xí)技術(shù)來檢測海洋生態(tài)系統(tǒng)中海草分布情況的可行性。在U-Net 模型中添加了Z-Score 和Min-Max 歸一化方法,以驗(yàn)證不同歸一化策略對模型的影響。實(shí)驗(yàn)結(jié)果表明,Z-Score 和Min-Max 分別在黑白圖像和光學(xué)圖像上表現(xiàn)出優(yōu)異的性能。對比了U-Net、SegNet、PSPNet 和Deeplab V3+網(wǎng)絡(luò)在無人機(jī)航拍影像上的檢測效果。其中,結(jié)構(gòu)相對簡單、參數(shù)較少的U-Net 模型表現(xiàn)最佳。
Huang 等[122]針對高原山區(qū)煙葉種植分散、分布不均等特點(diǎn),提出了一種基于深層語義分割模型的無人機(jī)航拍影像煙草種植區(qū)域提取方法。首先,利用無人機(jī)捕獲圖片,制作了煙草語義分割數(shù)據(jù)集,然后,使用MobileNet 系列輕量級網(wǎng)絡(luò)替換DeeplabV3+、PSPNet、SegNet 和U-Net 模型的編碼器部分,用于加快模型訓(xùn)練。實(shí)驗(yàn)結(jié)果表明,U-Net 在小樣本數(shù)據(jù)集下的煙草語義分割性能優(yōu)于其他模型,并且對硬件要求不高,便于在實(shí)際應(yīng)用中廣泛推廣。Narvaria 等[123]應(yīng)用UNet 卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)為小麥、棉花、玉米、草和土壤等不同作物分類尋找最佳的輸入光譜波段組合。分析了增強(qiáng)植被指數(shù)(Enhanced Vegetation Index,EVI)和標(biāo)準(zhǔn)化植被指數(shù)(Normalized Difference Vegetation Index,NDVI)在作物分類中的作用。研究了各紋理參數(shù),例如角二階矩(Angular Second Moment,ASM)、逆差距(Inverse Difference Moment,IDM)、熵(Entropy,ENT)和對比度(Contrast,CON),在語義分割中起到的效果。通過對光譜植被指數(shù)和紋理特征的各種組合進(jìn)行測試與對比,最大限度地提高了模型的精度。Zhai 等[124]提出了一種基于無人機(jī)航拍影像和語義分割算法的棉花田地殘留種植地膜檢測方法。該方法優(yōu)化了U-Net 的網(wǎng)絡(luò)結(jié)構(gòu),減少了其中的卷積運(yùn)算,加快了模型的運(yùn)行時(shí)間。在下采樣層中,使用Inception 模塊替換了普通的3×3 卷積,在增加網(wǎng)絡(luò)深度和寬度的同時(shí),還解決了參數(shù)過多的問題,減少了模型的計(jì)算量。準(zhǔn)確提取小麥倒伏面積可以為災(zāi)后產(chǎn)量損失評估和抗倒伏小麥育種提供重要的技術(shù)支持。目前,小麥倒伏評估方法面臨著實(shí)時(shí)性和準(zhǔn)確性之間的矛盾,同時(shí)也缺乏有效的倒伏特征提取方法。針對上述問題Yu 等[125]基于U-Net 網(wǎng)絡(luò)提出了一種改進(jìn)的分割模型。為了獲得更大的感受野,保留更多的語義信息,在保持網(wǎng)絡(luò)結(jié)構(gòu)的基礎(chǔ)上,使用對合算子代替主干中的卷積運(yùn)算。在編碼階段,加入了密集連接模塊,有利于減少參數(shù),節(jié)省內(nèi)存開銷,緩解了梯度消失的問題。
表14 總結(jié)了上述不同場景下改進(jìn)的U-Net無人機(jī)航拍影像語義分割方法。
表14 不同場景下改進(jìn)的U-Net 無人機(jī)航拍影像語義分割方法Table 14 Improved U-Net semantic segmentation method for UAV aerial images in different scenarios
Pi 等[126]為了從無人機(jī)航拍影像中生成像素級分割用于災(zāi)害發(fā)生后的損害評估,創(chuàng)建了一個(gè)名為Volan2019 的數(shù)據(jù)集。該數(shù)據(jù)集包含875 張帶注釋的圖片,共計(jì)9 個(gè)相關(guān)類別。提出了一種采用遷移學(xué)習(xí)訓(xùn)練、驗(yàn)證和測試Mask R-CNN 和PSPNet 網(wǎng)絡(luò)的方法,分析了預(yù)測置信度和精度之間的相關(guān)性,設(shè)計(jì)并實(shí)現(xiàn)了一種基于數(shù)據(jù)均衡的有針對性的數(shù)據(jù)增強(qiáng)方法。
Zheng 等[127]以超高分辨率可見光、近紅外和數(shù)字地表模型(Digital Surface Model,DSM)圖像為研究對象,提出了基于深度卷積神經(jīng)網(wǎng)絡(luò)的草莓冠層自動提取和生物量預(yù)測方法。利用Mask R-CNN 語義分割算法,分別使用VGG-16和ResNet-50 網(wǎng)絡(luò)作為主干,用于特征提取。實(shí)驗(yàn)結(jié)果表明,2 種主干均取得了良好的效果,驗(yàn)證了所提方法的可行性。Li 等[128]提出了一種改進(jìn)的Mask R-CNN 實(shí)例分割算法——ACE RCNN,通過結(jié)合無人機(jī)航拍影像和激光雷達(dá)(Light Detection and Ranging,LiDAR)數(shù)據(jù)進(jìn)行個(gè)體樹種識別。ACE R-CNN 的主干網(wǎng)絡(luò)為ACNet,它通過注意力互補(bǔ)模塊(Attention Complementary Module,ACM)有選擇性地強(qiáng)調(diào)目標(biāo)特征。引入了邊緣損失函數(shù)和邊緣濾波器來計(jì)算邊緣損失,提高個(gè)體樹種的識別準(zhǔn)確率,加快了模型的收斂速度。
由于軌道環(huán)境復(fù)雜、道砟遮擋以及無人機(jī)拍攝視點(diǎn)的變化,軌枕分割是一項(xiàng)充滿挑戰(zhàn)性的工作。Singh 等[129]利 用Mask R-CNN 方法對無人機(jī)拍攝的低空圖像中混凝土軌道軌枕進(jìn)行實(shí)例分割,重點(diǎn)解決了小目標(biāo)、復(fù)雜背景和噪聲干擾等問題。
人工進(jìn)行建筑外墻裂縫檢測風(fēng)險(xiǎn)大、效率低,針對該問題,Chen 等[130]提出了一種基于無人機(jī)航拍影像的建筑外墻裂縫檢測方法。首先,利用無人機(jī)采集了不同光照條件下住宅樓外墻圖像,建立了裂縫數(shù)據(jù)集,然后,比較了YOLOv3、YOLOv4、Faster R-CNN 和Mask R-CNN 等 方法的檢測效果,其中Mask R-CNN 的表現(xiàn)最佳,最后,基于裂紋在圖像中的特點(diǎn),對Mask RCNN 進(jìn)行了有針對性的改進(jìn)。由于裂紋在圖像中所占比例較小,當(dāng)圖像大小被壓縮時(shí),目標(biāo)容易因其細(xì)長且不明顯的特征而丟失。因此改進(jìn)后的方法使用DenseNet 結(jié)構(gòu)替換了原先的殘差網(wǎng)絡(luò)。DenseNet 中的批歸一化操作不僅防止了梯度消失,還有利于增強(qiáng)網(wǎng)絡(luò)的泛化性,加快網(wǎng)絡(luò)的訓(xùn)練速度。為解決傳統(tǒng)人工橋梁檢測危險(xiǎn)性高、影響交通、費(fèi)用昂貴等問題,余加勇等[131]制作了關(guān)于橋梁裂縫、銹蝕和脫落病害的數(shù)據(jù)集,提出了基于無人機(jī)和Mask R-CNN 檢測網(wǎng)絡(luò)的橋梁結(jié)構(gòu)裂縫識別方法。該方法利用圖像二值化、連通域去噪、邊緣檢測、裂縫骨架化和裂縫寬度計(jì)算等策略加強(qiáng)了模型的后處理能力,提高了對裂縫的檢測精度和召回率,實(shí)現(xiàn)了裂縫形態(tài)及寬度信息的自動獲取。
表15 總結(jié)了上述不同場景下改進(jìn)的Mask R-CNN 無人機(jī)航拍影像語義分割方法。
表15 不同場景下改進(jìn)的Mask R-CNN 無人機(jī)航拍影像語義分割方法Table 15 Improved Mask R-CNN semantic segmentation method for UAV aerial images in different scenarios
本節(jié)主要介紹了基于SegNet、U-Net 和Mask R-CNN 的無人機(jī)航拍影像語義分割方法。通過優(yōu)化主干網(wǎng)絡(luò)、增強(qiáng)特征融合、數(shù)據(jù)集預(yù)處理和修改損失函數(shù)等方法,加強(qiáng)了目標(biāo)的檢測效果,使其更加適用于多種場景下目標(biāo)的分割。
基于深度學(xué)習(xí)的機(jī)器視覺方向經(jīng)典的數(shù)據(jù)集包括MNIST 手寫數(shù)字?jǐn)?shù)據(jù)集、Fashion MNIST數(shù)據(jù)集、CIFAR-10 和CIFAR-100 數(shù)據(jù)集、ILSVRC 競賽的ImageNet 數(shù)據(jù)集、用于檢測和分割的PASCAL VOC 和COCO 數(shù)據(jù)集等。在訓(xùn)練模型時(shí),數(shù)據(jù)集常分為訓(xùn)練集、驗(yàn)證集和測試集。其中,訓(xùn)練集是模型擬合的數(shù)據(jù)樣本,用于調(diào)試卷積神經(jīng)網(wǎng)絡(luò);驗(yàn)證集是模型訓(xùn)練過程中單獨(dú)劃分出的樣本集,用于調(diào)整模型的超參數(shù)和初步評估模型的訓(xùn)練效果;測試集則用來評估模型最終的泛化能力。近年來,基于無人機(jī)航拍影像的目標(biāo)檢測與語義分割已成為研究熱點(diǎn),相關(guān)的數(shù)據(jù)集也在快速地更新之中。本節(jié)將對近期基于無人機(jī)航拍影像建立的數(shù)據(jù)集進(jìn)行收集梳理。
Puertas 等[132]制作了一個(gè)環(huán)形交叉路口的無人機(jī)圖像數(shù)據(jù)集。該數(shù)據(jù)由61 896 幅大小為1 920 像素×1 080 像素的彩色圖像組成,拍攝時(shí)飛行高度為100~120 m。標(biāo)注的格式為Pascal VOC 格式,劃分有6 個(gè)目標(biāo)類別。
Gasienica-Józkowy 等[133]建立了無人機(jī)漂浮物(Aerial-drone Floating Objects,AFO)數(shù) 據(jù)集,用于海上救援等工作。AFO 數(shù)據(jù)集包含了3 647 幅圖片和39 991 個(gè)標(biāo)注的對象,共計(jì)6 個(gè)類別。其中圖片的分辨率大小在1 280 像素×720 像素~3 840 像素×2 160 像素之間,拍攝時(shí)無人機(jī)飛行高度為30~80 m。
Behera 等[134]制作了基于高分辨率無人機(jī)航拍影像的數(shù)據(jù)集——NITRDrone,用于道路分割任務(wù)。數(shù)據(jù)集由16 個(gè)大小為8 GB 的視頻序列和1 000 幅圖像組成,劃分為6 個(gè)目標(biāo)類別,拍攝時(shí)無人機(jī)的飛行高度為5~80 m 不等,圖片分辨率為1 280 像素×720 像素~3 000 像素×4 000 像素不等。
Du 等[135]建立了一個(gè)基于無人機(jī)航拍影像的檢測與跟蹤(UAV Detection and Tracking,UAVDT)數(shù)據(jù)集,用于目標(biāo)檢測、單目標(biāo)跟蹤和多目標(biāo)跟蹤等任務(wù)。UAVDT 數(shù)據(jù)集由100 個(gè)視頻序列組成,包含了多種常見的場景和不同的目標(biāo)類別。
Bozic-Stulic 等[13]建立了HERIDAL 數(shù)據(jù)集,用于搜索與救援工作。該數(shù)據(jù)集包含了盡可能多的真實(shí)場景,涵蓋了實(shí)際搜救過程中可能遇到的多種情況。數(shù)據(jù)集的拍攝高度為30~40 m,由68 750 張大小為4 000 像素×3 000 像素的圖片組成。
Nigam 等[136]建立了AeroScapes 語義分割數(shù)據(jù)集,從141 個(gè)無人機(jī)拍攝的戶外場景序列中抽取了3 269 幅圖片,并劃分為12 個(gè)不同類別。拍攝時(shí),無人機(jī)的飛行高度為5~50 m 之間,圖片的大小為1 280 像素×720 像素。
Robicquet 等[137-138]建立了Campus 數(shù)據(jù)集,用于目標(biāo)檢測、多目標(biāo)跟蹤和大規(guī)模軌跡預(yù)測。該數(shù)據(jù)集通過無人機(jī)在戶外環(huán)境中拍攝,包含100 多個(gè)不同的俯視場景,20 000 個(gè)參與各種類型交互的目標(biāo)。數(shù)據(jù)集中目標(biāo)分為6 類,拍攝時(shí)飛行高度約為80 m,圖片分辨率為1 400 像素×1 904 像素。
Hsieh 等[139]建立了一個(gè)大規(guī)模停車場(Car Parking Lot,CARPK)數(shù)據(jù)集,用于目標(biāo)檢測和計(jì)數(shù)。CARPK 數(shù)據(jù)集包含來自4個(gè)不同停車場拍攝的無人機(jī)圖像,所有目標(biāo)均標(biāo)記出左上角和右下角的坐標(biāo),共計(jì)89 777 輛汽車。拍攝時(shí),無人機(jī)的飛行高度約為40 m,圖片的大小為1 000 像素×600 像素。該數(shù)據(jù)集是第一個(gè)基于無人機(jī)視圖的停車場數(shù)據(jù)集。
Barekatain 等[140]建立了一個(gè)人體動作檢測數(shù)據(jù)集Okutama-Action。該數(shù)據(jù)集由時(shí)長43 min的帶有完整注釋的視頻序列做成,包含12 個(gè)典型的戶外動作類別。拍攝時(shí),無人機(jī)的飛行高度為10~45 m,相機(jī)傾斜角為45°或90°,圖片分辨率為3 840 像 素×2 160 像素。
Sambolek 等[12]建立了SARD 數(shù)據(jù)集,用于無人機(jī)圖像中復(fù)雜環(huán)境下的搜索和救援任務(wù)。該數(shù)據(jù)集由1 981 幅圖片組成,包含了典型的運(yùn)動類型,并且模擬了不同年齡段和不同身體素質(zhì)所帶來的行為差異。拍攝時(shí),無人機(jī)的飛行高度為5~50 m,拍攝角度為45°~90°。
Mueller 等[141]建立了UAV123 數(shù)據(jù)集,用于無人機(jī)圖像中目標(biāo)的檢測與跟蹤。該數(shù)據(jù)集包含123 個(gè)視頻序列,分為3 個(gè)子集,涵蓋了多種戶外場景和目標(biāo)類別,擁有常見的視覺跟蹤任務(wù)挑戰(zhàn),例如長期的完全或部分遮擋、明暗變化和雜亂背景等。拍攝時(shí),無人機(jī)飛行高度為5~25 m,圖片大小為1 280 像素×720 像素。
Du 等[142-143]組織了基于無人機(jī)圖像的目標(biāo)檢測挑戰(zhàn)比賽,發(fā)布了VisDrone-DET 數(shù)據(jù)集,共計(jì)8 599 張圖片和10 個(gè)不同的目標(biāo)類別。該數(shù)據(jù)集具有豐富的注釋、遮擋情況和真實(shí)場景,并且一些極具相似性的類別使得基于該數(shù)據(jù)集的目標(biāo)檢測任務(wù)更具挑戰(zhàn)性。
表16 對上述的無人機(jī)航拍影像數(shù)據(jù)集進(jìn)行了總結(jié)與歸納。
表16 常見的無人機(jī)航拍影像數(shù)據(jù)集Table 16 Common UAV aerial image datasets
混淆矩陣可以用來對分類器的結(jié)果進(jìn)行可視化處理,對于常見的二分類問題來說,它的混淆矩陣規(guī)模為2×2。如表17 所示,其中TP(True Positive)、FP(False Positive)、FN(False Negative)和TN(True Negative)分別表示真陽性、假陽性、假陰性和真陰性。目標(biāo)檢測模型的評價(jià)指標(biāo)主要包括:精確率(Precision,P)、召回率(Recall,R)、F1 分?jǐn)?shù)(F1 Score)、平均精度(Average Precision,AP)和平均精度均值(Mean Average Precision,mAP)等,它們的意義與計(jì)算公式如表18 所示。語義分割模型的評價(jià)指標(biāo)主要包括:像素精度(Pixel Accuracy,PA)、平均像素精度(Mean Pixel Accuracy,MPA)和平均交并比(Mean Intersection over Union,MIoU)等,它們的意義與計(jì)算公式如表19 所示。此外,使用總參數(shù)量(Total Parameters)和浮點(diǎn)運(yùn)算次數(shù)(Floating Point Operations,F(xiàn)LOPs)來衡量模型的大小和計(jì)算復(fù)雜度,當(dāng)網(wǎng)絡(luò)層數(shù)加深時(shí),模型愈發(fā)復(fù)雜,相關(guān)參數(shù)的數(shù)值和對硬件的需求也會隨之上升。使用每秒幀率(Frame Per Second,F(xiàn)PS)來衡量模型的檢測速度,當(dāng)處理一幅圖像的時(shí)間縮短時(shí),模型的FPS 值會增大,表示速度得到了提升。
表17 混淆矩陣Table 17 Confusion matrix
表18 目標(biāo)檢測模型的評價(jià)指標(biāo)Table 18 Evaluation metrics for object detection models
表19 語義分割模型的評價(jià)指標(biāo)Table 19 Evaluation metrics for semantic segmentation models
式中:C為目標(biāo)檢測數(shù)據(jù)集中的類別數(shù);APi為第i類的平均精度;K+1 為語義分割數(shù)據(jù)集中的類別數(shù)(包含K個(gè)目標(biāo)類加1 個(gè)背景類);pii為本屬于第i類預(yù)測為第i類的像素點(diǎn)數(shù)量;pij為本屬于第i類預(yù)測為第j類的像素點(diǎn)數(shù)量;pji為本屬于第j類預(yù)測為i類的像素點(diǎn)數(shù)量。
無人機(jī)與深度學(xué)習(xí)技術(shù)相結(jié)合,在多個(gè)領(lǐng)域中表現(xiàn)出了一加一大于二的實(shí)際效果,使得無人機(jī)系統(tǒng)更加智能、高效、便捷。但在以往的研究與實(shí)際應(yīng)用中,仍存在諸多問題與挑戰(zhàn)。
1)模型的輕量化問題。在大多數(shù)針對現(xiàn)有模型的改進(jìn)過程中,通過增加主干的輸出、添加其余模塊和擴(kuò)充特征融合結(jié)構(gòu)等方法提高模型的檢測精度,會導(dǎo)致模型更加復(fù)雜,參數(shù)激增,增加了模型的訓(xùn)練難度,延長了模型的檢測時(shí)間。
2)小目標(biāo)檢測效果不理想。由于無人機(jī)飛行高度的影響,捕獲的影像中目標(biāo)往往尺寸極小,所占的像素比例極低。圖像在模型中,經(jīng)過多次的下采樣處理,會導(dǎo)致模型遺漏小目標(biāo)的特征,進(jìn)而降低了其檢測精度。
3)復(fù)雜背景干擾。無人機(jī)的起降基本不依賴所處的環(huán)境,在任意平坦的場地均可實(shí)現(xiàn),因此無人機(jī)常常在各種環(huán)境下飛行,拍攝的影像包含了不同的地理位置。與自然影像相比,無人機(jī)航拍影像的背景更加復(fù)雜,帶來的干擾問題會更加棘手。
4)影像視場大的問題。無人機(jī)航拍影像往往視場較大,并且分辨率較高,這對檢測方法的實(shí)時(shí)性提出了不小的挑戰(zhàn)。大視場會導(dǎo)致圖像在導(dǎo)入模型時(shí)花費(fèi)更多的時(shí)間,高分辨率會導(dǎo)致處理圖像時(shí)更加復(fù)雜困難。
5)目標(biāo)分布不均。無人機(jī)拍攝的影像中包含的目標(biāo)往往會存在2 種極端的分布情況。例如,牧場中的牛羊等分布稀疏,極大的場地上可能僅存在單個(gè)目標(biāo);港口、停車場等環(huán)境下,船舶和汽車大多以較為密集的方式排列,相互之間距離非常近。上述極端分布情況會降低算法的召回率,錯(cuò)誤地抑制掉真實(shí)樣本。
6)目標(biāo)旋轉(zhuǎn)的問題。無人機(jī)航拍影像中包含的物體大多不是水平分布排列,而是以隨機(jī)的角度分散在圖像各處。帶有傾斜角的物體在檢測時(shí)更容易受到背景的干擾,預(yù)測框?qū)嗟臒o關(guān)信息,這對目標(biāo)特征的提取帶來了不小的困難。
7)數(shù)據(jù)集中樣本類別不平衡。在多目標(biāo)無人機(jī)航拍影像數(shù)據(jù)集中容易出現(xiàn)該問題,即有些樣本類型的數(shù)量遠(yuǎn)大于其他樣本數(shù),影響模型的訓(xùn)練效果,導(dǎo)致模型可能無法學(xué)習(xí)到數(shù)據(jù)集中某些類別的抽象特征,降低了模型的平均精度均值。
針對上述問題,對未來無人機(jī)航拍影像目標(biāo)檢測與語義分割方法的研究趨勢進(jìn)行如下展望:
1)模型的優(yōu)化升級中,需要更多地關(guān)注計(jì)算復(fù)雜度和檢測速度等因素。一個(gè)高性能的模型需要在檢測精度和運(yùn)算速度之間做到良好的平衡。如何在保持甚至降低模型復(fù)雜度的同時(shí)提升檢測精度是一個(gè)充滿挑戰(zhàn)的研究。
2)模型的特征提取部分,大多使用的是多層堆疊的殘差網(wǎng)絡(luò)。殘差網(wǎng)絡(luò)有助于緩解梯度問題,可以通過增加深度的方法來改善模型的檢測性能。如何對傳統(tǒng)的殘差結(jié)構(gòu)進(jìn)行優(yōu)化,以加強(qiáng)它針對小目標(biāo)的特征提取能力有待深入研究。
3)在圖像處理中經(jīng)常使用注意力模塊來排除復(fù)雜背景的干擾,提升模型的檢測性能。通過以往的研究,注意力機(jī)制已有多種多樣的實(shí)現(xiàn)形式,主要分為通道注意力與空間注意力模塊等。如何設(shè)計(jì)更加有效且輕量化的注意力模塊非常有意義。
4)對于處理大視場影像中的多尺度目標(biāo)問題,采用特征金字塔結(jié)構(gòu)是一種常見的解決方案。已經(jīng)提出了如FPN、PANet、NAS-FPN[144]和BiFPN 等金字塔結(jié)構(gòu)。如何加強(qiáng)不同尺度特征的融合,加強(qiáng)特征重用和特征提取仍需進(jìn)一步研究。
5)在目標(biāo)檢測算法中,使用邊界框回歸(Bounding Box Regression,BBR)來定位目標(biāo),這是決定目標(biāo)定位性能的關(guān)鍵一步,良好的損失函數(shù)對于邊界框回歸至關(guān)重要?,F(xiàn)已經(jīng)提出了多種基于交并比的損失函數(shù),例如IOU 損失、GIOU 損失、DIOU 損失、CIOU 損失和EIOU 損失等。一個(gè)設(shè)計(jì)良好的損失函數(shù)有利于更好地衡量預(yù)測值和真實(shí)值之間的差異,指導(dǎo)下一步訓(xùn)練向正確的方向進(jìn)行。
6)在模型優(yōu)化器的選擇上還存在進(jìn)一步改進(jìn)的空間。之前的研究中,優(yōu)化器選擇表現(xiàn)的過于單一,僅為帶動量的SGD 優(yōu)化器或Adam 優(yōu)化器等。后續(xù)可以嘗試自適應(yīng)與非自適應(yīng)方法相結(jié)合的策略來優(yōu)化網(wǎng)絡(luò)模型參數(shù),使其更好地逼近或達(dá)到最優(yōu)值。
7)在數(shù)據(jù)集的制作方面,應(yīng)使用多種不同來源的綜合數(shù)據(jù)驗(yàn)證模型,避免單一類別和單一背景下收集而來的圖像。此外,包含圖片數(shù)量的多少也是衡量數(shù)據(jù)集的一個(gè)重要指標(biāo)。在后續(xù)數(shù)據(jù)集的制作中,需要注意多類別、多背景和圖片數(shù)量等問題。
基于無人機(jī)航拍影像的目標(biāo)檢測與語義分割方法研究越來越受到眾多科研人員的關(guān)注,相關(guān)方法的改進(jìn)策略也在快速迭代與優(yōu)化之中。本文綜述了近些年關(guān)于無人機(jī)航拍影像中目標(biāo)檢測與語義分割方向的研究,按照不同的深度學(xué)習(xí)方法將其分類,這樣更有利于進(jìn)行方法之間橫向與縱向的相互比較,有助于快速了解同一種方法在無人機(jī)航拍影像目標(biāo)檢測與語義分割方面的研究進(jìn)展。最后,對現(xiàn)有研究存在的問題進(jìn)行了討論,分析了問題產(chǎn)生的原因以及對模型本身的影響,并且對未來該研究的發(fā)展方向進(jìn)行了展望,以期提供有價(jià)值的參考。