亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于深度學(xué)習(xí)的光學(xué)遙感圖像目標(biāo)檢測綜述

        2023-10-24 01:37:44馮長峰王春平張冬冬
        激光與紅外 2023年9期
        關(guān)鍵詞:特征檢測方法

        馮長峰,王春平,付 強(qiáng),張冬冬

        (陸軍工程大學(xué)石家莊校區(qū)電子與光學(xué)工程系,河北 石家莊 050003)

        1 引 言

        光學(xué)遙感圖像是指使用可見光波段傳感器采集的航空和衛(wèi)星影像,其包含豐富的細(xì)節(jié)信息,能夠直觀反映地物目標(biāo)的形狀、顏色和紋理等特征[1]。光學(xué)遙感圖像目標(biāo)檢測的主要任務(wù)是對(duì)圖像中的感興趣目標(biāo)(通常為飛機(jī)、船舶、建筑物等)進(jìn)行分類和定位,作為航空和衛(wèi)星圖像分析領(lǐng)域的基礎(chǔ)任務(wù),其在情報(bào)偵察、目標(biāo)監(jiān)視、交通疏導(dǎo)、災(zāi)害救援等領(lǐng)域發(fā)揮著重要作用,同時(shí)也是開展目標(biāo)跟蹤、場景分類、圖像分割等任務(wù)的前提。

        傳統(tǒng)的遙感圖像目標(biāo)檢測算法可分為模板匹配方法和機(jī)器學(xué)習(xí)方法。模板匹配方法通過手工設(shè)計(jì)生成目標(biāo)模板,隨后以特定評(píng)價(jià)標(biāo)準(zhǔn)計(jì)算圖像與模板匹配度來尋找目標(biāo)。機(jī)器學(xué)習(xí)方法則先通過滑動(dòng)窗口生成大量潛在目標(biāo)區(qū)域,之后對(duì)每個(gè)區(qū)域進(jìn)行特征提取,最后使用分類器分類以剔除虛假目標(biāo)獲得最終的檢測結(jié)果。2012年AlexNet首次被應(yīng)用于圖像分類,取得了性能上的跨越性突破,此后學(xué)者開始將深度學(xué)習(xí)應(yīng)用到目標(biāo)檢測任務(wù)并取得巨大成功,由此開啟了深度學(xué)習(xí)目標(biāo)檢測算法時(shí)代[2]。

        近年來,隨著傳感器、衛(wèi)星、航拍飛行器等技術(shù)的發(fā)展成熟,遙感數(shù)據(jù)量成指數(shù)級(jí)增長,圖像的空間分辨率也由中等分辨率(4~70 m)和高分辨率(1~4 m)提升為超高分辨率(VHR)。超高分辨率的圖像能夠提供更多的空間和紋理信息,使許多以往無法察覺的小目標(biāo)也具備了被檢測的可能性。遙感技術(shù)的進(jìn)步催生出對(duì)智能高效檢測算法的巨大需求,光學(xué)遙感圖像目標(biāo)檢測算法性能的提升主要面臨兩點(diǎn)困難:(1)缺乏高質(zhì)量標(biāo)注的光學(xué)遙感數(shù)據(jù);(2)遙感圖像特點(diǎn)鮮明,包含諸多干擾因素。針對(duì)上述問題,許多研究團(tuán)隊(duì)構(gòu)建了大型遙感圖像目標(biāo)檢測數(shù)據(jù)集,并就遙感圖像特點(diǎn)對(duì)通用檢測模型進(jìn)行了一系列改進(jìn),產(chǎn)生了大量基于深度學(xué)習(xí)的光學(xué)遙感圖像檢測算法[3]。

        本文分類總結(jié)了基于深度學(xué)習(xí)的通用目標(biāo)檢測算法,并就其中經(jīng)典模型進(jìn)行了詳細(xì)介紹;整理歸納了當(dāng)前應(yīng)用廣泛的光學(xué)遙感目標(biāo)檢測數(shù)據(jù)集;基于光學(xué)遙感圖像目標(biāo)的5個(gè)顯著特點(diǎn):任意方向、目標(biāo)多尺度、小目標(biāo)分布、目標(biāo)密集分布以及復(fù)雜背景,對(duì)當(dāng)前流行的遙感圖像目標(biāo)檢測算法進(jìn)行了詳細(xì)梳理;對(duì)光學(xué)遙感圖像目標(biāo)檢測研究的未來方向進(jìn)行了展望。

        2 通用目標(biāo)檢測算法

        基于深度學(xué)習(xí)的通用目標(biāo)檢測算法可分為3類:基于錨框的目標(biāo)檢測方法、基于無錨框目標(biāo)檢測方法以及基于Transformer目標(biāo)檢測方法。這些方法構(gòu)建了現(xiàn)今深度學(xué)習(xí)目標(biāo)檢測的主要框架,部分經(jīng)典檢測模型框架如圖1所示。

        圖1 通用目標(biāo)檢測模型

        2.1 基于錨框的目標(biāo)檢測方法

        基于錨框的目標(biāo)檢測方法通過顯式或隱式的方法,創(chuàng)建一系列具有不同尺寸、長寬比的先驗(yàn)框(錨框),然后對(duì)先驗(yàn)框進(jìn)行分類和回歸。根據(jù)是否有顯式的區(qū)域建議,基于錨框的目標(biāo)檢測方法分為兩階段(Two-Stage)和單階段(One-Stage)兩種。

        2.1.1 兩階段檢測模型

        2014年,Girshick等[4]提出R-CNN,該算法首先使用選擇性搜索選取包含目標(biāo)的候選區(qū)域,隨后利用卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network,CNN)對(duì)候選區(qū)域進(jìn)行特征提取,最后通過分類器和回歸器實(shí)現(xiàn)目標(biāo)的分類和定位。R-CNN極大提升了目標(biāo)檢測任務(wù)的準(zhǔn)確率,但是候選區(qū)域的特征提取過程存在大量的重復(fù)計(jì)算,嚴(yán)重影響了算法檢測速度。鑒于此,He等[5]提出了SPP-Net,與R-CNN相比只需對(duì)整幅圖像進(jìn)行一次特征映射,提升了網(wǎng)絡(luò)的推理速度。

        2015年,Ren等[6]將區(qū)域候選網(wǎng)絡(luò)(Region Proposal Network,RPN)融入Fast R-CNN網(wǎng)絡(luò)中,提出了Faster R-CNN,該模型具備較強(qiáng)鑒別能力并可以借助GPU加速,極大提升了檢測的精度和速度。以Faster R-CNN為基礎(chǔ),研究人員進(jìn)行了大量的改進(jìn)。Lin等[7]在框架中引入特征金字塔網(wǎng)絡(luò)(Feature Pyramid Network,FPN),利用深層網(wǎng)絡(luò)的豐富語義信息來加強(qiáng)空間信息豐富的淺層網(wǎng)絡(luò)特征,在多尺度檢測方面取得重大進(jìn)展。Mask R-CNN[8]增添了一個(gè)額外的分割支路,通過像素級(jí)預(yù)測生成目標(biāo)的分割掩膜,并引入感興趣區(qū)域聚集(RoIAlign)層以解決量化誤差問題。

        2.1.2 單階段檢測模型

        YOLO系列是最早應(yīng)用于實(shí)踐的單階段目標(biāo)檢測算法。YOLO[9]舍棄了繁瑣的區(qū)域建議步驟,直接在特征圖上對(duì)目標(biāo)的類別、置信度和位置偏移進(jìn)行預(yù)測,其檢測速度比Faster R-CNN提高近十倍。YOLOv3[10]借鑒ResNet構(gòu)建了Darknet-53主干網(wǎng)絡(luò),在保持性能前提下大幅降低了計(jì)算量;在三種不同尺度的特征圖上進(jìn)行分類和回歸,改善了多尺度目標(biāo)的檢測效果;在預(yù)測類別時(shí)使用Logistic回歸代替Softmax方法,以支持多標(biāo)簽分類任務(wù)。YOLOv5在輸入端利用Mosaic數(shù)據(jù)增強(qiáng)技術(shù)提升數(shù)據(jù)豐富度;在主干網(wǎng)中采用跨階段局部網(wǎng)絡(luò)結(jié)構(gòu),減少計(jì)算量的同時(shí)也保證了準(zhǔn)確率;提供了不同規(guī)模的變體以滿足不同的應(yīng)用需求。

        Liu等[11]在2016年提出了SSD算法。該模型通過借鑒YOLO算法的網(wǎng)格劃分和Faster R-CNN中的錨框機(jī)制,同時(shí)引入金字塔型特征層級(jí)充分挖掘卷積層的特征信息,在一定程度上克服了YOLO算法難以檢測小目標(biāo)、定位不準(zhǔn)的缺點(diǎn),并保證了推理速度。

        2.2 基于無錨框目標(biāo)檢測方法

        基于錨框的目標(biāo)檢測需要人為設(shè)定錨框的尺度、長寬比等超參數(shù),導(dǎo)致檢測器對(duì)超參數(shù)敏感且泛化能力較差。鑒于上述問題,研究人員提出了無錨框目標(biāo)檢測方法,主要可分為兩類:基于內(nèi)部點(diǎn)的檢測方法和基于關(guān)鍵點(diǎn)的檢測方法。

        基于內(nèi)部點(diǎn)的檢測算法通過預(yù)測物體內(nèi)部點(diǎn)的邊界偏移量及類別信息,達(dá)到目標(biāo)檢測效果,代表算法有CenterNet[12]。CenterNet將目標(biāo)建模為一個(gè)中心點(diǎn),通過中心點(diǎn)處的特征來預(yù)測其他目標(biāo)屬性如大小、深度甚至姿態(tài)。同時(shí),采用最大池化操作提取峰值點(diǎn),舍棄了非極大值抑制(NMS)步驟,顯著提高了檢測速度。

        基于關(guān)鍵點(diǎn)的目標(biāo)檢測方法則選擇預(yù)測物體的多個(gè)關(guān)鍵點(diǎn),并通過關(guān)鍵點(diǎn)集成實(shí)現(xiàn)對(duì)物體的最終檢測,代表算法有CornerNet[13]。CornerNet采用Hourglass網(wǎng)絡(luò)提取的高分辨率特征圖,分別預(yù)測同一對(duì)象類別內(nèi)所有實(shí)例的左上角熱圖、右下角熱圖及角點(diǎn)嵌入特征向量,隨后通過向量相似性匹配,將屬于同一物體的角點(diǎn)關(guān)聯(lián)生成最終檢測框。

        2.3 基于Transformer的目標(biāo)檢測方法

        Transformer是一類起源于自然語言處理(Natural Language Processing,NLP)領(lǐng)域的新型深度神經(jīng)網(wǎng)絡(luò),不同于傳統(tǒng)網(wǎng)絡(luò)經(jīng)過不斷卷積獲得多層級(jí)信息,它主要通過自注意力機(jī)制提取數(shù)據(jù)的內(nèi)在特征。近年來,基于Transformer的目標(biāo)檢測算法憑借出色檢測性能引起了研究者的廣泛關(guān)注。

        Carion等提出的DETR[14]算法屬于較早將Transformer引入目標(biāo)檢測的嘗試,其利用卷積神經(jīng)網(wǎng)絡(luò)提取特征并送入一個(gè)編解碼器,直接預(yù)測物體位置及分類得分。DETR舍棄了錨框等手工設(shè)計(jì)組件和后處理步驟,將檢測任務(wù)簡化為集合預(yù)測問題,實(shí)現(xiàn)了真正意義上的端到端檢測。還有研究者嘗試?yán)肨ransformer作為檢測器的主干網(wǎng)絡(luò)。Dosoviskiy等[15]首次提出將Transformer作為主干網(wǎng)絡(luò)用于圖像分類,并取得SOTA結(jié)果。隨后,研究者致力于探索更為通用的框架設(shè)計(jì),Liu等在2021年提出了Swin Transformer[16]網(wǎng)絡(luò),在COCO數(shù)據(jù)集目標(biāo)檢測任務(wù)上超過了當(dāng)時(shí)最先進(jìn)算法的精度,展示了Transformer模型作為計(jì)算機(jī)視覺主干網(wǎng)絡(luò)的巨大潛力。

        表1總結(jié)了不同類別檢測方法的原理以及優(yōu)缺點(diǎn)。其中,雙階段檢測模型憑借其優(yōu)良的性能在光學(xué)遙感圖像目標(biāo)檢測領(lǐng)域得到廣泛應(yīng)用[17-19],單階段方法相比雙階段相關(guān)研究較少,主要用于對(duì)檢測速度有更高要求的快速檢測場景[20]。近年來,無錨框方法逐漸受到研究者的青睞,但是還無法取代錨框方法[21-22],兩者仍屬于共存關(guān)系。對(duì)基于Transformer的光學(xué)遙感圖像目標(biāo)檢測[23],目前也有一部分嘗試,但仍處于初步階段。

        表1 深度學(xué)習(xí)目標(biāo)檢測方法比較

        3 光學(xué)遙感圖像目標(biāo)檢測數(shù)據(jù)集

        深度學(xué)習(xí)是一個(gè)數(shù)據(jù)驅(qū)動(dòng)的概念,一個(gè)具有挑戰(zhàn)性的數(shù)據(jù)集可以加速該領(lǐng)域的發(fā)展。其中最為典型的例子就是ImageNet和MS COCO促進(jìn)了自然場景圖像分類和目標(biāo)檢測算法的發(fā)展。本章首先介紹了一批具有代表性的光學(xué)遙感目標(biāo)檢測公開數(shù)據(jù)集,隨后通過對(duì)其中圖像特性的進(jìn)一步分析,歸納總結(jié)出光學(xué)遙感圖像區(qū)別于常規(guī)圖像的顯著特點(diǎn)。

        3.1 光學(xué)遙感圖像目標(biāo)檢測數(shù)據(jù)集

        遙感技術(shù)的廣泛應(yīng)用加上深度學(xué)習(xí)的數(shù)據(jù)需要,使得過去十幾年中涌現(xiàn)出一批高質(zhì)量光學(xué)遙感目標(biāo)檢測數(shù)據(jù)集,其中又以NWPU VHR-10[24]和DOTA[25]使用較為廣泛。

        NWPU VHR-10是西北工業(yè)大學(xué)于2014年發(fā)布的航天遙感目標(biāo)檢測數(shù)據(jù)集。該數(shù)據(jù)集包含10類目標(biāo):飛機(jī)、棒球場、籃球場、橋梁、港口、田徑場、船舶、油罐、網(wǎng)球場和車輛,由715張空間分辨率為0.5~2 m的RGB圖像和85張分辨率為0.08 m的銳化彩色紅外圖像組成,采用水平框(HBB)標(biāo)注。

        DOTA由武漢大學(xué)遙感國家重點(diǎn)實(shí)驗(yàn)室和華中科技大學(xué)聯(lián)合提出,包含15類目標(biāo):飛機(jī)、船舶、儲(chǔ)罐、棒球場、網(wǎng)球場、游泳池、田徑場、港口、橋梁、大型車輛、小型車輛、直升機(jī)、環(huán)島、足球場和籃球場。由包含188282個(gè)目標(biāo)實(shí)例的2806張衛(wèi)星圖像組成,圖像尺寸在800×800到4000×4000之間,采用旋轉(zhuǎn)框(OBB)標(biāo)注。圖像來源于多個(gè)不同的光學(xué)傳感器,空間分辨率在0.1~1 m之間。

        表2選取了7個(gè)公開的光學(xué)遙感圖像目標(biāo)檢測數(shù)據(jù)集,并就空間分辨率、實(shí)例數(shù)、標(biāo)注種類(注:括號(hào)內(nèi)代表細(xì)粒度標(biāo)注種類)等內(nèi)容進(jìn)行對(duì)比。

        表2 公開光學(xué)遙感圖像目標(biāo)檢測數(shù)據(jù)集

        通過分析發(fā)現(xiàn),這些光學(xué)遙感數(shù)據(jù)集的演進(jìn)存在以下趨勢:

        (1)來源更為多樣:早期一些研究者通過訪問政府機(jī)構(gòu)數(shù)據(jù)庫收集遙感圖像。現(xiàn)今數(shù)據(jù)集大多選擇整合了航拍與衛(wèi)星影像的商業(yè)化平臺(tái),如Digital Globe和Google Earth來獲取高分辨率遙感影像;(2)內(nèi)容更為豐富:DIOR[27]、LEVIR[29]等數(shù)據(jù)集都選擇了多數(shù)據(jù)來源,收集了各種復(fù)雜場景下的多分辨率光學(xué)遙感圖像,Weir等[31]提出了首個(gè)多視角遙感數(shù)據(jù)集SpaceNet MVOI。相比于早期數(shù)據(jù)集,這些數(shù)據(jù)集更加貼合真實(shí)場景并緩解了由于傳感器來源單一、觀測區(qū)域重復(fù)等引起的數(shù)據(jù)偏差問題;(3)標(biāo)注信息更為細(xì)致:近年來,許多遙感數(shù)據(jù)集采用旋轉(zhuǎn)邊界框來取代水平框,提供定位精度更高的空間位置標(biāo)注。在類別標(biāo)注上,一些數(shù)據(jù)集也對(duì)物體進(jìn)行了細(xì)粒度的標(biāo)注劃分。FAIR1M對(duì)目標(biāo)進(jìn)行了5種大類別、37個(gè)細(xì)粒度的分類,并采用旋轉(zhuǎn)框標(biāo)注,是目前最大的光學(xué)遙感圖像細(xì)粒度目標(biāo)檢測識(shí)別數(shù)據(jù)集。

        3.2 光學(xué)遙感圖像特性

        光學(xué)遙感傳感器往往位于高空或大氣層外,對(duì)地面呈鳥瞰視角。這使得光學(xué)遙感圖像展現(xiàn)出不同于常規(guī)自然圖像的特殊性質(zhì),也給目標(biāo)檢測任務(wù)帶來了新挑戰(zhàn),具體可總結(jié)為以下五點(diǎn):

        (1)目標(biāo)方向隨機(jī):如圖2(a)所示,不同于自然圖像中目標(biāo)的豎直排布,光學(xué)遙感圖像中的目標(biāo)方向呈多樣隨機(jī)分布,一般稱之為旋轉(zhuǎn)目標(biāo)。

        圖2 光學(xué)遙感圖像特性

        (2)目標(biāo)多尺度:如圖2(b)所示,光學(xué)遙感目標(biāo)有著更為顯著的多尺度特征。目標(biāo)類間、類內(nèi)尺度差異以及空間分辨率變化使圖像內(nèi)目標(biāo)尺度呈現(xiàn)多樣化分布。

        (3)小目標(biāo):如圖2(c)所示,由于空間分辨率限制,光學(xué)遙感圖像存在數(shù)量可觀的小目標(biāo)分布。這些小目標(biāo)往往只有幾十甚至十幾個(gè)像素,缺乏檢測所必要的形狀、顏色、紋理等信息,造成很大程度上的漏檢。

        (4)目標(biāo)密集分布:如圖2(d)所示,在停車場、碼頭等特殊場景中,往往容易出現(xiàn)密集分布情形。稠密排布的目標(biāo)在特征圖上會(huì)出現(xiàn)出現(xiàn)邊界模糊、高密度目標(biāo)特征聚集現(xiàn)象,導(dǎo)致誤檢、定位不準(zhǔn)確和目標(biāo)分類錯(cuò)誤。

        (5)復(fù)雜背景:如圖2(e)所示,光學(xué)遙感圖像中背景情況更為復(fù)雜。一方面,遙感圖像背景像素占有率遠(yuǎn)高于前景,導(dǎo)致檢測器降低了對(duì)目標(biāo)的檢測效率。另一方面遙感圖像中往往包含多種地物,相似地物可能對(duì)目標(biāo)檢測造成干擾導(dǎo)致誤檢。

        4 光學(xué)遙感圖像目標(biāo)檢測算法

        在常規(guī)圖像上性能極佳的經(jīng)典檢測算法遷移后效果并不理想,究其原因是光學(xué)遙感圖像自身特性給檢測器帶來了新挑戰(zhàn)。針對(duì)上述問題,研究者提出了一系列的改進(jìn)算法。本章以目標(biāo)方向隨機(jī)、多尺度、小目標(biāo)、密集分布、復(fù)雜背景5個(gè)方向?yàn)槌霭l(fā)點(diǎn),對(duì)上述改進(jìn)算法進(jìn)行梳理總結(jié)。

        4.1 針對(duì)目標(biāo)方向隨機(jī)的改進(jìn)研究

        為解決目標(biāo)方向隨機(jī)問題,研究者主要采取提取目標(biāo)旋轉(zhuǎn)不變特征和旋轉(zhuǎn)框檢測兩種思路。對(duì)于提取旋轉(zhuǎn)不變特征,可通過數(shù)據(jù)增強(qiáng)和添加旋轉(zhuǎn)不變子模塊兩種方式實(shí)現(xiàn)。數(shù)據(jù)增強(qiáng)就是在訓(xùn)練過程中對(duì)圖像進(jìn)行旋轉(zhuǎn)變換擴(kuò)充訓(xùn)練數(shù)據(jù),增強(qiáng)網(wǎng)絡(luò)對(duì)旋轉(zhuǎn)目標(biāo)的適應(yīng)能力,從而達(dá)到間接提取旋轉(zhuǎn)不變特征的效果。但數(shù)據(jù)增強(qiáng)并未從根本上解決旋轉(zhuǎn)敏感問題,更為有效的做法是在網(wǎng)絡(luò)中添加旋轉(zhuǎn)不變子模塊。Cheng等[32]通過優(yōu)化一個(gè)新目標(biāo)函數(shù),在CNN特征上加入旋轉(zhuǎn)不變正則化和Fisher判別正則化,以實(shí)現(xiàn)旋轉(zhuǎn)不變性。

        水平框在面對(duì)旋轉(zhuǎn)目標(biāo)時(shí)往往會(huì)引入無用背景信息影響模型判斷,這一現(xiàn)象在大長寬比物體檢測中尤為明顯。鑒于此,有研究者選擇旋轉(zhuǎn)框來檢測目標(biāo)。主流方法一般將生成旋轉(zhuǎn)框作為回歸任務(wù),通過回歸表征參數(shù)生成最終預(yù)測結(jié)果。常見的旋轉(zhuǎn)框表示方案有五參數(shù)法[33-34]和八參數(shù)法[19],其中五參數(shù)法回歸目標(biāo)中心點(diǎn)的坐標(biāo)以及寬度、高度和旋轉(zhuǎn)角度;八參數(shù)法則回歸旋轉(zhuǎn)框四個(gè)頂點(diǎn)的水平和垂直坐標(biāo)。

        如圖3所示,基于回歸方法在運(yùn)用中存在邊界問題,即模型損失值在邊界情況下突然增加。邊界問題會(huì)造成模型收斂困難,并影響最終檢測效果。針對(duì)邊界問題,RSDet[35]從改進(jìn)損失函數(shù)的角度出發(fā),弱化邊界情況下訓(xùn)練樣本的損失值,有效緩解了邊界問題。Gliding vertex[19]模型摒棄了直接回歸頂點(diǎn)坐標(biāo)的做法,通過回歸比例因子使頂點(diǎn)在水平框側(cè)邊滑動(dòng),避免了順序歧義。

        圖3 邊界問題示意

        近年來,利用實(shí)例分割[36]和角度分類[37]生成旋轉(zhuǎn)框的方法逐漸流行。分割方法以Mask R-CNN[8]為原型,通過尋找目標(biāo)類別掩膜上的最小外接矩形來生成旋轉(zhuǎn)框,但額外的分割過程也增加了算法復(fù)雜度。角度分類方法與五參數(shù)法類似,但是將其中角度參數(shù)的預(yù)測由連續(xù)回歸轉(zhuǎn)化為離散分類,消除了造成邊界問題的不連續(xù)點(diǎn)。

        4.2 針對(duì)目標(biāo)多尺度的改進(jìn)研究

        針對(duì)遙感目標(biāo)多尺度特點(diǎn),研究者多采用特征融合方法使檢測器兼具多尺度檢測能力。目前常用的特征融合方法主要包括三種:多層級(jí)特征融合、特征金字塔融合以及跨尺度特征融合,其具體結(jié)構(gòu)如圖4所示。

        圖4 特征融合方法

        多層級(jí)特征融合結(jié)構(gòu)將頂層特征與相鄰層相結(jié)合,彌補(bǔ)了網(wǎng)絡(luò)深化帶來的空間信息缺失[34,38]。這種方法連接結(jié)構(gòu)最為簡潔,但沒有充分利用底層豐富的位置信息,導(dǎo)致目標(biāo)定位效果差。特征金字塔借鑒FPN網(wǎng)絡(luò),采用橫向連接模塊將上采樣后的深層特征與相鄰的淺層特征結(jié)合,直到最底層接收到融合信息反饋,從而形成特征金字塔用于多尺度預(yù)測[39]??绯叨热诤戏椒ńY(jié)合上述兩種策略,通過跨尺度融合模塊將特征預(yù)先融合,隨后生成不同規(guī)格特征圖用于后續(xù)檢測[33,40]。融合后的特征有效兼顧了空間和語義信息,但是對(duì)偏離中心層特征進(jìn)行了較大跨度的采樣,這會(huì)導(dǎo)致信息損失。特征金字塔與跨尺度融合相比于第一種方法,都使用了更為復(fù)雜的連接方式,在檢測效果提升的同時(shí)也不可避免引入了大量無用信息。

        除上述特征融合方法,現(xiàn)有大多數(shù)算法在訓(xùn)練過程中,采用圖像金字塔進(jìn)行多尺度訓(xùn)練,融合了更多圖像信息從而加強(qiáng)了模型的特征學(xué)習(xí)能力,但也增加了大量計(jì)算開銷。

        通過對(duì)眾多模型的分析發(fā)現(xiàn),構(gòu)建多尺度特征融合結(jié)構(gòu)并結(jié)合一些優(yōu)化策略如跳躍連接[40]、高低頻特征[41],已成為一種趨勢,可以有效提升遙感圖像目標(biāo)檢測精度。

        4.3 針對(duì)小目標(biāo)檢測的改進(jìn)研究

        小目標(biāo)檢測問題理論上屬于多尺度范疇,因此上述多尺度改進(jìn)方法對(duì)小目標(biāo)檢測有很大借鑒意義。除此之外,研究者主要通過增大特征圖尺寸方法來提升小目標(biāo)檢測的精度。

        增大特征圖尺度的其中一種方法是上文提及的多尺度特征融合,通過拼接淺層的大尺寸特征圖來增強(qiáng)對(duì)小目標(biāo)的特征表示。另外一種方法是通過反卷積對(duì)深層特征上采樣來恢復(fù)丟失的小目標(biāo)信息,這里需要注意的是上采樣只有在深層特征中仍存在小目標(biāo)前提下才有意義。也有一部分工作將兩種方法相結(jié)合,將淺層特征和反卷積輸出融合實(shí)現(xiàn)互補(bǔ),這種方法也被稱為自下而上特征融合[42]。

        近年來,一些研究者將超分辨率技術(shù)應(yīng)用于光學(xué)遙感圖像,該技術(shù)可以重建物體的鑒別信息,從數(shù)據(jù)角度出發(fā)解決小目標(biāo)沒有足夠語義信息的缺陷。當(dāng)前研究主要圍繞基于對(duì)抗生成網(wǎng)絡(luò)(Generative Adversarial Network,GAN)的超分辨率重構(gòu)展開。Mostofa提出一個(gè)聯(lián)合超分辨率遙感車輛檢測器Joint-SRVDNet[43],利用多尺度生成對(duì)抗網(wǎng)絡(luò)輸出2X和4X的超分辨率圖像,隨后使用YOLOv3[10]對(duì)重建圖像進(jìn)行檢測。CycleGAN的提出將數(shù)據(jù)限制由配對(duì)圖像擴(kuò)展到圖像域,解決了匹配數(shù)據(jù)不可用的問題。文獻(xiàn)[44]在檢測網(wǎng)絡(luò)匯總使用了改進(jìn)的CycleGAN模型,增強(qiáng)了遙感圖像中小物體的檢測效果。

        4.4 針對(duì)目標(biāo)密集分布的改進(jìn)研究

        相比于自然圖像中的密集場景如擁擠道路中的車輛檢測,遙感目標(biāo)由于視角原因不易出現(xiàn)遮擋現(xiàn)象,其檢測難點(diǎn)在于密集分布往往與小目標(biāo)緊密聯(lián)系。同時(shí)傾斜排列的密集目標(biāo)采用水平框檢測會(huì)出現(xiàn)高度重疊,導(dǎo)致非極大抑制時(shí)過濾正確目標(biāo)引起漏檢。因此,上述基于小目標(biāo)和旋轉(zhuǎn)目標(biāo)的改進(jìn)都在一定程度上緩解了密集場景。此外,還有許多研究通過特征增強(qiáng)方案來提升單個(gè)目標(biāo)的區(qū)分度。

        Yang等[20]通過設(shè)計(jì)一個(gè)精細(xì)化模塊,利用逐像素插值將邊界框位置信息編碼到對(duì)應(yīng)的特征點(diǎn)上,最大程度保證了目標(biāo)特征和目標(biāo)中心的對(duì)齊,從而提升了密集目標(biāo)的定位精度。SCRDet++[45]借助語義分割網(wǎng)絡(luò)中間層特征來指導(dǎo)特征提取,間接使用注意力機(jī)制倆進(jìn)行密集目標(biāo)特征增強(qiáng),從而提升密集目標(biāo)的邊界區(qū)分度。

        4.5 針對(duì)復(fù)雜背景的改進(jìn)研究

        注意力機(jī)制被視為解決光學(xué)遙感圖像復(fù)雜背景問題的有力方式,其本質(zhì)是一種資源分配的方法,根據(jù)場景中對(duì)象的重要性對(duì)均勻分布的資源重分配。從原理考慮,注意力機(jī)制可以分為空間注意力、通道注意力和聯(lián)合注意機(jī)制。

        空間注意力機(jī)制能夠捕捉像素與像素間關(guān)系,通過掩碼賦權(quán)的方式提升關(guān)鍵區(qū)域的特征表達(dá),當(dāng)前許多研究采用在網(wǎng)絡(luò)中嵌入自注意力模塊的方式生成空間注意力掩碼圖。Wang等[46]將自注意力模塊嵌入主干網(wǎng)絡(luò),以捕獲不同區(qū)域相關(guān)性并獲得更具鑒別性的特征。

        通道注意力機(jī)制旨在通過學(xué)習(xí)的方式為不同通道賦予權(quán)重系數(shù)以強(qiáng)化重要特征。Wu等[47]在可變形卷積網(wǎng)絡(luò)中引入了通道注意力,提出可變形卷積通道注意塊,達(dá)到了抑制遙感圖像背景噪聲突出目標(biāo)的效果。聯(lián)合注意機(jī)制采用空間和通道雙重注意機(jī)制,在圖像和特征通道兩次分配最初均勻分布的權(quán)重。

        注意力機(jī)制較好地解決了遙感圖像中復(fù)雜背景的問題,但是網(wǎng)絡(luò)需要自主學(xué)習(xí)圖像分布并在空間和通道分配權(quán)重,帶來了額外的計(jì)算開銷。

        綜上,針對(duì)光學(xué)遙感圖像的5種顯著特點(diǎn),對(duì)不同的改進(jìn)算法進(jìn)行了細(xì)致的分類總結(jié)。其中,各算法驗(yàn)證大多采用了NWPU VHR-10和DOTA數(shù)據(jù)集,利用多個(gè)檢測類別的平均精度值即mAP來評(píng)估在數(shù)據(jù)集上的整體性能。典型光學(xué)遙感圖像目標(biāo)檢測算法性能對(duì)比如表3所示。

        表3 典型光學(xué)遙感圖像目標(biāo)檢測算法性能對(duì)比

        結(jié)合上述分析和算法對(duì)比,可以得到以下結(jié)論:首先,不同特點(diǎn)之間具有很強(qiáng)的關(guān)聯(lián)性,甚至是共生的。例如:小目標(biāo)往往伴隨有密集分布情形,其相比于其他尺度的物體也更容易受到復(fù)雜背景的干擾。其次,針對(duì)不同特點(diǎn)的改進(jìn)很大程度上也是相通的,例如:注意力機(jī)制可以解決多個(gè)特殊問題;旋轉(zhuǎn)框在一定程度上也降低了密集分布場景的檢測難度。因此,基于光學(xué)遙感圖像的改進(jìn)方法應(yīng)該相互借鑒,使得面向各類特點(diǎn)的多任務(wù)優(yōu)化目標(biāo)得以協(xié)同解決。

        5 研究展望

        近年來基于深度學(xué)習(xí)的光學(xué)遙感目標(biāo)檢測取得了長足的進(jìn)步,但是仍有著巨大的發(fā)展?jié)摿?。我們認(rèn)為光學(xué)遙感圖像目標(biāo)檢測在以下4個(gè)方面值得進(jìn)一步研究:

        (1)高性能網(wǎng)絡(luò)結(jié)構(gòu)。作為模型的基礎(chǔ),基礎(chǔ)網(wǎng)絡(luò)結(jié)構(gòu)是提升算法性能的關(guān)鍵所在。近段時(shí)間以來遙感檢測器性能提升速度有所放緩,表明現(xiàn)有方法已經(jīng)達(dá)到了局限性,因此專門為遙感圖像設(shè)計(jì)高性能網(wǎng)絡(luò)結(jié)構(gòu),將更有效的應(yīng)對(duì)遙感圖像中的復(fù)雜目標(biāo),這無疑是一個(gè)值得的研究方向。

        (2)弱監(jiān)督與半監(jiān)督學(xué)習(xí)。不斷增多的光學(xué)遙感載荷平臺(tái),為研究者提供了指數(shù)級(jí)增長的遙感數(shù)據(jù),但同時(shí)目標(biāo)檢測數(shù)據(jù)集也存在標(biāo)注困難、稀有目標(biāo)缺乏等問題。鑒于此,發(fā)展弱監(jiān)督和半監(jiān)督學(xué)習(xí),在遙感標(biāo)注不明確或目標(biāo)無標(biāo)注情況下訓(xùn)練模型,將會(huì)是未來一項(xiàng)重要的研究內(nèi)容。

        (3)輕量化參數(shù)模型。為了提取具有豐富信息表示的特征,檢測網(wǎng)絡(luò)往往使用深度結(jié)構(gòu),模型收斂需要優(yōu)化大量參數(shù),當(dāng)前便攜嵌入式設(shè)備的低算力也無法實(shí)現(xiàn)此類重型模型。如何在盡量保持性能前提下,借鑒剪枝、量化等、知識(shí)蒸餾等操作生成輕量化模型,對(duì)算法的落地有著重大意義。

        (4)多源遙感數(shù)據(jù)融合。當(dāng)前使用的光學(xué)遙感圖像主要使用RGB三個(gè)波段,限制了其在夜晚、微光、煙霧、偽裝等條件下的應(yīng)用。隨著多光譜、紅外、合成孔徑雷達(dá)傳感器的發(fā)展,未來天基遙感將包含多源異構(gòu)數(shù)據(jù),進(jìn)一步發(fā)展出多源異構(gòu)遙感數(shù)據(jù)為基礎(chǔ)的目標(biāo)檢測。

        猜你喜歡
        特征檢測方法
        “不等式”檢測題
        “一元一次不等式”檢測題
        “一元一次不等式組”檢測題
        如何表達(dá)“特征”
        不忠誠的四個(gè)特征
        抓住特征巧觀察
        可能是方法不對(duì)
        小波變換在PCB缺陷檢測中的應(yīng)用
        用對(duì)方法才能瘦
        Coco薇(2016年2期)2016-03-22 02:42:52
        四大方法 教你不再“坐以待病”!
        Coco薇(2015年1期)2015-08-13 02:47:34
        日本熟妇hd8ex视频| 免费视频爱爱太爽了| 国产99久久精品一区二区| 亚洲成av人片天堂网九九| 国产美女久久久亚洲综合| 国产不卡视频在线观看| 亚洲日韩国产欧美一区二区三区| 亚洲碰碰人人av熟女天堂| 成人无码激情视频在线观看| 亚洲av少妇一区二区在线观看| 免费不卡无码av在线观看| 久久男人av资源网站无码 | 国产精品成人无码久久久久久| 国产二区中文字幕在线观看| 国产极品粉嫩福利姬萌白酱| 久久久久久人妻一区二区三区| 久久精品成人91一区二区| 日韩一级137片内射视频播放| 亚洲av国产av综合av卡| 精品欧美乱码久久久久久1区2区| 国产美女被遭强高潮露开双腿| 亚洲av色福利天堂久久入口| 久久精品夜色国产亚洲av| 亚洲香蕉视频| 中文字幕中乱码一区无线精品 | 免费高清日本一区二区| 亚洲国产av无码精品无广告| 欧洲极品少妇| 久久亚洲国产成人精品v| 美女被内射中出在线观看| 亚洲日韩中文字幕无码一区| 豆国产95在线 | 亚洲| 亚洲一区二区av偷偷| 亚洲av久播在线一区二区| 亚洲日本中文字幕天天更新| 青青青伊人色综合久久亚洲综合| 女优av性天堂网男人天堂| 高清精品一区二区三区| 在线a免费观看| 亚洲精品99久91在线| 欧美性生交大片免费看app麻豆 |