亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        結合強化學習自適應候選框挑選的SAR目標檢測方法

        2022-11-01 10:12:56王梓霖郭昱辰杜宇昂嚴俊坤
        雷達學報 2022年5期
        關鍵詞:候選框尺寸深度

        杜 蘭 王梓霖 郭昱辰 杜宇昂 嚴俊坤

        ①(西安電子科技大學雷達信號處理國家重點實驗室 西安 710071)

        ②(西安電子科技大學前沿交叉研究院 西安 710071)

        1 引言

        合成孔徑雷達(Synthetic Aperture Radar,SAR)可對地面區(qū)域進行大面積的主動微波成像,能夠實現(xiàn)全天時、全天候對地觀測,在軍事領域和民用領域得到廣泛應用。近年來,隨著SAR系統(tǒng)和成像算法逐漸成熟,越來越多高質量的SAR圖像出現(xiàn),如何對SAR圖像進行準確高效的目標檢測是現(xiàn)在研究熱點之一。

        目前傳統(tǒng)的SAR目標檢測方法大都圍繞經(jīng)典的恒虛警率(Constant False Alarm Rate,CFAR)算法展開研究,這是一種基于灰度特征的傳統(tǒng)SAR目標檢測方法。其中雙參數(shù)CFAR方法[1,2]是一種經(jīng)典的局部自適應目標檢測方法。該方法通過預設滑動窗口遍歷SAR圖像實現(xiàn)目標檢測,對窗口內(nèi)像素灰度與自適應閾值進行對比以區(qū)分目標和雜波。自適應閾值由預先設置的恒定虛警率和窗口中的雜波分布確定。文獻[3]提出了一種基于雙邊微調統(tǒng)計的CFAR檢測方法,該方法提出了一種基于雙邊閾值的策略,自動裁剪窗口內(nèi)的樣本來剔除異常值,提高了在海洋場景下的檢測性能。此類方法需要SAR圖像中目標與雜波具有較高對比度來擬合雜波的統(tǒng)計分布,因此只適用于簡單場景,當場景較為復雜時,會造成檢測性能的降低。

        近年來,在光學領域,由于網(wǎng)絡深度的增加以及計算能力的不斷提高[4],基于深度學習的目標檢測方法[5-9]開始占據(jù)主流,取得了不錯的效果。鑒于深度學習在光學圖像目標檢測領域的成功,研究者也將深度學習運用在SAR目標檢測當中[10]?;谏疃葘W習的SAR檢測方法相較于淺層模型方法特征提取能力強、對于復雜SAR圖像場景的檢測效果好。文獻[11]將低層紋理、邊緣特征與高層深度特征進行融合,提高了SAR艦船目標的檢測性能。目前一些基于深度學習的SAR目標檢測方法是由基于區(qū)域的卷積神經(jīng)網(wǎng)絡(Region-CNN,R-CNN)結合候選區(qū)域來設計的兩階段檢測方法。文獻[12]使用多分辨率卷積特征,基于Faster R-CNN方法,對原有的卷積神經(jīng)網(wǎng)絡VGG-16的結構進行改進,提升了對小型目標的檢測效果。文獻[13]在Faster R-CNN算法基礎上,使用SAR分類數(shù)據(jù)集對網(wǎng)絡進行預訓練并擴充訓練數(shù)據(jù),解決了SAR目標檢測訓練樣本不足的問題。此類方法在對區(qū)域候選網(wǎng)絡(Region Proposal Network,RPN)產(chǎn)生的大量候選框進行挑選時,往往采用非極大值抑制(Non-Maximum Suppression,NMS)方法。在大場景SAR圖像檢測中,由于目標特征易受雜波影響,可鑒別性更差,并且單個目標占據(jù)圖像比例更小,導致基于Faster R-CNN的目標檢測方法在整張?zhí)卣鲌D上產(chǎn)生的候選框會包含大量雜波,而NMS方法無法在篩選候選框時有效去除雜波,導致目標檢測產(chǎn)生大量虛警。

        近幾年,在人工智能領域中,強化學習[14,15]得到了廣泛關注。強化學習根據(jù)當前自身狀態(tài)(State)并結合策略(Policy)做出相應的動作(Action),通過與外界的交互獲得不同的獎勵(Reward)來不斷更新自身的狀態(tài)并調整策略,最終形成解決某一問題的最優(yōu)策略。將具有解譯能力的深度學習與具有決策能力的強化學習結合而形成的深度強化學習,可以更好地與其他基于深度學習算法相結合,應用在目標檢測[16-18]中以提高檢測性能。在光學領域,文獻[16]根據(jù)當前收集到的圖像信息,使用強化學習從5個預定義的固定形狀和尺寸的候選區(qū)域中選擇最有可能包含目標的區(qū)域,并通過迭代不斷縮小候選區(qū)域,最終框定目標。但由于預設的候選區(qū)域并不能完全覆蓋所有目標,此方法精度較低。

        受強化學習啟發(fā),本文基于Faster R-CNN檢測模型[7],設計了新的強化學習模型實現(xiàn)自適應候選框挑選,有效減少冗余候選框數(shù)量。提出方法在RPN與感興趣區(qū)域(Regions-of-Interest,RoI)池化層之間加入深度強化學習網(wǎng)絡,對于RPN產(chǎn)生的大量初始候選框,深度強化學習網(wǎng)絡綜合相關信息進行迭代搜索,在特征圖上不斷找到可能含有目標的搜索區(qū)域,并挑選搜索區(qū)域內(nèi)的候選框輸入后續(xù)的檢測器進行分類、回歸,實現(xiàn)對搜索區(qū)域內(nèi)的目標檢測。由于深度強化學習網(wǎng)絡是基于循環(huán)神經(jīng)網(wǎng)絡(Recurrent Neural Network,RNN)設計的,因此可以在迭代過程中捕捉到圖像的上下文信息并確定可能含有目標的搜索區(qū)域的位置坐標。并且,本方法在強化學習中對產(chǎn)生的搜索區(qū)域尺寸添加距離約束,使得搜索區(qū)域尺寸可以根據(jù)之前迭代過程中的搜索區(qū)域以及目標檢測結果進行自適應調整。針對大場景SAR圖像中目標數(shù)量較多,分布情況較為復雜且易受雜波影響的特點,提出方法通過使用強化學習自適應確定搜索區(qū)域實現(xiàn)了對初始候選框的自適應挑選,提升了對背景雜波的鑒別能力并減少傳統(tǒng)強化學習應用于檢測問題的計算量。所提方法自適應確定搜索區(qū)域的能力包括兩方面的自適應,一是通過綜合利用圖像的特征信息和上下文信息自適應確定搜索區(qū)域的位置坐標;二是通過搜索區(qū)域尺寸約束自適應調整下一次搜索區(qū)域的范圍尺寸?;趯崪y數(shù)據(jù)的實驗結果表明,所提方法能夠有效減少SAR目標檢測的虛警數(shù)量,提升傳統(tǒng)深度學習目標檢測方法的檢測性能。

        2 背景介紹

        2.1 Faster R-CNN

        Faster R-CNN[7]是目前比較常用的目標檢測框架,用RPN來獲取區(qū)域候選。如圖1所示,F(xiàn)aster R-CNN的結構可以分為4個主要部分:特征提取網(wǎng)絡、RPN、RoI池化層以及檢測器。其中,特征提取網(wǎng)絡由卷積層、激活函數(shù)和池化層組成,用于提取輸入圖像的特征映射作為輸出。后續(xù)的RPN和檢測器將使用輸出的特征映射完成候選框的生成以及分類、回歸,實現(xiàn)卷積共享。RPN在特征圖中每個點上設置k個錨框,對每個錨框進行二分類和初步位置修正并使用NMS算法進行候選框篩選作為初始的候選框;RoI池化層則負責收集原始的特征圖和候選框,將其整合后提取出候選框對應位置的特征映射;最后輸入檢測器中進行目標分類和邊界框的位置修訂。

        圖1 Faster R-CNN結構Fig.1 Faster R-CNN structure

        2.2 強化學習

        強化學習的過程通??梢杂脠D2中的馬爾可夫決策過程[14](Markov Decision Process,MDP)來描述:智能體(agent)在環(huán)境當中,擁有其對當前環(huán)境感知的狀態(tài)量S;通過策略π:S →A從動作集A中選擇動作a∈A,根據(jù)動作的不同,環(huán)境出現(xiàn)基于一定概率的改變并更新狀態(tài)量S;在狀態(tài)發(fā)生變化的同時,環(huán)境會根據(jù)狀態(tài)變化通過獎勵函數(shù)給予智能體相應的獎勵r。這樣智能體在與環(huán)境交換信息的過程中,依據(jù)得到的獎勵來不斷調整策略,最終得到最優(yōu)策略。

        圖2 強化學習原理Fig.2 Principles of reinforcement learning

        智能體能夠與環(huán)境進行交互,每個狀態(tài)是智能體對當前環(huán)境的感知,并且智能體只能通過動作來影響環(huán)境,而策略能夠指導智能體在當前狀態(tài)下做出何種動作,可以將其表示為一個由狀態(tài)到動作的映射。獎勵是在當前環(huán)境狀態(tài)下,對智能體所進行動作的即時評價,這個評價也是策略優(yōu)化的主要依據(jù),可以表示為獎勵函數(shù)的形式。當智能體做出一個帶來較低獎勵的動作時,當下次遇到相同的環(huán)境狀態(tài)時,調整過的策略就可能會選擇其他的動作來爭取獲得更高的獎勵。強化學習的目標可以確定為:學習一個最優(yōu)策略,來最大化期望累計獎勵。因此,設置合適的狀態(tài)、動作以及獎勵函數(shù),是強化學習獲得最優(yōu)策略的關鍵。

        3 結合強化學習的SAR目標檢測方法

        3.1 總體框架

        本方法基于傳統(tǒng)Faster R-CNN方法,整體框架如圖3所示。除深度強化學習網(wǎng)絡之外,其余各部分與Faster R-CNN模型相似。特征提取網(wǎng)絡采用VGG-16,尺寸為hori×wori×3的輸入SAR圖像在經(jīng)過特征提取后生成h×w×512的特征圖,h和w與輸入圖像的尺寸有關。在獲取特征圖后,RPN會在特征圖的每個像素點上生成k(本文設置k=9)個錨框,并通過softmax二分類器和回歸器獲得更精確的初始候選框,初始候選框將構成深度強化學習網(wǎng)絡輸入的一部分。對于RPN生成的大量初始候選框,我們使用深度強化學習網(wǎng)絡進行區(qū)域搜索實現(xiàn)對初始候選框的挑選,將可能含有目標的候選框送入RoI池化層進行整合。RoI池化層會將挑選出來的候選框對應位置的特征映射劃分為7×7的網(wǎng)格,并對每一個網(wǎng)格進行最大值池化處理,以輸出固定尺寸的特征向量。這些特征向量將被送入檢測器,通過全連接層和softmax計算候選框的具體類別,輸出類別概率預測向量,同時利用邊界框回歸,獲取更準確的檢測目標框。其中深度強化學習網(wǎng)絡采用循環(huán)神經(jīng)網(wǎng)絡實現(xiàn),此網(wǎng)絡可以在特征圖上找到一個可能含有目標的區(qū)域,并將該區(qū)域內(nèi)的候選框送入后續(xù)的檢測器進行分類回歸,然后根據(jù)檢測結果再找到另一個可能含有目標的區(qū)域,繼續(xù)將該區(qū)域內(nèi)的候選框送入檢測器,如此迭代,完成候選框的自適應挑選。

        圖3 結合強化學習的SAR目標檢測方法整體框架Fig.3 Framework of SAR target detection method using reinforcement learning

        深度強化學習網(wǎng)絡部分參考基于卷積門控循環(huán)單元[19](Convolutional Gated Recurrent Unit,Conv-GRU)進行設計。Conv-GRU作為一種計算需求相對較低的循環(huán)神經(jīng)網(wǎng)絡,對網(wǎng)絡輸入輸出具有記憶能力,能夠捕捉迭代過程中的依賴關系,是能夠實現(xiàn)深度強化學習的網(wǎng)絡之一。Conv-GRU智能體的方程式如下:

        其中,*表示卷積乘法,☉表示Hadamard乘積,權重和偏差分別表示為W和b,所有輸入和輸出的空間尺寸是h×w。Ot為重置門,決定如何將新的輸入信息與之前的記憶信息相結合。Zt為更新門,用于控制記憶信息的保留程度。為候選隱藏狀態(tài),包含了當前時刻的輸入信息和上一時刻保留的信息。Ht為最終的隱藏狀態(tài),通過更新門決定如何組合過去的隱藏狀態(tài)和當前的候選隱藏狀態(tài)。在第t次迭代時到達Conv-GRU的輸入是強化學習的狀態(tài)量St和 上一次迭代輸出的隱藏狀態(tài)Ht-1,其中狀態(tài)量由圖像特征和RPN輸出組成,Conv-GRU可根據(jù)圖像信息來進行候選區(qū)域搜索。輸出是對應兩個動作的動作量At,分別決定是否進行候選區(qū)域搜索以及搜索區(qū)域的位置和尺寸。深度強化學習可基于Conv-GRU調整策略,完成狀態(tài)到動作的映射。

        網(wǎng)絡可訓練的參數(shù)部分包括特征提取網(wǎng)絡部分、RPN部分、檢測器部分以及深度強化學習部分。

        3.2 結合強化學習的候選框挑選方法

        下面詳細介紹如何利用深度強化學習網(wǎng)絡進行區(qū)域搜索來實現(xiàn)候選框的自適應挑選。在訓練階段,第t次迭代時,智能體根據(jù)當前狀態(tài)和策略決定是否終止搜索。如果搜索沒有停止,就執(zhí)行固定動作自動獲得新的搜索區(qū)域的位置zt和尺寸參數(shù)pt;RoI觀測量Rt在以zt為中心的搜索區(qū)域中被更新,搜索區(qū)域內(nèi)所有由RPN生成的初始候選框均被發(fā)送到ROI池化層,然后在檢測器中進行分類和邊界框回歸預測。根據(jù)訓練數(shù)據(jù)的標注與預測結果計算獎勵r及檢測結果更新強化學習基本狀態(tài)量St。基于新狀態(tài),在第t+1次迭代時采取新操作,并重復該過程直到發(fā)出停止搜索動作,然后收集整個搜索軌跡中的預測結果并計算總的累積獎勵。訓練的目標即為累積獎勵的最大化,并據(jù)此不斷優(yōu)化策略,最終得到最優(yōu)策略πθ(at|st),具體優(yōu)化方法在3.2.3節(jié)中描述。而在測試過程中,搜索策略將被固定,在第t次迭代時,智能體根據(jù)當前狀態(tài)st和已經(jīng)訓練好的策略πθ(at|st)決定是否搜索以及搜索區(qū)域的位置及尺寸,然后選擇候選框送入后續(xù)檢測部分并更新相應的狀態(tài)量?;谛聽顟B(tài),在第t+1次迭代時采取新操作,并重復該過程直到發(fā)出停止搜索動作,最后收集整個搜索軌跡中的預測結果。算法1展示了強化學習自適應候選框挑選測試過程的偽代碼。下面分別介紹狀態(tài)、動作以及獎勵函數(shù)的具體設置。

        算法 1 自適應候選框挑選方法Alg.1 Adaptive region proposal selection

        3.2.1 狀態(tài)

        狀態(tài)量st是一個數(shù)組,包含3部分:st=(Rt,St,Ht),其中Rt ∈{0,1}h×w×k是RoI 觀測量,St ∈Rh×w×(d+2k+N+1)是 基本狀態(tài)量,而Ht ∈Rh×w×300是Conv-GRU的隱藏狀態(tài),d為VGG-16的輸出特征維度,N是要檢測對象類別的數(shù)量。

        RoI觀測量Rt是一個大小為h×w×k的二元量,其中當相應候選框在搜索區(qū)域內(nèi)時,對應的坐標 (i,j,l)值為1,然后轉入到網(wǎng)絡的RoI池化和檢測器部分進行分類。Rt初始為全零量。在固定動作之后,固定位置zt相鄰區(qū)域的一部分Rt將被更新,模型將在此區(qū)域內(nèi)使用RPN輸出的全部初始候選框進行目標檢測。這個相鄰區(qū)域設置為一個以zt為中心的矩形區(qū)域,區(qū)域的邊長可以進行自適應的調整。將此矩形區(qū)域內(nèi)對應的所有Rt項設置為1,表示此區(qū)域內(nèi)的候選框已經(jīng)被探測過了。

        基礎狀態(tài)量St包括。將V01設置為與輸入RPN相同的基本特征映射,將設置為RPN的二分類量。RPN的回歸量被用于,設置為[0,1]歸一化偏移量[Δx1,Δy1,Δx2,Δy2]。和分別對應著特征圖每個像素位置上預設的k個anchor的二分類和回歸結果。當某一位置在之前的迭代過程中被訪問后,使用Rt更新這些量,將,和中的對應位置設置為-1,表示這些位置已被訪問過,這樣有利于強化學習在下一次迭代過程中對輸入狀態(tài)量的分析,也有利于強化學習策略的訓練,防止在重復的位置上多次進行搜索。表示候選框檢測結果的歷史記錄,將設置為0。強化學習網(wǎng)絡執(zhí)行固定動作獲得搜索區(qū)域后,將區(qū)域內(nèi)的所有候選框送入檢測器進行分類預測,然后使用NMS對已分類的候選框進行篩選。對篩選后的候選框進行邊界框回歸預測,并將輸出結果即最終檢測框的中心坐標和類別概率向量記錄在的相應空間位置,作為下一次迭代過程的輸入狀態(tài)之一。這樣做可以為強化學習提供之前迭代過程中的檢測結果歷史信息,有利于強化學習的決策。

        3.2.2 動作

        同時,為了確定搜索區(qū)域尺寸,我們設計了一種新的基于距離的約束。該約束能夠通過迭代過程中搜索區(qū)域位置的變化,自動調整搜索區(qū)域的尺寸,在準確搜索到含有目標區(qū)域的同時減少傳統(tǒng)強化學習的計算量。具體來說:模型利用本次迭代中選擇的中心坐標z(t)與 上一次迭代選擇的中心坐標z(t-1)對搜索區(qū)域尺寸進行調整,形成參數(shù)pt來確定搜索區(qū)域尺寸。參數(shù)pt的取值區(qū)間為(0,1],計算方法如下:

        其中,Δ=|z(t)-z(t-1)|為兩次搜索區(qū)域中心之間的距離,h0和w0為 初始搜索區(qū)域尺寸(設h<w),與輸入圖像寬高比相同,ht-1和wt-1為t-1次迭代時的搜索區(qū)域尺寸。第t次迭代時的搜索區(qū)域尺寸計算方式如下:

        此設置可實現(xiàn)在兩次迭代過程中,當搜索區(qū)域之間距離較遠時,搜索尺寸擴大;當搜索區(qū)域之間距離較近時,搜索尺寸縮小,減少搜索區(qū)域的重疊,提高搜索效率。

        3.2.3 獎勵

        深度強化學習網(wǎng)絡產(chǎn)生的搜索策略在搜索候選框時,應在保證較高交并比(Intersection over Union,IoU)的同時,盡量減少候選框的數(shù)量。這樣可以在減少虛警(false positive)數(shù)量的同時,節(jié)約處理時間。獎勵函數(shù)以此為標準進行設定。

        將獎勵函數(shù)分為固定動作獎勵和停止動作獎勵部分。其中,對于固定動作,其獎勵函數(shù)由兩部分組成:第1部分為每次執(zhí)行固定動作都將獲得的較小的負獎勵-β(經(jīng)過實驗β設置為0.075);第2部分為智能體執(zhí)行固定動作時獲得的正獎勵,這個正獎勵與在當前圖像的任何真實標注數(shù)據(jù)(ground truth)gi的IoU相關,即如果固定動作在當前圖像與任何gi的IoU增加了,智能體都會獲得正向獎勵。對于每個標注數(shù)據(jù)gi,設置I oUi為在過去0,1,···,t-1次迭代過程中產(chǎn)生的最大的IoU值,并且在t=0時,I oUi=0 。當t≥1 時,設置為在第t次迭代過程中,對于每個標注數(shù)據(jù)gi所產(chǎn)生的最大IoU值。并檢查是否滿足。其中,依據(jù)數(shù)據(jù)集PASCAL VOC的正閾值設置τ=0.5。如果滿足上述情況,將對相應的標注數(shù)據(jù)gi給出正向獎勵并在之后更新。此處,指的是對于第i個標注數(shù)據(jù)gi,在所有可能區(qū)域內(nèi)獲得的最大IoU值(即最終預測的關于標注數(shù)據(jù)gi的真實IoU值)。綜上所述,在第t次迭代時給出的固定動作獎勵為

        其中,當pt <1時,表示強化學習網(wǎng)絡認為在上次迭代中搜索區(qū)域的附近目標分布較密集,因此使用對多目標獎勵較高的函數(shù)形式;而當pt=1,搜索區(qū)域距離較遠時,則使用對單目標獎勵較高的函數(shù)形式。

        對于停止動作,在搜索終止后,智能體會受到一個能夠反映搜索軌跡質量的最終獎勵:

        其中,I oUi經(jīng) 過更新,已經(jīng)成為關于標注數(shù)據(jù)gi在整個搜索迭代過程中所產(chǎn)生的最大IoU值。如果gi沒有被最大限度覆蓋,則會給予智能體一個隨著IoUi減小而不斷增大的負的獎勵值。并且,如果gi已經(jīng)被最大限度的覆蓋了,即I oUi=的時候,本次停止動作的獎勵值將變?yōu)?。

        在訓練過程中通過累積獎勵最大化來優(yōu)化策略,結合REINFORCE[20]方法進行梯度更新,使用50條搜索軌跡來逼近真實梯度,并使用Adam[21]優(yōu)化器來更新策略參數(shù)。

        3.3 訓練

        整個模型需要訓練的參數(shù)可分為兩部分:一部分是原始Faster R-CNN部分的參數(shù),包括特征提取網(wǎng)絡、RPN和檢測器部分參數(shù);另一部分是強化學習搜索策略部分的參數(shù)。兩部分參數(shù)采用交替訓練的方式進行優(yōu)化:當強化學習部分參數(shù)進行更新后(此時原始Faster R-CNN部分參數(shù)保持不變),模型將固定強化學習部分參數(shù)并使用該強化學習策略進行自適應候選框挑選,挑選出的候選框將被送入后續(xù)檢測器進行目標分類和回歸,并以此來更新Faster R-CNN部分的參數(shù)。模型通過兩部分參數(shù)交替更新,反復迭代至收斂。

        4 實驗與分析

        首先對實驗所用數(shù)據(jù)集及評價準則進行介紹,然后與傳統(tǒng)Faster R-CNN及其相關改進方法進行對比分析,對提出的創(chuàng)新點進行實驗驗證,證明所提方法的有效性。實驗平臺為Ubuntu系統(tǒng),代碼基于Tensorflow編寫。訓練方面,本方法采用經(jīng)過預訓練的VGG-16網(wǎng)絡對Faster R-CNN的共享卷積層部分進行參數(shù)初始化;其他網(wǎng)絡層則使用零均值、標準差為0.01的高斯分布進行參數(shù)隨機初始化。

        4.1 實驗設置

        4.1.1 實驗數(shù)據(jù)集介紹

        本文使用MiniSAR數(shù)據(jù)集[22]進行實驗,該數(shù)據(jù)集是美國桑迪亞實驗室在2006年公開的SAR圖像數(shù)據(jù)集,包含復雜場景的SAR實測圖像數(shù)據(jù)。在本文實驗中,共使用9幅SAR圖像(7幅用于訓練,2幅用于測試),設置車輛為感興趣目標。在此數(shù)據(jù)集中,由于圖像的尺寸過大,無法直接輸入網(wǎng)絡。因此,首先將數(shù)據(jù)集中的原始圖像裁剪成許多大小為300像素×300像素的子圖像,并使用這些子圖像進行網(wǎng)絡訓練。與訓練類似,在測試過程中通過滑動窗口,將原始的測試圖像也裁剪為大小為300像素×300像素的子圖像,滑動窗口的步長設置為200像素。對測試子圖像進行檢測后,再將檢測結果恢復到原始大圖中。在恢復過程中,我們對子圖像中的檢測結果進行NMS刪除重復數(shù)據(jù),以獲得最終結果。

        4.1.2 評價準則

        實驗選擇F1-score和接收機性能(Receiver Operating Characteristic,ROC)曲線作為檢測性能的評價準則。F1-score的計算公式如下:

        其中,TP (True Positives)是檢測結果中正確的目標個數(shù),F(xiàn)P (False Positives)為虛警,是檢測結果中錯誤的目標個數(shù),F(xiàn)N (False Negatives)是漏警,是未檢測到的目標個數(shù),P(Precision)是準確率,R(Recall)是召回率。

        ROC曲線的繪制參考文獻[23],曲線描述了真陽率(True Positive Rate,TPR)和假陽率(False Positive Rate,FPR)之間的關系。TPR和FPR的計算公式如下:

        ROC曲線和坐標軸下的面積(Area Under Curve,AUC)用于輔助ROC評估。通常,AUC越大,性能越好。

        4.2 檢測結果分析

        表1對比了不同方法的實驗結果,其中Gaussian-CFAR表示文獻[13]中的方法;Faster R-CNN方法基于文獻[7];SSD方法使用文獻[24];Faster R-CNN+CBAM在Faster R-CNN中加入通道注意力和空間注意力模塊[25]聚焦重要特征來輔助檢測;本文方法-尺寸固定表示只使用強化學習確定搜索區(qū)域位置,而搜索區(qū)域的尺寸不能自適應變化,生成固定尺寸(h0×w0)的搜索區(qū)域來完成候選框挑選,本文中取h0=hori×0.25,w0=wori×0.25。

        表1 不同方法實驗結果Tab.1 Experimental results of different methods

        從表1可以看出,Gaussian-CFAR的F1-score非常低,因為此方法僅使用SAR圖像本身的對比度等信息進行檢測,需要擬合雜波分布,只適用于簡單場景,當場景較為復雜時,會產(chǎn)生大量虛警,造成檢測性能的降低。而傳統(tǒng)Faster R-CNN方法雖然檢測效果好于Gaussian-CFAR,但在深度學習相關方法中F1-score最低,主要原因為虛警很多,很多背景雜波被誤判為目標,導致檢測的準確率降低;SSD方法則通過使用多尺度特征進行預測,相較于傳統(tǒng)Faster R-CNN方法虛警明顯減少,獲得了不錯的性能;Faster R-CNN+CBAM方法在添加了注意力模塊之后,能夠讓網(wǎng)絡更加關注目標區(qū)域,相較于傳統(tǒng)Faster R-CNN方法準確率有所提升,虛警明顯減少;本文方法相較于其他方法,在準確率和召回率上都有一定提升,尤其在減少虛警方面,相較于其他方法提升明顯;當搜索區(qū)域尺寸固定時,本文方法則實現(xiàn)了與Faster R-CNN+CBAM相似的檢測結果,相較于傳統(tǒng)Faster R-CNN方法的F1-score有一定提升,但由于無法自適應確定搜索區(qū)域尺寸,準確率相比本文原始方法有所下降。本文方法的F1-score相較于傳統(tǒng)Faster R-CNN方法提升了0.0329,準確率提升了0.0530。因此,本文方法通過強化學習進行區(qū)域搜索來實現(xiàn)對候選框的自適應挑選,可以有效減少虛警,提升檢測性能。

        圖4展示了各種方法的ROC曲線和相應的AUC值,由于CFAR檢測效果相比于深度學習方法差距較大,研究價值不高,因此只對深度學習相關方法進行了ROC曲線刻畫。我們以檢測結果中的每一個邊界框為對象,設置IoU閾值來判斷邊界框是否檢測到正確目標,并根據(jù)其分類得分由高到低進行排序,通過依次將每個邊界框劃分為正例,來計算不同的TPR和FPR值,最終得到完整的ROC曲線。從中可以發(fā)現(xiàn)本文所提方法可以在保持較低FPR的同時獲得較高的TPR,因此也獲得了最高的AUC值,檢測性能最好。

        圖4 ROC曲線對比分析Fig.4 ROC curves comparative analysis

        圖5分別展示了上述4種方法在MiniSAR數(shù)據(jù)集上兩張圖像的測試結果:圖中綠色框表示檢測正確的目標,紅色框表示檢測錯誤的目標(虛警),藍色框表示未檢測到的目標(漏警)。由圖5可知,在復雜背景雜波的大場景SAR圖像中,傳統(tǒng)Faster R-CNN方法檢測結果虛警較多;本文方法的檢測結果中虛警最少,檢測效果最好,并且在目標數(shù)量較多,排布較密集且有一定規(guī)律時,能實現(xiàn)目標的精確檢測。

        圖5 SAR圖像目標檢測結果Fig.5 Detection results of SAR images

        所提方法檢測效果較好的原因主要有兩方面:第一,采用深度強化學習網(wǎng)絡確定搜索區(qū)域對候選框進行自適應挑選,能夠對RPN生成的大量初始候選框進行鑒別,剔除其中的大量虛警框;第二,實驗所使用數(shù)據(jù)集中的部分車輛目標分布和排列存在一定規(guī)律,本文方法能夠在強化學習訓練過程中學習這些規(guī)律,并在迭代搜索過程中保存這些上下文信息,獲得更好的檢測效果。我們計算了每張訓練圖像在訓練過程中pt=1所占比例來進行實驗驗證。在使用強化學習確定搜索區(qū)域時,pt=1表示本次迭代確定的搜索區(qū)域與上一次迭代確定的搜索區(qū)域之間距離較遠,pt <1則表示本次迭代確定的搜索區(qū)域在上一次迭代確定的搜索區(qū)域附近。因此,如果pt=1所占比例較小,則說明搜索區(qū)域分布較為集中,圖像中的目標數(shù)量較多且分布密集;如果pt=1所占比例較大,則說明搜索區(qū)域較為分散,圖像中的目標數(shù)量較少且分布稀疏。以圖6中兩張訓練圖像樣本為例進行分析,圖中白色框為固定動作所產(chǎn)生的搜索區(qū)域,左上角數(shù)字為區(qū)域的生成順序。圖6(a)中目標較少,因此強化學習只執(zhí)行了3次搜索動作,搜索區(qū)域較為分散,pt值全部為1;而圖6(b)中由于目標數(shù)量較多、分布密集且排列整齊,因此強化學習共執(zhí)行了7次搜索動作,且在目標密集分布的區(qū)域多次生成搜索區(qū)域,pt=1所占比例為0.33,相比于圖6(a)pt=1所占比例明顯減小。這說明,強化學習能夠學習到目標分布的規(guī)律性并應用于檢測:在檢測目標較少、分布稀疏的圖像時,強化學習生成的搜索區(qū)域也較為分散,可以在較少搜索次數(shù)內(nèi)準確找到目標所在區(qū)域;而在檢測目標密集分布的圖像時,強化學習則會在目標密集分布的區(qū)域多次生成搜索區(qū)域來檢測出該區(qū)域內(nèi)的全部目標。

        圖6 訓練圖像樣本示例(白色框為固定動作所產(chǎn)生的搜索區(qū)域)Fig.6 Training image example (The white box indicates the search area generated by fixed action)

        4.3 搜索區(qū)域對檢測的影響

        為了研究搜索區(qū)域對檢測的影響,我們對強化學習的搜索過程進行了分析,并與不使用搜索區(qū)域的Faster R-CNN方法進行了對比。

        圖7展示了測試圖像的強化學習可視化搜索過程。圖7(a)為原始圖像,圖7(b)-圖7(e)展示了本文方法的迭代搜索過程。其中,白色邊框為固定動作所產(chǎn)生的搜索區(qū)域,左上角數(shù)字為區(qū)域的生成順序,其中心位置坐標和尺寸確定方法與3.2節(jié)所述相同;綠色邊框則表示已檢測到目標的邊界框。注意白色邊框表示所挑選初始候選框中心點的區(qū)域集合,而綠色邊框為經(jīng)過回歸的最終目標邊界框,因此白色邊框并不一定完全包裹目標和綠色邊框。

        圖7(b)表示在強化學習第1次迭代過程中,策略執(zhí)行固定動作確定的搜索區(qū)域,之后中心點在搜索區(qū)域內(nèi)的候選框將被挑選并送入后續(xù)的檢測器部分。圖7(c)展示了在搜索區(qū)域內(nèi)檢測到的兩個目標。圖7(d)表示在強化學習第2次迭代過程中,策略執(zhí)行固定動作確定的搜索區(qū)域,由于距離約束的作用,該次搜索區(qū)域尺寸進行自適應調整,較上次迭代有所減小,減少了區(qū)域內(nèi)初始候選框數(shù)量,在能夠檢測到目標的同時,降低了強化學習部分的計算量。圖7(e)展示了在搜索區(qū)域內(nèi)檢測到的所有目標。兩次迭代后,強化學習策略判斷SAR圖像內(nèi)全部目標已經(jīng)檢測完成,停止迭代,完成檢測流程。

        由圖7可視化搜索過程可知,強化學習通過訓練得到的策略,能夠讓搜索區(qū)域更靠近待檢測目標。在迭代搜索過程中,除了利用圖像的特征信息進行決策外,深度強化學習網(wǎng)絡還能夠記錄之前迭代步驟中產(chǎn)生的上下文信息,通過上下文信息進行不同搜索區(qū)域之間的信息交換,幫助決策,能夠有效減少雜波對檢測器的干擾,提高檢測的準確性。

        圖7 可視化搜索過程(白色框為固定動作所產(chǎn)生的搜索區(qū)域)Fig.7 Visualization of search (The white box indicates the search area generated by fixed action)

        為了進一步分析搜索區(qū)域對檢測的影響,我們分別對不使用搜索區(qū)域的Faster R-CNN方法和可以自適應確定搜索區(qū)域的本文方法的RoI分布進行了對比。圖8展示了兩種方法產(chǎn)生的RoI分布對比。圖8(a)為待檢測的原始圖像,圖8(b)為傳統(tǒng)Faster R-CNN產(chǎn)生的RoI分布,圖中高亮區(qū)域為RoI的中心位置。圖8(c)為傳統(tǒng)Faster R-CNN的檢測結果,綠色框表示檢測正確的目標,紅色框表示虛警。圖8(d)為本文方法產(chǎn)生的RoI分布,圖中白框為強化學習產(chǎn)生的搜索區(qū)域,所生成RoI的中心位置均在白框之內(nèi)。圖8(e)為本文方法的檢測結果。結合圖8(b)和圖8(d)可以發(fā)現(xiàn),相較于傳統(tǒng)的Faster R-CNN方法,經(jīng)過本文方法的處理,RoI會更集中地產(chǎn)生在目標附近,因圖片邊緣和復雜背景雜波而產(chǎn)生的RoI大量減少。

        圖8 RoI分布對比(白色框為固定動作所產(chǎn)生的搜索區(qū)域)Fig.8 Visualization of RoI (The white box indicates the search area generated by fixed action)

        結合表1的檢測結果及RoI分布可以分析,F(xiàn)aster R-CNN方法由于采用NMS法對RPN在整張?zhí)卣鲌D上產(chǎn)生的大量初始候選框進行處理,會導致SAR圖像的邊緣和難鑒別的背景雜波位置生成大量RoI,從而造成檢測結果中出現(xiàn)較多虛警。而所提方法則依靠強化學習策略及深度強化學習網(wǎng)絡積累的上下文信息來確定含有目標的搜索區(qū)域,并且只在搜索區(qū)域內(nèi)生成RoI,能夠讓RoI盡可能集中在目標周圍,有效減少圖片邊緣及復雜背景雜波導致的虛警,獲得較好的檢測效果。

        4.4 運行時間分析

        運算速度也是衡量目標檢測算法性能的重要指標之一,本節(jié)對Gaussian-CFAR,Faster R-CNN,Faster R-CNN+CBAM,SSD以及所提方法的運行時間進行比較分析,并分別對所提方法采用固定的搜索區(qū)域尺寸、自適應搜索區(qū)域尺寸進行實驗,我們?nèi)∷袦y試圖像的平均測試時間作為單張圖片的測試時間,結果如圖9所示。

        由圖9可知,Gaussian-CFAR無論在運算速度還是準確率方面與其他方法均具有較大差距。SSD和Faster R-CNN方法的檢測速度較快,但F1-score與其他基于深度學習方法相比較低;添加CBAM注意力模塊后,在檢測速度略有降低的同時,提升了檢測精度;對于本文方法,當采用人工設置的固定的搜索區(qū)域尺寸(h0×w0)時,本文方法的檢測速度會降低,這是由于在兩次強化學習迭代過程中,當搜索區(qū)域尺寸設置較大時,如果兩次搜索區(qū)域較近,會造成搜索區(qū)域的重疊,增加計算量;而當搜索區(qū)域尺寸設置較小時,又會造成檢測區(qū)域過小,需要強化學習迭代更多輪次來找到所有目標。并且,不合理的尺寸設定也會對檢測精度造成影響。因此,本文方法在強化學習迭代過程中通過自適應調整搜索區(qū)域的尺寸,獲得了最高的F1-score,能夠在保證較高檢測精度的同時,提高檢測速度。

        圖9 運行時間與F1-score關系Fig.9 Runtime versus F1-score

        5 結語

        本文針對SAR目標檢測任務,結合強化學習方法對Faster R-CNN模型進行改進,提出新的候選框挑選方法來解決傳統(tǒng)Faster R-CNN模型在檢測過程中易受SAR圖像復雜背景雜波影響而產(chǎn)生大量虛警的問題。本文所提方法利用強化學習序列決策的特點,對大場景SAR圖像中可能含有目標的區(qū)域進行迭代搜索,通過強化學習策略確定搜索區(qū)域的位置坐標和尺寸,最終實現(xiàn)對大量初始候選框的自適應挑選。實驗結果表明,所提方法能夠找到含有待檢測目標的區(qū)域,提升對復雜背景雜波的鑒別能力,有效減少虛警。除此之外,通過在強化學習內(nèi)部添加距離約束,對搜索區(qū)域尺寸進行自適應調整,能夠在進一步提高檢測性能的同時,提高運算速度。與其他主流目標檢測方法進行對比實驗,結果表明本文方法能夠在增加較少運算量的同時,大幅提升SAR目標檢測精度。

        猜你喜歡
        候選框尺寸深度
        尺寸
        智族GQ(2022年12期)2022-12-20 07:01:18
        重定位非極大值抑制算法
        面向自然場景文本檢測的改進NMS算法
        CIIE Shows Positive Energy of Chinese Economy
        基于Soft-NMS的候選框去冗余加速器設計*
        深度理解一元一次方程
        深度觀察
        深度觀察
        深度觀察
        一種針對特定目標的提議算法
        国产综合精品| 开心五月激动心情五月| 日韩精品人妻系列中文字幕| 乱码av麻豆丝袜熟女系列| 欧美性猛交xxxx乱大交丰满| 天天射色综合| 白白色最新福利视频二| 乱中年女人伦| 中文字幕无码不卡免费视频 | 一区二区三区不卡免费av| 国产精品自产拍在线18禁| 亚洲国产成人av在线观看| 亚洲av日韩精品久久久久久 | 另类人妖在线观看一区二区| 夜晚黄色福利国产精品| 夜夜添夜夜添夜夜摸夜夜摸| 麻豆成人在线视频| 中文少妇一区二区三区| 午夜免费观看日韩一级视频| 人妻少妇精品无码专区二区| 亚洲色成人WWW永久在线观看| 亚洲无av码一区二区三区| 精品亚洲国产成人蜜臀av| 国产女女精品视频久热视频| 小13箩利洗澡无码免费视频| 久久精品免费视频亚洲| 内射合集对白在线| 色综合一本| 日本加勒比一区二区在线观看| 97丨九色丨国产人妻熟女| 亚洲美女又黄又爽在线观看| 亚洲国产高清美女在线观看| 亚洲丰满熟女乱一区二区三区| 国产女主播白浆在线观看| 国产一级大片免费看| 日韩人妖一区二区三区| 日本伊人精品一区二区三区| 日韩无套内射视频6| 中文字幕亚洲精品码专区| 精品国产a一区二区三区v| 日本熟妇色xxxxx欧美老妇|