亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        迭代Faster R-CNN的密集行人檢測

        2023-11-20 10:58:36賀宇哲徐光美于海港
        計算機工程與應(yīng)用 2023年21期
        關(guān)鍵詞:密集集上金字塔

        賀宇哲,徐光美,何 寧,于海港,張 人,晏 康

        1.北京聯(lián)合大學(xué) 北京市信息服務(wù)工程重點實驗室,北京 100101

        2.北京聯(lián)合大學(xué) 智慧城市學(xué)院,北京 100101

        行人檢測作為計算機視覺和模式識別任務(wù)中重要研究內(nèi)容[1],有著非常廣泛的應(yīng)用場景,如自動駕駛、智能監(jiān)控、智能機器人等,尤其在智能監(jiān)控中發(fā)揮著極其重要的作用[2]。行人檢測任務(wù)中常見的是高密度的行人檢測,但密集場景下的行人檢測存在大量的遮擋現(xiàn)象,如街道上的行人。在密集場景下,智能監(jiān)控設(shè)備所能采集到的圖像包含多個相同類別的重疊物體,即傳感器采集密集場景的圖像時,將三維信息映射為二維信息,這不可避免地會產(chǎn)生大量的遮擋現(xiàn)象。當遮擋現(xiàn)象發(fā)生時,行人目標的特征會出現(xiàn)大量干擾信息,基于深度學(xué)習(xí)的行人檢測技術(shù)依據(jù)提取得到的特征進行檢測,所以遮擋現(xiàn)象會導(dǎo)致檢測精度大幅度下降。行人目標的各個身體部位都有可能被遮擋,當行人之間發(fā)生遮擋時,特征圖中單個行人目標自身的特征雖然不會有改變。但是,由于若干個行人目標的特征重疊在一起,特征圖中的高響應(yīng)的區(qū)域會被連接在一起。此時,會對檢測器檢測每個行人目標的邊界造成很大的困難,導(dǎo)致誤檢和漏檢現(xiàn)象發(fā)生。

        基于深度學(xué)習(xí)的行人檢測方法把行人看作是一種特定目標,主要分為以速度占優(yōu)的單階段(one-stage)檢測方法和以精度占優(yōu)的雙階段(two-stage)檢測方法。單階段檢測方法包括YOLO[3]系列、RetinaNet[4]等,雙階段檢測方法包括Faster R-CNN[5]、Cascade R-CNN[6]等。

        目前基于深度學(xué)習(xí)的絕大部分模型都難以應(yīng)對密集場景下的行人檢測任務(wù)[7],造成這種現(xiàn)象的原因有兩點:第一,存在同一類別的多個行人目標的情況下,很難區(qū)分兩個檢測框是屬于同一對象,還是對應(yīng)于不同的重疊對象。第二,嚴重遮擋情況下,檢測模型無法提取較好的特征信息。研究學(xué)者通過改進非極大值抑制(nonmaximum suppression,NMS)的算法,盡管提高了準確性,但這些方法并不能完全解決問題。這是由于基于NMS 的所有改進方法,都需要在精確度和召回率之間尋找一個平衡點,因為既要刪除對同一對象的冗余檢測,又需要保留難以檢測的遮擋對象。

        本文針對密集場景下進行行人檢測普遍存在的遮擋問題,受Cascade R-CNN 中“三思而后行”思想的啟發(fā),設(shè)計了一個基于迭代Faster R-CNN 的密集行人檢測模型,首先利用一種迭代方案[8]對Faster R-CNN模型進行改進,解決NMS 算法及其改進在尋找精確度和召回率之間平衡點的難題。同時,為了能夠進一步提高模型提取特征的能力,利用遞歸金字塔結(jié)構(gòu)(recursive feature pyramid,RFP)[9]替換原始Faster R-CNN 模型中使用的特征金字塔。本文模型相比其他行人檢測架構(gòu),僅需對通用檢測模型做很小的改動,便可獲得更優(yōu)的檢測結(jié)果。本文在具有挑戰(zhàn)性的WiderPerson數(shù)據(jù)集[10]和CrowdHuman 數(shù)據(jù)集[11]上對所提出的模型進行驗證,實驗結(jié)果表明,本文模型相比Faster R-CNN 在兩個數(shù)據(jù)集上,行人檢測的精度和召回率都能夠帶來顯著提升,同時漏檢率也有較大的降低,并且在WiderPerson 數(shù)據(jù)集上獲得SOTA結(jié)果。

        1 相關(guān)工作

        對非極大值抑制算法的改進,往往是學(xué)者們解決行人檢測遮擋問題的重要途徑。標準NMS算法會選擇得分較高的檢測框,并舍棄得分較低的相鄰檢測框。因此,高的抑制參數(shù)提高了檢測精度,低的抑制參數(shù)則提高了召回率。但對于抑制參數(shù)的設(shè)定一直是一個難題,較高或較低的抑制參數(shù)都會導(dǎo)致錯誤。因此,密集場景是NMS算法優(yōu)劣最具挑戰(zhàn)性的檢驗。學(xué)者們試圖改進NMS 算法實現(xiàn)更高效的密集行人檢測。2014 年Rothe等人[12]探討了NMS 作為聚類問題的公式,并通過設(shè)置閾值篩選檢測框。2017年Hosang等人[13]通過神經(jīng)網(wǎng)絡(luò)來代替NMS,利用一個可訓(xùn)練的網(wǎng)絡(luò)來適應(yīng)場景的變化,但存在使用的神經(jīng)網(wǎng)絡(luò)參數(shù)量過大問題。同年,Bodla等人[14]提出Soft NMS有效解決標準NMS抑制參數(shù)設(shè)定的難題。當檢測框重疊程度達到一定閾值后,不將其直接舍棄,而是使其得分降低后進入下一次迭代重新篩選。2019 年Liu 等人[15]提出Adaptive NMS 添加了一個估計目標密度的分支,幫助NMS 的參數(shù)設(shè)定。2020 年Huang 等人[16]提出R2NMS,利用了較少遮擋的可見部分,有效去除了多余的框,而不會帶來更多誤報。除了對非極大值抑制算法改進這條途徑外,學(xué)者們還提出了其他的行人檢測架構(gòu)來應(yīng)對密集環(huán)境下的遮擋問題。2018年Wang等人[17]以Faster R-CNN為基礎(chǔ),提出Repulsion Loss 對損失函數(shù)部分進行優(yōu)化,減小真實目標框和預(yù)測框的距離,增大周圍非目標框的距離,有效改善行人間的遮擋問題。同年,Zhang 等人[18]在Faster R-CNN 目標檢測框架的基礎(chǔ)上,提出了OR-CNN(occlusion-aware R-CNN),并設(shè)計了一個新的聚合損失函數(shù),同時利用遮擋感知池化層(part occlusion-aware region of interest,PORoI)替換原始的RoI池化層,解決了遮擋目標的檢測問題。2020 年Ge 等人[19]提出PSRCNN的雙階段檢測器,該檢測器對無遮擋目標進行檢測,然后對已檢測到的實例進行抑制,使嚴重遮擋的實例特征更易被提取,再對剩下的實例進行檢測,最后將兩次檢測得到的結(jié)果進行合并。同年,Xu 等人[20]提出Beta R-CNN通過一種Beta表示構(gòu)建全身和可見框之間的關(guān)系來描繪行人目標,此外還引入了Beta NMS可以更好地區(qū)分密集場景中高度重疊的行人目標。2021 年Wang等人[21]提出DeFCN,基于FCOS(fully convolutional one-stage object detection),首次在密集場景上利用全卷積結(jié)構(gòu)實現(xiàn)端到端的檢測,即沒有NMS 的后處理操作。

        2 本文方法

        本文針對密集場景下行人檢測普遍存在的遮擋問題,設(shè)計一個基于Faster R-CNN的密集行人檢測模型,骨干網(wǎng)絡(luò)選用ResNet-50,整體結(jié)構(gòu)如圖1 所示,輸入圖像經(jīng)過骨干網(wǎng)絡(luò)(Backbone)后,利用遞歸金字塔與頭模塊(RFP&Head)得到行人目標檢測框,接著將得到的檢測框映射到歷史特征圖(history map),并進行特征融合以便之后的迭代檢測。本文對Faster R-CNN檢測模型進行了如下改進:(1)設(shè)計一種迭代方案,可以很好地解決NMS及其算法在尋找精確度和召回率之間平衡點的難題。(2)利用遞歸金字塔(RFP)提高模型的特征提取能力。

        圖1 基于Faster R-CNN的密集行人檢測模型整體結(jié)構(gòu)圖Fig.1 Overall structure diagram of dense pedestrian detection model based on Faster R-CNN

        2.1 迭代方案設(shè)計

        針對行人檢測任務(wù)中密集場景出現(xiàn)的遮擋導(dǎo)致檢測精度下降問題,本文設(shè)計一種迭代方案(IterDet)對Faster R-CNN 進行改進,解決行人檢測中的遮擋問題。在處理密集行人檢測時,以往的方法都是一次性檢測所有的目標對象,這種處理方式效果并不好,本文希望以一種迭代的方式,提高密集行人檢測效果。該方案無需一次性檢測圖像中的所有對象,而是提供每次迭代的檢測結(jié)果。首先進行第一次迭代,預(yù)測得到目標框并收集結(jié)果,在下一次迭代中將結(jié)果以特征融合的方式傳遞回網(wǎng)絡(luò),目的是在下次迭代中,可以檢測到一個新的對象子集,其結(jié)構(gòu)如圖1所示。本文對該迭代方案的預(yù)測過程和訓(xùn)練過程,分別進行介紹。

        預(yù)測過程:傳統(tǒng)的目標檢測模型D是將輸入圖像I∈Rw×h×3映射到一組邊界框B={(xk,yk,wk,hk)}nk=1 的過程。每個邊界框由左上角的坐標(x,y)、寬度w和高度h共同表示。對于給定的一組邊界框B,定義一個與輸入圖像大小相同的歷史圖像H,其中每個像素記錄覆蓋該像素已檢測到的邊界框數(shù),如公式(1):

        該迭代方案的設(shè)計需要考慮兩方面問題:(1)如何將傳統(tǒng)檢測模型D改進為對歷史圖像敏感的D′。(2)如何強制D′在每次迭代t的過程中預(yù)測不同的對象集Bt。

        檢測模型D′結(jié)構(gòu)設(shè)計?;谏疃葘W(xué)習(xí)的目標檢測模型,首先將圖像傳入已經(jīng)預(yù)訓(xùn)練好的骨干網(wǎng)絡(luò)中。接著,獲得的多層級特征被送入附加的特征提取網(wǎng)絡(luò),如RPN(region proposal network)、FPN(feature pyramid networks)[22]等。最后,通過頭模塊轉(zhuǎn)換為預(yù)測的邊界框,并進行非極大值抑制。本文試圖在傳統(tǒng)檢測模型中做出較小的改動,同時達到最好的效果。

        具體改進方法如下:將經(jīng)過一個卷積層的歷史特征圖與骨干網(wǎng)絡(luò)的第一卷積層的輸出相加。本文選用ResNet-50作為骨干網(wǎng)絡(luò),在添加圖像之前,先通過一個7×7 步長為2,通道數(shù)為64 的卷積,然后利用BN 層和ReLU 層進行處理,再通過一個3×3 步長為2,通道數(shù)為64的卷積,得到歷史圖像特征圖與對應(yīng)圖像的特征圖進行融合,實現(xiàn)檢測模型D′結(jié)構(gòu)的設(shè)計。在預(yù)測過程中提到,歷史圖像中的像素記錄的信息為覆蓋該像素已檢測到的邊界框的數(shù)目,因此像素被越多的邊界框覆蓋,該像素值越大,意味著歷史圖像中像素值大的區(qū)域,遮擋程度越嚴重。將歷史圖像特征圖與對應(yīng)圖像特征圖進行融合,可以使檢測模型更加關(guān)注遮擋程度大的區(qū)域。因此,在上一次迭代輸出的結(jié)果誤報對下一次迭代的負面影響并不大。該設(shè)計可以使檢測模型在進行下一次迭代檢測時,獲取之前迭代過程得到的信息,從而檢測出之前迭代過程中因遮擋嚴重而未被檢測到的目標對象。

        訓(xùn)練過程:D′在每次迭代t的過程中預(yù)測不同的對象集Bt可以通過對訓(xùn)練過程改動來實現(xiàn)。在訓(xùn)練過程中,將真實目標框B′隨機分成兩個子集Bold和Bnew,并且同時滿足Bold?Bnew=B′和Bold?Bnew=0。本文將Bold映射到歷史圖像,并強制D′預(yù)測歷史圖像中缺失的邊界框Bnew。因此,通過計算預(yù)測框B和目標框Bnew之間的誤差,通過反向傳播來優(yōu)化D′的損失。一方面,這種訓(xùn)練方法迫使模型利用歷史圖像,并在每次推理迭代過程中只預(yù)測新的對象。另一方面,通過對Bold和Bnew的不同組合進行采樣,對樣本數(shù)據(jù)進行了擴充。

        2.2 遞歸金字塔結(jié)構(gòu)

        在密集場景的行人檢測任務(wù)中,對特征提取的要求更高。為了能夠提高特征提取能力,如圖1 所示,本文利用遞歸金字塔結(jié)構(gòu)替換原始Faster R-CNN模型中使用的特征金字塔。該結(jié)構(gòu)受Cascade R-CNN 中“三思而后行”思想的級聯(lián)結(jié)構(gòu)啟發(fā),將特征金字塔的輸出結(jié)果重新反饋回骨干網(wǎng)絡(luò)。如圖2 所示,注意,此圖為遞歸金字塔在遞歸次數(shù)為2 時的展開形式。網(wǎng)絡(luò)主要分為三個模塊,特征金字塔模塊(圖2中FPN)、ASPP模塊(圖2中ASPP)、特征融合模塊(圖2中Fusion)。遞歸金字塔結(jié)構(gòu)的遞歸過程如下,在特征金字塔生成多尺度特征表達后,通過ASPP 模塊對特征進行轉(zhuǎn)換便于反饋回骨干網(wǎng)絡(luò),再利用特征融合模塊將兩次特征金字塔輸出特征進行融合,實現(xiàn)一次遞歸。

        圖2 遞歸金字塔結(jié)構(gòu)圖(遞歸次數(shù)為2的展開形式)Fig.2 Recursive pyramid structure diagram(expanded form with recursion 2)

        在特征金字塔網(wǎng)絡(luò)中,其算法流程可用公式(2)表示,其中Bi表示骨干網(wǎng)絡(luò)自底向上的第i個階段操作,F(xiàn)i表示特征金字塔網(wǎng)絡(luò)自頂向下的第i層操作,生成的多尺度特征表達用{fi|i=1,2,…,S}表示,S為特征圖層數(shù)。

        根據(jù)特征金字塔網(wǎng)絡(luò)的算法思路,即公式(2),本文可以得到遞歸金字塔輸出特征fi,如公式(3)所示。其中Ri表示反饋連接到骨干網(wǎng)絡(luò)前的特征轉(zhuǎn)換。

        本文用t表示迭代次數(shù),得到公式(4)。在本文的實驗中,統(tǒng)一設(shè)置t=2。

        本文對骨干網(wǎng)絡(luò)ResNet 中的B進行了修改,使它能夠同時接收x和R(f)作為輸入。ResNet 有四個階段,每個階段由若干個殘差塊組成。本文對ResNet 中每個階段的第一個殘差塊進行修改,如圖3所示。為了使用R(f),對其進行1×1的卷積操作后,與骨干網(wǎng)絡(luò)各階段第一個殘差塊輸出的特征進行融合。

        圖3 RFP特征與ResNet特征融合示意圖Fig.3 Schematic diagram of RFP feature and ResNet feature fusion

        本文使用ASPP 模塊來實現(xiàn)特征f t i到圖3 中遞歸金字塔特征(RFP Features)的轉(zhuǎn)換,如圖4 所示。在該模塊中,有四個并行分支接收輸入特征,然后沿通道維度將其輸出串聯(lián)在一起,形成R的最終輸出。其中三個分支使用卷積層,后面跟ReLU層,輸出通道數(shù)為輸入通道數(shù)(256)的1/4,即輸出通道數(shù)為64 的特征圖,這三個分支中的卷積層按如下設(shè)置:卷積核大小為[1,3,3],空洞卷積率為[1,3,6],填充大小為[0,3,6]。最后一個分支使用全局平均池化,然后利用1×1 卷積層和ReLU層將特征通道轉(zhuǎn)換為輸入特征通道的1/4。最后,將四個分支的特征按照通道進行連接,即圖4中的Concat。

        圖4 ASPP模塊結(jié)構(gòu)圖Fig.4 ASPP module structure diagram

        本文使用一個特征融合模塊,對每次迭代后輸出的特征進行融合,實現(xiàn)更好的多尺度特征表達,如圖5所示。將f t+1i作為輸入,通過1×1卷積和Sigmoid操作得到不同迭代次數(shù)特征的權(quán)重,分別用σ和1-σ表示,由此計算f t+1i與f t i的加權(quán)和,進一步增強多尺度特征表達。

        圖5 融合模塊Fig.5 Fusion module

        3 實驗結(jié)果與分析

        3.1 密集行人檢測數(shù)據(jù)集

        密集行人檢測的實驗分別在WiderPerson 數(shù)據(jù)集和CrowdHuman 數(shù)據(jù)集上進行訓(xùn)練和驗證。以下是對這兩個數(shù)據(jù)集的介紹。展示了WiderPerson 數(shù)據(jù)集和CrowdHuman數(shù)據(jù)集的遮擋程度,如表1所示。

        表1 WiderPerson數(shù)據(jù)集和CrowdHuman數(shù)據(jù)集的遮擋程度Table 1 Occlusion degree of WiderPerson dataset and CrowdHuman dataset單位:%

        WiderPerson數(shù)據(jù)集是擁擠場景的行人檢測基準數(shù)據(jù)集,其圖像從多種場景中選擇,不再局限于交通場景。其包含13 382 張圖片,共計40 萬個不同遮擋程度的人體。其中訓(xùn)練集8 000張圖片,測試集1 000張圖片。

        CrowdHuman 數(shù)據(jù)集在每張圖像包含行人數(shù)量方面及交并比IoU>0.5 的邊界框數(shù)量方面,與其他行人檢測數(shù)據(jù)集相比都是最復(fù)雜的。其中包含從Internet收集的15 000、4 370和5 000張圖像,分別用于訓(xùn)練、驗證和測試。與之前具有挑戰(zhàn)性的行人檢測數(shù)據(jù)集,如與CityPersons數(shù)據(jù)集[23]相比,該數(shù)字提高了10倍以上。在CrowdHuman訓(xùn)練子集中,總?cè)藬?shù)也明顯大于其他行人檢測數(shù)據(jù)集,約340 000人和約99 000人忽略區(qū)域注釋。

        3.2 評估指標

        在WiderPerson 數(shù)據(jù)集和CrowdHuman 數(shù)據(jù)集上采用AP值、Recall值和mMR作為評估指標。AP和Recall遵從MS COCO 數(shù)據(jù)集的計算方式,mMR 表示在9 個FPPI值下(在值域[0.01,1.0]內(nèi)以對數(shù)空間均勻間隔)的平均Miss Rate 值,F(xiàn)PPI 表示平均每張圖片上的FP,如公式(5)所示,其中N表示N張圖片;Miss Rate表示丟失率,如公式(6)所示:

        3.3 實施細節(jié)

        實驗基于PyTorch、CUDA 10.2和mmdetection 2.0目標檢測庫下進行,以基于ResNet-50作為預(yù)訓(xùn)練權(quán)重,在單個NVIDIA RTX2080Ti 上進行訓(xùn)練。在WiderPerson數(shù)據(jù)集和CrowdHuman數(shù)據(jù)集上使用Adam優(yōu)化器進行了24 個epochs 的訓(xùn)練,起初learning rate 設(shè)為1.25E-5,分別在第16 和22 個epochs 后將其降低1/10,輸入圖片尺寸為1 000×600 和1 666×1 000。統(tǒng)一設(shè)置動量因子為0.9,權(quán)重衰減因子為0.000 1,防止模型過擬合。

        3.4 WiderPerson數(shù)據(jù)集實驗結(jié)果分析

        本文在具有挑戰(zhàn)性WiderPerson數(shù)據(jù)集上對提出基于Faster R-CNN的密集行人檢測模型進行驗證。實驗結(jié)果表明,相比作為baseline 的Faster R-CNN 模型,本文模型不僅能在行人目標的檢測精度和召回率帶來提升,值得注意的是,行人存在大量遮擋情況下漏檢率mMR有所降低。如表2所示,相比Faster R-CNN模型,在相同條件下,該模型的行人檢測精度可以獲得2.4 個百分點的提升,召回率可以獲得4.05 個百分點的提升,同時漏檢率mMR可以降低5.63個百分點。這是由于一方面采用IterDet迭代方案,將行人間遮擋的復(fù)雜問題簡單化。無需一次性將所有對象進行檢測,而是在新的迭代過程中以上一次的檢測結(jié)果作為基礎(chǔ),檢測新的對象子集,這樣一些被嚴重遮擋的行人目標也可以通過之后的迭代過程被檢測到,從而大幅降低漏檢的情況。另一方面在加入遞歸金字塔結(jié)構(gòu)后,能夠增強模型的特征提取能力,進一步提高檢測性能。同時,本文模型相比RetinaNet 漏檢率mMR 降低7.89 個百分點。相比行人檢測模型PS-CNN檢測精度提升1.33個百分點,召回率提升2.94 個百分點。相比Adaptive NMS 召回率提升2.78 個百分點,檢測精度提升2.06 個百分點,漏檢率mMR降低3.1個百分點。同時,本文方法相比Repulsion Loss也有更好的表現(xiàn)。將原始的Faster R-CNN與本文的模型在WiderPerson 數(shù)據(jù)集上的檢測效果進行對比,如圖6所示。相比原始的Faster R-CNN檢測模型,在利用迭代方案和遞歸金字塔進行改進后,在行人目標存在大量遮擋的情況下,檢測效果更好且魯棒性更強。

        表2 不同方法在WiderPerson數(shù)據(jù)集性能對比Table 2 Performance comparison of different methods in WiderPerson dataset 單位:%

        圖6 Faster R-CNN與提出模型檢測效果對比Fig.6 Comparison of Faster R-CNN and proposed model

        3.5 CrowdHuman數(shù)據(jù)集實驗結(jié)果分析

        本文將所提出的基于Faster R-CNN的密集行人檢測模型在CrowdHuman 數(shù)據(jù)集上進行驗證。如表3 所示,相比作為baseline 的Faster R-CNN 模型,本文模型的行人檢測精度提升2.32 個百分點和召回率提升3.65個百分點,并且漏檢率mMR 降低2.1 個百分點。同時,本文提出的模型與其他行人檢測模型相比仍有很大的優(yōu)勢。其中,與Adaptive NMS 相比行人檢測精度提升2.56 個百分點,召回率提升2.62 個百分點,并且漏檢率mMR 降低1.34 個百分點。與Repulsion Loss 相比行人檢測精度提升1.56 個百分點,召回率提升3.15 個百分點。與最新的行人檢測方法DeFCN相比,漏檢率mMR可以降低0.51 個百分點。本文展示了所提出模型在CrowdHuman數(shù)據(jù)集上的檢測效果,如圖7所示。

        表3 不同方法在CrowdHuman數(shù)據(jù)集性能對比Table 3 Performance comparison of different methods in CrowdHuman dataset 單位:%

        圖7 模型在CrowdHuman數(shù)據(jù)集上檢測效果圖Fig.7 Model detection effect on CrowdHuman dataset

        3.6 消融實驗

        為探究兩部分改進對本文模型檢測性能的影響,本文在WiderPerson 數(shù)據(jù)集上進行消融實驗,如表4 所示。首先,單獨將迭代方案引入Faster R-CNN,召回率和檢測精度分別能夠顯著提升3.7 和2.0 個百分點,并且漏檢率mMR 降低3.75 個百分點,模型運算量增加22.8 FLOPs,存儲參數(shù)量增加了34.7 MB。這說明通過迭代方案,在每次的迭代過程檢測新的對象子集,相比一次性檢測所有的對象子集的方式,可以更好地應(yīng)對密集場景下存在大量行人間遮擋的情況。接著,單獨將遞歸金字塔(RFP)引入Faster R-CNN,召回率和檢測精度分別能夠帶來3.71和2.11個百分點的顯著提升,并且漏檢率mMR 降低3.25 個百分點,模型運算量僅增加3.7 FLOPs,存儲參數(shù)量僅增加了3.9 MB。說明了遞歸金字塔相比傳統(tǒng)特征金字塔網(wǎng)絡(luò)的特征提取效果更好,能夠使模型發(fā)揮更好的性能。最后,本文將這兩部分改進同時引入,Recall、AP 和mMR 分別能達到97.65%、91.29%和40.43%。

        表4 在WiderPerson數(shù)據(jù)集上各部分消融實驗結(jié)果Table 4 Experimental results of each part of ablation on WiderPerson dataset

        3.6.1 迭代方案

        為了探究迭代方案最優(yōu)的迭代次數(shù),本文分別進行了迭代次數(shù)為1、2、3、4 的實驗,并對結(jié)果進行比較分析,如表5 所示。實驗結(jié)果表明,在迭代次數(shù)為2 時,模型的綜合表現(xiàn)性能達到最優(yōu),召回率、檢測精度和漏檢率分別能夠達到97.3%、90.9%、42.3%,相比第一次的迭代結(jié)果均有提升,漏檢率帶來0.6 個百分點的降低。這說明了改進的模型對歷史圖像敏感,并利用歷史圖像在第二次迭代時提高了密集行人檢測的準確性。同時,展示了在WiderPerson數(shù)據(jù)集上第一次迭代和第二次迭代的結(jié)果,在第一次和第二次迭代中找到的框分別用綠色和黃色標記,如圖8 所示??梢园l(fā)現(xiàn)第二次迭代,模型在利用歷史圖像后,可以找到第一次迭代未發(fā)現(xiàn)的行人目標。在進行第三次迭代時,雖然召回率有少量提升,但關(guān)鍵評估指標漏檢率反而升高。在第四次迭代時,召回率和檢測精度均開始出現(xiàn)降低趨勢,同時漏檢率出現(xiàn)增高趨勢。

        表5 不同迭代次數(shù)在WiderPerson數(shù)據(jù)集上實驗結(jié)果Table 5 Experimental results on WiderPerson dataset with different iterations 單位:%

        圖8 第一次和第二次迭代檢測效果圖Fig.8 First and second iteration detection effect

        3.6.2 遞歸金字塔

        為探究遞歸金字塔各模塊對其性能的影響,本文在WiderPerson數(shù)據(jù)集上進行消融實驗,如表6所示。首先將整個遞歸金字塔(RFP)引入Faster R-CNN,召回率達到97.31%,行人檢測精度能夠達到52.3%,漏檢率mMR達到42.81%,相比原始Faster R-CNN+FPN檢測結(jié)果提升顯著,這說明遞歸金字塔相比傳統(tǒng)特征金字塔結(jié)構(gòu)有更好地特征提取能力。在此基礎(chǔ)上去掉了ASPP 模塊(RFP-ASPP),召回率下降0.5 個百分點,行人檢測精度下降1.17 個百分點,漏檢率mMR 升高0.81 個百分點。在去掉特征融合模塊(RFP-fusion)后,召回率下降0.3個百分點,行人檢測精度下降0.63個百分點,漏檢率mMR升高0.68個百分點。這也驗證了ASPP模塊和特征融合模塊對RFP有積極影響。

        表6 RFP各模塊消融實驗結(jié)果Table 6 Experimental results of ablation of each module of RFP單位:%

        4 結(jié)束語

        本文針對行人檢測在密集場景下普遍存在行人間遮擋問題,提出基于迭代Faster R-CNN的密集行人檢測模型,利用一種迭代方案對Faster R-CNN 模型進行改進,解決NMS 算法及其改進在選擇精確度和召回率之間平衡點的難題。利用遞歸金字塔結(jié)構(gòu)進一步增強模型特征提取能力。實驗證明,本文模型在WiderPerson和CrowdHuman 數(shù)據(jù)集上都獲得了具有顯著提升性能的結(jié)果。

        猜你喜歡
        密集集上金字塔
        “金字塔”
        耕地保護政策密集出臺
        A Study of the Pit-Aided Construction of Egyptian Pyramids
        密集恐懼癥
        英語文摘(2021年2期)2021-07-22 07:56:52
        Cookie-Cutter集上的Gibbs測度
        鏈完備偏序集上廣義向量均衡問題解映射的保序性
        海上有座“金字塔”
        復(fù)扇形指標集上的分布混沌
        神秘金字塔
        童話世界(2017年11期)2017-05-17 05:28:25
        歐盟等一大波家電新標準密集來襲
        久久人妻无码一区二区| 69久久精品亚洲一区二区| 亚洲国产精品久久久婷婷| 国产av天堂亚洲国产av天堂| 久久伊人色av天堂九九| 亚洲丁香五月激情综合| 亚洲av高清一区三区三区| 欧美最猛性xxxx| 黄色a级国产免费大片| 加勒比精品久久一区二区三区| 日本中文字幕人妻精品| 欧美成人精品第一区| 少妇高潮潮喷到猛进猛出小说| 欧美日韩区1区2区3区| 国内国外日产一区二区| 亚洲午夜久久久精品影院| 久久综合九色综合网站| 一区二区三区放荡人妻| 艳妇乳肉豪妇荡乳av无码福利| 国产啪精品视频网站免| 国产一区二区三区的区| 亚洲欧美色一区二区三区| 亚洲欧美日韩高清专区一区| 国产一区二区三区免费主播| 国产亚洲精品国产精品| 久久精品国产亚洲av四虎| 亚洲AV肉丝网站一区二区无码| 在线观看国产激情免费视频| 99久久精品免费看国产| 日本在线观看| 丝袜美腿爆炒国产在线观看| 白白发在线视频免费观看2| 久久aⅴ人妻少妇嫩草影院| 久久国产成人午夜av影院| 日本一区二区三级免费| 无遮挡18禁啪啪羞羞漫画| 成年人黄视频大全| 手机在线看片在线日韩av| 日本伊人精品一区二区三区| www插插插无码免费视频网站| 亚洲蜜芽在线精品一区|