亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于多尺度上下文信息的遮擋行人檢測

        2022-06-09 11:58:32趙世陽王曉峰
        計算機工程與應用 2022年11期
        關鍵詞:行人尺度注意力

        趙世陽,王曉峰

        上海海事大學 信息工程學院,上海 201306

        行人檢測是計算機視覺中的一個經典問題,在自動駕駛汽車、智能監(jiān)控、機器人等應用中發(fā)揮著重要作用,引起了越來越多的關注[1]。大多數(shù)早期的行人檢測方法都是基于手工特征構建的,由于當時缺乏有效的圖像表示,人們只能選擇設計復雜的特征表示,并且需要各種加速技術用盡有限的計算資源。比較典型的方法有梯度特征直方圖[2](histogram of oriented gradients,HOG)和形變部件模型[3](deformable part model,DPM),但傳統(tǒng)基于手工設計的特征易受外部條件的影響,并且所提取特征的魯棒性較弱,所以檢測精度不高。

        近年來隨著深度學習技術的不斷發(fā)展,由于深度卷積神經網絡(convolutional neural networks,CNN)能夠學習圖像的魯棒且高級的特征表示,出現(xiàn)了大量基于深度神經網絡的行人檢測方法。通常,基于CNN的行人檢測器主要分為兩類:第一類稱為二階段檢測器,具有代表性的方法如R-CNN[4]、Fast R-CNN[5]、Faster R-CNN[6]等,這類算法首先會生成一系列的候選區(qū)域用來作為樣本,隨后再通過卷積層來進行樣本的分類,從而檢測出目標的位置;第二類稱為一階段檢測器,常見的算法有YOLO[7]、SSD[8]等,這類算法不需要產生候選區(qū)域,而是直接將目標定位的問題轉化為回歸問題來進行處理。最近,受到關鍵點檢測的啟發(fā),CornerNet[9]提出了一種基于關鍵點檢測的anchor-free檢測方法,在一些研究中,anchor-free思想被應用到行人檢測中,并為行人檢測開辟了新的視野。與傳統(tǒng)的基于anchor-base的檢測方法(如RCNN和SSD)相比,新興的anchor-free檢測方法(如CornerNet)在設計上靈活,取得了更有前景的結果。

        通常情況下,現(xiàn)實場景中的行人檢測總是會受到遮擋帶來的影響,從而導致行人的可見率低,尺度小,難以檢測。因此,如何有效地解決行人遮擋是行人檢測中的一個重要問題。對此,為提高行人遮擋檢測準確率,一些針對遮擋設計的模型也被提了出來。解決遮擋最常見的策略是基于零件模型的方法,DeepParts[10]構建了一系列與特定遮擋模式相對應的零件檢測器,但這種基于零件模型的方法通常很耗時并且難以訓練。Bi-Box[11]使用兩個不同的分支:可見部分預測分支和行人整體預測分支,兩個分支相互補充,根據行人的可見部分來進行遮擋檢測。Repulsion Loss[12]引入了一種全新的回歸損失函數(shù),用來使生成的預測框盡量接近指定目標框,遠離周圍其他的目標框。FasterRCNN+ATT-vbb[13]發(fā)現(xiàn)不同特征通道與不同的身體部位之間的關系,使用通道注意力機制來處理不同的遮擋模式。在各種行人檢測方法中,最近由Liu等人[14]提出的基于中心點和尺度預測的模型(center and scale prediction,CSP)是一種有前途的anchor-free行人檢測器,它可以通過預測行人的中心和尺度來進行檢測。盡管CSP檢測器解決了行人檢測中各種規(guī)模的挑戰(zhàn),但它并未明確解決行人遮擋問題,為了解決這個問題,在CSP算法的基礎上使用了一種多尺度上下文模塊和注意力模塊,用來改善CSP檢測器。本文的主要貢獻包括:

        (1)設計了一種多尺度上下文提取模塊,級聯(lián)不同的擴張卷積來增大感受野,使用密集連接實現(xiàn)多尺度特征共享,提取上下文信息。

        (2)引入了通道注意力模塊來進行多尺度特征融合的調整,增強特征的可分辨性和魯棒性。

        (3)在Caltech數(shù)據集上取得了41.73%的MR-2。

        1 相關工作

        1.1 CSP行人檢測器

        CSP是由Liu等人提出,首次將anchor-free的方法應用到行人檢測領域,取得了很好的檢測結果。一般來說,基于anchor-base的模型在進行預測之前會先設定好一組anchor,然后在推理過程中會在特征圖上使這些anchor進行滑動來提取n個候選框,最后再做進一步的分類和回歸。給定特征圖Φdet和錨框Β,檢測可以表示為:

        然而這些anchor-base的方法都不可避免地需要針對特定的數(shù)據集設計甚至優(yōu)化滑窗或者anchor超參數(shù),從而限制了檢測的精度和通用性。和anchor-base模型不同,CSP認為行人檢測中行人的中心點和尺度都是一種高級的語義特征,行人檢測完全可以轉化為這些語義特征的檢測。在anchor-free的檢測方法中,只需要Φdet這一個參數(shù),檢測任務可以表示為:

        CSP模型的網絡結構主要包括兩個部分:特征提取部分和檢測頭部分。在特征提取階段,使用ResNet50作為主干網絡來提取不同級別的特征,將ResNet50的第3、4、5階段的特征圖分別進行反卷積將尺寸提升到跟2層特征圖相同的大小,并在通道維度上進行拼接生成最終用于檢測的特征圖。在檢測頭部分,在最終的特征圖上使用3×3卷積將其通道縮小到256,并且通過兩個1×1卷積分別來生成中心點的特征熱圖和尺度預測圖,并且額外增加了一個1×1卷積來進行偏移量的預測,用來調整中心點的位置。并根據中心點和尺度進行檢測框的生成。

        基于CSP檢測器的目標損失函數(shù)表示為L,由三個損失函數(shù)加權相加組成:

        其中λc、λs、λo分別代表中心點分類、尺度回歸、偏移量回歸的權重。在實驗中分別設為0.01、1和0.1。

        中心點分類損失函數(shù)定義為Lcenter,為平衡訓練中正負樣本的數(shù)量,使用focal loss的思想進行設計:

        其中,s k、t k分別代表網絡的預測值和真實值。

        偏移損失函數(shù)由SmoothL1表示,與公式(5)類似。

        1.2 上下文信息

        在現(xiàn)實世界當中,一個目標不可能是單獨存在的,在它周圍一定存在著各種各樣的對象,而這個目標則會受到周圍這些對象的影響,這些跟目標有著或多或少關系的對象信息,就是通常所說的上下文信息。當大腦進行目標識別時,上下文信息可以幫助人們利用背景與目標之間的關聯(lián)進行目標的判斷,因此,即使在周圍環(huán)境特別復雜和多變的情況下,依然可以準確地識別和定位多個目標。上下文信息一般分為三類,分別是語義上下文信息、空間上下文信息和尺度上下文信息,有效地運用上下文信息可以提高目標識別的準確度。

        近年來,各種類型的上下文信息被應用到計算機視覺各個領域:如目標檢測、語義分割、人體關鍵點估計等,文獻[15-16]指出背景信息也就是所謂的上下文信息對檢測遮擋的物體至關重要。例如:一個預測框的背景信息為斑馬線,那么該預測框檢測到行人的概率相對比較大,如果檢測框的背景為墻壁或者天空,那很大可能就不是行人。通過上下文信息,往往可以利用行人的可見部分以及周圍的背景信息推測出行人的整體部分,進而進行檢測。由于被遮擋的人群中包含各種尺度的行人實例,越是遮擋嚴重、尺寸較小的行人,需要的上下文信息就越多,而尺寸較大、比較分散的行人需要的上下文信息就比較少。因此,如何提取多尺度的上下文信息是解決遮擋的一個重要問題。Inception[17]運用多個分支結構,多個不同大小的卷積核來捕獲多尺度信息。ASPP[18]引入擴張卷積,利用不同擴張率的3×3卷積來提取多尺度特征。而RFB Net[19]則在兩種方式的基礎上進行改進,堆疊大小和擴張率都不同的卷積核來提高感受野的大小,捕獲更多的上下文信息。受上述方法啟發(fā),本文結合上下文以及多尺度信息,將擴張卷積以及密集連接結合在一起以增強特征的表述,來解決行人遮擋問題。

        1.3 注意力機制

        在認知科學中,人們對所觀察的事物,一般而言并不會去關注事物的全部信息,而是選擇性地關注一些比較重要的信息而忽略其他可見的信息,這種方式就被稱為注意力機制。人類的視覺注意機制啟發(fā)了計算機視覺中注意力機制的發(fā)展。如今,注意力機制的思想被廣泛地應用到許多計算機視覺任務之中,比如圖像分類、語義分割、目標檢測等?;谧⒁饬C制的模型也是取得了良好的效果。SENet[20]通過模擬通道之間的相關性,對特征圖實現(xiàn)通道重構。SKNet[21]受到SENet和Inception的啟發(fā),將SENet和Inception的多分支卷積層相結合,從而進行了改進。此外,CBAM[22]提出了通道注意力機制和空間注意力機制相結合的雙重注意力結構。注意力機制會在提取特征時引導網絡關注有用的信息,抑制沒用的信息,從而讓網絡認識到什么樣的特征需要關注,哪里的特征需要關注。受到上述方法的啟發(fā),本文在網絡特征融合階段引入通道注意力機制,分配給特征通道不同的權重,對融合的特征圖進行自適應的調整。

        2 模型設計

        2.1 總體網絡結構

        模型的整體框架如圖1所示。骨干網絡為ResNet50,與CSP算法相似,檢測頭部分主要包括三個1×1卷積層,分別用來預測中心位置、尺度信息和偏移量。ResNet50分為五個階段,將2到5個階段的輸出特征圖分別定義為φ2、φ3、φ4、φ5??紤]到基于中心點檢測需要更高分辨率的特征圖,因此輸入的圖片分別進行倍數(shù)為4、8、16、16的下采樣用來提高分辨率。其中在特征融合階段,引入了多尺度上下文提取模塊(multi-scale context block,MCB)來進行周圍上下文信息的提取和融合。首先把輸出的特征圖φ3、φ4、φ5通過歸一化和反卷積后將分辨率提升到和φ2相同大小,然后將φ2、φ3、φ4、φ5分別輸入到上下文提取模塊進行上下文信息提取,把提取的特征圖進行拼接后送入通道注意力調節(jié)模塊(channel attention block,CA)進行通道權重調整,生成特征圖φconc,最后將特征圖φconc送到檢測頭進行檢測。接下來將詳細介紹上下文和通道注意力兩個模塊的構造。

        圖1 模型總體網絡結構Fig.1 Overall architecture of model

        2.2 多尺度上下文模塊

        為了增強感受野的大小,提取不同尺度的上下文信息用來加強遮擋檢測,受到ASPP和RFBNet模型的啟發(fā),本文引入擴張卷積來進行上下文信息的提取,但是由于分割和檢測任務的不同,可能會帶來兩個問題,一是過大的擴張率可能會容易引入較多的背景噪音,而較小的擴張率則無法提供足夠大的感受野。二是采用并行設計的結構,每個分支各自獨立,在前饋過程中不會共享任何信息,而且相對于串行設計來說,還會影響模型的效率。

        為了解決上述存在的問題,本文采用級聯(lián)連接的方法來進行擴張卷積,采用較小的擴張率,并且利用DenseNet[23]的思想,在擴張卷積層之間引入跳躍連接來使之共享不同尺度的特征信息。相對于并行設計的結構,使用級聯(lián)方式堆疊的卷積塊可以保持更大的感受野。舉例來說,擴張卷積可以增加卷積核的感受野,一個擴張率為r,卷積核大小為k的感受野為RF=(r-1)×(k-1)+k,因此對于擴張率分別為3、5、7的擴張卷積,基于并行設計的感受野大小為max{k(3),k(5),k(7)}=15,而基于級聯(lián)方式的感受野大小為sum{k(3),k(5),k(7)}-3=30,很明顯,級聯(lián)連接可以在保持效率的同時捕獲更大的感受野,在更大范圍內生成更多尺度的上下文信息。

        MCB的詳細結構如圖2所示,一共有三個卷積塊,每一卷積塊的擴張率逐漸增加,分別為3、5、7,并且在卷積塊之間采用密集連接。每個卷積塊都由一個1×1卷積和擴張率為r的3×3卷積組成,其中1×1卷積也就是常見的bottleneck結構主要是用來降低計算量,由于密集連接采用的是通道連接(即圖中所示的C)而不是相加,所以通道數(shù)會飛速上升,故采用1×1卷積來進行特征通道的降維,之后再接擴張率為r的3×3卷積用來擴大感受野,提取上下文信息。每一個卷積塊的輸入都是前面所有卷積塊的輸出,每一個卷積塊都會與前面所有卷積塊的輸出在通道維度上做一個連接,連接來自不同層的特征圖,提高特征的可重用率。另外,為了保持初始輸入的粗粒度信息,使用全局平均池化和1×1卷積對全局特征進行提取,并經過上采樣操作與三個卷積塊的輸出特征圖進行連接生成最終的特征圖。

        圖2 多尺度上下文模塊Fig.2 Multi-scale context block

        2.3 通道注意力模塊

        盡管上下文提取模塊包含豐富的上下文信息,但并非所有的信息都有助于提升行人檢測的性能,可能會由于冗余信息的誤導而使準確率降低。因此,為了消除冗余信息的負面影響并且進一步增強特征的表示能力,設計了一種注意力引導模塊。對ResNet50每個階段提取的特征圖進行融合時,由于每個特征圖的尺度不同,并且每個特征通道的重要性也不同,因此網絡在進行預測時,對每個特征通道上信息的關注度也應該不同。為了能夠讓檢測器在檢測不同行人時能夠自適應地為每個特征通道分配不同的權值,進而提高有用信息的關注度,受到SENet中通道注意力模塊的啟發(fā),本文將通道注意力機制與多尺度特征融合結合使用,通過通道注意力為融合的特征圖進行自適應的加權調整。該模塊的網絡結構如圖3所示。具體而言,該通道注意力模塊主要包括兩個操作,Squeeze和Excitation。其中,Squeeze部分主要是為了獲取每個通道特征圖的全局信息,生成一個特征向量。這一步通過使用全局平均池化(global average pooling,GAP)來實現(xiàn)。設原始特征為F={f1,f2,…,f c},其中f c代表第c個通道的像素值,那么首先GAP可以表示為:

        圖3 通道注意力模塊Fig.3 Channel attention block

        其中mc為每個通道特征圖的平均值。

        當Sequeeze操作得到了通道的全局特征之后,接下來需要對全局特征做Excitation操作,來獲取通道之間的非線性關系。因此,使用激活函數(shù)Sigmoid來進行操作:

        最后,經過特征向量e調節(jié)后的特征圖作為最終的特征圖送到檢測頭進行預測。該通道注意力模塊可以有效地將不同尺度的特征進行融合,并為特征通道分配不同的權重,使網絡可以自適應地對行人進行檢測。

        3 實驗結果及其分析

        3.1 數(shù)據集

        為了證明該方法的有效性,在目前比較流行的Caltech行人檢測數(shù)據集上進行了評估。Caltech行人檢測數(shù)據集是由Dollar等人提出,由于其出色的泛化能力和數(shù)據規(guī)模被廣泛應用到行人檢測中。Caltech數(shù)據集主要是通過車載攝像頭,在城市街道進行拍攝收集的視頻數(shù)據,共包括11組視頻。前6個視頻集set00~set05用于訓練,其余5個視頻集set06~set10則用于測試。訓練集和測試集分別具有42 782張和4 024張圖像。Caltech數(shù)據集的圖像分辨率為640×480,并對大約2 300個不同的行人進行了標注,包括各種復雜場景中的各種遮擋行人。絕大多數(shù)行人尺寸較小,分辨率較低,像素在30~100之間,并且道路背景復雜,識別比較困難,因此具有一定的檢測難度。本文在合理子集(reasonable,R),遮擋子集(heavy occlusion,HO)和總體數(shù)據集(ALL)對算法進行評估。

        評估的標準是使用對數(shù)平均漏檢率(log-average miss rate,記為MR-2)來檢驗檢測器的性能,計算方式為FPPI-MR(false positives per image against miss rate)曲線在對數(shù)空間[10-2,100]之間均勻分布的9個點的平均值。其較低的值能夠反映出更好的檢測效果。其中MR和FPPI的計算方式如公式(9)和(10)所示,其中FN代表假陰性樣本數(shù)量,F(xiàn)P代表假陽性樣本數(shù)量,TP代表真陽性樣本數(shù)量,N代表圖片的數(shù)量。

        3.2 實驗環(huán)境及訓練細節(jié)

        實驗環(huán)境參數(shù)如表1所示。

        表1 實驗環(huán)境參數(shù)Table 1 Experimental environment parameters

        實驗的主干網絡是在ImageNet上經過預訓練的ResNet50,使用Adam方法進行參數(shù)優(yōu)化,并且應用移動平均權重策略[24]來實現(xiàn)更加穩(wěn)定的訓練。為了增強訓練數(shù)據的多樣性,采用了標準的數(shù)據增強技術,包括隨機色彩失真、隨機水平翻轉、隨機縮放和隨機擦除。對于Caltech數(shù)據集,訓練期間將網絡的輸入分辨率設為336×448,將一個GPU上的Batch Size設定為8,學習率設定為10-4,訓練120個Epoch后停止。

        3.3 實驗結果與分析

        為證明本文提出的改進方法的有效性,首先在Caltech行人數(shù)據集上跟原CSP算法進行對比。計算得到的FPPI-MR曲線如圖4所示,其中4(a)、(b)、(c)分別代表了在合理子集、嚴重遮擋子集和總體的檢測結果。合理子集R的遮擋比例不超過35%,嚴重遮擋子集HO的遮擋比例為35%~80%。實驗結果表明,該算法在HO子集上對原算法提升最大。這是由于遮擋比例大的行人可提取的特征較少,需要更多的上下文信息幫助檢測,MCB模塊采用級聯(lián)的方式來提取上下文,相對于串聯(lián)來說感受野更大,提取的上下文信息更加豐富,并且使用小擴張率,相對于大的擴張率來說,減少了噪音的加入。將MCB模塊添加到CSP算法中,在遮擋行人子集上的MR-2降低了2.92%,引入注意力模塊(CA)進行調整之后,在遮擋子集上的MR-2降低了4.08%。

        圖4 FPPI-MR曲線Fig.4 FPPI-MR curve

        相對于HO子集,原CSP算法在R子集上的性能已接近飽和,所以提升較小,MR-2由4.54%降低為4.35%。R子集由于遮擋較輕,檢測時對周圍上下文信息需求較少,過多的上下文信息可能會影響檢測性能。因此,MCB模塊使用跳躍連接實現(xiàn)特征復用,并使用平均池化和1×1卷積提取原始特征的粗粒度信息進行融合,配合CA模塊利用通道加權抑制冗余的上下文信息,防止在遮擋較輕甚至無遮擋的情況下網絡退化。

        最后在總體行人上添加MCB模塊,MR-2降低了0.79%,添加CA模塊后MR-2降低了1.43%,有效地提升了模型的檢測性能。

        這些結果表明,不同的遮擋比例會減少行人的有效特征,對算法性能的提升有一定的影響。本文提出的算法在遮擋比例達到35%以上時對原算法提升最大,另外在遮擋比例低于35%時也能保持優(yōu)于原算法的檢測性能,因此該算法在不同程度的遮擋比例中有著良好的泛化能力。

        為了更好地評估模型,針對算法的查全率和查準率也做了對比,得到的PR曲線如圖5所示。改進后的算法在R、HO和ALL三個子集上的精確率分別提高了0.09%、3.88%和0.54%,降低了誤檢率,證明了該算法的有效性。

        圖5 PR曲線Fig.5 PR curve

        其次,比較了在特征融合階段的特征圖的不同組合,適當?shù)奶卣魅诤嫌欣诟鞣N規(guī)模的行人檢測。從表2中可以看出,沒有結合φ4、φ5的{φ2、φ3}組合由于沒有融合高級語義特征,因此漏檢率最高,為51.63%,但參數(shù)較少,檢測速度最快;結合了φ4的{φ3、φ4}、{φ2、φ3、φ4}組合,漏檢率分別為48.09%和49.26%,較{φ2、φ3}組合有所下降;而結合了φ4、φ5的{φ4、φ5}、{φ3、φ4、φ5}、{φ2、φ3、φ4、φ5}組合,因為融合了高級語義特征,因此檢測效果較好,但會占用更多的運行內存,所以檢測速度較慢。另外,由于MR{φ3、φ4、φ5}<MR{φ2、φ3、φ4、φ5},MR{φ3、φ4}<MR{φ2、φ3、φ4},因此結合了φ2這種低級的特征圖會使模型的漏檢率升高。所以對于該模型來說,最佳的性能來自于{φ3、φ4、φ5}的組合,漏檢率為41.73%。

        表2 特征融合對比實驗Table 2 Comparisons of different fusion methods

        另外,為了表明MCB模型結構的有效性,在CSP模型的基礎上分別嵌入ASPP、RFBNet進行比較,得到的結果如表3所示。在不加CA模塊的情況下,三個模塊的漏檢率分別為43.60%、43.15%、42.89%,加上CA模塊后漏檢率為42.55%、42.16%、41.73%。由此可以看出,MCB模塊的設計表現(xiàn)效果更好。

        表3 MCB與經典模型的對比實驗Table 3 Comparison of MCB and classic modules

        最后,在Caltech的合理子集(R)、遮擋行人(HO)和總體行人(ALL)三個子集上與當前最先進的模型的MR-2進行比較,包括RPN+BF[25]、MS-CNN[26]、SDS-RCNN[27]、GDFL[28]、ALFNet[29]、CSP以及專門針對行人遮擋設計的DeepParts[10]、Bi-Box[11]、RepLoss[12]、ATT-part[13]。實驗對比結果如表4所示。

        表4 在Caltech上的結果對比實驗Table 4 Comparisons of state-of-the-art detections on Caltech%

        由表4可知,在遮擋情況下,限于行人的可見率和尺度大小,普通的行人檢測器漏檢率普遍較高,而專注于行人遮擋問題提出的檢測器則表現(xiàn)較好。與上述算法相比較,本文提出的算法在遮擋行人中取得了最好的效果。能取得如此良好效果的原因是:由于上述基于anchor-base的算法,直接對整個錨框進行總體的分類來檢測行人,行人的遮擋信息是包含在整體推斷里的,容易造成干擾,而本文采用基于anchor-free的檢測器,行人中心點和尺度的預測是分開進行的,并且使用了高分辨率的特征圖,因此受遮擋和尺度大小的影響相對較小;另外,采用多尺度上下文提取模塊可以提供更多的信息來幫助檢測器進行遮擋行人的推斷,并且注意力模塊通過對特征通道間的調整,增強了行人特征的表示,可以在遮擋方面取得更好的效果。

        圖6展示了CSP模型和本文改進后的模型對于遮擋行人的檢測效果。其中,左邊為原CSP算法的檢測效果,右邊為本文提出的改進后的CSP算法的檢測效果。其中紅色的檢測框代表漏檢,綠色的檢測框代表正確檢測??梢钥闯霰疚牡母倪M的模型在遮擋比例較高的場景下更加具有魯棒性。

        圖6 遮擋場景檢測結果對比Fig.6 Comparisons of occlusion scene detection

        另外,對該算法失效部分的實驗也進行了分析,圖7展示了本文改進的模型在數(shù)據集中失效的場景。通過分析,可以得出失效的場景主要有兩種,像素值過低和遮擋范圍過大。具體來說,行人尺度大小在30~40像素,遮擋比例70%~80%的情況下模型的漏檢率較高;在30像素以下,遮擋比例80%以上模型基本失效。在這種場景下,檢測器可以利用的信息太少,以至于無法進行準確的檢測。大多數(shù)行人都是在30~80像素之間觀察到的,而對于汽車應用而言,進行行人檢測也必須在這個尺度下進行。舉例來說,對于身高1.8 m的行人,可以根據觀察到的像素值對行人的距離進行估計,當車輛以55 km/h的速度行駛時,一個30像素的行人距離車有4 s的距離,而一個80像素的行人只有1.5 s的距離,這就表明,對于30像素以下的行人,檢測會留出足夠的時間來提醒駕駛員,而80像素的行人由于距離過近,對實時檢測的準確性要求就足夠高。所以,盡管該模型會在行人像素過低、遮擋范圍過大的場景中失效,但在一定程度上滿足實時檢測的要求。

        圖7 模型失效場景Fig.7 Model failure scene

        4 結語

        在本文中,針對行人遮擋問題,對基于anchor-free的行人檢測器進行了兩點改進:一是通過上下文模塊級聯(lián)多個擴張卷積層來擴大感受野,使用密集連接實現(xiàn)多尺度特征共享,提取上下文信息;二是利用通道注意力模塊對多尺度特征圖融合進行自適應的調整,增強特征表示。與原算法相比,本文提出的算法在行人遮擋上面表現(xiàn)得更為出色,在Caltech數(shù)據集上的漏檢率降低到了41.73%,驗證了本文方法的有效性。在未來的工作中,將從特征提取能力更強的骨干網絡中進行研究,并且考慮引入時空上下文信息來提高檢測效果。

        猜你喜歡
        行人尺度注意力
        讓注意力“飛”回來
        毒舌出沒,行人避讓
        意林(2021年5期)2021-04-18 12:21:17
        財產的五大尺度和五重應對
        路不為尋找者而設
        揚子江(2019年1期)2019-03-08 02:52:34
        “揚眼”APP:讓注意力“變現(xiàn)”
        傳媒評論(2017年3期)2017-06-13 09:18:10
        我是行人
        A Beautiful Way Of Looking At Things
        宇宙的尺度
        太空探索(2016年5期)2016-07-12 15:17:55
        9
        行人流綜述
        水蜜桃在线精品视频网| 熟妇人妻久久中文字幕| 国产真实伦在线观看| 亚洲av无码专区国产乱码不卡| 自拍 另类 综合 欧美小说| 亚洲无码视频一区:| 国产精品又爽又粗又猛又黄| 三级全黄裸体| 亚洲中文字幕无码久久| 最新国产乱视频伦在线| 久久精品国产一区二区涩涩| 久久影院最新国产精品| 人妻丰满熟妇aⅴ无码| 一本一道av无码中文字幕| 2021国内精品久久久久精免费| 国产不卡在线免费视频| 日韩一区二区中文天堂| 亚洲av无码一区二区三区鸳鸯影院| 麻麻张开腿让我爽了一夜| av深夜福利在线| 亚洲av日韩精品一区二区| 亚洲av日韩av女同同性| 久久婷婷国产剧情内射白浆 | 一区二区特别黄色大片| 日本高清一区二区三区在线观看| 精品国产拍国产天天人| 国产真实露脸4p视频| 韩国女主播一区二区三区在线观看| 91九色老熟女免费资源| 人妻少妇精品专区性色av| 国产欧美日韩专区毛茸茸| 蜜臀av一区二区三区| 日日噜噜夜夜狠狠视频| 亚洲精品乱码久久久久久久久久久久| 久久免费观看国产精品| 亚洲中文字幕视频第一二区| 国产亚洲美女精品久久久2020| 亚洲av鲁丝一区二区三区| 亚洲VR永久无码一区| 91九色熟女潮喷露脸合集| 亚洲综合av一区二区三区|