亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

多尺度特征融合重建的行人檢測方法

2021-02-22 12:00:14李佐龍王幫海

計(jì)算機(jī)工程與應(yīng)用 2021年4期

李佐龍，王幫海，盧增

廣東工業(yè)大學(xué) 計(jì)算機(jī)學(xué)院，廣州 510006

幾十年來，行人檢測一直是研究熱點(diǎn)。無論是在汽車輔助駕駛、智能機(jī)器人還是視頻監(jiān)控領(lǐng)域，行人檢測都有廣泛的應(yīng)用。特別是近幾年隨著深度學(xué)習(xí)興起，行人檢測領(lǐng)域有了長足的發(fā)展。傳統(tǒng)的行人檢測方法依賴于滑動窗口和手工提取特征來檢測行人。實(shí)際場景中，行人的衣著服飾顏色、動作姿態(tài)等多樣，這些變化通常影響著手工特征的魯棒性。如何設(shè)計(jì)適應(yīng)性更強(qiáng)的特征提取模塊也是傳統(tǒng)行人檢測領(lǐng)域所要思考和解決的問題。目前，基于手工提取特征和基于神經(jīng)網(wǎng)絡(luò)提取特征是行人檢測領(lǐng)域的主流方法。Dalal等通過刻畫圖像的梯度特征提出了HOG[1]特征描述子。Viola和Jones提出了基于Adaboost 的實(shí)時目標(biāo)檢測方法[2]。Spatial-Pooling[3]提出了一種空間池化的低級視覺特征。Nam等[4]提出了局部去相關(guān)通道特征（Local Decorrelation Channel Features，LDCF）方法，其達(dá)到了當(dāng)時最優(yōu)的檢測效果。近年來，基于深度學(xué)習(xí)的目標(biāo)檢測方法開始涌現(xiàn)。RFBnet[5]提出了RFB（Receptive Field Block）卷積塊并集成到SSD（Single Shot Multibox Detector）[6]網(wǎng)絡(luò)中，增強(qiáng)了卷積網(wǎng)絡(luò)的感受野。ExtremeNet[7]提出了一種無錨框自底向上的檢測網(wǎng)絡(luò)。ScratchDet[8]重設(shè)了SSD網(wǎng)絡(luò)的結(jié)構(gòu)，在不使用分類網(wǎng)絡(luò)預(yù)訓(xùn)練權(quán)值的情況下從零開始訓(xùn)練網(wǎng)絡(luò)。M2Det[9]使用主干網(wǎng)的兩層特征融合輸入到多個級聯(lián)的TUM（Thinned U-shape Modules）模塊中提取最終的多尺度檢測特征。RepLoss[10]和OR-CNN[11]等都提出了魯棒的解決方法，改善了被遮擋行人的檢測效果。

檢測領(lǐng)域的多尺度變化問題歷久彌新。最早解決此問題的方法是通過構(gòu)建圖像金字塔模型[12]，將檢測圖片縮放不同的比例輸入到檢測器。每張圖片的不同尺度都需經(jīng)過檢測器處理，這增加了巨大的計(jì)算量，犧牲了檢測時間。通過卷積神經(jīng)網(wǎng)絡(luò)提取圖像的特征來構(gòu)建特征金字塔是現(xiàn)今應(yīng)對多尺度變化問題的主流方法[13-19]，提取圖像卷積特征節(jié)省了計(jì)算成本和檢測時間。在多尺度的特征金字塔中，底層特征由于并未經(jīng)過太多下采樣操作，仍然保留圖像的細(xì)節(jié)信息，高層特征則包含更多的圖像語義信息。一般而言，高層特征的語義信息更利于圖像的分類任務(wù)，而底層的細(xì)節(jié)特征更利于目標(biāo)的邊框回歸任務(wù)[9]。在已有的一些針對目標(biāo)多尺度變化的模型中存在著一些問題，主要有以下幾點(diǎn)：（1）用主干網(wǎng)中的更低層的卷積特征做檢測計(jì)算量大；（2）模型使用分類主干網(wǎng)的特征直接做檢測，低層特征相對檢測任務(wù)而言特征表示不夠充足[8]；（3）未充分利用金字塔中不同層次特征所包含的信息，高低層特征信息沒有考慮融合性。這些問題導(dǎo)致模型魯棒性不強(qiáng)或計(jì)算量大，在面對多尺度變化問題時并不能很好地解決，特別是對小目標(biāo)檢測表現(xiàn)不佳。

為了解決上述存在的問題并設(shè)計(jì)一個魯棒性更強(qiáng)的多尺度行人檢測網(wǎng)絡(luò)，本文提出MSAnet（Multi-Scale Attention Network）模型。通過設(shè)計(jì)卷積特征重建模塊和通道注意力模塊，融合高低層特征的細(xì)節(jié)信息和語義信息來增強(qiáng)模型性能，兩種模塊可輕松集成到使用多尺度特征的方法中。MSAnet 模型是在RFBnet 中集成卷積特征重建模塊和通道注意力模塊，并重新改進(jìn)此方法的loss 函數(shù)，添加排斥損失，提高模型對遮擋行人的檢測效果。

1 多尺度特征結(jié)構(gòu)

1.1 相關(guān)研究

多尺度特征結(jié)構(gòu)（如圖1 所示）被眾多目標(biāo)檢測算法所使用。RPN+BF[13]在更大尺度的卷積特征上提取預(yù)測框信息，使用多尺度錨框設(shè)計(jì)代替多尺度特征金字塔結(jié)構(gòu)。雖然加入了多尺度的錨框，但是使用更低層特征的計(jì)算量非常大，特征語義信息也不足。低層特征是使用分類網(wǎng)絡(luò)權(quán)值微調(diào)得到的，分類和檢測使用的損失函數(shù)不同，學(xué)習(xí)到的特征表示也會出現(xiàn)偏差[8]。MS-CNN[14]、SSD和RFBnet等一些網(wǎng)絡(luò)使用主干網(wǎng)提取的多層特征直接做檢測，因此網(wǎng)絡(luò)并不會增加太多計(jì)算量，運(yùn)行速度非?？?。高低層學(xué)習(xí)到的特征表示不同，低層更利于邊框回歸任務(wù)，高層更利于分類任務(wù)。SSD型網(wǎng)絡(luò)使用的特征直接提取自主干網(wǎng)，特征之間相互獨(dú)立，并沒有考慮融合性，低層特征語義信息不足會影響檢測器對小目標(biāo)的檢測性能。FPN（Feature Pyramid Network）[15]型的網(wǎng)絡(luò)使用主干網(wǎng)特征相互融合，重新構(gòu)造了一種topdown 結(jié)構(gòu)的特征金字塔，由于并沒有直接使用主干網(wǎng)特征，避免了SSD型網(wǎng)絡(luò)的一些缺點(diǎn)。曾接賢等[16]改進(jìn)了Faster R-CNN[17]網(wǎng)絡(luò)，使用三層融合特征做行人檢測。童靖然等[18]提出特征金字塔融合行人檢測方法，有效解決了多模態(tài)場景的行人檢測問題。郭愛心[19]提出一種多層次卷積特征融合的行人檢測算法，這些設(shè)計(jì)都類似于FPN 型結(jié)構(gòu)。top-down 結(jié)構(gòu)雖然融合了不同特征層的信息，但是用作檢測的特征層信息仍然比較單一，融合不夠充分?；谏鲜鱿嚓P(guān)研究的分析，本文從不同層特征間的相互融合性出發(fā)，設(shè)計(jì)兩種結(jié)構(gòu)來融合不同層的細(xì)節(jié)和語義信息，同時也避免了直接使用主干網(wǎng)特征的缺點(diǎn)。

圖1 多尺度模型

1.2 RFBnet結(jié)構(gòu)

RFBnet 是單階段目標(biāo)檢測器，其設(shè)計(jì)了RFB 卷積塊，能增大卷積核的感受野并減少卷積計(jì)算成本。RFB卷積塊整體結(jié)構(gòu)和Inception[20]的多分支結(jié)構(gòu)思想相似，主要在于RFB卷積塊在分支中加入了空洞卷積（dilated conv）[21]，通過空洞卷積增加卷積核的感受野，加強(qiáng)網(wǎng)絡(luò)的特征提取能力。RFBnet是在輕量級網(wǎng)絡(luò)VGG16[22]上去掉最后的全連接層和soft-max層，然后接RFB卷積塊構(gòu)建的。用VGG16 的預(yù)訓(xùn)練權(quán)值做網(wǎng)絡(luò)初始化，然后在此基礎(chǔ)上訓(xùn)練微調(diào)網(wǎng)絡(luò)。整體結(jié)構(gòu)與圖1 中SSD 型結(jié)構(gòu)相似，使用網(wǎng)絡(luò)最后的六層特征做檢測。

RFBnet在保持實(shí)時性能的同時達(dá)到了和基于深層網(wǎng)絡(luò)檢測器相媲美的精度，但是它仍然保留了SSD型結(jié)構(gòu)的缺點(diǎn)，在檢測多尺度目標(biāo)時性能并不好。本文提出的MSAnet 模型在此基礎(chǔ)上進(jìn)行改進(jìn)，通過融合不同層的特征信息，增強(qiáng)模型對多尺度行人的檢測效果。

2 MSAnet模型

圖2 MSAnet模型

MSAnet使用RFBnet模型主干網(wǎng)的最后6個尺度特征（寬高為38 到寬高為1）作為卷積特征重建模塊的輸入，之后重建為6個多尺度特征金字塔。通道注意力模塊融合6個特征金字塔中相同尺度的特征，融合后的特征中既包含了高層的語義信息也有足夠的底層細(xì)節(jié)信息。為了使有效的特征通道表現(xiàn)得更好，使用注意力機(jī)制為每個通道學(xué)習(xí)一個權(quán)值，增強(qiáng)有效通道的權(quán)重。模型整體結(jié)構(gòu)如圖2所示。

損失函數(shù)是模型中最重要的一環(huán)。RFBnet使用了分類損失和邊框回歸損失訓(xùn)練模型，但是行人檢測中行人遮擋是時常發(fā)生的。行人相互遮擋時，僅僅依賴邊框回歸損失不容易去分辨相互遮擋的行人，容易造成漏檢。因此重新改進(jìn)損失函數(shù)，加入排斥損失。排斥損失的原理是讓預(yù)測框在向所要預(yù)測的目標(biāo)靠攏時遠(yuǎn)離其他的目標(biāo)，這樣兩個相互遮擋行人的預(yù)測框不至于靠得太近而造成漏檢。

2.1 卷積特征重建模塊

卷積特征重建模塊的目的是以原始輸入特征金字塔的每一層特征為基礎(chǔ)，重塑為一個完整的特征金字塔。模塊的結(jié)構(gòu)如圖3所示。這里為了美觀簡潔，只使用三層特征作為示例，其中深色金字塔代表原始輸入特征，白色代表重建之后的特征金字塔，演示原始特征金字塔的Feature2 特征如何重建為完整特征金字塔。原始特征金字塔中的不同尺度特征的通道數(shù)并不相同，為了不增加太多計(jì)算量并能融合不同尺度的特征，設(shè)置重建金字塔的特征通道數(shù)統(tǒng)一為256。

圖3 卷積特征重建模塊

首先將Feature2 經(jīng)過卷積核為1 的BasicConv 卷積得到通道數(shù)為256的Feature5特征，F(xiàn)eature5特征經(jīng)過上采樣和下采樣操作重建多尺度特征金字塔。上采樣操作先將Feature5 特征經(jīng)過雙線性插值法放大為原來的兩倍得到temp1 特征，再將Feature1 通過卷積核為1 的BasicConv卷積提取通道數(shù)為256的temp2特征，然后將temp1和temp2這兩個特征相加融合得到最終上采樣的Feature4 特征。下采樣操作相對比較簡單，將Feature5通過卷積核為3 的BasicConv 卷積并設(shè)置Stride 為 2 達(dá)到下采樣目的，得到Feature6。至此，原始中間層的Feature2特征完成重建。原始輸入特征金字塔的其他中間層的特征重建步驟基本一樣，而最大尺度特征只經(jīng)過下采樣操作，最小尺度的特征只經(jīng)過上采樣。重建后的特征金字塔融合了原始特征中的多尺度信息，低層特征也能包含更多的語義信息，檢測效果更好。

BasicConv 卷積涉及3 個操作，輸入的特征首先通過普通卷積層提取，然后使用BatchNorm層做數(shù)據(jù)歸一化處理，讓網(wǎng)絡(luò)提取的特征不至于因?yàn)閿?shù)值過大而出現(xiàn)不穩(wěn)定的情況，最后經(jīng)過ReLU（Rectified Linear Unit）激活函數(shù)處理。

2.2 通道注意力模塊

重建模塊得到的多個特征金字塔中，既有低層特征重建的特征金字塔，也有高層特征重建的特征金字塔。通過通道注意力模塊融合多個金字塔中相同尺度的特征，這樣得到的最終用作檢測的特征信息更加豐富，避免了主干網(wǎng)中的特征對檢測任務(wù)而言特征表示不夠充足的問題。同時，特征包含了高低層語義和細(xì)節(jié)信息，這樣既利于檢測框的準(zhǔn)確生成，也利于網(wǎng)絡(luò)分辨背景和行人。融合后的最終特征不同通道的作用不同，為了增強(qiáng)更利于提高檢測效果的通道特征的表示，使用SEnet[23]提出的注意力方法設(shè)置一個通道注意力機(jī)制，讓網(wǎng)絡(luò)自己去學(xué)習(xí)怎樣利用融合特征中不同的通道特征。

通道注意力模塊整體結(jié)構(gòu)如圖4 所示。多個金字塔中寬高為10 通道數(shù)為256 的特征經(jīng)過Concat 操作融合成寬高為10 通道數(shù)為1 536 的融合特征。融合特征再經(jīng)過Attention 機(jī)制增強(qiáng)不同特征通道的效果。最終得到的特征才用作最后的檢測層使用。

圖4 通道注意力模塊

Attention 的實(shí)現(xiàn)方式是將需要增強(qiáng)通道的融合特征作為輸入，然后通過全局平均池化（Global Average Pooling）壓縮每個通道的特征尺寸。圖4中的融合特征輸入之后，全局平均池化使融合特征的寬高變?yōu)?，通道數(shù)保持為1 536。再經(jīng)過兩個用作激勵的全連接層和ReLU 激活函數(shù)層，其中第一個全連接層的輸出維度變?yōu)樵瓉淼?/16，第二個全連接層輸出再恢復(fù)成原來的通道數(shù)，以此在編碼解碼的激勵操作同時也不至于增加太多計(jì)算量。最后第二個全連接層的輸出經(jīng)過Sigmoid函數(shù)求得融合特征的每個通道的注意力權(quán)值。

2.3 損失函數(shù)

行人之間遮擋造成一個預(yù)測框可能同時包含兩個或者更多人，導(dǎo)致經(jīng)過非極大值抑制[24]處理后只會留下一個框，造成漏檢。結(jié)合文獻(xiàn)[10-11]的思想設(shè)計(jì)處理遮擋問題的loss 函數(shù)，添加排斥損失，使得目標(biāo)行人的預(yù)測框遠(yuǎn)離其他行人，并且盡可能靠近要預(yù)測的真實(shí)目標(biāo)框。模型在loss 函數(shù)的作用下更易檢測相互遮擋間的行人。新的loss函數(shù)為：

其中，T是預(yù)測框與真實(shí)框交并比大于閾值的預(yù)測框（正例樣本）的數(shù)量。計(jì)算正例樣本損失時a值為1，否則為0。Lconf、Lloc和Lrep分別是類別置信度損失、邊框回歸損失和排斥損失。

每個預(yù)測框包含N（負(fù)例樣本）和P（正例樣本）的類別置信度信息，置信度損失訓(xùn)練網(wǎng)絡(luò)正確地給每個預(yù)測框分類。類別置信度損失表達(dá)形式為：

其中，表示計(jì)算第i個框所屬類別概率的對數(shù)值。假設(shè)第i個框是正例樣本，那么它為行人類的概率值越高，就越接近于0。

邊框回歸損失函數(shù)吸引預(yù)測框靠近真實(shí)框，與眾多通用目標(biāo)檢測相似，使用SmoothL1函數(shù)衡量預(yù)測框和真實(shí)框的匹配程度。邊框回歸損失為：

其中，l、g分別為正例樣本和與每個正例樣本相匹配的真實(shí)框，每個檢測框用框的中心點(diǎn)坐標(biāo)(cx,cy)和寬高(w,h)4個值表示。

Lrep項(xiàng)為排斥損失，目的是讓非此目標(biāo)的預(yù)測框遠(yuǎn)離此目標(biāo)，計(jì)算表達(dá)式為：

通過計(jì)算預(yù)測框和與其相對應(yīng)排斥框的cov值再求排斥損失。

3 實(shí)驗(yàn)結(jié)果及分析

在 Caltech-USA[25]、INRIA[1]和 ETH[26]數(shù)據(jù)集上進(jìn)行訓(xùn)練和測試，驗(yàn)證MSAnet方法的檢測效果，并與其他具有代表性的方法進(jìn)行比較。

3.1 模型訓(xùn)練設(shè)置

實(shí)驗(yàn)是在Ubuntu16.04系統(tǒng)下進(jìn)行，使用Pytorch 1.1.0深度學(xué)習(xí)框架，其他配置包括NVIDIA1070、CUDA10.1和CUDNN7.6.0。MSAnet模型使用VGG16的預(yù)訓(xùn)練權(quán)值進(jìn)行網(wǎng)絡(luò)初始化。訓(xùn)練和測試的圖片數(shù)據(jù)統(tǒng)一等比例縮放至300×300 的分辨率，同時也使用了隨機(jī)擴(kuò)張、隨機(jī)裁剪等一些數(shù)據(jù)增強(qiáng)技巧。網(wǎng)絡(luò)使用隨機(jī)梯度下降法（Stochastic Gradient Descent，SGD）進(jìn)行訓(xùn)練。

模型總共訓(xùn)練 210 個 epoch，batch-size 為 16。學(xué)習(xí)率（learning-rate）采用多分步策略，初始學(xué)習(xí)率為4E-3，此后在150、180 和200 個epoch 時學(xué)習(xí)率每次衰減為原來的1/10。參數(shù)衰減值（weight-decay）為0.000 5，動量因子（momentum）為0.9。為防止初始loss爆炸，前10個epoch的學(xué)習(xí)率從1E-4逐漸升至4E-3。

3.2 數(shù)據(jù)集介紹

Caltech-USA、INRIA 和ETH 是行人檢測領(lǐng)域最常用的數(shù)據(jù)集[1-4，13-14]，非常符合本文方法的實(shí)驗(yàn)要求。Caltech-USA 和INRIA 兩個數(shù)據(jù)集用于驗(yàn)證方法效果，ETH數(shù)據(jù)集用于驗(yàn)證方法泛化性能。

3.2.1 Caltech-USA數(shù)據(jù)集

Caltech-USA是加州理工大學(xué)制作用于行人檢測的數(shù)據(jù)集。使用車載攝像頭在城市道路中拍攝的多段視頻進(jìn)行制作，其中前6 段視頻用作訓(xùn)練，后5 段用作測試。所有視頻的分辨率為640×480，總共包含25 萬幀，標(biāo)注了35萬個行人框，約有2 300個行人。訓(xùn)練設(shè)置和文獻(xiàn)[27]相似，每6幀抽取一張圖像，對訓(xùn)練數(shù)據(jù)進(jìn)行了篩選，去掉遮擋嚴(yán)重和無行人的圖像數(shù)據(jù)。

測試集包含 4 個子集 Reasonable、Large、Medium 和Far。Reasonble子集被眾多行人檢測方法用來評估模型性能，F(xiàn)ar 子集中的行人高度只占圖像高度的4.17%到6.25%，對比完整的圖像高度算是非常小的行人。各子集屬性如表1所示。

表1 多個子集屬性

3.2.2 INRIA和ETH數(shù)據(jù)集

INRIA 數(shù)據(jù)集包含了各式各樣從高分辨率圖像上裁剪的圖片，每張圖像上都是不同的背景和行人?？偣灿? 120 張圖片，其中1 832 張用作訓(xùn)練，288 張用作測試。訓(xùn)練樣本中只有614 張圖是正例樣本，其他1 218張圖是不包含行人的負(fù)例樣本。

ETH 數(shù)據(jù)集由三段在繁忙的步行街上拍攝的視頻制作而成，存在許多不同尺度和遮擋的行人，總共包含1 804幀。ETH數(shù)據(jù)集上并沒有區(qū)分訓(xùn)練數(shù)據(jù)和測試數(shù)據(jù)，因此ETH數(shù)據(jù)集上的1 804張圖像數(shù)據(jù)都被用來做測試，驗(yàn)證模型的泛化性能。

3.3 實(shí)驗(yàn)

3.3.1 驗(yàn)證模塊及損失函數(shù)的有效性

在Caltech-USA 數(shù)據(jù)集的Reasonable、Medium、Far和Large 子集上進(jìn)行測試。設(shè)置多組對比實(shí)驗(yàn)驗(yàn)證模塊及損失函數(shù)的有效性。采用文獻(xiàn)[28]提出的專門用于行人檢測的評估方法計(jì)算測試結(jié)果的LAMR（Log-Average Miss Rate）值，LAMR值越低則檢測效果越好。

在Caltech-USA測試集的子集上比較模型對多尺度行人的檢測效果。如表2 所示，MSAnet 在未加入排斥損失時，在各子集上的表現(xiàn)就已經(jīng)超過了眾多方法，加入了針對行人間相互遮擋的排斥損失后，在子集上的性能繼續(xù)提升。對比原始RFBnet 和其他多尺度方法，MSAnet的檢測效果更好，在Reasonable子集上達(dá)到8.7%的LAMR 值，在小行人的Far 子集上的LAMR 值達(dá)到73.1%。原始MSAnet模型的損失函數(shù)和RFBnet基本相似，模型的行人框的生成主要靠邊框回歸損失來訓(xùn)練，加入的排斥損失起到輔助網(wǎng)絡(luò)訓(xùn)練的作用，彌補(bǔ)邊框回歸損失的不足，幫助網(wǎng)絡(luò)更易區(qū)分相互遮擋的行人。

表2 多尺度行人檢測效果（LAMR值） %

文獻(xiàn)[16]和文獻(xiàn)[19]都是在Faster R-CNN網(wǎng)絡(luò)上做改進(jìn)，類似于FPN 中的top-down結(jié)構(gòu)，融合不同層的特征增強(qiáng)對不同尺度行人的檢測效果，他們的特征主要來源于主干網(wǎng)的直接提取。RFBnet和MS-CNN直接使用主干網(wǎng)中的特征做檢測，這樣的特征還有很大改進(jìn)空間。MSAnet使用卷積特征重建模塊和通道注意力模塊提取融合主干網(wǎng)中的多尺度特征，這樣低層特征能融合更多語義信息，增強(qiáng)了特征對檢測任務(wù)的作用。MSAnet在4個子集上的檢測效果也驗(yàn)證了改進(jìn)模塊的有效性，在面對多尺度任務(wù)時，MSAnet的檢測效果更好。

3.3.2 各方法在多個數(shù)據(jù)集上比較

在Caltech-USA、INRIA 和ETH 數(shù)據(jù)集上與其他具有代表性的方法進(jìn)行比較，計(jì)算每個方法的LAMR 值，并繪制漏檢率（Miss Rate）和FPPI（False Positives Per Image）曲線圖。

在Caltech-USA 和INRIA 的訓(xùn)練集上進(jìn)行聯(lián)合訓(xùn)練，并在Caltech-USA測試集上測試，測試結(jié)果如圖5所示。使用前面聯(lián)合訓(xùn)練得到的模型繼續(xù)在INRIA 數(shù)據(jù)集的訓(xùn)練數(shù)據(jù)上進(jìn)行微調(diào)，然后在INRIA 數(shù)據(jù)集上測試，得到測試結(jié)果如圖6所示。ETH數(shù)據(jù)集上并未劃分訓(xùn)練數(shù)據(jù)和測試數(shù)據(jù)，因此用在INRIA數(shù)據(jù)集上得到的模型直接在ETH 數(shù)據(jù)集的全部數(shù)據(jù)上做測試，測試結(jié)果如圖7所示。為了更直觀地比較各方法，表3結(jié)合圖5、圖6、圖7中的LAMR值數(shù)據(jù)繪制各方法比較表。

圖5 Caltech-USA測試集

圖6 INRIA測試集

圖7 ETH測試集

表3 方法比較（LAMR值） %

從表3 可以看出，本文提出的方法在Caltech-USA和INRIA數(shù)據(jù)集上都達(dá)到了最優(yōu)的測試結(jié)果，超過了眾多基于手工特征[1-4]和深度學(xué)習(xí)[5，13-14]的方法，在 ETH 數(shù)據(jù)集上也表現(xiàn)出非常好的泛化性能。如圖5 所示，在Caltech-USA測試集上達(dá)到了最優(yōu)8.7%的LAMR值，對比原始RFBnet方法的LAMR值下降了1.9個百分點(diǎn)，對比RPN+BF方法的LAMR值下降了0.9個百分點(diǎn)。相比傳統(tǒng)基于手工特征的方法，MS-CNN 和RPN+BF 等在Caltech-USA數(shù)據(jù)集上使用卷積提取行人特征的方法達(dá)到了當(dāng)時最優(yōu)的檢測效果，也驗(yàn)證了手工特征并不是必不可少的[13]，如何提取更準(zhǔn)確的行人特征才是檢測的關(guān)鍵。MSAnet 模型使用空洞卷積增大了卷積核的感受野，同時融合不同層特征增強(qiáng)了低層語義信息，Caltech-USA數(shù)據(jù)集中68%的行人處于Medium子集區(qū)間，增強(qiáng)的低層特征更適合檢測小尺度行人。本文模型在INRIA測試集達(dá)到了最優(yōu)4.9%的LAMR 值，比原始RFBnet 方法好1.7個百分點(diǎn)，如圖6所示。INRIA屬于靜態(tài)行人數(shù)據(jù)集，行人特征相對于背景較明顯，手工特征和卷積提取的特征都能有很好的檢測效果，但是行人像素高度分布較廣，在50到850之間，MSAnet模型的融合特征在面對多尺度行人時效果更好。如圖7 所示，本文模型在ETH 數(shù)據(jù)集上未做任何訓(xùn)練的情況下仍然達(dá)到了40.2%的LAMR值，對比其他方法也是一個非常具有競爭力的結(jié)果。Caltech-USA、INRIA 數(shù)據(jù)集上的數(shù)據(jù)和ETH數(shù)據(jù)集上的數(shù)據(jù)并不是獨(dú)立同分布的，它們圖像數(shù)據(jù)拍攝的場景和方式都不同。使用在Caltech-USA 和INRIA 數(shù)據(jù)集上訓(xùn)練的模型達(dá)到40.2%的效果，也說明了MSAnet模型的泛化性能非常好。

4 結(jié)束語

行人檢測的多尺度變化一直影響著檢測器的檢測精度。本文提出針對多尺度變化和遮擋問題的MSAnet模型，通過卷積特征重建模塊和通道注意力模塊來融合不同尺度的特征，有效解決了低層特征語義信息不足的問題，提高了模型對多尺度行人的檢測效果。MSAnet模型在RFBnet的基礎(chǔ)上構(gòu)建，并重新改進(jìn)了RFBnet方法的損失函數(shù)，新方法在面對行人遮擋情況時，魯棒性更強(qiáng)。在3個數(shù)據(jù)集上進(jìn)行訓(xùn)練和測試，本文提出的方法達(dá)到了非常好的檢測效果，在Caltech-USA 數(shù)據(jù)集上優(yōu)于其他最好的方法0.9 個百分點(diǎn)，在INRIA 數(shù)據(jù)集上優(yōu)于其他最好的方法1.7個百分點(diǎn)，解決了多尺度變化、遮擋和小目標(biāo)檢測不佳等問題，在智能監(jiān)控和自動駕駛等領(lǐng)域有廣泛的應(yīng)用。

現(xiàn)階段卷積神經(jīng)網(wǎng)絡(luò)的層數(shù)越來越深，參數(shù)量大，檢測模型實(shí)用性差，依賴于高性能設(shè)備做推理，如何剪枝、壓縮、減少模型計(jì)算量是下一步的研究方向。