鄒 斌,張 聰*
(1.現(xiàn)代汽車零部件技術(shù)湖北省重點實驗室(武漢理工大學(xué)),武漢 430070;2.汽車零部件技術(shù)湖北省協(xié)同創(chuàng)新中心(武漢理工大學(xué)),武漢 430070)
深度學(xué)習(xí)的迅速發(fā)展為擁擠場景下的目標(biāo)檢測提供了技術(shù)支持。密集場景下檢測算法的精確率為場景的安全性提供了一定保障,但是密集環(huán)境中人與人之間重疊率過高,對算法準(zhǔn)確檢測出重疊率較高的行人帶來了一定的挑戰(zhàn)。
現(xiàn)階段,大多數(shù)目標(biāo)檢測算法均基于建議框構(gòu)建,包括實現(xiàn)端到端的單階段檢測算法YOLO(You Only Look Once)[1-4],以及額外包含區(qū)域建議網(wǎng)絡(luò)(Region Proposal Network,RPN)的兩階段檢測算法Faster R-CNN(Faster Region-based Convolutional Neural Network)等[5-9]。這些算法在常規(guī)的目標(biāo)檢測應(yīng)用中均取得了較好的效果,其中,YOLO算法將目標(biāo)檢測看作回歸問題,使用單一的網(wǎng)絡(luò)完成了目標(biāo)的分類與定位,舍去候選框提取階段,實現(xiàn)高實時性檢測,每秒傳輸幀數(shù)(Frame Per Second,F(xiàn)PS)可達到45;而Faster RCNN 算法為了解決二階段算法候選框提取速度的問題,首次將 Fast R-CNN(Fast Region-based Convolutional Neural Network)算法中使用的選擇性搜尋(Selective Search)替換為RPN 以實現(xiàn)端到端的訓(xùn)練,并且在PASCAL VOC 2012 數(shù)據(jù)集上測試的平均精度均值(mean Average Precision,mAP)約為73%,相較于原Fast R-CNN,檢測速度提升了約10 倍。在檢測高度重疊的物體時,檢測器很難對每個建議框分別生成有區(qū)別的預(yù)測,同時因為嚴重的重疊難免會導(dǎo)致非極大值抑制(Non-Maximum Suppression,NMS)出現(xiàn)錯誤的抑制。針對以上問題,有學(xué)者嘗試過使用新的損失函數(shù)(聚合損失Aggregation Loss)、復(fù)雜的非極大值抑制(Softer NMS)以及對Faster R-CNN 增 設(shè)特征金字塔(Feature Pyramid Network,F(xiàn)PN)等方法來解決多尺度檢測和提議框遠離真實框(Ground Truth)、相鄰預(yù)測提議框信心值較高從而導(dǎo)致相鄰預(yù)測框中某一個框被拋棄的問題[10-12],但是使用改進后的網(wǎng)絡(luò)進行低重疊率案例檢測時性能會降低。
為實現(xiàn)對密集人群的檢測,考慮到實際場景中行人或大或小的因素以及算法在實際應(yīng)用中檢測精度與速度的要求,本文提出一種基于Faster R-CNN 的密集人群檢測算法,通過CrowdHuman 數(shù)據(jù)集,對算法進行訓(xùn)練,實驗結(jié)果驗證了算法的有效性。本文主要工作如下:
1)針對Faster R-CNN+FPN 結(jié)構(gòu)無法有效應(yīng)對實際擁擠場景下由于目標(biāo)物體間相互遮擋以及目標(biāo)物體較小而導(dǎo)致漏檢的問題,提出在雙向特征金字塔特征融合網(wǎng)絡(luò)(Bidirectional Feature Pyramid Network,BiFPN)的基礎(chǔ)上,使用卷積操作獲取圖像更深層的語義信息,對提取的深層特征進行通道維度的融合,以提升相鄰特征間的聯(lián)系和利用率,加強網(wǎng)絡(luò)的檢測能力,使擁擠場景下的漏檢問題得以改善,網(wǎng)絡(luò)在交并比(Intersection over Union,IoU)大于50%時,平均精度(Average Precision,AP)相較于原始網(wǎng)絡(luò)提升2.4%。
2)針對擁擠場景中高度重疊的實例(以及它們的建議框)可能具有非常相似的特性以及實例間可能嚴重重疊導(dǎo)致預(yù)測很可能被NMS 錯誤抑制的問題,提出多實例預(yù)測以及新的NMS,使網(wǎng)絡(luò)對每個建議框預(yù)測一組可能高度重疊的實例,而不是預(yù)測單個實例,使附近的建議框較容易地推斷出相同的實例集。在進行NMS 時,提出預(yù)先設(shè)定一個IoU 閾值來解決網(wǎng)絡(luò)預(yù)測框錯誤抑制的問題,優(yōu)化后的新NMS 使網(wǎng)絡(luò)AP50相比原始網(wǎng)絡(luò)提升了2.2%。
Faster R-CNN 算法與YOLO 檢測算法相比,增設(shè)了一個RPN 結(jié)構(gòu),從而成為兩階段的檢測算法,檢測精度與檢測準(zhǔn)確性更優(yōu)。Faster R-CNN 可以采用多種主干特征提取網(wǎng)絡(luò),常用的有:VGG(Visual Geometry Group)[13]、殘差網(wǎng)絡(luò)(ResNet)[7]、Xception[14]等。
Faster R-CNN 算法的檢測過程如下:首先,將輸入圖片的短邊固定成600 像素,同時按照原始長寬比對長邊進行同比例縮放,以防圖像失真;其次,將調(diào)整大?。≧esize)后的圖片傳入主干特征提取網(wǎng)絡(luò),對圖片長寬進行四次壓縮,輸出得到公用特征層(Feature Map);隨后,網(wǎng)絡(luò)繼續(xù)前向傳播進入RPN,在Faster R-CNN 中每個網(wǎng)格對應(yīng)9 個先驗框,RPN 對先驗框參數(shù)進行調(diào)整獲得建議框,此時獲得的建議框大小有異,與興趣區(qū)域池化(Region Of Interest Pooling,ROIPooling)[1]結(jié)合使用,將不同大小的建議框截取到的感興趣區(qū)域變?yōu)橄嗤笮?;最后,對建議框截取到的特征層進行大小調(diào)整和進一步卷積,完成目標(biāo)物體的分類與回歸。整個檢測過程如圖1 所示。
圖1 Faster R-CNN算法檢測過程Fig.1 Detection process of Faster R-CNN algorithm
相較于YOLO 檢測算法,F(xiàn)aster R-CNN 檢測算法精度更高是因為RPN 的存在(見圖2)。在建議網(wǎng)絡(luò)中,首先進行一次3×3 的卷積,接著進行一個18 通道的1×1 卷積和一個36 通道的1×1 卷積,其中9×4 的卷積用于預(yù)測公用特征層上每一個網(wǎng)格點上每一個先驗框的變化情況(4 代表框的中心和寬高的調(diào)整參數(shù));9×2 的卷積用于預(yù)測公用特征層上每一個網(wǎng)格點上每一個預(yù)測框內(nèi)部是否包含了物體,序號為1 的內(nèi)容為包含物體的概率。最后,對每個建議框進行ResNet 的第五次壓縮,對建議框分類與回歸得到最終的預(yù)測框。
圖2 RPN 結(jié)構(gòu)Fig.2 Structure of RPN
由于注意力機制可以使網(wǎng)絡(luò)選擇性地關(guān)注對檢測任務(wù)有用的特征而忽視部分無用特征,提升網(wǎng)絡(luò)對特征的利用率,并在一定程度上改善檢測網(wǎng)絡(luò)性能,故在此將注意力機制引入優(yōu)化的Faster R-CNN 密集人群檢測網(wǎng)絡(luò)中。
注意力機制(Attention Mechanism,AM)最初用于機器翻譯,現(xiàn)已成為神經(jīng)網(wǎng)絡(luò)的重要組成部分。將通道注意力機制與空間注意力機制連接形成一個簡單但有效的注意力模塊CBAM(Convolutional Block Attention Module)[15],如圖3 所示。將CBAM 用于Faster R-CNN,在通道注意力模塊中,特征的每一個通道都代表一個專門的檢測器,因此通道注意力關(guān)注什么樣的特征是有意義的,如式(1)所示,分別進行一個空間的全局平均池化和最大池化得到特征圖的空間信息,然后經(jīng)過兩個共享卷積層得到最終結(jié)果??臻g注意力關(guān)注的特征與通道注意力互補,如式(2)[15]所示,分別進行一個通道維度的平均池化和最大池化,將兩個特征描述按通道拼接在一起后再經(jīng)過一個7×7 的卷積生成空間注意力圖。
圖3 通道注意力與空間注意力Fig.3 Channel attention and spatial attention
其中:σ代表Sigmoid 激活函數(shù);F代表特征向量;cat 代表通道連接運算;conv 代表1×1 卷積+ReLU 激活函數(shù)+1×1 卷積。
為使用Faster R-CNN 的預(yù)訓(xùn)練權(quán)重,減少網(wǎng)絡(luò)運算量,僅在Faster R-CNN 的不同層之間添加CBAM 注意力機制。
首先,基于擁擠人群檢測研究,在實例預(yù)測以及NMS 階段對原有Faster R-CNN 進行改進。在原始檢測算法中,每個對象都對應(yīng)很多個預(yù)測框,所以通常采用NMS 的方法在眾多預(yù)測框中選取置信度最高的框,而將其他置信度小于該最大值的框全部刪除,形成了一個框?qū)σ粋€物體的映射關(guān)系。對重疊度過高的場景,該方法難免出現(xiàn)錯誤的NMS,從而導(dǎo)致漏檢以及錯檢。
趙敏本不叫趙敏,她是敏敏特穆爾,汝陽王家的寶貝女兒,紹敏郡主。若不論歷史的最終走向,單看她的身份,自是無須奮斗也有享不盡的榮華富貴,但她眼中從來看著更高的那片天空。
通過對文獻[16]的研究,提出在高度重疊的場景中,與其一個預(yù)測框?qū)?yīng)單個對象,不如將重疊度過高的幾個實例全部預(yù)測。即對于每個建議框bi,預(yù)測相關(guān)的一組真實(Ground Truth)實例集G(bi),而不是單個實例,如式(3)所示:
其中:?是所有真實框的集合;θ是一個給定的IoU 閾值,如果大于給定閾值,則將屬于同一個實例的相關(guān)對象一起框起來。對建議框bi進行預(yù)測時,受文獻[8]啟發(fā),提出為每個提議框均預(yù)測一組實例,引入K個檢測函數(shù)生成一組預(yù)測P(bi),如式(4):
其中:ci是類別標(biāo)簽置信度;li是相對坐標(biāo);K是一個給定常數(shù),代表G(bi)的最大基數(shù)。P(bi)可以在大多數(shù)現(xiàn)有的檢測框架中通過引入額外的預(yù)測分支來實現(xiàn),如圖4 所示。
受文獻[17]中最小化預(yù)測框與真實框之間差距的啟發(fā),在圖4 中引入地球移動距離(Earth Mover’s Distance,EMD):對特征空間中兩個多維矩陣的某一維距離的一種度量。損失最小化預(yù)測P(bi)與建議框bi相關(guān)聯(lián)的真實(Ground Truth)實例集G(bi)之間的差距,計算公式如下:
圖4 P(bi)預(yù)測網(wǎng)絡(luò)Fig.4 P(bi) prediction network
其中:π表示一個特定的排列(1,2,…,K),第k項為πk,∈G(bi)是πk的真實框;τcls(·)和τreg(·)分別為分類損失和邊框Box 的回歸損失。在式(5)中,假設(shè)了|G(bi)|=K,如果不是,則向其中加入一些“啞”盒(其類標(biāo)簽被視為背景且沒有回歸損失),直到滿足假設(shè)。如果K=1,式(5)就等于傳統(tǒng)單實例預(yù)測框中的損失,這意味著EMD 損失是對常用檢測損失的一種通用概括。
除此之外,盡管每個建議框能夠預(yù)測多個實例,如果NMS 仍參與后處理,仍然不能有效地檢測擁擠場景的目標(biāo)。在上述的EMD 損失中一個建議框所預(yù)測的實例在定義上是唯一的,因此可以在NMS 中每次一個邊界框抑制另一個邊界框之前,插入一個額外的測試來檢查兩個框是否來自同一個建議框,如果是則跳過抑制。
對NMS 的優(yōu)化如下:如上所述,由于EMD 損失在預(yù)測時一個建議框只對應(yīng)一個唯一的實例,所以增設(shè)一個IoU 閾值用于優(yōu)化NMS,對于相鄰兩個預(yù)測框,如果兩個框的IoU 值大于所設(shè)定的閾值,則判斷兩個預(yù)測框基于同一個建議框而來,跳過抑制(因為重復(fù)預(yù)測只存在于不用的建議框之間);反之,若兩個框的IoU 值小于閾值,則進行NMS 抑制。
將優(yōu)化后的NMS 與多實例預(yù)測結(jié)合起來可以在擁擠場景檢測中取得顯著的改進,同時,在CrowdHuman 數(shù)據(jù)集中將對其優(yōu)化前后所帶來的效果提升進行實驗驗證。
金字塔卷積模塊的提出正是為了解決多尺度融合的問題,從其發(fā)展至今經(jīng)過了許多的迭代更新。最初的金字塔卷積模塊為FPN,不斷地進行上采樣,同時引入一條自頂向下的通道來融合本層與上層特征。但是,F(xiàn)PN 只考慮了上層特征對檢測結(jié)果的影響,沒有考慮下層的特征影響,故在YOLOv4 中提出了一種新的特征融合手段——路徑聚合網(wǎng)絡(luò)(Path Aggregation Network,PANet),在FPN 的基礎(chǔ)上增加了一條自底向上的通道來雙向融合特征,同時考慮了上下層特征共同影響的作用。最新的特征融合網(wǎng)絡(luò)BiFPN[18]在PANet 的基礎(chǔ)上融合了圖像本身的特征,并同時在融合階段采用加權(quán)方式來區(qū)分各級特征對融合后的特征的貢獻程度。上述金字塔卷積模塊如圖5 所示。
圖5 金字塔卷積模塊Fig.5 Pyramid convolution module
雖然BiFPN[18]加權(quán)融合了上下層特征作為最后的輸出結(jié)果,但是實際圖像采集過程中人群與拍攝設(shè)備距離以及人群之間相互擁擠,目標(biāo)物體會在圖像中呈現(xiàn)出或大或小以及相互遮擋的現(xiàn)象,使部分待檢測實例只有少數(shù)有用特征出現(xiàn)在圖像中供后續(xù)網(wǎng)絡(luò)學(xué)習(xí)(例如有些擁擠場景中,部分人體實例僅露出頭或者上半身等少量對檢測任務(wù)有用的特征)。
因此,對BiFPN 進行優(yōu)化改進:在原始網(wǎng)絡(luò)進行特征融合的基礎(chǔ)上,考慮到模型參數(shù)量及復(fù)雜度的問題,對其輸出結(jié)果采用卷積操作進行更深層語義信息的提取,提高網(wǎng)絡(luò)對上述僅有少量有用特征出現(xiàn)在圖像中的目標(biāo)物體以及小目標(biāo)物體的檢測能力;同時,對進一步提取到的相鄰深層特征之間使用Concat 融合操作,增強相鄰特征之間的聯(lián)系,有效利用多尺度的特征,提高密集人群場景下的目標(biāo)檢測精度。優(yōu)化后的BiFPN,即加強的雙向特征金字塔網(wǎng)絡(luò)(Strong-Bidirectional Feature Pyramid Network,S-BiFPN)結(jié)構(gòu)如圖6。
圖6 S-BiFPN 結(jié)構(gòu)Fig.6 Structure of S-BiFPN
將S-BiFPN 模塊用于改進的Faster R-CNN 進行特征的多尺度融合,在CrowdHuman 數(shù)據(jù)集上進行BiFPN 優(yōu)化前后的對比實驗,以驗證優(yōu)化后檢測網(wǎng)絡(luò)性能提升的效果。改進后的Faster R-CNN 檢測網(wǎng)絡(luò)結(jié)構(gòu)如圖7 所示。
圖7 改進的Faster R-CNN結(jié)構(gòu)Fig.7 Structure of improved Faster R-CNN
本文基于Pytorch1.2 深度學(xué)習(xí)框架搭建模型,計算機主要配置為:Ubuntu 18.04 操作系統(tǒng),i5-9300H CPU,顯卡為NVIDIA Tesla V100,內(nèi)存32 GB。
理想的擁擠目標(biāo)檢測器應(yīng)對實例的分布具有較強的魯棒性,不僅能在擁擠場景下取得較好的檢測結(jié)果,而且能對中等擁擠/不太擁擠場景下的實例對象進行穩(wěn)定檢測。采用CrowdHuman、CityPersons 和COCO 數(shù)據(jù)集分別對嚴重、中等和輕微重疊的情況進行綜合評估,結(jié)果如表1 所示。
表1 不同數(shù)據(jù)集中每幅圖像的物體數(shù)和重疊物體數(shù)Tab.1 Numbers of objects and overlapping objects in each image in different datasets
在對數(shù)據(jù)集進行訓(xùn)練階段,首先設(shè)置本實驗初始參數(shù)為:一批訓(xùn)練樣本的數(shù)量為10,初始學(xué)習(xí)率為0.001,動量參數(shù)為0.5,所有框重疊閾值默認設(shè)置為0.5,總迭代次數(shù)為3 000。每個圖像的短邊被調(diào)整為800 像素,用于訓(xùn)練和測試。同時,對于CrowdHuman 與CityPersons 數(shù)據(jù)集,縱橫比設(shè)置為H∶W={1∶1,2∶1,3∶1};對于COCO 數(shù)據(jù)集,將其設(shè)置為{2∶1,1∶1,1∶2}。
首先,將原Faster R-CNN 算法、使用FPN 改進的Faster RCNN 算法以及本文優(yōu)化的Faster R-CNN 算法在相同數(shù)據(jù)集上和相同實驗環(huán)境下進行目標(biāo)檢測實驗,圖片輸出尺寸均為800 像素×800 像素,檢測準(zhǔn)確率、實時性差別的實驗結(jié)果如表2 所示,其中:檢測準(zhǔn)確率評價指標(biāo)AP50表示在計算平均精度均值時,若檢測框與真實框的IoU 大于50%,則認為預(yù)測正確;反之,則預(yù)測錯誤。
采用不同的經(jīng)典目標(biāo)檢測算法以及本文算法對相同圖片進行測試,檢測時間與精度結(jié)果如表3 所示。對比算法有YOLO、原 Faster R-CNN 和 RFCN(Region-based Fully Convolutional Network),其中RFCN 基于Faster R-CNN 結(jié)構(gòu),但是僅包含卷積網(wǎng)絡(luò),減少了計算量,提升了檢測速度。由表2、表3 可以看出,優(yōu)化后的Faster R-CNN 算法在實時性(檢測速度)上稍遜于其他算法,但是基本達到實時性要求,檢測精度上有較大的優(yōu)勢。綜合來看,優(yōu)化后的Faster R-CNN 檢測算法是一個有效的密集人群檢測算法。
表2 Faster R-CNN算法改變網(wǎng)絡(luò)后數(shù)據(jù)統(tǒng)計Tab.2 Data statistics after Faster R-CNN algorithm changing network
表3 經(jīng)典檢測算法與本文算法性能對比Tab.3 Performance comparison between classical detection algorithms and proposed algorithm
最后,為深入驗證改進的Faster R-CNN 密集人群檢測算法的有效性,在CrowdHuman 數(shù)據(jù)集上進行了對比和消融實驗,其中15 000 張、4 370 張和5 000 張圖片分別用于訓(xùn)練、驗證和測試。消融實驗包括NMS 優(yōu)化前后所帶來的網(wǎng)絡(luò)檢測性能提升的效果(表4)、BiFPN 網(wǎng)絡(luò)優(yōu)化前后帶來的檢測性能提升的效果(表5)以及S-BiFPN、多實例預(yù)測(Multi-Instance Prediction,MIP)、注意力機制以及優(yōu)化的NMS 組合使用所帶來的網(wǎng)絡(luò)檢測性能提升的效果(表6),前兩個消融實驗通過檢測準(zhǔn)確率和實時性進行評估,而最后一個消融實驗使用2.4 節(jié)所提的指標(biāo)進行。
由表4 可知,當(dāng)網(wǎng)絡(luò)引入了優(yōu)化的NMS 后,可以在不影響整體檢測速度的同時,對檢測精度帶來一定程度的提升,且相較于網(wǎng)絡(luò)使用原NMS 時,AP50值提高了2.2%。
表4 NMS優(yōu)化對Faster R-CNN算法的性能影響Tab.4 Impact of NMS optimization on Faster R-CNN algorithm performance
由表5 與表2 可知,當(dāng)Faster R-CNN 引入BiFPN 時,其檢測精度較FPN 特征融合網(wǎng)絡(luò)有一定的提升,當(dāng)引入基于BiFPN 優(yōu)化的S-BiFPN 結(jié)構(gòu)時,其檢測效果繼續(xù)提升,但是檢測精度低于整體優(yōu)化后的Faster R-CNN。將數(shù)據(jù)進一步量化,使用S-BiFPN 結(jié)構(gòu)的檢測網(wǎng)絡(luò)相較于使用BiFPN 時,AP50值提高了2.4%。
表5 BiFPN優(yōu)化對Faster R-CNN算法的性能影響Tab.5 Impact of BiFPN optimization on Faster R-CNN algorithm performance
表6 使用平均精度(Average Precision,AP)、Jaccard 指數(shù)(Jaccard Index,JI)、每張圖像假陽性的對數(shù)平均漏報率(Miss Rate-2,MR-2)對模型性能進行評價。其中:1)AP 為最常用的目標(biāo)檢測評價指標(biāo),其在數(shù)值上等于精度召回率曲線下的面積,反映了檢測結(jié)果的查全率與查準(zhǔn)率;2)JI 主要用于評價檢測器的計數(shù)能力,評估預(yù)測集與事實的重疊程度,JI 越大,性能越好;3)MR-2通常用于行人檢測,在數(shù)值上等于9 個單幅圖像誤報值(False Positive Per Image,F(xiàn)PPI)下(在值域[0.01,1.0]內(nèi)以對數(shù)空間均勻間隔)的平均誤報率(Miss Rate)值,其值越小,表現(xiàn)性能越好。
表6 Faster R-CNN使用不同優(yōu)化策略時的性能對比單位:%Tab.6 Performance comparison of Faster R-CNN using different optimization strategies unit:%
經(jīng)過消融實驗可以發(fā)現(xiàn),在擁擠場景數(shù)據(jù)集中,優(yōu)化后的整體算法在AP 值和JI 值上相較于沒有使用優(yōu)化策略的原始Faster R-CNN 算法,分別提高了5.6%和3.2%。
表1 說明COCO 數(shù)據(jù)集中實例擁擠程度較低,為驗證本文算法在非擁擠場景下實例檢測的魯棒性,在COCO 數(shù)據(jù)集上進行對比實驗,評價指標(biāo)為AP、AP50(IoU 為0.5 時的AP值)、AP75(IoU 為0.75 時的AP 值),指標(biāo)值越大性能越好。由表7 可知,本文算法不僅在擁擠場景有效,而且處理非擁擠實例時,算法性能也不會下降。
表7 Faster R-CNN算法優(yōu)化前后在COCO數(shù)據(jù)集上的AP單位:%Tab.7 AP comparison on COCO dataset before and after optimization of Faster R-CNN algorithm unit:%
為了直觀地區(qū)分本文算法與原始Faster R-CNN 算法在密集人群下的檢測效果,從CrowdHuman 數(shù)據(jù)集的測試集中隨機抽取兩張圖像在相同實驗環(huán)境下進行測試對比,結(jié)果如圖8 所示,其中,圖8(a)為原始Faster R-CNN 算法的檢測結(jié)果;而圖8(b)為本文算法的檢測結(jié)果。由圖8 可以看出,優(yōu)化后的算法相較于原始算法,降低了密集人群場景下的漏檢率,在一定程度上提升了密集場景下目標(biāo)檢測的精度。
圖8 不同算法圖像檢測結(jié)果對比Fig.8 Comparison of image detection results of different algorithms
針對目前大多數(shù)目標(biāo)檢測算法不能精確檢測密集人群的問題,結(jié)合相關(guān)擁擠場景檢測的研究,提出一種基于Faster R-CNN 改進的密集人群檢測算法。該算法在實例預(yù)測以及非極大值抑制方面引入了MIP 算法和優(yōu)化的NMS 算法,降低了高重疊實例的漏檢率和誤檢率;同時,在網(wǎng)絡(luò)各層之間引入了通道與空間注意力機制,使網(wǎng)絡(luò)可以自主性地關(guān)注重要特征;并對金字塔卷積模塊BiFPN 進行了改進,提出了S-BiFPN 結(jié)構(gòu),將其應(yīng)用于優(yōu)化的網(wǎng)絡(luò)之中,提高了檢測網(wǎng)絡(luò)對特征提取的表達力和利用率。實驗結(jié)果表明:所提的Faster R-CNN 算法不僅在擁擠場景中有著較好的檢測結(jié)果,而且在非擁擠場景下性能也不會下降,具有較高的穩(wěn)定性,為密集場景下的準(zhǔn)確檢測提供了保障。但是優(yōu)化后的Faster R-CNN 算法仍為二階段目標(biāo)檢測算法,這使得其與實時檢測之間還存在一定的距離,未來可以在檢測實時性上做進一步研究,已達到更好的檢測效果。