亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        自適應特征融合的復雜道路場景目標檢測算法

        2023-12-27 14:53:26冉險生蘇山杰陳俊豪張之云
        計算機工程與應用 2023年24期
        關鍵詞:特征融合實驗

        冉險生,蘇山杰,陳俊豪,張之云

        重慶交通大學 機電與車輛工程學院,重慶 400074

        目標檢測作為計算機視覺領域的一項基礎任務,在各個領域都有廣泛應用,如自動駕駛、軍事偵察、行人檢測、視覺機器人等。近年來,計算機視覺領域相關技術取得了突破性的創(chuàng)新,隨著自動駕駛汽車出現(xiàn)及道路測試實驗不斷深入,道路場景下的目標檢測技術也日益重要,并對自動駕駛技術環(huán)境感知模塊起著決定性的作用。

        隨著深度學習和卷積神經(jīng)網(wǎng)絡的快速發(fā)展,主流的深度學習檢測算法分為兩類:基于錨框和不基于錨框的檢測算法[1-2],其中基于錨框的檢測算法檢測精度高,但網(wǎng)絡結構較為復雜,模型計算對硬件設備有著更嚴格的要求,難以滿足自動駕駛技術環(huán)境感知模塊實時性檢測的要求;而不基于錨框的檢測算法雖然在精度上不及前者,但在實時性方面更有優(yōu)勢。研究學者針對復雜道路場景下的目標檢測做了大量研究,研究發(fā)現(xiàn)通用目標檢測中[3]圖像質(zhì)量較高,環(huán)境因素影響較小,算法能充分提取特征信息,較好地定位并識別出目標,而復雜道路場景下[4]目標尺度變化大,目標多而雜,且由于成像距離、行車視角變化快和光線,目標之間遮擋嚴重,多以小尺度目標形式存在,容易出現(xiàn)漏檢和誤檢,進一步降低算法檢測精度。

        因此如何提升復雜道路場景目標檢測算法的檢測性能,降低遮擋目標、小尺度目標漏檢率和誤檢率是近年來的研究重點。為解決道路場景中實時性檢測問題,文獻[5]提出了一種動態(tài)閾值方法刪除錯誤的候選框,采用高斯衰減函數(shù)過濾重疊的候選框。文獻[6]以RetinaNet 為基礎框架,設計了基于不同擴張率組合的殘差卷積分支模塊,提高了各類目標的檢測精度。文獻[7]改進了YOLOV4-Tiny 算法,提高了街道場景中小目標的識別能力,并在極端天氣具有一定的魯棒性。除此之外國內(nèi)外研究者針對不同道路場景采用了不同的改進策略[8-10],但現(xiàn)階段復雜道路場景下的目標檢測仍然面臨較大挑戰(zhàn),在檢測精度和實時性方面存在一定的進步空間。2020—2021 年,YOLOv5 及YOLOX 相繼問世,以極高的檢測速度成為了實時檢測和移動端部署的首要選擇,但以上兩種算法難以對復雜道路場景下的密集遮擋目標、小尺度目標進行有效檢測。

        為了解決密集遮擋目標,小尺度目標檢測效果差的問題,國內(nèi)外的研究學者主要從anchor 優(yōu)化、增加感受野、引入注意力機制、改進損失函數(shù)、增強特征提取、改變特征融合方式、改進網(wǎng)絡結構等方面進行大量探索實驗。針對小尺度目標特征信息在傳遞過程中容易丟失的問題,Lin 等人[11]首先提出了FPN(feature pyramid networks)結構將含有更多語義信息的深層特征與含有更多細節(jié)信息的淺層特征進一步融合,較好提升了檢測效果,近年來研究學者進一步優(yōu)化了FPN結構[12-17],對檢測性能均有不同程度的提升。Yu 等人[18]創(chuàng)造性地提出空洞卷積擴大感受野,進一步提升模型對小尺度目標的識別精度,同時研究學者通過實驗證明空洞卷積的有效性,并提出了改進方法[19-23]。Liu等人[24]提出自適應空間特征融合的方法,允許網(wǎng)絡能夠直接學習如何在空間上過濾其他層次的特征,只保留有用的信息用于組合。近些年來研究學者更加關注注意力機制對目標檢測性能的影響,提出了有效改進方法[25-32]。通過對數(shù)據(jù)集的分析,在損失函數(shù)的改進上更多采用EIOU[33]和Focal Loss[34]來提升小尺度目標的檢測效果。因此如何提升復雜道路場景小尺度目標檢測算法的精度、實時性和魯棒性是本文的主要研究目標。

        目前YOLOv5 及YOLOX 算法擁有較好的檢測性能,其中YOLOv5-s 和YOLOX-s 屬于輕量級的檢測算法,是嵌入到移動部署設備的首要選擇,但兩類算法對遮擋目標,小尺度目標的檢測仍有提升的空間。本文以YOLOv5-s 檢測算法為基礎框架,針對目前復雜道路場景中密集遮擋目標檢測、小尺度目標檢測漏檢率較高、檢測精度偏低的問題進行改進。具體改進如下:為了減緩相鄰尺度特征融合時對模型產(chǎn)生的負面影響,借鑒了特征融合因子的思想,改進了融合因子計算方式,增加特征融合后有效樣本,提升中小尺度目標的學習能力;為了提升復雜道路場景下的中小尺度目標的檢測精度,進一步有效利用淺層特征層提取的特征信息,增加了一層淺層檢測層;針對復雜道路場景下尺度變化大的車輛行人目標特征信息提取不充分的問題,借鑒RFB(receptive field block)網(wǎng)絡結構的思想,構建自適應感受野融合模塊,允許模型訓練時自動選擇合適的感受野特征;為了提升算法對遮擋程度高,密集小尺度目標的檢測能力,損失函數(shù)引用Quality Focal Loss進行優(yōu)化,并融入CA注意力機制,改變模型關注的重點,增強算法的特征提取能力。

        1 YOLOv5目標檢測算法及改進

        1.1 YOLOv5算法整體結構

        YOLOv5 算法是目前YOLO 系列最新版本檢測算法,YOLOv5主要結構如圖1所示,模型由輸入端(Input)、主干網(wǎng)絡(Backbone)、多尺度特征融合網(wǎng)絡(Neck)、檢測網(wǎng)絡(YOLOHead)等四部分組成。輸入端的創(chuàng)新點主要是采用mosaic 圖像增強,增加自適應錨框計算等。主干網(wǎng)絡包含C3 結構,空間金字塔池化SPPF 結構,主干網(wǎng)絡主要對輸入端數(shù)據(jù)增強的圖像進行特征信息的有效提取,同時最大程度減少信息下采樣時的丟失,實現(xiàn)不同尺度信息的有效融合。多尺度特征融合網(wǎng)絡主要采用FPN+PAN結構,經(jīng)過Backbone的待識別圖像在淺層具有更多的定位信息,在深層具有更多的語義信息,采用FPN 結構把含有更多語義信息的特征傳給淺層,增強每個尺度上的語義信息,達到更好的檢測效果;PAN 結構實現(xiàn)了從淺層把含有更多定位信息特征傳遞給高層,增強每個尺度上的定位信息,改善了多尺度目標檢測的性能。檢測網(wǎng)絡采用GIoU損失函數(shù)計算邊界錨框的損失值,并在后處理過程中采用加權NMS,篩選密集重合的多個錨框。

        1.2 相鄰尺度特征有效融合模塊

        YOLOv5-s 算法Neck 網(wǎng)絡采用PAFPN 雙向特征金字塔結構并加上橫向連接結構實現(xiàn)不同尺度特征的融合,其中FPN 結構本質(zhì)上是進行多任務學習,得到待檢測目標的具有更多定位信息的淺層特征和具有更多語義信息的深層特征,在理想的情況下,不同的特征層只專注于其對應的不同尺度目標的檢測。而在實際情況下,目標檢測過程中會有以下問題:不同尺度的特征層在監(jiān)督學習中總會受到其他層的影響(損失傳遞),其中相鄰兩個特征層之間的影響較為嚴重,其次是YOLOv5-s算法在表面上可以覆蓋多個尺度的檢測,但在相鄰層之間往往存在部分尺度的目標在兩個相鄰特征圖中均有較大的響應,而網(wǎng)絡自動學習時只是根據(jù)響應值粗暴地判別到某一層進行識別,導致檢測效果較差和網(wǎng)絡收斂效果不好。應用于小尺度的遮擋車輛、行人的目標檢測中,除了淺層特征圖上含有小尺度目標有效特征信息,深層特征圖上也可能存在對檢測結果有影響的特征信息,也是需要學習的。由于待檢測的目標尺度較小,特征信息的提取難度大,淺層網(wǎng)絡學習到的特征信息有限,深層網(wǎng)絡學習到的特征信息不足以對淺層網(wǎng)絡進行輔助,從而影響小尺度目標的檢測效果。

        由以上分析得知,每一層學習到的信息都有著至關重要的作用,深淺層的特征信息對不同尺度的待檢測目標的貢獻程度不同,同時特征信息流動中對其他層的影響有弊有利。為了減緩特征融合對模型帶來負面的影響,提出了一種改進的相鄰尺度特征融合策略。主要考慮到同一個有效樣本在不同尺度的特征圖有不同的響應,按照1∶1比例的融合策略并不能達到最優(yōu)的融合效果,容易造成信息丟失,導致FPN 結構中某些層的訓練樣本相較于其他層會減少很多,故需要改變深層特征參與淺層特征學習的程度,過濾掉相鄰層傳遞過程中的無效樣本,保證深層特征圖上存在更多的有效樣本進行學習,進而指導淺層的學習,提升不同尺寸目標的檢測效果。FPN的特征融合過程的表達式為:

        其中,Ci和Pi+1分別表示在進行特征融合前后第i層的特征圖,flateral表示在FPN 橫向連接中的1×1 卷積操作,fupsample表示用來調(diào)整分辨率的2 倍上采樣的操作,fconv表示特征處理的卷積操作,表示第i+1 層特征圖向第i層特征圖傳遞時應相乘的特征融合因子。文獻[8]提出的特征融合因子是經(jīng)過統(tǒng)計的方式得到,分別統(tǒng)計每層對應的目標數(shù)量,公式表達式為:

        文獻[9]提出了使用注意力模塊計算融合因子的方式,本文融合BAM[35]注意力機制的思想,改進了相鄰尺度特征有效融合模塊,如圖2 所示,計算出特征融合因子,用來減緩特征融合過程中的負面影響,公式表達式如下:

        圖2 相鄰尺度特征有效融合模塊(AFEF)Fig.2 Adjacent scale feature effective fusion module(AFEF)

        圖3 空間與通道注意力模塊結構圖Fig.3 Structure diagram of spatial and channel attention module

        空間注意力模塊主要功能為對傳遞中的深層與淺層的空間信息進行對比,分析相鄰特征圖含有信息值的差異,用來確定深層傳入淺層的無效樣本并過濾。Ms模塊公式如下:

        其中,σ表示Sigmoid 激活函數(shù),f1×1表示可壓縮通道數(shù)的1×1 卷積,f3×3表示卷積核為3×3 的擴張卷積,可共享參數(shù)信息,f5×5表示卷積核為5×5 的卷積操作,Softmax′表示乘積出特征圖不同維度(行和列)Softmax運算后的值。

        特征圖的每一個通道都攜帶著大量信息,通道注意力模塊更加集中關注特征圖中有意義的內(nèi)容,配合空間注意力模塊,從通道層面更好地處理特征信息,減少無意義的特征融合通道,達到更優(yōu)異的性能。Mc模塊公式如下:

        其中,GAP表示全局平均池化操作,MLP表示帶有一個隱藏層的多層感知器,是由全連接層和Relu激活函數(shù)共同組成,先將通道數(shù)壓縮為原來通道數(shù)的1/r倍,再擴張為原來的通道數(shù),經(jīng)過Relu 函數(shù)得到激活后的結果,r值在實驗中取為16,表示Sigmoid 激活函數(shù)。

        1.3 多尺度寬感受野自適應融合模塊

        在復雜的道路場景中,上下文信息對車輛行人等目標的檢測中起著不可或缺的作用,能夠精確地識別和定位出待檢測的車輛行人目標,尤其在遮擋場景中,上下文信息的有效利用能夠較好提高遮擋目標的識別效果。YOLOv5-s算法中,SPPF空間金字塔池化模塊能極大地增加感受野,分離出最顯著的上下文特征,進行多重感受野融合。針對遮擋嚴重的車輛、行人目標,由于尺度較小,會引入過多的背景信息,干擾目標關鍵特征的表達能力,導致特征信息提取不充分,故引入RFB-s網(wǎng)絡結構并改進,有效增大感受野區(qū)域使其自適應融合,改進前后結構如圖4所示。

        圖4 RFB-s模塊改進前后結構Fig.4 Structure of RFB-s module before and after improvement

        RFB-s模塊結構首先對輸入的特征圖進行1×1卷積操作縮減通道數(shù),降低模型的計算量;然后降維的特征圖分別經(jīng)過4個感受野的分支獲取對應特征信息,使用非對稱卷積減少參數(shù)量,使用擴張率分別為1、3、5的3×3空洞卷積增大特征圖感受野;其次對每個感受野分支進行拼接和1×1 卷積操作,融合得到的特征圖;最后通過ShortCut 的方式有效緩解網(wǎng)絡梯度傳播過程中損失值發(fā)生爆炸和消失的問題,加快訓練速度,并融合原特征和多尺度感受野融合特征。

        改進的RFB-s 模塊,稱作為IRFB-s,整體上依然采用多分支空洞卷積的結構進一步增加感受野,把3×3卷積換為1×3、3×1 非對稱卷積,減少參數(shù)量和計算量;增加感受野分支,得到更寬、更多的感受野組合;引入ASFF網(wǎng)絡[24]的思想,自適應融合每個感受野分支得到的特征圖,網(wǎng)絡在學習過程中根據(jù)不同尺度目標選擇最佳的感受野融合方式,有效避免了感受野過大時無關背景信息對有效信息的干擾,能較好完成特征的提取,有效學習上下文信息,改善尺度變化大及遮擋場景下的車輛、行人目標檢測。

        1.4 注意力機制與損失函數(shù)優(yōu)化

        復雜道路場景存在大量的尺度變化大及遮擋的待檢測目標,模型在進行特征提取時會混入大量的背景及非檢測目標的無效特征信息,會對有效目標的信息提取造成負面的影響,因此模型需要過濾掉這些無效信息,將更多注意力放在有效目標上。國內(nèi)外研究人員提出注意力機制來關注更加重要的特征,排除無效的信息的干擾,給模型性能帶來一定的提升。本文借鑒并引入CA(coordinate attention)注意力模塊[32],該模塊提供了一種新穎的編碼特征圖通道信息的方式,分別沿著兩個空間方向聚合特征,有效地將空間坐標信息整合到生成的注意圖中,使得輕量級網(wǎng)絡獲得更多區(qū)域的有效信息。CA注意力模塊結構如圖5所示。

        圖5 CA注意力模塊編碼過程Fig.5 CA attention module encoding process

        復雜道路場景模型能更好地檢測出目標并進行定位,損失函數(shù)的作用是不可或缺的,損失函數(shù)主要由三部分組成:定位損失、置信度損失和分類損失,公式描述如下:

        在不同的檢測場景中定位損失函數(shù)有著不同的功效,為了提高復雜道路場景中遮擋目標和中小尺度目標的檢測效果,模型采用EIOU Loss來計算目標框的定位損失,一般采用交叉熵損失函數(shù)(BCEclsloss)和Focal Loss函數(shù)計算置信度損失,本次實驗采用Focal Loss函數(shù),將分類損失的交叉熵損失函數(shù)更改為Quality Focal Loss損失函數(shù)[36],Quality Focal Loss損失函數(shù)定義為:

        其中,σ表示預測,y為0~1的質(zhì)量標簽,|y-σ|β(β≥0)為縮放因子,表示距離絕對值的冪次函數(shù),超參數(shù)β用于控制降權的速率,在文獻[36]實驗中,取β=2 為最優(yōu),本次實驗也取β=2。在復雜的道路場景下,待檢測目標多以遮擋,小尺度密集分布出現(xiàn),這造成候選框的重疊程度增加,當原始模型的分類損失函數(shù)進行NMS 后處理時,更容易抑制錯誤,降低了一部分定位精度,而Quality Focal Loss 的引入能在一定程度上彌補之前模型的不足,提升復雜道路場景下遮擋目標、密集小尺度目標的檢測精度。

        1.5 多尺度檢測網(wǎng)絡改進

        原始YOLOv5-s 算法采用20×20、40×40、80×80 三個尺度實現(xiàn)對大、中、小尺度目標的檢測。復雜道路場景下存在大量小尺度目標,密集遮擋目標,而這些目標特征信息大多存在于網(wǎng)絡更淺層,因此需要增大網(wǎng)絡的檢測尺度范圍,檢測出更小尺度目標,提高模型的檢測性能,故增加了一層160×160 尺度的淺層檢測層,充分利用淺層的特征信息,提高小尺度目標的檢測效果。但改進后模型復雜度增加,故考慮減少20×20的深層檢測層,通過實驗發(fā)現(xiàn),減少深層特征層后,對大尺度目標的特征信息提取不足,導致卡車、公交車及部分汽車等大尺度目標的檢測精度大幅度降低,影響了算法模型整體的檢測精度。經(jīng)過對比分析,增加160×160淺層檢測層后,相對于模型復雜度的增加,模型的檢測精度的提升更能接受,而在此基礎上減少20×20 深層特征層后,大尺度目標檢測精度降低,從而影響了模型整體檢測精度。故本次實驗保留20×20的深層檢測層,只增加160×160的淺層檢測層,改進后網(wǎng)絡的整體結構如圖6所示。

        圖6 改進后模型結構Fig.6 Improved model structure

        2 模型訓練

        2.1 數(shù)據(jù)集構建

        在深度學習領域中,針對復雜道路場景下的目標檢測,大規(guī)模的數(shù)據(jù)集能有效檢驗算法的性能。實驗選用VOC數(shù)據(jù)集、BDD100K數(shù)據(jù)集[37]、Udacity數(shù)據(jù)集[38]及自制數(shù)據(jù)集進行對比實驗和消融實驗。

        自制數(shù)據(jù)集:為了切合國內(nèi)復雜道路場景下車輛行人目標檢測,自制了一個真實道路場景數(shù)據(jù)集,使用車載行車記錄儀,在重慶主城區(qū)域采集了不同場景的行車視頻38 段,包含不同的天氣條件,不同道路場景,不同時間段。采集的視頻按每4 s截取一張圖像的方式制作成數(shù)據(jù)集,圖像分辨率為1 280×720,共3 427張圖片,從中選取2 721 張圖片作為訓練集,其余圖片作為驗證集。自建數(shù)據(jù)集主要對交通參與者進行檢測,如小車(car),摩托車(motor),卡車(truck),公交車(bus),行人(person),命名為CQTransport。

        2.2 實驗環(huán)境與參數(shù)配置

        在本文實驗中,實驗平臺操作環(huán)境為Windows10,GPU 為Nvidia Tesla V100 PCIE,顯存為32 GB,實驗仿真采用的深度學習框架為Pytorch,版本為1.8.0,編程語言為Python 3.9,CUDA10.1。YOLOv5-s的基本訓練參數(shù)見文獻[39],Batch Size 參數(shù)根據(jù)輸入圖像分辨率進行調(diào)整,在不溢出顯卡極限情況下,使用較大Batch Size來獲得更好的訓練效果。訓練輪數(shù)(Epoch)根據(jù)數(shù)據(jù)集圖像量調(diào)整,所有改進模型在同一數(shù)據(jù)集均采用相同設置(不一定為最優(yōu)設置),進行對比實驗分析。

        2.3 評價指標

        實驗利用準確率P(precision)、召回率R(recall)、平均精度均值(mean average precision,mAP)以及幀率(frames per second,F(xiàn)PS)對模型進行定量評價。前三個參數(shù)是用來評價模型精度性能的指標,通常來說值越高,模型的檢測效果越符合實際檢測目標,模型性能也越好。準確率(P)和召回率(R)的計算公式如下:

        TP 表示圖像正樣本中被正確預測為正樣本的數(shù)量,F(xiàn)N表示圖像正樣本被預測為負樣本的數(shù)量,F(xiàn)P表示圖像負樣本被錯誤預測為正樣本的數(shù)量。FPS 是衡量模型檢測速度性能的指標,表示模型每秒能處理圖像的數(shù)量,值越大網(wǎng)絡模型處理圖像的速度越快,本文使用FPS來評估模型實時性性能。

        3 實驗設計與結果分析

        實驗主要采用BDD100K數(shù)據(jù)集、Udacity數(shù)據(jù)集及CQTransport 數(shù)據(jù)集對改進的模型進行訓練和測試,并建立多組對比實驗和消融實驗。

        3.1 注意力模塊融合對比實驗

        注意力模塊融入到模型哪個位置能起到提升性能的作用始終沒有固定的理論,為了驗證注意力模塊融入位置的有效性,本次實驗在主干網(wǎng)絡和頸部網(wǎng)絡及頭部網(wǎng)絡分別加入CA注意力模塊,分別表示YOLOv5-s-A、YOLOv5-s-B、YOLOv5-s-C,在VOC 數(shù)據(jù)集上對比實驗,訓練迭代次數(shù)400次,實驗后在測試集上性能如表1所示。從結果分析,首先注意力模塊在VOC 數(shù)據(jù)集上并不能有效提升模型檢測性能,其次頸部融入注意力模塊后性能優(yōu)于其他位置。主要原因有以下3點:VOC數(shù)據(jù)集中圖像多以中、大尺度目標為主,原始算法已經(jīng)能有效擬合出數(shù)據(jù)集中的目標并有效識別,而注意力模塊加入便有些多余;對尺度變化大,遮擋程度高的待檢測目標注意力模塊可能更有效果;數(shù)據(jù)集中圖像數(shù)量不夠大,原始模型已經(jīng)處于過擬合的狀態(tài),注意力模塊的加入進一步加劇這個問題,導致模型性能沒有提升或性能下降。

        表1 VOC數(shù)據(jù)集注意力模塊融入模型位置實驗Table 1 Experiments on integration of attention module into model position of VOC dataset

        為了驗證其他注意力方法融入頸部網(wǎng)絡后是否能提升模型性能,建立了多組對比實驗,由于原始模型迭代200 輪后出現(xiàn)了過擬合現(xiàn)象,本次實驗主要選取前200個周期進行對比分析,表2為測試集性能結果。

        表2 注意力模塊對比實驗Table 2 Comparative experiments of attention modules

        根據(jù)實驗結果,訓練周期內(nèi)融入各類注意力方法沒有達到提升模型性能的效果,繼續(xù)增大訓練輪數(shù)后,模型存在提升的空間。所有實驗的注意力方法中,在頸部網(wǎng)絡C3 結構融入注意力機制,能起到降低參數(shù)量的作用,同時mAP值表現(xiàn)更優(yōu)異。由于在VOC 數(shù)據(jù)集中注意力機制并未有效提升模型檢測性能,本文后續(xù)工作將在BDD100K數(shù)據(jù)集上進一步驗證CA注意力機制的有效性。

        3.2 網(wǎng)絡模型消融實驗

        為了更好地驗證改進策略的可行性,探究不同改進策略對模型性能的影響,在原始網(wǎng)絡結構融入改進方法,并在BDD100K數(shù)據(jù)集及自制數(shù)據(jù)集CQTransport上進行消融實驗。不同的改進方式使模型結構發(fā)生變化,參數(shù)量和計算量也在不斷改變,從而各方面的評價指標均受到影響,具體消融實驗結果如表3、表4 所示?!啊獭北硎灸P腿谌朐摲椒?,“×”表示未融入該方法,從表中實驗結果得知提出的改進策略在兩個數(shù)據(jù)集上都能不同程度地提升模型性能,其中在自制數(shù)據(jù)集CQTransport上精度提升效果較為明顯。通過消融實驗,再次驗證了改進方法的可行性,改進模型在不影響實時性檢測的同時有著更高的檢測精度,能更好地進行復雜道路場景下的目標檢測。

        表3 BDD100K數(shù)據(jù)集檢測結果Table 3 Detection results of BDD100K dataset

        表4 CQTransport數(shù)據(jù)集檢測結果Table 4 Detection results of CQTransport dataset

        為了進一步說明改進算法對數(shù)據(jù)集中各類目標提升程度,選取BDD100K 數(shù)據(jù)集對目標進行定量和定性分析。其中BDD100K 數(shù)據(jù)集除公交車和卡車外,各類目標均已中、小尺度目標為主,不同改進算法對各類目標的平均精度如表5所示。

        表5 改進模型對各類目標的平均精度Table 5 Average accuracy of improved model for various targets

        通過對表3、表5數(shù)據(jù)對比分析可以得出,復雜道路場景中遮擋目標、小目標居多,訓練時原圖像中的這些目標(主要是交通燈和交通標識)經(jīng)過尺寸縮放和特征提取后丟失了大量關鍵信息,是造成模型在復雜道路場景下檢測性能不佳的主要原因,其中引入IRFB-S 模塊和AFEF模塊對道路場景中交通標識,交通燈等目標的檢測精度提升較大,但犧牲了一定的檢測實時性;融入CA注意力模塊和QFL損失函數(shù)在沒有任何損耗的前提下分別提升了0.3%、0.2%;采用4 個檢測分支能夠大幅度提升道路場景中的小目標檢測精度,但增加了模型的復雜度。

        3.3 模型魯棒性實驗

        為驗證改進模型在復雜的道路場景下的檢測魯棒性和泛化性,選取含有大量遮擋、陰影等因素的Udacity數(shù)據(jù)集進行實驗驗證,經(jīng)過300 輪訓練后,模型趨于穩(wěn)定,在驗證集上得到訓練結果如表6所示。

        表6 改進模型魯棒性實驗結果Table 6 Experimental results of improved model robustness

        為進一步驗證改進的算法能否能泛化到基本目標檢測場景中,去掉BDD100K 數(shù)據(jù)集中對檢測影響較大的小目標,采用BDD100K 數(shù)據(jù)集(6 類)和VOC 數(shù)據(jù)集進行驗證,經(jīng)過300 輪訓練后模型趨于穩(wěn)定,驗證結果如表7、表8所示。

        表7 BDD100K數(shù)據(jù)集實驗結果Table 7 Experimental results of BDD100K dataset

        表8 VOC數(shù)據(jù)集實驗結果Table 8 Experimental results of VOC dataset

        由表6~表8數(shù)據(jù)分析可知,由于改進算法主要針對復雜道路場景的遮擋目標、小尺度目標進行改進,雖然能泛化到基本的檢測場景中,但檢測性能提升并不是很大。相比YOLOv5-s算法,在不同的復雜道路場景數(shù)據(jù)集上,改進策略都能有效提升模型的檢測精度,證明了改進模型具有較強的魯棒性和泛化性。

        3.4 模型對比實驗

        為了進一步證明改進的YOLOv5-s算法的優(yōu)越性,將現(xiàn)階段性能表現(xiàn)較好的Faster R-CNN、Cascade R-CNN、SSD、CenterNet、YOLOv3、FCOS、YOLOv4、YOLOv5-s、YOLOv5-m等9種算法與改進的算法在BDD100K數(shù)據(jù)集(10-Class)上進行實驗對比,以檢測精度和速度作為評價的指標,對比實驗結果如表9所示。

        表9 不同算法在BDD100K數(shù)據(jù)集性能對比Table 9 Performance comparison of different algorithms in BDD100K dataset

        對比表7不同算法模型在BDD100K數(shù)據(jù)集的實驗結果,改進的YOLOv5算法相較于其他主流模型有著更高的檢測精度及檢測速度,相較于YOLOv5-s、YOLOv5-m算法,雖然檢測速度不及它們,卻擁有更高的檢測精度。在不影響模型實時檢測性能的前提下,整體表現(xiàn)較為突出,較好實現(xiàn)了復雜道路場景下的目標檢測,也證明了改進的YOLOv5算法的優(yōu)越性,具有實際的應用價值。

        3.5 檢測結果可視化

        為了更加直觀地評價改進算法的優(yōu)越性,在BDD100K數(shù)據(jù)集和CQTransport數(shù)據(jù)集展示出模型改進前后的可視化結果,如圖7所示。

        圖7 不同數(shù)據(jù)集可視化結果Fig.7 Visualization results of different datasets

        通過對兩組可視化結果對比分析后,不難發(fā)現(xiàn),復雜道路場景下待檢測目標存在大量遮擋,且目標尺度較小,原始YOLOv5s 算法容易出現(xiàn)誤檢、漏檢的問題,另外光線的變暗提升了算法的檢測難度,而本文改進的YOLOv5s算法能夠更好地識別出復雜道路場景下的遮擋目標及小尺度目標,解決誤檢和漏檢的問題,進而提升算法整體的檢測精度。

        4 結束語

        針對復雜道路場景下密集遮擋目標和小尺度目標檢測精度低,易出現(xiàn)誤檢和漏檢的問題,提出了一種基于自適應特征融合的復雜道路場景目標檢測算法。以YOLOv5s 算法為基礎框架,首先引入特征融合因子改進相鄰尺度融合策略,增加各層有效樣本,提升中小尺度目標的學習能力;其次提出了一種改進的感受野模塊,根據(jù)不同尺度目標自動選取合適的感受野,提取更多的目標特征信息;然后增加一層更小目標的檢測層,進一步提取小尺度目標的特征信息;最后引入CA注意力機制及Quality Focal Loss 損失函數(shù),提升模型對密集遮擋目標,小尺度目標的檢測精度。基于多個數(shù)據(jù)集的實驗結果表明,所提方法在保持算法檢測速度的同時獲得了更高精度,能在一定程度解決遮擋目標,小尺度目標誤檢和漏檢的問題,相比其他主流目標檢測模型,本文改進算法有更高的檢測精度和檢測速度,更適用于復雜道路場景的目標檢測。在未來的研究工作將進一步保持或提升模型的檢測精度的同時,對模型進行輕量化改進,便于進行移動端的部署。

        猜你喜歡
        特征融合實驗
        記一次有趣的實驗
        村企黨建聯(lián)建融合共贏
        融合菜
        從創(chuàng)新出發(fā),與高考數(shù)列相遇、融合
        《融合》
        如何表達“特征”
        做個怪怪長實驗
        不忠誠的四個特征
        當代陜西(2019年10期)2019-06-03 10:12:04
        抓住特征巧觀察
        NO與NO2相互轉化實驗的改進
        内射少妇36p亚洲区| 蓝蓝的天空,白白的云| 国产变态av一区二区三区调教| 免费国产成人肉肉视频大全| 无码熟妇人妻av在线影片| 精品国产亚欧无码久久久| 少妇高潮呻吟求饶视频网站| 亚洲偷自拍国综合第一页| 97女厕偷拍一区二区三区| 91九色老熟女免费资源| 欧美最猛黑人xxxx黑人猛交| 无码精品国产va在线观看| 富婆如狼似虎找黑人老外| 91精品国产闺蜜国产在线| 中文字幕乱码人妻在线| 日日噜噜夜夜狠狠va视频v| 在线观看国产成人av片| 亚洲无线码一区在线观看| 激情视频在线观看好大| 国产欧美一区二区精品久久久| 一本一道波多野结衣av中文| 狠狠色狠狠色综合日日92| 少妇高潮太爽了免费网站| 精品欧美一区二区三区久久久| 永久免费观看国产裸体美女| 亚洲另在线日韩综合色| 亚洲国产高清一区av| 亚洲第一狼人天堂网亚洲av| 日韩精品久久久肉伦网站| 久久av无码精品一区二区三区| 蜜桃在线观看视频在线观看| 不卡的av网站在线观看| 久久精品国产亚洲av大全| 欧美日韩激情在线一区二区| 成人大片在线观看视频| 97久久精品人妻人人搡人人玩| 老熟女多次高潮露脸视频| 亚洲老女人区一区二视频 | 中国凸偷窥xxxx自由视频妇科 | 亚洲乱码国产一区三区| 国产福利小视频91|