亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于改進Faster R-CNN的復(fù)雜背景紅外車輛檢測算法

        2022-06-09 07:13:34趙維駿郭一亮焦國力
        激光與紅外 2022年4期
        關(guān)鍵詞:特征提取檢測方法

        顧 燕,李 臻,楊 鋒,趙維駿,朱 波,郭一亮,呂 揚,焦國力

        (北方夜視科技(南京)研究院有限公司,江蘇 南京 211102)

        1 引 言

        隨著汽車制造工業(yè)的發(fā)展,小型轎車的城市人均擁有量逐年攀升,城市主要道路上的車流量也在不斷上升。一方面由于智慧城市概念的興起和計算機視覺技術(shù)的發(fā)展,傳統(tǒng)的基于人工的交通管理與規(guī)劃正在被智能算法逐步替代[1]。另一方面,車輛的檢測識別也是實現(xiàn)無人安全駕駛的必要手段。

        傳統(tǒng)的圖像車輛檢測算法通常通過經(jīng)典圖像處理方法實現(xiàn)檢測功能,這種采用人工提取圖像特征的方法,主要有背景差分法[2],幀差法[3],以及光流法[4],等車輛實時檢測方法。這類基于人工特征提取的圖像處理算法經(jīng)典、簡單,但缺點也比較明顯,其算法設(shè)計往往過于主觀性,檢測精度不高,穩(wěn)定性較差。

        基于人工智能的深度神經(jīng)網(wǎng)絡(luò)目標檢測算法目前主流有兩個方向,一個方向為設(shè)計有緊密-稀疏(Dense-Sparse)候選結(jié)構(gòu)的二階段目標檢測方法,如Faster R-CNN[5]、Fast R-CNN[6]等,另一個方向是緊密(Dense)無區(qū)域建議的端到端檢測算法,如YOLO系列[7]、SSD[8]等。就國際通用的算法精度評價標準AP而言,前者的計算精度遠高于后者。而對Faster R-CNN的改進已經(jīng)廣泛應(yīng)用于道路交通標志檢測[9-10]、道路異物檢測、道路擁堵狀態(tài)檢測、運動行人檢測[9]等方面,在車輛目標檢測方面,魏子洋[11]等通過用k-means聚類改進錨框生成方式的方法提高了Faster R-CNN檢測車輛的精度,劉澤康[12]等通過融合目標的邊緣信息,陳飛[13]等通過融合特征圖信息提高了Faster R-CNN的車輛檢測精度。

        本文針對Faster R-CNN的特征提取層,并提出了改進方法,避免了車輛目標因尺度差距過大而引起的檢測精度低的問題,改變Faster R-CNN的NMS方法增強網(wǎng)絡(luò)對多目標重疊情況的魯棒性,本文首先設(shè)計了多感受野特征提取網(wǎng)絡(luò)Tri-VGG,不同感受野的特征信息通過深度融合來提升Faster R-CNN的檢測精度。其次,對RPN(Region Proposal Network)網(wǎng)絡(luò)中的非極大值抑制(NMS,Non-Maximum Suppression)方法進行了探索,設(shè)計了一種改進的soft-NMS算法。最后,設(shè)計了一種參數(shù)調(diào)整和訓(xùn)練策略,解決了在實驗中的過擬合問題。最終本文設(shè)計的檢測算法的評價準確率AP達到了85.32 %,比原始的Faster R-CNN算法提高了5.86 %。

        2 模型改進

        2.1 神經(jīng)網(wǎng)絡(luò)特征提取機制的改進

        針對紅外視頻下車輛目標像素大小差距過大的問題,文獻[14]中提出不同尺度感受野卷積核對于不同尺寸的目標有偏向性,尺度大的感受野卷積核偏向于大目標,相反,尺度小的感受野卷積核偏向于小目標,因此本文設(shè)計了一種多尺度感受野并行提取特征的方法。但直接使用多個感受野的卷積核采樣再融合的方法并不可取,因為這會使神經(jīng)網(wǎng)絡(luò)出現(xiàn)過擬合,不僅算法精度不會有明顯提高,而且會消耗大量的計算成本。

        解決上述問題可以采用空洞卷積(Dilated Convolution),權(quán)重因子共享原則進行多個感受野的并行采集。空洞卷積間隔采樣原理示意如圖1所示。

        圖1 空洞卷積原理示意圖Fig.1 Schematic diagram of dilated convolution principle

        改進模型的特征提取層神經(jīng)網(wǎng)絡(luò)由三路權(quán)重共享以及并行采集融合的卷積神經(jīng)網(wǎng)絡(luò)組成。特征提取層的整體流程示意如圖2所示。其中,Conv表示卷積層(Convlution Layer)。

        圖2 特征提取網(wǎng)絡(luò)流程Fig.2 Process of feature extraction network

        每一路神經(jīng)網(wǎng)絡(luò)的下采樣結(jié)構(gòu)由4個卷積層及其正則化和激活層以及2個最大池化層(maxpool)組成,卷積核尺寸為3×3,于是每一路的感受野為3×3,5×5,7×7。卷積層通道數(shù)依次為64、64、128、128。卷積核步長(stride)為1,填充(padding)為1。此外,將每一路網(wǎng)絡(luò)的下采用結(jié)構(gòu)中的梯度凍結(jié),即權(quán)重凍結(jié),減緩神經(jīng)網(wǎng)絡(luò)的過擬合情況。

        采用九層二維卷積層和三層最大池化層構(gòu)成并行特征采集器的每一個通道,這類似于VGG16的原始結(jié)構(gòu),但是三路權(quán)重僅有一路權(quán)重用于共享,通過元素相加的形式將三路特征提取網(wǎng)絡(luò)進行融合,生成的特征圖傳遞到RPN網(wǎng)絡(luò),還需要經(jīng)過一層正則化-激活-最大池化層處理,特征提取網(wǎng)絡(luò)的總體流程示意圖如圖2所示。

        每一路特征圖的尺寸應(yīng)當始終保持一致,本文將非空洞卷積網(wǎng)絡(luò)中的卷積層填充系數(shù)設(shè)置為1,步長系數(shù)設(shè)置為1;將一路空洞卷積層的膨脹系數(shù)設(shè)置為2,則3×3大小的卷積核等效于5×5大小的感受野,卷積核填充系數(shù)為2,步長系數(shù)設(shè)置為1;另一路空洞卷積層的膨脹系數(shù)為3,則3×3大小的卷積核等效于7×7大小的感受野,卷積核填充系數(shù)為3,步長系數(shù)為1。

        這樣設(shè)計的原因是為了使得三路網(wǎng)絡(luò)共享一組權(quán)重,實驗中發(fā)現(xiàn),如果同時不同的權(quán)重對三路網(wǎng)絡(luò)進行訓(xùn)練則會出現(xiàn)由參數(shù)冗余導(dǎo)致的網(wǎng)絡(luò)過擬合,會出現(xiàn)損失函數(shù)無法收斂、檢測精度無法提高、訓(xùn)練時間過渡延長等問題,于是我們采用權(quán)重共享策略來避免過擬合問題。三路網(wǎng)絡(luò)在訓(xùn)練和預(yù)測時只使用一組共享權(quán)重,即從初始化到訓(xùn)練完成都是共享的,這種共享權(quán)重的方式可以減小計算成本從而大大提升算法速度。并行特征提取網(wǎng)絡(luò)的結(jié)構(gòu)示意圖如圖3所示,網(wǎng)絡(luò)之間的每一層卷積層共享權(quán)重。

        圖3 并行提取網(wǎng)絡(luò)示意圖Fig.3 Schematic diagram of parallel extraction network

        2.2 NMS過程的改進

        針對紅外視頻內(nèi)車輛在視野中重疊概率較高的問題,對Faster R-CNN邊框回歸中的NMS方法改進進行了探索。

        Faster R-CNN在RPN網(wǎng)絡(luò)過濾生成的錨框時使用了非極大值抑制NMS(Non-Maximum Suppression)方法。其大致過程是對于重疊部分較多的檢測框進行概率排序,只保留其中概率最高的檢測框,而將其余檢測框直接取消。但是對于道路上的車輛檢測,視野中出現(xiàn)目標重疊的情況十分常見,因此直接將相近的檢測框取消會降低算法的檢測精度。

        作為生物圈中的一員,人類的活動對生物圈有重要影響。為了讓學生有切身體會,在本課中,教師請學生閱讀書本上的4個案例,要求小組討論,并發(fā)揮聯(lián)想交流啟示。

        文獻[15]提出了一種基于IOU權(quán)重函數(shù)的Soft-NMS方法,但是這種方法的計算時間開銷會隨圖片尺寸的變化呈指數(shù)級增長,且對于非密集圖片的檢測精度沒有明顯的提升。

        基于上述問題基于Soft-NMS進行了改進,即對于與分數(shù)最大的框的IOU小于Nt1的檢測框不作處理,對IOU介于Nt1和Nt2之間的檢測框作線性權(quán)重衰減,而對IOU大于Nt2的框直接取消。

        2.3 訓(xùn)練策略

        2.3.1 VGG預(yù)訓(xùn)練

        改進后的Faster R-CNN在ROI Pooling層的分類網(wǎng)絡(luò)仍采用VGG16的三個全連接層(Fully connection Layer)加一層softmax的決策網(wǎng)絡(luò)結(jié)構(gòu),而特征提取部分的前四個卷積層也與VGG16的結(jié)構(gòu)相同。于是可以先采用基于VGG16分類網(wǎng)絡(luò)的Faster R-CNN訓(xùn)練數(shù)據(jù)集,將訓(xùn)練得到的權(quán)重分配給相應(yīng)的層,如圖4所示。

        圖4 VGG16權(quán)重預(yù)訓(xùn)練策略Fig.4 Weight pre-training strategy based on VGG16

        將VGG16網(wǎng)絡(luò)前四層分配給特征提取層的下采樣部分,并且為了防止參數(shù)冗余將下采樣層學習率設(shè)置為0,使其不再參與學習。將VGG最后四層分配給Faster R-CNN的分類器,作為分類器的預(yù)訓(xùn)練權(quán)重繼續(xù)參與學習。

        2.3.2 權(quán)重衰減和dropout策略

        訓(xùn)練網(wǎng)絡(luò)時,為了避免可學習參數(shù)過多導(dǎo)致神經(jīng)網(wǎng)絡(luò)出現(xiàn)過擬合現(xiàn)象,本文采用L2正則化(1)抑制網(wǎng)絡(luò)中的所有權(quán)重,避免某一部分權(quán)重出現(xiàn)過高或過低的現(xiàn)象。

        (1)

        其中,L0為Faster R-CNN中的RPN網(wǎng)絡(luò)總損失函數(shù);n為訓(xùn)練集樣本量;λ是一個調(diào)整對權(quán)重的超參數(shù);ω為神經(jīng)網(wǎng)絡(luò)中的可學習參數(shù),即神經(jīng)網(wǎng)絡(luò)權(quán)重。

        此外,本文采用dropout方法對神經(jīng)網(wǎng)絡(luò)中的最后幾層分類層進行訓(xùn)練。dropout是一種神經(jīng)網(wǎng)絡(luò)隨機失活的策略,在訓(xùn)練中隨機失活部分卷積核,使其權(quán)重降為0,這樣可以動態(tài)的平衡分類層中各卷積核的重要性,可以有效規(guī)避因網(wǎng)絡(luò)可學習參數(shù)過多導(dǎo)致的過擬合問題。

        3 實驗及分析

        本文的采用驗證平臺:硬件資源顯卡NVIDIA TITAN XP×2,軟件環(huán)境Ubuntu16.04LTS系統(tǒng),Pytorch1.3.1編程框架,并且采用了CUDA 10.0 GPU加速環(huán)境。

        3.1 數(shù)據(jù)集的準備

        為了增強實驗的說服力,我們采用公開的FIRL數(shù)據(jù)集。該數(shù)據(jù)集分為兩個部分,不僅提供了帶人工標注的熱成像數(shù)據(jù)集,而且第二個部分提供了對應(yīng)的無標注RGB彩色圖像,用于訓(xùn)練和驗證神經(jīng)網(wǎng)絡(luò)。數(shù)據(jù)通過車載RGB相機和熱成像儀器采集獲得。FIRL數(shù)據(jù)集內(nèi)一共有5個類別,我們對數(shù)據(jù)集處理,將其他類別的標注屏蔽,保留數(shù)據(jù)集轎車和其他兩類,并將其合并一類,命名為“車輛”。

        FIRL數(shù)據(jù)集共有三類輸入圖像,分別為RGB圖像、8比特紅外圖像、16比特紅外圖像,本文僅采用8比特紅外圖像作為實驗數(shù)據(jù)集,其中訓(xùn)練集有8862張圖像;測試集有1366張圖像;不設(shè)置驗證集。所有圖像的尺寸均為640×512×3,如圖5所示。

        圖5 FIRL數(shù)據(jù)集輸入圖像Fig.5 Input image from FIRL dataset

        此外,為了提升算法權(quán)重的魯棒性,在訓(xùn)練時對輸入的圖像進行隨機翻轉(zhuǎn)、對稱、附加高斯噪聲等圖像增強操作。

        3.2 實驗細節(jié)

        本文采用國際通用的評價標準“平均精確率(Average Precision,AP)”為評價標準來評價神經(jīng)網(wǎng)絡(luò)模型檢測性能。

        為了對比soft-NMS對算法檢測精度的影響,首先采用原始的Faster R-CNN對數(shù)據(jù)集進行訓(xùn)練,循環(huán)14次,batch大小為16張圖片,前四層卷積層初始學習率Rl=0,其余層初始學習率Rl=0.001,每一個循環(huán)學習率下降,比率為0.1,RPN候選框取300個/張,權(quán)重衰減常數(shù)為0.0001。然后在Faster R-CNN的RPN網(wǎng)絡(luò)采用改進的soft-NMS的進行訓(xùn)練,其他參數(shù)同上。

        實驗中發(fā)現(xiàn),soft-NMS的閾值Nt1取值范圍在0.3到0.5,Nt2取0.7~0.9之間時優(yōu)化效果較明顯,檢測AP如表1所示。

        表1 改進的soft-NMS不同取值對應(yīng)的APTab.1 AP values corresponding to different values of improved soft-NMS

        選取改進的soft-NMS的兩個閾值分別取Nt1=0.4,Nt2=0.9的模型作為對比,訓(xùn)練結(jié)果每10個batch打印一次,結(jié)果如圖6所示。

        圖6 改進的soft-NMS與NMS方法損失函數(shù)及AP對比Fig.6 Comparison of improved soft-NMS and NMS methods in loss function and AP

        圖例SNMS和NMS分別代表基于soft-NMS和NMS的算法由損失函數(shù)曲線圖和AP曲線可以看出,是否采用改進的soft-NMS對于損失函數(shù)的收斂影響并不顯著,但是采用soft-NMS方法可以略微增加目標檢測的準確度,改進后的算法AP達到了82.31 %,相較于改進之前79.46 %提高了約2.85 %。

        同樣地,用基于改進的soft-NMS方法、VGG16網(wǎng)絡(luò)作為特征提取層的Faster R-CNN作為對照設(shè)計實驗檢驗Tri-VGG網(wǎng)絡(luò)對算法檢測性能的影響。batch大小取16,循環(huán)14次,前四層卷積層初始學習率Rl=0,其余層初始學習率為Rl=0.001,每一個循環(huán)學習率下降,比率為0.1,RoI候選框取256個/張,權(quán)重衰減常數(shù)為0.0001。實驗結(jié)果每10個batch打印一次,結(jié)果如圖7所示。圖例中的VGG16表示特征提取層為VGG16的網(wǎng)絡(luò),Tri-VGG1表示不采用權(quán)重共享、不采用預(yù)訓(xùn)練策略以及不采用正則化方法的Tri-VGG特征提取網(wǎng)絡(luò),Tri-VGG2表示采用權(quán)重共享及預(yù)訓(xùn)練策略、權(quán)重衰減系數(shù)為0.0001、dropout系數(shù)為0.4的Tri-VGG特征提取網(wǎng)絡(luò)。

        圖7 Tri-VGG與VGG16特征提取層的Faster R-cnn損失函數(shù)及AP對比Fig.7 Comparison of Tri-VGG and VGG16 feather extraction layer in Faster R-cnn loss function and AP

        由實驗結(jié)果發(fā)現(xiàn),未采取任何訓(xùn)練策略的Tri-VGG特征提取網(wǎng)絡(luò)的損失函數(shù)無法進一步收斂,而算法的檢測精度卻無法提升,這是因為存在參數(shù)冗余,也就是過擬合現(xiàn)象。

        于是我們對該網(wǎng)絡(luò)采取了凍結(jié)預(yù)訓(xùn)練卷積層、權(quán)重共享、權(quán)重衰減、dropout等方法避免網(wǎng)絡(luò)的過擬合,在實驗中發(fā)現(xiàn),隨著dropout系數(shù)的增長,網(wǎng)絡(luò)的過擬合現(xiàn)象起初會得到較好的改善,但是如果dropout系數(shù)超過0.4,網(wǎng)絡(luò)的檢測性能的不穩(wěn)定性就會較為突出,每次試驗的結(jié)果波動較大,于是本文采用的dropout為0.4是緩解網(wǎng)絡(luò)過擬合的前提下,較為穩(wěn)妥的選擇。由圖7可以看出,經(jīng)過預(yù)訓(xùn)練的Tri-VGG網(wǎng)絡(luò)的收斂效果也有明顯的提升,采用Tri-VGG的神經(jīng)網(wǎng)絡(luò)模型得到的AP達到了85.21 %,相較于原始的VGG神經(jīng)網(wǎng)絡(luò)模型高出了約3.01 %。

        表2為幾種算法的綜合對比,實驗結(jié)果表明,檢測精度上一階段網(wǎng)絡(luò)檢測模型稍遜于二階段網(wǎng)絡(luò)模型,而本文的模型相比RPN網(wǎng)絡(luò)采用soft-NMS的Faster R-CNN模型AP提高了3.01 %,相比原始的Faster R-CNN檢測算法AP提高了5.86 %。運算速度上,一階段算法的運算速度略快于二階段算法,本文的網(wǎng)絡(luò)模型檢測速度為20 f/s,在滿足檢測實時性的條件下,盡可能的提升了算法的檢測精度。算法的可視化結(jié)果如圖8所示。

        表2 算法檢測精度比較Tab.2 Comparison of detection accuracy of algorithms

        圖8 紅外車輛檢測算法可視化結(jié)果Fig.8 Visualization results of infrared vehicle detection algorithm

        4 結(jié) 論

        本文在Faster R-CNN網(wǎng)絡(luò)基礎(chǔ)上發(fā)展了一種權(quán)重共享的多感受野融合特征提取網(wǎng)絡(luò)Tri-VGG,并且設(shè)計了改進的soft-NMS方法改進了Faster R-CNN的第二次NMS過程,并且設(shè)計了訓(xùn)練策略防止網(wǎng)絡(luò)過擬合,使得改進的多尺度特征融合的Faster R-CNN網(wǎng)絡(luò)對于擁堵路況的小型車輛的AP最高達到了86.65 %,車輛檢測AP達到了85.32 %,比采用了改進soft-NMS的Faster R-CNN高了3.01 %,比原始的Faster R-CNN網(wǎng)絡(luò)高了5.86 %。后續(xù)的研究可從優(yōu)化Faster R-CNN的邊框回歸機制、改進網(wǎng)絡(luò)的損失函數(shù)以及提高算法檢測速度等方向進行。

        猜你喜歡
        特征提取檢測方法
        “不等式”檢測題
        “一元一次不等式”檢測題
        “一元一次不等式組”檢測題
        基于Gazebo仿真環(huán)境的ORB特征提取與比對的研究
        電子制作(2019年15期)2019-08-27 01:12:00
        一種基于LBP 特征提取和稀疏表示的肝病識別算法
        可能是方法不對
        小波變換在PCB缺陷檢測中的應(yīng)用
        用對方法才能瘦
        Coco薇(2016年2期)2016-03-22 02:42:52
        四大方法 教你不再“坐以待病”!
        Coco薇(2015年1期)2015-08-13 02:47:34
        捕魚
        亚洲国产线茬精品成av| 成人免费毛片内射美女-百度| 国产精选免在线观看| 国产99久久精品一区| 亚洲一区二区三区高清在线观看| 一本色道久久综合狠狠躁篇| 欧美丰满大乳高跟鞋| 制服无码在线第一页| 女主播国产专区在线观看| 久久亚洲精品国产亚洲老地址| 久久国产热这里只有精品| 免费国产黄线在线播放| 麻豆视频在线观看免费在线观看 | 国产成人免费一区二区三区| 亚洲综合色区无码专区| 久久久国产精品樱花网站| 无码国产福利av私拍| 99精品视频69v精品视频| 精品视频一区二区杨幂| 日本一区二区三区经典视频| 精品国产麻豆免费人成网站| 亚洲va欧美va国产综合| 亚洲一区丝袜美腿在线观看| 蜜桃视频在线免费视频| 婷婷色婷婷开心五月四房播播| 在线综合网| 亚洲午夜精品国产一区二区三区 | 午夜大片在线播放观看| 国产md视频一区二区三区| 国产爽爽视频在线| 狼人狠狠干首页综合网| 激情综合五月| 国产大学生粉嫩无套流白浆| www久久久888| 91九色最新国产在线观看| 99国产精品人妻噜啊噜| 深夜国产成人福利在线观看女同| 亚洲国产综合一区二区| 亚洲夜夜性无码| 精品视频一区二区三三区四区| 在线观看中文字幕一区二区三区|