亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        結合注意力機制的車型檢測算法

        2022-01-09 06:26:32謝斌紅趙金朋張英俊
        計算機技術與發(fā)展 2021年12期
        關鍵詞:池化注意力車型

        謝斌紅,趙金朋,張英俊

        (太原科技大學 計算機科學與技術學院,山西 太原 030024)

        0 引 言

        隨著社會的發(fā)展,國內的汽車數量不斷增加,種類也日益豐富,使用計算機技術對交通圖像中的車型進行識別檢測已經成為計算機視覺領域的一項重要應用。在不同的場景中檢測不同的車型具有廣闊的應用前景,例如:在無人駕駛領域,通過識別圖像中的車輛類型和位置,可以規(guī)避車輛的碰撞;在智能交通管理中,可以用于市區(qū)車輛的限行,也可以進行更精準的車流檢測等。

        近年來,由于深度卷積神經網絡(DCNNs)的發(fā)展和計算機計算能力的提升,基于深度學習的車型檢測技術引起了人們的廣泛研究。Sengar[1]等人采用一種基于雙向光流塊的運動目標檢測算法,該算法實驗效果較好,但是需要對比前后兩幀圖像,需要輸入視頻,不適用于靜態(tài)檢測。孫皓澤等人[2]提出使用MobileNet網絡對裝甲車進行檢測識別,該方法適用于計算資源受限場景,但在檢測精度上仍有待提高。為了能夠直接檢測圖像中的車輛類型,提高實時檢測準確率,該文提出將深度學習的目標檢測方法用于實時車型檢測任務中,解決實際場景應用中車型的檢測精度和速度問題。

        目前,基于深度學習的目標檢測方法主要分為兩類:基于候選區(qū)域的雙階段檢測器和基于回歸框的單階段檢測器。其中,雙階段檢測器的檢測過程分為兩個步驟,第一步從圖像中生成候選區(qū)域(可能存在目標的區(qū)域),然后將候選區(qū)域作為輸入,輸入神經網絡提取特征,進行目標的類別和回歸框位置的檢測,典型的網絡有R-CNN[3]、Fast R-CNN[4]、Mask R-CNN[5]、PANet[6]、TridentNet[7]。而單階段檢測器省去了候選區(qū)域的生成過程,將目標檢測任務視為回歸任務,直接對輸入的圖像進行回歸預測并輸出結果,典型的網絡有SSD[8]、YOLO[9-11]、ConerNet[12]、FSAF[13]、FCOS[14]。

        兩種方法相比較,雙階段檢測方法的精度略高于單階段檢測方法的精度,但是其在檢測速度方面表現(xiàn)不如單階段檢測方法,不足以滿足車型檢測的實時要求;而單階段檢測方法在檢測速度方面有著很好的表現(xiàn),故采用單階段的檢測方法進行車型檢測。

        現(xiàn)在主流的基于單階段的車型檢測方法在檢測速度和精度方面都有著較好的表現(xiàn),但大多數方法是基于Anchor框的,需要人為預先設置Anchor的一些大小和比例等超參數。

        該方法存在以下不足:

        (1)算法對預先設定的圖像的大小、Anchor框的長寬比和數量比較敏感;

        (2)由于與Anchor相關的超參數是預先設定的,使得算法無法自適應檢測目標的大小,且對變形較大的目標檢測效果不太理想;

        (3)該類方法計算量和內存開銷較大,因為需要和真實結果多次地計算IOU(intersection over union);

        (4)該方法會使得數據集的正負樣本不平衡,為了獲得較高的召回率,需要在特征圖上密集地部署Anchor,而其中大部分是負樣本,會加劇正負樣本的不平衡。

        針對上述不足,該文提出基于Anchor-Free的車型檢測方法。該方法減少了車型檢測模型的設計復雜度和超參數的設置難度,從而簡化訓練過程,提升模型檢測速度;取消了Anchor的設置,在減少計算量的同時可以更好地適應不同尺寸的車輛特征。同時,為了解決車型檢測過程中對車輛關鍵特征提取能力不足的問題,在CenterNet[15]的基礎上引入了混合注意力機制;此外為了更好地提取不同尺寸的車型特征,將不同尺度的特征圖進行了融合。在增加了極少參數量的同時提升了檢測精度。

        1 相關工作

        1.1 注意力機制

        注意力機制(attention mechanism)源于人們對視覺的研究。人類視覺系統(tǒng)的一個重要特性是人們不會一次嘗試處理整個場景的信息,而是有選擇地聚焦于有重要特征信息的區(qū)域。Jaderberg等人[16]在Spatial Transformer Networks中提出了用于分類任務的空間注意力模塊,該模塊允許對特征數據進行空間變換。Wang等[17]使用編碼器式注意模塊的殘差注意網絡,通過細化特征圖,使得網絡在提升性能的同時增加了對噪聲的魯棒性。注意力機制已被廣泛地應用于序列化標注、圖像識別和目標檢測等場景。使用注意力機制來提升卷積神經網絡在大規(guī)模圖像分類、檢測任務中的效果,故該文使用注意力機制提升車型檢測效果。

        1.2 網絡結構

        該方法是一種基于Anchor-Free的單階段目標檢測算法,在速度和精度方面都有很好的表現(xiàn),并且在摒棄Anchor后,減少了人為設置超參的影響。本研究采用ResNet-34作為主干網,其網絡結構如表1所示,該網絡很好地解決了深度神經網絡的退化問題。

        表1 主干網的結構

        模型訓練時,首先使用ResNet-34進行特征提取,然后對提取出來的特征經過多層可變形卷積(deformable convolutional networks),將特征圖尺寸進行四次下采樣,由512×512縮小到128×128,最后形成三個并行分支,分別預測車輛的類別損失Lk、邊框損失Lsize以及車輛中心偏移損失Loff。損失函數的計算公式如式(1)所示,其中λsize為0.1,λoff為1。

        Ldet=Lk+λsizeLsize+λoffLoff

        (1)

        Lk=

        (2)

        在分類損失中,α為2,β為4,N為關鍵點個數,該超參的選擇依據Law[18]等人的實驗。

        (3)

        (4)

        2 改進網絡

        2.1 注意力模塊

        目前常見的注意力機制劃分方式有三種,按照關注區(qū)域可以分為軟注意力和硬注意力;按照輸入形式可以分為基于項的注意力和基于位置的注意力;如果按照注意力域(attention domain)分類,則包含三種注意力域:空間域(spatial domain)、通道域(channel domain)和混合域(mixed domain)。

        通道注意力的作用是通過對特征圖的各個通道之間的依賴性進行建模以提高對于重要特征的表征能力。目前生成通道注意力的方式有以下幾種:平均池化、最大池化、結合平局池化和最大池化、方差池化。其生成過程類似,首先通過在各層特征圖上的池化獲得各個通道的全局信息,然后使用全連接層進行特征提取,ReLU進行非線性激活,最后使用Sigmoid進行權重歸一化,通過該過程自適應地對各通道特征的相關程度進行建模,最后再將原特征通道的信息與自適應學習建模后的權重進行加權處理,實現(xiàn)特征響應及特征重校準的效果。

        使用注意力機制的網絡在前向傳播的過程中,重要的特征通道將會占有更大的比重,在最終所呈現(xiàn)的輸出圖像中也能更加明顯地表征車型檢測網絡所重點關注的部分,更加關注圖像的內容特征,更好地分辨出車輛的類別。

        空間注意力需要為特征圖生成一個空間注意力圖,用于增強或抑制不同位置的特征??臻g注意力的方式有兩種:最大池化和平均池化結合、標準卷積(1*1,S=1,不同卷積核大小)。通過空間注意力,能夠更好地展示網絡所要關注的重點位置,更加關注圖像的位置特征,更好地對車輛進行定位。

        混合注意力,顧名思義就是將圖像的通道特征和空間特征引入到特征提取的過程。Convolutional Block Attention Module (CBAM)[19]就是使用了混合注意力機制,同時關注通道和空間的特征,以此來提高神經網絡在類別以及位置的表征能力。

        本研究在ResNet[17]的殘差模塊中融入混合注意力機制,用于提升車型類別以及車輛位置的表征能力。圖1為引入注意力之后的殘差模塊結構圖。從圖1可知,輸入圖像經過卷積之后,首先將特征圖輸入到通道注意力模塊,經過全局平均池化和全局最大池化操作后依次通過兩次全連接和Sigmoid;將通道注意力模塊輸出的特征圖輸入到空間注意力模塊中,經過通道最大池化和通道平均池化后輸入到全連接和Sigmoid;最后再和殘差連接結合一并輸出。

        圖1 引入注意力的殘差模塊

        通道注意力輸入特征圖F∈Rc×h×w(c為通道數,h、w為圖像的高寬),會生成一個一維的通道注意力圖Mc∈Rc×1×1。生成過程如圖2所示(圖中S代表Sigmoid)。具體注意力特征圖計算公式如式(5)所示。

        圖2 通道注意力結構

        (5)

        其中,全局平均池化輸出為Avgout,全局最大池化輸出為Maxout,F(xiàn)c為全連接,ReLU為激活函數。

        空間注意力將通道注意力的輸出作為輸入,輸入到網絡,運算后生成一個二維的空間注意力圖Ms∈R1×h×w。具體注意力特征圖計算公式如式(6)所示,Avg為平均池化操作,Max為最大池化操作,Cat為張量拼接運算。生成過程如圖3所示。

        圖3 空間注意力結構

        F''=Ms(F')?F'

        Ms(F')=Sigmoid(conv(Cat(Avg(F')+

        Max(F'))))

        (6)

        2.2 特征融合

        在特征提取過程中,ResNet-34進行了四次下采樣,將圖像原始尺寸進行了四次縮放,因此,圖像中的一些小目標在進行特征提取時,其分辨率逐漸下降,在網絡的末端小目標的特征信息可能就會丟失,從而影響小目標的檢測精度。所以為了提高車輛目標檢測效果,更好地提取圖像中車型的細粒度特征,通過引入特征融合,將可以更好地保留上層的特征,減少特征信息的損失,從而提升識別精度,具體過程如下。

        首先,將殘差網絡中C3層的特征進行下采樣操作,并通過1×1卷積改變通道數,與C5層的特征進行融合,然后將融合之后的特征一并進行后續(xù)運算。圖4為引入特征融合的整體網絡結構,加粗連接線為引入的特征融合。

        圖4 網絡結構

        2.3 圖像增強

        數據增強也稱為數據增廣,目的是增加數據集的規(guī)模,更好地訓練模型,讓模型有更好的檢測能力,防止模型過擬合。為了提升車型檢測模型的泛化能力,提升檢測性能,從而更好地進行車型檢測,該文首先對實驗數據集進行了翻轉增強,然后再使用增強后數據集進行訓練。

        3 實驗結果與分析

        3.1 數據集

        文中使用的數據集為KITTI車型數據集和BIT-Vehicle數據集。其中,KITTI數據集是由豐田美國技術研究院同德國卡爾斯魯厄理工學院聯(lián)合創(chuàng)建,該數據集是目前國際上最大的數據集,主要用于自動駕駛場景下的計算機視覺算法評測。

        KITTI車型數據集一共有7 481張圖像,包含小汽車(Car)、廂式貨車(Van)、卡車(Truck)和電車(Tram)四種車型。實驗中將數據集劃分為兩部分,其中5 000張作為訓練集,2 481作為測試集,訓練標簽總共有17 637個,測試標簽有15 627個,具體每類車型標簽數如圖5所示。

        圖5 KITTI數據集

        另一個數據集是BIT-Vehicle車型數據集,它包含了公共汽車(Bus)、越野車(SUV)、轎車(Sedan)、小貨車(Minivan)、中巴(Microbus)和卡車(Truck)6種車型,共9 850張圖像。本次實驗將數據集劃分為兩部分,6 000張用于訓練,3 850張用于測試,詳細類別的標簽數如圖6所示,該數據集中的圖像均采自于實際的交通高清攝像頭。

        圖6 BIT-Vehicle數據集

        實驗中的數據集格式為COCO,所以需要對原始標簽進行數據格式的轉化。具體步驟如下:

        (1)將KITTI轉化為txt格式;

        (2)從txt中篩選車輛類別;

        (3)txt格式標簽轉化為XML格式;

        (4)將XML格式標簽轉化為Json格式用于訓練和測試。

        3.2 評價指標

        實驗使用各車型類別AP的平均值(mean average precision,mAP)和每秒檢測幀數(frames per second,fps)作為評價指標。mAP通過計算IOU=0.5時的精度precision和召回率recall得到每類車型的PR(precision-recall)曲線,然后計算PR曲線與其下的面積得到該類別的平均精度AP,最后,計算所有類別AP的平均值得到mAP。而fps則是首先通過計算出檢測一張圖片所消耗的時間,然后計算每秒可以檢測多少張圖計算而來。

        3.3 實驗設置

        本研究中使用的實驗配置如下:CPU:Inteli7 8700K;RAM:16 G;GPU加速庫:CUDA 10.0,CUDNN 7.5.0;GPU:Nvidia GTX1080Ti;實驗平臺的操作系統(tǒng)為Ubuntu16.04,實驗程序開發(fā)使用了基于Python機器學習庫的Pytorch框架。

        網絡訓練過程中,首先在ImageNet數據集上進行預訓練,然后在車型數據集上進行微調。訓練參數設置如下:batch_size為32,epoch為120,初始學習率0.000 125,并在第75個和100個epoch時分別下調學習率,每次下調為原來的1/10。

        3.4 實驗結果及分析

        為驗證文中方法的有效性,與現(xiàn)有的方法進行對比,在BIT-Vehicle數據集上的實驗結果如圖7所示。

        由圖7可知,文中方法與Yolov3相比,在Truck、SUV、Microbus三種車型數據集上識別精度有比較明顯的提升,同時速度也由35 fps提升至43 fps,能夠更好地應用于實時車型檢測。

        圖7 BIT-Vehicle數據集實驗結果

        文中方法與其他方法在KITTI數據集上的實驗結果如表2所示。分析表中數據可知,文中方法與原CenterNet[15]方法相比mAP提升了2.3%,而檢測速度基本不受影響。這就說明混合注意力的引入能夠很好地提升車型檢測的精度;并且與現(xiàn)在主流的方法相比,能夠在速度與精度之間達到了一個很好的平衡。和DF-YOLOv3[22]相比,雖然速度慢了2 fps,但精度提升接近1%。

        表2 KITTI數據集實驗結果

        通過對上述實驗結果的分析,證明了通過融入注意力模塊,對車輛的空間信息以及通道信息進行權重劃分,同時進一步融合了不同尺度的車型特征,雖然增加了模型參數,但檢測速度不受較大影響,同時提升了車輛檢測的精度,從而驗證了文中方法的有效性。

        此外,為了更好地分析文中方法,對車型中心點檢測結果進行可視化展示。圖8為該方法在BIT-Vehicle數據集上的檢測結果,其中第一行為原始輸入圖像,第二行為預測的關鍵點效果圖,最后一行為檢測結果圖。從圖中可以看出該方法能夠很好地預測車輛的中心位置。此外,通過觀察檢測結果發(fā)現(xiàn),在光照充足的情況下,圖像中會有車的陰影,這會一定程度上影響檢測效果。

        圖8 檢測結果

        4 結束語

        針對當前車型檢測方法存在精度、速度較低和數據集少的問題,首先使用圖像增強對車型數據集進行數據增強,為車型檢測模型提供了規(guī)模更大的數據集。同時為了適應不同尺寸的車型以及多目標檢測等情況,通過使用混合注意力模塊和特征融合對Centernet[15]進行改進,最終得到混合注意力卷積神經網絡,提高了車型檢測精度。在KITTI數據集和BIT-Vehicle數據集上分別進行實驗,其在測試集上的平均檢測精度分別達到了94.6%、95.5%,與現(xiàn)有的一些車型檢測算法對比結果顯示,該方法更適用于車型檢測任務,能夠直接對圖像進行車型檢測,并且能夠在速度和精確率上實現(xiàn)了一個很好的平衡。

        在未來工作中,將探索更優(yōu)的注意力模塊,同時使用更好的圖像處理方法,來適應復雜的應用環(huán)境,促進深度學習在車型檢測、自動駕駛等任務上的應用。

        猜你喜歡
        池化注意力車型
        基于緊湊型雙線性網絡的野生茵識別方法研究
        無線電工程(2024年8期)2024-09-16 00:00:00
        基于Sobel算子的池化算法設計
        讓注意力“飛”回來
        2022全球期待車型 TOP10
        車迷(2022年1期)2022-03-29 00:50:20
        卷積神經網絡中的自適應加權池化
        軟件導刊(2022年3期)2022-03-25 04:45:04
        一種高速自由流車型識別系統(tǒng)
        基于卷積神經網絡和池化算法的表情識別研究
        “揚眼”APP:讓注意力“變現(xiàn)”
        傳媒評論(2017年3期)2017-06-13 09:18:10
        A Beautiful Way Of Looking At Things
        車型 (五)
        九月色婷婷免费| 色一情一乱一伦一视频免费看| 免费成人在线电影| 少妇人妻偷人精品无码视频| av天堂线上| 美女视频黄a视频全免费网站色 | 亚洲AV无码一区二区水蜜桃| 天堂久久一区二区三区| 女人18毛片a级毛片| 国产无遮挡又黄又爽又色| AV无码免费不卡在线观看| 国产传媒剧情久久久av| 精品一区二区av在线| 亚洲精品tv久久久久久久久久| 亚洲精品不卡av在线免费| 国产精品高潮呻吟av久久黄| 国产又爽又黄又刺激的视频| 亚洲天堂在线播放| 国产精品专区一区二区av免费看 | 国产伪娘人妖在线观看| 免费一区二区三区女优视频| 国产成人a在线观看视频免费| 成人国产午夜在线视频| 日本国主产一区二区三区在线观看 | 亚洲国产av高清一区二区三区| 亚洲av一二三区成人影片| 亚洲最大av资源站无码av网址| 美女在线国产| 蜜桃视频高清在线观看| 人妻少妇偷人精品免费看| 国产成人无码一区二区三区在线| 亚洲免费一区二区三区视频| 91久久精品一区二区三区大全| 在办公室被c到呻吟的动态图| 亚洲综合色丁香婷婷六月图片| 看全色黄大色大片免费久久久| 蜜桃传媒一区二区亚洲av婷婷| 中国人妻被两个老外三p| 揄拍成人国产精品视频肥熟女 | 日本在线精品一区二区三区| 精品少妇无码av无码专区|