亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        嵌入注意力和特征交織模塊的Gaussian-YOLO v3目標檢測

        2020-09-04 10:00:32吳亞娟羅南超鄭伯川
        計算機應用 2020年8期
        關鍵詞:交織注意力卷積

        劉 丹,吳亞娟,羅南超,鄭伯川

        (1. 西華師范大學計算機學院,四川南充637009; 2. 阿壩師范學院計算機科學與技術學院,四川阿壩623002;3. 西華師范大學數(shù)學與信息學院,四川南充637009)

        0 引言

        先進駕駛輔助系統(tǒng)(Advanced Driver Assistant System,ADAS)利用安裝于車上的各種傳感器,如攝像頭、雷達、激光和超聲波等,實時采集車內外場景數(shù)據(jù),實時分析判斷,提醒駕駛者注意異常交通和道路情況,使駕駛者盡早察覺可能的危險,提高駕駛安全性。對車輛和行人等的目標檢測是ADAS 中重要的任務之一。ADAS 中不僅對目標檢測的準確性要求高,而且不能漏掉對小目標的檢測。

        目標檢測的任務是識別出圖像或視頻中的感興趣物體,同時檢測出它們的位置,被廣泛應用于機器人導航、智能視頻監(jiān)控、工業(yè)檢測、航空航天等諸多領域。同時,目標檢測也是身份識別領域的一個基礎性算法,其效果直接影響后續(xù)的特征識別、步態(tài)識別、流量計數(shù)、實例分割等任務。

        目前,目標檢測已經(jīng)廣泛采用基于深度神經(jīng)網(wǎng)絡的檢測方法,如兩階段的Faster R-CNN(Faster Region-Convolutional Neural Networks)系列方法[1-4],一階段的單次多框檢測(Single Shot multibox Detector,SSD)系列方法[5-10]和 YOLO(You Only Look Once)系列方法[11-13]。YOLO v3[13]由于采用了更多尺度檢測框和更簡潔的網(wǎng)絡結構,因而具有檢測速度快、能檢測小目標等優(yōu)點。隨后的 Gaussian-YOLO v3[14]利用 Gaussian 模型來對網(wǎng)絡輸出進行建模,使得網(wǎng)絡對輸出每個檢測框的不確定性進行抑制,提高了檢測位置的準確性。

        基于駕駛者角度觀察到的前方道路情況復雜多變,目標種類多,大小目標都有。距離遠的圖像區(qū)域內目標物體通常尺寸小,特征不明顯,難以對其準確檢測定位。YOLO v3雖然具有檢測小目標的能力,但是對遠距離多個小目標的檢測能力不夠理想,容易漏檢;而Gaussian-YOLO v3雖然抑制了檢測框的不確定性,但沒有能提升對小目標的檢測能力。

        注意力機制[15]通過三元組(key,query,value)提供一種有效捕捉全局上下文信息的建模方式。近年來,注意力機制被廣泛應用于自然語言處理和計算機視覺領域。文獻[16]中指出人類看東西時不是將目光放在整張圖片上,而是根據(jù)需求將注意力集中到圖像的特定部分。如果在計算機視覺處理中對人的注意力機制進行建模,將其應用到一些視覺任務中,將更有利于完成這些任務,如圖像分割、目標檢測等。Google Mind 團隊提出在循環(huán)神經(jīng)網(wǎng)絡(Recurrent Neural Network,RNN)[17]模型上使用注意力機制來進行圖像分類,取得了較好的結果;Xu 等[18]將注意力機制引入到了圖像描述領域,也取得了不錯的效果;文獻[19]中提出的注意力mask 通過給每個特征元素都找到其對應的注意力權重,同時形成了空間域和通道域的注意力機制;文獻[20]中運用注意力設計了一個通用的非局部神經(jīng)網(wǎng)絡來描述圖像每個像素對前后幀圖像的貢獻關系,從而改善與可視化理解相關視覺任務的可解釋性;文獻[21]中提出的一種輕量、通用的注意力模型(Convolutional Block Attention Module,CBAM)更關注目標物體本身,比基準模型有著更好的性能和更好的解釋性??梢?,注意力機制能提高計算機視覺任務的性能。

        圖1 整體網(wǎng)絡結構Fig. 1 Overall network structure

        目標檢測是對圖像中特定關注的區(qū)域進行識別并定位。在應用目標檢測算法時,如果在需要關注的目標區(qū)域投入更多的注意力資源,獲取更多的細節(jié)信息,抑制其他區(qū)域信息,從而使目標檢測算法從大量信息中快速獲取到高價值信息,將有利于提升目標檢測的性能。

        本文通過借鑒SENet(Squeeze-and-Excitation Networks)[22]網(wǎng)絡中的注意力機制,在Gaussian-YOLO v3 中嵌入注意力機制和特征交織模塊,從而提升Gaussian-YOLO v3 的目標檢測性能。主要改進包括以下兩點:

        1)引入文獻[21]中的注意力模型,自適應校準每個通道的特征響應值,自動獲取每個特征通道的權重,根據(jù)通道權重增強有用特征,抑制不重要特征;

        2)引入文獻[23]中的特征交織模塊,通過不同通道的特征交織混合,豐富特征信息,有效解決網(wǎng)絡前向傳遞信息丟失、小目標難檢測的問題,提高網(wǎng)絡對小目標的特征提取能力。

        1 嵌入注意力和特征交織模塊的Gaussian-YOLO v3

        本文方法在Gaussian-YOLO v3 中添加通道注意力機制,自主學習每個通道的權重,從而增強關鍵特征、抑制冗余特征;同時在Gaussian-YOLO v3中增加特征交織模塊,提高對小目標特征的提取能力。嵌入注意力和特征交織模塊的Gaussian-YOLO v3的網(wǎng)絡結構如圖1所示(參照文獻[14]),圖中虛線框部分是嵌入注意力和特征交織的改進模塊。

        YOLO v3 的主干網(wǎng)絡是Darknet53,該網(wǎng)絡使用步長為2的卷積來實現(xiàn)5 次下采樣,降低了池化帶來的梯度負面效果。同時使用了23 個殘差模塊,在增加網(wǎng)絡深度的同時降低產(chǎn)生過擬合的風險。Convolutional layer 層是YOLO v3 的基本組件,該組件由 Darknetconv2d+BN+Leaky ReLU 構成。85、97 層是上采樣層,通過上采樣提升深層特征圖大小,并與淺層特征圖進行級聯(lián)形成 Router 層[24]。如 85 層將 16 × 16 × 256 的特征上采樣得到32 × 32 × 256的特征,再將其與61層32 × 32 ×512 的特征級聯(lián)得到 32 × 32 × 768 的特征。82、94、106 特征圖為檢測層,在三條預測支路采用全卷積結構。三個檢測層的大小分別為:16 × 16 × 45、32 × 32 × 45 和 64 × 64 × 45,由于感受野大小不同,因此用于分別檢測不同尺度大小的目標。檢測層每個網(wǎng)格單元設置3個檢測框,因此每個網(wǎng)格單元預測向量長度為:3 × (10 + 4 + 1) = 45,其中 10 對應 BDD100K 數(shù)據(jù)集[25]的 10 類,3 表示每個網(wǎng)格單元包含 3 個檢測框,4 是每個檢測框4 個位置偏移量,1 是每個檢測框包含目標的置信值。9個檢測框的大小采用文獻[14]對BDD100K數(shù)據(jù)集聚類得到的結果。

        為了進一步提升特征表達能力,本文在主干網(wǎng)絡的每個殘差模塊中的相鄰兩個卷積層之間加入一個同時融合了通道注意力和特征交織的特征融合模塊構成新的殘差模塊。通道注意力模塊有利于提取重要特征[26],而特征交織模塊有利于豐富特征信息。通道注意力模塊和特征交織模塊將在后面作更詳細的介紹。

        1.1 Gaussian-YOLO v3網(wǎng)絡輸出策略

        YOLO v3的輸出結果中,目標類別是概率值,但目標框位置是確定值,不是概率值,無法獲得每個預測框的可靠性。Choi 等[14]利用 Gaussian 模型來對網(wǎng)絡輸出進行建模,在基本不改變YOLO v3 結構和計算量的情況下,建模之后能夠輸出每個預測框的可靠性。如圖2 所示(圖像來源于文獻[14]),Gaussian-YOLO v3 通過增加預測框位置的概率輸出和改進網(wǎng)絡的損失函數(shù),實現(xiàn)了對預測框可靠性的輸出。

        圖2 基于Gaussian分布的YOLO v3網(wǎng)絡輸出[14]Fig. 2 Output of YOLO v3 network based on Gaussian distribution[14]

        采用的Gaussian模型為:

        其中μ(x)為均值函數(shù),Σ(x)為方差函數(shù)。

        預測框位置所采用的損失函數(shù)為:

        其中:γijk為是否是最合適的預測框,值為1 表示是,0 表示否。預測框的可靠性C由三部分的乘積構成:

        1.2 通道注意力模塊

        圖1中的通道注意力模塊如圖3所示。

        圖3 通道注意力模塊Fig. 3 Channel attention module

        通道注意力模塊完成下列公式的計算:

        其中:F ∈ RH×W×C為輸入特征圖,F(xiàn)′∈ RH×W×C為經(jīng)過注意力提升后的特征圖;H、W、C 分別表示特征圖的長度、寬度和通道數(shù);?表示逐元素乘法;Mc(F)表示對F 在通道維度上作注意力提取操作。Mc(F)的計算公式為:

        圖4 展示了添加注意力模塊和沒有注意力模塊時,第一個檢測層(82 層)中目標置信值的情況(只顯示高于閾值0.8的置信值,并映射到原圖上)。圖4 中深色部分是目標置信值較高的地方,可以看出,本文設計的通道注意力模塊使深色區(qū)域部分更多,而沒有添加注意力模塊的Gaussian-YOLO v3 對部分真實目標物體給予相對更低的置信值(部分低于閾值,沒有顯示出來)。這說明添加注意力模塊增強了特征圖中目標區(qū)域的信息,抑制了非目標區(qū)域的信息,提升了網(wǎng)絡對前景目標和背景的區(qū)分能力。

        圖4 目標置信值對比Fig. 4 Comparison of object confidence

        1.3 特征交織模塊

        目前常見的卷積神經(jīng)網(wǎng)絡提取特征的方法大多都以分層方式進行,即每層各個通道采用相同的方式提取。這種分層方式要么對每一層使用多個尺度的卷積核進行提取特征,如SPPNet(Spatial Pyramid Pooling Network)[27],要么是對每一層提取的特征進行融合,如 FPN(Feature Pyramid Network)[28]。本文在加入通道注意力的同時加入了一種特征交織模塊。通過在同一層特征圖內不同通道之間建立連接,交織不同通道的特征,解決網(wǎng)絡前向傳遞信息丟失、小目標難檢測的問題,提高網(wǎng)絡對小目標的特征提取能力。特征交織模塊結構如圖5所示。

        圖5 特征交織模塊Fig. 5 Feature interwine module

        特征交織模塊將輸入特征圖按通道分為s 個通道組,分別由x1,x2,…,xs表示,每組都有相同的寬和高,通道數(shù)為輸入特征圖的1/s。每組的輸出yi通過如下公式計算。

        其中:Ki為3× 3的卷積核;s為比例尺寸控制參數(shù),設置s= 4。在同一個特征圖的不同通道組包含了不同感受野大小的特征,相比一個原始的3× 3 的卷積核,進行特征交織后的特征圖具有更加豐富的特征。

        2 實驗結果

        實驗電腦硬件配置為:雙核Intel Xeon CPU E5-2650 v4@2.20 GHz,內存大小為264 GB,4 塊Tesla P40 顯卡,每塊顯存24 GB。軟件系統(tǒng)配置為:Ubuntu 16.04LTS,CUDA 9.0,CUDNN 7.3,Python3.6編程語言,Darknet深度學習框架。

        為驗證本文方法的有效性,在BDD100K 數(shù)據(jù)集上對YOLO v3、Gaussion-YOLO v3和本文方法進行對比。BDD100K數(shù)據(jù)集由伯克利大學AI 實驗室發(fā)布,包含10 萬段高清視頻、10萬張關鍵幀(每個視頻的第10 s關鍵幀)以及相應的標注信息。本文實驗使用10 萬張關鍵幀圖像以及每幀圖像的道路目標邊界框標注數(shù)據(jù)。道路目標共有10 個類別,分別為:Bus、Light、Sign、Person、Bike、Truck、Motor、Car、Train、Rider,總共約有184 萬個標定框。針對目標邊界框標注,10 萬張圖像數(shù)據(jù)集分為7萬張訓練集、2萬張測試集和1萬張驗證集。

        2.1 模型訓練

        在訓練階段,主干網(wǎng)絡采用在ImageNet 上預訓練好的模型參數(shù)。訓練時,采用動量為0.9,初始學習率為0.001,學習率下降參數(shù)為0.000 1,衰減系數(shù)為0.000 5,圖像輸入尺寸為512 × 512。通過調整飽和度、曝光量、色調增加訓練樣本。使用小批量隨機梯度下降進行優(yōu)化,每次迭代的批量大小為512,經(jīng)過45 000 次左右迭代后網(wǎng)絡收斂。圖6 是本文改進網(wǎng)絡訓練過程中的損失函數(shù)變化曲線,縱軸為平均損失值,可以看出網(wǎng)絡損失處于穩(wěn)定下降狀態(tài)后最終收斂。模型收斂后,交并比(Intersection over Union,IoU)的值穩(wěn)定在0.8 左右,意味著檢測準確,獲得了相對可靠和有效的目標檢測網(wǎng)絡模型。

        圖6 網(wǎng)絡訓練損失函數(shù)曲線Fig. 6 Loss function curve of network training

        2.2 檢測結果

        圖7 是三種方法在BDD100K 數(shù)據(jù)集的部分圖像上的檢測效果。圖7 中淺色箭頭所指的目標是YOLO v3 或者Gaussion-YOLO v3 漏檢,但是卻被本文方法檢測到的目標。深色箭頭所指目標是在GT(Ground Truth)中誤檢目標。從圖7中可以看出本文方法對目標的檢測與GT中標注更一致。

        測試測試集時,采樣平均精確率均值(mean Average Precision,mAP)和F1分數(shù)評價檢測性能,計算公式如下:

        其中:TP(True Positive)是正確檢測目標數(shù)量,F(xiàn)P(False Positive)是誤檢目標數(shù)量,F(xiàn)N(False Negative)是漏檢目標數(shù)量;AP(Average Precision)是每類物體平均精確率,其值等于Precision-recall 曲線下方的面積;N是總的類別數(shù)量。精確率(P)和召回率(R)在實際中是相互制約的,單獨比較會有失平衡,所以使用了F1分數(shù)作為綜合評價指數(shù),F(xiàn)1分數(shù)同時兼顧精確率和召回率,是兩者的調和平均數(shù)。

        表1 列出了三種對比方法對10 類目標的平均精確率AP,表2 列出了三種對比方法的mAP、F1分數(shù)、模型運算所耗費的十億次浮點運算量BLFOPs(Billion Float Operations)和檢測速度FPS(Frames per second)。可以看出本文方法的對每類目標的AP值都高于其他兩種方法;本文方法的mAP和F1分數(shù)分別為20.81%、18.17%,也高于其他兩種方法;在相同設備情況下,本文模型復雜度稍有提高,但檢測速度FPS 與Gaussian-YOLO v3幾乎保持一致。

        表1 目標的平均精確率比較 單位:%Tab.1 Average precision comparison of objects unit:%

        表2 三種方法性能比較Tab.2 Performance comparison of three methods

        2.3 小目標檢測效果

        本文對小目標進行了定義:設定目標面積占圖像總像素比例小于等于0.3%的物體為小目標。由于網(wǎng)絡輸入圖像大小為512 × 512,因此設定的小目標都不超過786 個像素。圖8 為圖7 原圖GT中去除大目標后的小目標樣例。從圖8 可以觀察到,本文方法能夠檢測到更多的小目標。

        分別統(tǒng)計三種方法對小目標的檢測情況,包括:真實標定GT數(shù)量、真正例TP數(shù)量、假正例FP數(shù)量,統(tǒng)計結果如表 3 所示。從表3 中可以看出,本文方法檢測出的TP數(shù)量最多,同時FP數(shù)量最少。與YOLO v3相比,本文方法對小目標的檢出率提高了13.49%,誤報率降低了8.7%;與Gaussian-YOLO v3相比,對小目標的檢出率提高了7.27%,誤報率由降低了3.5%。

        表3 小目標檢測統(tǒng)計對比Tab. 3 Statistic comparison of small object detection

        圖7 檢測定位效果Fig. 7 Detection and positioning effect

        圖8 小目標檢測樣例Fig. 8 Detection examples for small object

        3 結語

        本文提出的Gaussian-YOLO v3改進網(wǎng)絡結構通過嵌入注意力和特征交織模塊不僅使特征圖的不同通道學習到了通道權重,而且使通道間的特征進一步交織,從而提升了原Gaussian-YOLO v3 的目標檢測性能,特別是對小目標的檢測性能也得到了提升。同時也注意到,不管是YOLO v3、Gaussian-YOLO v3,還是本文的改進 Gaussian-YOLO v3,對DBB100K數(shù)據(jù)集的10類目標的平均精確率均值都較低,因此還需要開展進一步的研究。在汽車自動駕駛中,遠處目標由于距離遠,形成的目標圖像小,經(jīng)過多級網(wǎng)絡卷積后,特征不明顯甚至消失,因此今后將繼續(xù)探索如何提升小目標的特征表達,提升網(wǎng)絡對小目標的檢測能力。

        猜你喜歡
        交織注意力卷積
        “新”與“舊”的交織 碰撞出的魅力“夜上?!?/a>
        美食(2022年2期)2022-04-19 12:56:22
        讓注意力“飛”回來
        基于3D-Winograd的快速卷積算法設計及FPGA實現(xiàn)
        交織冷暖
        女報(2019年3期)2019-09-10 07:22:44
        從濾波器理解卷積
        電子制作(2019年11期)2019-07-04 00:34:38
        基于傅里葉域卷積表示的目標跟蹤算法
        一種改進的塊交織方法及FPGA實現(xiàn)
        “揚眼”APP:讓注意力“變現(xiàn)”
        傳媒評論(2017年3期)2017-06-13 09:18:10
        A Beautiful Way Of Looking At Things
        奧運夢與中國夢交織延展
        華人時刊(2016年17期)2016-04-05 05:50:32
        亚洲97成人精品久久久| 欧美人与动人物牲交免费观看| 亚洲精品你懂的在线观看| 亚洲成av人无码免费观看| av黄色大片久久免费| 亚洲欧洲成人a∨在线观看| 97夜夜澡人人爽人人喊中国片| 国产精品网站夜色| 中文字幕视频一区二区| 少妇激情av一区二区三区| 国产精品免费看久久久8| 精品国产高清一区二区广区| 人妻av不卡一区二区三区| 亚洲人不卡另类日韩精品| 免费人妻无码不卡中文字幕18禁| 欧美性猛交xxxx乱大交蜜桃| 一区二区视频网站在线观看| 亚洲熟妇自偷自拍另类| 久精品国产欧美亚洲色aⅴ大片| 青春草国产视频| 久久av少妇亚洲精品| 国产精品无码素人福利| 久久无码av三级| 国产精品女丝袜白丝袜| 精品一区二区三区久久| 少妇厨房愉情理伦bd在线观看| 国产男女猛烈无遮挡免费视频| 在线免费观看国产视频不卡| 音影先锋中文字幕在线| 亚洲精品午夜无码电影网| 色狠狠一区二区三区香蕉蜜桃| 国产影片免费一级内射| 免费无码又爽又刺激网站直播| 一级做a爰片久久毛片| 亚洲免费人成在线视频观看| 在线观看精品视频一区二区三区| 亚洲av熟女少妇一区二区三区| 男人扒开添女人下部免费视频| 亚洲婷婷五月综合狠狠爱 | 国产成人一区二区三区影院动漫| 极品 在线 视频 大陆 国产|