亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于YOLO 的多類別多目標(biāo)檢測算法改進

        2023-07-13 10:34:16馬帥田國富張文鵬周淑文
        電子制作 2023年11期
        關(guān)鍵詞:剪枝類別卷積

        馬帥,田國富,張文鵬,周淑文

        (1.沈陽工業(yè)大學(xué),遼寧沈陽,110027;2.東北大學(xué),遼寧沈陽,110167)

        0 引言

        智能車輛的技術(shù)可分為四個層面:環(huán)境感知、行為決策、路徑規(guī)劃和運動控制,環(huán)境感知是獲取外部信息的唯一渠道。隨著計算機硬件資源和卷積算法的不斷突破,基于CNN(卷積神經(jīng)網(wǎng)絡(luò))的目標(biāo)檢測算法也得到質(zhì)的提升,并且在精度和性能方面取得了顯著成果[1]?;贑NN 的目標(biāo)檢測算法目前主要分為Two-Stages(二階段)和One-Stage(一階段)兩種[2],兩階段目標(biāo)檢測算法主要有R-CNN、SPP-Net、Fast R-CNN 系列和Mask R-CNN 等;單階段目標(biāo)檢測算法主要有SDD 算法和YOLO 系列算法。智能駕駛感知應(yīng)達到實時識別的要求,所以只能采用一階段算法。智能駕駛環(huán)境感知現(xiàn)如今分為兩個派別:多傳感器信息數(shù)據(jù)融合和視覺感知,基于視覺的環(huán)境感知成本相對來說要低得多。本文的自動駕駛目標(biāo)檢測仍選用YOLO V3 作為視覺感知算法基礎(chǔ)框架,針對YOLO V3 檢測器識別精度不高,且檢測速度和模型大小均有一定的提升空間的問題,提出了一些可行方案。

        1 YOLO V3 網(wǎng)絡(luò)結(jié)構(gòu)

        YOLO V3 的檢測過程細(xì)分可以分兩步:首先確定檢測目標(biāo)的位置,再對被檢測目標(biāo)進行分類。網(wǎng)絡(luò)接收到圖像數(shù)據(jù)先將其寬高尺寸變?yōu)?16×416,經(jīng)過一系列的卷積操作、殘差結(jié)構(gòu)及上采樣處理,最后輸出目標(biāo)物體位置、類別以及置信度。不同于YOLO V2 的檢測策略,YOLO V3 具有三個不同尺度上的檢測,而YOLO V2 只有一個檢測頭(Detection Head),不同的尺度特征包含豐富的語義信息。YOLO V3網(wǎng)絡(luò)結(jié)構(gòu)圖如圖1 所示。

        圖1 YOLO V3 網(wǎng)絡(luò)結(jié)構(gòu)圖

        當(dāng)輸入尺寸為416×416 時,32 倍/16 倍/8 倍下采樣后三個檢測頭的大小分別為13×13、26×26 和52×52。YOLO V3 仍使用K-Means 聚類法生成Anchor Box(先驗框)。簡單來說,Anchor Boxes 就是對預(yù)測的對象范圍進行約束,對于每一個網(wǎng)格都生設(shè)置3 個Anchor Boxes,由于在三個不同尺度Feature Map 上做預(yù)測,所以一個位置共有9 個Anchor Boxes。該算法的缺點是對于小而密集目標(biāo)檢測效果不佳,且檢測速度和模型大小均有進一步的優(yōu)化空間。

        2 YOLO V3-S 網(wǎng)絡(luò)結(jié)構(gòu)

        ■2.1 GELU 激活函數(shù)

        神經(jīng)網(wǎng)絡(luò)中包含豐富的非線性因素,如:SMU、Relu、Maxout 和SLU 等激活函數(shù),激活函數(shù)可以加強網(wǎng)絡(luò)的非線性能力。在YOLO V3 網(wǎng)絡(luò)中采用的Leaky Relu 激活函數(shù)避免了死亡Relu 問題,因為即使在負(fù)區(qū)間也有一定的數(shù)值允許較小的梯度傳遞,缺點是無法避免梯度爆炸問題且對負(fù)值處理不當(dāng),在微分時左右兩部分都是線性的。如果想要網(wǎng)絡(luò)模型具有很好的泛化能力,可用的方法有擴大數(shù)據(jù)集、設(shè)置更大的Batch Size、采用數(shù)據(jù)增強手段和隨機失活(Dropout),增加數(shù)據(jù)集容量增加了成本,更大的Batch Size 對硬件提出了更高的挑戰(zhàn),所以數(shù)據(jù)增強和隨機失活變成了常用的去擬合手段。隨機失活遍歷網(wǎng)絡(luò)中的每層節(jié)點通過預(yù)先設(shè)定的概率保證每層節(jié)點的成活性,來減輕神經(jīng)網(wǎng)絡(luò)的過擬合。GELU 作為一種符合預(yù)期的隨機正則變化方式的高性能激活函數(shù),在Relu 的基礎(chǔ)上加入了統(tǒng)計的特性,即增加了網(wǎng)絡(luò)的非線性能力又抑制了網(wǎng)絡(luò)的過擬合傾向,如圖2 所示函數(shù)曲線。

        圖2 GELU 和Leaky ReLU 激活函數(shù)

        YOLO V3 網(wǎng)絡(luò)模型中包含很多的DBL 模塊,鑒于上述所述的Leaky Relu 的缺點和GELU 激活函數(shù)的優(yōu)點,構(gòu)建DBG 模塊替換原網(wǎng)絡(luò)中的DBL 模塊,如圖3 所示。

        圖3 DBG 模塊

        ■2.2 定位信息和語義信息融合

        頂層語義信息雖然豐富,但網(wǎng)絡(luò)層數(shù)越多會導(dǎo)致位置信息變得更加模糊,這就造成了頂層特征的目標(biāo)類別預(yù)測可能會很準(zhǔn)確,但目標(biāo)的位置預(yù)測信息可能會很差;如果選擇一個淺層網(wǎng)絡(luò)作為目標(biāo)檢測的卷積神經(jīng)網(wǎng)絡(luò),目標(biāo)的位置預(yù)測信息可能很準(zhǔn)確,但是目標(biāo)類別預(yù)測可能會差很多。YOLO V3 中的FPN 結(jié)構(gòu)融合了底層的位置信息和頂層的語義信息,擴大了底層的感受野,使得底層位置獲得了更多的上下文信息,提高了目標(biāo)檢測算法的性能表現(xiàn)。一方面FPN 增加了算法的檢測能力。另一方面由于經(jīng)歷連續(xù)的上采樣操作(Up Sample),使得上采樣后的特征信息形成了一定程度的損壞,為了恢復(fù)每一個候選區(qū)域和特征層之間的信息和路徑,參考PANet 網(wǎng)絡(luò)結(jié)構(gòu),增加下采樣操作(Down Sample)構(gòu)成‘雙塔’結(jié)構(gòu),與相鄰特征圖進行信息融合。為了防止連續(xù)下采樣操作對圖像數(shù)據(jù)位置信息以及語義信息造成損失,在26*26*45 支路增加一次卷積操作做進一步的特征提取。

        ■2.3 模型簡化

        網(wǎng)絡(luò)輕量化的方法有很多種,主要包括采用輕量化主干網(wǎng)絡(luò)、知識蒸餾和模型剪枝。隨著對算法的性能要求越來越高,雖然Alexnet 網(wǎng)絡(luò)很大程度上地提升了算法的檢測精度,但是也增大了計算量和模型大小,目前工業(yè)界除了對檢測精度有要求,對于檢測速度和模型大小也有很大的要求,想要算法走出實驗室,必須要綜合考慮上述問題作為自動駕駛視覺感知的目標(biāo)檢測算法除了要滿足精度上的要求外,對網(wǎng)絡(luò)模型大小以及檢測速度也有一定的要求,車載平臺系統(tǒng)內(nèi)存有限,優(yōu)秀的目標(biāo)檢測算法在保證精度的同時占用越小的內(nèi)存越好。模型剪枝是通過一定手段刪除網(wǎng)絡(luò)中的冗余參數(shù),從而起到降低網(wǎng)絡(luò)模型大小,提高檢測速度的目的。模型剪枝按照剪枝粒度可分為細(xì)粒度剪枝、向量剪枝、核剪枝和濾波器剪枝。前三種在網(wǎng)絡(luò)的推理過程中每個卷積層的輸出通道數(shù)不會發(fā)生改變,屬于非結(jié)構(gòu)化剪枝;濾波器剪枝會影響網(wǎng)絡(luò)中卷積層的輸出通道數(shù),屬于結(jié)構(gòu)化剪枝。在圖像經(jīng)過主干網(wǎng)絡(luò)特征提取后幾乎都會經(jīng)過DBL*5 的卷積操作,這種運行成本是巨大的,雖然進一步加強了網(wǎng)絡(luò)的特征提取能力,但是也使得網(wǎng)絡(luò)變得更深從而導(dǎo)致目標(biāo)物體位置信息變得更加模糊,且加大了模型的計算量和大小。本文將DBL*5的卷積組替換為DBG*3,一方面使得目標(biāo)物體位置信息更加清晰,另一方面降低了網(wǎng)絡(luò)的運算量并縮減了模型,最終YOLO V3-S 網(wǎng)絡(luò)結(jié)構(gòu)如圖4 所示。

        圖4 YOLO V3-S 結(jié)構(gòu)圖

        3 性能評價指標(biāo)

        衡量一個視覺識別器的好壞有很多種指標(biāo):如精確率(Precision),平均精度(mAP)等。Precision 表示檢測正樣本中正確的比例,召回率(Recall)表示正確檢測正樣本占所有正樣本的比例,AP 值為兩者曲線下的面積[3],表示每個類別在所有測試圖像上的平均值,AP 值越高,表明識別器的識別性能越好;所有類別的平均精度mAP 是評價識別器的綜合性能指標(biāo),計算的是全部類別的平均精度;檢測速度FPS 是指畫面每秒傳輸?shù)膸瑪?shù)[4]。大而復(fù)雜的模型在實際應(yīng)用中難以落地,且網(wǎng)絡(luò)模型龐大存儲起來不便。綜上所述,本文選取AP、mAP、檢測速度以及模型大小作為綜合評價指標(biāo)。

        4 數(shù)據(jù)集—BDD100K 數(shù)據(jù)集

        2018 年伯克利AI 實驗室公布了一個豐富的智能駕駛數(shù)據(jù)集—BDD100K[5]。該數(shù)據(jù)集對真實場景中每個視頻的第十秒進行截取得到10 萬張圖像,圖像尺寸為1280×720。數(shù)據(jù)集中的視頻來自美國人口眾多的城市,在各種天氣條件、時間和場景類型下進行采集,幾乎覆蓋了所有的駕駛場景。類別方面:在BDD100K 數(shù)據(jù)集中共有10 類別,分別為汽車、路燈、交通標(biāo)志、行人等等,數(shù)據(jù)集中的汽車的數(shù)量最多,火車的數(shù)量最少,與現(xiàn)實駕駛相符。所有類別都遵循“長尾”分布,大約一半的圖像目標(biāo)被遮擋,約7%的圖像目標(biāo)被截斷。天氣、場景和時段方面:BDD100K 的十萬高清視頻是在不同天氣條件下采集的,覆蓋了大部分的天氣情況,如晴天、雨天、霧天等等;采集場景包括城市街道、高速公路和住宅區(qū)等等;白天和黑天的圖片數(shù)量比例達到了5:4。由于數(shù)據(jù)集中Motor 和Train 圖像數(shù)據(jù)量過少,所以只選取前8 個類別作為研究對象。

        5 實驗平臺及訓(xùn)練策略

        為了測試YOLO V3 在BDD100K 數(shù)據(jù)集上的識別性能,實驗環(huán)境在個人筆記本電腦上進行搭建,電腦配置及軟件如表1 所示。在之前的數(shù)據(jù)集格式轉(zhuǎn)換過程中,訓(xùn)練集共有69888 個Json 文件轉(zhuǎn)換成功,為了進一步加快訓(xùn)練,在這69888 個文件中進一步劃分訓(xùn)練集、驗證集,劃分后的測試集56608 張,驗證集6288 張,測試集6288 張。訓(xùn)練過程共50 輪,后30 輪進行全參數(shù)更新。初始學(xué)習(xí)率為0.001,衰減率設(shè)置為0.0005;因凍結(jié)階段占用顯存較小,所以Batch-Size 設(shè)置為8;相反解凍階段占用顯存較大,Batch-Size 設(shè)置為4,輸入圖片尺寸寬高均Resize 為416×416,迭代次數(shù)為566080。

        表1 電腦配置及軟件匯總表

        對于目前的單階段目標(biāo)檢測算法而言,準(zhǔn)確度高的先驗框可以很大程度上的提高算法精度。為了提高先驗框的準(zhǔn)確度,重新在BDD100K 數(shù)據(jù)集進行K-Means 聚類分析。最終確定的Anchor Boxes 尺寸從小到大為(12,12)、(15,21)、(22,47)、(23,14)、(27,24)、(45,33)、(66,58)、(130,96)和(277,219),Avg-IOU 的值為68.67%。

        6 實驗結(jié)果分析

        為了驗證改進前后的算法優(yōu)劣性,四次實驗均在同一臺設(shè)備上運行。從表2 可以看出,高性能GELU 激活函數(shù)的采用等頂?shù)纂p層信息融合等操作均使得算法性能穩(wěn)步提升,采用GELU 函數(shù)后的Bike 和Rider 提升較大,上升3%,特征融合后精度雖無明顯提升,但是在測試過程中對于小目標(biāo)的物體識別率比較高。YOLO V3-S 對于YOLO V3 而言,每一個類別都有提升,其中Bus 提升了5%,Bike和Rider 提 升 了3%;改進前后mAP 提高了2.375%;FPS 提升7%;模型大小由240882KB 減少到234134KB。綜上所述,YOLO V3-S 算法對比YOLO V3 算法在檢測精度AP、檢測速度FPS 和模型大小上均有不同程度的提高,各個方面明顯優(yōu)于YOLO V3 算法。同時選取BDD100K 數(shù)據(jù)集中測試集中部分圖片進行檢測對比,圖5為YOLO V3網(wǎng)絡(luò)檢測效果,圖6 為YOLO V3-S 網(wǎng)絡(luò)檢測效果圖,YOLO V3-S 在正常的天氣下對于遠(yuǎn)處的車輛等目標(biāo)具有明顯優(yōu)秀的檢測效果,而且對于重疊物體的識別也具有很好地識別效果。如圖5(a)和圖6(a)所示,在路邊各種障礙物的遮擋下,YOLO V3-S也能很好地識別轉(zhuǎn)彎處的車輛,在陽光明媚的行駛情況下,視覺識別器可以檢測到更遠(yuǎn)的目標(biāo),圖6(b)所示;在大霧天氣下,車輛行駛緩慢,近處的目標(biāo)比遠(yuǎn)處的目標(biāo)檢測更重要,對比圖5(c)和圖6(c)可得,對于車輛正前方的車輛YOLO V3-S 可以很好地識別,并未把樹錯誤地識別為人。綜上所述,所提出的YOLO V3-S 網(wǎng)絡(luò)在多種情況下能夠保證更好的檢測效果。

        表2 數(shù)據(jù)集中各類別平均精度及FPS和模型大小對比

        圖5 YOLO V3 檢測效果對比圖

        圖6 YOLO V3-S 檢測效果對比圖

        7 結(jié)論

        本文主要對YOLO V3 網(wǎng)絡(luò)進行改進,主要用于自動駕駛過程中實時目標(biāo)檢測?,F(xiàn)有的YOLO V3 網(wǎng)絡(luò)在對于尺度小或者密集的物體上檢測效果并不友好,為了進一步提高智能駕駛視覺識別器的檢測精度,對激活函數(shù)進行改進,選擇了一種更加符合實際需求的激活函數(shù),同時將深淺層的語義位置信息進行特征融合,提高自動駕駛過程中行駛周圍環(huán)境的檢測精度。同時考慮到訓(xùn)練后的網(wǎng)絡(luò)模型要部署到自動駕駛車載平臺,對網(wǎng)絡(luò)結(jié)構(gòu)進行部分輕量化處理,以保證訓(xùn)練后的YOLO V3-S 網(wǎng)絡(luò)模型消耗更低的內(nèi)存存儲。后續(xù)將進一步對模型進行剪枝壓縮,并部署在實際車載平臺中進行性能測試。

        猜你喜歡
        剪枝類別卷積
        人到晚年宜“剪枝”
        基于3D-Winograd的快速卷積算法設(shè)計及FPGA實現(xiàn)
        基于YOLOv4-Tiny模型剪枝算法
        從濾波器理解卷積
        電子制作(2019年11期)2019-07-04 00:34:38
        基于傅里葉域卷積表示的目標(biāo)跟蹤算法
        剪枝
        天津詩人(2017年2期)2017-03-16 03:09:39
        服務(wù)類別
        新校長(2016年8期)2016-01-10 06:43:59
        論類別股東會
        商事法論集(2014年1期)2014-06-27 01:20:42
        一種基于卷積神經(jīng)網(wǎng)絡(luò)的性別識別方法
        中醫(yī)類別全科醫(yī)師培養(yǎng)模式的探討
        日本二区三区在线免费| 免费视频一区二区| 亚洲成A人A∨久在线观看| 日产国产精品亚洲高清| 日日摸日日碰人妻无码| 婷婷午夜天| 国产自在自线午夜精品视频在| 国产精品女同二区五区九区| 漂亮人妻洗澡被公强 日日躁| аⅴ资源天堂资源库在线| 国产综合自拍| 日本岛国视频在线观看一区二区| 一本大道道久久综合av| a级毛片免费观看在线| 国内精品伊人久久久久av| 日本一区二区啪啪视频| av区无码字幕中文色| 无码人妻丰满熟妇区毛片| 精品福利一区| 大香蕉青青草视频在线| 少妇做爰免费视频了| 日韩精品无码一区二区三区免费| 亚洲一区二区三区免费av在线| 久久精品国产亚洲av性瑜伽| 亚洲国产天堂久久综合| 国产久视频国内精品999| 国产啪啪视频在线观看| 人人妻人人澡人人爽精品日本 | 亚洲中文av一区二区三区| 国产av大片久久中文字幕| 欧美性生交大片免费看app麻豆| 亚洲男人的天堂在线播放| 欧美亚洲另类自拍偷在线拍 | 人妻夜夜爽天天爽三区丁香花 | 久久国产成人精品国产成人亚洲| 国产mv在线天堂mv免费观看| 日本第一区二区三区视频| 久久国产黄色片太色帅| 99精品一区二区三区无码吞精| 亚洲中文字幕乱码免费| 国产麻豆一区二区三区在|