亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于YOLOv5s 的導盲系統障礙物檢測算法

        2023-02-28 16:10:40劉昕斐張榮芬劉宇紅程娜娜
        智能計算機與應用 2023年11期
        關鍵詞:特征檢測模型

        劉昕斐,張榮芬,劉宇紅,劉 源,程娜娜,楊 雙

        (貴州大學大數據與信息工程學院,貴陽 550025)

        0 引 言

        根據世界衛(wèi)生組織(WHO)的調查,全世界約有2.85 億人患有視力疾?。?]。 目前,國內約有500 萬盲人,且盲人數量正在以每年約40 萬的速度增加[2]。視力障礙人群對日常生活輔助服務的需求不斷加強。

        視力障礙人士在獨自出行的過程中需要足夠外部環(huán)境信息提示以避免發(fā)生碰撞,這些信息包括路面凸起(如石頭)、隔離樁、隨意停放的自行車和摩托車等障礙物,以及斑馬線、盲道、路面坑洼等路面情況,由于很多城市在建設過程中沒有充分考慮盲人的出行需求,因此當前存在盲道設置不科學與盲道維護不及時的問題,這就在一定程度上限制了盲人在室外獨自出行的活動。 而當前導盲輔助服務、如專人陪同或導盲犬對使用者的經濟水平有較高要求。 傳統的盲人出行輔助器材大多基于超聲波、紅外傳感器,很難滿足當前的盲人出行需求,隨著深度學習技術的迅速發(fā)展,基于計算機視覺領域的目標檢測研究為導盲算法提供了新的發(fā)展方向。

        2012年,Krizhevsky 等學者[3]在ImageNet 圖像分類競賽中使用了深度卷積神經網絡(CNN)模型,大幅度超越了傳統的機器學習算法,這也成功標志著深度學習在計算機視覺領域的應用開始進入快速發(fā)展的階段。 2015年,Girshick 等學者[4]提出了RCNN 模型,該模型使用基于候選的方法,顯著提高了目標檢測的準確率。 隨后,各種優(yōu)秀的算法如Fast RCNN[5]、Faster RCNN[6]、Mask RCNN[7]等模型算法相繼被提出。 在2016年,Redmon 等學者[8]首次提出了YOLO(You Only Look Once)檢測模型,使得目標檢測算法的精度進一步上升,且模型運行的計算量需求有了大幅度下降。

        2018年,李林等學者[9]使用MobileNet 網絡基于遷移學習方法對盲道障礙物圖片進行分類。 2022年白俊卿等學者[10]使用ECA 注意力結合YOLOv4進行無人機障礙物檢測。 劉力等學者[11]使用YOLOv4 模型對鐵路上的入侵障礙物進行檢測,取得了良好的效果。

        本文針對視力障礙人群在出行時可能碰到的各種情況,提出了一種改進型YOLOv5s 障礙物檢測算法,來解決導盲系統使用過程中的障礙物感知問題。

        1 YOLOv5s 目標檢測模型及改進

        1.1 YOLOv5 網絡介紹

        YOLOv5 是目前流行的目標檢測算法之一,YOLOv5 的網絡結構如圖1 所示。 YOLOv5 針對不同的部署環(huán)境提出了4 種模型結構,分別是YOLOv5s、YOLOv5m、YOLOv5l 和YOLOv5x,其中YOLOv5s 網絡參數量最少,另外3 種網絡以此為基礎進行不同程度的加深加寬,精度相應地有一定的提升,但是對計算資源的需求也逐漸提高。

        圖1 YOLOv5 網絡結構Fig. 1 YOLOv5 network architecture

        YOLOv5s 網絡結構主要分為3 個部分:主干網絡(Backbone)、頸部(Neck)和檢測頭(Head)。 其中,Backbone 主要負責提取特征,由CBS、CSP1 和SPPF 三部分組成。 研究可知,CBS 是由卷積(Conv)、批量歸一化(Batch Normalizetion,BN)和SiLU 激活函數構成;CSP1 是一種殘差結構[12],可以使計算過程中的參數量變小,速度更快,并且通過殘差模塊可以控制模型的深度,CSP1_X,CSP2_X 的X表示該模塊使用的串接次數、即深度;SPPF 的作用是對特征圖進行多次池化,對高層特征提取并融合,比SPP -Net 擁有更快的推理速度。 Neck 采用PANet[13]結構,主要作用是進行特征融合,PANet 由CBS、上采樣(Upsample)、CSP2 組成。

        1.2 改進后的模型整體網絡

        本文使用MobileNetV3[14]網絡替換YOLOv5s 的主干特征提取網絡,以減少參數量,降低計算量,提高運算速度。 在主干特征提取網絡和特征融合網絡中插入CA 注意力,使模型更好地聚焦于有效特征。使用EIoU 邊界框損失函數替換原網絡的CIoU 邊界框損失函數,提高了模型的回歸精度。 改進后的模型整體網絡結構如圖2 所示。

        圖2 改進后的模型整體網絡結構Fig. 2 The overall network structure of the improved model

        1.3 MobileNetV3 輕量化計算網絡

        MobileNetV3 是由Google 團隊在2019年提出的一種輕量級卷積神經網絡,被廣泛應用于移動設備等計算資源有限的場景中。 相比于以前的版本,MobileNetV3 在速度和精度上都有著顯著提升。

        MobileNetV3 的設計思路主要有3 個:減少計算量和內存占用、優(yōu)化神經網絡架構、增加非線性變換。 MobileNetV3 的在具體實現上表現在3 個方面。

        (1) MobileNetV3 引入了“深度可分離卷積”(Depthwise Separable Convolution)來代替標準的卷積操作,減少了網絡的計算量。 深度可分離卷積將標準卷積分解為逐通道和逐點卷積兩層,前者用于在通道維度上處理輸入特征圖,后者用于在空間維度上處理特征圖。 通過使用深度可分離卷積,MobileNetV3 可以顯著減少參數量和計算量,并提高網絡的運行速度。 MobileNetV3 的block 組成如圖3所示。

        圖3 MobileNetV3 block Fig. 3 MobileNetV3 block

        在深度可分離卷積中逐通道卷積是通過一個一維的卷積核對一個通道進行卷積操作后再對卷積后的結果進行匯總,如圖4 所示。 一張三通道的彩色圖片通過逐通道卷積運算后可以得到3 張?zhí)卣鲌D,因此在逐通道卷積的過程中無法提高通道數,可以使用逐點卷積對逐通道卷積后的信息進行整合。

        圖4 逐通道卷積Fig. 4 Channel by channel convolution

        逐點卷積的卷積核大小為1×1×M,其中M為輸入數據的維度,逐點卷積可以通過加權組合的方式對逐點卷積形成的特征圖進行信息提取并生成新的特征圖,如圖5 所示。 一張3 通道的彩色圖片用4個1×1×3 的逐點卷積進行計算后可以形成4 個新的特征圖。

        圖5 逐點卷積Fig. 5 Point by point convolution

        在使用標準卷積計算的情況下,設輸入數據為DF ×DF ×M,卷積核為DK ×DK ×N,卷積步長為1時,標準卷積的參數量為:

        對應的計算量為:

        在同樣的情況下使用深度可分離卷積時對應的參數量為:

        此時的計算量為:

        因此,深度可分離卷積與標準卷積的參數量與計算量之比均為:

        因此可知,使用深度可分離卷積可以極大地降低參數量與計算量。

        (2) MobileNetV3 使用了非線性激活函數h -swish和h - sigmoid,能夠顯著減少模型的計算量,同時保持較高的準確率。h -swish是一個可微的連續(xù)函數,其形式類似于ReLU激活函數,但是比ReLU要更加平滑,從而可以減少梯度爆炸和梯度消失的問題。 而h - sigmoid則是對sigmoid函數的一種變體,可以減少運算量并提高網絡的計算效率。

        (3) MobileNetV3 使用了Squeeze and Excitation(SE)注意力模塊,可以自適應地對不同的通道、進行加權,加強重要的通道而減弱不重要的通道。 通過使用SE 模塊,MobileNetV3 可以更加有效地利用有限的計算資源,提高網絡的精度和效率。

        1.4 CA 注意力機制

        Hou 等學者[15]在2021年提出了CA(Coordinate Attention) 注意力機制。 CA 注意力模塊結構如圖6所示。 CA 注意力機制可以在基本沒有增大計算開銷的情況下插入神經網絡中,提高網絡檢測性能。CA 注意力機制相比當前流行的SE[16]、CBAM[17]有顯著的優(yōu)點,既關注了通道維度又關注了空間維度、且解決了長距離依賴問題。

        CA 注意力機制可以對網絡中的任意中間特征張量:

        進行轉化后輸出同樣尺寸的張量;

        CA 注意力機制對通道關系和空間關系進行編碼的過程可以分為坐標信息嵌入和注意力生成兩個階段。 在進行坐標信息嵌入時,對輸入的特征圖在X和Y兩個方向進行池化操作,用以保留特征圖的空間結構信息。

        因此高度為h的第c個通道可以表示為:

        同樣,寬度為w的第c通道輸出可以寫成

        接著,X和Y方向的特征圖進行拼接,再對其進行卷積操作,使其維度降低為原來的,然后將經過批量歸一化處理的特征圖F1送入Sigmoid激活函數得到形如的特征圖f,計算公式如下:

        在此基礎上,將特征圖f按照輸入數據的高度和寬度進行的卷積,分別得到通道數與原來一樣的特征圖Fh和Fw,經過σ激活函數后分別得到特征圖在高度和寬度上的注意力權重gh和在寬度方向的注意力權重gw。 其數學公式可寫為:

        經過上述計算后將會得到輸入特征圖在高度方向的注意力權重和在寬度方向的注意力權重。 最后,在原始特征圖上通過乘法加權計算,得到最終在寬度和高度方向上帶有注意力權重的特征圖,如式(13)所示:

        1.5 邊界框損失函數改進

        在YOLOv5s 網絡中,邊界框回歸損失函數使用的是CIoU損失函數,CIoU Loss雖然考慮了邊界框回歸的重疊面積、中心點距離、縱橫比,但是通過在計算過程中只考慮了縱橫比的差異,而忽略了寬高分別與其置信度的真實差異。 針對這一問題,本文使用EIoU[18]邊界框損失函數替代原模型使用的CIoU邊界框損失函數,用來加快模型的收斂速度,提高模型的精度。EIoU損失函數的公式為:

        其中,LossEIoU為EIoU損失函數的值;b,bgt為預測框和真實框的中心點;ρ為計算2 個中心點之間的歐氏距離;w為框的寬度;h為框的高度;c為能夠同時包含預測框和真實框的最小外接矩形的對角線距離;ch、cw為以2 個中心點構成的矩形的高和寬。

        2 實驗與結果分析

        2.1 實驗數據集

        本文針對盲人出行時常見的障礙物數據集進行收集,具體包括3 種類型的障礙物,分別是:路面情況,如因年久失修造成的路面坑洼;人為設置的路面的障礙,如隔離樁、三角錐和石墩等;以及路面上出現的隨機障礙,如隨意停放的自行車、路上的行人或街道上常見的貓、狗等。 本文的數據集從互聯網、實地拍攝人行道的障礙物以及VOC 等公共數據集上進行收集,并對收集的圖片采用labelimg 圖像注釋工具進行數據標注。 實驗數據集將檢測障礙物分為20類,共計26 872 張圖片。 各類別具體數量見表1。 訓練集和驗證集按9 ∶1 的比例隨機進行劃分。

        表1 數據集的種類與數量Tab. 1 Types and quantity of datasets

        2.2 實驗細節(jié)

        本文實驗均在服務器Ubuntu 20.04 操作系統下運行,計算機處理器型號為AMD 3900X,顯卡型號為NVIDIA GTX 3090,內存為24 G。 采用Pytorch 1.7.1框架,所使用的編程語言Python 3.7。 模型訓練時使用sgd 優(yōu)化器,設定batch size 為32,初始學習率為0.01,最小學習率為0.000 1,動量因子為0.937。設置訓練輪數為300。

        2.3 實驗結果分析

        2.3.1 實驗評價指標

        本文采用準確率P(Precision) 和召回率R(Recall)計算出所有檢測類別的平均精度(mAP)來對模型的檢測效果進行評估,使用計算量(Flops)和參數量(Params)兩個指標來整體評估模型對計算資源的占用程度。

        其中,AP與mAP的計算公式為:

        其中,TP、FP、FN分別表示正確檢測的數量、錯誤檢測的數量、沒有檢測出的數量。

        2.3.2 不同模型實驗數據對比

        為了驗證本文算法的檢測性能,將Faster RCNN[19]、 Centernet[20]、 YOLOv3[21]、 YOLOv4[22]、YOLOv5s 和本文算法在同一數據集下進行對比實驗,結果見表2。

        表2 不同算法對比Tab. 2 Comparison of different algorithms

        2.3.3 消融實驗

        為驗證本文改進算法的有效性,對本文算法的改進部分,分別進行消融實驗得到表3。 由表3 的實驗結果可知,使用MobileNetV3 輕量化主干特征提取網絡之后計算量和參數量明顯下降,計算精度輕微下降,表明采用MobileNetV3 輕量化主干網絡可以有效實現網絡的輕量化,在添加CA 注意力與改進邊界框損失函數后,計算精度有所上升,表明CA 注意力機制可以使模型有效地聚焦于被檢測目標的有效特征,與此同時計算量和參數量輕微上升。

        表3 不同模塊對模型整體影響Tab. 3 The overall impact of different modules on the model

        由對比實驗與消融實驗可知,在盲人出行道路障礙物檢測精度上可以達到77.1%,本文模型精度上優(yōu)于Faster RCNN、Centernet、YOLOv4、YOLOv5s等模型,參數量和計算量明顯小于對比算法,計算速度有所提升。

        2.3.4 模型運行效果圖

        改進前與改進后的模型檢測效果如圖7 所示。改進后的模型檢測精度有所上升,在被檢測物體之間存在遮擋情況下,因為改進后模型的特征提取能力較強,可以檢測到原模型的部分漏檢情況。

        圖7 YOLOv5s 模型與改進后的模型檢測效果對比Fig. 7 Comparison of detection performance of YOLOv5s model and improved performance model

        3 結束語

        為了解決導盲系統的實際需求,本文提出了一種基于YOLOv5s 的改進模型。 通過將主干特征提取網絡替換為MobileNetV3,顯著降低了網絡的計算量和參數量,在網絡中融入CA 注意力機制,有效地提升了檢測模型的精度;采用EIoU邊界框損失函數,使得對目標的定位更加精準。

        實驗結果表明,本文算法在速度上滿足了實時檢測的需求,檢測目標的準確率也優(yōu)于現有的YOLOv4、YOLOv5s 等算法,mAP達到了77.1%,單張檢測速度達到了116 FPS。

        由于條件有限,本文的研究還有部分不足之處。一,數據集多為光照條件良好時拍攝的照片,因此模型在夜晚的識別能力有所下降;二,模型算法仍需要6.6 GFlops 的計算量,對部分算力不高的邊緣計算設備仍存在一定的壓力。 后續(xù)將對數據集擴充部分夜間拍攝的圖片,以及采用模型剪枝、知識蒸餾等措施對模型進行進一步壓縮,實現算法在邊緣計算設備上的流暢運行。

        猜你喜歡
        特征檢測模型
        一半模型
        “不等式”檢測題
        “一元一次不等式”檢測題
        “一元一次不等式組”檢測題
        重要模型『一線三等角』
        重尾非線性自回歸模型自加權M-估計的漸近分布
        如何表達“特征”
        不忠誠的四個特征
        當代陜西(2019年10期)2019-06-03 10:12:04
        抓住特征巧觀察
        3D打印中的模型分割與打包
        色999欧美日韩| 中国老熟妇506070| 无码少妇一区二区浪潮av| 久久99国产伦精品免费| 精品女同一区二区三区在线播放器| 久久免费看的少妇一级特黄片| 性无码专区无码| 偷窥村妇洗澡毛毛多| 日本一区二区国产高清在线播放| 亚洲中文字幕精品久久吃奶| 人妻少妇久久久久久97人妻| 亚洲av成人综合网| 无码精品一区二区三区免费16| 亚洲精品中文字幕91| 丝袜美腿一区二区三区| 区二区欧美性插b在线视频网站| 亚洲精品美女久久久久网站| 日本一区二区在线免费看| 被三个男人绑着躁我好爽视频| 国内精品大秀视频日韩精品| 女人一级特黄大片国产精品| 精品国产一区二区三区18p| 国产成人av大片大片在线播放| 欧美成人a在线网站| 日本高清无卡一区二区三区| 日本真人添下面视频免费| 女人扒开下面无遮挡| 亚洲a人片在线观看网址| 日韩女优视频网站一区二区三区| 国产精品精品自在线拍| 亚洲成aⅴ人在线观看| 99久久国产一区二区三区| 丝袜美腿在线观看一区| 美女视频黄的全免费视频网站| 妞干网中文字幕| 日本午夜艺术一区二区| 国产永久免费高清在线 | 亚洲色AV性色在线观看| 国产精品老女人亚洲av无| 大地资源在线影视播放| 国产成+人+综合+亚洲 欧美|