亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于改進YOLOv5s算法的列車駕駛員手勢識別

        2023-02-13 03:48:44李泰國張英志張?zhí)觳?/span>陳小強
        鐵道學報 2023年1期
        關鍵詞:特征檢測模型

        李泰國,張英志,張?zhí)觳撸愋?/p>

        (蘭州交通大學 自動化與電氣工程學院,甘肅 蘭州 730070)

        隨著我國鐵路運輸?shù)母咚侔l(fā)展,對于列車的運行安全也提出更高的要求[1]。我國鐵路定義了一套用于行車安全的手語[2],在駕駛列車過程中要求駕駛員要做到“手比眼看口呼”,即在看到交通標志和收到控制中心的命令時必須及時做出相應手勢并同時高聲呼喊指令內(nèi)容[3]。所以對行車過程中駕駛員手勢進行精確識別顯得尤為重要[4]。目前的識別方法需要通過觀看監(jiān)控攝像頭記錄的視頻用肉眼去檢查駕駛員手勢的執(zhí)行情況,檢查效率較低,同時也不能兼顧高的準確率。而基于深度學習的算法能夠?qū)崿F(xiàn)對駕駛員手勢的實時檢測和識別[5],這對于保證列車安全運行和提高檢查手勢執(zhí)行情況的效率都有著重要意義。

        早期的手勢識別方法主要是佩戴數(shù)據(jù)手套[6]和計算機視覺[7]。基于數(shù)據(jù)手套的識別方法有著較高的準確率,但是需要配合一定數(shù)量的傳感器,較多的硬件設施導致較大的不便性[8]。計算機視覺降低了硬件成本,同時帶來更多的便攜性[9]。傳統(tǒng)的計算機視覺手勢識別分為3個步驟,首先是對手勢進行檢測和分割,其次對手勢特征進行提取,最后是手勢識別[10]。較多的研究人員將研究重心都集中在了手勢特征的提取上,通過膚色紋理和形態(tài)姿勢等將手勢分割出來,利用支持向量機等分類方法實現(xiàn)手勢識別。王龍等[11]使用膚色模型對手勢進行檢測,但是依然存在識別精度低、泛化能力較差等問題。文獻[12-14]中通過利用手勢邊緣區(qū)域結(jié)構(gòu)作為特征進行手勢識別,雖然具有一定的適應性,但是模型的學習能力較弱,在樣本數(shù)量增加時,其檢測精度的提升幅度很低。Danilo等[15]提出了一種利于循環(huán)神經(jīng)網(wǎng)絡和跳躍運動控制器的手勢識別算法,將手指骨形成的角度和指尖位置作為特征進行訓練,最終在ASL數(shù)據(jù)集上能達到97.62%的準確率,但是這種方法對設備性能要求高,便攜性較差。

        隨著深度學習中目標檢測這一方向的發(fā)展,Girshick等[16]在2014年CVPR會議上提出R-CNN目標檢測網(wǎng)絡,該網(wǎng)絡是將CNN方法應用于目標檢測問題上的一個里程碑;次年又在ICCV會議上提出了改進版本Fast R-CNN[17]。何愷明等[18]在2016年NIPS會議上提出Faster R-CNN,同年CVPR會議上也誕生了經(jīng)典的一階段目標檢測網(wǎng)絡YOLO[19]。吳曉鳳等[20]提出的基于Faster R-CNN 的手勢識別算法,雖然較于傳統(tǒng)算法有著更高的精確率,但是同時存在復雜背景下識別效果較差問題。Chang等[21]提出了一種改進的Faster R-CNN手勢識別算法,最終在NUS-II手勢數(shù)據(jù)集上識別精度能夠達到99.89%,但是由于是二階段的識別算法所以存在識別速度較慢的問題,這對于實現(xiàn)手勢的實時檢測是困難的。而一階段的目標檢測算法YOLO系列,憑借著較快的檢測速度和較高的識別性能依然受到大多數(shù)研究人員的青睞。2017年CVPR會議上Redmon等[22]提出YOLOv2算法,緊接著在2018年又提出了YOLOv3[23]算法。張強等[24]提出了基于YOLOv3的手勢識別算法,該算法僅對于靜態(tài)手勢有著較高的識別精確率,沒有實現(xiàn)對動態(tài)手勢的識別,且存在泛化能力差、網(wǎng)絡模型內(nèi)存占比較大難以實現(xiàn)工程部署等問題。王粉花等[25]在YOLOv3系列的快速版本YOLOv3-tiny上進行改進,提出了YOLOv3-tiny-T的手勢識別算法,最終在UST數(shù)據(jù)集上相較于原始模型提升了5%的精確率,此算法雖然識別速度快,但是整體的平均精確率均值依舊不高。盧迪等[26]提出了YOLOv4-tiny的手勢識別算法,雖然在NUS-Ⅱ手勢數(shù)據(jù)集上能達到較高的識別精度,但是對于小目標手勢的檢測效果不好,預測框?qū)δ繕硕ㄎ灰廊粫霈F(xiàn)偏差和識別不準確的問題。

        通過對以上手勢識別算法的分析,可以發(fā)現(xiàn)其都存在一定缺陷和局限性,如識別性能不高,檢測速度慢,網(wǎng)絡模型較大等,且對于小目標手勢識別和復雜背景下識別的效果也有待提高。為此本文提出改進的YOLOv5s算法,經(jīng)實驗驗證本算法相較于之前算法有著較高的識別精度和較快的檢測速度,并且最終訓練的網(wǎng)絡模型內(nèi)存占比很小,易于實現(xiàn)工程部署,且網(wǎng)絡模型對于小目標及復雜背景下手勢識別表現(xiàn)較好,對于實現(xiàn)列車駕駛員的手勢識別有重要意義。

        1 YOLOv5s算法

        YOLOv5s算法網(wǎng)絡結(jié)構(gòu)見圖1,主要由主干網(wǎng)絡(Backbone)、頸部(Neck)和輸出端(Output)三部分組成。其中,主干網(wǎng)絡對輸入的圖片進行特征提取,包括切片結(jié)構(gòu)(Focus)、卷積模塊(Conv)、瓶頸層(C3)和空間金字塔池化(SPP);頸部對提取的特征進行融合,將自頂向下傳達強語義特征和自底向上傳達強定位特征進行結(jié)合,實現(xiàn)從不同的主干層對不同檢測層進行特征融合;在進行以上操作后傳入檢測層,通過非極大值抑制對多目標框進行篩選,最后輸出置信度值最高的預測類別,并返回目標位置的預測框坐標。

        圖1 YOLOv5s算法網(wǎng)絡結(jié)構(gòu)

        2 改進YOLOv5s算法

        2.1 CBAM模塊

        CBAM是一種用于前饋神經(jīng)網(wǎng)絡的簡單有效的注意力機制模塊,其整體結(jié)構(gòu)見圖2,主要由通道注意力模塊和空間注意力模塊組成。CBAM模塊在接收到中間特征圖之后,會沿著通道和空間上的兩個獨立維度進行處理,將處理后得到的特征圖與輸入時的特征圖相乘從而實現(xiàn)自適應的特征優(yōu)化。CBAM為輕量級模塊,可以在不增加過多計算量的前提下無縫集成至任何CNN架構(gòu)中,并且可以實現(xiàn)與基礎CNN結(jié)構(gòu)一起進行端到端的訓練。

        圖2 CBAM整體結(jié)構(gòu)

        在原始的YOLOv5s主干網(wǎng)絡中,提取特征時卷積層主要計算每個特征圖相鄰位置的特征信息,由于特征圖中每個通道都含有不同特征信息,所以卷積層會忽略通道信息之間的相關映射。列車駕駛員在駕駛室發(fā)出手勢,會存在手勢目標與檢測設備距離不定、像素值相對較低等局限性。通過添加注意力機制模塊,CBAM可以實現(xiàn)多尺度特征融合,加強通道間的特征信息訓練。文獻[27]充分論證了注意力機制模塊CBAM可以在前饋神經(jīng)網(wǎng)絡中優(yōu)化學習特定類別特征信息,有效提升檢測和分類性能。故而本文將注意力機制模塊CBAM添加到主干網(wǎng)絡Backbone中的每個Conv模塊之后,再輸出給C3模塊。引入CBAM注意力模塊見圖3。這樣改進的主干網(wǎng)絡,通過空間、通道注意力機制模塊,加強對重要特征信息的關注度,同時抑制次要信息的關注度,可以更加有效地提取手勢特征信息,訓練完成的模型對于列車駕駛員的手勢識別更具魯棒性。

        圖3 引入CBAM注意力模塊

        給定中間特征圖F作為輸入,經(jīng)過通道注意力機制Mc映射計算后得到F′,再經(jīng)過空間注意力機制Ms后最終得到Refined特征圖F′′。整個計算過程可以表述為

        F′=Mc(F)?F

        (1)

        F′′=Ms(F′)?F′

        (2)

        圖4 通道注意力模塊結(jié)構(gòu)

        (3)

        空間注意力模塊結(jié)構(gòu)見圖5。空間上的注意力機制主要關注位置信息,對通道進行壓縮,在通道維度上分別進行平均池化和最大池化[28]。其中,平均池化的操作就是在通道上提取平均值,提取的次數(shù)是高乘以寬;最大池化是提取最大值,提取次數(shù)與平均池化相同。將得到的這兩個不同的背景描述基于通道進行concat操作,再經(jīng)過一個卷積操作降為一個通道,使用Sigmoid函數(shù)生成空間注意力特征,然后與輸入至空間注意力模塊時的輸入特征作乘法計算,最終生成新的特征??臻g注意力的計算過程可表述為

        圖5 空間注意力模塊結(jié)構(gòu)

        Ms(F′)=σ(f7×7([AvgPool(F′);MaxPool(F′)]))=

        (4)

        2.2 BiFPN模塊

        輸入圖片經(jīng)過 YOLOv5s主干網(wǎng)絡提取特征后需要經(jīng)過頸部網(wǎng)絡處理后輸出到檢測層。在原始YOLOv5s結(jié)構(gòu)中采用 PANet 作為頸部網(wǎng)絡,PANet網(wǎng)絡結(jié)構(gòu)見圖6,其中C為輸入特征圖,P 為輸出特征圖。通過自底向頂和自頂向底雙路徑聚合,實現(xiàn)底層特征信息和高層強語義信息的特征融合,同時縮短底部與頂部之間信息路徑。上采樣與下采樣中長寬相同的特征層進行堆疊,進一步保證小目標的特征和信息。

        圖6 PANet網(wǎng)絡結(jié)構(gòu)

        原始的YOLOv5s網(wǎng)絡中頸部 PANet 結(jié)構(gòu)是特征金字塔中簡單的雙向融合[29],雖然可以實現(xiàn)淺層信息的傳遞和高層特征圖強語義信息的融合,但是兩部分融合時直接采用相加運算,并沒有相關的權(quán)重設計。基于以上問題,本文引入BiFPN模塊,其網(wǎng)絡結(jié)構(gòu)見圖7。

        圖7 BiFPN網(wǎng)絡結(jié)構(gòu)

        BiFPN模塊在原始Neck中PANet結(jié)構(gòu)上進行了改進:首先刪除上下邊線里面的中間節(jié)點,即圖6中C5至P5和C3至P3之間的一個節(jié)點,因為較為單一的輸入、輸出節(jié)點對于融合不同特征的網(wǎng)絡來說貢獻較小。其次跳過刪除的節(jié)點添加跳躍連接,只有存在中間節(jié)點并且輸入、輸出在同一層級時,使用殘差的方式添加一條額外的邊。由于YOLOv5s中只有3個尺度的特征信息融合,所以在刪除兩條邊線中間節(jié)點后只剩C4和P4之間的節(jié)點有著同一層級的輸入和輸出,因此在C4至P4這條線上添加殘差連接,其目的是在不增加計算開銷的同時來融合更多的特征。最后直接將BiFPN作為一個基本單元,可以進行重復堆疊和在網(wǎng)路中添加。PANet只有一條top-down和bottom-up的路徑,而BiFPN將一對路徑視為一個特征層,可以進行多次的堆疊來得到更多高層特征融合。先前的特征融合方法大多數(shù)平等對待所有的輸入特征,然而不同特征有著不同的分辨率,對特征融合的貢獻度是不同的,為此BiFPN結(jié)構(gòu)為每個輸入都添加一個額外的權(quán)重,網(wǎng)絡在訓練過程中逐漸學習每個輸入特征的重要性?;诖耍ㄟ^實驗3種不同的加權(quán)方法如下:

        (5)

        (6)

        (7)

        式中:O為節(jié)點輸出值;Ii為來自i節(jié)點的輸入值;wi為對應i節(jié)點輸入的權(quán)重;j為輸入節(jié)點個數(shù)的總和;ε為一個保證數(shù)值穩(wěn)定的小量,ε=0.000 1。

        FPN是傳統(tǒng)的自頂向底的特征融合網(wǎng)絡,受到單向信息溝通的限制;原始的YOLOv5s結(jié)構(gòu)Neck中的PANet是自底向頂和自頂向底的簡單雙向特征融合網(wǎng)絡,實現(xiàn)了雙向的信息溝通;本文提出將性能更好的BiFPN模塊添加至Neck中。原始的YOLOv5s網(wǎng)絡結(jié)構(gòu)中Neck部分是PANet特征網(wǎng)絡,有4個concat操作,依照網(wǎng)絡順序最后3個為輸出特征圖之前的concat操作,因為BiFPN模塊可以將其視為一個基本單元,故而在原始Neck中的后3個concat操作之后堆疊一層BiFPN模塊。Neck部分改進對比見圖8。

        圖8 Neck部分改進對比

        2.3 先驗框的設置優(yōu)化

        YOLOv5s原始算法在對目標物體進行預測時,會出現(xiàn)預測框偏離識別目標物,預測框在一定程度上超出目標物邊界,或者預測框小于目標物等問題。先驗框(Anchor)的設計就是預設一個寬高坐標都設定好的檢測框,目的是減輕以上問題的程度并以此來更貼近Ground truth。

        為了獲得更加適合本文數(shù)據(jù)集的Anchors,利用K-means聚類算法進行計算??紤]到Y(jié)OLOv5s算法中輸出3種尺寸的特征圖進行預測,因此先驗框的尺寸也是不一樣的。由于原始的K-means聚類算法以歐氏距離定義樣本距離時產(chǎn)生的誤差與先驗框尺寸成正相關,且以此計算的IOUavg值較低[22],因此本文在原有的K-means聚類算法基礎上進行優(yōu)化,在定義樣本距離的時候使用1-IOU的方法來代替原始的歐式距離算法,其樣本間距離為

        d(b,c)=1-IOU(b,c)

        (8)

        (9)

        式中:d(b,c)為先驗框b與聚類中心c之間的距離;A為標記框;C為預測框;B為標記框A和預測框C的交集;S為面積。

        先驗框的個數(shù)和寬高對IOU和網(wǎng)絡的識別性能是有影響的,通過設計對比實驗得出效果最佳的先驗框個數(shù)為9;通過使用改進的K-means聚類算法,經(jīng)過迭代3 000次后得到9個新的先驗框?qū)捀叻謩e為(108,105) (105,153) (187,102) (152,156) (224,150) (167,257) (338,169) (209,331) (334,322)。

        2.4 損失函數(shù)

        在損失函數(shù)方面,采用分類損失函數(shù)clsloss、定位損失函數(shù)giouloss、置信度損失函數(shù)objloss三部分對模型進行指導和訓練,將分類損失、定位損失、置信度損失進行求和得到最終的損失函數(shù);采用二元交叉熵損失函數(shù)計算種類的概率和目標置信度得分損失,并使用giouloss作為bounding box的回歸損失。

        (10)

        (11)

        (12)

        式中:y為預測類別;p為預測正例索引;i為預測框總索引;IOUp為預測正例框p與真實框的交并比。

        2.5 改進思路

        改進的YOLOv5s 網(wǎng)絡結(jié)構(gòu)見圖9,整體改進思路如下:

        圖9 改進的YOLOv5s 網(wǎng)絡結(jié)構(gòu)

        Step1在YOLOv5s網(wǎng)絡的backbone中引入CBAM模塊添加到Conv操作后面,這樣給定的中間特征圖就會依次通過通道注意力模塊和空間注意力模塊,在通道維度和空間維度上分別加強關注特征信息的“內(nèi)容”和“區(qū)域”,從而提高表征能力,關注重要特征、抑制次要特征,有效地幫助網(wǎng)絡內(nèi)的信息流動。

        Step2在Neck部分引入BiFPN特征金字塔網(wǎng)絡,在3種尺寸特征圖輸出前的concat操作之后堆疊一層BiFPN模塊??梢詫iFPN理解為帶有權(quán)重的雙向特征融合金字塔網(wǎng)絡,與傳統(tǒng)的FPN和PANet相比,不僅實現(xiàn)雙向的特征信息流動,還添加了跨越連接,以同層特征信息的流動來融合更多特性,并且沒有產(chǎn)生過多的計算成本。

        Step3在原始的K-means聚類算法上對樣本距離進行優(yōu)化,使用1-IOU的方法替換原始的歐氏距離算法;通過實驗得出最佳的先驗框設置個數(shù),計算出新的先驗框?qū)捀咝畔ⅰO闰灴虻脑O置,使網(wǎng)絡模型的預測結(jié)果偏向先驗框,網(wǎng)絡訓練過程中學習到的參數(shù)使預測框得以調(diào)整,使得先驗框越來越接近標注框,這樣就會解決模型學習的偏移量和系數(shù)變化較大的問題。

        3 實驗及分析

        3.1 數(shù)據(jù)收集

        由于列車駕駛員手勢在國際上并沒有統(tǒng)一標準,且我國目前針對列車駕駛員手勢識別方面的研究也相對較少,無法直接獲得高質(zhì)量開源的列車駕駛員手勢數(shù)據(jù)集,所以本文進行了自主數(shù)據(jù)集采集。

        為使數(shù)據(jù)集更貼近真實手勢動作場景,同時具有多樣性,更有利于后期模型訓練和提高檢測性能,拍攝時考慮以下3個方面:

        (1)手勢多樣化拍攝。從多個角度拍攝手勢,并且手指可以稍微變形。

        (2)復雜環(huán)境拍攝。因為現(xiàn)實手勢動作場景中可能會因為不同時間、天氣導致復雜的光線條件,所以設置不同的亮度來進行拍攝。

        (3)多尺度拍攝。采集5名人員的手勢,并且在一定范圍內(nèi)通過前后左右移動手勢來調(diào)整與采集設備間的距離,充分保證數(shù)據(jù)集的多尺度特性。

        每名人員采集5種手勢,手勢示例見圖10。每個類大約有1 500個樣本,總共7 532張圖像,每張圖像的尺寸為640×480。采集的實驗數(shù)據(jù)集數(shù)量見表1。

        圖10 手勢示例

        表1 實驗數(shù)據(jù)集數(shù)量 張

        3.2 實驗環(huán)境

        實驗環(huán)境配置為:操作系統(tǒng),Linux Ubuntu 20.04.2 LTS;CPU,Intel Xeon Gold 6142;顯卡,NVIDIA Geforce RTX 3080(10G);內(nèi)存,16G×2;固態(tài)硬盤,480G;Pytorch,V1.10;CUDA,V11.2。相關訓練參數(shù)設置為:初始學習率0.01;終止學習率0.2;Batch_Size為32;訓練輪數(shù)300。

        3.3 指標衡量

        本文采用以下指標對模型性能進行衡量:準確率P,為模型對某類別正確預測的數(shù)量與該類別所有數(shù)量的比值;召回率R,為模型對某類別正確預測的數(shù)量與測試集中該類別所有數(shù)量的比值;平均準確率AP,為模型預測某類別的準確率均值;平均準確率均值mAP,為所有單類別的AP求和與類別數(shù)的比值,一般在IOU=0.5時計算mAP的值,即mAP@0.5;交并比IOU,為產(chǎn)生的預測框與真實框的重疊度,也就是預測框與真實框交集與并集的比值;WS為模型占用內(nèi)存的大小;GFLOPs為用來衡量算法或者模型的復雜度;檢測速度V為每秒可以處理圖片的數(shù)量,F(xiàn)PS,V值越大說明模型的檢測速度越快。所有指標的計算式為

        (13)

        (14)

        (15)

        (16)

        (17)

        式中:TP是真陽性,將陽性目標預測為陽性;FP為假陽性,錯誤地將陰性目標預測為陽性;FN為假陰性,錯誤地將陽性目標預測為陰性;N為圖片數(shù)量;NC為樣本類型數(shù)目;X為預測框;Y為真實框。

        3.4 測試結(jié)果

        采用改進的K-means聚類算法重新計算Anchors值,由于先驗框個數(shù)對模型性能有所影響,所以將計算出的不同先驗框個數(shù)的Anchors值替換到模型中訓練輸出結(jié)果。不同Anchors值對模型精度的測試結(jié)果見表2。由表2可見,5個模型的檢測速度變化均較??;3Anchors和12Anchors相比較原始的YOLOv5s模型,精度分別降低了0.2%和1%,模型權(quán)重的內(nèi)存占比相同,計算量上3Anchors降低了0.2 ,12Anchors沒有變,所以Anchors值過少和過多都會影響模型的識別性能,且較低的Anchors值也同時縮減了模型的計算量;6Anchors和9Anchors值的精確度分別增加了0.3%和0.7%,權(quán)重內(nèi)存占比同樣不變,6Anchors值雖然減少了0.1的計算量,但是所帶來的整體提升效果依舊不足。經(jīng)過以上各指標性能對比篩選,選擇精確度提升更高的9Anchors值作為本文網(wǎng)絡的先驗框設置。

        表2 不同Anchors對模型精度的測試結(jié)果

        3.5 消融實驗

        深度學習的模型中,在一定范圍之內(nèi)網(wǎng)絡深度越深,其結(jié)構(gòu)組成就越復雜,相對來說對目標的識別精度就會越高,但是同時會產(chǎn)生很大的計算量,也會需要更多的浮點運算,最終生成的模型權(quán)重文件內(nèi)存占比也較大,從而導致對部署端硬件的要求會提高,包括CPU的運算能力、運行內(nèi)存和儲存空間。所以實現(xiàn)列車駕駛員手勢識別的工程部署,更加傾向于輕量級模型。基于此,本文通過對模型檢測性能和檢測速度綜合考慮,直接選用YOLOv5系列。在YOLOv5系列中又存在4種基礎模型,YOLOv5x、YOLOv5l、YOLOv5m、YOLOv5s,由于v5s內(nèi)存占比小、檢測速度較快,同時還能保證較高的精確度,所以選用YOLOv5s作為原始模型。

        本文在原始模型上提出3種改進,分別為單一改進、兩兩組合改進和整體改進,并依次進行性能對比。消融實驗結(jié)果對比見表3。由表3可見:在單一改進中,添加新的兩種模塊帶來的精確率提升更為明顯,尤其是添加BiFPN模塊后mAP增加了1.9%,添加CBAM模塊后mAP增加了1.4%;重新計算9Anchors性能也增加了0.7%,這說明結(jié)構(gòu)模塊添加更有利于模型的識別。再對單一改進兩兩組合,結(jié)果顯示雙模型的添加提升精確率的效果更好,直接將mAP從0.907增加至0.945,平均精確率均值增加了3.8%;在添加CBAM模塊和BiFPN模塊的基礎上重新計算9Anchors值,相對于單一模型添加分別增加了0.7%和0.5%,相比較未改進的YOLOv5s更分別增加了2.1%和2.4%。再將以上3種改進放至一起,mAP達到了最高0.955,相比較原模型的0.907平均精確率均值增加4.8%。由于添加了2種模塊,所以帶來了一定程度上的計算量增加和模型權(quán)重文件內(nèi)存占比增加。但是相較于原始模型,權(quán)重內(nèi)存占比只增加了2.2 MB,GFLOPs也僅僅只增加了1.4。在犧牲模型輕微的內(nèi)存占比和計算量增加的情況下帶來較大幅度的精確率增加也是值得的。由于YOLOv5s本身有較快的檢測速度,再加上以上的改進,檢測速度雖然從最初的90 FPS降到了71 FPS,但依然能夠保持一個很高的值,同時也能夠輕松達到實時檢測的需求,即V30 FPS。

        表3 消融實驗結(jié)果對比

        對最終改進模型使用測試集進行測試,每一類手勢的AP值見表4。由表4可見,5類手勢的整體AP都很高,其中發(fā)車信號手勢AP最高為0.986,進站信號手勢AP為0.932;由于不同類別的手勢復雜程度不一,以及個別手勢之間相似度較大,會導致各個類別手勢AP存在差異,但是改進的模型對于所有類別的識別情況整體較好。

        表4 不同手勢的AP值

        3.6 與目標檢測算法對比

        為進一步驗證本文算法的檢測效率和分類精度,與現(xiàn)階段主流的目標檢測算法進行對比實驗。實驗中采用本文自制的列車駕駛員手勢數(shù)據(jù)集,設置相同的實驗參數(shù),以及相同的硬件、軟件環(huán)境。本文算法與YOLOv3-tiny、YOLOv4-tiny、Mobilenet-SSD、PP-YOLO Tiny、YOLOX-S同時迭代300次進行訓練,所得性能對比見表5。

        表5 各算法性能對比

        由表5可見:較早的Mobilenet-SSD網(wǎng)絡模型mAP最低,同時圖片處理速度也較低,僅為27 FPS,而網(wǎng)絡模型權(quán)重文件內(nèi)存占比卻高達118 MB。傳統(tǒng)YOLO系列中的YOLOv3-tiny和YOLOv4-tiny同為輕量級網(wǎng)絡,mAP分別為0.873和0.882。在此基礎上YOLOX系列中的S模型是對比的目標檢測模型YOLO系列中mAP最高的為0.912,但是YOLOX-S的權(quán)重并不像tiny型占比較小,它的內(nèi)存占比為69 MB。百度推出的PP-YOLO系列也同樣有輕量級網(wǎng)絡PP-YOLO Tiny,相比YOLO的tiny系列在mAP、檢測速度上均有增加,分別為0.890、39 FPS。本文算法模型權(quán)重內(nèi)存占比僅為15.9 MB,對比YOLOv4-tiny模型在識別性能上增加了7.3%,對于較新的YOLOX-S網(wǎng)絡模型也增加了4.3%,同時在檢測速度上也是遠超YOLOX-S,達到71 FPS。手勢檢測結(jié)果可視化見圖11。

        圖11 手勢檢測結(jié)果可視化

        4 結(jié)論

        (1)本文提出改進的YOLOv5s算法實現(xiàn)對列車駕駛員手勢實時識別,通過添加CBAM注意力機制模塊改進主干網(wǎng)絡來加強有效的特征信息,采用BiFPN雙向特征金字塔網(wǎng)絡加強特征融合,使模型在分類和定位上取得更好的效果。使用改進的K-means聚類算法計算出適合自制數(shù)據(jù)集的9Anchors值,最終使得模型性能達到最佳。實驗結(jié)果表明,改進的模型在測試數(shù)據(jù)集上的檢測精度達到95.5%,在原始YOLOv5s基礎上性能增加了4.8%。

        (2)改進的YOLOv5s模型最終的權(quán)重文件內(nèi)存占比僅為15.9 MB,預測一張尺寸大小640×640的圖像也僅僅需要14 ms,處理速度可達71 FPS,可滿足實時檢測要求,同時對CPU等硬件條件要求較小,這有利于部署至嵌入式設備或移動端。

        (3)將本文算法與現(xiàn)階段主流的目標檢測算法進行對比,如Mobilenet-SSD、YOLOv3-tiny、YOLOv4-tiny、PP-YOLO Tiny和YOLOX-S,實驗表明,本文算法在識別精度、模型處理速度和網(wǎng)絡模型權(quán)重文件大小上均具有優(yōu)勢,驗證了本文算法的可行性和先進性。

        猜你喜歡
        特征檢測模型
        一半模型
        “不等式”檢測題
        “一元一次不等式”檢測題
        “一元一次不等式組”檢測題
        重要模型『一線三等角』
        重尾非線性自回歸模型自加權(quán)M-估計的漸近分布
        如何表達“特征”
        不忠誠的四個特征
        當代陜西(2019年10期)2019-06-03 10:12:04
        抓住特征巧觀察
        3D打印中的模型分割與打包
        久久精品日韩免费视频| 亚洲精品国产综合一线久久| 国产午夜无码精品免费看动漫| 精品av一区二区在线| 免费一区二区高清不卡av| 婷婷五月婷婷五月| 丰满少妇人妻无码专区| 久久精品国产亚洲av麻豆四虎| 人妻经典中文字幕av| 成年站免费网站看v片在线| 成人h动漫精品一区二区| 久久国产精品老人性| 国产人妖视频一区二区| 久久国产免费观看精品3| 人人妻人人添人人爽日韩欧美| 一区二区无码精油按摩| 青青草视频网站在线观看| 特黄做受又硬又粗又大视频小说| 成年人黄视频大全| 日韩精品中文字幕人妻中出| 一区二区三区字幕中文| 国产精品无码av天天爽| 精品久久综合一区二区| 国产白浆一区二区三区佳柔| 内射夜晚在线观看| 国产美女在线精品免费观看网址 | 日韩精品一区二区三区在线观看的 | 开心五月婷婷综合网站| 亚洲国产成人久久精品不卡| 国产裸体xxxx视频在线播放| 女人体免费一区二区| 男人一插就想射的原因| 三年片免费观看影视大全视频| 人妻无码中文字幕免费视频蜜桃 | 亚洲一区二区av天堂| 亚洲精品~无码抽插| 亚洲饱满人妻视频| 蜜臀一区二区av天堂| 久久天堂av综合合色| 熟妇五十路六十路息与子| 亚洲人av毛片一区二区|