陳園林 高興華 吳晗林
DOI:10.19850/j.cnki.2096-4706.2024.01.017
收稿日期:2023-06-06
基金項目:吉林省科技發(fā)展計劃項目(20220203179SF)
摘? 要:針對目前滑雪場內滑雪人員摔倒檢測存在的問題,提出一種基于YOLOv7的目標改進模型。對于檢測模型部署在巡邏機器人上致使計算資源受限的問題,在主干網絡中引入Ghost模型并在頸部引入GSConv降低模型參數;同時,引入基于并行可變形卷積的注意力機制模塊(Parallel Deformable Attention Conv, PDAC)增強模型的精度。改進后的模型相較于原模型在參數上降低了21.6%,GFLOPs降低了27.7%,所需要的計算資源也大大降低。
關鍵詞:目標檢測技術;YOLOv7;滑雪摔倒檢測;輕量化模型
中圖分類號:TP391.4? 文獻標識碼:A? 文章編號:2096-4706(2024)01-0084-05
Ski Fall Detection Based on Improved YOLOv7
CHEN Yuanlin, GAO Xinghua, WU Hanlin
(Beihua University, Jilin? 132013, China)
Abstract: A target improvement model based on YOLOv7 is proposed to address the current issues in detecting falls among skiers in ski resorts. For the problem of limited computing resources caused by deploying detection models on patrol robots, the Ghost model is introduced into the backbone network and GSConv is introduced in the neck to reduce model parameters; meanwhile, the Parallel Deformable Attention Conv (PDAC) module is introduced to enhance the accuracy of the model. The improved model has reduced parameters by 21.6% and GFLOPs by 27.7% compared to the original model, and the required computational resources have also been greatly reduced.
Keywords: target detection technology; YOLOv7; ski fall detection; lightweight model
0? 引? 言
隨著冬奧會的舉辦,滑雪運動逐漸變得火熱。近年來,我國滑雪場數量不斷增加,滑雪人數年均超2 000萬人次[1-3]?;┤藬翟鲩L的同時,滑雪事故也在不斷增加,每年都有因滑雪而造成的傷亡[4]。目前針對摔倒檢測的方法主要有傳感器檢測和利用視覺算法的檢測。由于滑雪運動速度較快,對傳感器檢測影響很大,傳感器不能準確的判斷是否為正常運動中的加速狀態(tài),還是摔倒狀態(tài)。而基于視覺方法的檢測可以提高檢測的精度。
基于計算機視覺的目標檢測,主要是對圖片或視頻幀中所要識別的物體進行定位并分類。在深度學習沒有普及之前,傳統的目標檢測需要手工提取目標特征[5],而基于深度學習的目標檢測算法解決了此問題。根據算法特性基于深度學習的目標檢測算法分為一階段檢測算法和二階段檢測算法,一階段檢測算法主要以YOLO系列、SSD等為代表[6,7],二階段檢測算法主要以R-CNN、FasterR-CNN為代表[8,9]。
在使用目標檢測算法對雪場摔倒人員進行檢測時,由于雪場滑雪人員較多,容易對待檢測目標造成遮擋。并且雪場范圍很大,在遠處的待檢測目標在檢測場景中占比很小,以至于很難準確地進行檢測。其次,在同一場景中可能存在大尺度或小尺度的待檢測目標,尺度不同也很容易造成檢測器的漏檢。最終,滑雪場摔倒人員檢測技術的部署不僅需要高精度,還需要較高的檢測速度,以滿足在復雜情況下的實時檢測,并且因為模型是部署在移動機器人上,計算資源受限,不能承載參數量很大的模型。
為了解決上述問題,構建了一種基于改進YOLOv7的滑雪摔倒目標檢測算法。引入Ghost模塊降低模型的參數,并引入并行可變形卷積注意力機制模塊,減少特征提取過程中骨干網絡造成的空間信息損失[10]。同時在頸部引入GSConv,進一步降低參數的同時,增強其非線性表達能力[11]。
1? YOLOv7概述
YOLOv7[12]是YOLO系列中最新推出的模型,根據部署對象的不同,分別為YOLOv7-Tiny、YOLOv7和YOLOv7-W6。YOLOv7的識別精度和識別速度已經超過了目前大部分檢測器,結構和前幾代YOLO模型類似。
YOLOv7算法框架主要由主干網絡(Backbone)、頸部(Neck)、預測頭(Head)三部分組成,其算法會對輸入的圖片做一系列的數據增強操作,目的是提高檢測的精確度。經過數據增強后的圖片被送進主干網絡中,主干網絡對圖片進行特征提取,然后將其以三個不同尺度的輸出送入頸部當中。三個不同尺度的特征會在頸部進行信息流動并融合,融合后的特征被送入頭部,檢測后輸出結果。
YOLOv7模型的主干網絡主要采用ELAN模塊,該模塊是一種高效的網絡結構,它通過控制最短梯度路徑實現更多的堆疊,獲得更強的學習能力和更多的學習信息,增加模型的預測精度。為了增大感受野,使得算法對不同尺度的圖像具有良好的適用性,還采用了SPPCSPC模塊,模塊通過三個不同尺度的Maxpool操作來區(qū)分大小不同的物體,提高了網絡的適用性。
2? 網絡模型改進
為了滿足滑雪摔倒檢測的實時性和精確性目標,提出了一種基于YOLOv7算法改進的目標檢測模型,結構如圖1所示。改進算法的主要目標是降低模型的參數量,降低模型運算需要的計算資源,在此基礎上獲得良好的檢測精度。
2.1? PDAC注意力機制模塊
注意力機制是機器學習中一種特殊的模塊,一張圖片中包含著豐富的語義信息,但不是所有的信息都是重要的。注意力機制分為空間注意力機制、通道注意力機制和混合注意力機制,還有最近興起的可變形注意力機制DETR等[13]。
基于前人提出的注意力機制的啟發(fā),提出了一種可變形注意力機制,在注意力機制中引入可變形卷
積[14],即PADC,如圖2所示。PADC可以自適應地改變感受野的大小,減少特征圖語義的損失。在PADC模塊中,我們首先將特征圖在通道上進行等分,通過兩個分支對其進行可變形卷積改變其感受野的大小,并將兩個分支做通道上的連接。其次將每個通道的二維特征通過全局平均池化壓縮為一個實數,將特征圖從[h,w,c]變換為[1,1,c],再給每個特征通道生成一個權重值,最后將得到的歸一化權重加權到每個通道的特征上,可變形注意力機制輸出如式(2)所示。圖2中,Conv表示卷積核大小為1、步長為1的標準卷積,對輸入的特征圖進行尺度的調整,受到可變形卷積網絡的啟發(fā),其感受野不受限于原來的正方形狀,而可以是任意的形狀,能夠自適應尺寸和姿態(tài)的變化。在雪場中,滑雪人員所處的遠近及姿態(tài)不同,可變形卷積可以更好地適應這種尺度和姿態(tài)的變化。
(1)
(2)
2.2? Ghost模塊
由于在雪場上部署模型的設備為巡邏機器人,其計算資源必然受到限制,不能搭載參數量較大的模型,為了平衡模型的精度和參數量。引入了GhostConv模塊代替主干網絡中的普通卷積模塊降低模型的參數量。GhostConv是Han等提出的一種輕量化卷積,他們認為傳統卷積生成的特征圖存在大量相似特征圖,這些特征圖被稱為冗余信息。這些冗余信息可以用更廉價的手段來生成——線性變換。這樣可以有效地降低模型的參數量和計算成本。傳統的卷積是通過N個尺寸固定的卷積核生成N個特征圖,而GhostConv先用少量的卷積核進行常規(guī)的特征提取,然后對提取出的特征圖進行廉價的線性變換,最終進行級聯操作生成最終的特征圖,如圖3所示。傳統卷積輸入特征圖X ∈ Rc×h×w,輸出Y ∈ Rm×h'×w',則Y = X · f + b,其中f ∈ Rc×m×k×k表示c×m個大小為k×k的卷積核,b為便置項,如圖4所示。則傳統卷積的FLOP1如式(3),輕量卷積GhostConv的FLOP2如式(4):
(3)
(4)
與傳統卷積不同,Ghost卷積采用分布策略,計算如式(5)與式(6)所示:
(5)
(6)
其中傳統卷積部分輸出Y' ∈ Rm×h'×w',表示對輸入X ∈ Rc×h×w經過傳統卷積f ' ∈ Rc×m×k×k生成個數為m的少量特征圖。然后對生成的m個特征圖進行廉價的線性操作,生成n - m個Ghost特征圖。輕量卷積GhostConv的FLOP2如式(7)所示:
(7)
由式(6)可知GhostConv的FLOPs為傳統Conv的1/s。
2.3? GSConv模塊
在進行目標檢測任務中,參數越多檢測精度相對來說也越高,但是推理速度會因為參數的增多而減慢,并且因為參數的增多很難部署到一些計算資源少的設備上,為此我們在特征融合階段引入了GSConv模塊,如圖5所示。傳統的卷積隨著網絡深度的增加,特征圖的尺寸會被壓縮,并且通道會進行擴張,這會造成淺層語義的丟失,通道之間的隱藏聯系也會減少。GSConv可以用較低的時間復雜度盡可能地保留這些聯系。GSConv對輕量型檢測模型的影響非常明顯,它增加了深度可分離卷積層[15]和通道洗牌,增加模型的非線性表達能力。但是我們并沒有選擇在骨干網絡中采用GSConv模塊。雖然GSConv??炷艽蠓鹊亟档湍P偷膮盗?,但同時也帶來網絡層數的加深,伴隨網絡層數的加深,數據流的阻力也相應增加,這會造成模型推理速度變慢。但若將其部署在頸部則完全克服了這個問題,當特征圖輸入到頸部時特征圖的尺寸已經變得很小了,這時采用GSConv來處理串聯特征圖是最好的選擇,冗余信息大大減少。所以在頸部引入GSConv模型可降低模型的參數量,并增強其非線性表達能力,能夠更好地進行特征融合使深層的語義信息和淺層的語義信息得到更加充分補充,以此來增強模型的精度。輸入X ∈ Rc×h×w,經過f ∈ Rc×m/2×k×k變換后輸出Y ∈ Rm/2×h'×w',輸出Y再經過f ' ∈ Rm/2×k×k得到Y' ∈ Rm/2×h'×w'。再將輸出經由大小為1×1、個數為m/2×m/2的卷積核得到Y' ∈ Rm/2×h'×w'。再將兩部分結果做一個拼接并通道洗牌,如式(8)所示:
(8)
3? 實驗結果及分析
3.1? 實驗環(huán)境及數據集
本文實驗環(huán)境配置如表1所示。
本文采用自制數據集進行試驗,該數據集共3 000張圖片。并對數據集圖片進行翻轉、旋轉、裁剪、變形等基本方法和Mosaic方法進行數據增強,增強后的圖片效果如圖6所示。
3.2? 檢測評價指標
本文對算法的評價指標主要有以下幾種,Precision、Recall、mAP@0.5和GFLOPs,公式分別為式(9)至式(12)。其中TP為正樣本(IoU大于某個閾值時則為正樣本),FP為負樣本(即IoU小于某個閾值時則為負樣本)。
(9)
(10)
(11)
(12)
3.3? 基于滑雪摔倒檢測數據集的消融實驗
改進后的模型在數據集上的precision對比圖如圖7所示,兩個模型都在100步以內達到收斂,原模型最高精度達到95.7%,改進后的模型最高精度達到了93.8%。在表2中可以看到在主干中引入Ghost模塊后,GFLOPs降低了15.8,參數量降低了200萬,但是精度降低了2.5%。其原因是引入Ghost降低了參數導致模型精度下降。加入PDAC模塊后精度上漲了0.8%,并且模型的參數量和GFLOPs幾乎沒有變化。然后在頸部引入GSConv進一步降低模型的參數,在原模型的基礎上參數降低了800萬,GFLOPs降低了29.2,精度相對降低了0.2%。
雖然改進后的模型精度相較于原模型降低了1.9%。但是參數降低了800萬,相較于原模型降低了21.6%。并且GFLOPs也降低了29.2,相較于原模型降低了27.7%。對于滑雪場摔倒檢測來說這個精度是完全合適的。并且因為參數的大大降低,降低了在移動端部署模型的條件,在精度和參數量上做出了平衡,檢測效果如圖8所示。
4? 結? 論
本文在YOLOv7原有算法框架上進行了改進。在主干采用GhostConv代替了一部分傳統卷積對模型進行輕量化處理,并在頸部采用GSConv對深層和淺層的語義進行融合,進一步降低模型的復雜度,模型參數相較于原模型降低了21.6%。并引入注意力機制模塊改善因參數量的降低對網絡精度造成的損失,在降低原有模型參數的基礎上獲得了較好的精度,實現了計算資源受限的移動端設備的目標檢測。下一步將根據現有的研究結果對跌倒檢測進行目標跟蹤研究。
參考文獻:
[1] 趙建滕.我國滑雪產業(yè)發(fā)展困境及對策 [J].合作經濟與科技,2022(16):27-29.
[2] DISHMAN R K,HEATH G W,SCHMIDT M D,et al. Physical Activity Epidemiology:Third edition [M].Champaign:Human Kinetics Publishers,2021.
[3] 王琳.運動醫(yī)學 [M].北京:北京體育大學出版社,2016:113.
[4] 林俐,張曉軍,王舉翠.滑雪場安全風險及防范措施研究 [J].中國應急管理,2021(11):63-65.
[5] ZOU Z X,CHEN K Y,SHI Z W,et al. Object Detection in 20 Years: A Survey [J].Proceedings of the IEEE,2023,11(3):257-276.
[6] REDMON J,DIVVALA S,GIRSHICK R,et al. You Only Look Once: Unified, Real-Time Object Detection [C]//2016 IEEE Conference on Computer Vision and Pattern Recognition (CVPR).Las Vegas:IEEE,2016:779-788.
[7] LIU W,ANGUELOV D,ERHAN D,et al. SSD: Single Shot MultiBox Detector [C]//Computer Vision–ECCV 2016.The Netherlands:Springer,2016:21-37.
[8] GIRSHICK R,DONAHUE J,DARRELL T,et al. Rich Feature Hierarchies for Accurate Object Detection and Semantic Segmentation [C]//2014 IEEE Conference on Computer Vision and Pattern Recognition. Columbus:IEEE,2014:580-587.
[9] REN S Q,HE K M,GIRSHICK R,et al. Faster R-CNN: Towards Real-Time Object Detection with Region Proposal Networks [J].IEEE Transactions on Pattern Analysis and Machine Intelligence,2017,39(6):1137-1149.
[10] HAN K,WANG Y H,TIAN Q,et al. GhostNet: More Features From Cheap Operations [C]//2020 IEEE/CVF Conference on Computer Vision and Pattern Recognition(CVPR).Seattle:IEEE,2020:1577-1586.
[11] LI H L,LI J,WEI H B,et al. Slim-neck by GSConv: A better design paradigm of detector architectures for autonomous vehicles [J/OL].arXiv:2206.02424 [cs.CV].(2022-08-17)[2023-05-06].https://arxiv.org/abs/2206.02424.
[12] WANG C Y,BOCHKOVSKIY A,LIAO H Y M. YOLOv7: Trainable bag-of-freebies sets new state-of-the-art for real-time object detectors [J/OL].arXiv:2207.02696 [cs.CV].(2022-07-06)[2023-05-06].https://arxiv.org/abs/2207.02696.
[13] ZHU X Z,SU W J,LU L W,et al. Deformable DETR: Deformable Transformers for End-to-End Object Detection [J/OL].arXiv:2010.04159 [cs.CV].(2020-08-08)[2023-05-06].https://arxiv.org/abs/2010.04159.
[14] DAI J F,QI H Z,XIONG Y W,et al. Deformable Convolutional Networks [J/OL].arXiv:1703.06211 [cs.CV].(2017-06-05)[2023-05-06].https://arxiv.org/abs/1703.06211v2.
[15] CHOLLET F. Xception: Deep Learning with Depthwise Separable Convolutions [C]//2017 IEEE Conference on Computer Vision and Pattern Recognition (CVPR).Columbus:IEEE,2017:1251-1258.
作者簡介:陳園林(1996—),男,漢族,黑龍江鶴崗人,碩士研究生在讀,主要研究方向:計算機視覺;通訊作者:高興華(1966—),女,漢族,吉林吉林人,碩士生導師,教授,碩士,主要研究方向:特種機器人;吳晗林(1996—),男,漢族,山東青島人,碩士研究生在讀,主要研究方向:自主導航。