亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于YOLOv5s改進的高精度手語檢測算法

        2023-12-05 08:14:18鄭思遠
        現(xiàn)代計算機 2023年18期
        關鍵詞:手語輕量化特征提取

        鄭思遠

        (達爾豪斯大學計算機科學學院,成都 610065)

        0 引言

        手語是失語者與社會進行溝通的重要橋梁,但手語的學習對于大眾具有較高成本,因此,利用現(xiàn)代計算機及算法對手語進行檢測識別具有重要的實際意義。對手語進行目標檢測并反饋給正常人能促進失語者與社會更好地交流,而手語目標檢測能否有良好的人機交互主要取決于手語檢測的準確度與進行手語檢測的速度[1]。本文通過對YOLOv5目標檢測網(wǎng)絡進行改進,提出了一種輕量化高精度的手語檢測算法。

        當前主流的手語識別方法大部分是基于神經(jīng)網(wǎng)絡的計算機視覺技術,Dima 等[2]用原本的YOLOv5 在沒有更改其原本框架的基礎上利用CNN 提取特征,并在訓練前添加相關數(shù)據(jù)集的預訓練模型對美國手語數(shù)據(jù)集進行訓練,最后精度達到95%。Borg等[3]提出了一個使用多層遞歸神經(jīng)網(wǎng)絡(RNN)進行手語目標檢測的方法來增強模型預測能力,并在不同圖片數(shù)據(jù)集進行測試,在視頻中的實時測試,精度方面有顯著提升。陳帥等[4]的YOLOv5-ASFF-SE 網(wǎng)絡通過添加自適應特征融合以及SE 注意力機制去增強模型特征提取和融合的能力,結果證明相比于原有YOLOv5 網(wǎng)絡,平均精度提升6%。邢晉超等[5]通過改變K-means 聚類算法,選定更加適配的先驗錨框尺寸從而達到更佳魯棒性的檢測效果,并結合CBAM 注意力機制加強原有特征提取,平均精度和召回率提升頗為顯著(3.44%和3.17%)。Li 等[6]提出了CNN-LSTM 特征提取結構,在卷積層和池化層后引入LSTM 分類器,消除冗余特征信息提高精度和檢測能力。

        在文獻[2-6]圖片數(shù)據(jù)集中的選擇多偏向于近距離大物體檢測,背景因素干擾少,當適配于嵌套式設備遇到不同的實時情況時,檢測網(wǎng)絡容易出現(xiàn)精度下降或者是檢測不具備時效性的可能。本文數(shù)據(jù)集的選定,偏向于遠距離小物體手語檢測目標數(shù)據(jù)集。同時在上述研究當中,模型輕量化處理方面略微有所不足,計算量大,同時精度方面還有可以提升的空間,尤其是當實驗對象為小物體、干擾因素強的情況下。針對以上問題,本文在YOLOv5s 基礎上做了以下改進:

        (1)輕量化模型處理,將YOLOv5s 原有多層主干網(wǎng)絡替換成MobileNetV3 網(wǎng)絡,MobileNet網(wǎng)絡特有的特征提取和處理結構極大地減少了YOLO 檢測所需要的計算量和參數(shù)應用,從而達到輕量化模型的目的。

        (2)高精度檢測提升,替換的MobileNetV3網(wǎng)絡主干MobileNet中的SE注意力機制有效提高特征提取的效率,保證精度下輕量化網(wǎng)絡結構。并且,使用GiraffeDet 網(wǎng)絡中Generalized-FPN 結構優(yōu)化YOLOv5s網(wǎng)絡頸部,其獨特高效的特征融合確保了細節(jié)信息的處理,進一步提高網(wǎng)絡精度。

        1 基于YOLOv5s改進的手語檢測算法

        YOLOv5s 網(wǎng)絡[7](如圖1 所示)當中,主干網(wǎng)絡部分主要由卷積層以及此C3 模塊組成,卷積層用于普通的特征提取,C3 模塊中主要由三層卷積層以及殘差鏈接組成,網(wǎng)絡Neck 部分主要進行不同程度的下采樣來適配特征融合。此網(wǎng)絡的主要特點就是對圖片局部特征、深層特征以及語義特征的多尺度特征融合。

        圖1 YOLOv5s原網(wǎng)絡結構

        在改進的YOLOv5s-MOBLILE-GFP(如圖2所示)當中,將YOLOv5s 主干部分替換為用三個MobileNetV3 模塊構成的主干,在Neck 部分YOLOv5s 特征金字塔(FPN)[7]的高層次與低層次特征交匯聚合的結構基礎上進一步加強,去除C3 模塊,加入了多層GSPStage(RepGFPN)[8]塊,以對手勢數(shù)據(jù)特征進行多層次特征融合,提升網(wǎng)絡精度。

        圖2 YOLO5s-MOBILE-GFPN網(wǎng)絡結構

        接下來對YOLOv5s-MOBLILE-GFP 網(wǎng)絡結構進行詳細展開,從輕量化改進和特征融合模塊結構兩方面進行實驗分析,評估網(wǎng)絡結構改進在精度以及速度上的提升。

        1.1 輕量化高精度特征提取主干MobileNetV3

        深度可分離卷積(Depth-wise convolution)是MobileNetV3 網(wǎng)絡塊(如圖3 所示)的主要構成,是模型參數(shù)大幅度減少的關鍵因素[9]。

        圖3 MobileNetV3網(wǎng)絡塊

        Depth-wise 卷積特點在于對圖片每一個通道的特征圖都進行單獨的卷積提取操作[10],相比于傳統(tǒng)卷積對整個特征圖通道做卷積特征提取,Depth-wise 卷積本身缺少通道間的特征融合,利用逐點卷積對特征圖通道特征融合并進行特征圖通道維度升降,大幅度減少計算量,輕量化模型結構。

        表1 所展示的內(nèi)容是當傳入數(shù)據(jù)集圖片時,新改進主干MobileNetV3 網(wǎng)絡的系數(shù)展示,相比于原YOLOv5s網(wǎng)絡主干參數(shù)明顯減少,在主干網(wǎng)絡減少五層的基礎上保持理想的特征提取效果。

        表1 網(wǎng)絡MobileNetV3主干參數(shù)

        此外,SE注意力機制(如圖3所示)是Mobile-NetV3 網(wǎng)絡塊精度提升的另一關鍵因素[9],此結構主要是由全局平均池化層、全連接層和激活函數(shù)組成,傳入的特征圖會根據(jù)特征需求的比例大小去進行權重重分配,通過權重相乘的方式可以達到權重重組的目的,激活函數(shù)可以降低全連接層特征信息在提取過程中丟失的概率。這樣一來需要被著重檢測的特征通道會逐漸顯示出來,大幅度減少冗余特征對于精度的干擾,特征提取的精度也會隨之上升[11]。

        在Hu 等[11]提出的原版SE 機制中采用的是sigmoid 激活函數(shù),將傳入的權重特征向量壓縮在(0,1)間,其缺點在于多次冪運算計算量大,迭代多次后的值過小易出現(xiàn)梯度消失的可能。反觀MobileNetV3 網(wǎng)絡使用了hard-sigmoid 結構[9],運算梯度迭代過程把冪運算思想換成了max 思想,取最偏向于某類別的最大近似概率,減少了部分計算量的同時也提高分類效率,使模型輕量化[9]。

        綜上所述,用MobileNetV3 網(wǎng)絡塊替換的新主干網(wǎng)絡結構在深度可分離卷積以及SE 模塊的加持下可以在提高特征提取的準確率的同時減少非必要的計算量。

        1.2 高精度特征融合Neck-GFPN模塊

        由Jiang 等[8]提出的GiraffeDet 神經(jīng)網(wǎng)絡目標檢測模型在小目標檢測中具有較高精度。其中頸部網(wǎng)絡Queen-Fusion 特征融合思想的加入是此網(wǎng)絡精度提升的關鍵,該結構特點在于將高層次語義信息和低層次信息特征多層次融合,從而達到對細小特征的高度檢測效果。如圖4所示,在Concat 處,P5 當前節(jié)點不僅會融合本層特征圖節(jié)點傳入的信息,同時也會融合其他層特征,比如上一層P4 特征的最大池化結果,下一層P6 特征的雙線性插值的上采樣結果以及上一層P4 輸出的特征。采用這種深層次的跨層、跨尺度方法,能夠有效進行不同網(wǎng)絡層的信息交換。在廣泛的目標檢測實驗當中與其他修改后的深度網(wǎng)絡形成對比,對于圖片中遠距離小目標的信息特征檢測的匹配率有所提高,圖片中小物體檢測錨框數(shù)量有著明顯上升[8]。

        圖4 Quene-Fusion結構

        本文對YOLOv5s 原網(wǎng)絡進行修改的同時也適配了此網(wǎng)絡模塊的思想,通過修改頸部和頭部網(wǎng)絡不同特征融合Concat 模塊、卷積層以及上下采樣層數(shù)對應關系達到多尺度多層次特征融合的目的,提升網(wǎng)絡對小目標的檢測準確度。

        將原始網(wǎng)絡頭部中C3 特征提取模塊網(wǎng)絡架構替換為如圖5 所展示的CSPStage 模塊架構,此模塊在GiraffeDet[8]網(wǎng)絡中作為頭部特征提取的主要結構,提高對未來階段特征再融合信息交匯和最后階段檢測的精度。對比原C3 模塊,在此模塊中卷積變化首先是1*1卷積搭配批量歸一化以及激活函數(shù),此結構能在小步幅提取特征的同時,穩(wěn)定模型在提取過程中的信息變化幅度,對于特征丟失的可能也引入不同激活函數(shù)進行自動適配。

        圖5 CSPStage結構

        在頸部網(wǎng)絡中CSPStage 塊采用了多次Rep 3*3與3*3卷積搭配的特征提取方式,Rep3*3結構(如圖6 所示)[12]是REPVGG 網(wǎng)絡的一部分,該模塊由三部分組成,殘差塊、3*3 卷積、1*1卷積。在網(wǎng)絡訓練階段,Rep網(wǎng)絡用三個分支來提取不同維度特征,使網(wǎng)絡在不同的尺度和語義層次上提取特征,以捕捉圖像中的多樣性信息,保證網(wǎng)絡的高檢測精度。在網(wǎng)絡推理階段,Rep網(wǎng)絡將三個分支卷積層參數(shù)相加融合成一個卷積核,這種融合方式在保持檢測精度的同時,還能提升推理速度。通過將參數(shù)相加而不是在特征層級上進行串行或并行處理,可以減少計算量和內(nèi)存需求,從而提高網(wǎng)絡的推理效率。

        圖6 REP3*3塊結構

        將GiraffeDet 神經(jīng)網(wǎng)絡結構融入到YOLOv5s網(wǎng)絡中,構建了一個高精度特征融合網(wǎng)絡,雖然增加了網(wǎng)絡的頸部和頭部的結構參數(shù)量,增加了模型計算量,但網(wǎng)絡檢測精度會較大提升。

        2 實驗結果分析

        2.1 實驗系統(tǒng)配置和數(shù)據(jù)集

        本文實驗所用到的計算機環(huán)境是Windows 11 的22H2 版本,CPU 為因特爾12 TH Gen Intel(R)Core(TM)i5-12400F 2.50 GHz,GPU 采用的是英偉達NVIDIA GeForce RTX 3060,顯存12 GB。實驗訓練環(huán)境利用PyCharm 2021.2.4 版本軟件,Python 版本為3.8.13,PyTorch 為1.13.0。

        本文采取的數(shù)據(jù)集為Kaggle 官網(wǎng)的開源數(shù)據(jù)集“Sibi Language Object Detection”,該數(shù)據(jù)集包括了26種類別,為A~Z英文字母。訓練集為1271 張,測試集、驗證集隨機分配,部分數(shù)據(jù)集如圖7所示。

        圖7 實驗數(shù)據(jù)集部分展示

        2.2 實驗參數(shù)系數(shù)及評估理論

        實驗超參數(shù)的選取,學習率(learning rate)為0.01,批量化訓練為300 輪,每輪批量(batch size)為16,傳入圖片歸一化為416*416*3 規(guī)格,訓練方式采取優(yōu)化隨機梯度下降(SGD)的方式。

        本文涉及到的模型評估標準主要包括五個指標,前兩個為參數(shù)量(Parameter)和計算量(FLOPs),決定了改進模型是否輕量化。參數(shù)量過大會導致訓練所占用內(nèi)存過大,訓練速度會顯著下降;計算量統(tǒng)計了對于神經(jīng)網(wǎng)絡在深度學習時不同單元系數(shù)相乘與相加的總次數(shù)。另外三個指標分別為精度(Precision)、召回率(Recall)和平均精度均值(mAP)。

        Precision 用來評估誤檢對于模型精度的干擾。表達式為

        其中,TP(True Positive)是檢測目標正確的正樣本數(shù)量,F(xiàn)P(False Positive)為誤把錯誤的檢測對象當成目標檢測對象,相當于負樣本檢測成正樣本的數(shù)量。誤檢數(shù)量越小意味著模型的魯棒性越好。

        Recall 是用來評估模型在漏檢中的精度概率,和Precision 的差別在于FN(False Negative)和FP的不同,F(xiàn)N是把正樣本檢測成負樣本的數(shù)量。表達式為

        mAP 是由精度和召回率所繪的PR 曲線決定,本文評估采用IoU 指數(shù)為0.5 和0.5~0.95 區(qū)間,意味著IoU 區(qū)間內(nèi)綜合每一類的精度和召回率的PR 曲線面積和做平均操作。Categories 為檢測類別個數(shù),n為指定IoU范圍作用于總類別n,AP計算不同區(qū)間面積之和。

        2.3 精度輕量化實驗結果對比

        為進一步突出理想模型在精度以及輕量化的良好兼容性,進行了四次批量實驗,分別是YOLOv5s 原本網(wǎng)絡框架;其次在原有網(wǎng)絡基礎上替換主干網(wǎng)絡到Mobilenet-V3網(wǎng)絡進行特征提?。蝗缓笠胄绿卣魅诤蠅KGFPN 替換原有YOLO 網(wǎng)絡頸部網(wǎng)絡C3 模塊,最后綜合以上三方面進行訓練。

        由表2 可以看出,相比于原有網(wǎng)絡對于手語識別的訓練結果,在只替換主干到Mobile-NetV3 結構時,平均精度和召回率方面提升大約3.5%,模型參數(shù)及計算量分別減少大約70%和80%,但精度方面提升幅度小,還有幅度提升空間。當僅更換頸部網(wǎng)絡結構YOLOv5s-GFPN 時,參數(shù)利用率和計算量方面上浮77.7%和83.7%,雖然精度相比前一個框架有所上升,但昂貴的計算成本不足以適配嵌套設備。YOLOv5s-Mobile-GFPN 模型是最終優(yōu)化版本,盡管輕量化方面不如YOLOv5s-Mobile,但在平均精度IoU0.5 和0.5~0.9 時均有9.28%和6.88%的提升,精度提升遠超其他模型,參數(shù)量相比于原網(wǎng)絡減少13.2%,F(xiàn)LOPs 減少37.2%次運算。

        表2 模型精度和輕量化參數(shù)

        2.4 YOLOv5s-Mobile-GFPN 可視化結果訓練對比

        圖8 是最優(yōu)化模型YOLOv5s-Mobile-GFPN與原YOLOv5s網(wǎng)絡平均精度均值和召回率的可視化對比,可以看出優(yōu)化模型從訓練開始到結束的收斂速度遠超過原模型,更佳的泛化能力也是本文更新模型的優(yōu)點之一。在本文系統(tǒng)環(huán)境基礎下,優(yōu)化模型訓練300 輪所用時間為44.77 min,反觀YOLOv5s網(wǎng)絡完成時間為49.17 min。

        圖8 平均精度均值和召回率

        在圖9中,新改進優(yōu)化模型整體曲線波動收斂都比原模型在相同條件下訓練穩(wěn)定,并且在損失系數(shù)方面新模型比YOLOv5s擬合后效果更好,訓練損失和在驗證集上損失值收斂快、值域小??梢钥闯鱿啾扔赮OLOv5s模型訓練結果,YOLOv5s-Mobile-GFPN 在訓練錨框、物體以及類別損失分別下降了0.00319、0.001195和0.002956。

        圖9 YOLOv5s與YOLOv5-Mobile-GFPN 可視化訓練結果

        2.5 模型結果預測分析

        圖10 為改進后優(yōu)良化模型YOLOv5s-Mobile-GFPN 和原模型YOLOv5s 錨框檢測預測效果,可以明顯看出在復雜背景、干擾因素多的情況下,錨框置信度呈現(xiàn)跨度式上升,誤檢概率,如把背景檢測成手語的概率下降明顯。與此同時,對于背景因素干擾少的圖片部分,錨框檢測置信度由0.6 提示到0.9 以上,遠距離小目標手語數(shù)據(jù)集檢測平均提升16.25%。

        圖10 YOLOv5s和YOLOv5-Mobile-GFPN 結果驗證預測效果圖

        3 邊緣部署

        3.1 部署平臺

        為降低功耗、加速模型推理和決策,本實驗采用了AI 邊緣部署,將模型部署在了比特大陸Sophon SE5 AI 計算平臺上,設備的相關型號參數(shù)見表3,該設備采用TPU,是一種針對人工智能計算任務優(yōu)化的專用硬件加速器,具有高性能、高能效、可拓展等優(yōu)點。

        表3 比特大陸Sophon SE5相關參數(shù)

        3.2 算法部署與結果驗證

        算法邊緣部署過程如圖11 所示,首先對PC端的PyTorch 模型進行了一系列操作,包括量化(quantization)、剪枝(pruning)和轉換(conversion),生成Bmodel 模型,以便將模型適配到SE5 平臺上進行部署,然后通過Bmodel 創(chuàng)建推理Engine 來進行圖像推理。在邊緣設備上,通過攝像頭采集實時流媒體(RTSP),并對每一幀圖像進行推理和分析。最后,處理后的圖像被傳送到Web 端進行展示或進一步處理。Web 界面展示檢測結果如圖12所示。

        圖11 算法邊緣部署流程

        圖12 Web界面檢測結果展示

        為驗證邊緣設備低功耗、易部署等性能以及YOLOv5s-Mobile-GFPN 網(wǎng)絡高精度、輕量化等特點,分別在3060(GPU)和Sophon SE5 兩種設備上部署了原YOLOv5 網(wǎng)絡與YOLOv5s-Mobile-GFPN 網(wǎng)絡,結果見表4,比較了兩種算法在兩種不同環(huán)境下的檢測精度、功耗、檢測速度。由表4 可知,將兩種算法部署在SE5 上,在模型量化、轉換過程中模型產(chǎn)生了部分精度損失,但由于采用了fp16 數(shù)據(jù)類型,模型精度損失較小,原網(wǎng)絡準確度下降了0.78%,YOLOv5s-Mobile-GFPN 網(wǎng)絡精確度下降了1.64%。同時SE5 推理速度分別達到了48 FPS 和42 FPS,基本滿足實時檢測的需求。對比兩款設備功耗,SE5只有3060-GPU的22.9%。

        表4 原網(wǎng)絡與改進網(wǎng)絡在GPU與SE5上的測試結果

        4 結語

        根據(jù)YOLOv5s 神經(jīng)網(wǎng)絡框架,本文提出了YOLOv5s-Mobile-GFPN網(wǎng)絡結構的改進方法,重點在于修改網(wǎng)絡主干、改變網(wǎng)絡層連接關系以及引入新的特征融合模塊。這些改進旨在提高手語檢測的精度,并能夠適應不同情況下的手勢姿態(tài)。在保持高精度的同時減少了模型參數(shù)的幅度,在平均精度IoU 0.5和0.5~0.9方面分別提升了9.28%和6.88%,同時模型參數(shù)量相對于原網(wǎng)絡減少了13.2%,F(xiàn)LOPs 減少了37.2%次運算。盡管如此,網(wǎng)絡仍有通過蒸餾量化進一步減少參數(shù)和計算量的空間,未來將進一步測試和改進。為了減少偶然性實驗結果,數(shù)據(jù)集的數(shù)量將進行擴充,以擴大實驗結果的有效性范圍。

        本文還將YOLOv5s-Mobile-GFPN 網(wǎng)絡分別部署在3060-GPU 和Sophon SE5 兩種終端設備上進行了測試。結果顯示,網(wǎng)絡精度僅下降了1.64%,推理速度減少了36.8%。此外,TPU 設備的功耗只有GPU 的22.9%,具有較高的實用性,未來的研究將集中在如何通過損失較少的精度來實現(xiàn)更快的推理速度。

        猜你喜歡
        手語輕量化特征提取
        汽車輕量化集成制造專題主編
        自然手語在聾人大學生手語中的使用調(diào)查研究——以南京特殊教育師范學院為例
        活力(2019年15期)2019-09-25 07:23:06
        一種輕量化自卸半掛車結構設計
        智富時代(2019年2期)2019-04-18 07:44:42
        基于Daubechies(dbN)的飛行器音頻特征提取
        電子制作(2018年19期)2018-11-14 02:37:08
        Bagging RCSP腦電特征提取算法
        瞄準掛車輕量化 鑼響掛車正式掛牌成立
        專用汽車(2016年1期)2016-03-01 04:13:19
        奇怪的手語圖
        用戶:輕量化掛車的使用體驗
        專用汽車(2015年4期)2015-03-01 04:09:07
        基于MED和循環(huán)域解調(diào)的多故障特征提取
        奇怪的手語圖
        亚洲中文字幕av天堂自拍| 久久久国产精品免费无卡顿| 欧美肥胖老妇做爰videos| 国产av无码专区亚洲av琪琪| 最新亚洲人AV日韩一区二区 | 国产一区二区牛影视| 色婷婷综合一区二区精品久久| 亚洲人妻av综合久久| 国产性感午夜天堂av| 亚洲av午夜一区二区三| 精品少妇一区二区三区免费观| 无码精品a∨在线观看| 麻豆五月婷婷| 亚洲无码啊啊啊免费体验| 亚洲捆绑女优一区二区三区| 亚洲av无码无限在线观看| 丰满爆乳一区二区三区| 日本亚洲欧美在线观看| 中文字幕人妻少妇精品| 亚洲夫妻性生活免费视频| 国产成人精品电影在线观看| 精品99在线黑丝袜| 精品一区2区3区4区| 大地资源高清在线视频播放| 国产第一页屁屁影院| 久久亚洲aⅴ精品网站婷婷| 一二三四在线观看视频韩国| 久久99精品久久久久久琪琪| 北条麻妃国产九九九精品视频 | 99久久精品一区二区三区蜜臀 | 亚洲人成自拍网站在线观看| 最近中文字幕mv在线资源| 91福利精品老师国产自产在线| 国产黄色一级到三级视频| 米奇欧美777四色影视在线| 久久中文字幕无码专区| 亚洲国产成人Av毛片大全| 精品少妇一区二区三区四区| 精品亚洲成av人在线观看| 99久久亚洲精品无码毛片| 免费国产调教视频在线观看|