亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        改進(jìn)YOLOv5s的手語(yǔ)識(shí)別算法研究

        2022-08-19 08:27:40邢晉超潘廣貞
        關(guān)鍵詞:手語(yǔ)注意力聚類(lèi)

        邢晉超,潘廣貞

        中北大學(xué) 軟件學(xué)院,太原 030000

        在如今飛速發(fā)展的時(shí)代,文法手語(yǔ)(簡(jiǎn)稱(chēng)手語(yǔ))是聽(tīng)障人士與他人交流和獲取外界信息的主要途徑,也是幫助他們?nèi)谌肷鐣?huì)的重要工具。聽(tīng)力障礙者在全世界殘疾人群體中占有較大的比重,隨著人們對(duì)特殊群體的深入了解,對(duì)手語(yǔ)的關(guān)注也更為廣泛[1]。但是,當(dāng)健全人士與聽(tīng)障人士進(jìn)行信息交互時(shí),健全人士會(huì)遇到無(wú)法讀懂手語(yǔ)的巨大障礙,因此手語(yǔ)識(shí)別(sign language recognition,SLR)研究在聽(tīng)障人士與健全人士的交流之中占據(jù)著非常重要的地位。

        手語(yǔ)識(shí)別是指利用算法和技術(shù)來(lái)識(shí)別所產(chǎn)生的手勢(shì)序列,并以文本或語(yǔ)音的形式闡述其意義。目前,國(guó)內(nèi)外主流的手語(yǔ)識(shí)別方法依據(jù)使用的媒介不同可分為:基于傳感器的方法和基于計(jì)算機(jī)視覺(jué)的方法。

        第一種是基于傳感器的方法。傳感器包括數(shù)據(jù)手套、臂環(huán)、智能手表等。Wen等[2]提出了一個(gè)基于摩擦電智能手套的手語(yǔ)識(shí)別方法,共配置了15 個(gè)摩擦電傳感器,將智能手套收集到的句子利用分割法分為單詞單元,識(shí)別通過(guò)單詞單元重組創(chuàng)建的新的句子,平均正確率達(dá)到86.67%。Li 等[3]利用隱馬爾可夫模型技術(shù)提出了一種過(guò)渡信息建模的SLR模型框架,對(duì)來(lái)自5個(gè)手勢(shì)采集者利用數(shù)據(jù)手套收集獲得的1 024個(gè)測(cè)試句子、510個(gè)單詞的詞匯量進(jìn)行測(cè)試,單詞的準(zhǔn)確率達(dá)到87.4%。Ahmed等[4]提出了一種基于可穿戴感官手套的新型實(shí)時(shí)標(biāo)志識(shí)別系統(tǒng),該系統(tǒng)具有17 個(gè)傳感器和65 個(gè)通道。實(shí)驗(yàn)中包括5名馬來(lái)西亞手語(yǔ)(Malaysian sign language,MSL)的參與者執(zhí)行的75個(gè)手勢(shì),所有這些手勢(shì)都取自MSL數(shù)字,字母和單詞,其中數(shù)字、字母和單詞的識(shí)別精度分別為99%、96%和93.4%。雖然利用傳感器進(jìn)行手語(yǔ)識(shí)別的方法具有較高的靈活度,但是它們要求聽(tīng)障人士佩戴必要的感官設(shè)備,這對(duì)聽(tīng)障人士來(lái)說(shuō)是額外的負(fù)擔(dān)。

        另一種是基于計(jì)算機(jī)視覺(jué)的方法。Boukdir 等[5]提出了一種基于深度學(xué)習(xí)架構(gòu)的阿拉伯手語(yǔ)識(shí)別方法,使用2DCRNN(2D convolutional recurring neural network)模型提取具有循環(huán)網(wǎng)絡(luò)模式的特征,以檢測(cè)幀之間的關(guān)系,使用3DCNN(3D convolutional neural network)模型從視頻塊中學(xué)習(xí)時(shí)空特征,通過(guò)四重交叉驗(yàn)證技術(shù)得到的結(jié)果證明了2DCRNN的水平準(zhǔn)確率為92%,3DCNN的水平準(zhǔn)確率為99%。Guo等[6]提出了一種用于手語(yǔ)翻譯的分層長(zhǎng)短期記憶網(wǎng)絡(luò)(long short-term memory,LSTM),該方法解決了傳統(tǒng)的隱馬爾可夫模型和聯(lián)結(jié)時(shí)間分類(lèi)在識(shí)別期間可能無(wú)法解決與句子中的視覺(jué)內(nèi)容相對(duì)應(yīng)的混亂單詞順序困難。Necati等[7]提出了一個(gè)端到端的手語(yǔ)轉(zhuǎn)換器,通過(guò)CTC(connectionist temporal classification)將識(shí)別和翻譯問(wèn)題綁定到一個(gè)統(tǒng)一的體系結(jié)構(gòu)中實(shí)現(xiàn),這種聯(lián)合方法不需要時(shí)間信息,解決了兩個(gè)相互依賴(lài)的序列學(xué)習(xí)問(wèn)題,在PHOENIX14T 數(shù)據(jù)集上有著優(yōu)越的表現(xiàn)。Zhang等人[8]構(gòu)建了一種基于全局-局部特征描述的手語(yǔ)識(shí)別框架,提出了具有注意層的三維殘差全局網(wǎng)絡(luò)模型和基于目標(biāo)檢測(cè)的局部網(wǎng)絡(luò)模型。通過(guò)SLR_Dataset 和DEVSIGN_Dataset 兩個(gè)數(shù)據(jù)集的實(shí)驗(yàn)表明,該方法能夠獲得較高的準(zhǔn)確率(分別為89.2%、91.0%)和較好的泛化性能。基于計(jì)算機(jī)視覺(jué)的手語(yǔ)識(shí)別,在保證準(zhǔn)確率的情況下,交互方式簡(jiǎn)單,設(shè)備依賴(lài)性較低,適合在現(xiàn)實(shí)生活中應(yīng)用。

        YOLO(you only look once)系列算法具有比較簡(jiǎn)潔的結(jié)構(gòu),計(jì)算處理速度快,但是在最新的YOLOv5中,對(duì)整個(gè)特征圖中的每個(gè)區(qū)域會(huì)進(jìn)行相同的處理,并考慮每個(gè)區(qū)域?qū)ψ罱K檢測(cè)具有相同的貢獻(xiàn)。然而,在實(shí)際應(yīng)用中,對(duì)象周?chē)嬖趶?fù)雜而豐富的上下文信息,網(wǎng)絡(luò)應(yīng)該重點(diǎn)學(xué)習(xí)關(guān)鍵信息,忽視不重要的背景信息,而不是一視同仁。并且在現(xiàn)實(shí)生活中由于內(nèi)存以及計(jì)算機(jī)資源的限制,將常規(guī)的網(wǎng)絡(luò)模型部署到移動(dòng)設(shè)備是件非常困難的事,在優(yōu)化網(wǎng)絡(luò)時(shí),也需要考慮網(wǎng)絡(luò)規(guī)模的大小。

        本文將在YOLOv5s 算法的基礎(chǔ)上進(jìn)行改進(jìn),對(duì)手語(yǔ)圖像進(jìn)行處理,首先使用K-means++算法提高先驗(yàn)錨盒的尺寸匹配度,之后將改進(jìn)后的CBAM(convolution block attention module)注意力機(jī)制加入到骨干網(wǎng)絡(luò)中,增強(qiáng)特征空間信息以及通道信息之間的關(guān)系,以提高手語(yǔ)識(shí)別的準(zhǔn)確率。最后將Cross Entropy Loss 和Lovasz-Softmax Loss加權(quán)結(jié)合使用,使得網(wǎng)絡(luò)在模型訓(xùn)練過(guò)程中收斂得更加穩(wěn)定,以便更好地滿足實(shí)際應(yīng)用需求。

        1 YOLOv5算法概述

        單階段目標(biāo)檢測(cè)算法YOLO 系列隨著近年來(lái)迭代與優(yōu)化,新的YOLOv5算法已成為高性能的實(shí)施目標(biāo)檢測(cè)的模型之一。YOLOv5網(wǎng)絡(luò)目前包含四種網(wǎng)絡(luò)模型:YOLOv5s、YOLOv5m、YOLOv5l和YOLOv5x。YOLOv5s是其中網(wǎng)絡(luò)深度和寬度最小的模型,而后三種模型是在YOLOv5s上不斷深化和擴(kuò)展的產(chǎn)品。越小的網(wǎng)絡(luò)模型對(duì)移動(dòng)端的性能要求也越低,部署起來(lái)也越方便,因此本文選擇在YOLOv5s 網(wǎng)絡(luò)模型的基礎(chǔ)上進(jìn)行改進(jìn)。YOLOv5s 結(jié)構(gòu)分為Input(輸入端)、Backbone(骨干網(wǎng)絡(luò))、Neck(多尺度特征融合模塊)、Prediction(預(yù)測(cè)端)四部分,其網(wǎng)絡(luò)結(jié)構(gòu)如圖1所示。

        圖1 YOLOv5s網(wǎng)絡(luò)結(jié)構(gòu)示意圖Fig.1 Network structure diagram of YOLOv5s

        在輸入端,YOLOv5s 首先采用Mosaic 數(shù)據(jù)增強(qiáng)的方式,對(duì)圖片進(jìn)行隨機(jī)裁剪、隨機(jī)縮放和隨機(jī)排布,豐富了目標(biāo)檢測(cè)物的背景,并且在批量標(biāo)準(zhǔn)化計(jì)算時(shí)一次計(jì)算4張圖片的數(shù)據(jù),使用單個(gè)GPU就可以達(dá)到比較好的效果,增加了網(wǎng)絡(luò)的普遍適用性[9]。其次,使用自適應(yīng)錨框計(jì)算初始錨框參數(shù),網(wǎng)絡(luò)會(huì)根據(jù)不同的數(shù)據(jù)集自適應(yīng)地計(jì)算出相對(duì)應(yīng)的先驗(yàn)錨框值,YOLOv5s 的初始先驗(yàn)錨框參數(shù)為[10,13,16,30,33,23]、[30,61,62,45,59,119]、[116,90,156,198,373,326]。最后,通過(guò)自適應(yīng)圖片縮放將圖片統(tǒng)一縮小或者放大到同一個(gè)尺寸。

        與之前的YOLO系列網(wǎng)絡(luò)模型相比,YOLOv5在骨干網(wǎng)絡(luò)中增加了Focus 結(jié)構(gòu),其核心是對(duì)圖片進(jìn)行切片操作。之后YOLOv5 使用了和YOLOv4[10]一樣的跨級(jí)部分網(wǎng)絡(luò)(cross stage partial network,CSP)結(jié)構(gòu),但YOLOv4僅在Backbone中使用了CSP結(jié)構(gòu),而YOLOv5在Backbone和Neck中分別使用了兩種不同的CSP。在Backbone中,使用帶有殘差結(jié)構(gòu)的CSP1_X。因?yàn)锽ackbone網(wǎng)絡(luò)較深,殘差結(jié)構(gòu)的加入使得層和層之間進(jìn)行反向傳播時(shí),梯度值得到增強(qiáng),有效防止網(wǎng)絡(luò)加深時(shí)所引起的梯度消失,得到的特征粒度更細(xì)。在Neck中使用CSP2_X,相對(duì)于單純的CBL(Conv+BN+Leaky_relu),將主干網(wǎng)絡(luò)的輸出分成了兩個(gè)分支,之后將其拼接,使網(wǎng)絡(luò)對(duì)特征的融合能力得到加強(qiáng),保留了更豐富的特征信息。

        多尺度特征融合是目標(biāo)檢測(cè)框架中的關(guān)鍵環(huán)節(jié),最早的Neck 是使用上下采樣塊,該方法的特點(diǎn)是沒(méi)有特征層聚合操作,如SSD(single shot multibox detector)[11],直接跟隨頭部后的多層次特征圖。目前常用的Neck聚合塊有FPN(feature pyramid networks)[12]、PAN(pyramid attention network)[13]、ASFF(adaptively spatial feature fusion)[14]、BiFPN[15]等。YOLOv5s 的Neck 使 用FPN+PAN 結(jié)構(gòu),如圖2 所示,由若干個(gè)自底向上的路徑和若干個(gè)自頂向下的路徑組成,對(duì)提取到的特征圖進(jìn)行不同階段的再處理和合理使用,以便更好地利用Backbone提取到的特征。

        圖2 Neck結(jié)構(gòu)示意圖Fig.2 Neck structure diagram

        YOLOv5 預(yù)測(cè)端通常包括Bounding box 損失函數(shù)和非極大值抑制(nonmaximum suppression,NMS)。YOLOv5的Bounding box回歸損失函數(shù)為GIOU_Loss,有效地解決了前期YOLO 系列無(wú)法優(yōu)化邊界框不相交的問(wèn)題。最后,YOLOv5使用加權(quán)NMS篩選多目標(biāo)框,用來(lái)處理冗余預(yù)測(cè)框的問(wèn)題,提高了網(wǎng)絡(luò)識(shí)別的準(zhǔn)確性。

        2 YOLOv5模型改進(jìn)

        2.1 提高先驗(yàn)錨框的尺寸匹配度

        YOLOv5使用K-means對(duì)通用目標(biāo)檢測(cè)數(shù)據(jù)集COCO進(jìn)行聚類(lèi),獲得初始先驗(yàn)錨框參數(shù)。但是K-means算法是隨機(jī)分配初始聚類(lèi)中心,其可能會(huì)導(dǎo)致初始聚類(lèi)中心與最佳聚類(lèi)中心相差甚遠(yuǎn),且僅適用于COCO、VOC 等開(kāi)放場(chǎng)景數(shù)據(jù)集,而文中數(shù)據(jù)集的檢測(cè)對(duì)象與其存有較大差異。因此,K-means算法并不適合文中的手語(yǔ)動(dòng)作數(shù)據(jù),若以原本的錨框設(shè)定進(jìn)行訓(xùn)練,不僅影響模型收斂速度,還會(huì)導(dǎo)致最終的檢測(cè)效果不佳。

        為獲取針對(duì)性的初始錨框,本文選擇K-means++算法對(duì)標(biāo)記的目標(biāo)框架進(jìn)行多維聚類(lèi),針對(duì)K-means聚類(lèi)算法的缺陷,用直觀有效的方法優(yōu)化了K-means算法隨機(jī)初始點(diǎn)的選取,即隨機(jī)選擇一個(gè)樣本作為當(dāng)前的初始聚類(lèi)中心,然后計(jì)算每個(gè)樣本和已有聚類(lèi)中心之間的最短距離,并將該樣本歸類(lèi)到與其相距最小的聚類(lèi)中心所對(duì)應(yīng)的類(lèi)別中。同時(shí)計(jì)算出每個(gè)樣本被設(shè)定為下一個(gè)聚類(lèi)中心的概率,選擇概率值最大的樣本作為下一個(gè)中心[16],其中概率的計(jì)算公式為:

        式中,D(x)表示每一個(gè)樣本點(diǎn)到當(dāng)前中心的最短距離,每次分配一個(gè)對(duì)象,會(huì)根據(jù)現(xiàn)有的聚類(lèi)對(duì)象重新計(jì)算聚類(lèi)中心,重復(fù)此過(guò)程直到?jīng)]有對(duì)象被重新分配到其他的聚類(lèi)中,最后篩選出K聚類(lèi)中心。盡管K-means++算法中用于初始選擇聚類(lèi)中心的方法需要花費(fèi)額外的時(shí)間,但是K均值部分本身在選取合適的聚類(lèi)中心后會(huì)很快收斂,因此該算法實(shí)際上減少了計(jì)算時(shí)間,同時(shí)計(jì)算出的錨框與本文數(shù)據(jù)集中的目標(biāo)匹配得更加精準(zhǔn),對(duì)于文中在復(fù)雜背景中的手語(yǔ)動(dòng)作十分有效。在聚類(lèi)過(guò)程中,對(duì)應(yīng)于不同聚類(lèi)中心數(shù)的平均交并比(intersection over union,IoU)如圖3所示。

        從圖3中可以得出,當(dāng)聚類(lèi)中心的數(shù)目為0到9時(shí),平均交并比呈快速上升趨勢(shì),而當(dāng)聚類(lèi)中心的數(shù)目為9到12 時(shí),平均交并比的變化逐漸平緩。為了平衡計(jì)算精度和效率,本文最終選擇了9 個(gè)聚類(lèi)中心,并確定了先驗(yàn)錨框尺寸,如表1所示。

        表1 先驗(yàn)錨框尺寸Table 1 Prior anchor box scales

        圖3 聚類(lèi)中心數(shù)與平均交并比的變化曲線Fig.3 Variation curve of cluster center number and IoU

        表1中獲取的9 個(gè)先驗(yàn)錨框之間的差異性較大,將其應(yīng)用到網(wǎng)絡(luò)的不同尺度檢測(cè)層中,聚類(lèi)效果較好。K-means++算法降低了原始算法在初始聚類(lèi)點(diǎn)所造成的聚類(lèi)偏差,并且使初始的聚類(lèi)中心之間距離盡可能地遠(yuǎn),有效地彌補(bǔ)了K-means的缺陷。

        2.2 增添注意力機(jī)制

        對(duì)于輸入的手語(yǔ)圖像,除了手部信息外,經(jīng)常會(huì)伴有復(fù)雜的背景信息,在卷積時(shí),背景的迭代累積會(huì)形成大量冗余信息,從而淹沒(méi)部分目標(biāo),導(dǎo)致檢測(cè)準(zhǔn)確率不高[17]。為此,本文改進(jìn)了CBAM[18]注意力機(jī)制,并選擇出有效的位置將其加入到Y(jié)OLOv5s網(wǎng)絡(luò)模型中進(jìn)行特征融合,使模型更加精準(zhǔn)地定位和識(shí)別感興趣的目標(biāo)。

        注意力機(jī)制是通過(guò)關(guān)注輸入對(duì)象的重要區(qū)域來(lái)獲得更多的關(guān)鍵信息。CBAM 是一種簡(jiǎn)單而有效的注意力機(jī)制,其結(jié)合了通道注意和空間注意。其中,通道注意是學(xué)習(xí)不同通道的權(quán)值,并用權(quán)值對(duì)不同通道進(jìn)行多重劃分,以增強(qiáng)網(wǎng)絡(luò)對(duì)關(guān)鍵通道域的注意。對(duì)于F∈RC×H×W層的特征圖,其中C表示通道數(shù),H和W表示特征映射的長(zhǎng)度和寬度(以像素為單位),通道注意模塊首先計(jì)算每個(gè)通道MC∈RC×1×1的權(quán)重,計(jì)算公式如式(2)所示。

        式(2)中,F(xiàn)Cavg和FCmax分別表示平均池化和最大池化后的特征圖,σ是sigmoid激活函數(shù)。W1和W2表示兩層全連接層的權(quán)重,W1∈RC/r×C,W2∈RC×C/r,r是壓縮率。之后,將得到的通道注意特征圖MC與原始特征圖相乘并發(fā)送到空間注意力模塊??臻g注意關(guān)注目標(biāo)在圖像上的位置信息,并通過(guò)空間特征的加權(quán)選擇性地聚集每個(gè)空間的空間特征。如式(3)所示,空間注意使用通道注意特征圖MC與原始特征圖F相乘得到的特征圖FS作為輸入,依次執(zhí)行最大池化和平均池化,然后通過(guò)與7×7 的卷積核進(jìn)行卷積得到空間注意權(quán)重圖MS∈R1×H×W,如式(4)所示。

        將卷積后得到的MS與FS相乘,再與原始特征圖F相加。最后,將求和后的特征圖通過(guò)ReLU激活函數(shù),輸出最終的特征圖MF,如式(5)所示。

        但是CBAM 中的通道注意為了控制模型的復(fù)雜性,使用全連接層來(lái)對(duì)通道特征的空間維度進(jìn)行壓縮,將通道特征投影到低維空間,然后再將其映射回來(lái)。然而,降維的過(guò)程必然會(huì)造成部分通道特征信息的缺失,對(duì)捕獲所有通道之間的依賴(lài)性有副作用,無(wú)法獲取復(fù)雜的手語(yǔ)動(dòng)作的全部特征信息。因此,為了避免CBAM通過(guò)降維造成的部分通道信息的缺失,以及更有效地提高手語(yǔ)識(shí)別網(wǎng)絡(luò)檢測(cè)的精準(zhǔn)率,本文改進(jìn)后的CBAM注意力機(jī)制,僅保留CBAM的空間域,而舍棄其通道域的部分,選擇ECA-Net(efficient channel attention)[19]作為改進(jìn)后的CBAM注意力機(jī)制的通道域。

        在沒(méi)有降維的信道級(jí)全局平均池(global average pooling,GAP)之后,ECA-Net模塊通過(guò)使用一維卷積進(jìn)行通道特征聚合,考慮每個(gè)通道及其K個(gè)相鄰的通道來(lái)捕獲跨通道交互信息。卷積核大小K表示局部交叉通道交互的覆蓋范圍,即計(jì)算中涉及該通道的多少個(gè)鄰居。為了避免手動(dòng)調(diào)整K,使用一種方法自適應(yīng)地確定其值,如式(6)所示。其中,通道數(shù)C的初始值為64,|t|odd表示t的最近奇數(shù),γ設(shè)置為2,b設(shè)置為1。

        將ECA模塊應(yīng)用于本文改進(jìn)后CBAM注意力機(jī)制的通道域后,不同的卷積核大小對(duì)應(yīng)的準(zhǔn)確率如圖4所示。分析圖4 可知,當(dāng)K在所有卷積塊中固定時(shí),需要人工進(jìn)行不斷的驗(yàn)證,以選取最合適的卷積核大小。針對(duì)本文的手語(yǔ)數(shù)據(jù)集,K=7 時(shí)網(wǎng)絡(luò)模型檢測(cè)效果最佳;而通過(guò)式(6)自適應(yīng)地確定卷積核大小時(shí),它可以避免通過(guò)交叉驗(yàn)證手動(dòng)調(diào)整參數(shù),直接計(jì)算出最合適的K值,充分融合了通道間的交互信息,使得網(wǎng)絡(luò)的檢測(cè)性能得到優(yōu)化。改進(jìn)后CBAM 注意力機(jī)制的結(jié)構(gòu)如圖5所示。

        圖4 卷積核大小與準(zhǔn)確率的變化曲線Fig.4 Variation curve of convolution kernel size and accuracy

        圖5 改進(jìn)的CBAM注意力機(jī)制結(jié)構(gòu)示意圖Fig.5 Structure diagram of improved CBAM attention mechanism

        2.3 損失函數(shù)的改進(jìn)

        YOLOv5s網(wǎng)絡(luò)使用交叉熵函數(shù)(Cross Entropy Loss)作為置信度和類(lèi)別的損失函數(shù)。交叉熵?fù)p失函數(shù)主要用于梯度下降,但是其只關(guān)注對(duì)于正確標(biāo)簽預(yù)測(cè)的準(zhǔn)確性,而沒(méi)有注意到其他非正確標(biāo)簽的差異,從而導(dǎo)致學(xué)習(xí)到的特征比較零散,會(huì)造成一部分離散損失,而這部分離散的損失不能直接求導(dǎo),使得損失函數(shù)無(wú)法繼續(xù)優(yōu)化。而Lovasz-Softmax Loss[20]中用于平滑擴(kuò)展的Lovasz Extension是一個(gè)次模函數(shù),此函數(shù)已經(jīng)具有成熟的數(shù)學(xué)工具,可以將離散函數(shù)做光滑處理。因此本文對(duì)Cross Entropy Loss和Lovasz-Softmax Loss進(jìn)行權(quán)重配比,從而將兩個(gè)損失函數(shù)加權(quán)結(jié)合使用,以?xún)?yōu)化網(wǎng)絡(luò)的檢測(cè)性能。

        首先,交叉熵作為損失函數(shù)的一部分,在梯度下降時(shí),有效地避免了均方誤差損失函數(shù)學(xué)習(xí)速率下降的問(wèn)題,如式(7)所示。

        之后,通過(guò)Lovasz-Softmax Loss中的Lovasz Extension對(duì)離散損失進(jìn)行平滑擴(kuò)展。擴(kuò)展是基于集合函數(shù)的次模分析,其中次模函數(shù)的定義如式(8)所示,定義在有限集合E上,冪2E的一個(gè)實(shí)函數(shù)f,當(dāng)且僅當(dāng)對(duì)于E的任意兩個(gè)子集X、Y滿足式(8),稱(chēng)f是次模函數(shù)。

        本文中擴(kuò)展的集合函數(shù)是從一組預(yù)測(cè)失誤的數(shù)據(jù)映射到真實(shí)數(shù)據(jù)的集合,對(duì)于一個(gè)真實(shí)值y*和預(yù)測(cè)值y~ ,定義類(lèi)別c的錯(cuò)誤像素集,如式(9)所示:

        給定一個(gè)次模函數(shù)f:Hn→R和一個(gè)Lovasz 擴(kuò)展函數(shù),次模函數(shù)的Lovasz Extension 被定義為式(11),其中1 ≥xπ(1)≥xπ(2)≥…≥xπ(n)≥0,xπ(0)=1,xπ(n+1)=0。Lovasz-Softmax損失函數(shù)如式(12)所示,其中Fi(x)表示i類(lèi)的輸出分?jǐn)?shù)。

        由式(11)可知,此時(shí)平滑后的函數(shù)已經(jīng)是連續(xù)的,能直接對(duì)誤差x求導(dǎo),導(dǎo)數(shù)也很簡(jiǎn)潔,即f(x)。并且Lovasz Extension 處理后的函數(shù)是一個(gè)凸函數(shù),可高效實(shí)現(xiàn)最小化,這樣就大大方便了對(duì)損失函數(shù)的優(yōu)化。經(jīng)過(guò)Lovasz Extension 平滑后的損失函數(shù),將之前無(wú)法利用的離散損失加入計(jì)算,對(duì)于之前無(wú)法識(shí)別或者識(shí)別度較低的復(fù)雜手語(yǔ)動(dòng)作十分有效,并且使得訓(xùn)練過(guò)程變得較為平穩(wěn),優(yōu)化了模型的檢測(cè)性能。但是在單獨(dú)訓(xùn)練Lovasz-Softmax Loss的過(guò)程中,Lovasz擴(kuò)展不會(huì)受到與標(biāo)簽匹配的樣本的影響,在深層網(wǎng)絡(luò)中,Lovasz 擴(kuò)展可能沒(méi)有任何梯度。而交叉熵?fù)p失函數(shù)可彌補(bǔ)Lovasz-Softmax Loss中可能不存在梯度的缺陷,后者又可以在前者的基礎(chǔ)上進(jìn)行平滑收斂。

        最終將Cross Entropy Loss和Lovasz-Softmax Loss通過(guò)加權(quán)系數(shù)k1和k2結(jié)合使用,使得改進(jìn)后的網(wǎng)絡(luò)在模型訓(xùn)練過(guò)程中收斂得更加穩(wěn)定。本文中的k1和k2的取值分別為1.0和0.7,最終的損失函數(shù)如式(13)所示。

        3 實(shí)驗(yàn)結(jié)果與分析

        3.1 實(shí)驗(yàn)環(huán)境

        本文采用Roboflow的American Sign Language Letters Dataset數(shù)據(jù)集進(jìn)行訓(xùn)練,此數(shù)據(jù)集共1 728張圖像,圖像大小為608×608,其中除了720張真實(shí)手語(yǔ)圖像外,還包含通過(guò)數(shù)據(jù)扭曲和過(guò)度采樣處理后擴(kuò)充的圖像。在訓(xùn)練時(shí)按照9∶1的比例,將此數(shù)據(jù)集隨機(jī)劃分為包含1 555張圖片的訓(xùn)練集和173張圖片的測(cè)試集。

        網(wǎng)絡(luò)超參數(shù)配置如下:在模型訓(xùn)練中,通過(guò)Adam Optimizer 優(yōu)化器對(duì)參數(shù)進(jìn)行調(diào)優(yōu),設(shè)置目標(biāo)的類(lèi)別置信度閾值為0.5,初始學(xué)習(xí)率為0.001,權(quán)重衰減系數(shù)設(shè)置為0.000 5,以防止數(shù)據(jù)過(guò)擬合。此外,batch size設(shè)置為16,一共訓(xùn)練300個(gè)epoch。

        具體測(cè)試環(huán)境:GPU 為T(mén)esla T4,顯存為16 GB,CUDA 版本10.2,cuDNN 版本7.6.5,Pytorch 版本1.7.0,編譯語(yǔ)言為Python3.7。

        3.2 評(píng)價(jià)標(biāo)準(zhǔn)

        在目標(biāo)檢測(cè)領(lǐng)域,通常使用精準(zhǔn)率(precision)、召回率(recall)和平均精準(zhǔn)率(mean average precision,mAP)對(duì)目標(biāo)檢測(cè)算法性能進(jìn)行評(píng)價(jià)[21]。其中,精準(zhǔn)率P是指真正的正樣本與模型識(shí)別出的正樣本的比率,計(jì)算公式如式(14)所示:

        式中,TP表示模型正確預(yù)測(cè)正樣本的個(gè)數(shù);FP表示模型將負(fù)樣本錯(cuò)誤檢測(cè)為正樣本的個(gè)數(shù)。

        召回率R是指在測(cè)試集所有真正的正樣本中,模型正確檢測(cè)出正樣本的個(gè)數(shù)所占的比率,計(jì)算公式如式(15)所示。

        其中,F(xiàn)N表示正樣本被錯(cuò)誤識(shí)別為負(fù)樣本的個(gè)數(shù)。

        如果一個(gè)算法的性能比較好,那么其應(yīng)該有如下的表現(xiàn):在召回率增長(zhǎng)的同時(shí),精準(zhǔn)率的值保持在一個(gè)很高的水平。

        一般還需要一個(gè)綜合的參數(shù)來(lái)檢測(cè)網(wǎng)絡(luò)的算法性能,例如mAP值,計(jì)算公式如式(16)所示:

        式中,N表示測(cè)試集中的樣本總數(shù),C是檢測(cè)任務(wù)中類(lèi)別的種數(shù),P(K)是模型在同時(shí)識(shí)別K個(gè)樣本時(shí)精準(zhǔn)率的值,R(K)表示模型識(shí)別的樣本個(gè)數(shù)從K-1 變?yōu)镵時(shí),召回率的變化情況。

        3.3 對(duì)比實(shí)驗(yàn)

        3.3.1K-means++

        首先通過(guò)對(duì)比實(shí)驗(yàn)來(lái)驗(yàn)證本文應(yīng)用K-means++算法提高先驗(yàn)錨框的尺寸匹配度是否能夠提升網(wǎng)絡(luò)在手語(yǔ)識(shí)別方面的精準(zhǔn)率。原YOLOv5s網(wǎng)絡(luò)模型與改進(jìn)的網(wǎng)絡(luò)在同一個(gè)數(shù)據(jù)集上分別進(jìn)行相同epoch 數(shù)量的訓(xùn)練,實(shí)驗(yàn)結(jié)果如表2 所示,其中FPS(frame per second)用來(lái)評(píng)估目標(biāo)檢測(cè)的速度。

        表2 對(duì)比實(shí)驗(yàn)測(cè)試結(jié)果Table 2 Test results of comparative experiment

        從表2 中可以看出,在YOLOv5s 網(wǎng)絡(luò)的基礎(chǔ)上先驗(yàn)錨盒的聚類(lèi)方法由K-means算法改為K-means++算法,mAP 提升了0.83 個(gè)百分點(diǎn),F(xiàn)PS 提升了0.12。而改進(jìn)后的YOLOv5s 算法因與原YOLOv5s 網(wǎng)絡(luò)結(jié)構(gòu)的不同,檢測(cè)精度隨之也發(fā)生變化。在改進(jìn)后YOLOv5s 網(wǎng)絡(luò)的基礎(chǔ)上使用K-means++算法與使用K-means算法相比較,mAP提升了0.23個(gè)百分點(diǎn),F(xiàn)PS提升了0.11,同時(shí)與原YOLOv5 模型相比,mAP 高出了3.01 個(gè)百分點(diǎn)??傮w上來(lái)說(shuō),應(yīng)用K-means++聚類(lèi)算法定制出的先驗(yàn)錨盒的尺寸更加合理,對(duì)于本文中的手語(yǔ)動(dòng)作目標(biāo)和復(fù)雜的背景十分有效,使得網(wǎng)絡(luò)獲得了更好的定位精度。

        3.3.2 注意力機(jī)制對(duì)比

        為了分析降低特征圖的空間維度對(duì)通道注意的影響,實(shí)驗(yàn)只保留改進(jìn)前后CBAM模塊中的通道注意力,并將其融入到Y(jié)OLOv5s 骨干網(wǎng)絡(luò)中。實(shí)驗(yàn)結(jié)果如表3所示,YOLOv5s_CBAM表示使用原始CBAM中壓縮率為16 的兩層全連接層進(jìn)行通道特征聚合;YOLOv5s_CBAM_FC2表示直接使用兩層全連接層聚合通道特征;YOLOv5s_CBAM_FC表示僅使用一層全連接層進(jìn)行通道特征聚合;YOLOv5s_ICBAM 表示使用改進(jìn)后的CBAM 注意力機(jī)制(簡(jiǎn)稱(chēng)為ICBAM)的通道域,即采用ECA-Net的一維卷積進(jìn)行通道特征的聚合。

        表3 通道注意模塊對(duì)比實(shí)驗(yàn)Table 3 Comparative experiment of channel attention module

        通過(guò)分析表3 的數(shù)據(jù)可知,不進(jìn)行特征壓縮的YOLOv5s_CBAM_FC2的模型準(zhǔn)確率比使用原始CBAM注意力機(jī)制的模型準(zhǔn)確率高出0.51個(gè)百分點(diǎn),這表明去除特征壓縮的過(guò)程,雖然使得模塊的參數(shù)量增大,但是保留了較完整的特征圖信息,提升了通道注意力的特征表達(dá)能力。而直接使用一層全連接層對(duì)通道信息進(jìn)行聚合時(shí),mAP值提升了0.45個(gè)百分點(diǎn),這意味著減少全連接層的使用,可以在參數(shù)量大量下降的情況下,進(jìn)一步避免特征壓縮,從而提升了模型的檢測(cè)效果。最后,使用本文的ICBAM 注意力機(jī)制,直接對(duì)全局池化后的通道特征進(jìn)行一維卷積,并沒(méi)有對(duì)特征進(jìn)行壓縮,也沒(méi)有使用全連接層進(jìn)行映射,mAP 值總體提升了1.37 個(gè)百分點(diǎn)。以上結(jié)果清楚地表明了避免維度降低將有助于聚合通道特征,從而提升整體ICBAM 注意力機(jī)制在YOLOv5s中的性能。

        改進(jìn)后的CBAM 注意力機(jī)制將特征空間的位置信息與通道特征信息相結(jié)合,以便網(wǎng)絡(luò)能夠在訓(xùn)練過(guò)程中掌握目標(biāo)特征的“關(guān)鍵點(diǎn)”。然而,在特定情況下,ICBAM模塊在網(wǎng)絡(luò)模型中的哪個(gè)位置進(jìn)行特征融合是有效的,仍然是一個(gè)有待研究的問(wèn)題。本文將ICBAM模塊融合到Y(jié)OLOv5s 網(wǎng)絡(luò)模型的不同位置,并對(duì)檢測(cè)結(jié)果進(jìn)行了研究,實(shí)驗(yàn)結(jié)果如表4所示。

        表4 改進(jìn)的CBAM模塊嵌入到網(wǎng)絡(luò)不同區(qū)域的測(cè)試結(jié)果Table 4 Test results of improved CBAM module embedded into different areas of network

        從表4中可以發(fā)現(xiàn),將ICBAM模塊嵌入在YOLOv5s骨干網(wǎng)絡(luò)中,mAP 為97.01%,與原YOLOv5s 相比提升了2.78 個(gè)百分點(diǎn),檢測(cè)精度有了明顯的提升;而將ICBAM 模塊嵌入在多尺度特征融合模塊時(shí),mAP 為94.27%,模型參數(shù)增加了8.8×105,對(duì)模型產(chǎn)生的影響很??;最后,將ICBAM模塊嵌入到Y(jié)OLOv5s的預(yù)測(cè)端時(shí),mAP為95.18%,模型參數(shù)增加了1.34×106。經(jīng)過(guò)對(duì)比可以得出,將ICBAM 模塊融合到Y(jié)OLOv5s 骨干網(wǎng)絡(luò)中,可以最有效地增強(qiáng)實(shí)例上特征層的語(yǔ)義信息,網(wǎng)絡(luò)會(huì)更加關(guān)注隱藏在底層的容易被忽略的目標(biāo)。圖6 展示了將ICBAM 注意力機(jī)制模塊分別嵌入到Y(jié)OLOv5s 的骨干網(wǎng)絡(luò)、多尺度特征融合模塊、預(yù)測(cè)端三個(gè)區(qū)域后的網(wǎng)絡(luò)結(jié)構(gòu)。

        圖6 ICBAM模塊嵌入YOLOv5s不同區(qū)域后的三種結(jié)構(gòu)Fig.6 Three structures of ICBAM module embedded in different areas of YOLOv5s

        為了進(jìn)一步驗(yàn)證本文改進(jìn)后CBAM 注意力機(jī)制模塊的性能,將其分別與僅有通道域的ECA 注意力機(jī)制模塊和改進(jìn)前同時(shí)擁有通道域和空間域的CBAM注意力機(jī)制模塊做了對(duì)比實(shí)驗(yàn),結(jié)果如表5所示。

        分析表5的數(shù)據(jù)可知,當(dāng)YOLOv5s網(wǎng)絡(luò)中加入ECA注意力機(jī)制模塊時(shí),與原YOLOv5s網(wǎng)絡(luò)相比,參數(shù)增加了1.09×106,mAP 提升了0.85 個(gè)百分點(diǎn),由此說(shuō)明添加通道注意力可以使模型更加精準(zhǔn)地定位目標(biāo)。而將改進(jìn)前的CBAM 模塊加入到Y(jié)OLOv5s 網(wǎng)絡(luò)時(shí),模型參數(shù)增加了1.7×105,mAP提升了1.66個(gè)百分點(diǎn),精準(zhǔn)率比加入ECA 模塊時(shí)更高,這意味著在注意力機(jī)制模塊中添加空間注意更有助于手語(yǔ)識(shí)別。最后,將ICBAM 模塊加入到Y(jié)OLOv5s 網(wǎng)絡(luò)中,盡管附加了1.33×106模型參數(shù),但是mAP 比原YOLOv5s 網(wǎng)絡(luò)高出了2.78 個(gè)百分點(diǎn)。上述實(shí)驗(yàn)表明,改進(jìn)后的CBAM 注意力機(jī)制同時(shí)具有空間注意和通道注意,可以有效地提高網(wǎng)絡(luò)檢測(cè)的準(zhǔn)確率,更適用于手語(yǔ)識(shí)別任務(wù)。

        表5 不同注意力機(jī)制對(duì)比結(jié)果Table 5 Comparison of different attention mechanisms

        3.3.3 不同損失函數(shù)對(duì)比

        此小節(jié)通過(guò)對(duì)比實(shí)驗(yàn)來(lái)驗(yàn)證Cross Entropy Loss與Lovasz-Softmax Loss加權(quán)結(jié)合使用,是否能夠使改進(jìn)后的YOLOv5s網(wǎng)絡(luò)更加穩(wěn)定平滑地收斂。為了能更清晰地展現(xiàn)實(shí)驗(yàn)結(jié)果,將只具有Cross Entropy Loss 函數(shù)的模型稱(chēng)為CEL-YOLOv5s,只具有Lovasz-Softmax Loss函數(shù)的模型稱(chēng)為L(zhǎng)SL-YOLOv5s,具有Cross Entropy Loss與Lovasz-Softmax Loss 加權(quán)結(jié)合損失函數(shù)的模型稱(chēng)為CELS-YOLOv5s,損失曲線對(duì)比圖如圖7所示。

        圖7 損失曲線對(duì)比圖Fig.7 Loss curve comparison chart

        分析圖7可以看出,30次epoch后,三個(gè)網(wǎng)絡(luò)模型都開(kāi)始逐漸收斂。首先,CEL-YOLOv5s 模型收斂后的損失值在0.060~0.100 之間波動(dòng),并且其Loss 值普遍高于LSL-YOLOv5s 和CELS-YOLOv5s,損失波動(dòng)嚴(yán)重。其次,LSL-YOLOv5s 模型收斂后,其損失波動(dòng)范圍在0.020~0.048 之間,損失值的大小下降頗多,但是其訓(xùn)練過(guò)程仍有振蕩的現(xiàn)象,平穩(wěn)性的提升程度依然有限。最后,CELS-YOLOv5s 模型收斂后的損失值的大小與LSL-YOLOv5s 損失值的大小相當(dāng),但是損失波動(dòng)范圍在0.018~0.030之間,損失波動(dòng)范圍縮小,使得網(wǎng)絡(luò)收斂地更加平滑穩(wěn)定,在保證網(wǎng)絡(luò)快速收斂的情況下,最大限度地優(yōu)化了網(wǎng)絡(luò)的穩(wěn)定性,適用于手部動(dòng)作等小范圍的變化目標(biāo)。

        3.3.4 不同網(wǎng)絡(luò)模型對(duì)比實(shí)驗(yàn)

        最后,為了驗(yàn)證本文提出的改進(jìn)YOLOv5s 模型的高效性,將其與同類(lèi)型單階段網(wǎng)絡(luò)YOLOv3[22]、YOLOv4、SSD 進(jìn)行對(duì)比,同時(shí),加入雙階段網(wǎng)絡(luò)Faster RCNN[23],對(duì)測(cè)試結(jié)果進(jìn)行多元分析,得到結(jié)果如表6 所示。改進(jìn)的YOLOv5s 模型的參數(shù)規(guī)模遠(yuǎn)小于YOLOv3 和YOLOv4模型的參數(shù)規(guī)模,mAP50值為97.67%,比后兩個(gè)模型分別高出了7.66個(gè)百分點(diǎn)和5.54個(gè)百分點(diǎn),說(shuō)明本文改進(jìn)后的YOLOv5s模型在準(zhǔn)確識(shí)別手語(yǔ)動(dòng)作方面有較大的優(yōu)勢(shì)。與不同系列但同為單階段網(wǎng)絡(luò)的SSD比較,本文改進(jìn)后的YOLOv5 模型仍具有明顯的優(yōu)勢(shì),模型參數(shù)比其低1.62×107,mAP50 值比其高14.07 個(gè)百分點(diǎn)。而雙階段檢測(cè)網(wǎng)絡(luò)模型Faster RCNN,與其他算法比較,其mAP50 值過(guò)低,并且其模型參數(shù)過(guò)大,檢測(cè)速度較慢,對(duì)硬件設(shè)備要求較高。最后,通過(guò)對(duì)比實(shí)驗(yàn)可以得出,本文改進(jìn)的YOLOv5s 網(wǎng)絡(luò)模型有較高的準(zhǔn)確率,可以更有效地進(jìn)行手語(yǔ)識(shí)別,實(shí)現(xiàn)了更好的檢測(cè)性能。

        表6 不同網(wǎng)絡(luò)的對(duì)比實(shí)驗(yàn)測(cè)試結(jié)果Table 6 Comparative experimental test results of different networks

        3.4 消融實(shí)驗(yàn)

        此節(jié)對(duì)本文提出的改進(jìn)YOLOv5s 模型進(jìn)行消融實(shí)驗(yàn)以驗(yàn)證各模塊的有效性,其結(jié)果如表7所示。分析表7中的數(shù)據(jù)可以得出,首先將改進(jìn)后的CBAM模塊加入到Y(jié)OLOv5s的骨干網(wǎng)絡(luò)中,模型參數(shù)增加了1.33×106,mAP50 值升高了2.78 個(gè)百分點(diǎn),雖然附加了少量的參數(shù),但是使得網(wǎng)絡(luò)檢測(cè)的精準(zhǔn)率有比較明顯的提升,在一定程度上緩解了因背景復(fù)雜而出現(xiàn)的手語(yǔ)動(dòng)作誤檢、漏檢等問(wèn)題。其次,應(yīng)用K-means++算法提高先驗(yàn)錨框的尺寸匹配度,模型參數(shù)沒(méi)有發(fā)生太大的變化,mAP50值提升了0.23個(gè)百分點(diǎn),有效地提升了先驗(yàn)錨框與實(shí)際物體的匹配度。最后,將Cross Entropy Loss和Lovasz-Softmax Loss加權(quán)結(jié)合應(yīng)用在網(wǎng)絡(luò)中,對(duì)模型參數(shù)也幾乎沒(méi)有產(chǎn)生影響,mAP50值在之前的基礎(chǔ)上提升了0.43個(gè)百分點(diǎn),與原YOLOv5s 模型相比mAP50 值整體提高了3.44個(gè)百分點(diǎn)。

        表7 消融實(shí)驗(yàn)測(cè)試結(jié)果Table 7 Test results of ablation

        同時(shí),圖8 更清晰地展現(xiàn)了改進(jìn)前后YOLOv5s 網(wǎng)絡(luò)在訓(xùn)練過(guò)程中損失曲線和精度曲線的變化。在圖8(a)中,改進(jìn)YOLOv5s 曲線在原YOLOv5s 曲線下方,這說(shuō)明改進(jìn)的YOLOv5s 網(wǎng)絡(luò)損失值更低,同時(shí)前者曲線發(fā)生拐點(diǎn)的時(shí)間比后者曲線更早并且在100次Epoch后變得更加光滑,這表明改進(jìn)的YOLOv5s網(wǎng)絡(luò)可以更快、更平穩(wěn)地收斂。從圖8(b)中可以看出,改進(jìn)的YOLOv5s曲線在原YOLOv5s曲線上方,這意味著改進(jìn)的YOLOv5s網(wǎng)絡(luò)的檢測(cè)精度整體高于原YOLOv5s 網(wǎng)絡(luò),并且改進(jìn)后網(wǎng)絡(luò)的學(xué)習(xí)曲線平滑了許多,這說(shuō)明改進(jìn)YOLOv5s網(wǎng)絡(luò)的訓(xùn)練過(guò)程的穩(wěn)定性更好。從總體上來(lái)說(shuō),本文改進(jìn)后的YOLOv5s網(wǎng)絡(luò)具有較高的準(zhǔn)確率,優(yōu)化了手語(yǔ)網(wǎng)絡(luò)檢測(cè)性能,能夠較好地滿足實(shí)際手語(yǔ)識(shí)別應(yīng)用的需求。

        圖8 損失和準(zhǔn)確率變化曲線Fig.8 Loss and accuracy curves

        3.5 檢測(cè)結(jié)果分析

        本文改進(jìn)YOLOv5s網(wǎng)絡(luò)模型后的檢測(cè)結(jié)果的混淆矩陣如圖9所示。從圖中可以看出,大部分?jǐn)?shù)據(jù)落于對(duì)角線上,且數(shù)值較高,說(shuō)明本文改進(jìn)后的YOLOv5s網(wǎng)絡(luò)精準(zhǔn)率較高。但是偶爾也會(huì)出現(xiàn)錯(cuò)誤檢測(cè)的問(wèn)題,例如將字母I檢測(cè)為字母F,將字母M檢測(cè)為字母N,這是因?yàn)椴煌帜甘终Z(yǔ)動(dòng)作相像或者需要變化動(dòng)作表示的字母都有可能被誤測(cè),后期仍需對(duì)數(shù)據(jù)集和網(wǎng)絡(luò)進(jìn)行優(yōu)化。

        圖9 混淆矩陣Fig.9 Confusion matrix

        為了進(jìn)一步展示本文改進(jìn)YOLOv5s網(wǎng)絡(luò)在手語(yǔ)動(dòng)作方面的檢測(cè)效果,從測(cè)試集中隨機(jī)選取了不同類(lèi)型的手語(yǔ)動(dòng)作圖片進(jìn)行測(cè)試,改進(jìn)YOLOv5s 網(wǎng)絡(luò)前后的對(duì)比檢測(cè)結(jié)果如圖10所示。圖10(a)為YOLOv5s的檢測(cè)結(jié)果,圖10(b)是本文改進(jìn)后的YOLOv5s網(wǎng)絡(luò)模型檢測(cè)結(jié)果。從圖10(a)中可以發(fā)現(xiàn),在復(fù)雜的環(huán)境背景下,YOLOv5s 出現(xiàn)了檢測(cè)錯(cuò)誤的情況,誤將背景檢測(cè)成了手語(yǔ)動(dòng)作。而在圖10(b)中,本文改進(jìn)后的YOLOv5s網(wǎng)絡(luò)模型沒(méi)有受到背景變化的影響,準(zhǔn)確地檢測(cè)出圖像中的手語(yǔ)動(dòng)作,并且置信度也更高。通過(guò)兩圖的對(duì)比可以得出,本文改進(jìn)后的YOLOv5s 網(wǎng)絡(luò)模型檢測(cè)結(jié)果更精準(zhǔn),這說(shuō)明改進(jìn)后的網(wǎng)絡(luò)對(duì)復(fù)雜的環(huán)境具有良好的適應(yīng)性,能夠捕捉到關(guān)鍵的信息,具有更好的泛化能力[24]。

        圖10 改進(jìn)YOLOv5s與原YOLOv5s檢測(cè)結(jié)果對(duì)比Fig.10 Detection results comparison of improved YOLOv5s and original YOLOv5s

        4 結(jié)束語(yǔ)

        針對(duì)健全人士與聽(tīng)障人士交互信息困難的問(wèn)題,本文提出了一種改進(jìn)YOLOv5s 網(wǎng)絡(luò)模型的手語(yǔ)識(shí)別網(wǎng)絡(luò)。首先將改進(jìn)的注意力機(jī)制CBAM 模塊融合到Y(jié)OLOv5s的骨干網(wǎng)絡(luò)中,使模型做出更加準(zhǔn)確的判斷;隨后應(yīng)用K-means++算法提高網(wǎng)絡(luò)先驗(yàn)錨框的尺寸匹配度;最后將Cross Entropy Loss和Lovasz-Softmax Loss加權(quán)結(jié)合應(yīng)用在YOLOv5s 網(wǎng)絡(luò)模型中,得到更適用于手語(yǔ)識(shí)別的網(wǎng)絡(luò)模型。在消融實(shí)驗(yàn)中,本文改進(jìn)的YOLOv5s 網(wǎng)絡(luò)模型與原YOLOv5s 網(wǎng)絡(luò)模型相比,mAP提高了3.44個(gè)百分點(diǎn),具有較高的精準(zhǔn)率。本文改進(jìn)的YOLOv5s 網(wǎng)絡(luò)模型,能夠較好地滿足實(shí)際生活中手語(yǔ)識(shí)別應(yīng)用的需求,并且可以有效地避免聽(tīng)障人士被社會(huì)孤立,解決健全人士與聽(tīng)障人士交流溝通的問(wèn)題。

        猜你喜歡
        手語(yǔ)注意力聚類(lèi)
        讓注意力“飛”回來(lái)
        自然手語(yǔ)在聾人大學(xué)生手語(yǔ)中的使用調(diào)查研究——以南京特殊教育師范學(xué)院為例
        活力(2019年15期)2019-09-25 07:23:06
        基于DBSACN聚類(lèi)算法的XML文檔聚類(lèi)
        “揚(yáng)眼”APP:讓注意力“變現(xiàn)”
        A Beautiful Way Of Looking At Things
        基于改進(jìn)的遺傳算法的模糊聚類(lèi)算法
        奇怪的手語(yǔ)圖
        一種層次初始的聚類(lèi)個(gè)數(shù)自適應(yīng)的聚類(lèi)方法研究
        奇怪的手語(yǔ)圖
        自適應(yīng)確定K-means算法的聚類(lèi)數(shù):以遙感圖像聚類(lèi)為例
        久久精品免费中文字幕| 成人在线观看av毛片| 人妻一区二区三区在线看| 久久精品国产99国产精品澳门| 成人综合网站| 欧美黑人疯狂性受xxxxx喷水| 在线天堂中文一区二区三区| 日本一区二区三区的免费视频观看| 亚洲av成熟国产精品一区二区| 日本一区二区视频免费在线看| 男人边做边吃奶头视频| 免费女人高潮流视频在线观看| 国产亚洲精品美女久久久| 国产精品久久毛片av大全日韩 | 亚洲制服无码一区二区三区 | 求网址日韩精品在线你懂的| 中文字幕在线看精品乱码 | 少妇久久久久久被弄到高潮| 精品国产av无码一道| 在线观看免费人成视频国产| 与最丰满美女老师爱爱视频| 中国美女a级毛片| 毛茸茸的中国女bbw| 国产美女被遭强高潮露开双腿| 国产另类av一区二区三区| 亚洲av丰满熟妇在线播放| 性欧美牲交xxxxx视频欧美| 久久国产成人免费网站| 久久99亚洲综合精品首页| av免费在线播放一区二区| 日韩精品无码一区二区三区| 护士人妻hd中文字幕| 亚洲中文字幕无码久久2018| 俺来也三区四区高清视频在线观看 | 亚洲sm另类一区二区三区| 亚洲欧美日韩另类精品一区| 牛鞭伸入女人下身的真视频| 亚洲中文字幕精品一区二区 | 亚洲国产日韩精品一区二区三区| 狠狠噜天天噜日日噜| 在线日本高清日本免费|