謝淋東,仲志丹,喬棟豪,高辛洪
(河南科技大學(xué) 機(jī)電工程學(xué)院,河南 洛陽(yáng) 471003)
近年來(lái),視覺(jué)識(shí)別技術(shù)飛速發(fā)展并廣泛地應(yīng)用于手勢(shì)識(shí)別中[1-2]。手勢(shì)分為靜態(tài)與動(dòng)態(tài)兩種,由于動(dòng)態(tài)手勢(shì)識(shí)別難度較高、實(shí)時(shí)性較差且可識(shí)別的手勢(shì)數(shù)量較少,無(wú)法滿足大量繁雜信息輸入的需求,所以目前的主要研究方向是靜態(tài)手勢(shì)的識(shí)別。用于靜態(tài)手勢(shì)識(shí)別方法大體分為兩種:一是基于傳統(tǒng)圖像特征和機(jī)器學(xué)習(xí)的方法[3],此類(lèi)方法難以從復(fù)雜的背景中提取到有代表性的語(yǔ)義信息,識(shí)別精度普遍偏低。二是基于深度學(xué)習(xí)[4-5]的方法,如R-CNN(region with convolutional neural network)[6]模型、R-FCN(region-based fully convolutional networks)[7]模型、Faster R-CNN[8]模型、YOLO(you only look once)[9]模型、SSD[10]模型等,其中SSD模型因其具有較好的識(shí)別效果而備受青睞。然而SSD算法用于中小占比目標(biāo)識(shí)別時(shí),識(shí)別效果一般,因此,很多學(xué)者改進(jìn)了SSD算法,例如Wen等[11]提出了一種改進(jìn)的SSD算法,即加入了Atrous[12]濾波器、SeLU激活函數(shù)以及引入一種數(shù)據(jù)規(guī)則來(lái)提高識(shí)別精度與速度。Tang等[13]基于原始的SSD算法,提出了一種多視窗的處理特征圖的方法,該方法利用多個(gè)窗口多個(gè)通路檢測(cè)中小占比目標(biāo),但由于目標(biāo)的拆分,該方法存在魯棒性低等問(wèn)題。Fu等引入了一種特征提取能力更強(qiáng)的改進(jìn)型網(wǎng)絡(luò),提出了DSSD(deconvolutional single shot detector)模型,與原有的SSD模型相比,特征融合能力有所加強(qiáng),識(shí)別精度有所提高,但計(jì)算復(fù)雜度更高,從而存在耗時(shí)長(zhǎng)等問(wèn)題。
該文基于SSD模型,引入特征融合思想,以提高模型的語(yǔ)義表征能力,同時(shí),改進(jìn)了損失函數(shù),以提高目標(biāo)的分類(lèi)能力。
SSD算法用于目標(biāo)識(shí)別時(shí),以特征提取為基本思想,以金字塔特征結(jié)構(gòu)進(jìn)行信息的目標(biāo)識(shí)別。在VGG16網(wǎng)絡(luò)中,每一級(jí)的卷積特征圖用作本層的特征信息,即每一級(jí)卷積層的特征圖始終描述著該層獨(dú)有的特征信息,由于相鄰的兩個(gè)卷積層是相互獨(dú)立的,從而忽視了對(duì)其他層的特征信息進(jìn)行補(bǔ)充。
針對(duì)SSD算法存在的問(wèn)題,該文提出了一種多尺度卷積特征融合的SSD手勢(shì)識(shí)別算法。該算法基于原有SSD模型中多尺度卷積檢測(cè)方法,同時(shí)引入了不同卷積層的特征融合思想,將新融合成的特征層代替原有的卷積層用做目標(biāo)識(shí)別。此外,為了提升模型對(duì)目標(biāo)手勢(shì)的分類(lèi)能力,提出一種改進(jìn)的損失函數(shù)。
在手勢(shì)識(shí)別過(guò)程中,手勢(shì)的特征圖通過(guò)卷積、池化等操作后,很可能出現(xiàn)深層語(yǔ)義特征層出現(xiàn)信息丟失的情況,最主要原因是僅有conv4_3層用于識(shí)別小占比目標(biāo),導(dǎo)致特征提取不充分,一旦某一級(jí)的卷積層信息出現(xiàn)丟失,則與此相關(guān)聯(lián)的另一卷積層也將受到影響,因此為了減少此類(lèi)影響,采用空洞卷積操作[14]??斩淳矸e操作能擴(kuò)大卷積核的感受野范圍,且保證參數(shù)個(gè)數(shù)不變,進(jìn)行空洞卷積操作的特征層將學(xué)習(xí)到更多的上下文語(yǔ)義信息。
卷積核的感受野可由如下計(jì)算式得到:
Fdi=[2(di/2)+2-1]×[2(di/2)+2-1]
(1)
其中,di(dilation)表示空洞卷積操作時(shí)的不同擴(kuò)張值,即卷積核計(jì)算出的半徑值,F(xiàn)di表示不同感受野??梢钥闯?,隨著dilation的增加,感受野明顯擴(kuò)大。
因此,通過(guò)空洞卷積操作,將淺層視覺(jué)特征層進(jìn)行空洞卷積下采樣操作,與高層的特征層作融合處理,并且保持通道數(shù)不變,以及進(jìn)行尺度的歸一化處理。
在SSD模型中,中高層的特征圖具有更豐富的語(yǔ)義信息,而在識(shí)別中小占比的目標(biāo)時(shí),淺層特征層所能學(xué)習(xí)到的語(yǔ)義信息有限,從而影響對(duì)此類(lèi)目標(biāo)的識(shí)別精度。因此,為了讓模型能夠?qū)W習(xí)到更多的上下文信息,采用反卷積操作。卷積操作實(shí)現(xiàn)的是對(duì)高維數(shù)據(jù)進(jìn)行低維特征提取,而反卷積操作與卷積操作的作用相反,它能夠?qū)⒌途S度特征映射成高維輸入。
反卷積操作利用轉(zhuǎn)置后的卷積核對(duì)特征圖像進(jìn)行處理,通過(guò)對(duì)輸入的特征圖像進(jìn)行填充補(bǔ)零,使得輸出的特征圖像尺寸大于輸入圖像的尺寸,最終能夠?qū)⑻卣鲌D像擴(kuò)大到原圖像的大小。假設(shè)輸入圖像大小為i、輸出圖像大小為o、邊緣擴(kuò)充為q、卷積核大小為w、步長(zhǎng)為p,通過(guò)卷積操作輸出的特征圖計(jì)算公式為:
o=[(i+2q-w)/p]+1
(2)
通過(guò)反卷積操作可將特征圖還原到原圖像大小,計(jì)算公式為:
I=p(o-1)+w-2q
(3)
因此,通過(guò)反卷積操作擴(kuò)大了卷積運(yùn)算之后輸入的特征圖的尺寸,同時(shí)也保留了更多的特征信息,提高了模型的特征表達(dá)能力。
該算法將利用在卷積層之后引入反卷積網(wǎng)絡(luò)以實(shí)現(xiàn)上采樣并學(xué)習(xí)的思想,實(shí)現(xiàn)將具有更豐富的語(yǔ)義的高層特征層融入到淺層特征層中,代替原有的淺層特征層用于手勢(shì)識(shí)別,且保持通道數(shù)不變,并對(duì)其進(jìn)行歸一化處理。
針對(duì)原始的SSD算法中網(wǎng)絡(luò)結(jié)構(gòu)忽略了層與層之間的聯(lián)系,提出一種新的基于特征融合的網(wǎng)絡(luò)結(jié)構(gòu)。首先,基于原有的VGG16架構(gòu),將conv4_3_c,conv7_c,conv8_2_c,conv9_2_c, conv10_2_c,conv11_2_c設(shè)置為預(yù)測(cè)的新特征層,之后,使用空洞卷積下采樣操作將淺層特征層融入到深層特征層中,從而使得模型能夠?qū)W習(xí)到更多的中小占比的目標(biāo)信息??紤]到深層特征層所含語(yǔ)義信息較豐富的特點(diǎn),通過(guò)引入反卷積網(wǎng)絡(luò)實(shí)現(xiàn)上采樣與學(xué)習(xí)的特征,將深層特征層融入到淺層特征層中。
基于上述思想,新融合的低特征層conv4_3_c由兩部分組成,第一部分使用擴(kuò)張值為1,步長(zhǎng)為1,大小為3×3的卷積核,通過(guò)conv4_3層自身的卷積運(yùn)算得到256個(gè)38×38的特征圖,這些特征圖的尺寸未發(fā)生變化。第二部分,使用大小為2×2,步長(zhǎng)為2,擴(kuò)張值為0的卷積核,通過(guò)conv7的反卷積上采樣操作得到256個(gè)38×38的特征圖,并且這些特征圖的尺寸增加了一倍。
新融合的特征層conv7_c由三部分構(gòu)成,第一部分使用大小為3×3,步長(zhǎng)為2,擴(kuò)張值為2的卷積核,由conv4_3通過(guò)空洞卷積下采樣操作生成256個(gè)19×19的特征圖,這些特征圖的尺寸縮小了一半。
第二部分使用步長(zhǎng)為1,擴(kuò)張值為1,尺寸為3×3的卷積核,由conv7通過(guò)自身的卷積運(yùn)算得到512個(gè)19×19的特征圖,此部分的特征圖的尺寸不變。第三部分使用步長(zhǎng)為2,擴(kuò)張值為1,尺寸為3×3的卷積核,由conv8_2通過(guò)反卷積上采樣操作得到的256個(gè)19×19的特征圖,特征圖增大了一倍。
新融合的conv8_2_c特征層與conv7_c融合類(lèi)似,由三個(gè)部分構(gòu)成,其中:第一部分使用尺寸為3×3,步長(zhǎng)為2,擴(kuò)張值為2的卷積核,由conv7通過(guò)空洞卷積下采樣方式生成,所得的特征圖尺寸縮小了一半。第二部分使用步長(zhǎng)為1,擴(kuò)張值為1,尺寸為3×3的卷積核,通過(guò)自身卷積操作得到。第三部分使用大小為2×2,步長(zhǎng)值為2,擴(kuò)張值為0的卷積核,由conv9_2_c通過(guò)反卷積上采樣操作提供的,特征圖尺寸增加一倍。
由于從conv9_2特征層開(kāi)始,每個(gè)特征層尺度過(guò)小,自身包含的語(yǔ)義信息較強(qiáng),所以,在保證算法精度的情況下應(yīng)更多地考慮算法的檢測(cè)速度,因此對(duì)conv9_2層之后的特征層不做特征融合操作。新的網(wǎng)絡(luò)結(jié)構(gòu)如圖1所示。
圖1 新的網(wǎng)絡(luò)結(jié)構(gòu)
為了提高特征層的融合效果,對(duì)經(jīng)過(guò)融合處理之后的特征層,加入BatchNorm層[15]用以計(jì)算不同特征圖之間的偏差,再用Scale運(yùn)算進(jìn)行歸一化處理。針對(duì)特征融合處理的特征層維度不相等的問(wèn)題,使用1×1大小的卷積核進(jìn)行降維處理,之后再經(jīng)過(guò)一次BatchNorm運(yùn)算,最終得到的結(jié)果作為該特征層的特征輸出。
SSD算法的損失函數(shù)是根據(jù)預(yù)測(cè)部分的輸出結(jié)果來(lái)設(shè)計(jì)的,其損失函數(shù)由置信度損失Lconf和位置損失Lloc組成,公式如下:
L(y,f,c,r)=n(Lconf(y,f)+βLloc(y,c,r))
(4)
(5)
(6)
其中,n=1/N,N表示與真實(shí)框匹配后的剩余個(gè)數(shù)。Lconf(y,f)表示置信度損失,Lloc(y,c,r)表示位置損失,β是位置損失的整體占比,即權(quán)重,位置損失一般運(yùn)用smoothL1Loss計(jì)算得出;當(dāng)預(yù)測(cè)框與真實(shí)框相互匹配時(shí),y的值設(shè)為1,反之為0;c和r分別表示預(yù)測(cè)框和真實(shí)框的位置信息;f表示預(yù)測(cè)框的目標(biāo)分類(lèi)。
SSD在檢測(cè)過(guò)程中,檢測(cè)框所能檢測(cè)到的目標(biāo)時(shí)為正樣本,反之則為負(fù)樣本,對(duì)于中小占比的目標(biāo)手勢(shì)而言,在一張圖像中,目標(biāo)手勢(shì)的占比很小,正樣本數(shù)量遠(yuǎn)小于負(fù)樣本數(shù)量,直接導(dǎo)致了分類(lèi)性能差等問(wèn)題,從而影響檢測(cè)的精度與速度。因此,針對(duì)由于正負(fù)樣本不平衡導(dǎo)致模型分類(lèi)性能差的問(wèn)題,該文用改進(jìn)的交叉熵?fù)p失函數(shù)IL(pt)代替了Lconf標(biāo)準(zhǔn)的交叉熵?fù)p失函數(shù),公式如下:
CE(pt)=-ln(pt)
(7)
IL(pt)=-(1-βt)ηεln(pt)
(8)
其中,η=(pt-1)2,pt表示不同類(lèi)別的分類(lèi)置信度,且pt∈[0,1]。SI(pt)比CE(pt)多了βt和(1-pt)ε,βt為權(quán)重參數(shù),在傳統(tǒng)模型中βt=0,但很容易導(dǎo)致正負(fù)樣本不均衡的問(wèn)題。為了解決這個(gè)問(wèn)題,對(duì)于正負(fù)樣本的βt值設(shè)定進(jìn)行區(qū)分,對(duì)于負(fù)樣本,需要把βt設(shè)置為一個(gè)較小的值,用來(lái)平衡置信度損失和位置損失的比例。為了優(yōu)化負(fù)樣本的算法學(xué)習(xí)模型,將權(quán)重系數(shù)β設(shè)為0.1。ηε稱(chēng)為調(diào)制項(xiàng),它反映了算法的分類(lèi)能力,且pt∈[0,1],當(dāng)pt的值接近于0時(shí),算法將重點(diǎn)放在難以分類(lèi)的目標(biāo)數(shù)據(jù)上。否則,它將側(cè)重于易于分類(lèi)的目標(biāo)數(shù)據(jù)。如圖2所示,以pt為橫軸,以loss為縱軸,繪制pt與loss的圖像,從圖中可以看出,隨著pt的增加,分類(lèi)手勢(shì)的損失逐漸趨近于0,即損失在總損失中所占的比例越小,并且ε越大,分類(lèi)損失減小的速度越快,分類(lèi)能力越強(qiáng)。
圖2 損失函數(shù)變化
提出的手勢(shì)識(shí)別算法以Python語(yǔ)言作為實(shí)驗(yàn)框架,實(shí)驗(yàn)所使用的計(jì)算機(jī)配置為:Windows 10 64 位操作系統(tǒng),處理器(CPU)型號(hào)為Intel i7,內(nèi)存為16 GB,顯卡(GPU)為NVIDIA GTX1080Ti。實(shí)驗(yàn)中所使用的各個(gè)軟件版本為:Visual Studio 2016、Anaconda3、CUDA 9.0、Python 3.6.4、Tensorflow1.9.0。
最后,在集成環(huán)境上安裝如pandas、nose等Python的第三方庫(kù)及Keras、Tensorflow Research Models 等深度學(xué)習(xí)的API,以降低實(shí)驗(yàn)的實(shí)施難度。
實(shí)驗(yàn)所使用的數(shù)據(jù)集為MSRC-12 Kinect Gesture Dataset及2013 Chalearn Gesture Challenge Dataset,這兩個(gè)數(shù)據(jù)集均是從實(shí)際場(chǎng)景收集得到的,手勢(shì)屬于中小占比目標(biāo)。其中,MSRC-12 Kinect Gesture Dataset數(shù)據(jù)集包含12個(gè)不同手勢(shì),4 900張圖片,從每種手勢(shì)中隨機(jī)選取400張圖片,共4 800張圖片。為了使實(shí)驗(yàn)更有說(shuō)服力,選取數(shù)據(jù)庫(kù)更為龐大,且場(chǎng)景更為復(fù)雜的2013 Chalearn Gesture Challenge Dataset數(shù)據(jù)集,共包含20種不同手勢(shì),圖片總量達(dá)11 000張,每種手勢(shì)隨機(jī)選取400張,共8 000張圖片,最終將兩個(gè)數(shù)據(jù)集的12 800張照片共32種不同手勢(shì),以5∶3∶2的比例劃分為訓(xùn)練集、測(cè)試集和驗(yàn)證集。
訓(xùn)練數(shù)據(jù)經(jīng)過(guò)左右翻轉(zhuǎn)和隨機(jī)采樣實(shí)現(xiàn)數(shù)據(jù)增強(qiáng),隨機(jī)采樣最小的Jaccard overlap值為0.5,訓(xùn)練集與測(cè)試集的尺寸均等比例縮小為300*300大小,使用限制學(xué)習(xí)率的動(dòng)態(tài)自適應(yīng)梯度法[16]來(lái)訓(xùn)練。網(wǎng)絡(luò)訓(xùn)練過(guò)程中,為了使BatchNorm在訓(xùn)練過(guò)程中有穩(wěn)定的計(jì)算結(jié)果,參考文獻(xiàn)[17]及現(xiàn)有的實(shí)驗(yàn)平臺(tái),實(shí)驗(yàn)開(kāi)始時(shí),將batch_size設(shè)置為16,動(dòng)量因子設(shè)置為0.9,初始學(xué)習(xí)速率設(shè)置為10-3,權(quán)重設(shè)置為0.000 5,模型訓(xùn)練的時(shí)候使用回調(diào)函數(shù)觀測(cè)val_loss,耐心值patience設(shè)置為15,當(dāng)val_loss經(jīng)過(guò)15個(gè)epoch不下降時(shí),學(xué)習(xí)速率降低10倍。模型訓(xùn)練過(guò)程中的 training loss如圖3所示,經(jīng)過(guò)144個(gè)epoch訓(xùn)練后learning_rate從10-3降低為10-4,200個(gè)epoch后模型收斂。
圖3 訓(xùn)練損失值
為了驗(yàn)證提出的改進(jìn)算法在對(duì)中小占比手勢(shì)識(shí)別上的可行性和優(yōu)越性,選取了目標(biāo)完整度(COM)、全局精度(Global Acc)、IOU[18]以及FPS作為本次實(shí)驗(yàn)的評(píng)價(jià)指標(biāo)。
其中,目標(biāo)完整度表示預(yù)測(cè)框中標(biāo)記目標(biāo)圖像占整個(gè)圖像的比例;全局精度表示對(duì)目標(biāo)手勢(shì)正確分類(lèi)的結(jié)果;IOU表示錯(cuò)誤識(shí)別的目標(biāo)手勢(shì)的情況,是一種測(cè)量在某一數(shù)據(jù)集中檢測(cè)的相應(yīng)物體準(zhǔn)確度的標(biāo)準(zhǔn);FPS表示處理目標(biāo)圖像的速度,每秒內(nèi)可以處理的圖片數(shù)量。
為了探究訓(xùn)練集對(duì)評(píng)價(jià)指標(biāo)的影響,從訓(xùn)練集中隨機(jī)挑選20%、40%、60%、80%、100%構(gòu)成5個(gè)新的訓(xùn)練集,基于這5個(gè)訓(xùn)練集訓(xùn)練模型,在檢測(cè)集上進(jìn)行檢測(cè),觀察不同訓(xùn)練集上的檢測(cè)效果,檢測(cè)精度如表1所示。
表1 檢測(cè)精度
如表1所示,隨著訓(xùn)練集比例的增加,即訓(xùn)練集數(shù)據(jù)增多,目標(biāo)的檢測(cè)效果也越好,最好的檢測(cè)效果是訓(xùn)練集比例達(dá)100%時(shí)。此外,當(dāng)在比例為60%訓(xùn)練集訓(xùn)練時(shí),檢測(cè)效果已達(dá)到較高的檢測(cè)水平,再往后提高訓(xùn)練集比例,識(shí)別效果提升幅度很小,因此,可以看出該算法具有較強(qiáng)的特征提取能力,在一定比例的訓(xùn)練集上,就能達(dá)到較好的檢測(cè)效果,從而驗(yàn)證其具有較高的魯棒性等特點(diǎn)。
為了更好地驗(yàn)證識(shí)別效果,選出常用于目標(biāo)檢測(cè)識(shí)別的Faster R-CNN算法、YOLO算法與SSD算法與文中算法(Our1)作對(duì)比,此外,分別對(duì)僅改進(jìn)了網(wǎng)絡(luò)結(jié)構(gòu)的算法(Our2)與僅改進(jìn)了損失函數(shù)的算法(Our3)驗(yàn)證改進(jìn)效果。該實(shí)驗(yàn)在100%比例的訓(xùn)練集上訓(xùn)練模型,最終在測(cè)試集上觀察測(cè)試效果,測(cè)試結(jié)果如表2所示,圖4為文中算法對(duì)部分?jǐn)?shù)據(jù)集測(cè)試的效果圖。
表2 不同算法的測(cè)試結(jié)果
圖4 檢測(cè)效果
如表2所示,在目標(biāo)完整度(COM)、全局精度(Global Acc)、IOU這三個(gè)指標(biāo)中,F(xiàn)aster R-CNN識(shí)別效果最佳,文中所提出的方法識(shí)別精度與其相當(dāng),而SSD算法與YOLO算法在用于中小占比的手勢(shì)檢測(cè)中,識(shí)別精度較為一般,即通過(guò)多尺度卷積特征融合的方式改進(jìn)SSD模型的網(wǎng)絡(luò)結(jié)構(gòu),一定程度上能夠提高識(shí)別精度。對(duì)于與檢測(cè)速度有關(guān)的FPS指標(biāo),SSD算法的FPS值最高,為40,文中算法為31,即在進(jìn)行特征融合時(shí),一定程度上會(huì)增加網(wǎng)絡(luò)的復(fù)雜度,從而影響模型的檢測(cè)速度,此外,檢測(cè)精度最高的Faster R-CNN卻為9,檢測(cè)目標(biāo)圖像的速度最慢,YOLO算法檢測(cè)速度較為一般。
綜合這四項(xiàng)指標(biāo)及實(shí)際場(chǎng)景中對(duì)手勢(shì)識(shí)別有著較高的識(shí)別精度與識(shí)別速度的需要,文中算法最優(yōu),即使Faster R-CNN算法的識(shí)別精度高,但卻是以犧牲大量的檢測(cè)速度實(shí)現(xiàn)的。為了提高對(duì)中小占比手勢(shì)目標(biāo)的識(shí)別精度,對(duì)SSD網(wǎng)絡(luò)結(jié)構(gòu)的卷積層進(jìn)行空洞卷積操作與反卷積操作,將部分特征層進(jìn)行融合,構(gòu)建新的融合網(wǎng)絡(luò)結(jié)構(gòu)以代替原有的VGG-16網(wǎng)絡(luò)結(jié)構(gòu)用于手勢(shì)識(shí)別,同時(shí),在檢測(cè)中小目標(biāo)時(shí),正負(fù)樣本不均衡導(dǎo)致的分類(lèi)性能差,從而影響檢測(cè)精度與速度,對(duì)此改進(jìn)了損失函數(shù),將改進(jìn)的交叉熵?fù)p失函數(shù)IL(pt)代替Lconf標(biāo)準(zhǔn)的交叉熵?fù)p失函數(shù),以此提高了網(wǎng)絡(luò)對(duì)目標(biāo)手勢(shì)的分類(lèi)能力。對(duì)于conv_9_c層之后的語(yǔ)義信息較豐富的卷積層不做特征融合處理,以減輕網(wǎng)絡(luò)的冗雜度達(dá)到輕量化的目的,但也因此犧牲部分的檢測(cè)精度。
為了使模型更具有說(shuō)服力,分別測(cè)試了僅改進(jìn)網(wǎng)絡(luò)結(jié)構(gòu)的算法(Our2)與僅改進(jìn)損失函數(shù)的算法(Our3),對(duì)于Our2算法,主要通過(guò)特征融合的思想提高目標(biāo)的識(shí)別精度,與SSD算法相比,較大程度提高了識(shí)別精度,但也犧牲了部分識(shí)別速度,而對(duì)于Our3算法,通過(guò)改進(jìn)損失函數(shù),提高模型的分類(lèi)性能,與SSD算法相比,一定程度提高識(shí)別精度的同時(shí),提高了模型的識(shí)別速度。因此,基于SSD網(wǎng)絡(luò)架構(gòu),通過(guò)改進(jìn)網(wǎng)絡(luò)結(jié)構(gòu)與改進(jìn)的損失函數(shù),均能在對(duì)中小占比的目標(biāo)識(shí)別過(guò)程中,保證一定水平的檢測(cè)速度,同時(shí)提高目標(biāo)識(shí)別精度。
提出了一種多尺度卷積特征融合的SSD手勢(shì)識(shí)別方法。在原始的SSD多尺度特征卷積的基礎(chǔ)上,引入了特征融合的思想,即對(duì)淺層視覺(jué)特征層與高層語(yǔ)義特征層作融合處理,以此使模型能夠?qū)W習(xí)到更多的特征信息,提高模型對(duì)中小占比手勢(shì)的識(shí)別精度,此外,提出一種改進(jìn)的損失函數(shù),使模型更側(cè)重于分類(lèi)損失,以便該算法更好地完成分類(lèi)任務(wù)。在實(shí)際應(yīng)用場(chǎng)合中,對(duì)于手勢(shì)識(shí)別系統(tǒng)有著識(shí)別精度高和魯棒性好的需求,提出的方法能夠在保證較高水平的檢測(cè)速度的同時(shí),具有更高的檢測(cè)精度與魯棒性。