胡宗承,周亞同,史寶軍,何 昊
(1.河北工業(yè)大學(xué) 電子信息工程學(xué)院,天津 300401;2.河北工業(yè)大學(xué) 機(jī)械工程學(xué)院,天津 300401)
手勢(shì)識(shí)別是人機(jī)交互的一個(gè)重要研究方向,在體感游戲、智能家居等場(chǎng)景有著廣泛應(yīng)用。LIAN[1]及YANG 等[2]利用穿戴設(shè)備識(shí)別簡(jiǎn)單手勢(shì),但穿戴設(shè)備使用不便且難以推廣?;谝曈X(jué)的手勢(shì)識(shí)別方法,由于其靈活便捷的優(yōu)勢(shì)成為研究熱點(diǎn)。在深度學(xué)習(xí)成為研究熱點(diǎn)之前,基于視覺(jué)的手勢(shì)識(shí)別的重大突破多是由于使用了人工特征提取方法,如方向梯度直方圖[3-5]、SIFT[6]等。對(duì)特征分類多采用支持向量機(jī)(Support Vector Machine,SVM),如文獻(xiàn)[7]提出一種基于RGB-D 數(shù)據(jù)的手勢(shì)識(shí)別方法,通過(guò)分割手部區(qū)域提取手勢(shì)特征,進(jìn)而使用SVM 進(jìn)行分類。TARVEKAR 等[8]提出一種用于非接觸式的手勢(shì)識(shí)別系統(tǒng),該系統(tǒng)在多種顏色空間中檢測(cè)膚色信息,應(yīng)用皮膚閾值從分割圖像中分割手部區(qū)域,從中提取顏色和邊緣特征,并利用SVM 分類器進(jìn)行手勢(shì)識(shí)別。文獻(xiàn)[9]提出一種基于梯度方向直方圖與局部二值模式融合的手勢(shì)識(shí)別方法,利用主成分分析對(duì)梯度方向直方圖特征描述算法進(jìn)行降維,將降維后的數(shù)據(jù)與局部二值模式特征融合,最后利用SVM 實(shí)現(xiàn)靜態(tài)手勢(shì)識(shí)別。
隨著深度學(xué)習(xí)的發(fā)展,卷積神經(jīng)網(wǎng)絡(luò)逐漸被應(yīng)用于各種領(lǐng)域。文獻(xiàn)[10]通過(guò)Faster RCNN 深度網(wǎng)絡(luò)模型進(jìn)行手勢(shì)識(shí)別,能夠在識(shí)別手勢(shì)的同時(shí)進(jìn)行手勢(shì)檢測(cè)。ZHANG 等[11]采用改進(jìn)的YOLOV3 算法對(duì)靜態(tài)手勢(shì)進(jìn)行識(shí)別,并綜合使用Kinect 設(shè)備采集的4 種信息的優(yōu)勢(shì),利用K-Means 聚類算法對(duì)YOLOV3 候選框參數(shù)進(jìn)行優(yōu)化,以提高手勢(shì)識(shí)別精度。ZHOU 等[12]基于DSSD 算法提出一種靜態(tài)手勢(shì)識(shí)別算法,DSSD 算法中的先驗(yàn)框?qū)捀弑炔⒎鞘謩?dòng)設(shè)定,而是使用K-Means 聚類算法和手肘法共同決定先驗(yàn)框?qū)捀弑?,同時(shí)還利用遷移學(xué)習(xí)解決數(shù)據(jù)量小的問(wèn)題。CHAUDHARY 等[13]提出一個(gè)用于光不變手勢(shì)識(shí)別系統(tǒng)的神經(jīng)網(wǎng)絡(luò),利用方向直方圖提取手勢(shì)特征向量并對(duì)6 類手勢(shì)分類,結(jié)果表明,該網(wǎng)絡(luò)在極端光照強(qiáng)度變化環(huán)境下的總體精度達(dá)到92.86%。ALNUJAIM 等[14]利用手勢(shì)對(duì)天線阻抗產(chǎn)生的變化進(jìn)行分類,并將采集阻抗轉(zhuǎn)化為光譜圖,在采集時(shí)將信號(hào)轉(zhuǎn)變?yōu)閳D像,利用卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行分類。
針對(duì)現(xiàn)有神經(jīng)網(wǎng)絡(luò)模型對(duì)手勢(shì)特征表征不足的問(wèn)題,本文提出一種結(jié)合注意力和特征融合的靜態(tài)手勢(shì)識(shí)別算法。引入注意力機(jī)制對(duì)輸入特征圖進(jìn)行選擇性輸入,并通過(guò)特征融合將高級(jí)特征經(jīng)上采樣與低級(jí)特征相結(jié)合,增強(qiáng)特征表征能力,提高手勢(shì)識(shí)別的分類精度。
注意力機(jī)制研究源于19 世紀(jì)的實(shí)驗(yàn)室心理學(xué),Google DeepMind 團(tuán)隊(duì)提出注意力機(jī)制并將其用在圖片分類中[15]。注意力機(jī)制的本質(zhì)是對(duì)輸入數(shù)據(jù)特定選擇,使網(wǎng)絡(luò)模型更加關(guān)注輸入數(shù)據(jù)中的重要信息,抑制非重要信息。
WANG 等[16]提出殘差注意力網(wǎng)絡(luò),殘差學(xué)習(xí)機(jī)制由多個(gè)注意力模塊堆疊而成,注意力模塊內(nèi)部采用自底向上、自頂向下結(jié)構(gòu)與堆疊的沙漏網(wǎng)絡(luò),能夠快速收集圖像全局信息,并將全局信息與原始特征圖相結(jié)合,但存在計(jì)算量大的問(wèn)題。HU 等[17]提出SENet 網(wǎng)絡(luò),通過(guò)壓縮—激勵(lì)方法使特征圖通道間建立相互依賴關(guān)系,自適應(yīng)調(diào)整特征圖通道權(quán)重。WOO 等[18-19]提出BAM 及CBAM 兩種不同注意力模塊,同時(shí)考慮空間注意力和通道注意力。BAM 在深度神經(jīng)網(wǎng)絡(luò)下采樣前發(fā)揮作用,其中通道注意力模型和空間注意力模型采用并聯(lián)方式。CBAM 通道注意力模型和空間注意力模型采用串聯(lián)方式相結(jié)合,是一個(gè)輕量級(jí)注意力模塊。WANG 等[20]提出一種有效的通道注意力深度卷積神經(jīng)網(wǎng)絡(luò)ECA,通過(guò)借鑒SENet 思想,將全連接層替換為一維卷積,并且采用自適應(yīng)一維卷積對(duì)通道進(jìn)行特征提取,聯(lián)合相鄰?fù)ǖ佬畔?,雖然實(shí)驗(yàn)取得不錯(cuò)結(jié)果,但沒(méi)有引入特征圖空間關(guān)系。WU 等[21]將多通道注意力機(jī)制用于人臉替換的鑒別任務(wù)中,在多通道注意力中融合了全局注意力和局部注意力。LU 等[22]提出一種特征圖注意力機(jī)制用于超分辨率圖像重建,并獲取特征通道間依賴關(guān)系,自適應(yīng)地調(diào)整特征圖通道權(quán)重。
特征融合多用于目標(biāo)檢測(cè)、圖像分割領(lǐng)域中,通常通過(guò)融合多層特征提升檢測(cè)和分割能力。LIN等[23]提出目標(biāo)檢測(cè)的特征金字塔網(wǎng)絡(luò),采用具有橫向連接、自頂向下結(jié)構(gòu)將高層語(yǔ)義特征與低層語(yǔ)義特征相結(jié)合,提高小目標(biāo)檢測(cè)能力。LIU 等[24]提出路徑聚合網(wǎng)絡(luò)(Path Aggregation Network,PANet),采用自底向上的路徑增強(qiáng)方法,以較底層的精確定位信號(hào)增強(qiáng)整個(gè)特征層,縮短較底層與最上層間的信息路徑,并且提出自適應(yīng)特征池化,將特征網(wǎng)絡(luò)與各特征層連接。CAO 等[25]提出一種基于注意力引導(dǎo)的語(yǔ)義特征金字塔網(wǎng)絡(luò)(Attention-guided Context Feature Pynamid Network,ACFPN),利用注意力機(jī)制整合不同大規(guī)模區(qū)域信息。CHEN 等[26]提出基于級(jí)聯(lián)的多層特征融合策略,將淺層特征圖與深層特征圖按通道維度連接,解決小目標(biāo)識(shí)別效果差的問(wèn)題。LI 等[27]針對(duì)目標(biāo)尺度不同的問(wèn)題,采用多尺度融合的思想,構(gòu)建三分支網(wǎng)絡(luò),然后對(duì)低層特征和高層特征進(jìn)行選擇性融合。
本文算法創(chuàng)新點(diǎn)在于提出了一種新的注意力機(jī)制ACAM 及特征圖融合方式CFP。ACAM 綜合特征圖的通道和空間信息,CFP 融合低層和高層特征,有效提高了分類的準(zhǔn)確度。除以上兩點(diǎn)外,本文將ACAM、CFP 運(yùn)用在改進(jìn)的MobileNetV2[28]上,提出了r-mobilenetv2 算法。
本文提出的注意力模塊ACAM 如圖1 所示。ACAM 由通道注意力模型和空間注意力模型兩部分組成。通道注意力模型采用自適應(yīng)一維卷積操作,且在通道注意力模型后添加跳躍連接,將通道注意力模型輸出特征圖F1與空間注意力模型輸出特征圖F2線性相加。假設(shè)初始輸入特征圖F大小為H×W×C,通過(guò)ACAM 中的通道注意力模型可得大小為1×1×C的一維通道注意力特征圖;通過(guò)ACAM 中的空間注意力模型可得大小為H×W×1 的二維空間注意力特征圖。
圖1 自適應(yīng)通道注意力模塊Fig.1 Adaptive convolution attention module
整體注意力過(guò)程如式(1)所示:
其中:CA 為通道注意力模型;SA 為空間注意力模型;F為輸入特征圖;F1為經(jīng)過(guò)通道注意力模型處理后的特征圖;F2為經(jīng)過(guò)空間注意力模型處理后的特征圖;F3為整體注意力模型處理后的重建特征圖。
通道注意力模型采用一維卷積對(duì)特征圖通道信息處理,根據(jù)特征圖通道數(shù)動(dòng)態(tài)選擇卷積核大小。通道注意力模型的工作流程如圖2 所示。首先對(duì)輸入特征圖進(jìn)行壓縮,即在空間方向進(jìn)行壓縮,得到大小為1×1×C的特征圖。然后,根據(jù)特征圖通道數(shù)C,自適應(yīng)選擇一維卷積核大小,并根據(jù)卷積核大小使用一維卷積對(duì)相鄰?fù)ǖ捞卣鬟M(jìn)行處理,增加通道間的相關(guān)性。再將一維卷積處理后的特征圖通過(guò)激活函數(shù)進(jìn)行重建。最后,將一維通道注意力特征圖與輸入特征圖F相乘,輸出為通道注意力輸出特征圖F1。
圖2 通道注意力模型Fig.2 Channel attention model
根據(jù)特征圖共享卷積核的原則,可以推斷通道數(shù)C與一維卷積核kernel-size:k必然存在某種聯(lián)系,即滿足C=?(k)=2(r×k+b)。最基礎(chǔ)假設(shè)從簡(jiǎn)單的線性映射驗(yàn)證該函數(shù),即C=r×k+b,但線性映射表達(dá)性有限。另一方面由于計(jì)算機(jī)是二進(jìn)制,而卷積神經(jīng)網(wǎng)絡(luò)中batch-size、通道維度大多習(xí)慣設(shè)為2n,故設(shè)C=?(k)=2(r×k+b)。采用非線性表示通道數(shù)C與一維卷積核k之間關(guān)系,相較線性關(guān)系有更強(qiáng)的表現(xiàn)型,如式(2)所示:
其中:k為一維卷積核大?。籆為輸入特征圖通道數(shù);r、b為超參數(shù),這里分別取r為2,b為1。
空間注意力模型在通道注意力輸出特征圖F1的基礎(chǔ)上進(jìn)行操作,如圖3 所示。首先沿著通道所在維度方向進(jìn)行均值化處理,得到大小為H×W×1的特征圖。然后對(duì)其進(jìn)行二維卷積操作,得到的特征圖經(jīng)激活函數(shù)激活后輸出為二維空間注意力特征圖。最后,將二維空間注意力特征圖與通道注意力輸出特征圖F1相乘得到空間注意力輸出特征圖F2。
圖3 空間注意力模型Fig.3 Spatial attention model
本文借鑒特征金字塔的思想,提出分類特征金字塔CFP。CFP 的整體結(jié)構(gòu)如圖4 所示,采用橫向連接、自頂向下與自底向上結(jié)合的連接方式。在stage2中高層特征A經(jīng)上采樣和stage1中低層特征B經(jīng)一維卷積后得到的特征圖線性相加,得到特征圖G,特征圖G經(jīng)二維卷積得到特征圖D,特征圖D與高層特征A空間維度匹配后,在通道維度上連接,得到新特征圖E,并送入后序網(wǎng)絡(luò)中分類。
圖4 分類特征金字塔Fig.4 Classification feature pyramid
CFP 主 要分 為stage1、stage2、stage33 個(gè)部分,分別對(duì)應(yīng)特征提取、上采樣、特征融合3 個(gè)方面。在stage1中,采用卷積神經(jīng)網(wǎng)絡(luò)對(duì)輸入數(shù)據(jù)進(jìn)行特征提取,自底而上的特征圖空間維度依次減半,取最上兩層特征圖A、B作為最終特征融合所需特征圖。stage2應(yīng)用stage1中最上層高級(jí)語(yǔ)義特征A進(jìn)行上采樣,經(jīng)上采樣后的特征圖空間尺度變?yōu)樵瓉?lái)2 倍,與stage1中特征圖B在空間維度上匹配。stage1中特征圖B經(jīng)過(guò)1×1 卷積調(diào)整通道數(shù),使其與stage2中特征圖A通道維度相匹配,兩者進(jìn)行簡(jiǎn)單線性相加。stage3將stage2中高分辨率特征圖G經(jīng)卷積操作使空間維度與低分辨率特征圖A 相匹配,并在通道維度連接。最后將融合特征圖E 送入后序網(wǎng)絡(luò)分類。
r-mobilenetv2 在MobileNetV2 基礎(chǔ)上引入ACAM和CFP 的同時(shí),對(duì)原網(wǎng)絡(luò)結(jié)構(gòu)進(jìn)行調(diào)整。具體為,刪除最后一個(gè)輸入尺寸為7×7×160 的Inverted Residuals 模塊,并加入注意力機(jī)制ACAM 和特征融合CFP。
MobileNet 系列[28-30]為輕量級(jí)網(wǎng)絡(luò),雖然相較其他網(wǎng)絡(luò)需要犧牲部分準(zhǔn)確度,但在計(jì)算量和參數(shù)量上有著巨大優(yōu)勢(shì)。在224×224 像素的RGB 圖片上,MobileNetV2 的參數(shù)量?jī)H為VGG16 參數(shù)量的1.72%,是ResNet-18 參數(shù)量的20.63%。故MobileNet系列及變體能夠有效地部署在移動(dòng)端。本文主要對(duì)MobuleNetV2 進(jìn)行改進(jìn)。r-mobilenetv2 的網(wǎng)絡(luò)結(jié)構(gòu)如表1 所示。其中:當(dāng)重復(fù)次數(shù)大于1 時(shí),每組的第一個(gè)bottleneck 中卷積步數(shù)為表中的值,其他默認(rèn)卷積步數(shù)取1。一組bottleneck 構(gòu)成一個(gè)Inverted Residuals 模塊。
表1 r-mobilenetv2 的網(wǎng)絡(luò)結(jié)構(gòu)Table 1 Network structure of r-mobilenetv2
r-mobilenetv2 在 Inverted Residuals 模塊中Strides 等于1 和2 時(shí)的共同部分后添加ACAM,最后在兩個(gè)Inverted Residuals 模塊中引入CFP。加入ACAM 的位置如圖5 所示。
圖5 ACAM 機(jī)制在Inverted Residuals 中的位置Fig.5 Position of ACAM mechanism in Inverted Residuals
本文的實(shí)驗(yàn)硬件環(huán)境為Inter?Xeon?CPU E5-2640 v4@ 2.40 GHz,GPU 為一塊顯存為11 GB 的GTX 1080Ti。軟件環(huán)境為Ubuntu16.04,Keras2.2.2。使用RMSprop 對(duì)網(wǎng)絡(luò)進(jìn)行訓(xùn)練,初始學(xué)習(xí)率為0.001,權(quán)重衰減系數(shù)為1×10-6,batch-size 設(shè)為64,若10 個(gè)epoch 后測(cè)試集準(zhǔn)確率沒(méi)有提升,學(xué)習(xí)率將衰減為原來(lái)的1/10,若30 個(gè)epoch 后測(cè)試集準(zhǔn)確率沒(méi)有提升,則程序停止。
本文在LaRED[31]數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn)測(cè)評(píng)。LaRED 數(shù)據(jù)集共有27 種基礎(chǔ)手勢(shì),含242 900 張圖片。27 種基礎(chǔ)手勢(shì)如圖6 所示,每個(gè)基礎(chǔ)手勢(shì)取3 個(gè)朝向,分別為基礎(chǔ)手勢(shì)、基礎(chǔ)手勢(shì)繞X 軸旋轉(zhuǎn)90°、基礎(chǔ)手勢(shì)繞X/Y 軸各旋轉(zhuǎn)90°的手勢(shì)。從數(shù)據(jù)集中選取部分手勢(shì)如圖7 所示。
圖6 LaRED 數(shù)據(jù)集類別Fig.6 Classification of LaRED date set
圖7 LaRED 數(shù)據(jù)集的部分?jǐn)?shù)據(jù)Fig.7 Partial data of LaRED date set
原始數(shù)據(jù)集是按幀采集的連續(xù)序列,相鄰幀圖片近似,故每15 幀取一張圖片,對(duì)數(shù)據(jù)集進(jìn)行篩選,并只利用數(shù)據(jù)中的RGB 信息。其中,訓(xùn)練集含12 955 張圖片,測(cè)試集含3 239 張圖片。對(duì)于處理好的圖片采取RGB 的方式輸入,去均值后,送到后續(xù)網(wǎng)絡(luò)中進(jìn)行分類。
本文首先在不同網(wǎng)絡(luò)模型上驗(yàn)證所提注意力機(jī)制的適用性,然后在MobileNetV2 網(wǎng)絡(luò)的基礎(chǔ)上添加不同注意力機(jī)制,并與本文所提注意力機(jī)制進(jìn)行對(duì)比,以綜合驗(yàn)證ACAM 的有效性。選取網(wǎng)絡(luò)ResNet-18[32]、ShuffleNetV2[33]、MobileNetV2 進(jìn)行對(duì)比,實(shí)驗(yàn)結(jié)果如表2 所示。
表2 ACAM 在不同網(wǎng)絡(luò)模型上的結(jié)果對(duì)比Table 2 Comparison of ACAM results on different worknet models
從表2 可知,本文所提ACAM 雖然僅引入較少參數(shù),但在不同網(wǎng)絡(luò)模型的準(zhǔn)確率上均有1個(gè)百分點(diǎn)左右的提升,證明了ACAM 的適用性。ACAM 在ResNet-18網(wǎng)絡(luò)上的錯(cuò)誤率降低了1.57個(gè)百分點(diǎn),參數(shù)量增加214;在ShuffleNetV2網(wǎng)絡(luò)上錯(cuò)誤率降低0.77個(gè)百分點(diǎn),參數(shù)量增加864;在MobileNetV2 網(wǎng)絡(luò)上錯(cuò)誤率降低0.98 個(gè)百分點(diǎn),參數(shù)量增加892。
對(duì)比3 種不同網(wǎng)絡(luò)及加入ACAM 的表現(xiàn),MobileNetV2 不管從Top1 錯(cuò)誤率還是參數(shù)量上均有明顯優(yōu)勢(shì)。從Top1 錯(cuò)誤率看,MobileNetV2+ACAM 的Top1 錯(cuò)誤率比ResNet-18 降低了0.31 個(gè)百分點(diǎn),比ShuffleNetV2+ACAM 降低0.92 個(gè)百分點(diǎn)。從參數(shù)量上看,MobileNetV2+ACAM 參數(shù)量?jī)H為RestNet-18 的20.64%,為ShuffleNetV2+ACAM 的57.18%。綜合以上考慮,選擇在MobileNetV2 基礎(chǔ)上進(jìn)行實(shí)驗(yàn)。
為驗(yàn)證ACAM 的有效性,以MobileNetV2 為例,在BAM、CBAM、ECA 上與ACAM 進(jìn)行對(duì)比,實(shí)驗(yàn)結(jié)果如表3 所示。由表3 可知,在MobileNetV2 上,不同注意力模型對(duì)于手勢(shì)識(shí)別效果均有貢獻(xiàn)。與MobileNetV2基礎(chǔ)網(wǎng)絡(luò)相比,MobileNetV2+BAM 的參數(shù)量增加了157 400,在MobileNetV2參數(shù)量的基礎(chǔ)上增加了6.81%;MobileNetV2+CBAM 的參數(shù)量增加了60 286,在MobileNetV2 參數(shù)量的基礎(chǔ)上增加了2.61%;MobileNetV2+ECA 參數(shù)量?jī)H增加了59,增加參數(shù)量相對(duì)MobileNetV2 參數(shù)量可忽略不計(jì)。本文所提ACAM與MobileNetV2 結(jié)合后參數(shù)量為2 311 703,與MobileNetV2 的參數(shù)量相比增加了892,相當(dāng)于在MobileNetV2 參數(shù)量的基礎(chǔ)上增加3.86×10-4。在不考慮錯(cuò)誤率情況下,通過(guò)引入?yún)?shù)量進(jìn)行比較,BAM 引入?yún)?shù)量最多,CBAM 次之,ACAM 和ECA 引入?yún)?shù)量相對(duì)較少。綜合Top1 錯(cuò)誤率和模型參數(shù)量?jī)蓚€(gè)衡量標(biāo)準(zhǔn)考慮,本文所提ACAM 結(jié)果更優(yōu)。
表3 不同注意力機(jī)制在MobileNetV2 網(wǎng)絡(luò)上的結(jié)果對(duì)比Table 3 Comparison of results of different attention mechanisms on MobileNetV2 network
將本文提出的注意力機(jī)制與特征融合模塊加入MobileNetV2 中,并對(duì)MobileNetV2 進(jìn)行修改,mobilenetv2 為直接在MobileNetV2 上修改后的網(wǎng)絡(luò),實(shí)驗(yàn)結(jié)果如表4 所示,其中“×”表示未添加,“√”表示添加。
表4 ACAM 機(jī)制與CFP特征融合模塊對(duì)網(wǎng)絡(luò)性能的影響Table 4 Influence of ACAM mechanism and CFP feature fusion module on network performance
由表4 可知,在MobileNetV2 基礎(chǔ)上進(jìn)行刪減后,mobilenetv2 的參數(shù)量減少了900 480,相當(dāng)于MobileNetV2 參數(shù)量的38.97%。mobilenetv2 在減少參數(shù)量的同時(shí)準(zhǔn)確率提升,Top1錯(cuò)誤率減少0.3個(gè)百分點(diǎn),這說(shuō)明刪減后的網(wǎng)絡(luò)更適合手勢(shì)識(shí)別。在MobileNetV2和mobilenetv2 上添加CFP 和ACAM,添加CFP 后兩種不同的網(wǎng)絡(luò)MobileNetV2+CFP 和mobilenetv2+CFP Top1 的錯(cuò)誤率均降低1 個(gè)百分點(diǎn)左右,但參數(shù)量大幅上升,相較原基礎(chǔ)網(wǎng)絡(luò),參數(shù)量分別增加了58.96%、19.27%。添 加ACAM 后,mobilenetv2+ACAM 相 較MobileNetV2+ACAM Top1 錯(cuò)誤率更低,在參數(shù)量更少的情況下,Top1 錯(cuò)誤率降低0.53 個(gè)百分點(diǎn)。通過(guò)上述分析可知,CFP、ACAM 對(duì)手勢(shì)識(shí)別任務(wù)有效。將CFP和ACAM 加 入MobileNetV2 和mobilenetv2 中,形 成R-MobileNetV2和r-mobilenetv2。其中R-MobileNetV2以未經(jīng)刪減的MobileNetV2 為基礎(chǔ),r-mobilenetv2 以刪減后的MobileNetV2 為基礎(chǔ)。最終R-MobileNetV2 相對(duì)MobileNetV2的Top1錯(cuò)誤率降低了1.26個(gè)百分點(diǎn),參數(shù)量相對(duì)MobileNetV2增加了59.00%,達(dá)到了3 674 263。r-mobilenetv2 相對(duì)mobilenetv2 Top1 的錯(cuò)誤率降低了1.52 個(gè)百分點(diǎn),參數(shù)量相對(duì)mobilenetv2 增加了11.79%,達(dá)到1 682 849;相對(duì)R-MobileNetV2 Top1 的錯(cuò)誤率降低了0.56 個(gè)百分點(diǎn),參數(shù)量?jī)H為R-MobileNetV2 的45.80%;相對(duì)MobileNetV2 Top1的錯(cuò)誤率降低了1.82個(gè)百分點(diǎn),達(dá)到1.17%,參數(shù)量?jī)H為MobileNetV2 的72.83%。以上實(shí)驗(yàn)結(jié)果充分驗(yàn)證了CFP、ACAM 及r-mobilenetv2 的有效性。
此外,在r-mobilenetv2 網(wǎng)絡(luò)中,選取測(cè)試集數(shù)據(jù)制作混淆矩陣,結(jié)果如圖8 所示。由圖8 可知,r-mobilenetv2 對(duì)27 種手勢(shì)的預(yù)測(cè)基本完全正確,在手勢(shì)識(shí)別中有著優(yōu)異的表現(xiàn)。
圖8 r-mobilenetv2 算法的混淆矩陣Fig.8 Confusion matrix of r-mobilenetv2 algorithm
為有效提取特征,解決特征表征不足的問(wèn)題及提高手勢(shì)識(shí)別精度,本文結(jié)合注意力機(jī)制和特征融合,提出一種輕量級(jí)網(wǎng)絡(luò)靜態(tài)手勢(shì)識(shí)別算法r-mobilenetv2。通過(guò)結(jié)合空間注意力和通道注意力模型,得到一種自適應(yīng)卷積注意力機(jī)制,針對(duì)高級(jí)語(yǔ)義特征含有的分類信息不完全問(wèn)題,構(gòu)建分類特征金字塔,并通過(guò)實(shí)驗(yàn)驗(yàn)證自適應(yīng)卷積注意力機(jī)制及分類特征金字塔的有效性。實(shí)驗(yàn)結(jié)果表明,r-mobilenetv2 算法的準(zhǔn)確率達(dá)98.83%,與MobileNetV2 算法相比,其參數(shù)量及Top1 的錯(cuò)誤率分別降低了27.20%、1.82 個(gè)百分點(diǎn)。下一步將從損失函數(shù)、卷積方式入手對(duì)網(wǎng)絡(luò)的適應(yīng)性及實(shí)時(shí)性進(jìn)行改進(jìn),提高網(wǎng)絡(luò)識(shí)別精度及泛化性能。