亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        融合注意力與時(shí)域多尺度卷積的手勢(shì)識(shí)別算法

        2022-12-31 00:00:00毛力張藝楠孫俊

        摘 要:針對(duì)基于深度學(xué)習(xí)的動(dòng)態(tài)手勢(shì)識(shí)別方法網(wǎng)絡(luò)規(guī)模龐大、提取的時(shí)空特征尺度單一、有效特征的提取能力不足等問(wèn)題,提出了一種深度網(wǎng)絡(luò)框架。首先,使用時(shí)域多尺度信息融合的時(shí)空卷積模塊改進(jìn)3D殘差網(wǎng)絡(luò)結(jié)構(gòu),大幅度縮小網(wǎng)絡(luò)規(guī)模,獲得多種尺度的時(shí)空感受野特征;其次,引入一種全局信息同步的時(shí)空特征通道注意力機(jī)制,使用極少量參數(shù)構(gòu)建特征圖通道之間的全局依賴關(guān)系,使模型更加高效地獲取動(dòng)態(tài)手勢(shì)的關(guān)鍵特征。在自建手勢(shì)數(shù)據(jù)集SHC和公開手勢(shì)數(shù)據(jù)集SKIG上的實(shí)驗(yàn)結(jié)果顯示,提出的手勢(shì)識(shí)別方法參數(shù)量更少且多尺度時(shí)空特征提取能力強(qiáng),識(shí)別率高于目前的主流算法。

        關(guān)鍵詞:深度學(xué)習(xí);動(dòng)態(tài)手勢(shì)識(shí)別;多尺度時(shí)空特征;注意力機(jī)制

        中圖分類號(hào):TP391.41 文獻(xiàn)標(biāo)志碼:A

        文章編號(hào):1001-3695(2022)07-045-2196-07

        doi:10.19734/j.issn.1001-3695.2021.11.0620

        基金項(xiàng)目:國(guó)家重點(diǎn)研發(fā)計(jì)劃資助項(xiàng)目(2017YFC1601800);國(guó)家自然科學(xué)基金資助項(xiàng)目(61672263)

        作者簡(jiǎn)介:毛力(1967-),男(通信作者),江蘇無(wú)錫人,教授,碩士,主要研究方向?yàn)槿斯ぶ悄?、機(jī)器學(xué)習(xí)(wxmaoli@163.com);張藝楠(1997-),男,黑龍江富錦人,碩士,主要研究方向?yàn)樯疃葘W(xué)習(xí)、手勢(shì)識(shí)別;孫?。?971-),男,江蘇無(wú)錫人,教授,博士,主要研究方向?yàn)槿斯ぶ悄堋⒂?jì)算智能、機(jī)器學(xué)習(xí)、大數(shù)據(jù)分析、生物信息學(xué)等.

        Gesture recognition algorithm combining attention and time-domain multiscale convolution

        Mao Li?,Zhang Yinan,Sun Jun

        (Jiangsu Provincial Engineering Laboratory of Pattern Recognition amp; Computational Intelligence,Jiangnan University,Wuxi Jiangsu 214122,China)

        Abstract:In dynamic gesture recognition methods based on deep learning,aiming at the problems of large network scale,simple dimension of extracted spatiotemporal features,and insufficient extraction ability of effective features,this paper proposed a deep network framework.Firstly,this paper applied a novel spatiotemporal convolution module based on multiscale information fusion in the time domain to improve the 3D residual network structure,greatly reduced the size of the network and obtained rich spatiotemporal receptive field characteristics.Then it introduced a spatiotemporal feature channel attention mechanism with global information synchronization,and used a few parameters to construct the global dependency between feature maps,and the module could obtain the key features of dynamic gestures more efficiently.The experimental results on the self-built gesture dataset SHC and the public gesture dataset SKIG show that the proposed gesture recognition method has fewer parameters and more powerful multiscale spatiotemporal feature extraction ability,and gains a higher recognition rate than the current mainstream algorithms.

        Key words:deep learning;dynamic gesture recognition;multiscale spatiotemporal features;attention mechanism

        0 引言

        手勢(shì)識(shí)別是計(jì)算機(jī)科學(xué)和語(yǔ)言技術(shù)中的一個(gè)重要研究?jī)?nèi)容,其在人機(jī)交互、輔助駕駛、虛擬現(xiàn)實(shí)和異常行為檢測(cè)等領(lǐng)域[1,2的應(yīng)用愈加廣泛,已逐漸發(fā)展為一個(gè)富有挑戰(zhàn)性的多學(xué)科交叉的重要研究方向。手勢(shì)識(shí)別按照任務(wù)類型可劃分為靜態(tài)手勢(shì)識(shí)別和動(dòng)態(tài)手勢(shì)識(shí)別3,前者只需關(guān)注某個(gè)時(shí)間點(diǎn)的空間特征即可,而后者則需要同時(shí)分析手勢(shì)的空間和運(yùn)動(dòng)信息,復(fù)雜程度更高。相比之下,動(dòng)態(tài)手勢(shì)更符合人的表達(dá)習(xí)慣,對(duì)于動(dòng)態(tài)手勢(shì)識(shí)別的研究更具有現(xiàn)實(shí)意義。

        最初的手勢(shì)識(shí)別依靠穿戴設(shè)備直接檢測(cè)各關(guān)節(jié)的角度和空間相對(duì)位置,從而達(dá)到良好的識(shí)別效果[4,然而此類設(shè)備便捷性低且價(jià)格昂貴,無(wú)法大規(guī)模應(yīng)用于手勢(shì)識(shí)別領(lǐng)域,具有一定的局限性?;谝曈X信息的手勢(shì)識(shí)別方法研究5,6逐漸受到越來(lái)越多的關(guān)注,其通過(guò)分析包含手勢(shì)的圖像序列特征進(jìn)而理解所表達(dá)的具體含義。其中通過(guò)人工經(jīng)驗(yàn)進(jìn)行特征提取的許多算法已經(jīng)得到了較好的結(jié)果,如隱馬爾可夫模型[7、動(dòng)態(tài)時(shí)間規(guī)整8和改進(jìn)的密集軌跡算法9等,此類方法雖然只占用少量的計(jì)算資源,但特征提取過(guò)程通常耗時(shí)耗力,并且難以適應(yīng)動(dòng)態(tài)手勢(shì)的復(fù)雜多變性。另外,由于復(fù)雜的光照條件、背景環(huán)境以及不同執(zhí)行者之間的行為差異性等影響,實(shí)現(xiàn)高效和普遍的動(dòng)態(tài)手勢(shì)識(shí)別效果仍然是一個(gè)巨大的挑戰(zhàn)10。

        隨著深度學(xué)習(xí)的不斷發(fā)展,具有強(qiáng)大的特征提取能力的卷積神經(jīng)網(wǎng)絡(luò)被廣泛應(yīng)用于識(shí)別算法的設(shè)計(jì)。3D卷積神經(jīng)網(wǎng)絡(luò)(3D convolutional neural networks,3DCNN)可以從圖像序列中同時(shí)學(xué)習(xí)到時(shí)空特征信息,已被應(yīng)用到大量的基于視頻的識(shí)別任務(wù)。Tran等人[11基于3D卷積提出了經(jīng)典的C3D網(wǎng)絡(luò),其結(jié)構(gòu)簡(jiǎn)單且容易部署,一些研究者在此基礎(chǔ)上設(shè)計(jì)了用于動(dòng)態(tài)手勢(shì)識(shí)別的深度學(xué)習(xí)框架[12,13。與此同時(shí),許多算法利用3D卷積模塊對(duì)高性能的2D卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行維度擴(kuò)展,在基于視頻的分類任務(wù)中實(shí)現(xiàn)了很好的效果。其中,文獻(xiàn)[14]基于Inception V1網(wǎng)絡(luò)和3D卷積提出了雙流I3D模型,同時(shí)處理 RGB 數(shù)據(jù)和光流數(shù)據(jù),有效提高了動(dòng)作識(shí)別準(zhǔn)確率;Hara等人[15創(chuàng)造性地將3D卷積與殘差網(wǎng)絡(luò)相結(jié)合,提出了3D殘差網(wǎng)絡(luò)結(jié)構(gòu),實(shí)現(xiàn)了更深層的時(shí)空信息獲取。然而,此類基于3D卷積模塊的3DCNN模型,其訓(xùn)練參數(shù)量會(huì)隨著網(wǎng)絡(luò)規(guī)模的擴(kuò)大急劇增加,需要消耗大量的計(jì)算資源,模型的訓(xùn)練難度也隨之不斷增大。

        近年來(lái),許多研究通過(guò)對(duì)卷積結(jié)構(gòu)進(jìn)行優(yōu)化來(lái)減少參數(shù)量和運(yùn)算量。其中,P3D[16、R(2+1)D[17和S3D[18等網(wǎng)絡(luò)框架通過(guò)大量的實(shí)驗(yàn)證明了將3D卷積替換為空間維度的2D卷積和時(shí)間維度的1D卷積是有效的,這種分解的卷積結(jié)構(gòu)能夠大幅度縮小傳統(tǒng)3DCNN的網(wǎng)絡(luò)規(guī)模,提高網(wǎng)絡(luò)性能。然而優(yōu)化后的結(jié)構(gòu)雖然能夠有效減少參數(shù)量,但依然只能處理小范圍且固定長(zhǎng)度的時(shí)域窗口,實(shí)現(xiàn)對(duì)短期內(nèi)的信息進(jìn)行編碼,不能捕獲遠(yuǎn)程的時(shí)間信息。受上述研究的啟發(fā),本文提出了一種新穎的基于時(shí)域多尺度融合的時(shí)空卷積和通道注意力機(jī)制的深度網(wǎng)絡(luò)框架GIS-ResT用于動(dòng)態(tài)手勢(shì)識(shí)別。該網(wǎng)絡(luò)以TMST卷積模塊為基礎(chǔ),將3D卷積結(jié)構(gòu)的時(shí)空維度分離,通過(guò)空間域卷積運(yùn)算輸出一系列特征圖集合,隨后在特征圖集合的通道維度進(jìn)行分割,將分割的特征子集在不同的分支使用時(shí)間域卷積交叉處理得到多尺度時(shí)空特征并進(jìn)行融合。TMST模塊能夠在降低參數(shù)量的前提下有效獲得多種尺度的時(shí)間域感受野,使得網(wǎng)絡(luò)在圖像序列樣本中提取豐富的時(shí)空特征。此外,為了進(jìn)一步優(yōu)化網(wǎng)絡(luò)性能,提出了GIS通道注意力模塊,該模塊僅使用少量的參數(shù)實(shí)現(xiàn)了同時(shí)處理通道特征圖的全局特征和最顯著特征并進(jìn)行有效融合,提高了網(wǎng)絡(luò)對(duì)多尺度時(shí)空特征圖的選擇能力。本文所提出的GIS-ResT網(wǎng)絡(luò)結(jié)構(gòu)有利于解決3DCNN參數(shù)量大、難以進(jìn)行多尺度時(shí)間維度編碼等問(wèn)題,并在自建手勢(shì)數(shù)據(jù)集SHC和公開手勢(shì)數(shù)據(jù)集SKIG上取得了很好的識(shí)別結(jié)果,優(yōu)于主流的動(dòng)態(tài)手勢(shì)識(shí)別算法。

        1 網(wǎng)絡(luò)結(jié)構(gòu)優(yōu)化

        1.1 TMST卷積模塊

        3D卷積在處理基于連續(xù)圖像序列數(shù)據(jù)的分類任務(wù)時(shí),能夠同時(shí)捕獲多個(gè)連續(xù)圖像之間的空間信息和運(yùn)動(dòng)信息。其通過(guò)將3D卷積核在特征圖立方體中按照一定的規(guī)律移動(dòng)并計(jì)算輸出,從而實(shí)現(xiàn)特征提取過(guò)程,如圖1所示。3D卷積的計(jì)算過(guò)程如下:

        在使用3D卷積核進(jìn)行運(yùn)算時(shí),若卷積層的輸入特征圖通道數(shù)為C1,卷積核尺寸為k×k×k,對(duì)應(yīng)的輸出通道數(shù)為C2,則該層卷積的總參數(shù)量為

        為了簡(jiǎn)化神經(jīng)網(wǎng)絡(luò)的特征處理過(guò)程,本文使用退化的3D卷積結(jié)構(gòu)實(shí)現(xiàn)更低維的卷積運(yùn)算。相同條件下,在進(jìn)行空間域卷積運(yùn)算時(shí),卷積核尺寸將被設(shè)置為1×k×k,此時(shí)所使用的參數(shù)量為

        同理,計(jì)算時(shí)間維度卷積時(shí),每個(gè)分支的輸入和輸出通道數(shù)為ci=C2/S,i∈{1,2,…,S},卷積核尺寸為k×1×1,而多尺度信息融合所需的卷積核大小為1×1×1,對(duì)應(yīng)的輸入輸出通道數(shù)均為C2,故時(shí)間域所使用的總參數(shù)量為

        由式(5)(6)可得TMST模塊的總參數(shù)量為

        特別地,對(duì)于卷積核尺寸為1×1×1的3D卷積操作則無(wú)須進(jìn)行結(jié)構(gòu)替換。通常情況下,卷積的輸出通道數(shù)C2最多為輸入通道數(shù)C1的兩倍,不妨設(shè)C1=C2/2=η。為便于比較,令S=1,那么不同結(jié)構(gòu)的卷積模塊所使用的參數(shù)量與卷積規(guī)模之間的關(guān)系如表1所示。從表1中數(shù)據(jù)可知,當(dāng)卷積規(guī)模k=3時(shí),TMST模塊就可以把參數(shù)量?jī)?yōu)化為原來(lái)的3/5左右,而隨著卷積規(guī)模的增大,兩種結(jié)構(gòu)之間所使用的參數(shù)量差距也不斷擴(kuò)大。在搭建3DCNN框架時(shí),本文所提出的TMST模塊可以有效減少網(wǎng)絡(luò)的參數(shù)規(guī)模,同時(shí)實(shí)現(xiàn)多尺度時(shí)空特征提取。

        1.2 GIS通道注意力模塊

        從人類的視覺特點(diǎn)可以看出,識(shí)別的關(guān)鍵信息來(lái)自特征圖的部分通道或位置,并非全部特征信息,而深度神經(jīng)網(wǎng)絡(luò)在生成特征映射的過(guò)程中不做任何區(qū)分。注意力機(jī)制能夠有側(cè)重點(diǎn)地關(guān)注有用的特征,抑制不重要的特征,使得深度學(xué)習(xí)算法從復(fù)雜的特征信息中選擇出對(duì)當(dāng)前所訓(xùn)練的任務(wù)目標(biāo)來(lái)說(shuō)更加關(guān)鍵的信息[20,從而有效提高深度神經(jīng)網(wǎng)絡(luò)的表征能力。然而,大部分注意力模塊所使用的計(jì)算框架結(jié)構(gòu)復(fù)雜,造成較大的計(jì)算代價(jià),耗費(fèi)更多額外的計(jì)算資源。為了進(jìn)一步提高網(wǎng)絡(luò)對(duì)多尺度時(shí)空特征的選擇能力并盡量增加更少的參數(shù)量和計(jì)算量,本文提出了一種全局信息同步的通道注意力模塊GIS,以自適應(yīng)調(diào)整網(wǎng)絡(luò)在多尺度時(shí)空特征學(xué)習(xí)過(guò)程中各個(gè)通道的貢獻(xiàn)度,具體結(jié)構(gòu)如圖3所示。

        其中:r對(duì)應(yīng)其中的一個(gè)通道,GAP表示全局平均池化計(jì)算函數(shù),GMP表示全局最大池化計(jì)算函數(shù)。在訓(xùn)練時(shí),GAP對(duì)特征圖上的每個(gè)元素均有反饋,能夠?qū)W習(xí)通道的全局特征,而GMP更關(guān)注特征圖中響應(yīng)最大的位置,從而實(shí)現(xiàn)最顯著的特征學(xué)習(xí)21。

        映射過(guò)程將捕獲通道之間的上下文信息,注意力機(jī)制中通常使用的映射方法是多級(jí)全連接網(wǎng)絡(luò)[22,23,而這種結(jié)構(gòu)會(huì)增加大量的訓(xùn)練參數(shù)。由于時(shí)序上所排列的特征圖通道之間具有一定的局部周期性24,即每個(gè)通道僅與其鄰近的l個(gè)通道間存在較強(qiáng)的關(guān)聯(lián)性,可以通過(guò)每個(gè)特征圖及其相鄰的l個(gè)通道對(duì)應(yīng)的緊湊特征計(jì)算映射結(jié)果:

        其中:F表示聚合操作得到的緊湊向量;δ表示取Fr的鄰近l個(gè)特征;λj為映射過(guò)程中的可訓(xùn)練參數(shù);ρ為映射過(guò)程函數(shù)。在該映射函數(shù)中,l的取值與通道數(shù)C之間存在如下的非線性關(guān)系25

        其中:|·|odd表示向上舍入取最鄰近奇數(shù);γ和b為任意自然數(shù),本文取γ=2,b=1。需要注意的是,上述的映射過(guò)程函數(shù)ρ可以通過(guò)去偏置項(xiàng)的1D卷積操作快速實(shí)現(xiàn),而所使用的參數(shù)量也僅為l個(gè)。與全連接網(wǎng)絡(luò)的映射方法相比,本文所提出的GIS注意力機(jī)制在參數(shù)量方面具有明顯的優(yōu)勢(shì)。

        融合過(guò)程會(huì)將獲得的上下文信息進(jìn)行同步整合,權(quán)衡GAP和GMP兩個(gè)分支所獲得的重要信息,避免通道注意力對(duì)其中某個(gè)分支產(chǎn)生過(guò)度的依賴關(guān)系。激發(fā)過(guò)程將上下文信息轉(zhuǎn)換為相應(yīng)通道的權(quán)重系數(shù),權(quán)重的計(jì)算結(jié)果如式(13)所示。

        其中:σ表示sigmoid激活函數(shù);w為各通道對(duì)應(yīng)的權(quán)重系數(shù)組成的權(quán)重向量。最后,需要對(duì)所有通道特征圖進(jìn)行加權(quán)運(yùn)算得到輸出結(jié)果,從而使模型在訓(xùn)練時(shí)對(duì)各通道的特征具有更高的區(qū)分能力。

        其中:χ′表示加權(quán)后的通道特征圖。GIS注意力模塊在運(yùn)算過(guò)程中不改變特征圖的時(shí)空尺度,但能夠有效增強(qiáng)網(wǎng)絡(luò)整體的特征表達(dá)能力,充分發(fā)揮多尺度時(shí)空特征提取的優(yōu)勢(shì)。

        2 模型框架

        本文所提出的深度網(wǎng)絡(luò)架構(gòu)GIS-ResT如圖4所示。為了提取更深層的時(shí)空特征并且避免網(wǎng)絡(luò)發(fā)生退化,模型借鑒ResNet3D的網(wǎng)絡(luò)構(gòu)成進(jìn)行搭建,并設(shè)計(jì)了T-block殘差結(jié)構(gòu)實(shí)現(xiàn)特征圖的級(jí)聯(lián)映射。為了提高網(wǎng)絡(luò)性能,在T-block模塊的多尺度信息融合結(jié)構(gòu)中結(jié)合GIS通道注意力機(jī)制。所提出的GIS-ResT網(wǎng)絡(luò)可以有效提取圖像序列中的時(shí)空特征,具有很好的動(dòng)態(tài)手勢(shì)理解能力。

        基于3D卷積和基礎(chǔ)殘差模塊的ResNet3D已被證明在許多動(dòng)作識(shí)別數(shù)據(jù)集上產(chǎn)生了過(guò)擬合現(xiàn)象[15,為此,GIS-ResT進(jìn)一步對(duì)網(wǎng)絡(luò)參數(shù)和時(shí)空特征提取結(jié)構(gòu)進(jìn)行了調(diào)整和優(yōu)化。在網(wǎng)絡(luò)的低層特征提取階段,為了保留更多的時(shí)序信息并初步縮小特征圖的空間尺度,圖4中的首個(gè)TMST結(jié)構(gòu)采用卷積規(guī)模為k=7,空間步長(zhǎng)為2,時(shí)間步長(zhǎng)為1的參數(shù)設(shè)置來(lái)提取多尺度時(shí)空特征,隨后采用大小為3×3×3,空間步長(zhǎng)為2、時(shí)間步長(zhǎng)為1的最大池化層進(jìn)行下采樣,縮小特征圖尺寸。對(duì)于模型中所涉及的多個(gè)T模塊(T-block),在各個(gè)階段的特征提取過(guò)程所使用的結(jié)構(gòu)有所差異,本文分別針對(duì)不同的時(shí)空步長(zhǎng)對(duì)殘差結(jié)構(gòu)進(jìn)行優(yōu)化,殘差結(jié)構(gòu)對(duì)比如圖5所示。

        基礎(chǔ)殘差模塊中共有兩層3D卷積結(jié)構(gòu),如圖5(a)所示,在特征提取時(shí),卷積層conv1實(shí)現(xiàn)了對(duì)時(shí)空特征圖進(jìn)行下采樣,并使用conv2提取更高層特征??紤]到多尺度時(shí)空特征提取過(guò)程中的模型復(fù)雜度問(wèn)題,T-block將SepConv結(jié)構(gòu)用于縮小時(shí)空特征圖,進(jìn)而使用TMST和GIS模塊實(shí)現(xiàn)更復(fù)合且全面的高級(jí)時(shí)空特征提取,如圖5(b)所示。該模塊能夠使得后續(xù)的網(wǎng)絡(luò)結(jié)構(gòu)提前把握全局時(shí)序信息,提高網(wǎng)絡(luò)對(duì)不同層次時(shí)空特征處理時(shí)的整體性。所有的殘差結(jié)構(gòu)中卷積規(guī)模設(shè)置為k=3,最后采用GAP和全連接網(wǎng)絡(luò)完成動(dòng)態(tài)手勢(shì)的分類。所提出的GIS-ResT和ResNet3D網(wǎng)絡(luò)的結(jié)構(gòu)對(duì)比如表2所示。為了使對(duì)比結(jié)果更加清晰,令輸入數(shù)據(jù)大小為16×160×160,并保持模型卷積通道數(shù)的一致性。

        3 實(shí)驗(yàn)結(jié)果及分析

        為了驗(yàn)證本文提出的網(wǎng)絡(luò)框架GIS-ResT在動(dòng)態(tài)手勢(shì)識(shí)別任務(wù)中的有效性,分別在自建手勢(shì)數(shù)據(jù)集SHC和公開手勢(shì)數(shù)據(jù)集SKIG上進(jìn)行了大量的實(shí)驗(yàn)。模型基于TensorFlow 2.3.0(Python 3.8)深度學(xué)習(xí)框架進(jìn)行搭建,使用Nvidia GeForce RTX 2060 GPU硬件平臺(tái)運(yùn)行。

        3.1 實(shí)驗(yàn)數(shù)據(jù)集

        SHC自建手勢(shì)數(shù)據(jù)集是一個(gè)基于標(biāo)準(zhǔn)手部清洗動(dòng)作建立的動(dòng)態(tài)手勢(shì)數(shù)據(jù)集,共包含1 861組RGB視頻樣本。該數(shù)據(jù)集在制作過(guò)程中使用Kinect V2設(shè)備進(jìn)行數(shù)據(jù)獲取,收集了手部清洗時(shí)的12種基本動(dòng)作。為了保證數(shù)據(jù)的多樣性,分別選取了室內(nèi)和室外五個(gè)不同場(chǎng)景進(jìn)行視頻采集,每種場(chǎng)景下由三名執(zhí)行者完成,并且同時(shí)考慮了不同的光照條件和背景紋理,以模擬現(xiàn)實(shí)生活中的各種復(fù)雜環(huán)境。針對(duì)動(dòng)態(tài)手勢(shì)識(shí)別任務(wù)中的實(shí)驗(yàn)條件要求,SHC數(shù)據(jù)集有較高的復(fù)雜性。

        SKIG公開數(shù)據(jù)集是由Liu等人[26建立的一個(gè)含有多種數(shù)據(jù)類型的動(dòng)態(tài)手勢(shì)識(shí)別數(shù)據(jù)集,共包含2 160個(gè)動(dòng)態(tài)手勢(shì)視頻樣本,其中有1 080個(gè)RGB視頻數(shù)據(jù)和1 080個(gè)深度信息視頻數(shù)據(jù),每個(gè)視頻樣本中包含一種獨(dú)立的可重復(fù)執(zhí)行的動(dòng)態(tài)手勢(shì)。SKIG按照手勢(shì)執(zhí)行方法共分為circle、triangle、up-down、right-left、wave、“Z”、cross、come here、turn around和pat 10個(gè)類別,該數(shù)據(jù)集在制作過(guò)程中將真實(shí)情況下的復(fù)雜背景環(huán)境和不同的光照情況考慮在內(nèi),由六名執(zhí)行者分別在三種背景、兩種光照下使用三種姿態(tài)來(lái)完成。因此,對(duì)于動(dòng)態(tài)手勢(shì)識(shí)別任務(wù)來(lái)說(shuō),SKIG具有較大的挑戰(zhàn)性。

        實(shí)驗(yàn)過(guò)程中,分別將各數(shù)據(jù)集的視頻樣本分解為圖像序列。對(duì)于動(dòng)態(tài)手勢(shì)在時(shí)間維度上存在的差異性,按照手勢(shì)的起始和結(jié)束位置提取圖像序列的關(guān)鍵幀,以一定的時(shí)間間隔將每個(gè)樣本采樣到16幀,保留手勢(shì)的時(shí)序整體性。由于原始數(shù)據(jù)具有較大的分辨率,且各數(shù)據(jù)集的空間尺寸不同,本文將每個(gè)動(dòng)態(tài)手勢(shì)的整體作為一個(gè)基本單位進(jìn)行隨機(jī)剪裁,并縮放為160×160像素進(jìn)行標(biāo)準(zhǔn)化處理。訓(xùn)練過(guò)程中,需要對(duì)數(shù)據(jù)進(jìn)行數(shù)值歸一化,并將所有樣本隨機(jī)打亂,以3:1劃分訓(xùn)練集和測(cè)試集,進(jìn)而實(shí)現(xiàn)權(quán)重的學(xué)習(xí)和模型的評(píng)估。

        3.2 評(píng)價(jià)指標(biāo)

        本文分別從參數(shù)量、計(jì)算量、準(zhǔn)確率和F1分?jǐn)?shù)等方面綜合評(píng)估模型性能。傳統(tǒng)的F1分?jǐn)?shù)僅適用于二分類問(wèn)題,對(duì)于多分類任務(wù),本文引入macro-F1和micro-F1兩種度量方法[27對(duì)模型進(jìn)行評(píng)估。這兩種度量方法是精準(zhǔn)率和召回率的調(diào)和平均數(shù),macro-F1分?jǐn)?shù)通過(guò)所有類別的每個(gè)統(tǒng)計(jì)指標(biāo)的算數(shù)平均值來(lái)計(jì)算,micro-F1分?jǐn)?shù)則通過(guò)對(duì)所有實(shí)例的精準(zhǔn)率和召回率進(jìn)行平均得到。macro-F1分?jǐn)?shù)定義為

        F1macro=2PmacroRmacroPmacro+Rmacro(15)

        其中:Pmacro和Rmacro為macro-F1分?jǐn)?shù)度量下的精確率和召回率,分別由如式(16)(17)計(jì)算。

        Pmacro=1c∑ci=1TPiTPi+FPi(16)

        Rmacro=1c∑ci=1TPiTPi+FNi(17)

        其中:TP表示正確分類的正樣本數(shù);FP表示錯(cuò)誤分類的正樣本數(shù);FN表示錯(cuò)誤分類的負(fù)樣本數(shù);c表示類別數(shù)量。

        對(duì)應(yīng)的micro-F1分?jǐn)?shù)定義如式(18)所示。

        F1micro=2PmicroRmicroPmicro+Rmicro(18)

        其中:Pmicro和Rmicro為micro-F1分?jǐn)?shù)度量下的精確率和召回率,分別由式(19)(20)計(jì)算。

        Pmicro=∑cj=1TPj∑cj=1(TPj+FPj)(19)

        Rmicro=∑cj=1TPj∑cj=1(TPj+FNj)(20)

        macro-F1和micro-F1分?jǐn)?shù)的取值為0~1,得分越高,表明模型的分類性能越好。

        3.3 消融實(shí)驗(yàn)

        為了驗(yàn)證所提出的TMST模塊和GIS注意力機(jī)制的有效性,本文在SHC自建手勢(shì)數(shù)據(jù)集上進(jìn)行了消融實(shí)驗(yàn)。該實(shí)驗(yàn)過(guò)程分別對(duì)ResNet3D、ResT、GIS-ResT三種網(wǎng)絡(luò)模型進(jìn)行對(duì)比分析。其中,ResNet3D為基于3D卷積結(jié)構(gòu)的經(jīng)典殘差網(wǎng)絡(luò);ResT表示基于TMST模塊對(duì)殘差網(wǎng)絡(luò)進(jìn)行優(yōu)化的模型,其中T-block結(jié)構(gòu)中不包含GIS注意力模塊;GIS-ResT則是使用了GIS注意力機(jī)制進(jìn)一步優(yōu)化的模型。實(shí)驗(yàn)時(shí),所有模型均隨機(jī)初始化權(quán)值,每次將四組樣本作為輸入進(jìn)行網(wǎng)絡(luò)參數(shù)更新,訓(xùn)練采用隨機(jī)梯度下降(stochastic gradient descent,SGD)優(yōu)化算法和交叉熵?fù)p失函數(shù),動(dòng)量設(shè)置為0.9,初始學(xué)習(xí)率設(shè)為0.001,經(jīng)過(guò)50個(gè)epoch的迭代后學(xué)習(xí)率下降為原來(lái)的1/10,實(shí)驗(yàn)一共進(jìn)行70個(gè)epoch的迭代。

        各方法在SHC數(shù)據(jù)集上的測(cè)試準(zhǔn)確率和損失值變化情況如圖6所示。訓(xùn)練初期所有模型均處于快速收斂階段,損失值急劇下降,準(zhǔn)確率大幅上升。經(jīng)過(guò)20個(gè)epoch的迭代后,各模型的收斂速度放緩,其中ResNet3D方法的測(cè)試準(zhǔn)確率幾乎不再上升,達(dá)到了最高水平,而ResT和GIS-ResT的測(cè)試準(zhǔn)確率仍然有所提高。經(jīng)過(guò)約30個(gè)epoch的迭代后,所有模型趨于收斂,測(cè)試準(zhǔn)確率和損失值在小范圍內(nèi)振蕩。最終,GIS-ResT的測(cè)試準(zhǔn)確率曲線處于最高水平,ResT方法次之,ResNet3D最低。

        表3給出了三種方法在SHC數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果,該表分別從參數(shù)量(M)、計(jì)算量(G)和準(zhǔn)確率(%)方面對(duì)模型從多個(gè)角度進(jìn)行分析。由表3的實(shí)驗(yàn)結(jié)果可以看出,與ResNet3D模型相比,使用時(shí)域多尺度時(shí)空卷積模塊優(yōu)化的ResT網(wǎng)絡(luò)架構(gòu)能夠大幅度縮小網(wǎng)絡(luò)規(guī)模,將參數(shù)量減少到2.87 M,僅為ResNet3D模型的46.14%,計(jì)算量也同樣得到了優(yōu)化,總體減少了約9.3%,ResT網(wǎng)絡(luò)在SHC數(shù)據(jù)集上的識(shí)別準(zhǔn)確率達(dá)到了92.58%,比ResNet3D提高了2.96個(gè)百分點(diǎn),各方面的表現(xiàn)均有提升。進(jìn)一步地,GIS-ResT模型使用了GIS注意力模塊,與ResT相比,GIS模塊幾乎對(duì)模型規(guī)模不產(chǎn)生影響,僅增加了0.04 G的計(jì)算量,而準(zhǔn)確率則再次提升了1.49%,比ResNet3D模型的測(cè)試準(zhǔn)確率高4.45個(gè)百分點(diǎn)。

        為了評(píng)估所提出的TMST和GIS模塊對(duì)模型性能的影響,本文在SHC數(shù)據(jù)集上對(duì)各方法進(jìn)行了基于精確率、召回率和F1分?jǐn)?shù)的實(shí)驗(yàn),評(píng)估結(jié)果如表4所示。ResNet3D方法在此評(píng)估準(zhǔn)則上分別得到了0.899 3和0.896 2的macro-F1和micro-F1分?jǐn)?shù),以該方法作為基準(zhǔn),使用TMST模塊搭建的ResT模型獲得的macro-F1和micro-F1分?jǐn)?shù)相比于ResNet3D方法分別提升了0.031 4和0.029 6,這說(shuō)明TMST模塊對(duì)模型的性能提升是有效的。融合GIS注意力機(jī)制的GIS-ResT方法則在相同的準(zhǔn)則中得到了最高的macro-F1和micro-F1分?jǐn)?shù),分別為0.942 9和0.940 7,實(shí)現(xiàn)了最好的模型性能。

        此外,本文從動(dòng)態(tài)手勢(shì)的樣本特征提取層面對(duì)所提出的模塊進(jìn)行了分析,圖7顯示了傳統(tǒng)的3D卷積模塊和TMST模塊的淺層時(shí)空特征提取結(jié)果對(duì)比。不難看出,應(yīng)用3D卷積模塊所提取的時(shí)空特征尺度較為單一,并且對(duì)于一些復(fù)雜的高級(jí)特征提取能力存在不足,如邊緣特征、紋理特征等。相比之下,TMST模塊能夠通過(guò)多級(jí)類殘差結(jié)構(gòu)獲取豐富的多尺度時(shí)空感受野范圍,對(duì)于短期和長(zhǎng)期的時(shí)空特征表達(dá)方式具有一定的多樣性,有效提高了模型的信息承載量。

        總體來(lái)看,使用TMST模塊優(yōu)化傳統(tǒng)3D卷積結(jié)構(gòu)能夠有效減少參數(shù)量和計(jì)算量,所使用的時(shí)域多尺度卷積通過(guò)更廣闊的時(shí)空感受野范圍充分提取網(wǎng)絡(luò)各階段的特征信息。注意力機(jī)制GIS模塊結(jié)合全局特征和局部最顯著特征優(yōu)化各通道的時(shí)空特征權(quán)重,使得模型的總體性能得到更好的提升。

        3.4 對(duì)比實(shí)驗(yàn)

        為了進(jìn)一步驗(yàn)證所提出的GIS-ResT網(wǎng)絡(luò)架構(gòu)在動(dòng)態(tài)手勢(shì)識(shí)別方面的有效性,本文在公開手勢(shì)數(shù)據(jù)集SKIG所包含的RGB和Depth類型的數(shù)據(jù)上分別進(jìn)行實(shí)驗(yàn),并與目前主流的多種方法進(jìn)行比較。實(shí)驗(yàn)過(guò)程中依然隨機(jī)初始化權(quán)值,批尺寸設(shè)置為4,訓(xùn)練采用SGD優(yōu)化算法和交叉熵?fù)p失函數(shù),動(dòng)量參數(shù)設(shè)置為0.9,初始學(xué)習(xí)率設(shè)為0.001,經(jīng)過(guò)20個(gè)epoch的迭代后學(xué)習(xí)率下降為原來(lái)的1/10,共進(jìn)行30個(gè)epoch的迭代。

        GIS-ResT模型在RGB和Depth類型數(shù)據(jù)上進(jìn)行訓(xùn)練時(shí),準(zhǔn)確率和損失值變化情況如圖8所示。由于RGB數(shù)據(jù)中所包含的信息更復(fù)雜,經(jīng)過(guò)近10個(gè)epoch的迭代周期準(zhǔn)確率和損失值趨于平緩,隨后在小范圍內(nèi)尋找最優(yōu)解,如圖8(a)所示;Depth類型的數(shù)據(jù)受背景和光照因素影響較小,所包含的信息量相比于RGB數(shù)據(jù)更少,模型在訓(xùn)練過(guò)程中實(shí)現(xiàn)了較快速的收斂,如圖8(b)所示。

        表5給出了GIS-ResT模型在SKIG數(shù)據(jù)集上不同類型數(shù)據(jù)的實(shí)驗(yàn)結(jié)果與其他方法[26,28~33的對(duì)比。從表中數(shù)據(jù)可以看出,本文方法在RGB和Depth數(shù)據(jù)上實(shí)驗(yàn)時(shí)所使用的訓(xùn)練參數(shù)與其他深度學(xué)習(xí)算法相比最少,分別為2.87 M和2.86 M,識(shí)別準(zhǔn)確率也處于較高水平,達(dá)到了99.81%(RGB)和99.44%(Depth),在單一數(shù)據(jù)類型下優(yōu)于其他的對(duì)比算法,并且在Depth數(shù)據(jù)類型下的識(shí)別準(zhǔn)確率僅略低于文獻(xiàn)[31,33]使用的多種數(shù)據(jù)類型融合的識(shí)別方法。實(shí)驗(yàn)結(jié)果顯示,TMST與 GIS注意力模塊相結(jié)合可以有效提取圖像序列樣本中的時(shí)空特征,從而使整個(gè)網(wǎng)絡(luò)框架具有較好的泛化能力和識(shí)別效果。

        模型在SKIG數(shù)據(jù)集上的分類混淆矩陣如圖9所示,其中主對(duì)角線上的值為對(duì)應(yīng)手勢(shì)的正確識(shí)別率。對(duì)于數(shù)據(jù)集包含的相似度較高的動(dòng)態(tài)手勢(shì),比如pat和come here、right-left和wave等,其部分樣本的差別僅體現(xiàn)在手臂或手腕運(yùn)動(dòng)時(shí)的小角度偏差,分類難度較大,如圖10所示。對(duì)于SKIG數(shù)據(jù)集的RGB和Depth類型數(shù)據(jù),本文提出的GIS-ResT模型基本能夠?qū)崿F(xiàn)所有手勢(shì)的精確分類。

        本文同樣在SKIG數(shù)據(jù)集上對(duì)GIS-ResT模型進(jìn)行了基于精確率、召回率和F1分?jǐn)?shù)的實(shí)驗(yàn),結(jié)果如表6所示。從表6數(shù)據(jù)可以看出,無(wú)論是RGB還是Depth數(shù)據(jù)類型,本文提出的GIS-ResT方法獲得的macro-F1和micro-F1分?jǐn)?shù)都十分接近1,這表明該模型對(duì)于多種類別的動(dòng)態(tài)手勢(shì)均可達(dá)到很高的分類精度,模型具有較好的識(shí)別性能。

        4 結(jié)束語(yǔ)

        本文提出了一種簡(jiǎn)單高效的時(shí)域多尺度信息融合的時(shí)空卷積網(wǎng)絡(luò)GIS-ResT用于動(dòng)態(tài)手勢(shì)識(shí)別任務(wù)。所使用的TMST時(shí)空卷積結(jié)構(gòu)能夠獲取多尺度的時(shí)空特征,使網(wǎng)絡(luò)從圖像序列樣本中提取到更加豐富的時(shí)空信息,相比于傳統(tǒng)的3D卷積結(jié)構(gòu),TMST能夠有效減少網(wǎng)絡(luò)的訓(xùn)練參數(shù);此外,提出了一種時(shí)空特征通道注意力模塊GIS,通過(guò)對(duì)特征的全局和局部信息同時(shí)進(jìn)行處理并融合,進(jìn)一步增強(qiáng)了網(wǎng)絡(luò)對(duì)時(shí)空特征的提取能力,使網(wǎng)絡(luò)更加高效地完成動(dòng)態(tài)手勢(shì)識(shí)別。在SHC數(shù)據(jù)集和SKIG數(shù)據(jù)集的實(shí)驗(yàn)結(jié)果表明,所提出的GIS-ResT模型參數(shù)量少,且能以更高的性能取得優(yōu)異的識(shí)別效果。未來(lái)的改進(jìn)方向則是對(duì)實(shí)時(shí)的動(dòng)態(tài)手勢(shì)進(jìn)行分析和識(shí)別,以擴(kuò)大模型的適用范圍。

        參考文獻(xiàn):

        [1]Chakraborty B K,Sarma D,Bhuyan M K,et al.Review of constraints on vision-based gesture recognition for human-computer interaction[J].IET Computer Vision,2018,12(1):3-15.

        [2]Chevtchenko S F,Vale R F,Macario V,et al.A convolutional neural network with feature fusion for real-time hand posture recognition[J].Applied Soft Computing,2018,73(2):748-766.

        [3]Plouffe G,Cretu A M.Static and dynamic hand gesture recognition in depth data using dynamic time warping[J].IEEE Trans on Instrumentation and Measurement,2016,65(2):305-316.

        [4]Lu Zhiyuan,Chen Xiang,Li Qiang,et al.A hand gesture recognition framework and wearable gesture-based interaction prototype for mobile devices[J].IEEE Trans on Human-Machine Systems,2017,44(2):293-299.

        [5]Tran D S,Ho N H,Yang H J,et al.Real-time hand gesture spotting and recognition using RGB-D camera and 3D convolutional neural network[J].Applied Sciences,2020,10(2):722.

        [6]曹潔,趙修龍,王進(jìn)花.基于RGB-D信息的動(dòng)態(tài)手勢(shì)識(shí)別方法[J].計(jì)算機(jī)應(yīng)用研究,2018,35(7):2228-2232.(Cao Jie,Zhao Xiulong,Wang Jinhua.Dynamic gesture recognition approach based on RGB-D information[J].Application Research of Computers,2018,35(7):2228-2232.

        [7]Parcheta Z,Martínez-Hinarejos C D.Sign language gesture recognition using HMM[C]//Proc of Iberian Conference on Pattern Recognition and Image Analysis.Cham:Springer,2017:419-426.

        [8]張備偉,吳琦,劉光徽.基于DTW的交警指揮手勢(shì)識(shí)別方法[J].計(jì)算機(jī)應(yīng)用研究,2017,34(11):3494-3499.(Zhang Beiwei,Wu Qi,Liu Guanghui.Method for recognizing gesture of traffic police based on DTW algorithm[J].Application Research of Computers,2017,34(11):3494-3499.)

        [9]Wang Heng,Schmid C.Action recognition with improved trajectories[C]//Proc of IEEE International Conference on Computer Vision.Washington DC:IEEE Computer Society,2013:3551-3558.

        [10]Obo T,Loo C K,Seera M,et al.Hybrid evolutionary neuro-fuzzy approach based on mutual adaptation for human gesture recognition[J].Applied Soft Computing,2016,42(5):377-389.

        [11]Tran D,Bourdev L,F(xiàn)ergus R,et al.Learning spatiotemporal features with 3D convolutional networks[C]//Proc of IEEE International Conference on Computer Vision.Washington DC:IEEE Computer Society,2015:4489-4497.

        [12]Miao Qiguang,Li Yunan,Ouyang Wanli,et al.Multimodal gesture reco-gnition based on the ResC3D network[C]//Proc of IEEE International Conference on Computer Vision.Washington DC:IEEE Computer Society,2017:3047-3055.

        [13]Funke I,Bodenstedt S,Oehme F,et al.Using 3D convolutional neural networks to learn spatiotemporal features for automatic surgical gesture recognition in video[C]//Proc of International Conference on Medical Image Computing and Computer Assisted Intervention,Cham:Springer,2019:467-475.

        [14]Carreira J,Zisserman A.Quo vadis,action recognition?A new model and the kinetics dataset[C]//Proc of IEEE Conference on Computer Vision and Pattern Recognition.Washington DC:IEEE Computer Society,2017:4724-4733.

        [15]Hara K,Kataoka H,Satoh Y.Can spatiotemporal 3D CNNs retrace the history of 2D CNNs and ImageNet?[C]//Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition.Piscataway,NJ:IEEE Press,2018:6546-6555.

        [16]Qiu Zhaofan,Yao Ting,Mei Tao.Learning spatio-temporal representation with pseudo-3D residual networks[C]//Proc of IEEE Conference on Computer Vision and Pattern Recognition.Washington DC:IEEE Computer Society,2017:5534-5542.

        [17]Tran D,Wang Heng,Torresani L,et al.A closer look at spatiotemporal convolutions for action recognition[C]//Proc of IEEE/CVF Confe-rence on Computer Vision and Pattern Recognition.Piscataway,NJ:IEEE Press,2018:6450-6459.

        [18]Xie Saining,Sun Chen,Huang J,et al.Rethinking spatiotemporal feature learning:speed-accuracy trade-offs in video classification[C]//Proc of the 15th European Conference on Computer Vision.Cham:Springer,2018:318-335.

        [19]Gao Shanghua,Cheng Mingming,Zhao Kai,et al.Res2Net:a new multi-scale backbone architecture[J].IEEE Trans on Pattern Ana-lysis and Machine Intelligence,2021,43(2):652-662.

        [20]Vaswani A,Shazeer N,Parmar N,et al.Attention is all you need[C]//Proc of the 31st International Conference on Neural Information Processing Systems.Red Hook,NY:Curran Associates Inc.,2017:6000-6010.

        [21]Woo S,Park J,Lee J Y,et al.CBAM:convolutional block attention module[C]//Proc of the 15th European Conference on Computer Vision.Cham:Springer,2018:3-19.

        [22]Hu Jie,Shen Li,Albanie S,et al.Squeeze-and-excitation networks[J].IEEE Trans on Pattern Analysis and Machine Intelligence,2020,42(8):2011-2023.

        [23]Fu Jun,Liu Jing,Tian Haijie,et al.Dual attention network for scene segmentation[C]//Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition.Piscataway,NJ:IEEE Press,2019:3141-3149.

        [24]Shi Xingjian,Chen Zhourong,Wang Hao,et al.Convolutional LSTM network:a machine learning approach for precipitation nowcasting[C]//Advances in Neural Information Processing Systems.2015:802-810.

        [25]Wang Qilong,Wu Banggu,Zhu Pengfei,et al.ECA-Net:efficient channel attention for deep convolutional neural networks[C]//Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition.Piscataway,NJ:IEEE Press,2020:11531-11539.

        [26]Liu Li,Shao Ling.Learning discriminative representations from RGB-D video data[C]//Proc of the 23rd International Joint Conference on Artificial Intelligence.Palo Alto,CA:AAAI Press.2013:1493-1500.

        [27]Liu Chuan,Wang Wenyong,Wang Meng,et al.An efficient instance selection algorithm to reconstruct training set for support vector machine[J].Knowledge-Based Systems,2017,116(1):58-73.

        [28]Li Dexu,Chen Yimin,Gao Mingke,et al.Multimodal gesture recognition using densely connected convolution and BLSTM[C]//Proc of the 24th International Conference on Pattern Recognition.Piscataway,NJ:IEEE Press,2018:3365-3370.

        [29]Nishida N,Nakayama H.Multimodal gesture recognition using multi-stream recurrent neural network[C]//Proc of the 7th Pacific-Rim Symposium on Image and Video Technology.Cham:Springer,2016:682-694.

        [30]Zhu Guangming,Zhang Liang,Shen Peiyi,et al.Multimodal gesture recognition using 3D convolution and convolutional LSTM[J].IEEE Access,2017,5:4517-4524.

        [31]Lu Zhi,Qin Shiyin,Li Xiaojie,et al.One-shot learning hand gesture recognition based on modified 3D convolutional neural networks[J].Machine Vision and Applications,2019,30(10):1157-1180.

        [32]Tang Xianlun,Yan Zhenfu,Peng Jiangping,et al.Selective spatiotemporal features learning for dynamic gesture recognition[J].Expert Systems with Applications,2021,169(5):114499.

        [33]Peng Yuqing,Tao Huifang,Li Wei,et al.Dynamic gesture recognition based on feature fusion network and variant ConvLSTM[J].IET Image Processing,2020,14(11):2480-2486.

        国产精品视频二区不卡| 国产91久久精品成人看网站| 一本之道日本熟妇人妻| 久久理论片午夜琪琪电影网| 中文无码久久精品| 无码中文字幕在线DVD| 亚洲香蕉毛片久久网站老妇人| 亚洲国产综合精品一区| 亚洲av无码一区东京热久久| 国产激情内射在线影院| 日本一区二区啪啪视频| 少妇高潮免费在线观看| 神马影院午夜dy888| 深夜福利小视频在线观看 | 一区二区三区在线日本视频 | 无码人妻精品一区二区三区9厂 | 国产三级韩三级日产三级| 欧美伦费免费全部午夜最新| 亚洲人成无码www久久久| 91青青草久久| 国产午夜影视大全免费观看| 国产精品无码久久久久下载 | 久久精品国产亚洲夜色av网站| 最近日本免费观看高清视频| 亚洲欧美日韩一区二区在线观看| 口爆吞精美臀国产在线| 久久精品国产亚洲av果冻传媒| 丰满熟女人妻中文字幕免费| 国产精品欧美韩国日本久久| 日本一区二区三区爱爱视频 | 国产成人午夜精华液| 成年男人裸j照无遮挡无码| 亚洲1区第2区第3区在线播放| 亚洲乱亚洲乱妇| 国产精品麻豆成人AV电影艾秋| 日韩中文字幕一区二十| 无码a级毛片免费视频内谢5j| 无码一区二区三区老色鬼| 中文字幕日韩熟女av| 亚洲人不卡另类日韩精品| 99re热视频这里只精品|