亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        融合自適應圖卷積與Transformer序列模型的中文手語翻譯方法

        2023-01-01 00:00:00應捷徐文成楊海馬劉瑾鄭樂芊
        計算機應用研究 2023年5期

        摘要:針對手語翻譯方法所存在的動作特征提取以及時序翻譯方面存在的問題,提出一種融合自適應圖卷積AGCN與Transformer時序模型的AGCN-T手語翻譯網(wǎng)絡。自適應圖卷積網(wǎng)絡用于學習手語動作中骨骼節(jié)點的交互空間依賴信息;Transformer時序模塊捕捉手語動作序列的時間關(guān)系特征信息并將其翻譯成可理解的手語內(nèi)容。此外,在預處理部分,提出了一種移動窗口的關(guān)鍵幀提取算法,并用MediaPipe姿態(tài)估計算法對關(guān)鍵幀圖像序列進行骨架提取。實驗表明,該方法在大型中文連續(xù)手語數(shù)據(jù)集CCSL的詞錯率達到了3.75%,精度為97.87%,優(yōu)于其他先進的手語翻譯方法。

        關(guān)鍵詞:手語翻譯;自適應圖卷積;Transformer時序模型;關(guān)鍵幀提?。蛔藨B(tài)估計

        中圖分類號:TP391.4文獻標志碼:A

        文章編號:1001-3695(2023)05-048-1589-06

        0引言

        手語在聾啞人群的日常生活中起著不可或缺的作用,它與其他語言類似,也有著特定的表達方式。手語語義解釋任務的目的是將手語視頻轉(zhuǎn)換為可理解的文本信息,一般可分為手語識別和手語翻譯任務。手語識別任務是要解決視頻幀與手勢詞匯的映射問題,因此手語識別也被視做一個視頻分類任務。而手語翻譯是將動作序列轉(zhuǎn)換成連續(xù)的詞匯序列,更符合現(xiàn)實表達。因此,本文對手語翻譯任務進行研究,將視頻中連續(xù)手語動作的姿態(tài)信息翻譯成語義豐富長句子序列。

        早期關(guān)于手語識別工作中,研究人員較多使用手工特征來獲取手語姿態(tài)特征。如Zhang等人[1]提出一種自適應的隱馬爾可夫算法識別中文手語,利用帶主成分分析的方向梯度直方圖(histogramoforientedgradient,HOG)[2]的方法來捕捉外觀特征信息。得益于深度學習技術(shù)在圖像領(lǐng)域的發(fā)展,Guo等人[3]構(gòu)建了一種基于分層深度遞歸融合的手語翻譯方法,利用三維卷積神經(jīng)網(wǎng)絡(3DCNN)對手語的動作序列進行特征提取并利用LSTM(longshorttermmemory)進行全局時間線索的表征學習。盡管利用手工或者卷積網(wǎng)絡獲取手語圖像的方法可以獲取到較高的準確率,但它們在對手語視頻捕捉特征的同時也會關(guān)注圖像中其他無關(guān)的背景,導致冗余信息過多而致使識別效率降低。

        隨著人體姿態(tài)估計技術(shù)的快速發(fā)展,可以利用姿態(tài)估計算法從輸入的RGB手語視頻提取出手語動作的骨架數(shù)據(jù)信息。與圖像數(shù)據(jù)模態(tài)的手語識別方法[4]相比,骨架數(shù)據(jù)不需要考慮手語視頻的復雜背景以及冗余信息。Ko等人[5]利用OpenPose[6]姿態(tài)算法獲得連續(xù)手語姿態(tài)節(jié)點,并通過時序編—解碼模型進行手語句子序列預測。Xiao等人[7]提出了基于骨骼數(shù)據(jù)的雙向生成的中文孤立手語識別模型。盡管這些方法通過姿態(tài)估計的方法實現(xiàn)對手語動作的識別,但它們并沒有關(guān)注手語姿態(tài)的骨架關(guān)節(jié)點之間的空間相關(guān)性。

        進一步,Yan等人[8]提出時空圖卷積模型(spatialtemporalgraphconvolutionalnetwork,ST-GCN)來捕捉動態(tài)骨骼運動特征的時空依賴關(guān)系,他們認為骨骼動作信息最能夠表現(xiàn)人的運動意識,而且骨架信息對尺度變化、背景干擾等因素具有很強的魯棒性。Amorim等人[9]將這種基于骨架序列的時空圖卷積動作識別方法應用到手語識別任務上。然而,這種方法只依賴人體固有的關(guān)節(jié)連接圖信息,忽略了那些不相鄰的關(guān)節(jié)聯(lián)系。比如“鼓掌”時,雙手之間進行接觸從而產(chǎn)生潛在的依賴關(guān)系,但是雙手在人體物理結(jié)構(gòu)上不相連接。

        因此,本文提出一種融合自適應圖卷積(adaptivegraphconvolutionnetwork,AGCN)與Transformer時序模型的AGCN-T手語翻譯網(wǎng)絡。其中,AGCN用于捕捉手語動作骨架節(jié)點的長距離依賴關(guān)系,相比原有的ST-GCN[8],它具有更好的動作結(jié)構(gòu)適應能力。最后利用Transformer[10,11]序列模型來捕捉空間特征序列的上下文依賴關(guān)系并輸出預測詞匯序列??傊疚姆椒ǖ呢暙I可歸納為:

        a)提出了一種自適應圖卷積網(wǎng)絡應用于手語翻譯任務的動作空間特征捕捉,這種自適應結(jié)構(gòu)使圖卷積網(wǎng)絡能夠更好地適應動作結(jié)構(gòu)。

        b)采用具有多注意力機制的Transformer時序模塊,用于捕捉自適應圖卷積網(wǎng)絡獲取的空間特征序列的時間上下文依賴關(guān)系并將其翻譯成可理解的手語內(nèi)容。

        c)提出利用姿態(tài)估計算法從手語視頻關(guān)鍵幀圖像序列中捕捉手部、面部以及身體的骨架數(shù)據(jù)。相比于圖像數(shù)據(jù),骨架數(shù)據(jù)具有噪聲少、魯棒性高、計算開銷少等優(yōu)點。

        d)提出的AGCN-T手語翻譯框架在CCSL(Chineseconti-nuoussignlanguage)中文連續(xù)手語數(shù)據(jù)集中進行了大量的實驗,表明本文提出的手語翻譯方法的有效性。

        1基于自適應圖卷積與時序注意力模型的手語翻譯方法

        1.1總體概述

        如圖1所示,提出的AGCN-T手語翻譯框架結(jié)構(gòu)包含三個部分:

        a)關(guān)鍵幀提取和姿態(tài)估計模塊。由于手語視頻圖像數(shù)據(jù)量大,本文采用基于移動窗口的關(guān)鍵幀處理方法實現(xiàn)手語動作關(guān)鍵幀提取,以提高手語識別及翻譯的效率和準確率。然后從手語視頻關(guān)鍵幀圖像序列中捕捉手部、面部以及身體的骨架數(shù)據(jù)。相比于傳統(tǒng)采用圖像數(shù)據(jù)進行手語識別的方法,骨架數(shù)據(jù)具有噪聲少、魯棒性高、計算開銷少的優(yōu)點。

        b)自適應圖卷積模塊。由于手語動作的骨架分布是一種非歐氏結(jié)構(gòu)數(shù)據(jù),本文設計了一種可變長的卷積核來提取骨骼圖的空間特征并在原始人體姿態(tài)的圖結(jié)構(gòu)上引入可學習固有骨架的鄰接信息的參數(shù)矩陣LP和用于捕捉任意長距離不相鄰節(jié)點依賴關(guān)系的參數(shù)矩陣BP。這使得融合后的特征既包含原有的人體特征,又包含不相鄰手語動作節(jié)點之間的依賴聯(lián)系。最后對多個自適應圖卷積模塊進行堆疊排列,并在各個模塊之間添加殘差連接,使模型提高了信息流通,避免了梯度消失和退化的問題。

        c)時序翻譯模塊。采用具有多注意力機制的Transformer時序模塊,用于捕捉自適應圖卷積網(wǎng)絡生成的空間特征序列的時間上下文依賴關(guān)系,并將其翻譯成可理解的手語內(nèi)容。

        1.2基于移動窗口的關(guān)鍵幀處理

        連續(xù)手語視頻包含過渡性的幀圖像和關(guān)鍵動作的幀圖像,關(guān)鍵幀所對應的手語動作往往包含著更多信息。首先,本文方法利用幀間差分法[12]獲取圖像差分值。如圖2所示,假定當前樣本視頻的相鄰兩幀圖像分別為Fn-1和Fn,在灰度處理后計算其絕對差分值并得到差分圖像De,最后進行二值處理得到圖像差分值并將其標準化處理。

        其次,考慮到對圖像差分值進行排序并取前k個最大的作為關(guān)鍵幀的方法會使峰值點附近的幀被選取,而這些圖像多為相似場景。因此,本文方法采用算法1獲取關(guān)鍵幀圖像。圖3為移動窗口法關(guān)鍵幀輸出。圖4為相應的關(guān)鍵幀圖像以及對應的標準差分值,圖下標識為索引值、標準差分值。

        算法1移動窗口關(guān)鍵幀提取算法

        輸入:手語樣本視頻和關(guān)鍵幀的數(shù)量K。

        輸出:關(guān)鍵幀圖像。

        a)遍歷樣本視頻獲取圖像幀數(shù)量N并按照幀間差分法輸出標準圖像差分值D,然后根據(jù)輸入的關(guān)鍵幀數(shù)K計算移動窗口的尺寸w=N/K。

        b)初始化移動窗的起點和終點分別為m0=0、m1=N-1。判定當前幀索引t是否滿足t-w/2gt;m0或t+w/2lt;m1。

        c)如果滿足,則當前窗口的起點和終點重置為m0=t-w/2,m1=t+w/2,否則保持初始化的值。

        d)比較當前移動窗口[m0,m1]內(nèi)圖像幀對應的差分值并將最大的差分值d對應的圖像索引值t存入數(shù)組M。執(zhí)行完轉(zhuǎn)步驟b),直至所有幀都執(zhí)行完。

        e)根據(jù)得到的關(guān)鍵幀索引的數(shù)組M=[t1,t2,…,tk]輸出關(guān)鍵幀圖像。

        首先利用MediaPipe[13]框架的姿態(tài)估計算法對輸入的關(guān)鍵幀序列進行骨架數(shù)據(jù)獲取。如圖5所示,每幀圖像估計的67個骨骼關(guān)節(jié)點包括25個上半身節(jié)點以及兩只手的各21個關(guān)節(jié)點。手語動作的骨架分布是一種非歐氏結(jié)構(gòu)數(shù)據(jù),不能直接用常見的卷積神經(jīng)網(wǎng)絡CNN或者遞歸神經(jīng)網(wǎng)絡RNN進行處理。圖卷積的本質(zhì)就是尋找一個可學習的卷積核,可以類比于CNN在二維圖像上的卷積特征提取,設計一種可變長的卷積核來提取骨骼圖的空間特征。

        1.4自適應圖卷積網(wǎng)絡

        1.3節(jié)所構(gòu)建的手語動作的骨架圖數(shù)據(jù)的拓撲結(jié)構(gòu)為人身體的物理結(jié)構(gòu),它產(chǎn)生的圖數(shù)據(jù)僅僅表示了人肢體關(guān)節(jié)的相互鄰接的節(jié)點依賴聯(lián)系,無法傳達出非相鄰肢體節(jié)點之間的交互信息。如圖6所示,“人”對應的動作,雙手之間的聯(lián)系更為密切,但雙手并沒有直接連接;“洗臉”對應的動作,手與臉之間的聯(lián)系更為密切,但手與臉在骨架上并不是直接連接。因此,構(gòu)建不相鄰骨架節(jié)點之間的交互聯(lián)系是有必要的。

        如圖8所示,本文在空間特征提取模塊將多個自適應圖卷積單元進行堆疊排列,并在各個模塊之間添加殘差連接,使模型提高了信息流通,避免了梯度消失和退化的問題。上述過程為單幀手語骨架的空間特征提取過程,對于手語視頻的所有幀重復相同的過程并按照時間維度進行拼接。具體地,單個視頻(B=1)每幀的數(shù)據(jù)維度為B×D×V,通過核k=(1,V)平均池化操作后得到數(shù)據(jù)維度為B×D×1,最后將T幀的空間特征序列拼接后得到數(shù)據(jù)XB×D×T。

        1.5Transformer序列翻譯模塊

        Transformer[10,11]序列翻譯網(wǎng)絡最早是用于解決機器翻譯問題而提出來。與以往基于RNN或CNN的編解碼器網(wǎng)絡不同,它完全基于注意力機制的編解碼器網(wǎng)絡,主要由多頭注意力模塊(multi-headattention,MHA)、位置前饋網(wǎng)絡(positionfeedforwardnetwork,PFFN)以及位置編碼層(positionencoding,PE)等模塊構(gòu)成。

        如圖1(b)所示,首先需要對Transformer網(wǎng)絡編碼器以及解碼器的輸入端分別進行手語特征向量嵌入和語料詞句序列向量嵌入。a)對于編碼器,首先將自適應圖卷積網(wǎng)絡產(chǎn)生的骨架空間特征序列XB×D×T線性投影為模型所需要的數(shù)據(jù)XB×DTrans×T,由于Transformer擯棄了RNN形式的編解碼器結(jié)構(gòu),導致其自注意力結(jié)構(gòu)不會處理序列的位置信息,所以,需要在編碼器的embedding層后加入位置編碼層得到X′t;b)在解碼器輸入端,首先本文將語料庫中手語句子所包含的詞語以及特殊符號構(gòu)成詞匯庫,然后將對應詞向量Y={Ym}Mm=1進行詞向量嵌入和位置編碼處理得到Y(jié)′t,M表示詞匯庫中詞語的數(shù)量。

        在解碼器端,多頭注意力函數(shù)還包括掩碼注意力模塊與交叉注意力模塊。其中,掩碼注意力模塊是解碼器特有的結(jié)構(gòu),由于模型進行解碼時是通過計算之前的輸出與當前的解碼器輸入信息來決定當前時刻的輸出內(nèi)容。所以為了保證將來的向量信息不被提前解碼,需要對當前時刻之后的信息進行掩碼處理。交叉注意力模塊主要用于捕捉手語空間特征與手語詞句信息的交互聯(lián)系,其中K、V來自于編碼器的輸出,Q來自于解碼器上一時刻的輸出。

        此外,編碼器或解碼器都是由N個相同的編碼層或解碼層堆疊而成的。每個編/解碼層包含多頭注意力層(MHA)和位置前饋層(PFFN)兩個子模塊,它們之間通過殘差歸一化模塊(addamp;LN)進行連接。其中add表示殘差連接,用于解決梯度消失以及權(quán)重矩陣退化問題;LN(layernormalization)表示層歸一化,對層特征歸一化可以保證數(shù)據(jù)分布的穩(wěn)定性,加速模型的收斂能力。由于多頭注意力層通過矩陣乘法計算變量的相似關(guān)系,但是這種線性變換的方式會抑制模型的表達能力。位置前饋層通過引入非線性ReLU激活函數(shù)來強化序列之間的表達能力。為了獲取最終預測句子序列,還需要對解碼器輸出out進行全連接線性映射并通過softmax函數(shù)歸一化預測值,最后通過字典映射輸出最大概率的單詞。

        2實驗與分析

        2.1數(shù)據(jù)預處理

        本文實驗模型部署的顯卡設備為NVIDIATeslaP40,框架環(huán)境為PyTorch1.10。實驗數(shù)據(jù)集是由USTC提供的中文連續(xù)手語數(shù)據(jù)集CCSL[16,17],表1顯示了數(shù)據(jù)集的具體信息。

        為了驗證模型的有效性,如表2所示,按手語工作者劃分樣本視頻。將前80%數(shù)據(jù)共計20000個樣本用于訓練(前40個手語工作者,40×5×100),剩余數(shù)據(jù)共計5000個樣本用于測試(后10個手語工作者,10×5×100)。

        其次,實驗對語料庫進行兩種策略的分詞處理:a)利用Python的分詞庫對原始語料庫進行分詞處理,生成的字典包含178個中文詞匯,此外,實驗分別為字典添加起始符、停止符、填充符〈SOS〉〈EOS〉〈PADING〉;b)考慮中文詞語可拆分成單獨的字,實驗對語料庫進行拆字處理,最終生成的字典包含253個字符。如圖10所示,在手語姿態(tài)骨架提取部分,考慮人體下半身并不參與手語動作的執(zhí)行,本實驗只選取身體部分上半身25個關(guān)節(jié)節(jié)點和手部的42個關(guān)節(jié)點。其次,由于MediaPipe姿態(tài)估計算法生成的身體節(jié)點與手部節(jié)點的維度不一,所以取其公共部分的二維坐標x、y作為模型的數(shù)據(jù)輸入。此外,為減少數(shù)據(jù)發(fā)散以及提高模型的推理能力,實驗對所獲取的骨架坐標數(shù)據(jù)進行了歸一化處理。

        2.2實驗參數(shù)

        原始視頻數(shù)據(jù)經(jīng)過姿態(tài)歸一化處理后得到的骨骼數(shù)據(jù)形狀為B×T×C×V(16×32×2×67),隨后將骨骼數(shù)據(jù)進行空間特征提取。其中自適應圖卷積模塊由三個AGCN單元構(gòu)成且每個單元的輸出通道均為64,并在最后一個AGCN輸出后加入池化層(池化核大小為(1,67))得到數(shù)據(jù)形狀為B×D×T(16×64×32)。在Transformer序列翻譯部分,輸入或輸出特征維度DTrans=512,多頭注意力機制的頭數(shù)h=4,編/解碼器對應的子編/解碼層數(shù)N=4。在訓練階段,設定樣本輸入批量大小為16,手語關(guān)鍵幀數(shù)量設置為32,初始學習率為1E-4,模型訓練輪次為200次。采用Adam優(yōu)化器來優(yōu)化網(wǎng)絡。此外為了防止模型過擬合,采用dropout正則化對參數(shù)進行隨機丟棄,dropout設定為0.5,權(quán)重衰減weight-decay設定為1E-5。

        2.3模型評價

        實驗使用WER、Ins、Del、precision、BLEU指標對手語翻譯模型進行評估。其中WER(worderrorrate)為詞錯率,表示目標句子與預測句子之間最小的編輯次數(shù)。允許的編輯操作包括替換、插入以及刪除等操作。

        WER=S+D+IN(13)

        其中:S表示替換次數(shù);D表示刪除次數(shù);I表示插入次數(shù);N表示目標詞匯的單詞數(shù);Del和Ins表示刪除和插入單詞的比例。如式(14)所示,precision表示嚴格正確的句子比例。BLEU[18]采用一種n-gram的匹配規(guī)則比較預測長句和目標長句n組詞的相似占比。

        precision=正確翻譯的句子中詞語的數(shù)量句子中詞語的總數(shù)量(14)

        2.4實驗分析

        2.4.1模型消融分析

        提出的AGCN-T手語翻譯網(wǎng)絡由用于空間特征提取的自適應圖卷積網(wǎng)絡和用于將特征序列翻譯成詞匯序列的Transformer序列翻譯網(wǎng)絡兩個部分構(gòu)成。為了驗證所設計模塊對實驗結(jié)果的影響,需要對實驗進行消融分析。

        a)為驗證骨架數(shù)據(jù)對模型性能的影響,對手語圖像數(shù)據(jù)進行對比實驗測試。具體為:利用兩種經(jīng)典的卷積網(wǎng)絡ResNet101[19,20]和Inception-ResNet[21]的預訓練模型對手語圖像進行卷積特征提取。考慮輸入的RGB視頻的尺寸(1280×720)過大,實驗將輸入的圖像尺寸等比例調(diào)整為128×72。隨后為了獲取預訓練卷積網(wǎng)絡捕捉的手語特征信息,需要將卷積網(wǎng)絡的最后一層全連接層進行刪除并將特征信息輸出至Transfor-mer編碼器輸入端。

        b)為驗證本文提出的自適應圖卷積模型的有效性,實驗利用原始圖卷積模型對骨架數(shù)據(jù)進行空間特征提取。為了保證實驗的公平性,骨架數(shù)據(jù)輸入格式以及模型的輸出通道數(shù)均保持不變。然后將原始圖卷積生成的特征信息輸出至Transformer編碼器輸入端。

        c)為驗證本文AGCN-T手語翻譯網(wǎng)絡的Transformer序列翻譯模型的有效性,對門控循環(huán)單元[5,22](gaterecurrentunit,GRU)時序編—解碼網(wǎng)絡進行對比實驗。通過將自適應圖卷積網(wǎng)絡生成的手語特征信息輸出至GRU時序編解碼網(wǎng)絡的編碼器的輸入端并對其進行編—解碼處理。

        實驗結(jié)果如表3所示,自適應圖卷積AGCN特征提取方法的Del、Ins、WER、precision、BLEU的評價指標分別為0.34%、0.21%、3.75%、97.87%、96.14%。它的各項性能均遠遠優(yōu)于基于圖像卷積ResNet-101[19,20]和Inception-ResNet圖像特征提取方法。

        如圖11(b)(c)所示,兩種卷積網(wǎng)絡都不同程度地捕捉到與手語動作特征的無關(guān)背景信息。相比之下,骨架數(shù)據(jù)量更少,對場景以及光照環(huán)境具有更強的魯棒性。其次,本文方法與圖卷積方法相比,詞錯率降低了1.68%,精度提升了3.73%。這表明本文自適應圖卷積方法可以學習到更多非相鄰骨架節(jié)點間的依賴聯(lián)系,更適合手語動作特征提取。

        此外,實驗將傳統(tǒng)的基于門控循環(huán)單元(gaterecurrentunit,GRU)的編—解碼模型與本文采用Transformers時序翻譯網(wǎng)絡進行對比,詞錯率上升了4.52%,精度下降了1.63%。這是由于GRU在進行長距離序列計算時會丟失時間信息,而Transformer是完全基于注意力機制的編解碼器的網(wǎng)絡結(jié)構(gòu),使其能夠?qū)﹂L序列進行上下文依賴特征進行建模。如圖12所示,實驗隨機選取四組樣本對兩種不同的時序模型進行測試,圖中基于Transformer的翻譯模型的結(jié)果對應預測句子1,GRU編解碼器模型的結(jié)果對應預測句子2。分析可知“他”“你”“是”等詞以及“幸?!薄拔摇睂氖謩莺芟嘟瑢е履P头g有誤。

        2.4.2字符形式的影響分析

        實驗考慮中文手語數(shù)據(jù)的句詞特性,如表4所示,將預測輸出端輸出形式劃分為詞語級和字符級進行比較。可以看出詞語級別的主要指標WER要低于字符級1.37%,precision要高于字符級2.53%。

        圖13(a)為詞語以及字符級的訓練和測試集損失值曲線比較,可以看出詞語級的loss損失值要略低于字符級。如圖13(b)可以看出,在整個迭代過程中詞語級的詞錯率要略低于字符級,而精度值precision要高于字符級。實驗分析可得詞語級的劃分策略表現(xiàn)得更好,這是因為詞語往往為多個字符的固定搭配,而翻譯就是將相關(guān)的字符或詞語進行排列組合得到對應句子。相比而言,同一個句子中詞語數(shù)要小于字符數(shù),這導致詞語級發(fā)生翻譯錯誤的概率要低于字符級。

        2.4.3不同手語翻譯方法分析

        實驗將其他在連續(xù)手語識別中廣泛應用的方法與本文模型進行比較,其實驗結(jié)果如表5所示。比較方法包括LSTM+CTC[23,24]、SLT[24,25]、RNN-Transducer[24]、KA[24,26]、SkeletonCSLR[5]等。LSTM+CTC模型利用連接主義時間分類CTC[27]模塊對目標函數(shù)進行標簽的約束對齊。RNN-Transducer[20]通過聯(lián)合網(wǎng)絡Joint-Net將卷積網(wǎng)絡學習到的視頻特征和句子表征結(jié)合起來。KA[26]通過聯(lián)合使用CTC和注意力機制來訓練模型的分層搜索關(guān)鍵動作并實現(xiàn)手語翻譯。SkeletonCSLR[5]通過姿態(tài)識別算法獲取手語動作的姿態(tài)信息,并直接送入時序編—解碼網(wǎng)絡進行連續(xù)手語序列解碼。從表5可以看出,AGCN-T手語翻譯框架與僅基于骨架數(shù)據(jù)的SkeletonCSLR手語翻譯方法相比,詞錯率降低了2.78%。

        3結(jié)束語

        本文提出了一種新的基于手語動作骨架序列的AGCN-T手語翻譯方法,該方法的網(wǎng)絡結(jié)構(gòu)主要包含自適應圖卷積模塊和Transformer時序模塊兩部分。其中自適應圖卷積模塊用于捕捉動作固有節(jié)點與長距離骨架節(jié)點的空間依賴關(guān)系;Transformer序列網(wǎng)絡用于捕捉不同動作幀的時間依賴關(guān)系并融合手語詞匯序列的語義信息實現(xiàn)連續(xù)手語翻譯。實驗在大型連續(xù)手語數(shù)據(jù)集CCSL上對不同的特征提取器、文本序列輸出形式以及不同手語翻譯模型對本文算法進行比對,結(jié)果表明本文方法的有效性。

        盡管提出的手語翻譯框架通過分別捕捉手語序列的空間和時間特征信息的方法在CCSL數(shù)據(jù)集上表現(xiàn)出較好的翻譯效果,但是由于手語動作運動過快,部分肢體的骨架信息丟失。后續(xù)的研究希望增加其他模態(tài)的數(shù)據(jù)來提高模型的性能。

        參考文獻:

        [1]ZhangJihai,ZhouWengang,XieChao,etal.Chinesesignlanguagere-cognitionwithadaptiveHMM[C]//ProcofIEEEInternationalConfe-renceonMultimediaandExpo.Piscataway,NJ:IEEEPress,2016:1-6.

        [2]MahmudI,TabassumT,UddinMP,etal.EfficientnoisereductionandHOGfeatureextractionforsignlanguagerecognition[C]//ProcofInternationalConferenceonAdvancementinElectricalandElectronicEngineering.Piscataway,NJ:IEEEPress,2018:1-4.

        [3]GuoDan,ZhouWengang,LiAnyang,etal.Hierarchicalrecurrentdeepfusionusingadaptiveclipsummarizationforsignlanguagetranslation[J].IEEETransonImageProcessing,2019,29:1575-1590.

        [4]郝子煜,阿里甫庫爾班,李曉紅,等.基于CapsNet的中國手指語識別[J].計算機應用研究,2019,36(10):3157-3159.(HaoZiyu,AliFukulban,LiXiaohong,etal.ChinesefingerlanguagerecognitionbasedonCapsNet[J].ApplicationResearchofComputers,2019,36(10):3157-3159.)

        [5]KoSK,KimCJ,JungH,etal.Neuralsignlanguagetranslationbasedonhumankeypointestimation[J].AppliedSciences,2019,9(13):2683.

        [6]CaoZhe,SimonT,WeiSE,etal.Realtimemulti-person2Dposeestimationusingpartaffinityfields[C]//ProcofIEEEConferenceonComputerVisionandPatternRecognition.Piscataway,NJ:IEEEPress,2017:1302-1310.

        [7]XiaoQinkun,QinMinying,YinYuting.Skeleton-basedChinesesignlanguagerecognitionandgenerationforbidirectionalcommunicationbetweendeafandhearingpeople[J].NeuralNetworks,2020,125:41-55.

        [8]YanSijie,XiongYuanjun,LinDahua.Spatialtemporalgraphconvolutionalnetworksforskeleton-basedactionrecognition[C]//Procofthe32ndAAAIConferenceonArtificialIntelligence.PaloAlto,CA:AAAIPress,2018:7444-7452.

        [9]AmorimCC,MacêdoD,ZanchettinC.Spatial-temporalgraphconvolutionalnetworksforsignlanguagerecognition[C]//ProcofInternationalConferenceonArtificialNeuralNetworks.Cham:Springer,2019:646-657.

        [10]VaswaniA,ShazeerN,ParmarN,etal.Attentionisallyouneed[EB/OL].(2017-12-06).http://doi.org/10.48550/arxiv.1706.03762.

        [11]DuYao,XiePan,WangMingye,etal.Fulltransformernetworkwithmaskingfutureforword-levelsignlanguagerecognition[J].Neurocomputing,2022,500:115-123.

        [12]戴鑫,黃愐,張進.幀間差法在視頻目標檢測的仿真應用[J].電子技術(shù)與軟件工程,2021(21):110-111.(DaiXin,HuangMian,ZhangJin.Simulationapplicationofframedifferencemethodinvideotargetdetection[J].ElectronicTechnologyandSoftwareEngineering,2021(21):110-111.)

        [13]BazarevskyV,GrishchenkoI,RaveendranK,etal.BlazePose:on-devicereal-timebodyposetracking[EB/OL].(2020-06-17).http://doi.org/10.48550/arxiv.2006.10204.

        [14]ShiLei,ZhangYifan,ChengJian,etal.Two-streamadaptivegraphconvolutionalnetworksforskeleton-basedactionrecognition[C]//ProcofIEEE/CVFConferenceonComputerVisionandPatternRe-cognition.Piscataway,NJ:IEEEPress,2019:12018-12027.

        [15]HuangYuan,HouXingsong,DunYujie,etal.Anon-localenhancednetworkforimagerestoration[J].IEEEAccess,2022,10:29528-29542.

        [16]PuJunfu,ZhouWengang,LiHouqiang.Iterativealignmentnetworkforcontinuoussignlanguagerecognition[C]//ProcofIEEE/CVFConferenceonComputerVisionandPatternRecognition.Piscataway,NJ:IEEEPress,2019:4160-4169.

        [17]ZhouHao,ZhouWengang,LiHouqiang.Dynamicpseudolabeldecodingforcontinuoussignlanguagerecognition[C]//ProcofIEEEInternationalConferenceonMultimediaandExpo.Piscataway,NJ:IEEEPress,2019:1282-1287.

        [18]PapineniK,RoukosS,WardT,etal.BLEU:amethodforautomaticevaluationofmachinetranslation[C]//Procofthe40thAnnualMee-tingoftheAssociationforComputationalLinguistics.Stroudsburg,PA:AssociationforComputationalLinguistics,2002:311-318.

        [19]HeKaiming,ZhangXiangyu,RenShaoqing,etal.Deepresiduallearningforimagerecognition[C]//ProcofIEEEConferenceonComputerVisionandPatternRecognition.Piscataway,NJ:IEEEPress,2016:770-778.

        [20]楊觀賜,韓海峰,劉賽賽,等.基于全局注意力機制和LSTM的連續(xù)手語識別算法[J].包裝工程藝術(shù)版,2022,43(8):28-34.(YangGuanci,HanHaifeng,LiuSaisai,etal.ContinuoussignlanguagerecognitionalgorithmbasedonglobalattentionmechanismandLSTM[J].PackagingEngineeringArtEdition,2022,43(8):28-34.)

        [21]SzegedyC,IoffeS,VanhouckeV,etal.Inception-v4,inception-ResNetandtheimpactofresidualconnectionsonlearning[C]//Procofthe31stAAAIConferenceonArtificialIntelligence.Stroudsburg,PA:AAAIPress,2017:4278-4284.

        [22]ChoK,VanMerrienboerB,GulcehreC,etal.LearningphraserepresentationsusingRNNencoder-decoderforstatisticalmachinetranslation[EB/OL].(2014-09-03).http://doi.org/10.48550/arxiv.1406.1078.

        [23]張淑軍,王帥,李輝.基于CNN和BLSTM的連續(xù)手語識別[J].重慶理工大學學報:自然科學版,2022,36(4):177-186.(ZhangShujun,WangShuai,LiHui.ContinuoussignlanguagerecognitionbasedonCNNandBLSTM[J].JournalofChongqingUniversityofScienceandTechnology:NaturalScience,2022,36(4):177-186.)

        [24]GaoLiqing,LiHaibo,LiuZhijian,etal.RNN-transducerbasedChinesesignlanguagerecognition[J].Neurocomputing,2021,434:45-54.

        [25]CamgozNC,KollerO,HadfieldS,etal.Signlanguagetransformers:jointend-to-endsignlanguagerecognitionandtranslation[C]//ProcofIEEE/CVFConferenceonComputerVisionandPatternRecognition.Piscataway,NJ:IEEEPress,2020:10020-10030.

        [26]LiHaibo,GaoLiqing,HanRuize,etal.KeyactionandjointCTC-attentionbasedsignlanguagerecognition[C]//ProcofIEEEInternationalConferenceonAcoustics,SpeechandSignalProcessing.Pisca-taway,NJ:IEEEPress,2020:2348-2352.

        [27]GravesA,F(xiàn)ernándezS,GomezF,etal.Connectionisttemporalclassification:labellingunsegmentedsequencedatawithrecurrentneuralnetworks[C]//Procofthe23rdInternationalConferenceonMachineLearning.NewYork:ACMPress,2006:369-376.

        少妇伦子伦精品无吗| 亚洲av成人一区二区三区色| 男女视频在线观看一区二区| 麻豆精品一区二区av白丝在线| 怡红院av一区二区三区| 国产一区日韩二区欧美三区| 亚洲图片第二页| 男女视频一区二区三区在线观看| 热99re久久精品这里都是精品免费 | 伊人婷婷综合缴情亚洲五月| 中文人妻av久久人妻水蜜桃| 亚洲欧洲偷自拍图片区| 揄拍成人国产精品视频肥熟女 | 日韩欧美第一页| 国产精品人成在线765| 丰满人妻一区二区三区蜜桃| 国产成人aaaaa级毛片| 试看男女炮交视频一区二区三区| 老熟妇高潮av一区二区三区啪啪 | 日本国产一区在线观看| 欧美成人精品第一区| 东北寡妇特级毛片免费| 乱子伦av无码中文字幕| 日本人妻三级在线观看 | 人妻夜夜爽天天爽三区丁香花| 欧洲熟妇色xxxx欧美老妇多毛图片| 亚洲国产一区二区三区网| 中文字幕 在线一区二区| 99久久婷婷国产亚洲终合精品| 欧美亚洲色综久久精品国产| 欧美日韩亚洲国产千人斩| 精品人妻中文字幕一区二区三区| 日本久久精品福利视频| 色欲综合一区二区三区| 欧美三级一区| 免费的黄网站精品久久| 手机看片自拍偷拍福利| 无码毛片视频一区二区本码| 91亚洲人成手机在线观看| 日本97色视频日本熟妇视频| 极品老师腿张开粉嫩小泬|