亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

基于全局注意力機(jī)制的漢語手語詞翻譯

2022-07-01 15:58:56朱連淼楊波郭佳君陳曉燚

中南民族大學(xué)學(xué)報(bào)(自然科學(xué)版) 2022年4期

朱連淼，楊波，郭佳君，陳曉燚

（中南民族大學(xué) 計(jì)算機(jī)科學(xué)學(xué)院，武漢 430074）

據(jù)統(tǒng)計(jì)，截止到2020 年我國(guó)聽力殘疾人數(shù)約2780 萬人，占全國(guó)殘疾人總數(shù)的30%以上.而聾啞人之間的相互交流以及其同非聾啞人的相互交流主要依靠手語進(jìn)行.因此高精度的手語翻譯算法對(duì)于解決聾啞人的交流問題有著重大意義.手語又可以細(xì)分為手指語和手勢(shì)語，其中前者用手指的指示變化代表字母數(shù)字，通過字母拼寫出詞，常常作為聾啞人教育的交流工具；而后者則以手部動(dòng)作結(jié)合上肢動(dòng)作進(jìn)行表達(dá)，平時(shí)所說的手語大多指手勢(shì)語，手勢(shì)語也是聾啞人溝通的主要方式.本文的研究重點(diǎn)主要放在手勢(shì)語的孤立詞翻譯.

在手勢(shì)語翻譯的早期研究中，研究人員大多采用人工設(shè)置特征輔以分類器的傳統(tǒng)方法，如ZHOU等［1］提出了一種基于全局模板的動(dòng)態(tài)時(shí)間規(guī)整算法，該算法通過統(tǒng)計(jì)方法，將定義的手勢(shì)樣本離散化形成全局模板，并在180個(gè)手勢(shì)識(shí)別上取得了95.6%的準(zhǔn)確率.ZHANG 等［2］提出了一種自適應(yīng)的隱馬爾可夫模型，該模型從形狀上下文的軌跡特征中獲取時(shí)空特征，通過融合軌跡和手形概率的組合方法進(jìn)行漢語手語識(shí)別，并在自建數(shù)據(jù)集上獲得了86%的準(zhǔn)確率.YE 等［3］將隱馬爾科夫模型與支持向量機(jī)結(jié)合構(gòu)建了一個(gè)多層體系結(jié)構(gòu)的分類器，并根據(jù)結(jié)果動(dòng)態(tài)更新易混淆集來優(yōu)化，取得了89.4%的準(zhǔn)確率.

雖然傳統(tǒng)的手語翻譯方法取得了一定成果，但其翻譯的準(zhǔn)確率依賴于人工設(shè)置特征的有效性.漢語手語詞種類較多，且部分手語詞手勢(shì)動(dòng)作較為復(fù)雜，給人工設(shè)置特征造成了一定困難，同時(shí)人工設(shè)置特征是一個(gè)非常耗時(shí)的工作，這也導(dǎo)致了傳統(tǒng)的手語翻譯方法很難拓展到更大的手語數(shù)據(jù)集上.

近年來隨著計(jì)算機(jī)算力的提升和基于深度學(xué)習(xí)的計(jì)算機(jī)視覺的發(fā)展，在手語翻譯領(lǐng)域越來越多的學(xué)者開始進(jìn)行基于深度學(xué)習(xí)的手語翻譯方法研究.KOLLER 等［4］提出的混合卷積神經(jīng)網(wǎng)絡(luò)和隱馬爾可夫模型，結(jié)合了卷積神經(jīng)網(wǎng)絡(luò)的識(shí)別能力和隱馬爾可夫模型的序列建模能力，在PHOENIX-2014數(shù)據(jù)集上取得了較好的結(jié)果.HUANG 等［5］提出了一種新的三維卷積神經(jīng)網(wǎng)絡(luò)，它可以自動(dòng)從原始視頻流中提取出具有鑒別性的時(shí)空特征，從而避免特征設(shè)計(jì).作者通過使用多通道視頻流作為輸入，整合顏色、深度、軌跡信息，并在微軟Kinect 收集的數(shù)據(jù)集上驗(yàn)證了該方法的有效性.YANG等［6］將卷積神經(jīng)網(wǎng)絡(luò)與長(zhǎng)短時(shí)記憶網(wǎng)絡(luò)結(jié)合，構(gòu)建了一個(gè)可用于連續(xù)手語翻譯的模型，其借助卷積神經(jīng)網(wǎng)絡(luò)將手語視頻中抓取的圖像信息轉(zhuǎn)換為矢量，然后使用長(zhǎng)短時(shí)記憶網(wǎng)絡(luò)完成序列學(xué)習(xí)任務(wù)，并在自建數(shù)據(jù)集上取得了較高的準(zhǔn)確率.2014 年注意力機(jī)制［7］在自然語言處理領(lǐng)域被提出之后便成為國(guó)內(nèi)外學(xué)者的研究熱點(diǎn)，也有部分學(xué)者將注意力機(jī)制應(yīng)用到手語翻譯的研究中.如ZHOU 等［8］使用自注意力網(wǎng)絡(luò)作為全局特征提取器結(jié)合CTC（連接時(shí)序分類）進(jìn)行手語翻譯，并在RWTH-PHOENIX-Weather 2014 取得了31.3% 的詞錯(cuò)率 .SLIMANE 等［9］提出了一種用于連續(xù)手語的注意力網(wǎng)絡(luò)，該網(wǎng)絡(luò)通過注意力機(jī)制將手部特征與時(shí)空上下文進(jìn)行聚合以更好地識(shí)別，并在RWTH-PHOENIX-Weather 2014 數(shù)據(jù)集上驗(yàn)證了該方法的有效性.

為進(jìn)一步提升手語詞翻譯的準(zhǔn)確率，并克服上述方法由于手語動(dòng)作視頻較長(zhǎng)導(dǎo)致模型不能有效地關(guān)注到復(fù)雜手語詞動(dòng)作的上下文信息的問題，本文在傳統(tǒng)卷積神經(jīng)網(wǎng)絡(luò)結(jié)合長(zhǎng)短時(shí)記憶網(wǎng)絡(luò)的翻譯模型中添加了一個(gè)全局注意力機(jī)制以解決上述問題，并與其他算法的翻譯準(zhǔn)確率進(jìn)行了比較.

1 基于注意力機(jī)制的手語翻譯方法

1.1 整體網(wǎng)絡(luò)結(jié)構(gòu)

以RGB 手語視頻作為輸入的手語翻譯任務(wù)可以轉(zhuǎn)換為一個(gè)視頻多分類任務(wù).在漢語手語詞的翻譯中需要關(guān)注時(shí)間特征與空間特征，將視頻中手語動(dòng)作的時(shí)空特征結(jié)合才能提取出手語動(dòng)作的語義.故對(duì)于手語視頻需先將其逐幀分割成圖像，通過對(duì)圖像的卷積操作來提取單幀圖像的空間特征，按照視頻中的時(shí)間順序?qū)⑺崛〉膯螏瑘D像的空間特征組成特征序列之后，再提取特征序列的時(shí)間特征，由此通過時(shí)空特征信息對(duì)手語視頻進(jìn)行翻譯，整體網(wǎng)絡(luò)模型如圖1所示.

圖1 基于全局注意力的網(wǎng)絡(luò)結(jié)構(gòu)Fig.1 Network architecture based on global attention

手語翻譯的模型由用于提取空間特征的卷積神經(jīng)網(wǎng)絡(luò)、用于提取時(shí)間特征的長(zhǎng)短時(shí)記憶網(wǎng)絡(luò)、用于幫助模型關(guān)注序列中關(guān)鍵部分的全局注意力機(jī)制組成，其中對(duì)于卷積神經(jīng)網(wǎng)絡(luò)本文選用ResNet34.數(shù)據(jù)經(jīng)預(yù)處理之后輸入到模型中，由ResNet34 對(duì)單幀手語圖像特征進(jìn)行提取，并以固定的幀數(shù)將所提取出的空間特征組成特征序列，經(jīng)由一個(gè)線性層送入LSTM 中對(duì)空間特征序列的時(shí)間特征進(jìn)行提取，然后將時(shí)空特征送入注意力層.注意力層中所使用的全局注意力機(jī)制可以通過一個(gè)可訓(xùn)練的參數(shù)來計(jì)算對(duì)齊向量，最終得出上下文向量（1.4節(jié)），由此可以使模型關(guān)注到手語視頻中的關(guān)鍵幀.最后通過softmax層進(jìn)行分類輸出.

1.2 基于ResNet的空間特征提取

若要完成手語詞的高精度翻譯，則需對(duì)于單幀圖像中手語動(dòng)作的空間特征提取盡可能得充分，從而保證能夠完整地獲取到手勢(shì)特征.為滿足這點(diǎn)需求，用于提取空間特征的網(wǎng)絡(luò)層數(shù)勢(shì)必會(huì)增加，而傳統(tǒng)的卷積神經(jīng)網(wǎng)絡(luò)如 VGG［10］和 GoogleNet［11］隨著層數(shù)的增加有可能出現(xiàn)過擬合、梯度消失和梯度爆炸等問題；另一方面隨著網(wǎng)絡(luò)層數(shù)的加深，計(jì)算資源消耗也會(huì)大量增加.而HE 等［12］提出的深度殘差網(wǎng)絡(luò)可以有效地避免以上問題，ResNet 由殘差塊堆疊而成，核心思想就是通過跳轉(zhuǎn)連接的方式來解決隨著層數(shù)加深網(wǎng)絡(luò)退化的問題，其中殘差塊結(jié)構(gòu)如圖2 所示.其中x 為輸入，F(xiàn)(x)為映射函數(shù)，期望的最終映射輸出H(x) = F(x) + x，其結(jié)果就是映射函數(shù)與輸入之和.若F(x) = 0，則構(gòu)成了一個(gè)恒等映射.該方法可以有效地解決深度網(wǎng)絡(luò)的梯度消失或爆炸等問題.

圖2 殘差塊Fig.2 Residual block

由于本文所使用的手語數(shù)據(jù)集均在室內(nèi)環(huán)境下統(tǒng)一拍攝，背景單一且分割后的圖像幀分辨率不高，因此不需要更多層的ResNet 來進(jìn)行訓(xùn)練，另外更多層的ResNet 也會(huì)增加計(jì)算開銷，故本文選用ResNet34，其結(jié)構(gòu)如圖3所示.

圖3 ResNet34網(wǎng)絡(luò)結(jié)構(gòu)Fig.3 ResNet34 network structure

圖3 中Block_1 中使用兩個(gè)卷積核大小為3 × 3，通道數(shù)為 64 的卷積層，構(gòu)成一個(gè)如圖 2 所示的殘差塊，3個(gè)殘差塊堆疊成Block_1，同理Block_2、Block_3、Block_4也按照?qǐng)D3中所標(biāo)注的方式進(jìn)行堆疊.在同一個(gè)Block 中由于通道數(shù)一致，故采用H(x) = F(x) + x 的計(jì)算方式，不同Block 之間由于通道數(shù)不同，采用H(x) = F(x) + Wx 的計(jì)算方式，其中W為用于調(diào)整通道數(shù)的卷積操作.

1.3 基于LSTM的時(shí)序特征提取

對(duì)于ResNet34 所提取的空間特征序列，需要提取時(shí)序特征從而獲取手語視頻動(dòng)作的時(shí)空特征，再進(jìn)行翻譯，而循環(huán)神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)可以很好地處理時(shí)序信息，其中長(zhǎng)短時(shí)記憶網(wǎng)絡(luò)［13］在RNN 結(jié)構(gòu)的網(wǎng)絡(luò)中表現(xiàn)較為優(yōu)秀［14］，尤其是其能夠?qū)W習(xí)長(zhǎng)期的依賴關(guān)系，用于處理手語翻譯這類在前后時(shí)序關(guān)系上存在依賴的問題尤為合適，LSTM 記憶單元結(jié)構(gòu)圖如圖4所示.

圖4 長(zhǎng)短時(shí)記憶網(wǎng)絡(luò)記憶單元結(jié)構(gòu)Fig.4 LSTM memory cell structure

LSTM 核心思想為采用遺忘門、輸入門、輸出門對(duì)信息單元進(jìn)行控制，這3 個(gè)門決定了什么信息將會(huì)被舍棄，什么信息將會(huì)被輸出以及添加什么新信息.其中遺忘門決定上一個(gè)記憶單元中需要舍棄的信息，其通過輸入上一個(gè)記憶單元的狀態(tài)輸出ht-1和當(dāng)前狀態(tài)輸入信息xt到sigmoid 函數(shù)中產(chǎn)生一個(gè)0～1 之間的數(shù)并與Ct-1相乘之后決定保留多少信息，具體公式可表示為：

其中Wf表示輸入層到遺忘門的向量，σ 表示sigmoid激活函數(shù)，bf表示遺忘門與記憶單元的偏移量.

輸入門決定了哪些新信息將會(huì)被輸入，其通過上一狀態(tài)輸出ht-1和當(dāng)前狀態(tài)輸入信息xt通過sigmoid 函數(shù)決定要保留多少新信息，同時(shí)tanh 層也會(huì)通過ht-1和xt來得到一個(gè)將要加入到記憶單元中的新信息，公式可表示為：

其中Wi和WC分別表示輸入層到輸入門和記憶單元的權(quán)重向量，bi與bC則表示隱藏層到輸入門和記憶單元的偏移量.

輸出門則決定輸出什么信息，其流程與前面類似，同樣經(jīng)過sigmoid 函數(shù)得到ot來確定需要有多少信息從記憶單元中被輸出，公式如下：

而Wo與bo分別表示隱藏層到輸出門上的權(quán)重向量和輸出門與記憶單元的偏移量.將全部記憶單元的輸出ht進(jìn)行加權(quán)平均再通過softmax 層即可得到手語詞類別.

1.4 基于全局注意力機(jī)制的計(jì)算網(wǎng)絡(luò)

本文為解決ResNet-LSTM 模型在處理長(zhǎng)手語視頻時(shí)由于特征序列較長(zhǎng)從而導(dǎo)致手語翻譯的準(zhǔn)確率下降的問題，在模型中嵌入了一種全局注意力機(jī)制［15］，如圖5中虛線所框，注意力模塊幫助模型關(guān)注到特征序列中對(duì)于翻譯結(jié)果更為有用的部分，提升模型的翻譯準(zhǔn)確率.

圖5 全局注意力機(jī)制Fig.5 Global attention mechanism

全局注-意力機(jī)制在LSTM 頂層上增加一個(gè)注意力層，其中hS為源隱藏狀態(tài)，ht為當(dāng)前-目標(biāo)的隱藏狀態(tài)，at為對(duì)齊權(quán)重，ct為上下文向量，ht為注意力隱藏狀態(tài).注意力模型通過一個(gè)評(píng)分-函數(shù)在t 時(shí)刻根據(jù)當(dāng)前目標(biāo)狀態(tài)ht和所有源狀態(tài)hS計(jì)算出二者的相似度，評(píng)分函數(shù)如下：

使用一個(gè)簡(jiǎn)單的神經(jīng)網(wǎng)絡(luò)連接隱藏狀態(tài)，通過這個(gè)網(wǎng)絡(luò)獲得可學(xué)習(xí)的二維參數(shù)矩陣Wa和一維參數(shù)向量vTa，從而計(jì)算出評(píng)分.本文使用兩個(gè)全連接層實(shí)現(xiàn)評(píng)分函數(shù)中的這個(gè)網(wǎng)絡(luò)，其中第一層輸入和第二層的輸出都對(duì)應(yīng)著LSTM 隱藏層的維數(shù).在得到評(píng)分之后可以通過softmax 函數(shù)計(jì)算出對(duì)齊權(quán)重at，計(jì)算公式如下：

上-下文向量ct可通過計(jì)算對(duì)齊權(quán)重at和源隱藏狀態(tài)hS的加權(quán)平均值獲得，通過一個(gè)簡(jiǎn)單的全連接層來組合給定的目標(biāo)隱藏狀態(tài)ht和上-下文向量ct兩者的信息以求得注意力隱藏狀態(tài)ht，其公式可表示為：

對(duì)于計(jì)算出的注意力隱藏狀態(tài)-ht通過softmax層產(chǎn)生預(yù)測(cè)概率，見公式（7）.從而完成手語詞的翻譯任務(wù).

2 實(shí)驗(yàn)分析

2.1 數(shù)據(jù)集與數(shù)據(jù)預(yù)處理

本實(shí)驗(yàn)采用的數(shù)據(jù)集為中國(guó)科學(xué)技術(shù)大學(xué)所采集的 DEVISIGN_D 數(shù)據(jù)集［16］.該數(shù)據(jù)集是 DEVISIGN數(shù)據(jù)集的子集，包含了500個(gè)漢語手語的常用詞，其中每個(gè)詞語由RGB 視頻和深度骨架信息構(gòu)成.數(shù)據(jù)集由8名不同的手語表演者演示.對(duì)于其中4名表演者每個(gè)手語詞匯錄制兩遍，另外4 名表演者每個(gè)手語詞匯錄制一遍，總共6000組數(shù)據(jù).

首先將手語視頻數(shù)據(jù)逐幀分割成圖像，通過觀察分割成幀后的圖像可知其中包含部分無關(guān)的背景信息，而數(shù)據(jù)集中手語表演者均處在中間位置，故對(duì)圖片進(jìn)行粗略裁剪，僅保留圖像中間包含手語表演者的矩形部分，流程如圖6所示.

圖6 視頻數(shù)據(jù)處理Fig.6 Video data processing

通過觀察裁剪后的圖像發(fā)現(xiàn)存在大量的無用幀，即手語表演者開始錄制視頻時(shí)的靜止畫面和抬手動(dòng)作，如圖7所示.此類無用幀對(duì)于整個(gè)手語序列無任何實(shí)際意義，而且大量的無用幀也會(huì)影響模型的訓(xùn)練速度.

圖7 無用幀示例Fig.7 Examples of useless frames

對(duì)于此類無用幀的剔除，本實(shí)驗(yàn)選取每個(gè)手語視頻分割后的第一幀圖像作為基準(zhǔn)圖像，用其余圖像與基準(zhǔn)圖像計(jì)算兩張圖像的余弦相似度，若大于某閾值則剔除.在確定閾值時(shí)根據(jù)經(jīng)驗(yàn)選定閾值范圍，并通過多組實(shí)驗(yàn)確定閾值設(shè)定為0.997 時(shí)效果最好.對(duì)于剔除無用幀之后的6000 組圖像采用翻轉(zhuǎn)、旋轉(zhuǎn)的方法增強(qiáng)數(shù)據(jù)集，使數(shù)據(jù)集擴(kuò)大到原來的4倍.

2.2 實(shí)驗(yàn)配置與訓(xùn)練

實(shí)驗(yàn)中使用Pytorch 1.8框架實(shí)現(xiàn)本文所提出的模型，并進(jìn)行訓(xùn)練和測(cè)試.操作系統(tǒng)為Ubuntu18.04，GPU為NVIDIARTX 3090，處理器為Intel（R）Xeon（R）Glod 5218 R，內(nèi)存為64 G.

由于本文研究的是漢語連續(xù)手語詞的翻譯，故使用連續(xù)視頻幀作為輸入，設(shè)置連續(xù)的16幀圖像為一個(gè)輸入序列.為減少訓(xùn)練時(shí)間，實(shí)驗(yàn)中加載了Pytorch提供的ResNet34預(yù)訓(xùn)練模型，參數(shù)見表1.

表1 訓(xùn)練參數(shù)Tab.1 Training parameters

圖8為訓(xùn)練集和測(cè)試集損失值與準(zhǔn)確率變化趨勢(shì)，藍(lán)色曲線代表訓(xùn)練集，橙色曲線代表測(cè)試集，左圖為訓(xùn)練過程中損失值變化，右圖為準(zhǔn)確率變化.在訓(xùn)練過程中，使用了Pytorch內(nèi)置的ResNet34預(yù)訓(xùn)練模型，訓(xùn)練時(shí)間大大縮短.隨著迭代次數(shù)增加，損失值逐漸減小、準(zhǔn)確率不斷上升，并在迭代40 次之后趨于平穩(wěn)，當(dāng)?shù)?3次時(shí)得到模型翻譯準(zhǔn)確率的最高值86.24%.

圖8 損失值與準(zhǔn)確率變化Fig.8 Loss and accuracy change

2.3 實(shí)驗(yàn)結(jié)果分析

表2 為本文提出的在LSTM 中嵌入全局注意力機(jī)制的模型與其他手語翻譯模型在DEVISIGN_D 數(shù)據(jù)集上準(zhǔn)確率的對(duì)比.由表2可知，本文模型的準(zhǔn)確率高于其他模型.對(duì)于HMM-DTW 這樣使用傳統(tǒng)方法的模型，由于缺乏深度學(xué)習(xí)方法的特征提取能力，受限于人工特征設(shè)置，導(dǎo)致該模型在使用了RGB 視頻和深度骨架信息兩種數(shù)據(jù)作為輸入的情況下準(zhǔn)確率雖優(yōu)于DNN，但仍低于大多數(shù)深度學(xué)習(xí)模型.3DCNN 模型在傳統(tǒng)2DCNN 基礎(chǔ)上增加了一個(gè)維度，可以用于處理時(shí)間維度.但其對(duì)時(shí)間維度的處理依賴于連續(xù)圖像的卷積計(jì)算，所以也沒有取得較好的結(jié)果.CNN 與LSTM 相結(jié)合的模型使用CNN 提取圖像特征、LSTM 提取時(shí)序特征達(dá)到手語視頻翻譯的目的.由于傳統(tǒng)CNN 隨著網(wǎng)絡(luò)層數(shù)的加深會(huì)出現(xiàn)退化，導(dǎo)致CNN 對(duì)圖像特征的提取有限.通過將CNN 換成ResNet34 可以解決網(wǎng)絡(luò)退化的問題，并加深網(wǎng)絡(luò)深度進(jìn)一步提取圖像特征.

表2 不同數(shù)據(jù)集上的準(zhǔn)確率Tab.2 Accuracy on different dataset

本文所提出的基于全局注意力機(jī)制模型準(zhǔn)確率較ResNet34+LSTM 提升1.91%達(dá)到86.24%.通過分析，本文模型在空間特征提取方面采用ResNet34加深網(wǎng)絡(luò)層數(shù)，能更好地提取空間特征信息.在時(shí)序特征提取時(shí)加入了全局注意力機(jī)制，使模型可以關(guān)注到整個(gè)手語動(dòng)作序列中對(duì)翻譯出手語語義更為重要的部分，從而獲得了更高的準(zhǔn)確率.

2.4 注意力機(jī)制分析

為進(jìn)一步研究在模型中嵌入的全局注意力機(jī)制對(duì)模型的影響，證明其對(duì)長(zhǎng)手語視頻翻譯的有效性，本文從DEVISIGN_D 中劃分出了兩個(gè)子集：一個(gè)子集為視頻長(zhǎng)度較短的100 類手語視頻，稱其為DEVISIGN_DS；另一個(gè)為視頻長(zhǎng)度較長(zhǎng)的100 類手語視頻，稱其為DEVISIGN_DL，見表3.

表3 劃分后的數(shù)據(jù)集Tab.3 Partitioned data set

使用這兩個(gè)100分類的數(shù)據(jù)集和DEVISIGN_D，分別在添加注意力機(jī)制和未添加注意力機(jī)制的情況下對(duì)模型進(jìn)行訓(xùn)練，并且兩者參數(shù)設(shè)置相同，實(shí)驗(yàn)結(jié)果如表4所示.

表4 注意力模塊作用驗(yàn)證 %Tab.4 Effect validation of attention module %

結(jié)果表明：添加了注意力機(jī)制的模型在3 個(gè)數(shù)據(jù)集中的準(zhǔn)確率均高于未添加注意力機(jī)制的模型.通過對(duì)比模型添加注意力機(jī)制前后在DEVISIGN_DS 和DEVISIGN_DL 上的準(zhǔn)確率，可知模型對(duì)長(zhǎng)序列手語視頻翻譯準(zhǔn)確率的提升更大，證明了該注意力機(jī)制可以有效地關(guān)注到長(zhǎng)手語視頻序列中的關(guān)鍵幀，同時(shí)也證明了該注意力機(jī)制添加到模型中的有效性.

3 結(jié)論

為使手語翻譯模型更好地關(guān)注到手語序列中的關(guān)鍵部分，本文在ResNet 和LSTM 組合的模型中嵌入全局注意力機(jī)制，對(duì)手語詞進(jìn)行翻譯.該模型首先通過殘差網(wǎng)絡(luò)來提取單幀手語圖像的空間特征；然后將多個(gè)連續(xù)幀的空間特征組成特征序列輸入到長(zhǎng)短時(shí)記憶網(wǎng)絡(luò)提取時(shí)序特征；最后通過模型中所嵌入的全局注意力機(jī)制計(jì)算出序列中哪些部分對(duì)手語視頻翻譯的影響更大，進(jìn)而達(dá)到使模型能自己關(guān)注手語視頻中關(guān)鍵幀的目的.結(jié)果表明：加入注意力機(jī)制的模型對(duì)比未加入注意力機(jī)制的模型翻譯準(zhǔn)確率有所提升，加入注意力機(jī)制之后的模型優(yōu)于其他模型.在下一步工作中將嘗試將此方法由手語詞的翻譯擴(kuò)展到手語句的翻譯，并優(yōu)化注意力機(jī)制帶來的計(jì)算開銷.