亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于手語表達(dá)內(nèi)容與表達(dá)特征的手語識(shí)別技術(shù)綜述

        2023-11-18 09:11:22陶唐飛劉天宇
        電子與信息學(xué)報(bào) 2023年10期
        關(guān)鍵詞:手語手部卷積

        陶唐飛 劉天宇

        ①(現(xiàn)代設(shè)計(jì)及轉(zhuǎn)子軸承系統(tǒng)教育部重點(diǎn)實(shí)驗(yàn)室 西安 710049)

        ②(西安交通大學(xué)機(jī)械工程學(xué)院 西安 710049)

        1 引言

        世界聽障聯(lián)盟[1]的數(shù)據(jù)顯示,目前全球有超過7×107人使用超過300種手語溝通交流。據(jù)相關(guān)媒體數(shù)據(jù),我國(guó)語言障礙、聽力障礙人數(shù)超過3×107人[2,3]。聽障與語障人士是主要的手語使用者。手語識(shí)別技術(shù)能夠幫助手語使用者在社會(huì)生活中打破與普通人群的交流障礙。手語識(shí)別(Sign Language Recognition, SLR)可被定義為利用計(jì)算設(shè)備將手語轉(zhuǎn)換成文本或語音信息[4]。手語識(shí)別技術(shù)的研究?jī)?nèi)容主要包括手語采集方法與手語識(shí)別方法:(1)在手語采集方面有數(shù)據(jù)手套[5,6]、顏色手套[7]、K inect[8,9]設(shè)備、體感控制系統(tǒng)(leap motion)[10]等豐富的信息采集設(shè)備。采集設(shè)備的多樣性也使得手語數(shù)據(jù)集的數(shù)據(jù)形式多樣化。(2)手語識(shí)別方法的研究從手語表達(dá)內(nèi)容可分為孤立詞的識(shí)別研究[11,12]及連續(xù)語句手語識(shí)別[13,14];從識(shí)別方法所用的特征種類可以分為僅依靠手部特征方法以及多特征融合方法,多特征融合方法能夠有效提高模型準(zhǔn)確率與魯棒性[15]。在深度學(xué)習(xí)未得到大規(guī)模應(yīng)用前,基于機(jī)器學(xué)習(xí)的手語識(shí)別方法[16,17]比較普遍。然而傳統(tǒng)機(jī)器學(xué)習(xí)方法泛化能力弱,無法構(gòu)造完整的語言識(shí)別體系;處理大規(guī)模數(shù)據(jù)的能力不足,無法構(gòu)建高精度手語識(shí)別模型;特征學(xué)習(xí)能力不強(qiáng),無法構(gòu)建精細(xì)化、魯棒性高的識(shí)別方法。深度學(xué)習(xí)方法能夠解決傳統(tǒng)機(jī)器學(xué)習(xí)的限制。

        在手語識(shí)別方面已有一些綜述性工作,張淑軍等人[18]總結(jié)了基于深度學(xué)習(xí)方法手語識(shí)別技術(shù),但對(duì)遷移學(xué)習(xí)、零樣本學(xué)習(xí)等解決數(shù)據(jù)標(biāo)注瓶頸的方法缺少闡述。米娜瓦爾·阿不拉等人[19]從靜態(tài)手語、孤立詞和連續(xù)語句識(shí)別3個(gè)分支出發(fā)總結(jié)手語識(shí)別方法,但未關(guān)注多特征融合的手語識(shí)別方法。郭丹等人[20]回顧了手語識(shí)別、翻譯和生成任務(wù)的典型方法和前沿研究,并總結(jié)了常用數(shù)據(jù)集,但其在總結(jié)手語數(shù)據(jù)集時(shí)未給出數(shù)據(jù)集發(fā)展建議?;诖?,本文系統(tǒng)梳理了手語識(shí)別的相關(guān)技術(shù),包括手語數(shù)據(jù)集及其發(fā)展趨勢(shì)、手語識(shí)別方法評(píng)價(jià)指標(biāo)、手語識(shí)別方法及其發(fā)展趨勢(shì),總結(jié)了注意力機(jī)制以及多特征融合的手語識(shí)別方法。為緩解手語數(shù)據(jù)限制,強(qiáng)調(diào)了遷移學(xué)習(xí)以及零樣本學(xué)習(xí)在手語識(shí)別中的應(yīng)用。文章結(jié)構(gòu)如下:第2節(jié)闡述手語數(shù)據(jù)集,并總結(jié)其發(fā)展方向;第3節(jié)介紹手語識(shí)別方法的評(píng)價(jià)指標(biāo);為便于對(duì)比評(píng)價(jià)手語識(shí)別方法,在總結(jié)了手語數(shù)據(jù)集及手語識(shí)別方法評(píng)價(jià)指標(biāo)后,第4節(jié)總結(jié)手語識(shí)別方法;最后探討手語識(shí)別技術(shù)現(xiàn)階段存在問題及未來發(fā)展趨勢(shì)。

        2 手語數(shù)據(jù)集

        手語識(shí)別技術(shù)的發(fā)展離不開大規(guī)模數(shù)據(jù)集的建立,現(xiàn)階段很多國(guó)家已經(jīng)開啟了手語識(shí)別技術(shù)的研究。表1、表2分別總結(jié)了具有代表性的孤立詞與連續(xù)語句手語數(shù)據(jù)集。在手語識(shí)別研究方面,中國(guó)、德國(guó)、美國(guó)以及伊朗等國(guó)家已建立起手語數(shù)據(jù)集[21,22]、手語識(shí)別的研究已初具規(guī)模。本節(jié)按照中國(guó)、德國(guó)、美國(guó)以及其他國(guó)家的先后順序分別介紹孤立詞與連續(xù)語句手語數(shù)據(jù)集并總結(jié)現(xiàn)階段數(shù)據(jù)集的發(fā)展趨勢(shì)。

        表1 孤立詞手語數(shù)據(jù)集

        表2 連續(xù)語句手語數(shù)據(jù)集

        2.1 孤立詞數(shù)據(jù)集

        表1總結(jié)了孤立詞手語數(shù)據(jù)集的相關(guān)信息。在孤立詞的數(shù)據(jù)集方面,3維手語識(shí)別評(píng)估數(shù)據(jù)集(Dataset and Eva luation for 3D SLR, DEV ISIGN)[23]是中國(guó)第1個(gè)樣本數(shù)量達(dá)到萬級(jí)的大型孤立詞手語數(shù)據(jù)集。中國(guó)孤立詞手語識(shí)別數(shù)據(jù)集(Chinese isolated SLR500 dataset, CSL-500)[9]擁有500個(gè)詞語標(biāo)簽,數(shù)據(jù)形式多樣,具有骨架信息、深度視頻信息以及RGB視頻信息,是中國(guó)手語孤立詞識(shí)別領(lǐng)域頗具重量級(jí)的數(shù)據(jù)集。近年來手語領(lǐng)域研究隊(duì)伍逐漸壯大。2021年,東北大學(xué)王斐團(tuán)隊(duì)[24]建立的NCSL數(shù)據(jù)集關(guān)注在手語演示過程中的個(gè)體差異以及演示差異問題。同年,中國(guó)科學(xué)技術(shù)大學(xué)團(tuán)隊(duì)提出了非手控特征中國(guó)孤立詞手語數(shù)據(jù)集(Non-Manual-Feature-aware isolated Chinese Sign Language dataset, NMFs-CSL)[25],該數(shù)據(jù)集關(guān)注非手控特征,例如:面部表情、嘴型等。非手控特征對(duì)于模型的魯棒性及準(zhǔn)確率的提升具有關(guān)鍵作用。

        德國(guó)是大型孤立詞手語數(shù)據(jù)集發(fā)展最早的國(guó)家之一。最初的SIGNUM[38]數(shù)據(jù)集,由33 210個(gè)樣本組成,該數(shù)據(jù)集開啟了德國(guó)手語孤立詞大規(guī)模數(shù)據(jù)的時(shí)代。隨后有德國(guó)手語(German Sign Language,DGS) Kinect40[29]數(shù)據(jù)集,包括骨架信息、深度信息以及RGB視頻信息。

        英語手語數(shù)據(jù)集的發(fā)展也相對(duì)較早且影響廣泛,美國(guó)手語詞典視頻數(shù)據(jù)集(Am erican Sign Language Lexicon Video Dataset, ASLLVD)[28]由6人錄制完成,具有3 000多詞匯、字母等。英語在國(guó)際交流中占有非常重要的位置,因此對(duì)ASLLVD的研究頗多。例如:美國(guó)3維骨架手語數(shù)據(jù)集(Am erican Sign Language SKELETON 3D,ASL-SKELETON 3D)[21]將ASLLVD多角度下的視頻轉(zhuǎn)換成3D數(shù)據(jù),保留9 747條視頻;美國(guó)手語研究項(xiàng)目手勢(shì)庫(kù)(American Sign Language Linguistic Research P ro ject Sign Bank, ASLLRP Sign Bank)[37]增強(qiáng)了語言的注釋性,在網(wǎng)頁端展示了手語的動(dòng)作及相關(guān)含義,并且大幅提升了樣本數(shù)量。除ASLLVD系列數(shù)據(jù)集外,英語手語另有影響力廣泛的數(shù)據(jù)集:ChaLearn[31]數(shù)據(jù)集具有深度視頻信息,由7人錄制完成,具有50 000條視頻;美國(guó)手語詞匯數(shù)據(jù)集(W ord-Level Am erican Sign Language, W LASL2000)[34]在多種背景下錄制,更注重?cái)?shù)據(jù)集的真實(shí)場(chǎng)景,一定程度解決了詞匯量少、錄制人數(shù)少等問題,且數(shù)據(jù)集已在Github上開放。

        其他數(shù)據(jù)集另有希臘手語孤立詞(G reek isolated Sing Language, GSL isol.)[27]數(shù)據(jù)集,是最早的大型孤立詞手語數(shù)據(jù)集之一。伊朗的RKS-PERSIANSIGN[35]數(shù)據(jù)集,錄入時(shí)更換多場(chǎng)景,數(shù)據(jù)集開放。韓國(guó)手語數(shù)據(jù)集(Korean Sign Language,KSL)[36]由20位聽障人士錄制而成,能夠表達(dá)出真實(shí)的手語細(xì)節(jié)特征及使用姿態(tài),數(shù)據(jù)的真實(shí)性與應(yīng)用性更強(qiáng)。

        2.2 連續(xù)語句數(shù)據(jù)集

        表2總結(jié)了連續(xù)語句手語數(shù)據(jù)集的相關(guān)信息。中國(guó)連續(xù)手語數(shù)據(jù)集(Chinese continuous SLR100 dataset, CSL-100)[9]是中國(guó)連續(xù)語句大型數(shù)據(jù)集,采用M icroso ft K inect錄制,共有100條語句,25 000條視頻。此數(shù)據(jù)集在國(guó)際上具有影響力,其數(shù)據(jù)龐大,填補(bǔ)了我國(guó)連續(xù)語句的大型手語數(shù)據(jù)集的空白。

        影響廣泛的RW TH-PHOENIX-W eather[39]德國(guó)手語天氣數(shù)據(jù)集系列包括2014年發(fā)布的PHOENIXW eather 2014,以及2018年發(fā)布的PHOEN IXW eather 2014T[41]。此數(shù)據(jù)集來自德國(guó)電視臺(tái)的天氣播報(bào)場(chǎng)景,雖然背景單一,但更偏向于真實(shí)應(yīng)用。德國(guó)的MSR[22]數(shù)據(jù)集屬于連續(xù)語句大型數(shù)據(jù)集,樣本數(shù)量達(dá)30 000。

        美國(guó)的How2Sign[42]數(shù)據(jù)集具有RGB信息、深度信息、關(guān)節(jié)點(diǎn)信息以及語音信息等多輸入模態(tài),是擁有16 000個(gè)詞匯量的大型手語數(shù)據(jù)集,錄入時(shí)長(zhǎng)達(dá)80 h。

        其他代表性連續(xù)手語數(shù)據(jù)集有希臘手語數(shù)據(jù)集GSL[33], GSL SI[27]和西班牙手語數(shù)據(jù)集(a Lexical database for Spanish Sign language, LSE-Sign)[40]等。

        2.3 數(shù)據(jù)集發(fā)展方向

        手語數(shù)據(jù)集是手語識(shí)別技術(shù)的基礎(chǔ),手語識(shí)別方法本質(zhì)上依靠數(shù)據(jù)驅(qū)動(dòng)。本節(jié)指明手語數(shù)據(jù)的發(fā)展方向,使手語數(shù)據(jù)集的創(chuàng)建更符合手語識(shí)別技術(shù)的研發(fā)需求。

        (1)更接近真實(shí)環(huán)境。真實(shí)應(yīng)用環(huán)境包括:(a)手語錄入者為真實(shí)的聽障人士,更能表現(xiàn)出真實(shí)表情與手語姿態(tài);(b)真實(shí)場(chǎng)景;實(shí)驗(yàn)室環(huán)境過于單一,訓(xùn)練后的模型應(yīng)用到真實(shí)環(huán)境中識(shí)別表現(xiàn)不佳。

        (2)多信息模態(tài),多角度視頻數(shù)據(jù)集。多信息模態(tài)結(jié)合能夠增強(qiáng)手語識(shí)別方法在復(fù)雜環(huán)境下的魯棒性,使用多角度視頻訓(xùn)練的方法能夠有效改善視角變化、手部遮擋等識(shí)別難題。多模態(tài)信息的手語采集與識(shí)別設(shè)備多樣且復(fù)雜。開發(fā)多模態(tài)聯(lián)合手語采集識(shí)別設(shè)備是多模態(tài)融合手語識(shí)別方法的應(yīng)用推廣前提。

        (3)加強(qiáng)數(shù)據(jù)的注釋性。部分?jǐn)?shù)據(jù)集[37]在網(wǎng)頁端展示手語的動(dòng)作及釋義,能夠讓實(shí)驗(yàn)人員深入理解動(dòng)作、詞匯的含義,應(yīng)用到模型中可增強(qiáng)泛化能力,同時(shí)手語動(dòng)作圖解數(shù)據(jù)集是零樣本學(xué)習(xí)方法的基礎(chǔ)。

        (4)多特征標(biāo)注。手型固然是手語最重要的傳遞語義信息的特征,但臉部、肢體同樣在手語表達(dá)中發(fā)揮關(guān)鍵性作用,因此手語數(shù)據(jù)集應(yīng)錄入標(biāo)注唇形、面部表情等多特征。

        (5)多語手語數(shù)據(jù)集?,F(xiàn)階段手語識(shí)別方法缺乏不同語言的比較研究,同時(shí)基于此類數(shù)據(jù)集的手語翻譯方法能夠有效促進(jìn)手語使用者的國(guó)際化交流。

        3 手語識(shí)別方法評(píng)價(jià)指標(biāo)

        手語識(shí)別方法評(píng)價(jià)指標(biāo)用來衡量手語識(shí)別方法的識(shí)別效果。手語識(shí)別方法的評(píng)價(jià)指標(biāo)包含自然語言處理領(lǐng)域使用的錯(cuò)詞率、杰卡德系數(shù)等以及機(jī)器學(xué)習(xí)通用的準(zhǔn)確率、精度等。手語識(shí)別方法常用評(píng)價(jià)指標(biāo)包括:(1)錯(cuò)詞率(W ord Error Rate, WER)[43]是目前使用較為廣泛的評(píng)價(jià)指標(biāo),借鑒了自然語言處理中語音識(shí)別的指標(biāo)。W ER是計(jì)算翻譯語句轉(zhuǎn)化為標(biāo)簽語句中的刪除、插入和替換操作的最小數(shù)量,W ER越小,模型識(shí)別性能越好。除錯(cuò)詞率外,外文手語識(shí)別中還有字符錯(cuò)誤率(Character Error Rate, CER);(2)杰卡德系數(shù)(Jaccard index)[31]用于比較兩個(gè)樣本之間的相似性與差異性。指標(biāo)數(shù)值越高,相似性越高,證明模型識(shí)別效果更好;(3)準(zhǔn)確率(Accuracy, Acc)是指被正確劃分的樣本數(shù)占所有樣本數(shù)的比例。模型的準(zhǔn)確率越高,識(shí)別性能越好;(4)ROC曲線下方面積(A rea Under roc Curve, AUC)[44]是為了解決模型識(shí)別準(zhǔn)確率與模型實(shí)際作用效果不匹配的問題。該指標(biāo)通常用于手語識(shí)別中的手部跟蹤以及手部姿態(tài)檢測(cè);(5)平均精度均值(mean Average Precision, m AP)[45]是在目標(biāo)檢測(cè)中常用的評(píng)價(jià)標(biāo)準(zhǔn),即各類別的關(guān)節(jié)平均檢測(cè)率的均值。通常情況下,m AP數(shù)值越高,識(shí)別效果越好。該指標(biāo)常用于手部關(guān)節(jié)點(diǎn)信息檢測(cè);(6)另有一些工作采用運(yùn)行時(shí)間[46]、精度[47]等作為評(píng)價(jià)指標(biāo)。

        在連續(xù)手語識(shí)別中錯(cuò)詞率是使用最廣泛的評(píng)價(jià)指標(biāo),其能夠允許識(shí)別句子中詞匯的位置變化,符合語言規(guī)則。在孤立詞手語識(shí)別中,當(dāng)準(zhǔn)確率作為評(píng)價(jià)指標(biāo)時(shí)簡(jiǎn)潔干脆,無論外文中的字母錯(cuò)誤還是中文的漢字錯(cuò)誤都會(huì)影響詞匯含義,但準(zhǔn)確率會(huì)產(chǎn)生與模型實(shí)際作用效果不匹配的問題。而AUC指標(biāo)能夠避免產(chǎn)生少數(shù)樣本準(zhǔn)確率高而被認(rèn)為識(shí)別效果更好的問題。平均精度方法適用于手部檢測(cè)、關(guān)節(jié)點(diǎn)檢測(cè)等基于目標(biāo)檢測(cè)的手語識(shí)別方法。杰卡德系數(shù)描述兩個(gè)樣本間的相似程度,適用于高稀疏度的數(shù)據(jù)中,評(píng)判手語模型的容錯(cuò)性高。運(yùn)行時(shí)間評(píng)判模型的訓(xùn)練效率,但評(píng)判內(nèi)容單一,實(shí)際應(yīng)用性不足。

        4 手語識(shí)別方法

        根據(jù)手語的表達(dá)內(nèi)容,手語識(shí)別可分為孤立詞手語識(shí)別和連續(xù)語句手語識(shí)別。孤立詞手語識(shí)別可以看作視頻的分類問題,而連續(xù)語句數(shù)據(jù)集中只給出了視頻標(biāo)簽,所以屬于不確切監(jiān)督問題,但隨著近年來數(shù)據(jù)集注釋性的增強(qiáng),有利于不確切監(jiān)督問題的處理。手部特征與非手控特征結(jié)合的手語識(shí)別模型能夠一定程度提升模型的準(zhǔn)確性以及魯棒性。本節(jié)基于手語表達(dá)內(nèi)容(孤立詞與連續(xù)語句識(shí)別)以及手語識(shí)別方法所采用的特征(僅依靠手部特征、多特征融合)分別介紹手語識(shí)別方法。

        4.1 孤立詞與連續(xù)手語識(shí)別方法

        針對(duì)手語識(shí)別方法使用的數(shù)據(jù)集可以分為孤立詞手語識(shí)別與連續(xù)語句手語識(shí)別方法,本節(jié)介紹孤立詞與連續(xù)語句的手語識(shí)別方法。

        4.1.1 孤立詞手語識(shí)別方法

        孤立詞手語識(shí)別也稱為離散手語識(shí)別,是指識(shí)別單個(gè)詞或字節(jié)。孤立詞的研究著重于模型準(zhǔn)確率、輕量化與推理速度的提升。表3分類總結(jié)了孤立詞的研究方法,涉及經(jīng)典神經(jīng)網(wǎng)絡(luò)模型、基于注意力機(jī)制模型等。為解決手語數(shù)據(jù)標(biāo)注瓶頸,又介紹了遷移學(xué)習(xí)方法以及零樣本學(xué)習(xí)方法。

        表3 孤立詞手語識(shí)別方法

        (1) 傳統(tǒng)模型方法。傳統(tǒng)模型可將整個(gè)手語識(shí)別方法流程劃分為圖像預(yù)處理、特征提取以及分類識(shí)別。圖像預(yù)處理方法包括視頻處理、減少噪聲干擾、增強(qiáng)識(shí)別效果;特征提取方法用來提取圖像特征,為識(shí)別建模做準(zhǔn)備;最后在分類識(shí)別環(huán)節(jié)中對(duì)處理后的視頻、圖像分類識(shí)別。

        (a)圖像預(yù)處理方法。視頻要轉(zhuǎn)化成幀圖像來搭建訓(xùn)練手語識(shí)別模型,對(duì)幀圖像的處理效果影響著模型的識(shí)別性能。手語識(shí)別圖像預(yù)處理方法可以分為兩類:①去除噪聲及背景干擾。直方圖均衡化[50]、顏色檢測(cè)[49]及膚色的背景減除[76]方法可以有效避免背景信息對(duì)手語表達(dá)的干擾;利用濾波器[77]去除圖像噪聲。②減少數(shù)據(jù)計(jì)算量。比如使用邊緣檢測(cè)[48]、灰度化方法[49]、分割閾值[78]等方法減輕模型訓(xùn)練的計(jì)算負(fù)擔(dān)。

        直方圖均衡化可去除冗余干擾信息,顏色檢測(cè)減少背景干擾,結(jié)合小波變換、傅里葉變換等方法構(gòu)造濾波器去除噪聲干擾,但上述方法處理后的圖像計(jì)算量依然頗高。邊緣檢測(cè)、分割閾值方法能夠減少數(shù)據(jù)量,但手語表達(dá)的關(guān)鍵信息也可能會(huì)被省略?;叶然椒▽GB圖片轉(zhuǎn)化為灰度圖片,通道數(shù)量減少,無法去除圖片中影響手語表達(dá)的干擾信息。手語識(shí)別工作結(jié)合兩類預(yù)處理方法后處理效果更佳,例如文獻(xiàn)[76]在預(yù)處理階段運(yùn)用背景減除方法排除接近膚色干擾,通過高斯模型檢測(cè)膚色區(qū)域并轉(zhuǎn)化為二值化圖像。

        (b)特征提取方法。主成分分析[50](Principal Com ponent Analysis, PCA)、K-近鄰方法[49]對(duì)圖像信息進(jìn)行降維處理,精簡(jiǎn)并保留顯著性特征,減輕計(jì)算負(fù)擔(dān),利于模型訓(xùn)練。尺度不變特征變換匹配(Scale Invariant Feature T ransform, SIFT)[51]具有尺度不變性,對(duì)光線、噪聲等影響因素的容忍度高,但在手語識(shí)別特征提取方面表現(xiàn)效果不佳,且需要較多內(nèi)存空間。加速魯棒特征(Speeded Up Robust Features, SURF)[49,51]是以2D離散小波作為描述子,在圖像變換中具有穩(wěn)健性,比SIFT具有更快的特征提取速度,但對(duì)圖片質(zhì)量、環(huán)境要求高,實(shí)用性弱。

        (c)分類識(shí)別方法。分類識(shí)別方法包括兩部分:①規(guī)劃分類方法。該類方法主要包括支持向量機(jī)[50](Support Vector M achine, SVM)。SVM通過改變核函數(shù)來完成不同的識(shí)別任務(wù),比如2次支持向量機(jī)[49](Quadratic SVM)及3次支持向量機(jī)[49](Cubic SVM)在手語識(shí)別中均有使用。②時(shí)序分類方法。此類方法主要包含動(dòng)態(tài)時(shí)間規(guī)整[52](Dynam ic Time W arping, DTW)、隱馬爾可夫模型[52](Hidden M arkov M odel, HMM)以及連接時(shí)序分類[53](Connectionist Tem poral Classification, CTC)方法。

        SVM算法簡(jiǎn)單,魯棒性強(qiáng),但訓(xùn)練速度慢,核函數(shù)選擇敏感,易產(chǎn)生錯(cuò)分、不可分現(xiàn)象,無法處理序列關(guān)系,通常適用于靜態(tài)手語識(shí)別方法。DTW基于動(dòng)態(tài)規(guī)劃思想,根據(jù)最小路徑(即比較手語序列間相似性)匹配識(shí)別目標(biāo),此方法需要構(gòu)建模板庫(kù),泛化能力弱,上下文關(guān)系處理能力差,限制手語數(shù)據(jù)集規(guī)模。HMM作為統(tǒng)計(jì)分析模型,訓(xùn)練學(xué)習(xí)到的是狀態(tài)和觀察序列的聯(lián)合分布,但其依然無法利用手語表達(dá)過程的上下文信息。CTC方法擴(kuò)展標(biāo)簽集合,無需數(shù)據(jù)對(duì)齊處理,通常與卷積神經(jīng)網(wǎng)絡(luò)等深度學(xué)習(xí)方法結(jié)合,表征時(shí)序關(guān)系,在手語識(shí)別任務(wù)中的識(shí)別效果較好。

        (2) 經(jīng)典神經(jīng)網(wǎng)絡(luò)方法。與傳統(tǒng)機(jī)器學(xué)習(xí)方法相比,神經(jīng)網(wǎng)絡(luò)方法在大數(shù)據(jù)、大樣本下處理效果強(qiáng)悍,泛化能力強(qiáng),具有非線性映射能力,能夠?qū)崿F(xiàn)多任務(wù)集成,開發(fā)綜合系統(tǒng)。其中主要的神經(jīng)網(wǎng)絡(luò)方法包括卷積神經(jīng)網(wǎng)絡(luò)方法[54]、循環(huán)神經(jīng)網(wǎng)絡(luò)方法[79,80]、圖神經(jīng)網(wǎng)絡(luò)方法[64]等。

        (a)卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network, CNN)方法。卷積神經(jīng)網(wǎng)絡(luò)具有強(qiáng)大的局部特征提取能力。由于手語識(shí)別多涉及時(shí)序關(guān)系,在卷積網(wǎng)絡(luò)中只依靠1維卷積難以達(dá)到要求,通常應(yīng)用多流2維卷積以及3維卷積網(wǎng)絡(luò)表征手語數(shù)據(jù)的模態(tài)信息、特征融合以及時(shí)序關(guān)系。文獻(xiàn)[56,57,81]分別提出了結(jié)合多尺度空間信息,圖像關(guān)節(jié)點(diǎn)位置、深度視頻等模態(tài)信息,手部、面部表情等特征信息的多流卷積手語識(shí)別模型。識(shí)別模型通常隨著網(wǎng)絡(luò)深度增加而提升識(shí)別效果,但深層網(wǎng)絡(luò)需要更多的手語數(shù)據(jù)。由此文獻(xiàn)[54,81]將卷積網(wǎng)絡(luò)與數(shù)據(jù)增強(qiáng)技術(shù)結(jié)合,避免出現(xiàn)過擬合問題。2維卷積網(wǎng)絡(luò)適合單幀圖像的特征提取,3維卷積網(wǎng)絡(luò)(3D Convolutional neural network, C3D)[55,56,81]則可以處理視頻上下文關(guān)系,提取手語視頻時(shí)空特征。C3D的網(wǎng)絡(luò)結(jié)構(gòu)淺,難以實(shí)現(xiàn)高準(zhǔn)確率,在大型數(shù)據(jù)集中尤甚,由此膨脹3維卷積網(wǎng)絡(luò)(Inflated-3D, I3D)便應(yīng)運(yùn)而生。Maruyama等人[57]提出多流框架搭建I3D模型,結(jié)合手型、面部表情、骨架信息等,最終在W LASL 2000數(shù)據(jù)集中最高的識(shí)別準(zhǔn)確率達(dá)到87.47%。此外,偽3維殘差網(wǎng)絡(luò)(Pseudol-3D residual network, P3D)[82]可以緩解參數(shù)數(shù)量以及運(yùn)行內(nèi)存的限制難題。手語冗余信息與時(shí)空關(guān)系復(fù)雜,因此將3D卷積核優(yōu)化為R(2+1)D[58],減少訓(xùn)練時(shí)長(zhǎng),并提高分類精度。

        多流卷積網(wǎng)絡(luò)可以結(jié)合豐富的手語表達(dá)相關(guān)信息,提高模型的識(shí)別性能。2DCNNs網(wǎng)絡(luò)即使配備了TConvs等時(shí)序建模模塊,在表達(dá)短期時(shí)序關(guān)系方面仍然不如3DCNN的效果更佳。I3D網(wǎng)絡(luò)具有更深的網(wǎng)絡(luò)結(jié)構(gòu),在孤立詞數(shù)據(jù)集中的識(shí)別準(zhǔn)確率更高,同時(shí)在復(fù)雜背景(非實(shí)驗(yàn)室環(huán)境)下依然能夠參數(shù)收斂。

        (b)循環(huán)神經(jīng)網(wǎng)絡(luò)(Recurrent Neural Network,RNN)方法。循環(huán)神經(jīng)網(wǎng)絡(luò)具有強(qiáng)大的序列信息處理能力,通常用于時(shí)序建模。傳統(tǒng)時(shí)序模型很難適應(yīng)手勢(shì)在不同的詞匯中的巨大變化[59],循環(huán)神經(jīng)網(wǎng)絡(luò)通過隱藏層節(jié)點(diǎn)周期性連接來捕捉序列化數(shù)據(jù)中動(dòng)態(tài)信息。RNN在模型訓(xùn)練時(shí)參數(shù)較多,網(wǎng)絡(luò)結(jié)構(gòu)復(fù)雜,訓(xùn)練困難,雙向循環(huán)神經(jīng)網(wǎng)絡(luò)(B idirectional RNN, Bi-RNN)和長(zhǎng)短期記憶網(wǎng)絡(luò)(Long Short-Term M em ory networks, LSTM)的發(fā)展改善了循環(huán)神經(jīng)網(wǎng)絡(luò)所面臨的問題。文獻(xiàn)[60,61]利用Bi-RNN與LSTM模型緩解了由于長(zhǎng)期依賴問題而導(dǎo)致的RNN梯度消失和梯度爆炸的問題,但其不能夠并行計(jì)算,計(jì)算耗時(shí)長(zhǎng),在更長(zhǎng)序列中梯度問題仍然棘手。由于RNN網(wǎng)絡(luò)的復(fù)雜性,文獻(xiàn)[60,62]以循環(huán)神經(jīng)網(wǎng)絡(luò)為基礎(chǔ),采用預(yù)訓(xùn)練數(shù)據(jù)的方式降低模型的訓(xùn)練難度。文獻(xiàn)[61,62,83]利用循環(huán)神經(jīng)網(wǎng)絡(luò)提取手語表達(dá)的時(shí)空特征,解決輸出與預(yù)測(cè)之間的依賴關(guān)系,在視頻序列與動(dòng)作標(biāo)簽間建立有效對(duì)齊關(guān)系。Abdu llahi等人[63]利用快速費(fèi)舍爾向量,將生成模型用于判別式分類器中,表示高維特征,與雙向長(zhǎng)短時(shí)記憶網(wǎng)絡(luò)結(jié)合,利用體感系統(tǒng)中3維手的骨骼運(yùn)動(dòng)、方向及角度信息,并將視頻中的身體特征信息融合訓(xùn)練模型。

        (c) 圖神經(jīng)網(wǎng)絡(luò)(G raph Neu ra l Netw ork,GNN)方法。圖神經(jīng)網(wǎng)絡(luò)方法將信息分布存儲(chǔ)于網(wǎng)絡(luò)內(nèi)神經(jīng)元中,大幅提高模型魯棒性與容錯(cuò)性,文獻(xiàn)[64]利用圖神經(jīng)網(wǎng)絡(luò)模型增強(qiáng)了手語背景變化的魯棒性。圖神經(jīng)網(wǎng)絡(luò)能夠適應(yīng)復(fù)雜的結(jié)構(gòu)性先驗(yàn),比如定義多個(gè)概念之間關(guān)系,描述復(fù)雜的非線性結(jié)構(gòu)。文獻(xiàn)[84]利用圖卷積模型定義相似領(lǐng)域或同一領(lǐng)域不同數(shù)據(jù)之間的關(guān)系,有效傳遞了先驗(yàn)知識(shí)。Yan等人[84]將動(dòng)作識(shí)別的先驗(yàn)知識(shí)通過圖卷積模型傳遞到手語識(shí)別領(lǐng)域中。Vázquez-Enríquez等人[65]提出了多級(jí)時(shí)空?qǐng)D卷積網(wǎng)絡(luò)模型(Multi-scale Spatialtem poral G raph convolu tional netw orks, M SG 3D),并且探討了基于圖卷積網(wǎng)絡(luò)的不同數(shù)據(jù)集間的遷移學(xué)習(xí)能力。MS-G3D模型在AUTSL dataset 進(jìn)行預(yù)訓(xùn)練后,W LASL2000上的識(shí)別率準(zhǔn)確為95.24%,在LSE_Lex40預(yù)訓(xùn)練后的W LASL2000上的識(shí)別準(zhǔn)確率為93.91%。

        (d)生成對(duì)抗神經(jīng)網(wǎng)絡(luò)(Generative Adversarial Networks, GAN)方法。手語識(shí)別視頻信息與標(biāo)簽信息沒有嚴(yán)格對(duì)應(yīng)的關(guān)系,因此屬于典型的弱監(jiān)督問題。GAN網(wǎng)絡(luò)能夠完成半監(jiān)督學(xué)習(xí)以及無監(jiān)督學(xué)習(xí)任務(wù),且文獻(xiàn)[66,85]將GAN網(wǎng)絡(luò)應(yīng)用于語義分割與手語識(shí)別的弱監(jiān)督問題中,證明其同樣適用于弱監(jiān)督問題。GAN網(wǎng)絡(luò)可以跨模態(tài)組合、多特征融合訓(xùn)練,利用生成器與判別器組合的形式不斷提高模型的判別性能。Elakkiya等人[66]提出的超參數(shù)生成對(duì)抗神經(jīng)網(wǎng)絡(luò)H-GANs模型將手型、手掌形狀、頭型、臉型、唇形、眼睛等20個(gè)特征融合,利用LSTM網(wǎng)絡(luò)作為生成器,從真實(shí)幀序列中生成帶有噪聲的隨機(jī)序列。L S T M 網(wǎng)絡(luò)與3 D-C N N網(wǎng)絡(luò)結(jié)合作為鑒別器,檢測(cè)并分類符號(hào)手勢(shì)的真實(shí)幀。該網(wǎng)絡(luò)在ASLLVD數(shù)據(jù)集中的字符錯(cuò)誤率為1.4%。

        手語識(shí)別是弱監(jiān)督、多分類、跨模態(tài)以及多特征融合問題。GAN網(wǎng)絡(luò)不僅是無監(jiān)督學(xué)習(xí)與半監(jiān)督學(xué)習(xí)的典范,在弱監(jiān)督學(xué)習(xí)中同樣適用。其在分類領(lǐng)域也有一席之地,將判別器替換成分類器即可實(shí)現(xiàn)多分類任務(wù),生成器仍然可以輔助分類器訓(xùn)練,適用于跨模態(tài)、多特征融合任務(wù)。但目前尚未發(fā)現(xiàn)GAN網(wǎng)絡(luò)達(dá)到納什平衡的快速有效方法,訓(xùn)練不穩(wěn)定,且存在模式崩潰風(fēng)險(xiǎn)。

        (3) 注意力機(jī)制方法。注意力機(jī)制是指對(duì)輸入信息權(quán)重分配的關(guān)注,能夠有效解決編碼容量瓶頸以及長(zhǎng)距離依賴問題。相比CNN,該方法計(jì)算手語輸入信息之間關(guān)聯(lián)性的操作次數(shù)不隨距離而改變。手語識(shí)別是一個(gè)視覺與語言結(jié)合的計(jì)算機(jī)視覺任務(wù)。T ransform er更適合連接視覺與語言,其能夠解決視覺與語言的網(wǎng)絡(luò)結(jié)構(gòu)不同時(shí)使得優(yōu)化器不適配的問題,達(dá)到更好的建模效果。其中自注意力機(jī)制通過矩陣運(yùn)算可以一步提取全局特征,卷積操作則適合提取局部特征,因此文獻(xiàn)[67,69,71]將卷積神經(jīng)網(wǎng)絡(luò)搭配注意力機(jī)制形成互補(bǔ),將全局特征與局部特征結(jié)合訓(xùn)練,利用3維卷積模型提取時(shí)空特征,注意力機(jī)制用于特征映射或關(guān)注重要特征。黃杰等人[67,68]提出基于注意力機(jī)制的3維卷積網(wǎng)絡(luò)方法以及分層注意力網(wǎng)絡(luò),從結(jié)合空間與時(shí)間注意力到利用分層注意力關(guān)注關(guān)鍵片段的重要視頻特征,在CSL-500數(shù)據(jù)集中不斷提高準(zhǔn)確率。Zhang等人[69]構(gòu)建了全局-局部特征結(jié)合描述的手語識(shí)別框架,提出帶有注意力層的3維殘差全局網(wǎng)絡(luò)模型和基于目標(biāo)檢測(cè)的局部網(wǎng)絡(luò)模型。全局特征描述基于整個(gè)視頻行為進(jìn)行時(shí)間序列建模。在局部模塊中,通過目標(biāo)檢測(cè)網(wǎng)絡(luò)定位主導(dǎo)手,突出手部行為的關(guān)鍵作用,從而增強(qiáng)類別差異,并補(bǔ)償全局網(wǎng)絡(luò)。T ransformer模型可以并行計(jì)算,提高計(jì)算效率,可為手語識(shí)別在手持設(shè)備中推廣提供更高可能性[70]。

        T ransformer在處理手語識(shí)別序列問題中突破了RNN模型不能并行計(jì)算的限制,促進(jìn)了手語數(shù)據(jù)的批量化處理。其使用的自注意力機(jī)制具有可解釋性,多頭注意力機(jī)制可以將注意頭分散學(xué)習(xí)關(guān)注不同手語表達(dá)特征信息。但T ransform er需要更明確的表示序列中元素的相對(duì)或絕對(duì)位置關(guān)系,其提出的位置編碼在手語信息特征空間中并不具備可變換性,因此無法高效地表征手語位置信息。

        (4) 遷移學(xué)習(xí)方法。遷移學(xué)習(xí)是指將一個(gè)已在大規(guī)模數(shù)據(jù)集中訓(xùn)練好的模型特征遷移到另外一個(gè)模型中,特征提取不變,再次訓(xùn)練分類器,即只需訓(xùn)練圖像分類的小規(guī)模數(shù)據(jù)就能達(dá)到相對(duì)滿意的識(shí)別效果。遷移學(xué)習(xí)可分為同構(gòu)遷移學(xué)習(xí)與異構(gòu)遷移學(xué)習(xí),在手語識(shí)別的研究中以同構(gòu)遷移學(xué)習(xí)中的領(lǐng)域適配以及數(shù)據(jù)集偏移為主。手勢(shì)識(shí)別與動(dòng)作識(shí)別的工作[86—88]對(duì)手語識(shí)別技術(shù)發(fā)展具有重要的借鑒意義。Sarhan等人[72]搭建了膨脹3維卷積模型用于大規(guī)模手語訓(xùn)練,采用基于特征的遷移學(xué)習(xí)方式,將大規(guī)模動(dòng)作識(shí)別模型的時(shí)空特征遷移到手語識(shí)別模型中,結(jié)合RGB和光流信息。文獻(xiàn)[73,74]利用官方提供的大規(guī)模數(shù)據(jù)集預(yù)訓(xùn)練權(quán)重,將學(xué)習(xí)到的特征遷移至自制的小規(guī)模手語數(shù)據(jù)集中。Vázquez-Enríquez等人[65]則在多個(gè)不同語言的大型手語數(shù)據(jù)集中進(jìn)行預(yù)訓(xùn)練,遷移手語表達(dá)特征,利用目標(biāo)手語數(shù)據(jù)集進(jìn)行訓(xùn)練,在W LASL等數(shù)據(jù)集識(shí)別性能顯著。

        在遷移學(xué)習(xí)方法應(yīng)用于該領(lǐng)域前,手語識(shí)別方法受到硬件設(shè)備、數(shù)據(jù)集規(guī)模限制。手語識(shí)別領(lǐng)域的應(yīng)用性、商業(yè)化隨著遷移學(xué)習(xí)的發(fā)展大幅增強(qiáng)。遷移學(xué)習(xí)可將數(shù)據(jù)集從手語識(shí)別擴(kuò)展到手勢(shì)識(shí)別甚至動(dòng)作識(shí)別,擴(kuò)充模型知識(shí)儲(chǔ)備,目前最有效的遷移方式是在手語同類數(shù)據(jù)集中遷移特征。但遷移方式的選擇、遷移有效性目前缺乏可靠的理論支撐。

        (5) 零樣本(Zero-Shot)學(xué)習(xí)。零樣本學(xué)習(xí)需要在未知類與已知類之間引入耦合關(guān)系,建立二者間的語義關(guān)系,從已知類中抽取相關(guān)信息預(yù)測(cè)未知類。如圖1所示,手語零樣本學(xué)習(xí)簡(jiǎn)單而言是指利用訓(xùn)練好的手語識(shí)別模型來識(shí)別未包含在訓(xùn)練集中的手語。零樣本學(xué)習(xí)推廣的重難點(diǎn)在于手語知識(shí)的理解,缺乏大型手語動(dòng)作圖解數(shù)據(jù)集。文獻(xiàn)[71,75]建立了手語視頻附帶動(dòng)作描述性文本信息的數(shù)據(jù)集,在其零樣本學(xué)習(xí)模型框架下實(shí)現(xiàn)了非數(shù)據(jù)集手語的識(shí)別功能。目前的零樣本學(xué)習(xí)框架以3DCNN網(wǎng)絡(luò)結(jié)合注意力機(jī)制做特征提取,LSTM網(wǎng)絡(luò)表征時(shí)序關(guān)系為主。Bilge 等人[75]利用手語詞典中的描述作為知識(shí)轉(zhuǎn)移的過渡語義表示,結(jié)合手語視頻信息,在零樣本學(xué)習(xí)框架內(nèi)利用描述性文本以及時(shí)空特征,完成零樣本識(shí)別。Rastgoo等人[71]利用深度特征與骨架特征融合互補(bǔ),提出一種多模態(tài)零樣本手語識(shí)別(ZS-SLR)模型。其將T ransform er模型和C3D模型分別用于手部檢測(cè)和深度特征提取,LSTM表征時(shí)序關(guān)系,最后利用BERT將視覺特征映射到手語標(biāo)簽。

        圖1 手語零樣本學(xué)習(xí)示意圖

        零樣本學(xué)習(xí)能夠克服手語數(shù)據(jù)的標(biāo)注瓶頸,解決遮擋、光線變化等帶來的識(shí)別難題。但其目前處于起步階段,識(shí)別準(zhǔn)確率不足以支撐其實(shí)際應(yīng)用。該方法的研究重難點(diǎn)在于:(a)測(cè)試數(shù)據(jù)來自訓(xùn)練數(shù)據(jù)分布以外的未知類造成域偏移情況,即要識(shí)別的未知手語詞語表達(dá)所需要的動(dòng)作視頻或動(dòng)作的文本描述未在訓(xùn)練數(shù)據(jù)中出現(xiàn);(b)手語識(shí)別模型在訓(xùn)練過程中出現(xiàn)的語義損失;(c)手語視覺信息特征與文本語義特征之間的映射關(guān)系的表達(dá)。(d)缺乏專業(yè)手語視頻動(dòng)作圖解數(shù)據(jù)集,數(shù)據(jù)集需要精確描述視頻動(dòng)作,理解相關(guān)動(dòng)作含義。手語識(shí)別零樣本學(xué)習(xí)是機(jī)會(huì)與挑戰(zhàn)并存的研究方向。

        4.1.2 連續(xù)語句手語識(shí)別方法

        連續(xù)手語識(shí)別是指利用計(jì)算設(shè)備對(duì)通過手語表達(dá)的連續(xù)性句子的視頻等轉(zhuǎn)化為文本、語音等信息,連續(xù)手語的訓(xùn)練數(shù)據(jù)只給出了粗粒度標(biāo)簽,屬于弱監(jiān)督問題中的不確切監(jiān)督問題。連續(xù)手語識(shí)別的難點(diǎn)在于句子種類豐富多樣,視頻時(shí)長(zhǎng)大大增加,幀序列特征提取以及上下文關(guān)系處理難度增加,表達(dá)詞匯間的間隔難以捕捉,因此單一的網(wǎng)絡(luò)模型較難實(shí)現(xiàn)高性能的連續(xù)手語識(shí)別任務(wù),許多工作將多種網(wǎng)絡(luò)結(jié)構(gòu)結(jié)合,本節(jié)將總結(jié)連續(xù)語句手語識(shí)別領(lǐng)域中常見的方法及網(wǎng)絡(luò)結(jié)合方法,各模型方法見表4。

        表4 連續(xù)語句手語識(shí)別方法

        (1)傳統(tǒng)模型方法。在神經(jīng)網(wǎng)絡(luò)模型盛行以前,隱馬爾可夫模型(HMM)在手語識(shí)別領(lǐng)域表現(xiàn)最好,通過隱藏層刻畫序列間的依賴關(guān)系。Bauer等人[89]利用隱馬爾可夫模型結(jié)合束搜索降低識(shí)別任務(wù)中的計(jì)算復(fù)雜度。Gweth等人[90]在SIGNUM數(shù)據(jù)庫(kù)上建立一個(gè)基于高斯隱馬爾可夫模型(GHMM)結(jié)合神經(jīng)網(wǎng)絡(luò)的模型,將多層感知器(M u ltiLayer Perceptron, MLP)特征首次用于手語識(shí)別系統(tǒng)。HMM本質(zhì)是統(tǒng)計(jì)分析模型,無法考慮長(zhǎng)序列信息,時(shí)序表征能力與RNN網(wǎng)絡(luò)相比遜色很多,且無法處理上下文信息。

        (2)卷積神經(jīng)網(wǎng)絡(luò)與循環(huán)神經(jīng)網(wǎng)絡(luò)混合方法。文獻(xiàn)[91,92,94—99]的工作表明,3維卷積網(wǎng)絡(luò)與2維卷積網(wǎng)絡(luò)相比,其優(yōu)點(diǎn)在于其初始層具有將全連接層以及嵌入層中的連續(xù)手語多通道時(shí)空特征投影的能力,這使得網(wǎng)絡(luò)具有更豐富的語義表達(dá)信息。然而3維卷積網(wǎng)絡(luò)無法精確劃分詞匯邊界,2維卷積網(wǎng)絡(luò)不表征視頻幀間的依賴關(guān)系,而其往往可以提供較為精確的詞匯間隔,因此其在連續(xù)手語識(shí)別中的效果較好。卷積網(wǎng)絡(luò)優(yōu)勢(shì)在于特征提取,需要結(jié)合長(zhǎng)短時(shí)記憶網(wǎng)絡(luò)表征詞匯間的長(zhǎng)時(shí)依賴關(guān)系,然而對(duì)詞匯內(nèi)的時(shí)序關(guān)系建模能力不足,此時(shí)通常需要結(jié)合連接時(shí)序分類(Connectionist Tem poral C lassification, CTC)完成連續(xù)手語識(shí)別任務(wù),CTC在連續(xù)手語識(shí)別任務(wù)中能夠使得詞匯間隔更明確,表征詞匯內(nèi)的依賴關(guān)系。很多工作[91,92,94—99]結(jié)合上述3種模型優(yōu)點(diǎn)完成連續(xù)手語識(shí)別任務(wù)。遷移學(xué)習(xí)在連續(xù)手語識(shí)別大規(guī)模數(shù)據(jù)模型中的作用至關(guān)重要,Sharm a等人[94]在孤立詞數(shù)據(jù)集上預(yù)訓(xùn)練模型用于連續(xù)手語識(shí)別任務(wù)。Han等人[99]在K inetics數(shù)據(jù)集上預(yù)訓(xùn)練,使其模型為識(shí)別視頻特征做準(zhǔn)備。另有工作利用多級(jí)長(zhǎng)短時(shí)記憶網(wǎng)絡(luò)完成連續(xù)語句任務(wù)。Gao等人[83]利用多個(gè)BiLSTM s表征幀序列信息、詞匯序列信息以及短語序列信息,利用預(yù)測(cè)網(wǎng)絡(luò)表征語句上下文信息,最后利用RNN-T ransducer模型學(xué)習(xí)視頻與語句間的最佳對(duì)齊策略。

        在連續(xù)手語識(shí)別方法中,2維卷積網(wǎng)絡(luò)提供較為精確的詞匯間隔,建立詞匯與視頻動(dòng)作間的對(duì)齊關(guān)系,因此其在連續(xù)手語識(shí)別中的效果相比3DCNN更好。CNN網(wǎng)絡(luò)需要與LSTM網(wǎng)絡(luò)結(jié)合表達(dá)長(zhǎng)序依賴關(guān)系,最后通過結(jié)合CTC網(wǎng)絡(luò)對(duì)齊幀序列與詞匯信息,表征詞匯內(nèi)的序列關(guān)系。

        (3)基于注意力機(jī)制的混合方法。RNN固有的順序?qū)傩宰璧K了訓(xùn)練樣本間的并行化,對(duì)于長(zhǎng)序列信息,計(jì)算設(shè)備的內(nèi)存限制會(huì)阻礙訓(xùn)練樣本的批量處理,而連續(xù)手語信息的序列長(zhǎng)度對(duì)RNN模型并不友好。T ransform er在處理手語識(shí)別序列問題中突破了RNN模型不能并行計(jì)算的限制,且具有長(zhǎng)時(shí)序信息的表征能力,與卷積網(wǎng)絡(luò)互補(bǔ),表征全局特征信息。常見的混合方法包括:(a)CNN+Transform er+CTC方法。卷積網(wǎng)絡(luò)做特征提取,T ransformer表征時(shí)序關(guān)系,CTC對(duì)齊幀序列與詞匯信息的結(jié)合方式[93,97,98]已成為一個(gè)主流研究方向。X ie等人[98]利用內(nèi)容感知鄰域聚合方法選擇手語相關(guān)特征,將特征整合至位置感知的時(shí)間卷積層來增強(qiáng)手語的特征表達(dá),利用T ransformer模型表征長(zhǎng)時(shí)序關(guān)系,并引入相對(duì)位置編碼的概念解決T ransformer中絕對(duì)位置編碼方向與距離的未知性,通過卷積層的特征提取策略解決T ransform er采用視頻幀聚合手語特征從而忽略手語的時(shí)間與語義的結(jié)構(gòu)對(duì)齊問題,最后利用CTC完成連續(xù)手語識(shí)別。Cam goz等人[93]提出了利用CNN網(wǎng)絡(luò)做特征提取,將T ransformer與CTC結(jié)合實(shí)現(xiàn)端到端的訓(xùn)練,其在RWTH-PHOENIX-W eather-2014T(PHOENIX14T)數(shù)據(jù)集上達(dá)到了24.59%的錯(cuò)詞率,并且將手語識(shí)別和語句翻譯任務(wù)集成到統(tǒng)一網(wǎng)絡(luò)結(jié)構(gòu)中進(jìn)行聯(lián)合優(yōu)化。Ban Slim ane等人[97]利用2DCNN與T ransformer分別對(duì)空間與時(shí)間信息建模,聯(lián)合多條獨(dú)立數(shù)據(jù)流表征多模態(tài)信息,并共享同一時(shí)間序列結(jié)構(gòu)。(b)圖卷積網(wǎng)絡(luò)+圖T ransform er+CTC方法。Kan等人[95]利用圖卷積網(wǎng)絡(luò)以及圖T ransform er作為編碼器提取手語信息的局部與全局特征信息,圖T ransformer表征手語序列中的上下文信息,最后利用CTC網(wǎng)絡(luò)關(guān)聯(lián)詞匯與視頻幀中的對(duì)齊關(guān)系,在PHOENIX-2014-T數(shù)據(jù)集上的錯(cuò)詞率達(dá)到19.5%,在CSL-100的錯(cuò)詞率達(dá)到27.6%。(c)GAN+T ransform er方法。Papastratis等人[96]利用GAN網(wǎng)絡(luò)識(shí)別連續(xù)手語中的詞匯信息,T ransform er將手語詞匯轉(zhuǎn)換為自然語言文本。生成器使用時(shí)序CNN網(wǎng)絡(luò)與BLSTM網(wǎng)絡(luò)提取時(shí)空特征識(shí)別手語詞匯,判別器則通過對(duì)句子與詞匯中的文本信息建模判別生成器的手語識(shí)別效果。該項(xiàng)工作還研究了手語對(duì)話中語境信息對(duì)聽障人士與健聽人群不同組合的重要性。

        LSTM記憶網(wǎng)絡(luò)不能夠并行化,計(jì)算設(shè)備的限制阻礙訓(xùn)練樣本的批量處理,連續(xù)手語的序列長(zhǎng)度對(duì)其不友好。T ransform er既能夠突破LSTM并行化限制,又能夠與卷積互補(bǔ),提取局部、全局特征,更好地連接視覺與語言,因此運(yùn)用T ransform er表征連續(xù)手語的長(zhǎng)時(shí)序依賴關(guān)系已成為主流方向之一。

        4.2 僅依靠手部特征的手語識(shí)別方法與多特征融合的手語識(shí)別方法

        手部動(dòng)作是手語信息最主要的特征,如圖2手部特征區(qū)域所示,僅依靠手部特征的手語識(shí)別方法涉及手部檢測(cè)、手部追蹤以及手部姿態(tài)估計(jì)等方面。面部特征及肢體特征同樣是手語表達(dá)的重要部分。圖2表明手部特征可以和面部、肢體等非手控特征融合訓(xùn)練。多特征結(jié)合能夠提升模型準(zhǔn)確率和魯棒性,尤其是在遇到光線、形態(tài)變化等情況下。除訓(xùn)練多特征融合模型外,人體參數(shù)化建模也能有效融合手語多特征。本節(jié)分別介紹僅依靠手部特征手語識(shí)別方法與多特征融合手語識(shí)別方法,各方法總結(jié)如表5所示。

        (1)僅依靠手部特征手語識(shí)別方法。手部特征是手語最關(guān)鍵的語義傳達(dá)特征,僅依靠手部特征的識(shí)別方法主要包括手部姿態(tài)估計(jì)、手部追蹤以及手部檢測(cè)等。(a)在手部姿態(tài)估計(jì)中具有代表性的模型是MPH (MediaPipe Hands)方法。該模型已有訓(xùn)練基礎(chǔ),能夠省去訓(xùn)練花費(fèi)的大量精力。文獻(xiàn)[100,101]均利用MPH模型檢測(cè)手部關(guān)鍵點(diǎn),并在其使用數(shù)據(jù)集中表現(xiàn)優(yōu)異。MPH模型可與SVM,GBM方法結(jié)合[101]完成手部姿態(tài)估計(jì)。該方法所使用的采集識(shí)別設(shè)備精簡(jiǎn),便于推廣,能夠有效解決手部被遮擋的識(shí)別難題。此外,文獻(xiàn)[102]利用CNN結(jié)合奇異值分解實(shí)現(xiàn)低復(fù)雜度,高準(zhǔn)確度的手部估計(jì)方法。(b)手部檢測(cè)的代表性框架包括R-CNN系列以及YOLO系列,手語檢測(cè)識(shí)別通常情況下有兩個(gè)難點(diǎn),一是要處理大量候選的手語表達(dá)位置框,二是需要表征弱監(jiān)督問題中的細(xì)粒度特征以及精細(xì)化候選框位置。文獻(xiàn)[73,103]分別采用R-CNN框架以及YOLOv5完成實(shí)時(shí)手語識(shí)別。R-CNN使用的VGG-16參數(shù)量大,耗費(fèi)大量計(jì)算時(shí)間與空間,每個(gè)候選區(qū)域要執(zhí)行卷積網(wǎng)絡(luò)前向傳播且需要多階段訓(xùn)練。其改進(jìn)版Fast R-CNN以及Faster R-CNN優(yōu)化訓(xùn)練階段并縮短檢測(cè)框生成速度。YOLOv5對(duì)小目標(biāo)的敏感度更高,而手語識(shí)別需要利用手指關(guān)節(jié)等部位的精細(xì)化特征。文獻(xiàn)[73,74]將遷移學(xué)習(xí)應(yīng)用到目標(biāo)檢測(cè)中,Srivastava等人[74]利用TensorFlow Object Detection API框架,利用遷移學(xué)習(xí)實(shí)現(xiàn)了手語實(shí)時(shí)檢測(cè)識(shí)別。該框架部署訊速,預(yù)訓(xùn)練權(quán)重豐富。(c)在手部追蹤方面,文獻(xiàn)[44,104]均使用CNN網(wǎng)絡(luò)實(shí)現(xiàn)手部追蹤,將手部運(yùn)動(dòng)學(xué)3維模型與卷積神經(jīng)網(wǎng)絡(luò)結(jié)合實(shí)現(xiàn)手部追蹤[44],增強(qiáng)模型魯棒性以應(yīng)對(duì)遇到遮擋及視角變化等問題。Roy[105]利用Cam shift T racker實(shí)現(xiàn)了手部跟蹤,結(jié)合HMM模型實(shí)現(xiàn)了能夠區(qū)分單雙手的手語識(shí)別。

        在僅依靠手部特征信息的手語識(shí)別方法中,多模態(tài)信息輸入能夠幫助識(shí)別模型提高魯棒性與準(zhǔn)確率。Rastgoo等人[106]分別在2018年與2021年實(shí)現(xiàn)了多模態(tài)手語識(shí)別,有效提升識(shí)別準(zhǔn)確率。另有學(xué)者致力于模型參數(shù)的簡(jiǎn)化[107],期待利用圖像處理[48]的方法提升模型的識(shí)別準(zhǔn)確率等。

        (2)多特征融合手語識(shí)別方法。手語的語義傳達(dá)離不開面部表情以及肢體等非手控特征,以手部特征為基礎(chǔ)融合面部、肢體等特征能有效提高模型的識(shí)別性能。融合方法可以大致分為神經(jīng)網(wǎng)絡(luò)融合方法及3維姿態(tài)恢復(fù)方法。(a)多特征神經(jīng)網(wǎng)絡(luò)融合方法。在手語識(shí)別任務(wù)中既需要細(xì)粒度特征,探索手語動(dòng)作的關(guān)鍵信息,同時(shí)需要粗粒度手語動(dòng)作特征把控序列進(jìn)程。卷積神經(jīng)網(wǎng)絡(luò)的淺層網(wǎng)絡(luò)能夠提取圖片的高分辨率低層特征,包含手語表達(dá)中的手部關(guān)節(jié)位置、面部表情、眼型等細(xì)節(jié)信息。深層網(wǎng)絡(luò)提取的高層特征雖然分辨率低,細(xì)節(jié)感知能力弱,但能有效表征動(dòng)作語義信息。因此,許多工作[25,48,111]采用CNN網(wǎng)絡(luò)融合手語表達(dá)所采用的多特征信息。多特征融合根據(jù)方法結(jié)構(gòu)可分為前端融合、中間融合以及后端融合。Elakkiya等人[66]運(yùn)用前端融合方式,在輸入層通過HMM模型提取手部特征及非手控特征,利用VAE融合手型、唇形及眼睛等20個(gè)特征降維后輸入至GAN網(wǎng)絡(luò)中。文獻(xiàn)[48,111]采用后端融合按照特征權(quán)重等方式融合預(yù)測(cè)結(jié)果。文獻(xiàn)[48]將CNN提取的面部、口型的不同特征輸入至HMM模型融合預(yù)測(cè)。G?k?e等人[111]利用3DCNN將手、面部以及肢體按照相應(yīng)權(quán)重融合特征,完成手語識(shí)別任務(wù)。Hu等人[25]利用3DCNN網(wǎng)絡(luò)通過結(jié)合上下文關(guān)系與細(xì)粒度線索兩條數(shù)據(jù)流表征了面部表情、眼睛等非手控信息。(b)3D身體姿態(tài)恢復(fù)方法。姿態(tài)恢復(fù)是將RGB圖像轉(zhuǎn)化為3維姿態(tài),獲取身體各部位的坐標(biāo)、圖像等細(xì)節(jié)信息以融合手語表達(dá)特征。SMPL是其中代表性模型,可以精準(zhǔn)的刻畫人肌肉伸縮等細(xì)節(jié)性特征。K ratimenos等人[112]提出了SMPL-X模型利用單個(gè)圖像生成3D身體姿態(tài)模型,利用3D模型融合手語特征,完成手語識(shí)別任務(wù)。該方向有效地解決亮度、形態(tài)、視角變化等手語識(shí)別領(lǐng)域的難題,是多特征融合手語識(shí)別發(fā)展的重要方向之一。

        目前多特征融合方法能夠有效提高手語識(shí)別方法的魯棒性與精細(xì)度,緩解手部遮擋、視角變化等問題帶來的預(yù)測(cè)難題。但其仍然面臨如下問題:(a)如何充分利用手語表達(dá)特征之間互異性、互補(bǔ)性與冗余度以提升模型的訓(xùn)練效率與效果。(b)不同手語特征融合時(shí)引入的噪聲以及語義鴻溝可能對(duì)識(shí)別模型產(chǎn)生負(fù)影響。(c)在后端融合時(shí)缺少分配手語特征權(quán)重的標(biāo)準(zhǔn)。

        4.3 模型總結(jié)

        圖3分別總結(jié)了在孤立詞最具權(quán)威性的CSL-500數(shù)據(jù)集與ASLLVD數(shù)據(jù)集下模型準(zhǔn)確率,以及在連續(xù)語句應(yīng)用最廣泛的CSL-100, PHOENIX-2014以及PHOENIX-2014T數(shù)據(jù)集下的模型錯(cuò)詞率。其中文獻(xiàn)[58,66,95,96,98]在以上數(shù)據(jù)集中識(shí)別效果最佳,總結(jié)以上模型可發(fā)現(xiàn):(1)注意力機(jī)制有效解決長(zhǎng)時(shí)序依賴關(guān)系[58,95,98],學(xué)習(xí)手語序列的上下文關(guān)系;(2)GAN網(wǎng)絡(luò)在手語識(shí)別弱監(jiān)督、多分類問題中表現(xiàn)強(qiáng)勢(shì)[66,96];(3)多特征、多線索融合[66,96]有效提升手語識(shí)別方法的準(zhǔn)確性與魯棒性。圖3表明手語識(shí)別研究重點(diǎn)并未局限于準(zhǔn)確率的提升,遮擋、復(fù)雜環(huán)境、數(shù)據(jù)擴(kuò)展等問題同樣是當(dāng)前研究重難點(diǎn)。

        圖3 本文所收錄的手語識(shí)別模型在幾種典型數(shù)據(jù)集下的識(shí)別表現(xiàn)

        5 總結(jié)與展望

        5.1 手語識(shí)別技術(shù)的問題與挑戰(zhàn)

        手語識(shí)別技術(shù)的研究要考慮使用人群的需求,在識(shí)別方法上尋求應(yīng)用性、普及性以及可拓展性。該領(lǐng)域發(fā)展迅速,但在發(fā)展過程中仍存在很多挑戰(zhàn)。本節(jié)總結(jié)了手語識(shí)別技術(shù)所面臨的技術(shù)難題與挑戰(zhàn)。

        (1)手語精細(xì)化特征與粗粒度動(dòng)作語義序列建模。手語除依靠手部動(dòng)作外,非手控特征也影響語義傳輸。手部細(xì)節(jié)特征以及唇形、眼睛等非手控特征均需要精細(xì)化建模,同時(shí)要考慮表征手語動(dòng)作序列與語義單元的關(guān)聯(lián)銜接性。手語多特征精細(xì)化建模兼顧粗粒度動(dòng)作序列建模以提升模型魯棒性與準(zhǔn)確率仍是一個(gè)挑戰(zhàn)。

        (2)不確切監(jiān)督序列識(shí)別。目前的連續(xù)手語識(shí)別技術(shù)是典型的不確切監(jiān)督問題,這是由于連續(xù)手語數(shù)據(jù)集大多只有句子級(jí)標(biāo)簽,無法構(gòu)造動(dòng)作與詞匯的序列對(duì)齊關(guān)系,通常需要?jiǎng)澐志_的詞匯間隔,將幀序列信息與詞匯語義信息關(guān)聯(lián)對(duì)齊訓(xùn)練,對(duì)模型的上下文關(guān)聯(lián)及時(shí)空特征聚合能力要求很高。

        (3)手語數(shù)據(jù)匱乏與模型訓(xùn)練數(shù)據(jù)限制。多樣化、真實(shí)性、大規(guī)模數(shù)據(jù)集十分稀缺,手語數(shù)據(jù)標(biāo)注困難,且現(xiàn)實(shí)應(yīng)用場(chǎng)景中數(shù)據(jù)量龐大,無法逐一訓(xùn)練。如何高效利用鄰域與跨域數(shù)據(jù)特征,以及實(shí)際應(yīng)用中如何拓展模型以準(zhǔn)確識(shí)別未訓(xùn)練詞匯仍是巨大挑戰(zhàn)。

        (4)復(fù)雜環(huán)境實(shí)時(shí)識(shí)別?,F(xiàn)階段很多手語識(shí)別技術(shù)研究停留在實(shí)驗(yàn)室背景下的視頻理解。而真正能夠?qū)⑹终Z識(shí)別技術(shù)推廣的研究要在實(shí)時(shí)的情況下解決光線、視角變化、手部遮擋等復(fù)雜環(huán)境的識(shí)別難題。

        5.2 展望

        手語識(shí)別技術(shù)的研發(fā)目標(biāo)是實(shí)現(xiàn)實(shí)時(shí)精準(zhǔn)識(shí)別方法落地,服務(wù)于大眾。面對(duì)上述手語識(shí)別技術(shù)難題,該領(lǐng)域應(yīng)從識(shí)別方法的簡(jiǎn)便性與拓展性、數(shù)據(jù)集的發(fā)展、識(shí)別系統(tǒng)應(yīng)用性等取得突破性進(jìn)展,推動(dòng)人機(jī)交互。

        (1)輕量化、高速推理與魯棒性模型研發(fā)。大眾更期待在手機(jī)等便攜式設(shè)備上使用手語識(shí)別功能,因此開發(fā)兼顧輕量化、高速推理與多模態(tài)多特征融合的快速部署、實(shí)時(shí)識(shí)別、具有魯棒性的實(shí)用模型迫在眉睫。

        (2)大規(guī)模、真實(shí)性、多樣化、注釋性手語數(shù)據(jù)集需求。首先,手語識(shí)別技術(shù)落地必然離不開大規(guī)模的聽障人士在真實(shí)環(huán)境下錄制的數(shù)據(jù)集。其次,需要數(shù)據(jù)形式、錄制人員、標(biāo)注特征及場(chǎng)景多樣化的手語數(shù)據(jù)以提升識(shí)別方法的魯棒性。最后,亟需建立專業(yè)的手語動(dòng)作注釋性圖解數(shù)據(jù)集用于語義理解與模型拓展。

        (3)手語知識(shí)可擴(kuò)充性模型研究。現(xiàn)實(shí)應(yīng)用中的龐大手語數(shù)據(jù)無法在模型中逐一訓(xùn)練,這要求模型具有強(qiáng)大的拓展能力。在此方面有如下展望:(a)完善近域、跨域遷移學(xué)習(xí)方法拓展訓(xùn)練數(shù)據(jù)范圍,緩解手語標(biāo)注瓶頸。(b)強(qiáng)化零樣本學(xué)習(xí)模型的識(shí)別準(zhǔn)確率以達(dá)到應(yīng)用性要求,在連續(xù)手語識(shí)別領(lǐng)域開展零樣本學(xué)習(xí)研究。(c)探索手語識(shí)別終身學(xué)習(xí)機(jī)制,在模型部署應(yīng)用的同時(shí)不斷擴(kuò)充模型知識(shí)儲(chǔ)備。

        (4)在線手語識(shí)別綜合系統(tǒng)功能開發(fā)。實(shí)時(shí)識(shí)別是系統(tǒng)應(yīng)用性前提,除此還可拓展如下功能:(a)多人手語識(shí)別,并要解決其余手部及特征干擾識(shí)別對(duì)象問題。(b)手語識(shí)別后的文本翻譯。目前手語識(shí)別缺乏多語種比較研究。手語識(shí)別后的語言翻譯能夠有效促進(jìn)使用者國(guó)際化交流。(c)多模態(tài)聯(lián)合手語采集識(shí)別設(shè)備開發(fā)。多模態(tài)手語識(shí)別方法面臨著采集與識(shí)別設(shè)備復(fù)雜的應(yīng)用難題,開發(fā)輕便化采集識(shí)別設(shè)備迫在眉睫。

        猜你喜歡
        手語手部卷積
        手部皮膚軟組織缺損修復(fù)的皮瓣選擇
        基于3D-Winograd的快速卷積算法設(shè)計(jì)及FPGA實(shí)現(xiàn)
        自然手語在聾人大學(xué)生手語中的使用調(diào)查研究——以南京特殊教育師范學(xué)院為例
        活力(2019年15期)2019-09-25 07:23:06
        從濾波器理解卷積
        電子制作(2019年11期)2019-07-04 00:34:38
        基于傅里葉域卷積表示的目標(biāo)跟蹤算法
        奇怪的手語圖
        兩種皮瓣修復(fù)手部軟組織缺損的比較
        發(fā)生于手部的硬下疳一例
        奇怪的手語圖
        復(fù)明膠囊疑致手部腫痛1例
        曰韩人妻无码一区二区三区综合部| 免费人成网站在线观看| 国产白嫩美女在线观看 | 国产亚洲精品日韩综合网| 亚洲av一区二区三区网站| 中文字幕一区二区三区的| 精品国产拍国产天天人 | 国产精品白浆视频免费观看| 最新国产精品国产三级国产av| 亚洲精品无码av人在线观看国产| 国产二级一片内射视频插放| 国产成人户外露出视频在线| av免费观看在线网站| 国产精品女主播福利在线| 国产肥熟女视频一区二区三区| 在线精品国内视频秒播| 成人免费毛片在线播放| 国产美女主播视频一二三区| 99精品一区二区三区无码吞精| 国产精品丝袜在线不卡| 国产激情在线观看视频网址| 欧洲美熟女乱又伦av影片| aa片在线观看视频在线播放| 丝袜足控一区二区三区| 欧美亚洲国产人妖系列视| 亚洲国产天堂av成人在线播放| 精品久久久久久综合日本| 久久无码人妻精品一区二区三区| 在线观看亚洲你懂得| 亚洲乱码av一区二区蜜桃av| 岛国av无码免费无禁网站| 欧美色aⅴ欧美综合色| 日本五十路熟女在线视频| 亚洲熟妇自偷自拍另类| 亚洲国产日韩欧美一区二区三区| 亚洲日韩区在线电影| 青青草在线免费观看视频| 真实人与人性恔配视频| 亚洲成在人线av品善网好看| 狠狠躁18三区二区一区| a级毛片在线观看|