亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于自注意力序列模型的唇語識別研究

        2021-07-16 14:05:12王媛媛吳開存
        電子器件 2021年3期
        關(guān)鍵詞:唇語時序時域

        王媛媛,王 沛,吳開存

        (1.鹽城工學(xué)院信息工程學(xué)院,江蘇 鹽城 224051;2.東南大學(xué)網(wǎng)絡(luò)空間安全學(xué)院,江蘇 南京 210096;3.東南大學(xué)信息科學(xué)與工程學(xué)院,江蘇 南京 210096)

        唇語識別是一項通過唇部視覺信息來推斷視頻中語音內(nèi)容的任務(wù)。其在實踐中具有許多關(guān)鍵應(yīng)用,例如輔助提升語音識別性能[1],活體檢測[2],改進助聽器等。唇語識別任務(wù)的關(guān)鍵在于如何有效地捕捉唇部運動信息,同時減小由光照條件、頭部姿態(tài)、說話人外表等因素而產(chǎn)生的噪聲。

        唇語識別任務(wù)存在很多難點和挑戰(zhàn)。首先,不同語句的唇部運動差異極其微小,細粒度特征難以捕捉;其次,不同說話人的語速不同,同一段語句的時長也可能不同,需要解決長短時依賴問題;此外,上下文的冗余信息會不可避免地帶入到當(dāng)前語句中,影響最終的識別結(jié)果。傳統(tǒng)的方法分為多個階段,包括嘴唇檢測,特征提取和分類器分類。其技術(shù)核心主要包括用HOG 等特征提取算法捕捉嘴唇的幾何特征,利用隱藏馬爾科夫模型(HMM)識別特征序列。這類方法在特征提取和時序建模方面的效果都極其有限,不具備實用性。近年來的研究中[3],卷積神經(jīng)網(wǎng)絡(luò)(CNN)可以很好地學(xué)習(xí)到與視頻序列的空間特征,配合LSTM 等循環(huán)網(wǎng)絡(luò)在時序上的建模,在唇語識別任務(wù)上取得了一定的成果,但是仍然存在一些缺點,比如不能抵抗明暗光線、皺紋、胡須等因素帶來的視覺噪聲,以及語速和詞語邊界冗余信息帶來的時序建模困難的問題。

        為了解決這些問題,本文設(shè)計的STCNN +Bi-GRU+Self-Attention 模型,充分考慮了唇語識別任務(wù)的復(fù)雜性和多樣性。一方面,STCNN 可以有效抑制視覺噪聲,提取圖像序列的高維特征;另一方面,以Bi-GRU 作為時序模型,搭配Self-Attention 輔助訓(xùn)練,可以增強關(guān)鍵幀的語義表示,避免時域全局平均帶來的語義損失。最終,本文在LRW 數(shù)據(jù)集[4]和LRW-1000 數(shù)據(jù)集上[5]評估了所提出的方法,結(jié)果表明,在不使用額外數(shù)據(jù)和額外預(yù)訓(xùn)練的情況下,與先前的方法相比,本文所提出的方法在上述兩個基準(zhǔn)數(shù)據(jù)集上達到了最先進的水平。

        1 基于STCNN-GRU 的唇語識別基礎(chǔ)框架

        唇語識別模型的基礎(chǔ)框架包含兩個階段。第一階段是檢測人臉,根據(jù)人臉特征點得到嘴唇區(qū)域,使用CNN 提取嘴唇圖像序列中每幀圖像的時空特征向量;第二階段使用循環(huán)神經(jīng)網(wǎng)絡(luò)對各幀圖像特征的時序關(guān)系建模,并使用全連接層作為分類器進行分類[6]。如圖1 所示,輸入張量的維度是B×T×H×W,每個維度分別對應(yīng)批次、幀、高度和寬度。令X=(x1,x2,…,xT)表示T幀輸入圖像序列,其中xi為第i幀的特征向量。該模型的任務(wù)是將輸入序列X分為N類之一,其中N為類別總數(shù)。令Y=(0,0,1,…,0)表示序列的帶注釋單詞標(biāo)簽。經(jīng)過端到端訓(xùn)練,得到時序特征序列對應(yīng)的音素,字符或詞語。

        圖1 唇語識別模型的基本框架

        1.1 前端模塊

        前端模塊的主要任務(wù)是提取圖像序列特征,該部分由時空卷積[7]網(wǎng)絡(luò)(STCNN)、ResNet18[8]和全局平均池化(GAP)[9]構(gòu)成。與傳統(tǒng)卷積神經(jīng)網(wǎng)絡(luò)相比,STCNN 可以同時跨時間以及空間維度進行卷積來處理視頻數(shù)據(jù)。令輸入為x,權(quán)重為w∈,則STCNN 可以表示為:

        STCNN 將直接作用于原始圖像序列,以執(zhí)行序列中的時間空間對齊。然后進行空間池化以壓縮空間域中的特征,在此過程中不執(zhí)行時間下采樣,以避免進一步丟失序列的運動信息。這是因為每一類別單詞的持續(xù)時間總是很短。接下來將特征按照時長T分為T個部分,并且對每個時間步長t=1,2,…,T分別使用ResNet18 提取判別特征,在提升通道數(shù)的同時,捕獲圖像的語義信息。最后在卷積層末端使用GAP,得到B×C×T的特征輸出,其中C是最后一層卷積的通道維度。

        1.2 后端模塊

        后端模塊的主要任務(wù)是對時序關(guān)系建模,由雙向門控循環(huán)單元[10](Bi-GRU)和全連接層構(gòu)成。從前端模塊得到的特征序列以正常順序輸入一個GRU,并以相反順序輸入另一個GRU,兩組輸出在每一個對應(yīng)的時間位置連接在一起,以表示整個序列。Bi-GRU 的輸出是整個輸入序列的全局表示,可以表示為H=[h1,h2,…,hT],其中H∈Rd×T,d是GRU 的隱藏層數(shù)量,ht表示第t時刻的輸出。最后使用全連接層線性變換將特征向量H映射為維度為N的特征向量O,N表示類別總數(shù)。通過Softmax激活函數(shù)得到每一類別的概率作為模型最終輸出,并使用交叉熵損失函數(shù)計算神經(jīng)網(wǎng)絡(luò)的損失Loss,如式(2)所示,其中表示第i個類別的預(yù)測概率,Yi表示真實的one-hot 標(biāo)簽值。

        2 時域自注意力機制

        在每個序列中,不同幀提供的有價值的信息量是不等的。受到說話人語速的影響,一段唇語視頻中,僅有少數(shù)幾幀是關(guān)鍵幀,對最終識別結(jié)果有極大影響,而其余的特征序列則對最終結(jié)果的貢獻較小。除此以外,在實際情況中,輸入的字詞片段也難免會帶來鄰近詞語的冗余信息,這給時序建模帶來了極大的困難。如圖2 中的一個完整視頻樣本所示,該樣本的18 幀圖像中,只有中間的9 幀代表了樣本標(biāo)簽“國際”這個詞語,而前5 幀和后4 幀分別是來自上下文詞語的冗余信息。

        圖2 標(biāo)記為“國際”的一個樣本視頻

        對于單個單詞、短語或句子,獲取完全精確的起始和終止邊界位置是極其困難的。一個好的唇語識別模型應(yīng)該能夠?qū)W習(xí)到來自不同視頻的關(guān)鍵信息?,F(xiàn)有的方法,通常是對每個序列的所有時間步長上的特征賦予相同的權(quán)重[3,11-12],這在實踐中將會在一定程度上損失精度。一個單詞的關(guān)鍵信息往往隱含在某一段或幾段連續(xù)幀中,因此有必要讓模型能夠辨識重要的關(guān)鍵信息,采用不同的權(quán)重進行時序建模。在Seq2seq 模型中,Transformer[13]被廣泛應(yīng)用并取得了良好的成績。這主要得益于Transformer中的自注意力機制(Self-Attention)。為了更好地解決上述問題,本文將改進的自注意力機制與GRU 結(jié)合,將其引入到唇語識別任務(wù)中。本文所使用的Self-Attention 結(jié)構(gòu)如圖3 所示。

        圖3 時域自注意力機制的結(jié)構(gòu)

        其中Q(Query)、K(Key)和V(Value)均由前端模塊的輸出向量線性變換生成,接著通過點積和Softmax 運算得到時域特征的權(quán)重,再反饋到后端網(wǎng)絡(luò)中,點積自注意力機制的公式如下:

        F這個權(quán)重表示每一時刻唇部的特征和當(dāng)前模型輸出結(jié)果的相關(guān)性,通過時域自注意力機制可以保證一些更重要時刻的唇部特征能夠更好地被關(guān)注,提升有用的特征,抑制對當(dāng)前任務(wù)無用的特征。

        綜上所述,本文提出的基于自注意力序列模型的唇語識別方法如圖4 所示,由以下幾個步驟構(gòu)成:

        圖4 基于自注意力序列模型的唇語識別方法

        (1)從原始視頻中提取多幀圖像,檢測視頻中的人臉特征點位置,并裁剪出嘴唇及周邊區(qū)域,組成多幀分辨率為88×88 的唇部圖像序列,作為模型的輸入;

        (2)將唇部圖像序列輸入前端模塊,經(jīng)過STCNN、ResNet18 和GAP,提取出維度為512 的時序特征序列;

        (3)使用時域自注意力機制,對上一步驟中的特征序列進行相關(guān)性計算和特征加權(quán);

        (4)將加權(quán)后的特征序列輸入后端模塊,經(jīng)過雙向GRU 和全連接層分類,得到代表樣本類別的one-hot 向量。

        3 實驗分析

        3.1 數(shù)據(jù)集

        實驗使用了領(lǐng)域內(nèi)兩個大規(guī)模單詞級唇語數(shù)據(jù)集LRW 和LRW1000 作為評判基準(zhǔn)。LRW 是一個單詞級英文唇語識別數(shù)據(jù)集,包含BBC 電視節(jié)目中的音視頻數(shù)據(jù)共500 類單詞,每個分類有1 000 個實例。LRW 是一個具有挑戰(zhàn)性的數(shù)據(jù)集,并已被大多數(shù)現(xiàn)有的唇讀方法廣泛使用。LRW1000 是目前最大規(guī)模的中文詞語級別的唇讀數(shù)據(jù)集,共有1 000類中文詞語,70 000 多條樣本實例。其數(shù)據(jù)采集于CCTV 電視節(jié)目,涵蓋了各類的說話條件,包括照明條件、分辨率、姿勢、性別、化妝等。

        3.2 實驗設(shè)置

        將兩個數(shù)據(jù)集樣本的各幀以嘴唇為中心裁切或調(diào)整到96×96 作為輸入,接著隨機選擇位置裁切到88×88 作為數(shù)據(jù)增強。STCNN 層的卷積核大小和步長分別設(shè)置為(5,7,7)和(1,2,2)。ResNet18 模塊的卷積核大小為(3,3,3),一共18 層,包含5 次下采樣和1 次GAP,各層之間都使用了Batch Normalization[14]。每個GRU 的隱藏層有1 024 個單元,一共3 層Bi-GRU。Self-Attention 模塊使用了Multi-Head,head 的數(shù)量通過多次實驗對比確定。使用Adam 優(yōu)化器,學(xué)習(xí)率初始化為0.001,每輪衰減為0.5 倍。所有的GRU 層和全連接層都使用dropout來減輕過擬合。

        3.3 結(jié)果分析

        為了評價模型的性能,本實驗以模型在LRW和LRW1000 數(shù)據(jù)集上的測試集準(zhǔn)確率作為評價指標(biāo)。在模型所有的預(yù)測結(jié)果中,如果最大概率值的類別與樣本實際類別相同,則認為預(yù)測正確,Top1準(zhǔn)確率為預(yù)測正確的樣本數(shù)量與總樣本數(shù)的比值。

        如表1 所示,在兩個主流數(shù)據(jù)集上,本文提出的基線模型準(zhǔn)確率分別為82.04%和38.31%。在使用了Multi-Head Self-Attention 之后,準(zhǔn)確率相比基線模型分別提升了2.75%和2.27%。實驗結(jié)果表明,本文提出的STCNN+Bi-GRU+Self-Attention 模型優(yōu)于先前最先進的其他方法。

        表1 不同模型在LRW 和LRW1000 的Top1 準(zhǔn)確率

        3.4 時域自注意力機制效果評估

        為了驗證時域自注意力機制對唇語識別任務(wù)的貢獻,本文計算了head =0(不使用Attention)到5 的情況下,模型在LRW1000 數(shù)據(jù)集上的準(zhǔn)確率。結(jié)果如圖5 所示,引入了Self-Attention 相比原來的基線模型,準(zhǔn)確率大幅提升,且隨著Attention head 數(shù)量的提升,準(zhǔn)確率也不斷提升。但是當(dāng)head≥4 時,模型的準(zhǔn)確率提升幅度有限,且?guī)砹烁嗟挠?xùn)練參數(shù),因此本文的最終模型使用了head 為4 的自注意力機制。

        圖5 Attention head 值對模型準(zhǔn)確率的影響

        4 總結(jié)

        本文具體分析了目前唇語識別任務(wù)面臨的挑戰(zhàn)和難點,提出了基于自注意力序列模型的唇語識別方法。經(jīng)過詳細的實驗以及與先前模型的對比,驗證了本文提出的模型在唇語識別任務(wù)上優(yōu)越性,同時也證明了時域自注意力機制在時序建模方面的有效性。

        猜你喜歡
        唇語時序時域
        時序坐標(biāo)
        基于Sentinel-2時序NDVI的麥冬識別研究
        碰撞:“唇語”應(yīng)對媒體vs志愿者自責(zé)哭泣
        唇語
        文學(xué)港(2019年5期)2019-05-24 14:19:42
        親情助力,90后“唇語女博士”名震清華
        基于時域信號的三電平逆變器復(fù)合故障診斷
        搜狗推出“唇語識別”技術(shù)
        一種毫米波放大器時序直流電源的設(shè)計
        電子制作(2016年15期)2017-01-15 13:39:08
        基于極大似然準(zhǔn)則與滾動時域估計的自適應(yīng)UKF算法
        基于時域逆濾波的寬帶脈沖聲生成技術(shù)
        日本不卡视频网站| 国产成a人亚洲精品无码樱花| 又爽又黄又无遮挡的视频| 少妇太爽了在线观看| 国产成人乱色伦区| 加勒比无码专区中文字幕| 国产麻豆一区二区三区在线播放| 黄片小视频免费观看完整版| 日本三级片在线观看| 六月婷婷久香在线视频| 久久国产亚洲高清观看5388| av天堂一区二区三区| 久久精品国产亚洲av超清| 亚洲国产精品日韩av不卡在线| 图图国产亚洲综合网站| 手机在线看片在线日韩av| 爽爽影院免费观看| 中文字幕亚洲欧美日韩2019| 无码一区二区三区不卡AV| 蜜臀人妻精品一区二区免费| 国产尤物精品视频| 少妇高潮喷水正在播放| 国产三级在线看完整版| 国产一区二区三区不卡在线观看| 日韩精品区一区二区三vr| 91精品国产91久久久无码95 | 欲香欲色天天天综合和网| 无码粉嫩虎白一线天在线观看| 妺妺窝人体色www聚色窝| 精品少妇一区二区三区入口| 一本一道av无码中文字幕麻豆| 久久福利青草精品免费| 精品国产一区二区三区久久狼| 亚洲视频高清一区二区| 久久人人爽人人爽人人av | 日本在线视频二区一区| 美女视频黄是免费| 丰满少妇在线观看网站| 国产成人精品蜜芽视频| 一区二区国产av网站| 无码人妻精品一区二区三区不卡|