亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        唇語(yǔ)識(shí)別的視覺(jué)特征提取方法綜述

        2021-12-13 12:53:58馬金林鞏元文馬自萍陳德光朱艷彬劉宇灝
        計(jì)算機(jī)與生活 2021年12期
        關(guān)鍵詞:特征提取模態(tài)特征

        馬金林,鞏元文,馬自萍,陳德光,朱艷彬,劉宇灝

        1.北方民族大學(xué) 計(jì)算機(jī)科學(xué)與工程學(xué)院,銀川 750021

        2.圖像圖形智能處理國(guó)家民委重點(diǎn)實(shí)驗(yàn)室,銀川 750021

        3.北方民族大學(xué) 數(shù)學(xué)與信息科學(xué)學(xué)院,銀川 750021

        唇語(yǔ)識(shí)別是通過(guò)分析一系列唇部運(yùn)動(dòng)信息來(lái)推斷說(shuō)話者所說(shuō)內(nèi)容,涉及模式識(shí)別、語(yǔ)音處理、圖像分類和自然語(yǔ)言處理等多個(gè)領(lǐng)域[1],具有廣闊的應(yīng)用前景。早期的唇語(yǔ)識(shí)別系統(tǒng)采用人工標(biāo)注特征作為唇部視覺(jué)特征,一系列圖像序列作為模型輸入,此類方法僅保證了下游任務(wù)能進(jìn)行分類識(shí)別,而不考慮獲取特征的有效性,因此下游任務(wù)識(shí)別精度通常較低。近年來(lái),隨著人類需求的增加,僅采用圖像序列作為模型輸入的唇語(yǔ)系統(tǒng)獲取的視覺(jué)效果遠(yuǎn)不能達(dá)到人類的期望值,人們開(kāi)始尋求有效的視覺(jué)特征。

        唇語(yǔ)識(shí)別系統(tǒng)一般由視覺(jué)特征提取和分類識(shí)別兩個(gè)階段組成,唇部視覺(jué)特征提取的有效性是下游任務(wù)獲取良好表現(xiàn)的關(guān)鍵。理想情況下,視覺(jué)特征應(yīng)包含足夠多對(duì)識(shí)別有效的信息量,并對(duì)視頻中的噪聲表現(xiàn)出一定程度的魯棒性[2]。但頭部姿勢(shì)、光照條件、視頻拍攝角度等因素對(duì)提取的視覺(jué)特征質(zhì)量具有很大的影響。因此,多年來(lái)學(xué)者們一直致力于對(duì)高效唇部視覺(jué)特征的研究。本文將唇部視覺(jué)特征提取方法分為傳統(tǒng)提取方法和深度學(xué)習(xí)提取方法兩類,這兩類視覺(jué)特征提取方法的架構(gòu)如圖1 所示。

        如圖1(a),傳統(tǒng)的視覺(jué)特征提取方法主要依靠人工標(biāo)注,存在易受外界環(huán)境影響,耗時(shí)長(zhǎng)、效率與精度低的問(wèn)題。采用幾何特征[3]、紋理特征[4]和外觀特征[5]作為視覺(jué)特征的方法可以有效解決上述問(wèn)題。幾何特征采用唇部的高度、寬度和面積等作為視覺(jué)特征;外觀特征則采用口腔和牙齒的張合度作為特征;紋理特征采用尺度不變特征轉(zhuǎn)換或者方向梯度直方圖等算法提取圖像視覺(jué)特征,是常用的一種特征。上述方法雖然在一定程度上保證提取特征的有效性,但是存在很大的局限性,不能應(yīng)用于真實(shí)自然環(huán)境中,且分類識(shí)別準(zhǔn)確度也比較低。

        Fig.1 Visual feature extraction structure圖1 視覺(jué)特征提取結(jié)構(gòu)圖

        如圖1(b),基于深度學(xué)習(xí)的唇部視覺(jué)特征提取方法是目前的主流方法,這類方法使用深度模型自動(dòng)提取唇部的視覺(jué)特征,最常使用的模型結(jié)構(gòu)是卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural network,CNN)。根據(jù)網(wǎng)絡(luò)維數(shù)的不同,基于深度學(xué)習(xí)的唇部視覺(jué)特征提取方法可分為:基于二維卷積網(wǎng)絡(luò)(2D convolutional neural network,2D CNN)、基于三維卷積與二維卷積網(wǎng)絡(luò)相結(jié)合(3D convolutional neural network and 2D convolutional neural network,3D CNN+2D CNN)的提取方法和基于三維卷積網(wǎng)絡(luò)(3D convolutional neural network,3D CNN)。除卷積神經(jīng)網(wǎng)絡(luò)架構(gòu)以外,還包含其他結(jié)構(gòu)用于提取視覺(jué)特征,如自動(dòng)編碼機(jī)制、前饋神經(jīng)網(wǎng)絡(luò)和深度置信網(wǎng)絡(luò)。深度學(xué)習(xí)的特征提取方法是目前效果最好的方法,它解決了傳統(tǒng)方法不能自動(dòng)提取特征的問(wèn)題,在提取高效性特征、算法性能、效率和泛化能力等方面得到一致認(rèn)可。

        1 唇語(yǔ)數(shù)據(jù)集

        唇語(yǔ)數(shù)據(jù)集是推動(dòng)視覺(jué)語(yǔ)音識(shí)別和唇語(yǔ)識(shí)別發(fā)展的關(guān)鍵[6]。早期的數(shù)據(jù)集專注于特定和簡(jiǎn)單的識(shí)別任務(wù),例如:基于字母或者數(shù)字識(shí)別、基于句子識(shí)別等。優(yōu)點(diǎn)是這些數(shù)據(jù)集可以很快地被用于唇語(yǔ)識(shí)別領(lǐng)域,但是由于存在受試者數(shù)量和記錄數(shù)量有限、與真實(shí)環(huán)境存在差異的問(wèn)題,而很難廣泛應(yīng)用于真實(shí)環(huán)境。后期的數(shù)據(jù)集更側(cè)重處理復(fù)雜任務(wù),并同時(shí)考慮了各種影響因素(例如:光照、頭部姿勢(shì)、分辨率、視角等)。本文根據(jù)拍攝視角將這些數(shù)據(jù)集劃分為正視圖數(shù)據(jù)集和多視圖數(shù)據(jù)集兩類。

        1.1 正視圖數(shù)據(jù)集

        目前常用的正視圖數(shù)據(jù)集包括:AVLetters[7]、GRID[8]、OuluVS[9]和LRW[10]。除此之外,還包含數(shù)據(jù)集IBMIH[11]和MOBIO[12]等。

        GRID 數(shù)據(jù)集是視聽(tīng)雙模態(tài)數(shù)據(jù)集,常用于端到端句子級(jí)水平的研究,該數(shù)據(jù)集句子結(jié)構(gòu)遵循一定的規(guī)律,由六類單詞構(gòu)成,分別為“命令”“顏色”“介詞”“字母”“數(shù)字”和“副詞”,每一類單詞都有固定的數(shù)量。

        AVLetters 數(shù)據(jù)集同樣為視聽(tīng)雙模態(tài)數(shù)據(jù)集,主要用于研究說(shuō)話者變化對(duì)唇語(yǔ)識(shí)別任務(wù)的影響,由5名受試者分別朗讀26 個(gè)字母7 遍錄制完成,缺點(diǎn)是該數(shù)據(jù)集僅能用于特定任務(wù)的研究。

        不同于GRID 數(shù)據(jù)集和AVLetters數(shù)據(jù)集,OuluVS數(shù)據(jù)集結(jié)構(gòu)不遵循規(guī)律,廣泛用于日常生活用語(yǔ)自動(dòng)唇語(yǔ)系統(tǒng)的評(píng)估,數(shù)據(jù)來(lái)源于10 個(gè)日常生活用語(yǔ),收集過(guò)程分為兩部分:第一部分收集10 個(gè)人的數(shù)據(jù),10 人均來(lái)自不同國(guó)家,語(yǔ)速和發(fā)音存在一定差異;另一部分收集剩余10 個(gè)人的數(shù)據(jù),但該數(shù)據(jù)集在構(gòu)建過(guò)程中未考慮到受試者男女比例問(wèn)題。

        為滿足大規(guī)模數(shù)據(jù)集的需求,LRW 數(shù)據(jù)集于2016 年被提出,共分為500 類,數(shù)據(jù)來(lái)源于BBC 廣播電視節(jié)目,該數(shù)據(jù)集主要用于英文單詞的識(shí)別任務(wù),滿足了研究者對(duì)數(shù)據(jù)量的需求。

        1.2 多視圖數(shù)據(jù)集

        在自然環(huán)境中,唇語(yǔ)識(shí)別的研究并不能保證輸入的圖像總是正視圖。實(shí)際環(huán)境中唇語(yǔ)識(shí)別系統(tǒng)需要解決多視圖問(wèn)題。此外,研究表明,使用非正視圖在一定程度上能提高唇語(yǔ)識(shí)別性能[13],這是因?yàn)榉钦晥D能更好地顯示唇部的突起、唇部變化過(guò)程和唇部成圓效果等。Kumar 等人[14]在實(shí)驗(yàn)中也表明非正視圖唇語(yǔ)識(shí)別的性能優(yōu)于正視圖。隨著多視圖研究的發(fā)展,涌現(xiàn)出許多基于多視圖的數(shù)據(jù)集,常用多視圖數(shù)據(jù)集有:CUAVE[15]、LILiR[16]、LTS5[17]、OuluVS2[18]、LRS2-BBC[19]、LRS3-TED[20]和LRW-1000[21]。

        CUAVE 數(shù)據(jù)集是包含36 名受試者的數(shù)字?jǐn)?shù)據(jù)集,數(shù)據(jù)集劃分為兩部分:第一部分由受試者說(shuō)出50個(gè)孤立的數(shù)字,在說(shuō)話過(guò)程中伴隨著頭部和身體的移動(dòng)和傾斜,拍攝角度包含-90°、0°和90°;第二部分由受試者說(shuō)出連續(xù)數(shù)字序列,但是未考慮頭部角度對(duì)識(shí)別性能的影響。

        基于此,LILiR 數(shù)據(jù)集和LTS5 數(shù)據(jù)集分別于2010 年和2011 年被提出,LILiR 數(shù)據(jù)集錄制角度在CUAVE 數(shù)據(jù)集的基礎(chǔ)上增加了0°、30°、45°和60°,共包含200 個(gè)句子。但LTS5 數(shù)據(jù)集在視頻錄制過(guò)程中未考慮到光照因素,導(dǎo)致視頻唇部區(qū)域出現(xiàn)部分陰影,因此數(shù)據(jù)集的質(zhì)量不高。

        OuluVS2數(shù)據(jù)集、LRS2-BBC數(shù)據(jù)集和LRS3-TED 數(shù)據(jù)集均屬于大規(guī)模句子級(jí)數(shù)據(jù)集,拍攝角度變化較大,適用于不同視圖下的研究。

        LRW-1000 數(shù)據(jù)集為解決中文數(shù)據(jù)集短缺而被提出,該數(shù)據(jù)集在拍攝過(guò)程中考慮了光照、姿態(tài)、年齡和性別等因素,貼近于真實(shí)環(huán)境,是目前研究者廣泛使用的中文數(shù)據(jù)集,因其具有很大的挑戰(zhàn)性,所以近年在該數(shù)據(jù)集上的識(shí)別率較低。

        綜上,這些開(kāi)源數(shù)據(jù)集對(duì)唇語(yǔ)識(shí)別的發(fā)展起到了很好的推動(dòng)作用,然而目前現(xiàn)存數(shù)據(jù)集仍存在一些不足。首先,不同的數(shù)據(jù)集收集來(lái)源、數(shù)據(jù)集結(jié)構(gòu)、拍攝時(shí)所使用的設(shè)備和數(shù)據(jù)的維度等方面有所差異,因此,很難獲取泛化性能較好的唇語(yǔ)識(shí)別模型;其次,不同的數(shù)據(jù)集考慮到不同的影響因素,與真實(shí)環(huán)境差異較大,這也是唇語(yǔ)識(shí)別領(lǐng)域目前所有數(shù)據(jù)集存在的普遍性問(wèn)題。因此構(gòu)建標(biāo)準(zhǔn)、統(tǒng)一和貼近于真實(shí)環(huán)境的數(shù)據(jù)集是推動(dòng)唇語(yǔ)識(shí)別領(lǐng)域進(jìn)一步發(fā)展的一項(xiàng)重要工作。表1 展示了兩類相關(guān)數(shù)據(jù)集的詳細(xì)信息。

        Table 1 Datasets of lip reading表1 唇語(yǔ)相關(guān)數(shù)據(jù)集

        2 傳統(tǒng)的唇部視覺(jué)特征提取方法

        為了貼近真實(shí)環(huán)境,目前大部分唇語(yǔ)識(shí)別研究均要求所提取的唇部視覺(jué)特征能夠用來(lái)描述說(shuō)話這個(gè)動(dòng)態(tài)過(guò)程,而不僅僅是獲取描述單幀靜態(tài)圖像的信息。傳統(tǒng)唇部視覺(jué)特征提取方法有多種劃分策略。榮傳振等人[22]根據(jù)是否采用模型將特征提取方法劃分為三類:像素點(diǎn)提取方法、模型提取方法、混合提取方法。Dupont 等人[23]根據(jù)不同的特征提取方法將特征提取方法劃分為四類:基于圖像的方法、基于動(dòng)作的方法、基于幾何特征和基于模型的方法。本文從不同的視覺(jué)特征角度將傳統(tǒng)的唇部視覺(jué)特征提取方法進(jìn)行歸類總結(jié),主要分為三類:基于像素點(diǎn)的方法、基于形狀的方法和基于混合特征的方法。

        2.1 基于像素點(diǎn)的方法

        提取唇部視覺(jué)特征首先考慮的是充分利用視頻幀中的所有信息,而基于像素點(diǎn)的方法將圖像中包含唇部區(qū)域的所有像素點(diǎn)作為原始特征,采用系列預(yù)處理方法對(duì)原始特征降維,得到具有一定表現(xiàn)力的特征。目前,基于像素點(diǎn)的方法主要有多級(jí)線性變換法、光流法和局部像素特征法。

        線性變換是常用的降維方法,這類特征提取方法通過(guò)對(duì)特征向量進(jìn)行變換,降低特征向量的維數(shù)。由于單個(gè)線性變換方法不能提取到最佳特征,大多數(shù)基于像素點(diǎn)的方法都是由多級(jí)線性變換組成,包含幀內(nèi)線性變換和幀間的線性變換。層次線性判別分析(hierarchical linear discriminant analysis,HILDA)[24]是典型的算法之一,其將二維可分離DCT 對(duì)唇部區(qū)域做變換后的24 個(gè)能量最高的系數(shù)作為唇部靜態(tài)特征,由LDA 捕獲幀間動(dòng)態(tài)信息,MLLT 進(jìn)一步改進(jìn)數(shù)據(jù)建模,但是該方法采用單流的融合方法,限制了有效特征的獲取,導(dǎo)致最終的識(shí)別精度不高。為進(jìn)一步提高識(shí)別精度,Marcheret 等人[25]引入多流決策融合算法,提出對(duì)音頻和視頻流兩個(gè)模態(tài)的可靠性特征進(jìn)行選擇,并加入對(duì)不同模態(tài)特征選擇的動(dòng)態(tài)權(quán)值估計(jì),效果明顯優(yōu)于靜態(tài)加權(quán)方法。上述提取的唇部視覺(jué)特征大部分依賴于說(shuō)話者,為降低說(shuō)話者依賴性,Almajai 等人[26]在訓(xùn)練過(guò)程中加入說(shuō)話者自適應(yīng)訓(xùn)練(speaker adaptive training,SAT),利用特定說(shuō)話者數(shù)據(jù)對(duì)說(shuō)話者無(wú)關(guān)的編碼進(jìn)行改造,針對(duì)說(shuō)話者獨(dú)立的識(shí)別取得了較高的識(shí)別精度,但是,由于數(shù)據(jù)集的限制,該方法在訓(xùn)練階段并沒(méi)有進(jìn)行特征學(xué)習(xí),導(dǎo)致結(jié)果存在一定的不合理性。

        光流法是利用圖像序列中像素在時(shí)域變化的前后幀之間的相關(guān)性,找出前后幀之間的對(duì)應(yīng)關(guān)系,計(jì)算相鄰幀之間的運(yùn)動(dòng)信息。Shaikh等人[27]將光流作為唇語(yǔ)識(shí)別任務(wù)的視覺(jué)特征,試圖獲取幀間唇部運(yùn)動(dòng)信息。但光流法對(duì)唇部輪廓亮度變化和說(shuō)話者姿勢(shì)變化非常敏感且對(duì)光流的提取較為昂貴。

        早期為降低光照變化對(duì)唇部像素值的影響往往是采用像素的局部特征。典型的方法是局部二值模式(local binary patterns,LBP)[28],但是局部二值模式只能處理單個(gè)視頻幀,無(wú)法處理連續(xù)視頻幀。因此,采用三個(gè)原始平面的局部二值模式(local binary patterns from three original planes,LBP-TOP)[29]方法被引入,Zhao等人[9]從原始唇部圖像和界面累積時(shí)間模式中計(jì)算LBP 特征,使用時(shí)空局部紋理特征來(lái)描述動(dòng)態(tài)視覺(jué)信息,解決了說(shuō)話者較大變化的特征選擇問(wèn)題,但在模式上具有相似性,丟失了更多精細(xì)的多分辨率特征,而且對(duì)輸入視頻長(zhǎng)度要求較高。Zhou等人[30]在同樣條件下,在計(jì)算LBP 特征前,分為手動(dòng)和自動(dòng)兩種方式確定唇部位置,將數(shù)據(jù)劃分為干凈數(shù)據(jù)和噪聲數(shù)據(jù),分別采用LBP-TOP 方法提取唇部的時(shí)空信息,盡管獲取了具有表現(xiàn)力的特征,但忽略了唇部檢測(cè)和詞語(yǔ)邊界檢測(cè)的精確性問(wèn)題。方向梯度直方圖(histogram of oriented gradients,HOG)特征結(jié)合運(yùn)動(dòng)邊界直方圖(motion boundary histograms,MBH)特征提取唇部時(shí)空特征也被廣泛應(yīng)用于唇部視覺(jué)特征提取任務(wù)中[31]。

        上述方法可以有效地表示唇部的特征信息,保留大部分唇部信息,但基于像素點(diǎn)的方法由于使用所有的像素點(diǎn)信息作為特征空間,易出現(xiàn)特征維數(shù)冗余問(wèn)題,而且對(duì)外界環(huán)境和唇部自身變化非常敏感,特征提取能力受限,使最終識(shí)別精度不高。

        2.2 基于形狀的方法

        基于形狀的方法是建立唇部輪廓模型,將構(gòu)成模型的參數(shù)作為視覺(jué)特征。主要分為幾何特征和輪廓特征,幾何特征將唇部張開(kāi)的高度、寬度和面積等作為視覺(jué)特征。一般采用自主選擇關(guān)鍵點(diǎn)構(gòu)成參數(shù)模型,Li 等人[32]和Alizadeh 等人[33]分別采用上外唇、下外唇、上內(nèi)唇、下內(nèi)唇四條輪廓線和唇部的高度距離線、寬度距離線、上外唇曲線和下外唇曲線上具有明顯唇部運(yùn)動(dòng)的標(biāo)志點(diǎn)作為關(guān)鍵點(diǎn),但關(guān)鍵點(diǎn)所構(gòu)成的參數(shù)模板復(fù)雜度較高,數(shù)據(jù)計(jì)算過(guò)程耗費(fèi)大量時(shí)間。與之相似的是對(duì)Snake 模型改進(jìn),在唇部輪廓上選取6 個(gè)關(guān)鍵點(diǎn),加入分割檢測(cè)策略和錯(cuò)誤檢測(cè)恢復(fù)策略計(jì)算出5 個(gè)不同的幾何特征,用于表示唇部視覺(jué)特征[34],相比Snake 模型,該方法所獲取的視覺(jué)特征更為有效和穩(wěn)定。

        輪廓特征是采用唇部邊緣的一些關(guān)鍵點(diǎn)坐標(biāo)構(gòu)成的特征向量作為視覺(jué)特征。采用輪廓特征描述唇部視覺(jué)特征常用的兩類方法是Snake 模型[35]和主動(dòng)形狀模型(active shape model,ASM)[36],但ASM 方法在嘈雜環(huán)境下會(huì)陷入局部最小值。這兩類方法適用于灰度圖像處理,往往不能滿足彩色圖像的處理需求,在彩色圖像的特征提取方法上,Chen 等人[37]利用Haar 特征定位口腔區(qū)域,將唇部區(qū)域變換到Y(jié)CrCb顏色空間,再對(duì)唇部進(jìn)行分割,并根據(jù)直方圖熵選擇閾值分割口腔,最后利用主動(dòng)輪廓模型提取和跟蹤唇部輪廓。雖然該方法有很好的可控性,但由于所選取的關(guān)鍵點(diǎn)大部分位于唇部邊緣輪廓上,特征信息量的多少和識(shí)別精度的強(qiáng)弱易受其影響。

        2.3 基于混合特征的方法

        基于混合特征的方法是通過(guò)組合唇部的多種視覺(jué)特征來(lái)表示整個(gè)唇部的視覺(jué)特征。通過(guò)采用組合特征獲取唇部運(yùn)動(dòng)的低級(jí)信息和高級(jí)信息,從而提取更精確的特征?;旌咸卣鞣椒ǔS玫氖侵鲃?dòng)表現(xiàn)模型(active appearance model,AAM)[38],AAM 在ASM的基礎(chǔ)上將信息區(qū)域擴(kuò)大,覆蓋圖像所有區(qū)域,結(jié)合形狀和灰度信息來(lái)描述圖像中目標(biāo)的統(tǒng)計(jì)模型。Lan等人[13]將AAM 特征應(yīng)用于唇語(yǔ)識(shí)別,結(jié)合像素和形狀特點(diǎn)描述視覺(jué)特征,他們認(rèn)為幀間動(dòng)態(tài)信息也應(yīng)包含在內(nèi),在后端加入LDA,用于捕獲幀間動(dòng)態(tài)信息[39]。非理想條件下,該方法所設(shè)計(jì)的唇語(yǔ)系統(tǒng)具有完備的理論性和簡(jiǎn)單的操作性,適用于簡(jiǎn)單詞匯的識(shí)別,但是該系統(tǒng)需要復(fù)雜的訓(xùn)練模型,且對(duì)過(guò)長(zhǎng)復(fù)雜的詞匯識(shí)別易出錯(cuò)。真實(shí)環(huán)境中,說(shuō)話者往往不是完全基于正面,因此需要從不同角度研究。在通常情況下采用最多的是三維主動(dòng)表現(xiàn)模型(3D active appearance model,3D AAM)[40],其由傳統(tǒng)的二維主動(dòng)表現(xiàn)模型(2D active appearance model,2D AAM)從3個(gè)不同視角(正面、左側(cè)輪廓、右側(cè)輪廓)構(gòu)建而成,從面部圖像的3 個(gè)角度提取唇部視覺(jué)特征并進(jìn)行識(shí)別,實(shí)驗(yàn)表明在交叉唇語(yǔ)識(shí)別任務(wù)中,同等條件下3D AAM 性能優(yōu)于2D AAM,但3D AAM 對(duì)于人工特征點(diǎn)標(biāo)定的精確度要求較高,且標(biāo)定過(guò)程比較繁瑣,需要多次迭代才能獲取到準(zhǔn)確的特征參數(shù),很容易導(dǎo)致局部?jī)?yōu)化問(wèn)題。為避免這種繁瑣的標(biāo)定過(guò)程和局部?jī)?yōu)化問(wèn)題,Aleksic 等人[41]和Stillittano 等人[42]在唇部視覺(jué)特征提取過(guò)程中主要采用Snake 模型,采用PCA(principal component analysis)或唇部輪廓特征與Snake 相結(jié)合的方式,Snake 模型用來(lái)檢測(cè)唇部?jī)?nèi)外輪廓的關(guān)鍵點(diǎn),這些關(guān)鍵點(diǎn)用來(lái)初始化一個(gè)唇部參數(shù)模型,然后根據(jù)亮度和色度梯度的組合,對(duì)初始化模型進(jìn)行優(yōu)化并鎖定最終的唇部輪廓,之后對(duì)圖像采用基于唇部邊界關(guān)鍵點(diǎn)跟蹤方法對(duì)唇部分割或者是獲取唇部的輪廓特征和灰度特征作為融合特征。基于混合的特征提取方法,雖然在一定程度上比以往特征提取方法效果好,但是始終不能從根本上解決特征提取有效性的問(wèn)題。

        綜上,三種傳統(tǒng)唇部視覺(jué)特征提取方法對(duì)比情況如表2 所示。通過(guò)對(duì)三種方法的描述和對(duì)比發(fā)現(xiàn),基于像素點(diǎn)方法應(yīng)用最多,其所有像素點(diǎn)作為原始特征,包含了較多的唇部視覺(jué)信息,但屬于高維特征,且對(duì)圖像光照變化、唇部變形和旋轉(zhuǎn)非常敏感;基于形狀的方法,自主選取關(guān)鍵點(diǎn),屬于低維特征,不易受圖像旋轉(zhuǎn)和變換的影響,但需要使用復(fù)雜的模型;基于混合特征的方法,組合多種特征,更加關(guān)注圖像不同層次的不同信息,泛化能力更好,但對(duì)于自動(dòng)提取特征仍是一個(gè)難題。

        表2 (續(xù))

        3 深度學(xué)習(xí)唇部視覺(jué)特征提取方法

        深度學(xué)習(xí)因其具有海量數(shù)據(jù)處理能力、強(qiáng)大的自主學(xué)習(xí)能力和靈活性等特點(diǎn)[6],被廣泛應(yīng)用于各個(gè)領(lǐng)域,并取得了顯著性的效果。在唇部視覺(jué)特征提取任務(wù)中,深度學(xué)習(xí)逐漸成為主流研究方法,基于深度學(xué)習(xí)的多模態(tài)唇語(yǔ)識(shí)別更是成為廣大研究者近年來(lái)主要的研究方向?;谏疃葘W(xué)習(xí)的視覺(jué)特征提取也有很多劃分策略,Zhou 等人[2]將視覺(jué)特征提取分為三類:基于說(shuō)話者依賴、基于姿勢(shì)變換和基于時(shí)空信息。本文按照卷積核的維數(shù)將基于深度卷積神經(jīng)網(wǎng)絡(luò)的唇部視覺(jué)特征提取進(jìn)一步劃分為四類:基于二維卷積神經(jīng)網(wǎng)絡(luò)的提取方法、基于三維卷積神經(jīng)網(wǎng)絡(luò)的提取方法、基于三維卷積與二維卷積神經(jīng)網(wǎng)絡(luò)結(jié)合的提取方法和基于其他神經(jīng)網(wǎng)絡(luò)的提取方法。圖2 顯示了基于深度卷積神經(jīng)網(wǎng)絡(luò)的特征提取方法。

        Table 2 Comparison of three traditional extraction methods for lip visual features表2 三類傳統(tǒng)唇部視覺(jué)特征提取方法對(duì)比

        Fig.2 Visual feature extraction structure based on CNN圖2 基于CNN 的視覺(jué)特征提取結(jié)構(gòu)圖

        3.1 基于2D CNN 的視覺(jué)特征提取方法

        基于2D CNN 的特征提取,是對(duì)每一幀圖像分別利用2D CNN 來(lái)進(jìn)行特征提取。其唇部視覺(jué)特征提取結(jié)構(gòu)如圖2(a)所示。針對(duì)傳統(tǒng)視覺(jué)特征提取方法不能自動(dòng)提取的局限性,Noda 等人[54]首次采用CNN作為唇部視覺(jué)特征提取機(jī)制,在AlexNet 網(wǎng)絡(luò)模型的基礎(chǔ)上采用包含6 個(gè)卷積層(卷積+非線性激活+最大池化層)和1 個(gè)全連接層的7 層CNN。利用唇部區(qū)域圖像與音素標(biāo)簽相結(jié)合的方式訓(xùn)練CNN,并將CNN的輸出作為唇語(yǔ)識(shí)別的視覺(jué)特征,后端采用隱馬爾可夫模型和高斯混合觀測(cè)模型對(duì)下游任務(wù)建模,該方法打破了傳統(tǒng)視覺(jué)特征提取的局限性,但不能處理可變長(zhǎng)序列。Garg 等人[55]對(duì)唇語(yǔ)模型進(jìn)一步改進(jìn),采用VGGNet對(duì)可變長(zhǎng)彩色圖像序列處理,彩色圖像序列拼接成一幅圖像作為視覺(jué)特征提取模型的輸入,后端采用長(zhǎng)短時(shí)記憶網(wǎng)絡(luò)(long short-term memory,LSTM)用于提取時(shí)間信息。但由于LSTM 性能低于門(mén)控單元(gated recurrent unit,GRU),作者使用最近鄰插值的級(jí)聯(lián)圖像模型表現(xiàn)良好,對(duì)單詞和短語(yǔ)的驗(yàn)證精度達(dá)到76%。該模型表現(xiàn)良好,但同時(shí)也面臨著兩個(gè)問(wèn)題:如何獲取更多視覺(jué)特征和降低模型計(jì)算量。

        Lee 等人[47]認(rèn)為多視圖圖像能在一定程度上增加視覺(jué)特征信息,他們?cè)贜oda 的基礎(chǔ)上,采用多個(gè)視角圖像作為輸入,利用堆疊的卷積層提取多尺度視覺(jué)特征,后接LSTM 作為后續(xù)序列時(shí)間建模手段。與之不同,Noda 等人[56]考慮到單一模態(tài)有限信息的限制,他們?cè)谠谢A(chǔ)上又添加音頻信號(hào)作為模型輸入,用于研究視覺(jué)語(yǔ)音識(shí)別中無(wú)標(biāo)簽情況下音頻特征和視覺(jué)特征之間的相關(guān)性,分別采用深度自動(dòng)編碼機(jī)制和CNN 提取音頻和視頻特征,后引入多流隱馬爾可夫模型將雙流特征信息融合。整個(gè)系統(tǒng)自適應(yīng)地切換兩個(gè)通道的特征輸入,獲取可靠的特征信息,但是沒(méi)有實(shí)現(xiàn)雙流的權(quán)重自動(dòng)選擇,難以用于實(shí)際應(yīng)用。針對(duì)權(quán)重自動(dòng)選擇問(wèn)題,Zhou 等人[57]采用額外的模態(tài)注意力機(jī)制整合音視頻信息,對(duì)各模態(tài)上下文向量更為關(guān)注,通過(guò)調(diào)整注意力權(quán)重來(lái)自動(dòng)選擇更為可靠的模態(tài)信息,從而減輕了噪聲的影響,實(shí)驗(yàn)表明:相比單一模態(tài)識(shí)別,該方法相對(duì)改善率從2%提高到36%,充分證明了多模態(tài)識(shí)別任務(wù)性能優(yōu)于單一模態(tài)識(shí)別任務(wù)。Saitoh 等人[58]則采用一種新的級(jí)聯(lián)幀圖像(cascaded frame image,CFI),將所有幀拼接成一幅圖像作為模型輸入,使用3 個(gè)不同的模型提取視覺(jué)特征:第一個(gè)是Network in Network 模型[59],Network in Network 是在AlexNet 網(wǎng)絡(luò)的基礎(chǔ)上加入多層感知機(jī)層(multi-layer perceptron,MLP)和全局平均池化層(global average pooling,GAP),通過(guò)使用4層MLP 和GAP 提取視覺(jué)特征,但使用全局平均池化層易造成信息丟失;第二個(gè)是使用包含5 個(gè)卷積層和3 個(gè)全連接層的AlexNet 網(wǎng)絡(luò);第三個(gè)則是使用一個(gè)22 層的GoogLeNet 網(wǎng)絡(luò)。該方法在原有特征的基礎(chǔ)上又增加了整個(gè)圖像序列的時(shí)空信息。

        為進(jìn)一步降低2D CNN 和深度學(xué)習(xí)帶來(lái)的高計(jì)算量,Mesbah 等人[60]提出了一種基于Hahn 矩的CNN結(jié)構(gòu),通過(guò)小型體系結(jié)構(gòu)提取和保留圖像中的有效信息,減少冗余,降低模型的計(jì)算量。

        采用基于2D CNN 的唇部視覺(jué)特征提取方法,很好地解決了自動(dòng)提取特征問(wèn)題,所提取的視覺(jué)特征比傳統(tǒng)的維度壓縮方法更具表現(xiàn)力。但此類方法僅可以對(duì)單幀圖像處理,對(duì)連續(xù)幀圖像處理能力較弱,忽視了連續(xù)幀之間的時(shí)空相關(guān)性。

        3.2 基于3D CNN 的視覺(jué)特征提取方法

        基于3D CNN 的特征提取方法則很好地處理了連續(xù)幀的時(shí)間維度問(wèn)題,能同時(shí)提取連續(xù)幀的時(shí)間和空間信息。圖2(b)所示為基于3D CNN 的唇部視覺(jué)特征提取結(jié)構(gòu)圖。LipNet[61]是第一個(gè)同時(shí)學(xué)習(xí)時(shí)空視覺(jué)特征和序列模型的端到端句子級(jí)唇語(yǔ)識(shí)別模型。該模型將T幀RGB 圖像序列作為輸入,送入由3層三維卷積層構(gòu)成的時(shí)空卷積網(wǎng)絡(luò)中,每個(gè)時(shí)空卷積神經(jīng)網(wǎng)絡(luò)后面都接有一個(gè)空間最大池化層,由該結(jié)構(gòu)提取輸入幀的時(shí)空特征。后端網(wǎng)絡(luò)由兩層雙向門(mén)控單元(bi-gated recurrent unit,Bi-GRU)將提取的特征進(jìn)一步聚合,最后連接主義時(shí)間分類(connectionist temporal classification,CTC)進(jìn)行損失分析,但CTC 存在明顯的缺點(diǎn):要求輸入序列必須大于輸出序列,其次由于條件獨(dú)立性假設(shè)的約束,導(dǎo)致類別間的遠(yuǎn)近程度無(wú)法更好地體現(xiàn)。Fung 等人[62]在視覺(jué)前端采用了相同的結(jié)構(gòu),不同的是他們使用8 層3D 卷積作為視覺(jué)特征提取器,雖然獲得較好的效果,但是隨著網(wǎng)絡(luò)深度加深,梯度信息回流時(shí)易受到阻礙。對(duì)于CTC 和梯度信息回流的問(wèn)題,Xu 等人[63]提出了LCANet視頻編碼器網(wǎng)絡(luò),將輸入視頻送至疊加的3D CNN,該網(wǎng)絡(luò)通過(guò)3D CNN 對(duì)視覺(jué)短時(shí)信息進(jìn)行編碼,利用在3D CNN 中增加的兩層Highway Network(后期殘差網(wǎng)絡(luò)的雛形),解決深層網(wǎng)絡(luò)中梯度信息回流問(wèn)題。為了能從較長(zhǎng)的上下文中清晰地捕獲信息,LCANet 將前端輸出的編碼信息輸入級(jí)聯(lián)注意網(wǎng)絡(luò)中,注意力機(jī)制在一定程度上弱化了條件獨(dú)立性假設(shè)對(duì)CTC 丟失的約束,提高了唇語(yǔ)模型的建模能力,同時(shí)也提高了下游識(shí)別任務(wù)的準(zhǔn)確率。

        唇語(yǔ)識(shí)別作為一項(xiàng)特殊的視頻理解任務(wù),高效的視頻理解模型同樣可應(yīng)用于唇語(yǔ)識(shí)別中。針對(duì)大規(guī)模圖像和視頻數(shù)據(jù)集的訓(xùn)練,深度的三維卷積能提高分類精度,2019 年,Weng 等人[64]將視頻理解領(lǐng)域的I3D 雙流模型作為視覺(jué)前端,將灰度視頻幀和光流作為視覺(jué)前端模型的輸入,對(duì)兩個(gè)分支提取的視覺(jué)特征信息進(jìn)行通道上的拼接,后接LSTM 對(duì)融合后的特征進(jìn)行建模。實(shí)驗(yàn)證明:在處理大規(guī)模數(shù)據(jù)集的條件下,將輸入光流作為輔助手段能獲取更多有效視覺(jué)信息,同時(shí)I3D 也有效地提高了后端識(shí)別任務(wù)的精度。為進(jìn)一步提高識(shí)別精度,Wiriyathammabhum[65]采用動(dòng)作識(shí)別的SpotFast 網(wǎng)絡(luò)作為視覺(jué)特征提取網(wǎng)絡(luò),作者采用時(shí)間窗口作為慢路徑,所有的幀作為快速路徑。后端進(jìn)一步使用結(jié)合記憶增強(qiáng)網(wǎng)絡(luò)的Transformers 學(xué)習(xí)序列特征分類,記憶增強(qiáng)網(wǎng)絡(luò)在不增加計(jì)算量的同時(shí)能有效提高神經(jīng)網(wǎng)絡(luò)的容量,處理變長(zhǎng)序列輸入。該網(wǎng)絡(luò)相比于I3D 網(wǎng)絡(luò)性能更優(yōu)越。

        3D CNN 雖然能夠解決連續(xù)幀時(shí)空相關(guān)性問(wèn)題,但在一定程度上也丟失了二維卷積對(duì)細(xì)粒度特征信息的提取。而且隨著網(wǎng)絡(luò)層數(shù)的加深,存在參數(shù)計(jì)算量大和存儲(chǔ)開(kāi)銷大的問(wèn)題,對(duì)硬件設(shè)備性能要求較高。針對(duì)上述問(wèn)題,基于2D CNN 與3D CNN 相結(jié)合的模型則同時(shí)解決了時(shí)空特征和局部細(xì)粒度特征提取的問(wèn)題。

        3.3 基于2D CNN 與3D CNN 結(jié)合的視覺(jué)特征提取方法

        為了提取到連續(xù)幀的時(shí)空特征同時(shí)能解決3D CNN 所產(chǎn)生的問(wèn)題,人們提出基于3D CNN 與2D CNN 相結(jié)合的方式,其示意圖如圖2(c)所示?;?D CNN 與3D CNN 相結(jié)合的方式有兩種:第一種將深層2D CNN 的第一層卷積修改為3D CNN,由3D CNN 捕捉連續(xù)幀之間的時(shí)空信息,后連接深層2D CNN 提取唇部圖像局部特征;第二種在使用深層2D CNN 之前首先采用淺層的3D CNN 對(duì)視頻幀進(jìn)行預(yù)處理。對(duì)于第一種方式,Stafylakis 等人[66]和Feng 等人[67]將標(biāo)準(zhǔn)的ResNet 架構(gòu)第一層卷積由2D CNN 修改為3D CNN,用于處理連續(xù)幀圖像序列,將提取到的特征映射接入時(shí)空池化層,降低三維特征映射空間大小。后接殘差網(wǎng)絡(luò)的剩余層提取局部細(xì)粒度特征。對(duì)于第二種方式,Afouras 等人[68]在2D CNN 前面添加一層時(shí)空3D CNN,然后使用ResNet網(wǎng)絡(luò)作為局部特征提取機(jī)制,并通過(guò)調(diào)節(jié)說(shuō)話者的唇部運(yùn)動(dòng)或聲音將目標(biāo)說(shuō)話者從其他說(shuō)話者和背景噪聲中分離,實(shí)現(xiàn)一種視聽(tīng)語(yǔ)音增強(qiáng)網(wǎng)絡(luò)。但是這種方法還是帶來(lái)了大量的參數(shù)計(jì)算。為進(jìn)一步降低參數(shù)計(jì)算量,Xu 等人[69]引入一個(gè)基于偽三維殘差卷積(pseudo-3D residual convolution,P3D)的視覺(jué)前端來(lái)提取視覺(jué)特征,將ResNet 網(wǎng)絡(luò)中的時(shí)間卷積全部由更適合時(shí)間任務(wù)的時(shí)間卷積(temporal convolutional network,TCN)代替,音頻由短時(shí)傅里葉變換(short time Fourier transform,STFT)采樣提取聲譜圖,后接語(yǔ)音增強(qiáng)模塊,將增強(qiáng)后的特征信息輸入多模態(tài)融合網(wǎng)絡(luò)。在保證能提取到有效唇部視覺(jué)特征和降低模型參數(shù)的同時(shí),又進(jìn)一步提高了下游分類識(shí)別任務(wù)的精度。同樣受卷積原理的啟發(fā),Luo 等人[70]提出了一種基于偽卷積策略梯度(pseudo convolutional policy gradient,PCPG)的序列模型用于唇語(yǔ)任務(wù)。為在每個(gè)時(shí)間步考慮到更多上下文信息,作者在激勵(lì)和損失維度上進(jìn)行偽卷積運(yùn)算,該模型較以往其他唇語(yǔ)模型在準(zhǔn)確率上有很大的提高。但是該方法采用單模態(tài)方法,因此獲取的信息有限,且對(duì)受到破壞的信息無(wú)法補(bǔ)充。Xiao 等人[71]認(rèn)為使用變形流網(wǎng)絡(luò)(deformation flow network,DFN)從原始輸入的灰度圖像中獲取變形流同原始視頻幀作為模型輸入,能在一定程度上彌補(bǔ)缺失信息。整個(gè)網(wǎng)絡(luò)或分為原始視頻分支和變形流兩個(gè)分支,由3D CNN+2D CNN 和2D CNN 分別獲取兩個(gè)分支的有效唇部視覺(jué)信息,變形流網(wǎng)絡(luò)直接捕獲邊緣區(qū)域內(nèi)的運(yùn)動(dòng)信息,相比于光流法,變形流網(wǎng)絡(luò)降低了計(jì)算復(fù)雜度,之后采用雙向知識(shí)提取損失來(lái)聯(lián)合訓(xùn)練兩個(gè)分支,使得兩個(gè)流在訓(xùn)練過(guò)程中相互學(xué)習(xí)。該方法不僅可以應(yīng)用于唇語(yǔ)領(lǐng)域,同時(shí)還可以廣泛用于其他人臉?lè)治鋈蝿?wù)。但該方法對(duì)相鄰幀之間的相關(guān)性未進(jìn)行更多的關(guān)注,并且未對(duì)關(guān)鍵幀和無(wú)效幀之間進(jìn)行有效區(qū)分。

        為增強(qiáng)相鄰幀之間相關(guān)性同時(shí)加強(qiáng)對(duì)關(guān)鍵幀的識(shí)別,Zhao 等人[72]采用相同的視覺(jué)前端網(wǎng)絡(luò),在局部特征層和全局序列層分別引入局部互信息最大化約束和全局互信息最大化約束,局部互信息約束每個(gè)時(shí)間步生成的特征,保持與語(yǔ)音內(nèi)容之間的強(qiáng)關(guān)系,全局互信息約束注重區(qū)分和語(yǔ)音內(nèi)容相關(guān)關(guān)鍵幀的識(shí)別,降低噪聲產(chǎn)生的影響。所提出的方法對(duì)于提高了唇語(yǔ)任務(wù)的識(shí)別準(zhǔn)確率具有較好的魯棒性。但性能良好、泛化能力較強(qiáng)的唇語(yǔ)模型仍是研究者努力的方向。

        基于2D CNN 與3D CNN 相結(jié)合的唇部視覺(jué)特征提取方法是近年來(lái)唇語(yǔ)研究的主流方法之一,該方法有效地解決了視覺(jué)特征提取效率低和下游任務(wù)識(shí)別準(zhǔn)確率低等問(wèn)題,但由3D CNN 對(duì)時(shí)空信息提取,后直接接入2D CNN 對(duì)局部細(xì)粒度信息提取,在一定程度上會(huì)影響特征編碼的時(shí)間信息。

        3.4 基于其他神經(jīng)網(wǎng)絡(luò)的視覺(jué)特征提取方法

        近年來(lái),端到端的訓(xùn)練模式成為唇語(yǔ)識(shí)別領(lǐng)域研究最常用的訓(xùn)練方式,而這些端到端結(jié)構(gòu)并不是完全基于卷積神經(jīng)網(wǎng)絡(luò)。自動(dòng)編碼機(jī)制、前饋網(wǎng)絡(luò)、深度置信網(wǎng)絡(luò)也常被用于唇部視覺(jué)特征提取。自動(dòng)編碼機(jī)制類似于傳統(tǒng)的PCA 方法,其通過(guò)神經(jīng)網(wǎng)絡(luò)自動(dòng)地將高維數(shù)據(jù)轉(zhuǎn)為低維編碼,后通過(guò)解碼機(jī)制恢復(fù)成原始信息。Petridis 等人[73]在自動(dòng)編碼機(jī)制基礎(chǔ)上建立了基于句子級(jí)別的雙流端到端系統(tǒng)。采用原始圖像序列和光譜圖像作為模型輸入,兩個(gè)分支模型均使用3 個(gè)隱藏層和1 個(gè)線性層構(gòu)成的編碼結(jié)構(gòu)模型,分別提取不同的唇部視覺(jué)特征,為獲取更加有效的視覺(jué)特征,提高分類識(shí)別精度。他們采用相同的網(wǎng)絡(luò)結(jié)構(gòu),將光譜圖替換為圖像差分圖[74],輸入圖像由模型的瓶頸層將高維輸入圖像壓縮為低維表示,瓶頸架構(gòu)的一階導(dǎo)數(shù)特征和二階導(dǎo)數(shù)特征附加到瓶頸層,以保證編碼層能夠?qū)W到更多有效特征。實(shí)驗(yàn)表明,該方法能有效提高下游任務(wù)的分類識(shí)別精度。之后,在采用雙分支思想的基礎(chǔ)上,為研究多視圖唇語(yǔ)識(shí)別任務(wù),其采用相同的網(wǎng)絡(luò)模型,同時(shí)將30°、45°、60°和90°的原始圖像分成兩個(gè)分支同正視圖圖像一同作為模型輸入[75],每個(gè)分支后接一個(gè)雙向長(zhǎng)短時(shí)記憶網(wǎng)絡(luò)(bi-long short-term memory,Bi-LSTM)用于對(duì)每個(gè)流的特征時(shí)間動(dòng)態(tài)進(jìn)行建模。但由于對(duì)非正視圖進(jìn)行唇部檢測(cè)時(shí),檢測(cè)精度并不是完全準(zhǔn)確,導(dǎo)致模型在分類識(shí)別精度上并沒(méi)有很大的提高。隨后,他們采用相同的網(wǎng)絡(luò)結(jié)構(gòu),將雙流改為單流模型[76],并在有音頻、噪聲音頻和無(wú)音頻三種模式下進(jìn)行實(shí)驗(yàn),因唇部運(yùn)動(dòng)存在差異,在使用普通唇語(yǔ)模型對(duì)無(wú)音頻下的唇部運(yùn)動(dòng)進(jìn)行訓(xùn)練時(shí)表現(xiàn)較差。隨著海量數(shù)據(jù)的增加和模型層數(shù)的加深,唇語(yǔ)領(lǐng)域?qū)δP托阅芤笤絹?lái)越高,但上述使用自動(dòng)編碼機(jī)制作為特征提取器,明顯的缺點(diǎn)是難以獲取深層次、多尺度信息。

        前饋神經(jīng)網(wǎng)絡(luò)采用簡(jiǎn)單的全連接前饋層堆疊。Wand 等人[51]提出了一種由一個(gè)前饋網(wǎng)絡(luò)層和兩個(gè)LSTM 層構(gòu)成的自動(dòng)唇語(yǔ)識(shí)別模型。前饋網(wǎng)絡(luò)層將輸入的圖像序列傳遞給輸出單元,每層前饋網(wǎng)絡(luò)層后面接一個(gè)Dropout 層,由梯度下降法進(jìn)行訓(xùn)練,通過(guò)層間誤差反向傳播和權(quán)值調(diào)整,對(duì)字級(jí)水平的數(shù)據(jù)集分類。但該方法對(duì)已知說(shuō)話人和未知說(shuō)話人之間的差異未進(jìn)行有效區(qū)分。為解決說(shuō)話人之間的差異,作者又添加一層前饋網(wǎng)絡(luò)層,同時(shí)在第二個(gè)前饋網(wǎng)絡(luò)層前附加一個(gè)用于對(duì)原說(shuō)話人和目標(biāo)說(shuō)話人進(jìn)行逐幀分類的網(wǎng)絡(luò),并采用域?qū)箒?lái)訓(xùn)練,最終相當(dāng)于兩類任務(wù),一類是對(duì)說(shuō)話人的分類,另一類是對(duì)單詞的分類[77]。但僅從單一模態(tài)(視頻幀)中挖掘出來(lái)的視覺(jué)信息是有限的而且還具有不確定性(受其他因素干擾),因此從多模態(tài)方向入手,作者又添加音頻作為輔助輸入[78],音頻和視頻分支采用相同結(jié)構(gòu),每一個(gè)分支中堆疊多層全連接前饋網(wǎng)絡(luò)層和Dropout層,以確保網(wǎng)絡(luò)能提取到更深層次的視覺(jué)特征。上述模型在句子級(jí)訓(xùn)練上表現(xiàn)良好,但都沒(méi)有涉及到句子級(jí)序列預(yù)測(cè),同時(shí)也未考慮到說(shuō)話人獨(dú)立性問(wèn)題,因此導(dǎo)致最終結(jié)果存在一定的不合理性。

        深度置信網(wǎng)絡(luò)和前饋神經(jīng)網(wǎng)絡(luò)一樣采用堆疊的方式,主要由多層受限玻爾茲曼機(jī)堆疊構(gòu)成,對(duì)每一層逐層訓(xùn)練,最后反向傳播對(duì)模型進(jìn)行微調(diào)。Moon等人[79]提出了一個(gè)采用兩個(gè)獨(dú)立的音頻和視頻分支來(lái)分別獲取原始視頻中特征信息的模型。每個(gè)分支都由具有相同數(shù)量的中間層構(gòu)成的深度置信網(wǎng)絡(luò)組成,通過(guò)學(xué)習(xí)每個(gè)神經(jīng)網(wǎng)絡(luò)中間層之間的語(yǔ)義映射,根據(jù)傳輸?shù)臄?shù)據(jù)達(dá)到對(duì)網(wǎng)絡(luò)微調(diào)的目的。該網(wǎng)絡(luò)結(jié)構(gòu)不需要建立額外共享模型,僅需要調(diào)整目標(biāo)網(wǎng)絡(luò)的超參數(shù)實(shí)現(xiàn)目標(biāo)網(wǎng)絡(luò)的修改。

        表3 從方法大類、特征提取方法、主要技術(shù)描述、數(shù)據(jù)集、識(shí)別任務(wù)、識(shí)別率和適用模式7 個(gè)方面總結(jié)近年來(lái)基于深度學(xué)習(xí)的唇部視覺(jué)特征提取方法。

        表3 (續(xù))

        表3 (續(xù))

        4 總結(jié)與展望

        唇語(yǔ)識(shí)別經(jīng)過(guò)數(shù)十年的發(fā)展,傳統(tǒng)方法和深度學(xué)習(xí)方法推動(dòng)其迅猛發(fā)展,本文對(duì)唇語(yǔ)識(shí)別研究領(lǐng)域的視覺(jué)特征提取方法進(jìn)行分析,并分別從數(shù)據(jù)集、視覺(jué)歧義、模型性能、多模態(tài)唇語(yǔ)識(shí)別和模態(tài)之間的相關(guān)性五方面介紹所面臨的挑戰(zhàn)與發(fā)展趨勢(shì)。

        (1)唇語(yǔ)識(shí)別數(shù)據(jù)集。唇語(yǔ)數(shù)據(jù)集是推動(dòng)唇語(yǔ)領(lǐng)域發(fā)展的基礎(chǔ),如何建立更貼近真實(shí)自然環(huán)境、更規(guī)范且不限于特定任務(wù)的數(shù)據(jù)集是目前存在的主要問(wèn)題之一。大多數(shù)數(shù)據(jù)集規(guī)模較小,且僅限于特定任務(wù)的識(shí)別,例如:數(shù)字、字母、單詞和句子等,并且數(shù)據(jù)集在構(gòu)建過(guò)程中很少考慮到真實(shí)環(huán)境下的各種因素影響,缺少泛化能力較強(qiáng)的數(shù)據(jù)集,尤其針對(duì)中文研究的數(shù)據(jù)集比較短缺。因此,需要選擇來(lái)源可靠、正規(guī)數(shù)據(jù)資源,構(gòu)建高質(zhì)量且規(guī)模較大的唇語(yǔ)數(shù)據(jù)集來(lái)提高唇語(yǔ)模型的準(zhǔn)確率。

        (2)視覺(jué)歧義。在唇部運(yùn)動(dòng)過(guò)程中如何更好地反映說(shuō)話人視覺(jué)信息的特征至今仍然是一個(gè)難題。由于說(shuō)話過(guò)程中存在不同音素具有相似的口型,連續(xù)閱讀和弱音現(xiàn)象等導(dǎo)致最終的視位缺少,最終嚴(yán)重影響著唇語(yǔ)識(shí)別任務(wù)的準(zhǔn)確率。考慮到這個(gè)問(wèn)題,可以嘗試主要致力于研究不同音位到視位的映射、規(guī)范化音素,設(shè)計(jì)解決視覺(jué)歧義的算法,解決視覺(jué)歧義問(wèn)題。

        (3)模型性能。在唇語(yǔ)識(shí)別領(lǐng)域,模型設(shè)計(jì)方法由傳統(tǒng)的方法過(guò)渡到深度學(xué)習(xí)方法,其準(zhǔn)確率有大幅度的提升,但其計(jì)算復(fù)雜度也隨之增加?,F(xiàn)階段的深度學(xué)習(xí)唇語(yǔ)模型大部分屬于大規(guī)模模型,不便于研究人員的優(yōu)化,且需要處理海量唇語(yǔ)數(shù)據(jù),過(guò)程十分耗時(shí)耗力。針對(duì)模型上存在的問(wèn)題,研究人員應(yīng)致力于設(shè)計(jì)輕量級(jí)唇語(yǔ)模型,以降低設(shè)備負(fù)擔(dān)。輕量級(jí)唇語(yǔ)模型也是接下來(lái)唇語(yǔ)研究領(lǐng)域的重點(diǎn)方向之一。

        Table 3 Comparison of visual features extraction methods based on deep learning表3 基于深度學(xué)習(xí)的視覺(jué)特征提取方法對(duì)比

        (4)多模態(tài)唇語(yǔ)識(shí)別。多模態(tài)是指采用兩個(gè)或以上模式信號(hào)作為模型輸入,其打破了單模態(tài)獲取信息有限、識(shí)別率低和穩(wěn)定性差等局限。其優(yōu)勢(shì)也是雙重的。首先,由于各模態(tài)之間信息通常是互補(bǔ)的,多模態(tài)處理的信息結(jié)果比單模態(tài)處理結(jié)果具有信息性;其次,由于單模態(tài)信息并不總是可靠的,當(dāng)一種模式損壞時(shí),有可能從其他模態(tài)中提取丟失的信息,從而形成一個(gè)更可靠的系統(tǒng)。例如:當(dāng)音頻信號(hào)被噪聲破壞時(shí),這種多模態(tài)方式尤為有效,但當(dāng)音頻干凈時(shí),這種方法也能對(duì)最終識(shí)別率帶來(lái)極大的提高。正是由于上述多模態(tài)的優(yōu)點(diǎn),該方法近年被廣泛應(yīng)用于各個(gè)領(lǐng)域,但是在唇語(yǔ)領(lǐng)域應(yīng)用較少。因此多模態(tài)唇語(yǔ)識(shí)別也是該領(lǐng)域的一個(gè)重要研究方向。

        (5)模態(tài)之間的相關(guān)性。利用從一個(gè)模態(tài)中提取的信息彌補(bǔ)另一模態(tài)的缺失信息,以此來(lái)提高另一模態(tài)的識(shí)別能力,其關(guān)鍵是在噪聲水平變化的情況下,找到模態(tài)間的相關(guān)性,并且模型能自動(dòng)選擇可靠模態(tài)?,F(xiàn)存方法中,對(duì)模態(tài)間相關(guān)性關(guān)注較少,因此如何找到模態(tài)間的相關(guān)性,自動(dòng)選擇可靠模態(tài)以提高識(shí)別準(zhǔn)確率也是該領(lǐng)域未來(lái)的一個(gè)研究方向。

        5 結(jié)束語(yǔ)

        本文對(duì)近年來(lái)唇語(yǔ)識(shí)別領(lǐng)域唇部視覺(jué)特征提取的研究成果進(jìn)行了總結(jié)。首先介紹了唇部識(shí)別相關(guān)數(shù)據(jù)集,并對(duì)相關(guān)數(shù)據(jù)集進(jìn)行簡(jiǎn)單描述;然后將近年來(lái)唇語(yǔ)識(shí)別領(lǐng)域唇部視覺(jué)特征提取相關(guān)技術(shù)按照傳統(tǒng)方式和深度學(xué)習(xí)方式劃分為兩類,并對(duì)每一類主要應(yīng)用技術(shù)進(jìn)行敘述;最后對(duì)該領(lǐng)域存在的挑戰(zhàn)和發(fā)展趨勢(shì)進(jìn)行了討論。

        猜你喜歡
        特征提取模態(tài)特征
        如何表達(dá)“特征”
        基于Gazebo仿真環(huán)境的ORB特征提取與比對(duì)的研究
        電子制作(2019年15期)2019-08-27 01:12:00
        不忠誠(chéng)的四個(gè)特征
        抓住特征巧觀察
        一種基于LBP 特征提取和稀疏表示的肝病識(shí)別算法
        國(guó)內(nèi)多模態(tài)教學(xué)研究回顧與展望
        基于HHT和Prony算法的電力系統(tǒng)低頻振蕩模態(tài)識(shí)別
        基于MED和循環(huán)域解調(diào)的多故障特征提取
        由單個(gè)模態(tài)構(gòu)造對(duì)稱簡(jiǎn)支梁的抗彎剛度
        線性代數(shù)的應(yīng)用特征
        河南科技(2014年23期)2014-02-27 14:19:15
        午夜免费福利小电影| 蜜桃av多人一区二区三区| 亚洲精品二区三区在线观看| 亚洲无人区乱码中文字幕能看| 亚洲欧美日韩综合一区二区| 日韩精品一区二区三区免费视频| 中文人妻无码一区二区三区| 蜜桃色av一区二区三区麻豆| 蜜桃视频在线免费观看| 又爽又黄又无遮挡网站动态图| 精品国产AⅤ无码一区二区| 色婷婷精品国产一区二区三区| 森中文字幕一区二区三区免费| 亚洲国产精品ⅴa在线观看| 北条麻妃在线视频观看| 久久久亚洲女精品aa| 媚药丝袜美女高清一二区| www射我里面在线观看| 欧美在线不卡视频| 亚洲国产精品成人一区| 欧美拍拍视频免费大全| 亚洲精华国产精华液的福利| 精品免费一区二区三区在| 色婷婷一区二区三区久久亚洲| 亚洲av无码一区二区一二区| 一本色道av久久精品+网站| 国产一精品一aⅴ一免费| 男人的精品天堂一区二区在线观看| 国内精品久久久久久99| 国产精品 高清 尿 小便 嘘嘘| 国产精品久久一区性色a| 国内自拍速发福利免费在线观看| 国产av无码专区亚洲av中文| 免费一区二区三区在线视频| 久久蜜桃一区二区三区| 邻居少妇张开腿让我爽了一夜| 理论片午午伦夜理片影院 | 亚洲综合国产成人丁香五月小说| 日韩人妻免费视频一专区| 无码福利写真片视频在线播放| 国产国语对白一区二区三区|