亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于唇重構與三維耦合CNN的多視角音唇一致性判別

        2023-06-30 05:43:32朱錚宇羅超賀前華彭煒鋒毛志煒張順四
        關鍵詞:一致性方法模型

        朱錚宇 羅超 賀前華 彭煒鋒? 毛志煒 張順四

        基于唇重構與三維耦合CNN的多視角音唇一致性判別

        朱錚宇1,2羅超2賀前華1彭煒鋒2?毛志煒2張順四3

        (1. 華南理工大學 音頻、語音與視覺處理實驗室,廣東 廣州 510640;2. 廣東技術師范大學 網絡空間安全學院,廣東 廣州 510665;3. 廣州趣丸網絡科技有限公司,廣東 廣州 510665)

        針對傳統(tǒng)音唇一致性判別方法主要對正面唇動視頻進行處理,未考慮視頻采集角度變化對結果的影響,且容易忽略唇動過程中的時空特性等不足,文中以唇部角度變化對一致性判別的影響為研究重心,結合三維卷積神經網絡在非線性表示和時空維度特征提取上的優(yōu)勢,提出了基于正面唇重構與三維耦合卷積神經網絡的多視角音唇一致性判別方法。該方法先通過在生成器中引入自映射損失來提高正面重建效果,并采用基于自映射監(jiān)督循環(huán)一致性生成對抗網絡(SMS-CycleGAN)的唇重構方法對多視角唇圖進行角度分類及正面重構;然后設計兩個異構三維卷積神經網絡,分別用來描述音頻和視頻信號,并提取包含長時時空關聯(lián)信息的三維卷積特征;最后引入對比損失函數作為音視頻信號匹配的相關度鑒別度量,將音視頻網絡輸出耦合到同一表示空間,并進行一致性判別。實驗結果表明,文中方法能重建出更高質量的正面唇圖,一致性判別性能優(yōu)于多種不同類型的比較方法。

        一致性判別;生成對抗網絡;卷積神經網絡;正面重構;多模態(tài)

        語音唇動一致性判別是通過發(fā)音過程中唇部運動與音頻變化之間的聯(lián)系來判斷音視頻是否同時錄制、出自同一人、同一句話,已在多模態(tài)信號處理的不同領域有著廣泛的應用,如身份認證中的活體檢測[1]、多說話人視頻中的當前說話人定位或分割[2]、多模態(tài)盲信號分離[3]等。目前,主流的一致性判別方法可歸納為4類:互信息法(MI)[4]、多元統(tǒng)計分析(MSA)[5]、相關系數法[6]、雙模態(tài)稀疏表示(MSR)[7]。近年,隨著深度學習在音頻和視頻信號處理領域中的快速發(fā)展,有研究者通過耦合描述音視頻信號的兩個異構神經網絡的輸出進行一致性判別或兩者間時延的估計[8-9]。

        然而,現(xiàn)有的音唇一致性判別方法主要對正面角度采集的唇動視頻數據進行處理和分析,實驗用的數據庫也以正面拍攝的數據集為主,而唇部角度變化對一致性判別的影響卻缺乏具體的研究。已有文獻通過實驗證明,不同拍攝角度獲得的唇部圖像數據對唇語識別的結果有一定的影響[10-11],雖然也有文獻認為側面角度的唇部數據對唇讀識別有補償作用[12],并有研究者嘗試從側面唇圖中提取具姿態(tài)魯棒性的唇部特征,以提高對側面角度數據的識別率[13],而近年基于深度學習的方法也在一定程度上緩解了角度變化引起的自遮擋等問題對識別結果的影響[14],但單純通過側面唇圖數據進行識別的準確率仍稍低于正面唇圖數據。在一致性判別的實際應用場景中,拍攝環(huán)境和角度同樣復雜多變,多角度的問題也往往難以避免,因此角度對一致性判別的潛在影響同樣值得深入研究。同時,多數一致性判別方法(如MSA、MI等)通過為各視頻幀特征及其對應音頻幀特征建立統(tǒng)計模型來實現(xiàn)兩類信息的融合,以此描述發(fā)音過程中兩者之間的聯(lián)系,但兩者之間的聯(lián)系并不全是這類方法所假設的線性關系[15]。文獻[8]結合兩個模態(tài)的卷積神經網絡(CNN),通過設計映射網絡有效獲取音視頻之間的非線性關聯(lián)映射空間。然而,以上方法均未考慮時間維度上多幀間的運動信息,不能有效地反映唇動過程中唇形連續(xù)變化的時空特性,雖然有部分方法通過對音視頻幀求差分特征進行分析[5],但該動態(tài)特征缺乏全局性考慮,難以準確描述發(fā)音過程中唇部運動與音頻信號在時域上的關系。

        針對上述問題,文中著重研究了唇部角度變化對一致性判別的影響,并結合三維卷積神經網絡在非線性表示和時空維度特征提取上的優(yōu)勢,提出了一種基于正面唇重構與三維耦合CNN的多視角音唇一致性判別方法。首先針對唇圖采集過程中的多角度問題,提出了基于自映射監(jiān)督循環(huán)一致性生成對抗網絡(SMS-CycleGAN)的正面唇形重構方法,通過引入自映射損失由不同角度的非正面唇圖重建出同身份下高質量的正面唇圖;然后設計兩個異構三維CNN分別作為音頻和視頻數據的三維卷積特征提取器;最后引入對比損失函數作為音視頻信號匹配的相關度鑒別度量,以此實現(xiàn)對二者耦合過程的優(yōu)化,把音頻與視頻耦合連接到同一表示空間上,并分析其一致性。

        1 正面唇部重構

        1.1 正面唇部重構模型

        由于人物頭部角度姿態(tài)通常未知,因此文中在重構前先對輸入圖像進行角度分類(文中預設5類角度),再根據預定義的角度選出對應的角度模型作進一步分析。人臉角度分類過程如圖1所示,此過程利用Tensorflow中的Keras庫調用VGG16模型,引入訓練好的卷積基,并運用全局平均池化對卷積基的輸出進行降維。提取特征的3層全連接層大小分別為512、512和5,最后由Softmax激活函數輸出分類得分。

        圖1 人臉角度分類框圖

        文中在CycleGAN[16]的基礎上針對唇部重構問題進行改進,在生成器中引入自映射損失,以提高真實目標圖像與生成圖像之間的相似度,提出了SMS-CycleGAN唇重構模型,解決傳統(tǒng)CycleGAN模型缺乏對生成器輸出進行自校驗的問題,使生成圖像能保留更多的個人唇部細節(jié),效果更理想。SMS-CycleGAN模型(單向)如圖2所示,其中生成器G的輸入為非零角度(非正面)域中的真實唇圖,可生成零角度(正面)域中的虛假唇圖。為避免G把域中的任意唇圖映射到域中相同的唇圖上,利用生成器G將唇圖復原為域中的唇圖,并由cyc損失函數控制和間的誤差。判別器D對和域中的真實唇圖進行真假判別,以此訓練網絡,使得G最終具備生成高質量正面唇圖的能力。在模型訓練中,理想狀態(tài)為輸入G的唇部圖像無論是正面或非正面,都能被重構到正面視圖域中,因此本研究使用目標域中的真實正面唇圖去檢驗G。輸入到G,對應的輸出為,為使得無限接近,在兩者間添加自映射損失S,以此約束G的輸出為正面唇圖。

        圖2 SMS-CycleGAN唇部重構網絡模型

        生成器網絡結構如圖3所示。文中采用U-Net架構[17-18],在編、解碼器的對稱層之間增加跳躍連接,減少原域與映射域之間同特征權值在網絡中的疊加傳播。網絡使用了單卷積的上下采樣層,其中上采樣7層,下采樣6層,上采樣前3層中使用Dropout防止網絡過擬合。訓練過程中利用實例標準化來保持各圖像間的獨立性,加速模型收斂。判別器為馬爾可夫判別器,通過PatchGAN[19]組建全卷積神經網絡來實現(xiàn)真假圖像判別,其網絡結構如圖4所示。

        圖3 生成器網絡結構

        圖4 判別器網絡結構

        1.2 改進的損失函數

        文中提出的SMS-CycleGAN損失函數由對抗損失、重構損失和自映射損失組成。其中對抗損失包含兩部分,分別為

        式中,data()和data()分別來源于正面與非正面真實分布的數據,[·]表示求期望。式(1)中,G試圖生成與正面域中圖像相似的圖像,而D則旨在區(qū)分生成樣本G()與正面域中的真實樣本。通過訓練G來最小化其對抗損失,最終使得D難以區(qū)分和G(),式(2)同理。網絡中兩個GAN共享兩個生成器,各有一個判別器,共同組成完整的環(huán)形GAN,由循環(huán)一致性損失監(jiān)督訓練,即

        傳統(tǒng)CycleGAN的生成器并未對生成的真實目標域樣本進行復驗,使得角度增加時生成的正面唇圖會帶有部分非目標域的唇部,難以有效保留個人的唇動特性。因此,本研究引入自映射檢驗損失,以2范數約束生成器對目標域中樣本的自身檢驗,利用生成圖像與目標圖像之間的像素級損失衡量兩者的差異,以提高網絡的性能,使生成唇圖保留與目標唇圖相同的個體特性。設目標零度域中某真實灰度唇圖樣本輸入生成器G后輸出為G(),重構正唇過程中的自映射檢驗損失函數為

        式中,為唇圖像素點總數,為圖中像素點序號。S值越小,表明和()越相似,理想狀態(tài)下S應為0。則SMS-CycleGAN的總自映射檢驗損失為

        自映射檢驗過程中,生成器G期望輸入唇圖為時,生成圖像仍為。同理,G期望對的輸出為。結合式(1)、(2)、(3)、(5),可得重構網絡的總損失為

        2 三維耦合卷積神經網絡

        2.1 音視頻雙模態(tài)異構網絡

        本研究分別采用兩個異構的三維卷積神經網絡描述音頻和唇動視頻信號。音視頻耦合網絡的結構如圖5所示,模型分別訓練不同權值的音頻網絡與視頻網絡,通過這兩個異構網絡分別將音頻特征和視頻特征映射到相同的維度空間進行表示,再由耦合對比損失來度量兩個異構網絡輸出的同維度特征間的距離,以此分析音唇是否一致。本研究以每段時長為0.3 s的音視頻數據作為音頻與視頻網絡的輸入,兩個網絡中的卷積特征圖數量均以16的倍數逐層增加,除最后一層外各層都使用了PReLU函數作為激活函數。

        圖5 三維耦合卷積神經網絡結構

        音頻網絡部分以梅爾頻率倒譜系數(MFCC)為輸入特征。為保留音頻在頻率和時間上的局部相關性,文中在MFCC提取音頻特征的過程中通過不使用離散余弦變換來消除能量系數之間的相關性[20-21],直接對梅爾頻率倒譜系數取對數作為音頻特征,特征提取過程如圖6所示。音頻功率譜通過40個梅爾濾波器組得到梅爾尺度信號,再進行對數變換求得音頻靜態(tài)特征,最后合并一階、二階差分動態(tài)特征,0.3 s時長的音頻信號最終組成20×40×3的音頻張量。音頻網絡包含6層卷積、2層池化和1層全連接,同時為減少三維卷積網絡運算的參數量,在網絡的前2層卷積操作后使用池化層,池化操作只對頻域維度進行,最后將音頻特征映射到128維的表示空間。

        圖6 音頻特征提取流程圖

        對于視頻網絡,輸入為9幀連續(xù)視頻幀堆疊構成9×128×128的視頻張量,并在網絡結構中使用三維卷積核使得卷積層中的特征圖與上一層中的多個相鄰幀連接,從而在時間維度上獲得更多唇部連續(xù)運動的時變動態(tài)信息,而對應池化層和卷積核的移動步幅也均為三維。視頻網絡包含4層卷積、3層池化和2層全連接。由于視頻特征的維度大于音頻特征,視頻網絡的參數量遠大于音頻網絡,因此在視頻網絡前3層使用池化層以減少網絡參數,最后通過三維卷積將高層的時間和空間信息映射到128維的表示空間。

        2.2 耦合損失函數

        本研究耦合音頻和視頻兩個異構網絡的輸出,通過聯(lián)合訓練耦合網絡對輸入的音唇數據進行一致性判別。為分析音頻和視頻數據對之間的關聯(lián)程度,引入孿生網絡訓練中的對比損失來優(yōu)化耦合分析過程[22],耦合損失函數定義為

        為間隔參數,max函數的作用是篩選出歐氏距離大的不一致數據以減少網絡的冗余訓練。音唇一致時,若W(A,V)變大,則使用距離的平方來懲罰變大的一致數據距離;音唇不一致時,若W(A,V)變小,則使用Hinge損失的平方使此距離越來越遠。

        3 實驗及結果分析

        實驗所用數據集取自OuluVS2雙模態(tài)多視角語音數據庫,幀率為30 f/s,視頻數據由5個不同角度(0°、30°、45°、60°和90°)同時錄制,語料包括英文連續(xù)數字串、短句和長句3個部分,其中前兩部分每人讀3次,而長句只讀1次。實驗所用數據包含不同人、不同角度、不同語料視頻的音視頻數據,并且各個角度的樣本數據占比一致。實驗基于TensorFlow深度學習庫進行,使用Windows10操作系統(tǒng),在NVIDIA GTX1080 GPU、I7 7700 CPU、32 GB內存的硬件平臺上進行網絡訓練。

        3.1 正面唇部重構實驗

        文中人臉角度分類模型的訓練和測試數據取自不同人、不同角度、不同語料,包含不同唇形的視頻幀圖像,其中訓練集共約20 000 f,測試集共5 000 f,兩個數據集在各個角度的樣本數據占比一致。文中人臉視圖角度分類的準確率為97.8%,能達到準確分類的要求,而大多數分類錯誤則主要為45°和60°兩個類別間的誤判。

        本實驗使用圖2所示的網絡框架為每個角度創(chuàng)建一個正面重構模型。重構實驗采用結構相似性(SSIM)和峰值信噪比(PSNR)對重構的正面唇圖進行質量評價,并與傳統(tǒng)CycleGAN(CGAN)模型[16]以及主流的View2View(V2V)模型[14]的重構結果進行了比較。

        在SMS-CycleGAN(SMS-CGAN)模型的訓練過程中,判別器與生成器的損失函數均在對抗學習過程中相互競爭,二者最終趨于平穩(wěn)時判別器損失值約為0.7,對應的判別概率為0.5,此時表明判別器已難以區(qū)分真實唇圖和生成唇圖。文中SMS-CycleGAN模型的重構效果如圖7所示,其中差值圖是真實正面唇圖與SMS-CycleGAN模型生成的正面唇圖之間的差值,白色區(qū)域為差異部分,由差值圖可知,文中模型生成的正面唇圖與真實正面唇圖之間的總體差異度較小。文中SMS-CycleGAN模型、傳統(tǒng)CycleGAN模型以及主流View2View模型的重構圖像質量客觀評價結果如表1所示,雖然唇圖角度越接近90°時,其PSNR值會越小,但與View2View模型相比,文中SMS-CycleGAN模型生成的重構唇部在不同角度下的PSNR均有明顯提升,角度從30°變化到90°時,PSNR分別提高了5.26、4.37、2.17和2.32。SSIM是從亮度、對比度和結構三方面對圖像相似度進行評估,文中SMS-CycleGAN模型在4個視角下的SSIM平均值為0.72,相比于View2View平均提高了0.08。從圖7也可以看出,文中SMS-CycleGAN模型生成的正面唇圖在亮度、形態(tài)和局部細節(jié)上都有更好的效果。此外,加入自映射檢驗損失函數后,與加入前相比,PSNR與SSIM分別平均提高了1.39和0.03。

        圖7 不同視角的唇部正面重構效果

        表1 不同模型重構圖像質量對比

        Table 1 Comparison of image quality reconstructed by different models

        角度/(°)PSNRSSIM SMS-CGANCGANV2VSMS-CGANCGANV2V 3029.2928.2324.030.780.770.65 4527.9326.3723.560.730.710.67 6024.7823.5522.610.720.680.62 9019.1217.4316.800.640.610.60

        為進一步分析文中SMS-CycleGAN模型的重構唇圖和真實唇圖之間的相似程度,實驗同時利用變分自動編碼器網絡分別提取兩者同維度的特征,并通過皮爾遜相關系數進行分析,結果如圖8所示。由圖中可知,文中SMS-CycleGAN模型在不同角度下基本上都能產生較高的相關系數,雖然個別維度下的相關系數值會存在波動,在角度越接近90°時,相關系數值會有所減小,但也均在0.58以上,且大多數情況都大于0.7。整個重構實驗的總體結果表明,文中SMS-CycleGAN模型生成的正面唇圖在多數情形下與真實正面唇圖都非常接近,能夠在一定程度上彌補角度問題對識別帶來的影響,提高了多視角下的算法魯棒性。

        圖8 不同特征維度下的皮爾遜相關系數

        3.2 多視角一致性判別方法的性能分析

        對文中方法與當前不同類型的5種主流方法(BLPM算法[6]、QMI算法[4]、基于多元統(tǒng)計分析的時空融合STF算法[5]、稀疏表示法AV-SISR[7]及深度學習方法AV-SyncNet[8])進行了對比實驗。實驗測試了各方法在不同角度下唇形重構前后的一致性判別結果,以分析視角問題對一致性判別的影響以及正面唇形重建的作用。實驗采用等錯誤率(EER)及ROC曲線下面積(AUC)作為算法性能評價指標,EER越小、AUC越大,表示識別性能越優(yōu)。實驗數據取自OuluVS2庫的短句和數字串語料部分,時長約為3~6 s。實驗所用的4類不一致音視頻數據對是由數據庫中不同句子的音頻和視頻交叉組合而成(見表2),每類各2 500個樣本。數據庫中一致音視頻數據對分為測試集1 200句和訓練集1 500句(包含驗證集),訓練集主要用于AV-SISR方法的字典、STF方法的映射矩陣以及文中方法網絡參數的訓練。加入唇形正面重構前6種方法在不同角度下的EER和AUC比較如表3所示。由表中可知:對于正面唇形數據(角度為0°),文中方法對各類不一致數據的總體EER與基于二維卷積的深度學習方法AV-SyncNet相比下降了3.2個百分點,但優(yōu)于其他比較方法;對于不同角度的數據,STF方法與雙模態(tài)稀疏表示方法AV-SISR的性能接近,前者融合了時域關聯(lián)度,所以總體性能稍優(yōu)于后者。主流方法多以正面唇部數據訓練模型,隨著頭部角度的增加(逐漸偏離正面角度),特別是角度超過30°后,各種方法的性能均出現(xiàn)明顯的下降,其中基于雙模態(tài)字典學習的AV-SISR方法下降最為顯著,其生成的字典模板對角度的魯棒性較差。表3的結果表明,視角問題對一致性判別結果存在較大的影響,當角度越接近90°時,傳統(tǒng)的分析方法及模型訓練方式已難以實現(xiàn)準確的判別。在加入本研究的唇形重構模塊后,6種方法在不同角度輸入數據下的總體EER和AUC比較如表4所示。由表中可知,雖然不同方法的總體判別性能仍隨著角度的增加而有所下降,但在加入唇形重建后,文中方法在不同角度數據下的總體EER較加入前分別下降了0.4、3.3、7.4和12.7個百分點,而AUC則分別提升了0.5%、2.1%、9.2%和12.8%。其他比較方法在加入正面唇形重構后,在不同角度數據下的EER也均有0.8~17.3個百分點的下降,而AUC則有0.6%~14.5%的提升。綜合前面的實驗結果可知,整個唇形重構過程雖然會有誤差引入,但實驗結果表明,加入正面唇形重構確實能在一定程度上彌補角度問題對識別結果帶來的影響,提高了多視角下一致性判別算法的整體魯棒性。

        表2 不一致的音視頻數據對分類

        Table 2 Inconsistent classification of audio and video data pairs

        不一致數據種類語音及視頻唇動數據來源說明 第一類不同的人且內容亦非同一句話 第二類不同的人但內容為同一句話 第三類同一人但內容非同一句話 第四類同一人且內容為同一句話,但非同一時刻錄制

        表3 加入正面重構前6種方法在不同角度下的EER和AUC比較

        Table 3 Comparison of EER and AUC among six methods under different angles before adding frontal reconstruction

        角度/(°)總體EER/%總體AUC 文中方法AV-SISR(K=175)STFAV-SyncNetQMIBLPM文中方法AV-SISR(K=175)STFAV-SyncNetQMIBLPM 08.915.714.811.120.819.30.9470.8790.8850.9330.8580.860 3012.320.217.113.223.323.10.9200.8570.8710.9050.8150.819 4517.526.724.218.629.728.80.8680.7680.7970.8630.7350.744 6026.533.531.129.036.634.90.7690.6940.7210.7040.6690.679 9037.147.139.838.346.744.50.6650.5890.6440.6590.5920.613

        表4 加入正面重構后6種方法在不同角度下的EER和AUC比較

        Table 4 Comparison of EER and AUC among six methods under different angles after adding frontal reconstruction

        角度/(°)總體EER/%總體AUC 文中方法AV-SISR(K=175)STFAV-SyncNetQMIBLPM文中方法AV-SISR(K=175)STFAV-SyncNetQMIBLPM 3011.917.816.312.421.822.10.9250.8660.8760.9170.8440.838 4514.220.918.115.824.723.60.8890.8570.8650.8790.7870.809 6019.123.721.621.726.428.60.8610.8070.8480.8460.7710.747 9024.429.827.428.132.534.30.7930.7340.7590.7510.7040.684

        4 結語

        針對視頻采集角度變化對一致性判別的影響,以及視頻特征中唇動時空特性缺失等問題,本研究提出了一種基于正面唇部重構與三維耦合CNN的多視角音唇一致性判別方法。該方法先利用基于SMS-CycleGAN的唇部重構方法對唇圖進行角度分類及正面重構,再采用三維耦合CNN模型分析音視頻數據的相關度。實驗結果表明,本研究方法能重構出高質量的正面唇圖,與現(xiàn)有主流的分析方法相比,其判別效果更優(yōu)。

        [1] DEBNATH S,RAMALAKSHMI K,SENBAGAVALLI M.Multimodal authentication system based on audio-visual data:a review[C]∥ Proceedings of 2022 International Conference for Advancement in Technology. Goa:IEEE,2022:1-5.

        [2] MIN X,ZHAI G,ZHOU J,et al.A multimodal saliency model for videos with high audio-visual correspondence [J].IEEE Transactions on Image Processing,2020,29:3805-3819.

        [3] MICHELSANTI D,TAN Z H,ZHANG S X,et al.An overview of deep-learning-based audio-visual speech enhancement and separation[J].IEEE/ACM Transactions on Audio,Speech,and Language Processing,2021,29:1368-1396.

        [4] SAINUI J,SUGIYAMA M.Minimum dependency key frames selection via quadratic mutual information [C]∥ Proceedings of 2015 the Tenth International Conference on Digital Information Managemen.Jeju:IEEE,2015:148-153.

        [5] 朱錚宇,賀前華,奉小慧,等.基于時空相關度融合的語音唇動一致性檢測算法[J].電子學報,2014,42(4):779-785.

        ZHU Zheng-yu,HE Qian-hua,F(xiàn)ENG Xiao-hui,et al.Lip motion and voice consistency algorithm based on fusing spatiotemporal correlation degree [J].Acta Electronica Sinica,2014,42(4):779-785.

        [6] KUMAR K,NAVRATIL J,MARCHERET E,et al.Audio-visual speech synchronization detection using a bimodal linear prediction model[C]∥ Proceedings of 2009 IEEE Computer Society Conference on Computer Vision and Pattern Recognition Workshops.Florida:IEEE,2009:53-59.

        [7] 賀前華,朱錚宇,奉小慧.基于平移不變字典的語音唇動一致性判決方法[J].華中科技大學學報(自然科學版),2015,43(10):69-74.

        HE Qianhua,ZHU Zhengyu,F(xiàn)ENG Xiaohui.Lip motion and voice consistency analysis algorithm based on shift-invariant dictionary[J].Journal of Huazhong University of Science and Technology(Natural Science Edition),2015,43(10):69-74.

        [8] CHUNG J S,ZISSERMAN A.Lip reading in profile [C]∥ Proceedings of 2017 British Machine Vision Conference.London:BMVA,2017:36-46.

        [9] KIKUCHI T,OZASA Y.Watch,listen once,and sync:audio-visual synchronization with multi-modal regression CNN[C]∥ Proceedings of 2018 IEEE International Conference on Acoustics,Speech and Signal Processing.Calgary:IEEE,2018:3036-3040.

        [10] CHENG S,MA P,TZIMIROPOULOS G,et al.Towards pose-invariant lip-reading [C]∥ Proceedings of 2020 IEEE International Conference on Acoustics,Speech and Signal Processing.Barcelona:IEEE,2020:4357-4361.

        [11] MAEDA T,TAMURA S.Multi-view convolution for lipreading[C]∥ Proceedings of 2021 Asia-Pacific Signal and Information Processing Association Annual Summit and Conference.Tokyo:IEEE,2021:1092-1096.

        [12] PETRIDIS S,WANG Y,LI Z,et al.End-to-end multi-view lipreading [C]∥ Proceedings of 2017 British Machine Vision Conference.London:BMVA,2017:1-14.

        [13] SARI L,SINGH K,ZHOU J,et al.A multi-view approach to audio-visual speaker verification[C]∥ Proceedings of 2021 IEEE International Conference on Acoustics,Speech and Signal Processing.Toronto:IEEE,2021:6194-6198.

        [14] KOUMPAROULIS A,POTAMIANOS G.Deep view2view mapping for view-invariant lipreading[C]∥ Proceedings of 2018 IEEE Spoken Language Technology Workshop.Athens:IEEE,2018:588-594.

        [15] EL-SALLAM A A,MIAN A S.Correlation based speech-video synchronization [J].Pattern Recognition Letters,2011,32(6):780-786.

        [16] ZHU J Y,PARK T,ISOLA P,et al.Unpaired image-to-image translation using cycle-consistent adversarial networks[C]∥ Proceedings of 2017 IEEE International Conference on Computer Vision.Venice:IEEE,2017:2223-2232.

        [17] TANG Z,PENG X,LI K,et al.Towards efficient U-Nets:a coupled and quantized approach [J].IEEE Transactions on Pattern Analysis and Machine Intelligence,2020,42(8):2018-2050.

        [18] 張瑞峰,白金桐,關欣,等.結合SE與BiSRU的Unet的音樂源分離方法[J].華南理工大學學報(自然科學版),2021,49(11):106-115,134.

        ZHANG Ruifeng,BAI Jintong,GUAN Xin,et al.Music source separation method based on Unet combining SE and BiSRU [J].Journal of South China University of Technology (Natural Science Edition),2021,49(11):106-115,134.

        [19] ISOLA P,ZHU J Y,ZHOU T,et al.Image-to-image translation with conditional adversarial networks [C]∥ Proceedings of 2017 IEEE Conference on Computer Vision and Pattern Recognition.Honolulu:IEEE,2017:5967-5976.

        [20] HOURRI S,KHARROUBI J.A deep learning approach for speaker recognition [J].International Journal of Speech Technology,2020,23(1):123-131.

        [21] MEHROTRA U,GARG S,KRISHNA G,et al.Detecting multiple disfluencies from speech using pre-linguistic automatic syllabification with acoustic and prosody features[C]∥ Proceedings of 2021 Asia-Pacific Signal and Information Processing Association Annual Summit and Conference.Tokyo:IEEE,2021:761-768.

        [22] CHUNG J S,ZISSERMAN A.Out of time:automated lip sync in the wild [C]∥ Proceedings of ACCV 2016 International Workshops.Taipei:Springer,2016:251-263.

        Multi-View Lip Motion and Voice Consistency Judgment Based on Lip Reconstruction and Three-Dimensional Coupled CNN

        1,221223

        (1. Audio,Speech and Vision Processing Laboratory,South China University of Technology,Guangzhou 510640,Guangdong,China;2. School of Cyber Security,Guangdong Polytechnic Normal University,Guangzhou 510665,Guangdong,China;3. Guangzhou Quwan Network Technology Co.,Ltd.,Guangzhou 510665,Guangdong,China)

        The traditional consistency judgment methods of lip motion and voice mainly focus on processing the frontal lip motion video,without considering the impact of angle changes on the result during the video acquisition process. In addition, they are prone to ignoring the spatio-temporal characteristics of the lip movement process.Aiming at these problems, this paper focused on the influence of lip angle changes on consistency judgment,combined the advantages of three dimensional convolutional neural networks for non-linear representation and spatio-temporal dimensional feature extraction, and proposed a multi-view lip motion and voice consistency judgment method based on frontal lip reconstruction and three dimensional(3D) coupled convolutional neural network.Firstly,the self-mapping loss was introduced into the generator to improve the effect of frontal reconstruction, and then the lip reconstruction method based on self-mapping supervised cycle-consistent generative adversarial network (SMS-CycleGAN) was used for angle classification and frontal reconstruction of multi-view lip image.Secondly,two heterogeneous three dimensional convolution neural networks were designed to describe the audio and video signals respectively, and then the 3D convolution features containing long-term spatio-temporal correlation information were extracted.Finally, the contrastive loss function was introduced as the correlation discrimination measure of audio and video signal matching, and the output of the audio-video network was coupled into the same representation space for consistency judgment. The experimental results show that the method proposed in this paper can reconstruct frontal lip images of higher quality, and it is better than a variety of comparison methods on the performance of consistency judgment.

        consistency judgment;generative adversarial network;convolutional neural network;frontal reconstruction;multi-modal

        Supported by the National Natural Science Foundation of China (61672173) and the National Key R&D Program of China (2018YFB1802200)

        10.12141/j.issn.1000-565X.220435

        2022?07?08

        國家自然科學基金資助項目(61672173);國家重點研發(fā)計劃項目(2018YFB1802200)

        朱錚宇(1984-),男,博士后,講師,主要從事音視頻多模態(tài)信號處理研究。E-mail:zhuzhengyu0701@163.com

        彭煒鋒(1976-),男,博士,講師,主要從事語音信號處理研究。E-mail:pengweifeng0215@163.com

        TP391

        1000-565X(2023)05-0070-08

        猜你喜歡
        一致性方法模型
        一半模型
        關注減污降碳協(xié)同的一致性和整體性
        公民與法治(2022年5期)2022-07-29 00:47:28
        注重教、學、評一致性 提高一輪復習效率
        IOl-master 700和Pentacam測量Kappa角一致性分析
        重要模型『一線三等角』
        重尾非線性自回歸模型自加權M-估計的漸近分布
        可能是方法不對
        3D打印中的模型分割與打包
        用對方法才能瘦
        Coco薇(2016年2期)2016-03-22 02:42:52
        基于事件觸發(fā)的多智能體輸入飽和一致性控制
        国模雨珍浓密毛大尺度150p| 日本一区二区三区精品不卡| 成人av综合资源在线| 一区二区三区四区亚洲免费| 久久精品国产99久久无毒不卡| 亚洲国产天堂久久综合| 亚洲日韩欧洲无码av夜夜摸| 国产精品短视频| 中文字幕一区韩国三级| 亚洲中文字幕亚洲中文| 亚洲中文字幕人妻av在线| 中文字幕色av一区二区三区| 蜜桃成人无码区免费视频网站| 日韩在线看片免费人成视频| 911国产在线观看精品| 亚洲一区二区国产精品视频| 亚洲国产av高清一区二区三区| 日本一区二区在线免费视频| 国产成人a人亚洲精品无码| 久久精品免费免费直播| 亚洲αv在线精品糸列| 谷原希美中文字幕在线| 国产超碰女人任你爽| h国产视频| 91蜜桃精品一区二区三区毛片| 久久99国产综合精品女同| 亚洲国产成人久久三区| 国产在线一区二区三区av| 欧美日韩国产色综合一二三四| 精品人妻一区二区蜜臀av| 免费人成网站在线视频| 全免费a敌肛交毛片免费| 久久网视频中文字幕综合| 黑丝国产精品一区二区| 久久国语露脸国产精品电影| 亚洲av综合色区无码一二三区 | 国产精品毛片无遮挡| 国产成人午夜精华液| 久久久久成人精品免费播放网站| 国产精品女主播在线播放| 亚洲精品无码久久久久去q|