亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于監(jiān)督信號增強的唇語識別模型

        2021-01-22 07:47:00蘇渝校
        關(guān)鍵詞:唇語裕度發(fā)音

        蘇渝校

        ( 廣東工業(yè)大學(xué),廣東 廣州510006)

        1 概述

        隨著近幾年來深度學(xué)習(xí)的快速發(fā)展,唇語識別任務(wù)越來越成為當(dāng)前學(xué)術(shù)界的研究重點。由于唇語識別任務(wù)的困難性,當(dāng)前學(xué)界對于唇語識別的研究普遍集中于單詞級別的唇語識別,該任務(wù)是通過一個講話者的一系列嘴唇圖片,來識別出他/她所講的對應(yīng)詞語。當(dāng)前基于深度學(xué)習(xí)的唇語識別算法大部分以獨熱編碼作為監(jiān)督信號,通過最小化模型輸出與監(jiān)督信號之間的交叉熵來完成訓(xùn)練。這導(dǎo)致唇語識別算法在推理時會遇到如下挑戰(zhàn):

        (1)嘴唇運動的多樣性以及講話者不同的發(fā)音習(xí)慣和語速,都會給識別帶來困難,尤其是對于兩個發(fā)音相近的詞語,如果不能在特征層面上使兩者具備更好的辨別性,那么誤判是很容易發(fā)生的。

        (2)由于光照、人臉角度等變化,導(dǎo)致識別時的準(zhǔn)確率受到影響,這要求唇語識別算法需要具有較好的泛化能力。

        2 相關(guān)工作

        基于深度學(xué)習(xí)的唇語識別方法,根據(jù)其卷積部分對圖像特征的提取方式可以分為全2D 卷積、全3D 卷積(即時空卷積)和2D、3D 卷積混合的方式。在全2D 卷積方面,Noda 等人[1]利用VGGNet 提取嘴唇特征,之后經(jīng)由循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN),在特定數(shù)據(jù)集上面實現(xiàn)了44.5%的短語識別準(zhǔn)確率和56.0%單詞分類準(zhǔn)確率。在全3D 卷積方面,Chungg 和Zisserman[2]提出了基于VGG 結(jié)構(gòu)的時空卷積神經(jīng)網(wǎng)絡(luò),進行單詞的唇語識別,在BBCTV 數(shù)據(jù)集上取得了比傳統(tǒng)唇語識別方法更好的準(zhǔn)確率。在3D 和2D 卷積混合的方式中,Stafylakis 等人[3]結(jié)合了時空卷積網(wǎng)絡(luò)和ResNet34,并使用了Bi-GRU 建模上下文信息,在LRW 數(shù)據(jù)集上識別準(zhǔn)確率是83%。

        可以看出,基于深度學(xué)習(xí)的唇語識別方法,算法的主要結(jié)構(gòu)都是由卷積神經(jīng)網(wǎng)絡(luò)來提取圖像初步特征,再由循環(huán)神經(jīng)網(wǎng)絡(luò)建模時序信息,最后使用全連接層進行分類識別,而這些方法都是使用獨熱編碼作為監(jiān)督信號進行訓(xùn)練的。

        而當(dāng)前在深度學(xué)習(xí)的一些其它領(lǐng)域的研究當(dāng)中,已經(jīng)提出了一些取代獨熱編碼的監(jiān)督信號。例如,人臉識別領(lǐng)域的最新研究方向是改進監(jiān)督信號來最大化分類空間的決策邊界,近兩年也出現(xiàn)了諸多關(guān)于決策邊界約束的研究成果,這些基于監(jiān)督信號改進的方法可以使得深度網(wǎng)絡(luò)所提取特征在類內(nèi)緊湊,在類間可分,進而提升人臉識別的效果。而在知識蒸餾的研究領(lǐng)域中,近兩年也提出了一些訓(xùn)練深度神經(jīng)網(wǎng)絡(luò)的暗知識的方式,相較于常用的基于獨熱編碼的監(jiān)督信號,結(jié)合了暗知識的監(jiān)督信號可以使訓(xùn)練的網(wǎng)絡(luò)具有更強的泛化力。

        因此,本文結(jié)合人臉識別領(lǐng)域和知識蒸餾領(lǐng)域的方法,設(shè)計一種增強的監(jiān)督信號,并應(yīng)用到基于3D 卷積的唇語識別算法當(dāng)中,有效提升唇語識別的準(zhǔn)確率。

        3 模型介紹

        3.1 模型結(jié)構(gòu)

        本文的唇語識別模型為“主干- 脖子- 分類頭部”的結(jié)構(gòu)(如表1),模型的“主干”部分采用時空卷積的方式進行圖片序列的特征提取,由3 個3D 卷積層構(gòu)成;在這之后,搭建兩個單隱層的GRU 作為模型的“脖子”,目的是將所有幀的圖片特征整合聯(lián)系起來。模型的“頭部”是一層沒有偏置的全連接層,實現(xiàn)唇語識別的多分類任務(wù)。此外,在“主干”和“脖子”中間接了兩層全連接層,進行特征的降維。

        表1 模型結(jié)構(gòu)配置

        k、s、p 分別代表卷積核尺寸、滑動步長和填充尺寸

        3.2 監(jiān)督信號增強

        3.2.1 邊緣裕度

        目前的唇語識別模型基本上都是使用獨熱編碼作為監(jiān)督信號,配合以交叉熵?fù)p失函數(shù)進行模型的訓(xùn)練。但是使用交叉熵?fù)p失訓(xùn)練的模型來識別的時候,容易對發(fā)音相似的詞語產(chǎn)生誤判,例如本數(shù)據(jù)集的“知識”與“只是”這兩個發(fā)音相近的樣本。

        通過分析發(fā)現(xiàn),多數(shù)情況下模型在正確的類別上預(yù)測了一個數(shù)值第二大的概率輸出,而在一個發(fā)音情況相近的類別上預(yù)測了最大概率輸出。可以看出使用交叉熵作為損失函數(shù)時,模型對一些唇語圖片序列的識別并不魯棒,容易誤判為發(fā)音相近的其它詞語。這種錯誤識別的原因是因為模型沒有能力可以有效地區(qū)分開發(fā)音相似的詞語,即兩個發(fā)音相似的詞語,它們在網(wǎng)絡(luò)的全連接層輸入處的特征向量非常接近,所以對于這類型的樣本,全連接層分類器的泛化力不足。

        針對交叉熵?fù)p失函數(shù)學(xué)習(xí)到的特征分辨性不夠強這一點,人臉識別領(lǐng)域的最新研究成果是邊緣裕度[4],通過對損失函數(shù)引入邊緣裕度,來增強模型訓(xùn)練的監(jiān)督信號。同理,本文引入具有決策邊界懲罰的損失函數(shù),通過約束各類別的決策邊界,可以使得各個類別的特征在類內(nèi)緊湊,在類間可分,以此提高了唇語識別模型在識別發(fā)音相似的詞語時的準(zhǔn)確率。具體做法是將無偏置的全連接層輸出WTyixi視為一個余弦值,通過求余弦函數(shù)的反函數(shù),在決策面上添加一個角度m 的邊緣懲罰,從而使得決策面更加規(guī)整。

        3.2.2 軟化標(biāo)簽

        深度學(xué)習(xí)唇語識別模型使用獨熱編碼的訓(xùn)練標(biāo)簽,由香農(nóng)信息熵可知,標(biāo)簽值為{0,1}的獨熱編碼信號攜帶的信息熵少于軟化標(biāo)簽信號所攜帶的信息。當(dāng)使用獨熱編碼時,模型訓(xùn)練時只關(guān)注于是否將當(dāng)前詞語正確分類,但是無法關(guān)注到其它的發(fā)音相近詞語的概率輸出是否合適。在知識蒸餾領(lǐng)域的研究中,其它類別上的概率輸出被稱為暗知識[5]。

        為此,本文使用知識蒸餾的策略得到軟化的訓(xùn)練標(biāo)簽,使用帶有暗知識的軟化標(biāo)簽作為新的監(jiān)督信號,訓(xùn)練一個再生的唇語識別模型。本文設(shè)計一種“課程學(xué)習(xí)”的方式進行暗知識的遷移:

        步驟1:以加入了邊緣裕度的交叉熵作為損失函數(shù)訓(xùn)練模型T;

        步驟2:訓(xùn)練再生模型S。具體方式為,訓(xùn)練時對于同一個樣本,以模型T 的輸出概率分布作為監(jiān)督信號,以L1 損失訓(xùn)練模型S 的輸出分布;

        步驟3:使用加帶邊緣裕度的交叉熵?fù)p失繼續(xù)訓(xùn)練模型S,得到最終的模型。

        本文通過先行訓(xùn)練好的模型T 作為教師,將教師的輸出分布作為軟化標(biāo)簽,訓(xùn)練學(xué)生模型S,這樣可令模型S 在訓(xùn)練初期就關(guān)注學(xué)習(xí)暗知識的部分(即其它詞語的輸出概率),使得模型最終可以到達一個更好的極值點。

        本文通過邊緣裕度和軟化標(biāo)簽得到的監(jiān)督信號增強的唇語識別模型如圖1 所示。

        圖1 監(jiān)督信號增強的唇語識別模型

        3.3 實驗結(jié)果

        本文使用DataCastle 平臺的中文唇語識別數(shù)據(jù)集進行實驗,該數(shù)據(jù)集采集了10 個講話者講313 個不同的中文詞語的視頻并截幀作為樣本,樣本序列的最長長度為24 幀。實驗結(jié)果如下:

        表2

        4 結(jié)論

        唇語識別是一項頗具難度的任務(wù),光照、人臉角度的變化,講話者嘴唇形狀、說話習(xí)慣的不同給唇語識別任務(wù)的準(zhǔn)確性帶來挑戰(zhàn)。基于深度學(xué)習(xí)的唇語識別模型在識別一些發(fā)音相近的詞語時容易發(fā)生誤判,本文通過引入知識蒸餾技術(shù)獲得軟化訓(xùn)練標(biāo)簽,加入邊緣裕度獲得增強的監(jiān)督信號,有效提升唇語識別的準(zhǔn)確率。

        猜你喜歡
        唇語裕度發(fā)音
        Hickory, Dickory, Dock
        碰撞:“唇語”應(yīng)對媒體vs志愿者自責(zé)哭泣
        唇語
        文學(xué)港(2019年5期)2019-05-24 14:19:42
        親情助力,90后“唇語女博士”名震清華
        搜狗推出“唇語識別”技術(shù)
        基于DFIG可用無功裕度的風(fēng)電場無功電壓控制方法
        電測與儀表(2016年2期)2016-04-12 00:24:36
        Playing with h
        三環(huán)路核電廠的抗震裕度評價
        基于ANN模型的在線電壓穩(wěn)定裕度評估
        電測與儀表(2015年5期)2015-04-09 11:30:46
        Playing with /eI/
        亚洲av香蕉一区二区三区av| 女高中生自慰污免费网站| 岛国视频在线无码| 中文字幕人妻精品一区| 日韩夜夜高潮夜夜爽无码| 人人添人人澡人人澡人人人人| 精品一区二区三区四区少妇| 亚洲精品女人天堂av麻| 国产aⅴ激情无码久久久无码| 久久久无码中文字幕久...| 91热久久免费精品99| 久久国产精品免费久久久| 亚洲 小说区 图片区 都市| 亚洲av无码潮喷在线观看| 亚洲福利天堂网福利在线观看| 在线观看视频亚洲一区二区三区| 精品露脸国产偷人在视频| 久久久久99精品成人片试看| 中日韩欧美成人免费播放| 国产视频在线观看一区二区三区| 国产后入清纯学生妹| 抽插丰满内射高潮视频| 久久精品国产亚洲av成人擦边| 亚洲视频免费在线观看| 国产一区二区女内射| 国产真人无遮挡免费视频| 国产午夜在线观看视频| 少妇真实被内射视频三四区| 又黄又爽又色的视频| av在线免费观看你懂的| 亚洲另类丰满熟妇乱xxxx| 久久国内精品自在自线图片| 久久波多野结衣av| 一本色道加勒比精品一区二区| 艳妇臀荡乳欲伦69调教视频| 日本一区二区不卡视频| 中文字幕国内一区二区| 香蕉成人伊视频在线观看| 丰满的少妇xxxxx青青青| 91极品尤物在线观看播放| 国产av一区二区三区在线播放 |