亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于CNN與Bi-LSTM的唇語識(shí)別研究

        2019-12-04 01:47:08駱天依劉大運(yùn)李修政房國志安欣魏華杰胡城
        軟件導(dǎo)刊 2019年10期
        關(guān)鍵詞:卷積神經(jīng)網(wǎng)絡(luò)深度學(xué)習(xí)

        駱天依 劉大運(yùn) 李修政 房國志 安欣 魏華杰 胡城

        摘要:針對(duì)唇語識(shí)別過程中唇部特征提取和時(shí)序關(guān)系存在的問題,提出一種卷積神經(jīng)網(wǎng)絡(luò)(CNN)和雙向長短時(shí)記憶網(wǎng)絡(luò)(Bi-LSTM)相結(jié)合的深度學(xué)習(xí)模型。利用CNN學(xué)習(xí)唇部特征,并將學(xué)習(xí)到的唇部特征送入Bi-LSTM進(jìn)行時(shí)序編碼,通過Softmax進(jìn)行分類。建立NUMBER DATASET和PHRACE DATASET兩個(gè)大型漢語數(shù)據(jù)集以解決漢語唇語數(shù)據(jù)缺失問題。將該模型與傳統(tǒng)的唇語識(shí)別方法在兩個(gè)數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn)對(duì)比,發(fā)現(xiàn)在NUMBER DATASET上識(shí)別準(zhǔn)確率為81.3%,比傳統(tǒng)方法提高了8.1%,在PHRACE DATASET上識(shí)別準(zhǔn)確率為83.5%,比傳統(tǒng)方法提高了9%。實(shí)驗(yàn)結(jié)果表明該模型能有效提高唇語識(shí)別的準(zhǔn)確率。

        關(guān)鍵詞:唇語識(shí)別;卷積神經(jīng)網(wǎng)絡(luò);雙向長短時(shí)記憶網(wǎng)絡(luò);深度學(xué)習(xí);時(shí)序編碼

        DOI:10.11907/rjdk.191058開放科學(xué)(資源服務(wù))標(biāo)識(shí)碼(OSID):

        中圖分類號(hào):TP301文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):1672-7800(2019)010-0036-04

        0引言

        唇語識(shí)別指通過觀察人說話時(shí)唇部特征變化,識(shí)別出入所說的話。作為智能化人機(jī)交互的重要組成部分,唇語識(shí)別技術(shù)由于具有方便快捷、安全度高等特點(diǎn),逐漸應(yīng)用在輔助語音識(shí)別、協(xié)助警方破案、提高人臉識(shí)別安全性等眾多領(lǐng)域。

        目前,大多數(shù)研究主要集中在唇部檢測(cè)定位、特征提取以及對(duì)樣本數(shù)據(jù)的訓(xùn)練幾方面。在唇部檢測(cè)定位方面,田原螈等提出基于YCbCr膚色檢測(cè)與AdaBoost聯(lián)級(jí)算法的嘴部特征定位,采用自適應(yīng)閾值分割法進(jìn)行唇部特征狀態(tài)分析。在特征提取方面,王嘩等通過改進(jìn)的主動(dòng)形狀模型(Active Shape Model,ASM),計(jì)算標(biāo)定點(diǎn)間平均紋理和協(xié)方差矩陣實(shí)現(xiàn)對(duì)人臉表情的識(shí)別。雖然這種方法直觀地獲得了唇部特征參數(shù),但模型對(duì)唇部初始位置和形狀十分依賴,不能很好地適應(yīng)唇部復(fù)雜多變的紋理結(jié)構(gòu)。在樣本數(shù)據(jù)訓(xùn)練方面,Alan J.Goldschen等利用隱馬爾可夫模型(Hidden Markov Model,HMM)和層次聚類算法,實(shí)現(xiàn)對(duì)口腔動(dòng)態(tài)特征的識(shí)別;Jfirgen Schmidhuber提出基于長短時(shí)記憶單元(Long Short-Term Memory,LSTM)的遞歸結(jié)構(gòu),解決了傳統(tǒng)循環(huán)神經(jīng)網(wǎng)絡(luò)(Recurrent Neural Network,RNN)梯度消失的問題。LSTM考慮了過去信息對(duì)當(dāng)前信息的影響,馬寧等將LSTM運(yùn)用到唇語識(shí)別,有效解決了唇讀信息多樣性問題。然而LSTM沒有考慮未來信息對(duì)當(dāng)前信息的影響,在一定程度上影響了識(shí)別準(zhǔn)確率。

        針對(duì)以上問題,本文提出一種基于卷積神經(jīng)網(wǎng)絡(luò)(Con-volutional Neural Network,CNN)和雙向長短時(shí)記憶網(wǎng)絡(luò)(Bidirectional-Long Short-Term Memory,Bi-LSTM)的深度學(xué)習(xí)方法,充分利用CNN捕捉局部特征以及Bi-LSTM捕捉時(shí)序信息的特點(diǎn),無需考慮唇部紋理特征并將未來信息對(duì)當(dāng)前信息的影響考慮在內(nèi),實(shí)現(xiàn)了對(duì)數(shù)字0-9和10個(gè)常用漢語短語的唇語識(shí)別。

        1唇語識(shí)別模型

        基于CNN和Bi-LSTM的唇語識(shí)別模型如圖1所示,該模型由4個(gè)部分組成:①唇讀視頻預(yù)處理;②利用CNN模型學(xué)習(xí)唇部特征;③利用Bi-LSTM模型提取唇動(dòng)時(shí)序特征;④利用分類器進(jìn)行特征分類。

        1.1輸入層

        首先將視頻轉(zhuǎn)換成圖片,然后利用dlib庫提取唇部的20個(gè)特征點(diǎn),根據(jù)這20個(gè)特征點(diǎn)確定唇部位置和裁取范圍,裁出唇部隨時(shí)間變化的特征圖像序列,將唇動(dòng)序列送人輸入層。

        1.2CNN模型

        CNN是一種專用于處理類似網(wǎng)格結(jié)構(gòu)數(shù)據(jù)的神經(jīng)網(wǎng)絡(luò),包含卷積層、池化層和全連接層3個(gè)單元。多層卷積層和池化層交替排列自主學(xué)習(xí),在保留訓(xùn)練樣本主要特征的同時(shí)防止過擬合,并提高模型泛化能力。全連接層對(duì)前面學(xué)習(xí)到的特征進(jìn)行加權(quán)處理,得到各種分類情況概率。

        如圖2所示,輸入層、卷積層和池化層均只有一個(gè)。假設(shè)輸入層和卷積層之間存在m個(gè)卷積核,根據(jù)卷積層計(jì)算公式可以得到卷積層輸出的第m個(gè)特征面:

        類比這類計(jì)算方法,可以得到多卷積層情況下的全連接層。

        本實(shí)驗(yàn)采用CNN對(duì)唇部特征進(jìn)行學(xué)習(xí)。將輸入層內(nèi)容送人CNN后,卷積層用采樣器從視頻中采集唇部關(guān)鍵特征信息數(shù)據(jù),池化層對(duì)卷積層結(jié)果進(jìn)一步壓縮,提取到唇部更關(guān)鍵的特征信息,全連接層對(duì)池化層結(jié)果進(jìn)行整合,最終將學(xué)習(xí)到的唇部特征送人到Bi-LSTM中。

        1.3Bi-LSTM模型

        LSTM網(wǎng)絡(luò)主要由遺忘門(forget gate)、輸入門(inpulgate)及輸出門(output gate)構(gòu)成。遺忘門決定從上一單元中丟失哪些信息,輸入門的輸入信號(hào)為h(t-1)和X(t),輸出門輸出信號(hào)h(t)介于0和1之間,見圖3。

        輸出門最終確定LSTM單元的輸出值。首先運(yùn)行一個(gè)sigmoid層確定細(xì)胞狀態(tài)的哪個(gè)部分將輸出出去,之后經(jīng)過非線性變換得到最終輸出。

        2實(shí)驗(yàn)結(jié)果與分析

        2.1數(shù)據(jù)集建立

        唇語識(shí)別研究剛剛起步,有關(guān)唇語方面的數(shù)據(jù)集很少,其中較具有影響力的數(shù)據(jù)集如下:

        (1)OuluVS數(shù)據(jù)集。包含20個(gè)說話人,語料為每人讀10個(gè)日常問候短語。

        (2)MIRACL-VC數(shù)據(jù)集。5男10女錄制的同時(shí)包含深度圖和彩色圖的唇語數(shù)據(jù)集,由微軟Kinect錄制,語料為每人讀10個(gè)單詞和10個(gè)短語各10次的視頻。

        (3)哈工大HIT Bi-CAV語料庫。語料為10人基于96個(gè)音讀出的200個(gè)常用漢語句子。

        這些視頻數(shù)據(jù)大部分為外文發(fā)音,并且大多是針對(duì)特定的拍攝技術(shù)和場(chǎng)地要求建立的數(shù)據(jù)集,無法滿足中文數(shù)字0-9和短語語料要求。因此,筆者根據(jù)需求分別構(gòu)建了中文數(shù)字?jǐn)?shù)據(jù)集NUMBER DATASET和中文短語數(shù)據(jù)集PHRACE DATASET。

        NUMBER DATASET數(shù)據(jù)集由10人錄制5天完成,每人每天讀0-9各10遍,共計(jì)5000個(gè)視頻的普通話唇語數(shù)據(jù)集。本數(shù)據(jù)集的視頻分辨率為480×640,幀率約為25fps,時(shí)長約為2s,見圖5。

        PHRACE DATASET數(shù)據(jù)集的建立方法和NUMBERDA7ASET相同,分別錄制了唇讀生活中10種常見水果名稱的視頻,將此作為短語數(shù)據(jù)集的主要內(nèi)容。

        2.2實(shí)驗(yàn)設(shè)置

        分別對(duì)NUMBER DATASE7和PHRACE DATASET兩個(gè)數(shù)據(jù)集采用分層抽樣的方式,抽取500個(gè)樣本作為測(cè)試數(shù)據(jù),其余樣本作為訓(xùn)練數(shù)據(jù)。將測(cè)試數(shù)據(jù)與訓(xùn)練數(shù)據(jù)分離開進(jìn)行交叉驗(yàn)證,以更好地評(píng)估模型的泛化能力?;谏鲜鲇?xùn)練集和測(cè)試集,設(shè)置了18個(gè)唇部特征點(diǎn)+LSTM、CNN+LSTM和CNN+Bi-LSTM三組對(duì)比實(shí)驗(yàn),以驗(yàn)證模型的有效性。

        三組實(shí)驗(yàn)的神經(jīng)網(wǎng)絡(luò)模型均采用Keras搭建并基于Tensorflow后端。

        在18個(gè)唇部特征點(diǎn)+LSTM的實(shí)驗(yàn)中,本實(shí)驗(yàn)設(shè)置與馬寧等的實(shí)驗(yàn)設(shè)置一致。

        在CNN+LSTM實(shí)驗(yàn)中,圖像特征提取的CNN部分采用在ImageNet上預(yù)訓(xùn)練過的VGGl6。VGGl6使用連續(xù)的小卷積核對(duì)圖像進(jìn)行多次卷積,在圖像特征提取中表現(xiàn)較好。而本實(shí)驗(yàn)中VGGl6模型對(duì)最上面的5層進(jìn)行fine-tuning,其它層的參數(shù)不變以適應(yīng)本文實(shí)驗(yàn)數(shù)據(jù)。對(duì)于輸入的每幀RGB圖像(初始大小為(128,128,3)),經(jīng)過VGG抽取后的特征向量為(4,4,512),然后采用Flatten方法將三維特征向量轉(zhuǎn)為一個(gè)大小為8192的一維向量,使其能夠作為LSTM的輸入。同時(shí)為避免直接輸入LSTM的數(shù)據(jù)過大,還應(yīng)在CNN與LSTM之間加入一個(gè)神經(jīng)元數(shù)為2048的全連接層以減小LSTM輸入的數(shù)據(jù)量。然后使用Keras中Time Distributed層為視頻序列中每個(gè)CNN網(wǎng)絡(luò)輸出連接一個(gè)LSTM,整個(gè)模型輸出為10個(gè)神經(jīng)元的全連接層,全連接層的激活函數(shù)則采取適用于多分類問題的softmax函數(shù)。

        在CNN+Bi-LSTM實(shí)驗(yàn)中,僅將LSTM替換為Bi-LSTM,其余實(shí)驗(yàn)設(shè)置與第二組實(shí)驗(yàn)設(shè)置一致。

        2.3實(shí)驗(yàn)結(jié)果

        本文選取識(shí)別準(zhǔn)確率作為評(píng)價(jià)指標(biāo),識(shí)別準(zhǔn)確率定義如下:

        表1和表2分別展示了3種模型在NUMBER DA7AS-ET和PHRACE DATASET數(shù)據(jù)集上的識(shí)別準(zhǔn)確率。從表中可以看出,采用CNN+LSTM方法比采用18個(gè)唇部特征點(diǎn)+LSTM方法的單詞識(shí)別準(zhǔn)確率提高了5.6%,短語識(shí)別準(zhǔn)確率提高了6.1%。采用CNN+Bi-LSTM方法比采用CNN+LSTM方法在單詞識(shí)別準(zhǔn)確率和短語識(shí)別準(zhǔn)確率分別提高了2.5%和2.9%。采用CNN識(shí)別特征信息時(shí)無需考慮特征對(duì)象復(fù)雜多變的紋理特征,比采用傳統(tǒng)的特征點(diǎn)提取特征信息容錯(cuò)率更高。同時(shí),Bi-LSTM考慮了未來信息對(duì)于當(dāng)前信息的影響,對(duì)于唇語識(shí)別準(zhǔn)確率提升是切實(shí)有效的。實(shí)驗(yàn)結(jié)果表明,CNN和Bi-LSTM相結(jié)合的方法識(shí)別準(zhǔn)確率最高。

        3結(jié)語

        通過對(duì)現(xiàn)有深度學(xué)習(xí)技術(shù)和傳統(tǒng)唇語識(shí)別技術(shù)研究,發(fā)現(xiàn)傳統(tǒng)唇語識(shí)別方法存在以下問題:①唇部特征提取時(shí)用特征點(diǎn)替代唇部特征不能很好地體現(xiàn)唇部特征;②在時(shí)序編碼時(shí)LSTM并未捕獲未來信息對(duì)當(dāng)前信息的影響。針對(duì)以上問題,本文提出了一種基于CNN和Bi-LSTM相結(jié)合的唇語識(shí)別方法,通過CNN有效地學(xué)習(xí)唇部特征,通過Bi-LSTM捕獲上下文信息。實(shí)驗(yàn)結(jié)果表明,CNN和Bi-LSTM相結(jié)合的唇語識(shí)別方法,對(duì)于提高唇語識(shí)別準(zhǔn)確率作用明顯。本實(shí)驗(yàn)還有待完善的地方,如訓(xùn)練數(shù)據(jù)不夠、語料數(shù)據(jù)集僅包含數(shù)字和漢語短語等等,后期將針對(duì)以上問題進(jìn)一步改進(jìn)。

        猜你喜歡
        卷積神經(jīng)網(wǎng)絡(luò)深度學(xué)習(xí)
        基于卷積神經(jīng)網(wǎng)絡(luò)溫室智能大棚監(jiān)控系統(tǒng)的研究
        基于深度卷積神經(jīng)網(wǎng)絡(luò)的物體識(shí)別算法
        有體驗(yàn)的學(xué)習(xí)才是有意義的學(xué)習(xí)
        電子商務(wù)中基于深度學(xué)習(xí)的虛假交易識(shí)別研究
        MOOC與翻轉(zhuǎn)課堂融合的深度學(xué)習(xí)場(chǎng)域建構(gòu)
        大數(shù)據(jù)技術(shù)在反恐怖主義中的應(yīng)用展望
        深度學(xué)習(xí)算法應(yīng)用于巖石圖像處理的可行性研究
        基于深度卷積網(wǎng)絡(luò)的人臉年齡分析算法與實(shí)現(xiàn)
        軟件工程(2016年8期)2016-10-25 15:47:34
        基于卷積神經(jīng)網(wǎng)絡(luò)的樹葉識(shí)別的算法的研究
        亚洲国产一区二区三区,| 久久精品国产精品青草| 国产亚洲2021成人乱码| 拍摄av现场失控高潮数次| 日韩一二三四精品免费| 女同同成片av免费观看| 一区二区三区午夜视频在线| 美女内射毛片在线看免费人动物| 成人a级视频在线观看| 动漫在线无码一区| 国产三级精品三级在线观看粤语| 日本韩国亚洲三级在线| 一本大道av伊人久久综合| 欧美人和黑人牲交网站上线| 国产精品原创巨作av无遮 | 亚洲精彩视频一区二区| 日本本土精品午夜视频| 97在线视频人妻无码| 全球中文成人在线| 亚洲 日韩 在线精品| 白色橄榄树在线阅读免费| 亚洲男人综合久久综合天堂| 特黄大片又粗又大又暴| 国产精品成人一区二区三区| 亚洲国产精品综合久久20| 精品国产av一区二区三四区| 337p日本欧洲亚洲大胆色噜噜 | 亚洲黄色av一区二区三区| 强开少妇嫩苞又嫩又紧九色| 亚洲旡码a∨一区二区三区| 无码国产精品色午夜| 99麻豆久久精品一区二区| 亚洲欧洲日产国码av系列天堂 | 狠狠久久亚洲欧美专区| 国产在线精品亚洲视频在线| 青青草激情视频在线播放| 曰本女人与公拘交酡| 国产白嫩美女在线观看| 亚洲国产精品免费一区| 国产亚洲91精品色在线| 国99久9在线 | 免费|