亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于人臉多模態(tài)的視頻分類(lèi)算法的設(shè)計(jì)與實(shí)現(xiàn)

        2018-12-20 07:54:58李丹錦
        電子設(shè)計(jì)工程 2018年24期
        關(guān)鍵詞:模態(tài)情感模型

        李丹錦

        (北京工業(yè)大學(xué)信息學(xué)部,北京100000)

        在圖像識(shí)別領(lǐng)域中,人臉識(shí)別是主流的研究方向,從傳統(tǒng)圖像處理的人臉檢測(cè)和人臉邊緣特征提取,VGG-Face實(shí)現(xiàn)人臉識(shí)別的高維特征提取,以及近年國(guó)內(nèi)seetaFace算法的提出,都標(biāo)志著人臉識(shí)別領(lǐng)域算法的突飛猛進(jìn),廣義的人臉識(shí)別主要包括四大人臉技術(shù),分別為人臉檢測(cè)、人臉對(duì)齊、人臉驗(yàn)證和狹義的人臉識(shí)別,分別實(shí)現(xiàn)了在自然場(chǎng)景中對(duì)人臉處理的各個(gè)流程,其中人臉識(shí)別的延伸領(lǐng)域也有了很大發(fā)展,如人的性別、年齡、表情等特征的識(shí)別,本文主要實(shí)現(xiàn)了人臉檢測(cè)、人臉對(duì)齊、人臉多模態(tài)識(shí)別的算法和相關(guān)的改進(jìn),并將其與視頻分類(lèi)的算法相結(jié)合,實(shí)現(xiàn)在視頻領(lǐng)域的智能化應(yīng)用,為未來(lái)做視頻分類(lèi)提供思路、鋪墊基礎(chǔ)。

        1 概述

        本文主要具體針對(duì)人臉的表情識(shí)別進(jìn)行研究,對(duì)基于視頻片段的表情識(shí)別做出改進(jìn),以期提高基準(zhǔn)算法的識(shí)別準(zhǔn)確率和實(shí)時(shí)性。得出人臉多模態(tài)的分類(lèi)標(biāo)簽后,繼續(xù)研究視頻關(guān)鍵片段的選取,確定一段短視頻的數(shù)個(gè)關(guān)鍵序列,針對(duì)這些序列做多模態(tài)識(shí)別,對(duì)每個(gè)序列保留分類(lèi)相似度前二的兩個(gè)標(biāo)簽,隨后利用這些關(guān)鍵序列的情感標(biāo)簽做數(shù)據(jù)分析,得到視頻的情感分類(lèi)標(biāo)簽。算法的整體流程圖如圖1所示:

        2 自然場(chǎng)景的人臉多模態(tài)識(shí)別

        圖1 算法基本流程

        人臉多模態(tài)識(shí)別文中主要指人臉面部多表情識(shí)別,本文定義的表情種類(lèi)有7種,分別為Angry、Disgust、Fear、Happy、Neutral、Sad、Surprise,本課題基于視頻片段做研究,在表情識(shí)別的流程中主要包括人臉檢測(cè)、人臉矯正(對(duì)齊)、人臉多模態(tài)識(shí)別三部分工作。本文在數(shù)據(jù)集AFEW上做最終訓(xùn)練,該數(shù)據(jù)集主要截取于電影中的經(jīng)典場(chǎng)景,需要處理的原始數(shù)據(jù)是自然場(chǎng)景下的圖像數(shù)據(jù),而非規(guī)格化之后的標(biāo)準(zhǔn)數(shù)據(jù),在算法處理上會(huì)有一些不同。

        2.1 人臉檢測(cè)及人臉矯正

        首先對(duì)于人臉檢測(cè)算法,并非本文重點(diǎn)研究?jī)?nèi)容,而且目前人臉檢測(cè)算法趨于成熟,故而直接采用seetaFace實(shí)現(xiàn)人臉檢測(cè)功能。

        實(shí)現(xiàn)人臉檢測(cè)后由于數(shù)據(jù)集是自然場(chǎng)景人臉數(shù)據(jù),故而需要得到人臉矯正后的正臉圖像才能用于人臉的表情識(shí)別的算法訓(xùn)練,矯正人臉首先到得到人臉的特征點(diǎn)或三維偏轉(zhuǎn)角度,本文做人臉對(duì)齊的數(shù)據(jù)集同時(shí)標(biāo)注了人臉68個(gè)特征點(diǎn)和基于正方位的三維偏轉(zhuǎn)角,故設(shè)計(jì)卷積網(wǎng)絡(luò)直接回歸得到人臉的三維偏轉(zhuǎn)角。模型上借鑒VGG-Face淺層網(wǎng)絡(luò)的特點(diǎn),設(shè)計(jì)5層卷積的簡(jiǎn)單模型。

        模型首先接收124×124大小的灰度圖像并標(biāo)記人臉的偏轉(zhuǎn)角度為網(wǎng)絡(luò)的輸入,隨后通過(guò)卷積核較大(size分別為7和5)的兩層網(wǎng)絡(luò)將圖像快速收縮,并提取低維邊緣特征,同時(shí)在第一層網(wǎng)路后將其結(jié)果歸一化,隨后連接三層小卷積核(size為3)網(wǎng)絡(luò)進(jìn)一步細(xì)化人臉邊緣特征,最后連接兩層全連接層,做回歸函數(shù)得到結(jié)果序列。模型結(jié)構(gòu)如圖2所示。

        2.2 人臉多模態(tài)的識(shí)別

        基于視頻的人臉多模態(tài)識(shí)別的baseline算法為VGG+LSTM算法,基本思想為通過(guò)VGG模型提取特征,繼而采用LSTM對(duì)視頻片段做加強(qiáng)訓(xùn)練。

        C3D模型主要改變了傳統(tǒng)2D卷積的特點(diǎn),創(chuàng)新性的引入了3D卷積的方式,2D卷積在映射特征的時(shí)候只能在單層featuremap上提取,而3D卷積網(wǎng)絡(luò)可以在相鄰的featuremap上映射特征。

        圖2 人臉對(duì)齊卷積模型

        圖3 多模態(tài)baseline模型

        HoloNet模型算法則是采用另外一種改進(jìn)方式進(jìn)行算法的改進(jìn),即引入殘差的思想。整個(gè)模型體現(xiàn)了殘差設(shè)計(jì)的思想,在將提取的特征圖和上層樣本同時(shí)作為下一層的輸入,以減少模型提取過(guò)程中特征的損失提高識(shí)別的準(zhǔn)確率。

        2.3 人臉多模態(tài)的算法改進(jìn)

        在研究經(jīng)典多模態(tài)算法的基礎(chǔ),借鑒其中經(jīng)典思想,本文提出了一種基于VGG模型改進(jìn)的新的模型結(jié)構(gòu),用于本文人臉多模態(tài)識(shí)別的應(yīng)用。

        首先在預(yù)處理階段采用灰度圖、meanLBP圖、basicLBP圖組合而成的三通道圖像數(shù)據(jù)代替?zhèn)鹘y(tǒng)的RGB 3色圖像,而適當(dāng)減少VGG網(wǎng)絡(luò)淺層網(wǎng)絡(luò),保留其淺層網(wǎng)絡(luò)收斂圖像的作用,并適當(dāng)弱化淺層網(wǎng)絡(luò)邊緣特征提取的作用。LBP算法是一種傳統(tǒng)的人臉邊緣特征提取的算法,以此方式可以在預(yù)處理階段先對(duì)人臉邊緣特征做針對(duì)化的簡(jiǎn)單處理,以提高卷積網(wǎng)路運(yùn)算的速度和特征提取的這針對(duì)性,有效提高模型準(zhǔn)確率。

        其次,對(duì)于VGGFace算法而言,高層網(wǎng)絡(luò)卷積核主要實(shí)現(xiàn)的是高維特征的提取,在此提出的模型上的改進(jìn)思路為,將VGG模型高層網(wǎng)絡(luò)卷積單元適當(dāng)替換為殘差網(wǎng)絡(luò)單元。其中殘差網(wǎng)絡(luò)的模型特點(diǎn)是將原始數(shù)據(jù)和經(jīng)過(guò)卷積映射處理后的數(shù)據(jù)一同作為下一層卷積的輸入。模型圖為圖5和6。

        以此適當(dāng)保留卷積映射之前特征,有效提高的模型的準(zhǔn)確率。圖4為處理結(jié)果:

        圖4 LBP處理后的樣本

        3 視頻關(guān)鍵場(chǎng)景的定位

        在對(duì)場(chǎng)景進(jìn)行多模態(tài)識(shí)別之前,我們需要對(duì)短視頻截取關(guān)鍵場(chǎng)景,本文定義的關(guān)鍵場(chǎng)景是有人物,且?guī)逦瑫r(shí)可以代表一個(gè)長(zhǎng)場(chǎng)景的一段序列,這段序列一般由十幾到數(shù)十幀組成,需要設(shè)計(jì)算法用于實(shí)現(xiàn)對(duì)一個(gè)視頻進(jìn)行關(guān)鍵場(chǎng)景的選取。

        圖5 殘差網(wǎng)絡(luò)單元

        圖6 表情識(shí)別卷積模型

        首先本文采用關(guān)鍵幀定位算法,即對(duì)一個(gè)轉(zhuǎn)場(chǎng)鏡頭的視頻序列確定關(guān)鍵幀,選取關(guān)鍵幀前后X幀(不超過(guò)該場(chǎng)景的始、終位置)組成關(guān)鍵場(chǎng)景,在此規(guī)定一個(gè)轉(zhuǎn)場(chǎng)鏡頭有且僅有一個(gè)關(guān)鍵幀。具體算法描述為:

        第一步,對(duì)視頻進(jìn)行場(chǎng)景切割。將待分類(lèi)視頻分割為數(shù)個(gè)場(chǎng)景片段,即根據(jù)檢測(cè)到的轉(zhuǎn)場(chǎng)處切割視頻,得到數(shù)個(gè)場(chǎng)景視頻,此處場(chǎng)景轉(zhuǎn)換檢測(cè)算法采用dHash算法。

        第二步,確定場(chǎng)景關(guān)鍵幀。關(guān)鍵幀確定算法采用圖像熵最大化。

        第三步,選取關(guān)鍵幀前X幀(臨界值為場(chǎng)景起始)和后X幀(臨界值為場(chǎng)景結(jié)束)組合為截取的該場(chǎng)景的關(guān)鍵場(chǎng)景。

        第四步,對(duì)于每個(gè)場(chǎng)景都采用上述算法,得到一個(gè)視頻的若開(kāi)關(guān)鍵場(chǎng)景。

        其中圖像熵的定義為:對(duì)一副圖像來(lái)說(shuō),直方圖可被認(rèn)為是一種概率密度函數(shù),設(shè)hk表示整幅圖像中像素值為k的像素所占的比例,考慮到當(dāng)hk=0的實(shí)際情況,加上約束條件:當(dāng)hk=0,則loghk=0。因此,圖像熵表示為:

        其中將圖像由rgb格式轉(zhuǎn)化為hsv:格式,h、s、v 3個(gè)分量加權(quán)系數(shù)為0.9、0.3、0.1,得圖像綜合熵為:

        圖像熵最大化關(guān)鍵幀定位即為計(jì)算一段幀序列中每幀圖像的熵,選取最大值作為這段序列的關(guān)鍵幀。

        4 數(shù)據(jù)分析和視頻分類(lèi)

        本文首先構(gòu)建一個(gè)情感與視頻類(lèi)別的簡(jiǎn)單三分類(lèi)映射,以驗(yàn)證上述算法的可行性。其中為各個(gè)情感設(shè)置標(biāo)志位,其中相鄰情感有一定的相似度和漸變性,將 sad、fear、angry歸類(lèi)為消極情感,將 disgust、surprise歸類(lèi)為介于消極情感和積極情感之間的過(guò)渡情感,將neutral、happy歸類(lèi)為積極情感。

        在上述表情識(shí)別結(jié)果中,每個(gè)標(biāo)簽保留可能性前兩位的標(biāo)簽數(shù)據(jù)。

        1)如果t1與t2同屬一個(gè)大分類(lèi),則直接選取t1作為其最終標(biāo)簽。

        2)如果t1與t2分屬兩個(gè)不同的分類(lèi)時(shí),該標(biāo)簽為

        一段視頻分為了n個(gè)場(chǎng)景,每個(gè)場(chǎng)景都有一個(gè)關(guān)鍵序列,上述實(shí)現(xiàn)了每個(gè)場(chǎng)景的標(biāo)簽選取,每個(gè)場(chǎng)景的權(quán)重為Wn,Wn由該場(chǎng)景占總視頻的比重確定。最終視頻標(biāo)簽:

        5 結(jié)果及分析

        人臉表情識(shí)別整個(gè)算法最終在AFEW公開(kāi)數(shù)據(jù)集上得出53.8%的準(zhǔn)確率,高于baseline的準(zhǔn)確率(49.3%),仍有待繼續(xù)優(yōu)化卷積模型。

        對(duì)于整個(gè)視頻分類(lèi)的算法效果而言,整體可以實(shí)現(xiàn)對(duì)視頻大致歸類(lèi)的效果,部分實(shí)驗(yàn)結(jié)果如表1所示。

        表1 實(shí)驗(yàn)結(jié)果表

        結(jié)果可見(jiàn)對(duì)于消極情感的準(zhǔn)確率最高,而待測(cè)視頻最易被誤識(shí)別為過(guò)渡情感。

        6 結(jié)論

        通過(guò)上述人臉多模態(tài)和視頻解析分類(lèi)算法,將人臉識(shí)別與視頻處理和分類(lèi)綜合應(yīng)用相結(jié)合,得到了理想的實(shí)驗(yàn)效果。通過(guò)實(shí)驗(yàn)也得出人臉多模態(tài)技術(shù)能夠用于對(duì)視頻進(jìn)行情感層面的分類(lèi)。

        猜你喜歡
        模態(tài)情感模型
        一半模型
        如何在情感中自我成長(zhǎng),保持獨(dú)立
        重要模型『一線三等角』
        重尾非線性自回歸模型自加權(quán)M-估計(jì)的漸近分布
        失落的情感
        北極光(2019年12期)2020-01-18 06:22:10
        情感
        如何在情感中自我成長(zhǎng),保持獨(dú)立
        3D打印中的模型分割與打包
        國(guó)內(nèi)多模態(tài)教學(xué)研究回顧與展望
        基于HHT和Prony算法的電力系統(tǒng)低頻振蕩模態(tài)識(shí)別
        91色婷婷成人精品亚洲| 一边吃奶一边摸做爽视频| 国模无码人体一区二区| 无码av免费精品一区二区三区| 国产盗摄一区二区三区av| 久久综合噜噜激激的五月天| 日本牲交大片免费观看| 国产亚洲精品成人无码精品网站| 久久国产精品av在线观看| 国产亚洲精品av久久| 激情影院内射美女| 伊人久久大香线蕉在观看| 久久亚洲春色中文字幕久久久综合| 国产精品一区二区三区专区| 国产精品免费看久久久8| 国产福利小视频在线观看| 97久久国产精品成人观看| 揄拍成人国产精品视频| 99久久精品费精品国产一区二区| 国产自产av一区二区三区性色| 国产在线观看一区二区三区av| 免费观看成人欧美www色| 国产午夜视频在线观看| 中文字幕人妻丝袜成熟乱| 国产亚洲精品在线视频| 亚洲av无码专区在线播放| 久久青草免费视频| 中文字幕人妻久久一区二区三区 | 亚洲国产精品成人精品无码区在线| 亚洲av无码日韩精品影片| 污污污国产免费网站| 麻婆视频在线免费观看| 久久久久亚洲av成人网人人网站| 婷婷丁香91| 91麻豆精品久久久影院| 日日拍夜夜嗷嗷叫国产| 日本精品一区二区三区在线视频| 日本在线一区二区三区观看| 91九色老熟女免费资源| 成av人片一区二区三区久久| 两个人免费视频大全毛片|