亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

基于人臉多模態(tài)的視頻分類(lèi)算法的設(shè)計(jì)與實(shí)現(xiàn)

2018-12-20 07:54:58李丹錦

電子設(shè)計(jì)工程 2018年24期

李丹錦

（北京工業(yè)大學(xué)信息學(xué)部，北京100000）

在圖像識(shí)別領(lǐng)域中，人臉識(shí)別是主流的研究方向，從傳統(tǒng)圖像處理的人臉檢測(cè)和人臉邊緣特征提取，VGG-Face實(shí)現(xiàn)人臉識(shí)別的高維特征提取，以及近年國(guó)內(nèi)seetaFace算法的提出，都標(biāo)志著人臉識(shí)別領(lǐng)域算法的突飛猛進(jìn)，廣義的人臉識(shí)別主要包括四大人臉技術(shù)，分別為人臉檢測(cè)、人臉對(duì)齊、人臉驗(yàn)證和狹義的人臉識(shí)別，分別實(shí)現(xiàn)了在自然場(chǎng)景中對(duì)人臉處理的各個(gè)流程，其中人臉識(shí)別的延伸領(lǐng)域也有了很大發(fā)展，如人的性別、年齡、表情等特征的識(shí)別，本文主要實(shí)現(xiàn)了人臉檢測(cè)、人臉對(duì)齊、人臉多模態(tài)識(shí)別的算法和相關(guān)的改進(jìn)，并將其與視頻分類(lèi)的算法相結(jié)合，實(shí)現(xiàn)在視頻領(lǐng)域的智能化應(yīng)用，為未來(lái)做視頻分類(lèi)提供思路、鋪墊基礎(chǔ)。

1 概述

本文主要具體針對(duì)人臉的表情識(shí)別進(jìn)行研究，對(duì)基于視頻片段的表情識(shí)別做出改進(jìn)，以期提高基準(zhǔn)算法的識(shí)別準(zhǔn)確率和實(shí)時(shí)性。得出人臉多模態(tài)的分類(lèi)標(biāo)簽后，繼續(xù)研究視頻關(guān)鍵片段的選取，確定一段短視頻的數(shù)個(gè)關(guān)鍵序列，針對(duì)這些序列做多模態(tài)識(shí)別，對(duì)每個(gè)序列保留分類(lèi)相似度前二的兩個(gè)標(biāo)簽，隨后利用這些關(guān)鍵序列的情感標(biāo)簽做數(shù)據(jù)分析，得到視頻的情感分類(lèi)標(biāo)簽。算法的整體流程圖如圖1所示：

2 自然場(chǎng)景的人臉多模態(tài)識(shí)別

圖1 算法基本流程

人臉多模態(tài)識(shí)別文中主要指人臉面部多表情識(shí)別，本文定義的表情種類(lèi)有7種，分別為Angry、Disgust、Fear、Happy、Neutral、Sad、Surprise，本課題基于視頻片段做研究，在表情識(shí)別的流程中主要包括人臉檢測(cè)、人臉矯正（對(duì)齊）、人臉多模態(tài)識(shí)別三部分工作。本文在數(shù)據(jù)集AFEW上做最終訓(xùn)練，該數(shù)據(jù)集主要截取于電影中的經(jīng)典場(chǎng)景，需要處理的原始數(shù)據(jù)是自然場(chǎng)景下的圖像數(shù)據(jù)，而非規(guī)格化之后的標(biāo)準(zhǔn)數(shù)據(jù)，在算法處理上會(huì)有一些不同。

2.1 人臉檢測(cè)及人臉矯正

首先對(duì)于人臉檢測(cè)算法，并非本文重點(diǎn)研究?jī)?nèi)容，而且目前人臉檢測(cè)算法趨于成熟，故而直接采用seetaFace實(shí)現(xiàn)人臉檢測(cè)功能。

實(shí)現(xiàn)人臉檢測(cè)后由于數(shù)據(jù)集是自然場(chǎng)景人臉數(shù)據(jù)，故而需要得到人臉矯正后的正臉圖像才能用于人臉的表情識(shí)別的算法訓(xùn)練，矯正人臉首先到得到人臉的特征點(diǎn)或三維偏轉(zhuǎn)角度，本文做人臉對(duì)齊的數(shù)據(jù)集同時(shí)標(biāo)注了人臉68個(gè)特征點(diǎn)和基于正方位的三維偏轉(zhuǎn)角，故設(shè)計(jì)卷積網(wǎng)絡(luò)直接回歸得到人臉的三維偏轉(zhuǎn)角。模型上借鑒VGG-Face淺層網(wǎng)絡(luò)的特點(diǎn)，設(shè)計(jì)5層卷積的簡(jiǎn)單模型。

模型首先接收124×124大小的灰度圖像并標(biāo)記人臉的偏轉(zhuǎn)角度為網(wǎng)絡(luò)的輸入，隨后通過(guò)卷積核較大（size分別為7和5）的兩層網(wǎng)絡(luò)將圖像快速收縮，并提取低維邊緣特征，同時(shí)在第一層網(wǎng)路后將其結(jié)果歸一化，隨后連接三層小卷積核（size為3）網(wǎng)絡(luò)進(jìn)一步細(xì)化人臉邊緣特征，最后連接兩層全連接層，做回歸函數(shù)得到結(jié)果序列。模型結(jié)構(gòu)如圖2所示。

2.2 人臉多模態(tài)的識(shí)別

基于視頻的人臉多模態(tài)識(shí)別的baseline算法為VGG+LSTM算法，基本思想為通過(guò)VGG模型提取特征，繼而采用LSTM對(duì)視頻片段做加強(qiáng)訓(xùn)練。

C3D模型主要改變了傳統(tǒng)2D卷積的特點(diǎn)，創(chuàng)新性的引入了3D卷積的方式，2D卷積在映射特征的時(shí)候只能在單層featuremap上提取，而3D卷積網(wǎng)絡(luò)可以在相鄰的featuremap上映射特征。

圖2 人臉對(duì)齊卷積模型

圖3 多模態(tài)baseline模型

HoloNet模型算法則是采用另外一種改進(jìn)方式進(jìn)行算法的改進(jìn)，即引入殘差的思想。整個(gè)模型體現(xiàn)了殘差設(shè)計(jì)的思想，在將提取的特征圖和上層樣本同時(shí)作為下一層的輸入，以減少模型提取過(guò)程中特征的損失提高識(shí)別的準(zhǔn)確率。

2.3 人臉多模態(tài)的算法改進(jìn)

在研究經(jīng)典多模態(tài)算法的基礎(chǔ)，借鑒其中經(jīng)典思想，本文提出了一種基于VGG模型改進(jìn)的新的模型結(jié)構(gòu)，用于本文人臉多模態(tài)識(shí)別的應(yīng)用。

首先在預(yù)處理階段采用灰度圖、meanLBP圖、basicLBP圖組合而成的三通道圖像數(shù)據(jù)代替?zhèn)鹘y(tǒng)的RGB 3色圖像，而適當(dāng)減少VGG網(wǎng)絡(luò)淺層網(wǎng)絡(luò)，保留其淺層網(wǎng)絡(luò)收斂圖像的作用，并適當(dāng)弱化淺層網(wǎng)絡(luò)邊緣特征提取的作用。LBP算法是一種傳統(tǒng)的人臉邊緣特征提取的算法，以此方式可以在預(yù)處理階段先對(duì)人臉邊緣特征做針對(duì)化的簡(jiǎn)單處理，以提高卷積網(wǎng)路運(yùn)算的速度和特征提取的這針對(duì)性，有效提高模型準(zhǔn)確率。

其次，對(duì)于VGGFace算法而言，高層網(wǎng)絡(luò)卷積核主要實(shí)現(xiàn)的是高維特征的提取，在此提出的模型上的改進(jìn)思路為，將VGG模型高層網(wǎng)絡(luò)卷積單元適當(dāng)替換為殘差網(wǎng)絡(luò)單元。其中殘差網(wǎng)絡(luò)的模型特點(diǎn)是將原始數(shù)據(jù)和經(jīng)過(guò)卷積映射處理后的數(shù)據(jù)一同作為下一層卷積的輸入。模型圖為圖5和6。

以此適當(dāng)保留卷積映射之前特征，有效提高的模型的準(zhǔn)確率。圖4為處理結(jié)果：

圖4 LBP處理后的樣本

3 視頻關(guān)鍵場(chǎng)景的定位

在對(duì)場(chǎng)景進(jìn)行多模態(tài)識(shí)別之前，我們需要對(duì)短視頻截取關(guān)鍵場(chǎng)景，本文定義的關(guān)鍵場(chǎng)景是有人物，且?guī)逦瑫r(shí)可以代表一個(gè)長(zhǎng)場(chǎng)景的一段序列，這段序列一般由十幾到數(shù)十幀組成，需要設(shè)計(jì)算法用于實(shí)現(xiàn)對(duì)一個(gè)視頻進(jìn)行關(guān)鍵場(chǎng)景的選取。

圖5 殘差網(wǎng)絡(luò)單元

圖6 表情識(shí)別卷積模型

首先本文采用關(guān)鍵幀定位算法，即對(duì)一個(gè)轉(zhuǎn)場(chǎng)鏡頭的視頻序列確定關(guān)鍵幀，選取關(guān)鍵幀前后X幀（不超過(guò)該場(chǎng)景的始、終位置）組成關(guān)鍵場(chǎng)景，在此規(guī)定一個(gè)轉(zhuǎn)場(chǎng)鏡頭有且僅有一個(gè)關(guān)鍵幀。具體算法描述為：

第一步，對(duì)視頻進(jìn)行場(chǎng)景切割。將待分類(lèi)視頻分割為數(shù)個(gè)場(chǎng)景片段，即根據(jù)檢測(cè)到的轉(zhuǎn)場(chǎng)處切割視頻，得到數(shù)個(gè)場(chǎng)景視頻，此處場(chǎng)景轉(zhuǎn)換檢測(cè)算法采用dHash算法。

第二步，確定場(chǎng)景關(guān)鍵幀。關(guān)鍵幀確定算法采用圖像熵最大化。

第三步，選取關(guān)鍵幀前X幀（臨界值為場(chǎng)景起始）和后X幀（臨界值為場(chǎng)景結(jié)束）組合為截取的該場(chǎng)景的關(guān)鍵場(chǎng)景。

第四步，對(duì)于每個(gè)場(chǎng)景都采用上述算法，得到一個(gè)視頻的若開(kāi)關(guān)鍵場(chǎng)景。

其中圖像熵的定義為：對(duì)一副圖像來(lái)說(shuō)，直方圖可被認(rèn)為是一種概率密度函數(shù)，設(shè)hk表示整幅圖像中像素值為k的像素所占的比例，考慮到當(dāng)hk=0的實(shí)際情況，加上約束條件：當(dāng)hk=0，則loghk=0。因此，圖像熵表示為：

其中將圖像由rgb格式轉(zhuǎn)化為hsv：格式，h、s、v 3個(gè)分量加權(quán)系數(shù)為0.9、0.3、0.1，得圖像綜合熵為：

圖像熵最大化關(guān)鍵幀定位即為計(jì)算一段幀序列中每幀圖像的熵，選取最大值作為這段序列的關(guān)鍵幀。

4 數(shù)據(jù)分析和視頻分類(lèi)

本文首先構(gòu)建一個(gè)情感與視頻類(lèi)別的簡(jiǎn)單三分類(lèi)映射，以驗(yàn)證上述算法的可行性。其中為各個(gè)情感設(shè)置標(biāo)志位，其中相鄰情感有一定的相似度和漸變性，將 sad、fear、angry歸類(lèi)為消極情感，將 disgust、surprise歸類(lèi)為介于消極情感和積極情感之間的過(guò)渡情感，將neutral、happy歸類(lèi)為積極情感。

在上述表情識(shí)別結(jié)果中，每個(gè)標(biāo)簽保留可能性前兩位的標(biāo)簽數(shù)據(jù)。

1）如果t1與t2同屬一個(gè)大分類(lèi)，則直接選取t1作為其最終標(biāo)簽。

2）如果t1與t2分屬兩個(gè)不同的分類(lèi)時(shí)，該標(biāo)簽為

一段視頻分為了n個(gè)場(chǎng)景，每個(gè)場(chǎng)景都有一個(gè)關(guān)鍵序列，上述實(shí)現(xiàn)了每個(gè)場(chǎng)景的標(biāo)簽選取，每個(gè)場(chǎng)景的權(quán)重為Wn，Wn由該場(chǎng)景占總視頻的比重確定。最終視頻標(biāo)簽：

5 結(jié)果及分析

人臉表情識(shí)別整個(gè)算法最終在AFEW公開(kāi)數(shù)據(jù)集上得出53.8%的準(zhǔn)確率，高于baseline的準(zhǔn)確率（49.3%），仍有待繼續(xù)優(yōu)化卷積模型。

對(duì)于整個(gè)視頻分類(lèi)的算法效果而言，整體可以實(shí)現(xiàn)對(duì)視頻大致歸類(lèi)的效果，部分實(shí)驗(yàn)結(jié)果如表1所示。

表1 實(shí)驗(yàn)結(jié)果表

結(jié)果可見(jiàn)對(duì)于消極情感的準(zhǔn)確率最高，而待測(cè)視頻最易被誤識(shí)別為過(guò)渡情感。

6 結(jié)論

通過(guò)上述人臉多模態(tài)和視頻解析分類(lèi)算法，將人臉識(shí)別與視頻處理和分類(lèi)綜合應(yīng)用相結(jié)合，得到了理想的實(shí)驗(yàn)效果。通過(guò)實(shí)驗(yàn)也得出人臉多模態(tài)技術(shù)能夠用于對(duì)視頻進(jìn)行情感層面的分類(lèi)。