謝 冬,孟凡榮,賀恒桃,閆秋艷
中國(guó)礦業(yè)大學(xué) 計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院,江蘇 徐州 221116
近年來(lái),人工智能(artificial intelligence,AI)飛速發(fā)展,計(jì)算機(jī)視覺(jué)(computer vision,CV)作為其重要分支,正在不斷發(fā)展的計(jì)算機(jī)視覺(jué)技術(shù)正逐漸成為人們的認(rèn)知世界過(guò)程中的主體應(yīng)用技術(shù)[1]。在以人類為研究對(duì)象的計(jì)算機(jī)視覺(jué)研究領(lǐng)域中發(fā)現(xiàn),人的頭部包含豐富的表達(dá)信息,哈佛大學(xué)的Ambaby教授[2]對(duì)授課過(guò)程做過(guò)一個(gè)實(shí)驗(yàn),得出結(jié)論:教師在課堂環(huán)境表達(dá)自己思想的過(guò)程中,非語(yǔ)言表達(dá)方式和語(yǔ)言表達(dá)方式同樣重要,非語(yǔ)言表達(dá)方式可能有著更加明顯的作用。這一結(jié)論對(duì)于授課的信息接收者——學(xué)生也同樣適用,學(xué)生頭部的姿態(tài)蘊(yùn)含著豐富的信息,跟他的情緒、動(dòng)作有著強(qiáng)大的潛在聯(lián)系?;陬^部特征的相關(guān)計(jì)算機(jī)視覺(jué)問(wèn)題,目前成為了科研工作者的研究熱點(diǎn),并已經(jīng)有落地實(shí)施的項(xiàng)目,比如在汽車安全駕駛、人機(jī)交互、刷臉支付等領(lǐng)域。
近年來(lái),在頭部行為識(shí)別領(lǐng)域,肌音信號(hào)(Mechanomyography,MMG)[3]——反映肌肉力學(xué)特性的一種肌肉收縮時(shí)產(chǎn)生的低頻信號(hào)——使頭部行為識(shí)別技術(shù)取得了顯著進(jìn)步,但是存在一些不適用性,比如課堂環(huán)境下為每個(gè)學(xué)生配置肌音信號(hào)傳感器存在成本高、干擾教學(xué)秩序的問(wèn)題。因此,如何從隨堂采集的視頻數(shù)據(jù)中直接實(shí)現(xiàn)學(xué)生頭部行為的識(shí)別,并且克服傳統(tǒng)課堂中光照、陰影等環(huán)境因素對(duì)頭部行為識(shí)別造成的影響,是實(shí)現(xiàn)自動(dòng)化評(píng)價(jià)教學(xué)質(zhì)量的關(guān)鍵。
傳統(tǒng)的頭部行為識(shí)別大多是作用在RGB圖像序列上,然而RGB圖像數(shù)據(jù)缺少深度信息,基于RGB人臉圖像提取的面部幾何特征極易受到光照、陰影等因素的干擾,影響頭部行為識(shí)別準(zhǔn)確率。隨著傳感技術(shù)的發(fā)展,深度傳感設(shè)備在市面上逐漸普及,例如市場(chǎng)流行的體感設(shè)備Kinect除了獲取彩色圖像還可以獲取深度圖像(DepthMap),深度圖中每個(gè)像素值都是傳感器距離物體的實(shí)際距離,通過(guò)深度圖可以準(zhǔn)確提取出物體關(guān)鍵點(diǎn)的空間3D數(shù)據(jù)。深度圖不僅包含空間信息而且抗干擾能力強(qiáng),可以解決RGB圖像數(shù)據(jù)易受光照、陰影等因素影響的問(wèn)題,受到越來(lái)越多研究人員的關(guān)注。
本文以計(jì)算機(jī)視覺(jué)技術(shù)為基礎(chǔ),以Kinect獲取的深度圖為數(shù)據(jù)對(duì)象,研究課堂環(huán)境下學(xué)生頭部行為的識(shí)別方法,從頭部行為深度圖中提取頭部行為的李群特征表示,提升課堂環(huán)境下學(xué)生頭部行為識(shí)別的準(zhǔn)確率,為后續(xù)分析課堂教學(xué)環(huán)境下學(xué)生的學(xué)習(xí)狀態(tài),評(píng)價(jià)教師的課堂教學(xué)效果奠定數(shù)據(jù)基礎(chǔ)。
目前,基于深度圖的頭部行為特征提取的方法主要分為兩大類,即從深度圖像中提取頭部姿態(tài)角特征以及提取深度和速度特征。胡習(xí)之等人[4-5]利用Kinect攝像頭進(jìn)行人臉識(shí)別的基礎(chǔ)上,計(jì)算得到頭部姿態(tài)角特征監(jiān)測(cè)駕駛員的駕駛狀態(tài),設(shè)定安全區(qū)域角度閾值。范子健等[6]通過(guò)Kinect設(shè)備獲取學(xué)習(xí)者頭部姿態(tài)坐標(biāo),計(jì)算得到頭部偏轉(zhuǎn)角度,當(dāng)坐標(biāo)大于閾值即判定為某一行為。胡占峰[7]借助Kinect傳感器獲取彩色圖像和深度圖像數(shù)據(jù),獲取人臉3D信息得到面部特征點(diǎn),分析鼻尖、眼睛的運(yùn)動(dòng)方向、運(yùn)動(dòng)距離和運(yùn)動(dòng)偏轉(zhuǎn)角度是否超過(guò)了規(guī)定的閾值,識(shí)別駕駛員行車途中左右轉(zhuǎn)頭或抬頭低頭不安全行為,將偏航角信息作為頭部行為識(shí)別的特征卻存在場(chǎng)景不適用性。Ohtsuka等人[8-9]提出利用深度傳感器識(shí)別頭部姿態(tài)運(yùn)動(dòng),實(shí)現(xiàn)非接觸式控制輪椅功能,作者將前傾姿態(tài)的變化分為四個(gè)階段,為每個(gè)階段設(shè)定頭部的深度信息的閾值范圍,生成控制輪椅的指令信號(hào),這種方式只能識(shí)別前傾動(dòng)作。Jindai等人[10]提出Kinect獲取頭部三維形狀和顏色圖像,利用AAM對(duì)面部跟蹤測(cè)量頭部節(jié)點(diǎn)計(jì)算點(diǎn)頭角速度,并將角速度作為頭部行為識(shí)別的特征。Patwardhan[11]的工作主要識(shí)別人體運(yùn)動(dòng),其中為了追蹤并識(shí)別頭部運(yùn)動(dòng),追蹤頭顱前后共12個(gè)特征點(diǎn)的坐標(biāo)、距離和與水平線的角度,最后將它們合并為一個(gè)特征向量,這種特征表示方式得到的特征維度過(guò)高。現(xiàn)有的特征提取方法特征維度過(guò)高且難以同時(shí)表達(dá)時(shí)間空間的信息特征,對(duì)于課堂環(huán)境下的頭部行為識(shí)別適用性偏低。
近年來(lái),空間幾何特征——李群[12-13]不再局限于數(shù)學(xué)領(lǐng)域的理論研究,這類連續(xù)變換群在計(jì)算機(jī)領(lǐng)域的應(yīng)用也開(kāi)始廣泛起來(lái)。李群既滿足群操作,又滿足流形[14-16]的性質(zhì)。人體各個(gè)部位的運(yùn)動(dòng)可認(rèn)為是剛體運(yùn)動(dòng),剛體(Rigid body)是力學(xué)中的一個(gè)抽象概念,是在任何情況下都不發(fā)生變形的物體,不論是否受力,剛體內(nèi)部任意兩點(diǎn)之間的距離總保持不變,因此,人體頭部可以簡(jiǎn)化成物理學(xué)意義上的剛體,其運(yùn)動(dòng)可以應(yīng)用剛體運(yùn)動(dòng)來(lái)表征。李群SE(3)和李代數(shù)se(3)間的轉(zhuǎn)換有對(duì)數(shù)映射形式logSE(3):SE(3)→se(3)和指數(shù)映射形式expSE(3):se(3)→SE(3)。反對(duì)稱矩陣(skew symmetric matrix)可以將三維向量和三維矩陣建立對(duì)應(yīng)關(guān)系,就將流形空間中的特征映射到歐式空間中進(jìn)行分類。為此,提出了一種適用于課堂環(huán)境的基于李群的特征表示方法。
引入深度信息獲取面部關(guān)鍵點(diǎn)坐標(biāo)并且將每個(gè)頭部動(dòng)作序列視為沿空間和時(shí)間兩個(gè)方向的變化序列,通過(guò)描述頭部行為在時(shí)空方向的變化提取頭部動(dòng)作序列的李群時(shí)空特征,使用SVM分類器對(duì)提取出的頭部李群特征進(jìn)行分類識(shí)別。
目前頭部行為識(shí)別領(lǐng)域尚未存在廣泛使用的深度數(shù)據(jù)集,雖然已經(jīng)存在從二維圖像提取三維坐標(biāo)的技術(shù),但是其效果仍然存在偏差。含有深度信息的深度圖能提供更準(zhǔn)確的信息來(lái)源,因此,本文利用OpenFace[17]技術(shù)提取面部關(guān)鍵點(diǎn)的三維坐標(biāo),共可得到67個(gè)面部關(guān)鍵點(diǎn)信息,但是對(duì)于面部67個(gè)關(guān)鍵點(diǎn),并非所有面部關(guān)鍵點(diǎn)對(duì)頭部行為識(shí)別都起到重要作用,為了減少數(shù)據(jù)冗余,從面部67個(gè)關(guān)鍵點(diǎn)中提取出5個(gè)關(guān)鍵點(diǎn)信息,其中,提取第39、42關(guān)鍵點(diǎn)表征面部上部分區(qū)域,提取第30關(guān)鍵點(diǎn)鼻尖表征面部中間區(qū)域,對(duì)于提取第48、54關(guān)鍵點(diǎn)嘴角表征面部下部分區(qū)域,具體關(guān)鍵點(diǎn)如圖1所示紅色區(qū)域表示。
圖1 OpenFace面部關(guān)鍵點(diǎn)Fig.1 Key facial points obtained by OpenFace
利用OpenFace得到對(duì)頭部行為識(shí)別具有顯著作用的面部關(guān)鍵點(diǎn)的三維數(shù)據(jù),并根據(jù)需要將獲得五個(gè)關(guān)鍵點(diǎn)的三維位置進(jìn)行統(tǒng)一格式處理。隨著類似Kinect深度傳感器在市場(chǎng)上的普及,提取面部三維坐標(biāo)相對(duì)容易,Kinect傳感器提供場(chǎng)景的三維深度數(shù)據(jù),對(duì)光照變化具有魯棒性,為提取面部三維信息提供了可靠的數(shù)據(jù)來(lái)源。對(duì)課堂數(shù)據(jù)集,本文用Kinect提取出人臉5個(gè)關(guān)鍵點(diǎn)部位,為表述方便將臉部關(guān)鍵點(diǎn)簡(jiǎn)稱關(guān)鍵點(diǎn),并且為能夠清楚描述本文提出的空間幾何特征明確了關(guān)鍵點(diǎn)之間的坐標(biāo)指向,以鼻子為中心指向其他關(guān)鍵點(diǎn),構(gòu)成臉部關(guān)鍵段簡(jiǎn)稱關(guān)鍵段,具體表示如圖2所示。
圖2 面部關(guān)鍵點(diǎn)及關(guān)鍵段Fig.2 Face critical points and segments
對(duì)于人臉關(guān)鍵點(diǎn)信息,用符號(hào)S=(V,E)表示,其中V=(v1,v2,v3,v4,v5)表示關(guān)鍵點(diǎn)集合,E=(e1,e2,e3,e4)表示關(guān)鍵段集合。為下文表述方便,記關(guān)鍵段en∈E,其中en1∈R3,en2∈R3,分別表示關(guān)鍵段en的起始點(diǎn)和終止點(diǎn),ln表示關(guān)鍵段長(zhǎng)度。
根據(jù)上述定義,可以將頭部動(dòng)作建模為流形空間的特征,即將頭部行為看作為一條曲線。以向右做擺頭動(dòng)作為例,如圖3所示,頭部動(dòng)作是由一幀幀的動(dòng)作序列構(gòu)成,當(dāng)前幀與下一幀之間都存在某種時(shí)空聯(lián)系,根據(jù)本文提出的李群表示模型將當(dāng)前的面部關(guān)鍵段與下一幀的面部關(guān)鍵段之間的關(guān)系以旋轉(zhuǎn)平移的方式表現(xiàn)出來(lái),這種表示方式既表示出空間關(guān)系又表示出時(shí)間聯(lián)系,頭部行為的完整動(dòng)作序列所對(duì)應(yīng)的李群時(shí)空特征序列就構(gòu)成了流形曲線,通過(guò)對(duì)李群SE(3)×…×SE(3)構(gòu)成的曲線分類即可完成頭部行為識(shí)別任務(wù)。
圖3 頭部行為的流形空間表示Fig.3 Manifold space representation of head motion
具體構(gòu)成方式以某一對(duì)面部關(guān)鍵段em和en為例,為了描述它們的相對(duì)幾何關(guān)系,用一個(gè)局部坐標(biāo)系來(lái)表示它們,通過(guò)旋轉(zhuǎn)和平移全局坐標(biāo)系得到以某一面部關(guān)鍵段em為標(biāo)準(zhǔn)的局部坐標(biāo)系,使得em與X軸重合并使em1為坐標(biāo)原點(diǎn),記旋轉(zhuǎn)角度為Rm,平移向量為dm,如圖4所示。
圖4 全局坐標(biāo)系變換Fig.4 Global coordinate system transformation
基于人臉關(guān)鍵點(diǎn)信息的李群表示模型如圖5所示,其中Rm,n(t)表示在t時(shí)刻以en為局部坐標(biāo)系,關(guān)鍵段em相對(duì)于關(guān)鍵段en局部坐標(biāo)系的旋轉(zhuǎn)矩陣,dm,n(t)表示為在t時(shí)刻關(guān)鍵段em與en之間的平移向量。
圖5 en關(guān)鍵段為局部坐標(biāo)系的旋轉(zhuǎn)平移Fig.5 Rotation and translation of en segments
將面部關(guān)鍵段em通過(guò)旋轉(zhuǎn)和平移與面部關(guān)鍵段en重合,則在當(dāng)前t時(shí)刻可得到相對(duì)幾何關(guān)系,見(jiàn)公式(1):
Gm,n(t)表示頭部從t時(shí)刻向右轉(zhuǎn)頭運(yùn)動(dòng)到t+1時(shí)刻期間以en面部關(guān)鍵段為局部坐標(biāo)系,面部關(guān)鍵段em和面部關(guān)鍵段en之間的空間幾何關(guān)系。又因?yàn)楦麝P(guān)鍵段長(zhǎng)度ln不會(huì)隨時(shí)間變化而變化,所以相對(duì)幾何關(guān)系可忽略其長(zhǎng)度在深度圖像數(shù)據(jù)的變化。同時(shí)為了獲得完整的時(shí)空信息,對(duì)于任意幀之間的所有關(guān)節(jié)點(diǎn)都通過(guò)公式(1)計(jì)算得出相應(yīng)的幾何關(guān)系,那么在相鄰幀之間,所有關(guān)鍵段的相對(duì)幾何關(guān)系就可以表示為李群上的一個(gè)點(diǎn),如公式(2)所示:
其中,Gp,q′(t)中p表示當(dāng)前幀的面部關(guān)鍵段,q表示下一幀的面部關(guān)鍵段,C(t)∈SE(3)×…×SE(3)。
頭部行為就是由一幀一幀的動(dòng)作序列構(gòu)成,利用上述提出的李群表示模型表示出頭部所有關(guān)鍵段相鄰幀之間的相對(duì)幾何關(guān)系,那么描述完整的頭部動(dòng)作序列就可以表示頭部行為的時(shí)空上下文信息,由此得到李群的一條曲線,即一個(gè)流形結(jié)構(gòu)。
李群的曲線位于流形空間,常見(jiàn)的歐氏空間操作在這個(gè)空間中并不適用,支持向量機(jī)等歐氏空間標(biāo)準(zhǔn)分類方法和傅里葉分析等時(shí)間建模方法也不能直接適用于該曲面空間。若要能夠使用歐氏空間的方法,需要將李群從流行空間映射到歐氏空間,即需要將李群關(guān)鍵段表示模型映射為相應(yīng)的李代數(shù)表示,通過(guò)李群到李代數(shù)的變換公式(3)可得到李代數(shù)向量空間:
其中,vec(·)表示李代數(shù)向量空間,由當(dāng)前幀存在4個(gè)面部關(guān)鍵段與下一幀3個(gè)面部關(guān)鍵段的空間幾何結(jié)構(gòu)構(gòu)成李群特征,從流形空間映射到歐氏空間,對(duì)于一個(gè)旋轉(zhuǎn)平移矩陣可映射為6維李代數(shù)向量,則M為維數(shù)為6×4×3維度的向量,至此得到李群特征,用t在時(shí)域上的變化表示頭部行為。
通過(guò)李群表示模型表示頭部行為的時(shí)空信息得到李群特征后,若直接對(duì)獲得的李代數(shù)向量空間的曲線進(jìn)行識(shí)別,很可能會(huì)導(dǎo)致分類效果不佳,因?yàn)楂@取的深度數(shù)據(jù)存在速率變化(rate variation)、噪聲(noise)和時(shí)間偏差(temporal misalignment)等干擾因素的影響,因此,針對(duì)速率變化采用動(dòng)態(tài)時(shí)間規(guī)劃算法(dynamic timewarping,DTW)進(jìn)行調(diào)整,利用傅里葉時(shí)間金字塔(fourier temporal pyramid,F(xiàn)TP)處理時(shí)間偏差和噪聲等問(wèn)題[18]。
基于李群特征的頭部行為識(shí)別算法通過(guò)運(yùn)用頭部關(guān)鍵段在三維空間中旋轉(zhuǎn)、平移的幾何變換,對(duì)每對(duì)關(guān)鍵段在相鄰幀之間的幾何關(guān)系進(jìn)行了表示,并將整個(gè)動(dòng)作序列建模為李群空間上的一條曲線,以此表示頭部行為特征,由于速率不同、表現(xiàn)形式不同等原因造成的頭部動(dòng)作復(fù)雜性,利用視頻進(jìn)行頭部行為識(shí)別,采集到的各個(gè)動(dòng)作視頻是不等長(zhǎng)的,因此首先需要對(duì)動(dòng)作序列的幀數(shù)進(jìn)行規(guī)整,對(duì)不同數(shù)據(jù)集嘗試找到一個(gè)合適的幀數(shù),將數(shù)據(jù)集中所有的動(dòng)作序列都通過(guò)插值得到相同的長(zhǎng)度。
在獲取相同長(zhǎng)度的動(dòng)作幀數(shù)后,使用3.2節(jié)中介紹的李群特征表示模型獲取動(dòng)作序列的特征表示,對(duì)于待測(cè)試動(dòng)作序列直接通過(guò)RBF核的一對(duì)多支持向量機(jī)對(duì)最終特征向量進(jìn)行頭部行為識(shí)別,在測(cè)試集上輸出動(dòng)作標(biāo)簽,最終實(shí)現(xiàn)基于李群特征的頭部行為識(shí)別。
本文算法的流程如圖6所示。
圖6 頭部行為識(shí)別算法流程圖Fig.6 Head motion recognition training process
為了驗(yàn)證本文提出方法的有效性,分別在公共數(shù)據(jù)集和自定義課堂數(shù)據(jù)集上進(jìn)行頭部行為識(shí)別實(shí)驗(yàn)驗(yàn)證。
公共數(shù)據(jù)集:
(1)BUHMAP-DB數(shù)據(jù)庫(kù)[19]旨在研究土耳其手語(yǔ)(Turkish sign language,TSL)相關(guān)的頭部動(dòng)作和面部表情,640×480分辨率,30 frame/s。該數(shù)據(jù)集涉及11個(gè)不同的實(shí)驗(yàn)人員,包含6名女性和5名男性,分別進(jìn)行8種不同的頭部動(dòng)作或表情動(dòng)作,數(shù)據(jù)庫(kù)由8個(gè)不同類別的動(dòng)作組成。BUHMAP-DB數(shù)據(jù)集包含的同意、不同意、困惑等頭部動(dòng)作為本課題提供很多可用于課堂環(huán)境的數(shù)據(jù)來(lái)源,但并非所有的數(shù)據(jù)都涉及頭部運(yùn)動(dòng),在本課題研究中,主要對(duì)BUHMAP-DB數(shù)據(jù)集中的HeadLR、HeadUp、HeadF、HeadUD、HappyUD共5個(gè)相關(guān)頭部動(dòng)作進(jìn)行實(shí)驗(yàn)。
(2)KTH-IdiapCorpus[17]數(shù)據(jù)集由KinectV1攝像機(jī)拍攝,如圖3~9所示,視頻幀速率為30 frame/s。由于對(duì)話是圍繞著圓桌進(jìn)行的,所以在視頻中參與者傾向于看著對(duì)方。視頻持續(xù)約1 h,從9個(gè)不同的人的視頻中選擇了5 min的片段,為了驗(yàn)證本文所提出的方法,對(duì)77個(gè)點(diǎn)頭動(dòng)作視頻進(jìn)行實(shí)驗(yàn)。
課堂數(shù)據(jù)集(Kinect classroom database,KCRD):結(jié)合了Kinect傳感器和VisualStudio2010軟件平臺(tái)進(jìn)行數(shù)據(jù)的采集和處理工作,依靠Kinect的人臉跟蹤的基礎(chǔ)功能獲取人臉面部深度圖,并可準(zhǔn)確獲得的人臉關(guān)鍵部位。自定義課堂數(shù)據(jù)集包含8個(gè)頭部動(dòng)作,分別為Right、Left、Rightup、Leftup、Rightdown、Leftdown、Nod、Shake,在模擬的課堂環(huán)境下6個(gè)實(shí)驗(yàn)人員分別做這8個(gè)頭部動(dòng)作,利用Kinect采集數(shù)據(jù),具體采集的動(dòng)作如圖7所示。
圖7 課堂數(shù)據(jù)集頭部行為視頻Fig.7 Captured head motion video
將頭部行為獲得的李群特征用RBF核的SVM進(jìn)行識(shí)別、分類,表1展示了本文提出算法與其他頭部行為識(shí)別算法的效果對(duì)比,可以看到,在公共數(shù)據(jù)集上,本文所提出的特征表示方法比基于關(guān)鍵點(diǎn)角度、距離等的表示法表現(xiàn)得更好。在KCRD數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn),該數(shù)據(jù)集根據(jù)課堂環(huán)境設(shè)計(jì)的8個(gè)頭部動(dòng)作,針對(duì)該數(shù)據(jù)集的8個(gè)動(dòng)作,使用交叉驗(yàn)證的方式進(jìn)行驗(yàn)證,最終在此數(shù)據(jù)集上取得平均識(shí)別率為73.63%。
表1 頭部行為識(shí)別效果對(duì)比Table 1 Comparison of head motion recognition effect
在BUHMAP數(shù)據(jù)庫(kù)上進(jìn)行實(shí)驗(yàn)的過(guò)程中,針對(duì)該數(shù)據(jù)庫(kù)中的5個(gè)動(dòng)作的頭部行為序列,使用交叉驗(yàn)證的方式進(jìn)行測(cè)試,在此數(shù)據(jù)庫(kù)上,本文方法取得平均識(shí)別率為81.60%,比基于關(guān)鍵點(diǎn)位置軌跡的方法[20]高出4.2個(gè)百分點(diǎn)。在KTH-IdiapCorpus數(shù)據(jù)集上進(jìn)行頭部動(dòng)作識(shí)別得到80.84%的識(shí)別率,比基于頭部偏轉(zhuǎn)角度序列識(shí)別點(diǎn)頭動(dòng)作評(píng)估注意力的算法[21]高出6.54個(gè)百分點(diǎn)。文獻(xiàn)[20]從提取出面部關(guān)鍵點(diǎn)后,利用頭部行為或面部表情過(guò)程中面部關(guān)鍵點(diǎn)位置的軌跡提取各種識(shí)別特征,如關(guān)鍵點(diǎn)二維坐標(biāo)時(shí)間序列、面部幾何特征等,這種特征考慮到時(shí)空信息但易受環(huán)境因素的干擾。文獻(xiàn)[21]中利用人臉特征點(diǎn)計(jì)算頭部運(yùn)動(dòng)的姿態(tài)參數(shù)即姿態(tài)角,將姿態(tài)角與設(shè)定的閾值范圍進(jìn)行比較,判定出學(xué)生異常行為,然而在某些特定環(huán)境下,姿態(tài)角因位置而異,無(wú)法利用姿態(tài)角閾值判定頭部行為。而提出的李群特征能夠有效避免這類環(huán)境、外貌以及位置因素的干擾,分類效果更優(yōu)。
基于李群表示模型表示的特征的識(shí)別率比距離、角度等特征的頭部行為識(shí)別率高,并且在KCRD數(shù)據(jù)集上實(shí)驗(yàn)結(jié)果可知基于相鄰幀提取的特征的識(shí)別率比在單幀提取李群特征的頭部行為識(shí)別率高47.94個(gè)百分點(diǎn)。
由實(shí)驗(yàn)結(jié)果可知,相鄰幀之間不同的面部關(guān)鍵段的相對(duì)幾何關(guān)系比當(dāng)前幀關(guān)鍵段之間的相對(duì)幾何關(guān)系能更好地表示出頭部動(dòng)作的時(shí)空上下文信息。同時(shí)為了證明取臉部5個(gè)關(guān)鍵點(diǎn)的有效性,在BUHMAP數(shù)據(jù)集的人臉圖像提取5個(gè)面部關(guān)鍵點(diǎn)的基礎(chǔ)上另加入眉心2個(gè)關(guān)鍵點(diǎn),得到7個(gè)面部關(guān)鍵點(diǎn)構(gòu)造的空間幾何特征,最后得到61.84%的識(shí)別準(zhǔn)確率,而基于面部5個(gè)關(guān)鍵點(diǎn)的空間幾何特征的頭部行為識(shí)別準(zhǔn)確率比其高19.76個(gè)百分點(diǎn),表明基于面部5個(gè)關(guān)鍵點(diǎn)的李群特征進(jìn)行頭部行為識(shí)別的有效性,增加了關(guān)鍵點(diǎn)個(gè)數(shù)并沒(méi)有提高準(zhǔn)確率,猜測(cè)是由于特征之間的冗余反而產(chǎn)生了干擾。實(shí)驗(yàn)結(jié)果說(shuō)明了在頭部行為識(shí)別中引入深度信息,并且根據(jù)李群表示模型提取的頭部行為的相鄰幀動(dòng)作特征能夠較好表示動(dòng)作的時(shí)空上下文信息。
同時(shí)為了驗(yàn)證李群特征表示方法在課堂環(huán)境下適用性,進(jìn)一步計(jì)算出在自定義課堂數(shù)據(jù)集KCRD上識(shí)別結(jié)果的混淆矩陣,如表2所示。
表2 KCRD頭部行為識(shí)別混淆矩陣Table 2 Head motion recognition confusion matrix on KCRD
數(shù)據(jù)集包含了各種不同朝向的頭部動(dòng)作,實(shí)驗(yàn)人員在完成頭部動(dòng)作期間涉及其他頭部動(dòng)作朝向不可避免,但大部分動(dòng)作混淆的概率都較低且多數(shù)都為0,證明本文所提出的算法在課堂環(huán)境下依然能取得不錯(cuò)的實(shí)驗(yàn)效果,并且最高對(duì)于Shake動(dòng)作取得了0.82的識(shí)別率,表明使用李群特征表示進(jìn)行的頭部行為識(shí)別方法的有效性,并且適用于課堂這一特定環(huán)境。
本文提出了一種基于李群的頭部特征表示方法,該方法從深度圖像中獲取頭部的時(shí)間空間特征,在流形空間中使用李群來(lái)表示頭部行為,并使用這種特征表示方法完成了頭部行為識(shí)別任務(wù)。實(shí)驗(yàn)結(jié)果表明這種基于李群的特征表示方法能夠有效表達(dá)頭部的時(shí)空信息,并且對(duì)課堂環(huán)境具有很好的適用性。
本文方法的主要改進(jìn)方向是選取搭建先進(jìn)的網(wǎng)絡(luò)模型對(duì)提取的向量進(jìn)行利用,并且課堂環(huán)境中存在語(yǔ)音文本等多模態(tài)數(shù)據(jù),如何利用結(jié)合多模態(tài)數(shù)據(jù)結(jié)合圖像特征進(jìn)行動(dòng)作識(shí)別,將是下一步研究的主要內(nèi)容。