齊永鋒,馬中玉
(西北師范大學(xué) 計(jì)算機(jī)科學(xué)與工程學(xué)院,蘭州 730070)
頭部姿態(tài)估計(jì)是通過(guò)檢測(cè)人臉?lè)较蚺c判斷人眼注意力估計(jì)整個(gè)頭部姿態(tài),可應(yīng)用于駕駛員監(jiān)控[1]、注意力識(shí)別[2]以及面部分析等,例如交通管控人員對(duì)駕駛員頭部姿態(tài)進(jìn)行精準(zhǔn)估計(jì)與預(yù)測(cè)能有效降低交通事故發(fā)生率,教師在課堂教學(xué)時(shí)通過(guò)估計(jì)與分析學(xué)生頭部姿態(tài),可判斷其聽(tīng)講情況及對(duì)課程的興趣程度。近年來(lái),頭部姿態(tài)估計(jì)已成為計(jì)算機(jī)視覺(jué)領(lǐng)域的研究熱點(diǎn)[3],研究人員采用不同儀器設(shè)備對(duì)其進(jìn)行研究。其中,相機(jī)陣列、激光指示器、立體相機(jī)、深度相機(jī)、磁性與慣性傳感器等可在成像環(huán)境受限情況下獲得穩(wěn)定的姿態(tài)估計(jì)圖像[4]。然而上述設(shè)備需要人體穿戴或者在室內(nèi)使用,使得頭部姿態(tài)估計(jì)無(wú)法在自然場(chǎng)景下進(jìn)行,此外穿戴設(shè)備的高成本也使其大范圍推廣應(yīng)用受到限制。由于單目攝像機(jī)、手機(jī)、筆記本電腦等均可拍攝RGB圖像,便于頭部姿態(tài)估計(jì)的廣泛應(yīng)用[5],因此目前通常采用RGB圖像進(jìn)行頭部姿態(tài)估計(jì)與分析。基于RGB圖像的頭部姿態(tài)估計(jì)方法包括基于外觀的方法、基于模型的方法、流形嵌入方法以及非線性回歸方法[6]。其中,基于外觀的方法將頭部視圖與代表姿勢(shì)標(biāo)簽的離散模型進(jìn)行對(duì)比[7],利用不同類(lèi)型模板匹配技術(shù),評(píng)估輸入特征與樣本集的相似性。該方法主要通過(guò)對(duì)比人臉樣本圖像與二維人臉地標(biāo)圖像的特定關(guān)系來(lái)估計(jì)頭部姿態(tài),實(shí)現(xiàn)相對(duì)簡(jiǎn)單,但在實(shí)際場(chǎng)景中應(yīng)用局限性較大[5],例如在不使用插值方法的情況下無(wú)法估計(jì)離散姿態(tài)位置。基于模型的方法使用幾何信息、非剛性面部模型或者界標(biāo)位置來(lái)估計(jì)頭部姿態(tài),該方法關(guān)鍵在于找到共面的面部關(guān)鍵點(diǎn)并估計(jì)與參考坐標(biāo)系的距離[8],然而其對(duì)角度數(shù)據(jù)精確度要求較高,無(wú)法在角度退化的情況下使用。此外,基于模型的方法還可通過(guò)多個(gè)非共面關(guān)鍵點(diǎn)位置來(lái)評(píng)估,假設(shè)地標(biāo)之間存在固定幾何關(guān)系,將上述關(guān)鍵點(diǎn)位置與測(cè)量人體獲得的平均掩模進(jìn)行對(duì)比[9]來(lái)估計(jì)頭部姿態(tài)。基于模型方法的準(zhǔn)確性與從圖像中所推理幾何關(guān)系的真實(shí)性及數(shù)量相關(guān),雖然關(guān)鍵點(diǎn)檢測(cè)和跟蹤技術(shù)發(fā)展較快[10],但是該方法的應(yīng)用仍受到地標(biāo)檢測(cè)技術(shù)限制。例如,當(dāng)頭部姿態(tài)估計(jì)應(yīng)用于智能系統(tǒng)身份和行為檢測(cè)時(shí),光照變化、遮擋、分辨率等因素都會(huì)對(duì)檢測(cè)結(jié)果造成較大影響[11-12]。
隨著深度學(xué)習(xí)技術(shù)的發(fā)展,基于深度學(xué)習(xí)的頭部姿態(tài)估計(jì)得到深入研究并取得一系列成果。文獻(xiàn)[5]采用淺層卷積神經(jīng)網(wǎng)絡(luò)分析頭部姿態(tài)算法的魯棒性,發(fā)現(xiàn)自適應(yīng)梯度神經(jīng)網(wǎng)絡(luò)能更好地訓(xùn)練模型。文獻(xiàn)[13]通過(guò)卷積神經(jīng)網(wǎng)絡(luò)將3D人臉模型與RGB圖像進(jìn)行擬合,使用密集的3D模型對(duì)齊面部標(biāo)志得到3D頭部姿態(tài),但是引入了固有誤差。文獻(xiàn)[14]使用改進(jìn)的GoogleNet[15]并利用多任務(wù)共同學(xué)習(xí)面部標(biāo)志和頭部姿態(tài)。文獻(xiàn)[16]采用由5個(gè)卷積層和3個(gè)全連接層組成的卷積神經(jīng)網(wǎng)絡(luò)HyperFace進(jìn)行頭部姿態(tài)估計(jì)、人臉對(duì)齊與性別分類(lèi)。文獻(xiàn)[17]利用All-In-One神經(jīng)網(wǎng)絡(luò)為HyperFace增加微笑預(yù)測(cè)與年齡估計(jì)功能。上述方法雖然在一定程度上解決了自然環(huán)境中面部檢測(cè)和頭部姿態(tài)估計(jì)的問(wèn)題,但是所得結(jié)果存在較大誤差。
文獻(xiàn)[18]在深度學(xué)習(xí)架構(gòu)下使用更高級(jí)別的表示方法用于回歸頭部姿態(tài),在選定的面部標(biāo)志上使用2D熱圖形式的不確定性圖,并將其通過(guò)卷積神經(jīng)網(wǎng)絡(luò)作為輸入通道來(lái)回歸頭部姿態(tài),然而該方法僅采用5個(gè)面部標(biāo)志,對(duì)被遮擋頭部姿態(tài)的識(shí)別十分有限[19]。上述方法對(duì)人臉特征點(diǎn)檢測(cè)精度要求較高,在視線或光照不佳、遮擋嚴(yán)重等情況下其檢測(cè)性能較差甚至檢測(cè)失效。為解決該問(wèn)題,文獻(xiàn)[20]采用簡(jiǎn)單的卷積神經(jīng)網(wǎng)絡(luò)回歸3D頭部姿態(tài),但只專(zhuān)注于面部對(duì)齊,未在公共數(shù)據(jù)集上進(jìn)行頭部姿態(tài)估計(jì)。文獻(xiàn)[21]提出無(wú)關(guān)鍵點(diǎn)的頭部姿態(tài)估計(jì)方法,劃分3個(gè)分支對(duì)頭部姿態(tài)的3個(gè)角度進(jìn)行聯(lián)合預(yù)測(cè),每個(gè)分支通過(guò)分類(lèi)和積分回歸組合。文獻(xiàn)[22]提出一種基于卷積神經(jīng)網(wǎng)絡(luò)的模型,該模型通過(guò)線性逆回歸高斯混合來(lái)回歸頭部姿態(tài)。文獻(xiàn)[23]結(jié)合無(wú)監(jiān)督流形學(xué)習(xí)和逆回歸質(zhì)量的方法在光照、面部方向和外觀變化等方面進(jìn)行改進(jìn),提高了魯棒性。以上方法都是采用地標(biāo)檢測(cè)進(jìn)行姿態(tài)估計(jì),雖然基于地標(biāo)的方法在給定地標(biāo)時(shí)能較好地預(yù)測(cè)頭部姿態(tài),但是在真實(shí)場(chǎng)景地標(biāo)準(zhǔn)確性較低的情況下會(huì)降低姿態(tài)估計(jì)精度。
為解決上述問(wèn)題,本文提出一種基于深度學(xué)習(xí)的無(wú)關(guān)鍵點(diǎn)頭部姿態(tài)估計(jì)方法,采用更多層的深度殘差網(wǎng)絡(luò)RestNet101[24]進(jìn)行多角度回歸損失設(shè)計(jì),在文獻(xiàn)[19]的基礎(chǔ)上對(duì)梯度下降模式進(jìn)行優(yōu)化,同時(shí)與自適應(yīng)方法相結(jié)合,使用卷積神經(jīng)網(wǎng)絡(luò)從圖像強(qiáng)度估計(jì)頭部姿態(tài),并對(duì)不同數(shù)據(jù)集上頭部姿態(tài)估計(jì)效果與測(cè)試精度進(jìn)行分析。
頭部姿態(tài)估計(jì)方法主要分為基于2D關(guān)鍵點(diǎn)檢測(cè)的3D姿態(tài)推算方法以及無(wú)關(guān)鍵點(diǎn)檢測(cè)的直接預(yù)測(cè)方法。其中,前者需對(duì)人臉關(guān)鍵點(diǎn)進(jìn)行檢測(cè)及分析,即通過(guò)建立關(guān)鍵點(diǎn)和3D頭部模型之間的對(duì)應(yīng)關(guān)系并執(zhí)行對(duì)準(zhǔn)來(lái)恢復(fù)頭部3D姿態(tài),這種使用卷積神經(jīng)網(wǎng)絡(luò)提取面部關(guān)鍵點(diǎn)的方法靈活性較好,但未使用面部全部信息,在未能檢測(cè)到面部關(guān)鍵點(diǎn)的情況下,無(wú)法準(zhǔn)確進(jìn)行頭部姿態(tài)估計(jì)。因此,本文提出一種無(wú)關(guān)鍵點(diǎn)的頭部姿態(tài)估計(jì)方法[21],利用單目攝像機(jī)獲取人體頭部圖像,采用歐拉角表示頭部姿態(tài),如圖1所示。從偏航角(yaw)、仰俯角(pitch)、旋轉(zhuǎn)角(roll)3個(gè)角度描述頭部空間姿態(tài)。由文獻(xiàn)[21]證明結(jié)果可知,使用卷積神經(jīng)網(wǎng)絡(luò)從圖像強(qiáng)度估計(jì)3D頭部姿態(tài)具有較高的準(zhǔn)確性。
圖1 采用歐拉角表示的頭部姿態(tài)Fig.1 Head posture expressed by Euler angle
傳統(tǒng)無(wú)關(guān)鍵點(diǎn)檢測(cè)的頭部姿態(tài)估計(jì)方法使用卷積神經(jīng)網(wǎng)絡(luò)直接預(yù)測(cè)歐拉角,在大規(guī)模訓(xùn)練中存在訓(xùn)練不穩(wěn)定、識(shí)別性能較差與速度較慢等問(wèn)題,因此,本文使用更多層的深度殘差網(wǎng)絡(luò)RestNet101,將全連接層輸出設(shè)置為198層,其中66層及其以下用于粗分類(lèi)以輔助學(xué)習(xí),66層以上用于精細(xì)分類(lèi)以進(jìn)行頭部姿態(tài)預(yù)測(cè)。同時(shí)選擇更好的優(yōu)化器AdaBound[25]在訓(xùn)練網(wǎng)絡(luò)中進(jìn)行梯度優(yōu)化,本文方法網(wǎng)絡(luò)結(jié)構(gòu)如圖2所示。
圖2 本文方法網(wǎng)絡(luò)結(jié)構(gòu)Fig.2 Network structure of the proposed method
采用Softmax分類(lèi)器獲得每層輸出的交叉熵?fù)p失,同時(shí)計(jì)算偏航角、仰俯角、旋轉(zhuǎn)角的均方誤差,并聯(lián)合其他層輸出損失計(jì)算總損失,損失計(jì)算方法將在1.3節(jié)中具體介紹。本文方法所用網(wǎng)絡(luò)的訓(xùn)練參數(shù)設(shè)置如下:訓(xùn)練迭代次數(shù)為200,每次迭代處理樣本數(shù)量為36,學(xué)習(xí)率為0.001。對(duì)數(shù)據(jù)集處理如下:對(duì)于頭部翻轉(zhuǎn)的圖像,改變偏航角和旋轉(zhuǎn)角方向進(jìn)行翻轉(zhuǎn)處理;對(duì)于模糊圖像,采用濾波器進(jìn)行去模糊處理。
Softmax回歸由邏輯回歸演化而來(lái),用于解決多分類(lèi)問(wèn)題,屬于有監(jiān)督的學(xué)習(xí)方法。神經(jīng)網(wǎng)絡(luò)最后一層為Softmax函數(shù),其與深度學(xué)習(xí)方法結(jié)合可用來(lái)區(qū)分輸入圖像的角度類(lèi)別。
交叉熵?fù)p失計(jì)算在Softmax回歸后進(jìn)行,該計(jì)算在深度學(xué)習(xí)中使用較多。在神經(jīng)網(wǎng)絡(luò)中,交叉熵通常與Softmax函數(shù)組合使用,本文網(wǎng)絡(luò)仍采用該模式以便對(duì)頭部姿態(tài)進(jìn)行有效預(yù)測(cè)。交叉熵函數(shù)的計(jì)算公式為:
(1)
其中,N為樣本數(shù),i、j為二維矩陣中的元素,h為分類(lèi)概率。
本文所用回歸損失函數(shù)為均方誤差(Mean Square Error,MSE),即預(yù)測(cè)值與目標(biāo)值之間差值的平方和,計(jì)算公式如下:
(2)
其中,y、y′分別表示真實(shí)值和預(yù)測(cè)值。
每個(gè)角度的損失表示為:
(3)
其中,L和MSE分別為交叉熵?fù)p失和均方誤差損失函數(shù),n為分類(lèi)分支數(shù)量。本文中α、βi均為訓(xùn)練參數(shù),α=2,βi={2,7,5,3,1,1}
本文使用AFLW2000[24]、 BIWI[26]和300W_LP[13]3個(gè)數(shù)據(jù)集進(jìn)行分析和驗(yàn)證。AFLW2000數(shù)據(jù)集包含野外與姿態(tài)變化較大的2 000張人臉圖像(偏航角為-90°~90°),并使用68個(gè)3D地標(biāo)進(jìn)行注釋。BIWI數(shù)據(jù)集是應(yīng)用較廣泛的面部數(shù)據(jù)集,其中包含15 000張人臉圖像(取自6位女性和14位男性)。BIWI數(shù)據(jù)集對(duì)于每一幀圖像均提供深度圖像、相應(yīng)的RGB圖像(640像素×480像素)和注釋。300W_LP數(shù)據(jù)集廣泛用于面部識(shí)別與頭部姿態(tài)分析,是常用的野外2D地標(biāo)數(shù)據(jù)集,由包含大量頭部姿態(tài)的61 225張圖像組成,并通過(guò)翻轉(zhuǎn)擴(kuò)展至122 450張圖像。圖3為AFLW2000數(shù)據(jù)集、BIWI數(shù)據(jù)集和300W_LP數(shù)據(jù)集的部分圖像示例。頭部姿態(tài)范圍設(shè)置如下:偏航角為±75°,俯仰角為±60°,旋轉(zhuǎn)角為±50°。地標(biāo)真值以頭部的三維位置及其旋轉(zhuǎn)形式提供。
圖3 3種數(shù)據(jù)集部分圖像示例Fig.3 Sample images of three datasets
本文實(shí)驗(yàn)采用Windows10操作系統(tǒng),CPU為Intel?CoreTMi3-8100,主頻為3.6 GHz,顯卡為Nvidia RTX2060,顯存為6 GB,圖形支持為CUDA10,實(shí)驗(yàn)環(huán)境配置為深度學(xué)習(xí)框架Pytorch1.0與OpenCV 3.4。通過(guò)計(jì)算偏航角、仰俯角、旋轉(zhuǎn)角3個(gè)參數(shù)的均方誤差與平均絕對(duì)誤差(Mean Absolute Error,MAE)來(lái)評(píng)估本文方法在不同數(shù)據(jù)集上的表現(xiàn),并分別給出相應(yīng)數(shù)據(jù)集上頭部姿態(tài)表示結(jié)果。采用圖1中頭部姿態(tài)表示方法,向下的軸線表示偏航角方向,向右的軸線表示仰俯角方向,垂直面部向前的軸線表示旋轉(zhuǎn)角方向,從而立體化表示三維空間頭部姿態(tài)信息,并通過(guò)可視化直觀展示來(lái)評(píng)估頭部轉(zhuǎn)向與位置信息。
圖4為本文方法在AFLW2000數(shù)據(jù)集上的部分頭部姿態(tài)估計(jì)結(jié)果??梢钥闯?本文方法對(duì)不同圖像的頭部姿態(tài)估計(jì)穩(wěn)定可靠,能較好地表示頭部姿態(tài),在室內(nèi)外場(chǎng)景中魯棒性均表現(xiàn)良好。
圖4 AFLW2000數(shù)據(jù)集上的部分頭部姿態(tài)估計(jì)結(jié)果Fig.4 Results of partial head poseture estimation onAFLW2000 dataset
本文使用粗、細(xì)粒度分類(lèi)任務(wù)進(jìn)行頭部姿態(tài)估計(jì),通過(guò)粗粒度回歸定位人臉,采用細(xì)粒度評(píng)估姿態(tài)。將本文方法與FAN[24]地標(biāo)[27]檢測(cè)方法(以下稱(chēng)為FAN方法)以及文獻(xiàn)[21]中無(wú)關(guān)鍵點(diǎn)的細(xì)粒度頭部姿態(tài)估計(jì)方法(以下稱(chēng)為文獻(xiàn)[21]方法)在AFLW2000數(shù)據(jù)集上的平均絕對(duì)誤差進(jìn)行對(duì)比,由于AFLW2000圖像尺寸較小,而裁剪操作在臉部周?chē)M(jìn)行,因此更易檢測(cè)到人臉區(qū)域,結(jié)果如表1所示??梢钥闯?在偏航角、仰俯角、旋轉(zhuǎn)角3個(gè)角度的評(píng)估上,本文方法的平均絕對(duì)誤差相較文獻(xiàn)[20]方法下降0.759個(gè)百分點(diǎn),表明本文方法對(duì)小圖像的頭部姿態(tài)估計(jì)性能較好,能在小分辨率與弱光下檢測(cè)和評(píng)估頭部信息。
表1 3種方法在AFLW2000數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果Table 1 Experimental results of three methods onAFLW2000 dataset
本文使用每個(gè)顏色通道ImageNet均值和標(biāo)準(zhǔn)偏差來(lái)標(biāo)準(zhǔn)化訓(xùn)練前的數(shù)據(jù),并將BIWI數(shù)據(jù)集作為網(wǎng)絡(luò)的大規(guī)模輸入,通過(guò)RestNet101主干網(wǎng)絡(luò)以及損失分類(lèi)得到最終頭部姿態(tài)估計(jì)結(jié)果。圖5為本文方法在BIWI數(shù)據(jù)集上的部分頭部姿態(tài)估計(jì)結(jié)果??梢钥闯?通過(guò)對(duì)BIWI數(shù)據(jù)集的簡(jiǎn)單處理,其更利于網(wǎng)絡(luò)訓(xùn)練,該數(shù)據(jù)集圖像中頭部姿態(tài)角度覆蓋范圍更廣,網(wǎng)絡(luò)訓(xùn)練后頭部姿態(tài)檢測(cè)效果較好。
圖5 BIWI數(shù)據(jù)集上的部分頭部姿態(tài)估計(jì)結(jié)果Fig.5 Results of partial head poseture estimation onBIWI dataset
將本文方法與FAN方法和文獻(xiàn)[21]方法在BIWI數(shù)據(jù)集上的平均絕對(duì)誤差進(jìn)行對(duì)比,結(jié)果如表2所示??梢钥闯?與其他兩種方法相比,本文方法的偏航角、仰俯角和旋轉(zhuǎn)角平均絕對(duì)誤差更小,且MAE值降幅較小,這是因?yàn)锽IWI數(shù)據(jù)集具有一定的幀間信息,使平均絕對(duì)誤差降幅較小。
表2 3種方法在BIWI數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果Table 2 Experimental results of three methods onBIWI dataset
圖6為本文方法在300W_LP數(shù)據(jù)集上的部分頭部姿態(tài)估計(jì)結(jié)果,從左到右4張圖像的光線環(huán)境分別為室內(nèi)、室外、正常光照和暗光環(huán)境??梢钥闯?本文方法的姿態(tài)估計(jì)均較準(zhǔn)確,可適用于不同光照環(huán)境下的頭部姿態(tài)估計(jì)。
圖6 300W_LP數(shù)據(jù)集上的部分頭部姿態(tài)估計(jì)結(jié)果Fig.6 Results of partial head poseture estimation on300W_LP dataset
使用300W_LP數(shù)據(jù)集分析訓(xùn)練過(guò)程并測(cè)試網(wǎng)絡(luò)性能,并將本文所用AdaBound優(yōu)化器與SGD、AMSGrad和Adam優(yōu)化器進(jìn)行對(duì)比以驗(yàn)證本文優(yōu)化器的有效性。圖7是RestNet101網(wǎng)絡(luò)使用上述4種優(yōu)化器在300W_LP數(shù)據(jù)集上所得訓(xùn)練精度與測(cè)試精度??梢钥闯?在訓(xùn)練階段前150次迭代中,AdaBound優(yōu)化器的訓(xùn)練精度接近98%,高于其他優(yōu)化器,AMSGrad優(yōu)化器的訓(xùn)練精度排在第二位;在訓(xùn)練階段迭代150次后,各優(yōu)化器的訓(xùn)練精度均明顯提升,其中AdaBound優(yōu)化器增幅最大,收斂速度最快;在測(cè)試階段,SGD優(yōu)化器測(cè)試精度曲線震蕩較強(qiáng)烈,梯度下降不穩(wěn)定,AdaBound優(yōu)化器測(cè)試精度曲線收斂較快,梯度下降較穩(wěn)定,測(cè)試精度達(dá)到95%以上,高于其他兩種優(yōu)化器。
圖7 4種優(yōu)化器在300W_LP數(shù)據(jù)集上的訓(xùn)練精度與測(cè)試精度Fig.7 Training accuracy and test accuracy of fouroptimizers on 300W_LP dataset
在300W_LP數(shù)據(jù)集上的姿態(tài)評(píng)估測(cè)試中,本文方法在偏航角、仰俯角和旋轉(zhuǎn)角上的平均絕對(duì)誤差為1.801 6(FAN方法和文獻(xiàn)[21]方法沒(méi)有在相同條件下的實(shí)驗(yàn)數(shù)據(jù)),姿態(tài)估計(jì)性能較好。上述結(jié)果表明,本文通過(guò)增加網(wǎng)絡(luò)層數(shù)、優(yōu)化下降梯度,可提升訓(xùn)練速度與訓(xùn)練精度。
2.4.1 魯棒性分析
為進(jìn)一步驗(yàn)證本文方法在真實(shí)環(huán)境中的魯棒性,使用訓(xùn)練好的RestNet101網(wǎng)絡(luò)模型在復(fù)雜光照、部分遮擋及極限姿態(tài)情況下進(jìn)行測(cè)試,結(jié)果如圖8所示。其中,圖8中左起第1張和第2張圖像為復(fù)雜光照環(huán)境,左起第3張和第4張圖像分別為部分遮擋和極限姿態(tài)情況??梢钥闯?本文方法在復(fù)雜光照、部分遮擋以及極限姿態(tài)情況下頭像姿態(tài)識(shí)別良好,具有較好的魯棒性,滿(mǎn)足復(fù)雜條件下頭部姿態(tài)估計(jì)要求。
圖8 本文方法魯棒性測(cè)試結(jié)果Fig.8 Robustness test results of the proposed method
2.4.2 位姿估計(jì)的運(yùn)算復(fù)雜度與實(shí)時(shí)性分析
為檢驗(yàn)頭部位姿運(yùn)算復(fù)雜度,需分析頭部姿態(tài)估計(jì)模型加載和處理時(shí)間,表3為本文方法在模型初始化、網(wǎng)絡(luò)姿態(tài)角回歸以及頭部姿態(tài)估計(jì)3個(gè)階段的耗時(shí)情況??梢钥闯鲈谀P统跏蓟A段,由于需進(jìn)行頭部模型庫(kù)調(diào)用與模型加載,因此初始化所用時(shí)間較長(zhǎng)。在網(wǎng)絡(luò)姿態(tài)角回歸階段,主要進(jìn)行姿態(tài)回歸和網(wǎng)絡(luò)損失計(jì)算,在頭部姿態(tài)估計(jì)階段,主要進(jìn)行輸入幀模型對(duì)比與圖像生成處理。3個(gè)階段總耗時(shí)為89.16 ms,所用時(shí)間較短。
表3 本文方法在3個(gè)階段的耗時(shí)情況Table 3 Time consumption of the proposed methodin three stages ms
在真實(shí)室內(nèi)環(huán)境下,使用網(wǎng)絡(luò)攝像頭加載訓(xùn)練好的RestNet101網(wǎng)絡(luò)模型,得到頭部姿態(tài)測(cè)試結(jié)果如圖9所示,視頻幀尺寸為1 024像素×576像素??梢?jiàn)實(shí)際場(chǎng)景下頭部姿態(tài)識(shí)別準(zhǔn)確,說(shuō)明該模型能較好地捕捉未訓(xùn)練過(guò)的目標(biāo)。網(wǎng)絡(luò)攝像頭實(shí)際運(yùn)行測(cè)試顯示網(wǎng)絡(luò)模型在 GPU 上每秒傳輸幀數(shù)(Frames Per Second,FPS)達(dá)到31,滿(mǎn)足實(shí)時(shí)處理的需求。
圖9 網(wǎng)絡(luò)攝像頭所得頭部姿態(tài)測(cè)試結(jié)果Fig.9 Head posture test result obtained by Webcam
針對(duì)傳統(tǒng)無(wú)關(guān)鍵點(diǎn)檢測(cè)方法識(shí)別較差且速度較慢的問(wèn)題,本文提出一種采用深度殘差網(wǎng)絡(luò)RestNet101的頭部姿態(tài)估計(jì)方法,利用多損失分類(lèi)訓(xùn)練深度殘差網(wǎng)絡(luò),使用無(wú)關(guān)鍵點(diǎn)細(xì)粒度方法估計(jì)頭部姿態(tài),通過(guò)網(wǎng)絡(luò)粗、細(xì)分類(lèi)的分層設(shè)計(jì)進(jìn)行頭部姿態(tài)預(yù)測(cè),并在訓(xùn)練階段使用AdaBound優(yōu)化器進(jìn)行梯度優(yōu)化。實(shí)驗(yàn)結(jié)果表明,與FAN地標(biāo)檢測(cè)方法和無(wú)關(guān)鍵點(diǎn)細(xì)粒度方法相比,該方法在AFLW2000和BIWI數(shù)據(jù)集上平均絕對(duì)誤差更小。后續(xù)將在深度學(xué)習(xí)的基礎(chǔ)上,從網(wǎng)絡(luò)模型改進(jìn)和數(shù)據(jù)集處理方面進(jìn)行研究,進(jìn)一步提高頭部姿態(tài)估計(jì)精度。