梁令羽,孫銘堃,何 為,李鳳榮
1.中國科學(xué)院 上海微系統(tǒng)與信息技術(shù)研究所 寬帶無線移動(dòng)通信研究室,上海 201800
2.上??萍即髮W(xué) 信息科學(xué)與技術(shù)學(xué)院,上海 200120
3.中國科學(xué)院大學(xué),北京 100864
近年來,頭部姿態(tài)估計(jì)因其在人機(jī)交互、人臉識別[1]、虛擬現(xiàn)實(shí)以及疲勞監(jiān)測[2]等領(lǐng)域的廣泛應(yīng)用而成為新的研究熱點(diǎn)。頭部姿態(tài)估計(jì)是指計(jì)算機(jī)通過對輸入圖像或者視頻序列的分析、預(yù)測,確定人的三維空間中頭部的位置以及姿態(tài)參量[3]。如圖1 所示,如果將人的頭部視為一個(gè)剛體,則可以通過俯仰角(pitch)、偏航角(yaw)、滾動(dòng)角(roll)三個(gè)角度集合在一個(gè)固定的坐標(biāo)系下描述剛體運(yùn)動(dòng)。
Fig.1 Angle of rotation of head pose in three dimensions圖1 頭部姿態(tài)在三維空間中的旋轉(zhuǎn)角度
按照是否需要定位面部關(guān)鍵點(diǎn),可以將頭部姿態(tài)估計(jì)方法分為基于模型的方法(model-based method)和基于外觀的方法(appearance-based method)[4]?;谀P偷姆椒ㄖ饕峭ㄟ^檢測頭部形狀以及人臉輪廓、眼角、鼻尖、嘴唇等面部特征點(diǎn),構(gòu)建幾何模型或以其他方法來估計(jì)頭部姿態(tài)。文獻(xiàn)[5]提出了基于面部特征點(diǎn)的頭部姿態(tài)估計(jì)方法,該方法計(jì)算簡單,有著不錯(cuò)的準(zhǔn)確率,然而估計(jì)頭部姿態(tài)前需要手動(dòng)提取面部區(qū)域,且易受到環(huán)境、遮擋等干擾因素影響。張萬枝等人提出了一種基于面部特征三角形的機(jī)車駕駛員頭部姿態(tài)參數(shù)估計(jì)方法[6]。該方法在定位眼睛位置、嘴巴區(qū)域,構(gòu)建面部特征三角形的基礎(chǔ)上,通過特征三角形的位置變化進(jìn)行頭部姿態(tài)估計(jì)。該算法的準(zhǔn)確率依賴于對人臉特征點(diǎn)的定位精度,雖然可以獲得連續(xù)的頭部姿態(tài)估計(jì)值,然而準(zhǔn)確率易受到遮擋、光照變化及較大頭部偏轉(zhuǎn)姿態(tài)等干擾因素影響。Derkach 等人提出基于SRILF(shape regression with incomplete local features)算法和基于字典的方法檢測面部特征點(diǎn)[7],然后通過幾何估計(jì)和外觀估計(jì)的方法估計(jì)頭部姿態(tài),該方法對具有較大偏轉(zhuǎn)范圍的頭部姿態(tài)估計(jì)問題表現(xiàn)良好,然而需要采集帶有深度信息的頭部姿態(tài)圖片。
基于外觀的方法主要是通過將未知姿態(tài)的圖片與一組已標(biāo)記圖片數(shù)據(jù)集進(jìn)行比較,通過測量未知姿態(tài)圖片與已標(biāo)記圖片的相似性來確定所屬的姿態(tài)。Huang等人利用監(jiān)督局部子空間學(xué)習(xí)方法,從訓(xùn)練數(shù)據(jù)的HOG(histogram of orientation gradient)特征中學(xué)習(xí)局部線性模型來估計(jì)頭部姿態(tài)[8],解決了少量訓(xùn)練樣本擬合模型能力的不足,訓(xùn)練樣本不均勻影響頭部姿態(tài)識別準(zhǔn)確率等問題。Yan 等人提出了一種基于多任務(wù)學(xué)習(xí)的頭部姿態(tài)估計(jì)框架[9],將識別區(qū)域劃分為密集的均勻空間網(wǎng)格,通過聚類的方法形成具有相似面部外觀的區(qū)域并進(jìn)行學(xué)習(xí)和識別,該方法解決了低分辨率情況下的頭部姿態(tài)估計(jì)問題。文獻(xiàn)[10]提出了一種自適應(yīng)梯度的卷積神經(jīng)網(wǎng)絡(luò)方法,該方法對外觀、環(huán)境變化、遮擋等干擾因素具有較好的魯棒性?;谕庥^的方法不依賴于人臉特征點(diǎn)定位,將頭部姿態(tài)的估計(jì)問題視作頭部姿態(tài)的分類問題,通過訓(xùn)練-學(xué)習(xí)的方法獲得人臉圖像和頭部姿態(tài)之間的對應(yīng)關(guān)系,該類方法性能依賴于人臉樣本好壞和學(xué)習(xí)模型的設(shè)計(jì)[11]。
將頭部姿態(tài)的識別問題視為分類問題,分類器性能的高低直接影響頭部姿態(tài)識別的準(zhǔn)確率。針對離散化的頭部姿態(tài)估計(jì)問題,常用的分類器包括線性判別分類器(linear discriminant analysis,LDA)、支持向量機(jī)(support vector machine,SVM)以及樸素貝葉斯分類器(na?ve Bayes,NB)等[12]。然而這些分類器性能并不能滿足對于頭部姿態(tài)分類準(zhǔn)確性的要求。此外,當(dāng)面臨視頻圖像中的復(fù)雜背景、光照變化等干擾因素影響時(shí),頭部姿態(tài)識別準(zhǔn)確率會降低。本文提出了一種基于Bagging-SVM集成分類器來估計(jì)頭部姿態(tài)算法,該算法在面對離散頭部姿態(tài)識別問題時(shí)具有良好的識別效果,對光照變化等干擾因素具有較好的魯棒性。
支持向量機(jī)SVM最開始是為了解決二元分類問題而被提出的,對于給定的二分類訓(xùn)練集D={(x1,y1),(x2,y2),…,(xm,ym)},其中y={-1,+1},算法的目的是尋找一個(gè)最優(yōu)分類超平面wTxi+b,該分類超平面滿足以下條件:
當(dāng)樣本線性不可分時(shí),引入懲罰項(xiàng)C和松弛變量(slack variables)ξi≥0,那么滿足最優(yōu)分類超平面的條件變?yōu)椋?/p>
式(2)是一個(gè)二次規(guī)劃問題,根據(jù)最優(yōu)化理論,通過使用拉格朗日乘子法將該優(yōu)化問題轉(zhuǎn)換為對偶問題來求解:
Fig.2 Support vector and margin圖2 支持向量和間隔
本文采用的核函數(shù)為高斯核函數(shù)(Gaussian kernel),將樣本從原始空間映射到高維空間中從而實(shí)現(xiàn)該特征空間內(nèi)的線性可分。
Bagging 的全稱是Bootstrap Aggregating,算法基于自助采樣法(bootstrap sampling),核心思想是采用有放回的采樣規(guī)則[13]。所謂有放回的采樣規(guī)則是指,在原始數(shù)據(jù)集里,隨機(jī)取出一個(gè)樣本放到新數(shù)據(jù)集中,然后將這個(gè)樣本放回到原數(shù)據(jù)集后繼續(xù)采樣。對于一個(gè)含有m個(gè)樣本的給定集合D,進(jìn)行T輪采樣,每輪采集n個(gè)數(shù)據(jù)(n≤m),從而構(gòu)成T個(gè)采樣子集Dk(k=1,2,…,T)。對T個(gè)采樣子集分別對給定的基分類器進(jìn)行訓(xùn)練,每個(gè)采樣子集都會產(chǎn)生一個(gè)弱分類器φ(x,Dk),將T個(gè)弱分類器集成為強(qiáng)分類器φ(x,D)。測試階段,強(qiáng)分類器的分類結(jié)果為T個(gè)弱分類器的簡單投票結(jié)果,即投票中占多數(shù)票數(shù)的類別作為測試樣本的類別。
由于Bagging算法的采樣子集不同,因此每個(gè)采樣子集訓(xùn)練出的基分類器具有差異。同時(shí),有放回的采樣規(guī)則保證了多個(gè)采樣子集中有重復(fù)樣本出現(xiàn),為了避免每個(gè)基分類器只用了小部分訓(xùn)練數(shù)據(jù)導(dǎo)致訓(xùn)練效果不足的情況,增強(qiáng)了集成算法的性能。
Bagging過程實(shí)現(xiàn)如圖3。
Fig.3 Flow chart of Bagging algorithm圖3 Bagging算法基本流程圖
對于基于外觀的估計(jì)離散化頭部姿態(tài)的方法,通常將頭部姿態(tài)識別視為分類問題,通過設(shè)計(jì)性能優(yōu)良的分類器對頭部姿態(tài)進(jìn)行分類。本文設(shè)計(jì)了一種基于Bagging-SVM集成分類器算法來對頭部姿態(tài)進(jìn)行估計(jì)。本文算法的核心思想是:對于一個(gè)給定的訓(xùn)練集,該訓(xùn)練集進(jìn)行T輪基于自助采樣法采樣形成T個(gè)訓(xùn)練子集,利用這T個(gè)訓(xùn)練子集進(jìn)行SVM分類器訓(xùn)練,生成T個(gè)SVM弱分類器,最后基于簡單投票的原則將T個(gè)弱分類器集成為強(qiáng)分類器。具體流程如圖4。
在對圖像進(jìn)行分析前,為了減少復(fù)雜背景以及光照變化對頭部姿態(tài)估計(jì)準(zhǔn)確率的影響,首先需要對圖像進(jìn)行預(yù)處理和檢測人臉區(qū)域。然后采用融合HOG特征和LBP(local binary pattern)特征對處理好的人臉圖片進(jìn)行特征提取,并利用主成分分析法對主元特征分量進(jìn)行選擇。最后將選擇后的特征分量輸入到Bagging-SVM集成分類器進(jìn)行頭部姿態(tài)估計(jì)。
Fig.4 Flow chart of Bagging-SVM integrated classifier algorithm圖4 Bagging-SVM集成分類器算法流程
在提取特征前,為了減少背景、光照等干擾因素對人臉特征選擇的影響,通常需要對圖片進(jìn)行預(yù)處理以及提取人臉區(qū)域。本文采用的預(yù)處理方法主要包括圖像灰度化、直方圖均衡化以及圖像歸一化三個(gè)步驟[14]。經(jīng)過預(yù)處理的圖像像素點(diǎn)在顏色空間所占字節(jié)數(shù)降低,增強(qiáng)了圖像對比度和灰度色調(diào)的變化以及提高了算法處理圖片的速度。對于人臉區(qū)域的提取,本文采用基于Adaboost 檢測人臉?biāo)惴╗15],該算法采用Haar 特征描述符表示人臉特征,通過選取的重要特征構(gòu)造多個(gè)弱分類器。將多個(gè)弱分類器組合成若干個(gè)強(qiáng)分類器,使用若干個(gè)強(qiáng)分類器構(gòu)造級聯(lián)分類器。通過該級聯(lián)分類器完成人臉區(qū)域檢測。Adaboost算法不容易出現(xiàn)過擬合現(xiàn)象,具有高檢測率和高時(shí)效性的特點(diǎn)。對于檢測到的人臉區(qū)域,將其歸一化處理成48×32像素大小的圖像,方便接下來提取不同頭部姿態(tài)中人臉特征。
3.2.1 HOG特征
方向梯度直方圖(HOG)特征是一種用來進(jìn)行物體檢測的描述因子,主要通過統(tǒng)計(jì)圖像局部區(qū)域的梯度方向直方圖來描述圖像特征[16]。在一幅圖像中,梯度或邊緣的方向密度分布能夠很好地描述圖像的局部目標(biāo)的表象和形狀。由于HOG特征是對局部區(qū)域求梯度特征值,因此提取HOG 特征對光照變化具有較好的魯棒性。
首先,在提取HOG 特征前,采用Gamma 校正法進(jìn)行顏色空間的標(biāo)準(zhǔn)化。其次,需要計(jì)算圖片中每個(gè)像素點(diǎn)的梯度,包括梯度的幅度和方向。圖像中像素點(diǎn)(x,y)的梯度為:
式中,Gx(x,y)、Gy(x,y)、H(x,y)表示像素點(diǎn)處的(x,y)水平方向梯度、垂直方向梯度和像素值。像素點(diǎn)(x,y)處的幅度值G(x,y)和梯度方向θ(x,y)為:
在完成圖片像素的梯度計(jì)算后,將圖像劃分為若干大小相同的單元細(xì)胞(cell),在每個(gè)單元細(xì)胞內(nèi)統(tǒng)計(jì)梯度信息。梯度方向范圍為(0,π],量化區(qū)間個(gè)數(shù)為n,即由一個(gè)n維向量來描述每個(gè)單元格的梯度信息。將若干個(gè)相鄰cell 組合成一個(gè)空間上連通的塊區(qū)域(block),該block 的梯度特征為所有cell 的梯度特征串聯(lián)后的結(jié)果。由于局部光照變化以及前景-背景對比度變化都會導(dǎo)致梯度幅度變化過大[17],因此需要對block 區(qū)域進(jìn)行歸一化處理。本文采用L2-norm歸一化方法:
本文采取的cell 大小為6×4 像素,block 大小為12×8像素。針對不同維數(shù)n對頭部姿態(tài)識別率的影響,在CAS-PEAL-R1 數(shù)據(jù)庫上進(jìn)行實(shí)驗(yàn)。結(jié)果如表1 所示,維度取9 時(shí),識別率最高,因此將梯度方向量化為9 個(gè)區(qū)間,對于大小為48×32 像素的圖片,HOG特征提取后的數(shù)量為576。
3.2.2 LBP特征
局部二值模式(LBP)是一種用來描述圖像局部紋理特征的圖像描述符[18]。該描述符以局部某個(gè)像素點(diǎn)的灰度值為閾值,與周圍各個(gè)鄰域像素點(diǎn)的灰度值進(jìn)行比較。若大于閾值則標(biāo)記為1,否則為0,得到的8位二進(jìn)制數(shù)即為該點(diǎn)的LBP值。
Table 1 Recognition rate based on HOG of different feature dimensions表1 不同特征維度的HOG識別率
如圖5 所示,本文將圖片分成8×8 個(gè)大小統(tǒng)一、互不重疊的圖像子塊。對每個(gè)子塊的LBP特征進(jìn)行直方圖統(tǒng)計(jì),直方圖的量化區(qū)間個(gè)數(shù)選擇為8。將所有子塊的直方圖特征級聯(lián)成圖像的特征向量,最終的特征向量的維數(shù)為512。
Fig.5 Feature extraction of LBP圖5 LBP特征提取
3.2.3 特征融合
將HOG特征ζ1和LBP特征ζ2按照式(7)進(jìn)行特征融合,得到融合特征向量Ζ,其中σ1和σ2分別為ζ1和ζ2的標(biāo)準(zhǔn)差。
本文采用融合HOG 和LBP 特征對人臉圖像進(jìn)行特征提取后得到的特征向量的維數(shù)較大,因此需要對提取的圖像特征進(jìn)行特征選擇,減少特征數(shù)量,增強(qiáng)模型的泛化能力。本文采用主成分分析法,通過線性變換將高維數(shù)據(jù)在損失最小的情況下映射到低維數(shù)據(jù),從而達(dá)到降維的目的[19]。對于樣本矩陣Dsample=[ξ1,ξ2,…,ξn],其中每個(gè)樣本ξ都是原始灰度圖像樣本向量化得到的一維圖像向量。利用式(8)中心化所有訓(xùn)練樣本,即訓(xùn)練樣本矩陣減去樣本均值得到標(biāo)準(zhǔn)訓(xùn)練矩陣:
對協(xié)方差均值Σ做特征值分解,將求得的特征值按照從大到小的順序排序可得特征值矩陣V=[λ1,λ2,…,λn],其中λ1≥λ2≥…≥λn。其對應(yīng)的特征向量組P=[P1,P2,…,Pn]稱為最優(yōu)投影向量組。取最優(yōu)投影向量組的前d個(gè)最大特征值的d個(gè)最優(yōu)向量Pd=[P1,P2,…,Pd](d≤n)用于特征映射,Pd稱為投影矩陣,也稱特征子空間。利用式(10)可以將標(biāo)準(zhǔn)化后的人臉圖像γn投影到低維空間,即可得到降維后的特征向量:
由于PCA(principal component analysis)降維維度對特征的表達(dá)能力差異較大,本文給出了不同維度下算法對頭部姿態(tài)識別的準(zhǔn)確率,結(jié)果如圖6所示。
Fig.6 PCA dimension and head pose recognition rate圖6 PCA維數(shù)與頭部姿態(tài)識別率
從圖6中可以看出,當(dāng)維數(shù)為170時(shí),頭部姿態(tài)識別準(zhǔn)確率最高,因此本文選擇降維后的特征數(shù)為170。
經(jīng)PCA特征選擇后,將最終特征輸入到Bagging-SVM集成分類器中進(jìn)行頭部姿態(tài)估計(jì)。
在圖像完成預(yù)處理,提取人臉區(qū)域以及選擇好描述人臉區(qū)域的特征符后,采用Bagging-SVM 集成分類器對圖片進(jìn)行分類訓(xùn)練。在訓(xùn)練每個(gè)弱SVM分類器時(shí),Bagging 的自助采樣過程并不會抽取測試集中的所有圖片。因此可以記錄抽取出的圖片,將剩余未被抽取到的圖片作為驗(yàn)證集驗(yàn)證每個(gè)弱分類器的分類性能,從而提高集成分類器的性能。
Bagging-SVM算法偽代碼如下:
輸入:訓(xùn)練集S={(x1,y1),(x2,y2),…,(xm,ym)};基分類器算法H;支持向量機(jī)SVM;訓(xùn)練輪數(shù)T
1.fort=1,2,…,Tdo
2.Strain,Stest←S
Bagging 從訓(xùn)練集中有放回地抽樣,其中Strain為抽出的訓(xùn)練樣本,Stest為未抽出的用于驗(yàn)證弱分類器性能的測試樣本
3.ht=H(Strain)|ht←Stest
測試樣本準(zhǔn)確率>0.5則保留該分類器,否則重新訓(xùn)練
4.end for
即多個(gè)弱分類器簡單投票。
假定弱分類器的計(jì)算復(fù)雜度為Ο(m),采樣和投票/平均復(fù)雜度為Ο(s),則本文算法復(fù)雜度為Τ×Ο(m)+Ο(s),考慮到采樣和投票/平均復(fù)雜度Ο(s)較小,Τ通常是一個(gè)不太大的常數(shù),因此本文算法與直接訓(xùn)練一個(gè)弱分類器的復(fù)雜度同階,是一個(gè)很高效的集成算法,較好地適用于多分類、回歸等任務(wù)。
本實(shí)驗(yàn)采用的數(shù)據(jù)集為Pointing'04 數(shù)據(jù)集和CAS-PEAL-R1數(shù)據(jù)集。Pointing'04數(shù)據(jù)集由15組圖像組成,每組圖像包含兩個(gè)系列的93 張不同姿態(tài)的同一人圖像。每組圖像的不同系列差別包括衣物顏色不同以及有無眼鏡等。頭部姿態(tài)方向包含俯仰角(pitch)和偏航角(yaw)兩個(gè)方向,其中俯仰角包含{-90,-75,…,75,90},共計(jì)13 個(gè)離散姿態(tài),偏航角包含{-90,-60,…,60,90},共計(jì)9 個(gè)離散姿態(tài)。CASPEAL-R1數(shù)據(jù)庫由1 040名志愿者,每人21張頭部姿態(tài)圖片,共計(jì)21 840 幅圖像組成。每個(gè)志愿者頭部姿態(tài)包括抬頭、平視、低頭3個(gè)離散俯仰角的姿態(tài)以及7個(gè)離散的偏航角的姿態(tài)。部分?jǐn)?shù)據(jù)庫圖片如圖7。
Fig.7 Part of experimental head posture library picture圖7 部分實(shí)驗(yàn)用的頭部姿態(tài)庫圖片
由于這兩個(gè)數(shù)據(jù)庫頭部姿態(tài)旋轉(zhuǎn)的角度并不相同,且實(shí)際應(yīng)用中判斷頭部姿態(tài)處于低頭或抬頭等動(dòng)作相比判斷頭部姿態(tài)具體角度更有意義。因此人為設(shè)計(jì)了9種姿態(tài)來進(jìn)行分類和識別,頭部姿態(tài)與對應(yīng)角度如表2。
Table 2 Head pose and angle表2 頭部姿態(tài)及其對應(yīng)角度
實(shí)驗(yàn)采用Python3.6 環(huán)境編程,計(jì)算機(jī)型號為Macbook Pro 13.3,處理器為2.7 GHz Intel Core i5,內(nèi)存為8 GB 1 867 MHz DDR3。對于數(shù)據(jù)集選擇,本文選擇了Pointing'04數(shù)據(jù)集的全部圖像和CAS-PEALR1數(shù)據(jù)集編號為102到900的圖片。
為了更好地評價(jià)實(shí)驗(yàn)結(jié)果,本實(shí)驗(yàn)采用準(zhǔn)確率(Precision)、召回率(Recall)和F1 值(F1-score)作為算法性能的評價(jià)指標(biāo)。先定義機(jī)器學(xué)習(xí)基礎(chǔ)評價(jià)-混淆矩陣,定義1為正類,0為反類,如表3。
Table 3 Confusion matrix表3 混淆矩陣
根據(jù)表3,各個(gè)評價(jià)指標(biāo)定義如下:
準(zhǔn)確率:用來表示被正確識別的圖片和被錯(cuò)誤識別的圖片數(shù)量之比。
召回率:用來表示被正確識別的圖片和實(shí)際圖片數(shù)量之比。
F1值:為準(zhǔn)確率和召回率的調(diào)和平均值。
由于人臉區(qū)域檢測相關(guān)研究和應(yīng)用非常成熟,且不是本文重點(diǎn),因此本文采用文獻(xiàn)[15]提供的方法完成對人臉區(qū)域的檢測和提取,并歸一化到48×32大小的灰度圖片。人臉區(qū)域提取的圖像如圖8。
Fig.8 Face area images after extraction圖8 提取后的人臉區(qū)域圖像
為了驗(yàn)證本文提出算法具有較好的性能,本文選擇了K-鄰近(K-nearest neighbor,K-NN)、線性判別分類器(LDA)、樸素貝葉斯(NB)以及支持向量機(jī)(SVM)等分類器作為對比實(shí)驗(yàn)。表4 和表5 分別對比了不同分類器在CAS-PEAL-R1 數(shù)據(jù)集和Pointing'04數(shù)據(jù)集上頭部姿態(tài)識別準(zhǔn)確率。從表中結(jié)果可以看出:
(1)與HOG 特征和LBP 特征相比,本文提出的融合HOG和LBP特征具有更高的頭部姿態(tài)識別率。
(2)經(jīng)過PCA 特征選擇后的頭部姿態(tài)識別率相比于不進(jìn)行特征選擇的頭部姿態(tài)識別率更高,在各個(gè)分類器的識別準(zhǔn)確率都有提升。說明經(jīng)過PCA特征選擇能夠進(jìn)一步提高系統(tǒng)的頭部姿態(tài)識別能力。
(3)本文提出的Bagging-SVM 分類器相比其他常用的分類器在兩個(gè)數(shù)據(jù)集上都有更好的性能。相比識別率最低的K-NN算法在CAS-PEAL-R1數(shù)據(jù)集和Pointing '04 數(shù)據(jù)集的識別率分別為88.32%和86.78%,本文提出的算法識別率為96.41%和93.21%,提高了8.09%和6.43%。相比識別率最高的SVM 算法在CAS-PEAL-R1 數(shù)據(jù)集和Pointing '04 數(shù)據(jù)集的識別率分別為93.57%和91.33%,本文算法提高了2.84%和2.09%。
Table 4 Test result of different classifiers on CAS-PEAL-R1 dataset表4 不同分類器在CAS-PEAL-R1數(shù)據(jù)集測試結(jié)果 %
Table 5 Test result of different classifiers on Pointing'04 dataset表5 不同分類器在Pointing'04數(shù)據(jù)集測試結(jié)果 %
表6 和表7 分別對比了本文算法與近年文獻(xiàn)提出的算法在Pointing '04 數(shù)據(jù)集和CAS-PEAL-R1 數(shù)據(jù)集上所取得的實(shí)驗(yàn)結(jié)果。實(shí)驗(yàn)結(jié)果表明,本文提出的算法性能在兩個(gè)數(shù)據(jù)集上均好于近年來一些研究成果,說明本文算法對于頭部姿態(tài)的估計(jì)達(dá)到了不錯(cuò)的效果。
Table 6 Result of different methods on CAS-PEAL-R1 dataset表6 不同方法在CAS-PEAL-R1數(shù)據(jù)集結(jié)果
Table 7 Result of different methods on Pointing'04 dataset表7 不同方法在Pointing'04數(shù)據(jù)集結(jié)果
為了驗(yàn)證本文算法對光照干擾具有良好的魯棒性,實(shí)驗(yàn)采集了35名志愿者在強(qiáng)光照、弱光照和正常光照條件下各9種姿態(tài),共計(jì)945張實(shí)驗(yàn)圖片。部分圖片如圖9。
Fig.9 Partial head posture picture under different illumination圖9 不同光照條件下部分頭部姿態(tài)圖片
圖10為不同光照強(qiáng)度下本文提出的算法在各個(gè)姿態(tài)上識別準(zhǔn)確率。從圖中可以看出,強(qiáng)光照和弱光照與正常光照趨勢大致相同,說明強(qiáng)、弱光照對各種頭部姿態(tài)識別準(zhǔn)確率的影響不大。3 個(gè)折線波動(dòng)較為平緩,說明本文提出的算法在各個(gè)頭部姿態(tài)上都具有較好的識別性能。
Fig.10 Recognition accuracy of each gesture under different illumination圖10 不同光照強(qiáng)度下各個(gè)姿態(tài)識別準(zhǔn)確率
本文提出了一種基于Bagging-SVM集成分類器進(jìn)行頭部姿態(tài)估計(jì)的方法。該方法通過提取融合的HOG和LBP人臉特征,并引入PCA變換進(jìn)行特征選擇。用設(shè)計(jì)好的Bagging-SVM集成分類器對特征進(jìn)行訓(xùn)練。在Pointing'04 數(shù)據(jù)集、CAS-PEAL-R1 數(shù)據(jù)集和自建數(shù)據(jù)集上進(jìn)行驗(yàn)證實(shí)驗(yàn),實(shí)驗(yàn)結(jié)果表明相比常用的分類算法和近年最新算法,本文提出的算法具有更好的性能,并對光照變化干擾具有較好的魯棒性。