劉袁緣陳靚影俞 侃覃 杰陳超原
①(文華學(xué)院 武漢 430074)
②(華中師范大學(xué)國(guó)家數(shù)字化學(xué)習(xí)工程研究中心 武漢 430079)
③(武漢華中數(shù)控股份有限公司紅外事業(yè)部 430074)
樹結(jié)構(gòu)分層隨機(jī)森林是在每一個(gè)分支層上有選擇性的級(jí)聯(lián)子森林。當(dāng)?shù)竭_(dá)下一分支層時(shí),它需要做出判斷加載哪一顆子森林。因?yàn)樵诓煌浇嵌认仑Q直角度的估計(jì)投票仍滿足高斯模型分布,所以我們提出一個(gè)自適應(yīng)高斯混合模型來投票最終的頭部姿態(tài)。改進(jìn)公式C(P)得到:
基于樹結(jié)構(gòu)分層隨機(jī)森林在非約束環(huán)境下的頭部姿態(tài)估計(jì)
劉袁緣①②陳靚影*②俞 侃①覃 杰③陳超原①
①(文華學(xué)院 武漢 430074)
②(華中師范大學(xué)國(guó)家數(shù)字化學(xué)習(xí)工程研究中心 武漢 430079)
③(武漢華中數(shù)控股份有限公司紅外事業(yè)部 430074)
頭部姿態(tài)估計(jì)是人類行為和注意力的關(guān)鍵,受到光照、噪聲、身份、遮擋等許多因素的影響。為了提高非約束環(huán)境下的估計(jì)準(zhǔn)確率和魯棒性,該論文提出了樹結(jié)構(gòu)分層隨機(jī)森林在非約束環(huán)境下的多類頭部姿態(tài)估計(jì)。首先,為了消除不同環(huán)境的噪聲影響,提取人臉區(qū)域的組合紋理特征,對(duì)人臉區(qū)域進(jìn)行積極人臉子區(qū)域的分類,分類結(jié)果作為樹結(jié)構(gòu)分層隨機(jī)森林的先驗(yàn)知識(shí)輸入;其次,提出了一種樹結(jié)構(gòu)分層隨機(jī)森林算法,分層估計(jì)多自由度下的頭部姿態(tài);再次,為了增強(qiáng)算法的分類能力,使用自適應(yīng)高斯混合模型作為多層次子森林葉子節(jié)點(diǎn)的投票模型。在多個(gè)公共數(shù)據(jù)集上的多種非約束實(shí)驗(yàn)環(huán)境下進(jìn)行頭部姿態(tài)估計(jì),最終實(shí)驗(yàn)結(jié)果表明所提算法在不同質(zhì)量的圖像上都有很好的估計(jì)準(zhǔn)確率和魯棒性。
頭部姿態(tài)估計(jì);非約束環(huán)境;樹結(jié)構(gòu)分層隨機(jī)森林;人臉積極子區(qū)域先驗(yàn)分類;自適應(yīng)高斯混合模型
頭部姿態(tài)是研究人類行為和注意力的關(guān)鍵[1]。因此,在許多智能系統(tǒng)中非約束環(huán)境下的頭部姿態(tài)估計(jì)是檢測(cè)人類身份和行為的重要環(huán)節(jié)。但是非約束環(huán)境中的投影幾何形變、背景光照變化、前景遮擋問題和低分辨率等因素的影響,使得頭部姿態(tài)的多自由度估計(jì)一直是一個(gè)富有挑戰(zhàn)性的領(lǐng)域[2]。已有的一些頭部姿態(tài)估計(jì)方法根據(jù)特征選擇的不同,大致可以分為基于局部特征的方法和基于全局處理的方法。前者依賴于局部點(diǎn)特征的提取,后者則是對(duì)整個(gè)人臉區(qū)域進(jìn)行處理?;诰植刻卣鞯姆椒ㄍǔO忍崛∪四樀奶卣鼽c(diǎn),如眼睛點(diǎn)、眉毛點(diǎn)以及嘴角等,它主要適用于高精度的系統(tǒng)和人臉的高分辨率圖像[3]。對(duì)于非約束的環(huán)境下,有很強(qiáng)的局限性。而基于全局的方法的優(yōu)勢(shì)是只需要處理整個(gè)人臉的圖像區(qū)域而不需要提取局部的點(diǎn)特征,適用于低質(zhì)量低分辨率的圖像估計(jì)?;谌值姆椒ㄖ饕怯脵C(jī)器學(xué)習(xí)和模式識(shí)別的算法,如模板匹配算法、多分類器陣列算法[4]、SVM[5]、隨機(jī)森林[6]、Adoboost等。
隨機(jī)森林[7]因?yàn)榫哂锌焖偬幚泶髷?shù)據(jù)的訓(xùn)練能力和高效的在線計(jì)算能力,成為近年來機(jī)器視覺中處理大數(shù)據(jù)量的熱門方法之一。最近,隨機(jī)森林已經(jīng)應(yīng)用于實(shí)時(shí)的2D頭部姿態(tài)的估計(jì)和分類[8]以及3D圖像的頭部姿態(tài)識(shí)別[9-11]。文獻(xiàn)[6]提出了條件隨機(jī)森林來檢測(cè)2D頭部姿態(tài)估計(jì)和人臉特征點(diǎn)。其在水平自由度的5個(gè)旋轉(zhuǎn)角度可達(dá)到識(shí)別率72.3%。文獻(xiàn)[4]使用組合回歸和分類隨機(jī)森林的算法,獲得了較好的估計(jì)效果。但是對(duì)環(huán)境的要求都有一定的限制性。為了在非約束環(huán)境下進(jìn)行多類頭部姿態(tài)的準(zhǔn)確估計(jì),本文提出了樹結(jié)構(gòu)分層隨機(jī)森林算法,用于非約束環(huán)境下頭部姿態(tài)的多自由度的魯棒估計(jì)。
樹結(jié)構(gòu)的分層概率模型是文獻(xiàn)[12]提出的,已經(jīng)證明了它的高效率和高準(zhǔn)確率,許多文獻(xiàn)也已經(jīng)用它進(jìn)行多目標(biāo)跟蹤和情感計(jì)算。樹結(jié)構(gòu)的分層概率模型每一層節(jié)點(diǎn)概率是其上一層節(jié)點(diǎn)概率和分支選擇概率的結(jié)果,即每一個(gè)子層都收到其父層的影響。每次計(jì)算樹的概率時(shí),只需要用相關(guān)分支上的節(jié)點(diǎn)概率,而不需要計(jì)算整棵樹所有節(jié)點(diǎn)的概率。因此引入樹結(jié)構(gòu)分層隨機(jī)森林具有更高的效率和準(zhǔn)確率。
本文的創(chuàng)新點(diǎn)如下:(1)積極人臉子區(qū)域的先驗(yàn)分類可以消除不同環(huán)境下的噪聲影響;(2)一種樹結(jié)構(gòu)的多層隨機(jī)森林算法的提出,提高了非約束環(huán)境下多類頭部姿態(tài)估計(jì)的準(zhǔn)確率和效率;(3)自適應(yīng)高斯混合模型作為多層次子森林葉子節(jié)點(diǎn)的投票模型使得分類結(jié)果具有更強(qiáng)的魯棒性。
為了更好地在非約束環(huán)境下對(duì)多自由度的頭部姿態(tài)進(jìn)行估計(jì),本文提出了基于樹結(jié)構(gòu)分層隨機(jī)森林的多層估計(jì)算法。算法如圖1所示,分為3個(gè)階段。第1階段,為了消除非約束復(fù)雜背景的干擾,我們提取了人臉積極的子區(qū)域塊作為分層隨機(jī)森林的先驗(yàn)輸入;第2個(gè)階段本文提出樹結(jié)構(gòu)分層隨機(jī)森林來估計(jì)水平頭部姿態(tài),級(jí)聯(lián)分布的兩個(gè)子層次為S-1和S-2;第3個(gè)階段在水平頭部姿態(tài)估計(jì)結(jié)果的條件下進(jìn)行豎直方向的頭部姿態(tài)估計(jì),其中級(jí)聯(lián)分布的兩個(gè)子層為S-3和S-4。最終在S-4子層得到25對(duì)頭部姿態(tài)的估計(jì)結(jié)果。
2.1 人臉子區(qū)域的先驗(yàn)分類
對(duì)于頭部姿態(tài)估計(jì)有兩個(gè)難點(diǎn),一個(gè)是正確提取人臉區(qū)域,一個(gè)是非約束背景的影響。在非約束背景中提取人臉的前景目標(biāo)區(qū)域,首先要去除背景信息的干擾,包括頭發(fā)、遮擋、背景、光照等。因此,我們將人臉子區(qū)域分為兩個(gè)子區(qū)域:人臉積極子區(qū)域和干擾子區(qū)域。人臉積極子區(qū)域是去除噪聲的區(qū)域,對(duì)頭部姿態(tài)的估計(jì)有積極的影響,反之為干擾區(qū)域,如圖2所示,并將分類結(jié)果作為頭部姿態(tài)估計(jì)的先驗(yàn)知識(shí)。
為了去除干擾子區(qū)域塊對(duì)頭部姿態(tài)的影響,我們用Haar特征檢測(cè)到的人臉區(qū)域進(jìn)行人臉積極子區(qū)域塊的先驗(yàn)分類。如圖3所示。首先,對(duì)人臉區(qū)域隨機(jī)提取200個(gè)子區(qū)域塊,并提取每個(gè)子區(qū)域塊的Gabor特征符。然后,我們用分類隨機(jī)森林[4]離線訓(xùn)練人臉積極子區(qū)域和干擾子區(qū)域類,并用1和0 分別進(jìn)行標(biāo)注。分類隨機(jī)森林的計(jì)算過程是每顆決策樹迭代的過程, 森林中的每一棵樹T都是由標(biāo)注好的隨機(jī)提取的數(shù)據(jù)集訓(xùn)練生成。當(dāng)測(cè)試數(shù)據(jù)P通過樹的根節(jié)點(diǎn)到達(dá)其葉子節(jié)點(diǎn)時(shí),存儲(chǔ)在葉子結(jié)點(diǎn)的概率密度p(c=k|lt(P))將判斷測(cè)試數(shù)據(jù)P的類別信息。對(duì)于每個(gè)葉子結(jié)點(diǎn)的子區(qū)域塊的分類概率直接作為頭部姿態(tài)估計(jì)的先驗(yàn)輸入,僅僅對(duì)分類結(jié)果為1的人臉積極子區(qū)域塊進(jìn)行頭部姿態(tài)的估計(jì)。
2.2 樹結(jié)構(gòu)分層隨機(jī)森林的訓(xùn)練
圖1 基于樹結(jié)構(gòu)分層隨機(jī)森林的頭部姿態(tài)估計(jì)算法流程圖
圖2 人臉積極子區(qū)域和背景干擾子區(qū)域
圖3 人臉積極子區(qū)域的先驗(yàn)分類
圖4 樹結(jié)構(gòu)分布的多層概率模型
樹結(jié)構(gòu)是一種級(jí)聯(lián)式的多層概率分布模型,它的當(dāng)前葉子節(jié)點(diǎn)概率[p1,…,pi]是它上一層節(jié)點(diǎn)概率的[a1,a2,…,ak]在其相關(guān)分支bji上的結(jié)果[9]。圖4中,i 表示葉子節(jié)點(diǎn)的序號(hào),k 是它上一層節(jié)點(diǎn)的序號(hào),j表示該分支號(hào)。可見在樹結(jié)構(gòu)分布的概率模型中,每一個(gè)子層只與它的父層有關(guān)。因此,樹結(jié)構(gòu)分布的多層概率模型中,只需要計(jì)算子層中當(dāng)前子樹的概率模型和它父層的先驗(yàn)概率模型,而不需要計(jì)算隨機(jī)森林中所有樹的概率模型。所以,樹結(jié)構(gòu)的分層概率模型可以提供更好的準(zhǔn)確率和效率。
為了構(gòu)建樹結(jié)構(gòu)分層隨機(jī)森林來估計(jì)多自由度的頭部姿態(tài),我們需要:
(4)定義存儲(chǔ)在葉子結(jié)點(diǎn)的自適應(yīng)投票模型。
級(jí)連標(biāo)注 訓(xùn)練的過程是監(jiān)督的,森林中每一棵樹T的建立都是在不同的數(shù)據(jù)集中隨機(jī)訓(xùn)練而成T={Tt}。對(duì)每一張人臉圖像,我們隨機(jī)提取人臉子區(qū)域塊集的組合特征:。其中,表示Gabor特征,它的空間維度是35×31×31。為原始的灰度值,它的空間維度是31×31。ci表示頭部姿態(tài)類的標(biāo)注:
(2)定義二進(jìn)制測(cè)試φ;
(3)定義級(jí)聯(lián)式樹結(jié)構(gòu)隨機(jī)森林的測(cè)度
二進(jìn)制測(cè)試 二進(jìn)制測(cè)試是在子集中不斷地逼近類標(biāo)注不確定性純度的過程,最終將訓(xùn)練集分裂成2個(gè)子集。隨機(jī)樹的生長(zhǎng)就是一個(gè)由二進(jìn)制測(cè)試創(chuàng)建子節(jié)點(diǎn)的迭代過程。我們定義二進(jìn)制測(cè)試φ為
其中,R1,R2是人臉子區(qū)域中的兩個(gè)隨機(jī)選取的矩形子塊,If(j)是上一部分定義好的特征通道,τ是閾值。開始測(cè)試,當(dāng)測(cè)試結(jié)果大于τ時(shí),生成右子節(jié)點(diǎn),反之生成左子節(jié)點(diǎn)。
樹狀條件測(cè)度H(P|aj) 在這部分,測(cè)度H(P|aj)定義為連續(xù)子區(qū)域的熵。
其中p(ci|aj,Pn)表示人臉子區(qū)域塊 Pn在分層隨機(jī)森林的第 j 層第aj子森林中屬于頭部姿態(tài)類ci的概率,|P|是頭部姿態(tài)類為ci的人臉子區(qū)域塊的數(shù)量。選擇最佳分裂申請(qǐng),它可以使得信息增益(IG)估計(jì)函數(shù)最大wL, wR是數(shù)據(jù)集 PL(通過上述二進(jìn)制測(cè)試到達(dá)左子集的數(shù)量)PR(通過上述二進(jìn)制測(cè)試到達(dá)右子集的數(shù)量)的樣本數(shù)量和總數(shù)據(jù)集 P 的比率。
葉子 如果信息增益(IG)低于預(yù)先設(shè)定的閾值或者樹的最大深度達(dá)到時(shí),生產(chǎn)一個(gè)葉子節(jié)點(diǎn)。在每一個(gè)葉子結(jié)點(diǎn)中,包括了頭部姿態(tài)的分類概率和連續(xù)頭部姿態(tài)分布參數(shù),其滿足一個(gè)高斯概率分布模型。
當(dāng)一個(gè)子區(qū)域塊到達(dá)子森林的葉子節(jié)點(diǎn)時(shí),我們用類決策模型C(P)加載下一個(gè)子森林樹。
其中,p(ci|aj,P)是森林中的第 j 層中子森林 aj的條件下的估計(jì)概率,它由下一節(jié)所述的自適應(yīng)高斯混合模型計(jì)算得到。最終的頭部姿態(tài)由自適應(yīng)混合高斯模型進(jìn)行投票分類。
自適應(yīng)高斯混合模型 存儲(chǔ)在葉子的概率p(c=k|P)具有判斷測(cè)試子區(qū)域塊屬于頭部姿態(tài)類k的信息。隨機(jī)森林的葉子結(jié)點(diǎn)l存儲(chǔ)符合多項(xiàng)式高斯分布。
樹結(jié)構(gòu)分層隨機(jī)森林是在每一個(gè)分支層上有選擇性的級(jí)聯(lián)子森林。當(dāng)?shù)竭_(dá)下一分支層時(shí),它需要做出判斷加載哪一顆子森林。因?yàn)樵诓煌浇嵌认仑Q直角度的估計(jì)投票仍滿足高斯模型分布,所以我們提出一個(gè)自適應(yīng)高斯混合模型來投票最終的頭部姿態(tài)。改進(jìn)公式C(P)得到:
i是樹結(jié)構(gòu)分層隨機(jī)森林的子分支,j是分支i的子節(jié)點(diǎn),k是子區(qū)域塊達(dá)到的葉子結(jié)點(diǎn)中存儲(chǔ)的標(biāo)注姿態(tài)。
2.3 基于樹結(jié)構(gòu)分層隨機(jī)森林的水平頭部姿態(tài)估計(jì)
由于水平自由度旋轉(zhuǎn)包含更多的頭部姿態(tài)信息,如眼睛、鼻尖和嘴角的信息,因此我們將其作為樹結(jié)構(gòu)分層隨機(jī)森林估計(jì)頭部姿態(tài)的第1層和第2層,如圖5所示。如2.2節(jié)訓(xùn)練樹結(jié)構(gòu)分層隨機(jī)森林的子森林。首先,量化訓(xùn)練數(shù)據(jù)在水平子層S-1和S-2的相關(guān)頭部姿態(tài)子集“左”,“正面”,“右”和“正左”,“左中”,“正面”,“右中”,“正右”,并分別用標(biāo)注“-1, 0, 1”和“-2, -1, 0, 1, 2”代替真實(shí)的頭部姿態(tài)旋轉(zhuǎn)角度-90°~90°。然后將估計(jì)結(jié)果(水平旋轉(zhuǎn)角度)a 作為豎直估計(jì)的父層概率模型 p(ci| a)。
2.4 基于樹結(jié)構(gòu)分層隨機(jī)森林的豎直頭部姿態(tài)估計(jì)
圖5 水平方向的分層頭部姿態(tài)估計(jì)
樹結(jié)構(gòu)分層隨機(jī)森林級(jí)聯(lián)第3層S-3和第4層S-4,在水平自由度的估計(jì)條件下進(jìn)行豎直自由度的頭部姿態(tài)估計(jì)。由于缺少更多的人臉信息,豎直自由度估計(jì)是頭部姿態(tài)估計(jì)領(lǐng)域的一個(gè)難點(diǎn)。文獻(xiàn)[8]用隨機(jī)森林同時(shí)訓(xùn)練和測(cè)試水平和豎直自由度的頭部姿態(tài)。本文則提出了一個(gè)樹結(jié)構(gòu)分層隨機(jī)森林方法來分層估計(jì)水平和豎直多自由度的頭部姿態(tài)。我們將水平自由度的估計(jì)結(jié)果作為豎直自由度的估計(jì)條件輸入,然后對(duì)每一個(gè)分支樹進(jìn)行3類豎直頭部姿態(tài)估計(jì),最后對(duì)左子類和右子類再次進(jìn)行細(xì)化估計(jì)角度,最終估計(jì)出5類豎直頭部姿態(tài)。級(jí)聯(lián)細(xì)化算法的流程結(jié)構(gòu)如圖6所示。其中a 為水平方向的估計(jì)結(jié)果,級(jí)聯(lián)分支估計(jì)為豎直估計(jì)中3類角度的粗糙估計(jì)結(jié)果,最終細(xì)化估計(jì)為豎直估計(jì)中的最終細(xì)化估計(jì)結(jié)果。由于2.3節(jié)中水平估計(jì)的結(jié)果為5類水平旋轉(zhuǎn)角度,因此圖6由5棵相同的獨(dú)立子森林構(gòu)成。在這個(gè)階段,我們最終可以檢測(cè)25個(gè)離散的頭部運(yùn)動(dòng)角度,檢測(cè)結(jié)果表示為 {90°,90°}, {90°,45°},…,{0°,0°},…,{-45°,-90°},{-90°,-90°}。
圖6 豎直方向的分層頭部姿態(tài)估計(jì)
隨機(jī)森林的目標(biāo)是通過葉子結(jié)點(diǎn)構(gòu)建人臉子區(qū)域塊P的類概率估計(jì)p(ci|P)[6], 樹結(jié)構(gòu)分層隨機(jī)森林模型的目標(biāo)則是構(gòu)建樹結(jié)構(gòu)分層的先驗(yàn)條件概率估計(jì)p(ci|α,P),本文改進(jìn)隨機(jī)森林的概率模型為
式中,α是上一層估計(jì)的概率結(jié)果。
為了學(xué)習(xí)p(ci,α|P),訓(xùn)練集α被分裂為不相交的離散子集aj。因此,式(6)可改寫為
先驗(yàn)概率p(ci|aj,p)可以在每一個(gè)訓(xùn)練子集aj中用改層的子隨機(jī)森林T(aj)學(xué)習(xí)得到。同樣地,概率p(α|P)可以在所有的訓(xùn)練集a上用隨機(jī)森林學(xué)習(xí)得到。最終,得到不同分支上的多層概率模型為
其中l(wèi)t,aj表示子區(qū)域塊P在樹 Tt∈T(aj)中到達(dá)的葉子結(jié)點(diǎn)。離散值kj由∑jkj=Tt和式(12)計(jì)算得到。
為了測(cè)試在非約束環(huán)境下的估計(jì)結(jié)果,我們?cè)赑ointing’04頭部姿態(tài)數(shù)據(jù)庫[13],LFW數(shù)據(jù)庫[14]以及實(shí)驗(yàn)室實(shí)時(shí)采集的數(shù)據(jù)集上測(cè)試本文的方法。Pointing’04頭部姿態(tài)數(shù)據(jù)庫是包括15個(gè)人的兩種不同表情的頭部姿態(tài)數(shù)據(jù)庫,共有2790張圖片。LFW數(shù)據(jù)庫包含5749個(gè)不同個(gè)體的人臉圖片,這些圖片都是自然狀態(tài)下收集的,包括不同的姿態(tài)、光照、分辨率、質(zhì)量、表情、性別、種族等。我們實(shí)驗(yàn)室的實(shí)時(shí)數(shù)據(jù)集收集了20個(gè)不同人的不同姿態(tài)、表情、遮擋的圖片,其中包括10個(gè)男性,10個(gè)女性,每個(gè)人包括25個(gè)頭部姿態(tài),總共500張圖片。本文數(shù)據(jù)集的標(biāo)注方法參考LFW數(shù)據(jù)庫[14]的標(biāo)注方法。實(shí)驗(yàn)過程中,數(shù)據(jù)集被分為訓(xùn)練數(shù)據(jù)集和測(cè)試數(shù)據(jù)集。訓(xùn)練集采用Pointing’04數(shù)據(jù)庫中的2100張圖片,LFW中12000張圖片以及實(shí)驗(yàn)室數(shù)據(jù)庫的300張圖片。測(cè)試集包括Pointing’04數(shù)據(jù)庫中剩余的690張圖片,LFW數(shù)據(jù)庫的1500張圖片和實(shí)驗(yàn)室采集的實(shí)時(shí)數(shù)據(jù)庫的200張圖片。所有圖片都是在包括遮擋、低分辨率、性別、背景干擾、種族等非約束的環(huán)境中采集的,估計(jì)結(jié)果如圖7所示。第1行為加入噪聲遮擋的Pointing’04頭部姿態(tài)數(shù)據(jù)庫的估計(jì)結(jié)果,第2行為自然環(huán)境下實(shí)驗(yàn)室數(shù)據(jù)集的估計(jì)結(jié)果,第3行為L(zhǎng)FW數(shù)據(jù)庫的估計(jì)結(jié)果。估計(jì)結(jié)果實(shí)時(shí)地顯示在圖片中,實(shí)驗(yàn)結(jié)果表明本文方法對(duì)于非約束環(huán)境下具有更好的魯棒性。
4.1 訓(xùn)練
圖7 本文方法在非約束環(huán)境下的估計(jì)結(jié)果
圖8 樹的數(shù)量、最大深度、分裂次數(shù)對(duì)估計(jì)結(jié)果的誤差分析
為了訓(xùn)練,需要對(duì)隨機(jī)森林的一些預(yù)設(shè)參數(shù)進(jìn)行分析。圖8描述了樹的數(shù)量、最大深度和分裂次數(shù)對(duì)估計(jì)結(jié)果的誤差分析曲線。估計(jì)誤差隨著樹數(shù)量的增加,樹的最大深度增加以及分裂次數(shù)的增加而減少,當(dāng)參數(shù)值增加到一定程度,對(duì)誤差估計(jì)率的影響很小。因此,本文選擇樹的最大深度為15,每一個(gè)節(jié)點(diǎn)的隨機(jī)分裂次數(shù)是2000,分裂閾值為25,人臉大小歸一化為125125×,人臉子區(qū)域塊大小為3030×。訓(xùn)練時(shí),首先以分層結(jié)構(gòu)的方式從所有的數(shù)據(jù)集中選擇子集,每186張圖片組成一個(gè)子集訓(xùn)練成一棵樹。樹結(jié)構(gòu)分層森林包括4層,第1層水平自由度有15顆隨機(jī)樹,第2層水平自由度有10顆隨機(jī)樹,第3層豎直自由度有15課隨機(jī)樹,最后一層豎直自由度有25顆隨機(jī)樹。且每一層的訓(xùn)練都是上一層條件分支的結(jié)果。
4.2 測(cè)試
測(cè)試數(shù)據(jù)集包括Pointing’04頭部姿態(tài)數(shù)據(jù)庫中沒有用于訓(xùn)練的840張圖片,1500張LFW數(shù)據(jù)庫圖片,以及200實(shí)驗(yàn)室數(shù)據(jù)集。測(cè)試參數(shù)選擇包括隨機(jī)森林的參數(shù)(與訓(xùn)練保持一致)、子森林的樹分支數(shù),自適應(yīng)高斯混合模型參數(shù)。由于圖像Gabor特征包含了方向信息,對(duì)于光照和旋轉(zhuǎn)具有很好的魯棒性。我們從測(cè)試圖片中稠密提取200個(gè)人臉積極子區(qū)域,并提取子區(qū)域的Gabor特征進(jìn)行測(cè)試。
由于樹結(jié)構(gòu)分層隨機(jī)森林實(shí)際上是將隨機(jī)森林以樹狀結(jié)構(gòu)條件模型進(jìn)行重新分布,因此它具有更高的搜索決策效率和準(zhǔn)確率。為了比較本文方法與隨機(jī)森林的估計(jì)能力,圖9描述了隨機(jī)森林進(jìn)行頭部姿態(tài)估計(jì)的所有的估計(jì)概率投票分布,圖10~圖12描述了本文方法對(duì)頭部姿態(tài)的估計(jì)概率分布。如圖所示,隨機(jī)森林的概率分布在不同的姿態(tài)類上有高度的重合,而本文方法在最終的概率分布上基本沒有重合??梢?,本文方法提高了時(shí)間和空間資源的利用率,同時(shí)消除了水平自由度旋轉(zhuǎn)和豎直自由度旋轉(zhuǎn)的干擾,具有更強(qiáng)的區(qū)分力和分類能力。
4.3 估計(jì)準(zhǔn)確率比較和分析
為了更好地比較樹結(jié)構(gòu)分層隨機(jī)森林和隨機(jī)森林算法,兩個(gè)算法的測(cè)試過程選擇相同的測(cè)試圖片,相同的特征參數(shù)。實(shí)驗(yàn)結(jié)果如表1所示,其中列D描述樹結(jié)構(gòu)分層隨機(jī)森林算法的估計(jì)準(zhǔn)確率,列R描述隨機(jī)算法的估計(jì)準(zhǔn)確率。每個(gè)方格均為離散的不重復(fù)的45°×45°區(qū)域。樹結(jié)構(gòu)分層隨機(jī)森林算法的平均準(zhǔn)確率可以達(dá)到71.83%,而隨機(jī)森林只能達(dá)到62.23%。
4.4 樹結(jié)構(gòu)分層隨機(jī)森林的級(jí)聯(lián)層數(shù)分析
圖9 隨機(jī)森林不同姿態(tài)類上的估計(jì)概率投票分布
圖10 樹結(jié)構(gòu)分層隨機(jī)森林在水平方向上的估計(jì)概率投票分布
圖11 樹結(jié)構(gòu)分層隨機(jī)森林的豎直自由度下的估計(jì)概率投票分布
圖12 樹結(jié)構(gòu)分層隨機(jī)森林的最終概率投票分布
表1 隨機(jī)森林(R)和本文算法(D)的估計(jì)準(zhǔn)確率(%)
圖13 樹結(jié)構(gòu)分層隨機(jī)森林的估計(jì)準(zhǔn)確率與級(jí)聯(lián)子樹層的關(guān)系
圖13顯示估計(jì)準(zhǔn)確率與級(jí)聯(lián)層數(shù)的關(guān)系,S-0表示為1層樹分布的25類頭部姿態(tài)估計(jì)準(zhǔn)確率為62.23%, S-2為2層樹分布的估計(jì)準(zhǔn)確率上升為67.72%, S-3為增加3層樹分布后得到的25類頭部姿態(tài)估計(jì)準(zhǔn)確率上升為70.11%, S-4為增加4層數(shù)分布的25類估計(jì)準(zhǔn)確率提高到71.38%。
4.5 估計(jì)準(zhǔn)確率
表2給出了一些不同分類算法的比較實(shí)驗(yàn)結(jié)果。結(jié)果顯示本文分層算法對(duì)兩個(gè)自由度下的25類頭部姿態(tài)估計(jì)有最佳的估計(jì)效果。
表2 不同算法的準(zhǔn)確率比較
4.6 實(shí)時(shí)性比較
所有的實(shí)驗(yàn)都是基于硬件PC Intel(R)Core (TM) i5-2400 CPU@ 3.10 GHz, 32 bit的系統(tǒng),軟件為Microsoft Visual Studio2010++平臺(tái)。隨機(jī)選擇數(shù)據(jù)庫中的200張圖片,計(jì)算它們的平均運(yùn)行時(shí)間。表3描述了本文算法和最新算法的平均運(yùn)行時(shí)間μ的比較。本文算法的運(yùn)行時(shí)間最短。
表3 本文算法與隨機(jī)森林算法的運(yùn)行時(shí)間比較(s)
本文提出了一種能提高魯棒性和準(zhǔn)確性的頭部姿態(tài)估計(jì)方法,對(duì)于非約束環(huán)境下的兩個(gè)自由度旋轉(zhuǎn)的多類頭部姿態(tài)估計(jì)有較好的效果。首先,為了消除不同環(huán)境的噪聲影響,我們提取人臉區(qū)域的組合紋理特征,對(duì)人臉區(qū)域進(jìn)行積極人臉子區(qū)域的分類,分類結(jié)果作為樹結(jié)構(gòu)分層隨機(jī)森林的先驗(yàn)知識(shí)輸入;第二,提出了一種樹結(jié)構(gòu)分層隨機(jī)森林算法,分層估計(jì)多自由度下的頭部姿態(tài);第三,為了增強(qiáng)算法的分類能力,本文使用自適應(yīng)高斯混合模型作為多層次子森林葉子節(jié)點(diǎn)的投票模型。最后3個(gè)不同數(shù)據(jù)集上的測(cè)試實(shí)驗(yàn)表明本文方法比現(xiàn)有的先進(jìn)算法具有更好的估計(jì)準(zhǔn)確率和實(shí)時(shí)性。下一步我們將針對(duì)大場(chǎng)景下的多人頭部姿態(tài)估計(jì),建立估計(jì)模型,對(duì)于頭發(fā)和眼睛的遮擋建立更加魯棒的特征模型。
[1] Zhang M, Li K, and Liu Y. Head pose estimation from low-resolution image with Hough forest[C]. 2010 IEEE Chinese Conference on Pattern Recognition (CCPR), Chongqing, China, 2010: 1-5.
[2] Cai Q, Sankaranarayanan A, Zhang Q, et al.. Real time head pose tracking from multiple cameras with a generic model[C]. 2010 IEEE Computer Society Conference on Computer Vision and Pattern Recognition Workshops (CVPRW), San Francisco, CA, 2010: 25-32.
[3] Martinovi A, Mathias M, Weissenberg J, et al.. A Threelayered Approach to Facade Parsing[M]. Computer Vision-ECCV 2012, Springer Berlin Heidelberg, Florence, Italy, 2012: 416-429.
[4] Guo G, Fu Y, Dyer C R, et al.. Head pose estimation: Classification or regression?[C]. 19th IEEE International Conference on Pattern Recognition, Tampa, FL, USA, 2008: 1-4.
[5] Murphy-Chutorian E and Trivedi M M. Head pose estimation in computer vision: a survey[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2009, 31(4): 607-626.
[6] Dantone M, Gall J, Fanelli G, et al.. Real-time facial feature detection using conditional regression forests[C]. 25th IEEE Conference on Computer Vision and Pattern Recognition (CVPR), Providence, Rhode Island, 2012: 2578-2585.
[7] Breiman L. Random forests[J]. Machine Learning, 2001, 45(1): 5-32.
[8] Huang C, Ding X, and Fang C. Head pose estimation based on random forests for multiclass classification[C]. 20th IEEE International Conference on Pattern Recognition (ICPR), Istanbul, Turkey, 2010: 934-937.
[9] Fanelli G, Gall J, and Van Gool L. Real time head pose estimation with random regression forests[C]. 24th IEEE Conference on Computer Vision and Pattern Recognition (CVPR), Colorado Springs, 2011: 617-624.
[10] Fanelli G, Weise T, Gall J, et al.. Real Time Head PoseEstimation from Consumer Depth Cameras[M]. England, Pattern Recognition, Springer Berlin Heidelberg, 2011: 101-110.
[11] Li Y, Wang S, and Ding X. Person-independent head pose estimation based on random forest regression[C]. 17th IEEE International Conference on Image Processing (ICIP), Hong Kong, China, 2010: 1521-1524.
[12] Minka T. The dirichlet-tree distribution[OL]. http://www. stat. cmu. edu/minka/papers/dirichlet/minka-dirtree. pdf, 1999.
[13] Gourier N, Hall D, and Crowley J L. Estimating face orientation from robust detection of salient facial structures[C]. FG Net Workshop on Visual Observation of Deictic Gestures, Cambridge, UK: FGnet (IST–2000–26434), 2004: 1-9.
[14] Huang G B, Mattar M, Berg T, et al.. Labeled faces in the wild: a database forstudying face recognition in unconstrained environments[C]. Workshop on Faces in ‘Real-Life’ Images: Detection, Alignment, and Recognition, Marseille, France, 2008: 1-14.
[15] Yang H and Patras I. Privileged information-based conditional regression forest for facial feature detection[C]. 10th IEEE International Conference and Workshops on Automatic Face and Gesture Recognition (FG), Shanghai, China, 2013: 1-6.
[16] Ba S O and Odobez J M. Multiperson visual focus of attention from head pose and meeting contextual cues[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2011, 33(1): 101-116.
劉袁緣: 女,1984年生,碩士,講師,研究方向?yàn)橛?jì)算機(jī)視覺與模式識(shí)別、圖像處理.
陳靚影: 女,1973年生,博士,教授,研究方向?yàn)橛?jì)算機(jī)視覺與模式識(shí)別、圖像處理.
俞 侃: 男,1978年生,博士,副教授,研究方向?yàn)楣鈱W(xué)圖像處理.
Head Pose Estimation Based on Tree-structure Cascaded Random Forests in Unconstrained Environment
Liu Yuan-yuan①②Chen Jing-ying②Yu Kan①Q(mào)in Jie③Chen Chao-yuan①①(Wenhua College, Wuhan 430074, China)
②(National Engineering Research Center for E-Learning, Central China Normal University, Wuhan 430079, China)
③(Wuhan Huazhong Numerical Control Co., Ltd, Wuhan 430074, China)
Head pose estimation is an important evaluating indicator of human attention, which depends on many factors, such as illumination, noise, identification, occlusion and so on. In order to enhance estimation efficiency and accuracy, this paper presents tree-structure cascaded random forests to estimate head pose in different quality images. First, in order to eliminate the influence of different environment noise, combined texture features in random forests for positive facial patch classification are extracted, which will be the privileged inputs to estimate head pose. Second, a coarse-to-fine approach is proposed to estimate head pose both in the yaw and pitch, which is called tree-structure cascaded random forests. Third, an adaptive Gaussian mixture model is used to enhance discriminate vote energy in the tree distribution. This framework is evaluated in unconstrained environmental datasets. The experiments show that the proposed approach has a remarkable and robust performance in different quality images.
Head pose estimation; Unconstrained environment; Tree-structure cascaded random forests; Positive facial patch privileged classification; Adaptive Gaussian mixture model
TP391.4
A
1009-5896(2015)03-0543-09
10.11999/JEIT140433
2014-04-13收到,2014-07-25改回
國(guó)家自然科學(xué)青年基金(61205062),湖北省自然科學(xué)基金(2012FFB 02701)和華中科技大學(xué)文華學(xué)院青年基金(J0200540102)資助課題
*通信作者:陳靚影 chenjy@mail.ccnu.edu.cn