韓貴金, 朱虹
(1.西安理工大學 自動化與信息工程學院,陜西 西安 710048;2.西安郵電大學 自動化學院,陜西 西安 710121)
人體姿態(tài)估計是通過對靜態(tài)圖像或視頻幀圖圖像進行搜索以確定人體各部位最佳姿態(tài)的過程。根據(jù)人體部位姿態(tài)分布空間維數(shù)的不同,人體姿態(tài)估計可分為二維和三維兩種類型。二維人體姿態(tài)估計一般使用線段或者矩形等描述人體部位在圖像二維平面的投影,三維人體姿態(tài)一般使用關(guān)節(jié)樹模型來描述人體部位在三維空間中的位置和角度信息,而二維人體姿態(tài)估計又往往是三維人體姿態(tài)估計的第一步[1]。
在對靜態(tài)圖像進行人體姿態(tài)估計的過程中面臨著諸多困難,主要有:
1) 不同圖像中光照條件的不同和人體形體的不同會導致人體部位外觀特征的變化;
2) 人體部位的自由轉(zhuǎn)動可能會導致部位之間出現(xiàn)相互遮擋;
3) 描述人體部位姿態(tài)的狀態(tài)所在空間的維數(shù)較高且狀態(tài)空間很大。
因此,人體姿態(tài)估計成為了計算機視覺領(lǐng)域中一個非常具有挑戰(zhàn)性的課題[2],是近年來一個非常熱門的研究方向,為此,已有多種人體姿態(tài)估計算法[2-8]被提出。
圖結(jié)構(gòu)模型[3-9]是適用于部位之間通過關(guān)節(jié)相連的各種運動目標的姿態(tài)估計的一種概率模型,該模型包含部位似然度和相連部位之間的結(jié)構(gòu)先驗兩項,其中部位似然度概率項即部位姿態(tài)為某一狀態(tài)時所對應圖像區(qū)域的外觀特征與部位的真實外觀特征之間的相似程度,但實際上人體部位的真實外觀特征是未知的,往往由人體部位外觀模型來代替。因此,似然度概率項的準確度取決于所建立的人體部位外觀模型是否能準確地描述人體部位的真實外觀特征。
部位之間的結(jié)構(gòu)先驗概率項即相連部位的關(guān)節(jié)符合運動目標關(guān)節(jié)幾何約束的程度,圖結(jié)構(gòu)模型利用推導算法來確定人體各部位的最佳姿態(tài)。
鑒于人體部位外觀模型的重要性,近年來對于人體姿態(tài)估計問題的研究中有相當大的部分集中在了人體部位觀測模型的改進上,并已經(jīng)提出了很多人體部位外觀模型[3,10-15]。已有的人體部位觀測模型中大部分都是通過對多幅訓練圖像[11-13]或視頻序列圖像[3,14]的訓練建立的。為適應不同圖像光照環(huán)境以及人體姿態(tài)的不同,部分人體部位觀測模型[10-15]僅利用待處理圖像建立更適用于本幅圖像的人體部位外觀模型。文獻[10]首先利用訓練圖像集學習人體部位相對于人體上半身矩形框的定位概率,然后對待處理圖像通過上半身檢測和前景增強得到人體前景區(qū)域,最后根據(jù)該圖像的定位概率建立基于邊緣特征的人體部位外觀模型。文獻[15]采用與文獻[10]相同的方法學習人體部位的定位概率,然后對待處理圖像根據(jù)定位概率建立基于顏色直方圖的人體部位外觀模型。
文獻[10]和[15]在對不同的待處理圖像建立人體部位外觀模型時都采用相同的定位概率,但實際上由于人體姿態(tài)的變化,不同人體的同一部位在不同圖像中經(jīng)常處于不同的位置,若待處理圖像中人體部位恰好位于定位概率很低的區(qū)域,則該圖像中人體部位定位區(qū)域?qū)念伾狈綀D特征與根據(jù)定位概率求解得到的基于顏色直方圖的人體部位外觀模型之間的似然度將會較低,進而導致最終的人體姿態(tài)估計準確度也較差。為了解決這個問題,本研究提出了一種新的僅利用單幅靜態(tài)圖像建立人體部位外觀模型的方法,并將其用于人體上半身姿態(tài)的估計。
人體上半身的樹形圖結(jié)構(gòu)模型見圖1。如圖1(a)所示,人體上半身由6個剛體部位組成,相連部位之間通過關(guān)節(jié)相連,人體部位的姿態(tài)用定位矩形框l={x,y,r,l,w}來表示,其中,(x,y)為矩形框中心在圖像中的坐標,r為矩形框相對于垂直方向所偏移的角度,l為矩形框長度,w為矩形框?qū)挾?。人體上半身結(jié)構(gòu)可以用一個無向圖G=(V,E)來表示,建立如圖1(b)所示的人體樹形圖結(jié)構(gòu)模型,其中V={v1,…,v6}為無向圖中所有頂點的集合,一個頂點對應一個人體部位,E為無向圖中所有相連的頂點對的集合。
圖1 人體樹形圖結(jié)構(gòu)模型
根據(jù)如圖1(a)所示的人體的結(jié)構(gòu)特征,人體姿態(tài)估計結(jié)果的準確度主要由人體部位的姿態(tài)與部位真實特征的匹配程度以及相連部位之間的連接符合人體幾何約束的程度,即相連部位各自的關(guān)節(jié)點相匹配的程度兩個因素決定。
人體姿態(tài)估計問題可以轉(zhuǎn)化為:
(1)
其中,mi(li)表示第i個部位狀態(tài)為li時對應的圖像特征與該部位的外觀模型不匹配的程度、dij(li,lj)表示相連的第i個部位和第j個部位對應狀態(tài)分別為li和lj時各自對應的關(guān)節(jié)點不匹配的程度。
與文獻[3]相同,上述優(yōu)化問題可以轉(zhuǎn)化為概率估計問題,并可由貝葉斯估計解決,即:
p(L|I)∝p(I|L)p(L)
(2)
其中,I為待處理靜態(tài)圖像、L={l1,…,l6}為人體各部位的姿態(tài)集合、P(L)為先驗概率,表示人體各部位姿態(tài)為L時所有相連部位之間的連接符合人體幾何約束的程度、p(I|L)表示人體各部位姿態(tài)為L時對應的圖像特征與對應的部位外觀模型的匹配程度、P(L|I)為后驗概率,表示靜態(tài)圖像I中人體各部位姿態(tài)為L的概率。
假設(shè)人體每個部位是相互獨立的,即:
(3)
式(2)中p(L)求解為:
(4)
其中,p(li,lj|cij)表示第i個部位和第j個部位的狀態(tài)分別為li和lj時各自對應的關(guān)節(jié)點相匹配的程度,可以用轉(zhuǎn)換后狀態(tài)空間中的高斯函數(shù)求解[3]為:
p(li,lj|cij)=N(Tji(li),Cij)
(5)
其中,Cij為相連的第i個部位和第j個部位之間的協(xié)方差,函數(shù)T()可表示為:
(6)
本研究采用文獻[3]中的維泰爾比遞推算法進行人體姿態(tài)的推導。
對于不同的靜態(tài)圖像,不論光照條件如何變化和人體體形如何不同,人體都有基本相同的邊緣特征,所以不同人體HOG特征變化不大,同樣不同人體的相同部位具有大致相同的HOG特征。顏色特征在人體姿態(tài)估計領(lǐng)域中是應用非常廣泛的一種圖像特征,主要有顏色直方圖[10-16]和顏色的對稱性[17-18]兩種應用方式。人在不同的場合會穿著不同顏色的衣服,而且即使同樣顏色的衣服在不同的光照條件下也會有很大的變化,所以與HOG特征不同的是不同人體相同部位的顏色特征可能相差很大。
由于不同人體同一部位的HOG特征變化不大,所以無論人體部位位于什么位置,其定位區(qū)域?qū)腍OG特征與該部位基于HOG特征的外觀模型之間一定具有較高的似然度,則其一定會位于定位概率較高的區(qū)域,基于此建立的部位外觀模型用于人體姿態(tài)估計對于任何待處理圖像都會得到較好的估計效果。
本研究人體部位外觀模型的建立可以分為三步,即:① 確定人體部位的分布區(qū)域;② 求解人體部位定位區(qū)域中各像素點的定位概率;③ 依據(jù)定位概率求解人體部位的顏色直方圖,即為人體部位外觀模型。
對于待處理的靜態(tài)圖像,本研究采用文獻[19]提出的方法減小人體部位狀態(tài)空間,然后根據(jù)減小后的狀態(tài)空間確定人體部位的分布區(qū)域。
圖2給出了某待處理圖像左上臂分布區(qū)域的確定過程,圖2(a)為待處理靜態(tài)圖像,左上臂最初的分布區(qū)域為整幅圖像。圖2(b)為利用人體上半身檢測器檢測確定的人體上半身矩形框。圖2(c)為經(jīng)過減小后的狀態(tài)空間,其中對于似然度閾值本研究采用所有大于零的似然度的均值。圖2(d)為根據(jù)減小后的狀態(tài)空間所確定的左上臂的分布區(qū)域。
圖2 定位區(qū)域確定示意圖
人體部位減小后的狀態(tài)空間中每個狀態(tài)對應的圖像區(qū)域的HOG特征與基于HOG特征的人體部位外觀模型[19]具有不同大小的似然度,很顯然似然度越高的狀態(tài)對應的圖像區(qū)域中像素點屬于人體真實部位的可能性也越大。定位區(qū)域中的每一個像素點都會被多個狀態(tài)對應的圖像區(qū)域所包含,但考慮到似然度不同的狀態(tài)屬于真實部位的概率不同,定位區(qū)域中的每一個像素點的定位概率定義為:
(7)
其中,Li為所有包含該像素點的狀態(tài)集合、num為人體部位減小后的狀態(tài)空間的總狀態(tài)數(shù)目。
對于待處理圖像中人體部位分布區(qū)域,筆者把每一個像素點的定位概率作為權(quán)值來求解分布區(qū)域的顏色直方圖,采用線性插值方法對顏色直方圖進行均衡,最終得到的顏色直方圖即為待處理圖像對應的人體部位的外觀模型。
公式(3)中的似然度p(I|li)可以用狀態(tài)為li時對應的顏色直方圖與外觀模型歸一化的歐式距離來計算,即:
(8)
其中,xi是人體部位狀態(tài)li時對應的顏色直方圖,n是xi的維數(shù),zi是該部位對應的基于顏色直方圖的外觀模型。
為便于與文獻[10]和[15]的處理效果比較,本研究選擇與其相同的訓練圖像集和待處理圖像集,并選擇相同的評價標準。
圖3給出了幾個在不同條件和姿態(tài)下的幾幅圖像的姿態(tài)估計結(jié)果。表1給出了將本研究所提人體部位外觀模型用于人體姿態(tài)估計的估計結(jié)果與文獻[10]和[15]的人體姿態(tài)估計結(jié)果的比較。文獻[10]和[15]只給出了人體所有部位的平均姿態(tài)估計結(jié)果,而本算法給出了軀干、頭部、上臂和小臂各自的估計結(jié)果。從表1可以看出,與文獻[10]和[15]相比,本算法的人體姿態(tài)估計準確度得到了較大幅度的提高。
圖3 人體姿態(tài)估計示例
表1 人體姿態(tài)估計結(jié)果比較
1) 提出了一種新的基于顏色直方圖特征的人體部位外觀模型,并將其用于靜態(tài)圖像中人體上半身的姿態(tài)估計。
2) 首先減小人體部位的狀態(tài)空間,然后利用與基于HOG特征的人體部位外觀模型具有較高似然度的狀態(tài)來學習人體部位的定位概率,最后將定位概率作為權(quán)值求解顏色直方圖以構(gòu)成人體部位的外觀模型。
實驗結(jié)果表明所提人體部位外觀模型效果更佳。
參考文獻:
[1] Agarwal A, Triggs B. 3d human pose from silhouettes by relevance vector regression[C]//Proceedings of CVPR, Washington, 2004.
[2] Jiang H. Finding human poses in videos using concurrent matching and segmentation[C]//Proceedings of ACCV,Queenstown,New Zealand, 2010.
[3] Felzenszwalb P F, Huttenlocher D P. Pictorial structures for object recognition[J]. International Journal of Computer Vision, 2005, 61(1):55-79.
[4] Sigal L, Black J. Measure locally, reason globally: occlusion-sensitive articulated pose estimation[C]//Proceedings of CVPR, New York, 2006.
[5] Freifeld O, Weiss A, Zuffi S, et al. Contour people: a parameterized model of 2D articulated human shape[C]//Proceedings of CVPR,San Francisco,USA, 2010.
[6] Wang Y, Tran D, Liao Z C. Learning hierarchical poselets for human parsing[C]//Proceedings of CVPR, Colorado Springs,USA, 2011.
[7] Ukita N. Articulated pose estimation with parts connectivity using discriminative local oriented contours[C]//Proceedings of CVPR, Providence,USA, 2012.
[8] Andriluka M, Roth S, Schiele B. Pictorial structures revisited: people detection and articulated pose estimation[C]//Proceedings of CVPR, Miami,USA, 2009.
[9] Fischler M, Elschlager R. The representation and matching of pictorial structures[J]. IEEE Transactions on Computer, 1973, 22(1):67-92.
[10] Ferrari V, Marin-Jimenez M, Zisserman A. Progressive search space reduction for human pose estimation[C]//Proceedings of CVPR, Anchorage,USA, 2008.
[11] Buehler P, Everinghan M, Huttenlocher D, et al. Long term arm and hand tracking for continuous sign language tv broadcasts[C]//Proceedings of BMVC, Leeds,UK, 2008.
[12] Karlinsky L, Ullman S. Using linking features in learning non-parametric part models[C]//Proceedings of ECCV, Firenze,Italy, 2012.
[13] Hara K, Chellappa R. Computationally efficient regression on a dependency graph for human pose estimation[C]//Proceedings of CVPR, Portland,USA, 2013.
[14] Lan X, Huttenlocher D P. Beyond trees: common-factor models for 2D human pose recovery[C]//Proceedings of ICCV, Beijing, 2005.
[15] Eichner M, Ferrari V. Better appearance models for pictorial structures[C]//Proceedings of BMVC,London, 2009.
[16] Sapp B, Toshev A, Taskar B. Cascaded models for articulated pose estimation[C]//Proceedings of ECCV, Crete,Greece, 2010.
[17] Jiang H. Human pose estimation using consistent max-covering[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2011, 33(9): 1911-1918.
[18] Tian T P, Sclaroff S. Fast globally optimal 2d human detection with loopy graph models[C]//Proceedings of CVPR, San Francisco,USA, 2010.
[19] Han G J, Zhu H, Ge J R. Effective search space reduction for human pose estimation with Viterbi recurrence algorithm[J]. International Journal of Modeling, Identification and Control, 2013, 18(4): 341-348.