牛學(xué)鋒,趙 勇
(西安郵電大學(xué) 自動化學(xué)院,陜西 西安 710121)
?
一種基于特征融合的部位外觀模型
牛學(xué)鋒,趙勇
(西安郵電大學(xué) 自動化學(xué)院,陜西 西安 710121)
針對人體姿態(tài)估計(jì)算法在建立部位外觀模型時(shí)將不同圖像特征平等對待的問題,建立一種基于模糊K-均值算法融合方向梯度直方圖(Histogram of Orientation Gradient, HOG)和顏色特征的部位外觀模型。將部位定位狀態(tài)對應(yīng)的HOG和顏色直方圖特征進(jìn)行組合,利用組合而成的特征向量構(gòu)造樣本集。分別計(jì)算部位定位狀態(tài)對應(yīng)的HOG和顏色特征與分別基于這兩種圖像特征的部位外觀模型的相似度,并將兩個(gè)相似度乘積的平方根作為樣本的初始隸屬度,通過模糊K-均值算法收斂后的聚類中心即為部位外觀模型。仿真實(shí)驗(yàn)表明,建立的部位外觀模型能更準(zhǔn)確地描述真實(shí)人體部位的外觀特征,將其用于人體姿態(tài)估計(jì)時(shí)可以得到準(zhǔn)確度更高的估計(jì)結(jié)果。
人體姿態(tài)估計(jì);部位外觀模型;模糊K-均值算法;梯度方向直方圖;顏色直方圖
人體動作和行為識別與分析已廣泛應(yīng)用在視頻監(jiān)控、虛擬現(xiàn)實(shí)和人機(jī)交互等計(jì)算機(jī)視覺領(lǐng)域。人體姿態(tài)估計(jì)是一個(gè)估計(jì)人體各部位在圖像中的具體位置的過程,正確估計(jì)可以較好地服務(wù)于人體動作和行為的識別與分析。部位外觀模型是對真實(shí)人體部位外觀特征的描述,在人體姿態(tài)估計(jì)的過程中起著非常關(guān)鍵的作用[1]。
受光照條件、顏色對比度、人體體型的變化以及部位可能存在被遮擋等因素的影響,不同圖像中的人體部位很難用單一的圖像特征進(jìn)行精確的描述。實(shí)際上人類在識別人體部位時(shí)也是同時(shí)利用顏色、邊緣等多種圖像特征來實(shí)現(xiàn)的,所以在建立部位外觀模型時(shí),利用多種圖像特征比僅利用單個(gè)圖像特征從理論上來說能更準(zhǔn)確地描述人體部位。將方向梯度直方圖(Histogram of Oriented Gradient, HOG)、顏色和形狀特征合并構(gòu)成特征向量,利用訓(xùn)練圖像標(biāo)注的部位區(qū)域?qū)?yīng)的特征向量訓(xùn)練得到的支持向量機(jī)(Support Vector Machine, SVM)分類器作為部位外觀模型[2];將基于HOG特征與基于圖像分割信息的兩種部位外觀模型同等對待,把部位定位狀態(tài)與兩種外觀模型相似度乘積的平方根作為最終的相似度[3];建立一種適用于多個(gè)部位檢測器的圖結(jié)構(gòu)模型,將部位定位狀態(tài)與多個(gè)基于不同圖像特征的部位外觀模型的相似度進(jìn)行排序并構(gòu)成相似度向量,用于所建立的圖結(jié)構(gòu)模型進(jìn)行人體姿態(tài)估計(jì)[4]。雖然,上述部位外觀模型用于人體姿態(tài)估計(jì)時(shí)已經(jīng)取得了一定的效果,但其都是將多個(gè)圖像特征同等對待,在對不同圖像中的人體部位進(jìn)行識別時(shí),同一圖像特征所發(fā)揮的作用并不相同,所以現(xiàn)有部位外觀模型并沒有實(shí)現(xiàn)多種圖像特征的有效融合。模糊K-均值算法[5]是一種經(jīng)典的軟聚類方法,在模式識別和圖像處理等領(lǐng)域都獲得了廣泛的應(yīng)用。本文擬對HOG特征和顏色特征的融合進(jìn)行研究,建立一種基于模糊K-均值算法融合HOG和顏色特征的部位外觀模型,并將其用于基于樹形圖結(jié)構(gòu)模型的人體姿態(tài)估計(jì)。
給定樣本集 {xi,i=1,2,…,N),設(shè)模式類別數(shù)為K,樣本對各模式類的隸屬度處在0和1之間,隸屬矩陣U中任一元素uij定義為
uij=μij,
(1)
其中μij為樣本xi對第j個(gè)模式類的隸屬度。
聚類準(zhǔn)則函數(shù)的一般化形式為[6]
(2)
其中,Jj和Cj分別為第j個(gè)模式類的準(zhǔn)則函數(shù)和聚類中心,模糊指數(shù)m≥1,取m=2,可得到最滿意的聚類結(jié)果。
模糊K-均值算法步驟如下。
步驟1初始化隸屬矩陣U,并使其滿足式(1)中的約束條件,設(shè)置迭代次數(shù)L=1,最大迭代次數(shù)為T。
步驟2計(jì)算所有模式類的聚類中心Cj( j=1,2,…,K)。
(3)
步驟3利用式(2)計(jì)算聚類準(zhǔn)則函數(shù),若L>2且‖JL-JL-1‖<ε,或L>T,算法停止;否則利用
(4)
計(jì)算新的隸屬度,并令L=L+1后返回第2步。
考慮到HOG和顏色特征在對不同待處理圖像建立部位外觀模型時(shí)起著不同的作用,建立一種基于模糊K-均值算法融合HOG和顏色特征的部位外觀模型。將部位定位狀態(tài)對應(yīng)的HOG和顏色直方圖特征組合在一起構(gòu)成的特征作為樣本,部位定位狀態(tài)與分別基于HOG特征和顏色直方圖特征的兩種部位外觀模型的相似度乘積的平方根作為樣本的初始隸屬度,模糊K-均值算法收斂后的聚類中心即為部位外觀模型。
將部位外觀模型用于基于樹形圖結(jié)構(gòu)模型的人體姿態(tài)估計(jì),整個(gè)人體姿態(tài)估計(jì)算法可分為5個(gè)步驟。
步驟1建立基于顏色特征的部位外觀模型。
某待處理圖像中的左小臂建立外觀模型的過程如圖1所示。
圖1 左小臂外觀模型建立
(1)對于待處理圖像利用人體上半身檢測器[7]檢測確定人體上半身。
(2)利用部位搜索空間減小算法[8]減小部位搜索空間。
(3)將減小后的搜索空間中所有狀態(tài)對應(yīng)矩形區(qū)域疊加在一起構(gòu)成部位的分布區(qū)域。
(4)像素點(diǎn)(x,y)的定位概率的表達(dá)式為
(5)
其中,lj為第j個(gè)部位定位狀態(tài),p(lj)為部位定位狀態(tài)lj對應(yīng)圖像區(qū)域的外觀特征與部位外觀模型的相似度,n為減小后的部位搜索空間中的狀態(tài)數(shù)目。
(5)對于待處理圖像中的部位分布區(qū)域,把每個(gè)像素點(diǎn)的定位概率作為權(quán)值求解顏色直方圖,并采用線性插值方法進(jìn)行均衡,即為部位外觀模型。
步驟2構(gòu)造樣本集,初始化算法參數(shù)及隸屬矩陣。
樣本集 {xi,i=1,2,…,2N}包含部位和非部位兩種模式類。xi,i=1,2,…,N時(shí)屬于部位類,xi為減小后的部位搜索空間中的定位狀態(tài)對應(yīng)的HOG和顏色直方圖特征組合而成的特征向量;xi,i=N+1,N+2,…,2N屬于非部位類,xi為從待處理圖像中部位分布區(qū)域之外的區(qū)域剪切的N個(gè)標(biāo)準(zhǔn)大小的圖像塊的HOG和顏色直方圖特征組合而成的特征向量。
設(shè)置模糊指數(shù)m和聚類準(zhǔn)則函數(shù)的閾值ε,計(jì)算樣本xi的HOG特征與基于HOG特征的部位外觀模型[9]的相似度p1(xi),以及樣本xi的顏色直方圖特征與基于顏色特征的部位外觀模型的相似度p2(xi)。取j=1,2,利用兩種相似度乘積的平方根初始化隸屬度矩陣U中的元素uij可分別表示為
(6)
ui2(1)=μi2(1)=1-μi1(1)。
(7)
步驟3模糊K-均值算法收斂后部位類的聚類中心即為部位外觀模型,樣本對于部位類的隸屬度即為對應(yīng)部位定位狀態(tài)與部位外觀模型的相似度。
步驟4重復(fù)步驟1到步驟3,確定所有人體部位的搜索空間,并求解搜索空間內(nèi)所有定位狀態(tài)與部位外觀模型的相似度。
步驟5利用基于樹形圖結(jié)構(gòu)模型的人體姿態(tài)估計(jì)算法[10]進(jìn)行人體姿態(tài)估計(jì)。
在Buffy圖像庫[11]中選取被檢測到的人體上半身圖像513張,組成訓(xùn)練圖像集,從余下的被檢測到的人體上半身圖像中選取235張圖像,和PASCAL圖像庫[12]中被檢測到的人體上半身360張圖像,組成測試圖像集。
計(jì)算圖像HOG特征時(shí),采用[-1, 0, 1]梯度模板,和無符號的梯度方向,并將梯度方向分為9個(gè)方向塊,HOG塊采用矩形塊形式[13]。每個(gè)HOG塊內(nèi)包含4個(gè)細(xì)胞單元,軀干、雙臂和頭部的細(xì)胞單元尺寸分別采用10×10、6×6和、8×8像素,HOG塊的掃描步長與細(xì)胞單元尺寸相同。
建立部位外觀模型時(shí)部位聚類中心的顏色直方圖特征的變化情況如圖2所示,其中圖2(a)為兩幅光照條件差別較大的待處理圖像,圖2(b)為模糊k均值算法運(yùn)行前左小臂聚類中心中的顏色直方圖特征,圖2(c)為算法收斂后的顏色直方圖特征。
圖2 聚類中心變化
從圖2可以看出,相對于光照條件較差的圖像,光照條件較好的圖像的部位聚類中心的顏色特征的變化更為明顯,證明了HOG和顏色特征在對不同待處理圖像建立部位外觀模型時(shí)起著不同的作用。
對所測圖像分別利用本文模型與文獻(xiàn)[9]和文獻(xiàn)[14]的外觀模型進(jìn)行相似度比較,結(jié)果如表1所示,其中前面數(shù)據(jù)為相似度均值,括號內(nèi)數(shù)據(jù)為標(biāo)準(zhǔn)差。
表1 相似度比較結(jié)果
從表1可以看出,與文獻(xiàn)[9]和文獻(xiàn)[14]中僅利用HOG特征或顏色特征建立的部位外觀模型相比,本文模型與測試圖像的相似度的均值更大,標(biāo)準(zhǔn)差相同或更小,更能準(zhǔn)確地描述真實(shí)人體部位的外觀特征。
利用人體姿態(tài)估計(jì)準(zhǔn)確度的計(jì)算方法[11],將測試圖像估計(jì)得到的部位定位矩形框的兩個(gè)寬邊中心點(diǎn)進(jìn)行連接,對測試圖像已標(biāo)注出的真實(shí)部位矩形框做同樣處理,若兩個(gè)連接線段的對應(yīng)端點(diǎn)間的距離均小于該部位長度的一半時(shí),則認(rèn)為該部位的估計(jì)是正確的。對比本文模型與文獻(xiàn)[2]、文獻(xiàn)[9]、文獻(xiàn)[14]和文獻(xiàn)[15]的準(zhǔn)確度,結(jié)果如圖2所示。
表2 人體姿態(tài)估計(jì)準(zhǔn)確度比較
從表2可以看出,與現(xiàn)有的幾種部位外觀模型相比,本文模型用于人體姿態(tài)估計(jì)時(shí)可以得到準(zhǔn)確度更高的估計(jì)結(jié)果。
圖3為將幾種不同部位外觀模型用于基于樹形圖結(jié)構(gòu)模型的人體姿態(tài)估計(jì)時(shí)的估計(jì)結(jié)果。
(a) 文獻(xiàn)[2]人體姿態(tài)估計(jì)結(jié)果
(b) 文獻(xiàn)[14]人體姿態(tài)估計(jì)結(jié)果
(c) 文獻(xiàn)[9]人體姿態(tài)估計(jì)結(jié)果
(d) 本文人體姿態(tài)估計(jì)結(jié)果
從圖3可以看出,圖3(a)待處理圖像雖然光照條件較好但背景比較復(fù)雜,圖3(b)和圖3(c)待處理圖像的光照條件較差,背景也比較復(fù)雜,而且人體著裝與背景的顏色對比度比較差。所以,單獨(dú)利用基于HOG特征或顏色特征的外觀模型都無法得到估計(jì)結(jié)果都不理想。然而,但利用本文模型時(shí),對光照條件較差或背景復(fù)雜的3幅圖像均得到了較為理想的人體姿態(tài)估計(jì)結(jié)果(圖3(d))。
建立了一種基于模糊K-均值算法融合HOG和顏色特征的部位外觀模型,并將其用于人體姿態(tài)估計(jì)。仿真實(shí)驗(yàn)結(jié)果表明所建立的部位外觀模型相比于僅利用單個(gè)圖像特征建立的部位外觀模型的準(zhǔn)確度更高,相比于將多個(gè)圖像特征平等對待而建立的部位外觀模型的準(zhǔn)確度也更高。
[1]THOMAS B M, HILTON A, KRUGER V, et al. Visual analysis of humans[M]. Berlin: Springer, 2011:45-60.
[2]SAPP B, TOSHEV A, TASKAR B. Cascaded models for articulated pose estimation[C/OL]//Proceedings of 11th European Conference on Computer Vision, Berlin:Springer, 2010 , 6312:406-420[2016-05-25]. http://dx.doi.org/10.1007/978-3-642-15552-9_30.
[3]JOHNSON S, EVERINHAM M. Combining discriminative appearance and segmentation cues for articulated human pose estimation[C/OL]//2009 IEEE 12th International Conference on Computer Vision Workshops (ICCV Workshops), Piscataway, N.J.:IEEE Press, 2009 , 15(7):405-412[2016-05-25]. http://dx.doi.org/10.1016/j.jval.2012.08.1892.
[4]SINGH V K, NEVATIA R, HUANG C. Effici -ent inference with multiple heterogeneous part detectors for human pose estimation[C/OL]//Proceedings of 11th European Conference on Computer Vision, Berlin:Springer, 2010:6313:314-327 [2016-05-25].http://dx.doi.org/10.1007/978-3-642-15558-1_23.
[5]DUNN J C. A fuzzy relative of the ISODATA process and its use in detecting compact well-separated clusters[J/OL]. Journal of Cybernetics, 1973, 3(3): 32-57[2016-05-25]. http://dx.doi.org/10.1080/01969727308546046.
[6]MARSILI-LIBELLI S . Fuzzy Clustering of Ecological Data[J/OL].Springer Netherlands, 1991, 11(2):173-184[2016-05-25].http://link.springer.com/chapter/10.1007/978-94-011-3418-7_15.DOI:10.1007/978-94-011-3418-7_15.
[7]EICHNER M, MARIN J M, ZISSEMAN A, et al. 2D articulated human pose estimation and retrieval in (almost) unconstrained still images[J/OL]. International Journal of Computer Vision, 2012, 99(2):190 -214[2016-05-25].http://dx.doi.org/10.1007/s11263-012-0524-9.
[8]HAN G. J, ZHU H, GE J R. Effective search space reduction for human pose estimation with viterbi recurrence algorithm [J/OL]. International Journal of Modeling, Identifica -tion and Control, 2013, 18(4): 341-348[2016-06-03].http://www.ingentaconnect.com/content/ind/ijmic/2013/00000018/00000004/art00005.
[9]韓貴金,朱虹. 基于R-SVM和SVDD的部位外觀模型[J/OL]. 計(jì)算機(jī)應(yīng)用研究,2015,34 (4):1272-1275[2016-06-03]. http://dx.chinadoi.cn/10.3969/j.issn.1001-3695.2015.04.075.
[10]韓貴金,趙勇. 基于樹形圖結(jié)構(gòu)模型的人體姿態(tài)估計(jì)[J].西安郵電大學(xué)學(xué)報(bào),2013,18 (3):83-86[2016-06-03].http://dx.chinadoi.cn/10.3969/.issn.1007-3264.2013.03.021.
[11]FERRARI V, MARIN J M, ZISSERMAN A. Progressive search space reduction for human pose estimation[C/OL]//Proceedings of 2008 IEEE Conference on Computer Vision and Pattern Recognition, Piscataway, N.J.:IEEE Press, 2008: 1-8 [2016-06-03]. http://ieeexplore.ieee.org/xpls/abs_all.jsp?arnumber=4587468.DOI: 10.1109/CVPR.2008.4587468.
[12]EICHNER M, FERRARI V. Better appear -ance models for pictorial structures[C/OL]//Proceedings of 20th British Machine Vision Conference, Dundee:BMVA Press, 2009:1-3.11[2016-06-03]. http://www.bmva.org/bmvc/2009/.
[13]DALAL N, TRIGGS B. Histograms of oriented gradients for human detection[C/OL]//Proceedings of 2005 IEEE Conference on Computer Vision and Pattern Recognition, Piscataway, N.J.:IEEE Press, 2005, 1(12):886-893 [2016-06-03].http://ieeexplore.ieee.org/xpls/abs_all.jsp?arnumber=1467360.DOI: 10.1109/CVPR.2005.177.
[14]韓貴金,朱虹.一種基于顏色直方圖的人體部位外觀模型[J].西安理工大學(xué)學(xué)報(bào),2014,30(2): 200-203.
[15]ANDRILUKA M, ROTH S, SCHIELE B. Pictorial structures revisited: people detection and articulated pose estimation [C/OL]//Proceedings of 2009 IEEE Conference on Computer Vision and Pattern Recognition, Piscataway, N.J.:IEEE Press,2009:1014-1021.http://ieeexplore.ieee.org/xpls/abs_all.jsp?arnumber=5206754.DOI:10.1109/CVPR.2009.5206754.
[責(zé)任編輯:祝劍]
An part appearance model based on feature fusion
NIU Xuefeng,ZHAO Yong
(School of Automation, Xi’an University of Posts and Telecommunications, Xi’an Shaanxi 710121, China)
In view of that Different image features are treated equally as the part appearance model is set up in the human body pose estimation algorithm, a fuzzyK-means algorithm based part appearance model is established, which Fused the histogram of orientation gradient (HOG) and the color features. The HOG and color histogram features are combined into feature vectors to construct a sample set. Estimate the similarities of HOG and color features between the samples set and the model, and take the square root of the product of the two similarities as the initial membership degree of the samples, then. employ the fuzzyK-mean algorithm to get the clustering center, thus, the part appearance model is set up. Simulation results show that, this model can accurately describe the appearance feature real human part, it gives higher estimation accuracy as be used in human pose estimation.
human pose estimation, part appearance model, fuzzy K-means algorithm, histogram of oriented gradient, color histogram
10.13682/j.issn.2095-6533.2016.05.012
2016-07-07
陜西省自然科學(xué)基金資助項(xiàng)目(2016JM8034);陜西省教育廳自然科學(xué)資助項(xiàng)目(16JK1699)
牛學(xué)鋒(1973-),女,碩士,工程師,從事高等教育教學(xué)管理研究。E-mail:951243718@qq.com
趙勇(1979-),男,碩士,高級工程師,從事數(shù)字圖像處理研究。E-mail:zhaoyong@xupt.edu.cn
TP391.9
A
2095-6533(2016)05-0059-05