沈建冬,陳 恒
西京學(xué)院 控制工程學(xué)院,西安 710123
融合HOG和顏色特征的人體姿態(tài)估計(jì)新算法
沈建冬,陳 恒
西京學(xué)院 控制工程學(xué)院,西安 710123
為解決現(xiàn)有人體姿態(tài)估計(jì)算法在處理光照條件很差或顏色對(duì)比度很低的待處理圖像時(shí)估計(jì)準(zhǔn)確度較低的問題,利用梯度方向直方圖(HOG)和顏色特征建立了一種的基于可能性C(PCM)聚類算法部位外觀模型,提出了一種新的融合HOG特征和顏色特征的人體姿態(tài)估計(jì)算法。算法根據(jù)待處理圖像自動(dòng)選擇部位外觀模型,若圖像的光照條件和顏色對(duì)比度都較好則選擇現(xiàn)有的基于HOG和顏色特征融合的部位外觀模型,否則選擇基于PCM聚類算法的部位外觀模型。仿真實(shí)驗(yàn)表明所建立的部位外觀模型能更準(zhǔn)確地描述光照條件很差或顏色對(duì)比度很低的圖像中下真實(shí)人體部位的外觀,提出的人體姿態(tài)估計(jì)算法對(duì)各種類型的待處理圖像均能得到準(zhǔn)確度更高的估計(jì)結(jié)果。
人體姿態(tài)估計(jì);部位外觀模型;梯度方向直方圖;顏色;可能性C聚類算法
人體姿態(tài)估計(jì)是人體動(dòng)作與行為的識(shí)別與分析的一個(gè)基礎(chǔ)問題[1],是一個(gè)利用邊緣和顏色等圖像特征來估計(jì)各個(gè)人體部位在圖像中的具體定位位置的過程[2]。迄今為止,已經(jīng)提出了多種人體姿態(tài)估計(jì)算法[3]。現(xiàn)有的人體姿態(tài)估計(jì)算法可分為基于整體的方法和基于模型的方法兩大類[4],其中基于模型的方法更被研究者所關(guān)注?;谀P偷娜梭w姿態(tài)估計(jì)的基本思路是首先建立數(shù)學(xué)模型來描述人體不同部位間的外觀特征和空間位置的關(guān)聯(lián)情況,然后設(shè)法度量人體部位可能定位區(qū)域與真實(shí)人體部位外觀的相似程度,最后設(shè)計(jì)推理算法,在所有可能的部位定位區(qū)域中進(jìn)行搜索,最終確定相似度較高且符合人體模型約束的各部位定位區(qū)域。
由于真實(shí)人體部位的外觀特征實(shí)際上并不存在準(zhǔn)確的描述,人體姿態(tài)估計(jì)中往往都是用外觀模型來代替真實(shí)人體部位外觀特征。部位外觀模型的建立主要包含兩方面:(1)采用什么樣的圖像特征;(2)如何度量與人體部位可能定位區(qū)域的相似度?,F(xiàn)有的部位外觀模型中有些是僅利用單個(gè)圖像特征建立的[5-10],有些是通過融合顏色、HOG和形狀等多個(gè)圖像特征而建立的[11-14]。Johnson和Everingham[11]基于線性SVM算法分別利用HOG與形狀特征建立了兩種部位外觀模型,利用人體部位可能定位區(qū)域與這兩種外觀模型相似度的乘積來計(jì)算相似度;Sapp等[12]將HOG、顏色和形狀特征放在一起構(gòu)成一個(gè)特征向量,對(duì)所有訓(xùn)練圖像標(biāo)注部位區(qū)域的對(duì)應(yīng)特性向量利用線性SVM算法構(gòu)造分界面,根據(jù)人體部位可能定位區(qū)域的特征向量與基于分界面的距離來計(jì)算相似度;Singh等[13]將人體部位可能定位區(qū)域與分別基于邊緣密度、形狀和HOG特征建立的部位外觀模型的相似度按照大小進(jìn)行排序并構(gòu)成向量,并將其用于基于多個(gè)部位檢測(cè)器的圖結(jié)構(gòu)模型,從而建立了部位外觀模型;韓貴金等[14]利用SVDD算法建立基于HOG特征的部位外觀模型,根據(jù)部位定位概率建立了基于顏色特征的部位外觀模型,將人體部位可能定位區(qū)域與兩種外觀模型的相似度按不同的權(quán)值進(jìn)行累加,用累加和來計(jì)算相似度。
雖然現(xiàn)有通過融合多個(gè)圖像特征而建立的部位外觀模型用于人體姿態(tài)估計(jì)時(shí)已經(jīng)取得了較好的效果,但它們普遍都沒有考慮到待處理圖像的光照及對(duì)比度等實(shí)際情況的不同,而是采用相同的部位外觀模型,導(dǎo)致對(duì)不同待處理圖像的估計(jì)準(zhǔn)確度有較大的差距。為此,本文建立了一種新的融合HOG特征和顏色特征的人體姿態(tài)估計(jì)算法,對(duì)不同待處理圖像采用不同的部位外觀模型,對(duì)光照條件較好和顏色對(duì)比度較高的待處理圖像采用文獻(xiàn)[14]的基于HOG和顏色特征融合的部位外觀模型,對(duì)于光照條件很差或顏色對(duì)比度很低的情況,采用本文建立的基于PCM聚類的部位外觀模型。
韓貴金等[14]對(duì)人體部位可能定位區(qū)域與分別基于HOG和顏色特征的兩種外觀模型的相似度按照不同的權(quán)值進(jìn)行累加,建立了基于HOG和顏色特征融合的部位外觀模型。模型并沒有考慮不同待處理圖像的光照和顏色對(duì)比度等實(shí)際情況的不同,而是對(duì)所有的待處理圖像均采用相同的外觀模型。若待處理圖像的光照條件較好且圖像顏色對(duì)比度較高,不同部位可能定位區(qū)域的HOG和顏色特征的區(qū)分度較高,兩種部位外觀模型對(duì)應(yīng)的權(quán)值能比較恰當(dāng)?shù)胤从硟煞N圖像特征在識(shí)別人體部位時(shí)所起的作用,人體姿態(tài)估計(jì)效果良好;但如果待處理圖像的光照條件很差或圖像顏色對(duì)比度很低,不同部位可能定位區(qū)域的顏色特征的區(qū)分度較低,所有可能定位區(qū)域與基于顏色特征的部位外觀模型均具有較高的相似度,導(dǎo)致基于顏色特征的部位外觀模型的權(quán)值大于基于HOG的部位外觀模型,顏色特征將起到主要作用,這與此種情況下人體識(shí)別部位時(shí)主要依靠HOG特征的特性相違背。為此,本文建立了一種基于PCM聚類算法的部位外觀模型來解決這個(gè)問題。
模糊C均值聚類算法是一種非常經(jīng)典的模糊聚類算法,樣本以某種程度隸屬于某一類,并規(guī)定單個(gè)樣本對(duì)所有類的隸屬度之和為1。但實(shí)際上單個(gè)樣本對(duì)所有類的隸屬度之和并不一定為1,特別是對(duì)于數(shù)據(jù)集中的噪聲或野值樣本,隸屬度之和為1的約束將會(huì)導(dǎo)致其對(duì)各類的隸屬度基本相等,這與噪聲或野值樣本隸屬于各類的概率或可能性都很小的實(shí)際情況并不符合[15],從而導(dǎo)致模糊C均值聚類算法對(duì)噪聲和野值不魯棒。針對(duì)這個(gè)問題,Krishnapuram等提出了可能性C聚類算法(PCM)[15],算法放寬了樣本對(duì)所有類的隸屬度之和為1的約束,使得樣本的隸屬度能真正代表隸屬于某類的可能性,提高了對(duì)噪聲和野值的魯棒性。
對(duì)于樣本集X={x1,x2,…,xn},若給定模式類個(gè)數(shù)為c,PCM聚類算法的目標(biāo)函數(shù)定義如下:
其中,ci為第i個(gè)模式類的聚類中心,uij表示xj屬于第i個(gè)模式類的可能性,m∈[1,∞)是模糊指數(shù),ηi為懲罰參數(shù),可利用下式來計(jì)算:
K值通常取1,此時(shí)ηi即為類內(nèi)距離平方的加權(quán)平均。ηi—般利用模糊C均值聚類算法的訓(xùn)練結(jié)果獲取,而且在PCM算法的迭代過程中保持不變,若參與迭代計(jì)算會(huì)導(dǎo)致算法不穩(wěn)定[15]。
利用梯度法對(duì)式(1)進(jìn)行求解,可得:
利用聚類算法建立部位外觀模型時(shí),需要用所有部位可能定位區(qū)域?qū)?yīng)圖像特征構(gòu)造樣本集,但由于圖像內(nèi)容的多變性,樣本集中不可避免地會(huì)出現(xiàn)野值樣本。為提高對(duì)野值樣本的魯棒性并使樣本的隸屬度能真正代表其隸屬于模式類的可能性,本文利用PCM聚類算法來建立部位外觀模型,將收斂后部位類的聚類中心視為部位外觀模型,樣本屬于部位類的可能性即為可能定位區(qū)域與部位外觀模型的相似度。建立過程可分為如下幾個(gè)步驟:
(1)算法參數(shù)初始化
給定模糊指數(shù)m、結(jié)束閾值ε或最大迭代次數(shù)T,模糊指數(shù)m一般情況下取2,此時(shí)聚類效果最佳[16]。
(2)構(gòu)造樣本集并初始化隸屬度
為減小算法復(fù)雜度,首先減小部位可能定位區(qū)域的總個(gè)數(shù)[17],然后構(gòu)造樣本集X
其中,N為減小后部位可能定位區(qū)域的總個(gè)數(shù),X1={x1,x2,…,xN}為利用所有減小后所有可能定位區(qū)域構(gòu)造的樣本集,X2={xN+1,xN+2,…,x2N}為從減小后的所有可能定位區(qū)域之外的圖像中任選出N個(gè)同樣大小的圖像區(qū)域而構(gòu)造的樣本集,一個(gè)樣本是由HOG和顏色直方圖特征而構(gòu)成:
其中,m為部位可能定位區(qū)域的HOG塊數(shù),hi為圖像區(qū)域的HSI顏色空間中的色調(diào)直方圖特征。
樣本集X={X1,X2}中任一樣本屬于兩個(gè)模式類的可能性利用其與基于HOG和顏色特征融合的部位外觀模型[14]的相似度來初始化:
(3)建立部位外觀模型
利用PCM聚類算法進(jìn)行迭代運(yùn)算,算法收斂后的聚類中心即為部位外觀模型,樣本屬于部位類的可能性即為可能定位區(qū)域與部位外觀模型的相似度。
由前面的分析已知,韓貴金等建立的部位外觀模型[14]對(duì)光照條件很差或圖像顏色對(duì)比度的待處理圖像的人體姿態(tài)估計(jì)效果較差。此種情況下不同部位可能定位區(qū)域的顏色特征區(qū)別不大,基于PCM聚類算法的部位外觀模型在建立過程中聚類中心以及樣本對(duì)人體部位的隸屬度的變化主要是由樣本的HOG特征在起作用,HOG特征將起到主要作用。但由于在建立過程中,樣本集中的一半樣本是隨機(jī)選擇的,基于PCM聚類算法的部位外觀模型對(duì)光照條件較好且人圖像顏色對(duì)比度較高的待處理圖像的識(shí)別效果并不穩(wěn)定。
為了提高對(duì)不同待處理圖像的人體姿態(tài)估計(jì)效果,本文提出了一種新的融合HOG和顏色特征的人體姿態(tài)估計(jì)算法。首先將待處理圖像從RGB顏色空間轉(zhuǎn)換到HSI顏色空間,HSI空間中亮度分量表征成像亮度,圖像亮度的均值可有效表征圖像的光照情況,色調(diào)分量通常用來從宏觀上區(qū)分某一種顏色,利用圖像區(qū)域內(nèi)所有像素點(diǎn)色調(diào)的均方差即可表征圖像顏色的對(duì)比度,顏色對(duì)比度越大,圖像不同區(qū)域的顏色區(qū)別越明顯,圖像色調(diào)的均方差也越大。人體模型和推理算法與文獻(xiàn)[14]相同,部位外觀模型的選擇準(zhǔn)則是:若亮度均值大于等于亮度閾值且減小后部位的定位區(qū)域[17]的色調(diào)的均方差大于等于均方差閾值,選擇基于HOG和顏色特征融合的部位外觀模型,如果亮度均值小于亮度閾值或色調(diào)的均方差小于均方差閾值則選擇基于PCM聚類算法的部位外觀模型。
亮度閾值和均方差閾值可通過訓(xùn)練圖像集中所有圖像人體姿態(tài)估計(jì)準(zhǔn)確度的極大化來確定:
其中,thre_light={0.01,0.02,…,0.98}為亮度閾值的取值集合,thre_var為所有訓(xùn)練圖像中減小后部位的定位區(qū)域的均方差集合,a(i)表示當(dāng)將亮度閾值取thre_light(i)或均分差閾值取thre_var(i)時(shí)訓(xùn)練圖像集中所有圖像的人體姿態(tài)估計(jì)準(zhǔn)確度,準(zhǔn)確度計(jì)算公式如下:
其中,k為訓(xùn)練圖像的個(gè)數(shù),k1(i)和a1(i)分別為訓(xùn)練圖像集中亮度均值大于等于threshold(i)或均方差大于等于thre_var(i)的圖像個(gè)數(shù)和采用基于HOG和顏色特征融合的部位外觀模型時(shí)的人體姿態(tài)估計(jì)準(zhǔn)確度,k2(i)和a2(i)分別為訓(xùn)練圖像集中亮度均值小于threshold(i)或均方差小于thre_var(i)的圖像個(gè)數(shù)采用基于PCM聚類算法的部位外觀模型時(shí)的人體姿態(tài)估計(jì)準(zhǔn)確度。
為便于比較,本文選擇與文獻(xiàn)[14]相同的訓(xùn)練圖像集,文獻(xiàn)[14]中的測(cè)試圖像集作為本文的第一個(gè)測(cè)試圖像集。為了測(cè)試基于PCM聚類算法的部位外觀模型的有效性,本文從第一個(gè)測(cè)試圖像集中挑選出了55張光照條件很差或圖像顏色對(duì)比度很差的圖像,并與從他處挑選了能夠檢測(cè)到人體上半身的45張光照條件很差或圖像顏色對(duì)比度很差的圖像共同組成了第二個(gè)測(cè)試圖像集。
與文獻(xiàn)[14]相同,本文同樣采用所有測(cè)試圖像標(biāo)注的部位區(qū)域與部位外觀模型的相似度來衡量部位外觀模型的有效性。表1給出了文獻(xiàn)[14]建立的基于HOG和顏色特征融合的部位外觀模型和本文所建立的基于PCM聚類算法的部位外觀模型分別與兩個(gè)測(cè)試圖像集中所有圖像標(biāo)注的部位區(qū)域的相似度的比較結(jié)果,括號(hào)內(nèi)外數(shù)據(jù)分別為標(biāo)準(zhǔn)差和均值。
表1 相似度比較
從表1可以看出,對(duì)于光照條件和圖像顏色對(duì)比度大多較好的第一個(gè)測(cè)試圖像集,基于HOG和顏色特征融合的部位外觀模型要比基于PCM聚類算法的部位外觀模型能更準(zhǔn)確地描述真實(shí)人體部位的外觀特征,但對(duì)于光照條件很差或圖像顏色對(duì)比度很差的第二個(gè)測(cè)試圖像集,基于PCM聚類算法的部位外觀模型效果更好。
表2給出了幾種基于樹形圖結(jié)構(gòu)模型而建立的人體姿態(tài)估計(jì)算法對(duì)不同測(cè)試圖像集的姿態(tài)估計(jì)準(zhǔn)確度的比較結(jié)果,其中“PCM”表示僅利用基于PCM聚類算法的部位外觀模型的人體姿態(tài)估計(jì)算法,“HOG+color”表示本文所提出的人體姿態(tài)估計(jì)算法。
表2 人體姿態(tài)估計(jì)準(zhǔn)確度比較
從表2可以看出,對(duì)于光照條件和圖像顏色對(duì)比度大多較好的第一個(gè)測(cè)試圖像集,“PCM”的估計(jì)準(zhǔn)確度比文獻(xiàn)[12]和[14]的準(zhǔn)確度要低。但對(duì)于光照條件很差或圖像顏色對(duì)比度很差的第二個(gè)測(cè)試圖像集,“PCM”的估計(jì)準(zhǔn)確度要高于文獻(xiàn)[12]和[14],證明了本文所建立的基于PCM聚類算法的部位外觀模型更加適用于光照條件很差或圖像顏色對(duì)比度很差的情況。與文獻(xiàn)[12]和[14]相比,本文提出的融合HOG特征和顏色特征的人體姿態(tài)估計(jì)算法不論是第一個(gè)測(cè)試圖像集,還是第二個(gè)測(cè)試圖像集均取得了更高的估計(jì)準(zhǔn)確度。
圖1給出了本文提出的人體姿態(tài)估計(jì)算法對(duì)第一個(gè)測(cè)試圖像集中的幾幅測(cè)試圖像的人體姿態(tài)估計(jì)結(jié)果。從圖1可以看出,對(duì)于光照條件、人體尺寸和姿態(tài)都有區(qū)別的不同測(cè)試圖像,本文所提算法都能獲得較為理想的估計(jì)結(jié)果。
圖1 人體姿態(tài)估計(jì)示例
為測(cè)試本文所提出的人體姿態(tài)估計(jì)算法對(duì)光照條件很差或圖像顏色對(duì)比度很差的圖像的估計(jì)效果,圖2給出了文獻(xiàn)[12]和本文所提人體姿態(tài)估計(jì)算法對(duì)第二個(gè)測(cè)試圖像集中幾幅圖像的人體姿態(tài)估計(jì)結(jié)果。從圖2可以看出,對(duì)于光照條件很差或圖像顏色對(duì)比度很差的幾幅測(cè)試圖像,文獻(xiàn)[12]算法的估計(jì)結(jié)果并不好,但本文算法都取得了更為理想的估計(jì)結(jié)果,表明了本文算法對(duì)光照條件很差或圖像顏色對(duì)比度很差的圖像的有效性。
圖2 人體姿態(tài)估計(jì)結(jié)果比較
本文對(duì)如何恰當(dāng)利用HOG特征和顏色特征進(jìn)行人體姿態(tài)估計(jì)進(jìn)行了研究,提出了一種新的融合HOG特征和顏色特征的人體姿態(tài)估計(jì)算法。算法中仍然采用傳統(tǒng)的樹形圖結(jié)構(gòu)模型作為人體模型,但部位外觀模型則根據(jù)待處理圖像的光照條件和顏色對(duì)比度在基于HOG和顏色特征融合的部位外觀模型和基于PCM聚類算法的部位外觀模型中自動(dòng)選擇。仿真實(shí)驗(yàn)證明了本文所提出的人體姿態(tài)估計(jì)算法的有效性。如何更好地融合兩種圖像特征以及其他圖像特征將是下一步的主要工作。
[1]Yang W L,Wang Y,Mori G.Recognizing human actions from still images with latent poses[C]//Proceedings of the CVPR 2010,San Francisco,CA,USA,2010:2030-2037.
[2]Felzenszwalb P,Huttenlocher D.Pictorial structures for object recognition[J].International Journal of Computer Vision,2005,61(1):55-79.
[3]Thomas B M,Hilton A,Krüger V,et al.Visual analysis of humans[M].Berlin:Springer,2011:131-138.
[4]Samuel A J.Articulated human pose estimation in natural images[D].Leeds:University of Leeds,2012:11-18.
[5]Wang Yang,Duan T,Liao Zicheng.Learning hierarchical poselets for human parsing[C]//Proceedings of the CVPR 2011,Providence,RI,USA,2011.
[6]Sapp B,Taskar B.MODEC:multimodal decompo-sable models for human pose estimation[C]//Proceedings of the CVPR,Portland,OR,USA,2013:3674-3681.
[7]Yang Y,Ramanan D.Articulated human detection with flexible mixtures of parts[J].IEEE Transactions on Pattern Analysis and Machine Intelligence,2013,35(12):2878-2890.[8]Wang Fang,LiYi.Beyond physicalconnections:Tree models in human pose estimation[C]//Proceedings of the CVPR 2013,Portland,OR,USA,2013:596-603.
[9]Ferrari V,Mar′?n-Jim′enez M,Zisserman A.Progressive search space reduction for human pose estimation[C]//Proceedings of the CVPR 2008,Anchorage,AK,USA,2008:1-8.
[10]Eichner M,F(xiàn)errari V.Better appearance models for pictorial structures[C]//Proceedings of the 20th British Machine Vision Conference,London,UK,2009,3:1-11
[11]Johnson S,Everingham M.Combining discriminative appearance and segmentation cues for articulated human pose estimation[C]//Proceedings of the 12th International Conference on Computer Vision Workshops.Piscataway,N J:IEEE Press,2009:405-412.
[12]Sapp B,Alexander T,Taskar B.Cascaded models for articulated pose estimation[C]//Proceedings of the 11th European Conferenceon ComputerVision.Berlin:Springer,2010:406-420.
[13]Singh V K,Nevatia R,Huang Chang.Efficient inference with multiple heterogeneous part detectors for human pose estimation[C]//Proceedings of the 11th European Conference on Computer Vision.Berlin:Springer,2010:314-317.
[14]韓貴金,朱虹.基于HOG和顏色特征融合的人體姿態(tài)估計(jì)[J].模式識(shí)別與人工智能,2014,27(9):769-777.
[15]Krishnapuram R,Keller J.A possibilistic approach to clustering[J].IEEE Transactions on Fuzzy Systems,1993,1(2):98-110.
[16]Miguel E.Fuzzy clustering of ecological data[J].Journal of Ecology,1990,78:561-567.
[17]Han Guijin,Zhu Hong,Ge Jianrong.Effective search space reduction for human pose estimation with Viterbi recurrence algorithm[J].International Journal of Modelling,Identification and Control,2013,18(4):341-348.
SHEN Jiandong,CHEN Heng
College of Control Engineering,Xijing University,Xi’an 710123,China
New human pose estimation algorithm based on HOG and color features.Computer Engineering and Applications,2017,53(21):190-194.
The existing human pose estimation algorithm always get the lower accuracy for those images with very poor light conditions and low color contrast.For solving the problem,a more suitable part appearance model based on the Possibilistic C-Means(PCM)clustering algorithm is built by using Histogram of Oriented Gradient(HOG)and color features,and a new human pose estimation algorithm based on the fusion of HOG and color features is proposed.The part appearance model is selected automatically according to the image to be processed,the existing part appearance model based on the fusion of HOG and color features is selected if both the light conditions and color contrast are good,and otherwise the part appearance model based on PCM clustering algorithm is chosen.Simulation results show that the established part appearance model can represent the appearance of real human part,which is from images with very poor light conditions and low color contrast,more accurately,the proposed human posture estimation algorithm can get more accurate estimation results for various types of images to be processed.
human pose estimation;part appearance model;histogram of oriented gradient;color;possibilistic C-means clustering algorithm
A
TP391.4
10.3778/j.issn.1002-8331.1606-0319
陜西省教育廳自然科學(xué)資助項(xiàng)目(No.2013jk1068)。
沈建冬(1976—),男,副教授,主要研究領(lǐng)域?yàn)槟J阶R(shí)別,E-mail:sjd761107@126.com;陳恒(1965—),男,博士,副教授,碩士生導(dǎo)師,主要研究領(lǐng)域?yàn)闄C(jī)器人與智能控制。
2016-06-23
2016-07-25
1002-8331(2017)21-0190-05
CNKI網(wǎng)絡(luò)優(yōu)先出版:2016-12-02,http://www.cnki.net/kcms/detail/11.2127.TP.20161202.1503.018.html