王國楨,方賢勇
(安徽大學(xué) 媒體計(jì)算研究所,安徽 合肥 230601)
基于圖模型的姿態(tài)分割估計(jì)方法
王國楨,方賢勇
(安徽大學(xué) 媒體計(jì)算研究所,安徽 合肥 230601)
計(jì)算機(jī)視覺領(lǐng)域中現(xiàn)在有一個(gè)非常熱門的問題就是人體的姿態(tài)估計(jì),它可用于行人檢測(cè)、人體活動(dòng)分析、人機(jī)交互以及視頻監(jiān)控等方面。目前對(duì)于圖像的人體姿態(tài)的估計(jì)方法在處理較復(fù)雜的背景的時(shí)候難以得到理想的效果,其原因在于這些方法不好區(qū)分人體和復(fù)雜背景,從而無法得到其想要的特征值供其使用。針對(duì)這一不足,提出一種姿態(tài)分割估計(jì)方法。該方法將人體分割后去除復(fù)雜背景的影響,并且在圖結(jié)構(gòu)模型中,結(jié)合使用形狀上下文特征的方法進(jìn)行訓(xùn)練對(duì)比,求解得出最優(yōu)的人體姿態(tài)。實(shí)驗(yàn)結(jié)果表明,該方法可以較好地在復(fù)雜背景下獲得人體的姿態(tài)估計(jì),更好地克服背景帶來的干擾,得到較現(xiàn)有方法更加理想的人體估計(jì)結(jié)果,從而把人體的姿態(tài)從復(fù)雜的背景圖像中給成功地估計(jì)出來。
人體姿態(tài);圖結(jié)構(gòu)模型;形狀上下文;分割
當(dāng)今,在靜態(tài)圖片中對(duì)人體的姿態(tài)估計(jì)成為一個(gè)熱門話題,在許多人機(jī)交互[1-2]自動(dòng)化的檢測(cè)、運(yùn)動(dòng)、動(dòng)作識(shí)別、角色動(dòng)畫、臨床步態(tài)分析中精準(zhǔn)的人體姿態(tài)估計(jì)得到了廣泛應(yīng)用。盡管已有多年的研究歷史,幾個(gè)因素使其成為一個(gè)極具挑戰(zhàn)的內(nèi)容,圖片中的人可以以各種各樣的姿態(tài)出現(xiàn)。文中針對(duì)這一問題進(jìn)行研究,提出基于圖模型的姿態(tài)估計(jì)方法。
圖形結(jié)構(gòu)(Pictorial Structure)[3]模型,是一個(gè)可以很好解決這個(gè)問題的方法,把人體的各個(gè)模塊放在一個(gè)無向圖中來解決,然后可以利用圖模型中具有的推理方法估計(jì)出人體的姿態(tài)。然而這個(gè)問題的難度在于,對(duì)于這個(gè)模型的建立如何有效來表現(xiàn)這些結(jié)構(gòu)的多樣性、可變性,并且如何獲取能夠讓這些模塊聯(lián)系在一起的關(guān)系結(jié)構(gòu)。Benjamin等[4]在特征提取中加入HOF(Histogram of Optical Flower,光流直方圖)[5],對(duì)于連續(xù)圖片中人的姿態(tài)進(jìn)行估計(jì)有更好的效果。Ouyang Wanli等[6]是在圖形結(jié)構(gòu)模型的基礎(chǔ)上,對(duì)圖片的訓(xùn)練過程使用Deep Learning[7]的方法,得到比較好的訓(xùn)練集。Shen Jie等[8]在圖形結(jié)構(gòu)模型的基礎(chǔ)上加上CT(Clothing Technology)技術(shù),即加入的衣服對(duì)圖片的估計(jì)影響,加上CT的約束后可以提高估計(jì)的準(zhǔn)確度。Brandon等[9]提出了一種And-Graph Model來解決上述問題,是對(duì)圖形結(jié)構(gòu)的一種改進(jìn),并提出一個(gè)基于邊界的梯度特征(Histogram of Oriented Gradients,HOG)[10],然而對(duì)于一些復(fù)雜的背景圖片,由于人不容易和背景圖片區(qū)分出來,當(dāng)檢測(cè)圖片中人的時(shí)候?qū)е鲁霈F(xiàn)不準(zhǔn)確的情況,從而影響最終的人體姿態(tài)估計(jì)結(jié)果。
針對(duì)已有的人體姿態(tài)估計(jì)對(duì)于復(fù)雜背景圖片的不足,文中運(yùn)用分割背景的思路,并與非常適合簡(jiǎn)單背景的Sharp Context的特征方法相結(jié)合,實(shí)現(xiàn)了高效的人體姿態(tài)的估計(jì)測(cè)量。
對(duì)于姿態(tài)的估計(jì),文中要對(duì)圖片進(jìn)行訓(xùn)練和測(cè)試,因?yàn)閷?duì)于復(fù)雜的背景,可能會(huì)影響對(duì)圖像里面人的處理,從而影響估計(jì)結(jié)果。所以文中提出對(duì)圖片中的人進(jìn)行分割,去除背景的干擾,然后用形狀上下文(Shape Context)[11]的特征檢測(cè)方法進(jìn)行訓(xùn)練和檢測(cè)。
2.1 圖像背景分割
文中使用文獻(xiàn)[12]提出的一種基于卷積神經(jīng)網(wǎng)絡(luò)的分割方法對(duì)圖像進(jìn)行分割。該方法采用一種深度學(xué)習(xí)的方法訓(xùn)練模型和參數(shù)。而該方法可以把人從復(fù)雜的背景中分割出來,達(dá)到文中想要的結(jié)果。
首先要進(jìn)行學(xué)習(xí)訓(xùn)練的過程,如圖1所示,主要分成了特征提取和得到分類器的過程。特征提取是為了能獲得合適的特征供分類器使用,從而可以在圖像中把人分割出來。具體方法是:對(duì)于輸入圖像,首先用高斯濾波器并加入一個(gè)偏置量對(duì)輸入圖像進(jìn)行卷積,得到卷積層。接著將它進(jìn)行子采樣,就是對(duì)卷積層中相鄰四個(gè)像素求和使它變成一個(gè)像素,然后通過標(biāo)量加權(quán),再增加偏置,最后通過一個(gè)sigmoid激活函數(shù),產(chǎn)生一個(gè)大概縮小四倍的特征映射圖。整個(gè)過程可以看成是由卷積層和子采樣層這兩個(gè)層的交替組成。結(jié)束后就完成了對(duì)圖像的特征提取。接著將得到的特征進(jìn)行分類,獲得一個(gè)分類器,這個(gè)分類器能夠?qū)斎雸D像進(jìn)行初始的分割。然后,使用條件隨機(jī)場(chǎng)的方法對(duì)上面得到的分類器效果進(jìn)行提高,也就是相當(dāng)于對(duì)一個(gè)粗糙的結(jié)果再進(jìn)行優(yōu)化的過程。通過這個(gè)過程,最終可以得到一個(gè)供文中使用的模型。接著輸入圖片,就可以得到文中想要的分割結(jié)果。
圖1 特征提取過程
對(duì)于得到的分割后的結(jié)果,可以用Ehsan等[13]提出的摳圖方法。
對(duì)于圖像中每個(gè)像素的顏色表示成前背景的線性組合。
Hz=azFz+(1-az)Bz
(1)
其中,F(xiàn)z是前景色;Bz是背景色。
對(duì)于式(1)中的系數(shù)az,它的取值范圍是0~1,稱之為混合像素。一般摳圖是需要用戶手動(dòng)交互信息的,但是文中有了之前求得的分割結(jié)果,能省去交互的過程,從而可以直接分割出結(jié)果,把人從背景中成功地?fù)赋鰜恚缓蠊┖竺嬗?xùn)練等使用。
圖2 圖像分割及摳圖結(jié)果
從圖2(a)中可以看出,從背景中把人給分割出來,然后由得到前景和后景的區(qū)別,可以用摳圖的方法,把這個(gè)圖中的人給摳出來,得到圖(b),從而去除復(fù)雜的背景,方便之后的計(jì)算。
2.2 形狀上下文特征提取及姿態(tài)估計(jì)
對(duì)于分割好背景的圖,要對(duì)其進(jìn)行邊界提取,也就是使用形狀上下文的方法,然后文中要用到圖結(jié)構(gòu)模型的方法來把人分塊,分別對(duì)塊內(nèi)的特征進(jìn)行尋找匹配,從而可以正確地估計(jì)出人體的姿態(tài)。
2.2.1 形狀上下文
形狀上下文可以很好地描述一個(gè)物體的形狀特征,以測(cè)量形狀的相似度。該方法主要是對(duì)輪廓上的n點(diǎn),對(duì)于在n中的每一個(gè)點(diǎn),用pi和其他的n-1個(gè)點(diǎn)進(jìn)行連接,從而可以獲得n-1個(gè)向量。這一系列的向量對(duì)外形有著豐富的描述,可以直接決定形狀的特征。所以如果當(dāng)n的值很大時(shí),所描述的特征也相對(duì)準(zhǔn)確。
首先找到邊緣上所有的點(diǎn)。文中可以用Canny[14]邊緣檢測(cè)算法獲得邊緣信息,取得二值圖像,接著把所需要的輪廓給提取出來,這樣就獲得了圖像中人的輪廓點(diǎn)。
把圖像中所有點(diǎn)的坐標(biāo)進(jìn)行對(duì)數(shù)極坐標(biāo)變換。對(duì)數(shù)坐標(biāo)系建立后,把圖像中的像素坐標(biāo)從(x,y)轉(zhuǎn)換成(r,θ),然后要對(duì)極坐標(biāo)系進(jìn)行分割,將空間平均先分成12份,再以半徑方向分成5份,這樣空間就被分成60份,為60個(gè)單元bin。以pi為原點(diǎn)將整個(gè)圖放到極坐標(biāo)內(nèi),接著對(duì)每個(gè)pi點(diǎn)求出它的直方圖,也就是形狀上下文,用Mi(k)表示。其中,k就是bin的序號(hào),取值范圍為0~60,接著統(tǒng)計(jì)出每個(gè)bin中點(diǎn)的個(gè)數(shù),然后繪制出一個(gè)直方圖。最后就是對(duì)其余的點(diǎn)也做同樣的操作,分別得到這些點(diǎn)的直方圖,合到一起就得到了這個(gè)完整圖像的形狀上下文。
對(duì)于兩個(gè)形狀W和U,pi是形狀W上的任意一點(diǎn),qj為形狀U上的任意一點(diǎn),則有Cs=C(pi,qj)。其中,Cs就是對(duì)兩個(gè)形狀上任意兩點(diǎn)的匹配值,文中可以用χ2檢測(cè)(卡方檢測(cè)),得到式(2):
(2)
文中希望求得式(2)的最小值,這樣也就說明這兩個(gè)點(diǎn)最為相似。有了形狀上下文,就要計(jì)算兩個(gè)形狀的相似度。這里文中引用圖結(jié)構(gòu)模型。
2.2.2 圖結(jié)構(gòu)模型
圖3為人體圖模型??梢钥闯?,主要就是把人體分成幾個(gè)部塊,有頭、軀干、手臂和腿,其中手和腿分別又分成前手臂和后手臂,腿也是分成小腿和大腿。然后把這些部分塊分別放入一個(gè)無向圖中,使用圖推理和概率學(xué)的知識(shí)對(duì)每一部分分別求解。
圖3 人體圖模型
對(duì)于一個(gè)圖結(jié)構(gòu)模型,可以定義一個(gè)圖G=(V,E),其中V={v1,v2,…,vn}表示各個(gè)頂點(diǎn),相當(dāng)于人體的各個(gè)部分。(vi,vj)∈E是連接vi和vj這兩部分的一個(gè)邊。每一個(gè)待檢測(cè)的人,可以用H=(h1,h2,…,hn)來表示,其中每一個(gè)hi表示vi的位置,也就是圖3中黑色的矩形框,hi=(xi,yi)表示矩形框中心位置的坐標(biāo)。對(duì)于給定的一幅圖,mi(hi)用來表示身體的真實(shí)部位和預(yù)測(cè)估計(jì)的hi矩形框位置是不是符合的,dij(hi,hj)用來表示兩個(gè)約束部位不會(huì)相差得太遠(yuǎn)。例如,頭和身體就應(yīng)該是相連接的而不可能是頭和腳連接,這就需要進(jìn)行約束。對(duì)于圖像中的一個(gè)人,可以得出一個(gè)最小的能量?jī)?yōu)化式子:
(3)
2.2.3 估計(jì)過程
文中要得到姿態(tài)估計(jì)的結(jié)果,首先要對(duì)圖片進(jìn)行大量訓(xùn)練。對(duì)于數(shù)據(jù)集中的每一張圖片,文中都要先對(duì)它進(jìn)行身體部位位置的標(biāo)定,也就是框出身體的各個(gè)部位,然后求出它的形狀上下文,即可以得到數(shù)據(jù)集中每一幅圖像的形狀上下文。
對(duì)于輸入測(cè)試的圖片,先對(duì)它求出形狀上下文。由式(3)可知,文中要通過比較輸入圖像和數(shù)據(jù)集中的圖像的形狀上下文,使得這個(gè)式子得到最小值,就是所估計(jì)的結(jié)果。
對(duì)于式(3),文中可以用貝葉斯理論把它轉(zhuǎn)化成概率學(xué)求解:
p(H/I)∝p(I/H)p(H)
(4)
其中,I為給定的一幅圖像;p(H)為先驗(yàn)項(xiàng)。
(5)
它是為了確定人體的結(jié)構(gòu),對(duì)應(yīng)的是公式(3)中的dij(hi,hj)。
對(duì)于p(I/H)有:
(6)
可以看出,該式就是為了求出人體的10個(gè)部位的位置,對(duì)應(yīng)為式(3)中的mi(hi)。當(dāng)人體結(jié)構(gòu)確定后,只需要通過式(2)中的對(duì)比形狀上下文,對(duì)于輸入圖像找到最符合它的每一部分人體結(jié)構(gòu)。把人體結(jié)構(gòu)中的每一部分給填充上去,就可以得到人體的姿態(tài)估計(jì)。
為了驗(yàn)證上述方法的可行性和效果,分別對(duì)Parse數(shù)據(jù)集中400張圖片進(jìn)行訓(xùn)練和100張圖片進(jìn)行測(cè)試,以及Leeds數(shù)據(jù)集中的300張圖片分別進(jìn)行訓(xùn)練和測(cè)試。實(shí)驗(yàn)主要以文獻(xiàn)[7]的方法進(jìn)行對(duì)比,因?yàn)槲墨I(xiàn)[7]的方法也用到了圖模型,然后在圖模型的基礎(chǔ)上用到HOG的特征來進(jìn)行特征提取,并供其使用。文中方法和文獻(xiàn)[7]方法的思路大體一樣,所以選擇和它進(jìn)行對(duì)比。實(shí)驗(yàn)環(huán)境為:Window7 64位操作系統(tǒng),8GB內(nèi)存,CPU為酷睿i7,軟件為Matlab2015a。
圖4是對(duì)靜態(tài)圖片中人體的姿態(tài)估計(jì)的結(jié)果。圖(a)是文獻(xiàn)[7]的方法,對(duì)于右手可以看出因?yàn)楹捅尘暗念伾^于相近,檢測(cè)時(shí)可能就沒法區(qū)分出袖子,所以沒有取得很好的估計(jì)效果。圖(b)是文中去除背景后加入形狀上下文方法得出的效果,在右手的手部有了明顯的提升,而且在左腿也比文獻(xiàn)[7]方法的效果要準(zhǔn)確。
圖4 姿態(tài)估計(jì)的結(jié)果
圖5和圖6是文中方法和文獻(xiàn)[7]方法在不同狀態(tài)下的比較結(jié)果,分成人在跑步和靜止?fàn)顟B(tài)下的圖片對(duì)比。左圖都是文獻(xiàn)[7]的方法,右圖都是文中方法。可以看出,文中的姿態(tài)估計(jì)的方法還是比文獻(xiàn)[7]方法準(zhǔn)確。
圖5 跑動(dòng)的人的結(jié)果
圖6 靜止的人的結(jié)果
針對(duì)目前由于復(fù)雜背景不能很好地估計(jì)出人體姿態(tài)的問題,提出一種姿態(tài)估計(jì)方法。該方法首先去除圖像的背景,然后再根據(jù)形狀上下文的方法提取并訓(xùn)練樣本模板,最后對(duì)輸入圖片進(jìn)行對(duì)比,從而得出較好的姿態(tài)估計(jì)結(jié)果。實(shí)驗(yàn)結(jié)果表明該方法是可行的。但是可能或因?yàn)橛?xùn)練樣本數(shù)不夠,導(dǎo)致一些圖像中的人沒有得到很好的估計(jì)效果,以后工作中將會(huì)考慮加大訓(xùn)練集,并且對(duì)圖模型結(jié)構(gòu)進(jìn)行改進(jìn),從而得到更好的姿態(tài)估計(jì)結(jié)果。
[1]Chairman-HewettTT,BaeckerR,CardS,etal.ACMSIGCHIcurriculaforhuman-computerinteraction[R].NewYork:ACM,1992.
[2]MyersBA.Abriefhistoryofhuman-computerinteractiontechnology[J].Interactions,1998,5(2):44-54.
[3]FelzenszwalbP,HuttenlocherD.Pictorialstructuresforobjectrecognition[J].InternationalJournalofComputerVision,2005,61(1):55-79.
[4]YaoBZ,NieBX,LiuZicheng,etal.Animatedposetemplatesformodellinganddetectinghumanactions[J].IEEETransactionsonPatternAnalysisandMachineIntelligence,2014,36(3):436-452.
[5]ChaudhryR,RavichandranA,HagerG,etal.Histogramsoforientedopticalflowandbinet-cauchykernelsonnonlineardynamicalsystemsfortherecognitionofhumanactions[C]//IEEEconferenceoncomputervisionandpatternrecognition.[s.l.]:IEEE,2009:1932-1939.
[6]OuyangWanli,ChuXiao,WangXiaogang.Multi-sourcedeeplearningforhumanposeestimation[C]//IEEEconferenceoncomputervisionandpatternrecognition.[s.l.]:IEEE,2014:2337-2344.
[7]GeHinton,OsinderoS,TehYW.Afastlearningalgorithmfordeepbeliefnets[J].NeuralComputation,2006,21(18):1527-1554.
[8]ShenJie,LiuGuangcan,ChenJia,etal.Unifiedstructuredlearningforsimultaneoushumanposeestimationandgarmentattributeclassification[J].IEEETransactionsonImageProcessing,2014,23(11):4786-4798.
[9]RothrockB,ParkS,ZhuSongchun.Integratinggrammarandsegmentationforhumanposeestimation[J].InternationalJournalofComputerVision,2013,25(13):3214-3221.
[10]DalalN,TriggsB.Histogramsoforientedgradientsforhumandetection[C]//IEEEconferenceoncomputervisionandpatternrecognition.[s.l.]:IEEE,2005:886-893.
[11]BelongieS,MalikJ.Shapematchingandobjectrecognitionusingshapecontexts[J].IEEETransactionsonPatternAnalysisandMachineintelligence,2000,18(5):927-944.
[12]ZhengShuai,JayasumamaS,Romera-ParedesB,etal.Conditionalrandomfieldsasrecurrentneuralnetworks[C]//IEEEconferenceoncomputervisionandpatternrecognition.[s.l.]:IEEE,2015:216-232.
[13]ShahrianE,RajanD,PriceB,etal.Improvingimagemattingusingcomprehensivesamplingsets[C]//IEEEconferenceoncomputervisionandpatternrecognition.[s.l.]:IEEE,2013:636-643.
[14]CannyJ.Acomputationalapproachtoedgedetection[J].IEEETransactionsonPatternAnalysisandMachineIntelligene,1986,8(6):679-698.
Pose Segmentation and Estimation Based on Pictorial Structure Model
WANG Guo-zhen,F(xiàn)ANG Xian-yong
(Institute of Media Computing,Anhui University,Hefei 230601,China)
Human pose estimation is one of the hot topics in the field of computer vision,and can be used for pedestrian detection,human activity analysis,human-computer interaction and video surveillance and so on.It is difficult to robustly estimate the human pose under the complex background for existing estimation methods of human pose,which is partially due to the lack of good features to separate the foreground human from the complex background.Aiming at the deficiencies mentioned above,a pose segmentation and estimation method is presented.The human is segmented from the background by semantic segmentation.Then shape context method is adopted to obtain the optimal human pose in the pictorial structure.Experimental results show that the proposed method can get the pose estimation,overcome the interference from background,and obtain a better body estimation than the existing method under complex backgrounds.So it can be success to estimate the body pose from the image in a complex background.
human pose;pictorial structure;shape context;segmentation
2016-02-10
2016-06-15
時(shí)間:2016-11-21
國家自然科學(xué)基金資助項(xiàng)目(61502005);安徽省自然科學(xué)基金(1308085QF100,1408085MF113)
王國楨(1989-),男,碩士研究生,研究方向?yàn)閳D像處理和計(jì)算機(jī)視覺;方賢勇,教授,研究方向?yàn)橛?jì)算機(jī)圖形學(xué)和計(jì)算機(jī)視覺。
http://www.cnki.net/kcms/detail/61.1450.TP.20161121.1641.032.html
TP31
A
1673-629X(2016)12-0053-05
10.3969/j.issn.1673-629X.2016.12.012