史青宣 邸慧軍 陸耀 田學(xué)東
視頻人體姿態(tài)估計(jì)是指獲取給定視頻中人體各部位在每幀圖像中的位置及方向等信息的過程[1],是目前計(jì)算機(jī)視覺領(lǐng)域的研究熱點(diǎn),在行為識(shí)別[2]、人機(jī)交互[3]、視頻理解[4?5]等領(lǐng)域均有廣泛的應(yīng)用.
近些年,基于部件模型[6],針對(duì)單幀圖像的人體姿態(tài)估計(jì)展開了大量的研究并取得了卓有成效的進(jìn)展[7?10],然而這些方法對(duì)人體四肢,尤其末端(手腕、肘、腳踝、膝蓋)部位的估計(jì)結(jié)果還很不理想,直接運(yùn)用到視頻的人體姿態(tài)估計(jì)問題上并不能得到滿意的結(jié)果.針對(duì)視頻中的人體姿態(tài)估計(jì),借助運(yùn)動(dòng)信息,在人體部件模型基礎(chǔ)上添加時(shí)序一致性約束,將會(huì)得到更準(zhǔn)確的估計(jì)結(jié)果.現(xiàn)有基于部件的視頻人體姿態(tài)估計(jì)方法通常的做法是,為每幀圖像生成各個(gè)人體部件的狀態(tài)候選;然后,構(gòu)建時(shí)空概率圖模型,推理視頻中每一時(shí)刻的人體姿態(tài).根據(jù)實(shí)體在時(shí)域上的覆蓋度,目前這類方法采用的模型可以分為細(xì)粒度模型和粗粒度模型兩類.
第一類是細(xì)粒度模型.以人體部件(構(gòu)成姿態(tài)序列的最小單位)為實(shí)體,在單幀人體空域部件模型(圖1(a))基礎(chǔ)上,添加部件的幀間時(shí)域聯(lián)系,形成一個(gè)時(shí)空部件模型(圖1(b)),實(shí)體在時(shí)域上只覆蓋單幀圖像,模型推理目的是為每幀圖像中的人體各部件挑選符合時(shí)空約束的最優(yōu)狀態(tài)[11?16].由于人體姿態(tài)變化的多樣性,人的體型、穿著、視角等變化,部件模型很難捕捉到所有的表觀變化,而時(shí)域上只引入了相鄰幀間的一致性約束,沒有長(zhǎng)時(shí)一致性的約束,易出現(xiàn)部件狀態(tài)估計(jì)的誤差累積.另外由于模型存在環(huán)路,無法獲取精確解,近似推理也在一定程度上進(jìn)一步降低估計(jì)的精度.
圖1 現(xiàn)有視頻人體姿態(tài)估計(jì)方法采用的模型Fig.1 The models used in video pose estimation
第二類是粗粒度模型.以人體部件的軌跡為實(shí)體,時(shí)空部件模型在時(shí)域上的依賴關(guān)系不復(fù)存在,實(shí)體在時(shí)域上覆蓋整個(gè)視頻,模型塌陷成為與單幀人體姿態(tài)估計(jì)相同的模型(圖1(c)),模型中結(jié)點(diǎn)表示部件的軌跡,邊表示部件軌跡間的約束關(guān)系,此時(shí)模型推理的目的是為每個(gè)人體部件挑選一個(gè)最優(yōu)的軌跡來組裝成最終的姿態(tài)序列[17?18].粗粒度模型在時(shí)域上可以添加長(zhǎng)時(shí)一致性的約束,避免了誤差累積的情況,而且模型簡(jiǎn)化,推理簡(jiǎn)單.然而,為人體部件生成合理優(yōu)質(zhì)的軌跡本身屬于跟蹤問題,對(duì)于人體四肢部位,尤其末端部位(比如腕部、踝部),極易出現(xiàn)表觀的劇烈變化、遮擋、快速運(yùn)動(dòng)等情況,而這些都是跟蹤的典型難題.
本文綜合粗、細(xì)粒度模型的優(yōu)點(diǎn),從中粒度出發(fā),以人體部件的軌跡片段為實(shí)體,構(gòu)建時(shí)空模型,推理為每一人體部件選擇最優(yōu)的軌跡片段,通過拼接各部件的軌跡片段形成最終的人體姿態(tài)序列估計(jì).模型中實(shí)體覆蓋若干幀,方便添加長(zhǎng)時(shí)的一致性約束,降低對(duì)部件模型的敏感度.為解決對(duì)稱部件易混淆的問題,模型中添加對(duì)稱部件間約束(如圖2(a)),并從概念上將對(duì)稱部件合并為一個(gè)結(jié)點(diǎn)(如圖2(b)),通過該處理消除空域模型中的環(huán)路,同時(shí)保留對(duì)稱部件間約束,最終模型如圖2(c)所示.
環(huán)路的存在使得時(shí)空概率圖模型的確切解不可得,通常只能通過近似推理,如循環(huán)置信度傳播[11,19]、采樣[20]變分[12]等手段來獲取近似解.另外一類思路對(duì)原始環(huán)狀圖模型進(jìn)行拆解,用一組樹狀子圖來近似原始圖模型[13?14,21].還有部分研究者采用分步優(yōu)化的策略[15?16],首先不考慮空間約束,對(duì)檢測(cè)最為穩(wěn)定的部件(如頭部)進(jìn)行序列估計(jì),再基于該序列估計(jì),對(duì)其鄰接部件進(jìn)行優(yōu)化,該過程一直到所有部件處理完成.本文將整個(gè)時(shí)空模型(圖4(a))拆解為一組馬爾科夫隨機(jī)場(chǎng)(圖4(b))和隱馬爾科夫模型(圖4(c)),分別負(fù)責(zé)空域和時(shí)域的解析,通過迭代的時(shí)域和空域交替解析,完成時(shí)空模型的近似推理.
圖2 中粒度時(shí)空模型Fig.2 The medium granularity model
除推理算法外,部件候選集的質(zhì)量直接影響最終姿態(tài)估計(jì)的結(jié)果.直接將單幀圖像的前K個(gè)最優(yōu)姿態(tài)檢測(cè)作為候選[22?23],很難保證能夠覆蓋真實(shí)的姿態(tài).為了生成更多可靠的姿態(tài)候選,常用的一個(gè)策略是引入局部運(yùn)動(dòng)信息對(duì)姿態(tài)檢測(cè)結(jié)果進(jìn)行傳播[15?16,24?26].借助準(zhǔn)確的運(yùn)動(dòng)信息,對(duì)優(yōu)質(zhì)的姿態(tài)檢測(cè)結(jié)果進(jìn)行傳播,可以為相鄰幀生成合理的姿態(tài)候選.然而當(dāng)視頻中存在快速運(yùn)動(dòng)或連續(xù)出現(xiàn)非常規(guī)人體姿態(tài)時(shí),這種策略將會(huì)失效.1)快速運(yùn)動(dòng)易導(dǎo)致運(yùn)動(dòng)估計(jì)出現(xiàn)誤差.圖3給出了一個(gè)快速運(yùn)動(dòng)的例子,可以看出傳統(tǒng)的運(yùn)動(dòng)估計(jì)算法(LDOF[27]、FarneBackOF[28])無法成功捕捉腳的快速運(yùn)動(dòng).這使得即使在t幀有準(zhǔn)確的檢測(cè),也無法通過傳播為t+1幀生成合理的候選.2)當(dāng)非常規(guī)姿態(tài)連續(xù)出現(xiàn)時(shí),姿態(tài)檢測(cè)器會(huì)在相鄰的多幀圖像中連續(xù)失敗,沒有好的姿態(tài)檢測(cè)結(jié)果,即使有準(zhǔn)確的幀間運(yùn)動(dòng)信息,也無法通過傳播為這些幀生成好的候選.這時(shí)可借助長(zhǎng)時(shí)運(yùn)動(dòng)信息將優(yōu)質(zhì)的檢測(cè)結(jié)果傳播到更遠(yuǎn)范圍[29].然而,從圖4給出的例子可以看出,傳統(tǒng)的運(yùn)動(dòng)估計(jì)幾乎無法避免誤差累計(jì)與漂移.針對(duì)以上問題,本文引入全局運(yùn)動(dòng)信息[30?31]對(duì)姿態(tài)檢測(cè)結(jié)果進(jìn)行傳播.全局運(yùn)動(dòng)信息可以給出前景長(zhǎng)時(shí)一致的對(duì)應(yīng)關(guān)系,較好地解決了快速運(yùn)動(dòng)造成的障礙,將優(yōu)質(zhì)的姿態(tài)檢測(cè)結(jié)果穩(wěn)定地傳播,為更多的幀提供有效候選.
圖3 不同方法的短時(shí)運(yùn)動(dòng)估計(jì)對(duì)比Fig.3 Short-term performances of different motion estimation approaches
圖4 不同方法的長(zhǎng)時(shí)運(yùn)動(dòng)估計(jì)對(duì)比Fig.4 Long-term performances of different motion estimation approaches
本文的主要貢獻(xiàn)可以歸納如下:1)引入全局運(yùn)動(dòng)信息進(jìn)行姿態(tài)檢測(cè)的傳播,克服局部運(yùn)動(dòng)信息的弊端,為后期推理提供更合理、優(yōu)質(zhì)的狀態(tài)候選.2)構(gòu)建中粒度模型,有效避免細(xì)粒度模型對(duì)部件模型敏感的缺點(diǎn),同時(shí)便于添加長(zhǎng)時(shí)的一致性約束.
給定含有N幀的視頻,本文通過三個(gè)主要步驟得到最終的姿態(tài)估計(jì)結(jié)果(圖5).首先,用姿態(tài)檢測(cè)器對(duì)每幀圖像進(jìn)行姿態(tài)檢測(cè);然后,借助全局運(yùn)動(dòng)信息,將每幀中的最優(yōu)檢測(cè)結(jié)果傳播到整個(gè)視頻,從而為每個(gè)人體部件生成N條軌跡,隨即這些軌跡被切割成重疊的固定長(zhǎng)度的軌跡片段,構(gòu)成每個(gè)部件的軌跡片段候選集;最后,通過求解中粒度時(shí)空概率圖模型的優(yōu)化問題,獲得符合時(shí)空一致性約束的最優(yōu)軌跡片段,拼接融合各部件的最優(yōu)軌跡片段形成最終的姿態(tài)估計(jì)序列.
第1.1節(jié)簡(jiǎn)要介紹單幀圖像中進(jìn)行姿態(tài)檢測(cè)的混合部件模型[7],第1.2節(jié)描述軌跡片段候選的生成過程,第1.3節(jié)定義中粒度時(shí)空概率圖模型.
圖5 基于中粒度模型的視頻人體姿態(tài)估計(jì)方法示意圖Fig.5 Overview of the video pose estimation method based on medium granularity model
用于單幀圖像的人體姿態(tài)檢測(cè)器將人體建模成一個(gè)包含M個(gè)結(jié)點(diǎn)的樹狀圖模型G=(V,E),如圖1(a)所示,其中結(jié)點(diǎn)對(duì)應(yīng)人體的M個(gè)部件,邊表示部件間的空間約束關(guān)系.人體的姿態(tài)可表示為所有部件的狀態(tài)集合:X={x1,x2,···,xM},其中部件i的狀態(tài)xi由圖像中的坐標(biāo)位置構(gòu)成.給定圖像I,對(duì)某一特定人體部件狀態(tài)配置X可用式(1)進(jìn)行評(píng)分:
這里φ(xi,I)為部件的觀測(cè)項(xiàng),用于計(jì)算部件i取狀態(tài)xi時(shí)的圖像區(qū)域特征與部件模板的匹配程度;ψ(xi,xj)評(píng)估兩個(gè)相連人體部件i與j間的幾何連接狀況與人體模型對(duì)應(yīng)結(jié)點(diǎn)間幾何約束的匹配程度.所有部件的模板和部件間的幾何約束模型均利用結(jié)構(gòu)化SVM進(jìn)行聯(lián)合訓(xùn)練得到.
姿態(tài)檢測(cè)問題則形式化為最大化S(I,X)問題.本文采用文獻(xiàn)[7]的算法進(jìn)行單幀圖像的姿態(tài)檢測(cè),并采用文中方法對(duì)部件以及相連部件間空間約束進(jìn)行建模,為描述簡(jiǎn)潔,公式中省略了部件類型相關(guān)的描述,具體細(xì)節(jié)可參考文獻(xiàn)[7].
本文采用分層彈性運(yùn)動(dòng)跟蹤方法[31]對(duì)視頻中的人體進(jìn)行彈性運(yùn)動(dòng)跟蹤[30],獲取全局運(yùn)動(dòng)信息,并基于此信息,對(duì)每幀獲得的人體姿態(tài)檢測(cè)結(jié)果進(jìn)行傳播.全局運(yùn)動(dòng)信息給出的是目標(biāo)在視頻各幀的一個(gè)全局對(duì)應(yīng)關(guān)系,給定某幀圖像中一個(gè)點(diǎn),通過該對(duì)應(yīng)關(guān)系可以獲取該點(diǎn)在其他幀的對(duì)應(yīng)位置.因此,將第t幀的姿態(tài)檢測(cè)結(jié)果X={x1,x2,···,xM}作為參考點(diǎn)集,通過全局運(yùn)動(dòng)信息,可獲取該點(diǎn)集在視頻各幀中的對(duì)應(yīng)位置,由此得到各部件的一條軌跡.對(duì)所有N幀中的姿態(tài)檢測(cè)結(jié)果實(shí)施該傳播操作,為各部件生成N條軌跡候選.
在假設(shè)全局運(yùn)動(dòng)信息可信的前提下,t幀的姿態(tài)檢測(cè)結(jié)果中xi越準(zhǔn)確,傳播xi所生成的軌跡質(zhì)量越高,越是鄰近xi的軌跡片段越可靠.拼接各部件的優(yōu)質(zhì)軌跡片段,將得到高精確度的姿態(tài)估計(jì)結(jié)果.基于此直觀想法,本文將所有軌跡切割成重疊的固定長(zhǎng)度的軌跡片段,構(gòu)成各部件的軌跡片段候選,構(gòu)建以部件軌跡片段為實(shí)體的中粒度時(shí)空模型,推理挑選出符合時(shí)空約束的最優(yōu)軌跡片段.
本文將視頻的姿態(tài)估計(jì)問題建模成一個(gè)如圖6(a)所示的時(shí)空概率圖模型,其中結(jié)點(diǎn)對(duì)應(yīng)人體部件軌跡片段,邊表示軌跡片段間的空間幾何約束以及時(shí)間上相鄰片段的一致性約束,目的是為每個(gè)人體部件挑選出最優(yōu)的軌跡片段.該問題可形式化為圖模型的優(yōu)化問題,由于該圖模型存在環(huán),受文獻(xiàn)[14]啟發(fā),本文將時(shí)空模型分解為兩個(gè)樹狀結(jié)構(gòu)子圖模型:馬爾科夫隨機(jī)場(chǎng)與隱馬爾科夫模型,分別負(fù)責(zé)空域解析(如圖6(b))和時(shí)域解析(如圖6(c)).為保留對(duì)稱部件間的約束關(guān)系,同時(shí)剔除空域模型中的環(huán)路,對(duì)稱部件已合并,即原始的14個(gè)關(guān)節(jié)點(diǎn)的人體模型簡(jiǎn)化為8結(jié)點(diǎn)模型,為描述清晰,我們用單部件和組合部件對(duì)部件進(jìn)行區(qū)分,其中單部件指頭和頸兩部件,組合部件指合并的對(duì)稱部件即肩、肘、腕、胯、膝以及踝等6個(gè)部件.
圖6 時(shí)空模型分解為空域子模型和時(shí)域子模型Fig.6 Sub-models of the full graphical model
子圖模型馬爾科夫隨機(jī)場(chǎng)(圖6(b))用于在每個(gè)視頻分段內(nèi)進(jìn)行空域解析,我們用G=(VT,ET)來表示.表示在第t個(gè)視頻分段Vt中的M個(gè)人體部件的軌跡片段配置,其中Tt∈T,T是各部件軌跡片段候選的任意組合.對(duì)特定軌跡片段配置Tt的評(píng)分可由下式完成:
其中,一元項(xiàng)計(jì)算部件軌跡片段與視頻片段Vt的兼容性,以及在片段內(nèi)時(shí)域上部件表觀的一致性.當(dāng)部件為組合部件時(shí),在該一元項(xiàng)中還將添加對(duì)稱部件間的評(píng)測(cè).二元項(xiàng)評(píng)估兩部件軌跡片段間的空域兼容性.
為了能使公式描述更清晰,用Q替換Vt,當(dāng)部件i為單部件,用Si替換當(dāng)部件i為組合部件,用Ci替換表示長(zhǎng)度為F幀的視頻片段Q中第f幀圖像,表示部件i的軌跡片段在第f幀的狀態(tài).
對(duì)單部件,一元項(xiàng)定義為
其中,綜合部件i的表觀評(píng)分(式(1)中部件表觀評(píng)分項(xiàng))與前景覆蓋度為權(quán)重因子,φg(Si)計(jì)算片段內(nèi)部件i的表觀時(shí)序一致性,用部件表觀特征的方差與片段內(nèi)最大位移的比值來衡量,定義為
其中,為部件i在圖像qf中取狀態(tài)時(shí),所在的局部圖像塊歸一化后的顏色直方圖.
對(duì)組合部件,一元項(xiàng)定義為
其中,前兩項(xiàng)分別為左右部件軌跡片段的表觀評(píng)分,Φs(·)定義同式(3),Ci.l與Ci.r分別表示組合部件i的左右兩個(gè)部分;第3項(xiàng)度量對(duì)稱部件間的表觀一致性,為對(duì)稱部件間顏色直方圖的Chi-square距離;第4項(xiàng)度量對(duì)稱部件間距離,定義λ2與λ3為權(quán)重因子.評(píng)估原則為:軌跡片段的表觀與部件模型越兼容,對(duì)稱部件間顏色越一致、距離越遠(yuǎn),得分越高.
二元項(xiàng)評(píng)估兩部件軌跡片段間的空域兼容性.當(dāng)鄰接的兩結(jié)點(diǎn)均為單部件時(shí),二元項(xiàng)定義為
當(dāng)鄰接的兩結(jié)點(diǎn)分別對(duì)應(yīng)單部件與組合部件時(shí),二元項(xiàng)定義為
當(dāng)鄰接的兩結(jié)點(diǎn)均為組合部件時(shí),二元項(xiàng)定義為
其中,ψp(·)評(píng)估兩鄰接部件的空域兼容性,定義同式(1)中的二元項(xiàng).
隱馬爾科夫模型負(fù)責(zé)在候選集中挑選出符合時(shí)域一致性約束的軌跡片段.我們將整個(gè)視頻分割為重疊的N個(gè)片段,用表示.任一部件i在整個(gè)視頻上的軌跡片段配置用表示,并建模成為一個(gè)馬爾科夫鏈.時(shí)域上的軌跡片段配置Ti的評(píng)分函數(shù)可以定義為
其中,一元項(xiàng)評(píng)估軌跡片段的表觀評(píng)分以及與i結(jié)點(diǎn)的雙親結(jié)點(diǎn)pa(i)的空域兼容性,具體定義為
其中,定義同式 (2).二元項(xiàng)評(píng)估兩鄰接軌跡片段的時(shí)序一致性,本文利用軌跡片段重疊部分的距離來計(jì)算,假設(shè)兩鄰接軌跡片段分別為A和B,重疊m幀,則我們用計(jì)算A與B之間的距離.對(duì)單部件結(jié)點(diǎn),二元項(xiàng)定義為
對(duì)組合部件結(jié)點(diǎn),二元項(xiàng)定義為
其中,λ4與λ5為權(quán)重因子.
給定所有人體部件在每一視頻片段的軌跡片段候選,模型推理的目標(biāo)是挑選符合時(shí)空約束的最優(yōu)軌跡片段,即獲取軌跡片段的最優(yōu)配置.我們通過迭代的時(shí)空解析來實(shí)現(xiàn).通過空域子模型上的解析,計(jì)算出所有軌跡片段的得分,篩選高分軌跡片段候選,構(gòu)成時(shí)域解析的輸入狀態(tài)空間.依據(jù)時(shí)域解析結(jié)果再次對(duì)候選進(jìn)行篩選,作為空域解析的輸入進(jìn)入下一次迭代.迭代解析過程從空域開始,原始輸入狀態(tài)空間由切割軌跡獲取的軌跡片段構(gòu)成.隨著交替解析的進(jìn)行,逐步縮減狀態(tài)候選數(shù)量,一直到最后挑選出最優(yōu)結(jié)果.最終的姿態(tài)序列由最優(yōu)軌跡片段拼接融合得到.
在空域解析階段,在第t個(gè)視頻片段,為部件i選擇軌跡片段候選a的評(píng)分定義為
由于空域子模型是樹狀結(jié)構(gòu),所有部件軌跡片段候選的評(píng)分可以通過消息傳遞算法求得.從部件i到其鄰接部件j的消息定義為
由此,部件i的軌跡片段的評(píng)分可依據(jù)以下定義計(jì)算:
消息從葉子傳遞到根,再由根傳遞回葉子,一個(gè)循環(huán)即可求得所有軌跡片段的評(píng)分.
在時(shí)域解析階段,由于子模型為鏈狀結(jié)構(gòu),所有軌跡片段的評(píng)分同樣可通過消息在馬爾科夫鏈上的一個(gè)循環(huán)傳遞完成.時(shí)域模型上從t片段向t+1片段傳遞的消息定義為
時(shí)序反向傳遞的消息定義類似,由此,部件i的軌跡片段的評(píng)分可定義如下:
其中,(式(10))涉及結(jié)點(diǎn)i與其雙親結(jié)點(diǎn)間的空域兼容性評(píng)估,我們采用分步處理的策略來進(jìn)行各部件的時(shí)域解析.從空域模型的根結(jié)點(diǎn)(頭部)開始時(shí)域解析過程,由于頭部是檢測(cè)最為穩(wěn)定的部件,首先,對(duì)其進(jìn)行獨(dú)立的時(shí)域解析;然后,基于頭部的解析結(jié)果,計(jì)算其子結(jié)點(diǎn)的空域兼容項(xiàng)得分并對(duì)其進(jìn)行時(shí)域解析,這個(gè)過程按空域模型結(jié)構(gòu)一直到所有葉子結(jié)點(diǎn)推理完成.
迭代時(shí)空解析的算法如算法1所示.
本文在三個(gè)視頻數(shù)據(jù)集上進(jìn)行了實(shí)驗(yàn).
UnusualPose視頻數(shù)據(jù)集[12]:該視頻集包含4段視頻,存在大量的非常規(guī)人體姿態(tài)以及快速運(yùn)動(dòng).
FYDP視頻數(shù)據(jù)集[29]:由20個(gè)舞蹈視頻構(gòu)成,除個(gè)別視頻外,大部分運(yùn)動(dòng)比較平滑.
Sub_Nbest視頻數(shù)據(jù)集[22]:為方便與其他方法對(duì)比,本文按照對(duì)比算法中的挑選方法,只選用了文獻(xiàn)[22]中給出的Walkstraight和Baseball兩個(gè)視頻.
本文采用目前常用的兩個(gè)評(píng)價(jià)機(jī)制對(duì)實(shí)驗(yàn)結(jié)果進(jìn)行分析.
PCK (Percentage of correct keypoints)[7]:PCK給出正確估計(jì)關(guān)鍵點(diǎn)(關(guān)節(jié)點(diǎn)部件的坐標(biāo)位置)的百分比,這里的關(guān)鍵點(diǎn),通常指的是人體的關(guān)節(jié)點(diǎn)(如頭、頸、肩、肘、腕、胯、膝、踝,當(dāng)一個(gè)關(guān)鍵點(diǎn)的估計(jì)位置落在真值α·max(h,w)像素范圍內(nèi)時(shí),其估計(jì)被認(rèn)為是準(zhǔn)確的,這里的h,w分別是人體目標(biāo)邊界框的高和寬,α用于控制正確性判斷的閾值.邊界框由人體關(guān)節(jié)點(diǎn)真值的最緊外包矩形框界定,根據(jù)姿態(tài)估計(jì)對(duì)象為整個(gè)人體或上半身人體,α值設(shè)為0.1或0.2.
PCP(Percentage of correct limb parts)[11]:PCP是目前應(yīng)用非常廣泛的姿態(tài)估計(jì)的評(píng)價(jià)機(jī)制,它計(jì)算的是人體部件的正確評(píng)估百分比,與關(guān)節(jié)點(diǎn)不同,這里的人體部件是指兩相鄰關(guān)節(jié)點(diǎn)連接所對(duì)應(yīng)的人體部位(比如上臂、前臂、大腿、小腿、軀干、頭部).當(dāng)一個(gè)人體部件兩端對(duì)應(yīng)的關(guān)節(jié)點(diǎn)均落在端點(diǎn)連線長(zhǎng)度的50%范圍內(nèi)時(shí),該部件的估計(jì)被認(rèn)為是正確的.
實(shí)驗(yàn)中,視頻分段的長(zhǎng)度為7幀,鄰接片段重疊3幀,模型推理通過一次迭代完成.通過表觀評(píng)分挑選前20個(gè)軌跡片段構(gòu)成最初輸入空域解析的狀態(tài)空間,經(jīng)空域推理為每個(gè)部件挑選最優(yōu)的3個(gè)假設(shè)構(gòu)成時(shí)域解析的輸入,并通過時(shí)域推理得到最優(yōu)的估計(jì),最終的姿態(tài)序列由軌跡片段的拼接融合得到.
本文提出的人體姿態(tài)估計(jì)方法,主要包括三個(gè)關(guān)鍵處理策略:1)采用全局運(yùn)動(dòng)信息對(duì)姿態(tài)檢測(cè)結(jié)果進(jìn)行傳播;2)構(gòu)建中粒度模型,以部件軌跡片段為推理實(shí)體;3)對(duì)稱部件合并,以簡(jiǎn)化空域模型結(jié)構(gòu)同時(shí)保留對(duì)稱部件間約束.為驗(yàn)證這三個(gè)關(guān)鍵處理策略的有效性,本文設(shè)置了4組對(duì)比實(shí)驗(yàn),每組實(shí)驗(yàn)改變其中一個(gè)處理策略,實(shí)驗(yàn)的設(shè)置如下.
實(shí)驗(yàn)1.用局部運(yùn)動(dòng)信息對(duì)姿態(tài)檢測(cè)結(jié)果進(jìn)行長(zhǎng)時(shí)傳播,構(gòu)建中粒度模型,模型中添加對(duì)稱部件間約束.
實(shí)驗(yàn)2.用全局運(yùn)動(dòng)信息對(duì)姿態(tài)檢測(cè)結(jié)果進(jìn)行長(zhǎng)時(shí)傳播,構(gòu)建小粒度模型,推理每幀中每一部件的狀態(tài),模型中添加對(duì)稱部件間約束.
實(shí)驗(yàn)3.用全局運(yùn)動(dòng)信息對(duì)姿態(tài)檢測(cè)結(jié)果進(jìn)行長(zhǎng)時(shí)傳播,構(gòu)建大粒度模型,推理每一部件的軌跡狀態(tài),模型中添加對(duì)稱部件間約束.
實(shí)驗(yàn)4.用全局運(yùn)動(dòng)信息對(duì)姿態(tài)檢測(cè)結(jié)果進(jìn)行長(zhǎng)時(shí)傳播,構(gòu)建中粒度模型,模型中只保留連接部件間空間約束關(guān)系,不添加對(duì)稱部件間約束.
所有算法在UnusualPose視頻數(shù)據(jù)集上進(jìn)行了對(duì)比,結(jié)果如圖7所示,其中“局部運(yùn)動(dòng)信息”、“細(xì)粒度模型”、“粗粒度模型”和“無對(duì)稱”分別對(duì)應(yīng)實(shí)驗(yàn)1~4.可以看出,對(duì)本文方法的三個(gè)關(guān)鍵處理策略的替換,都導(dǎo)致了估計(jì)精度不同程度的下降.綜合來看,本文方法的三個(gè)處理策略有效提高了視頻中姿態(tài)估計(jì)的準(zhǔn)確率.
圖7 算法關(guān)鍵策略有效性測(cè)試結(jié)果Fig.7 Examination of key modules
本文與 Nbest[22]、UVA[29]、SYM[15]、HPEV[18]以及PE_GM[12]共5個(gè)視頻人體姿態(tài)估計(jì)方法進(jìn)行了實(shí)驗(yàn)對(duì)比.由于SYM與HPEV方法的代碼無法獲取,在UnusualPose視頻數(shù)據(jù)集上,本文只對(duì)比了Nbest、UVA 和PE_GM三種方法.在FYDP視頻集和Sub_Nbest視頻集上,我們直接引用文獻(xiàn)中提供的數(shù)據(jù)結(jié)果進(jìn)行對(duì)比.
人體四肢在表達(dá)姿態(tài)中起著至關(guān)重要的作用,也是在評(píng)估姿態(tài)估計(jì)算法性能時(shí)最為關(guān)注的地方.由表1可以看出,在UnusualPose視頻集上,對(duì)比其他視頻姿態(tài)估計(jì)方法,本文方法在四肢關(guān)節(jié)點(diǎn)上的PCK精度最高,體現(xiàn)了本文方法在應(yīng)對(duì)非常規(guī)人體姿態(tài)和快速運(yùn)動(dòng)等難題時(shí)的優(yōu)勢(shì).從表2可以看出,在FYDP數(shù)據(jù)集上,本文方法得到了最高的平均PCK得分.表3顯示本文方法在Sub_Nbest視頻集上的PCP值與PE_GM方法綜合性能相當(dāng),均優(yōu)于其他視頻姿態(tài)估計(jì)方法,需要注意的是PE_GM方法采用與本文相同的全局運(yùn)動(dòng)信息對(duì)檢測(cè)結(jié)果進(jìn)行傳播,候選質(zhì)量與本文相同,進(jìn)一步證明采用全局運(yùn)動(dòng)信息對(duì)姿態(tài)檢測(cè)結(jié)果進(jìn)行傳播的有效性.不同在于PE_GM方法采用細(xì)粒度模型,通過選取姿態(tài)檢測(cè)結(jié)果最優(yōu)的關(guān)鍵幀啟動(dòng)其推理過程,其最終的檢測(cè)結(jié)果高度依賴其選取的啟動(dòng)幀,而本文方法無需選取啟動(dòng)幀,不受初始選取的限制.綜合來看,本文提出的算法具有一定的優(yōu)越性.
表1 UnusualPose視頻集上的PCK評(píng)分對(duì)比Table 1 PCK on UnusualPose dataset
表2 FYDP視頻集上的PCK評(píng)分對(duì)比Table 2 PCK on FYDP dataset
表3 Sub_Nbest視頻集上的PCP評(píng)分對(duì)比Table 3 PCP on Sub_Nbest dataset
除了以上定量實(shí)驗(yàn)結(jié)果外,我們還在圖8中展示了不同方法在UnusualPose視頻集上的姿態(tài)估計(jì)結(jié)果.我們?yōu)槊慷我曨l選取一幀,并用骨架結(jié)構(gòu)展示姿態(tài)估計(jì)的結(jié)果,相比較可以看出,本文給出的姿態(tài)估計(jì)結(jié)果更符合真實(shí)的人體姿態(tài).圖9與圖10分別展示了本文方法在FYDP視頻集和Sub_Nbest視頻集上的部分姿態(tài)估計(jì)結(jié)果.
圖8 UnusualPose數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果對(duì)比Fig.8 Qualitative comparison on UnusualPose dataset
圖9 FYDP數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果Fig.9 Sample results on FYDP dataset
本文提出了一種用于視頻人體姿態(tài)估計(jì)的中粒度模型,該模型以人體部件的軌跡片斷為實(shí)體構(gòu)建時(shí)空模型,采用迭代的時(shí)域和空域解析進(jìn)行模型推理,目標(biāo)是為各人體部件挑選最優(yōu)的軌跡片斷,以拼接組成最后的人體姿態(tài)序列.為生成高質(zhì)量的軌跡片段候選,本文借助全局運(yùn)動(dòng)信息對(duì)姿態(tài)檢測(cè)結(jié)果進(jìn)行時(shí)域傳播,克服了局部運(yùn)動(dòng)信息的不足.為解決對(duì)稱部件易混淆的問題,模型中添加對(duì)稱部件間約束,提高了對(duì)稱部件的檢測(cè)準(zhǔn)確率.算法有效性分析實(shí)驗(yàn)表明本文中采用中粒度模型,通過全局運(yùn)動(dòng)信息進(jìn)行姿態(tài)的傳播以及在對(duì)稱部件間添加約束等三個(gè)策略均對(duì)姿態(tài)估計(jì)的準(zhǔn)確率提高有不同程度的貢獻(xiàn).與其他主流視頻姿態(tài)估計(jì)方法在三個(gè)數(shù)據(jù)集上的對(duì)比實(shí)驗(yàn)結(jié)果顯示了本文方法的優(yōu)勢(shì).
圖10 Sub_Nbest數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果Fig.10 Sample results on Sub_Nbest dataset
References
1 Li Yi,Sun Zheng-Xing,Chen Song-Le,Li Qian.3D Human pose analysis from monocular video by simulated annealed particle swarm optimization.Acta Automatica Sinica,2012,38(5):732?741(李毅,孫正興,陳松樂,李騫.基于退火粒子群優(yōu)化的單目視頻人體姿態(tài)分析方法.自動(dòng)化學(xué)報(bào),2012,38(5):732?741)
2 Zhu Yu,Zhao Jiang-Kun,Wang Yi-Ning,Zheng Bing-Bing.A review of human action recognition based on deep learning.Acta Automatica Sinica,2016,42(6):848?857(朱煜,趙江坤,王逸寧,鄭兵兵.基于深度學(xué)習(xí)的人體行為識(shí)別算法綜述.自動(dòng)化學(xué)報(bào),2016,42(6):848?857)
3 Shotton J,Girshick R,Fitzgibbon A,Sharp T,Cook M,Finocchio M,Moore R,Kohli P,Criminisi A,Kipman A,Blake A.Efficient human pose estimation from single depth images.IEEE Transactions on Pattern Analysis and Machine Intelligence,2013,35(12):2821?2840
4 Cristani M,Raghavendra R,del Bue A,Murino V.Human behavior analysis in video surveillance:a social signal processing perspective.Neurocomputing,2013,100:86?97
5 Wang L M,Qiao Y,Tang X O.Video action detection with relational dynamic-poselets.In:Proceedings of the European Conference on Computer Vision.Zurich,Switzerland:Springer,2014.565?580
6 Felzenszwalb P F,Huttenlocher D P.Pictorial structures for object recognition.International Journal of Computer Vision,2005,61(1):55?79
7 Yang Y,Ramanan D.Articulated human detection with flexible mixtures of parts.IEEE Transactions on Pattern Analysis and Machine Intelligence,2013,35(12):2878?2890
8 Sapp B,Jordan C,Taskar B.Adaptive pose priors for pictorial structures.In:Proceedings of the 2010 IEEE Conference on Computer Vision and Pattern Recognition.San Francisco,CA,USA:IEEE,2010.422?429
9 Andriluka M,Roth S,Schiele B.Pictorial structures revisited:people detection and articulated pose estimation.In:Proceedings of the 2009 IEEE Conference on Computer Vision and Pattern Recognition.Miami,FL,USA:IEEE,2009.1014?1021
10 Eichner M,Marin-Jimenez M,Zisserman A,Ferrari V.2D articulated human pose estimation and retrieval in(almost)unconstrained still images.International Journal of Computer Vision,2012,99(2):190?214
11 Ferrari V,Marin-Jimenez M,Zisserman A.Progressive search space reduction for human pose estimation.In:Proceedings of the 2008 IEEE Conference on Computer Vision and Pattern Recognition.Anchorage,AK,USA:IEEE,2008.1?8
12 Shi Q X,Di H J,Lu Y,Lü F.Human pose estimation with global motion cues.In:Proceedings of the 2015 IEEE International Conference on Image Processing.Quebec,Canada:IEEE,2015.442?446
13 Sapp B,Toshev A,Taskar B.Cascaded models for articulated pose estimation.In:Proceedings of the Eeuropean Conference on Computer Vision.Heraklion,Greece:Springer,2010.406?420
14 Zhao L,Gao X B,Tao D C,Li X L.Tracking human pose using max-margin Markov models.IEEE Transactions on Image Processing,2015,24(12):5274?5287
15 Ramakrishna V,Kanade T,Sheikh Y.Tracking human pose by tracking symmetric parts.In:Proceedings of the 2013 IEEE Conference on Computer Vision and Pattern Recognition.Portland,OR,USA:IEEE,2013.3728?3735
16 Cherian A,Mairal J,Alahari K,Schmid C.Mixing bodypart sequences for human pose estimation.In:Proceedings of the 2014 IEEE Conference on Computer Vision and Pattern Recognition.Columbus,OH,USA:IEEE,2014.2361?2368
17 Tokola R,Choi W,Savarese S.Breaking the chain:liberation from the temporal Markov assumption for tracking human poses.In:Proceedings of the 2013 IEEE International Conference on Computer Vision.Sydney,Australia:IEEE,2013.2424?2431
18 Zhang D,Shah M.Human pose estimation in videos.In:Proceedings of the 2015 IEEE International Conference on Computer Vision.Santiago,Chile:IEEE,2015.2012?2020
19 Sigal L,Bhatia S,Roth S,Black M J,Isard M.Tracking loose-limbed people.In:Proceedings of the 2004 IEEE Conference on Computer Vision and Pattern Recognition.Washington,D.C.,USA:IEEE,2004.421?428
20 Sminchisescu C,Triggs B.Estimating articulated human motion with covariance scaled sampling.The International Journal of Robotics Research,2003,22(6):371?391
21 Weiss D,Sapp B,Taskar B.Sidestepping intractable inference with structured ensemble cascades.In:Proceedings of the 23rd International Conference on Neural Information Processing Systems.Vancouver,Canada:MIT Press,2010.2415?2423
22 Park D,Ramanan D.N-best maximal decoders for part models.In:Proceedings of the 2011 IEEE International Conference on Computer Vision.Barcelona,Spain:IEEE,2011.2627?2634
23 Wang C Y,Wang Y Z,Yuille A L.An approach to posebased action recognition.In:Proceedings of the 2013 IEEE Conference on Computer Vision and Pattern Recognition.Portland,OR,USA:IEEE,2013.915?922
24 ZuffiS,Romero J,Schmid C,Black M J.Estimating human pose with flowing puppets.In:Proceedings of the 2013 IEEE International Conference on Computer Vision.Sydney,Australia:IEEE,2013.3312?3319
25 Sapp B,Weiss D,Taskar B.Parsing human motion with stretchable models.In:Proceedings of the 2011 IEEE Conference on Computer Vision and Pattern Recognition.Colorado Springs,CO,USA:IEEE,2011.1281?1288
26 Fragkiadaki K,Hu H,Shi J B.Pose from flow and flow from pose.In:Proceedings of the 2013 IEEE Conference on Computer Vision and Pattern Recognition.Portland,OR,USA:IEEE,2013.2059?2066
27 Brox T,Malik J.Large displacement optical flow:descriptor matching in variational motion estimation.IEEE Transactions on Pattern Recognition and Machine Intelligence,2011,33(3):500?513
28 Wang H,Klaser A,Schmid C,Liu C L.Action recognition by dense trajectories.In:Proceedings of the 2011 IEEE Conference on Computer Vision and Pattern Recognition.Washington,D.C.,USA:IEEE,2011.3169?3176
29 Shen H Q,Yu S I,Yang Y,Meng D Y,Hauptmann A.Unsupervised video adaptation for parsing human motion.In:Proceedings of the European Conference on Computer Vision.Zurich,Switzerland:Springer,2014.347?360
30 Di H J,Tao L M,Xu G Y.A mixture of transformed hidden Markov models for elastic motion estimation.IEEE Transactions on Pattern Analysis and Machine Intelligence,2009,31(10):1817?1830
31 LFeng,Di Hui-Jun,Lu Yao,Xu Guang-You.Non-rigid tracking method based on layered elastic motion analysis.Acta Automatica Sinica,2015,41(2):295?303(呂峰,邸慧軍,陸耀,徐光祐.基于分層彈性運(yùn)動(dòng)分析的非剛體跟蹤方法.自動(dòng)化學(xué)報(bào),2015,41(2):295?303)