張彩霞,付煥利
北方工業(yè)大學 圖像處理與模式識別研究所,北京 100144
未標定視頻下的動態(tài)人體身高測量
張彩霞,付煥利
北方工業(yè)大學 圖像處理與模式識別研究所,北京 100144
針對視頻下的動態(tài)人體身高測量過程中,依賴三維場景的結構化信息,或者需要事先對相機進行標定的情況,提出了一種視覺測量算法對未標定視頻中的行人身高進行測量。該方法首先利用幀差法提取每幀圖像中的人體區(qū)域信息,然后由該區(qū)域的主軸方向確定人體的頭頂點和垂足點,再由頭頂點和垂足點形成的兩個平行虛擬平面確定水平消失線、由主軸方向確定豎直消失點,最后根據(jù)射影變換的交比不變量來確定人體的身高。該方法以人在正常行走過程中身高基本保持不變?yōu)楹侠砑僭O,并且充分利用了視頻中的人體運動信息。實驗結果表明,測量結果的平均相對誤差低于2.2%,能夠滿足人體身高測量的精度需要。
未標定視頻;消失點;消失線;交比;身高測量
在刑事偵查、安全監(jiān)控、行為分析等領域,識別并理解視頻場景中行人的行為是非常重要的任務[1-3],而人體的身高是一個重要的參考信息,比如在刑偵案件中,嫌疑人的身高是描述人體的重要特征之一,當視頻監(jiān)控中采用的攝像頭分辨率不是很高或者離目標太遠時,獲取的人體信息,尤其是面部特征往往比較模糊,能夠獲取的信息可能只能是其身高特征。如在安全監(jiān)控中,測量到一個人的身高突然發(fā)生劇烈的變化,那么可能意味著這個人蹲下或摔倒了,這可以為實施救助或其他行為提供實時的預警功能?;谝曨l的動態(tài)人體身高測量技術恰好可以滿足此類需求。相比其他測量方式,如超聲波、激光、雷達等,基于圖像/視頻的測量技術只需對三維場景進行簡單地拍攝,獲得其圖像/視頻信息,就可以利用測量軟件隨時進行離線或在線測量,因此,具有安全性、無接觸性、可重復性、價格低廉等多重優(yōu)勢。
按是否需要事先對攝像機進行標定,視覺測量可以分為標定下的測量[4]和未標定下的測量[5-7]。標定下的測量需要借助高精度的特殊標定塊如棋盤格等來確定攝像機的內參數(shù)和畸變系數(shù),標定過程較繁瑣,但具有高精度的優(yōu)點;而未標定下的測量則無需借助標定塊,通過充分利用三維場景中的固定物體如建筑物、桌椅等或運動物體本身的某些結構化信息,如平行、垂直、共線點等內在信息來達到測量的目的,比標定下的測量方法更加靈活,但精度略遜一籌。
Criminisi等人[5]基于未標定的靜態(tài)圖像首次提出了單幅圖像測量理論,利用圖像中的消失點和消失線信息,以及射影變換中共線四點形成的交比不變的性質推導出度量信息之間的比例關系。該方法需要三維場景中有平行、垂直信息來確定圖像中的消失點和消失線。后來Peng Kun等人[8]提出以場景中的規(guī)則物體建立歐氏坐標系以便測量其幾何量的方法,主要根據(jù)投影幾何中的約束關系及共線四點交比不變的性質建立約束方程求得目標的長度。該方法僅能準確地測量規(guī)則物體的長度,而且對圖像的質量有較高的要求,當圖像模糊不清或者嚴重畸變時,測量精度將受到很大影響。
和基于圖像的測量相比,利用視頻測量身高不僅可以利用視頻中的運動信息還可以對每幀的測量結果概率統(tǒng)計,提高測量精度。在基于視頻的身高測量方面,董秋雷等人[4]提出的實時測量方法中,采用了混合高斯模型來提取頭頂點,然后根據(jù)幾何約束計算垂足點,最后根據(jù)這些特征點以及投影矩陣建立約束方程求出人體高度。該方法魯棒性高且測量速度快,但是需要事先確定相機參數(shù)。后來Park等人[9]根據(jù)前景區(qū)域的主軸線和前景區(qū)域的交點計算出頭頂、垂足的特征點,然后在空間中建立參考系以及選取相應的參考點,計算出相機的參數(shù)及投影矩陣,根據(jù)攝像機基本成像模型求出每幀中行人的身高。該算法測量精度較高,但是整個測量工作并沒有充分利用視頻中的運動信息。Jiang Mingxin等人[10]根據(jù)視頻場景中的水平、豎直信息計算豎直方向上的消失點和水平方向上的消失線,然后利用前景區(qū)域的主軸線計算頭頂點,并根據(jù)幾何約束求出垂足點,根據(jù)共線四點交比不變的性質測出每幀中人的身高,最后優(yōu)化測量結果。姜明新等人[11]利用場景中的建筑物信息計算豎直消失點和水平消失線,根據(jù)人體主軸線和消失點提取每一幀中目標的頭頂點和垂足點,最后根據(jù)幾何約束測量目標高度。由此可以看出,以上方法或者對相機事先標定或者對場景的結構化信息具有相應的要求。
利用未標定下的圖像進行實體測量時,確定圖像中的消失點和消失線是這一類方法的核心問題,也即拍攝的三維空間中需要顯式地包含平行和垂直等幾何信息,但有時空間場景缺少這些信息,而且即使含有這些信息,如何在圖像中自動地、精確地提取它們的像也是不容易的。針對這種情況,本文在利用圖像對人體身高進行測量研究時,注意到人在正常行走時,頭頂?shù)降孛娴母叨茸兓鄬苄〉目陀^事實,則所有時刻下的頭頂點就形成一個與地平面平行的虛擬平面,而地平面也可以看成是在地平面上的垂足點確定的虛擬平面,且同一時刻下的頭頂點與垂足點確定的虛擬線與這兩個虛擬平面垂直。因此,形成的虛擬平面和虛擬線就包含了所需的關鍵的平行和垂直信息?;诖耍疚奶岢隽艘环N新的測量視頻中行人身高的方法。該算法的優(yōu)點是通過利用視頻中的人體運動信息,避開了對拍攝場景的結構化要求,使得算法的應用場景更加寬泛。
本文的主要內容是:在第2章詳細介紹了單幅圖像測量方法的基本理論,第3章闡述了本文算法的詳細過程,第4章是算法的模擬實驗和真實實驗驗證,第5章是簡要總結。
本文主要依據(jù)Criminisi等人提出的單視測量理論[5],即利用射影變換的不變量-交比來確定平行平面間的真實距離。如圖1(a),圖中柜子的頂面和底面在空間中是兩個平行的平面,要確定二者間的真實距離,需要首先確定這兩個平面交線的像,即消失線(Vanishing line),如圖1(b)中標示為l的直線所示,以及垂直于這兩個平面的方向上的像,即消失點(Vanishing point),如圖1(b)中標示為v的點所示。
圖1 單視測量原理圖
d(?,?)表示兩點間的有向距離。
為了便于說明,分別用符號來表示以上的幾何信息,如圖1(b)所示,點H 表示頂面上的一個點,點F表示點H在底面的垂直投影點,過相機光心C做一個與頂面平行的平面,該平面與直線FH的交點記為P,另用V表示直線FH方向上的無窮遠點,則得到空間中的四個共線點F、H、P、V。這四個空間點的像點分別記為 f、h、p、v,且 p點是消失線l與直線hf的交點。
由射影幾何理論可知,在射影變換下,共線四點的交比保持不變,即
其中交比記為:為簡單起見,用符號dc表示相機距離地面的高度,dbody表示頭頂點距離地面的高度,也即人體的高度。則等式(1)右端變?yōu)?/p>
因此,得到由圖像進行實體測量的核心公式:
由上式可知,若dc已知,則dbody由圖像點即可求出。但通常相機高度dc不方便直接獲取,這時可以利用場景中某個已知度量信息的參照物利用式(2)先估計出dc,然后再次用式(2)來估計待求的高度。
人體的身高通常是指人體靜止直立狀態(tài)下,頭頂最高點到地平面的距離,而在本文中,利用視頻去估計身高時,人體是運動狀態(tài),則頭頂點到地面的距離是有波動的,但是這個波動范圍相對于相機與人體之間的距離來說是非常小的,成像到圖像上時,像素差是可以忽略的,因此本文給出了這樣一種合理的假設,即當行人正常行走時,其身高保持不變,這樣就如引言中所述,由多幀下的頭頂點和垂足點就可以得到垂直消失點和水平消失線,從而由第1章的理論可求得行人的身高。為了得到視頻中行人的頭頂點和垂足點,需要首先進行人體的前景提取。
視頻前景提取的方法主要有幀間差分算法、背景差分算法、混合高斯模型等,采集的視頻受光照變化和其他噪聲影響較小,為了保證算法的實時性,本文將采用背景差分法來提取視頻幀的前景(即人體)區(qū)域,即
其中,frm(x,y)表示當前幀,backfrm(x,y)表示固定的背景幀,forefrm(x,y)表示對當前幀提取的前景區(qū)域,如圖2所示,圖(a)為要提取輪廓的當前幀,圖(b)為固定的背景幀,圖(c)為對當前幀提取的前景區(qū)域。
圖2 前景提取
本文采用了與文獻[9]中類似的方法來提取頭頂點和垂足點,如圖3所示,頭頂點和垂足點形成的直線對應于前景區(qū)域的像素點集合的第一個主成分,因此可以通過前景區(qū)域的協(xié)方差矩陣的特征值和特征向量計算得到,e1、e2分別為求得的第一、第二特征向量,pc表示前景區(qū)域的中心。如圖4所示,由e1和 pc即可求出主軸線lp,lp和前景區(qū)域的外接矩形交于點h,f,認為h,f就是頭頂點和垂足點。
圖3 計算主軸線
圖4 頭頂點和垂足點、特征向量
本文中,主要基于這樣的合理假設,即人在正常行走于地平面上(沒有跑、跳、蹲等,如圖5(a))時,頭頂點始終處于同一虛擬平面上,且該虛擬平面與地平面是平行的,而在同一時刻下,由人體頭頂點和垂足點確定的虛擬直線,即人體的主軸線可以認為是垂直于地平面的。因此頭頂虛擬平面和地平面的交線的像即是水平方向上的消失線vl,而所有幀的人體主軸線的交點的像即是豎直方向上的消失點v。因此在豎直方向上,對所有的主軸線(如圖5(c)中的黃色直線)采用最小二乘法擬合求出v。在水平方向上,如果視頻中人沿不同方向行走,如圖5(b),那么對于在同一方向的多個相鄰點(在頭頂點軌跡或垂足點軌跡中),可以擬合出一條直線,因此,對于圖5(c)中所示的兩組對應曲線(紅色和藍色曲線),每擬合出同一方向上的一組平行線,就會得到一個水平消失點,由這些消失點可以擬合出水平消失線vl。
圖5 虛擬平面形成圖
然后利用第1章的單視測量理論來估計每幀下的人體身高。如圖6,當前幀中人體的主軸線l和水平消失線vl交于點 p,同樣的,參照物的主軸線lr和水平消失線vl交于點 pr,h,f,hr,fr分別表示當前幀中人的頭頂點和垂足點,參照物的上、下頂點,由公式(2)得到當前幀中行人的高度為:
其中dref表示參照物的真實高度。
圖6 根據(jù)已知的參照物高度求身高
本文算法的完整流程如下所示:
算法 未標定視頻下的動態(tài)人體身高測量
輸入 行人視頻數(shù)據(jù)、參照物高度。
輸出 行人身高。
(1)提取視頻中每幀圖像的運動前景——行人。
(2)確定圖像中的人體頭頂點和垂足點:估計每幀或關鍵幀中人體的主軸及區(qū)域外接矩形,獲得二者的交點。
(3)估計水平消失線和垂直消失點:整合所有幀或關鍵幀的頭頂點和垂足點,由頭頂點軌跡、垂足點軌跡確定水平消失線;由每幀的頭頂點和垂足點確定垂線,再由多幀下的垂線交點確定垂直消失點。
(4)確定每幀圖像中的共線四點:頭頂點、垂足點、垂直消失點、主軸與水平消失線的交點。
(5)由交比不變性估計每幀中的人體高度:利用文中式(3)即得。
(6)輸出每幀的人體高度,統(tǒng)計結果分布,得到最終的人體身高。
為了驗證算法的可行性,分別進行了模擬情況下和真實場景下的實驗。
3.4.1 模擬實驗
模擬的相機焦距為fc=[2 152;2 152],光心cc=[1 347;893],每幀圖像的分辨率720×1 280,旋轉向量omc=[1;5;1],平移向量T=[1 000;2 000;3 000],如圖7所示,y1、y2、y3代表的線段均為空間中人的行走軌跡,對應的自變量取值范圍為x1∈[200,800]、x2∈[800,1 200]、x3∈[200,1 200],紅色線段代表空間中頭頂點所在的直線,藍色代表垂足點所在直線,粉色點代表參照物上下頂點,以5 cm為步長在行走軌跡上選取頭頂點和垂足點,zi=168(i=1,2,3)表示模擬的人身高為168 cm,空間中參照物上下頂點坐標分別設為xrh=[200;320;30],xrf=[200;320;0]。對空間點和圖像點分別加高斯噪聲,噪聲的方差從0到5,間隔為0.5,同一噪聲下分別進行1 000次實驗。實驗結果如圖8所示,(a)表示對空間點加噪聲對精度的影響,(b)表示對圖像點加噪聲對精度的影響,圖中藍色‘*’代表測量高度相對誤差的均值,粉色‘*’表示測量高度相對誤差的均方差,當沒有噪聲時,測量結果是沒有任何偏差的,說明算法是可行的,而當噪聲逐漸增加時,均值和均方差都在增大,當噪聲水平在1個像素以下時,誤差均值在2%左右,與后面的真實實驗相符。此外,對比(a),(b)圖可以發(fā)現(xiàn),對空間點加噪聲導致的誤差均值幅度要高于只對圖像點加噪的結果,但在均方差方面二者卻相反,這說明相對空間點而言,測量結果對于圖像點的定位精度的抗干擾能力更強,但在穩(wěn)定性方面,測量結果對于空間點的精度卻更穩(wěn)定。
圖7 模擬實驗的空間點
圖8 模擬實驗結果
3.4.2 真實實驗
在室外,用DSC-W800相機拍攝了一系列行人的視頻信息,其中視頻中每幀圖像的分辨率為720×1 280。采集視頻時,相機保持不動,場景中的參照物是圖9中的紙箱,實際高度為23.8 cm。參照物在圖像上的上下頂點手工提?。▓D9中兩個紅色點)。文中視頻數(shù)據(jù)都是在簡單靜態(tài)場景下的,視頻采集時前幾幀圖像只含背景,并沒有行人、光照變化等,所以獲取的背景圖只是對前幾幀圖像的平均結果。首先對采集的視頻進行前景提取,圖10(a)表示采集的行人的視頻幀,圖10(b)是對相應視頻幀提取的輪廓,之后計算所有幀中的人體主軸線、頭頂點和垂足點,進而測得每幀中行人的身高,圖10(c)是對相應幀中行人測量的身高。本文的測量方法是對視頻的每一幀均可測量身高,圖11是得到的身高曲線圖,紅色的點代表測得的各幀中人的身高值,藍色直線代表所有幀的測量高度的平均值,綠色直線代表視頻中行人的真實身高,從圖中可以看出,真實身高和測得的平均身高相差1 cm左右。
圖9 背景圖像
圖10 測量結果圖
圖11 身高曲線圖
受篇幅所限,表1只給出了10位行人的測量結果,“真實身高”是采集視頻前用皮尺人工測量的實際高度。針對每組視頻均計算所有圖像序列的人體高度,為了提高測量精度,對每組視頻的所有測量結果進行統(tǒng)計,得到各個不同測量區(qū)間出現(xiàn)的頻率,剔除頻率小于10%的測量值?!皽y量高度”是指該組中所有頻率不小于10%的測量值,“所占百分比”是指“測量高度”占該組視頻所有測量高度的百分數(shù),“平均相對誤差”是對該組視頻測量的所有高度和真實身高的相對誤差的平均值,從表中可以看出,“測量高度”和“真實身高”非常相近,而且“平均相對誤差”不超過2.2%,絕大多數(shù)在1%左右。
表1 測量結果及其誤差
本文提出的動態(tài)人體身高測量方法無需相機標定,也避開了對拍攝場景的結構化要求,充分利用了人體的運動信息,通過構造的虛擬水平面和虛擬垂直線來代替場景的平行和垂直等結構化要求,因此算法的實用性和靈活性更強。雖然實驗結果能夠基本滿足實際需要,但是在前景的提取、算法的實時性和穩(wěn)定性方面仍需進一步地深入研究和探討。
[1]Kumar N,Belhumeur P N,Biswas A,et al.Leafsnap:A computer vision system for automatic plant species identification[C]//European Conference on Computer Vision-ECCV 2012.BerlinHeidelberg:Springer,2012:502-516.
[2]Buch N,Velastin S A,Orwell J.A review of computer vision techniques for the analysis of urban traffic[J].IEEE Transactions on Intelligent Transportation Systems,2011,12(3):920-939.
[3]Vu A,Ramanandan A,Chen A,et al.Real-time computer vision/DGPS-aided inertial navigation system for lanelevel vehicle navigation[J].IEEE Transactions on Intelligent Transportation Systems,2012,13(2):899-913.
[4]董秋雷,吳毅紅,胡占義.基于視頻的實時自動人體身高測量[J].自動化學報,2009,35(2):137-144.
[5]Criminisi A,Reid Anid I,Zisserman A.Single view metrology[J].International Journal of Computer Vision,2000,40(2):123-148.
[6]Shao J,Zhou S K,Chellappa R.Robust height estimation ofmoving objectsfrom uncalibrated video[J].IEEE Transactions on Image Processing,2010,19(8):2221-2232.[7]Guo F,Chellapppa R.Video metrology using a single camera[J].IEEE Transactions on Pattern Analysis and Machine Intelligence,2010,32(7):1329-1335.
[8]Peng Kun,Hou Lulu,Ren Ren,et al.Single view metrology along orthogonaldirections[C]//InternationalConference on Pattern Recognition,2010:1658-1661.
[9]Park S W,Kim T E,Choi J S.Real-time estimation of trajectories and heights of pedestrains[C]//IEEE International Conference on Information Science and Applications,2011:1-8.
[10]Jiang Mingxin,Mu Fangshun,Wang Hongyu.Height measurements of moving people based on single camera[C]//IEEE International Conference on Awareness Science and Technology,2011:63-67.
[11]姜明新,王培昌,王洪玉.基于視頻多目標跟蹤的高度測量算法[J].電子學報,2015,43(3):591-596.
ZHANG Caixia,FU Huanli
Institute of Image Processing and Pattern Recognition,North China University of Technology,Beijing 100144 China
Visual metrology for height of pedestrian from uncalibrated video.Computer Engineering and Applications,2017,53(21):162-166.
Considering that measurements of the pedestrian’s height from video usually depend on the knowledge of 3D scene information,or the camera’s internal calibration,a visual metrology algorithm is proposed to measure the height of a pedestrian in the uncalibrated video.Firstly,the foreground pedestrian is extracted in each frame image by simple frame difference algorithm.Then the major axis of the foreground is estimated to determine the pedestrian’s top(head)and bottom(foot)points,and two parallel virtual planes are constructed by the top/bottom points to determine the horizontal vanishing line,while the vertical vanishing point is obtained by the intersection of the major axes.Finally,the pedestrian’s height is estimated by the cross ratio theorem.This method is based on the reasonable hypothesis that a pedestrian’s height has very small difference during the normal walking process,and uses motion information sufficiently.Experimental results show that the average relative error is less than 2.2%,so the precision can achieve the requirement.
uncalibrated video;vanishing point;vanishing line;cross ratio;height measurement
A
TP391.41
10.3778/j.issn.1002-8331.1605-0120
國家自然科學基金(No.61503004)。
張彩霞(1977—),女,副教授,博士,主要研究方向:計算機視覺中的攝像機定位、標定及其三維重建理論及應用研究;付煥利(1988—),女,碩士研究生,主要研究方向:計算機視覺中的攝像機標定及視頻下的人體身高測量理論及應用研究,E-mail:fuhuanli09@163.com。
2016-05-11
2016-07-15
1002-8331(2017)21-0162-05
CNKI網絡優(yōu)先出版:2016-09-29,http://www.cnki.net/kcms/detail/11.2127.TP.20160929.1650.040.html