陳 皓, 霍 星
(1.中國電子科技集團(tuán)公司第三十八研究所,安徽 合肥 230031;2.合肥工業(yè)大學(xué)數(shù)學(xué)系,安徽 合肥 230009)
人臉識(shí)別是一項(xiàng)極具發(fā)展?jié)摿Φ纳锾卣髯R(shí)別技術(shù),研究人臉識(shí)別技術(shù)具有十分重要的理論和應(yīng)用價(jià)值。最近幾年,人臉識(shí)別技術(shù)取得了前所未有的發(fā)展,人臉識(shí)別在視頻監(jiān)控、人機(jī)交互等方面具有良好的應(yīng)用前景,已成為模式識(shí)別、圖像處理等領(lǐng)域的研究熱點(diǎn)[1]。但在實(shí)際應(yīng)用中的識(shí)別精度仍然難以滿足人們的預(yù)期要求,特別是采集圖像中存在光照變化、方位變化以及其他干擾時(shí)識(shí)別精度會(huì)受到很大影響[2]。
在實(shí)際應(yīng)用如視頻監(jiān)控中對識(shí)別的穩(wěn)定性要求較高,但環(huán)境因素變化很大,使用傳統(tǒng)的基于單幅圖像的人臉識(shí)別算法得到的結(jié)果常常發(fā)生跳變,如一個(gè)人經(jīng)過可能會(huì)被識(shí)別成多個(gè)人,這對監(jiān)控人員的判斷造成了嚴(yán)重的影響,所以需要一種有效的方法提高人臉識(shí)別的穩(wěn)定性。
目前,關(guān)于視頻中的人臉識(shí)別和檢索文獻(xiàn)主要有 Everingham等提出采用人臉聚類的方法[3];文獻(xiàn)[4]、文獻(xiàn)[ [5]就正面人臉提出視頻中人臉識(shí)別的方法。文獻(xiàn)[3]的方法使用膚色模型對正面臉進(jìn)行處理,沒有考慮到視頻的連續(xù)特性。文獻(xiàn)[4]、文獻(xiàn)[5]提出去除背景信息、姿態(tài)調(diào)整和支持向量機(jī)檢測人臉,得到較好的結(jié)果。文獻(xiàn)[6]將常用于光照補(bǔ)償?shù)膱D像處理方法和基于模型的光照錐方法進(jìn)行了對比實(shí)驗(yàn),用以解決人臉識(shí)別系統(tǒng)中的光照問題。文獻(xiàn)[7]利用圖像融合技術(shù)實(shí)現(xiàn)了基于可見光圖像和紅外熱圖像相結(jié)合的多模式人臉識(shí)別,研究了兩種圖像在像素級和特征級的融合方法。文獻(xiàn)[8]為了克服光照、表情變化等因素對人臉識(shí)別的影響,提出了一種基于Gabor小波和最佳鑒別分析LDA的人臉識(shí)別方法。但上述方法中基本上都沒有考慮到幀與幀之間的關(guān)系。實(shí)際上,視頻的序列特性恰好提供了更多的人臉相關(guān)性,可以利用這一特性增強(qiáng)人臉識(shí)別的精度。文獻(xiàn)[9]提出基于子空間增量學(xué)習(xí)的視頻中人臉圖像檢索,將視頻中的相關(guān)性應(yīng)用于人臉圖像檢索中,實(shí)現(xiàn)了對電影視頻中特定演員的檢索功能。而在基于視頻的人臉跟蹤方面有較多的文獻(xiàn),但大部分僅實(shí)現(xiàn)了人臉的跟蹤,并未在視頻相關(guān)性基礎(chǔ)上實(shí)現(xiàn)人臉識(shí)別的改進(jìn)。
受到文獻(xiàn)[9]的啟發(fā),本文在將人臉識(shí)別算法應(yīng)用于視頻監(jiān)控項(xiàng)目中時(shí),針對識(shí)別結(jié)果不穩(wěn)定的現(xiàn)象,深入研究了視頻中人臉相關(guān)性對識(shí)別精度的影響,提出了視頻中相關(guān)人臉的識(shí)別,不再孤立地對單一圖像進(jìn)行人臉識(shí)別,而是從一系列相關(guān)圖像中識(shí)別人臉的身份。試驗(yàn)結(jié)果表明,引入相關(guān)性概念后的視頻監(jiān)控,對人臉識(shí)別結(jié)果的穩(wěn)定性大大提高。
視頻中的人臉跟蹤可以視作目標(biāo)跟蹤的一種,從統(tǒng)計(jì)的角度來看,目標(biāo)跟蹤是一種概率推斷問題,其目的是通過觀測值來估計(jì)系統(tǒng)的未知狀態(tài),即求解狀態(tài)變量的后驗(yàn)概率分布。根據(jù)貝葉斯公式,后驗(yàn)分布可以通過狀態(tài)的先驗(yàn)分布和聯(lián)系狀態(tài)與觀測的似然函數(shù)來確定。在貝葉斯估計(jì)方法中,狀態(tài)的先驗(yàn)分布可以通過專家知識(shí)、機(jī)器學(xué)習(xí)等方法得到,似然函數(shù)則由系統(tǒng)的觀測方程得出。貝葉斯估計(jì)將目標(biāo)狀態(tài)的求解轉(zhuǎn)換為基于貝葉斯推理的后驗(yàn)概率的求解。得到狀態(tài)的后驗(yàn)概率分布后,根據(jù)某種準(zhǔn)則如最小方差估計(jì)、最大后驗(yàn)估計(jì)、極大似然等,得出狀態(tài)的估計(jì)。然而,求解貝葉斯估計(jì)需要積分運(yùn)算,求解困難。
針對視頻監(jiān)控這類特定場合,人臉目標(biāo)的運(yùn)動(dòng)可以近似簡化為線性運(yùn)動(dòng),在圖像空間中可以通過前后幀的人臉檢測結(jié)果——人臉中心距離和人臉面積變化來實(shí)現(xiàn)人臉的快速跟蹤。
設(shè)視頻中第N幀的人臉位置可以用矩形Rect表示,同時(shí)為對人臉目標(biāo)實(shí)現(xiàn)跟蹤,設(shè)置人臉的跟蹤狀態(tài)S,則第N幀的人臉檢測結(jié)果記做
由于可能同時(shí)跟蹤多個(gè)目標(biāo),另外設(shè)置一個(gè)目標(biāo)列表TraceList,每個(gè)列表項(xiàng)表示一個(gè)正在跟蹤的人臉目標(biāo)。
人臉跟蹤的算法描述如下:
(1)將跟蹤列表置為空,開始人臉跟蹤。
(2)對第N幀圖像進(jìn)行人臉檢測,得到人臉區(qū)域R。
(3)對TraceList中的每一個(gè)跟蹤目標(biāo),與R進(jìn)行相關(guān)性判斷,如果沒有與R相關(guān)的跟蹤目標(biāo),則在TraceList中新建一項(xiàng),保存當(dāng)前檢測得到的人臉區(qū)域R,并將S設(shè)置為0(初始跟蹤)。
(4)如果存在與 R相關(guān)的 TraceList項(xiàng)Face,則以R更新Face中的Rect,并更新Face中的N為當(dāng)前幀號。如果Face S等于0,則將Face S設(shè)置為1(穩(wěn)定目標(biāo))。
(5)更新所有的TraceList項(xiàng),如果該項(xiàng)中的 N小于當(dāng)前幀號,根據(jù) S進(jìn)行處理,若S=0或2,將該項(xiàng)刪除;若S=1,將S設(shè)置為2(衰減目標(biāo))。
(6)獲取下一幀圖像,轉(zhuǎn)到步驟(2)繼續(xù)跟蹤。
跟蹤目標(biāo)與R的相關(guān)性判斷相對簡單,根據(jù)跟蹤目標(biāo)的位置變化和面積變化的程度以及人臉圖像的匹配程度計(jì)算相關(guān)度,計(jì)算公式如下
其中 compareFeature為比較兩幅人臉圖像的相似度, f acenow、 f aceold為當(dāng)前幀和前一幀的人臉圖像, r ectnow、 r ectold為當(dāng)前幀和前一幀人臉在圖像中的位置。
在人臉跟蹤的基礎(chǔ)上,可以輔助進(jìn)行人臉識(shí)別的優(yōu)化。假設(shè)人臉跟蹤正確,可以確定多幅圖像對應(yīng)的是同一個(gè)身份,再根據(jù)每幅圖像的識(shí)別結(jié)果進(jìn)行加權(quán)判斷,可以使得人臉識(shí)別結(jié)果穩(wěn)定程度、精確度大大提升。識(shí)別流程如下:
(1)對當(dāng)前圖像進(jìn)行人臉檢測,如果檢測到人臉,尋找該人臉對應(yīng)的歷史識(shí)別結(jié)果,如果不存在對應(yīng)的歷史識(shí)別結(jié)果,則建立一個(gè)空的歷史識(shí)別結(jié)果。
(2)假設(shè)找到某個(gè)人臉圖像對應(yīng)的歷史識(shí)別結(jié)果為
表示對于該人臉,之前的若干幀的識(shí)別結(jié)果中有k個(gè)可能的匹配人,其中第i個(gè)結(jié)果
(3)對該人臉圖像進(jìn)行經(jīng)典的人臉識(shí)別,假設(shè)當(dāng)前幀的識(shí)別結(jié)果為
表示對應(yīng)該人臉,當(dāng)前幀的識(shí)別結(jié)果中有 j個(gè)可能的匹配人。
(4)對于每個(gè)可能的匹配人,將分?jǐn)?shù)乘以人臉可分辨度權(quán)值加上歷史識(shí)別結(jié)果中相同的匹配人的分?jǐn)?shù),將其存儲(chǔ)為最終的識(shí)別結(jié)果分?jǐn)?shù),以此更新該人臉的歷史識(shí)別結(jié)果。
(5)如果歷史參考幀數(shù)達(dá)到閾值,則在最終的識(shí)別結(jié)果分?jǐn)?shù)中尋找分?jǐn)?shù)最高的可能匹配人,作為最終識(shí)別結(jié)果輸出。
本文在傳統(tǒng)經(jīng)典人臉識(shí)別算法的基礎(chǔ)上,利用本文算法的改進(jìn)提升了視頻監(jiān)控的人臉識(shí)別穩(wěn)定程度及精確程度。
改進(jìn)算法和傳統(tǒng)單幅圖像識(shí)別算法的結(jié)果對比如表1所示。其中靜態(tài)識(shí)別算法對每幀圖像進(jìn)行識(shí)別,而本文的算法對連續(xù)的視頻圖像中的人臉區(qū)域進(jìn)行跟蹤,并在獲取多幀圖像后給出一個(gè)綜合識(shí)別結(jié)果。本文的改進(jìn)算法較為穩(wěn)定,準(zhǔn)確率更高,更為符合工程應(yīng)用的需求。
表1 算法結(jié)果對比
同時(shí),由于增加了歷史結(jié)果的判斷,算法在時(shí)間上比每幀識(shí)別的靜態(tài)識(shí)別算法要慢很多,但因?yàn)橐曨l監(jiān)控的應(yīng)用環(huán)境并不要求對每幀圖像給出識(shí)別結(jié)果,僅需要在有人經(jīng)過時(shí)給出輔助監(jiān)控人員判別的識(shí)別結(jié)果信息即可。所以本文算法雖然在時(shí)間上慢于每幀識(shí)別的方式,但對于視頻監(jiān)控的應(yīng)用領(lǐng)域完全可以滿足應(yīng)用的需求,具有在工程實(shí)際中的應(yīng)用價(jià)值。
圖1是視頻監(jiān)控中截取的一系列人臉跟蹤圖像。
本文的算法在多幀后給出識(shí)別結(jié)果,對于歷史參考幀數(shù)的選擇是需要考慮的一個(gè)重要參數(shù),根據(jù)目前的試驗(yàn),歷史參考幀數(shù)可以選擇在10~30幀之間,這樣既不會(huì)因?yàn)檫^多的參考?xì)v史識(shí)別結(jié)果而影響識(shí)別速度,同時(shí)也避免了參考幀數(shù)過少而達(dá)不到提高穩(wěn)定性的目的。
本文提出了一種以視頻相關(guān)性為依據(jù)的人臉識(shí)別方法,在對每幅圖像進(jìn)行人臉識(shí)別的過程中考慮視頻的相關(guān)性影響,實(shí)現(xiàn)了視頻監(jiān)控中的人臉識(shí)別功能,提高了視頻監(jiān)控中人臉識(shí)別的穩(wěn)定性和識(shí)別精度。實(shí)驗(yàn)表明,本文方法得到了理想的識(shí)別結(jié)果,基本滿足工程應(yīng)用的需求。
本文所提出的算法是一種以時(shí)間和空間消耗來換取準(zhǔn)確度、穩(wěn)定性的提高的做法,在這兩者之間的選擇平衡上仍需進(jìn)一步以大量實(shí)驗(yàn)逐步完善。
圖1 視頻監(jiān)控截圖
[1]張翠平, 蘇光大. 人臉識(shí)別技術(shù)綜述[J]. 中國圖象圖形學(xué)報(bào), 2000, 5(11): 885-894.
[2]Zhao W, Chellappa R, Phillips P J, et al. Face recognition: a literature survey [J]. ACM Computing Surveys, 2003, 35(4): 399-458.
[3]Everingham Mark, Zisserman Andrew. Identifying individuals in video by combining ‘Generative’ and discriminative head models [C]//Proceedings of the 10th IEEE International Conference on Computer Vision, Beijing, 2005: 1103-1110.
[4]Arandjelovic Ognjen, Zisserman Andrew. Automatic face recognition for film character retrieval in feature-length films [C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, San Diego, 2005: 860-867.
[5]Sivic Josef, Everingham Mark, Zisserman Andrew.Person spotting: video shot retrieval for face sets[C]//Proceedings of International Conference on Image and Video Retrieval, Singapore, 2005: 226-236.
[6]李粉蘭, 段海峰, 郝建國, 等. 人臉識(shí)別中光照補(bǔ)償問題的實(shí)驗(yàn)研究[J]. 工程圖學(xué)學(xué)報(bào), 2009, 30(3):113-120.
[7]劉 瑾, 徐可欣, 陳小紅. 采用圖像融合技術(shù)的多模式人臉識(shí)別[J]. 工程圖學(xué)學(xué)報(bào), 2007, 28(6):72-78.
[8]魯廣英, 潘 靜, 龐彥偉. 一種新穎的基于Gabor-LDA的人臉識(shí)別方法[J]. 工程圖學(xué)學(xué)報(bào),2006, 27(4): 120-124.
[9]陳立珍, 崔國勤, 李 卓. 基于子空間增量學(xué)習(xí)的視頻中人臉圖像檢索[J]. 計(jì)算機(jī)輔助設(shè)計(jì)與圖形學(xué)學(xué)報(bào), 2007, 19(9): 1119-1125.