摘 要:提出一種自拍視頻中眼睛的校正方法,通過以下3個步驟:目標(biāo)眼睛的檢測和定位;眼睛中鞏膜、虹膜和瞳孔圖像的識別和定位;虹膜圖像和瞳孔圖像的二次投影,實(shí)現(xiàn)了在視頻自拍和網(wǎng)絡(luò)視頻過程中,當(dāng)使用者在注視顯示裝置而不正視捕獲裝置時,能夠在顯示裝置上獲得使用者正視視頻的活動視頻圖像。
關(guān)鍵詞:人臉檢測; 人眼檢測; 眼睛調(diào)正; 網(wǎng)絡(luò)視頻
中圖分類號:TN91934 文獻(xiàn)標(biāo)識碼:A 文章編號:1004
隨著3G通信網(wǎng)絡(luò)的普及,傳統(tǒng)的語音聊天和通話將逐漸成為輔助手段,視覺沖擊力強(qiáng),快速直接的視頻自拍和視頻通話等應(yīng)用無疑將成為主流。而目前在實(shí)際應(yīng)用中存在一個亟待解決的問題,就是視頻采集裝置一般位于顯示裝置的外邊緣附近,導(dǎo)致當(dāng)被拍攝人目光注視顯示裝置的屏幕時,顯示裝置上的成像結(jié)果是被拍攝人的眼睛注視點(diǎn)偏離顯示裝置的屏幕,即屏幕觀察者獲得的人臉顯示圖像中眼睛圖像是非正視的,這無疑是視頻系統(tǒng)的一個缺陷。由此,本文提出自拍視頻中眼睛的調(diào)正系統(tǒng),在不增加額外裝置的情況下,通過軟件方法進(jìn)行圖像處理,大大降低了硬件系統(tǒng)的改進(jìn)成本。
1 目標(biāo)眼睛的檢測和定位
1.1 預(yù)處理工作
由于圖像的采集往往在多變的,不可預(yù)料的環(huán)境(主要是光照環(huán)境)下進(jìn)行,對圖像進(jìn)行預(yù)處理使其歸一化以適應(yīng)算法的要求顯得尤為必要。本文分別采用了直方圖均衡化處理以增強(qiáng)局部的對比度;中值濾波處理以平滑噪聲;在有必要的情況下進(jìn)行亮度補(bǔ)償處理。
1.2 基于膚色分割的人臉檢測
為了縮小眼睛檢測范圍、提高檢測準(zhǔn)確度,首先定位人臉區(qū)域。本文利用準(zhǔn)確度較高且處理速度可接受的高斯膚色模型[13]實(shí)現(xiàn)人臉檢測。
長期研究實(shí)驗(yàn)表明,利用YCbCr色彩空間進(jìn)行膚色分割優(yōu)勢十分明顯,在該空間內(nèi),膚色Cr分量的閾值易于選取,且受到光照影響很小,同時還降低了色彩空間的維數(shù),即降低了計(jì)算復(fù)雜度。因此選取YCbCr色彩空間作為膚色分布統(tǒng)計(jì)的映射空間,根據(jù)人臉膚色在該空間的統(tǒng)計(jì)分布特性提出基于相似度的人臉檢測算法。
下面確定二維高斯模型G(m,C)中的未知參數(shù):m=(Cr,Cb)T
(1)
Cr=1N∑Ni=1Cri
(2)
Cb=1N∑Ni=1Cbi
(3)
C=E[(x-m)(x-m)T]
= σC2r σCb,Cr
σCr,Cb σC2b
(4) 式中:x是每個像素點(diǎn)的色度向量,第1個分量是Cr,第2個分量是Cb,m和C分別是統(tǒng)計(jì)出來的均值和方差。經(jīng)過實(shí)驗(yàn)統(tǒng)計(jì),均值和方差分別為:m=(156.559 9,117.436 1)
(5)
C=299.457 412.143 0
12.143 0160.130 1
(6) 根據(jù)已建立的膚色模型,計(jì)算人臉圖像點(diǎn)顏色和膚色的可能性大小,即相似度大小,其取值范圍為[0,1],相似度計(jì)算如式(7)所示:P(Cr,Cb)=exp[-0.5(x-m)TC-1(x-m)]
(7)式中x=[Cr,Cb]T為像素點(diǎn)在CbCr空間中的向量。
通過對相似度進(jìn)行閾值分割,將YCbCr彩色圖像轉(zhuǎn)化為黑白圖像,黑色表示背景,白色標(biāo)記了接近膚色的區(qū)域。
再通過形態(tài)學(xué)閉運(yùn)算加強(qiáng)臉部區(qū)域中各個分散點(diǎn)的連通性。最后,在所有被找到的白色區(qū)域中,通過面積,長寬比,位置等信息篩選出最有可能是人臉的區(qū)域。
1.3 目標(biāo)眼睛的定位
通過人臉面部的幾何特征規(guī)則,可以迅速粗略檢測出眼睛所在區(qū)域。根據(jù)人眼灰度變化非常明顯這一特征,本文通過計(jì)算候選眼睛對的灰度復(fù)雜度來進(jìn)行更為精確的定位,具體算法如下。
假設(shè)檢測出的圖像塊,每塊總共m行n列,則圖像塊的復(fù)雜度Com(k)的計(jì)算公式定義如下:
Com(k)=∑ni=1∑m-1j=1|Bi,j+1-Bi,j|min(j,m-j)
(8)
式中Bi,j為圖像塊第i列第j行像素點(diǎn)的灰度值。
此圖像塊的復(fù)雜度公式Com(k)計(jì)算了圖像塊灰度值的縱向一階加權(quán)導(dǎo)數(shù),min(j,m-j)即為權(quán),離圖像中心越近導(dǎo)數(shù)的權(quán)越大,橫向坐標(biāo)沒有加權(quán)。實(shí)驗(yàn)證明,這種定義符合人臉特征器官復(fù)雜度的計(jì)算。類似的也可以有橫向一階加權(quán)導(dǎo)數(shù)。但是通過實(shí)驗(yàn)發(fā)現(xiàn)人眼的縱向一階加權(quán)導(dǎo)數(shù)大,所以采用圖像塊灰度值的一階縱向加權(quán)導(dǎo)數(shù)[4]。
計(jì)算候選眼睛塊的圖像復(fù)雜度,根據(jù)人眼灰度變化非常明顯這一特征,找出復(fù)雜度最大的兩小塊,即為要找的眼睛塊。尋找一只眼睛塊的效果如圖1所示。
由于已經(jīng)得到左右兩只眼睛的區(qū)域塊,此后所有步驟都可利用多線程技術(shù),并行處理兩只眼睛,大大提高了運(yùn)行效率。為敘述方便,下文中都以處理一只眼睛為例,不再贅述。
2 鞏膜、虹膜和瞳孔的識別和定位
2.1 鞏膜和虹膜的分割
根據(jù)鞏膜和虹膜圖像在灰度上的截然不同,通過對該區(qū)域圖像進(jìn)行黑白二值化處理后即可根據(jù)灰度的不同快速劃分出兩者的分界。閾值選取方法有多種,如直方圖雙蜂法、最大熵法、Otsu法(最大類間方差法)、梯度統(tǒng)計(jì)法及這些方法在二維上的推廣等。其中,Otsu法以其分割效果好、適用范圍廣而得到了廣泛的應(yīng)用。Otsu法[5]是一種自適應(yīng)的閾值確定方法,它是按圖像的灰度特性,將圖像分成背景和目標(biāo)兩部分。說明構(gòu)成圖像的兩部分的差別最大,部分目標(biāo)錯分為背景或部分背景錯分為目標(biāo)都會導(dǎo)致兩部分差別變小。因此,類間方差最大的分割意味著錯分概率最小。
圖1 根據(jù)灰度復(fù)雜度確定眼睛塊下面闡述本文中用到的otsu閾值分割的步驟[6]:
對人臉圖像I,設(shè)原始灰度級為M,灰度級為i的像素點(diǎn)個數(shù)為ni,對灰度值進(jìn)行歸一化:Pi=ni/M
(9) 記t為鞏膜與虹膜的分割閾值,按分割閾值t將灰度分為兩類。每一類出現(xiàn)的概率為:ω0=∑ti=0Pi
(10)
ω1=∑M-1i=t+1Pi
(11) 每一類的平均灰度為:μ0=μ(t)/ω0
(12)
μ1=(μT(t)-μ(t))/(1-ω0)
(13) 式中:μ(t)=∑ti=1ipi;μT=∑Li=1ipi。即鞏膜點(diǎn)數(shù)占圖像比例為ω0,平均灰度為u0;其他部分點(diǎn)數(shù)占圖像比例為ω1,平均灰度為u1。圖像的總平均灰度為:μT=ω0μ0+ω1μ1
(14) 則類間方差定義為:σ2B = ω0(μ0-μT)2 + ω1(μ1-μT)2
=ω0ω1(μ1-μ0)2
(15) 從最小灰度值到最大灰度值(從1~M)遞增遍歷t,當(dāng)t使得σ2B值最大時,即使得此類間方差最大,t的值即為最佳閾值分割即為分割的最佳閾值。
利用Otsu法進(jìn)行分割的效果非常理想,實(shí)驗(yàn)效果如圖2所示。
2.2 虹膜和瞳孔的分割
虹膜區(qū)域有較多復(fù)雜的紋理,而瞳孔區(qū)域基本呈現(xiàn)單一紋理并且虹膜區(qū)域總是呈現(xiàn)圓形,因此可以通過該區(qū)域上的傅里葉變換分析出空間域兩者之間的界限。
本文采用局部傅里葉變換[7],利用傅里葉系數(shù)圖來提取紋理描述子。一副沒有絲毫紋理的光滑平坦圖像,其功率譜只有空間頻率為0的分量;當(dāng)圖像中的紋理比較粗,也就是顏色的變化周期較大,則在低頻段會有較大能量;當(dāng)紋理比較細(xì),或比較復(fù)雜時,在高頻段會有較大能量。根據(jù)實(shí)驗(yàn)結(jié)果表明,局部傅里葉變換系數(shù)的偶數(shù)階矩體現(xiàn)了主要的紋理差別信息,并具有很好的紋理鑒別性能[8],因此本文采用局部傅里葉變換系數(shù)的2階矩進(jìn)行虹膜分割,取得了良好的效果。
圖2 Otsu法分割效果2.3 瞳孔區(qū)域的定位
對于瞳孔區(qū)域的定位,本文采用徑向?qū)ΨQ性變換的方法[911]。對稱變換是針對梯度圖像的局部算子,用來描述圖像上各點(diǎn)的點(diǎn)對稱性。首先了解廣義對稱變換原理。
設(shè)pk=(x,y)使圖像中的任一像素,其中k=1,2,…,K,pk=(Gx,Gy)是圖像水平和垂直的梯度,即Gx=pkx,Gy=pky。圖像在pk的梯度的幅值和相位可以分別計(jì)算如下:rk=log(q+‖pk‖)
(16)
θk=arctan(Gy/Gx)
(17) 對于任意的兩點(diǎn)pi和pj,用l表示通過它們的直線,用αij表示l和水平方向的順時針角度。點(diǎn)pi和pj的對稱軸方向可以這樣定義:φ(pi,pj)=(θi+θj)/2
(18) 同時定義距離權(quán)重函數(shù)和相角權(quán)重函數(shù):D(pi,pj)=12πepi-pj2σ
(19)
P(θi,θj)=(1-cos(θi+θj-2αij))(1-cos(θi-θj))
(20) 則點(diǎn)p的對稱性幅值可以定義如下:M(p)=∑(pi,pj)∈Γ(p)D(pi,pj)P(θi,θj)rirj
(21)式中Γ(p)是滿足如下關(guān)系的點(diǎn)的集合:Γ(p)={(pi,pj)|pi+pj2=p}
(22)對稱的方向定義為φ(p)=φ(pi,pj),這個方向使C(i,j)=D(pi,pj)P(θi,θj)rirj在(pi,pj)∈Γ(p)中取最大值。點(diǎn)p的對稱性值可以定義為: S(p)=(M(p),φ(p))
(23) 在前面定義的對稱變換可以有效地檢測反射對稱,反射對稱在二維的旋轉(zhuǎn)和平移變換之下具有不變性。在某些情況下還需要檢測那些在多個不同的對稱方向具有對稱性而不是在一個主要方向?qū)ΨQ的目標(biāo)物體。這種徑向?qū)ΨQ性可以這樣定義:RS(p)=∑D(pi,pj)P(θi,θj)rirj·
sin2(φ(pi,pj)-φ(p))
(24) 該表達(dá)式強(qiáng)調(diào)了那些垂直于主對稱方向的貢獻(xiàn),并在其圍繞的邊緣取最大值。
應(yīng)用對稱變換方法,要選擇合適的尺度因子σ0才能有效檢測出人眼中心點(diǎn),且準(zhǔn)確估計(jì)尺度因子能大大降低定位方法的計(jì)算量。實(shí)驗(yàn)中,根據(jù)人臉的生理特征和人臉的寬度可估計(jì)出瞳孔的大小,進(jìn)而確定尺度因子。一般σ0是人臉寬度的1/10左右,可將尺度因子值縮小到很小的范圍,進(jìn)行對稱變換的次數(shù)可大大減少,具有實(shí)用性,滿足速度要求。
2.4 虹膜圖像和瞳孔圖像的二次投影
如上分析出虹膜和瞳孔的相對位置后,計(jì)算出瞳孔中心點(diǎn)距離虹膜中心點(diǎn)的方位α和距離d(如圖3所示),隨后根據(jù)這兩個數(shù)據(jù)進(jìn)行虹膜和瞳孔區(qū)域的二次投影變換,步驟如下:
(1) 將虹膜所在的圓形區(qū)域平移到鞏膜中心,如圖4(b)所示;
(2) 平移后空缺部分用周圍的鞏膜紋理填充;
(3) 根據(jù)虹膜和瞳孔的定位步驟中計(jì)算出來的方位α和距離d,將平移后的虹膜所在的圓形區(qū)域以圓心為中心進(jìn)行有向旋轉(zhuǎn),旋轉(zhuǎn)方向?yàn)棣?α,旋轉(zhuǎn)大小為rtan-1(d/r),其中r為瞳孔的半徑,如圖4(c)所示;
實(shí)驗(yàn)結(jié)果表明,以上設(shè)計(jì)的系統(tǒng),能夠有效地處理輸入的視頻流,正確地完成人臉檢測和人眼檢測和定位,并進(jìn)一步實(shí)現(xiàn)眼睛中鞏膜、虹膜和瞳孔的分割與二次投影。截取處理視頻流中的一幀圖像效果如圖5所示。
本課題利用基于DirectShow的視頻捕捉軟件設(shè)計(jì)和圖像處理中人臉檢測,人眼檢測,圖像分割等技術(shù),實(shí)現(xiàn)了自拍視頻中眼睛的校正系統(tǒng)。對整個系統(tǒng)設(shè)計(jì)方案,也多次改進(jìn),希望能保證實(shí)時準(zhǔn)確的校正。一方面,盡可能地選擇時間復(fù)雜度小但檢測效率高的算法;另一方面,盡可能減少待處理數(shù)據(jù)的數(shù)量,如對二值原圖像采樣壓縮,以及利用視頻捕捉系統(tǒng)的采樣頻率較高的特點(diǎn),近似認(rèn)為相鄰兩幀圖像中人臉的運(yùn)動范圍較小,在處理每幀圖像時保存關(guān)鍵點(diǎn)位置,當(dāng)處理后續(xù)幀時只需在前一幀附近范圍搜索滿足條件的點(diǎn)即可,減少了定位的時間。此外,利用人眼的對稱性和運(yùn)動一致性,通過多線程編程對兩個眼睛進(jìn)行并行處理,也提高了實(shí)時性。
在課題進(jìn)行過程中也出現(xiàn)了很多問題,迄今為止只是建立了一個可以使用的校正系統(tǒng),而系統(tǒng)的穩(wěn)定性、精確性和實(shí)時性都需要進(jìn)一步提高。接下來仍然需要按照需求增強(qiáng)系統(tǒng)在各個方面的表現(xiàn),包括不同光照,不同人種,面部附屬物的干擾,旋轉(zhuǎn)不變性等復(fù)雜變化的環(huán)境中的檢測可靠性;虹膜和瞳孔校正時二次投影方式的逼真程度;校正所需時間的進(jìn)一步優(yōu)化等等,這些都將在后續(xù)的工作中實(shí)現(xiàn)。
本文研究內(nèi)容已經(jīng)獲得國家發(fā)明專利授權(quán),授權(quán)專利號:200910234584.8。
參 考 文 獻(xiàn)
[1] 章毓晉.圖像工程[M].2版.北京:清華大學(xué)出版社,2007.
[2] JONES M J,REHG J M. Statistical color models with application to skin detection \[J\]. International Journal of Computer Vision, 2002, 46(1): 8196.
[3] LI Xiaobo, ROEDER Nicholas. Face contour extraction from frontview images \[J\]. Pattern Recognition, 2006, 28(8): 11671179.
[4] 裘偉.一種基于相似度及復(fù)雜度的人眼定位算法[J].蘇州大學(xué)學(xué)報:工科版,2006,26(6):610.
[5] OTSU Nobuyuki. A threshold selection method from graylevel Histograms \[J\]. IEEE Transactions on System Man and Cybernetic, 1979, 9(1): 6266.
[6] 劉健莊,栗文青.灰度圖像的二維Otsu自動閾值分割法[J].自動化學(xué)報,1993,19(1):101105.
[7] ZHOU F, SHI J Q. Texture feature based on local fourier transform \[J\]. IEEE International Conference on Image Processing, 2001, 17(2): 610613.
[8] 張志龍,李吉成,沈振康.局部傅里葉變換系數(shù)各階矩陣的紋理鑒別性能分析\[J\].中國圖象圖形學(xué)報,2006,11(1):3340.
[9] RIESFELD D, WOLFSON H, YESHURUN Y. Context free attentional operators: the generalized symmetry transform \[J\]. Computer Vision, 1995, 14(2): 119130.
[10] 王忠,胡步發(fā),嚴(yán)世榕.一種改進(jìn)的對稱變換應(yīng)用于人臉圖像眼睛定位\[J\].計(jì)算機(jī)應(yīng)用,2004,24(11):119121.
[11] BAI Li, SHEN Linlin, WANG Yan. A novel eye location algorithm based on radial symmetry transform \[C\]// 18th International Conference on Pattern Recognition (ICPR'06). Hongkong: IEEE Press, 2006: 511514.
[12] 鄭威,王元慶.基于DM642的人眼檢測系統(tǒng)設(shè)計(jì)與實(shí)現(xiàn)\[J\].現(xiàn)代電子技術(shù),2012,35(4):105108.
作者簡介: 楊冠男 女,1982年出生,黑龍江人,碩士,助教。研究方向?yàn)樾盘柼幚砑盁o線傳感器網(wǎng)絡(luò)。
袁 杰 男,1975年出生,江蘇人,博士,副教授。研究方向?yàn)閳D像處理及計(jì)算機(jī)網(wǎng)絡(luò)。2012年11月15日第35卷第22期