劉小金,尹 東,王華凌
?
基于緊密二值描述子的RGB-D人臉描述方法
劉小金1,2,尹 東1,2,王華凌3
( 1. 中國科學(xué)技術(shù)大學(xué)信息科學(xué)技術(shù)學(xué)院,合肥 230027; 2. 中國科學(xué)院電磁空間信息重點實驗室,合肥 230027; 3. 安徽中煙工業(yè)有限責(zé)任公司合肥卷煙廠,合肥230601 )
提出了一種緊密二值描述子用于解決RGB-D人臉識別過程中的特征表達(dá)問題。首先,不同于手工設(shè)計的特征,該方法使用無監(jiān)督學(xué)習(xí)從訓(xùn)練數(shù)據(jù)自動獲取緊密的二值特征;其次,該方法使用像素與周圍像素的差異信息作為輸入,利用了空間上下文信息;最后,考慮到Depth圖像平滑性特點,對分塊的Depth和RGB圖提取不同半徑范圍的像素差異信息。實驗結(jié)果表明,該方法具有較強(qiáng)的人臉描述能力,且對光照和面部遮擋具有一定的魯棒性,并在兩個公開的RGB-D數(shù)據(jù)庫上獲得了較好的識別率。
人臉識別;無監(jiān)督學(xué)習(xí);緊密二值特征;RGB-D
近年來,隨著低成本的Kinect[1]的產(chǎn)生,RGB-D[2](RGB-Depth)數(shù)據(jù)的獲取變得十分的簡單,RGB-D數(shù)據(jù)提供了2-D人臉識別相應(yīng)的彩色圖像,也提供了3-D人臉識別的深度圖像,使得研究基于RGB-D數(shù)據(jù)的人臉識別成為一個活躍的話題。如何找到一些有效的特征來描述RGB-D人臉數(shù)據(jù)是其中的關(guān)鍵。
對于RGB數(shù)據(jù)的人臉識別,基于局部二值模式(Local Binary Pattern, LBP)[3]的人臉描述方法獲得廣泛的關(guān)注。LBP算子是一種有效的紋理描述算子,由于它的旋轉(zhuǎn)不變性和灰度不變特征,已經(jīng)廣泛地應(yīng)用于人臉識別。但是,原始的LBP算子明顯的局限性在于它只在一個3×3的區(qū)域鄰域內(nèi)計算的特征不能獲得較大尺度的結(jié)構(gòu)特征,而這些大尺度特征有可能是一些重要的關(guān)鍵特征。對于Depth人臉圖像,由于Depth圖像的平滑性特征,LBP不能有效的提取深度信息。因此Huang[4]在LBP算子的基礎(chǔ)上,利用深度信息相比灰度信息平滑特征,使用固定的比特編碼Depth信息,提出了3DLBP算子,并獲得較好的描述能力。在此之后,一系列基于3DLBP算法的RGB-D人臉識別方法被提出。文獻(xiàn)[5]中使用局部熵放大深度信息,對RGB圖像提取顯著圖,最后使用Hog算子對兩種圖像提取特征,作為最后的特征表示。文獻(xiàn)[6]中使用3DLBP和HAOG(Histogram of Averaged Oriented Gradients)分別提取深度和灰度特征,并進(jìn)行相似度層融合,作為最終的特征表達(dá)。文獻(xiàn)[7]中使用多尺度,多種分塊模式的3DLBP特征提取深度信息,使用LBP提取RGB人臉信息,將兩種特征直接串聯(lián)作為最終的人臉表示。
然而上述的特征都是手工設(shè)計的二值特征[8]。手工設(shè)計的二值特征通常有如下的缺點。1) 由于計算復(fù)雜度的增加,通常無法對較大鄰域范圍的樣本進(jìn)行特征量化和編碼,然而更大鄰域內(nèi)的樣本可以提供更多的信息量。2) 通常使用固定的編碼策略進(jìn)行編碼,雖然其方法簡單但是可區(qū)分性不足,因為無法有效的利用全局信息和圖像的上下文信息。3) 通常情況下獲得的直方圖的分布不均勻。因此本文結(jié)合基于學(xué)習(xí)型的人臉識別[9]理論,從特征學(xué)習(xí)的角度出發(fā),通過無監(jiān)督學(xué)習(xí)的方法對較大空間的鄰域?qū)W習(xí)一種二值模型,使其既可以較好的表達(dá)Depth圖像,也可以較好的表達(dá)RGB圖像。
為了克服上面手工設(shè)計的特征的缺點,本文結(jié)合基于學(xué)習(xí)型[9]的人臉識別方法,設(shè)計了一種無監(jiān)督特征學(xué)習(xí)方法,學(xué)習(xí)了一種緊密的二值碼。由于基于學(xué)習(xí)的方法可以更好地探索到數(shù)據(jù)變化的特點,使得本文設(shè)計的二值碼既適用于Depth圖像又適用于RGB圖像。
學(xué)習(xí)緊密二值碼[10](Compact Binary Code,CBC)的目的在于學(xué)習(xí)多個哈希函數(shù)將原始的像素映射和量化為二值矢量,同時使得該二值描述子具有可區(qū)分。具體來說,假設(shè)原始的訓(xùn)練樣本為,映射函數(shù)為。對于每個樣本,將其映射為二值向量,。其中:
式(2)是NP-hard問題,為了解決該問題,將符號函數(shù)放松為帶符號的函數(shù),除了2中的符號函數(shù)保留,其它兩項中的符號函數(shù)去掉,則可知可以修改為式(3),詳細(xì)推導(dǎo)見文獻(xiàn)[11]。
鑒于原始的LBP和3DLBP算子均是對鄰域范圍內(nèi)的像素差異(PD,pixel difference)進(jìn)行編碼。本文也并非對原始像素進(jìn)行二值碼學(xué)習(xí),而是對鄰域像素差異信息學(xué)習(xí)緊密二值碼。由于計算量的增大,LBP和3DLBP都固定鄰域半徑大小為1。然而,考慮到大的鄰域范圍內(nèi)獲取的信息量更加豐富這一特征,本文選用較大的鄰域半徑提取PD。同時針對Depth圖像相較RGB圖像更加平滑的特點,本文對RGB和Depth圖像分別采用不同的鄰域半徑提取PD。假設(shè)鄰域半徑的大小設(shè)為,則提取的PD的維度為(2+1)(2+1)-1。
本文的RGB-D人臉表示的算法步驟:
其中K-means聚類中心選擇為500,則提取的特征的長度為32 000(8×8×500)。和分別設(shè)置為0.001和0.000 1。由于最后的特征維度較大,而人臉中提取的特征存在大量的冗余, 高維的特征使得描述子匹配的速度下降,產(chǎn)生過擬合的風(fēng)險。因此,本文對該特征使用WPCA(Whitened PCA)降維。最后將兩直方圖串聯(lián)在一起,作為RGB-D人臉表達(dá)。傳統(tǒng)的方法通常使用基于歐式距離相似度量準(zhǔn)則對圖像進(jìn)行匹配。本文同時測試了PCCS(Pearson Correlation Coefficient),Chi-squared,,CS(Cosine Similarity)等相似度量參數(shù)。但是在本文實驗中,同其它的測試的準(zhǔn)則相比,CS和PCCS的測試結(jié)果最好且相近。由于PCCS計算速度相對較慢,本文使用CS度量準(zhǔn)則。公式為
圖1 PD窗口半徑大小對本文算法的影響
為了驗證本文算法的有效性,本文選取了IIIT-D RGB-D和EURECOM這兩個使用普遍的RGB-D人臉數(shù)據(jù)集驗證進(jìn)行了如下三組實驗。IIIT-D RGB-D(IIIT-D) 人臉數(shù)據(jù)集由Kinect采集得到,包含106個人的人臉圖像,Depth和RGB圖像各4 605幅。EURECOM數(shù)據(jù)集包含52個人的936幅圖像。數(shù)據(jù)集包含9種不同的面部變化: 正臉,微笑,張嘴,光照變化,眼睛的遮擋,嘴巴的遮擋,半邊臉的遮擋,左側(cè)圖,右側(cè)圖。EURECOM數(shù)據(jù)集包含Session1(s1)和Session2(s2)時間段。
實驗1 首先研究PD中窗口大小的選取對識別率的影響。參照文獻(xiàn)[7]中的設(shè)置,對IIIT-D使用數(shù)據(jù)集提供的5組隨機(jī)選取的訓(xùn)練和測試集。對EURECOM數(shù)據(jù)集,對于每個Session,選擇其中的正臉為訓(xùn)練集,剩余為測試集。實驗中,圖像的尺度均歸一化到128×128,使用5折交叉驗證,獲得相應(yīng)的CMC(Cumulative Match Characteristic)曲線。由于IIIT-D RGB-D圖像分塊大小為16×16,EURECOM分塊的大小為32×32,因此選取鄰域半徑2到6,實驗結(jié)果如圖1。由圖1可知,對于IIIT-D數(shù)據(jù)集,隨著窗口的增大,識別率在一定范圍內(nèi)先提高后下降。這是由于當(dāng)PD區(qū)域的大小接近該分塊大小值時,每個分塊提取的PD的數(shù)目減少,使得識別率有所下降。對于EURECOM數(shù)據(jù)集,該數(shù)據(jù)集中圖像大于IIIT-D中的圖像尺度,因此識別率較好時,選用的窗口較大。對于IIIT-D數(shù)據(jù)集,Depth圖像固定窗口半徑為3,RGB圖像窗口半徑為4。對于EURECOM數(shù)據(jù)集,窗口半徑都為6。
然后對于本文描述子分別使用RGB信息,Depth信息和RGB-D信息做輸入,對3DLBP算子僅僅使用Depth信息作為輸入。其中3DLBP直接對整張圖像提取特征,實驗結(jié)果如圖2??梢钥闯鼋Y(jié)合RGB和Depth信息的識別率最高,對于IIIT-D RGB-D數(shù)據(jù)集,使用RGB信息的次之,使用Depth信息的識別效果最差。但是對于EURECOM數(shù)據(jù)集的Session 2,使用Depth信息的識別率次之。該實驗結(jié)果說明相較于僅使用RGB信息和Depth信息,RGB-D信息確實能提高識別效果,而單獨使用Depth信息的識別率不高,且相對不穩(wěn)定。但是單獨使用Depth信息,本文方法的識別率好于3DLBP算子。說明本文算法在一定程度上可以較好的表達(dá)Depth信息。但是由于Kinect獲得的Depth圖像的質(zhì)量較差,使得單獨使用Depth信息的識別率不高。
圖2 本文算法和3DLBP在3種輸入(RGB, Depth, RGB-D)情況下的CMC曲線
實驗2 對比分析本文算法的有效性。將本文設(shè)計的描述子和FPLBP[12](Four Patch Local), PHOG[13](Pyramid Histogram of Oriented Gradients), SR[14](Sparse Representation)這三種只利用RGB信息的方法進(jìn)行對比研究,同時與文獻(xiàn)[5],文獻(xiàn)[6]和文獻(xiàn)[7]這三種利用RGB圖像和Depth圖像的3D方法對比。其中SR中稀疏度設(shè)置為5,這幾種方法均在兩組數(shù)據(jù)集上進(jìn)行實驗,2D的方法僅僅使用RGB圖像作為輸入,3D的方法使用RGB-D圖像作為輸入,本文算法的參數(shù)設(shè)置同實驗1,對于IIIT-D RGB數(shù)據(jù)集,訓(xùn)練和測試集的選取不變。對于EURECOM數(shù)據(jù)集,從每類樣本中隨機(jī)選取的2張作為訓(xùn)練集,剩余作為測試集。最后對比幾種算法的平均計算時間,所有實驗的平臺均為Matlab2013a,電腦的硬件配置為3.30 GHz CPU和8.00 GB RAM。實驗結(jié)果分別為表1和圖3所示。
圖3 本文算法和多種現(xiàn)有2D和3D算法在兩組RGB-D數(shù)據(jù)集上的CMC曲線
由表1可知,本文算法的平均計算時間高于文獻(xiàn)[6]和文獻(xiàn)[7],低于文獻(xiàn)[5]。本文算法雖然不是最低,但是其識別的準(zhǔn)確度相對較好,并且和文獻(xiàn)[6-7]這兩種識別率較高的算法相比,計算時間在同一量級上。綜合而言,本文算法較好。
表1 幾種RGB-D人臉表示算法的計算時間
由圖3可以看出本文算法在各個Rank上的識別效果均好于上述基于2D和3D的人臉識別算法。該結(jié)果也進(jìn)一步說明Depth信息和RGB信息能夠改善識別的精確度。同時本文算法的特征長度小于FPLBP,PHOG和文獻(xiàn)[5]、[7]中的特征長度。FPLBP的特征長度為560,PHOG的特征長度為680,文獻(xiàn)[5]中特征長度為81×5=405,文獻(xiàn)[7]中使用3DLBP和LBP,則特征長度為5個LBP算子的長度,即為256×5=1 280。而本文中特征維度為100×2=200。在特征維度上本文算法小于選取的幾種2D和3D的算法,但是在識別率上有所提高。說明本文設(shè)計的特征描述子具有較強(qiáng)的表示能力和可鑒別性。
實驗3 分析本文的算法在各種面部變化情況下的識別率。由于EURECOM數(shù)據(jù)集包含9種不同的面部變化,參照文獻(xiàn)[2]選用的實驗數(shù)據(jù)集,本實驗也使用其中7種(除去左側(cè)圖,右側(cè)圖)面部變化的RGB-D圖像,將時段s1和s2合并,使用本文算法進(jìn)行實驗,獲得每種面部變化的Rank-1識別率和總的Rank-1識別率。同文獻(xiàn)[5-7]中針對RGB-D數(shù)據(jù)的人臉識別算法對比。實驗結(jié)果如表2所示。
表2 在EURECOM人臉數(shù)據(jù)庫上的Rank-1識別率(%)
由表2中可以看出,本文算法對于正臉,微笑和光照變化這幾種面部變化較小的情況能夠達(dá)到較好的識別效果,但是對于嘴巴的遮擋和半邊臉的遮擋兩種面部遮擋嚴(yán)重的情況識別率較低。分析產(chǎn)生該問題的原因,主要是由于遮擋情況較嚴(yán)重時,特別是半邊臉的遮擋,造成大量的信息損失。針對這兩種遮擋情況,本文算法優(yōu)于其他的方法。對于文獻(xiàn)[5],其采用的方法是對多尺度的Depth圖像和RGB圖像分別提取熵圖像和顯著圖,然后對兩種圖像提取Hog特征,串聯(lián)作為最后的特征。對于遮擋情況較大時,使用多尺度的圖像并沒有增加太多的信息量,因此該方法對遮擋嚴(yán)重情況的識別率也不高。對于文獻(xiàn)[6],其分別采用3DLBP和HAOG提取Depth和RGB圖像的特征并串聯(lián),由于該方法對原始圖像提取特征,也容易受到遮擋部分的干擾。對于文獻(xiàn)[7],由于其中采用了多種分塊策略,使用3DLBP和LBP分別提取多種分塊區(qū)域Depth圖像和RGB圖像的信息,因此其對較小的面部變化具有較好的識別效果,但是對大面積的遮擋仍然會缺失一些關(guān)鍵信息。實驗結(jié)果分析本文算法對光照和遮擋不嚴(yán)重的情況具有一定的魯棒性。
結(jié)合LBP和3DLBP這兩種手工設(shè)計的二值特征的優(yōu)點和局限性,本文提出了一種基于無監(jiān)督學(xué)習(xí)的緊密二值特征用來表征RGB-D人臉圖像,該算法首先對分塊的Depth圖像和RGB圖像提取不同窗口大小的像素差異信息,然后對像素差異信息使用無監(jiān)督濾波的學(xué)習(xí)方法提取緊密的二值碼,最后將這些二值特征使用K-mean聚類獲得相應(yīng)的碼本,提取對應(yīng)的直方圖,并使用WPCA獲得緊密的特征表示用于分類。該算法公開數(shù)據(jù)集上均取得較高的識別率。實驗分析表明,本文的緊密二值特征具有較好的RGB-D人臉的特征表示能力,且對光照和遮擋有一定的魯棒性。此外,由于使用無監(jiān)督的學(xué)習(xí)的方法,在學(xué)習(xí)緊密二值碼的過程中,未用到訓(xùn)練樣本的標(biāo)簽信息,因此可以靈活的調(diào)整訓(xùn)練樣本的數(shù)目來獲得區(qū)分性強(qiáng)的二值特征。本文下一步的工作是進(jìn)行速度方面的優(yōu)化。
[1] ZENG Wenjun,ZHANG Zhengyou. Microsoft kinect sensor and its effect [J]. IEEE MultiMedia(S1070-986X),2012,19(2):4-10.
[2] Min R,Kose N,Dugelay J L. KinectFaceDB:A kinect database for face recognition [J]. IEEE Transactions on Systems,Man,and Cybernetics:Systems(S2168-2216),2014,44(11):1534-1548.
[3] Ahonen T,Hadid A,Pietikainen M. Face description with local binary patterns:Application to face recognition [J]. IEEE Transactions on Pattern Analysis and Machine Intelligence(S0162-8828),2006,28(12):2037-2041.
[4] HUANG Yonggang,WANG Yunhong,TAN Tieniu. Combining Statistics of Geometrical and Correlative Features for 3D Face Recognition [C]// Proceedings of the British Machine Vision Conference 2006,Edinburgh,UK,September 4-7,2006:879-888.
[5] Goswami G,Bharadwaj S,Vatsa M,. On RGB-D face recognition using Kinect [C]// IEEE Sixth International Conference on Biometrics:Theory,Applications and Systems,BTAS 2013,Arlington,VA,USA,September 29 - October 2,2013:1-6.
[6] Cardia Neto J B,Marana A N. 3DLBP and HAOG fusion for face recognition utilizing Kinect as a 3D scanner [C]// Proceedings of the 30th Annual ACM Symposium on Applied Computing,Salamanca,Spain,April 13-17,2015:66-73.
[7] Neto J B C,Marana A N. Face Recognition Using 3DLBP Method Applied to Depth Maps Obtained from Kinect Sensors [C]// X Workshop Computer Vision WVC(2014),Uberlandia,Minas Gerais,Brazil,October 06-08,2014:168-172.
[8] JIN Lu,GAO Shenghua,LI Zechao,. Hand-Crafted Features or Machine Learnt Features? Together They Improve RGB-D Object Recognition [C]// 2014 IEEE International Symposium on Multimedia,Taichung,Taiwan,December 10-12,2014:311-319.
[9] CAO Zhimin,YIN Qi,TANG Xiao¢ou,. Face recognition with learning-based descriptor [C]// IEEE Conference on Computer Vision and Pattern Recognition(CVPR2010),San Francisco,California,USA ,June13-18,2010:2707-2714.
[10] LIONG V E,LU Jiwen,WANG Gang,. Deep hashing for compact binary codes learning [C]// IEEE Conference on Computer Vision and Pattern Recognition(CVPR2015),Boston,MA,USA,June 7-12,2015:2475-2483.
[11] LU Jiwen,LIONG Venice Erin,ZHOU Xiuzhuang,. Learning compact binary face descriptor for face recognition [J]. IEEE Transactions on Pattern Analysis and Machine Intelligence(S0162-8828),2015,37(10):2041-2056.
[12] Wolf L,Hassner T,Taigman Y. Descriptor based methods in the wild [C]// 10th European Conference on Computer Vision:Workshop Faces in 'Real-life' images:Detection,Alignment,and Recognition,Marseille,F(xiàn)rance,October 17,2008:68-81.
[13] YANG Bai,GUO Lihua,JIN Lianwen,. A novel feature extraction method using pyramid histogram of orientation gradients for smile recognition [C]//Proceedings of the International Conference on Image Processing,ICIP 2009,Cairo,Egypt,November 7-10,2009:3305-3308.
[14] John Wright,YANG Allen Y,Ganesh Arvind,. Robust face recognition via sparse representation [J]. IEEE Transactions on Pattern Analysis and Machine Intelligence(S0162-8828),2009,31(2):210-227.
RGB-D Face Description by Compact Binary Feature
LIU Xiaojin1,2,YIN Dong1,2,WANG Hualing3
( 1. School of Information Science and Technology, USTC, Hefei 230027, China;2. Key Laboratory of Electromagnetic Space Information of CAS, Hefei 230027, China; 3. Hefei Cigarette Factory of China Tobacco Anhui Industrial Co, LTD, Hefei 230601, China)
A compact binary feature for RGB-D face description and recognition is proposed. First, different from traditional hand-craft feature, we learned the compact binary feature from the training set using unsupervised learning method. Then, in order to make full use of the contextual information, we use the pixel difference vectors as the input. Finally, considering the smoothness of the depth image, we extract different size of pixel difference vectors from every block of RGB and depth image. This work demonstrates that the proposed method is highly discriminable and is robust to facial occlusion and illumination. And recognition rates are comparatively high on two publicly available RGB-D Kinect database.
face recognition; unsupervised learning; compact binary feature; RGB-D
1003-501X(2016)12-0162-06
TP391.4
A
10.3969/j.issn.1003-501X.2016.12.025
2016-01-25;
2016-06-14
安徽省科技廳項目“海量人臉圖像快速檢索云服務(wù)平臺及應(yīng)用示范”。
劉小金(1991-),女(漢族),湖北武漢人。碩士研究生,主要研究方向為計算機(jī)視覺、機(jī)器學(xué)習(xí)。E-mail: lxj91@mail.ustc.edu.cn。
尹東(1965-),男(漢族),江西蓮花人。碩士,副教授,主要研究方向為智能信息處理、圖像處理。E-mail: yindong@ustc.edu.cn。