胡宇晨,李秋生
(1.贛南師范大學(xué) 智能控制工程技術(shù)研究中心,贛州 341000;2.贛南師范大學(xué) 物理與電子信息學(xué)院,贛州 341000)
人臉識(shí)別技術(shù)[1]起源于上世紀(jì)60 年代,現(xiàn)在由于計(jì)算機(jī)硬件性能的不斷增強(qiáng),使得如今的人臉識(shí)別技術(shù)得以推廣,同時(shí)安全性能也較之前有了大幅提升。人臉識(shí)別技術(shù)的發(fā)展有以下3 個(gè)階段:
第1 階段在1960 年初到1990 年初。該時(shí)期由于受到計(jì)算機(jī)性能的限制,主要的研究方法為人臉的幾何構(gòu)造,缺點(diǎn)為收集面部信息的幾何點(diǎn)個(gè)數(shù)較少,精度不足,導(dǎo)致識(shí)別率較低,此時(shí)的人臉識(shí)別技術(shù)還處于理論階段;第2 階段是在1990 年初到本世紀(jì)初,此時(shí)應(yīng)用數(shù)學(xué)水平的不斷提高,同時(shí)計(jì)算機(jī)硬件的發(fā)展,計(jì)算機(jī)采集人臉信息的問(wèn)題得到了長(zhǎng)足進(jìn)步,可獲得的人臉幾何點(diǎn)數(shù)有了大幅的提升,但是最后的結(jié)果卻不盡如人意;第3 階段為本世紀(jì)初至今,此階段計(jì)算機(jī)視覺(jué)、深度學(xué)習(xí)、人工智能[2]等技術(shù)的高速發(fā)展,使得人臉識(shí)別的精確度和安全性能得到大幅的提升,廣泛運(yùn)用于人類生活和工作的各個(gè)方面,如人臉支付、身份識(shí)別、公共交通、信息安全等領(lǐng)域。
現(xiàn)在人臉識(shí)別領(lǐng)域應(yīng)用最為廣泛的方法為深度神經(jīng)網(wǎng)絡(luò),尤其是卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural network,CNN)[3],該網(wǎng)絡(luò)提取圖片特征的能力極其強(qiáng)大,具有很高的準(zhǔn)確率,但是要訓(xùn)練一個(gè)成熟的神經(jīng)網(wǎng)絡(luò)需要上千張圖片,在現(xiàn)實(shí)的場(chǎng)景中,少有同一個(gè)人有幾千張的照片來(lái)訓(xùn)練,而需要從少量的圖像中得到識(shí)別人臉的模型。
針對(duì)上述問(wèn)題,本文結(jié)合Haar-like T[4]和LBP[5]特征的算法進(jìn)行人臉識(shí)別的研究。首先采集人臉圖像,對(duì)采集的圖像進(jìn)行特征提取,之后對(duì)提取的特征進(jìn)行訓(xùn)練,旨在從較少的樣本準(zhǔn)確地識(shí)別出人臉。
Haar-like 特征最先是由Viola 提出,該特征在人臉和車輛識(shí)別的應(yīng)用中取得了很好的效果[6],其本質(zhì)是通過(guò)構(gòu)建簡(jiǎn)單的黑白矩陣來(lái)實(shí)現(xiàn)對(duì)面部灰度特征變化的表示。Haar-like 特征可分為4 類:邊緣、線性、中心以及對(duì)角線特征[7],具體如圖1 所示。
圖1 邊緣、線性、中心以及對(duì)角線特征Fig.1 Edge,linear,center,and diagonal features
Haar-like 特征的計(jì)算積分圖由面部圖像形成,其圖像矩形區(qū)域中從起點(diǎn)到每個(gè)點(diǎn)的像素之和存儲(chǔ)為陣列的元素,當(dāng)要計(jì)算區(qū)域中的像素之和時(shí),即調(diào)用該陣列元素,不需重新計(jì)算,因此也提高了檢測(cè)的速度。其計(jì)算公式[8]為
而后構(gòu)建積分圖算法,用s(a,b)表示行方向的累加,初始為s(a,-1)=0;之后使用ii(a,b)表示積分圖像,初始化ii(-1,b)=0;通過(guò)掃描人臉圖像的各個(gè)像素點(diǎn),迭代計(jì)算每個(gè)像素在行方向上的累加和積分圖像的值,即有:
當(dāng)人臉圖像掃描完成時(shí),積分圖像ii(a,b)構(gòu)建完成,而后圖像中所有矩陣通過(guò)運(yùn)算得到,如圖2所示。
圖2 矩形計(jì)算圖Fig.2 Rectangular calculation chart
假設(shè)圖2 中,D 這一點(diǎn)左右上下4 個(gè)點(diǎn)分別為a,b,c,d,則圖中D 點(diǎn)的像素和可以表示為
由此一個(gè)區(qū)特征值,就可以通過(guò)各個(gè)特征端點(diǎn)的積分圖計(jì)算得出。
在人臉五官的分布中,人臉圖像信息可以找到大量的T 字型結(jié)構(gòu)特征。在Haar-like 的基礎(chǔ)上,T字型結(jié)構(gòu)特征與Haar-like 特征相結(jié)合,可得到4 類Haar-like T 特征[9],該特征更為符合人臉的幾何分布特征。分別為T-down、T-right、T-up、T-left,如圖3所示。
圖3 四類Haar-like T 特征Fig.3 Four types of Haar-like T features
T 特征與人臉五官的結(jié)合如圖4 所示。以圖4(a)所示人臉為例,圖4(b)為T-up 與人臉眼睛和鼻子區(qū)域相結(jié)合,人的眼睛和眉毛所在區(qū)域的灰度值大于以鼻子作為交點(diǎn)的倒立T 字型包含區(qū)域的灰度值,圖4(c)和圖4(d)則是人左眼和右眼與T-left、T-right 相結(jié)合,圖4(e)與圖4(f)圖類似。從上述分析可知,Haar-Like T 特征理論上較符合人臉的幾何分布。
圖4 T 特征與人臉五官結(jié)合圖Fig.4 T-feature and facial features
局部二元特征(LBP)算子是描述人臉圖像紋理特征的算子,該算法對(duì)紋理特征具有旋轉(zhuǎn)不變性和灰度不變性。初始的LBP 算子構(gòu)建一個(gè)3×3 的矩形區(qū)域[10],該區(qū)域的中心像素值設(shè)為閾值,相鄰的8 個(gè)小矩形區(qū)域的像素灰度值與中心像素值經(jīng)行比較,比它大的標(biāo)記為1,反之為0。如此操作,將這8 個(gè)經(jīng)過(guò)標(biāo)記的像素塊按順序排列,即得到八位二進(jìn)制數(shù)。用公式則表示為
式中:(Xc,Yc)為該正方形區(qū)域的中心點(diǎn)像素;ic為中心區(qū)域的灰度值;ip是各相鄰區(qū)域的灰度值;S(x)為定義函數(shù),即:
其簡(jiǎn)單計(jì)算如圖5 所示。
圖5 LBP 計(jì)算流程Fig.5 LBP calculation flow chart
該算法可以較為簡(jiǎn)單高效地識(shí)別人臉圖像中各種細(xì)節(jié),但不足之處在于當(dāng)遇上規(guī)模較大的人臉紋理變化時(shí),算法會(huì)遇到效率較低的問(wèn)題。
基礎(chǔ)的LBP 算法只能夠適應(yīng)固定半徑范圍的小區(qū)域,而人臉識(shí)別對(duì)圖像的尺寸和頻率紋理有著較高地要求。改進(jìn)的LBP 算法[11-12]在原有的基礎(chǔ)上,將3×3 鄰域拓展到任意鄰域,并且用圓形鄰域代替,以適應(yīng)不同尺度的紋理特征,如圖6 所示。
圖6 改進(jìn)后的LBP 算法Fig.6 Improved LBP algorithm
圖7 原始圖像與LBP 特征圖Fig.7 Original image and LBP feature map
對(duì)于新的圓形鄰域內(nèi)的中心點(diǎn)(Xc,Yc),其鄰域范圍內(nèi)的任意一點(diǎn)(Xp,Yp),p∈P 其采樣點(diǎn)(Xp,Yp)值為
式中:R 為圓形區(qū)域的半徑大??;p 表示第p 個(gè)采樣點(diǎn);P 表示檢測(cè)樣本點(diǎn)的個(gè)數(shù)。
通過(guò)上述對(duì)于普通LBP 算法的改進(jìn),圖像區(qū)域內(nèi)的每個(gè)像素點(diǎn)都可以得到一個(gè)LBP 編碼。一幅人臉圖像在提取其LBP 特征之后,得到的LBP 特征圖任然與人臉相似。
同時(shí)LBP 對(duì)光照具有很強(qiáng)的魯棒性,在不同的光照條件下,LBP 方法對(duì)人臉圖像紋理特征的提取未發(fā)現(xiàn)明顯的變化,不同光照條件下的人臉照片與LBP 圖像,如圖8 所示。
圖8 不同光照條件下的人臉圖像與LBP 圖像Fig.8 Face image and LBP image under different lighting conditions
在1990 年,由SChapire 等人提出了Boosting 算法。其旨在將弱學(xué)習(xí)算法提升為強(qiáng)學(xué)習(xí)算法。在1995 年,研究者在原算法的基礎(chǔ)上,提出了改進(jìn)的Adaboost 算法,該算法較之前的Boosting 算法有著較大地提升。
Adaboost 算法是一種基于級(jí)聯(lián)分類模型的分類器[13],它將采集到的人臉圖像用Harr-like T 特征表示,并應(yīng)用積分圖對(duì)人臉圖像進(jìn)行表達(dá)。系統(tǒng)構(gòu)建了一個(gè)快速分類器,其具有極低的錯(cuò)誤率(對(duì)于人臉的識(shí)別率接近100%)。該檢測(cè)器可更準(zhǔn)確將人臉?lè)诸?。?dāng)圖像的“非面部”區(qū)域被標(biāo)記,即可將其丟棄,而“面部”區(qū)域時(shí),則需要進(jìn)一步的分類工作。級(jí)聯(lián)分類模型如圖9 所示。
圖9 級(jí)聯(lián)分類模型Fig.9 Cascade classification model
Adaboost 算法通過(guò)對(duì)不同的人臉圖像進(jìn)行不同的賦值與加權(quán)計(jì)算,以此來(lái)分別是否為人臉圖像。在不斷學(xué)習(xí)了多種不同的樣本時(shí),分類器不斷的學(xué)習(xí)迭代,其準(zhǔn)確率將到達(dá)一個(gè)較高的值。在多次訓(xùn)練之后選擇一個(gè)準(zhǔn)確率最高的分類器,如此就得到一個(gè)弱分類器。弱分類器將每個(gè)分類器進(jìn)行不同的賦值計(jì)算,再將若干個(gè)分類器進(jìn)行級(jí)聯(lián)合成強(qiáng)分類器。經(jīng)過(guò)級(jí)聯(lián)算法之后,會(huì)得到最終的人臉級(jí)聯(lián)分類器,通過(guò)每一級(jí)的賦值加權(quán),形成人臉?lè)诸惼?。Adaboost級(jí)聯(lián)分類器如圖10 所示。
圖10 Adaboost 級(jí)聯(lián)分類器Fig.10 Adaboost cascade classifier
為檢測(cè)本文算法的性能,人臉識(shí)別的實(shí)驗(yàn)環(huán)境為CPU 是Intel(R)Core(TM)i5-9500 CPU,頻率為3.00 GHz,內(nèi)存為8 GB,電腦的操作系統(tǒng)為Win10。
為測(cè)試Haar-like T 檢測(cè)人臉的性能,本文用該方法與Haar-like 方法做比較,數(shù)據(jù)集為FERET 人臉數(shù)據(jù)庫(kù)、Yale 人臉數(shù)據(jù)庫(kù)、ORL 人臉數(shù)據(jù)庫(kù)中所提取的6000 張人臉圖像,和網(wǎng)絡(luò)收集的2000 張非人臉圖像,再?gòu)臄?shù)據(jù)集中選取部分圖片作為測(cè)試圖片。當(dāng)檢測(cè)樣數(shù)較少時(shí),Haar-like T 與Haar-like 的檢測(cè)率相近,當(dāng)樣本數(shù)逐漸增大時(shí),檢測(cè)率開(kāi)始出現(xiàn)差別,Haar-like T 方法檢測(cè)率較高,檢測(cè)精確度更高,相同條件下Haar-like T 所用的時(shí)間更短。實(shí)驗(yàn)結(jié)果匯總?cè)绫? 所示。
表1 檢測(cè)性能Tab.1 Test performance
表2 算法識(shí)別率Tab.2 Algorithm recognition rate
表3 算法識(shí)別率Tab.3 Algorithm recognition rate
該數(shù)據(jù)集由耶魯大學(xué)計(jì)算視覺(jué)與控制中心創(chuàng)建,包含15 個(gè)個(gè)體,每個(gè)個(gè)體包含11 張不同姿態(tài)的人臉圖像,共165 張圖片,包含光照、表情和姿態(tài)的變化。Yale 人臉數(shù)據(jù)庫(kù)中每個(gè)個(gè)體采集的樣本包含明顯的光照、表情和姿態(tài)以及遮擋變化。該數(shù)據(jù)集的樣圖如圖11 所示。
圖11 Yale 人臉數(shù)據(jù)庫(kù)樣本圖Fig.11 Sample image of Yale face database
本文取該數(shù)據(jù)集中每人的前5 張作為訓(xùn)練集,剩余的樣本作為測(cè)試集。在該數(shù)據(jù)集上本文對(duì)HOG+SVM、LBP+KNN、LBP、ULBP、Haar-like+LBP、CNN 方法與本文方法進(jìn)行對(duì)比,結(jié)果如2 表所示。
通過(guò)以上7 種不同的方法進(jìn)行對(duì)比,不難看出Haar-like T 與LBP 特征結(jié)合的方法在Yale 人臉庫(kù)上較HOG+SVM、LBP+KNN 方法的準(zhǔn)確率有著較高地提升,與LBP、ULBP、CNN、Haar-like+LBP 方法相比較有著略微的優(yōu)勢(shì),且本文方法比Haar-like+LBP 方法所用的時(shí)間更少,Haar-like T 方法有著更符合人臉幾何分布的特征提取方式,且速度更快,效率更高。CNN 由于受到訓(xùn)練數(shù)據(jù)較少的影響,對(duì)人臉特征提取不足,而導(dǎo)致識(shí)別率較本文方法偏低。這說(shuō)明Haar-like T 在面對(duì)訓(xùn)練數(shù)據(jù)較少的數(shù)據(jù)集時(shí),有比HOG+SVM 與LBP+KNN 方法更好的互補(bǔ)性,以提升識(shí)別率。相比于LBP 和ULBP 方法受到的光照和姿態(tài)等方面的影響更少,具有更好的魯棒性。
該數(shù)據(jù)集由英國(guó)劍橋大學(xué)AT&T 實(shí)驗(yàn)室創(chuàng)建,其圖像規(guī)格為92×112,灰度值最高為256。包含40種不同性別的,不同人的人臉圖像,每個(gè)個(gè)體包含13 張不同姿態(tài)的人臉圖像,有不同表情,睜眼閉眼,是否戴眼鏡,拍攝角度的不同,并且每個(gè)個(gè)體增加部分遮擋圖片,共400 余張面部圖像。ORL 人臉數(shù)據(jù)庫(kù)樣圖如圖12 所示。
圖12 ORL 人臉數(shù)據(jù)庫(kù)樣本圖Fig.12 ORL face database sample image
在數(shù)據(jù)集的分配上,本文將每人的前5 張作為訓(xùn)練樣本,其余作為測(cè)試樣本。在該數(shù)據(jù)集本文對(duì)HOG+SVM、LBP+KNN、LBP、ULBP、Haar-like+LBP、CNN 方法與本文方法進(jìn)行對(duì)比,結(jié)果如3 表所示。
在數(shù)據(jù)集數(shù)量較為充裕且加入了部分遮擋圖片的ORL 人臉庫(kù)中,以上7 種方法方法識(shí)別率對(duì)比,Haar-like T+LBP 方法比CNN 方法的識(shí)別率稍低,由于ORL 人臉庫(kù)有著較多的數(shù)量的圖片,卷積神經(jīng)網(wǎng)絡(luò)對(duì)于人臉特征的提取更加精確,以致卷積神經(jīng)網(wǎng)絡(luò)在ORL 人臉庫(kù)上的識(shí)別率比本文方法稍高,也表明在訓(xùn)練圖片較多時(shí),CNN 網(wǎng)絡(luò)在識(shí)別率方面有著比本文方法稍好地表現(xiàn),但卷積神經(jīng)網(wǎng)絡(luò)也存在網(wǎng)絡(luò)的過(guò)擬合,泛化能力不足的問(wèn)題,本文方法相較于CNN 網(wǎng)絡(luò)的訓(xùn)練時(shí)間較短,識(shí)別率相近,有其自身優(yōu)勢(shì)。在此數(shù)據(jù)集上本文方法與HOG+SVM、LBP+KNN 方法相比較任然有較好的識(shí)別率,有著更好的互補(bǔ)性,而與LBP 和ULBP 方法的比較中,體現(xiàn)出了本文方法在面對(duì)不同光照和姿態(tài)時(shí),有著較好的魯棒性,比Haar-like+LBP 方法所用時(shí)間更少,識(shí)別率更精確。
針對(duì)卷積神經(jīng)網(wǎng)絡(luò)運(yùn)用于人臉識(shí)別,在訓(xùn)練數(shù)據(jù)較少而造成訓(xùn)練特征不足,同時(shí)也可能出現(xiàn)網(wǎng)絡(luò)的過(guò)擬合,泛化能力不足等缺陷,本文結(jié)合Haarlike T 和LBP 特征的算法進(jìn)行人臉識(shí)別的研究。實(shí)驗(yàn)結(jié)果表明,Haar-like T 在人臉的檢測(cè)上有著較高的檢測(cè)率與精度,Haar-like T 和LBP結(jié)合的方法在Yale 和ORL 人臉庫(kù)中有著較好的識(shí)別效果,對(duì)光照具有較強(qiáng)的魯棒性,對(duì)光照不敏感,同時(shí)對(duì)人臉的識(shí)別時(shí)間更短,具備良好的可行性。