司 琴,李菲菲,陳 虬
(上海理工大學(xué) 光電信息與計算機(jī)工程學(xué)院,上海 200093)
人臉識別是通過人的臉部特征信息進(jìn)行身份識別的一種生物識別技術(shù),具有防偽性能好、非侵犯性等優(yōu)點。近年來,人臉識別成為模式識別、圖像處理、機(jī)器視覺及神經(jīng)網(wǎng)絡(luò)等學(xué)科的研究熱點,其在國防安全、身份認(rèn)證、視頻監(jiān)控、互聯(lián)網(wǎng)交互等領(lǐng)域有重要的研究價值。傳統(tǒng)的人臉識別流程包括人臉檢測、人臉對齊、人臉特征提取和人臉分類4個階段。其中人臉特征提取是人臉識別的關(guān)鍵,特征提取的好壞直接影響分類的準(zhǔn)確率。傳統(tǒng)的特征提取方法中,局部二值模式(Local Binary Pattern,LBP)是一種用來描述圖像局部紋理特征的算子,由于其具有計算簡單、特征分類能力強(qiáng)等特點,被廣泛的運(yùn)用到人臉識別研究當(dāng)中[1-3]。然而在非限制環(huán)境下,由于人臉圖像的復(fù)雜性,用傳統(tǒng)的特征提取方法達(dá)不到理想的效果,且特征的表達(dá)方式過度依賴于人工選擇。
近年來,深度學(xué)習(xí)受到了越來越多研究者的關(guān)注,它在特征提取上相比于淺層模型有明顯的優(yōu)勢。深度學(xué)習(xí)是包含多級非線性變換的層級機(jī)器學(xué)習(xí)方法,其通過組合低層特征形成更抽象、更有效的高層表示,且這些表示具有良好的泛化能力[4]。其中,卷積神經(jīng)網(wǎng)絡(luò)是一種經(jīng)典且廣泛應(yīng)用的深度學(xué)習(xí)方法,其神經(jīng)元間的連接模式受啟發(fā)于動物視覺皮層組織。卷積神經(jīng)網(wǎng)絡(luò)的局部感知、權(quán)值共享及池化操作等特性使其更接近于生物神經(jīng)網(wǎng)絡(luò),可以有效降低網(wǎng)絡(luò)的復(fù)雜度,減少模型學(xué)習(xí)參數(shù);同時使模型對位移、縮放、旋轉(zhuǎn)或其他形式的形變具有一定程度的不變性,并具有強(qiáng)魯棒性和容錯能力[5-6]。在人臉識別任務(wù)中,與傳統(tǒng)方法提取的特征相比,卷積神經(jīng)網(wǎng)絡(luò)通過卷積、激活函數(shù)、池化等一系列運(yùn)算自動學(xué)習(xí)到的強(qiáng)大表示能力的特征更具優(yōu)越性,且在LFW數(shù)據(jù)集上的認(rèn)證識別率已經(jīng)超過人眼的識別率[7-8]。但是使用卷積神經(jīng)網(wǎng)絡(luò)提取的圖像特征忽視了圖像的局部結(jié)構(gòu)特征,且網(wǎng)絡(luò)會因為光照等因素學(xué)習(xí)到不利的特征表示。傳統(tǒng)特征提取方法LBP是一種用來描述圖像局部紋理特征的算子,其具有光照不敏感、平移不變和旋轉(zhuǎn)不變性等特點。將傳統(tǒng)特征提取方法LBP與卷積神經(jīng)網(wǎng)絡(luò)結(jié)合,二者之間的互補(bǔ)性可以提高提取特征的判別性。
VGG[9]作為一個經(jīng)典的卷積神經(jīng)網(wǎng)絡(luò),其結(jié)構(gòu)中多個小濾波器的卷積層的組合,可以在使用更少的參數(shù)的同時增強(qiáng)特征的表達(dá)。本文對VGG網(wǎng)絡(luò)進(jìn)行深淺特征相融合稱之為SDFVGG網(wǎng)絡(luò),提出了一種基于LBP與SDFVGG網(wǎng)絡(luò)的新方法。該方法將LBP人臉特征圖與原圖相結(jié)合作為SDFVGG網(wǎng)絡(luò)的輸入,使SDFVGG網(wǎng)絡(luò)不僅可以自動學(xué)習(xí)原始人臉圖像的信息,還可以學(xué)習(xí)LBP紋理信息。
LBP指局部二值模式,是一種用來描述圖像局部紋理特征的算子。其基本原理為:原始的LBP算子定義在一個像素3×3領(lǐng)域內(nèi),以鄰域中心像素為閾值,將相鄰的8個像素灰度值與閾值進(jìn)行比較。如果相鄰像素值大于閾值,則該像素點的位置被標(biāo)記為1;反之,則為0。因此,3×3鄰域內(nèi)的8個點經(jīng)過比較產(chǎn)生8位二進(jìn)制數(shù)。隨后將8位二進(jìn)制數(shù)依次排列形成一串二進(jìn)制碼,然后轉(zhuǎn)化為十進(jìn)制數(shù),該十進(jìn)制數(shù)就是中心像素的LBP模式。
LBP算子由下面計算式得到
(1)
其中,(xC,yc)為中心像素的坐標(biāo);ic為中心像素的灰度值;ip(p=0,1,…,7)表示中心鄰域上的8個像素值;s(x)為符號函數(shù)定義為
(2)
經(jīng)過LBP算子得到LBP模式如圖1所示。
則可得到中心像素的LBP模式為(00010011)2=19。由于局部二值模式是人臉的局部信息特征且具有光照不敏感、灰度平移不變和旋轉(zhuǎn)不變性等特點,因此將原始圖像與LBP圖像結(jié)合作為卷積神經(jīng)網(wǎng)絡(luò)的輸入使卷積神經(jīng)網(wǎng)絡(luò)提取的人臉特征更豐富、更具表征能力。
VGG是牛津大學(xué)計算機(jī)視覺組(Visual Geometry Group)和Google DeepMind公司的研究員一起研發(fā)的深度卷積神經(jīng)網(wǎng)絡(luò)。VGG在AlexNet基礎(chǔ)上將單層網(wǎng)絡(luò)替換為堆疊的3×3的卷積層和2×2的最大池化層,減少了卷積層參數(shù)并加深網(wǎng)絡(luò)結(jié)構(gòu)提高了性能,成功地構(gòu)建了16~19層深的卷積神經(jīng)網(wǎng)絡(luò)。與之前state-of-the-art 的網(wǎng)絡(luò)結(jié)構(gòu)相比,VGG錯誤率大幅下降,并取得了 ILSVRC[10]2014 比賽分類項目的第2名和定位項目的第1名。此外,VGG的拓展性很強(qiáng),遷移到其他圖像數(shù)據(jù)上的泛化性非常好。
VGG16整個網(wǎng)絡(luò)的卷積核尺寸均為3×3,卷積步長為1,采用的最大池化尺寸均為2×2,步長為2。網(wǎng)絡(luò)擁有5段卷積,前兩段各有2個卷積層,后3段各有3個卷積層,每段內(nèi)的卷積核數(shù)量一樣,依次是64、128、256、512、512;兩個3×3的卷積層堆疊具有大小為5×5的感受野,3個3×3的卷積層堆疊的感受野為7×7。使用3個3×3的卷積層堆疊跟一個7×7的卷積層相比有如下優(yōu)點:(1)前者擁有比后者更多的非線性變換,即前者可以使用3次ReLU[11]激活函數(shù),而后者只有一次,這使得卷積神經(jīng)網(wǎng)絡(luò)對特征的學(xué)習(xí)能力更強(qiáng);(2)3個串聯(lián)的3×3的卷積層擁有比一個7×7的卷積層更少的參數(shù)量。同時每段卷積后會連接一個最大池化層用來縮小圖片尺寸,從而減少最后全連接層中的參數(shù)。VGG16結(jié)構(gòu)如圖2所示。
圖中Conv表示網(wǎng)絡(luò)的卷積層,Maxpool表示最大池化層,F(xiàn)C表示網(wǎng)絡(luò)的全連接層。
本文采用遷移學(xué)習(xí)的方法,用fine-tuning的方式對在ImageNet數(shù)據(jù)集上預(yù)先訓(xùn)練好的VGG16模型進(jìn)行訓(xùn)練。所謂遷移學(xué)習(xí),就是將一個問題上訓(xùn)練好的模型通過簡單的調(diào)整使其適用于一個新的問題。遷移學(xué)習(xí)解決了訓(xùn)練數(shù)據(jù)不足以及訓(xùn)練時間的問題。
本文提出了一種將VGG網(wǎng)絡(luò)深淺特征相融合的方法。其基本過程和原理如圖3所示:
(1)通過不同尺度的并行多層卷積層提取網(wǎng)絡(luò)不同的淺層特征,增強(qiáng)了特征的表達(dá)能力;
(2)將不同的淺層特征與網(wǎng)絡(luò)深層特征通過Concat層相融合,生成融合特征;
(3)將融合特征通過該并行多層卷積塊生成不同的融合特征,將這些不同的融合特征與該網(wǎng)絡(luò)更深層的特征相融合,生成最終的融合特征。
將VGG網(wǎng)絡(luò)采用圖3所示的特征融合方法得到的SDFVGG網(wǎng)絡(luò)結(jié)構(gòu)如圖4所示,圖中虛線框所示為特征提取和融合的并行分支。SDFVGG網(wǎng)絡(luò)通過連接層逐級融合特征,Concat-2層的輸出是最終的融合特征。
其中,并行分支中Conv6-1、Conv6-2、Conv6-4與Conv7-1、Conv7-2、Conv7-4卷積核數(shù)量為64;Conv6-3、Conv6-5與Conv7-3、Conv7-5卷積核數(shù)量為128;Max-pool6與VGG網(wǎng)絡(luò)最大池化層參數(shù)一致。并行結(jié)構(gòu)中,1×1卷積層雖增強(qiáng)了激活函數(shù)的非線性特征,卻沒有擴(kuò)大感受野;不同尺度的卷積層的并行連接增加了網(wǎng)絡(luò)的寬度,提高了網(wǎng)絡(luò)的性能,使網(wǎng)絡(luò)提取的特征更豐富。但當(dāng)擴(kuò)展網(wǎng)絡(luò)使參數(shù)數(shù)量增加時,易發(fā)生過擬合。因此在網(wǎng)絡(luò)第一層和第二層全連接層中添加Batch Normalization可以控制過擬合,加快收斂速度。最后一個全連接層參數(shù)設(shè)置為分類數(shù),Soft-max層通過計算每個類的概率,得到相應(yīng)的最大概率類別。
本文將原始圖像信息與局部二值模式信息相結(jié)合作為SDFVGG網(wǎng)絡(luò)的輸入,使SDFVGG網(wǎng)絡(luò)不僅能學(xué)習(xí)全局原始圖像信息又能學(xué)習(xí)圖像的局部特征,從而使得網(wǎng)絡(luò)提取的特征更充分、更具表征能力。具體的輸入特征融合方式如圖5所示。
大規(guī)模的人臉數(shù)據(jù)集CAS-PEAL[12]包含了1 040個人的99 594張照片,其中男性595人,女性445人,圖像涵蓋了各種姿勢、表情、配飾、燈光、背景等方面的變化。人臉數(shù)據(jù)集CAS-PEAL-R1是CAS-PEAL的子集,包含了1 040個人的30 863張圖像。這些圖像分屬正面與側(cè)面兩個子集。在正面子集中,所有的圖像都是由特定的攝像機(jī)拍攝,被拍者正對著攝像機(jī)。其中,377人有6種不同表情的圖像;438人有佩戴6種不同配飾的圖像;233人有在至少9次光照變化下獲得的圖像;297人在2~4種不同的背景下拍攝了照片;296人擁有與相機(jī)距離不同的圖像。此外,66人在6個月的時間間隔內(nèi),在兩次試驗中記錄圖像。側(cè)面子集包含了1 040人的21種不同姿勢的圖像。
在實驗中使用了最具代表性的3組人臉集合,分別是表情集(PE)、配飾集(PA)、光照集(PL)。其中PE包含377人的1 884張面部圖像,PA包含438人的2 616張面部圖像,PL包含233人的2 450張面部圖像。將每個集合圖像按照9:1比例分為訓(xùn)練數(shù)據(jù)集與測試數(shù)據(jù)集,并將所有人臉圖像根據(jù)眼睛坐標(biāo)進(jìn)行裁剪縮放到大小為230×200像素的圖像。圖6為經(jīng)過處理后的人臉示例。
為了證實本文提出方法的有效性,在CAS-PEAL-R1人臉數(shù)據(jù)集上進(jìn)行3組人臉識別實驗:
(1)比較網(wǎng)絡(luò)特征融合對實驗結(jié)果的影響。將原始圖像分別作為VGG與SDFVGG網(wǎng)絡(luò)的輸入,在3個子集PE、PA、PL上進(jìn)行實驗,對比網(wǎng)絡(luò)特征融合對實驗結(jié)果的影響。如表1所示,對于PA和PL兩個子集,得到的SDFVGG網(wǎng)絡(luò)的識別準(zhǔn)確率均高于VGG網(wǎng)絡(luò),說明將網(wǎng)絡(luò)深淺特征融合可以增強(qiáng)特征的表達(dá),提高識別準(zhǔn)確率;
表1網(wǎng)絡(luò)特征融合的影響Table 1.Influence of network feature fusion
(2)比較不同輸入數(shù)據(jù)類型對實驗結(jié)果的影響。讓SDFVGG網(wǎng)絡(luò)的輸入分別為原始圖像、LBP圖像以及原始圖像與LBP相結(jié)合的圖像,在相同的實驗條件下,得到的3個子集PE、PA、PL識別準(zhǔn)確率如表2所示。從中得出,只使用LBP圖像作為網(wǎng)絡(luò)的輸入得到的人臉識別準(zhǔn)確率比用原始圖像得到的識別率低,因為LBP圖像相比原始圖像有信息損失。但是將原始圖像和LBP圖像相結(jié)合得到的人臉識別準(zhǔn)確率比單獨使用LBP圖像得到的識別率要高且該算法的泛化能力更強(qiáng)。這是因為LBP 圖像更好的表達(dá)了圖像的局部特征,將二者結(jié)合既彌補(bǔ)了信息的損失又增加了圖像的局部特征信息,因此識別率得到提高;
表2不同輸入類型的識別率比較Table 2.Comparison of recognition rates for different input types
(3)本文提出的方法與其他方法在CAS-PEAL-R1人臉數(shù)據(jù)集上的比較。如表3所示,首先可以看出本文研究方法相對于已有算法在PE與PA兩個子集上的精度分別提高了0.58%和3.72%,充分證明了該算法的正確性。與此同時,本文提出的研究方法在PL子集上的識別準(zhǔn)確率為98.05%,遠(yuǎn)遠(yuǎn)高于往年的幾種算法,證明了將LBP局部特征信息與原始圖像信息相融合作為SDFVGG網(wǎng)絡(luò)輸入的有效性。
表3與其他方法的比較Table 3.Comparison with other methods
本文提出一種 LBP與SDFVGG網(wǎng)絡(luò)相結(jié)合的人臉識別方法,該算法用不同尺度的并行多層卷積層提取VGG 網(wǎng)絡(luò)的深淺特征并相融合,增強(qiáng)網(wǎng)絡(luò)特征表達(dá)。LBP 算子提取的人臉圖像具有光照不敏感、灰度平移不變和旋轉(zhuǎn)不變性等特點,通過將LBP局部結(jié)構(gòu)信息與原始圖像信息結(jié)合作為網(wǎng)絡(luò)的輸入,可使SDFVGG網(wǎng)絡(luò)提取更具有判別性的人臉特征。在 CAS-PEAL-R1人臉數(shù)據(jù)庫上的實驗結(jié)果表明,這種方法有助于提高人臉識別的準(zhǔn)確率。