朱天才,周曉波
(西京學(xué)院計(jì)算機(jī)學(xué)院,西安 710123)
人臉識別技術(shù)是指通過計(jì)算機(jī)程序?qū)θ四槇D像進(jìn)行處理和分析,從而實(shí)現(xiàn)對人臉身份信息的識別和驗(yàn)證[1]。人臉識別技術(shù)的發(fā)展歷程可以追溯到上世紀(jì)70 年代,當(dāng)時(shí)人們已經(jīng)開始探索如何利用計(jì)算機(jī)技術(shù)完成圖像識別。在過去的幾十年中,隨著計(jì)算機(jī)技術(shù)和人工智能技術(shù)的不斷發(fā)展,人臉識別技術(shù)也在不斷地改進(jìn)和完善。
人臉識別技術(shù)的發(fā)展可以分為三個(gè)階段。第一個(gè)階段是基于幾何特征的傳統(tǒng)方法,該方法主要是基于幾何測量和特征提取的原理,通過對人臉圖像進(jìn)行特征計(jì)算和比對,實(shí)現(xiàn)對人臉身份信息的識別。第二個(gè)階段是人機(jī)交互式識別階段,主要用幾何特征來表達(dá)人臉正面圖像的特征,但此階段仍然需要操作人員的經(jīng)驗(yàn)知識,仍以能達(dá)到完全自動(dòng)化的識別目標(biāo)為目的[2]。第三個(gè)階段是基于深度學(xué)習(xí)的方法,該方法利用深度神經(jīng)網(wǎng)絡(luò)進(jìn)行特征提取和分類,通過學(xué)習(xí)更加抽象和高層次的特征信息,實(shí)現(xiàn)對人臉身份信息的準(zhǔn)確識別。
人臉識別技術(shù)具有高準(zhǔn)確率、快速識別、無接觸等優(yōu)勢,已經(jīng)廣泛應(yīng)用于各個(gè)領(lǐng)域。在公共安全領(lǐng)域,人臉識別技術(shù)可以實(shí)現(xiàn)門禁安檢控制、視頻瀏覽安全監(jiān)控等功能[3]。在金融領(lǐng)域中,人臉識別技術(shù)可以用于身份驗(yàn)證、交易確認(rèn)等。在醫(yī)療領(lǐng)域中,人臉識別技術(shù)可以實(shí)現(xiàn)患者身份確認(rèn)、醫(yī)療記錄管理等功能。此外,在智能家居、教育等領(lǐng)域中也有人臉識別技術(shù)的應(yīng)用。
深度學(xué)習(xí)是機(jī)器學(xué)習(xí)的一個(gè)分支,它試圖使用包含復(fù)雜結(jié)構(gòu)或者通過多重非線性變換構(gòu)成的多個(gè)處理層對數(shù)據(jù)進(jìn)行深層抽象的算法?;谏疃葘W(xué)習(xí)的人臉識別方法是以端到端的方式學(xué)習(xí)提取特征的能力,并使用提取到的特征進(jìn)行分類,在損失函數(shù)的指導(dǎo)下利用一些優(yōu)化方法,如梯度下降、自適應(yīng)學(xué)習(xí)率算法優(yōu)化神經(jīng)網(wǎng)絡(luò)中的參數(shù)[4],最終實(shí)現(xiàn)對圖像的識別。
傳統(tǒng)人臉識別方法面臨著許多困難和挑戰(zhàn),其中之一是角度變化的影響。由于角度變化會導(dǎo)致人臉圖像的形態(tài)、紋理等發(fā)生變化,因此傳統(tǒng)方法往往難以準(zhǔn)確地識別人臉。特別是在現(xiàn)實(shí)生活中,人們所處的環(huán)境和角度多種多樣,傳統(tǒng)方法很難滿足對于多種角度的識別要求。傳統(tǒng)人臉識別方法基本上都是采用基于特征點(diǎn)的方法進(jìn)行識別,因此會受到人臉角度變化的影響,導(dǎo)致識別準(zhǔn)確率下降。例如,在人臉旋轉(zhuǎn)的情況下,特征點(diǎn)的位置會發(fā)生變化,因此無法準(zhǔn)確匹配,識別精度會受到嚴(yán)重的影響。在如今這個(gè)時(shí)代,隨著深度學(xué)習(xí)的發(fā)展和廣泛應(yīng)用,人臉識別研究有了極大的突破,其自身適應(yīng)性、精確性、魯棒性和智能度都得到很大提升[5]。
光照、表情、年齡等因素是傳統(tǒng)人臉識別方法所存在的主要局限性[6]。光照因素會引起人臉圖像亮度和對比度的變化,甚至能夠使人臉的形狀發(fā)生變化。表情因素也會導(dǎo)致人臉圖像的變化,使得人臉的特征提取難以實(shí)現(xiàn)。年齡因素同樣存在,導(dǎo)致人臉圖像的細(xì)節(jié)和特征隨著時(shí)間的推移而逐漸發(fā)生變化,已有的特征信息也會逐漸丟失。
近年來由于深度學(xué)習(xí)技術(shù)被引入到了人臉識別領(lǐng)域,傳統(tǒng)方法中的這些問題得到了解決。通過訓(xùn)練大量的人臉圖像數(shù)據(jù),深度學(xué)習(xí)網(wǎng)絡(luò)可以自動(dòng)從中提取光照、表情、年齡等影響因素下不變的人臉特征,從而提高人臉識別的準(zhǔn)確率。同時(shí),深度學(xué)習(xí)技術(shù)還可以應(yīng)對大規(guī)模人臉識別系統(tǒng)中可能存在的復(fù)雜情況,使得識別系統(tǒng)更加健壯和可靠。
卷積神經(jīng)網(wǎng)絡(luò)[7](CNN)是一種十分有效的深度學(xué)習(xí)網(wǎng)絡(luò)模型,在人臉識別技術(shù)中得到廣泛應(yīng)用。CNN 是一種具有局部連接、權(quán)重共享等特性的深層前饋神經(jīng)網(wǎng)絡(luò)[8],基本結(jié)構(gòu)就是輸入層、卷積層(conv)、子采樣層(pooling)、全連接層、輸出層,如圖1 所示。CNN 的主要思想是通過將輸入的圖像進(jìn)行多次卷積操作和池化操作,得到對圖像特征的提取。通過不斷疊加多個(gè)層,最終得到分類器輸出與輸入之間的映射關(guān)系。
圖1 CNN基本結(jié)構(gòu)
CNN 在人臉識別技術(shù)中的應(yīng)用主要包括兩個(gè)方面:特征提取和人臉分類。在特征提取方面,CNN將人臉圖像轉(zhuǎn)化為特征圖(feature map),并在該特征圖上進(jìn)行卷積和池化操作,從而獲取高度特征化的圖像表示。
通過CNN模型,文獻(xiàn)[9]使用標(biāo)準(zhǔn)人臉數(shù)據(jù)集CASIA-WebFace 進(jìn)行訓(xùn)練,在LTW 數(shù)據(jù)庫上的人臉識別準(zhǔn)確率可達(dá)97.8 %。文獻(xiàn)[10]使用標(biāo)準(zhǔn)的AT&T數(shù)據(jù)集,通過參數(shù)調(diào)優(yōu)的方法使準(zhǔn)確率最大達(dá)到了98.75%。通過以上結(jié)論得出CNN 模型在人臉識別的應(yīng)用上效果非常突出,在未來也將得到更深、更廣泛的應(yīng)用。
深度信念網(wǎng)絡(luò)(DBN)[11]是一種用于特征提取的無監(jiān)督深度生成模型。它由多層構(gòu)成,每層均為二元變量的隨機(jī)變量。DBN 在特征提取上具有一定優(yōu)勢,它可以通過在上下層之間使用反向傳播算法進(jìn)行訓(xùn)練,從而學(xué)習(xí)到不同層次的特征表示。通過使用DBN,提取到的特征可以具有更加高層次的抽象性,這對于人臉識別這種復(fù)雜的任務(wù)尤為重要。
相比傳統(tǒng)神經(jīng)網(wǎng)絡(luò),深度學(xué)習(xí)的一個(gè)重要優(yōu)勢是,很大程度上解決了低層神經(jīng)網(wǎng)絡(luò)的訓(xùn)練速度和精度問題。如圖2所示,多層模型進(jìn)行全局學(xué)習(xí)前DBN 會將神經(jīng)網(wǎng)絡(luò)分解為多個(gè)受限玻爾茲曼機(jī)(RBM)的層疊,再對其進(jìn)行逐層訓(xùn)練[12]。DBN 為了準(zhǔn)確描述特征結(jié)構(gòu),能自下而上學(xué)習(xí)各層的抽象特征,與代數(shù)特征方法不同,其特征提取不用人工來選擇,完全采用自動(dòng)學(xué)習(xí)來完成。林妙真[12]證明出了深度學(xué)習(xí)在人臉識別姿態(tài)和分辨率上存在的問題,并且實(shí)驗(yàn)結(jié)果表明,基于DBN 的姿態(tài)映射可以學(xué)習(xí)到側(cè)面人臉圖像到正面人臉圖像的一個(gè)全局映射;基于DBN的姿態(tài)分類可以達(dá)到良好的性能。
圖2 DBN模型結(jié)構(gòu)
DBN 的一個(gè)缺陷是直接采用人臉圖像的像素作為學(xué)習(xí)的輸入,往往忽略了人像的局部特征,在姿態(tài)、光線、噪聲等因素的影響下,輸出的特征表達(dá)可能會對結(jié)果不利[13]。為了解決這個(gè)問題,文獻(xiàn)[14]通過提取Gabor 特征當(dāng)作DBN 的輸入來進(jìn)行人臉識別,識別率高達(dá)92.7%。趙遠(yuǎn)東[15]也提出一種基于Gabor 小波與DBN 相結(jié)合的人臉識別方法,有效提取人像的抽象特征,且很好地降低了姿態(tài)、光線等對識別率的影響,實(shí)現(xiàn)了對人像的準(zhǔn)確識別。
局部LBP 和深度學(xué)習(xí)相結(jié)合是一種新興的人臉識別技術(shù)。LBP 是Ojala 等人發(fā)現(xiàn)的并且能夠描述局部紋理的算法[16],但其在角度轉(zhuǎn)變、光照轉(zhuǎn)變等方面體現(xiàn)較差。深度學(xué)習(xí)是近年來備受研究者關(guān)注的技術(shù),其能夠快速有效地提取人臉圖像中的特征,具有較好的泛化能力。將LBP 特征和深度學(xué)習(xí)相結(jié)合,可以提高人臉識別的準(zhǔn)確率和魯棒性。
2016 年吳進(jìn)等[17]采用了一種將多尺度LBP算法加DBN 算法相結(jié)合的方法,通過LBP 算法提取人臉紋理特征,進(jìn)而將LBP 提取的紋理特征作為深度信念網(wǎng)絡(luò)的輸入,然后通過多層網(wǎng)絡(luò)層進(jìn)行訓(xùn)練,得到最優(yōu)的訓(xùn)練參數(shù)。經(jīng)過最終的測試得到了92.5%的正確率,比Gabor 小波和主成分分析算法的識別率還要高出2.6個(gè)百分點(diǎn)。
2017 年王大偉等[18]通過LBP 與卷積神經(jīng)網(wǎng)絡(luò)相結(jié)合的方法,首先提取人臉圖片的LBP 特征圖像,然后把LBP 圖像與原RGB 圖像結(jié)合作為網(wǎng)絡(luò)輸入數(shù)據(jù),并且使用隨機(jī)梯度下降法訓(xùn)練網(wǎng)絡(luò)參數(shù),最后用訓(xùn)練得到的網(wǎng)絡(luò)模型對人臉圖片進(jìn)行識別。在LFW(labeled face in the wild)人臉識別數(shù)據(jù)庫上的實(shí)驗(yàn)表明,在卷積神經(jīng)網(wǎng)絡(luò)中加入LBP 圖像信息可以提高人臉識別的準(zhǔn)確率。另外,當(dāng)增加訓(xùn)練數(shù)據(jù)時(shí),提出的方法得到的識別率會進(jìn)一步提高,更說明提出方法的有效性。
2018 年李騰等[19]為了克服傳統(tǒng)人臉識別算法特征表征能力差,且對光線變化和噪聲干擾敏感等問題,通過LBP 提取人臉圖像的紋理特征,然后將得到的紋理特征作為卷積網(wǎng)絡(luò)的輸入,在卷積網(wǎng)絡(luò)中提取各池化層處理后得到的特征,利用提取的特征并在全連接層進(jìn)行級聯(lián)融合,得到最終的分類特征,最后利用Softmax分類器分類識別。實(shí)驗(yàn)中,將人臉庫旋轉(zhuǎn)不同的角度來擴(kuò)充數(shù)據(jù)庫和驗(yàn)證算法的魯棒性,分別在ORL、YALE、AR 3個(gè)數(shù)據(jù)庫進(jìn)行實(shí)驗(yàn),最后正確識別率分別達(dá)到了98.6%、95.6%和98.9%,高于經(jīng)典識別算法,魯棒性也優(yōu)于對比算法。
2020 年滿忠昂等[20]提出一種將人臉圖像進(jìn)行分塊,局部運(yùn)用LBP 算子然后與深度置信網(wǎng)絡(luò)結(jié)合的人臉識別算法(BPBN)。首先,將人臉圖像進(jìn)行分塊,對分塊后的圖像提取LBP 進(jìn)行統(tǒng)計(jì),將生成的LBP 直方圖按照一定秩序組合連接成新的特征向量。其次,將得到的LBP 特征作為DBN 的輸入,采用貪婪算法逐層進(jìn)行訓(xùn)練,然后用反向傳播(BP)算法對訓(xùn)練得到的深度置信網(wǎng)絡(luò)進(jìn)行優(yōu)化。最后,用訓(xùn)練好的深度置信網(wǎng)絡(luò)對人臉進(jìn)行識別。在ORL 人臉數(shù)據(jù)庫上進(jìn)行實(shí)驗(yàn),識別率達(dá)到96.0%,然后與傳統(tǒng)的主成分分析(PCA)算法集成支持向量機(jī)(SVM)的方法進(jìn)行比較,識別率有較為顯著的提升。
簡言之,在LBP 特征的基礎(chǔ)上,利用卷積神經(jīng)網(wǎng)絡(luò)、深度信念網(wǎng)絡(luò)等深度學(xué)習(xí)模型進(jìn)行特征融合和分類,能夠有效地提高人臉圖像的特征表現(xiàn)力和分類精度,同時(shí)極大地克服傳統(tǒng)人臉識別方法的不足。
對于人臉圖像,常常會存在不同的顏色和紋理區(qū)域。因此,我們采用了基于顏色和紋理的特征提取方法[21],以獲取更準(zhǔn)確的人臉識別結(jié)果。具體而言,首先對圖像進(jìn)行顏色量化,將每個(gè)像素點(diǎn)的顏色值轉(zhuǎn)換為離散的顏色,以減少計(jì)算量。隨后,提取了人臉圖像的紋理特征,包括紋理方向、梯度和直方圖等內(nèi)容。通過這些特征的提取,可以有效地區(qū)分人臉圖像的不同區(qū)域,從而提高人臉識別的準(zhǔn)確率。
基于顏色和紋理的特征提取方法是一種相對簡單卻有效的人臉識別技術(shù)。它可以幫助我們從圖像中提取出更具代表性的特征,提高人臉識別的準(zhǔn)確性。
在人臉識別技術(shù)中,特征提取是非常重要的步驟之一。當(dāng)今時(shí)代,基于深度學(xué)習(xí)的特征提取方法已經(jīng)普遍流行。其中,多尺度特征提取方法可以有效提高人臉識別的準(zhǔn)確性。
多尺度特征提取方法通過對輸入圖像進(jìn)行不同比例的卷積和池化操作,來提取出多層次的圖像特征。這些特征反映了不同細(xì)節(jié)層次的信息,可以有效地改善人臉圖像中存在的尺度變化問題。
一種常見的多尺度特征提取方法是特征金字塔結(jié)構(gòu)[22]。該結(jié)構(gòu)包括多個(gè)不同比例的圖像,對每個(gè)圖像進(jìn)行特征提取,再將不同尺度的特征融合起來。這種方法可以豐富特征表示的多樣性,從而提高準(zhǔn)確率。
此外,深度神經(jīng)網(wǎng)絡(luò)也可以實(shí)現(xiàn)多尺度特征提取。例如,在卷積神經(jīng)網(wǎng)絡(luò)中,可以使用多個(gè)不同大小的卷積核對輸入圖像進(jìn)行卷積操作,得到不同尺度的卷積特征圖[23]。然后,再對這些特征圖進(jìn)行匯聚和激活函數(shù)處理,得到更高層次的特征。這種方法可以更加精細(xì)地提取圖像的細(xì)節(jié)信息,使得特征更具有區(qū)分性。
通過以上綜述,傳統(tǒng)人臉識別的方法存在一些缺陷,在人臉識別中引入深度學(xué)習(xí)的技術(shù),主要討論了當(dāng)前最流行的深度模型DBN、CNN和LBP 與深度學(xué)習(xí)相結(jié)合等三種模型。與此同時(shí)也討論了特征提取的一些技術(shù)。從國內(nèi)外研究現(xiàn)狀來看,基于DBN 和CNN 的人臉識別技術(shù)的應(yīng)用已趨于成熟,并取得良好的效果。但是,在數(shù)據(jù)比較少的情況下這兩種模型識別率普遍偏低的問題很難徹底解決,但是第三種模型在數(shù)據(jù)集比較小的情況下也獲得比較好的效果。
基于深度學(xué)習(xí)的人臉識別技術(shù)已成為計(jì)算機(jī)視覺領(lǐng)域最熱門的研究方向之一,得到了廣泛的應(yīng)用。隨著人們對人臉識別技術(shù)的需求不斷增加,相關(guān)研究也在不斷推進(jìn)。本文綜述的基于深度學(xué)習(xí)的多角度人臉識別方法,克服了傳統(tǒng)的人臉識別方法容易受到角度變化的影響的問題。與此同時(shí),深度學(xué)習(xí)技術(shù)的引入也提高了人臉識別的準(zhǔn)確率。在未來,多模態(tài)融合有望成為人臉識別技術(shù)的發(fā)展方向。多模態(tài)融合是指將來自不同傳感器或不同模態(tài)的信息進(jìn)行融合,以提高識別的準(zhǔn)確性和魯棒性。例如,可以將人臉圖像、人臉紋理、聲音、姿態(tài)等多個(gè)信息融合在一起,對人臉進(jìn)行更全面、準(zhǔn)確的識別。在此基礎(chǔ)上,我們可以開發(fā)出更加智能化、更加細(xì)致化的人臉識別應(yīng)用,為各個(gè)領(lǐng)域提供更加可靠的身份識別解決方案。