,,,
(1.安徽警官職業(yè)學(xué)院 計(jì)算機(jī)基礎(chǔ)教研室,合肥 230031; 2.合肥師范學(xué)院 信息技術(shù)中心,合肥 230601)
隨著城市發(fā)展日趨成熟以及便利交通設(shè)施的更新,大規(guī)模的人口流動(dòng)于各個(gè)城市,如何有效的鑒別身份信息,如何保障信息安全和公共安全,特別是一些給人們帶來(lái)生命安全和災(zāi)難的恐怖事件,給人們帶來(lái)警醒和深思。而人臉作為一種可以通過(guò)非接觸即可得到驗(yàn)證的最友好的生物特征,加上它的特殊性和唯一性,受人們追捧,也成為很多學(xué)者喜愛(ài)的研究點(diǎn)[1]。人臉識(shí)別是種新型的身份驗(yàn)證方式,包括對(duì)圖像里人臉進(jìn)行識(shí)別,與已有信息庫(kù)中人臉比對(duì)匹配的過(guò)程。隨著對(duì)人臉識(shí)別技術(shù)的研究和發(fā)展,很多研究者不斷提出改進(jìn)的方法,但如何在不同的場(chǎng)景下提高人臉識(shí)別率是其核心的方法。
通過(guò)監(jiān)控識(shí)別人臉是其發(fā)展的重要方面以后也將進(jìn)一步發(fā)展。為減少視頻數(shù)據(jù)的空間占比,目前市場(chǎng)大部分采用低分辨率的存儲(chǔ)方式來(lái)存放視頻數(shù)據(jù),這對(duì)人臉的識(shí)別率帶來(lái)了極大的影響[2],而通過(guò)人工識(shí)別人臉的工作因客觀條件有限極易出錯(cuò),因此如何利用計(jì)算機(jī)視覺(jué)技術(shù)準(zhǔn)確、快速、低成本[3]的完成人臉識(shí)別工作解決人臉識(shí)別問(wèn)題一直以來(lái)備受關(guān)注。與此同時(shí),因犯罪分子冒充別人身份而未能識(shí)別也會(huì)引發(fā)一系列的安全問(wèn)題,比如2002年9月11日,美國(guó)遇到恐怖襲擊至雙子塔崩塌事件(又稱9.11事件),造成了大量人員傷亡。所以,人臉識(shí)別在公共安全的防御上具有很大意義。
人臉識(shí)別最早是法國(guó)人Galton提出的,以人臉的幾何特征進(jìn)行識(shí)別,但由于人臉是多態(tài)非固定的,無(wú)法精確人臉形態(tài)模型;接著人臉識(shí)別開(kāi)始出現(xiàn)基于模板匹配的方法[4],它有著一定穩(wěn)固的識(shí)別效果,但因?yàn)槿四槻皇瞧矫娴模哂辛Ⅲw性,且呈現(xiàn)多面即多維性,具體識(shí)別時(shí)會(huì)出現(xiàn)識(shí)別時(shí)間過(guò)長(zhǎng)耗費(fèi)內(nèi)存空間的情況。上世紀(jì)的最后一個(gè)十年,人臉識(shí)別方法迎來(lái)了百花齊放的蓬勃發(fā)展至高峰的時(shí)期,出現(xiàn)了基于空間特征、基于模型的人臉識(shí)別方法等等,這些方法避開(kāi)了人臉維度復(fù)雜特征多樣的問(wèn)題,可以減少表情、噪聲的影響,但其實(shí)現(xiàn)的復(fù)雜度較高。新世紀(jì)后,人臉識(shí)別研究的方向則傾向于關(guān)注于如何減少外界環(huán)境的影響,出現(xiàn)了基于向量機(jī)、3D模型等學(xué)習(xí)理論的人臉識(shí)別方法。
全球范圍內(nèi)現(xiàn)已有上百個(gè)國(guó)家的近五百個(gè)政府、機(jī)構(gòu)應(yīng)用了生物識(shí)別技術(shù)及產(chǎn)品。歐美等國(guó)已開(kāi)始涉足通過(guò)系統(tǒng)的開(kāi)發(fā)完成偵查人臉識(shí)別的應(yīng)用。9.11后,美國(guó)著手三大項(xiàng)目應(yīng)對(duì)公共安全問(wèn)題,即國(guó)防生物識(shí)別項(xiàng)目、聯(lián)邦調(diào)查局(FBI)的“下一代身份識(shí)別系統(tǒng)”項(xiàng)目(NGI)、多國(guó)的簽證系統(tǒng)(U-VIS)。其中FBI的NGI項(xiàng)目重點(diǎn)研發(fā)的是新一代身份識(shí)別系統(tǒng),是將公共視頻監(jiān)控中捕捉的照片與FBI數(shù)據(jù)庫(kù)中的罪犯圖片或在FBI公共圖片庫(kù)的照片來(lái)匹配,減小犯罪活動(dòng)發(fā)生的概率。2012年,印度完成的“國(guó)民身份證項(xiàng)目”,建設(shè)了全球最大規(guī)模的生物特征識(shí)別數(shù)據(jù)庫(kù),采集了印度超過(guò)12億人的包括十指指紋、人臉和虹膜3種生物特征。新世紀(jì)以來(lái),我國(guó)每年都會(huì)組織“中國(guó)生物識(shí)別學(xué)術(shù)會(huì)議”,以促進(jìn)人臉識(shí)別技術(shù)的發(fā)展??蒲蟹矫妫禾K光大教授帶領(lǐng)清華大學(xué)課題小組研發(fā)成人臉識(shí)別系統(tǒng),在較遠(yuǎn)的距離(2米)內(nèi)完成身份證上圖像的人臉識(shí)別,而電子系教授丁曉青也研發(fā)成功了THfaceID系統(tǒng)進(jìn)行人臉識(shí)別;中科院李子青教授開(kāi)發(fā)的“中科奧森”近紅外人臉識(shí)別系統(tǒng)在北京奧運(yùn)會(huì)、上海世博會(huì)和邊境檢查以及銀行里都加以應(yīng)用,同時(shí)還開(kāi)發(fā)具備人臉識(shí)別的功能的數(shù)碼產(chǎn)品都及手機(jī)上的人臉識(shí)別軟件,還有聯(lián)想等多數(shù)主流筆記本電腦推出的具有人臉識(shí)別功能的筆記本等;中國(guó)科學(xué)院計(jì)算所高文教授帶領(lǐng)的團(tuán)隊(duì)開(kāi)發(fā)了GodEye系統(tǒng);中國(guó)科技大學(xué)莊鎮(zhèn)泉教授帶領(lǐng)的團(tuán)隊(duì)研究并實(shí)現(xiàn)了人臉考勤系統(tǒng)的應(yīng)用。還有20世紀(jì)初,由中科院計(jì)算所牽頭,聯(lián)合了銀晨科技實(shí)驗(yàn)室籌建了人臉識(shí)別圖片庫(kù),這是全球范圍內(nèi)最大的亞洲人臉圖像數(shù)據(jù)庫(kù)。 人臉識(shí)別在國(guó)內(nèi)已經(jīng)取得一定的成績(jī)并在繼續(xù)的研究應(yīng)用中,這也為我國(guó)二代證數(shù)據(jù)庫(kù)以及監(jiān)控系統(tǒng)普及的起了推動(dòng)作用[5]。
目前,計(jì)算機(jī)圖像領(lǐng)域比較有影響力的刊物(PAMI、IJCV、CVIU、PR)和國(guó)際會(huì)議(ICCV、CVPR、ECCV)等為智能視頻圖像領(lǐng)域的研究工作者提供了廣闊的交流平臺(tái)來(lái)展現(xiàn)自己最新的理論研究成果[6]。人臉識(shí)別是將運(yùn)動(dòng)目標(biāo)檢測(cè)、圖像預(yù)處理、特征提取、降維、分類等多領(lǐng)域的技術(shù)知識(shí)進(jìn)行了融合,如圖1所示是目前較常采用的人臉識(shí)別基本思路。
圖1 人臉識(shí)別基本思路流程
圖1中運(yùn)動(dòng)目標(biāo)檢測(cè)、人臉識(shí)別及特征提取、降維是識(shí)別流程中的關(guān)鍵部分。如圖2所示,本文針對(duì)以上過(guò)程中的多種技術(shù),進(jìn)行分類,并對(duì)各種分類下的人臉識(shí)別方法進(jìn)行逐一歸納分析。
圖2 人臉識(shí)別分類
最初人臉識(shí)別研究有兩個(gè)方向:一是幾何特征法,即鎖定人臉關(guān)鍵部位位置的二維結(jié)構(gòu)、之間距離及比值、特征向量、歐式距離、曲率、角度等參數(shù);二是模板匹配法,主要用計(jì)算模板和圖象灰度的相關(guān)聯(lián)性來(lái)達(dá)到識(shí)別功能[7]。
此種方法基本思想是:人臉的差異來(lái)源于人臉如眼睛、鼻子等各器官的不同,通過(guò)對(duì)它們進(jìn)行數(shù)學(xué)描述,作為人臉識(shí)別的特征,如描述成各部件的寬度、弧度、垂直距離、形狀等等,進(jìn)行識(shí)別。但此種方法識(shí)別前需進(jìn)行調(diào)整統(tǒng)一下標(biāo)準(zhǔn),以防出現(xiàn)角度、方向及不同比例影響下的識(shí)別誤差。
Kelly, Kanade和Bledsoe將人臉?lè)湃?維空間來(lái)進(jìn)行識(shí)別,具體是采用人臉重要特征點(diǎn)之間的距離這一幾何特性的模型進(jìn)行分類;Goldstein等將人臉重要特征標(biāo)定在二維人臉上,用矢量來(lái)表征人臉特性;此外,Kaya等人用計(jì)算嘴唇和鼻子等長(zhǎng)度的方法來(lái)表達(dá)人臉;Kanade在其論文中設(shè)計(jì)人臉檢測(cè)系統(tǒng),推進(jìn)了人臉半自動(dòng)化辨別,用積分投影來(lái)計(jì)算人臉特征的參數(shù);Baron采用掩模的方法,通過(guò)描繪人臉中各部件器官來(lái)表達(dá)整張人臉。
盡管這種幾何特征來(lái)判別人臉的方法盡可能去描述各器官的數(shù)學(xué)特性,減少誤差,最后從識(shí)別效果看,這種方法仍然不能達(dá)到穩(wěn)固的識(shí)別率,且識(shí)別率不高。
模板匹配方法是利用計(jì)算模板和圖象灰度的相關(guān)聯(lián)性來(lái)達(dá)到識(shí)別功能,增進(jìn)了識(shí)別技術(shù)的穩(wěn)定性。具體是先給定多樣的參照模板,再將目標(biāo)圖像與參照模板進(jìn)行比較,比較相似度,依據(jù)其大小進(jìn)行匹配檢測(cè)。
梁提出的單人臉檢測(cè)方法是用含雙眼和人臉長(zhǎng)寬比例值不同的多個(gè)模板來(lái)匹配實(shí)現(xiàn)的[8]。第一步,用雙眼模板大致選取識(shí)別區(qū)域;第二步,用各種長(zhǎng)寬比的人臉模板區(qū)分識(shí)別出的圖像中的有效區(qū)域(人臉);第三步,用人臉邊緣特征相關(guān)技術(shù)驗(yàn)證識(shí)別是否有效。
多模板匹配識(shí)別人臉的方法既能定位,又能檢測(cè)人臉,實(shí)現(xiàn)起來(lái)容易些,但在人臉尺度變化和姿勢(shì)變化時(shí),較難處理。
繼上述兩種早期傳統(tǒng)的研究方法后,人臉識(shí)別技術(shù)經(jīng)歷了百家爭(zhēng)鳴的局面,各種方法不斷的改進(jìn)再改進(jìn),也逐漸走入了自動(dòng)化、現(xiàn)代化的潮流,我們繼續(xù)來(lái)介紹:
子空間方法的思路是通過(guò)空間變換將采集到的圖映射到一子空間,這樣能增加圖像分布的緊湊性,減少計(jì)算量,依據(jù)對(duì)應(yīng)變化關(guān)系分成線性子空間和非線性子空間。
利用線性子空間法常用的有:主成分分析法(PCA)、線性判別(LDA)法、獨(dú)立成分分析法(ICA)、 特征臉?lè)?Eigenface)、Fisher 線性分類法等。
主成分分析方法(PCA)是種經(jīng)典的方法,在人臉識(shí)別的特征提取和特征降維這兩個(gè)步驟環(huán)節(jié)都可以采用。其原理是通過(guò)K-L(Karhunen-Loeve)變換法將圖像多維信息矩陣變換成特征空間正交基,而對(duì)應(yīng)于最大特征值的特征向量叫做主成分 (Principal Components),因而得名為“主成分分析法”[9]。K-L(Karhunen-Loeve)變換是去掉相關(guān)量的正交變換,因此PCA方法得到的子空間就是一個(gè)最優(yōu)的低維空間,能以最少的向量表征圖像特征,雖然丟失了些許信息,但不影響圖像質(zhì)量。
20世紀(jì)90年代初麻省理工學(xué)院的Pentland和Turk 將PCA方法應(yīng)用于人臉識(shí)別,開(kāi)創(chuàng)性地提出了特征臉?lè)?Eigenface)。把人臉圖像看成一個(gè)N行N列的隨機(jī)向量,以行來(lái)堆疊成一個(gè)N行1列的向量,與同維度的均值向量做差,然后進(jìn)行K-L變換,最終得到一組正交基。所取的空間基與人臉維數(shù)相同,且相似于人臉形狀,將其稱為特征臉(Eigenface)。這樣就把需要識(shí)別的人臉在由“特征臉”組成的子空間里投影,且所投影的維數(shù)比原圖像減少很多,實(shí)現(xiàn)了降維。用PCA進(jìn)行的人臉識(shí)別又被稱為特征臉?lè)?。此后的學(xué)者在人臉識(shí)別的研究上提出了更多方法,但都有著Eigenface的影子。目前,人臉識(shí)別中有檢測(cè)效能的算法是Eigenface和Normalized Correlation結(jié)合的。Belhumeur等提出的fisherface方法,是在降維時(shí)應(yīng)用PCA又結(jié)合了線性判別分析(LDA),得到最大的類間(sb)離散度和最小的類內(nèi)(sw)離散度[10],目前為止,此算法仍是人臉識(shí)別中的主流方法。
線性判別分析LDA原理是在一個(gè)方向上進(jìn)行投影,使待識(shí)別人臉圖像投影此方向后,得到最小sw和最大sb。但LDA性能優(yōu)于PCA只在訓(xùn)練集樣本數(shù)較多時(shí)才會(huì)出現(xiàn)。
獨(dú)立分量分析(ICA)是求出圖像的一階、二階至高階信息,通過(guò)線性變換,其中分離獨(dú)立的正交基,以表達(dá)圖像。實(shí)驗(yàn)證明,人在識(shí)別物體時(shí)是借助圖像的相位譜信息,高階統(tǒng)計(jì)量具有重要的作用.PCA方法是相關(guān)圖像的二階統(tǒng)計(jì)量, ICA有效利用了信號(hào)的二階以上信息量, 是PCA方法另一種形式,但比PCA有著更廣闊的應(yīng)用。
基于線性子空間的人臉識(shí)別,實(shí)質(zhì)上也把人臉圖像中的情緒、噪聲等影響做了線性簡(jiǎn)單的描述,因此不能很詳細(xì)地去表達(dá)細(xì)節(jié)。非線性子空間方法是把圖像數(shù)據(jù)分開(kāi)處理,對(duì)線性不可分的部分,通過(guò)非線性方式映射到隱性的高維特征空間,使此空間中的圖像線性或接近線性,繼續(xù)在此空間里把圖像用線性方式處理,完成了原空間意義上的非線性的處理,達(dá)到人臉判別的目的。這里的高維空間又稱為核空間,以上即是用核方法來(lái)達(dá)到人臉辨別的目的。此過(guò)程在計(jì)算上只須用高維因變量表達(dá)兩兩向量在高維空間的內(nèi)積,不用明確非線性變換。 有核主成分分析法(KPCA)、核Fisher判決分析法(KFDA )、核線性判別分析法(KLDA )、流行學(xué)習(xí)((Manifold learning)、局部線性嵌入(LLE) 和等距映射(ISOMAP)、保局投影法(LPP )等。
人臉識(shí)別方法還有基于空間特征的方法?;诳臻g特征法依據(jù)空間提取,主要分為兩個(gè),分別是基于整體和基于局部。
基于整體的研究方法是使用人臉的整個(gè)屬性,即提取特征時(shí)除了提取人臉圖像的各器官特征還取樣各器官之間的相對(duì)位置等整體屬性。方法有特征臉(Eigenface)方法、 Fisherface方法、直接LDA(線性判別分析)方法、神經(jīng)網(wǎng)絡(luò)法RBF及隱馬爾可夫模型(Hidden RMarkov Mode)方法。
特征臉(Eigenface)方法在本文之前論述的線性子空間法中進(jìn)行過(guò)歸類,此處也可歸為基于整體的空間特征法。同理于特征臉(Eigenface)方法,F(xiàn)isherface方法也如此,這并不奇怪,它們應(yīng)用了線性子空間的原理,也符合基于整體的空間特征方法原理。
隱馬爾可夫模型(Hidden RMarkov Mode)法是由Samaria最早用于人臉辨別的,隨后Li 等提出另一種自適應(yīng)的HMM,它的狀態(tài)數(shù)因變量于信號(hào)源,從而更加細(xì)致地反映模式信息。Huang等為有效處理人臉遮擋問(wèn)題,先獨(dú)立建立HMM在由人臉五官劃分的五個(gè)子區(qū)域中,再將這些單獨(dú)的HMM借助語(yǔ)法結(jié)構(gòu)重組一個(gè)整體的人臉HMM,取得不錯(cuò)的效果。HMM構(gòu)建的基礎(chǔ)是統(tǒng)計(jì)模型,不用考慮和提取人臉復(fù)雜圖像,能夠穩(wěn)定表達(dá)情緒姿態(tài)及光照影響,不足之處是較為復(fù)雜[11]。
基于局部的研究法主要是采用人臉的局部特征,常用局部人臉各部件特征達(dá)到辨識(shí)的目的,具體有彈性圖匹配EGM(Elastic Graph Matching)方法、局部特征分析LFA(LocalFeature Analysis)方法、動(dòng)態(tài)鏈接結(jié)構(gòu)DLA(Dynamic Link Architecture)方法等。
彈性圖匹配EGM算法[12],即Elastic Graph Matching。這法的原理是將人臉的一些特征點(diǎn)以頂點(diǎn)的形式通過(guò)一張屬性圖標(biāo)來(lái)標(biāo)識(shí),這些特征點(diǎn)表達(dá)了面部的重要特性,具有多方向局部矢量性和多分辨率,稱之為Gabor特征[13]。正是這一特征通過(guò)各個(gè)特征點(diǎn)的幾何關(guān)系表征著圖像的邊緣特性。EGM通過(guò)特殊搜索定位已設(shè)定的人臉重要特性點(diǎn),提取它們的Gabor特性,傳輸至屬性圖中,最后與已有的圖片庫(kù)里的人臉屬性圖進(jìn)行識(shí)別判斷,辨識(shí)人臉。此方法技能建模人臉的局部特征又能把握全局性的特征,是種比較有效的人臉識(shí)別算法。具體包括基于小波變換、Gabor小波變換、LBP局部二值模式(Local Binary Patterns, LBP)算子和LTP算子、HOG特征、SIFT和SURF等。
后期又出現(xiàn)對(duì)此方法改進(jìn)的LFA(Local Feature Analysis),即局部特性分析法的簡(jiǎn)稱,此種方式是由Atick等從統(tǒng)計(jì)學(xué)表達(dá)提出的,它能在繼全局的PCA降維之后提取出局部特性,從這個(gè)角度說(shuō),LFA要優(yōu)于單純的PCA分析法,彌補(bǔ)了它不能保留局部特征結(jié)構(gòu)的缺點(diǎn)[14]。因而LFA在人臉識(shí)別中效果更好,且已在商用人臉識(shí)別系統(tǒng)中應(yīng)用。
基于統(tǒng)計(jì)的人臉識(shí)別方法是用統(tǒng)計(jì)原理找出圖像的疑似人臉特征,建設(shè)機(jī)器學(xué)習(xí)分類器,通過(guò)訓(xùn)練疑似人臉樣本,判斷。使用統(tǒng)計(jì)來(lái)進(jìn)行人臉辨別的方法實(shí)際融合了機(jī)器學(xué)習(xí)和統(tǒng)計(jì)的算法將人臉識(shí)別轉(zhuǎn)型成統(tǒng)計(jì)模式分類問(wèn)題。
除了以上已經(jīng)介紹過(guò)的子空間法、局部特征分析方法,使用統(tǒng)計(jì)原理的方法還包括有神經(jīng)網(wǎng)絡(luò)法(ANN)和支持向量機(jī)法(SVM)、貝葉斯方法(Bayes)以及Boosting方法。
ANN是仿效生物神經(jīng)系統(tǒng)傳遞信息的原理將人臉區(qū)域分為多個(gè)部分[15],每個(gè)區(qū)域相當(dāng)于信息傳導(dǎo)過(guò)程中的一個(gè)單位(即神經(jīng)元),采用多級(jí)輸出進(jìn)行判斷完成人臉檢測(cè),歷經(jīng)了認(rèn)知神經(jīng)網(wǎng)絡(luò)、主動(dòng)神經(jīng)網(wǎng)絡(luò)、感知--理解-決策神經(jīng)網(wǎng)絡(luò)、復(fù)雜神經(jīng)網(wǎng)絡(luò)、深度神經(jīng)網(wǎng)絡(luò)及大數(shù)據(jù)深度學(xué)習(xí)的發(fā)展階段,讓人臉識(shí)別速度和效率。
支持向量機(jī)(SupportVector Machines),即S VMs,它既基于學(xué)習(xí)也基于統(tǒng)計(jì)。SVMs是個(gè)以最小化結(jié)果風(fēng)險(xiǎn)取得的能起到分類作用的超平面,所以它實(shí)質(zhì)上是分類器,最終分類常見(jiàn)的有兩種:類內(nèi)差法(sw)和類間差法(sb)[16]。
三維可變模型3D Morphable Model Jones是結(jié)合了圖像analysis(分析) 和 synthesis(合成)技術(shù)在多姿態(tài)多噪聲下的人臉識(shí)別方法,這種方法并非將圖像從三維轉(zhuǎn)化成二維,而是直接對(duì)人臉建模,通過(guò)直接獲取如皺紋、器官立體模型等三維信息,從而排除了噪聲和姿態(tài)等因素的影響,提高識(shí)別率。
基于Boosting的學(xué)習(xí)方法是弱分類器的技術(shù),由Jones和Vlola的,是開(kāi)創(chuàng)的,它以Adaboost表征人臉特性,再進(jìn)行辨識(shí)。后期有很多改進(jìn)的算法,比如AdaGabo方法, 即將Adaboost結(jié)合LBh算法等,能在人臉圖片庫(kù)上取得高成效。
人臉識(shí)別是生物識(shí)別技術(shù)的一種,在計(jì)算機(jī)視覺(jué)領(lǐng)域一直是比較熱門的研究話題,在人工智能大發(fā)展的時(shí)代背景中,更為突出。本文針對(duì)該領(lǐng)域進(jìn)行了詳細(xì)的闡述和說(shuō)明,將人臉識(shí)別分成兩類,一類是傳統(tǒng)的方法,有幾何特征和模板匹配的方法等。另一類是近現(xiàn)代基于交互和自動(dòng)方法,該類主要包含了基于子空間、基于空間特征、基于統(tǒng)計(jì)和基于學(xué)習(xí)人臉識(shí)別方法等,對(duì)人臉識(shí)別的方法不再局限于靜態(tài)時(shí)能提取識(shí)別人臉特征,考慮如何在有效識(shí)別人臉特征時(shí),簡(jiǎn)化運(yùn)算量,對(duì)邊緣圖像的辨別提高,對(duì)識(shí)別運(yùn)算進(jìn)行自動(dòng)、多樣本的識(shí)別,學(xué)習(xí)以提高識(shí)別率的問(wèn)題。希望本文對(duì)人臉識(shí)別相關(guān)技術(shù)的介紹,能夠?qū)υ擃I(lǐng)域的相關(guān)研究工作者提供一定的幫助。