顧新書
導(dǎo)語:為了識別一張新的人臉,需要從該人臉中找到基準(zhǔn)點(diǎn),提取出一個(gè)人臉圖。
正文:人臉識別技術(shù)經(jīng)歷了近四十年的發(fā)展,在近年來逐步涌現(xiàn)出了一批可以投入實(shí)際應(yīng)用的成果。如谷歌(微博)眼鏡中的身份識別、智能手機(jī)上的人臉解鎖等功能正漸漸影響著我們的生活,而指定人臉識別等應(yīng)用更是早早地進(jìn)入了安防領(lǐng)域的最前線。那么,計(jì)算機(jī)到底是怎么識別人臉的呢?
在這項(xiàng)技術(shù)的發(fā)展過程中曾經(jīng)出現(xiàn)過大量的識別算法。這些算法的涉及面非常廣泛,包括模式識別、圖像處理、計(jì)算機(jī)視覺、人工智能、統(tǒng)計(jì)學(xué)習(xí)、神經(jīng)網(wǎng)絡(luò)、小波分析、子空間理論和流形學(xué)習(xí)等眾多學(xué)科。但歸根結(jié)底,很多算法都是以“特征臉方法”為基礎(chǔ)展開的。
這個(gè)方法主要是利用主分量分析,對人臉進(jìn)行降維和提取特征。它實(shí)際上相當(dāng)于把所有的人臉向量化,數(shù)字化,然后從參考用的那些人臉數(shù)據(jù)(稱為訓(xùn)練集)中找出與當(dāng)前要識別的人臉數(shù)據(jù)對應(yīng)的幾個(gè)特征值,構(gòu)成一組特征向量基,以達(dá)到表征原數(shù)據(jù)的目的。因?yàn)橛芍鞣至糠治鎏崛〕鰜淼奶卣飨蛄吭诜祷爻蓤D像時(shí),看上去仍像人臉,所以這些特征向量也被稱為“特征臉”。
從目前得到的許多資料可以看出,任何一幅人臉圖象減去平均人臉后都可投影到該子空間,得到一組權(quán)值向量。該方法實(shí)際上是計(jì)算了此向量和訓(xùn)練集中每個(gè)人的權(quán)值向量之間的歐式距離,取最小距離所對應(yīng)的人臉圖像的身份作為測試人臉圖像的身份。打個(gè)比方,這就像是警察局里指認(rèn)嫌疑人時(shí)所用的“拼臉”方法,它以一個(gè)基礎(chǔ)臉型為底,將合適的眼睛、眉毛等五官放上去,最終組成一個(gè)與嫌疑人最像的人臉圖。計(jì)算機(jī)所做的事情也大致如此,只是它的“眼睛”、“眉毛”等五官更加抽象。
在此的基礎(chǔ)上,又開發(fā)出了“彈性圖匹配”的方法。它把所有人臉圖像看做具有相似的拓?fù)浣Y(jié)構(gòu),不注重角度,長度等量化的性質(zhì),而側(cè)重于變換后圖形的不變性質(zhì)。所以它還有一個(gè)很形象的名稱,叫“橡皮泥幾何”。在這種方法中,所有的人臉可以表示成類似的拓?fù)鋱D,圖中的節(jié)點(diǎn)是一些基準(zhǔn)點(diǎn)(如眼睛,鼻尖等),圖中的邊則是這些基準(zhǔn)點(diǎn)之間的連線。
為了識別一張新的人臉,需要從該人臉中找到基準(zhǔn)點(diǎn),提取出一個(gè)人臉圖,令這幅圖和現(xiàn)有的人臉束圖之間的相似度最大。經(jīng)過彈性圖匹配后,新的人臉束圖將被提取出來,用它作為特征進(jìn)行識別,并計(jì)算測試人臉和現(xiàn)有人臉束圖之間的所有相似度,相似度最大的人臉的身份即為測試人臉的身份。
這個(gè)方法在彈性匹配的過程中,網(wǎng)格的形狀會隨著特征點(diǎn)的搜索而不斷變化,因此對姿態(tài)的變化也具有一定的自適應(yīng)性。但它在搜索過程中以代價(jià)函數(shù)優(yōu)化的計(jì)算量巨大,識別速度較慢。
以上都是靜態(tài)圖像的情況。在視頻監(jiān)控、信息安全和出入控制等應(yīng)用中,基于視頻的人臉識別是一個(gè)非常重要的問題,也是目前人臉識別的熱點(diǎn)和難點(diǎn)。一個(gè)典型的基于視頻靜態(tài)圖像的人臉識別系統(tǒng)一般都是自動(dòng)檢測人臉區(qū)域,從視頻中提取特征,最后,如果人臉存在則識別出人臉的身份。
現(xiàn)在,在上述方法的基礎(chǔ)上加入了人臉跟蹤方法。在這類系統(tǒng)中,通過利用姿態(tài)和從視頻中估計(jì)到的深度信息合成一個(gè)虛擬的正面人臉。這個(gè)階段的另外一個(gè)能提高識別率的方法是利用視頻中充裕的幀圖像,對每一幀圖像進(jìn)行識別。這等于是把大量的靜態(tài)識別結(jié)果堆疊起來,然后使用“投票”機(jī)制選出最受支持的結(jié)果。
近兩年,視頻人臉識別技術(shù)有了進(jìn)一步的發(fā)展,這個(gè)階段的特點(diǎn)是同時(shí)采用空間信息(在每幀中)和時(shí)間信息(比如人臉特征的運(yùn)動(dòng)軌跡),做出更準(zhǔn)確的判斷。和前述的“投票”的不同之處在于,此類方法可以在時(shí)間和空間的聯(lián)合空間中描述人臉和識別人臉,因此更加精準(zhǔn)。
可以想象,在不遠(yuǎn)的未來,人臉識別技術(shù)會悄無聲息地融入我們的生活。比如參加宴會時(shí),我們要它幫助識別陌生人,以更好地展開交際。整理資料時(shí),它又可以幫助我們用最快的速度將影像文件按人歸檔。將這些細(xì)小的變化累加起來,將讓我們的生活更加便捷。