文/王同磊
在人工神經(jīng)網(wǎng)絡(luò)這一領(lǐng)域的研究過(guò)程中,衍生出了深度學(xué)習(xí)這一概念。例如,多層感知器,也就是含多隱層的感知器,這一類(lèi)就屬于深度的學(xué)習(xí)結(jié)構(gòu)。深度學(xué)習(xí)是如何表示的呢?通常而言,是通過(guò)各種組合,將低層特征形成某種抽象特征,或者是屬性類(lèi)別等,通過(guò)這些過(guò)程,將發(fā)現(xiàn)的數(shù)據(jù)以分布式特征進(jìn)行表示。
2006年,Hinton等人首次將深度學(xué)習(xí)這一概念提出。他們基于(DBN),也就是深信度網(wǎng)這一概念,提出了一種訓(xùn)練算法,稱(chēng)為非監(jiān)督貪心算法。這一算法為解決與深層結(jié)構(gòu)等內(nèi)容有關(guān)的優(yōu)化類(lèi)難題帶來(lái)可能性。并且據(jù)此又提出了自動(dòng)編碼器這種深層結(jié)構(gòu)。另外,由其他研究學(xué)者提出了例證,卷積神經(jīng)這種網(wǎng)絡(luò)就是例證,它是首個(gè)真正意義上的正多層類(lèi)型的學(xué)習(xí)算法。具體內(nèi)容是依據(jù)空間的這種相對(duì)關(guān)系,從而減少參數(shù),用以提高神經(jīng)的訓(xùn)練性能。
人臉識(shí)別這一技術(shù),主流觀點(diǎn)認(rèn)為,分兩部分:一為前端人臉活檢。這一技術(shù)支持iOS和安卓等程序平臺(tái)。具體過(guò)程是:用戶(hù)通過(guò)點(diǎn)頭或搖頭,以及眨眼等各種動(dòng)作進(jìn)行智能檢測(cè),目的是確定機(jī)器設(shè)備前是真人人臉。二為基于后臺(tái)功能的人臉識(shí)別。這種技術(shù)以第一部分為基礎(chǔ),在其基礎(chǔ)之上,獲取到全臉圖像之后,經(jīng)過(guò)掃描,識(shí)別用戶(hù)的身份證,身份證頭像與前端活檢人像對(duì)比而后做出判斷,得出是否是同一人的結(jié)論。
圖1
活體檢測(cè),通俗意義上理解,就是判斷人臉活檢這一過(guò)程中是真人臉還是靜態(tài)假臉,比如照片打印的人臉,電腦中的人臉,甚至說(shuō)是面具等;人臉活檢這項(xiàng)技術(shù)目前我們可以看到,經(jīng)常應(yīng)用在iOS、安卓等系統(tǒng)的移動(dòng)平臺(tái)中,比如APP等。同時(shí),由于這項(xiàng)對(duì)比技術(shù)運(yùn)算量超級(jí)大,所以必須使用大量服務(wù)器支持,常見(jiàn)的是win平臺(tái),國(guó)外也會(huì)使用Linux等平臺(tái)。
活檢的應(yīng)用領(lǐng)域非常廣泛,我們熟知的應(yīng)用場(chǎng)景有:銀行金融、各種支付以及安保門(mén)禁等?;铙w檢測(cè)通常是嵌套程序模塊使用。將人臉識(shí)別與活檢二者結(jié)合使用,成功的案例很多,比如實(shí)名認(rèn)證等領(lǐng)域,避免了各種漏洞與攻擊。
實(shí)際上就是分類(lèi),用計(jì)算機(jī)語(yǔ)言說(shuō)是1和0,也就是真和假,還有一種是多分類(lèi)。前面提到的照片攻擊、面具攻擊,還有真人等。
首先我們從基礎(chǔ)開(kāi)始說(shuō)起,首先定義一個(gè)神經(jīng)網(wǎng)絡(luò)。
在圖1中需要我們最先了解的是ωljk。k,位于右下角,它代表第k個(gè)神經(jīng)元位于L-L層;L, 位于右上角,代表層數(shù),即“輸入”與權(quán)重w這一項(xiàng)結(jié)合;j,位于右下角的,代表第j個(gè)神經(jīng)元位于L層。
這么寫(xiě)看起來(lái)好像比較奇怪,因?yàn)橹庇X(jué)上說(shuō),k在L之前,才是更符合我們認(rèn)知的理解方式。但是后面我們可以看到,在這種處理方法之后,我們可以得到一種更簡(jiǎn)潔的處理式子。比較而言,這種前后稍微顛倒下,也無(wú)所謂了,適應(yīng)下就好了。
如圖2所示,除了權(quán)重w之外,我們還有 b和 a。
b是我們的偏差,a是我們的輸入向量經(jīng)過(guò)激活函數(shù)之后的結(jié)果,也就是α=δ(z)。
在表現(xiàn)形式上,b跟a有這類(lèi)似的特點(diǎn):右上角的值是所在的層數(shù);右下角數(shù)值,代表所在的神經(jīng)元位置。據(jù)此,結(jié)合之前的公式,我們可以得出以下算式結(jié)論:
這個(gè)式子看起來(lái)好像復(fù)雜,但實(shí)際上很簡(jiǎn)單,而且完全描述了我們剛才說(shuō)的神經(jīng)網(wǎng)絡(luò)的問(wèn)題,當(dāng)然,這里的αlj是其中的一個(gè)神經(jīng)元,它位于第L層的第j個(gè)。
這個(gè)神經(jīng)元的得來(lái),就是從前一層L層的所有神經(jīng)元,與與之對(duì)應(yīng)的權(quán)重結(jié)合之后,所有的相加,經(jīng)過(guò)激活函數(shù)得來(lái)的。
在矩陣中,我們要求的某個(gè)值,就是行與列對(duì)應(yīng)位置的值相乘之后相加得到的。可以看出,k即對(duì)應(yīng)的位置。例如,我們有公式
圖2
這個(gè)公式就是典型的矩陣相乘求值的公示,那么我們轉(zhuǎn)成矩陣相乘:
li=minj
可以把αlj理解成第l行第j列的值,那么我們采用矩陣相乘的方法來(lái)計(jì)算,就得到了:
αl=δ(ωlαl-1+bl)
下面,我們來(lái)總結(jié)一下,可以看到簡(jiǎn)化的算式。并且很顯然,還能得出l與k顛倒的優(yōu)點(diǎn)。為了更方便,我們?cè)O(shè)定:
于是,我們很輕松的得出αl=σ(zl)接下來(lái),該backpropagation了,為了計(jì)算這一項(xiàng),我們可以進(jìn)行兩個(gè)假設(shè)。第一,代價(jià)方程寫(xiě)為:
這里面,x代表輸入樣本點(diǎn),n代表樣本數(shù),y(x)代表輸出值,而αL(x)代表的輸出值是神經(jīng)網(wǎng)絡(luò)。其中L代表的就是層數(shù),神經(jīng)網(wǎng)絡(luò)的,很明顯也是最后一層。
第一個(gè)將 remote pluse 應(yīng)用到活體檢測(cè)中,多幀輸入
(交代下背景:在CVPR2014,Xiaobai Li已經(jīng)提出了從人臉視頻里測(cè)量心率的方法)算法流程:
(1)通過(guò) pluse 在頻域上分布不同先區(qū)分 活體 or 照片攻擊 (因?yàn)檎掌械娜四樚崛〉男穆史植疾煌?/p>
(2)若判別1結(jié)果是活體,再 cascade一個(gè) 紋理LBP 分類(lèi)器,來(lái)區(qū)分 活體 or 屏幕攻擊(因?yàn)槠聊灰曨l中人臉心率分布與活體相近),如圖3所示。
Pros: 通常意義上,按照學(xué)術(shù)界的觀點(diǎn),引入了新模態(tài)——心理信號(hào),這是很大意義上的進(jìn)步;從另一個(gè)角度而言,也就是工業(yè)發(fā)展的領(lǐng)域,加入做不到一步到位,還可以通過(guò)Cascade這一方式進(jìn)行部署,這也是進(jìn)步的。
Cons: 因?yàn)閞emote heart rate這一算法有它的局限性,所以結(jié)果來(lái)看,pulse-feature存在判別能力不足的弱點(diǎn),加上顯示器里video的視頻中,人臉的pulse-feature方面是不是還存在比較細(xì)微的差別,這一方面還不確定,需要更進(jìn)一步的驗(yàn)證。
正面人臉圖像檢測(cè)方法
圖4
矩陣 Yi∈R64×64為第 i個(gè)個(gè)體的人臉圖像矩陣,Di 為第i個(gè)個(gè)體所有人臉圖像集合,Yi∈Di。正面人臉檢測(cè)公式為:
我們通過(guò)訓(xùn)練深度神經(jīng)網(wǎng)絡(luò)來(lái)進(jìn)行人臉重建。loss函數(shù)為:
I代表第i個(gè),k代表i中第k張。X^{0}代表的是訓(xùn)練圖像,Y代表的是目標(biāo)圖像。
深度的神經(jīng)網(wǎng)絡(luò),它包含三層。max pooling是與前兩層相接;全連接層是與第三層相接。與傳統(tǒng)統(tǒng)卷積神經(jīng)網(wǎng)絡(luò)不同,我們的fi lters不共享權(quán)重(我們認(rèn)為人臉的不同區(qū)域存在不同類(lèi)型的特征)。以下是第l層的卷積層算式:經(jīng)過(guò)這些計(jì)算,我們終于可以得出人像圖了。下面就是經(jīng)過(guò)訓(xùn)練之后,生成的canonical view:如圖4所示。
目前的研究水平,要想達(dá)到人臉識(shí)別和深度學(xué)習(xí)的全部結(jié)合,可以說(shuō)路漫漫其修遠(yuǎn)兮,還有很多探索空間。比如說(shuō)雙胞胎識(shí)別,比如說(shuō)妝前和妝后的識(shí)別,要達(dá)到一定的準(zhǔn)確度,還存在一定難度。相信不久的將來(lái)人臉識(shí)別系統(tǒng)將在速度、可靠性、穩(wěn)定性,成本取得更好的。從而能夠?yàn)槿祟?lèi)的進(jìn)步貢獻(xiàn)力量。