李 宇,丁文倩,金立左,潘 泓
(東南大學自動化學院,江蘇 南京 210096)
人臉是一個豐富的信息來源,能提供諸如身份、年齡、性別和種族等信息。自動面部性別識別有許多潛在的應用情景,如生物識別認證、視頻監(jiān)控、相冊管理、圖像檢索、計算機互動等。比如在身份識別過程中,先行確定性別,可以減少一半的數(shù)據(jù)庫搜索時間。
極限學習機(extreme learning machine,ELM)[1]主要用于計算單層前饋神經(jīng)網(wǎng)絡中隱藏層的個數(shù)。其中,在計算隱含層矩陣廣義逆的時候,因奇異值分解(singular value decomposition,SVD)的復雜度高,會影響到計算效率。FASTA-ELM[2]用近端梯度下降算法計算ELM的輸出權重,因而能在不使用SVD的情況下計算輸出權重的最小范數(shù),并且可以推廣到隱藏層矩陣較大的情況中。FASTA-ELM算法的最大優(yōu)勢在于,不需要對稀疏元素解空間進行反復迭代搜索,通過自適應步長選擇省去了一些梯度計算步驟,使用后向下降步驟以保證算法收斂。
多尺度融合決策算法[3]通過提取不同圖像的分辨率,基于各個特征進行分類,并對分類后的特征進行融合,獲得所需要的結果。文中主要使用的特征有基于邊緣方向直方圖的形狀特征,基于LBP(local binary patterns,局部二進制模式)的紋理特征。提取完特征后,接著使用支持向量機(support vector machine,SVM)對單尺度和多尺度下同樣的特征進行決策融合。
面部性別識別是一個二元分類問題。每個分類問題都需要有效的特征表示,因為它嚴重影響分類器的性能。特征描述中的關鍵問題是計算成本、魯棒性和泛化能力。特征描述符對于未見的試驗樣品應當具有低計算成本、高魯棒性并且性能良好這些特點。LBP 具有高計算效率、高鑒別能力的特點,使用LBP進行面部識別,最初是由Ahonen等[4]倡導的,隨后它被廣泛用于面部識別和面部性別識別,在一些由于拍照姿勢、光照等原因對成像產(chǎn)生顯著影響的圖片中,Shan等[5]進行了試驗,取得了很好的效果。LBP 在很多方面具有優(yōu)勢,比如計算簡單、強度變化時的不變性和代碼開源。同時,LBP 也有一些嚴重的缺點,如對噪聲和非單調(diào)照明變化的敏感性,并且會將灰度級差(the gray-level difference,GLD) 的幅度信息完全丟失。本文通過將GLD量化為多個級別來概括LBP的概念,采用多量化局部二進制模式 (multi-quantized local binary patterns,MQLBP)[6]對GLD的符號和幅度信息進行編碼。
為了更加直觀地展示對比結果,本文主要在PAL(a lifespan database of adult facial stimuli)和FERET(the face recognition technology)數(shù)據(jù)集中進行測試。在PAL數(shù)據(jù)集中,對FASTA-ELM 算法和多尺度二進制模型進行比較探索;在FERET數(shù)據(jù)庫中,對FASTA-ELM算法和多尺度融合決策算法進行比較探索。
在ELM中計算輸出權值矩陣,常用的方法就是采用近似梯度下降算法,直接求解最小范數(shù)的最小二乘問題,當中需要使用到SVD。其中隱含層矩陣的求解應視作一個優(yōu)化問題,采用FBS(forward-backward splitting )梯度下降算法求解。首先在FASTA-ELM中,使用自適應步長選擇和非單調(diào)線性搜索以加快收斂速度。因此,在大規(guī)模病態(tài)矩陣中,與其搜索目標所有可能的步驟,不如采用自適應選擇步長,使得梯度下降問題的維度變得非常小,從而加快算法收斂速度。然后再采用FASTA- ELM的后向下降步驟來檢查每個目標,以保證選擇的子梯度收斂。
給定一個訓練樣本集{(xi,yi)|xi∈Rn,yi∈Rm,i=1,…,N},激勵函數(shù)為g(x),隱藏單元為N′個。
具體訓練過程如下:
1)給定任意的輸入權值ωj和bj,j=1,2,…,N′;
2)計算隱含層輸出矩陣H;
3)計算輸出權值矩陣β,β=H+T,其中T為最終的輸出矩陣。
ELM中訓練誤差的最小值如式(1)所示,輸出權重的范數(shù)如式(2)所示。
(1)
Minimize:β
(2)
式中:Minimize為最小值優(yōu)化函數(shù);βi為第i個輸出權值矩陣;x為輸入值;Ti為第i個隱含層的輸出矩陣。
以上是由黃廣斌教授于2006年提出的ELM算法的最初模型。經(jīng)過不斷發(fā)展,如今多采用式(3)定義的Standard-ELM(S-ELM):
(3)
FBS主要采用如下形式解決問題:
Minimize:h(τ)=f(τ)+g(τ)
(4)
式中:τ∈R;h(τ)為目標函數(shù);f(τ)為一個可微函數(shù);g(τ)為一個任意的凸函數(shù)。由于g不可微且任意取值,無法直接用梯度下降算法求得,因而g的最近鄰解決方式如式(5)所示。
(5)
式中:proxg(z,ρ)為所求的g函數(shù);argminτ為最小值函數(shù);z為初始猜測值;ρ為步長。
對FBS算法分兩步進行改進。
第一步對f采用前向梯度下降:
τk+1=τk-ρkf′(τk)
(6)
式中:τk+1為第(k+1)次預測值;τk為第k次預測值;ρk為步長,是標量,表示k次迭代過程中梯度下降速度。即沿著f的負向梯度方向對τk進行迭代,找到梯度下降最快的方向。
第二步采用后向梯度下降:
Minimize:h(τ)=f′(Aτ)+g(τ)
(7)
式中:A為參數(shù)矩陣。
在實際情況中,當隱含層矩陣變大時,會導致特征分解不穩(wěn)定,計算時間成本增加,因而人們開始使用FASTA算法來計算ELM的輸出權重。本文對式(3)進行如下改進:
g(τ)=β1
(8)
(9)
FASTA-ELM算法的最大優(yōu)勢在于,不需要對系數(shù)元素解空間進行反復迭代搜索,而是通過自適應步長的選擇,省去一些梯度計算步驟,并使用后向下降步驟以保證算法收斂。FASTA-ELM算法流程如下。
輸入:數(shù)據(jù)N=xi,yi,迭代次數(shù)k,停止條件S,節(jié)點個數(shù)W。給定任意的輸入矩陣權重以及閾值(ω,b),加入激勵函數(shù)q(xi,ω,b),計算隱含層矩陣H:
不滿足條件S時循環(huán)執(zhí)行:
通過近端梯度下降求解公式(7)中的τ。
輸出:ELM的輸出權值矩陣。
多尺度融合決策算法使用多尺度融合進行面部性別識別,首先提取不同分辨率圖像的特征,然后基于這些特征得到一個分類器以及融合的決策。圖1所示為該方法的決策流程,其中方形表示數(shù)據(jù),橢圓形表示操作步驟。圖中的分類器,每個僅能接收一種特征類型作為輸入,不同特征的不同決策組合將在實驗環(huán)節(jié)中進行討論。采用這種方法的主要原因就是不同性別之間存在的面部特征差異,基于這一假設,后續(xù)實驗將會驗證。文中主要采用顏色、形狀與紋理特征作為3種描述符,由于顏色判斷不是必須的,因而文中采用的都是灰度圖像。
圖1 多尺度決策融合流程圖
本文采用與梯度方向直方圖類似的邊緣方向直方圖作為圖像特征,二者主要區(qū)別在于本文中的輸入圖像為灰度圖像,無法對直方圖進行歸一化處理。通過算子[-1,0,1]T和[-1,0,1]可以得到水平方向和垂直方向邊緣,用v和h分別表示水平方向和垂直方向的邊緣像素,二者分別通過將邊緣檢測圖像與原始圖像卷積得到。邊緣方向θ用式(10)表示:
(10)
邊緣強度m用式(11)表示:
(11)
式(10)中的角度被分為每18°一個區(qū)間,即將360°分為20個區(qū)域,則每個像素都是對邊緣方向和邊緣強度的累加。因此,直方圖近似于邊緣取向的加權分布,其中權重對應于邊緣的幅度。
本文使用LBP提取紋理特征。選取中心像素點C和近鄰像素點P,令近鄰像素點和點C的距離為R。用直方圖表示紋理特征:
TT=hh(I(0)-I(C),I(1)-I(C),…,I(P-1)-I(C))
(12)
式中:TT為點P的灰度差異值;hh為鄰近點P與中心點C之間的像素差;I(x)為鄰近點x的灰度值。因為給定的與中心像素強度的差異的平均強度值的變化是不變的,所以如果僅考慮先前算子中符號的差異,就可以得到灰度差異值:
TT=hh(s(I(0)-I(C)),…,s(I(P-1)-I(C)))
(13)
式中:s(·)為符號描述符,如果為負的則值為0,否則為1??梢酝ㄟ^將二進制值乘以二項式系數(shù)來獲得LBP特征的唯一值。
(14)
式中:LBP(P,R)為LBP特征值。
LBP可以生成2P種不同的值,即生成的特征向量的大小是2P。
在模式識別過程中有很多方法可以用于信息融合,主要的區(qū)別在于融合是發(fā)生在特征提取層還是決策層。在前一種情況下,不同來源的信息被融合到單個特征向量中,然后將該特征向量饋送到分類器中;在后一種情況下,在每個分類器作用后再進行融合決策,每個分類器都可以用不同的特征或相同的特征進行訓練??傊诸惼鲬撌蛊溴e誤發(fā)生在融合之前。在本文中,采用第二種方法進行決策融合。本文融合了不同分類器的決策,這些分類器用于單個尺度捕獲的不同類型的特征或者在不同尺度捕獲的相同類型特征的訓練。
對于決策過程,本文使用多數(shù)表決規(guī)則,其中di(i=1,…,m)表示m個分類器中每個分類器的決策,每個決策都是用整數(shù)表示,0表示女性,1表示男性。多數(shù)表決規(guī)則如式(15)所示。
(15)
式中:dmaj為最終的決策結果。
為徹底評估MQLBP和LTP(local ternary pattern)特征對于性別分類任務的適用性,并證明基于這些特征的分類性能優(yōu)于基于二值量化LBP特征的分類性能,筆者提出一種新的方法,通過量化將GLD分成多個級別。本文將得到的多量化局部二進制模式用多個不同的實驗進行評估,以此證明增強了鑒別能力、噪聲耐受性和泛化能力。
坐標(xc,yc)處中心像素的LBP編碼如式(16)所示,也如2.2中的式(14)所示:
(16)
式中:gc和gp分別為半徑R的圓形鄰域中的中心像素及其第p個鄰近像素的像素強度;參數(shù)P為相鄰像素的總數(shù)。函數(shù)f1(l)如式(17)所示:
(17)
為了降低LBP對噪聲的敏感度,采用如圖2(b)所示的三級量化方案,得到局部三元模式方法。使用附加的閾值參數(shù)和式(18)所示的函數(shù)將GLD量化為3個級別。
(18)
圖2 4種量化函數(shù)
為了減少特征維度,三態(tài)碼被分成兩部分以通過編碼的正量化和負量化級別來生成兩個二進制模式[7]。
從式(16)可以看出LBP計算主要有三個步驟:
1)計算中心像素及其相鄰像素之間的GLD;
2)使用僅保留符號信息的二進制量化函數(shù)對GLD進行編碼;
3)由二進制模式轉換為十進制形式得到LBP編碼。
假設在8位灰度圖像中,第一步算得GLD范圍為(-255,255);第二步使用二進制量化函數(shù)對GLD進行編碼;第三步進行LBP編碼,輸出0和1。換句話說,差分運算器的輸出范圍被量化成兩個等級,如圖2(a)所示,這樣的二值編碼函數(shù)使得計算更加簡單。然而,LBP編碼丟失了差異幅度的信息,限制了辨別的能力。因此,筆者提出將LBP與對比信息相結合,提升性別分類的性能。使用局部方差(local variance)計算對比度信息的數(shù)學式如下:
(19)
式中:VARP.R(xc,yc)為局部方差值;μ為相鄰像素點和中心像素點的GLD均值。
由于方差測量能提供連續(xù)值輸出,本文采取量化特征空間的方式獲得直方圖描述符。然而,這種方法存在兩個主要問題:1)需要附加訓練階段,以確定直方圖面元的截止值;2)正確選取bins的數(shù)量,如果選擇較少數(shù)目的bins,會降低其辨別能力,而大量的bin卻會增加特征尺寸,可能導致直方圖不穩(wěn)定。
為了避免出現(xiàn)上述問題,本文提出了一種廣義形式的LBP,以隱含地捕獲來自灰度級差的幅度和符號信息。LBP廣義形式的基本思想建立在量化GLD算子的輸出范圍上。然而,本文建議將輸出范圍量化為多個級別,而不是限制為二進制量化,因此得到的模式將被稱為多量化局部二進制模式(MQLBP)。使用如圖2(b)和(c)所示的閾值參數(shù)t對GLD進行多級量化,需要注意的是MQLBP在概念上是不同于LTP的。如圖2(b)中所示,LTP將GLD量化為3個固定等級,MQLBP擴展了將GLD量化為所需級數(shù)的想法。此外,當GLD被量化為中等水平(水平0)時,LTP會忽略符號信息以限制其辨別能力。如圖2(c)和(d)所示,本文提出的方法通過對稱量化GLD相對于零克服了這個限制。對等級L(L>0),量化函數(shù)fL(x,t)如式(20)所示。
(20)
由式(20)可知,在最初LBP中使用1級量化,將整個輸出范圍分割成兩個不同的部分。在每個較高的量化級,每個子部分被進一步量化為兩個不同的分段,因此共產(chǎn)生2L個分度。其中對應于第i個分度AN的MQLBP編碼計算如式(21)所示。
(21)
為了使用MQLBP描述每一個面部圖像,需計算空間增強直方圖,即將每個MQLBP圖像劃分成不重疊的矩形塊以計算它們,連接起來就可以構建一個特征向量的局部直方圖,所有MQLBP圖像的這些特征向量進一步級聯(lián)就可以構建最終面部描述符。
顯然,特征維度與在計算MQLBP中使用的級別數(shù)量成正比。為了展示更多的MQLBP的辨別能力,同時保持較低的特征維度,本文在實驗中僅考慮2層MQLBP。
為了對上述3種方法進行對比,本文將算法應用到具體的面部性別分類問題中,選取FERET和PAL數(shù)據(jù)庫,通過對其中的面部圖像進行性別分類,來分析3種方法的優(yōu)缺點。
為了從面部提取特征,采用LBP特征提取算子,將面部分為8塊,bins的數(shù)量確定為59。因此,最終特征向量是8×8×59=3 776bins。
本文使用True Positive(TP)和True Negative(TN)來計算識別率Raterecognition,如式(23)所示:
(22)
式中:Raterecognition為樣本總數(shù)。
PAL數(shù)據(jù)集包含575個面部圖像(225名男性和350名女性),圖像的分辨率為640×480。為定位面部區(qū)域,采用Viola-Jones等[8]提出的面部檢測器,每個檢測到的臉部被歸一化為64×64大小的圖像。FERET數(shù)據(jù)庫是最具挑戰(zhàn)性的面部識別數(shù)據(jù)集之一,數(shù)據(jù)庫中的面部圖像用姿態(tài)(前沿、左側和右側輪廓)、光照條件來概括,本文使用900張圖,其中男性、女性面部圖像各占一半。
1)在PAL數(shù)據(jù)庫中進行面部性別測試,結果見表1。
表1 PAL數(shù)據(jù)庫面部性別測試結果表
2)在FERET數(shù)據(jù)庫中進行面部性別測試,結果見表2。
表2 FERET數(shù)據(jù)庫面部性別測試結果表
S-ELM通過正交投影、特征分解或迭代的方法,解決輸出權重的問題,然而隱藏層中隱含節(jié)點數(shù)量增加時,計算的時間、空間復雜度都顯著增加,特別是隱藏層矩陣條件變得不穩(wěn)定,會影響S-ELM的泛化能力。
將決策融合方法運用到FERET數(shù)據(jù)庫中,可以改善識別結果。在實驗過程中,能整合來自不同尺度的信息,即使僅來自單個特征的信息,也比在單個尺度融合來自不同特征的信息更重要。
實驗結果表明,MQLBP具有更好的泛化能力和處理噪聲的能力、更優(yōu)的辨別能力。這3個優(yōu)點是以增加特征向量長度為代價的,因而需要更多的計算時間。LBP對中心像素和相鄰像素之間的灰度級差采用二進制量化,然而這種簡單而有效的方法丟棄了灰度級差的幅度信息。為了解決這個問題,本文通過擴展矢量量化概念,使LBP不僅限于二進制量化,即采用MQLBP方法對灰度級差的符號和幅度信息進行編碼,提高了辨別能力。結果清楚地表明,MQLBP方法具有三重優(yōu)勢,包括更高的性別分類精度、改進的噪聲魯棒性和更好的泛化能力。
FASTA-ELM、多尺度融合決策和多量化局部二進制模式,各有優(yōu)點,各有側重,同時也有相互重合的地方,值得進一步研究。