趙 莉,王莎莎,劉道華*,張 建
(1. 信陽農(nóng)林學(xué)院 信息工程學(xué)院, 河南 信陽 464000; 2. 信陽師范學(xué)院 計(jì)算機(jī)與信息技術(shù)學(xué)院, 河南 信陽 464000)
在計(jì)算機(jī)視覺領(lǐng)域和模式識(shí)別中,圖像分類一直成為困擾很多學(xué)者的難題,因?yàn)榛谝曈X內(nèi)容的圖像分類容易受光照、遮擋、聚焦等多種因素的影響。雖然過去人們在圖像識(shí)別系統(tǒng)中研究出了很多特征提取方法,但因這些方法大多都需要通過手工設(shè)計(jì)算法來實(shí)現(xiàn),新的神經(jīng)網(wǎng)絡(luò)[1]在各種識(shí)別任務(wù)上的表現(xiàn),引起了人們的高度關(guān)注,但由于神經(jīng)網(wǎng)絡(luò)的數(shù)據(jù)量過于龐大,使得參數(shù)調(diào)整的專業(yè)性成為網(wǎng)絡(luò)取得成功的關(guān)鍵。為了解決這一難題,CHAN等[2]提出了一種較為簡單的主成分分析網(wǎng)絡(luò)(PCANet)模型,該模型在訓(xùn)練網(wǎng)絡(luò)框架之前便固定了網(wǎng)絡(luò)的參數(shù),實(shí)驗(yàn)結(jié)果證明了PCANet在圖像分類任務(wù)中取得了很好的表現(xiàn);FENG等[3]在場景分類的過程中也運(yùn)用了其他網(wǎng)絡(luò)代替PCA,并獲得了很好的分類效果;JIA等[4]提出了一種基于二維主成分分析的網(wǎng)絡(luò)圖像分類方法,并將其應(yīng)用于極光分類中,雖然提升了分類的速度,但分類精度受到一定程度的影響。總之,這些基于PCANet的變體方法在各類場景分類任務(wù)中取得了一定的成效。
目前,利用PCANet方法進(jìn)行人臉圖像分類的方法很多,但既能快速地提取出人臉特征又能保存圖像的結(jié)構(gòu)信息的研究方法還比較少?;诖?,筆者提出了一種基于改進(jìn)感知哈希算法的2DPCANet人臉識(shí)別方法,在PCANet的基礎(chǔ)上采用二維主成分分析代替原先PCA的計(jì)算過程以減少分類的耗時(shí)。實(shí)驗(yàn)表明,改進(jìn)的PCANet算法在人臉圖像分類任務(wù)中能有效地提高計(jì)算速度,且該方法能較好地保存了圖像的結(jié)構(gòu)信息。
二維主成分分析計(jì)算的過程不需將原始數(shù)據(jù)向量化,可直接對二維矩陣進(jìn)行計(jì)算,其思想為:假設(shè)X∈Rn×d為一正交矩陣,其中d (1) 則G可以寫成: (2) 在這個(gè)過程中,可以根據(jù)整體樣本的散度去判斷正交向量的效果,也即是求出最大特征值所對應(yīng)的最佳投影矩陣。最優(yōu)投影矩陣用Xopt=[X1,X2,…,Xd]表示,其即為所求的特征值對應(yīng)的特征向量。 因2DPCA在處理圖像矩陣時(shí)只在行向量上進(jìn)行,所以會(huì)造成系數(shù)增多的現(xiàn)象。受文獻(xiàn)[5]的啟發(fā),可以同時(shí)對兩個(gè)方向的向量進(jìn)行計(jì)算,以減輕計(jì)算的復(fù)雜性。其過程如下:設(shè)Z∈Rm×q為正交矩陣,那么A投影Z上得到矩陣B=ZTA后,通過兩個(gè)方向的計(jì)算便可得到最終的投影矩陣: C=ZTAX。 (3) 在網(wǎng)絡(luò)多次特征提取的過程中,會(huì)在一定程度上,減少人臉數(shù)據(jù)的低頻信息。為了更好地保留原始人臉圖像的詳細(xì)輪廓,受文獻(xiàn)[6]的啟發(fā),采用感知的哈希算法去提取人臉的低頻信息。采用離散余弦變換(DCT)的方式將圖像的像素域轉(zhuǎn)換到頻率域,從而更好地保留圖像的低頻信息。 利用的變換核是余弦函數(shù),具體的離散余弦變換正變換核如下: (4) 式中:x=0,1,…,M-1;u=0,1,…,M-1;y=0,1,…,N-1;v=0,1,…,N-1。 設(shè)f(x,y)為圖像矩陣,其大小為M×N,則二維DCT變換方式如下: (5) 將上述調(diào)整角度后的人臉圖像進(jìn)行尺寸上的處理,再對處理后的人臉圖像進(jìn)行DCT變換,得到DCT變換的系數(shù)矩陣,再對與圖像最低頻率對應(yīng)的矩陣進(jìn)行整合比較,最后綜合主成分分析結(jié)果,便可得到人臉的識(shí)別效果。 考慮到傳統(tǒng)的主成分分析網(wǎng)絡(luò)在圖像處理時(shí)需將原始數(shù)據(jù)向量化的缺點(diǎn),在原始的PCANet網(wǎng)絡(luò)基礎(chǔ)上進(jìn)行優(yōu)化,從而提出改進(jìn)的2DPCANet網(wǎng)絡(luò)結(jié)構(gòu)。該結(jié)構(gòu)在保留原始的數(shù)據(jù)處理過程二值哈希以及分塊直方圖的基礎(chǔ)上,分別選取了極限學(xué)習(xí)機(jī)與支持向量機(jī)對網(wǎng)絡(luò)最后提取的特征進(jìn)行分類,并將最后的結(jié)果進(jìn)行了對比。圖 1 為2DPCANet網(wǎng)絡(luò)結(jié)構(gòu)和PCANet網(wǎng)絡(luò)結(jié)構(gòu)兩者之間的對比圖。 圖1 PCANet與2DPCANet網(wǎng)絡(luò)框架對比圖Fig. 1 Comparison diagram of PCANet and 2DPCANet network framework 輸入訓(xùn)練的人臉圖像后,第一層的2DPCA是為了計(jì)算出輸入人臉圖像的輸出特征向量,其主要步驟如下: (6) (2)對輸入的人臉圖像分別進(jìn)行歸一化操作,選取第i圖像Ai,經(jīng)過歸一化后可得: (7) 其中,Pi=(pi,1,pi,2,…,pi,mn),pi,j∈Rk×k表示第i幅人臉圖像Ai去均值后的塊,提取的塊大小為k×k。 (3)將所有經(jīng)過歸一化的人臉圖像組合成一階全局均勻陣: (8) 設(shè)X∈Rk×D1為一個(gè)正交矩陣,Di表示第i階段卷積核的個(gè)數(shù),經(jīng)過第1層的2DPCA處理后可得到一階半正定矩陣:Y=piX,其中X為P中的一個(gè)矩陣pi經(jīng)過投影得到的矩陣,那么式(2)可以寫為 則所求的特征值對應(yīng)的特征向量為Xopt=[X1,X2,…,XD1]。 (4)利用上述求得的正交矩陣,同理另設(shè)Z∈Rk×D1也為正交矩陣,經(jīng)過投影后可得B=ZTpi,則生成人臉圖像的協(xié)方差矩陣為: (9) (10) (11) 在二維主成分分析網(wǎng)絡(luò)第二階段得到了D1D2個(gè)特征映射圖,然后在基于2DPCANet的輸出層利用二進(jìn)制哈希算法和分塊直方圖對其進(jìn)行處理進(jìn)而組合成最后的輸出特征。 具體的步驟:首先對第二個(gè)階段輸出的特征映射圖利用哈希算法進(jìn)行二值化,利用Heaviside函數(shù)H(·)將其轉(zhuǎn)化成二進(jìn)制矩陣,輸入正數(shù)則輸出1,其他情況輸出為0。 (12) 其中,每一個(gè)像素為[0,2D2-1]。 再對第一階段獲得的圖像Fi,d1(d1=1,2,…,D1)劃分為B塊,再將每個(gè)塊的分塊直方圖進(jìn)行整合統(tǒng)計(jì)處理,處理后用向量hist(Fi,d1)表示,進(jìn)行編碼后生成對應(yīng)特征: (13) 實(shí)驗(yàn)基于Windows系統(tǒng),電腦配置為IntelCore i7-6700,內(nèi)存為8 G,CPU主頻為3.41 GHz。在實(shí)驗(yàn)過程中,利用2DPCANet算法對人臉圖像進(jìn)行處理后,分別選取了SVM和ELM兩種分類器進(jìn)行人臉圖像的分類。 實(shí)驗(yàn)選用AR數(shù)據(jù)集和FERET數(shù)據(jù)集評估所提方法的有效性。文中提到的LDANet[2]方法是一種從數(shù)據(jù)整體提取人臉特征的線性判別分析算法;RandNet[2]是為了擺脫預(yù)訓(xùn)練的困擾在PCANet基礎(chǔ)上進(jìn)行改進(jìn)的一種網(wǎng)絡(luò)模型;DLANet方法是一種考慮到人臉鑒別信息的特征學(xué)習(xí)方法。在實(shí)驗(yàn)過程中因選取了SVM作為分類器,所以其參數(shù)選取的好壞決定了特征分析方法的性能。實(shí)驗(yàn)采用了十折交叉驗(yàn)證的方式進(jìn)行參數(shù)選取,結(jié)果如圖 2 所示。在實(shí)驗(yàn)過程中最終選取參數(shù)c的值為0.176,b的值為0.615。另外實(shí)驗(yàn)以識(shí)別率為人臉圖像分類的評價(jià)指標(biāo)。 圖2 2DPCANet模型中SVM分類器參數(shù)選取三維示意圖Fig. 2 Three dimensional schematic diagram of SVM classifier parameter selection in 2DPCANet model 實(shí)驗(yàn)將FERET[7]人臉數(shù)據(jù)集的1196個(gè)人的照片分為訓(xùn)練集與驗(yàn)證集。對于人臉圖像識(shí)別,將驗(yàn)證集的人臉圖像分為四種:Fb是在時(shí)間與光照變化均相同條件下拍攝的圖像;Fc圖像是在不同光照的條件下拍攝的;Dup-1所包含的是在不同時(shí)間內(nèi)由不同相機(jī)拍攝的圖像;Dup-2則是實(shí)驗(yàn)對象在間隔一年以后由不同相機(jī)拍攝的圖像。圖 3 為FERET的部分人臉圖像,實(shí)驗(yàn)SVM采用的是liblinear工具箱,極限學(xué)習(xí)機(jī)隱層神經(jīng)元的個(gè)數(shù)設(shè)置為5000,圖4為文中所提的2DPCANet方法與人臉識(shí)別對比方法LDANet[8]、RandNet[9]和DLANet[10]的識(shí)別率對比圖。 圖3 FERET的部分人臉圖像Fig. 3 Partial face images of FERET 圖4 FERET數(shù)據(jù)集圖像識(shí)別率Fig. 4 Image recognition rate of FERET dataset 表1為不同方法在FERET數(shù)據(jù)集上的識(shí)別率。從表中可以看出,在每類訓(xùn)練樣本數(shù)中2DPCANet方法的識(shí)別率始終優(yōu)于其他方法,尤其是在Fc訓(xùn)練部分,2DPCANet的識(shí)別率更是達(dá)到了0.922,要比RandNet方法的識(shí)別率高了約4%。而在Fc后面其他類的訓(xùn)練樣本部分,識(shí)別率會(huì)出現(xiàn)下降趨勢,但最終仍呈現(xiàn)上升趨勢,這表明所提出的2DPCANet方法對表情和光照變化有一定的魯棒性。 表1 不同方法在FERET數(shù)據(jù)集上的識(shí)別率Tab. 1 Recognition rate of different methods on FERET data set 對于LFW人臉數(shù)據(jù)庫,實(shí)驗(yàn)選取個(gè)人圖像大于或等于10幅的人臉作為實(shí)驗(yàn)對象,實(shí)驗(yàn)從LFW的對齊版本LFW-a中選取158個(gè)人的照片作為訓(xùn)練集,實(shí)驗(yàn)訓(xùn)練時(shí)每人隨機(jī)選取f(f=2,3,4,5,6,7)幅人臉圖像作為訓(xùn)練樣本,剩下部分作為測試集。SVM使用liblinear工具箱,將ELM的隱層神經(jīng)元的個(gè)數(shù)設(shè)為5000,實(shí)驗(yàn)重復(fù)10次取平均識(shí)別率作為評價(jià)指標(biāo)。實(shí)驗(yàn)結(jié)果如圖 5 所示。 圖5 FERET數(shù)據(jù)集圖像識(shí)別率Fig. 5 Image recognition rate of FERET dataset 圖5為2DPCANet和PCANet方法使用SVM作為分類器以及兩種網(wǎng)絡(luò)采用ELM作為分類器在LFW數(shù)據(jù)集上所獲得的識(shí)別率對比圖。從圖中可以看出使用SVM作為分類器的準(zhǔn)確識(shí)別率效果不如使用ELM,而且隨著訓(xùn)練時(shí)選取圖像數(shù)量的增多,整體的識(shí)別率呈現(xiàn)上升的趨勢,當(dāng)個(gè)人選取圖像的數(shù)量達(dá)到7時(shí),所提出的2DPCANet(ELM)識(shí)別率比原始的PCANet高了0.27。從圖中可以看出整個(gè)過程中,改進(jìn)方法的識(shí)別率均高于其他幾種對比方法。 經(jīng)過實(shí)驗(yàn)驗(yàn)證得到了不同方法在LFW數(shù)據(jù)庫上的性能表現(xiàn),實(shí)驗(yàn)結(jié)果如表2所示。從表2中的對比數(shù)據(jù)可以看出,文中所提出的改進(jìn)方法在訓(xùn)練時(shí)間上明顯比PCANet提升了很多,因?yàn)?DPCANet方法不需要對原始數(shù)據(jù)進(jìn)行向量化處理,而直接可以在二維圖像上進(jìn)行操作。另外,從表中可以看出訓(xùn)練時(shí)隨著圖片的增多,ELM的訓(xùn)練速度明顯比SVM有優(yōu)勢。 表2 在LFW數(shù)據(jù)庫上不同方法的性能Tab. 2 Performance of different methods on LFW database 提出了一種用于人臉識(shí)別的二維主成分分析網(wǎng)絡(luò)模型,利用2DPCA代替PCANet中的PCA計(jì)算過程,同時(shí)在輸出階段采用感知的哈希算法去提取人臉的低頻信息,從而提高了整個(gè)分類模型的識(shí)別率。文中所提的2DPCANet方法即使測試環(huán)境出現(xiàn)光照變化或者遮擋時(shí),也能表現(xiàn)出很好的識(shí)別效果,實(shí)驗(yàn)結(jié)果表明,其在減少分類耗時(shí)的同時(shí)更好地保存了圖像原本的結(jié)構(gòu)信息。但該方法仍有待改進(jìn)的地方,當(dāng)數(shù)據(jù)庫的數(shù)量增多時(shí),采用SVM方法進(jìn)行分類時(shí)其準(zhǔn)確識(shí)別率會(huì)逐漸下降,而且其速度也沒有ELM快,因此在今后的工作中可以繼續(xù)改善模型,進(jìn)一步提升2DPCANet算法在人臉識(shí)別中的效果。2 改進(jìn)的感知哈希算法
3 基于二維主成分分析網(wǎng)絡(luò)的人臉圖像分類
3.1 第一層的2DPCA
3.2 第二層的2DPCA
3.3 基于2DPCANet的輸出階段
4 實(shí)驗(yàn)結(jié)果
5 結(jié)論