胡衛(wèi)強(qiáng),周浩,汪祥
(南昌大學(xué)數(shù)學(xué)系,江西 南昌 330031)
近些年來,圖像特征提取在圖像分類和識別方面有著越來越廣泛的應(yīng)用,引起了越來越多的研究人員的關(guān)注。而其中基于向量的特征提取方法尤其受到學(xué)者們的青睞,包括主成分分析法(principal component analysis,PCA)[1]、線性判別分析法(linear discriminant analysis)[2]、局部保持投影法(locality preserving projection)[3],以及稀疏保持投影法(sparsity preserving projection)[4]等。盡管基于向量的特征提取方法如PCA已經(jīng)成功應(yīng)用于許多實(shí)際圖像分類和識別等領(lǐng)域。但是,它的前提是需要將圖像矩陣?yán)斐梢痪S長向量,由此導(dǎo)致一些圖像的空間結(jié)構(gòu)信息會丟失。
因此,為了充分利用圖像的空間結(jié)構(gòu)信息,許多基于矩陣的特征提取方法被提出,例如最早期的二維主成分分析法[5]、二維線性判別分析法[6],以及二維局部保持投影法[7]等。這些方法與基于向量的特征提取方法不同之處在于它們的思想是直接針對二維圖像矩陣處理,而無需將其拉伸為一維向量。上述算法中大多是基于L2范數(shù)或Frobenius范數(shù),其中二維主成分分析方法是基于L2范數(shù)。
近幾年來,Schatten-P范數(shù)在機(jī)器學(xué)習(xí)和模式識別領(lǐng)域引起了廣泛的關(guān)注。例如Nie等[8]提出了一種基于Schatten-P范數(shù)最小化的低秩矩陣恢復(fù)方法來恢復(fù)低秩矩陣,并誘導(dǎo)出了一種有效解決基于Schatten-P范數(shù)的優(yōu)化問題的算法。緊接著又提出了一類用于圖像分類的Schatten-P范數(shù)基矩陣回歸模型[9]。而Du等[10]提出了基于Schatten-P范數(shù)標(biāo)準(zhǔn)對圖像的特征進(jìn)行提取和分類。此外,Nuclear范數(shù)在圖像恢復(fù)領(lǐng)域也得到了極大關(guān)注,因此利用Nuclear范數(shù)作為標(biāo)準(zhǔn)的二維主成分分析方法相繼被提出[11]。
以上研究利用不同范數(shù)標(biāo)準(zhǔn)提取圖像特征,但并未考慮范數(shù)加權(quán)來提取圖像特征。因此,本文提出一種基于Nuclear范數(shù)和Frobenius范數(shù)加權(quán)的二維主成分分析方法(記為NF-2DPCA)來解決圖像特征提取問題。另外還給出一類快速的迭代算法來求解NF-2DPCA中優(yōu)化問題,并利用數(shù)值例子來驗(yàn)證新方法的有效性。
Frobenius范數(shù)2DPCA的目標(biāo)函數(shù)為使得圖像重構(gòu)誤差最小化,即
(1)
恒成立。因此式(1)可重寫為
(2)
L=tr(VTStV)+λ(Ik-VTV)
(3)
式(3)對V求偏導(dǎo)可得
(4)
令式(4)為0,可得到StV=λV,代入式(2),最后目標(biāo)函數(shù)求解問題則轉(zhuǎn)變?yōu)榍蠼鈭D像協(xié)方差矩陣前k個最大特征值對應(yīng)的特征向量問題。
Nuclear范數(shù)2DPCA的目標(biāo)函數(shù)度量準(zhǔn)則如下
(5)
其中‖·‖*代表Nuclear范數(shù),Nuclear范數(shù)定義為矩陣所有奇異值的和。并且對于任意矩陣A∈Rp×q,Nuclear范數(shù)與Frobenius范數(shù)之間轉(zhuǎn)換有如下等式成立[11]
(6)
利用式(6)將目標(biāo)函數(shù)(5)改寫為
(7)
(8)
令V=Vk+1,更新Wi
那么關(guān)鍵的步驟即解決優(yōu)化問題式(8)。式(8)的目標(biāo)函數(shù)可重寫為如下形式
(9)
(10)
實(shí)際上式(10)等價于式(8),它的求解與式(2)方法一樣,即求解矩陣D前k個最大特征值對應(yīng)的特征向量。
Frobenius和Nuclear均為Du等[10]提出的基于Schatten-P范數(shù)二維主成分分析(2DPCA-Sp)方法的特殊情形,其中矩陣A∈Rn×m的Schatten-P范數(shù)p∈(0,+∞)定義如下:
式中:σi代表矩陣A的第i個奇異值。容易看出,Nuclear范數(shù)和Frobenius范數(shù)分別是p=1和p=2的Schatten-P范數(shù)的特例。2DPCA-Sp目標(biāo)函數(shù)為如下形式
(11)
本文受到Schatten-P范數(shù)2DPCA的啟發(fā)而提出NF-2DPCA。令Xi∈Rm×n(i=1,2,3,…,N)為N張訓(xùn)練圖像矩陣,不失一般性,假設(shè)圖像矩陣均已中心化。提出的范數(shù)加權(quán)二維主成分分析算法旨在尋找最優(yōu)投影矩陣V=[v1,v2,…,vk]∈Rn×k使得特征空間中特征總散射最大化,即目標(biāo)函數(shù)為如下形式
(12)
式中:α為加權(quán)系數(shù)。由上節(jié)內(nèi)容可知,式(12)為Frobenius范數(shù)與Nuclear范數(shù)的加權(quán)目標(biāo)函數(shù)。接下來對式(12)進(jìn)行求解。
為了求解優(yōu)化問題式(12),首先構(gòu)造式(12)的拉格朗日函數(shù)
其中S∈Rk×k,是對稱拉格朗日數(shù)乘矩陣。由微分性質(zhì)有
(13)
由式(13)可得
MV=VS
可以驗(yàn)證M是一個對稱矩陣。可通過對M進(jìn)行特征分解或者譜分解找到滿足方程的列正交矩陣V?,F(xiàn)求解最大化式(12),即求解M的前k個最大特征值對應(yīng)的特征向量V。
基于上述分析與觀察,本文提出一個快速迭代算法求解優(yōu)化問題(12),完整的算法在算法1中給出。
算法1
輸入:N張訓(xùn)練圖像矩陣Xi∈Rm×n(i=1,2,3,…,N)且中心化,加權(quán)系數(shù)α,主成分k
(2)While‖Vt+1-Vt‖>ε或t<100
(4)對Mt+1執(zhí)行特征分解,并獲得Vt+1為Mt+1的前k個最大特征值對應(yīng)的特征向量
(5)檢查收斂條件‖Vt+1-Vt‖<ε或t>100
(6)t←t+1
(7)end while
輸出:投影矩陣V
t
在3個流行的圖像數(shù)據(jù)庫上進(jìn)行實(shí)驗(yàn),包括ORL數(shù)據(jù)庫、Yalefaces數(shù)據(jù)庫和AR數(shù)據(jù)庫,以評估提出的范數(shù)加權(quán)2DPCA在圖像特征提取方面的性能。在實(shí)驗(yàn)之前,將所有人臉圖像調(diào)整到64×64像素。并且所有實(shí)驗(yàn)中k的最大值設(shè)定為50。此外,由于提出的范數(shù)加權(quán)2DPCA是一種無監(jiān)督方法,本文僅將其與幾種最先進(jìn)的無監(jiān)督方法進(jìn)行比較,包括2DPCA[5],OMF-2DPCA[12],l2,p-2DPCA[13]使用最近鄰分類器進(jìn)行分類,之后通過識別精度來評估這些方法的性能。在本次實(shí)驗(yàn)中設(shè)置算法終止條件為最大迭代次數(shù)100或‖Vt+1-Vt‖F(xiàn)<10-4。實(shí)驗(yàn)代碼在Python 3.7.9上編寫。運(yùn)行環(huán)境為PC 2.30 GHz CPU處理器、12.0 GB內(nèi)存和Windows 10操作系統(tǒng)。
實(shí)驗(yàn)一采用來自于耶魯人臉數(shù)據(jù)庫的素材,該數(shù)據(jù)庫包含15個人在不同面部表情和光照條件下的165張圖像(每個人有11張不同的圖像)。隨機(jī)將165張圖像分成4:1的訓(xùn)練圖像和測試圖像,并隨機(jī)選取一張照片進(jìn)行人臉重構(gòu),重構(gòu)人臉如圖2所示。此外選取主成分k,從5開始,每次遞增5,直至50,加權(quán)系數(shù)α為0.1對圖像利用最近鄰識別分類,所有的實(shí)驗(yàn)均重復(fù)做10次,結(jié)果取10次的平均值,識別率(準(zhǔn)確率)η如表1所示。
從圖2中可以發(fā)現(xiàn),隨著主成分k遞增,重構(gòu)圖像逐漸清晰,可反映出計算的投影矩陣V有效,因此進(jìn)行下一步人臉識別。從表1可知當(dāng)主成分k取到15,25,40,45,50時提出的算法識別率η是高于其他三種方法,尤其在k=15時算法識別準(zhǔn)確率超過80%,而其他方法均未超過80%,進(jìn)一步說明模型優(yōu)于其余方法。
圖2 k=5,10,…,50時重構(gòu)人臉
表1 Yalefaces識別準(zhǔn)確率
實(shí)驗(yàn)二采用來自于ORL人臉數(shù)據(jù)庫的素材,ORL人臉數(shù)據(jù)庫包含40個不同對象的400幅圖像。每人均有10幅不同種類的圖像,如面部表情、不同的照明和面部細(xì)節(jié)(戴眼鏡與否)。實(shí)驗(yàn)隨機(jī)將400張圖像分成4:1的訓(xùn)練圖像和測試圖像,并隨機(jī)選取一張照片進(jìn)行人臉重構(gòu),重構(gòu)人臉如圖3所示。接著利用最近鄰算法對圖像進(jìn)行分類,所得到的識別率如表2所示。
圖3 k=5,10,…,50時重構(gòu)人臉
從圖3中可以看出,重構(gòu)圖像逐漸清晰,可反映出投影矩陣V的有效性,因此進(jìn)行下一步人臉識別。觀察表2發(fā)現(xiàn)基本所有算法準(zhǔn)確率η都大于90%,主要原因取決于圖像性質(zhì)好,比如圖像的色調(diào)、飽和度、明度、對比度、白平衡以及噪聲等[14]。但提出的算法最終識別準(zhǔn)確率在k取5,10,15,25,40,45,50時均優(yōu)于其他算法,進(jìn)一步說明算法的優(yōu)越性。
表2 ORL識別準(zhǔn)確率
實(shí)驗(yàn)三采用AR人臉數(shù)據(jù)庫的素材,AR人臉數(shù)據(jù)庫包含4 000多幅彩色圖像,這些圖像分別從126人(70名男性和56名女性)的正面視角下采集。另外這些照片是在兩個時段拍攝的,并且每個人間隔兩周。每個時段包含13張圖像,其中7張圖像具有不同的面部表情和照明條件,6張圖像被眼鏡和圍巾遮擋。在實(shí)驗(yàn)中,選擇了100人(男性50名和女性50名)的2 600張照片作為實(shí)驗(yàn)圖像,每張圖片被裁剪成120×120像素大小。隨機(jī)選擇80%圖像用于訓(xùn)練,其余20%圖像用于測試。另外隨機(jī)選取一張照片進(jìn)行人臉重構(gòu),重構(gòu)人臉如圖4所示。其中主成分k和加權(quán)系數(shù)α與前兩個實(shí)驗(yàn)選擇方式一樣,所得到的結(jié)果如表3所示。
圖4 k=5,10,…,50時重構(gòu)人臉
表3 AR識別準(zhǔn)確率
從圖4中可以發(fā)現(xiàn),隨著主成分k遞增,重構(gòu)圖像逐漸清晰,從這反映投影矩陣V有效,因此進(jìn)行下一步人臉識別。從表3可知,基本所有算法識別準(zhǔn)確率都比前兩個數(shù)據(jù)庫中實(shí)驗(yàn)準(zhǔn)確率低,原因在于實(shí)驗(yàn)圖像數(shù)量遠(yuǎn)多于前兩個人臉數(shù)據(jù)庫。但所提出的算法在大部分情況下還是優(yōu)于其他3種方法,進(jìn)一步說明模型優(yōu)于其余模型。
(1) 所提出的NF-2DPCA方法對于圖像識別最佳識別準(zhǔn)確率能達(dá)到94.25%,顯示所提出的模型加權(quán)思想有意義且效果更優(yōu)越。
(2) 算法加權(quán)系數(shù)α可以取不同的值,當(dāng)取值為多少時能使實(shí)驗(yàn)結(jié)果達(dá)到最優(yōu)有待進(jìn)一步去研究。