吳曉天 鄭州地鐵集團有限公司/大連交通大學 電氣信息學院 李林 張麗艷 大連交通大學 電氣信息學院
陳靜梅 鄭州地鐵集團有限公司 杜雪婷 大連交通大學 電氣信息學院
近幾年,人臉識別算法研究一直是計算機視覺、圖像處理和模式識別等領域中的熱點,在身份識別、公安刑偵、機器人和網(wǎng)絡驗證等方面得到實際應用,具有非常廣闊的應用前景。人臉識別算法按處理的特征可分成兩大類:基于幾何特征和基于代數(shù)特征。目前人臉識別算法大多是基于代數(shù)特征的統(tǒng)計方法,如主成分分析法(PCA)、Fisher線形判別分析(FLD)、神經(jīng)網(wǎng)絡方法 和支持向量機。
1990年,Sirovich和Kirby提出利用Karhunen-Loeve變換來表征人臉信息。1991 年,Pentland和Turk 實現(xiàn)了PCA算法對正面人臉圖像的識別。PCA算法在特征提取和降維方面表現(xiàn)較好,但識別率低,不能滿足人們的需求。1936年,F(xiàn)isher提出了線性判別法(LDA)方法即FLD算法,其數(shù)學思想是從高維數(shù)據(jù)空間中提取出有限的低維特征,并能用這些特征進行優(yōu)質(zhì)的判別。本文將兩種方法結合,給出了一種PCA+FLD的人臉識別方法。
PCA又稱為主成分分析法,是在數(shù)據(jù)空間提取一組低維向量來表達該數(shù)據(jù),通常包含兩部分:訓練和識別。訓練是利用訓練圖像樣本數(shù)據(jù)來構建特征臉;識別是將待識別圖像樣本數(shù)據(jù)投影到特征臉子空間上,并且與投影后的訓練樣本相比較,本文采用歐式距離得出識別結果。如果有N個訓練樣本,分了L類,其中每類K個樣本,需要測試有M個樣本,則訓練樣本x可用公式(1)表示。
本文PCA+FLD算法是在PCA的基礎上采用低維特征區(qū)分開不同類別的樣本,并且還要讓相同類樣本更好的聚集,即選擇使類間離散度和類內(nèi)的離散度比值最大的特征(Fisher準則)。類內(nèi)離散度為SW,類間離散度為SB分別如公式(2)(3)所示。
Fisher準則是假設SW非奇異條件下,尋找使得最大的加權矩陣W。
其中SB的非零空間和SW的零空間的相交空間,該空間的辨識力最強。在降維過程中SW應是非奇異的,否則也會丟失最好的辨識能力。FLD算法在人臉識別中的應用并不順利,當樣本數(shù)小樣本維數(shù)時,就會出現(xiàn)小樣本問題,導致“PCA+FLD”方法主要分兩部分,首先利用PCA降維,再在得到的低維空間上用FLD算法進行最佳分類?!癙CA+LDA”人臉識別的過程主要分訓練和識別兩個階段。算法實現(xiàn)步驟包括以下13步。
5)確定維數(shù)。本文根據(jù)信息量來計算,只選取前n個最大特征值及其對應的特征向量。本文先將特征值從大到小排列,若前n個值之和大于所有特征值之和的90%,則最小的n就是所確定的維數(shù)N。
7)降維:
8)按照公式(2)和(3)計算樣本類內(nèi)離散度矩陣SW和類間離散度矩陣。
10)利用公式(10),將所有訓練樣本投影到t維子空間,得到最佳分類特征如公式(11)所示。這就是含有L類特征的人臉識別數(shù)據(jù)庫。
11)識別時用待識別的人臉圖像,利用公式(3)得到差值矩陣。對做兩次投影變換,得到最佳分類特征。
12) 用公式(12)計算最佳分類特征 與每類人臉的最小歐式距離。
本文采用樣本圖像源自ORL標準人臉庫40人的樣本人臉圖像。首先通過算法將圖像分辨率均歸一為112x92。接著對圖像灰度化處理,再采用直方圖均衡化處理以擴大灰度范圍。大多算法將每個人的部分圖片作為訓練樣本,剩下的作為檢測樣本,有時會出現(xiàn)某幅圖片誤分類,導致識別率降低。本文采用將全部400幅圖片都用來檢測,增大檢測樣本基數(shù),使算法檢測結果更可信。改變訓練和測試樣本的構成,對樣本進行多次檢測,最后對檢測結果求平均值得到表1。從表1可知,訓練樣本數(shù)大于3時,基于PCA+FLD算法要比PCA算法的識別正確率高。隨訓練樣本數(shù)增加,可以看出全部樣本因為檢測樣本基數(shù)大識別率單調(diào)遞增,而部分樣本檢測結果有起伏波動。
表1 部分樣本和全部樣本使用PCA算法和PCA+FLD算法的檢測結果
本文實現(xiàn)了PCA降維與FLD結合的算法應用于人臉識別,仿真結果表明本文算法比PCA算法的識別率有明顯的提高,代價是本文算法在訓練樣本少的時候識別效果較差。