李顏瑞
(山西機(jī)電職業(yè)技術(shù)學(xué)院,信息工程系,山西,長(zhǎng)治 046011)
在如今飛速發(fā)展的社會(huì)里,能夠準(zhǔn)確地識(shí)別出每個(gè)人的身份已經(jīng)變的越來(lái)越重要了,目前,在識(shí)別中常用的識(shí)別方法有物品識(shí)別和標(biāo)識(shí)識(shí)別,這兩種識(shí)別方法自古就有,所以我們統(tǒng)稱為傳統(tǒng)的識(shí)別方法,例如會(huì)員卡、身份證、鑰匙、口令和密碼等。但是這些識(shí)別方法都存在著很大的安全隱患,例如鑰匙、身份證、會(huì)員卡容易丟失或者損壞,口令和密碼也容易被泄露或者被不法分子攻破。所以,為了進(jìn)一步提高安全性和可靠性,生物特征識(shí)別技術(shù)悄然興起,為信息安全的發(fā)展奠定了新的基礎(chǔ),能提高社會(huì)的穩(wěn)定因素。生物特征識(shí)別技術(shù)是將人的生物特征和信息特征相結(jié)合起來(lái),以人的生物特征為物質(zhì)條件的識(shí)別技術(shù)。到目前為止,已經(jīng)研究的生物技術(shù)有指紋[1]、虹膜[2]、人臉[3]、掌紋[4]等,其中人臉識(shí)別和指紋識(shí)別已經(jīng)得到了廣泛的應(yīng)用,虹膜識(shí)別和掌紋識(shí)別也在一些關(guān)鍵領(lǐng)域得到了應(yīng)用。眉毛識(shí)別的研究也已經(jīng)開(kāi)始,已經(jīng)完成了使用PCA、小波、HMM和2DPCA[5]等方法進(jìn)行眉毛識(shí)別,但是總體上還處于研究的初級(jí)階段,還有具有很大的研究空間。本文利用線性判別分析方法(LDA方法)提取特征向量,該方法是在主成分分析方法(PCA方法)提取特征的基礎(chǔ)上,再進(jìn)行兩次投影得到最終的特征向量。解決了PCA中忽略高階統(tǒng)計(jì)量信息的缺點(diǎn)。最后利用最近鄰方法進(jìn)行識(shí)別。
LDA[6]也稱為線性判別分析方法,還可稱為Fisher臉?lè)?,英文形式為L(zhǎng)inear Discriminant Analysis(FLDA),在1936年,F(xiàn)isher(費(fèi)舍)提出了該方法,該方法是依據(jù)測(cè)量或者觀察得到的一系列的值,并對(duì)該一系列的值進(jìn)行研究分析決定如何分類的方法。
線性判別分析方法是在訓(xùn)練集的樣本空間上進(jìn)行分組,然后對(duì)分組的樣本空間中的樣本進(jìn)行計(jì)算,生成特征向量,研究計(jì)算生成的特征向量和分組的樣本之間的關(guān)系,通過(guò)研究得到的關(guān)系,來(lái)進(jìn)一步確定出能決定分組的函數(shù)。將生成的函數(shù)用于識(shí)別或者分類待識(shí)別的樣本空間中的樣本,在整個(gè)函數(shù)中訓(xùn)練樣本的分組情況定義為因變量,待識(shí)別的樣本被稱為自變量。
假設(shè)存在一個(gè)樣本集合Z,且Z={x1,x2,x3,…,xn}。其中,將樣本分成ij類,第i類是{xi1,i2,…,zi}其元素?cái)?shù)量用zi表示,根據(jù)樣本中的數(shù)據(jù)可以求出每個(gè)類樣本的平均值μi和整個(gè)樣本集合的平均值μ。那么μi和μ的公式為
(1)
(2)
那么樣本中的類間離散度Sb和類內(nèi)離散度Sw這2個(gè)矩陣為
(3)
(4)
那么最后生成的投影矩陣為,其該矩陣為最優(yōu)矩陣。
(5)
然后繼續(xù)將訓(xùn)練的眉毛圖像直接在Wopt矩陣上進(jìn)行投影計(jì)算,就能得到最佳的特征向量,具體計(jì)算為
Sbwi=λiSwwi
(6)
其中,λi為特征值,且i的取值為1,2,…,n-1 。
為了完成研究,第一步必須建立自己的眉毛數(shù)據(jù)庫(kù)進(jìn)行實(shí)驗(yàn)??紤]到采集設(shè)備有一定的要求,所以繼續(xù)采用北工大李玉鑑教授提供的眉毛數(shù)據(jù)庫(kù)進(jìn)行實(shí)驗(yàn)。
通常我們采集到的眉毛圖像是包含頭發(fā)和一部分臉部信息的人臉圖像。這樣的圖像是不能直接用于識(shí)別的,必須將眉毛區(qū)域圖像從人臉的圖像上分離出來(lái),這一過(guò)程我們稱之為圖像分割[7]。因?yàn)閳D像分割的目的是排除一切影響識(shí)別的干擾信息、提高識(shí)別,所以本文采用了簡(jiǎn)單、方便的手工圈取眉毛圖像分割方法進(jìn)行預(yù)處理,得到眉毛圖像區(qū)域部分如圖1(a)、圖1(b)。
然后進(jìn)行彩色圖像的灰度化,根據(jù)心理學(xué)的知識(shí),人對(duì)紅色和綠色最敏感,所以,交通信號(hào)燈就選擇了這兩種顏色,那么這個(gè)公式為
g=0.3R+0.59G+0.11B
(7)
生成純眉毛圖像的灰度圖,見(jiàn)圖1(c)。
最后進(jìn)行歸一化處理,通過(guò)實(shí)驗(yàn)發(fā)現(xiàn),用雙線性插值算法進(jìn)行歸一化處理,效果最好,并且將圖像歸一化為40×200 px時(shí),無(wú)論是在識(shí)別率還是在特征量的大小上,都有一個(gè)比較好的效果。所以文本采用雙線性插值算法進(jìn)行純眉毛圖像的尺度歸一化處理,且純眉毛圖像歸一化為40×200 px見(jiàn)圖1(d)。
(a) 原始眉毛
用于特征提取的純眉毛圖像必須是經(jīng)過(guò)預(yù)處理得。其中輸入的純眉毛圖像的格式為:灰度圖,且圖片為BMP或者jpg格式。特征提取后的輸出結(jié)果為一個(gè)矩陣,且矩陣中的每一行或者每一列為一張眉毛圖像的特征向量。具體方法如下。
(1) 先將訓(xùn)練中的純眉毛圖像按照人的類別進(jìn)行分組,然后計(jì)算訓(xùn)練中每個(gè)人的訓(xùn)練眉毛的平均值μi和所有純眉毛的平均值μ。
(2) 將每個(gè)人的訓(xùn)練眉毛都減去自己的均值μi,即x′=xi,j-μi,眉毛記為Ei,j。
(4) 將Ei,j表示的眉毛圖像先按照行優(yōu)先順序形成一個(gè)列向量。然后按照眉毛的先后順序,將產(chǎn)生的列向量依次放到同一個(gè)矩陣中,組建成一個(gè)新矩陣記為Mij。
下面求解Sw矩陣,要求是非奇異矩陣,但是實(shí)際情況是奇異矩陣,為了求解簡(jiǎn)化,所以本文借助PCA方法求解。
(5) 利用PCA求解投影空間
(c) 求解協(xié)方差矩陣CM,即CM=BBT。解的一組特征值λ0,λ1,…,λm-1和特征值所對(duì)應(yīng)的向量β0,β1,β2,…,βm-1。
(d) 利用特征值進(jìn)行從大到小排序,取出前K個(gè)特征值λ0,λ1,…,λm-1和其所對(duì)應(yīng)的向量β0,β1,β2,…,βm-1,分別組成兩個(gè)矩陣。即特征值矩陣λ和向量矩陣β。其中λ矩陣為對(duì)角矩陣,β矩陣就為投影矩陣。
(8)
(9) 求解SbV=λSwV矩陣,得到其特征向量及特征值。
(10) 將特征值從大到小排序,選取前n-1個(gè)特征值所對(duì)應(yīng)的特征向量并組成矩陣。記為F矩陣。
(11) 將純眉毛圖像先在β矩陣上投影,然后再在F矩陣上投影,得到的結(jié)果就為最終提取到的特征向量。
(12) 按此方法提取出訓(xùn)練集合中的眉毛圖像的特征向量,并保存到一個(gè)數(shù)組中,那么該數(shù)組就為訓(xùn)練集合眉毛特征庫(kù)。
近鄰法則[8]是一種采用比較的方法進(jìn)行識(shí)別的,主要的思想是通過(guò)比較待識(shí)別的樣本的特征與訓(xùn)練樣本所形成的特征數(shù)據(jù)庫(kù)中,哪個(gè)特征向量最近,就確定待識(shí)別樣本就是該最近的類別。
利用距離的大小,作為識(shí)別決策的重要依據(jù)的方法叫作最近鄰方法。假設(shè)有一個(gè)樣本類,樣本類中有N個(gè)類,其中每個(gè)類的樣本用xi,i表示是第幾個(gè)類別,i∈[1,N],j表示是第幾個(gè)樣本,那么xi表示是第i個(gè)樣本類中的第j個(gè)樣本。則識(shí)別函數(shù)為
(9)
識(shí)別方法如下。
(1) 將待識(shí)別集合中的眉毛圖像,按照預(yù)處理方法進(jìn)行操作并生成40×200 px的灰度圖像。
(2) 使用LDA算法提取待測(cè)試集合中的純眉毛圖像的特征向量。
(3) 計(jì)算待識(shí)別眉毛特征與訓(xùn)練集合的眉毛特征向量數(shù)據(jù)庫(kù)中特征向量的之間的距離,記為di,其中di為測(cè)試眉毛特征向量與訓(xùn)練集合的眉毛特征向量數(shù)據(jù)庫(kù)中第i個(gè)特征向量的歐式距離。
(4) 判斷公式min(di)≤dmax,如果判斷為假,執(zhí)行步驟(5);如果判斷為真,則執(zhí)行步驟(6)。
(5) 當(dāng)min(di)>dmax時(shí),可以確定待識(shí)別眉毛不是已知眉毛數(shù)據(jù)庫(kù)中的眉毛。
(6) 當(dāng)min(di)≤dmax,可以確定待識(shí)別的眉毛為已知眉毛數(shù)據(jù)庫(kù)中的眉毛,并且與訓(xùn)練集合的眉毛特征向量數(shù)據(jù)庫(kù)中第i個(gè)特征向量是同一個(gè)人的眉毛。
實(shí)驗(yàn)中所使用的眉毛數(shù)據(jù)庫(kù)是由北京工業(yè)大學(xué)的李鈺鑑教授提供的,在109人的眉毛庫(kù)上進(jìn)行實(shí)驗(yàn)。每個(gè)人都分為睜眼和閉眼兩種情況,其中睜眼用于訓(xùn)練,閉眼用于識(shí)別。通過(guò)實(shí)驗(yàn),進(jìn)一步證明眉毛識(shí)別用于個(gè)人身份識(shí)別的可能性和有效性。
該實(shí)驗(yàn)是為了證明基于LDA眉毛識(shí)別方法的正確性,并且同時(shí)驗(yàn)證了該方法優(yōu)于其它的眉毛識(shí)別方法。實(shí)驗(yàn)結(jié)果如表1所示。
表1 多種識(shí)別方法的比較
通過(guò)表1可以看出,利用LDA方法做特征提取,用最近鄰方法做識(shí)別,其識(shí)別率高于HMM、PCA和小波變換等方法。分析原因是LAD在做訓(xùn)練時(shí),每個(gè)人選用了3張進(jìn)行訓(xùn)練,加大了訓(xùn)練樣本中每類的數(shù)量。并且PCA特征提取算法是提取的眉毛圖像的像素點(diǎn)的灰度值的二階統(tǒng)計(jì)量,對(duì)于高階統(tǒng)計(jì)量直接給忽略掉。而LDA特征提取方法很好的克服這些缺陷。最近鄰方法識(shí)別是利用的距離方法,該方法簡(jiǎn)單實(shí)用。
下面的實(shí)驗(yàn)是為了證明在訓(xùn)練樣本中,每類樣本選取不同的數(shù)量對(duì)實(shí)驗(yàn)的影響。實(shí)驗(yàn)結(jié)果如表2所示。
表2 不同量眉毛庫(kù)數(shù)據(jù)庫(kù)的實(shí)驗(yàn)結(jié)果
通過(guò)表2可以看出,基于距離的識(shí)別方法,訓(xùn)練樣本中每類樣本選取數(shù)量逐漸增多時(shí),識(shí)別率也相應(yīng)的提高,但是消耗的時(shí)間也會(huì)增加。這是因?yàn)槊款悩颖具x取數(shù)量增加,其最后得到的該類的特征向量越優(yōu)化,識(shí)別率也就提高了。但是,特征向量的優(yōu)化程度在特定的提取方法上也是有極限的,不能無(wú)限制提高,除非進(jìn)行算法改進(jìn),所以出現(xiàn)了選用3張和選用4張的識(shí)別率相同。
所以利用LDA方法提取眉毛特征向量,采用最近鄰方法,在109人的眉毛庫(kù)上做識(shí)別具有較高的識(shí)別率,且識(shí)別率高達(dá)94.5%。進(jìn)一步證明使用LDA提取的特征質(zhì)量好,識(shí)別率高。
在近二十年里,涌現(xiàn)出了很多的生物識(shí)別方法,但是眉毛識(shí)別是近十年左右才開(kāi)始研究的。本文采用基于LDA的眉毛識(shí)別方法在109人的眉毛庫(kù)上取得了較好的識(shí)別效果,進(jìn)一步證明了眉毛識(shí)別的可行性。后續(xù)工作要集中在眉毛的自動(dòng)提取以及眉毛的基本形狀信息的識(shí)別方法,比如眉毛輪廓的識(shí)別方法,這樣才更有利于眉毛識(shí)別技術(shù)的應(yīng)用推廣。