亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

基于視覺詞袋模型的人臉識(shí)別方法

2015-03-23 08:07:40崔建濤范乃梅鄧璐娟

華中師范大學(xué)學(xué)報(bào)(自然科學(xué)版) 2015年1期

關(guān)鍵詞：相似性人臉識(shí)別人臉

崔建濤，范乃梅，鄧璐娟

(鄭州輕工業(yè)學(xué)院軟件學(xué)院，鄭州 450002)

基于視覺詞袋模型的人臉識(shí)別方法

崔建濤*，范乃梅，鄧璐娟

(鄭州輕工業(yè)學(xué)院軟件學(xué)院，鄭州 450002)

近年來，基于視頻的人臉識(shí)別吸引了很多人的關(guān)注，同時(shí)，視覺詞袋模型已成功應(yīng)用于圖像檢索和對(duì)象識(shí)別中.論文提出了一種基于視覺詞袋模型的人臉識(shí)別方法，該方法首先在興趣點(diǎn)提取尺度不變特征變換的圖像描述，這些興趣點(diǎn)由高斯差分檢測(cè)，然后基于k均值生成視覺詞匯，并使用視覺單詞的索引以取代這些描述符.然而，在人臉圖像中，由于面部姿勢(shì)失真，面部表情和光照條件變化，采用尺度不變特征變換描述符后識(shí)別效果并不理想.因此，論文使用仿射尺度不變特征變換描述符作為人臉圖像表示法.在Yale及ORL人臉數(shù)據(jù)庫(kù)上的實(shí)驗(yàn)結(jié)果表明，在人臉識(shí)別中，本文方法可以獲得較低的錯(cuò)誤率.

人臉識(shí)別；視覺詞袋；圖像檢索

隨著人臉識(shí)別技術(shù)在安全驗(yàn)證、醫(yī)學(xué)、檔案管理、人機(jī)交互、公安、視頻會(huì)議和圖像檢索等領(lǐng)域的廣泛應(yīng)用，人臉識(shí)別已經(jīng)成為計(jì)算機(jī)視覺和模式識(shí)別領(lǐng)域的一個(gè)研究熱點(diǎn).人臉識(shí)別的挑戰(zhàn)來源于視覺刺激的巨大變化，包括光照條件、視覺角度、面部表情、年齡及喬裝等.在過去的20年里，人們提出了大量的人臉識(shí)別方法來解決這些具有挑戰(zhàn)性的問題，如文獻(xiàn)[1]所述.這些方法大致可以分為兩類：基于幾何的方法及基于面部的方法.前者通常用相關(guān)位置或者判別特征的其它參數(shù)來表示一張人臉圖像，如眼睛、嘴巴、鼻子、下巴等.相反，基于面部的方法通常將一個(gè)人臉圖像視為空間中的一個(gè)樣本.自從19世紀(jì)90年代，因?yàn)楹?jiǎn)單而又高效，基于面部的方法已經(jīng)占據(jù)了人臉識(shí)別領(lǐng)域的主導(dǎo)地位.

基于視頻的人臉識(shí)別一直是一個(gè)熱門的研究課題，已經(jīng)提出許多著名的方法克服了人臉識(shí)別問題.其中，主成分分析(PCA)[2]在特征空間中尋找一個(gè)子空間，其子空間具有最大的方差，然后把特征向量投影在子空間中.線性判別分析(LDA)[3]試圖獲得另一個(gè)子空間，它可以最大化類間方差與類內(nèi)方差間的比例.局部保持投影(LPP)也試圖找到一個(gè)最優(yōu)的線性轉(zhuǎn)換，在一定意義上，它保持了數(shù)據(jù)集的本地鄰居信息.

最近，提出了基于多幅圖像/視頻序列的人臉識(shí)別方法.互子空間法(MSM)[4]考慮了輸入和作為相似性度量的參考子空間之間的最小角度，每個(gè)子空間是由PCA在每個(gè)人的圖像序列上操作得到的.限制性互子空間法(CMSM)[4]對(duì)MSM有所改進(jìn)，其輸入和參考子空間的構(gòu)建與MSM相同，除了這些子空間的基礎(chǔ)進(jìn)一步投影到約束的子空間，投影用于計(jì)算兩個(gè)人之間的相似度.

上面所有的方法都集中在投影和特征向量的轉(zhuǎn)換上，這些方法所使用的人臉圖像的特征向量，通常是以行為為主要順序的簡(jiǎn)單灰度值.然而，在人臉識(shí)別中，特征的選擇和提取也是非常重要的.最近，在許多計(jì)算可視化問題中，使用了視覺詞袋(BoWs)圖像表示法，表現(xiàn)出了令人印象深刻的性能.第一次在興趣點(diǎn)上提取尺度不變特征變換(SIFT)[5]的圖像特征，興趣點(diǎn)通常用高斯差分(DoG)方法進(jìn)行檢測(cè).然后，一個(gè)聚類方法將這些SIFT特征轉(zhuǎn)換成碼字直方圖.最后，兩個(gè)圖像之間的相似度可以通過直方圖之間的距離來測(cè)定.

對(duì)同一個(gè)人在不同的位置和角度進(jìn)行明顯的變形，由相機(jī)拍下不同的人臉圖像，圖像平面的仿射變換可以緩和這些變形.仿射變換的參數(shù)包括尺度、旋轉(zhuǎn)、平移、相機(jī)的經(jīng)緯度角.雖然SIFT方法中，上述五個(gè)參數(shù)中有三個(gè)是不變的，但是它仍不夠好.本文提出的ASIFT方法涵蓋所有的參數(shù)，并且已被證明是完全仿射不變的.而且，通過兩種分辨率方案，ASIFT方法的計(jì)算復(fù)雜度，可以減少到SIFT方法的一半.

本文提出使用ASIFT視覺單詞作為人臉圖像表示法.在Yale及ORL人臉數(shù)據(jù)庫(kù)上的實(shí)驗(yàn)結(jié)果表明，ASIFT視覺單詞方法比其它經(jīng)典方法要好的多.

1 所提方法設(shè)計(jì)與分析

1.1 尺度不變特征變換(SIFT)

SIFT方法通過旋轉(zhuǎn)比較了兩個(gè)圖像，平移和標(biāo)度的變化來決定是否可由一張圖像推導(dǎo)出另一張圖像.為了實(shí)現(xiàn)規(guī)模不變性，SIFT模擬放大尺度空間.可以通過搜索所有可能尺度的穩(wěn)定點(diǎn)，這些穩(wěn)定點(diǎn)是不變的尺度變化.圖像的尺度空間由該圖像的卷積和一個(gè)在多尺度下可變規(guī)模高斯G(x，y，σ)形成，其中σ是尺度參數(shù).卷積結(jié)果可定義為：

L(x，y，σ)=G(x，y，σ)*I(x，y)，

(1)

其中，*表示坐標(biāo)(x，y)的卷積操作，并且，

(2)

為了在尺度空間有效地檢測(cè)到穩(wěn)定的關(guān)鍵點(diǎn)，使用文獻(xiàn)[4]中Lowe提出的方法，它使用了圖像的高斯差分函數(shù)卷積.兩個(gè)鄰近尺度分離差異，由一個(gè)恒定的尺度因子c計(jì)算為

D(x，y，σ)=(G(x，y，cσ)-G(x，y，σ))I(x，y)=L(x，y，cσ)-L(x，y，σ).

(3)

在尺度空間特征描述的任何情況下，每個(gè)尺度的平滑圖像L都需要計(jì)算.因此，在這個(gè)方法中的D可以用簡(jiǎn)單的圖像減法來計(jì)算.

為了可靠地檢測(cè)到極值，有一個(gè)重要的問題，關(guān)于如何在尺度和空間域確定采樣頻率.這里，我們使用由Lowe所做的設(shè)置，每倍頻程有3個(gè)尺度，高斯G的標(biāo)準(zhǔn)偏差σ設(shè)置為0.5.

除了所有的采樣問題，和應(yīng)用一些閾值來消除不可靠的特征，SIFT方法計(jì)算了空間拉普拉斯算子L(x，y，σ)的尺度空間極值(xi，yi，σi)，和這些每個(gè)極值的正方形圖像小塊樣品的中心(xi，yi)，這對(duì)其鄰居有主導(dǎo)梯度.因?yàn)樵诔叨圈襥產(chǎn)生的圖像小塊是基于梯度方向搜索，它的光照變化是不變的.此外，只有梯度方向的局部直方圖被保留，SIFT描述符對(duì)平移和旋轉(zhuǎn)是不變的.

1.2 仿射SIFT(ASIFT)

SIFT方法的主要成分是，結(jié)合模擬所有查詢圖像縮放和旋轉(zhuǎn)標(biāo)準(zhǔn)化及平移的想法.基于這個(gè)想法，ASIFT方法模擬兩個(gè)相機(jī)軸參數(shù)，經(jīng)度角和緯度角(相當(dāng)于傾斜)，然后應(yīng)用SIFT方法來模擬尺度(縮小)和標(biāo)準(zhǔn)化平移和旋轉(zhuǎn).

步驟2：由于要考慮計(jì)算效率，對(duì)有限數(shù)量的緯度角和經(jīng)度角執(zhí)行采樣步驟.

步驟3：查詢圖像中，所有模擬的圖像用相似度匹配方法(SIFT)進(jìn)行比較.

1.2.2 用兩種分辨率計(jì)劃加速ASIFT 兩種分辨率方案是用來加速計(jì)算兩幅圖像之間相似性過程.該方案的主要思想就是，首先選擇仿射變換，在低分辨率產(chǎn)生足夠的匹配.然后，在這些選定的仿射變換和在原始分辨率的圖像中，模擬查詢和搜索到的圖像.最后，計(jì)算這些模擬圖像之間的相似性.兩種分辨率的步驟的方案總結(jié)如下：

步驟1：使用高斯濾波器和降低采樣運(yùn)算符，計(jì)算查詢圖像u和搜索圖像v的低分辨率圖像.得到的低分辨率圖像，可以定義為：

u′=PFGFu，v′=PFGFv，

(4)

其中，u′和v′各自是u和v的低分辨率圖像.GF和PF各自是高斯濾波器和降低采樣運(yùn)算符.下標(biāo)F代表運(yùn)算符因子的大小.

步驟2：對(duì)u′和v′應(yīng)用ASIFT方法.

步驟3：選擇M仿射變換，產(chǎn)生u′和v′之間良好的匹配.

步驟4：在步驟3選擇的M仿射變換下，對(duì)u和v應(yīng)用ASIFT方法.在M仿射變換中，選擇最好的匹配作為u和v之間的相似性.

同一個(gè)人的面部姿態(tài)和角度變化得越大，SIFT方法就越無法找到任何匹配.在所有的例子中，ASIFT方法的匹配能力明顯優(yōu)于SIFT方法.

1.3 提出的方法

(5)

其中，Ei(j)表示如下

(6)

H(i)是一個(gè)長(zhǎng)度為z的直方圖，同時(shí)，它也是這種人臉的視覺單詞表示法.兩張人臉中，兩種視覺單詞表示法之間的距離，可以由巴氏距離評(píng)估.

1.4 視頻序列中人臉識(shí)別性能評(píng)估

視頻序列的人臉分類有很多方案，如概率多數(shù)表決制和在文獻(xiàn)[7]中提到的貝葉斯最大后驗(yàn)概率的方案.在兩個(gè)方案中，可通過考慮該測(cè)試圖像和當(dāng)前視頻序列中所有圖像之間的相似性，來計(jì)算測(cè)試圖像和視頻序列之間的相似性.這是不恰當(dāng)?shù)模驗(yàn)橥粋€(gè)人具有不同的面部姿勢(shì)的兩張人臉圖像可能會(huì)帶來較低的相似性.這將降低同一個(gè)人測(cè)試圖像和視頻序列之間的整體相似度.本文定義測(cè)試圖像w和視頻序列S之間的相似性為：

(7)

其中，si是在視頻序列S中的人臉圖像.該定義中，在一張測(cè)試圖像和視頻序列中所有人臉圖像之間的相似性中，我們只使用最大的相似性.

2 實(shí)驗(yàn)仿真

2.1 人臉數(shù)據(jù)庫(kù)

使用流行的Yale及ORL人臉數(shù)據(jù)庫(kù)來估算人臉識(shí)別的性能.

Yale人臉庫(kù)包含了15個(gè)人的165張人臉，每人11張，包括了不同光照條件(燈光往左照射、往右照射、往中間照射)，不同的面部表情(正常的、開心的、沮喪的、睡著的、驚訝的以及眨眼的)，不同場(chǎng)景的(戴眼鏡的和不戴眼鏡的)，如圖1所示為Yale人臉庫(kù)中一個(gè)人的11副具有不同特征的人臉圖像.

圖1 Yale人臉庫(kù)中某人的11副人臉圖像

ORL人臉庫(kù)共有40個(gè)人的400張圖片，每人10張，其中有些圖像是拍攝于不同時(shí)期的，人的臉部表情和臉部細(xì)節(jié)有著不同程度的變化，比如笑或者不笑、眼睛或睜或閉、戴或不戴眼鏡，人臉姿態(tài)也有相當(dāng)程度的變化，深度旋轉(zhuǎn)和平面旋轉(zhuǎn)可達(dá)20度，人臉尺度也有多達(dá)10%的變化.如圖2所示為ORL上某人的10張人臉圖像.

圖2 ORL人臉庫(kù)中某人的10張人臉圖像

2.2 實(shí)驗(yàn)結(jié)果及分析

對(duì)于所有的視頻序列，Yale的人臉檢測(cè)第一次用于檢測(cè)每幀中的人臉，然后，檢測(cè)到位置的人臉是不正確的幀將手動(dòng)刪除.所有檢測(cè)到的人臉通過光照補(bǔ)償進(jìn)行預(yù)處理.在實(shí)驗(yàn)中，分別用每個(gè)對(duì)象的訓(xùn)練人臉序列前25幀，和測(cè)試人臉序列的前100幀用來進(jìn)行性能評(píng)估.在Yale數(shù)據(jù)庫(kù)和ORL數(shù)據(jù)庫(kù)中使用的視覺短語(yǔ)數(shù)量分別為9 000和16 384.

實(shí)驗(yàn)中，我們分別選取Yale及ORL人臉庫(kù)中的前5幅人臉圖像作為訓(xùn)練樣本，剩下的人臉圖像作為測(cè)試樣本.此外，我們將本文中的方法與幾種經(jīng)典的方法的單訓(xùn)練樣本識(shí)別率進(jìn)行了比較，包括PCA[2]，(PC)2A[4]，以及SIFT視覺單詞[5]，局部Gabor二值模式(LGBP)[6]， LBP[8].

針對(duì)上面提到的幾種比較方法，本文作者的實(shí)驗(yàn)步驟簡(jiǎn)單介紹如下.PCA方法中，取95%的能量來確定主成分?jǐn)?shù)；(PC)2A方法中只有1個(gè)自由參數(shù)α，是人臉圖像的投影組合權(quán)重，文獻(xiàn)[4]中提到，當(dāng)α的值在0.1至0.5之間時(shí)，(PC)2A的性能對(duì)α不敏感，因此，在實(shí)驗(yàn)中取值0.3；類似地，在LBP中，人臉圖像的分塊對(duì)性能的影響很大，在實(shí)驗(yàn)中采用了4種不同的分塊數(shù)(16、32、40、72)，選取了最佳的實(shí)驗(yàn)結(jié)果(72)；LGBP、及SIFT視覺單詞的所有參數(shù)設(shè)置都與參考文獻(xiàn)相同.幾種方法在Yale及ORL上的實(shí)驗(yàn)結(jié)果如表1所示.

表1 6個(gè)方法在Yale上的人臉識(shí)別率

通過表1可以清晰地看到，在Yale及ORL人臉庫(kù)上，本文方法的識(shí)別率明顯高于文獻(xiàn)其它方法.其中，在Yale上，本文方法比PCA方法高了16個(gè)百分點(diǎn)，比(PC)2A方法高了13個(gè)百分點(diǎn)，比LBP方法高了12個(gè)百分點(diǎn)，比LGBP方法高了14個(gè)百分點(diǎn)，比SIFT視覺單詞方法高了16個(gè)百分點(diǎn)，本文方法的優(yōu)越性由此可見.

在ORL人臉庫(kù)上，本文方法比PCA方法高了近8個(gè)百分點(diǎn)，比(PC)2A方法高了5個(gè)百分點(diǎn)，比LBP方法高了4個(gè)百分點(diǎn)，比LGBP方法高了3.7個(gè)百分點(diǎn)，比SIFT視覺單詞方法高了2個(gè)百分點(diǎn)，再次驗(yàn)證了本文方法的高識(shí)別率.

本文方法在SIFT視覺單詞的基礎(chǔ)上，引入了仿射思想，與SIFT視覺單詞方法相比較，識(shí)別率得到了大大地提高，由此可見，仿射對(duì)解決表情、光照等的變化是很有效的.

3 結(jié)束語(yǔ)

本文針對(duì)基于視頻的人臉識(shí)別問題進(jìn)行了研究，采用了仿射尺度不變特征變換(ASIFT)方法，利用視覺單詞，在興趣點(diǎn)提取尺度不變特征變換的圖像描述，并且借助于高斯差分檢測(cè)，生成基于K均值的視覺單詞，以索引取代描述符，實(shí)現(xiàn)了人臉的識(shí)別嗎，解決了由于面部姿態(tài)、面部表情和光照條件變化所帶了的失真問題.

在Yale及其ORL兩大人臉數(shù)據(jù)庫(kù)上進(jìn)行了實(shí)驗(yàn)，證明了本文所提方法的優(yōu)越性.仿射尺度不變特征變換(ASIFT)方法的引用，提高了人臉識(shí)別率，但在一定程度上增加了額外的計(jì)算開銷，所以，如何在提高識(shí)別率的同時(shí)，改進(jìn)算法的效率，將是進(jìn)一步研究的重點(diǎn).

[1]ZhangZ，WangJ，ZhaH.Adaptivemanifoldlearning[J].IEEETransactionsonPatternAnalysisandMachineIntelligence， 2012， 34(1):131-137．

[2]Arandjelovic＇O.Computationallyefficientapplicationofthegenericshape-illuminationinvarianttofacerecognitionfromvideo[J].PatternRecognition， 2012， 45(1): 92-103．

[3]ConnollyJF，GrangerE，SabourinR.Anadaptiveclassificationsystemforvideo-basedfacerecognition[J].InformationSciences2012， 192(1): 50-70．

[4]LoweD.Distinctiveimagefeaturesfromscale-invariantkeypoints[J].IntJComputVis， 2004， 60(2): 91-110．

[5]XieZ，LiuG，F(xiàn)angZ.Facerecognitionbasedoncombinationofhumanperceptionandlocalbinarypattern[J].LectureNotesinComputerScience， 2012， 72(2): 365-373．

[6]JiangX，MandalB，KotA.Eigenfeatureregularizationandextractioninfacerecognition[J].IEEETransPatternAnalysisandMachineIntelligence， 2008， 30(3): 383-391．

[7]HafizF，ShafieAA，MustafahYM.Facerecognitionfromsinglesampleperpersonbylearningofgenericdiscriminantcectors[J].ProcediaEngineering， 2012， 45(1): 465-472．

[8]WrightJ，YangAY，GaneshA，etal.Facerecognitionviasparserepresentation[J].IEEETransPatternAnalysisandMachineIntelligence， 2009， 31(2): 210-227．

Face recognition based on bag-of-visual word model

CUI Jiantao， FAN Naimei， DENG Lujuan

(School of Software， Zhengzhou University of Light Industry， Zhengzhou 450002)

Recent years， face recognition based on video has been concerned by more and more persons. At the same time， bag-of-visual words (BoWs) representation has been successfully applied in image retrieval and object recognition recently. In this paper， a video-based face recognition approach which uses visual words is proposed. In classic visual words， scale invariant feature transform (SIFT) descriptors of an image are firstly extracted on interest points detected by difference of Gaussian (DoG)， then k-means-based visual vocabulary generation is applied to replace these descriptors with the indexes of the closet visual words. However， in facial images， SIFT descriptors are not good enough due to facial pose distortion， facial expression and lighting condition variation. In this paper， we use Affine-SIFT (ASIFT) descriptors as facial image representation. Experimental results on Yale and ORL Database suggest that proposed method can achieve lower error rates in face recognition task．

face recognition; bag-of-visual word; image retrieval

2014-09-11.

國(guó)家自然科學(xué)基金項(xiàng)目(61040025)．

1000-1190(2015)01-0025-04

TP391.41

*通訊聯(lián)系人. E-mail: 66617880@qq.com.