孫玲 陳德運(yùn) 李驁 付立軍 楊潤 于梁
摘 要:快速傅里葉變換(FFT)方法已經(jīng)在圖像識(shí)別中有廣泛的應(yīng)用。但是,F(xiàn)FT方法面臨一些挑戰(zhàn),比如:不同角度的遮擋、變化的光照和多變的面部表情等。將快速傅里葉變換和特征空間的圖像表示方法融合起來解決上述問題。有以下階段:①使用FFT從原始圖像中提取頻譜特征。②利用高斯核方法在特征空間中獲得新的特征。新的特征和原始圖像的訓(xùn)練樣本分別使用稀疏表示來獲得稀疏解。新的特征和原始圖像的測試樣本可以使用上述稀疏解及其訓(xùn)練樣本來分別計(jì)算得分。隨后,可以利用得分和新得分進(jìn)行圖像分類。這一方法在圖像分類上具有稀疏性和魯棒性,非常容易實(shí)現(xiàn)。實(shí)驗(yàn)結(jié)果表明,本文提出的方法在圖像分類上具有高的準(zhǔn)確率。
關(guān)鍵詞:圖像識(shí)別; FFT;基于特征空間方法
DOI:10.15938/j.jhust.2020.06.020
中圖分類號(hào): TP317.4
文獻(xiàn)標(biāo)志碼: A
文章編號(hào): 1007-2683(2020)06-0137-05
FFT Consolidated Feature Space Methods for Image Representation
SUN Ling1, CHEN De-yun1, LI Ao1, FU Li-jun1, YANG Run2, YU Liang3
(1.School of Computer Science and Technology, Harbin University of Science and Technology, Harbin 150080, China;
2.School of Computer Science and Technology, Harbin Institute of Technology, Harbin 150001, China;
3.Jiuquan Satellite Launch Center, Dun Huang 736200, China)
Abstract:Fast Fourier Transform (FFT) method has been widely used in image recognition. However, FFT method faces some challenges, such as occlusion of different angles, varying lighting and changeable facial expression. We combine fast Fourier transform and feature space image representation method to solve the above problems. There are the following stages: ①Use FFT to extract spectral features from the original image. ②Use Gaussian kernel method to obtain new features in the feature space. The new features and the training samples of the original image use sparse representations to obtain sparse solutions. The new features and the test samples of original image can use the aforementioned sparse solution and its training samples to calculate scores respectively. Subsequently, the score and the new score can be used for image classification. This method has sparseness and robustness in image classification, and is very easy to implement. Experimental results show that the method proposed in this paper has high accuracy in image classification.
Keywords:image recognition; FFT; feature space-based method
0 引 言
圖像表示是一項(xiàng)重要的識(shí)別技術(shù),圖像表示被廣泛地應(yīng)用到人臉識(shí)別、掌紋識(shí)別、遙感和醫(yī)學(xué)診療等多個(gè)領(lǐng)域[1]。在過去幾年中,學(xué)者們已經(jīng)提出了多種圖像分類方法[2],尤其在人臉識(shí)別方面。然而,圖像分類技術(shù)在現(xiàn)實(shí)的應(yīng)用中仍然面臨諸多挑戰(zhàn),如:不同角度的遮擋、變化的光照和多變的面部表情等[3-4]。因此,如何更好地表示圖像和提高圖像分類性能成為研究的熱點(diǎn)。
圖像分類需要更多的訓(xùn)練樣本來挖掘在不同條件下的圖像特征。然而,到目前為止,所收集的圖像受到采集的空間和環(huán)境的限制,導(dǎo)致在實(shí)際中有用的訓(xùn)練樣本數(shù)量非常有限。尤其,在某些環(huán)境下,每類的訓(xùn)練樣本數(shù)量只有一個(gè),如:護(hù)照系統(tǒng)。以上例子說明不充足的訓(xùn)練樣本限制了人臉識(shí)別技術(shù)的發(fā)展[5]。
為了提高人臉識(shí)別技術(shù),近年來一些學(xué)者提出了不同的方法來解決上述難題[6]。合成圖像是增強(qiáng)樣本的最常用的方法。例如,Sharma等[7]提出在變化的照明和不固定的姿勢(shì)下使用單個(gè)2D圖像來生成虛擬圖像。該方法利用合成訓(xùn)練樣本來對(duì)測試樣本(也稱為識(shí)別面)進(jìn)行分類。Beymer等[8]提出利用不同姿勢(shì)的面部圖像生成虛擬圖像,然后利用原始圖像和虛擬圖像來識(shí)別身份;Tang等[9]采用光流和表達(dá)定量圖像構(gòu)建虛擬圖像,擴(kuò)展了訓(xùn)練樣本數(shù)量,提高了圖像分類的正確率;Jung等[10]使用噪音來獲取損壞的圖像;Thian等[11]利用簡單的幾何變換構(gòu)建虛擬圖像;Thomes[12]采用單個(gè)正面人臉來生成3D人臉模型。生成的虛擬圖像用于處理一個(gè)訓(xùn)練樣本問題[13-14]。單一的方法在圖像特征提取過程中,在不同場景下會(huì)遺漏一些重要特征,因此,利用多種方法融合來表示圖像已成為近年來的研究熱點(diǎn)。
以上的研究表明訓(xùn)練樣本問題在圖像處理上已經(jīng)引起了很多的關(guān)注,許多學(xué)者提出了不同的方案來解決這個(gè)問題[15-16]。例如,Xu等[17]利用所獲得的鏡面和原始面部圖像整合以識(shí)別人臉。Wang等[18]將Gabor和二維主成分分析(2DPCA)融合用于人臉識(shí)別,其獲得的精度高于單一2DPCA和(最近鄰)NN以及NN和Gabor的組合。Yang等[19]利
用完整的字典來獲得稀疏系數(shù)表示原始圖像。該方法利用選擇最大融合規(guī)則來組合所獲得的系數(shù),通過組合系數(shù)構(gòu)建新圖像。它可以融合新圖像和原始圖像來獲得分?jǐn)?shù)并使用稀疏分類器來分類圖像,對(duì)圖像識(shí)別有很好的作用。 Kong等[20]使用生化離子交換模型來解決多焦點(diǎn)圖像融合技術(shù)的問題。
我們注意到圖像的多種表示不僅能擴(kuò)充訓(xùn)練樣本,而且提出一個(gè)強(qiáng)魯棒性的圖像識(shí)別方法[21]。因此,我們提出一種FFT協(xié)同特征空間的圖像表示方法。這種方法首先可以使用FFT算法從原始圖像中提取頻率特征。并且,我們可以將頻率特征和原始圖像分別分為訓(xùn)練數(shù)據(jù)集和測試數(shù)據(jù)集兩部分。可以利用高斯核方法在特征空間中獲得新的訓(xùn)練數(shù)據(jù)集和測試數(shù)據(jù)集,這對(duì)應(yīng)于原始圖像中的原始圖像和頻率特征。使用所有訓(xùn)練樣本來線性表示測試樣本并獲得線性系數(shù),分別獲得與原始圖像和頻率特征相對(duì)應(yīng)的分?jǐn)?shù)。融合上述操作所獲得的分?jǐn)?shù)以獲得新分?jǐn)?shù)用于分類圖像。這種新方法首先集成了FFT和基于特征空間的表示,這對(duì)圖像分類更有效。它提取頻率特征與原始圖像互補(bǔ),該方法是非常容易實(shí)現(xiàn)的。同時(shí),具有稀疏性,這使得圖像表示有更高的準(zhǔn)確性。為了測試所提方法的性能,我們選擇公共數(shù)據(jù)集Georgia Tech(GT)[22]和(Aleix Martinez與Robert Benavente)(AR)[23]來進(jìn)行實(shí)驗(yàn)。
1 提出的方法
1.1 獲取原始圖像的特征
快速傅里葉變換(FFT)是離散傅里葉變換(DFT)的快速算法[24]。它已廣泛應(yīng)用于信號(hào)處理、計(jì)算機(jī)視覺和模式識(shí)別領(lǐng)域。本文使用FFT算法從原始圖像中提取頻率特征。DFT和FFT算法[4]描述如下。我們假設(shè)有限序列的長度是x(c)。DFT算法由等式(1)表示:
X(c)=DFT[x(n)]=∑l-1n=0x(n)wnlN =
∑l/2-1n=0x(n)wnlN+∑l-1n=N/2x(n)wnlN,c=0,1,…,l-1(1)
當(dāng)n′=n-l2將式(1)轉(zhuǎn)換成式(2):
X(c)=∑l/2-1n′=0[x(n′)+wc*l/2lx(n′+l/2)]wn′cl(2)
當(dāng)c為偶數(shù)時(shí),(-1)c為1,c=2r(r=0,1,…,l/2-1)
當(dāng)c為奇數(shù)時(shí),(-1)c為-1,c=2r+1。
因此,我們可以將(2)簡化為式(3)和(4)
X(2r)=[∑l/2-1n=0x(n′)+x(n′+l/2)]w2n′rl=
∑l/2-1n′=0x1(n′)wn′rl/2=DFT[x1(n′)]l/2(3)
X(2r+1)=∑l/2-1n′=0[x(n′)-
x(n′+l/2)]wn′lw2n′rl=
∑l/2-1n??????? ′=0x2(n′)wn′rl/2=DFT[x2(n′)]l/2(4)
因?yàn)閳D像是二維的,所以我們可以模仿一維FFT來獲得二維FFT。 假設(shè)f(x,y)它代表一個(gè)原始圖像,其大小是矩陣M×N。并用來表示要獲得的頻率變量F(u,v)。
當(dāng)0≤x≤M-1,0≤y≤N-1,u=0,1,2,…,M-1和u=0,1,2,…,N-1時(shí)
F(u,v)=DFT[f(x,y)]=
∑M-1x=0∑N-1y=0f(x,y)e-j2π(ux/M+vy/N)(5)
1.2 獲得新的表示方法
本文利用FFT提取頻率特征,利用核方法在核空間提取特征,并利用稀疏方法分別獲得分?jǐn)?shù)。最后,融合以上獲得的分?jǐn)?shù)并使用新分?jǐn)?shù)對(duì)圖像進(jìn)行分類。我們可以利用Ref [25]分別獲得原始圖像和頻率特征的誤差ek=‖KY-gk‖2。此外,ek=‖KY-gk‖2可用來評(píng)價(jià)原始圖像和頻率特征圖像分類的誤差效果。
2 本文表示方法的優(yōu)點(diǎn)
本文表示方法在圖像分類上具有稀疏性和高準(zhǔn)確率。在數(shù)據(jù)集GT上驗(yàn)證其性能。
圖1表示當(dāng)訓(xùn)練樣本的數(shù)量1~100時(shí)特征空間中的原始圖像的值。圖2表示當(dāng)訓(xùn)練樣本數(shù)量1~100時(shí)在特征空間中獲得的特征和原始圖像的值。如圖1和圖2所示,特征空間中獲得的特征和原始圖像的值比特征空間中的原始圖像的值更接近0。
當(dāng)訓(xùn)練樣本的數(shù)量1~100時(shí)所提出的方法具有部分稀疏性,這使得它具有更高的圖像識(shí)別精確率。
3 方法性能驗(yàn)證
使用公開的GT和AR數(shù)據(jù)集來進(jìn)行實(shí)驗(yàn)并驗(yàn)證所提出方法的性能。同時(shí),在特征空間中使用單個(gè)獲得的頻率特征和單個(gè)原始圖像進(jìn)行對(duì)比實(shí)驗(yàn)。
3.1 GT數(shù)據(jù)集
GT人臉數(shù)據(jù)集從50個(gè)不同的測試者中獲得,每個(gè)測試者具有15個(gè)樣本。這些圖像是佐治亞理工學(xué)院1990年7月1日至1999年11月15日之間收集的。這些圖像包括不同的面部表情和不同的光照條件。圖像保存為“.jpg”格式。圖3顯示了來自GT面部數(shù)據(jù)集的部分面部圖像。
使用每個(gè)類中不同數(shù)量的圖像作訓(xùn)練樣本,并且每個(gè)類的其他圖像被用作測試樣本。如表1所示,顯示了圖像在GT數(shù)據(jù)集中分類的錯(cuò)誤率。在表1中,獲得的特征頻率和原始圖像被融合并用于特征空間中的圖像進(jìn)行分類,從而降低錯(cuò)誤率。
3.2 AR數(shù)據(jù)集
AR人臉數(shù)據(jù)集用于設(shè)計(jì)實(shí)驗(yàn)。AR數(shù)據(jù)集來自126個(gè)不同的測試者。這些照片由Aleix Martinez和Robert Benavente收集。這些圖像包括不同的面部表情和不同的遮擋。圖像保存為“.bmp”格式。 圖4示出了來自AR面部數(shù)據(jù)集的部分面部圖像。
使用每個(gè)類中不同數(shù)量的圖像用作訓(xùn)練樣本,并且每個(gè)類的其他圖像被用作測試樣本。如表2所示,顯示了圖像在AR人臉數(shù)據(jù)集中分類的錯(cuò)誤率。在表2中,獲得的特征頻率和原始圖像被融合并用于對(duì)特征空間中的圖像進(jìn)行分類,從而降低錯(cuò)誤率。
4 結(jié) 論
提出了一種基于快速傅里葉變換和特征空間的圖像分類方法,使得特征與原始圖像互補(bǔ)。此外,該方法簡單且容易實(shí)現(xiàn)。本文提出的方法具有稀疏性和魯棒性,這是提高圖像分類準(zhǔn)確率的一個(gè)重要原因。實(shí)驗(yàn)證明,該方法具有良好的實(shí)際應(yīng)用價(jià)值。
參考文獻(xiàn):
[1] XU Yong, ZHU Xingjie, LI Zhengming, et al. Using the Original and ‘Symmetrical Face Training Samples to Perform Representation Based Two-step Face Recognition [J]. Pattern Recognition, 2013, 46(4):1151.
[2] TIAN Chunwei, ZHANG Qi, SUN Guanglu, et al. Multiple Methods for Wechat Identification [C] // 2016 6th International Conference on Advanced Design and Manufacturing Engineering (ICADME 2016), Zhuhai, China. July 23-24 2016, 2016:598.
[3] TIAN Chunwei, ZHANG Qi, SUN Guanglu, et al. Linear Discriminant Analysis Representation and CRC Representation for Image Classification [C] // 2016 2nd IEEE International Conference on Computer and Communications, Chengdu, China. October 14-17, 2016:755.
[4] XU Yong, ZHANG Bob, ZHONG Zuofeng. Multiple Representations and Sparse Representation for Image Classification[J]. Pattern Recognition Letters, 2015, 68(S1):9.
[5] PISHCHULIN L, GASS T, DREUW P. et al. Image Warping for Face Recognition: From Local Optimality Towards Global Optimization[J]. Pattern Recognition, 2012, 45(9):3131.
[6] WEN Jie, FANG Xiaozhao, XU Yong, et al. Low-rank Representation with Adaptive Graph Regularization[J]. Neural Networks. 2018, 108:83.
[7] SHARMA A, Dubey P, Tripathi, et al. Pose Invariant Virtual Classifiers from Single Training Image Using Novel Hybrid-eigenfaces[J]. Neurocomputing, 2010,73(10/12):1868.
[8] BEYMER D, POGGIO T. Face Recognition from One Example View [C] // IEEE International Conference on Computer Vision, Cambridge, USA. June 20-23, 1995:500.
[9] TANG Bin, LUO Siwei, HUANG Hua. High Performance Face Recognition System by Creating Virtual Sample [C] // Proceedings of 2003 International Conference on Neural Networks and Signal Processing, 2003:972.
[10]JUNG H, HWANG B, LEE S. Authenticating Corrupted Face Image Based on Noise Model [C] // Proceedings-Sixth IEEE International Conference on Automatic Face and Gesture Recognition, Seoul, Korea. May 17-19,2004:272.
[11]THIAN N P H, MARCEL S, BENGIO S. Improving Face Authentication Using Virtual Samples [C] // 2003 IEEE International Conference on Accoustics, Speech, and Signal Processing Hong Kong, China,? April 6-10, 2003:233.
[12]THOMAS V. Synthesis of Novel Views from a Single Face Image [J]. International Journal of Computer Vision, 1998, 28(2):103.
[13]PARTHA N, FEDERICO G, TOMASO P. Incorporating Prior Information in Machine Learning by Creating Virtual Examples [J]. Proceedings of the IEEE. 1998, 86(11):2196.
[14]MARTINEZ A M. Matching Expression Variant Faces [J]. Vision Research, 2003,43(9):1047.
[15]FEI Luke, XU Yong, TANG Wenliang, et al. Double-orientation Code and Nonlinear Matching Scheme for Palmprint Recognition [J]. Pattern Recognition, 2016, 49:89.
[16]TIAN Chunwei, ZHANG Qi, SUN Guanglu, et al. Weighted Nearest Neighbor Algorithm and Collaborative Representation for Image Classification[J]. Journal of Computational and Theoretical Nanoscience, 2016, 13(12):9065.
[17]XU Yong, LI Xuelong, YANG Jian, et al. Integrate the Original Face Image and its Mirror Image for Face Recognition [J]. Neurocomputing, 2014, 131:191.
[18]WANG Jian, CHENG Jian. Face Recognition Based on Fusion of Gabor and 2DPCA Features [C] // ISPACS 2010-2010 International Symposium on Intelligent Signal Processing and Communication Systems, 2010:5704688.
[19]YANG Bin, LI Shutao. Multifocus Image Fusion and Restoration with Sparse Representation [J]. IEEE Transactions on Instrumentation and Measurement, 2010, 59(4):884.
[20]KONG Weiwei, LEI Yang. Multi-focus Image Fusion Using Biochemical Ion Exchange Model [J]. Applied Soft Computing Journal 2017, 51:314.
[21]XU Yong, FEI Lunke, ZHANG David. Combining Left and Right Palmprint Images for More Accurate Personal Identification [J]. IEEE Transactions on Image Processing, 2015, 24(2):549.
[22]GOEL N, BEBIS G, NEFIAN A. Face recognition experiments with random projection. Proceedings of SPIE -The International Society for Optical Engineering,2005,5779:426.
[23]MARTINEZ A, BENAVENTE R. The AR face database[J]. CVC Technical Report #24, 1998: 1.
[24]FIALKA O, CADIK M. FFT and Convolution Performance in Image Filtering on GPU [C] // Proceedings of the International Conference on Information Visualisation, London, United Kingdom. July 5-7, 2006:609.
[25]TIAN Chunwei, ZHANG Qi, ZHANG Jian, et al. 2D-PCA Representation and Sparse Representation for Image Recognition[J]. Journal of Computational and Theoretical Nanoence, 2017, 14(1):829.
(編輯:溫澤宇)
收稿日期: 2019-05-15
基金項(xiàng)目: 國家自然科學(xué)基金(61501147);黑龍江省自然科學(xué)基金優(yōu)秀青年項(xiàng)目(Grant YQ2019F011);黑龍江省青年創(chuàng)新人才計(jì)劃(Grant UNPYSCT-2018203);黑龍江省高等學(xué)?;究蒲袠I(yè)務(wù)專項(xiàng)(Grant LGYC2018JQ013).
作者簡介:
孫 玲(1983—),女,碩士研究生;
陳德運(yùn)(1962—),男,教授,博士研究生導(dǎo)師.
通信作者:
付立軍(1985—),男,博士研究生,講師,E-mail:fulijun85@163.com.