賈偉 楊勝和 田萌萌 熊藝蘭 楊春權(quán) 李良榮
摘 要:文中設(shè)計(jì)了一種基于ArcFace的自然場(chǎng)景人臉識(shí)別系統(tǒng),針對(duì)系統(tǒng)小人臉識(shí)別準(zhǔn)確率不高、環(huán)境自適應(yīng)能力不強(qiáng)的局限性,提出了改進(jìn)方法。系統(tǒng)采用快速人臉圖像增強(qiáng)算法對(duì)自然場(chǎng)景視覺(jué)模糊的人臉圖像進(jìn)行視覺(jué)增強(qiáng),然后通過(guò)融合PFLD與YOLOv3人臉關(guān)鍵點(diǎn)檢測(cè)的方法,改進(jìn)系統(tǒng)對(duì)小人臉的檢測(cè)性能。實(shí)驗(yàn)結(jié)果顯示,改進(jìn)的方法有效提高了系統(tǒng)識(shí)別的準(zhǔn)確率,降低了誤識(shí)率,系統(tǒng)平均播放幀率約為23幀/s。
關(guān)鍵詞:人工智能;圖像增強(qiáng);人臉識(shí)別;深度學(xué)習(xí);損失函數(shù);數(shù)據(jù)集
中圖分類號(hào):TP27 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):2095-1302(2020)05-000-03
0 引 言
近年來(lái),以深度學(xué)習(xí)為代表的人工智能技術(shù)在科研、工業(yè)應(yīng)用領(lǐng)域取得了顯著進(jìn)展,尤其是將深度學(xué)習(xí)應(yīng)用于人臉識(shí)別。針對(duì)約束性場(chǎng)景下的人臉識(shí)別已經(jīng)達(dá)到商用程度,但在自然場(chǎng)景中,人臉由于受自然環(huán)境諸多因素的影響,造成了識(shí)別上的困難,因此研究一種針對(duì)自然場(chǎng)景下的人臉識(shí)別方法具有重要的理論意義和實(shí)用價(jià)值。通常,人臉識(shí)別系統(tǒng)一般包括人臉采集、人臉檢測(cè)對(duì)齊、人臉識(shí)別模塊等,其每一部分的改進(jìn)對(duì)于人臉識(shí)別準(zhǔn)確率的提高都具有重要意義,為此,研究者們進(jìn)行了長(zhǎng)期的研究。2016年,Zhang Kaipeng[1]提出了一種Multi-task的人臉檢測(cè)框架,該算法使用3個(gè)CNN級(jí)聯(lián)算法結(jié)構(gòu),將人臉檢測(cè)和人臉特征點(diǎn)檢測(cè)同時(shí)進(jìn)行,該方法被應(yīng)用于諸多人臉識(shí)別算法研究領(lǐng)域,但該方法環(huán)境適應(yīng)性較差、漏檢率較高;后來(lái)提出的YOLO系列[2-4]算法是一類端對(duì)端目標(biāo)檢測(cè)算法,在檢測(cè)速度、精度、環(huán)境適應(yīng)性等方面取得了很大突破。為了提高關(guān)鍵點(diǎn)的檢測(cè)效果,Guo Xiaojie[5]等人在MTCNN人臉檢測(cè)的基礎(chǔ)上提出了一種簡(jiǎn)單、快速的高精度人臉關(guān)鍵點(diǎn)檢測(cè)算法,該算法可在主流數(shù)據(jù)集上達(dá)到最高精度。在人臉識(shí)別算法方面,Liu Weiyang[6]等人提出了角度SoftMax(A-SoftMax)損失,使卷積神經(jīng)網(wǎng)絡(luò)(CNN)能夠?qū)W習(xí)角度識(shí)別特征。Deng Jiankang[7]等為了最大限度地提高人臉識(shí)別的高可分特征,將裕度納入已建立的損失函數(shù)中,提出了一種附加角度裕度的損失函數(shù)(ArcFace),取得了更好的識(shí)別效果。
基于ArcFace的人臉識(shí)別采用MTCNN算法做人臉關(guān)鍵點(diǎn)檢測(cè),該算法對(duì)自然場(chǎng)景人臉的檢測(cè)存在易漏檢現(xiàn)象,從而影響人臉識(shí)別性能。本文旨在設(shè)計(jì)一種人臉識(shí)別系統(tǒng),因此提出了快速人臉圖像增強(qiáng)算法,并通過(guò)融合PFLD與YOLOv3人臉關(guān)鍵點(diǎn)檢測(cè)方法,以改善系統(tǒng)的識(shí)別性能。
1 自然場(chǎng)景快速人臉增強(qiáng)方法
在自然場(chǎng)景人臉識(shí)別系統(tǒng)中,由于受到環(huán)境、光線、運(yùn)動(dòng)等因素影響,人臉圖像容易變得模糊,從而影響識(shí)別準(zhǔn)確率。為了解決圖像模糊問(wèn)題,1993年,Pal和King[8-10]首次將模糊集理論應(yīng)用于理解、描述圖像的模糊特性,后來(lái)出現(xiàn)了一系列改進(jìn)方法[11-12],本文在此算法基礎(chǔ)上,提出了改進(jìn)的人臉增強(qiáng)算法。
為提高算法運(yùn)算效率,本文依據(jù)文獻(xiàn)[8-10]所提的算法,首先采用線性變換將圖像映射到模糊域,線性變換表示如下:
式中:η表示圖像像素值的補(bǔ)償因子;xmin表示3×3圖像區(qū)域最小值;xmax表示3×3圖像區(qū)域最大值;xij表示圖像像
素值。
本文的圖像增強(qiáng)算子表示為:
式中:z表示圖像輸出;f和r代表常量,f = r =0.5。
為了補(bǔ)償圖像區(qū)域信息丟失,本文通過(guò)式(3)進(jìn)行圖像恢復(fù)。
式中,λ為像素補(bǔ)償因子。
算法的基本步驟如下:
Step1:通過(guò)式(1)將圖像映射到模糊域;
Step2:利用式(2)對(duì)圖像進(jìn)行非線性變換;
Step3:進(jìn)行圖像恢復(fù)運(yùn)算。
圖1所示為多種算法運(yùn)算效果對(duì)比,結(jié)果顯示本文提出的算法沒(méi)有造成圖像失真,顯示效果最佳。本文算法單張人臉灰度圖像運(yùn)行時(shí)間約為0.047 887 s。
2 融合PFLD與YOLOv3的人臉關(guān)鍵點(diǎn)檢測(cè)
人臉檢測(cè)與關(guān)鍵點(diǎn)檢測(cè)是人臉識(shí)別的基礎(chǔ),為了有效檢測(cè)自然場(chǎng)景中的人臉,本文采用文獻(xiàn)[2-4]中提出的YOLOv3人臉檢測(cè)算法,該算法通過(guò)兩次上采樣完成了多尺度檢測(cè),在保持較快檢測(cè)速度的同時(shí)對(duì)小人臉檢測(cè)具有較好的效果。同時(shí),算法對(duì)候選框采用了復(fù)合標(biāo)簽的建模方法,每個(gè)候選框不再只對(duì)應(yīng)一個(gè)類別,因而YOLOv3在速度精度、泛化性等方面都取得了較好的效果。PFLD是一種最新的人臉關(guān)鍵點(diǎn)檢測(cè)算法,該算法提出了非限定條件下的具有理想檢測(cè)精度的輕量級(jí)Landmark檢測(cè)模型。測(cè)試表明,PFLD算法在移動(dòng)設(shè)備上可達(dá)到超實(shí)時(shí)的性能。本文將PFLD與YOLOv3算法用于自然場(chǎng)景人臉檢測(cè),旨在提高系統(tǒng)對(duì)環(huán)境的適應(yīng)能力以及對(duì)小人臉的檢測(cè)性能。人臉關(guān)鍵點(diǎn)檢測(cè)方法的流程如圖2所示。
為了測(cè)試本文方法的效果,我們利用WiderFace數(shù)據(jù)集訓(xùn)練YOLOv3人臉檢測(cè)模型,使用文獻(xiàn)[13]提出的WFLW數(shù)據(jù)集訓(xùn)練PFLD算法模型。WFLW數(shù)據(jù)集共10 000個(gè)樣本,其中7 500個(gè)供訓(xùn)練用,2 500個(gè)供測(cè)試用,數(shù)據(jù)集標(biāo)簽提供了人臉框信息,包括98個(gè)關(guān)鍵點(diǎn)信息,融合有多種人臉信息,如姿態(tài)、表情、光照、化妝、遮擋、模糊等。本文方法的最終檢測(cè)效果如圖3所示。運(yùn)行結(jié)果顯示,本文方法對(duì)復(fù)雜自然場(chǎng)景的人臉具有良好的檢測(cè)效果。
3 基于ArcFace的人臉識(shí)別系統(tǒng)
ArcFace是在文獻(xiàn)[6]的基礎(chǔ)上進(jìn)行了改進(jìn)。提出了直接最大化角度空間中的決策邊界cos(θ+m),該角度空間是基于L2-norm的權(quán)重和特征生成的,與cos(mθ)和cos(θ-m)相比,ArcFace可以獲得更具辨識(shí)性的深度特征。本文基于ArcFace的人臉識(shí)別系統(tǒng)流程如圖4所示。
4 實(shí)驗(yàn)結(jié)果分析
實(shí)驗(yàn)硬件配置:Intel(R)Core(TM) i5-9400F CPU@2.90 GHz,內(nèi)存8 GB,顯卡為1070ti 8G,系統(tǒng)采用Python語(yǔ)言編寫。
實(shí)驗(yàn)數(shù)據(jù)集:人臉檢測(cè)部分采用WiderFace數(shù)據(jù)集訓(xùn)練檢測(cè)模型,人臉對(duì)齊采用WFLW數(shù)據(jù)集,人臉識(shí)別部分從YouTube Face數(shù)據(jù)庫(kù)中隨機(jī)抽取40個(gè)人共1 080張照片組成訓(xùn)練集,然后找出40個(gè)人對(duì)應(yīng)的8段自然場(chǎng)景視頻作為測(cè)試,其中視頻的分辨率均為480×640,測(cè)試所用視頻集包括光照、明暗變化、運(yùn)動(dòng)、遮擋、模糊等多種場(chǎng)景的人臉。
數(shù)據(jù)訓(xùn)練:本文采用WiderFace人臉數(shù)據(jù)集訓(xùn)練MTCNN和YOLOv3檢測(cè)模型,相關(guān)參數(shù)根據(jù)文獻(xiàn)[1,3,5]設(shè)置,訓(xùn)練圖像的大小為112×112。同時(shí),為了評(píng)價(jià)本文系統(tǒng)的有效性,這里統(tǒng)計(jì)了測(cè)試視頻的平均識(shí)別率(TPR)和誤識(shí)率(FPR)。
TPR定義如下:
FRP定義如下:
表1所列為文獻(xiàn)[6-7]與改進(jìn)后系統(tǒng)的正確識(shí)別次數(shù)與人數(shù)的對(duì)比結(jié)果,由表1可知,改進(jìn)后系統(tǒng)的識(shí)別效率明顯優(yōu)于其他方法。
表2所列為系統(tǒng)平均識(shí)別率(TPR)和誤識(shí)率(FPR)。由表2可知,改進(jìn)方法的平均識(shí)別率得到了有效提高,錯(cuò)識(shí)率最小。同時(shí),實(shí)驗(yàn)測(cè)試結(jié)果顯示,本文系統(tǒng)的平均運(yùn)行速度約為23 f/s,保證了運(yùn)行的實(shí)時(shí)性。
5 結(jié) 語(yǔ)
本文設(shè)計(jì)了一種基于ArcFace的自然場(chǎng)景人臉識(shí)別系統(tǒng),提出了一種自然場(chǎng)景下解決人臉模糊的快速增強(qiáng)方法,改進(jìn)了人臉關(guān)鍵點(diǎn)檢測(cè)方法。實(shí)驗(yàn)結(jié)果表明,系統(tǒng)的識(shí)別性能得到了有效提高。但系統(tǒng)也存在不足,如系統(tǒng)對(duì)微型目標(biāo)過(guò)于敏感,容易引起誤識(shí)別。為此,在未來(lái)的工作中,我們將構(gòu)建特定的人臉數(shù)據(jù)集用于訓(xùn)練,同時(shí)設(shè)計(jì)自動(dòng)篩選算法,自動(dòng)去除非人臉目標(biāo),降低誤識(shí)率。
參考文獻(xiàn)
[1] ZHANG K,ZHANG Z,LI Z,et al. Joint face detection and alignment using multitask cascaded convolutional networks [J]. IEEE signal processing letters,2016,23(10):1499-1503.
[2] REDMON J,DIVVALA S,GIRSHICK R,et al. You Only Look Once:Unified,Real-Time Object Detection [C]// The IEEE Conference on Computer Vision and Pattern Recognition(CVPR),2016:779-788.
[3] REDMON J,F(xiàn)ARHADI A. YOLO9000:better,faster [C]// The IEEE Conference on Computer Vision and Pattern Recognition (CVPR),2017:7263-7271.
[4] REDMON,JOSEPH,ALI FARHADI.“YOLOv3:An incremental improvement [C]// The IEEE Conference on Computer Vision and Pattern Recognition (CVPR),2018:5656-5678.
[5] GUO X,LI S,YU J,et al. PFLD:A Practical Facial Landmark Detector [C]// The IEEE Conference on Computer Vision and Pattern Recognition (CVPR),2019:5234-5250.
[6] LIU W,WEN Y,YU Z,et al. SphereFace:Deep Hypersphere Embedding for Face Recognition [C]// The IEEE Conference on Computer Vision and Pattern Recognition (CVPR),2017.
[7] DENG J,GUO J,XUE N N,et al. ArcFace: Additive Angular Margin Loss for Deep Face Recognition [C]// The IEEE Conference on Computer Vision and Pattern Recognition (CVPR),2019.
[8] PAL S K,KING R A. Image enhancement using fuzzy set [J]. Electronics letters,1980,16(10):376-378.
[9] PAL S K,KING R A. On edge detection of X-ray images using fuzzy sets [J]. Pattern analysis and machinence,IEEE transactionson,1983,5(1):69-77.
[10] PAL S K,KING R A. Image enhancement using smoothing with fuzzy sets [J]. IEEE transactions on systems,man,and cybernetics-part A:system and humans,1981,11(7):494-501.
[11] WANG Baoping,LIU Shenghu. An adaptive multi-level image enhancement algorithm based on fuzzy entropy [J]. Acta electronica sinica,2005,33(4):730-734.
[12] WANG Baoping,LIU Shenghu. A novel adaptiv e-image fuzzy enhancement algorithm [J]. Journal of Xidian University,2005(2):307-313.
[13] WU W,QIAN C,YANG S,et al. Look at boundary:a boundary-aware face alignment algorithm [C]// The IEEE Conference on Computer Vision and Pattern Recognition(CVPR),2018:2129-2138.