楊晨旭,蔡克參,張紅云,苗奪謙
同濟(jì)大學(xué) 計(jì)算機(jī)科學(xué)與技術(shù)系,上海201804
人臉是人類個(gè)體身份最重要的生物特征之一,包括了性別、年齡、種族、表情等重要特征。其中,人臉圖像的性別識(shí)別在各種基于計(jì)算機(jī)視覺的應(yīng)用中起著重要的作用,例如人機(jī)交互、監(jiān)控安全、網(wǎng)絡(luò)社交。人臉性別分類就是對于輸入圖像進(jìn)行識(shí)別,其目標(biāo)是通過人臉圖像特征判斷出性別。
最早的性別分類方法是基于簡單的神經(jīng)網(wǎng)絡(luò)方法,神經(jīng)網(wǎng)絡(luò)分為基于人臉圖像的像素值的分類和基于人臉幾何特征的分類。前者通過神經(jīng)網(wǎng)絡(luò)自動(dòng)獲取面部特征,將人臉圖像進(jìn)行訓(xùn)練和測試,神經(jīng)網(wǎng)絡(luò)的輸出就是分類的概率值。后者通過手工精心設(shè)計(jì)特征,然后再輸入到神經(jīng)網(wǎng)絡(luò)。
后來,性別分類方法往往和特征提取算法相結(jié)合。常見的人臉圖像特征包括哈爾特征(Haar-like features,Haar)[1]、局部二值模式(local binary pattern,LBP)[2]、尺度不變特征變換(scale-invariant feature transform,SIFT)[3]、韋伯局部描述特征(Weber local descriptor,WLD)[4]等,然后將人臉特征向量輸入到傳統(tǒng)的分類器或神經(jīng)網(wǎng)絡(luò)中進(jìn)行性別研究。傳統(tǒng)的分類器主要有貝葉斯分類器[5]、支持向量機(jī)(support vector machine,SVM)[6-7]、K最近鄰(K-nearest neighbor,KNN)[8]、邏輯回歸(logistic regression,LR)[9]等。但是它們無法處理大規(guī)模的圖像數(shù)據(jù),需要足夠大的存儲(chǔ)空間和運(yùn)行時(shí)間。隨著大數(shù)據(jù)時(shí)代的來臨,神經(jīng)網(wǎng)絡(luò)模型解決了這個(gè)問題,它適用于處理大規(guī)模的圖像數(shù)據(jù),有著高效的分類效率。然而,它也存在模型可解釋性差、易丟失細(xì)節(jié)信息等問題,并且由于光照、姿勢、表情等因素的影響,大量的圖像數(shù)據(jù)中往往存在一些不確定的臉部圖像,導(dǎo)致人臉性別難以分辨,分類準(zhǔn)確率低。
因此,本文提出了一種基于陰影集的二級(jí)分類模型。該模型在基于卷積神經(jīng)網(wǎng)絡(luò)VGG16的一階段分類的基礎(chǔ)上,引入了陰影集理論,通過人臉圖像的特點(diǎn),將第一階段的分類結(jié)果劃分為接收域、拒絕域和不確定域。最后,用LR算法對不確定的臉部圖像集進(jìn)行二階段分類。
人臉性別分類技術(shù)是人臉圖像研究的重點(diǎn),由于角度、光照、遮擋和較低分辨率等原因造成的不確定圖片是影響分類性能的重要原因。人臉性別分類系統(tǒng)性能的提升,主要取決于兩方面:人臉圖像的特征提取和模型結(jié)構(gòu)及參數(shù)的優(yōu)化。這一部分分別介紹人臉性別分類圖像的特征提取和人臉性別分類模型優(yōu)化的相關(guān)工作。
主成分分析(principal component analysis,PCA)和線性判別分析(linear discriminant analysis,LDA)是性別識(shí)別技術(shù)中最常用的特征提取方法。PCA通過使用一組相互正交的基函數(shù)來捕捉最大方差的方向,有助于減少性別識(shí)別技術(shù)中的噪聲量。LDA 能獲取主體的判別特征,使信息類別之間的差異最大化[10]。局部保持投影(locality preserving projections,LPP)是最流行的降維技術(shù)之一。文獻(xiàn)[11]針對存在噪音的同一類樣本數(shù)據(jù)可能不會(huì)分布在相近區(qū)域的問題,提出了一種改進(jìn)的局部保持投影降維方法(lowrank preserving projections,LRPP),通過范數(shù)的稀疏約束及低秩約束,在保持?jǐn)?shù)據(jù)全局結(jié)構(gòu)的同時(shí),減少了噪聲對數(shù)據(jù)的干擾。文獻(xiàn)[12]針對使用l2范數(shù)作為度量,對數(shù)據(jù)中的噪聲很敏感的問題,提出了一種新的低秩鄰域保持投影(2-D neighborhood preserving projection,LR-2DNPP)方法,將輸入數(shù)據(jù)劃分為編碼低秩特征的分量部分和確保噪聲稀疏的誤差部分,獲得噪聲較少的數(shù)據(jù),提高了特征提取的鑒別能力。文獻(xiàn)[13]提出了一種鄰域保持嵌入的方法來整體編碼信息,通過一種新的特征嵌入方法,解決數(shù)據(jù)的類結(jié)構(gòu)被噪聲等破壞的問題。文獻(xiàn)[14]提出了多層感知器分類器,該分類器使用通過PCA 創(chuàng)建的面部空間的特征向量系數(shù),在人臉圖像的部分?jǐn)?shù)據(jù)集上實(shí)現(xiàn)了高準(zhǔn)確率的性別分類結(jié)果。文獻(xiàn)[15]提出了一種梯度人臉的方法來提取不同光照下的人臉識(shí)別光照不敏感特征,對不同的光照均有良好的魯棒性,提高了不同光照條件下人臉性別識(shí)別的準(zhǔn)確率。文獻(xiàn)[16]通過各種面部特征及背景信息的提取,分析了各類特征對性別分類的影響,并提出了一種適用于存在遮擋的面部圖像性別分類系統(tǒng)。
陰影集被提出以來,被廣泛運(yùn)用于數(shù)據(jù)分類和圖像處理中。在數(shù)據(jù)處理中,王丹等[17]提出了基于陰影集的離群點(diǎn)檢測和聚類算法,提出的離群因子考慮了數(shù)據(jù)點(diǎn)偏離數(shù)據(jù)模式的程度和數(shù)據(jù)點(diǎn)本身歸類的不確定性,使得在模糊集陰影化過程中更加關(guān)注核的準(zhǔn)確性,該算法具有較好的檢測效果。周玉等[18]提出了基于陰影集數(shù)據(jù)選擇的可拓神經(jīng)網(wǎng)絡(luò)的性能改進(jìn)方法,根據(jù)網(wǎng)絡(luò)特點(diǎn)能夠自動(dòng)地獲取訓(xùn)練數(shù)據(jù)中的核數(shù)據(jù)和邊界數(shù)據(jù),不僅節(jié)約了訓(xùn)練時(shí)間,同時(shí)網(wǎng)絡(luò)的泛化能力和分類識(shí)別精度也有所提高。蘇小紅等[19]提出了一種基于陰影集的SVM的樣本選擇方法,能夠去除樣本中的奇異數(shù)據(jù)和干擾數(shù)據(jù),在訓(xùn)練樣本中含有噪聲時(shí),可以有效地提高分類器的分類性能和分類精度。
在圖像處理中,Mitra 等[20]將陰影聚類算法用來處理遙感圖像分割問題,通過設(shè)計(jì)適用于遙感圖像的分割算法,該方法能夠定量地減少遙感圖像中像素的交疊區(qū)域和邊界之間的不確定性,從而克服由于分辨率差和光照差等惡劣環(huán)境造成的分割難題。張紅云等[21]提出了一種基于陰影集的圖像檢索算法,在基于顯著性檢測的圖像檢索算法的基礎(chǔ)上,利用陰影集理論,將圖像分割為顯著性區(qū)域、非顯著性區(qū)域和陰影區(qū)域,并利用陰影區(qū)域和突出區(qū)域作為檢索的有用信息。對于有明顯突出區(qū)域的圖像,該算法不增加冗余區(qū)域,表現(xiàn)出了顯著的健壯性。
人臉性別分類近年來取得了很大的進(jìn)展,現(xiàn)有的性別分類方法主要可分為兩類:傳統(tǒng)的基于特征的方法和基于深層卷積神經(jīng)網(wǎng)絡(luò)的方法。傳統(tǒng)的基于特征的方法從圖像中提取手工設(shè)計(jì)的特征,然后利用特征和分類模型來完成性別分類任務(wù)。Goel等[22]提出了一種構(gòu)建性別分類特征向量的新技術(shù),將數(shù)據(jù)從原始空間映射到非線性特征空間,采用基于核的PCA 技巧去除無關(guān)特征,針對獲得的特征用SVM將圖像分為男性或女性,減少圖像的過度擬合問題。Kekre等[23]提出了一種適用于小樣本訓(xùn)練數(shù)據(jù)的性別分類算法,即使每人一張圖像進(jìn)行訓(xùn)練,也具有很好的精度,用PCA進(jìn)行特征向量生成,并與使用不同相似性準(zhǔn)則的最近鄰分類進(jìn)行比較,結(jié)果表明,該方法顯著提高了總體分類精度。使用深度神經(jīng)網(wǎng)絡(luò)模型的優(yōu)點(diǎn)是其自動(dòng)從圖像中提取特征并給出輸出,不需要使用特征描述符從圖像中手動(dòng)提取特征,以便進(jìn)行進(jìn)一步的識(shí)別任務(wù)或分類任務(wù)[24]。Ng等[25]研究了一種在有限標(biāo)記訓(xùn)練數(shù)據(jù)的行人性別分類中訓(xùn)練卷積神經(jīng)網(wǎng)絡(luò)的方法,利用KNN 學(xué)習(xí)行人圖像上的濾波器來初始化網(wǎng)絡(luò)的第一層,與隨機(jī)權(quán)值初始化相比,這種方法比僅僅通過無監(jiān)督學(xué)習(xí)初始化第一層濾波器在性別分類中的泛化能力更好。Lapuschkin 等[26]研究了面部特征實(shí)際用于預(yù)測的不同影響,以及這些特征與圖像預(yù)處理、模型初始化和結(jié)構(gòu)選擇的關(guān)系,提出了一種以黑盒方式應(yīng)用的深度神經(jīng)網(wǎng)絡(luò)模型,結(jié)合簡單的預(yù)處理步驟,在識(shí)別人臉圖像上沒有提供任何相關(guān)信息,也能達(dá)到很好的性別識(shí)別效果。Tian 等[9]開發(fā)了一個(gè)16 層輕量級(jí)的深度神經(jīng)網(wǎng)絡(luò)模型,在提高效率的同時(shí)保持了高精度。通過Fisher 線性判別分析發(fā)現(xiàn)直接丟棄具有高類內(nèi)方差和低類間方差的最后一個(gè)卷積層神經(jīng)元的高去相關(guān)操作安全且有效,在特定人臉數(shù)據(jù)集上能實(shí)現(xiàn)與具有完全連接層的原始網(wǎng)絡(luò)同等甚至更高的精度。
綜上,對不確定人臉圖片性別進(jìn)行分類仍然面臨許多挑戰(zhàn)。針對這一問題,本文提出了一種基于陰影集的二級(jí)人臉性別分類模型,在基于深度卷積神經(jīng)網(wǎng)絡(luò)模型一階段分類的基礎(chǔ)上引入了陰影集理論,對一階段分類結(jié)果進(jìn)行劃分,針對容易混淆的不確定區(qū)域的圖像對象的特點(diǎn),進(jìn)行二階段分類,以提高不確定圖像性別分類的準(zhǔn)確率。
本文針對基于卷積神經(jīng)網(wǎng)絡(luò)的分類算法無法解決不確定性數(shù)據(jù)的問題,引入了陰影集理論,對圖像進(jìn)行二次分類。傳統(tǒng)的圖像分類方法將圖像分類為正域(屬于某類別)和負(fù)域(不屬于某類別),相當(dāng)于一個(gè)二劃分。而本文提出的算法,考慮到部分圖像存在不確定是否屬于某類別的情況,容易造成分類錯(cuò)誤的問題,結(jié)合陰影集理論,提出了一種新的二次模型的圖像分類方法,將圖像劃分為三部分:正域、負(fù)域、不確定區(qū)域。
該模型根據(jù)圖像數(shù)據(jù)的特點(diǎn),利用陰影集將圖像分類結(jié)果劃分為正域、負(fù)域、不確定區(qū)域,對應(yīng)陰影集的接收域、拒絕域、不確定域。對圖像的正域和不確定區(qū)域分別提取特征,采用合適的算法進(jìn)行圖像分類,分類方法分別采用卷積神經(jīng)網(wǎng)絡(luò)方法和邏輯回歸算法。
Pedrycz 提出的陰影集的概念[27],是通過一個(gè)三值邏輯映射保留對象的不確定信息。陰影集的主要思想就是把整個(gè)集合分為三個(gè)區(qū)域:接收域、拒絕域和不確定域。如圖1 所示。接受域表示可以肯定某件事物,拒絕域反之,不確定域表示信息不足無法明確做出接受還是拒絕的判斷,采用延遲決策,因此可以規(guī)避分類信息不足但卻盲目決策造成的風(fēng)險(xiǎn)。假設(shè)X是一個(gè)集合,陰影集將這個(gè)集合映射到一個(gè)三值空間{0,1,[0,1]},0 表示元素x不屬于集合X,1 表示元素x屬于集合X,[0,1]表示x可能屬于也可能不屬于集合X,集合X則形成了陰影。
Fig.1 Shadowed sets圖1 陰影集
定義1假設(shè)陰影集的隸屬函數(shù)為f(x),則滿足式(1):
陰影集理論通常用于處理不確定性問題,自1998 年被提出以來,陰影集作為一種新的模糊集表示和處理方法出現(xiàn),在管理科學(xué)、模糊集理論[28]和知識(shí)?;痆29]等許多理論領(lǐng)域得到了廣泛的應(yīng)用。Cattaneo 等提出了一種定義模糊集與陰影集之間關(guān)系的代數(shù)方法[30]。Pedrycz等將陰影集應(yīng)用于模糊聚類以提高聚類效果[31-32]。周玉等將陰影集的數(shù)據(jù)選擇方法應(yīng)用到神經(jīng)網(wǎng)絡(luò)中,以提高其性能[33]。
VGG16 的網(wǎng)絡(luò)結(jié)構(gòu)如圖2 所示,由13 個(gè)卷積層(由Conv x_x表示)、5個(gè)池化層(分別由pool表示)、3個(gè)完全連接層(由Fc xx 表示)組成。其中卷積層和全連通層都有權(quán)系數(shù),又稱為權(quán)層,是VGG16 中16的來源。本文使用具有較小卷積核(3×3)的多個(gè)卷積層代替具有較大卷積核的卷積層,可以減少網(wǎng)絡(luò)的參數(shù),提高網(wǎng)絡(luò)的擬合和表達(dá)能力,相當(dāng)于具有更多的非線性映射。
與VGG 原來的網(wǎng)絡(luò)結(jié)構(gòu)相比,二級(jí)模型分類算法增加了隸屬度判別函數(shù)和第二級(jí)分類模型,如圖3所示。完成性別分類的算法流程如下:(1)利用整個(gè)訓(xùn)練集數(shù)據(jù)分別訓(xùn)練VGG和第二分類器。(2)利用訓(xùn)練后的VGG對測試集數(shù)據(jù)進(jìn)行分類。(3)將VGG的分類結(jié)果,根據(jù)隸屬度函數(shù)劃分為三部分,將隸屬度差值大的分類結(jié)果直接劃分為正域或負(fù)域,否則,將不確定性的分類結(jié)果劃分為陰影區(qū)域。(4)使用第二個(gè)分類器再分類陰影區(qū)域中的目標(biāo)數(shù)據(jù)。(5)將VGG和第二分類器的分類結(jié)果進(jìn)行融合,得到最終的分類結(jié)果。
2.2.1 隸屬度函數(shù)
神經(jīng)網(wǎng)絡(luò)模型的分類器不僅提供了預(yù)測標(biāo)簽,還提供了預(yù)測標(biāo)簽的隸屬度值。隸屬度值用來表示當(dāng)前樣本數(shù)據(jù)在分類器中分類的概率。
Fig.2 VGG network model圖2 VGG網(wǎng)絡(luò)模型
Fig.3 Two-level classification model圖3 二級(jí)分類模型
在神經(jīng)網(wǎng)絡(luò)模型中,圖像二分類的輸出層是一個(gè)具有兩個(gè)神經(jīng)元的softmax層,可以用c1和c2來表示輸出層的兩個(gè)隸屬度值。隸屬度值c1和c2可視為當(dāng)前樣本對應(yīng)于兩種類型標(biāo)簽的概率。概率越高,模型就越傾向于將當(dāng)前對象劃分為這個(gè)標(biāo)簽。理論上,一個(gè)完美的分類使得正確分類的隸屬度值為1,而錯(cuò)誤分類的隸屬度值為0。然而,設(shè)計(jì)一個(gè)完美的隸屬函數(shù)幾乎是不可能的。因此,神經(jīng)網(wǎng)絡(luò)模型通常使用概率較高的類別作為模型輸出的預(yù)測標(biāo)記。然而,當(dāng)兩個(gè)概率值相差細(xì)微時(shí),導(dǎo)致圖像分類結(jié)果存在不確定性。因此,在二分類的神經(jīng)網(wǎng)絡(luò)模型上,可以設(shè)計(jì)一個(gè)直觀的隸屬度計(jì)算函數(shù):
本文采用式(2)作為隸屬度計(jì)算函數(shù),是直觀合理的。M(c1,c2)的值越大,表明神經(jīng)網(wǎng)絡(luò)分類器對當(dāng)前數(shù)據(jù)對象的分類就越可靠。因此M(c1,c2)的值的選擇也是一個(gè)關(guān)鍵。
2.2.2 基于陰影集的二級(jí)分類器
對于第一級(jí)分類器中不確定的數(shù)據(jù),本文采用第二級(jí)分類器對不確定區(qū)域中的數(shù)據(jù)對象進(jìn)行重新分類,第二級(jí)分類器的選擇是提高模型分類效果的關(guān)鍵步驟。在分類器相互獨(dú)立的前提下,本文選擇采用sklearn模塊封裝的LR、KNN作為第二個(gè)分類器的替代模型,來測試模型的分類性能。
第二個(gè)分類器的目的是對陰影區(qū)域中的不確定數(shù)據(jù)進(jìn)行重新分類。本文使用D表示VGG 和第二分類器在分類結(jié)果上的差異,定義為D=,其中N是測試集中的示例數(shù),Nd是VGG和第二分類器給出不同預(yù)測標(biāo)簽的示例數(shù)。D值越高,第二分類器的分類效果越好。
為了更準(zhǔn)確地表示分類效果,本文提出了一個(gè)函數(shù)用于計(jì)算正確率Pall:VGG 測試集的總數(shù)為Nori,不確定數(shù)據(jù)的概率為α,其中α作為陰影集的閾值之一,α的大小會(huì)影響最終的準(zhǔn)確率。將剩余測試集的精度記錄為P1,并將不確定的數(shù)據(jù)部分用于第二分類器的訓(xùn)練和測試,測試結(jié)果為P2:
LFW 數(shù)據(jù)集:該數(shù)據(jù)集包含來自5 749 個(gè)人的13 000張圖片,提供了正面和非面部圖像。
Adience 數(shù)據(jù)集:該數(shù)據(jù)集包含大約26 000 幅圖像,來自不同國家、種族和年齡組的人的正面和非正面面部圖像。
在LFW數(shù)據(jù)集和Adience數(shù)據(jù)集上,本文采用以VGG為代表的卷積神經(jīng)網(wǎng)絡(luò)和手動(dòng)提取特征的傳統(tǒng)方法(KNN、LR)來評(píng)估陰影區(qū)域的準(zhǔn)確率。首先,在VGG進(jìn)行第一級(jí)分類時(shí),根據(jù)2.2.1小節(jié)的隸屬度計(jì)算函數(shù)得到二分類的初步結(jié)果,根據(jù)不同數(shù)據(jù)集的特點(diǎn),取不同閾值α,按照(+0.5,-0.5)的區(qū)間大小,得到陰影區(qū)域上不確定的數(shù)據(jù),用三種分類方法計(jì)算準(zhǔn)確率??梢詮膱D4中看到,在具有不確定性的圖像集上,準(zhǔn)確率始終都是LR最高,VGG和KNN隨后。
Fig.4 Comparison of classification accuracy of shadow areas at different threshold α圖4 不同閾值α 對陰影區(qū)域的分類準(zhǔn)確率比較
由于VGG對不確定的圖像數(shù)據(jù)的分類精度遠(yuǎn)低于VGG 對普通圖像數(shù)據(jù)的分類精度,采用兩層模型來提高該部分的分類性能。在第二級(jí)分類器的選擇上,由于神經(jīng)網(wǎng)絡(luò)模型(如RNN、BRNN)的模型結(jié)構(gòu)和分類過程與VGG 相似,且不確定的圖像集數(shù)量相對較少,當(dāng)神經(jīng)網(wǎng)絡(luò)模型作為第二級(jí)分類器時(shí),分類精度不好。而非神經(jīng)網(wǎng)絡(luò)模型(如KNN、LR)的模型結(jié)構(gòu)和其分類過程有很大不同。因此,采用非神經(jīng)網(wǎng)絡(luò)模型作為第二級(jí)分類器模型。比較圖4 所示的結(jié)果,本文選擇LR作為第二級(jí)分類器。
因此,本文提出的兩級(jí)模型結(jié)合了神經(jīng)網(wǎng)絡(luò)模型VGG 和傳統(tǒng)方法LR,在數(shù)據(jù)集上都達(dá)到了比VGG更高的精度,準(zhǔn)確率的計(jì)算公式在2.2.2小節(jié)給出,最終的分類準(zhǔn)確率如表1所示。
Table 1 Comparison of accuracy of VGG and two-level model on datasets表1 VGG和二級(jí)模型在數(shù)據(jù)集上的準(zhǔn)確率比較
在LFW 數(shù)據(jù)集中,原VGG 模型分類準(zhǔn)確率達(dá)91.42%,和LR結(jié)合后的準(zhǔn)確率達(dá)92.83%;在Adience數(shù)據(jù)集上,原VGG 模型分類準(zhǔn)確率是84.50%,和LR結(jié)合后的準(zhǔn)確率達(dá)到了93.65%,從而證實(shí)了二次模型提出的合理性。圖4表明,不同閾值α下,LR對陰影部分分類的準(zhǔn)確率高于VGG,但是整體二級(jí)模型對全部數(shù)據(jù)集分類的總準(zhǔn)確率和閾值α不相關(guān)(表1),也證明式(2)是可行的,數(shù)據(jù)集中的具有不確定性的圖像數(shù)量是一定的。和不確定性圖像集的準(zhǔn)確率相同,總準(zhǔn)確率始終都是VGG+LR>VGG,而VGG+KNN 和VGG 在不同數(shù)據(jù)集上的準(zhǔn)確率不同。因此在選擇第二級(jí)分類器時(shí),要根據(jù)數(shù)據(jù)集的特點(diǎn)進(jìn)行選擇,本文選用LR。
本文的二級(jí)模型和以下方法進(jìn)行對比:
在LFW數(shù)據(jù)集上,張婷等[34]在傳統(tǒng)卷積神經(jīng)網(wǎng)絡(luò)的基礎(chǔ)上,提出一個(gè)跨連卷積神經(jīng)網(wǎng)絡(luò)(cross-connected convolutional neural network,CCNN)模型。該模型是一個(gè)9層的網(wǎng)絡(luò)結(jié)構(gòu),包含輸入層、6個(gè)由卷積層和池化層交錯(cuò)構(gòu)成的隱含層、全連接層和輸出層,其中允許第二個(gè)池化層跨過兩個(gè)層直接與全連接層相連接。Tian等[35]在卷積神經(jīng)網(wǎng)絡(luò)基礎(chǔ)上進(jìn)行修剪,結(jié)合支持向量機(jī)和貝葉斯分類,比原卷積神經(jīng)網(wǎng)絡(luò)精度更高。石學(xué)超等[36]基于多層特征融合與可調(diào)監(jiān)督函數(shù)機(jī)制,提出一種卷積神經(jīng)網(wǎng)絡(luò)模型,將多個(gè)淺層中間卷積層特征輸出與最后卷積層特征輸出相結(jié)合,同時(shí)考慮了深層卷積的整體語義信息和淺層卷積的細(xì)節(jié)局部紋理信息。Bhattacharyya等[2]提出了一種從正面面部圖像識(shí)別性別的新方法,由Asthana 等[37]提出的Chehra模型獲得的面部界標(biāo)點(diǎn)將正面人臉圖像劃分為多個(gè)不同的區(qū)域,并從每個(gè)區(qū)域中提取特征,然后基于支持向量機(jī)的分類器計(jì)算每個(gè)面部區(qū)域的概率分?jǐn)?shù)。Gonzalez-Sosa 等[38]基于深度學(xué)習(xí)對人臉進(jìn)行軟生物識(shí)別,使用手動(dòng)估算和自動(dòng)估算技術(shù)進(jìn)行驗(yàn)證,性能得到提高。Gajjar 等[39]提出2B3C 方法用于檢測人臉,增加檢測到的人臉的邊緣從而進(jìn)行人臉剪裁,證明了該方法的有效性。
在Adience 數(shù)據(jù)集上,Gajjar 提出的方法在驗(yàn)證LFW 數(shù)據(jù)集的同時(shí)也對Adience 數(shù)據(jù)集進(jìn)行了驗(yàn)證。陳濟(jì)楠等[40]提出一種改進(jìn)CNN 的檢測模型,使用級(jí)聯(lián)卷積核降低參數(shù)數(shù)量防止過擬合,采用跨連卷積層方法融合不同尺度圖像特征,獲得更好的識(shí)別性能。Mittal[41]提出一個(gè)結(jié)合遷移學(xué)習(xí)的卷積神經(jīng)網(wǎng)絡(luò)模型,通過對圖像數(shù)據(jù)集上的預(yù)訓(xùn)練和對卷積神經(jīng)網(wǎng)絡(luò)的微調(diào),得到了改進(jìn)。Afifi等[42]將面部特征與整體特征相結(jié)合,使用組合特征來訓(xùn)練深度卷積神經(jīng)網(wǎng)絡(luò),然后訓(xùn)練基于AdaBoost 的融合得分來推斷最終的性別類別。并且提出了一個(gè)新的人臉數(shù)據(jù)集,該數(shù)據(jù)集加劇了被遮擋的人臉和光照變化的挑戰(zhàn)。Zhou 等[43]結(jié)合面部特征和性別特征,提出了使用卷積神經(jīng)網(wǎng)絡(luò)的面部和性別識(shí)別系統(tǒng),在人臉識(shí)別模塊中和性別識(shí)別模塊中,使用不同的公開數(shù)據(jù)集訓(xùn)練CNN,提升了最佳識(shí)別準(zhǔn)確度。周玉陽等[44]提出了輕量級(jí)網(wǎng)絡(luò),使用相關(guān)參數(shù)作為預(yù)訓(xùn)練參數(shù),再進(jìn)行訓(xùn)練調(diào)優(yōu)最終得到實(shí)際模型參數(shù),使得性別分類模型訓(xùn)練快,消耗資源更少。
如表2所示,本文提出的二級(jí)模型在Adience數(shù)據(jù)集和LFW數(shù)據(jù)集上的準(zhǔn)確率達(dá)到93.65%和92.83%。因?yàn)锳dience數(shù)據(jù)集的圖片數(shù)量較多,更加符合卷積神經(jīng)網(wǎng)絡(luò)的訓(xùn)練方式,所以正確率相比于LFW 數(shù)據(jù)集較高。實(shí)驗(yàn)結(jié)果表明,利用本文提出的模型可以得到較好的實(shí)驗(yàn)結(jié)果。
Table 2 Experimental results on LFW dataset and Adience dataset表2 在LFW數(shù)據(jù)集和Adience數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果
本文提出的算法模型包含兩部分:基于深度學(xué)習(xí)方法VGG16 的第一階段分類和基于傳統(tǒng)方法LR的第二階段分類。算法的時(shí)間復(fù)雜度主要體現(xiàn)在第二階段,假設(shè)N為實(shí)驗(yàn)樣本數(shù),傳統(tǒng)方法LR的時(shí)間復(fù)雜度為O(N)。在時(shí)間開銷上,本文采用的模型訓(xùn)練所需時(shí)間和計(jì)算量上都大大減少,在Adience數(shù)據(jù)集上和其他模型的實(shí)驗(yàn)對比如表3 所示。需要指出的是,訓(xùn)練耗時(shí)嚴(yán)重依賴于硬件性能,本實(shí)驗(yàn)所用GPU顯卡為V100,32 GB顯存。
Table 3 Comparison of training time of this method with other literatures表3 本文方法和文獻(xiàn)的訓(xùn)練耗時(shí)比較
本文提出的二級(jí)模型是神經(jīng)網(wǎng)絡(luò)模型VGG和傳統(tǒng)方法LR的結(jié)合,通過陰影集理論得到不確定的圖像數(shù)據(jù),針對不確定的圖像數(shù)據(jù)進(jìn)行再分類。模型在相同基準(zhǔn)數(shù)據(jù)集上相比VGG能達(dá)到更低的時(shí)間復(fù)雜度和更高的精度,表明該結(jié)合機(jī)制是有效的。此外,本文的二級(jí)模型也受到VGG 和LR 的限制,如果VGG和LR不能取得很好的效果,本文模型也不能很好地實(shí)現(xiàn)。
本文探討了一種新的二級(jí)分類方法,將VGG 和LR 結(jié)合起來,基于陰影集將帶有不確定性特征的樣本數(shù)據(jù)分離出來,從而有效地對性別樣本進(jìn)行分類。本文模型對未來的人臉識(shí)別、面部疾病檢測、改善圖像體驗(yàn)、社交媒體圖片等研究奠定了基礎(chǔ)。后面的工作是在人臉部分遮擋、圖像分辨率低時(shí),進(jìn)一步提高分類識(shí)別準(zhǔn)確率,結(jié)合人臉年齡、人類表情分類,更好地研究人臉識(shí)別和分類技術(shù)。