西南交通大學 陳富強
通過研究發(fā)現(xiàn),經(jīng)過淺層CNN完成模糊人臉圖片過濾后,可以使用淺層CNN進行偏轉(zhuǎn)角度過大人臉圖片過濾,而且可以使用與判斷圖像是否模糊完全相同的淺層CNN網(wǎng)絡(luò)。本文提出一種多任務(wù)淺層CNN用于同時進行模糊人臉圖片過濾和偏轉(zhuǎn)角度過大人臉圖片過濾。
如圖1所示,多任務(wù)淺層CNN的第一層為卷積層,其作用是濾波,提高抗干擾能力,后面兩層的作用是特征提?。辉僭黾右粋€全連接層用于分類。
圖1 多任務(wù)淺層CNN的結(jié)構(gòu)
多任務(wù)淺層CNN的數(shù)據(jù)集的標簽由兩部分組成,一部分用于標記圖片是清晰還是模糊;另一部分用于標記圖片是正面人臉還是側(cè)面人臉。因為只有當圖片清晰時才會去判斷其偏轉(zhuǎn)角度,所以當圖片是模糊圖片時,其偏轉(zhuǎn)角度的標簽都是0;只有圖片是清晰時才有正面和側(cè)面的區(qū)別。
本文的數(shù)據(jù)集是從《愛情公寓第二季》視頻中抓取的。數(shù)據(jù)集由三個文件夾組成,第一個文件夾放置清晰的正面人臉,第二個文件夾放置清晰的側(cè)面人臉,第三個文件夾放置模糊的人臉。清晰的正面人臉圖片對應(yīng)的標簽為,清晰地側(cè)面人臉對應(yīng)的標簽為,模糊的人臉圖片對應(yīng)的標簽為。
目前,訓練集有清晰的正面人臉8722張,清晰的偏轉(zhuǎn)角度過大的人臉8044張,模糊的人臉圖片8166張。
與其他神經(jīng)網(wǎng)絡(luò)不同,多任務(wù)淺層CNN的訓練過程需要對損失函數(shù)進行分類處理,當圖片是清晰的圖片時,損失函數(shù)由兩部分組成;一部分由判斷圖片清晰和模糊的損失函數(shù)組成,另一部分由判斷圖片正面和側(cè)面的損失函數(shù)組成。當圖片是模糊的圖片時,損失函數(shù)只有判斷圖片時清晰和模糊的損失函數(shù)組成。用公式表示如下:
公式中的Loss1是判斷模糊和清晰的損失函數(shù),Loss2是判斷人臉圖片偏轉(zhuǎn)角度的損失函數(shù)。系數(shù)在圖片為模糊的人臉圖片時取值0,在圖片為清晰的人臉圖片時取值1。
從公式中可以看出,Loss1所占的權(quán)重比較大,Loss2所占的權(quán)重比較小;所以為了獲得最小的Loss值,CNN神經(jīng)網(wǎng)絡(luò)會在優(yōu)先保證Loss1足夠小的情況下,使Loss2獲得足夠小的值。這樣就保證了判斷圖片清晰和模糊有更高的優(yōu)先級。收斂曲線如圖2所示。
圖2 訓練過程中的收斂曲線(loss-batches)
通過調(diào)整超參數(shù),對比其在驗證集上的效果,最終該網(wǎng)絡(luò)的兩個卷積層的層數(shù)分別為16和32,第一個不帶池化層的卷積層為4層時,可以獲得最好的效果。全連接層神經(jīng)元數(shù)目依次為64,32,4。驗證集的制作過程和測試集的制作過程是相同的。
人工標注了3000多張人臉圖片作為測試集,其中模糊的人臉必定至少有某一部分是模糊的;而清晰的人臉圖片通常質(zhì)量特別好。偏轉(zhuǎn)角度過大的人臉至少都能保證半側(cè)的人臉被遮住,而正面的人臉至少都能保證有兩只眼睛。
最終本文設(shè)計的多任務(wù)淺層CNN,在模糊人臉過濾方面獲得了97.5%的正確率,在偏轉(zhuǎn)角度過大人臉過濾方面,獲得了97.8%的正確率。在清晰和模糊判斷正確的前提下,正面人臉和側(cè)面人臉也判斷正確的正確率為96.7%。的正確率。本文中只進行了模糊的人臉圖片過濾和偏轉(zhuǎn)角度過大人臉圖片過濾,多任務(wù)淺層CNN還可以用于有遮擋的人臉圖片過濾。
[1]陳云.深度學習框架Pytorch入門與實踐[M].北京:電子工業(yè)出版社,2018.
[2]Zhang K,Zhang Z,Li Z,et al.Joint face detection and alignment using multitask cascaded convolutional networks[J].IEEE Signal Processing Letters,2016,23(10):1499-1503.
[3]Li Y,Wang Z,Dai G,et al.Evaluation of realistic blurring image quality by using a shallow convolutional neural network[C]//Information and Automation(ICIA),2017 IEEE International Conference on.IEEE,2017:853-857.