陳 奇,章東平,楊 力
(中國(guó)計(jì)量大學(xué) 信息工程學(xué)院, 浙江 杭州 310018)
在視頻監(jiān)控的應(yīng)用場(chǎng)景下,我們先會(huì)對(duì)圖像中的人臉進(jìn)行檢測(cè)定位,檢測(cè)到的屬于同一個(gè)人的圖像可能是一張,也有可能是多張. 如果同一個(gè)人總共只檢測(cè)到了一張人臉,那么這張圖像不管圖像質(zhì)量的好壞,都應(yīng)被用于人臉識(shí)別. 但大多數(shù)時(shí)候,監(jiān)控都會(huì)采集到多張清晰度各異的人臉圖像. 因此有選擇性地選取一些較清晰的圖片用于人臉識(shí)別可以有效地提升識(shí)別率. 如何丟棄抓取的模糊人臉圖像,只保留清晰的人臉圖,這也是工業(yè)界和學(xué)術(shù)界一直重點(diǎn)研究的問(wèn)題之一.
針對(duì)圖像的清晰度評(píng)價(jià)的研究也在近年來(lái)得到了越來(lái)越多的學(xué)者的關(guān)注,研究方法主要可以分為以下幾類(lèi):
基于圖像邊緣信息的方法. 比如Feichtenhofer[1]等人通過(guò)引出邊緣斜率的概念,優(yōu)化特征的合并方法,提出了基于邊緣梯度的感知清晰度(PSI)方法. 張?zhí)祆蟍2]等人利用sobel算子得到圖片水平和垂直梯度,然后求得圖像的強(qiáng)邊緣并建立強(qiáng)邊緣直方圖,最后通過(guò)加權(quán)得出清晰度評(píng)價(jià)值. 這類(lèi)方法實(shí)現(xiàn)簡(jiǎn)單,但準(zhǔn)確性不高. 其次是基于空間域而不涉及邊緣信息的方法. 這類(lèi)方法[3]主要是從空間域的角度去考慮問(wèn)題,不容易實(shí)現(xiàn),效率低下. 還有就是基于變換域的方法. 有研究人員通過(guò)結(jié)合變換預(yù)域的方式提高了一定的準(zhǔn)確度,比如Marichal[4]等人利用離散余弦變換評(píng)價(jià)圖像清晰度,但魯棒性較差.
本研究將深度學(xué)習(xí)應(yīng)用于人臉清晰度評(píng)價(jià),利用卷積神經(jīng)網(wǎng)絡(luò)建立自己的清晰度評(píng)估模型. 同時(shí)又通過(guò)改變傳統(tǒng)的卷積結(jié)構(gòu)的方法來(lái)解決計(jì)算復(fù)雜度高及難以實(shí)時(shí)計(jì)算的問(wèn)題.
卷積神經(jīng)網(wǎng)絡(luò)是一種被證明在計(jì)算機(jī)視覺(jué)領(lǐng)域特別有效的神經(jīng)網(wǎng)絡(luò). 主要原因在于它的權(quán)值共享特性可以大大地降低模型的復(fù)雜度,同時(shí)又減少了權(quán)值的數(shù)量. 這是一個(gè)很重要的優(yōu)點(diǎn),尤其是當(dāng)輸入的圖像是多維情況下,圖像能夠直接用于網(wǎng)絡(luò)的輸入. 這么做就避免了傳統(tǒng)識(shí)別算法中繁瑣的特征提取與數(shù)據(jù)重建過(guò)程.
一般來(lái)說(shuō),卷積層就是專(zhuān)門(mén)用于做特征提取的網(wǎng)絡(luò)層,如圖1所示卷積層中每個(gè)神經(jīng)元通過(guò)一組濾波器的權(quán)值連接到上一層的特征圖中的小塊. 我們將人為設(shè)定這些濾波矩陣的長(zhǎng)和寬,不過(guò)通常設(shè)置為3×3或5×5. 卷積層試圖將神經(jīng)網(wǎng)絡(luò)中的每一小塊進(jìn)行更加深入地分析從而得到抽象程度更高的特征.
圖2是兩種連接方式的對(duì)比圖,對(duì)于全連接來(lái)說(shuō),b1和b2必須與所有的4個(gè)輸入元素a1,a2,a3,a4都連接. 而對(duì)于卷積層的局部連接來(lái)說(shuō),a1只與b1進(jìn)行連接,而沒(méi)有和b2相連,a4只與b2連接,而沒(méi)有和b1連接. 這種局部感知的特點(diǎn)使得網(wǎng)絡(luò)上的參數(shù)能夠巨幅減少,從而極大地提升訓(xùn)練速率.
圖2 兩種連接結(jié)構(gòu)示意圖Figure 2 Diagram of two connection structures
下采樣層將計(jì)算每一張?zhí)卣鲌D或者幾張?zhí)卣鲌D的局部小塊最大值或平均值. 如圖3所示,每4個(gè)小塊的平均值被提取出,這樣可以降低表示維度,同時(shí)可以忽略目標(biāo)的傾斜、旋轉(zhuǎn)之類(lèi)的相對(duì)位置的變化.
這么做可以提高精度,并且一定程度上減輕了過(guò)擬合. 為了便于理解,下采樣操作也可以認(rèn)為將一張分辨率較高的圖片轉(zhuǎn)換為分辨率較低的圖片.
圖3 均值下采樣示意圖Figure 3 Diagram of mean value down-sampling
經(jīng)過(guò)幾輪卷積層和下采樣層的處理之后,可以理解為圖像中的信息已經(jīng)被抽象成了那些具有更多信息量的特征.
全連接層的作用是連接所有的特征,將輸出值送給分類(lèi)器(如Softmax分類(lèi)器). Softmax分類(lèi)器[5]的表達(dá)式如下:
(1)
因?yàn)楸疚牡难芯勘尘盀楸O(jiān)控視頻下的人臉清晰度評(píng)價(jià),因此對(duì)實(shí)時(shí)性有一定要求.傳統(tǒng)的卷積運(yùn)算量大,下面的方法對(duì)卷積的運(yùn)算方式進(jìn)行改進(jìn).
本文使用了可分離卷積[6]這種改進(jìn)型的卷積操作. 標(biāo)準(zhǔn)的卷積操作分解為逐通道卷積和1×1的卷積兩模塊進(jìn)行. 可以理解為將原來(lái)的一個(gè)卷積層分解為兩個(gè)卷積層,前一個(gè)逐通道卷積的每個(gè)卷積核都只和輸入的每個(gè)通道進(jìn)行卷積,接著后面的1×1卷積負(fù)責(zé)將上一層計(jì)算的結(jié)果合并.
圖4是標(biāo)準(zhǔn)的卷積層和改進(jìn)后的卷積層上進(jìn)行卷積時(shí)的對(duì)比圖,X是輸入特征圖的數(shù)量,Y就是本層卷積核的數(shù)量,可以理解為輸出的通道個(gè)數(shù). 對(duì)于一個(gè)傳統(tǒng)的卷積操作,例如圖4中的第一行,我們假定輸入為X個(gè)K×K大小的特征圖,然后與Y個(gè)尺寸是W×W×X的卷積核做卷積運(yùn)算,輸出是Y個(gè)H×H的特征圖.那么總共會(huì)產(chǎn)生的計(jì)算量為W×W×X×Y×H×H.
圖4 兩種不同卷積結(jié)構(gòu)示意圖Figure 4 Diagram of two different convolution structures
圖4中的第二行,表示的是分解后的第一層卷積,同樣的輸入,不同的是這里先用X個(gè)尺寸為W×W×1的卷積核和輸入的X個(gè)特征圖做相對(duì)應(yīng)的卷積運(yùn)算. 這樣可以得到X個(gè)運(yùn)算結(jié)果,但是不將這X個(gè)結(jié)果相互之間累加. 那么這第一層輸出的是H×H×X,這一層的運(yùn)算量為H×H×W×W×X.
在圖4的第三行,上一層輸出的X個(gè)H×H大小的特征圖作為輸入,然后與Y個(gè)尺寸為1×1×X的卷積核去做卷積. 這種標(biāo)準(zhǔn)1×1卷積可以有效地進(jìn)行通道數(shù)的升維和降維,實(shí)現(xiàn)跨通道的交互和信息整合,是這幾年一些出色的網(wǎng)絡(luò)結(jié)構(gòu)中常用的卷積核類(lèi)型. 最后輸出的是Y個(gè)H×H的特征圖. 那么這一層的總運(yùn)算量為X×Y×1×1×H×H.
我們用下面的公式來(lái)求得兩種卷積結(jié)構(gòu)的計(jì)算量之比CR:
(2)
式(2)中分子表示分離卷積操作后的計(jì)算量,分母表示普通卷積的運(yùn)算量,那么用3×3大小的卷積核做卷積時(shí),理論上卷積的運(yùn)算時(shí)間能減少為原來(lái)的1/9左右.
在網(wǎng)絡(luò)結(jié)構(gòu)中我們會(huì)先將56×56大小的人臉圖像塊作為輸入,最后經(jīng)過(guò)一系列計(jì)算得到4個(gè)節(jié)點(diǎn)的輸出. 如表1.
表1 人臉清晰度評(píng)價(jià)網(wǎng)絡(luò)結(jié)構(gòu)
輸入的人臉圖會(huì)不斷進(jìn)行卷積操作提取局部特征,同時(shí)經(jīng)過(guò)處理的圖片的維數(shù)也在不斷的增加,最后經(jīng)過(guò)全連接層提取全局特征,然后用softmax進(jìn)行分類(lèi),這里的四個(gè)輸出節(jié)點(diǎn)代表清晰度的四個(gè)評(píng)價(jià)等級(jí)對(duì)應(yīng)的概率.
我們沒(méi)有對(duì)該網(wǎng)絡(luò)結(jié)構(gòu)中的首個(gè)卷積層做分解,另外最后還添加有一個(gè)均值下采樣層. 與之前一些經(jīng)典網(wǎng)絡(luò)結(jié)構(gòu)習(xí)慣在最后放上1到2個(gè)全連接層來(lái)給出最后的分類(lèi)結(jié)果有所不同,本文的網(wǎng)絡(luò)結(jié)構(gòu)對(duì)一整幅特征圖做全局平均值下采樣. 這種操作可以省去不少參數(shù),縮小網(wǎng)絡(luò)大小. 表1中的dw就表示逐通道.
網(wǎng)絡(luò)訓(xùn)練所需要的數(shù)據(jù)來(lái)自于實(shí)際監(jiān)控下的人臉抓拍數(shù)據(jù)集, 圖片主要通過(guò)人工標(biāo)注. 我們將它們根據(jù)圖片的清晰程度分成清晰、較清晰、較模糊、模糊四部分,每張圖片都有幾個(gè)人投票通過(guò)打分然后選取票數(shù)最多的類(lèi)別決定標(biāo)注的清晰程度. 表2為我們標(biāo)注時(shí)的參考準(zhǔn)則. 總共收集到的監(jiān)控人臉清晰度標(biāo)注圖片大約有3000張,其中挑選出各200張的4類(lèi)圖片總共800張人臉作為我們的測(cè)試數(shù)據(jù)集,剩余的2200張人臉用于訓(xùn)練.
表2 人臉清晰度標(biāo)注準(zhǔn)則
為了增加相應(yīng)的訓(xùn)練數(shù)據(jù),我們不直接將整個(gè)人臉作為模型的輸入,而是在這些人臉圖上截取56×56的小圖像塊,接著人工給每個(gè)小圖像塊等級(jí)得分作為標(biāo)簽. 當(dāng)我們測(cè)試模型的效果時(shí),在某一張人臉上,我們?nèi)∷锌梢缘玫降牟恢丿B小圖像塊進(jìn)行打分并求平均值作為這張人臉的清晰度評(píng)價(jià)值.
人臉清晰度的評(píng)測(cè)主要依賴(lài)于主觀人工評(píng)價(jià)的標(biāo)準(zhǔn)分和客觀上訓(xùn)練模型給出的得分,然后利用PLCC和SROCC這兩個(gè)公式分別計(jì)算兩組得分的一致性. 其中,PLCC主要用于計(jì)算準(zhǔn)確率, SROCC主要用于求得單調(diào)性.
評(píng)估準(zhǔn)確率主要通過(guò)皮爾遜線性相關(guān)系數(shù)(PLCC),PLCC的定義如下:
(3)
貯藏過(guò)程中,隨著時(shí)間的延長(zhǎng),肉的顏色隨肌紅蛋白的氧化、汁液流失及微生物的作用逐漸加深乃至褐變,影響了感官品質(zhì)和銷(xiāo)售價(jià)格。肉的色澤作為最直觀、最易辨別的感官評(píng)價(jià)指標(biāo),也是貯藏效果的重要評(píng)價(jià)指標(biāo)。本研究每隔2d對(duì)氣調(diào)冷鮮羊肉表面肉色進(jìn)行觀察,結(jié)果見(jiàn)圖2。
(4)
公式里Xi和Yi的含義是兩組評(píng)分值xi和yi以相同順序(從大到小或從小到大)排序后在各自序列中的順序號(hào),xi為我們對(duì)第i個(gè)人臉圖像給出的主觀評(píng)價(jià)值,yi為我們的訓(xùn)練模型給出的客觀評(píng)價(jià)值,其中n為總共用于進(jìn)行測(cè)試的人臉數(shù).
SROCC是從單調(diào)性上判斷兩對(duì)結(jié)果的相關(guān)程度. 從公式的表達(dá)來(lái)看,PLCC和SROCC的值越趨近于1,說(shuō)明客觀模型的評(píng)價(jià)效果越好.
由于主觀得分和客觀得分的評(píng)測(cè)量級(jí)可能不同,需要在計(jì)算PLCC和SROCC之前先將客觀評(píng)價(jià)得分進(jìn)行回歸運(yùn)算. 相應(yīng)的回歸函數(shù)如下[7]:
(5)
式(5)中,Q是模型客觀的評(píng)價(jià)值,β1,β2,β3,β4,β5這五個(gè)參數(shù)的具體設(shè)置見(jiàn)參考文獻(xiàn)[7].
本文前三個(gè)實(shí)驗(yàn)其他比較方法為基于最小可覺(jué)模糊[8](JNB),基于模糊探測(cè)累積概率[9](CBPD),基于局部感知清晰度[10](S3),基于局部相位相干性[11](LPC),基于最大局部變化[12](MLV). 為了證明本文算法對(duì)高質(zhì)量人臉和低質(zhì)量人臉都有效,我們選擇將測(cè)試集中圖像質(zhì)量較好的清晰和較清晰這兩部分400張人臉?lè)旁诘谝唤M實(shí)驗(yàn)中進(jìn)行測(cè)試. 然后將模糊和較模糊的兩部分質(zhì)量較差的人臉數(shù)據(jù)集放在第二組實(shí)驗(yàn)進(jìn)行測(cè)試.
第一個(gè)實(shí)驗(yàn)先進(jìn)行清晰和較清晰數(shù)據(jù)集的測(cè)試.下面的圖5為我們清晰集和較清晰集的兩個(gè)實(shí)例.
圖5 清晰和較清晰人臉實(shí)例圖Figure 5 Examples of clear face and relatively clear face
表3為我們的實(shí)驗(yàn)結(jié)果數(shù)據(jù),6種比較方法,以及每種方法對(duì)應(yīng)的精度.
表3 六種方法的比較結(jié)果(清晰和較清晰)
下面進(jìn)行模糊和較模糊數(shù)據(jù)集的測(cè)試.這部分的數(shù)據(jù)集圖片質(zhì)量差,主要是相機(jī)的焦距沒(méi)調(diào)好產(chǎn)生的離焦模糊,人的臉部與攝像頭之間產(chǎn)生了相對(duì)運(yùn)動(dòng)的運(yùn)動(dòng)模糊. 圖6為模糊人臉和較模糊人臉的實(shí)例圖片.
圖6 模糊和較模糊人臉實(shí)例圖Figure 6 Example of blur face and relatively blur face
表4為我們的實(shí)驗(yàn)結(jié)果,也同樣是6種方法的比較.
表4 六種方法的比較結(jié)果(模糊和較模糊)
接著一組實(shí)驗(yàn)將我們模型和其他方法的運(yùn)行速度進(jìn)行測(cè)試. 實(shí)驗(yàn)均在Visual Studio 2013環(huán)境下進(jìn)行,電腦配置為Intel Core i5-6500 CPU 3.20GHz,內(nèi)存為8.00GB. GPU的型號(hào)為NVIDIA GeForce GTX 960,測(cè)試速度的指標(biāo)為每秒幀數(shù)fps,測(cè)試結(jié)果如表5.
表5 六種方法運(yùn)行速度對(duì)比
最后一組比對(duì)實(shí)驗(yàn)將與幾種經(jīng)典的網(wǎng)絡(luò)結(jié)構(gòu)進(jìn)行比較,包括AlexNet[13]和GoogLeNet[14],并將測(cè)試平臺(tái)放到arm板上. 測(cè)試的數(shù)據(jù)集使用清晰和較清晰數(shù)據(jù)集,而評(píng)估指標(biāo)采用PLCC系數(shù),同時(shí)記錄他們的運(yùn)行時(shí)間用來(lái)計(jì)算fps,如表6.
表6 3種方法在ARM平臺(tái)上的比較結(jié)果
比較表3和表4的結(jié)果可以看出,在后面四種方法中,對(duì)清晰和較清晰人臉的評(píng)價(jià)效果與對(duì)模糊和較模糊人臉的評(píng)價(jià)效果變化不大. JNB的效果相對(duì)后面的幾種方法明顯差很多,而CPBD作為JNB的一種改進(jìn)方法,效果有了不少提升,但比后面四種方法還有一些差距. JNB和CPBD這兩種經(jīng)典方法屬于典型的利用邊緣的寬度去計(jì)算清晰度的方法,當(dāng)圖像嚴(yán)重模糊時(shí),很難檢測(cè)到邊緣,使得在模糊和較模糊數(shù)據(jù)集上準(zhǔn)確率會(huì)相對(duì)其他的方法下降更快. S3方法結(jié)合考慮了空間域和頻率域,效果比單獨(dú)考慮空間域更好. LPC基于轉(zhuǎn)換域來(lái)計(jì)算圖像清晰度,這種方法效果也還不錯(cuò),性能比較穩(wěn)定,在幾組實(shí)驗(yàn)中的結(jié)果都略微差于我們的結(jié)果. MLV方法是一種又快又好的方法,既具有相當(dāng)可觀的運(yùn)行效率,同時(shí)在效果上也只是稍差于我們的算法. 我們的算法跟其他的清晰度評(píng)價(jià)算法相比,在PLCC和SROCC上我們的指標(biāo)是最高的,說(shuō)明我們的評(píng)價(jià)算法要優(yōu)于前面幾種.
表5的結(jié)果顯示了MLV方法具有最快的運(yùn)行速度,而S3方法的運(yùn)行速度是最慢的. 本文雖然已經(jīng)在速度方面有了不少優(yōu)化但仍與MLV這個(gè)最快的方法在CPU運(yùn)算速度上有所較大的差距,但超過(guò)了前面4種方法,也基本能達(dá)到實(shí)時(shí)的處理效果,尤其是在GPU上的處理速度甚至接近了MLV方法. 這主要是因?yàn)镚PU比CPU更擅長(zhǎng)處理這種高度并行化的任務(wù)(比如卷積操作),能夠更好地發(fā)揮浮點(diǎn)運(yùn)算的性能.
最后一個(gè)實(shí)驗(yàn)我們選用清晰和較清晰數(shù)據(jù)集進(jìn)行實(shí)驗(yàn),如表6. 選用ARM這種嵌入式平臺(tái)能更好地驗(yàn)證網(wǎng)絡(luò)的效率. 從結(jié)果上看,GoogLeNet的PLCC系數(shù)要略高于我們0.8%,我們的方法又比AlexNet有0.3%的提高. AlexNet的處理速度是這三個(gè)網(wǎng)絡(luò)中最慢的,僅為5.9 fps. 而我們的網(wǎng)絡(luò)處理速度可以達(dá)到11.5 fps,幾乎是AlexNet的兩倍. GoogLeNet的處理速度比AlexNet快1.3倍,可以達(dá)到7.6 fps,但仍只有我們的0.66倍. 因此在準(zhǔn)確度幾乎相同的情況下,我們的算法在速度上還是具有優(yōu)勢(shì)的.
本文提出了利用卷積神經(jīng)網(wǎng)絡(luò)來(lái)替代傳統(tǒng)方法來(lái)進(jìn)行人臉清晰度評(píng)價(jià). 并在實(shí)驗(yàn)中證明了準(zhǔn)確度上相比傳統(tǒng)清晰度評(píng)價(jià)方法取得了更加不錯(cuò)的效果. 同時(shí),利用可分離卷積的方法大大減少了運(yùn)算量,提升了處理速度. 與其他的幾種經(jīng)典的卷積神經(jīng)網(wǎng)絡(luò)相比,在準(zhǔn)確度幾乎相等的情況下,計(jì)算速度上快了不少.
[1] FEICHTENHOFER C, FASSOLD H, SCHALLAUER P. A perceptual image sharpness metric based on local edge gradient analysis[J].IEEESignalProcessingLetters, 2013, 20(4):379-382.
[2] 張?zhí)祆? 馮華君, 徐之海, 等. 基于強(qiáng)邊緣寬度直方圖的圖像清晰度指標(biāo)[J]. 浙江大學(xué)學(xué)報(bào)(工學(xué)版), 2014(2):312-320.
ZHANG T Y, FENG H J, XU Z H, et al. Sharpness metric based on histogram strong edge width[J].JournalofZhejiangUniversity(EngineeringScience),2014(2): 312-320.
[3] WEE C Y, PARAMESRAN R. Image sharpness measure using eigenvalues[C]//IEEEInternationalConferenceonSignalProcessing.Beijing:IEEE, 2008:840-843.
[4] MARICHAL X, MA W Y, ZHANG H J. Blur determination in the compressed domain using DCT information[C]//IEEEInternationalConferenceonImageProcessing. Kobe: IEEE, 1999:386-390.
[5] WANG C, BLEI D, LI F F. Simultaneous image classification and annotation[C]//ComputerVisionandPatternRecognition. Miami: IEEE, 2009:1903-1910.
[6] SIFRE L.Rigid-MotionScatteringforImageClassification[D]. Palaiseau:Ecole Polytechnique, 2014.
[7] SHEIKH H R, SABIR M F, BOVIK A C. A statistical evaluation of recent full reference image quality assessment algorithms[J].IEEETransactionsonImageProcessing, 2006, 15(11):3440-3451.
[8] FERZLI R, KARAM L J. A no-reference objective image sharpness metric based on the notion of just noticeable blur (JNB)[J].IEEETransactionsonImageProcessing, 2009, 18(4):717-728.
[9] NARVEKAR N D, KARAM L J. A no-reference image blur metric based on the cumulative probability of blur detection (CPBD)[J].IEEETransactionsonImageProcessing, 2011, 20(9):2678-2683.
[10] VU C T, PHAN T D, CHANDLER D M. S3 : A Spectral and spatial measure of local perceived sharpness in natural images[J].IEEETransactionsonImageProcessing, 2012, 21(3):934-945.
[11] HASSEN R, WANG Z, SALAMA M M A. Image sharpness assessment based on local phase coherence[J].IEEETransactionsonImageProcessing, 2013, 22(7): 2798-2810.
[12] BAHRAMI K, KOT A C. A fast approach for no-reference image sharpness assessment based on maximum local variation[J].IEEESignalProcessingLetters, 2014, 21(6):751-755.
[13] KRIZHEVSKY A, SUTSKEVER I, HINTON G E. Imagenet classification with deep convolutional neural networks[C]//InternationalConferenceonNeuralInformationProcessingSystems. USA: Curran Associates Inc, 2012: 1097-1105.
[14] SZEGEDY C, LIU W, JIA Y, et al. Going deeper with convolutions[C]//ComputerVisionandPatternRecognition. Boston:IEEE, 2015:1-9.