張嘉暉, 沈文忠
(上海電力大學(xué) 電子與信息工程學(xué)院, 上海 200090)
虹膜設(shè)備采集到的虹膜圖片,會(huì)受到如光照、曝光、光圈和鏡頭限制等多方面因素的影響,若處理不當(dāng),可能會(huì)產(chǎn)生干擾識(shí)別的圖像偽影,降低圖片的視覺質(zhì)量,從而影響虹膜識(shí)別的結(jié)果。若是能夠自動(dòng)預(yù)測(cè)虹膜圖像的質(zhì)量,便可以及時(shí)篩選出低質(zhì)量圖片進(jìn)行預(yù)處理或重新捕獲等操作。傳統(tǒng)的圖像質(zhì)量評(píng)估(Image Quality Assessment,IQA)方法可以分為主觀評(píng)估方法和客觀評(píng)估方法。主觀的IQA方法是以人的主觀意識(shí)為判斷的評(píng)價(jià)方法,在許多常規(guī)場(chǎng)景下不便使用,如實(shí)時(shí)和自動(dòng)化系統(tǒng)等,因此有必要開發(fā)客觀的IQA方法來自動(dòng)、可靠地測(cè)量圖像質(zhì)量。
DAUGMAN J G[1]首次提出了虹膜圖像質(zhì)量評(píng)價(jià)的概念,通過對(duì)虹膜圖像二維傅里葉頻譜中的高頻分量進(jìn)行求和計(jì)算,將閾值作為評(píng)判標(biāo)準(zhǔn),判斷虹膜圖像是否清晰。陳戟等人[2]提出了一種新的基于小波包分解的算法,將虹膜紋理進(jìn)行小波包分解,通過計(jì)算其高頻能量來實(shí)現(xiàn)對(duì)圖像的評(píng)估。晁靜靜等人[3]提出了一種新穎的多指標(biāo)融合的虹膜IQA方法,選取多個(gè)質(zhì)量指標(biāo),利用GA-BP神經(jīng)網(wǎng)絡(luò)將多個(gè)指標(biāo)融合,從而得到一個(gè)關(guān)于虹膜圖像的綜合評(píng)估分?jǐn)?shù)。
如今虹膜IQA領(lǐng)域?qū)τ谟?jì)算效率和泛化能力的要求越來越高,傳統(tǒng)方法逐漸不能滿足許多苛刻的條件,同時(shí)也無法較為準(zhǔn)確地表征人的主觀評(píng)價(jià)意見。隨著深度學(xué)習(xí)的快速發(fā)展,其強(qiáng)大的學(xué)習(xí)能力、泛化能力及可移植性,可以很好地解決傳統(tǒng)IQA算法中存在的一些問題。KANG L等人[4]首次提出了將卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Networks,CNN)模型用于IQA任務(wù),并通過實(shí)驗(yàn)證明其有效性。因此,本文將卷積神經(jīng)網(wǎng)絡(luò)與虹膜IQA相結(jié)合,提出了一種新的基于多任務(wù)CNN的無參考IQA方法,具有快速、準(zhǔn)確、魯棒等特點(diǎn)。
在一些應(yīng)用場(chǎng)景中,有限的訓(xùn)練數(shù)據(jù)導(dǎo)致模型過擬合,泛化能力弱。多任務(wù)學(xué)習(xí)(Multi-Task Learning,MTL)是一種歸納遷移機(jī)制,主要目標(biāo)是利用隱含在多個(gè)相關(guān)任務(wù)的訓(xùn)練信號(hào)中的特定領(lǐng)域信息來提高泛化能力,MTL通過使用共享表示并行訓(xùn)練多個(gè)任務(wù)來完成這一目標(biāo)[5]。虹膜IQA的數(shù)據(jù)集標(biāo)注工作量較大,訓(xùn)練數(shù)據(jù)有限,因此使用多任務(wù)學(xué)習(xí)的方法較為合適。
輸入圖像預(yù)處理過程主要分為3個(gè)步驟。
步驟1 數(shù)據(jù)集原始圖像大小均為800×600像素,包含大量的非虹膜區(qū)域,為了有效地剔除干擾信息,采用文獻(xiàn)[6]所提出的虹膜快速定位方法,將虹膜目標(biāo)區(qū)域用矩形框框出,選取框內(nèi)的圖像作為后續(xù)環(huán)節(jié)的輸入樣本,并通過歸一化統(tǒng)一其尺寸。
步驟2 對(duì)局部對(duì)比度進(jìn)行歸一化處理,突出圖像的邊緣特征。
步驟3 將圖像分割為32×32像素的重疊小塊作為神經(jīng)網(wǎng)絡(luò)的輸入。“塊”操作有助于網(wǎng)絡(luò)提取到更多的虹膜邊緣特征和底層信息,同時(shí)由于數(shù)據(jù)集樣本并不豐富,以重疊的圖像塊進(jìn)行輸入也起到了數(shù)據(jù)增強(qiáng)的作用。
本文設(shè)計(jì)的多任務(wù)圖像質(zhì)量評(píng)估網(wǎng)絡(luò)(Multi-Task Image Quality Assessment,MTIQA)結(jié)構(gòu)示意如圖1所示。
圖1 MTIQA網(wǎng)絡(luò)結(jié)構(gòu)示意
由圖1可以看出,在網(wǎng)絡(luò)結(jié)構(gòu)的上半部分,采取與文獻(xiàn)[7]中VGG16網(wǎng)絡(luò)相類似的結(jié)構(gòu),卷積層分為5個(gè)區(qū)塊。5個(gè)區(qū)塊在結(jié)構(gòu)上保持一致,都是由反復(fù)堆疊的3×3的小型卷積核和2×2的最大池化層構(gòu)成。因?yàn)槭褂?×3的小型卷積串聯(lián)比1個(gè)較大的卷積核擁有更少的參數(shù)量和更多的非線性變換。第5個(gè)區(qū)塊后接2個(gè)全連接層,使用ReLU作為激活函數(shù),利用dropout方式來減少過擬合的可能性。
在多任務(wù)網(wǎng)絡(luò)的末端分為線性回歸層和邏輯回歸層兩個(gè)子層,分別用于質(zhì)量評(píng)估和失真類型分類。兩個(gè)任務(wù)都將第2個(gè)全連接層的輸出作為輸入,并共享之前的所有網(wǎng)絡(luò)結(jié)構(gòu)。
本文以虹膜IQA作為主要任務(wù),經(jīng)過預(yù)處理操作后,網(wǎng)絡(luò)輸入的圖像為32×32像素的小塊,使用MTIQA網(wǎng)絡(luò)對(duì)每個(gè)小塊進(jìn)行打分,并采取平均池化策略得到圖像的質(zhì)量分?jǐn)?shù)。
若xi為第i個(gè)小塊的質(zhì)量分?jǐn)?shù),則一幅被分割為N個(gè)重疊的小塊圖像的整體質(zhì)量分?jǐn)?shù)Q(x)為
(1)
為了將得到的分?jǐn)?shù)與主觀分?jǐn)?shù)進(jìn)行有效比較,質(zhì)量評(píng)估任務(wù)采用的損失函數(shù)表示為
(2)
式中:Lquality——虹膜IQA任務(wù)的損失函數(shù);
yi——主觀真實(shí)值;
Q(xi)——輸入xi得到的評(píng)估值。
輔助任務(wù)的目標(biāo)是對(duì)失真類型進(jìn)行分類。分類任務(wù)選用Softmax作為分類器,采用分類交叉熵的損失函數(shù)表示為
(3)
式中:Ldistortions——失真類型分類的損失函數(shù);
M——總類別數(shù);
Ti,j——真實(shí)的分類標(biāo)簽;
Pi,j——預(yù)測(cè)的分類。
多任務(wù)網(wǎng)絡(luò)需要增加一個(gè)線性約束將上述兩類損失函數(shù)融合成一個(gè)損失函數(shù)。融合損失函數(shù)表示為
L=λLquality+(1-λ)Ldistortions
(4)
式中:L——融合后的損失函數(shù);
λ——主要任務(wù)的損失函數(shù)的權(quán)重。
本文采用ZHL堿性無氰鍍銀液進(jìn)行滾鍍。針對(duì)滾鍍的工件占槽比(指工件體積與滾筒容積之比)、電流密度、滾筒轉(zhuǎn)速、鍍液溫度、鍍液濃度等影響因素進(jìn)行大量基礎(chǔ)實(shí)驗(yàn),獲得適合該工藝的最佳工作范圍。
由于兩項(xiàng)任務(wù)的損失函數(shù)不同,所以對(duì)應(yīng)的損失也有所不同。但多任務(wù)網(wǎng)絡(luò)歸根結(jié)底是為了進(jìn)行質(zhì)量評(píng)估,主要任務(wù)的損失應(yīng)占有更大的比重,故引入λ作為超參數(shù)來平衡兩項(xiàng)任務(wù)的重要性。
質(zhì)量評(píng)估數(shù)據(jù)集比較特殊,不僅需要大量的數(shù)據(jù),而且數(shù)據(jù)的標(biāo)簽平均主觀得分(Mean Opinion Score,MOS)需要通過主觀實(shí)驗(yàn)得到。由于主觀實(shí)驗(yàn)工作量較大,且需要大量經(jīng)過培訓(xùn)的志愿者配合,故目前還沒有公開的虹膜IQA數(shù)據(jù)集。鑒于以上情況,本文建立了一個(gè)新的虹膜IQA數(shù)據(jù)集SIR2019,用于評(píng)價(jià)客觀指標(biāo)的準(zhǔn)確性。
本文在某煤礦礦車司機(jī)虹膜圖像庫中選取了6幅具有代表性的圖片作為參考圖像,如圖2所示。
圖2 虹膜參考圖片
由于自然失真圖像數(shù)量較少且類別難以界定,故IQA領(lǐng)域通常采用人為添加失真的方式生成數(shù)據(jù)集中的失真圖片。表1為SIR2019數(shù)據(jù)集中所包含的失真類型及對(duì)應(yīng)場(chǎng)景,其中的失真均為人為添加,每個(gè)失真包括5個(gè)級(jí)別。
表1 SIR2019數(shù)據(jù)集所包含的失真類型
本文所選取的5種失真類型在實(shí)際應(yīng)用中經(jīng)常出現(xiàn),且在通用質(zhì)量評(píng)價(jià)數(shù)據(jù)集中較為常見。通過調(diào)節(jié)函數(shù)中的參數(shù)設(shè)置,為6幅參考圖片添加不同類型和等級(jí)的失真。通過大量的試驗(yàn)選擇合適的參數(shù),使生成的不同失真等級(jí)的圖片之間能夠存在人類可以觀察到的視覺感知差異。創(chuàng)建完成的SIR2019數(shù)據(jù)集包含6張參考圖片,150張失真圖片。
圖3為參考圖片進(jìn)行不同等級(jí)的JPEG壓縮后生成的最低等級(jí)和最高等級(jí)失真圖片之間的差異對(duì)比。
圖3 失真圖片等級(jí)差異對(duì)比
在主觀實(shí)驗(yàn)中,由觀察者評(píng)估圖像的質(zhì)量,最終統(tǒng)計(jì)出MOS值。根據(jù)主觀實(shí)驗(yàn)所選策略的不同,志愿者可以被要求評(píng)估圖像的絕對(duì)質(zhì)量,或與參考圖片比較評(píng)估異同程度。主觀評(píng)價(jià)實(shí)驗(yàn)策略通常基于單激勵(lì)和雙激勵(lì)損傷量表、雙激勵(lì)連續(xù)質(zhì)量量表(Double Stimulus Continuous Quality Scale,DSCQS)設(shè)計(jì)。策略必須符合主觀質(zhì)量評(píng)價(jià)國(guó)際標(biāo)準(zhǔn)ITU-R BT.1788建議書《對(duì)多媒體應(yīng)用中視頻質(zhì)量的主觀評(píng)估方法》。
本文主觀實(shí)驗(yàn)使用莫斯科國(guó)立大學(xué)圖形和媒體實(shí)驗(yàn)室開源的圖像及視頻主觀實(shí)驗(yàn)軟件MSU Perceptual Video Quality Tool,選擇DSCQSⅡ策略。在實(shí)驗(yàn)中,將參考圖像與失真圖像同時(shí)顯示,可以更直接地讓打分者感知兩幅圖像之間的差異,從而給出更加客觀的MOS值。分值范圍設(shè)置為1~100。實(shí)驗(yàn)軟件打分窗口如圖4所示。
圖4 實(shí)驗(yàn)軟件打分窗口示意
共有9名觀察員參加了本次實(shí)驗(yàn)。在實(shí)驗(yàn)前對(duì)他們進(jìn)行了初步的指導(dǎo)和預(yù)評(píng)估,實(shí)驗(yàn)過程中有專業(yè)人員監(jiān)督。
SIR2019數(shù)據(jù)集中150幅失真圖片的MOS值如圖5所示。所有類型所有等級(jí)的失真圖片的平均MOS值如圖6所示。
圖5 SIR2019數(shù)據(jù)集中所有失真圖片的MOS值
圖6 所有類型所有等級(jí)的失真圖片平均MOS值分布
質(zhì)量評(píng)價(jià)指標(biāo)驗(yàn)證實(shí)驗(yàn)將SIR2019數(shù)據(jù)集劃分為幾種特定的子集,分別代表不同的情景。子集包括一種或幾種類型的失真圖片。表2為用于驗(yàn)證指標(biāo)的4種子集。其中,“+”代表添加該種失真類型圖片到此子集中。
表2 用于驗(yàn)證指標(biāo)的4種子集
為了驗(yàn)證數(shù)據(jù)集的可用性,選取以下12種經(jīng)典圖像質(zhì)量評(píng)估算法作為數(shù)據(jù)集評(píng)價(jià)指標(biāo),包括:VIF[8],BRISQUE[9],FSIM[10],MSSIM[11],VSNR[12],PSNR-HVS,PSNR-HVSM,PSNR,MSE,GMSD,BIQI,SSIM[13]。以上指標(biāo)均在IQA領(lǐng)域被廣泛使用,大量的實(shí)驗(yàn)證實(shí)了這些指標(biāo)與人的意志具有較高的主觀一致性。因此,計(jì)算以上指標(biāo)與主觀實(shí)驗(yàn)所得MOS值之間的Spearman秩相關(guān)系數(shù)(Spearman’s Rank Order Correlation Coefficient,SROCC)和Kendall秩相關(guān)系數(shù)(Kendall Rank Order Correlation Coefficient,KROCC),能夠定量地驗(yàn)證主觀實(shí)驗(yàn)所得MOS值是否可用;同時(shí),可以間接地判斷該數(shù)據(jù)集能否用作訓(xùn)練數(shù)據(jù)。12個(gè)質(zhì)量評(píng)估指標(biāo)與4種所選子集之間的SROCC和KROCE如表3和表4所示,表中加下劃線的數(shù)據(jù)代表每個(gè)子集的最佳指標(biāo)。
表3 12個(gè)質(zhì)量評(píng)估指標(biāo)與4種子集之間的SROCC
表4 12個(gè)質(zhì)量評(píng)估指標(biāo)與4種子集之間的KROCC
針對(duì)所涉及的4種子集,SIR2019數(shù)據(jù)集與兩個(gè)圖像質(zhì)量通用數(shù)據(jù)集TID2013[14]和LIVE[15]的指標(biāo)驗(yàn)證實(shí)驗(yàn)結(jié)果均具有較高的相似性。在大多數(shù)情景下,SIR2019數(shù)據(jù)集的MOS值與所選驗(yàn)證指標(biāo)具有較高的相關(guān)性,即證明了主觀實(shí)驗(yàn)得到的MOS值是可用的。綜上所述,SIR2019數(shù)據(jù)集可用于無參考虹膜圖像質(zhì)量評(píng)估。
3.1.1 評(píng)價(jià)指標(biāo)
通常情況下,SROCC和線性相關(guān)系數(shù)(Linear Correlation Coefficient,LCC)被用于評(píng)價(jià)質(zhì)量算法的優(yōu)劣性。其中,SROCC用于衡量模型算法的單調(diào)性,LCC通過計(jì)算真實(shí)值和預(yù)測(cè)值的關(guān)系來評(píng)價(jià)模型的估計(jì)精度。SROCC和LCC的值越高,意味著評(píng)估算法越好。其定義分別為
(5)
(6)
式中:di——圖像在主觀評(píng)分中的位次與網(wǎng)絡(luò)學(xué)習(xí)分?jǐn)?shù)位次的差值;
K——進(jìn)行評(píng)價(jià)的圖像總數(shù);
pi——模型通過訓(xùn)練學(xué)習(xí)到的圖像的預(yù)測(cè)分?jǐn)?shù);
g——對(duì)應(yīng)圖像的主觀質(zhì)量評(píng)分,即真實(shí)值。
3.1.2 實(shí)驗(yàn)結(jié)果分析
MTIQA中,質(zhì)量評(píng)估為主任務(wù),使用SROCC和LCC作為評(píng)價(jià)指標(biāo);失真類型分類為次任務(wù),使用較為常見的分類準(zhǔn)確率作為評(píng)價(jià)指標(biāo)。SIR2019數(shù)據(jù)集在MTIQA中進(jìn)行訓(xùn)練,最終次任務(wù)的評(píng)價(jià)指標(biāo)分類準(zhǔn)確率達(dá)到100%。由于多任務(wù)學(xué)習(xí)能夠獲取相近任務(wù)中的有效信息,次任務(wù)作為一種輔助,其較高的準(zhǔn)確率對(duì)于主任務(wù)的性能也將會(huì)有明顯的提高。不同的IQA方法在SIR2019數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果如表5所示。
表5 不同IQA方法在SIR2019數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果
由表5可以看到,與傳統(tǒng)的全參考方法VIF相比,本文方法的SROCC提升了0.97%,LCC提升了3.18%;與無參考方法CNNIQA相比,本文方法的SROCC提升了10.94%,LCC提升了0.21%。上述結(jié)果驗(yàn)證了MTIQA網(wǎng)絡(luò)的有效性。
錯(cuò)誤匹配率(False Match Rate,FMR)和錯(cuò)誤不匹配率(False Non-Match Rate,FNMR)是虹膜識(shí)別常用的性能評(píng)價(jià)指標(biāo),它們隨閾值的改變而改變。在驗(yàn)證實(shí)驗(yàn)中,一般取FMR=0.001時(shí)FNMR的值作為參考值,FNMR參考值越小,算法的識(shí)別性能越好。檢測(cè)錯(cuò)誤權(quán)衡圖(Detection Error Tradeoff,DET)則是一種描述FMR與FNMR之間隨閾值變化而變化的曲線圖。將FMR和FNMR壓縮在一個(gè)坐標(biāo)系內(nèi),曲線越靠近x軸,說明算法的識(shí)別性能越好。
虹膜IQA研究的根本目的在于提升虹膜識(shí)別系統(tǒng)的性能。本文設(shè)計(jì)的驗(yàn)證實(shí)驗(yàn)使用CASIA-Iris-Distance-Lamp數(shù)據(jù)集,通過質(zhì)量評(píng)估算法對(duì)數(shù)據(jù)集中所有樣本進(jìn)行評(píng)分,將一定比例的質(zhì)量分?jǐn)?shù)最低的樣本摒棄。隨后對(duì)摒棄前后的數(shù)據(jù)集分別進(jìn)行虹膜匹配,得到不同閾值所對(duì)應(yīng)的FMR和FNMR,并畫出所對(duì)應(yīng)的DET曲線圖。根據(jù)DET曲線圖和FNMR參考值,可以判斷質(zhì)量評(píng)估算法的有效性及其對(duì)于虹膜識(shí)別性能提升的程度。不同的圖像評(píng)估算法在CASIA-Iris-Distance-Lamp數(shù)據(jù)集上的有效性驗(yàn)證實(shí)驗(yàn)DET曲線如圖7所示。其中,曲線1表示CASIA-Iris-Distance-Lamp數(shù)據(jù)集原始曲線,曲線2表示使用BRISQUE算法摒棄3%低質(zhì)量圖片后的DET曲線,曲線3表示使用CNNIQA算法摒棄3%低質(zhì)量圖片后的DET曲線,曲線4和5分別表示使用本文算法摒棄3%和8%低質(zhì)量圖片后的DET曲線。
圖7 不同算法在CASIAIrisDistanceLamp數(shù)據(jù)集上有效性驗(yàn)證的DET曲線
由圖7可以看出,無論基于何種質(zhì)量評(píng)估算法,在摒棄一定比例的低質(zhì)量圖像后,FNMR均呈減小趨勢(shì)。通過比較本文算法摒棄比例分別為3%和8%的情況,證明隨著摒棄比例的增加,FNMR減小的程度也隨之增加。由此可見,摒棄低質(zhì)量圖片能夠有效地提升虹膜識(shí)別系統(tǒng)的性能。此外,通過比較圖中涉及算法摒棄3%低質(zhì)量圖片后的DET曲線可以發(fā)現(xiàn),本文算法所對(duì)應(yīng)的曲線與初始曲線的分離程度最大,且FNMR參考值最小,較初始曲線的參考值下降了4.65%。這表明,本文算法與虹膜識(shí)別系統(tǒng)對(duì)于圖像質(zhì)量的感知具有較高的一致性,所摒棄的低質(zhì)量圖像對(duì)于識(shí)別系統(tǒng)的負(fù)面影響更大,從側(cè)面印證了本文算法的準(zhǔn)確性和有效性。
本文提出了一種多任務(wù)卷積神經(jīng)網(wǎng)絡(luò)MTIQA以實(shí)現(xiàn)對(duì)虹膜圖像的質(zhì)量評(píng)估,同時(shí)完成圖像質(zhì)量的定量評(píng)估和失真類型的分類任務(wù)。由于數(shù)據(jù)有限,所以只建立了虹膜IQA數(shù)據(jù)集SIR2019。在SIR2019數(shù)據(jù)集上的實(shí)驗(yàn)取得了不錯(cuò)的效果,證明了算法的準(zhǔn)確性;同時(shí),通過在CASIA-Iris-Distance-Lamp數(shù)據(jù)集上實(shí)驗(yàn),考察了算法對(duì)識(shí)別系統(tǒng)性能的影響,驗(yàn)證了算法的有效性。