路東生,張玉金,黨良慧
(上海工程技術(shù)大學(xué)電子電氣工程學(xué)院,上海 201620)
智能設(shè)備與社交軟件的升級(jí)迭代,促進(jìn)了數(shù)字圖像的應(yīng)用與發(fā)展,主流的圖像處理軟件如Photoshop、Gimp、美圖秀秀等,具有強(qiáng)大的圖像編輯功能,讓圖像篡改操作變得更加便利。數(shù)字圖像篡改可廣泛地分為內(nèi)容保留與內(nèi)容改變兩類,內(nèi)容保留包括JPEG 壓縮[1]、濾波操作[2]、對(duì)比度增強(qiáng)等,對(duì)圖像具有較低的破壞性,并未改變語(yǔ)義信息;內(nèi)容改變具體分為拼接[3-4]、復(fù)制-粘貼[5-6]、移除[7],這些操作將修改圖片內(nèi)容并導(dǎo)致語(yǔ)義信息改變。復(fù)制-粘貼操作在同一張圖片中進(jìn)行,即復(fù)制圖片中的局部區(qū)域并粘貼在同一圖片的另一個(gè)區(qū)域從而形成偽造圖片[8-9],拼接篡改是把來(lái)自2 張或多張圖片中不同的局部區(qū)域進(jìn)行拼接以形成偽造圖片,移除篡改是依據(jù)圖片中的背景區(qū)域填補(bǔ)同一圖片中被移除的區(qū)域。一般來(lái)說(shuō),改變內(nèi)容的篡改操作是通過(guò)隱藏物體或增加物體數(shù)量達(dá)到信息誤導(dǎo)的目,并結(jié)合圖像模糊、縮放、扭曲等處理操作使篡改圖像檢測(cè)及定位研究更具挑戰(zhàn)性,偽造圖像經(jīng)過(guò)專業(yè)圖像篡改者的加工可以不留下任何視覺(jué)線索。
目前,有很多研究工作僅對(duì)待檢測(cè)圖像進(jìn)行分類,即一幅圖像是否被篡改,只有少數(shù)研究工作嘗試進(jìn)行圖像塊[10-11]的分類或像素級(jí)[12-13]篡改區(qū)域定位。相較于圖像篡改檢測(cè),圖像篡改區(qū)域的定位同樣不可忽視,篡改區(qū)域定位能夠進(jìn)一步甄別偽造者的意圖,在司法鑒定和法醫(yī)領(lǐng)域發(fā)揮重要作用。此外,多數(shù)圖像篡改取證方法僅僅關(guān)注某一特定的篡改類型,如復(fù)制-粘貼、拼接、移除等,但針對(duì)單一篡改類型的圖像取證方法可能不適用于另一種圖像篡改類型,例如由于拼接操作類型來(lái)源不同源的圖像會(huì)引入不同的光電響應(yīng)、噪聲等固有特征,而復(fù)制-粘貼操作類型的篡改檢測(cè)方法不能利用固有特征差異,因此無(wú)法對(duì)該類型圖像進(jìn)行檢測(cè)?,F(xiàn)實(shí)生活中的偽造圖像復(fù)雜多樣,這就要求圖像篡改取證研究者的工作不能局限于特定的篡改操作類型。
本文提出一種面向圖像篡改取證的多特征融合U 形深度網(wǎng)絡(luò),以實(shí)現(xiàn)端到端的篡改圖像檢測(cè)與定位。利用CNN 網(wǎng)絡(luò)和SRM 卷積層提取篡改信息,并將其輸入到基于編解碼網(wǎng)絡(luò)和多特征融合的特征提取模塊,以實(shí)現(xiàn)篡改特征提取。在融合定位模塊中利用分級(jí)監(jiān)督策略,結(jié)合不同分辨率提取的篡改特征,完成對(duì)篡改區(qū)域的預(yù)測(cè)。
在圖像篡改取證研究中,通常根據(jù)真實(shí)圖像與篡改圖像間不同特性進(jìn)行圖像檢測(cè)和篡改區(qū)域定位,這些特征包括JPEG 壓縮效應(yīng)[1]、邊緣不一致[14-15]、噪聲模式[16]、色彩一致性、視覺(jué)相似度[8-9]、EXIF 一致性[3]、相機(jī)模型等特性。
待檢測(cè)圖像若曾被復(fù)制粘貼,圖像中必然存在局部相似的區(qū)域,基于此假設(shè),一般的研究方法[7-8]將待檢測(cè)圖像分為非重疊區(qū)域和重疊區(qū)域,并利用相似性或相關(guān)性進(jìn)行度量,以確定圖像塊是否被復(fù)制,常用的特征提取方法有局部二值模式(Local Binary Patterns,LBP)、方向梯度直方圖(Histogram of Oriented Gradient,HOG)、尺度不變特征變換(Scale-Invariant Feature Transform,SIFT)及其改進(jìn)的算法。文獻(xiàn)[5]通過(guò)分割待檢測(cè)圖像,對(duì)比各個(gè)語(yǔ)義獨(dú)立補(bǔ)丁的仿射變換矩陣以確定匹配點(diǎn),并進(jìn)一步匹配確定相似的補(bǔ)丁。文獻(xiàn)[17]所提圖像塊匹配算法能有效用于計(jì)算圖像上的近似最近鄰域,并使用不變特征來(lái)匹配相似圖像塊,例如圓諧波轉(zhuǎn)換,展現(xiàn)了該應(yīng)用經(jīng)過(guò)幾何變換圖像塊的魯棒性。在深度學(xué)習(xí)出現(xiàn)前,研究主要關(guān)注判定圖像及圖像塊是否被篡改,由于深度學(xué)習(xí)在目標(biāo)檢測(cè)、語(yǔ)言分割方面取得了優(yōu)異表現(xiàn),復(fù)制-粘貼取證也有較大進(jìn)展。文獻(xiàn)[7]定義了兩分支的神經(jīng)網(wǎng)絡(luò)框架,并分別用于提取篡改區(qū)域留下的視覺(jué)痕跡、區(qū)分篡改區(qū)域與背景區(qū)域,最終實(shí)現(xiàn)像素級(jí)的檢測(cè)定位。文獻(xiàn)[8]使用卷積神經(jīng)網(wǎng)絡(luò)從圖像中提取局部塊的特征,計(jì)算不同塊之間的自相關(guān)性,并利用點(diǎn)特征提取器定位匹配點(diǎn),通過(guò)反卷積網(wǎng)絡(luò)定位篡改區(qū)域,對(duì)于仿射變換、JPEG 壓縮、模糊等各種已知攻擊具有較強(qiáng)的魯棒性。
若偽造圖像經(jīng)過(guò)拼接操作,則拼接區(qū)域?qū)⒁氩煌诒尘皡^(qū)域的固有特征,例如噪聲不連續(xù)、篡改區(qū)域邊緣和色彩不一致等線索。MAHDIAN 等[18]利用小波變換原理估計(jì)圖像塊的噪聲水平,并設(shè)定閾值不斷融合領(lǐng)域圖像塊,根據(jù)噪聲的局部不一致性進(jìn)行篡改區(qū)域定位。PAN 等[19]利用帶通濾波器下的峰值濃度與噪聲水平的關(guān)系檢測(cè)篡改區(qū)域,該方法首先計(jì)算每個(gè)局部窗口的噪聲,接著對(duì)這些噪聲值進(jìn)行K-means 聚類,最終確定拼接區(qū)域。當(dāng)拼接區(qū)域和原始圖像內(nèi)在噪聲方差的差異較小時(shí),該方法的檢測(cè)結(jié)果不理想。ZENG 等[20]基于主成分分析(Principal Component Analysis,PCA)方法估算每個(gè)圖像塊的協(xié)方差矩陣的最小特征值,通過(guò)估計(jì)較大圖像塊的噪聲水平確定圖像塊是否為可疑圖像塊,將較大的圖像塊繼續(xù)分割為較小圖形塊,并再次進(jìn)行噪聲水平估計(jì),該方法能較有效地定位拼接區(qū)域。
文獻(xiàn)[21]把待檢測(cè)圖像分為水平和垂直的條帶,根據(jù)局部區(qū)域光源顏色的不一致性實(shí)現(xiàn)圖像塊級(jí)的拼接區(qū)域定位,因深度學(xué)習(xí)具有高緯數(shù)據(jù)的特征多級(jí)表征學(xué)習(xí)能力,基于卷積神經(jīng)網(wǎng)絡(luò)的方法應(yīng)運(yùn)而生。文獻(xiàn)[14]使用卷積神經(jīng)網(wǎng)絡(luò)提取篡改區(qū)域邊緣的顯著性差異,同時(shí)預(yù)測(cè)篡改區(qū)域及其邊緣,最終結(jié)合幾何限制定位篡改區(qū)域。文獻(xiàn)[4]設(shè)計(jì)深度稠密匹配層來(lái)尋找2 個(gè)給定圖像特征的潛在拼接區(qū)域,并設(shè)計(jì)了視覺(jué)一致性驗(yàn)證模塊,該模塊通過(guò)交叉驗(yàn)證潛在拼接區(qū)域上的圖像內(nèi)容來(lái)確定檢測(cè)。文獻(xiàn)[3]使用自動(dòng)記錄的照片EXIF 元數(shù)據(jù)作為訓(xùn)練模型的監(jiān)督信號(hào),以確定圖像是否具有自一致性,將自我一致性模型應(yīng)用于偽造圖像的檢測(cè)和定位。
文獻(xiàn)[9]和文獻(xiàn)[22]提出基于修復(fù)的圖像移除取證方法,可以實(shí)現(xiàn)無(wú)明顯痕跡的物體去除[22]。文獻(xiàn)[23]提出一種集成的圖像移除篡改檢測(cè)方法,利用中心像素映射加速相似圖像對(duì)的搜索,減少處理時(shí)間的同時(shí)維持了較高的精度,然而針對(duì)壓縮、低通濾波、模糊等攻擊偽造圖像效果不理想。文獻(xiàn)[9]采用2 種強(qiáng)化監(jiān)督策略以引導(dǎo)卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Networks,CNN)自動(dòng)學(xué)習(xí)修補(bǔ)特征而非圖像內(nèi)容特征,該方法采用編碼器-解碼器網(wǎng)絡(luò)結(jié)構(gòu),以實(shí)現(xiàn)在不考慮特征提取的情況下自動(dòng)檢測(cè)、去除篡改區(qū)域。
文獻(xiàn)[24-26]提出針對(duì)復(fù)合篡改類型的深度學(xué)習(xí)方法用于篡改取證,文獻(xiàn)[12]在生成特征圖上使用長(zhǎng)短期記憶(Long Short-Term Memory,LSTM)網(wǎng)絡(luò)建立相鄰像素之間的相關(guān)性,結(jié)合卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)獲取篡改區(qū)域與背景區(qū)域的邊界不連續(xù)特點(diǎn),實(shí)現(xiàn)端到端的像素級(jí)定位。若篡改區(qū)域邊緣未留下明顯痕跡,則篡改性能下降。文獻(xiàn)[24]利用LSTM網(wǎng)絡(luò)捕獲篡改引起的重采樣特征,同時(shí)使用編解碼網(wǎng)絡(luò)結(jié)構(gòu)捕獲篡改痕跡,融合特征完成篡改區(qū)域的定位。文獻(xiàn)[25]在文獻(xiàn)[24]基礎(chǔ)上充分考慮淺層特征圖對(duì)篡改定位的影響,采用跳躍連接以避免邊緣、紋理等線索的丟失,進(jìn)一步提升篡改定位精度。文獻(xiàn)[26]提出兩階段的篡改方法,先通過(guò)復(fù)制粘貼檢測(cè)器判斷圖像是否經(jīng)過(guò)克隆和移除篡改操作,再結(jié)合基于深度學(xué)習(xí)的重采樣檢測(cè)器判斷是否經(jīng)過(guò)拼接和重采樣篡改操作,在一定程度上提高了檢測(cè)性能。
本文提出面向圖像篡改取證的多特征融合U 形深度網(wǎng)絡(luò)(Multi-Feature Fusion U-Structure deep network for image forgeries detection,MFF-US net)用于圖像篡改檢測(cè)和定位,如圖1 所示(彩色效果見(jiàn)《計(jì)算機(jī)工程》官網(wǎng)HTML 版),該網(wǎng)絡(luò)包含信息融合、特征提取、區(qū)域定位3 個(gè)模塊,相較于現(xiàn)有使用圖像分類的預(yù)訓(xùn)練模型深度學(xué)習(xí)方法,MFF-US net 是從0 開(kāi)始訓(xùn)練的高效深度學(xué)習(xí)網(wǎng)絡(luò),能夠避免過(guò)量的參數(shù)增加計(jì)算量。
圖1 MFF-US net 的框架Fig.1 Framework of MFF-US net
在篡改圖像顏色空間,對(duì)篡改區(qū)域邊緣和對(duì)比度差異等語(yǔ)義特征建模并不能充分利用篡改區(qū)域遺留的噪聲痕跡。因此,在信息融合模塊中加入富隱寫模型卷積層自動(dòng)提取噪聲特征,通過(guò)聯(lián)結(jié)操作最大程度地保留篡改線索,并在特征提取模塊中利用編碼-解碼網(wǎng)絡(luò)多尺度地提取上下文信息。在區(qū)域定位模塊中,為了避免篡改特征表征的損失,將提取的融合特征分級(jí)進(jìn)行監(jiān)督并逐層實(shí)現(xiàn)特征融合,實(shí)現(xiàn)篡改區(qū)域檢測(cè)和高置信度的像素級(jí)分類。
本文的貢獻(xiàn)主要有以下3 個(gè)方面:
1)提出一種并不依賴預(yù)訓(xùn)練模型的圖像篡改取證方法,更加關(guān)注篡改區(qū)域與真實(shí)區(qū)域間的特征建模,并在多個(gè)公共數(shù)據(jù)集上取得較優(yōu)性能。
2)利用SRM 模型提取噪聲分布特征并融合RGB 視覺(jué)線索,實(shí)現(xiàn)像素級(jí)的檢測(cè)與定位。
3)篡改區(qū)域和真實(shí)區(qū)域存在樣本標(biāo)簽不平衡的情況,常篡改區(qū)域的像素?cái)?shù)量遠(yuǎn)小于真實(shí)的背景區(qū)域,因此引入損失函數(shù)緩解樣本不平衡問(wèn)題。
圖像篡改取證與目標(biāo)檢測(cè)任務(wù)相比,后者關(guān)注于物體的檢測(cè),前者更強(qiáng)調(diào)篡改區(qū)域遺留的痕跡且要求深度學(xué)習(xí)網(wǎng)絡(luò)需要學(xué)習(xí)更豐富的特征。因此,本文在融合RGB 信息和噪聲信息的基礎(chǔ)上,引入U(xiǎn) 型殘差塊[27]構(gòu)造可堆疊U 型結(jié)構(gòu)的MFF-US net,以捕捉更多上下文信息。該網(wǎng)絡(luò)不同于Hourgalss network、Docu-Net、CU-Net 等網(wǎng)絡(luò)[27],其網(wǎng)絡(luò)的堆疊不會(huì)引起計(jì)算參數(shù)和消耗量被成倍放大,滿足高效提取多尺度偽造特征的篡改取證網(wǎng)絡(luò)。
圖像作為網(wǎng)絡(luò)的輸入,不需要額外進(jìn)行預(yù)處理操作。在信息融合階段通過(guò)對(duì)輸入圖像進(jìn)行雙分支處理,SRM 卷積層和2D 卷積層經(jīng)過(guò)卷積處理分別生成相同維度的特征,通過(guò)聯(lián)結(jié)所獲取的特征作為特征提取模塊的輸入信息。
3.1.1 RGB 信息
復(fù)制-粘貼、拼接、移除等圖像篡改操作普遍會(huì)留下視覺(jué)痕跡,在篡改區(qū)域形成的過(guò)程中,容易造成篡改區(qū)域邊緣不自然和紋理不連續(xù)的現(xiàn)象,如圖2(b)所示,篡改區(qū)域邊緣相較于自然物體邊緣更模糊,自然物體邊緣視覺(jué)上過(guò)渡更加自然。
圖2 篡改痕跡示例Fig.2 Examples of tamper marks
卷積神經(jīng)網(wǎng)絡(luò)具有局部感知和參數(shù)共享的特點(diǎn),在目標(biāo)檢測(cè)、物體分類等領(lǐng)域表現(xiàn)出較大的潛力,同樣能夠提取篡改遺留的視覺(jué)痕跡。專業(yè)的圖像篡改者為了使篡改區(qū)域與背景區(qū)域相似及避免篡改圖像上語(yǔ)義信息的不合理性,常使用后處理操作,如旋轉(zhuǎn)、縮放、扭曲、模糊及其組合篡改等操作。從語(yǔ)義信息考慮蒲公英花的拼接、廣告牌信息的擦除、賽車數(shù)量的增加等符合自然事物的存在,篡改區(qū)域邊緣的篡改痕跡經(jīng)過(guò)模糊等后處理操作,很難被人察覺(jué),尤其是圖2 第2 行的移除篡改類型,篡改區(qū)域?yàn)槿诤媳尘皡^(qū)域的領(lǐng)域信息,在紋理、對(duì)比度等方面無(wú)明顯差異。經(jīng)過(guò)精心的后處理操作能夠使篡改邊緣和對(duì)比度差異減弱,RGB 圖像遺留的篡改痕跡并不明顯,其采用了噪聲特征分支信息來(lái)彌補(bǔ)顏色信息空間的不足,因此本文引入局部噪聲信息。
3.1.2 噪聲信息
相較于RGB 圖像信息較多關(guān)注圖像內(nèi)容提取的低級(jí)、高級(jí)特征,噪聲信息更加注重局部噪聲的分布規(guī)律。經(jīng)過(guò)篡改的圖像必然導(dǎo)致噪聲分布不均,圖像上的噪聲信息作為篡改痕跡的補(bǔ)充,在一定程度上能夠解決視覺(jué)差異不明顯的問(wèn)題,通過(guò)對(duì)比噪聲估計(jì)方法,更好地體現(xiàn)局部噪聲特征[28]。采用圖3 所示的SRM 卷積核,圖像經(jīng)過(guò)SRM卷積后生成噪聲圖像,如圖2第3列所示。顯然,噪聲圖像強(qiáng)調(diào)局部噪聲而非圖像內(nèi)容,并能夠顯示RGB 通道中不可見(jiàn)的篡改痕跡,通過(guò)相鄰元素間的殘差建模,形成噪聲圖表示元素間的共存關(guān)系。實(shí)驗(yàn)室設(shè)置中,2D 卷積層的卷積核維度和SRM 卷積層相同,維度為5×5×3,并保證得到相同維度的輸出。
圖3 SRM 卷積核Fig.3 SRM convolution kernel
由于現(xiàn)實(shí)生活中偽造圖像的篡改區(qū)域存在大小和形狀多樣性,因此要求深度學(xué)習(xí)網(wǎng)絡(luò)必須具有多尺度特征學(xué)習(xí)能力,較為常見(jiàn)的處理方法為高頻使用1×1、3×3較小卷積核提取特征,以便占用較小的儲(chǔ)存空間,以及避免在減少計(jì)算量的同時(shí)在特征提取階段只能提取局部特征信息的情況發(fā)生。VGG、ResNet、DenseNet[27]等網(wǎng)絡(luò)并不能滿足篡改檢測(cè)任務(wù)對(duì)全局信息和局部信息高效提取的要求,他們?yōu)樘崛「叻直媛侍卣鲌D的全局上下文信息,通常使用inception 網(wǎng)絡(luò),在網(wǎng)絡(luò)框架的淺層階段使用空洞卷積增加接受野,但這將導(dǎo)致計(jì)算和內(nèi)存資源消耗增加。為減少計(jì)算資源占用,PoolNet在下采樣階段使用較小卷積核代替空洞卷積。由于在多尺度特征融合階段,上采樣和連接操作會(huì)導(dǎo)致高分辨率特征信息的損失,因此引入殘差U-blocks 塊作為信息提取的結(jié)構(gòu)。
殘差塊和殘差U 型塊的結(jié)構(gòu)如圖4 所示。殘差U-blocks 能夠獲取多尺度塊內(nèi)特征,其結(jié)構(gòu)為RSUL(Cin,M,Cout),如圖4(c)所示。
圖4 殘差塊和殘差U 型塊的結(jié)構(gòu)Fig.4 Structure of the residual block and RSU
在圖4(c)中:L代表編碼階段層數(shù);Cin、Cout分別代表輸入、輸出特征通道;M為RSU 內(nèi)中間層通道數(shù),主要由3 個(gè)部分組成:
1)普通卷積層,用于提取局部特征信息,將輸入特征圖x(H×w×Cin)轉(zhuǎn)換為中間映射F1(x)。
2)高度為L(zhǎng)的對(duì)稱U 型結(jié)構(gòu)的編碼-解碼結(jié)構(gòu),能夠提取并編碼多尺度上下文信息u(F1(x)),L越大,代表更多的池化操作、更廣范圍的感受野、更多的局部和全局特征信息。編碼-解碼結(jié)構(gòu)逐步在下采樣的特征圖中提取多尺度特征,并通過(guò)逐步上采樣、拼接和卷積操作編碼成高分辨率特征圖,這一過(guò)程能夠減少大尺度特征直接上采樣造成的細(xì)節(jié)損失。
3)殘差連接結(jié)構(gòu),用于融合局部特征和多尺度特征u(F1(x))+F1(x)。
為更清晰地闡述殘差U-blocks 和原始?xì)埐顗K的差異,原始?xì)埐顗K被定義為:H(x)=F2(F1(x))+x,其中:H(x)為輸入特征x的映射結(jié)果;F2和F1分別表示權(quán)重層的卷積操作。殘差U-blocks 最大的差異在于使用U型結(jié)構(gòu)代替卷積結(jié)構(gòu),其定義為:HRSU(x)=u(F1(x))+F1(x),其中:u代表多尺度的U 型框架,由于U 型框架較小,在提取多尺度特征的過(guò)程中不會(huì)消耗明顯的計(jì)算力。
編碼-解碼結(jié)構(gòu)是對(duì)稱結(jié)構(gòu),能有效提取各分辨率特征圖的多尺度信息,避免有效信息的損失。編碼階段如圖1 所示,共6 個(gè)塊,其中En-1、En-2、En-3、En-4 分別為不同L的殘差U-block 塊,相對(duì)應(yīng)的L為7、6、5、4,L取決于輸入圖像特征圖的分辨率大小。對(duì)于En-5、En-6 塊,此時(shí)的特征圖尺寸較小,進(jìn)一步的下采樣和池化會(huì)導(dǎo)致有效信息的丟失。采用空洞卷積代替下采樣或者池化操作,此時(shí)輸入與輸出的維度相同。解碼結(jié)構(gòu)與編碼結(jié)構(gòu)相似,并使用相對(duì)應(yīng)的上采樣和拼接操作,能夠逐步恢復(fù)特征圖的分辨率,有效避免特征信息的損失。解碼階段分為5 個(gè)塊,其中,De-1、De-2、De-3、De-4 對(duì)應(yīng) 編碼階段 的殘差U-block 塊,De-5 與En-5 結(jié)構(gòu)相似。
篡改定位融合模塊用于生成篡改區(qū)域概率圖。首先,分別在En-6、De-5、De-4、De-3、De-2 和De-1 中使用一個(gè)3×3 的卷積層和一個(gè)sigmoid 函數(shù),用于產(chǎn)生篡改區(qū)域概率圖。其次,將3×3的卷積層卷積輸出(logit)篡改區(qū)域映射到輸入圖像的尺寸,并將他們進(jìn)行拼接操作,最后通過(guò)卷積層和sigmoid函數(shù)生成最終篡改區(qū)域概率圖S0。
實(shí)驗(yàn)設(shè)置中,在訓(xùn)練階段使用深度監(jiān)督策略,訓(xùn)練損失被定義為:
其中:(r,c) 為像素坐標(biāo);(H,W)分別為圖片尺寸高和寬;分別為對(duì)應(yīng)輸入圖片的Groundtruth 和預(yù)測(cè)出來(lái)的概率圖。
然而對(duì)于篡改檢測(cè)而言,篡改區(qū)域面積與背景區(qū)域存在較大差異,易造成不同類間的不均衡。
在式(2)的基礎(chǔ)上,增加參數(shù)β以控制類別不平衡,定義新的損失函數(shù)Lt如式(3)所示:
本節(jié)將驗(yàn)證本文方法在4 個(gè)標(biāo)準(zhǔn)公共數(shù)據(jù)集上的篡改效果,包含NIST Nimble 2016[29](NIST16)、CASIA[30]、COVER[15]以 及Columbia dataset[31]數(shù) 據(jù)集,通過(guò)F1、AUC、ROC 曲線、定位結(jié)果等多方面分析模型的泛化能力,同時(shí)采用縮放、JPEG 壓縮等后處理操作實(shí)驗(yàn),分析模型的魯棒性。
在實(shí)驗(yàn)過(guò)程中,使用NIST Nimble 2016、CASIA、COVER、Columbia dataset 和文獻(xiàn)[24]的synthesized 數(shù)據(jù)集共同作為本文實(shí)驗(yàn)的訓(xùn)練集。
1)NIST16 數(shù)據(jù)集。應(yīng)用于競(jìng)賽中,包含3 種篡改類型,分別為拼接、復(fù)制-粘貼和移除,篡改的數(shù)字圖像經(jīng)過(guò)后處理操作難以通過(guò)視覺(jué)痕跡觀察到,此數(shù)據(jù)集中的圖片具有不同的背景、光照條件和物體,并提供了篡改圖像相對(duì)應(yīng)的Ground-truth 圖像。
2)CASIA 數(shù)據(jù)集。其包含大量物體的復(fù)制粘貼和拼接圖像,篡改區(qū)域經(jīng)過(guò)精心選擇、濾波模糊等后處理操作。該數(shù)據(jù)集提供了相對(duì)應(yīng)的Ground-truth圖像,本文使用CASIA 2.0 進(jìn)行訓(xùn)練,在CASIA 1.0中進(jìn)行測(cè)試性能。
3)COVER 數(shù)據(jù)集。專注于復(fù)制粘貼的小型數(shù)據(jù)集,通過(guò)縮放、旋轉(zhuǎn)、扭曲、改變光照等手段產(chǎn)生相似的物體形成篡改圖像,并利用多種指標(biāo)衡量篡改圖像的相似度,該數(shù)據(jù)集也提供篡改圖像相對(duì)應(yīng)的mask數(shù)據(jù)。
4)Columbia 數(shù)據(jù)集。含有拼接圖像與真實(shí)圖像共363 幅,其中183 幅來(lái)自不同數(shù)碼相機(jī)拍攝的真實(shí)圖像,180 幅為拼接而成的圖像,圖像格式為TIFF 格式,尺寸大小范圍為757×568 像素~1 152×768 像素,這些圖像主要在室內(nèi)拍攝而成,場(chǎng)景包含走廊、辦公桌、人物、盆栽植物等。
本著公平原則,訓(xùn)練數(shù)據(jù)集的圖像數(shù)量劃分如表1所示。為加強(qiáng)模型的泛化能力,對(duì)輸入圖像進(jìn)行縮放、隨機(jī)垂直翻轉(zhuǎn)、裁剪為280×280 等操作以避免過(guò)擬合現(xiàn)象的出現(xiàn),圖像縮放使用的是雙線性插值方法。
表1 不同數(shù)據(jù)集中訓(xùn)練集和測(cè)試集的圖像數(shù)量劃分Table 1 Image quantity division of training set and test set in different data sets
在訓(xùn)練模型過(guò)程中,采用Pytorch 定義深度網(wǎng)絡(luò)框架,使用單張GPU,利用NVIDIA TITAN RTX GPU 在不同設(shè)置條件下進(jìn)行實(shí)驗(yàn),使用Adam 優(yōu)化算法,初始化學(xué)習(xí)率為0.001,betas=(0.9,0.999),eps=1×10-8,weight decay=0,通過(guò)batch-size 為183 000 個(gè)epoch 迭代訓(xùn)練模型。
為定量評(píng)價(jià)本文方法的有效性,采用F1 分?jǐn)?shù)和接收器操作特性曲線(Receiver Operating Characteristic,ROC)作為對(duì)比性能的評(píng)價(jià)標(biāo)準(zhǔn),F(xiàn)1 得分表示對(duì)于篡改檢測(cè)像素水平的評(píng)估標(biāo)準(zhǔn),利用不同的閾值及最高F1 得分作為每張圖片最終得分,其定義如式(4)所示。正確檢測(cè)率(True Positive Rate,TPR)和錯(cuò)誤檢測(cè)率(False Positive Rate,F(xiàn)PR)的計(jì)算公式如式(5)和式(6)所示,其中,F(xiàn)FN表示篡改像素點(diǎn)被誤檢測(cè)為真實(shí)像素點(diǎn)的數(shù)量,F(xiàn)FP表示真實(shí)像素點(diǎn)被誤檢測(cè)為篡改像素點(diǎn)的數(shù)量,TTN表示真實(shí)像素點(diǎn)被正確檢測(cè)出的數(shù)量,TTP表示篡改像素點(diǎn)被正確檢測(cè)出的數(shù)量。
ROC 曲線是描述不同閾值下二分類的預(yù)測(cè)表現(xiàn),ROC 曲線的面積表示不同方法下二分類的性能表現(xiàn),其定義為根據(jù)不同的分類閾值,即設(shè)置判斷像素點(diǎn)為篡改像素點(diǎn)的閾值t,若像素點(diǎn)的分類概率≥閾值t(常取t=0.5),則判定樣本為篡改像素點(diǎn),其中TPR 為縱坐標(biāo),F(xiàn)PR 為橫坐標(biāo)。根據(jù)TPR 和FPR 的值不同,將他們的值繪制形成曲線,即為ROC 曲線。
4.3.1 與現(xiàn)有方法的對(duì)比
現(xiàn)有的圖像篡改取證方法分為傳統(tǒng)的手工特征提取網(wǎng)絡(luò)和基于深度學(xué)習(xí)的篡改網(wǎng)絡(luò),本節(jié)對(duì)比現(xiàn)有方法,采用消融實(shí)驗(yàn)驗(yàn)證本文方法的有效性,實(shí)驗(yàn)中采用以下方法進(jìn)行對(duì)比。
1)ELA[32]方法,通過(guò)查找在不同壓縮因子情況下篡改區(qū)域與背景區(qū)域間的壓縮錯(cuò)誤差異以定位篡改區(qū)域。
2)NOI1 方法,利用高頻的小波系數(shù)來(lái)模擬局部噪聲,設(shè)定閾值并不斷融合領(lǐng)域圖像塊,依據(jù)噪聲的局部不連續(xù)性進(jìn)行篡改區(qū)域定位[18]。
3)CFA1 方法,假設(shè)圖像是使用一個(gè)彩色濾波器陣列獲得的,并且篡改消除了由馬賽克算法產(chǎn)生的偽影,通過(guò)在局部水平上測(cè)量CFA 偽影的存在推理出篡改區(qū)域[33]。
4)MFCN 方法,構(gòu)造全卷積網(wǎng)絡(luò)實(shí)現(xiàn)篡改邊緣和初步篡改區(qū)域的預(yù)測(cè),利用幾何知識(shí)整合篡改邊緣和初步篡改區(qū)域并確定最終篡改區(qū)域[14]。
5)J-LSTM 方法,聯(lián) 合LSTM 網(wǎng)絡(luò)和CNN 網(wǎng)絡(luò)完成篡改塊的判定和像素級(jí)的篡改區(qū)域分割[12]。
6)RGB-N 方法,通過(guò)利用雙線性池化融合圖像信息和噪聲信息實(shí)現(xiàn)篡改區(qū)域的定位[34]。
7)MANTRA-NET 方法,利用CNN 網(wǎng)絡(luò)解決篡改痕跡提取和局部異常檢測(cè)問(wèn)題,實(shí)現(xiàn)篡改區(qū)域像素級(jí)的定位[35]。
8)Single-RGB 方法,本文所提方法采用單流輸入的方式,即只考慮RGB 信息的輸入,記為Single-RGB。
9)Single-Noise 方法,Single-RGB,本文所提方法采用單流輸入的方式,即只考慮噪聲信息的輸入,記為Single-Noise。
對(duì)比現(xiàn)有方法包括ELA、NOI、CFA1、MFCN、RGBN 和本文方法的F1 指標(biāo),結(jié)果如表2 所示。其中:對(duì)比Single-RGB、Single-Noise 和本文方法可知,具有融合特征的網(wǎng)絡(luò)優(yōu)于單流輸入的噪聲信息和RGB 信息。在NIST16、COVER 和CASIA 數(shù)據(jù)集上的數(shù)據(jù)結(jié)果可知,Single-RGB方法略優(yōu)于Single-Nois。然而在Columbia數(shù)據(jù) 集中,Single-Noise 取 得的F1 值比Single-RGB 方法高2.3 個(gè)百分點(diǎn),原因是Columbia為未壓縮的拼接圖像,噪聲差異較為明顯,并未受到后處理操作的影響。
表2 不同方法在不同數(shù)據(jù)集上的F1 值對(duì)比Table 2 Comparison of F1 values of different methods on different data sets
基于深度學(xué)習(xí)的篡改檢測(cè)方法要遠(yuǎn)優(yōu)于傳統(tǒng)特征提取方法,單一特征的篡改取證方法容易導(dǎo)致多數(shù)偽造圖像的檢測(cè)任務(wù)失敗,這是因?yàn)镋LA、NOI、CFA1 特征提取方法只強(qiáng)調(diào)單一的篡改痕跡,且多類型的篡改取證需要更豐富的區(qū)分特征。
本文方法在NIST16、Columbia、CASIA 數(shù)據(jù)集上表現(xiàn)較優(yōu),分別高于RGB-N 方法11.9、2.6 和19.7 個(gè)百分點(diǎn)。在深度學(xué)習(xí)方法中,MFCN 方法的表現(xiàn)性能較差,這是因?yàn)樵谔卣魈崛∵^(guò)程中,采用較小尺寸的卷積核和上采樣操作容易致使低層特征損失及較小篡改區(qū)域檢測(cè)效果不理想。與RGB-N 方法相比,本文方法采用了RSU 結(jié)構(gòu)和分級(jí)監(jiān)督策略,具有豐富的多尺度特征,在一定程度上能夠避免較大篡改區(qū)域的邊緣與較小篡改區(qū)域的細(xì)節(jié)丟失。由表2 還可知,本文方法在COVER 數(shù)據(jù)集上的F1 值低于RGB-N 方法1.9 個(gè)百分點(diǎn),這是因?yàn)閺?fù)制粘貼操作產(chǎn)生類似的噪聲分布不利于產(chǎn)生區(qū)分特征。由此可見(jiàn)本文所提方法的綜合性能優(yōu)于現(xiàn)有方法。
4.3.2 ROC 曲線
本節(jié)采用ROC 曲線對(duì)比不同方法的性能,包括ELA、NOI、CFA1、J-LSTM、MANTRA-NET 和RGB-N方法,其中ROC 曲線與橫軸坐標(biāo)軸形成的區(qū)域面積稱為AUC 值,AUC 值越高代表該方法的泛化能力越強(qiáng)。
如表3所示,與基于CNN的深度學(xué)習(xí)方法相比,ELA方法、NOI方法和CFA1方法因無(wú)法實(shí)現(xiàn)通用的取證模型表現(xiàn)出較弱的泛化能力,通過(guò)對(duì)比本文方法、Single-RGB方法和Single-Noise方法在不同數(shù)據(jù)集上的AUC值高低,驗(yàn)證了本文方法的有效性。其中,J-LSTM方法利用CNN提取淺層特征圖并分塊輸入LSTM 網(wǎng)絡(luò)中,在一定程度上造成篡改區(qū)域的邊緣定位不準(zhǔn)確,在NIST16和COVER數(shù)據(jù)集上的AUC值分別為0.764和0.614,泛化能力較弱。本文方法在NIST16、Columbia、CASIA數(shù)據(jù)集上的AUC值均為最高,分別高于MANTRA-NET方法14.7、8.5和2.8個(gè)百分點(diǎn),且MANTRA-NET方法利用多層CNN 提取特征過(guò)程中易造成淺層特征的丟失,如篡改區(qū)域的邊緣等細(xì)節(jié)不準(zhǔn)確。本文所提方法在NIST16、Columbia、COVER 和CASIA 數(shù)據(jù)集上的AUC 值分別為0.942、0.909、0.727和0.845,其相對(duì)應(yīng)的ROC曲線為圖5所示像素級(jí)分割的ROC曲線,由圖5可知由于不同數(shù)據(jù)集分布不同,單一的閾值設(shè)置并不能取得最優(yōu)性能,這進(jìn)一步說(shuō)明了本文所提方法具有較強(qiáng)的泛化能力。
圖5 在4 個(gè)標(biāo)準(zhǔn)數(shù)據(jù)集上像素級(jí)分類的ROC 曲線Fig.5 ROC curve of pixel-level classification on four standard data sets
表3 在標(biāo)準(zhǔn)數(shù)據(jù)集上AUC 值的比較Table 3 Comparison of AUC values on the standard data set
4.3.3 定位結(jié)果分析
為進(jìn)一步驗(yàn)證本文方法的有效性,本節(jié)對(duì)一些偽造圖像進(jìn)行了篡改檢測(cè)與定位,圖6 所示的是來(lái)源于4 個(gè)標(biāo)準(zhǔn)數(shù)據(jù)集中的篡改檢測(cè)實(shí)例,其中包括篡改圖像、噪聲圖像、Ground-truth 圖像以及本文方法的檢測(cè)結(jié)果。圖6(a)、圖6(b)、圖6(c)和圖6(d)分別來(lái)自數(shù)據(jù)集NIST16、Columbia、COVER 和CASIA,包括拼接、復(fù)制-粘貼和移除篡改類型,第1 列為待檢測(cè)的篡改圖像直接輸入到網(wǎng)絡(luò)模型中,無(wú)需縮放等預(yù)處理操作,第2 列為噪聲圖像,第3 列為Ground-truth 圖像,第4 列為本文方法的輸出結(jié)果。顯然,由于MFF-US 網(wǎng)絡(luò)具有多尺度高分辨率特征提取能力,篡改區(qū)域能夠應(yīng)對(duì)任意圖像尺寸的篡改檢測(cè),并且在較小篡改區(qū)域檢測(cè)和較大篡改區(qū)域邊緣均取得高置信度的檢測(cè)結(jié)果。從圖6(c)和圖6(d)中可以發(fā)現(xiàn)檢測(cè)結(jié)果存在漏檢篡改區(qū)域的情況,對(duì)于多數(shù)篡改圖像能夠精確地檢測(cè)并分割篡改區(qū)域。
圖6 不同數(shù)據(jù)集的篡改檢測(cè)結(jié)果示例Fig.6 Examples of tamper detection results for different data sets
4.3.4 魯棒性分析
JPEG 圖像壓縮及幾何變換是常見(jiàn)的拼接圖像后處理操作,為進(jìn)一步評(píng)估本文所提方法的魯棒性,統(tǒng)計(jì)NIST16 數(shù)據(jù)庫(kù)中的測(cè)試集分別經(jīng)過(guò)壓縮因子QF=70的JPEG 壓縮,QF=50 的JPEG 壓縮縮放0.7 和縮放0.5操作后檢測(cè)的F1 值,結(jié)果如表4 所示。由表4 可知,本文方法相較于現(xiàn)有其他方法具有較強(qiáng)的抗縮放和抗JPEG攻擊的能力,在壓縮因子為70和縮放0.7的情況下,F(xiàn)1值略有降低,分別減少2.3 和2.7 個(gè)百分點(diǎn),在壓縮因子為50和縮放0.5的情況下,F(xiàn)1值有明顯下降,分別減少10.3和5.4 個(gè)百分點(diǎn),本文方法的F1 值相較于RGB-N 方法分別提高了6.1 和10.6 個(gè)百分點(diǎn)。綜上所述,本文所提方法具有較強(qiáng)的魯棒性和泛化能力。
表4 不同方法在NIST16 測(cè)試集JPEG 壓縮和縮放情況下的F1 值Table 4 F1 value of different methods under JPEG compression and scaling of NIST16 test set
4.3.5 復(fù)雜度分析
本節(jié)針對(duì)現(xiàn)有基于深度學(xué)習(xí)的方法復(fù)雜度進(jìn)行分析,結(jié)果如表5 所示。表5 所示為不同方法模型的參數(shù)量和圖像的平均推理幀率,用于圖像偽造取證的本文方法參數(shù)量為168M,僅高于MANTRA-net 參數(shù)量,遠(yuǎn)低于MFCN 和RGB-N 模型參數(shù)量,這是因?yàn)椴捎脷埐頤-blocks 結(jié)構(gòu)代替常用的卷積層有助于減少模型空間和時(shí)間復(fù)雜度。在時(shí)間復(fù)雜度方面,本文方法的幀率達(dá)20 frame/s,高于其他方法,能有效滿足現(xiàn)實(shí)生活中對(duì)于篡改取證實(shí)時(shí)性和有效性的需求。
表5 不同方法模型參數(shù)量和耗時(shí)的對(duì)比Table 5 Comparison of model parameters and time-consuming of different methods
本文提出一種用于圖像偽造取證的高效U 形深度網(wǎng)絡(luò)MFF-US net,實(shí)現(xiàn)篡改區(qū)域的檢測(cè)與分割。利用CNN 網(wǎng)絡(luò)和SRM 卷積層構(gòu)建特征融合模塊,以提取并融合RGB 和噪聲信息。同時(shí),引入RSU 結(jié)構(gòu)并構(gòu)造出具有多尺度特征的噪聲提取模塊,并在融合定位模塊利用分級(jí)監(jiān)督策略,以融合不同分辨率提取的篡改特征,實(shí)現(xiàn)篡改區(qū)域檢測(cè)與像素級(jí)的分割。實(shí)驗(yàn)結(jié)果表明,基于編解碼網(wǎng)絡(luò)和多特征融合的取證方法能夠自動(dòng)學(xué)習(xí)篡改特征,且無(wú)需考慮特征提取和分類設(shè)計(jì)。與MFCN、RGB-N、MANTRA-net 等現(xiàn)有方法相比,本文方法在多個(gè)標(biāo)準(zhǔn)篡改取證數(shù)據(jù)集上均取得較優(yōu)性能,針對(duì)縮放、JPEG 壓縮等攻擊操作具有較強(qiáng)的魯棒性。下一步將通過(guò)生成對(duì)抗網(wǎng)絡(luò),產(chǎn)生更豐富的篡改數(shù)據(jù),加強(qiáng)篡改取證中小目標(biāo)檢測(cè),以應(yīng)對(duì)復(fù)雜偽造圖像的情況。