朱新同, 唐云祁, 耿鵬志
(中國(guó)人民公安大學(xué)偵查學(xué)院,北京 100038)
隨著信息化程度的不斷加深與數(shù)字成像設(shè)備的大規(guī)模普及,數(shù)字圖像逐漸成為現(xiàn)代生活中不可或缺的組成部分,數(shù)字圖像的真實(shí)性與安全性也受到了空前的重視,數(shù)字圖像取證技術(shù)(Digital image forensics,DIF)逐漸成為一大研究熱點(diǎn)。數(shù)字圖像取證技術(shù)可分別為主動(dòng)取證與被動(dòng)取證兩大方向,主動(dòng)取證技術(shù)的代表是數(shù)字簽名技術(shù)和數(shù)字水印,此類技術(shù)運(yùn)用的前提是圖像經(jīng)過(guò)數(shù)字水印處理,應(yīng)用局限性較大。被動(dòng)取證技術(shù)則可再細(xì)分為圖像溯源取證技術(shù)與對(duì)圖像篡改行為的檢測(cè)技術(shù),前者主要聚焦于追溯一張數(shù)字圖像是由哪臺(tái)設(shè)備拍攝,后者則是本綜述所討論的重點(diǎn)。
圖像取證技術(shù)起步于主動(dòng)取證技術(shù),1993年,Friendman基于電子郵件數(shù)字簽名的思想,提出了可信數(shù)碼相機(jī)(Trustworthy digital camera)的概念。即在數(shù)字圖片數(shù)據(jù)的生成過(guò)程中同時(shí)生成一個(gè)對(duì)應(yīng)的唯一編碼,可以根據(jù)哈?;蚱渌惴ㄉ?作為圖像原始性的依據(jù)。這種主動(dòng)添加的圖片身份證有許多先天性的不足。比如數(shù)字圖像在網(wǎng)絡(luò)傳播的過(guò)程中會(huì)經(jīng)歷多次壓縮或格式轉(zhuǎn)換,這些操作會(huì)改變圖像的哈希值,而圖像本身的畫面信息除了被某種壓縮外沒(méi)有經(jīng)過(guò)任何修改。這就導(dǎo)致大多數(shù)情況下對(duì)數(shù)字圖像的原始性和有效性的證明還是依靠專家的鑒定,對(duì)數(shù)字圖像篡改檢測(cè)的需求仍然沒(méi)有得到有效解決。因此,無(wú)需事先添加信息的被動(dòng)盲檢測(cè)技術(shù)成為近年來(lái)的研究熱點(diǎn),本文所介紹的各類檢測(cè)方法均屬于被動(dòng)盲檢測(cè)技術(shù)。
數(shù)字圖像篡改檢測(cè)技術(shù)在近年來(lái)有巨大進(jìn)步,該領(lǐng)域發(fā)布了大量基于深度學(xué)習(xí)技術(shù)的新型算法。因此,本文按照數(shù)字圖像成像流程梳理了各類可檢測(cè)特征,對(duì)各方向的篡改檢測(cè)方法所采用的技術(shù)路線進(jìn)行分類和整理,并對(duì)其檢測(cè)結(jié)果進(jìn)行分析。本文在最后對(duì)目前數(shù)字圖像篡改檢測(cè)相關(guān)研究中問(wèn)題和挑戰(zhàn)的解決辦法進(jìn)行深入思考,旨在為該領(lǐng)域提供一些方向性參考。
數(shù)碼相機(jī)在生成一張數(shù)字圖像的過(guò)程中主要涉及光電轉(zhuǎn)換和模擬數(shù)字轉(zhuǎn)換兩類信息轉(zhuǎn)換(ADC),在此流程中所使用的處理技術(shù)則可分為3大類,即光學(xué)技術(shù)、傳感器技術(shù)和圖像處理技術(shù)[1]。3種技術(shù)分別對(duì)應(yīng)圖1中的鏡頭(Lens)、傳感器(Sensor)、圖像信號(hào)處理(ISP)3步,3類處理過(guò)程對(duì)最后的輸出圖像各施加了不同的影響,從而在圖像中留下了具有不同特點(diǎn)的規(guī)律。
圖1 數(shù)碼相機(jī)的視覺(jué)處理過(guò)程
本文受文獻(xiàn)[2]與[3]的啟發(fā),根據(jù)數(shù)碼相機(jī)拍攝圖片所需要的處理過(guò)程,按照特征的來(lái)源對(duì)數(shù)字圖像成像過(guò)程中所產(chǎn)生的特征進(jìn)行分類介紹。同時(shí),把篡改行為所產(chǎn)生的特征按照特征的來(lái)源分類,可以有效地區(qū)分出各類圖像篡改特征的本質(zhì)差異,有助于深度學(xué)習(xí)方法對(duì)某種特征進(jìn)行針對(duì)性訓(xùn)練以及對(duì)后續(xù)研究方向提供指引。
相機(jī)拍攝的畫面會(huì)忠實(shí)地還原被攝客體的狀態(tài),也能記錄下客體所具備的物理和幾何規(guī)則的表現(xiàn)。一些經(jīng)過(guò)偽造的照片會(huì)表現(xiàn)出明顯違反自然規(guī)律的表現(xiàn),如曾引發(fā)輿論熱議的“浮空視察”照片。這類特征就是膠卷時(shí)代的圖像篡改檢測(cè)技術(shù)所關(guān)注的特征類型。在文獻(xiàn)[4]中Peng等人提出了具體的測(cè)算方法來(lái)判斷畫面中的物品或人是否符合自然規(guī)律。其他可利用的特征還包括相機(jī)中心點(diǎn)、透視關(guān)系[5]、光照一致性[6]、陰影方位[7]等。
由于這類特征是拍攝畫面中的一部分,屬于日常生活中常見規(guī)律的表達(dá),所以它易于人腦理解,也是人們主觀判斷圖片是否經(jīng)過(guò)偽造的主要特征依據(jù)。比較反常識(shí)的是,人眼對(duì)這種特征的改變其實(shí)并不敏感。有研究表明,在對(duì)陰影、透視變形、鏡中畫面規(guī)律是否被篡改的問(wèn)題上,大多數(shù)受試者無(wú)法給出正確答案[8]。對(duì)于被攝客體的自然特征在圖像取證方面的應(yīng)用,卷積神經(jīng)網(wǎng)絡(luò)尚未在這個(gè)領(lǐng)域獲得較大突破。
相機(jī)在記錄影像時(shí),會(huì)利用透鏡等光學(xué)器件對(duì)被攝客體射向鏡頭的光線進(jìn)行一系列的光學(xué)處理,使其變成適合被感光原件所記錄的形狀,此類處理過(guò)程中會(huì)在入射光線中留下鏡頭的光學(xué)特征。其中有一部分鏡頭光學(xué)特征是拍攝者可在一定范圍內(nèi)定量調(diào)節(jié)的。如拍攝時(shí)所使用的焦距、光圈等鏡頭參數(shù),這些參數(shù)既有聯(lián)系也有制約,直接影響到相機(jī)成像的景深、視場(chǎng)角、透視等效果[9]。
此外,鏡頭還會(huì)給畫面附加上一類拍攝者無(wú)法控制且難以消除的特征。在多色光作為光源的情況下,相機(jī)的鏡頭難以精準(zhǔn)地把不同波長(zhǎng)的光線聚集到同一個(gè)焦平面,此時(shí)就會(huì)產(chǎn)生色差。鏡頭的折射還會(huì)帶來(lái)畸變,并且由于凸透鏡離中心越遠(yuǎn),折射效果越強(qiáng)。鏡頭在不同的放大或縮小倍率下畫面還會(huì)產(chǎn)生桶形畸變和枕形畸變,廣角鏡頭通常是枕形畸變,魚眼鏡頭通常是桶形畸變[10]。這類本是一種成像缺陷的鏡頭特征也可以利用在圖像篡改檢測(cè)上,比較具有實(shí)用性的特征是紫邊失真、鏡頭色差(Chromatic Aberration)和鏡頭球面差(Spherical Aberration)。由于色差會(huì)導(dǎo)致RGB顏色通道中的3張圖像有輕微的偏移效果,文獻(xiàn)[11]就利用算法提取RGB三通道中的橫向色差來(lái)實(shí)現(xiàn)圖像篡改檢測(cè)。
在數(shù)碼相機(jī)中,承擔(dān)光信號(hào)到電信號(hào)轉(zhuǎn)換任務(wù)的核心原件就是圖像傳感器(Image Sensor)。目前有兩大類被廣泛使用的圖像傳感器,一種是電荷耦合器件CCD(Charge Couple Device);另一種是互補(bǔ)金屬氧化物半導(dǎo)體CMOS(Complemen-tary Metal Oxide Semiconductor)。
圖像傳感器的輸出信號(hào)是從空間中采樣的離散模擬信號(hào),由于各種干擾因素的存在,信號(hào)中夾雜著大量噪聲,產(chǎn)生的范圍包括信號(hào)的輸入、輸出、電荷的存儲(chǔ)和轉(zhuǎn)移等。傳感器產(chǎn)生的噪聲類別有:熱噪聲、光子散粒噪聲、復(fù)位噪聲等[13]。其中由于暗電流(Dark Current)的差異而產(chǎn)生的固定模式噪聲(Fixed Pattern Noise,FPN)和各像素對(duì)光的敏感度不同而產(chǎn)生的光感應(yīng)不均勻(Photo Response Non-Uniformity,PRNU)特征具有較強(qiáng)的穩(wěn)定性,且PRNU噪聲比FPN噪聲更難以消除,所以PRNU噪聲的實(shí)用化較強(qiáng)。這類具有穩(wěn)定性噪聲被稱為“CCD的指紋”或“傳感器的指紋”[14-15]。傳統(tǒng)深度學(xué)習(xí)方法可以有效地提取和利用此類特征[16-17],而采用了卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)算法的檢測(cè)性能則更加優(yōu)異。
一張數(shù)字圖片的生成離不開數(shù)字圖像處理技術(shù),該技術(shù)基本可以分為兩大類:模擬圖像處理(Analog Image Processing)和數(shù)字圖像處理(Digital Image Processing)。根據(jù)文獻(xiàn)[18]中的定義:“數(shù)字圖像處理是使用計(jì)算機(jī)來(lái)合成、變換已有的數(shù)字圖像,在原有圖像上產(chǎn)生一種新的變化,并把加工處理后的圖像重新輸出”。數(shù)字圖像處理的功能有幾何處理、算數(shù)處理、圖像編碼等。
在數(shù)字圖像篡改檢測(cè)領(lǐng)域,圖像處理特征是與深度學(xué)習(xí)技術(shù)結(jié)合最緊密的特征,現(xiàn)有篡改檢驗(yàn)算法基本都依靠提取此類特征來(lái)實(shí)現(xiàn)篡改檢測(cè)。在數(shù)碼相機(jī)中,數(shù)字圖像處理的任務(wù)就是對(duì)A/D轉(zhuǎn)換器輸出的RAW格式原始數(shù)字信號(hào)進(jìn)行處理,以還原出更加真實(shí)的圖像。負(fù)責(zé)這項(xiàng)任務(wù)的是圖像信號(hào)處理芯片ISP(Image Signal Processor)。ISP在RAW格式的圖片上可以實(shí)現(xiàn)去噪、CFA插值去馬賽克、色調(diào)映射、色彩變換、壓縮等功能。在電腦上,我們還可以使用各種圖像處理軟件來(lái)進(jìn)行數(shù)字圖像后處理。在相機(jī)與電腦上的圖像處理軟件所使用的處理算法本質(zhì)上是一致的,所以他們會(huì)產(chǎn)生同一類特征[19]。
數(shù)字圖像處理特征遍布在數(shù)字圖像中的各個(gè)方面,國(guó)外一般將數(shù)字圖像處理特征的表現(xiàn)稱為“statistical correlation”或“statistical inter-pixel correlation”,文獻(xiàn)[20]中將其稱為“數(shù)字屬性特征”。這類特征產(chǎn)生的原因是在圖像處理過(guò)程中,各類算法的使用使鄰近像素之間被人為的添加了某些統(tǒng)計(jì)規(guī)律,如重采樣方法中的CFA插值算法就在像素間引入了加權(quán)平均特征[21]。
同源復(fù)制粘貼(Copy-move)是指復(fù)制出同一張圖片上的一部分畫面,對(duì)復(fù)制畫面進(jìn)行幾何變換、顏色與對(duì)比度調(diào)整、模糊或銳化等處理來(lái)對(duì)圖片進(jìn)行修改的方法。在圖片偽造實(shí)際應(yīng)用中圖片的紋理區(qū)域,如桌面、草地、道路、衣物等是復(fù)制粘貼的理想選擇,因?yàn)閺?fù)制的區(qū)域再加上邊緣的羽化可以有效地使其與背景混合,人的眼睛難以將其分辨出來(lái)。復(fù)制粘貼篡改主要特征是圖片上會(huì)出現(xiàn)兩塊高度相似的區(qū)域,所以如何識(shí)別出高度相似區(qū)域是復(fù)制粘貼檢測(cè)的一條主要思路[22]。
同源篡改時(shí)雖然會(huì)對(duì)復(fù)制區(qū)域進(jìn)行一系列處理,但其處理后的兩片區(qū)域中仍帶有大量的尺度不變特征變換(Scale Invariant Feature Transform,SIFT)特征。SIFT特征指的是可以利用SIFT算法思路來(lái)提取到的特征,這類特征的共同點(diǎn)是物體上局部外觀的興趣點(diǎn),SIFT特征對(duì)于光線變化、圖片噪聲、視角改變等也有很高的容忍度。利用SIFT算法提取特征也是同源復(fù)制粘貼篡改檢測(cè)的主流思路。David Lowe于1999年提出并于2004年完善檢測(cè)SIFT特征的算法[23],這種方法基于尺度空間,提取圖像平移、旋轉(zhuǎn)、縮放等映射變換后保持不變的關(guān)鍵點(diǎn)描述向量,一般為一個(gè)長(zhǎng)度為128的一維向量。
圖像金字塔是數(shù)字圖像處理中的常見算法,通過(guò)多分辨率尺度的疊加來(lái)更高效地解釋整張圖像的信息,其結(jié)構(gòu)如圖2所示。下層高分辨率圖片體現(xiàn)細(xì)節(jié)信息,上層低分辨率體現(xiàn)整體結(jié)構(gòu)信息,一般下層圖片經(jīng)過(guò)步長(zhǎng)為2的濾波器的下采樣處理得到上層圖像。圖像金字塔的概念被廣泛應(yīng)用于計(jì)算機(jī)視覺(jué)的各類算法中,包括最新的YOLO[24]算法結(jié)構(gòu),在RPN(Feature Pyramid Network)層中也大量運(yùn)用了多尺度圖像信息疊加的概念。
圖2 圖像金字塔
高斯金字塔就是使用高斯低通濾波作為濾波器的圖像金字塔,SIFT方法就使用高斯金字塔來(lái)提取特征點(diǎn)。使用不同的尺度空間因子(高斯正態(tài)分布的標(biāo)準(zhǔn)差σ)對(duì)圖像進(jìn)行逐級(jí)下采樣,形成一個(gè)從突出豐富細(xì)節(jié)特征到突出個(gè)別顯著特征的圖片金字塔。高斯差分金字塔(Difference of Gaussian,DOG)則又增加一步,把上下圖片逐級(jí)相減,使用這種辦法來(lái)提取差分圖像所蘊(yùn)含的穩(wěn)定特征[25]。
SIFT算子會(huì)把剩下的每個(gè)特征點(diǎn)用一個(gè)128維的特征向量進(jìn)行描述,進(jìn)而進(jìn)行特征比對(duì),識(shí)別出篡改區(qū)域。這種思路與時(shí)下許多目標(biāo)檢測(cè)模型類似,圖3展示了文獻(xiàn)[26]中提出的一種利用SIFT特征進(jìn)行同源復(fù)制粘貼篡改的檢測(cè)實(shí)例?;赟IFT思路,目前研究人員開發(fā)出諸如SURF算法的大量特征提取新算法。
圖3 使用SIFT算法識(shí)別同源篡改示例[26]
通過(guò)SIFT特征與其他算法的結(jié)合,可以做到針對(duì)同源復(fù)制粘貼篡改的檢測(cè)與定位。文獻(xiàn)[27]中,XiuLi Bi等人使用新型多尺度特征提取算法,舍棄了傳統(tǒng)以方塊滑動(dòng)劃分特征提取區(qū)域的方法,而是使用簡(jiǎn)單線性迭代聚類(Simple Linear Iterative Clustering,SLIC)完成圖像分割,再把分割好的圖像送入SIFT算法中提取特征。在實(shí)驗(yàn)中XiuLi Bi等人設(shè)計(jì)了包含48張復(fù)制粘貼篡改圖片和48張?jiān)紙D片的篡改檢測(cè)實(shí)驗(yàn)。實(shí)驗(yàn)結(jié)果顯示,XiuLi Bi等人的深度學(xué)習(xí)新型算法在兩種尺度的測(cè)試中均取得了90%以上的篡改區(qū)域定位精確度,而傳統(tǒng)SIFT算法和SURF算法的篡改區(qū)域定位精確度與其相比均有明顯差距。
光響應(yīng)非均勻性(PRNU)特征指的是相機(jī)感光原件所帶有的噪聲特征,其主要來(lái)源是由于感光原件在制造過(guò)程中,硅涂層的厚度不同導(dǎo)致各像素對(duì)光的敏感度不同[28]。
圖片的噪聲有兩個(gè)主要來(lái)源,首先是在圖像的獲取過(guò)程中,由于CCD或CMOS受材料屬性、工作環(huán)境、電路結(jié)構(gòu)等影響,影響光電轉(zhuǎn)換的電流穩(wěn)定性,會(huì)引入各種噪聲。其次在信號(hào)傳輸過(guò)程中,信號(hào)受傳輸介質(zhì)和外界環(huán)境影響。利用此特征可以實(shí)現(xiàn)圖片來(lái)源和真?zhèn)蔚臋z驗(yàn),即確定圖片是否由某一相機(jī)拍攝,或者圖片是否被篡改[29]。
光響應(yīng)非均勻性特征的提取可分為濾波和增強(qiáng)兩個(gè)階段,其中濾波階段使用小波變換濾波器、維納濾波器等手段提取圖片背景噪聲特征,計(jì)算原始圖像與經(jīng)過(guò)濾波器后所得圖像的差值,從而得到感光原件的噪聲殘差。在增強(qiáng)階段可以使用多個(gè)來(lái)自同一相機(jī)的圖片進(jìn)行噪聲的矯正和提純,并且還可以去除圖像在重采樣過(guò)程中產(chǎn)生的其他特征。增強(qiáng)階段可以使用稀疏編碼[30]等機(jī)器學(xué)習(xí)方式來(lái)獲得更好的效果[31]。
使用卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)的算法同樣可以做到利用光響應(yīng)非均勻性特征的圖像來(lái)源識(shí)別和篡改識(shí)別,即使是單像素的偏移也會(huì)對(duì)殘差的局部統(tǒng)計(jì)產(chǎn)生很大的影響。文獻(xiàn)[32]中,文章作者利用兩個(gè)并聯(lián)的BP神經(jīng)網(wǎng)絡(luò),同時(shí)計(jì)算兩張圖片的背景噪聲殘差,用均方誤差計(jì)算兩張圖每個(gè)像素點(diǎn)的噪聲距離。如果兩張圖是來(lái)自于同一個(gè)相機(jī)就鼓勵(lì)網(wǎng)絡(luò)縮小噪聲距離,如果兩張圖拍攝的相機(jī)不同,則擴(kuò)大噪聲距離。
作者從Dresden dataset[33]、VISION[34]等數(shù)據(jù)集中收集了19個(gè)品牌、70個(gè)型號(hào)、125個(gè)相機(jī)拍攝的圖片進(jìn)行CNN的訓(xùn)練和測(cè)試。在對(duì)25個(gè)不同相機(jī)組成的測(cè)試集進(jìn)行分類驗(yàn)證的表現(xiàn)為,像素定位(Pixel-Level Localization)的AUC值可達(dá)0.967。
光響應(yīng)非均勻性特征還可以用來(lái)定位圖像篡改區(qū)域,其檢測(cè)效果如圖4所示。根據(jù)上文提取的圖片噪聲距離,以同一相機(jī)拍攝的一張已知原始圖片為樣本,與待檢測(cè)圖片比對(duì)噪聲距離大小,形成噪聲距離熱力圖。距離小的區(qū)域?yàn)槔渖?距離大的區(qū)域?yàn)榕?根據(jù)噪聲距離可以判斷出可能的篡改區(qū)域。
圖4 文獻(xiàn)[32]中基于PRNU的噪聲熱力圖的的識(shí)別效果
這種特征主要來(lái)自于非同源復(fù)制粘貼篡改(Splicing)行為,對(duì)非同源復(fù)制粘貼篡改行為的檢驗(yàn)鑒定也是公安實(shí)戰(zhàn)中最常出現(xiàn)的需求。根據(jù)公安部某物證鑒定中心2012~2016年受理案件的統(tǒng)計(jì)數(shù)據(jù),涉及圖像取證類案例中,90%以上的鑒定要求是對(duì)單幅圖像是否存在拼接篡改的檢驗(yàn)[35]。非同源復(fù)制粘貼是指從其他圖片中復(fù)制一定區(qū)域的圖像,覆蓋或改變目標(biāo)圖片的一部分區(qū)域的處理方法,由于篡改區(qū)域的圖片重采樣算法與原始圖像不同,被篡改區(qū)域的像素排列邏輯與未篡改區(qū)域就會(huì)存在差異。
重采樣是指根據(jù)采樣后形成的由離散數(shù)據(jù)組成的數(shù)字圖像,按一定算法重新采樣的處理方法,主要分為增加分辨率的“上采樣”和減少分辨率的“下采樣”兩類。重采樣一般用在改變圖片的像素大小上,比如重新生成一張不同像素尺寸的圖片。不同于后期處理時(shí)的重采樣操作,絕大多數(shù)數(shù)字圖片在生成時(shí)都會(huì)經(jīng)過(guò)一次色彩上的重采樣,這就是CFA(Color filter array)插值[36]。這種插值方法圖片使數(shù)字圖像像素的排列方式存在特定規(guī)律,早在2003年,Kirchner等人就提出此類特征可應(yīng)用在數(shù)字圖像篡改檢測(cè)中[37]。
數(shù)碼相機(jī)為了捕捉3種波長(zhǎng)光線的強(qiáng)度,在感光原件前面設(shè)置了一個(gè)濾光層,濾光層使感光元件上的每一個(gè)感光像素都只能感受特定波長(zhǎng)的光線強(qiáng)度。目前最常見的排列方式是拜耳排列(Bayer Array)。但這種記錄方式使得一個(gè)像素點(diǎn)只有一個(gè)色彩的亮度信息,要使拜耳排列得出的圖像變得平滑,就要進(jìn)行CFA插值處理。使用這種方法獲得的彩色圖像的各個(gè)像素之間存在著算法聯(lián)系,如果非同源圖片覆蓋了一個(gè)區(qū)域,那么這片區(qū)域中的CFA特征就會(huì)被破壞,可以使用特定算法將篡改區(qū)域檢測(cè)出來(lái),這種不同插值方式的細(xì)微特征也可以被神經(jīng)網(wǎng)絡(luò)所捕捉并加以區(qū)分。
傳統(tǒng)的CFA插值檢測(cè)法為估算出圖片的CFA插值噪聲特征,需要利用后驗(yàn)概率法對(duì)3個(gè)顏色通道進(jìn)行建模,利用高斯濾波器對(duì)圖片進(jìn)行濾波并提取CFA插值特征,標(biāo)識(shí)出CFA插值規(guī)律被破壞的區(qū)域,根據(jù)提取出的區(qū)域大小來(lái)計(jì)算該區(qū)域被篡改的可能性。最大期望算法(Expectation-Maximization Algorithm,E-M算法)指在模型中尋找參數(shù)最大似然估計(jì)或者最大后驗(yàn)估計(jì)的算法[38],E-M算法計(jì)算方法的一次迭代分可分為兩個(gè)步驟,分別為期望步(E步)和極大步(M步)。根據(jù)前次迭代計(jì)算出的數(shù)值來(lái)估算未知數(shù)據(jù)的值,再根據(jù)估計(jì)出的未知數(shù)據(jù)與已觀測(cè)到的數(shù)據(jù)重新再對(duì)參數(shù)值進(jìn)行修正,通過(guò)反復(fù)迭代,直至最后收斂時(shí)迭代結(jié)束。圖5為警視通軟件的CFA插值檢測(cè)效果,圖6則為MATLAB環(huán)境下基于EM算法的CFA插值檢測(cè)效果。
圖5 警視通軟件CFA插值檢測(cè)功能的識(shí)別效果
圖6 EM算法的CFA插值檢測(cè)的識(shí)別效果
在卷積神經(jīng)網(wǎng)絡(luò)中使用特殊設(shè)計(jì)的卷積核就可以做到代替?zhèn)鹘y(tǒng)CFA插值檢測(cè)法的效果,通過(guò)算法對(duì)比可以發(fā)現(xiàn),兩種方法在提取圖像CFA插值特征時(shí)其實(shí)都用到了卷積計(jì)算?;贓-M算法的CFA插值檢測(cè)法的卷積核如下式所示:
傳統(tǒng)方法中使用的E-M算法也是一種擬合算法,在文獻(xiàn)[38]中,其擬合的對(duì)象是圖像綠色分量的預(yù)測(cè)誤差,E-M算法擬合的過(guò)程和神經(jīng)網(wǎng)絡(luò)類似,損失函數(shù)都需要找到其似然函數(shù)的最小值。在文獻(xiàn)[39]中,作者用BP神經(jīng)網(wǎng)絡(luò)實(shí)現(xiàn)了利用紅色通道,取固定面積內(nèi)圖像實(shí)際顏色值與估算值誤差的平均值對(duì)比來(lái)實(shí)現(xiàn)篡改區(qū)域檢測(cè)。在文獻(xiàn)[40]中,蘇文煊等人使用支持向量機(jī)(SVM)進(jìn)行CFA插值檢測(cè)。作者表示,這種算法對(duì)LC數(shù)據(jù)集[41]和Dresden數(shù)據(jù)集[33]的篡改圖片判斷平均準(zhǔn)確率均在96%以上。
但這類傳統(tǒng)算法也有很大的局限性,如在“警視通”等警用圖像處理軟件中,由于算法泛化能力的限制,CFA插值檢測(cè)就被限制到了非同源篡改檢測(cè)中,如果放入同源篡改圖片會(huì)導(dǎo)致算法失效。與傳統(tǒng)算法不同的是,卷積神經(jīng)網(wǎng)絡(luò)本身可以學(xué)習(xí)圖片除CFA插值以外的其他重采樣特征,這類特征的來(lái)源不限于非同源篡改,運(yùn)用簡(jiǎn)單的BP神經(jīng)網(wǎng)絡(luò)輸出概率密度統(tǒng)計(jì)[39]就可以反應(yīng)不同的圖像插值算法所插值出圖像的差別。
在文獻(xiàn)[42]中,Belhassen Baya和Matthew C Stam等人對(duì)CFA插值特征的提取做了進(jìn)一步研究,對(duì)CNN的卷積核進(jìn)行了針對(duì)性設(shè)計(jì)。文章作者提出,在輸入層使用這種特殊設(shè)計(jì)過(guò)的卷積核,就可以利用傳統(tǒng)的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)提取出圖片的CFA插值重采樣特征。這種根據(jù)CFA插值本身計(jì)算方法提出的卷積核結(jié)構(gòu)使神經(jīng)網(wǎng)絡(luò)對(duì)圖像邊界紋理不再敏感,而更專注于像素排列規(guī)律,從而使神經(jīng)網(wǎng)絡(luò)把學(xué)習(xí)重點(diǎn)放在重采樣特征規(guī)律上。同時(shí),Belhassen Baya等人還對(duì)訓(xùn)練集和測(cè)試集的圖片進(jìn)行了處理,其所用圖片均為由原始圖片綠色通道亮度信息形成的灰度圖片,實(shí)現(xiàn)了對(duì)綠色通道的CFA插值篡改特征提取。
數(shù)字圖片的像素在生成階段會(huì)經(jīng)過(guò)CFA插值的處理,在之后則可能會(huì)經(jīng)歷各類濾波器的后處理,從而在圖像的某些區(qū)域上留下對(duì)應(yīng)濾波器的特征。濾波器是數(shù)字圖像處理的重要工具,經(jīng)過(guò)濾波器重采樣的區(qū)域中可能會(huì)出現(xiàn)異常噪聲特征,如高斯濾波、中值濾波等。與CFA插值產(chǎn)生遍布整張圖片的本底重采樣特征不同的是,經(jīng)過(guò)濾波器處理的圖片區(qū)域帶有的是特定濾波算法的后處理重采樣特征,二者同屬于重采樣算法特征,在提取方式上也較為相似。
圖片的背景噪聲原本具有強(qiáng)隨機(jī)性并隨機(jī)分布,但由于上采樣、下采樣、插值3個(gè)重要后處理步驟的基本運(yùn)作過(guò)程是由線性濾波器完成的,所以線性濾波器處理后的像素和噪聲背景就會(huì)帶有強(qiáng)烈的線性特征。除此之外,篡改區(qū)域往往經(jīng)過(guò)了數(shù)次旋轉(zhuǎn)、拉伸的重采樣處理,這就使得篡改區(qū)域的噪聲特征也附加了其他各類濾波特征。
從傳統(tǒng)算法角度出發(fā),提取噪聲特征使用的也是E-M算法。文獻(xiàn)[43]中Alin C Popescu和Hany Farid把重采樣特征按照數(shù)字隱寫的角度思考并提出了使用E-M算法來(lái)提取各種濾波器處理后的像素規(guī)律,以確定圖像是否被修改過(guò)。
卷積神經(jīng)網(wǎng)絡(luò)由于具有學(xué)習(xí)功能,能取得比EM算法更好的效果,文獻(xiàn)[44]中陳建生等人提出利用卷積神經(jīng)網(wǎng)絡(luò)來(lái)提取中值濾波特征,他們發(fā)現(xiàn)特定的卷積結(jié)構(gòu)可以捕獲相鄰像素點(diǎn)之間的依賴關(guān)系,可以有針對(duì)性地設(shè)計(jì)不同的卷積核來(lái)識(shí)別不同的濾波器。
異常邊緣特征檢測(cè)算法在人工篡改檢測(cè)與深度偽造篡改檢測(cè)中都表現(xiàn)出了優(yōu)異的性能。異常邊緣在篡改圖片中普遍存在,這種特征的產(chǎn)生也來(lái)源于重采樣圖像處理,與重采樣特征主要關(guān)注篡改區(qū)域內(nèi)部像素排列規(guī)律不同的是,異常邊緣特征把目光放在了篡改區(qū)域與原始區(qū)域的交界處上。在對(duì)圖片進(jìn)行篡改處理的過(guò)程中,由于人的操作能力有限和軟件算法的限制,篡改者很難完全按照物體邊緣進(jìn)行框選,并使新的圖層邊緣融入原圖背景中,這就使得剪切下來(lái)的圖片邊緣產(chǎn)生不同于正常物體邊緣的異常。
文獻(xiàn)[45]中,王俊文等研究人員提出了一種基于SVM的人工篡改真銳化邊緣點(diǎn)標(biāo)記算法,通過(guò)對(duì)圖像進(jìn)行非下采樣輪廓波變換[46](NonSubampled Contourlet Transform,NSCT)來(lái)提取圖像中的邊緣輪廓特征,該文作者提出了強(qiáng)、次強(qiáng)、弱3種邊緣點(diǎn)分類模型,并通過(guò)實(shí)驗(yàn)證明原始圖像與經(jīng)過(guò)銳化處理的圖像邊緣點(diǎn)在Contourlet變換域上具有可分性。文獻(xiàn)[47]中,王波等研究人員提出了異常色調(diào)率檢測(cè)模糊處理的算法。該文作者認(rèn)為,正常圖片中不同物理的邊緣顏色過(guò)渡特點(diǎn)在整張圖片中呈現(xiàn)出穩(wěn)定的規(guī)律,并且圖片中物體邊緣的過(guò)渡有一定的銳利性,而在受過(guò)模糊處理的圖片中,這種特征會(huì)被嚴(yán)重破壞。該文作者首先定義了異常色調(diào)值與異常色調(diào)率的概念,文中提出異常色調(diào)值是在某一像素的8×8鄰域中單獨(dú)出現(xiàn),并與鄰域內(nèi)像素色調(diào)差的最大值不超過(guò)某一閾值的色調(diào)值。而異常色調(diào)率指具有異常色調(diào)值像素的總數(shù)占圖像像素總數(shù)的百分比。受過(guò)模糊操作的圖像,其全局異常色調(diào)率通常為正常圖像的10倍以上。
此外,這類異常邊緣會(huì)影響圖片的噪聲流積神經(jīng)網(wǎng)路和SRM濾波(Steganalysis Rich Model)[48]可以在盲檢測(cè)的情況下識(shí)別,而使用卷積結(jié)構(gòu)可以有效提取出這些異常。文獻(xiàn)[49]中提出了一種雙流Fast-R-CNN網(wǎng)絡(luò),在RPN(RegionProposal Network)網(wǎng)絡(luò)中加入SRM濾波后的噪聲流輔助預(yù)測(cè)框(bounding box)的調(diào)整,通過(guò)RGB流與SRM流的結(jié)合的異常邊緣噪聲實(shí)現(xiàn)了篡改圖片的篡改區(qū)域定位,圖7展示了其檢測(cè)效果。
圖7 文獻(xiàn)[49]中圖片噪聲特征在Fast-R-CNN中的識(shí)別效果
文獻(xiàn)[50]提出了一種基于YCbCr色域的篡改圖片檢測(cè)算法,該網(wǎng)絡(luò)首先把圖片從RGB色域轉(zhuǎn)換為YCbCr色域,提取Cb和Cr通道的紋理圖片,之后再生成紋理圖片的灰度共生矩陣(Gray Level Cooccurrence Matrix,GLCM),最后把灰度共生矩陣送入神經(jīng)網(wǎng)絡(luò)中完成處理。該算法的結(jié)構(gòu)如圖8所示,這種算法構(gòu)型具有很強(qiáng)的泛用性,能完成人工篡改圖片檢測(cè)和深度偽造篡改圖片檢測(cè)兩類任務(wù),在CAISA2.0這種人工篡改數(shù)據(jù)集與StyleGAN[51]這類深度偽造篡改圖片數(shù)據(jù)集上都能達(dá)到98%左右的分類準(zhǔn)確率。同時(shí),使用灰度共生矩陣的處理方法能以很小的信息損失完成圖像大小歸一化,讓不同分辨率的圖像都能以共同的矩陣大小輸入到神經(jīng)網(wǎng)絡(luò)中。該文獻(xiàn)作者總結(jié)了異常邊緣特征適用于深度偽造篡改圖片檢測(cè)的原因,雖然深度偽造圖片可以達(dá)到以假亂真的效果,但在毛發(fā)細(xì)節(jié)、衣物紋理、陰影等要素的邊緣仍會(huì)與真實(shí)圖片有較大的區(qū)別。
圖8 文獻(xiàn)[50]中提出的算法結(jié)構(gòu)
文獻(xiàn)[52]中提出了一種基于多色域融合的異常邊緣特征篡改檢測(cè)算法,該算法利用YCbCr色域中Cb與Cr色度分量和RGB色域中G值分量,用不同濾波算子提取紋理圖片。對(duì)色度分量使用了Scharr濾波算子,亮度分量則使用了Laplacian濾波算子,生成出3個(gè)分量紋理圖片的灰度共生矩陣后通過(guò)矩陣拼接完成特征融合,最后連接EfficientNet進(jìn)行篡改檢測(cè)。這種利用多色域特征融合的異常紋理檢測(cè)算法具有比單一特征算法更好的準(zhǔn)確度與泛用性,在CAISA2.0數(shù)據(jù)集的準(zhǔn)確率為98.03%,在Realistic Tampering Dataset 2.0高清人工篡改數(shù)據(jù)集的準(zhǔn)確率為90.43%。
基于JPEG壓縮的篡改區(qū)域檢測(cè)方法常用在非同源拼接篡改檢測(cè)中,這種方法具有方便定位篡改區(qū)域的特性。JPEG壓縮是一種基于像素區(qū)塊的有損壓縮算法,算法中的核心是離散余弦變換DCT(Discrete Cosine Transform)算法,1974年由Ahmed和Rao提出,它是一種圖像二維離散變換,可以看成傅里葉變換的一種變體。其常見用途是對(duì)音視頻進(jìn)行壓縮,DCT算法是JPEG、H.26X等多種音視頻編碼的核心[53]。
數(shù)字圖像本身也可以看成是一個(gè)二維的信號(hào),像素點(diǎn)灰度值的大小代表亮度信號(hào)的強(qiáng)弱。高頻區(qū)域就是圖像中灰度變化劇烈的點(diǎn),一般是圖像輪廓、物體邊緣或噪點(diǎn);低頻區(qū)域是圖像中灰度變化平緩的區(qū)域,圖像中的大部分區(qū)域都屬于低頻。DCT算法就是計(jì)算出圖像由哪些二維余弦波構(gòu)成,得出一個(gè)與輸入圖像同樣大小的矩陣。經(jīng)過(guò)對(duì)浮點(diǎn)數(shù)的量化(Quantization)后舍棄高頻信息,保留低頻信息[54]。DCT變換常用8×8像素作為區(qū)塊大小,在一個(gè)經(jīng)過(guò)了DCT變換的8×8頻域能量分布矩陣中,64個(gè)點(diǎn)所對(duì)應(yīng)的數(shù)字組成了DCT系數(shù)矩陣,矩陣低頻信息集中在左上角,高頻信息則在右下角。
JPEG壓縮算法的流程如圖9所示,先把一張圖片的色彩空間轉(zhuǎn)換到Y(jié)CbCr中再進(jìn)行DCT變換,每一個(gè)8×8的圖像塊都變成了3個(gè)8×8的浮點(diǎn)數(shù)矩陣,經(jīng)歷了這兩個(gè)步驟的圖片信息仍處于可逆的狀態(tài)。JPEG有損壓縮的原因是量化處理,量化的目的是犧牲浮點(diǎn)數(shù)精度換來(lái)更小的存儲(chǔ)體積,其操作方法是把浮點(diǎn)數(shù)除以一個(gè)量化系數(shù)再取整。JPEG壓縮的量化操作信息損失量由量化系數(shù)矩陣(Quantization matrices)控制,量化系數(shù)矩陣的大小對(duì)應(yīng)DCT系數(shù)矩陣,不同的量化系數(shù)矩陣也對(duì)應(yīng)不同的壓縮率。
圖9 JPEG壓縮算法流程
JPEG重壓縮特征所提取的就是圖像多次經(jīng)過(guò)不同量化系數(shù)矩陣處理后所留下的差異,經(jīng)過(guò)單次JPEG壓縮后的圖片,其DCT系數(shù)的直方圖近似服從高斯分布,經(jīng)歷過(guò)JPEG二重壓縮的圖片會(huì)在由DCT系數(shù)矩陣得到的直方圖中留下周期性的波峰和波谷。文獻(xiàn)[55]中Luká?和Fridrich提出了一種估測(cè)第一量化系數(shù)矩陣(Primary Quantization Matrix)的方法。文獻(xiàn)[56]中,Niu等人提出一種CNN結(jié)構(gòu)為基礎(chǔ)的量化系數(shù)矩陣估計(jì)算法,從而更準(zhǔn)確地檢測(cè)圖片是否經(jīng)過(guò)重壓縮處理。
原始圖像與篡改區(qū)通常會(huì)經(jīng)歷不同的JPEG壓縮次數(shù),每次壓縮時(shí)的壓縮系數(shù)也不同,從而攜帶不同的重壓縮特征。文獻(xiàn)[57]中Lin等人提出了構(gòu)建DCT AC系數(shù)與SVM結(jié)合的算法來(lái)判斷區(qū)塊是否為篡改區(qū)域,并提出圖片經(jīng)過(guò)重壓縮后在DCT AC系數(shù)直方圖會(huì)出現(xiàn)雙峰的統(tǒng)計(jì)特性。實(shí)現(xiàn)了JPEG重壓縮特征的篡改檢測(cè)。在文獻(xiàn)[58]中則直接把每個(gè)區(qū)塊的DCT系數(shù)矩陣中Y分量的AC系數(shù)變?yōu)橐痪S向量送入人工神經(jīng)網(wǎng)絡(luò)中進(jìn)行訓(xùn)練并輸出結(jié)果,從而判斷各個(gè)區(qū)塊的JPEG壓縮特征,實(shí)現(xiàn)了非同源拼接圖片的篡改區(qū)域定位,圖10展示了該算法的檢測(cè)效果。
圖10 文獻(xiàn)[58]中展示的JPEG重壓縮檢測(cè)效果
數(shù)字圖像篡改檢測(cè)與深度偽造生成圖片檢測(cè)是當(dāng)前熱門研究方向,現(xiàn)階段的檢測(cè)算法主要集中于機(jī)器學(xué)習(xí)領(lǐng)域。圖像篡改被動(dòng)篡改檢測(cè)主要經(jīng)歷了人工測(cè)量、算法檢測(cè)、深度學(xué)習(xí)3個(gè)發(fā)展階段。而深度偽造技術(shù)誕生時(shí)間不久,深度偽造檢測(cè)技術(shù)從一開始就大量運(yùn)用了深度學(xué)習(xí)技術(shù)。同時(shí),用于深度偽造圖片檢測(cè)的特征與圖像篡改檢測(cè)所提取的特征大多是同一類特征或有密切聯(lián)系,有些算法會(huì)有明顯的思路繼承。
深度偽造技術(shù)的發(fā)展和深度學(xué)習(xí)有密切聯(lián)系,在圖像內(nèi)容生成層面使用的深度學(xué)習(xí)技術(shù)主要有生成對(duì)抗網(wǎng)絡(luò)(Generative Adversarial Networks,GAN)[59]、卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network,CNN)[60]、循環(huán)神經(jīng)網(wǎng)絡(luò)(Recurrent Neural Network,RNN)[61]等,這3類網(wǎng)絡(luò)結(jié)構(gòu)在生成深度偽造內(nèi)容上都需要數(shù)據(jù)集構(gòu)建和模型訓(xùn)練兩個(gè)步驟。深度偽造內(nèi)容的檢測(cè)方法也同樣依賴于深度學(xué)習(xí),檢測(cè)思路是使用深度偽造數(shù)據(jù)集與真實(shí)內(nèi)容數(shù)據(jù)集訓(xùn)練模型,實(shí)現(xiàn)特征的提取并進(jìn)行分類。在深度偽造內(nèi)容檢測(cè)中所使用的方法主要可分為3大類:基于傳統(tǒng)圖像篡改取證方法、基于GAN圖像特征方法和基于生理信號(hào)特征方法。
使用傳統(tǒng)圖像篡改檢測(cè)方法來(lái)檢測(cè)深度偽造圖片的思路與上文所描述的比較相近,除了上文提到的利用異常紋理檢測(cè)的方法外,還有許多可供檢測(cè)的特征與專門設(shè)計(jì)的檢測(cè)算法。RAO[62]等人通過(guò)固定第一層卷積層中卷積核的權(quán)重權(quán)值,提SRM中的殘差映射來(lái)完成換臉篡改識(shí)別。Nataraj等人[63]使用提取灰度共生矩陣的思路,直接將RGB三通道的灰度圖片特轉(zhuǎn)換為灰度共生矩陣,最后送入神經(jīng)網(wǎng)絡(luò)中進(jìn)行篡改檢測(cè)。Zhou等人設(shè)計(jì)了一種雙流網(wǎng)絡(luò)[64],其中一條為基于GoogLeNet結(jié)構(gòu)的人臉?lè)诸惥W(wǎng)絡(luò),另一條為背景噪聲提取網(wǎng)絡(luò),用人臉?lè)诸惥W(wǎng)絡(luò)框定人臉位置減少背景影響,再使用背景噪聲判斷人臉是否被篡改。Li等人[65]提出Deepfake算法所生成的假臉和原圖像有分辨率不匹配的問(wèn)題,故通過(guò)構(gòu)建經(jīng)過(guò)高斯模糊、旋轉(zhuǎn)縮放的樣本數(shù)據(jù)集引導(dǎo)神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)此類特征,進(jìn)而進(jìn)行真假判別。
深度偽造算法的生成過(guò)程中也改變了圖像的像素和色度空間統(tǒng)計(jì)特征,有研究指出這類特征可以通過(guò)共生矩陣等方法提取到并用于深度偽造檢測(cè),文獻(xiàn)[66]中提出了一種基于深度偽造生成圖片在光譜波段之間的不一致性的檢測(cè)方法,文中作者提出GAN生成的圖像在RGB三通道中的灰度圖像中會(huì)存在不一致性,除了利用每個(gè)色彩通道的灰度共生矩陣提取特征外,還可以跨通道地進(jìn)行共生矩陣的計(jì)算來(lái)進(jìn)一步突出光譜不一致性。在算法中增加RG、GB、RB的灰度共生矩陣輸入可以提高深度偽造篡改檢測(cè)準(zhǔn)確率。文獻(xiàn)[67]提出深度偽造生成圖片與真實(shí)圖片在色度分量上有更明顯的區(qū)別,則通過(guò)高通濾波抑制圖像內(nèi)容,再提取殘差進(jìn)行檢測(cè),該算法的結(jié)構(gòu)如圖19所示。不同的GAN生成器所生成的圖片具有不同的特征,研究人員將其稱為“GAN的指紋”,文獻(xiàn)[68]和[69]利用這類特征,可以通過(guò)生成出來(lái)的圖片反推其使用的GAN類型。
對(duì)于深度偽造換臉視頻,人臉的生理信號(hào)特征也可被用于檢測(cè)中,Amerini等人提出了光流場(chǎng)+CNN來(lái)捕捉面部五官運(yùn)動(dòng)信息的鑒別方法[70],Guera等人提出了LSTM+CNN的算法框架[71]。韓語(yǔ)晨等人使用Inception3D卷積提取口部與眼部特征運(yùn)動(dòng)信息進(jìn)行深度偽造視頻的檢測(cè)[72]。此類算法大多基于動(dòng)態(tài)視頻,對(duì)靜態(tài)圖像的檢測(cè)能力有限。
與在實(shí)戰(zhàn)條件下面對(duì)的篡改圖像相比,目前數(shù)字圖像篡改檢測(cè)算法所用的訓(xùn)練與測(cè)試數(shù)據(jù)集表現(xiàn)出了篡改痕跡明顯、分辨率較低、篡改區(qū)域偏大等特點(diǎn),有算法在某個(gè)數(shù)據(jù)集有較好的檢測(cè)準(zhǔn)確度,但如果用自己制作的篡改圖片去檢驗(yàn)則會(huì)發(fā)現(xiàn)算法幾乎失效。建立一個(gè)覆蓋多種分辨率的高品質(zhì)篡改圖像數(shù)據(jù)集是很有必要的,一方面可以引導(dǎo)篡改檢測(cè)算法向著更貼近實(shí)際情況的情景中學(xué)習(xí)檢測(cè)方向,另一方面也可以讓各類篡改檢測(cè)算法有統(tǒng)一的性能衡量指標(biāo)。
在深度偽造視頻檢測(cè)領(lǐng)域,有幾乎通用的Face-Forensics++和DeepfakeTIMIT等視頻數(shù)據(jù)集,也有Deepfake Detection Challenge等大型比賽,各類算法也會(huì)列出在大型數(shù)據(jù)集上的檢測(cè)效果,能得出較為直觀且通用的評(píng)價(jià)。在深度偽造生成圖片篡改檢測(cè)領(lǐng)域,有FFHQ這種超大型真實(shí)人臉數(shù)據(jù)集和由PGGAN、StyleGAN、BigGAN等深度偽造算法生成的假臉圖片數(shù)據(jù)集。但在數(shù)字圖像人工篡改檢測(cè)領(lǐng)域則缺乏相同量級(jí)的數(shù)據(jù)集,許多數(shù)據(jù)集在圖片數(shù)量上僅為百余張的水平,CAISA2.0等較大型數(shù)據(jù)集的質(zhì)量則偏低,自動(dòng)生成的篡改圖片數(shù)據(jù)集無(wú)法反映實(shí)際篡改情況。目前學(xué)界需要一種貼合現(xiàn)實(shí)場(chǎng)景、區(qū)分開不同篡改手段,包含人工篡改圖像與深度偽造篡改圖像,覆蓋多種不同分辨率的篡改圖像數(shù)據(jù)集。
深度偽造篡改技術(shù)影響深遠(yuǎn),目前應(yīng)用最廣的是“換臉”操作,由這種技術(shù)篡改出的圖像非常逼真,篡改痕跡隱蔽。篡改技術(shù)的進(jìn)步給篡改檢測(cè)算法提出了更高要求,對(duì)于傳統(tǒng)篡改痕跡要有更有效的提取方式的同時(shí)也要有效提取深度偽造生成區(qū)域的特征。深度偽造算法可以生成一張現(xiàn)實(shí)中不存在的人像圖片,在換臉的場(chǎng)景下其邊緣仍需模糊銳化等重采樣處理,會(huì)留下與人工篡改相近的特征模式。但深度偽造算法的生成器還可以生成出一張完全虛構(gòu)的偽造圖片,這類圖片是整體生成,不具有SIFT特征或JPEG重壓縮特征,其他傳統(tǒng)篡改檢測(cè)算法對(duì)其是否有效也有待檢驗(yàn)。這就要求圖像篡改檢測(cè)算法最好能在有效完成傳統(tǒng)篡改檢測(cè)的基礎(chǔ)上,具有對(duì)深度偽造生成內(nèi)容的檢測(cè)能力。目前來(lái)看,文獻(xiàn)[50]與文獻(xiàn)[52]所使用的基于異常紋理的篡改算法可以有效完成對(duì)深度偽造生成人臉圖像的檢測(cè),更完善、高效的檢測(cè)技術(shù)方法還有待進(jìn)一步研究。
在目標(biāo)識(shí)別領(lǐng)域,以YCbCr色域進(jìn)行紋理信息增強(qiáng)已成為新的研究方向,這種從RGB轉(zhuǎn)換到Y(jié)CbCr色域的思路已應(yīng)用于圖像數(shù)字水印[73]、手勢(shì)識(shí)別[74]、膚色分割[75]等領(lǐng)域。Cb、Cr色度分量比Y亮度分量對(duì)拼接引入的異常邊緣信息更加敏感,在對(duì)數(shù)字圖像進(jìn)行篡改的過(guò)程中,即使圖像在RGB色域看起來(lái)很自然,也會(huì)在色度通道中留下一些不自然的線索。而大多數(shù)拼接檢測(cè)方法只使用圖像在RGB色域的亮度分量,色度分量是被去除掉的。Wang提出圖像色度對(duì)于彩色圖像拼接檢測(cè)非常有效[76]。這指引我們需要跳出單一的RGB色彩空間,從其他色彩空間中尋找更多的篡改痕跡。
多特征融合也是數(shù)字圖像篡改檢測(cè)的研究熱點(diǎn),圖像篡改檢測(cè)關(guān)注的并不是一張圖片的表層信息,而是人眼難以發(fā)現(xiàn)的像素分布規(guī)律,按照原本圖像分類和目標(biāo)檢測(cè)的思路去設(shè)計(jì)神經(jīng)網(wǎng)絡(luò),會(huì)導(dǎo)致算法的注意力過(guò)分集中在大量圖像表層無(wú)用信息中。這些隱含規(guī)律的成因與來(lái)源各不相同,僅憑訓(xùn)練卷積神經(jīng)網(wǎng)絡(luò)難以做到準(zhǔn)確提取,還需要通過(guò)許多不同的特征提取算法來(lái)做到針對(duì)性提取。如雙流Faster R-CNN網(wǎng)絡(luò)構(gòu)型[49]、雙流FCN網(wǎng)絡(luò)構(gòu)型[77]、三相流Faster R-CNN結(jié)構(gòu)[78],均采用了不同特征的融合來(lái)提高算法性能。文獻(xiàn)眾多研究成果也證明:直接輸入RGB圖像或僅靠調(diào)整卷積核構(gòu)型的篡改檢測(cè)網(wǎng)絡(luò)性能已被多特征融合構(gòu)型拉開較大差距,應(yīng)加強(qiáng)特征融合方式和網(wǎng)絡(luò)結(jié)構(gòu)的創(chuàng)新,探索泛用性更好的篡改特征提取方法。
中國(guó)人民公安大學(xué)學(xué)報(bào)(自然科學(xué)版)2022年4期