王 宏,錢 清,王 歡,龍 永
(貴州財經(jīng)大學 信息學院,貴陽 550025)
在過去十年中,全球數(shù)據(jù)流量以前所未有的速度增長,促進了圖像在當代社會的傳播。但隨著多媒體應用的普及和數(shù)字圖像編輯軟件的發(fā)展,圖像的真實性嚴重影響了圖像的使用,懷有惡意的圖像偽造篡改成為全球關(guān)注的問題。在圖像被動取證領(lǐng)域,圖像的復制-粘貼篡改因源區(qū)域和目標區(qū)域源于同一張圖像,篡改區(qū)域具有的特征(如飽和度、光源、噪聲等)能不加改變就具有良好的適應性,因此具有較強的隱匿性,不易被識別[1]。同時,海量圖像的傳播對復制-粘貼篡改檢測計算量提出嚴苛的挑戰(zhàn),對算法效率要求較高。
深度學習作為一種基于人工神經(jīng)網(wǎng)絡(luò)的機器學習概念,以數(shù)據(jù)驅(qū)動通過分析海量數(shù)據(jù)捕捉任務的主要特征。根據(jù)深度學習的結(jié)構(gòu)特點,可分為卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network,CNN)[2]和循環(huán)神經(jīng)網(wǎng)絡(luò)。深度學習因具有精準度高、結(jié)構(gòu)多樣、可自主學習[3]等優(yōu)點,能夠解決不同應用領(lǐng)域的大部分問題,具有廣泛的應用空間。
研究表明,CNN 具有平移不變性,能夠通過重復簡單的模式來描述復雜的模型,不易發(fā)生過擬合,模型更易理解,能夠充分利用局部語義信息等優(yōu)點。但是卷積層只能緩慢增加感受野,忽略了長端依賴性,從而影響模型的表現(xiàn)能力。
注意力模型已經(jīng)成為自然語言處理領(lǐng)域中的主流技術(shù)之一,近年來,也在計算機視覺領(lǐng)域得到廣泛應用[4],注意力模型具有在初期就可獲取全局感受野、可并行化操作等優(yōu)點,但注意力模型所需要的計算資源龐大,同時還有忽略圖像位置信息、在小數(shù)據(jù)集上表現(xiàn)不強、無法捕捉局部信息和不能實現(xiàn)通道維度適應性等缺點。雖然利用CNN 的特點將注意力模型進行輕量化能有效克服計算資源龐大等缺點[5];然而,局部信息的獲取、在小數(shù)據(jù)集上表現(xiàn)不強和通道維度適應性差等問題仍未解決。
因此,本文改進了原有EfficientNetV2[6],將大核注意力(Large Kernel Attention,LKA)卷積模塊引入EfficientNetV2,提出了LKA-EfficientNet(Large Kernel Attention EfficientNet)算法,從而在圖像被動取證領(lǐng)域?qū)D像復制-粘貼篡改進行檢測。本文的主要工作如下:
1)在EfficientNetV2 中設(shè)計大核注意力(LKA)卷積塊,實現(xiàn)圖像復制-粘貼定位,通過通道卷積、標準卷積、空洞卷積的融合,在網(wǎng)絡(luò)初期利用注意力優(yōu)勢獲取全局感受野,規(guī)避注意力機制的高計算開銷并提高了運算速度。
2)針對圖像復制-粘貼篡改操作所固有的特點,進一步壓縮精簡EfficientNetV2,通過精簡網(wǎng)絡(luò)結(jié)構(gòu)降低計算復雜度并有效提高精度。
早期的圖像復制-粘貼篡改檢測算法聚焦于圖像塊的遷移[7]。Cozzolino 等[8]提出一種較通用的傳統(tǒng)復制-粘貼篡改檢測框架,包含提取圖像特征、相似特征匹配、定位源區(qū)域和目標區(qū)域?;诖擞址譃閳D像塊檢測[9]和特征點檢測算法[10],但不論是基于圖像塊還是基于特征點的算法都有局限性,例如圖像處理緩慢、泛化性差、只針對特定的幾類篡改類型的圖像等[11]。
近年來,由于深度學習的精準度高、結(jié)構(gòu)多樣、可自主學習性強的特點,深度學習逐漸被應用到圖像被動取證領(lǐng)域。Rao 等[12]提出以第一層為高通濾波器的CNN 架構(gòu),提取殘差特征映射,從而分辨篡改偽造圖像;Wu 等[13]設(shè)計端到端的篡改檢測網(wǎng)絡(luò)BusterNet,采取雙分支結(jié)構(gòu),通過檢測圖像相似度來識別源區(qū)域和目標區(qū)域,但對雙分支要求較高,辨識效果較差;Chen 等[14]提出一種串行分支網(wǎng)絡(luò)模型以改進BusterNet 的缺點,該網(wǎng)絡(luò)包含相似性檢測網(wǎng)絡(luò)CMSDNet(Copy-Move Similarity Detection Network)和目標鑒別網(wǎng)絡(luò)STRDNet(Source/Target Region Distinguishment Network)。STRDNet 研究CMSDNet 獲得的相似塊的分類問題,相較于BusterNet 的分支更簡單且準確率更高,但是運算量過大。Zhou 等[15]基 于RGB 流和噪聲流,提出雙流Faster R-CNN(Faster Region-based Convolutional Neural Network)的圖像篡改檢測,并使用雙線性池化層將特征進行融合,該方法對圖片縮放、壓縮具有很強的魯棒性,但網(wǎng)絡(luò)能力有限,對多種篡改類型的檢測效果不佳;Wu 等[16]設(shè)計的ManTra-Net(Manipulation Tracing Network)為串行網(wǎng)絡(luò),包括圖像檢測網(wǎng)絡(luò)和局部異常檢測網(wǎng)絡(luò),在圖像檢測網(wǎng)絡(luò)中通過ZPool2D 層模擬人眼進行距離分析,并通過Z 分數(shù)的形式標準化局部特征與其參考之間的差異;該網(wǎng)絡(luò)對微小篡改具有魯棒性,輸入圖像尺寸靈活可變,但網(wǎng)絡(luò)檢測效果較差。徐代等[17]基于文獻[15]提出三流網(wǎng)絡(luò),分別對圖像不同特征進行檢測從而提高網(wǎng)絡(luò)輸出精度;Zhong 等[18]提出基于Dense-InceptionNet 的檢測方案,充分使用多尺度信息和稠密特征,通過特征金字塔提取特征,使用特征相關(guān)匹配算法和后處理步驟定位源區(qū)域與目標區(qū)域。該算法對幾何變換篡改和JPEG(Joint Photographic Experts Group)壓縮都有一定的魯棒性。吳旭等[19]通過副分支研究篡改區(qū)域邊緣的像素間差異來提高檢測精度;Barni 等[20]提出多分支網(wǎng)絡(luò)對圖像復制篡改進行檢測以識別源區(qū)域和目標區(qū)域,分別對4-Twins Net 分支和Siamese Net 分支進行訓練并完成定位,具有精度高、識別明顯等優(yōu)點,但利用四分支導致網(wǎng)絡(luò)龐大且臃腫。
近些年來,自注意力模塊在各種計算機視覺領(lǐng)域得到廣泛應用。然而,圖像的性質(zhì)和自注意力的機制相性不高,自注意力的應用在計算機視覺領(lǐng)域中出現(xiàn)了以下問題:1)將圖像作為一維序列處理,不符合圖像的二維架構(gòu);2)較高復雜度的計算開銷對于高分辨率圖像來說資源耗費過于龐大;3)只考慮空間適應性,忽略了圖像的通道適應性。
為了解決自注意力存在的問題,基于大核卷積的注意力機制應運而生。如圖1 所示,LKA 模塊由三個卷積組成,分別是普通卷積,卷積核為5 × 5;空洞卷積,卷積核為7 × 7,間距為3;通道卷積,卷積核為1 × 1。LKA 兼顧卷積和Transformer 的優(yōu)點,解決了卷積在長端依賴性差和Transformer 在局部信息和通道維度上適應性差的問題;但目前基于卷積的注意力機制主要應用在圖像分類領(lǐng)域,應用在圖像復制-粘貼取證領(lǐng)域的相關(guān)研究較少。
圖1 LKA模塊的構(gòu)成Fig.1 Composition of LKA module
因此,為了克服傳統(tǒng)卷積的缺點,本文采用大核注意力卷積提取全局感受野的圖像特征,使提取的圖像特征相較于傳統(tǒng)卷積具有長端依賴性。
EfficientNetV2 利用漸進式學習策略,通過復合縮放對比不同深度、寬度和輸入圖像的分辨率,尋找最優(yōu)解,進而實現(xiàn)精度和計算量的均衡[6]。它的主要模塊Fused-MBConv 和MBConv 如圖2 所示,MBConv 模塊先進行升維操作,再通過深度可分離卷積進行運算,最后進行降維操作;Fused-MBConv 將升維卷積和可分離卷積替換為普通3 × 3卷積,從而提高運算速度。在早期階段中Fused-MBConv 在網(wǎng)絡(luò)上層參數(shù)和理論計算量的開銷較小,通過融合能提高運算速度;但是如果所有塊都使用Fused-MBConv,網(wǎng)絡(luò)會增加參數(shù)量和理論計算量,降低運算速度。
圖2 EfficientNetV2的主要模塊Fig.2 Main modules of EfficientNetV2
圖像的篡改部分通常都具有與原圖某片區(qū)域相似的性質(zhì),更深層的特征在消耗更多計算資源的情況下趨于收斂從而難以區(qū)分,降低了算法精度。因此傳統(tǒng)的EfficientNetV2不適用于圖像復制-粘貼檢測,相關(guān)研究較少。
本文在EfficientNetV2 中設(shè)計LKA 卷積塊,并經(jīng)過大量實驗對基干網(wǎng)絡(luò)中輸出通道數(shù)和重復次數(shù)進行了壓縮,優(yōu)化了網(wǎng)絡(luò)結(jié)構(gòu),在保證檢測精度的同時提高檢測效率。
特征金字塔網(wǎng)絡(luò)(Feature Pyramid Network,F(xiàn)PN)作為多尺度目標識別的關(guān)鍵組件,能同時利用低層特征的高辨識度特點和高層特征的強語義信息,融合不同層的特征從而檢測出目標區(qū)域。由于FPN 的內(nèi)存占用和計算量大,嚴重限制了它的廣泛使用[21]。本文利用網(wǎng)絡(luò)本身固有的多尺度、層次化特點構(gòu)建FPN,在多層不同尺度上構(gòu)建高層語義特征,克服FPN 的缺點并實現(xiàn)目標區(qū)域檢測。
不同圖像對同一目標的表征不同,這一表征的外在表現(xiàn)為顏色、尺寸的不同,但它的內(nèi)在特征具有同一性。FPN 能實現(xiàn)低層特征語義信息與高層語義信息的融合,從而精確地定位源區(qū)域與目標區(qū)域。FPN 通過相關(guān)特征層數(shù)的累加獲得一個強語義信息,變相增加低層特征的深度并融合多層的信息特征,從而對不同的特征進行輸出并提高檢測性能。
FPN 對不同層數(shù)的不同特征分別進行圖像篡改檢測,而后對結(jié)果進行加權(quán),當使用更深的層次構(gòu)造FPN 時,能夠得到更魯棒的信息,從而通過低層特征和經(jīng)過上采樣處理過的高層特征的融合,利用低層特征所提供的準確位置信息來修正高層特征經(jīng)過多次降采樣和上采樣所造成的定位誤差。
近年來,隨著多媒體的興起和圖像的廣泛使用,對圖像的復制-粘貼篡改操作愈加容易,而圖像的真實性也變得愈加重要。由于篡改圖像的圖像特性,在消耗更多硬件資源的情況下所進行的更深層次的信息抽取網(wǎng)絡(luò)結(jié)構(gòu)并不能有效提升算法的精度。與此同時,傳統(tǒng)卷積感受野增加緩慢且無法實現(xiàn)長端依賴性,會影響算法的表現(xiàn)能力。為此,本文充分融合大核卷積注意力機制的長端依賴性和全局感受野特性,對傳統(tǒng)EfficientNetV2 進行了改進,設(shè)計了一種新的基于大核注意力卷積塊的輕量化網(wǎng)絡(luò)模型以實現(xiàn)復制-粘貼篡改圖像的檢測和定位。如圖3 所示,本文提出的LKAEfficientNet 是一種高效的端到端篡改檢測算法,可將所有模塊連接起來作為一個整體進行訓練。
圖3 融合大核卷積的輕量級多尺度融合的圖像篡改檢測算法流程Fig.3 Flow chart of image tamper detection algorithm based on lightweight multi-scale fusion with large kernel convolution
針對現(xiàn)有基干網(wǎng)絡(luò)特征提取不全、檢測精度較低、泛化能力差、時間復雜度高等問題,本文改進了原始EfficientNetV2,采用LKA 卷積塊替代傳統(tǒng)卷積塊,使得網(wǎng)絡(luò)獲得長端依賴性和全局感受野,從而提取粗粒度的全局圖像特征;隨后,進一步壓縮了EfficientNetV2 中輸出通道和重復層數(shù),從全局圖像特征中提取多維、多尺度的細粒度特征;最后,利用通過FPN 得到的三個候選匹配圖融合處理獲得三元組交叉熵函損失函數(shù)[22]進行訓練并更新網(wǎng)絡(luò)權(quán)重,從而在定位源區(qū)域與目標區(qū)域的同時提高網(wǎng)絡(luò)性能。
原始EfficientNetV2 和LKA-EfficientNet 的網(wǎng)絡(luò)結(jié)構(gòu)分別如 表1~2 所示。表1 中Conv3×3 表示普通3 × 3 卷積+SiLU(Sigmoid Linear Unit)激活函數(shù)+批歸一化(BatchNorm,BN)正則函數(shù);SE(Squeeze and Excitation)為自注意力模塊,0.25為SE 模塊中第一個全連接層的系數(shù),表示輸入該模塊特征矩陣通道數(shù)量的表示卷積核大??;Fused-MBConv、MBConv 后的數(shù)字為膨脹系數(shù)。由于傳統(tǒng)卷積模塊的感受野較小且增長緩慢,無法高效利用圖像的遠端像素,本文在基干網(wǎng)絡(luò)開端引入LKA,充分利用LKA 具有長端依賴和能夠獲取全局感受野的特性,提取了圖像粗粒度全局特征,有效提高了網(wǎng)絡(luò)精度。
表1 原始EfficientNetV2算法的網(wǎng)絡(luò)結(jié)構(gòu)Tab.1 Network structure of original EfficientNetV2 algorithm
此外,為了能夠提高基干網(wǎng)絡(luò)的運行效率和檢測精度,本文通過實驗論證對Fused-MBConv 和MBConv 層中的輸出通道和重復層數(shù)進行了壓縮,在減少參數(shù)與理論計算量的前提下保證了檢測精度,提高了檢測效率。
從表2 可以看出,本文在EfficientNetV2 模型設(shè)計了LKA卷積塊,并在后續(xù)的各模塊中壓縮了輸出通道數(shù)和重復層數(shù)。在壓縮過程中,充分利用網(wǎng)格搜索對網(wǎng)絡(luò)深度進行搜索,在確定深度的前提下對網(wǎng)絡(luò)層間重復次數(shù)進行搜索,然后再對網(wǎng)絡(luò)寬度進行搜索從而確定網(wǎng)絡(luò)參數(shù),通過參數(shù)和維度的縮減來優(yōu)化精簡算法,在保證算法精度的同時減小網(wǎng)絡(luò)計算開銷,經(jīng)過基干網(wǎng)絡(luò)提取的細粒度、多尺度特征圖像將輸出至FPN。
表2 LKA-EfficientNet算法的網(wǎng)絡(luò)結(jié)構(gòu)Tab.2 Network structure of LKA-EfficientNet algorithm
LKA-EfficientNet 利用一個輔助匹配模塊來定位源區(qū)域與目標區(qū)域并學習豐富的層次特征之間的相關(guān)性。三個候選像素塊的區(qū)域大小分別為28 × 28、14 × 14、7 × 7,候選像素塊的深度分別為48、64、128。LKA-EfficientNet 使用歐氏距離定義特征相關(guān)系數(shù)。設(shè)特征塊為P0,其中P0={P1,P2,…,Pi…,PN×N},則P1的M維的描述算子為:
其中:N為候選像素塊中像素點的數(shù)量;M為特征深度。定義特征點Pi與其他特征點的特征相關(guān)系數(shù),如式(2)所示:
其中:下標i和j表示特征點Pi和Pj在相應的匹配映射中的定位;Pci,j為配對測量值,表示特征點Pi和Pj間特征相關(guān)系數(shù)。當相關(guān)系數(shù)接近0 時,說明兩個特征點非常相似,其中Pci,i的相關(guān)系數(shù)為0。
LKA-EfficientNet 利用2NN(Two Nearest Neighbour)匹配算法減小匹配誤差[23]。定義Pci,j為次小特征相關(guān)系數(shù),Pci,k為第三小特征相關(guān)系數(shù),設(shè)定閾值TL=0.65,匹配條件為:
隨后,LKA-EfficientNet 對相關(guān)特征進行篩選,使用特征匹配度量來度量源像素與其候選目標像素之間的相似性,并將其轉(zhuǎn)化為二分類問題,步驟如式(4)所示,α=2:當特征匹配度量符合條件時,輸出結(jié)果接近1;而當不符合條件時,輸出結(jié)果接近0,由此篩選出特征候選區(qū)域。圖4 表示了FPN中不同層的處理結(jié)果與融合結(jié)果。
圖4 三個匹配圖及其組合Fig.4 Three matching maps and their combinations
利用低層特征所提供的準確位置信息修正高層特征經(jīng)過多次降采樣和上采樣所造成的定位誤差。圖像篡改定位部分以偽代碼形式給出。
從表 1中可以看出, 當網(wǎng)格節(jié)點數(shù)量大于5×105時, 數(shù)值計算收斂, 計算的平均誤差小于7%, 在可以接受的范圍之內(nèi), 并且隨著網(wǎng)格節(jié)點數(shù)量的增大, 計算結(jié)果沒有發(fā)生顯著變化, 綜合考慮計算準確性與經(jīng)濟性, 本文選用節(jié)點數(shù)量為8.5×105的網(wǎng)格作為數(shù)值模擬所用的計算網(wǎng)格.
輸入M維特征,每個維度中N×N特征值,TL閾值,系數(shù)因子α;
輸出 特征相似性表征P。
LKA-EfficientNet 將2NN 匹配算法處理后的對數(shù)化候選特征矩陣作為損失函數(shù)中的函數(shù),將事實像素GT(Ground Truth)中不同類別的像素作為損失函數(shù)中的系數(shù),兩者配合組成損失函數(shù)。隨后LKA-EfficientNet 利用損失函數(shù)量化網(wǎng)絡(luò)預測結(jié)果與GT 之間的差值,通過梯度下降更新網(wǎng)絡(luò)權(quán)重,進而減小量化指標提升網(wǎng)絡(luò)預測結(jié)果與GT 的相似性。
為了提升圖像篡改定位的精確性,本文利用三元組交叉熵損失函數(shù)對輸入相似結(jié)構(gòu)能夠精確地對細節(jié)建模的性質(zhì),通過訓練縮減錨(Anchor)與標記區(qū)域之間的距離并擴大Anchor 與無篡改區(qū)域的距離,促使類間距離大于類內(nèi)距離,如圖5 所示。
圖5 三元組損失函數(shù)Fig.5 Triplet loss function
由式(4)計算得到相對應的候選矩陣后,特征匹配Ⅰ、Ⅱ、Ⅲ組成了特征金字塔,其中:特征匹配Ⅰ提供全局和粗粒度特性的匹配相關(guān)性,特征匹配Ⅱ、Ⅲ提供局部和精細特性的匹配相關(guān)性。為便于使用交叉熵進行全局統(tǒng)計與局部統(tǒng)計,使用雙線性插值將候選圖拓展成224×224。由式(4)可知,上采樣特征匹配的特征匹配系數(shù)P(Xi,j)在(0,1)范圍內(nèi),計算上采樣后的匹配映射的像素i和j相較于它的標簽的交叉熵:
通過交叉熵衡量候選矩陣與GT 概率分布的差異程度,隨后通過熵的大小表征真實概率分布與預測概率分布之間的差異,并利用交叉熵損失函數(shù)的梯度從其負梯度方向進行反向傳播更新參數(shù)進而優(yōu)化網(wǎng)絡(luò)。
本文主要從消融實驗、抗攻擊實驗、泛化實驗等幾個方面對LKA-EfficientNet 和相關(guān)算法進行性能比較與分析。
實驗環(huán)境為:Python3.8、PyTorch1.10,GPU 為RTX3060,實驗參數(shù)為Dropout=0.15,batchsize=32,優(yōu)化器為SGD+Momentum,初始學習率為0.001,訓練集和驗證集的劃分比例為8∶2,輸入圖像大小為224 × 224,三個候選像素塊的區(qū)域大小分別為28 × 28、14 × 14、7 × 7,三個候選像素塊的深度為48、64、128。
混合數(shù)據(jù)集:將CASIA2.0[24]和Comofod_small[25]數(shù)據(jù)集進行混合,總計20 665 張圖片,包含真實圖片12 449 張,篡改圖片8 216 張。數(shù)據(jù)集的混合不僅能增大訓練量,并且包含被攻擊數(shù)據(jù),所以網(wǎng)絡(luò)能通過數(shù)據(jù)集的訓練提高檢測性能。
Dataset 數(shù)據(jù)集[26]:包含多種攻擊下的篡改圖片總計2 200 張。
MICC-F2000 數(shù)據(jù)集[27]:由2 000 張圖片組成,其中,1 300張為真實圖片,700 張為篡改圖片。
COVERAGE 數(shù)據(jù)集[28]:由200 張圖片組成,包含100 張篡改圖片。
MICC-F600 數(shù)據(jù)集[29]:共計600 張圖片,其中,440 張為真實圖片,160 張為篡改圖片。
使用查準率P(Precision)、查全率R(Recall)、F1 分數(shù)[30]和精度Acc(Accuracy)評估性能,并且使用浮點運算量[31]和參數(shù)量衡量算法復雜程度。Acc為模型預測為真且標簽為真的數(shù)據(jù)與模型預測為假且標簽為假的數(shù)據(jù)之和除以總樣本數(shù);P為正確檢測到的偽造圖像與所有檢測到的圖像的比率;R為正確檢測到的偽造圖像與所有偽造圖像的比例。
P=預測為1且正確的樣本數(shù)所有預測為1的樣本數(shù)
R=預測為1且正確的樣本數(shù)真實標簽為1的樣本數(shù)
F1 值作為綜合標準,兼顧查準率和查全率。
RF1=2PR(P+R)
4.2.1 消融實驗
消融實驗均在混合數(shù)據(jù)集上進行。表3 是在多個不同類型的網(wǎng)絡(luò)上進行的消融實驗,實驗的具體設(shè)置參數(shù)如下:使用第三類Early Stopping 函數(shù),代數(shù)為20 代,使用SGD+Momentum 優(yōu)化器。對網(wǎng)絡(luò)代數(shù)進行限制,16 層時代數(shù)為150 代,每增加4 層,代數(shù)增加50 代,添加LKA 模塊后網(wǎng)絡(luò)代數(shù)在原有基礎(chǔ)上增加30 代。
表3 不同層數(shù)的基干網(wǎng)絡(luò)消融實驗結(jié)果Tab.3 Ablation experimental results of backbone networks with different layers
通過表3 可以看出,在添加LKA 模塊后,網(wǎng)絡(luò)在相同層數(shù)下,精度因為網(wǎng)絡(luò)未能充分訓練而發(fā)生訓練效果減弱等問題。通過擴展一定的模型層數(shù),能夠顯著提高模型精度,提升檢測性能。
現(xiàn)行的圖像復制-粘貼篡改網(wǎng)絡(luò)[12]因源區(qū)域和目標區(qū)域的性質(zhì)而被限制網(wǎng)絡(luò)的深度。而網(wǎng)絡(luò)的深度影響模型的精度,當使用CNN 定位源區(qū)域和目標區(qū)域或通過CNN 區(qū)分圖像是否篡改時,網(wǎng)絡(luò)的深度都至關(guān)重要。本文通過三類典型的CNN 比較,可以看出LKA 模塊能夠有效拓展網(wǎng)絡(luò)深度,從而優(yōu)化算法。
表4 為不同網(wǎng)絡(luò)的層數(shù)的消融實驗,層數(shù)通過原始基干網(wǎng)絡(luò)乘以膨脹系數(shù)得出。對比的網(wǎng)絡(luò)如下:
表4 不同層數(shù)下各網(wǎng)絡(luò)的精度對比Tab.4 Comparison of accuracy of different networks under different layers
殘差網(wǎng)絡(luò)(Residual Network,ResNet)[32]:作為經(jīng)典的深度學習網(wǎng)絡(luò)結(jié)構(gòu),通過引入殘差連接解決了深層網(wǎng)絡(luò)訓練中的梯度消失和梯度爆炸問題。
ShuffleNet[33]:輕量級的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu),通過分組卷積、逐點卷積以及通道重排等操作提高模型的計算效率和并減少內(nèi)存消耗。
RegNet[34]:作為一種通用型的網(wǎng)絡(luò)結(jié)構(gòu),提供了一組網(wǎng)絡(luò)架構(gòu)計算規(guī)則,根據(jù)不同的計算資源和性能需求來設(shè)計網(wǎng)絡(luò)結(jié)構(gòu),從而提供高效的模型設(shè)計和計算資源利用。
通過以上3 種經(jīng)典網(wǎng)絡(luò)模型的消融實驗,定量分析LKA模塊的泛用性。
表5 為同一層數(shù)時層間重復次數(shù)的消融實驗,層間重復次數(shù)的比較以原始基干網(wǎng)絡(luò)為中間節(jié)點:上限為盡量保持前4 層網(wǎng)絡(luò)架構(gòu),修改后兩層;下限為盡量保持后兩層網(wǎng)絡(luò)架構(gòu),在確定上下限及圖像復制-粘貼篡改檢測任務的前提條件下,利用折半查找最終得到最優(yōu)的基干網(wǎng)絡(luò)通道數(shù)量。
表5 同一層數(shù)時不同層間重復次數(shù)的精度對比Tab.5 Comparison of accuracy of different repetitions between layers under same number of layers
表6 為基干網(wǎng)絡(luò)通道數(shù)與原始網(wǎng)絡(luò)通道數(shù)之比與精度的關(guān)系。
表6 基干網(wǎng)絡(luò)不同通道數(shù)量的精度對比Tab.6 Accuracy comparison of different channel numbers in backbone network
實驗結(jié)果表明,LKA 模塊擴充了網(wǎng)絡(luò)的深度,不僅提高了算法的精度,并且提升了后續(xù)多尺度特征金字塔的定位性能,在實現(xiàn)網(wǎng)絡(luò)高檢測精度性能的同時極大降低了模型的理論計算量。
4.2.2 抗攻擊實驗及分析
為衡量網(wǎng)絡(luò)的魯棒性,使用Dataset[26]和MICC-F2000[27]數(shù)據(jù)集,共140 張圖片,其中70 張為篡改圖片,進行如下抗攻擊實驗。
1)圖像中的復制的片段以5°、30°、60°、90°、180°的旋轉(zhuǎn)角度旋轉(zhuǎn)。
2)圖像附加[2%,10%]的高斯噪聲,幅度為2%。
3)圖像按[20%,100%]的JPEG 壓縮系數(shù)進行壓縮,幅度為20%。
4)模糊攻擊,高斯模糊核大小依次為3、5、7、9、11。
5)圖像的復制的片段按50%、75%、120%、160%、200%的縮放系數(shù)進行縮放。
將本文算法與使用深度學習的相關(guān)算法進行對比,結(jié)果如圖6 所示。對比算法如下:
圖6 抗攻擊性能比較Fig.6 Comparison of anti-attack performance
1)EfficientNetV2[6]:通過使用復合縮放技術(shù)和改進的網(wǎng)絡(luò)結(jié)構(gòu),實現(xiàn)了更好的性能和計算效率。
2)BusterNet[13]:端到端的篡改檢測網(wǎng)絡(luò),采用雙分支結(jié)構(gòu),通過比較圖像相似度來識別源區(qū)域和目標區(qū)域。
3)文獻[14]算法:通過引入兩個串行構(gòu)建的子網(wǎng)絡(luò):拷貝移動相似性檢測網(wǎng)絡(luò)(CMSDNet)和源/目標區(qū)域區(qū)分網(wǎng)絡(luò)(STRDNet),以改進BusterNet 存在的問題。
4)Dense-InceptionNet[18]:作為一種輕量化圖像篡改復制-粘貼篡改檢測方案,利用多尺度信息和圖像所蘊含的稠密特征,結(jié)合特征相關(guān)匹配算法和后處理步驟實現(xiàn)精準定位與檢測。
5)文獻[35]算法:通過全分辨率信息從整個圖像中進行決策,并通過弱監(jiān)督學習與端到端訓練實現(xiàn)參數(shù)的聯(lián)合優(yōu)化,從而賦予模型優(yōu)異的表達能力。
從圖6 可以看出,本文算法總體上在5 類攻擊中取得較優(yōu)結(jié)果,表現(xiàn)更穩(wěn)定,通過原始EfficientNetV2 與改進后的網(wǎng)絡(luò)對比能夠發(fā)現(xiàn),LKA 模塊的引入使得網(wǎng)絡(luò)抵抗攻擊的能力明顯增強。
4.2.3 對比實驗
不同算法的性能對比如表7 所示。可以看出,本文算法和Dense-InceptionNet 算法[18]相比,在浮點運算量減小29.54%的基礎(chǔ)上,F(xiàn)1 提高了4.88%。
表7 不同算法的性能對比結(jié)果Tab.7 Performance comparison results of different algorithms
4.2.4 篡改檢測實驗及分析
為了檢測LKA-EfficientNet 算法的篡改檢測的能力,本文 在Dataset[26]、MICC-F2000[27]、COVERAGE[28]、MICCF600[29]這4 個數(shù)據(jù)集上進行泛化測試,不同算法的F1 如表8所示。通過4 個測試數(shù)據(jù)集中相關(guān)實驗結(jié)果說明本文算法具有良好的泛化性。
表8 不同算法在4個數(shù)據(jù)集上的F1結(jié)果對比Tab.8 Comparison of F1 results of different algorithms on four datasets
圖7 為本文提出的LKA-EfficientNet 算法的篡改檢測定位效果圖,白色表示源、目標區(qū)域,深色代表檢測區(qū)域。可以看出,本文算法能很好地利用多尺度信息,從而實現(xiàn)源區(qū)域與目標區(qū)域的定位。
圖7 本文算法的篡改檢測定位效果Fig.7 Effect of tamper detection and localization of the proposed algorithm
本文設(shè)計了一種結(jié)合多尺度特征金字塔和深度學習優(yōu)點、融合大核注意力卷積的輕量化圖像篡改定位算法LKAEfficientNet,利用深度學習實現(xiàn)端到端的圖像篡改檢測。首先利用大核注意力卷積塊獲取全局感受野,再利用基干網(wǎng)絡(luò)進行特征提取;然后通過金字塔特征提取器提取三層特征,通過匹配獲取可能的目標區(qū)域;最后,LKA-EfficientNet 利用三個候選匹配圖獲得交叉熵的組合,通過反向傳播進行更具細粒度的訓練。實驗結(jié)果表明,LKA-EfficientNet 優(yōu)于對比算法,在保持高檢測性能的同時降低了計算量。