亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于空域與頻域關(guān)系建模的篡改文本圖像檢測

        2022-06-24 02:34:22王裕鑫張博強謝洪濤張勇東
        網(wǎng)絡與信息安全學報 2022年3期
        關(guān)鍵詞:特征文本檢測

        王裕鑫,張博強,謝洪濤,張勇東

        (中國科學技術(shù)大學,安徽 合肥 230026)

        0 引言

        文本作為一種重要的信息傳播媒介,蘊含大量的重要敏感信息[1-3]。隨著篡改技術(shù)的發(fā)展,計算機可以自動將敏感內(nèi)容轉(zhuǎn)化為虛假信息,用于欺詐、營銷或其他非法目的。近年來,經(jīng)由深度學習篡改算法生成的文本圖像在互聯(lián)網(wǎng)上廣泛傳播[4-6],對多個領域產(chǎn)生了極大的負面影響[7-8],包括金融票據(jù)識別領域、證件識別領域、網(wǎng)頁內(nèi)容識別領域等。

        篡改文本檢測(TTD,tampered text detection)作為多媒體信息安全領域的一個新興研究方向,是指通過對文本圖像中紋理特征的分析,捕捉真實文本和篡改文本之間的紋理差異性,以確定文本圖像中文字區(qū)域的真?zhèn)涡?。如圖1所示,篡改文本檢測技術(shù)包含兩個步驟:文本定位和文本真?zhèn)涡澡b別。文本定位步驟需要對文本圖像內(nèi)容進行分析,定位出具有文本紋理特征的文本實例。真?zhèn)涡澡b別步驟需要對文本實例的紋理真?zhèn)涡赃M行分析,鑒別當前文本實例是否為篡改文本。

        圖1 篡改文本檢測任務流程Figure 1 The pipeline of tampered text detection task

        篡改文本技術(shù)研究領域已經(jīng)有較多公開發(fā)表的研究成果,而篡改文本檢測研究仍處于起步階段,未得到足夠重視。篡改文本檢測技術(shù)一方面能夠與篡改文本技術(shù)相抗衡,保護文本圖像內(nèi)容的真實性,保障網(wǎng)絡信息安全與人民財產(chǎn)安全;另一方面,篡改文本檢測技術(shù)能有效地反映篡改文本技術(shù)的性能,實現(xiàn)矛與盾的良性可持續(xù)發(fā)展。

        篡改文本檢測任務有兩個主要挑戰(zhàn)。① 局部紋理差異性捕捉困難。篡改文本與真實文本僅存在局部紋理差異。② 真實和篡改文本檢測精度平衡困難。相較傳統(tǒng)的文本檢測任務,篡改文本檢測任務需要進一步區(qū)分篡改和真實文本。由于真實和篡改文本分類難度不一致,訓練過程中網(wǎng)絡無法平衡兩類的學習過程,導致在測試過程中兩類檢測精度差異較大。上述挑戰(zhàn)極大地限制了篡改文本檢測方法的性能。因此,如何準確地捕捉局部紋理差異性,同時平衡篡改和真實類別學習難度,是目前篡改文本檢測研究的重要方向。

        本文提出一種基于空域和頻域(RGB and frequency)關(guān)系建模的篡改文本檢測方法。為了準確地捕捉局部紋理差異性,引入頻域特征以增強對篡改紋理的鑒別能力。此外,采用全局空頻域關(guān)系模塊建模文本實例之間的紋理真?zhèn)涡躁P(guān)系,通過參考同幅圖像中其他所有文本區(qū)域的空頻域特征輔助當前文本實例的真?zhèn)涡澡b別,平衡篡改和真實類別的學習難度。進一步地,為了驗證本文方法的性能,同時為今后的篡改文本檢測方法提供評估基準,本文提出一個新的票據(jù)篡改文本圖像數(shù)據(jù)集。

        1 相關(guān)工作

        早期的圖像篡改檢測方法主要針對不同的篡改手段設計對應的檢測算法,常見的有復制粘貼檢測、拼接檢測等。Fridrich等[9]在2003年提出一種檢測復制粘貼篡改手段的方法,利用離散余弦變換(DCT,discrete cosine transform)對圖像塊進行分類,并且結(jié)合字典排序,解決了計算量大的問題。基于矩不變量的復制粘貼檢測算法[10]和基于關(guān)鍵點SIFT特征的復制粘貼檢測算法[11]對旋轉(zhuǎn)縮放等處理具有魯棒性。Farid[12]利用JPEG(joint photographic experts group)壓縮特性的不一致性,檢測原始圖片和經(jīng)過拼接的篡改圖片的JPEG壓縮特性,根據(jù)其差異性進行篡改檢測。

        1.1 文檔圖像篡改檢測

        常見的文檔篡改操作包括文檔區(qū)域復制移動、文檔拼接以及像素級的更改篡改字符區(qū)域等。文檔篡改檢測的一系列研究方法針對篡改操作所導致的缺陷展開。早期的文檔篡改檢測主要通過打印機分類和識別技術(shù)以確定在文檔生成過程中所使用的硬件類型[13-15],這些方法利用了不同源類型之間所選特性的顯著差異性,但它們無法檢測到文檔圖像內(nèi)部復制粘貼和重打印偽造操作的痕跡??紤]到原始文檔經(jīng)機器重打印、掃描或經(jīng)文字編輯軟件處理之后,會存在不均勻的垂直尺度問題,文獻[16]利用內(nèi)在文檔元素特性,通過自動識別同一來源不同文檔之間保持靜態(tài)一致的模板區(qū)域來衡量文檔內(nèi)容的真實性,從而檢測同源文檔中的篡改操作。

        在大多數(shù)文檔圖像中,同一單詞或句子中所采用的字體大多一致。因此,一些工作通過關(guān)注字體識別[17-18]來進行篡改文本與真實文本的劃分。文獻[19]提出基于文檔字體特征的自動偽造檢測方法以檢測同一單詞內(nèi)部不同字體拼接篡改,其使用條件隨機場,通過分類字符字體及與鄰域字符字體類型進行對比,來區(qū)分真實字符區(qū)域和篡改字符區(qū)域。除使用字體屬性外,字符形狀和文本對齊等屬性也被用來檢測篡改文檔。文獻[20]采用行級一致性檢測的方式,基于統(tǒng)計模型,通過檢測文本行對齊與旋轉(zhuǎn)變化,來鑒別文檔中每行文本的真實性。與基于文本字體、排列、形狀布局等外觀特征進行區(qū)域鑒別的方式不同,文獻[21]采用基于支持向量機的分類方式進行篡改文檔檢測,利用局部二值模式特征描述算子(LBP)捕獲篡改區(qū)域的可分辨紋理特征,以尋找文檔圖像內(nèi)在特征不一致性。文獻[22]將自然場景圖像篡改檢測任務中基于圖像塊的重復項檢測方法遷移到掃描文檔篡改區(qū)域檢測任務中,探索特定閾值和參數(shù)影響下基于圖像塊的檢測方法對復制移動到文檔的偽造文本的檢測性能。

        相較上述使用人工設計的特征及評分方式,以數(shù)據(jù)為驅(qū)動的基于深度學習的篡改文檔檢測方法獲得了更好的檢測性能。文獻[23]將拼接檢測問題定義為圖節(jié)點分類問題,通過光學字符識別(OCR)技術(shù)獲取文檔圖像中文本塊的位置及內(nèi)容,并基于此結(jié)果構(gòu)建圖神經(jīng)網(wǎng)絡。具體地,該方法以各文本塊為圖節(jié)點,節(jié)點間的連接與否由檢測框距離決定,基于預訓練過的變分自動編碼器對文檔圖像進行特征提取,進而引入圖注意力機制捕獲更強的文本塊上下文特征,以提升分類準確度。上述方法僅在RGB域捕獲淺層語義特征差異,然而篡改操作通常會留下高頻痕跡,此類高頻信息很難在RGB域中被捕獲。因此,本文方法通過引入頻率特征并將其與RGB域特征融合來增強網(wǎng)絡對篡改紋理的鑒別能力,同時使用關(guān)系模塊對篡改類別與真實文本類別進行關(guān)系建模,平衡真實文本和篡改文本的學習難度,實現(xiàn)精確度更高的篡改文本檢測。

        1.2 頻域信息在篡改檢測中的應用

        隨著圖像偽造技術(shù)手段的進一步提升,篡改檢測方法已經(jīng)難以從視覺上檢測出圖像是否被篡改。因此,越來越多的研究轉(zhuǎn)向引入更多的信息和先驗知識[24-25]作為篡改檢測的輔助信息。

        在難以從視覺圖像中獲取有效偽造線索的情況下,有研究[26-28]發(fā)現(xiàn),原圖和相應篡改后的圖像在頻域上相同位置特征不一致。因此,圖像的頻域信息對于準確的篡改檢測至關(guān)重要。在面部偽造檢測中,由于背景、性別、年齡、偽造方法的多樣性,基于固定的頻域信息提取方法不足以從頻域中捕捉細微的偽造模式[26],因此,文獻[27]引入兩種提取頻域特征的方法FAD(frequency- aware decomposition)和LFS(local frequency statistics),并設計了一個融合模塊來融合雙流網(wǎng)絡的特征,從而在頻域內(nèi)實現(xiàn)對面部偽造圖像視頻的檢測。這種方法將傳統(tǒng)學習和深度學習結(jié)合,在低質(zhì)量的偽造圖片檢測上取得了不錯的結(jié)果。文獻[28]提出新穎的頻率感知判別特征學習框架來進行篡改鑒別,利用自適應的頻率特征生成模塊以數(shù)據(jù)驅(qū)動的方式挖掘頻率線索,從而避免使用太多不全面的先驗知識,同時結(jié)合度量學習,提出單中心損失來學習更多的判別特征,進一步提高模型的篡改檢測能力。

        上述頻域信息的捕獲主要針對人臉或其他非文本目標區(qū)域。由于文本獨特的性質(zhì),直接使用上述頻域信息提取方式會限制篡改文本檢測器的性能,因此需要針對文本特性,設計符合文本特性(如局部存在、長寬比例變化大)的頻域特征提取器。

        2 方法設計

        2.1 概述

        本文提出的基于空頻域關(guān)系建模的篡改文本檢測方法有以下幾點貢獻。

        (1)創(chuàng)新性地在篡改文本檢測任務中引入頻域信息增強篡改紋理特征,通過同時捕捉空域和頻域的信息提升網(wǎng)絡對局部紋理差異性的鑒別能力。

        (2)全局空頻域關(guān)系模塊提供了一種簡潔、有效的平衡篡改和真實類別學習難度的方法,通過建模全局文本實例之間的空頻域特征關(guān)系,借助其他文本實例空頻域信息來輔助鑒別當前文本實例的真?zhèn)涡?,幫助網(wǎng)絡更好地平衡真實和篡改文本的學習難度,提升檢測精度。

        基于空域和頻域關(guān)系建模的篡改文本檢測方法流程如圖2所示。本文采用兩階段目標檢測的框架,包含文本區(qū)域建議框的生成、文本區(qū)域建議框微調(diào)、文本幾何預測和文本真?zhèn)涡澡b別。文本區(qū)域建議框微調(diào)僅在測試過程使用,用于微調(diào)文本區(qū)域建議框的位置,提升檢測器對多尺度文本的檢測能力。首先,輸入圖像經(jīng)過主干網(wǎng)絡提取空域特征,同時通過離散余弦變換提取頻域特征。其次,通過空域特征結(jié)合區(qū)域建議網(wǎng)絡(RPN,region proposal network)生成文本候選框。然后,使用N個區(qū)域候選框?qū)ξ谋镜目沼蛱卣骱皖l域特征進行裁剪,通過感興趣區(qū)域?qū)R(RoI align)歸一化特征尺寸,再輸入全局空頻域關(guān)系模塊進行關(guān)系建模。最后,將全局空頻域關(guān)系模塊的輸出特征用于真?zhèn)涡澡b別和文本區(qū)域建議框微調(diào)。為了表示任意形狀文本,文本幾何預測分支采用基于輪廓點的分割算法,通過預測并連接文本區(qū)域輪廓點描述任意形狀文本。

        全局空頻域關(guān)系模塊的輸入為文本候選框的空域特征和頻域特征,文本候選框的空域特征直接通過對空域的特征進行裁剪得到。文本候選框頻域特征的獲取方式如下。① 將輸入圖像進行離散余弦變換得到頻域特征。如圖3所示,整個過程包含RGB圖像向YCbCr圖像轉(zhuǎn)變、DCT變換、幾何變換和級聯(lián)過程。② 通過三層卷積增強頻域特征的表達能力,同時與空域特征維度對齊。③ 采用空域特征得到的文本建議框,對頻域特征中的對應區(qū)域進行裁剪,生成對應文本候選框的頻域特征。相較人臉篡改檢測的頻域信息獲取,本文方法能夠捕捉到局部紋理的頻域特征,通過結(jié)合文本區(qū)域建議框的多尺度特性,提取符合文本特征的局部、多尺度頻域特征。

        圖3 DCT過程Figure 3 The process of DCT

        2.2 全局空頻域關(guān)系模塊

        若簡單地根據(jù)當前文本候選框內(nèi)的特征進行紋理真?zhèn)涡澡b別,由于缺乏全局信息的感知能力,將導致網(wǎng)絡無法平衡真實和篡改文本類別的學習難度,從而在測試過程中兩類的檢測精度差異較大,造成檢測精度不平衡的問題。為了捕獲全局信息輔助當前文本候選框的真?zhèn)涡澡b別,本文提出全局空頻域關(guān)系模塊,通過感知當前文本候選框與其他文本候選框的空頻域特征相似性,平衡真實和篡改類別的學習難度。

        全局空頻域關(guān)系模塊結(jié)構(gòu)如圖4所示,主要包含兩個部分:融合模塊和關(guān)系模塊。首先,輸入文本候選框的空域特征和頻域特征并通過融合模塊進行特征融合。然后,將融合后的特征輸入關(guān)系模塊,建模不同文本候選框之間的空頻域特征相似性。

        圖4 全局空頻域關(guān)系模塊結(jié)構(gòu)Figure 4 The structure of global RGB-frequency relationship module

        在關(guān)系模塊中,首先采用通道注意力機制控制空域和頻域的信息表達。通道注意力機制如圖5所示,輸入特征通過池化和全連接層獲得通道注意力圖,然后通過通道注意力圖控制不同通道的特征表達。基于通道注意力機制的信息增強方法有效地解決了空域和頻域特征之間的特征異質(zhì)性問題,針對不同的文本候選框,自適應地考慮不同域的信息,提升特征的表達能力。然后,使用池化操作將通道注意力機制輸出特征的尺寸變?yōu)镹×512×2×2,并通過展開操作將特征尺寸變換為N×2048。最后,采用自注意力機制(self-attention),融合其他文本候選框的空頻域特征對當前文本候選框的空頻域特征增強。自注意力機制的計算方法如式(1)所示。

        圖5 通道注意力機制Figure 5 The channel attention mechanism

        其中,finput是輸入特征,d是輸入特征k的通道數(shù),Wq、Wk、Wv是可學習的參數(shù)。在自注意力機制中,首先計算當前文本框和其他文本框空頻域特征的相似性;然后通過相似性矩陣,在每個文本框空頻域特征中,融合其余文本框的空頻域特征。因此,全局空頻域關(guān)系模塊有效地通過感知全局的空頻域信息,輔助當前文本框的真?zhèn)涡澡b別,平衡真實和篡改文本檢測的學習難度。

        2.3 文本幾何預測模塊

        在文本幾何預測模塊中,采用預測輪廓點分割圖表示任意形狀文本。由于分割過程易受假陽性背景噪聲點的影響(如柵格、波浪線等),本文參考了ContourNet[1]中正交紋理感知模塊結(jié)構(gòu)和正交融合操作。

        首先,將RoI align后的特征圖上采樣,感知細節(jié)紋理特征。然后,使用兩個正交卷積核捕捉水平和垂直方向上的紋理,預測兩個方向上具有文字紋理響應的輪廓點。在訓練過程中,將兩個正交輪廓點分割圖的損失函數(shù)相加,作為文本幾何預測模塊的學習目標。在測試過程中,首先,使用正交的卷積核分別感知水平和垂直方向上的紋理;然后,使用0.5閾值過濾正交輪廓點分割圖,得到輪廓點候選集合;最后,采用正交融合操作[1]抑制背景的假陽性噪聲點,生成最終文本輪廓點,通過連接最終文本輪廓點,實現(xiàn)任意形狀文本的檢測。

        2.4 網(wǎng)絡優(yōu)化指標

        基于空頻域關(guān)系建模的篡改文本檢測網(wǎng)絡優(yōu)化指標由4個部分組成:文本區(qū)域建議網(wǎng)絡損失函數(shù)(Lrpn)、真?zhèn)涡澡b別損失函數(shù)(Lcls)、文本區(qū)域建議框微調(diào)損失函數(shù)(Lref)與文本幾何預測損失函數(shù)(Lgeo)。整體的損失函數(shù)如式(5)所示。

        在文本區(qū)域建議網(wǎng)絡損失函數(shù)部分,本文采用交并比(IoU)優(yōu)化指標,通過計算預測文本候選框和標簽文本候選框的IoU,并優(yōu)化IoU指標來指導文本區(qū)域建議網(wǎng)絡對文本粗定位的學習。如式(6)所示,其中P和G分別是預測框和標簽框,Lcross_entropy為交叉熵損失函數(shù)。

        在真?zhèn)涡澡b別損失函數(shù)部分,本文采用交叉熵損失函數(shù)優(yōu)化分類網(wǎng)絡。在文本建議框微調(diào)損失函數(shù)部分,本文借鑒Mask r-CNN[29],采用smoothL1損失函數(shù)優(yōu)化微調(diào)層。smoothL1損失函數(shù)如式(7)所示。

        在文本幾何損失函數(shù)部分,本文參考了ContourNet[1],通過平衡的交叉熵損失函數(shù)指導文本幾何預測的學習。

        其中,Nneg和Npos表示負樣本和正樣本個數(shù),yi和pi表示標簽和預測樣本,N表示正負樣本的總和。

        3 篡改文本數(shù)據(jù)集制作

        本文提出的票據(jù)篡改文本圖像數(shù)據(jù)集(Tampered-SROIE)是通過對當前主流的SROIE票據(jù)數(shù)據(jù)集中文本圖像篡改得到的[30]。SROIE數(shù)據(jù)集公布于ICDAR2019掃描收據(jù)光學字符識別和信息提?。╯canned receipts OCR and information extraction)挑戰(zhàn)賽。該數(shù)據(jù)集有986幅完整的掃描收據(jù)圖像,其中訓練圖像626幅,測試集360幅。數(shù)據(jù)集文本內(nèi)容主要由數(shù)字和英文字符組成,文本位置標注為文本矩形包圍框的4個角點坐標。特別地,該數(shù)據(jù)集中一些票據(jù)紙張墨水和印刷質(zhì)量較差,且存在掃描失真、折疊等干擾因素,這使在其上開展的篡改文本檢測任務更具挑戰(zhàn)。

        本文所提出的篡改數(shù)據(jù)集Tampered-SROIE的制作包括兩個步驟。1) 成對篡改文本的選取。本文對SROIE中每幅圖像隨機挑選包含數(shù)字且不包含字母的文本實例進行篡改,并選擇1/2至1/3數(shù)量文本實例作為篡改對象(源字串),同時保證每幅圖像至少篡改一個文本實例。為了增加篡改文本的多樣性, 源字串對應的篡改字串通過隨機生成,并使1/3數(shù)量篡改字串的長度增加一位。2) 篡改操作。本文使用SRNet[31]進行文本篡改。為了訓練一個強大的篡改網(wǎng)絡,本文基于準備好的源篡改詞對生成5萬對合成訓練樣本,并在1張2080Ti GPU上進行10萬次迭代訓練。本文使用篡改對象的標簽包圍框來裁剪SROIE圖像中的文本實例圖像,并使用訓練后的SRNet生成篡改文本實例圖像,隨后將篡改后的文本實例圖放回原始圖像中相應位置。

        在Tampered-SROIE訓練集的10 251個數(shù)字文本實例中有3 947個被標記為篡改類,在測試集的5 829個數(shù)字文本實例中有2 251個被標記為篡改類。Tampered-SROIE數(shù)據(jù)集的可視化結(jié)果如圖6所示。Tampered-SROIE篡改文本圖像質(zhì)量較高,能夠有效反映篡改文本檢測方法的檢測性能。

        圖6 Tampered-SROIE數(shù)據(jù)集可視化(左:原始圖像;右:篡改圖像;紅框:篡改文本;綠框:真實文本)Figure 6 The visualization of Tampered-SROIE dataset(left: origin image; right: tampered image; texts in red box: tampered texts; texts in green box: real-world texts)

        4 實驗分析

        4.1 實驗設置

        本文在一張2080Ti顯卡上部署網(wǎng)絡模型,并使用隨機梯度下降法(SGD)優(yōu)化網(wǎng)絡參數(shù)。在訓練過程中,使用多尺度數(shù)據(jù)增廣提升網(wǎng)絡對多尺度文本的擬合能力。具體地,將長邊固定為2 000,短邊選擇400、600、720、1 000、1 200對圖像進行等比例縮放。測試過程中,將圖像縮放到1 200×2 000進行預測。非極大值抑制算法在測試過程中用于濾除冗余的檢測結(jié)果。

        4.2 評估指標

        本文采用召回率、準確率、F值評估真實文本和篡改文本的檢測結(jié)果。F值的計算方式如式(9)所示。

        為了評估真實類別和篡改類別檢測精度不平衡性,本文進一步引入Gap-F。Gap-F值為真實類別和篡改類別F值的差,Gap-F的計算方式如式(10)所示。

        召回率、準確率、F值和Gap-F評估指標能有效地反映篡改文本檢測方法的檢測性能,從多方面反映真實和篡改文本檢測效果。

        4.3 全局空頻域關(guān)系模塊消融實驗

        通過部署全局空頻域關(guān)系模塊,篡改文本檢測模型能夠感知全局空頻域關(guān)系以輔助當前文本框真?zhèn)涡耘袛啵行У仄胶獯鄹暮驼鎸嵨谋镜膶W習難度。全局空頻域關(guān)系模塊的消融實驗結(jié)果如表1所示,相較不使用全局空頻域關(guān)系模塊的方法,本文方法有效提升了網(wǎng)絡在真實類別和篡改類別的檢測精度。具體地,針對真實文本,召回率、準確率、F值提升分別為2.58%、0.08%、1.35%;針對篡改文本,召回率、準確率、F值提升分別為0.08%、0.12%、0.11%。進一步地,通過平衡真實類別和篡改類別的學習難度,本文方法降低了真實類別和篡改類別之間的檢測性能差距(1.96%和0.72%)。

        全局空頻域關(guān)系模塊有效解決了真實類別和篡改類別檢測精度不平衡的問題。在篡改文本檢測任務中,本文證明了該不平衡問題是由于全局信息感知能力缺失所導致的:因為無法參考其他文本實例的紋理真?zhèn)涡裕瑢е抡鎸嵑痛鄹奈谋镜膶W習難度無法平衡。得益于本文全局空頻域關(guān)系模塊的簡潔性和有效性,該模塊能夠方便地移植到其他篡改文本檢測算法中,同時能夠通過增強每個子模塊的性能,進一步提升網(wǎng)絡對篡改文本的鑒別能力。

        雖然手動調(diào)節(jié)真實和篡改文本損失函數(shù)能夠一定限度上緩解檢測精度不平衡的問題,但是針對不同的檢測方法,檢測精度不平衡是無法預先確定的。如表2所示,EAST[32]和ATRR[33]分別傾向于對篡改文本和真實文本具有更好的檢測性能。這表明基于人工的損失函數(shù)調(diào)節(jié)是煩瑣的,同時損失函數(shù)的系數(shù)改變會引入更多不確定性,因此很難調(diào)節(jié)到最優(yōu)的檢測性能。但本文提出的全局空頻域關(guān)系模塊是可學習的,經(jīng)過實驗證明,該模塊能夠自適應地緩解檢測精度不平衡問題,實現(xiàn)更加魯棒的平衡過程。

        4.4 頻域信息消融實驗

        通過對頻域信息的感知,本文方法能夠更好地捕捉局部紋理的差異性。如表1所示,通過融合空域和頻域的特征,本文方法將真實文本和篡改文本的檢測精度提升到一個新的高度。具體地,在真實文本和篡改文本類別上,檢測的F值分別達到95.97%和96.80%。進一步分析表1中的結(jié)果,雖然頻域信息的引入導致網(wǎng)絡Gap-F指標略微升高(0.11%),但是針對篡改和真實文本的精度提升仍然是可觀的。因此,本文總結(jié)Gap-F性能的略微下降原因為:頻域信息的引入極大地增強了篡改文本類別的檢測性能,使篡改文本檢測精度相較真實文本檢測精度增長速度更快(F值增長:真實0.18%和篡改0.29%),從而導致Gap-F性能略微下降。

        表1 消融實驗結(jié)果(GRM表示全局空頻域關(guān)系模塊)Table 1 The result of ablation study (GRM is the global RGB-frequency relationship module)

        值得注意的是,本文通過多尺度的文本區(qū)域建議框?qū)︻l域特征進行裁剪,相較一般的頻域信息提取,本文所引入的頻域特征提取過程是符合文本的局部存在和多尺度特性的。因此,該方法能夠廣泛適用于篡改文本檢測模型,通過提取符合文本特性的頻域信息,提升檢測模型對篡改紋理特征的鑒別能力。同時,本文的頻域信息提取方式為今后篡改文本檢測模型引入額外信息輔助檢測提供參考,即可以通過文本區(qū)域建議框裁剪的形式,引入符合文本特性的輔助信息幫助提升模型檢測性能。

        4.5 實驗結(jié)果

        為了展現(xiàn)本文方法的有效性,本文從單階段和兩階段分別選取了最具代表性的方法進行性能對比。具體地,本文復現(xiàn)了EAST[32]和 ATRR[33]方法,模型配置和訓練細節(jié)參考EAST和ATRR論文原文進行部署。為了將傳統(tǒng)文本檢測算法向篡改文本檢測任務遷移,本文引入額外的文本分類操作對上述傳統(tǒng)文本檢測算法的文本定位過程進行了改動。例如,在EAST中,將原始的中心區(qū)域預測圖分為真實文本中心預測圖和篡改文本中心預測圖,并分別對兩個中心文本預測圖進行優(yōu)化;對于文本幾何預測過程,本文對真實和篡改文本共享文本幾何預測圖。

        實驗結(jié)果如表2所示,本文方法在真實文本和篡改文本上都展現(xiàn)了領先的檢測水平。相較同為兩階段的檢測算法[33],本文提出的基于空頻域關(guān)系建模的篡改文本檢測方法在真實文本和篡改文本檢測精度上都取得了更好的效果,同時可以有效解決檢測精度不平衡問題,防止篡改檢測網(wǎng)絡實現(xiàn)對單一類文本的準確檢測。

        表2 Tampered-SROIE實驗效果Table 2 The experiment result on Tampered-SROIE

        通過對實驗結(jié)果的進一步分析發(fā)現(xiàn),檢測精度不平衡問題普遍存在于篡改文本檢測算法(|Gap-F|指標在EAST和ATRR算法分別為2.99%和2.37%),且該不平衡性呈現(xiàn)隨機出現(xiàn)的特點,即檢測精度可能出現(xiàn)向真實文本或篡改文本傾斜的情況。本文通過對全局信息的感知,捕獲全局真?zhèn)涡孕畔?,有效地解決了該不平衡問題,且本文可學習的平衡方式能夠更好地幫助網(wǎng)絡同時提升真實文本和篡改文本的檢測精度,使兩類文本的檢測性能都達到最好的效果。

        另外,本文將檢測結(jié)果進行了可視化。如圖7所示,相較EAST[32]和 ATRR[33],本文的篡改文本檢測方法能夠更準確地區(qū)分篡改和檢測文本,同時生成更加緊致的文本包圍框,因此在實際應用場景中,本文所提出的篡改文本檢測算法更具有實用價值。

        圖7 檢測結(jié)果可視化Figure 7 The visualization of detection results

        5 結(jié)束語

        本文提出了一種基于空頻域關(guān)系建模的篡改文本檢測方法,在高質(zhì)量篡改文本圖像中,通過引入頻域信息同時建模不同文本實例之間的空頻域特征關(guān)系,實現(xiàn)準確的篡改文本檢測。雖然對傳統(tǒng)文本檢測方法的簡單修改能夠適用于篡改文本檢測任務,但本文實驗證明,篡改文本檢測任務中局部紋理差異性感知困難和檢測精度平衡困難問題極大地限制了篡改文本檢測算法性能。

        此外,本文所提出的思想可以擴展到其他篡改文本檢測算法中,通過直接使用或者簡單修改文中的模塊,可以實現(xiàn)篡改文本檢測精度的顯著提升,這為篡改文本檢測技術(shù)的相關(guān)研究提供了新的方向和思路。

        猜你喜歡
        特征文本檢測
        “不等式”檢測題
        “一元一次不等式”檢測題
        “一元一次不等式組”檢測題
        如何表達“特征”
        在808DA上文本顯示的改善
        不忠誠的四個特征
        當代陜西(2019年10期)2019-06-03 10:12:04
        基于doc2vec和TF-IDF的相似文本識別
        電子制作(2018年18期)2018-11-14 01:48:06
        抓住特征巧觀察
        小波變換在PCB缺陷檢測中的應用
        文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學隱喻
        国产一区二区av男人| 无码人妻少妇色欲av一区二区| 久久久久亚洲av无码尤物| 日本色偷偷| 亚洲精彩av大片在线观看| 射精区-区区三区| 夜夜嗨av一区二区三区| 一区二区三区内射视频在线观看| 日韩精品一区二区三区av| 国产精品18久久久白浆| www插插插无码视频网站| 四虎欧美国产精品| 人妻熟女中文字幕在线视频| 中文字幕乱码在线人妻| 孕妇特级毛片ww无码内射| 久久99欧美| 国产成版人性视频免费版| 亚洲视频网站大全免费看| 亚洲av日韩综合一区在线观看| 在线观看av手机网址| av网站韩日在线观看免费| 黑人巨大精品欧美| 日韩精品无码免费专区网站| 国产精品国产三级国产av创| 亚洲成人av大片在线观看| 国产精品福利一区二区| 又黄又爽的成人免费视频| AV在线毛片| 亚洲人成网站色在线入口口| 超清精品丝袜国产自在线拍| 免费无码又爽又刺激高潮的视频网站 | 久久精品女人天堂av| 亚洲中文字幕巨乳人妻| 国产亚洲精品一品二品| 欧美狠狠入鲁的视频777色| 亚洲欧美日韩国产一区| 女同视频网站一区二区| 成人午夜高潮a∨猛片| 老头巨大挺进莹莹的体内免费视频 | 国产亚洲精品hd网站| 国产一区二区三区青青草|