王海彬+傅濤
摘要:本文旨在針對抗打印掃描紙質(zhì)文檔信息隱藏和檢測開展研究,重點討論了文本信息保真技術,二次圖像校正技術和基于字符歐拉數(shù)和格式調(diào)整相結(jié)合的文本信息隱藏技術,為實現(xiàn)對紙介質(zhì)文件泄密溯源提供了基礎。
關鍵詞:紙介質(zhì)文件;溯源;信息隱藏;盲檢測
中圖分類號:TP393.08 文獻標識碼:A DOI:10.3969/j.issn.1003-6970.2016.03.014
0引言
隨著數(shù)字化技術的迅猛發(fā)展,目前許多行業(yè)和個人普遍都使用電子文檔處理資料和保存信息,并且常常通過打印、復印等途徑將電子文檔中的內(nèi)容顯現(xiàn)在紙張上,以供閱讀和傳播。但是,對于涉及密性信息(如合同、財務等重要文檔)的企事業(yè)單位,很多重要信息或者機密信息很可能通過這些紙質(zhì)文檔而泄漏出去。因此,需要采取一些安全保密措施來防止通過打印、復印等操作而生成的紙質(zhì)文檔所造成的文檔信息泄密。然而,隨著各單位的業(yè)務量逐漸增加,單位規(guī)模的不斷擴大以及人員數(shù)目的日益增加,各種管理的成本和難度都隨著增大,管理員很難及時掌握單位內(nèi)部的文檔打印情況,這在一定程度上給安全保密措施帶來了挑戰(zhàn),增加了重要文檔信息泄密的可能。并且,對于打印后的紙質(zhì)文檔及其復印件,往往由于缺乏文檔溯源追蹤信息,而導致無法確定文檔打印的源頭和對打印內(nèi)容進行審計,造成紙質(zhì)文檔的隨意打印、有意或無意的非法傳播,進一步加大了文檔打印管控的難度。因此,研究電子文檔的打印過程管理和控制、文檔溯源追蹤和內(nèi)容審計是一個重要的且具有挑戰(zhàn)的課題。
本文旨在針對抗打印掃描紙質(zhì)文檔信息隱藏和檢測技術開展研究,實現(xiàn)電子文檔在打印時能夠嵌入不可見密級標志、收發(fā)文單位等編碼信息的信息隱藏技術以及紙質(zhì)文件隱藏信息提取系統(tǒng),實現(xiàn)對紙介質(zhì)文件泄密溯源。
1當前研究現(xiàn)狀
近年來,除了針對圖片、音視頻的數(shù)字水印技術得到很快的發(fā)展之外,國內(nèi)外對于電子文檔在打印時嵌入隱藏信息的水印技術研究、紙質(zhì)文檔隱藏信息抗掃描打印等攻擊的魯棒性研究以及相應的提取方法研究已經(jīng)取得了一些成果。目前常見的紙質(zhì)文本信息隱藏方法分為以下兩種:
1.1基于文本格式的信息隱藏方法
基于文本格式的信息隱藏方法是早期數(shù)字水印的研究方法,嵌入的水印信息都在空間域中,典型的算法有行間距編碼、字間距編碼和特征編碼。這類算法的基本思想就是在不改變文本內(nèi)容的前提下,對文檔格式做輕微的調(diào)整,以此來嵌入水印信息,如在行間距編碼中,上移某行,隱藏“1”;下移某行,隱藏“0”。這類算法的最大弱點就是隱藏的信息與載體內(nèi)容無關,只與載體的格式相關,嵌入的水印信息很難抵抗如格式調(diào)整,刪除文本段落等攻擊。近些年來興起的水印嵌入方法,嵌入的水印信息也大都在空間域,也有一些水印是嵌入在變換域中的。典型的算法有根據(jù)文本內(nèi)容做同義詞替換、根據(jù)自然語言特征對特定的句式做變換,以此來嵌入水印信息。這類算法的優(yōu)點是隱藏信息與文本內(nèi)容緊密關聯(lián),水印的安全性較好。如Bmssil等人提出了基于文本格式微調(diào)的方法進行水印的嵌入。該算法利用文本文件的特點,通過調(diào)整文本格式,如字符間距、文本行間距進行水印的嵌入,視覺效果良好,且有一定的魯棒性。基于文本文檔的數(shù)字水印實現(xiàn)簡單,但缺點是由于不同格式的文本的格式不統(tǒng)一,因此對不同格式的文檔需要采用不同的嵌入方式。另外,由于文檔是以原格式存在,且為可編輯的,因此水印容易受到攻擊。該算法雖視覺效果良好,但無法抵抗文本格式變化的攻擊,且基于行移的文本水印算法信息量少,無法滿足對泄密者身份的追蹤。
1.2基于文本圖像的信息隱藏方法
該方法是通過在文本圖像中添加數(shù)字水印來實現(xiàn)的。在文檔打印時,需要首先將待打印文檔轉(zhuǎn)化為文本圖像格式,然后在文本圖像中完成數(shù)字水印的嵌入。在該算法中,所有文檔在數(shù)字水印嵌入之前需要具有相同的格式,即數(shù)字水印嵌入在相同格式的文檔存在,因此,在數(shù)字水印嵌入前有時必須做文檔格式轉(zhuǎn)換,增加了復雜度?;谖谋緢D像數(shù)字水印的算法按照變換域可以分為以下兩種:
1)空間域方法:該類算法包括LSB水印算法、Patchwork算法和文檔格式微調(diào)法。格式微調(diào)法主要是通過調(diào)整文本字符的某些幾何特征,如字符的筆畫、質(zhì)心等實現(xiàn)水印的嵌入。代表性的研究成果包括:卞文法等人通過將打印掃描過程對文本圖像的影響等同于一個卷積過程,經(jīng)計算得到文本圖像在打印掃描俞后的不變量,通過對該不變量進行調(diào)整完成數(shù)字水印的嵌入,該算法水印容量較大,視覺效果良好;李剛等針對二值文檔印刷圖像提出了基于文字區(qū)域嵌入水印的方法,將文字分割成若干個區(qū)域,并以區(qū)域中的0/1比率作為特征量來決定水印的數(shù)值。將信息直接疊加到圖像的空間域上的算法叫空間域數(shù)字水印算法。LSB水印算法是將信息嵌入到隨機選擇的圖像點中最不重要的像素位(LSB:Least Significant Bits)上,這可保證嵌入的水印是不可見的。但是由于使用了圖像不重要的像素位,算法的魯棒性差,水印信息很容易被濾波、圖像量化、幾何變形的操作破壞。另外一個常用方法是Patchwork算法,它的基本原理是在不影響圖像主觀質(zhì)量的前提下,通過改變圖像的統(tǒng)計特性來實現(xiàn)水印的嵌入。首先將圖像分成兩個子集,其中一個子集的亮度增加,另一個子集的亮度減少同樣的量,這個量以不可感知性為標準,整個圖像的平均灰度值保持不變,在這個調(diào)整的過程中完成水印的嵌入。適當?shù)卣{(diào)整參數(shù),Patchwork方法對JPEG壓縮、濾波以及圖像裁剪有一定的抵抗力,但該方法嵌入的信息量有限。
2)頻率域方法:基于DCT、DWT變換文本水印算法。該類算法主要是通過對文本圖像進行變換后對變換域中各分量的系數(shù)進行調(diào)整完成水印的嵌入。該類算法具有視覺效果好,魯棒性強的優(yōu)點。研究成果如:宋玉杰等針對彩色圖像采用CIELab色彩空間,通過在圖像的DCT系數(shù)上線性運算實現(xiàn)水印嵌入,并指出通過多次重復實驗該算法嵌入的水印可以用來判斷是經(jīng)過一輪印刷掃描(正版)還是兩輪印刷掃描(盜版);張靜等研究了傅立葉變換的旋轉(zhuǎn)、縮放、剪切等特點,較早開展了脆弱水印的研究,并在傅立葉變換系數(shù)的log-polar map或log-log map中嵌入水印來抵抗打印掃描攻擊。T.Mizumoto等提出了一種基于小波變換的私有水印和公開水印算法。將圖像和待嵌入的水印信息分別做小波分解,根據(jù)視覺特性進行數(shù)據(jù)融合,此方法在提取水印時需要原始圖像。
2研究內(nèi)容
本文將研究基于文本圖像和文本格式相結(jié)合的紙質(zhì)文檔信息隱藏和提取算法,主要包括以下方面:
2.1文本信息保真技術
文本圖像在打印掃描過程中受打印機和掃描儀的分辨率影響,包含多次不均勻的采樣和量化操作,可能存在的信息丟失。如何保證文本圖像的信息量,尤其是水印信息,是本文需要解決的技術難點之一。
針對不同格式電子文檔和不同分辨率打印機和掃描儀,本項目擬采用基于文本圖像和文本格式相結(jié)合的紙質(zhì)文檔信息隱藏方法。該方法在文檔打印前首先將電子文檔轉(zhuǎn)換成文本圖像或統(tǒng)一格式的文檔,如jpg圖像,pdf文檔等,然后進行信息隱藏,從而解決不同格式電子文檔的兼容性問題。
2.2二次圖像校正技術
打印掃描過程中,即文本圖像由數(shù)字文本圖像經(jīng)過模擬文本圖像再次轉(zhuǎn)變?yōu)閿?shù)字文本圖像的過程中可能會受到的幾何攻擊或者污損折疊等人為攻擊。因此如何對再次掃描成數(shù)字信號的文本圖像進行各種預處理和校正,是實現(xiàn)紙介質(zhì)文件準確溯源的重要基礎。
2.3基于字符歐拉數(shù)和格式調(diào)整相結(jié)合的文本
信息隱藏技術
針對傳統(tǒng)基于文本格式的信息隱藏信息量少且魯棒性弱問題,本文擬采用基于字符歐拉數(shù)和格式調(diào)整相結(jié)合的文本信息隱藏算法,該算法基于文本圖像的字符分割,但不同于傳統(tǒng)空間域文本水印算法依賴于文本的格式,該算法通過調(diào)整單個字符的特征量,即歐拉數(shù)進行水印的嵌入,并結(jié)合字移、行移等文本格式信息隱藏算法,可有效抵抗格式變換的攻擊,具有更強的魯棒性和隱藏信息容量,可有效抵抗文本的打印掃描攻擊。
3技術路線
本文擬采取基于文本圖像和文本格式相結(jié)合的紙質(zhì)文檔信息隱藏和提取方法。具體技術路線如下:
3.1格式轉(zhuǎn)換
為了提高信息隱藏算法對不同格式電子文檔的兼容性,本項目首先考慮將文本文檔轉(zhuǎn)換成文本圖像,具體技術路線為:通過特定的打印攔截技術攔截操作系統(tǒng)的打印任務,將系統(tǒng)打印的文檔轉(zhuǎn)換成文本圖像,并保存到系統(tǒng)的指定目錄下,然后調(diào)用水印算法模塊進行水印的嵌入。
該部分生效后,可在系統(tǒng)的打印機列表中構造一個新的打印機。從操作系統(tǒng)來看,該打印機為一臺真實打印機。事實上,該打印的實際功能是完成文件到圖片的轉(zhuǎn)換,當啟用正常的打印任務時,虛擬打印機會根據(jù)用戶設置的打印參數(shù)把要打印的文件打印成文檔圖像,輸出到指定的目錄。
3.2隱藏信息嵌入
為保證隱藏信息的魯棒性和容量,本文擬采用基于字符歐拉數(shù)和文本格式調(diào)整相結(jié)合的信息隱藏方法。陳海生等人提出的歐拉數(shù)信息隱藏是把圖像區(qū)域中孔數(shù)作為描述子,且這種描述子不受伸長、旋轉(zhuǎn)變換的影響,較其他圖像的特征或描述具有一定的穩(wěn)定性?;谧址麣W拉數(shù)的文本水印算法是通過字符歐拉數(shù)的奇偶量化來完成水印嵌入的,通過翻轉(zhuǎn)字符某個連通區(qū)域的部分像素點來調(diào)整字符歐拉數(shù)的奇偶。具體技術路線為:
1)對二值文本圖像進行圖像的預處理,處理后仍得到二值文本圖像。
2)對處理后的二值文本圖像進行字符的拆分。拆分包括先對行進行切分,后對每行進行字符拆分,最后獲得每個字符的坐標。
3)計算字符的歐拉數(shù)根據(jù)水印信息進行水印的嵌入。該水印嵌入算法是通過對字符歐拉數(shù)的奇偶量化實現(xiàn)的。其量化規(guī)則如下:
其中,E代表字符x的歐拉數(shù);i代表嵌入到字符x中的水印信息,其取值為0或1。歐拉數(shù)的定義是物體個數(shù)和孔數(shù)之差。在一幅圖像中孔數(shù)為H,物體連接部分數(shù)位a則歐拉數(shù)定義為:E=C-H。歐拉數(shù)是基于圖像幾何特征的區(qū)域描繪子,且歐拉數(shù)不受伸長或旋轉(zhuǎn)變換的影響,因此可認為字符的歐拉數(shù)不受打印掃描的影響,魯棒性較高。
4)在不改變文本內(nèi)容的前提下,根據(jù)分割后字符的間距和行距,對文檔格式做輕微的調(diào)整,以此來嵌入水印信息,如在行間距編碼中,上移某行,隱藏“1”;下移某行,隱藏“0”。以提高隱藏信息的容量。
3.3隱藏信息的提取
對掃描得到的文檔圖像進行二值化,在二值圖像上進行去噪、傾斜校正,然后進行行分割并在圖像行中分割出單個字符,并通過字符距和行間距的變化來判斷隱藏信息的存在。在此基礎上,根據(jù)隱藏信息嵌入規(guī)則,逐個提取出隱藏的每一位二進制信息并組合成最終的提取信息。
4小結(jié)
本文旨在針對抗打印掃描紙質(zhì)文檔信息隱藏和檢測開展研究,首先分析了近年來國內(nèi)外對于電子文檔在打印時嵌入隱藏信息的水印技術研究、紙質(zhì)文檔隱藏信息抗掃描打印等攻擊的魯棒性研究以及相應的提取方法研究已經(jīng)取得了一些成果。在此基礎上,重點討論了文本信息保真技術,二次圖像校正技術,提出了基于字符歐拉數(shù)和格式調(diào)整相結(jié)合的文本信息隱藏技術,為實現(xiàn)對紙介質(zhì)文件泄密溯源提供了基礎。