陳艾倫,陳慶虎,鄢煜塵,熊海亞,周小丹
(武漢大學(xué) 電子信息學(xué)院,湖北 武漢 430072)
基于因子分析的打印文檔鑒定方法
陳艾倫,陳慶虎,鄢煜塵,熊海亞,周小丹
(武漢大學(xué) 電子信息學(xué)院,湖北 武漢 430072)
針對(duì)現(xiàn)有打印文檔鑒定方法在檢材和樣本中無(wú)相同字符時(shí)基本失效的問(wèn)題,提出一種基于因子分離的打印文檔鑒定方法。該方法將字符圖像看作是融入了字符形態(tài)結(jié)構(gòu)的殘缺紋理圖像,并建立基于灰度共生矩陣特征的2個(gè)因子模型,該特征可劃分為紋理因子和字符因子兩部分。通過(guò)因子分離方法獲得與字符無(wú)關(guān)的獨(dú)立紋理特征,并利用最小距離分類(lèi)器來(lái)實(shí)現(xiàn)打印文檔的同機(jī)鑒定。選取35臺(tái)激光打印機(jī)參與測(cè)試,鑒別正確率達(dá)94.29%,證明了該方法的有效性。
打印文檔鑒定;因子分析;紋理特征;灰度共生矩陣
隨著數(shù)字技術(shù)的發(fā)展和打印機(jī)的普及應(yīng)用,打印文檔逐漸取代手寫(xiě)文檔成為承載信息的主要媒介。與之相伴的與打印文檔相關(guān)的民事糾紛、刑事案件等也越來(lái)越多,如篡改法律合同,散播非法傳單,偽造身份證、票據(jù)、護(hù)照等。因此,通過(guò)有效的文檔取證技術(shù),檢驗(yàn)文檔是否經(jīng)過(guò)編造,以及識(shí)別出問(wèn)題打印材料的打印機(jī)類(lèi)型,對(duì)司法和公安部門(mén)乃至普通群眾都非常有價(jià)值。
由于打印文檔直接來(lái)源于打印機(jī),每臺(tái)打印機(jī)獨(dú)有的機(jī)械、電氣特性以及器件組合性能的不同通過(guò)打印過(guò)程均會(huì)反映到打印文檔中,因此不同打印機(jī)打印的文檔存在差異。Allen[1]在1990年的《國(guó)際物證檢驗(yàn)》期刊上發(fā)表論文,首次分析了根據(jù)打印圖形的差異進(jìn)行文檔鑒定的可能性,并利用某些明顯打印缺陷判斷源打印機(jī)。目前,國(guó)內(nèi)外已經(jīng)有很多關(guān)于打印文檔鑒定的研究,文獻(xiàn)[2-3]提出利用打印機(jī)齒輪傳動(dòng)系統(tǒng)產(chǎn)生的條帶特征和字符的紋理特征進(jìn)行打印機(jī)鑒別;文獻(xiàn)[4]通過(guò)檢測(cè)文本行傾斜的角度和兩端對(duì)齊的距離查找被篡改的文本行;文獻(xiàn)[5]通過(guò)提取多尺度DCT特征訓(xùn)練支持向量機(jī)來(lái)識(shí)別源機(jī);文獻(xiàn)[6]利用雙極性距離對(duì)字符形狀進(jìn)行匹配來(lái)鑒定打印文檔;文獻(xiàn)[7]通過(guò)拼接打印字符內(nèi)部紋理的方法來(lái)進(jìn)行文檔檢驗(yàn)研究;文獻(xiàn)[8]提出利用圖像質(zhì)量評(píng)價(jià)特征追蹤打印機(jī)來(lái)源。
目前,大多數(shù)的打印機(jī)鑒定方法均是基于文檔中出現(xiàn)頻率較高的字母或者單詞,且檢材與樣本文檔中包含足量的相同字符,而在2份文檔中沒(méi)有相同字符的情況下,目前已有的方法基本失效,鑒別率極低。針對(duì)這一問(wèn)題,本文提出一種基于因子分析的打印文檔鑒定方法,將字符圖像看作是融入了字符形態(tài)結(jié)構(gòu)的殘缺紋理圖像,通過(guò)對(duì)灰度共生矩陣法獲得的特征進(jìn)行分析,將影響特征的因素劃分為紋理因子和字符因子兩大類(lèi),并通過(guò)因子分離方法獲得獨(dú)立的紋理特征,從而消除了字符因子的影響,最后利用最小距離分類(lèi)器來(lái)實(shí)現(xiàn)文檔鑒定。該方法不僅獲得了良好的鑒別正確率,還擺脫了對(duì)文檔內(nèi)容的依賴,擴(kuò)大了打印文檔鑒定的適用范圍。
影響打印文檔墨粉紋理的因素復(fù)雜多樣,不僅包括傳動(dòng)系統(tǒng)因素,還與墨粉的成分、硒鼓表面附著性能、打印機(jī)壓輥的定影性能,以及墨盒中墨粉存量等因素有關(guān),這些因素為打印字符圖像帶來(lái)了豐富的紋理細(xì)節(jié)特征,使得紋理分析的方法能夠?yàn)榇蛴C(jī)鑒定提供依據(jù)。為了能夠更好地獲得打印字符圖像的紋理信息,本文所用圖像均由本實(shí)驗(yàn)室自主設(shè)計(jì)研發(fā)的“圖像整體高倍放大掃描系統(tǒng)”[9]采集獲得。
圖1a是HP-Scanjet-4850高性能掃描儀在4 800 dpi下掃描一個(gè)字符“e”的圖像,可以看到圖像整體輪廓十分模糊,而且細(xì)節(jié)特征也無(wú)法體現(xiàn);圖1b是本文裝置拍攝采集的同一個(gè)字符的等大圖像,不僅輪廓清晰分明,而且墨粉噴灑、內(nèi)部紋理等細(xì)節(jié)均可完整采集到。圖2是來(lái)自4臺(tái)不同打印機(jī)生成的紋理圖像,可以清楚地看到不同打印機(jī)的打印紋理在高倍放大條件下具有顯著差異。
圖1 掃描儀與本文裝置采集的字符圖像比較
圖2 4臺(tái)不同打印機(jī)生成的紋理圖像比較
2.1 灰度共生矩陣法特征提取
灰度共生矩陣法是由Haralick[10]提出的一種比較成熟有效的紋理描述方法。在圖像的空間位置上,各灰度反復(fù)交替變化形成紋理,因此,圖像中相隔一段距離的兩個(gè)像素間可能存在著某些灰度關(guān)系,這種關(guān)系也被稱(chēng)作是圖像灰度的空間相關(guān),灰度共生矩陣法的基本思想就是通過(guò)研究灰度的空間相關(guān)來(lái)表征紋理。
一幅由水平方向的N個(gè)像素、垂直方向的N個(gè)像素組成,像素的灰度級(jí)數(shù)為H的圖像可以用一個(gè)二維函數(shù)f(x,y)(x=1,2,…,N;y=1,2,…,N)來(lái)表示?;叶裙采仃囋氐亩x為從灰度值為i的像素沿θ方向出發(fā),統(tǒng)計(jì)與其距離為δ、灰度值為j的像素同時(shí)出現(xiàn)的頻率P(i,j,δ,θ),其數(shù)學(xué)表達(dá)式為
f(x,y)=i,f(x+Dx,y+Dy)=j}
(1)
式中:i和j分別表示兩個(gè)像素的灰度值,其取值范圍為[0,H-1];δ和θ是灰度共生矩陣的構(gòu)造參數(shù),其中δ是生成步長(zhǎng),θ是生成方向,θ通常取0°(水平)、90°(垂直)、45°和135°;Dx和Dy是位置偏移量,η是計(jì)數(shù)函數(shù),R為相隔δ的2個(gè)像素總共有的點(diǎn)對(duì)數(shù)。
本文利用灰度共生矩陣法對(duì)打印字符圖像提取特征,其中矩陣生成方向取0°(水平)和90°(垂直)兩個(gè)方向,對(duì)應(yīng)于打印機(jī)的掃描方向和走紙方向;矩陣的生成步長(zhǎng)根據(jù)打印紋理粒度大小的估計(jì)取20;統(tǒng)計(jì)特征取能量、對(duì)比度、相關(guān)性和熵這4個(gè)常用參數(shù),Ulaby[11]等研究者發(fā)現(xiàn)這4個(gè)特征值分辨力最好且互不相關(guān)。因此特征總維數(shù)為2×20×4=160。
2.2 影響特征的因素
字符圖像可以看作是融入了字符形態(tài)結(jié)構(gòu)的殘缺紋理圖像。利用灰度共生矩陣法提取特征,其中影響特征的因素主要分為兩類(lèi):打印機(jī)墨粉堆積紋理的差異(與打印機(jī)的型號(hào)有關(guān),簡(jiǎn)稱(chēng)紋理因子);英文字母形態(tài)結(jié)構(gòu)的差異(與打印文檔內(nèi)容有關(guān),簡(jiǎn)稱(chēng)字符因子)?;叶裙采仃嚪ㄊ墙?jīng)典的紋理特征提取方法,因此紋理因子是打印文檔鑒定的基礎(chǔ),而字符因子則不利于分類(lèi)鑒別。劃分影響因子的目的就是要從特征中分離出字符因子,獲得獨(dú)立的紋理特征,從而在檢材與樣本中沒(méi)有相同字符的情況下也可以實(shí)現(xiàn)打印機(jī)鑒定,接下來(lái)對(duì)這兩類(lèi)因子進(jìn)行建模分析。
2.3 因子分析模型
首先分析紋理因子和字符因子對(duì)特征影響的顯著性。通過(guò)研究大量的打印文檔樣本,發(fā)現(xiàn)利用灰度共生矩陣法對(duì)英文字符提取的特征整體分布近似符合正態(tài)分布,因此可以利用2個(gè)因子模型分析特征值。
(2)
(3)
(4)
(5)
(6)
(7)
(8)
則有統(tǒng)計(jì)量為
(9)
(10)
(11)
(12)
直觀上,SS反映全體數(shù)據(jù)中的波動(dòng);SSA反映由于紋理因子A在各個(gè)水平下的不同作用而引起的波動(dòng),常數(shù)M表示每個(gè)水平Ai在各對(duì)水平搭配中出現(xiàn)了M次,SSB的意義與SSA類(lèi)同;SSe反映由于隨機(jī)誤差作用而在數(shù)據(jù)中引起的波動(dòng)。分別稱(chēng)SS為總離差平方和,SSA為紋理因子A的離差平方和,SSB為字符因子B的離差平方和,SSe為誤差平方和。且可證
SS=SSA+SSB+SSe
(13)
取顯著性水平為α,可得到紋理因子A的檢驗(yàn)統(tǒng)計(jì)量為
(14)
它在顯著性水平α下的檢驗(yàn)拒絕域?yàn)?/p>
FA≥Fα(N-1,NM-N-M+1)
(15)
式中:Fα(N-1,NM-N-M+1)表示在水平α下自由度為(N-1,NM-N-M+1)的F分布。
字符因子B的檢驗(yàn)統(tǒng)計(jì)量為
(16)
它在顯著性水平α下的檢驗(yàn)的拒絕域?yàn)?/p>
FB≥Fα(M-1,NM-N-M+1)
(17)
式中:Fα(M-1,NM-N-M+1)表示在水平α下自由度為(M-1,NM-N-M+1)的F分布。即因子A,B顯著性假設(shè)成立的條件分別是式(15)和式(17)。
為了驗(yàn)證紋理因子與字符因子的顯著性假設(shè),本文選取9臺(tái)不同型號(hào)激光打印機(jī)的打印文檔進(jìn)行實(shí)驗(yàn),對(duì)每份打印文檔抽取同樣的16個(gè)不同英文字符組成該文檔的字符集,其中字符圖像的尺寸大小為450×450像素。利用灰度共生矩陣法提取160維特征并進(jìn)行方差分析。
取顯著性水平α=0.05,可知:Fα(N-1,NM-N-M+1)=F0.05(8,120)=2.02,F(xiàn)α(M-1,NM-N-M+1)=F0.05(15,120)=1.75。
2個(gè)因子方差分析結(jié)果如圖3所示。
圖3 兩因子實(shí)驗(yàn)的方差分析結(jié)果
由圖3可知,在α=0.05水平下,利用灰度共生矩陣法所提取特征的FA值均大于Fα(N-1,NM-N-M+1),所以紋理因子對(duì)特征的影響是顯著的,這也是利用灰度共生矩陣法可以實(shí)現(xiàn)打印文檔鑒定的根據(jù);同時(shí)看到所提取特征的FB值也全部大于Fα(M-1,NM-N-M+1),因此字符因子對(duì)特征的影響也是顯著的,必須對(duì)特征進(jìn)行因子分離,消除字符因子的影響,獲得獨(dú)立的紋理特征。
(18)
1)收集45臺(tái)不同型號(hào)激光打印機(jī)的打印文檔建立數(shù)據(jù)庫(kù),記為p=1,2,…,45,基本涵蓋市場(chǎng)上占有率較高的打印機(jī)品牌,每份打印文檔有26個(gè)英文字符,記為j=1,2,…,26。
2)利用灰度共生矩陣法對(duì)每份打印文檔的每個(gè)字符圖像提取160維特征,對(duì)于第k維特征可以得到45×26的特征值矩陣。
為驗(yàn)證上述分析,選取之前參與測(cè)試的9臺(tái)打印機(jī)的打印文檔,對(duì)160維特征因子分離后重新進(jìn)行2個(gè)因子方差分析,計(jì)算結(jié)果如圖4所示。
圖4 因子分離后的方差分析結(jié)果圖
由圖4可知,經(jīng)過(guò)因子分離后,紋理因子對(duì)特征影響的顯著性無(wú)明顯變化,而FB值均小于Fα(M-1,NM-N-M+1),因此字符因子對(duì)特征的影響是不顯著的。
(19)
利用最小距離分類(lèi)器,即街區(qū)距離最小的2份文檔屬于同一臺(tái)打印機(jī)。
本文提出的鑒定方法的流程見(jiàn)圖5。首先將整份文檔圖像分割為單個(gè)字符圖像,然后利用灰度共生矩陣法提取160維特征,并進(jìn)行因子分離得到與字符無(wú)關(guān)的獨(dú)立紋理特征,再對(duì)文檔中所有字符求取均值獲得該文檔的特征向量,最后通過(guò)最小距離分類(lèi)器來(lái)實(shí)現(xiàn)打印文檔的同機(jī)判定。
圖5 本文方法流程圖
為了測(cè)試本文方法的有效性,選取35臺(tái)不同型號(hào)激光打印機(jī)打印的英文文檔進(jìn)行實(shí)驗(yàn),每臺(tái)打印機(jī)各2份,分別建立檢材集和樣本集,每份打印文檔有15個(gè)不同英文字符。將檢材集中的每份文檔依次與樣本集中的所有文檔作比對(duì),利用灰度共生矩陣法提取160維特征。
對(duì)于同一份打印文檔,分別抽取1,5,10,15個(gè)英文字符,計(jì)算該文檔字符因子分離前后的特征均值向量,將街區(qū)距離最小的2份文檔判定是同機(jī)生成的。實(shí)驗(yàn)鑒別結(jié)果如表1所示。
表1 打印機(jī)鑒定實(shí)驗(yàn)結(jié)果
字符個(gè)數(shù)灰度共生矩陣法的正確率/%灰度共生矩陣+因子分離法的正確率/%145 7177 14551 4282 861057 1488 571562 8594 29
實(shí)驗(yàn)結(jié)果表明,利用因子分離法對(duì)文檔鑒定有明顯的改善效果,在打印文檔中有15個(gè)不同英文字符的情況下,準(zhǔn)確率為94.29%,達(dá)到了較為理想的水平。本文提出的鑒定方法在檢材和樣本無(wú)相同字符的情況下,依然可以比較精確地進(jìn)行打印機(jī)同機(jī)鑒定,與現(xiàn)有方法的結(jié)果相比,獲得了接近于基于相同字符方法的準(zhǔn)確率,大大拓寬了打印文檔鑒定的應(yīng)用范圍。
傳統(tǒng)的打印文檔鑒定方法均是基于檢材與樣本文檔中的相同字符,當(dāng)檢材與樣本中沒(méi)有相同字符時(shí),鑒別正確率急劇下降。本文首先利用經(jīng)典灰度共生矩陣法提取特征,且通過(guò)兩因子方差分析模型驗(yàn)證了紋理因子與字符因子對(duì)特征均具有顯著影響,然后提出一種因子分離方法,獲得與字符無(wú)關(guān)的獨(dú)立紋理特征,并利用最小距離分類(lèi)器來(lái)實(shí)現(xiàn)打印機(jī)鑒定,取得了良好的識(shí)別效果。該方法在傳統(tǒng)方法無(wú)法應(yīng)用的情況下,為打印文檔鑒定提供了一種新思路。
[1] ALLEN M J,HARDCASTLE R A. The distribution of damage defects among characters of printwheel typing elements[J].Forensic Science International, 1990,7(3):249-259.
[2] MIKKILINENI A K,CHIANG P J,ALI G N,et al. Printer identification based on graylevel co-occurrence features for security and forensic applications[C]//Proc. the SPIE International Conference on Security,Steganography,and Watermarking of Multimedia Contents VII. San Jose,CA:[s.n.],2005:430-440.
[3] MIKKILINENI A K,ARSLAN O,CHIANG P J,et al. Printer forensics using SVM techniques[C]//Proc. the IS&T's NIP21, International Conference on Digital Printing Technologies. Baltimore,MD:[s.n.],2005:223-226.
[4] BEUSEKOM J,SHAFAIT F,BREUEL T M. Text-line examination for document forgery detection[J].International Journal on Document Analysis and Recognition (IJDAR),2013,16(2):189-207.
[5] JIANG W,HO A T S,TREHARNE H,et al. A novel multi-size block Benford’s law scheme for printer identification[C]//Proc. Advances in Multimedia Information Processing-PCM 2010. Shanghai:[s.n.],2010:643-652.
[6] 涂巖愷,陳慶虎,鄧偉. 計(jì)算機(jī)激光打印文檔鑒別與檢索[J].電子與信息學(xué)報(bào),2011,33(2):499-503.
[7] 鄧偉. 基于打印墨粉紋理分析的打印文件檢驗(yàn)研究[J].電子測(cè)量技術(shù),2014,37(2):70-74.
[8] 沈林杰,孔祥維,尤新剛. 基于字符圖像質(zhì)量評(píng)價(jià)的打印機(jī)取證[J].東南大學(xué)學(xué)報(bào):自然科學(xué)版,2007,37(S1):92-95.
[9] 陳慶虎,鄧偉,涂巖愷. 圖像整體高倍放大掃描系統(tǒng):中國(guó)200920084691[P].2010-01-15.
[10] HARALICK R M,SHANGMUGAM K,DINSTEIN L. Textural features for image classification[J].IEEE Trans. Systems Man and Cybernetics,1973,3(6):610-621.
[11] ULABY F T,KOUYATE F,BRISCO B,et al. Textural information in SAR Images[J].IEEE Trans. Geoscience and Remote Sensing,1986,24(2):235-245.
[12] 盛驟,謝式千,潘承毅. 概率論與數(shù)理統(tǒng)計(jì)[M].4版.北京:高等教育出版社,2008.
陳艾倫(1991— ),碩士生,主研圖像處理與模式識(shí)別;
陳慶虎(1957— ),博士,教授,主要研究方向?yàn)閳D像處理與模式識(shí)別;
鄢煜塵(1971— ),博士,講師,主要研究方向?yàn)閳D像處理與模式識(shí)別;
熊海亞(1990— ),碩士生,主研圖像處理與模式識(shí)別;
周小丹(1992— ),碩士生,主研圖像處理與模式識(shí)別。
責(zé)任編輯:任健男
Identification Method of Printed Document Based on Factor Analysis
CHEN Ailun,CHEN Qinghu,YAN Yuchen,XIONG Haiya,ZHOU Xiaodan
(SchoolofElectronicInformation,WuhanUniversity,Wuhan430072,China)
A printed document identification method based on factor separation is proposed, since the existing printed document identification methods lose efficacy when there are no identical characters between test and training documents. In the proposed method, the character image is considered as an incomplete texture image integrated with character structure. A two-factor model based on gray-level co-occurrence matrix feature is established, and the feature is decomposed into texture factor and character factor. Thus, character-independent texture feature is obtained, and minimum distance classifier is applied to implement printed document identification. Thirty-five laser printers are selected for testing, and the accuracy can reach to 94.29%, which proves the effectiveness of the proposed method.
printed document identification; factor analysis; texture feature; gray-level co-occurrence matrix
文件檢驗(yàn)鑒定公安部重點(diǎn)實(shí)驗(yàn)室(中國(guó)刑事警察學(xué)院)基金資助項(xiàng)目(11KFKT002);公安部重大項(xiàng)目(2014JSYJA017)
TP391.4
A
10.16280/j.videoe.2015.18.022
2015-07-01
【本文獻(xiàn)信息】陳艾倫,陳慶虎,鄢煜塵,等.基于因子分析的打印文檔鑒定方法[J].電視技術(shù),2015,39(18).