胡 萍 成 磊 郝紅光
(1.中國(guó)人民公安大學(xué),北京100038;2.公安部物證鑒定中心,北京100038)
惠普彩色激光打印文件跟蹤暗碼的實(shí)驗(yàn)研究
胡萍1成磊1郝紅光2
(1.中國(guó)人民公安大學(xué),北京100038;2.公安部物證鑒定中心,北京100038)
本文采用Matlab程序和Photoshop圖像批處理文件兩種方法提取彩色激光打印文件上的跟蹤暗碼,并對(duì)提取的暗碼點(diǎn)進(jìn)行基本模式圖案的劃分。研究利用打印文件的跟蹤暗碼點(diǎn)的分布規(guī)律區(qū)分打印文件是否來源于惠普彩色打印機(jī),分辨換頁文件,解析惠普彩色打印機(jī)打印文件的暗碼點(diǎn)。
跟蹤暗碼彩色激光打印文件自動(dòng)提取
彩色激光打印機(jī)的制造商在設(shè)計(jì)他們的設(shè)備的時(shí)候,采用某種方式在每個(gè)打印文件上設(shè)置一個(gè)獨(dú)特的跟蹤圖案,此跟蹤圖案用于識(shí)別打印文件的來源、打印時(shí)間等信息。打印機(jī)的普及增加了偽造、變?cè)煳募臄?shù)量。識(shí)別偽造、變?cè)旒す獯蛴∥募粋€(gè)較好的方法就是找到激光打印文件中不能額外添加信息的功能,稱為內(nèi)在功能。所謂內(nèi)在功能就是正常的文檔生成時(shí)候的副產(chǎn)物,即跟蹤暗碼。
跟蹤暗碼點(diǎn)是肉眼不可見的,在顯微鏡觀察下是小黃點(diǎn)。打印文件在EPSON V370 Photo掃描下的圖片,經(jīng)過Photoshop圖像處理軟件的處理,可以看見黃色小圓點(diǎn)(參照?qǐng)D1數(shù)字周圍小圓點(diǎn))。這些小黃點(diǎn)形成具有固定的水平和垂直間距的圖案并且重復(fù)出現(xiàn),這種重復(fù)圖案被定義為基本模式圖案。
圖1 暗碼點(diǎn)
關(guān)于跟蹤暗碼的研究,在1993年,L.Cal. M.Belovicova.M等人提出了用暗碼點(diǎn)來識(shí)別問題文件,在2005年Mike Musgrove提出了根據(jù)暗碼點(diǎn)形狀來區(qū)分幾種品牌打印機(jī)的打印文件;縱觀國(guó)內(nèi),黃建同、梁立崢等人提出了從跟蹤暗碼點(diǎn)的形態(tài)可以分辨幾種品牌的彩色激光打印機(jī)的打印文件,以上都屬于形態(tài)觀察法。2005 年EFF組織破譯了富士施樂牌彩色激光打印機(jī)打印文件的暗碼點(diǎn)信息,但是其他品牌的跟蹤暗碼點(diǎn)至今未被破譯出來。本文提出了不同以往的研究方向——從普惠彩色激光打印機(jī)打印文件的暗碼的分布規(guī)律進(jìn)行研究,并提出自動(dòng)提取跟蹤暗碼點(diǎn)。
1.1實(shí)驗(yàn)設(shè)備
UVCS-5000文檢儀,Photoshop圖像處理軟件,EPSONV370Photo掃描儀、十種型號(hào)惠普打印機(jī)分別為:HP CP5525dn、HP CP4525dn、HP CP4700dn、HP CP1025、HP M750dn、HP M551dn、HP M451nw、HP CP1025nw、HP M551n、 HP CP4525dn。
1.2實(shí)驗(yàn)樣本
收集了十種惠普型號(hào)打印機(jī)在不同時(shí)間、內(nèi)容下打印的文件,如圖2、3所示:在6月10號(hào)和25號(hào)單獨(dú)打印樣本一與樣本二,在6月10號(hào)和25號(hào)連續(xù)打印樣本三。
圖2 樣本一、樣本二
圖3 樣本三
1.3實(shí)驗(yàn)設(shè)計(jì)
實(shí)驗(yàn)樣本以分辨率1200dpi在EPSON V370 Photo掃描儀下掃描形成圖片,用Photoshop圖像處理軟件提取暗碼,找出基本模式圖形,進(jìn)行重合比對(duì)、找出暗碼分布規(guī)律。
2.1實(shí)驗(yàn)步驟
實(shí)驗(yàn)內(nèi)容分為三個(gè)部分:(1)手動(dòng)提取掃描文件上的跟蹤暗碼點(diǎn)。(2)手動(dòng)提取暗碼點(diǎn)產(chǎn)生噪點(diǎn)、疊印點(diǎn)的分析,以及解決方法。(3)提出暗碼點(diǎn)自動(dòng)提取。
2.1.1打印文件跟蹤暗碼點(diǎn)的手動(dòng)提取
掃描文件在Photoshop中分別在C—青色、M—黃色、Y—洋紅、K—黑色通道下觀察。在黃色通道下,暗碼特征最明顯,但是會(huì)出現(xiàn)許多虛假黃點(diǎn)。因此,需要手動(dòng)檢查在不同的頁面的點(diǎn)的顏色值顯示,在RGB色彩空間中的R 和G的值是接近255,而具有稍低B值。手動(dòng)設(shè)置容差在20~40之間的某一個(gè)值來提取暗碼點(diǎn)。
2.1.2手動(dòng)提取暗碼點(diǎn)產(chǎn)生噪點(diǎn)的分析及解決方法
疊印點(diǎn):打印文件內(nèi)有黃色圖片或文字,因?yàn)榘荡a點(diǎn)也是黃色的,所以使暗碼點(diǎn)被文檔內(nèi)容覆蓋,導(dǎo)致部分暗碼點(diǎn)不可檢測(cè),整體圖案不完整,如圖4所示。
噪聲點(diǎn):有些提取點(diǎn)可能并不是暗碼點(diǎn)。產(chǎn)生噪聲點(diǎn)原因很多,一部分是由于在提取暗碼時(shí),當(dāng)容差較低的時(shí)候、與黃色暗碼點(diǎn)相似的底灰,就會(huì)被選中,形成虛假暗碼點(diǎn)。當(dāng)選擇的容差較大時(shí)、很多黃色暗碼點(diǎn)由于比例大小不一樣,越來越多的點(diǎn)數(shù)將被錯(cuò)過,最后形成的暗碼點(diǎn)基本圖形不完整。另一部分噪聲點(diǎn)可能是由于打印機(jī)本身問題,比如:打印機(jī)墨粉受潮、硒鼓與打印機(jī)接觸不良等原因,導(dǎo)致打印的碳粉遍布全頁,這種情況下,很多小黑點(diǎn)隨處可見,暗碼點(diǎn)分辨變得困難。掃描文件的分辨率越低,噪聲點(diǎn)也越多,如圖5所示。
圖4 疊印點(diǎn)
圖5 噪點(diǎn)
為了得到完美的暗碼點(diǎn)圖形,需要對(duì)暗碼點(diǎn)進(jìn)行手動(dòng)調(diào)整。通過基本圖形對(duì)準(zhǔn)方法,先找出一個(gè)基本模式圖形,通過重合比對(duì)、看其他地方暗碼點(diǎn)是缺失還是增多,按照基本模式圖形、增加或者減少暗碼點(diǎn)。
2.1.3提出自動(dòng)暗碼識(shí)別
筆者在提取連續(xù)文件的暗碼點(diǎn)時(shí),發(fā)現(xiàn)過程繁雜,為了簡(jiǎn)化提取步驟,筆者提出了二種自動(dòng)暗碼點(diǎn)提取系統(tǒng)。第一種方法是使用MAT?LAB程序自動(dòng)提取,可以通過該程序自動(dòng)提取大量掃描文件的暗碼點(diǎn),省去了人工提取的步驟,該暗碼點(diǎn)自動(dòng)提取系統(tǒng)的偽代碼如下:
h=('11.jpg');掃描文件名稱
m=585;圖像的大小
n=1354;圖像分辨率
R=h(:,:,1);提取每個(gè)像素R通道的值
G=h(:,:,2);提取每個(gè)像素G通道的值
B=h(:,:,3);提取每個(gè)像素B通道的值
for i=1:m;圖像大小一致
for j=1:n;圖像分辨率一致
if(((R(i,j)>205)&&(G(i,j)>205)&&(30205并且G值>205并且30
caise(i,j)=0;滿足以上條件則賦值為黑色
else
caise(i,j)=255;不滿足以上條件則賦值為透明色
end;結(jié)束
圖6為該程序運(yùn)行結(jié)果,可以看出MAT?LAB程序運(yùn)行下結(jié)果不理想,噪點(diǎn)太多。
結(jié)合在Photoshop圖像處理軟件中手動(dòng)提取精確性優(yōu)點(diǎn)與自動(dòng)化,筆者又采取了批處理文件的方法。手動(dòng)提取暗碼,Photoshop圖像處理將步驟記住生成exe程序,把未提取文件加入exe程序,程序按照手動(dòng)提取方式,自動(dòng)提取暗碼。這種方法提取暗碼效率高、精確度高。圖7為該程序運(yùn)行結(jié)果。
圖6 MATLAB程序運(yùn)行下結(jié)果
圖7 photoshop處理后結(jié)果
(1)暗碼點(diǎn)是呈一定規(guī)律性不斷重復(fù)的、劃分基本模式最大的問題就是——不知道基本模式何時(shí)開始以及何時(shí)結(jié)束,提取出來的基本模式會(huì)引起歧義,而且基本模式的大小也是未知的。基本模式的提取遵循的方法為采用暗碼點(diǎn)起始定位方式。圖8是惠普打印機(jī)出紙方式圖,可以發(fā)現(xiàn)紙張297mm的一側(cè)先出來。(A4紙尺寸:210×297mm)
圖8 出紙方式圖
每一頁的跟蹤暗碼點(diǎn)都是從頁側(cè)邊開始出現(xiàn)。暗碼點(diǎn)基本模式圖案也是從頁側(cè)邊開始,頁側(cè)邊的暗碼點(diǎn)作為起始點(diǎn),找到循環(huán)的對(duì)應(yīng)點(diǎn)。圖9是以側(cè)邊暗碼點(diǎn)為起始點(diǎn)截圖部分暗碼點(diǎn)。圖10是暗碼點(diǎn)的基本模式。
圖9 暗碼點(diǎn)
圖10 暗碼點(diǎn)的基本模式
(2)從筆者收集的十種惠普型號(hào)打印機(jī)打印文件的跟蹤暗碼點(diǎn)來看,這十臺(tái)打印機(jī)的打印文件的暗碼點(diǎn)的基本圖形都不一樣。用同一臺(tái)打印機(jī)打印連續(xù)文件、單獨(dú)打印文件、打印時(shí)間不同的打印文件產(chǎn)生的暗碼基本模式圖形、以及暗碼點(diǎn)之間的距離都是一樣的,可以得出惠普打印機(jī)打印文件的暗碼點(diǎn)不包含時(shí)間信息。如圖11所示,左邊打印文件來源于HP CP5525dn打印機(jī)。右邊打印文件源于HP CP4525dn打印機(jī)打印的文件,對(duì)以上兩種打印文件的暗碼點(diǎn)基本圖案進(jìn)行重合比對(duì),發(fā)現(xiàn)右邊一小部分是重合的。這兩份打印文件的打印時(shí)間、內(nèi)容都不同,右邊重合的圖案就是代表了惠普打印機(jī)品牌信息。由此可以得出,發(fā)現(xiàn)打印文件的跟蹤暗碼點(diǎn)的分布如右邊重合圖案,那么可以確定該打印文件來源于惠普打印機(jī)。
圖11 重合比對(duì)圖
(3)換頁文件的區(qū)分:同一種型號(hào)的惠普打印機(jī)的打印文件的跟蹤暗碼無法解決連續(xù)打印換頁問題,是由于打印機(jī)的出紙方式,每一頁的跟蹤暗碼點(diǎn)都是從頁側(cè)邊開始出現(xiàn)。頁側(cè)邊的暗碼點(diǎn)基本模式圖案是一樣的,連續(xù)打印文件的上下頁的跟蹤暗碼點(diǎn)是無法結(jié)合在一起。每一臺(tái)惠普打印機(jī)出來的文件上跟蹤暗碼開始都是相同的,以此點(diǎn)出發(fā)、要是不同打印機(jī)的換頁文件就可以根據(jù)頁側(cè)邊暗碼點(diǎn)不同而鑒別出來。
在本文中,筆者擴(kuò)展了以前的通過跟蹤暗碼點(diǎn)的形態(tài)來識(shí)別打印文件的來源。創(chuàng)新點(diǎn)在于提出跟蹤暗碼自動(dòng)提取、部分暗碼點(diǎn)的解碼,這可以用于通過識(shí)別彩色激光打印文件的跟蹤暗碼點(diǎn)來識(shí)別打印機(jī)品牌。通過比較兩份彩色激光打印文件暗碼點(diǎn)的基本模式圖案,可以判斷這兩份彩色激光文件是否來自相同品牌的打印機(jī),其次對(duì)來自相同的打印機(jī)打印文件的基準(zhǔn)圖案中提取的商家的基本信息,再利用跟蹤暗碼點(diǎn)分布規(guī)律來判斷一份彩色激光打印文件是否為連續(xù)打印文件。所提出的方法可適用于其他品牌打印文件跟蹤暗碼點(diǎn)的研究,破譯跟蹤暗碼點(diǎn)的工作需要更多的社會(huì)努力。
[1]Mike Musgrove.Sleuths Crack Tracking Code Discov?ered in Color Printers[EB/OL].[2005-10-19].http:// www.washingtonpost.com.
[2]EFF.Investigating Machine Identification Code Tech?nology in Color Laser Printers[EB/OL].[2005-07]. http://www.eff.org.
[3]Jason Tuohey.Government Uses Color Laser Printer Technology to Track Documents[DB/OL].[2004-11-22].http://www.pcworld.com.
[4]梁立崢,黃建同.彩色激光打印文件跟蹤暗碼小點(diǎn)特征初探[J].中國(guó)人民公安大學(xué)學(xué)報(bào)(自然科學(xué)版),2011,(4).
[5]黃建同.文件檢驗(yàn)實(shí)驗(yàn)指導(dǎo)[M].北京:中國(guó)人民公安大學(xué)出版社,2014.