?
量化激光打印機打印文件墨跡形態(tài)微觀特征分析研究
牟小彬,王潔,程衛(wèi)國
(上海市公安局,上海200083)
摘要:目的探索區(qū)分不同激光打印機打印樣本的量化分析方法。方法運用“圖像掃描分析系統(tǒng)”對打印件上由制造工藝等因素引起的,人眼無法辨識的微觀特征如打印字跡的灰度、背景噪聲點面積等相關參數(shù)進行量化測量研究和數(shù)據(jù)分析。結(jié)果使用15項參數(shù)組合,能夠?qū)?8臺不同型號激光打印機3 600頁打印樣本中的3 596頁正確分類,正確率為99.8%。結(jié)論通過上述15項參數(shù)可區(qū)分不同類型的激光打印機,此方法對于不同類型激光打印機中等打印量的打印樣本分類具有可行性。
關鍵詞:文件檢驗;激光打??;微觀特征;量化
目前,司法鑒定中打印文件檢驗的主要依據(jù)是打印機具在文件頁面上留下的明顯故障性特征。隨著制造業(yè)工藝的日益精湛,明顯的故障特征在樣本上出現(xiàn)機率降低,傳統(tǒng)檢驗方法面臨困境。ImageXaminer圖像掃描分析系統(tǒng)可對打印文件的灰度、線條打印質(zhì)量、炭粉附著性、色間滲透等參數(shù)進行測量,對打印文件質(zhì)量進行量化分析。
決策樹算法(Decision Tree)是一種典型的分類方法,首先利用歸納算法生成可讀的規(guī)則和決策樹,然后使用決策對新數(shù)據(jù)進行分析,本質(zhì)上決策樹是通過一系列規(guī)則對數(shù)據(jù)進行分類的過程,由于這種決策分支畫成圖形很像一棵樹的枝干,故稱決策樹。通過決策樹算法分析,可以找出不同打印機打印樣本的分類規(guī)則,從而發(fā)現(xiàn)ImageXaminer圖像掃描分析系統(tǒng)中與打印機分類相關性較強的測量參數(shù),為打印機的鑒別提供新的檢驗思路。
本文運用“圖像掃描分析系統(tǒng)”對打印件上由制造工藝等因素引起的,肉眼難以辨識的微觀特征,如打印字跡的灰度、背景噪聲點面積等相關參數(shù)開展量化研究。并結(jié)合決策樹算法對不同型號激光打印機打印樣本進行分類,為不同激光打印機的鑒別提供依據(jù)。
1.1儀器
ImageXaminer圖像掃描分析系統(tǒng)(美國ImageX-pert公司),配置:EPSON Experssion 10000XL真實光學分辨率2400dpi掃描儀、EPSON A3 Automatic Doc-ument Feeder文件自動輸入儀、imac27英寸電腦、ImageXpert圖像專家軟件。掃描儀參數(shù)設置見表1。
1.2材料
選取市場上9個主流品牌共18種型號的激光打印機各1臺,將其分別編號為01~18號打印機(見表2)。使用同一電子文檔(文檔為案件中常用漢字“的、了、法、是、我”隨機組合而成),在同一品牌A4幅面紙張上打印文件200頁,分別編號為010001~010200、02000~020200、……180001~180200。
1.3數(shù)據(jù)分析軟件
本文選擇決策樹C4.5算法建立數(shù)學模型,使用數(shù)據(jù)挖掘軟件Weka作為模型建立工具,貝爾實驗室開發(fā)的Graphviz作為模型結(jié)果的呈現(xiàn)方法。
1.4測試條件
1.4.1灰度閾值設定
由于打印機品牌、型號、使用環(huán)境等相關因素的影響,打印件打印文字墨跡墨粉堆積感及底灰不同,即墨跡的灰度不同。在灰度圖象中的每個像素都是從0~255的亮度值,通常把0定義為“黑”,255定義為“白”。閾值就是臨界值,是基于圖片亮度的一個分界值,默認值是50%中性灰(即128),也就是當選擇灰度閾值為128時,亮度低于128即被認為“黑”,在對打印件相關參量進行測量時,可以自行定義閾值,而閾值的確定決定了準入計算的亮度值。通過適當?shù)拈撝翟O定,可以充分地識別文件上的墨點:當閾值過小時,無法識別筆畫中較淡的墨跡;反之,當閾值過大時,會將紙纖維上的細微疵點計入在內(nèi)。為了全面反映各樣本的量化測量情況,實驗中選擇亮度較深的80、中間值117、默認值128、亮度較淺的160四種閾值設置。
1.4.2最小準入面積設定
打印機墨跡的連通區(qū)域測量過程中可以自定義參與計算的最小墨跡面積,該設置最小值為1,即1為最小的數(shù)量級,系統(tǒng)默認最小值為100,可自行設定任意值。系統(tǒng)會根據(jù)最小測量面積選擇參與測量的墨點,為了充分反映筆畫周圍的細微墨點分布情況,實驗中選擇最小測量面積為1。
1.4.3測試參數(shù)
ImageXaminer圖像掃描分析系統(tǒng)可實現(xiàn)圖像增強、圖像形態(tài)改變、目標區(qū)域運算、面積測量、灰度測量、線條、邊緣測量、連通區(qū)域測量、相關區(qū)域測量、霍夫變換算法、向量、文字識別、二維碼解碼、條紋測量等測量運算。在實驗過程中對適用于打印文件整幅測量的參數(shù)進行篩選,發(fā)現(xiàn)連通區(qū)域測量、灰度測量、面積測量三類參數(shù)適用于打印文件整幅測量(見表3)。
表1 掃描儀參數(shù)設置
表2 實驗用激光打印機品牌、型號
表3 測試參數(shù)
連通區(qū)域測量(connectivity)是根據(jù)設定的像素極性(polarity)、灰度閾值(threshold)、最小準入面積(blob criteria)等測量條件,將待測目標區(qū)域中的字符劃分為若干個連通區(qū)域,并對具有相同明暗極性的連通像素群(part)或由相同明暗極性像素群圍成的整塊像素群(包括該像素群中的明、暗兩類像素)(blob)的面積、周長、圓度、背景噪聲等微觀特征進行量化測量。
灰度值測量(gray)是根據(jù)設定的像素極性(polarity)、灰度閾值(threshold)等測量條件,對明、暗像素的灰度、明暗線條數(shù)量、對比度等微觀特征進行量化測量。
面積測量(area)是根據(jù)設定的像素極性(polarity)、灰度閾值(threshold)等測量條件,對明暗像素的面積、面積比值等微觀特征進行量化測量。
1.5數(shù)據(jù)測量與分析
使用ImageXaminer圖像掃描分析系統(tǒng)對3 600份樣本進行掃描錄入,并選取等大的目標區(qū)域?qū)ι鲜?9種116項測量參數(shù)進行整幅測量。通過決策樹C4.5算法建立數(shù)學模型,使用數(shù)據(jù)挖掘軟件Weka作為模型建立工具,貝爾實驗室開發(fā)的Graphviz作為模型結(jié)果呈現(xiàn)方法,訓練模型見圖1。
圖1 決策樹模型
2.1閾值選擇對分類結(jié)果的影響
ImageXaminer圖像掃描分析系統(tǒng)會根據(jù)閾值選擇所測部分,閾值設定不同,同一參數(shù)的測量值會隨之變化。閾值設定為亮度較深的80,一些淺淡的筆畫不參與計算;設定為中間值117,筆畫周圍的散落墨粉點基本不參與計算;設定為默認值128,筆畫周圍的散落墨粉點大部分參與計算;設定為亮度較淺的160,除筆畫周圍的散落墨粉外,頁面上的散落墨粉點和部分紙張纖維疵點也參與計算。研究發(fā)現(xiàn),連通區(qū)域測量時,閾值設定為160,部分樣本超出了其測量的閾值范圍,樣本無測量值,數(shù)值顯示為0,若出現(xiàn)這種情況,則舍棄該參數(shù)值?;叶乳撝颠x擇80、117、128、160四種閾值設置,可以較為全面反映各樣本的量化測量情況。此外,閾值設置不同,打印文件的分類情況也發(fā)生了變化,圖2中閾值為80的灰度標準差參數(shù)無法區(qū)分3號、12號打印機,而圖3中閾值為117的灰度標準差參數(shù)則可區(qū)分3號、12號打印機;圖3中閾值為117的灰度標準差參數(shù)無法區(qū)分10號、15號打印機,而圖2中閾值為80的灰度標準差參數(shù)則可區(qū)分10號、15號打印機。
圖2 閾值為80的灰度標準差
圖3 閾值為117的灰度標準差
表4 最小測量面積為1時,閾值為128的字塊面積標準差值
根據(jù)決策樹分析篩選出的打印機分類強相關系數(shù),閾值為80的測量參數(shù)有7項,閾值為117的測量參數(shù)有5項,閾值為128的測量參數(shù)有2項,閾值為160的測量參數(shù)有1項,若需固定閾值,設定為低于默認值128的灰度閾值會取得較好的分類效果。
2.2最小準入面積對分類結(jié)果的影響
在連通區(qū)域測量時,ImageXaminer圖像掃描分析系統(tǒng)可自定義參與計算的最小墨跡面積,系統(tǒng)會根據(jù)最小測量面積選擇參與測量的墨點,最小準入測量面積不同,同一參數(shù)的測量值也會隨之變化。為確定最小準入面積設定對分類結(jié)果的影響,抽取1~5號打印機各10頁樣本,將最小準入面積分別設置為系統(tǒng)默認值100和系統(tǒng)最小值1,比較其參數(shù)測量結(jié)果,發(fā)現(xiàn)最小準入面積設置為1的打印機區(qū)分效果優(yōu)于最小準入面積設置為100。如當最小測量面積為1時,閾值為128的字塊面積標準差可區(qū)分1號、4號打印機,而最小測量面積為100時,1號、4號打印機則無法區(qū)分,測量數(shù)值(見表4~5)。
2.3決策樹模型分類結(jié)果
從決策樹模型中可以看出:使用閾值為117、最小準入面積為1的字塊面積標準差,閾值為117、最小準入面積為1的字塊灰度平均值,閾值為80的灰度眾數(shù)值,閾值為80的中位灰度值,閾值為128、最小準入面積為1的字塊灰度平均值,閾值為80的灰度標準差,閾值為128、最小準入面積為1的字塊平均面積,閾值為80、最小準入面積為1的字塊圓度標準差,閾值為117的灰度標準差,閾值為160、最小準入面積為1的字塊圓度標準差,閾值為80、最小準入面積為1的墨塊數(shù)量,閾值為80、最小準入面積為1的字塊面積標準差,閾值為117、最小準入面積為1的墨塊總周長,閾值為80的面積比值,閾值為117、最小準入面積為1的字塊總周長等15項參數(shù)組合,能夠分類18臺激光打印機打印樣本,經(jīng)測試集測試3 600頁打印樣本中3 596頁分類正確,正確率為99.8%,并且得到的決策樹只有8層,結(jié)構(gòu)簡單。
2.4模型驗證與評價
選取辦公用激光打印機3臺,其中HP LaserJet P2015dn型2臺,編號分別為19、20號機;FUJI Xerox P255d型1臺,編號為21號機。在相同實驗條件下,每臺打印機連續(xù)打印樣本3頁,1個月后再連續(xù)打印樣本3頁,收集樣本共計15頁(編號如下:1190001~1190003、2190001~2190003、1200001~1200003、2200001~2200003、1210001~1210003、2210001~2210003),使用ImageXaminer圖像掃描分析系統(tǒng)對上述15份樣本進行掃描錄入,并選取等大的目標區(qū)域?qū)Υ蛴∥募M行整幅測量。決策樹模型篩選出的15項打印機分類強相關參數(shù)測量結(jié)果見表6。
續(xù)表6
通過上述測量結(jié)果發(fā)現(xiàn):
(1)21號機與19、20號機在上述15項參數(shù)值上均存在明顯差別;19、20號機由于品牌、型號相同,上述15項參數(shù)測量值比較接近。從19~21號機的測量結(jié)果與1~18號機的參數(shù)自身變化程度比較中可進一步發(fā)現(xiàn),19、20號機與21號機在閾值為117、最小準入面積為1的字塊面積標準差參數(shù)項上的差別程度分別為19.6%、19.1%,而18臺實驗用打印機自身變化的最大幅度為18.6 %;在閾值為117、最小準入面積為1的字塊灰度平均值參數(shù)項上的差別分別為14.3%、17.2%,而18臺實驗用打印機自身變化的最大幅度為10.2 %;在閾值為80的灰度標準差參數(shù)項上的差別分別為9%、7.8 %,而18臺實驗用打印機自身變化的最大幅度為4.3%;在閾值為117的灰度標準差參數(shù)項上的差別分別為7.5 %、6.6 %,而18臺實驗用打印機自身變化的最大幅度為3.8%;在閾值為117、最小準入面積為1的墨塊總周長參數(shù)項上的差別分別為7.6 %、10.3%,而18臺實驗用打印機自身變化的最大幅度為7.2%,5項參數(shù)的差別程度均大于18臺實驗用打印機自身變化的最大幅度,該決策樹模型篩選出的測量參數(shù)組合可為區(qū)分不同種類打印機提供判別依據(jù)。
(2)19、20號打印的參數(shù)測量值雖較為接近,但在打印量跨度較小的情況下,不同機臺打印樣本的參數(shù)測量值之間存在一定差別,如2190001~2190003 與1200001~1200003雖在閾值為80、最小準入面積為1的字塊面積標準差上較為接近,但在閾值為80的灰度標準差上存在明顯差別,該模型篩選出的部分參數(shù)組合,可為區(qū)分打印量跨度較小的同品牌同型號不同打印機提供判別依據(jù)。
(3)同一打印機相隔一個月的樣本在閾值為117、最小準入面積為1的字塊灰度平均值,閾值為128、最小準入面積為1的字塊灰度平均值,閾值為80的灰度標準差,閾值為117的灰度標準差,閾值為80的面積比值等參數(shù)值上存在較為明顯的差別,且20號機的變化幅度較大。經(jīng)統(tǒng)計20號打印機一個月的打印量約為200頁,19、21號機一個月的打印量約為50頁,打印文件的參數(shù)測量值隨打印量發(fā)生變化,該模型篩選出的部分參數(shù)組合,可為區(qū)分同一打印機不同時期的打印樣本提供判別依據(jù)。
(1)通過決策樹模型分析,發(fā)現(xiàn)116項參數(shù)中閾值為117、最小準入面積為1的字塊面積標準差,閾值為117、最小準入面積為1的字塊灰度平均值,閾值為80的灰度眾數(shù)值,閾值為80的中位灰度值,閾值為128、最小準入面積為1的字塊灰度平均值,閾值為80的灰度標準差,閾值為128、最小準入面積為1的字塊平均面積,閾值為80、最小準入面積為1的字塊圓度標準差,閾值為117的灰度標準差,閾值為160、最小準入面積為1的字塊圓度標準差,閾值為80、最小準入面積為1的墨塊數(shù)量,閾值為80、最小準入面積為1的字塊面積標準差,閾值為117、最小準入面積為1的墨塊總周長,閾值為80的面積比值,閾值為117、最小準入面積為1的字塊總周長等15項參數(shù)對于激光打印機打印樣本分類具有較強的相關性,可以用于打印樣本區(qū)分。
(2)根據(jù)決策樹模型分類結(jié)果及19~21號機的測試結(jié)果,5號機(惠普P2055d)與6號機(惠普M401dn),9號機(兄弟HL-2250DN)與10號機(兄弟HL-2240D),11號機(理光SP310DN)與12號機(理光SP200),15號機(柯尼卡美能達MAGICOLOR 1650EN)與16號機(柯尼卡美能達MAGICOLOR 1700W)樣本在接近樹的底層才被區(qū)分開來,19、20號機(HP LaserJet P2015dn)的參數(shù)測量值差別較小。說明品牌相同、檔次接近的激光打印機在上述15項參數(shù)測量值上較為接近,在打印量跨度較大的情況下,同品牌同型號的激光打印機較難通過量化測量的方法區(qū)分。
(3)從19~21號打印機的測量結(jié)果可以看出,打印量對激光打印文件參數(shù)測量值的變化有著較大影響,可在打印量跨度較小的情況下,通過量化測量方法區(qū)分同品牌同型號不同打印機打印樣本以及同一打印機不同時期的打印樣本。
(4)本研究是對18臺打印機連續(xù)打印的200頁樣本建立數(shù)學模型,發(fā)現(xiàn)通過閾值為117、最小準入面積為1的字塊面積標準差等15項參數(shù)組合可以區(qū)分18臺打印機打印樣本,并將該實驗結(jié)果應用于3臺辦公用激光打印機的區(qū)分,發(fā)現(xiàn)通過上述15項參數(shù)可區(qū)分不同類型的激光打印機,此方法對于不同類型激光打印機中等打印量的打印樣本分類具有可行性。
參考文獻:
[1]梁政,韓星周,郝紅光.利用ImageXpress系統(tǒng)灰度特征區(qū)分激光打印復印一體機的打印及復印文件初探[J].刑事技術,2013,38(4):36-40.
[2]韓星周,梁政,郝紅光.激光連續(xù)打印文件特征變化的實驗探究[C].北京:中國人民公安大學出版社,2013:91-93.
[3]王潔,牟小彬,程衛(wèi)國.噴墨類打印機打印文件量化分析研究初探[C].北京:中國人民公安大學出版社,2013:86-91.
[4]Tan PN,Steinbach M,Kumar V. Introduction to data mining[M]. New Jersey: Addison Wesley,2005:150-168.
[5]Rokach L,Maimon O. Data Mining with Decision Trees[M]. Singapore :World Scientific Publishing Company,2008:77-81.
(本文編輯:張清華)
鑒定制度
Forensic System
Quantitative Study on the Microscopic Morphological Characteristics of Laser Printed Documents
MU Xiao-bin,WANG Jie,CHENG Wei-guo
(Shanghai Municipal Public Security Bureau,Shanghai 200083,China)
Abstract:Objective To establish a quantitative method for the classification of printed samples produced by different laser printers. Method A quantitative measurement and data analysis of the gray scale of printed contents,background and other related parameter terms was conducted using the ImageXaminer. Results 3 596 out of 3 600 pages of printed samples produced by 18 different laser printers were correctly classified based on the comprehensive analysis of 15 parameter terms. The accuracy of classification was 99.8%. Conclusion These 15 parameter terms can be used to distinguish samples of different types of laser printers.
Key words:questioned document examination; laser printing; microscopic characteristics; quantification
作者簡介:牟小彬(1981—),女,高級工程師,碩士,主要從事文件檢驗研究。E-mail: gaomusihuo@163.com。
基金項目:上海市公安局科研項目(NO.2014002)
收稿日期:2015-03-06
文章編號:1671-2072-(2015)05-0056-07
doi:10.3969/j.issn.1671-2072.2015.05.011
文獻標志碼:A
中圖分類號:DF794.2