劉 猛, 申 思*, 王 楠
(1. 文件檢驗鑒定公安部重點實驗室(中國刑警學院), 遼寧 沈陽 100035;2. 浙江警察學院 刑事科學技術系, 浙江 杭州 310053; 3. 司法部司法鑒定科學技術研究所, 上海 200063)
可見-近紅外高光譜圖像技術快速鑒別激光打印墨粉
劉 猛1,2, 申 思1,2*, 王 楠3*
(1. 文件檢驗鑒定公安部重點實驗室(中國刑警學院), 遼寧 沈陽 100035;2. 浙江警察學院 刑事科學技術系, 浙江 杭州 310053; 3. 司法部司法鑒定科學技術研究所, 上海 200063)
為了使用快速、無損的方法區(qū)分激光打印文件使用的墨粉種類,利用高光譜成像技術結合化學計量法對6種激光打印墨粉的光譜數(shù)據(jù)進行建模和種類鑒別的研究。利用可見-近紅外高光譜成像儀采集400~1 000 nm波段內(nèi)的光譜數(shù)據(jù),采用Savitzky Golay 平滑、標準化、多元散射校正和標準正態(tài)變量變換4種方法分別對光譜數(shù)據(jù)進行預處理,而后分別建立隨機森林(RF)、K最近鄰(KNN)、支持向量機(SVM)、偏最小二乘判別分析(PLS-DA)和簇類獨立軟模式(SIMCA)模型,進而實現(xiàn)激光打印墨粉的種類鑒別。利用準確率、拒識率和誤識率3個指標作為模型評價標準。實驗結果顯示,SVM和PLS-DA模型的效果最佳,準確率為100%,拒識率和誤識率為0。基于可見-近紅外高光譜成像技術可以實現(xiàn)激光打印墨粉的快速種類鑒別。
高光譜圖像; 墨粉種類鑒別; 化學計量法; 支持向量機; 偏最小二乘判別分析
近年來,計算機技術和電子化辦公的全面推廣大大提升了打印文件在社會生活中的使用頻率,刑事案件與民事糾紛中涉及打印文件的情況也與日俱增。印刷技術的不斷發(fā)展致使偽造打印文件的成本明顯降低,仿真程度卻逐步提升,鑒別難度也不斷增大。因此,偽造打印文件的案件數(shù)目不斷攀升,造假的對象包括商業(yè)合同、銀行票據(jù)、證件門票等,對社會經(jīng)濟活動造成極大的危害。
激光打印墨粉的種類鑒別是變造文件和偽造文件檢驗的主要方法之一,也是近年來文件檢驗學者的研究熱點。許可等[1]利用激光顯微拉曼光譜儀對30種激光打印墨粉進行區(qū)分,最終將其分為5大類。張清華等[2]采用主成分分析和系統(tǒng)聚類法對31種墨粉的紅外光譜進行聚類分析與建模,基于前兩個主成分的墨粉樣本聚類效果明顯,同時在第三主成分方向上黑白與彩色激光墨粉樣本獲得良好的區(qū)分。羅儀文等[3]使用激光剝蝕電感耦合等離子體質(zhì)譜剝蝕墨跡并檢測18種元素的信號,將24個樣品區(qū)分為15類,區(qū)分率為94.6%。上述文獻雖已取得了相應成果,但大都是把墨粉分為若干個大類,無法做到細致、精確的區(qū)分。
高光譜圖像技術集光譜檢測和圖像檢測于一體,再結合化學計量法,能夠全面而有效地分析光譜信息,目前已經(jīng)廣泛應用于農(nóng)產(chǎn)品和食品檢測[4-7]等諸多領域。至于文件檢驗領域,已經(jīng)有國外學者發(fā)表了相關成果。
Brauns運用傅里葉變換的高光譜圖像進行添改文件檢驗,準確識別了紅、黑、藍三色圓珠筆書寫的添改字跡[8]。Gal等[9]運用可見-紅外高光譜儀對19種不同牌型號的黑色噴墨墨水進行種類鑒別,使用主成分分析法提取光譜特征,并根據(jù)第一、二主成分權重將墨粉分為幾個大類。Khan等[10]指出常規(guī)的主成分分析法在油墨光譜種類鑒別方面的應用效果不夠理想,因此在此基礎上提出了改進后的稀疏主成分分析法,用于區(qū)分藍色、黑色圓珠筆油墨,準確率較常規(guī)的主成分分析提高了15%。
由此可知,當前雖然已經(jīng)有學者利用高光譜圖像技術鑒別打印墨粉的種類,但僅使用了主成分分析法提取光譜特征,并沒有結合化學計量法,實驗結果也不夠精確。因此本文運用高光譜圖像技術,結合化學計量法,嘗試對6種激光打印墨粉進行種類鑒別,獲得了較為精確的分類結果。
2.1 材料
我們收集了市場常見的3個品牌共計6種不同型號的激光打印機,均隨機配置原裝黑色硒鼓或墨盒,打印機和墨粉型號見表1,統(tǒng)一使用銀河瑞雪80 g/m2復印紙,黑白打印。設計包含中文、數(shù)字和標點符號的樣本文檔,每臺激光打印機需打印30份該文檔作為實驗樣本。為保證樣本的隨機性和連續(xù)性,樣本的收集工作分6次完成,每次每臺打印機打印5份樣本,每批樣本的打印間隔為一周,歷時5周,共收集到180張實驗樣本。
表1 激光打印機信息列表
2.2 高光譜圖像數(shù)據(jù)采集
高光譜圖像采集系統(tǒng)主要包括可見-近紅外成像光譜儀(HyperSpec VNIR)、CCD鏡頭、150 W鹵素燈和線性控制臺。光譜范圍為400~1 000 nm,光譜分辨率為1.23 nm,共計488個波段;掃描次數(shù)為20次,曝光時間為4 ms,線性控制臺移動速度為3.72 mm/s。
為了消除系統(tǒng)光源強度分布不均勻造成的噪聲和暗電流噪聲,需要對光譜數(shù)據(jù)進行黑白標定[11]。采集標定白板的反射光譜W和暗電流反射光譜D,帶入公式(1):
(1)
其中I是原始數(shù)據(jù),R為標定后的高光譜數(shù)據(jù)。完成黑白標定后,從每一份樣本中提取尺寸為450 mm×490 mm的感興趣區(qū)(ROI),并利用掩膜分割前景(文字)和背景(白紙)圖像,僅提取ROI內(nèi)文字部分的平均光譜曲線,即為該樣本的墨粉光譜曲線。每類墨粉有30份樣本,其中25份作為訓練集數(shù)據(jù),5份作為預測集數(shù)據(jù),最終得到150個訓練集數(shù)據(jù),30個預測集數(shù)據(jù)。
2.3 光譜預處理
正式開始高光譜數(shù)據(jù)分析之前,還應考慮實驗樣本表面不均引起的散射現(xiàn)象、暗電流和儀器噪聲引起的光譜曲線不重復現(xiàn)象和基線漂移現(xiàn)象,以及不同樣本成分之間相互干擾引起的背景因數(shù)和多重共線性等無用信息對光譜曲線的影響[12]。為了達到較好的種類鑒別模型,需要使用光譜預處理技術消除以上不良影響。本文利用Unscrambler 9.7 (CAMO, Norway)軟件,對樣本的光譜曲線分別進行了Savitzky Golay 平滑(S.G Smooth)、標準化(Normalize)、多元散射校正(MSC)和標準正態(tài)變量變換(SNV)4種預處理,具體結果和性能比較見下文。
2.4 建模方法
針對實驗樣本的光譜數(shù)據(jù),分別建立隨機森林模型(Random Forest, RF)[13-15]、K最近鄰模型(K-Nearest Neighbor, KNN)[16]、支持向量機模型(Support Vector Machine, SVM)[17-19]、偏最小二乘判別分析模型(Partial Least Square-discrimination Analysis, PLS-DA)[20]和簇類獨立軟模式模型(Soft independent modeling of class analogy, SIMCA)[21-22]。其中,PLS-DA算法在SIMCA-P 11.5 (Umetrics AB)軟件中實現(xiàn),其他算法通過 Matlab R2010 (Mathworks, USA)平臺中的自編代碼實現(xiàn)。
3.1 光譜數(shù)據(jù)預處理
光譜數(shù)據(jù)預處理的方法有許多,但是針對不同的光譜采集對象和建模方法,各種預處理方法的效果也不盡相同。本文選擇S.G Smooth、MSC、SNV和Normalize 4種預處理方法,分別對樣本的光譜數(shù)據(jù)進行預處理操作。
出于優(yōu)化模型性能的目的,我們使用選定的5種建模方法,分別依據(jù)未經(jīng)預處理的原始光譜數(shù)據(jù)和4種預處理方法處理后的數(shù)據(jù)建模,將分類結果的準確率作為評價標準。具體數(shù)據(jù)記錄于表2,每列的最大值加粗顯示。
表2 光譜數(shù)據(jù)預處理方法的性能比較
對于RF、KNN和SIMCA 3種模型,光譜數(shù)據(jù)的預處理能夠在不同程度上優(yōu)化分類結果:MSC和SNV的原理近似,二者處理后的數(shù)據(jù)均取得了相同的結果;Normalize方法與SNV的區(qū)別在于前者是基于光譜陣列來對一組光譜進行處理,而后者是基于光譜陣行對一條光譜進行處理,大多數(shù)情況下,后者的效果更好。
但是對于SVM和PLS-DA分類器,原始光譜數(shù)據(jù)的分類結果明顯優(yōu)于MSC、SNV和Normalize處理后的數(shù)據(jù)而稍遜于S.G Smooth方法,該方法是以上兩種分類器的最佳預處理方法。
總之,對于不同的分類器,光譜數(shù)據(jù)是否需要預處理、適合哪種預處理方法等問題,答案均不一致。因此應普遍嘗試各種預處理方法,用以構造性能最佳的分類模型。
3.2 模型的建立與評價標準
3.2.1 隨機森林模型的建立
隨機森林的基本思想是基于Bootstrap法每次隨機抽取相同數(shù)量的樣本,構成n個訓練集S1,S2,…,Sn,分別對應生成n棵決策樹C1,C2,…,Cn,每棵樹都從M維輸入數(shù)據(jù)中隨機選取m(m?M)維數(shù)據(jù),確定最佳分裂點。每棵樹盡可能地生長,最終采用投票制決定分類結果。在該模型建立過程中,通過計算袋外錯誤率(Out-of-bag error)確定生成樹的數(shù)量n=50;m的取值通常是M的因數(shù),通過遍歷法發(fā)現(xiàn),m=69時模型效果最佳。
3.2.2KNN模型的建立
KNN算法認為如果一個樣本在特征空間中的k個最相鄰的樣本中的大多數(shù)屬于某一個類別,則該樣本也屬于這個類別。因此,k值的確定是建模的核心問題。由于該算法的運算速度較快,因此同樣選擇了遍歷法,k=5時獲得最佳模型。
3.2.3SVM模型的建立
SVM算法在解決非線性、小樣本及在高維模式識別中表現(xiàn)出特有優(yōu)勢,近年來受到諸多關注,也在不斷發(fā)展。對于非線性問題,需要借助核技巧,通過一個非線性變換將輸入空間對應于特征空間,使得輸入空間中的超曲面模型對應于特征空間中的超平面模型,從而在特征空間中求解線性支持向量機就可以完成分類[23],此時的優(yōu)化函數(shù)為:
(2)
(3)
(4)
其中K(xi,xj)是核函數(shù);C是懲罰因子,用于實現(xiàn)算法復雜度和錯分樣本的比例的折中。常用的核函數(shù)包括線性核函數(shù)、多項式核函數(shù)、徑向基核函數(shù)以及Sigmoid核函數(shù),每個核函數(shù)都有核參數(shù)g。SVM模型的優(yōu)劣,直接取決于懲罰參數(shù)C和核參數(shù)g的選擇。本文采用了網(wǎng)格搜索法[24],初步搜索范圍是:
(5)
其中k∈[-5,20],l=[3,-20],結合V重交叉驗證,尋找最佳參數(shù)。實驗結果證明,確定各類核函數(shù)的最佳參數(shù)后,線性核函數(shù)的分類效果明顯優(yōu)于其他核函數(shù),相應的參數(shù)為C=220,g=2-4。
3.2.4 PLS-DA模型的建立
PLS-DA算法是基于PLS方法建立的樣本分類變量與光譜特征間的回歸模型。首先按照樣本實際類別特征賦予校正集樣本的分類變量值,再利用PLS回歸方法對校正集樣本的光譜與樣本對應的分類變量進行回歸分析,建立光譜特征與分類變量間的PLS模型。對于K類分類問題,每個樣本的判別結果包含K個0~1之間的數(shù)值,對應每個類別;待分類樣本屬于判別結果大于閾值cut-offvalue的類。由此可知,預測集樣本的判別結果并非只有一類,也可能同時被歸為多個類別,或不屬于任何類別,這類模型被稱為多類方法根據(jù)實驗,cut-offvalue取值0.5時,模型R2Y值為0.957,Q2值為0.849,說明模型的吻合度和預測能力都達到較高的水平。
圖1PLS-DA三維分布圖。(a)全部樣本的PC1、PC2、PC3分布圖;(b)S1、S5樣本的PC1、PC2、PC3分布圖;(c)S2、S3、S4樣本的PC1、PC2、PC4分布圖。
Fig.1PLS-DA3Dscatterplots. (a)ScatterplotsonPC1,PC2andPC3ofallthesamples. (b)ScatterplotsonPC1,PC2andPC3ofS1andS5. (c)ScatterplotonPC1,PC2andPC4ofS2,S3andS4. (Multi-classesmethod)。
圖1是PLS-DA模型的三維權重分布圖,其中半透明圓球為模型的95%置信區(qū)間。圖1(a)是全部樣本在PC1-PC3方向上的分布,大致分為3簇:S6、S1-S5、S2-S3-S4。S6樣本的分布稍顯零散,部分樣本處于置信區(qū)間外,但仍與其他樣本的距離較遠,不妨礙樣本的種類區(qū)分。由圖1(a)可知,3簇樣本間的距離較遠,容易區(qū)分。若坐標系中僅顯示S1和S5樣本,結果見圖1(b),可知二者基本可被區(qū)分,但有個別S5樣本混入S1區(qū)域內(nèi),可能造成混淆。圖1(c)是S2、S3、S4樣本在PC1、PC2和PC4上的分布,3類樣本基本可以被區(qū)分,但是S2與S3分類邊界稍模糊,可能造成混淆。
3.2.5SIMCA模型的建立
SIMCA方法也是多類方法,基本原理是針對每個類進行獨立的主成分分析,采用交叉驗證的預測殘差平方和(PRESS)值選擇主成分,建立主成分回歸模型,然后依據(jù)模型對未知樣本分類。實驗證明,顯著性水平(Significancelevel)為10%時,模型效果達到最佳。
圖2 各主成分模型間的距離。(a)各模型與P1模型的距離;(b)各模型與P2模型的距離。
Fig.2DistancebetweenPCAmodels. (a)DistancewithmodelP1. (b)DistancewithmodelP2.
圖2是各類墨粉的主成分模型之間的距離,可視為不同種墨粉之間的區(qū)分度,數(shù)值越大說明二者越容易區(qū)分。圖2(a)以S1模型為參照,可知S4與S1之間差別最大,但S5和S1的距離較??;圖2(b)以S2模型為參照,可知與S2最接近的模型是S3。比較圖1和圖2,可以發(fā)現(xiàn)二者表達的信息可以相互印證。
3.2.6 模型評價標準
基于以上5種模型,我們選擇準確率(Accuracy)、拒識率(Falserejectrate)和誤識率(Falseacceptrate)作為模型評價依據(jù)。準確率是通過判別模型將預測集中a類樣本準確判別為a類的概率,拒識率是未能將a類樣本判別為a類的概率,誤識率是將其他類樣本錯誤識別成a類的概率。其中準確率越接近100%,拒識率和誤識率越接近0,模型的性能越好。
3.3 激光打印墨粉光譜數(shù)據(jù)分類結果
為了建立墨粉光譜曲線與墨粉種類之間的關系,我們分別建立了RF、KNN、SVM、PLS-DA和SIMCA模型,并運用準確率、拒識率和誤識率3個參數(shù)分析判別結果。前文提到每類墨粉采集了30份光譜數(shù)據(jù)樣本,每次建模時都從中隨機抽取25份作為建模集,剩余5份作為預測集。照此方案,5種分類算法均運行40次,所有結果的平均值作為該方法分類能力的體現(xiàn),具體數(shù)據(jù)記錄于表3。
RF、KNN和SVM均屬于單一類別(Single-class)分類器,錯誤分類的樣本既是被拒識,又是被誤識,因此拒識率等于誤識率。通過表3的數(shù)據(jù)可知,RF模型的準確率雖已達到90%,但仍是5種分類模型中表現(xiàn)最差者。KNN模型性能略優(yōu)于RF,但是不如SVM和PLS-DA——準確率均為100%,而且拒識率和誤識率均為0。
PLS-DA和SIMCA作為多類模型,拒識率和誤識率則不一定相同。比較二者的分類結果,可知雖然SIMCA的準確率較之RF和KNN有顯著提高,但是誤識率與RF相同。這與SIMCA的建模方法有關——對于多維數(shù)據(jù),不同類別的子空間非常接近,形成不必要的重疊(Overlapping),導致一個樣本被同時判定為幾類墨粉。
錯分樣本原本歸屬的類別與分類器給出的類別為易混淆墨粉類別。表3中的記錄說明RF、KNN和SIMCA分類器錯分的樣本均集中在S1-S5和S2-S3之間,與PLS-DA模型和SIMCA模型展示的結果吻合,更進一步說明了以上兩組樣本的高光譜數(shù)據(jù)特征較為接近,區(qū)分難度大于其他種類。其中S1、S2和S3均是佳能LBP系列打印機原裝墨粉,而S5是惠普5100原裝墨粉。由此可知不同品牌的激光打印墨粉也有可能具備相似的光譜屬性,因此在文件檢驗鑒定工作中,打印機品牌不足以也不應該作為區(qū)分墨粉種類的依據(jù)。
表3 激光打印墨粉光譜預測集分類結果
利用高光譜圖像技術,結合化學計量法,能夠有效完成激光打印墨粉的種類鑒別。通過高光譜成像儀提取400~1 000nm波段的光譜信息,并據(jù)此建立了RF、KNN、SVM、PLS-DA和SIMCA統(tǒng)計模型,取得了較為理想的分類結果。比較分析結果表明,SVM和PLS-DA模型的效果最佳,準確率為100%,拒識率和誤識率為0;SIMCA、KNN和RF的效果依次變差。
為了最大程度地優(yōu)化分類模型,建模之前需要通過實驗確定是否需要進行光譜數(shù)據(jù)預處理以及應當選擇何種預處理方法。
對于成分接近、光譜屬性相似的激光打印墨粉,利用高光譜數(shù)據(jù)分類時仍有可能出現(xiàn)混淆的現(xiàn)象,該問題的解決方法有待進一步探索。
[1] 許可, 梁魯寧, 連園園. 線聚焦顯微激光拉曼光譜技術區(qū)分激光打印墨粉 [J]. 中國司法鑒定, 2011(2):27-30. XU K, LIANG L N, LIAN Y Y. Classification toners of laser printers with micro Raman spectroscopy [J].Chin.J.ForensicSci., 2011(2):27-30. (in Chinese)
[2] 張清華, 楊旭, 羅儀文, 等. 紅外光譜結合化學計量學方法在激光打印原裝黑色墨粉分析中的應用研究 [J]. 中國司法鑒定, 2014(5):28-33. ZHANG Q H, YANG X, LUO Y W,etal.. Analysis of original black toner of laser printers by infrared spectroscopy coupled with chemometrics [J].Chin.J.ForensicSci., 2014(5):28-33. (in Chinese)
[3] 羅儀文, 徐徹, 張清華, 等. LA-ICP-MS對激光打印原裝黑色墨粉元素成分的分析 [J]. 中國司法鑒定, 2015(1):27-32. LUO Y W, XU C, ZHANG Q H,etal.. Discrimination of original black toner by laser ablation inductively coupled plasma mass spectrometry [J].Chin.J.ForensicSci., 2015(1):27-32. (in Chinese)
[4] 馮愈欽, 吳龍國, 何建國, 等. 基于高光譜成像技術的長棗不同保藏溫度的可溶性固形物含量檢測方法 [J]. 發(fā)光學報, 2016, 37(8):1014-1022. FENG Y Q, WU L G, HE J G,etal.. Detection method of soluble solid of jujube at different preservative temperature based on hyper-spectral imaging technology [J].Chin.J.Lumin., 2016, 37(8):1014-1022. (in Chinese)
[5] 劉燕德, 鄧清. 基于高光譜成像技術的臍橙葉片的葉綠素含量及其分布測量 [J]. 發(fā)光學報, 2015, 36(8):957-961. LIU Y D, DENG Q. Measurement of chlorophyll distribution in navel orange leaves based on hyper-spectral imaging technique [J].Chin.J.Lumin., 2015, 36(8):957-961. (in Chinese)
[6] 吳龍國, 何建國, 劉貴珊, 等. 基于NIR高光譜成像技術的長棗蟲眼無損檢測 [J]. 發(fā)光學報, 2013, 34(11):1527-1532. WU L G, HE J G, LIU G S,etal.. Non-destructive detection of insect hole in jujube based on near-infrared hyperspectral imaging [J].Chin.J.Lumin., 2013, 34(11):1527-1532. (in Chinese)
[7] 鮑一丹, 陳納, 何勇, 等. 近紅外高光譜成像技術快速鑒別國產(chǎn)咖啡豆品種 [J]. 光學 精密工程, 2015, 23(2):349-355. BAO Y D, CHEN N, HE Y,etal.. Rapid identification of coffee bean variety by near infrared hyperspectral imaging technology [J].Opt.PrecisionEng., 2015, 23(2):349-355. (in Chinese)
[8] BRAUNS E B, DYER R B. Fourier transform hyperspectral visible imaging and the nondestructive analysis of potentially fraudulent documents [J].Appl.Spect., 2006, 60(8):833-840.
[10] KHAN Z, SHAFAIT F, MIAN A. Automatic ink mismatch detection for forensic document analysis [J].PatternRecognit., 2015, 48(11):3615-3626.
[11] EDELMAN G J, GASTON E, VAN LEEUWEN T G,etal.. Hyperspectral imaging for non-contact analysis of forensic traces [J].ForensicSci.Int., 2012, 223(1-3):28-39.
[12] RINNAN ?, VAN DEN BERG F, ENGELSEN S B. Review of the most common pre-processing techniques for near-infrared spectra [J].TrACTrendsAnalyt.Chem., 2009, 28(10):1201-1222.
[13] BREIMAN L. Random forests [J].Mach.Learn., 2001, 45(1):5-32.
[14] BREIMAN L, CUTLER A. Random forests [EB/OL]. (2004-06-06) [2016-04-15]. http://www.stat.berkeley.edu/~breiman/RandomForests/cc_home.htm.
[15] LIAW A, WIENER M. Classification and regression by random forest [J].RNews, 2002, 2-3:18-22.
[16] GUO G D, WANG H, BELL D,etal..KNNModel-basedApproachinClassification[M]. Berlin Heidelberg: Springer, 2003:986-996.
[17] DEVOS O, RUCKEBUSCH C, DURAND A,etal.. Support vector machines (SVM) in near infrared (NIR) spectroscopy: focus on parameters optimization and model interpretation [J].Chemom.Intell.Labor.Syst., 2009, 96(1):27-33.
[18] BELOUSOV A I, VERZAKOV S A, VON FRESE S J. A flexible classification approach with optimal generalisation performance: support vector machines [J].Chemom.Intell.Labor.Syst., 2002, 64(1):15-25.
[19] SANTOS F, GUYOMARC'H P, BRUZEK J. Statistical sex determination from craniometrics: comparison of linear discriminant analysis, logistic regression, and support vector machines [J].ForensicSci.Int., 2014, 245:204.e1-e8.
[20] BARKER M, RAYENS W. Partial least squares for discrimination [J].J.Chemom., 2003, 17(3):166-173.
[21] WOLD S. Pattern recognition by means of disjoint principal components models [J].PatternRecognit., 1976, 8(3):127-139.
[22] MUEHLETHALER C, MASSONNET G, ESSEIVA P. Discrimination and classification of FTIR spectra of red, blue and green spray paints using a multivariate statistical approach [J].ForensicSci.Int., 2014, 244:170-178.
[23] 李航. 統(tǒng)計學習方法 [M]. 北京: 清華大學出版社, 2012:116. LI H.StatisticalLearningMethod[M]. Beijing: Tsinghua University Press, 2012:116. (in Chinese)
[24] HSU C W, CHANG C C, LIN C J. A practical guide to support vector classification [EB/OL].(2016-05-19) [2016-06-26]. http://www.csie.ntu.edu.tw/~cjlin/papers/guide/guide.pdf.
劉猛(1988-),男,山東東平人,碩士,助教,2014年于中國公安大學獲得碩士學位,主要從事物證鑒定方面的研究。
E-mail: liumeng@zjjcxy.cn王楠(1988-),女,福建福州人,碩士,工程師,2013年于華東政法大學獲得碩士學位,主要從事文件檢驗和痕跡檢驗方面的研究。
E-mail: wangn@ssfjd.cn申思(1989-),女,河南開封人,碩士,助教,2011年于中國刑事警察學院獲得碩士學位,主要從事文件檢驗鑒定方面的研究。
E-mail: shengsi@zjjcxy.cn
Rapid Identification of Black Toner Variety by Visible and Near Infrared Hyperspectral Imaging Technology
LIU Meng1,2, SHEN Si1,2*, WANG Nan3*
(1.KeyLaboratoryofTheQuestionedDocumentExamination(ChinaCriminalPoliceUniversity),MinistryofPublicSecurityofChina,Shenyang100035,China;2.DepartmentofForensicScience,ZhejiangPoliceCollege,Hangzhou310053,China;3.InstituteofForensicScience,MinistryofJustice,PRC,Shanghai200063,China)
In order to develop rapid and non-destructive method for identification of laser printer toner, six kinds of black toner were identified rapidly by combining hyperspectral imaging technique and five kinds of statistical learning method. Method: a visible and near-infrared hyperspectral imaging system covering the spectral range of 400-1 000 nm was set up to capture hyperspectral images of toner samples. Savitzky Golay smooth, normalize, multiple scatter correction and standard normal varite were applied as preprocessing method. After that, five statistical learning methods, including Random Forest (RF), K-nearest Neighbor (KNN), Support Vector Machine (SVM), Partial Least Square-discriminant analysis (PLS-DA) and Soft Independent Modeling of Class Analogy (SIMCA) were applied to establishment of discriminant models based on the full spectra. The properties of discriminant models were compared and valued by three parameters, precision, false reject rate (FRR) and false accept rate (FAR). Result: Among all discriminant models, the SVM and PLS-DA model show the best identification result, the precision is 100%, FRR and FAR are both 0. Conclusion: black toner could be identified by visible and near-infrared hyperspectral imaging technique combined with statistical learning method rapidly.
hyperspectral imaging; toner identification; statistical learning method; SVM; PLS-DA
1000-7032(2017)05-0662-07
2016-11-09;
2016-12-15
文件檢驗鑒定公安部重點實驗室(中國刑事警察學院)課題(2015KFKT09); 浙江警察學院校局合作項目(2016XJY014)資助 Supported by Key Laboratory of The Questioned Document Examination(China Criminal Police University), Ministry of Public Security of China(2015KFKT09); School and Bureau Cooperation Program of Zhejiang Police College(2016XJY014)
O433.4; DF794.2
A
10.3788/fgxb20173805.0662
*CorrespondingAuthors,E-mail:shengsi@zjjcxy.cn;wangn@ssfid.cn