王書越,楊玉柱,何偉文,李潤(rùn)康
(中國(guó)人民公安大學(xué) 偵查學(xué)院,北京 100038)
近年來(lái),簽字筆以其書寫流暢、供墨穩(wěn)定、顏色持久等優(yōu)勢(shì)受到人們的青睞,逐漸取代了圓珠筆和鋼筆在市場(chǎng)上的主導(dǎo)地位。簽字筆可根據(jù)墨水成分分為水性筆、油性筆和中性筆,其中,中性筆使用最為廣泛。簽字筆墨跡是文件、證件、支票等造假案件中的重要證據(jù)。法庭科學(xué)家們通過(guò)分析可疑筆跡的墨水種類,可以了解一些書寫行為并推斷書寫工具是否具有同一性[1-2]。因此,設(shè)計(jì)一種快速、準(zhǔn)確的方法鑒別簽字筆墨水種類對(duì)解決涉及筆跡檢驗(yàn)的經(jīng)濟(jì)案件或民事糾紛具有重要的理論和實(shí)際意義。
墨水種類的鑒定方法可以分為有損檢驗(yàn)和無(wú)損檢驗(yàn)。薄層色譜法[3-4]、高效液相色譜法[5]等通過(guò)對(duì)墨水著色劑成分的分離實(shí)現(xiàn)墨水的種類鑒定,但此類方法破壞了樣本的原始性,且耗費(fèi)大量的時(shí)間。紫外-可見(jiàn)光譜法[6]、顯微分光光度法[7]、傅里葉變換紅外光譜法[8]、拉曼光譜法[9-10]和近紅外光譜法[11]等可進(jìn)行快速、靈敏、無(wú)損分析,使墨水的種類鑒定不僅基于著色劑的組成,而且基于添加劑和元素含量的差異。高光譜成像技術(shù)(Hyperspectral imaging,HSI)是一種較新的法庭科學(xué)分析工具,具有多波段、波長(zhǎng)范圍寬、非接觸、圖譜合一等特點(diǎn),最大限度地減少了試劑消耗和樣本制備過(guò)程。利用高光譜相機(jī)可以同時(shí)獲得待測(cè)物的空間和光譜信息,形成一個(gè)圖像數(shù)據(jù)立方體[12]。由于物體反射光譜的唯一性,因此可以區(qū)分化學(xué)成分相似的墨水之間光譜的細(xì)微差異。Reed 等[13]利用HSI鑒別了白色辦公紙上不同品牌型號(hào)的藍(lán)色、紅色和黑色中性筆墨水,Devassy等[14]在中性筆墨水高光譜數(shù)據(jù)分析中比較了主成分分析和t-隨機(jī)鄰近嵌入算法降維的效果并進(jìn)行了評(píng)價(jià)。
盡管高光譜成像技術(shù)在墨水種類鑒別方面具有優(yōu)勢(shì),但黑色簽字筆墨水成分基本相同,數(shù)據(jù)差異小,難以通過(guò)觀察進(jìn)行區(qū)分。因此本實(shí)驗(yàn)基于常見(jiàn)黑色簽字筆墨水的高光譜數(shù)據(jù),借助機(jī)器學(xué)習(xí)算法建立了線性判別分析模型(Linear discriminant analysis,LDA)和隨機(jī)子空間-線性判別分析集成模型(Random subspace method-linear discriminant analysis,RSM-LDA),實(shí)現(xiàn)了高光譜數(shù)據(jù)的深度挖掘和黑色簽字筆墨水種類的準(zhǔn)確分類。
采用深圳中達(dá)瑞和科技有限公司SEC-E1100凝視型高光譜成像儀,光譜范圍為450~950 nm,掃描精度為1 nm,采樣間隔通道為10 nm,照明光源為4 盞50 W 鹵素?zé)簦ㄗ蟆⒂逸S各2 盞),照明角度為45°,工作溫度為32.9 ℃,曝光時(shí)間為標(biāo)定光源參數(shù)。
實(shí)驗(yàn)材料為我國(guó)市場(chǎng)上常見(jiàn)的黑色簽字筆,共15 個(gè)品牌36 個(gè)型號(hào)。將收集到的36 支黑色簽字筆依次編號(hào),在同一規(guī)格的白色A4 打印紙上依次書寫“1 號(hào)”至“36 號(hào)”字樣,每支筆重復(fù)書寫3 次,制備過(guò)程中避免污染。
采集時(shí)將書寫材料放置于專用平臺(tái)中央,調(diào)焦清晰后采集高光譜圖像。為消除由光源強(qiáng)度分布不均帶來(lái)的噪音,對(duì)高光譜設(shè)備記錄的所有圖像進(jìn)行黑白校正。白板標(biāo)定圖像(W)是由制造商提供的標(biāo)準(zhǔn)聚四氟乙烯白瓷磚得到的圖像,黑板標(biāo)定圖像(D)為關(guān)閉光源并合上鏡頭蓋后采集的圖像,每個(gè)樣本的校正圖像(I)通過(guò)方程(1)從原始光譜圖像(Isample)中獲得。
使用ENVI 5.3 軟件讀取校正后的高光譜圖像信息,為確保所選特征點(diǎn)均勻、不重復(fù)且具有代表性,對(duì)每支黑色簽字筆的3 份平行高光譜圖像分別手動(dòng)選取6 個(gè)含50 個(gè)像元的感興趣區(qū)域(Region of interest,ROI),即每支黑色簽字筆高光譜圖像可提取18個(gè)ROI,得到相應(yīng)的平均光譜值。最終,從36支黑色簽字筆筆跡的高光譜圖像中共提取到648個(gè)原始平均光譜值,作為樣本集。
在采集過(guò)程中,由于書寫材料背景和雜散光等的影響,會(huì)產(chǎn)生其他無(wú)關(guān)信息和噪音,直接建模時(shí)將影響建模效果[15]。因此,光譜預(yù)處理采用Savitzky-Golay 平滑(S-G 平滑)、Z-Score 標(biāo)準(zhǔn)化和兩者組合的預(yù)處理方法。S-G 平滑是最常用的去噪聲方法,其實(shí)質(zhì)是一種加權(quán)平均法。本實(shí)驗(yàn)采用7 點(diǎn)S-G平滑,以窗口內(nèi)中心波長(zhǎng)點(diǎn)k及前后w點(diǎn)處的測(cè)量值按照(2)式計(jì)算所得的平均值-xk代替波長(zhǎng)點(diǎn)的測(cè)量值,自左至右依次移動(dòng)k,完成對(duì)所有點(diǎn)的平滑。
此外,不同樣品在同一儀器參數(shù)下得到的高光譜相對(duì)強(qiáng)度差異較大,為使數(shù)據(jù)指標(biāo)之間具有可比性,旨在消除數(shù)據(jù)量綱影響的標(biāo)準(zhǔn)化對(duì)模型的建立至關(guān)重要。Z-Score標(biāo)準(zhǔn)化為常用方法,其公式為:
式中,x~ 為標(biāo)準(zhǔn)化后的觀測(cè)值,x為某一觀測(cè)值,xˉ為所有觀測(cè)值的平均值,σ為所有觀測(cè)值的標(biāo)準(zhǔn)差。
數(shù)據(jù)預(yù)處理和建模分析軟件使用Matlab 2019a。
線性判別分析(LDA)是一種泛化性能良好且應(yīng)用廣泛的分類模型,其原理是將高維的樣本投影到某個(gè)空間,使訓(xùn)練樣本在新空間具有最大的類間距離和最小的類內(nèi)距離[16],而在測(cè)試階段,該模型可將新樣本識(shí)別為新空間下最近類中心的一類[17-18]。在多分類問(wèn)題中,為了得到新空間的投影向量,一般定義類間散度矩陣為:
式中,L為類別數(shù),Pi為第i類別的先驗(yàn)概率,mi為第i類別的均值,m為整個(gè)樣本集的均值。
式中,ni為第i類別的樣本個(gè)數(shù),為第i類別的第l樣本。線性判別函數(shù)即最佳投影向量e可以表示為:
這相當(dāng)于找到下列廣義特征值問(wèn)題的最大特征值λ:
在找到最佳投影向量后,將投影后的新樣本分配到距離最小的類別。本實(shí)驗(yàn)最終得到35個(gè)判別函數(shù),其中方差貢獻(xiàn)度最大的為第一判別函數(shù),如下:y= 0.08x1-0.04x2+ 0.27x3+ 0.15x4-0.31x5-0.09x6+ 0.11x7+ 0.10x8+ 0.06x9-0.09x10-0.17x11-0.01x12+ 0.20x13-0.14x14+ 0.13x15+ 0.18x16-0.32x17+0.22x18-0.05x19-0.20x20-0.04x21+0.17x22+0.12x23+0.14x24-0.16x25-0.27x26-0.03x27+0.01x28-0.11x29+0.12x30-0.09x31+0.26x32-0.15x33+0.09x34+0.10x36-0.01x37+0.03x38+0.11x39+0.02x40+0.01x41+0.01x42-0.21x43+0.01x44+0.03x45+0.06x46+0.15x47-0.03x48-0.09x49-0.12x50+0.07x51。
圖1 RSM-LDA工作流程Fig.1 Workflow of RSM-LDA
648 個(gè)樣本的平均原始光譜見(jiàn)圖2,其在470~550 nm 波段內(nèi)呈緩慢下降趨勢(shì),550 nm 處有一個(gè)小的吸收峰;550~680 nm 波段內(nèi)的變化幅度小,曲線較為平緩;當(dāng)波長(zhǎng)大于680 nm 之后,光譜反射率增強(qiáng),光譜曲線總體呈上升趨勢(shì),其中一部分迅速上升,在890 nm 后較為平緩;其余大多數(shù)曲線緩慢上升,在740 nm 處有一個(gè)小的吸收峰。該結(jié)果表明有兩類黑色簽字筆的墨水成分差異很大。其余不同種類黑色簽字筆墨水的高光譜圖像形態(tài)高度一致,需要借助機(jī)器學(xué)習(xí)對(duì)高光譜數(shù)據(jù)進(jìn)行分析。
圖2 648個(gè)樣本的原始光譜圖Fig.2 Raw spectra of 648 samples
對(duì)原始光譜進(jìn)行Savitzky-Golay 平滑、Z-Score 標(biāo)準(zhǔn)化和兩者組合的光譜預(yù)處理,以預(yù)處理后數(shù)據(jù)所建模型的交叉驗(yàn)證準(zhǔn)確率(ACCCV)作為預(yù)處理方法的選擇依據(jù)。圖3A 展示了不同預(yù)處理方法下光譜的LDA 模型分類結(jié)果,未進(jìn)行預(yù)處理的準(zhǔn)確率達(dá)98.61%,單獨(dú)使用S-G 平滑后,準(zhǔn)確率上升到98.88%,表明S-G 平滑可以有效提高光譜的平滑性,降低噪音干擾;單獨(dú)使用Z-Score 標(biāo)準(zhǔn)化,準(zhǔn)確率無(wú)明顯提升;兩種預(yù)處理方法同時(shí)使用,準(zhǔn)確率達(dá)99.07%。圖3B 展示了不同預(yù)處理方法下光譜的RSM-LDA 模型分類結(jié)果,不難發(fā)現(xiàn),預(yù)處理對(duì)模型的分類準(zhǔn)確率無(wú)影響,表明該模型的學(xué)習(xí)能力和穩(wěn)健性強(qiáng)。最終采用S-G 平滑和Z-Score 標(biāo)準(zhǔn)化組合方法對(duì)原始光譜進(jìn)行預(yù)處理,結(jié)果如圖4所示。
圖3 不同預(yù)處理方法的分類結(jié)果Fig.3 Classification results of different pre-processing methods
圖4 預(yù)處理后的樣本光譜曲線Fig.4 Spectral curves after combination of S-G smoothing and Z-Score pretreatment for sample
將數(shù)據(jù)集以均勻隨機(jī)抽樣的方式按4∶1 的比例分為訓(xùn)練集(Train set)和測(cè)試集(Test set),其中訓(xùn)練集用于訓(xùn)練模型的參數(shù)和評(píng)估模型的擬合能力,測(cè)試集用于評(píng)價(jià)模型的泛化能力。對(duì)每個(gè)模型進(jìn)行五倍交叉驗(yàn)證,根據(jù)求得的誤分類率的均值調(diào)整模型參數(shù)。由于黑色簽字筆墨水大部分譜圖規(guī)律高度一致,為了防止圖像中的細(xì)微信息丟失,本實(shí)驗(yàn)選擇直接對(duì)全譜圖數(shù)據(jù)進(jìn)行分析。
研究表明,LDA 和RSM-LDA 模型訓(xùn)練集的平均分類準(zhǔn)確率分別為99.54%和100%,交叉驗(yàn)證平均分類準(zhǔn)確率分別為98.16%和99.09%,兩種模型測(cè)試集的分類結(jié)果如圖5所示。對(duì)于測(cè)試集的129個(gè)樣本,LDA模型有20個(gè)樣本被誤判,RSM-LDA模型有12個(gè)樣本被誤判。綜上所述,LDA模型測(cè)試集平均分類準(zhǔn)確率為84.50%,RSM-LDA 模型測(cè)試集平均分類準(zhǔn)確率為90.70%,比LDA 模型提高了6.20%。兩種分類模型均可有效區(qū)分不同品牌型號(hào)的黑色簽字筆墨水,其中,RSM-LDA模型的分類效果更佳。
圖5 LDA(A)和RSM-LDA(B)測(cè)試集分類結(jié)果Fig.5 Classification results of test set of LDA model(A)and RSM-LDA model(B)blue hollow diamonds represent the actual category,and red solid circles represent the predicted category
2.4.1 準(zhǔn)確率、精準(zhǔn)率及召回率 為了解模型的泛化能力,考察了LDA 和RSM-LDA 分類模型每類樣本的準(zhǔn)確率、精準(zhǔn)率和召回率,如表1 所示。準(zhǔn)確率即預(yù)測(cè)正確的結(jié)果占總樣本的百分比;精準(zhǔn)率指所有被預(yù)測(cè)為正的樣本中實(shí)際為正的樣本的概率;召回率指實(shí)際為正的樣本中被預(yù)測(cè)為正樣本的概率。以上3 個(gè)指標(biāo)越大,則說(shuō)明模型分類能力越強(qiáng)。
從表1可以看出,36類黑色簽字筆墨水樣本的LDA模型和RSM-LDA模型準(zhǔn)確率均不低于97.9%,可以有效區(qū)分樣本。在LDA 模型中,1 號(hào)晨光牌(ARP50904)、12 號(hào)晨光牌(AGPA3903)和23 號(hào)得勁牌(17A)的樣本準(zhǔn)確率最高,達(dá)到100%;16號(hào)成田良品牌(80)和31號(hào)愛(ài)好牌(47920)的樣本準(zhǔn)確率最低,為97.9%。而在RSM-LDA 模型中,有11 類樣本可100%準(zhǔn)確分類,準(zhǔn)確率最低為97.9%,為28 號(hào)樣本。在精準(zhǔn)率方面,LDA 模型有10 類樣本可達(dá)100%,80%及以下的有11 類,最低的是31 號(hào)樣本,為58.8%;而RSM-LDA 模型有15類樣本精準(zhǔn)率可達(dá)100%,80%以下的只有5類,最低的是3號(hào)和5號(hào)樣本,為62.5%。其中,有19 類樣本在使用了RSM-LDA 模型后精準(zhǔn)率有所提升,只有5 類樣本略有下降。就召回率而言,LDA模型有10類樣本達(dá)100%,80%以下的有11類,最低的是28號(hào)真彩牌(0221B)和29號(hào)三菱牌(UB-150)的樣本,為50.0%;而RSM-LDA 模型有15類樣本召回率達(dá)100%,80%以下的有7類,最低為50.0%,同樣是28號(hào)和29號(hào)樣本。其中,有15類樣本在使用了RSM-LDA模型后召回率有所提升,只有3 類樣本略有下降。由此可見(jiàn),RSM-LDA 模型可以更有效地區(qū)分黑色簽字筆墨水種類且泛化能力良好。
表1 36類樣本的準(zhǔn)確率、精準(zhǔn)率和召回率Table 1 The accuracy,precision and recall of 36 classes samples
2.4.2 接受者操作特征曲線 為進(jìn)行更全面的評(píng)估,本實(shí)驗(yàn)考察了兩種模型的接受者操作特征曲線(Receiver operating characteristic curve,ROC),如圖6 所示。ROC 曲線下方面積(Area under ROC curve,AUC)可用于評(píng)估模型的性能,AUC 越大,模型分類性能越強(qiáng)[22]。結(jié)果表明RSM-LDA 模型具有更大的AUC(0.998 3),這是因?yàn)殡S機(jī)特征選擇產(chǎn)生多個(gè)分類器,RSM-LDA模型比LDA模型對(duì)噪聲的抵抗力更強(qiáng),對(duì)頻譜的穩(wěn)定性要求更低。
圖6 ROC曲線Fig.6 ROC curve
高光譜成像技術(shù)結(jié)合RSM-LDA 模型可用于不同品牌、同品牌不同型號(hào)黑色簽字筆的快速分類鑒別。本研究對(duì)36 支黑色簽字筆墨水的原始光譜數(shù)據(jù)進(jìn)行S-G 平滑和Z-Score 標(biāo)準(zhǔn)化組合預(yù)處理后,分別采用LDA 和RSM-LDA方法建立了黑色簽字筆墨水種類的鑒別模型。兩種方法分類結(jié)果均較好,且RSM-LDA 模型的分類效果和穩(wěn)健性優(yōu)于LDA 單一模型,其訓(xùn)練集的平均分類準(zhǔn)確率為100%,交叉驗(yàn)證平均分類準(zhǔn)確率為99.09%,測(cè)試集的平均分類準(zhǔn)確率為90.70%,模型的AUC 值達(dá)0.998 3,模型性能良好,為筆跡檢驗(yàn)提供了一種新的快速、無(wú)損方法。后續(xù)應(yīng)擴(kuò)大樣本類型及數(shù)量,建立完備的樣本庫(kù),以期為法庭科學(xué)墨水檢驗(yàn)構(gòu)建新平臺(tái)。