亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

基于高光譜的黑色簽字筆墨水種類鑒別方法研究

2021-11-03 09:21:24王書越楊玉柱何偉文李潤(rùn)康

分析測(cè)試學(xué)報(bào) 2021年10期

關(guān)鍵詞：分類模型

王書越，楊玉柱，何偉文，李潤(rùn)康

（中國(guó)人民公安大學(xué) 偵查學(xué)院，北京 100038）

近年來(lái)，簽字筆以其書寫流暢、供墨穩(wěn)定、顏色持久等優(yōu)勢(shì)受到人們的青睞，逐漸取代了圓珠筆和鋼筆在市場(chǎng)上的主導(dǎo)地位。簽字筆可根據(jù)墨水成分分為水性筆、油性筆和中性筆，其中，中性筆使用最為廣泛。簽字筆墨跡是文件、證件、支票等造假案件中的重要證據(jù)。法庭科學(xué)家們通過(guò)分析可疑筆跡的墨水種類，可以了解一些書寫行為并推斷書寫工具是否具有同一性［1－2］。因此，設(shè)計(jì)一種快速、準(zhǔn)確的方法鑒別簽字筆墨水種類對(duì)解決涉及筆跡檢驗(yàn)的經(jīng)濟(jì)案件或民事糾紛具有重要的理論和實(shí)際意義。

墨水種類的鑒定方法可以分為有損檢驗(yàn)和無(wú)損檢驗(yàn)。薄層色譜法［3－4］、高效液相色譜法［5］等通過(guò)對(duì)墨水著色劑成分的分離實(shí)現(xiàn)墨水的種類鑒定，但此類方法破壞了樣本的原始性，且耗費(fèi)大量的時(shí)間。紫外－可見(jiàn)光譜法［6］、顯微分光光度法［7］、傅里葉變換紅外光譜法［8］、拉曼光譜法［9－10］和近紅外光譜法［11］等可進(jìn)行快速、靈敏、無(wú)損分析，使墨水的種類鑒定不僅基于著色劑的組成，而且基于添加劑和元素含量的差異。高光譜成像技術(shù)（Hyperspectral imaging，HSI）是一種較新的法庭科學(xué)分析工具，具有多波段、波長(zhǎng)范圍寬、非接觸、圖譜合一等特點(diǎn)，最大限度地減少了試劑消耗和樣本制備過(guò)程。利用高光譜相機(jī)可以同時(shí)獲得待測(cè)物的空間和光譜信息，形成一個(gè)圖像數(shù)據(jù)立方體［12］。由于物體反射光譜的唯一性，因此可以區(qū)分化學(xué)成分相似的墨水之間光譜的細(xì)微差異。Reed 等［13］利用HSI鑒別了白色辦公紙上不同品牌型號(hào)的藍(lán)色、紅色和黑色中性筆墨水，Devassy等［14］在中性筆墨水高光譜數(shù)據(jù)分析中比較了主成分分析和t-隨機(jī)鄰近嵌入算法降維的效果并進(jìn)行了評(píng)價(jià)。

盡管高光譜成像技術(shù)在墨水種類鑒別方面具有優(yōu)勢(shì)，但黑色簽字筆墨水成分基本相同，數(shù)據(jù)差異小，難以通過(guò)觀察進(jìn)行區(qū)分。因此本實(shí)驗(yàn)基于常見(jiàn)黑色簽字筆墨水的高光譜數(shù)據(jù)，借助機(jī)器學(xué)習(xí)算法建立了線性判別分析模型（Linear discriminant analysis，LDA）和隨機(jī)子空間－線性判別分析集成模型（Random subspace method－linear discriminant analysis，RSM－LDA），實(shí)現(xiàn)了高光譜數(shù)據(jù)的深度挖掘和黑色簽字筆墨水種類的準(zhǔn)確分類。

1 實(shí)驗(yàn)部分

1.1 儀器與實(shí)驗(yàn)材料

采用深圳中達(dá)瑞和科技有限公司SEC－E1100凝視型高光譜成像儀，光譜范圍為450～950 nm，掃描精度為1 nm，采樣間隔通道為10 nm，照明光源為4 盞50 W 鹵素?zé)簦ㄗ蟆⒂逸S各2 盞），照明角度為45°，工作溫度為32.9 ℃，曝光時(shí)間為標(biāo)定光源參數(shù)。

實(shí)驗(yàn)材料為我國(guó)市場(chǎng)上常見(jiàn)的黑色簽字筆，共15 個(gè)品牌36 個(gè)型號(hào)。將收集到的36 支黑色簽字筆依次編號(hào)，在同一規(guī)格的白色A4 打印紙上依次書寫“1 號(hào)”至“36 號(hào)”字樣，每支筆重復(fù)書寫3 次，制備過(guò)程中避免污染。

1.2 光譜采集與校正

采集時(shí)將書寫材料放置于專用平臺(tái)中央，調(diào)焦清晰后采集高光譜圖像。為消除由光源強(qiáng)度分布不均帶來(lái)的噪音，對(duì)高光譜設(shè)備記錄的所有圖像進(jìn)行黑白校正。白板標(biāo)定圖像（W）是由制造商提供的標(biāo)準(zhǔn)聚四氟乙烯白瓷磚得到的圖像，黑板標(biāo)定圖像（D）為關(guān)閉光源并合上鏡頭蓋后采集的圖像，每個(gè)樣本的校正圖像（I）通過(guò)方程（1）從原始光譜圖像（Isample）中獲得。

1.3 數(shù)據(jù)提取與預(yù)處理

使用ENVI 5.3 軟件讀取校正后的高光譜圖像信息，為確保所選特征點(diǎn)均勻、不重復(fù)且具有代表性，對(duì)每支黑色簽字筆的3 份平行高光譜圖像分別手動(dòng)選取6 個(gè)含50 個(gè)像元的感興趣區(qū)域（Region of interest，ROI），即每支黑色簽字筆高光譜圖像可提取18個(gè)ROI，得到相應(yīng)的平均光譜值。最終，從36支黑色簽字筆筆跡的高光譜圖像中共提取到648個(gè)原始平均光譜值，作為樣本集。

在采集過(guò)程中，由于書寫材料背景和雜散光等的影響，會(huì)產(chǎn)生其他無(wú)關(guān)信息和噪音，直接建模時(shí)將影響建模效果［15］。因此，光譜預(yù)處理采用Savitzky－Golay 平滑（S－G 平滑）、Z－Score 標(biāo)準(zhǔn)化和兩者組合的預(yù)處理方法。S－G 平滑是最常用的去噪聲方法，其實(shí)質(zhì)是一種加權(quán)平均法。本實(shí)驗(yàn)采用7 點(diǎn)S－G平滑，以窗口內(nèi)中心波長(zhǎng)點(diǎn)k及前后w點(diǎn)處的測(cè)量值按照（2）式計(jì)算所得的平均值-xk代替波長(zhǎng)點(diǎn)的測(cè)量值，自左至右依次移動(dòng)k，完成對(duì)所有點(diǎn)的平滑。

此外，不同樣品在同一儀器參數(shù)下得到的高光譜相對(duì)強(qiáng)度差異較大，為使數(shù)據(jù)指標(biāo)之間具有可比性，旨在消除數(shù)據(jù)量綱影響的標(biāo)準(zhǔn)化對(duì)模型的建立至關(guān)重要。Z－Score標(biāo)準(zhǔn)化為常用方法，其公式為：

式中，x～為標(biāo)準(zhǔn)化后的觀測(cè)值，x為某一觀測(cè)值，xˉ為所有觀測(cè)值的平均值，σ為所有觀測(cè)值的標(biāo)準(zhǔn)差。

數(shù)據(jù)預(yù)處理和建模分析軟件使用Matlab 2019a。

1.4 模型建立

線性判別分析（LDA）是一種泛化性能良好且應(yīng)用廣泛的分類模型，其原理是將高維的樣本投影到某個(gè)空間，使訓(xùn)練樣本在新空間具有最大的類間距離和最小的類內(nèi)距離［16］，而在測(cè)試階段，該模型可將新樣本識(shí)別為新空間下最近類中心的一類［17－18］。在多分類問(wèn)題中，為了得到新空間的投影向量，一般定義類間散度矩陣為：

式中，L為類別數(shù)，Pi為第i類別的先驗(yàn)概率，mi為第i類別的均值，m為整個(gè)樣本集的均值。

式中，ni為第i類別的樣本個(gè)數(shù)，為第i類別的第l樣本。線性判別函數(shù)即最佳投影向量e可以表示為：

這相當(dāng)于找到下列廣義特征值問(wèn)題的最大特征值λ：

在找到最佳投影向量后，將投影后的新樣本分配到距離最小的類別。本實(shí)驗(yàn)最終得到35個(gè)判別函數(shù)，其中方差貢獻(xiàn)度最大的為第一判別函數(shù)，如下：y= 0.08x1－0.04x2+ 0.27x3+ 0.15x4－0.31x5－0.09x6+ 0.11x7+ 0.10x8+ 0.06x9－0.09x10－0.17x11－0.01x12+ 0.20x13－0.14x14+ 0.13x15+ 0.18x16－0.32x17+0.22x18－0.05x19－0.20x20－0.04x21+0.17x22+0.12x23+0.14x24－0.16x25－0.27x26－0.03x27+0.01x28－0.11x29+0.12x30－0.09x31+0.26x32－0.15x33+0.09x34+0.10x36－0.01x37+0.03x38+0.11x39+0.02x40+0.01x41+0.01x42－0.21x43+0.01x44+0.03x45+0.06x46+0.15x47－0.03x48－0.09x49－0.12x50+0.07x51。

圖1 RSM－LDA工作流程Fig.1 Workflow of RSM－LDA

2 結(jié)果與討論

2.1 原始光譜分析

648 個(gè)樣本的平均原始光譜見(jiàn)圖2，其在470～550 nm 波段內(nèi)呈緩慢下降趨勢(shì)，550 nm 處有一個(gè)小的吸收峰；550～680 nm 波段內(nèi)的變化幅度小，曲線較為平緩；當(dāng)波長(zhǎng)大于680 nm 之后，光譜反射率增強(qiáng)，光譜曲線總體呈上升趨勢(shì)，其中一部分迅速上升，在890 nm 后較為平緩；其余大多數(shù)曲線緩慢上升，在740 nm 處有一個(gè)小的吸收峰。該結(jié)果表明有兩類黑色簽字筆的墨水成分差異很大。其余不同種類黑色簽字筆墨水的高光譜圖像形態(tài)高度一致，需要借助機(jī)器學(xué)習(xí)對(duì)高光譜數(shù)據(jù)進(jìn)行分析。

圖2 648個(gè)樣本的原始光譜圖Fig.2 Raw spectra of 648 samples

2.2 數(shù)據(jù)預(yù)處理

對(duì)原始光譜進(jìn)行Savitzky－Golay 平滑、Z－Score 標(biāo)準(zhǔn)化和兩者組合的光譜預(yù)處理，以預(yù)處理后數(shù)據(jù)所建模型的交叉驗(yàn)證準(zhǔn)確率（ACCCV）作為預(yù)處理方法的選擇依據(jù)。圖3A 展示了不同預(yù)處理方法下光譜的LDA 模型分類結(jié)果，未進(jìn)行預(yù)處理的準(zhǔn)確率達(dá)98.61%，單獨(dú)使用S－G 平滑后，準(zhǔn)確率上升到98.88%，表明S－G 平滑可以有效提高光譜的平滑性，降低噪音干擾；單獨(dú)使用Z－Score 標(biāo)準(zhǔn)化，準(zhǔn)確率無(wú)明顯提升；兩種預(yù)處理方法同時(shí)使用，準(zhǔn)確率達(dá)99.07%。圖3B 展示了不同預(yù)處理方法下光譜的RSM－LDA 模型分類結(jié)果，不難發(fā)現(xiàn)，預(yù)處理對(duì)模型的分類準(zhǔn)確率無(wú)影響，表明該模型的學(xué)習(xí)能力和穩(wěn)健性強(qiáng)。最終采用S－G 平滑和Z－Score 標(biāo)準(zhǔn)化組合方法對(duì)原始光譜進(jìn)行預(yù)處理，結(jié)果如圖4所示。

圖3 不同預(yù)處理方法的分類結(jié)果Fig.3 Classification results of different pre-processing methods

圖4 預(yù)處理后的樣本光譜曲線Fig.4 Spectral curves after combination of S－G smoothing and Z－Score pretreatment for sample

2.3 黑色簽字筆的LDA及RSM－LDA分析

將數(shù)據(jù)集以均勻隨機(jī)抽樣的方式按4∶1 的比例分為訓(xùn)練集（Train set）和測(cè)試集（Test set），其中訓(xùn)練集用于訓(xùn)練模型的參數(shù)和評(píng)估模型的擬合能力，測(cè)試集用于評(píng)價(jià)模型的泛化能力。對(duì)每個(gè)模型進(jìn)行五倍交叉驗(yàn)證，根據(jù)求得的誤分類率的均值調(diào)整模型參數(shù)。由于黑色簽字筆墨水大部分譜圖規(guī)律高度一致，為了防止圖像中的細(xì)微信息丟失，本實(shí)驗(yàn)選擇直接對(duì)全譜圖數(shù)據(jù)進(jìn)行分析。

研究表明，LDA 和RSM－LDA 模型訓(xùn)練集的平均分類準(zhǔn)確率分別為99.54%和100%，交叉驗(yàn)證平均分類準(zhǔn)確率分別為98.16%和99.09%，兩種模型測(cè)試集的分類結(jié)果如圖5所示。對(duì)于測(cè)試集的129個(gè)樣本，LDA模型有20個(gè)樣本被誤判，RSM－LDA模型有12個(gè)樣本被誤判。綜上所述，LDA模型測(cè)試集平均分類準(zhǔn)確率為84.50%，RSM－LDA 模型測(cè)試集平均分類準(zhǔn)確率為90.70%，比LDA 模型提高了6.20%。兩種分類模型均可有效區(qū)分不同品牌型號(hào)的黑色簽字筆墨水，其中，RSM－LDA模型的分類效果更佳。

圖5 LDA（A）和RSM－LDA（B）測(cè)試集分類結(jié)果Fig.5 Classification results of test set of LDA model（A）and RSM－LDA model（B）blue hollow diamonds represent the actual category，and red solid circles represent the predicted category

2.4 模型評(píng)估

2.4.1 準(zhǔn)確率、精準(zhǔn)率及召回率為了解模型的泛化能力，考察了LDA 和RSM－LDA 分類模型每類樣本的準(zhǔn)確率、精準(zhǔn)率和召回率，如表1 所示。準(zhǔn)確率即預(yù)測(cè)正確的結(jié)果占總樣本的百分比；精準(zhǔn)率指所有被預(yù)測(cè)為正的樣本中實(shí)際為正的樣本的概率；召回率指實(shí)際為正的樣本中被預(yù)測(cè)為正樣本的概率。以上3 個(gè)指標(biāo)越大，則說(shuō)明模型分類能力越強(qiáng)。

從表1可以看出，36類黑色簽字筆墨水樣本的LDA模型和RSM－LDA模型準(zhǔn)確率均不低于97.9%，可以有效區(qū)分樣本。在LDA 模型中，1 號(hào)晨光牌（ARP50904）、12 號(hào)晨光牌（AGPA3903）和23 號(hào)得勁牌（17A）的樣本準(zhǔn)確率最高，達(dá)到100%；16號(hào)成田良品牌（80）和31號(hào)愛(ài)好牌（47920）的樣本準(zhǔn)確率最低，為97.9%。而在RSM－LDA 模型中，有11 類樣本可100%準(zhǔn)確分類，準(zhǔn)確率最低為97.9%，為28 號(hào)樣本。在精準(zhǔn)率方面，LDA 模型有10 類樣本可達(dá)100%，80%及以下的有11 類，最低的是31 號(hào)樣本，為58.8%；而RSM－LDA 模型有15類樣本精準(zhǔn)率可達(dá)100%，80%以下的只有5類，最低的是3號(hào)和5號(hào)樣本，為62.5%。其中，有19 類樣本在使用了RSM－LDA 模型后精準(zhǔn)率有所提升，只有5 類樣本略有下降。就召回率而言，LDA模型有10類樣本達(dá)100%，80%以下的有11類，最低的是28號(hào)真彩牌（0221B）和29號(hào)三菱牌（UB－150）的樣本，為50.0%；而RSM－LDA 模型有15類樣本召回率達(dá)100%，80%以下的有7類，最低為50.0%，同樣是28號(hào)和29號(hào)樣本。其中，有15類樣本在使用了RSM－LDA模型后召回率有所提升，只有3 類樣本略有下降。由此可見(jiàn)，RSM－LDA 模型可以更有效地區(qū)分黑色簽字筆墨水種類且泛化能力良好。

表1 36類樣本的準(zhǔn)確率、精準(zhǔn)率和召回率Table 1 The accuracy，precision and recall of 36 classes samples

2.4.2 接受者操作特征曲線為進(jìn)行更全面的評(píng)估，本實(shí)驗(yàn)考察了兩種模型的接受者操作特征曲線（Receiver operating characteristic curve，ROC），如圖6 所示。ROC 曲線下方面積（Area under ROC curve，AUC）可用于評(píng)估模型的性能，AUC 越大，模型分類性能越強(qiáng)［22］。結(jié)果表明RSM－LDA 模型具有更大的AUC（0.998 3），這是因?yàn)殡S機(jī)特征選擇產(chǎn)生多個(gè)分類器，RSM－LDA模型比LDA模型對(duì)噪聲的抵抗力更強(qiáng)，對(duì)頻譜的穩(wěn)定性要求更低。

圖6 ROC曲線Fig.6 ROC curve

3 結(jié) 論

高光譜成像技術(shù)結(jié)合RSM－LDA 模型可用于不同品牌、同品牌不同型號(hào)黑色簽字筆的快速分類鑒別。本研究對(duì)36 支黑色簽字筆墨水的原始光譜數(shù)據(jù)進(jìn)行S－G 平滑和Z－Score 標(biāo)準(zhǔn)化組合預(yù)處理后，分別采用LDA 和RSM－LDA方法建立了黑色簽字筆墨水種類的鑒別模型。兩種方法分類結(jié)果均較好，且RSM－LDA 模型的分類效果和穩(wěn)健性優(yōu)于LDA 單一模型，其訓(xùn)練集的平均分類準(zhǔn)確率為100%，交叉驗(yàn)證平均分類準(zhǔn)確率為99.09%，測(cè)試集的平均分類準(zhǔn)確率為90.70%，模型的AUC 值達(dá)0.998 3，模型性能良好，為筆跡檢驗(yàn)提供了一種新的快速、無(wú)損方法。后續(xù)應(yīng)擴(kuò)大樣本類型及數(shù)量，建立完備的樣本庫(kù)，以期為法庭科學(xué)墨水檢驗(yàn)構(gòu)建新平臺(tái)。