楊志超,蔡 競(jìng),張 輝,石 璐
1. 浙江警察學(xué)院刑事科學(xué)技術(shù)系,浙江 杭州 310053 2. 毒品防控技術(shù)浙江省重點(diǎn)實(shí)驗(yàn)室,浙江 杭州 310053
2019年,我國(guó)破獲毒品相關(guān)案件6.2萬(wàn)起,繳獲毒品達(dá)49.1噸,抓獲犯罪嫌疑人9萬(wàn)名。 214.8萬(wàn)名現(xiàn)有吸毒人員中,濫用冰毒人員占55.2%,濫用海洛因占37.5%,濫用氯胺酮占2.3%[1]。 毒品檢測(cè)技術(shù)是發(fā)現(xiàn)毒品、固定證據(jù)的重要手段,傳統(tǒng)的毒品檢測(cè)方法主要有氣相色譜質(zhì)譜法[2-3]、高效液相色譜法[4-5]、毛細(xì)管電泳[6]等,此類(lèi)檢測(cè)方法過(guò)程復(fù)雜,耗時(shí)長(zhǎng),需要專(zhuān)門(mén)的實(shí)驗(yàn)環(huán)境和實(shí)驗(yàn)人員。 拉曼光譜技術(shù)具有“指紋”光譜、無(wú)需前處理、分析速度快等優(yōu)勢(shì),適合犯罪現(xiàn)場(chǎng)檢測(cè)[7]。 通過(guò)分析樣品的拉曼譜圖就可以得到樣品的結(jié)構(gòu)信息。 但是,絕大多數(shù)分子的拉曼散射截面非常小,拉曼光譜強(qiáng)度較低,使得拉曼很難有較低的檢出限。 對(duì)于類(lèi)似于毒品之類(lèi)的痕量物質(zhì)檢測(cè),因?yàn)闃悠窛舛鹊停R?guī)拉曼光譜無(wú)法被檢測(cè)出來(lái)。 表面增強(qiáng)拉曼散射(surface-enhanced Raman spectroscopy, SERS)利用金、銀等貴金屬顆粒制作的溶膠與備件樣品混合后,拉曼信號(hào)顯著增強(qiáng)幾個(gè)數(shù)量級(jí),表面增強(qiáng)拉曼技術(shù)因其靈敏度高、操作簡(jiǎn)單方便等優(yōu)勢(shì)受到檢測(cè)技術(shù)人員的普遍關(guān)注,并逐步實(shí)現(xiàn)特定應(yīng)用場(chǎng)景的痕量檢測(cè)[8-11]。
2011年,F(xiàn)arquharson等[12]使用固相萃取和SERS技術(shù)檢測(cè)唾液中的藥物,該方法成功檢測(cè)了唾液中1 ppm的苯丙胺,地西泮,美沙酮和哌啶,可卡因的檢測(cè)靈敏度高達(dá)50 ppb。 董榮錄等[13]在模擬交易或吸毒現(xiàn)場(chǎng)使用印刷的紙質(zhì)基材檢測(cè)毒品。 同時(shí),使用金納米棒來(lái)檢測(cè)人類(lèi)尿液中的藥物。 在支持向量機(jī)(SVM)的幫助下,該方法成功地檢測(cè)了真實(shí)吸毒者尿液樣本中的藥物,準(zhǔn)確率達(dá)92%以上。 2018年,Haddad等[14]使用銀納米粒子浸漬的紙質(zhì)基底作為襯底,用于檢測(cè)痕量芬太尼或是作為海洛因的摻雜物。 同時(shí),與每種物質(zhì)相關(guān)的特征峰的強(qiáng)度比符合Langmuir等溫線校正模型,可以用于海洛因混合物中芬太尼的定量分析。 此外,用這些紙質(zhì)SERS基底有助于從表面擦拭回收芬太尼,證明這是一種非常適用于犯罪現(xiàn)場(chǎng)調(diào)查的檢測(cè)技術(shù)。 2020年,顏文杰等[15]分別獲取了海洛因、甲基苯丙胺與其他物質(zhì)的90組毒品混合物光譜數(shù)據(jù),建立基于支持向量機(jī)與多層感知器神經(jīng)網(wǎng)絡(luò)的融合分類(lèi)模型。 結(jié)果表明,基于高斯核函數(shù)、線性核函數(shù)、多項(xiàng)式核函數(shù)的SVM模型能夠?qū)崿F(xiàn)對(duì)不同質(zhì)量分?jǐn)?shù)海洛因混合品樣本97.8%,97.8%和95.6%的準(zhǔn)確分類(lèi),多層感知器能夠?qū)谆奖坊旌掀窐颖緦?shí)現(xiàn)96.5%的準(zhǔn)確分類(lèi)。
既往研究都是基于拉曼光譜的全光譜數(shù)據(jù),由于數(shù)據(jù)量較大,一方面影響運(yùn)算速度,另一方面由于冗余波段信息影響,可能造成分類(lèi)準(zhǔn)確率降低。 通過(guò)光譜數(shù)據(jù)降維可以實(shí)現(xiàn)數(shù)據(jù)的壓縮,更加節(jié)約運(yùn)算資源。 本文利用主成分分析法、方差閾值法、遺傳選擇算法和互信息法四種降維算法,將六種毒品拉曼光譜數(shù)據(jù)降維,利用最近鄰(KNN)、支持向量機(jī)(SVM)、人工神經(jīng)網(wǎng)絡(luò)(ANN)和隨機(jī)森林(RF)四種分類(lèi)器對(duì)降維后的拉曼數(shù)據(jù)進(jìn)行分類(lèi),討論不同的降維方法及分類(lèi)器對(duì)準(zhǔn)確率的影響。
實(shí)驗(yàn)所用苯丙胺(Amphetamine, AM)、海洛因(Heroin)、可卡因(Cocaine)、氯胺酮(Ketamine, KET)、甲基苯丙胺(Methamphetamine, METH)、芬太尼(Fentanyl)均由上海物證鑒定中心提供。 制作1 μg·mL-1六類(lèi)毒品的水溶液,并加入納米金增強(qiáng)試劑和5% NaCl溶液,毒品溶液、金溶膠增強(qiáng)試劑、NaCl溶液的體積比為20∶6∶5。 取30 μL混合溶液滴在載玻片表面,在空氣中自然揮干后檢測(cè)。 每類(lèi)毒品溶液各制作5個(gè)樣本,每個(gè)樣本采集10個(gè)拉曼光譜。 6種毒品溶液拉曼光譜數(shù)據(jù)共300組,隨機(jī)選擇60組拉曼數(shù)據(jù)作為訓(xùn)練集,其余240組數(shù)據(jù)作為測(cè)試集。
實(shí)驗(yàn)采用美國(guó)Thermo Fisher公司生產(chǎn)的DXR2xi顯微激光拉曼成像光譜儀,拉曼光譜儀具有超低暗噪聲,單光子信號(hào)探測(cè)器等優(yōu)勢(shì)。 計(jì)算機(jī)環(huán)境為Intel(R)Core(TM)i5-5200U CPU @ 2.2GHz,RAM: 12.0 GB,64位操作系統(tǒng)。 實(shí)驗(yàn)采用檸檬酸鈉還原法制備的金納米顆粒(Au NPs)作為拉曼增強(qiáng)試劑,采購(gòu)自廈門(mén)普識(shí)納米科技公司,金納米顆粒尺寸在50 nm左右,其電子顯微圖像如圖1。
利用拉曼光譜儀獲取血痕的拉曼光譜,實(shí)驗(yàn)考查了不同的激發(fā)波長(zhǎng)、物鏡倍數(shù)、激光強(qiáng)度、曝光時(shí)間、掃描次數(shù)等采集參數(shù),綜合比較對(duì)樣本的破壞、熒光干擾、拉曼信號(hào)信噪比、實(shí)驗(yàn)效率等方面。 實(shí)驗(yàn)選擇波長(zhǎng)為785 nm激光作為激發(fā)光源,采用50×物鏡,激光強(qiáng)度為0.7 mW,曝光時(shí)間為0.2 s,掃描次數(shù)為1 000次。 實(shí)驗(yàn)采用迭代自適應(yīng)加權(quán)懲罰最小二乘法校正基線,使用S-G平滑濾波實(shí)現(xiàn)平滑處理,選取400~1 700 cm-1波段測(cè)試研究。
圖1 金納米顆粒的電子顯微圖像Fig.1 Electron microscopic image of Au NPs
圖2 六類(lèi)毒品溶液的拉曼光譜曲線Fig.2 Raman spectral curves of six drug solutions
拉曼光譜數(shù)據(jù)特征較多,且大部分特征是冗余信息。 這些冗余信息不僅對(duì)分類(lèi)沒(méi)有幫助,而且會(huì)浪費(fèi)計(jì)算資源,降低分類(lèi)效率,所以需要對(duì)拉曼光譜數(shù)據(jù)進(jìn)行降維。 降維算法主要分為兩種,一種是基于數(shù)學(xué)變換的方法,比如主成分分析。 另一種是基于波段選擇的方法,其特點(diǎn)在于保留了原來(lái)波段的物理特性,可解釋性強(qiáng)。 比如方差閾值法、遺傳選擇算法和互信息法。 方差閾值法(Variance Threshold),是一種通過(guò)特征的方差值過(guò)濾方差的方法,計(jì)算每一個(gè)特征的方差,選擇方差值最大的前N個(gè)波段,形成波段子集。 遺傳選擇算法(genetic algorithm, GA),模擬了生物種群的迭代進(jìn)化原理,從一組隨機(jī)的波段組合開(kāi)始,通過(guò)交叉和變異過(guò)程,逐步迭代出最適合的波段組合。 本實(shí)驗(yàn)中遺傳選擇算法主要參數(shù): 變異概率2%,迭代次數(shù)100次,種群個(gè)體數(shù)為200。 互信息(mutual information, MI),通過(guò)計(jì)算每個(gè)波段的強(qiáng)度值與類(lèi)別標(biāo)簽之間的互信息值,互信息值表示了兩者之間的相關(guān)程度,選擇互信息值最大的前N個(gè)波段,形成波段組合。
實(shí)驗(yàn)采用主成分分析法、方差閾值法、遺傳選擇算法和互信息法四種降維算法,將六種毒品拉曼光譜數(shù)據(jù)降維至30個(gè)特征以內(nèi)。 利用最近鄰、支持向量機(jī)、人工神經(jīng)網(wǎng)絡(luò)和隨機(jī)森林四種分類(lèi)器對(duì)降維后的拉曼數(shù)據(jù)完成分類(lèi),討論不同的降維方法及分類(lèi)器的準(zhǔn)確率。
主成分分析的前3主成分空間分布如圖3所示。 從拉曼光譜數(shù)據(jù)的前3主成分在空間的分布可知,六類(lèi)毒品樣本的分離性較好。 前K個(gè)主成分特征的方差貢獻(xiàn)率如圖4所示,可知前5個(gè)主成分的方差貢獻(xiàn)率已達(dá)80%,取前5個(gè)主成分即應(yīng)得到較好的分類(lèi)準(zhǔn)確率表現(xiàn)。
圖3 六類(lèi)毒品溶液的前三個(gè)主成分分布圖Fig.3 Principal components analysis score plot of samples
圖4 主成分特征方差貢獻(xiàn)率Fig.4 Principal component feature explainedvariance contribution ratio
利用4種降維方法壓縮特征數(shù)量后,分別采用KNN, SVM, ANN, RF分類(lèi)器重復(fù)10遍,其準(zhǔn)確率表現(xiàn)如圖5所示。 其中,拉曼光譜數(shù)據(jù)經(jīng)過(guò)PCA方法降維后,各分類(lèi)器的準(zhǔn)確率均較高。 在選取的主成分為5時(shí),各分類(lèi)器準(zhǔn)確率都在95%以上。 這主要是由于PCA算法是一種基于數(shù)學(xué)變換的降維算法,變換后的每一個(gè)主成分特征包含了所有波段的組合信息,所以PCA降維后的分類(lèi)效果好。 在三種波段選擇方法中,遺傳選擇算法得到的波段組合準(zhǔn)確率相對(duì)較高。 結(jié)合SVM分類(lèi)器,遺傳選擇算法篩選出的5個(gè)拉曼波段的組合,分類(lèi)準(zhǔn)確率已達(dá)到95%以上,在選擇的波段數(shù)達(dá)到30時(shí),準(zhǔn)確率達(dá)到99.5%。 在取25個(gè)以上的波段時(shí),方差閾值法準(zhǔn)確率達(dá)到95%以上。 互信息法確定的波段子集的分類(lèi)準(zhǔn)確率較低,特別是在波段數(shù)量大于15后,準(zhǔn)確率還有下降。 可能是由于,在波段數(shù)量大于15后,互信息法選擇了無(wú)價(jià)值的冗余波段,致使準(zhǔn)確率下降。
在表面拉曼光譜技術(shù)區(qū)分毒品種類(lèi)方面,將拉曼光譜數(shù)據(jù)降維后再進(jìn)行分類(lèi),依然保持了較高的分類(lèi)準(zhǔn)確率,降維方法在毒品拉曼光譜分類(lèi)上體現(xiàn)出有效性。 在主成分分析法、方差閾值法、遺傳選擇算法和互信息法四種降維算法中,基于數(shù)學(xué)變換的主成分分析降維方法效果最好,在降維至5個(gè)特征時(shí),各分類(lèi)算法的準(zhǔn)確率依然能達(dá)到95%以上。 其他三種波段選擇算法中,遺傳選擇算法篩選特征的效果最好,在波段數(shù)為20, 25, 30時(shí),SVM算法的分類(lèi)準(zhǔn)確率分別達(dá)到98.5%, 99.1%, 99.5%。 遺傳選擇算法作為波段選擇算法,不僅可以降低拉曼光譜采集數(shù)據(jù)的維度,而且可解釋性更強(qiáng),有更重要的意義。