曹宇奇,施妍,向平,郭寅龍
1.中國科學(xué)院上海有機化學(xué)研究所 金屬有機化學(xué)國家重點實驗室,上海 200032;2.司法鑒定科學(xué)研究院 上海市法醫(yī)學(xué)重點實驗室 司法部司法鑒定重點實驗室 上海市司法鑒定專業(yè)技術(shù)服務(wù)平臺,上海 200063
1960 年,研究人員發(fā)現(xiàn)了一種新型的合成阿片類物質(zhì)并取名為芬太尼[1]。芬太尼具有比嗎啡強100 倍的鎮(zhèn)痛作用,最初作為一種良好的鎮(zhèn)痛劑應(yīng)用于手術(shù)。然而近些年來,芬太尼類物質(zhì)的非法濫用問題愈發(fā)突出,已經(jīng)成為一個嚴重的社會問題[2]。芬太尼類物質(zhì)具有很強的精神活性作用,操作不當極易過量,造成使用者死亡的后果[3-4]。由于監(jiān)管政策的日趨嚴格和檢測技術(shù)的逐步提升,許多傳統(tǒng)的芬太尼類物質(zhì)已經(jīng)難覓蹤跡。然而,不法分子通過結(jié)構(gòu)修飾、官能團改變等手段不斷制造出化學(xué)結(jié)構(gòu)不同但具有與芬太尼類似精神活性的化合物以逃避監(jiān)管[5]。因此,對于芬太尼類物質(zhì)如何進行快速有效的檢測和處置,已經(jīng)成為目前精神活性物質(zhì)監(jiān)管領(lǐng)域的研究熱點之一。
目前,對于未知樣品中芬太尼類物質(zhì)的檢測主要遵循以下流程。首先,分析人員預(yù)先設(shè)定一些芬太尼類物質(zhì)作為檢測目標,使用多種手段獲取這些物質(zhì)的標準品在各種檢測儀器中的信息。然后,通過各種檢測技術(shù)如質(zhì)譜、拉曼光譜、核磁共振(nuclear magnetic resonance,NMR)波譜[6]和紅外光譜[7]等傾向性地搜尋樣品中與檢測目標相關(guān)的化合物信息。最后,將得到的譜圖與檢測目標的標準品譜圖進行比對從而完成整個分析過程[8]。這種實驗流程整體上基于靶向篩查策略,對于標準品較為依賴,同時需要對目標芬太尼類物質(zhì)的化學(xué)結(jié)構(gòu)有一定了解,比較適用于已知芬太尼類物質(zhì)的檢測分析。然而,快速迭代的新型芬太尼類物質(zhì)給廣泛應(yīng)用的靶向篩查策略帶來了巨大挑戰(zhàn)[9]。其一,分析人員對于新型芬太尼類物質(zhì)的化學(xué)結(jié)構(gòu)及各類譜圖信息知之甚少,且短期內(nèi)難以獲得合適的標準物質(zhì)。其二,新型芬太尼類物質(zhì)經(jīng)過結(jié)構(gòu)修飾,其化學(xué)性質(zhì)以及在各種檢測儀器中的譜圖信息都發(fā)生了較大改變,已開發(fā)的靶向篩查方法難以捕捉樣品中這類物質(zhì)的相關(guān)信息。因此,亟須開發(fā)新型的非靶向篩查策略更加快速準確地識別未知樣品中的新型芬太尼類物質(zhì)。
近年來,隨著計算機算力的大幅提升,機器學(xué)習(xí)領(lǐng)域發(fā)展迅猛[10],尤其是2012年神經(jīng)網(wǎng)絡(luò)模型AlexNet[11]以高于第二名將近10%的準確率獲得ImageNet 視覺識別大賽冠軍后,掀起了各類機器學(xué)習(xí)模型的研究熱潮。迄今,機器學(xué)習(xí)模型的應(yīng)用已不再局限于計算機視覺、模式識別、圖像分割等經(jīng)典問題,而是廣泛滲透入各行各業(yè)的數(shù)據(jù)分析中,在新精神活性物質(zhì)篩查以及代謝機制研究領(lǐng)域也有廣泛應(yīng)用[12-14]。相比傳統(tǒng)的數(shù)據(jù)分析手段,機器學(xué)習(xí)模型最大的優(yōu)勢在于其具有從海量數(shù)據(jù)中自動提取特定趨勢和特征的能力。研究人員在進行分析工作時無需事先根據(jù)現(xiàn)有經(jīng)驗對數(shù)據(jù)做過多的預(yù)處理工作,特征提取和模型優(yōu)化過程都交給機器本身。這一優(yōu)勢在數(shù)據(jù)量巨大、對數(shù)據(jù)本身結(jié)構(gòu)缺乏了解或是憑借經(jīng)驗難以歸納出較為顯著的數(shù)據(jù)特征的情況下尤為有效。
與此同時,各種檢測儀器的性能指標也有著巨大的進步。以質(zhì)譜為例,質(zhì)譜儀器(包括三重四極桿質(zhì)譜[15]、飛行時間質(zhì)譜[16]以及線性離子阱質(zhì)譜[17]等)對于樣品檢測的靈敏度和譜圖采集速度都有著顯著的提升[18]。同時,包括超臨界流體色譜、氣相色譜[19]、液相色譜[20]等在內(nèi)的色譜分離技術(shù)亦有突破,對于復(fù)雜樣品的分析效率明顯提高,單次分析時間縮短,所需樣品量也大幅減少。這些技術(shù)的進步使得針對未知樣品的大規(guī)模非靶向數(shù)據(jù)采集成為可能。研究人員無需事先積累大量經(jīng)驗針對樣品設(shè)定檢測目標,而是通過儀器所提供的非靶向數(shù)據(jù)采集模式,盡可能多地對樣品中所包含的各種化合物信息進行采集[21]。
非靶向數(shù)據(jù)采集模式帶來了樣品分析數(shù)據(jù)量的指數(shù)級增長,結(jié)合機器學(xué)習(xí)技術(shù)方能高效挖掘其中有價值的信息。本文從新型芬太尼類物質(zhì)的特點及分類,各種機器學(xué)習(xí)模型的原理及適用范圍,以及機器學(xué)習(xí)技術(shù)在芬太尼類物質(zhì)數(shù)據(jù)分析中的應(yīng)用等方面,闡述目前機器學(xué)習(xí)輔助非靶向篩查策略用于芬太尼類物質(zhì)識別鑒定的研究進展,并展望其未來發(fā)展趨勢。
芬太尼類物質(zhì)的化學(xué)結(jié)構(gòu)如圖1 所示。以構(gòu)效關(guān)系理論為基礎(chǔ),通過對芬太尼化學(xué)結(jié)構(gòu)中的不同部分進行結(jié)構(gòu)修飾,可獲得不同類型的新型芬太尼類物質(zhì)[5,22]。研究人員將芬太尼類似物按照結(jié)構(gòu)修飾位置和類型的不同進行分類[23-24]。
圖1 部分芬太尼類物質(zhì)的化學(xué)機構(gòu)Fig.1 Chemical structure of some fentanyl analogs
圖1A 中芬太尼的化學(xué)結(jié)構(gòu)被分為5 個結(jié)構(gòu)域。一般來說,新型的芬太尼類物質(zhì)會對這5 個部分中的1 個或多個位置進行結(jié)構(gòu)修飾。結(jié)構(gòu)修飾位點越多,該物質(zhì)整體化學(xué)結(jié)構(gòu)與芬太尼差異越大,所得各種儀器檢測數(shù)據(jù)與芬太尼相似度越低。根據(jù)結(jié)構(gòu)修飾位點數(shù)量的差異,將芬太尼類物質(zhì)分為Ⅰ~Ⅴ型。
Ⅰ型芬太尼類物質(zhì)與芬太尼相比,整體化學(xué)結(jié)構(gòu)改變不大,主要從5 個結(jié)構(gòu)域(圖1A 的a~e)中選取1 個部分進行結(jié)構(gòu)修飾。圖1B 列舉了部分Ⅰ型芬太尼類物質(zhì)的化學(xué)結(jié)構(gòu),整體上在結(jié)構(gòu)域e 處進行官能團修改較為多見,同時結(jié)構(gòu)域a、b、c、d 處也常被修改。Ⅰ型芬太尼類物質(zhì)由于結(jié)構(gòu)修飾幅度較小,整體藥理作用和體內(nèi)代謝機制與芬太尼類似,同時其在各種檢測儀器中得到的數(shù)據(jù)譜圖與芬太尼相似度較高。
Ⅱ型芬太尼類物質(zhì)是對芬太尼的兩個結(jié)構(gòu)域進行結(jié)構(gòu)修飾,整體來說結(jié)構(gòu)變化更大。圖1C 列舉了3 種Ⅱ型芬太尼類物質(zhì)。與Ⅰ型芬太尼類物質(zhì)相比,Ⅱ型芬太尼類物質(zhì)結(jié)構(gòu)修飾幅度更大,但仍然保留了芬太尼整體的分子骨架。在各種儀器中收集的數(shù)據(jù)譜圖與芬太尼相似度較高,具有與芬太尼相似的譜圖特征。
隨著監(jiān)管政策的逐步趨緊,針對芬太尼化學(xué)結(jié)構(gòu)的修飾幅度愈發(fā)增大,從而衍生出一系列Ⅲ~Ⅴ型芬太尼類物質(zhì)。如圖1D 所示,這些化合物雖然以芬太尼為先導(dǎo)化合物,但對芬太尼中多個結(jié)構(gòu)域都進行了大幅的修飾,甚至對芬太尼整體結(jié)構(gòu)骨架進行了改動。許多Ⅲ~Ⅴ型芬太尼類物質(zhì)的藥理作用和體內(nèi)代謝機制已與芬太尼迥異,且缺乏系統(tǒng)的藥理毒理數(shù)據(jù),過量使用所造成的健康風(fēng)險大大增加。另外,這些物質(zhì)在各種檢測儀器中所得數(shù)據(jù)和譜圖與芬太尼相似度較低,已建立的大量分析方法難以應(yīng)用于此類物質(zhì)的檢測,其骨架結(jié)構(gòu)的變化也導(dǎo)致難以總結(jié)出較為通用的經(jīng)驗規(guī)律。
機器學(xué)習(xí)是一類算法模型的總稱,這些算法模型試圖借助計算機強大的算力從大量數(shù)據(jù)中發(fā)現(xiàn)隱含的規(guī)律并將其應(yīng)用于數(shù)據(jù)分類和預(yù)測[10]。機器學(xué)習(xí)模型通過模型本身擁有的較強的線性或非線性擬合能力以及計算機算力所支撐的迭代優(yōu)化過程,試圖擬合出與實驗數(shù)據(jù)趨勢最為適合的函數(shù),從而達到對新樣本數(shù)據(jù)進行準確預(yù)測的目的。機器學(xué)習(xí)模型主要可以分為監(jiān)督學(xué)習(xí)模型和無監(jiān)督學(xué)習(xí)模型[25],其各自的特點和典型算法如下。
監(jiān)督學(xué)習(xí)模型通過對已有的訓(xùn)練樣本進行訓(xùn)練得到一個最優(yōu)模型。監(jiān)督學(xué)習(xí)對訓(xùn)練數(shù)據(jù)都進行了標注(即打上已知的標簽),而學(xué)習(xí)模型的訓(xùn)練目標是使模型的輸出值盡可能與訓(xùn)練數(shù)據(jù)的標簽達到一致。模型通過反復(fù)的訓(xùn)練優(yōu)化并根據(jù)訓(xùn)練數(shù)據(jù)一步步修正模型輸出,最終,模型對于新的未知樣本也能給出合理的預(yù)測值。
2.1.1 線性回歸算法和邏輯回歸算法
線性回歸是最為基礎(chǔ)的機器學(xué)習(xí)算法之一[26]。在線性回歸模型中,將目標值預(yù)期看作各個輸入變量之間的線性組合。簡單來說,就是尋找一個線性函數(shù)來建立已知數(shù)據(jù)中各特征變量與標簽值的映射關(guān)系,從而較好地對未知數(shù)據(jù)進行預(yù)測。邏輯回歸是一種廣義上的線性回歸模型,算法層面與多元線性回歸模型有很多相似之處[27]。最大的不同之處在于所尋找的擬合函數(shù)并不直接由輸入變量的線性函數(shù)決定,而是結(jié)合logistic 函數(shù)(又稱sigmoid 函數(shù))來確定。
線性回歸和邏輯回歸算法在多類預(yù)測問題中均有較好的表現(xiàn)。如2019 年倫敦國王學(xué)院的ABBATE教授課題組[28]使用偏最小二乘(partial least square,PLS)回歸分析建立了115 種芬太尼類物質(zhì)與μ-阿片受體之間的定量構(gòu)效關(guān)系模型,為芬太尼類物質(zhì)的分類和確證提供了新的思路。
2.1.2 樸素貝葉斯分類算法
樸素貝葉斯分類算法是一種以貝葉斯定理為核心、基于概率計算的機器學(xué)習(xí)模型。在準備階段確定特征屬性并獲取訓(xùn)練樣本后,算法分別計算每個類別的概率分布并針對每個特征屬性計算劃分的條件概率,最后根據(jù)貝葉斯定理確定樣本數(shù)據(jù)所屬類別[29]。
樸素貝葉斯分類算法已經(jīng)被廣泛應(yīng)用于新精神活性物質(zhì)的分類篩查工作中,并取得了不錯的效果。如2021 年悉尼科技大學(xué)的FU 教授課題組[30]建立了針對阿片類物質(zhì)的非靶向篩查模型,并使用該模型對3 種類型的阿片類物質(zhì)進行分類,整體分類準確率達89.5%。
2.1.3 人工神經(jīng)網(wǎng)絡(luò)算法
人工神經(jīng)網(wǎng)絡(luò)算法的發(fā)展在最近十年突飛猛進,已經(jīng)成為機器學(xué)習(xí)領(lǐng)域研究熱度最高的算法之一,并衍生出多個分支,如卷積神經(jīng)網(wǎng)絡(luò)[31]、循環(huán)神經(jīng)網(wǎng)絡(luò)以及生成式對抗神經(jīng)網(wǎng)絡(luò)[32]等。如圖2 所示,神經(jīng)網(wǎng)絡(luò)模型主要包括輸入層、隱藏層和輸出層,每一層都由多個神經(jīng)元組成,各層神經(jīng)元之間通過激活函數(shù)和權(quán)重系數(shù)相連。上一層每個神經(jīng)元的值通過權(quán)重矩陣和激活函數(shù)計算為下一層各神經(jīng)元賦值,在神經(jīng)網(wǎng)絡(luò)模型中這一過程被稱為前向傳播。樣本數(shù)據(jù)中每個特征屬性對應(yīng)模型輸入層中的一個神經(jīng)元。神經(jīng)網(wǎng)絡(luò)模型中可根據(jù)實際問題需求包含多個隱藏層。經(jīng)過隱藏層計算,在輸出層輸出最終分類或回歸分析結(jié)果。
圖2 神經(jīng)網(wǎng)絡(luò)模型示意圖Fig.2 Schematic diagram of neural network model
神經(jīng)網(wǎng)絡(luò)算法在芬太尼防控領(lǐng)域也有諸多應(yīng)用。2021 年,DE CHOUDHURY 教授課題組[33]構(gòu)建了一個神經(jīng)網(wǎng)絡(luò)模型,根據(jù)個體在網(wǎng)絡(luò)上的發(fā)帖行為對其芬太尼濫用的可能性進行預(yù)測分析,取得了76%的較高準確性。
2.1.4 支持向量機(support vector machine,SVM)算法
SVM 是一種可靠而優(yōu)雅的機器學(xué)習(xí)模型,具有強大的非線性映射能力[34]。簡單來說,SVM 的訓(xùn)練過程就是在嘗試找尋一個最優(yōu)的決策邊界使得距離兩個類別最近的樣本相隔距離最遠。這一決策邊界也被稱為超平面,而樣本中與超平面距離最近的一些點稱為支持向量。雖然近年來隨著人工神經(jīng)網(wǎng)絡(luò)算法的興盛,SVM 的研究日趨減少,但SVM 有著堅實的數(shù)學(xué)基礎(chǔ),同時各種核函數(shù)的運用賦予其強大的非線性映射能力,在芬太尼類物質(zhì)管控領(lǐng)域有著十分廣泛的應(yīng)用[35]。
對于包含標簽信息的數(shù)據(jù),可使用監(jiān)督學(xué)習(xí)模型不斷針對樣本數(shù)據(jù)特征與數(shù)據(jù)標簽之間的關(guān)系進行擬合,最終得到一個合適的映射函數(shù)用于新樣本的預(yù)測。然而在一些特定情況下,研究人員希望直接通過計算來挖掘數(shù)據(jù)中隱含的內(nèi)在聯(lián)系。無監(jiān)督學(xué)習(xí)模型的目的在于對這些未經(jīng)標注的數(shù)據(jù)進行分析,挖掘數(shù)據(jù)本身蘊藏的規(guī)律結(jié)構(gòu)[25]。
2.2.1 K 均值聚類算法
K 均值聚類算法于1967 年被提出,其算法思想非常直觀:對于樣本數(shù)據(jù)集,計算各樣本間距離。根據(jù)距離大小,將數(shù)據(jù)集分割為k個組別,使得每組內(nèi)的數(shù)據(jù)點緊密連接(距離最小),而組間距離盡可能的大。K 均值聚類算法應(yīng)用廣泛,在芬太尼類物質(zhì)數(shù)據(jù)分析領(lǐng)域也有很好的表現(xiàn)。如2020年,美國國家標準與技術(shù)研究院質(zhì)譜數(shù)據(jù)中心的WALLACE 教授課題組[23]建立了44 種Ⅰ型芬太尼類物質(zhì)的電子電離(electron ionization,EI)質(zhì)譜圖相似度數(shù)據(jù)庫,并使用K 均值聚類算法對這些芬太尼類物質(zhì)按照譜圖相似度進行聚類分析。
2.2.2 主成分分析(principal component analysis,PCA)算法
PCA 算法是最為常用的一種數(shù)據(jù)降維方法,其整體算法思路在于尋找一種線性映射將高維數(shù)據(jù)在低維空間形成映射關(guān)系。PCA 的目的在于尋找一種合適的線性函數(shù),將高維數(shù)據(jù)投影在低維空間中,并使得數(shù)據(jù)在所投影的維度中盡可能多地保持高維數(shù)據(jù)所帶有的信息[36]。
PCA 算法的基本流程見圖3。數(shù)據(jù)準備工作與其他算法類似,接著對各樣本的所有數(shù)據(jù)進行中心化操作,計算協(xié)方差矩陣C。然后,對于N個特征計算其對應(yīng)于協(xié)方差矩陣C的特征值λ和特征向量u。按照從大到小的原則將特征值λ進行排序,根據(jù)設(shè)定的新特征數(shù)目k(一般為2 或3)選取前k個特征值和特征向量。最終將各個樣本的原始特征值投影到所選擇的新k個特征中并進行相關(guān)可視化分析,就完成了整個PCA 過程。PCA 算法在芬太尼類物質(zhì)各儀器檢測數(shù)據(jù)分類工作中的應(yīng)用廣泛。如2020 年,MCKEOWN等[37]運用高場(300 MHz)和低場(43 MHz)傅里葉變換NMR 波譜結(jié)合PCA 以及正交偏最小二乘-判別分析(partial least square-discriminant analysis,PLS-DA)算法,成功地對使用3 種合成方法得到的芬太尼前體N-苯乙基-4-哌啶酮和4-苯胺基-N-苯乙基哌啶樣品進行了分類。
圖3 PCA 基本流程示意圖Fig.3 Schematic diagram of the basic procedure of PCA
2.2.3 層次聚類算法
層次聚類也是一種應(yīng)用十分廣泛的聚類算法。不同于K 均值聚類,層次聚類不需要選擇初始點或預(yù)先設(shè)定k值。在K 均值聚類中,k值和類別數(shù)目這兩個參數(shù)的設(shè)定對于聚類結(jié)果會產(chǎn)生巨大影響,需要進行多次優(yōu)化。層次聚類則對數(shù)據(jù)點進行一層一層聚類,可以在聚類過程中控制最終的類別數(shù)目。層次聚類的核心算法思想在于不斷計算各類簇之間的距離(距離計算有多種方法),每一輪聚類將距離最大的兩個類簇進行拆分或是將距離最小的兩個類簇進行合并。
層次聚類較為靈活,分類結(jié)果直觀,已廣泛應(yīng)用于芬太尼類物質(zhì)的譜圖分類研究中。如2020 年,英國曼徹斯特城市大學(xué)的GILBERT 等[38]使用PCA 結(jié)合層次聚類算法對芬太尼類物質(zhì)的EI 譜圖建立自動化分類模型,對于未知芬太尼類物質(zhì)也有著非常高的預(yù)測準確性。
各種儀器分析技術(shù)飛速發(fā)展,研究人員僅需少量樣品便可獲取包含樣品化合物信息的海量譜圖數(shù)據(jù)。對這些數(shù)據(jù)進行合理分析就能幫助研究人員建立更為高效準確的芬太尼類物質(zhì)識別鑒定技術(shù)。此外,機器學(xué)習(xí)技術(shù)的發(fā)展日新月異,已成為大規(guī)模數(shù)據(jù)分析的重要支柱。將機器學(xué)習(xí)技術(shù)應(yīng)用于芬太尼類物質(zhì)的儀器數(shù)據(jù)分析工作,將對芬太尼類物質(zhì)的非靶向篩查、大規(guī)模識別鑒定、代謝機制研究以及使用風(fēng)險評估等領(lǐng)域產(chǎn)生重大影響。
質(zhì)譜分析因其分析速度快、檢測靈敏度高以及化合物兼容性廣,已經(jīng)成為芬太尼類物質(zhì)檢測的首選分析方法[18,39-41]。質(zhì)譜與各種色譜分離技術(shù)聯(lián)用建立了GC-MS[19]和LC-MS[20]等方法,進一步拓寬了質(zhì)譜分析的應(yīng)用范圍,可以對復(fù)雜的實際樣本進行自動化的快速分析。GC-MS 一般使用EI對化合物進行離子化[42]。EI 質(zhì)譜圖穩(wěn)定性高,在不同儀器中重現(xiàn)性高,目前已有專門針對新型精神活性物質(zhì)的SWGDRUG 質(zhì)譜數(shù)據(jù)庫。當然,GC-MS 也有其自身的局限性,對于熱不穩(wěn)定或是難揮發(fā)性的化合物分析效果不佳。針對這些化合物,使用LC-MS 結(jié)合碰撞誘導(dǎo)解離(collision induced dissociation,CID)技術(shù)進行串聯(lián)質(zhì)譜分析即可得到化合物的特征碎片信息,輔助化合物結(jié)構(gòu)確證工作。
美國約翰斯·霍普金斯大學(xué)應(yīng)用物理實驗室的KOSHUTE 等[43]于2022年在Forensic Chemistry上發(fā)表了其最新研究成果。研究人員構(gòu)建了一個有監(jiān)督機器學(xué)習(xí)模型以完成通過EI 譜圖檢測芬太尼類物質(zhì)的任務(wù)。研究人員收集了3 718 個精神活性物質(zhì)的EI譜圖,其中包括195 個芬太尼類物質(zhì)和3 523 個非芬太尼類物質(zhì)。接下來,研究人員確定了輸入機器學(xué)習(xí)模型的數(shù)據(jù)特征。不同于簡單地將每個m/z作為一個特征,該課題組對每張EI 譜圖都進行了處理,確定了12 個與質(zhì)譜峰相關(guān)的特征和12 個表征譜圖整體相似度的特征。質(zhì)譜峰相關(guān)特征包含基峰、平均峰強度和出現(xiàn)最頻繁的相鄰質(zhì)譜峰之間的質(zhì)量差值等,而相似度相關(guān)特征主要計算譜圖與幾種代表性的芬太尼類物質(zhì)譜圖的相似性。模型訓(xùn)練過程遵循了10 倍交叉驗證策略,即將所有輸入的譜圖平均分為10 組,選9 組作為訓(xùn)練數(shù)據(jù),1 組作為測試數(shù)據(jù)(不參與訓(xùn)練過程)。將訓(xùn)練所得的模型應(yīng)用于測試數(shù)據(jù)來評估模型性能。該研究共考察了3 種機器學(xué)習(xí)模型:邏輯回歸模型、神經(jīng)網(wǎng)絡(luò)模型和隨機森林模型。邏輯回歸模型采用廣義線性回歸和二分類模式,而神經(jīng)網(wǎng)絡(luò)模型選用了有兩個隱藏層的淺神經(jīng)網(wǎng)絡(luò),隨機森林模型類似于決策樹算法。完成這3 種機器學(xué)習(xí)模型的訓(xùn)練后,研究人員將所建立的3 種模型和傳統(tǒng)的數(shù)據(jù)庫比對算法模型一起進行性能評估。最終,隨機森林算法的分類準確性最高。
2020 年,美國國家標準與技術(shù)研究院質(zhì)譜數(shù)據(jù)中心的WALLACE 教授課題組[23]在Forensic Chemistry上發(fā)表了其運用機器學(xué)習(xí)模型計算譜圖相似度對芬太尼類物質(zhì)進行分類的研究成果。與KOSHUTE 等的研究不同的是,該研究搭建了一種無監(jiān)督學(xué)習(xí)模型。對于一系列Ⅰ型或Ⅱ型芬太尼類物質(zhì)的EI 譜圖,該模型能夠根據(jù)譜圖之間的相似度直接對這些譜圖進行聚類分析并將聚類結(jié)果可視化。該研究表明使用無監(jiān)督學(xué)習(xí)聚類分析對于未知分子自動化結(jié)構(gòu)歸屬具有可行性。接著,研究人員選用了一種新穎的無監(jiān)督學(xué)習(xí)算法,即多維尺度變換(multidimensional scaling,MDS)[44]。該算法與PCA 類似,是一種強有力的數(shù)據(jù)降維方法,能夠?qū)Ω鲾?shù)據(jù)樣本間的相似度進行空間可視化。其算法思想受到SVM 模型和K 均值聚類算法的啟發(fā),整體算法原理在于通過計算成對樣本間的相似度,將高維數(shù)據(jù)映射到一個低維空間中,并盡可能地在數(shù)據(jù)映射到低維空間后,保持各數(shù)據(jù)樣本之間的相似度與高維空間一致。MDS 算法被用于將各芬太尼類物質(zhì)的高維EI 譜圖映射到二維空間中,得到一張二維相似度聚類分析圖。MDS 模型分析能夠?qū)⒎姨犷愇镔|(zhì)EI 譜圖分為3 個組別,結(jié)構(gòu)修飾位點相似的芬太尼類物質(zhì)其譜圖相似度也越高,在聚類分析圖中被劃分為同一組別,驗證了該無監(jiān)督學(xué)習(xí)模型對EI 譜圖進行自動化結(jié)構(gòu)預(yù)測分類的可行性。最后,研究人員提出了一個根據(jù)可疑芬太尼類物質(zhì)EI譜圖推測其化學(xué)結(jié)構(gòu)的自動化預(yù)測平臺。所得可疑芬太尼類物質(zhì)EI 譜圖首先經(jīng)過一個芬太尼分類器。該分類器包含兩個組件:一是通過計算與已知結(jié)構(gòu)芬太尼類物質(zhì)譜圖的相似度來確定與可疑芬太尼類物質(zhì)最為相近的芬太尼類物質(zhì)的化學(xué)結(jié)構(gòu),通過閾值設(shè)定判斷其為Ⅰ型或是Ⅱ型芬太尼類物質(zhì);二是使用構(gòu)建的MDS 聚類模型判斷該可疑芬太尼類物質(zhì)可能的結(jié)構(gòu)修飾位點。最終綜合這兩項結(jié)果給出該可疑芬太尼類物質(zhì)的化學(xué)結(jié)構(gòu)預(yù)測。
綜合應(yīng)用多種機器學(xué)習(xí)算法可以進一步提高分類準確性或完成更加復(fù)雜的篩查任務(wù)。2020 年,GILBERT 等[38]首先使用PCA 對54 種芬太尼類物質(zhì)的EI 譜圖數(shù)據(jù)進行降維分析,隨后使用層次聚類模型將這些物質(zhì)分為9 類。所建立的PCA 結(jié)合層次聚類模型具有較強的泛化能力,將其應(yīng)用到67 種芬太尼類物質(zhì)(未包含在模型訓(xùn)練過程)的分類中,取得了很高的分類準確度。研究人員首先對54 張EI 譜圖進行初步的數(shù)據(jù)整理,包括截取m/z41~352 的質(zhì)譜信號并將所有信號的m/z取整。去除在所有譜圖中強度變化幅度較低的信號,最終保留了176 個m/z作為模型輸入特征,并使用R 語言中相應(yīng)的算法包進行PCA分析。對降維結(jié)果進行層次聚類分析。最后,67 種不同結(jié)構(gòu)的芬太尼類物質(zhì)被用于模型的性能評估。研究人員選用了兩種分類標準。第一種,計算每個類簇的中心點坐標,測試化合物被分入距離其坐標最近的中心點所在類別中;第二種,考察距離測試化合物坐標最近的數(shù)據(jù)點,并將其分入該數(shù)據(jù)點所在類簇。最終,第一種中心點法整體分類準確率為83.6%,第二種最鄰近點法整體分類準確率為91.0%。該研究對于芬太尼類物質(zhì)EI 譜圖的自動化分類、譜圖特點以及特征離子的挖掘有重要意義。
機器學(xué)習(xí)技術(shù)不僅能夠輔助新型未知芬太尼類物質(zhì)質(zhì)譜數(shù)據(jù)的自動化分類和相似度計算等任務(wù),還能幫助禁毒工作者探索不法分子生產(chǎn)各種芬太尼類物質(zhì)的各種途徑,更加精準地對制毒販毒行為進行打擊。目前已報道了許多芬太尼類物質(zhì)的合成方法[45-47],不同的地下工廠都有自己的合成工藝,每種合成方法都不可避免地在最后的成品芬太尼中引入一些雜質(zhì),研究人員將這些雜質(zhì)的種類和含量信息稱為化學(xué)分布特征[48]。通過分析成品中化學(xué)分布特征的差異,能幫助研究人員掌握芬太尼樣品的合成方式,結(jié)合其他信息,最終能夠更加精準地掌握毒品的來源和特定地下工廠的分布。通過多種質(zhì)譜手段如GC-MS、LC-MS等可以靈敏地捕捉芬太尼樣品中各雜質(zhì)的信號,然而在未知雜質(zhì)種類的情況下對海量質(zhì)譜數(shù)據(jù)進行非靶向分析,任務(wù)繁重,進展緩慢。近幾年,機器學(xué)習(xí)技術(shù)的引入為這一領(lǐng)域的研究帶來了新思路[48-49]。
2016 年,美國勞倫斯利弗莫爾國家實驗室法庭科學(xué)中心的WILLIAMS 教授課題組[48]在Analytical Chemistry發(fā)表的研究中,全面評估了6 種已報道的芬太尼合成方式的化學(xué)分布特征的區(qū)別。研究人員使用GC-MS、LC-MS 以及電感耦合等離子體-質(zhì)譜(inductively coupled plasma-mass spectrometry,ICP-MS)盡可能全面地捕捉6 種合成方式的化學(xué)分布特征信息,結(jié)合PLS-DA對海量質(zhì)譜數(shù)據(jù)進行處理,確證了160種有機和無機雜質(zhì)信息并從中找出87 種具有路線特異性的化學(xué)分布特征信息。PLS-DA 本質(zhì)上是一種多元線性回歸模型,融合了PCA 的思想。通過PLS-DA模型的使用,研究人員建立了一個能從芬太尼樣品中提取化學(xué)分布特征信息并對其合成方式進行預(yù)測的分析平臺。
國內(nèi)的研究人員運用質(zhì)譜高通量和高靈敏度的特點,設(shè)計出一系列非靶向芬太尼類物質(zhì)的鑒別分析方法。如2020 年司法鑒定科學(xué)研究院施妍研究員團隊[24]在Journal of the American Society for Mass Spectrometry上發(fā)表的研究成果,分別運用EI 和電噴霧離子源(electrospray ionization,ESI)結(jié)合高分辨串聯(lián)質(zhì)譜技術(shù)分析了25 個新型芬太尼類物質(zhì)的碎裂途徑。既往已開發(fā)的GC-MS 和LC-MS 分析芬太尼類物質(zhì)的方法,只能針對已知芬太尼進行檢測分析,且需要標準品對照,對于新型未知結(jié)構(gòu)芬太尼類物質(zhì)難以分析。通過串聯(lián)質(zhì)譜技術(shù)的使用,可以發(fā)現(xiàn)芬太尼類物質(zhì)所共有的碎裂模式和特征,從而為芬太尼類物質(zhì)的非靶向篩查提供基礎(chǔ)。通過分析,研究人員在ESI和EI 串聯(lián)質(zhì)譜碎裂實驗中均觀察到哌啶環(huán)降解和苯乙基與哌啶環(huán)解離兩種碎裂模式。值得注意的是,在ESI 串聯(lián)質(zhì)譜碎裂實驗中還觀測到酰胺基團裂解產(chǎn)物。該研究能夠?qū)ο嗨平Y(jié)構(gòu)新型芬太尼類物質(zhì)的檢測定量提供指導(dǎo)。
拉曼光譜是近年來廣泛應(yīng)用于化學(xué)物質(zhì)鑒定的光譜技術(shù)之一。由于拉曼散射過程與分子結(jié)構(gòu)獨特的振動模式有關(guān),因此,拉曼光譜可以提供有關(guān)分子鍵和結(jié)構(gòu)的相關(guān)信息,并且能夠識別復(fù)雜物質(zhì)中的化學(xué)成分。此外,拉曼光譜具有分析速度快、靈敏度高、成本低、操作簡單等優(yōu)點。因此,該技術(shù)被廣泛應(yīng)用于分子結(jié)構(gòu)鑒定、精神麻醉藥品檢測等領(lǐng)域[50-51]。在使用拉曼光譜分析復(fù)雜的混合物樣品時,獲得的光譜數(shù)據(jù)集極其龐大,往往需要使用各類數(shù)據(jù)處理方法進行數(shù)據(jù)的采集、提取、分析等,故機器學(xué)習(xí)以及人工智能等策略與拉曼光譜技術(shù)相結(jié)合逐漸被應(yīng)用于各領(lǐng)域內(nèi)分析物的鑒定。
近年來,表面增強拉曼散射(surface-enhanced Raman scattering,SERS)技術(shù)迅速發(fā)展。該技術(shù)與機器學(xué)習(xí)算法結(jié)合,在藥品鑒定、毒物分析領(lǐng)域得到了廣泛應(yīng)用[52-53]。目前,通過使用SERS 技術(shù)結(jié)合PCA、SVM 手段,研究人員能夠較好地對羥考酮、海洛因、四氫大麻酚和可卡因等毒品進行區(qū)分,并在一定程度上展現(xiàn)出定量分析的潛力[54]。在檢測比較復(fù)雜的體液樣品時,將PCA 與SERS 相結(jié)合能夠高效分析唾液中的四氫大麻酚[55],將PLS-DA 與SERS 聯(lián)合使用能夠檢出唾液中微量的海洛因和甲基苯丙胺,并區(qū)分兩者[56]。
在芬太尼類物質(zhì)的檢測方面,WANG 等[57]使用PCA 結(jié)合SERS 檢測尿液樣本中的芬太尼類物質(zhì),結(jié)果表明,可以從高濃度的嗎啡和芬太尼混合樣品中檢測出質(zhì)量濃度低至50 ng/mL 的芬太尼。該方法共分析了5 種芬太尼(芬太尼、卡芬太尼、4-氟丁酰芬太尼、去甲芬太尼和瑞芬太尼),檢測靈敏度范圍為50~2 000 ng/mL。HADDAD 等[58]使用SERS 進行海洛因混合物中芬太尼的定量分析。該研究還將與每種物質(zhì)相關(guān)的診斷峰的強度比擬合到Langmuir 等溫線校準模型中,在樣品中芬太尼含量<6%時仍能保持良好的線性,表明該方法適用于犯罪現(xiàn)場調(diào)查中定量檢材中的痕量芬太尼。GOZDZIALSKI 等[59]報道了將便攜式拉曼光譜儀與PLS-DA 聯(lián)用對混合物粉末中的芬太尼進行定量分析,結(jié)果表明該分析方法有望應(yīng)用于實時檢測分析并定量非法藥物。MIRSAFAVI 等[60]將SERS與微流控技術(shù)相結(jié)合,檢測芬太尼及其兩種化學(xué)前體——去丙酰芬太尼和N-苯乙基-4-哌啶酮。除了利用高靈敏度的SERS 外,該研究還結(jié)合分層PLS-DA分析算法區(qū)分具有相似特征的光譜圖。分層PLS-DA方法的分類具有嚴格的分類閾值,顯示出其在分析結(jié)構(gòu)相近化合物時的良好性能。
除了拉曼光譜,近紅外光譜(near infrared spectrum,NIR)也是一種無需處理樣品即可進行分析的技術(shù)。目前,商用拉曼手持光譜儀已被執(zhí)法人員廣泛使用。雖然手持光譜儀體積較小,便于攜帶,但仍有其局限性。主要問題之一是熒光化合物會干擾和模糊拉曼信號,如果樣品中存在特定的熒光雜質(zhì),會導(dǎo)致光譜儀靈敏度降低、檢測限升高[61]。此外,商用拉曼光譜儀擁有其光譜數(shù)據(jù)庫,但在實際檢測過程中,往往會遇到被分析物未包含在數(shù)據(jù)庫中的情況。相比之下,NIR 分析儀不受熒光影響,并且比拉曼設(shè)備便宜、體積更小,適合在犯罪現(xiàn)場進行實時分析[62]。目前已有多項研究表明機器學(xué)習(xí)結(jié)合NIR 分析儀具有較好的應(yīng)用前景,如LIU 等[63]使用SIMCA(soft independent modeling of class analogy,一種有監(jiān)督機器學(xué)習(xí)算法)對甲基苯丙胺、氯胺酮、海洛因或可卡因類的光譜進行分類,然后使用PLS-DA 回歸模型進行量化;HESPANHOL 等[64]基于多種機器學(xué)習(xí)算法建立了針對阿片類物質(zhì)NIR 數(shù)據(jù)的快速定性和定量分析模型。未來,相信紅外光譜結(jié)合機器學(xué)習(xí)將在芬太尼類物質(zhì)分析領(lǐng)域發(fā)揮更重要的作用。
NMR 是司法鑒定和禁毒領(lǐng)域除質(zhì)譜與光譜外常用的分析技術(shù)之一。超導(dǎo)核磁共振波譜儀的儀器成本和冷凍劑維護支出較高,且儀器體積大,因此NMR在司法鑒定領(lǐng)域的普及程度沒有質(zhì)譜與光譜高[65]。近年來,臺式NMR 設(shè)備不斷發(fā)展,且成本更低,占地面積更小,不需要使用冷凍劑,并且?guī)缀鯚o需維護[66]。更重要的是,NMR 憑借其自身的獨特優(yōu)勢——能夠在沒有任何信息參考的情況下高效地推測出檢材中毒品的化學(xué)結(jié)構(gòu)及成分信息,開始廣泛應(yīng)用于新型毒品以及未知毒物的檢測。如在芬太尼類物質(zhì)的檢測方面,有文獻[67]曾報道運用低場(65 MHz)核磁共振波譜儀獲得的核磁共振氫譜(1H-nuclear magnetic resonance,1H-NMR)譜圖可以輕松區(qū)分65 種芬太尼及其類似物,包括各種類型的位置異構(gòu)體,為建立獨立于場強的1H-NMR 譜圖庫提供了新的研究思路。此外,有研究[6]應(yīng)用核磁共振氟譜(19F NMR)對含氟芬太尼類似物進行定性及定量分析(檢出限為74~400 μg/mL,定量限為290~1 340 μg/mL),該方法可以改善含氟芬太尼類似物信號在1H-NMR 檢測混合物時受到限制的問題,并能夠很好地區(qū)分含氟芬太尼的位置異構(gòu)體。
目前,運用機器學(xué)習(xí)結(jié)合NMR 技術(shù)分析芬太尼類物質(zhì)方面的研究報道較少。2020 年,MCKEOWN等[37]運用高場(300 MHz)和低場(43 MHz)傅里葉變換NMR 波譜結(jié)合PCA 以及正交PLS-DA 用于3 種方法合成的芬太尼前體N-苯乙基-4-哌啶酮和4-苯胺基-N-苯乙基哌啶共42 個樣品的分類研究。與高場相比,低場NMR 數(shù)據(jù)集每個bin 中的數(shù)據(jù)點較少且可區(qū)分的光譜特征較少,但通過合理建立多變量分析模型,研究人員在低場1H-NMR 光譜中盡可能挖掘出足夠的樣品信息,最終所有測試樣本均獲得了較為滿意的分類結(jié)果。運用機器學(xué)習(xí)與NMR 技術(shù)相結(jié)合可以區(qū)分由特定方法合成的芬太尼及其前體,為法醫(yī)學(xué)鑒定提供了新的研究策略。
在芬太尼類物質(zhì)非靶向篩查識別領(lǐng)域,機器學(xué)習(xí)技術(shù)已經(jīng)顯示出巨大的潛力。傳統(tǒng)的精神活性物質(zhì)識別鑒定方法大多依賴標準物質(zhì),只能對已知的芬太尼類物質(zhì)進行靶向分析。面對層出不窮的新型芬太尼類物質(zhì),這一策略面臨巨大挑戰(zhàn)。機器學(xué)習(xí)技術(shù)通過強大的數(shù)據(jù)分析能力結(jié)合計算機算力支持,能夠快速挖掘大量芬太尼類物質(zhì)譜圖數(shù)據(jù)中所蘊藏的共性規(guī)律,從而對未知化合物譜圖與芬太尼類物質(zhì)的相似度進行計算以評估其風(fēng)險系數(shù)。各種監(jiān)督學(xué)習(xí)模型能夠高效、自動地從各種類型的芬太尼類物質(zhì)譜圖中提取特征并通過迭代優(yōu)化建立高性能的分類和回歸模型,為新型芬太尼類物質(zhì)的早期篩查提供數(shù)據(jù)支持。同時,無監(jiān)督學(xué)習(xí)模型能夠?qū)A康姆姨犷愇镔|(zhì)實驗數(shù)據(jù)進行聚類分析,幫助研究人員了解數(shù)據(jù)結(jié)構(gòu),加速研究工作的推進。相信隨著各類儀器分析技術(shù)和機器學(xué)習(xí)技術(shù)的不斷發(fā)展,各種針對芬太尼類物質(zhì)的大規(guī)模非靶向篩查方法將蓬勃發(fā)展,新型芬太尼類物質(zhì)的監(jiān)管空窗期也將不斷縮短。