葉 倩,洪歡歡,,周 峰,郭 榮,,李剛強(qiáng),,聞路紅,,陳 臘,*
(1.寧波大學(xué) 高等技術(shù)研究院,浙江 寧波 315211;2.寧波華儀寧創(chuàng)智能科技有限公司,浙江 寧波 315100)
直接電離質(zhì)譜技術(shù)[1-2]可在敞開式環(huán)境下實(shí)現(xiàn)原位、快速實(shí)時(shí)離子化,且無需或只需極少的樣品前處理,廣泛應(yīng)用于化妝品[3]、毒品[4]、爆炸物[5]等領(lǐng)域。介質(zhì)阻擋放電離子源-質(zhì)譜(DBDI-MS)是最常見的直接電離質(zhì)譜分析方法之一,具有結(jié)構(gòu)簡單、成本低廉、操作簡便等優(yōu)點(diǎn),可實(shí)現(xiàn)對氣、液、固態(tài)樣品的直接分析[6-7]。然而,直接電離質(zhì)譜常因工作環(huán)境和樣品基質(zhì)差異大,質(zhì)譜信號易受干擾,同時(shí)質(zhì)譜信號中噪聲峰、同位素峰等的存在會降低目標(biāo)物質(zhì)鑒定的準(zhǔn)確性[8],從而給質(zhì)譜數(shù)據(jù)處理和分析帶來巨大挑戰(zhàn)。常見質(zhì)譜檢測數(shù)據(jù)分析方法主要包括提取離子流(Extracted Ion Current,EIC)計(jì)算信噪比[9]、高斯混合模型(Gaussian Mixture Model,GMM)[10]和機(jī)器學(xué)習(xí)(Machine Learning,ML)[11]等。如Garcia-Reyes等[5]通過計(jì)算爆炸物與背景信號強(qiáng)度的信噪比來判斷是否檢出,但該方法需預(yù)設(shè)定信噪比閾值;Gao等[10]引入GMM方法計(jì)算未知譜峰到噪聲基線的距離,通過距離的遠(yuǎn)近實(shí)現(xiàn)對有用信號和噪聲信號的分類。Gradisek等[12]研究發(fā)現(xiàn),利用ML可提高電子鼻對爆炸物的化學(xué)選擇性,從而提高分類準(zhǔn)確性;Morton等[13]采用神經(jīng)網(wǎng)絡(luò)方法分析微生物-代謝物對的共存情況,可處理多個(gè)數(shù)量級較大范圍強(qiáng)度的數(shù)據(jù),具有廣泛的適用性。由于傳統(tǒng)的EIC和GMM僅利用峰強(qiáng)信息,忽略了峰位置、半峰寬等重要峰形特征,而ML可充分挖掘質(zhì)譜信號中相關(guān)參數(shù)作為特征指標(biāo),因此可提高檢測的準(zhǔn)確性。
本研究基于DBDI-MS技術(shù),結(jié)合質(zhì)譜信號預(yù)處理和不同分類方法,以離子化效率與爆炸物相近的乙酰水楊酸為模擬物建立檢測模型,并將其應(yīng)用于低濃度的三硝基甲苯(TNT)和硝酸銨兩種爆炸物的檢測。
LTQ質(zhì)譜儀(美國Thermo公司),配Xcalibur數(shù)據(jù)處理系統(tǒng);DBDI-100離子源(寧波華儀寧創(chuàng)智能科技有限公司);SQP分析天平(德國賽多利斯公司)。
三硝基甲苯(TNT,純度大于99%,上海百靈威化學(xué)技術(shù)有限公司);硝酸銨(純度大于99%,北京普天同創(chuàng)生物科技有限公司);乙酰水楊酸(純度大于99%,上海阿拉丁生化科技股份有限公司);甲醇(色譜純,寧波市江東昌遠(yuǎn)儀器儀表有限公司)。
TNT、硝酸銨和乙酰水楊酸分別用甲醇溶解,配制所需濃度的標(biāo)準(zhǔn)溶液。
基于DBDI-MS的爆炸物樣品檢測平臺見圖1,其離子源出口距質(zhì)譜儀進(jìn)樣口2.0 cm,將樣品溶液滴加至樣品載臺上,上表面距質(zhì)譜儀進(jìn)樣口下方0.5 cm,以45°反射進(jìn)樣方式進(jìn)行樣品分析。DBDI采用單電極,當(dāng)向電極施加高壓時(shí),離子化氣體電離形成穩(wěn)定的等離子體,并通過絕緣介質(zhì)管噴射出來[14]。LTQ質(zhì)譜儀采用Full scan和MS/MS模式,每個(gè)樣品采樣時(shí)間約6 s,負(fù)離子檢測模式,離子掃描范圍m/z60~580 amu;噴霧電壓為-4 kV;離子化氣體為氦氣,流速3 L/min;離子源溫度200 ℃,離子傳輸線溫度275 ℃,毛細(xì)管電壓-21 V,管透鏡電壓-57 V。
圖1 基于介質(zhì)阻擋放電離子源-質(zhì)譜的爆炸物樣品檢測平臺示意圖Fig.1 Schematic of the explosive sample detection platform with DBDI-MS
1.3.1 數(shù)據(jù)預(yù)處理采用NumPy、SciPy等進(jìn)行質(zhì)譜數(shù)據(jù)處理。Scikit-learn是Python中廣泛應(yīng)用的機(jī)器學(xué)習(xí)庫,它包含大量ML算法以及從數(shù)據(jù)預(yù)處理到模型訓(xùn)練、模型測試等多個(gè)工具函數(shù)[15]。研究中采用的數(shù)據(jù)預(yù)處理主要有Boxcar濾波、插值平滑和峰形校準(zhǔn)。
1.3.2 分類方法(1)提取離子流(EIC)指一定質(zhì)荷比范圍內(nèi)的峰強(qiáng)之和。鑒于LTQ-MS的分辨率,本研究在目標(biāo)峰對應(yīng)的質(zhì)荷比左右各0.5 amu內(nèi),通過計(jì)算爆炸物和空白對照樣本的EIC強(qiáng)度,計(jì)算各自的統(tǒng)計(jì)分布,并設(shè)定閾值進(jìn)行分類。通常正態(tài)分布遵循如下高斯函數(shù):
(1)
式(1)中,μ、σ分別表示EIC強(qiáng)度的均值和標(biāo)準(zhǔn)差。
(2)高斯混合模型(GMM)[10]指多個(gè)高斯函數(shù)的線性組合,利用期望極大化(Expectation maximization,EM)算法對參數(shù)進(jìn)行估計(jì)。本研究分別提取爆炸物和空白對照樣本的峰強(qiáng),以其均值和標(biāo)準(zhǔn)差為初始值,通過EM多次迭代得到收斂后的均值和標(biāo)準(zhǔn)差作為樣本中心,然后計(jì)算未知譜峰到樣本中心的歐式距離并對其分類。如乙酰水楊酸的質(zhì)荷比-峰強(qiáng)的二維質(zhì)譜圖見圖2A。對多張質(zhì)譜圖中目標(biāo)離子m/z179對應(yīng)的峰強(qiáng)進(jìn)行統(tǒng)計(jì)分析,發(fā)現(xiàn)同一濃度的乙酰水楊酸樣品其峰強(qiáng)分布范圍較廣,可達(dá)5個(gè)數(shù)量級,且伽馬函數(shù)相比高斯函數(shù)具有更好的擬合效果(圖2B),然而,擬合參數(shù)的選取對伽馬函數(shù)的擬合結(jié)果影響很大[16]。若對峰強(qiáng)取對數(shù)后(圖2C),相應(yīng)幾率與高斯函數(shù)高度吻合,通常這種分布又稱為對數(shù)正態(tài)分布。因此除特殊說明外,本研究均先對峰強(qiáng)取對數(shù)后,再進(jìn)行分析。
圖2 乙酰水楊酸質(zhì)譜圖(A)、m/z 179的質(zhì)譜峰強(qiáng)統(tǒng)計(jì)分布與擬合(B)及其取對數(shù)后的統(tǒng)計(jì)直方圖(C)Fig.2 Mass spectrum of acetylsalicylic acid(A),histogram and fitting results(B) and the histogram of log-scaled peak intensity(C) of acetylsalicylic acid at m/z 179 B:the blue bars present the histogram of peak intensity,the green and red lines show the fitting results according to Gamma and Gaussian distribution,respectively(藍(lán)色為峰強(qiáng)統(tǒng)計(jì)直方圖,綠線為伽馬分布擬合,紅線為高斯分布擬合);C:the blue bars present the histogram of log-scaled peak intensity,the red line shows the fitting result according to Gaussian distribution(藍(lán)色為m/z 179質(zhì)譜峰強(qiáng)取對數(shù)后的統(tǒng)計(jì)直方圖,紅色曲線為高斯分布擬合)
(3)機(jī)器學(xué)習(xí)(ML)。本研究基于ML的分類方法對爆炸物分類。原始質(zhì)譜數(shù)據(jù)經(jīng)預(yù)處理后,獲得特征矢量(峰強(qiáng)、峰位置和半峰寬),并對其進(jìn)行主成分分析(PCA),計(jì)算各特征矢量占原始數(shù)據(jù)總信息量的比例。然后,將數(shù)據(jù)集劃分為訓(xùn)練集(80%)和測試集(20%)進(jìn)行模型訓(xùn)練和模型測試。
1.3.3 性能評估爆炸物樣本設(shè)為陽性,空白對照樣本設(shè)為陰性。查準(zhǔn)率(Precision)、查全率(Recall)分別反映假陽性(FP)、假陰性(FN)情況。本研究以Precision和Recall的調(diào)和平均F_score[17]作為綜合性能指標(biāo),只有當(dāng)兩者均很高時(shí),F(xiàn)_score才很大,即分類器效果好。F_score與Precision、Recall間的定量關(guān)系如下:
(2)
本研究采用的數(shù)據(jù)集為檢出限附近濃度為1 ng/mL的乙酰水楊酸樣本(115個(gè))、兩種爆炸物樣本(TNT、硝酸銨分別為110、90個(gè))和空白對照樣本(366個(gè)),每個(gè)樣本內(nèi)含10 ~12幅目標(biāo)物質(zhì)譜圖。
由于乙酰水楊酸的母離子[M-H]-(m/z179)易碎裂成m/z137(圖2A),故對其雙目標(biāo)m/z137、179進(jìn)行質(zhì)譜檢測分析。
2.1.1 基于提取離子流與高斯混合模型方法的乙酰水楊酸檢測結(jié)果數(shù)據(jù)分析顯示,乙酰水楊酸在離子峰m/z137和179處峰強(qiáng)分布特點(diǎn)及一級質(zhì)譜檢測結(jié)果均類似,且在離子峰m/z137處的檢測準(zhǔn)確率更高,因此,本研究重點(diǎn)介紹在m/z137處的檢測結(jié)果。采用EIC和GMM對乙酰水楊酸在136.5~137.5 amu質(zhì)量范圍內(nèi)的檢測結(jié)果見圖3。結(jié)果顯示:乙酰水楊酸與空白對照樣本EIC強(qiáng)度分布之間存在一定的交叉(圖3A中紫色部分),這可能導(dǎo)致設(shè)定單一閾值的檢測效果不佳,從而出現(xiàn)一定的假陽性率(FPR)和假陰性率(FNR)。FPR、FNR分別表示將陰性錯(cuò)分為陽性的樣本占所有陰性樣本的比率以及將陽性錯(cuò)分為陰性的樣本量占所有陽性樣本的比率,它們與閾值的關(guān)系如圖3B所示,可看出分類結(jié)果比較依賴所設(shè)定的閾值。
圖3 乙酰水楊酸一級質(zhì)譜檢測結(jié)果(A)、EIC假陽性率和假陰性率與閾值的關(guān)系(B)以及基于GMM的分類結(jié)果(C)Fig.3 Detection results of acetylsalicylic acid(A),the relationship between FPR,FNR and the threshold of EIC(B) and classification results based on GMM(C)A:the histograms and the curves represent the intensity distribution of EIC and its probability density curves,respectively;the purple is the cross part;the standard deviations of the signal peak and the background peak after the GMM iteration are indicated by the length of the respective green line,and the means are indicated by the center position of the respective black line(直方圖表示EIC強(qiáng)度分布,曲線表示擬合的概率密度函數(shù),紫色為交叉部分;GMM迭代后信號峰與噪聲峰的標(biāo)準(zhǔn)差通過各自的綠線長度表示,均值通過各自的黑線中心位置表示)
采用GMM分類的結(jié)果見圖3C,圖中橫軸f為距離函數(shù),分類結(jié)果的準(zhǔn)確性與所選閾值緊密相關(guān)。分析表明,當(dāng)圖3B中閾值設(shè)定為4.2和圖3C中f為0.58時(shí),分別對應(yīng)EIC和GMM各自的最優(yōu)檢測結(jié)果,此時(shí),計(jì)算得F_score分別為0.74和0.89。由此可見,GMM相比EIC具有更高的檢測準(zhǔn)確性,但其檢測結(jié)果均過于依賴設(shè)定的閾值,在閾值附近的質(zhì)譜信號很難被正確分類,易造成假陽性、假陰性結(jié)果。
2.1.2 基于機(jī)器學(xué)習(xí)的乙酰水楊酸檢測結(jié)果由于EIC和GMM僅利用離子信號強(qiáng)度的信息,而忽略了峰位置、半峰寬等重要信息。因此,本研究基于質(zhì)譜信號的相關(guān)特征,結(jié)合ML對不同樣品進(jìn)行分類,以提高檢測準(zhǔn)確性。對乙酰水楊酸的PCA分析結(jié)果表明,峰強(qiáng)占82.4%,為最重要特征,峰位置、半峰寬分別占13.8%、3.2%,因此選擇此3個(gè)參數(shù)作為特征進(jìn)行模型訓(xùn)練和測試。利用ML對乙酰水楊酸的檢測結(jié)果如表1所示。由“2.1.1”的分析結(jié)果與表中數(shù)據(jù)可見,由于ML除了考慮峰強(qiáng)這個(gè)單一特征外,還引入半峰寬和峰位置特征,有效降低了空白樣品中背景離子EIC強(qiáng)度過高引起的FPR,故基于ML的檢測準(zhǔn)確率整體較高。綜合考慮表1中各ML的訓(xùn)練時(shí)間、測試時(shí)間及檢測準(zhǔn)確性等因素,重點(diǎn)介紹采用隨機(jī)森林(Random Forest,RF)分類方法對乙酰水楊酸數(shù)據(jù)的研究。RF是利用多棵樹對樣本進(jìn)行訓(xùn)練、測試的一種集成算法。在進(jìn)行分類預(yù)測時(shí),RF分別使用模型訓(xùn)練時(shí)得到的多組分類器進(jìn)行預(yù)測,最終選擇分類器投票結(jié)果中最多的類別作為分類結(jié)果[18],具有防止過擬合、檢測結(jié)果準(zhǔn)確可靠、適應(yīng)性強(qiáng)等優(yōu)勢。結(jié)果顯示,與EIC和GMM相比,基于RF的檢測準(zhǔn)確率顯著提高,且單個(gè)樣本數(shù)據(jù)分析時(shí)間均不超過0.1 s,可達(dá)到快速檢測乙酰水楊酸的目的。
表1 基于機(jī)器學(xué)習(xí)的檢測結(jié)果Table 1 Detection results based on machine learning
2.2.1 基于隨機(jī)森林分類方法的TNT一級、二級質(zhì)譜檢測結(jié)果TNT的DBDI-MS一級負(fù)離子質(zhì)譜(m/z226)以及經(jīng)碰撞誘導(dǎo)解離后的二級質(zhì)譜分別見圖4A和B。在所有碎片離子中,[TNT-NO-H]-(m/z196)的豐度最高,可見TNT最易丟失NO基團(tuán)。根據(jù)乙酰水楊酸各ML的研究結(jié)果,此處同樣采用RF對TNT一級、二級質(zhì)譜檢測。結(jié)果表明,TNT一級、二級質(zhì)譜的F_score分別為0.76和0.93,且平均單個(gè)樣本數(shù)據(jù)分析時(shí)間均不超過0.1 s。相比于一級質(zhì)譜,MS/MS在FPR較低的情況下,仍具有很高的真陽性率,檢測準(zhǔn)確率顯著提高,這是因?yàn)閙/z196經(jīng)MS/MS獲得,大幅降低了背景干擾,類似于利用高分辨質(zhì)譜可減少質(zhì)荷比相同的背景離子對檢測的影響[19]。分析表明,與其它ML相比,RF為最佳選擇,這與表1中乙酰水楊酸的研究結(jié)果類似。
圖4 TNT的質(zhì)譜圖Fig.4 Mass spectra of TNTA:full scan MS;B:MS/MS
2.2.2 基于提取離子流與高斯混合模型方法的TNT一級、二級質(zhì)譜檢測結(jié)果實(shí)驗(yàn)結(jié)果表明,對于TNT一級質(zhì)譜,質(zhì)量范圍在225.5~226.5 amu時(shí),TNT與空白對照樣本的EIC強(qiáng)度分布之間的交叉較大(圖5A中紫色部分)。由EIC中FNR、FPR和閾值之間的關(guān)系(圖5B)可見,通過設(shè)定單一閾值的檢測效果不佳,F(xiàn)N、FP情況此消彼長,即出現(xiàn)少量FN時(shí),F(xiàn)P情況也嚴(yán)重,這與“2.1.1”部分乙酰水楊酸研究結(jié)果類似。當(dāng)FNR、FPR達(dá)到均衡狀態(tài)時(shí),也達(dá)到40%以上,這是由于溶劑或空氣中背景離子m/z226的干擾,使空白樣品中EIC強(qiáng)度過高,從而出現(xiàn)FP。另外,采用GMM分類的結(jié)果準(zhǔn)確性也與所選取的閾值緊密相關(guān)(圖5C)。研究顯示,當(dāng)圖5B中設(shè)定閾值為3.6和圖5C中f為0.56時(shí),分別對應(yīng)EIC和GMM各自的最優(yōu)檢測結(jié)果,此時(shí)F_score分別為0.30、0.89,即GMM相比EIC具有更高的檢測準(zhǔn)確性。可能由于空氣中塑化劑等的影響,TNT一級質(zhì)譜雜質(zhì)較多且噪聲嚴(yán)重,從而使質(zhì)譜信號出現(xiàn)拖尾、重疊等不規(guī)則峰形,導(dǎo)致其檢測準(zhǔn)確率偏低。
TNT MS/MS的EIC強(qiáng)度分布見圖5D,與一級質(zhì)譜相比,MS/MS中TNT與空白對照樣本的交叉明顯減小(圖5D中紫色部分),分類效果也有所提高;當(dāng)圖5E中設(shè)定閾值為1.28和圖5F中f為0.65時(shí),分別對應(yīng)EIC和GMM各自的最優(yōu)檢測結(jié)果,此時(shí)F_score分別為0.85、0.75。EIC比GMM的檢測準(zhǔn)確性略高,如同TNT一級質(zhì)譜結(jié)果,設(shè)定的閾值對檢測結(jié)果影響均較大。因此,與傳統(tǒng)的EIC和GMM方法相比,RF同樣也能較好地對TNT進(jìn)行分類。
圖5 TNT一級質(zhì)譜(A、B、C)與二級質(zhì)譜(D、E、F)檢測結(jié)果Fig.5 Detection results of full scan MS and MS/MS of TNTA and D:EIC intensity distributions(EIC強(qiáng)度分布);B and E:the relationship between FPR,FNR and the threshold of EIC method(EIC假陽性率和假陰性率與閾值的關(guān)系);C and F:classification results based on GMM(基于GMM的分類結(jié)果)
除TNT外,為進(jìn)一步驗(yàn)證RF在爆炸物檢測中的適用性,本研究還對另一種爆炸物硝酸銨進(jìn)行了研究。采用EIC、GMM和ML分別對其雙目標(biāo)離子[NO3]-(m/z62)和[(HNO3)NO3]-(m/z125)進(jìn)行分類檢測。結(jié)果表明,當(dāng)EIC中設(shè)定閾值為5.1和GMM中f為0.56時(shí),分別對應(yīng)EIC和GMM各自的最優(yōu)檢測結(jié)果,此時(shí),F(xiàn)_score分別為0.84、0.88。利用RF檢測時(shí),F(xiàn)_score可達(dá)0.95,且單個(gè)樣本數(shù)據(jù)分析時(shí)間不超過0.1 s。因此,RF同樣也滿足對硝酸銨的快速檢測。
本研究基于DBDI-MS聯(lián)用技術(shù),利用爆炸物模擬物乙酰水楊酸進(jìn)行質(zhì)譜數(shù)據(jù)預(yù)處理和分類算法研究,建立了一種適用于低濃度典型爆炸物TNT和硝酸銨的快速、準(zhǔn)確檢測方法。結(jié)果顯示,無論是空白對照樣品還是同一濃度爆炸物樣品,信號強(qiáng)度皆呈對數(shù)正態(tài)分布,橫跨幾個(gè)數(shù)量級,這導(dǎo)致傳統(tǒng)的EIC和GMM對預(yù)設(shè)定的閾值較敏感。在典型爆炸物的分類檢測中,RF檢測準(zhǔn)確率均最高,可滿足檢測需求,且相比傳統(tǒng)的EIC和GMM,具有無需設(shè)定閾值的優(yōu)勢;同時(shí),相對于質(zhì)譜儀獲取單個(gè)樣品質(zhì)譜數(shù)據(jù)需3~6 s,在所有RF檢測中,單個(gè)樣本數(shù)據(jù)分析時(shí)間皆不超過0.1 s,因此可滿足快速、實(shí)時(shí)檢測需求。此外,進(jìn)一步研究發(fā)現(xiàn),針對TNT檢測,MS/MS相比一級質(zhì)譜可大幅度降低背景干擾,顯著提高了檢測準(zhǔn)確率。綜上所述,直接電離質(zhì)譜技術(shù)結(jié)合ML可滿足現(xiàn)場快速、實(shí)時(shí)、準(zhǔn)確檢測爆炸物的需求,具有較好的應(yīng)用前景。