郭宗昱,郭一新,金偉其,何玉青,裘 溯
北京理工大學(xué)光電成像技術(shù)與系統(tǒng)教育部重點(diǎn)實(shí)驗(yàn)室,北京 100081
轉(zhuǎn)基因作物是指利用重組DNA技術(shù)將克隆的外源基因?qū)胱魑锝M織并表達(dá),從而獲得的具有特定目標(biāo)性狀的作物[1]。據(jù)國際農(nóng)業(yè)生物技術(shù)應(yīng)用服務(wù)組織(International Service for the Acquisition of Agri-biotech Applications, ISAAA)統(tǒng)計(jì)報(bào)告,1996年—2018年全球轉(zhuǎn)基因作物種植面積攀升至1.917億公頃,發(fā)展中國家與發(fā)達(dá)國家分別占1.031億公頃和0.886億公頃,其中,轉(zhuǎn)基因大豆在全球的應(yīng)用率最高,占全球轉(zhuǎn)基因作物面積的50%。雖然轉(zhuǎn)基因技術(shù)可增加作物產(chǎn)量、改善作物品質(zhì)、提高抗旱抗寒能力和其他特性,但轉(zhuǎn)基因作物也可能對(duì)生態(tài)環(huán)境造成潛在的威脅(如土壤生態(tài)系統(tǒng)和生物地球化學(xué)循環(huán)等),甚至可能對(duì)生物種群造成嚴(yán)重影響[2],因此,轉(zhuǎn)基因作物的環(huán)境安全性評(píng)價(jià)一直是人們關(guān)注的問題。我國是世界上主要的大豆消費(fèi)國和進(jìn)口國,截至2019年進(jìn)口的大豆量達(dá)8.34億噸,消費(fèi)量約為10億噸,其中絕大多數(shù)均為轉(zhuǎn)基因大豆[3]。2020年農(nóng)業(yè)農(nóng)村部下發(fā)了三款耐除草劑轉(zhuǎn)基因大豆的農(nóng)業(yè)轉(zhuǎn)基因生物安全證書批準(zhǔn)清單[4]。為了防止轉(zhuǎn)基因大豆在食品化中的濫用,解決食品標(biāo)識(shí)不清甚至魚龍混雜的問題,食品轉(zhuǎn)基因大豆成分檢測(cè)形勢(shì)非常迫切。
常見的轉(zhuǎn)基因大豆檢測(cè)技術(shù)主要有外源核酸檢測(cè)和外源蛋白檢測(cè)兩類。前者主要有定性聚合酶鏈?zhǔn)椒磻?yīng)(polymerase chain reaction, PCR)、定量聚合酶鏈?zhǔn)椒磻?yīng)、環(huán)介導(dǎo)等溫?cái)U(kuò)增(loop-media isothermal ampli-fication, LAMP)等技術(shù);后者主要有酶聯(lián)免疫吸附(enzyme linked immune-sorbent assay, ELISA)、試紙條和Western blot等檢測(cè)技術(shù)[5-6]。這些檢測(cè)方法大多特異性強(qiáng)、檢測(cè)準(zhǔn)確度高,但對(duì)樣品提取的質(zhì)量要求高,預(yù)處理復(fù)雜,采樣檢測(cè)耗時(shí)較長且均為破壞性檢驗(yàn),不僅對(duì)檢測(cè)人員的專業(yè)素質(zhì)要求較高,而且難以適應(yīng)在某些實(shí)際場合樣品量大且需要快速檢測(cè)的應(yīng)用需求。
拉曼光譜是一種無損的非接觸性光散射分析方法,譜峰位置、強(qiáng)弱及形狀可精確反映出有關(guān)物質(zhì)或混合物的結(jié)構(gòu)信息,因此常用來鑒別物質(zhì)和組分分析。拉曼光譜檢測(cè)無需預(yù)處理,不產(chǎn)生化學(xué)污染物,具有快速準(zhǔn)確、簡單高效、可重復(fù)性高等優(yōu)點(diǎn)。然而,由于大豆油組分中包含大量碳-碳雙鍵(線性或環(huán)狀不飽和分子,具有大量的p鍵偶聯(lián))[7],會(huì)產(chǎn)生強(qiáng)熒光背景[8],對(duì)拉曼光譜的檢測(cè)產(chǎn)生較大干擾。相對(duì)于常見的可見光和近紅外拉曼光譜,紫外拉曼光譜的特點(diǎn):①與熒光光譜大致分離[9];②由于臭氧層對(duì)紫外線的隔離,紫外拉曼光譜受環(huán)境光干擾較小,適用現(xiàn)場遙測(cè),應(yīng)用場景更廣泛;③拉曼散射強(qiáng)度與波長的四次方成反比[10],在同等條件下紫外拉曼光譜對(duì)弱散射信號(hào)的探測(cè)更具優(yōu)勢(shì),更適合實(shí)際現(xiàn)場的檢測(cè)。本文研究紫外拉曼光譜對(duì)轉(zhuǎn)基因大豆油的鑒別方法,分析轉(zhuǎn)基因與非轉(zhuǎn)基因大豆油的分類可行性,為轉(zhuǎn)基因大豆油及其食品的現(xiàn)場檢測(cè)探索新的技術(shù)途徑。
紫外拉曼光譜檢測(cè)系統(tǒng)如圖1所示,主要由紫外激光器、拉曼光譜儀、熒光光譜儀和可見光相機(jī)組成。激光脈沖經(jīng)BS1(266 nm, Semrock, Bright Line)雙向色鏡反射,垂直穿過工作距離為15 mm的10倍紫外聚焦物鏡,到達(dá)樣品表面;樣品被激發(fā)出的光譜首先入射到BS1,濾去266 nm激光,透過大于266 nm的拉曼光譜、熒光譜及可見光等;BS2(310 nm, Semrock, Bright Line)處266~310 nm的光譜由采集頭收集,并通過光纖傳送至拉曼光譜儀;BS3(484 nm, Semrock, Bright Line)處310~484 nm光譜由光纖傳送至熒光光譜儀;最終的可見光(波長大于484 nm)由帶通反射鏡BPM反射至CCD相機(jī)成像,實(shí)現(xiàn)對(duì)不可見紫外采樣點(diǎn)場景的搜索與瞄準(zhǔn),同時(shí)熒光通道可結(jié)合門控技術(shù)計(jì)算熒光衰減時(shí)間,實(shí)現(xiàn)對(duì)物質(zhì)的快速篩選。其中,266 nm長通濾光片LWP可抑制激光反射和瑞利散射;反綠光帶通濾光片BPM可避免熒光過強(qiáng)導(dǎo)致的過曝問題,同時(shí)反射綠光為CCD提供照明。光譜儀通過USB連接至電腦,由PyCharm(Python 3.8)平臺(tái)進(jìn)行數(shù)據(jù)處理。
系統(tǒng)采用長春光機(jī)所四倍頻Nd∶YAG脈沖激光器MPL-N-266,波長266 nm,平均功率為30 mW,脈寬5 ns,重頻3~5 kHz;拉曼通道采用海洋光學(xué)QE-pro光譜儀,光學(xué)分辨率0.14~7.7 nm(FWHM),光譜檢測(cè)范圍265~300 nm;熒光通道采用海洋光學(xué)Maya 2000光譜儀,光學(xué)分辨率0.035 nm(FWHM)。
首先采用Savitzky-Golay濾波器[11]對(duì)原始光譜進(jìn)行降噪,提高光譜平滑性,再使用自適應(yīng)迭代加權(quán)懲罰最小二乘法(adaptive iteratively reweighted penalized least squares, airPLS)進(jìn)行基線校正。由于散射水平差異,同一樣品在不同時(shí)刻測(cè)得的光譜曲線有一定的偏移,對(duì)后續(xù)光譜分類的準(zhǔn)確性造成影響,采用多元散射校正(multiple-scattering corrections, MSC)[12]改善基線的偏移和平移。
圖1 本實(shí)驗(yàn)紫外拉曼光譜系統(tǒng)
我們采用了一種不同監(jiān)督模式下拉曼光譜特征分類和識(shí)別方法,處理流程如圖2所示,其中各環(huán)節(jié)的作用大致為:
(1)基于支持向量機(jī)的光譜全局分類
支持向量機(jī)(support vector machine, SVM)是一種二分類監(jiān)督學(xué)習(xí)方法,基本模型定義為特征空間上間隔最大的線性分類器,通過核函數(shù)將向量投影至高維特征空間,建立最優(yōu)超平面以實(shí)現(xiàn)模式識(shí)別,利于解決小樣本、非線性、高維度數(shù)據(jù)[11]。
(2)基于主成分分析
對(duì)于大樣本數(shù)量情況,可優(yōu)先使用主成分分析(principal component analysis, PCA)進(jìn)行數(shù)據(jù)降維再使用其他分類識(shí)別方法。其作為目前光譜分析中常用的無監(jiān)督統(tǒng)計(jì)方法,可記錄原始變量的方差,降低數(shù)據(jù)維度并減小測(cè)量誤差[13]。
(3)基于PLS-DA的全局分析
偏最小二乘判別分析(partial least squares-discriminant analysis, PLS-DA)是一種常用的有監(jiān)督多元因子回歸方法,在PCA的基礎(chǔ)上進(jìn)行最小二乘回歸,可用于多變量數(shù)據(jù)的分類和判別[13]。本實(shí)驗(yàn)建立多類別分類模型,設(shè)定判定閾值在0.5,當(dāng)模型標(biāo)簽的預(yù)測(cè)值與實(shí)際值差的絕對(duì)值大于0.5時(shí),表明判別錯(cuò)誤;反之則判別正確。
SVM在The Unscrambler X軟件上實(shí)現(xiàn),PCA、PLS-DA算法在PyCharm(Python 3.8)上實(shí)現(xiàn)。
圖2 拉曼光譜特征分類和識(shí)別方法流程圖
實(shí)驗(yàn)樣本共有5種食用油(見表1),其中兩種轉(zhuǎn)基因/非轉(zhuǎn)基因大豆油(記為A和B類)和一種稻米油(記為C類),外觀上無明顯差異。A、B類樣品作為轉(zhuǎn)基因/非轉(zhuǎn)基因大豆油的鑒別依據(jù),C類樣品作為對(duì)照研究大豆油和其他油類鑒別的可行性。
表1 實(shí)驗(yàn)樣品信息
實(shí)驗(yàn)中樣品溫度維持在室溫,每種樣品取2 mL,裝入尺寸12.5 mm×12.5 mm×40 mm, 容量為3.5 mL的石英(可透日盲紫外)比色皿中,水平放置于樣品采集區(qū)檢測(cè)。使用OceanView軟件采集樣本光譜,光譜儀采用掃描次數(shù)10次的平均值作為一個(gè)樣本采集光譜。A類及B類樣本一次采集100組,共采集5次;C類樣本一次采集20組,共采集5次,共計(jì)2 100組數(shù)據(jù)。為了增加樣本的魯棒性,同類數(shù)據(jù)的采集均會(huì)間隔另一種不同類數(shù)據(jù)的采集,即不連續(xù)采集同一類樣本。
不同種類大豆油及稻米油標(biāo)準(zhǔn)化的全譜圖如圖3所示,大豆油的拉曼譜圖曲線相似度較高,僅在強(qiáng)度和部分波數(shù)范圍內(nèi)有部分差異,無法直接從視覺上根據(jù)原始光譜進(jìn)行轉(zhuǎn)基因和非轉(zhuǎn)基因樣本的區(qū)分。
圖3 不同種類大豆油及稻米油標(biāo)準(zhǔn)化的全譜圖
表2 樣品拉曼光譜特征峰的歸屬
從實(shí)驗(yàn)角度出發(fā),基于SVM分析方法對(duì)不同的數(shù)據(jù)集劃分比例(4∶1,3∶1,1∶1等)進(jìn)行了多次測(cè)試,最終選擇判別準(zhǔn)確度最高的1: 1劃分方法。將預(yù)處理后的數(shù)據(jù)按類打亂,分別在各類中以1∶1隨機(jī)劃分為訓(xùn)練集和測(cè)試集,并為訓(xùn)練集中五類樣本設(shè)置不同標(biāo)簽(如表1):A類(-1/1),B類(-2/2),C類(0);測(cè)試集不設(shè)置標(biāo)簽。將訓(xùn)練集的1 050組光譜數(shù)據(jù)及其標(biāo)簽值作為輸入,訓(xùn)練SVM模型;余下1 050組數(shù)據(jù)用于評(píng)估分類器的性能,輸入至訓(xùn)練完成的模型后得到分類的準(zhǔn)確率?;跇颖緮?shù)據(jù)分布特征,本文選擇建模效果較好的線性核函數(shù),模型采用C-SVC。采用10折交叉驗(yàn)證,結(jié)合網(wǎng)格搜索算法(grid search, GS)選擇最佳懲罰因子C=1進(jìn)行模型訓(xùn)練。模型訓(xùn)練完成后,輸入測(cè)試集中的1 050組數(shù)據(jù),獲得預(yù)測(cè)標(biāo)簽,與實(shí)際標(biāo)簽對(duì)比后最終得到分類的平均準(zhǔn)確率。分類結(jié)果如圖4所示,藍(lán)色為實(shí)際標(biāo)簽,紅色為預(yù)測(cè)標(biāo)簽,僅有兩個(gè)樣本標(biāo)簽預(yù)測(cè)錯(cuò)誤,分類準(zhǔn)確率達(dá)到99.81%。表明紫外拉曼光譜結(jié)合支持向量機(jī)分析(SVM),不僅對(duì)轉(zhuǎn)基因/非轉(zhuǎn)基因大豆油的鑒別具有可行性,而且可區(qū)分大豆油和稻米油。
圖4 SVM算法對(duì)測(cè)試集樣品分類(1 050個(gè)樣品)
每種大豆油的光譜數(shù)據(jù)均有12個(gè)明顯的拉曼特征峰,采用主成分分析法(模型為NIPALS,最大迭代次數(shù)為100)對(duì)2 100組數(shù)據(jù)進(jìn)行降維處理,提取出8個(gè)主成分,從第9個(gè)主成分開始不收斂。前8個(gè)主成分的貢獻(xiàn)率見表3,累計(jì)貢獻(xiàn)率達(dá)74.84%,可以代表大部分原始數(shù)據(jù)的特征。驗(yàn)證集和校準(zhǔn)集的累計(jì)貢獻(xiàn)率見圖5,可見校準(zhǔn)后的數(shù)據(jù)整體貢獻(xiàn)率有略微提升。
表3 全局?jǐn)?shù)據(jù)主成分分析得分情況
圖5 驗(yàn)證集和校準(zhǔn)集中前8個(gè)主成分累計(jì)貢獻(xiàn)率
為了直觀表現(xiàn)不同樣本的相關(guān)程度,使用聚類圖展示前三個(gè)主成分的分布特征,見圖6。前三個(gè)主成分間交疊程度較大,區(qū)分度不夠明顯,說明使用三個(gè)主成分無法較好實(shí)現(xiàn)分類,需要進(jìn)一步分析。
圖6 四種大豆油光譜數(shù)據(jù)前3個(gè)主成分散點(diǎn)圖
相較于無監(jiān)督式的PCA分析方法,偏最小二乘回歸(PLS-DA)是一種有監(jiān)督的判別分析統(tǒng)計(jì)方法,結(jié)合了主成分分析和相關(guān)分析思想,利用PLS降維獲得的特征變量不僅可以代表原始變量信息,而且對(duì)因變量有較強(qiáng)的解釋能力。本文將建立光譜特征與樣本類別標(biāo)簽之間的關(guān)系模型,以實(shí)現(xiàn)對(duì)樣品種類的預(yù)測(cè)。從實(shí)驗(yàn)角度出發(fā),我們基于PLS-DA分析方法對(duì)不同的數(shù)據(jù)集劃分比例(4∶1,3∶1,1∶1等)進(jìn)行了多次測(cè)試,最終選擇判別準(zhǔn)確率最高的4∶1劃分方法。將數(shù)據(jù)集以4∶1劃分為訓(xùn)練集和測(cè)試集,將訓(xùn)練集中的1 680組樣本數(shù)據(jù)作為輸入,采用10折交叉驗(yàn)證,根據(jù)本實(shí)驗(yàn)樣本數(shù)據(jù)特征(大量樣本及較少變量的數(shù)據(jù)),使用更加合適的Kernel PLS模型進(jìn)行訓(xùn)練。建模完成后,對(duì)得到的主成分進(jìn)行繪制,并對(duì)不同類樣本進(jìn)行標(biāo)識(shí)。圖7給出PLS-DA模型對(duì)樣品訓(xùn)練集的預(yù)測(cè)值,可以看出:四種大豆油(☆,A類非轉(zhuǎn)基因;○,A類轉(zhuǎn)基因;×,B類非轉(zhuǎn)基因;?,B類轉(zhuǎn)基因)與稻米油(?,C類)有顯著差異,無交疊部分,區(qū)分度達(dá)100%;四種大豆油集中分布在同一區(qū)域(以原點(diǎn)為中心的四個(gè)象限內(nèi)),分布上存在差異,但有部分交疊,這是因?yàn)椴煌惔蠖褂偷睦庾V具有相似線型,同時(shí)特征峰位置基本一致,僅存在強(qiáng)度方面的差異。
圖7 PLS-DA模型中五類樣品的分布情況
模型建立后,輸入測(cè)試集的420組樣品,得到預(yù)測(cè)的標(biāo)簽值,將其與實(shí)際標(biāo)簽值對(duì)比,判別閾值設(shè)置為0.5,PLS-DA模型對(duì)樣品測(cè)試集的預(yù)測(cè)情況如圖8。結(jié)合圖7及圖8的數(shù)據(jù)分布得到,稻米油(C類)與其他樣品的差異較大,模型建立效果較好,僅有一個(gè)樣本標(biāo)簽預(yù)測(cè)錯(cuò)誤;由于不同類大豆油拉曼譜線相似,數(shù)據(jù)分布存在重疊,會(huì)對(duì)預(yù)測(cè)準(zhǔn)確率產(chǎn)生一定的誤差,但不影響大部分?jǐn)?shù)據(jù)的預(yù)測(cè)。根據(jù)計(jì)算最終得到模型的判別準(zhǔn)確率達(dá)70.95%,這表明紫外拉曼光譜結(jié)合PLS-DA分析方法對(duì)轉(zhuǎn)基因大豆油的鑒別具有可行性。
圖8 PLS-DA模型對(duì)樣品測(cè)試集的預(yù)測(cè)情況
采用紫外拉曼光譜技術(shù),結(jié)合支持向量機(jī),主成分分析以及偏最小二乘回歸分析法,對(duì)稻米油、轉(zhuǎn)基因/非轉(zhuǎn)基因大豆油進(jìn)行鑒別研究,并取得較好的鑒別效果。論文實(shí)驗(yàn)訓(xùn)練集和測(cè)試集分別為1 680組和420組,使用支持向量機(jī)對(duì)油品進(jìn)行建模時(shí)的識(shí)別準(zhǔn)確率可達(dá)99.81%;采用無監(jiān)督式的主成分分析法對(duì)樣品建模時(shí),可提取出8個(gè)特征峰,主成分累計(jì)貢獻(xiàn)率為74.84%,可以代表大部分原始數(shù)據(jù)特征,但無法提升到80%以上,存在局限性;使用有監(jiān)督式偏最小二乘回歸分析法PLS-DA時(shí),模型中樣本可分,但存在部分重疊,經(jīng)過對(duì)驗(yàn)證集樣品標(biāo)簽的預(yù)測(cè),準(zhǔn)確率為70.95%,說明PLS-DA可成功預(yù)測(cè)大部分轉(zhuǎn)基因大豆油類型。綜上所述,針對(duì)紫外拉曼光譜鑒別轉(zhuǎn)基因大豆油,采用有監(jiān)督分類法的效果優(yōu)于無監(jiān)督分類法。
由于紫外拉曼光譜檢測(cè)儀可以在自然環(huán)境下進(jìn)行一定距離的遙測(cè),不僅可對(duì)毒品、爆炸物等危險(xiǎn)品進(jìn)行有效檢測(cè),也可望為市場上各類轉(zhuǎn)基因、添加劑或過期食品的檢測(cè)提供一種高效率的有效方法,具有廣泛的應(yīng)用前景。