朱建國,王雅靜,尹知沁,謝雷英,5,王 娜,6,曹 鐸
(1.上海理工大學 材料科學與工程學院,上海 200093;2.上海師范大學 數(shù)理學院,上海 200234;3.中國科學院上海技術物理研究所 紅外物理國家重點實驗室,上海 200083;4.上海節(jié)能鍍膜玻璃工程技術研究中心,上海 200083;5.上??萍即髮W 物質學院,上海 200120;6.復旦大學 信息科學與工程學院,上海 200433)
自從1996 年第一個轉基因生物(GMO)批準入市以來,引入市場的轉基因農(nóng)作物數(shù)量急劇增加[1]。采用轉基因技術可以將抗蟲基因[2]、抗病基因[3]和抗除草劑基因[4]等優(yōu)良基因引入到農(nóng)作物中,以此來改善農(nóng)產(chǎn)品的品質、縮短生長周期,緩解由于人口快速增加和可用耕地減少而帶來的糧食危機。然而轉基因技術的潛在安全性仍然存在著爭議,比如:轉移基因表達的蛋白質對生態(tài)環(huán)境的非預期影響[5],外源基因逃逸對其他作物的潛在影響[6],以及由基因轉移引起的食物中毒、過敏反應和耐藥性對人體的有害影響[7]。因此,如何快速鑒別是否為轉基因產(chǎn)品是非常必要的。
目前,聚合酶鏈反應、酶聯(lián)免疫吸附分析、二維電泳和微陣列分析是轉基因產(chǎn)品和作物最常用的檢測方法[8]。這些方法在大多數(shù)情況下都具有良好的特異性和敏感性,但是檢測過程過于繁瑣,檢測時間長達數(shù)個小時,無法滿足人們想要實時檢測轉基因產(chǎn)品的需求。而近紅外光譜則是一種快速、無損、可實時在線檢測的技術,不需要對轉基因樣品進行任何處理就能表征基因結構變化所帶來的構型變化,進而可以通過C—O鍵、C—H 鍵、C—N 鍵等數(shù)據(jù)變化看出基因表達的差異[9]。2010 年翟亞峰等[10]采用近紅外光譜技術實現(xiàn)了對不同品種的9 個小麥轉基因種子樣品的準確鑒別。2013 年Luna 等[11]用近紅外光譜對非轉基因大豆油和轉基因大豆油進行獨立識別,識別率分別為100%和90%,由于是對純的轉基因油與純的非轉基因油樣本進行識別,實際應用價值不高。
本文則對不同品牌的轉基因油和非轉基因油進行混合,構成不同混合比例的轉基因油樣本,并采用近紅外光譜技術對這些油樣本進行分析。通過研究不同預處理方法對光譜預測模型的影響,提高了光譜預測模型準確性,實現(xiàn)了對純的轉基因油以及非轉基因油中摻入轉基因油的有效鑒別。
購置不同品牌的轉基因大豆油、轉基因玉米油和非轉基因大豆油、非轉基因玉米油若干瓶。將轉基因油與非轉基因油按1:1,1:2,1:3,???,1:20 等比例混合得到不同體積分數(shù)的轉基因油樣本102 份,同時將不同品牌的非轉基因油按1:1,1:2,1:3,???,1:20 混合得到不同體積分數(shù)的非轉基因油樣本102 份,混合好后的樣品放在超聲清洗機中用超聲波使之充分混合。
實驗的轉基因油與非轉基因油的近紅外光譜由傅里葉變換紅外光譜儀vertex70(Bruker,Germany)采集,分辨率為2 cm?1,光譜區(qū)域為4 000~12 500 cm?1,掃描16 次。探測器為InGaAs。具體的掃描次數(shù)由信噪比決定,若信噪比較差可適當增加掃描次數(shù)。每次采集光譜時,先以空的比色皿測試以便扣除系統(tǒng)背景。
在建立光譜預測模型過程中,校正集樣本與預測集樣本的選擇至關重要,而Kennard Stone(KS)算法是一種應用廣泛的樣本集劃分方法[12-13]。KS 算法以光譜間的歐氏距離為基礎,選擇代表性強,分布范圍廣的樣品作為轉換集樣品[12]。根據(jù)KS 法,我們選取轉基因樣本72 個、非轉基因樣本72 個,共計144 個樣本作為校正集,余下的60 個樣本作為預測集。
對于不同種類的油其理化性質差別不大,主要脂肪酸都是棕櫚酸、硬脂酸、油酸、亞油酸等,只是在含量上有所差別[14]。近紅外光譜能夠表征基因結構變化所帶來的構型變化,進而可以通過C—O 鍵、C—H 鍵、C—N 鍵等數(shù)據(jù)變化看出基因表達的差異[9],而C—O 鍵、C—H鍵、C—N 鍵等在近紅外波長的吸收峰又是不同的,因此可以通過觀察近紅外光譜吸收峰的位置和強度來找出轉基因油與非轉基因油之間的差異,如圖1 所示。從圖1 可以看出,轉基因油與非轉基因油在近紅外波段差異不大,在1 550~1 650 nm 和1 800~2 100 nm 范圍光譜強度有一定的區(qū)別。這是由于轉基因油與非轉基因油為同源性物質,這兩種物質因化學鍵含量的不同而表現(xiàn)在光譜強度上有所差別。
圖1 轉基因油與非轉基因油在近紅外波段的原始光譜Fig.1 Spectra of genetically modified oil and non-transgenic oil in the near-infrared region
為了盡可能去除來自外界或者系統(tǒng)的隨機噪聲、光散射等對轉基因油與非轉基因油透射光譜的影響以及提高光譜與待測組分之間的相關性,我們利用MATLAB 2016a 軟件,分別采用多元散射校正(MSC)、一階導數(shù)(FD)、移動窗口平滑(MWS)、Savitzky-Golay 平滑一階導數(shù)(SG1)等方法對原始光譜數(shù)據(jù)進行了預處理。光譜預處理結果如圖2 所示,其中多元散射校正可以有效去除散射對樣品光譜的影響,移動窗口平滑則可以提高分析信號的信噪比及消除儀器的隨機噪聲,一階導數(shù)和Savitzky-Golay 平滑一階導數(shù)可消除基線漂移、強化譜帶特征和克服譜峰重疊[15]。
支持向量機(SVM)是一種新的基于統(tǒng)計學習理論的機器學習方法。SVM 利用結構風險最小化原則避免過擬合問題,在最小化經(jīng)驗風險下所得結果優(yōu)于傳統(tǒng)的神經(jīng)網(wǎng)絡算法,而且在小樣本、高維度數(shù)據(jù)情況下具有優(yōu)異的建模能力[16]。我們選擇SVM 作為建模方法[17],將預處理后的光譜數(shù)據(jù)分別輸入到SVM 中建立轉基因油與非轉基因油預測模型。通過對比不同預處理方法,建立模型后預測集樣本的預測結果,選擇最優(yōu)預處理方式,預測結果如表1 所示。在SVM 模型參數(shù)選擇中,選用徑向基RBF 核函數(shù)作為本次預測模型的核函數(shù),并通過網(wǎng)格參數(shù)尋優(yōu)和交叉驗證獲得最佳的懲罰因子系數(shù)(C)和核函數(shù)的參數(shù)系數(shù)(G)。
由表1 可知,采用多元散射校正預處理方法預測準確率最高,達到了91.6%,其他3 種預處理方法準確率均不高于75%。因此我們把多元散射校正定為轉基因油和非轉基因油后續(xù)其他建模過程的光譜預處理方式,進而研究其他影響模型預測能力的因素。
圖2 不同方法預處理后的光譜圖Fig.2 Different methods preprocessed spectra
表1 不同數(shù)據(jù)預處理方法的預測結果Tab.1 Prediction results of different pretreatment methods
在光譜全波長建模中,雖然預測結果比較準確,光譜與待測性質表現(xiàn)出了很強的相關性。但光譜包含了6 000 多個數(shù)據(jù)點,其中包含了大量與待測性質無關的信息以及共線性變量。如果將這些冗余變量全部輸入到模型中,不僅會增加模型的建立難度,而且還會降低模型的預測精度與穩(wěn)定性。在近紅外光譜分析中,特征波長篩選是非常重要的一步,通過光譜特征波長提取,可以有效地簡化模型并提高模型的預測精度和穩(wěn)定性。
連續(xù)投影算法(SPA)是一種向前變量篩選方法。通過選定一個初始波長,每一次迭代時加入新的波長,直至達到指定的波長數(shù)量。通過這種投影分析,從光譜矩陣中提取有效信息,并使光譜變量共線性達到最小[18]。通過SPA 來提取特征波長可以有效地去除光譜數(shù)據(jù)間的冗余變量。圖3 顯示了SPA 的不同數(shù)量變量進行交叉驗證的均方根誤差(RMSE)趨勢以及最終被選擇的特征波長點。
從圖3(a)可以看出,當選擇15 個特征變量(1 152 nm、1 184 nm、1 210 nm、1 231 nm、1 410 nm、1 433 nm、1 660 nm、1 860 nm、1 895 nm、1 920 nm、1 935 nm、2 012 nm、2 038 nm、2 084 nm、2 102 nm)時,此 時RMSE 最小為0.46。因此這15 個特征波長點被輸入到SVM中,輸入的特征波長如圖3(b)所示。
圖3 連續(xù)投影算法(SPA)特征波長選擇結果Fig.3 Characteristic wavelength results selected by successive projections algorithm(SPA)
與Luna 等[11]對轉基因油與非轉基因油進行鑒別的方法不同,我們是將不同的轉基因油和非轉基因油進行混合組成具有干擾性的轉基因油樣本進行分析。對混合后的轉基因油與非轉基因油放在一起進行預測,這樣預測時的樣本既可能是純的轉基因油,也可能是摻雜的轉基因油,而不是純的轉基因油或者是純的非轉基因油,因而更接近實際應用情況。預測結果如圖4 所示,共對60個樣本進行預測,其中30 個非轉基因油樣本準確預測29 個,準確率為96.7%,僅有一個誤判,而30 個轉基因油準確預測30 個,準確率為100%。
圖4 模型預測(標簽為1 的是轉基因油,標簽為?1 的是非轉基因油)Fig.4 Model prediction(Label 1 is a genetically modified oil,and label ?1 is a non-transgenic oil)
需要特別指出的是,我們所預測的30 個轉基因油中,只有4 個是純的轉基因油,其余26 個全部為非轉基因油中摻入轉基因油的樣本,因此,只要食用油中有轉基因油的存在就能被檢測出來。與Luna 等[11]僅對純轉基因油樣品進行判別的準確率(90%)相比,不但預測準確率更高,而且更有實用價值。該模型針對轉基因油和非轉基因油的整體預測準確率為98.3%,相比于整體預測準確率為91.6%的MSC-SVM 模型,MSC-SPA-SVM 模型提高了預測準確率,可以很大程度降低模型的復雜性,提高模型的預測精度。這也從側面表明,樣本光譜特征波長的提取對于提高模型預測精度、減少模型的復雜性發(fā)揮著至關重要的作用。同時通過對比不同預處理方式對預測結果的影響,可以發(fā)現(xiàn),對于散射較為嚴重的樣本,采用多元散射校正(MSC)預處理會大大增強光譜數(shù)據(jù)與待測性質之間的相關性,有利于光譜特征波段提取。
本文基于近紅外光譜技術對轉基因油和非基因油的鑒別進行了研究。通過MSC 預處理方法,結合連續(xù)投影算法SPA 和支持向量機SVM獲得了很好的預測效果,準確率高達98.3%。結果表明,轉基因油與非轉基因油基因表達在近紅外波段有差異,從而可通過近紅外光譜方法進行判別。通過篩選特征波長,可以有效地去除光譜數(shù)據(jù)間的冗余變量,提高模型的預測精度和魯棒性。在我們所建立的預測模型中,只要食用油中有轉基因油的存在就能被檢測出來。與其他傳統(tǒng)檢測方法相比,近紅外光譜法操作簡單、檢測時間短、不破壞樣品,可以滿足消費者實時檢測轉基因產(chǎn)品的需求。后續(xù)研究將增加轉基因油與非轉基因油的種類,進一步擴大樣本數(shù)和類型,以提高模型預測的普適性。