梁夢醒,戴 軍,韓邦興,陳存武,陳乃富,熊 孟,江明珠,顏 輝
(1.江蘇科技大學(xué) 生物技術(shù)學(xué)院,江蘇 鎮(zhèn)江 212018;2.皖西學(xué)院,安徽 六安 237012;3.安徽省石斛產(chǎn)業(yè)化開發(fā)協(xié)同創(chuàng)新中心,安徽 六安 237012)
傅里葉變換紅外光譜結(jié)合無信息變量消除鑒別河南小石斛和霍山石斛鮮條品種的方法研究
梁夢醒1,戴 軍2,3,韓邦興2,3,陳存武2,3,陳乃富2,3,熊 孟1,江明珠1,顏 輝1
(1.江蘇科技大學(xué) 生物技術(shù)學(xué)院,江蘇 鎮(zhèn)江 212018;2.皖西學(xué)院,安徽 六安 237012;3.安徽省石斛產(chǎn)業(yè)化開發(fā)協(xié)同創(chuàng)新中心,安徽 六安 237012)
采用傅里葉變換紅外光譜(Fourier Transform Infrared Spectroscopy, FT-IR)儀結(jié)合衰減全反射(Attenuated Total Reflection, ATR)附件采集石斛莖部(近根部)橫斷面的中紅外光譜,原始光譜經(jīng)標(biāo)準(zhǔn)正態(tài)變換(Standard Normal Variate, SNV)和均值中心化(Mean Center, MNCN)預(yù)處理后,采用偏最小二乘法判別分析法(Partial Least Squares Discriminant Analysis, PLSDA)建立兩種石斛的鑒別模型。結(jié)果顯示,全譜PLSDA方法所建模型校正集、校正集交叉驗(yàn)證和預(yù)測識別率分別為96.25%、92.69%和91.82%。采用無信息變量消除法(Uninformative Variable Elimination, UVE)優(yōu)選敏感波長后,建立PLSDA模型的準(zhǔn)確性更高,校正集、校正集交叉驗(yàn)證和預(yù)測集識別正確率分別達(dá)到了99.28%、95.72%和95.02%。
霍山石斛;河南小石斛;傅里葉變換紅外光譜;偏最小二乘法判別分析法;無信息變量消除
石斛(DendrobiumnobileLindl)屬于蘭科植物,全世界有1 000多種,主要分布于大洋洲、歐洲、亞洲等熱帶及亞熱帶地區(qū)。我國大約有70多種石斛,主要分布在秦嶺至淮河以南的廣大地區(qū),其中鐵皮、紫皮、米斛等有很好的藥用價值,有多種藥理活性,能改善口干煩渴、熱病傷津、目暗不明、食少干嘔等癥狀[1]。
霍山石斛(DendrobiumhuoshanenseC. Z. Tang et S. J. Cheng),又稱霍山米斛,是石斛中一個品種,具有增強(qiáng)免疫力、抑制腫瘤、抗衰老,抗氧化、降血糖等藥理作用,自古以來就被認(rèn)為是石斛中的佳品[2]。河南小石斛(Dendrobiumhenanense)在外形上與米斛極其相似,非常難以分辨。近年來,隨著人們保健意識的提高,對霍山米斛的需求量增大?;羯矫柞L緩慢,產(chǎn)量比河南小石斛、鐵皮石斛等其他石斛低很多,無法滿足人們的需求,導(dǎo)致霍山米斛資源日趨匱乏,河南小石斛冒充霍山米斛銷售的事件時有發(fā)生,這嚴(yán)重?fù)p害了消費(fèi)者利益。
目前對于石斛的品種鑒別,主要有顯微組織觀察法、分子生物學(xué)法、光譜法。白音等[3]用光學(xué)顯微鏡觀察藥用石斛莖表皮細(xì)胞特征來對石斛進(jìn)行鑒別。丁小余等[4]用位點(diǎn)特異性PCR鑒別法鑒別兜唇石斛。徐蓓等[5]用薄層色譜法對黃草類石斛鑒別。這些方法都需要對樣品進(jìn)行預(yù)處理,存在費(fèi)時費(fèi)力、專業(yè)技術(shù)要求高的缺點(diǎn),且無法做到實(shí)時、快速。因而建立一種快速、簡捷、高效鑒別霍山米斛與河南小石斛的方法,對于保護(hù)消費(fèi)者利益、規(guī)范霍山石斛的健康發(fā)展有重要作用。
傅里葉變換紅外光譜是物質(zhì)在中紅外區(qū)的吸收光譜,反映了分子中各官能團(tuán)信息,蘊(yùn)含物質(zhì)的組成信息。因其具有極高的分辨能力,結(jié)合判別分析方法建立的模型可以對物質(zhì)進(jìn)行定性和定量研究,在石化[6]、乳制品[7]、精油[8]、酒類[9]等行業(yè)有廣泛的應(yīng)用。目前,常用的判別分析法有主成分分析法[10]、支持向量機(jī)法[11]、簇類獨(dú)立軟模式法[12]、聚類分析[13]、偏最小二乘判別分析法(partial least squares discriminant analysis, PLSDA)[14]。PLSDA是基于偏最小二乘(partial least squares, PLS)回歸的分類方法,分類能力很強(qiáng)。由于光譜中信息不是均勻分布在波長變量中,有些變量所含信息少,噪聲多。當(dāng)這些變量進(jìn)入PLSDA模型中,將降低預(yù)測效果。
本文基于石斛鮮條中紅外光譜,采用PLSDA對河南小石斛和霍山米斛進(jìn)行鑒別,并用無信息變量消除(uninformative variable elimination, UVE)[15]優(yōu)選出對品種敏感的波長變量,以期提高鑒別正確率。
經(jīng)實(shí)地采樣,河南小石斛和霍山米斛鮮條樣品共246個,其中河南小石斛142個,霍山米斛104個。樣品按2∶1比例隨機(jī)分為校正集和預(yù)測集,其中校正集含164個,預(yù)測集含82個。
在鮮條樣品的近根部將莖桿橫切切斷,使用傅里葉變換紅外光譜儀(布魯克Tensor27型)采集橫切面處光譜,光譜范圍為4 000~600 cm-1,分辨率為4 cm-1,共1 762個波長變量,掃描次數(shù)32次,同一個樣品,采集3次光譜取平均值作為最終光譜。室溫下采集,空氣濕度約35%。
中紅外光譜反映了樣品本身的特征信息,但由于受到光散射、樣品組分不均勻、隨機(jī)噪聲的干擾,產(chǎn)生噪聲信息。因此需要選擇合適的光譜預(yù)處理方法,減少噪聲,突顯光譜信息,從而建立準(zhǔn)確的模型,提高鑒別能力[16]。本試驗(yàn)中采取標(biāo)準(zhǔn)正態(tài)變換(Standard Normal Variate, SNV)和均值中心化(Mean Center, MNCN)方法進(jìn)行預(yù)處理光譜。
PLSDA是一種集典型判別分析、主成分分析和多元線性回歸等重要功能為一體的基于PLS回歸方法的判別分析法,它能夠?qū)⒉杉墓庾V數(shù)據(jù)與分類變量建立線性回歸模型,利用特定的判別閾值對模型結(jié)果進(jìn)行判別分析[17]。樣品的類屬通常以二進(jìn)制碼組來表示,模型的分離效果可以用得分圖中兩組樣品分離的程度表示,分離程度越大,分類效果越顯著[18, 19]。本試驗(yàn)中,將河南小石斛定義成[1,0],霍山米斛定義成[0,1]。
UVE是建立在分析PLS回歸系數(shù)基礎(chǔ)上的算法,目的是消除那些不提供有用信息的波長變量。在PLS多元回歸模型中,把隨機(jī)變量矩陣加入光譜矩陣中,建立PLS多元回歸模型,從而得到回歸系數(shù)的矩陣,通過分析回歸系數(shù)矩陣中回歸系數(shù)向量的均值和標(biāo)準(zhǔn)偏差的商的穩(wěn)定性,然后根據(jù)商值的絕對值大小決定是否把該變量用于最終的模型中[20]。本試驗(yàn)通過UVE-PLS方法篩選出敏感波長,然后利用這些敏感波長建立PLSDA模型。
樣本的原始中紅外光譜曲線如圖1所示。3 600~3 200 cm-1范圍內(nèi)出現(xiàn)羥基伸縮振動的吸收峰,2 960~2 700 cm-1的弱吸收峰是亞甲基的C—H鍵的伸縮振動,1 650~1 590 cm-1為羧酸鹽中羰基的吸收峰,1 150~900 cm-1之間的吸收峰是C—O鍵的伸縮振動[21,22]。由于全部樣品光譜曲線中的吸收峰位置基本相同,無法通過原始光譜曲線對樣品進(jìn)行鑒別分類,所以需要借助化學(xué)計(jì)量學(xué)方法進(jìn)行判別分析。首先對原始光譜進(jìn)行預(yù)處理,經(jīng)SNV和MNCN處理后的光譜如圖2所示,光譜的峰位更多,光譜間差異突顯,有利于提取特征信息。
圖1 原始光譜
圖2 經(jīng)SNV和MNCN處理后的光譜
原始光譜經(jīng)過SNV結(jié)合MNCN方法預(yù)處理后建立PLSDA模型。圖3所示的是其判別分析結(jié)果,其校正集及預(yù)測集中河南小石斛樣本聚集在數(shù)值1這一側(cè),而霍山米斛在校正集和預(yù)測集的分類變量聚集在數(shù)值0這一側(cè)??拷诸惥€的樣品數(shù)量較少,絕大多數(shù)樣品可以很好地區(qū)分。圖4是河南小石斛預(yù)測的概率圖,從中可見絕大多數(shù)河南小石斛的預(yù)測概率是1,霍山米斛樣品的概率為0,概率位于0.5附近的樣品很少。模型的預(yù)測結(jié)果見表1,校正集、校正集交叉驗(yàn)證及預(yù)測集的預(yù)測正確識別率分別為96.25%、92.69%和91.82%,正確率較高。
圖3 河南小石斛的預(yù)測分類圖
圖4 河南小石斛預(yù)測概率圖
經(jīng)UVE-PLS,選擇得到863個變量,約為原來的一半,如圖5所示,藍(lán)色的部分為選擇得到的敏感波長變量所在位置。
圖5 UVE-PLS優(yōu)選出的敏感波長變量
將優(yōu)選出的變量進(jìn)行PLSDA方法建模,結(jié)果如表1所示,校正集的正確識別率為99.28%,比全波長建模提高了3.15%,交叉驗(yàn)證的識別正確率為95.72%,比全波長建模提高了3.03%,預(yù)測集的正確識別率為95.02%,比全波長建模提高了3.47%。分析結(jié)果表明,UVE算法剔除了全波長中的一些無信息變量,提高了模型的判別能力,更加有利于鑒別霍山米斛和河南小石斛。圖6是模型預(yù)測河南小石斛的結(jié)果,與圖3相比,兩類樣本分離的更開,因此分類能力更好。圖7是模型的預(yù)測概率,與圖4相比,更多樣本的概率向1和0接近,這些都表明分類能力提高,預(yù)測能力更強(qiáng)。
表1 模型結(jié)果
圖6 UVE-PLSDA模型判別河南小石斛的結(jié)果
圖7 UVE-PLSDA預(yù)測河南小石斛的概率分布
圖8 UVE-PLSDA鑒別方法的敏感性與特異性
敏感性和特異性是分類研究中重要的考察指標(biāo)。如圖8所示,本試驗(yàn)中所建立的UVE-PLSDA方法的敏感性和特異比較高,校正集及交叉驗(yàn)證的敏感性和特異性都大于0.95,預(yù)測集的敏感性和特異性分別為0.957和0.943,這表明本試驗(yàn)建立的方法在實(shí)際應(yīng)用中將會比較可靠。
由此可見,UVE-PLS去除了無信息變量,將高信息的波長變量用于PLSDA建模,可以取得很好的、可靠的鑒別效果。
本研究結(jié)果表明,基于FT-IR的中紅外光譜技術(shù)可以用于快速鑒別霍山米斛和河南小石斛鮮條的品種。全波長變量建立PLSDA模型,對校正集和預(yù)測集的預(yù)測效果較好,正確率高于91%。通過UVE-PLS算法對敏感波長進(jìn)行優(yōu)選,可以提高模型的預(yù)測精度,對校正集和預(yù)測集的預(yù)測效果更好,正確率高于95%,并有很高的敏感性和特異性。本方法為建立基于紅外光譜的霍山米斛和河南小石斛鮮條的鑒別方法提供實(shí)驗(yàn)依據(jù)。
[1]李桂鋒,李進(jìn)進(jìn),許繼勇,等.鐵皮石斛研究綜述[J].中藥材,2010,33(1):150-153.
[2]鄧輝,陳存武,韓邦興,等.現(xiàn)代分析技術(shù)在霍山石斛研究中的應(yīng)用[J].安徽農(nóng)學(xué)通報(bào),2014(12):17-20,46.
[3]白音,包英華,王文全.石斛屬植物及其混淆品的莖表皮細(xì)胞特征及其鑒別價值[J].中草藥,2011(3):593-597.
[4]丁小余,徐珞珊,常俊,等.兜唇石斛的位點(diǎn)特異性PCR鑒別[J].南京師大學(xué)報(bào)(自然科學(xué)版),2002(4):71-76.
[5]徐蓓,楊莉,陳崇崇,等.黃草類石斛的薄層色譜鑒別研究[J].中國藥品標(biāo)準(zhǔn),2010(2):99-103.
[6]王少輝.FTIR中紅外光譜分析技術(shù)及在石化領(lǐng)域中應(yīng)用[C]//蘭州:第七屆全國青年分析測試學(xué)術(shù)報(bào)告會,2002.
[7]張文海,顧小紅,周文果,等.中紅外光譜技術(shù)在乳制品分析中的應(yīng)用研究[J].中國乳品工業(yè),2013(1):36-39.
[8]唐軍,廖享,童紅,等.基于氣質(zhì)與PLS-DA對新疆薰衣草精油判別分析[J].計(jì)算機(jī)與應(yīng)用化學(xué),2014(06):701-704.
[9]向伶俐,李夢華,李景明,等.近、中紅外光譜法融合判定葡萄酒產(chǎn)地[J].光譜學(xué)與光譜分析,2014(10):2662-2666.
[10]Singh H., Raj V.B., Kumar J., et al. SAW Mono Sensor for Identification of Harmful Vapors using PCA and ANN [J]. Process Safety and Environmental Protection,2016(102):577-588.
[11]欒鋒.支持向量機(jī)(SVM)和徑向基神經(jīng)網(wǎng)絡(luò)(RBFNN)方法在化學(xué)、環(huán)境化學(xué)和藥物化學(xué)中的應(yīng)用研究[D].蘭州:蘭州大學(xué)(博士學(xué)位論文),2006.
[12]Xu C, Jia X, Rong Xu R,et al. Rapid Discrimination of Herba Cistanches by Multi-step Infrared Macro-fingerprinting Combined with Soft Independent Modeling of Class Analogy(SIMCA)[J]. Spectrochimica Acta Part A: Molecular and Biomolecular Spectroscopy, 2013(114): 421-431.
[13]Szafran A.T., Mancini M.G., J.A., et al. Use of HCA in Subproteome-immunization and Screening of Hybridoma Supernatants to Define Distinct Antibody Binding Patterns[J]. Methods, 2016(96): 75-84.
[14]何彬.基于紅外光譜技術(shù)的牛奶摻雜判別方法的研究[D].天津:天津大學(xué)(碩士學(xué)位論文),2010.
[15]Tan C, Wang J, Wu T, et al., An Ensemble Method Based on Uninformative Variable Elimination and Mutual Information for Spectral Multivariate Calibration[J].Spectrochimica Acta Part A: Molecular and Biomolecular Spectroscopy,2010,77(5):960-964.
[16]Li X. and He Y. Discriminating Varieties of Tea Plant Based on Vis/NIR Spectral Characteristics and using Artificial Neural Networks[J]. Biosystems Engineering,2008, 99(3): 313-321.
[17]顏輝,韓邦興,吳瓊英,等.近紅外光譜結(jié)合PLSDA鑒別桑葉收獲時間[C].中華中醫(yī)藥學(xué)會第十屆中藥鑒定學(xué)術(shù)會議論文集,2010.
[18]張敏,楊進(jìn),付海燕,等.近紅外光譜結(jié)合PLSDA鑒別不同產(chǎn)地的川續(xù)斷[J].三峽大學(xué)學(xué)報(bào)(自然科學(xué)版),2011(4):81-84.
[19]Borràs, E., Ferré J., Boqué R., et al. Olive Oil Sensory Defects Classification with Data Fusion of Instrumental Techniques and Multivariate Analysis (PLS-DA) [J]. Food Chemistry, 2016. 203: 314-322.
[20]Moros J., Kuligowski J., Guillermo Quintás G., et al. New cut-off Criterion for Uninformative Variable Elimination in Multivariate Calibration of Near-infrared Spectra for the Determination of Heroin in Illicit Street Drugs[J]. Analytica Chimica Acta, 2008. 630(2):150-160.
[21]陳衛(wèi)衛(wèi),陶靖,莫瑩,等.廣西不同來源馬鞭石斛紅外指紋圖譜的鑒別[J].光散射學(xué)報(bào),2014(1):84-87.
[22]李小瓊,葛曉軍,鄭斯卓,等.金釵石斛多糖的提取及部分理化性質(zhì)分析[J].江蘇大學(xué)學(xué)報(bào)(醫(yī)學(xué)版),2008(5):446-447.
StudyontheIdentifySpeciesfromStemofDendrobiumHenanandDendrobiumHuoshanenseUsingFourierTransformInfraredSpectroscopyCombinedwithUninformativeVariableElimination
LIANG Mengxing1, DAI Jun2,3, HAN Bangxing2,3, CHEN Cunwu2,3, CHEN Naifu2,3, XIONG Meng1, JIANG Mingzhu1, YAN Hui1
(1.SchoolofBiotechnology,JiangsuUniversityofScienceandTechnology,Zhenjiang212000,China;2.SchoolofBiotechnologyandPharmaceuticalEngineering,WestAnhuiUniversity,Lu’an, 237012,China; 3.CollaborativeInnovationCenterofAnhuiDendrobiumIndustrialDevelopment,Lu’an237012,China)
We collected spectra of dendrobium at the stem near root by Fourier transform infrared spectroscopy (FT-IR) with attenuated total reflection (ATR). The raw spectra were preprocessed by standard normal variate (SNV) and mean center (MNCN), using partial least squares discriminant analysis (PLSDA) to build model. Results demonstrated that the prediction precision of model built with full wavelength variables was good, the forecast recognition rate in calibration set, cross validation for calibration set and prediction set were 96.25%, 92.69% and 91.82% respectively. After wavelength variables optimized by UVE, forecast recognition rate in calibration set, cross validation for calibration set and prediction set were improved to 99.28%, 95.72% and 95.02% respectively.
Dendrobium Huoshanense; Dendrobium Henan; Fourier transform infrared spectroscopy; partial least squares discriminant analysis; uninformative variable elimination
R284.1
A
1009-9735(2017)05-0001-05
2017-04-05
安徽省教育廳重點(diǎn)項(xiàng)目“基于近紅外光譜技術(shù)的石斛類藥材快速無損識別研究”(KJ2014A279);安徽省石斛產(chǎn)業(yè)化開發(fā)協(xié)同創(chuàng)新中心計(jì)劃。
梁夢醒(1993-),女,安徽六安人,碩士研究生,研究方向:生物分析;通信作者:顏輝(1971-),男,副教授,碩士生導(dǎo)師,研究方向:紅外光譜分析。