白慶旭,候英,楊盼盼,李偉,林昕,蘇霽玲,徐娟,劉祥義
(1.西南林業(yè)大學(xué) 天麻研究院,云南 昆明 650224;2.云南焯耀科技有限公司,云南 昆明 650220)
天麻(GastrodiaelataBl.)為蘭科(Orchidaceae)天麻屬(GastrodiaR.Br.)植物的干燥塊莖,別名神草、赤箭、鬼督郵等,是一味傳統(tǒng)、名貴的中藥材,具有鎮(zhèn)靜、抗癲癇、鎮(zhèn)痛、活血、抗氧化、增智健腦等功效[1-3]。天麻在我國(guó)入藥已有2 000余年的歷史,首次是以赤箭之名記載于《神農(nóng)本草經(jīng)》[4],并且列為上品,之后的歷代中藥書籍均有相關(guān)記載,現(xiàn)已列為藥食同源物質(zhì)。最早以山東泰安為天麻主要產(chǎn)區(qū),后由于自然環(huán)境變化及社會(huì)因素,其主要產(chǎn)地更替為陜西漢中、云南昭通、安徽六安、湖北宜昌等地[5]。不同產(chǎn)地的天麻有效成分含量有明顯差異,質(zhì)量相差懸殊,而僅從外觀上不易分辨,導(dǎo)致市面上以次充好的現(xiàn)象時(shí)有發(fā)生。目前對(duì)天麻產(chǎn)地鑒別的方法主要是HPLC指紋圖譜[6]、非線性化學(xué)指紋圖譜[7]、電化學(xué)指紋圖譜[8]等方法,但存在需對(duì)天麻樣品進(jìn)行分離提取,處理過程復(fù)雜,耗時(shí)長(zhǎng),所需試劑多等問題。
近年來,隨著化學(xué)計(jì)量學(xué)與計(jì)算機(jī)的發(fā)展,近紅外光譜技術(shù)也迅速發(fā)展,而且具有環(huán)保、高效、成本低、對(duì)樣品無破壞、無需化學(xué)試劑等優(yōu)點(diǎn)。如:張敏等[9]將不同產(chǎn)地的雞血藤(Kadsurainterior)用近紅外漫反射光譜法進(jìn)行采集,運(yùn)用一階導(dǎo)數(shù),矢量歸一化對(duì)其光譜圖進(jìn)行預(yù)處理,并用因子法建立定性鑒別模型,模型能有效鑒別不同產(chǎn)地的雞血藤;楊海龍等[10]采集3個(gè)產(chǎn)地的山楂(CrataeguspinnatifidaBunge)近紅外光譜,用標(biāo)準(zhǔn)正態(tài)變量變換(SNV)和Savitzky-Golay(SG)平滑預(yù)處理方法,判別分析算法(DA)對(duì)3個(gè)產(chǎn)地的山楂進(jìn)行了鑒別;唐艷等[11]采用微分處理,多元散射校正(MSC),Norris Derivative(ND)平滑處理等方法對(duì)西洋參(Panaxquinquefolius)圖譜進(jìn)行預(yù)處理,在全波段采用正交偏最小二乘判別分析算法(OPLS-DA),建立西洋參產(chǎn)地的定性模型;李莉等[12]通過多種預(yù)處理方法,結(jié)合聚類分析、主成分分析、SIMCA 等算法分別對(duì)不同產(chǎn)地駱駝蓬(PeganumharmalaL.)建模進(jìn)行評(píng)價(jià),結(jié)果采用MSC,矢量歸一化,全波長(zhǎng)預(yù)處理方法,結(jié)合SIMCA 算法識(shí)別能力最佳,該方法可以用于駱駝蓬的產(chǎn)地鑒別;馬天翔等[13]采用NIRDRS指紋圖譜技術(shù),結(jié)合二階導(dǎo)數(shù)光譜,相似度分析,主成分分析對(duì)不同產(chǎn)地鎖陽(CynomoriumsongaricumRupr.)進(jìn)行鑒別。
天麻中包含天麻素、天麻苷元、氨基酸、巴利森苷、天麻多糖等有機(jī)物,而這些有機(jī)物含有豐富的N-H、C-H、O-H等含氫基團(tuán),這些含氫基團(tuán)振動(dòng)的倍頻與合頻吸收在近紅外光譜區(qū)有響應(yīng)。利用這一原理,采集天麻樣品的近紅外光譜,可以獲得大量的特征信息,以期將近紅外光譜技術(shù)用于天麻的產(chǎn)地鑒別。
各地天麻樣品88個(gè)(云南昭通30個(gè),省內(nèi)非昭通28個(gè),省外30個(gè)),經(jīng)西南林業(yè)大學(xué)天麻研究院劉祥義教授鑒定,樣品來源詳見表1。
表1 樣品編號(hào)及產(chǎn)地Tab.1 The number and sources of samples
續(xù)表1
AntarisⅡ傅立葉變換近紅外光譜儀(美國(guó)Thermo Fisher公司);PTF 100型中藥粉碎機(jī)(濟(jì)南樂瑞醫(yī)療器械有限公司;101-2ES 電熱鼓風(fēng)干燥箱(北京市永光明醫(yī)療儀器有限公司);60目不銹鋼篩網(wǎng)(北中西泰安公司);SIMCA-P+11.0軟件(瑞典Umetrics公司);RESULT 3.0光譜采集軟件;TQ Analyst 8.6軟件;WEKA 3.6.6軟件。
1.3.1 樣品預(yù)處理
用自來水把不同產(chǎn)地收集天麻樣品清洗干凈,洗凈后用蒸餾水沖洗3次,切成2 mm的薄片、放入蒸鍋中蒸制3~5 min,將蒸制好的天麻薄片放入烘箱中溫度調(diào)至60 ℃烘干,烘干后取出放入中藥粉碎機(jī)粉碎,過60目篩網(wǎng),篩網(wǎng)上樣品放入粉碎機(jī)再次粉碎,直至全部可過篩,將樣品存至密封袋備用。
1.3.2 采集近紅外光譜
將制好的天麻樣品放入平衡箱平衡1.5 h,使樣品含水量在10%到12%,將15 g樣品放入采樣杯,混勻壓緊。利用配備RESULT 3.0光譜采集軟件的AntarisⅡ傅里葉變換近紅外光譜儀采集天麻光譜。天麻光譜的采集方式為積分球漫反射模式,分辨率為8 cm-1,掃描范圍為10 000~ 4 000 cm-1,次數(shù)為64次。為減小實(shí)驗(yàn)誤差,每個(gè)樣本重復(fù)測(cè)定3次,取平均光譜[14-15],見圖1。
圖1 樣品原始光譜Fig.1 The original spectrum of samples
1.3.3 訓(xùn)練集和驗(yàn)證集的選擇
將不同產(chǎn)地的樣品隨機(jī)分為訓(xùn)練集和驗(yàn)證集,其比例為3∶1,并對(duì)其進(jìn)行分類賦值(表2)。訓(xùn)練集用于建立天麻產(chǎn)地的定性模型,驗(yàn)證集用于驗(yàn)證定性模型對(duì)天麻樣品的預(yù)測(cè)能力。
表2 樣品分類及數(shù)量Tab.2 Classification and quantity of samples
1.3.4 近紅外光譜預(yù)處理
近紅外光譜受多方面因素影響,如樣品顆粒尺寸、光程、溫度、儀器采集時(shí)間等,會(huì)對(duì)模型準(zhǔn)確性造成影響,因此需要對(duì)光譜進(jìn)行一定的預(yù)處理[16-19]。本研究采用標(biāo)準(zhǔn)正態(tài)變量變換(SNV)與一階微分光譜(first derivative spectrum,FD)、二階微分光譜(second derivative spectrum,SD)、原始光譜(original spectrum,O),Savitzky-Golay(SG)和Norris Derivative(ND)兩種平滑方法相互組合的方法(表3),探索適合天麻產(chǎn)地鑒別的光譜預(yù)處理方法。
表3 光譜預(yù)處理方法Tab.3 Pre-treatment method of spectrum
1.3.5 特征波段的選擇
PCA-MD模型選擇經(jīng)過最佳預(yù)處理的訓(xùn)練集的方差光譜,選取方差較大的波段進(jìn)行分析,見圖2。PLS-DA模型通過變量重要性圖(variable importance plot,VIP),選擇自變量對(duì)因變量影響大于1的波段[20]。
圖2 方差光譜Fig.2 Variance spectrum
1.3.6 主成分?jǐn)?shù)的選擇
主成分?jǐn)?shù)采用內(nèi)部交互驗(yàn)證法篩選,主成分?jǐn)?shù)的選擇對(duì)模型預(yù)測(cè)能力有很大影響。主成分過少,會(huì)因光譜信息遺漏導(dǎo)致擬合不足;主成份過大,模型會(huì)包含過多的噪音,出現(xiàn)過擬合現(xiàn)象,當(dāng)交互驗(yàn)證均方根誤差(RMSECV)最小時(shí),對(duì)應(yīng)主成分?jǐn)?shù)最佳[21]。
1.3.7 定性模型建立與評(píng)價(jià)
通過訓(xùn)練集的內(nèi)部交叉驗(yàn)證來判斷模型的質(zhì)量,RMSECV越小,穩(wěn)健性越好,準(zhǔn)確率越高,模型的可信度越高。用驗(yàn)證集的外部驗(yàn)證來判斷模型的預(yù)測(cè)能力,Q2越大,說明模型預(yù)測(cè)能力越好。
2.1.1 主成分分析
選擇表3中最優(yōu)預(yù)處理方法SNV+SD+ND處理光譜,根據(jù)方差光譜(圖2)選擇方差大的波段(4 050~6 100 cm-1,6 800~7 500 cm-1),根據(jù)主成分貢獻(xiàn)率及累計(jì)貢獻(xiàn)率選擇主成分,選擇貢獻(xiàn)率大于1%的主成分,并滿足累計(jì)貢獻(xiàn)率大于70%的原則,選擇6個(gè)主成分?jǐn)?shù),結(jié)果見表4。用PCA-MD算法進(jìn)行建模,對(duì)3種產(chǎn)地的天麻進(jìn)行主成分分析(圖3)。其中1為昭通天麻,2為省內(nèi)非昭通天麻,3為省外天麻。通過對(duì)前3個(gè)主成分進(jìn)行分析可以看出3個(gè)產(chǎn)地的天麻明顯成簇聚集,呈現(xiàn)出較為明顯的區(qū)域分布特征,說明相同產(chǎn)地的天麻有一定的相似性,不同產(chǎn)地的天麻有明顯的差異;1、2分布相對(duì)集中,3的分布較分散,說明昭通天麻、省內(nèi)非昭通的天麻相似度高,成分差異相對(duì)較小,省外天麻成分差異較大,這與采集的省外天麻產(chǎn)地眾多有關(guān)。1與2、3的距離較遠(yuǎn),而2、3雖然可以分開,但距離很近,說明昭通天麻與省內(nèi)非昭通和省外的天麻成分相差較大,而省內(nèi)非昭通與省外的天麻相比,雖然成分也有差異,但差異并不十分明顯。
表4 主成分及貢獻(xiàn)率Tab.4 Principal components and contribution rate
圖3 主成分得分的3D展示
2.1.2 馬氏距離
對(duì)主成分進(jìn)行分析,可以得知相同產(chǎn)地的天麻之間,不同產(chǎn)地的天麻之間的一些關(guān)系,但要想將這些關(guān)系表達(dá)清楚,還需要一些數(shù)據(jù)的引入,馬氏距離(mahalanobis distance,MD)這一統(tǒng)計(jì)量可以有效地反映類內(nèi)與類間的關(guān)系。類內(nèi)馬氏距離小,說明樣品相似度高,類間馬氏距離大,說明兩產(chǎn)地樣品差異大,反之亦然。根據(jù)極限中心定理和3δ原則[22],用馬氏距離確定不同產(chǎn)地天麻的類內(nèi)與類間的控制閾值(表5、表6)。對(duì)驗(yàn)證集的22個(gè)樣品進(jìn)行外部驗(yàn)證,所有樣品均在控制閾值內(nèi),全部可以進(jìn)行判別,2個(gè)樣品判別錯(cuò)誤,整體準(zhǔn)確率達(dá)到90.91%,見表7。
表5 馬氏距離平均值Tab.5 Average value of Mahalanobis distance
表6 類內(nèi)馬氏距離控制閾值Tab.6 Class Mahalanobis distance control threshold
表7 外部驗(yàn)證結(jié)果Tab.7 External validation results
選擇SNV+SD+ND預(yù)處理方法,根據(jù)VIP法選擇VIP值大于1的波段,用此法最終選擇波段并不連續(xù),由許多波段累加組合,主要長(zhǎng)波段為4 045~6 036、6 907~7 463 cm-1,其余為小波段。按主成分特征值大于1,累計(jì)貢獻(xiàn)率大于70%的原則[20],選擇4個(gè)主成分?jǐn)?shù),顯著性均為R1(表8),用PLS-DA算法進(jìn)行建模(圖4)。由圖4可看出1、2、3可明顯分開,對(duì)PLS-DA得分圖進(jìn)行分析,該模型自變量累計(jì)解釋能力(R2X)=0.764,因變量累計(jì)解釋能力(R2Y)=0.903,Q2=0.851,RMSECV=0.192 6。表示4個(gè)主成分對(duì)自變量變異的解釋能力為76.4%,對(duì)因變量變異的解釋能力為90.3%,對(duì)不同產(chǎn)地天麻的預(yù)測(cè)能力為85.1%,交叉驗(yàn)證均方根誤差為0.192 6,可以看出模型具有良好的解釋能力和預(yù)測(cè)能力并且有較好的穩(wěn)健性。為了驗(yàn)證PLS-DA模型的可靠性,對(duì)模型進(jìn)行置換檢驗(yàn),X矩陣不變,將Y矩陣變量隨機(jī)排列200次得到置換檢驗(yàn)驗(yàn)證圖(圖5)。模型可靠性與擬合直線的斜率,直線與Y軸的截距有關(guān),斜率越大,截距越小,可靠性越高,圖中兩直線R2=0.202小于0.3,Q2=-0.337小于0,且兩條直線斜率都較大,說明未出現(xiàn)過擬合現(xiàn)象。并對(duì)模型進(jìn)行交叉驗(yàn)證方差分析(CV-ANOVA),結(jié)果顯示F=49.62,P=0,表明該模型在統(tǒng)計(jì)上顯著有效。對(duì)驗(yàn)證集的22個(gè)樣品進(jìn)行外部驗(yàn)證,根據(jù)Galtier判別準(zhǔn)則[23],除70號(hào)判別錯(cuò)誤外,其余均判別正確,整體準(zhǔn)確率達(dá)到95.45%,見表9。
表8 主成分?jǐn)?shù)的選擇Tab.8 The choice of the number of principal component
圖4 PLS-DA散點(diǎn)3D模型Fig.4 Scatter 3D plot PLS-DA
圖5 置換檢驗(yàn)的驗(yàn)證直觀效果Fig.5 Plot of replacement test
用TQ軟件采集不同產(chǎn)地天麻樣品的近紅外光譜,對(duì)天麻光譜進(jìn)行SNV+SD+ND預(yù)處理,用方差法選取4 050~6 100、6 800~7 500 cm-1波段的光譜,結(jié)合PCA-MD算法進(jìn)行建模,提取模型的馬氏距離,主成分累計(jì)貢獻(xiàn)率對(duì)模型進(jìn)行評(píng)估,結(jié)果顯示模型較好,根據(jù)極限中心定理和3δ原則對(duì)驗(yàn)證集進(jìn)行預(yù)測(cè),判別正確率為90.91%。在原預(yù)處理光譜的基礎(chǔ)上,用SIMCA軟件VIP法選取主要波段為4 045~6 036、6 907~7 463 cm-1,其余為零散波段的光譜,建立PLS-DA模型,提取模型的R2X,R2Y,Q2,RMSECV對(duì)模型進(jìn)行評(píng)估,結(jié)果顯示模型良好,并對(duì)模型進(jìn)行置換檢驗(yàn)和CV-ANOVA,驗(yàn)證模型無過擬合現(xiàn)象,且在統(tǒng)計(jì)上顯著有效,根據(jù)Galtier判別準(zhǔn)則對(duì)驗(yàn)證集進(jìn)行預(yù)測(cè),判別正確率達(dá)到95.45%。通過比較,PLS-DA模型在天麻產(chǎn)地鑒別上優(yōu)于PCA-MD模型,可以更為準(zhǔn)確的鑒別天麻產(chǎn)地,為天麻產(chǎn)地鑒別提供了一種新的方法。