胡翼然,李杰慶,劉鴻高,范茂攀*,王元忠
1. 云南農(nóng)業(yè)大學(xué)資源與環(huán)境學(xué)院,云南 昆明 650201 2. 云南農(nóng)業(yè)大學(xué)農(nóng)學(xué)與生物技術(shù)學(xué)院,云南 昆明 650201 3. 云南省農(nóng)業(yè)科學(xué)院藥用植物研究所,云南 昆明 650200
絨柄牛肝菌(BoletustomentipesEarle)隸屬于牛肝菌科(Boletaceae),又名黑牛肝、毛腳牛肝菌,是中國西南地區(qū)常見的野生食用牛肝菌,其子實(shí)體富含人體必需的蛋白質(zhì)、維生素及礦質(zhì)元素等營養(yǎng)元素,是一種健康食品[1]。野生食用菌子實(shí)體中營養(yǎng)元素的積累量,受海拔、溫度、降水等影響巨大[2]。云南地形多樣,氣候復(fù)雜,野生牛肝菌資源豐富,是絨柄牛肝菌的主產(chǎn)區(qū)之一,但不同地區(qū)間生長環(huán)境差異大,導(dǎo)致各地絨柄牛肝菌品質(zhì)優(yōu)劣不一。魯永新等[3]的研究表明云南各地野生食用菌生長環(huán)境差異顯著,且不同產(chǎn)地間差異顯著。Falandysz等[4]的研究也表明不同產(chǎn)地間絨柄牛肝菌的品質(zhì)差異顯著。為防止劣質(zhì)產(chǎn)地的絨柄牛肝菌流入市場,確保優(yōu)質(zhì)產(chǎn)地的絨柄牛肝菌不被混淆,促進(jìn)野生食用牛肝菌市場穩(wěn)健發(fā)展,急需建立一種準(zhǔn)確、快速、廉價(jià)的絨柄牛肝菌產(chǎn)地鑒別技術(shù)。
傳統(tǒng)形態(tài)分類學(xué)鑒別技術(shù),鑒別準(zhǔn)確率低、受主觀影響大; 現(xiàn)代分子生物學(xué)鑒別技術(shù),雖然分類準(zhǔn)確,但成本昂貴、操作復(fù)雜、樣本損耗大; 化學(xué)指紋圖譜結(jié)合化學(xué)計(jì)量學(xué)鑒別產(chǎn)地,因具有準(zhǔn)確、快速、廉價(jià)的特點(diǎn)而迅速發(fā)展。近年來,野生牛肝菌產(chǎn)地鑒別以單一化學(xué)指紋圖譜為主如中紅外光譜法、紫外光譜法[5]、高效液相色譜法[6]、電感耦合等離子體-原子發(fā)射光譜法[7]等,然而野生牛肝菌化學(xué)組成復(fù)雜,單一指紋圖譜無法完全表征樣品化學(xué)信息。現(xiàn)階段,利用數(shù)據(jù)融合策略串聯(lián)不同儀器取得了相較于單一光譜更精準(zhǔn)的鑒別效果,成為食品質(zhì)量控制領(lǐng)域的熱門研究方向。近紅外與中紅外光譜由于波段不同,反映的化學(xué)信息也不同,可以起到互補(bǔ)作用,更全面的表征樣品的化學(xué)信息。如Li等[8]在三七產(chǎn)地鑒別研究中,掃描三七粉的近紅外和中紅外光譜,結(jié)合隨機(jī)森林建立鑒別模型,研究表明,利用高級(jí)融合策略與中級(jí)融合策略有效提高模型分類性能,驗(yàn)證集正確率均達(dá)100%。Wang等[9]在石斛種類鑒別研究中,掃描石斛粉的近紅外和中紅外光譜,結(jié)合偏最小二乘判別、支持向量機(jī)、隨機(jī)森林建立判別模型,結(jié)果表明,初級(jí)融合策略有效提高模型分類性能,驗(yàn)證集正確率達(dá)100%。
迄今為止,野生牛肝菌的產(chǎn)地鑒別以中紅外光譜為主,基于近紅外光譜對(duì)野生牛肝菌產(chǎn)地鑒別未見系統(tǒng)報(bào)告。本研究挖掘不同部位絨柄牛肝菌近紅外和中紅外的光譜信息,結(jié)合隨機(jī)森林建立判別模型,鑒別4個(gè)產(chǎn)地的絨柄牛肝菌,根據(jù)分類效果選出絨柄牛肝菌產(chǎn)地鑒別方法,為野生常見食用牛肝菌鑒別和質(zhì)量控制提供參考。
87份絨柄牛肝菌采自云南4個(gè)氣候帶,分別為北亞熱帶、北溫帶、南亞熱帶、中亞熱帶(圖1,表1)均由云南農(nóng)業(yè)大學(xué)劉鴻高教授鑒定。樣品采集后用純水清潔表面,置于50 ℃烘箱烘干至恒重,研磨成粉過80目標(biāo)準(zhǔn)篩盤,分別保存于聚氯乙烯自封袋中,儲(chǔ)存于干燥避光處。
圖1 絨柄牛肝菌地理位置Fig.1 The geographic location of Boletus tomentipes
表1 絨柄牛肝菌產(chǎn)地信息Table 1 The specific geographical origin information of Boletus tomentipes
UPT-I-10L型超純水處理器(四川成都優(yōu)越科技有限公司); 101A-1型電熱鼓風(fēng)恒溫干燥箱(上海崇明實(shí)驗(yàn)儀器廠); AR1140型電子分析天平(上海升隆電子科技有限公司); Antaris Ⅱ型傅里葉變換近紅外光譜儀(Thermo Fisher公司,USA),配置漫反射模塊; Frontier傅里葉變換中紅外光譜儀(Perkin Elmer公司, USA); FW-100型高速粉碎機(jī)(浙江華鑫儀器廠); YP-2型壓片機(jī)(上海山岳科學(xué)儀器有限公司); 80目標(biāo)準(zhǔn)篩盤(浙江紹興道墟五四儀器廠); 分析純級(jí)溴化鉀(天津風(fēng)船化工科技有限公司)。
1.3.1 中紅外指紋圖譜采集
中紅外光譜是由Frontier型傅里葉變換紅外光譜儀采集。取(1.5±0.2) mg絨柄牛肝菌樣品和(150±20) mg溴化鉀粉末在瑪瑙研缽中磨細(xì)混勻,再將細(xì)粉倒入壓片機(jī)中制成薄片,掃描。掃描波數(shù)范圍4 000~400 cm-1,分辨率4 cm-1,信號(hào)累計(jì)掃描次數(shù)16次。每個(gè)樣本重復(fù)掃描3次,取平均光譜。
1.3.2 近紅外指紋圖譜采集
近紅外光譜由Antaris Ⅱ型傅里葉變換近紅外光譜儀用漫反射顯微鏡采集。稱取20 g絨柄牛肝菌粉末,置于玻璃器皿中壓縮,掃描。掃描波數(shù)范圍10 000~4 000 cm-1,分辨率4 cm-1,信號(hào)累計(jì)掃描次數(shù)64次。每個(gè)樣本重復(fù)掃描3次,取平均光譜。
隨機(jī)森林(random forest, RF)是一種基于決策樹和自助采樣法的集成學(xué)習(xí)方法。本研究在RStudio(3.5.3)中使用randomForest包構(gòu)建RF模型,原理如圖2所示,具體步驟如下: (1) 總樣本數(shù)為Y,利用自助采樣法提取y(約2/3的Y)構(gòu)建決策樹; (2) 每個(gè)樣本有M個(gè)變量,隨機(jī)取其中m個(gè)樣本; (3) 重復(fù)(1)和(2)過程n次,建立n棵決策樹; (4) 每棵決策樹自由生長產(chǎn)生一個(gè)決策結(jié)果,n棵決策樹進(jìn)行投票,分類結(jié)果取決于RF中所有決策樹的多數(shù)表決。
圖2 隨機(jī)森林原理Fig.2 Schematic of random forest
紅外光譜表征樣品化學(xué)信息全面,但也帶來維數(shù)詛咒的問題,同時(shí)紅外光譜中含有大量的噪聲和干擾變量,使得其預(yù)測性能不可靠。因此,要得到一個(gè)擬合良好的模型,篩選特征變量是一種有效方法。本工作使用的3種特征變量篩選方法在食品領(lǐng)域鑒別研究中已有廣泛應(yīng)用:
投影重要性指標(biāo)值(variable importance in projection, VIP)表示自變量對(duì)模型擬合的重要性,VIP值越高,波長點(diǎn)對(duì)標(biāo)簽的解釋能力越強(qiáng)[10]。根據(jù)VIP用10折交叉驗(yàn)證對(duì)各波長點(diǎn)進(jìn)行迭代篩選,選出有效波長點(diǎn)作為特征變量。Boruta算法是圍繞RF算法構(gòu)建的包裝器,通過創(chuàng)建混合副本,重新排列原始特征,使每個(gè)波長點(diǎn)有對(duì)應(yīng)的陰影特征,比較真實(shí)樣本與最佳陰影特征的排列精度重要性,將每個(gè)變量劃分為確定、暫定、拒絕這3個(gè)標(biāo)簽[11]。該特征提取方法,可以評(píng)估所有波長點(diǎn)的重要性,去除負(fù)面變量,得到一個(gè)最小最優(yōu)的特征子集,提高模型分類性能。提取標(biāo)簽為確定、暫定的波長點(diǎn)作為特征變量。潛在變量(latent variable, LV)類似于作成分,基于偏最小二乘關(guān)聯(lián)算法將數(shù)據(jù)正交變換為互不線性相關(guān)的多組LV,提取對(duì)數(shù)據(jù)解釋能力強(qiáng)的LV代替原始數(shù)據(jù)。根據(jù)Q2(累計(jì)預(yù)測能力)第一次到達(dá)最大值時(shí)的因子數(shù)確定提取LV個(gè)數(shù)。
數(shù)據(jù)融合分為3個(gè)層次低級(jí)融合,中級(jí)融合,高級(jí)融合。低級(jí)融合又名數(shù)據(jù)級(jí)融合,直接將多個(gè)數(shù)據(jù)矩陣串聯(lián)得到一個(gè)新的數(shù)據(jù)矩陣,再建立鑒別模型; 中級(jí)融合又名特征級(jí)融合,將多個(gè)特征值數(shù)據(jù)矩陣串聯(lián)得到一個(gè)新的數(shù)據(jù)矩陣,再建立鑒別模型; 高級(jí)融合又名決策級(jí)融合,提取各指紋圖譜特征值建立判別模型獲得分類結(jié)果,再根據(jù)一定準(zhǔn)則對(duì)各分類結(jié)果進(jìn)行融合,最終得到整體一致的決策。本工作根據(jù)中級(jí)融合分類結(jié)果選出最合適的特征值,再基于“模糊集合論”,把各獨(dú)立模型的模糊現(xiàn)象(同一樣品在不同光譜信息來源下有不同分類結(jié)果)通過最小值(Min)、最大值(Max)、平均值(Avg)和乘積(Prod)這4種運(yùn)算符連接,再進(jìn)行多數(shù)投票,表決出最終樣品分類結(jié)果。
不同地區(qū)絨柄牛肝菌間有相似的峰位、峰型,代表不同產(chǎn)地間絨柄牛肝菌所含化學(xué)成分相似,但吸光度差異明顯,代表不同產(chǎn)地間化學(xué)成分含量不同。圖3(a)和(c)與(b)和(d)比較可以看出絨柄牛肝菌菌柄與菌蓋的吸光度差異不明顯,代表絨柄牛肝菌菌柄和菌蓋積累的化學(xué)物質(zhì)相當(dāng)。從光譜圖中可以反映樣品間存在細(xì)微差異,但僅靠光譜圖無法實(shí)現(xiàn)產(chǎn)地的精準(zhǔn)鑒別,因此需進(jìn)一步結(jié)合化學(xué)計(jì)量學(xué)鑒別產(chǎn)地。
圖3 不同產(chǎn)地絨柄牛肝菌的近紅外和中紅外平均光譜(a): 菌柄的近紅外平均光譜; (b): 菌蓋的近紅外平均光譜;(c): 菌柄的中紅外平均光譜; (d): 菌蓋的近紅外平均光譜Fig.3 Near-infrared and mid-infrared average spectra of Boletus tomentipes from different sampling places(a): Near-infrared awerage spectra of stipes; (b): Near-infrared average spectra of caps;(c): Mid-infrared average spectra of stipes; (d): Mid-infrared average spectra of caps
使用Kennard-Stone算法將數(shù)據(jù)集(87)分為2/3的訓(xùn)練集(58)和1/3的驗(yàn)證集(29)。如圖4隨機(jī)森林參數(shù)選擇圖所示,根據(jù)OOB選出ntree和mtry,如表2單一光譜模型主要參數(shù)圖,其中4個(gè)單一光譜(N-c,N-g,M-b,M-g)所建立的模型,驗(yàn)證集正確率在72.4%~86.2%之間,預(yù)測效果優(yōu)劣依次為N-g(86.2%),N-b(86.1%),M-b(82.8%),M-g(72.4%)。近紅外光譜的預(yù)測效果優(yōu)于中紅外光譜的預(yù)測效果,表明近紅外光譜相對(duì)于中紅外光譜在絨柄牛肝菌產(chǎn)地鑒別上有更好的預(yù)測能力。但單一光譜模型訓(xùn)練集正確率與驗(yàn)證集正確率之間相差超過20%,欠擬合風(fēng)險(xiǎn)大,結(jié)合RF用于對(duì)絨柄牛肝菌產(chǎn)地鑒別效果不理想,原因可能是光譜中的噪音影響了模型擬合能力。
圖5(a)為Boruta算法篩選的波數(shù),標(biāo)簽0代表拒絕,標(biāo)簽1代表暫定,標(biāo)簽2代表確定。其中,從N-b的3 112個(gè)變量中篩選出6個(gè)確定標(biāo)簽,23個(gè)暫定標(biāo)簽; 從N-g的3 112個(gè)變量中篩選出1個(gè)確定標(biāo)簽,28個(gè)暫定標(biāo)簽; 從M-b的1 867個(gè)變量中篩選出1個(gè)確定標(biāo)簽,56個(gè)暫定標(biāo)簽; 從N-b的3 112變量中篩選出1個(gè)確定標(biāo)簽,31個(gè)暫定標(biāo)簽。圖5(b)為根據(jù)VIP排列的變量,迭代10次后進(jìn)行交叉驗(yàn)證的錯(cuò)誤率,當(dāng)交叉驗(yàn)證錯(cuò)誤率最低時(shí),其變量數(shù)為最優(yōu)變量數(shù)。其中,篩選N-b的前22個(gè)變量為最優(yōu)變量數(shù); 篩選N-g的前92個(gè)變量為最優(yōu)變量數(shù); 篩選M-b的前427個(gè)變量為最優(yōu)變量數(shù); 篩選M-g的前247個(gè)變量為最優(yōu)變量數(shù)。圖5(c)為根據(jù)Q2確定最優(yōu)LV數(shù),當(dāng)Q2第一次到達(dá)最大值或趨于穩(wěn)定時(shí),其LV數(shù)為最優(yōu)LV數(shù)。其中,N-b的LV數(shù)在11時(shí)Q2趨于穩(wěn)定; N-g的LV數(shù)在10時(shí)Q2達(dá)到最大; N-b的LV數(shù)在10時(shí)Q2第一次達(dá)到最大; N-b的LV數(shù)在12時(shí)Q2達(dá)到最大。
圖4 隨機(jī)森林ntree(左)和mtry(右)選擇圖(a),(b): N-b; (c),(d): N-g; (e),(f): M-b; (g),(h): N-gFig.4 The selection diagram of random forest ntree (left) and mtry (right)(a),(b): N-b; (c),(d): N-g; (e),(f): M-b; (g),(h): N-g
表2 單一光譜模型主要參數(shù)Table 2 The major parameters of single spectral model
圖5 特征選擇圖(a): Boruta算法; (b): VIP; (c): LVFig.5 Feature selection diagram(a): Boruta algorithm; (b): VIP; (c): LV
2.4.1 低級(jí)融合
將四個(gè)單一光譜矩陣[(N-b),(N-g),(M-b),(M-g)]進(jìn)行低級(jí)融合形成一個(gè)87個(gè)樣本×9 958個(gè)變量的矩陣,其中N-b提供3 112個(gè)變量,N-g提供3 112個(gè)變量,M-b提供1 867個(gè)變量,M-g提供1 867個(gè)變量。
2.4.2 中級(jí)融合
篩選VIP提取四個(gè)單一光譜[(N-b),(N-g),(M-b),(M-g)]的特征值形成一個(gè)87個(gè)樣本×788個(gè)變量的矩陣,其中N-b提供22個(gè)變量,N-g提供92個(gè)變量,M-b提供427個(gè)變量,M-g提供247個(gè)變量。篩選Boruta提取四個(gè)單一光譜[(N-b),(N-g),(M-b),(M-g)]的特征值形成一個(gè)87個(gè)樣本×147個(gè)變量的矩陣,其中N-b提供29個(gè)變量,N-g提供29個(gè)變量,M-b提供57個(gè)變量,M-g提供32個(gè)變量。提取四個(gè)單一光譜[(N-b),(N-g),(M-b),(M-g)]的LV形成一個(gè)87個(gè)樣本×43個(gè)變量的矩陣,其中N-b提供11個(gè)LV,N-g提供10個(gè)LV,M-b提供10個(gè)LV,M-g提供12個(gè)LV。
2.4.3 高級(jí)融合
基于特征值LV進(jìn)行高級(jí)融合。提取四個(gè)單一光譜[(N-b),(N-g),(M-b),(M-g)]的LV結(jié)合RF建立鑒別模型,其中,N-b有12個(gè)錯(cuò)誤、N-g有11個(gè)錯(cuò)誤、M-b有17個(gè)錯(cuò)誤、M-g有18個(gè)錯(cuò)誤,對(duì)4個(gè)模型的分類結(jié)果進(jìn)行決策??偣?7組樣品中有45組樣品需要進(jìn)行高級(jí)融合,如表3所示,其中有2組分類錯(cuò)誤(6,26),2組分類歧義(8,52),43組分類正確。其中,6號(hào)樣品被N-g和M-b錯(cuò)誤分類為class4,M-g錯(cuò)誤分類為class3,N-b正確分類為class1,經(jīng)高級(jí)融合后,錯(cuò)誤分類為class4。
表3 未正確分類樣品高級(jí)融合結(jié)果Table 3 The results of high-level fusion of misclassification samples
2.4.4 小結(jié)
基于數(shù)據(jù)融合策略建立鑒別模型的主要參數(shù)如表4所示,低級(jí)融合策略相較于單一光譜使模型表現(xiàn)出更強(qiáng)的擬合能力增強(qiáng)和分類效果,表明近紅外結(jié)合中紅外光譜對(duì)分類性能起協(xié)同作用; 基于VIP的中級(jí)融合策略相較于單一光譜和低級(jí)融合策略模型,數(shù)據(jù)量小,分類能力提高,但模型擬合能力變?nèi)?,欠擬合風(fēng)險(xiǎn)增加,原因可能為其特征變量受異常值影響,導(dǎo)致模型過擬合; 基于Boruta的中級(jí)融合策略相較于單一光譜、低級(jí)融合策略和基于VIP的中級(jí)融合策略,數(shù)據(jù)量小,模型擬合性能良好,表明該方法可提高模型分類性能; 基于LV的中級(jí)融合策略相較基于VIP和Boruta的中級(jí)融合策略,模型擬合能力優(yōu)秀,分類性能高,數(shù)據(jù)量小,原因可能為其特征變量解釋樣品的大部分信息,充分挖掘樣品信息。
高級(jí)融合策略相較于單一光譜和低級(jí)融合策略,中級(jí)融合策略效果更好。低級(jí)融合不僅融合了有效信息,還融合了很多干擾信息。中級(jí)融合策略在提取特征值的過程中去除樣品無效信息,不僅降低運(yùn)算成本,而且增加了有效信息,提高了模型分類性能。高級(jí)融合策略汲取了中級(jí)融合策略的優(yōu)點(diǎn),再加上“模糊集合論”的對(duì)分類結(jié)果決策,更進(jìn)一步提高了模型分類性能。研究表明,提取特征值LV與數(shù)據(jù)融合策略組合挖掘絨柄牛肝菌紅外光譜信息,可以大幅提高模型分類效果,與Li[8]等鑒別三七產(chǎn)地研究結(jié)果相似。
表4 數(shù)據(jù)融合主要參數(shù)Table 4 Major parameters of data fusion
研究了絨柄牛肝菌不同部位近紅外光譜和中紅外光譜及數(shù)據(jù)挖掘?qū)Ξa(chǎn)地溯源的可行性。結(jié)果表明: (1)近紅外和中紅外光譜均能反映不同產(chǎn)地絨柄牛肝菌間的微小差異; (2)單一光譜結(jié)合RF建立判別模型不理想,平均正確率僅81.9%; (3)三種數(shù)據(jù)融合策略均可提高絨柄牛肝菌的產(chǎn)地鑒定效果,產(chǎn)地鑒別效果優(yōu)劣依次為高級(jí)融合、中級(jí)融合、低級(jí)融合。
通過掃描絨柄牛肝菌近紅外和中紅外光譜,使用基于特征變量LV的高級(jí)融合策略,結(jié)合RF建立不同產(chǎn)地絨柄牛肝菌鑒別模型,有高產(chǎn)地驗(yàn)證集正確率(99.6%),高靈敏度(0.969),高特異性(0.986),實(shí)現(xiàn)了絨柄牛肝菌產(chǎn)地的準(zhǔn)確、快速、廉價(jià)鑒別,可以作為絨柄牛肝菌產(chǎn)地鑒別的一種可靠方法。